WO2020188971A1 - 特徴推定方法、特徴推定装置、プログラム及び記録媒体 - Google Patents
特徴推定方法、特徴推定装置、プログラム及び記録媒体 Download PDFInfo
- Publication number
- WO2020188971A1 WO2020188971A1 PCT/JP2020/000837 JP2020000837W WO2020188971A1 WO 2020188971 A1 WO2020188971 A1 WO 2020188971A1 JP 2020000837 W JP2020000837 W JP 2020000837W WO 2020188971 A1 WO2020188971 A1 WO 2020188971A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- condition
- identification information
- learning
- model
- estimation
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Definitions
- the present invention relates to a feature estimation method and a feature estimation device for estimating a feature of an object, and more particularly to a feature estimation method and a feature estimation device for estimating a feature by an estimation model constructed by performing machine learning.
- the present invention also relates to a program for causing a computer to execute the process of constructing the above estimation model, and a computer-readable recording medium on which the program is recorded.
- Patent Document 1 describes a technique for predicting the characteristics of a compound using a neural network.
- Patent Document 1 is "a method for predicting properties other than the color of a chemical mixture, which includes chemical mixture variables including the amount of components of the chemical mixture, environmental and process conditions, and actually measured characteristics of the chemical mixture.
- the process of collecting data including, and the process of creating a neural network that clarifies the effect of chemical mixture variables on the characteristics of the measured chemical mixture, and supervising the neural network using the above data. It is a method having a step of learning and a step of predicting the characteristics of a new chemical mixture forward by a neural network.
- a neural network is trained to clarify the relationship between the chemical mixture variable and the measured result of the chemical mixture property, and the trained neural network is used to predict the property of the new chemical mixture. be able to. As a result, it becomes possible to predict (estimate) the characteristics of the new chemical mixture without conducting additional experiments.
- Such a technology is called materials informatics, and is attracting attention in the field of material development and the like.
- Patent Document 1 when using the technique described in Patent Document 1, it is necessary to learn (supervised learning) using the measured data of the characteristics of the chemical mixture. However, since experiments and the like are required to acquire the measured data of the characteristics of the chemical mixture, it is conceivable that the number of acquired measured data is relatively small. Then, when learning is performed using a small amount of actual measurement data, a problem of "overfitting" may occur as a result of constructing a prediction model specialized for the small amount of actual measurement data.
- the actual measurement data of the characteristics of the chemical mixture is the data specified under the target condition (actual measurement condition) of the prediction (hereinafter, also referred to as "target data").
- target data actual measurement condition
- the characteristics of the chemical mixture can be calculated using a calculation formula such as first-principles calculation, and the data of such calculation results (hereinafter, also referred to as "auxiliary data") of the target data. It is also possible to use it instead for learning.
- the present invention has been made in view of the above circumstances, and an object of the present invention is to solve the following object. That is, the present invention solves the above-mentioned problems of the prior art, and when estimating the features of an object by using machine learning, it does not depend on the number of features specified under the conditions targeted for estimation.
- An object of the present invention is to provide a feature estimation method and a feature estimation device capable of estimating with high accuracy.
- Another object of the present invention is to provide a program for realizing the above-mentioned feature estimation method by a computer, and a recording medium on which the program is recorded.
- the feature estimation method of the present invention is a feature estimation method for estimating the feature of an object by a computer, and the computer applies descriptive information regarding the configuration of the object and a condition for specifying the feature.
- an estimation model for estimating the features from the descriptive information and the identification information is constructed, and the conditions are a plurality of first conditions. And a second condition that is different from the first condition, and machine learning is specified under each of the descriptive information, the identification information of each of the first conditions, and each of the first conditions.
- the computer uses a plurality of first conditions, including pre-learning using the above-mentioned features, identification information of the second condition, and re-learning using the features specified under the second condition.
- the calculation model for identification information in which the identification information of each of the above is input and the identification information is output after the calculation, and the description information or the information obtained from the description information and the identification information after the calculation are input and the estimation result of the feature is output.
- a non-linear type estimation result output model is constructed, and the computer uses the parameters in the calculation model for identification information as the second condition identification information and the second condition while fixing the parameters in the estimation result output model. It is characterized by updating based on the features specified under the two conditions and constructing an estimation model that estimates the features specified under the second condition from the descriptive information and the identification information of the second condition.
- the computer inputs the description information, the calculation model for the identification information, the calculation model for the identification information, and the description information after the calculation and the identification information after the calculation.
- the computer constructs an estimation result output model that outputs the estimation result of the feature, and the computer calculates the identification information while fixing the parameters in the operation model for description information and the parameters in the estimation result output model.
- the parameters in the model are updated based on the identification information of the second condition and the features identified under the second condition, and the features identified under the second condition from the descriptive information and the identification information of the second condition. It is preferable to build an estimation model that estimates.
- the parameters of the entire estimation model are set by pre-learning, and only the parameters in the calculation model for identification information, which is a part of the estimation model, are updated by re-learning.
- the post-calculation description information is a multidimensional first vector
- the post-calculation identification information is a second vector
- the estimation result output model outputs the estimation result of the feature from the first vector and the second vector.
- a model is more suitable.
- the number of dimensions of the second vector is smaller than the number of parameters in the operation model for descriptive information and smaller than the number of parameters in the estimation result output model.
- the number of dimensions of the second vector is smaller than the number of features specified under the second condition used in the re-learning.
- the calculation model for identification information is a calculation model including a matrix composed of eigendimensional vectors set for each condition, and in re-learning, the component values in the matrix are used as parameters in the calculation model for discrimination information. It is suitable to update.
- the computer performs pre-learning and re-learning by a neural network.
- pre-learning the function family to which the function capable of expressing the correct answer of the estimated feature (hereinafter, also referred to as "correct answer function”) belongs is appropriately found, and by re-learning. , It is possible to identify an estimation model that approximates the correct function.
- the estimation model is a model for estimating the physical property value of the compound as a feature of the object
- the descriptive information is the information describing the structure of the compound according to the linear notation
- the condition is the physical property value of the compound. It may be a condition set to specify.
- the first condition may be a calculation condition set for calculating the physical property value
- the second condition may be an actual measurement condition set for actually measuring the physical property value.
- the feature estimation device of the present invention is a feature estimation device that estimates the features of a target, and is set for descriptive information regarding the configuration of the target and conditions for specifying the features. It has a model construction unit that constructs an estimation model that estimates features from descriptive information and identification information by performing machine learning using identification information and features specified under conditions, and the conditions are a plurality of conditions.
- the machine learning includes one condition and a second condition different from the first condition, and machine learning is performed under each of descriptive information, each identification information of the plurality of first conditions, and each of the plurality of first conditions.
- a plurality of model building units are included, including pre-learning using the identified features, identification information of the second condition, and re-learning using the features specified under the second condition.
- the operation model for identification information in which the identification information of each of the first conditions of the above is input and the identification information is output after the calculation, and the description information or the information obtained from the description information and the identification information after the calculation are input to estimate the characteristics.
- a non-linear estimated value output model that outputs the result and a non-linear estimated value output model are constructed, and in re-learning, the model building unit sets the parameters in the discriminant information calculation model as the second condition while fixing the parameters in the estimated value output model. Update based on the identification information and the features identified under the second condition, and build an estimation model that estimates the features identified under the second condition from the descriptive information and the identification information of the second condition. It is characterized by.
- the present invention also provides a program for causing a computer to execute a process of constructing an estimation model by performing machine learning in the above-described feature estimation method of the present invention.
- the present invention also provides a computer-readable recording medium in which a program for causing a computer to execute a process of performing machine learning in the above-described feature estimation method of the present invention to construct an estimation model is recorded. ..
- the present invention is a feature estimation device including a processor, wherein the processor provides descriptive information about the configuration of a target, identification information set for a condition for specifying the feature, and a feature specified under the condition.
- the machine learning used was carried out to construct an estimation model for estimating features from descriptive information and identification information, and the conditions included a plurality of first conditions and a second condition different from the plurality of first conditions.
- Machine learning includes descriptive information, identification information for each of the plurality of first conditions, and pre-learning using the features identified under each of the plurality of first conditions, and identification information for the second condition.
- the processor inputs the identification information of each of the plurality of first conditions and outputs the identification information after calculation, including re-learning using the features identified under the second condition.
- An informational calculation model and a non-linear estimation result output model in which descriptive information or information obtained from the descriptive information and post-calculation identification information are input and the feature estimation result is output are constructed, and in re-learning,
- the processor updates the parameters in the calculation model for identification information while fixing the parameters in the estimation result output model based on the identification information of the second condition and the features specified under the second condition, and describes the information.
- a feature estimation device configured to construct an estimation model that estimates the features identified under the second condition from the identification information of the second condition.
- the present invention when estimating a target feature using machine learning, a feature that can be estimated with high accuracy regardless of the number of features specified under the target condition of estimation.
- An estimation method and a feature estimation device are provided. Further, according to the present invention, it is possible to provide a program for realizing the above-mentioned feature estimation method of the present invention by a computer, and a recording medium on which the program is recorded.
- the present embodiment A feature estimation method, a feature estimation device, a program, and a recording medium according to an embodiment of the present invention (hereinafter referred to as “the present embodiment”) will be described in detail below with reference to the accompanying drawings. It should be noted that the embodiments described below are merely examples for the purpose of explaining the present invention in an easy-to-understand manner, and do not limit the present invention. That is, the present invention is not limited to the following embodiments, and various improvements or modifications can be made without departing from the gist of the present invention. Moreover, as a matter of course, the present invention includes an equivalent thereof.
- the "object” may be a substance, a person or an animal or plant, a structure, or other tangible object, or may be a sound, light, aroma, or other intangible object.
- the "characteristic” is a property or characteristic of the object, an evaluation of the object, an attribute to which the object belongs, or information recognized from the object (for example, when the object is a voice, a word or phrase that the voice means, etc. ) Etc.
- the physical property value of the compound is estimated as the "characteristic of the object".
- machine learning is performed using data indicating physical property values acquired under different conditions as teacher data, and a mathematical model (hereinafter referred to as "estimation model") for estimating unknown physical property values is constructed.
- the condition is a condition set for specifying the physical property value, and in the present embodiment, two kinds of conditions having different conditions (“first condition” and “second condition” of the present invention). It is roughly divided into.
- machine learning using known target data and known auxiliary data is performed to construct an estimation model for estimating unknown target data.
- the target data according to the present embodiment is a physical property value specified under the conditions targeted for estimation, and specifically, is an actually measured value of the physical property value. Since the known target data is acquired by conducting an experiment, the number of acquired data is relatively small.
- the known target data is the measured value of the physical property value specified under the measured condition (“measured A” in FIG. 1), and is the value shown at the top of FIG.
- FIG. 1 is a table showing the results of specifying the physical property values of each of the plurality of types of compounds for each condition. Note that FIG. 1 shows the amount of light absorption energy of the organic compound as the physical property value of the compound.
- known target data that is, actually measured physical property values
- some compounds lack the measured values of physical properties, and the missing measured values correspond to unknown target data.
- a data group that summarizes known target data will be referred to as a "target data source”.
- the physical property values that is, actually measured values
- corrected answer data the physical property values that are complemented when an experiment is performed on unknown target data
- the auxiliary data according to the present embodiment is a physical property value specified under conditions other than the condition for obtaining the target data.
- the physical property value is calculated by a calculation formula of first-principles calculation or the like. It is a calculated value at the time.
- calculation methods for calculating the absorption wavelength of the same compound by simulation there are many calculation methods for calculating the absorption wavelength of the same compound by simulation, and different calculation results can be obtained by each method.
- the calculation method is specified by a combination of functionals, solvent effects, basis functions, and the like.
- which calculation method the calculation result obtains satisfactorily reproduces the true physical property value depends on the compound to be calculated, the experimental environment, and the like. That is, it is generally difficult to grasp the superiority or inferiority of the above calculation method evaluated from the viewpoint of the reproducibility of the measured value in advance, and the actual superiority or inferiority evaluation is based on the calculation result and the measured value by each calculation method. It is done by comparing.
- auxiliary data showing the calculation results of the physical property values
- a number of data corresponding to the product of the number of types of the compound and the type of the calculation method can be obtained. That is, as can be seen from FIG. 1, the known auxiliary data is overwhelmingly larger than the known target data, and each type of calculation method (specifically, “calculation B” to “calculation” in FIG. 1). Z ”) is obtained for each compound.
- the explanation will be made on the assumption that thousands to tens of thousands of auxiliary data have been obtained. Further, in the following, a data group that summarizes known auxiliary data will be referred to as an "auxiliary data source".
- the auxiliary data acquisition conditions (“calculation B” to “calculation Z” in FIG. 1) are calculation conditions set for calculating the physical property value by the first principle calculation, and are the “first conditions” of the present invention. "Is set multiple times.
- the known target data acquisition condition (“actual measurement A” in FIG. 1) is an actual measurement condition (in other words, an experimental condition) set for actually measuring the physical property value, and is the “first” of the present invention. At least one is set as "two conditions". In the present embodiment, only one target data acquisition condition is set, but of course, a plurality of target data acquisition conditions may be set.
- machine learning is performed using known target data and known auxiliary data, and an estimation model for estimating unknown target data (physical property values of unmeasured compounds) is constructed. ..
- machine learning consists of pre-learning and re-learning, and each learning is carried out by a neural network.
- the neural network contains at least two processing elements, an input layer and an output layer.
- the processing elements are connected to each other and have a predetermined pattern (function) having a predetermined connection weight between the processing elements.
- the neural network that constitutes the estimation model is trained in advance to simulate the response of the physical property value of the compound to the change of the input.
- the binding weighting between the processing elements reflects the relationship between the information (input) regarding the acquisition condition of the compound and its physical property value and the physical property value (output).
- the physical property value corresponding to each combination of the compound type and the acquisition condition of the physical property value can be estimated by the above neural network.
- machine learning is not limited to neural networks, and may be polynomial regression, generalized linear models, or the like. However, since the calculation model for identification information, which will be described later, is updated, it is necessary to learn that the input data can be differentiated.
- pre-learning is first performed, and then re-learning is performed.
- an estimation model is constructed using a training data set (hereinafter, referred to as “pre-learning data set”) including known auxiliary data.
- the pre-training data set includes descriptive information regarding the composition of the compound for which the auxiliary data has been obtained, identification information of the acquisition conditions of the auxiliary data, and calculated values of the physical property values indicated by the auxiliary data (in other words, the auxiliary data). It is a data set in which (physical property values specified under the acquisition conditions of) are set as one set, and specifically, it is created from the data of the second and subsequent stages in the data matrix of FIG.
- the descriptive information and the identification information will be described in detail in a later section.
- the same number of pre-learning data sets as the known auxiliary data that is, thousands to tens of thousands are created, and pre-learning is performed using all the created pre-learning data.
- the estimation model is constructed by pre-learning.
- the parameters in the estimation model specifically, the parameters ⁇ , ⁇ , ⁇ described later are set.
- re-learning data set a training data set including known target data.
- the retraining data set includes descriptive information regarding the composition of the compound for which the target data has been obtained, identification information of the acquisition conditions of the target data, and actual measurement values of the physical property values indicated by the target data (in other words, the target data). It is a data set having a set of (physical property values specified under the acquisition conditions of), and is specifically created from the data at the top of the data matrix of FIG.
- the number of data of the measured value of the physical property value used for the re-learning (that is, the feature specified under the second condition) is the measured value of the physical property value used for the pre-learning (that is, that is). It is overwhelmingly less than the number of data (features identified under the first condition).
- an estimation model for estimating the unknown target data that is, the physical property value of the unmeasured compound is constructed. According to this estimation model, it is possible to accurately estimate (predict) the measured value of the unmeasured physical property value of the compound, so that it is possible to supplement the lack of the measured value without conducting an experiment.
- the conventional method 1 is a regression analysis method that quantifies the relationship between known target data and known auxiliary data, and uses the relationship to predict unknown target data.
- the target data in the uppermost stage that is, the measured value
- the auxiliary data in the second stage that is, the calculation result by calculation B
- Focusing on this a compound having both data (Compound 1, Compound 3 and Compound N in FIG. 1) is selected, and a regression analysis is performed between the target data and the auxiliary data of each compound.
- a regression model (specifically, a regression equation) is obtained as an analysis result.
- an estimated value of the measured value can be obtained.
- the analysis result may not reflect all of the acquired auxiliary data. .. Further, if the function (specifically, the regression equation) indicated by the regression model is not set so as to accurately express the relationship between the target data and the auxiliary data, there is a problem that the estimation accuracy becomes low.
- the conventional method 2 is a method of expressing the acquisition conditions of the physical property values of the compound together with the structure of the compound as descriptive information, and constructing an estimation model in which each descriptive information is input. Specifically, descriptive information regarding the composition of each compound, descriptive information indicating acquisition conditions (specifically, actual measurement conditions and calculation conditions) of various physical property values, and each compound specified under each acquisition condition. A learning data set consisting of the physical property values of is created, machine learning is performed using the learning data set, and an estimation model is constructed. According to this estimation model, by inputting descriptive information regarding the composition of a certain compound and descriptive information regarding actual measurement conditions, it is possible to estimate (predict) the actual measurement value of the physical property value of a certain compound.
- the description information of the acquisition condition of the physical property value is manually set, there is a possibility that the description information is not set appropriately. More specifically, when there are a plurality of items related to the acquisition conditions, it is necessary to select important items that affect the physical property values as descriptive information. If this important matter is not selected, the accuracy of estimating the physical property value may decrease. Further, even if important items are selected, if the contents cannot be quantified as descriptive information, they cannot be incorporated into the estimation model, and as a result, the estimation model may not be properly constructed.
- the conventional method 3 is a method of constructing an estimation model by performing pre-learning using known auxiliary data and then performing re-learning using a small number of known target data.
- the conventional method 3 is common to the present embodiment (that is, the feature estimation method of the present invention).
- the conventional method 3 differs from the present embodiment in that pre-learning is performed using auxiliary data obtained under one type of condition (specifically, one type of calculation condition).
- the conventional method 3 is so-called transfer learning.
- the learning data is a set of known auxiliary data (for example, the calculation result by the calculation B shown in the second stage in FIG. 1) and the descriptive information regarding the composition of the compound from which the data is obtained.
- a set is created, and pre-learning by a neural network is performed using this training data set.
- pre-learning an estimation model of a neural network that estimates the calculation result of physical property values is constructed, in other words, each parameter in the estimation model is set.
- a learning data set consisting of the target data (that is, the measured value of the physical property value) and the descriptive information regarding the composition of the compound obtained from the data is created, and the learning data set is used to create a neural network.
- the neural network estimation model constructed by pre-learning is reconstructed as a model for estimating the measured values of physical property values, in other words, some of the parameters in the estimation model are updated.
- parameters (re-learning parameters) updated at the time of re-learning exist in the output layer or a layer near the output layer in the estimation model composed of the neural network. Therefore, when the number of relearning parameters is small, the function represented by the estimation model after relearning may deviate from the correct answer function. To elaborate on this issue, it is generally necessary to set the number of retraining parameters as small as possible to avoid overfitting the target data during retraining when the number of data in the target data source is very small. ..
- the number of relearning parameters is set to 1. It should be noted that such a case is a case that can actually occur, for example, when only a few target data are obtained.
- the function represented by the estimation model constructed by the pre-learning (function fp in FIG. 2) is expressed by, for example, the following equation (a1).
- fp: y Ax 2 + ⁇ 1 (a1)
- the constants A and ⁇ 1 correspond to the parameters set by the pre-learning.
- the estimation model is a model for estimating a physical property value from descriptive information regarding the composition of a compound and identification information of data acquisition conditions.
- the estimation model is constructed by two phases of machine learning, specifically the pre-learning and re-learning described above.
- the estimation model constructed by the pre-learning reflects the function family to which the correct function belongs (hereinafter, function family F). That is, in the pre-learning, as shown in FIG. 3, the function family F is derived from the entire function based on the calculated physical property values of the compounds shown by each of the large number of auxiliary data. In short, the pre-learning is carried out for the purpose of deriving the function family F to which the correct answer function belongs in order to roughly grasp the correct answer function.
- a function for estimating unknown target data is derived from the function family F. That is, in the present embodiment, by deriving the function family F to which the correct function belongs by pre-learning, even if the number of target data used for the subsequent re-learning is small, the physical property value indicated by the target data. It is possible to obtain a complicated function that can appropriately express the measured value of.
- machine learning by a neural network is carried out in this embodiment, but in this embodiment, a huge number of parameters are used in the neural network. Moreover, according to machine learning by a neural network, it is possible to express a substantially arbitrary function.
- parameters P and Q are roughly divided into two groups (hereinafter, parameters P and Q). Most parameters belong to parameter P, and a very small number of parameters belong to parameter Q.
- the estimated value f (i) of the physical property value by the estimation model can be obtained from the following equation (a3).
- f (i) (i, P, Q) (a3)
- i is input information to the estimation model, and specifically, descriptive information regarding the composition of the compound corresponds.
- the estimated value f (i) of the physical property value can be regarded as a function family having the parameter Q as a variable.
- the function expressing the calculated value of the physical property value indicated by each auxiliary data and the function expressing the actually measured value of the physical property value indicated by each target data belong to the same function family F, they are each.
- the parameters are different between the functions. More specifically, it is assumed that the data acquisition conditions are different between the auxiliary data and the target data, but the parameter P is common regardless of the conditions. On the other hand, it is assumed that the parameter Q changes according to the data acquisition conditions.
- the above parameters are set by performing machine learning by a neural network.
- the parameter P is set by performing pre-learning using a large number of known auxiliary data (calculated values of physical property values).
- the parameter Q required to express the calculated value of the physical property value indicated by each auxiliary data is set.
- the pre-learning is performed, re-learning is performed using a small number of known target data (measured values of physical property values).
- the parameter P is fixed and re-learning by the neural network is performed.
- the parameter Q is updated to a value suitable for estimating the actually measured value of the physical property value indicated by the target data. Since the number of parameters Q is sufficiently small, it is possible to appropriately set the parameters Q even with a small number of target data.
- the present embodiment differs from the conventional method 1 (regression analysis) in which only a part of the auxiliary data is used in that all the known auxiliary data and the known target data are used. Further, in the conventional method 1, it is necessary to grasp the form of the regression equation in advance in order to accurately express the relationship between the target data and the auxiliary data. On the other hand, in the present embodiment, since the function family F is automatically extracted by performing machine learning by the neural network, it is not necessary to grasp the form of the function expression in advance. In this respect, the present embodiment is more advantageous than the conventional method 1.
- the present embodiment unlike the conventional method 2, it is not necessary to manually set the description information regarding the acquisition condition of the physical property value, and specifically, the identification information (specifically, id information) of the acquisition condition is provided. Use to perform machine learning. Therefore, in the present embodiment, it is possible to avoid a situation in which the estimation accuracy of the physical property value is lowered because the description information of the acquisition condition is not properly set, and it also affects the estimation accuracy of the physical property value among the acquisition conditions of the physical property value. Items that affect the above can be automatically extracted. In this respect, the present embodiment is more advantageous than the conventional method 2.
- pre-learning is performed using only the auxiliary data obtained under one kind of condition among the known auxiliary data, whereas in the present embodiment, the above-mentioned is performed. As such, pre-learning is performed using all of the many known auxiliary data. Thereby, in the present embodiment, it is possible to satisfactorily estimate the function family F to which the correct function belongs.
- the re-learning parameters exist on the output side of the estimation model.
- the re-learning parameter exists on the input side of the estimation model as described later. Therefore, in the present embodiment, the function expressing the measured value of the physical property value indicated by the target data can be appropriately expressed within the range of the degree of freedom corresponding to the number of re-learning parameters.
- the function family F to which the correct function fr belongs in FIG. 4, the functions f1 to f3 which are a part of the function family F) Only (shown only) is derived, and in the subsequent retraining, a function (function fv in FIG. 4) to which the target data fits well is selected.
- a complex expression for example, a non-linear expression
- the re-learning parameters are on the input side of the estimation model, and a non-linear arithmetic model (specifically, the estimation result output model 13 described later) exists on the downstream side (closer to the output). Because it is. As a result, even if the number of re-learning parameters needs to be reduced, an estimation model that estimates the measured value of the physical property value with higher accuracy than the transfer learning can be constructed.
- estimation model 10 is composed of a description information calculation model 11, an identification information calculation model 12, and an estimation result output model 13. .
- each configuration model will be described.
- the calculation model 11 for descriptive information constitutes the input side of the estimation model 10.
- the calculation model 11 for description information outputs post-calculation description information by inputting description information regarding the composition of the compound.
- the descriptive information which is the input information is a graph representation in which the structure of the compound is described according to the linear notation.
- the graph representation is a variable-length descriptor that lists the atomic numbers of the atoms that make up a compound and the bond information within the compound.
- the descriptive information is not limited to the graph representation, and may be, for example, a character string representation of the structure of the compound, specifically, a descriptor in SMILES notation (Simplified Molecular Input Line Entry System).
- SMILES descriptor When using the SMILES descriptor, there are many equivalent representation methods for the same compound, and when it has a ring structure, adjacent atoms are described in distant places on the character string. Data efficiency is poor because it has a distance correlation.
- the graph representation has good data efficiency because it is uniquely determined and information on adjacent atoms can be explicitly given to machine learning.
- a k-dimensional (k is a natural number) fixed-dimensional vector representation may be used as another example of the descriptive information.
- the fixed-dimensional vector representation means that among the characteristics of a compound, k compounds (number of atoms, etc.) that can be calculated at low cost are determined in advance, and the characteristics of each compound are calculated in advance and expressed as a vector. It is a descriptor of the compound.
- this fixed-dimensional vector representation it is necessary to examine in advance which of the innumerable properties is effective in improving the accuracy of estimating the physical property value.
- the graph representation since the characteristics suitable for estimating the physical property value can be automatically specified from the graph of the compound by machine learning, it is not necessary to manually select the effective characteristics in advance.
- the post-calculation description information which is the output information
- the descriptive information calculation model 11 is a calculation model that converts (encodes) the descriptive information indicating the structure of the compound represented in a graph into a fixed-dimensional vector.
- the number of dimensions of the first vector which is the post-calculation description information, is a natural number of 2 or more, and is set to an appropriate value.
- the number of dimensions of the first vector is a number corresponding to the number of types of parameters in the descriptive information calculation model 11, and is generally set to several tens to several hundreds.
- the calculation model 11 for descriptive information is composed of a neural network, and more specifically, by connecting one or a plurality of neurons (nodes) of each of the input layer, the intermediate layer, and the output layer with plasticity. It is composed of a large number of interconnected hierarchical neural networks. The number of intermediate layers and the number of neurons in each layer can be arbitrarily set. Further, the neural network constituting the descriptive information calculation model 11 may be a two-layer network having only an input layer and an output layer without having an intermediate layer.
- the neural network constituting the calculation model 11 for descriptive information has a parameter ⁇ .
- This parameter ⁇ is a learning parameter set by machine learning (strictly speaking, pre-learning), and corresponds to the above-mentioned parameter P.
- the number of parameters ⁇ is a number corresponding to the number of layers of the neural network, the number of neurons in each layer, and the like. It is desirable that the number of parameters ⁇ in this embodiment is set to a large number (for example, several thousand to several tens of thousands), reflecting the number of auxiliary data used for pre-learning. As a result, the expressive power of the neural network forming the calculation model 11 for descriptive information can be enhanced.
- the graph representation of the compound (specifically, the variable length descriptor) is input to the calculation model 11 for descriptive information.
- the calculation model 11 for descriptive information is a graph neural network, and more strictly, a message passing neural network devised by Google Inc. (URL: https://arxiv.org/pdf/1704.01212.pdf). (Technology published in Japan).
- a message passing neural network is a typical configuration for processing a graph representation of a compound structure with a neural network.
- the identification information calculation model 12 constitutes the input side of the estimation model 10 in the same manner as the description information calculation model 11.
- the calculation model 12 for identification information outputs the identification information after the calculation by inputting the identification information of the condition.
- the condition identification information which is the input information, is information for identifying the condition set for specifying the physical property value of the compound. More specifically, the conditions set for specifying the physical property value are the acquisition condition of the target data (measured value of the physical property value) and the acquisition condition of the auxiliary data (calculated value of the physical property value), and these conditions.
- Unique information is set for each of.
- the number indicating the "data acquisition condition id" shown in FIG. 1 is set as the identification information.
- the present invention is not limited to this, and information other than the number, for example, a character string or a symbol other than the number may be set as the identification information.
- the identification information indicating the data acquisition condition id is input to the identification information calculation model 12 after being expressed in one-hot.
- there is only one type of target data acquisition condition that is, actual measurement condition
- data acquisition condition id 0 is set as identification information for that condition.
- there are dozens of types of auxiliary data acquisition conditions that is, calculation conditions
- a data acquisition condition id consisting of a serial number after 1 is set as identification information. ..
- the post-calculation identification information which is the output information
- the identification information calculation model 12 is a calculation model that converts (encodes) the input identification information into a fixed-dimensional vector. More specifically, the identification information calculation model 12 is a calculation model including a real number matrix composed of eigendimensional vectors set for each condition, as shown in FIG. The number of eigendimensional vectors (number of rows) that make up the matrix is the same as the type of condition. Then, when the data acquisition condition id as the identification information is input to the calculation model 12 for the identification information, each component value of the row corresponding to the data acquisition condition id is extracted from the matrix, and the extracted component value is used as an element.
- the eigendimensional vector to be output is output as the second vector.
- the component values of the rows surrounded by the middle and thick frames) are extracted, and the second vector (-0.3, 0.3, 0.2, -0.4) consisting of each component value is output.
- each component value of the matrix forming the identification information calculation model 12 corresponds to the parameter ⁇ in the identification information calculation model 12.
- This parameter ⁇ is a learning parameter set by pre-learning, corresponds to the above-mentioned parameter Q, and is updated by re-learning.
- the number of parameters ⁇ is set according to the number of target data and auxiliary data used for machine learning. More specifically, the number of rows of the matrix forming the calculation model 12 for identification information includes the number of types of known target data acquisition conditions (that is, actual measurement conditions) and the known auxiliary data acquisition conditions (that is, calculation conditions). It is set based on the number of types of.
- the number of columns in the above matrix is set to a relatively small value (for example, about several). This avoids overfitting even with a small amount of data, considering that setting a large number of parameters may cause overfitting when the number of known target data used for retraining is small. This is to build an estimation model that can accurately estimate unmeasured physical property values.
- the number of columns in the above matrix corresponds to the number of dimensions of the second vector output from the calculation model 12 for identification information.
- the second vector is a relatively low-dimensional vector, and the number of dimensions thereof is the same as the number of parameters of the calculation model 12 for identification information, and the number of parameters of the calculation model 11 for description information. It is smaller than the number of parameters of the estimation result output calculation model 13. Further, for the reason described above, the number of dimensions of the second vector is smaller than the number of known target data used in the re-learning (that is, the number of actually measured values of known physical property values).
- the identification information calculation model 12 is an calculation model using a real number matrix, and as described above, each component value of the row corresponding to the input identification information (data acquisition condition id) is extracted. Then, the eigendimensional vector consisting of the component values is output.
- the present invention is not limited to this, and a function that converts the input identification information into a vector having a predetermined number of dimensions by an operation other than matrix calculation may be used as the identification information calculation model 12.
- the estimation result output model 13 constitutes the output side of the estimation model 10.
- the estimation result output model 13 is a non-linear arithmetic model, and the post-calculation descriptive information obtained from the descriptive information regarding the composition of the compound and the post-calculation identification information obtained from the condition identification information are input. Output the estimation result of the physical property value.
- the descriptive information calculation model 11 outputs the first vector as post-calculation descriptive information
- the identification information calculation model 12 outputs the second vector as post-calculation identification information.
- the estimation result output model 13 outputs the estimation result of the physical property value (feature) from the first vector and the second vector.
- a coupling vector in which the first vector and the second vector are coupled is input to the estimation result output model 13.
- the estimation result output model 13 outputs the estimation result of the physical property value from the input coupling vector.
- the connection vector is a vector obtained by connecting the first vector and the second vector in series, and the number of dimensions thereof is equal to the sum of the number of dimensions of the first vector and the number of dimensions of the second vector.
- the estimation result output model 13 is composed of a neural network, and more specifically, a hierarchical neural network composed of an input layer, an intermediate layer, and an output layer (strictly speaking, a fully connected fully used network). It is composed of a type neural network). The number of intermediate layers and the number of neurons in each layer can be arbitrarily set. Further, the neural network constituting the estimation result output model 13 may be a two-layer network having only an input layer and an output layer without having an intermediate layer.
- the neural network constituting the estimation result output model 13 has the parameter ⁇ .
- This parameter ⁇ is a learning parameter set by machine learning (strictly speaking, pre-learning), and corresponds to the above-mentioned parameter P.
- the number of parameters ⁇ is a number corresponding to the number of layers of the neural network, the number of neurons in each layer, and the like. It is desirable that the number of parameters ⁇ in this embodiment be set to a large number (for example, several thousand to several tens of thousands), reflecting the number of auxiliary data used for pre-learning. As a result, the expressive power of the neural network forming the estimation result output model 13 can be enhanced.
- the feature estimation device 20 is a computer in which a control unit 21, a storage unit 22, an external interface 23, an input device 24, an output device 25, and a drive 26 are electrically connected. is there.
- the number of computers forming the feature estimation device 20 may be one or a plurality of computers.
- the control unit 21 includes a hardware processor such as Central Processing Unit (CPU), Random Access Memory (RAM), Read Only Memory (ROM), and is configured to execute various data processes based on programs and data. Has been done.
- the control unit 21 may include one or a plurality of dedicated hardware processors.
- the storage unit 22 stores a feature estimation program 31 executed by the control unit 21, a data group 32 used for machine learning of the neural network, and the like.
- the feature estimation program 31 is a program for causing a computer to execute a process of performing machine learning to construct an estimation model 10 by the feature estimation method according to the present embodiment, and is read from a recording medium 27 in the present embodiment. It is stored in the storage unit 22.
- the data group 32 for machine learning includes descriptive information regarding the composition of each compound, known target data and auxiliary data, and identification information of acquisition conditions of these data.
- the external interface 23 is an interface for connecting to an external device.
- the feature estimation device 20 communicates with an external device (for example, another computer connected to the Internet, a physical property value measuring device, etc.) via the external interface 23, so that the data group 32 for machine learning 32 You can get a part or all of.
- an external device for example, another computer connected to the Internet, a physical property value measuring device, etc.
- the input device 24 includes, for example, a mouse and a keyboard, and accepts a user's input operation.
- the feature estimation device 20 can acquire a part or all of the data group 32 for machine learning by inputting the measured value or the calculated value of the physical property value through the input device 24 by the user.
- the output device 25 includes, for example, a display, a speaker, or the like, and is a device for outputting the physical property values of the compound estimated by the feature estimation device 20.
- the drive 26 is, for example, an optical disk drive, a magnetic disk drive, a hard disk drive, a memory drive, or the like, and is a drive device for reading a program stored in the recording medium 27.
- the type of the drive 26 may be appropriately selected according to the type of the recording medium 27.
- the feature estimation device 20 reads the recording medium 27 by the drive 26 to read the machine learning data group 32. You can get some or all of them.
- the recording medium 27 is a medium that stores various data and programs that can be read by a computer and other devices or machines by electrical, magnetic, optical, mechanical, or chemical action.
- the learning program 31 for feature estimation is stored in the recording medium 27.
- Examples of the recording medium 27 include optical disks such as CDs and DVDs, internal storages such as magnetic disks and hard disks, semiconductor memories such as flash memories, and memory cards.
- the feature estimation device 20 includes a data storage unit 41, a learning data set creation unit 42, a model construction unit 43, and a physical property value estimation unit 44, as shown in FIG. Have. These functional units are realized by the hardware equipment constituting the feature estimation device 20 described above and the feature estimation program 31 which is software and cooperate with each other.
- the data storage unit 41 stores the data group 32 for machine learning.
- the training data set creation unit 42 creates a training data set from the data group 32 stored in the data storage unit 41, and more specifically, creates a pre-learning data set at the time of pre-learning and a re-learning data set at the time of re-learning. create.
- the model building unit 43 builds the estimation model 10 by performing machine learning using the learning data set (that is, descriptive information regarding the composition of the compound, identification information of the data acquisition conditions, and a set of physical property values of the compound).
- the model building unit 43 performs machine learning in two stages as described above, and more specifically, performs re-learning after performing pre-learning.
- the model construction unit 43 executes each learning by a neural network.
- the physical property value estimation unit 44 estimates the measured value of the physical property value of the unmeasured compound by using the estimation model 10 constructed by the model construction unit 43, and outputs the estimation result.
- each functional unit that is, the data storage unit 41, the learning data set creation unit 42, the model construction unit 43, and the physical property value estimation unit 44
- the hardware configuration of each functional unit is dedicated hardware. It may be various processors or computers that execute programs. In addition, for various processors, the circuit configuration is changed after manufacturing the CPU (Central Processing Unit), FPGA (Field Programmable Gate Array), etc., which are general-purpose processors that execute software (programs) and function as each functional unit.
- Programmable Logic Device which is a possible processor
- a dedicated electric circuit which is a processor having a circuit configuration specially designed for performing specific processing such as ASIC (Application Specific Integrated Circuit), etc. included.
- one functional unit may be composed of one of these various processors, or a combination of two or more processors of the same type or different types, for example, a combination of a plurality of FPGAs, or an FPGA and a CPU. It may be configured by a combination of. Further, a plurality of functional units may be configured by one of various processors, or two or more of the plurality of functional units may be collectively configured by using one processor. Further, for example, as typified by a computer such as a server and a client, one processor may be configured by a combination of one or more CPUs and software, and this processor may function as a plurality of functional units. By the way, this embodiment corresponds to this case.
- SoC System on Chip
- a processor that realizes the functions of the entire system including a plurality of functional units with one IC (Integrated Circuit) chip is used.
- the hardware configuration of the various processors is, more specifically, an electric circuit (Circuitry) in which circuit elements such as semiconductor elements are combined.
- a user of a computer constituting the feature estimation device 20 performs a flow start operation (for example, an operation for starting the feature estimation program 31), and the feature estimation program 31 When is activated, the feature estimation flow is started with this as a trigger.
- a flow start operation for example, an operation for starting the feature estimation program 31
- the feature estimation program 31 When is activated, the feature estimation flow is started with this as a trigger.
- the data group 32 for machine learning may have already been acquired and stored in the storage unit 22 of the computer in advance before the start of the feature estimation flow, or the above data group may be stored after the start of the feature estimation flow. 32 may be acquired. In the following, a case where the above data group 32 is stored in the storage unit 22 at the start of the feature estimation flow will be described as an example.
- the computer first creates a pre-learning data set from the data group 32 stored in the storage unit 22 (S001).
- the computer reads out known auxiliary data necessary for estimating the physical property values of the compound from the storage unit 22.
- the computer acquires descriptive information (specifically, graph representation) regarding the composition of the compound from which the auxiliary data has been acquired and identification information (specifically, data acquisition corresponding to the calculation conditions) of the acquisition conditions of the auxiliary data. Condition id) and are also read from the storage unit 22.
- the computer creates as many pre-learning data sets as the number of auxiliary data, which is a set of calculated values, descriptive information, and identification information of the physical property values indicated by the auxiliary data.
- step S001 thousands to tens of thousands of pre-learning data are created.
- the computer performs pre-learning using a large number of pre-learning data sets (S002). That is, in this step S002, the descriptive information regarding the composition of the compound for which each auxiliary data was obtained, the identification information of the acquisition condition of each auxiliary data, and the calculated value of the physical property value indicated by each auxiliary data are used in advance. Learning is carried out.
- the function family F to which the correct function belongs is derived from a large number of auxiliary data sources.
- a calculation model 11 for descriptive information a calculation model 12 for identification information, and an estimation result output model 13 are constructed.
- the computer sets the parameters ⁇ , ⁇ , and ⁇ for each of the above three computational models.
- step S002 the computer performs pre-learning by the neural network. Specifically, in the pre-learning, the computer initializes the parameters ⁇ , ⁇ , and ⁇ of each arithmetic model, and then sets each parameter to the following equation so that the prediction error evaluation function L is minimized. Calculate continuously according to b1) to (b4).
- backpropagation error back propagation method
- present invention is not limited to this, and the back-propagation method and other methods (for example, gradient descent method) may be used in combination.
- the identification information of the auxiliary data acquisition condition that is, the data acquisition condition id corresponding to the calculation condition
- the corresponding second vector It is output.
- the computer creates a re-learning data set from the data group 32 stored in the storage unit 22 (S003).
- the computer reads out known target data necessary for estimating the physical property values of the compound from the storage unit 22.
- the computer acquires descriptive information (specifically, graph representation) regarding the composition of the compound for which the target data has been acquired and identification information (specifically, data acquisition corresponding to the actual measurement conditions) of the acquisition conditions of the target data. Condition id) and are also read from the storage unit 22.
- the computer creates as many re-learning data sets as the number of target data, which is a set of the measured value of the physical property value indicated by the target data, the description information, and the identification information.
- the target data source is a small number of data. Therefore, in step S003, several to several tens of re-learning data are created.
- the computer performs re-learning using a small amount of re-learning data set (S004). That is, in this step S002, the description information regarding the composition of the compound for which each target data has been obtained, the identification information of the acquisition condition of each target data, and the actually measured value of the physical property value indicated by each target data are used again. Learning is carried out.
- the function family F derived by the pre-learning the function fv to which the target data fits well can be found from a small amount of target data sources.
- the error back propagation method can be used to estimate the gradient of the prediction error evaluation function L, but it may be used in combination with other methods (for example, gradient descent method).
- the second vector corresponding to the target data used for the re-learning are additionally output. Will be done. By projecting this added second vector onto a two-dimensional plane, it can be visualized together with the second vector output during the pre-learning as a scatter diagram shown in FIG.
- an estimation model 10 for estimating the physical property values of the unmeasured compound is constructed.
- This estimation model 10 estimates the measured value of the physical property value specified under the measured condition by inputting the descriptive information regarding the composition of the compound whose physical property value has not been measured and the identification information of the measured condition of the physical property value. Then, the estimation result is output. According to this estimation model 10, it is possible to accurately estimate (predict) the physical property values of unmeasured compounds.
- the estimation model 10 expresses a function fv to which the target data fits well, and this function fv has a second vector output by the calculation model 12 for identification information. When it changes, it naturally has a different shape. From this point of view, it is considered that the estimation model 10 constructed by relearning defines a function family having the second vector as a variable and the number of dimensions of the second vector as the degree of freedom. That is, when the second vector is fixed, the estimation model 10 is a function that inputs descriptive information regarding the composition of the compound and outputs the estimation result of the physical property value of the compound.
- the estimation model 10 becomes a function corresponding to the identification information of each condition.
- the estimation model 10 can be a function defined by a second vector that does not correspond to any identification information.
- the physical property value estimated by the estimation model 10 is determined by some method. It is expected to be a calculated value or an actually measured value measured in some actual measurement environment.
- the computer estimates the measured value of the physical property value of the unmeasured compound using the estimation model 10 constructed in step S004 (S005).
- the estimation model 10 constructed in step S004 (S005).
- the graph representation regarding the structure of the compound 2 and the identification of the measured condition are identified.
- the data acquisition condition id 0, which is information, is input to the estimation model 10.
- the actually measured value of the physical property value of the compound 2 is estimated, and the estimation result is output by the output device 25.
- the feature estimation flow ends. Then, the above-mentioned feature estimation flow can complement the physical property values of the compound whose measured values are missing.
- the present embodiment is more advantageous than the physical property value estimation method described in Patent Document 1.
- the measured value of the physical property value of the compound is estimated (predicted) by using machine learning by a neural network as in the method of estimating the physical property value described in Patent Document 1, the measured value is usually measured.
- it is difficult to actually measure the physical property values for all compounds because it takes time and cost to actually measure the physical property values.
- the physical property value can be calculated by a plurality of types of calculation conditions (calculation methods) as described above, and if the physical property value of each compound is calculated according to the respective calculation conditions, the calculated value data (that is, that is).
- a large number of auxiliary data can be acquired. Therefore, in the present invention, pre-learning is carried out using a large number of auxiliary data to derive a function family F to which a correct function capable of expressing an unmeasured physical property value of a compound belongs. After that, re-learning is performed using a small amount of target data, and a function fv to which the target data fits well is selected from the above-mentioned function family F.
- the parameters updated by the re-learning are the parameters in the identification information calculation model 12 on the input side of the estimation model 10, and are downstream (output side) of the identification information calculation model 12. ), There is a non-linear estimation result output model 13.
- the number of parameters to be updated is small, for example, even if the number is 1, it does not result in baseline correction as in transfer learning, and the above function fv is set within the range of 1 degree of freedom. It can be expressed as a non-linear function with the updated parameters as variables.
- an estimation model 10 capable of accurately estimating the measured value of the physical property value of the compound even with a small amount of target data.
- the feature estimation flow described above is particularly effective when the number of known target data is small, but of course, it can also be used when a large number of known target data are acquired.
- the purpose of using the estimation model 10 is, of course, not limited to the purpose of estimating the physical property value of the compound which has not been measured.
- the physical property value of the compound which has been actually measured is used for the purpose of verifying the estimation accuracy of the model.
- the estimation model 10 may be used for estimation.
- QM9 is a database of physical property values of organic molecules.
- a partial excerpt of the calculation result is shown in FIG.
- the horizontal axis of FIG. 12 represents the type of compound and the corresponding number (compound number), and the vertical axis represents the calculated value (unit: ev) of absorbed energy.
- Verification experiment In the verification experiment, first, statistical analysis was performed on the verification data, and the average deviation of the calculation results due to the difference in calculation conditions (specifically, the type of functional) was obtained. More specifically, the average deviation when the average value was corrected by 10-point sampling and the average deviation when the accurate average value correction was performed were calculated. The average deviation of the former was 0.27 ev, and the average deviation of the latter was 0.18 ev.
- the part composed of the neural network is a four-layer fully connected neural network, specifically, a graph neural network (strictly speaking, a message passing neural network). Further, among the estimation models, the number of dimensions of the vector (second vector) output from the calculation model for identification information is set to 10 dimensions.
- the verification data obtained for each of the 3000 types of compounds under 20 types of calculation conditions (corresponding to the first condition), that is, all the verification data for 60,000 cases are used.
- Pre-learning was carried out.
- re-learning was performed using the verification data obtained for each of the 5 to 20 types of compounds under the remaining 6 types of calculation conditions (corresponding to the second condition).
- an estimation model for estimating the calculated value of the physical property value obtained under the six types of calculation conditions corresponding to the second condition is constructed.
- the six types of calculation conditions corresponding to the second condition are "VSXC", "MN12L”, “tHCTHhyb”, “HISSbPBE”, “BMK”, and "X3LYP" as the types of functionals.
- the estimation accuracy was evaluated using the verification data obtained for each of the 3000 types of compounds under the 6 types of calculation conditions corresponding to the second condition, that is, 18,000 verification data. .. Specifically, for each of the 3000 types of compounds, the calculated values when the absorbed energy was calculated under the above 6 types of calculation conditions were estimated by an estimation model. Then, each estimation result was compared with the corresponding verification data, and the average absolute error was obtained for each calculation condition.
- the verification result is shown in FIG.
- the horizontal axis of FIG. 13 represents the number of data used during retraining, and the vertical axis represents the average absolute error (unit: eV).
- the input side of the estimation model 10 is provided with the calculation model 11 for description information that outputs a fixed-dimensional vector from the description information regarding the composition of the compound.
- the present invention is not limited to this, and for example, when the descriptive information itself is a fixed-dimensional vector, the descriptive information calculation model 11 may be omitted.
- the estimation model 10 is configured only by the identification information calculation model 12 and the estimation result output model 13. Then, the fixed dimensional vector (second vector) output from the calculation model 12 for identification information and the fixed dimensional vector as descriptive information are combined, and the combined vector is input to the estimation result output model 13. ..
- the target data acquisition condition (second condition) is only one, which is less than the auxiliary data acquisition condition (first condition), but is limited to this. is not. There may be a plurality of conditions corresponding to the second condition, and there may be more conditions corresponding to the first condition.
- the parameter ⁇ of the identification information calculation model 12 is set, and specifically, each component value of the matrix forming the identification information calculation model 12 is set. Further, in the above embodiment, in the re-learning, a part of the parameter ⁇ in the calculation model 12 for identification information is updated, and an estimation model 10 for estimating the actually measured value of the unmeasured physical property value is constructed.
- the present invention is not limited to this, and the idea of Bayesian inference may be introduced into the above-described embodiment.
- Bayesian estimation it is considered that the data of the physical property value specified under a certain data acquisition condition was generated through some (stochastic) generation process, and the generation process is modeled.
- the second vector as the latent variable z is generated according to the normal distribution.
- the known function f specifically, the estimation result output model 13.
- the data y of the physical property value is generated through the function (represented by).
- the modeling work first, pre-learning is performed, the above-mentioned known function f is specified, and the latent variable z (second vector) corresponding to each data acquisition condition (strictly speaking, each calculation condition) is performed. To estimate. After that, re-learning is carried out. In the re-learning, it is considered that the measured value y of the physical property value is generated from some latent variable z, and the probability distribution (posterior distribution) of the value that the latent variable z can take is calculated as in the normal Bayesian estimation. Specifically, the data (target data) of the measured value y of the physical property value is used, and the posterior distribution of the latent variable z corresponding to the measured condition is sampled and approximated by the Markov chain Monte Carlo method.
- the posterior distribution is used to calculate the predicted distribution for the measured value y of the physical property value, and for example, the average value of the predicted distribution is used as the estimated value of the physical property value under the measured condition.
- the actual measurement value of the physical property value may be estimated by the above procedure.
- the case where the actual measurement value of the physical property value of the compound is estimated by inputting the descriptive information regarding the composition of the compound and the identification information of the actual measurement conditions has been described as an example. It is also applicable when estimating the characteristics of.
- the present invention can be applied even in a case where a "human voice" is targeted and a phrase (phonetic character) that the voice means is estimated as a feature.
- the voice data of each voice of the estimation target person and the plurality of non-estimation target persons is analyzed, and the phrase (phonetic character) that each voice means is specified.
- the voice data is "descriptive information”
- the person who makes a voice corresponds to the "condition”
- the name or identification ID of the person corresponds to the "identification information”.
- the non-estimated target person corresponds to the "first condition”
- the estimated target person corresponds to the "second condition”.
- the phrase (phonetic character) specified from the voice data of the estimation target person corresponds to "target data”
- the word / phrase (phonetic character) specified from the voice data of the non-estimation target person corresponds to "auxiliary data”. ..
- the estimation model is constructed by performing the pre-learning using all of the auxiliary data and then performing the re-learning using the target data. According to this estimation model, it is possible to estimate (determine) the words (phonetic characters) that the voice of the voice data means by inputting the voice data of the target person and the name or identification ID of the target person.
- the present invention also covers "characters written in various typefaces" and estimates the meanings (for example, numerical values) of words and phrases represented by the characters as features. Can be applied.
- the image data of characters written in various typefaces is analyzed to identify the numerical value represented by each character.
- the image data corresponds to "descriptive information”
- the typeface corresponds to "condition”
- the name of the typeface corresponds to "identification information”.
- a specific typeface among the typefaces corresponds to the "second condition”
- the remaining typefaces correspond to the "first condition”.
- the numerical value specified from the image data of the characters written in a specific typeface corresponds to the "target data”
- the numerical value specified from the image data of the characters written in other typefaces corresponds to the "auxiliary data”. ..
- the estimation model is constructed by performing the pre-learning using all of the auxiliary data and then performing the re-learning using the target data. According to this estimation model, it is possible to estimate (determine) the numerical value represented by the characters indicated by the image data by inputting the image data of the characters written in the specific typeface and the name of the specific typeface. ..
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Feedback Control In General (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
機械学習を利用して対象の特徴を推定する際に、推定の狙いとする条件の下で特定された特徴の個数に依らず、高精度に推定する。 対象の構成に関する記述情報、特徴を特定する条件の識別情報、及び対象の特徴を用いた機械学習を実施する。機械学習は、事前学習と再学習とを含む。事前学習では、各第一条件の識別情報が入力されて演算後識別情報を出力する識別情報用演算モデルと、記述情報又は記述情報から得られた情報と演算後識別情報とが入力されて特徴の推定結果を出力する非線形型の推定結果出力モデルと、を構築する。再学習では、推定結果出力モデル中のパラメータを固定したまま識別情報用演算モデル中のパラメータを第二条件の識別情報、及び、第二条件の下で特定された特徴に基づいて更新し、記述情報及び第二条件の識別情報から第二条件の下で特定される特徴を推定する推定モデルを構築する。
Description
本発明は、対象の特徴を推定する特徴推定方法及び特徴推定装置に係り、特に、機械学習を実施して構築した推定モデルによって特徴を推定する特徴推定方法及び特徴推定装置に関する。
また、本発明は、上記の推定モデルを構築する処理をコンピュータに実行させるためのプログラム、及び当該プログラムを記録した、コンピュータに読み取り可能な記録媒体に関する。
また、本発明は、上記の推定モデルを構築する処理をコンピュータに実行させるためのプログラム、及び当該プログラムを記録した、コンピュータに読み取り可能な記録媒体に関する。
対象の特徴と、その特徴を特定するための条件との関係をニューラルネットワーク等の機械学習によってモデル化し、ある条件の下で特定される対象の特徴を推定する技術は、既に知られている。例えば、ニューラルネットワークを用いて化合物の特性を予測する技術が、特許文献1に記載されている。
特許文献1に記載の技術は、「化学混合物の色以外の特性を予測する方法であって、化学混合物の成分量を含む化学混合物変数と、環境及びプロセス条件と、実測された化学混合物の特性と、を含むデータを収集する工程と、実測された化学混合物の特性に対して化学混合物変数が及ぼす影響を明らかにするニューラルネットワークを作製する工程と、上記のデータを用いてニューラルネットワークを教師付き学習する工程と、ニューラルネットワークによって新たな化学混合物の特性を前方予測する工程と、を有する方法」である。この技術によれば、化学混合物変数と化学混合物の特性の実測結果との関係を明らかにするためにニューラルネットワークを学習し、学習されたニューラルネットワークを用いて、新たな化学混合物の特性を予測することができる。この結果、追加的に実験を行うことなく、新たな化学混合物の特性を予測(推定)することが可能となる。このような技術は、マテリアルズ・インフォマティクスと呼ばれ、材料開発の分野等において注目されている。
しかし、特許文献1に記載の技術を利用する場合には、化学混合物の特性の実測データを用いて学習(教師付き学習)する必要がある。ただし、化学混合物の特性の実測データを取得するには実験等を要するため、実測データの取得数が比較的少ない状況が考えられる。そして、少ない実測データを用いて学習を行った場合には、その少ない実測データに特化した予測モデルが構築される結果、「過学習」の問題が生じ得る。
ここで、化学混合物の特性の実測データは、予測の狙いとする条件(実測条件)の下で特定されたデータ(以下、「ターゲットデータ」とも言う。)である。他方、化学混合物の特性については、第一原理計算等の計算式を用いて計算することが可能であり、そのような計算結果のデータ(以下、「補助データ」とも言う。)をターゲットデータの代わりに利用して学習を行うことも考えられる。
また、化学混合物の特性を予測する上では、あくまでも、予測の狙いとする条件の下で特定される特性(つまり、特性の実測値)を予測することが求められる。したがって、ニューラルネットワーク等の機械学習を利用して、予測の狙いとする条件の下で特定される特性を予測する場合には、ターゲットデータの量に拘わらず、高精度で予測することが必要となる。
本発明は、上記の事情に鑑みてなされたものであり、以下に示す目的を解決することを課題とする。
つまり、本発明は、上記従来技術の問題点を解決し、機械学習を利用して対象の特徴を推定する際に、推定の狙いとする条件の下で特定された特徴の個数に依らず、高精度に推定することが可能な特徴推定方法及び特徴推定装置を提供することを目的とする。
また、本発明は、上記の特徴推定方法をコンピュータによって実現するためのプログラム、及び、当該プログラムを記録した記録媒体を提供することをも目的とする。
つまり、本発明は、上記従来技術の問題点を解決し、機械学習を利用して対象の特徴を推定する際に、推定の狙いとする条件の下で特定された特徴の個数に依らず、高精度に推定することが可能な特徴推定方法及び特徴推定装置を提供することを目的とする。
また、本発明は、上記の特徴推定方法をコンピュータによって実現するためのプログラム、及び、当該プログラムを記録した記録媒体を提供することをも目的とする。
上記の目的を達成するために、本発明の特徴推定方法は、コンピュータにより、対象の特徴を推定する特徴推定方法であって、コンピュータが、対象の構成に関する記述情報、特徴を特定する条件に対して設定された識別情報、及び条件の下で特定された特徴を用いた機械学習を実施して、記述情報及び識別情報から特徴を推定する推定モデルを構築し、条件は、複数の第一条件と、複数の第一条件とは異なる第二条件と、を含み、機械学習は、記述情報、複数の第一条件の各々の識別情報、及び、複数の第一条件の各々の下で特定された特徴を用いた事前学習と、第二条件の識別情報、及び、第二条件の下で特定された特徴を用いた再学習と、を含み、事前学習では、コンピュータが、複数の第一条件の各々の識別情報が入力されて演算後識別情報を出力する識別情報用演算モデルと、記述情報又は記述情報から得られた情報と演算後識別情報とが入力されて特徴の推定結果を出力する非線形型の推定結果出力モデルと、を構築し、再学習では、コンピュータが、推定結果出力モデル中のパラメータを固定したまま識別情報用演算モデル中のパラメータを第二条件の識別情報、及び、第二条件の下で特定された特徴に基づいて更新し、記述情報及び第二条件の識別情報から第二条件の下で特定される特徴を推定する推定モデルを構築することを特徴とする。
以上のように構成された本発明の特徴推定方法によれば、推定の狙いとする条件(第二条件)の下で特定された特徴の個数に拘わらず、当該条件(第二条件)の下で特定される特徴を高精度にて推定することが可能となる。
また、事前学習では、コンピュータが、記述情報が入力されて演算後記述情報を出力する記述情報用演算モデルと、識別情報用演算モデルと、演算後記述情報と演算後識別情報とが入力されて特徴の推定結果を出力する推定結果出力モデルと、を構築し、再学習では、コンピュータが、記述情報用演算モデル中のパラメータ、及び、推定結果出力モデル中のパラメータを固定したまま識別情報用演算モデル中のパラメータを第二条件の識別情報、及び、第二条件の下で特定された特徴に基づいて更新し、記述情報及び第二条件の識別情報から第二条件の下で特定される特徴を推定する推定モデルを構築すると、好適である。
上記の構成であれば、事前学習で推定モデル全体のパラメータを設定し、再学習で、推定モデルの一部である識別情報用演算モデル中のパラメータのみを更新することになる。
上記の構成であれば、事前学習で推定モデル全体のパラメータを設定し、再学習で、推定モデルの一部である識別情報用演算モデル中のパラメータのみを更新することになる。
また、演算後記述情報は、多次元の第一ベクトルであり、演算後識別情報は、第二ベクトルであり、推定結果出力モデルは、第一ベクトル及び第二ベクトルから特徴の推定結果を出力するモデルであると、より好適である。
また、第二ベクトルの次元数は、記述情報用演算モデル中のパラメータの数よりも小さく、且つ、推定結果出力モデル中のパラメータの数よりも小さいと、より好適である。
上記の構成であれば、推定の狙いとする条件(第二条件)の下で特定された特徴の個数が少ない場合であっても、二段階の学習によって、推定精度がより高い推定モデルを構築することが可能である。
上記の構成であれば、推定の狙いとする条件(第二条件)の下で特定された特徴の個数が少ない場合であっても、二段階の学習によって、推定精度がより高い推定モデルを構築することが可能である。
また、第二ベクトルの次元数は、再学習で用いられる第二条件の下で特定された特徴の数よりも小さいと、より一層好適である。
上記の構成であれば、機械学習において過学習の発生が抑えられる。
上記の構成であれば、機械学習において過学習の発生が抑えられる。
また、識別情報用演算モデルは、条件毎に設定された固有次元ベクトルによって構成される行列を含む演算モデルであり、再学習では、識別情報用演算モデル中のパラメータとして、行列中の成分値を更新すると、好適である。
また、機械学習において、コンピュータは、ニューラルネットワークにより事前学習及び再学習を実施すると、好適である。
上記の構成であれば、事前学習にて、推定される特徴の正解を表現することが可能な関数(以下、「正解関数」とも言う。)が属する関数族を適切に見つけ出し、再学習にて、正解関数を近似する推定モデルを特定することが可能である。
上記の構成であれば、事前学習にて、推定される特徴の正解を表現することが可能な関数(以下、「正解関数」とも言う。)が属する関数族を適切に見つけ出し、再学習にて、正解関数を近似する推定モデルを特定することが可能である。
また、推定モデルは、対象の特徴としての化合物の物性値を推定するモデルであり、記述情報は、化合物の構造を線形表記法に則って記述した情報であり、条件は、化合物の物性値を特定するために設定された条件であってもよい。
上記の構成であれば、化合物の物性値を推定することが可能な推定モデルを構築することができ、このモデルを利用することで、未知である化合物の物性値を高精度に推定することが可能となる。
上記の構成であれば、化合物の物性値を推定することが可能な推定モデルを構築することができ、このモデルを利用することで、未知である化合物の物性値を高精度に推定することが可能となる。
また、第一条件は、物性値を計算するために設定された計算条件であり、第二条件は、物性値を実測するために設定された実測条件であってもよい。
上記の構成であれば、未測定である化合物の物性値を高精度に推定することが可能となる。
上記の構成であれば、未測定である化合物の物性値を高精度に推定することが可能となる。
また、前述した課題を解決するために、本発明の特徴推定装置は、対象の特徴を推定する特徴推定装置であって、対象の構成に関する記述情報、特徴を特定する条件に対して設定された識別情報、及び条件の下で特定された特徴を用いた機械学習を実施して、記述情報及び識別情報から特徴を推定する推定モデルを構築するモデル構築部を有し、条件は、複数の第一条件と、複数の第一条件とは異なる第二条件と、を含み、機械学習は、記述情報、複数の第一条件の各々の識別情報、及び、複数の第一条件の各々の下で特定された特徴を用いた事前学習と、第二条件の識別情報、及び、第二条件の下で特定された特徴を用いた再学習と、を含み、事前学習では、モデル構築部が、複数の第一条件の各々の識別情報が入力されて演算後識別情報を出力する識別情報用演算モデルと、記述情報又は記述情報から得られた情報と演算後識別情報とが入力されて特徴の推定結果を出力する非線形型の推定値出力モデルと、を構築し、再学習では、モデル構築部が、推定値出力モデル中のパラメータを固定したまま識別情報用演算モデル中のパラメータを第二条件の識別情報、及び、第二条件の下で特定された特徴に基づいて更新し、記述情報及び第二条件の識別情報から第二条件の下で特定される特徴を推定する推定モデルを構築することを特徴とする。
また、本発明は、上述した本発明の特徴推定方法における機械学習を実施して推定モデルを構築する処理をコンピュータに実行させるためのプログラムを提供する。
また、本発明は、上述した本発明の特徴推定方法における機械学習を実施して推定モデルを構築する処理をコンピュータに実行させるためのプログラムが記録された、コンピュータに読み取り可能な記録媒体を提供する。
また、本発明は、上述した本発明の特徴推定方法における機械学習を実施して推定モデルを構築する処理をコンピュータに実行させるためのプログラムが記録された、コンピュータに読み取り可能な記録媒体を提供する。
さらに、本発明は、プロセッサを備える特徴推定装置であって、プロセッサが、対象の構成に関する記述情報、特徴を特定する条件に対して設定された識別情報、及び条件の下で特定された特徴を用いた機械学習を実施して、記述情報及び識別情報から特徴を推定する推定モデルを構築し、条件は、複数の第一条件と、複数の第一条件とは異なる第二条件と、を含み、機械学習は、記述情報、複数の第一条件の各々の識別情報、及び、複数の第一条件の各々の下で特定された特徴を用いた事前学習と、第二条件の識別情報、及び、第二条件の下で特定された特徴を用いた再学習と、を含み、事前学習では、プロセッサが、複数の第一条件の各々の識別情報が入力されて演算後識別情報を出力する識別情報用演算モデルと、記述情報又は記述情報から得られた情報と演算後識別情報とが入力されて特徴の推定結果を出力する非線形型の推定結果出力モデルと、を構築し、再学習では、プロセッサが、推定結果出力モデル中のパラメータを固定したまま識別情報用演算モデル中のパラメータを第二条件の識別情報、及び、第二条件の下で特定された特徴に基づいて更新し、記述情報及び第二条件の識別情報から第二条件の下で特定される特徴を推定する推定モデルを構築するように構成された特徴推定装置を提供する。
本発明によれば、機械学習を利用して対象の特徴を推定する際に、推定の狙いとする条件の下で特定された特徴の個数に依らず、高精度に推定することが可能な特徴推定方法及び特徴推定装置が提供される。
また、本発明によれば、上述した本発明の特徴推定方法をコンピュータによって実現するためのプログラム、及び当該プログラムを記録した記録媒体をも提供することが可能である。
また、本発明によれば、上述した本発明の特徴推定方法をコンピュータによって実現するためのプログラム、及び当該プログラムを記録した記録媒体をも提供することが可能である。
本発明の一実施形態(以下、「本実施形態」と言う。)に係る特徴推定方法、特徴推定装置、プログラム及び記録媒体について、添付の図面を参照しながら、以下に詳細に説明する。
なお、以下に説明する実施形態は、本発明を分かり易く説明する目的で挙げた一例にすぎず、本発明を限定するものではない。すなわち、本発明は、下記の実施形態に限られず、本発明の主旨を逸脱しない範囲において種々の改良又は変更され得る。また、当然ながら、本発明には、その等価物が含まれる。
なお、以下に説明する実施形態は、本発明を分かり易く説明する目的で挙げた一例にすぎず、本発明を限定するものではない。すなわち、本発明は、下記の実施形態に限られず、本発明の主旨を逸脱しない範囲において種々の改良又は変更され得る。また、当然ながら、本発明には、その等価物が含まれる。
<本実施形態の概要>
本実施形態では、機械学習を利用して対象の特徴を推定する。ここで、「対象」とは、物質、人又は動植物、構造物、若しくはその他の有体物であってもよく、あるいは、音、光、香気、若しくはその他の無体物であってもよい。
また、「特徴」とは、対象が有する性質又は特性、対象に対する評価、対象が属する属性、若しくは対象から認識される情報(例えば、対象が音声である場合には、その音声が意味する語句等)等である。なお、本実施形態では、化合物の物性値を「対象の特徴」として推定することとする。
本実施形態では、機械学習を利用して対象の特徴を推定する。ここで、「対象」とは、物質、人又は動植物、構造物、若しくはその他の有体物であってもよく、あるいは、音、光、香気、若しくはその他の無体物であってもよい。
また、「特徴」とは、対象が有する性質又は特性、対象に対する評価、対象が属する属性、若しくは対象から認識される情報(例えば、対象が音声である場合には、その音声が意味する語句等)等である。なお、本実施形態では、化合物の物性値を「対象の特徴」として推定することとする。
本実施形態では、互いに異なる条件にて取得された物性値を示すデータを教師データとして機械学習を実施し、未知の物性値を推定する数理モデル(以下、「推定モデル」と言う。)を構築する。ここで、条件とは、物性値を特定するために設定された条件であり、本実施形態では、条件が互いに異なる2種類の条件(本発明の「第一条件」及び「第二条件」)に大別される。
より詳しく説明すると、本実施形態では、既知のターゲットデータ及び既知の補助データを用いた機械学習を実施して、未知のターゲットデータを推定する推定モデルを構築する。本実施形態に係るターゲットデータは、推定の狙いとする条件の下で特定される物性値であり、具体的には、物性値の実測値である。なお、既知のターゲットデータは、実験を行って取得されるため、その取得数は、比較的少ない。
ここで、既知のターゲットデータは、実測条件(図1の「実測A」)の下で特定された物性値の実測値であり、図1の最上段に示された値である。図1は、複数種類の化合物の各々の物性値を条件毎に特定した結果を示す表である。なお、図1には、化合物の物性値として、有機化合物の光の吸収エネルギー量が示されている。
図1に示すケースでは、既知のターゲットデータ(すなわち、物性値の実測値)は、数種類の化合物についてのみ得られている。一方、化合物の中には、物性値の実測値を欠くものが存在し、この欠落した実測値が未知のターゲットデータに相当する。なお、以下では、既知のターゲットデータをまとめたデータ群を「ターゲットデータソース」と呼ぶこととする。また、未知のターゲットデータについて仮に実験を行った場合に補完される物性値(すなわち、実測値)を「正解データ」と呼ぶこととする。
また、本実施形態に係る補助データは、ターゲットデータが得られる条件以外の条件の下で特定される物性値であり、具体的には、物性値を第一原理計算の計算式等によって計算した際の計算値である。化学分野では、同一化合物の吸収波長をシミュレーションによって計算する計算手法が多数あり、それぞれの手法にて異なった計算結果が得られる。
より具体的に説明すると、第一原理計算を用いる場合には、汎関数、溶媒効果及び基底関数等の組み合わせによって計算手法が指定されることになる。ここで、どの計算手法によって得られた計算結果が真の物性値(つまり、実測値)を良好に再現しているかについては、計算対象の化合物及び実験環境等によって変わってくる。つまり、実測値の再現精度の観点から評価した上記の計算手法の優劣は、一般的に、事前に把握することが困難であり、実際の優劣評価は、各計算手法による計算結果と実測値とを対比することで行われる。
以上の理由から、物性値の計算結果を示す補助データは、複数得られ、具体的には、化合物の種類数と計算手法の種類との積に相当する数のデータが得られる。すなわち、図1から分かるように、既知の補助データは、既知のターゲットデータに比して圧倒的に多く、それぞれの種類の計算手法(具体的には、図1の「計算B」~「計算Z」)について化合物別に得られる。
なお、以下では、数千~数万件の補助データが入手された状況を想定して説明することとする。また、以下では、既知の補助データをまとめたデータ群を「補助データソース」と呼ぶこととする。
なお、以下では、数千~数万件の補助データが入手された状況を想定して説明することとする。また、以下では、既知の補助データをまとめたデータ群を「補助データソース」と呼ぶこととする。
また、補助データの取得条件(図1の「計算B」~「計算Z」)は、物性値を第一原理計算によって計算するために設定された計算条件であり、本発明の「第一条件」として複数設定されている。これに対して、既知のターゲットデータの取得条件(図1の「実測A」)は、物性値を実測するために設定された実測条件(換言すると、実験条件)であり、本発明の「第二条件」として少なくとも一つ設定されている。本実施形態では、ターゲットデータの取得条件を1つのみとするが、当然ながら、ターゲットデータの取得条件を複数設定してもよい。
本実施形態では、上述したように、既知のターゲットデータ及び既知の補助データを用いて機械学習を実施し、未知のターゲットデータ(未測定である化合物の物性値)を推定する推定モデルを構築する。本実施形態では、機械学習が事前学習と再学習からなり、それぞれの学習がニューラルネットワークによって実施される。ニューラルネットワークは、入力層及び出力層の少なくとも2層の処理要素を含む。処理要素は、相互に結合され、処理要素間に所定の結合重み付けをもった所定のパターン(関数)とされている。
そして、推定モデルを構成するニューラルネットワークは、入力の変化に対する化合物の物性値の応答をシミュレートするように予め学習させられる。この学習により、処理要素間の結合重み付けが、化合物及びその物性値の取得条件に関する情報(入力)と当該物性値(出力)との間の関係を反映したものになる。この結果、上記のニューラルネットワークにより、化合物の種類及び物性値の取得条件のそれぞれの組み合わせに対して、当該組み合わせに対応する物性値を推定することができる。なお、機械学習は、ニューラルネットワークに限定される訳ではなく、多項式回帰、若しくは一般化線形モデル等であってもよい。ただし、後述する識別情報用演算モデルの更新を行うことから、入力データに対して微分が可能な学習である必要がある。
機械学習について概説すると、本実施形態に係る機械学習では、前述のように、先ず事前学習を実施し、その後に再学習を実施する。事前学習では、既知の補助データを含む学習データセット(以下、「事前学習データセット」と言う。)を用いて推定モデルを構築する。ここで、事前学習データセットは、補助データが得られた化合物の構成に関する記述情報、及び、補助データの取得条件の識別情報、並びに、補助データが示す物性値の計算値(換言すると、補助データの取得条件の下で特定された物性値)を1組とするデータセットであり、具体的には図1のデータマトリクス中、2段目以降の各段のデータから作成される。なお、記述情報及び識別情報については、後の項で詳しく説明することとする。
そして、本実施形態では、既知の補助データと同数(すなわち、数千~数万個)の事前学習データセットが作成され、作成した事前学習データすべてを用いて事前学習を実施する。そして、事前学習により推定モデルが構築されるが、換言すると、推定モデル中のパラメータ(具体的には、後述のパラメータθ、φ、ψ)が設定される。
再学習では、既知のターゲットデータを含む学習データセット(以下、「再学習データセット」と言う。)を用いて推定モデルの一部を再構築する。ここで、再学習データセットは、ターゲットデータが得られた化合物の構成に関する記述情報、及び、ターゲットデータの取得条件の識別情報、並びに、ターゲットデータが示す物性値の実測値(換言すると、ターゲットデータの取得条件の下で特定された物性値)を1組とするデータセットであり、具体的には図1のデータマトリクス中、最上段のデータから作成される。
ここで、再学習データセットの作成数は、少数(数個~数十個程度)であるため、再学習は、少数の再学習データセットを用いて実施されることになる。換言すると、本実施形態では、再学習に用いられる物性値の実測値(つまり、第二条件の下で特定された特徴)のデータ数が、事前学習に用いられる物性値の計測値(つまり、第一条件の下で特定された特徴)のデータ数よりも圧倒的に少なくなっている。
そして、再学習により推定モデルの一部が再構築され、換言すると、推定モデル中の一部のパラメータ(具体的には、後述のパラメータθ)が更新される。この結果、未知のターゲットデータ、すなわち未測定である化合物の物性値を推定する推定モデルが構築される。この推定モデルによれば、未測定である化合物の物性値について、精度よく実測値を推定(予測)することができるので、実験を行うことなく実測値の欠落を補完することが可能となる。
<従来の特徴推定手法について>
本実施形態の詳細を説明するにあたり、その比較例として、化合物の物性値を推定する従来手法について、3つの例を挙げて説明することとする。
本実施形態の詳細を説明するにあたり、その比較例として、化合物の物性値を推定する従来手法について、3つの例を挙げて説明することとする。
(従来手法1)
従来手法1は、既知のターゲットデータと既知の補助データとの関係を定量化し、その関係を利用して、未知のターゲットデータを予測する回帰分析法である。具体的に説明すると、従来手法1では、例えば、図1に示すデータマトリクス中、最上段のターゲットデータ(すなわち、実測値)と2段目の補助データ(すなわち、計算Bによる計算結果)とに着目し、両方のデータが揃っている化合物(図1では、化合物1、化合物3及び化合物N)を選び、それぞれの化合物のターゲットデータ及び補助データの間で回帰分析を実施する。これにより、回帰モデル(具体的には、回帰式)が分析結果として得られる。この回帰モデルに、実測値が未知である化合物の計算結果を入力すると、実測値の推定値が得られる。
従来手法1は、既知のターゲットデータと既知の補助データとの関係を定量化し、その関係を利用して、未知のターゲットデータを予測する回帰分析法である。具体的に説明すると、従来手法1では、例えば、図1に示すデータマトリクス中、最上段のターゲットデータ(すなわち、実測値)と2段目の補助データ(すなわち、計算Bによる計算結果)とに着目し、両方のデータが揃っている化合物(図1では、化合物1、化合物3及び化合物N)を選び、それぞれの化合物のターゲットデータ及び補助データの間で回帰分析を実施する。これにより、回帰モデル(具体的には、回帰式)が分析結果として得られる。この回帰モデルに、実測値が未知である化合物の計算結果を入力すると、実測値の推定値が得られる。
以上に説明した従来手法1では、多数取得された補助データのうち、ごく一部のデータのみを分析に用いるので、分析結果が取得した補助データのすべてを反映したものとなっていない虞がある。また、回帰モデルが示す関数(具体的には、回帰式)が、ターゲットデータと補助データとの関係を的確に表現できるように設定されなければ、推定精度が低くなるという問題がある。
(従来手法2)
従来手法2は、化合物の構造と共に、化合物の物性値の取得条件を記述情報として表現し、それぞれの記述情報を入力とする推定モデルを構築する手法である。具体的に説明すると、各化合物の構成に関する記述情報と、様々な物性値の取得条件(具体的には、実測条件及び計算条件)を表す記述情報と、各取得条件の下で特定した各化合物の物性値と、を1組とする学習データセットを作成し、その学習データセットを用いた機械学習を実施して、推定モデルを構築する。この推定モデルによれば、ある化合物の構成に関する記述情報と、実測条件に関する記述情報と、を入力すると、ある化合物の物性値の実測値を推定(予測)することができる。
従来手法2は、化合物の構造と共に、化合物の物性値の取得条件を記述情報として表現し、それぞれの記述情報を入力とする推定モデルを構築する手法である。具体的に説明すると、各化合物の構成に関する記述情報と、様々な物性値の取得条件(具体的には、実測条件及び計算条件)を表す記述情報と、各取得条件の下で特定した各化合物の物性値と、を1組とする学習データセットを作成し、その学習データセットを用いた機械学習を実施して、推定モデルを構築する。この推定モデルによれば、ある化合物の構成に関する記述情報と、実測条件に関する記述情報と、を入力すると、ある化合物の物性値の実測値を推定(予測)することができる。
以上に説明した従来手法2では、物性値の取得条件の記述情報を人手で設定するため、記述情報が適切に設定されない虞がある。より具体的に説明すると、取得条件に関わる事項が複数存在する場合、その中から、物性値に影響を及ぼす重要な事項を記述情報として選出する必要がある。仮に、この重要事項が選出されなければ、物性値の推定精度が低下する虞がある。また、重要事項が選出されたとしても、その内容が記述情報として数値化できないものであるならば、推定モデルに組み込めず、結果として推定モデルを適切に構築することができない虞がある。
(従来手法3)
従来手法3は、既知の補助データを用いて事前学習を実施した後に、少数の既知のターゲットデータを用いて再学習を実施することで推定モデルを構築する手法である。かかる点において、従来手法3は、本実施形態(すなわち、本発明の特徴推定方法)と共通する。ただし、従来手法3は、1種類の条件(具体的には、一種類の計算条件)の下で得られた補助データを用いて事前学習を実施する点で本実施形態と異なる。
従来手法3は、既知の補助データを用いて事前学習を実施した後に、少数の既知のターゲットデータを用いて再学習を実施することで推定モデルを構築する手法である。かかる点において、従来手法3は、本実施形態(すなわち、本発明の特徴推定方法)と共通する。ただし、従来手法3は、1種類の条件(具体的には、一種類の計算条件)の下で得られた補助データを用いて事前学習を実施する点で本実施形態と異なる。
従来手法3について詳しく説明すると、従来手法3は、いわゆる転移学習である。転移学習では、先ず、既知の補助データ(例えば、図1中の2段目に示す計算Bによる計算結果)と、そのデータが得られた化合物の構成に関する記述情報とを1組とする学習データセットを作成し、この学習データセットを用い、ニューラルネットワークによる事前学習を実施する。事前学習により、物性値の計算結果を推定するニューラルネットワークの推定モデルが構築され、換言すると、推定モデル中の各パラメータが設定される。
その後、ターゲットデータ(すなわち、物性値の実測値)と、そのデータが得られた化合物の構成に関する記述情報とを1組とする学習データセットを作成し、この学習データセットを用いて、ニューラルネットワークによる再学習を実施する。再学習により、事前学習により構築されたニューラルネットワーク推定モデルが、物性値の実測値を推定するモデルとして再構築され、換言すると、推定モデル中のパラメータの一部が更新される。
以上に説明した従来手法3としての転移学習では、前述したように、多数の補助データのうち、1種類の取得条件の下で得られた補助データのみを事前学習に用いる。その場合には、未知のターゲットデータの正解データ(分かり易くは、未測定である化合物の物性値の実測値)を表現することが可能な正解関数について、当該正解関数が属する関数族を事前学習によって導き出すことが困難である。
また、転移学習では、再学習の際に更新されるパラメータ(再学習パラメータ)が、ニューラルネットワークによって構成される推定モデルのうち、出力層又は出力層付近の層に存在する。そのため、再学習パラメータの数が少ない場合には、再学習後の推定モデルによって表現される関数が正解関数から外れてしまう虞がある。この問題について詳しく説明すると、一般に、ターゲットデータソースのデータ数が非常に少ない場合には、再学習におけるターゲットデータへの過学習を避けるために、再学習パラメータの数を極力小さく設定する必要がある。ここで、再学習パラメータの数を1と設定したケースを想定する。なお、このようなケースは、例えば、ターゲットデータが数個しか得られていない場合等において現実的に起こり得るケースである。
転移学習において再学習パラメータが1である場合、転移学習の再学習は、ベースライン補正と等価となる。ここで、図2に示す具体例を参照しながら具体的に説明すると、事前学習にて構築された推定モデルによって表現される関数(図2中の関数fp)が、例えば下記式(a1)によって示される関数であるとする。
fp:y=Ax2+θ1 (a1)
上式において、定数A及びθ1は、事前学習によって設定されるパラメータに該当する。
そして、転移学習において再学習パラメータが1であるときに、少数のターゲットデータを用いて再学習すると、再学習後の推定モデルによって表現される関数(図2中の関数fq)が下記式(a2)によって示される関数となる。つまり、再学習パラメータが1であるときの再学習は、関数fpのパラメータθ1をθ2にベースライン補正するものとなる。
fq:y=Ax2+θ2 (a2)
fp:y=Ax2+θ1 (a1)
上式において、定数A及びθ1は、事前学習によって設定されるパラメータに該当する。
そして、転移学習において再学習パラメータが1であるときに、少数のターゲットデータを用いて再学習すると、再学習後の推定モデルによって表現される関数(図2中の関数fq)が下記式(a2)によって示される関数となる。つまり、再学習パラメータが1であるときの再学習は、関数fpのパラメータθ1をθ2にベースライン補正するものとなる。
fq:y=Ax2+θ2 (a2)
以上のように、転移学習の場合、再学習パラメータが1である場合に再学習を実施すると、図2に示すように、推定モデル中のパラメータをベースライン補正にて更新する。ただし、事前学習にて構築される推定モデルが示す関数fpと正解関数(図2中の関数fr)とが、上述のベースライン補正だけでは説明することができない複雑な関係にある場合、上述した再学習後の推定モデルでは、未知のターゲットデータを推定する際の精度が低くなってしまう。
<本実施形態に係る推定モデルについて>
本発明者らは、鋭意検討により、上述した従来手法が抱える問題を解決する推定モデルとして、本実施形態に係る推定モデルを完成させた。本実施形態に係る推定モデルについて説明すると、当該推定モデルは、化合物の構成に関する記述情報及びデータ取得条件の識別情報から物性値を推定するモデルである。本実施形態において、推定モデルは、2つのフェーズの機械学習、具体的には前述した事前学習及び再学習によって構築される。
本発明者らは、鋭意検討により、上述した従来手法が抱える問題を解決する推定モデルとして、本実施形態に係る推定モデルを完成させた。本実施形態に係る推定モデルについて説明すると、当該推定モデルは、化合物の構成に関する記述情報及びデータ取得条件の識別情報から物性値を推定するモデルである。本実施形態において、推定モデルは、2つのフェーズの機械学習、具体的には前述した事前学習及び再学習によって構築される。
事前学習では、多数ある既知の補助データをすべて用いて、ニューラルネットワークによる学習を実施し、推定モデルを構築する。ここで、事前学習で構築される推定モデルは、正解関数が属する関数族(以下、関数族F)を反映している。つまり、事前学習では、図3に示すように、多数の補助データの各々が示す化合物の物性値の計算値に基づき、関数全体の中から関数族Fを導出する。要するに、事前学習は、正解関数を大まかに捉える上で当該正解関数が属する関数族Fを導出することを目的として実施される。
再学習では、事前学習にて構築された推定モデル中の一部のパラメータを、少数の既知のターゲットデータに基づいて更新する。これにより、関数族Fの中から、未知のターゲットデータを推定する関数が導出される。つまり、本実施形態では、正解関数が属する関数族Fを事前学習によって導出しておくことにより、その後の再学習に用いられるターゲットデータの数が少数であっても、当該ターゲットデータが示す物性値の実測値を適切に表現し得る複雑な関数を得ることができる。
ここで、推定モデルのパラメータについて説明すると、本実施形態ではニューラルネットワークによる機械学習が実施されるが、本実施形態では、ニューラルネットワークにおいて膨大な数のパラメータが用いられる。また、ニューラルネットワークによる機械学習によれば、実質的に任意の関数を表現することが可能である。
また、本実施形態では、ニューラルネットワークによる機械学習のパラメータを2つのグループ(以下、パラメータP,Q)に大別する。殆どのパラメータは、パラメータPに属することとし、極少数のパラメータがパラメータQに属することとする。
また、ニューラルネットワークによる機械学習によって推定モデルを構築したとき、当該推定モデルによる物性値の推定値f(i)は、下記式(a3)から求められる。
f(i)=(i,P,Q) (a3)
上式(a3)において、iは、推定モデルへの入力情報であり、具体的には、化合物の構成に関する記述情報が該当する。
f(i)=(i,P,Q) (a3)
上式(a3)において、iは、推定モデルへの入力情報であり、具体的には、化合物の構成に関する記述情報が該当する。
また、上式(a3)においてパラメータPを固定すると、物性値の推定値f(i)は、パラメータQを変数とする関数族とみなすことができる。
ここで、各補助データが示す物性値の計算値を表現する関数と、各ターゲットデータが示す物性値の実測値を表現する関数とが、いずれも同一の関数族Fに属する一方で、それぞれの関数間でパラメータが異なると仮定する。より詳しく説明すると、補助データとターゲットデータとの間では、データ取得条件が異なっているが、パラメータPは、その条件に拘わらず共通であると仮定する。他方、パラメータQについては、データ取得条件に応じて変化するものと仮定する。
そして、本実施形態では、ニューラルネットワークによる機械学習を実施することで、上述のパラメータを設定する。具体的に説明すると、先ず、多数ある既知の補助データ(物性値の計算値)を用いて事前学習を実施することで、パラメータPを設定する。また、事前学習のフェーズでは、各補助データが示す物性値の計算値を表現するのに必要なパラメータQが設定される。これにより、各補助データが示す物性値の計算値を表現する複数の関数、すなわち、関数族Fを導出することができる。
事前学習の実施後には、少数の既知のターゲットデータ(物性値の実測値)を用いて再学習を実施する。このとき、パラメータPを固定し、ニューラルネットワークによる再学習を実施する。再学習の実施により、パラメータQは、ターゲットデータが示す物性値の実測値を推定するのに適した値へと更新される。なお、パラメータQの数が十分に小さいことから、少数のターゲットデータであっても、パラメータQを適切に設定することが可能である。
以上のような手順により、パラメータP、Qが設定される結果、未知のターゲットデータ(つまり、未測定である化合物の物性値の実測値)を推定することが可能な推定モデルが構築される。そして、推定モデルを用いれば、上述した従来手法の問題を解決し、未知のターゲットデータを精度よく推定することができる。より詳しく説明すると、本実施形態は、既知の補助データ及び既知のターゲットデータをすべて用いる点で、補助データの一部のみを用いる従来手法1(回帰分析)と異なる。また、従来手法1では、ターゲットデータと補助データとの関係を的確に表現するために回帰式の形を予め把握しておく必要がある。これに対して、本実施形態では、ニューラルネットワークによる機械学習が実施されることで、関数族Fが自動的に抽出されるため、関数の式の形を予め把握しておくことを要しない。かかる点において、本実施形態は、従来手法1よりも有利である。
また、本実施形態では、従来手法2のように、物性値の取得条件に関する記述情報を人手で設定する必要がなく、具体的には、取得条件の識別情報(具体的にはid情報)を用いて機械学習を実施する。このため、本実施形態では、取得条件の記述情報が適切に設定されないために物性値の推定精度が低下する事態を回避し、また、物性値の取得条件のうち、物性値の推定精度に影響を及ぼす事項を自動的に抽出することができる。かかる点において、本実施形態は、従来手法2よりも有利である。
また、従来手法3(転移学習)では、既知の補助データのうち、一種類の条件の下で得られた補助データのみを用いて事前学習を実施するのに対し、本実施形態では、前述したように、多数ある既知の補助データのすべてを用いて事前学習を実施する。これにより、本実施形態では、正解関数が属する関数族Fを良好に推定することが可能である。
また、転移学習では、再学習パラメータの数が1となると、再学習がベースライン補正(単なる定数の加算)となるため、未知のターゲットデータの推定精度が低下する虞がある。これは、転移学習では、再学習パラメータが推定モデルの出力側に存在するためである。これに対して、本実施形態では、後述するように再学習パラメータが推定モデルの入力側に存在する。このため、本実施形態では、ターゲットデータが示す物性値の実測値を表現する関数を、再学習パラメータの数に相当する自由度の範囲内で適切に表現することができる。
上記の内容に関して、図4を参照しながら詳しく説明すると、本実施形態では、事前学習で、正解関数frが属する関数族F(図4には、関数族Fの一部である関数f1~f3のみを図示)が導出され、その後の再学習では、ターゲットデータが良好に当てはまる関数(図4中の関数fv)が選出される。ここで、再学習パラメータの数が1である場合、ターゲットデータが良好に当てはまる関数fvについては、1自由度の範囲内で複雑な表現(例えば、非線形型の表現)が可能である。これは、再学習パラメータが推定モデルの入力側にあり、その下流側(より出力に近い側)には非線形型の演算モデル(具体的には、後述する推定結果出力モデル13)が存在しているためである。以上により結果、再学習パラメータの数を小さくしなければならない場合であっても、転移学習よりも高い精度にて物性値の実測値を推定する推定モデルが構築されるようになる。
次に、本実施形態に係る推定モデルの構成について、図5を参照しながら説明する。本実施形態に係る推定モデル(以下、推定モデル10)は、図5に示すように、記述情報用演算モデル11と、識別情報用演算モデル12と、推定結果出力モデル13とによって構成されている。以下、各構成モデルについて説明する。
(記述情報用演算モデル)
記述情報用演算モデル11は、図5に示す通り、推定モデル10の入力側を構成する。この記述情報用演算モデル11は、化合物の構成に関する記述情報が入力されることで演算後記述情報を出力する。ここで、入力情報である記述情報は、化合物の構造を線形表記法に則って記述したグラフ表現である。グラフ表現とは、化合物を構成する原子の原子番号、及び化合物内の結合情報を列挙した可変長記述子のことである。
記述情報用演算モデル11は、図5に示す通り、推定モデル10の入力側を構成する。この記述情報用演算モデル11は、化合物の構成に関する記述情報が入力されることで演算後記述情報を出力する。ここで、入力情報である記述情報は、化合物の構造を線形表記法に則って記述したグラフ表現である。グラフ表現とは、化合物を構成する原子の原子番号、及び化合物内の結合情報を列挙した可変長記述子のことである。
なお、記述情報については、グラフ表現に限定されず、例えば、化合物の構造についての文字列表現、具体的には、SMILES記法(Simplified Molecular Input Line Entry System)による記述子であってもよい。ただし、SMILES記述子を用いる場合には、同一化合物に対して多数の等価な表現方法が存在したり、環構造を持つ場合には隣接原子が文字列上の離れた場所に記載されるため長距離相関を持ったりするため、データ効率が悪い。一方、グラフ表現は、一意的に定まり、また、隣接原子の情報を明示的に機械学習に与えることができるため、データ効率が良い。
また、記述情報の他の例としては、k次元(kは自然数)の固定次元ベクトル表現であってもよい。ここで、固定次元ベクトル表現とは、化合物の特性のうち、安価に計算できるもの(原子数等)を事前にk個定め、各化合物について、それらの特性を事前に計算してベクトル表現することで化合物の記述子としたものである。この固定次元ベクトル表現を用いる場合には、無数にある特性のうち、どの特性が物性値推定精度の向上に有効であるかを事前に検討する必要がある。一方、グラフ表現では、化合物のグラフから物性値推定に適した特性を機械学習にて自動的に特定することができるため、事前に人手によって有効な特性の選択を行う必要がない。
また、記述情報の他の例としては、k次元(kは自然数)の固定次元ベクトル表現であってもよい。ここで、固定次元ベクトル表現とは、化合物の特性のうち、安価に計算できるもの(原子数等)を事前にk個定め、各化合物について、それらの特性を事前に計算してベクトル表現することで化合物の記述子としたものである。この固定次元ベクトル表現を用いる場合には、無数にある特性のうち、どの特性が物性値推定精度の向上に有効であるかを事前に検討する必要がある。一方、グラフ表現では、化合物のグラフから物性値推定に適した特性を機械学習にて自動的に特定することができるため、事前に人手によって有効な特性の選択を行う必要がない。
また、出力情報である演算後記述情報は、多次元の第一ベクトルである。つまり、記述情報用演算モデル11は、グラフ表現となった化合物の構造を示す記述情報を、固定次元ベクトルに変換する(エンコード)する演算モデルである。なお、演算後記述情報である第一ベクトルの次元数は、2以上の自然数であり、好適な値に設定される。また、第一ベクトルの次元数は、記述情報用演算モデル11中のパラメータの種類数に応じた数となっており、一般的には数十~数百に設定される。
また、記述情報用演算モデル11は、ニューラルネットワークによって構成されており、より具体的には、入力層、中間層及び出力層の各々が有する1又は複数のニューロン(ノード)が可塑性を持つ結合によって多数相互に結合された階層型ニューラルネットワークによって構成されている。なお、中間層の数、及び、各層におけるニューロンの数については、任意に設定することができる。また、記述情報用演算モデル11を構成するニューラルネットワークが、中間層を有さず、入力層及び出力層のみを有する二層構造のネットワークであってもよい。
また、記述情報用演算モデル11を構成するニューラルネットワークは、パラメータφを有する。このパラメータφは、機械学習(厳密には、事前学習)によって設定される学習パラメータであり、前述したパラメータPに該当する。また、パラメータφの数は、ニューラルネットワークの階層数及び各層のニューロンの数等に応じた数となる。なお、本実施形態におけるパラメータφの数については、事前学習に用いられる補助データの数を反映し、多数(例えば、数千~数万)設定されることが望ましい。これにより、記述情報用演算モデル11をなすニューラルネットワークの表現力が高められるようになる。
なお、本実施形態では、化合物のグラフ表現(具体的には、可変長記述子)が記述情報用演算モデル11に入力される。すなわち、本実施形態に係る記述情報用演算モデル11は、グラフニューラルネットワークであり、より厳密にはGoogle社考案のメッセージパッシングニューラルネットワーク(URL:https://arxiv.org/pdf/1704.01212.pdfにて公開された技術)である。メッセージパッシングニューラルネットワークは、化合物の構造に関するグラフ表現をニューラルネットワークで処理する際の代表的な構成である。
(識別情報用演算モデル)
識別情報用演算モデル12は、図5に示す通り、記述情報用演算モデル11と同様に、推定モデル10の入力側を構成する。この識別情報用演算モデル12は、条件の識別情報が入力されることで、演算後識別情報を出力する。ここで、入力情報である条件の識別情報とは、化合物の物性値を特定するために設定された条件を識別するための情報である。より詳しく説明すると、物性値を特定するために設定された条件は、ターゲットデータ(物性値の実測値)の取得条件、及び、補助データ(物性値の計算値)の取得条件であり、これら条件の各々に対して固有の情報が設定される。なお、本実施形態では、図1に示す「データ取得条件id」を示す番号が識別情報として設定される。ただし、これに限定されるものではなく、番号以外の情報、例えば番号以外の文字列又は記号等を識別情報として設定してもよい。
識別情報用演算モデル12は、図5に示す通り、記述情報用演算モデル11と同様に、推定モデル10の入力側を構成する。この識別情報用演算モデル12は、条件の識別情報が入力されることで、演算後識別情報を出力する。ここで、入力情報である条件の識別情報とは、化合物の物性値を特定するために設定された条件を識別するための情報である。より詳しく説明すると、物性値を特定するために設定された条件は、ターゲットデータ(物性値の実測値)の取得条件、及び、補助データ(物性値の計算値)の取得条件であり、これら条件の各々に対して固有の情報が設定される。なお、本実施形態では、図1に示す「データ取得条件id」を示す番号が識別情報として設定される。ただし、これに限定されるものではなく、番号以外の情報、例えば番号以外の文字列又は記号等を識別情報として設定してもよい。
ちなみに、本実施形態において、データ取得条件idを示す識別情報は、one-hot表現された上で識別情報用演算モデル12に入力される。また、本実施形態において、ターゲットデータの取得条件(すなわち、実測条件)は、1種類のみとし、その条件に対して、データ取得条件id=0が識別情報として設定されることとする。他方、補助データの取得条件(すなわち、計算条件)は、数十種類存在し、それぞれの計算条件に対して、1以降の連番からなるデータ取得条件idが識別情報として設定されることとする。
また、出力情報である演算後識別情報は、固有次元ベクトルとしての第二ベクトルである。つまり、識別情報用演算モデル12は、入力された識別情報を固定次元ベクトルに変換(エンコード)する演算モデルである。より詳しく説明すると、識別情報用演算モデル12は、図6に示すように、条件毎に設定された固有次元ベクトルによって構成された実数行列を含む演算モデルである。行列を構成する固有次元ベクトルの数(行数)は、条件の種類と同数である。そして、識別情報用演算モデル12に識別情報としてのデータ取得条件idが入力されると、行列中、当該データ取得条件idに対応する行の各成分値を抽出し、抽出した成分値を要素とする固有次元ベクトルを第二ベクトルとして出力する。一例を挙げて説明すると、データ取得条件id=2である場合、そのデータ取得条件idが識別情報用演算モデル12に入力されると、データ取得条件id=2と対応する行(つまり、図6中、太枠で囲まれた行)の成分値を抽出し、各成分値からなる第二ベクトル(-0.3,0.3,0.2,-0.4)を出力する。
ここで、識別情報用演算モデル12をなす行列の各成分値は、識別情報用演算モデル12中のパラメータθに相当する。このパラメータθは、事前学習によって設定される学習パラメータであり、前述のパラメータQに相当し、再学習によって更新される。また、パラメータθの数は、機械学習に用いられるターゲットデータ及び補助データの数に応じて設定される。より詳しく説明すると、識別情報用演算モデル12をなす行列の行数は、既知のターゲットデータの取得条件(すなわち、実測条件)の種類数と、既知の補助データの取得条件(すなわち、計算条件)の種類数とに基づいて設定される。
一方、上記行列の列数は、比較的小さい値(例えば、数個程度)に設定される。これは、再学習に用いられる既知のターゲットデータの数が少ない場合にパラメータ数を多く設定すると過学習が生じる可能性があることを考慮し、少量のデータであっても過学習を回避して未測定の物性値を精度よく推定することが可能な推定モデルを構築するためである。
ここで、上記行列の列数は、識別情報用演算モデル12から出力される第二ベクトルの次元数に相当する。そして、本実施形態において、第二ベクトルは、比較的低次元のベクトルとなり、その次元数は、識別情報用演算モデル12のパラメータの数と同数であり、記述情報用演算モデル11のパラメータの数よりも小さく、且つ、推定結果出力演算モデル13のパラメータの数よりも小さくなっている。また、上述した理由から、第二ベクトルの次元数は、再学習で用いられる既知のターゲットデータの個数(すなわち、既知である物性値の実測値の数)よりも小さくなっている。
なお、本実施形態では、識別情報用演算モデル12が実数行列を用いた演算モデルであり、前述したように、入力された識別情報(データ取得条件id)に対応する行の各成分値を抽出し、その成分値からなる固有次元ベクトルを出力する。ただし、これに限定されるものではなく、入力された識別情報を行列計算以外の演算で所定次元数のベクトルに変換する関数を識別情報用演算モデル12として用いてもよい。
(推定結果出力モデル)
推定結果出力モデル13は、図5に示す通り、推定モデル10の出力側を構成する。この推定結果出力モデル13は、非線形型の演算モデルであり、化合物の構成に関する記述情報から得られた演算後記述情報、及び条件の識別情報から得られた演算後識別情報が入力されることで物性値の推定結果を出力する。
推定結果出力モデル13は、図5に示す通り、推定モデル10の出力側を構成する。この推定結果出力モデル13は、非線形型の演算モデルであり、化合物の構成に関する記述情報から得られた演算後記述情報、及び条件の識別情報から得られた演算後識別情報が入力されることで物性値の推定結果を出力する。
より厳密に説明すると、前述したように、記述情報用演算モデル11からは演算後記述情報として第一ベクトルが出力され、識別情報用演算モデル12からは演算後識別情報として第二ベクトルが出力される。そして、推定結果出力モデル13は、第一ベクトル及び第二ベクトルから物性値(特徴)の推定結果を出力する。厳密には、推定結果出力モデル13には、第一ベクトル及び第二ベクトルを結合させた結合ベクトルが入力される。推定結果出力モデル13は、入力された結合ベクトルから物性値の推定結果を出力する。ここで、結合ベクトルとは、第一ベクトルと第二ベクトルとを直列的に結合したベクトルであり、その次元数は、第一ベクトルの次元数と第二ベクトルの次元数との和に等しい。
また、推定結果出力モデル13は、ニューラルネットワークによって構成されており、より具体的には、入力層、中間層及び出力層からなる階層型ニューラルネットワーク(厳密には、広く一般的に用いられる全結合型ニューラルネットワーク)によって構成されている。なお、中間層の数、及び各層におけるニューロンの数については、任意に設定することができる。また、推定結果出力モデル13を構成するニューラルネットワークが中間層を有さず、入力層及び出力層のみを有する二層構造のネットワークであってもよい。
また、推定結果出力モデル13を構成するニューラルネットワークは、パラメータψを有する。このパラメータψは、機械学習(厳密には、事前学習)によって設定される学習パラメータであり、前述したパラメータPに相当する。また、パラメータψの数は、ニューラルネットワークの階層数及び各層のニューロンの数等に応じた数となる。なお、本実施形態におけるパラメータψの数については、事前学習に用いられる補助データの数を反映し、多数(例えば、数千~数万)設定されることが望ましい。これにより、推定結果出力モデル13をなすニューラルネットワークの表現力が高められるようになる。
<本実施形態に係る特徴推定装置の構成>
次に、本実施形態に係る特徴推定装置20の構成例について、図7及び図8を参照しながら説明する。なお、図7では、外部インタフェースを「外部I/F」と記載している。
次に、本実施形態に係る特徴推定装置20の構成例について、図7及び図8を参照しながら説明する。なお、図7では、外部インタフェースを「外部I/F」と記載している。
本実施形態に係る特徴推定装置20は、図7に示されるとおり、制御部21、記憶部22、外部インタフェース23、入力装置24、出力装置25、及びドライブ26が電気的に接続されたコンピュータである。ここで、特徴推定装置20をなすコンピュータは、1台であってもよく、あるいは複数台であってもよい。
制御部21は、ハードウェアプロセッサであるCentral Processing Unit(CPU)、Random Access Memory(RAM)、Read Only Memory(ROM)等を含み、プログラム及びデータに基づいて各種のデータ処理を実行するように構成されている。なお、制御部21は、1又は複数の専用のハードウェアプロセッサを含んでもよい。
記憶部22は、制御部21で実行される特徴推定用のプログラム31、及び、ニューラルネットワークの機械学習に利用するデータ群32等を記憶する。特徴推定用のプログラム31は、本実施形態に係る特徴推定方法によって機械学習を実施して推定モデル10を構築する処理をコンピュータに実行させるためのプログラムであり、本実施形態では記録媒体27から読み取られることで記憶部22に記憶される。機械学習用のデータ群32は、各化合物の構成に関する記述情報、既知であるターゲットデータ及び補助データ、並びにこれらのデータの取得条件の識別情報等である。
外部インタフェース23は、外部装置と接続するためのインタフェースである。特徴推定装置20は、外部インタフェース23を介して、外部の機器(例えば、インターネットに接続された他のコンピュータ、及び、物性値の計測機器等)と通信することで、機械学習用のデータ群32の一部又は全部を取得することができる。
入力装置24は、例えばマウス及びキーボード等からなり、ユーザの入力操作を受け付ける。特徴推定装置20は、ユーザが入力装置24を通じて物性値の実測値又は計算値等を入力することで、機械学習用のデータ群32の一部又は全部を取得することができる。
出力装置25は、例えばディスプレイ及びスピーカ等からなり、特徴推定装置20が推定した化合物の物性値等を出力するための装置である。
出力装置25は、例えばディスプレイ及びスピーカ等からなり、特徴推定装置20が推定した化合物の物性値等を出力するための装置である。
ドライブ26は、例えば光学ディスクドライブ、磁気ディスクドライブ、ハードディスクドライブ及びメモリドライブ等からなり、記録媒体27に記憶されたプログラムを読み込むためのドライブ装置である。なお、ドライブ26の種類は、記録媒体27の種類に応じて適宜選択されてよい。また、記録媒体27に機械学習用のデータ群32の一部又は全部が記憶されている場合、特徴推定装置20は、ドライブ26が記録媒体27を読み取ることで上記機械学習用のデータ群32の一部又は全部を取得することができる。
記録媒体27は、コンピュータ及びその他装置又は機械等によって読み取り可能な各種のデータ及びプログラム等を、電気的、磁気的、光学的、機械的又は化学的作用によって蓄積する媒体である。本実施形態では、前述したように、記録媒体27に特徴推定用の学習プログラム31が記憶されている。なお、記録媒体27の一例として、CD及びDVD等の光学ディスク、磁気ディスク、ハードディスク等の内蔵ストレージ、フラッシュメモリ等の半導体メモリ、並びにメモリーカード等を挙げることができる。
なお、特徴推定装置20の具体的なハードウェア構成に関しては、実施形態に応じて適宜、構成機器の追加、省略及び置換が可能である。
特徴推定装置20の構成を機能面から改めて説明すると、特徴推定装置20は、図8に示すように、データ記憶部41、学習データセット作成部42、モデル構築部43及び物性値推定部44を有する。これらの機能部は、前述した特徴推定装置20を構成するハードウェア機器と、ソフトウェアである特徴推定用のプログラム31とが互いに協働することで実現される。
データ記憶部41は、機械学習用のデータ群32を記憶する。学習データセット作成部42は、データ記憶部41に記憶されたデータ群32から学習データセットを作成し、より詳しくは、事前学習に際して事前学習データセットを作成し、再学習に際して再学習データセットを作成する。
モデル構築部43は、学習データセット(すなわち、化合物の構成に関する記述情報、データ取得条件の識別情報、及び化合物の物性値のセット)を用いた機械学習を実施して推定モデル10を構築する。本実施形態において、モデル構築部43は、前述したように2段階のフェーズで機械学習を実施し、より詳しくは事前学習を実施した後に再学習を実施する。また、モデル構築部43は、それぞれの学習をニューラルネットワークによって実施する。
物性値推定部44は、モデル構築部43によって構築された推定モデル10を用いて、未測定である化合物の物性値の実測値を推定し、その推定結果を出力する。
物性値推定部44は、モデル構築部43によって構築された推定モデル10を用いて、未測定である化合物の物性値の実測値を推定し、その推定結果を出力する。
なお、上述した特徴推定装置20の各機能部(すなわち、データ記憶部41、学習データセット作成部42、モデル構築部43及び物性値推定部44)は、のハードウェア構成は、専用のハードウェアであってもよいし、プログラムを実行する各種のプロセッサまたはコンピュータであってもよい。
また、各種のプロセッサには、ソフトウェア(プログラム)を実行して各機能部として機能する汎用的なプロセッサであるCPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、及びASIC(Application Specific Integrated Circuit)等の特定の処理をさせるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。
また、一つの機能部を、これら各種のプロセッサのうちの一つで構成してもよいし、同種または異種の二つ以上のプロセッサの組み合わせ、例えば、複数のFPGAの組み合わせ、または、FPGA及びCPUの組み合わせ等によって構成してもよい。また、複数の機能部を、各種のプロセッサのうちの一つで構成してもよいし、複数の機能部のうちの二つ以上をまとめて一つのプロセッサを用いて構成してもよい。
また、例えば、サーバおよびクライアント等のコンピュータに代表されるように、一つ以上のCPUとソフトウェアの組み合わせで一つのプロセッサを構成し、このプロセッサが複数の機能部として機能するケースが考えられる。ちなみに、本実施形態は、このケースに該当する。
また、システムオンチップ(System on Chip:SoC)等に代表されるように、複数の機能部を含むシステム全体の機能を一つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。
さらに、上記各種のプロセッサのハードウェア構成は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路(Circuitry)である。
また、各種のプロセッサには、ソフトウェア(プログラム)を実行して各機能部として機能する汎用的なプロセッサであるCPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、及びASIC(Application Specific Integrated Circuit)等の特定の処理をさせるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。
また、一つの機能部を、これら各種のプロセッサのうちの一つで構成してもよいし、同種または異種の二つ以上のプロセッサの組み合わせ、例えば、複数のFPGAの組み合わせ、または、FPGA及びCPUの組み合わせ等によって構成してもよい。また、複数の機能部を、各種のプロセッサのうちの一つで構成してもよいし、複数の機能部のうちの二つ以上をまとめて一つのプロセッサを用いて構成してもよい。
また、例えば、サーバおよびクライアント等のコンピュータに代表されるように、一つ以上のCPUとソフトウェアの組み合わせで一つのプロセッサを構成し、このプロセッサが複数の機能部として機能するケースが考えられる。ちなみに、本実施形態は、このケースに該当する。
また、システムオンチップ(System on Chip:SoC)等に代表されるように、複数の機能部を含むシステム全体の機能を一つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。
さらに、上記各種のプロセッサのハードウェア構成は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路(Circuitry)である。
<本実施形態に係る特徴推定方法について>
次に、本実施形態に係る特徴推定方法について説明する。なお、以下では、本実施形態に係る特徴推定方法を採用したデータ処理(以下、「特徴推定フロー」と言う。)の手順について、図9を参照しながら説明することとする。なお、図9に示す各ステップS001~S005は、本実施形態に係る特徴推定方法の構成要素に相当する。
次に、本実施形態に係る特徴推定方法について説明する。なお、以下では、本実施形態に係る特徴推定方法を採用したデータ処理(以下、「特徴推定フロー」と言う。)の手順について、図9を参照しながら説明することとする。なお、図9に示す各ステップS001~S005は、本実施形態に係る特徴推定方法の構成要素に相当する。
特徴推定装置20を構成するコンピュータ(以下、単に「コンピュータ」と言う。)のユーザがフロー開始操作(例えば、特徴推定用のプログラム31を起動するための操作)を行い、特徴推定用のプログラム31が起動すると、これをトリガーとして特徴推定フローが開始される。
なお、特徴推定フロー開始前の時点で機械学習用のデータ群32が既に取得済みであって予めコンピュータの記憶部22に記憶されていてもよく、あるいは、特徴推定フローの開始後に上記のデータ群32を取得してもよい。以下では、特徴推定フローの開始時点で上記のデータ群32が記憶部22に記憶されているケースを例に挙げて説明することとする。
特徴推定フローでは、先ず、コンピュータが、記憶部22に記憶されたデータ群32から事前学習データセットを作成する(S001)。本ステップS001にて事前学習データセットを作成するにあたり、コンピュータは、化合物の物性値を推定する上で必要な既知の補助データを記憶部22から読み出す。この際、コンピュータは、補助データが取得された化合物の構成に関する記述情報(具体的には、グラフ表現)と、補助データの取得条件の識別情報(具体的には、計算条件に該当するデータ取得条件id)と、を併せて記憶部22から読み出す。そして、コンピュータは、補助データが示す物性値の計算値、記述情報及び識別情報を1組とする事前学習データセットを、補助データの数だけ作成する。
なお、本実施形態では、数百~数千種類の化合物の各々について数十種類の計算条件の下で物性値が計算されるため、補助データソースが膨大なデータ数となる。このため、ステップS001では、数千~数万個の事前学習データが作成されることになる。
次に、コンピュータは、多数ある事前学習データセットを用いて事前学習を実施する(S002)。つまり、本ステップS002では、各補助データが得られた化合物の構成に関する記述情報と、当該各補助データの取得条件の識別情報と、当該各補助データが示す物性値の計算値とを用いて事前学習が実施される。この事前学習により、正解関数が属する関数族Fを多量の補助データソースから導出する。
より詳しく説明すると、事前学習を実施することにより、記述情報用演算モデル11、識別情報用演算モデル12、及び推定結果出力モデル13とが構築される。換言すると、事前学習では、コンピュータが上記3つの演算モデルの各々についてパラメータθ、φ、ψを設定する。
また、ステップS002において、コンピュータは、ニューラルネットワークによって事前学習を実施する。具体的に説明すると、コンピュータは、事前学習において、各演算モデルのパラメータθ、φ、ψを初期化した後、予測誤差評価関数Lが最小化するように、それぞれのパラメータを、下記の式(b1)~(b4)に従って連続的に計算する。
L(x,id; θt,φt,ψt) = [f(x,id; θt,φt,ψt)-y]2 (b1)
θt+1 = θt+ε∇θL(x, θt,φt,ψt) (b2)
φt+1 = φt+ε∇φL(x, θt,φt,ψt) (b3)
ψt+1 = ψt+ε∇ψL(x, θt,φt,ψt) (b4)
L(x,id; θt,φt,ψt) = [f(x,id; θt,φt,ψt)-y]2 (b1)
θt+1 = θt+ε∇θL(x, θt,φt,ψt) (b2)
φt+1 = φt+ε∇φL(x, θt,φt,ψt) (b3)
ψt+1 = ψt+ε∇ψL(x, θt,φt,ψt) (b4)
なお、上記式(b1)~(b4)の各変数の定義は、以下の通りである。
L:物性値の予測誤差評価関数
f:推定モデルによる物性値の推定値
x:化合物の構成に関する記述情報(例えば、グラフ表現)
id:条件の識別情報(例えば、データ取得条件id)
y:学習用のデータが示す物性値
θ:記述情報用演算モデル11のパラメータ
φ:識別情報用演算モデル12のパラメータ
ψ:推定結果出力モデル13のパラメータ
ε:学習係数
t:学習ステップを示す回数(t=1,2,3,・・・・・)
L:物性値の予測誤差評価関数
f:推定モデルによる物性値の推定値
x:化合物の構成に関する記述情報(例えば、グラフ表現)
id:条件の識別情報(例えば、データ取得条件id)
y:学習用のデータが示す物性値
θ:記述情報用演算モデル11のパラメータ
φ:識別情報用演算モデル12のパラメータ
ψ:推定結果出力モデル13のパラメータ
ε:学習係数
t:学習ステップを示す回数(t=1,2,3,・・・・・)
そして、予測誤差評価関数Lの値が収束した時点で事前学習を終了する。なお、予測誤差評価関数Lの勾配の推定には、広く一般的に用いられる誤差逆伝播法(バックプロパゲーション)が利用可能である。ただし、これに限定されるものではなく、誤差逆伝播法とそれ以外の方法(例えば勾配降下法等)を組み合わせて利用してもよい。
また、事前学習が終了した時点では、事前学習に用いられた補助データのそれぞれについて、補助データの取得条件の識別情報(つまり、計算条件に該当するデータ取得条件id)と対応する第二ベクトルが出力される。なお、これらの第二ベクトルを2次元平面に射影することにより、図10に示す散布図が得られる。
次に、コンピュータは、記憶部22に記憶されたデータ群32から再学習データセットを作成する(S003)。本ステップS003にて再学習データセットを作成するにあたり、コンピュータは、化合物の物性値を推定する上で必要な既知のターゲットデータを記憶部22から読み出す。この際、コンピュータは、ターゲットデータが取得された化合物の構成に関する記述情報(具体的には、グラフ表現)と、ターゲットデータの取得条件の識別情報(具体的には、実測条件に該当するデータ取得条件id)と、を併せて記憶部22から読み出す。そして、コンピュータは、ターゲットデータが示す物性値の実測値、記述情報及び識別情報を1組とする再学習データセットを、ターゲットデータの数だけ作成する。
なお、本実施形態では、数種類の化合物のみについて物性値が実測されるため、ターゲットデータソースは、少量のデータ数となる。このため、ステップS003では、数個~数十個の再学習データが作成されることになる。
次に、コンピュータは、少量の再学習データセットを用いて再学習を実施する(S004)。つまり、本ステップS002では、各ターゲットデータが得られた化合物の構成に関する記述情報と、当該各ターゲットデータの取得条件の識別情報と、当該各ターゲットデータが示す物性値の実測値とを用いて再学習が実施される。この再学習により、事前学習で導出された関数族Fのうち、ターゲットデータが良好に当てはまる関数fvを少量のターゲットデータソースから見つけ出すことができる。
より詳しく説明すると、再学習では、コンピュータが、記述情報用演算モデル11中のパラメータφ、及び推定結果出力モデル13中のパラメータψを固定したまま、識別情報用演算モデル12中のパラメータθを、再学習データセット(すなわち、物性値の実測条件及びその実測値)に基づいて更新される。さらに詳しく説明すると、再学習では、識別情報用演算モデル12のパラメータθとして、識別情報用演算モデル12をなす行列中の成分値を更新する。より厳密には、上記の行列中、ターゲットデータ取得条件の識別情報、すなわち、データ取得条件id=0と対応する行(図6に示すケースでは、1行目)の各成分値を更新する。
また、ステップS004において、コンピュータは、ニューラルネットワークによって再学習を実施する。具体的に説明すると、コンピュータは、再学習において、識別情報用演算モデル12中のパラメータθのうち、更新対象であるデータ取得条件id=0と対応する行の各成分値を初期化した後、前述した(b3)に従って連続的に計算する。そして、予測誤差評価関数Lの値が収束した時点で再学習を終了する。なお、予測誤差評価関数Lの勾配の推定には、誤差逆伝播法(バックプロパゲーション)が利用可能であるが、それ以外の方法(例えば勾配降下法等)と組み合わせて利用してもよい。
また、再学習が終了した時点では、再学習に用いられたターゲットデータについて、当該ターゲットデータの取得条件の識別情報(すなわち、データ取得条件id=0)と対応する第二ベクトルが追加して出力される。この追加された第二ベクトルは、2次元平面に射影されることで、図11に示す散布図として、事前学習時に出力された第二ベクトルと共に可視化することができる。
そして、再学習が実施されることにより、未測定である化合物の物性値を推定する推定モデル10が構築される。この推定モデル10は、物性値が未測定である化合物の構成に関する記述情報と、物性値の実測条件の識別情報とを入力として、当該実測条件の下で特定される物性値の実測値を推定し、その推定結果を出力する。この推定モデル10によれば、未測定である化合物の物性値を精度よく推定(予測)することが可能となる。
上記の推定モデル10について補足しておくと、推定モデル10は、ターゲットデータが良好に当てはまる関数fvを表現したものであり、この関数fvは、識別情報用演算モデル12が出力する第二ベクトルが変わると、当然異なる形になる。かかる観点から言うと、再学習によって構築される推定モデル10は、第二ベクトルを変数とし、当該第二ベクトルの次元数を自由度として有する関数族を定義していると考えられる。つまり、第二ベクトルを固定した場合、推定モデル10は、化合物の構成に関する記述情報を入力して、当該化合物の物性値の推定結果を出力する関数となる。また、事前学習の終了後に、第二ベクトルを各条件の識別情報(データ取得条件id)と対応するように調整すれば、推定モデル10が各条件の識別情報に応じた関数となる。他方、推定モデル10が、いずれの識別情報とも対応しない第二ベクトルによって定義される関数となるようにすることもでき、この場合には、推定モデル10によって推定される物性値が、何らかの手法による計算値、あるいは何らかの実測環境下で実測された実測値であるものと期待される。
次に、コンピュータは、ステップS004にて構築された推定モデル10を用いて、未測定である化合物の物性値の実測値を推定する(S005)。図1に示すケースを例に挙げて説明すると、例えば、物性値が実測されていない化合物2について物性値の実測値を推定する場合には、化合物2の構造に関するグラフ表現と、実測条件の識別情報であるデータ取得条件id=0と、を推定モデル10に入力する。これにより、化合物2の物性値の実測値が推定され、その推定結果が出力装置25によって出力される。
以上までのステップが完了した時点で、特徴推定フローが終了する。そして、上述した特徴推定フローにより、実測値が欠落している化合物の物性値を補完することができる。
また、上述した特徴推定フローによれば、実測値のデータ(すなわち、ターゲットデータ)の数が少ない場合であっても、化合物の物性値の実測値を精度よく推定することができる。この点において、本実施形態は、特許文献1に記載された物性値推定方法よりも有利である。
より具体的に説明すると、特許文献1に記載の物性値推定方法のように、ニューラルネットワークによる機械学習を利用して化合物の物性値の実測値を推定(予測)する場合には、通常、実測値のデータ(すなわち、ターゲットデータ)がより多く得られているほど、推定精度が高くなる。しかしながら、物性値の実測は、手間及びコストを要するため、すべての化合物を対象として物性値を実測することは困難である。
一方で、物性値は、前述したように、複数種類の計算条件(計算手法)によって計算することができ、各化合物の物性値をそれぞれの計算条件によって計算すれば、計算値のデータ(すなわち、補助データ)を多数取得することができる。そこで、本発明では、多数ある補助データを用いて事前学習を実施し、未測定である化合物の物性値を表現することが可能な正解関数が属する関数族Fを導出する。その後、少量のターゲットデータを用いて再学習を実施し、上記の関数族Fの中から、ターゲットデータが良好に当てはまる関数fvを選び出す。
ここで、本実施形態では、再学習にて更新されるパラメータが、推定モデル10の入力側にある識別情報用演算モデル12中のパラメータであり、識別情報用演算モデル12の下流側(出力側)には、非線形型の推定結果出力モデル13が存在する。この結果、更新されるパラメータの数が少なく、例えば、その数が仮に1であったとしても、転移学習のようにベースライン補正とはならず、上記関数fvを自由度1の範囲内で、更新後のパラメータを変数とする非線形型の関数として表現することが可能となる。
以上により、少量のターゲットデータであっても、化合物の物性値の実測値を精度よく推定することが可能な推定モデル10を構築することが可能となる。
以上により、少量のターゲットデータであっても、化合物の物性値の実測値を精度よく推定することが可能な推定モデル10を構築することが可能となる。
なお、上述の特徴推定フローは、既知のターゲットデータが少数である場合に特に有効であるが、当然ながら、既知のターゲットデータが多数取得される場合にも利用可能である。
また、推定モデル10の利用目的は、当然ながら、未測定である化合物の物性値を推定する目的に限られず、例えば、モデルの推定精度を検証する等の理由から実測済みの化合物の物性値を推定するために推定モデル10を利用してもよい。
また、推定モデル10の利用目的は、当然ながら、未測定である化合物の物性値を推定する目的に限られず、例えば、モデルの推定精度を検証する等の理由から実測済みの化合物の物性値を推定するために推定モデル10を利用してもよい。
<本実施形態の推定モデルの精度について>
以下では、上述した特徴推定フローによって構築された推定モデルの推定精度について行った検証実験と、その検証結果を説明する。
(検証用データ)
検証実験を実施するにあたり、化合物の物性値として、光の吸収エネルギー(換言すると、吸収波長)を示す検証用データを用意した。より詳しく説明すると、3000種類の化合物の各々について、26種類の汎関数のそれぞれによってDFT(Density Functional Theory 密度汎関数法)計算を行った。これにより、吸収エネルギーの計算結果を示す検証用データを、78000件(=26×3000)用意した。なお、DFT計算には、量子化学計算ソフトウェアGaussianを使用し、基底関数を6-31Gとした。また、計算対象となった3000種類の化合物は、有機分子の物性値データベースであるQM9からランダムに抽出した。計算結果の一部の抜粋を図12に示す。図12の横軸は、化合物の種類と対応する番号(化合物番号)を表しており、縦軸は、吸収エネルギーの計算値(単位:ev)を表している。
以下では、上述した特徴推定フローによって構築された推定モデルの推定精度について行った検証実験と、その検証結果を説明する。
(検証用データ)
検証実験を実施するにあたり、化合物の物性値として、光の吸収エネルギー(換言すると、吸収波長)を示す検証用データを用意した。より詳しく説明すると、3000種類の化合物の各々について、26種類の汎関数のそれぞれによってDFT(Density Functional Theory 密度汎関数法)計算を行った。これにより、吸収エネルギーの計算結果を示す検証用データを、78000件(=26×3000)用意した。なお、DFT計算には、量子化学計算ソフトウェアGaussianを使用し、基底関数を6-31Gとした。また、計算対象となった3000種類の化合物は、有機分子の物性値データベースであるQM9からランダムに抽出した。計算結果の一部の抜粋を図12に示す。図12の横軸は、化合物の種類と対応する番号(化合物番号)を表しており、縦軸は、吸収エネルギーの計算値(単位:ev)を表している。
(検証実験)
検証実験では、先ず、検証用データを対象として統計解析を実施し、計算条件(具体的には、汎関数の種類)の違いによる計算結果の平均偏差を求めた。より詳しく説明すると、10点サンプリングで平均値補正を行った場合の平均偏差と、正確な平均値補正を行った場合の平均偏差とを算出した。前者の平均偏差は、0.27evであり、後者の平均偏差は、0.18evであった。
検証実験では、先ず、検証用データを対象として統計解析を実施し、計算条件(具体的には、汎関数の種類)の違いによる計算結果の平均偏差を求めた。より詳しく説明すると、10点サンプリングで平均値補正を行った場合の平均偏差と、正確な平均値補正を行った場合の平均偏差とを算出した。前者の平均偏差は、0.27evであり、後者の平均偏差は、0.18evであった。
次に、上述した特徴推定フローの手順にて推定モデルを構築した。ここで、推定モデルのうち、ニューラルネットワークによって構成される部分は、4層の全結合型ニューラルネットワークであり、具体的にはグラフニューラルネットワーク(厳密には、メッセージパッシングニューラルネットワーク)とした。また、推定モデルのうち、識別情報用演算モデルから出力されるベクトル(第二ベクトル)の次元数を10次元に設定した。
そして、26種類の計算条件のうち、20種類の計算条件(第一条件に相当)で3000種類の化合物の各々について得られた検証用データ、すなわち、60000件分の検証用データすべてを用いて事前学習を実施した。その後、残り6種類の計算条件(第二条件に相当)で5~20種類の化合物の各々について得られた検証用データを用いて再学習を実施した。以上までの過程を経て、第二条件に相当する6種類の計算条件の下で得られる物性値の計算値を推定する推定モデルが構築される。なお、第二条件に相当する6種類の計算条件とは、汎関数の種類としての「VSXC」、「MN12L」、「tHCTHhyb」、「HISSbPBE」、「BMK」及び「X3LYP」である。
推定モデルの構築後、第二条件に相当する6種類の計算条件で3000種類の化合物の各々について得られた検証用データ、すなわち、18000件の検証用データを用いて推定精度の評価を行った。具体的には、3000種類の化合物の各々について、上記6種類の計算条件で吸収エネルギーを計算した場合の計算値を、推定モデルによって推定した。そして、それぞれの推定結果を対応する検証用データと比較し、それぞれの計算条件について平均絶対誤差を求めた。検証結果を図13に示す。なお、図13の横軸は、再学習時に用いたデータの数を表しており、縦軸は、平均絶対誤差(単位:eV)を表している。
検証実験の結果について説明すると、図13に示すように、第二条件に相当する6種類の計算条件の各々について、10件のデータを用いて再学習した場合には、平均絶対誤差が0.13~0.22eVとなった。つまり、上記6種類の計算条件の各々について、再学習に用いるデータ数が少量(10件程度)であっても、各計算条件での計算値を推定モデルによって精度よく推定し得ることが明らかとなった。
<その他の実施形態について>
以上までに本発明の一実施形態について説明してきたが、上述の実施形態は、あくまでも一例に過ぎず、他の実施形態も考えられる。
以上までに本発明の一実施形態について説明してきたが、上述の実施形態は、あくまでも一例に過ぎず、他の実施形態も考えられる。
具体的に説明すると、上記の実施形態では、推定モデル10の入力側に、化合物の構成に関する記述情報から固定次元ベクトルを出力する記述情報用演算モデル11が設けられていることとした。ただし、これに限定されるものではなく、例えば、記述情報自体が固定次元ベクトルである場合には、記述情報用演算モデル11を省略してもよい。この場合には、識別情報用演算モデル12と推定結果出力モデル13のみによって推定モデル10が構成される。そして、識別情報用演算モデル12から出力される固定次元ベクトル(第二ベクトル)と、記述情報としての固定次元ベクトルとを結合し、その結合ベクトルが推定結果出力モデル13へ入力されることになる。
また、上述の実施形態では、ターゲットデータの取得条件(第二条件)が、1つのみであり、補助データの取得条件(第一条件)よりも少ないこととしたが、これに限定されるものではない。第二条件に相当する条件が複数あってもよく、さらに第一条件に相当する条件より多くてもよい。
また、上述の実施形態では、事前学習において、識別情報用演算モデル12のパラメータθを設定し、具体的には、識別情報用演算モデル12をなす行列の各成分値を設定することとした。また、上記の実施形態では、再学習において、識別情報用演算モデル12中のパラメータθの一部を更新し、未測定の物性値の実測値を推定する推定モデル10を構築することとした。ただし、これに限定されるものではなく、上述の実施形態にベイズ推定の考えを導入してもよい。
つまり、ベイズ推定により、あるデータ取得条件の下で特定される物性値のデータが何らかの(確率的な)生成過程を通して生成されたと考え、その生成過程をモデル化する。このモデルでは、潜在変数zとしての第二ベクトルが正規分布に従って生成される。そして、ある化合物nの構造のグラフ表現を記述情報用演算モデル11でエンコードした第一ベクトルxnと、潜在変数zである第二ベクトルから、既知関数f(具体的には、推定結果出力モデル13により表現される関数)を通して物性値のデータyを生成する。モデル化の作業としては、先ず、事前学習を実施し、上記の既知関数fを特定し、且つ、各データ取得条件(厳密には、各計算条件)に対応する潜在変数z(第二ベクトル)を推定する。その後、再学習を実施する。再学習では、通常のベイズ推定と同様、物性値の実測値yが何らかの潜在変数zから生成されたとみなし、潜在変数zが取り得る値の確率分布(事後分布)を計算する。具体的には、物性値の実測値yのデータ(ターゲットデータ)を用い、その実測条件と対応する潜在変数zについての事後分布をマルコフ連鎖モンテカルロ法でサンプリング近似する。その後、事後分布を利用して、物性値の実測値yについての予測分布を計算し、例えば、予測分布の平均値を実測条件下での物性値の推定値とする。以上のような手順により、物性値の実測値を推定してもよい。
また、上述の実施形態では、化合物の構成に関する記述情報、及び実測条件の識別情報を入力として、化合物の物性値の実測値を推定するケースを例に挙げて説明したが、本発明は、その他の特徴を推定する場合にも適用可能である。例えば、「人の声」を対象とし、その声が意味する語句(表音文字)を特徴として推定するケースにおいても、本発明は適用され得る。
より詳しく説明すると、推定対象者及び複数の非推定対象者の各々の声の音声データを解析して、それぞれの声が意味する語句(表音文字)を特定する。ここで、音声データが「記述情報」であり、声を発する人が「条件」に該当し、その人の名前又は識別IDが「識別情報」に該当する。また、非推定対象者が「第一条件」に該当し、推定対象者が「第二条件」に該当する。また、推定対象者の音声データから特定した語句(表音文字)が「ターゲットデータ」に相当し、非推定対象者の音声データから特定した語句(表音文字)が「補助データ」に該当する。そして、上述の実施形態と同様に、補助データのすべてを用いて事前学習を実施した後に、ターゲットデータを用いて再学習を実施することで、推定モデルが構築される。この推定モデルによれば、対象者の音声データと、対象者の名前又は識別IDとを入力として、上記音声データの声が意味する語句(表音文字)を推定(判定)することができる。
また、本発明のその他の適用例としては、「様々な書体で書かれた文字」を対象とし、その文字が表す語句の意味(例えば、数値)を特徴として推定するケースにおいても、本発明は適用され得る。
より詳しく説明すると、様々な書体で書かれた文字の画像データを解析して、それぞれの文字が表す数値を特定する。ここで、画像データが「記述情報」であり、書体が「条件」に該当し、その書体の名前等が「識別情報」に該当する。また、書体のうちの特定の書体が「第二条件」に該当し、残りの書体が「第一条件」に該当する。また、特定の書体で書かれた文字の画像データから特定した数値が「ターゲットデータ」に相当し、それ以外の書体で書かれた文字の画像データから特定した数値が「補助データ」に該当する。そして、上述の実施形態と同様に、補助データのすべてを用いて事前学習を実施した後に、ターゲットデータを用いて再学習を実施することで、推定モデルが構築される。この推定モデルによれば、特定の書体で書かれた文字の画像データと、特定の書体の名前とを入力として、当該画像データが示す文字によって表される数値を推定(判定)することができる。
10 推定モデル
11 記述情報用演算モデル
12 識別情報用演算モデル
13 推定結果出力モデル
20 特徴推定装置
21 制御部
22 記憶部
23 外部インタフェース
24 入力装置
25 出力装置
26 ドライブ
27 記録媒体
31 プログラム
32 データ群
41 データ記憶部
42 学習データセット作成部
43 モデル構築部
44 物性値推定部
fv ターゲットデータが良好に当てはまる関数
F 関数族
11 記述情報用演算モデル
12 識別情報用演算モデル
13 推定結果出力モデル
20 特徴推定装置
21 制御部
22 記憶部
23 外部インタフェース
24 入力装置
25 出力装置
26 ドライブ
27 記録媒体
31 プログラム
32 データ群
41 データ記憶部
42 学習データセット作成部
43 モデル構築部
44 物性値推定部
fv ターゲットデータが良好に当てはまる関数
F 関数族
Claims (12)
- コンピュータにより、対象の特徴を推定する特徴推定方法であって、
コンピュータが、前記対象の構成に関する記述情報、前記特徴を特定する条件に対して設定された識別情報、及び前記条件の下で特定された前記特徴を用いた機械学習を実施して、前記記述情報及び前記識別情報から前記特徴を推定する推定モデルを構築し、
前記条件は、複数の第一条件と、前記複数の第一条件とは異なる第二条件と、を含み、
前記機械学習は、
前記記述情報、前記複数の第一条件の各々の前記識別情報、及び、前記複数の第一条件の各々の下で特定された前記特徴を用いた事前学習と、
前記第二条件の前記識別情報、及び、前記第二条件の下で特定された前記特徴を用いた再学習と、を含み、
前記事前学習では、コンピュータが、前記複数の第一条件の各々の前記識別情報が入力されて演算後識別情報を出力する識別情報用演算モデルと、前記記述情報又は前記記述情報から得られた情報と前記演算後識別情報とが入力されて前記特徴の推定結果を出力する非線形型の推定結果出力モデルと、を構築し、
前記再学習では、コンピュータが、前記推定結果出力モデル中のパラメータを固定したまま前記識別情報用演算モデル中のパラメータを前記第二条件の前記識別情報、及び、前記第二条件の下で特定された前記特徴に基づいて更新し、前記記述情報及び前記第二条件の前記識別情報から前記第二条件の下で特定される前記特徴を推定する前記推定モデルを構築することを特徴とする特徴推定方法。 - 前記事前学習では、コンピュータが、前記記述情報が入力されて演算後記述情報を出力する記述情報用演算モデルと、前記識別情報用演算モデルと、前記演算後記述情報と前記演算後識別情報とが入力されて前記特徴の推定結果を出力する前記推定結果出力モデルと、を構築し、
前記再学習では、コンピュータが、前記記述情報用演算モデル中のパラメータ、及び、前記推定結果出力モデル中のパラメータを固定したまま前記識別情報用演算モデル中のパラメータを前記第二条件の前記識別情報、及び、前記第二条件の下で特定された前記特徴に基づいて更新し、前記記述情報及び前記第二条件の前記識別情報から前記第二条件の下で特定される前記特徴を推定する前記推定モデルを構築する、請求項1に記載の特徴推定方法。 - 前記演算後記述情報は、多次元の第一ベクトルであり、
前記演算後識別情報は、第二ベクトルであり、
前記推定結果出力モデルは、前記第一ベクトル及び前記第二ベクトルから前記特徴の推定結果を出力するモデルである、請求項2に記載の特徴推定方法。 - 前記第二ベクトルの次元数は、前記記述情報用演算モデル中のパラメータの数よりも小さく、且つ、前記推定結果出力モデル中のパラメータの数よりも小さい、請求項3に記載の特徴推定方法。
- 前記第二ベクトルの次元数は、前記再学習で用いられる前記第二条件の下で特定された前記特徴の数よりも小さい、請求項4に記載の特徴推定方法。
- 前記識別情報用演算モデルは、前記条件毎に設定された固定次元ベクトルによって構成される行列を含む演算モデルであり、
前記再学習では、前記識別情報用演算モデル中のパラメータとして、前記行列中の成分値を更新する、請求項1乃至請求項5のいずれか一項に記載の特徴推定方法。 - 前記機械学習において、コンピュータは、ニューラルネットワークにより前記事前学習及び前記再学習を実施する、請求項1乃至請求項6のいずれか一項に記載の特徴推定方法。
- 前記推定モデルは、前記対象の前記特徴としての化合物の物性値を推定するモデルであり、
前記記述情報は、前記化合物の構造を線形表記法に則って記述した情報であり、
前記条件は、前記化合物の前記物性値を特定するために設定された条件である、請求項1乃至請求項7のいずれか一項に記載の特徴推定方法。 - 前記第一条件は、前記物性値を計算するために設定された計算条件であり、
前記第二条件は、前記物性値を実測するために設定された実測条件である、請求項8に記載の特徴推定方法。 - プロセッサを備え、対象の特徴を推定する特徴推定装置であって、
前記プロセッサは、前記対象の構成に関する記述情報、前記特徴を特定する条件に対して設定された識別情報、及び前記条件の下で特定された前記特徴を用いた機械学習を実施して、前記記述情報及び前記識別情報から前記特徴を推定する推定モデルを構築し、
前記条件は、複数の第一条件と、前記複数の第一条件とは異なる第二条件と、を含み、
前記機械学習は、
前記記述情報、前記複数の第一条件の各々の前記識別情報、及び、前記複数の第一条件の各々の下で特定された前記特徴を用いた事前学習と、
前記第二条件の前記識別情報、及び、前記第二条件の下で特定された前記特徴を用いた再学習と、を含み、
前記事前学習では、前記プロセッサが、前記複数の第一条件の各々の前記識別情報が入力されて演算後識別情報を出力する識別情報用演算モデルと、前記記述情報又は前記記述情報から得られた情報と前記演算後識別情報とが入力されて前記特徴の推定結果を出力する非線形型の推定値出力モデルと、を構築し、
前記再学習では、前記プロセッサが、前記推定値出力モデル中のパラメータを固定したまま前記識別情報用演算モデル中のパラメータを前記第二条件の前記識別情報、及び、前記第二条件の下で特定された前記特徴に基づいて更新し、前記記述情報及び前記第二条件の前記識別情報から前記第二条件の下で特定される前記特徴を推定する前記推定モデルを構築することを特徴とする特徴推定装置。 - 請求項1乃至請求項9のいずれか一項に記載の特徴推定方法における前記機械学習を実施して前記推定モデルを構築する処理をコンピュータに実行させるためのプログラム。
- 請求項1乃至請求項9のいずれか一項に記載の特徴推定方法における前記機械学習を実施して前記推定モデルを構築する処理をコンピュータに実行させるためのプログラムが記録された、コンピュータに読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021506193A JP6974651B2 (ja) | 2019-03-15 | 2020-01-14 | 特徴推定方法、特徴推定装置、プログラム及び記録媒体 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019048115 | 2019-03-15 | ||
JP2019-048115 | 2019-03-15 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020188971A1 true WO2020188971A1 (ja) | 2020-09-24 |
Family
ID=72520593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/000837 WO2020188971A1 (ja) | 2019-03-15 | 2020-01-14 | 特徴推定方法、特徴推定装置、プログラム及び記録媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6974651B2 (ja) |
WO (1) | WO2020188971A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022097270A1 (ja) * | 2020-11-06 | 2022-05-12 | 日本電信電話株式会社 | 学習方法、無線品質推定方法、学習装置、無線品質推定装置、及びプログラム |
WO2022172569A1 (ja) * | 2021-02-10 | 2022-08-18 | 株式会社Jvcケンウッド | 機械学習装置、機械学習方法、および機械学習プログラム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114141317A (zh) * | 2021-12-07 | 2022-03-04 | 北京百度网讯科技有限公司 | 化合物性质预测模型训练方法、装置、设备以及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012226732A (ja) * | 2011-04-06 | 2012-11-15 | Nippon Steel Corp | 操業予測装置、操業予測方法、及びコンピュータプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102523472B1 (ko) * | 2016-08-01 | 2023-04-18 | 삼성전자주식회사 | 신규 물질의 구조 생성 방법 및 장치 |
-
2020
- 2020-01-14 WO PCT/JP2020/000837 patent/WO2020188971A1/ja active Application Filing
- 2020-01-14 JP JP2021506193A patent/JP6974651B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012226732A (ja) * | 2011-04-06 | 2012-11-15 | Nippon Steel Corp | 操業予測装置、操業予測方法、及びコンピュータプログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022097270A1 (ja) * | 2020-11-06 | 2022-05-12 | 日本電信電話株式会社 | 学習方法、無線品質推定方法、学習装置、無線品質推定装置、及びプログラム |
WO2022172569A1 (ja) * | 2021-02-10 | 2022-08-18 | 株式会社Jvcケンウッド | 機械学習装置、機械学習方法、および機械学習プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6974651B2 (ja) | 2021-12-01 |
JPWO2020188971A1 (ja) | 2021-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321603B (zh) | 一种用于航空发动机气路故障诊断的深度计算模型 | |
Liu et al. | A deep material network for multiscale topology learning and accelerated nonlinear modeling of heterogeneous materials | |
Wang et al. | Software reliability prediction using a deep learning model based on the RNN encoder–decoder | |
Wu et al. | Beyond sparsity: Tree regularization of deep models for interpretability | |
CN112163426B (zh) | 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法 | |
WO2020188971A1 (ja) | 特徴推定方法、特徴推定装置、プログラム及び記録媒体 | |
Bengio et al. | Deep learning | |
CN110956260A (zh) | 神经架构搜索的系统和方法 | |
Kollmannsberger et al. | Deep learning in computational mechanics | |
CN110909926A (zh) | 基于tcn-lstm的太阳能光伏发电预测方法 | |
Zheng et al. | Learning in energy-efficient neuromorphic computing: algorithm and architecture co-design | |
Guo et al. | A just-in-time modeling approach for multimode soft sensor based on Gaussian mixture variational autoencoder | |
Huang et al. | Conditional diffusion based on discrete graph structures for molecular graph generation | |
CN110659742A (zh) | 获取用户行为序列的序列表示向量的方法和装置 | |
Gong et al. | Continual pre-training of language models for math problem understanding with syntax-aware memory network | |
CN113396429A (zh) | 递归机器学习架构的正则化 | |
CN111489803B (zh) | 基于自回归模型的报告单编码模型生成方法、系统和设备 | |
CN118318222A (zh) | 使用序列到序列转换器的自动笔记本补全 | |
CN117250914A (zh) | 制造过程捕获的测量数据训练机器学习模型的方法和系统 | |
Falcon et al. | A neural turing machine-based approach to remaining useful life estimation | |
Rojo | Machine Learning tools for global PDF fits | |
Leke et al. | Proposition of a theoretical model for missing data imputation using deep learning and evolutionary algorithms | |
Jin et al. | Invertible koopman network and its application in data-driven modeling for dynamic systems | |
Kalpana et al. | Multiple parametric fault diagnosis using computational intelligence techniques in linear filter circuit | |
CN116484868A (zh) | 一种基于生成扩散模型的跨域命名实体识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20774184 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2021506193 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20774184 Country of ref document: EP Kind code of ref document: A1 |