WO2022113945A1 - 情報処理システム、情報処理方法、および情報処理プログラム - Google Patents

情報処理システム、情報処理方法、および情報処理プログラム Download PDF

Info

Publication number
WO2022113945A1
WO2022113945A1 PCT/JP2021/042833 JP2021042833W WO2022113945A1 WO 2022113945 A1 WO2022113945 A1 WO 2022113945A1 JP 2021042833 W JP2021042833 W JP 2021042833W WO 2022113945 A1 WO2022113945 A1 WO 2022113945A1
Authority
WO
WIPO (PCT)
Prior art keywords
information processing
regression
machine learning
component objects
processing system
Prior art date
Application number
PCT/JP2021/042833
Other languages
English (en)
French (fr)
Inventor
恭平 花岡
Original Assignee
昭和電工マテリアルズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 昭和電工マテリアルズ株式会社 filed Critical 昭和電工マテリアルズ株式会社
Priority to US18/254,384 priority Critical patent/US20240047018A1/en
Priority to EP21897918.5A priority patent/EP4243026A4/en
Priority to JP2022565331A priority patent/JPWO2022113945A1/ja
Priority to CN202180089147.0A priority patent/CN116745850A/zh
Priority to KR1020237021006A priority patent/KR20230110584A/ko
Publication of WO2022113945A1 publication Critical patent/WO2022113945A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C60/00Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation

Definitions

  • One aspect of this disclosure relates to information processing systems, information processing methods, and information processing programs.
  • Patent Document 1 describes a method for predicting the binding property between the three-dimensional structure of a biopolymer and the three-dimensional structure of a compound.
  • a step of generating a predicted three-dimensional structure of a complex of a biopolymer and a compound based on the three-dimensional structure of a biopolymer and a three-dimensional structure of a compound, and the collation of the predicted three-dimensional structure with an interaction pattern are performed.
  • the step of converting to a predicted three-dimensional structure vector representing the result and the step of predicting the bondability between the three-dimensional structure of the biopolymer and the three-dimensional structure of the compound by discriminating the predicted three-dimensional structure vector using a machine learning algorithm include.
  • the component objects are diverse or exist in large numbers, it is not possible to prepare a sufficient amount of data for these component objects, and as a result, the accuracy of analysis of the composite object reaches the expected level. May not. Therefore, a mechanism for improving the accuracy of analysis of a composite object is desired even when a sufficient amount of data cannot be prepared for the component object.
  • the information processing system includes at least one processor. At least one processor gets the numerical representations and compound ratios for each of the multiple component objects and performs machine learning based on the multiple numerical representations to calculate multiple regression parameters for the multiple component objects. Then, a plurality of composite ratios are applied to the regression model defined by the plurality of regression parameters, and a predicted value indicating the characteristics of the composite object obtained by combining the plurality of component objects is calculated.
  • the information processing method is executed by an information processing system including at least one processor.
  • This information processing method involves obtaining numerical representations and compound ratios for each of multiple component objects, and performing machine learning based on multiple numerical representations to perform multiple regression parameters for multiple component objects. And a step to calculate the predicted value indicating the characteristics of the composite object obtained by applying multiple composite ratios to the regression model defined by multiple regression parameters and combining multiple component objects. including.
  • the information processing program performs machine learning based on a step of acquiring a numerical representation and a compound ratio for each of a plurality of component objects and a plurality of numerical representations to form a plurality of component objects.
  • a prediction that shows the characteristics of a composite object obtained by compounding multiple component objects by applying multiple composite ratios to the step of calculating the corresponding multiple regression parameters and the regression model defined by the multiple regression parameters.
  • machine learning is executed based on the data of each component object, and a plurality of regression parameters corresponding to a plurality of component objects are calculated. Then, the composite ratio is applied to the regression model defined by the regression parameter, and the characteristics of the composite object are predicted.
  • the accuracy of analysis of compound objects can be improved even when a sufficient amount of data cannot be prepared for component objects.
  • the information processing system 10 is a computer system that executes analysis on a composite object obtained by combining a plurality of component objects at a given composite ratio.
  • a component object is a tangible or intangible object used to create a composite object.
  • Composite objects can be tangible or intangible.
  • An example of a tangible object is any substance or object.
  • Data and information are examples of intangibles.
  • "Composite of a plurality of component objects” means a process of converting a plurality of component objects into one object, that is, a compound object.
  • the method of combining is not limited, and may be, for example, compounding, compounding, synthesis, binding, mixing, merging, combination, compounding, or coalescence, or other methods.
  • the analysis of a compound object is a process for obtaining data showing some characteristics of the compound object.
  • Multiple component objects may be any multiple types of materials, in which case the composite object is a multi-component substance produced by those materials.
  • a material is any component used to produce a multi-component substance.
  • the plurality of materials may be any plurality of types of molecules or atoms, and in this case, the composite object is a multi-component substance obtained by combining those molecules or atoms by any method.
  • the material may be a polymer or a monomer, correspondingly the multi-component material may be a polymer alloy.
  • the material may be a monomer, and correspondingly, the multi-component substance may be a polymer.
  • the material may be a drug, i.e. a chemical substance having a pharmacological action, and correspondingly, the multi-component substance may be a drug.
  • the information processing system 10 executes machine learning for analysis of complex objects.
  • Machine learning is a method of learning based on given information and autonomously finding a law or rule.
  • the specific method of machine learning is not limited.
  • the information processing system 10 may execute machine learning using a machine learning model which is a calculation model including a neural network.
  • a neural network is a model of information processing that imitates the mechanism of the human cranial nerve system.
  • the information processing system 10 includes a graph neural network (GNN), a convolutional neural network (CNN), a recursive neural network (RNN), an attention RNN (Attention RNN), and a multi-head attention (Multi-).
  • Machine learning may be performed using at least one of the Head Attentions).
  • the information processing system 10 is composed of one or more computers. When a plurality of computers are used, one information processing system 10 is logically constructed by connecting these computers via a communication network such as the Internet or an intranet.
  • FIG. 1 is a diagram showing an example of a general hardware configuration of a computer 100 constituting an information processing system 10.
  • the computer 100 includes a processor 101 such as a CPU that executes an operating system, an application program, and the like, a main storage unit 102 composed of a ROM and a RAM, and an auxiliary storage unit 103 composed of a hard disk, a flash memory, and the like.
  • a communication control unit 104 composed of a network card or a wireless communication module, an input device 105 such as a keyboard and a mouse, and an output device 106 such as a monitor are provided.
  • Each functional element of the information processing system 10 is realized by reading a predetermined program on the processor 101 or the main storage unit 102 and causing the processor 101 to execute the program.
  • the processor 101 operates the communication control unit 104, the input device 105, or the output device 106 according to the program, and reads and writes data in the main storage unit 102 or the auxiliary storage unit 103.
  • the data or database required for processing is stored in the main storage unit 102 or the auxiliary storage unit 103.
  • FIG. 2 is a diagram showing an example of the functional configuration of the information processing system 10.
  • the information processing system 10 includes an acquisition unit 11, a calculation unit 12, and a prediction unit 13 as functional elements.
  • the acquisition unit 11 is a functional element that acquires data related to a plurality of component objects. Specifically, the acquisition unit 11 acquires a numerical expression and a compound ratio for each of the plurality of component objects.
  • the numerical representation of a component object is data that expresses an arbitrary attribute of a component object using a plurality of numerical values.
  • the attributes of a component object are the properties or characteristics of the component object. Numerical representations may be visualized by various methods, for example, numbers, letters, texts, molecular graphs, vectors, images, time series data, etc., or any two of these methods. It may be visualized by the above combination.
  • the individual numerical values constituting the numerical representation may be expressed in decimal notation, or may be expressed in other notations such as binary notation and hexadecimal notation.
  • the compound ratio of component objects is the ratio between multiple component objects.
  • the specific type, unit, and expression method of the compound ratio are not limited, and may be arbitrarily determined depending on the component object or the compound object.
  • the compound ratio may be represented by a ratio such as a percentage, a histogram, or an absolute quantity of individual component objects.
  • the calculation unit 12 is a functional element for calculating the regression parameters of the regression model for predicting the characteristics of the composite object. Specifically, the calculation unit 12 executes machine learning based on a plurality of numerical representations corresponding to a plurality of component objects to calculate regression parameters.
  • the regression model is an expression for obtaining the value of one or more objective variables y when the value of one or more explanatory variables x is given.
  • the regression model may be a linear regression model or a non-linear regression model.
  • An example of a regression model is Scheffe polynomial. However, the regression model may be another parametric model. Regression parameters are numerical values included in the regression model.
  • the prediction unit 13 is a functional element that predicts the characteristics of the composite object and outputs the predicted value.
  • the characteristics of a composite object are the peculiar properties of a composite object.
  • the prediction unit 13 applies a composite ratio to the regression model defined by the calculated regression parameters to calculate the predicted value.
  • the prediction unit 13 substitutes a plurality of compound ratios into the regression model to calculate the prediction value.
  • the combination of the calculation unit 12 and the prediction unit 13 is realized by one machine learning model.
  • the calculation unit 12 may be realized by a machine learning model
  • the prediction unit 13 may be realized by an algorithm that does not use a machine learning model.
  • each of at least one machine learning model used in this embodiment is a trained model expected to have the highest estimation accuracy, and therefore can be called the "best machine learning model".
  • the trained model is generated by a given computer processing teacher data containing many combinations of input vectors and labels.
  • a given computer inputs an input vector into a machine learning model, calculates an output value, and finds the error between the output value and the label shown in the teacher data.
  • the output value is, for example, a predicted value. It can be said that the error between the output value and the label is the difference between the estimation result and the correct answer.
  • the computer updates a given parameter in the machine learning model based on that error.
  • the computer generates a trained model by repeating such learning.
  • the computer that generates the trained model is not limited, and may be, for example, the information processing system 10 or another computer system.
  • the process of generating a trained model can be called the learning phase, and the process of using the trained model can be called the operation phase.
  • the entire machine learning model used in this embodiment may be described by a function that does not depend on the input order. With this mechanism, it is possible to eliminate the influence of the order of multiple vectors in machine learning.
  • FIG. 3 is a flowchart showing an example of the operation of the information processing system 10 as a processing flow S1.
  • the processing flow S1 corresponds to the operation phase.
  • step S11 the acquisition unit 11 acquires the numerical representation and the compound ratio for each of the plurality of component objects.
  • the acquisition unit 11 may, for example, numerically represent the component object Ea ⁇ 1,1,2,3,4,3,3,5. 6,7,5,4 ⁇ , the numerical representation of the component object Eb ⁇ 1,1,5,6,3,3,5,1,7,0,0 ⁇ , and the composite of the component objects Ea and Eb.
  • each numerical representation is shown as a vector.
  • the compound ratio ⁇ 0.7, 0.3 ⁇ means that the component objects Ea and Eb are used in a ratio of 7: 3 to obtain a compound object.
  • the acquisition unit 11 may acquire the data of each of the plurality of component objects by any method.
  • the acquisition unit 11 may access a given database to read data, may receive data from another computer or computer system, or may receive data input by a user of the information processing system 10. You may accept it.
  • the acquisition unit 11 may acquire data by any two or more of these methods.
  • the calculation unit 12 calculates a feature vector for each of the plurality of component objects based on a numerical expression.
  • the feature vector is a vector showing the features of the component object.
  • the characteristics of a component object are any elements that make the component object different from other objects.
  • a vector is an n-dimensional quantity having n numerical values, and can be expressed as a one-dimensional array.
  • step S13 the calculation unit 12 calculates a plurality of regression parameters corresponding to a plurality of component objects based on the calculated plurality of feature vectors.
  • step S14 the prediction unit 13 calculates a prediction value indicating the characteristics of the composite object by using a regression model defined by a plurality of calculated regression parameters.
  • the regression model defined by the regression parameter is, in short, a regression model in which a specific specific numerical value is determined as the regression parameter.
  • the prediction unit 13 applies a plurality of compound ratios to the regression model to calculate a prediction value.
  • step S15 the prediction unit 13 outputs the predicted value.
  • the method of outputting the predicted value is not limited.
  • the prediction unit 13 may store the predicted value in a given database, send it to another computer or computer system, or display it on a display device.
  • the prediction unit 13 may output the predicted value to another functional element for subsequent processing in the information processing system 10.
  • 4 and 5 are both diagrams showing an example of a procedure for calculating regression parameters.
  • the component object represents three materials (polymers): polystyrene, polyacrylic acid, and butyl polymethacrylic acid. Any form of numerical representation may be provided for each of these materials.
  • step S121 which is part of step S12, the calculator 12 uses a machine learning model for an embedded function to calculate the features of the vector, from a numerical representation to the feature vector Z for each of the plurality of component objects. Is calculated.
  • This machine learning model is a trained model.
  • the input vector and the output vector have a one-to-one relationship.
  • the input vector is a numerical representation and the output vector is the feature vector Z.
  • the calculation unit 12 inputs a plurality of numerical representations corresponding to the plurality of component objects into the model for the embedded function, and calculates the feature vector Z of each of the plurality of component objects.
  • the calculation unit 12 inputs the numerical representation corresponding to the component object into the model for the embedded function for each of the plurality of component objects, and calculates the feature vector Z of the component object.
  • the model for the embedded function may generate a feature vector Z, which is a fixed-length vector, from a numerical representation, which is atypical data. Atypical data refers to data that is not represented by a fixed-length vector.
  • the calculation unit 12 calculates the feature vector Z 1 corresponding to polystyrene, the feature vector Z 2 corresponding to polyacrylic acid, and the feature vector Z 3 corresponding to butyl polymethacrylic acid.
  • the machine learning model for the embedded function is not limited, and may be decided by an arbitrary policy in consideration of factors such as the types of component objects and composite objects.
  • the calculation unit 12 may execute the embedding function using a graph neural network (GNN), a convolutional neural network (CNN), or a recurrent neural network (RNN).
  • GNN graph neural network
  • CNN convolutional neural network
  • RNN recurrent neural network
  • step S122 which is a part of step S12, the calculation unit 12 separates the plurality of component objects from the feature vector Z by the machine learning model for the interaction function for interacting the plurality of vectors.
  • the feature vector M of is calculated.
  • This machine learning model is a trained model.
  • the input vector and the output vector have a one-to-one relationship.
  • the input vector is the feature vector Z and the output vector is the feature vector M.
  • the calculation unit 12 inputs a set of a plurality of feature vectors Z corresponding to the plurality of component objects into the model for the interaction function, and calculates the feature vector M for each of the plurality of component objects.
  • the calculation unit 12 calculates the feature vector M 1 corresponding to polystyrene, the feature vector M 2 corresponding to polyacrylic acid, and the feature vector M 3 corresponding to butyl polymethacrylic acid.
  • the machine learning model for the interaction function is not limited, and it may be decided by an arbitrary policy in consideration of factors such as the types of component objects and compound objects.
  • the calculation unit 12 may execute machine learning for an interaction function using an attention RNN (Attention RNN) or a multi-head attention (Multi-Head Attention).
  • the calculation unit 12 may calculate the feature vector M by an interaction function that does not include learning parameters.
  • the calculation unit 12 calculates the regression parameter a of the linear regression model from the feature vector M for each of the plurality of component objects.
  • the calculation unit 12 calculates the regression parameters by the machine learning model.
  • This machine learning model is a trained model.
  • the input vector and the output value have a one-to-one relationship.
  • the input vector is the feature vector M and the output value is the regression parameter a.
  • the calculation unit 12 inputs a set of a plurality of feature vectors M corresponding to the plurality of component objects into the machine learning model, and calculates the regression parameter a for each of the plurality of component objects.
  • the calculation unit 12 calculates the regression parameter a 1 corresponding to polystyrene, the regression parameter a 2 corresponding to polyacrylic acid, and the regression parameter a 3 corresponding to butyl polymethacrylic acid.
  • the machine learning model for calculating the regression parameters is not limited, and may be determined by any policy in consideration of factors such as the types of component objects and compound objects.
  • the calculation unit 12 may calculate the regression parameters using a fully coupled neural network (FCNN).
  • FCNN fully coupled neural network
  • the prediction unit 13 calculates the prediction value E by the following Scheffe polynomial (1) defined by the three regression parameters a 1 , a 2 , and a 3 .
  • the regression parameter a is the regression coefficient of the linear term of the equation (1).
  • the predicted value E indicates the characteristics of the multi-component substance (polymer alloy) obtained from polystyrene, polyacrylic acid, and butyl polymethacrylic acid.
  • the variable r in the equation (1) means a compound ratio.
  • the composite ratios of polystyrene, polyacrylic acid, and butyl polymethacrylic acid are represented as r1, r2 , and r3, respectively .
  • step S12 including step S121 and step S122 is the same as the example of FIG. 4, and steps S13 and S14 are different from the example of FIG.
  • the calculation unit 12 calculates the regression parameters of the linear regression model from the feature vector M for each of the plurality of component objects. Specifically, the calculation unit 12 calculates the regression parameter a of the primary term and the regression parameter b of the secondary term. In one example, the calculation unit 12 calculates the regression parameter by machine learning such as FCNN. Machine learning models are prepared for each of the linear and quadratic terms of the linear regression model.
  • the input vector and the output value have a one-to-one relationship.
  • the input vector is the feature vector M and the output value is the regression parameter a.
  • the calculation unit 12 inputs a set of a plurality of feature vectors M corresponding to the plurality of component objects into the machine learning model, and calculates the regression parameter a for each of the plurality of component objects. Also in the example of FIG. 5, the calculation unit 12 calculates the regression parameter a 1 corresponding to polystyrene, the regression parameter a 2 corresponding to polyacrylic acid, and the regression parameter a 3 corresponding to butyl polymethacrylic acid.
  • each input vector is obtained by synthesizing two feature vectors.
  • This function is a function that calculates one regression parameter from two vectors.
  • two feature vectors M are combined.
  • the calculation unit 12 synthesizes two feature vectors M 1 and M 2 to generate a first input vector, and synthesizes two feature vectors M 1 and M 3 to generate a second input vector. Is generated, and the two feature vectors M 2 and M 3 are combined to generate a third input vector.
  • the first input vector corresponds to polystyrene and polyacrylic acid
  • the second input vector corresponds to polystyrene and butyl polymethacrylic acid
  • the third input vector corresponds to polyacrylic acid and butyl polymethacrylic acid. handle.
  • the input vector and the output value have a one-to-one relationship.
  • the input vector is a composite of two feature vectors M and the output value is the regression parameter b.
  • the calculation unit 12 inputs all combinations of input vectors into the machine learning model and calculates the regression parameter b for each combination. In the example of FIG.
  • the calculation unit 12 has a regression parameter b 12 corresponding to the combination of polystyrene and polyacrylic acid, a regression parameter b 13 corresponding to the combination of polystyrene and butyl polymethacrylate, and polyacrylic acid and polymetha.
  • Regression parameter b 23 corresponding to the combination of butyl acrylate is calculated.
  • the prediction unit 13 determines the prediction value E by the following Scheffe polynomial (2) defined by the six regression parameters a 1 , a 2 , a 3 , b 12 , b 13 , and b 23 . calculate.
  • the regression parameter a is the regression coefficient of the first-order term
  • the regression parameter b is the regression coefficient of the second-order term.
  • the meaning of the variable r in the equation (2) is the compound ratio as in the equation (1).
  • the information processing system 10 may output individual regression parameters based on the feature vectors of all the related component objects for the regression model including the terms of the third order or higher or other parameters.
  • the information processing system 10 may output one regression parameter based on the feature vectors of all component objects.
  • the calculation unit 12 executes both the embedding function and the interaction function, but one of these two functions may be omitted.
  • the calculation unit 12 may calculate the regression parameter from the feature vector Z obtained by the machine learning model for the embedded function. In any case, the calculation unit 12 executes machine learning to calculate the regression parameters.
  • a machine learning model for embedded functions, a machine learning model for interaction functions, a machine learning model for regression parameters, and a regression model may be constructed by one neural network or multiple neural networks. It may be constructed by a set of networks.
  • the machine learning model for the embedded function, the machine learning model for the interaction function, and the machine learning model for the regression parameter may be constructed by one neural network, or may be constructed by a set of a plurality of neural networks. May be done.
  • the information processing program for making a computer or a computer system function as an information processing system 10 includes a program code for making the computer system function as an acquisition unit 11, a calculation unit 12, and a prediction unit 13.
  • This information processing program may be provided after being temporarily recorded on a tangible recording medium such as a CD-ROM, a DVD-ROM, or a semiconductor memory. Alternatively, the information processing program may be provided via a communication network as a data signal superimposed on a carrier wave.
  • the provided information processing program is stored in, for example, the auxiliary storage unit 103.
  • Each of the above functional elements is realized by the processor 101 reading the information processing program from the auxiliary storage unit 103 and executing the information processing program.
  • the information processing system includes at least one processor. At least one processor gets the numerical representations and compound ratios for each of the multiple component objects and performs machine learning based on the multiple numerical representations to calculate multiple regression parameters for the multiple component objects. Then, a plurality of composite ratios are applied to the regression model defined by the plurality of regression parameters, and a predicted value indicating the characteristics of the composite object obtained by combining the plurality of component objects is calculated.
  • the information processing method is executed by an information processing system including at least one processor.
  • This information processing method involves obtaining numerical representations and compound ratios for each of multiple component objects, and performing machine learning based on multiple numerical representations to perform multiple regression parameters for multiple component objects. And a step to calculate the predicted value indicating the characteristics of the composite object obtained by applying multiple composite ratios to the regression model defined by multiple regression parameters and combining multiple component objects. including.
  • the information processing program performs machine learning based on a step of acquiring a numerical expression and a compound ratio for each of a plurality of component objects, and machine learning based on the plurality of numerical expressions, to form a plurality of component objects.
  • a prediction that shows the characteristics of a composite object obtained by compounding multiple component objects by applying multiple composite ratios to the step of calculating the corresponding multiple regression parameters and the regression model defined by the multiple regression parameters. Have the computer perform the steps to calculate the value.
  • machine learning is executed based on the data of each component object, and a plurality of regression parameters corresponding to a plurality of component objects are calculated. Then, the composite ratio is applied to the regression model defined by the regression parameter, and the characteristics of the composite object are predicted.
  • the composite ratio can be changed and the characteristics of the composite object can be instantly recalculated by the regression model. That is, the calculated regression parameters can be reused.
  • At least one processor inputs a plurality of numerical representations into a first machine learning model to calculate a plurality of feature vectors corresponding to a plurality of component objects, and a plurality of feature vectors. May be input to the second machine learning model to calculate a plurality of regression parameters.
  • the first machine learning model may include a machine learning model for an embedded function and a machine learning model for an interaction function.
  • At least one processor inputs a plurality of numerical representations into a machine learning model for an embedded function, calculates a plurality of first feature vectors corresponding to a plurality of component objects, and interacts the plurality of first feature vectors.
  • By inputting into the machine learning model for multiple second feature vectors corresponding to multiple component objects are calculated, and by inputting multiple second feature vectors into the second machine learning model, multiple regression parameters are calculated. You may.
  • the machine learning model for the embedded function may be a machine learning model that generates a first feature vector, which is a fixed-length vector, from a numerical expression that is atypical data.
  • a first feature vector which is a fixed-length vector
  • feature vectors can be obtained from numerical representations that cannot be represented by fixed-length vectors.
  • the regression model may be Scheffe's polynomial.
  • At least one processor may calculate a plurality of regression coefficients of a linear term of Scheffé's polynomial as a plurality of regression parameters.
  • Scheffe's polynomial which is often dealt with in compounding problems, it is possible to accurately analyze a composite object obtained by compounding a plurality of component objects.
  • the regression coefficient of the linear term can be used to calculate a predicted value that takes into account the single degree of influence of the component object.
  • At least one processor may further calculate a plurality of regression coefficients of the quadratic term of the Scheffe polynomial as a plurality of regression parameters.
  • the regression coefficient of the quadratic term can be used to calculate a predicted value that further considers the degree of influence of the composition of the two component objects.
  • the component object may be a material and the composite object may be a multi-component substance.
  • the composite object may be a multi-component substance.
  • the material may be a polymer or a monomer
  • the multi-component substance may be a polymer alloy.
  • Polymers or monomers are very diverse and correspondingly there are a huge variety of polymer alloys. For such polymers, monomers, and polymer alloys, in general, only some of the possible combinations can be tested, and therefore sufficient data are often not available. According to this aspect, it is possible to analyze the polymer alloy with high accuracy even when the data is insufficient in this way.
  • the processing procedure of the information processing method executed by at least one processor is not limited to the example in the above embodiment. For example, some of the steps or processes described above may be omitted, or the steps may be performed in a different order. Further, any two or more steps among the above-mentioned steps may be combined, or a part of the steps may be modified or deleted. Alternatively, other steps may be performed in addition to each of the above steps.
  • the expression "at least one processor executes the first process, executes the second process, ... executes the nth process", or the expression corresponding thereto is the first.
  • a concept including a case where the processor that executes n processes from the first process to the nth process changes in the middle is shown. That is, this expression shows a concept including both a case where all n processes are executed by the same processor and a case where the processor changes according to an arbitrary policy in the n processes.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一実施形態に係る情報処理システムは、少なくとも一つのプロセッサを備える。少なくとも一つのプロセッサは、複数の成分オブジェクトのそれぞれについての数値表現および複合比を取得し、複数の数値表現に基づいて機械学習を実行して、複数の成分オブジェクトに対応する複数の回帰パラメータを算出し、複数の回帰パラメータによって定義される回帰モデルに複数の複合比を適用して、複数の成分オブジェクトを複合させることで得られる複合オブジェクトの特性を示す予測値を算出する。

Description

情報処理システム、情報処理方法、および情報処理プログラム
 本開示の一側面は情報処理システム、情報処理方法、および情報処理プログラムに関する。
 複数の成分オブジェクトを複合させることで得られる複合オブジェクトを、機械学習を用いて解析する手法が用いられている。例えば、特許文献1には、生体高分子の立体構造と化合物の立体構造との結合性を予測する方法が記載されている。この方法は、生体高分子の立体構造と化合物の立体構造とに基づいて生体高分子と化合物との複合体の予測立体構造を生成するステップと、その予測立体構造を、相互作用パターンとの照合結果を表す予測立体構造ベクトルへ変換するステップと、機械学習アルゴリズムを用いてその予測立体構造ベクトルを判別することによって生体高分子の立体構造と化合物の立体構造との結合性を予測するステップとを含む。
特開2019-28879号公報
 成分オブジェクトが多様であったり多数存在したりする場合には、これらの成分オブジェクトについて十分な量のデータを用意することができず、その結果、複合オブジェクトの解析の精度が、期待する水準に達しない可能性がある。そこで、成分オブジェクトについて十分な量のデータを用意できない場合にも複合オブジェクトの解析の精度を上げるための仕組みが望まれている。
 本開示の一側面に係る情報処理システムは、少なくとも一つのプロセッサを備える。少なくとも一つのプロセッサは、複数の成分オブジェクトのそれぞれについての数値表現および複合比を取得し、複数の数値表現に基づいて機械学習を実行して、複数の成分オブジェクトに対応する複数の回帰パラメータを算出し、複数の回帰パラメータによって定義される回帰モデルに複数の複合比を適用して、複数の成分オブジェクトを複合させることで得られる複合オブジェクトの特性を示す予測値を算出する。
 本開示の一側面に係る情報処理方法は、少なくとも一つのプロセッサを備える情報処理システムにより実行される。この情報処理方法は、複数の成分オブジェクトのそれぞれについての数値表現および複合比を取得するステップと、複数の数値表現に基づいて機械学習を実行して、複数の成分オブジェクトに対応する複数の回帰パラメータを算出するステップと、複数の回帰パラメータによって定義される回帰モデルに複数の複合比を適用して、複数の成分オブジェクトを複合させることで得られる複合オブジェクトの特性を示す予測値を算出するステップとを含む。
 本開示の一側面に係る情報処理プログラムは、複数の成分オブジェクトのそれぞれについての数値表現および複合比を取得するステップと、複数の数値表現に基づいて機械学習を実行して、複数の成分オブジェクトに対応する複数の回帰パラメータを算出するステップと、複数の回帰パラメータによって定義される回帰モデルに複数の複合比を適用して、複数の成分オブジェクトを複合させることで得られる複合オブジェクトの特性を示す予測値を算出するステップとをコンピュータに実行させる。
 このような側面においては、各成分オブジェクトのデータに基づいて機械学習が実行されて、複数の成分オブジェクトに対応する複数の回帰パラメータが算出される。そして、その回帰パラメータによって定義される回帰モデルに複合比が適用されて、複合オブジェクトの特性が予測される。機械学習および回帰モデルを用いることで、成分オブジェクトについて十分な量のデータを用意できない場合にも複合オブジェクトの解析の精度を上げることが可能になる。
 本開示の一側面によれば、成分オブジェクトについて十分な量のデータを用意できない場合にも複合オブジェクトの解析の精度を上げることができる。
実施形態に係る情報処理システムを構成するコンピュータのハードウェア構成の一例を示す図である。 実施形態に係る情報処理システムの機能構成の一例を示す図である。 実施形態に係る情報処理システムの動作の一例を示すフローチャートである。 回帰パラメータを算出する手順の一例を示す図である。 回帰パラメータを算出する手順の別の例を示す図である。
 以下、添付図面を参照しながら本開示での実施形態を詳細に説明する。図面の説明において同一または同等の要素には同一の符号を付し、重複する説明を省略する。
 [システムの概要]
 実施形態に係る情報処理システム10は、複数の成分オブジェクトを所与の複合比で複合させることで得られる複合オブジェクトに関する解析を実行するコンピュータシステムである。成分オブジェクトとは、複合オブジェクトを生成するために用いられる有体物または無体物をいう。複合オブジェクトは有体物または無体物であり得る。有体物の例として任意の物質または物体が挙げられる。無体物の例としてデータおよび情報が挙げられる。「複数の成分オブジェクトを複合させる」とは、複数の成分オブジェクトを一つのオブジェクト、すなわち複合オブジェクトにする処理をいう。複合させる手法は限定させず、例えば、配合、調合、合成、結合、混合、合併、組合せ、化合、または合体でもよいし、他の手法でもよい。複合オブジェクトに関する解析とは、複合オブジェクトの何らかの特性を示すデータを得るための処理をいう。
 複数の成分オブジェクトは任意の複数種類の材料でよく、この場合には、複合オブジェクトはそれらの材料によって生成される多成分物質である。材料とは多成分物質を生成するために用いられる任意の構成要素である。例えば、複数の材料は任意の複数種類の分子または原子でもよく、この場合には、複合オブジェクトは、それらの分子または原子を任意の手法で複合することにより得られる多成分物質である。例えば、材料はポリマーまたはモノマーでもよく、これに対応して、多成分物質はポリマーアロイでもよい。材料はモノマーでもよく、これに対応して、多成分物質はポリマーでもよい。材料は薬物、すなわち、薬理作用を有する化学物質でもよく、これに対応して、多成分物質は薬剤でもよい。
 情報処理システム10は複合オブジェクトに関する解析のために機械学習を実行する。機械学習とは、与えられた情報に基づいて学習して法則またはルールを自律的に見つけ出す手法である。機械学習の具体的な手法は限定されない。例えば、情報処理システム10は、ニューラルネットワークを含んで構成される計算モデルである機械学習モデルを用いた機械学習を実行してもよい。ニューラルネットワークとは、人間の脳神経系の仕組みを模した情報処理のモデルのことをいう。より具体的な例として、情報処理システム10は、グラフニューラルネットワーク(GNN)、畳み込みニューラルネットワーク(CNN)、再帰型ニューラルネットワーク(RNN)、アテンションRNN(Attention RNN)、およびマルチヘッド・アテンション(Multi-Head Attention)のうちの少なくとも一つを用いて機械学習を実行してもよい。
 [システムの構成]
 情報処理システム10は1台以上のコンピュータで構成される。複数台のコンピュータを用いる場合には、これらのコンピュータがインターネット、イントラネット等の通信ネットワークを介して接続されることで、論理的に一つの情報処理システム10が構築される。
 図1は、情報処理システム10を構成するコンピュータ100の一般的なハードウェア構成の一例を示す図である。例えば、コンピュータ100は、オペレーティングシステム、アプリケーション・プログラム等を実行する、CPU等のプロセッサ101と、ROMおよびRAMで構成される主記憶部102と、ハードディスク、フラッシュメモリ等で構成される補助記憶部103と、ネットワークカードまたは無線通信モジュールで構成される通信制御部104と、キーボード、マウス等の入力装置105と、モニタ等の出力装置106とを備える。
 情報処理システム10の各機能要素は、プロセッサ101または主記憶部102の上に予め定められたプログラムを読み込ませてプロセッサ101にそのプログラムを実行させることで実現される。プロセッサ101はそのプログラムに従って、通信制御部104、入力装置105、または出力装置106を動作させ、主記憶部102または補助記憶部103におけるデータの読み出しおよび書き込みを行う。処理に必要なデータまたはデータベースは主記憶部102または補助記憶部103内に格納される。
 図2は情報処理システム10の機能構成の一例を示す図である。情報処理システム10は機能要素として取得部11、算出部12、および予測部13を備える。
 取得部11は複数の成分オブジェクトに関するデータを取得する機能要素である。具体的には、取得部11は複数の成分オブジェクトのそれぞれについて数値表現および複合比を取得する。成分オブジェクトの数値表現とは、成分オブジェクトの任意の属性を複数の数値を用いて表現したデータをいう。成分オブジェクトの属性とは、成分オブジェクトが備える性質または特徴をいう。数値表現は様々な手法で可視化されてよく、例えば、数字、英字、テキスト、分子グラフ、ベクトル、画像、時系列データ等の手法によって可視化されてもよいし、これらの手法のうちの任意の2以上の組合せによって可視化されてもよい。数値表現を構成する個々の数値は、十進法で表されてもよいし、二進法、十六進法等の他の表記法によって表されてもよい。成分オブジェクトの複合比とは、複数の成分オブジェクトの間の割合をいう。複合比の具体的な種類、単位、および表現方法は限定されず、成分オブジェクトまたは複合オブジェクトに応じて任意に定められてよい。例えば複合比は百分率等の比率によって表されてもよいし、ヒストグラムによって表されてもよいし、個々の成分オブジェクトの絶対量で表されてもよい。
 算出部12は、複合オブジェクトの特性を予測するための回帰モデルの回帰パラメータを算出する機能要素である。具体的には、算出部12は、複数の成分オブジェクトに対応する複数の数値表現に基づいて機械学習を実行して回帰パラメータを算出する。回帰モデルとは、1以上の説明変数xの値が与えられた場合に1以上の目的変数yの値を求めるための式をいう。回帰モデルは線形回帰モデルでもよいし非線形回帰モデルでもよい。回帰モデルの例としてシェッフェ多項式(Scheffe polynomial)が挙げられる。しかし、回帰モデルは他のパラメトリックモデルでもよい。回帰パラメータは、回帰モデルに含まれる数値である。
 予測部13は、複合オブジェクトの特性を予測し、その予測値を出力する機能要素である。複合オブジェクトの特性とは、複合オブジェクトが持つ特有の性質のことをいう。具体的には、予測部13は、算出された回帰パラメータによって定義される回帰モデルに複合比を適用して予測値を算出する。言い換えると、予測部13はその回帰モデルに複数の複合比を代入して予測値を算出する。
 一例では、算出部12および予測部13の組合せが一つの機械学習モデルによって実現される。あるいは、算出部12が機械学習モデルによって実現され、予測部13が機械学習モデルを用いないアルゴリズムによって実現されてもよい。
 一例では、本実施形態で用いられる少なくとも一つの機械学習モデルのそれぞれは、推定精度が最も高いと期待される学習済みモデルであり、したがって「最良の機械学習モデル」ということができる。しかし、この学習済みモデルは“現実に最良である”とは限らないことに留意されたい。学習済みモデルは、入力ベクトルとラベルとの多数の組合せを含む教師データを所与のコンピュータが処理することで生成される。所与のコンピュータは、入力ベクトルを機械学習モデルに入力して出力値を算出し、その出力値と教師データで示されるラベルとの誤差を求める。出力値は例えば予測値である。出力値とラベルとの誤差は、推定結果と正解との差であるといえる。コンピュータはその誤差に基づいて機械学習モデル内の所与のパラメータを更新する。コンピュータはこのような学習を繰り返すことで学習済みモデルを生成する。学習済みモデルを生成するコンピュータは限定されず、例えば情報処理システム10でもよいし別のコンピュータシステムでもよい。学習済みモデルを生成する処理は学習フェーズということができ、その学習済みモデルを利用する処理は運用フェーズということができる。
 一例では、本実施形態で用いられる機械学習モデルの全体は、入力の順序に依存しない関数によって記述されてもよい。この仕組みにより、機械学習において複数のベクトルの並び順の影響を排除することができる。
 [システムの動作]
 図3を参照しながら、情報処理システム10の動作を説明するとともに本実施形態に係る情報処理方法について説明する。図3は情報処理システム10の動作の一例を処理フローS1として示すフローチャートである。処理フローS1は運用フェーズに相当する。
 ステップS11では、取得部11が、複数の成分オブジェクトのそれぞれについて数値表現および複合比を取得する。一例として、二つの成分オブジェクトEa,Ebに関する情報が入力されるとするならば、取得部11は例えば、成分オブジェクトEaの数値表現{1,1,2,3,4,3,3,5,6,7,5,4}と、成分オブジェクトEbの数値表現{1,1,5,6,4,3,3,5,1,7,0,0}と、成分オブジェクトEa,Ebの複合比{0.7、0.3}とを取得する。この例では、それぞれの数値表現はベクトルで示されている。複合比{0.7、0.3}は、成分オブジェクトEa,Ebを7:3の割合で用いて複合オブジェクトを得ることを意味する。
 取得部11は複数の成分オブジェクトのそれぞれのデータを任意の手法で取得してよい。例えば、取得部11は所与のデータベースにアクセスしてデータを読み出してもよいし、他のコンピュータまたはコンピュータシステムからデータを受信してもよいし、情報処理システム10のユーザにより入力されたデータを受け付けてもよい。あるいは、取得部11はこれらのような手法のうちの任意の2以上によってデータを取得してもよい。
 ステップS12では、算出部12が複数の成分オブジェクトのそれぞれについて、数値表現に基づいて特徴ベクトルを算出する。特徴ベクトルとは、成分オブジェクトの特徴を示すベクトルのことをいう。成分オブジェクトの特徴とは、該成分オブジェクトを他のオブジェクトと異ならせる任意の要素のことをいう。ベクトルとは、n個の数値を有するn次元の量のことをいい、1次元の配列として表現することができる。
 ステップS13では、算出部12が、算出された複数の特徴ベクトルに基づいて、複数の成分オブジェクトに対応する複数の回帰パラメータを算出する。
 ステップS14では、予測部13が、算出された複数の回帰パラメータによって定義される回帰モデルを用いて、複合オブジェクトの特性を示す予測値を算出する。回帰パラメータによって定義される回帰モデルとは、要するに、特定の具体的な数値が回帰パラメータとして決定された回帰モデルである。予測部13は回帰モデルに複数の複合比を適用して予測値を算出する。
 ステップS15では、予測部13がその予測値を出力する。予測値の出力方法は限定されない。例えば、予測部13は予測値を、所与のデータベースに格納してもよいし、他のコンピュータまたはコンピュータシステムに向けて送信してもよいし、表示装置上に表示してもよい。あるいは、予測部13は情報処理システム10での後続処理のために予測値を他の機能要素に出力してもよい。
 図4および図5を参照しながら、回帰モデルに関する処理についてより詳細に説明する。図4および図5はいずれも、回帰パラメータを算出する手順の例を示す図である。いずれの例でも、成分オブジェクトは、ポリスチレン、ポリアクリル酸、およびポリメタアクリル酸ブチルという3種類の材料(ポリマー)を示す。これらの材料のそれぞれについて、任意の形式の数値表現が用意されてよい。
 材料の配合に関する問題では上記のシェッフェ多項式がよく用いられる。そこで、図4および図5の例では回帰モデルがシェッフェ多項式であるとする。
 図4の例について説明する。ステップS12の一部であるステップS121では、算出部12は、ベクトルの特徴を計算するための埋込み関数(embedding function)用の機械学習モデルによって、複数の成分オブジェクトのそれぞれについて数値表現から特徴ベクトルZを算出する。この機械学習モデルは学習済みモデルである。埋込み関数では入力ベクトルと出力ベクトルとは1対1の関係にある。この例では、入力ベクトルは数値表現であり、出力ベクトルは特徴ベクトルZである。算出部12は、複数の成分オブジェクトに対応する複数の数値表現を埋込み関数用のモデルに入力して、該複数の成分オブジェクトのそれぞれの特徴ベクトルZを算出する。一例では、算出部12は、複数の成分オブジェクトのそれぞれについて、該成分オブジェクトに対応する数値表現を埋込み関数用のモデルに入力して該成分オブジェクトの特徴ベクトルZを算出する。一例では、埋込み関数用のモデルは、非定型データである数値表現から、固定長ベクトルである特徴ベクトルZを生成してもよい。非定型データとは、固定長ベクトルによって表現されないデータをいう。図4の例では、算出部12はポリスチレンに対応する特徴ベクトルZと、ポリアクリル酸に対応する特徴ベクトルZと、ポリメタアクリル酸ブチルに対応する特徴ベクトルZとを算出する。
 埋込み関数用の機械学習モデルは限定されず、成分オブジェクトおよび複合オブジェクトの種類等の要因を考慮して任意の方針で決められてよい。例えば、算出部12はグラフニューラルネットワーク(GNN)、畳み込みニューラルネットワーク(CNN)、または再帰型ニューラルネットワーク(RNN)を用いて埋込み関数を実行してもよい。
 ステップS12の一部であるステップS122では、算出部12は、複数のベクトルを相互に作用させるための相互作用関数(interaction function)用の機械学習モデルによって、複数の成分オブジェクトについて特徴ベクトルZから別の特徴ベクトルMを算出する。この機械学習モデルは学習済みモデルである。相互作用関数では入力ベクトルと出力ベクトルとは1対1の関係にある。この例では、入力ベクトルは特徴ベクトルZであり、出力ベクトルは特徴ベクトルMである。一例では、算出部12は、複数の成分オブジェクトに対応する複数の特徴ベクトルZの集合を相互作用関数用のモデルに入力して、該複数の成分オブジェクトのそれぞれについて特徴ベクトルMを算出する。図4の例では、算出部12はポリスチレンに対応する特徴ベクトルMと、ポリアクリル酸に対応する特徴ベクトルMと、ポリメタアクリル酸ブチルに対応する特徴ベクトルMとを算出する。
 相互作用関数用の機械学習モデルは限定されず、成分オブジェクトおよび複合オブジェクトの種類等の要因を考慮して任意の方針で決められてよい。例えば、算出部12はアテンションRNN(Attention RNN)、またはマルチヘッド・アテンション(Multi-Head Attention)を用いて相互作用関数用の機械学習を実行してもよい。別の例では、算出部12は学習パラメータを含まない相互作用関数によって特徴ベクトルMを算出してもよい。
 図4に示すステップS13では、算出部12は複数の成分オブジェクトのそれぞれについて特徴ベクトルMから線形回帰モデルの1次項の回帰パラメータaを算出する。一例では、算出部12は機械学習モデルによって回帰パラメータを算出する。この機械学習モデルは学習済みモデルである。1次項の回帰パラメータを算出する関数では、入力ベクトルと出力値とは1対1の関係にある。この例では、入力ベクトルは特徴ベクトルMであり、出力値は回帰パラメータaである。一例では、算出部12は、複数の成分オブジェクトに対応する複数の特徴ベクトルMの集合を機械学習モデルに入力して、該複数の成分オブジェクトのそれぞれについて回帰パラメータaを算出する。図4の例では、算出部12はポリスチレンに対応する回帰パラメータaと、ポリアクリル酸に対応する回帰パラメータaと、ポリメタアクリル酸ブチルに対応する回帰パラメータaとを算出する。
 回帰パラメータを算出するための機械学習モデルは限定されず、成分オブジェクトおよび複合オブジェクトの種類等の要因を考慮して任意の方針で決められてよい。例えば、算出部12は全結合ニューラルネットワーク(FCNN)を用いて回帰パラメータを算出してもよい。
 図4に示すステップS14では、予測部13は3個の回帰パラメータa,a,aによって定義される下記のシェッフェ多項式(1)によって予測値Eを算出する。回帰パラメータaは式(1)の1次項の回帰係数であるともいえる。予測値Eは、ポリスチレン、ポリアクリル酸、およびポリメタアクリル酸ブチルから得られる多成分物質(ポリマーアロイ)の特性を示す。式(1)における変数rは複合比を意味する。ポリスチレン、ポリアクリル酸、およびポリメタアクリル酸ブチルの複合比はそれぞれr,r,rと表される。
Figure JPOXMLDOC01-appb-M000001
 図5の例について説明する。図5の例では、ステップS121およびステップS122を含むステップS12は図4の例と同じであり、ステップS13,S14は図4の例と異なる。
 図5に示すステップS13では、算出部12は複数の成分オブジェクトのそれぞれについて特徴ベクトルMから線形回帰モデルの回帰パラメータを算出する。具体的には、算出部12は1次項の回帰パラメータaおよび2次項の回帰パラメータbを算出する。一例では、算出部12はFCNNなどの機械学習によって回帰パラメータを算出する。機械学習モデルは線形回帰モデルの1次項および2次項のそれぞれについて用意される。
 図4の例と同様に、1次項の回帰パラメータを算出する関数では、入力ベクトルと出力値とは1対1の関係にある。この例では、入力ベクトルは特徴ベクトルMであり、出力値は回帰パラメータaである。一例では、算出部12は、複数の成分オブジェクトに対応する複数の特徴ベクトルMの集合を機械学習モデルに入力して、該複数の成分オブジェクトのそれぞれについて回帰パラメータaを算出する。図5の例でも、算出部12はポリスチレンに対応する回帰パラメータaと、ポリアクリル酸に対応する回帰パラメータaと、ポリメタアクリル酸ブチルに対応する回帰パラメータaとを算出する。
 2次項の回帰パラメータを算出する関数では、個々の入力ベクトルは、二つの特徴ベクトルを合成することで得られる。この関数は、二つのベクトルから一つの回帰パラメータを算出する関数である。この例では、二つの特徴ベクトルMが合成される。図5の例では、算出部12は二つの特徴ベクトルM,Mを合成して第1の入力ベクトルを生成し、二つの特徴ベクトルM,Mを合成して第2の入力ベクトルを生成し、二つの特徴ベクトルM,Mを合成して第3の入力ベクトルを生成する。したがって、第1の入力ベクトルはポリスチレンおよびポリアクリル酸に対応し、第2の入力ベクトルはポリスチレンおよびポリメタアクリル酸ブチルに対応し、第3の入力ベクトルはポリアクリル酸およびポリメタアクリル酸ブチルに対応する。2次項の回帰パラメータを算出する関数でも、入力ベクトルと出力値とは1対1の関係にある。この例では、入力ベクトルは二つの特徴ベクトルMの合成であり、出力値は回帰パラメータbである。一例では、算出部12は入力ベクトルのすべての組合せを機械学習モデルに入力して、それぞれの組合せについて回帰パラメータbを算出する。図5の例では、算出部12はポリスチレンおよびポリアクリル酸の組合せに対応する回帰パラメータb12と、ポリスチレンおよびポリメタアクリル酸ブチルの組合せに対応する回帰パラメータb13と、ポリアクリル酸およびポリメタアクリル酸ブチルの組合せに対応する回帰パラメータb23とを算出する。
 図5に示すステップS14では、予測部13は6個の回帰パラメータa,a,a,b12,b13,b23によって定義される下記のシェッフェ多項式(2)によって予測値Eを算出する。式(2)において、回帰パラメータaは1次項の回帰係数であるともいえ、回帰パラメータbは2次項の回帰係数であるともいえる。式(2)における変数rの意味は、式(1)と同じく複合比である。
Figure JPOXMLDOC01-appb-M000002
 図4および図5では3個の成分オブジェクトを示すが、当然ながら成分オブジェクトの個数は限定されず、情報処理システム10は任意の個数の成分オブジェクトを処理してよい。
 情報処理システム10は、3次以上の項または他のパラメータを含む回帰モデルについても同様に、関連するすべての成分オブジェクトの特徴ベクトルに基づいて個々の回帰パラメータを出力すればよい。線形回帰の切片のように特定の説明変数に依存しない回帰パラメータを算出する場合には、情報処理システム10は、すべての成分オブジェクトの特徴ベクトルに基づいて一つの回帰パラメータを出力してよい。
 図4および図5の例では算出部12が埋込み関数および相互作用関数の双方を実行するが、この二つの関数の一方が省略されてもよい。例えば、算出部12は埋込み関数用の機械学習モデルによって得られる特徴ベクトルZから回帰パラメータを算出してもよい。いずれにしても、算出部12は機械学習を実行して回帰パラメータを算出する。
 一例では、埋込み関数用の機械学習モデルと、相互作用関数用の機械学習モデルと、回帰パラメータ用の機械学習モデルと、回帰モデルとは一つのニューラルネットワークによって構築されてもよいし、複数のニューラルネットワークの集合によって構築されてもよい。あるいは、埋込み関数用の機械学習モデルと、相互作用関数用の機械学習モデルと、回帰パラメータ用の機械学習モデルとは一つのニューラルネットワークによって構築されてもよいし、複数のニューラルネットワークの集合によって構築されてもよい。
 [プログラム]
 コンピュータまたはコンピュータシステムを情報処理システム10として機能させるための情報処理プログラムは、該コンピュータシステムを取得部11、算出部12、および予測部13として機能させるためのプログラムコードを含む。この情報処理プログラムは、CD-ROM、DVD-ROM、半導体メモリ等の有形の記録媒体に非一時的に記録された上で提供されてもよい。あるいは、情報処理プログラムは、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。提供された情報処理プログラムは例えば補助記憶部103に記憶される。プロセッサ101が補助記憶部103からその情報処理プログラムを読み出して実行することで、上記の各機能要素が実現する。
 [効果]
 以上説明したように、本開示の一側面に係る情報処理システムは、少なくとも一つのプロセッサを備える。少なくとも一つのプロセッサは、複数の成分オブジェクトのそれぞれについての数値表現および複合比を取得し、複数の数値表現に基づいて機械学習を実行して、複数の成分オブジェクトに対応する複数の回帰パラメータを算出し、複数の回帰パラメータによって定義される回帰モデルに複数の複合比を適用して、複数の成分オブジェクトを複合させることで得られる複合オブジェクトの特性を示す予測値を算出する。
 本開示の一側面に係る情報処理方法は、少なくとも一つのプロセッサを備える情報処理システムにより実行される。この情報処理方法は、複数の成分オブジェクトのそれぞれについての数値表現および複合比を取得するステップと、複数の数値表現に基づいて機械学習を実行して、複数の成分オブジェクトに対応する複数の回帰パラメータを算出するステップと、複数の回帰パラメータによって定義される回帰モデルに複数の複合比を適用して、複数の成分オブジェクトを複合させることで得られる複合オブジェクトの特性を示す予測値を算出するステップとを含む。
 本開示の一側面に係る情報処理プログラムは、複数の成分オブジェクトのそれぞれについての数値表現および複合比を取得するステップと、複数の数値表現に基づいて機械学習を実行して、複数の成分オブジェクトに対応する複数の回帰パラメータを算出するステップと、複数の回帰パラメータによって定義される回帰モデルに複数の複合比を適用して、複数の成分オブジェクトを複合させることで得られる複合オブジェクトの特性を示す予測値を算出するステップとをコンピュータに実行させる。
 このような側面においては、各成分オブジェクトのデータに基づいて機械学習が実行されて、複数の成分オブジェクトに対応する複数の回帰パラメータが算出される。そして、その回帰パラメータによって定義される回帰モデルに複合比が適用されて、複合オブジェクトの特性が予測される。機械学習および回帰モデルを用いることで、成分オブジェクトについて十分な量のデータを用意できない場合にも複合オブジェクトの解析の精度を上げることが可能になる。
 いったん回帰パラメータが得られれば、複合比を変更して複合オブジェクトの特性を回帰モデルによって瞬時に再計算することができる。すなわち、算出された回帰パラメータを再利用することができる。機械学習によって回帰パラメータを推定する手法を採用することで、複合比を変更しながら複合オブジェクトの特性を探索する処理を高速に実行することが可能になる。
 他の側面に係る情報処理システムでは、少なくとも一つのプロセッサが、複数の数値表現を第1機械学習モデルに入力して、複数の成分オブジェクトに対応する複数の特徴ベクトルを算出し、複数の特徴ベクトルを第2機械学習モデルに入力して複数の回帰パラメータを算出してもよい。この一連の手順によって、成分オブジェクトについて十分な量のデータを用意できない場合にも、複合オブジェクトの解析の精度をさらに上げることが可能になる。
 他の側面に係る情報処理システムでは、第1機械学習モデルが、埋込み関数用の機械学習モデルと、相互作用関数用の機械学習モデルとを含んでもよい。少なくとも一つのプロセッサは、複数の数値表現を埋込み関数用の機械学習モデルに入力して、複数の成分オブジェクトに対応する複数の第1特徴ベクトルを算出し、複数の第1特徴ベクトルを相互作用関数用の機械学習モデルに入力して、複数の成分オブジェクトに対応する複数の第2特徴ベクトルを算出し、複数の第2特徴ベクトルを第2機械学習モデルに入力して複数の回帰パラメータを算出してもよい。第1機械学習モデルをこのように構成することで、成分オブジェクトについて十分な量のデータを用意できない場合にも複合オブジェクトの解析の精度をさらに上げることが可能になる。
 他の側面に係る情報処理システムでは、埋込み関数用の機械学習モデルが、非定型データである数値表現から、固定長ベクトルである第1特徴ベクトルを生成する機械学習モデルであってもよい。この機械学習モデルを用いることで、固定長ベクトルによって表現できない数値表現から特徴ベクトルを得ることができる。
 他の側面に係る情報処理システムでは、回帰モデルがシェッフェ多項式であってもよい。少なくとも一つのプロセッサが、複数の回帰パラメータとして、シェッフェ多項式の1次項の複数の回帰係数を算出してもよい。配合に関する問題でよく扱われるシェッフェ多項式を用いることで、複数の成分オブジェクトを配合することによって得られる複合オブジェクトを精度良く解析することができる。加えて、1次項の回帰係数によって、成分オブジェクトの単独の影響度が考慮された予測値を算出できる。
 他の側面に係る情報処理システムでは、少なくとも一つのプロセッサが、複数の回帰パラメータとして、シェッフェ多項式の2次項の複数の回帰係数を更に算出してもよい。この場合には、2次項の回帰係数によって、二つの成分オブジェクトの合成の影響度が更に考慮された予測値を算出できる。
 他の側面に係る情報処理システムでは、成分オブジェクトが材料であり、複合オブジェクトが多成分物質であってもよい。この場合には、材料について十分な量のデータを用意できない場合にも多成分物質の解析の精度を上げることが可能になる。
 他の側面に係る情報処理システムでは、材料がポリマーまたはモノマーであり、多成分物質がポリマーアロイであってもよい。この場合には、ポリマーまたはモノマーについて十分な量のデータを用意できない場合にもポリマーアロイの解析の精度を上げることが可能になる。ポリマーまたはモノマーは非常に多様であり、これに対応して、ポリマーアロイの種類も膨大である。このようなポリマー、モノマー、およびポリマーアロイについては、一般に、取り得る組合せの一部についてしか実験を行うことができず、したがって十分な量のデータを得られないことが多い。本側面によれば、このようにデータが不十分である場合でも精度よくポリマーアロイを解析することが可能になる。
 [変形例]
 以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。
 少なくとも一つのプロセッサにより実行される情報処理方法の処理手順は上記実施形態での例に限定されない。例えば、上述したステップまたは処理の一部が省略されてもよいし、別の順序で各ステップが実行されてもよい。また、上述したステップのうちの任意の2以上のステップが組み合わされてもよいし、ステップの一部が修正または削除されてもよい。あるいは、上記の各ステップに加えて他のステップが実行されてもよい。
 情報処理システム内で二つの数値の大小関係を比較する際には、「以上」および「よりも大きい」という二つの基準のどちらを用いてもよく、「以下」および「未満」の二つの基準のうちのどちらを用いてもよい。このような基準の選択は、二つの数値の大小関係を比較する処理についての技術的意義を変更するものではない。
 本開示において、「少なくとも一つのプロセッサが、第1の処理を実行し、第2の処理を実行し、…第nの処理を実行する。」との表現、またはこれに対応する表現は、第1の処理から第nの処理までのn個の処理を実行するプロセッサが途中で変わる場合を含む概念を示す。すなわち、この表現は、n個の処理のすべてが同じプロセッサで実行される場合と、n個の処理においてプロセッサが任意の方針で変わる場合との双方を含む概念を示す。
 10…情報処理システム、11…取得部、12…算出部、13…予測部。

Claims (10)

  1.  少なくとも一つのプロセッサを備え、
     前記少なくとも一つのプロセッサが、
      複数の成分オブジェクトのそれぞれについての数値表現および複合比を取得し、
      複数の前記数値表現に基づいて機械学習を実行して、前記複数の成分オブジェクトに対応する複数の回帰パラメータを算出し、
      前記複数の回帰パラメータによって定義される回帰モデルに複数の前記複合比を適用して、前記複数の成分オブジェクトを複合させることで得られる複合オブジェクトの特性を示す予測値を算出する、
    情報処理システム。
  2.  前記少なくとも一つのプロセッサが、
      前記複数の数値表現を第1機械学習モデルに入力して、前記複数の成分オブジェクトに対応する複数の特徴ベクトルを算出し、
      前記複数の特徴ベクトルを第2機械学習モデルに入力して前記複数の回帰パラメータを算出する、
    請求項1に記載の情報処理システム。
  3.  前記第1機械学習モデルが、埋込み関数用の機械学習モデルと、相互作用関数用の機械学習モデルとを含み、
     前記少なくとも一つのプロセッサが、
      前記複数の数値表現を前記埋込み関数用の機械学習モデルに入力して、前記複数の成分オブジェクトに対応する複数の第1特徴ベクトルを算出し、
      前記複数の第1特徴ベクトルを前記相互作用関数用の機械学習モデルに入力して、前記複数の成分オブジェクトに対応する複数の第2特徴ベクトルを算出し、
      前記複数の第2特徴ベクトルを前記第2機械学習モデルに入力して前記複数の回帰パラメータを算出する、
    請求項2に記載の情報処理システム。
  4.  前記埋込み関数用の機械学習モデルが、非定型データである前記数値表現から、固定長ベクトルである前記第1特徴ベクトルを生成する機械学習モデルである、
    請求項3に記載の情報処理システム。
  5.  前記回帰モデルがシェッフェ多項式であり、
     前記少なくとも一つのプロセッサが、前記複数の回帰パラメータとして、前記シェッフェ多項式の1次項の複数の回帰係数を算出する、
    請求項1~4のいずれか一項に記載の情報処理システム。
  6.  前記少なくとも一つのプロセッサが、前記複数の回帰パラメータとして、前記シェッフェ多項式の2次項の複数の回帰係数を更に算出する、
    請求項5に記載の情報処理システム。
  7.  前記成分オブジェクトが材料であり、前記複合オブジェクトが多成分物質である、
    請求項1~6のいずれか一項に記載の情報処理システム。
  8.  前記材料がポリマーまたはモノマーであり、前記多成分物質がポリマーアロイである、
    請求項7に記載の情報処理システム。
  9.  少なくとも一つのプロセッサを備える情報処理システムにより実行される情報処理方法であって、
     複数の成分オブジェクトのそれぞれについての数値表現および複合比を取得するステップと、
     複数の前記数値表現に基づいて機械学習を実行して、前記複数の成分オブジェクトに対応する複数の回帰パラメータを算出するステップと、
     前記複数の回帰パラメータによって定義される回帰モデルに複数の前記複合比を適用して、前記複数の成分オブジェクトを複合させることで得られる複合オブジェクトの特性を示す予測値を算出するステップと、
    を含む情報処理方法。
  10.  複数の成分オブジェクトのそれぞれについての数値表現および複合比を取得するステップと、
     複数の前記数値表現に基づいて機械学習を実行して、前記複数の成分オブジェクトに対応する複数の回帰パラメータを算出するステップと、
     前記複数の回帰パラメータによって定義される回帰モデルに複数の前記複合比を適用して、前記複数の成分オブジェクトを複合させることで得られる複合オブジェクトの特性を示す予測値を算出するステップと、
    をコンピュータに実行させる情報処理プログラム。
PCT/JP2021/042833 2020-11-27 2021-11-22 情報処理システム、情報処理方法、および情報処理プログラム WO2022113945A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
US18/254,384 US20240047018A1 (en) 2020-11-27 2021-11-22 Information processing system, information processing method, and storage medium
EP21897918.5A EP4243026A4 (en) 2020-11-27 2021-11-22 INFORMATION PROCESSING SYSTEM, INFORMATION PROCESSING METHOD, AND INFORMATION PROCESSING PROGRAM
JP2022565331A JPWO2022113945A1 (ja) 2020-11-27 2021-11-22
CN202180089147.0A CN116745850A (zh) 2020-11-27 2021-11-22 信息处理系统、信息处理方法及信息处理程序
KR1020237021006A KR20230110584A (ko) 2020-11-27 2021-11-22 정보 처리 시스템, 정보 처리 방법, 및 정보 처리 프로그램

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020197046 2020-11-27
JP2020-197046 2020-11-27

Publications (1)

Publication Number Publication Date
WO2022113945A1 true WO2022113945A1 (ja) 2022-06-02

Family

ID=81754598

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/042833 WO2022113945A1 (ja) 2020-11-27 2021-11-22 情報処理システム、情報処理方法、および情報処理プログラム

Country Status (6)

Country Link
US (1) US20240047018A1 (ja)
EP (1) EP4243026A4 (ja)
JP (1) JPWO2022113945A1 (ja)
KR (1) KR20230110584A (ja)
CN (1) CN116745850A (ja)
WO (1) WO2022113945A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102457159B1 (ko) * 2021-01-28 2022-10-20 전남대학교 산학협력단 딥러닝 기반 화합물 의약 효과 예측 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140163937A1 (en) * 2012-12-12 2014-06-12 Hyundai Motor Company Method for predicting physical properties of a composite blend of polypropylene and low density polypropylene
JP2019028879A (ja) 2017-08-02 2019-02-21 学校法人立命館 結合性予測方法、装置、プログラム、記録媒体、および機械学習アルゴリズムの製造方法
JP2020030638A (ja) * 2018-08-23 2020-02-27 パナソニックIpマネジメント株式会社 材料情報出力方法、材料情報出力装置、材料情報出力システム、及びプログラム
JP2020038493A (ja) * 2018-09-04 2020-03-12 横浜ゴム株式会社 物性データ予測方法及び物性データ予測装置
WO2020090805A1 (ja) * 2018-10-31 2020-05-07 昭和電工株式会社 材料探索装置、方法、およびプログラム
JP2020161044A (ja) * 2019-03-28 2020-10-01 日立化成株式会社 データ管理システム、データ管理方法、およびデータ管理プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7218519B2 (ja) * 2018-09-04 2023-02-07 横浜ゴム株式会社 物性データ予測方法及び物性データ予測装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140163937A1 (en) * 2012-12-12 2014-06-12 Hyundai Motor Company Method for predicting physical properties of a composite blend of polypropylene and low density polypropylene
JP2019028879A (ja) 2017-08-02 2019-02-21 学校法人立命館 結合性予測方法、装置、プログラム、記録媒体、および機械学習アルゴリズムの製造方法
JP2020030638A (ja) * 2018-08-23 2020-02-27 パナソニックIpマネジメント株式会社 材料情報出力方法、材料情報出力装置、材料情報出力システム、及びプログラム
JP2020038493A (ja) * 2018-09-04 2020-03-12 横浜ゴム株式会社 物性データ予測方法及び物性データ予測装置
WO2020090805A1 (ja) * 2018-10-31 2020-05-07 昭和電工株式会社 材料探索装置、方法、およびプログラム
JP2020161044A (ja) * 2019-03-28 2020-10-01 日立化成株式会社 データ管理システム、データ管理方法、およびデータ管理プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4243026A4

Also Published As

Publication number Publication date
CN116745850A (zh) 2023-09-12
EP4243026A1 (en) 2023-09-13
KR20230110584A (ko) 2023-07-24
US20240047018A1 (en) 2024-02-08
EP4243026A4 (en) 2024-05-15
JPWO2022113945A1 (ja) 2022-06-02

Similar Documents

Publication Publication Date Title
WO2021095722A1 (ja) 情報処理システム、情報処理方法、および情報処理プログラム
Emmanoulopoulos et al. Quantum machine learning in finance: Time series forecasting
Robert Approximate Bayesian computation: a survey on recent results
WO2022113945A1 (ja) 情報処理システム、情報処理方法、および情報処理プログラム
CN112086144A (zh) 分子生成方法、装置、电子设备及存储介质
WO2022079911A1 (ja) 秘密決定木テスト装置、秘密決定木テストシステム、秘密決定木テスト方法、及びプログラム
JP7395974B2 (ja) 入力データ生成システム、入力データ生成方法、及び入力データ生成プログラム
Lupo Pasini et al. Fast and accurate predictions of total energy for solid solution alloys with graph convolutional neural networks
WO2021095725A1 (ja) 情報処理システム、情報処理方法、および情報処理プログラム
JP7571781B2 (ja) 情報処理システム、情報処理方法、および情報処理プログラム
WO2021166634A1 (ja) 情報処理システム、情報処理方法、および情報処理プログラム
Xavier et al. Genome assembly using reinforcement learning
JP2021179668A (ja) データ解析システム、データ解析方法及びデータ解析プログラム
JP2020161044A (ja) データ管理システム、データ管理方法、およびデータ管理プログラム
WO2022079908A1 (ja) 秘密決定木テスト装置、秘密決定木テストシステム、秘密決定木テスト方法、及びプログラム
JP7339924B2 (ja) 材料の特性値を推定するシステム
Bar et al. Kuadrosim: An Optimized and Practical Quantum Circuit Simulator
WO2022124010A1 (ja) 演算制御装置、演算制御方法、および記録媒体
Ghafarollahi et al. Rapid and Automated Alloy Design with Graph Neural Network-Powered LLM-Driven Multi-Agent Systems
Pierri et al. Beyond the Cox Model: Applying Machine Learning Techniques with Time-to-Event Data
JP2023072958A (ja) モデル生成装置、モデル生成方法及びデータ推定装置
CN117893316A (zh) 一种构建指数的量子方法及装置
Beyer et al. Theory of Evolutionary Algorithms
Styger AN EXPLORATION OF APPLYING KNOWLEDGE BASED ENGINEERING INTO A QUALITY MANAGEMENT FRAMEWORK-EXTENDING THE QUALITY TRIANGLE FOR ESTABLISHING THE FIRST PRINCIPLES OF KNOWLEDGE BUSINESS MODELLING
Beyer et al. Theory of Evolutionary Algorithms (Dagstuhl Seminar 02031)

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21897918

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022565331

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 18254384

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2021897918

Country of ref document: EP

Effective date: 20230609

ENP Entry into the national phase

Ref document number: 20237021006

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 202180089147.0

Country of ref document: CN