WO2021095742A1 - 入力データ生成システム、入力データ生成方法、及び入力データ生成プログラム - Google Patents

入力データ生成システム、入力データ生成方法、及び入力データ生成プログラム Download PDF

Info

Publication number
WO2021095742A1
WO2021095742A1 PCT/JP2020/041973 JP2020041973W WO2021095742A1 WO 2021095742 A1 WO2021095742 A1 WO 2021095742A1 JP 2020041973 W JP2020041973 W JP 2020041973W WO 2021095742 A1 WO2021095742 A1 WO 2021095742A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
molecular graph
molecule
graph data
mixing ratio
Prior art date
Application number
PCT/JP2020/041973
Other languages
English (en)
French (fr)
Inventor
恭平 花岡
Original Assignee
昭和電工マテリアルズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 昭和電工マテリアルズ株式会社 filed Critical 昭和電工マテリアルズ株式会社
Priority to CN202080077810.0A priority Critical patent/CN114651309A/zh
Priority to US17/774,889 priority patent/US20220391699A1/en
Priority to KR1020227017835A priority patent/KR20220097922A/ko
Priority to EP20886745.7A priority patent/EP4044189A4/en
Publication of WO2021095742A1 publication Critical patent/WO2021095742A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Definitions

  • One aspect of the present disclosure relates to an input data generation system, an input data generation method, and an input data generation program.
  • One form of the input data generation system of the present disclosure comprises at least one processor, the first molecular graph data identifying the molecular graph corresponding to the first molecule and the second molecule. At least the input of the second molecular graph data that identifies the corresponding molecular graph and the mixing ratio data that represents the mixing ratio of the first molecule and the second molecule is accepted, and the first molecular graph data and the second molecule are accepted. Synthetic molecular graph data is generated by combining at least the graph data, the synthetic molecular graph data is converted into a feature vector, and the input data for machine learning is generated by reflecting the mixing ratio data in the feature vector.
  • another form of input data generation method of the present disclosure is an input data generation method performed by a computer comprising at least one processor, the first molecule identifying a molecular graph corresponding to the first molecule.
  • a step of generating synthetic molecular graph data by combining at least the first molecular graph data and the second molecular graph data, a step of converting synthetic molecular graph data into a feature vector, and reflecting the mixing ratio data in the feature vector. This includes a step of generating input data for machine learning.
  • the input data generation program of another form of the present disclosure identifies the first molecular graph data corresponding to the first molecule and the molecular graph corresponding to the second molecule to the computer. At least the step of accepting the input of the second molecular graph data and the mixing ratio data representing the mixing ratio of the first molecule and the second molecule, and at least the first molecular graph data and the second molecular graph data. Execute a step of generating synthetic molecular graph data by combining, a step of converting synthetic molecular graph data into a feature vector, and a step of generating input data for machine learning by reflecting the mixing ratio data in the feature vector. Let me.
  • synthetic molecular graph data is generated by combining data for specifying the molecular structure of the first molecule and data for specifying the molecular structure of the second molecule, and the synthetic molecular graph data is a feature vector.
  • the data representing the mixing ratio of the first molecule and the second molecule is reflected in the feature vector, and input data for machine learning is generated.
  • FIG. 1 It is a figure which shows an example of the hardware composition of the computer which comprises the input data generation system which concerns on embodiment. It is a figure which shows an example of the functional structure of the input data generation system which concerns on embodiment. It is a figure which shows an example of the molecular graph specified by the molecular graph data acquired by the acquisition part 11 of FIG. It is a figure which shows an example of the molecular graph of the multi-component substance generated by the synthesis part 12 of FIG. 2 by combining the first molecular graph and the second molecular graph shown in FIG. It is a flowchart which shows an example of the operation of the input data generation system which concerns on embodiment. It is a figure which shows an example of the molecular data handled in the operation of the input data generation system which concerns on embodiment.
  • the input data generation system 10 is a computer system that executes an input data generation process representing a multi-component substance generated by mixing a plurality of types of components at various mixing ratios.
  • a component is a chemical substance having a specific molecular structure used to produce a multi-component substance, and is, for example, a monomer, a polymer, or a single molecule such as a small molecule additive, a solute molecule, or a gas molecule. is there.
  • One component may contain a plurality of types of molecules.
  • a multi-component substance is a chemical substance produced by mixing a plurality of components at a predetermined mixing ratio.
  • the component when the component is a monomer, it is a polymer alloy, when the component is a polymer, it is a polymer blend, and the component is a solute.
  • it when it is a molecule or solvent, it is a mixed solution, and when the component is a gas molecule, it is a mixed gas.
  • the input data generated by the input data generation system 10 is used as input data for machine learning to predict the characteristics of a multi-component substance.
  • the characteristics of the multi-component substance are, for example, when the multi-component substance is a resin, thermophysical properties such as glass transition temperature and melting point, mechanical properties, adhesiveness, and the like.
  • the characteristics of multi-component substances are, when the multi-component substance is another type of substance, the medicinal effect or toxicity of the drug, the danger of the ignition point of combustibles, the appearance characteristics, or the appropriateness for a specific application. And so on.
  • Machine learning in which input data is input, is a method of autonomously finding a law or rule by iteratively learning based on given information.
  • machine learning may be machine learning using a machine learning model which is a calculation model including a neural network.
  • a neural network is a model of information processing that imitates the mechanism of the human cranial nerve system.
  • machine learning uses at least one of a neural network that takes a graph as an input and a convolutional neural network that takes a graph as an input.
  • the input data generation system 10 is composed of one or more computers. When a plurality of computers are used, one input data generation system 10 is logically constructed by connecting these computers via a communication network such as the Internet or an intranet.
  • FIG. 1 is a diagram showing an example of a general hardware configuration of a computer 100 constituting an input data generation system 10.
  • the computer 100 includes a processor (for example, a CPU) 101 for executing an operating system, an application program, and the like, a main storage unit 102 composed of a ROM and a RAM, and an auxiliary storage unit 103 composed of a hard disk, a flash memory, and the like.
  • a communication control unit 104 composed of a network card or a wireless communication module, an input device 105 such as a keyboard, a mouse, and a touch panel, and an output device 106 such as a monitor and a touch panel display are provided.
  • Each functional element of the input data generation system 10 is realized by reading a predetermined program on the processor 101 or the main storage unit 102 and causing the processor 101 to execute the program.
  • the processor 101 operates the communication control unit 104, the input device 105, or the output device 106 according to the program, and reads and writes data in the main storage unit 102 or the auxiliary storage unit 103.
  • the data or database required for processing is stored in the main storage unit 102 or the auxiliary storage unit 103.
  • FIG. 2 is a diagram showing an example of the functional configuration of the input data generation system 10.
  • the input data generation system 10 includes an acquisition unit 11, a synthesis unit 12, an addition unit 13, a vector conversion unit 14, and a mixing ratio reflection unit 15 as functional elements.
  • the acquisition unit 11 inputs the molecular graph data of a plurality of components and the mixing ratio data representing the mixing ratio of each of the plurality of components when it is assumed that the plurality of components are mixed to generate a mixture. It is a functional element to be accepted.
  • the acquisition unit 11 may acquire these data from the database in the input data generation system 10 according to the selection input by the user of the input data generation system 10, or acquire these data from an external computer or the like according to the selection by the user. You may.
  • the acquisition unit 11 corresponds to the first molecular graph data for specifying the molecular graph corresponding to the first molecule contained in the first component and the second molecule contained in the second component. At least obtain the second molecular graph data that identifies the molecular graph.
  • These molecular graph data are data for specifying the structure of an undirected graph in which the molecular structure is represented by nodes and edges.
  • the molecular graph data may be, for example, data that specifies the structure of an undirected graph by numbers, letters, texts, vectors, or the like, or data that visualizes the structure by a two-dimensional image, a three-dimensional image, or the like. However, the data may be any combination of two or more of these data.
  • the individual numerical values that make up the molecular graph data may be expressed in decimal notation or in other notations such as binary and hexadecimal notation. More specifically, the acquisition unit 11 specifies the first molecular graph data for specifying the molecular graph of the first monomer, which is the first component, and the molecular graph of the second monomer, which is the second component. Obtain at least the second molecular graph data.
  • FIG. 3 an example of the structure of the first molecular graph is shown in part (a), and an example of the structure of the second molecular graph is shown in part (b).
  • the node N1 of the atom “A” and the node N2 of the atom “B” are connected by the edge E12, and the node N2 and the node N3 of the atom “C” are connected.
  • the first molecular graph data includes node information for specifying each node N1 to N3 and edge information for specifying each edge E12 and E23.
  • the nodes N1 and N3 are nodes having a property of being able to bind to other nodes more stochastically.
  • the nodes N1 and N3 at the ends can be stochastically bonded.
  • the term "possibly combined" as used herein means that a connection with another node may occur stochastically, in other words, there may be a case where the connection is made or a case where the connection is not made.
  • the first molecular graph data also includes binding node information that identifies nodes that can be further bound (eg, nodes N1, N3).
  • the combined node information may include limited information that limits the type (atom, etc.) of the node to which the node is bonded or the node to which the node is bonded.
  • the node N4 of the atom “D” and the node N5 of the atom “E” are connected by the edge E45, and the node N5 and the node “F” are connected. It has a structure in which a node N6 is connected by an edge E56.
  • the second molecular graph data includes node information for specifying the nodes N4 to N6 and edge information for specifying the edges E45 and E56.
  • the nodes N4 and N6 are nodes having a property of being able to further bind to other nodes.
  • the second molecular graph data also includes binding node information that identifies the nodes that can be further bound.
  • the join node information may include information that limits the type of the join destination node or the join destination node of the node.
  • the acquisition unit 11 may acquire data indicating the mixing ratio of each component itself as mixing ratio data indicating the mixing ratio r of the plurality of components, or may obtain data indicating the mixing ratio between the plurality of components. It may be acquired, or data indicating the mixing amount (weight, volume, etc.) of each of the plurality of components as an absolute value or a relative value may be acquired.
  • the synthesis unit 12 combines molecular graphs of a plurality of components to generate synthetic molecular graph data corresponding to the molecular graph of a multi-component substance.
  • the synthesis unit 12 specifies a molecular graph of a multi-component substance that combines the first molecular graph and the second molecular graph with reference to at least the first molecular graph data and the second molecular graph data.
  • FIG. 4 shows an example of a molecular graph of a multi-component substance produced by combining the first molecular graph and the second molecular graph shown in FIG.
  • the synthesis unit 12 includes the node information regarding the nodes N1, N2, N3 and the edges E12 and E23 specified from the first molecular graph data, and the node N4 specified from the second molecular graph data. , N5, N6 node information and edges E45, E56 edge information are combined as they are to generate synthetic molecular graph data. Then, the synthesis unit 12 generates set data V that specifies a set of nodes in the generated synthetic molecular graph data and set data E that specifies a set of edges in the synthetic molecular graph data. For example, in the example of FIG.
  • the additional unit 13 adds additional edge information that connects two nodes in the molecular graph of the multi-component substance specified by the synthetic molecular graph data to the synthetic molecular graph data generated by the synthetic unit 12. Regenerates the synthetic molecular graph data. Specifically, the additional unit 13 further refers to the bond node information included in the first molecular graph data and the bond node information included in the second molecular graph data, and further bonds in the first molecular graph. A combination of two nodes is extracted from the possible nodes and the further connectable nodes in the second molecular graph. Then, the additional unit 13 adds the additional edge information that combines the combinations of the extracted nodes to the synthetic molecular graph data. For example, in the example of FIG.
  • the additional unit 13 includes the edge E13 and the node N1 that connect the node N1 and the node N3. Additional edge information is added for the edge E16 that connects the node N6, the edge E34 that connects the node N3 and the node N4, and the edge E46 that connects the node N4 and the node N6.
  • the additional unit 13 may limit the combinations that can be combined by referring to the limited information included in the combined node information, or a chemical bond may occur between the nodes. The combination of atoms may be determined and extracted.
  • the additional unit 13 extracts the combination by referring to the limited information.
  • the binding destination of the node N1 is limited to the nodes N3 and N6 by the limited information, and the binding destination of the node N3 is This is an example limited to nodes N1 and N4.
  • the vector conversion unit 14 converts the graph data G'representing the synthetic molecular graph data generated by the addition unit 13 into the feature vector F. Specifically, when the vector conversion unit 14 converts the set data V relating to the nodes included in the graph data G', the vector conversion unit 14 sequentially assigns numerical values representing the characteristics of the atoms constituting each element node of the set data V. Convert to an array of vector elements. Numerical values representing the characteristics of atoms are atomic numbers, electronegativity, and the like. Further, when the vector conversion unit 14 converts the set data E'concerning the edge included in the graph data G', the vector conversion unit 14 creates a vector element in which numerical values representing the characteristics of each element of the set data E'are arranged in order. Convert.
  • the vector conversion unit 14 generates a feature vector F including a vector element obtained by converting the set data V and a vector element obtained by converting the set data E'as separate vectors.
  • the mixing ratio reflecting unit 15 reflects the mixing ratio data in the feature vector F generated by the vector conversion unit 14, and generates input data for machine learning based on the feature vector f in which the mixing ratio is reflected. That is, the mixing ratio reflecting unit 15 reflects the mixing ratio r corresponding to the component of the elements of the feature vector F for the element corresponding to the node of the molecular graph of the component. For example, the mixing ratio reflecting unit 15 reflects the mixing ratio r1 of the first component composed of the first molecule for the vector element corresponding to the atom of the node of the first molecular graph, and the second For the vector element corresponding to the atom of the node of the molecular graph of, the mixing ratio r2 of the second component composed of the second molecule is reflected.
  • the mixing ratio reflecting unit 15 reflects the mixing ratio corresponding to the component of the elements of the feature vector F for the element corresponding to the edge of the molecular graph of the component.
  • the mixing ratio reflecting unit 15 reflects the mixing ratio r1 of the first component composed of the first molecule for the vector element corresponding to the edge of the first molecular graph, and the second molecule.
  • the mixing ratio r2 of the second component composed of the second molecule is reflected. The reflection of the mixing ratio is performed by multiplying and adding the mixing ratio r to each element of the vector element, or by concatenating the elements of the mixing ratio r to the vector element.
  • the mixing ratio reflecting unit 15 reflects the mixing ratio data for the vector element of the edge corresponding to the additional edge information added by the additional unit 13 among the vector elements of the feature vector F as follows. .. That is, the mixing ratio reflecting unit 15 reflects the mixing ratio r of one or two components corresponding to the molecular graph to which the two nodes connected by the edge belong to the vector element of the edge. That is, in the mixing ratio reflecting unit 15, when the mixing ratio of the component to which one node belongs is ri and the mixing ratio of the component to which the other node belongs is rg, the vector element of the edge is a mixture of the two components. Reflects the multiplication value ri ⁇ rj of the rates ri and rj.
  • the vector element of the edge when the corresponding edge connects the nodes of one molecular graph, the vector element of the edge reflects the value of the square of the mixing ratio r of the components corresponding to the one molecular graph.
  • the vector element of the edge When the edge corresponds to connecting the nodes of two molecular graphs, the vector element of the edge reflects the multiplication value of the mixing ratio r of the two components corresponding to the two molecular graphs.
  • the corresponding edge when the corresponding edge is one which binds between two nodes of the first intramolecular graph, only mixing ratio r 1 of the vector elements of the edge component composed of a first molecule If the edge reflects and connects between the nodes of the first molecular graph and the nodes of the second molecular graph, the vector element of that edge is the first molecule composed of the first molecule.
  • the mixing ratio r 1 of the components of reflecting both the mixing ratio r 2 of the second component constituted by a second molecule.
  • the reflection of the multiplication value of the mixing ratio is performed by multiplying and adding the multiplication value of the mixing ratio to each element of the vector element, or by concatenating the multiplication value of the mixing ratio to the vector element.
  • the reflection of the mixing ratios r 1 and r 2 of one component is performed by reflecting the numerical value r 1 ⁇ r 2 obtained by multiplying the mixing ratios of the two components.
  • the mixing ratio reflecting unit 15 outputs the generated input data to the outside.
  • the output input data is read by the training unit 20 in the computer connected to the outside of the input data generation system 10.
  • the trained model is generated by inputting the input data into the machine learning model together with an arbitrary teacher label as an explanatory variable.
  • the machine learning model in the predictor 30 is set based on the trained model generated by the training unit 20.
  • the training unit 20 and the predictor 30 may be the same functional unit.
  • the input data generated by the input data generation system 10 is input to the machine learning model in the predictor 30, so that the predictor 30 generates and outputs the prediction result of the characteristics of the multi-component substance.
  • the training unit 20 and the predictor 30 may be configured in the same computer as the computer 100 constituting the input data generation system 10, or may be configured in a computer separate from the computer 100. ..
  • the machine learning model generated by the training unit 20 is a trained model that is expected to have the highest estimation accuracy, and therefore can be called the "best machine learning model".
  • the trained model is generated by a computer processing teacher data that includes many combinations of input and output data.
  • the computer calculates the output data by inputting the input data to the machine learning model, and finds the error between the calculated output data and the output data indicated by the teacher data (that is, the difference between the estimation result and the correct answer). ..
  • the computer updates a given parameter of the neural network, which is a machine learning model, based on the error.
  • the computer generates a trained model by repeating such learning.
  • the process of generating the trained model can be called the learning phase, and the process of the predictor 30 using the trained model can be called the operation phase.
  • FIG. 5 is a flowchart showing an example of the operation of the input data generation system 10.
  • FIG. 6 is a diagram showing an example of molecular data handled in the operation of the input data generation system 10.
  • the acquisition unit 11 obtains molecular graph data for each of the plurality of components and mixing ratio data for each of the plurality of components. Is acquired (step S1). At this time, the acquisition unit 11 specifies the first molecular graph data for specifying the molecular graph of the first molecule contained in the first component and the molecular graph of the second molecule contained in the second component. At least the two-molecule graph data and the mixing ratio data regarding the first component and the second component thereof are acquired.
  • Part (a) of FIG. 6 shows an example of the molecular graph shown by the first molecular graph data acquired by the acquisition unit 11, and part (b) of FIG.
  • the set data of nodes related to molecular graph data V ⁇ C ⁇ , C ⁇ , C ⁇ , C ⁇ , C ⁇ , C ⁇ ⁇ are generated.
  • Edge set data for synthetic molecular graph data E ⁇ C ⁇ C ⁇ , C ⁇ C ⁇ , C ⁇ C ⁇ , C ⁇ C ⁇ , C ⁇ C ⁇ ⁇ Is generated.
  • the additional unit 13 extracts two edges (reaction points) that can be further bound on the molecular graph of the plurality of components, and the additional edge information that binds the two reaction points is added to the synthetic molecular graph data. It is added (step S4). At this time, the additional unit 13 adds the edge indicated by the additional edge information to the set data E, so that the set data E'that specifies the set of edges in the synthetic molecular graph data is regenerated, and the set data V is generated.
  • Graph data G' (V, E') representing synthetic molecular graph data in which, E'is combined is regenerated. For example, in the examples of parts (a) and (b) in FIG.
  • the vector conversion unit 14 converts the graph data G'representing the synthetic molecular graph data into the feature vector F according to a certain conversion rule (step S5).
  • a certain conversion rule for the elements of the set data V, the features (eg, electronegativity, atomic number) representing the atoms of each element are arranged in the vector element, and for the elements of the set data E', each element. It is applied to arrange the features representing the edges of (eg, bond order, bond distance) in the vector element.
  • the feature vector F is generated by sequentially and one-dimensionally connecting the vectors converted from each element of the graph data G'.
  • the element ⁇ C ⁇ ⁇ of the set data V is converted into a vector [12,2.55] in which the atomic numbers and electronegativity are arranged
  • the element ⁇ C ⁇ C ⁇ ⁇ of the set data E' is the bond order and It is converted into a vector [1,1.53] in which the bond distances (angstroms) are arranged.
  • the mixing ratio reflecting unit 15 reflects the mixing ratio data on the feature vector F to generate the feature vector f. Further, the mixing ratio reflecting unit 15 combines the feature vector f and the synthetic molecular graph data to generate input data, and the input data is output to the training unit 20 (step S6).
  • the mixing ratio r of the component is reflected for the element corresponding to the node and edge of the molecular graph of a certain component among the elements of the feature vector F, and among the elements of the feature vector F.
  • the mixing ratio r of the component to which the two nodes connected by the edge belong is reflected. For example, in the examples of parts (a) and (b) in FIG.
  • the learning phase is executed, and the trained model is generated by repeating the training using the input data and the teacher data (step S7).
  • the generated trained model is set in the predictor 30, and the predictor 30 executes the operation phase using the input data newly acquired from the input data generation system 10 to predict the characteristics of the multi-component substance.
  • the result is generated and output (step S8).
  • An input data generation program for making a computer or a computer system function as an input data generation system 10 functions the computer system as an acquisition unit 11, a synthesis unit 12, an addition unit 13, a vector conversion unit 14, and a mixing ratio reflection unit 15. Includes program code to make it.
  • This input data generation program may be provided after being fixedly recorded on a tangible recording medium such as a CD-ROM, a DVD-ROM, or a semiconductor memory. Alternatively, the input data generation program may be provided via a communication network as a data signal superimposed on a carrier wave.
  • the provided input data generation program is stored in, for example, the auxiliary storage unit 103.
  • Each of the above functional elements is realized by the processor 101 reading the input data generation program from the auxiliary storage unit 103 and executing the program.
  • the data for specifying the molecular structure of the first molecule and the data for specifying the molecular structure of the second molecule are combined to generate synthetic molecular graph data.
  • the synthetic molecule graph data is converted into a feature vector, and the feature vector reflects the data representing the mixing ratio of the first molecule and the second molecule to generate input data for machine learning.
  • the input data expressing the multi-component substance can be appropriately generated.
  • the characteristics of the multi-component substance can be predicted with higher accuracy.
  • the mixing ratio is easily and appropriately reflected in the input data representing the multi-component substance. be able to.
  • the input data expressing the multi-component substance can be appropriately generated.
  • the characteristics of the multi-component substance can be predicted with higher accuracy.
  • the mixing ratio is easily and appropriately reflected in the input data representing the multi-component substance. be able to.
  • bond information between atoms that can be bonded in a multi-component substance can be generated as additional edge information, and by reflecting the mixing ratio of the molecule in the additional edge information, the multi-component Input data representing a substance can be generated appropriately.
  • the characteristics of the multi-component substance can be predicted with higher accuracy.
  • a polymer alloy having randomness in the order of monomers such as a copolymer is targeted, it is difficult to construct a molecular graph to be input by a neural network using a conventional graph as an input.
  • a neural network that inputs a graph is adopted as a model of machine learning.
  • the characteristics of the multi-component substance can be predicted with high accuracy by inputting the molecular graph data.
  • the input data generation system 10 combines molecular graphs of two components to generate molecular graph data and a feature vector related thereto, but a molecular graph of three or more components is mixed with each other. May function to combine with.
  • the certain conversion rule provided in the vector conversion unit 14 of the input data generation system 10 may be another rule.
  • the feature vector itself may be obtained using machine learning based on the similarity of atoms or bonds.
  • the feature vector may be acquired as a distributed representation using a method similar to Word2Vec, which is a neural network used when vectorizing words in natural language processing. Further, the generation of the feature vector may be executed together with the learning phase by the training unit 20.
  • the processing procedure of the input data generation method executed by at least one processor is not limited to the example in the above embodiment.
  • some of the steps (processes) described above may be omitted, or each step may be executed in a different order.
  • any two or more steps of the above-mentioned steps may be combined, or a part of the steps may be modified or deleted.
  • other steps may be performed in addition to each of the above steps.
  • the processing of steps S7 and S8 may be omitted.
  • the expression "at least one processor executes the first process, executes the second process, ... executes the nth process", or the expression corresponding thereto is the first.
  • the concept including the case where the execution subject (that is, the processor) of n processes from the first process to the nth process changes in the middle is shown. That is, this expression shows a concept including both a case where all n processes are executed by the same processor and a case where the processor changes according to an arbitrary policy in n processes.
  • One embodiment of the present invention makes it possible to efficiently predict the characteristics of a multi-component substance in which a plurality of types of components are mixed by using an input data generation system, an input data generation method, and an input data generation program. It is a thing.
  • 10 Input data generation system, 100 ... Computer, 101 ... Processor, 11 ... Acquisition unit, 12 ... Synthesis unit, 13 ... Addition unit, 14 ... Vector conversion unit, 15 ... Mixing ratio reflection unit, 20 ... Training unit, 30 ... Predictor.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一実施形態に係る入力データ生成システムは、少なくとも1つのプロセッサを備え、少なくとも1つのプロセッサが、第1の分子に対応した分子グラフを特定する第1の分子グラフデータと、第2の分子に対応した分子グラフを特定する第2の分子グラフデータと、第1の分子及び第2の分子の混合率を表す混合率データとの入力を少なくとも受け付け、第1の分子グラフデータと第2の分子グラフデータとを少なくとも組み合わせて合成分子グラフデータを生成し、合成分子グラフデータを特徴ベクトルに変換し、特徴ベクトルに混合率データを反映することにより機械学習用の入力データを生成する。

Description

入力データ生成システム、入力データ生成方法、及び入力データ生成プログラム
 本開示の一側面は、入力データ生成システム、入力データ生成方法、及び入力データ生成プログラムに関する。
 従来から、分子の構造を所定のフォーマットで取得しそれをベクトル情報に変換して機械学習アルゴリズムに入力して特性を予測することが行われている。例えば、生体高分子の立体構造と化合物の立体構造との結合性を機械学習を用いて予測する方法が知られている(下記特許文献1参照)。この方法では、生体高分子の立体構造と化合物の立体構造とに基づいて生体高分子と化合物との複合体の予測立体構造を生成し、その予測立体構造を予測立体構造ベクトルに変換し、機械学習アルゴリズムを用いてその予測立体構造ベクトルを判別することによって生体高分子の立体構造と化合物の立体構造との結合性を予測している。
特開2019-28879号公報
 近年では、分子グラフを入力としたニューラルネットワークによって物質の特性を予測する技術が知られている。しかしながら、この技術では、複数種類の成分を様々な配合比で混合した多成分物質の特性を効率よく予測することは実現されていない。また、多成分物質に関しては一般に立体構造を予め知ることは難しい傾向にあるため、上記特許文献1の方法を用いて多成分物質の特性を予測することもできない。そこで、複数種類の成分が混合された多成分物質の特性を効率よく予測させるための仕組みが望まれている。
 本開示の一形態の入力データ生成システムは、少なくとも1つのプロセッサを備え、少なくとも1つのプロセッサが、第1の分子に対応した分子グラフを特定する第1の分子グラフデータと、第2の分子に対応した分子グラフを特定する第2の分子グラフデータと、第1の分子及び第2の分子の混合率を表す混合率データとの入力を少なくとも受け付け、第1の分子グラフデータと第2の分子グラフデータとを少なくとも組み合わせて合成分子グラフデータを生成し、合成分子グラフデータを特徴ベクトルに変換し、特徴ベクトルに混合率データを反映することにより機械学習用の入力データを生成する。
 あるいは、本開示の他の形態の入力データ生成方法は、少なくとも1つのプロセッサを備えるコンピュータにより実行される入力データ生成方法であって、第1の分子に対応した分子グラフを特定する第1の分子グラフデータと、第2の分子に対応した分子グラフを特定する第2の分子グラフデータと、第1の分子及び第2の分子の混合率を表す混合率データとの入力を少なくとも受け付けるステップと、第1の分子グラフデータと第2の分子グラフデータとを少なくとも組み合わせて合成分子グラフデータを生成するステップと、合成分子グラフデータを特徴ベクトルに変換するステップと、特徴ベクトルに混合率データを反映することにより機械学習用の入力データを生成するステップと、を備える。
 あるいは、本開示の他の形態の入力データ生成プログラムは、コンピュータに、第1の分子に対応した分子グラフを特定する第1の分子グラフデータと、第2の分子に対応した分子グラフを特定する第2の分子グラフデータと、第1の分子及び第2の分子の混合率を表す混合率データとの入力を少なくとも受け付けるステップと、第1の分子グラフデータと第2の分子グラフデータとを少なくとも組み合わせて合成分子グラフデータを生成するステップと、合成分子グラフデータを特徴ベクトルに変換するステップと、特徴ベクトルに混合率データを反映することにより機械学習用の入力データを生成するステップと、を実行させる。
 上記形態によれば、第1の分子の分子構造を特定するデータと第2の分子の分子構造を特定するデータとが組み合わされて合成分子グラフデータが生成され、その合成分子グラフデータが特徴ベクトルに変換され、その特徴ベクトルに第1の分子及び第2の分子の混合率を表すデータが反映されて機械学習用の入力データが生成される。このような構成により、分子グラフを入力とするニューラルネットワークに入力させるための多成分物質に関する入力データを効率的に生成することができる。その結果、複数種類の成分を含む多成分物質であっても、ニューラルネットワークによって入力データを処理させることにより、多成分物質の特性を高精度に予測させることができる。
 本開示の側面によれば、複数種類の成分を含む多成分物質の特性を高精度に予測させることができる。
実施形態に係る入力データ生成システムを構成するコンピュータのハードウェア構成の一例を示す図である。 実施形態に係る入力データ生成システムの機能構成の一例を示す図である。 図2の取得部11が取得する分子グラフデータによって特定される分子グラフの一例を示す図である。 図2の合成部12が図3に示す第1の分子グラフ及び第2の分子グラフを組み合わせて生成した多成分物質の分子グラフの一例を示す図である。 実施形態に係る入力データ生成システムの動作の一例を示すフローチャートである。 実施形態に係る入力データ生成システムの動作において扱われる分子データの一例を示す図である。
 以下、添付図面を参照して、本発明の実施形態について詳細に説明する。なお、説明において、同一要素又は同一機能を有する要素には、同一符号を用いることとし、重複する説明は省略する。
 [システムの概要]
 実施形態に係る入力データ生成システム10は、複数種類の成分を様々な混合比で混合することにより生成される多成分物質を表現する入力データの生成処理を実行するコンピュータシステムである。成分とは、多成分物質を生成するために用いられる特定の分子構造を有する化学物質のことをいい、例えば、モノマー、ポリマー、または、低分子添加剤、溶質分子、ガス分子等の単分子である。1つの成分には複数種類の分子が含まれていてもよい。多成分物質とは、複数の成分を所定の混合比で混合することによって生成される化学物質であり、例えば、成分がモノマーの場合はポリマーアロイ、成分がポリマーの場合はポリマーブレンド、成分が溶質分子あるいは溶媒の場合には混合溶液、成分がガス分子の場合は混合気体である。
 入力データ生成システム10によって生成された入力データは、機械学習用の入力データとして、多成分物質の特性を予測するために用いられる。多成分物質の特性とは、例えば、多成分物質が樹脂の場合は、ガラス転移温度及び融点などの熱物性、機械物性、又は、接着性等である。また、多成分物質の特性は、多成分物質が他の種類の物質の場合は、薬剤の薬効あるいは毒性、可燃物の発火点等の危険性、外観上の特性、又は、特定の用途に対する適正等である。入力データが入力される機械学習とは、与えられた情報に基づいて反復的に学習することで法則またはルールを自律的に見つけ出す手法である。機械学習の具体的な手法は限定されない。例えば、機械学習は、ニューラルネットワークを含んで構成される計算モデルである機械学習モデルを用いた機械学習であってよい。ニューラルネットワークとは、人間の脳神経系の仕組みを模した情報処理のモデルのことをいう。より具体的な例として、機械学習は、グラフを入力とするニューラルネットワーク及びグラフを入力とする畳み込みニューラルネットワークのうちの少なくとも一つを用いたものである。
 [システムの構成]
 入力データ生成システム10は1台以上のコンピュータで構成される。複数台のコンピュータを用いる場合には、これらのコンピュータがインターネット、イントラネット等の通信ネットワークを介して接続されることで、論理的に一つの入力データ生成システム10が構築される。
 図1は、入力データ生成システム10を構成するコンピュータ100の一般的なハードウェア構成の一例を示す図である。例えば、コンピュータ100は、オペレーティングシステム、アプリケーション・プログラム等を実行するプロセッサ(例えばCPU)101と、ROMおよびRAMで構成される主記憶部102と、ハードディスク、フラッシュメモリ等で構成される補助記憶部103と、ネットワークカードまたは無線通信モジュールで構成される通信制御部104と、キーボード、マウス、タッチパネル等の入力装置105と、モニタ、タッチパネルディスプレイ等の出力装置106とを備える。
 入力データ生成システム10の各機能要素は、プロセッサ101または主記憶部102の上に予め定められたプログラムを読み込ませてプロセッサ101にそのプログラムを実行させることで実現される。プロセッサ101はそのプログラムに従って、通信制御部104、入力装置105、または出力装置106を動作させ、主記憶部102または補助記憶部103におけるデータの読み出しおよび書き込みを行う。処理に必要なデータまたはデータベースは主記憶部102または補助記憶部103内に格納される。
 図2は入力データ生成システム10の機能構成の一例を示す図である。入力データ生成システム10は機能要素として取得部11、合成部12、追加部13、ベクトル変換部14、および混合率反映部15を備える。
 取得部11は、複数の成分の分子グラフデータと、これらの複数の成分を混合して混合物を生成することを想定した場合のそれぞれの複数の成分の混合率を表す混合率データとの入力を受け付ける機能要素である。取得部11は、これらのデータを入力データ生成システム10内のデータベースから入力データ生成システム10のユーザによる選択入力に応じて取得してもよいし、外部のコンピュータ等からユーザによる選択に応じて取得してもよい。
 具体的には、取得部11は、第1の成分に含まれる第1の分子に対応した分子グラフを特定する第1の分子グラフデータと、第2の成分に含まれる第2の分子に対応した分子グラフを特定する第2の分子グラフデータとを少なくとも取得する。これらの分子グラフデータは、分子構造をノード及びエッジで表現した無向グラフの構造を特定するデータである。分子グラフデータは、例えば、無向グラフの構造を、数字、英字、テキスト、ベクトル等で特定するデータでもよいし、その構造を二次元画像、三次元画像等によって可視化するデータであってもよいし、これらのデータのうちの任意の2以上の組合せのデータであってもよい。分子グラフデータを構成する個々の数値は、十進法で表されてもよいし、二進法、十六進法などの他の表記法によって表されてもよい。より詳細には、取得部11は、第1の成分である第1のモノマーの分子グラフを特定する第1の分子グラフデータと、第2の成分である第2のモノマーの分子グラフを特定する第2の分子グラフデータを少なくとも取得する。
 図3には、(a)部に第1の分子グラフの構造の一例を示し、(b)部に第2の分子グラフの構造の一例を示す。図3の(a)部に示す第1の分子グラフは、原子“A”のノードN1と原子“B”のノードN2とがエッジE12によって結合され、ノードN2と原子“C”のノードN3とがエッジE23によって結合された構造を有する。第1の分子グラフデータには、各ノードN1~N3を特定するノード情報と、各エッジE12,E23を特定するエッジ情報が含まれている。さらに、第1の分子グラフにおいては、ノードN1及びノードN3が他のノードとさらに確率的に結合しうる性質を有するノードである。例えば、第1の分子グラフが直鎖構造のモノマーである場合は、端部のノードN1,N3が確率的に結合しうる性質を有する。ここでいう「確率的に結合しうる」とは、他のノードと結合が確率的に生じる、言い換えれば、結合する場合と結合しない場合が生じうることを意味する。第1の分子グラフがこのようなノードを有する場合には、第1の分子グラフデータには、さらに結合しうるノード(例えば、ノードN1,N3)を特定する結合ノード情報も含まれる。この結合ノード情報には、そのノードの結合先のノードあるいは結合先のノードの種類(原子等)を限定する限定情報が含まれていてもよい。
 同様に、図3の(b)部に示す第2の分子グラフは、原子“D”のノードN4と原子“E”のノードN5とがエッジE45によって結合され、ノードN5と原子“F”のノードN6とがエッジE56によって結合された構造を有する。第2の分子グラフデータには、各ノードN4~N6を特定するノード情報と、各エッジE45,E56を特定するエッジ情報が含まれている。さらに、第2の分子グラフにおいては、第1の分子グラフと同様に、ノードN4及びノードN6が他のノードとさらに結合しうる性質を有するノードである。第2の分子グラフがこのようなノードを有する場合には、第2の分子グラフデータには、さらに結合しうるノードを特定する結合ノード情報も含まれる。この結合ノード情報には、そのノードの結合先のノードあるいは結合先のノードの種類を限定する情報が含まれていてもよい。
 また、取得部11は、複数の成分の混合率rを表す混合率データとして、それぞれの成分の混合率自体を示すデータを取得してもよいし、複数の成分間の混合比を示すデータを取得してもよいし、複数の成分のそれぞれの混合量(重量、体積等)を絶対値あるいは相対値で示すデータを取得してもよい。例えば、第1の成分である第1のモノマーの混合率r=“0.5”と、第2の成分である第2のモノマーの混合率r=“0.5”とを取得する。
 合成部12は、複数の成分の分子グラフを組み合わせて、多成分物質の分子グラフに対応する合成分子グラフデータを生成する。ここで、合成部12は、少なくとも第1の分子グラフデータと第2の分子グラフデータとを参照して、第1の分子グラフと第2の分子グラフを組み合わせた多成分物質の分子グラフを特定する合成分子グラフデータを生成する。図4には、図3に示す第1の分子グラフ及び第2の分子グラフを組み合わせて生成した多成分物質の分子グラフの一例を示している。このように、合成部12は、第1の分子グラフデータから特定されるノードN1,N2,N3に関するノード情報及びエッジE12,E23に関するエッジ情報と、第2の分子グラフデータから特定されるノードN4,N5,N6に関するノード情報及びエッジE45,E56に関するエッジ情報とを、そのまま組み合わせることによって合成分子グラフデータを生成する。そして、合成部12は、生成した合成分子グラフデータにおけるノードの集合を特定する集合データVと、合成分子グラフデータにおけるエッジの集合を特定する集合データEとを生成する。例えば、合成部12は、図4の例においては、各ノードの分子を識別する識別子を用いて、集合データV={A,B,C,D,E,F}、集合データE={AB,BC,DE,EF}を生成し、これらの集合データV,Eを組み合わせたグラフデータG=(V,E)を合成分子グラフデータを代表するデータとする。
 追加部13は、合成部12によって生成された合成分子グラフデータに対して、その合成分子グラフデータによって特定される多成分物質の分子グラフ中の2つのノードを結合する追加エッジ情報を追加することにより、合成分子グラフデータを再生成する。詳細には、追加部13は、第1の分子グラフデータに含まれる結合ノード情報と第2の分子グラフデータに含まれる結合ノード情報とを少なくとも参照して、第1の分子グラフ中のさらに結合しうるノードと、第2の分子グラフ中のさらに結合しうるノードとのうちから2つのノードの組み合わせを抽出する。そして、追加部13は、抽出したノードの組み合わせを結合する追加エッジ情報を、合成分子グラフデータに追加する。例えば、図4の例においては、ノードN1,N3,N4,N6がさらに結合しうるノードとして指定されているので、追加部13は、ノードN1とノードN3とを結合するエッジE13、ノードN1とノードN6とを結合するエッジE16、ノードN3とノードN4とを結合するエッジE34、及びノードN4とノードN6とを結合するエッジE46に関する追加エッジ情報を追加する。このとき、追加部13は、ノードの組み合わせを抽出する際には、結合ノード情報に含まれる限定情報を参照して結合しうる組み合わせを限定してもよいし、ノード間で化学結合が起こりうる原子の組み合わせを判断して抽出してもよい。図4に示す分子グラフは、追加部13が限定情報を参照して組み合わせを抽出した例であり、限定情報により、ノードN1の結合先がノードN3,N6に限定され、ノードN3の結合先がノードN1,N4に限定されている例である。そして、追加部13は、合成分子グラフデータにおける集合データEに対して追加エッジ情報の示すエッジを追加して集合データE’を生成し、集合データV,E’を組みわせたグラフデータG’=(V,E’)を合成分子グラフデータを代表するデータとする。例えば、図4の例に従えば、追加部13は、集合データE’={AB,AC,AF,BC,CD,DE,DF,EF}を生成する。
 ベクトル変換部14は、追加部13によって生成された合成分子グラフデータを代表するグラフデータG’を特徴ベクトルFに変換する。具体的には、ベクトル変換部14は、グラフデータG’に含まれるノードに関する集合データVを変換する際には、集合データVの各元のノードを構成する原子の特徴を表す数値を順番に並べたベクトル要素に変換する。原子の特徴を表す数値とは、原子番号、電気陰性度等である。また、ベクトル変換部14は、グラフデータG’に含まれるエッジに関する集合データE’を変換する際には、集合データE’の各元のエッジの特徴を表す数値を順番に並べたベクトル要素に変換する。エッジの特徴を表す数値とは、結合次数、結合距離等である。ベクトル変換部14は、集合データVを変換したベクトル要素と集合データE’を変換したベクトル要素とを別々のベクトルとして含む特徴ベクトルFを生成する。
 混合率反映部15は、ベクトル変換部14によって生成された特徴ベクトルFに混合率データを反映し、混合率が反映された特徴ベクトルfを基に機械学習用の入力データを生成する。すなわち、混合率反映部15は、特徴ベクトルFの要素のうち成分の分子グラフのノードに対応する要素に対してはその成分に対応する混合率rを反映する。例えば、混合率反映部15は、第1の分子グラフのノードの原子に対応するベクトル要素に対しては第1の分子によって構成される第1の成分の混合率rを反映し、第2の分子グラフのノードの原子に対応するベクトル要素に対しては第2の分子によって構成される第2の成分の混合率rを反映する。また、混合率反映部15は、特徴ベクトルFの要素のうち成分の分子グラフのエッジに対応する要素に対してはその成分に対応する混合率を反映する。例えば、混合率反映部15は、第1の分子グラフのエッジに対応するベクトル要素に対しては第1の分子によって構成される第1の成分の混合率rを反映し、第2の分子グラフのエッジに対応するベクトル要素に対しては第2の分子によって構成される第2の成分の混合率rを反映する。混合率の反映は、ベクトル要素の各要素に対して混合率rを乗算、加算するか、あるいは、ベクトル要素に混合率rの要素を連結することによって行われる。
 また、混合率反映部15は、特徴ベクトルFのベクトル要素のうち追加部13によって追加された追加エッジ情報に対応するエッジのベクトル要素に対しては、次のようにして混合率データを反映する。すなわち、混合率反映部15は、エッジによって結合される2つのノードが属する分子グラフに対応する1つあるいは2つの成分の混合率rを、そのエッジのベクトル要素に反映する。すなわち、混合率反映部15は、一方のノードが属する成分の混合率がriであり、他方のノードが属する成分の混合率がrjの場合は、そのエッジのベクトル要素には2つの成分の混合率ri,rjの乗算値ri×rjを反映する。例えば、該当のエッジが1つの分子グラフのノード間を結合するものである場合は、そのエッジのベクトル要素には当該1つの分子グラフに対応する成分の混合率rの2乗の値を反映し、該当のエッジが2つの分子グラフのノード間を結合するものである場合は、そのエッジのベクトル要素には当該2つの分子グラフに対応する2つの成分の混合率rの乗算値を反映する。言い換えれば、該当のエッジが第1の分子グラフ内の2つのノード間を結合するものである場合は、そのエッジのベクトル要素には第1の分子によって構成される成分の混合率rのみを反映し、該当のエッジが第1の分子グラフのノードと第2の分子グラフのノード間を結合するものである場合は、そのエッジのベクトル要素には、第1の分子によって構成される第1の成分の混合率rと、第2の分子によって構成される第2の成分の混合率rとの両方を反映する。混合率の乗算値の反映は、ベクトル要素の各要素に対して混合率の乗算値を乗算、加算するか、あるいは、ベクトル要素に混合率の乗算値の要素を連結することによって行われ、2つの成分の混合率r,rの反映は、2つの成分の混合率を乗算した数値r×rを反映することにより行われる。
 さらに、混合率反映部15は、生成した入力データを外部に出力する。出力された入力データは、入力データ生成システム10の外部に接続されたコンピュータ内のトレーニング部20によって読み込まれる。そして、トレーニング部20において、その入力データが説明変数として任意の教師ラベルとともに機械学習モデルに入力されることにより、学習済みモデルが生成される。さらに、トレーニング部20によって生成された学習済みモデルを基に予測器30内の機械学習モデルが設定される。ただし、トレーニング部20と予測器30は同一の機能部であってもよい。そして、入力データ生成システム10によって生成された入力データが予測器30内の機械学習モデルに入力されることによって、予測器30によって多成分物質の特性の予測結果が生成および出力される。なお、これらのトレーニング部20および予測器30は、入力データ生成システム10を構成するコンピュータ100と同一のコンピュータ内に構成されてもよいし、コンピュータ100と別体のコンピュータ内に構成されてもよい。
 一例では、トレーニング部20の生成する機械学習モデルは、推定精度が最も高いと期待される学習済みモデルであり、したがって「最良の機械学習モデル」ということができる。しかし、この学習済みモデルは“現実に最良である”とは限らないことに留意されたい。学習済みモデルは、入力データと出力データとの多数の組合せを含む教師データをコンピュータが処理することで生成される。コンピュータは、入力データを機械学習モデルに入力することで出力データを算出し、算出された出力データと、教師データで示される出力データとの誤差(すなわち、推定結果と正解との差)を求める。そして、コンピュータはその誤差に基づいて機械学習モデルであるニューラルネットワークの所与のパラメータを更新する。コンピュータはこのような学習を繰り返すことで学習済みモデルを生成する。学習済みモデルを生成する処理は学習フェーズということができ、その学習済みモデルを利用する予測器30の処理は運用フェーズということができる。
 [システムの動作]
 図5および図6を参照しながら、入力データ生成システム10の動作を説明するとともに本実施形態に係る入力データ生成方法について説明する。図5は入力データ生成システム10の動作の一例を示すフローチャートである。図6は、入力データ生成システム10の動作において扱われる分子データの一例を示す図である。
 まず、入力データ生成システム10のユーザの指示入力を契機に入力データ生成処理が開始されると、取得部11によって、複数の成分それぞれについての分子グラフデータ、及びそれぞれの複数の成分に関する混合率データが取得される(ステップS1)。この際、取得部11によって、第1の成分に含まれる第1の分子の分子グラフを特定する第1分子グラフデータと、第2の成分に含まれる第2の分子の分子グラフを特定する第2分子グラフデータと、それらの第1の成分及び第2の成分に関する混合率データとが少なくとも取得される。図6の(a)部は、取得部11によって取得される第1の分子グラフデータの示す分子グラフの一例を示し、図6の(b)部は、取得部11によって取得される第2の分子グラフデータの示す分子グラフの一例を示している。この例では、第1の分子としてポリプロピレン、第2の分子としてポリブチレンが例示されている。例えば、混合率データとしては、第1の成分であるポリプロピレンの混合率r=“0.5”、及び第2の成分であるポリブチレンの混合率r=“0.5”が取得される。
 その後、合成部12によって、複数の成分の分子グラフデータが組み合わせることにより混合物に関する合成分子グラフデータが生成されるとともに、合成分子グラフデータにおけるノードの集合を特定する集合データVが各分子グラフのノードを識別する情報を組み合わせることによって生成される(ステップS2)。加えて、合成部12によって、合成分子グラフデータにおけるエッジの集合を特定する集合データEが各分子グラフのエッジを識別する情報を組み合わせることによって生成され、集合データV,Eを組み合わせた合成分子グラフデータを代表するグラフデータG=(V,E)が生成される(ステップS3)。例えば、図6における(a)部及び(b)部の例においては、第1の分子グラフデータの示すノードの集合データV1={Cα,Cβ,Cγ}と、第2の分子グラフデータの示すノードの集合データV2={Cδ,Cε,Cζ,Cη}とを組み合わせて合成分子グラフデータに関するノードの集合データV={Cα,Cβ,Cγ,Cδ,Cε,Cζ,Cη}が生成される。また、第1の分子グラフデータの示すエッジの集合データE1={Cαβ,Cβγ}と、第2の分子グラフデータの示すエッジの集合データE2={Cδε,Cεζ,Cζη}とを組み合わせて合成分子グラフデータに関するエッジの集合データE={Cαβ,Cβγ,Cδε,Cεζ,Cζη}が生成される。
 次に、追加部13によって、複数の成分の分子グラフ上でさらに結合しうる2つのエッジ(反応点)が抽出され、それらの2つの反応点を結合する追加エッジ情報が、合成分子グラフデータに追加される(ステップS4)。このとき、追加部13によって、集合データEに対して追加エッジ情報の示すエッジが追加されることにより、合成分子グラフデータにおけるエッジの集合を特定する集合データE’が再生成され、集合データV,E’を組み合わせた合成分子グラフデータを代表するグラフデータG’=(V,E’)が再生成される。例えば、図6における(a)部及び(b)部の例においては、追加エッジ情報の示すエッジ{Cαδ,Cβδ,Cαε,Cβε}が追加されて、集合データE’={Cαβ,Cβγ,Cδε,Cεζ,Cζη,Cαδ,Cβδ,Cαε,Cβε}が再生成される。
 さらに、ベクトル変換部14により、合成分子グラフデータを代表するグラフデータG’が一定の変換ルールで特徴ベクトルFに変換される(ステップS5)。この変換ルールとしては、集合データVの元に関しては、各元の原子を表す特徴(例えば、電気陰性度、原子番号)をベクトル要素中に並べること、集合データE’の元に関しては、各元のエッジを表す特徴(例えば、結合次数、結合距離)をベクトル要素中に並べることが適用される。特徴ベクトルFは、グラフデータG’の各元から変換されたベクトルが順番に一次元的に連結されることで生成される。例えば、集合データVの元{Cα}が、原子番号及び電気陰性度を並べたベクトル[12,2.55]に変換され、集合データE’の元{Cαβ}が結合次数及び結合距離(オングストローム)を並べたベクトル[1,1.53]に変換される。
 その後、混合率反映部15により、特徴ベクトルFに混合率データが反映されて特徴ベクトルfが生成される。さらに、混合率反映部15により、特徴ベクトルfと合成分子グラフデータとが組み合わされて入力データが生成され、その入力データがトレーニング部20に出力される(ステップS6)。混合率を反映する際には、特徴ベクトルFの要素のうちある成分の分子グラフのノード及びエッジに対応する要素に対してはその成分の混合率rが反映され、特徴ベクトルFの要素のうち追加エッジ情報に対応するエッジに対応する要素に対しては、エッジによって接続される2つのノードが属する成分の混合率rが反映される。例えば、図6における(a)部及び(b)部の例においては、追加エッジ情報に対応するエッジに対応する要素以外においては、混合率r=r=“0.5”が反映され、追加エッジ情報に対応するエッジに対応する要素においては、そのエッジによって接続される2つのノードが同一の分子グラフに属する場合には混合率r (またはr )=“0.25”が反映され、そのエッジによって接続される2つのノードが別々の分子グラフに属する場合には混合率r×r=“0.25”が反映される。このとき、混合率の反映は、ベクトル要素に対して混合率を、乗算、加算、あるいは連結することによって行われる。例えば、ベクトル要素[12,2.55]に対して混合率r=“0.5”を乗算して反映する場合には、[12×0.5,2.55×0.5]=[6,1.275]と設定される。また、例えば、ベクトル要素[12,2.55]に対して混合率r=“0.5”を連結して反映する場合には、[12,2.55,0.5]と設定される。
 次に、トレーニング部20において、学習フェーズが実行され、入力データと教師データとを用いてトレーニングを繰り返すことで学習済みモデルが生成される(ステップS7)。そして、生成された学習済みモデルが予測器30に設定され、予測器30により、新たに入力データ生成システム10から取得される入力データを用いて運用フェーズが実行され、多成分物質の特性の予測結果が生成および出力される(ステップS8)。
 [プログラム]
 コンピュータまたはコンピュータシステムを入力データ生成システム10として機能させるための入力データ生成プログラムは、該コンピュータシステムを取得部11、合成部12、追加部13、ベクトル変換部14、および混合率反映部15として機能させるためのプログラムコードを含む。この入力データ生成プログラムは、CD-ROM、DVD-ROM、半導体メモリ等の有形の記録媒体に固定的に記録された上で提供されてもよい。あるいは、入力データ生成プログラムは、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。提供された入力データ生成プログラムは例えば補助記憶部103に記憶される。プロセッサ101が補助記憶部103からその入力データ生成プログラムを読み出して実行することで、上記の各機能要素が実現する。
 [効果]
 以上説明したように、上記実施形態によれば、第1の分子の分子構造を特定するデータと第2の分子の分子構造を特定するデータとが組み合わされて合成分子グラフデータが生成され、その合成分子グラフデータが特徴ベクトルに変換され、その特徴ベクトルに第1の分子及び第2の分子の混合率を表すデータが反映されて機械学習用の入力データが生成される。このような構成により、分子グラフを入力とするニューラルネットワークに入力させるための多成分物質に関する入力データを効率的に生成することができる。その結果、複数種類の成分を含む多成分物質であっても、ニューラルネットワークによって入力データを処理させることにより、多成分物質の特性を高精度に予測させることができる。特にモノマーを混合して生成されるポリマーアロイの特性を高精度に予測させることができる。
 また、上記実施形態においては、成分の分子を構成する原子の情報であるノード情報にその分子の混合率を反映することにより、多成分物質を表現する入力データを適切に生成できる。その結果、多成分物質の特性をより高精度に予測させることができる。特に、分子グラフデータのノード情報に対応するベクトルに対して、成分の混合率を、乗算、加算、あるいは連結することにより、多成分物質を表現する入力データに混合率を簡易かつ適切に反映させることができる。
 また、上記実施形態においては、成分の分子を構成する原子間の結合情報であるエッジ情報にその分子の混合率を反映することにより、多成分物質を表現する入力データを適切に生成できる。その結果、多成分物質の特性をより高精度に予測させることができる。特に、分子グラフデータのエッジ情報に対応するベクトルに対して、成分の混合率を、乗算、加算、あるいは連結することにより、多成分物質を表現する入力データに混合率を簡易かつ適切に反映させることができる。
 さらに、上記実施形態においては、多成分物質において結合しうる原子間の結合情報を追加のエッジ情報として生成することができ、追加のエッジ情報にその分子の混合率を反映することにより、多成分物質を表現する入力データを適切に生成できる。その結果、多成分物質の特性をより高精度に予測させることができる。特に、コポリマーなどのモノマーの並び順にランダム性があるようなポリマーアロイを対象とした場合には、従来のグラフを入力とするニューラルネットワークでは、入力対象の分子グラフを構築することが困難である。本実施形態では、モノマー間の化学結合を分子グラフに取り込んで、「ポリマーアロイ」などの多成分物質をグラフとして表現して、その多成分物質のグラフを効率的にニューラルネットワークに入力することができる。
 また、上記実施形態では、機械学習のモデルとしてグラフを入力とするニューラルネットワークを採用している。これにより、分子グラフデータを入力として多成分物質の特性を高精度に予測させることができる。
 [変形例]
 以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。
 上記実施形態では、入力データ生成システム10が2つの成分の分子グラフを組み合わせて分子グラフデータ及びそれに関する特徴ベクトルを生成する例を示したが、3つ以上の成分の分子グラフをそれらの混合率とともに組み合わせるように機能してもよい。
 また、入力データ生成システム10のベクトル変換部14に具備されている一定の変換ルールは、他のルールであってもよい。例えば、原子あるいは結合の類似性に基づいて、特徴ベクトル自体を機械学習を用いて取得してもよい。例えば、自然言語処理で単語をベクトル化する際に使用されるニューラルネットワークであるWord2Vecと同様な方法を用いて、特徴ベクトルを分散表現として取得してもよい。また、特徴ベクトルの生成がトレーニング部20による学習フェーズとともに実行されてもよい。
 少なくとも一つのプロセッサにより実行される入力データ生成方法の処理手順は上記実施形態での例に限定されない。例えば、上述したステップ(処理)の一部が省略されてもよいし、別の順序で各ステップが実行されてもよい。また、上述したステップのうちの任意の2以上のステップが組み合わされてもよいし、ステップの一部が修正または削除されてもよい。あるいは、上記の各ステップに加えて他のステップが実行されてもよい。例えばステップS7,S8の処理が省略されてもよい。
 本開示において、「少なくとも一つのプロセッサが、第1の処理を実行し、第2の処理を実行し、…第nの処理を実行する。」との表現、またはこれに対応する表現は、第1の処理から第nの処理までのn個の処理の実行主体(すなわちプロセッサ)が途中で変わる場合を含む概念を示す。すなわち、この表現は、n個の処理のすべてが同じプロセッサで実行される場合と、n個の処理においてプロセッサが任意の方針で変わる場合との双方を含む概念を示す。
 本発明の一形態は、入力データ生成システム、入力データ生成方法、及び入力データ生成プログラムを使用用途とし、複数種類の成分が混合された多成分物質の特性を効率よく予測することを可能にするものである。
 10…入力データ生成システム、100…コンピュータ、101…プロセッサ、11…取得部、12…合成部、13…追加部、14…ベクトル変換部、15…混合率反映部、20…トレーニング部、30…予測器。

Claims (10)

  1.  少なくとも1つのプロセッサを備え、
     前記少なくとも1つのプロセッサが、
      第1の分子に対応した分子グラフを特定する第1の分子グラフデータと、第2の分子に対応した分子グラフを特定する第2の分子グラフデータと、前記第1の分子及び前記第2の分子の混合率を表す混合率データとの入力を少なくとも受け付け、
      前記第1の分子グラフデータと第2の分子グラフデータとを少なくとも組み合わせて合成分子グラフデータを生成し、
      前記合成分子グラフデータを特徴ベクトルに変換し、
      前記特徴ベクトルに前記混合率データを反映することにより機械学習用の入力データを生成する、
    入力データ生成システム。
  2.  前記少なくとも1つのプロセッサは、
      前記第1の分子グラフデータ及び第2の分子グラフデータとして分子グラフのノードを特定するノード情報を受け付け、
      前記第1の分子グラフデータに含まれる前記ノード情報と、前記第2の分子グラフデータに含まれる前記ノード情報とを組み合わせて前記合成分子グラフデータを生成し、
      前記特徴ベクトルのうちの前記第1の分子グラフデータのノード情報に対応するベクトルに前記第1の分子の前記混合率を反映し、前記特徴ベクトルのうちの前記第2の分子グラフデータのノード情報に対応するベクトルに前記第2の分子の前記混合率を反映することにより、前記入力データを生成する、
    請求項1に記載の入力データ生成システム。
  3.  前記少なくとも1つのプロセッサは、
      前記第1及び第2の分子グラフデータのノード情報に対応するベクトルに対して、前記第1及び第2の分子のそれぞれの前記混合率を、乗算、加算、あるいは連結する、
    請求項2に記載の入力データ生成システム。
  4.  前記少なくとも1つのプロセッサは、
      前記第1の分子グラフデータ及び第2の分子グラフデータとして分子グラフのエッジを特定するエッジ情報をさらに受け付け、
      前記第1の分子グラフデータに含まれる前記エッジ情報と、前記第2の分子グラフデータに含まれる前記エッジ情報とを組み合わせて前記合成分子グラフデータを生成し、
      前記特徴ベクトルのうちの前記第1の分子グラフデータのエッジ情報に対応するベクトルに前記第1の分子の前記混合率を反映し、前記特徴ベクトルのうちの前記第2の分子グラフデータのエッジ情報に対応するベクトルに前記第2の分子の前記混合率を反映することにより、前記入力データを生成する、
    請求項1~3のいずれか1項に記載の入力データ生成システム。
  5.  前記少なくとも1つのプロセッサは、
      前記第1及び第2の分子グラフデータのエッジ情報に対応するベクトルに対して、前記第1及び第2の分子のそれぞれの前記混合率を、乗算、加算、あるいは連結する、
    請求項4に記載の入力データ生成システム。
  6.  前記少なくとも1つのプロセッサは、
      前記第1の分子グラフデータ及び第2の分子グラフデータとして、結合しうる分子グラフのノードを特定する結合ノード情報をさらに受け付け、
      前記第1の分子グラフデータに含まれる前記結合ノード情報の示すノード、及び前記第2の分子グラフデータに含まれる前記結合ノード情報の示すノードのうちの2つのノードを結合するエッジに関する追加エッジ情報を生成し、前記追加エッジ情報を追加して前記合成分子グラフデータを生成し、
      前記特徴ベクトルのうちの前記追加エッジ情報に対応するベクトルに前記第1の分子及び前記第2の分子の前記混合率を反映することにより、前記入力データを生成する、
    請求項1~5のいずれか1項に記載の入力データ生成システム。
  7.  前記機械学習は、グラフを入力とするニューラルネットワークである、
    請求項1~6のいずれか1項に記載の入力データ生成システム。
  8.  前記第1の分子及び前記第2の分子は、モノマーであり、
     前記混合率データは、第1の分子及び第2の分子を基に生成されるポリマーアロイにおける前記第1の分子及び前記第2の分子の混合率を表す、
    請求項1~7のいずれか1項に記載の入力データ生成システム。
  9.  少なくとも1つのプロセッサを備えるコンピュータにより実行される入力データ生成方法であって、
     第1の分子に対応した分子グラフを特定する第1の分子グラフデータと、第2の分子に対応した分子グラフを特定する第2の分子グラフデータと、前記第1の分子及び前記第2の分子の混合率を表す混合率データとの入力を少なくとも受け付けるステップと、
     前記第1の分子グラフデータと第2の分子グラフデータとを少なくとも組み合わせて合成分子グラフデータを生成するステップと、
     前記合成分子グラフデータを特徴ベクトルに変換するステップと、
     前記特徴ベクトルに前記混合率データを反映することにより機械学習用の入力データを生成するステップと、
    を備える入力データ生成方法。
  10.  コンピュータに、
     第1の分子に対応した分子グラフを特定する第1の分子グラフデータと、第2の分子に対応した分子グラフを特定する第2の分子グラフデータと、前記第1の分子及び前記第2の分子の混合率を表す混合率データとの入力を少なくとも受け付けるステップと、
     前記第1の分子グラフデータと第2の分子グラフデータとを少なくとも組み合わせて合成分子グラフデータを生成するステップと、
     前記合成分子グラフデータを特徴ベクトルに変換するステップと、
     前記特徴ベクトルに前記混合率データを反映することにより機械学習用の入力データを生成するステップと、
    を実行させる入力データ生成プログラム。
PCT/JP2020/041973 2019-11-12 2020-11-10 入力データ生成システム、入力データ生成方法、及び入力データ生成プログラム WO2021095742A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202080077810.0A CN114651309A (zh) 2019-11-12 2020-11-10 输入数据生成系统、输入数据生成方法及输入数据生成程序
US17/774,889 US20220391699A1 (en) 2019-11-12 2020-11-10 Input data generation system, input data generation method, and storage medium
KR1020227017835A KR20220097922A (ko) 2019-11-12 2020-11-10 입력 데이터 생성 시스템, 입력 데이터 생성 방법, 및 입력 데이터 생성 프로그램
EP20886745.7A EP4044189A4 (en) 2019-11-12 2020-11-10 INPUT DATA GENERATION SYSTEM, INPUT DATA GENERATION METHOD AND INPUT DATA GENERATION SYSTEM

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-204472 2019-11-12
JP2019204472A JP7395974B2 (ja) 2019-11-12 2019-11-12 入力データ生成システム、入力データ生成方法、及び入力データ生成プログラム

Publications (1)

Publication Number Publication Date
WO2021095742A1 true WO2021095742A1 (ja) 2021-05-20

Family

ID=75898048

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/041973 WO2021095742A1 (ja) 2019-11-12 2020-11-10 入力データ生成システム、入力データ生成方法、及び入力データ生成プログラム

Country Status (6)

Country Link
US (1) US20220391699A1 (ja)
EP (1) EP4044189A4 (ja)
JP (1) JP7395974B2 (ja)
KR (1) KR20220097922A (ja)
CN (1) CN114651309A (ja)
WO (1) WO2021095742A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240066576A (ko) * 2022-11-08 2024-05-16 한국과학기술원 그래프 핵심 구조를 보존하는 노드 중요도 기반 그래프 증강을 위한 방법과 컴퓨터 장치
KR20240073332A (ko) 2022-11-18 2024-05-27 주식회사 Lg 경영개발원 화학구조식의 객체 다변화에 의한 학습데이터 생성 장치 및 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09259156A (ja) * 1996-03-21 1997-10-03 Hitachi Ltd 材料設計方法およびその方法を行う材料設計装置
JPH1055348A (ja) * 1996-08-08 1998-02-24 Bridgestone Corp 多成分系材料最適化解析装置および方法
JP2001256420A (ja) * 2000-01-18 2001-09-21 Praxair Technol Inc 複合混合物の引火限界を予測する方法
JP2004086892A (ja) * 2002-08-02 2004-03-18 Japan Science & Technology Agency 成分配合設計方法、成分配合設計プログラム及びそのプログラムを記録した記録媒体
JP2018168580A (ja) * 2017-03-29 2018-11-01 日立建機株式会社 転圧機械
JP2019028879A (ja) 2017-08-02 2019-02-21 学校法人立命館 結合性予測方法、装置、プログラム、記録媒体、および機械学習アルゴリズムの製造方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200034367A1 (en) 2017-03-13 2020-01-30 Nec Corporation Relation search system, information processing device, method, and program
US11087861B2 (en) 2018-03-15 2021-08-10 International Business Machines Corporation Creation of new chemical compounds having desired properties using accumulated chemical data to construct a new chemical structure for synthesis

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09259156A (ja) * 1996-03-21 1997-10-03 Hitachi Ltd 材料設計方法およびその方法を行う材料設計装置
JPH1055348A (ja) * 1996-08-08 1998-02-24 Bridgestone Corp 多成分系材料最適化解析装置および方法
JP2001256420A (ja) * 2000-01-18 2001-09-21 Praxair Technol Inc 複合混合物の引火限界を予測する方法
JP2004086892A (ja) * 2002-08-02 2004-03-18 Japan Science & Technology Agency 成分配合設計方法、成分配合設計プログラム及びそのプログラムを記録した記録媒体
JP2018168580A (ja) * 2017-03-29 2018-11-01 日立建機株式会社 転圧機械
JP2019028879A (ja) 2017-08-02 2019-02-21 学校法人立命館 結合性予測方法、装置、プログラム、記録媒体、および機械学習アルゴリズムの製造方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4044189A4

Also Published As

Publication number Publication date
US20220391699A1 (en) 2022-12-08
CN114651309A (zh) 2022-06-21
JP7395974B2 (ja) 2023-12-12
EP4044189A4 (en) 2023-04-05
JP2021077187A (ja) 2021-05-20
KR20220097922A (ko) 2022-07-08
EP4044189A1 (en) 2022-08-17

Similar Documents

Publication Publication Date Title
WO2021095742A1 (ja) 入力データ生成システム、入力データ生成方法、及び入力データ生成プログラム
Walcher Stability of Landau-Ginzburg branes
US10496525B2 (en) Visual analysis and debugging of event flows
WO2021095722A1 (ja) 情報処理システム、情報処理方法、および情報処理プログラム
WO2022225009A1 (ja) 特性予測システム、特性予測方法、及び特性予測プログラム
Chadha et al. Stability analysis for neutral stochastic differential equation of second order driven by Poisson jumps
WO2022113945A1 (ja) 情報処理システム、情報処理方法、および情報処理プログラム
KR20230175227A (ko) 특성 예측 시스템, 특성 예측 방법, 및 특성 예측 프로그램
Horita et al. Analysis and identification of possible automation approaches for embedded systems design flows
EP4092084A1 (en) Information processing system, information processing method, and information processing program
Yang et al. Implementation and optimization of zero-knowledge proof circuit based on hash function sm3
WO2021095725A1 (ja) 情報処理システム、情報処理方法、および情報処理プログラム
Loulergue et al. Powerlists in Coq: programming and reasoning
Todorov et al. Optimizing air pollution modeling with a highly-convergent quasi-Monte Carlo method: A case study on the UNI-DEM framework
JP2021081920A (ja) 分子記述子生成システム、分子記述子生成方法、及び分子記述子生成プログラム
van Almsick et al. Efficient algorithms to enumerate isomers and diamutamers with more than one type of substituent
Karagiannis et al. Using metamodeling for requirements engineering: A best-practice with adoxx
Huang et al. Fast & Sound: Accelerating Synthesis-Rules-Based Process Discovery
Rathore et al. An integrated model based test case prioritization using UML sequence and activity diagram
Silvaši et al. Fully automatic modular theorem prover with code generation support
Kapitsaki et al. Applying model-driven engineering for linking web service and context models: position paper
Drewes et al. T REEBAG
Yu Model-Based Design of Garbled Circuits
Janitza et al. PARAMETRICAL CAD MODELS AS A DATABASE FOR MASS CUSTOMIZATION CONFIGURATION PROCESSES
FR3085499A1 (fr) Procede fonctionnel de calcul universel par produit etendu de matrice formelle

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20886745

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020886745

Country of ref document: EP

Effective date: 20220509

ENP Entry into the national phase

Ref document number: 20227017835

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE