WO2023176901A1 - 情報処理装置、モデル生成方法及び情報処理方法 - Google Patents

情報処理装置、モデル生成方法及び情報処理方法 Download PDF

Info

Publication number
WO2023176901A1
WO2023176901A1 PCT/JP2023/010158 JP2023010158W WO2023176901A1 WO 2023176901 A1 WO2023176901 A1 WO 2023176901A1 JP 2023010158 W JP2023010158 W JP 2023010158W WO 2023176901 A1 WO2023176901 A1 WO 2023176901A1
Authority
WO
WIPO (PCT)
Prior art keywords
model
information
layer
substance
information processing
Prior art date
Application number
PCT/JP2023/010158
Other languages
English (en)
French (fr)
Inventor
聡 高本
幾 品川
隆文 石井
Original Assignee
株式会社 Preferred Networks
Eneos株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社 Preferred Networks, Eneos株式会社 filed Critical 株式会社 Preferred Networks
Publication of WO2023176901A1 publication Critical patent/WO2023176901A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Definitions

  • the present disclosure relates to an information processing device, a model generation method, and an information processing method.
  • NNP Neuronal Network Potential
  • This disclosure proposes an application field using neural network models that form NNPs.
  • an information processing device includes one or more memories and one or more processors.
  • the one or more processors input information about atoms of a substance into a first model and obtain information about the substance from an output layer of the first model.
  • the first model is trained to output information about the substance, and includes layers from an input layer to a predetermined layer in the second model that receives information about atoms as input and outputs at least a value of either energy or force. It is a model that
  • FIG. 2 is a diagram illustrating an example of a model forming an NNP according to an embodiment.
  • FIG. 1 is a diagram illustrating a configuration example of a neural network model according to an embodiment.
  • FIG. 1 is a diagram illustrating a configuration example of a neural network model according to an embodiment.
  • FIG. 1 is a diagram illustrating a configuration example of a neural network model according to an embodiment.
  • FIG. 1 is a diagram illustrating a configuration example of a neural network model according to an embodiment.
  • FIG. 1 is a diagram illustrating a configuration example of a neural network model according to an embodiment.
  • FIG. 1 is a diagram illustrating a configuration example of a neural network model according to an embodiment.
  • FIG. 1 is a diagram illustrating a configuration example of a neural network model according to an embodiment.
  • FIG. 1 is a diagram illustrating a configuration example of a neural network model according to an embodiment.
  • FIG. 1 is a diagram illustrating a configuration example of a neural network model
  • FIG. 1 is a diagram illustrating a configuration example of a neural network model according to an embodiment.
  • FIG. 1 is a diagram illustrating a configuration example of a neural network model according to an embodiment.
  • FIG. 1 is a diagram illustrating a configuration example of a neural network model according to an embodiment.
  • FIG. 1 is a diagram illustrating a configuration example of a neural network model according to an embodiment.
  • FIG. 1 is a diagram illustrating a configuration example of a neural network model according to an embodiment.
  • FIG. 1 is a diagram illustrating a configuration example of a neural network model according to an embodiment.
  • FIG. 1 is a diagram illustrating a configuration example of a neural network model according to an embodiment.
  • 1 is a flowchart showing processing of an information processing device according to an embodiment.
  • 1 is a flowchart showing processing of an information processing device according to an embodiment.
  • FIG. 1 is a diagram illustrating an example of implementation of an information processing device according to an embodiment.
  • FIG. 1 is a diagram illustrating an example of a network model configuration of NNP (Neural Network Potential) according to an embodiment.
  • the model that forms the NNP may be constructed using, for example, MLP (Multi-Layer Perceptron).
  • MLP Multi-Layer Perceptron
  • This MLP may be, for example, a graph neural network that can input and output graphs.
  • the intermediate layer of each model shown below may have a configuration that functions as a part of the layer of a graph neural network, that is, a configuration that can input and output graph information.
  • the model that forms NNPs shown in Figure 1 is, for example, a model trained using atomic interactions (energy) obtained as a result of quantum chemical calculations as training data.
  • the model that forms NNP outputs energy from the output layer when information about the atoms that make up the substance is input to the input layer.
  • the nodes of the input layer of the model forming NNP correspond to atoms constituting a substance, and each node receives information regarding the atoms of the substance.
  • the output layer of the model that forms NNP uses information about each node and outputs the energy in the input state. By backpropagating this energy, it is also possible to obtain the force exerted on each atom.
  • the atom information input to the model forming the NNP is, for example, information that includes information on the type and position of each atom.
  • information about atoms may be referred to as information about atoms.
  • Examples of information on the positions of atoms include information that directly indicates the positions of atoms using coordinates, and information that directly or indirectly indicates relative positions between atoms.
  • the information is expressed, for example, by distances, angles, dihedral angles, etc. between atoms.
  • the distance between two atoms or the angle between three atoms can be calculated from the information on the coordinates of atoms, and these can be used as information on the positions of atoms to be input into a model that forms NNP. , it is possible to guarantee invariance against rotation and translation, and it is possible to improve the accuracy of NNP.
  • the atom information may be information that directly indicates the position, or may be information calculated from the position information.
  • the information on atoms may also include information on charges and information on bonds.
  • the output from any intermediate layer in the model that forms NNP is considered to be a quantity that has characteristics that connect atomic information and energy information.
  • a neural network model that can infer the properties of a substance is formed using the output from the intermediate layer in the model that forms the NNP.
  • the processing circuit of the information processing device that executes model training may execute training by changing the output from the output layer of the model that forms the NNP shown in Figure 1 to another feature quantity.
  • the processing circuit uses a model that has been trained in advance as a model for forming an NNP, or forms and trains a new neural network model for forming an NNP.
  • FIG. 2 is a diagram showing a non-limiting example of model formation according to the present embodiment.
  • the information processing device of this embodiment acquires various physical property values using a model that includes up to a predetermined intermediate layer of the model that forms the NNP (hereinafter referred to as the second model) shown in FIG.
  • This model may be a model (hereinafter referred to as the first model) that outputs physical property values different from the information (energy, force) that can be obtained via the NNP.
  • the configuration etc. of this first model will mainly be explained.
  • each layer of the second model has the number of nodes of atoms. That is, the second model has nodes with the same number of atoms from the input layer to the output layer. For this reason, it can be assumed that the output from any intermediate layer is a feature amount corresponding to each atom.
  • the output from the middle layer of the second model is mainly used to connect to a network that outputs another characteristic, and further training is performed to obtain a model that infers the other characteristic.
  • FIG. 3 is a diagram schematically showing an example of generation of the first model in FIGS. 1 to 2.
  • the first model can output different information from the second model by copying the second model's input layer to a predetermined intermediate layer and newly connecting the output layer. .
  • training transfer learning
  • the predetermined intermediate layer is the layer immediately before the output layer of the second model.
  • the second model may have a plurality of layers up to the predetermined intermediate layer, or the layer following the input layer may be the predetermined intermediate layer.
  • the first model can be optimized (trained) by transfer learning by appropriately copying the parameters from the input layer of the second model to a predetermined intermediate layer.
  • the first model is not limited to having a separate output layer connected to the predetermined intermediate layer of the second model, and even if the predetermined intermediate layer of the second model is the output layer of the first model. good.
  • the first model and the second model output different information, that is, the first model outputs information other than energy and force, but the present invention is not limited to this.
  • the first model may provide the same type of output as the second model.
  • the processing circuit can, for example, obtain the same physical property values (substantially the same physical property values) or similar physical property values.
  • the first model and the second model may output different types of energy or force.
  • the first model may infer physical property values such as adsorption energy or activation energy.
  • FIG. 4 is a diagram showing another example of first model generation.
  • the first model has a configuration that further includes an intermediate layer between the predetermined intermediate layer and the output layer.
  • the first model may include a different second intermediate layer, rather than having information propagated directly from the predetermined intermediate layer to the output layer. This makes it possible to perform more complex calculations on the feature quantities output from the predetermined intermediate layer, and depending on the object of inference, it is possible to obtain better results than in FIG. 3.
  • the first model may include a plurality of intermediate layers between the predetermined intermediate layer and the output layer.
  • FIG. 5 is a diagram showing another example of first model generation.
  • the first model may have a configuration in which information is directly propagated from other intermediate layers of the predetermined intermediate layer.
  • the parameters from the input layer to the predetermined intermediate layer of the first model may be the same as the parameters from the input layer to the predetermined intermediate layer of the second model.
  • information does not need to be directly propagated from the middle layer.
  • information may be directly propagated from the input layer to the output layer.
  • FIG. 6 is a diagram showing another example of first model generation.
  • the first model may have one or more intermediate layers between the predetermined intermediate layer and the output layer.
  • a configuration may also be adopted in which information is directly propagated from an intermediate layer other than the predetermined intermediate layer to an intermediate layer subsequent to the predetermined intermediate layer.
  • a configuration may be adopted in which information is directly propagated from the input layer to the intermediate layer after the predetermined intermediate layer, rather than from the intermediate layer.
  • information is directly propagated from an intermediate layer before the given intermediate layer to at least one intermediate layer after the given intermediate layer.
  • the configuration may be such that information is directly propagated from a predetermined intermediate layer to a plurality of intermediate layers after the predetermined intermediate layer.
  • information is directly propagated from the intermediate layer before the predetermined intermediate layer to the output layer, as shown in FIG. Good too.
  • the number of intermediate layers between the input layer and the predetermined intermediate layer (intermediate layers before the predetermined intermediate layer) and the number of intermediate layers between the predetermined intermediate layer and the output layer is arbitrary. Therefore, the information propagation from the middle layer to the middle layer in Figure 6 is from the middle layer before any one or more predetermined middle layers to the middle layer after any one or more predetermined middle layers. It may also be the propagation of information to.
  • FIG. 7 is a diagram showing another example of first model generation.
  • the predetermined intermediate layer does not have to be the layer immediately before the output layer in the second model.
  • the configuration of the first model may be configured as shown in FIGS. 4 to 6. That is, the first model may include one or more intermediate layers between the predetermined intermediate layer and the output layer, or may include intermediate layers from an intermediate layer before the predetermined intermediate layer to an intermediate layer after the predetermined intermediate layer. Alternatively, the configuration may be such that information can be directly propagated to the output layer.
  • FIG. 8 is a diagram showing another example of first model generation.
  • the first model may be formed using the output layer of the second model as a predetermined intermediate layer.
  • the predetermined intermediate layer outputs the energy value as in the second model.
  • Training may be performed between the predetermined intermediate layer and the output layer so that the output is converted into desired information.
  • information may be propagated from an intermediate layer before the predetermined intermediate layer of the first model to the output layer. Further, without being limited to these examples, an intermediate layer may be placed after the predetermined intermediate layer as shown in FIG. The information may be directly propagated to a later intermediate layer than the intermediate layer.
  • a layer for dimension compression or dimension expansion may be present between the input layer and a predetermined intermediate layer.
  • the predetermined intermediate layer has the same number of nodes as the input layer and the output layer because it is possible to output data for each atom from each node.
  • the predetermined intermediate layer may be a layer that performs node compression or node expansion (in other words, dimension compression or dimension expansion).
  • the middle layer There are various possible arrangements for the middle layer, but it is also possible to fix the parameters of the copied part and have a connection that allows information to be propagated between the input layer, any middle layer, or the output layer. good.
  • the parameters from the input layer to the predetermined intermediate layer in the first model are the same as the parameters from the input layer to the predetermined intermediate layer in the second model, but the invention is not limited to this. That is, the first model may be a model that is fine-tuned to produce different outputs using parameters obtained from the model forming the NNP.
  • the model formed below the predetermined intermediate layer as the first model is not limited to the neural network model.
  • other machine learning models such as random forest may be connected to the predetermined intermediate layer.
  • the first model is not limited to the layers and parameters included in the MLP, but may include layers and parameters of other types of neural network models.
  • FIG. 9 is a diagram showing yet another example of the first model. Although bias inputs are not shown in the model configurations of FIGS. 3 to 8, bias inputs may be made appropriately as shown in FIG. 9.
  • the first model may perform inference by applying a bias input to the output of a predetermined intermediate layer.
  • FIG. 10 is a diagram showing yet another example of the first model.
  • the second model separately acquires another value (feature amount) for the input atomic configuration, and uses this separately acquired value and the value of the predetermined intermediate layer to perform transfer learning and fine tuning. You may use the model that has been optimized as the first model.
  • the first model may be a model that performs inference by adding weighted values of a predetermined intermediate layer to a fingerprint obtained from input atomic information.
  • the feature amount may be an already defined feature amount obtained based on a predetermined algorithm, like the above-mentioned fingerprint.
  • another neural network may be formed for the input of the input layer to calculate this feature amount.
  • other neural networks may also be trained as part of the transfer learning.
  • FIG. 11 is a diagram showing another example of FIG. 10. It may also be possible to input feature amounts that have been separately acquired in the information about atoms input to the input layer of the first model into intermediate layers after a predetermined intermediate layer of the first model. Alternatively, a neural network model that acquires feature amounts from input information about atoms may be formed separately, and the output of this neural network may be input to a predetermined intermediate layer or later intermediate layers.
  • FIG. 12 is a diagram showing yet another example of the first model.
  • Information regarding a plurality of chemical structures is input to the intermediate layer in parallel with respect to the input atomic configuration.
  • the first model uses parameters from the input layer to the predetermined intermediate layer obtained from the second model to make multiple branches (three in Figure 12) in parallel, and then outputs from each branch. This is a model that integrates and outputs the data.
  • the dashed arrows shown in FIG. 12 are weighting parameters that can be set arbitrarily.
  • the first model may have a form in which outputs are mutually propagated in intermediate layers after a predetermined intermediate layer in a network structure provided in parallel. This dashed arrow is not a required configuration; the connection indicated by the dashed arrow does not have to exist in the first model.
  • this dashed arrow is omitted, in the first model, data is propagated in parallel to each other in the intermediate layer regarding multiple chemical structures.
  • the dashed arrows shown in FIG. 12 represent inputting information obtained from a certain chemical structure to an intermediate layer that processes other chemical structures.
  • the connection between the intermediate layers regarding the plurality of chemical structures includes a series connection relationship. For example, when multiple chemical structures correspond to structural changes that follow a chemical reaction, passing information between chemical structures as shown in this first model is useful for estimating the ease of the chemical reaction.
  • the first model in FIG. 12 does not exclude that there is input/output of data indicated by the dashed arrow in at least one parallel propagation path among those indicated by the dashed arrow.
  • the branches from the input layer to the parallel paths include, for example, a branch that outputs the information input to the input layer as it is to the intermediate layer, and a branch that outputs the information after making one or more small changes.
  • the minute change may be, for example, a change corresponding to a minute change in the position or structure of an atom in a graph.
  • the first model may use fixed parameters obtained from the second model up to a predetermined intermediate layer.
  • Information output from each parallel model in the first model is output from the output layer via an intermediate layer that integrates the outputs after a predetermined intermediate layer in each branch.
  • the first model may further include an intermediate layer for adjusting each output between the predetermined intermediate layer and the intermediate layer that integrates the outputs, as shown in Figure 12, on each path in the branch. .
  • Parameters related to the intermediate layer and output layer after the integration process are tuned by transfer learning or the like as explained above with reference to FIG. 11.
  • the information regarding the intermediate layer before integration is provided. You may also tune the parameters.
  • information regarding a plurality of chemical structures obtained by displacing some or all atoms of the original structure by a minute distance may be given as input.
  • a differential value for example, a Hessian matrix
  • thermodynamic quantities for example, enthalpy at any temperature
  • each of the two chemical structures can be a molecule or a component of a polymer.
  • the volume of one of the two chemical structures is preferably 0.125 to 8 times the volume of the other, and the average volume of both is 1 nm 3 or less. It is preferable.
  • the first model has three parallelized paths, but is not limited to this, and may have two or four or more parallelized paths. It may have.
  • FIG. 13 is a diagram showing some non-limiting examples of output variations from the intermediate layer between the input layer and the predetermined intermediate layer described above to the intermediate layer between the predetermined intermediate layer and the output layer. be.
  • multiple intermediate layers may output to one intermediate layer.
  • one intermediate layer may output to multiple intermediate layers.
  • the output may be output from multiple intermediate layers to different intermediate layers.
  • connection between the intermediate layers can be in any form.
  • the intermediate layers between the input layer and the predetermined intermediate layer that are not in a connection relationship may be directly connected to each other so that information can be propagated, or the intermediate layers between the predetermined intermediate layer and the output layer may be connected to each other so that information can be propagated directly. may be connected so that information can be propagated through a more complex network configuration.
  • FIG. 14 is a diagram showing yet another example of the first model.
  • This first model separately obtains other values (features) that cannot be obtained from the input atomic configuration, and inputs them into an input layer parallel to the input layer that inputs the atomic configuration.
  • the network following the input layer corresponding to the feature may include one or more intermediate layers separate from the second model.
  • the first model may have fixed parameters of the second model from the input layer corresponding to the atomic configuration to the predetermined intermediate layer.
  • the first model information output from the input layer corresponding to the atomic configuration and the intermediate layer following the input layer corresponding to the features provided in parallel is propagated in any layer after the predetermined intermediate layer. Good too.
  • the first model can output information other than energy and force from the output layer after integrating the information obtained from the atomic configuration and the information obtained from the feature values.
  • Some non-limiting examples of feature quantities other than atomic composition include information such as temperature, pressure, time, and fraction. Prepare training data for the information you want to obtain when data containing these non-limited feature quantities is input, and optimize parameters related to the layers in the portions indicated as transfer learning and learning in FIG. 14. As a result, it is possible to form a trained model that can infer desired physical property values and the like from various environmental information that can be quantified.
  • a first model is formed that predicts information other than energy and force, including, but not limited to, viscosity and reaction rate constants. becomes possible.
  • FIG. 15 is a flowchart showing the first model training process in the information processing device according to an embodiment.
  • the processing circuit of the information processing device first obtains the parameters of the second model (S100). This parameter may be obtained from a pre-trained model, or may be trained by the same information processing device.
  • the processing circuit acquires information about the layers and interlayers used in the configuration of the first model in the second model.
  • the processing circuit forms a first model based on the parameters obtained from the second model (S102).
  • the processing circuit copies information such as parameters to parts of the first model that are common to the second model, and appropriately arranges additional layers to form the configuration of the first model.
  • the processing circuit trains the first model (S104).
  • the processing circuit trains the first model by, for example, transfer learning.
  • the processing circuit is trained using, for example, atomic data constituting a substance and information to be acquired such as characteristic values in the atomic data as training data.
  • FIG. 16 is a flowchart showing inference processing using the first model in the information processing device according to an embodiment.
  • the processing circuit of the information processing device first obtains atomic information in the substance whose value is desired to be obtained (S200).
  • This atomic data may be graph information.
  • the processing circuit inputs the acquired atomic data into the first model (S202).
  • the processing circuit infers and obtains desired data by forward propagating the data input from the input layer (S204). In this way, a desired quantity can be inferred using the first model.
  • the middle layer of the model that forms the NNP outputs per-atom values and multidimensional quantities (for example, 100 values per atom). This quantity is expected to contain information that expresses the state (for example, bonding state, oxidation number, etc.) of each atom based on the surrounding environment through the function of the neural network.
  • NNP can use data based on physical simulations as training data, making it easy to generate models with excellent generalization performance. Therefore, by using such a model to infer other information, we can expect to obtain highly accurate results. Further, by setting the predetermined intermediate layer to be a layer having the same number of nodes as the input layer and the output layer, it is possible to obtain feature amounts for each atom or each bond constituting the substance. As a result, the feature amount for each atom can be appropriately used to obtain other values.
  • the output of the first model may be, for example, various physical property values such as molecules and environment, optical properties, mechanical properties, or effects on living organisms.
  • the first model may be formed as a model that outputs either HOMO (Highest Occupied Molecular Orbital) energy, LUMO (Lowest Unoccupied Molecular Orbital) energy, ⁇ parameter, or a fingerprint.
  • HOMO Highest Occupied Molecular Orbital
  • LUMO Large Unoccupied Molecular Orbital
  • ⁇ parameter a fingerprint
  • the first model may be formed as a model for clustering and visualization. As a result, it can be used as an indicator of whether a certain molecule belongs to a crystal, whether it resembles a crystal, etc.
  • the configuration may be such that information regarding the substance is output from a layer other than the output layer of the first model.
  • the ⁇ parameter is a dimensionless expression of the energy when two atomic groups come into contact, and calculation methods based on the Monte Carlo method or molecular dynamics method are known, but these calculations are expensive. It's cost. By using the first model formed according to the present disclosure, it is expected that calculation costs can be reduced.
  • the output layer of the model (second model) that forms the NNP may be configured to output at least one of the energy of the system, the energy of the atoms, or the force applied to the atoms.
  • the trained model in the above-described embodiment may be a concept that includes, for example, a model that has been trained as described and further distilled using a general method.
  • model generation method for training and generating a first model using the above-mentioned information processing device is also naturally included in the scope of the present disclosure.
  • the expression that the first model includes layers from the input layer to a predetermined intermediate layer in the second model, and other layers refers to at least one of the following two concepts: Including one.
  • the first model is (1) The layers from the input layer to the predetermined intermediate layer (predetermined layer) in the second model, (2) with other layers;
  • the model must be constructed using transfer learning and then trained using transfer learning with the value of (1) fixed.
  • the first model is (1) The layers from the input layer to the predetermined intermediate layer (predetermined layer) in the second model, (2) with other layers;
  • the model must be trained by fine tuning, which updates the values of (1) and (2) through learning.
  • the case where at least part of the value of (1) is updated is included.
  • values from the input layer to a certain intermediate layer in the second model are fixed, and other parameters in the second model are updated.
  • each device may be configured with hardware, or may be configured with software (programs) executed by a CPU (Central Processing Unit) or GPU (Graphics Processing Unit). ) may consist of information processing.
  • the software that realizes at least some of the functions of each device in the above-described embodiments may be installed on CD-ROM (Compact Disc-Read Only Memory), USB (Universal Serial Bus) memory, etc.
  • Software information processing may be executed by storing the information in a non-transitory storage medium (non-transitory computer-readable medium) such as the following and reading it into a computer. Further, the software may be downloaded via a communication network.
  • all or part of the software processing may be implemented in a circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array), so that the information processing by the software may be executed by hardware. .
  • the storage medium that stores the software may be a removable one such as an optical disk, or a fixed storage medium such as a hard disk or memory. Further, the storage medium may be provided inside the computer (main storage device, auxiliary storage device, etc.) or may be provided outside the computer.
  • FIG. 17 is a block diagram showing an example of the hardware configuration of each device (information processing device) in the embodiment described above.
  • Each device includes, for example, a processor 71, a main storage device 72 (memory), an auxiliary storage device 73 (memory), a network interface 74, and a device interface 75, which are connected via a bus 76. It may also be realized as a computer 7.
  • the computer 7 in FIG. 17 includes one of each component, it may include a plurality of the same components.
  • the software may be installed on multiple computers, and each of the multiple computers may execute the same or different part of the software. Good too. In this case, it may be a form of distributed computing in which each computer communicates via the network interface 74 or the like to execute processing.
  • each device (information processing device) in the embodiments described above may be configured as a system that realizes functions by having one or more computers execute instructions stored in one or more storage devices. good.
  • the information transmitted from the terminal may be processed by one or more computers provided on the cloud, and the processing results may be sent to the terminal.
  • each device information processing device
  • various calculations may be executed in parallel using one or more processors or multiple computers via a network. Further, various calculations may be distributed to a plurality of calculation cores within the processor and executed in parallel. Further, a part or all of the processing, means, etc. of the present disclosure may be realized by at least one of a processor and a storage device provided on a cloud that can communicate with the computer 7 via a network. In this way, each device in the embodiments described above may be in the form of parallel computing using one or more computers.
  • the processor 71 may be an electronic circuit (processing circuit, processing circuit, CPU, GPU, FPGA, ASIC, etc.) that performs at least one of computer control or calculation. Further, the processor 71 may be a general-purpose processor, a dedicated processing circuit designed to execute a specific operation, or a semiconductor device including both a general-purpose processor and a dedicated processing circuit. Furthermore, the processor 71 may include an optical circuit or may include an arithmetic function based on quantum computing.
  • the processor 71 may perform calculation processing based on data and software input from each device in the internal configuration of the computer 7, and may output calculation results and control signals to each device.
  • the processor 71 may control each component constituting the computer 7 by executing the OS (Operating System) of the computer 7, applications, and the like.
  • processor 71 may refer to one or more electronic circuits arranged on one chip, or one or more electronic circuits arranged on two or more chips or two or more devices. You can also point. When using multiple electronic circuits, each electronic circuit may communicate by wire or wirelessly.
  • the main memory device 72 may store instructions and various data to be executed by the processor 71, and the information stored in the main memory device 72 may be read by the processor 71.
  • Auxiliary storage device 73 is a storage device other than main storage device 72. Note that these storage devices are any electronic components capable of storing electronic information, and may be semiconductor memories. Semiconductor memory may be either volatile memory or nonvolatile memory.
  • the storage device for storing various data in each device (information processing device) in the embodiments described above may be realized by the main storage device 72 or the auxiliary storage device 73, and may be realized by the built-in memory built in the processor 71. May be realized.
  • the storage unit in the embodiment described above may be realized by the main storage device 72 or the auxiliary storage device 73.
  • each device (information processing device) in the embodiment described above is composed of at least one storage device (memory) and at least one processor connected (coupled) to this at least one storage device
  • the storage device 1 At least one processor may be connected to each.
  • at least one storage device may be connected to one processor.
  • the configuration may include a configuration in which at least one processor among the plurality of processors is connected to at least one storage device among the plurality of storage devices. Further, this configuration may be realized by a storage device and a processor included in a plurality of computers. Furthermore, it may include a configuration in which the storage device is integrated with the processor (for example, a cache memory including an L1 cache and an L2 cache).
  • the network interface 74 is an interface for connecting to the communication network 8 wirelessly or by wire. As the network interface 74, an appropriate interface such as one that complies with existing communication standards may be used. The network interface 74 may exchange information with the external device 9A connected via the communication network 8.
  • the communication network 8 may be WAN (Wide Area Network), LAN (Local Area Network), PAN (Personal Area Network), etc., or a combination thereof, and may be a communication network between the computer 7 and the external device 9A. Any system that allows information to be exchanged between them is fine. Examples of WAN include the Internet, examples of LAN include IEEE 802.11 and Ethernet (registered trademark), and examples of PAN include Bluetooth (registered trademark) and NFC (Near Field Communication).
  • the device interface 75 is an interface such as USB that connects directly to the external device 9B.
  • the external device 9A is a device connected to the computer 7 via a network.
  • External device 9B is a device directly connected to computer 7.
  • the external device 9A or the external device 9B may be an input device, for example.
  • the input device is, for example, a device such as a camera, a microphone, a motion capture device, various sensors, etc., a keyboard, a mouse, or a touch panel, and provides the acquired information to the computer 7.
  • the device may be a device including an input section, a memory, and a processor, such as a personal computer, a tablet terminal, or a smartphone.
  • the external device 9A or the external device 9B may be an output device, for example.
  • the output device may be, for example, a display device such as an LCD (Liquid Crystal Display) or an organic EL (Electro Luminescence) panel, or may be a speaker that outputs audio or the like.
  • the device may be a device including an output unit, a memory, and a processor, such as a personal computer, a tablet terminal, or a smartphone.
  • the external device 9A or the external device 9B may be a storage device (memory).
  • the external device 9A may be a network storage or the like, and the external device 9B may be a storage such as an HDD.
  • the external device 9A or the external device 9B may be a device that has some of the functions of the components of each device (information processing device) in the embodiments described above.
  • the computer 7 may transmit some or all of the processing results to the external device 9A or 9B, or may receive some or all of the processing results from the external device 9A or 9B. .
  • the expression "at least one of a, b, and c" or "at least one of a, b, or c" (including similar expressions) When used, it includes either a, b, c, a - b, a - c, b - c or a - b - c. Additionally, multiple instances of any element may be included, such as a - a, a - b - b, a - a - b - b - c - c, etc. Furthermore, it also includes adding other elements other than the listed elements (a, b, and c), such as having d, such as a - b - c - d.
  • connection and “coupled” refer to direct connection/coupling and indirect connection/coupling. , including, but not limited to, electrically connected/coupled, communicatively connected/coupled, functionally connected/coupled, physically connected/coupled, etc. intended as a term.
  • the term should be interpreted as appropriate depending on the context in which the term is used, but forms of connection/coupling that are not intentionally or naturally excluded are not included in the term. Should be construed in a limited manner.
  • the expression "A configured to B” when used, it means that the physical structure of element A is capable of performing operation B. configuration, including that the permanent or temporary setting / configuration of element A is configured / set to actually perform action B. good.
  • element A is a general-purpose processor
  • the processor has a hardware configuration that can execute operation B, and can perform operation B by setting a permanent or temporary program (instruction). It only needs to be configured to actually execute.
  • element A is a dedicated processor or a dedicated arithmetic circuit, the circuit structure of the processor is designed to actually execute operation B, regardless of whether control instructions and data are actually attached. It is sufficient if it is implemented.
  • maximum refers to determining the global maximum value, or determining an approximate value of the global maximum value. This term includes determining, determining a local maximum value, and determining an approximation of a local maximum value, and should be interpreted as appropriate depending on the context in which the term is used. It also includes finding approximate values of these maximum values probabilistically or heuristically. Similarly, when terms such as “minimize/minimization” are used, it refers to finding a global minimum, finding an approximation of a global minimum, or finding a local minimum.
  • the term should be interpreted as appropriate depending on the context in which it is used, including determining and approximating a local minimum. It also includes finding approximate values of these minimum values probabilistically or heuristically. Similarly, when terms such as "optimize" are used, they refer to finding a global optimum, finding an approximation of a global optimum, or calculating a local optimum. This term includes determining and approximating a local optimum, and should be interpreted accordingly depending on the context in which the term is used. It also includes finding approximate values of these optimal values probabilistically or heuristically.
  • each piece of hardware when multiple pieces of hardware perform a predetermined process, each piece of hardware may cooperate to perform the predetermined process, or some of the hardware may perform the predetermined process. You may do all of the above. Further, some hardware may perform part of a predetermined process, and another piece of hardware may perform the rest of the predetermined process.
  • expressions such as "one or more hardware performs the first processing, and the one or more hardware performs the second processing" (including similar expressions) are used. If used, the hardware that performs the first process and the hardware that performs the second process may be the same or different. In other words, the hardware that performs the first process and the hardware that performs the second process may be included in the one or more pieces of hardware.
  • the hardware may include an electronic circuit, a device including an electronic circuit, or the like.
  • each storage device among the multiple storage devices may store only part of the data. , the entire data may be stored. Further, a configuration may be included in which some of the plurality of storage devices store data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)

Abstract

[課題]NNP を形成するニューラルネットワークモデルを用いた応用分野について提案する。 [解決手段]情報処理装置は、1 又は複数のメモリと、1 又は複数のプロセッサと、を備える。前記 1 又は複数のプロセッサは、物質の原子に関する情報を第 1 モデルに入力し、前記物質に関する情報を前記第 1 モデルの出力層から取得する。前記 1 モデルは、原子に関する情報を入力とし、少なくともエネルギー又は力のいずれかの値を出力する第 2 モデルにおける入力層から所定層までの層を備え、前記物質に関する情報を出力するように訓練されたモデルである。

Description

情報処理装置、モデル生成方法及び情報処理方法
 本開示は、情報処理装置、モデル生成方法及び情報処理方法に関する。
 量子化学計算等により取得したデータに基づいて、ニューラルネットワークモデルを訓練したものである NNP (Neural Network Potential) は、現在、原子シミュレーションの分野において力場 (エネルギー、力) を求めるために利用され始めている。
国際公開2021/054402号
 本開示は、 NNP を形成するニューラルネットワークモデルを用いた応用分野について提案する。
 一実施形態によれば、情報処理装置は、1 又は複数のメモリと、1 又は複数のプロセッサと、を備える。前記 1 又は複数のプロセッサは、物質の原子に関する情報を第 1 モデルに入力し、前記物質に関する情報を前記第 1 モデルの出力層から取得する。前記 1 モデルは、原子に関する情報を入力とし、少なくともエネルギー又は力のいずれかの値を出力する第 2 モデルにおける入力層から所定層までの層を備え、前記物質に関する情報を出力するように訓練されたモデルである。
一実施形態に係る NNP を形成するモデルの一例を示す図。 一実施形態に係るニューラルネットワークモデルの構成例を示す図。 一実施形態に係るニューラルネットワークモデルの構成例を示す図。 一実施形態に係るニューラルネットワークモデルの構成例を示す図。 一実施形態に係るニューラルネットワークモデルの構成例を示す図。 一実施形態に係るニューラルネットワークモデルの構成例を示す図。 一実施形態に係るニューラルネットワークモデルの構成例を示す図。 一実施形態に係るニューラルネットワークモデルの構成例を示す図。 一実施形態に係るニューラルネットワークモデルの構成例を示す図。 一実施形態に係るニューラルネットワークモデルの構成例を示す図。 一実施形態に係るニューラルネットワークモデルの構成例を示す図。 一実施形態に係るニューラルネットワークモデルの構成例を示す図。 一実施形態に係るニューラルネットワークモデルの構成例を示す図。 一実施形態に係るニューラルネットワークモデルの構成例を示す図。 一実施形態に係る情報処理装置の処理を示すフローチャート。 一実施形態に係る情報処理装置の処理を示すフローチャート。 一実施形態に係る情報処理装置の実装の一例を示す図。
 以下、図面を参照して本発明の実施形態について説明する。図面及び実施形態の説明は一例として示すものであり、本発明を限定するものではない。
 図1は、一実施形態に係る NNP (Neural Network Potential) のネットワークモデル構成の一例を示す図である。 NNP を形成するモデルは、例えば、 MLP (Multi-Layer Perceptron) を用いて構成されてもよい。この MLP は、例えば、グラフを入出力可能なグラフニューラルネットワークであってもよい。以下に示す各モデルの中間層は、グラフニューラルネットワークの一部の層として機能する構成、すなわち、グラフ情報が入出力可能な構成であってもよい。
 図1に示す NNP を形成するモデルは、例えば、量子化学計算の結果取得される原子間相互作用 (エネルギー) を教師データとして訓練されたモデルである。 NNP を形成するモデルは、入力層に物質を構成する原子に関する情報が入力されると、出力層からエネルギーを出力する。
 例えば、 NNP を形成するモデルの入力層のノードは、本実施形態においては物質を構成する原子に対応し、物質の原子に関する情報をノードごとに受け付ける。同様に、 NNP を形成するモデルの出力層は、ノードごとの情報を使い、入力された状態におけるエネルギーを出力する。このエネルギーを逆伝播することで、原子ごとに受ける力を取得することもできる。
 NNP を形成するモデルに入力される原子の情報は、例えば、各原子の種類および位置の情報を内包する情報である。本明細書において、原子の情報を、原子に関する情報と呼ぶことがある。原子の位置の情報としては、例えば、原子の位置を座標によって直接的に示す情報や、原子間の相対位置を直接あるいは間接的に示す情報などが挙げられる。その情報は、例えば、原子間の距離、角度、二面角等によって表現される。
 例えば、原子の座標の情報から、2つの原子の間の距離や、3つの原子の間の角度の情報を計算し、これらを原子の位置の情報として NNP を形成するモデルへの入力に用いることで、回転・平行移動に対する不変性を担保することができ、 NNP の精度を高めることができる。例えば、原子の情報は、位置を直接的に示す情報であっても、その位置情報から計算された情報であってもよい。また、原子の情報は、原子の種類および位置の情報の他、電荷に関する情報や結合に関する情報を含んでもよい。
 一般的にニューラルネットワークモデルは、入力された情報から、出力される情報へと層ごとに徐々に情報が更新される。このため、 NNP を形成するモデルにおける任意の中間層からの出力は、原子の情報と、エネルギーの情報とを接続する特徴を有する量であることが考えられる。
 本実施形態では、 NNP を形成するモデルにおける中間層からの出力を用いて物質の性質を推論可能なニューラルネットワークモデルを形成する。
 モデルの訓練を実行する情報処理装置の処理回路は、図1に示す NNP を形成するモデルの出力層からの出力を別の特徴量に変更して訓練を実行してもよい。処理回路は、あらかじめ NNP を形成するモデルとして訓練されたモデルを用いるか、又は、新たに NNP を構成するニューラルネットワークモデルを形成して訓練をする。
 図2は、本実施形態に係るモデル形成の限定されない一例を示す図である。本実施形態の情報処理装置は、図1に示す NNP を形成するモデル (以下、第 2 モデルと記載する) の所定の中間層までを有するモデルを用いて種々の物性値を取得する。このモデルは、 NNP を介して取得できる情報 (エネルギー、力) とは異なる物性値を出力するモデル (以下、第 1 モデルと記載する) であってもよい。本開示では、主としてこの第 1 モデルの構成等について説明する。
 一般的に第 2 モデルの各層は、原子の個数のノードを有する。すなわち、第 2 モデルは、入力層から出力層にわたり、同じ原子の個数のノードを有する。このため、いずれの中間層における出力も、原子ごとに対応した何らかの特徴量が出力されていると仮定することができる。本開示では、主に、第 2 モデルの中間層からの出力を用いて、別の特性を出力するネットワークと接続し、さらに訓練することで、当該別の特性を推論するモデルを得る。
 図3は、図1から図2における第 1 モデルの生成の一例について、概略を示す図である。この図3に示すように、第 1 モデルは、第 2 モデルの入力層から所定中間層までをコピーし、出力層を新たに接続することで、第 2 モデルと異なる情報を出力することができる。この場合、所定中間層と出力層との接続を示すパラメータを適切な教師データを用いて訓練 (転移学習) することで、望ましい物性値を取得するニューラルネットワークモデルを生成することができる。なお、図3においては、所定中間層は第 2 モデルの出力層の直前の層である。
 図3の構成では中間層が 2 層の構成であるが、これに限定されるものではない。例えば、第 2 モデルは、所定中間層までに複数の層を有していてもよいし、入力層の次の層が所定中間層であってもよい。第 1 モデルは、適切に第 2 モデルの入力層から所定中間層までのパラメータをコピーして、転移学習により最適化(訓練)することができる。
 なお、第 1 モデルは、第 2 モデルの所定中間層に接続された出力層を別途備えることに限定されず、第 2 モデルの所定中間層が第 1 モデルの出力層となる構成であってもよい。
 本実施形態では、第 1 モデルと第 2 モデルは異なる情報を出力する、すなわち、第 1 モデルはエネルギーや力以外の情報を出力するものとしたが、これに限定されるものではない。限定されない別の例として、第 1 モデルは、第 2 モデルと同種の出力を行うものであってもよい。処理回路は、第 1 モデルを利用することで、例えば、第 2 モデルの出力層から出力するよりも計算コストを低減したモデルを用いて、第 2 モデルと同一の物性値 (実質的に同一の物性値) 又は類似する物性値を取得すること等が期待される。
 また、第 1 モデルと第 2 モデルは異なる種類のエネルギーや力を出力するものであってもよい。例えば、第 2 モデルである NNP を形成するモデルが「全エネルギー」を出力する場合、第 1 モデルは、例えば、吸着エネルギー又は活性化エネルギーといった物性値を推論してもよい。
 図4は、第 1 モデル生成の別の例を示す図である。この図に示すように、第 1 モデルは、所定中間層と出力層との間に、さらに中間層を備える構成である。このように、第 1 モデルは、所定中間層から出力層に直接的に情報が伝播されるのではなく、異なる第 2 の中間層を備えてもよい。これにより、所定中間層から出力される特徴量に対してより複雑な演算を実行することができ、推論する対象によっては、図3と比較してよい結果が取得できる可能性がある。
 なお、図 4 に示す第 1 モデルでは、所定中間層と第 1 モデルの出力層との間が 1 層の中間層で示されているが、これに限定されるものではない。第 1 モデルは、所定中間層と出力層との間に複数の中間層が備えられる構成であってもよい。
 図5は、第 1 モデル生成の別の例を示す図である。この図に示すように、第 1 モデルは、所定中間層の他の中間層からも直接的に情報が伝播される構成であってもよい。この場合も、第 1 モデルの入力層から所定中間層までのパラメータは、第 2 モデルの入力層から所定中間層までのパラメータと同一のものであってもよい。
 また、直接的に情報が伝播されるのは、中間層からでなくともよい。例えば、入力層から出力層へと直接的に情報が伝播される形態であってもよい。
 図6は、第 1 モデル生成の別の例を示す図である。この図に示すように、第 1 モデルは、所定中間層と出力層との間に 1 又は複数の中間層を有してもよい。所定中間層以外の中間層から、所定中間層よりも後の中間層に直接的に情報が伝播される構成としてもよい。また、上記と同様に、中間層からではなく、入力層から所定中間層よりも後の中間層に直接的に情報が伝播される構成としてもよい。
 所定中間層と出力層との間に複数の中間層がある場合には、所定中間層よりも前の中間層から所定中間層よりも後の少なくとも 1 つの中間層に直接的に情報が伝播される構成であってもよい。また、所定中間層から、所定中間層よりも後の複数の中間層へと直接的に情報が伝播される構成であってもよい。さらに、所定中間層よりも後に複数の中間層がある構成において、図5のように、所定中間層よりも前にある中間層から出力層へと直接的に情報が伝播される構成であってもよい。
 上記と同様に、第 1 モデルにおいて、入力層と所定中間層との間にある中間層 (所定中間層よりも前の中間層) の数及び所定中間層と出力層との間にある中間層 (所定中間層よりも後の中間層) の数は、任意である。このため、図6における中間層から中間層への情報の伝播は、任意の 1 又は複数の所定中間層よりも前の中間層から、任意の 1 又は複数の所定中間層よりも後の中間層への情報の伝播であってもよい。
 図7は、第 1 モデル生成の別の例を示す図である。この図に示すように、所定中間層は、第 2 モデルにおける出力層の直前の層でなくてもよい。さらにこの場合、第 1 モデルの構成を図4から図6に示される構成としてもよい。すなわち、第 1 モデルは、所定中間層と出力層との間に 1 又は複数の中間層を備えてもよいし、所定中間層よりも前の中間層から、所定中間層よりも後の中間層又は出力層へと直接的に情報が伝播できる構成であってもよい。
 図8は、第 1 モデル生成の別の例を示す図である。第 1 モデルは、第 2 モデルの出力層を所定中間層として形成されてもよい。この場合、所定中間層からは、第 2 モデルと同じくエネルギーの値が出力される。この出力に対して望ましい情報に変換されるように、所定中間層と出力層との間を訓練してもよい。
 また、点線で示されるように、第 1 モデルの所定中間層よりも前の中間層から、出力層へと情報を伝播させてもよい。さらに、これらの例に限られず、図4に示すように所定中間層よりも後に中間層が配置されてもよいし、図6に示すように、所定中間層よりも前の中間層から、所定中間層よりも後の中間層へと直接的に情報が伝播される形態であってもよい。
 図3から図8においては、いくつかの例を挙げたが、これに限定されるものではない。例えば、入力層から所定中間層までの間の層において、次元圧縮又は次元拡張をする層が存在していてもよい。
 入力層及び出力層が原子と同じ数のノード数を備える場合、所定中間層が入力層及び出力層と同じノード数を備えることで、各ノードから原子ごとのデータを出力することができるため好ましいが、これに限定されるものではない。例えば、所定中間層がノードの圧縮又はノードの拡張 (言い換えると、次元圧縮又は次元拡張) をしている層であってもよい。
 また、中間層の配置は、種々考えられるが、コピーした箇所のパラメータを固定した上で、入力層、任意の中間層、又は、出力層の間において情報が伝播可能な接続を有してもよい。
 さらに、上記では、第 1 モデルにおける入力層から所定中間層までのパラメータが第 2 モデルにおける入力層から所定中間層までのパラメータと同一のものであるとしたが、これには限られない。すなわち、第 1 モデルは、 NNP を形成するモデルで取得したパラメータを用いて異なる出力をするようにファインチューニングされたモデルであってもよい。
 さらに、第 1 モデルとして、所定中間層以下に形成されるモデルは、ニューラルネットワークモデルに限定されるものではない。例えば、ランダムフォレスト等の他の機械学習モデルを所定中間層に接続させてもよい。また、第 1 モデルは、 MLP に構成する層及びパラメータに限定されず、他の形式のニューラルネットワークモデルの層及びパラメータを備えてもよい。
 図9は、第 1 モデルのさらに別の例を示す図である。図3から図8のモデルの構成には、バイアス入力が示されていないが、この図9に示すように適切にバイアス入力をしてもよい。例えば、第 1 モデルは、所定中間層の出力に対してバイアス入力を適用して推論を行ってもよい。
 図10は、第 1 モデルのさらに別の例を示す図である。第 2 モデルは、入力される原子構成に対して、別の値 (特徴量) を別途取得しておき、この別途取得した値と、所定中間層との値を用いて、転移学習、ファインチューニングをしたモデルを第 1 モデルとして最適化してもよい。一例として、入力された原子の情報から取得されるフィンガープリントに対して、所定中間層の値を重み付け加算して推論するモデルを第 1 モデルとしてもよい。
 特徴量は、上述したフィンガープリントのように、すでに定義されている特徴量を所定のアルゴリズムに基づいて取得されるものであってもよい。別の例として、この特徴量の算出に、入力層の入力に対して他のニューラルネットワークを形成してもよい。この場合、この他のニューラルネットワークもまた、転移学習の一部として訓練されたものであってもよい。
 図11は、図10の別の例を示す図である。第 1 モデルの所定中間層以降の中間層に第 1 モデルの入力層に入力する原子に関する情報において別途取得できている特徴量を入力できる形態としてもよい。また、特徴量を、入力する原子に関する情報から取得するニューラルネットワークモデルを別途形成し、このニューラルネットワークの出力を所定中間層以降の中間層に入力する形態であってもよい。
 図12は、第 1 モデルのさらに別の例を示す図である。入力される原子構成に対して複数の化学構造に関する情報について並列した中間層に対する入力情報としたものである。例えば、第 1 モデルは、第 2 モデルから取得した入力層から所定中間層までのパラメータを用いた複数 (図12においては、 3 つ) の分岐をして並列し、その後にそれぞれの分岐から出力されるデータを統合して出力するモデルである。
 なお、図12に示す破線矢印は、任意に設定できる重み付けパラメータである。例えば、第 1 モデルは、並列に設けられるネットワーク構造において所定中間層以降の中間層において、相互に出力を伝播する形態としてもよい。この破線矢印は、必須の構成ではなく、破線矢印で示される接続は、第 1 モデル内に存在しなくてもよい。
 この破線矢印を省いた場合は、第 1 モデルは、複数の化学構造に関する中間層において、データが互いに並列に伝播される。図12に示す破線矢印は、ある化学構造から得られる情報を、他の化学構造を処理する中間層に入力することを表している。この場合、複数の化学構造に関する中間層の繋がりは、直列の接続関係を含む。例えば、複数の化学構造が化学反応に従う構造変化に対応する場合、この第 1 モデルに示されるように化学構造間で情報を流すことは、当該化学反応の容易さの推定に有用である。
 なお、破線矢印の接続が存在する場合であっても、第 1 モデルにおいて全ての破線矢印で示される伝播が同時に実装される必要は無い。図12における第 1 モデルは、破線矢印で示したうち、少なくとも 1 つの並列する伝播経路における破線矢印のデータの入出力があることを排除するものではない。
 なお、ここで記載した並列及び直列とは、以下の通りである。図12における左の入力層→中間層→所定中間層→中間層→中間層と、真ん中の列又は右の列の同構造における実線矢印での接続を並列した伝播経路と称する。一方で、左の中間層から真ん中の中間層への破線矢印、又は、真ん中の中間層から左の中間層への破線矢印を、直列の接続と称する。真ん中の経路と、右の経路についても同様である。また、左の経路と右の経路とが直列に接続される場合もある。
 この入力層からの並列する経路への分岐は、例えば、入力層に入力された情報を、そのまま中間層に出力する分岐と、 1 又は複数の微小な変化を与えて出力する分岐と、を備える。微小な変化は、例えば、グラフにおける原子の位置、構造等における微小な変化に対応する変化であってもよい。
 第 1 モデルは、所定中間層までにおいては、第 2 モデルから取得されたパラメータを固定して用いてもよい。
 第 1 モデルにおける並列した各モデルから出力される情報は、それぞれの分岐における所定中間層よりも後において、出力を統合する中間層を介して出力層から出力される。第 1 モデルは、所定中間層と、この出力を統合する中間層との間に、さらにそれぞれの出力を調整するための中間層を図12に示すように分岐におけるそれぞれの経路に備えてもよい。
 前述において図11までで説明した転移学習等により、統合する処理以降の中間層と出力層に関連するパラメータが、転移学習等によりチューニングされる。また、点線の括弧で示すように、所定中間層と、微小変化させた構造のそれぞれの出力を統合する中間層との間にさらに中間層を備える場合には、この統合する前の中間層に関するパラメータのチューニングをしておいてもよい。
 複数の化学構造及び予測される情報としては、以下を例示することができるが、本開示における実施形態は、これらに限定されるものではない。
 例えば、元構造のうち、一部又は全部の原子を微小距離変位させて得られる複数の化学構造に関する情報を入力として与えてもよい。当該入力により、元構造の原子核座標に関する微分値 (例えばヘッセ行列) を取得してもよい。また、この微分値から計算することができる熱力学的諸量 (例えば、任意温度でのエンタルピー) を予測することができる。
 さらに、相異なる 2 つの化学構造を入力として与えてもよい。当該入力により、それら 2 つの化学構造の構造間の反親和性を示すパラメータである χ パラメータを予測することも可能である。χ パラメータを予測する場合、2つの化学構造のそれぞれは、分子であっても、ポリマーの構成要素であってもよい。また、 χ パラメータを精度よく予測するためには、 2 つの化学構造の一方の体積は、他方の体積の 0.125 倍以上 8 倍以下であることが好ましく、また両者の平均体積は 1nm3 以下であることが好ましい。
 なお、図12及び上記の説明においては、第 1 モデルは、 3 つの並列化された経路を有するが、これに限定されるものではなく、 2 つ、又は、 4 つ以上の並列化された経路を有してもよい。
 図13は、上述した入力層と所定中間層との間にある中間層から、所定中間層と出力層との間にある中間層への出力のバリエーションの限定されないいくつかの例を示す図である。
 左側に実線の矢印で示すように、複数の中間層から、1つの中間層に出力されてもよい。
 点線の矢印で示すように、1つの中間層から、複数の中間層に出力されてもよい。
 破線又は一点鎖線の矢印で示すように、複数の中間層から、異なる複数の中間層に出力されてもよい。
 これらは一例として示したものであり、上述したように、中間層同士の接続は、任意の形態とすることができる。例えば、第 2 モデルでは接続関係にない入力層と所定中間層の間の中間層同士を直接的に情報が伝播可能に接続してもよいし、所定中間層と出力層の間の中間層同士をさらに複雑なネットワーク構成を介して情報が伝播可能に接続してもよい。
 図14は、第 1 モデルのさらに別の例を示す図である。この第 1 モデルは、入力される原子構成からは得られない、別の値 (特徴量) を別途取得し、原子構成を入力する入力層とは別の並列した入力層に入力する。特徴量に対応する入力層から続くネットワークは、第 2 モデルとは別の 1 又は複数の中間層を備えてもよい。
 前述した各形態と同様に、第 1 モデルは、原子構成に対応する入力層から所定中間層までは、固定された第 2 モデルのパラメータを有してもよい。
 第 1 モデルは、原子構成に対応する入力層から所定中間層よりも後の任意の層において、並列して備えられる特徴量に対応する入力層から続く中間層から出力される情報が伝播されてもよい。第 1 モデルは、原子構成から取得した情報と特徴量から取得した情報とを統合した後に、出力層からエネルギー、力以外の情報を出力することができる。
 原子構成以外の特徴量は、限定されないいくつかの例として、温度、圧力、時間、分率等の情報が挙げられる。これらの限定されない特徴量を入力したデータを入力した場合に取得したい情報についての教師データ準備し、図14に転移学習及び学習と示される箇所における層に関連するパラメータを最適化する。この結果、数値化が可能な各種環境情報に対して、取得したい物性値等が推論できる訓練済みモデルを形成することができる。
 原子構成以外の特徴量を入力層に入力することを可能とすることで、エネルギー、力以外の情報として、限定されない例として、粘度、反応速度定数等の予測をする第 1 モデルを形成することが可能となる。
 図15は、一実施形態に係る情報処理装置における第 1 モデルの訓練の処理を示すフローチャートである。
 情報処理装置の処理回路は、まず、第 2 モデルのパラメータを取得する (S100) 。このパラメータは、あらかじめ訓練されたモデルから取得してもよいし、同じ情報処理装置により訓練されたものであってもよい。処理回路は、第 2 モデルのうち、特に、第 1 モデルの構成に用いる層及び層間についての情報を取得する。
 次に、処理回路は、第 2 モデルから取得したパラメータに基づいて、第 1 モデルを形成する (S102) 。処理回路は、第 1 モデルのうち、第 2 モデルと共通する箇所にパラメータ等の情報をコピーし、追加の層を適切に配置して第 1 モデルの構成を形成する。
 次に、処理回路は、第 1 モデルを訓練する (S104) 。処理回路は、例えば、転移学習により、第 1 モデルを訓練する。処理回路は、例えば、物質を構成する原子データと、当該原子データにおける特性値等の取得したい情報を教師データとして用いて訓練する。
 適切に訓練が終了した後、パラメータ等を出力して処理を終了する。
 図16は、一実施形態に係る情報処理装置における第 1 モデルを用いた推論の処理を示すフローチャートである。
 情報処理装置の処理回路は、まず、値を取得したい物質における原子情報を取得する (S200) 。この原子データは、グラフ情報であってもよい。
 処理回路は、取得した原子データを第 1 モデルに入力する (S202) 。処理回路は、入力層から入力されたデータを順伝播することで、所望のデータを推論して取得する (S204) 。このように、第 1 モデルを用いて所望の量を推論することができる。
 以上のように、本実施形態によれば、 NNP を形成するモデルを用いて転移学習をすることで、原子や物質に関する多様な、精度の高い他の情報を取得することが可能になる。
 NNP を形成するモデルの中間層は、原子ごとの値で、かつ多次元の量 (例えば、原子ごとに 100 個の値など) を出力する。この量は、 ニューラルネットワークの機能によって、原子ごとの周辺環境に基づく状態 (例えば、結合状態、酸化数等) を表現する情報を持っていることが期待される。
 また、 NNP は、物理シミュレーションに基づくデータを訓練用データとして利用可能であり、汎化性能に優れたモデルを生成しやすいという特徴がある。そのため、このようなモデルを他の情報の推論に利用することで、精度の高い結果を得ることが期待できる。また、所定中間層として入力層及び出力層のノード数と同じノード数を有する層とすることで、物質を構成する原子ごと或いは結合ごとに対する特徴量を取得することができる。この結果、原子ごとの特徴量を他の値を取得するために適切に流用することができる。
 NNP を形成するモデルから取得できるエネルギーには、物理的に明確な定義がある。このため、高精度に計算、例えば、理論値を計算することができる。一般に原子、分子等を扱う場合には、電荷等の量を定義する必要があるが、このような量は、明確に定義することが困難である。また、エネルギーは、示量性があり、重ね合わせ等をすることができる。このため、 NNP を形成するモデルの出力層に近い中間層、例えば、第 2 モデルの直前の中間層では、それぞれのノードにそれぞれの原子に関する情報が適切に含まれていると期待できる。このため、本開示によるモデルによれば、このような中間層からの出力を利用して、種々の物体または原子に関するデータ等を適切に得ることが期待できる。なお、中間層に含まれる情報は原子ごとの情報の他、結合や特定の原子に紐づかない物質に関する情報を有することもある。
 第 1 モデルの出力としては、例えば、分子・環境等の種々の物性値、光学物性、機械特性、又は、生物への影響等であってもよい。代表例としては、 HOMO (Highest Occupied Molecular Orbital) エネルギー、 LUMO (Lowest Unoccupied Molecular Orbital) エネルギー、 χ パラメータ又はフィンガープリントのいずれかを出力するモデルとして第 1 モデルを形成してもよい。この結果、物質の溶解度、 pH の推論をすることもできる。別の例として、クラスタリング、可視化を行うモデルとして第 1 モデルを形成してもよい。この結果、ある分子が結晶に属しているかどうか、結晶に類似するか否か、等の指標に用いることが考えられる。また、第 1 モデルの出力層以外の層から物質に関する情報を出力するように構成してもよい。
  χ パラメータは、二つの原子団が接した場合のエネルギーを無次元化して表現したものであり、モンテカルロ法または分子動力学法等に基づいて計算する方法が知られているが、その計算は高コストである。本開示により形成された第 1 モデルを用いることにより計算コストを抑えることが期待できる。
 なお、前述の実施形態において、 NNP を形成するモデル (第2モデル) の出力層は、少なくとも、系のエネルギー、原子のエネルギー又は原子にかかる力のいずれかを出力する構成であってもよい。
 前述の実施形態における訓練済モデルは、例えば、説明したように訓練した上で、さらに、一般的な手法により蒸留されたモデルを含む概念であってもよい。
 また、前述の情報処理装置を用いて第 1 モデルを訓練し、生成するモデル生成方法も当然に本開示の範囲に含まれる。
 上記の説明をまとめると、本開示において、第 1 モデルが第 2 モデルにおける入力層から所定中間層までの層と、他の層とを備える、という表現は、少なくとも以下の 2 つの概念のうち 1 つを含む。
[1]
 第 1 モデルが、
  (1) 第 2 モデルにおける入力層から所定中間層 (所定層) までの層と、 
  (2) 他の層と、
 で構成された後、 (1) の値を固定した転移学習により訓練されたモデルであること。
[2]
 第 1 モデルが、
  (1) 第 2 モデルにおける入力層から所定中間層 (所定層) までの層と、
  (2) 他の層と、
 で構成された後、 (1) 及び (2) の値を学習により更新するファインチューニングにより訓練されたモデルであること。ここで、 (1) の値の少なくとも一部を更新する場合を含む。例えば、第 2 モデルにおける入力層からある中間層までの値は固定し、第 2 モデルにおける他のパラメータは更新する場合を含む。
 前述した実施形態における各装置 (情報処理装置) の一部又は全部は、ハードウェアで構成されていてもよいし、 CPU (Central Processing Unit) 又は GPU (Graphics Processing Unit) 等が実行するソフトウェア (プログラム) の情報処理で構成されてもよい。ソフトウェアの情報処理で構成される場合には、前述した実施形態における各装置の少なくとも一部の機能を実現するソフトウェアを、 CD-ROM (Compact Disc-Read Only Memory) 、 USB (Universal Serial Bus) メモリ等の非一時的な記憶媒体 (非一時的なコンピュータ可読媒体) に収納し、コンピュータに読み込ませることにより、ソフトウェアの情報処理を実行してもよい。また、通信ネットワークを介して当該ソフトウェアがダウンロードされてもよい。さらに、ソフトウェアの処理の全部又は一部が ASIC (Application Specific Integrated Circuit) 又は FPGA (Field Programmable Gate Array) 等の回路に実装されることにより、当該ソフトウェアによる情報処理がハードウェアにより実行されてもよい。
 ソフトウェアを収納する記憶媒体は、光ディスク等の着脱可能なものでもよいし、ハードディスク又はメモリ等の固定型の記憶媒体であってもよい。また、記憶媒体は、コンピュータ内部に備えられてもよいし (主記憶装置または補助記憶装置等) 、コンピュータ外部に備えられてもよい。
 図17は、前述した実施形態における各装置 (情報処理装置) のハードウェア構成の一例を示すブロック図である。各装置は、一例として、プロセッサ71と、主記憶装置72 (メモリ) と、補助記憶装置73 (メモリ) と、ネットワークインタフェース74と、デバイスインタフェース75と、を備え、これらがバス76を介して接続されたコンピュータ7として実現されてもよい。
 図17のコンピュータ7は、各構成要素を一つ備えているが、同じ構成要素を複数備えていてもよい。また、図17では、1台のコンピュータ7が示されているが、ソフトウェアが複数台のコンピュータにインストールされて、当該複数台のコンピュータそれぞれがソフトウェアの同一の又は異なる一部の処理を実行してもよい。この場合、コンピュータそれぞれがネットワークインタフェース74等を介して通信して処理を実行する分散コンピューティングの形態であってもよい。つまり、前述した実施形態における各装置 (情報処理装置) は、1又は複数の記憶装置に記憶された命令を1台又は複数台のコンピュータが実行することで機能を実現するシステムとして構成されてもよい。また、端末から送信された情報をクラウド上に設けられた1台又は複数台のコンピュータで処理し、この処理結果を端末に送信するような構成であってもよい。
 前述した実施形態における各装置 (情報処理装置) の各種演算は、1又は複数のプロセッサを用いて、又は、ネットワークを介した複数台のコンピュータを用いて、並列処理で実行されてもよい。また、各種演算が、プロセッサ内に複数ある演算コアに振り分けられて、並列処理で実行されてもよい。また、本開示の処理、手段等の一部又は全部は、ネットワークを介してコンピュータ7と通信可能なクラウド上に設けられたプロセッサ及び記憶装置の少なくとも一方により実現されてもよい。このように、前述した実施形態における各装置は、1台又は複数台のコンピュータによる並列コンピューティングの形態であってもよい。
 プロセッサ71は、少なくともコンピュータの制御又は演算のいずれかを行う電子回路 (処理回路、 Processing circuit 、 Processing circuitry 、 CPU 、 GPU 、 FPGA 、 ASIC 等) であってもよい。また、プロセッサ71は、汎用プロセッサ、特定の演算を実行するために設計された専用の処理回路又は汎用プロセッサと専用の処理回路との両方を含む半導体装置等のいずれであってもよい。また、プロセッサ71は、光回路を含むものであってもよいし、量子コンピューティングに基づく演算機能を含むものであってもよい。
 プロセッサ71は、コンピュータ7の内部構成の各装置等から入力されたデータやソフトウェアに基づいて演算処理を行ってもよく、演算結果や制御信号を各装置等に出力してもよい。プロセッサ71は、コンピュータ7の OS (Operating System) や、アプリケーション等を実行することにより、コンピュータ7を構成する各構成要素を制御してもよい。
 前述した実施形態における各装置 (情報処理装置) は、1又は複数のプロセッサ71により実現されてもよい。ここで、プロセッサ71は、1チップ上に配置された1又は複数の電子回路を指してもよいし、2つ以上のチップあるいは2つ以上のデバイス上に配置された1又は複数の電子回路を指してもよい。複数の電子回路を用いる場合、各電子回路は有線又は無線により通信してもよい。
 主記憶装置72は、プロセッサ71が実行する命令及び各種データ等を記憶してもよく、主記憶装置72に記憶された情報がプロセッサ71により読み出されてもよい。補助記憶装置73は、主記憶装置72以外の記憶装置である。なお、これらの記憶装置は、電子情報を格納可能な任意の電子部品を意味するものとし、半導体のメモリでもよい。半導体のメモリは、揮発性メモリ又は不揮発性メモリのいずれでもよい。前述した実施形態における各装置 (情報処理装置) において各種データ等を保存するための記憶装置は、主記憶装置72又は補助記憶装置73により実現されてもよく、プロセッサ71に内蔵される内蔵メモリにより実現されてもよい。例えば、前述した実施形態における記憶部は、主記憶装置72又は補助記憶装置73により実現されてもよい。
 前述した実施形態における各装置 (情報処理装置) が、少なくとも1つの記憶装置 (メモリ) と、この少なくとも1つの記憶装置に接続 (結合) される少なくとも1つのプロセッサで構成される場合、記憶装置1つに対して、少なくとも1つのプロセッサが接続されてもよい。また、プロセッサ1つに対して、少なくとも1つの記憶装置が接続されてもよい。また、複数のプロセッサのうち少なくとも1つのプロセッサが、複数の記憶装置のうち少なくとも1つの記憶装置に接続される構成を含んでもよい。また、複数台のコンピュータに含まれる記憶装置とプロセッサによって、この構成が実現されてもよい。さらに、記憶装置がプロセッサと一体になっている構成 (例えば、 L1 キャッシュ、 L2 キャッシュを含むキャッシュメモリ) を含んでもよい。
 ネットワークインタフェース74は、無線又は有線により、通信ネットワーク8に接続するためのインタフェースである。ネットワークインタフェース74は、既存の通信規格に適合したもの等、適切なインタフェースを用いればよい。ネットワークインタフェース74により、通信ネットワーク8を介して接続された外部装置9Aと情報のやり取りが行われてもよい。なお、通信ネットワーク8は、 WAN (Wide Area Network) 、 LAN (Local Area Network) 、 PAN (Personal Area Network) 等のいずれか、又は、それらの組み合わせであってよく、コンピュータ7と外部装置9Aとの間で情報のやりとりが行われるものであればよい。 WAN の一例としてインターネット等があり、 LAN の一例として IEEE 802.11 やイーサネット (登録商標) 等があり、 PAN の一例として Bluetooth (登録商標) や NFC (Near Field Communication) 等がある。
 デバイスインタフェース75は、外部装置9Bと直接接続する USB 等のインタフェースである。
 外部装置9Aは、コンピュータ7とネットワークを介して接続されている装置である。外部装置9Bは、コンピュータ7と直接接続されている装置である。
 外部装置9A又は外部装置9Bは、一例として、入力装置であってもよい。入力装置は、例えば、カメラ、マイクロフォン、モーションキャプチャ、各種センサ等、キーボード、マウス又はタッチパネル等のデバイスであり、取得した情報をコンピュータ7に与える。また、パーソナルコンピュータ、タブレット端末又はスマートフォン等の入力部とメモリとプロセッサを備えるデバイスであってもよい。
 また、外部装置9A又は外部装置9Bは、一例として、出力装置でもよい。出力装置は、例えば、 LCD (Liquid Crystal Display) 、有機 EL (Electro Luminescence) パネル等の表示装置であってもよいし、音声等を出力するスピーカ等であってもよい。また、パーソナルコンピュータ、タブレット端末又はスマートフォン等の出力部とメモリとプロセッサを備えるデバイスであってもよい。
 また、外部装置9A又は外部装置9Bは、記憶装置 (メモリ) であってもよい。例えば、外部装置9Aは、ネットワークストレージ等であってもよく、外部装置9Bは、 HDD 等のストレージであってもよい。
 また、外部装置9A又は外部装置9Bは、前述した実施形態における各装置 (情報処理装置) の構成要素の一部の機能を有する装置でもよい。つまり、コンピュータ7は、外部装置9A又は外部装置9Bに処理結果の一部又は全部を送信してもよいし、外部装置9A又は外部装置9Bから処理結果の一部又は全部を受信してもよい。
 本明細書 (請求項を含む) において、「a 、b 及び c の少なくとも1つ (一方) 」又は「a 、b 又は c の少なくとも1つ (一方) 」の表現 (同様な表現を含む) が用いられる場合は、a、b、c、a - b、a - c、b - c 又は a - b - c のいずれかを含む。また、a - a、a - b - b、a - a - b - b - c - c 等のように、いずれかの要素について複数のインスタンスを含んでもよい。さらに、a - b - c - d のように d を有する等、列挙された要素 (a 、b 及び c) 以外の他の要素を加えることも含む。
 本明細書 (請求項を含む) において、「データを入力として/を用いて/データに基づいて/に従って/に応じて」等の表現(同様な表現を含む)が用いられる場合は、特に断りがない場合、データそのものを用いる場合や、データに何らかの処理を行ったもの (例えば、ノイズ加算したもの、正規化したもの、データから抽出した特徴量、データの中間表現等) を用いる場合を含む。また、「データを入力として/を用いて/データに基づいて/に従って/に応じて」何らかの結果が得られる旨が記載されている場合 (同様な表現を含む) 、特に断りが無い場合、当該データのみに基づいて当該結果が得られる場合や、当該データ以外の他のデータ、要因、条件及び/又は状態等にも影響を受けて当該結果が得られる場合を含む。また、「データを出力する」旨が記載されている場合 (同様な表現を含む) 、特に断りがない場合、データそのものを出力として用いる場合や、データに何らかの処理を行ったもの (例えば、ノイズ加算したもの、正規化したもの、データから抽出した特徴量、データの中間表現等) を出力として用いる場合を含む。
 本明細書 (請求項を含む) において、「接続される (connected) 」及び「結合される (coupled) 」との用語が用いられる場合は、直接的な接続/結合、間接的な接続/結合、電気的 (electrically) な接続/結合、通信的 (communicatively) な接続/結合、機能的 (operatively) な接続/結合、物理的 (physically) な接続/結合等のいずれをも含む非限定的な用語として意図される。当該用語は、当該用語が用いられた文脈に応じて適宜解釈されるべきであるが、意図的に或いは当然に排除されるのではない接続/結合形態は、当該用語に含まれるものして非限定的に解釈されるべきである。
 本明細書 (請求項を含む) において、「AがBするよう構成される (A configured to B) 」との表現が用いられる場合は、要素Aの物理的構造が、動作Bを実行可能な構成を有するとともに、要素Aの恒常的 (permanent) 又は一時的 (temporary) な設定 (setting / configuration) が、動作Bを実際に実行するように設定 (configured / set) されていることを含んでよい。例えば、要素Aが汎用プロセッサである場合、当該プロセッサが動作Bを実行可能なハードウェア構成を有するとともに、恒常的 (permanent) 又は一時的 (temporary) なプログラム (命令) の設定により、動作Bを実際に実行するように設定 (configured) されていればよい。また、要素Aが専用プロセッサ又は専用演算回路等である場合、制御用命令及びデータが実際に付属しているか否かとは無関係に、当該プロセッサの回路的構造等が動作Bを実際に実行するように構築 (implemented) されていればよい。
 本明細書 (請求項を含む) において、含有又は所有を意味する用語 (例えば、「含む (comprising / including) 」及び「有する (having) 」等) が用いられる場合は、当該用語の目的語により示される対象物以外の物を含有又は所有する場合を含む、 open-ended な用語として意図される。これらの含有又は所有を意味する用語の目的語が数量を指定しない又は単数を示唆する表現 (a 又は an を冠詞とする表現) である場合は、当該表現は特定の数に限定されないものとして解釈されるべきである。
 本明細書 (請求項を含む) において、ある箇所において「1つ又は複数 (one or more) 」又は「少なくとも1つ (at least one) 」等の表現が用いられ、他の箇所において数量を指定しない又は単数を示唆する表現 (a 又は an を冠詞とする表現) が用いられているとしても、後者の表現が「1つ」を意味することを意図しない。一般に、数量を指定しない又は単数を示唆する表現 (a 又は an を冠詞とする表現) は、必ずしも特定の数に限定されないものとして解釈されるべきである。
 本明細書において、ある実施形態の有する特定の構成について特定の効果 (advantage / result) が得られる旨が記載されている場合、別段の理由がない限り、当該構成を有する他の1つ又は複数の実施形態についても当該効果が得られると理解されるべきである。但し、当該効果の有無は、一般に種々の要因、条件及び/又は状態等に依存し、当該構成により必ず当該効果が得られるものではないと理解されるべきである。当該効果は、種々の要因、条件及び/又は状態等が満たされたときに実施形態に記載の当該構成により得られるものに過ぎず、当該構成又は類似の構成を規定したクレームに係る発明において、当該効果が必ずしも得られるものではない。
 本明細書 (請求項を含む) において、「最大化する (maximize) /最大化 (maximization) 」等の用語が用いられる場合は、グローバルな最大値を求めること、グローバルな最大値の近似値を求めること、ローカルな最大値を求めること及びローカルな最大値の近似値を求めることを含み、当該用語が用いられた文脈に応じて適宜解釈されるべきである。また、これら最大値の近似値を確率的又はヒューリスティックに求めることを含む。同様に、「最小化する (minimize) /最小化 (minimization) 」等の用語が用いられる場合は、グローバルな最小値を求めること、グローバルな最小値の近似値を求めること、ローカルな最小値を求めること及びローカルな最小値の近似値を求めることを含み、当該用語が用いられた文脈に応じて適宜解釈されるべきである。また、これら最小値の近似値を確率的又はヒューリスティックに求めることを含む。同様に、「最適化する (optimize) /最適化 (optimization) 」等の用語が用いられる場合は、グローバルな最適値を求めること、グローバルな最適値の近似値を求めること、ローカルな最適値を求めること、及びローカルな最適値の近似値を求めることを含み、当該用語が用いられた文脈に応じて適宜解釈されるべきである。また、これら最適値の近似値を確率的又はヒューリスティックに求めることを含む。
 本明細書 (請求項を含む) において、複数のハードウェアが所定の処理を行う場合、各ハードウェアが協働して所定の処理を行ってもよいし、一部のハードウェアが所定の処理の全てを行ってもよい。また、一部のハードウェアが所定の処理の一部を行い、別のハードウェアが所定の処理の残りを行ってもよい。本明細書 (請求項を含む) において、「1又は複数のハードウェアが第1処理を行い、前記1又は複数のハードウェアが第2処理を行う」等の表現 (同様な表現を含む) が用いられている場合、第1処理を行うハードウェアと第2処理を行うハードウェアは同じものであってもよいし、異なるものであってもよい。つまり、第1処理を行うハードウェア及び第2処理を行うハードウェアが、前記1又は複数のハードウェアに含まれていればよい。なお、ハードウェアは、電子回路、又は、電子回路を含む装置等を含んでもよい。
 本明細書 (請求項を含む) において、複数の記憶装置 (メモリ) がデータの記憶を行う場合、複数の記憶装置のうち個々の記憶装置は、データの一部のみを記憶してもよいし、データの全体を記憶してもよい。また、複数の記憶装置のうち一部の記憶装置がデータを記憶する構成を含んでもよい。
 以上、本開示の実施形態について詳述したが、本開示は上記した個々の実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本開示の概念的な思想と趣旨を逸脱しない範囲において、種々の追加、変更、置き換え及び部分的削除等が可能である。例えば、前述した実施形態において、数値又は数式を説明に用いている場合、これらは例示的な目的で示されたものであり、本開示の範囲を限定するものではない。また、実施形態で示した各動作の順序も、例示的なものであり、本開示の範囲を限定するものではない。

Claims (26)

 1 又は複数のメモリと、
 1 又は複数のプロセッサと、を備え、
 前記 1 又は複数のプロセッサは、
  物質の原子に関する情報を第 1 モデルに入力し、
  前記物質に関する情報を前記第 1 モデルから取得し、
 前記第 1 モデルは、
  原子に関する情報を入力とし、少なくともエネルギー又は力のいずれかの値を出力する第 2 モデルにおける入力層から所定層までの層と、他の層とを備え、
  前記物質に関する情報を出力するように訓練されたモデルである、
 情報処理装置。
 前記第 1 モデルは、前記第 2 モデルの前記入力層から前記所定層までを用いた転移学習により訓練されたモデルである、
 請求項1に記載の情報処理装置。
 前記第 1 モデルは、前記第 2 モデルの前記入力層から前記所定層までを用いてファインチューニングされたモデルである、
 請求項1に記載の情報処理装置。
 前記第 1 モデルは、前記第 2 モデルの前記入力層、又は、前記所定層とは異なる 1 若しくは複数の層、のうち少なくとも 1 つの出力を用いて、前記物質に関する情報を出力する、
 請求項1に記載の情報処理装置。
 前記第 1 モデルは、前記第 2 のモデルの前記所定層と、前記第 1 モデルの出力層とを接続したモデルである、
 請求項1に記載の情報処理装置。
 前記第 1 モデルは、前記第 2 モデルの前記所定層と、前記第 1 モデルの出力層との間に 1 又は複数の中間層を備える、
 請求項1に記載の情報処理装置。
 前記所定層は、前記第 2 モデルの中間層である、
 請求項1に記載の情報処理装置。
 前記所定層は、前記第 2 モデルの出力層の直前の層である、
 請求項7に記載の情報処理装置。
 前記第 1 モデルは、物質の原子に関する情報として複数の化学構造に関する情報について、並列する伝播経路又は少なくとも 1 つの中間層同士が直列に接続される並列する伝播経路、
 を備え、
 入力層から、それぞれの前記並列する伝播経路に対する情報を入力する、
 請求項1に記載の情報処理装置。
 前記第 1 モデルは、
  物質の原子に関する情報を前記入力層である前記第 2 モデルの前記入力層に相当する層から入力し、並列して、原子構成以外の特徴量を入力する異なる入力層を備え、
  前記物質の原子に関する情報から取得される情報と、前記原子構成以外の特徴量から取得される情報と、を統合して出力する、
 請求項1に記載の情報処理装置。
 前記物質に関する情報は、前記物質の物性値である、
 請求項1から請求項10のいずれかに記載の情報処理装置。
 前記物質の物性値は、 HOMO (Highest Occupied Molecular Orbital) エネルギー、 LUMO (Lowest Unoccupied Molecular Orbital) エネルギー、 χ パラメータ又はフィンガープリントのいずれかである、
 請求項11に記載の情報処理装置。
 前記物質に関する情報は、物質を構成する原子の情報である、
 請求項1から請求項10のいずれかに記載の情報処理装置。
 前記物質に関する情報は、前記物質のクラスタリング又は可視化に用いる情報である、
 請求項1から請求項10のいずれかに記載の情報処理装置。
 前記第 2 モデルは、NNP (Neural Network Potential)を形成するモデルである、
 請求項1から請求項10のいずれかに記載の情報処理装置。
 1 又は複数のメモリと、
 1 又は複数のプロセッサと、を備え、
 前記 1 又は複数のプロセッサは、
  物質の原子に関する情報を入力すると前記物質に関する情報を出力するように第 1 モデルを訓練し、
 前記第 1 モデルは、訓練済みモデルである第 2 モデルの入力層から所定層までの層と、他の層とを備え、
 前記第 2 モデルは、原子に関する情報を入力すると、少なくともエネルギー又は力のいずれかの値を出力するモデルである、
 情報処理装置。
 前記 1 又は複数のプロセッサは、前記第 2 モデルの前記入力層から前記所定層までを用いた転移学習により前記第 1 モデルを訓練する、
 請求項16に記載の情報処理装置。
 前記 1 又は複数のプロセッサは、前記第 2 モデルの前記入力層から前記所定層までを用いたファインチューニングにより前記第 1 モデルを訓練する、
 請求項16に記載の情報処理装置。
 前記物質に関する情報は、前記物質の物性値である、
 請求項16から請求項18のいずれかに記載の情報処理装置。
 前記物質の物性値は、 HOMO (Highest Occupied Molecular Orbital) エネルギー 、 LUMO (Lowest Unoccupied Molecular Orbital) エネルギー、 χ パラメータ又はフィンガープリントのいずれかである、
 請求項19に記載の情報処理装置。
 前記物質に関する情報は、物質を構成する原子の情報である、
 請求項16から請求項18のいずれかに記載の情報処理装置。
 前記物質に関する情報は、前記物質のクラスタリング又は可視化に用いる情報である、
 請求項16から請求項18のいずれかに記載の情報処理装置。
 前記第 2 モデルは、NNP (Neural Network Potential) を形成するモデルである、
 請求項16から請求項18のいずれかに記載の情報処理装置。
 請求項16から請求項18のいずれかに記載の情報処理装置を用いて、前記第 1 モデルを生成する、
 モデル生成方法。
 前記第 2 モデルは、NNP (Neural Network Potential) を形成するモデルである、
 請求項24に記載のモデル生成方法。
 1 又は複数のプロセッサにより、
  物質の原子に関する情報を第 1 モデルに入力し、
  前記物質に関する情報を前記第 1 モデルから取得する、
 情報処理方法であって、
 前記 1 モデルは、
  原子に関する情報を入力とし、少なくともエネルギー又は力のいずれかの値を出力する第 2 モデルにおける入力層から所定層までの層を備え、
  前記物質に関する情報を出力するように訓練されたモデルである、
 情報処理方法。
PCT/JP2023/010158 2022-03-15 2023-03-15 情報処理装置、モデル生成方法及び情報処理方法 WO2023176901A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-040762 2022-03-15
JP2022040762 2022-03-15

Publications (1)

Publication Number Publication Date
WO2023176901A1 true WO2023176901A1 (ja) 2023-09-21

Family

ID=88023436

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/010158 WO2023176901A1 (ja) 2022-03-15 2023-03-15 情報処理装置、モデル生成方法及び情報処理方法

Country Status (1)

Country Link
WO (1) WO2023176901A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021054402A1 (ja) * 2019-09-20 2021-03-25 株式会社 Preferred Networks 推定装置、訓練装置、推定方法及び訓練方法
WO2021085523A1 (ja) * 2019-10-31 2021-05-06 パナソニックIpマネジメント株式会社 ニューラルネットワーク、演算方法及びプログラム
JP2021117798A (ja) * 2020-01-28 2021-08-10 国立大学法人山形大学 分子設計支援システム、分子特性値予測方法、分子設計支援プログラム
JP2021174180A (ja) * 2020-04-23 2021-11-01 トヨタ自動車株式会社 転移学習システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021054402A1 (ja) * 2019-09-20 2021-03-25 株式会社 Preferred Networks 推定装置、訓練装置、推定方法及び訓練方法
WO2021085523A1 (ja) * 2019-10-31 2021-05-06 パナソニックIpマネジメント株式会社 ニューラルネットワーク、演算方法及びプログラム
JP2021117798A (ja) * 2020-01-28 2021-08-10 国立大学法人山形大学 分子設計支援システム、分子特性値予測方法、分子設計支援プログラム
JP2021174180A (ja) * 2020-04-23 2021-11-01 トヨタ自動車株式会社 転移学習システム

Similar Documents

Publication Publication Date Title
Yao et al. Adaptive variational quantum dynamics simulations
Ryabinkin et al. Qubit coupled cluster method: a systematic approach to quantum chemistry on a quantum computer
Perdomo-Ortiz et al. Finding low-energy conformations of lattice protein models by quantum annealing
Xin et al. Elastic extreme learning machine for big data classification
CN114207632A (zh) 用于量子计算设备的流水线硬件解码器
US20220207370A1 (en) Inferring device, training device, inferring method, and training method
US20200192985A1 (en) Method and apparatus with machine translation
Tran et al. Solving stochastic inverse problems for property–structure linkages using data-consistent inversion and machine learning
US20240071576A1 (en) Simulating electronic structure with quantum annealing devices and artificial neural networks
US11475312B2 (en) Method and apparatus with deep neural network model fusing
US20230237342A1 (en) Adaptive lookahead for planning and learning
Chen et al. Feature-adjacent multi-fidelity physics-informed machine learning for partial differential equations
CN112257751A (zh) 神经网络剪枝方法
Hasibi et al. A Graph Feature Auto-Encoder for the prediction of unobserved node features on biological networks
Lyngdoh et al. Elucidating the constitutive relationship of calcium–silicate–hydrate gel using high throughput reactive molecular simulations and machine learning
WO2023176901A1 (ja) 情報処理装置、モデル生成方法及び情報処理方法
JP2021170330A (ja) システムのローカルフィールド行列の更新
Kim et al. Constrained unscented Kalman filter for structural identification of Bouc–Wen hysteretic system
TWI769875B (zh) 深度學習網路裝置、其使用的記憶體存取方法與非揮發性儲存媒介
Mahajan et al. Modeling individual humans via a secondary task transfer learning method
CN115346616A (zh) 晶体性质预测模型的训练方法、装置和计算机设备
Sami et al. Artificial neural network and dataset optimization for implementation of linear system models in resource‐constrained embedded systems
US20240127533A1 (en) Inferring device, model generation method, and inferring method
Pazzona et al. The central cell model: A mesoscopic hopping model for the study of the displacement autocorrelation function
JP7392203B2 (ja) 訓練装置、訓練方法、プログラム及び推論装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23770854

Country of ref document: EP

Kind code of ref document: A1