WO2020203922A1 - 結晶形予測装置、結晶形予測方法、ニューラルネットワークモデルの製造方法、及びプログラム - Google Patents

結晶形予測装置、結晶形予測方法、ニューラルネットワークモデルの製造方法、及びプログラム Download PDF

Info

Publication number
WO2020203922A1
WO2020203922A1 PCT/JP2020/014371 JP2020014371W WO2020203922A1 WO 2020203922 A1 WO2020203922 A1 WO 2020203922A1 JP 2020014371 W JP2020014371 W JP 2020014371W WO 2020203922 A1 WO2020203922 A1 WO 2020203922A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
crystal structure
description information
crystal
machine learning
Prior art date
Application number
PCT/JP2020/014371
Other languages
English (en)
French (fr)
Inventor
新治 長代
寛 上田
隆次 谷村
Original Assignee
株式会社クロスアビリティ
東レ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社クロスアビリティ, 東レ株式会社 filed Critical 株式会社クロスアビリティ
Publication of WO2020203922A1 publication Critical patent/WO2020203922A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Definitions

  • the present invention relates to a crystal shape prediction device, a crystal shape prediction method, a neural network model manufacturing method, and a program.
  • the method using the molecular force field is a relatively simple calculation method, so that the load is low, but the calculation accuracy is low. Further, it is known that the calculation result may not be reliable depending on the state of the compound and the atomic arrangement in the method using the molecular force field. On the other hand, if the first-principles calculation is used, the reliability of the calculation result is relatively high, but the calculation load is high. Therefore, it is not realistic to calculate for a large number of crystal structures using first-principles calculations. Therefore, it has been studied to efficiently perform this first-principles calculation.
  • Patent Document 1 discloses that first-principles calculations are performed using so-called grid computing technology. However, when predicting a crystal polymorph by the method described in Patent Document 1, it is necessary to perform first-principles calculation for all possible crystal forms, so that the calculation load remains high.
  • Non-Patent Document 1 discloses an energy prediction method for a crystal structure using machine learning.
  • the method disclosed in Non-Patent Document 1 targets the crystal structure of a semiconductor molecule such as a broadly conjugated aromatic compound as a prediction target, and has problems that it cannot be applied to the prediction of the crystal structure of a compound having no aromatic ring. there were.
  • the present invention has been made in view of the above circumstances, and regardless of the structure of the target compound, a crystal shape predictor and a crystal shape prediction device having improved reliability compared to the calculation by a molecular force field by a calculation with a relatively low load.
  • One of the purposes is to provide a method, a method for manufacturing a neural network model, and a program.
  • a crystal form prediction device which is a candidate acquisition means for acquiring a plurality of crystal structure candidates and a plurality of crystal structure candidates acquired by the candidate acquisition means.
  • the energy related to each of the structure description information generating means that generates the structure description information that identifies each crystal structure candidate and the selected crystal structure candidate selected from the plurality of crystal structure candidates acquired by the candidate acquisition means.
  • the structure description information corresponding to the selected crystal structure candidate is used as input information.
  • the candidate acquisition means includes a machine learning means that performs machine learning so as to estimate energy information corresponding to the structure description information using energy information as teacher information, and the result of machine learning obtained by the means is obtained by the candidate acquisition means. It will be used for the process of estimating the energy information related to each acquired crystal structure candidate.
  • the present invention by machine learning the energy information obtained by the highly reliable first-principles calculation, it is not necessary to perform the first-principles calculation with a high load on all crystal structures, and some crystals. By performing only the first-principles calculation for the structure, it is possible to acquire energy information with improved reliability compared to the calculation by the molecular force field in a relatively short time.
  • the crystal form prediction device 1 can be realized by using a general computer. As illustrated in FIG. 1, the crystal form prediction device 1 includes a control unit 11, a storage unit 12, an input / output unit 13, and a display unit 14.
  • the control unit 11 is a control device such as a processor that operates according to a program, and operates according to a program stored in the storage unit 12.
  • the control unit 11 acquires unit cell structure information representing the unit cell structure of the crystal, and generates a plurality of crystal structure candidates based on the acquired unit cell structure information.
  • the control unit 11 generates structure description information for specifying each crystal structure candidate for each of the generated crystal structure candidates, and first obtains energy information related to each of the generated plurality of selected crystal structure candidates. Obtained by principle calculation.
  • the control unit 11 performs machine learning so as to estimate the energy information corresponding to the structure description information by using each generated structure description information as input information and the energy information related to the crystal structure candidate as teacher information. The result of this machine learning is subjected to a process of estimating energy information related to the crystal structure specified by the structure description information. The details of the operation of the control unit 11 will be described later.
  • the storage unit 12 holds a program executed by the control unit 11. This program may be provided stored in a computer-readable and non-temporary recording medium and copied to the storage unit 12.
  • the storage unit 12 also operates as a work memory of the control unit 11.
  • the input / output unit 13 is an input device such as a keyboard or a touch panel, and outputs information input according to a user's instruction to the control unit 11. Further, the input / output unit 13 may include an interface (network interface or the like) that outputs information to an external device or the like according to an instruction input from the control unit 11. When the input / output unit 13 is a touch panel, it may be superimposed on the display unit 14.
  • the display unit 14 is a display device or the like, and displays and outputs information according to an instruction input from the control unit 11.
  • the control unit 11 of the crystal form prediction device 1 of the present embodiment functionally includes an acquisition unit 21, a candidate acquisition unit 22, a structure description information generation unit 23, and a first principle, as illustrated in FIG. It is composed of a calculation unit 24, a machine learning unit 25, an inference unit 26, and an output unit 27.
  • the acquisition unit 21 acquires information related to the compound whose crystal structure is to be predicted.
  • This information may be, for example, unit cell structure information representing the unit cell structure of the crystal related to the compound whose crystal structure is to be predicted.
  • the crystal structure here may be a molecular crystal structure made of benzene, urea or the like, a covalent crystal structure made of diamond or silicon dioxide, an ionic crystal structure made of sodium chloride or the like, or other types of crystals. It may have such a crystal structure.
  • This unit cell structure information can be obtained, for example, based on a CIF (Crystallographic Information File) format file related to the compound whose crystal structure is to be predicted.
  • the CIF file represents the crystal structure data obtained experimentally.
  • the control unit 11 obtains information representing the molecular structure of the compound as unit cell structure information from the contents of the CIF file.
  • the information representing the structure of this molecule includes information for specifying the type of each atom constituting the molecule to be contained in the unit cell and the state of the bond between them.
  • the information acquired by the acquisition unit 21 is information related to the compound whose crystal structure is to be predicted, and is in the format of other molecular structure data files such as XYZ (coordinate file), MOL (MOL file), and SDF. It may be the one described in. Further, the information acquired by the acquisition unit 21 may be only information on the types and numbers of atoms and molecules contained in the compound whose crystal structure is to be predicted.
  • the candidate acquisition unit 22 acquires a plurality of crystal structure candidates based on the information acquired by the acquisition unit 21. Specifically, assuming that the information acquired by the acquisition unit 21 is a CIF file, the candidate acquisition unit 22 can be externally enabled based on the molecular information per unit cell specified by the contents of the CIF file. By enumerating a plurality of crystal structure specific information for specifying a specific crystal structure, candidates for a crystal structure are obtained.
  • the crystal structure specific information listed here may include a crystal structure whose energy is not stable in reality and whose structure cannot be maintained. Hereinafter, the crystal structure specific information listed here is simply referred to as a "possible crystal structure".
  • the candidate acquisition unit 22 virtually sets a unit cell of a predetermined size, arranges the molecules included in the unit cell at an arbitrary position (may be random) in the unit cell, and causes a molecular force field.
  • Crystal structure candidates may be obtained by optimizing the position by calculation and listing a plurality of crystal structure specific information.
  • Crystal Structure Generator Crystal Structure Generator
  • the structure description information generation unit 23 generates structural information for each of the crystal structure specific information that specifies the possible crystal structure acquired by the candidate acquisition unit 22.
  • the structural information is intermediate information for generating the structural description information described later.
  • flag information (self-flag) F indicating whether or not it is included (FIG. 4).
  • this structural information is variable-length information, and it is preferable to use fixed-length information depending on the method of machine learning to be performed later.
  • the structure description information generation unit 23 generates fixed-length structure description information in a predetermined format based on the generated structure information.
  • An example of this structure description information is as follows.
  • the structure description information generation unit 23 refers to the structure information and generates a histogram related to the function of the relative arrangement between each atom (distance between atoms, angle between three atoms, etc.) included in the structure information.
  • the function of the relative arrangement the distance between atoms (interatomic distance) itself may be used, or the calculation result of the function of the interatomic distance may be used (hereinafter, the interatomic distance itself).
  • the histogram a histogram in which the interatomic distance is classified by a pair of atom types (elements) may be used.
  • CC CH HH Three pairs of can be considered (CH and HC are treated as the same).
  • the distance from a carbon atom in the benzene molecule to the carbon atom in the same benzene molecule is the distance d1 (CC bond) between two carbon atoms adjacent to the carbon atom.
  • the interatomic distance (corresponding to about 1.4 ⁇ ), the distance d2 to the carbon atom two ahead (there are also two), and the distance d3 to the carbon atom three ahead (only one). including.
  • the interatomic distance from the carbon atom to the carbon atom in the adjacent benzene molecule (which is also the distance between CC) pays attention to which carbon atom (C) contained in the adjacent molecule. It depends on whether it is d4, d5 ..., D9.
  • the structure description information generation unit 23 divides, for example, the radius r of the sphere set when generating the structural information by the number of dimensions D (for example, 100) having a fixed length, and bins (0 or more r) of r / 100 each. A bin of less than / 100, a bin of r / 100 or more and less than 2r / 100, ...) Is set.
  • the structure description information generation unit 23 counts the number of pairs having an interatomic distance included in the range of values corresponding to the corresponding bin for each set bin, for each pair of atom types (elements). Generate a histogram.
  • the structure description information generation unit 23 first selects one of the carbon atoms contained in a certain unit cell as the carbon atom of interest. Select as. Then, the structure description information generation unit 23 searches for all other carbon atoms (carbon atoms other than the carbon atom of interest) within a radius of 20 ⁇ from the carbon atom of interest, and finds the carbon atom of interest and the others found in the search. Calculate the distance to the carbon atom of. Then, when the distance obtained by the calculation is 1.41 ⁇ , the structure description information generation unit 23 adds “1” to the value of the bin of 1.4 ⁇ or more and less than 1.6 ⁇ in the histogram.
  • the structure description information generation unit 23 similarly obtains a histogram of the interatomic distance for each distance between CH and HH.
  • the structure description information generation unit 23 outputs this vector information as structure description information.
  • the order in which the vector information corresponding to each pair is arranged may be determined in advance.
  • the structure description information generation unit 23 obtains structure description information for each of the crystal structure identification information for specifying a possible crystal structure acquired by the candidate acquisition unit 22, and obtains crystal structure identification information and structure description information corresponding to each other. It is associated and recorded as structure candidate data.
  • the first-principles calculation unit 24 extracts a part of the crystal structure identification information recorded in the structure candidate data by sampling. Specifically, the first-principles calculation unit 24 assigns serial numbers 1, 2, ... N to each of the crystal structure specific information recorded in the structure candidate data, and predetermines different integers from 1 to n.
  • the crystal structure specific information with the generated integers may be extracted by randomly generating the number of the generated integers.
  • the calculation load is reduced by performing the first-principles calculation only for a part of the crystal structure specified by the crystal structure identification information in this way.
  • the first-principles calculation unit 24 obtains energy information related to each of the sampled crystal structure specific information (corresponding to the selected crystal structure candidate) by the first-principles calculation.
  • This first-principles calculation process can be performed using, for example, a well-known tool such as Quantum ESPRESSO (http://www.quantum-espresso.org/). Further, since a method of generating an input file for first-principles calculation based on crystal structure specific information is widely known, detailed description here will be omitted.
  • the first-principles calculation unit 24 includes sampled crystal structure identification information, structure description information recorded in association with the crystal structure identification information in the structure candidate data, and energy information (teacher information) obtained by the first-principles calculation. Is recorded in the storage unit 12 as learning information in association with.
  • the machine learning unit 25 executes the machine learning process while referring to the learning information recorded in the storage unit 12.
  • the machine learning unit 25 according to an example of the present embodiment machine-learns the relationship between the structure description information and the energy information by using a neural network.
  • the machine learning unit 25 includes an input layer having as many nodes as the number of elements (number of dimensions) of the vector of the structure description information, a plurality of intermediate layers, and information representing an energy value.
  • a neural network containing (energy information) and an output layer that outputs loss is used.
  • This neural network may be, for example, a fully connected network, or may include a convolutional network.
  • the machine learning unit 25 of the present embodiment sequentially reads out a set of the structure description information and the energy information included in the learning information recorded in the storage unit 12, and inputs the read structure description information to the input layer of the neural network. To do.
  • the machine learning unit 25 is based on the difference between the energy information obtained as the output of the neural network when the read structure description information is input and the energy information as the teacher information read from the learning information. Machine learning is performed by updating the weight information between each layer inside.
  • the machine learning unit 25 generates a model of the neural network trained by this.
  • the inference unit 26 reads out the structure description information for each of the crystal structure specific information recorded in the structure candidate data, and uses the machine learning result learned by the machine learning unit 25 to obtain the energy corresponding to each structure description information. Get information.
  • the inference unit 26 may read out the structure description information excluding the one already sampled by the first principle calculation unit 24.
  • the read structure description information is input to the input layer of the neural network as the machine learning result.
  • the inference unit 26 acquires the energy information output by the neural network as the energy information corresponding to the input structure description information.
  • the inference unit 26 associates the energy information acquired here with the corresponding crystal structure identification information (crystal structure identification information corresponding to the input structure description information) and stores it in the storage unit 12 as inference result information.
  • the output unit 27 includes a set of energy information and crystal structure identification information, which is the result of the first-principles calculation, included in the learning information, and energy information and crystal structure identification information estimated by the inference unit 26.
  • the set is synthesized, and a list of energy information related to each crystal structure specific information recorded in the structure candidate data is obtained.
  • the crystal structure specific information included in the structure candidate data among the crystal structure specific information included in the structure candidate data, the crystal structure specific information included in the learning information is listed in the above list in association with the energy information included in the learning information.
  • the crystal structure specific information that is recorded and is not included in the learning information is recorded in the above list in association with the energy information included in the inference result information.
  • the output unit 27 predicts a stable crystal structure (hereinafter referred to as "stable crystal structure") by using the obtained energy information. Specifically, the output unit 27 selects a set that satisfies the selection condition separately determined from the set of the crystal structure specific information and the energy information included in the list obtained by the above method, and selects the set. The energy information included in the set and the crystal structure specific information associated with the energy information are output as information representing a stable crystal structure.
  • the selection condition may be, for example, a condition that the value represented by the energy information is below a predetermined threshold value.
  • This threshold value may be a value input by the user.
  • the values indicated by the energy information included in the list are arranged in ascending order, and the energy information at the upper level of the array (in ascending order from the lowest value) is selected. It may be a condition to do.
  • An example of the crystal form prediction device 1 according to the present embodiment has the above configuration and operates as follows.
  • the user creates information representing a compound whose crystal structure is to be predicted, and inputs the information to the crystal form prediction device 1.
  • the crystal shape predictor 1 accepts the information related to the compound to be predicted of the crystal structure input by the user (S1), and the content of the accepted information is converted into a unit cell.
  • the crystal shape prediction device 1 enumerates a plurality of crystal structure specifying information that specifies a possible crystal structure based on the molecular information per unit lattice specified by the obtained unit cell structure information (S3).
  • the crystal shape predictor 1 is a sphere having a predetermined radius r from each atom i included in the unit cell for each of the crystal structure identification information for specifying the possible crystal structure obtained in the process S3 (this radius r). Generates structural information associated with distances to other atoms j within a sphere of radius r) (assuming that it contains at least one unit cell) (S4).
  • the crystal form prediction device 1 generates fixed-length structural description information based on the generated structural information (S5).
  • the fixed length processing in this processing S5 is performed, for example, as follows.
  • the crystal form prediction device 1 refers to the structural information generated in the process S4, and for each pair of atom types (elements) included in the structural information, the distance between the pairs (interatomic distance).
  • a histogram is generated as structural description information.
  • the fixed length in the process S5 may be represented by vector information of a fixed length for each compound whose crystal structure is to be predicted, and the data sizes of the structure description information for different compounds are different. You may.
  • the crystal shape prediction device 1 includes structural information obtained for each of the crystal structure specific information for specifying the crystal structure listed as a possible crystal structure, and structural description information generated in the process S5 corresponding to the structural information. Is associated and recorded as structure candidate data (S6).
  • the crystal form prediction device 1 extracts a part of the crystal structure identification information recorded in the structure candidate data recorded in the process S6 by sampling (S7). Then, the crystal form prediction device 1 obtains energy information related to each of the sampled crystal structure identification information by first-principles calculation (S8), and finds the crystal structure identification information sampled in the process S7 and the structure candidate data. Learning information is generated by associating the structure description information recorded in association with the crystal structure specific information with the energy information obtained by the first-principles calculation of the process S8 (S9).
  • the crystal form prediction device 1 sequentially reads out a set of the structure description information and the energy information included in the learning information recorded in the process S9 (S10), and inputs the read structure description information to the input layer of the neural network (S10). S11). Then, the crystal form prediction device 1 updates the weight information between each layer in the neural network and performs machine learning based on the difference between the energy information obtained as the output of the neural network and the read energy information. (S12).
  • the crystal form prediction device 1 sequentially reads out each of the crystal structure identification information recorded in the structure candidate data (S13), and a set of structure description information and energy information corresponding to the read out crystal structure identification information is obtained. , It is determined whether or not it is recorded in the learning information (S14). Here, if the set of the information is recorded in the learning information (if it is sampled (process S14: Yes)), the crystal form prediction device 1 is recorded in the learning information, and the structure description. A set of information and energy information is read out (S15), and the crystal structure specific information read out in the process S13, the read-out structure description information, and the energy information are associated and recorded in a list of energy information (S16). ).
  • the crystal shape predictor 1 reads out.
  • the structure description information corresponding to the crystal structure specific information is input to the input layer of the machine-learned neural network.
  • the crystal shape prediction device 1 acquires the energy information output by the neural network as the energy information corresponding to the input structure description information (S17), and specifies the obtained energy information and the corresponding crystal structure.
  • the information and the structure description information are associated and recorded in the list of energy information (S18).
  • the crystal shape predictor 1 performs the processes S13 to S18 for each of the crystal structure specific information recorded in the structure candidate data, and then the crystals included in the list of energy information obtained by these processes. From the set of the structure specific information and the energy information, select the set that satisfies the selection condition separately determined, and the energy information included in the selected set and the crystal structure specific information associated with the energy information. Is output as information representing a stable crystal structure (S19).
  • the crystal form prediction device 1 arranges the values indicated by the energy information included in the list in ascending order, and arranges the values of the energy higher in the arrangement (from the lowest value to the predetermined number). Select and output information.
  • the input and output of the first-principles calculation are machine-learned by the neural network, and the neural network is configured to function as a machine learning module for estimating the result of the first-principles calculation.
  • the relatively heavy first-principles calculation can be replaced with the inference processing by the neural network, which has a smaller load than the first-principles calculation, and the result of the first-principles calculation is inferred. It can be more reliable than the calculation by.
  • the structure description information is not limited to the histogram of the interatomic distance classified for each element pair described so far.
  • the space in the unit cell is divided into a plurality of small spaces, and information indicating the probability that an atom in the unit cell exists at a position corresponding to the small space for each small space (centered on the position corresponding to the actual atomic arrangement).
  • the probability is determined by the Gaussian distribution function, and the probabilities in each small space are integrated to obtain the probability of existence of atoms in the small space.)
  • fixed-length vector information corresponding to the number of small spaces can be obtained. Obtainable.
  • the small space may be, for example, a rectangular parallelepiped shape obtained by dividing a rectangular parallelepiped unit cell into A pieces in the a-axis direction, B pieces in the b-axis direction, and C pieces in the c-axis direction.
  • the crystal form prediction device 1 that generates structure description information using such information generates vector information in which information on the existence probability of each atom in a small space in a unit cell is arranged for each atom type (element). , Vector information of the dimension of the number obtained by multiplying the number A ⁇ B ⁇ C of the small space by the number n of the element to be processed is obtained as the structure description information.
  • the structure description information generation unit 23 of the crystal shape prediction device 1 obtains a two-dimensional X-ray diffraction image for each of the crystal structure identification information for specifying a possible crystal structure acquired by the candidate acquisition unit 22.
  • a two-dimensional X-ray diffraction image for each of the crystal structure identification information for specifying a possible crystal structure acquired by the candidate acquisition unit 22.
  • the obtained two-dimensional X-ray diffraction image is divided into images for each rectangular small space arranged in a matrix of XY, and the size of the diffraction image (the diffraction image is included) for each small space.
  • Information representing (if not present, “0”) may be selected and arranged in the order of raster scan, for example, as vector information having a fixed length (X ⁇ Y) (FIG. 6), and this vector information may be used as structural description information. ..
  • the structure description information generation unit 23 of the crystal shape prediction device 1 graphs the bonds between atoms in one molecule for each of the crystal structure identification information for specifying the possible crystal structure acquired by the candidate acquisition unit 22. It may be regarded as (Graph) and described as structural description information.
  • the node of the graph described in the structural description information corresponds to an atom
  • the edge represents the bond between atoms
  • the weight of the edge is the distance between the bonded atoms (bond distance).
  • the machine learning unit 25 of this example uses the graph convolutional network to obtain the structure description information sampled as learning information and the energy information obtained by performing the first-principles calculation on the crystal structure represented by the structure description information. Machine learning the relationship between. Then, for the structure description information that was not sampled by the inference unit 26, the candidate acquisition unit uses the estimated value of the energy obtained as an output when the structure description information is input to the graph convolutional network on which the machine learning is performed. The energy information corresponding to each crystal structure specific information acquired by 22 is generated (for the sampled one, the result of the first principle calculation is used as it is).
  • the output unit 27 selects a part of the crystal structure specific information based on the energy information and outputs it as information representing a stable crystal structure.
  • the values indicated by the energy information included in the list are arranged in ascending order, and the higher (values) of the arrangement are arranged.
  • the energy information (from the lowest to the lowest) and the structure description information associated with it are preliminarily selected, and the crystal structure identification information corresponding to the preselected structure description information is acquired.
  • the first principle calculation is executed for the crystal structure specified by the acquired crystal structure specific information, and the first principle corresponding to the crystal structure represented by the structure description information preliminarily selected based on the result of machine learning. The calculation result may be obtained.
  • the output unit 27 uses the crystal structure identification information for specifying the crystal structure considered to be stable based on the result of the first-principles calculation as the crystal structure identification information corresponding to the above-mentioned preliminarily selected structure description information. You may further select from them and output.
  • the first-principles calculation is performed only for the crystal structures that are likely to be judged to be stable, so that the load is relatively small. , It is possible to obtain relatively accurate results.
  • the structure description information is generated for each compound whose crystal structure is to be predicted and the machine learning process is performed.
  • structural description information corresponding to a plurality of compounds may be generated, and the result of machine learning corresponding to a plurality of compounds may be obtained.
  • the crystal form prediction device 1 acquires unit cell structure information for each of a plurality of compounds.
  • the unit cell structure information may be obtained by referring to a crystal database provided for various uses such as CSD provided by the Cambridge Crystallography Data Center and COD.
  • the crystal form prediction device 1 generates and acquires a plurality of crystal structure candidates based on the acquired unit cell structure information for each compound.
  • the crystal form prediction device 1 generates structure description information for each of the crystal structure specifying information that specifies the possible crystal structure obtained for each compound.
  • structural description information when a histogram of the distance between pairs (interatomic distance) is generated for each pair of atom types (elements) contained in the compound, the elements contained in each compound are different. A pair of elements that is present in one compound may not be present in another compound. Therefore, for a pair of nonexistent elements, a value of "0" may be set in all bins of the histogram.
  • the crystal form prediction device 1 samples a part of the structure specified by the listed structure description information, obtains the corresponding energy information by first-principles calculation, and obtains the obtained energy information and the corresponding structure description. Generate learning information by associating it with information and recording it.
  • the crystal form prediction device 1 machine-learns the neural network using this learning information, and generates an inference device that machine-learns the energy information corresponding to the structure description information.
  • a neural network capable of estimating energy information corresponding to a plurality of compounds is generated.
  • the crystal form prediction device 1 receives input of information for specifying a compound whose crystal structure is to be predicted (for example, a CIF format file related to the compound), and acquires a plurality of crystal structure candidates.
  • the crystal shape prediction device 1 obtains crystal structure identification information for the acquired crystal structure candidates, and further generates structure description information for each of the crystal structure identification information.
  • the crystal form prediction device 1 sequentially inputs the generated structure description information to the input layer of the machine-learned neural network, and acquires the energy information output by the neural network as the energy information corresponding to the input structure description information. To do.
  • the crystal form prediction device 1 associates the energy information obtained here with the corresponding crystal structure identification information (crystal structure identification information corresponding to the input structure description information) and records it as inference result information.
  • the crystal form prediction device 1 predicts a stable crystal structure (hereinafter referred to as "stable crystal structure") based on the recorded inference result information. Specifically, the crystal form prediction device 1 selects a set that satisfies the selection conditions separately determined from the set of the crystal structure specific information and the energy information included in the list obtained by the above method. The energy information included in the selected set and the crystal structure specific information associated with the energy information are output as information representing a stable crystal structure.
  • the machine learning method in this embodiment is not limited to the one using a neural network.
  • the machine learning unit 25 may use a random forest.
  • the machine learning unit 25 of this example machine-learns a plurality of decision trees that output energy information based on the vector of the structure description information.
  • the inference unit 26 also reads the structure description information for each of the crystal structure specific information recorded in the structure candidate data (excluding those sampled by the first-principles calculation unit 24), and performs machine learning.
  • the inference result of the energy information is acquired by using a plurality of decision trees machine-learned by the part 25.
  • the inference unit 26 associates the information representing the energy information obtained here with the corresponding crystal structure identification information (crystal structure identification information corresponding to the input structure description information), and stores the information as inference result information. Store in.
  • the machine learning unit 25 and the inference unit 26 machine-learn the relationship between the structure description information and the energy information, and use the result of the machine learning to give the corresponding energy information when the structure description information is given. Any method may be used as long as it can be inferred, including not only neural networks and random forests but also linear regression and ridge regression.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)

Abstract

複数の結晶構造候補のうちから選択した、選択結晶構造候補のそれぞれに係るエネルギーの情報を、第一原理計算により求め、結晶構造候補を表す構造記述情報のうち、選択結晶構造候補に対応する構造記述情報を入力情報とし、選択結晶構造候補に係るエネルギーの情報を教師情報として、構造記述情報に対応するエネルギーの情報を推定するよう機械学習を行う。そしてこの機械学習手段により得られた機械学習の結果が、構造記述情報で特定される結晶構造に対応するエネルギーの情報を推定する処理に供される結晶形予測装置である。

Description

結晶形予測装置、結晶形予測方法、ニューラルネットワークモデルの製造方法、及びプログラム
 本発明は、結晶形予測装置、結晶形予測方法、ニューラルネットワークモデルの製造方法、及びプログラムに関する。
 同一の化合物であっても、互いに異なる結晶形をとる場合があることは広く知られている。このとき、結晶形によって種々の性質が異なるため、どのような結晶形があるかを予測しておくことは、多くの場面で有用である。
 従来、このような結晶多形を予測するには、外形的に可能な結晶形を列挙して、列挙された結晶形の各原子配置に基づいて全エネルギー(以下単にエネルギーと呼ぶ)を求め、比較的安定なエネルギーとなる構造をスクリーニングすることで行っていた。
 従来、このエネルギーの計算には、分子力場を用いる比較的簡易な方法と、第一原理計算を用いる比較的厳密な方法とが知られている。
特開2006-65775号公報
Felix Musilら, Chem. Sci., 9(5), 1289-1300 (2018).
 しかしながら、上記従来の技術において、分子力場を用いる方法は、比較的簡易な計算方法であるため、負荷は低いが、計算精度が低い。また、分子力場を用いる方法では、化合物や原子配置の状態によっては計算結果が信頼できない場合があることが知られている。一方、第一原理計算を用いれば、計算結果の信頼性は比較的高いが、計算の負荷が高くなる。このため、第一原理計算を用いて多数の結晶構造について計算することは現実的でない。そこで従来から、この第一原理計算を効率良く行うことが研究されてきた。
 例えば特許文献1には、第一原理計算を、いわゆるグリッドコンピューティングの技術を用いて実行することが開示されている。しかし、特許文献1記載の方法で結晶多形を予測する場合、可能な結晶形全てについて第一原理計算を行う必要があるため、計算の負荷は依然として高いままであった。
 また非特許文献1には、機械学習を用いた結晶構造のエネルギー予測方法が開示されている。この非特許文献1に開示の方法では、広範囲に共役した芳香族化合物等の半導体分子の結晶構造を予測対象としており、芳香環を持たない化合物の結晶構造の予測には適用できない等の課題があった。
 本発明は上記実情に鑑みて為されたもので、対象化合物の構造を問わず、比較的負荷の低い演算により、分子力場による演算よりも信頼性を向上した結晶形予測装置、結晶形予測方法、ニューラルネットワークモデルの製造方法、及びプログラムを提供することをその目的の一つとする。
 上記従来例の問題点を解決する本発明の一態様は、結晶形予測装置であって、結晶構造の候補を複数取得する候補取得手段と、前記候補取得手段が取得した複数の結晶構造候補のそれぞれについて、各結晶構造候補を特定する構造記述情報を生成する構造記述情報生成手段と、前記候補取得手段が取得した複数の結晶構造候補のうちから選択した、選択結晶構造候補のそれぞれに係るエネルギーの情報を、第一原理計算により求める第一原理計算手段と、前記構造記述情報生成手段により生成された構造記述情報のうち、前記選択結晶構造候補に対応する構造記述情報を入力情報とし、前記エネルギーの情報を教師情報として、構造記述情報に対応するエネルギーの情報を推定するよう機械学習を行う機械学習手段と、を含み、前記手段により得られた機械学習の結果が、前記候補取得手段が取得した各結晶構造候補に係るエネルギーの情報を推定する処理に供されることとしたものである。
 本発明によると、信頼性の高い第一原理計算で求めたエネルギーの情報を機械学習させることで、全ての結晶構造に対して負荷の高い第一原理計算を行う必要がなく、一部の結晶構造に対する第一原理計算のみを実施するだけで、分子力場による演算よりも信頼性が向上したエネルギーの情報を比較的短時間で取得できる。
本発明の実施の形態に係る結晶形予測装置の構成例を表すブロック図である。 本発明の実施の形態に係る結晶形予測装置の例を表す機能ブロック図である。 本発明の実施の形態の一例に係る結晶形予測装置による構造記述情報を生成するための処理の例を表す説明図である。 本発明の実施の形態の一例に係る結晶形予測装置が生成する結晶構造特定情報の例を表す説明図である。 本発明の実施の形態の一例に係る結晶形予測装置の動作例を表すフローチャート図である。 本発明の実施の形態の一例に係る結晶形予測装置による構造記述情報を生成するための処理のもう一つの例を表す説明図である。
 本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係る結晶形予測装置1は、一般的なコンピュータを用いて実現できる。この結晶形予測装置1は、図1に例示するように、制御部11と記憶部12と入出力部13と表示部14とを含んで構成される。
 制御部11は、プログラムに従って動作するプロセッサ等の制御デバイスであり、記憶部12に格納されたプログラムに従って動作する。本実施の形態では、この制御部11は、結晶の単位格子構造を表す単位格子構造情報を取得し、当該取得した単位格子構造情報に基づいて、結晶構造の候補を複数生成する。そして制御部11は、生成した結晶構造候補のそれぞれについて、各結晶構造候補を特定する構造記述情報を生成するとともに、上記生成した複数の選択結晶構造候補のそれぞれに係るエネルギーの情報を、第一原理計算により求める。制御部11は、生成した各構造記述情報を入力情報とし、結晶構造候補に係るエネルギーの情報を教師情報として、構造記述情報に対応するエネルギーの情報を推定するよう機械学習を行う。この機械学習の結果は、上記構造記述情報で特定される結晶構造に係るエネルギーの情報を推定する処理に供される。この制御部11の動作の詳細については後に述べる。
 記憶部12は、制御部11により実行されるプログラムを保持する。このプログラムは、コンピュータ可読かつ非一時的な記録媒体に格納されて提供され、この記憶部12に複写されたものであってもよい。またこの記憶部12は制御部11のワークメモリとしても動作する。
 入出力部13は、キーボードやタッチパネル等の入力デバイスであり、ユーザの指示により入力される情報を、制御部11に対して出力する。またこの入出力部13は、制御部11から入力される指示に従って、情報を外部の装置等に出力するインタフェース(ネットワークインタフェース等)を含んでもよい。また入出力部13がタッチパネルである場合、表示部14に重ね合わせられていてもよい。
 表示部14は、ディスプレイデバイス等であり、制御部11から入力される指示に従い、情報を表示出力する。
 次に制御部11の動作について説明する。本実施の形態の結晶形予測装置1の制御部11は、機能的には図2に例示するように、取得部21と、候補取得部22と、構造記述情報生成部23と、第一原理計算部24と、機械学習部25と、推論部26と、出力部27とを含んで構成されている。
 取得部21は、結晶構造の予測の対象となる化合物に係る情報を取得する。この情報は例えば、結晶構造の予測の対象となる化合物に係る結晶の単位格子構造を表す単位格子構造情報であってもよい。また、ここでの結晶構造は、ベンゼンや尿素等による分子結晶構造であってもよいし、ダイヤモンドや二酸化ケイ素等による共有結合結晶構造、塩化ナトリウム等によるイオン結晶構造等、他の種類の結晶に係る結晶構造であってもよい。
 この単位格子構造情報は、例えば結晶構造の予測の対象となる化合物に係るCIF(Crystallographic Information File)フォーマットのファイルに基づいて得ることができる。CIFファイルは、実験的に得られた結晶構造データを表すものである。本実施の形態では、制御部11は、このCIFファイルの内容から、化合物の分子の構造を表す情報を、単位格子構造情報として得る。具体的にこの分子の構造を表す情報は、単位格子に含まれるべき分子を構成する各原子の種類とそれらの間の結合の状態を特定する情報を含む。
 またこの取得部21が取得する情報は、結晶構造の予測の対象となる化合物に係る情報であって、XYZ(座標ファイル),MOL(MOLファイル),SDFなど、他の分子構造データファイルのフォーマットで記述されたものであってもよい。さらに、取得部21が取得する情報は、結晶構造の予測の対象となる化合物に含まれる原子や分子の種類とそれぞれの数の情報だけであってもよい。
 候補取得部22は、取得部21が取得した情報に基づいて、結晶構造の候補を複数取得する。具体的に、取得部21が取得した情報がCIFファイルであるとすると、この候補取得部22は、当該CIFファイルの内容で特定される、単位格子あたりの分子の情報に基づき、外形的に可能な結晶構造を特定する結晶構造特定情報を複数列挙することにより、結晶構造の候補を取得する。ここで列挙する結晶構造特定情報のうちには、現実にはエネルギーが安定的でなく、その構造を保ち得ない結晶構造を含んでよい。以下では、ここで列挙する結晶構造特定情報を、単に「可能な結晶構造」と呼ぶ。また候補取得部22は、所定の大きさの単位格子を仮想的に設定し、当該単位格子中に、単位格子に含まれる分子を任意の位置に配して(ランダムでよい)、分子力場計算によってその位置を最適化して結晶構造特定情報を複数列挙することにより、結晶構造の候補を取得してもよい。
 このような候補取得部22の動作は、いわゆる結晶構造ジェネレータ(Crystal Structure Generator)として広く知られたものを利用してもよい。例えば、Anthony M. Reilly, et.al., "Report on the sixth blind test of organic crystal structure prediction methods", Acta Cryst. (2016), B72, 439-459等にその記述があるのでここでのさらに詳しい説明は省略する。
 構造記述情報生成部23は、候補取得部22が取得した、可能な結晶構造を特定する結晶構造特定情報のそれぞれについて、構造情報を生成する。ここで構造情報は、後に説明する構造記述情報を生成するための中間的な情報である。この構造情報は具体的に、図3に例示するような単位格子に含まれる各原子Ai(i=1,2…)について、当該原子から所定の半径rの球(この半径rは、半径rの球内に、少なくとも一つの単位格子を含むものとする)内にある他の原子Aj(j=1,2…、ただしj≠i)までの距離dと、原子Aiと原子Ajとが同じ分子に含まれるか否かを表すフラグ情報(セルフフラグ)Fとを関連付けたものである(図4)。しかしこの構造情報は、可変長の情報であり、後に行う機械学習の方法によっては、固定長の情報とすることが好ましい。
 構造記述情報生成部23は、生成した構造情報に基づいて、予め定められたフォーマットの、固定長の構造記述情報を生成する。この構造記述情報の一例は、次のようなものである。
 すなわち、構造記述情報生成部23は、構造情報を参照して、構造情報に含まれる各原子間の相対配置(原子間距離、3つの原子間の角度等)の関数に係るヒストグラムを生成する。ここで相対配置の関数の例としては、原子間の距離(原子間距離)そのものであってもよいし、原子間距離の関数の演算結果でもよい(以下では原子間距離そのものとする)。ヒストグラムの例としては、原子間距離を原子の種類(元素)の対ごとに分類したヒストグラムを用いてもよい。具体的にベンゼン(C)の場合、可能な原子の種類の対として、
C-C
C-H
H-H
の3つの対が考えられる(C-HとH-Cとは同じものとして扱う)。ここであるベンゼン分子内のある炭素原子から、同じベンゼン分子内の炭素原子までの距離(C-C間距離)は、当該炭素原子に隣接する2つの炭素原子までの距離d1(C-C結合の原子間距離(約1.4Å)に相当する)と、2つ先の炭素原子(これも2つある)までの距離d2と、3つ先の炭素原子(1つのみ)までの距離d3とを含む。
 また、当該炭素原子から、隣接するベンゼン分子内の炭素原子までの原子間距離(これもまたC-C間の距離となる)は、隣接する分子に含まれるどの炭素原子(C)に注目するかにより異なり、d4,d5…,d9となる。
 構造記述情報生成部23は、例えば構造情報を生成する際に設定した球の半径rを、固定長とする次元数D(例えば100)で除して、r/100ずつのビン(0以上r/100未満のビン、r/100以上2r/100未満のビン,…)を設定する。構造記述情報生成部23は、設定したビンごとに、該当するビンに相当する値の範囲に含まれる原子間距離を持った対の数を、原子の種類(元素)の対ごとにカウントしてヒストグラムを生成する。具体的にC-C間距離のヒストグラムについて、例えばr=20,次元数を100とするとき、構造記述情報生成部23は、まず、ある単位格子に含まれる炭素原子の一つを注目炭素原子として選択する。そして構造記述情報生成部23は、この注目炭素原子から半径20Å以内の、他の炭素原子(注目炭素原子以外の炭素原子)をすべて探索して、注目炭素原子と当該探索で見出された他の炭素原子との間の距離を計算する。そして構造記述情報生成部23は、当該計算により得られた距離が、1.41Åであったときには、ヒストグラムにおける1.4Å以上1.6Å未満のビンの値に「1」を加算する。
 構造記述情報生成部23は、C-H間,H-H間の各距離についても同様に、原子間距離のヒストグラムを求める。構造記述情報生成部23は、これらのヒストグラムの値を、所定の順で取り出し(ビンに対応する原子間距離が短い順とすればよい)、元素の対ごとに次元数Dのベクトル情報を得る。すなわち上記ベンゼンの例ではD=100とすると、3(元素の対の数)×100=300次元のベクトル情報が得られる。構造記述情報生成部23は、このベクトル情報を、構造記述情報として出力する。なお、各対に対応するベクトル情報をどの順で配列するかは予め定めておけばよい。
 構造記述情報生成部23は、候補取得部22が取得した、可能な結晶構造を特定する結晶構造特定情報のそれぞれについて構造記述情報を得て、互いに対応する結晶構造特定情報と構造記述情報とを関連付けて構造候補データとして記録する。
 第一原理計算部24は、構造候補データに記録されている結晶構造特定情報のうち、一部をサンプリングにより取り出す。具体的にこの第一原理計算部24は、構造候補データに記録されている結晶構造特定情報のそれぞれに1,2…nの連番を付し、1からnまでの、互いに異なる整数を所定の数だけランダムに発生して、当該発生させた整数が付された結晶構造特定情報を取り出すこととすればよい。
 本実施の形態の例では、このように結晶構造特定情報で特定される結晶構造の一部についてのみ第一原理計算を行うことで、演算の負荷を低減している。
 第一原理計算部24は、サンプリングした結晶構造特定情報(選択結晶構造候補に相当する)のそれぞれに係るエネルギーの情報を、第一原理計算により求める。この第一原理計算の処理は、例えば、Quantum ESPRESSO(http://www.quantum-espresso.org/)等の広く知られたツールを用いて行うことができる。また、結晶構造特定情報に基づく第一原理計算用の入力ファイルの生成方法は、広く知られているため、ここでの詳しい説明は省略する。
 第一原理計算部24は、サンプリングした結晶構造特定情報と、構造候補データにおいて当該結晶構造特定情報に関連付けて記録されている構造記述情報と、第一原理計算により求めたエネルギーの情報(教師情報となる)とを関連付けて、学習用情報として記憶部12に記録する。
 機械学習部25は、記憶部12に記録された学習用情報を参照しつつ、機械学習処理を実行する。本実施の形態の一例に係る機械学習部25は、ニューラルネットワークを用いて、構造記述情報とエネルギーの情報との関係を機械学習する。具体的に本実施の形態では機械学習部25は、構造記述情報のベクトルの要素数(次元数)と同じだけのノードを備えた入力層と、複数の中間層と、エネルギーの値を表す情報(エネルギーの情報)と損失とを出力する出力層とを含むニューラルネットワークを用いる。このニューラルネットワークは、例えば全結合型のネットワークであってもよいし、畳み込みネットワークを含むものを用いてもよい。
 本実施の形態の機械学習部25は、記憶部12に記録した学習用情報に含まれる構造記述情報とエネルギー情報との組を順次読み出し、読み出した構造記述情報を、ニューラルネットワークの入力層に入力する。機械学習部25は、読み出した構造記述情報を入力したときにニューラルネットワークの出力として得られるエネルギーの情報と、学習用情報から読み出した、教師情報となるエネルギー情報との差に基づいて、ニューラルネットワーク内の各層間の重みの情報を更新して機械学習する。機械学習部25は、これにより機械学習されたニューラルネットワークのモデルを生成する。
 この機械学習部25における機械学習の方法は、バックプロパゲーション処理として広く知られた方法を採用できるので、ここでの詳しい説明は省略する。
 推論部26は、構造候補データに記録されている結晶構造特定情報のそれぞれについて、構造記述情報を読み出し、機械学習部25によって学習した機械学習結果を用いて、各構造記述情報に対応するエネルギーの情報を取得する。なお、ここで推論部26は、既に第一原理計算部24によりサンプリングしたものを除く構造記述情報を読み出すこととしてもよい。本実施の形態のここでの例では、機械学習結果としてのニューラルネットワークの入力層に、読み出した構造記述情報を入力する。この場合、推論部26は、ニューラルネットワークが出力するエネルギーの情報を、入力した構造記述情報に対応するエネルギーの情報として取得する。
 推論部26は、ここで取得したエネルギーの情報を、対応する結晶構造特定情報(入力した構造記述情報に対応する結晶構造特定情報)に関連付けて、推論結果情報として記憶部12に格納する。
 出力部27は、学習用情報に含まれる、第一原理計算の結果であるエネルギーの情報と結晶構造特定情報との組と、推論部26により推定されたエネルギーの情報と結晶構造特定情報との組とを合成し、構造候補データに記録されている、各結晶構造特定情報に係るエネルギーの情報の一覧を得る。ここでの合成は、構造候補データに含まれる結晶構造特定情報のうち、学習用情報に含まれている結晶構造特定情報については、当該学習用情報に含まれるエネルギーの情報を関連付けて上記一覧に記録し、学習用情報に含まれていない結晶構造特定情報については、推論結果情報に含まれるエネルギーの情報を関連付けて上記一覧に記録することによって行う。
 出力部27は、得られたエネルギーの情報を用いて、安定的な結晶の構造(以下「安定的な結晶構造」と呼ぶ)を予測する。具体的に、この出力部27は、上記の方法で得られた一覧に含まれる結晶構造特定情報とエネルギーの情報との組のうち、別途定めた選択条件を満足する組を選択し、当該選択した組に含まれるエネルギーの情報と、当該エネルギーの情報に関連付けられた結晶構造特定情報とを、安定的な結晶構造を表す情報として出力する。
 ここで選択条件は、例えばエネルギーの情報が表す値が、所定のしきい値を下回るものとの条件であってもよい。このしきい値は、ユーザから入力された値としてもよい。また、この選択条件は、例えば、一覧に含まれるエネルギーの情報が示す値を、小さい順に配列して、当該配列の上位の(値が低いものから順に所定の数だけの)エネルギーの情報を選択する条件であってもよい。
[動作]
 本実施の形態に係る結晶形予測装置1の一例は以上のような構成を備えてなり、次のように動作する。利用者は、結晶構造を予測する対象となる化合物を表す情報を作成しておき、結晶形予測装置1に入力する。
 結晶形予測装置1は、図5に例示するように、利用者が入力した、結晶構造の予測の対象となる化合物に係る情報を受け入れ(S1)、当該受け入れた情報の内容から、単位格子に含まれるべき分子を構成する各原子の種類とそれらの間の結合の状態を特定する情報を含む、単位格子構造情報を得る(結晶構造ジェネレータとしての処理:S2)。
 結晶形予測装置1は、当該得られた単位格子構造情報で特定される、単位格子あたりの分子の情報に基づき、可能な結晶構造を特定する結晶構造特定情報を複数列挙する(S3)。
 結晶形予測装置1は、処理S3で得た可能な結晶構造を特定する結晶構造特定情報のそれぞれについて、単位格子に含まれる各原子iについて、当該原子から所定の半径rの球(この半径rは、半径rの球内に、少なくとも一つの単位格子を含むものとする)内にある他の原子jまでの距離とを関連付けた構造情報を生成する(S4)。結晶形予測装置1は、生成した構造情報に基づいて固定長の構造記述情報を生成する(S5)。
 この処理S5における固定長化の処理は、例えば次のようにして行われる。具体的に結晶形予測装置1は、処理S4で生成した構造情報を参照して、構造情報に含まれる原子の種類(元素)の対ごとに、その対の間の距離(原子間距離)のヒストグラムを、構造記述情報として生成する。
 この処理S5での固定長化は、結晶構造を予測する対象となる化合物ごとに固定された長さのベクトル情報で表されていればよく、互いに異なる化合物に対する構造記述情報のデータサイズは異なっていてもよい。
 結晶形予測装置1は、可能な結晶構造として列挙された結晶構造を特定する結晶構造特定情報のそれぞれについて得られた構造情報と、当該構造情報に対応して処理S5で生成した構造記述情報とを関連付けて構造候補データとして記録する(S6)。
 結晶形予測装置1は、処理S6で記録した構造候補データに記録されている結晶構造特定情報のうちから、その一部をサンプリングにより取り出す(S7)。そして結晶形予測装置1は、サンプリングした結晶構造特定情報のそれぞれに係るエネルギーの情報を、第一原理計算により求め(S8)、処理S7でサンプリングした結晶構造特定情報と、当該構造候補データにおいて当該結晶構造特定情報に関連付けて記録されている構造記述情報と、処理S8の第一原理計算により求めたエネルギーの情報とを関連付けて、学習用情報を生成する(S9)。
 結晶形予測装置1は、処理S9で記録した学習用情報に含まれる構造記述情報とエネルギー情報との組を順次読み出し(S10)、読み出した構造記述情報を、ニューラルネットワークの入力層に入力する(S11)。そして、結晶形予測装置1は、当該ニューラルネットワークの出力として得られるエネルギーの情報と、読み出したエネルギー情報との差に基づいて、ニューラルネットワーク内の各層間の重みの情報を更新して機械学習する(S12)。
 結晶形予測装置1は、次に、構造候補データに記録されている結晶構造特定情報のそれぞれを順次読み出し(S13)、読み出した結晶構造特定情報に対応する構造記述情報とエネルギーの情報の組が、学習用情報に記録されているか否かを判断する(S14)。ここで、当該情報の組が学習用情報に記録されていれば(サンプリングされたものであれば(処理S14:Yes))、結晶形予測装置1は、学習用情報に記録された、構造記述情報とエネルギーの情報との組を読み出して(S15)、処理S13で読み出した結晶構造特定情報と、当該読み出した構造記述情報と、エネルギーの情報とを関連付けてエネルギー情報の一覧に記録する(S16)。
 また、処理S14において、読み出した結晶構造特定情報に対応する構造記述情報とエネルギーの情報の組が、学習用情報に記録されていなければ(S14:No)、結晶形予測装置1は、読み出した結晶構造特定情報に対応する構造記述情報を、機械学習したニューラルネットワークの入力層に入力する。そして結晶形予測装置1は、ニューラルネットワークが出力するエネルギーの情報を、入力した構造記述情報に対応するエネルギーの情報として取得し(S17)、当該得られたエネルギーの情報と、対応する結晶構造特定情報と、構造記述情報とを関連付けてエネルギー情報の一覧に記録する(S18)。
 結晶形予測装置1は、この処理S13からS18の処理を、構造候補データに記録されている結晶構造特定情報のそれぞれについて行い、次いで、これらの処理で得られたエネルギー情報の一覧に含まれる結晶構造特定情報とエネルギーの情報との組のうち、別途定めた選択条件を満足する組を選択し、当該選択した組に含まれるエネルギーの情報と、当該エネルギーの情報に関連付けられた結晶構造特定情報とを、安定的な結晶構造を表す情報として出力する(S19)。
 具体的には、結晶形予測装置1は、一覧に含まれるエネルギーの情報が示す値を、小さい順に配列して、当該配列の上位の(値が低いものから順に所定の数だけの)エネルギーの情報を選択して出力する。
 本実施の形態によると、第一原理計算の入力と出力とが、ニューラルネットワークによって機械学習され、ニューラルネットワークが、第一原理計算の結果を推定する機械学習モジュールとして機能するように構成される。これにより比較的負荷の大きい第一原理計算を、第一原理計算よりも負荷の小さいニューラルネットワークによる推論の処理に置き換えることができ、また第一原理計算の結果が推論されるので、分子力場による演算よりも信頼性を向上できる。
[固定長化の別の例]
 また構造記述情報は、ここまでに説明した元素の対ごとに分類した原子間距離のヒストグラムに限られない。例えば単位格子内の空間を複数の小空間に区切り、当該小空間ごとに単位格子内の原子が当該小空間に対応する位置に存在する確率を表す情報(実際の原子配置に対応する位置を中心としたガウシアン分布関数により確率を定め、各小空間内の確率を積分して、小空間における原子の存在確率とすればよい)を用いることで小空間の数に対応する固定長のベクトル情報を得ることができる。ここで小空間は、例えば直方体状の単位格子をa軸方向にA個、b軸方向にB個、c軸方向にC個に分割して得た直方体状のものとすればよい。
 このような情報を用いて構造記述情報を生成する結晶形予測装置1は、原子の種類(元素)ごとに、単位格子内の小空間内ごとの存在確率の情報を配列したベクトル情報を生成し、小空間の数A×B×Cに、処理の対象とする元素の数nを乗じた数の次元のベクトル情報を、構造記述情報として得る。
 なお、このような構造記述情報の例は、Wen Torng, et.al.,“3D deep convolutional neural networks for amino acid environment similarity analysis”, BMC Bioinfomatics (2017) 18:302, DOI 10.1186/s12859-017-1702-0に記載の研究等において用いられているものと同様であるので、その詳しい説明は省略する。
 さらに別の例では、結晶形予測装置1の構造記述情報生成部23は、候補取得部22が取得した、可能な結晶構造を特定する結晶構造特定情報のそれぞれについて、二次元のX線回折像をシミュレーションして得る(QLaue(https://sourceforge.net/projects/qlaue/)等の広く知られたソフトウエアを用いて得ることができる)。そして得られた二次元のX線回折像を、X×Yのマトリクス状に配列した長方形状の小空間ごとの像に分割し、小空間ごとに、回折像の大きさ(回折像が含まれない場合は「0」とする)を表す情報を、例えばラスタスキャン順に選択して配列し、固定長(X×Y)のベクトル情報とし(図6)、このベクトル情報を構造記述情報としてもよい。
[グラフ畳み込みネットワークを用いる例]
 さらに、結晶形予測装置1の構造記述情報生成部23は、候補取得部22が取得した、可能な結晶構造を特定する結晶構造特定情報のそれぞれについて、一つの分子内の原子間の結合をグラフ(Graph)として捉えて記述して構造記述情報としてもよい。この場合、構造記述情報で記述されるグラフのノードが原子に相当し、エッジが原子間の結合(ボンド)を表し、エッジの重みを、結合している原子間の距離(ボンドの距離)とする。
 この例の機械学習部25は、グラフ畳み込みネットワークを用いて、学習用情報としてサンプリングされた構造記述情報と、当該構造記述情報が表す結晶構造について第一原理計算を行って得たエネルギーの情報との関係を機械学習する。そして推論部26がサンプリングされなかった構造記述情報については、当該機械学習を行ったグラフ畳み込みネットワークに当該構造記述情報を入力したときに、出力として得られるエネルギーの推定値を用いて、候補取得部22が取得した、各結晶構造特定情報に対応するエネルギー情報を生成する(サンプリングしたものについては第一原理計算の結果をそのまま用いる)。
 そして出力部27が、既に述べたように、エネルギー情報に基づいて、結晶構造特定情報の一部を選択し、安定的な結晶構造を表す情報として出力する。
 なお、ここで用いるグラフ畳み込みネットワークの構成及びそれを用いた機械学習の方法、推論の方法等は、M. Schlichtkrull et al.,“Modeling Relational Data with Graph Convolutional Networks”, arXiv preprint arXiv:1703.06103, 2017などにおいて広く知られた方法を採用できるので、ここでの詳しい説明は省略する。
[確認処理]
 また、ここまでの説明では、機械学習の結果により推定されたエネルギーの情報を用いてスクリーニングを行い、当該スクリーニングの結果をそのまま出力していたが、本実施の形態はこの例に限られない。
 例えば本実施の形態の結晶形予測装置1は、制御部11の出力部27の動作において、一覧に含まれるエネルギーの情報が示す値を、小さい順に配列して、当該配列の上位の(値が低いものから順に所定の数だけの)エネルギーの情報と、それに関連付けられた構造記述情報とを予備的に選択し、さらにこの予備的に選択した構造記述情報に対応する結晶構造特定情報を取得して、当該取得した結晶構造特定情報で特定される結晶構造について第一原理計算を実行して、機械学習の結果に基づいて予備的に選択した構造記述情報が表す結晶構造に対応する第一原理計算結果を得てもよい。
 そして出力部27は、この第一原理計算の結果に基づいて安定的と考えられる結晶構造を特定する結晶構造特定情報を、上記の予備的に選択した構造記述情報に対応する結晶構造特定情報のうちからさらに選択して出力してもよい。
 この場合も、可能な結晶構造のすべてについて第一原理計算を行う場合に比べ、安定的と判断される可能性の高い結晶構造について限定的に第一原理計算を行うため、比較的小さい負荷で、比較的精度の高い結果を得ることが可能となる。
[一般的な機械学習結果の生成]
 さらに本実施の形態のここまでの説明では、結晶構造の予測の対象となる化合物ごとに構造記述情報を生成して、機械学習の処理を行っていたが、本実施の形態は、このような例に限られず、複数の化合物に対応する構造記述情報を生成し、複数の化合物に対応する機械学習の結果を得てもよい。
 具体的にこの例では、結晶形予測装置1は、複数の化合物のそれぞれについての単位格子構造情報を取得する。本実施の形態の一例では、単位格子構造情報は、ケンブリッジ結晶学データセンターが提供するCSDや、COD等の種々の利用に供されている結晶データベースを参照して取得すればよい。
 そして結晶形予測装置1は、取得した化合物ごとの単位格子構造情報に基づいて、結晶構造の候補を複数生成して取得する。次に結晶形予測装置1は、化合物ごとに得られた可能な結晶構造を特定する結晶構造特定情報のそれぞれについて構造記述情報を生成する。ここで構造記述情報として、化合物に含まれる原子の種類(元素)の対ごとに、その対の間の距離(原子間距離)のヒストグラムを生成する場合、化合物ごとに含まれる元素が異なるので、ある化合物では存在する元素の対が、別の化合物では存在しない場合もある。このため存在しない元素の対についてはヒストグラムのすべてのビンで「0」の値が設定される場合があり得る。
 以下、結晶形予測装置1は、列挙した構造記述情報で特定される構造の一部をサンプリングして、対応するエネルギー情報を第一原理計算により求め、求められたエネルギー情報と、対応する構造記述情報とを関連付けて記録して、学習用情報を生成する。
 そして結晶形予測装置1は、この学習用情報を用いてニューラルネットワークを機械学習し、構造記述情報に対応するエネルギーの情報を機械学習した推論器を生成する。
 この処理を、取得した化合物ごとに行うことで、複数の化合物に対応するエネルギー情報を推定可能なニューラルネットワークを生成する。
 この例に係る結晶形予測装置1は、結晶構造の予測の対象となる化合物を特定する情報(例えば当該化合物に係るCIFフォーマットのファイル)の入力を受けて、結晶構造の候補を複数取得する。結晶形予測装置1は、取得した結晶構造の候補に対する結晶構造特定情報を得て、さらに当該結晶構造特定情報のそれぞれについて、構造記述情報を生成する。
 結晶形予測装置1は、機械学習したニューラルネットワークの入力層に、生成した構造記述情報を順次入力し、ニューラルネットワークが出力するエネルギーの情報を、入力した構造記述情報に対応するエネルギーの情報として取得する。結晶形予測装置1は、ここで得られたエネルギーの情報を、対応する結晶構造特定情報(入力した構造記述情報に対応する結晶構造特定情報)に関連付けて、推論結果情報として記録する。
 次に結晶形予測装置1は、記録した推論結果情報に基づいて、安定的な結晶の構造(以下「安定的な結晶構造」と呼ぶ)を予測する。具体的に、この結晶形予測装置1は、上記の方法で得られた一覧に含まれる結晶構造特定情報とエネルギーの情報との組のうち、別途定めた選択条件を満足する組を選択し、当該選択した組に含まれるエネルギーの情報と、当該エネルギーの情報に関連付けられた結晶構造特定情報とを、安定的な結晶構造を表す情報として出力する。
[機械学習の他の例]
 なお、本実施の形態における機械学習の方法は、ニューラルネットワークを利用したものに限られない。例えば機械学習部25は、ランダムフォレストを用いてもよい。この例の機械学習部25は、構造記述情報のベクトルに基づいて、エネルギーの情報を出力する複数の決定木を機械学習する。
 このときには推論部26も、また、構造候補データに記録されている結晶構造特定情報のそれぞれ(第一原理計算部24によりサンプリングしたものを除いてもよい)について、構造記述情報を読み出し、機械学習部25によって機械学習した複数の決定木を用いてエネルギーの情報の推論結果を取得する。そして推論部26は、ここで得られたエネルギーの情報を表す情報を、対応する結晶構造特定情報(入力した構造記述情報に対応する結晶構造特定情報)に関連付けて、推論結果情報として記憶部12に格納する。
 また、機械学習部25や推論部26は、構造記述情報とエネルギー情報との関係を機械学習し、当該機械学習の結果を用いて、構造記述情報が与えられたときに、対応するエネルギーの情報を推論できれば、ニューラルネットワークやランダムフォレストだけでなく、線型回帰、リッジ回帰などを含む、どのような方法を用いてもよい。
 1 結晶形予測装置、11 制御部、12 記憶部、13 入出力部、14 表示部、21 取得部、22 候補取得部、23 構造記述情報生成部、24 第一原理計算部、25 機械学習部、26 推論部、27 出力部。
 

Claims (7)

  1.  結晶構造の候補を複数取得する候補取得手段と、
     前記候補取得手段が取得した複数の結晶構造候補のそれぞれについて、各結晶構造候補を特定する構造記述情報を生成する構造記述情報生成手段と、
     前記候補取得手段が取得した複数の結晶構造候補のうちから選択した、選択結晶構造候補のそれぞれに係るエネルギーの情報を、第一原理計算により求める第一原理計算手段と、
     前記構造記述情報生成手段により生成された構造記述情報のうち、前記選択結晶構造候補に対応する構造記述情報を入力情報とし、前記エネルギーの情報を教師情報として、構造記述情報に対応するエネルギーの情報を推定するよう機械学習を行う機械学習手段と、
     を含み、
     前記機械学習手段により得られた機械学習の結果が、前記候補取得手段が取得した各結晶構造候補に係るエネルギーの情報を推定する処理に供される結晶形予測装置。
  2.  前記結晶構造は、分子結晶構造である、請求項1記載の結晶形予測装置。
  3.  前記機械学習手段にニューラルネットワークを用いる、請求項1又は2記載の結晶形予測装置。
  4.  前記構造記述情報生成手段により生成される構造記述情報は、結晶構造候補に含まれる原子間の相対配置の関数に係るヒストグラムである、請求項1~3のいずれか一項記載の結晶形予測装置。
  5.  コンピュータを用い、
     候補取得手段が、結晶構造の候補を複数取得する工程と、
     構造記述情報生成手段が、前記候補取得手段が取得した結晶構造候補のそれぞれについて、各結晶構造候補を特定する構造記述情報を生成する工程と、
     第一原理計算手段が、前記候補取得手段が取得した複数の結晶構造候補のうちから選択した、選択結晶構造候補のそれぞれに係るエネルギーの情報を、第一原理計算により求める工程と、
     機械学習手段が、前記構造記述情報生成手段により生成された構造記述情報のうち、前記選択結晶構造候補に対応する構造記述情報を入力情報とし、前記エネルギーの情報を教師情報として、構造記述情報に対応するエネルギーの情報を推定するよう機械学習を行う工程と、
     を含み、
     前記機械学習の結果が、前記候補取得手段が取得した各結晶構造に対応するエネルギーの情報を推定する処理に供される結晶形予測方法。
  6.  コンピュータを用い、
     結晶構造の候補を複数取得する候補取得工程と、
     前記候補取得工程にて取得した結晶構造候補のそれぞれについて、各結晶構造候補を特定する構造記述情報を生成する構造記述情報生成工程と、
     前記候補取得工程にて取得した複数の結晶構造候補のうちから選択した、選択結晶構造候補のそれぞれに係るエネルギーの情報を、第一原理計算により求める第一原理計算工程と、
     前記構造記述情報生成工程により生成された構造記述情報のうち、前記選択結晶構造候補に対応する構造記述情報を入力情報とし、前記エネルギーの情報を教師情報として、構造記述情報に対応するエネルギーの情報を推定するよう機械学習を行う機械学習工程と、
     を含む、
     結晶構造に係るエネルギーの情報を推定するニューラルネットワークモデルの製造方法。
  7.  コンピュータを、
     結晶構造の候補を複数取得する候補取得手段と、
     前記候補取得手段が取得した結晶構造候補のそれぞれについて、各結晶構造候補を特定する構造記述情報を生成する構造記述情報生成手段と、
     前記候補取得手段が取得した複数の結晶構造候補のうちから選択した、選択結晶構造候補のそれぞれに係るエネルギーの情報を、第一原理計算により求める第一原理計算手段と、
     前記構造記述情報生成手段により生成された構造記述情報のうち、前記選択結晶構造候補に対応する構造記述情報を入力情報とし、前記エネルギーの情報を教師情報として、構造記述情報に対応するエネルギーの情報を推定するよう機械学習を行う機械学習手段と、
     として機能させ、
     前記機械学習手段により得られた機械学習の結果が、前記候補取得手段が取得した各結晶構造に対応するエネルギーの情報を推定する処理に供されるプログラム。

     
     
     
PCT/JP2020/014371 2019-03-29 2020-03-27 結晶形予測装置、結晶形予測方法、ニューラルネットワークモデルの製造方法、及びプログラム WO2020203922A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019068123A JP2020166706A (ja) 2019-03-29 2019-03-29 結晶形予測装置、結晶形予測方法、ニューラルネットワークの製造方法、及びプログラム
JP2019-068123 2019-03-29

Publications (1)

Publication Number Publication Date
WO2020203922A1 true WO2020203922A1 (ja) 2020-10-08

Family

ID=72668184

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/014371 WO2020203922A1 (ja) 2019-03-29 2020-03-27 結晶形予測装置、結晶形予測方法、ニューラルネットワークモデルの製造方法、及びプログラム

Country Status (2)

Country Link
JP (1) JP2020166706A (ja)
WO (1) WO2020203922A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112216355A (zh) * 2020-10-22 2021-01-12 哈尔滨理工大学 一种基于机器学习的多组分晶体构型能预测方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114521263A (zh) * 2019-09-20 2022-05-20 首选网络株式会社 推测装置、训练装置、推测方法以及训练方法
JP7314963B2 (ja) * 2021-03-08 2023-07-26 株式会社豊田中央研究所 結晶構造探索装置及び結晶構造探索方法
WO2022260177A1 (ja) * 2021-06-11 2022-12-15 株式会社 Preferred Networks 推定装置、訓練装置、推定方法、訓練方法、プログラム及び非一時的コンピュータ可読媒体
JPWO2023008173A1 (ja) * 2021-07-27 2023-02-02
CN117716431A (zh) * 2021-07-27 2024-03-15 松下知识产权经营株式会社 探索方法、探索系统、程序、预测模型构建方法及预测模型构建装置
CN114329674B (zh) * 2021-12-31 2024-05-03 北京迈高材云科技有限公司 基于Quantum Espresso的云端高通量材料自动筛选方法和系统
WO2023228657A1 (ja) * 2022-05-25 2023-11-30 日本碍子株式会社 分析装置および分析方法
CN115684484A (zh) * 2022-10-20 2023-02-03 天津大学 一种预测晶体颗粒临界结块周期的方法
WO2024111471A1 (ja) * 2022-11-21 2024-05-30 オムロン株式会社 情報処理装置、学習済みモデル生成装置、情報処理方法、学習済みモデル生成方法、情報処理プログラム、及び学習済みモデル生成プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018168580A1 (ja) * 2017-03-13 2018-09-20 日本電気株式会社 関係性探索システム、情報処理装置、方法およびプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018168580A1 (ja) * 2017-03-13 2018-09-20 日本電気株式会社 関係性探索システム、情報処理装置、方法およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Simultaneous Prediction of Multiple Physical Properties Using Multi-task Learning", IEICE TECHNICAL REPORT, vol. 113, no. 4 7 6, 27 February 2014 (2014-02-27), pages 9 - 13, ISSN: 0913-5685 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112216355A (zh) * 2020-10-22 2021-01-12 哈尔滨理工大学 一种基于机器学习的多组分晶体构型能预测方法
CN112216355B (zh) * 2020-10-22 2024-01-26 哈尔滨理工大学 一种基于机器学习的多组分晶体构型能预测方法

Also Published As

Publication number Publication date
JP2020166706A (ja) 2020-10-08

Similar Documents

Publication Publication Date Title
WO2020203922A1 (ja) 結晶形予測装置、結晶形予測方法、ニューラルネットワークモデルの製造方法、及びプログラム
Husic et al. Coarse graining molecular dynamics with graph neural networks
Jablonka et al. Big-data science in porous materials: materials genomics and machine learning
Vasudevan et al. Materials science in the artificial intelligence age: high-throughput library generation, machine learning, and a pathway from correlations to the underpinning physics
Li et al. Pure density functional for strong correlation and the thermodynamic limit from machine learning
Wang et al. Data‐Driven Materials Innovation and Applications
Wang et al. Memetic algorithm based on sequential variable neighborhood descent for the minmax multiple traveling salesman problem
Jiang et al. Graph neural network architecture search for molecular property prediction
Cersonsky et al. Improving sample and feature selection with principal covariates regression
Ye et al. Harnessing the Materials Project for machine-learning and accelerated discovery
Restrepo Chemical space: limits, evolution and modelling of an object bigger than our universal library
Gómez-Bombarelli et al. Machine learning and big-data in computational chemistry
Zhu et al. WyCryst: Wyckoff inorganic crystal generator framework
McNaughton et al. De novo design of protein target specific scaffold-based Inhibitors via Reinforcement Learning
CN114881343A (zh) 基于特征选择的电力系统短期负荷预测方法及装置
Coello Evolutionary multiobjective optimization: current and future challenges
Minotakis et al. Machine-learning surrogate model for accelerating the search of stable ternary alloys
Arróyave Phase stability through machine learning
CN117198417A (zh) 基于机器学习和目标优化的稳定晶体结构预测方法及系统
Coles et al. Leading edge chemical crystallography service provision and its impact on crystallographic data science in the twenty-first century
David et al. Empirical study of ensemble classifications on benchmark datasets
Paleico et al. A bin and hash method for analyzing reference data and descriptors in machine learning potentials
Garcia-Cardona et al. Structure prediction from neutron scattering profiles: A data sciences approach
KR20240129735A (ko) 머신러닝을 활용한 2차원 물질 모델링 장치 및 2차원 물질 모델링 방법
Tang et al. Exploring Ground States of Fermi-Hubbard Model on Honeycomb Lattices with Counterdiabaticity

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20784321

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20784321

Country of ref document: EP

Kind code of ref document: A1