WO2021044857A1 - 材料特性予測システムおよび情報処理方法 - Google Patents

材料特性予測システムおよび情報処理方法 Download PDF

Info

Publication number
WO2021044857A1
WO2021044857A1 PCT/JP2020/031426 JP2020031426W WO2021044857A1 WO 2021044857 A1 WO2021044857 A1 WO 2021044857A1 JP 2020031426 W JP2020031426 W JP 2020031426W WO 2021044857 A1 WO2021044857 A1 WO 2021044857A1
Authority
WO
WIPO (PCT)
Prior art keywords
atoms
spatial structure
structure feature
triangle
material property
Prior art date
Application number
PCT/JP2020/031426
Other languages
English (en)
French (fr)
Inventor
彰規 淺原
貴之 林
拓也 金澤
秀和 森田
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to US17/613,099 priority Critical patent/US20220223234A1/en
Priority to CN202080053900.6A priority patent/CN114207619A/zh
Priority to EP20861018.8A priority patent/EP4027261A4/en
Publication of WO2021044857A1 publication Critical patent/WO2021044857A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C60/00Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Definitions

  • the present invention relates to a technique for supporting experiments such as materials science.
  • a well-known method for this prediction is to obtain a function that returns the properties of a material by regression analysis, taking various parameters related to material design as arguments.
  • the variable corresponding to the argument of the function is called the explanatory variable, and the value corresponding to the return value of the function is called the objective variable.
  • Patent Document 1 material properties are predicted using the component compounding ratio as an explanatory variable. This method can be used to predict the properties of a material formed by mixing a plurality of substances. However, it cannot be applied to predict the properties of a single substance.
  • Patent Document 2 discloses a method in which the three-dimensional structure of a molecule is divided into spatial lattices (voxels) in the space around the molecule, expressed by the number of atoms in each voxel, and used as explanatory variables. .. According to this method, it is possible to predict the physical properties of a single molecule based on its three-dimensional shape.
  • a preferred aspect of the present invention is a system for predicting material properties, which is a three-dimensional molecular structure calculation unit having a function of calculating the position coordinates of atoms constituting a molecule from the structural formula of the material, and a tertiary. Based on the position coordinates of the atoms calculated by the original molecular structure calculation unit, three atoms are selected to construct a triangle, and the distance between the three atoms and other atoms is calculated to obtain the spatial structure feature quantity. It is a material property prediction system characterized by having a spatial structure feature amount calculation unit and a material property prediction unit that predicts material properties using the spatial structure feature amount generated by the spatial structure feature amount calculation unit as an explanatory variable. ..
  • Another preferable aspect of the present invention is a three-dimensional molecular structure calculation process in which the structural formula of a material is input and the positions of atoms constituting the molecule are calculated from the structural formula of the material, and the calculated atomic positions are used as the basis.
  • This is an information processing method that executes a spatial structure feature calculation process that selects three atoms, constructs a triangle, calculates the distance between the three atoms and other atoms, and obtains a spatial structure feature. ..
  • FIG. 1 The functional block diagram which shows the example of the structural outline of Example 1.
  • FIG. The block diagram which shows the example of the configuration of the physical implementation of Example 1.
  • the conceptual diagram which shows the example of the use procedure of Example 1.
  • FIG. The flow chart which shows the example of the material DB update process of Example 1.
  • the image figure which shows the example of the screen display of the experiment data reception of Example 1.
  • FIG. The figure which shows the example of the structure of the experimental data of Example 1.
  • FIG. The figure which shows the example of the experimental data table of the material DB of Example 1.
  • FIG. The figure which shows the example of the information for one molecule of the three-dimensional molecular structure data of Example 1.
  • the flow chart which shows the example of the spatial structure feature amount calculation process of Example 1.
  • Example 1 The schematic diagram of the calculation process of the spatial structure feature quantity assumed in Example 1.
  • FIG. The functional block diagram which shows the example of the structural outline of Example 2.
  • FIG. The flow chart which shows the example of the material property prediction processing of Example 2.
  • FIG. 1 shows an example of the material property prediction device of the first embodiment.
  • the material property prediction device (101) of this embodiment is a device that accepts the operation of the user (102), and stores the experimental data reception unit (111) that receives the experimental data from the user, the characteristics of the material, and the characteristics thereof.
  • Material database (DB: Data Base) (112) 3D molecular structure calculation unit (113) that receives information on the molecular structural formula of the material and estimates the coordinates of each atom that constitutes the molecule, 3D molecular structure calculation
  • the spatial structure feature amount calculation unit (114) that calculates the spatial structure feature amount of the molecule based on the atomic position calculated by the part (113), and the spatial structure feature amount calculated by the spatial structure feature amount calculation unit (114).
  • the material characteristic value has not been measured from the information of the measured molecule. It is a system including a material property prediction unit (116) for predicting the material property of the measured molecule and a material property prediction presentation unit (118) for presenting the result of the material property prediction unit (116) to the user (102).
  • the material property prediction device (101) is composed of an information processing device such as a server including an input device, an output device, a storage device, and a processing device. Functions such as calculation and control are realized by executing a program stored in a storage device by a processing device in cooperation with other hardware.
  • FIG. 1 shows a functional block instead of the hardware configuration of the information processing device.
  • a program executed by a computer or the like, its function, or a means for realizing the function may be referred to as a "function", a "means”, a "part”, a “unit”, a “module”, or the like.
  • FIG. 2 shows an example of the configuration of the physical implementation of the first embodiment.
  • the material property predictor (101) can be implemented using a general computer. That is, a processor (201) having computing performance, a DRAM (Dynamic Random Access Memory) (202) which is a volatile temporary storage area capable of reading and writing at high speed, a permanent disk (magnetic disk device), a flash memory, and the like.
  • a storage device (203) that is a typical storage area, an input device (204) such as a mouse or keyboard for operation, a monitor (205) for showing the operation to the user, and a serial port for communicating with the outside. Etc. (206).
  • the experimental data reception unit (111), three-dimensional molecular structure calculation unit (113), spatial structure feature amount calculation unit (114), material property prediction unit (116), and material property prediction presentation unit (118) in FIG. 1 are stored. This can be achieved by the processor (201) executing the program recorded in the device (203).
  • the material DB (112) and the spatial structure feature DB (115) can be implemented by the processor (201) executing a program that stores data in the storage device (203).
  • the configuration of FIG. 2 may be configured by a single computer, or any part may be configured by another computer connected by a network. That is, a similar system may be configured by a plurality of computers.
  • FIG. 3 schematically shows the procedure for using the system of Example 1.
  • two procedures can be executed: material data input (S310) in which the user inputs data related to material property prediction, and prediction result viewing (S320) in which the result of material property prediction is confirmed.
  • the material data input (S310) inputs the experimental data (600), which is a data set containing the data of the material that has been tested and the data of the material to be tested, into the material property prediction device (101). It is a procedure to do.
  • the material property predictor (101) updates the information stored in the material DB (112) by executing the material DB update process (S311) accordingly.
  • the material property prediction device (101) executes the material property prediction presentation process (S321) in response to the request of the user (102), and the material is a screen that visualizes the result of the material property prediction.
  • the characteristic prediction display (322) is presented.
  • FIG. 4 shows an example of the processing procedure of the material DB update processing (S311).
  • the experiment data reception unit (111) first receives the experiment data (600) from the user (102) and updates the material DB (112) (S401).
  • the three-dimensional molecular structure calculation unit (113) generates the three-dimensional molecular structure data (800) corresponding to the data of the material DB (112) (S402).
  • the spatial structure feature calculation unit (114) executes the spatial structure feature generation process (S403) to calculate the spatial structure feature (1100), and the spatial structure feature DB. Store in (115).
  • FIG. 5 shows an example of a screen displayed on the monitor (205) in order to receive the experimental data (600) from the user (102) in the first step (S401) of the material DB update process (311).
  • the user (102) stores the experimental data in a file in advance, and passes the experimental data (600) in the form of designating the position of the file in the text box (501).
  • tabular data is described in a known CSV (Comma Separated Value) format, and the result of interpreting it and converting it into a tabular format is displayed on the table screen (502).
  • CSV Common Separated Value
  • the described information is the identifier of the experiment "ID”, the temperature at the time of the experiment "Temp”, the water solubility at that time “SOL”, and the character string "SMILES” indicating the structural formula of the material.
  • water solubility is the material property to be predicted, and the data with blank SOL column indicates that it is an unexperimental condition. Note that this data transfer is an example, and other methods may be used as long as the experimental data including the structural formula and material properties of the material can be passed as information that can be converted into a tabular format.
  • the information is displayed on the front screen (502) and saved in the material DB (112) by the button (503).
  • FIG. 6 shows a configuration example of one record of this experimental data (600).
  • the experimental data (600) is the material properties (601), the material structural formula (602) which is information that can indicate the structural formula of the material such as the SMILES format, and the experimental conditions that indicate the experimental conditions such as temperature and pressure.
  • the information in (603) is one record, and the experimental data (600) is a collection of a plurality of these records. These pieces of information correspond to each item on the front screen (502) of FIG. 5, and in this embodiment, which element each item corresponds to is determined by the correspondence with a predetermined item name. The user (102) may be asked to input this correspondence from the screen.
  • the material property (601) a numerical value known by an experiment or the like is stored, and if it has not been tested, a blank is stored.
  • the definition and number of material properties (601) and experimental conditions (603) are arbitrary.
  • the experimental data (600) is interpreted and shaped and stored as an experimental data table of the material DB (112).
  • Figure 7 shows the information of one record in the experimental data table.
  • This data includes the experiment ID (701) numbered serially so that the experiment can be uniquely identified, the material property (702) derived from the material property (601) of the experiment data (600), and the experiment data (.
  • the material structural formula (703) derived from the material structural formula (602) of 600) and the experimental condition (704) derived from the experimental condition (603) are included. These may be converted into a unified expression by converting the unit or format of the information from which each is derived.
  • FIG. 8 shows the configuration of one molecule of the three-dimensional molecular structure data (800) calculated by the three-dimensional molecular structure calculation unit (113) in the process (S402), which is the second step of the material DB update process (S311). Is shown.
  • This data is information that describes the relative coordinates of each atom that constitutes the molecule. Since the number of atoms that make up a molecule differs depending on the type of molecule, a molecule consisting of N atoms is taken as an example here.
  • the relative coordinates referred to here are coordinate values that can be easily calculated by a known method such as the distance geometry method from the information on the atoms and their bonds appearing in the material structural formula (703). Normally, when the distance between atoms is less than the van der Waals radius, it corresponds to the state where the atoms are bonded.
  • FIG. 9 schematically shows an example of a three-dimensional molecular structure. This figure shows the position of a molecule in three-dimensional space, with spheres and element symbols indicating atoms, and lines between spheres indicating bonds (hydrogen atoms are omitted). Has been). Information on the types and bonds of the atoms that make up the molecule is described in the structural formula, but usually the position of the atom is not described. For example, the existence of a carbon atom (901) and another carbon atom to be bonded are the information described in the structural formula.
  • the coordinate values of the carbon atom (901) (1.0, 1.2, 5.0) and the coordinate values of the carbon atom (902) (7.0, 3.7, 5.0) are not described, so calculation is required.
  • an atom is once placed at a position about the van der Waals radius based on the structural formula, and the position is optimized and calculated so as to have a reasonable value for the bond angle and the like, and the placement is obtained. be able to.
  • Various methods are known for this calculation method, and any method may be used as long as a certain degree of accuracy can be obtained.
  • the coordinate values obtained as a result of this calculation are only relative coordinates, and the coordinate system differs depending on the molecule. Regarding this, there is a method of trying to make some unified standard by using, for example, the center of gravity of the molecule, but in this embodiment, there is an advantage that the reference of this coordinate system does not have to be, and any one can be used.
  • the information of the three-dimensional molecular structure data (800) can be obtained.
  • the experiment data (600) it is required to associate the corresponding experiment ID (701).
  • the third step of the material DB update process (311) is the spatial structure feature amount generation process (S403) that calculates the feature amount from the three-dimensional molecular structure data (800).
  • FIG. 10 shows the details of this process.
  • the three reference atoms in the three-dimensional structure are first selected (S1001).
  • the combination of three carbon atoms constituting the molecule is examined, and the atom constituting the triangle having the largest area is selected and used, but the atom suitable for expressing the characteristics of the molecule is selected by another criterion. You can also do it. For example, by including an element having a large molecular weight other than a carbon atom as a candidate, a numerical value related to a priority position as a mass distribution inside the molecule can be calculated.
  • the carbon atom is prioritized as the atom constituting the triangle. This is because when the material is organic, the backbone of the structure is a carbon atom. Most of all, it is not essential to select a carbon atom, and an atom having high accuracy may be appropriately selected. In reality, it is presumed that which atom should be used depends on the physical characteristics to be predicted, so it is desirable that the user can set it appropriately.
  • the three atoms constituting the reference triangle in the three-dimensional structure are assigned a reference atomic number (reference number) to determine the patrol direction, as will be described later in FIGS. 11 and 12.
  • the atom 1101 is the reference atomic number 1
  • the atom 1102 is the reference atomic number 2
  • the atom 1103 is the reference atomic number 3.
  • the method of selecting the atoms that make up the triangle may differ depending on the material properties that you want to predict, so make multiple calculations and select the most accurate one. You may.
  • the other atoms are sorted according to a predetermined standard (S1002).
  • a method such as calculating the shortest straight line distance from the center of gravity of the triangle formed by the reference atom and arranging them in ascending order can be taken.
  • any order can be used based on the order determined only by the relative distance between atoms.
  • An identification number is assigned to each atom for other atoms according to this order.
  • the linear distance between each atom and the three reference atoms is calculated according to the above-mentioned order, and this is used as a feature (S1003). As described above, by using the atom constituting the triangle having the largest area as the reference atom, the linear distance can be increased and the error can be compressed.
  • FIG. 11 shows a schematic diagram.
  • Three reference atoms (1101) (1102) (1103) are shown in the figure, and arrows (1105) (1106) (1107) are drawn between them and the other atoms (1104). ..
  • the lengths of these arrows are shown as d1, d2, d3.
  • the coordinates of the atom (1104) are uniquely determined except for the reverse of the front and back of the triangular surface formed by the three reference atoms.
  • the coordinates are determined, the lengths of the three arrows (1105) (1106) (1107) are determined. That is, there is a one-to-one relationship except for mirror image symmetry.
  • these values are arranged in a row to be a spatial structure feature that describes the spatial structure of the molecule.
  • This value has a favorable feature for predicting material properties that there is no dependence on the orientation of the coordinate system and the origin position with respect to the coordinate values of atoms in the molecule, and the molecular structure can be calculated back from the values once the values are determined. have.
  • FIG. 12 shows a table of spatial structural features.
  • the calculated spatial structure feature amount is stored in the spatial structure feature amount DB (115) in the format shown in FIG.
  • an experiment ID (701) is assigned to record which record in the experimental data table of the material DB (112) is derived from. For this, a method such as reproducing the correspondence in the order of arrangement may be taken.
  • the atomic numbers (1201) (1202) (1203) of the reference atom and the distances (1204) (1205) (1206) between the reference atoms are recorded.
  • the distance of each atom to the reference atom is described as the above-mentioned spatial structural feature (1207) (1208) (1209).
  • the number of items is created based on the case in which the number of atoms is the largest among the cases stored in the material DB (112), and the items for which the corresponding atom does not exist for the molecule whose number of atoms is not the maximum Give 0.
  • the distance at this time may be in any unit, but in this example, Angstrom is used.
  • the material property prediction presentation process (S321) at the time of viewing the prediction result (S320) will be described with reference to FIG.
  • the material specific prediction presentation unit (117) presents the material property prediction display (322) to the user (102) by the monitor (205), and receives the designation of the experimental data table to be predicted (S1301). ..
  • the contents of the experimental data table stored in the material DB (112) may be used.
  • FIG. 14 An example is shown in FIG. In the drop-down box (1401) in the figure, for example, a file name of the experimental data table is displayed as a candidate.
  • the material specific prediction presenting unit (117) tells the material property prediction unit (116) that the material property (702) in the record of the experimental data table (FIG. 7) is blank. It sends an instruction to perform interpolation based on the predicted value of the object, and the result is displayed on the screen (1403).
  • the underlined numerical values indicate that the blank data was interpolated.
  • the material property prediction unit (116) receives an instruction to execute the interpolation of the material specific prediction presentation unit (117), the data of the specified experimental data table is acquired from the material DB (112) (S1302), and the experiment is performed. The corresponding record is obtained from the spatial structure feature table (1200) using ID (701) (S1303). By associating these, data used for material property prediction is generated (S1304).
  • FIG. 15 shows the configuration (1500) for one record of data for material property prediction.
  • This data shows the experiment ID (701), material properties (702), and experimental conditions (704) from the material DB (112), and the reference atom 1 information (1201) and reference atom 2 from the spatial structural feature amount DB (115).
  • a record that obtains the distance d1 (1207) to atom 1, the distance (1208) to the reference atom 2 of each atom, and the distance (1209) to the reference atom 3 of each atom, and has a common experimental ID (701). Is a combination of.
  • the material property prediction unit (116) excludes the data for material property prediction from which the material property (702) has not been measured, that is, is blank, and sets the items excluding the experiment ID (701) and the material property (702) as explanatory variables and material property ( With 702) as the objective variable, a known regression analysis is performed to obtain a predictive function (S1305).
  • a known multivariate regression analysis method can be used, and multivariates such as regression tree, random forest, support vector regression, Gaussian process regression, and neural network are used as arguments.
  • a known high-precision nonlinear regression method can be used.
  • this prediction result will be reflected on the screen (1403) by the material specific prediction presentation unit (117) (S1307).
  • the spatial structural features and the experimental conditions are used as explanatory variables, but in reality, some other quantity (for example, molecular weight, charge) may be derived and used in addition.
  • the distance d1 (1207) from the reference atom 1 of each atom is 0 without handling the data. It can be predicted and more accurate can be obtained.
  • the spatial structure of the molecule can be incorporated into the prediction and evaluated without any special post-treatment for the screening of the experimental design. This is expected to improve the prediction accuracy.
  • Example 2 the experiment is performed by not only calculating the predicted value of the material property for the material whose material property has not been measured, but also searching for the condition for which the prediction is the optimum material property and displaying it on the screen. It is characterized by being useful for planning.
  • FIG. 16 shows an example of the configuration of the second embodiment.
  • the difference between Example 2 and Example 1 is the optimum material property candidate creation unit (1601).
  • the optimum material property candidate creation unit (1601) has the function of searching for the condition for which the prediction is the optimum material property, and is presented to the user in the material property prediction presentation process (S321) referred to in the first embodiment.
  • the virtual molecular structure that is a candidate for the optimum value can be displayed three-dimensionally in the material property prediction display (322).
  • FIG. 17 shows the material property prediction presentation process (S1700) of Example 2 using the optimum material property candidate creation unit (1601).
  • This material property prediction presentation process (S1700) is different from the material property prediction presentation process (S321) of Example 1 (FIG. 13), and after the material property prediction unit (116) makes a prediction, the regression analysis used for the prediction is performed.
  • a regression model is passed to the Optimal Material Property Candidate Creation Department (1601), which is used to meet certain conditions such as those with the maximum and minimum material properties and are not included in the Material DB (112). The process of searching for a candidate (S1701) is performed.
  • an explanatory variable that satisfies a predetermined condition is searched by an optimum value search method for known functions such as a gradient descent method, a conjugate gradient method, and a genetic algorithm.
  • the result of this search is displayed on the material property prediction result screen (S1702).
  • FIG. 18 shows an example of this display result.
  • This screen differs from Example 1 (FIG. 14) in that the structure of the searched virtual molecule is displayed at the lower part.
  • This predetermined condition is displayed in the drop-down box (1801), from which the user (102) can select one.
  • the three-dimensional structure of the molecule corresponding to this selected result is displayed on the screen (1802).
  • the coordinates of each atom constituting the molecule are calculated and used by the logic as shown in FIG.
  • a line representing the bond is drawn as a bond.
  • processing such as evaluation of constraints such as setting the number of atoms bonded to carbon atoms to 4 may be performed.
  • candidates can be selected in addition to the candidate compounds given by the user (102), and it is expected that the possibility of discovering a compound that the user did not notice will increase.
  • a single molecule in order to make a prediction based on the spatial structure of the molecule, a single molecule can be calculated without giving a degree of freedom regarding the selection of the coordinate system and so that the inverse calculation can be performed.
  • Use features that have a one-to-one correspondence with the spatial structure This makes it possible to predict the material properties in a form that incorporates the three-dimensional structure of the molecule, which in turn leads to more appropriate screening.
  • the three-dimensional structure of the molecule can be incorporated into the prediction to enable more accurate prediction.
  • the three-dimensional structure of a molecule having a specific predicted value can be inversely calculated, it is possible to estimate the shape of a molecule having desirable properties. As a result, it becomes easier to make an experimental plan, and by extension, it becomes possible to develop a good material with a small number of experiments.
  • the coordinate system in the molecule is uniquely determined.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Geometry (AREA)
  • General Physics & Mathematics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

座標系の選択に関する自由度をもたせることなく分子の空間構造を規定し、分子の立体構造に基づいた材料特性の予測をする。 材料特性の予測を行うためのシステムであって、材料の構造式から分子を構成する原子の位置座標を算出する機能を備えた三次元分子構造算定部と、三次元分子構造算定部の算出した原子の位置座標をもとに、3つの原子を選び出して三角形を構築し、3つの原子と他の原子との距離を算出して空間構造特徴量とする機能を持つ空間構造特徴量算定部と、空間構造特徴量算定部の生成した空間構造特徴量を説明変数として材料特性を予測する材料特性予測部と、を持つことを特徴とする材料特性予測システムである。

Description

材料特性予測システムおよび情報処理方法
 本発明は、材料科学等の実験を支援する技術に関する。
 データ分析にかかる統計処理技術の発展に伴い、材料科学においてもデータ分析を行う需要が高まっている。特に、材料科学分野では、新素材の開発を効率的に行うために、次の実験の候補の選定を、既知のデータを元にして行うスクリーニングとよばれる方法が知られている。
 スクリーニングの方法としては、各種実験のデータを情報システムに入力して機械学習を行って実験結果の予測のモデルを構築し、モデルの予測に基づいたスクリーニングを行う。この予測には、材料設計に関する様々なパラメータを引数にとり、材料の特性を返す関数を回帰分析によって求める方法がよく知られている。
特開2004-086892号公報 特表2017-520868号公報 特開2008-081435号公報
 材料開発においては、材料特性の予測の精度を高めることで、より的確に新材料の候補に対する有望性を見極めることができ、不要な実験を省略することで効率的な材料開発ができるようになると期待される。
 回帰分析では、関数の引数に相当する変数を説明変数、関数の返り値に相当する値を目的変数と呼ぶが、材料特性の予測では材料特性を目的変数とし、それを予測できるように材料の特徴を示す説明変数を選ぶ。この説明変数の選択いかんによって予測の精度は上下するため、様々な材料特性の予測に対応できるようにバラエティに富んだ説明変数の生成手法をそろえることが肝要となる。
 特許文献1では、説明変数として成分配合比をもちいて材料特性を予測している。この方法は複数の物質が混合してできる材料の特性予測に用いることができる。しかし、単一の物質の特性の予測には適用できない。
 特許文献2には、分子の立体的な構造を、分子の周囲の空間を空間格子(ボクセル)にわけ、各ボクセル内の原子数によって表現し、それを説明変数に用いる方法が開示されている。この方法によれば、単一の分子に対してもその立体的な形状をもとにした物性予測が可能となる。
 ところが、ボクセルを用いた方法では、座標系の決め方に自由度がある。すなわち、原点を分子のどこに置くのか、または、どの方向をx軸とするのか、などを決める手段がない。つまり、同じ物質でも多数のボクセルがありうることになる。
 特許文献2の発明では、原点や角度を変えたデータを多数生成することで、回帰分析にこの自由度を織り込もうとしているが、重複するデータを多数投入することになり計算時間等が大幅に増えてしまう。また、回帰分析の技法にもよるが、回帰分析のアルゴリズムがこの自由度を適切にモデルに織り込むことができるかは明確ではなく、予測精度をむしろ低下させる懸念が残る。さらに、仮にうまく予測できたとしても、逆計算が出来ないという課題もある。例えば、材料特性の予測値が最も高い条件を見つけたいという場合には、材料の特性を返す関数の最大値を探索すればよさそうだが、そのときのボクセルの説明変数を得たところで、対応する分子の構造は容易には推察できない。
 同様に分子の立体構造をもとにしたスクリーニングの方法としては、特許文献3に開示されているような既知の分子との類似性を評価する方法も知られている。この方法では他の分子を基準とするために分子単独の座標系の自由度の影響はすくないが、やはり逆計算が難しく、また、十分多数の分子が既知でなければ適用できないという問題がある。
 そこで、座標系の選択に関する自由度をもたせることなく分子の空間構造を規定し、分子の立体構造に基づいた材料特性の予測をすることが望まれる。
 本発明の好ましい一側面は、材料特性の予測を行うためのシステムであって、材料の構造式から分子を構成する原子の位置座標を算出する機能を備えた三次元分子構造算定部と、三次元分子構造算定部の算出した原子の位置座標をもとに、3つの原子を選び出して三角形を構築し、3つの原子と他の原子との距離を算出して空間構造特徴量とする機能を持つ空間構造特徴量算定部と、空間構造特徴量算定部の生成した空間構造特徴量を説明変数として材料特性を予測する材料特性予測部と、を持つことを特徴とする材料特性予測システムである。
 本発明の好ましい他の一側面は、材料の構造式を入力とし、該材料の構造式から分子を構成する原子の位置を算出する三次元分子構造算定処理と、算出した原子の位置をもとに、3つの原子を選択して三角形を構築し、3つの原子と他の原子との距離を算出して空間構造特徴量を得る空間構造特徴量算定処理と、を実行する情報処理方法である。
 座標系の選択に関する自由度をもたせることなく分子の空間構造を規定し、分子の立体構造に基づいた材料特性の予測が可能になる。
実施例1の構成概略の例を示す機能ブロック図。 実施例1の物理的実装の構成の例を示すブロック図。 実施例1の使用手順の例を示す概念図。 実施例1の材料DB更新処理の例を示すフロー図。 実施例1の実験データ受付の画面表示の例を示すイメージ図。 実施例1の実験データの構成の例を示す表図。 実施例1の材料DBの実験データテーブルの例を示す表図。 実施例1の三次元分子構造データの1分子分の情報の例を示す表図。 実施例1で想定される三次元分子構造の模式図。 実施例1の空間構造特徴量計算処理の例を示すフロー図。 実施例1で想定される空間構造特徴量の計算過程の模式図。 実施例1の空間構造特徴量のテーブルの例を示す表図。 実施例1の材料特性予測処理の例を示すフロー図。 実施例1の材料特性予測表示の例を示すイメージ図。 実施例1の材料特性予測用データの構成の例を示す表図。 実施例2の構成概略の例を示す機能ブロック図。 実施例2の材料特性予測処理の例を示すフロー図。 実施例2の材料特性予測表示の例を示すイメージ図。
 実施の形態について、図面を用いて詳細に説明する。ただし、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。
 以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、重複する説明は省略することがある。
 同一あるいは同様な機能を有する要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。ただし、複数の要素を区別する必要がない場合には、添字を省略して説明する場合がある。
 本明細書等における「第1」、「第2」、「第3」などの表記は、構成要素を識別するために付するものであり、必ずしも、数、順序、もしくはその内容を限定するものではない。また、構成要素の識別のための番号は文脈毎に用いられ、一つの文脈で用いた番号が、他の文脈で必ずしも同一の構成を示すとは限らない。また、ある番号で識別された構成要素が、他の番号で識別された構成要素の機能を兼ねることを妨げるものではない。
 図面等において示す各構成の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面等に開示された位置、大きさ、形状、範囲などに限定されない。
 <1.システム構成>
 図1に、実施例1の材料特性予測装置の例を示す。本実施例の材料特性予測装置(101)は、利用者(102)の操作を受け付ける装置であって、利用者から実験データを受け取る実験データ受付部(111)、材料の特徴とその特性が格納された材料データベース(DB : Data Base)(112)、材料の分子構造式の情報を受け取り、分子を構成する各原子の座標を推定する三次元分子構造算定部(113)、三次元分子構造算定部(113)の算定した原子位置を元に当該分子の空間構造特徴量を算定する空間構造特徴量算定部(114)、空間構造特徴量算定部(114)が算出した空間構造特徴量を、当該分子の識別子と対応付けて保存する空間構造特徴量DB(115)、材料DB(112)および空間構造特徴量DB(115)の情報を元に材料特性値が計測済みの分子の情報から未計測の分子の材料特性を予測する材料特性予測部(116)、材料特性予測部(116)の結果を利用者(102)に提示する材料特性予測提示部(118)、を含むシステムである。
 本実施例では材料特性予測装置(101)は、入力装置、出力装置、記憶装置、処理装置を含むサーバのような情報処理装置で構成することにした。計算や制御等の機能は、記憶装置に格納されたプログラムが処理装置によって実行されることで、定められた処理を他のハードウェアと協働して実現される。図1では、情報処理装置のハードウェア構成に代えて、機能ブロックを示している。各機能ブロックとして、計算機などが実行するプログラム、その機能、あるいはその機能を実現する手段を、「機能」、「手段」、「部」、「ユニット」、「モジュール」等と呼ぶ場合がある。
 図2に実施例1の物理的実装の構成の一例を示す。材料特性予測装置(101)は、一般的なコンピュータを用いて実装できる。すなわち、演算性能を持ったプロセッサ(201)、高速に読み書きが可能な揮発性一時記憶領域であるDRAM(Dynamic Random Access Memory)(202)、HDD(磁気ディスク装置)やフラッシュメモリなどを利用した永続的な記憶領域である記憶装置(203)、操作を行うためのマウスやキーボード等の入力装置(204)、動作を使用者に示すためのモニタ(205)、外部と通信を行うためのシリアルポート等のインタフェース(206)を含む装置である。
 図1の実験データ受付部(111)、三次元分子構造算定部(113)、空間構造特徴量算定部(114)、材料特性予測部(116)、材料特性予測提示部(118)は、記憶装置(203)に記録されたプログラムをプロセッサ(201)が実行することによって実現できる。材料DB(112)、空間構造特徴量DB(115)は、データの蓄積を記憶装置(203)に行うようなプログラムをプロセッサ(201)が実行することで実装できる。
 図2の構成は、単体のコンピュータで構成してもよいし、あるいは、任意の部分が、ネットワークで接続された他のコンピュータで構成されてもよい。すなわち、複数のコンピュータによって、同様のシステムを構成してもよい。
 図3に実施例1のシステムの利用手順について模式的に示す。実施例1は、利用者が材料特性予測にまつわるデータを投入する材料データ投入(S310)と、材料特性予測の結果を確認する予測結果閲覧(S320)の2つの手順が実行できる。
 材料データ投入(S310)は、実験を行った材料のデータ、および、これから実験を行おうとしている材料のデータを格納したデータセットである実験データ(600)を材料特性予測装置(101)に投入する手順である。材料特性予測装置(101)はこれに応じて材料DB更新処理(S311)を実行することで材料DB(112)内部に保存されている情報を更新する。
 予測結果閲覧(S320)では、材料特性予測装置(101)は利用者(102)の求めに応じて材料特性予測提示処理(S321)を実行し、材料特性予測の結果を可視化した画面である材料特性予測表示(322)を提示する。
 <2.材料データ投入処理>
 図4に材料DB更新処理(S311)の処理手順の例を示す。材料DB更新処理(S311)では、最初に実験データ受付部(111)が利用者(102)から実験データ(600)を受け取って材料DB(112)を更新する(S401)。その後、三次元分子構造算定部(113)が材料DB(112)のデータに対応する三次元分子構造データ(800)を生成する(S402)。三次元分子構造データ(800)を用いて、空間構造特徴量算定部(114)が空間構造特徴量生成処理(S403)を実行して空間構造特徴量(1100)を算出、空間構造特徴量DB(115)に格納する。
 図5に材料DB更新処理(311)の最初のステップ(S401)で利用者(102)から実験データ(600)を受け取るために、モニタ(205)に表示する画面の一例を示す。実施例1では、利用者(102)が予め実験データをファイルに記憶しておき、そのファイルの位置をテキストボックス(501)に指定する形で実験データ(600)を受け渡す。受け渡されるファイルには、公知のCSV(Comma Separated Value)形式で表形式のデータが記述されており、それを解釈して表形式とした結果が表画面(502)に表示される。
 図5では、記述されている情報が実験の識別子である「ID」、実験時の温度を示す「Temp」、そのときの水溶性を示す「SOL」、材料の構造式を示す文字列「SMILES」が例示されている。この例では水溶性が予測を行いたい材料特性であり、SOL欄が空白のデータは未実験の条件ということを示している。なお、このデータの受け渡しは一例であり、表形式に変換可能な情報として、材料の構造式と材料特性を含む実験データを渡せる形態であれば他の方法でもよい。情報は表画面(502)に表示され、ボタン(503)により材料DB(112)に保存される。
 図6にこの実験データ(600)の1レコードの構成例を示す。本例では、実験データ(600)は、材料特性(601)、例えばSMILES形式などの材料の構造式を示せる情報である材料構造式(602)、温度や圧力など実験時の条件を示す実験条件(603)の情報を1レコードとする情報であり、実験データ(600)はこのレコードを複数集めたものである。これらの情報は、図5の表画面(502)の各項目と対応しており、本実施例では各項目がどの要素に対応するか所定の項目名との対応をもって判定されている。この対応関係については画面から利用者(102)に入力してもらうなどしてもよい。また、材料特性(601)については、実験などによって判明している数値が格納され、未実験の場合は空白が格納される。材料特性(601)や実験条件(603)の定義や個数は任意である。
 図4の材料DB更新処理(S311)の最初のステップ(S401)では、前記実験データ(600)を解釈・整形して材料DB(112)の実験データテーブルとして格納する。
 図7に実験データテーブルの1レコードの情報を示す。このデータは、実験を一意に識別可能なように連番などで付番された実験ID(701)、実験データ(600)の材料特性(601)に由来する材料特性(702)、実験データ(600)の材料構造式(602)に由来する材料構造式(703)、実験条件(603)に由来する実験条件(704)を含む。これらは各由来となる情報に対して、単位や形式の変換を行い統一した表現に変換されるようにしてもよい。
 図8に材料DB更新処理(S311)の第二のステップである処理(S402)で、三次元分子構造算定部(113)において算定される三次元分子構造データ(800)の一分子相当の構成を示す。このデータは、分子を構成する各原子の相対座標を記述した情報である。分子の種類によってその分子を構成する原子数は異なるため、ここではN個の原子からなっている分子を例にとっている。ここでいう相対座標は、材料構造式(703)にあらわれている原子とその結合の情報からディスタンス・ジオメトリー法など公知の方法で簡易的に算定できる座標値である。通常、原子間の距離がファン・デル・ワールス半径を下回っているような場合は原子間が結合している状態に対応する。
 図9に三次元分子構造の例を模式的に示した。この図ではある一つの分子について3次元空間上での位置を示しており、球および元素記号が原子を、球の間の線が結合を示す形で描かれている(なお、水素原子は省略されている)。分子を構成する原子の種類と結合の情報は構造式に記載されているが、通常、その原子の位置は記述されていない。例えば炭素原子(901)が存在すること、および結合する別の炭素原子については構造式に記載のある情報である。
 しかし、例えば炭素原子(901)の座標値(1.0, 1.2, 5.0)や炭素原子(902)の座標値(7.0, 3.7, 5.0)は記載がないため算定が必要である。公知の方法の一例では、構造式にもとづきファン・デル・ワールス半径程度の位置に一度原子を配置し、結合の角度等について妥当な値になるようにその位置を最適化計算して配置を求めることができる。この計算方法については種々のものが公知であり、ある程度の精度が得られるようになっていれば、どのような方法を用いて求めてもよい。
 この計算結果として得られる座標値については、あくまで相対座標であり、座標系は分子によって異なる。これについては、例えば分子の重心等を用いて何らかの統一的基準を作ろうとする方法があるが、本実施例ではこの座標系の基準はなくてもよく、任意のものでよいという利点がある。
 実験データテーブルの材料構造式(703)のそれぞれについて、原子の位置を算定して適当な順番で記載した結果として、三次元分子構造データ(800)の情報が得られる。この際、実験データ(600)との対応をとるために対応する実験ID(701)を対応付けておくことが求められる。
 材料DB更新処理(311)の第三のステップは、三次元分子構造データ(800)から特徴量を算出する空間構造特徴量生成処理(S403)である。
 図10にこの処理の詳細を示す。この処理では、最初に立体構造中の基準となる3つの原子を選択する(S1001)。本実施例では、分子を構成する炭素原子3つの組み合わせを調べ、最も面積の大きな三角形を構成する原子を選び出して用いるが、分子の特徴を表現するのに適した原子を別の基準によって選択することもできる。例えば、炭素原子以外でも分子量の大きい元素を候補に入れるなどすることで、分子内部の質量分布としての重点的位置に関連する数値が算定できる。
 本実施例では、三角形を構成する原子として炭素原子を優先している。これは、材料が有機物の場合は構造の基幹が炭素原子であることが理由である。最も、炭素原子を選択することは必須ではなく、精度が高くなるものを適宜選択してもよい。実際は、予測したい物性によってどの原子を使うべきかが異なると推察されるので、ユーザが適宜設定できるようにすることが望ましい。
 立体構造中の基準となる三角形を構成する3つの原子は、後に図11、図12で説明するように、基準原子番号(整理番号)を付する等して巡回方向を定めておく。図11では、原子1101が基準原子番号1、原子1102が基準原子番号2、原子1103が基準原子番号3である。
 前述のように、どのような方法で三角形を構成する原子を選定するかは予測したい材料特性によって異なる可能性があるので、複数通り計算するようにして、最も精度のよいものを選択するなどしてもよい。
 次に、他の原子について、所定の基準にしたがって並べ替える(S1002)。ここで、この基準としては、前記基準原子の作る三角形の例えば重心からの最短直線距離を計算して、それが小さい順に並べるなどの方法がとれる。他にも、原子間の相対距離のみによって決定される順番に基づいて任意の並び順を用いることができる。この並び順に沿って、他の原子について各原子に識別番号が振られる。
 次に、前記の並び順に沿って、各原子と3つの基準原子との直線距離を算定し、これを特徴量とする(S1003)。前述のように、最も面積の大きな三角形を構成する原子を基準原子とすることにより、上記直線距離を大きくとることができ、誤差を圧縮することができる。
 図11に模式図を示す。図中には3つの基準原子(1101)(1102)(1103)がそれぞれ示されており、それ以外の原子(1104)との間に矢印(1105)(1106)(1107)が描かれている。これらの矢印の長さがd1、d2、d3として示されている。この3つの長さが定まると、原子(1104)の座標は、3つの基準原子が形成する三角形の面に対する裏表の逆を除いて一意に定まる。逆に座標が定まると3つの矢印(1105)(1106)(1107)の長さが定まる。すなわち、鏡像的な対称性を除き1対1の関係にある。
 ここで、対象の原子(1104)の方から見て3つの基準原子(1101)(1102)(1103)が作る三角形の巡回方向が時計回りの場合は正、逆の場合は負となるように(図11では反時計回りなので負値)、d1、d2、d3の符合を決定すると、原子の相対的な位置関係を一意に記述したことになる。
 本実施例ではこの値を一列に並べることによって分子の空間構造を記述する空間構造特徴量とする。この値は、分子内の原子の座標値に関して、座標系の向きや原点位置に対する依存性がなく、かつ、値が定まるとそこから分子構造を逆算可能であるという材料特性の予測に好ましい特徴を持っている。
 図12は、空間構造特徴量のテーブルを示す。算出された空間構造特徴量は図12に示す形式で空間構造特徴量DB(115)に格納される。空間構造特徴量DB(115)への格納にあたっては、材料DB(112)の実験データテーブルのどのレコードに由来するかを記録するため、実験ID(701)が付与されている。これについては並び順で対応を再現するなどの方法をとってもよい。そのほかには、基準原子の作る三角形の情報を記録するため、基準原子の原子番号(1201)(1202)(1203)、および基準原子間の距離(1204)(1205)(1206)を記録する。
 その後、前記の空間構造特徴量として、各原子の基準原子との距離を記述する(1207)(1208)(1209)。この際、項目数は材料DB(112)に格納されている事例の中で原子の数が最も大きなものを基準として作成し、原子の数が最大でない分子について対応する原子が存在しない項目には0を付与する。なお、この際の距離は任意の単位でよいが、本例ではオングストロームを用いる。
 以上の処理によって、材料DB(112)に新しい実験データが追加できたことになる。すなわち、材料データ投入(S310)の手順が完了する。
 <3.予測結果閲覧処理>
 図13を用いて、予測結果閲覧(S320)の際の材料特性予測提示処理(S321)について説明する。最初に、材料特定予測提示部(117)は、モニタ(205)により材料特性予測表示(322)を利用者(102)に提示して、予測対象となる実験データテーブルの指定を受ける(S1301)。この際、材料DB(112)に格納されている実験データテーブルの内容を用いてもよい。
 図14にその一例を示した。図中ドロップダウンボックス(1401)には実験データテーブルの例えばファイル名が候補として表示されている。予測値更新のボタン(1402)が押されると、材料特定予測提示部(117)は材料特性予測部(116)に当該実験データテーブル(図7)のレコードのうち材料特性(702)が空白のものについて予測値により補間を実行する指示を送り、その結果が画面(1403)に表示されるようになっている。図14中、下線を施した数値は、空白のデータを補間したことを示している。
 材料特性予測部(116)は材料特定予測提示部(117)の前記補間を実行する指示を受けると、指定された実験データテーブルのデータを材料DB(112)から取得し(S1302)、その実験ID(701)を用いて対応するレコードを空間構造特徴量テーブル(1200)から取得する(S1303)。これらを対応させることで、材料特性予測に用いるデータを生成する(S1304)。
 図15に材料特性予測用データの1レコード分の構成(1500)を示す。このデータは、材料DB(112)から実験ID(701)、材料特性(702)、実験条件(704)を、空間構造特徴量DB(115)からは基準原子1情報(1201)、基準原子2情報(1202)、基準原子3情報(1203)、基準原子1と2の距離(1204)、基準原子2と3の距離(1205)、基準原子1と3の距離(1206)、各原子の基準原子1との距離d1(1207)、各原子の基準原子2との距離(1208)、各原子の基準原子3との距離(1209)を、それぞれ取得し共通の実験ID(701)をもつレコードを結合したものである。
 材料特性予測部(116)は材料特性予測用データから材料特性(702)が未実測すなわち空白のものを除き、実験ID(701)と材料特性(702)を除く項目を説明変数、材料特性(702)を目的変数とおいて、公知の回帰分析を実行し予測関数を得る(S1305)。この手順は、予測関数をy=f(x)と書くとすると、yが目的変数、xが説明変数であり、xを定めるとyが予測できるようにfの関数形を定めるということを意味する。かくして回帰モデルを生成したのち、材料特性予測部(116)は、材料特性(702)が未実測すなわち空白のものを選び、前記y=f(x)の予測関数を用いて、材料特性(702)の予測値を算出する(S1306)。
 ここで、予測関数fの構築に用いる方法としては、公知の多変量回帰分析法を用いることができ、たとえば回帰木、ランダムフォレスト、サポートベクター回帰、ガウシアンプロセス回帰、ニューラルネットワークなど、多変量を引数に取る回帰分析法であれば、公知の高精度な非線形回帰法を用いることができる。前述の通り、この予測結果は材料特定予測提示部(117)によって画面(1403)に反映されることとなる(S1307)。なお、本実施例では説明変数として空間構造特徴量と実験条件のみをもちいたが、実際には他の何らかの量(例えば、分子量、電荷)を導出してくわえて用いてもよい。また、公知のRecursive Neural Networkの方法のように、系列的な情報を用いて予測が可能な技法を用いると、各原子の基準原子1との距離d1 (1207)が0のデータを扱わずに予測することができ、より高い精度が得られることもありえる。
 以上の実施例により、実験計画のスクリーニングのために、分子の空間構造をなんら特別な後処理なく、予測に組み込んで評価できるようになる。これにより予測精度が向上すると期待される。
 実施例2は、材料特性が未計測の材料についての材料特性の予測値を算出するにとどまらず、予測が最適な材料特性となる条件を探索し、それを画面に表示することで、実験の計画策定の役に立てることを特徴とする。
 図16に実施例2の構成の例を示す。実施例2が実施例1と異なるのは、最適材料特性候補作成部(1601)である。最適材料特性候補作成部(1601)は、前記、予測が最適な材料特性となる条件を探索する機能を備えており、実施例1でいう材料特性予測提示処理(S321)において利用者に提示される材料特性予測表示(322)に最適値の候補となる仮想的な分子構造を立体的に表示することができる。
 図17に最適材料特性候補作成部(1601)を用いた実施例2の材料特性予測提示処理(S1700)を示す。この材料特性予測提示処理(S1700)は実施例1(図13)の材料特性予測提示処理(S321)と異なり、材料特性予測部(116)が予測を行った後に、予測に用いた回帰分析の回帰モデルが最適材料特性候補作成部(1601)に渡され、それを用いて材料特性が最大のものや最小のものなど、所定の条件を満たし、材料DB(112)に含まれていない材料の候補を探索する処理(S1701)が行われる。この探索では、勾配降下法や共役勾配法、遺伝的アルゴリズムなど公知の関数の最適値探索方式によって、所定の条件を満たすような説明変数を調べることとなる。
  この探索の結果は材料特性予測結果画面に表示される(S1702)。
 図18にこの表示結果の一例を示す。この画面が実施例1(図14)と異なるのは、下部に前記探索された仮想的な分子の構造が表示されている点である。この所定の条件はドロップダウンボックス(1801)に表示されており、利用者(102)はこれから一つを選択できる。すると、この選択された結果に対応する分子の立体構造が画面(1802)に表示される。この表示では、図11で示したとおりの論理によって、分子を構成する各原子の座標が算定されて用いられる。なお、原子間距離がファン・デル・ワールス半径を下回った場合には結合するものとして結合を表す線を描画している。この計算の前に、例えば炭素原子に結合している原子の数が4になるようにする、などの制約に関する評価を行うなどの加工をしてもよい。
 実施例2によれば、利用者(102)が与えた候補化合物以外にも候補を選ぶことができ、利用者も気づかなかった化合物を発見できる可能性が高まると期待される。
 以上説明した実施例によれば、分子の空間構造をもとにした予測を行うために、座標系の選択に関する自由度をもたせることなく、また、逆計算が可能なように、単独の分子の空間構造と1対1で対応するような特徴量を用いる。これにより、分子の立体構造を織り込んだ形での材料特性の予測ができ、ひいてはより適切なスクリーニングにつながるものである。
 すなわち、実験計画のスクリーニングのための予測評価において、分子の持つ立体構造を予測に組み込んでより高精度な予測ができるようになる。また、特定の予測値を持つような分子の立体構造の逆計算ができるため、望ましい性質を持った分子がどのような形状をしているかを推算できる。その結果、実験計画がたてやすくなり、ひいては少ない実験回数でよい材料を開発可能となる。
 以上の実施例で説明したように、発明者らは、材料特性予測の精度をあげるために分子の空間構造をもとにした特徴量を使用しようとすると、分子内の座標系が一意に定まらず、また、特徴量から分子の形を逆計算できないため、最適解に対応する分子がわかりにくいという問題点に着目した。このため、実施例では、分子の立体構造を表現する特徴量として、分子内部の最も主要な3つの原子を選択し、その原子との直線距離をもって特徴量とするという手法を提案するものである。これにより、座標系の選択に関する自由度をもたせることなく分子の空間構造を規定し、分子の立体構造に基づいた材料特性の予測をすることが可能になる。
101 材料特性予測装置
113 三次元分子構造算定部
114 空間構造特徴量算定部
115 空間構造特徴量DB
S311 材料DB更新処理
S321 材料特性予測提示処理
S403 空間構造特徴量生成処理
701 実験ID
1200 空間構造特徴量テーブル

Claims (15)

  1.  材料特性の予測を行うためのシステムであって、
     材料の構造式から分子を構成する原子の位置座標を算出する機能を備えた三次元分子構造算定部と、
     前記三次元分子構造算定部の算出した原子の位置座標をもとに、3つの原子を選び出して三角形を構築し、前記3つの原子と他の原子との距離を算出して空間構造特徴量とする機能を持つ空間構造特徴量算定部と、
     前記空間構造特徴量算定部の生成した空間構造特徴量を説明変数として材料特性を予測する材料特性予測部と、
     を持つことを特徴とする材料特性予測システム。
  2.  請求項1に記載のシステムであって、
     前記材料特性予測部の予測する材料特性が所定の基準を満たすような空間構造特徴量の条件を探索し、当該条件を満たす原子の位置座標から仮想的な分子構造を構成する機能を持った最適材料特性候補作成部、
     を持つことを特徴とする材料特性予測システム。
  3.  請求項1に記載のシステムであって、
     前記空間構造特徴量算定部が、前記三角形を構成する3つの原子を選択する基準として、当該三角形の面積が最も大きくなる組み合わせを選択すること、
     を特徴とする材料特性予測システム。
  4.  請求項1に記載のシステムであって、
     前記空間構造特徴量算定部が、前記三角形を構成する3つの原子を選択する基準として、
    炭素原子を優先的に選択すること、
     を特徴とする材料特性予測システム。
  5.  請求項1に記載のシステムであって、
     前記空間構造特徴量算定部が、前記3つの原子と他の原子との距離を算出する際に、前記三角形の形成する面に対する方向にもとづき、正負の符号を変化させて空間構造特徴量を算定すること、
     を特徴とする材料特性予測システム。
  6.  請求項1に記載のシステムであって、
     前記空間構造特徴量算定部が、前記三角形を構成する3つの原子を選択する際に、前記3つの原子の巡回方向を規定すること、
     を特徴とする材料特性予測システム。
  7.  請求項1に記載のシステムであって、
     前記空間構造特徴量算定部の生成した空間構造特徴量を空間構造特徴量データベースとして格納し、
     前記空間構造特徴量データベースは、前記三角形を構成する3つの原子の順序を特定する情報と、前記三角形を構成する3つの原子相互の距離と、前記三角形を構成する3つの原子夫々と他の原子との距離を含むこと、
     を特徴とする材料特性予測システム。
  8.  材料の構造式を入力とし、該材料の構造式から分子を構成する原子の位置を算出する三次元分子構造算定処理と、
     算出した原子の位置をもとに、3つの原子を選択して三角形を構築し、前記3つの原子と他の原子との距離を算出して空間構造特徴量を得る空間構造特徴量算定処理と、
     を実行する情報処理方法。
  9.  前記三角形を構成する3つの原子を選択する基準として、当該三角形の面積が最も大きくなる組み合わせを選択する、
     請求項8記載の情報処理方法。
  10.  前記三角形を構成する3つの原子を選択する基準として、炭素原子を優先的に選択する、
     請求項8記載の情報処理方法。
  11.  前記三角形を構成する3つの原子を選択する際に、前記3つの原子の巡回方向を規定すること、
     請求項8記載の情報処理方法。
  12.  前記3つの原子と他の原子との距離を算出する際に、前記3つの原子の巡回方向に基づいて、距離の正負の符号を変化させて空間構造特徴量を算定すること、
     請求項11記載の情報処理方法。
  13.  前記空間構造特徴量算定処理で得た空間構造特徴量を空間構造特徴量データベースとして格納し、
     前記空間構造特徴量データベースは、前記三角形を構成する3つの原子の順序を特定する情報と、前記三角形を構成する3つの原子相互の距離と、前記三角形を構成する3つの原子夫々と他の原子との距離を含む、
     請求項8記載の情報処理方法。
  14.  前記空間構造特徴量算定処理で得た空間構造特徴量を説明変数として材料特性を予測する材料特性予測処理を実行する、
     請求項8記載の情報処理方法。
  15.  前記材料特性予測処理は予測関数を用いて予測を行い、前記予測関数は、前記空間構造特徴量を説明変数、材料特性を目的変数とおいて、回帰分析を実行して得たものである、
     請求項14記載の情報処理方法。
PCT/JP2020/031426 2019-09-05 2020-08-20 材料特性予測システムおよび情報処理方法 WO2021044857A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/613,099 US20220223234A1 (en) 2019-09-05 2020-08-20 Material properties prediction system and information processing method
CN202080053900.6A CN114207619A (zh) 2019-09-05 2020-08-20 材料特性预测系统和信息处理方法
EP20861018.8A EP4027261A4 (en) 2019-09-05 2020-08-20 SYSTEM FOR PREDICTING MATERIAL PROPERTIES AND INFORMATION PROCESSING METHODS

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019162137A JP7304778B2 (ja) 2019-09-05 2019-09-05 材料特性予測システムおよび情報処理方法
JP2019-162137 2019-09-05

Publications (1)

Publication Number Publication Date
WO2021044857A1 true WO2021044857A1 (ja) 2021-03-11

Family

ID=74848685

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/031426 WO2021044857A1 (ja) 2019-09-05 2020-08-20 材料特性予測システムおよび情報処理方法

Country Status (5)

Country Link
US (1) US20220223234A1 (ja)
EP (1) EP4027261A4 (ja)
JP (1) JP7304778B2 (ja)
CN (1) CN114207619A (ja)
WO (1) WO2021044857A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210287137A1 (en) * 2020-03-13 2021-09-16 Korea University Research And Business Foundation System for predicting optical properties of molecules based on machine learning and method thereof
EP4306830A1 (en) 2021-03-11 2024-01-17 Ishizaki Co., Ltd. Check valve
WO2024069884A1 (ja) * 2022-09-29 2024-04-04 日本電気株式会社 物性予測装置、物性予測方法、及び、記録媒体

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004086892A (ja) 2002-08-02 2004-03-18 Japan Science & Technology Agency 成分配合設計方法、成分配合設計プログラム及びそのプログラムを記録した記録媒体
JP2006323833A (ja) * 2005-04-19 2006-11-30 Zoegene Corp 生理活性化合物の設計方法及び設計装置、並びに生理活性化合物の設計プログラム
JP2008081435A (ja) 2006-09-27 2008-04-10 Nec Corp 化合物の仮想スクリーニング方法および装置
JP2009196935A (ja) * 2008-02-21 2009-09-03 Toyota Motor Corp 三元物質の最適化方法
JP2017091526A (ja) * 2015-11-04 2017-05-25 三星電子株式会社Samsung Electronics Co.,Ltd. 新規物質探索方法および装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004086892A (ja) 2002-08-02 2004-03-18 Japan Science & Technology Agency 成分配合設計方法、成分配合設計プログラム及びそのプログラムを記録した記録媒体
JP2006323833A (ja) * 2005-04-19 2006-11-30 Zoegene Corp 生理活性化合物の設計方法及び設計装置、並びに生理活性化合物の設計プログラム
JP2008081435A (ja) 2006-09-27 2008-04-10 Nec Corp 化合物の仮想スクリーニング方法および装置
JP2009196935A (ja) * 2008-02-21 2009-09-03 Toyota Motor Corp 三元物質の最適化方法
JP2017091526A (ja) * 2015-11-04 2017-05-25 三星電子株式会社Samsung Electronics Co.,Ltd. 新規物質探索方法および装置

Also Published As

Publication number Publication date
CN114207619A (zh) 2022-03-18
EP4027261A4 (en) 2023-09-27
EP4027261A1 (en) 2022-07-13
JP7304778B2 (ja) 2023-07-07
US20220223234A1 (en) 2022-07-14
JP2021039670A (ja) 2021-03-11

Similar Documents

Publication Publication Date Title
WO2021044857A1 (ja) 材料特性予測システムおよび情報処理方法
US8725763B2 (en) Massive model visualization with spatial indexing
JP5705788B2 (ja) アセンブリモデル類似構造検索システム、及びアセンブリモデル類似構造検索方法
US20110181597A1 (en) System and method of identifying and visually representing adjustable data
US20110179370A1 (en) Method of graphically representing a tree structure
CN104750771B (zh) 利用域信息进行上下文数据分析的方法和系统
WO2017061881A1 (en) Method, apparatus and system for location detection and object aggregation
TW200300234A (en) Reproducible selection of members in a hierarchy
KR101741894B1 (ko) 관리 프로그램, 관리 장치 및 관리 방법
JP7267883B2 (ja) 材料特性予測システムおよび材料特性予測方法
KR101358037B1 (ko) 대용량 cfd 병렬 데이터의 가시화를 위한 데이터 파일 포맷 구조로 데이터가 기록된 기록 매체 및 그 데이터 파일 포맷 구조 생성 방법
US9047314B1 (en) Creating and using dynamic vector classes
JP6379290B2 (ja) ルールの規定及びデータへの適用
US20180196738A1 (en) Test input information search device and method
KR102205267B1 (ko) 3차원 시계열 데이터 가시화 시스템 및 방법
JP7339923B2 (ja) 材料の特性値を推定するシステム
US10445435B2 (en) Auto-conversion mechanism for multiple three-dimensional object representations to facilitate collaboration
JP2009237759A (ja) 表示制御装置、表示制御方法、及び、表示制御プログラム
JP2021028780A (ja) 結晶材料解析装置、結晶材料解析方法、及び結晶材料解析プログラム
JP5641841B2 (ja) 在庫管理方法
JP5266868B2 (ja) 商品情報分析支援装置及び商品情報分析支援プログラム
US20230221706A1 (en) Factory Plan Device, Factory Plan System, and Factory Plan Method
JPWO2012046436A1 (ja) 文書分析装置、文書分析方法および文書分析プログラム
WO2024142355A1 (ja) スクリーニング方法
JP2021077159A (ja) 化学物質探索方法、化学物質探索装置、及び化学物質探索プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20861018

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020861018

Country of ref document: EP

Effective date: 20220405