WO2020166486A1 - データ処理方法、データ処理装置及びデータ処理システム - Google Patents

データ処理方法、データ処理装置及びデータ処理システム Download PDF

Info

Publication number
WO2020166486A1
WO2020166486A1 PCT/JP2020/004640 JP2020004640W WO2020166486A1 WO 2020166486 A1 WO2020166486 A1 WO 2020166486A1 JP 2020004640 W JP2020004640 W JP 2020004640W WO 2020166486 A1 WO2020166486 A1 WO 2020166486A1
Authority
WO
WIPO (PCT)
Prior art keywords
value
calculation
physical property
compound
true
Prior art date
Application number
PCT/JP2020/004640
Other languages
English (en)
French (fr)
Inventor
裕也 大西
永井 智樹
Original Assignee
Jsr株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jsr株式会社 filed Critical Jsr株式会社
Priority to EP20754877.7A priority Critical patent/EP3926637A4/en
Priority to JP2020572208A priority patent/JP7351317B2/ja
Priority to CN202080013555.3A priority patent/CN113454728A/zh
Publication of WO2020166486A1 publication Critical patent/WO2020166486A1/ja
Priority to US17/399,162 priority patent/US20210375403A1/en
Priority to JP2023148671A priority patent/JP2023169271A/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N10/00Quantum computing, i.e. information processing based on quantum-mechanical phenomena
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N10/00Quantum computing, i.e. information processing based on quantum-mechanical phenomena
    • G06N10/60Quantum algorithms, e.g. based on quantum optimisation, quantum Fourier or Hadamard transforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C10/00Computational theoretical chemistry, i.e. ICT specially adapted for theoretical aspects of quantum chemistry, molecular mechanics, molecular dynamics or the like
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C60/00Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation

Definitions

  • the present invention relates to a data processing method, a data processing device, and a data processing system.
  • Materials Informatics which is a fusion of materials science and information science, has been attracting attention as a method for searching for new materials.
  • Materials informatics searches for materials by analyzing a database in which various information such as structures and physical properties of materials (compounds) are registered.
  • Material search is performed by data mining and machine learning using a database (for example, see Non-Patent Document 1).
  • the number of compounds that can be searched for new compounds is theoretically huge here.
  • the number of compounds whose physical property values are registered in the database is not sufficient at present with respect to the number of compounds that can be searched.
  • An object of the present invention is to provide a data processing method, a data processing device, and a data processing system capable of increasing the amount of information in a database used for a new material search.
  • the present invention provides a first calculation method in which the first calculated value as the physical property value is calculated for each of the plurality of first compounds whose true values are known.
  • the second calculation value as the physical property value for each of the first acquisition step and the plurality of first compounds can be obtained in a region where the calculation result cannot be obtained by the first calculation method.
  • a third acquisition step of acquiring a third calculated value as a physical property value by the first calculation method for the second compound whose true value of the physical property value is unknown.
  • the present invention obtains a first calculated value as the physical property value by a first calculation method for each of a plurality of first compounds for which the true value of the physical property value is known, and for each of the plurality of first compounds.
  • An acquisition unit that acquires a second calculated value as the physical property value by a second calculation method that can acquire a calculation result in a region where the calculation result cannot be acquired by the first calculation method; and the first calculation A first correction model that corrects the value to the true value and a second correction model that corrects the second calculated value to the true value; and a first correction model in which the true value of the physical property value is unknown.
  • the third calculated value is corrected by the first correction model, the corrected value is stored in the database as the true value of the physical property value of the second compound, and the calculation result is obtained by at least the first calculation method.
  • the fourth calculation value acquired by the acquisition unit as the physical property value of the second compound by the second calculation method is corrected by the second correction model, and the corrected value is corrected by the second correction model.
  • a data processing device comprising: a storage unit that stores the physical property values of two compounds in the database.
  • the present invention obtains a first calculated value as the physical property value by a first calculation method for each of a plurality of first compounds for which the true value of the physical property value is known, and for each of the plurality of first compounds.
  • An acquisition unit that acquires a second calculated value as the physical property value by a second calculation method that can acquire a calculation result in a region where the calculation result cannot be acquired by the first calculation method; and the first calculation A first correction model that corrects the value to the true value and a second correction model that corrects the second calculated value to the true value; and a first correction model in which the true value of the physical property value is unknown.
  • the third calculated value is corrected by the first correction model, the corrected value is stored in the database as the true value of the physical property value of the second compound, and the calculation result is obtained by at least the first calculation method.
  • the fourth calculation value acquired by the acquisition unit as the physical property value of the second compound by the second calculation method is corrected by the second correction model, and the corrected value is corrected by the second correction model.
  • FIG. 1 is a diagram showing an example of a schematic configuration of a data processing system of an embodiment.
  • FIG. 2 is a diagram illustrating an example of a hardware configuration of the data processing device according to the embodiment.
  • FIG. 3 is a diagram illustrating an example of functions of the data processing device according to the embodiment.
  • FIG. 4 is a diagram for explaining the storage unit shown in FIG.
  • FIG. 5 is a flowchart showing an operation example of the data processing system of the embodiment.
  • FIG. 6 is a diagram conceptually showing the tendency of the DFT calculation result and the QVE calculation result.
  • FIG. 7 is a flowchart showing details of step S1 of the flowchart shown in FIG.
  • FIG. 8 is a diagram for explaining the processing of the acquisition unit and the generation unit in FIG. 7.
  • FIG. 9 is a diagram for explaining the processing of the generation unit in FIG. 7.
  • FIG. 10 is a flowchart showing details of step S2 of the flowchart shown in FIG.
  • FIG. 11 is a diagram for explaining the database after the process of step S2.
  • FIG. 12 is a diagram for explaining the processing result of step S2.
  • FIG. 13 is a diagram for explaining the search unit.
  • FIG. 14 is a flowchart showing details of step S4 of the flowchart shown in FIG.
  • FIG. 1 is a diagram showing an example of a schematic configuration of a data processing system 1 of an embodiment.
  • the data processing system 1 of the embodiment includes a data processing device 10 and a quantum computing device 20.
  • the respective devices illustrated in FIG. 1 are in a state of being able to communicate with each other directly or indirectly through a network such as a LAN (Local Area Network) or a WAN (Wide Area Network).
  • a network such as a LAN (Local Area Network) or a WAN (Wide Area Network).
  • the data processing device 10 is a von Neumann computer called a classical computer, in contrast to a quantum computer that is a computer that realizes parallelism by using quantum mechanical superposition.
  • the data processing apparatus 10 shown in FIG. 1 is, for example, a workstation capable of executing a calculation method based on Density Functional Theory (DFT).
  • DFT Density Functional Theory
  • the quantum computing device 20 is a computing device realized by a quantum computer and a quantum annealer.
  • the quantum computing device 20 is not a quantum computer having a complete error correction function, but a NISQ (Noisy Intermediate-Scale Quantum device) that outputs a calculation result including noise.
  • the quantum computing device 20 shown in FIG. 1 can execute, for example, variational quantum eigenvalue calculation (Variational Quantum Eigensolver: VQE).
  • FIG. 2 is a diagram showing an example of a hardware configuration of the data processing device 10.
  • the data processing device 10 includes a CPU (Central Processing Unit) 11, a ROM (Read Only Memory) 12, a RAM (Random Access Memory) 13, an auxiliary storage device 14, and an input device 15.
  • the display device 16 and the external I/F 17 are provided.
  • the CPU 11 centrally controls the operation of the data processing device 10 and realizes various functions of the data processing device 10. Various functions of the data processing device 10 will be described later.
  • the ROM 12 is a non-volatile memory and stores various data including a program for starting the data processing device 10 (information written in the manufacturing stage of the data processing device 10).
  • the RAM 13 is a volatile memory having a work area for the CPU 11.
  • the auxiliary storage device 14 stores various data such as programs executed by the CPU 11.
  • the auxiliary storage device 14 is composed of, for example, an HDD (Hard Disc Drive) or the like.
  • the input device 15 is a device for a user who uses the data processing device 10 to perform various operations.
  • the input device 15 is composed of, for example, a mouse, a keyboard, a touch panel, or a hardware key.
  • the display device 16 displays various information.
  • the display device 16 displays a processing result of the CPU 11, a GUI (Graphical User Interface) for receiving various operations from the user, and the like.
  • the display device 16 is composed of, for example, a liquid crystal display, an organic EL (Electro Luminescence) display, or a CRT display.
  • the input device 15 and the display device 16 may be integrally configured in the form of a touch panel, for example.
  • the external I/F 17 is an interface for connecting (communication) with an external device such as the quantum computing device 20.
  • FIG. 3 is a diagram showing an example of functions of the data processing device 10. In the example of FIG. 3, only the functions related to the embodiment are illustrated, but the functions of the data processing device 10 are not limited to these.
  • the data processing device 10 includes a user interface unit 101, a storage unit 102, an acquisition unit 103, a generation unit 104, a storage unit 105, and a search unit 106.
  • the user interface unit 101 has a function of receiving user input and a function of displaying various types of information.
  • the user interface unit 101 is realized by the input device 15 and the display device 16 shown in FIG. 2, for example.
  • the storage unit 102 is realized by the auxiliary storage device 14 (for example, HDD) shown in FIG. 2, for example.
  • the storage unit 102 stores, as data for executing the data processing method of the embodiment, a database (compound database) in which chemical characteristics of the compound are associated with each compound.
  • the storage unit 102 stores, for each compound, a database in which a numerical value (molecular descriptor) indicating the characteristic of the partial structure of the compound, a true value of the physical property value indicating the physical property, and the like are associated.
  • FIG. 4 is a diagram for explaining the storage unit shown in FIG.
  • a character string molecular descriptor
  • IP ionization potential
  • EA electron affinity
  • the true value of the physical property value registered in the database 102a may be an experimental value obtained by experiment or a calculated value obtained by highly accurate calculation.
  • the storage unit 102 stores the learned model 102b as data for executing the data processing method of the embodiment, as shown in FIG.
  • the learned model 102b is used in the processing of the search unit 106 described later.
  • the learned model 102b is generated by machine learning using teacher data.
  • the teacher data used to generate the learned model 102b is, for example, a list of compounds in which the true value of the ionization potential and the true value of the electron affinity are known as the true value of the physical property value of the physical property A.
  • the teacher data is the database 102a.
  • the teacher data is a database different from the database 102a and has the same structure as the database 102a.
  • the teacher data is a database 102a and a database different from the database 102a and having the same structure as the database 102a.
  • the learned model 102b estimates and outputs a new compound having the physical property value “AX” when the desired physical property value “AX” (an example of a predetermined feature amount) of the physical property A is input from the user.
  • the physical property A is an ionization potential or an electron affinity.
  • the learned model 102b has a chemical structure estimated to have the physical property value “AX”. Output a character string.
  • the learned model 102b has a chemical structure estimated to have the physical property value “AX”. Output a character string. Further, in the learned model 102b, when the physical property value “AX1” of the ionization potential and the physical property value “AX2” of the electron affinity are input as the physical property value of the physical property A from the search unit 106 described later, the physical property value “AX1”. And a character string of the chemical structure estimated to have the physical property value “AX2” is output.
  • the learning model 102b may be generated by the data processing device 10 or may be generated by another device.
  • the data processing device 10 executes the new material search using the database 101a.
  • the number of compounds that can be searched for a new compound is theoretically enormous.
  • the number of compounds whose physical property values are registered in the database 101a is not sufficient with respect to the number of compounds that can be searched. Therefore, the data processing device 10 executes the data processing method described below in cooperation with the quantum computing device 20 in order to increase the amount of information in the database 101a used for the new material search.
  • FIG. 5 is a flowchart showing an operation example of the data processing system of the embodiment. Each step will be described below.
  • Step S1 First, the data processing device 10 generates a correction model (step S1).
  • Step S1 is a process executed by the acquisition unit 103 and the generation unit 104 shown in FIG.
  • step S1 the acquisition unit 103 acquires the first calculated value as the physical property value by the first calculation method for each of the plurality of first compounds whose true values of the physical property values are known (first acquisition step). ..
  • the first calculation method is the above-described DFT, and is executed by the DFT calculation unit 103a included in the acquisition unit 103.
  • the acquisition unit 103 acquires the second calculated value as the physical property value for each of the plurality of first compounds by the second calculation method (second acquisition step).
  • the second calculation method is the above-described VQE, and is executed by the VQE calculation command unit 103b included in the acquisition unit 103 sending a calculation command to the quantum computing device 20.
  • the generation unit 104 generates a first correction model that corrects the first calculated value to the true value and a second correction model that corrects the second calculated value to the true value ( Generation step).
  • the VQE calculation which is an example of the second calculation method, is a calculation method that can obtain the calculation result in a region where the calculation result cannot be obtained by the first calculation method (DFT).
  • DFT first calculation method
  • FIG. 6 shows the relationship between the calculation result by DFT and the true value and the relationship between the calculation by VQE and the true value, with the horizontal axis representing the calculated value of the ionization potential and the vertical axis representing the true value of the ionization potential.
  • the relationship shown in FIG. 6 is an example for explaining the concept of the data processing method of the embodiment, and the same relationship holds for all calculation results of physical properties including the calculation result of the actual ionization potential. Is not intended.
  • the area 1000 is an area where a calculation result having a correlation with the true value is obtained by the DFT calculation.
  • the area 1000 is an area where a qualitatively correct calculation result can be obtained by the DFT, and an appropriate calculation result can be obtained by the DFT.
  • the area 1100 is divided into an area 1200 in which an invalid calculation result is obtained by the DFT and an area 1300 in which the DFT calculation ends incorrectly.
  • the area 1200 is an area in which the calculation result is obtained by the DFT calculation, but the calculation result having a lower correlation with the true value is obtained compared to the area 1000.
  • VQE calculation in principle, there are no uncalculated areas, and qualitatively correct calculation results can be obtained.
  • the VQE calculation executed by the NISQ (quantum arithmetic unit 20) as shown in FIG. 6, a calculated value including statistically constant noise is obtained. That is, in the VQE calculation, even a compound included in the region 1000 for which the calculation result is not obtained by the DFT calculation can obtain a qualitatively correct calculation result.
  • the numerator capable of the DFT calculation collects data by the DFT calculation for high-speed processing.
  • step S1 the generation unit 104 compares the true value, the first calculated value (DFT calculation result), and the second calculated value (VQE calculation result) for each of the plurality of first compounds. To do. Then, the generation unit 104 generates the first correction model (DFT correction model) in the range in which the first calculated value has a correlation with the true value, and generates the first correction model in the range in which the second calculated value has a correlation with the true value. 2 correction model (VQE correction model) is generated.
  • DFT correction model first correction model in the range in which the first calculated value has a correlation with the true value
  • VQE correction model 2 correction model
  • step S1 is a flowchart showing details of step S1 of the flowchart shown in FIG. 5
  • FIG. 8 is a diagram for explaining processing of the acquisition unit 103 and the generation unit 104 in FIG. 7
  • FIG. 7 is a diagram for explaining the processing of the generation unit 104 in FIG.
  • the acquisition unit 103 acquires a list of first compounds whose physical property values are known (step S11). For example, the acquisition unit 103 acquires data from the database 102a stored in the storage unit 102.
  • the “list of compounds whose true values of the ionization potential and electron affinity are known” acquired in step S11 may be acquired from the outside via the user interface unit 101.
  • the DFT calculation unit 103a creates a calculation formula for DFT calculation from the chemical structure of the first compound, executes DFT calculation, and acquires the calculation result (step S12).
  • the VQE calculation command unit 103b creates a calculation formula for VQE calculation from the chemical structure of the first compound, and transmits the created calculation formula to the quantum calculation device 20, thereby performing the quantum calculation.
  • the device 20 is caused to execute VQE calculation, and the calculation result is acquired (step S13). Note that step S12 may be executed before execution of step S13 or after execution of step S13.
  • FIG. 8 shows an example of the case where the acquisition unit 103 acquires the calculation result of the ionization potential.
  • the DFT calculation result is “IPD_1” and the VQE calculation result is “IPV_1” for “compound: CK1, true value: IP_1”.
  • the upper part of FIG. 8 shows that for “Compound: CK2, true value: IP_2”, the DFT calculation result was “IPD_2” and the VQE calculation result was “IPV_2”.
  • the VQE calculation result is “IPV_n”, but the DFT calculation result cannot be acquired. That is, the “compound: CKn” is a compound corresponding to the region 1300 in the DFT calculation.
  • the generation unit 104 compares the calculation result with the true value (step S14). In step S14, the generation unit 104 determines whether or not each of the DFT calculation results has a correlation with the true value. Similarly, in step S14, the generation unit 104 determines whether or not each VQE calculation result has a correlation with the true value. In the lower part of FIG. 8, the generation unit 104 determines that the DFT calculation result “IPD_2” is a value that has no correlation with the true value. This determination result indicates that “compound: CK2” is a compound for which the calculation result included in the region 1200 is acquired by the DFT calculation. In the example shown in FIG. 6, it is determined that the results of VQE calculation all have a correlation with the true value.
  • the generation unit 104 generates a DFT correction model and a VQE correction model (step S15). For example, as shown in FIG. 9, the generation unit 104 generates a DFT correction model that corrects the DFT calculation result to a true value when the DFT calculation result is included in the range of the area 1000. Further, as shown in FIG. 9, the generation unit 104 generates a DFT correction model that corrects the VQE calculation result to a true value.
  • step S1 the DFT calculation and the VQE calculation are performed on the ionization potential, the DFT correction model and the VQE correction model are generated, and the electron affinity is also subjected to the DFT calculation and the VQE calculation to obtain the DFT calculation.
  • a correction model and a VQE correction model are generated.
  • step S1 By using the DFT correction model and the VQE correction model generated in step S1, it becomes possible to perform correction processing applicable to a wide range of molecules, as described in step S2 below.
  • Step S2 is a process executed by the acquisition unit 103 and the storage unit 105 shown in FIG.
  • step S2 the acquisition unit 13 (DFT calculation unit 103a) acquires the third calculated value as the physical property value by the first calculation method (DFT) for the second compound for which the true value of the physical property value is unknown ( Third acquisition step). Then, the storage unit 105 stores at least the third calculation value obtained in the area including the area (area 1000) where the calculation result can be obtained by the first calculation method (DFT) as the first correction model (DFT correction model). The corrected value is stored in the database 102a as the true value of the physical property value of the second compound (first storing step).
  • the acquisition unit 13 uses the second calculation method (QVE) to calculate the second compound in the area including the area (area 1100) in which the calculation result cannot be acquired by the first calculation method.
  • QVE second calculation method
  • a fourth calculated value as a physical property value is acquired (fourth acquisition step).
  • the storage unit 105 corrects the fourth calculated value by the second correction model (VQE correction model) and stores the corrected value in the database 102a as the true value of the physical property value of the second compound (second). Storage step).
  • step S2 is a flowchart showing the details of step S2 of the flowchart shown in FIG. 5
  • FIG. 11 is a diagram for explaining the database after the processing of step S2
  • FIG. 12 shows the processing result of step S2. It is a figure for explaining.
  • the acquisition unit 103 acquires a list of second compounds whose true values of physical properties are unknown (step S21).
  • the user interface unit 101 acquires the “list of compounds whose true values of the ionization potential and the electron affinity are unknown” input by the user, and delivers it to the acquisition unit 103.
  • the number of compounds included in the second compound list is greater than the number of compounds included in the first compound list. Note that the processing from step S22 described below is repeatedly performed for each compound included in the list.
  • the DFT calculation unit 103a executes DFT calculation for the second compound (step S22), and the storage unit 105 determines whether or not the calculation result can be obtained by the DFT calculation (step S23). That is, the storage unit 105 determines whether or not the calculation of the DFT calculation unit 103a has been terminated incorrectly, or whether or not the calculation result obtained by the DFT calculation unit 103a is a value corresponding to the area 1200. In other words, the storage unit 105 determines whether or not the calculation result obtained by the DFT calculation has a value corresponding to the area 1000.
  • the storage unit 105 obtains an approximate function by first-order approximation in a region where there is a correlation between the true value and the DFT calculation result which are known by the experiment.
  • the storage unit 105 obtains the calculation result by the DFT calculation when the value obtained by the DFT calculation is a value in the range that deviates from the straight line extrapolated by the approximation function, that is, when the value is in the area 1200. It is determined that it could not be done. Further, the storage unit 105 determines whether or not the value obtained by the DFT calculation is an appropriate calculation result by using a threshold value set in advance according to the target physical property.
  • the storage unit 105 determines that the calculation result cannot be acquired by the DFT calculation when the IP value obtained by the DFT calculation is 2 eV or less.
  • the storage unit 105 determines whether or not the calculation result can be acquired by the DFT calculation by performing the stability analysis of the solution. For example, the storage unit 105 checks whether or not there is singlet instability in the DFT wave function according to the unrestricted method, determines that the calculation result cannot be acquired by the DFT calculation if it exists, and determines that the DFT wave function does not exist. It is determined that the calculation result can be obtained by calculation.
  • the storage unit 105 corrects the DFT calculation result by the DFT correction model (step S24) and sets the correction value to the physical property of the second compound.
  • the value is stored in the database 102a as the true value (step S27).
  • the VQE calculation command unit 103b causes the quantum computing device 20 to execute the VQE calculation and acquires the calculation result (step S25). Then, the storage unit 105 corrects the VQE calculation result by the VQE correction model (step S26), and stores the correction value in the database 102a as the true value of the physical property value of the second compound (step S27).
  • step S2 steps S21 to S27
  • the true value of the ionization potential and the true value of the electron affinity can be obtained for many second compounds.
  • the second compound can be registered in the database 102a as the first compound, and the amount of information stored in the database 102a can be significantly increased.
  • the database space of the molecule can be expanded by matching the region where the database can be constructed with DFT and the region where the database can be expanded with VQE. can do.
  • NISQ can theoretically output a calculated value that correlates with the true value in all ranges, but at present, due to hardware resource problems and cost problems, VQE calculation by NISQ
  • the range is more limited than the range to which the DFT calculation by a von Neumann computer called a classical computer can be applied.
  • step S2 described above when the calculation result cannot be obtained by the DFT calculation, the VQE calculation by NISQ is executed, whereby the database expansion using NISQ can be efficiently performed.
  • Step S3 is a process executed by the search unit 106 shown in FIG.
  • FIG. 13 is a diagram for explaining the search unit 106.
  • the search unit 106 inputs the physical property value “AX” into the learned model 102b as illustrated in FIG.
  • the learned model 102b estimates the structure of the compound X in which the physical property value of the physical property A may be “AX”.
  • the learned model 102b when the physical property value “AX” of the ionization potential is input as the physical property value of the physical property A from the search unit 106, the character string of the chemical structure estimated to have the physical property value “AX”. Is output.
  • the learned model 102b when the physical property value “AX” of the electron affinity is input as the physical property value of the physical property A from the search unit 106, the character string of the chemical structure estimated to have the physical property value “AX”. Is output.
  • the learned model 102b receives the physical property value “AX1” of the ionization potential and the physical property value “AX2” of the electron affinity as physical property values of the physical property A from the search unit 106.
  • the character string of the chemical structure estimated to have the value "AX1" and the physical property value "AX2" is output.
  • step S2 by using the database 102a whose information amount is increased in step S2, the search efficiency of a new compound can be improved.
  • Step S4 Returning to FIG. 5, after step S3, the data processing device 10 updates the database 102a for the new compound searched for in step 3 (step S4). Similar to step S2, step S4 is a process executed by the acquisition unit 103 and the storage unit 105 illustrated in FIG.
  • step S4 the acquisition unit 13 (DFT calculation unit 103a) acquires the third calculated value for the new compound by DFT. Then, the storage unit 105 stores at least the third calculation value obtained in the area including the area (area 1000) where the calculation result can be obtained by the first calculation method (DFT) as the first correction model (DFT correction model). The value corrected by is stored in the database 102a as the true value of the physical property value of the new compound.
  • the acquisition unit 13 uses the second calculation method (QVE) to determine the physical property value of the new compound in an area including at least the area (area 1100) in which the calculation result cannot be acquired by the first calculation method.
  • the storage unit 105 stores the value obtained by correcting the fourth calculated value by the second correction model (VQE correction model) in the database 102a as the true value of the physical property value of the new compound.
  • FIG. 14 is a flowchart showing details of step S4 of the flowchart shown in FIG.
  • step S31 when the input of the new compound is received (step S31), the DFT calculation unit 103a executes the DFT calculation for the new compound (step S32), and the storage unit 105 outputs the calculation result by the DFT calculation. It is determined whether the acquisition has been completed (step S33).
  • step S33 when the calculation result has been acquired by the DFT calculation (step S33, Yes), the storage unit 105 corrects the DFT calculation result by the DFT correction model (step S34), and the correction value is set to the physical property value of the new compound. It is stored in the database 102a as the true value of (step S37).
  • the VQE calculation command unit 103b causes the quantum computing device 20 to execute the VQE calculation and acquires the calculation result (step S35). Then, the storage unit 105 corrects the VQE calculation result by the VQE correction model (step S36), and stores the correction value in the database 102a as the true value of the physical property value of the new compound (step S37).
  • step S4 the true value of the physical property value can be obtained for the new compound, and the amount of information in the database 102a can be further increased. If the true value is limited to the experimental value without including the calculated value, the true value of the physical property value obtained in step S4 becomes the predicted true value.
  • the calculated values of the ionization potential and the electron affinity are obtained by the DFT calculation and the VQE calculation, and the calculated results are compared with the limited number of true values.
  • a correction model of the calculation result applicable to a wide range of molecules is obtained.
  • the calculated values of the ionization potential and the electron affinity are converted into true values for a huge number of the second compounds by using the correction model of the calculation result applicable to a wide range of molecules.
  • the amount of information in the database 102a used for searching for a new material can be increased.
  • the database 102a having an increased amount of information by using the database 102a having an increased amount of information, it is possible to improve the efficiency of compound search and also for a new compound, a correction model of calculation results applicable to a wide range of molecules is used. The true value of the physical property value can be obtained, and the amount of information in the database 102a can be further increased.
  • the calculation result (third calculation value) obtained by the DFT calculation is corrected by the DFT correction model in the area 1000 where the (reasonable) calculation result can be obtained by the DFT. , Stored in the database.
  • the calculation result (fourth calculation value) obtained by the VQE calculation is corrected by the VQE correction model and stored in the database in the region 1100 where the calculation result cannot be obtained by the DFT.
  • both the DFT calculation result (third calculation value) and the VQE calculation result (fourth calculation value) are acquired in the area 1200 where the DFT obtains an invalid calculation result.
  • the calculation result (fourth calculation value) obtained by the VQE calculation is corrected by the VQE correction model and stored in the database.
  • the boundary between the area 1200 and the area 1000 is the boundary between the range in which the DFT calculation result and the true value have a correlation and the range in which the DFT calculation result and the true value do not exist.
  • a boundary is set, for example, by a threshold value set for a correlation coefficient or the like, or by a user's judgment. Therefore, in the vicinity of the boundary, it may be unclear which of the corrected value of the third calculated value and the corrected value of the fourth calculated value is appropriate as the true value.
  • the storage unit 105 corrects “Y1” with the DFT correction model.
  • the corrected value “Y1 DFT ” and the corrected value “Y2 VQE ” obtained by correcting the VQE calculated value “Y2” of the second compound “Z” with the VQE correction model are displayed on the display device 16.
  • the storage unit 105 also causes the display device 16 to display the chemical structure of the second compound “Z”.
  • the user selects a correction value determined to be appropriate from the correction value “Y1 DFT ” and the correction value “Y2 VQE ”.
  • the storage unit 105 stores the correction value selected by the user in the database 102a as the true value of the second compound “Z”.
  • the calculation result may be corrected by the DFT correction model and stored in the database.
  • the VQE calculation result (fourth calculation value) is obtained.
  • the calculated value) may be acquired, the calculation result may be corrected by the VQE correction model, and stored in the database.
  • the search unit 106 estimates the value of the ionization potential of the second compound “Z” by data mining using the database 102a. Then, the storage unit 106 stores, in “Y1 DFT ”and “Y2 VQE ”, a value close to the value estimated by the search unit 106 in the database 102a as the true value of the second compound “Z”.
  • step S2 the correction value obtained by correcting the calculation result (third calculation value) obtained by the DFT calculation for the second compound by the DFT correction model is stored in the database 102a as the true value.
  • the generation unit 104 may perform the processing of the following modified example 2.
  • the generation unit 104 further acquires the calculation result by VQE of the second compound having the true value of the correction value obtained by correcting the DFT calculation result by the DFT correction model, via the VQE calculation command unit 103b. .. Then, the generation unit 104 further uses the value stored as the true value and the calculated value by VQE to generate the second correction model (VQE correction model).
  • VQE correction model By performing the processing of Modification 2 as needed, the second correction model can be updated, and as a result, the accuracy of correction can be improved.
  • the first calculation method is DFT and the second calculation method is VQE has been described, but the present invention is not limited to this. If it is the second calculation method that can obtain the calculation result in the region where the calculation result cannot be obtained by the first calculation method, the first calculation method and the second calculation method applied to the data processing method disclosed in this specification can be used.
  • the calculation method of can be applied in any combination.
  • the first calculation method includes a calculation method based on the perturbation theory or the coupled cluster theory.
  • quantum phase estimation can be cited as the second calculation method.
  • the learned model 102b that has learned the correlation between the chemical structure and IP, the correlation between the chemical structure and EA, and the correlation between the chemical structure and IP and EA is used to obtain the chemical structure having the desired IP and the desired model.
  • the case of estimating a chemical structure having EA, a desired IP and a chemical structure having EA has been described, but the invention is not limited thereto.
  • the learned model 102b and the second learned model described below it is possible to estimate a chemical structure having a third physical property (physical property B) different from IP and EA.
  • the second learned model is generated by machine learning using a list of compounds whose IP true value, EA true value, and physical property B true value are known as teacher data.
  • the IP value (IP BX ) that may become the physical property value “BX” and the EA And the value (EA BX ) are output.
  • the search unit 106 inputs the IP BX and the EA BX to the trained model 102b to acquire the character string of the chemical structure estimated to have the physical property value “BX”.
  • the true value of the physical property value of IP or EA can also be obtained by performing the process of step S4 for the novel compound searched by such a process.
  • the data processing system 1 in the above-described embodiment includes the data processing device 10 and the quantum computing device 20, but the data processing system 1 in the embodiment includes a plurality of data processing devices 10 described above.
  • the function and the function of the quantum computing device 20 may be distributed and arranged in a plurality of devices.
  • the data processing system 1 stores a database construction device having an acquisition unit 103, a generation unit 104, and a storage unit 105, a quantum computing device 20, a search device having a learned model 102b and a search unit 106, and a database 102a. It may be the case of including a storage device that does. Further, the database 102a stored in the storage device may be an integrated database of the databases constructed by each of the plurality of database construction devices.
  • the program executed by the data processing device 10 of the above-described embodiment is a file in an installable format or an executable format, which is a CD-ROM, a flexible disk (FD), a magneto-optical disk (Magneto-Optical disk), It may be configured to be provided by recording on a computer-readable recording medium such as a CD-R, a DVD, a Blu-ray Disc (registered trademark), and a USB (Universal Serial Bus), or via a network such as the Internet. It may be configured to be provided or distributed in. In addition, various programs may be configured to be provided by being incorporated in advance in a non-volatile storage medium such as a ROM.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Condensed Matter Physics & Semiconductors (AREA)
  • Computational Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本発明のデータ処理方法は、物性値の真値が既知の複数の第1化合物それぞれについて、物性値としての第1の計算値を第1の計算法により、物性値としての第2の計算値を第2の計算法により取得し、第1の計算値を真値に補正する第1の補正モデルと第2の計算値を真値に補正する第2の補正モデルとを生成し、物性値の真値が未知の第2化合物について、少なくとも第1の計算法により計算結果が取得できる領域を含む領域において第1の計算法により物性値として得られた計算値を第1の補正モデルにより補正した値を真値とし、少なくとも第1の計算法により計算結果が取得できない領域を含む領域において第2の計算法により第2化合物の物性値として取得した計算値を第2の補正モデルにより補正した値を真値としてデータベースに格納する。

Description

データ処理方法、データ処理装置及びデータ処理システム
 本発明は、データ処理方法、データ処理装置及びデータ処理システムに関する。
 近年、新規材料探索の手法として、材料科学と情報科学とを融合したマテリアルズインフォマティクス(Materials Informatics)が注目されている。マテリアルズインフォマティクスは、材料(化合物)に関する構造や物性等の様々な情報が登録されたデータベースを解析することで、材料探索を行う。
 マテリアルズインフォマティクスでは、データベースを利用したデータマイニングや機械学習により材料探索が行われる(例えば、非特許文献1を参照)。
Joanne Hill, et al., "Materials science with large-scale data and informatics: Unlocking new opportunities", MRS Bulletin, Volume 41, Issue 5 (Nucleation in Atomic, Molecular, and Colloidal Systems) May 2016, pp. 399-409
 ここで、新規化合物の探索対象となり得る化合物の数は、理論上、膨大である。しかし、探索対象となり得る化合物の数に対して、データベースに物性値が登録されている化合物の数は、現状、十分ではない。
 本発明は、新規材料探索に利用されるデータベースの情報量を増大することができるデータ処理方法、データ処理装置及びデータ処理システムを提供することを目的とする。
 上述した課題を解決し、目的を達成するために、本発明は、物性値の真値が既知の複数の第1化合物それぞれについて、前記物性値としての第1の計算値を第1の計算法により取得する第1の取得ステップと、前記複数の第1化合物それぞれについて、前記物性値としての第2の計算値を、前記第1の計算法により計算結果が取得できない領域で計算結果を取得可能な第2の計算法により取得する第2の取得ステップと、前記第1の計算値を前記真値に補正する第1の補正モデルと、前記第2の計算値を前記真値に補正する第2の補正モデルとを生成する生成ステップと、物性値の真値が未知の第2化合物について、前記第1の計算法により物性値としての第3の計算値を取得する第3の取得ステップと、少なくとも前記第1の計算法により計算結果が取得できる領域を含む領域において得られた前記第3の計算値を前記第1の補正モデルにより補正し、補正した値を前記第2化合物の前記物性値の真値としてデータベースに格納する第1の格納ステップと、少なくとも前記第1の計算法により計算結果が取得できない領域を含む領域において、前記第2の計算法により前記第2化合物の物性値としての第4の計算値を取得する第4の取得ステップと、前記第4の計算値を前記第2の補正モデルにより補正し、補正した値を前記第2化合物の物性値の真値として前記データベースに格納する第2の格納ステップと、を含む、データ処理方法である。
 また、本発明は、物性値の真値が既知の複数の第1化合物それぞれについて、前記物性値としての第1の計算値を第1の計算法により取得し、前記複数の第1化合物それぞれについて、前記物性値としての第2の計算値を、前記第1の計算法により計算結果が取得できない領域で計算結果を取得可能な第2の計算法により取得する取得部と、前記第1の計算値を前記真値に補正する第1の補正モデルと、前記第2の計算値を前記真値に補正する第2の補正モデルとを生成する生成部と、物性値の真値が未知の第2化合物について、前記第1の計算法により物性値として前記取得部が取得した第3の計算値であって、少なくとも前記第1の計算法により計算結果が取得できる領域を含む領域において得られた前記第3の計算値を前記第1の補正モデルにより補正し、補正した値を前記第2化合物の前記物性値の真値としてデータベースに格納し、少なくとも前記第1の計算法により計算結果が取得できない領域を含む領域において、前記第2の計算法により前記第2化合物の物性値として前記取得部が取得した第4の計算値を前記第2の補正モデルにより補正し、補正した値を前記第2化合物の物性値の真値として前記データベースに格納する格納部と、を備える、データ処理装置である。
 また、本発明は、物性値の真値が既知の複数の第1化合物それぞれについて、前記物性値としての第1の計算値を第1の計算法により取得し、前記複数の第1化合物それぞれについて、前記物性値としての第2の計算値を、前記第1の計算法により計算結果が取得できない領域で計算結果を取得可能な第2の計算法により取得する取得部と、前記第1の計算値を前記真値に補正する第1の補正モデルと、前記第2の計算値を前記真値に補正する第2の補正モデルとを生成する生成部と、物性値の真値が未知の第2化合物について、前記第1の計算法により物性値として前記取得部が取得した第3の計算値であって、少なくとも前記第1の計算法により計算結果が取得できる領域を含む領域において得られた前記第3の計算値を前記第1の補正モデルにより補正し、補正した値を前記第2化合物の前記物性値の真値としてデータベースに格納し、少なくとも前記第1の計算法により計算結果が取得できない領域を含む領域において、前記第2の計算法により前記第2化合物の物性値として前記取得部が取得した第4の計算値を前記第2の補正モデルにより補正し、補正した値を前記第2化合物の物性値の真値として前記データベースに格納する格納部と、を備える、データ処理システムである。
 本発明によれば、新規材料探索に利用されるデータベースの情報量を増大することができる。
図1は、実施形態のデータ処理システムの概略構成の一例を示す図である。 図2は、実施形態のデータ処理装置のハードウェア構成の一例を示す図である。 図3は、実施形態のデータ処理装置が有する機能の一例を示す図である。 図4は、図3に示す記憶部を説明するための図である。 図5は、実施形態のデータ処理システムの動作例を示すフローチャートである。 図6は、DFT計算結果及びQVE計算結果の傾向を概念的に示す図である。 図7は、図5に示すフローチャートのステップS1の詳細を示すフローチャートである。 図8は、図7における取得部及び生成部の処理を説明するための図である。 図9は、図7における生成部の処理を説明するための図である。 図10は、図5に示すフローチャートのステップS2の詳細を示すフローチャートである。 図11は、ステップS2の処理後のデータベースを説明するための図である。 図12は、ステップS2の処理結果を説明するための図である。 図13は、探索部を説明するための図である。 図14は、図5に示すフローチャートのステップS4の詳細を示すフローチャートである。
 以下、添付図面を参照しながら、本発明に係るデータ処理方法、データ処理装置及びデータ処理システムの実施形態を詳細に説明する。以下では、本明細書で開示するデータ処理方法を実行するシステムを実施形態として説明する。
(実施形態)
 図1は、実施形態のデータ処理システム1の概略構成の一例を示す図である。図1に示すように、実施形態のデータ処理システム1は、データ処理装置10と、量子演算装置20とを含む。図1に例示する各装置は、LAN(Local Area Network)やWAN(Wide Area Network)等のネットワークにより、直接的、又は間接的に相互に通信可能な状態となっている。
 データ処理装置10は、量子力学的な重ね合わせを用いて並列性を実現するコンピュータである量子コンピュータに対比して、所謂、古典コンピュータと呼ばれるフォンノイマン型コンピュータである。図1に示すデータ処理装置10は、例えば、密度汎関数理論(Density Functional Theory:DFT)に基づく計算法を実行可能なワークステーションである。
 量子演算装置20は、量子コンピュータや量子アニーラーにより実現される演算装置である。量子演算装置20は、完全な誤り訂正機能を持った量子コンピュータではなく、ノイズを含んだ計算結果を出力するNISQ(Noisy Intermediate-Scale Quantum device)である。図1に示す量子演算装置20は、例えば、変分量子固有値計算(Variational Quantum Eigensolver:VQE)を実行可能である。
 図2は、データ処理装置10のハードウェア構成の一例を示す図である。図2に示すように、データ処理装置10は、CPU(Central Processing Unit)11と、ROM(Read Only Memory)12と、RAM(Random Access Memory)13と、補助記憶装置14と、入力装置15と、表示装置16と、外部I/F17とを備える。
 CPU11は、プログラムを実行することにより、データ処理装置10の動作を統括的に制御し、データ処理装置10が有する各種の機能を実現する。データ処理装置10が有する各種の機能については後述する。
 ROM12は、不揮発性のメモリであり、データ処理装置10を起動させるためのプログラムを含む各種データ(データ処理装置10の製造段階で書き込まれる情報)を記憶する。RAM13は、CPU11の作業領域を有する揮発性のメモリである。補助記憶装置14は、CPU11が実行するプログラム等の各種データを記憶する。補助記憶装置14は、例えばHDD(Hard Disc Drive)等で構成される。
 入力装置15は、データ処理装置10を使用するユーザが各種の操作を行うためのデバイスである。入力装置15は、例えばマウス、キーボード、タッチパネル又はハードウェアキーで構成される。
 表示装置16は、各種情報を表示する。例えば、表示装置16は、CPU11の処理結果や、ユーザから各種操作を受け付けるためのGUI(Graphical User Interface)等を表示する。表示装置16は、例えば液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ又はブラウン管ディスプレイで構成される。なお、例えばタッチパネルのような形態で、入力装置15と表示装置16とが一体に構成されても良い。
 外部I/F17は、量子演算装置20等の外部装置と接続(通信)するためのインタフェースである。
 図3は、データ処理装置10が有する機能の一例を示す図である。なお、図3の例では、実施形態に関する機能のみを例示しているが、データ処理装置10が有する機能はこれらに限られるものではない。図3に示すように、データ処理装置10は、ユーザインタフェース部101、記憶部102、取得部103、生成部104、格納部105及び探索部106を有する。
 ユーザインタフェース部101は、ユーザの入力を受け付ける機能、及び、各種情報を表示する機能を有する。ユーザインタフェース部101は、例えば図2に示す入力装置15及び表示装置16で実現される。
 記憶部102は、例えば図2に示す補助記憶装置14(例えばHDD)で実現される。記憶部102は、実施形態のデータ処理方法を実行するためデータとして、化合物ごとに、当該化合物の化学的特徴が対応付けられたデータベース(化合物データベース)を記憶する。具体的には、記憶部102は、化合物ごとに、当該化合物の部分構造の特性を示す数値(分子記述子)や、物性を示す物性値の真値等が対応付けられたデータベースを記憶する。
 図4は、図3に示す記憶部を説明するための図である。例えば、記憶部102には、図4に示すように、化合物ごとに、化学構造を示す文字列(分子記述子)と、イオン化ポテンシャル(ionization potential:IP)の真値と、電子親和力(electron affinity:EA)の真値とが登録されたデータベース102aを記憶している。なお、データベース102aに登録される物性値の真値は、実験により求められた実験値であっても、高精度な計算により求められた計算値であっても良い。
 また、実施形態のデータ処理方法を実行するためデータとして、記憶部102は、図4に示すように、学習済みモデル102bを記憶する。学習済みモデル102bは、後述する探索部106の処理に用いられるものである。学習済みモデル102bは、教師データを用いた機械学習により生成される。学習済みモデル102bの生成に用いられる教師データは、例えば、物性Aの物性値の真値として、イオン化ポテンシャルの真値と、電子親和力の真値とが既知の化合物のリストである。例えば、教師データは、データベース102aである。或いは、教師データは、データベース102aとは異なるデータベースでありデータベース102aと同様の構造を有するデータベースである。或いは、教師データは、データベース102a、及び、データベース102aとは異なるデータベースでありデータベース102aと同様の構造を有するデータベースである。
 かかる学習済みモデル102bは、ユーザから物性Aについて所望する物性値「AX」(所定の特徴量の一例)が入力された場合、物性値「AX」を有する新規化合物を推定し、出力する。例えば、物性Aは、イオン化ポテンシャルや電子親和力である。例えば、学習済みモデル102bは、後述する探索部106から、物性Aの物性値として、イオン化ポテンシャルの物性値「AX」が入力されると、物性値「AX」を有すると推定される化学構造の文字列を出力する。また、学習済みモデル102bは、後述する探索部106から、物性Aの物性値として、電子親和力の物性値「AX」が入力されると、物性値「AX」を有すると推定される化学構造の文字列を出力する。また、学習済みモデル102bは、後述する探索部106から、物性Aの物性値として、イオン化ポテンシャルの物性値「AX1」及び電子親和力の物性値「AX2」が入力されると、物性値「AX1」及び物性値「AX2」を有すると推定される化学構造の文字列を出力する。なお、学習モデル102bは、データ処理装置10により生成される場合であっても、別の装置で生成される場合であっても良い。
 このように、データ処理装置10は、上記のデータベース101aを利用して新規材料探索を実行する。ここで、新規化合物の探索対象となり得る化合物の数は、理論上、膨大である。しかし、探索対象となり得る化合物の数に対して、データベース101aに物性値が登録されている化合物の数は、十分ではない。そこで、データ処理装置10は、新規材料探索に利用されるデータベース101aの情報量を増大するため、量子演算装置20と協働して、以下に説明するデータ処理方法を実行する。図5は、実施形態のデータ処理システムの動作例を示すフローチャートである。以下、各ステップについて説明する。
(ステップS1)
 まず、データ処理装置10は、補正モデルを生成する(ステップS1)。ステップS1は、図3に示す取得部103及び生成部104により実行される処理である。
 ステップS1において、取得部103は、物性値の真値が既知の複数の第1化合物それぞれについて、物性値としての第1の計算値を第1の計算法により取得する(第1の取得ステップ)。実施形態では、第1の計算法は、上述したDFTであり、取得部103が有するDFT計算部103aにより実行される。また、ステップS1において、取得部103は、複数の第1化合物それぞれについて、物性値としての第2の計算値を、第2の計算法により取得する(第2の取得ステップ)。実施形態では、第2の計算法は、上述したVQEであり、取得部103が有するVQE計算命令部103bが量子演算装置20に計算命令を送出することで実行される。そして、ステップS1において、生成部104は、第1の計算値を真値に補正する第1の補正モデルと、第2の計算値を真値に補正する第2の補正モデルとを生成する(生成ステップ)。
 ここで、第2の計算法の一例であるVQE計算は、第1の計算法(DFT)により計算結果が取得できない領域で計算結果を取得可能な計算法である。この点について、図6を用いて説明する。図6は、イオン化ポテンシャルの計算値を横軸とし、イオン化ポテンシャルの真値を縦軸として、DFTによる計算結果と真値との関係と、VQEによる計算と真値との関係を示している。なお、図6に示す関係は、実施形態のデータ処理方法の概念を説明するための一例であり、実際のイオン化ポテンシャルの計算結果を含め、全ての物性の計算結果について同様の関係が成立することを意図するものではない。
 図6に示すように、DFT計算では、DFTにより計算結果が取得できる領域1000と、DFTにより計算結果が取得できない領域1100とがある。領域1000は、DFT計算により、真値と相関を有する計算結果が得られる領域である。換言すると、領域1000は、DFTにより定性的に正しい計算結果が得られる領域であり、DFTにより妥当な計算結果が取得できる領域である。
 一方、領域1100は、DFTにより妥当でない計算結果が取得される領域1200と、DFT計算が不正終了する領域1300とに分けられる。領域1200は、DFT計算により計算結果が得られるが、領域1000と比較して、真値との相関が低い計算結果が得られる領域である。
 これに対して、VQE計算では、原理的には、計算不可能な領域はなく、定性的には正しい計算結果が得られる。ここで、NISQ(量子演算装置20)で実行されるVQE計算では、図6に示すように、統計的に一定のノイズを含んだ計算値が得られる。すなわち、VQE計算では、DFT計算で計算結果が取得されない領域1000に含まれる化合物であっても、定性的に正しい計算結果を得ることができる。ただし、VQE計算はDFT計算に比べて、計算時間がかかるため、高速な処理のためにはDFT計算が可能な分子はDFT計算によりデータの収集を行う。
 そこで、実施形態では、ステップS1において、生成部104は、複数の第1化合物それぞれについて、真値と第1の計算値(DFT計算結果)と第2の計算値(VQE計算結果)とを比較する。そして、生成部104は、第1の計算値が真値と相関を有する範囲において第1の補正モデル(DFT補正モデル)を生成し、第2の計算値が真値と相関を有する範囲において第2の補正モデル(VQE補正モデル)を生成する。
 ステップS1の具体的な処理について、図7~図9を用いて説明する。図7は、図5に示すフローチャートのステップS1の詳細を示すフローチャートであり、図8は、図7における取得部103及び生成部104の処理を説明するための図であり、図9は、図7における生成部104の処理を説明するための図である。
 図7に示すように、取得部103は、物性値の真値が既知の第1化合物のリストを取得する(ステップS11)。例えば、取得部103は、記憶部102が記憶するデータベース102aからデータを取得する。なお、ステップS11で取得される「イオン化ポテンシャル及び電子親和力の真値が既知の化合物のリスト」は、ユーザインタフェース部101を介して外部から取得されても良い。
 DFT計算部103aは、第1化合物の化学構造からDFT計算用の計算式を作成し、DFT計算を実行し計算結果を取得する(ステップS12)。また、ステップS12と並行して、VQE計算命令部103bは、第1化合物の化学構造からVQE計算用の計算式を作成し、作成した計算式を量子演算装置20に送信することで、量子演算装置20にVQE計算を実行させ、計算結果を取得する(ステップS13)。なお、ステップS12は、ステップS13の実行前に実行される場合であっても、ステップS13の実行後に実行される場合であっても良い。
 図8は、取得部103がイオン化ポテンシャルの計算結果を取得する場合の一例を示している。図8の上段では、「化合物:CK1、真値:IP_1」について、DFTの計算結果が「IPD_1」であり、VQEの計算結果が「IPV_1」であったことを示している。同様に、図8の上段では、「化合物:CK2、真値:IP_2」について、DFTの計算結果が「IPD_2」であり、VQEの計算結果が「IPV_2」であったことを示している。そして、図8の上段では、「化合物:CKn、真値:IP_n」について、VQEの計算結果が「IPV_n」であるが、DFTの計算結果が取得できなかったことを示している。すなわち、「化合物:CKn」は、DFT計算では領域1300に該当する化合物である。
 図7に戻って、生成部104は、計算結果と真値とを比較する(ステップS14)。ステップS14では、生成部104は、DFTの計算結果それぞれについて、真値と相関を有するか否かを判定する。同様に、ステップS14では、生成部104は、VQEの計算結果それぞれについて、真値と相関を有するか否かを判定する。図8の下段では、生成部104は、DFTの計算結果「IPD_2」が真値と相関を有さない値であると判定する。この判定結果は、「化合物:CK2」が、DFT計算では領域1200に含まれる計算結果が取得される化合物であることを示している。なお、図6に示す一例では、VQE計算の結果は、全て真値と相関を有すると判定される。
 そして、生成部104は、DFT補正モデルとVQE補正モデルとを生成する(ステップS15)。例えば、生成部104は、図9に示すように、DFTの計算結果が、領域1000の範囲に含まれる場合に、DFTの計算結果を真値に補正するDFT補正モデルを生成する。また、生成部104は、図9に示すように、VQEの計算結果を真値に補正するDFT補正モデルを生成する。なお、ステップS1では、イオン化ポテンシャルについて、DFT計算とVQE計算とが実行され、DFT補正モデルとVQE補正モデルとが生成されるとともに、電子親和力についても、DFT計算とVQE計算とが実行され、DFT補正モデルとVQE補正モデルとが生成される。
 ステップS1により生成されたDFT補正モデルとVQE補正モデルを用いることで、以下のステップS2で説明するように、広範な分子に適用可能な補正処理が可能となる。
(ステップS2)
 図5に戻って、ステップS1の後、データ処理装置10は、データベースを構築する(ステップS2)。ステップS2は、図3に示す取得部103及び格納部105により実行される処理である。
 ステップS2において、取得部13(DFT計算部103a)は、物性値の真値が未知の第2化合物について、第1の計算法(DFT)により物性値としての第3の計算値を取得する(第3の取得ステップ)。そして、格納部105は、少なくとも第1の計算法(DFT)により計算結果が取得できる領域(領域1000)を含む領域において得られた第3の計算値を第1の補正モデル(DFT補正モデル)により補正し、補正した値を第2化合物の物性値の真値としてデータベース102aに格納する(第1の格納ステップ)。
 そして、取得部13(VQE計算命令部103b)は、少なくとも第1の計算法により計算結果が取得できない領域(領域1100)を含む領域において、第2の計算法(QVE)により前記第2化合物の物性値としての第4の計算値を取得する(第4の取得ステップ)。そして、格納部105は、第4の計算値を第2の補正モデル(VQE補正モデル)により補正し、補正した値を第2化合物の物性値の真値としてデータベース102aに格納する(第2の格納ステップ)。
 ステップS2の具体的な処理について、図10~図12を用いて説明する。図10は、図5に示すフローチャートのステップS2の詳細を示すフローチャートであり、図11は、ステップS2の処理後のデータベースを説明するための図であり、図12は、ステップS2の処理結果を説明するための図である。
 図10に示すように、取得部103は、物性値の真値が未知の第2化合物のリストを取得する(ステップS21)。例えば、ユーザインタフェース部101は、ユーザが入力した「イオン化ポテンシャル及び電子親和力の真値が未知の化合物のリスト」を取得し、取得部103に引き渡す。第2化合物のリストに含まれる化合物の数は、第1化合物のリストに含まれる化合物の数より多い。なお、以下に説明するステップS22以降の処理は、リストに含まれる化合物それぞれについて繰り返し行われる。
 DFT計算部103aは、第2化合物について、DFT計算を実行し(ステップS22)、格納部105は、DFT計算により計算結果が取得できたか否かを判定する(ステップS23)。すなわち、格納部105は、DFT計算部103aの計算が不正終了したか否か、或いは、DFT計算部103aが得た計算結果が領域1200に該当する値であるか否かを判定する。換言すると、格納部105は、DFT計算により得られた計算結果が領域1000に該当する値であるか否かを判定する。
 以下、判定方法の具体例について説明する。例えば、格納部105は、実験により既知となっている真値とDFT計算結果とに相関がある領域において、一次近似により近似関数を得る。格納部105は、DFT計算で得られた値が、かかる近似関数により外挿した直線から乖離する範囲の値である場合、すなわち、領域1200にある値である場合、DFT計算により計算結果が取得できなかったと判定する。また、格納部105は、DFT計算で得られた値が、対象となる物性に応じて予め設定された閾値を用いて、妥当な計算結果か否かを判定する。例えば、IPをDFT計算により求める場合、2eV以下の領域では妥当な計算結果が得られないことが知られている。このことから、格納部105は、DFT計算で得られたIPの値が、2eV以下の場合、DFT計算により計算結果が取得できなかったと判定する。また、格納部105は、解の安定性解析を行なうことで、DFT計算により計算結果が取得できたか否かを判定する。例えば、格納部105は、非制限法によるDFT波動関数に一重項不安定性が存在するか否かを調べ、存在する場合、DFT計算により計算結果が取得できなかったと判定し、存在しない場合、DFT計算により計算結果が取得できたと判定する。
 ここで、DFT計算により計算結果が取得できている場合(ステップS23、Yes)、格納部105は、DFTの計算結果をDFT補正モデルにより補正し(ステップS24)、補正値を第2化合物の物性値の真値としてデータベース102aに格納する(ステップS27)。
 一方、DFT計算により計算結果が取得できなかった場合(ステップS23、No)、VQE計算命令部103bは、量子演算装置20にVQE計算を実行させ、計算結果を取得する(ステップS25)。そして、格納部105は、VQEの計算結果をVQE補正モデルにより補正し(ステップS26)、補正値を第2化合物の物性値の真値としてデータベース102aに格納する(ステップS27)。
 上述したステップS2(ステップS21~S27)の処理により、多数の第2化合物について、イオン化ポテンシャルの真値と、電子親和力の真値とが得られる。これにより、図11に示すように、第2化合物を第1化合物としてデータベース102aに登録することができ、データベース102aされる情報量を大幅に増大することができる。概念的には、図12で例示するように、イオン化ポテンシャル及び電子親和力それぞれについて、DFTでデータベースの構築が可能な領域に、VQEでデータベースを拡張できる領域を合わせることで、分子のデータベース空間を拡大することができる。また、NISQは、理論上全ての範囲で真値と相関性のある計算値を出力することができるが、現時点ではハードウェアリソースの問題やコストの問題により、NISQによるVQE計算が適用できる化合物の範囲は、古典コンピュータと呼ばれるフォンノイマン型コンピュータによるDFT計算が適用できる範囲に比べて、限定的である。この点、上述したステップS2では、DFT計算により計算結果が取得できなかった場合に、NISQによるVQE計算を実行することで、NISQを利用したデータベース拡張を効率的に行うことができる。
(ステップS3)
 図5に戻って、ステップS2の後、データ処理装置10は、ステップ2により情報量が増大したデータベース102aを用いて新規化合物を探索する(ステップS3)。ステップS3は、図3に示す探索部106により実行される処理である。図13は、探索部106を説明するための図である。
 例えば、入力装置015を介してユーザから物性Aについて所望する物性値「AX」を受け付けると、探索部106は、図13に示すように、物性値「AX」を学習済みモデル102bに入力する。学習済みモデル102bは、物性Aの物性値が「AX」となる可能性のある化合物Xの構造を推定する。例えば、学習済みモデル102bは、探索部106から、物性Aの物性値として、イオン化ポテンシャルの物性値「AX」が入力されると、物性値「AX」を有すると推定される化学構造の文字列を出力する。また、学習済みモデル102bは、探索部106から、物性Aの物性値として、電子親和力の物性値「AX」が入力されると、物性値「AX」を有すると推定される化学構造の文字列を出力する。なお、図示していないが、学習済みモデル102bは、探索部106から、物性Aの物性値として、イオン化ポテンシャルの物性値「AX1」及び電子親和力の物性値「AX2」が入力されると、物性値「AX1」及び物性値「AX2」を有すると推定される化学構造の文字列を出力する。
 実施形態では、ステップS2により情報量が増大したデータベース102aを用いることで、新規化合物の探索効率を向上することができる。
(ステップS4)
 図5に戻って、ステップS3の後、データ処理装置10は、ステップ3により探索された新規化合物について、データベース102aを更新する(ステップS4)。ステップS4は、ステップS2と同様、図3に示す取得部103及び格納部105により実行される処理である。
 ステップS4では、取得部13(DFT計算部103a)は、DFTにより新規化合物について第3の計算値を取得する。そして、格納部105は、少なくとも第1の計算法(DFT)により計算結果が取得できる領域(領域1000)を含む領域において得られた第3の計算値を第1の補正モデル(DFT補正モデル)により補正した値を新規化合物の物性値の真値としてデータベース102aに格納する。
 そして、取得部13(VQE計算命令部103b)は、少なくとも第1の計算法により計算結果が取得できない領域(領域1100)を含む領域において、第2の計算法(QVE)により新規化合物の物性値としての第4の計算値を取得する。そして、格納部105は、第4の計算値を第2の補正モデル(VQE補正モデル)により補正した値を新規化合物の物性値の真値としてデータベース102aに格納する。
 ステップS4の具体的な処理について、図14を用いて説明する。図14は、図5に示すフローチャートのステップS4の詳細を示すフローチャートである。
 図14に示すように、新規化合物の入力を受け付けると(ステップS31)、DFT計算部103aは、新規化合物について、DFT計算を実行し(ステップS32)、格納部105は、DFT計算により計算結果が取得できたか否かを判定する(ステップS33)。ここで、DFT計算により計算結果が取得できている場合(ステップS33、Yes)、格納部105は、DFTの計算結果をDFT補正モデルにより補正し(ステップS34)、補正値を新規化合物の物性値の真値としてデータベース102aに格納する(ステップS37)。
 一方、DFT計算により計算結果が取得できなかった場合(ステップS33、No)、VQE計算命令部103bは、量子演算装置20にVQE計算を実行させ、計算結果を取得する(ステップS35)。そして、格納部105は、VQEの計算結果をVQE補正モデルにより補正し(ステップS36)、補正値を新規化合物の物性値の真値としてデータベース102aに格納する(ステップS37)。
 ステップS4の処理により、新規化合物についても物性値の真値を取得することができ、データベース102aの情報量を更に増大することができる。なお、真値として計算値を含めずに実験値に限定すると、ステップS4で得られる物性値の真値は、予測真値となる。
 上述したように、実施形態では、限られた数の第1化合物について、イオン化ポテンシャルや電子親和力の計算値をDFT計算及びVQE計算で取得し、計算結果を限られた数の真値と比較することで、広範な分子に適用可能な計算結果の補正モデルを求める。そして、実施形態では、広範な分子に適用可能な計算結果の補正モデルを用いて、膨大な数の第2化合物について、イオン化ポテンシャルや電子親和力の計算値を真値に変換する。これにより、実施形態では、新規材料探索に利用されるデータベース102aの情報量を増大することができる。
 また、実施形態では、情報量が増大したデータベース102aを用いることで、化合物探索の効率を向上することができるとともに、新規化合物についても、広範な分子に適用可能な計算結果の補正モデルを用いて、物性値の真値を求めることができ、データベース102aの情報量を更に増大することができる。
 以上、本発明に係る実施形態について説明したが、本発明は、上述の実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上述の実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除しても良い。
(変形例)
 以下に変形例を記載する。
(1)変形例1
 上述した実施形態で説明したステップS2の処理では、DFTにより(妥当な)計算結果が取得できる領域1000において、DFT計算で得られた計算結果(第3の計算値)がDFT補正モデルにより補正され、データベースに格納される。また、ステップS2の処理では、DFTにより計算結果が取得できない領域1100において、VQE計算で得られた計算結果(第4の計算値)が、VQE補正モデルにより補正され、データベースに格納される。ここで、ステップS2の処理では、DFTにより妥当でない計算結果が取得される領域1200において、DFTの計算結果(第3の計算値)及びVQEの計算結果(第4の計算値)の双方が取得されるが、VQE計算で得られた計算結果(第4の計算値)が、VQE補正モデルにより補正され、データベースに格納される。
 ところで、領域1200と領域1000との境界は、DFT計算結果と真値とに相関が有る範囲とDFT計算結果と真値とに無い範囲との境界となる。かかる境界は、例えば、相関係数等に対して設定された閾値や、ユーザの判断により設定される。このため、境界近傍では、第3の計算値を補正した値と、第4の計算値を補正した値とのどちらが真値として適切であるのか不明な場合がある。
 そこで、変形例1では、以下のような処理を行う。例えば、領域1200と領域1000との境界に対応するDFT計算値を「A」とし、初期設定或いはユーザ設定により「α」が与えられているとする。変形例1では、第2化合物「Z」のイオン化ポテンシャルのDFT計算値「Y1」が「A-α≦Y1≦A+α」であった場合、格納部105は、「Y1」をDFT補正モデルで補正した補正値「Y1DFT」と、第2化合物「Z」のVQE計算値「Y2」をVQE補正モデルで補正した補正値「Y2VQE」とを表示装置16に表示させる。その際、格納部105は、第2化合物「Z」の化学構造も表示装置16に表示させる。ユーザは、化学構造を考慮して、補正値「Y1DFT」と補正値「Y2VQE」とのうち、適切と判定した補正値を選択する。そして、格納部105は、ユーザが選択した補正値を、第2化合物「Z」の真値としてデータベース102aに格納する。
 変形例1では、DFTの計算結果(第3の計算値)が領域1200に含まれていても、当該計算結果が、DFT補正モデルにより補正され、データベースに格納される場合がある。また、変形例1では、DFTの計算結果(第3の計算値)が領域1000に含まれていても、第3の計算値が上記の範囲内であれば、VQEの計算結果(第4の計算値)が取得され、当該計算結果がVQE補正モデルにより補正され、データベースに格納される場合がある。変形例1の処理により、境界領域における物性値の真値として適切な値を得ることができる。
 なお、上記の変形例1では、補正値の選択がユーザにより行われる場合について説明したが、補正値の選択が自動的に行われる場合であっても良い。かかる場合、例えば、探索部106は、データベース102aを用いたデータマイニングにより、第2化合物「Z」のイオン化ポテンシャルの値を推定する。そして、格納部106は、「Y1DFT」と「Y2VQE」とのうち、探索部106が推定した値に近い値を、第2化合物「Z」の真値としてデータベース102aに格納する。
(2)変形例2
 上述した実施形態で説明したステップS2の処理で、第2の化合物についてDFT計算で得られた計算結果(第3の計算値)をDFT補正モデルにより補正した補正値が真値としてデータベース102aに格納された場合、生成部104は、以下の変形例2の処理を行っても良い。
 変形例2にかかる生成部104は、DFT計算結果をDFT補正モデルにより補正した補正値を真値とした第2の化合物について、VQEによる計算結果を、VQE計算命令部103bを介して更に取得する。そして、生成部104は、真値として格納された値と、VQEによる計算値とを更に用いて、第2の補正モデル(VQE補正モデル)を生成する。かかる変形例2の処理を随時行うことにより、第2の補正モデルを更新することでき、その結果、補正の精度を向上させることができる。
(3)変形例3
 上述した実施形態では、第1の計算法がDFTであり、第2の計算法がVQEである場合について説明したが、これに限定されるものではない。第1の計算法により計算結果が取得できない領域で計算結果を取得可能な第2の計算法であるならば、本明細書で開示したデータ処理方法に適用される第1の計算法と第2の計算法は、如何なる組み合わせでも適用可能である。例えば、第1の計算法としては、摂動論や結合クラスター理論による計算法が挙げられる。また、例えば、第2の計算法としては、量子位相推定が挙げられる。
(4)変形例4
 上述した実施形態では、物性値としてイオン化ポテンシャルと電子親和力とを計算する場合について説明したが、本明細書で開示したデータ処理方法に適用可能な第1の計算法及び第2の計算法の双方で計算可能な物性値であれば、如何なる種類の物性値であっても良い。
(5)変形例5
 上述した実施形態では、化学構造とIPとの相関、化学構造とEAとの相関、化学構造とIP及びEAとの相関を学習した学習済みモデル102bにより、所望のIPを有する化学構造、所望のEAを有する化学構造、所望のIP及びEAを有する化学構造を推定する場合について説明したが、これに限定されるものではない。例えば、学習済みモデル102bと以下に説明する第2学習済みモデルを用いることで、IP及びEAとは異なる第3の物性(物性B)を有する化学構造を推定することも可能である。例えば、第2学習済みモデルは、IPの真値と、EAの真値と、物性Bの真値とが既知の化合物のリストを教師データとして用いた機械学習により生成される。第2学習済みモデルは、探索部106から物性Bについてユーザが所望する物性値「BX」が入力されると、物性値「BX」となる可能性のあるIPの値(IPBX)と、EAの値(EABX)とを出力する。探索部106は、IPBXとEABXとを学習済みモデル102bに入力することで、物性値「BX」を有すると推定される化学構造の文字列を取得する。かかる処理により探索された新規化合物についても、ステップS4の処理を行って、IPやEAの物性値の真値を得ることができる。
(6)変形例6
 上述した実施形態におけるデータ処理システム1は、データ処理装置10と、量子演算装置20とを含んで構成されているが、実施形態のデータ処理システム1は、上述したデータ処理装置10が有する複数の機能と、量子演算装置20が有する機能とが、複数の装置に分散して配置される形態であっても良い。
 例えば、データ処理システム1は、取得部103、生成部104及び格納部105を有するデータベース構築装置と、量子演算装置20と、学習済みモデル102b及び探索部106を有する探索装置と、データベース102aを記憶する記憶装置とを含む場合であっても良い。また、記憶装置が記憶するデータベース102aは、複数のデータベース構築装置それぞれが構築したデータベースが統合されたものであっても良い。
 上述の実施形態は、以上の変形例と任意に組み合わせることができるし、以上の変形例同士を任意に組み合わせても良い。
 また、上述した実施形態のデータ処理装置10で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM、フレキシブルディスク(FD)、光磁気ディスク(Magneto-Optical disk)、CD-R、DVD、 Blu-ray Disc(登録商標)、USB(Universal Serial Bus)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成しても良いし、インターネット等のネットワーク経由で提供又は配布するように構成しても良い。また、各種プログラムを、例えばROM等の不揮発性の記憶媒体に予め組み込んで提供するように構成しても良い。
1 データ処理システム
10 データ処理装置
101 ユーザインタフェース部
102 記憶部
103 取得部
103a DFT計算部
103b VQE計算命令部
104 生成部
105 格納部
106 探索部
20 量子演算装置

Claims (12)

  1.  物性値の真値が既知の複数の第1化合物それぞれについて、前記物性値としての第1の計算値を第1の計算法により取得する第1の取得ステップと、
     前記複数の第1化合物それぞれについて、前記物性値としての第2の計算値を、前記第1の計算法により計算結果が取得できない領域で計算結果を取得可能な第2の計算法により取得する第2の取得ステップと、
     前記第1の計算値を前記真値に補正する第1の補正モデルと、前記第2の計算値を前記真値に補正する第2の補正モデルとを生成する生成ステップと、
     物性値の真値が未知の第2化合物について、前記第1の計算法により物性値としての第3の計算値を取得する第3の取得ステップと、
     少なくとも前記第1の計算法により計算結果が取得できる領域を含む領域において得られた前記第3の計算値を前記第1の補正モデルにより補正し、補正した値を前記第2化合物の前記物性値の真値としてデータベースに格納する第1の格納ステップと、
     少なくとも前記第1の計算法により計算結果が取得できない領域を含む領域において、前記第2の計算法により前記第2化合物の物性値としての第4の計算値を取得する第4の取得ステップと、
     前記第4の計算値を前記第2の補正モデルにより補正し、補正した値を前記第2化合物の物性値の真値として前記データベースに格納する第2の格納ステップと、
     を含む、データ処理方法。
  2.  前記データベースを用いて所定の特徴量を有する新規化合物を探索する探索ステップ、
     を更に含む、請求項1に記載のデータ処理方法。
  3.  前記第3の取得ステップは、前記新規化合物について前記第3の計算値を取得し、
     前記第1の格納ステップは、少なくとも前記第1の計算法により計算結果が取得できる領域を含む領域において得られた前記第3の計算値を前記第1の補正モデルにより補正した値を前記新規化合物の前記物性値の真値として前記データベースに格納し、
     前記第4の取得ステップは、少なくとも前記第1の計算法により計算結果が取得できない領域を含む領域において、前記第2の計算法により前記新規化合物の物性値としての前記第4の計算値を取得し、
     前記第2の格納ステップは、前記第4の計算値を前記第2の補正モデルにより補正した値を前記新規化合物の物性値の真値として前記データベースに格納する、
     請求項2に記載のデータ処理方法。
  4.  前記探索ステップは、前記データベースを用いた機械学習により前記新規化合物を探索する、
     請求項2又は3に記載のデータ処理方法。
  5.  前記生成ステップは、前記複数の第1化合物それぞれについて、前記真値と前記第1の計算値と前記第2の計算値とを比較し、前記第1の計算値が前記真値と相関を有する範囲において前記第1の補正モデルを生成し、前記第2の計算値が前記真値と相関を有する範囲において前記第2の補正モデルを生成する、
     請求項1~4のいずれか1つに記載のデータ処理方法。
  6.  前記生成ステップは、記第2の化合物について、前記第1の格納ステップで前記データベースに前記物性値の真値として格納した値と、前記第2の計算法により前記物性値として取得された計算値とを更に用いて、前記第2の補正モデルを生成する、
     請求項1~5のいずれか1つに記載のデータ処理方法。
  7.  前記第1化合物の前記物性値の真値は、実験により求められた実験値である、
     請求項1~6のいずれか1つに記載のデータ処理方法。
  8.  前記第1の計算法は、密度汎関数理論に基づく計算法であり、
     前記第2の計算法は、変分量子固有値計算である、
     請求項1~7のいずれか1つに記載のデータ処理方法。
  9.  前記第1の取得ステップ及び前記第3の取得ステップそれぞれは、フォンノイマン型コンピュータにより前記第1の計算法を実行させることで、前記第1の計算値及び前記第3の計算値をそれぞれ取得し、
     前記第2の取得ステップ及び前記第4の取得ステップそれぞれは、量子演算装置により前記第2の計算法を実行させることで、前記第2の計算値及び前記第4の計算値をそれぞれ取得する、
     請求項1~8のいずれか1つに記載のデータ処理方法。
  10.  前記量子演算装置は、NISQ(Noisy Intermediate-Scale Quantum device)である、
     請求項9に記載のデータ処理方法。
  11.  物性値の真値が既知の複数の第1化合物それぞれについて、前記物性値としての第1の計算値を第1の計算法により取得し、前記複数の第1化合物それぞれについて、前記物性値としての第2の計算値を、前記第1の計算法により計算結果が取得できない領域で計算結果を取得可能な第2の計算法により取得する取得部と、
     前記第1の計算値を前記真値に補正する第1の補正モデルと、前記第2の計算値を前記真値に補正する第2の補正モデルとを生成する生成部と、
     物性値の真値が未知の第2化合物について、前記第1の計算法により物性値として前記取得部が取得した第3の計算値であって、少なくとも前記第1の計算法により計算結果が取得できる領域を含む領域において得られた前記第3の計算値を前記第1の補正モデルにより補正し、補正した値を前記第2化合物の前記物性値の真値としてデータベースに格納し、少なくとも前記第1の計算法により計算結果が取得できない領域を含む領域において、前記第2の計算法により前記第2化合物の物性値として前記取得部が取得した第4の計算値を前記第2の補正モデルにより補正し、補正した値を前記第2化合物の物性値の真値として前記データベースに格納する格納部と、
     を備える、データ処理装置。
  12.  物性値の真値が既知の複数の第1化合物それぞれについて、前記物性値としての第1の計算値を第1の計算法により取得し、前記複数の第1化合物それぞれについて、前記物性値としての第2の計算値を、前記第1の計算法により計算結果が取得できない領域で計算結果を取得可能な第2の計算法により取得する取得部と、
     前記第1の計算値を前記真値に補正する第1の補正モデルと、前記第2の計算値を前記真値に補正する第2の補正モデルとを生成する生成部と、
     物性値の真値が未知の第2化合物について、前記第1の計算法により物性値として前記取得部が取得した第3の計算値であって、少なくとも前記第1の計算法により計算結果が取得できる領域を含む領域において得られた前記第3の計算値を前記第1の補正モデルにより補正し、補正した値を前記第2化合物の前記物性値の真値としてデータベースに格納し、少なくとも前記第1の計算法により計算結果が取得できない領域を含む領域において、前記第2の計算法により前記第2化合物の物性値として前記取得部が取得した第4の計算値を前記第2の補正モデルにより補正し、補正した値を前記第2化合物の物性値の真値として前記データベースに格納する格納部と、
     を備える、データ処理システム。
PCT/JP2020/004640 2019-02-12 2020-02-06 データ処理方法、データ処理装置及びデータ処理システム WO2020166486A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP20754877.7A EP3926637A4 (en) 2019-02-12 2020-02-06 DATA PROCESSING METHODS, DATA PROCESSING EQUIPMENT AND DATA PROCESSING SYSTEM
JP2020572208A JP7351317B2 (ja) 2019-02-12 2020-02-06 データ処理方法、データ処理装置及びデータ処理システム
CN202080013555.3A CN113454728A (zh) 2019-02-12 2020-02-06 数据处理方法、数据处理装置以及数据处理系统
US17/399,162 US20210375403A1 (en) 2019-02-12 2021-08-11 Data processing method, data processing device, and data processing system
JP2023148671A JP2023169271A (ja) 2019-02-12 2023-09-13 データ処理方法、データ処理装置及びデータ処理システム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-022362 2019-02-12
JP2019022362 2019-02-12

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/399,162 Continuation US20210375403A1 (en) 2019-02-12 2021-08-11 Data processing method, data processing device, and data processing system

Publications (1)

Publication Number Publication Date
WO2020166486A1 true WO2020166486A1 (ja) 2020-08-20

Family

ID=72045390

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/004640 WO2020166486A1 (ja) 2019-02-12 2020-02-06 データ処理方法、データ処理装置及びデータ処理システム

Country Status (5)

Country Link
US (1) US20210375403A1 (ja)
EP (1) EP3926637A4 (ja)
JP (2) JP7351317B2 (ja)
CN (1) CN113454728A (ja)
WO (1) WO2020166486A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112927768A (zh) * 2021-02-26 2021-06-08 中国地质大学(武汉) 一种多目标复杂结构化探数据校正方法、设备及存储设备
WO2022149395A1 (ja) * 2021-01-07 2022-07-14 富士フイルム株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007039437A (ja) * 2005-07-05 2007-02-15 Tomohisa Ishikawa 化合物の生理活性の定量的予測方法
WO2010016109A1 (ja) * 2008-08-05 2010-02-11 富士通株式会社 サンプルの帰属クラス予測方法、帰属クラス予測プログラムおよび帰属クラス予測装置
WO2014034577A1 (ja) * 2012-08-27 2014-03-06 株式会社京都コンステラ・テクノロジーズ 化合物設計装置、化合物設計方法、及びコンピュータプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101262045B1 (ko) * 2011-10-06 2013-05-08 주식회사 켐에쎈 양자역학 계산 프로그램과 물성정보 예측모듈을 이용하여 일괄처리를 자동화한 방법 및 그 시스템
WO2014047463A2 (en) * 2012-09-22 2014-03-27 Bioblocks, Inc. Libraries of compounds having desired properties and methods for making and using them
CN106096284B (zh) * 2016-06-15 2018-07-31 西安近代化学研究所 一种含能化合物计算机辅助合成路线设计系统
KR102523472B1 (ko) * 2016-08-01 2023-04-18 삼성전자주식회사 신규 물질의 구조 생성 방법 및 장치
WO2018098588A1 (en) * 2016-12-02 2018-06-07 Lumiant Corporation Computer systems for and methods of identifying non-elemental materials based on atomistic properties

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007039437A (ja) * 2005-07-05 2007-02-15 Tomohisa Ishikawa 化合物の生理活性の定量的予測方法
WO2010016109A1 (ja) * 2008-08-05 2010-02-11 富士通株式会社 サンプルの帰属クラス予測方法、帰属クラス予測プログラムおよび帰属クラス予測装置
WO2014034577A1 (ja) * 2012-08-27 2014-03-06 株式会社京都コンステラ・テクノロジーズ 化合物設計装置、化合物設計方法、及びコンピュータプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JOANNE HILL ET AL.: "Materials science with large-scale data and informatics: Unlocking new opportunities", MRS BULLETIN, vol. 41, May 2016 (2016-05-01), pages 399 - 409

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022149395A1 (ja) * 2021-01-07 2022-07-14 富士フイルム株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
CN112927768A (zh) * 2021-02-26 2021-06-08 中国地质大学(武汉) 一种多目标复杂结构化探数据校正方法、设备及存储设备
CN112927768B (zh) * 2021-02-26 2022-04-15 中国地质大学(武汉) 一种多目标复杂结构化探数据校正方法、设备及存储设备

Also Published As

Publication number Publication date
JP2023169271A (ja) 2023-11-29
EP3926637A4 (en) 2022-11-16
JPWO2020166486A1 (ja) 2021-12-16
CN113454728A (zh) 2021-09-28
JP7351317B2 (ja) 2023-09-27
US20210375403A1 (en) 2021-12-02
EP3926637A1 (en) 2021-12-22

Similar Documents

Publication Publication Date Title
JP2023169271A (ja) データ処理方法、データ処理装置及びデータ処理システム
AU2018253478B2 (en) Testing insecure computing environments using random data sets generated from characterizations of real data sets
JP5946423B2 (ja) システム・ログの分類方法、プログラム及びシステム
Kjærgaard et al. The divide–expand–consolidate coupled cluster scheme
Mulvihill et al. A modified approach for simulating electronically nonadiabatic dynamics via the generalized quantum master equation
US9760347B2 (en) Method and system to identify GUI objects for non-markup-language-presented applications
US20040199533A1 (en) Associative hash partitioning
US20140007068A1 (en) Managing changes to one or more files via linked mapping records
JP2013171579A (ja) Bimデータファイルに含まれたデータを提供する方法、それを記録した記録媒体、それを含むシステム、及びbimサーバのデータ提供方法
CN109783628B (zh) 结合时间窗口和关联规则挖掘的关键词搜索ksaarm方法
JP2016149127A (ja) 実体属性値の確定装置及び方法
US9355020B2 (en) Resolving nondeterminism in application behavior models
Bircher et al. Improved description of atomic environments using low-cost polynomial functions with compact support
Jaquis et al. Using machine learning to predict enthalpy of solvation
Shaydulin et al. QAOAwith $ N\cdot p\geq 200$
US9122740B2 (en) Bulk traversal of large data structures
JP5463988B2 (ja) 構成情報管理装置、構成情報管理プログラム及び構成情報管理方法
JP2005242563A (ja) 分子軌道演算装置、該方法、該プログラム及び記録媒体
WO2019170607A1 (en) Method and computer-program-product determining measures for the development, design and/or deployment of complex embedded or cyber-physical systems, in particular complex software architectures used therein, of different technical domains
Dickson μ-tempered metadynamics: Artifact independent convergence times for wide hills
US9542502B2 (en) System and method for XML subdocument selection
Jian et al. An effective inertial-relaxed CGPM for nonlinear monotone equations
US11157508B2 (en) Estimating the number of distinct entities from a set of records of a database system
US11562809B2 (en) Method for automatically generating universal set of stereoisomers of organic molecule
JP2021184147A (ja) データ変換プログラム、データ変換装置、及びデータ変換方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20754877

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020572208

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020754877

Country of ref document: EP

Effective date: 20210913