WO2024034688A1 - 学習装置、推論装置及びモデル作成方法 - Google Patents

学習装置、推論装置及びモデル作成方法 Download PDF

Info

Publication number
WO2024034688A1
WO2024034688A1 PCT/JP2023/029372 JP2023029372W WO2024034688A1 WO 2024034688 A1 WO2024034688 A1 WO 2024034688A1 JP 2023029372 W JP2023029372 W JP 2023029372W WO 2024034688 A1 WO2024034688 A1 WO 2024034688A1
Authority
WO
WIPO (PCT)
Prior art keywords
electron density
function
model
learning
value
Prior art date
Application number
PCT/JP2023/029372
Other languages
English (en)
French (fr)
Inventor
清志郎 小野
伊織 倉田
聡 高本
Original Assignee
株式会社Preferred Networks
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Preferred Networks filed Critical 株式会社Preferred Networks
Publication of WO2024034688A1 publication Critical patent/WO2024034688A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons

Definitions

  • Embodiments of the present disclosure relate to a learning device, an inference device, and a model creation method.
  • the Hamiltonian cannot be determined strictly. Therefore, when dealing with such physical systems, it is common to find the Hamiltonian through approximate calculations.
  • the problem that the present disclosure aims to solve is to reduce the calculation load compared to the conventional method when obtaining a potential function of a physical system using an approximate calculation method.
  • a learning device includes at least one memory and at least one processor, wherein the at least one processor acquires teaching data of physical parameters, and stores the teaching data in a first input into a model to generate a potential function, output a first value of the physical parameter using the potential function, and generate the first model based on the first value of the physical parameter and the training data. Adjust network parameters.
  • FIG. 1 is a block diagram showing an example of the hardware configuration of a learning device according to this embodiment.
  • FIG. 2 is a diagram illustrating an example of functional blocks in the processor according to the embodiment.
  • FIG. 3 is a flowchart showing an example of the flow of SCF calculation processing.
  • FIG. 4 is a flowchart showing an example of the flow of potential generation model learning processing.
  • FIG. 5 is a flowchart showing an example of the flow of fine tuning processing using SCF calculation processing.
  • FIG. 6 is a flowchart illustrating an example of the potential generation model learning process of the learning device according to the comparative example.
  • FIG. 7 is a diagram for explaining the effect of SCF calculation processing using the learned potential generation model according to the embodiment.
  • FIG. 8 is a diagram for explaining the effect of SCF calculation processing using the learned potential generation model according to the embodiment.
  • the learning device and the inference device determine fixed points of the physical system (specifically, physical It may be used to obtain the value of a physical parameter corresponding to a stable point of energy of a system by recursive calculation.
  • FIG. 1 is a block diagram showing an example of the hardware configuration of a learning device 1 according to the present embodiment.
  • the learning device 1 may be connected to an external device 9A via a communication network 5. Further, the learning device 1 may include an external device 9B connected via the device interface 39.
  • the learning device 1 includes a computer 30 and an external device 9B connected to the computer 30 via a device interface 39.
  • the computer 30 includes, for example, a processor 31, a main storage device (memory) 33, an auxiliary storage device (memory) 35, a network interface 37, and a device interface 39.
  • the learning device 1 may be realized as a computer 30 in which a processor 31, a main storage device 33, an auxiliary storage device 35, a network interface 37, and a device interface 39 are connected via a bus 41.
  • the computer 30 shown in FIG. 1 includes one of each component, it may include a plurality of the same components.
  • the software may be installed on multiple computers, and each of the multiple computers may execute the same or different part of the software. Good too.
  • a form of distributed computing may be used in which each computer communicates via the network interface 37 or the like to execute processing.
  • the learning device 1 in this embodiment may be configured as a system in which one or more computers execute instructions stored in one or more storage devices to realize various functions described below.
  • the information sent from the terminal is processed by one or more computers installed on the cloud, and the processing results are sent to a terminal such as a display device (display unit) corresponding to the external device 9B. It may be configured like this.
  • Various calculations of the learning device 1 in this embodiment may be executed in parallel using one or more processors or using multiple computers via a network. Further, various calculations may be distributed to a plurality of calculation cores within the processor and executed in parallel. Further, a part or all of the processing, means, etc. of the present disclosure may be executed by at least one of a processor and a storage device provided on a cloud that can communicate with the computer 30 via a network. In this way, the various aspects described below in this embodiment may be in the form of parallel computing using one or more computers.
  • the processor 31 includes an electronic circuit (processing circuit, processing circuit, CPU (Central Processing Unit), GPU (Graphics Processing Unit)) including a control device and an arithmetic unit of the computer 30. g Unit), FPGA (Field Programmable Gate Array), or ASIC (Application Specific Integrated Circuit) etc.). Further, the processor 31 may be a semiconductor device or the like including a dedicated processing circuit. The processor 31 is not limited to an electronic circuit using an electronic logic element, but may be realized by an optical circuit using an optical logic element. Further, the processor 31 may include an arithmetic function based on quantum computing.
  • the processor 31 can perform arithmetic processing based on data and software (programs) input from each device in the internal configuration of the computer 30, and can output calculation results and control signals to each device.
  • the processor 31 may control each component making up the computer 30 by executing the OS (Operating System) of the computer 30, applications, and the like.
  • the learning device 1 in this embodiment may be realized by one or more processors 31.
  • the processor 31 may refer to one or more electronic circuits arranged on one chip, or one or more electronic circuits arranged on two or more chips or two or more devices. You can also point. When using multiple electronic circuits, each electronic circuit may communicate by wire or wirelessly.
  • the main storage device 33 is a storage device that stores instructions and various data to be executed by the processor 31, and information stored in the main storage device 33 is read out by the processor 31.
  • the auxiliary storage device 35 is a storage device other than the main storage device 33. Note that these storage devices are any electronic components capable of storing electronic information, and may be semiconductor memories. Semiconductor memory may be either volatile memory or nonvolatile memory.
  • the storage device for storing various data used in the learning device 1 in this embodiment may be realized by the main storage device 33 or the auxiliary storage device 35, or may be realized by the built-in memory built into the processor 31. good.
  • the storage unit in this embodiment may be realized by the main storage device 33 or the auxiliary storage device 35.
  • a plurality of processors may be connected (combined) to one storage device (memory), or a single processor 31 may be connected to one storage device (memory).
  • a plurality of storage devices (memories) may be connected (combined) to one processor.
  • the learning device 1 includes at least one storage device (memory) and a plurality of processors connected (coupled) to the at least one storage device (memory), at least one of the plurality of processors
  • the present invention may include a configuration in which one processor is connected (coupled) to at least one storage device (memory). Further, this configuration may be realized by a storage device (memory) and a processor 31 included in a plurality of computers. Furthermore, a configuration in which a storage device (memory) is integrated with the processor 31 (for example, a cache memory including an L1 cache and an L2 cache) may be included.
  • the network interface 37 is an interface for connecting to the communication network 5 wirelessly or by wire.
  • an appropriate interface such as one that complies with existing communication standards may be used.
  • Information may be exchanged with an external device 9A connected via the communication network 5 through the network interface 37.
  • the communication network 5 may be any one of a WAN (Wide Area Network), a LAN (Local Area Network), a PAN (Personal Area Network), or a combination thereof, and is a communication network between the computer 30 and the external device 9A. It is sufficient that information is exchanged between them.
  • Examples of WAN include the Internet
  • examples of LAN include IEEE802.11 and Ethernet (registered trademark)
  • PAN include Bluetooth (registered trademark) and NFC (Near Field Communication).
  • the device interface 39 is an interface such as a USB (Universal Serial Bus) that directly connects to an output device such as a display device, an input device, and an external device 9B.
  • an output device such as a display device, an input device, and an external device 9B.
  • the output device may include a speaker or the like that outputs audio and the like.
  • the external device 9A is a device connected to the computer 30 via a network.
  • the external device 9B is a device directly connected to the computer 30.
  • the external device 9A or the external device 9B may be an input device (input unit), for example.
  • the input device is, for example, a device such as a camera, microphone, motion capture, various sensors, keyboard, mouse, or touch panel, and provides the acquired information to the computer 30.
  • the external device 9A or the external device 9B may be a device such as a personal computer, a tablet terminal, or a smartphone that includes an input section, a memory, and a processor.
  • the external device 9A or the external device 9B may be an output device (output unit), for example.
  • the output device is, for example, an LCD (Liquid Crystal Display), a CRT (Cathode Ray Tube), a PDP (Plasma Display Panel), or an organic EL (Electro Luminescence).
  • LCD Liquid Crystal Display
  • CRT Cathode Ray Tube
  • PDP Plasma Display Panel
  • organic EL Electro Luminescence
  • the external device 9A or the external device 9B may be a device such as a personal computer, a tablet terminal, or a smartphone that includes an output unit, a memory, and a processor.
  • the external device 9A or the external device 9B may be a storage device (memory).
  • the external device 9A may be a network storage or the like, and the external device 9B may be a storage such as an HDD.
  • the external device 9A or the external device 9B may be a device having some functions of the components of the learning device 1 in this embodiment. That is, the computer 30 may transmit or receive part or all of the processing results of the external device 9A or the external device 9B.
  • FIG. 2 is a diagram showing an example of functional blocks in the processor 31.
  • the processors 31 may each include an SCF calculation function 31A as a neural network and a potential generation model learning function 31B.
  • Each function provided by the SCF calculation function 31A and the potential generation model learning function 31B is stored as a program in, for example, the main storage device 33 or the auxiliary storage device 35.
  • the processor 31 may realize the SCF calculation function 31A and each function provided in the SCF calculation function 31A by reading and executing a program stored in the main storage device 33, the auxiliary storage device 35, or the like. Note that the SCF calculation function 31A is an example of the second model.
  • FIG. 2 shows an example of a case where the potential generation model learning function 31B is realized as one neural network as a configuration including the SCF calculation function 31A.
  • the potential generation model learning function 31B and the SCF calculation function 31A may be configured as separate neural networks.
  • the SCF calculation function 31A may perform SCF calculation.
  • SCF calculation first determine the electron density as an initial estimate, calculate the wave function for it, update the electron density using the obtained wave function, and calculate the wave function using the updated electron density. is calculated, and the electron density is further updated using the obtained wave function. In this way, recursive calculations are performed one after another to obtain the electron density and the wave function alternately. In the process of performing such recursive calculations, the energy of the physical system decreases toward a fixed point (a stable point of energy in the physical system), and the wave function, electron density, etc. at the converged stage are used as solutions. do.
  • the SCF calculation function 31A may include a first acquisition function 311, a potential generation model 312, a KS equation calculation function 313, an electron density calculation function 314, and a determination function 315.
  • the first acquisition function 311 may acquire the electron density n j as an initial estimated value used for SCF calculation.
  • the electron density n j is expressed, for example, as a vector.
  • the potential generation model 312 may generate a first potential function (Hamiltonian H[n j ]) determined by the degrees of freedom of the physical system using the electron density n j as input.
  • the potential function is expressed as a vector, for example.
  • the potential generation model 312 is an example of the first model.
  • the KS equation calculation function 313 may solve the Kohn-Sham (KS) equation defined using the Hamiltonian H[n j ] generated by the potential generation model 312 to obtain the wave function ⁇ k .
  • KS Kohn-Sham
  • H[n j ] generated by the potential generation model 312
  • ⁇ k the wave function of the k-th electron.
  • the electron density calculation function 314 may use the wave function ⁇ k acquired by the KS equation calculation function 313 to calculate the electron density n j+1 using the following equation (2).
  • the electron density n j+1 calculated using the wave function ⁇ k obtained by solving the KS equation is an example of a physical parameter corresponding to a fixed point in the physical system.
  • the determination function 315 determines whether the electron density n j+1 obtained by the electron density calculation function 314 has converged to the electron density n j used for calculating the Hamiltonian H[n j ] (for example, whether the electron density n j+1 and the electron density n j does not exceed a threshold value.
  • FIG. 3 is a flowchart showing an example of the flow of SCF calculation processing.
  • the first acquisition function 311 may acquire the electron density n j as an initial estimated value (step S11).
  • the KS equation calculation function 313 may solve the KS equation defined using the Hamiltonian H[n j ] and obtain the wave function ⁇ k (step S13).
  • the electron density calculation function 314 may calculate the electron density n j+1 using the wave function ⁇ k acquired by the KS equation calculation function 313 (step S14).
  • the determination function 315 may determine whether the electron density n j+1 has converged to the electron density n j (step S15). If the determination function 315 determines that the electron density n j+1 has not converged to the electron density n j (No in step S15), the determination function 315 updates the electron density n j to the electron density n j+1 (step S16). The calculations from S12 to S15 may be performed repeatedly. On the other hand, if the determination function 315 determines that the electron density n j+1 has converged to the electron density n j (Yes in step S15), the determination function 315 uses the wave as the first value corresponding to the first fixed point of the physical system. Calculation results such as the function ⁇ k and the electron density n j+1 may be output (step S17).
  • the potential generation model 312 calculates the electron density n g calculated using the Full-CI (Full-Configuration Interaction) method and the DMRG (Density Matrix Renormalization Group) method. teacher It may be learned as data. That is, the potential generation model learning function 31B may train the potential generation model using the strictly calculated electron density n g as training data without recursively performing the SCF calculation process shown in FIG.
  • the potential generation model learning function 31B may include an SCF calculation function 31A, a second acquisition function 316, and an adjustment function 317.
  • the second acquisition function 316 may acquire the electron density n g as teacher data calculated using the Full-CI method or the like. Note that the second acquisition function 316 is an example of an acquisition unit. Further, the electron density n g is an example of a reference value as a convergence destination of physical parameters in recursive calculation.
  • the adjustment function 317 may adjust the network parameters of the potential generation model in the learning process of the potential generation model using the electron density n g as teacher data.
  • FIG. 4 is a flowchart showing an example of the flow of potential generation model learning processing.
  • the second acquisition function 316 may first acquire the electron density n g calculated using the Full-CI method or the like (step S21).
  • the potential generation model 312 may input the electron density n g and output the Hamiltonian H[n g ] (step S22).
  • the KS equation calculation function 313 may solve the KS equation of equation (3) defined using the Hamiltonian H[n g ] to obtain the wave function ⁇ k (step S23).
  • the electron density calculation function 314 may calculate the electron density n according to the following equation (4) using the wave function ⁇ k acquired by the KS equation calculation function 313 (step S24). Note that the electron density n is an example of the first value of the physical parameter corresponding to a fixed point in the physical system.
  • the determination function 315 determines whether the electron density n has converged to the electron density n g as the teacher data (for example, whether the difference between the electron density n and the electron density n g does not exceed a threshold value). (Step S25).
  • the adjustment function 317 adjusts the electron density n and the electron density obtained using the Hamiltonian H[n g ].
  • the network parameters of the potential generation model 312 may be adjusted based on the difference from n g (step S26), and the calculations from step S22 to step S25 may be repeatedly performed.
  • the determination function 315 fixes the network parameters of the potential generation model 312 and ends the learning. (Step S27).
  • the potential generation model (learned potential generation model) obtained by the learning process shown in FIG. 4 can be fine-tuned using SCF calculation process.
  • FIG. 5 is a flowchart showing an example of the flow of fine tuning processing using SCF calculation processing.
  • the electron density n j is obtained as an initial guess value (step S31), and the Hamiltonian H[n j ] is output using the electron density n j and the learned potential generation model.
  • the wave function ⁇ k may be obtained by solving the KS equation defined using the obtained Hamiltonian H[n j ] (step S33).
  • the electron density n j+1 is calculated using the acquired wave function ⁇ k (step S34), and it is determined whether the electron density n j+1 has converged to the electron density n j (step S35).
  • the electron density n j+1 is an example of the second value of the physical parameter corresponding to a fixed point in the physical system.
  • the adjustment function 317 updates the electron density n j to the electron density n j+1 (step S36), and performs step The calculations from S32 to S35 may be performed repeatedly.
  • the determination function 315 determines whether the electron density n j+1 has converged to the electron density n g, and determines whether the electron density n j+1 has converged to the electron density n g .
  • step S37 If it is determined that it has not converged (No in step S37), the adjustment function 317 adjusts the network parameters of the learned potential generation model (step S38), and if it is determined that it has converged, the adjustment function 317 (Yes in step S37).
  • FIG. 6 is a flowchart illustrating an example of the potential generation model learning process of the learning device according to the comparative example.
  • the potential generation model learning process of the learning device according to the comparative example is substantially the same as the SCF calculation process shown in FIGS. 3 and 5. That is, the learning device according to the comparative example implements a neural network that executes the entire SCF calculation process, and the potential generation model is used in the recursive operation loop to be executed, for example, in the calculation of the Hamiltonian using the electron density n j .
  • the Hamiltonian is being learned (step S42).
  • the potential generation model learning process according to the embodiment does not, in principle, require solving the eigenvalue problem of the KS equation, which requires a large calculation load, except for the fine tuning process using the SCF calculation process. Therefore, the calculation load of the potential generation model learning process according to the embodiment can be significantly reduced compared to the calculation load of the potential generation model learning process according to the comparative example.
  • FIG. 7 is a diagram for explaining the effects of SCF calculation processing using the learned potential generation model according to the embodiment (SCF calculation processing according to the embodiment).
  • the vertical axis is the error (loss) between the teacher data n g and the electron density n obtained by the SCF calculation process
  • the horizontal axis is the calculation time (processing time: seconds).
  • “pretrained train (train with pre-learning)” indicates the change over time in the error of the SCF calculation process according to the embodiment using training data
  • “pretrained test (test with pre-learning)” indicates the change over time in the error of the SCF calculation process according to the embodiment using training data.
  • ⁇ not pretrained train'' refers to the change over time in the error of the SCF calculation process according to the embodiment using training data
  • ⁇ not pretrained train'' refers to the change over time in the error in the SCF calculation process according to the comparative example using training data
  • “not pretrained test” indicates a change over time in the error of the SCF calculation process according to the comparative example using test data. Note that in both cases, the number of loops for the SCF calculation processing is fixed to, for example, five times.
  • the change over time of the error in the SCF calculation process according to the embodiment is greater than the change over time in the error in the SCF calculation process according to the comparative example for both training data and test data. It converges about three times faster. Furthermore, it can be said that the difference over time in the error of the SCF calculation process according to the embodiment is small between the training data and the test data, and the generalization performance is high.
  • FIG. 8 is a diagram for explaining the effect of the SCF calculation process using the learned potential generation model according to the embodiment, and is a diagram for explaining the accuracy of each error shown in FIG. 7.
  • FIG. 8 shows the average value and variance value when each error calculation is executed nine times. As shown in FIG. 8, the average value of errors in the SCF calculation process according to the embodiment is lower than the average value of errors in the SCF calculation process according to the comparative example, achieving an improvement in calculation accuracy.
  • the inference device implements a learned potential generation model obtained by the learning process according to the embodiment.
  • the inference device may implement the learned potential generation model alone, or may be implemented as a model that executes SCF calculation processing using the learned potential generation model.
  • the learning device 1 is a learning device including at least one memory 33, 35 and at least one processor 31, and the at least one processor 31 acquires teaching data of physical parameters. Then, the electron density n g as teacher data is input to the potential generation model 312 as a first model to generate a potential function (Hamiltonian H). At least one processor 31 outputs an electron density n j+1 as a first value of the physical parameter using the potential function, and determines the network parameter of the first model based on the first value of the physical parameter and the training data. Adjust.
  • the physical parameters corresponding to the fixed points of the physical system are determined based on the potential function (Hamiltonian H) determined by the degrees of freedom of the physical system and the physical parameters (electron density n j ) indicating the state of the physical system. is used for learning the potential generation model 312 as the first model used to generate the potential function.
  • the learning device 1 includes a second acquisition function 316 as an acquisition section, an SCF calculation function 31A as a calculation section, and an adjustment function 317 as an adjustment section.
  • the second acquisition function 316 acquires the electron density n g as a reference value (teacher data) as a convergence destination of the electron density n j in the recursive calculation.
  • the SCF calculation function 31A calculates the Hamiltonian H using the electron density n g and the potential generation model 312.
  • the adjustment function 317 adjusts the network parameters of the potential generation model 312 based on the difference between the electron density n j+1 corresponding to the fixed point of the physical system obtained using the calculated Hamiltonian H and the reference value n g . .
  • the potential generation model 312 can learn the Hamiltonian of the physical system as preliminary learning without performing recursive calculation of the SCF. Further, according to the inference device implementing the trained potential generation model 312, it is possible to obtain the Hamiltonian of the physical system without performing recursive calculation of the SCF.
  • the SCF calculation function 31A calculates the Hamiltonian using the learned potential generation model 312 with adjusted network parameters and the initial estimated value n i of the electron density.
  • An electron density n is calculated based on the Hamiltonian.
  • the adjustment function 317 further adjusts the learned potential generation model 312 based on the difference between the initial estimated value n i and the electron density n based on the Hamiltonian in the SCF calculation.
  • the learning method acquires teaching data of physical parameters, inputs the electron density n g as the teaching data to the potential generation model 312 as the first model, and Generate a potential function (Hamiltonian H).
  • the learning method outputs the electron density n j+1 as the first value of the physical parameter using a potential function, and adjusts the network parameters of the first model based on the first value of the physical parameter and the training data. do.
  • the procedure and effects of the estimation process related to the learning method are the same as those described in the embodiment, so the description thereof will be omitted.
  • the learning program uses a computer to acquire training data of physical parameters, and uses the electron density n g as the training data as a potential generation model as a first model. 312 to generate a potential function (Hamiltonian H).
  • the learning method outputs the electron density n j+1 as the first value of the physical parameter using a potential function, and adjusts the network parameters of the first model based on the first value of the physical parameter and the training data. Make each step a reality.
  • the procedure and effects of the estimation process related to the learning program are the same as those described in the embodiment, so the description thereof will be omitted.
  • each device in the embodiments described above may be configured with hardware, or may be configured with information processing of software (program) executed by a CPU, GPU, or the like.
  • the information processing is configured by software
  • the software that realizes at least some of the functions of each device in the above-described embodiments may be stored on a flexible disk, CD-ROM (Compact Disc-Read Only Memory), or USB memory, etc.
  • Software information processing may be executed by storing the information in a non-temporary storage medium (non-temporary computer readable medium) and reading it into the computer 30. Further, the software may be downloaded via the communication network 5.
  • information processing may be performed by hardware by implementing software in a circuit such as an ASIC or an FPGA.
  • the type of storage medium that stores software is not limited.
  • the storage medium is not limited to a removable one such as a magnetic disk or an optical disk, but may be a fixed storage medium such as a hard disk or memory. Further, the storage medium may be provided inside the computer or may be provided outside the computer.
  • the expression "at least one (one) of a, b, and c" or “at least one (one) of a, b, or c" (including similar expressions) When used, it includes any of a, b, c, a-b, a-c, b-c, or a-b-c. Further, each element may include multiple instances, such as aa, abb, aaabbbcc, etc. Furthermore, it also includes adding other elements other than the listed elements (a, b, and c), such as having d as in abcd.
  • connection and “coupled” refer to direct connection/coupling and indirect connection/coupling. , electrically connected/coupled, communicatively connected/coupled, functionally connected/coupled, physically connected/coupled, etc., without limitation. intended as a term.
  • the term should be interpreted as appropriate depending on the context in which the term is used, but forms of connection/coupling that are not intentionally or naturally excluded are not included in the term. Should be construed in a limited manner.
  • the expression "A configured to B” when used, it means that the physical structure of element A is capable of performing operation B. configuration, and the permanent or temporary setting/configuration of element A is configured/set to actually execute operation B. good.
  • element A is a general-purpose processor
  • the processor has a hardware configuration that can execute operation B, and can perform operation B by setting a permanent or temporary program (instruction). It suffices if it is configured to actually execute.
  • element A is a dedicated processor or a dedicated arithmetic circuit, the circuit structure of the processor is configured to actually execute operation B, regardless of whether control instructions and data are actually attached. It is sufficient if it is implemented.
  • maximum when used, they mean finding a global maximum value, finding an approximate value of a global maximum value, or finding a local maximum value. and approximating the local maximum value, and should be interpreted as appropriate depending on the context in which the term is used. It also includes finding approximate values of these maximum values probabilistically or heuristically.
  • minimize are used to refer to finding a global minimum, finding an approximation of a global minimum, finding a local minimum, and It includes approximations of values and should be interpreted as appropriate depending on the context in which the term is used. It also includes finding approximate values of these minimum values probabilistically or heuristically.
  • optimize refers to finding a global optimum, approximating a global optimum, finding a local optimum, and local optimum. It includes approximations of values and should be interpreted as appropriate depending on the context in which the term is used. It also includes finding approximate values of these optimal values probabilistically or heuristically.
  • each piece of hardware when multiple pieces of hardware perform a predetermined process, each piece of hardware may cooperate to perform the predetermined process, or some of the hardware may perform the predetermined process. You may do all of the above. Further, some hardware may perform part of a predetermined process, and another piece of hardware may perform the rest of the predetermined process.
  • the hardware that performs the first processing and the hardware that performs the second processing when expressions such as "one or more hardware performs the first process, and the one or more hardware performs the second process" are used , the hardware that performs the first processing and the hardware that performs the second processing may be the same or different. In other words, the hardware that performs the first processing and the hardware that performs the second processing may be included in the one or more pieces of hardware.
  • the hardware may include an electronic circuit or a device including an electronic circuit.
  • each storage device (memory) among the multiple storage devices (memories) stores only part of the data. It may be stored, or the entire data may be stored.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Neurology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

実施形態に係る学習装置(1)は、少なくとも1つのメモリ(33)、(35)と、少なくとも1つのプロセッサ(31)と、を備える学習装置(1)であって、少なくとも1つのプロセッサ(31)は、物理パラメータの教師データを取得し、教師データを第1モデルに入力してポテンシャル関数を生成し、ポテンシャル関数を用いて物理パラメータの第1の値を出力し、物理パラメータの第1の値と教師データとに基づいて、第1モデルのネットワークパラメータを調整する。

Description

学習装置、推論装置及びモデル作成方法
 本開示の実施形態は、学習装置、推論装置及びモデル作成方法に関する。
 例えば多体の原子核・電子からなる物理系では、ハミルトニアンを厳密に求めることはできない。このため、係る物理系を取り扱う場合には、近似計算によってハミルトニアンを求めるのが一般的である。
 しかしながら、従来の近似計算手法による物理系のハミルトニアンの取得は、計算負荷が大きい。
LiLi, Stephan Hoyer, Ryan Pederson, Rouxi Sun, Ekin D. Cubuk, Patrick Riley, and Kieron Burke "Kohn-Sham Equation as Regularizer:Building Prior Knowledge into Machine-Learned Physics" Physical Review Letters 126, 036401 (2021) M. F. Kasim, and M. Vinko "Learning the exchange-correlation functional from nature with fully differentiable density functional theory" https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.127.126403
 本開示が解決しようとする課題は、近似計算手法によって物理系のポテンシャル関数を取得する場合に、従来に比して計算負荷を小さくすることである。
 本開示に係る学習装置は、少なくとも1つのメモリと、少なくとも1つのプロセッサと、を備える学習装置であって、前記少なくとも1つのプロセッサは、物理パラメータの教師データを取得し、前記教師データを第1モデルに入力してポテンシャル関数を生成し、前記ポテンシャル関数を用いて前記物理パラメータの第1の値を出力し、前記物理パラメータの第1の値と前記教師データとに基づいて、前記第1モデルのネットワークパラメータを調整する。
図1は、本実施形態に係る学習装置のハードウェア構成の一例を示すブロック図である。 図2は、実施形態に係るプロセッサにおける機能ブロックの一例を示す図である。 図3は、SCF計算処理の流れの一例を示すフローチャートである。 図4は、ポテンシャル生成モデル学習処理の流れの一例を示すフローチャートである。 図5は、SCF計算処理を利用したファインチューニング処理の流れの一例を示したフローチャートである。 図6は、比較例に係る学習装置のポテンシャル生成モデル学習処理の一例を示したフローチャートである。 図7は、実施形態に係る学習済ポテンシャル生成モデルを用いるSCF計算処理の効果を説明するための図である。 図8は、実施形態に係る学習済ポテンシャル生成モデルを用いるSCF計算処理の効果を説明するための図である。
 以下、図面を参照しながら実施形態に係る学習装置、推論装置及びモデル作成方法について説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。以下の実施形態は開示の技術を限定するものではない。そして、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
 実施形態に係る学習装置及び推論装置は、物理系の自由度によって決定されるポテンシャル関数(ハミルトニアン)と物理系の状態を示す物理パラメータとに基づいて、物理系の固定点(具体的には物理系のエネルギーの安定点)に対応する物理パラメータの値を再帰的計算によって取得する場合に利用されてもよい。
 以下においては、説明を具体的にするため、多数の原子核・電子からなる多体問題としての物理系を対象とする。係る物理系では、物理系の自由度によって決定されるハミルトニアンと、物理系の状態を示すパラメータとが相互に依存するため、物理系の固定点に対応する値を計算によって厳密に解くことができない。本実施形態では、SCF(Self Consistent Field:自己無撞着場)計算を用いて、この様な物理系の固定点に対応する値を求める。また、説明をより具体的にするため、物理系の状態を示す物理パラメータとして電子密度を用いてハミルトニアンを算出するDFT(Density Functinal Theory:密度汎関数法)を想定する。
 図1は、本実施形態に係る学習装置1のハードウェア構成の一例を示すブロック図である。図1に示すように、学習装置1は、通信ネットワーク5を介して外部装置9Aと接続されてもよい。また、学習装置1は、デバイスインタフェース39を介して接続された外部装置9Bを備えてもよい。
 学習装置1は、コンピュータ30と、デバイスインタフェース39を介してコンピュータ30に接続された外部装置9Bと、を有する。コンピュータ30は、一例として、プロセッサ31と、主記憶装置(メモリ)33と、補助記憶装置(メモリ)35と、ネットワークインタフェース37と、デバイスインタフェース39と、を備える。学習装置1は、プロセッサ31と、主記憶装置33と、補助記憶装置35と、ネットワークインタフェース37と、デバイスインタフェース39とがバス41を介して接続されたコンピュータ30として実現されてもよい。
 図1に示すコンピュータ30は、各構成要素を一つ備えているが、同じ構成要素を複数備えていてもよい。また、図1では、1台のコンピュータ30が示されているが、ソフトウェアが複数台のコンピュータにインストールされて、当該複数台のコンピュータそれぞれがソフトウェアの同一の又は異なる一部の処理を実行してもよい。この場合、コンピュータそれぞれがネットワークインタフェース37等を介して通信して処理を実行する分散コンピューティングの形態であってもよい。つまり、本実施形態における学習装置1は、1又は複数の記憶装置に記憶された命令を1台又は複数台のコンピュータが実行することで後述の各種機能を実現するシステムとして構成されてもよい。また、端末から送信された情報は、クラウド上に設けられた1台又は複数台のコンピュータで処理され、この処理結果は、外部装置9Bに相当する表示装置(表示部)などの端末に送信するような構成であってもよい。
 本実施形態における学習装置1の各種演算は、1又は複数のプロセッサを用いて、又は、ネットワークを介した複数台のコンピュータを用いて、並列処理で実行されてもよい。また、各種演算が、プロセッサ内に複数ある演算コアに振り分けられて、並列処理で実行されてもよい。また、本開示の処理、手段等の一部又は全部は、ネットワークを介してコンピュータ30と通信可能なクラウド上に設けられたプロセッサ及び記憶装置の少なくとも一方により実行されてもよい。このように、本実施形態における後述の各種は、1台又は複数台のコンピュータによる並列コンピューティングの形態であってもよい。
 プロセッサ31は、コンピュータ30の制御装置及び演算装置を含む電子回路(処理回路、Processing circuit、Processing circuitry、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field Programmable Gate Array)、又はASIC(Application Specific Integrated Circuit)等)であってもよい。また、プロセッサ31は、専用の処理回路を含む半導体装置等であってもよい。プロセッサ31は、電子論理素子を用いた電子回路に限定されるものではなく、光論理素子を用いた光回路により実現されてもよい。また、プロセッサ31は、量子コンピューティングに基づく演算機能を含むものであってもよい。
 プロセッサ31は、コンピュータ30の内部構成の各装置等から入力されたデータやソフトウェア(プログラム)に基づいて演算処理を行い、演算結果や制御信号を各装置等に出力することができる。プロセッサ31は、コンピュータ30のOS(Operating System)や、アプリケーション等を実行することにより、コンピュータ30を構成する各構成要素を制御してもよい。
 本実施形態における学習装置1は、1又は複数のプロセッサ31により実現されてもよい。ここで、プロセッサ31は、1チップ上に配置された1又は複数の電子回路を指してもよいし、2つ以上のチップあるいは2つ以上のデバイス上に配置された1又は複数の電子回路を指してもよい。複数の電子回路を用いる場合、各電子回路は有線又は無線により通信してもよい。
 主記憶装置33は、プロセッサ31が実行する命令及び各種データ等を記憶する記憶装置であり、主記憶装置33に記憶された情報がプロセッサ31により読み出される。補助記憶装置35は、主記憶装置33以外の記憶装置である。なお、これらの記憶装置は、電子情報を格納可能な任意の電子部品を意味するものとし、半導体のメモリでもよい。半導体のメモリは、揮発性メモリ、不揮発性メモリのいずれでもよい。本実施形態における学習装置1において用いられる各種データを保存するための記憶装置は、主記憶装置33又は補助記憶装置35により実現されてもよく、プロセッサ31に内蔵される内蔵メモリにより実現されてもよい。例えば、本実施形態における記憶部は、主記憶装置33又は補助記憶装置35により実現されてもよい。
 記憶装置(メモリ)1つに対して、複数のプロセッサが接続(結合)されてもよいし、単数のプロセッサ31が接続されてもよい。プロセッサ1つに対して、複数の記憶装置(メモリ)が接続(結合)されてもよい。本実施形態における学習装置1が、少なくとも1つの記憶装置(メモリ)とこの少なくとも1つの記憶装置(メモリ)に接続(結合)される複数のプロセッサで構成される場合、複数のプロセッサのうち少なくとも1つのプロセッサが、少なくとも1つの記憶装置(メモリ)に接続(結合)される構成を含んでもよい。また、複数台のコンピュータに含まれる記憶装置(メモリ)とプロセッサ31とによって、この構成が実現されてもよい。さらに、記憶装置(メモリ)がプロセッサ31と一体になっている構成(例えば、L1キャッシュ、L2キャッシュを含むキャッシュメモリ)を含んでもよい。
 ネットワークインタフェース37は、無線又は有線により、通信ネットワーク5に接続するためのインタフェースである。ネットワークインタフェース37は、既存の通信規格に適合したもの等、適切なインタフェースを用いればよい。ネットワークインタフェース37により、通信ネットワーク5を介して接続された外部装置9Aと情報のやり取りが行われてもよい。なお、通信ネットワーク5は、WAN(Wide Area Network)、LAN(Local Area Network)、PAN(Personal Area Network)等の何れか、又は、それらの組み合わせであってよく、コンピュータ30と外部装置9Aとの間で情報のやり取りが行われるものであればよい。WANの一例としてインターネット等があり、LANの一例としてIEEE802.11やイーサネット(登録商標)等があり、PANの一例としてBluetooth(登録商標)やNFC(Near Field Communication)等がある。
 デバイスインタフェース39は、表示装置等の出力装置、入力装置、および外部装置9Bと直接接続するUSB(Universal Serial Bus)等のインタフェースである。なお、出力装置は、音声等を出力するスピーカなどを有していてもよい。
 外部装置9Aはコンピュータ30とネットワークを介して接続されている装置である。外部装置9Bはコンピュータ30と直接接続されている装置である。
 外部装置9A又は外部装置9Bは、一例として、入力装置(入力部)であってもよい。入力装置は、例えば、カメラ、マイクロフォン、モーションキャプチャ、各種センサ、キーボード、マウス、又はタッチパネル等のデバイスであり、取得した情報をコンピュータ30に与える。また、外部装置9A又は外部装置9Bは、パーソナルコンピュータ、タブレット端末、又はスマートフォン等の入力部とメモリとプロセッサを備えるデバイス等であってもよい。
 また、外部装置9A又は外部装置9Bは、一例として、出力装置(出力部)でもよい。出力装置は、例えば、LCD(Liquid Crystal Display)、CRT(Cathode Ray Tube)、PDP(Plasma Display Panel)、又は有機EL(Electro Luminescence)パネル等の表示装置(表示部)であってもよいし、音声等を出力するスピーカ等であってもよい。また、外部装置9A又は外部装置9Bは、パーソナルコンピュータ、タブレット端末、又はスマートフォン等の出力部とメモリとプロセッサを備えるデバイス等であってもよい。
 また、外部装置9A又は外部装置9Bは、記憶装置(メモリ)であってもよい。例えば、外部装置9Aはネットワークストレージ等であってもよく、外部装置9BはHDD等のストレージであってもよい。
 また、外部装置9A又は外部装置9Bは、本実施形態における学習装置1の構成要素の一部の機能を有する装置でもよい。つまり、コンピュータ30は、外部装置9A又は外部装置9Bの処理結果の一部又は全部を、送信又は受信してもよい。
 図2は、プロセッサ31における機能ブロックの一例を示す図である。プロセッサ31は、それぞれニューラルネットワークとしてのSCF計算機能31Aと、ポテンシャル生成モデル学習機能31Bとを備えてもよい。
 SCF計算機能31A、ポテンシャル生成モデル学習機能31Bが備える各機能は、それぞれプログラムとして、例えば、主記憶装置33または補助記憶装置35などに格納される。プロセッサ31は、主記憶装置33または補助記憶装置35などに格納されたプログラムを読み出し、実行することで、SCF計算機能31A、及びSCF計算機能31Aが備える各機能を実現してもよい。なお、SCF計算機能31Aは第2モデルの一例である。
 なお、図2には、ポテンシャル生成モデル学習機能31BがSCF計算機能31Aを含む構成として、一つのニューラルネットワークとして実現する場合を例とした。これに対し、ポテンシャル生成モデル学習機能31BとSCF計算機能31Aとを別々のニューラルネットワークとして構成しても良い。
 以下、SCF計算機能31A、ポテンシャル生成モデル学習機能31Bについて詳しく説明する。
(SCF計算機能)
 SCF計算機能31AはSCF計算を実行してもよい。SCF計算では、初めに初期推定値としての電子密度を適当に決め、それに対する波動関数を計算し、得られた波動関数を用いて電子密度を更新し、更新された電子密度を用いて波動関数を計算し、得られた波動関数を用いて電子密度をさらに更新し、といった具合に、再帰的計算を逐次実行して電子密度と波動関数とを交互に求めていく。この様な再帰的計算を実行していく過程で物理系のエネルギーが固定点(物理系のエネルギーの安定点)に向かって下がって行き、収束した段階での波動関数、電子密度等を解とする。
 具体的には、SCF計算機能31Aは、第1取得機能311、ポテンシャル生成モデル312、KS方程式計算機能313、電子密度計算機能314、判定機能315を備えてもよい。
 第1取得機能311は、SCF計算に用いる初期推測値としての電子密度njを取得してもよい。電子密度njは、例えば、ベクトルとして表現される。
 ポテンシャル生成モデル312は、電子密度nを入力として、物理系の自由度によって決定される第1のポテンシャル関数(ハミルトニアンH[n])を生成してもよい。ポテンシャル関数は、例えば、ベクトルとして表現される。ポテンシャル生成モデル312は第1モデルの一例である。
 KS方程式計算機能313は、ポテンシャル生成モデル312によって生成されたハミルトニアンH[n]を用いて定義されるKohn-Sham(KS)方程式を解き、波動関数Ψを取得してもよい。なお、KS方程式計算機能313が解くべきKS方程式は、以下の式(1)の様に表すことができる。
Figure JPOXMLDOC01-appb-M000001
ここで、kは電子を識別する指標、εはk番目の電子のエネルギー、Ψはk番目の電子の波動関数を意味する。
 電子密度計算機能314は、KS方程式計算機能313が取得した波動関数Ψを用いて、以下の式(2)を用いて電子密度nj+1を計算してもよい。
Figure JPOXMLDOC01-appb-M000002
 なお、KS方程式を解いて得られた波動関数Ψを用いて計算した電子密度nj+1は、物理系の固定点に対応する物理パラメータの一例である。
 判定機能315は、電子密度計算機能314によって得られた電子密度nj+1がハミルトニアンH[n]の計算に用いた電子密度nに収束したか否か(例えば、電子密度nj+1と電子密度nとの差が閾値を超えないか否か)を判定してもよい。
 次に、SCF計算機能31Aによって実現されるSCF計算処理を説明する。
 図3は、SCF計算処理の流れの一例を示すフローチャートである。図3に示した様に、まず、第1取得機能311は、初期推測値としての電子密度njを取得してもよい(ステップS11)。
 ポテンシャル生成モデル312は、電子密度n(=n)を入力しハミルトニアンH[nj]を出力するニューラルネットワークとしてもよい(ステップS12)。
 KS方程式計算機能313は、ハミルトニアンH[nj]を用いて定義されるKS方程式を解き、波動関数Ψを取得してもよい(ステップS13)。
 電子密度計算機能314は、KS方程式計算機能313が取得した波動関数Ψを用いて電子密度nj+1を計算してもよい(ステップS14)。
 判定機能315は、電子密度nj+1が電子密度nに収束したか否かを判定してもよい(ステップS15)。判定機能315は、電子密度nj+1が電子密度nに収束していないと判定した場合には(ステップS15のNo)、電子密度nを電子密度nj+1に更新し(ステップS16)、ステップS12~ステップS15の計算を繰り返し実行してもよい。一方、判定機能315は、電子密度nj+1が電子密度nに収束したと判定した場合には(ステップS15のYes)、物理系の第1の固定点に対応する第1の値として、波動関数Ψ、電子密度nj+1等の計算結果を出力してもよい(ステップS17)。
(ポテンシャル生成モデル学習機能)
 ポテンシャル生成モデル学習機能31Bにより、ポテンシャル生成モデル312は、Full-CI(Full-Configuration Interaction)法、DMRG(Density Matrix Renormalization Group:密度行列繰り込み群)法を用いて計算された電子密度nを教師データとして学習してもよい。すなわち、ポテンシャル生成モデル学習機能31Bは、図3に示したSCF計算処理を再帰的に実施することなく、厳密に計算された電子密度nを教師データとしてポテンシャル生成モデルをトレーニングしてもよい。
 具体的には、ポテンシャル生成モデル学習機能31Bは、SCF計算機能31A、第2取得機能316、調整機能317を備えてもよい。
 第2取得機能316は、Full-CI法等を用いて計算された教師データとしての電子密度nを取得してもよい。なお、第2取得機能316は取得部の一例である。また、電子密度nは、再帰的計算における物理パラメータの収束先としての基準値の一例である。
 調整機能317は、電子密度nを教師データとしたポテンシャル生成モデルの学習処理において、ポテンシャル生成モデルのネットワークパラメータを調整してもよい。
 次に、ポテンシャル生成モデル学習機能31Bによって実現されるポテンシャル生成モデル学習処理について説明する。
 図4は、ポテンシャル生成モデル学習処理の流れの一例を示すフローチャートである。図4に示した様に、まず、第2取得機能316は、Full-CI法等を用いて計算された電子密度nを取得してもよい(ステップS21)。
 ポテンシャル生成モデル312は、電子密度nを入力しハミルトニアンH[n]を出力してもよい(ステップS22)。
 KS方程式計算機能313は、ハミルトニアンH[n]を用いて定義される式(3)のKS方程式を解き、波動関数Ψを取得してもよい(ステップS23)。
Figure JPOXMLDOC01-appb-M000003
 電子密度計算機能314は、KS方程式計算機能313が取得した波動関数Ψを用いて、次の式(4)に従って電子密度nを計算してもよい(ステップS24)。
Figure JPOXMLDOC01-appb-M000004
なお、電子密度nは物理系の固定点に対応する物理パラメータの第1の値の一例である。
 判定機能315は、電子密度nが教師データとしての電子密度nに収束したか否か(例えば、電子密度nと電子密度nとの差が閾値を超えないか否か)を判定してもよい(ステップS25)。
 電子密度nが教師データとしての電子密度nに収束しないと判定された場合(ステップS25のNo)、調整機能317は、ハミルトニアンH[n]を用いて取得された電子密度nと電子密度nとの差に基づいて、ポテンシャル生成モデル312のネットワークパラメータを調整してもよく(ステップS26)、ステップS22~ステップS25の計算を繰り返し実行してもよい。一方、電子密度nが教師データとしての電子密度nに収束したと判定された場合には(ステップS25のYes)、判定機能315は、ポテンシャル生成モデル312のネットワークパラメータを固定し学習を終了してもよい(ステップS27)。
 図4に示した学習処理によって得られたポテンシャル生成モデル(学習済ポテンシャル生成モデル)は、SCF計算処理を利用してファインチューニングすることができる。
 図5は、SCF計算処理を利用したファインチューニング処理の流れの一例を示したフローチャートである。
 図5に示した様に、初期推測値としての電子密度njを取得し(ステップS31)、電子密度njと学習済ポテンシャル生成モデルとを用いて、ハミルトニアンH[nj]を出力してもよい(ステップS32)。得られたハミルトニアンH[nj]を用いて定義されるKS方程式を解き、波動関数Ψを取得してもよい(ステップS33)。取得した波動関数Ψを用いて電子密度nj+1を計算し(ステップS34)、電子密度nj+1が電子密度nに収束したか否かを判定する(ステップS35)。なお、電子密度nj+1は、物理系の固定点に対応する物理パラメータの第2の値の一例である。
 電子密度nj+1が電子密度nに収束していないと判定した場合には(ステップS35のNo)、調整機能317は、電子密度nを電子密度nj+1に更新し(ステップS36)、ステップS32~ステップS35の計算を繰り返し実行してもよい。一方、判定機能315は、電子密度nj+1が電子密度nに収束したと判定した場合には(ステップS35のYes)、電子密度nj+1が電子密度nに収束したかを判定し、収束していないと判定した場合には、(ステップS37のNo)、調整機能317は、学習済ポテンシャル生成モデルのネットワークパラメータを調整し(ステップS38)、収束していると判定した場合には、処理を終了してもよい(ステップS37のYes)。
(比較例)
 次に、比較例に係る学習装置のポテンシャル生成モデル学習処理について説明する。
 図6は、比較例に係る学習装置のポテンシャル生成モデル学習処理の一例を示したフローチャートである。図6に示した様に、比較例に係る学習装置のポテンシャル生成モデル学習処理は、図3、図5に示したSCF計算処理と実質的に同じである。すなわち、比較例に係る学習装置は、SCF計算処理全体を実行するニューラルネットワークを実装し、ポテンシャル生成モデルは、実行される再帰的演算のループの例えば電子密度nを用いたハミルトニアンの計算において、ハミルトニアンを学習している(ステップS42)。
 従って、比較例に係るポテンシャル生成モデル学習処理では、ポテンシャル生成モデルがハミルトニアンを学習する際に、計算負荷が大きいKS方程式の固有値問題を解く必要がある。
 一方、実施形態に係るポテンシャル生成モデル学習処理は、SCF計算処理を利用したファインチューニング処理を除けば、原則的に計算負荷が大きいKS方程式の固有値問題を解く必要がない。従って、実施形態に係るポテンシャル生成モデル学習処理の計算負荷は、比較例に係るポテンシャル生成モデル学習処理の計算負荷に比して大幅に小さくすることができる。
 図7は、実施形態に係る学習済ポテンシャル生成モデルを用いるSCF計算処理(実施形態に係るSCF計算処理)の効果を説明するための図である。
 図7において、縦軸は教師データnとSCF計算処理によって得られた電子密度nとの誤差(loss)であり、横軸は計算時間(処理時間:秒)である。また、図7において、「pretrained train(事前学習ありtrain)」はトレーニングデータを用いた実施形態に係るSCF計算処理の誤差の経時的変化を、「pretrained test(事前学習ありtest)」はテストデータを用いた実施形態に係るSCF計算処理の誤差の経時的変化を、「not pretrained train(事前学習なしtrain)」はトレーニングデータを用いた比較例に係るSCF計算処理の誤差の経時的変化を、「not pretrained test(事前学習なしtest)」はテストデータを用いた比較例に係るSCF計算処理の誤差の経時的変化を、それぞれ示している。なお、いずれの場合も、SCF計算処理のループを例えば5回に固定している。
 図7に示す様に、実施形態に係るSCF計算処理の誤差の経時的変化は、トレーニングデータ、テストデータのいずれの場合も、比較例に係るSCF計算処理の誤差の経時的変化と比較して約3倍早く収束している。また、実施形態に係るSCF計算処理の誤差の経時的変化は、トレーニングデータの場合とテストデータの場合との間で差が小さく汎化性能が高いと言える。
 図8は、実施形態に係る学習済ポテンシャル生成モデルを用いるSCF計算処理の効果を説明するための図であり、図7に示した各誤差の精度を説明するための図である。図8は、各誤差の計算を9回実行した場合の平均値、分散値を示している。図8に示した様に、実施形態に係るSCF計算処理の誤差の平均値は比較例に係るSCF計算処理の誤差の平均値よりも低く、計算精度の向上を実現している。
(推論装置)
 実施形態に係る推論装置は、実施形態に係る学習処理によって得られた学習済ポテンシャル生成モデルを実装するものである。例えば、実施形態に係る推論装置は、学習済ポテンシャル生成モデルを単独で実装するものであってもよいし、学習済ポテンシャル生成モデル用いるSCF計算処理を実行するモデルとしても実装することができる。
 以上述べた実施形態に係る学習装置1は、少なくとも1つのメモリ33、35と、少なくとも1つのプロセッサ31と、を備える学習装置であって、少なくとも1つのプロセッサ31は、物理パラメータの教師データを取得し、教師データとしての電子密度nを第1モデルとしてのポテンシャル生成モデル312に入力してポテンシャル関数(ハミルトニアンH)を生成する。少なくとも1つのプロセッサ31は、ポテンシャル関数を用いて物理パラメータの第1の値としての電子密度nj+1を出力し、物理パラメータの第1の値と教師データとに基づいて、第1モデルのネットワークパラメータを調整する。
 より具体的には、物理系の自由度によって決定されるポテンシャル関数(ハミルトニアンH)と物理系の状態を示す物理パラメータ(電子密度n)とに基づいて物理系の固定点に対応する物理パラメータの値を再帰的計算によって取得する場合において、ポテンシャル関数の生成に用いる第1モデルとしてのポテンシャル生成モデル312の学習に用いられる。学習装置1は、取得部としての第2取得機能316、計算部としてのSCF計算機能31A、調整部としての調整機能317を備える。第2取得機能316は、再帰的計算における電子密度nの収束先としての基準値(教師データ)としての電子密度nを取得する。SCF計算機能31Aは、電子密度nとポテンシャル生成モデル312とを用いてハミルトニアンHを計算する。調整機能317は、計算されたハミルトニアンHを用いて取得される物理系の固定点に対応する電子密度nj+1と基準値nとの差に基づいて、ポテンシャル生成モデル312のネットワークパラメータを調整する。
 従って、実施形態に係る学習装置1によれば、ポテンシャル生成モデル312は、SCFの再帰的計算を実行せずに、事前学習として物理系のハミルトニアンを学習することができる。また、学習済ポテンシャル生成モデル312を実装する推論装置によれば、SCFの再帰的計算を実行せずに物理系のハミルトニアンを取得することができる。
 その結果、行列の対角化計算を含むSCFの再帰的計算を実行して物理系のハミルトニアンを学習する場合に比べて、計算量を大幅に削減することができ、計算速度を向上させることができる。
 また、実施形態に係る学習装置1において、SCF計算機能31Aは、ネットワークパラメータが調整された学習済ポテンシャル生成モデル312と電子密度の初期推定値nとを用いてハミルトニアンを計算し、計算された当該ハミルトニアンに基づいて電子密度nを計算する。調整機能317は、初期推定値nとSCF計算におけるハミルトニアンに基づく電子密度nとの差に基づいて、学習済ポテンシャル生成モデル312をさらに調整する。これにより、学習済ポテンシャル生成モデル312はファインチューニングされ、その汎化性能を向上させることができる。
 実施形態における技術的思想を学習方法で実現する場合、当該学習方法は、物理パラメータの教師データを取得し、教師データとしての電子密度nを第1モデルとしてのポテンシャル生成モデル312に入力してポテンシャル関数(ハミルトニアンH)を生成する。当該学習方法は、ポテンシャル関数を用いて物理パラメータの第1の値としての電子密度nj+1を出力し、物理パラメータの第1の値と教師データとに基づいて、第1モデルのネットワークパラメータを調整する。学習方法に関する推定処理の手順および効果は、実施形態の記載と同様なため、説明は省略する。
 実施形態における技術的思想を学習プログラムで実現する場合、当該学習プログラムは、コンピュータを用いて、物理パラメータの教師データを取得し、教師データとしての電子密度nを第1モデルとしてのポテンシャル生成モデル312に入力してポテンシャル関数(ハミルトニアンH)を生成する。当該学習方法は、ポテンシャル関数を用いて物理パラメータの第1の値としての電子密度nj+1を出力し、物理パラメータの第1の値と教師データとに基づいて、第1モデルのネットワークパラメータを調整する各ステップを実現させる。学習プログラムに関する推定処理の手順および効果は、実施形態の記載と同様なため、説明は省略する。
(変形例)
 上記実施形態おいては、説明を具体的にするため、物理系の状態を示すパラメータとして電子密度を用いてハミルトニアンを算出するDFTを例として説明した。しかしながら、DFTは単なる一例である。すなわち、物理系の自由度によって決定されるポテンシャル関数と物理系の状態を示すパラメータとに基づいて、物理系の固定点に対応する値を再帰的計算によって取得する場合であれば、どの様な物理系であっても適用することができる。
 前述した実施形態における各装置の一部又は全部は、ハードウェアで構成されていてもよいし、CPU、又はGPU等が実行するソフトウェア(プログラム)の情報処理で構成されてもよい。ソフトウェアの情報処理で構成される場合には、前述した実施形態における各装置の少なくとも一部の機能を実現するソフトウェアを、フレキシブルディスク、CD-ROM(Compact Disc-Read Only Memory)、又はUSBメモリ等の非一時的な記憶媒体(非一時的なコンピュータ可読媒体)に収納し、コンピュータ30に読み込ませることにより、ソフトウェアの情報処理を実行してもよい。また、通信ネットワーク5を介して当該ソフトウェアがダウンロードされてもよい。さらに、ソフトウェアがASIC、又はFPGA等の回路に実装されることにより、情報処理がハードウェアにより実行されてもよい。
 ソフトウェアを収納する記憶媒体の種類は限定されるものではない。記憶媒体は、磁気ディスク、又は光ディスク等の着脱可能なものに限定されず、ハードディスク、又はメモリ等の固定型の記憶媒体であってもよい。また、記憶媒体は、コンピュータ内部に備えられてもよいし、コンピュータ外部に備えられてもよい。
 本明細書(請求項を含む)において、「a、b及びcの少なくとも1つ(一方)」又は「a、b又はcの少なくとも1つ(一方)」の表現(同様な表現を含む)が用いられる場合は、a、b、c、a-b、a-c、b-c、又はa-b-cのいずれかを含む。また、a-a、a-b-b、a-a-b-b-c-c等のように、いずれかの要素について複数のインスタンスを含んでもよい。さらに、a-b-c-dのようにdを有する等、列挙された要素(a、b及びc)以外の他の要素を加えることも含む。
 本明細書(請求項を含む)において、「データを入力として/データに基づいて/に従って/に応じて」等の表現(同様な表現を含む)が用いられる場合は、特に断りがない場合、各種データそのものを入力として用いる場合や、各種データに何らかの処理を行ったもの(例えば、ノイズ加算したもの、正規化したもの、各種データの中間表現等)を入力として用いる場合を含む。また「データに基づいて/に従って/に応じて」何らかの結果が得られる旨が記載されている場合、当該データのみに基づいて当該結果が得られる場合を含むとともに、当該データ以外の他のデータ、要因、条件、及び/又は状態等にも影響を受けて当該結果が得られる場合をも含み得る。また、「データを出力する」旨が記載されている場合、特に断りがない場合、各種データそのものを出力として用いる場合や、各種データに何らかの処理を行ったもの(例えば、ノイズ加算したもの、正規化したもの、各種データの中間表現等)を出力とする場合も含む。
 本明細書(請求項を含む)において、「接続される(connected)」及び「結合される(coupled)」との用語が用いられる場合は、直接的な接続/結合、間接的な接続/結合、電気的(electrically)な接続/結合、通信的(communicatively)な接続/結合、機能的(operatively)な接続/結合、物理的(physically)な接続/結合等のいずれをも含む非限定的な用語として意図される。当該用語は、当該用語が用いられた文脈に応じて適宜解釈されるべきであるが、意図的に或いは当然に排除されるのではない接続/結合形態は、当該用語に含まれるものして非限定的に解釈されるべきである。
 本明細書(請求項を含む)において、「AがBするよう構成される(A configured to B)」との表現が用いられる場合は、要素Aの物理的構造が、動作Bを実行可能な構成を有するとともに、要素Aの恒常的(permanent)又は一時的(temporary)な設定(setting/configuration)が、動作Bを実際に実行するように設定(configured/set)されていることを含んでよい。例えば、要素Aが汎用プロセッサである場合、当該プロセッサが動作Bを実行可能なハードウェア構成を有するとともに、恒常的(permanent)又は一時的(temporary)なプログラム(命令)の設定により、動作Bを実際に実行するように設定(configured)されていればよい。また、要素Aが専用プロセッサ又は専用演算回路等である場合、制御用命令及びデータが実際に付属しているか否かとは無関係に、当該プロセッサの回路的構造が動作Bを実際に実行するように構築(implemented)されていればよい。
 本明細書(請求項を含む)において、含有又は所有を意味する用語(例えば、「含む(comprising/including)」及び有する「(having)等)」が用いられる場合は、当該用語の目的語により示される対象物以外の物を含有又は所有する場合を含む、open-endedな用語として意図される。これらの含有又は所有を意味する用語の目的語が数量を指定しない又は単数を示唆する表現(a又はanを冠詞とする表現)である場合は、当該表現は特定の数に限定されないものとして解釈されるべきである。
 本明細書(請求項を含む)において、ある箇所において「1つ又は複数(one or more)」又は「少なくとも1つ(at least one)」等の表現が用いられ、他の箇所において数量を指定しない又は単数を示唆する表現(a又はanを冠詞とする表現)が用いられているとしても、後者の表現が「1つ」を意味することを意図しない。一般に、数量を指定しない又は単数を示唆する表現(a又はanを冠詞とする表現)は、必ずしも特定の数に限定されないものとして解釈されるべきである。
 本明細書において、ある実施例の有する特定の構成について特定の効果(advantage/result)が得られる旨が記載されている場合、別段の理由がない限り、当該構成を有する他の1つ又は複数の実施例についても当該効果が得られると理解されるべきである。但し当該効果の有無は、一般に種々の要因、条件、及び/又は状態等に依存し、当該構成により必ず当該効果が得られるものではないと理解されるべきである。当該効果は、種々の要因、条件、及び/又は状態等が満たされたときに実施例に記載の当該構成により得られるものに過ぎず、当該構成又は類似の構成を規定したクレームに係る発明において、当該効果が必ずしも得られるものではない。
 本明細書(請求項を含む)において、「最大化(maximize)」等の用語が用いられる場合は、グローバルな最大値を求めること、グローバルな最大値の近似値を求めること、ローカルな最大値を求めること、及びローカルな最大値の近似値を求めることを含み、当該用語が用いられた文脈に応じて適宜解釈されるべきである。また、これら最大値の近似値を確率的又はヒューリスティックに求めることを含む。同様に、「最小化(minimize)」等の用語が用いられる場合は、グローバルな最小値を求めること、グローバルな最小値の近似値を求めること、ローカルな最小値を求めること、及びローカルな最小値の近似値を求めることを含み、当該用語が用いられた文脈に応じて適宜解釈されるべきである。また、これら最小値の近似値を確率的又はヒューリスティックに求めることを含む。同様に、「最適化(optimize)」等の用語が用いられる場合は、グローバルな最適値を求めること、グローバルな最適値の近似値を求めること、ローカルな最適値を求めること、及びローカルな最適値の近似値を求めることを含み、当該用語が用いられた文脈に応じて適宜解釈されるべきである。また、これら最適値の近似値を確率的又はヒューリスティックに求めることを含む。
 本明細書(請求項を含む)において、複数のハードウェアが所定の処理を行う場合、各ハードウェアが協働して所定の処理を行ってもよいし、一部のハードウェアが所定の処理の全てを行ってもよい。また、一部のハードウェアが所定の処理の一部を行い、別のハードウェアが所定の処理の残りを行ってもよい。本明細書(請求項を含む)において、「1又は複数のハードウェアが第1の処理を行い、前記1又は複数のハードウェアが第2の処理を行う」等の表現が用いられている場合、第1の処理を行うハードウェアと第2の処理を行うハードウェアは同じものであってもよいし、異なるものであってもよい。つまり、第1の処理を行うハードウェア及び第2の処理を行うハードウェアが、前記1又は複数のハードウェアに含まれていればよい。なお、ハードウェアは、電子回路、又は電子回路を含む装置を含んでよい。
 本明細書(請求項を含む)において、複数の記憶装置(メモリ)がデータの記憶を行う場合、複数の記憶装置(メモリ)のうち個々の記憶装置(メモリ)は、データの一部のみを記憶してもよいし、データの全体を記憶してもよい。
 以上、本開示の実施形態について詳述したが、本開示は上記した個々の実施形態に限定されるものではない。請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲において種々の追加、変更、置き換え及び部分的削除等が可能である。例えば、前述した全ての実施形態において、数値又は数式を説明に用いている場合は、一例として示したものであり、これらに限られるものではない。また、実施形態における各動作の順序は、一例として示したものであり、これらに限られるものではない。

Claims (9)

  1.  少なくとも1つのメモリと、
     少なくとも1つのプロセッサと、を備える学習装置であって、
     前記少なくとも1つのプロセッサは、
     物理パラメータの教師データを取得し、
     前記教師データを第1モデルに入力してポテンシャル関数を生成し、
     前記ポテンシャル関数を用いて前記物理パラメータの第1の値を出力し、
     前記物理パラメータの第1の値と前記教師データとに基づいて、前記第1モデルのネットワークパラメータを調整する、
     学習装置。
  2.  前記ネットワークパラメータが調整された前記第1モデルと前記物理パラメータの初期推定値とを用いて前記ポテンシャル関数を生成し、生成された当該ポテンシャル関数に基づいて、前記物理パラメータの第2の値を計算し、
     前記初期推定値と前記第2の値との差に基づいて、前記第1モデルのネットワークパラメータをさらに調整する、
     請求項1に記載の学習装置。
  3.  前記ポテンシャル関数と前記物理パラメータとに基づいて前記物理パラメータの値を再帰的計算によって取得する第2モデルをさらに備え、
     前記第2モデルを用いて前記第2の値を計算する、
     請求項2に記載の学習装置。
  4.  前記物理パラメータは電子密度である、
     請求項1に記載の学習装置。
  5.  前記物理パラメータの前記教師データは、Full-CI(Full-Configuration Interaction)法又はDMRG(Density Matrix Renormalization Group:密度行列繰り込み群)法を用いて計算された電子密度である、
     請求項1に記載の学習装置。
  6.  前記ポテンシャル関数はハミルトニアンである、
     請求項1に記載の学習装置。
  7.  前記第1モデルはニューラルネットワークである、
     請求項1に記載の学習装置。
  8.  少なくとも1つのメモリと、
     少なくとも1つのプロセッサと、を備える推論装置であって、
     前記少なくとも1つのプロセッサは、
     物理パラメータの教師データを取得し、
     前記教師データを第1モデルに入力してポテンシャル関数を生成し、
     前記ポテンシャル関数を用いて前記物理パラメータの第1の値を出力し、
     前記物理パラメータの第1の値と前記教師データとに基づいて、前記第1モデルのネットワークパラメータを調整し、学習した、
     推論装置。
  9.  請求項1に記載の学習装置を用いてモデルを生成する、
     モデル作成方法。
PCT/JP2023/029372 2022-08-10 2023-08-10 学習装置、推論装置及びモデル作成方法 WO2024034688A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-128398 2022-08-10
JP2022128398 2022-08-10

Publications (1)

Publication Number Publication Date
WO2024034688A1 true WO2024034688A1 (ja) 2024-02-15

Family

ID=89851708

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/029372 WO2024034688A1 (ja) 2022-08-10 2023-08-10 学習装置、推論装置及びモデル作成方法

Country Status (1)

Country Link
WO (1) WO2024034688A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019036207A (ja) * 2017-08-18 2019-03-07 ヤフー株式会社 最適化装置、最適化方法および最適化プログラム
WO2020049994A1 (ja) * 2018-09-03 2020-03-12 パナソニックIpマネジメント株式会社 電子密度推定方法、電子密度推定装置、及び電子密度推定プログラム
WO2021054402A1 (ja) * 2019-09-20 2021-03-25 株式会社 Preferred Networks 推定装置、訓練装置、推定方法及び訓練方法
JP2021189473A (ja) * 2020-05-25 2021-12-13 国立研究開発法人産業技術総合研究所 物性予測方法及び物性予測装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019036207A (ja) * 2017-08-18 2019-03-07 ヤフー株式会社 最適化装置、最適化方法および最適化プログラム
WO2020049994A1 (ja) * 2018-09-03 2020-03-12 パナソニックIpマネジメント株式会社 電子密度推定方法、電子密度推定装置、及び電子密度推定プログラム
WO2021054402A1 (ja) * 2019-09-20 2021-03-25 株式会社 Preferred Networks 推定装置、訓練装置、推定方法及び訓練方法
JP2021189473A (ja) * 2020-05-25 2021-12-13 国立研究開発法人産業技術総合研究所 物性予測方法及び物性予測装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BROCKHERDE FELIX, VOGT LESLIE, LI LI, TUCKERMAN MARK E., BURKE KIERON, MÜLLER KLAUS-ROBERT: "Bypassing the Kohn-Sham equations with machine learning", NATURE COMMUNICATIONS, NATURE PUBLISHING GROUP, UK, vol. 8, no. 1, UK, XP093139398, ISSN: 2041-1723, DOI: 10.1038/s41467-017-00839-3 *
HIROKAWA YUTA, MASASHI NODA, SHUNSUKE YAMADA, ATSUSHI YAMADA : "Optimization and performance evaluation of electrodynamics application SALMON for supercomputer "Fugaku"", IPSJ SIG TECHNICAL REPORTS, INFORMATION PROCESSING SOCIETY OF JAPAN, JP, vol. 2020-HPC-173, no. 4, 16 March 2020 (2020-03-16), JP , pages 1 - 9, XP093139394, ISSN: 2188-8841 *

Similar Documents

Publication Publication Date Title
US10970361B2 (en) Information processing apparatus, ising device, and information processing apparatus control method
CN114580647B (zh) 量子系统的模拟方法、计算设备、装置及存储介质
WO2021218480A1 (zh) 基于模拟量子算法的数据搜索方法、装置及设备
CN113098803B (zh) 量子噪声信道的逆映射分解方法及装置、电子设备和介质
JP7059458B2 (ja) 生成的敵対神経網ベースの分類システム及び方法
US20200286595A1 (en) Simulating electronic structure with quantum annealing devices and artificial neural networks
CN114139712B (zh) 量子电路的处理方法、处理装置、电子设备和存储介质
US20220012307A1 (en) Information processing device, information processing system, information processing method, and storage medium
CN113098802B (zh) 量子噪声信道的逆映射分解方法及装置、电子设备和介质
WO2024034688A1 (ja) 学習装置、推論装置及びモデル作成方法
WO2024082767A1 (zh) 增益调整方法、装置、计算机设备和存储介质
Phalak et al. Approximate quantum random access memory architectures
US20220083315A1 (en) Calculation device, calculation method, and computer program product
US20220012306A1 (en) Information processing device, information processing system, information processing method, and storage medium
JP2022013003A (ja) 推論装置、学習装置、推論方法、プログラム、モデル生成方法及び再帰型ニューラルネットワーク
US20220019715A1 (en) Information processing device, information processing system, information processingmethod, and storage medium
CN116579435B (zh) 量子电路的分类方法、装置、电子设备、介质和产品
US20240005070A1 (en) Inference device and inference method
Singh A Torsion-Driven Generalisation of Unimodular Gravity
US20240095300A1 (en) Solution finding device, solution finding method, and computer program product
CN116227607B (zh) 量子电路的分类方法、装置、电子设备、介质和产品
WO2022050426A1 (ja) 推定装置、推定方法及びプログラム
WO2022260178A1 (ja) 訓練装置、推定装置、訓練方法、推定方法及びプログラム
EP4343640A1 (en) Method for generating a quantum computing program and apparatus for implementing the same
Liu et al. Judgmentally adjusted Q-values based on Q-ensemble for offline reinforcement learning

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23852650

Country of ref document: EP

Kind code of ref document: A1