WO2020166486A1

WO2020166486A1 - データ処理方法、データ処理装置及びデータ処理システム

Info

Publication number: WO2020166486A1
Application number: PCT/JP2020/004640
Authority: WO
Inventors: 裕也大西; 永井　智樹
Original assignee: Jsr株式会社
Priority date: 2019-02-12
Filing date: 2020-02-06
Publication date: 2020-08-20
Also published as: JP2023169271A; EP3926637A4; JPWO2020166486A1; CN113454728A; JP7351317B2; US20210375403A1; EP3926637A1

Abstract

本発明のデータ処理方法は、物性値の真値が既知の複数の第１化合物それぞれについて、物性値としての第１の計算値を第１の計算法により、物性値としての第２の計算値を第２の計算法により取得し、第１の計算値を真値に補正する第１の補正モデルと第２の計算値を真値に補正する第２の補正モデルとを生成し、物性値の真値が未知の第２化合物について、少なくとも第１の計算法により計算結果が取得できる領域を含む領域において第１の計算法により物性値として得られた計算値を第１の補正モデルにより補正した値を真値とし、少なくとも第１の計算法により計算結果が取得できない領域を含む領域において第２の計算法により第２化合物の物性値として取得した計算値を第２の補正モデルにより補正した値を真値としてデータベースに格納する。

Description

データ処理方法、データ処理装置及びデータ処理システム

　本発明は、データ処理方法、データ処理装置及びデータ処理システムに関する。

　近年、新規材料探索の手法として、材料科学と情報科学とを融合したマテリアルズインフォマティクス（Materials　Informatics）が注目されている。マテリアルズインフォマティクスは、材料（化合物）に関する構造や物性等の様々な情報が登録されたデータベースを解析することで、材料探索を行う。

　マテリアルズインフォマティクスでは、データベースを利用したデータマイニングや機械学習により材料探索が行われる（例えば、非特許文献１を参照）。

Joanne　Hill,　et　al.,　"Materials　science　with　large-scale　data　and　informatics:　Unlocking　new　opportunities",　MRS　Bulletin,　Volume　41,　Issue　5　(Nucleation　in　Atomic,　Molecular,　and　Colloidal　Systems)　May　2016,　pp.　399-409

　ここで、新規化合物の探索対象となり得る化合物の数は、理論上、膨大である。しかし、探索対象となり得る化合物の数に対して、データベースに物性値が登録されている化合物の数は、現状、十分ではない。

　本発明は、新規材料探索に利用されるデータベースの情報量を増大することができるデータ処理方法、データ処理装置及びデータ処理システムを提供することを目的とする。

　上述した課題を解決し、目的を達成するために、本発明は、物性値の真値が既知の複数の第１化合物それぞれについて、前記物性値としての第１の計算値を第１の計算法により取得する第１の取得ステップと、前記複数の第１化合物それぞれについて、前記物性値としての第２の計算値を、前記第１の計算法により計算結果が取得できない領域で計算結果を取得可能な第２の計算法により取得する第２の取得ステップと、前記第１の計算値を前記真値に補正する第１の補正モデルと、前記第２の計算値を前記真値に補正する第２の補正モデルとを生成する生成ステップと、物性値の真値が未知の第２化合物について、前記第１の計算法により物性値としての第３の計算値を取得する第３の取得ステップと、少なくとも前記第１の計算法により計算結果が取得できる領域を含む領域において得られた前記第３の計算値を前記第１の補正モデルにより補正し、補正した値を前記第２化合物の前記物性値の真値としてデータベースに格納する第１の格納ステップと、少なくとも前記第１の計算法により計算結果が取得できない領域を含む領域において、前記第２の計算法により前記第２化合物の物性値としての第４の計算値を取得する第４の取得ステップと、前記第４の計算値を前記第２の補正モデルにより補正し、補正した値を前記第２化合物の物性値の真値として前記データベースに格納する第２の格納ステップと、を含む、データ処理方法である。

　また、本発明は、物性値の真値が既知の複数の第１化合物それぞれについて、前記物性値としての第１の計算値を第１の計算法により取得し、前記複数の第１化合物それぞれについて、前記物性値としての第２の計算値を、前記第１の計算法により計算結果が取得できない領域で計算結果を取得可能な第２の計算法により取得する取得部と、前記第１の計算値を前記真値に補正する第１の補正モデルと、前記第２の計算値を前記真値に補正する第２の補正モデルとを生成する生成部と、物性値の真値が未知の第２化合物について、前記第１の計算法により物性値として前記取得部が取得した第３の計算値であって、少なくとも前記第１の計算法により計算結果が取得できる領域を含む領域において得られた前記第３の計算値を前記第１の補正モデルにより補正し、補正した値を前記第２化合物の前記物性値の真値としてデータベースに格納し、少なくとも前記第１の計算法により計算結果が取得できない領域を含む領域において、前記第２の計算法により前記第２化合物の物性値として前記取得部が取得した第４の計算値を前記第２の補正モデルにより補正し、補正した値を前記第２化合物の物性値の真値として前記データベースに格納する格納部と、を備える、データ処理装置である。

　また、本発明は、物性値の真値が既知の複数の第１化合物それぞれについて、前記物性値としての第１の計算値を第１の計算法により取得し、前記複数の第１化合物それぞれについて、前記物性値としての第２の計算値を、前記第１の計算法により計算結果が取得できない領域で計算結果を取得可能な第２の計算法により取得する取得部と、前記第１の計算値を前記真値に補正する第１の補正モデルと、前記第２の計算値を前記真値に補正する第２の補正モデルとを生成する生成部と、物性値の真値が未知の第２化合物について、前記第１の計算法により物性値として前記取得部が取得した第３の計算値であって、少なくとも前記第１の計算法により計算結果が取得できる領域を含む領域において得られた前記第３の計算値を前記第１の補正モデルにより補正し、補正した値を前記第２化合物の前記物性値の真値としてデータベースに格納し、少なくとも前記第１の計算法により計算結果が取得できない領域を含む領域において、前記第２の計算法により前記第２化合物の物性値として前記取得部が取得した第４の計算値を前記第２の補正モデルにより補正し、補正した値を前記第２化合物の物性値の真値として前記データベースに格納する格納部と、を備える、データ処理システムである。

　本発明によれば、新規材料探索に利用されるデータベースの情報量を増大することができる。

図１は、実施形態のデータ処理システムの概略構成の一例を示す図である。図２は、実施形態のデータ処理装置のハードウェア構成の一例を示す図である。図３は、実施形態のデータ処理装置が有する機能の一例を示す図である。図４は、図３に示す記憶部を説明するための図である。図５は、実施形態のデータ処理システムの動作例を示すフローチャートである。図６は、ＤＦＴ計算結果及びＱＶＥ計算結果の傾向を概念的に示す図である。図７は、図５に示すフローチャートのステップＳ１の詳細を示すフローチャートである。図８は、図７における取得部及び生成部の処理を説明するための図である。図９は、図７における生成部の処理を説明するための図である。図１０は、図５に示すフローチャートのステップＳ２の詳細を示すフローチャートである。図１１は、ステップＳ２の処理後のデータベースを説明するための図である。図１２は、ステップＳ２の処理結果を説明するための図である。図１３は、探索部を説明するための図である。図１４は、図５に示すフローチャートのステップＳ４の詳細を示すフローチャートである。

　以下、添付図面を参照しながら、本発明に係るデータ処理方法、データ処理装置及びデータ処理システムの実施形態を詳細に説明する。以下では、本明細書で開示するデータ処理方法を実行するシステムを実施形態として説明する。

（実施形態）
　図１は、実施形態のデータ処理システム１の概略構成の一例を示す図である。図１に示すように、実施形態のデータ処理システム１は、データ処理装置１０と、量子演算装置２０とを含む。図１に例示する各装置は、ＬＡＮ（Local　Area　Network）やＷＡＮ（Wide　Area　Network）等のネットワークにより、直接的、又は間接的に相互に通信可能な状態となっている。

　データ処理装置１０は、量子力学的な重ね合わせを用いて並列性を実現するコンピュータである量子コンピュータに対比して、所謂、古典コンピュータと呼ばれるフォンノイマン型コンピュータである。図１に示すデータ処理装置１０は、例えば、密度汎関数理論（Density　Functional　Theory：ＤＦＴ）に基づく計算法を実行可能なワークステーションである。

　量子演算装置２０は、量子コンピュータや量子アニーラーにより実現される演算装置である。量子演算装置２０は、完全な誤り訂正機能を持った量子コンピュータではなく、ノイズを含んだ計算結果を出力するＮＩＳＱ（Noisy　Intermediate-Scale　Quantum　device)である。図１に示す量子演算装置２０は、例えば、変分量子固有値計算（Variational　Quantum　Eigensolver：ＶＱＥ）を実行可能である。

　図２は、データ処理装置１０のハードウェア構成の一例を示す図である。図２に示すように、データ処理装置１０は、ＣＰＵ（Central　Processing　Unit）１１と、ＲＯＭ（Read　Only　Memory）１２と、ＲＡＭ（Random　Access　Memory）１３と、補助記憶装置１４と、入力装置１５と、表示装置１６と、外部Ｉ／Ｆ１７とを備える。

　ＣＰＵ１１は、プログラムを実行することにより、データ処理装置１０の動作を統括的に制御し、データ処理装置１０が有する各種の機能を実現する。データ処理装置１０が有する各種の機能については後述する。

　ＲＯＭ１２は、不揮発性のメモリであり、データ処理装置１０を起動させるためのプログラムを含む各種データ（データ処理装置１０の製造段階で書き込まれる情報）を記憶する。ＲＡＭ１３は、ＣＰＵ１１の作業領域を有する揮発性のメモリである。補助記憶装置１４は、ＣＰＵ１１が実行するプログラム等の各種データを記憶する。補助記憶装置１４は、例えばＨＤＤ（Hard　Disc　Drive）等で構成される。

　入力装置１５は、データ処理装置１０を使用するユーザが各種の操作を行うためのデバイスである。入力装置１５は、例えばマウス、キーボード、タッチパネル又はハードウェアキーで構成される。

　表示装置１６は、各種情報を表示する。例えば、表示装置１６は、ＣＰＵ１１の処理結果や、ユーザから各種操作を受け付けるためのＧＵＩ（Graphical　User　Interface）等を表示する。表示装置１６は、例えば液晶ディスプレイ、有機ＥＬ（Electro　Luminescence）ディスプレイ又はブラウン管ディスプレイで構成される。なお、例えばタッチパネルのような形態で、入力装置１５と表示装置１６とが一体に構成されても良い。

　外部Ｉ／Ｆ１７は、量子演算装置２０等の外部装置と接続（通信）するためのインタフェースである。

　図３は、データ処理装置１０が有する機能の一例を示す図である。なお、図３の例では、実施形態に関する機能のみを例示しているが、データ処理装置１０が有する機能はこれらに限られるものではない。図３に示すように、データ処理装置１０は、ユーザインタフェース部１０１、記憶部１０２、取得部１０３、生成部１０４、格納部１０５及び探索部１０６を有する。

　ユーザインタフェース部１０１は、ユーザの入力を受け付ける機能、及び、各種情報を表示する機能を有する。ユーザインタフェース部１０１は、例えば図２に示す入力装置１５及び表示装置１６で実現される。

　記憶部１０２は、例えば図２に示す補助記憶装置１４（例えばＨＤＤ）で実現される。記憶部１０２は、実施形態のデータ処理方法を実行するためデータとして、化合物ごとに、当該化合物の化学的特徴が対応付けられたデータベース(化合物データベース)を記憶する。具体的には、記憶部１０２は、化合物ごとに、当該化合物の部分構造の特性を示す数値（分子記述子）や、物性を示す物性値の真値等が対応付けられたデータベースを記憶する。

　図４は、図３に示す記憶部を説明するための図である。例えば、記憶部１０２には、図４に示すように、化合物ごとに、化学構造を示す文字列（分子記述子）と、イオン化ポテンシャル（ionization　potential：ＩＰ）の真値と、電子親和力（electron　affinity：ＥＡ）の真値とが登録されたデータベース１０２ａを記憶している。なお、データベース１０２ａに登録される物性値の真値は、実験により求められた実験値であっても、高精度な計算により求められた計算値であっても良い。

　また、実施形態のデータ処理方法を実行するためデータとして、記憶部１０２は、図４に示すように、学習済みモデル１０２ｂを記憶する。学習済みモデル１０２ｂは、後述する探索部１０６の処理に用いられるものである。学習済みモデル１０２ｂは、教師データを用いた機械学習により生成される。学習済みモデル１０２ｂの生成に用いられる教師データは、例えば、物性Ａの物性値の真値として、イオン化ポテンシャルの真値と、電子親和力の真値とが既知の化合物のリストである。例えば、教師データは、データベース１０２ａである。或いは、教師データは、データベース１０２ａとは異なるデータベースでありデータベース１０２ａと同様の構造を有するデータベースである。或いは、教師データは、データベース１０２ａ、及び、データベース１０２ａとは異なるデータベースでありデータベース１０２ａと同様の構造を有するデータベースである。

　かかる学習済みモデル１０２ｂは、ユーザから物性Ａについて所望する物性値「ＡＸ」（所定の特徴量の一例）が入力された場合、物性値「ＡＸ」を有する新規化合物を推定し、出力する。例えば、物性Ａは、イオン化ポテンシャルや電子親和力である。例えば、学習済みモデル１０２ｂは、後述する探索部１０６から、物性Ａの物性値として、イオン化ポテンシャルの物性値「ＡＸ」が入力されると、物性値「ＡＸ」を有すると推定される化学構造の文字列を出力する。また、学習済みモデル１０２ｂは、後述する探索部１０６から、物性Ａの物性値として、電子親和力の物性値「ＡＸ」が入力されると、物性値「ＡＸ」を有すると推定される化学構造の文字列を出力する。また、学習済みモデル１０２ｂは、後述する探索部１０６から、物性Ａの物性値として、イオン化ポテンシャルの物性値「ＡＸ１」及び電子親和力の物性値「ＡＸ２」が入力されると、物性値「ＡＸ１」及び物性値「ＡＸ２」を有すると推定される化学構造の文字列を出力する。なお、学習モデル１０２ｂは、データ処理装置１０により生成される場合であっても、別の装置で生成される場合であっても良い。

　このように、データ処理装置１０は、上記のデータベース１０１ａを利用して新規材料探索を実行する。ここで、新規化合物の探索対象となり得る化合物の数は、理論上、膨大である。しかし、探索対象となり得る化合物の数に対して、データベース１０１ａに物性値が登録されている化合物の数は、十分ではない。そこで、データ処理装置１０は、新規材料探索に利用されるデータベース１０１ａの情報量を増大するため、量子演算装置２０と協働して、以下に説明するデータ処理方法を実行する。図５は、実施形態のデータ処理システムの動作例を示すフローチャートである。以下、各ステップについて説明する。

（ステップＳ１）
　まず、データ処理装置１０は、補正モデルを生成する（ステップＳ１）。ステップＳ１は、図３に示す取得部１０３及び生成部１０４により実行される処理である。

　ステップＳ１において、取得部１０３は、物性値の真値が既知の複数の第１化合物それぞれについて、物性値としての第１の計算値を第１の計算法により取得する（第１の取得ステップ）。実施形態では、第１の計算法は、上述したＤＦＴであり、取得部１０３が有するＤＦＴ計算部１０３ａにより実行される。また、ステップＳ１において、取得部１０３は、複数の第１化合物それぞれについて、物性値としての第２の計算値を、第２の計算法により取得する（第２の取得ステップ）。実施形態では、第２の計算法は、上述したＶＱＥであり、取得部１０３が有するＶＱＥ計算命令部１０３ｂが量子演算装置２０に計算命令を送出することで実行される。そして、ステップＳ１において、生成部１０４は、第１の計算値を真値に補正する第１の補正モデルと、第２の計算値を真値に補正する第２の補正モデルとを生成する（生成ステップ）。

　ここで、第２の計算法の一例であるＶＱＥ計算は、第１の計算法（ＤＦＴ）により計算結果が取得できない領域で計算結果を取得可能な計算法である。この点について、図６を用いて説明する。図６は、イオン化ポテンシャルの計算値を横軸とし、イオン化ポテンシャルの真値を縦軸として、ＤＦＴによる計算結果と真値との関係と、ＶＱＥによる計算と真値との関係を示している。なお、図６に示す関係は、実施形態のデータ処理方法の概念を説明するための一例であり、実際のイオン化ポテンシャルの計算結果を含め、全ての物性の計算結果について同様の関係が成立することを意図するものではない。

　図６に示すように、ＤＦＴ計算では、ＤＦＴにより計算結果が取得できる領域１０００と、ＤＦＴにより計算結果が取得できない領域１１００とがある。領域１０００は、ＤＦＴ計算により、真値と相関を有する計算結果が得られる領域である。換言すると、領域１０００は、ＤＦＴにより定性的に正しい計算結果が得られる領域であり、ＤＦＴにより妥当な計算結果が取得できる領域である。

　一方、領域１１００は、ＤＦＴにより妥当でない計算結果が取得される領域１２００と、ＤＦＴ計算が不正終了する領域１３００とに分けられる。領域１２００は、ＤＦＴ計算により計算結果が得られるが、領域１０００と比較して、真値との相関が低い計算結果が得られる領域である。

　これに対して、ＶＱＥ計算では、原理的には、計算不可能な領域はなく、定性的には正しい計算結果が得られる。ここで、ＮＩＳＱ（量子演算装置２０）で実行されるＶＱＥ計算では、図６に示すように、統計的に一定のノイズを含んだ計算値が得られる。すなわち、ＶＱＥ計算では、ＤＦＴ計算で計算結果が取得されない領域１０００に含まれる化合物であっても、定性的に正しい計算結果を得ることができる。ただし、ＶＱＥ計算はＤＦＴ計算に比べて、計算時間がかかるため、高速な処理のためにはＤＦＴ計算が可能な分子はＤＦＴ計算によりデータの収集を行う。

　そこで、実施形態では、ステップＳ１において、生成部１０４は、複数の第１化合物それぞれについて、真値と第１の計算値（ＤＦＴ計算結果）と第２の計算値（ＶＱＥ計算結果）とを比較する。そして、生成部１０４は、第１の計算値が真値と相関を有する範囲において第１の補正モデル（ＤＦＴ補正モデル）を生成し、第２の計算値が真値と相関を有する範囲において第２の補正モデル（ＶＱＥ補正モデル）を生成する。

　ステップＳ１の具体的な処理について、図７～図９を用いて説明する。図７は、図５に示すフローチャートのステップＳ１の詳細を示すフローチャートであり、図８は、図７における取得部１０３及び生成部１０４の処理を説明するための図であり、図９は、図７における生成部１０４の処理を説明するための図である。

　図７に示すように、取得部１０３は、物性値の真値が既知の第１化合物のリストを取得する（ステップＳ１１）。例えば、取得部１０３は、記憶部１０２が記憶するデータベース１０２ａからデータを取得する。なお、ステップＳ１１で取得される「イオン化ポテンシャル及び電子親和力の真値が既知の化合物のリスト」は、ユーザインタフェース部１０１を介して外部から取得されても良い。

　ＤＦＴ計算部１０３ａは、第１化合物の化学構造からＤＦＴ計算用の計算式を作成し、ＤＦＴ計算を実行し計算結果を取得する（ステップＳ１２）。また、ステップＳ１２と並行して、ＶＱＥ計算命令部１０３ｂは、第１化合物の化学構造からＶＱＥ計算用の計算式を作成し、作成した計算式を量子演算装置２０に送信することで、量子演算装置２０にＶＱＥ計算を実行させ、計算結果を取得する（ステップＳ１３）。なお、ステップＳ１２は、ステップＳ１３の実行前に実行される場合であっても、ステップＳ１３の実行後に実行される場合であっても良い。

　図８は、取得部１０３がイオン化ポテンシャルの計算結果を取得する場合の一例を示している。図８の上段では、「化合物：ＣＫ１、真値：ＩＰ＿１」について、ＤＦＴの計算結果が「ＩＰＤ＿１」であり、ＶＱＥの計算結果が「ＩＰＶ＿１」であったことを示している。同様に、図８の上段では、「化合物：ＣＫ２、真値：ＩＰ＿２」について、ＤＦＴの計算結果が「ＩＰＤ＿２」であり、ＶＱＥの計算結果が「ＩＰＶ＿２」であったことを示している。そして、図８の上段では、「化合物：ＣＫｎ、真値：ＩＰ＿ｎ」について、ＶＱＥの計算結果が「ＩＰＶ＿ｎ」であるが、ＤＦＴの計算結果が取得できなかったことを示している。すなわち、「化合物：ＣＫｎ」は、ＤＦＴ計算では領域１３００に該当する化合物である。

　図７に戻って、生成部１０４は、計算結果と真値とを比較する（ステップＳ１４）。ステップＳ１４では、生成部１０４は、ＤＦＴの計算結果それぞれについて、真値と相関を有するか否かを判定する。同様に、ステップＳ１４では、生成部１０４は、ＶＱＥの計算結果それぞれについて、真値と相関を有するか否かを判定する。図８の下段では、生成部１０４は、ＤＦＴの計算結果「ＩＰＤ＿２」が真値と相関を有さない値であると判定する。この判定結果は、「化合物：ＣＫ２」が、ＤＦＴ計算では領域１２００に含まれる計算結果が取得される化合物であることを示している。なお、図６に示す一例では、ＶＱＥ計算の結果は、全て真値と相関を有すると判定される。

　そして、生成部１０４は、ＤＦＴ補正モデルとＶＱＥ補正モデルとを生成する（ステップＳ１５）。例えば、生成部１０４は、図９に示すように、ＤＦＴの計算結果が、領域１０００の範囲に含まれる場合に、ＤＦＴの計算結果を真値に補正するＤＦＴ補正モデルを生成する。また、生成部１０４は、図９に示すように、ＶＱＥの計算結果を真値に補正するＤＦＴ補正モデルを生成する。なお、ステップＳ１では、イオン化ポテンシャルについて、ＤＦＴ計算とＶＱＥ計算とが実行され、ＤＦＴ補正モデルとＶＱＥ補正モデルとが生成されるとともに、電子親和力についても、ＤＦＴ計算とＶＱＥ計算とが実行され、ＤＦＴ補正モデルとＶＱＥ補正モデルとが生成される。

　ステップＳ１により生成されたＤＦＴ補正モデルとＶＱＥ補正モデルを用いることで、以下のステップＳ２で説明するように、広範な分子に適用可能な補正処理が可能となる。

（ステップＳ２）
　図５に戻って、ステップＳ１の後、データ処理装置１０は、データベースを構築する（ステップＳ２）。ステップＳ２は、図３に示す取得部１０３及び格納部１０５により実行される処理である。

　ステップＳ２において、取得部１３（ＤＦＴ計算部１０３ａ）は、物性値の真値が未知の第２化合物について、第１の計算法（ＤＦＴ）により物性値としての第３の計算値を取得する（第３の取得ステップ）。そして、格納部１０５は、少なくとも第１の計算法（ＤＦＴ）により計算結果が取得できる領域（領域１０００）を含む領域において得られた第３の計算値を第１の補正モデル（ＤＦＴ補正モデル）により補正し、補正した値を第２化合物の物性値の真値としてデータベース１０２ａに格納する（第１の格納ステップ）。

　そして、取得部１３（ＶＱＥ計算命令部１０３ｂ）は、少なくとも第１の計算法により計算結果が取得できない領域（領域１１００）を含む領域において、第２の計算法（ＱＶＥ）により前記第２化合物の物性値としての第４の計算値を取得する（第４の取得ステップ）。そして、格納部１０５は、第４の計算値を第２の補正モデル（ＶＱＥ補正モデル）により補正し、補正した値を第２化合物の物性値の真値としてデータベース１０２ａに格納する（第２の格納ステップ）。

　ステップＳ２の具体的な処理について、図１０～図１２を用いて説明する。図１０は、図５に示すフローチャートのステップＳ２の詳細を示すフローチャートであり、図１１は、ステップＳ２の処理後のデータベースを説明するための図であり、図１２は、ステップＳ２の処理結果を説明するための図である。

　図１０に示すように、取得部１０３は、物性値の真値が未知の第２化合物のリストを取得する（ステップＳ２１）。例えば、ユーザインタフェース部１０１は、ユーザが入力した「イオン化ポテンシャル及び電子親和力の真値が未知の化合物のリスト」を取得し、取得部１０３に引き渡す。第２化合物のリストに含まれる化合物の数は、第１化合物のリストに含まれる化合物の数より多い。なお、以下に説明するステップＳ２２以降の処理は、リストに含まれる化合物それぞれについて繰り返し行われる。

　ＤＦＴ計算部１０３ａは、第２化合物について、ＤＦＴ計算を実行し（ステップＳ２２）、格納部１０５は、ＤＦＴ計算により計算結果が取得できたか否かを判定する（ステップＳ２３）。すなわち、格納部１０５は、ＤＦＴ計算部１０３ａの計算が不正終了したか否か、或いは、ＤＦＴ計算部１０３ａが得た計算結果が領域１２００に該当する値であるか否かを判定する。換言すると、格納部１０５は、ＤＦＴ計算により得られた計算結果が領域１０００に該当する値であるか否かを判定する。

　以下、判定方法の具体例について説明する。例えば、格納部１０５は、実験により既知となっている真値とＤＦＴ計算結果とに相関がある領域において、一次近似により近似関数を得る。格納部１０５は、ＤＦＴ計算で得られた値が、かかる近似関数により外挿した直線から乖離する範囲の値である場合、すなわち、領域１２００にある値である場合、ＤＦＴ計算により計算結果が取得できなかったと判定する。また、格納部１０５は、ＤＦＴ計算で得られた値が、対象となる物性に応じて予め設定された閾値を用いて、妥当な計算結果か否かを判定する。例えば、ＩＰをＤＦＴ計算により求める場合、２ｅＶ以下の領域では妥当な計算結果が得られないことが知られている。このことから、格納部１０５は、ＤＦＴ計算で得られたＩＰの値が、２ｅＶ以下の場合、ＤＦＴ計算により計算結果が取得できなかったと判定する。また、格納部１０５は、解の安定性解析を行なうことで、ＤＦＴ計算により計算結果が取得できたか否かを判定する。例えば、格納部１０５は、非制限法によるＤＦＴ波動関数に一重項不安定性が存在するか否かを調べ、存在する場合、ＤＦＴ計算により計算結果が取得できなかったと判定し、存在しない場合、ＤＦＴ計算により計算結果が取得できたと判定する。

　ここで、ＤＦＴ計算により計算結果が取得できている場合（ステップＳ２３、Ｙｅｓ）、格納部１０５は、ＤＦＴの計算結果をＤＦＴ補正モデルにより補正し（ステップＳ２４）、補正値を第２化合物の物性値の真値としてデータベース１０２ａに格納する（ステップＳ２７）。

　一方、ＤＦＴ計算により計算結果が取得できなかった場合（ステップＳ２３、Ｎｏ）、ＶＱＥ計算命令部１０３ｂは、量子演算装置２０にＶＱＥ計算を実行させ、計算結果を取得する（ステップＳ２５）。そして、格納部１０５は、ＶＱＥの計算結果をＶＱＥ補正モデルにより補正し（ステップＳ２６）、補正値を第２化合物の物性値の真値としてデータベース１０２ａに格納する（ステップＳ２７）。

　上述したステップＳ２（ステップＳ２１～Ｓ２７）の処理により、多数の第２化合物について、イオン化ポテンシャルの真値と、電子親和力の真値とが得られる。これにより、図１１に示すように、第２化合物を第１化合物としてデータベース１０２ａに登録することができ、データベース１０２ａされる情報量を大幅に増大することができる。概念的には、図１２で例示するように、イオン化ポテンシャル及び電子親和力それぞれについて、ＤＦＴでデータベースの構築が可能な領域に、ＶＱＥでデータベースを拡張できる領域を合わせることで、分子のデータベース空間を拡大することができる。また、ＮＩＳＱは、理論上全ての範囲で真値と相関性のある計算値を出力することができるが、現時点ではハードウェアリソースの問題やコストの問題により、ＮＩＳＱによるＶＱＥ計算が適用できる化合物の範囲は、古典コンピュータと呼ばれるフォンノイマン型コンピュータによるＤＦＴ計算が適用できる範囲に比べて、限定的である。この点、上述したステップＳ２では、ＤＦＴ計算により計算結果が取得できなかった場合に、ＮＩＳＱによるＶＱＥ計算を実行することで、ＮＩＳＱを利用したデータベース拡張を効率的に行うことができる。

（ステップＳ３）
　図５に戻って、ステップＳ２の後、データ処理装置１０は、ステップ２により情報量が増大したデータベース１０２ａを用いて新規化合物を探索する（ステップＳ３）。ステップＳ３は、図３に示す探索部１０６により実行される処理である。図１３は、探索部１０６を説明するための図である。

　例えば、入力装置０１５を介してユーザから物性Ａについて所望する物性値「ＡＸ」を受け付けると、探索部１０６は、図１３に示すように、物性値「ＡＸ」を学習済みモデル１０２ｂに入力する。学習済みモデル１０２ｂは、物性Ａの物性値が「ＡＸ」となる可能性のある化合物Ｘの構造を推定する。例えば、学習済みモデル１０２ｂは、探索部１０６から、物性Ａの物性値として、イオン化ポテンシャルの物性値「ＡＸ」が入力されると、物性値「ＡＸ」を有すると推定される化学構造の文字列を出力する。また、学習済みモデル１０２ｂは、探索部１０６から、物性Ａの物性値として、電子親和力の物性値「ＡＸ」が入力されると、物性値「ＡＸ」を有すると推定される化学構造の文字列を出力する。なお、図示していないが、学習済みモデル１０２ｂは、探索部１０６から、物性Ａの物性値として、イオン化ポテンシャルの物性値「ＡＸ１」及び電子親和力の物性値「ＡＸ２」が入力されると、物性値「ＡＸ１」及び物性値「ＡＸ２」を有すると推定される化学構造の文字列を出力する。

　実施形態では、ステップＳ２により情報量が増大したデータベース１０２ａを用いることで、新規化合物の探索効率を向上することができる。

（ステップＳ４）
　図５に戻って、ステップＳ３の後、データ処理装置１０は、ステップ３により探索された新規化合物について、データベース１０２ａを更新する（ステップＳ４）。ステップＳ４は、ステップＳ２と同様、図３に示す取得部１０３及び格納部１０５により実行される処理である。

　ステップＳ４では、取得部１３（ＤＦＴ計算部１０３ａ）は、ＤＦＴにより新規化合物について第３の計算値を取得する。そして、格納部１０５は、少なくとも第１の計算法（ＤＦＴ）により計算結果が取得できる領域（領域１０００）を含む領域において得られた第３の計算値を第１の補正モデル（ＤＦＴ補正モデル）により補正した値を新規化合物の物性値の真値としてデータベース１０２ａに格納する。

　そして、取得部１３（ＶＱＥ計算命令部１０３ｂ）は、少なくとも第１の計算法により計算結果が取得できない領域（領域１１００）を含む領域において、第２の計算法（ＱＶＥ）により新規化合物の物性値としての第４の計算値を取得する。そして、格納部１０５は、第４の計算値を第２の補正モデル（ＶＱＥ補正モデル）により補正した値を新規化合物の物性値の真値としてデータベース１０２ａに格納する。

　ステップＳ４の具体的な処理について、図１４を用いて説明する。図１４は、図５に示すフローチャートのステップＳ４の詳細を示すフローチャートである。

　図１４に示すように、新規化合物の入力を受け付けると（ステップＳ３１）、ＤＦＴ計算部１０３ａは、新規化合物について、ＤＦＴ計算を実行し（ステップＳ３２）、格納部１０５は、ＤＦＴ計算により計算結果が取得できたか否かを判定する（ステップＳ３３）。ここで、ＤＦＴ計算により計算結果が取得できている場合（ステップＳ３３、Ｙｅｓ）、格納部１０５は、ＤＦＴの計算結果をＤＦＴ補正モデルにより補正し（ステップＳ３４）、補正値を新規化合物の物性値の真値としてデータベース１０２ａに格納する（ステップＳ３７）。

　一方、ＤＦＴ計算により計算結果が取得できなかった場合（ステップＳ３３、Ｎｏ）、ＶＱＥ計算命令部１０３ｂは、量子演算装置２０にＶＱＥ計算を実行させ、計算結果を取得する（ステップＳ３５）。そして、格納部１０５は、ＶＱＥの計算結果をＶＱＥ補正モデルにより補正し（ステップＳ３６）、補正値を新規化合物の物性値の真値としてデータベース１０２ａに格納する（ステップＳ３７）。

　ステップＳ４の処理により、新規化合物についても物性値の真値を取得することができ、データベース１０２ａの情報量を更に増大することができる。なお、真値として計算値を含めずに実験値に限定すると、ステップＳ４で得られる物性値の真値は、予測真値となる。

　上述したように、実施形態では、限られた数の第１化合物について、イオン化ポテンシャルや電子親和力の計算値をＤＦＴ計算及びＶＱＥ計算で取得し、計算結果を限られた数の真値と比較することで、広範な分子に適用可能な計算結果の補正モデルを求める。そして、実施形態では、広範な分子に適用可能な計算結果の補正モデルを用いて、膨大な数の第２化合物について、イオン化ポテンシャルや電子親和力の計算値を真値に変換する。これにより、実施形態では、新規材料探索に利用されるデータベース１０２ａの情報量を増大することができる。

　また、実施形態では、情報量が増大したデータベース１０２ａを用いることで、化合物探索の効率を向上することができるとともに、新規化合物についても、広範な分子に適用可能な計算結果の補正モデルを用いて、物性値の真値を求めることができ、データベース１０２ａの情報量を更に増大することができる。

　以上、本発明に係る実施形態について説明したが、本発明は、上述の実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上述の実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除しても良い。

（変形例）
　以下に変形例を記載する。

（１）変形例１
　上述した実施形態で説明したステップＳ２の処理では、ＤＦＴにより（妥当な）計算結果が取得できる領域１０００において、ＤＦＴ計算で得られた計算結果（第３の計算値）がＤＦＴ補正モデルにより補正され、データベースに格納される。また、ステップＳ２の処理では、ＤＦＴにより計算結果が取得できない領域１１００において、ＶＱＥ計算で得られた計算結果（第４の計算値）が、ＶＱＥ補正モデルにより補正され、データベースに格納される。ここで、ステップＳ２の処理では、ＤＦＴにより妥当でない計算結果が取得される領域１２００において、ＤＦＴの計算結果（第３の計算値）及びＶＱＥの計算結果（第４の計算値）の双方が取得されるが、ＶＱＥ計算で得られた計算結果（第４の計算値）が、ＶＱＥ補正モデルにより補正され、データベースに格納される。

　ところで、領域１２００と領域１０００との境界は、ＤＦＴ計算結果と真値とに相関が有る範囲とＤＦＴ計算結果と真値とに無い範囲との境界となる。かかる境界は、例えば、相関係数等に対して設定された閾値や、ユーザの判断により設定される。このため、境界近傍では、第３の計算値を補正した値と、第４の計算値を補正した値とのどちらが真値として適切であるのか不明な場合がある。

　そこで、変形例１では、以下のような処理を行う。例えば、領域１２００と領域１０００との境界に対応するＤＦＴ計算値を「Ａ」とし、初期設定或いはユーザ設定により「α」が与えられているとする。変形例１では、第２化合物「Ｚ」のイオン化ポテンシャルのＤＦＴ計算値「Ｙ１」が「Ａ－α≦Ｙ１≦Ａ＋α」であった場合、格納部１０５は、「Ｙ１」をＤＦＴ補正モデルで補正した補正値「Ｙ１_ＤＦＴ」と、第２化合物「Ｚ」のＶＱＥ計算値「Ｙ２」をＶＱＥ補正モデルで補正した補正値「Ｙ２_ＶＱＥ」とを表示装置１６に表示させる。その際、格納部１０５は、第２化合物「Ｚ」の化学構造も表示装置１６に表示させる。ユーザは、化学構造を考慮して、補正値「Ｙ１_ＤＦＴ」と補正値「Ｙ２_ＶＱＥ」とのうち、適切と判定した補正値を選択する。そして、格納部１０５は、ユーザが選択した補正値を、第２化合物「Ｚ」の真値としてデータベース１０２ａに格納する。

　変形例１では、ＤＦＴの計算結果（第３の計算値）が領域１２００に含まれていても、当該計算結果が、ＤＦＴ補正モデルにより補正され、データベースに格納される場合がある。また、変形例１では、ＤＦＴの計算結果（第３の計算値）が領域１０００に含まれていても、第３の計算値が上記の範囲内であれば、ＶＱＥの計算結果（第４の計算値）が取得され、当該計算結果がＶＱＥ補正モデルにより補正され、データベースに格納される場合がある。変形例１の処理により、境界領域における物性値の真値として適切な値を得ることができる。

　なお、上記の変形例１では、補正値の選択がユーザにより行われる場合について説明したが、補正値の選択が自動的に行われる場合であっても良い。かかる場合、例えば、探索部１０６は、データベース１０２ａを用いたデータマイニングにより、第２化合物「Ｚ」のイオン化ポテンシャルの値を推定する。そして、格納部１０６は、「Ｙ１_ＤＦＴ」と「Ｙ２_ＶＱＥ」とのうち、探索部１０６が推定した値に近い値を、第２化合物「Ｚ」の真値としてデータベース１０２ａに格納する。

（２）変形例２
　上述した実施形態で説明したステップＳ２の処理で、第２の化合物についてＤＦＴ計算で得られた計算結果（第３の計算値）をＤＦＴ補正モデルにより補正した補正値が真値としてデータベース１０２ａに格納された場合、生成部１０４は、以下の変形例２の処理を行っても良い。

　変形例２にかかる生成部１０４は、ＤＦＴ計算結果をＤＦＴ補正モデルにより補正した補正値を真値とした第２の化合物について、ＶＱＥによる計算結果を、ＶＱＥ計算命令部１０３ｂを介して更に取得する。そして、生成部１０４は、真値として格納された値と、ＶＱＥによる計算値とを更に用いて、第２の補正モデル（ＶＱＥ補正モデル）を生成する。かかる変形例２の処理を随時行うことにより、第２の補正モデルを更新することでき、その結果、補正の精度を向上させることができる。

（３）変形例３
　上述した実施形態では、第１の計算法がＤＦＴであり、第２の計算法がＶＱＥである場合について説明したが、これに限定されるものではない。第１の計算法により計算結果が取得できない領域で計算結果を取得可能な第２の計算法であるならば、本明細書で開示したデータ処理方法に適用される第１の計算法と第２の計算法は、如何なる組み合わせでも適用可能である。例えば、第１の計算法としては、摂動論や結合クラスター理論による計算法が挙げられる。また、例えば、第２の計算法としては、量子位相推定が挙げられる。

（４）変形例４
　上述した実施形態では、物性値としてイオン化ポテンシャルと電子親和力とを計算する場合について説明したが、本明細書で開示したデータ処理方法に適用可能な第１の計算法及び第２の計算法の双方で計算可能な物性値であれば、如何なる種類の物性値であっても良い。

（５）変形例５
　上述した実施形態では、化学構造とＩＰとの相関、化学構造とＥＡとの相関、化学構造とＩＰ及びＥＡとの相関を学習した学習済みモデル１０２ｂにより、所望のＩＰを有する化学構造、所望のＥＡを有する化学構造、所望のＩＰ及びＥＡを有する化学構造を推定する場合について説明したが、これに限定されるものではない。例えば、学習済みモデル１０２ｂと以下に説明する第２学習済みモデルを用いることで、ＩＰ及びＥＡとは異なる第３の物性（物性Ｂ）を有する化学構造を推定することも可能である。例えば、第２学習済みモデルは、ＩＰの真値と、ＥＡの真値と、物性Ｂの真値とが既知の化合物のリストを教師データとして用いた機械学習により生成される。第２学習済みモデルは、探索部１０６から物性Ｂについてユーザが所望する物性値「ＢＸ」が入力されると、物性値「ＢＸ」となる可能性のあるＩＰの値（ＩＰ_ＢＸ）と、ＥＡの値（ＥＡ_ＢＸ）とを出力する。探索部１０６は、ＩＰ_ＢＸとＥＡ_ＢＸとを学習済みモデル１０２ｂに入力することで、物性値「ＢＸ」を有すると推定される化学構造の文字列を取得する。かかる処理により探索された新規化合物についても、ステップＳ４の処理を行って、ＩＰやＥＡの物性値の真値を得ることができる。

（６）変形例６
　上述した実施形態におけるデータ処理システム１は、データ処理装置１０と、量子演算装置２０とを含んで構成されているが、実施形態のデータ処理システム１は、上述したデータ処理装置１０が有する複数の機能と、量子演算装置２０が有する機能とが、複数の装置に分散して配置される形態であっても良い。

　例えば、データ処理システム１は、取得部１０３、生成部１０４及び格納部１０５を有するデータベース構築装置と、量子演算装置２０と、学習済みモデル１０２ｂ及び探索部１０６を有する探索装置と、データベース１０２ａを記憶する記憶装置とを含む場合であっても良い。また、記憶装置が記憶するデータベース１０２ａは、複数のデータベース構築装置それぞれが構築したデータベースが統合されたものであっても良い。

　上述の実施形態は、以上の変形例と任意に組み合わせることができるし、以上の変形例同士を任意に組み合わせても良い。

　また、上述した実施形態のデータ処理装置１０で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ、フレキシブルディスク（ＦＤ）、光磁気ディスク（Ｍａｇｎｅｔｏ－Ｏｐｔｉｃａｌ　ｄｉｓｋ）、ＣＤ－Ｒ、ＤＶＤ、　Blu-ray　Disc（登録商標）、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成しても良いし、インターネット等のネットワーク経由で提供又は配布するように構成しても良い。また、各種プログラムを、例えばＲＯＭ等の不揮発性の記憶媒体に予め組み込んで提供するように構成しても良い。

１　データ処理システム
１０　データ処理装置
１０１　ユーザインタフェース部
１０２　記憶部
１０３　取得部
１０３ａ　ＤＦＴ計算部
１０３ｂ　ＶＱＥ計算命令部
１０４　生成部
１０５　格納部
１０６　探索部
２０　量子演算装置

Claims

　物性値の真値が既知の複数の第１化合物それぞれについて、前記物性値としての第１の計算値を第１の計算法により取得する第１の取得ステップと、
　前記複数の第１化合物それぞれについて、前記物性値としての第２の計算値を、前記第１の計算法により計算結果が取得できない領域で計算結果を取得可能な第２の計算法により取得する第２の取得ステップと、
　前記第１の計算値を前記真値に補正する第１の補正モデルと、前記第２の計算値を前記真値に補正する第２の補正モデルとを生成する生成ステップと、
　物性値の真値が未知の第２化合物について、前記第１の計算法により物性値としての第３の計算値を取得する第３の取得ステップと、
　少なくとも前記第１の計算法により計算結果が取得できる領域を含む領域において得られた前記第３の計算値を前記第１の補正モデルにより補正し、補正した値を前記第２化合物の前記物性値の真値としてデータベースに格納する第１の格納ステップと、
　少なくとも前記第１の計算法により計算結果が取得できない領域を含む領域において、前記第２の計算法により前記第２化合物の物性値としての第４の計算値を取得する第４の取得ステップと、
　前記第４の計算値を前記第２の補正モデルにより補正し、補正した値を前記第２化合物の物性値の真値として前記データベースに格納する第２の格納ステップと、
　を含む、データ処理方法。
　前記データベースを用いて所定の特徴量を有する新規化合物を探索する探索ステップ、
　を更に含む、請求項１に記載のデータ処理方法。
　前記第３の取得ステップは、前記新規化合物について前記第３の計算値を取得し、
　前記第１の格納ステップは、少なくとも前記第１の計算法により計算結果が取得できる領域を含む領域において得られた前記第３の計算値を前記第１の補正モデルにより補正した値を前記新規化合物の前記物性値の真値として前記データベースに格納し、
　前記第４の取得ステップは、少なくとも前記第１の計算法により計算結果が取得できない領域を含む領域において、前記第２の計算法により前記新規化合物の物性値としての前記第４の計算値を取得し、
　前記第２の格納ステップは、前記第４の計算値を前記第２の補正モデルにより補正した値を前記新規化合物の物性値の真値として前記データベースに格納する、
　請求項２に記載のデータ処理方法。
　前記探索ステップは、前記データベースを用いた機械学習により前記新規化合物を探索する、
　請求項２又は３に記載のデータ処理方法。
　前記生成ステップは、前記複数の第１化合物それぞれについて、前記真値と前記第１の計算値と前記第２の計算値とを比較し、前記第１の計算値が前記真値と相関を有する範囲において前記第１の補正モデルを生成し、前記第２の計算値が前記真値と相関を有する範囲において前記第２の補正モデルを生成する、
　請求項１～４のいずれか１つに記載のデータ処理方法。
　前記生成ステップは、記第２の化合物について、前記第１の格納ステップで前記データベースに前記物性値の真値として格納した値と、前記第２の計算法により前記物性値として取得された計算値とを更に用いて、前記第２の補正モデルを生成する、
　請求項１～５のいずれか１つに記載のデータ処理方法。
　前記第１化合物の前記物性値の真値は、実験により求められた実験値である、
　請求項１～６のいずれか１つに記載のデータ処理方法。
　前記第１の計算法は、密度汎関数理論に基づく計算法であり、
　前記第２の計算法は、変分量子固有値計算である、
　請求項１～７のいずれか１つに記載のデータ処理方法。
　前記第１の取得ステップ及び前記第３の取得ステップそれぞれは、フォンノイマン型コンピュータにより前記第１の計算法を実行させることで、前記第１の計算値及び前記第３の計算値をそれぞれ取得し、
　前記第２の取得ステップ及び前記第４の取得ステップそれぞれは、量子演算装置により前記第２の計算法を実行させることで、前記第２の計算値及び前記第４の計算値をそれぞれ取得する、
　請求項１～８のいずれか１つに記載のデータ処理方法。
　前記量子演算装置は、ＮＩＳＱ（Noisy　Intermediate-Scale　Quantum　device)である、
　請求項９に記載のデータ処理方法。
　物性値の真値が既知の複数の第１化合物それぞれについて、前記物性値としての第１の計算値を第１の計算法により取得し、前記複数の第１化合物それぞれについて、前記物性値としての第２の計算値を、前記第１の計算法により計算結果が取得できない領域で計算結果を取得可能な第２の計算法により取得する取得部と、
　前記第１の計算値を前記真値に補正する第１の補正モデルと、前記第２の計算値を前記真値に補正する第２の補正モデルとを生成する生成部と、
　物性値の真値が未知の第２化合物について、前記第１の計算法により物性値として前記取得部が取得した第３の計算値であって、少なくとも前記第１の計算法により計算結果が取得できる領域を含む領域において得られた前記第３の計算値を前記第１の補正モデルにより補正し、補正した値を前記第２化合物の前記物性値の真値としてデータベースに格納し、少なくとも前記第１の計算法により計算結果が取得できない領域を含む領域において、前記第２の計算法により前記第２化合物の物性値として前記取得部が取得した第４の計算値を前記第２の補正モデルにより補正し、補正した値を前記第２化合物の物性値の真値として前記データベースに格納する格納部と、
　を備える、データ処理装置。
　物性値の真値が既知の複数の第１化合物それぞれについて、前記物性値としての第１の計算値を第１の計算法により取得し、前記複数の第１化合物それぞれについて、前記物性値としての第２の計算値を、前記第１の計算法により計算結果が取得できない領域で計算結果を取得可能な第２の計算法により取得する取得部と、
　前記第１の計算値を前記真値に補正する第１の補正モデルと、前記第２の計算値を前記真値に補正する第２の補正モデルとを生成する生成部と、
　物性値の真値が未知の第２化合物について、前記第１の計算法により物性値として前記取得部が取得した第３の計算値であって、少なくとも前記第１の計算法により計算結果が取得できる領域を含む領域において得られた前記第３の計算値を前記第１の補正モデルにより補正し、補正した値を前記第２化合物の前記物性値の真値としてデータベースに格納し、少なくとも前記第１の計算法により計算結果が取得できない領域を含む領域において、前記第２の計算法により前記第２化合物の物性値として前記取得部が取得した第４の計算値を前記第２の補正モデルにより補正し、補正した値を前記第２化合物の物性値の真値として前記データベースに格納する格納部と、
　を備える、データ処理システム。