WO2021251413A1

WO2021251413A1 - 推定装置、推定方法、化学構造式及びプログラム

Info

Publication number: WO2021251413A1
Application number: PCT/JP2021/021850
Authority: WO
Inventors: 隆一郎石谷; 幹阿部
Original assignee: 株式会社 Preferred Networks
Priority date: 2020-06-09
Filing date: 2021-06-09
Publication date: 2021-12-16
Also published as: US20230112275A1; JPWO2021251413A1

Abstract

化学構造式を効率的に推定する。推定装置は、１又は複数のメモリと、１又は複数のプロセッサと、を備える。前記１又は複数のプロセッサは、メタヒューリスティックアルゴリズムにより複数の潜在変数を取得し、前記潜在変数に基づいて、化学構造式を生成し、前記化学構造式に対するスコアを算出する。

Description

推定装置、推定方法、化学構造式及びプログラム

　本開示は、推定装置、推定方法、化学構造式及びプログラムに関する。

　化学構造式の生成を機械学習等のアルゴリズムを用いて行うことが盛んに研究されている。これらの研究により生成されたモデルは、潜在変数等の数学的な記号が与えられた場合に、対応する化学構造式が出力されるものである。このモデルは、複数の化学構造式を出力する場合もあれば、複数の候補から確率的に１又は複数の化学構造式を出力する場合もある。

　これらの手法により、化学構造式の生成自体は可能となったものの、好ましい化学的性質を有する化合物の構造式を自動的に生成するのは困難である。好ましい化学的性質を有する化合物の化学構造式を生成するためには、複数の化学構造式を次々と自動的に生成し、好ましい化学的性質を有する化合物の化学構造式になるまで生成を継続することが必要で有り、これには極めて長い時間が掛かる。

W. Jin, et.al., "Junction Tree Variational Autoencoder for Molecular Graph Generation," 12 Feb. 2018, arXiv:1802.04364, https://arxiv.org/abs/1802.04364

　本開示は、化学構造式の生成を効率化する、推定装置を提供する。

　一実施形態によれば、推定装置は、１又は複数のメモリと、１又は複数のプロセッサと、を備える。前記１又は複数のプロセッサは、前記１又は複数のプロセッサは、メタヒューリスティックアルゴリズムにより複数の潜在変数を取得し、前記潜在変数に基づいて、化学構造式を生成し、前記化学構造式に対するスコアを算出する。

一実施形態に係る推定装置を模式的に示すブロック図。一実施形態に係る推定装置の処理を示すフローチャート。一実施形態に係る推定装置の少なくとも一部の実装を模式的に示すブロック図。一実施形態に係る推定装置の処理を示すフローチャート。一実施形態に係る装置の実装例を示す図。

　以下、図面を参照して本発明の実施形態について説明する。図面及び実施形態の説明は一例として示すものであり、本発明を限定するものではない。

　図１は、本実施形態に係る推定装置を模式的に示すブロック図である。推定装置１は、潜在変数取得部１０と、構造式取得部１２と、スコア算出部１４と、記憶部１６と、を備える。

　潜在変数取得部１０は、構造式取得部１２において使用する潜在変数を取得する。この潜在変数は、多次元の潜在空間の1点を示す座標であってもよい。すなわち、以下の説明においては、潜在空間の1点を示す座標の意味として、潜在変数という用語を用いることがある。この潜在変数には、例えば、隠れベクトル、潜在ベクトルなどが含まれる。

　潜在変数取得部１０は、後述するように、メタヒューリスティックアルゴリズムに基づいて、潜在変数を取得する。本開示において、潜在変数は、スカラーを含んでもよいし、又は、２次元以上のベクトルであるマトリクス、さらにはこれらをより一般化したテンソルを含む概念であってもよい。

　構造式取得部１２は、潜在変数取得部１０が取得した潜在変数に基づいて、化学構造式を取得する。化学構造式は、分子、結晶等の化合物の構造を、例えば、疑似的に２次元で示す。構造式取得部１２は、１つの手法により構造式を推定して取得するのみならず、複数の手法により構造式を推定して取得してもよい。また、相補的な推定を行う手法により構造式の推定を実行してもよい。例えば、化合物の構造は、グラフで表すことができる。

　スコア算出部１４は、構造式取得部１２が取得した化学構造式に対するスコアを算出する。スコアは、例えば、化学構造式で示される化合物が有する化学的性質に基づいて決定される。スコア算出部１４は、例えば、複数の性質から複数のスコアを算出し、これらの複数のスコアから１つのスカラーで示されるスコアを算出してもよい。スコア算出部１４は、記憶部１６に潜在変数及びスコアを紐付けて格納してもよい。

　記憶部１６は、潜在変数取得部１０が取得した潜在変数の情報及びスコアの情報を格納してもよい。この他、記憶部１６には、推定装置１がソフトウェアの処理によりハードウェアで具体的に実現される場合には、当該ソフトウェアの処理を実行するプログラム等（OS等を含む）が格納されていてもよい。記憶部１６は、推定装置１内に備えられてもよいし、推定装置１の外部に設けられてもよい。例えば、記憶部１６は、インターネット等のネットワークを介したサーバ、又は、クラウド上に備えられてもよい。

　推定装置１は、この他に、データを入力する入力インタフェース、結果を外部に出力する出力インタフェースを備えていてもよい。

　次に、各構成について、処理の一例を説明する。

　構造式取得部１２は、例えば、Junction Tree VAE（Variational Autoencoder）、AAE（Adversarial Autoencoder）等の手法に基づいて潜在変数から化学構造式を取得してもよい。例えば、これらの手法に基づいて生成されたモデルに、潜在変数を入力することにより化学構造式を取得する。例えば、Junction Tree VAEのモデルの場合には、56次元の潜在変数を入力して化学構造式を取得し、AAEのモデルの場合には、32次元の潜在変数を入力して化学構造式を取得する。潜在変数は、オートエンコーダで生成されたモデルの中間層、例えば、デコーダの層に入力され、当該モデルは、潜在変数が示す特徴量に基づいた化学構造式を出力する。

　スコア算出部１４は、上記のスコアの１つとして、構造式取得部１２が取得した化学構造式の構造的特徴を計測し、この構造的特徴から化学的性質を取得する。この化学的性質の取得は、例えば、ドッキングシミュレーションにより実行される。スコア算出部１４は、例えば、この化学的性質に基づいてスコアを算出する。例えば、ドッキングシミュレーションによって得られた、ある化合物の位置及び、ポテンシャル関数の少なくとも１つに基づいてスコアを算出してもよい。化合物の位置とは、例えば、あるタンパク質に対して化合物がどのような位置に結合するかを示すものである。より具体的には、スコア算出部１４が、後述するように、種々の手法に基づいてスコアを算出し、このスコアに基づいて、潜在変数取得部１０が種々の最適化法を用いて潜在変数を取得する。

　スコア算出部１４は、化合物の位置だけではなく、化合物の向きを考慮してもよい。化学構造式自体は、１次元または２次元の構造を有するものではあるが、実際には化合物は、３次元構造を有するものである。このため、構造式で示される化合物は、そのドッキングする位置に加え、向き、内部座標も重要な要素となる。このため、スコア算出部１４は、ドッキングする向きを評価の対象としてもよい。例えば、薬剤として用いられる化合物は、タンパク質にどの程度の親和性で結合するかの情報が重要となる。このような場合に、化合物の位置とともに、化合物がどのような配座でタンパク質に結合するかを考慮したスコアを用いて評価することにより、スコアの精度を向上させることが可能となる。

　例えば、ドッキングの評価は、上述した化合物がタンパク質にどのような位置、姿勢（配座を含む）で結合するかを判定し、結合した場合の化学的なエネルギーがどの程度になるかを算出することにより実行される。このドッキングのアルゴリズムに用いる化合物は、Junction Tree VAE、及び、各種化学構造式を生成するAAE等のアルゴリズムに基づいて構造式取得部１２が生成した化合物である。タンパク質に対して、各種アルゴリズムにより生成された化合物が結合した場合に、エネルギーが低いほど、実際に結合する可能性が高いと評価することができる。このため、この結合するためのエネルギーの高さ（低さ）を評価値として用いてもよい。

　すなわち、推定装置１は、一例として、タンパク質と適切に結合する、又は、結合しやすい等の条件を有する「化合物」を探索する。より詳しくは、推定装置１は、ドッキングアルゴリズムを用いて評価を実行し、潜在変数から取得された化合物とタンパク質とが結合する位置、姿勢を考慮した、当該化合物とタンパク質との結合のしやすさを示すスコアを算出する。そして、推定装置１は、このスコアに基づいて、タンパク質と適切に結合することのできる化合物を探索する。

　スコア算出部１４は、構造式取得部１２が取得した化合物について、当該化合物が有する、又は、有するであろう化学的性質等に基づいて化合物を評価し、スコアを算出する。このスコアは、多目的で利用されるべく出力されてもよい。すなわち、当該合成物が利用される状況等に基づいて、適切に定義された算出方法に基づいて算出されてもよい。

　図２は、本実施形態のフローチャートの一例である。

　まず、潜在変数取得部１０は、後述するように、メタヒューリスティックアルゴリズムに基づいて潜在変数を取得する（S100）。潜在変数取得部１０は、すでに得られているスコアに基づいて、より望ましいスコアが取得できるような潜在変数を取得する。

　次に、構造式取得部１２は、取得された潜在変数から化学構造式を取得する（S102）。上述したように、構造式取得部１２は、１つのモデルから構造式を取得してもよいし、複数のモデルから構造式を取得してもよい。複数のモデルから構造式を取得する場合、S100において、潜在変数取得部１０は、使用するモデルに適切な入力となる潜在変数を取得する。この化学構造式の生成は、上述したように、種々のアルゴリズムを用いることができる。潜在変数取得部１０は、構造式取得部１２で用いられるアルゴリズムに適した潜在変数を取得する。

　次に、スコア算出部１４は、取得された化学構造式に対するスコアを算出する（S104）。スコア算出部１４は、上述した評価方法に基づいて、ドッキングスコアを算出する。

　次に、推定装置１は、適切に情報の出力を行う（S106）。例えば、推定装置１は、ユーザが感知できる情報である視覚情報等にデータを変換して化学構造式及びスコアを取得してもよい。例えば、推定装置１は、潜在変数及びスコアを記憶部１６に出力してもよい。この他、出力インタフェースを介して適切な箇所に、上記で得られた潜在変数、化学構造式、スコアのうち適切な情報を出力してもよい。

　本実施形態は、例えば、製薬分野に応用することができる。例えば、製薬に応用する場合、スコア算出部１４において人間、動物に対して毒性のあるもの等を引き構造が存在するものとしてスコアを調整してもよい。潜在変数取得部１０が、このスコアに基づいて後述の最適化をすることにより、最終的に忌避構造が回避できるような潜在変数を取得する構成としてもよい。

　スコア算出に用いる化学的性質としては、上記の医薬、農薬等の活性の他、化粧品、機能性材料としての性能をスコアにすることも可能である。これらには限られず、分子の構造に関する推定が必要となるものであれば、適切に応用することが可能である。

　次に、潜在変数をどのように取得するかについて、より具体的な内容を説明する。

　潜在変数取得部１０は、メタヒューリスティックアルゴリズムに基づいて、複数の潜在変数を取得する。

　構造式取得部１２は、メタヒューリスティックアルゴリズムに基づいて潜在変数取得部１０が取得した潜在変数に基づいて、複数の化学構造式を取得する。

　スコア算出部１４は、メタヒューリスティックアルゴリズムに基づいて構造式取得部１２が取得した複数の化学構造式に対するスコアを算出する。スコア算出部１４は、構造式取得部１２が取得した複数の化学構造式を並列に演算する。さらに、スコア算出部１４は、複数の化合物のそれぞれに対して、様々なコンフォメーションに関するドッキングスコアを並列して演算する。

　すなわち、スコア算出部１４は、メタヒューリスティックアルゴリズムにより生成された複数の化学構造式のそれぞれについて、複数のドッキングスコアを並列して演算する。このように、本実施形態に係る化合物の推定は、同じタイミングで複数の化合物に対して効率よく実行される。

　これらの潜在変数取得部１０、構造式取得部１２及びスコア算出部１４における処理を、並列処理として実現してもよい。この並列処理は、例えば、GPU（Graphics Processing Unit）等を用いて実行されてもよい。並列処理は、必ずしもGPUで処理されるものではなく、CPU（Central Processing Unit）等の汎用的な処理回路を用いてもよいし、ASIC（Application Specific Integrated Circuit）等の専用回路を用いてもよいし、FPGA（Field Programable Gate Array）等のプログラマブルな処理回路を用いてもよい。

　上述のメタヒューリスティックアルゴリズムの一例として、粒子群最適化（PSO：Particle Swarm Optimization）を用いてもよい。PSO以外であっても、例えば、人工蜂コロニー（ABC：Artificial Bee Colony）法、焼きなまし（SA：Simulated Annealing）法等のメトロポリス法／モンテカルロ法、山登り（HC：Hill Climbing）法と導関数を用いないその応用手法、蟻コロニー最適化（ACO：Ant Colony Optimization）法、ハーモニーサーチ（HS：Harmony Searcy）、カッコウ探索（CS：Cuckoo Search）、渦最適化（Spiral Optimization）法、ホタルアルゴリズム（Firefly Algorithm）、遺伝アルゴリズム（GA：Genetic Algorithm）／免疫アルゴリズム（Immune Algorithm）／共分散行列適応進化戦略（CMA-ES：Covariance Matrix Adaptation Evolution Strategy）等の進化戦略（ES：Evolution Strategy）、アメーバ法（Amoeba Method／Nelder-Mead Method）、等種々のアルゴリズムを用いてもよい。複数の演算コアにより並列処理を実現することにより、これらの演算効率を向上することが可能である。

　図３は、本実施形態に係る推定装置１の実装の一部である演算装置について示す模式図である。演算装置３は、制御部３０と、演算部３２と、を備える。また、図示しない記憶部をそれぞれが有していてもよいし、共有して利用できるメモリ領域を有していてもよい。さらに、バス等の通信経路は、適切に備えられるものとする。

　制御部３０は、演算処理の制御を実行する。この制御部３０は、例えば、電子回路を備えて形成される。

　演算部３２は、制御部３０からの要求に基づいて、演算処理を実行する。図に示すように、演算部３２は、複数の演算コア3200、3201、・・・、320n、3210、3211、・・・、32m0、32m1、・・・、32mnを有していてもよい。一例として、m × nの演算コアを有するグリッド状に並列されている構成としたが、これには限られない。

　これらの演算コアは、複数のスレッドが同期して実行される複数のグループに分けられていてもよい。同一グループに複数のグループは、アトミックな処理により、所定の複数グループ間でさらに同期するものであってもよい。さらには、全てのグループ又は演算コアが同期して演算を実行する構成であってもよい。このように、演算部３２において、マルチスレッドによる処理が、適切に同期しながら実行されてもよい。

　複数の演算コアが同期して実行されることにより、同等の演算処理を複数の演算コアにより実行することができる。例えば、メタヒューリスティックアルゴリズムを実行する場合、複数の演算コアのそれぞれに異なるパラメータを付与した情報を与えることにより、異なる演算結果を出力することが可能となる。

　一部又は全部の演算コア、及び、制御部のうち少なくとも複数の構成に共有して用いられるキャッシュ等のメモリが備えられてもよい。このキャッシュ等のメモリは、所定数の演算コアごとに共有しているものであってもよい。例えば、所定の演算コアにおいてアクセスできるメモリ領域があってもよいし、制御部（ホスト側）からもアクセスできるメモリ領域があってもよい。キャッシュの読み出し時には、バンクの競合を抑制できる制御が実行されてもよい。

　これらの演算コアのそれぞれにおいて、例えば、潜在変数取得部１０、構造式取得部１２及びスコア算出部１４が実装されてもよい。これらの構成要素は、上述したように、一部又は全部の所定の演算コア間において同期して実行されてもよい。

　演算部３２に属する複数の演算コアは、制御部３０により処理が実行される。図３においては、制御部３０に対して１つの演算コアの集合が演算部３２として備えられているがこれには限られない。例えば、複数の異なる演算コアの集合に対して、制御部３０が演算処理の制御を実行することもできる。また、制御部３０と演算部３２は、同一のGPU等のアクセラレータ等に備えられていてもよい。別の例として、制御部３０は、演算部３２とは異なるホストコンピュータからアクセラレータ等の制御を行ってもよい。この場合、ホストの制御部と、アクセラレータ等のクライアントの制御部が多段的に備えられる構成であってもよい。例えば、GPUの場合では、1つの演算コアにおいて1つのスレッドが割り当てられて1つの演算を行うことが多いが、このような構成には限られず、1つの演算コアにおいても並列に演算可能である構成を有する演算部を用いてもよい。

　いずれの場合においても、アクセラレータ等は、ヘテロジニアス又はホモジニアスのマルチコアプロセッサ、メニーコアプロセッサであってもよい。

　複数の演算コアに対する処理は、SIMD（Single Instruction, Multiple Data）命令により実行されてもよいし、MIMD（Multiple Instruction, Multiple Data）命令、又は、MISD（Multiple Instruction, Single Data）命令により実行されてもよいし、これらの命令を実行する処理に適切に組み合わせて用いて実行されるものであってもよい。また、これらの演算コアは、密結合であってもよいし、疎結合であってもよいし、さらにはこれらが同時に存在する実装であってもよい。例えば、演算部３２は、複数のGPUを各種通信回線で接続したグリッドコンピューティングとして実現され、複数のGPUに備えられる複数の演算コアにより形成されてもよい。

　図４は、本実施形態に係る推定装置１の処理を示すフローチャートである。

　まず、潜在変数取得部１０は、潜在変数を取得する（S300）。上述したように、潜在変数取得部１０は、演算コアにおいて実行されるように実装される。制御部３０は、メタヒューリスティックアルゴリズムに基づいて、複数の潜在変数を並列に取得できるように、演算部３２の各演算コアを制御する。

　処理における最初の演算においては、例えば、複数の乱数を潜在変数として設定してもよい。また、別の例として、すでに知見の得られている化学構造式等の情報に基づいた複数の潜在変数を設定してもよい。この情報は、例えば、記憶部１６等に格納されている潜在変数とスコアとの紐付け情報や、又は、潜在変数と化学構造式のデータベース等を備え、そのデータベースのデータを照合して抽出してもよい。

　PSOを潜在変数の探索に用いる場合には、初期値として設定した潜在変数のそれぞれに対して、潜在変数に対する速度ベクトルをそれぞれに乱数で設定してもよい。そして、初期値として設定された潜在変数に対して、最初の速度による潜在変数の更新をしてもよい。例えば、PSOの場合、以下のように潜在変数及び速度ベクトルの更新が実行される。

ここで、xは潜在変数、vは速度、wは慣性定数、c₁、c₂は群のうちでよい位置に向かう粒子の割合、r₁、r₂は[0, 1]の乱数、x^_pは着目粒子のそれまでのループにおける最適なベクトル、x^_gは群全体としてそれまでのループにおける最適なベクトルである。

　ループの２回目以降においては、例えば、メタヒューリスティックアルゴリズムとしてPSO法を用いる場合には、潜在変数は、前のループで取得された化学構造式（配座を含むグラフデータ）と、計算されたスコアデータとに基づいた潜在変数を、制御部３０からの制御により生成する。例えば、ドッキングスコアを用いて、上記の式のx^_p、x^_gを抽出して、速度v及び潜在変数xを更新する。なお、例えば、PSOにおけるスコアとx^_p、x^_gとの関係のように必要となるデータは、適切に紐付けられて、各ステップにおいて記憶部１６に格納されてもよい。

　制御部３０は、上述したように、前のループまでにおいて取得されているドッキングスコアと、現時点で取得されている潜在変数（化学構造式）に基づいて、複数の潜在変数を取得するように、それぞれの演算コアにパラメータを設定する。

　また、PSO以外のメタヒューリスティックアルゴリズムにおいても同様に、制御部３０は、直前のループ、又は、さらに前のループにより取得された評価値（ドッキングスコア）と潜在変数に基づいて、それぞれの演算コアにおいてそれぞれの潜在変数を算出するように制御する。このように、演算部３２に備えられる複数の演算コアを用いることにより、潜在変数の探索を並列に実行する。

　次に、各演算コアにおいて、構造式取得部１２は、取得した潜在変数に基づいて化学構造式を取得する（S302）。各潜在変数に対する化学構造式の取得は、当該潜在変数を取得した演算コア内において閉じた状態で実行されてもよい。このように実行することにより、複数の化学構造式（配座を含む）を並列に取得することが可能となる。

　次に、スコア算出部１４は、構造式取得部１２が取得した構造式の評価を実行する（S304）。この評価は、上述したように化学構造式に対する立体構造、原子の配置、配座、内部座標等の情報に基づいたドッキングスコアを算出することにより実行される。このスコアの算出は、後述するように、並列演算により処理される。

　次に、推定装置１は、記憶部１６に取得されたデータを格納する（S308）。推定装置１は、後の処理に必要となるデータ、及び、最終的な最適解となる可能性のあるデータを少なくとも記憶部１６に格納する。このステップにおいて、この他のデータの格納を排除するものではない。

　次に、推定装置１は、最適化が終了した、すなわち、適切であると化学構造式が推定されたか否かを判断する（S312）。この判断は、例えば、評価値が所定の数値よりも下回った、ループの繰り返し回数が所定数に到達した、又は、評価値が所定の数値よりも下回る化学構造式が所定数以上探索された、等の条件に基づいてされる。もちろん、評価値が高いほどよい場合には、下回る場合ではなく、上回る場合を終了条件とする。これらの条件は、一例としてあげたものであり、これらの条件以外の条件で処理を終了してもよい。

　処理が終了していない場合（S312：NO）、S300からの処理を繰り返す。

　処理が終了している場合（S312：YES）、推定装置１は、データを出力して処理を終了する（S314）。

　以上が推定装置１の全体的な処理の流れの説明である。以下、ドッキングスコア計算の並列処理について、モンテカルロ法及びBFGS法を用いた場合を一例として、より詳しく説明する。なお、この説明は、本開示における発明の内容を限定するものではなく、並列に複数の化合物からの処理を行うことが可能である形態であればよい。

　これらの手法は、一例として示したものであり、適切にそれぞれの化学構造式に対する局所解ではない最適なドッキングスコアを算出する手法であればよい。例えば、モンテカルロ法と準ニュートン法の一種であるBFGS法を用いる場合には、モンテカルロ法でグローバルな探索を行うとともに、モンテカルロ法で選択された状態（例えば、座標値、配座等）に対して局所的に最適な解をBFGS法で探索する。このような手法は、逐次的に行うと、時間的なコストが大きいが、局所解を求める演算を並列演算とすることにより、時間的なコストを削減する。

　なお、一例として、ドッキングスコアの勾配を用いるBFGS法を用いているが、勾配を用いない方法であってもよい。また、以下の説明においては、モンテカルロ法は逐次的に行うが、探索を並列に実行、すなわち、BFGS法の基準となる選択を複数個並列に実行してもよい。

　化合物とその立体構造をxとし、評価値を求める関数、すなわち、化合物の座標値（例えば、原子の座標値でも内部座標値でもよい）からドッキングスコアを求める関数をf(x)とすると、勾配は以下の式により算出される。f(x)は、入力をベクトルとするスカラー関数である。

ここで、∇は、ベクトルxに対する勾配を求める微分であることを示す。

B_kをヘッセ行列の近似行列として、探索方向p_kを(4)式に基づいて算出する。ここでkは、ループのイテレーション数を示す。

(4)式を変形すると(5)式のように書ける。すなわち、ループ内において基準となる座標値に対して、探索方向が(5)式により定義される。この式は、評価値を下げる方向に向かうベクトルを取得する。例えば、x_kは、前のイテレーションで取得された最適なベクトルであってもよい。このB_k ^-1は、(5)式によらず、直接的に求められてもよい。B又はBの逆行列は、例えば、BFGS法のB公式又はH公式に基づいて算出されてもよい。

　このpを用いて、複数の演算コアは、それぞれ座標値を取得する。例えば、制御部３０においてpが算出された後、それぞれの演算コアにおいて、異なる潜在変数を取得する。

例えば、(6)式に基づいて、それぞれの演算コアは、座標値を取得する。iは、演算コアの番号であり、例えばn個の演算コアに対して同じ探索方向に対して座標値を取得する場合には、i = 0, 1, … , nである。このiを用いて、一例として、以下のようにそれぞれの演算コアは、それぞれの座標値を取得する。

　例えば、(7)式に示すように、α_i = 2^-iとしてもよい。この場合、探索方向pに対して1 / 2を乗じたものを演算コア3201において取得し、探索方向pに対して1 / 4を乗じたものを演算コア3202において取得して新たな潜在変数として算出する。このような算出の制御を、制御部３０が実行する。

　なお、α_iの取り方は、一例として示したものであり、α_iとして2以外のべき乗、例えば、α_i = (√2)^-iとしてもよい。別の例として、べき乗ではなくてもよく、所定の距離に対してx_kから均等に分割したもの（jを分割数（並列数）として、α_i = i / j）、単純にiの逆数（α_i = 1 / i）等であってもよいし、また、対数等を用いてもよいし、この他の適切に局所探索をできる手法であってもよい。

　各演算コアは、(7)式に基づいて座標値を算出した後に、それぞれの座標値から化学構造式を取得し、ドッキングスコアを算出する。これは、以下の式により表すことができる。

すなわち、各演算コアにおいて、潜在変数取得部１０、構造式取得部１２、スコア算出部１４が実装され、評価値が算出される。

　この実装は、例えば、機械語、中間コード（バイトコード）、又は、アスキーにより記述された実行時にオンラインコンパイルされる実行ファイルにより実装され、制御部３０により各演算コアにおいて実行されるように制御されてもよい。

　上述したように、演算コアは、並列演算を行うことが可能である。このため、異なる複数の潜在変数をメタヒューリスティックアルゴリズムにより取得し、それぞれの潜在変数に対する化学構造式の複数のコンフォメーションにおける評価値（ドッキングスコア）の算出を並列して実行することが可能となる。

　例えば、上記のようにPSOと、モンテカルロ法と、BFGS法と、を用いる場合、PSOにおいて複数の潜在変数を取得して複数の化学構造式を並列に推定し、モンテカルロ法により選択した当該化学構造式の座標値に関してBFGS法を用いて複数の座標値における評価値f(x)を並列して算出して、それらをモンテカルロ法での評価値として利用する。具体的な例として、評価値f(x)を最小とする(6)式のαを求めるステップを、逐次計算ではなく並列計算とすることができる。このことにより、1つの化合物における座標値を基準とした局所的な最適値を並列に探索し、さらに、これを複数の化合物において並列に探索することにより、複数の化合物に対する評価について高速な演算処理を実行することが可能となる。

　例えば、逐次計算によれば、最大の演算時間は、全てのαに対して演算をすること、すなわち、上記の例ではn × (1演算時間)となり、平均的には、n × (1演算時間) / 2となる。一方で、上記のように並列演算を実行することにより、(1演算時間)で処理することが可能となる。

　また、n個の評価値が算出された後に、最小値となる潜在変数を探索する場合にも、複数の演算コアにより並列演算を実行することにより、統計的に高速化することが可能となる。例えば、逐次的に最小値を探索する場合には、O(n)の比較演算時間が必要となる。一方で、SIMDによる単純な並列演算であってもO(log₂ n)とすることもできるし、アルゴリズムによっては、複数の演算コアを用いた並列演算を実行することにより、これ以下に最適化することも可能である。

　これらの演算時間の差は、nが大きくなるほど顕著な差となる。一般的に1つの化学構造式に対する原子の位置、配座等の座標値は、少ない数ではない。このため、nは、ある程度大きな数字になることが想定される。このような場合に、上記の並列演算を実行することにより、演算時間の短縮を実現することが可能となる。また、並列に演算を行うことにより、より広範囲、よりサンプリングレートの高い探索を実現することも可能となり、安定した最適な解を取得することができる。

　PSOにおいては、複数の化合物に対して速度、位置を更新しながら処理を実行する。本実施形態の推定装置１によれば、この複数の化合物の処理を並列演算とすることにより、1つめの並列化を実現する。PSO等のメタヒューリスティックアルゴリズムを用いることにより、化合物の構造生成に用いる潜在空間において、局所解に陥ることを回避するグローバルな探索を実現できる。例えば、PSOの粒子をm個の群とすると、化合物ごとに演算、すなわち、m並列演算を行うことにより、潜在空間におけるグローバルな探索を並列化する。例えばPSOでは、粒子の数が多くすることにより局所解に陥る可能性を減少することができる。

　PSOにおける1つの化合物に関する演算においては、上述に示した例のように、モンテカルロ法が実行されるが、モンテカルロ法における次の座標値の候補となる座標値に対しての局所的な探索をBFGS法により実行される。この例として示されたBFGS法は、n並列演算により実行される。このため、全体としては、m × nの並列演算を実現することが可能となる。

　PSOにより取得された化学構造式は、どのような立体配置・配座で標的たんぱく質に結合するかわからないため、化合物がとりうる立体配置・配座の空間をなるべく広範囲にわたって探索し、より正確なドッキングスコアを算出することが望ましい。この立体構造の空間における探索に、一例として、モンテカルロ法が用いられる。

　モンテカルロ法を採用することにより、1つの化学構造式がとりうる立体構造空間におけるグローバルな探索が実現できる。ここで、このモンテカルロ法で得られた解の候補の精度をさらに向上させるために、BFGS法が用いられる。

　モンテカルロ法により取得された座標値に対して、スコア関数計算を実行し、スコアの勾配を算出する。そして、この勾配に基づいて、BFGS法により、n並列処理を実行する。BFGS法を実行することによりモンテカルロ法による次の座標値の候補のより精度の高い評価値を取得することができる。

　並列に演算された複数のドッキングスコアから、BFGS法の結果である最適なドッキングスコアを取得する。このBFGS法により取得されたドッキングスコアに基づいて、モンテカルロシミュレーションにより、最適なドッキングスコアの演算が繰り返される。

　モンテカルロシミュレーションの終了条件を満たすと、1つの化合物に対する精度の高いドッキングスコアが取得できる。このモンテカルロシミュレーションの結果を用いて、PSOにより、当該化合物に対する位置、速度が更新される。この位置、速度の更新は、並列演算により、複数の化合物のそれぞれにおいて実行される。そして、必要であれば、PSOの演算が繰り返される。

　本実施形態では、このPSOによるm並列と、BFGS法によるn並列を併せて実行することにより、高速な演算を実現している。

　以上のように、本実施形態によれば、推定装置は、より高速に、より安定した、適切な化学構造式を推定することが可能となる。

　なお、上述したように、本実施形態においては、メタヒューリスティックアルゴリズムの一例としてPSOを用いた解法を説明したが、PSO以外のメタヒューリスティックアルゴリズムであっても、同様に多数の化学構造式の推定を並列に実現することが可能となる。

　上記では、一例としてPSOとBFGS法とを並列処理することを一例として記載したが、さらに、モンテカルロ法も並列に処理してもよい。例えば、モンテカルロシミュレーションにおける1ステップにおいて、複数の座標値に対して並列処理をして検索をしてもよい。例えば、この並列処理をl並列とすると、上記の処理は、m × l × nの並列処理を実行することとなる。例えば、山登り法を用いる場合には、検索を並列処理で実行してBFGS法により算出されたスコアを比較することにより、次の座標値をより高速に探索することが可能である。例えば、SA法を用いる場合には、検索を並列処理で実行し、温度の影響を加味して重み付けした各座標値のドッキングスコアを探索することにより、高速に演算を実行することができる。

　前述した実施形態における各装置（推定装置１又は訓練装置２）の一部又は全部は、ハードウェアで構成されていてもよいし、CPU（Central Processing Unit）、又はGPU（Graphics Processing Unit）等が実行するソフトウェア（プログラム）の情報処理で構成されてもよい。ソフトウェアの情報処理で構成される場合には、前述した実施形態における各装置の少なくとも一部の機能を実現するソフトウェアを、フレキシブルディスク、CD-ROM（Compact Disc-Read Only Memory）又はUSB（Universal Serial Bus）メモリ等の非一時的な記憶媒体（非一時的なコンピュータ可読媒体）に収納し、コンピュータに読み込ませることにより、ソフトウェアの情報処理を実行してもよい。また、通信ネットワークを介して当該ソフトウェアがダウンロードされてもよい。さらに、ソフトウェアがASIC（Application Specific Integrated Circuit）又はFPGA（Field Programmable Gate Array）等の回路に実装されることにより、情報処理がハードウェアにより実行されてもよい。

ソフトウェアを収納する記憶媒体の種類は限定されるものではない。記憶媒体は、磁気ディスク、又は光ディスク等の着脱可能なものに限定されず、ハードディスク、又はメモリ等の固定型の記憶媒体であってもよい。また、記憶媒体は、コンピュータ内部に備えられてもよいし、コンピュータ外部に備えられてもよい。

　図５は、前述した実施形態における各装置（推定装置１又は訓練装置２）のハードウェア構成の一例を示すブロック図である。各装置は、一例として、プロセッサ７１と、主記憶装置７２（メモリ）と、補助記憶装置７３（メモリ）と、ネットワークインタフェース７４と、デバイスインタフェース７５と、を備え、これらがバス７６を介して接続されたコンピュータ７として実現されてもよい。

　図５のコンピュータ７は、各構成要素を一つ備えているが、同じ構成要素を複数備えていてもよい。また、図５では、１台のコンピュータ７が示されているが、ソフトウェアが複数台のコンピュータにインストールされて、当該複数台のコンピュータそれぞれがソフトウェアの同一の又は異なる一部の処理を実行してもよい。この場合、コンピュータそれぞれがネットワークインタフェース７４等を介して通信して処理を実行する分散コンピューティングの形態であってもよい。つまり、前述した実施形態における各装置（推定装置１又は訓練装置２）は、１又は複数の記憶装置に記憶された命令を１台又は複数台のコンピュータが実行することで機能を実現するシステムとして構成されてもよい。また、端末から送信された情報をクラウド上に設けられた１台又は複数台のコンピュータで処理し、この処理結果を端末に送信するような構成であってもよい。

　前述した実施形態における各装置（推定装置１又は訓練装置２）の各種演算は、１又は複数のプロセッサを用いて、又は、ネットワークを介した複数台のコンピュータを用いて、並列処理で実行されてもよい。また、各種演算が、プロセッサ内に複数ある演算コアに振り分けられて、並列処理で実行されてもよい。また、本開示の処理、手段等の一部又は全部は、ネットワークを介してコンピュータ７と通信可能なクラウド上に設けられたプロセッサ及び記憶装置の少なくとも一方により実行されてもよい。このように、前述した実施形態における各装置は、１台又は複数台のコンピュータによる並列コンピューティングの形態であってもよい。

　プロセッサ７１は、コンピュータの制御装置及び演算装置を含む電子回路（処理回路、Processing circuit、Processing circuitry、CPU、GPU、FPGA又はASIC等）であってもよい。また、プロセッサ７１は、専用の処理回路を含む半導体装置等であってもよい。プロセッサ７１は、電子論理素子を用いた電子回路に限定されるものではなく、光論理素子を用いた光回路により実現されてもよい。また、プロセッサ７１は、量子コンピューティングに基づく演算機能を含むものであってもよい。

　プロセッサ７１は、コンピュータ７の内部構成の各装置等から入力されたデータやソフトウェア（プログラム）に基づいて演算処理を行い、演算結果や制御信号を各装置等に出力することができる。プロセッサ７１は、コンピュータ７のOS（Operating System）や、アプリケーション等を実行することにより、コンピュータ７を構成する各構成要素を制御してもよい。

　前述した実施形態における各装置（推定装置１及び／又は訓練装置２）は、１又は複数のプロセッサ７１により実現されてもよい。ここで、プロセッサ７１は、１チップ上に配置された１又は複数の電子回路を指してもよいし、２つ以上のチップあるいは２つ以上のデバイス上に配置された１又は複数の電子回路を指してもよい。複数の電子回路を用いる場合、各電子回路は有線又は無線により通信してもよい。

　主記憶装置７２は、プロセッサ７１が実行する命令及び各種データ等を記憶する記憶装置であり、主記憶装置７２に記憶された情報がプロセッサ７１により読み出される。補助記憶装置７３は、主記憶装置７２以外の記憶装置である。なお、これらの記憶装置は、電子情報を格納可能な任意の電子部品を意味するものとし、半導体のメモリでもよい。半導体のメモリは、揮発性メモリ、不揮発性メモリのいずれでもよい。前述した実施形態における各装置（推定装置１又は訓練装置２）において各種データを保存するための記憶装置は、主記憶装置７２又は補助記憶装置７３により実現されてもよく、プロセッサ７１に内蔵される内蔵メモリにより実現されてもよい。例えば、前述した実施形態における記憶部１６は、主記憶装置７２又は補助記憶装置７３により実現されてもよい。

　記憶装置（メモリ）１つに対して、複数のプロセッサが接続（結合）されてもよいし、単数のプロセッサが接続されてもよい。プロセッサ１つに対して、複数の記憶装置（メモリ）が接続（結合）されてもよい。前述した実施形態における各装置（推定装置１又は訓練装置２）が、少なくとも１つの記憶装置（メモリ）とこの少なくとも１つの記憶装置（メモリ）に接続（結合）される複数のプロセッサで構成される場合、複数のプロセッサのうち少なくとも１つのプロセッサが、少なくとも１つの記憶装置（メモリ）に接続（結合）される構成を含んでもよい。また、複数台のコンピュータに含まれる記憶装置（メモリ））とプロセッサによって、この構成が実現されてもよい。さらに、記憶装置（メモリ）がプロセッサと一体になっている構成（例えば、L1キャッシュ、L2キャッシュを含むキャッシュメモリ）を含んでもよい。

　ネットワークインタフェース７４は、無線又は有線により、通信ネットワーク８に接続するためのインタフェースである。ネットワークインタフェース７４は、既存の通信規格に適合したもの等、適切なインタフェースを用いればよい。ネットワークインタフェース７４により、通信ネットワーク８を介して接続された外部装置９Ａと情報のやり取りが行われてもよい。なお、通信ネットワーク８は、WAN（Wide Area Network）、LAN（Local Area Network）、PAN（Personal Area Network）等のいずれか、又は、それらの組み合わせであってよく、コンピュータ７と外部装置９Ａとの間で情報のやりとりが行われるものであればよい。WANの一例としてインターネット等があり、LANの一例としてIEEE802.11やイーサネット（登録商標）等があり、PANの一例としてBluetooth（登録商標）やNFC（Near Field Communication）等がある。

　デバイスインタフェース７５は、外部装置９Ｂと直接接続するUSB等のインタフェースである。

　外部装置９Ａは、コンピュータ７とネットワークを介して接続されている装置である。外部装置９Ｂは、コンピュータ７と直接接続されている装置である。

　外部装置９Ａ又は外部装置９Ｂは、一例として、入力装置であってもよい。入力装置は、例えば、カメラ、マイクロフォン、モーションキャプチャ、各種センサ等、キーボード、マウス、又は、タッチパネル等のデバイスであり、取得した情報をコンピュータ７に与える。また、パーソナルコンピュータ、タブレット端末、又は、スマートフォン等の入力部とメモリとプロセッサを備えるデバイスであってもよい。

　また、外部装置９Ａ又は外部装置９Ｂは、一例として、出力装置でもよい。出力装置は、例えば、LCD（Liquid Crystal Display）、CRT（Cathode Ray Tube）、PDP（Plasma Display Panel）、又は、有機EL（Electro Luminescence）パネル等の表示装置であってもよいし、音声等を出力するスピーカ等であってもよい。また、パーソナルコンピュータ、タブレット端末、又は、スマートフォン等の出力部とメモリとプロセッサを備えるデバイスであってもよい。

　また、外部装置９Ａ又は外部装置９Ｂは、記憶装置（メモリ）であってもよい。例えば、外部装置９Ａは、ネットワークストレージ等であってもよく、外部装置９Ｂは、HDD等のストレージであってもよい。

　また、外部装置９Ａ又は外部装置９Ｂは、前述した実施形態における各装置（推定装置１又は訓練装置２）の構成要素の一部の機能を有する装置でもよい。つまり、コンピュータ７は、外部装置９Ａ又は外部装置９Ｂの処理結果の一部又は全部を送信又は受信してもよい。

　本明細書（請求項を含む）において、「a、b及びcの少なくとも1つ（一方）」又は「a、b又はcの少なくとも1つ（一方）」の表現（同様な表現を含む）が用いられる場合は、a、b、c、a-b、a-c、b-c、又は、a-b-cのいずれかを含む。また、a-a、a-b-b、a-a-b-b-c-c等のように、いずれかの要素について複数のインスタンスを含んでもよい。さらに、a-b-c-dのようにdを有する等、列挙された要素（a、b及びc）以外の他の要素を加えることも含む。

　本明細書（請求項を含む）において、「データを入力として／データに基づいて／に従って／に応じて」等の表現（同様な表現を含む）が用いられる場合は、特に断りがない場合、各種データそのものを入力として用いる場合や、各種データに何らかの処理を行ったもの（例えば、ノイズ加算したもの、正規化したもの、各種データの中間表現等）を入力として用いる場合を含む。また「データに基づいて／に従って／に応じて」何らかの結果が得られる旨が記載されている場合、当該データのみに基づいて当該結果が得られる場合を含むとともに、当該データ以外の他のデータ、要因、条件、及び／又は状態等にも影響を受けて当該結果が得られる場合をも含み得る。また、「データを出力する」旨が記載されている場合、特に断りがない場合、各種データそのものを出力として用いる場合や、各種データに何らかの処理を行ったもの（例えば、ノイズ加算したもの、正規化したもの、各種データの中間表現等）を出力とする場合も含む。

　本明細書（請求項を含む）において、「接続される（connected）」及び「結合される（coupled）」との用語が用いられる場合は、直接的な接続／結合、間接的な接続／結合、電気的（electrically）な接続／結合、通信的（communicatively）な接続／結合、機能的（operatively）な接続／結合、物理的（physically）な接続／結合等のいずれをも含む非限定的な用語として意図される。当該用語は、当該用語が用いられた文脈に応じて適宜解釈されるべきであるが、意図的に或いは当然に排除されるのではない接続／結合形態は、当該用語に含まれるものして非限定的に解釈されるべきである。

　本明細書（請求項を含む）において、「AがBするよう構成される（A configured to B）」との表現が用いられる場合は、要素Aの物理的構造が、動作Bを実行可能な構成を有するとともに、要素Aの恒常的（permanent）又は一時的（temporary）な設定（setting/configuration）が、動作Bを実際に実行するように設定（configured/set）されていることを含んでよい。例えば、要素Aが汎用プロセッサである場合、当該プロセッサが動作Bを実行可能なハードウェア構成を有するとともに、恒常的（permanent）又は一時的（temporary）なプログラム（命令）の設定により、動作Bを実際に実行するように設定（configured）されていればよい。また、要素Aが専用プロセッサ又は専用演算回路等である場合、制御用命令及びデータが実際に付属しているか否かとは無関係に、当該プロセッサの回路的構造が動作Bを実際に実行するように構築（implemented）されていればよい。

　本明細書（請求項を含む）において、含有又は所有を意味する用語（例えば、「含む（comprising/including）」及び有する「（having）等）」が用いられる場合は、当該用語の目的語により示される対象物以外の物を含有又は所有する場合を含む、open-endedな用語として意図される。これらの含有又は所有を意味する用語の目的語が数量を指定しない又は単数を示唆する表現（a又はanを冠詞とする表現）である場合は、当該表現は特定の数に限定されないものとして解釈されるべきである。

　本明細書（請求項を含む）において、ある箇所において「１つ又は複数（one or more）」又は「少なくとも１つ（at least one）」等の表現が用いられ、他の箇所において数量を指定しない又は単数を示唆する表現（a又はanを冠詞とする表現）が用いられているとしても、後者の表現が「１つ」を意味することを意図しない。一般に、数量を指定しない又は単数を示唆する表現（a又はanを冠詞とする表現）は、必ずしも特定の数に限定されないものとして解釈されるべきである。

　本明細書において、ある実施例の有する特定の構成について特定の効果（advantage/result）が得られる旨が記載されている場合、別段の理由がない限り、当該構成を有する他の１つ又は複数の実施例についても当該効果が得られると理解されるべきである。但し当該効果の有無は、一般に種々の要因、条件、及び／又は状態等に依存し、当該構成により必ず当該効果が得られるものではないと理解されるべきである。当該効果は、種々の要因、条件、及び／又は状態等が満たされたときに実施例に記載の当該構成により得られるものに過ぎず、当該構成又は類似の構成を規定したクレームに係る発明において、当該効果が必ずしも得られるものではない。

　本明細書（請求項を含む）において、「最大化（maximize）」等の用語が用いられる場合は、グローバルな最大値を求めること、グローバルな最大値の近似値を求めること、ローカルな最大値を求めること、及びローカルな最大値の近似値を求めることを含み、当該用語が用いられた文脈に応じて適宜解釈されるべきである。また、これら最大値の近似値を確率的又はヒューリスティックに求めることを含む。同様に、「最小化（minimize）」等の用語が用いられる場合は、グローバルな最小値を求めること、グローバルな最小値の近似値を求めること、ローカルな最小値を求めること、及びローカルな最小値の近似値を求めることを含み、当該用語が用いられた文脈に応じて適宜解釈されるべきである。また、これら最小値の近似値を確率的又はヒューリスティックに求めることを含む。同様に、「最適化（optimize）」等の用語が用いられる場合は、グローバルな最適値を求めること、グローバルな最適値の近似値を求めること、ローカルな最適値を求めること、及びローカルな最適値の近似値を求めることを含み、当該用語が用いられた文脈に応じて適宜解釈されるべきである。また、これら最適値の近似値を確率的又はヒューリスティックに求めることを含む。

　本明細書（請求項を含む）において、複数のハードウェアが所定の処理を行う場合、各ハードウェアが協働して所定の処理を行ってもよいし、一部のハードウェアが所定の処理の全てを行ってもよい。また、一部のハードウェアが所定の処理の一部を行い、別のハードウェアが所定の処理の残りを行ってもよい。本明細書（請求項を含む）において、「１又は複数のハードウェアが第１の処理を行い、前記１又は複数のハードウェアが第２の処理を行う」等の表現が用いられている場合、第１の処理を行うハードウェアと第２の処理を行うハードウェアは同じものであってもよいし、異なるものであってもよい。つまり、第１の処理を行うハードウェア及び第２の処理を行うハードウェアが、前記１又は複数のハードウェアに含まれていればよい。なお、ハードウェアは、電子回路、又は、電子回路を含む装置等を含んでもよい。

　以上、本開示の実施形態について詳述したが、本開示は上記した個々の実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲において種々の追加、変更、置き換え及び部分的削除等が可能である。例えば、前述した全ての実施形態において、数値又は数式を説明に用いている場合は、一例として示したものであり、これらに限られるものではない。また、実施形態における各動作の順序は、一例として示したものであり、これらに限られるものではない。

１：推定装置、
１０：潜在変数取得部、
１２：構造式取得部、
１４：スコア算出部、
１６：記憶部

Claims

　１又は複数のメモリと、
　１又は複数のプロセッサと、
　を備え、
　前記１又は複数のプロセッサは、
　　メタヒューリスティックアルゴリズムにより複数の潜在変数を取得し、
　　前記潜在変数に基づいて、化学構造式を生成し、
　　前記化学構造式に対するスコアを算出する、
　推定装置。
　前記１又は複数のプロセッサは、
　　前記潜在変数の取得の処理を並列に実行する、
　請求項１に記載の推定装置。
　前記１又は複数のプロセッサは、
　　取得した前記潜在変数に対する演算を並列に実行する、
　請求項２に記載の推定装置。
　前記１又は複数のプロセッサは、
　　前記潜在変数に基づいて生成された前記化学構造式に対する前記スコアの算出処理を並列に実行する、
　請求項２又は請求項３に記載の推定装置。
　前記１又は複数のプロセッサは、
　　前記メタヒューリスティックアルゴリズムとして、粒子群最適化法を用いる、
　請求項２から請求項４のいずれかに記載の推定装置。
　前記１又は複数のプロセッサは、
　　前記スコアの算出処理として、BFGS法を用いる、
　請求項２から請求項５のいずれかに記載の推定装置。
　前記１又は複数のプロセッサは、前記スコアに基づいて複数の潜在変数を取得する、
　請求項１から請求項６のいずれかに記載の推定装置。
　１又は複数のプロセッサにより、
　　メタヒューリスティックアルゴリズムを用いて複数の潜在変数を取得し、
　　前記潜在変数に基づいて、化学構造式を生成し、
　　前記化学構造式に対するスコアを算出する、
　推定方法。
　前記スコアに基づいて、複数の潜在変数を取得する、
　請求項８に記載の推定方法。
　請求項８又は請求項９に記載の方法を用いて生成された、化学構造式。
　１又は複数のプロセッサに実行させると、
　　メタヒューリスティックアルゴリズムを用いて複数の潜在変数を取得し、
　　前記潜在変数に基づいて、化学構造式を生成し、
　　前記化学構造式に対するスコアを算出する、
　プログラム。