WO2007105794A1

WO2007105794A1 - 分子構造予測システム、方法及びプログラム

Info

Publication number: WO2007105794A1
Application number: PCT/JP2007/055210
Authority: WO
Inventors: Hiroaki Fukunishi; Jirou Shimada; Reiji Teramoto
Original assignee: Nec Corporation
Priority date: 2006-03-15
Filing date: 2007-03-15
Publication date: 2007-09-20
Also published as: JP5262709B2; US20110238396A1; US20090048817A1; JPWO2007105794A1

Abstract

　複数の評価システムで得られた結果から分子の最安定構造の予測を行う分子構造予測方法は、トレーニングデータセットから、リサンプリングにより複数のデータセットを生成するステップと、生成された各々のデータセットに対してパラメータセットを決定して複数のパラメータセットを得るステップと、その複数のパラメータセットを用いて、予測用分子データに対する分子のエネルギー計算を行うステップと、複数のエネルギーもしくは３次元構造の結果に基づいてコンセンサスをとるステップと、コンセンサスの結果から最安定な分子構造を予測するステップとを、を有する。

Description

明細書

分子構造予測システム、方法及びプログラム

技術分野

[0001] 本発明は、各種の分子の構造をシミュレーションによって予測する分子構造予測システムおよび方法に関し、特に、複数の評価システムで得られた結果力コンセンサスをとることによって分子の最安定構造の予測を行う分子構造予測システム及び方法に関する。

背景技術

[0002] 実験で観測され得る分子の最安定構造を計算によって予測する方法として、非経験的分子軌道法、分子力場法、ドッキングシミュレーションなど、計算の近似レベルによって様々なものがある。それらの方法では、エネルギーが最小になる分子構造を探索し、それを最安定構造として予測する。

[0003] 最も精度の高い方法は、量子力学の理論に基づき、経験的なパラメータを必要としない非経験的分子軌道法であるが、この方法は膨大に計算資源と計算時間を必要とし、しばしば、現実的な計算時間では解を与えないことがある。逆に、分子力場法やドッキングシミュレーションなどの方法では、エネルギー計算に経験的パラメータを用いているので、計算を高速ィ匕することができる。しかしながら、計算で用いる経験的ノラメータが十分なトレーニングデータ数力も決定されていない場合には、精度における信頼性が低くなると、う問題点を有する。分子力場法やドッキングシミュレーションによって分子構造を予測するソフトウェアの中には、実際、限られたトレーニングデータ数しか用いていないために、精度が不十分な結果しか与えものも多い。精度改善のためにトレーニングデータ数を増やしても、世の中に存在し得る化合物の数は膨大なので、全ての可能性を考慮することは不可能である。経験的パラメータの決定法としては様々なものがあり、例えば、非経験的分子軌道法の計算結果にフィットさせる方法や、実験データにフィットさせる方法がある。

[0004] 分子力場法やドッキングシミュレーションは、薬剤候補探索にお!、て、コスト削減のために、頻繁に利用されている。薬剤候補探索の目的は、標的疾患に関わるタンパク質に対して強く相互作用する化合物を薬剤候補として探すことであり、この探索は、タンパク質と相互作用した状態での分子構造のエネルギーを計算し、計算されたェネルギ一が低い構造を探すことによって達成される。精度の高い非経験的分子軌道法ではなぐ分子力場法やドッキングシミュレーションを用いる理由は、世の中には数百万種類レベルの膨大な数の化合物が存在するので、ある程度、精度を犠牲にしても、高速に処理できることに比重が置かれるからである。計算精度の信頼性の低さは、実際に実験する化合物の量を増やすことによって、補うことになる。

[0005] ドッキングシミュレーションは、とりわけ高速ィ匕を優先した粗視化レベルが高い方法であるので、そこ力も得られるスコアリング関数 (エネルギー関数)の精度は高いとは言えない。単一のスコアリング関数だけでは十分な精度が得られないので、複数のスコアリング関数をそれぞれ計算し、最安定な分子構造につ!、てのコンセンサスをとることによって、タンパク質と化合物の相互作用の強さを予測する方法が用いられるようになってきた。この種の方法は、コンセンサス法、または、コンセンサススコアリングとも呼ばれており、この方法を採用することで予測精度が向上することが報告されている。

[0006] 従来の方法の一例として、 Triopos社製品 Sybylのコンセンサススコアリング CScor eの基本的考え方を表 1に示す。コンセンサススコアリングの各要素スコアリング関数は、 F— score、 D— score、 G— score、 PMF、 ChemScoreで teる。表中における A"、 "B"、 "C"は、タンパク質と化合物の結合構造を表している。各スコアは、 0力も 1 の範囲で正規化され、デフォルトでは 0. 5より小さい値には 0ポイント、 0. 5以上の値には 1ポイントが付与される。付与された各ポイントは、表においては括弧内で示されている。 A、 B、 Cのポイントの合計値が CScoreとして示されている。表 1に示した例では、予測される相互作用の強さの順が、 C, B, Aであることが分かる。

[0007] [表 1] 表 1 GScoreの

F-Score D-score G-score PMF ChemScore CScore

A 0.1 (0) 0.2(0) 0.3(0) 0.2(0) 0.9(1) 1

B 0.3(0) 0.6(1) 0.1 (0) 0.4(0) 0.8(1) 2

C 0.8(1) 0.5(1) 0.9(1) 0.7 (1) 0.6(1) 5 コンセンサスの取り方にっ、ては、前述のように値に対してポイントを与える単純なものから、 Jacobbsonらが提案したような、 PLS— DA、ベイズ分類（Bayesian class ification)、ルールに基づく方法 (rule— based method)などの統計学手法を用いて、高度に行われる方法もある（M. Jacobsson et al. , "Improving Struc ture— Based Virtual Screening by Multivariate Analysis of Scoring Data, " J. Med. Chem. , 2003, vol. 46, pp. 5781— 5787)。それらの根本的な考え方は、複数のスコアリング関数から多くの情報を抽出し、 1つのソフトウエアから出力されるスコアリング関数では不十分であった精度を改善するというものである。

[0008] なお、最適な分子構造を予測することに関する特許文献としては、特表 2005— 52

4129号公報、特開平 5— 120397号公報、特開平 10— 48157号公報、特表 2000

— 516755号公報などがあり、分子構造探索に関するものではないが並列計算に関するものとして、特開平 11— 259433号公報がある。

[0009] 以下、本明細書中で引用した参考文献を列挙する。

特許文献 1：特表 2005 - 524129号公報

特許文献 2：特開平 5— 120397号公報

特許文献 3 :特開平 10— 48157号公報

特許文献 4:特表 2000— 516755号公報

特許文献 5：特開平 11― 259433号公報

非特干文献 1 : M. Jacobsson et al. , 'Improving structure— Based Vir tual Screening by Multivariate Analysis of Scoring Data, " J. Med . Chem. , 2003, vol. 46, pp. 5781— 5787

非特許文献 2 : Renxiao Wang et al. , "Comparative Evaluation of 11 Scoring Functions for Molecular Docking", J. Med. Chem. , 200 3, vol. 46, 2287- 2303

発明の開示

発明が解決しょうとする課題

[0010] しかしながら、上述した従来のコンセンサス法あるいはコンセンサススコアリングでは、複数の異なる種類のエネルギー関数が必要になり、計算の煩雑ィ匕が避けられない。また、各エネルギー関数で用いられるパラメータセットは最適なものであるかどうか判断できない、という問題点もある。最適なものかどうかを判断できない理由は、分子反応には準安定構造が多数存在しているので、最適パラメータを一意的に決定することは非常に困難である、ということにある。

[0011] 本発明の第 1の目的は、単一のエネルギー関数を用いて、コンセンサス法及びコンセンサススコアリングを行うことができるシステム及び方法を提供することにある。

[0012] 本発明の第 2の目的は、エネルギー関数の精度に大きな影響を与えるパラメータセットに関して、一意的に決定されたものではなぐ複数のパラメータセットを利用することが可能なシステム及び方法を提供することにある。

課題を解決するための手段

[0013] 本発明の第 1の様相に従えば、分子構造予測システムは、単一のエネルギー関数に対して、複数のパラメータセットで分子のエネルギーを計算し、得られる複数の結果力統計手法を用いて最安定な分子構造についてのコンセンサスをとり、コンセンサスの結果力最安定な分子構造を予測することを特徴とする。

[0014] 本発明の第 2の様相に従えば、分子構造予測システムは、複数のパラメータセットを記憶するパラメータセット記憶部と、予測用の分子構造データを記憶する予測用分子構造データ記憶部と、分子のエネルギーを計算する分子エネルギー計算手段と、複数のパラメータセットを用いて計算された複数の分子のエネルギーもしくは分子構造の結果に基づ、てコンセンサスをとるコンセンサス手段と、備える。

[0015] さらに、あらかじめ決定された複数のパラメータセットが利用できない場合に対応するために、本発明の分子構造予測システムは、トレーニングデータセットからリサンプリングにより複数のデータセットを生成するリサンプリング手段と、リサンプリング手段によって生成された複数のデータセットの各々に対してパラメータセットを決定するパラメータセット決定手段と、を含む複数パラメータセット決定手段をさらに備えていてもよい。

[0016] 本発明では、このような構成を採用することによって、エネルギー関数が 1種類であつても、複数のパラメータセットで計算した分子のエネルギー力もコンセンサスをとることによって、最安定な分子構造を予測することができる。

[0017] 本発明の第 3の様相に従えば、分子構造予測方法は、単一のエネルギー関数に対して、複数のパラメータセットで分子のエネルギーを計算し、得られる複数の結果力統計手法を用いて最安定な分子構造についてのコンセンサスをとり、コンセンサスの結果力最安定な分子構造を予測することを特徴とする。

[0018] 本発明の第 4の様相に従えば、分子構造予測方法は、あらかじめ利用できる複数のパラメータセットがある場合は、ノラメータセット記憶部に複数のパラメータセットを記憶する段階と、あらかじめ利用できる複数のパラメータセットがない場合は、トレーユングデータセットからリサンプリングにより複数のデータセットを生成し、この生成された複数のデータセットの各々に対してパラメータセットを決定することによって複数のパラメータセットを決定し、その後、パラメータセット記憶部に複数のパラメータセットを記憶する段階と、予測用分子構造データ記憶部に予測用の分子構造データを記憶する段階と、分子のエネルギーを計算する段階と、複数のパラメータセットを用いて計算された、複数の分子のエネルギーもしくは分子の 3次元構造の結果に基づヽてコンセンサスをとる段階と、を有する。

[0019] 従来のコンセンサス法及びコンセンサススコアリングでは、複数の既存のエネルギ一関数を用いなければならなかった力本発明においては、ただ 1つのエネルギー関数で実現することができる。また、本発明では、ノメータセットを一意的に決定することに囚われず、ノラメータセットを複数用いて分子構造のエネルギー計算を行い、得られる複数の分子構造のエネルギー計算結果力コンセンサスをとることによつて、精度の高い予測ができる。

図面の簡単な説明

[0020] [図 1]本発明の第 1の実施形態の分子構造予測システムを示すブロック図である。

[図 2]リサンプリングの概念を示す図である。

[図 3]図 1に示す分子構造予測システムの動作を示すフローチャートである。

[図 4]本発明の第 2の実施形態の分子構造予測システムを示すブロック図である。

[図 5]図 4に示す分子構造予測システムの動作を示すフローチャートである。

[図 6]本発明の第 3の実施形態の分子構造予測システムを示すブロック図である。 [図 7]図 6に示す分子構造予測システムの動作を示すフローチャートである。

[図 8]リサンプリングによるパラメータ決定法を示す概念図である。

符号の説明

[0021] 1 入力装置

2, 6 処理装置

3 記憶装置

4 出力装置

5 分子構造予測用プログラム

21 複数パラメータセット決定部

22 分子エネルギー計算部

23 コンセンサス部

31 トレーニング用データ記憶部

32 データセット記憶部

33 パラメータセット記憶部

34 予測用分子構造データ記憶部

35 計算結果記憶部

61 パラメータセット決定用プログラム

62 分子エネルギー決定用及びコンセンサス用プログラム

211 ジサンプリング咅

212 パラメータセット決定部

発明を実施するための最良の形態

[0022] 図 1に示す本発明の第 1の実施形態の分子構造予測システムは、大別すると、キーボード等の入力装置 1と、プログラム制御により動作する処理装置 2と、情報を記憶する記憶装置 3と、ディスプレイ装置や印刷装置等の出力装置 4と、からなつている。

[0023] 処理装置 2は、複数のパラメータセットを生成する複数パラメータセット決定部 21と、複数パラメータセット決定部 21で生成された複数のパラメータセットを用いて分子のエネルギー計算を行う分子エネルギー計算部 22と、分子エネルギー計算部 22で得られる複数の結果のコンセンサスをとるコンセンサス部 23と、を含んで、る。 [0024] 複数パラメータセット決定部 21は、トレーニング用データである、限られた化合物の分子構造から、リサンプリングによって複数のデータセットを生成するリサンプリング部 221と、リサンプリング部 221で生成された各々のデータセットに対してパラメータセットを決定するパラメータセット決定部 212と、を含んでいる。図 2は、リサンプリング部 2 22でのリサンプリングの概念を示している。ここでの「母集団」は、現実世界に存在し得る全タンパク質と化合物の複合体であるが、扱える複合体の数は限られており、この限られた複合体をトレーニング用データとして用いてリサンプリングを行うことで、複数のデータセットが生成する。

[0025] ここでリサンプリングの仕方としては、例えば、トレーニングデータセットから、重複を許してランダムにあらかじめ決められたデータ数まで選抜し、あら力じめ決めたデータセット数の回数だけリサンプリングを行う方法がある。パラメータセットの決定方法としては、例えば、 1分子の実験構造のエネルギーと、多数の非実験構造の平均エネルギー及び標準偏差 (すなわち、自乗平均平方根偏差 (root— mean— square devi ation) )力得られる Z値の絶対値を計算することを、 1データセット内の全ての分子について行い、 Z値の絶対値の平均値が最大になるようなパラメータの組み合わせを決定する方法がある。あるいは、 1分子の実験構造のエネルギーと、多数の非実験構造の平均エネルギー及び標準偏差力得られる Z値の絶対値を計算することを、 1データセット内の全ての分子について行い、 Z値の絶対値の中央値が、最大になるようなパラメータの組み合わせを決定する方法がある。

[0026] 分子エネルギー計算部 22は、予測用分子構造データに対してエネルギー計算を行う。エネルギー計算の方法としては、既知の 3次元構造に対して一点計算する方法、または、分子動力学法もしくはモンテカルロ法によって構造探索を行いながら計算する方法などが用いられる。

[0027] コンセンサス部 23は、複数のパラメータセットを用いて計算された結果であるエネルギーもしくは 3次元構造 (分子構造)から、最安定な分子構造につ!、てのコンセンサスをとることによって、最安定な分子構造を予測する。コンセンサス部でのコンセンサスのとしては、具体的には、例えば、複数のパラメータセットで得られた複数の分子のエネルギーの結果に基づいて、統計手法を用いてコンセンサスをとる方法や、複数のパラメータセット各々で、分子のエネルギーに基づいて順位付けを行い、次に、各分子構造の順位の頻度を計算し、頻度を重みとしてコンセンサススコアを計算し、コンセンサススコアの良、順に最安定な分子構造の順位付けを行う方法がある。さらには、 Nをデータ数、 iを順位、 Pを順位の頻度として、

[0028] [数 1]

N

consensus二〉 (N _ i)P_t で表わされるコンセンサススコア Consensusを計算し、コンセンサススコアの良い順に最安定な分子構造の順位付けを行う方法もある。

[0029] 記憶装置 3は、トレーニング用分子構造データ記憶部 31と、データセット記憶部 32 と、パラメータセット記憶部 33と、予測用分子構造データ記憶部 34と、計算結果記憶部 35と、を含んでいる。トレーニング用分子構造データ記憶部 31とデータセット記憶部 32とは、複数パラメータセット決定部 21の動作のために使われる。予測用分子構造データ記憶部 34は、予測用の分子構造データを記憶している。計算結果記憶部 3 5は、複数のパラメータセットを用いて計算された複数のエネルギーもしくは 3次元構造を記憶する。

[0030] 次に、図 1及び図 3を参照して、第 1の実施形態の分子構造予測システムの動作を説明する。

[0031] 入力装置 1によって、実行指示が与えられ、複数パラメータセット決定部 21が起動すると、まずステップ A1において、リサンプリング部 211は、複数のデータセットを生成し、次にステップ A2において、パラメータセット決定部 212は、 1データセットに対してパラメータセットを決定させることを実行する。その後、ステップ A3において、すベてのデータセットに対してパラメータセットを決定したかどうかを判定し、未決定のものがあればステップ A2に戻ることにより、すべてのデータセットに対してパラメータセットを決定する。生成された複数のパラメータセットは、パラメータセット記憶部 33に記憶される。

[0032] 次に、パラメータセット記憶部 33に記憶された複数のパラメータセットを用いて、予測用分子構造データ記憶部 34に格納されているデータに対する分子のエネルギー計算が分子エネルギー計算部 22によって実行される。その際は、ステップ A4において、 1分子構造ごとに、全てのパラメータセットでエネルギーが計算され、そのサイクルを全分子構造に対して終了するまで行われる。すなわちステップ A5において、すベてのパラメータに対して計算したかを判定して未計算のものがあればステップ A4 に戻り、ステップ A6においてすべての予測用の分子構造に対して計算したかを判定して未計算のものがあればステップ A4に戻ることにより、すべてのパラメータに対し、またすベての予測用分子構造に対してエネルギーを計算する。このようにして、分子のエネルギー計算が終わると、次に、ステップ A7において、コンセンサス部 23によつてコンセンサスがとられ、予測結果が出力装置 4から出力される。

[0033] 次に、本発明の第 2の実施形態の分子構造予測システムについて説明する。図 4 は、第 2の実施形態の分子構造予測システムの構成を示している。この分子構造予測システムは、あら力じめ決定された複数のパラメータセットが利用できる場合のものであり、図 1に示した第 1の実施形態のシステムから、複数パラメータセット決定部 21 とトレーニング用分子構造データ記憶部 31とデータセット記憶部 32とを取り除いた構成を有する。

[0034] 次に、図 4及び図 5を参照して、第 2の実施形態の分子構造予測システムの動作を説明する。

[0035] 入力装置 1によって実行指示が与えられると、パラメータセット記憶部 33に記憶された複数のパラメータセットを用いて、予測用分子構造データ記憶部 34に格納されているデータに対する分子のエネルギー計算力分子エネルギー計算部 22によって実行される。この場合も、第 1の実施形態においてステップ A4〜A6で示したものと同様に、ステップ B1〜B3において、分子の構造エネルギー計算は、予測用分子構造データの 1分子構造ごとに、全てのパラメータセットで実行され、そのサイクルが全分子構造に対して終了するまで実行される。分子のエネルギー計算が終わると、ステップ B4において、コンセンサス部 23によってコンセンサスがとられ、予測結果が出力装置 4から出力される。

[0036] 次に、本発明の第 3の実施形態の分子構造予測システムについて説明する。図 6 は、第 3の実施形態の分子構造予測システムの構成を示している。この分子構造予測システムは、大別すると、キーボード等の入力装置 1と、プログラム制御により動作する処理装置 6と、情報を記憶する記憶装置 3と、ディスプレイ装置や印刷装置等の出力装置 4と力なっている力ここでは、パーソナルコンピュータやワークステーション (あるいはスーパーコンピュータ)などのコンピュータに、分子構造予測用プログラム 5を読み込ませて実行させることにより分子構造予測システムを実現することを前提として説明する。分子構造予測用プログラム 5は、 CD— ROMや磁気テープなどの記録媒体によって、あるいは、ネットワークを介してコンピュータに読み込まれる。

[0037] 分子構造予測用プログラム 5は、複数パラメータセット決定用プログラム 61と、分子エネルギー計算用及びコンセンサス用プログラム 62と、これらのプログラムを制御するプログラムと力なり、これらのプログラムによって処理装置 6は制御される。複数パラメータセット決定用プログラム 61は、第 1の実施形態のシステムにお、て複数パラメータセット決定部 21が実行する処理と同じ処理をコンピュータに実行させ、分子エネルギ一計算用及びコンセンサス用プログラム 62は、第 1の実施形態のシステムにおいて分子エネルギー決定部 22及びコンセンサス部 23が実行する処理と同じ処理をコンピュータに実行させる。

[0038] 次に、図 6及び図 7を参照して、第 3の実施形態の分子構造予測システムの動作を説明する。

[0039] 入力装置 1によって、あら力じめ決定された複数のパラメータセットがあるかどうかが入力され、処理装置 6は、ステップ C1において、あら力じめ決定された複数のパラメータセットが有るかどうかを判断する。あら力じめ決定された複数のパラメータセットがない場合には、分子構造予測用プログラム 5は、パラメータセット決定用プログラム 61 を起動し、これによつて、ステップ C2において、リサンプリングにより複数のデータセットが生成され、ステップ C3において 1データセットに対してパラメータセットが決定され、ステップ C4において全データセットに対してパラメータセットが決定されたかどうかが判断され、まだパラメータセットが決定されて、な、データセットがある場合にはステツプ C3に戻る。ステップ C3、 C4の処理がこのように繰り返されることにより、最終的にすベてのデータセットに対してパラメータセットが決定され、ステップ C5に移行する [0040] ステップ CIにお、て、あら力じめ決定されたパラメータセットを有する場合には、パラメータセット決定用プログラム 61は停止するとともに、ステップ C5に移行する。

[0041] ステップ C5では、分子エネルギー計算用及びコンセンサス用プログラム 62が起動し、 1分子構造ごとに、全てのパラメータセットでエネルギーが計算され、そのサイクルを全分子構造に対して終了するまで行われる。すなわちステップ C6において、すべてのパラメータに対して計算したかを判定して未計算のものがあればステップ C5に戻り、ステップ C7においてすべての予測用の分子構造に対して計算したかを判定して未計算のものがあればステップ C5に戻ることにより、すべてのパラメータに対し、またすベての予測用分子構造に対してエネルギーが計算される。次に、ステップ C8において、コンセンサスがとられ、予測結果が出力装置 4から出力される。

実施例

[0042] 次に、本発明を実施例によりさらに詳しく説明する。ここでは、上述した第 1の実施形態に対応する実施例を説明する。本実施例において、分子構造予測システムは、入力装置としてキーボードを、処理装置としてパーソナル 'コンピュータを、記憶装置として磁気ディスク記憶装置を、出力装置としてディスプレイを備えてヽるものとする。

[0043] パーソナル 'コンピュータは、中央処理ユニット（CPU)を備えており、 CPUは、リサンプリング部及びパラメータセット決定部を含む複数パラメータセット決定部と分子ェネルギー計算部とコンセンサス部として機能する。磁気ディスク記憶装置には、トレーユング用分子構造データ、複数のデータセット、複数のパラメータセット、予測用分子構造データ、複数の計算結果が記憶される。

[0044] この実施例においては、次のようなテストを行った。標的タンパク質と結合することが既知の化合物の実験結合構造 (すなわち X線結晶構造で得られた結合構造)のデータと、コンピュータで計算された計算結合構造の 100個のデータとを混ぜ、それら〖こ対して本実施例のシステムにより実験結合構造がどの程度の順位で予測できるかというテストである。実験結合構造は、自然現象として実際に結合している構造なので、エネルギー的に安定であり、上位に順位付けされるはずである。これに対して、計算結合構造は、自然現象に現れない構造であり、エネルギー的に不安定で、実験結合構造よりは下位に順位付けされるはずである。つまり、実験結合構造の順位によつて、性能を見ることができる。理想的には表 2示すように、実験結合構造がトップ（1位 )に順位付けされる。

[0045] このテストにおいては、本発明の適用の対象となるスコアリング関数として、 FlexX を用いた。本実施例のシステムと既存の FlexX コアリング関数 (式（1) )とで以下に示す処理を実行し、結果の比較を行うことにより、本実施例のシステムの有用性を示す。

[0046] [表 2] 表 2

実験結合構造は、 Protein Data Bank (http : //www. rcsb. org/pdb/ )に登録されている構造である。また、各タンパク質と化合物との 100個の計算結合構造としては、 Wangらがドッキングシミュレーション 'ソフトウェア AUTODOCKによつて生成したもの (Renxiao Wang et al. , Comparative Evaluation of 11 Scoring Functions for Molecular Docking", J. Med. Chem. , 2003, vol. 46, 2287— 2303)を利用した。

[0047] まず、テストを実施するための準備として、まず、トレーニング用分子構造データと、予測用分子構造データの作成を行った。本実施例では、全 96種類のタンパク質と化合物の複合体の保有データを、複数のパラメータセット生成用データ 49種類と、予測用データ 47種類に分割した。分割は無作為に行った。表 3は、本実施例で用いたタンパク質と化合物の複合体の PDBコード一覧である。 [0048] [表 3]

本実施例にお、て、複数のパラメータセットを生成するために用いる FlexXのスコァリング関数 (エネルギー関数)の A G は、次のように表される。

bind

[0049] [数 2] match

ここで ^は位置に依存する関数を表し、はスコアパラメータを表し、∑は相互作用に関わる原子ペア（pair)の全てについて和を表す。 matchは、水素結合と、金属コンタクトと、芳香族間の相互作用とからなる項である。また、 lipoは疎水性相互作用を表す項であり、 ambigは極性原子と非極性原子の相互作用を表す項であり、 clash は原子の衝突に対するペナルティ項であり、 rotは化合物がタンパク質と結合することによって失うエントロピ一項を表す。 n は化合物の回転可能単結合数である。

rot

[0050] 本実施例で注目するパラメータセットをスコアパラメータ（エネルギーパラメータ）とし、最適なスコアパラメータセットを決めるために、以下のスコアリング関数を定義する。

[0051] [数 3] G_bind = (aAG_maich ) ^ F match + {bAGi_ip) ) ^ ¾₀ +(^CAG ) + (dAG_chlsh ) ^ F_dash pair pair pair pair

+ {eAG_rot)n_rot+AG₀ (2) 式（2)において、 a, b, c, d, eは、それぞれ、既存の FlexXのスコアパラメータ AG , AG , AG , AG , AG の重み因子である。この（a, b, c, d, e)が、 match Hop ambig clash rot

実質的にトレーニングデータによって決定されるパラメータセットである。 (a, b, c, d, e)が（1, 1, 1, 1, 1)の場合は、式（1)に一致する。

[0052] まず、 96種類の複合体に対して、式（1)で表される FlexXスコアリング関数によってスコア（エネルギー）を求めた。前述のように、 1種類あたり、 1つの実験結合構造 (X 線結晶構造）と 100個の計算結合構造があるので、 96種類 X (1 + 100) =9696結合構造に対してスコアが求められたことになる。その際、 AG だけでなぐ match, 1 bind

ipo, ambig, clash, rotの各項のスコアも個別に保存しておく。計算された結果は、複数のパラメータセット生成用の複合体についてはトレーニング用分子構造データ記憶部に、予測用の複合体にっ、ては予測用分子構造データ記憶部に記憶してお

<o

[0053] 以上の準備が整った後、本実施例の分子構造予測システムにおいて、入力装置により、動作開始の入力を行う。

[0054] まず、パラメータ決定用記憶装置のデータのリサンプリングを行う。本実施例におけるリサンプリングの手順は以下のようである。

[0055] トレーニング用分子構造データ記憶部のデータである 49種類の複合体から、重複を許してランダムに 49個を選び出す。これを 500回行うことにより、 500個のデータセットを作成し、それらは複数のデータセット記憶部に記憶される。これを模式的に表すと以下のようになる。 p.は複合体の種類を表している。

タセット 1 (ρ , ρ , ρ , ρ , ρ , ρ , ···, ρ )

1 1 2 4 5 7 49

タセット 2 (ρ , ρ , ρ , ρ , ρ , ρ , ···, ρ )

2 3 3 5 6 7 48

タセット 3 (ρ , ρ , ρ , ρ , ρ , ρ , ···, ρ )

1 4 6 10 11 12 49 データセット 500 : (ρ , ρ , ρ , ρ , ρ , ρ , ···, ρ ) [0056] 次に、複数のデータセット記憶部に記憶された 500個のデータセットについて、各データセットにおける最適なパラメータセットを決定する。本実施例における 1データセットに対するパラメータ決定手法は以下に示すものである。

[0057] まず、データセット内の複合体 ρについて、 Zスコア Zを求める。

[0058] [数 4]

ここで、 E は X線結晶構造のエネルギー、 < E >及び σ は、それぞれ、

exp, calc, calc,

計算結合構造のスコア (エネルギー)の平均及び標準偏差を表す。

[0059] 次に、データセット内の全ての Zの絶対値の平均 < Z >が最大になるような（a, b, c , d, e)を求める。

[0060] 上記の方法で、 500個分のデータセットそれぞれについて、最適なパラメータセット

(a, b, c, d, e)を決定する。つまり、 500個の最適なパラメータセット（a , b , c . d , e ) , (a , b , c , d , e ) , · · ·, (a , b , c , d , e )力、複数のパラメータセッ

1 2 2 2 2 2 500 500 500 500 500

ト記憶部に記憶される。リサンプリングによる複数のパラメータ決定の模式図を図 8に示す。

[0061] 次に、本実施例における予測の仕方を、 1種類の複合体を例に説明する。ここで説明される動作を予測用複合体 47種類に対して行うことになる。

[0062] 決定された 500個のパラメータセットを利用して、予測用分子構造データに対するスコア (エネルギー)計算を式 (2)を用いて行う。 1種類の複合体は、実験結合構造と計算結合構造 100偶力 Sあるので、つまり、 500 X (1 + 100) = 50500偶のス =3ァカ S 計算されること〖こなる。

[0063] 各パラメータセットで求められた 1つの実験結合構造のスコアと 100個の計算結合構造のスコア（エネルギー）とに基づいて、 1から 101までの順位付けを行う。同様の動作を、 500個のパラメータセット分を行う。その結果、表 4のようなマトリックスが得られること〖こなる。次に、各結合構造のランクの頻度を求める。その結果、表 5のようなマトリックスが得られることになる。表 5で得られる頻度を用いて、次の式で表されるコンセンサススコア Consensusを定義する。 [0064] [数 5]

Consensus = (N - i)P_t (4)

i

Nはデータ数を表すので、ここでは N=101( =実験 +計算）である。とはそれぞれ、順位と順位の頻度を表している。 la4hの Exp (実験値）と calcl (1番目の計算値)を例にすると、次のようになる。

Exp :0.85X (101-D+O.08 X (101-2) H—— hO.00 X (101— 101)=1 00. 910

calcl :0.08 X (101— 1)+0.05 X (101-2) H—— hO.00 X (101— 101)=96 . 896

[0065] 上記のように求められたコンセンサススコアの高いものから順位付けした結果が、出力装置力出力される。テスト用複合体 47種類について、同様の計算が行われ、結果出力後、終了した。

[0066] 最終的に得られる実験結合構造の順位を、コンセンサススコアと、既存の FlexX コアリング関数 (式（1))で求められるスコアとで比較した結果が表 6に示される。本実施例のシステムは、既存の FlexXスコアよりも、 18種類の複合体で順位が良い。特に、 lcla(41上昇）、 ltet(18上昇）、 2sns(7上昇）、 2tmn(8上昇）、 4xia(12上昇）は、大幅に順位がよくなつていることが分かる。また、実験結合構造が順位トップ（1位）であった数は、本実施例のシステムでは 25個に対して、既存の FlexXスコアでは 23 個であることからも、本実施例のシステムが優れていることが分かる。

[0067] [表 4]

各パラメータセットから求められたスコアに対する順位付け（1a4hの一部抜粋)

Expは実験結合構造、 calcは計算結合構造を表す。 5]

表 5 各順位の頻度（1 a4hの一部抜粋）

Expは実験結合構造、 calcは計算結合構造を表す。

1行あたりの全ての頻度の和は 1である。

コンセンサススコアと既存の FlexXスコアの実験結合構造の順位

Consensusは本発明のシステムで得られた結果を表し、 FlexX orgは既存の FlexX スコアの結果を表す。産業上の利用可能性

本発明は、薬剤候補ィ匕合物探索をコンピュータで実現するためのプログラムといつた用途に適用できる。この適用によって、創薬のコスト削減、効率化を実現することが可能になる。さらに本発明は、分子シミュレーションのおけるスコアリング関数やエネルギ一関数の経験的パラメータ決定システムといった用途に適用できる。

Claims

請求の範囲

[1] 1つのエネルギー関数に対して、複数のパラメータセットで分子のエネルギーを計算し、得られる複数の結果力統計手法を用いて最安定な分子構造にっ、てのコンセンサスをとり、コンセンサスの結果力最安定な分子構造を予測することを特徴とする分子構造予測システム。

[2] 複数のパラメータセットを記憶するパラメータセット記憶部と、

予測用の分子構造データを記憶する予測用分子構造データ記憶部と、分子のエネルギーを計算する分子エネルギー計算手段と、

複数のパラメータセットを用いて計算された複数の分子のエネルギーもしくは分子構造の結果に基づ、て最安定な分子構造にっ、てのコンセンサスをとるコンセンサス手段と、

を備える分子構造予測システム。

[3] 前記分子エネルギー計算手段は、 3次元構造既知の分子に対してエネルギーの一点計算する、請求項 2に記載の分子構造予測システム。

[4] 前記分子エネルギー計算手段は、分子動力学法もしくはモンテカルロ法によって構造探索を行、ながら計算する、請求項 2に記載の分子構造予測システム。

[5] 前記コンセンサス手段は、複数のパラメータセットで得られた複数の分子のェネルギ一の結果に基づいて、統計手法を用いてコンセンサスをとる、請求項 2に記載の分子構造予測システム。

[6] 前記コンセンサス手段は、

複数のパラメータセット各々で、分子のエネルギーに基づ、て順位付けを行!、、各分子構造の順位の頻度を計算し、頻度を重みとしてコンセンサススコアを計算し、コンセンサススコアの良い順に最安定な分子構造の順位付けを行う、請求項 2に記載の分子構造予測システム。

[7] 前記コンセンサス手段は、 Nをデータ数、 iを順位、 Pを順位の頻度として、

[数 1]

N

Consensus二 (N - i )P_t で表わされるコンセンサススコア Consensusを計算し、コンセンサススコアの良い順に最安定な分子構造の順位付けを行う、請求項 2記載の分子構造予測システム。

[8] 前記分子エネルギー計算手段が、複数のパラメータセットを用いて分子動力学法またはモンテカルロ法で分子のエネルギーを計算する場合に、前記コンセンサス手段は、複数の 3次元構造の結果力も統計手法を用いてコンセンサスをとる、請求項 2に記載の分子構造予測システム。

[9] 前記分子エネルギー計算手段が、複数のパラメータセットを用いて分子動力学法またはモンテカルロ法で分子のエネルギーを計算する場合に、前記コンセンサス手段は、 3次元構造間の自乗平均平方根偏差（root— mean— square deviation)によつてクラスタリングを行い、クラスターの大きい順に順位付けする、請求項 2に記載の分子構造予測システム。

[10] トレーニングデータセットからリサンプリングにより複数のデータセットを生成するリサンプリング手段と、

前記リサンプリング手段によって生成された複数のデータセットの各々に対してパラメータセットを決定するパラメータセット決定手段と、

を含む複数パラメータセット決定手段をさらに備える請求項 2に記載の分子構造予測システム。

[11] 前記リサンプリング手段は、トレーニングデータセットから、重複を許してランダムにあら力じめ決められたデータ数まで選抜し、あら力じめ決めたデータセット数の回数だけリサンプリングを行う、請求項 10に記載の分子構造予測システム。

[12] 前記パラメータセット決定手段は、 1分子の実験構造のエネルギーと、多数の非実験構造の平均エネルギー及び標準偏差力得られる Z値の絶対値を計算することを、 1データセット内の全ての分子について行い、 Z値の絶対値の平均値が最大になるようなパラメータの組み合わせを決定する、請求項 10に記載の分子構造予測システム。

[13] 前記パラメータセット決定手段は、 1分子の実験構造のエネルギーと、多数の非実験構造の平均エネルギー及び標準偏差力得られる Z値の絶対値を計算することを、 1データセット内の全ての分子について行い、 Z値の絶対値の中央値が、最大になるようなパラメータの組み合わせを決定する、請求項 10記載の分子構造予測システム。

[14] 1つのエネルギー関数に対して、複数のパラメータセットで分子のエネルギーを計算し、得られる複数の結果力統計手法を用いて最安定な分子構造にっ、てのコンセンサスをとり、コンセンサスの結果力最安定な分子構造を予測することを特徴とする分子構造予測方法。

[15] あら力じめ利用できる複数のパラメータセットがある場合は、パラメータセット記憶部に複数のパラメータセットを記憶する段階と、

あら力じめ利用できる複数のパラメータセットがない場合は、トレーニングデータセットからリサンプリングにより複数のデータセットを生成し、前記生成された複数のデータセットの各々に対してパラメータセットを決定することによって複数のパラメータセットを決定し、その後、前記パラメータセット記憶部に前記複数のパラメータセットを記憶する段階と、

予測用分子構造データ記憶部に予測用の分子構造データを記憶する段階と、分子のエネルギーを計算する段階と、

前記複数のパラメータセットを用いて計算された、複数の分子のエネルギーもしくは分子の 3次元構造の結果に基づ、て最安定な分子構造にっ、てのコンセンサスをとる段階と、

を有することを特徴とする分子構造予測方法。

[16] 前記分子のエネルギーを計算する段階は、 3次元構造既知の分子に対してェネルギ一の一点計算を実行する段階、または、分子動力学法もしくはモンテカルロ法によつて構造探索を行いながら計算する段階を有する、請求項 15に記載の分子構造予測方法。

[17] 前記コンセンサスをとる段階において、前記コンセンサスをとる指標に関して、前記複数のパラメータセットで得られた複数の分子のエネルギー、または、前記複数のパラメータセットで得られた複数の分子の 3次元構造を用いる、請求項 15に記載の分子構造予測方法。

[18] 前記コンセンサスをとる段階では、前記コンセンサスの指標を前記複数の分子のェネルギーとする場合には、前記複数のパラメータセット各々で、分子のエネルギーに基づいた順位付けを行い、各分子構造の順位の頻度を計算し、頻度を重みとしてコンセンサススコアを計算し、

、順に最安定な分子構造の順位付し、

前記コンセンサスの指標を前記複数の分子の 3次元構造とする場合には、複数のノラメータセット各々で計算された分子の全ての組み合わせで 3次元構造間の自乗平均平方根偏差（root— mean— square deviation)に関するクラスタリングを行い、クラスターの大きい順に順位付けする、

請求項 17に記載の分子構造予測方法。

[19] 前記コンセンサスをとる段階では、 Nをデータ数、 iを順位、 Pを順位の頻度として、 [数 2]

N

consensus二〉 (N _ i)P_t で表されるコンセンサススコア Consensusを計算し、コンセンサススコアの良、順に最安定な分子構造の順位付けを行う、請求項 15に記載の分子構造予測方法。

[20] 複数のパラメータセットを決定する際に、

前記トレーニングデータセットから、重複を許してランダムにあら力じめ決められたデータ数まで選抜し、その作業をあら力じめ決めたデータセット数の回数だけ行、、前記パラメータセット決定によって、 1分子の実験構造のエネルギーと、多数の非実験構造の平均エネルギー及び標準偏差力得られる Z値の絶対値を計算することを、 1データセット内の全ての分子について行い、 Z値の絶対値の平均値もしくは中央値力最大になるようなパラメータの組み合わせを決定する、請求項 15に記載の分子構造予測方法。

[21] コンピュータに、

1つのエネルギー関数に対して、複数のパラメータセットで分子のエネルギーを計算する処理と、

得られる複数の結果力統計手法を用いて最安定な分子構造にっ、てのコンセンサスをとる処理と、前記コンセンサスの結果力最安定な分子構造を予測する処理と、を実行させる、分子構造予測プログラム。

[22] コンピュータに、

あら力じめ利用できる複数のパラメータセットがある場合は、パラメータセット記憶部に複数のパラメータセットを記憶させる処理と、

あら力じめ利用できる複数のパラメータセットがない場合は、トレーニングデータセットからリサンプリングにより複数のデータセットを生成し、生成された複数のデータセットの各々に対してパラメータセットを決定することによって複数のパラメータセットを決定し、その後、前記パラメータセット記憶部に前記複数のパラメータセットを記憶する処理と、

予測用分子構造データ記憶部に予測用の分子構造データを記憶する処理と、分子のエネルギーを計算する処理と、

複数のパラメータセットを用いて計算された、複数の分子のエネルギーもしくは分子構造の結果に基づ、てコンセンサスをとる処理と、

を実行させる、分子構造予測プログラム。

[23] 前記コンピュータに、

前記分子のエネルギーを計算する処理にお!、て、 3次元構造既知の分子に対してエネルギーの一点計算する処理、または、分子動力学法もしくはモンテカルロ法によつて構造探索を行いながらエネルギーを計算する処理、を実行させる、請求項 22に記載の分子構造予測プログラム。

[24] コンセンサスをとる処理において、コンセンサスをとる指標に関して、前記複数のパラメータセットで得られた複数の分子のエネルギー、または、前記複数のパラメータセットで得られた複数の分子の 3次元構造を用いる、請求項 22に記載の分子構造予測プログラム。

[25] 前記コンセンサスをとる処理において、前記コンセンサスの指標を前記複数の分子のエネルギーとする場合には、前記複数のパラメータセット各々で、分子のエネルギ一に基づいた順位付けを行い、各分子構造の順位の頻度を計算し、頻度を重みとしてコンセンサススコアを計算し、コンセンサススコアの良い順に最安定な分子構造の順位付し、

請求項 22に記載の分子構造予測プログラム。

[26] 前記コンセンサスをとる処理にぉ、て、 Nをデータ数、 iを順位、 Pを順位の頻度として、

[数 3]

N

し omemus = (N - i)P_t

l

で表わされるコンセンサススコア Consensusを計算し、コンセンサススコアの良い順に最安定な分子構造の順位付けを行う、請求項 22に記載の分子構造予測プロダラム。

[27] 前記複数のパラメータセットを決定する際に、

前記トレーニングデータセットから、重複を許してランダムにあら力じめ決められたデータ数まで選抜し、その動作をあら力じめ決めたデータセット数の回数だけ行、、

1分子の実験構造のエネルギーと、多数の非実験構造の平均エネルギー及び標準偏差力も得られる Z値の絶対値を計算することを、 1データセット内の全ての分子について行い、 Z値の絶対値の平均値もしくは中央値力最大になるようなパラメータの組み合わせを決定する、請求項 22に記載の分子構造予測プログラム。