明 細 書
分子構造予測システム、方法及びプログラム
技術分野
[0001] 本発明は、各種の分子の構造をシミュレーションによって予測する分子構造予測シ ステムおよび方法に関し、特に、複数の評価システムで得られた結果力 コンセンサ スをとることによって分子の最安定構造の予測を行う分子構造予測システム及び方 法に関する。
背景技術
[0002] 実験で観測され得る分子の最安定構造を計算によって予測する方法として、非経 験的分子軌道法、分子力場法、ドッキングシミュレーションなど、計算の近似レベル によって様々なものがある。それらの方法では、エネルギーが最小になる分子構造を 探索し、それを最安定構造として予測する。
[0003] 最も精度の高い方法は、量子力学の理論に基づき、経験的なパラメータを必要とし ない非経験的分子軌道法であるが、この方法は膨大に計算資源と計算時間を必要 とし、しばしば、現実的な計算時間では解を与えないことがある。逆に、分子力場法 やドッキングシミュレーションなどの方法では、エネルギー計算に経験的パラメータを 用いているので、計算を高速ィ匕することができる。しかしながら、計算で用いる経験的 ノ ラメータが十分なトレーニングデータ数力も決定されていない場合には、精度にお ける信頼性が低くなると 、う問題点を有する。分子力場法やドッキングシミュレーショ ンによって分子構造を予測するソフトウェアの中には、実際、限られたトレーニングデ ータ数しか用いていないために、精度が不十分な結果しか与えものも多い。精度改 善のためにトレーニングデータ数を増やしても、世の中に存在し得る化合物の数は膨 大なので、全ての可能性を考慮することは不可能である。経験的パラメータの決定法 としては様々なものがあり、例えば、非経験的分子軌道法の計算結果にフィットさせる 方法や、実験データにフィットさせる方法がある。
[0004] 分子力場法やドッキングシミュレーションは、薬剤候補探索にお!、て、コスト削減の ために、頻繁に利用されている。薬剤候補探索の目的は、標的疾患に関わるタンパ
ク質に対して強く相互作用する化合物を薬剤候補として探すことであり、この探索は 、タンパク質と相互作用した状態での分子構造のエネルギーを計算し、計算されたェ ネルギ一が低い構造を探すことによって達成される。精度の高い非経験的分子軌道 法ではなぐ分子力場法やドッキングシミュレーションを用いる理由は、世の中には数 百万種類レベルの膨大な数の化合物が存在するので、ある程度、精度を犠牲にして も、高速に処理できることに比重が置かれるからである。計算精度の信頼性の低さは 、実際に実験する化合物の量を増やすことによって、補うことになる。
[0005] ドッキングシミュレーションは、とりわけ高速ィ匕を優先した粗視化レベルが高い方法 であるので、そこ力も得られるスコアリング関数 (エネルギー関数)の精度は高いとは 言えない。単一のスコアリング関数だけでは十分な精度が得られないので、複数のス コアリング関数をそれぞれ計算し、最安定な分子構造につ!、てのコンセンサスをとる ことによって、タンパク質と化合物の相互作用の強さを予測する方法が用いられるよう になってきた。この種の方法は、コンセンサス法、または、コンセンサススコアリングと も呼ばれており、この方法を採用することで予測精度が向上することが報告されてい る。
[0006] 従来の方法の一例として、 Triopos社製品 Sybylのコンセンサススコアリング CScor eの基本的考え方を表 1に示す。コンセンサススコアリングの各要素スコアリング関数 は、 F— score、 D— score、 G— score、 PMF、 ChemScoreで teる。表中における A"、 "B"、 "C"は、タンパク質と化合物の結合構造を表している。各スコアは、 0力も 1 の範囲で正規化され、デフォルトでは 0. 5より小さい値には 0ポイント、 0. 5以上の値 には 1ポイントが付与される。付与された各ポイントは、表においては括弧内で示され ている。 A、 B、 Cのポイントの合計値が CScoreとして示されている。表 1に示した例 では、予測される相互作用の強さの順が、 C, B, Aであることが分かる。
[0007] [表 1] 表 1 GScoreの
F-Score D-score G-score PMF ChemScore CScore
A 0.1 (0) 0.2(0) 0.3(0) 0.2(0) 0.9(1) 1
B 0.3(0) 0.6(1) 0.1 (0) 0.4(0) 0.8(1) 2
C 0.8(1) 0.5(1) 0.9(1) 0.7 (1) 0.6(1) 5
コンセンサスの取り方にっ 、ては、前述のように値に対してポイントを与える単純な ものから、 Jacobbsonらが提案したような、 PLS— DA、ベイズ分類(Bayesian class ification)、ルールに基づく方法 (rule— based method)などの統計学手法を用 いて、高度に行われる方法もある(M. Jacobsson et al. , "Improving Struc ture— Based Virtual Screening by Multivariate Analysis of Scoring Data, " J. Med. Chem. , 2003, vol. 46, pp. 5781— 5787)。それ らの根本的な考え方は、複数のスコアリング関数から多くの情報を抽出し、 1つのソフ トウエアから出力されるスコアリング関数では不十分であった精度を改善するというも のである。
[0008] なお、最適な分子構造を予測することに関する特許文献としては、特表 2005— 52
4129号公報、特開平 5— 120397号公報、特開平 10— 48157号公報、特表 2000
— 516755号公報などがあり、分子構造探索に関するものではないが並列計算に関 するものとして、特開平 11— 259433号公報がある。
[0009] 以下、本明細書中で引用した参考文献を列挙する。
特許文献 1:特表 2005 - 524129号公報
特許文献 2:特開平 5— 120397号公報
特許文献 3 :特開平 10— 48157号公報
特許文献 4:特表 2000— 516755号公報
特許文献 5:特開平 11― 259433号公報
非特干文献 1 : M. Jacobsson et al. , 'Improving structure— Based Vir tual Screening by Multivariate Analysis of Scoring Data, " J. Med . Chem. , 2003, vol. 46, pp. 5781— 5787
非特許文献 2 : Renxiao Wang et al. , "Comparative Evaluation of 11 Scoring Functions for Molecular Docking", J. Med. Chem. , 200 3, vol. 46, 2287- 2303
発明の開示
発明が解決しょうとする課題
[0010] しかしながら、上述した従来のコンセンサス法あるいはコンセンサススコアリングでは
、複数の異なる種類のエネルギー関数が必要になり、計算の煩雑ィ匕が避けられない 。また、各エネルギー関数で用いられるパラメータセットは最適なものであるかどうか 判断できない、という問題点もある。最適なものかどうかを判断できない理由は、分子 反応には準安定構造が多数存在しているので、最適パラメータを一意的に決定する ことは非常に困難である、ということにある。
[0011] 本発明の第 1の目的は、単一のエネルギー関数を用いて、コンセンサス法及びコン センサススコアリングを行うことができるシステム及び方法を提供することにある。
[0012] 本発明の第 2の目的は、エネルギー関数の精度に大きな影響を与えるパラメータセ ットに関して、一意的に決定されたものではなぐ複数のパラメータセットを利用するこ とが可能なシステム及び方法を提供することにある。
課題を解決するための手段
[0013] 本発明の第 1の様相に従えば、分子構造予測システムは、単一のエネルギー関数 に対して、複数のパラメータセットで分子のエネルギーを計算し、得られる複数の結 果力 統計手法を用いて最安定な分子構造についてのコンセンサスをとり、コンセン サスの結果力 最安定な分子構造を予測することを特徴とする。
[0014] 本発明の第 2の様相に従えば、分子構造予測システムは、複数のパラメータセット を記憶するパラメータセット記憶部と、予測用の分子構造データを記憶する予測用分 子構造データ記憶部と、分子のエネルギーを計算する分子エネルギー計算手段と、 複数のパラメータセットを用いて計算された複数の分子のエネルギーもしくは分子構 造の結果に基づ 、てコンセンサスをとるコンセンサス手段と、備える。
[0015] さらに、あらかじめ決定された複数のパラメータセットが利用できない場合に対応す るために、本発明の分子構造予測システムは、トレーニングデータセットからリサンプ リングにより複数のデータセットを生成するリサンプリング手段と、リサンプリング手段 によって生成された複数のデータセットの各々に対してパラメータセットを決定するパ ラメータセット決定手段と、を含む複数パラメータセット決定手段をさらに備えていても よい。
[0016] 本発明では、このような構成を採用することによって、エネルギー関数が 1種類であ つても、複数のパラメータセットで計算した分子のエネルギー力もコンセンサスをとるこ
とによって、最安定な分子構造を予測することができる。
[0017] 本発明の第 3の様相に従えば、分子構造予測方法は、単一のエネルギー関数に 対して、複数のパラメータセットで分子のエネルギーを計算し、得られる複数の結果 力 統計手法を用いて最安定な分子構造についてのコンセンサスをとり、コンセンサ スの結果力 最安定な分子構造を予測することを特徴とする。
[0018] 本発明の第 4の様相に従えば、分子構造予測方法は、あらかじめ利用できる複数 のパラメータセットがある場合は、ノ ラメータセット記憶部に複数のパラメータセットを 記憶する段階と、あらかじめ利用できる複数のパラメータセットがない場合は、トレー ユングデータセットからリサンプリングにより複数のデータセットを生成し、この生成さ れた複数のデータセットの各々に対してパラメータセットを決定することによって複数 のパラメータセットを決定し、その後、パラメータセット記憶部に複数のパラメータセッ トを記憶する段階と、予測用分子構造データ記憶部に予測用の分子構造データを記 憶する段階と、分子のエネルギーを計算する段階と、複数のパラメータセットを用い て計算された、複数の分子のエネルギーもしくは分子の 3次元構造の結果に基づ ヽ てコンセンサスをとる段階と、を有する。
[0019] 従来のコンセンサス法及びコンセンサススコアリングでは、複数の既存のエネルギ 一関数を用いなければならなかった力 本発明においては、ただ 1つのエネルギー 関数で実現することができる。また、本発明では、ノ メータセットを一意的に決定す ることに囚われず、ノ ラメータセットを複数用いて分子構造のエネルギー計算を行い 、得られる複数の分子構造のエネルギー計算結果力 コンセンサスをとることによつ て、精度の高い予測ができる。
図面の簡単な説明
[0020] [図 1]本発明の第 1の実施形態の分子構造予測システムを示すブロック図である。
[図 2]リサンプリングの概念を示す図である。
[図 3]図 1に示す分子構造予測システムの動作を示すフローチャートである。
[図 4]本発明の第 2の実施形態の分子構造予測システムを示すブロック図である。
[図 5]図 4に示す分子構造予測システムの動作を示すフローチャートである。
[図 6]本発明の第 3の実施形態の分子構造予測システムを示すブロック図である。
[図 7]図 6に示す分子構造予測システムの動作を示すフローチャートである。
[図 8]リサンプリングによるパラメータ決定法を示す概念図である。
符号の説明
[0021] 1 入力装置
2, 6 処理装置
3 記憶装置
4 出力装置
5 分子構造予測用プログラム
21 複数パラメータセット決定部
22 分子エネルギー計算部
23 コンセンサス部
31 トレーニング用データ記憶部
32 データセット記憶部
33 パラメータセット記憶部
34 予測用分子構造データ記憶部
35 計算結果記憶部
61 パラメータセット決定用プログラム
62 分子エネルギー決定用及びコンセンサス用プログラム
211 ジサンプリング咅
212 パラメータセット決定部
発明を実施するための最良の形態
[0022] 図 1に示す本発明の第 1の実施形態の分子構造予測システムは、大別すると、キー ボード等の入力装置 1と、プログラム制御により動作する処理装置 2と、情報を記憶す る記憶装置 3と、ディスプレイ装置や印刷装置等の出力装置 4と、からなつている。
[0023] 処理装置 2は、複数のパラメータセットを生成する複数パラメータセット決定部 21と 、複数パラメータセット決定部 21で生成された複数のパラメータセットを用いて分子 のエネルギー計算を行う分子エネルギー計算部 22と、分子エネルギー計算部 22で 得られる複数の結果のコンセンサスをとるコンセンサス部 23と、を含んで 、る。
[0024] 複数パラメータセット決定部 21は、トレーニング用データである、限られた化合物の 分子構造から、リサンプリングによって複数のデータセットを生成するリサンプリング部 221と、リサンプリング部 221で生成された各々のデータセットに対してパラメータセッ トを決定するパラメータセット決定部 212と、を含んでいる。図 2は、リサンプリング部 2 22でのリサンプリングの概念を示している。ここでの「母集団」は、現実世界に存在し 得る全タンパク質と化合物の複合体であるが、扱える複合体の数は限られており、こ の限られた複合体をトレーニング用データとして用いてリサンプリングを行うことで、複 数のデータセットが生成する。
[0025] ここでリサンプリングの仕方としては、例えば、トレーニングデータセットから、重複を 許してランダムにあらかじめ決められたデータ数まで選抜し、あら力じめ決めたデータ セット数の回数だけリサンプリングを行う方法がある。パラメータセットの決定方法とし ては、例えば、 1分子の実験構造のエネルギーと、多数の非実験構造の平均エネル ギー及び標準偏差 (すなわち、 自乗平均平方根偏差 (root— mean— square devi ation) )力 得られる Z値の絶対値を計算することを、 1データセット内の全ての分子 について行い、 Z値の絶対値の平均値が最大になるようなパラメータの組み合わせを 決定する方法がある。あるいは、 1分子の実験構造のエネルギーと、多数の非実験構 造の平均エネルギー及び標準偏差力 得られる Z値の絶対値を計算することを、 1デ ータセット内の全ての分子について行い、 Z値の絶対値の中央値が、最大になるよう なパラメータの組み合わせを決定する方法がある。
[0026] 分子エネルギー計算部 22は、予測用分子構造データに対してエネルギー計算を 行う。エネルギー計算の方法としては、既知の 3次元構造に対して一点計算する方 法、または、分子動力学法もしくはモンテカルロ法によって構造探索を行いながら計 算する方法などが用いられる。
[0027] コンセンサス部 23は、複数のパラメータセットを用いて計算された結果であるエネ ルギーもしくは 3次元構造 (分子構造)から、最安定な分子構造につ!、てのコンセン サスをとることによって、最安定な分子構造を予測する。コンセンサス部でのコンセン サスのとしては、具体的には、例えば、複数のパラメータセットで得られた複数の分子 のエネルギーの結果に基づいて、統計手法を用いてコンセンサスをとる方法や、複
数のパラメータセット各々で、分子のエネルギーに基づいて順位付けを行い、次に、 各分子構造の順位の頻度を計算し、頻度を重みとしてコンセンサススコアを計算し、 コンセンサススコアの良 、順に最安定な分子構造の順位付けを行う方法がある。さら には、 Nをデータ数、 iを順位、 Pを順位の頻度として、
[0028] [数 1]
N
consensus二〉 (N _ i)Pt で表わされるコンセンサススコア Consensusを計算し、コンセンサススコアの良い順 に最安定な分子構造の順位付けを行う方法もある。
[0029] 記憶装置 3は、トレーニング用分子構造データ記憶部 31と、データセット記憶部 32 と、パラメータセット記憶部 33と、予測用分子構造データ記憶部 34と、計算結果記憶 部 35と、を含んでいる。トレーニング用分子構造データ記憶部 31とデータセット記憶 部 32とは、複数パラメータセット決定部 21の動作のために使われる。予測用分子構 造データ記憶部 34は、予測用の分子構造データを記憶している。計算結果記憶部 3 5は、複数のパラメータセットを用いて計算された複数のエネルギーもしくは 3次元構 造を記憶する。
[0030] 次に、図 1及び図 3を参照して、第 1の実施形態の分子構造予測システムの動作を 説明する。
[0031] 入力装置 1によって、実行指示が与えられ、複数パラメータセット決定部 21が起動 すると、まずステップ A1において、リサンプリング部 211は、複数のデータセットを生 成し、次にステップ A2において、パラメータセット決定部 212は、 1データセットに対 してパラメータセットを決定させることを実行する。その後、ステップ A3において、す ベてのデータセットに対してパラメータセットを決定したかどうかを判定し、未決定のも のがあればステップ A2に戻ることにより、すべてのデータセットに対してパラメータセ ットを決定する。生成された複数のパラメータセットは、パラメータセット記憶部 33に記 憶される。
[0032] 次に、パラメータセット記憶部 33に記憶された複数のパラメータセットを用いて、予 測用分子構造データ記憶部 34に格納されているデータに対する分子のエネルギー
計算が分子エネルギー計算部 22によって実行される。その際は、ステップ A4におい て、 1分子構造ごとに、全てのパラメータセットでエネルギーが計算され、そのサイク ルを全分子構造に対して終了するまで行われる。すなわちステップ A5において、す ベてのパラメータに対して計算したかを判定して未計算のものがあればステップ A4 に戻り、ステップ A6においてすべての予測用の分子構造に対して計算したかを判定 して未計算のものがあればステップ A4に戻ることにより、すべてのパラメータに対し、 またすベての予測用分子構造に対してエネルギーを計算する。このようにして、分子 のエネルギー計算が終わると、次に、ステップ A7において、コンセンサス部 23によつ てコンセンサスがとられ、予測結果が出力装置 4から出力される。
[0033] 次に、本発明の第 2の実施形態の分子構造予測システムについて説明する。図 4 は、第 2の実施形態の分子構造予測システムの構成を示している。この分子構造予 測システムは、あら力じめ決定された複数のパラメータセットが利用できる場合のもの であり、図 1に示した第 1の実施形態のシステムから、複数パラメータセット決定部 21 とトレーニング用分子構造データ記憶部 31とデータセット記憶部 32とを取り除いた構 成を有する。
[0034] 次に、図 4及び図 5を参照して、第 2の実施形態の分子構造予測システムの動作を 説明する。
[0035] 入力装置 1によって実行指示が与えられると、パラメータセット記憶部 33に記憶され た複数のパラメータセットを用いて、予測用分子構造データ記憶部 34に格納されて いるデータに対する分子のエネルギー計算力 分子エネルギー計算部 22によって 実行される。この場合も、第 1の実施形態においてステップ A4〜A6で示したものと 同様に、ステップ B1〜B3において、分子の構造エネルギー計算は、予測用分子構 造データの 1分子構造ごとに、全てのパラメータセットで実行され、そのサイクルが全 分子構造に対して終了するまで実行される。分子のエネルギー計算が終わると、ステ ップ B4において、コンセンサス部 23によってコンセンサスがとられ、予測結果が出力 装置 4から出力される。
[0036] 次に、本発明の第 3の実施形態の分子構造予測システムについて説明する。図 6 は、第 3の実施形態の分子構造予測システムの構成を示している。この分子構造予
測システムは、大別すると、キーボード等の入力装置 1と、プログラム制御により動作 する処理装置 6と、情報を記憶する記憶装置 3と、ディスプレイ装置や印刷装置等の 出力装置 4と力 なっている力 ここでは、パーソナルコンピュータやワークステーショ ン (あるいはスーパーコンピュータ)などのコンピュータに、分子構造予測用プログラム 5を読み込ませて実行させることにより分子構造予測システムを実現することを前提と して説明する。分子構造予測用プログラム 5は、 CD— ROMや磁気テープなどの記 録媒体によって、あるいは、ネットワークを介してコンピュータに読み込まれる。
[0037] 分子構造予測用プログラム 5は、複数パラメータセット決定用プログラム 61と、分子 エネルギー計算用及びコンセンサス用プログラム 62と、これらのプログラムを制御す るプログラムと力 なり、これらのプログラムによって処理装置 6は制御される。複数パ ラメータセット決定用プログラム 61は、第 1の実施形態のシステムにお 、て複数パラメ ータセット決定部 21が実行する処理と同じ処理をコンピュータに実行させ、分子エネ ルギ一計算用及びコンセンサス用プログラム 62は、第 1の実施形態のシステムにお いて分子エネルギー決定部 22及びコンセンサス部 23が実行する処理と同じ処理を コンピュータに実行させる。
[0038] 次に、図 6及び図 7を参照して、第 3の実施形態の分子構造予測システムの動作を 説明する。
[0039] 入力装置 1によって、あら力じめ決定された複数のパラメータセットがあるかどうかが 入力され、処理装置 6は、ステップ C1において、あら力じめ決定された複数のパラメ ータセットが有るかどうかを判断する。あら力じめ決定された複数のパラメータセットが ない場合には、分子構造予測用プログラム 5は、パラメータセット決定用プログラム 61 を起動し、これによつて、ステップ C2において、リサンプリングにより複数のデータセッ トが生成され、ステップ C3において 1データセットに対してパラメータセットが決定され 、ステップ C4において全データセットに対してパラメータセットが決定されたかどうか が判断され、まだパラメータセットが決定されて 、な 、データセットがある場合にはス テツプ C3に戻る。ステップ C3、 C4の処理がこのように繰り返されることにより、最終的 にすベてのデータセットに対してパラメータセットが決定され、ステップ C5に移行する
[0040] ステップ CIにお 、て、あら力じめ決定されたパラメータセットを有する場合には、パ ラメータセット決定用プログラム 61は停止するとともに、ステップ C5に移行する。
[0041] ステップ C5では、分子エネルギー計算用及びコンセンサス用プログラム 62が起動 し、 1分子構造ごとに、全てのパラメータセットでエネルギーが計算され、そのサイクル を全分子構造に対して終了するまで行われる。すなわちステップ C6において、すべ てのパラメータに対して計算したかを判定して未計算のものがあればステップ C5に 戻り、ステップ C7においてすべての予測用の分子構造に対して計算したかを判定し て未計算のものがあればステップ C5に戻ることにより、すべてのパラメータに対し、ま たすベての予測用分子構造に対してエネルギーが計算される。次に、ステップ C8に おいて、コンセンサスがとられ、予測結果が出力装置 4から出力される。
実施例
[0042] 次に、本発明を実施例によりさらに詳しく説明する。ここでは、上述した第 1の実施 形態に対応する実施例を説明する。本実施例において、分子構造予測システムは、 入力装置としてキーボードを、処理装置としてパーソナル 'コンピュータを、記憶装置 として磁気ディスク記憶装置を、出力装置としてディスプレイを備えて ヽるものとする。
[0043] パーソナル 'コンピュータは、中央処理ユニット(CPU)を備えており、 CPUは、リサ ンプリング部及びパラメータセット決定部を含む複数パラメータセット決定部と分子ェ ネルギー計算部とコンセンサス部として機能する。磁気ディスク記憶装置には、トレー ユング用分子構造データ、複数のデータセット、複数のパラメータセット、予測用分子 構造データ、複数の計算結果が記憶される。
[0044] この実施例においては、次のようなテストを行った。標的タンパク質と結合することが 既知の化合物の実験結合構造 (すなわち X線結晶構造で得られた結合構造)のデー タと、コンピュータで計算された計算結合構造の 100個のデータとを混ぜ、それら〖こ 対して本実施例のシステムにより実験結合構造がどの程度の順位で予測できるかと いうテストである。実験結合構造は、自然現象として実際に結合している構造なので 、エネルギー的に安定であり、上位に順位付けされるはずである。これに対して、計 算結合構造は、自然現象に現れない構造であり、エネルギー的に不安定で、実験結 合構造よりは下位に順位付けされるはずである。つまり、実験結合構造の順位によつ
て、性能を見ることができる。理想的には表 2示すように、実験結合構造がトップ(1位 )に順位付けされる。
[0045] このテストにおいては、本発明の適用の対象となるスコアリング関数として、 FlexX を用いた。本実施例のシステムと既存の FlexX コアリング関数 (式(1) )とで以下に 示す処理を実行し、結果の比較を行うことにより、本実施例のシステムの有用性を示 す。
[0046] [表 2] 表 2
実験結合構造は、 Protein Data Bank (http : //www. rcsb. org/pdb/ )に登録されている構造である。また、各タンパク質と化合物との 100個の計算結合 構造としては、 Wangらがドッキングシミュレーション 'ソフトウェア AUTODOCKによ つて生成したもの (Renxiao Wang et al. , Comparative Evaluation of 11 Scoring Functions for Molecular Docking", J. Med. Chem. , 2003, vol. 46, 2287— 2303)を利用した。
[0047] まず、テストを実施するための準備として、まず、トレーニング用分子構造データと、 予測用分子構造データの作成を行った。本実施例では、全 96種類のタンパク質と化 合物の複合体の保有データを、複数のパラメータセット生成用データ 49種類と、予 測用データ 47種類に分割した。分割は無作為に行った。表 3は、本実施例で用いた タンパク質と化合物の複合体の PDBコード一覧である。
[0048] [表 3]
本実施例にお 、て、複数のパラメータセットを生成するために用いる FlexXのスコ ァリング関数 (エネルギー関数)の A G は、次のように表される。
bind
[0049] [数 2] match
ここで ^は位置に依存する関数を表し、 はスコアパラメータを表し、∑は相互作 用に関わる原子ペア(pair)の全てについて和を表す。 matchは、水素結合と、金属 コンタクトと、芳香族間の相互作用とからなる項である。また、 lipoは疎水性相互作用 を表す項であり、 ambigは極性原子と非極性原子の相互作用を表す項であり、 clash は原子の衝突に対するペナルティ項であり、 rotは化合物がタンパク質と結合すること によって失うエントロピ一項を表す。 n は化合物の回転可能単結合数である。
rot
[0050] 本実施例で注目するパラメータセットをスコアパラメータ(エネルギーパラメータ)とし 、最適なスコアパラメータセットを決めるために、以下のスコアリング関数を定義する。
[0051] [数 3]
Gbind = (aAGmaich ) ^ F match + {bAGiip) ) ^ ¾0 +(CAG ) + (dAGchlsh ) ^ Fdash pair pair pair pair
+ {eAGrot)nrot+AG0 (2) 式(2)において、 a, b, c, d, eは、それぞれ、既存の FlexXのスコアパラメータ AG , AG , AG , AG , AG の重み因子である。この(a, b, c, d, e)が、 match Hop ambig clash rot
実質的にトレーニングデータによって決定されるパラメータセットである。 (a, b, c, d, e)が(1, 1, 1, 1, 1)の場合は、式(1)に一致する。
[0052] まず、 96種類の複合体に対して、式(1)で表される FlexXスコアリング関数によって スコア(エネルギー)を求めた。前述のように、 1種類あたり、 1つの実験結合構造 (X 線結晶構造)と 100個の計算結合構造があるので、 96種類 X (1 + 100) =9696結 合構造に対してスコアが求められたことになる。その際、 AG だけでなぐ match, 1 bind
ipo, ambig, clash, rotの各項のスコアも個別に保存しておく。計算された結果は、 複数のパラメータセット生成用の複合体についてはトレーニング用分子構造データ 記憶部に、予測用の複合体にっ 、ては予測用分子構造データ記憶部に記憶してお
<o
[0053] 以上の準備が整った後、本実施例の分子構造予測システムにおいて、入力装置に より、動作開始の入力を行う。
[0054] まず、パラメータ決定用記憶装置のデータのリサンプリングを行う。本実施例におけ るリサンプリングの手順は以下のようである。
[0055] トレーニング用分子構造データ記憶部のデータである 49種類の複合体から、重複 を許してランダムに 49個を選び出す。これを 500回行うことにより、 500個のデータセ ットを作成し、それらは複数のデータセット記憶部に記憶される。これを模式的に表す と以下のようになる。 p.は複合体の種類を表している。
タセット 1 (ρ , ρ , ρ , ρ , ρ , ρ , ···, ρ )
1 1 2 4 5 7 49
タセット 2 (ρ , ρ , ρ , ρ , ρ , ρ , ···, ρ )
2 3 3 5 6 7 48
タセット 3 (ρ , ρ , ρ , ρ , ρ , ρ , ···, ρ )
1 4 6 10 11 12 49 データセット 500 : (ρ , ρ , ρ , ρ , ρ , ρ , ···, ρ )
[0056] 次に、複数のデータセット記憶部に記憶された 500個のデータセットについて、各 データセットにおける最適なパラメータセットを決定する。本実施例における 1データ セットに対するパラメータ決定手法は以下に示すものである。
[0057] まず、データセット内の複合体 ρについて、 Zスコア Zを求める。
ここで、 E は X線結晶構造のエネルギー、 < E >及び σ は、それぞれ、
exp, calc, calc,
計算結合構造のスコア (エネルギー)の平均及び標準偏差を表す。
[0059] 次に、データセット内の全ての Zの絶対値の平均 < Z >が最大になるような(a, b, c , d, e)を求める。
[0060] 上記の方法で、 500個分のデータセットそれぞれについて、最適なパラメータセット
(a, b, c, d, e)を決定する。つまり、 500個の最適なパラメータセット(a , b , c . d , e ) , (a , b , c , d , e ) , · · ·, (a , b , c , d , e )力、複数のパラメータセッ
1 2 2 2 2 2 500 500 500 500 500
ト記憶部に記憶される。リサンプリングによる複数のパラメータ決定の模式図を図 8に 示す。
[0061] 次に、本実施例における予測の仕方を、 1種類の複合体を例に説明する。ここで説 明される動作を予測用複合体 47種類に対して行うことになる。
[0062] 決定された 500個のパラメータセットを利用して、予測用分子構造データに対する スコア (エネルギー)計算を式 (2)を用いて行う。 1種類の複合体は、実験結合構造と 計算結合構造 100偶力 Sあるので、つまり、 500 X (1 + 100) = 50500偶のス =3ァカ S 計算されること〖こなる。
[0063] 各パラメータセットで求められた 1つの実験結合構造のスコアと 100個の計算結合 構造のスコア(エネルギー)とに基づいて、 1から 101までの順位付けを行う。同様の 動作を、 500個のパラメータセット分を行う。その結果、表 4のようなマトリックスが得ら れること〖こなる。次に、各結合構造のランクの頻度を求める。その結果、表 5のような マトリックスが得られることになる。表 5で得られる頻度を用いて、次の式で表されるコ ンセンサススコア Consensusを定義する。
[0064] [数 5]
Consensus = (N - i)Pt (4)
i
Nはデータ数を表すので、ここでは N=101( =実験 +計算)である。 と はそれ ぞれ、順位と順位の頻度を表している。 la4hの Exp (実験値)と calcl (1番目の計算 値)を例にすると、次のようになる。
Exp :0.85X (101-D+O.08 X (101-2) H—— hO.00 X (101— 101)=1 00. 910
calcl :0.08 X (101— 1)+0.05 X (101-2) H—— hO.00 X (101— 101)=96 . 896
[0065] 上記のように求められたコンセンサススコアの高いものから順位付けした結果が、出 力装置力 出力される。テスト用複合体 47種類について、同様の計算が行われ、結 果出力後、終了した。
[0066] 最終的に得られる実験結合構造の順位を、コンセンサススコアと、既存の FlexX コアリング関数 (式(1))で求められるスコアとで比較した結果が表 6に示される。本実 施例のシステムは、既存の FlexXスコアよりも、 18種類の複合体で順位が良い。特に 、 lcla(41上昇)、 ltet(18上昇)、 2sns(7上昇)、 2tmn(8上昇)、 4xia(12上昇)は 、大幅に順位がよくなつていることが分かる。また、実験結合構造が順位トップ(1位) であった数は、本実施例のシステムでは 25個に対して、既存の FlexXスコアでは 23 個であることからも、本実施例のシステムが優れていることが分かる。
[0067] [表 4]
各パラメータセットから求められたスコアに対する順位付け (1a4hの一部抜粋)
Expは実験結合構造、 calcは計算結合構造を表す。
5]
表 5 各順位の頻度 (1 a4hの一部抜粋)
Expは実験結合構造、 calcは計算結合構造を表す。
1行あたりの全ての頻度の和は 1である。
コンセンサススコアと既存の FlexXスコアの実験結合構造の順位
Consensusは本発明のシステムで得られた結果を表し、 FlexX orgは既存の FlexX スコアの結果を表す。
産業上の利用可能性
本発明は、薬剤候補ィ匕合物探索をコンピュータで実現するためのプログラムといつ た用途に適用できる。この適用によって、創薬のコスト削減、効率化を実現することが 可能になる。さらに本発明は、分子シミュレーションのおけるスコアリング関数やエネ ルギ一関数の経験的パラメータ決定システムといった用途に適用できる。