JPWO2007105794A1 - 分子構造予測システム、方法及びプログラム - Google Patents

分子構造予測システム、方法及びプログラム Download PDF

Info

Publication number
JPWO2007105794A1
JPWO2007105794A1 JP2008505203A JP2008505203A JPWO2007105794A1 JP WO2007105794 A1 JPWO2007105794 A1 JP WO2007105794A1 JP 2008505203 A JP2008505203 A JP 2008505203A JP 2008505203 A JP2008505203 A JP 2008505203A JP WO2007105794 A1 JPWO2007105794 A1 JP WO2007105794A1
Authority
JP
Japan
Prior art keywords
molecular structure
energy
consensus
molecular
parameter sets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008505203A
Other languages
English (en)
Other versions
JP5262709B2 (ja
Inventor
広晃 福西
広晃 福西
礼仁 寺本
礼仁 寺本
島田 次郎
次郎 島田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008505203A priority Critical patent/JP5262709B2/ja
Publication of JPWO2007105794A1 publication Critical patent/JPWO2007105794A1/ja
Application granted granted Critical
Publication of JP5262709B2 publication Critical patent/JP5262709B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C10/00Computational theoretical chemistry, i.e. ICT specially adapted for theoretical aspects of quantum chemistry, molecular mechanics, molecular dynamics or the like

Landscapes

  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)

Abstract

複数の評価システムで得られた結果から分子の最安定構造の予測を行う分子構造予測方法は、トレーニングデータセットから、リサンプリングにより複数のデータセットを生成するステップと、生成された各々のデータセットに対してパラメータセットを決定して複数のパラメータセットを得るステップと、その複数のパラメータセットを用いて、予測用分子データに対する分子のエネルギー計算を行うステップと、複数のエネルギーもしくは3次元構造の結果に基づいてコンセンサスをとるステップと、コンセンサスの結果から最安定な分子構造を予測するステップとを、を有する。

Description

本発明は、各種の分子の構造をシミュレーションによって予測する分子構造予測システムおよび方法に関し、特に、複数の評価システムで得られた結果からコンセンサスをとることによって分子の最安定構造の予測を行う分子構造予測システム及び方法に関する。
実験で観測され得る分子の最安定構造を計算によって予測する方法として、非経験的分子軌道法、分子力場法、ドッキングシミュレーションなど、計算の近似レベルによって様々なものがある。それらの方法では、エネルギーが最小になる分子構造を探索し、それを最安定構造として予測する。
最も精度の高い方法は、量子力学の理論に基づき、経験的なパラメータを必要としない非経験的分子軌道法であるが、この方法は膨大に計算資源と計算時間を必要とし、しばしば、現実的な計算時間では解を与えないことがある。逆に、分子力場法やドッキングシミュレーションなどの方法では、エネルギー計算に経験的パラメータを用いているので、計算を高速化することができる。しかしながら、計算で用いる経験的パラメータが十分なトレーニングデータ数から決定されていない場合には、精度における信頼性が低くなるという問題点を有する。分子力場法やドッキングシミュレーションによって分子構造を予測するソフトウェアの中には、実際、限られたトレーニングデータ数しか用いていないために、精度が不十分な結果しか与えものも多い。精度改善のためにトレーニングデータ数を増やしても、世の中に存在し得る化合物の数は膨大なので、全ての可能性を考慮することは不可能である。経験的パラメータの決定法としては様々なものがあり、例えば、非経験的分子軌道法の計算結果にフィットさせる方法や、実験データにフィットさせる方法がある。
分子力場法やドッキングシミュレーションは、薬剤候補探索において、コスト削減のために、頻繁に利用されている。薬剤候補探索の目的は、標的疾患に関わるタンパク質に対して強く相互作用する化合物を薬剤候補として探すことであり、この探索は、タンパク質と相互作用した状態での分子構造のエネルギーを計算し、計算されたエネルギーが低い構造を探すことによって達成される。精度の高い非経験的分子軌道法ではなく、分子力場法やドッキングシミュレーションを用いる理由は、世の中には数百万種類レベルの膨大な数の化合物が存在するので、ある程度、精度を犠牲にしても、高速に処理できることに比重が置かれるからである。計算精度の信頼性の低さは、実際に実験する化合物の量を増やすことによって、補うことになる。
ドッキングシミュレーションは、とりわけ高速化を優先した粗視化レベルが高い方法であるので、そこから得られるスコアリング関数(エネルギー関数)の精度は高いとは言えない。単一のスコアリング関数だけでは十分な精度が得られないので、複数のスコアリング関数をそれぞれ計算し、最安定な分子構造についてのコンセンサスをとることによって、タンパク質と化合物の相互作用の強さを予測する方法が用いられるようになってきた。この種の方法は、コンセンサス法、または、コンセンサススコアリングとも呼ばれており、この方法を採用することで予測精度が向上することが報告されている。
従来の方法の一例として、Triopos社製品SybylのコンセンサススコアリングCScoreの基本的考え方を表1に示す。コンセンサススコアリングの各要素スコアリング関数は、F−score、D−score、G−score、PMF、ChemScoreである。表中における“A”、“B”、“C”は、タンパク質と化合物の結合構造を表している。各スコアは、0から1の範囲で正規化され、デフォルトでは0.5より小さい値には0ポイント、0.5以上の値には1ポイントが付与される。付与された各ポイントは、表においては括弧内で示されている。A、B、Cのポイントの合計値がCScoreとして示されている。表1に示した例では、予測される相互作用の強さの順が、C,B,Aであることが分かる。
Figure 2007105794
コンセンサスの取り方については、前述のように値に対してポイントを与える単純なものから、Jacobbsonらが提案したような、PLS−DA、ベイズ分類(Bayesian classification)、ルールに基づく方法(rule−based method)などの統計学手法を用いて、高度に行われる方法もある(M. Jacobsson et al., “Improving Structure−Based Virtual Screening by Multivariate Analysis of Scoring Data,” J. Med. Chem., 2003, vol. 46, pp. 5781−5787)。それらの根本的な考え方は、複数のスコアリング関数から多くの情報を抽出し、1つのソフトウェアから出力されるスコアリング関数では不十分であった精度を改善するというものである。
なお、最適な分子構造を予測することに関する特許文献としては、特表2005−524129号公報、特開平5−120397号公報、特開平10−48157号公報、特表2000−516755号公報などがあり、分子構造探索に関するものではないが並列計算に関するものとして、特開平11−259433号公報がある。
以下、本明細書中で引用した参考文献を列挙する。
特表2005−524129号公報 特開平5−120397号公報 特開平10−48157号公報 特表2000−516755号公報 特開平11−259433号公報 M. Jacobsson et al., "Improving Structure−Based Virtual Screening by Multivariate Analysis of Scoring Data," J. Med. Chem., 2003, vol. 46, pp. 5781−5787 Renxiao Wang et al., "Comparative Evaluation of 11 Scoring Functions for Molecular Docking", J. Med. Chem., 2003, vol. 46, 2287−2303
しかしながら、上述した従来のコンセンサス法あるいはコンセンサススコアリングでは、複数の異なる種類のエネルギー関数が必要になり、計算の煩雑化が避けられない。また、各エネルギー関数で用いられるパラメータセットは最適なものであるかどうか判断できない、という問題点もある。最適なものかどうかを判断できない理由は、分子反応には準安定構造が多数存在しているので、最適パラメータを一意的に決定することは非常に困難である、ということにある。
本発明の第1の目的は、単一のエネルギー関数を用いて、コンセンサス法及びコンセンサススコアリングを行うことができるシステム及び方法を提供することにある。
本発明の第2の目的は、エネルギー関数の精度に大きな影響を与えるパラメータセットに関して、一意的に決定されたものではなく、複数のパラメータセットを利用することが可能なシステム及び方法を提供することにある。
本発明の第1の様相に従えば、分子構造予測システムは、単一のエネルギー関数に対して、複数のパラメータセットで分子のエネルギーを計算し、得られる複数の結果から統計手法を用いて最安定な分子構造についてのコンセンサスをとり、コンセンサスの結果から最安定な分子構造を予測することを特徴とする。
本発明の第2の様相に従えば、分子構造予測システムは、複数のパラメータセットを記憶するパラメータセット記憶部と、予測用の分子構造データを記憶する予測用分子構造データ記憶部と、分子のエネルギーを計算する分子エネルギー計算手段と、複数のパラメータセットを用いて計算された複数の分子のエネルギーもしくは分子構造の結果に基づいてコンセンサスをとるコンセンサス手段と、備える。
さらに、あらかじめ決定された複数のパラメータセットが利用できない場合に対応するために、本発明の分子構造予測システムは、トレーニングデータセットからリサンプリングにより複数のデータセットを生成するリサンプリング手段と、リサンプリング手段によって生成された複数のデータセットの各々に対してパラメータセットを決定するパラメータセット決定手段と、を含む複数パラメータセット決定手段をさらに備えていてもよい。
本発明では、このような構成を採用することによって、エネルギー関数が1種類であっても、複数のパラメータセットで計算した分子のエネルギーからコンセンサスをとることによって、最安定な分子構造を予測することができる。
本発明の第3の様相に従えば、分子構造予測方法は、単一のエネルギー関数に対して、複数のパラメータセットで分子のエネルギーを計算し、得られる複数の結果から統計手法を用いて最安定な分子構造についてのコンセンサスをとり、コンセンサスの結果から最安定な分子構造を予測することを特徴とする。
本発明の第4の様相に従えば、分子構造予測方法は、あらかじめ利用できる複数のパラメータセットがある場合は、パラメータセット記憶部に複数のパラメータセットを記憶する段階と、あらかじめ利用できる複数のパラメータセットがない場合は、トレーニングデータセットからリサンプリングにより複数のデータセットを生成し、この生成された複数のデータセットの各々に対してパラメータセットを決定することによって複数のパラメータセットを決定し、その後、パラメータセット記憶部に複数のパラメータセットを記憶する段階と、予測用分子構造データ記憶部に予測用の分子構造データを記憶する段階と、分子のエネルギーを計算する段階と、複数のパラメータセットを用いて計算された、複数の分子のエネルギーもしくは分子の3次元構造の結果に基づいてコンセンサスをとる段階と、を有する。
従来のコンセンサス法及びコンセンサススコアリングでは、複数の既存のエネルギー関数を用いなければならなかったが、本発明においては、ただ1つのエネルギー関数で実現することができる。また、本発明では、パラメータセットを一意的に決定することに囚われず、パラメータセットを複数用いて分子構造のエネルギー計算を行い、得られる複数の分子構造のエネルギー計算結果からコンセンサスをとることによって、精度の高い予測ができる。
本発明の第1の実施形態の分子構造予測システムを示すブロック図である。 リサンプリングの概念を示す図である。 図1に示す分子構造予測システムの動作を示すフローチャートである。 本発明の第2の実施形態の分子構造予測システムを示すブロック図である。 図4に示す分子構造予測システムの動作を示すフローチャートである。 本発明の第3の実施形態の分子構造予測システムを示すブロック図である。 図6に示す分子構造予測システムの動作を示すフローチャートである。 リサンプリングによるパラメータ決定法を示す概念図である。
符号の説明
1 入力装置
2,6 処理装置
3 記憶装置
4 出力装置
5 分子構造予測用プログラム
21 複数パラメータセット決定部
22 分子エネルギー計算部
23 コンセンサス部
31 トレーニング用データ記憶部
32 データセット記憶部
33 パラメータセット記憶部
34 予測用分子構造データ記憶部
35 計算結果記憶部
61 パラメータセット決定用プログラム
62 分子エネルギー決定用及びコンセンサス用プログラム
211 リサンプリング部
212 パラメータセット決定部
図1に示す本発明の第1の実施形態の分子構造予測システムは、大別すると、キーボード等の入力装置1と、プログラム制御により動作する処理装置2と、情報を記憶する記憶装置3と、ディスプレイ装置や印刷装置等の出力装置4と、からなっている。
処理装置2は、複数のパラメータセットを生成する複数パラメータセット決定部21と、複数パラメータセット決定部21で生成された複数のパラメータセットを用いて分子のエネルギー計算を行う分子エネルギー計算部22と、分子エネルギー計算部22で得られる複数の結果のコンセンサスをとるコンセンサス部23と、を含んでいる。
複数パラメータセット決定部21は、トレーニング用データである、限られた化合物の分子構造から、リサンプリングによって複数のデータセットを生成するリサンプリング部221と、リサンプリング部221で生成された各々のデータセットに対してパラメータセットを決定するパラメータセット決定部212と、を含んでいる。図2は、リサンプリング部222でのリサンプリングの概念を示している。ここでの「母集団」は、現実世界に存在し得る全タンパク質と化合物の複合体であるが、扱える複合体の数は限られており、この限られた複合体をトレーニング用データとして用いてリサンプリングを行うことで、複数のデータセットが生成する。
ここでリサンプリングの仕方としては、例えば、トレーニングデータセットから、重複を許してランダムにあらかじめ決められたデータ数まで選抜し、あらかじめ決めたデータセット数の回数だけリサンプリングを行う方法がある。パラメータセットの決定方法としては、例えば、1分子の実験構造のエネルギーと、多数の非実験構造の平均エネルギー及び標準偏差(すなわち、自乗平均平方根偏差(root−mean−square deviation))から得られるZ値の絶対値を計算することを、1データセット内の全ての分子について行い、Z値の絶対値の平均値が最大になるようなパラメータの組み合わせを決定する方法がある。あるいは、1分子の実験構造のエネルギーと、多数の非実験構造の平均エネルギー及び標準偏差から得られるZ値の絶対値を計算することを、1データセット内の全ての分子について行い、Z値の絶対値の中央値が、最大になるようなパラメータの組み合わせを決定する方法がある。
分子エネルギー計算部22は、予測用分子構造データに対してエネルギー計算を行う。エネルギー計算の方法としては、既知の3次元構造に対して一点計算する方法、または、分子動力学法もしくはモンテカルロ法によって構造探索を行いながら計算する方法などが用いられる。
コンセンサス部23は、複数のパラメータセットを用いて計算された結果であるエネルギーもしくは3次元構造(分子構造)から、最安定な分子構造についてのコンセンサスをとることによって、最安定な分子構造を予測する。コンセンサス部でのコンセンサスのとしては、具体的には、例えば、複数のパラメータセットで得られた複数の分子のエネルギーの結果に基づいて、統計手法を用いてコンセンサスをとる方法や、複数のパラメータセット各々で、分子のエネルギーに基づいて順位付けを行い、次に、各分子構造の順位の頻度を計算し、頻度を重みとしてコンセンサススコアを計算し、コンセンサススコアの良い順に最安定な分子構造の順位付けを行う方法がある。さらには、Nをデータ数、iを順位、Pを順位の頻度として、
Figure 2007105794
で表わされるコンセンサススコアConsensusを計算し、コンセンサススコアの良い順に最安定な分子構造の順位付けを行う方法もある。
記憶装置3は、トレーニング用分子構造データ記憶部31と、データセット記憶部32と、パラメータセット記憶部33と、予測用分子構造データ記憶部34と、計算結果記憶部35と、を含んでいる。トレーニング用分子構造データ記憶部31とデータセット記憶部32とは、複数パラメータセット決定部21の動作のために使われる。予測用分子構造データ記憶部34は、予測用の分子構造データを記憶している。計算結果記憶部35は、複数のパラメータセットを用いて計算された複数のエネルギーもしくは3次元構造を記憶する。
次に、図1及び図3を参照して、第1の実施形態の分子構造予測システムの動作を説明する。
入力装置1によって、実行指示が与えられ、複数パラメータセット決定部21が起動すると、まずステップA1において、リサンプリング部211は、複数のデータセットを生成し、次にステップA2において、パラメータセット決定部212は、1データセットに対してパラメータセットを決定させることを実行する。その後、ステップA3において、すべてのデータセットに対してパラメータセットを決定したかどうかを判定し、未決定のものがあればステップA2に戻ることにより、すべてのデータセットに対してパラメータセットを決定する。生成された複数のパラメータセットは、パラメータセット記憶部33に記憶される。
次に、パラメータセット記憶部33に記憶された複数のパラメータセットを用いて、予測用分子構造データ記憶部34に格納されているデータに対する分子のエネルギー計算が分子エネルギー計算部22によって実行される。その際は、ステップA4において、1分子構造ごとに、全てのパラメータセットでエネルギーが計算され、そのサイクルを全分子構造に対して終了するまで行われる。すなわちステップA5において、すべてのパラメータに対して計算したかを判定して未計算のものがあればステップA4に戻り、ステップA6においてすべての予測用の分子構造に対して計算したかを判定して未計算のものがあればステップA4に戻ることにより、すべてのパラメータに対し、またすべての予測用分子構造に対してエネルギーを計算する。このようにして、分子のエネルギー計算が終わると、次に、ステップA7において、コンセンサス部23によってコンセンサスがとられ、予測結果が出力装置4から出力される。
次に、本発明の第2の実施形態の分子構造予測システムについて説明する。図4は、第2の実施形態の分子構造予測システムの構成を示している。この分子構造予測システムは、あらかじめ決定された複数のパラメータセットが利用できる場合のものであり、図1に示した第1の実施形態のシステムから、複数パラメータセット決定部21とトレーニング用分子構造データ記憶部31とデータセット記憶部32とを取り除いた構成を有する。
次に、図4及び図5を参照して、第2の実施形態の分子構造予測システムの動作を説明する。
入力装置1によって実行指示が与えられると、パラメータセット記憶部33に記憶された複数のパラメータセットを用いて、予測用分子構造データ記憶部34に格納されているデータに対する分子のエネルギー計算が、分子エネルギー計算部22によって実行される。この場合も、第1の実施形態においてステップA4〜A6で示したものと同様に、ステップB1〜B3において、分子の構造エネルギー計算は、予測用分子構造データの1分子構造ごとに、全てのパラメータセットで実行され、そのサイクルが全分子構造に対して終了するまで実行される。分子のエネルギー計算が終わると、ステップB4において、コンセンサス部23によってコンセンサスがとられ、予測結果が出力装置4から出力される。
次に、本発明の第3の実施形態の分子構造予測システムについて説明する。図6は、第3の実施形態の分子構造予測システムの構成を示している。この分子構造予測システムは、大別すると、キーボード等の入力装置1と、プログラム制御により動作する処理装置6と、情報を記憶する記憶装置3と、ディスプレイ装置や印刷装置等の出力装置4とからなっているが、ここでは、パーソナルコンピュータやワークステーション(あるいはスーパーコンピュータ)などのコンピュータに、分子構造予測用プログラム5を読み込ませて実行させることにより分子構造予測システムを実現することを前提として説明する。分子構造予測用プログラム5は、CD−ROMや磁気テープなどの記録媒体によって、あるいは、ネットワークを介してコンピュータに読み込まれる。
分子構造予測用プログラム5は、複数パラメータセット決定用プログラム61と、分子エネルギー計算用及びコンセンサス用プログラム62と、これらのプログラムを制御するプログラムとからなり、これらのプログラムによって処理装置6は制御される。複数パラメータセット決定用プログラム61は、第1の実施形態のシステムにおいて複数パラメータセット決定部21が実行する処理と同じ処理をコンピュータに実行させ、分子エネルギー計算用及びコンセンサス用プログラム62は、第1の実施形態のシステムにおいて分子エネルギー決定部22及びコンセンサス部23が実行する処理と同じ処理をコンピュータに実行させる。
次に、図6及び図7を参照して、第3の実施形態の分子構造予測システムの動作を説明する。
入力装置1によって、あらかじめ決定された複数のパラメータセットがあるかどうかが入力され、処理装置6は、ステップC1において、あらかじめ決定された複数のパラメータセットが有るかどうかを判断する。あらかじめ決定された複数のパラメータセットがない場合には、分子構造予測用プログラム5は、パラメータセット決定用プログラム61を起動し、これによって、ステップC2において、リサンプリングにより複数のデータセットが生成され、ステップC3において1データセットに対してパラメータセットが決定され、ステップC4において全データセットに対してパラメータセットが決定されたかどうかが判断され、まだパラメータセットが決定されていないデータセットがある場合にはステップC3に戻る。ステップC3、C4の処理がこのように繰り返されることにより、最終的にすべてのデータセットに対してパラメータセットが決定され、ステップC5に移行する。
ステップC1において、あらかじめ決定されたパラメータセットを有する場合には、パラメータセット決定用プログラム61は停止するとともに、ステップC5に移行する。
ステップC5では、分子エネルギー計算用及びコンセンサス用プログラム62が起動し、1分子構造ごとに、全てのパラメータセットでエネルギーが計算され、そのサイクルを全分子構造に対して終了するまで行われる。すなわちステップC6において、すべてのパラメータに対して計算したかを判定して未計算のものがあればステップC5に戻り、ステップC7においてすべての予測用の分子構造に対して計算したかを判定して未計算のものがあればステップC5に戻ることにより、すべてのパラメータに対し、またすべての予測用分子構造に対してエネルギーが計算される。次に、ステップC8において、コンセンサスがとられ、予測結果が出力装置4から出力される。
次に、本発明を実施例によりさらに詳しく説明する。ここでは、上述した第1の実施形態に対応する実施例を説明する。本実施例において、分子構造予測システムは、入力装置としてキーボードを、処理装置としてパーソナル・コンピュータを、記憶装置として磁気ディスク記憶装置を、出力装置としてディスプレイを備えているものとする。
パーソナル・コンピュータは、中央処理ユニット(CPU)を備えており、CPUは、リサンプリング部及びパラメータセット決定部を含む複数パラメータセット決定部と分子エネルギー計算部とコンセンサス部として機能する。磁気ディスク記憶装置には、トレーニング用分子構造データ、複数のデータセット、複数のパラメータセット、予測用分子構造データ、複数の計算結果が記憶される。
この実施例においては、次のようなテストを行った。標的タンパク質と結合することが既知の化合物の実験結合構造(すなわちX線結晶構造で得られた結合構造)のデータと、コンピュータで計算された計算結合構造の100個のデータとを混ぜ、それらに対して本実施例のシステムにより実験結合構造がどの程度の順位で予測できるかというテストである。実験結合構造は、自然現象として実際に結合している構造なので、エネルギー的に安定であり、上位に順位付けされるはずである。これに対して、計算結合構造は、自然現象に現れない構造であり、エネルギー的に不安定で、実験結合構造よりは下位に順位付けされるはずである。つまり、実験結合構造の順位によって、性能を見ることができる。理想的には表2示すように、実験結合構造がトップ(1位)に順位付けされる。
このテストにおいては、本発明の適用の対象となるスコアリング関数として、FlexXを用いた。本実施例のシステムと既存のFlexXスコアリング関数(式(1))とで以下に示す処理を実行し、結果の比較を行うことにより、本実施例のシステムの有用性を示す。
Figure 2007105794
実験結合構造は、Protein Data Bank (http://www.rcsb.org/pdb/)に登録されている構造である。また、各タンパク質と化合物との100個の計算結合構造としては、Wangらがドッキングシミュレーション・ソフトウェアAUTODOCKによって生成したもの(Renxiao Wang et al., “Comparative Evaluation of 11 Scoring Functions for Molecular Docking”, J. Med. Chem., 2003, vol. 46, 2287−2303)を利用した。
まず、テストを実施するための準備として、まず、トレーニング用分子構造データと、予測用分子構造データの作成を行った。本実施例では、全96種類のタンパク質と化合物の複合体の保有データを、複数のパラメータセット生成用データ49種類と、予測用データ47種類に分割した。分割は無作為に行った。表3は、本実施例で用いたタンパク質と化合物の複合体のPDBコード一覧である。
Figure 2007105794
本実施例において、複数のパラメータセットを生成するために用いるFlexXのスコアリング関数(エネルギー関数)のΔGbindは、次のように表される。
Figure 2007105794
ここでFは位置に依存する関数を表し、ΔGはスコアパラメータを表し、Σは相互作用に関わる原子ペア(pair)の全てについて和を表す。matchは、水素結合と、金属コンタクトと、芳香族間の相互作用とからなる項である。また、lipoは疎水性相互作用を表す項であり、ambigは極性原子と非極性原子の相互作用を表す項であり、clashは原子の衝突に対するペナルティ項であり、rotは化合物がタンパク質と結合することによって失うエントロピー項を表す。nrotは化合物の回転可能単結合数である。
本実施例で注目するパラメータセットをスコアパラメータ(エネルギーパラメータ)とし、最適なスコアパラメータセットを決めるために、以下のスコアリング関数を定義する。
Figure 2007105794
式(2)において、a,b,c,d,eは、それぞれ、既存のFlexXのスコアパラメータΔGmatch,ΔGliop,ΔGambig,ΔGclash,ΔGrotの重み因子である。この(a,b,c,d,e)が、実質的にトレーニングデータによって決定されるパラメータセットである。(a,b,c,d,e)が(1,1,1,1,1)の場合は、式(1)に一致する。
まず、96種類の複合体に対して、式(1)で表されるFlexXスコアリング関数によってスコア(エネルギー)を求めた。前述のように、1種類あたり、1つの実験結合構造(X線結晶構造)と100個の計算結合構造があるので、96種類×(1+100)=9696結合構造に対してスコアが求められたことになる。その際、ΔGbindだけでなく、match,lipo,ambig,clash,rotの各項のスコアも個別に保存しておく。計算された結果は、複数のパラメータセット生成用の複合体についてはトレーニング用分子構造データ記憶部に、予測用の複合体については予測用分子構造データ記憶部に記憶しておく。
以上の準備が整った後、本実施例の分子構造予測システムにおいて、入力装置により、動作開始の入力を行う。
まず、パラメータ決定用記憶装置のデータのリサンプリングを行う。本実施例におけるリサンプリングの手順は以下のようである。
トレーニング用分子構造データ記憶部のデータである49種類の複合体から、重複を許してランダムに49個を選び出す。これを500回行うことにより、500個のデータセットを作成し、それらは複数のデータセット記憶部に記憶される。これを模式的に表すと以下のようになる。pは複合体の種類を表している。
データセット1 :(p,p,p,p,p,p,…,p49
データセット2 :(p,p,p,p,p,p,…,p48
データセット3 :(p,p,p,p10,p11,p12,…,p49

データセット500 :(p,p,p,p,p,p12,…,p47
次に、複数のデータセット記憶部に記憶された500個のデータセットについて、各データセットにおける最適なパラメータセットを決定する。本実施例における1データセットに対するパラメータ決定手法は以下に示すものである。
まず、データセット内の複合体pについて、ZスコアZを求める。
Figure 2007105794
ここで、Eexp,iはX線結晶構造のエネルギー、<Ecalc,i>及びσcalc,iは、それぞれ、計算結合構造のスコア(エネルギー)の平均及び標準偏差を表す。
次に、データセット内の全てのZの絶対値の平均<Z>が最大になるような(a,b,c,d,e)を求める。
上記の方法で、500個分のデータセットそれぞれについて、最適なパラメータセット(a,b,c,d,e)を決定する。つまり、500個の最適なパラメータセット(a,b,c,d,e),(a,b,c,d,e),…,(a500,b500,c500,d500,e500)が、複数のパラメータセット記憶部に記憶される。リサンプリングによる複数のパラメータ決定の模式図を図8に示す。
次に、本実施例における予測の仕方を、1種類の複合体を例に説明する。ここで説明される動作を予測用複合体47種類に対して行うことになる。
決定された500個のパラメータセットを利用して、予測用分子構造データに対するスコア(エネルギー)計算を式(2)を用いて行う。1種類の複合体は、実験結合構造と計算結合構造100個があるので、つまり、500×(1+100)=50500個のスコアが計算されることになる。
各パラメータセットで求められた1つの実験結合構造のスコアと100個の計算結合構造のスコア(エネルギー)とに基づいて、1から101までの順位付けを行う。同様の動作を、500個のパラメータセット分を行う。その結果、表4のようなマトリックスが得られることになる。次に、各結合構造のランクの頻度を求める。その結果、表5のようなマトリックスが得られることになる。表5で得られる頻度を用いて、次の式で表されるコンセンサススコアConsensusを定義する。
Figure 2007105794
Nはデータ数を表すので、ここではN=101(=実験+計算)である。RとPはそれぞれ、順位と順位の頻度を表している。1a4hのExp(実験値)とcalc1(1番目の計算値)を例にすると、次のようになる。
Exp :0.85×(101−1)+0.08×(101−2)+…+0.00×(101−101)=100.910
calc1:0.08×(101−1)+0.05×(101−2)+…+0.00×(101−101)=96.896
上記のように求められたコンセンサススコアの高いものから順位付けした結果が、出力装置から出力される。テスト用複合体47種類について、同様の計算が行われ、結果出力後、終了した。
最終的に得られる実験結合構造の順位を、コンセンサススコアと、既存のFlexXスコアリング関数(式(1))で求められるスコアとで比較した結果が表6に示される。本実施例のシステムは、既存のFlexXスコアよりも、18種類の複合体で順位が良い。特に、1cla(41上昇)、1tet(18上昇)、2sns(7上昇)、2tmn(8上昇)、4xia(12上昇)は、大幅に順位がよくなっていることが分かる。また、実験結合構造が順位トップ(1位)であった数は、本実施例のシステムでは25個に対して、既存のFlexXスコアでは23個であることからも、本実施例のシステムが優れていることが分かる。
Figure 2007105794
Figure 2007105794
Figure 2007105794
本発明は、薬剤候補化合物探索をコンピュータで実現するためのプログラムといった用途に適用できる。この適用によって、創薬のコスト削減、効率化を実現することが可能になる。さらに本発明は、分子シミュレーションのおけるスコアリング関数やエネルギー関数の経験的パラメータ決定システムといった用途に適用できる。

Claims (27)

  1. 1つのエネルギー関数に対して、複数のパラメータセットで分子のエネルギーを計算し、得られる複数の結果から統計手法を用いて最安定な分子構造についてのコンセンサスをとり、コンセンサスの結果から最安定な分子構造を予測することを特徴とする分子構造予測システム。
  2. 複数のパラメータセットを記憶するパラメータセット記憶部と、
    予測用の分子構造データを記憶する予測用分子構造データ記憶部と、
    分子のエネルギーを計算する分子エネルギー計算手段と、
    複数のパラメータセットを用いて計算された複数の分子のエネルギーもしくは分子構造の結果に基づいて最安定な分子構造についてのコンセンサスをとるコンセンサス手段と、
    を備える分子構造予測システム。
  3. 前記分子エネルギー計算手段は、3次元構造既知の分子に対してエネルギーの一点計算する、請求項2に記載の分子構造予測システム。
  4. 前記分子エネルギー計算手段は、分子動力学法もしくはモンテカルロ法によって構造探索を行いながら計算する、請求項2に記載の分子構造予測システム。
  5. 前記コンセンサス手段は、複数のパラメータセットで得られた複数の分子のエネルギーの結果に基づいて、統計手法を用いてコンセンサスをとる、請求項2に記載の分子構造予測システム。
  6. 前記コンセンサス手段は、
    複数のパラメータセット各々で、分子のエネルギーに基づいて順位付けを行い、
    各分子構造の順位の頻度を計算し、頻度を重みとしてコンセンサススコアを計算し、コンセンサススコアの良い順に最安定な分子構造の順位付けを行う、請求項2に記載の分子構造予測システム。
  7. 前記コンセンサス手段は、Nをデータ数、iを順位、Pを順位の頻度として、
    Figure 2007105794
    で表わされるコンセンサススコアConsensusを計算し、コンセンサススコアの良い順に最安定な分子構造の順位付けを行う、請求項2記載の分子構造予測システム。
  8. 前記分子エネルギー計算手段が、複数のパラメータセットを用いて分子動力学法またはモンテカルロ法で分子のエネルギーを計算する場合に、前記コンセンサス手段は、複数の3次元構造の結果から統計手法を用いてコンセンサスをとる、請求項2に記載の分子構造予測システム。
  9. 前記分子エネルギー計算手段が、複数のパラメータセットを用いて分子動力学法またはモンテカルロ法で分子のエネルギーを計算する場合に、前記コンセンサス手段は、3次元構造間の自乗平均平方根偏差(root−mean−square deviation)によってクラスタリングを行い、クラスターの大きい順に順位付けする、請求項2に記載の分子構造予測システム。
  10. トレーニングデータセットからリサンプリングにより複数のデータセットを生成するリサンプリング手段と、
    前記リサンプリング手段によって生成された複数のデータセットの各々に対してパラメータセットを決定するパラメータセット決定手段と、
    を含む複数パラメータセット決定手段をさらに備える請求項2に記載の分子構造予測システム。
  11. 前記リサンプリング手段は、トレーニングデータセットから、重複を許してランダムにあらかじめ決められたデータ数まで選抜し、あらかじめ決めたデータセット数の回数だけリサンプリングを行う、請求項10に記載の分子構造予測システム。
  12. 前記パラメータセット決定手段は、1分子の実験構造のエネルギーと、多数の非実験構造の平均エネルギー及び標準偏差から得られるZ値の絶対値を計算することを、1データセット内の全ての分子について行い、Z値の絶対値の平均値が最大になるようなパラメータの組み合わせを決定する、請求項10に記載の分子構造予測システム。
  13. 前記パラメータセット決定手段は、1分子の実験構造のエネルギーと、多数の非実験構造の平均エネルギー及び標準偏差から得られるZ値の絶対値を計算することを、1データセット内の全ての分子について行い、Z値の絶対値の中央値が、最大になるようなパラメータの組み合わせを決定する、請求項10記載の分子構造予測システム。
  14. 1つのエネルギー関数に対して、複数のパラメータセットで分子のエネルギーを計算し、得られる複数の結果から統計手法を用いて最安定な分子構造についてのコンセンサスをとり、コンセンサスの結果から最安定な分子構造を予測することを特徴とする分子構造予測方法。
  15. あらかじめ利用できる複数のパラメータセットがある場合は、パラメータセット記憶部に複数のパラメータセットを記憶する段階と、
    あらかじめ利用できる複数のパラメータセットがない場合は、トレーニングデータセットからリサンプリングにより複数のデータセットを生成し、前記生成された複数のデータセットの各々に対してパラメータセットを決定することによって複数のパラメータセットを決定し、その後、前記パラメータセット記憶部に前記複数のパラメータセットを記憶する段階と、
    予測用分子構造データ記憶部に予測用の分子構造データを記憶する段階と、
    分子のエネルギーを計算する段階と、
    前記複数のパラメータセットを用いて計算された、複数の分子のエネルギーもしくは分子の3次元構造の結果に基づいて最安定な分子構造についてのコンセンサスをとる段階と、
    を有することを特徴とする分子構造予測方法。
  16. 前記分子のエネルギーを計算する段階は、3次元構造既知の分子に対してエネルギーの一点計算を実行する段階、または、分子動力学法もしくはモンテカルロ法によって構造探索を行いながら計算する段階を有する、請求項15に記載の分子構造予測方法。
  17. 前記コンセンサスをとる段階において、前記コンセンサスをとる指標に関して、前記複数のパラメータセットで得られた複数の分子のエネルギー、または、前記複数のパラメータセットで得られた複数の分子の3次元構造を用いる、請求項15に記載の分子構造予測方法。
  18. 前記コンセンサスをとる段階では、前記コンセンサスの指標を前記複数の分子のエネルギーとする場合には、前記複数のパラメータセット各々で、分子のエネルギーに基づいた順位付けを行い、各分子構造の順位の頻度を計算し、頻度を重みとしてコンセンサススコアを計算し、コンセンサススコアの良い順に最安定な分子構造の順位付し、
    前記コンセンサスの指標を前記複数の分子の3次元構造とする場合には、複数のパラメータセット各々で計算された分子の全ての組み合わせで3次元構造間の自乗平均平方根偏差(root−mean−square deviation)に関するクラスタリングを行い、クラスターの大きい順に順位付けする、
    請求項17に記載の分子構造予測方法。
  19. 前記コンセンサスをとる段階では、Nをデータ数、iを順位、Pを順位の頻度として、
    Figure 2007105794
    で表されるコンセンサススコアConsensusを計算し、コンセンサススコアの良い順に最安定な分子構造の順位付けを行う、請求項15に記載の分子構造予測方法。
  20. 複数のパラメータセットを決定する際に、
    前記トレーニングデータセットから、重複を許してランダムにあらかじめ決められたデータ数まで選抜し、その作業をあらかじめ決めたデータセット数の回数だけ行い、
    前記パラメータセット決定によって、1分子の実験構造のエネルギーと、多数の非実験構造の平均エネルギー及び標準偏差から得られるZ値の絶対値を計算することを、1データセット内の全ての分子について行い、Z値の絶対値の平均値もしくは中央値が、最大になるようなパラメータの組み合わせを決定する、請求項15に記載の分子構造予測方法。
  21. コンピュータに、
    1つのエネルギー関数に対して、複数のパラメータセットで分子のエネルギーを計算する処理と、
    得られる複数の結果から統計手法を用いて最安定な分子構造についてのコンセンサスをとる処理と、
    前記コンセンサスの結果から最安定な分子構造を予測する処理と、
    を実行させる、分子構造予測プログラム。
  22. コンピュータに、
    あらかじめ利用できる複数のパラメータセットがある場合は、パラメータセット記憶部に複数のパラメータセットを記憶させる処理と、
    あらかじめ利用できる複数のパラメータセットがない場合は、トレーニングデータセットからリサンプリングにより複数のデータセットを生成し、生成された複数のデータセットの各々に対してパラメータセットを決定することによって複数のパラメータセットを決定し、その後、前記パラメータセット記憶部に前記複数のパラメータセットを記憶する処理と、
    予測用分子構造データ記憶部に予測用の分子構造データを記憶する処理と、
    分子のエネルギーを計算する処理と、
    複数のパラメータセットを用いて計算された、複数の分子のエネルギーもしくは分子構造の結果に基づいてコンセンサスをとる処理と、
    を実行させる、分子構造予測プログラム。
  23. 前記コンピュータに、
    前記分子のエネルギーを計算する処理において、3次元構造既知の分子に対してエネルギーの一点計算する処理、または、分子動力学法もしくはモンテカルロ法によって構造探索を行いながらエネルギーを計算する処理、を実行させる、請求項22に記載の分子構造予測プログラム。
  24. コンセンサスをとる処理において、コンセンサスをとる指標に関して、前記複数のパラメータセットで得られた複数の分子のエネルギー、または、前記複数のパラメータセットで得られた複数の分子の3次元構造を用いる、請求項22に記載の分子構造予測プログラム。
  25. 前記コンセンサスをとる処理において、前記コンセンサスの指標を前記複数の分子のエネルギーとする場合には、前記複数のパラメータセット各々で、分子のエネルギーに基づいた順位付けを行い、各分子構造の順位の頻度を計算し、頻度を重みとしてコンセンサススコアを計算し、コンセンサススコアの良い順に最安定な分子構造の順位付し、
    前記コンセンサスの指標を前記複数の分子の3次元構造とする場合には、複数のパラメータセット各々で計算された分子の全ての組み合わせで3次元構造間の自乗平均平方根偏差(root−mean−square deviation)に関するクラスタリングを行い、クラスターの大きい順に順位付けする、
    請求項22に記載の分子構造予測プログラム。
  26. 前記コンセンサスをとる処理において、Nをデータ数、iを順位、Pを順位の頻度として、
    Figure 2007105794
    で表わされるコンセンサススコアConsensusを計算し、コンセンサススコアの良い順に最安定な分子構造の順位付けを行う、請求項22に記載の分子構造予測プログラム。
  27. 前記複数のパラメータセットを決定する際に、
    前記トレーニングデータセットから、重複を許してランダムにあらかじめ決められたデータ数まで選抜し、その動作をあらかじめ決めたデータセット数の回数だけ行い、
    1分子の実験構造のエネルギーと、多数の非実験構造の平均エネルギー及び標準偏差から得られるZ値の絶対値を計算することを、1データセット内の全ての分子について行い、Z値の絶対値の平均値もしくは中央値が、最大になるようなパラメータの組み合わせを決定する、請求項22に記載の分子構造予測プログラム。
JP2008505203A 2006-03-15 2007-03-15 分子構造予測システム、方法及びプログラム Expired - Fee Related JP5262709B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008505203A JP5262709B2 (ja) 2006-03-15 2007-03-15 分子構造予測システム、方法及びプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006070842 2006-03-15
JP2006070842 2006-03-15
JP2008505203A JP5262709B2 (ja) 2006-03-15 2007-03-15 分子構造予測システム、方法及びプログラム
PCT/JP2007/055210 WO2007105794A1 (ja) 2006-03-15 2007-03-15 分子構造予測システム、方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2007105794A1 true JPWO2007105794A1 (ja) 2009-07-30
JP5262709B2 JP5262709B2 (ja) 2013-08-14

Family

ID=38509607

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008505203A Expired - Fee Related JP5262709B2 (ja) 2006-03-15 2007-03-15 分子構造予測システム、方法及びプログラム

Country Status (3)

Country Link
US (2) US20090048817A1 (ja)
JP (1) JP5262709B2 (ja)
WO (1) WO2007105794A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009090796A1 (ja) * 2008-01-16 2009-07-23 Nec Corporation エネルギー関数最適化システム
SG176010A1 (en) 2009-05-28 2011-12-29 Novartis Ag Substituted aminobutyric derivatives as neprilysin inhibitors
KR101586388B1 (ko) * 2013-07-18 2016-01-18 주식회사 엘지화학 분자 오비탈 분포에 대한 정량적 비교 분석 방법 및 이를 이용한 시스템

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0589074A (ja) * 1991-09-30 1993-04-09 Fujitsu Ltd 二次構造予測装置
JP3104331B2 (ja) * 1991-10-28 2000-10-30 ダイキン工業株式会社 低エネルギー分子構造発生方法およびその装置
CN1628316A (zh) * 2002-03-26 2005-06-15 科学与工业研究委员会 构建三维分子结构最佳模型的方法与系统
US9317664B2 (en) * 2003-10-14 2016-04-19 Verseon Corporation Method and device for partitioning a molecule
JPWO2005069188A1 (ja) * 2003-12-26 2007-07-26 大日本住友製薬株式会社 化合物および蛋白質間の相互作用を予測するシステム、類似蛋白質または類似化合物を予測するシステム、およびそれらの方法
JP2006011724A (ja) * 2004-06-24 2006-01-12 Ishihara Sangyo Kaisha Ltd データ解析方法及びそのシステム
JPWO2006004182A1 (ja) * 2004-07-07 2008-04-24 日本電気株式会社 配列予測システム

Also Published As

Publication number Publication date
JP5262709B2 (ja) 2013-08-14
US20090048817A1 (en) 2009-02-19
US20110238396A1 (en) 2011-09-29
WO2007105794A1 (ja) 2007-09-20

Similar Documents

Publication Publication Date Title
Schulz-Gasch et al. Binding site characteristics in structure-based virtual screening: evaluation of current docking tools
Lee et al. Ab initio protein structure prediction
Gagnon et al. Flexible CDOCKER: Development and application of a pseudo‐explicit structure‐based docking method within CHARMM
DeLuca et al. Fully flexible docking of medium sized ligand libraries with RosettaLigand
Cereto-Massagué et al. Molecular fingerprint similarity search in virtual screening
Zhang et al. Molecular docking-based computational platform for high-throughput virtual screening
Dunbrack Jr Sequence comparison and protein structure prediction
Allison Computational methods for exploring protein conformations
Dehouck et al. A new generation of statistical potentials for proteins
Yang et al. A pharmacophore‐based evolutionary approach for screening selective estrogen receptor modulators
Fischer et al. CAFASP2: the second critical assessment of fully automated structure prediction methods
Xu et al. Induced fit docking, and the use of QM/MM methods in docking
Wassermann et al. Ligand prediction for orphan targets using support vector machines and various target-ligand kernels is dominated by nearest neighbor effects
JP5211458B2 (ja) 化合物の仮想スクリーニング方法および装置
Kumar et al. A cross docking pipeline for improving pose prediction and virtual screening performance
Brown et al. Computational chemogenomics: Is it more than inductive transfer?
Yamashita et al. The feasibility of an efficient drug design method with high-performance computers
JP2009007302A (ja) 仮想スクリーニング方法及び装置
Neveu et al. RapidRMSD: rapid determination of RMSDs corresponding to motions of flexible molecules
JP5262709B2 (ja) 分子構造予測システム、方法及びプログラム
JP7379810B2 (ja) 結合自由エネルギーの算出方法、及び算出装置、並びにプログラム
Plewczynski et al. HarmonyDOCK: the structural analysis of poses in protein-ligand docking
JP5211486B2 (ja) 化合物の仮想スクリーニング方法及び装置
Habgood Bioactive focus in conformational ensembles: a pluralistic approach
Li et al. MSLDOCK: Multi-swarm optimization for flexible ligand docking and virtual screening

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120821

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130415

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees