WO2007105794A1 - 分子構造予測システム、方法及びプログラム - Google Patents

分子構造予測システム、方法及びプログラム Download PDF

Info

Publication number
WO2007105794A1
WO2007105794A1 PCT/JP2007/055210 JP2007055210W WO2007105794A1 WO 2007105794 A1 WO2007105794 A1 WO 2007105794A1 JP 2007055210 W JP2007055210 W JP 2007055210W WO 2007105794 A1 WO2007105794 A1 WO 2007105794A1
Authority
WO
WIPO (PCT)
Prior art keywords
molecular structure
energy
consensus
molecular
parameter sets
Prior art date
Application number
PCT/JP2007/055210
Other languages
English (en)
French (fr)
Inventor
Hiroaki Fukunishi
Jirou Shimada
Reiji Teramoto
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to US12/293,056 priority Critical patent/US20090048817A1/en
Priority to JP2008505203A priority patent/JP5262709B2/ja
Publication of WO2007105794A1 publication Critical patent/WO2007105794A1/ja
Priority to US13/153,276 priority patent/US20110238396A1/en

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C10/00Computational theoretical chemistry, i.e. ICT specially adapted for theoretical aspects of quantum chemistry, molecular mechanics, molecular dynamics or the like

Definitions

  • the present invention relates to a molecular structure prediction system and method for predicting the structure of various molecules by simulation, and in particular, by taking the resultant force consensus obtained by a plurality of evaluation systems,
  • the present invention relates to a molecular structure prediction system and method for performing prediction.
  • Molecular force field methods and docking simulations are frequently used to search for drug candidates and to reduce costs.
  • the purpose of drug candidate search is to tamper with the target disease.
  • the search is for compounds that interact strongly with the protein as drug candidates.
  • This search calculates the energy of the molecular structure in the state of interacting with the protein and searches for a structure with a low calculated energy. Is achieved.
  • the reason for using the molecular force field method and docking simulation that is not the case with the highly accurate ab initio molecular orbital method is that there are a huge number of compounds at the level of millions in the world. This is because specific gravity is placed on high-speed processing. The unreliability of calculation accuracy can be compensated by increasing the amount of compounds actually tested.
  • the docking simulation is a method with a high level of coarse-graining that gives priority to high-speed keying, the accuracy of the scoring function (energy function) that can also be obtained is not high. Since a single scoring function alone does not provide sufficient accuracy, it is possible to calculate multiple scoring functions to obtain the most stable molecular structure! Methods for predicting the strength of action have come to be used. This type of method is also called consensus method or consensus scoring, and it has been reported that the use of this method improves prediction accuracy.
  • Table 1 shows the basic concept of the consensus scoring CScore of Triopos's product Sybyl.
  • Each element scoring function of consensus scoring is te in F—score, D—score, G—score, PMF, and ChemScore.
  • “A”, “B”, and “C” indicate the binding structure of the protein and the compound.Each score is normalized within the range of 0 force and 1. By default, the value is less than 0.5.
  • a value of 0 points, 0.5 or higher is given 1 point, and each given point is shown in parentheses in the table
  • the total value of points A, B and C is shown as CScore
  • the order of the predicted interaction strength is C, B, A.
  • JP-A-11-259433 which is not related to molecular structure search but related to parallel computation.
  • Patent Document 1 Japanese Translation of Special Publication 2005-524129
  • Patent Document 2 Japanese Patent Laid-Open No. 5-120397
  • Patent Document 3 Japanese Patent Laid-Open No. 10-48157
  • Patent Document 4 JP 2000-516755
  • Patent Document 5 Japanese Patent Laid-Open No. 11-259433
  • Non-Patent Literature 1 M. Jacobsson et al., 'Improving structure— Based Vir tual Screening by Multivariate Analysis of Scoring Data, "J. Med. Chem., 2003, vol. 46, pp. 5781— 5787
  • Non-Patent Document 2 Renxiao Wang et al., "Comparative Evaluation of 11 Scoring Functions for Molecular Docking", J. Med. Chem., 200 3, vol. 46, 2287-2303
  • a first object of the present invention is to provide a system and a method capable of performing a consensus method and a consensus scoring using a single energy function.
  • a second object of the present invention is to provide a system that can use a plurality of parameter sets that are not uniquely determined with respect to parameter sets that greatly affect the accuracy of the energy function. It is to provide a method.
  • the molecular structure prediction system calculates a molecular energy with a plurality of parameter sets with respect to a single energy function, and obtains a plurality of resultant force statistical methods. It is characterized by taking the consensus on the most stable molecular structure using, and predicting the most stable molecular structure as a result of the consensus.
  • the molecular structure prediction system includes a parameter set storage unit that stores a plurality of parameter sets, and a molecular structure data storage unit for prediction that stores molecular structure data for prediction. And a molecular energy calculation means for calculating the energy of the molecule, and a consensus means for taking a consensus based on the results of the energy or molecular structure of the plurality of molecules calculated using the plurality of parameter sets.
  • the molecular structure prediction system of the present invention includes a resampling unit that generates a plurality of data sets by re-sampling from a training data set. And a plurality of parameter set determining means for determining a parameter set for each of the plurality of data sets generated by the resampling means.
  • the molecular energy force calculated with a plurality of parameter sets can be consensus.
  • the most stable molecular structure can be predicted.
  • the molecular structure prediction method calculates the energy of a molecule with a plurality of parameter sets for a single energy function, and obtains a plurality of resultant force statistics methods. It is characterized by taking a consensus on the most stable molecular structure and predicting the most stable molecular structure as a result of the consensus.
  • the molecular structure prediction method stores the plurality of parameter sets in the parameter set storage unit and uses them in advance. If there are no parameter sets that can be created, multiple data sets are generated by resampling from the tracing data set, and multiple parameter sets are determined by determining the parameter set for each of the generated multiple data sets. Determine the set, and then store multiple parameter sets in the parameter set storage unit, store the prediction molecular structure data in the prediction molecular structure data storage unit, and calculate the molecular energy
  • the energy of multiple molecules, calculated using stages and multiple parameter sets Ku has the steps of taking a consensus Te based ⁇ the result of a three-dimensional structure of the molecule.
  • FIG. 1 is a block diagram showing a molecular structure prediction system according to a first embodiment of the present invention.
  • FIG. 2 is a diagram showing the concept of resampling.
  • FIG. 3 is a flowchart showing the operation of the molecular structure prediction system shown in FIG.
  • FIG. 4 is a block diagram showing a molecular structure prediction system according to a second embodiment of the present invention.
  • FIG. 5 is a flowchart showing the operation of the molecular structure prediction system shown in FIG.
  • FIG. 6 is a block diagram showing a molecular structure prediction system according to a third embodiment of the present invention.
  • FIG. 7 is a flowchart showing the operation of the molecular structure prediction system shown in FIG.
  • FIG. 8 is a conceptual diagram showing a parameter determination method by resampling.
  • the molecular structure prediction system according to the first embodiment of the present invention shown in FIG. 1 roughly categorizes an input device 1 such as a keyboard, a processing device 2 that operates under program control, and stores information. It comprises a storage device 3 and an output device 4 such as a display device or a printing device.
  • the processing device 2 includes a plurality of parameter set determination unit 21 that generates a plurality of parameter sets, and a molecular energy calculation unit that performs molecular energy calculation using the plurality of parameter sets generated by the plurality of parameter set determination unit 21 22 and a consensus unit 23 that takes a consensus of a plurality of results obtained by the molecular energy calculation unit 22.
  • the multi-parameter set determining unit 21 generates a plurality of data sets by resampling from the molecular structure of limited compounds that are training data, and the re-sampling unit 221 generates And a parameter set determining unit 212 for determining a parameter set for each data set.
  • the “population” here is a complex of all proteins and compounds that can exist in the real world, but the number of complexes that can be handled is limited, and this limited complex is used as training data. By re-sampling, multiple data sets are generated.
  • a predetermined number of data is selected at random by allowing duplication, and resampling is performed for the number of times determined by data set.
  • the parameter set can be determined by, for example, the energy of an experimental structure of one molecule and the average energy and standard deviation of many non-experimental structures (ie, root-mean-square deviation) force.
  • the molecular energy calculation unit 22 performs energy calculation on the molecular structure data for prediction.
  • the energy calculation method a method of calculating a single point for a known three-dimensional structure, or a method of performing a structure search by a molecular dynamics method or a Monte Carlo method is used.
  • the consensus unit 23 obtains the most stable molecular structure from the energy or three-dimensional structure (molecular structure), which is the result calculated using a plurality of parameter sets. Predict the most stable molecular structure.
  • the consensus in the consensus section includes, for example, a method of obtaining consensus using a statistical method based on energy results of a plurality of molecules obtained by a plurality of parameter sets, Each parameter set is ranked based on the energy of the molecule, then the frequency of each molecular structure is calculated, the consensus score is calculated using the frequency as a weight, and the most stable in order There is a method for ranking molecular structures.
  • N is the number of data
  • i is the rank
  • P is the rank frequency
  • consensus II> There is also a method of calculating the consensus score represented by (N_i) P t and ranking the most stable molecular structure in order of good consensus score.
  • the storage device 3 includes a training molecular structure data storage unit 31, a data set storage unit 32, a parameter set storage unit 33, a prediction molecular structure data storage unit 34, and a calculation result storage unit 35.
  • the training molecular structure data storage unit 31 and the data set storage unit 32 are used for the operation of the multiple parameter set determination unit 21.
  • the molecular structure data storage unit 34 for prediction stores molecular structure data for prediction.
  • the calculation result storage unit 35 stores a plurality of energy or three-dimensional structures calculated using a plurality of parameter sets.
  • step A1 When an execution instruction is given by the input device 1 and the multiple parameter set determination unit 21 is activated, first in step A1, the resampling unit 211 generates a plurality of data sets, and then in step A2, The parameter set determination unit 212 executes the parameter set determination for one data set. Then, in step A3, it is determined whether parameter sets have been determined for all data sets. If there are undecided parameter sets, the process returns to step A2 to set parameter sets for all data sets. Decide The generated parameter sets are stored in the parameter set storage unit 33.
  • step A4 the energy is calculated for all the parameter sets for each molecular structure, and the cycle is completed for all molecular structures. That is, in step A5, it is determined whether all parameters have been calculated, and if there are uncalculated ones, the process returns to step A4, and in step A6, it is determined whether all molecular structures for prediction have been calculated. If uncalculated, return to step A4 to calculate the energy for all parameters and for all predicted molecular structures.
  • step A7 consensus is obtained by the consensus unit 23, and the prediction result is output from the output device 4.
  • FIG. 4 shows the configuration of the molecular structure prediction system of the second embodiment.
  • This molecular structure prediction system is used in the case where a plurality of parameter sets determined in advance can be used. From the system of the first embodiment shown in FIG. The molecular structure data storage unit 31 and the data set storage unit 32 are removed.
  • Steps B1 to B3 the molecular structure energy calculation is performed for every molecular structure of the molecular structure data for prediction. It runs on parameter sets and runs until the cycle is complete for all molecular structures.
  • a consensus is obtained by the consensus unit 23 in Step B4, and the prediction result is output from the output device 4.
  • FIG. 6 shows the configuration of the molecular structure prediction system of the third embodiment.
  • This molecular structure The measurement system is roughly divided into an input device 1 such as a keyboard, a processing device 6 operated by program control, a storage device 3 for storing information, and an output device 4 such as a display device and a printing device.
  • an input device 1 such as a keyboard
  • a processing device 6 operated by program control a storage device 3 for storing information
  • an output device 4 such as a display device and a printing device.
  • the explanation is based on the assumption that a molecular structure prediction system is realized by reading and executing the molecular structure prediction program 5 on a computer such as a personal computer or workstation (or supercomputer).
  • the molecular structure prediction program 5 is read into a computer by a recording medium such as a CD-ROM or magnetic tape or via a network.
  • the molecular structure prediction program 5 includes a multi-parameter set determination program 61, a molecular energy calculation and consensus program 62, and a program that controls these programs. Is controlled.
  • the multi-parameter set determining program 61 causes the computer to execute the same process as the process executed by the multi-parameter set determining unit 21 in the system of the first embodiment, and calculates the molecular energy and the consensus program.
  • 62 causes the computer to execute the same processing as the processing executed by the molecular energy determination unit 22 and the consensus unit 23 in the system of the first embodiment.
  • step C1 It is input by the input device 1 whether there are a plurality of parameter sets determined in advance, and the processing device 6 determines whether there are a plurality of parameter sets determined in advance in step C1. Judge whether. If there are no parameter sets determined by intent, the molecular structure prediction program 5 starts the parameter set determination program 61, and in this way, in step C2, a plurality of data sets are obtained by resampling. In step C3, the parameter set is determined for one data set. In step C4, it is determined whether the parameter set is determined for all data sets. The parameter set is still determined. If there is a data set, return to step C3. By repeating the processes in steps C3 and C4 in this way, the parameter set is finally determined for all data sets, and the process proceeds to step C5. [0040] If the parameter set determined by step CI is determined in advance, the parameter set determination program 61 is stopped and the process proceeds to step C5.
  • step C5 the molecular energy calculation and consensus program 62 is activated, and the energy is calculated for all parameter sets for each molecular structure, and the cycle is completed for all molecular structures. .
  • step C6 it is determined whether all parameters have been calculated. If uncalculated, return to step C5 to calculate energy for all parameters and for all predicted molecular structures.
  • step C8 a consensus is taken and the prediction result is output from the output device 4.
  • the molecular structure prediction system includes a keyboard as an input device, a personal computer as a processing device, a magnetic disk storage device as a storage device, and a display as an output device.
  • the personal computer includes a central processing unit (CPU), and the CPU functions as a multiple parameter set determination unit including a resampling unit and a parameter set determination unit, a molecular energy calculation unit, and a consensus unit.
  • the magnetic disk storage device stores molecular structure data for tracing, a plurality of data sets, a plurality of parameter sets, molecular structure data for prediction, and a plurality of calculation results.
  • the data of the experimental binding structure of a compound known to bind to the target protein (that is, the binding structure obtained by the X-ray crystal structure) and 100 data of the calculated binding structure calculated by the computer are mixed.
  • the experimental bond structure is a structure that is actually bonded as a natural phenomenon, so it is stable in energy and should be ranked higher.
  • the computationally coupled structure is a structure that does not appear in natural phenomena, is unstable in energy, and should be ranked lower than the experimentally coupled structure. In other words, depending on the rank of the experimental bond structure And see the performance. Ideally, as shown in Table 2, the experimental coupling structure is ranked at the top (1st place).
  • the experimental binding structure is a structure registered in Protein Data Bank (http://www.rcsb.org/pdb/).
  • 100 computational bond structures between each protein and compound were generated by Wang et al. Using docking simulation software AUTODOCK (Renxiao Wang et al., Comparative Evaluation of 11 Scoring Functions for Molecular Docking ", J Med. Chem., 2003, vol. 46, 2287-2303).
  • is a position-dependent function
  • is the sum of all the atomic pairs involved in the interaction.
  • match is a term consisting of hydrogen bonds, metal contacts, and aromatic interactions.
  • lipo is a term representing hydrophobic interaction
  • ambig is a term representing the interaction between polar and nonpolar atoms
  • clash is a penalty term for atom collision
  • rot is a compound that binds to protein Represents an entropy term that is lost by n is the number of rotatable single bonds of the compound.
  • the parameter set of interest in this embodiment is a score parameter (energy parameter), and the following scoring function is defined in order to determine an optimal score parameter set.
  • G bind (aAG maich ) ⁇ F match + (bAGi ip) ) ⁇ 3 ⁇ 4 0 + ( C AG) + (dAG chlsh ) ⁇ F dash pair pair pair pair pair pair
  • Equation (2) a, b, c, d, e are the weighting factors of the existing FlexX score parameters AG, AG, AG, AG, respectively. It is. This (a, b, c, d, e) is match Hop ambig clash rot
  • a parameter set substantially determined by training data When (a, b, c, d, e) is (1, 1, 1, 1, 1), it corresponds to equation (1).
  • the calculated results are stored in the training molecular structure data storage unit for multiple parameter set generation complexes, and in the prediction molecular structure data storage unit for prediction complexes.
  • an operation start is input by the input device.
  • the resampling procedure in this embodiment is as follows.
  • a Z score Z is obtained for the complex ⁇ in the data set.
  • Figure 8 shows a schematic diagram of the determination of multiple parameters by resampling.
  • Table 6 shows the result of comparing the ranking of the experimentally obtained structure finally obtained with the consensus score and the score obtained by the existing FlexX coring function (Formula (1)).
  • the system of this example ranks better with 18 complex types than the existing FlexX score.
  • lcla (41 rise), ltet (18 rise), 2sns (7 rise), 2tmn (8 rise), 4xia (12 rise) it can be seen that the ranking is significantly better.
  • the number of experimental coupling structures that were ranked first (1st) was 25 in the system of this example, and 23 in the existing FlexX score.
  • Exp represents the experimental bond structure
  • calc represents the calculated bond structure
  • Consensus represents the results obtained with the system of the present invention
  • FlexX org represents the results of the existing FlexX score.
  • the present invention can be applied to a program for realizing drug candidate / compound search by a computer and to any use. This application makes it possible to reduce the cost and increase the efficiency of drug discovery. Furthermore, the present invention can be applied to uses such as a scoring function in molecular simulation and an empirical parameter determination system for an energy function.

Landscapes

  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)

Abstract

 複数の評価システムで得られた結果から分子の最安定構造の予測を行う分子構造予測方法は、トレーニングデータセットから、リサンプリングにより複数のデータセットを生成するステップと、生成された各々のデータセットに対してパラメータセットを決定して複数のパラメータセットを得るステップと、その複数のパラメータセットを用いて、予測用分子データに対する分子のエネルギー計算を行うステップと、複数のエネルギーもしくは3次元構造の結果に基づいてコンセンサスをとるステップと、コンセンサスの結果から最安定な分子構造を予測するステップとを、を有する。

Description

明 細 書
分子構造予測システム、方法及びプログラム
技術分野
[0001] 本発明は、各種の分子の構造をシミュレーションによって予測する分子構造予測シ ステムおよび方法に関し、特に、複数の評価システムで得られた結果力 コンセンサ スをとることによって分子の最安定構造の予測を行う分子構造予測システム及び方 法に関する。
背景技術
[0002] 実験で観測され得る分子の最安定構造を計算によって予測する方法として、非経 験的分子軌道法、分子力場法、ドッキングシミュレーションなど、計算の近似レベル によって様々なものがある。それらの方法では、エネルギーが最小になる分子構造を 探索し、それを最安定構造として予測する。
[0003] 最も精度の高い方法は、量子力学の理論に基づき、経験的なパラメータを必要とし ない非経験的分子軌道法であるが、この方法は膨大に計算資源と計算時間を必要 とし、しばしば、現実的な計算時間では解を与えないことがある。逆に、分子力場法 やドッキングシミュレーションなどの方法では、エネルギー計算に経験的パラメータを 用いているので、計算を高速ィ匕することができる。しかしながら、計算で用いる経験的 ノ ラメータが十分なトレーニングデータ数力も決定されていない場合には、精度にお ける信頼性が低くなると 、う問題点を有する。分子力場法やドッキングシミュレーショ ンによって分子構造を予測するソフトウェアの中には、実際、限られたトレーニングデ ータ数しか用いていないために、精度が不十分な結果しか与えものも多い。精度改 善のためにトレーニングデータ数を増やしても、世の中に存在し得る化合物の数は膨 大なので、全ての可能性を考慮することは不可能である。経験的パラメータの決定法 としては様々なものがあり、例えば、非経験的分子軌道法の計算結果にフィットさせる 方法や、実験データにフィットさせる方法がある。
[0004] 分子力場法やドッキングシミュレーションは、薬剤候補探索にお!、て、コスト削減の ために、頻繁に利用されている。薬剤候補探索の目的は、標的疾患に関わるタンパ ク質に対して強く相互作用する化合物を薬剤候補として探すことであり、この探索は 、タンパク質と相互作用した状態での分子構造のエネルギーを計算し、計算されたェ ネルギ一が低い構造を探すことによって達成される。精度の高い非経験的分子軌道 法ではなぐ分子力場法やドッキングシミュレーションを用いる理由は、世の中には数 百万種類レベルの膨大な数の化合物が存在するので、ある程度、精度を犠牲にして も、高速に処理できることに比重が置かれるからである。計算精度の信頼性の低さは 、実際に実験する化合物の量を増やすことによって、補うことになる。
[0005] ドッキングシミュレーションは、とりわけ高速ィ匕を優先した粗視化レベルが高い方法 であるので、そこ力も得られるスコアリング関数 (エネルギー関数)の精度は高いとは 言えない。単一のスコアリング関数だけでは十分な精度が得られないので、複数のス コアリング関数をそれぞれ計算し、最安定な分子構造につ!、てのコンセンサスをとる ことによって、タンパク質と化合物の相互作用の強さを予測する方法が用いられるよう になってきた。この種の方法は、コンセンサス法、または、コンセンサススコアリングと も呼ばれており、この方法を採用することで予測精度が向上することが報告されてい る。
[0006] 従来の方法の一例として、 Triopos社製品 Sybylのコンセンサススコアリング CScor eの基本的考え方を表 1に示す。コンセンサススコアリングの各要素スコアリング関数 は、 F— score、 D— score、 G— score、 PMF、 ChemScoreで teる。表中における A"、 "B"、 "C"は、タンパク質と化合物の結合構造を表している。各スコアは、 0力も 1 の範囲で正規化され、デフォルトでは 0. 5より小さい値には 0ポイント、 0. 5以上の値 には 1ポイントが付与される。付与された各ポイントは、表においては括弧内で示され ている。 A、 B、 Cのポイントの合計値が CScoreとして示されている。表 1に示した例 では、予測される相互作用の強さの順が、 C, B, Aであることが分かる。
[0007] [表 1] 表 1 GScoreの
F-Score D-score G-score PMF ChemScore CScore
A 0.1 (0) 0.2(0) 0.3(0) 0.2(0) 0.9(1) 1
B 0.3(0) 0.6(1) 0.1 (0) 0.4(0) 0.8(1) 2
C 0.8(1) 0.5(1) 0.9(1) 0.7 (1) 0.6(1) 5 コンセンサスの取り方にっ 、ては、前述のように値に対してポイントを与える単純な ものから、 Jacobbsonらが提案したような、 PLS— DA、ベイズ分類(Bayesian class ification)、ルールに基づく方法 (rule— based method)などの統計学手法を用 いて、高度に行われる方法もある(M. Jacobsson et al. , "Improving Struc ture— Based Virtual Screening by Multivariate Analysis of Scoring Data, " J. Med. Chem. , 2003, vol. 46, pp. 5781— 5787)。それ らの根本的な考え方は、複数のスコアリング関数から多くの情報を抽出し、 1つのソフ トウエアから出力されるスコアリング関数では不十分であった精度を改善するというも のである。
[0008] なお、最適な分子構造を予測することに関する特許文献としては、特表 2005— 52
4129号公報、特開平 5— 120397号公報、特開平 10— 48157号公報、特表 2000
— 516755号公報などがあり、分子構造探索に関するものではないが並列計算に関 するものとして、特開平 11— 259433号公報がある。
[0009] 以下、本明細書中で引用した参考文献を列挙する。
特許文献 1:特表 2005 - 524129号公報
特許文献 2:特開平 5— 120397号公報
特許文献 3 :特開平 10— 48157号公報
特許文献 4:特表 2000— 516755号公報
特許文献 5:特開平 11― 259433号公報
非特干文献 1 : M. Jacobsson et al. , 'Improving structure— Based Vir tual Screening by Multivariate Analysis of Scoring Data, " J. Med . Chem. , 2003, vol. 46, pp. 5781— 5787
非特許文献 2 : Renxiao Wang et al. , "Comparative Evaluation of 11 Scoring Functions for Molecular Docking", J. Med. Chem. , 200 3, vol. 46, 2287- 2303
発明の開示
発明が解決しょうとする課題
[0010] しかしながら、上述した従来のコンセンサス法あるいはコンセンサススコアリングでは 、複数の異なる種類のエネルギー関数が必要になり、計算の煩雑ィ匕が避けられない 。また、各エネルギー関数で用いられるパラメータセットは最適なものであるかどうか 判断できない、という問題点もある。最適なものかどうかを判断できない理由は、分子 反応には準安定構造が多数存在しているので、最適パラメータを一意的に決定する ことは非常に困難である、ということにある。
[0011] 本発明の第 1の目的は、単一のエネルギー関数を用いて、コンセンサス法及びコン センサススコアリングを行うことができるシステム及び方法を提供することにある。
[0012] 本発明の第 2の目的は、エネルギー関数の精度に大きな影響を与えるパラメータセ ットに関して、一意的に決定されたものではなぐ複数のパラメータセットを利用するこ とが可能なシステム及び方法を提供することにある。
課題を解決するための手段
[0013] 本発明の第 1の様相に従えば、分子構造予測システムは、単一のエネルギー関数 に対して、複数のパラメータセットで分子のエネルギーを計算し、得られる複数の結 果力 統計手法を用いて最安定な分子構造についてのコンセンサスをとり、コンセン サスの結果力 最安定な分子構造を予測することを特徴とする。
[0014] 本発明の第 2の様相に従えば、分子構造予測システムは、複数のパラメータセット を記憶するパラメータセット記憶部と、予測用の分子構造データを記憶する予測用分 子構造データ記憶部と、分子のエネルギーを計算する分子エネルギー計算手段と、 複数のパラメータセットを用いて計算された複数の分子のエネルギーもしくは分子構 造の結果に基づ 、てコンセンサスをとるコンセンサス手段と、備える。
[0015] さらに、あらかじめ決定された複数のパラメータセットが利用できない場合に対応す るために、本発明の分子構造予測システムは、トレーニングデータセットからリサンプ リングにより複数のデータセットを生成するリサンプリング手段と、リサンプリング手段 によって生成された複数のデータセットの各々に対してパラメータセットを決定するパ ラメータセット決定手段と、を含む複数パラメータセット決定手段をさらに備えていても よい。
[0016] 本発明では、このような構成を採用することによって、エネルギー関数が 1種類であ つても、複数のパラメータセットで計算した分子のエネルギー力もコンセンサスをとるこ とによって、最安定な分子構造を予測することができる。
[0017] 本発明の第 3の様相に従えば、分子構造予測方法は、単一のエネルギー関数に 対して、複数のパラメータセットで分子のエネルギーを計算し、得られる複数の結果 力 統計手法を用いて最安定な分子構造についてのコンセンサスをとり、コンセンサ スの結果力 最安定な分子構造を予測することを特徴とする。
[0018] 本発明の第 4の様相に従えば、分子構造予測方法は、あらかじめ利用できる複数 のパラメータセットがある場合は、ノ ラメータセット記憶部に複数のパラメータセットを 記憶する段階と、あらかじめ利用できる複数のパラメータセットがない場合は、トレー ユングデータセットからリサンプリングにより複数のデータセットを生成し、この生成さ れた複数のデータセットの各々に対してパラメータセットを決定することによって複数 のパラメータセットを決定し、その後、パラメータセット記憶部に複数のパラメータセッ トを記憶する段階と、予測用分子構造データ記憶部に予測用の分子構造データを記 憶する段階と、分子のエネルギーを計算する段階と、複数のパラメータセットを用い て計算された、複数の分子のエネルギーもしくは分子の 3次元構造の結果に基づ ヽ てコンセンサスをとる段階と、を有する。
[0019] 従来のコンセンサス法及びコンセンサススコアリングでは、複数の既存のエネルギ 一関数を用いなければならなかった力 本発明においては、ただ 1つのエネルギー 関数で実現することができる。また、本発明では、ノ メータセットを一意的に決定す ることに囚われず、ノ ラメータセットを複数用いて分子構造のエネルギー計算を行い 、得られる複数の分子構造のエネルギー計算結果力 コンセンサスをとることによつ て、精度の高い予測ができる。
図面の簡単な説明
[0020] [図 1]本発明の第 1の実施形態の分子構造予測システムを示すブロック図である。
[図 2]リサンプリングの概念を示す図である。
[図 3]図 1に示す分子構造予測システムの動作を示すフローチャートである。
[図 4]本発明の第 2の実施形態の分子構造予測システムを示すブロック図である。
[図 5]図 4に示す分子構造予測システムの動作を示すフローチャートである。
[図 6]本発明の第 3の実施形態の分子構造予測システムを示すブロック図である。 [図 7]図 6に示す分子構造予測システムの動作を示すフローチャートである。
[図 8]リサンプリングによるパラメータ決定法を示す概念図である。
符号の説明
[0021] 1 入力装置
2, 6 処理装置
3 記憶装置
4 出力装置
5 分子構造予測用プログラム
21 複数パラメータセット決定部
22 分子エネルギー計算部
23 コンセンサス部
31 トレーニング用データ記憶部
32 データセット記憶部
33 パラメータセット記憶部
34 予測用分子構造データ記憶部
35 計算結果記憶部
61 パラメータセット決定用プログラム
62 分子エネルギー決定用及びコンセンサス用プログラム
211 ジサンプリング咅
212 パラメータセット決定部
発明を実施するための最良の形態
[0022] 図 1に示す本発明の第 1の実施形態の分子構造予測システムは、大別すると、キー ボード等の入力装置 1と、プログラム制御により動作する処理装置 2と、情報を記憶す る記憶装置 3と、ディスプレイ装置や印刷装置等の出力装置 4と、からなつている。
[0023] 処理装置 2は、複数のパラメータセットを生成する複数パラメータセット決定部 21と 、複数パラメータセット決定部 21で生成された複数のパラメータセットを用いて分子 のエネルギー計算を行う分子エネルギー計算部 22と、分子エネルギー計算部 22で 得られる複数の結果のコンセンサスをとるコンセンサス部 23と、を含んで 、る。 [0024] 複数パラメータセット決定部 21は、トレーニング用データである、限られた化合物の 分子構造から、リサンプリングによって複数のデータセットを生成するリサンプリング部 221と、リサンプリング部 221で生成された各々のデータセットに対してパラメータセッ トを決定するパラメータセット決定部 212と、を含んでいる。図 2は、リサンプリング部 2 22でのリサンプリングの概念を示している。ここでの「母集団」は、現実世界に存在し 得る全タンパク質と化合物の複合体であるが、扱える複合体の数は限られており、こ の限られた複合体をトレーニング用データとして用いてリサンプリングを行うことで、複 数のデータセットが生成する。
[0025] ここでリサンプリングの仕方としては、例えば、トレーニングデータセットから、重複を 許してランダムにあらかじめ決められたデータ数まで選抜し、あら力じめ決めたデータ セット数の回数だけリサンプリングを行う方法がある。パラメータセットの決定方法とし ては、例えば、 1分子の実験構造のエネルギーと、多数の非実験構造の平均エネル ギー及び標準偏差 (すなわち、 自乗平均平方根偏差 (root— mean— square devi ation) )力 得られる Z値の絶対値を計算することを、 1データセット内の全ての分子 について行い、 Z値の絶対値の平均値が最大になるようなパラメータの組み合わせを 決定する方法がある。あるいは、 1分子の実験構造のエネルギーと、多数の非実験構 造の平均エネルギー及び標準偏差力 得られる Z値の絶対値を計算することを、 1デ ータセット内の全ての分子について行い、 Z値の絶対値の中央値が、最大になるよう なパラメータの組み合わせを決定する方法がある。
[0026] 分子エネルギー計算部 22は、予測用分子構造データに対してエネルギー計算を 行う。エネルギー計算の方法としては、既知の 3次元構造に対して一点計算する方 法、または、分子動力学法もしくはモンテカルロ法によって構造探索を行いながら計 算する方法などが用いられる。
[0027] コンセンサス部 23は、複数のパラメータセットを用いて計算された結果であるエネ ルギーもしくは 3次元構造 (分子構造)から、最安定な分子構造につ!、てのコンセン サスをとることによって、最安定な分子構造を予測する。コンセンサス部でのコンセン サスのとしては、具体的には、例えば、複数のパラメータセットで得られた複数の分子 のエネルギーの結果に基づいて、統計手法を用いてコンセンサスをとる方法や、複 数のパラメータセット各々で、分子のエネルギーに基づいて順位付けを行い、次に、 各分子構造の順位の頻度を計算し、頻度を重みとしてコンセンサススコアを計算し、 コンセンサススコアの良 、順に最安定な分子構造の順位付けを行う方法がある。さら には、 Nをデータ数、 iを順位、 Pを順位の頻度として、
[0028] [数 1]
N
consensus二〉 (N _ i)Pt で表わされるコンセンサススコア Consensusを計算し、コンセンサススコアの良い順 に最安定な分子構造の順位付けを行う方法もある。
[0029] 記憶装置 3は、トレーニング用分子構造データ記憶部 31と、データセット記憶部 32 と、パラメータセット記憶部 33と、予測用分子構造データ記憶部 34と、計算結果記憶 部 35と、を含んでいる。トレーニング用分子構造データ記憶部 31とデータセット記憶 部 32とは、複数パラメータセット決定部 21の動作のために使われる。予測用分子構 造データ記憶部 34は、予測用の分子構造データを記憶している。計算結果記憶部 3 5は、複数のパラメータセットを用いて計算された複数のエネルギーもしくは 3次元構 造を記憶する。
[0030] 次に、図 1及び図 3を参照して、第 1の実施形態の分子構造予測システムの動作を 説明する。
[0031] 入力装置 1によって、実行指示が与えられ、複数パラメータセット決定部 21が起動 すると、まずステップ A1において、リサンプリング部 211は、複数のデータセットを生 成し、次にステップ A2において、パラメータセット決定部 212は、 1データセットに対 してパラメータセットを決定させることを実行する。その後、ステップ A3において、す ベてのデータセットに対してパラメータセットを決定したかどうかを判定し、未決定のも のがあればステップ A2に戻ることにより、すべてのデータセットに対してパラメータセ ットを決定する。生成された複数のパラメータセットは、パラメータセット記憶部 33に記 憶される。
[0032] 次に、パラメータセット記憶部 33に記憶された複数のパラメータセットを用いて、予 測用分子構造データ記憶部 34に格納されているデータに対する分子のエネルギー 計算が分子エネルギー計算部 22によって実行される。その際は、ステップ A4におい て、 1分子構造ごとに、全てのパラメータセットでエネルギーが計算され、そのサイク ルを全分子構造に対して終了するまで行われる。すなわちステップ A5において、す ベてのパラメータに対して計算したかを判定して未計算のものがあればステップ A4 に戻り、ステップ A6においてすべての予測用の分子構造に対して計算したかを判定 して未計算のものがあればステップ A4に戻ることにより、すべてのパラメータに対し、 またすベての予測用分子構造に対してエネルギーを計算する。このようにして、分子 のエネルギー計算が終わると、次に、ステップ A7において、コンセンサス部 23によつ てコンセンサスがとられ、予測結果が出力装置 4から出力される。
[0033] 次に、本発明の第 2の実施形態の分子構造予測システムについて説明する。図 4 は、第 2の実施形態の分子構造予測システムの構成を示している。この分子構造予 測システムは、あら力じめ決定された複数のパラメータセットが利用できる場合のもの であり、図 1に示した第 1の実施形態のシステムから、複数パラメータセット決定部 21 とトレーニング用分子構造データ記憶部 31とデータセット記憶部 32とを取り除いた構 成を有する。
[0034] 次に、図 4及び図 5を参照して、第 2の実施形態の分子構造予測システムの動作を 説明する。
[0035] 入力装置 1によって実行指示が与えられると、パラメータセット記憶部 33に記憶され た複数のパラメータセットを用いて、予測用分子構造データ記憶部 34に格納されて いるデータに対する分子のエネルギー計算力 分子エネルギー計算部 22によって 実行される。この場合も、第 1の実施形態においてステップ A4〜A6で示したものと 同様に、ステップ B1〜B3において、分子の構造エネルギー計算は、予測用分子構 造データの 1分子構造ごとに、全てのパラメータセットで実行され、そのサイクルが全 分子構造に対して終了するまで実行される。分子のエネルギー計算が終わると、ステ ップ B4において、コンセンサス部 23によってコンセンサスがとられ、予測結果が出力 装置 4から出力される。
[0036] 次に、本発明の第 3の実施形態の分子構造予測システムについて説明する。図 6 は、第 3の実施形態の分子構造予測システムの構成を示している。この分子構造予 測システムは、大別すると、キーボード等の入力装置 1と、プログラム制御により動作 する処理装置 6と、情報を記憶する記憶装置 3と、ディスプレイ装置や印刷装置等の 出力装置 4と力 なっている力 ここでは、パーソナルコンピュータやワークステーショ ン (あるいはスーパーコンピュータ)などのコンピュータに、分子構造予測用プログラム 5を読み込ませて実行させることにより分子構造予測システムを実現することを前提と して説明する。分子構造予測用プログラム 5は、 CD— ROMや磁気テープなどの記 録媒体によって、あるいは、ネットワークを介してコンピュータに読み込まれる。
[0037] 分子構造予測用プログラム 5は、複数パラメータセット決定用プログラム 61と、分子 エネルギー計算用及びコンセンサス用プログラム 62と、これらのプログラムを制御す るプログラムと力 なり、これらのプログラムによって処理装置 6は制御される。複数パ ラメータセット決定用プログラム 61は、第 1の実施形態のシステムにお 、て複数パラメ ータセット決定部 21が実行する処理と同じ処理をコンピュータに実行させ、分子エネ ルギ一計算用及びコンセンサス用プログラム 62は、第 1の実施形態のシステムにお いて分子エネルギー決定部 22及びコンセンサス部 23が実行する処理と同じ処理を コンピュータに実行させる。
[0038] 次に、図 6及び図 7を参照して、第 3の実施形態の分子構造予測システムの動作を 説明する。
[0039] 入力装置 1によって、あら力じめ決定された複数のパラメータセットがあるかどうかが 入力され、処理装置 6は、ステップ C1において、あら力じめ決定された複数のパラメ ータセットが有るかどうかを判断する。あら力じめ決定された複数のパラメータセットが ない場合には、分子構造予測用プログラム 5は、パラメータセット決定用プログラム 61 を起動し、これによつて、ステップ C2において、リサンプリングにより複数のデータセッ トが生成され、ステップ C3において 1データセットに対してパラメータセットが決定され 、ステップ C4において全データセットに対してパラメータセットが決定されたかどうか が判断され、まだパラメータセットが決定されて 、な 、データセットがある場合にはス テツプ C3に戻る。ステップ C3、 C4の処理がこのように繰り返されることにより、最終的 にすベてのデータセットに対してパラメータセットが決定され、ステップ C5に移行する [0040] ステップ CIにお 、て、あら力じめ決定されたパラメータセットを有する場合には、パ ラメータセット決定用プログラム 61は停止するとともに、ステップ C5に移行する。
[0041] ステップ C5では、分子エネルギー計算用及びコンセンサス用プログラム 62が起動 し、 1分子構造ごとに、全てのパラメータセットでエネルギーが計算され、そのサイクル を全分子構造に対して終了するまで行われる。すなわちステップ C6において、すべ てのパラメータに対して計算したかを判定して未計算のものがあればステップ C5に 戻り、ステップ C7においてすべての予測用の分子構造に対して計算したかを判定し て未計算のものがあればステップ C5に戻ることにより、すべてのパラメータに対し、ま たすベての予測用分子構造に対してエネルギーが計算される。次に、ステップ C8に おいて、コンセンサスがとられ、予測結果が出力装置 4から出力される。
実施例
[0042] 次に、本発明を実施例によりさらに詳しく説明する。ここでは、上述した第 1の実施 形態に対応する実施例を説明する。本実施例において、分子構造予測システムは、 入力装置としてキーボードを、処理装置としてパーソナル 'コンピュータを、記憶装置 として磁気ディスク記憶装置を、出力装置としてディスプレイを備えて ヽるものとする。
[0043] パーソナル 'コンピュータは、中央処理ユニット(CPU)を備えており、 CPUは、リサ ンプリング部及びパラメータセット決定部を含む複数パラメータセット決定部と分子ェ ネルギー計算部とコンセンサス部として機能する。磁気ディスク記憶装置には、トレー ユング用分子構造データ、複数のデータセット、複数のパラメータセット、予測用分子 構造データ、複数の計算結果が記憶される。
[0044] この実施例においては、次のようなテストを行った。標的タンパク質と結合することが 既知の化合物の実験結合構造 (すなわち X線結晶構造で得られた結合構造)のデー タと、コンピュータで計算された計算結合構造の 100個のデータとを混ぜ、それら〖こ 対して本実施例のシステムにより実験結合構造がどの程度の順位で予測できるかと いうテストである。実験結合構造は、自然現象として実際に結合している構造なので 、エネルギー的に安定であり、上位に順位付けされるはずである。これに対して、計 算結合構造は、自然現象に現れない構造であり、エネルギー的に不安定で、実験結 合構造よりは下位に順位付けされるはずである。つまり、実験結合構造の順位によつ て、性能を見ることができる。理想的には表 2示すように、実験結合構造がトップ(1位 )に順位付けされる。
[0045] このテストにおいては、本発明の適用の対象となるスコアリング関数として、 FlexX を用いた。本実施例のシステムと既存の FlexX コアリング関数 (式(1) )とで以下に 示す処理を実行し、結果の比較を行うことにより、本実施例のシステムの有用性を示 す。
[0046] [表 2] 表 2
Figure imgf000013_0001
実験結合構造は、 Protein Data Bank (http : //www. rcsb. org/pdb/ )に登録されている構造である。また、各タンパク質と化合物との 100個の計算結合 構造としては、 Wangらがドッキングシミュレーション 'ソフトウェア AUTODOCKによ つて生成したもの (Renxiao Wang et al. , Comparative Evaluation of 11 Scoring Functions for Molecular Docking", J. Med. Chem. , 2003, vol. 46, 2287— 2303)を利用した。
[0047] まず、テストを実施するための準備として、まず、トレーニング用分子構造データと、 予測用分子構造データの作成を行った。本実施例では、全 96種類のタンパク質と化 合物の複合体の保有データを、複数のパラメータセット生成用データ 49種類と、予 測用データ 47種類に分割した。分割は無作為に行った。表 3は、本実施例で用いた タンパク質と化合物の複合体の PDBコード一覧である。 [0048] [表 3]
Figure imgf000014_0001
Figure imgf000014_0003
本実施例にお 、て、複数のパラメータセットを生成するために用いる FlexXのスコ ァリング関数 (エネルギー関数)の A G は、次のように表される。
bind
[0049] [数 2] match
Figure imgf000014_0002
ここで ^は位置に依存する関数を表し、 はスコアパラメータを表し、∑は相互作 用に関わる原子ペア(pair)の全てについて和を表す。 matchは、水素結合と、金属 コンタクトと、芳香族間の相互作用とからなる項である。また、 lipoは疎水性相互作用 を表す項であり、 ambigは極性原子と非極性原子の相互作用を表す項であり、 clash は原子の衝突に対するペナルティ項であり、 rotは化合物がタンパク質と結合すること によって失うエントロピ一項を表す。 n は化合物の回転可能単結合数である。
rot
[0050] 本実施例で注目するパラメータセットをスコアパラメータ(エネルギーパラメータ)とし 、最適なスコアパラメータセットを決めるために、以下のスコアリング関数を定義する。
[0051] [数 3] Gbind = (aAGmaich ) ^ F match + {bAGiip) ) ^ ¾0 +(CAG ) + (dAGchlsh ) ^ Fdash pair pair pair pair
+ {eAGrot)nrot+AG0 (2) 式(2)において、 a, b, c, d, eは、それぞれ、既存の FlexXのスコアパラメータ AG , AG , AG , AG , AG の重み因子である。この(a, b, c, d, e)が、 match Hop ambig clash rot
実質的にトレーニングデータによって決定されるパラメータセットである。 (a, b, c, d, e)が(1, 1, 1, 1, 1)の場合は、式(1)に一致する。
[0052] まず、 96種類の複合体に対して、式(1)で表される FlexXスコアリング関数によって スコア(エネルギー)を求めた。前述のように、 1種類あたり、 1つの実験結合構造 (X 線結晶構造)と 100個の計算結合構造があるので、 96種類 X (1 + 100) =9696結 合構造に対してスコアが求められたことになる。その際、 AG だけでなぐ match, 1 bind
ipo, ambig, clash, rotの各項のスコアも個別に保存しておく。計算された結果は、 複数のパラメータセット生成用の複合体についてはトレーニング用分子構造データ 記憶部に、予測用の複合体にっ 、ては予測用分子構造データ記憶部に記憶してお
<o
[0053] 以上の準備が整った後、本実施例の分子構造予測システムにおいて、入力装置に より、動作開始の入力を行う。
[0054] まず、パラメータ決定用記憶装置のデータのリサンプリングを行う。本実施例におけ るリサンプリングの手順は以下のようである。
[0055] トレーニング用分子構造データ記憶部のデータである 49種類の複合体から、重複 を許してランダムに 49個を選び出す。これを 500回行うことにより、 500個のデータセ ットを作成し、それらは複数のデータセット記憶部に記憶される。これを模式的に表す と以下のようになる。 p.は複合体の種類を表している。
タセット 1 (ρ , ρ , ρ , ρ , ρ , ρ , ···, ρ )
1 1 2 4 5 7 49
タセット 2 (ρ , ρ , ρ , ρ , ρ , ρ , ···, ρ )
2 3 3 5 6 7 48
タセット 3 (ρ , ρ , ρ , ρ , ρ , ρ , ···, ρ )
1 4 6 10 11 12 49 データセット 500 : (ρ , ρ , ρ , ρ , ρ , ρ , ···, ρ ) [0056] 次に、複数のデータセット記憶部に記憶された 500個のデータセットについて、各 データセットにおける最適なパラメータセットを決定する。本実施例における 1データ セットに対するパラメータ決定手法は以下に示すものである。
[0057] まず、データセット内の複合体 ρについて、 Zスコア Zを求める。
[0058] [数 4]
Figure imgf000016_0001
ここで、 E は X線結晶構造のエネルギー、 < E >及び σ は、それぞれ、
exp, calc, calc,
計算結合構造のスコア (エネルギー)の平均及び標準偏差を表す。
[0059] 次に、データセット内の全ての Zの絶対値の平均 < Z >が最大になるような(a, b, c , d, e)を求める。
[0060] 上記の方法で、 500個分のデータセットそれぞれについて、最適なパラメータセット
(a, b, c, d, e)を決定する。つまり、 500個の最適なパラメータセット(a , b , c . d , e ) , (a , b , c , d , e ) , · · ·, (a , b , c , d , e )力、複数のパラメータセッ
1 2 2 2 2 2 500 500 500 500 500
ト記憶部に記憶される。リサンプリングによる複数のパラメータ決定の模式図を図 8に 示す。
[0061] 次に、本実施例における予測の仕方を、 1種類の複合体を例に説明する。ここで説 明される動作を予測用複合体 47種類に対して行うことになる。
[0062] 決定された 500個のパラメータセットを利用して、予測用分子構造データに対する スコア (エネルギー)計算を式 (2)を用いて行う。 1種類の複合体は、実験結合構造と 計算結合構造 100偶力 Sあるので、つまり、 500 X (1 + 100) = 50500偶のス =3ァカ S 計算されること〖こなる。
[0063] 各パラメータセットで求められた 1つの実験結合構造のスコアと 100個の計算結合 構造のスコア(エネルギー)とに基づいて、 1から 101までの順位付けを行う。同様の 動作を、 500個のパラメータセット分を行う。その結果、表 4のようなマトリックスが得ら れること〖こなる。次に、各結合構造のランクの頻度を求める。その結果、表 5のような マトリックスが得られることになる。表 5で得られる頻度を用いて、次の式で表されるコ ンセンサススコア Consensusを定義する。 [0064] [数 5]
Consensus = (N - i)Pt (4)
i
Nはデータ数を表すので、ここでは N=101( =実験 +計算)である。 と はそれ ぞれ、順位と順位の頻度を表している。 la4hの Exp (実験値)と calcl (1番目の計算 値)を例にすると、次のようになる。
Exp :0.85X (101-D+O.08 X (101-2) H—— hO.00 X (101— 101)=1 00. 910
calcl :0.08 X (101— 1)+0.05 X (101-2) H—— hO.00 X (101— 101)=96 . 896
[0065] 上記のように求められたコンセンサススコアの高いものから順位付けした結果が、出 力装置力 出力される。テスト用複合体 47種類について、同様の計算が行われ、結 果出力後、終了した。
[0066] 最終的に得られる実験結合構造の順位を、コンセンサススコアと、既存の FlexX コアリング関数 (式(1))で求められるスコアとで比較した結果が表 6に示される。本実 施例のシステムは、既存の FlexXスコアよりも、 18種類の複合体で順位が良い。特に 、 lcla(41上昇)、 ltet(18上昇)、 2sns(7上昇)、 2tmn(8上昇)、 4xia(12上昇)は 、大幅に順位がよくなつていることが分かる。また、実験結合構造が順位トップ(1位) であった数は、本実施例のシステムでは 25個に対して、既存の FlexXスコアでは 23 個であることからも、本実施例のシステムが優れていることが分かる。
[0067] [表 4]
各パラメータセットから求められたスコアに対する順位付け (1a4hの一部抜粋)
Figure imgf000017_0001
Expは実験結合構造、 calcは計算結合構造を表す。 5]
表 5 各順位の頻度 (1 a4hの一部抜粋)
Figure imgf000018_0001
Expは実験結合構造、 calcは計算結合構造を表す。
1行あたりの全ての頻度の和は 1である。
コンセンサススコアと既存の FlexXスコアの実験結合構造の順位
Figure imgf000018_0002
Consensusは本発明のシステムで得られた結果を表し、 FlexX orgは既存の FlexX スコアの結果を表す。 産業上の利用可能性
本発明は、薬剤候補ィ匕合物探索をコンピュータで実現するためのプログラムといつ た用途に適用できる。この適用によって、創薬のコスト削減、効率化を実現することが 可能になる。さらに本発明は、分子シミュレーションのおけるスコアリング関数やエネ ルギ一関数の経験的パラメータ決定システムといった用途に適用できる。

Claims

請求の範囲
[1] 1つのエネルギー関数に対して、複数のパラメータセットで分子のエネルギーを計 算し、得られる複数の結果力 統計手法を用いて最安定な分子構造にっ 、てのコン センサスをとり、コンセンサスの結果力 最安定な分子構造を予測することを特徴とす る分子構造予測システム。
[2] 複数のパラメータセットを記憶するパラメータセット記憶部と、
予測用の分子構造データを記憶する予測用分子構造データ記憶部と、 分子のエネルギーを計算する分子エネルギー計算手段と、
複数のパラメータセットを用いて計算された複数の分子のエネルギーもしくは分子 構造の結果に基づ 、て最安定な分子構造にっ 、てのコンセンサスをとるコンセンサ ス手段と、
を備える分子構造予測システム。
[3] 前記分子エネルギー計算手段は、 3次元構造既知の分子に対してエネルギーの一 点計算する、請求項 2に記載の分子構造予測システム。
[4] 前記分子エネルギー計算手段は、分子動力学法もしくはモンテカルロ法によって 構造探索を行 、ながら計算する、請求項 2に記載の分子構造予測システム。
[5] 前記コンセンサス手段は、複数のパラメータセットで得られた複数の分子のェネル ギ一の結果に基づいて、統計手法を用いてコンセンサスをとる、請求項 2に記載の分 子構造予測システム。
[6] 前記コンセンサス手段は、
複数のパラメータセット各々で、分子のエネルギーに基づ 、て順位付けを行!、、 各分子構造の順位の頻度を計算し、頻度を重みとしてコンセンサススコアを計算し 、コンセンサススコアの良い順に最安定な分子構造の順位付けを行う、請求項 2に記 載の分子構造予測システム。
[7] 前記コンセンサス手段は、 Nをデータ数、 iを順位、 Pを順位の頻度として、
[数 1]
N
Consensus二 (N - i )Pt で表わされるコンセンサススコア Consensusを計算し、コンセンサススコアの良い順 に最安定な分子構造の順位付けを行う、請求項 2記載の分子構造予測システム。
[8] 前記分子エネルギー計算手段が、複数のパラメータセットを用いて分子動力学法ま たはモンテカルロ法で分子のエネルギーを計算する場合に、前記コンセンサス手段 は、複数の 3次元構造の結果力も統計手法を用いてコンセンサスをとる、請求項 2に 記載の分子構造予測システム。
[9] 前記分子エネルギー計算手段が、複数のパラメータセットを用いて分子動力学法ま たはモンテカルロ法で分子のエネルギーを計算する場合に、前記コンセンサス手段 は、 3次元構造間の自乗平均平方根偏差(root— mean— square deviation)によ つてクラスタリングを行い、クラスターの大きい順に順位付けする、請求項 2に記載の 分子構造予測システム。
[10] トレーニングデータセットからリサンプリングにより複数のデータセットを生成するリサ ンプリング手段と、
前記リサンプリング手段によって生成された複数のデータセットの各々に対してパラ メータセットを決定するパラメータセット決定手段と、
を含む複数パラメータセット決定手段をさらに備える請求項 2に記載の分子構造予 測システム。
[11] 前記リサンプリング手段は、トレーニングデータセットから、重複を許してランダムに あら力じめ決められたデータ数まで選抜し、あら力じめ決めたデータセット数の回数 だけリサンプリングを行う、請求項 10に記載の分子構造予測システム。
[12] 前記パラメータセット決定手段は、 1分子の実験構造のエネルギーと、多数の非実 験構造の平均エネルギー及び標準偏差力 得られる Z値の絶対値を計算することを 、 1データセット内の全ての分子について行い、 Z値の絶対値の平均値が最大になる ようなパラメータの組み合わせを決定する、請求項 10に記載の分子構造予測システ ム。
[13] 前記パラメータセット決定手段は、 1分子の実験構造のエネルギーと、多数の非実 験構造の平均エネルギー及び標準偏差力 得られる Z値の絶対値を計算することを 、 1データセット内の全ての分子について行い、 Z値の絶対値の中央値が、最大にな るようなパラメータの組み合わせを決定する、請求項 10記載の分子構造予測システ ム。
[14] 1つのエネルギー関数に対して、複数のパラメータセットで分子のエネルギーを計 算し、得られる複数の結果力 統計手法を用いて最安定な分子構造にっ 、てのコン センサスをとり、コンセンサスの結果力 最安定な分子構造を予測することを特徴とす る分子構造予測方法。
[15] あら力じめ利用できる複数のパラメータセットがある場合は、パラメータセット記憶部 に複数のパラメータセットを記憶する段階と、
あら力じめ利用できる複数のパラメータセットがない場合は、トレーニングデータセッ トからリサンプリングにより複数のデータセットを生成し、前記生成された複数のデー タセットの各々に対してパラメータセットを決定することによって複数のパラメータセッ トを決定し、その後、前記パラメータセット記憶部に前記複数のパラメータセットを記 憶する段階と、
予測用分子構造データ記憶部に予測用の分子構造データを記憶する段階と、 分子のエネルギーを計算する段階と、
前記複数のパラメータセットを用いて計算された、複数の分子のエネルギーもしくは 分子の 3次元構造の結果に基づ 、て最安定な分子構造にっ 、てのコンセンサスをと る段階と、
を有することを特徴とする分子構造予測方法。
[16] 前記分子のエネルギーを計算する段階は、 3次元構造既知の分子に対してェネル ギ一の一点計算を実行する段階、または、分子動力学法もしくはモンテカルロ法によ つて構造探索を行いながら計算する段階を有する、請求項 15に記載の分子構造予 測方法。
[17] 前記コンセンサスをとる段階において、前記コンセンサスをとる指標に関して、前記 複数のパラメータセットで得られた複数の分子のエネルギー、または、前記複数のパ ラメータセットで得られた複数の分子の 3次元構造を用いる、請求項 15に記載の分 子構造予測方法。
[18] 前記コンセンサスをとる段階では、前記コンセンサスの指標を前記複数の分子のェ ネルギーとする場合には、前記複数のパラメータセット各々で、分子のエネルギーに 基づいた順位付けを行い、各分子構造の順位の頻度を計算し、頻度を重みとしてコ ンセンサススコアを計算し、
Figure imgf000023_0001
、順に最安定な分子構造の順位 付し、
前記コンセンサスの指標を前記複数の分子の 3次元構造とする場合には、複数の ノ ラメータセット各々で計算された分子の全ての組み合わせで 3次元構造間の自乗 平均平方根偏差(root— mean— square deviation)に関するクラスタリングを行い 、クラスターの大きい順に順位付けする、
請求項 17に記載の分子構造予測方法。
[19] 前記コンセンサスをとる段階では、 Nをデータ数、 iを順位、 Pを順位の頻度として、 [数 2]
N
consensus二〉 (N _ i)Pt で表されるコンセンサススコア Consensusを計算し、コンセンサススコアの良 、順に 最安定な分子構造の順位付けを行う、請求項 15に記載の分子構造予測方法。
[20] 複数のパラメータセットを決定する際に、
前記トレーニングデータセットから、重複を許してランダムにあら力じめ決められた データ数まで選抜し、その作業をあら力じめ決めたデータセット数の回数だけ行 、、 前記パラメータセット決定によって、 1分子の実験構造のエネルギーと、多数の非実 験構造の平均エネルギー及び標準偏差力 得られる Z値の絶対値を計算することを 、 1データセット内の全ての分子について行い、 Z値の絶対値の平均値もしくは中央 値力 最大になるようなパラメータの組み合わせを決定する、請求項 15に記載の分 子構造予測方法。
[21] コンピュータに、
1つのエネルギー関数に対して、複数のパラメータセットで分子のエネルギーを計 算する処理と、
得られる複数の結果力 統計手法を用いて最安定な分子構造にっ 、てのコンセン サスをとる処理と、 前記コンセンサスの結果力 最安定な分子構造を予測する処理と、 を実行させる、分子構造予測プログラム。
[22] コンピュータに、
あら力じめ利用できる複数のパラメータセットがある場合は、パラメータセット記憶部 に複数のパラメータセットを記憶させる処理と、
あら力じめ利用できる複数のパラメータセットがない場合は、トレーニングデータセッ トからリサンプリングにより複数のデータセットを生成し、生成された複数のデータセッ トの各々に対してパラメータセットを決定することによって複数のパラメータセットを決 定し、その後、前記パラメータセット記憶部に前記複数のパラメータセットを記憶する 処理と、
予測用分子構造データ記憶部に予測用の分子構造データを記憶する処理と、 分子のエネルギーを計算する処理と、
複数のパラメータセットを用いて計算された、複数の分子のエネルギーもしくは分子 構造の結果に基づ 、てコンセンサスをとる処理と、
を実行させる、分子構造予測プログラム。
[23] 前記コンピュータに、
前記分子のエネルギーを計算する処理にお!、て、 3次元構造既知の分子に対して エネルギーの一点計算する処理、または、分子動力学法もしくはモンテカルロ法によ つて構造探索を行いながらエネルギーを計算する処理、を実行させる、請求項 22に 記載の分子構造予測プログラム。
[24] コンセンサスをとる処理において、コンセンサスをとる指標に関して、前記複数のパ ラメータセットで得られた複数の分子のエネルギー、または、前記複数のパラメータセ ットで得られた複数の分子の 3次元構造を用いる、請求項 22に記載の分子構造予測 プログラム。
[25] 前記コンセンサスをとる処理において、前記コンセンサスの指標を前記複数の分子 のエネルギーとする場合には、前記複数のパラメータセット各々で、分子のエネルギ 一に基づいた順位付けを行い、各分子構造の順位の頻度を計算し、頻度を重みとし てコンセンサススコアを計算し、コンセンサススコアの良い順に最安定な分子構造の 順位付し、
前記コンセンサスの指標を前記複数の分子の 3次元構造とする場合には、複数の ノ ラメータセット各々で計算された分子の全ての組み合わせで 3次元構造間の自乗 平均平方根偏差(root— mean— square deviation)に関するクラスタリングを行い 、クラスターの大きい順に順位付けする、
請求項 22に記載の分子構造予測プログラム。
[26] 前記コンセンサスをとる処理にぉ 、て、 Nをデータ数、 iを順位、 Pを順位の頻度とし て、
[数 3]
N
し omemus = (N - i)Pt
l
で表わされるコンセンサススコア Consensusを計算し、コンセンサススコアの良い順 に最安定な分子構造の順位付けを行う、請求項 22に記載の分子構造予測プロダラ ム。
[27] 前記複数のパラメータセットを決定する際に、
前記トレーニングデータセットから、重複を許してランダムにあら力じめ決められた データ数まで選抜し、その動作をあら力じめ決めたデータセット数の回数だけ行 、、
1分子の実験構造のエネルギーと、多数の非実験構造の平均エネルギー及び標準 偏差力も得られる Z値の絶対値を計算することを、 1データセット内の全ての分子につ いて行い、 Z値の絶対値の平均値もしくは中央値力 最大になるようなパラメータの組 み合わせを決定する、請求項 22に記載の分子構造予測プログラム。
PCT/JP2007/055210 2006-03-15 2007-03-15 分子構造予測システム、方法及びプログラム WO2007105794A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US12/293,056 US20090048817A1 (en) 2006-03-15 2007-03-15 Molecular structure prediction system, method, and program
JP2008505203A JP5262709B2 (ja) 2006-03-15 2007-03-15 分子構造予測システム、方法及びプログラム
US13/153,276 US20110238396A1 (en) 2006-03-15 2011-06-03 Molecular structure prediction system, method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006-070842 2006-03-15
JP2006070842 2006-03-15

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US13/153,276 Division US20110238396A1 (en) 2006-03-15 2011-06-03 Molecular structure prediction system, method, and program

Publications (1)

Publication Number Publication Date
WO2007105794A1 true WO2007105794A1 (ja) 2007-09-20

Family

ID=38509607

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/055210 WO2007105794A1 (ja) 2006-03-15 2007-03-15 分子構造予測システム、方法及びプログラム

Country Status (3)

Country Link
US (2) US20090048817A1 (ja)
JP (1) JP5262709B2 (ja)
WO (1) WO2007105794A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009090796A1 (ja) * 2008-01-16 2009-07-23 Nec Corporation エネルギー関数最適化システム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120041702A (ko) 2009-05-28 2012-05-02 노파르티스 아게 네프릴리신 억제제로서의 치환된 아미노부티르산 유도체
KR101586388B1 (ko) * 2013-07-18 2016-01-18 주식회사 엘지화학 분자 오비탈 분포에 대한 정량적 비교 분석 방법 및 이를 이용한 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05120397A (ja) * 1991-10-28 1993-05-18 Daikin Ind Ltd 低エネルギー分子構造発生方法およびその装置
WO2005069188A1 (ja) * 2003-12-26 2005-07-28 Dainippon Sumitomo Pharma Co., Ltd. 化合物および蛋白質間の相互作用を予測するシステム
JP2005524129A (ja) * 2002-03-26 2005-08-11 カウンシル・オブ・サイエンティフィック・アンド・インダストリアル・リサーチ 3次元分子構造の最適モデルを構築する方法及びシステム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0589074A (ja) * 1991-09-30 1993-04-09 Fujitsu Ltd 二次構造予測装置
WO2005038431A2 (en) * 2003-10-14 2005-04-28 Verseon Method and device for partitioning a molecule
JP2006011724A (ja) * 2004-06-24 2006-01-12 Ishihara Sangyo Kaisha Ltd データ解析方法及びそのシステム
US20090144209A1 (en) * 2004-07-07 2009-06-04 Nec Corporation Sequence prediction system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05120397A (ja) * 1991-10-28 1993-05-18 Daikin Ind Ltd 低エネルギー分子構造発生方法およびその装置
JP2005524129A (ja) * 2002-03-26 2005-08-11 カウンシル・オブ・サイエンティフィック・アンド・インダストリアル・リサーチ 3次元分子構造の最適モデルを構築する方法及びシステム
WO2005069188A1 (ja) * 2003-12-26 2005-07-28 Dainippon Sumitomo Pharma Co., Ltd. 化合物および蛋白質間の相互作用を予測するシステム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHIMADA J. ET AL.: "Docking Simulation ni yoru Soyaku Screening", NEC TECHNICAL JOURNAL, NEC CORP., vol. 56, no. 10, 25 November 2003 (2003-11-25), pages 38 - 42, XP003017823 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009090796A1 (ja) * 2008-01-16 2009-07-23 Nec Corporation エネルギー関数最適化システム

Also Published As

Publication number Publication date
JP5262709B2 (ja) 2013-08-14
US20110238396A1 (en) 2011-09-29
US20090048817A1 (en) 2009-02-19
JPWO2007105794A1 (ja) 2009-07-30

Similar Documents

Publication Publication Date Title
Zheng et al. Folding non-homologous proteins by coupling deep-learning contact maps with I-TASSER assembly simulations
Lee et al. Ab initio protein structure prediction
Dunbrack Jr Sequence comparison and protein structure prediction
Schlick et al. Biomolecular modeling and simulation: a field coming of age
Bhattacharyya et al. Protein structure and function: looking through the network of side-chain interactions
Badaczewska-Dawid et al. Computational reconstruction of atomistic protein structures from coarse-grained models
Pan et al. Robust prediction of B-factor profile from sequence using two-stage SVR based on random forest feature selection
Wassermann et al. Ligand prediction for orphan targets using support vector machines and various target-ligand kernels is dominated by nearest neighbor effects
CN103714265A (zh) 一种基于蒙特卡洛局部抖动和片段组装的蛋白质三维结构预测方法
Thomas et al. Protein folding by motion planning
JP5211458B2 (ja) 化合物の仮想スクリーニング方法および装置
JP2009007302A (ja) 仮想スクリーニング方法及び装置
Saleh et al. A population-based evolutionary search approach to the multiple minima problem in de novo protein structure prediction
Yamashita et al. The feasibility of an efficient drug design method with high-performance computers
Ertl et al. IADE: a system for intelligent automatic design of bioisosteric analogs
Szachniuk RNApolis: computational platform for RNA structure analysis
WO2007105794A1 (ja) 分子構造予測システム、方法及びプログラム
Li et al. PFP-RFSM: protein fold prediction by using random forests and sequence motifs
JP5211486B2 (ja) 化合物の仮想スクリーニング方法及び装置
Joo et al. Methods for accurate homology modeling by global optimization
Li et al. MSLDOCK: Multi-swarm optimization for flexible ligand docking and virtual screening
Kumar et al. Computational strategies and tools for protein tertiary structure prediction
JP2021005344A (ja) ポテンシャルパラメータの算出方法
Chen et al. Analysis of metabolic pathway using hybrid properties
JP2022104425A (ja) 拡散経路の探索方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07738660

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2008505203

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 12293056

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 07738660

Country of ref document: EP

Kind code of ref document: A1