WO2005081166A1 - 相互作用部位予測装置、相互作用部位予測方法、プログラム、および記録媒体 - Google Patents

相互作用部位予測装置、相互作用部位予測方法、プログラム、および記録媒体 Download PDF

Info

Publication number
WO2005081166A1
WO2005081166A1 PCT/JP2005/003047 JP2005003047W WO2005081166A1 WO 2005081166 A1 WO2005081166 A1 WO 2005081166A1 JP 2005003047 W JP2005003047 W JP 2005003047W WO 2005081166 A1 WO2005081166 A1 WO 2005081166A1
Authority
WO
WIPO (PCT)
Prior art keywords
protein
contact
interaction site
grid
database
Prior art date
Application number
PCT/JP2005/003047
Other languages
English (en)
French (fr)
Inventor
Hideaki Umeyama
Mayuko Shitaka
Genki Terashi
Original Assignee
In-Silico Sciences, Inc.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by In-Silico Sciences, Inc. filed Critical In-Silico Sciences, Inc.
Priority to JP2006510313A priority Critical patent/JP4751822B2/ja
Publication of WO2005081166A1 publication Critical patent/WO2005081166A1/ja

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B30/00Methods of screening libraries
    • C40B30/04Methods of screening libraries by measuring the ability to specifically bind a target molecule, e.g. antibody-antigen binding, receptor-ligand binding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Definitions

  • Interaction site prediction device interaction site prediction method, program, and recording medium
  • the present invention relates to an interaction site prediction device, an interaction site prediction method, a program, and a recording medium, and more particularly, to an interaction site prediction device, an interaction site prediction method, a program, and a program for predicting an interaction site of a protein. And a recording medium.
  • the analysis results of the binding state of the protein-protein complex provided by the present invention are useful in designing pharmaceuticals and agrochemicals and analyzing protein functions.
  • the function of a protein can be understood as a protein interaction. As one of them, protein-protein docking analysis is performed.However, since the calculation is performed between macromolecules, the calculation scale becomes very large, and the problem is that full-scale utilization has not yet been performed. is there.
  • an alignment with the target protein with an unknown three-dimensional structure can be obtained, and the three-dimensional structure of the target protein can be created using a computer based on this alignment information.
  • This method is usually called homology modeling! /.
  • the relative configuration may differ from that of a known protein even though the three-dimensional structure used is different from that of a known protein.
  • a three-dimensional structure is constructed in the same relative configuration as that of a known protein.
  • alignment information which is important information, is generally obtained by performing homology search on amino acid sequence information of a known protein tertiary structure.
  • the FAS Computer software such as TA (for example, see Non-Patent Document 1) and PSI-BLAST (for example, see Non-Patent Document 2) can be used.
  • the homology and the e value can generally be obtained for each alignment.
  • the homology is the degree of residue identity (%).
  • Non-patent document 1 Pearson WR, Methods Enzymol, 266, 277-258, 199 6
  • Non-Patent Document 2 Schaffer AA, Wolf YI, Ponting CP, Koonin EV, Ara vund L and Altschul SF, Bioinform atics, 12, 1000—1011, 1999
  • the present inventors studied a method for predicting a protein docking structure. Since the protein-protein docking structure prediction involves calculation between macromolecules, there is a problem that the calculation scale becomes huge.
  • the problem to be solved by the present invention is to provide a method for rapidly and easily evaluating the interaction of a protein complex, which is particularly important in the development of drugs and the like in view of the above situation. .
  • As a pretreatment for this purpose we provide a method for predicting protein interaction sites by devising a method for expressing the protein surface and a method for quantifying the tendency to become an interaction site. I have to do it.
  • the three-dimensional structure of a multi-chain protein is constructed using homology modeling, the three-dimensional structure of the target protein is used as it is, even though the three-dimensional structure used is different from that of a known protein.
  • a three-dimensional structure is constructed in the same relative configuration as that of a known protein.
  • the problem to be solved by the present invention is that the result of performing homologous modeling on an arbitrary protein having a plurality of chains, which is particularly important in the development of pharmaceuticals, etc., can be obtained with higher accuracy.
  • the goal is to provide a way to optimize.
  • the interaction site of the three-dimensional structure model can be defined. It also provides a way to make predictions.
  • an object of the present invention is to provide an alignment including an index of the ease of formation of a three-dimensional structure of a protein complex created by performing homology modeling from an alignment using a protein complex database. It is an object of the present invention to provide a method for accurately evaluating an object.
  • the present inventors have studied a method aimed at analyzing protein-protein interaction, and as a result, have developed an interaction site prediction device, an interaction site prediction method, a program, and a recording medium.
  • the specified values or expressions described below are values or functions that can be changed, respectively, and do not limit the scope of the present invention.
  • an interaction site prediction device is an interaction site prediction device that predicts an interaction site of a protein, and comprises a plurality of proteins and proteins.
  • Lattice points are placed in xyz coordinates on the protein coordinate surface in 1A increments, and the sum of the given radius of carbon and the atomic radius of the protein is also within a given range from each point.
  • Surface grid point generating means for generating a surface grid, which is coordinates where
  • a contact site grid selecting means for judging whether or not the surface grid overlaps the surface atom radius of another chain, and selecting a contact site grid, and for each amino acid residue pattern
  • a contact part grid database creating means for creating a contact part grid database in which the number counted as the surface grid and the number counted as the contact grid by the contact part grid selecting means are stored in association with each other;
  • the target protein surface grid generating means for generating the surface grid for the target protein structure data to be subjected to the interaction site prediction, and the respective surface grids of the target protein generated by the target protein surface grid generating means
  • An interaction site prediction means for obtaining a contact determination score with reference to the contact site grid database and predicting an interaction site of the target protein based on the contact determination score. And features.
  • the interaction site prediction means obtains the above-mentioned contact determination score by using the following Expression 1, The interaction site of the target protein is predicted based on the contact determination score.
  • an interaction site prediction device corresponds to the interaction site prediction device described above, and corresponds to the interaction site predicted by the interaction site prediction means.
  • a docking state searching means for searching for a docking state with respect to the surface grid at a contact site of the binding protein binding to the target protein;
  • the docking state searching means may include a plurality of protein-protein complex three-dimensional structure data, Contact relative arrangement coordinate database creation means for obtaining relative arrangement coordinate data for amino acid residue pairs in contact between different chains of each protein-protein complex and creating a contact relative arrangement coordinate database, and the above-mentioned contact relative arrangement A distance distribution database creating means for obtaining a distance distribution between arbitrary atoms of each relative arrangement coordinate data registered in the contact relative arrangement coordinate database created by the coordinate database creating means and creating a distance distribution database; Using the distance distribution database created by the distance distribution database creating means, By obtaining the Kkingu state determination score to the docking scores judging means for searching the docked state, and further comprising a.
  • the docking score determination means may calculate the docking state determination score based on the following equation (2). Searching for the docking state by the search.
  • the docking state searching means may change a relative position between the target protein and the binding protein.
  • a relative position changing means for searching for the above-mentioned docking state which has been optimized.
  • the present invention relates to an interaction site prediction method, and the interaction site prediction method according to the present invention provides an interaction site prediction method for predicting an interaction site of a protein.
  • a grid point is placed on the xyz coordinates of the protein coordinate surface at intervals of 1 A for a plurality of protein-protein complex three-dimensional structure data, and a predetermined radius of carbon and the atomic radius of the protein are determined from each point.
  • a contact site grid selection step of judging whether or not a force overlaps with the surface atomic radius and selecting a contact site grid, the number counted as the surface grid for each amino acid residue pattern, and the contact site grid A contact part grid database in which the number counted as the contact grid in the selection step is stored in association with A contact site grid database creating step for creating a target protein surface grid, and a target protein surface grid generating step for generating the surface grid for target protein structural data to be subjected to interaction site prediction.
  • a contact judgment score is obtained by referring to the contact site grid database, and the interaction site of the target protein is determined based on the contact judgment score.
  • an interaction site prediction step of predicting the interaction site For each surface grid of the target protein generated in the step, a contact judgment score is obtained by
  • the contact determination score is obtained by using the following Expression 1, and The interaction site of the target protein is predicted based on the contact determination score.
  • i is the contact amino residue pattern of interest.
  • C is the number of surface grids in the database for pattern i, and Con is the count of pattern i at the contact site.
  • Con is the count of pattern i at the contact site.
  • the difference (Ci-Con) is the count at the non-contact site.
  • the interaction site prediction method according to the next invention is the same as the interaction site prediction method described above, except that the interaction site predicted in the interaction site prediction step is added to the interaction site prediction method.
  • the docking state search step may be performed on a plurality of protein-protein complex three-dimensional structure data.
  • a distance distribution database creation step for obtaining a distance distribution between arbitrary atoms of each relative arrangement coordinate data registered in the contact relative arrangement coordinate database created in the relative arrangement coordinate database creation step and creating a distance distribution database.
  • the distance distribution data created in the distance distribution database creation step Using data base, by obtaining a docked state determination score to the docking scores determining step of searching the docked state, and further comprising a.
  • the docking score determination step includes calculating the docking state determination score based on the following equation (2). Searching for a docking state by the search.
  • the docking state searching step changes the relative position between the target protein and the binding protein.
  • the method further includes a relative position changing step of searching for the optimized docking state.
  • the present invention also relates to a program, and a program that runs on the present invention executes an interaction site prediction method for predicting an interaction site of a protein on a computer.
  • This is a program that puts lattice points on the xyz coordinates of the protein coordinate surface in 1 A increments for multiple protein-protein complex three-dimensional structure data, each of which has a predetermined carbon radius and protein atom
  • the sum of the radii is also a coordinate at which surface atoms are present in a predetermined range, a surface grid point generating step for generating a surface grid, and each surface grid generated in the surface grid generating step described above.
  • a contact determination score is obtained by referring to the contact site grid database, and an interaction site of the target protein is determined based on the contact determination score.
  • an interaction site prediction step for predicting an interaction site.
  • the program according to the next invention is the program according to the above, wherein the interaction site prediction step obtains the contact determination score using the following formula 1, and the target protein is determined based on the contact determination score. Predict the interaction site of.
  • i is the contact amino residue pattern of interest.
  • C is the number of surface grids in the database for pattern i, and Con is the count of pattern i at the contact site.
  • Con is the count of pattern i at the contact site.
  • the difference (Ci-Con) is the count at the non-contact site.
  • the program according to the next invention is the program according to the above, wherein the surface grid corresponding to the interaction site predicted in the interaction site prediction step is combined with the target protein.
  • the docking state searching step is performed on a plurality of protein-protein complex three-dimensional structure data between different chains of each protein-protein complex.
  • the relative position coordinate data is obtained for the amino acid residue pair by contacting with the above, and a contact relative position coordinate database creating step for creating a contact relative position coordinate database, and the contact relative position coordinate database creation step.
  • the distance distribution between arbitrary atoms of each relative arrangement coordinate data registered in the contact relative arrangement coordinate database is obtained, and a distance distribution database creation step for creating a distance distribution database and the distance distribution database creation step are created.
  • a distance distribution database By obtaining the Kkingu state determination score to the docking scoring scan Tetsupu to explore docked state, further comprising a.
  • the docking score determination step searches for the docking state by obtaining the docking state determination score based on the following equation (2). To do. Count id
  • the docking state search step is performed by changing a relative position between the target protein and the binding protein to thereby optimize the docking state.
  • the present invention relates to a recording medium, and a computer-readable recording medium according to the present invention is characterized by recording the program described above.
  • the present invention it is possible to more efficiently and quickly estimate a protein-protein / drug interaction site where the interaction site is weak.
  • drug design is performed around that part, it can be expected to be effective in developing drugs that show some effect.
  • effects such as estimation of the active site can be expected.
  • an accurate protein complex structure by optimizing the relative arrangement with respect to a result of prediction of a three-dimensional structure of a protein complex such as homology modeling.
  • the effect can be expected.
  • the effect of efficiently and accurately analyzing various drug complexes with unknown tertiary structures in drug design and functional analysis can be expected.
  • the present invention when there are many alignments of a protein complex, it is possible to efficiently select a biologically important and reliable alignment.
  • the present invention which efficiently analyzes the three-dimensional structure of a multi-chain protein, is useful in the field of drug discovery such as drug design and screening that acts on proteins, in which homologous modeling of a large-scale protein complex can be performed efficiently, quickly, and accurately. The effect of performing analysis can be expected
  • FIG. 1 is a diagram showing a definition of “contact” in the present invention.
  • FIG. 2 is a diagram showing a definition of “surface grid points” in the present invention.
  • FIG. 3 is a diagram showing a definition of a “grid point of a contact portion” in the present invention.
  • Fig. 4 shows the PHE- of the three-dimensional relative arrangement database of amino acid side chains in the present invention.
  • FIG. 5 is a flowchart showing an example of a database creation method in a protein-protein interaction database.
  • FIG. 6 is a flowchart showing an example of an interaction site prediction method.
  • FIG. 7 is a flowchart of a method (docking) of searching for a binding state of a multi-chain protein whose binding state is unknown.
  • FIG. 8 is a view showing a relative position change in a method (docking) of searching for a binding state of a multi-chain protein whose binding state is unknown.
  • FIG. 9 is a flowchart showing an example of a relative position search process using random numbers used in a method (docking) of searching for the binding state of a multi-chain protein whose binding state is unknown. is there.
  • FIG. 10 is a diagram showing a definition of a hydrogen bond in the present invention.
  • FIG. 11 is a flow chart showing an example of a step of predicting an interaction state using a database and an alignment file when performing homology modeling of a multi-chain protein.
  • FIG. 12 is a diagram showing an example of a database showing distribution of amino acid residues in contact with ALA in the distance between C ⁇ .
  • FIG. 13 is a diagram showing FIG. 12 in a graph.
  • FIG. 14 is a diagram showing an example of a graph showing the distribution of the amino acid residues in contact with ALA at the distance between C ⁇ .
  • FIG. 15 is a diagram showing an example of a graph showing distribution of amino acid residues in contact with ARG at distances between C ⁇ s.
  • FIG. 16 is a diagram showing an example of a graph showing the distribution of amino acid residues in contact with ASN at the distance between C lines.
  • FIG. 17 is a diagram showing an example of a graph showing the distribution of the amino acid residues in contact with ASP at the distance between Ca and FIG.
  • FIG. 18 is a diagram showing an example of a graph showing the distribution of the amino acid residues in contact with CYS in the distance between Co;
  • FIG. 19 is a diagram showing an example of a graph showing distribution of amino acid residues in contact with GLN at the distance between C lines.
  • FIG. 20 is a diagram showing an example of a graph showing the distribution of amino acid residues in contact with GLU at the distance between C lines.
  • FIG. 21 is a diagram showing an example of a graph showing the distribution of amino acid residues in contact with GLY at the distance between C lines.
  • FIG. 22 is a diagram showing an example of a graph showing the distribution of amino acid residues in contact with HIS at distances between Co and!;
  • FIG. 23 is a diagram showing an example of a graph showing the distribution of amino acid residues in contact with ILE at C-span distances.
  • FIG. 24 is a diagram showing an example of a graph showing the distribution of amino acid residues in contact with LEU at the distance between C lines.
  • FIG. 25 is a diagram showing an example of a graph showing the distribution of amino acid residues in contact with LYS at the distance between C lines.
  • FIG. 26 is a diagram showing an example of a graph showing the distribution of the amino acid residues in contact with MET at the distance between C ⁇ s.
  • FIG. 27 is a diagram showing an example of a graph showing the distribution of amino acid residues in contact with ⁇ at the distance between C lines.
  • FIG. 28 is a diagram showing an example of a graph showing the distribution of amino acid residues in contact with PRO at the distance between C lines.
  • FIG. 29 is a diagram showing an example of a graph showing distribution of amino acid residues in contact with SER at distances between C ⁇ s.
  • FIG. 30 is a diagram showing an example of a graph showing the distribution of the amino acid residues in contact with THR at the distance between Ca and FIG.
  • FIG. 31 is a diagram showing an example of a graph showing the distribution of amino acid residues in contact with TRP at distances between C lines.
  • FIG. 32 is a diagram showing an example of a graph showing distribution of amino acid residues in contact with TYR at Ca distance.
  • FIG. 33 is a diagram showing an example of a graph showing the distribution of the amino acid residues in contact with VAL at the distance between Ca and FIG.
  • FIG. 34 is a diagram showing an example of an affinity matrix for amino acid pairs.
  • FIG. 35 is a diagram showing an example of a database of the types of amino acid residues, the number of amino acid residues appearing on the protein surface, and the number of amino acid residues appearing at the contact site.
  • FIG. 36 is a diagram showing, in three-dimensional manner, grid points of the result of the interaction site prediction of “PDB ID: 1JK3, Batimastat” in Example 2.
  • FIG. 37 is a diagram showing, in Example 2, three-dimensional grid points and a 2PTC E chain as a result of predicting an interaction site with respect to the E chain of “PDB ID: 2PTC”.
  • FIG. 38 is a diagram showing a three-dimensional view of grid points and the E and I chains of 2PTC in Example 2 as a result of predicting an interaction site with respect to the E chain of “PDB ID: 2PTC”. .
  • FIG. 39 is a three-dimensional image obtained by enlarging the grid point and the 2PTC E chain at the interaction site in Example 2 as a result of the prediction of the interaction site with respect to the E chain of “PDB ID: 2PTC”.
  • FIG. 39 is a three-dimensional image obtained by enlarging the grid point and the 2PTC E chain at the interaction site in Example 2 as a result of the prediction of the interaction site with respect to the E chain of “PDB ID: 2PTC”.
  • FIG. 40 shows the results of the prediction of the interaction site with respect to the E chain of “PDB ID: 2PTC” in Example 2, in which the grid points and the E and I chains of 2PTC are enlarged at the interaction site.
  • FIG. 40 shows the results of the prediction of the interaction site with respect to the E chain of “PDB ID: 2PTC” in Example 2, in which the grid points and the E and I chains of 2PTC are enlarged at the interaction site.
  • FIG. 41 is a diagram showing a three-dimensional grid point and an A chain of 1QPR as a result of the interaction site prediction for the eight chains of “PDB 10: 1 ⁇ 3? 1 ⁇ ” in Example 2. It is.
  • FIG. 42 shows three-dimensional grid points of the interaction site prediction results for the eight chains “PDB ID: 1 ⁇ 3 to 1 ⁇ ” and the A and B chains of 1QPR in Example 2.
  • FIG. 42 shows three-dimensional grid points of the interaction site prediction results for the eight chains “PDB ID: 1 ⁇ 3 to 1 ⁇ ” and the A and B chains of 1QPR in Example 2.
  • FIG. 43 shows that the grid point of the interaction site prediction result for the eight chains “PDB ID: 1 ⁇ 3? 1 ⁇ ” and the A chain of 1QPR in Example 2 It is a figure which is expanded and shown in three dimensions.
  • FIG. 44 shows a graph obtained by enlarging the grid point and the A chain of 1QPR of the interaction site prediction for the eight chains of PDB ID: 1 ⁇ 3? It is a figure shown in three dimensions.
  • Fig.45 shows the grid points of the interaction site prediction results in the interaction site with respect to the protein tertiary structure model of the homology modeling of SARS protease in Example 3 at the interaction site.
  • FIG. 46 shows that the grid points of the interaction site prediction result are expanded in the interaction site with respect to the protein three-dimensional structure model of the SARS protease homology modeling result in Example 3.
  • FIG. 46 shows that the grid points of the interaction site prediction result are expanded in the interaction site with respect to the protein three-dimensional structure model of the SARS protease homology modeling result in Example 3.
  • Figure 47 shows the RMSD of the candidate structure and the correct structure with the highest score for each of the verified PDB IDs in Example 4, and the RMSD of the candidate structure with the smallest RMSD among the candidate structures.
  • FIG. 48 is a view showing one example of a result of docking in Example 4.
  • FIG. 49 is a diagram showing an example of a result of docking in Example 4.
  • FIG. 50 is a view showing one example of a result of docking in Example 4.
  • FIG. 51 is a diagram showing an example of a result of docking in Example 4.
  • FIG. 52 is a view showing one example of a result of docking in Example 4.
  • FIG. 53 is a diagram showing an example of a result of docking in Example 4.
  • FIG. 54 is a view showing one example of a result of docking in Example 4.
  • FIG. 55 is a view showing one example of a result of docking in Example 4.
  • FIG. 56 is a view showing one example of a result of docking in Example 4.
  • FIG. 57 is a view showing one example of a result of docking in Example 4.
  • FIG. 58 is a view showing one example of a result of docking in Example 4.
  • FIG. 59 is a diagram showing an example of a result of docking in Example 4.
  • Figure 60 shows an example of SARS protease homology modeling results in Example 5, “Optimizing the results of homologous modeling of protein complexes of unknown tertiary structure (SARS protease dimer structure)”.
  • FIG. 5 shows an example of SARS protease homology modeling results in Example 5, “Optimizing the results of homologous modeling of protein complexes of unknown tertiary structure (SARS protease dimer structure)”.
  • Figure 61 shows the results of homologous modeling of SARS protease in Example 5. It is a figure showing an example of what was adapted.
  • FIG. 62 is a view showing an example of the structure of SARS protease “PDB ID: 1Q2W” obtained by X-ray crystal structure analysis and the result of homology modeling superimposed on the A chain.
  • Figure 63 shows an example of the SARS protease structure “PDB ID: 1Q2W” obtained by X-ray crystallography and the optimized structure obtained by homology modeling superimposed on the A-chain.
  • FIG. 64 is a diagram showing amino acid sequence data of tissue plasminogen activato in Example 6.
  • FIG. 65 is a diagram showing an example of an alignment file in which the reference protein is 1 BHT in Example 6.
  • FIG. 66 is a diagram showing an example of an alignment file in which the reference protein is lORF in Example 6.
  • FIG. 67 is a view showing experimental data of bZIP described in the paper in Example 7 in different colors according to the strength of the interaction.
  • Figure 68 Figure 68, the score of Araimento evaluation in Example 7, the ratio of the score of the scores of the reference protein and the target protein separated by 0/0, shown in color-coded according to the magnitude of the number FIG.
  • FIG. 69 is a graph showing, with respect to the combination of sequences from which a certain experimental value was obtained in Example 7, what percentage of the combination of sequences from which the experimental value was obtained shows what kind of predicted value was obtained. It is a figure which shows a touch by a graph.
  • FIG. 70 shows that, in Example 7, the difference between “Z> 2.5” at various threshold values and an experimental result of no interaction at “Z ⁇ 1.0” can be correctly predicted in Example 7. It is a figure which shows the verification result.
  • FIG. 71 is a conceptual diagram showing the basic principle of the present invention.
  • FIG. 72 is a block diagram showing an example of the configuration of the present system to which the present invention is applied.
  • FIG. 73 shows a configuration of a docking state search unit 102f of the present system to which the present invention is applied.
  • FIG. 4 is a block diagram showing an example of the above.
  • FIG. 74 is a diagram showing an example of a docking result in Example 8.
  • Target protein surface grid file 106d Interaction site prediction result file
  • contact refers to a state in which different proteins come into contact with each other when the distance between the atoms of the side chains is less than 1 A, which is less than the atomic radius (see Fig. 1).
  • a ⁇ surface grid '' is a grid point placed on the xyz coordinate of the protein coordinate surface in 1 A increments, and from each point a predetermined atomic radius of carbon (for example, 1.7 A) and the sum of the atomic radii of protein This means the coordinates where surface atoms are present in a range (for example, +1 A range) (see Fig. 2).
  • the ⁇ contact site grid '' is defined as the surface grid in which the surface atomic radius of another chain (for example, radius 1.7A) and the atomic radius of the virtual carbon of the surface grid (for example, 1.7A) overlap. Means (see Figure 3).
  • Coordinates describe a three-dimensional structure in a three-dimensional space. It is the relative distance in three directions perpendicular to each other with a certain point in space as the origin.
  • target protein is a target whose three-dimensional structure has not been completely determined by X-ray crystallography or NMR analysis, etc. Means any protein. This protein has a partial structure that has been analyzed but a complete three-dimensional structure has not been obtained, or a single-chain three-dimensional structure has been obtained! / /, Na !, things are included.
  • the X-ray crystallography includes not only X-rays but also electron beam and neutron analyses.
  • a “reference protein (reference)” is a protein whose details of its tertiary structure have already been determined by X-ray crystallography, NMR analysis, etc., and are referenced to construct the atomic coordinates that define the tertiary structure of the target protein.
  • Means "Alignment” means that the amino acid sequences of two or more types of proteins are associated.
  • FIG. 71 is a conceptual diagram showing the basic principle of the present invention.
  • the present invention provides for a plurality of protein-protein complex three-dimensional structure data, place the grid points in 1 A increments the X yz-coordinate of the protein coordinates a surface, from their respective points of a given carbon radius and protein The sum of the atomic radii of the surface generates a surface grid, which is the coordinates of the atoms on the surface within a predetermined range (step S-1).
  • step S-1 it is determined whether or not each of the generated surface grids has a force overlapping with the surface atom radius of another chain, and a contact part grid is selected ( Step S—
  • a contact position grid database is created in which the number counted as the surface grid and the number counted as the contact grid in step S-2 are stored in association with each other. (Step S-3).
  • a surface grid is generated for the target protein structure data for which the interaction site is to be predicted (step S-4).
  • a contact determination score is obtained by referring to the contact site grid database, and the target protein is determined based on the contact determination score. Predict the interaction site of (Step S-5).
  • the above-mentioned contact determination score is obtained using the following formula 1, and the interaction site of the target protein may be predicted based on the contact determination score! /.
  • i is the contact amino residue pattern of interest.
  • C is the number of surface grids in the database for pattern i, and Con is the count of pattern i at the contact site.
  • Con is the count of pattern i at the contact site.
  • the difference (Ci-Con) is the count at the non-contact site.
  • a docking state is searched for a surface grid corresponding to the interaction site predicted in step S-5 such that the docking state comes to the contact site of the binding protein that binds to the target protein (step S-6). ).
  • the search of the docking state is performed by preparing the following 1) a contact relative arrangement coordinate database and 2) a distance distribution database in advance, and calculating a score using the distance distribution database. May be.
  • the distance distribution between arbitrary elements of each relative arrangement coordinate data registered in the contact relative arrangement coordinate database is obtained, and a distance distribution database is created.
  • the docking state may be searched for by using the distance distribution database and calculating the above-mentioned docking state determination score based on the following equation 2.
  • a more optimized docking state can be searched for by changing the relative positions of the target protein and the binding protein.
  • FIG. 72 is a block diagram showing an example of a configuration of the present system to which the present invention is applied, and conceptually shows only a portion related to the present invention in the configuration.
  • the present system schematically includes an interaction site prediction device 100 for predicting an interaction site of a protein, and an external system 200 for providing an external database and various external programs. Are communicably connected via a network 300.
  • the network 300 has a function of interconnecting the interaction site prediction device 100 and the external system 200, and is, for example, the Internet or a LAN.
  • the external system 200 is mutually connected to the interaction site prediction device 100 via the network 300, and provides a user with an external database for protein three-dimensional structure data and the like and a web for executing various external programs.
  • the external system 200 may be configured as a WEB server, an ASP server, or the like, and its hardware configuration is configured by information processing devices such as workstations and personal computers that are generally sold, and its attached devices. May be.
  • each function of the external system 200 is realized by a CPU, a disk device, a memory device, an input device, an output device, a communication control device, and the like in the hardware configuration of the external system 200, and a program for controlling them. .
  • the interaction site prediction device 100 generally includes a control unit 102 such as a CPU that totally controls the entire interaction site prediction device 100, and a communication device such as a router connected to a communication line or the like. (Not shown), a storage unit 106 for storing various databases and files, an input / output control interface unit 108 connected to the input device 112 and the output device 114, and the like. , And these units are communicably connected via an arbitrary communication path. Further, the interaction site prediction device 100 is communicably connected to the network 300 via a communication device such as a router and a wired or wireless communication line such as a dedicated line.
  • Various databases, tables, and files (surface grid point file 106a—distance distribution database 106g) stored in the storage unit 106 are storage means such as a fixed disk device, and include various programs and programs used for various processes. Stores tables, files, databases and web page files.
  • the surface grid point file 106a is described later.
  • This is a surface grid point storage unit that stores the surface grid points generated by the surface grid point generation unit 102a.
  • the contact part grid database 106b is a contact part grid database storage unit that stores the contact part grid database created by the contact part grid database creation unit 102c described below.
  • the target protein surface grid file 106c is a target protein surface grid storage unit that stores the target protein surface grid generated by the target protein surface grid generator 102d described below.
  • the interaction site prediction result file 106d is an interaction site prediction result storage unit that stores the interaction site prediction result predicted by the interaction site prediction unit 102e described below.
  • the docking state search result file 106e is a docking state search result storage unit that stores a docking state result searched by a docking state search unit 102f described later.
  • the contact relative arrangement coordinate database 106f is a contact relative arrangement coordinate database storage unit that stores a contact relative arrangement coordinate database created by a contact relative arrangement coordinate database creating unit 102fl described later.
  • the distance distribution database 106g is a distance distribution database storage unit that stores a distance distribution database created by a distance distribution database creating unit 102f2 described below.
  • the communication control interface unit 104 controls communication between the interaction site prediction device 100 and the network 300 (or a communication device such as a router). That is, the communication control interface unit 104 has a function of communicating data with another terminal via a communication line.
  • the input / output control interface unit 108 controls the input device 112 and the output device 114.
  • the output device 114 in addition to a monitor (including a home television), a speaker or the like can be used (in the following, the output device 114 may be described as a monitor.)
  • a keyboard, a mouse, a microphone, or the like can be used.
  • the monitor also realizes the pointing device function in cooperation with the mouse.
  • the control unit 102 has a control program such as an OS (Operating System) and an internal memory for storing required data, and performs information processing for executing various processes using these programs and the like.
  • the control unit 102 conceptually includes a surface grid point generation unit 1 02a, a contact site grid selection unit 102b, a contact site grid database creation unit 102c, a target protein surface grid generation unit 102d, an interaction site prediction unit 102e, and a docking state search unit 102f. ing.
  • the surface grid point generating unit 102a generates a grid point for each of the protein / protein complex three-dimensional structure data in xyz coordinates on the protein coordinate surface in 1A steps.
  • a surface grid point generating means for generating a surface grid which is a coordinate at which surface atoms exist within a predetermined range from the sum of a predetermined radius of carbon and an atomic radius of protein from each point.
  • the contact site grid selection unit 102b determines whether each surface grid generated by the surface grid generation unit 102a overlaps with the surface atom radius of another chain, and selects the contact site grid. This is a grid selection means.
  • the contact site grid database creation unit 102c associates the number counted as the surface grid with the number counted as the contact grid in the contact site grid selection unit 102b for each amino acid residue pattern.
  • This is a contact part grid database creating means for creating a contact part grid database stored in advance.
  • the target protein surface grid generator 102d is a target protein surface grid generator that generates a surface grid for target protein structure data that is the target of interaction site prediction.
  • the interaction site prediction unit 102e obtains a contact determination score for each surface grid of the target protein generated by the target protein surface grid generation unit 102d by referring to the contact site grid database, and obtains the contact determination score. This is an interaction site prediction means for predicting the interaction site of the target protein based on the judgment score.
  • the docking state search unit 102f compares the surface grid corresponding to the interaction site predicted by the interaction site prediction unit 102e with a docking state that comes to the contact site of the binding protein that binds to the target protein. Is a docking state searching means for searching for.
  • the docking state search unit 102f includes a contact relative arrangement coordinate database creation unit 102fl, a distance distribution database creation unit 102f2, a docking score determination unit 102f3, and a relative position change unit 102f. 102f4.
  • the relative position coordinate data is obtained for the amino acid residue pairs in contact between the different chains of each protein-protein complex with respect to the structure data, and the contact relative position coordinate database creating means for creating the contact relative position coordinate database is used. is there.
  • the distance distribution database creating unit 102f2 obtains a distance distribution between arbitrary atoms of each relative arrangement coordinate data registered in the contact relative arrangement coordinate database created by the contact relative arrangement coordinate database creation unit 102fl, and calculates a distance. It is a means for creating a distance distribution database that creates a distribution database.
  • the docking score determination unit 102f3 is a docking score determination unit that searches for a docking state by obtaining a docking state determination score using the distance distribution database created by the distance distribution database creation unit 102f2.
  • the relative position changing unit 102f4 is a relative position changing unit that searches for an optimized docking state by changing the relative positions of the target protein and the binding protein.
  • the processing of the control unit 102 performs fully automatic database mapping on the protein interaction state with a known three-dimensional structure of the protein-protein complex, and the three types of databases (contact site Create grid database, distance distribution database and contact relative arrangement coordinate database.
  • PQS Protein Quaternary Structure file server: http://pqs.ebi.ac.uk/HenricKK, Thornton JM.Related Articles, Links PQS
  • the docking state search unit 102f determines the amino acid residues in contact between different chains that match the definition of “contact” for the input protein / protein complex three-dimensional structure data.
  • the relative coordinates of the base pair are obtained.
  • the position of the contacting side chain relative to the reference amino acid side chain is converted into data in the xyz coordinate system.
  • FIG. 4 visualizes the data of the contact relative arrangement coordinate database (a database of three-dimensional relative positions).
  • FIG. 4 shows the relative arrangement of PHE and PHE.
  • the above processing is performed on 11785 models in the PQS database to create a contact relative arrangement coordinate database.
  • the docking state search unit 102f obtains the distance distribution between arbitrary atoms from the data of the contact relative arrangement coordinate database created by the processing of the distance distribution database creation unit 102f2, and creates a distance distribution database.
  • the distance distribution database (specific interatomic distance database) shows the distribution of the distance between Ca and Ca, and the type of amino acid pair and the category of the distance between Ca and Ca. It indicates where in the area where there are many.
  • the distance category is 1A interval.
  • a distance distribution database between C jS and C jS, between Ca and C ⁇ , between ⁇ and ⁇ , or the like may be created.
  • the interaction site prediction device 100 converts the surface grid for each protein molecule into a three-dimensional protein-protein complex three-dimensional data by processing the surface grid point generating part 102a. To generate. Next, the interaction part prediction device 100 counts the number of surface grids for each contacting residue by the processing of the contact part grid selection part 102b and the contact part grid database creation part 102c. The number of surface grids that are simultaneously in contact with multiple residues is also counted for each type. However, for example, surface grids that are in contact with CYS, ALA, and GLY, and surface grids that are in contact with ALA, CYS, and GLY are counted as categories of the same pattern.
  • the number of contacts is also taken into account by counting the number as the category of the “LYS'LYS” pattern. Further, if the surface grid appears at the contact portion, the addition is also made for the contact portion of the pattern.
  • the interaction site prediction device 100 performs the contact site prediction using the created contact site grid database by the processing of the control unit 102. More specifically, first, the interaction site prediction apparatus 100 generates a surface grid for the input protein three-dimensional structure data by the processing of the target protein surface grid point generation unit 102c (see the symbol (1 in FIG. 6)). ) See). Next, the interaction site prediction device 100 performs the processing of the interaction site prediction unit 102e to derive the contact site grid for each of the surface grids from the data of the amino acid residues in contact with each of the surface grids. Perform a search by referring to the database (see reference numeral (2) in Fig. 6).
  • the interaction site prediction device 100 calculates the score of the data force obtained by this search according to the formula 1 by the processing of the interaction site prediction unit 102e, and calculates the interaction site based on the calculated score. (See (3) in Fig. 6). Note that the calculated score indicates the likelihood of coming from the surface grid to the contact site by a numerical value. Therefore, a high score and a collection of surface grids may be predicted as a contact position. [Number 21]
  • i is the contact amino residue pattern of interest.
  • C is the number of surface grids in the database for pattern i.
  • Con is the force count of pattern i at the contact site.
  • the numerical value of the difference (C ; Con) is the count number at the non-contact site.
  • the interaction site prediction apparatus 100 outputs the coordinates and the score of each surface grid in a PDB file format as output information by the processing of the control unit 102 (see reference numeral (3) shown in FIG. 6). In addition, output the coordinates and score of the data above the preset threshold value in PDB format.
  • homology modeling is performed on the amino acid sequence of a protein whose tertiary structure is unknown, and its tertiary structure is predicted.
  • the same processing as in ⁇ above is performed on the three-dimensional structure predicted by homology modeling or the like to predict an interaction site.
  • FIG. 7 is a flowchart showing an example of a process of searching for the binding state of a multi-chain protein whose binding state is unknown.
  • the interaction site prediction device 100 performs the above-described process II by the process of the control unit 102 to thereby perform the prediction of the contact site from the input protein three-dimensional structure data (the reference numerals shown in FIG. 2) and Step SA-1 and Step SA-2).
  • the interaction site prediction apparatus 100 uses the grid data predicted in step SA-2 to change the surface grid predicted to have a high contact tendency to the contact region. Search for a docking state that comes close to (Step SA-3).
  • a search method using random numbers may be used (see Fig. 9).
  • the relative position changing method performed by the relative position changing unit 102f4 is, for example, a method of changing an angle of 5 degrees of freedom (the rotation direction of the xyz axis and the relative position with the origin of the center of gravity of one protein molecule). Relationship xy axis direction) and distance.
  • Figure 8 shows the relative positions of the ligand proteins at the position where the center of gravity of the ligand protein is viewed from the center of gravity of the receptor protein when one of the two protein molecular structures is a receptor protein and the other is a ligand protein. The position change is shown. Note that in FIG. 8, the linear force axis direction connects the center of gravity of the ligand protein and the center of gravity of the receptor protein.
  • step S A-3 a process of determining a relative position using random numbers and searching for a docking state will be described with reference to FIG.
  • FIG. 9 is a flowchart of an example of a process of determining and searching for a relative position using random numbers.
  • the docking state search unit 102f determines a start point by generating a random number, and at the same time, obtains a score of the start point (step SB-1).
  • the score is the sum of the scores of Formula 1 for the surface grids that exist at the contact site.
  • the starting point can be determined everywhere. If the approximate contact area is known, a range may be specified. As a result, the calculation time can be reduced and the accuracy can be improved.
  • the docking state search unit 102f generates a random number within the range of N degrees from each of the angles having five degrees of freedom from the start point by the processing of the relative position change unit 102f4. Determine the relative position (step SB-2).
  • the docking state search unit 102f calculates the score of the state by the processing of the docking score determination unit 102f3 (step SB-3), and determines whether the calculated score is improved compared to the score before the movement. (Step SB-4).
  • Step SB-4 Yes
  • the place is started anew.
  • step SD-5 a random number is generated again within the range of N degrees from that location, the relative position is determined again (step SB-2), and a search is again made to see if an improvement in the score is seen (step SB-2).
  • step SB-3 and Step SB-4 If the score is improved !, na!
  • Step SB-4 No
  • the internal variable m is incremented (step SB-6) and incremented to determine whether m is less than or equal to the specified number of times M (Step SB-7), return to Step SB-2 if it is less than m (Step SB-7: Yes), and return to Step SB if it is not less than m (Step SB-7: No).
  • Step SB-7 Go to 8.
  • the random number is generated, and it is repeatedly checked whether the score is improved until the specified number of times M is reached.
  • Step SB-7 when the number m of times of no improvement is M or more (Step SB-7: No), if the width N of the random number is larger than 1 (Step SB- 8: Yes), reduce the value of the random number width N by 1 (step SB-9), initialize m to 0 (step SB-10), and return to step SB-2 again. Then, the above processing is repeated until the random number width N becomes 1 or less, and the processing is performed until the local minimum is reached.
  • step SB-8 when the width N of the random number is 1 or less (step SB-8: No), the docking state search unit 102f regards the local minimum as reached, and adds the relative position information and the score to the list. (Step SB-11).
  • the docking state search unit 102f determines whether or not the number of candidate structures in the list is less than the specified number p. If the number is less than p (Step SB-12: Yes), Return to SB-1 and repeat the above process. When the specified number p is reached (step SB-12: No), the process ends. This concludes the description of the method for searching for a docking state.
  • the interaction site prediction apparatus 100 creates a list of candidate structures by the above-described processing by the processing of the control unit 102, and then performs clustering on all the candidate structures. (Step SA-4). Note that, specifically, for example, one having the highest score in one of the clustered clusters is set as a candidate structure.
  • the docking state search unit 102f performs the processing of the docking score determination unit 102f3 to evaluate the structure using the distance distribution database and determine the number of main chain hydrogen bonds (step SA-5).
  • the distance distribution database (population database) is used.
  • the score used may be calculated based on Equation 2,
  • step SA-5 the determination of the hydrogen bond is made with the strict definition of the hydrogen bond for the purpose of considering the possibility that the hydrogen bond may be a hydrogen bond rather than the strict hydrogen bond determination.
  • the definition of hydrogen bond is “z CO
  • the following three totals may be obtained by summing the three scores of the number of hydrogen bonds, the score based on the distance distribution database (population database), and the score based on the contact site prediction grid.
  • the coefficient a is set to 1000
  • the coefficient b is set to 10000.
  • this coefficient is arbitrary and will be changed depending on conditions.
  • the interaction site prediction apparatus 100 rearranges the candidate structures in the order of the total score and outputs the result as the ranking of the candidate structures by the processing of the control unit 102 (step S A 6).
  • the interaction site prediction device 100 performs homology modeling or the like on an amino acid sequence of a multi-chain protein whose tertiary structure is unknown, and predicts its tertiary structure.
  • the interaction site prediction apparatus 100 performs the same processing as in the above-mentioned IV on the three-dimensional structure of the multi-chain protein predicted by homology modeling or the like, and optimizes the relative arrangement.
  • FIG. 11 is a flowchart illustrating an example of a process of predicting an interaction state using the database and the alignment file in the above-described II when performing homology modeling of a multi-chain protein.
  • the three-dimensional structure data (PDB format file) of the PDB ID of the reference protein described in the input alignment file is obtained, and the amino acid residues that are contacted between different chains from the structure data are determined.
  • Judge step SC-1
  • step SC-2 is compared with the amino acid sequence data of the target protein in the alignment file to make contact with!
  • step SC-3 The correspondence between the two is determined (step SC-3). That is, based on the information on the amino acid residues in contact with the reference protein, the amino acid residues aligned at the same position are also assumed to be in contact. As a result, even when there is no information on the three-dimensional structure of the target protein, it is possible to quickly estimate the contact between amino acid residues.
  • step SC-4 the score is checked against the calculated score matrix, and the sum is used as the score (Step SC-4).
  • the function of this score is as shown in Equation 4.
  • the score of Formula 4 is the score of one amino acid pair, and the sum of the scores for the number of actually contacted amino acids is the score of the amino acid sequence.
  • a score is calculated for each of the amino acid sequences (sequences) of the reference protein (reference) and the target protein (target), and the scores are compared (step SC-5).
  • the amino acid sequence of the target protein can be evaluated.
  • the closer to the score of the reference protein (“score of target protein complex Z reference protein complex”). The higher the value of the “body score”), the more easily the alignment of the target protein becomes easy to bind and the alignment becomes! / ⁇ .
  • the protein-protein interaction is analyzed. Specifically, the following methods (1)-(6) are performed.
  • the homology modeling was performed on the protein complex of unknown tertiary structure (target protein complex) using the information of the protein complex of known tertiary structure (reference protein complex).
  • the binding state of the three-dimensional structure of the protein complex is optimized by the same method as in (4).
  • a database of protein interaction states with known protein-protein complex three-dimensional structures is fully automated. Specifically, the following (1)-(3) processing is performed. (1) Prepare a large number of three-dimensional protein coordinate files for multi-chain proteins.
  • i is a contact pattern of interest.
  • C is the number of surface grids in the database for pattern i. . . Is the count number of the pattern i at the contact part, and the numerical value of the difference (C ⁇ Con) is the count number at the non-contact part.
  • the prediction of the interaction site of a protein whose tertiary structure is unknown is performed automatically after the tertiary structure of the protein is predicted. Specifically, the following processes (1)-(5) are performed fully automatically.
  • i is a contact pattern of interest.
  • C is the number of surface grids in the database for pattern i.
  • Con is the number of counts in pattern i at the contact site, and the numerical value of the difference (C-Con) is determined by the count at the non-contact site.
  • the amino acid residue pair is calculated according to the following formula. And a database of the distance distribution between arbitrary atoms (for example, C a).
  • a search is made for the binding state of a multi-chain protein whose binding state is unknown. Specifically, the processing shown in the following (1)-(4) is performed.
  • the search for the binding state of the multi-chain protein whose binding structure is unknown and the three-dimensional structure is performed automatically. Specifically, the processing shown in (1)-(5) below is performed.
  • the value of the ratio obtained in (3) can be determined by using an arbitrary ratio value calculated by a method such as a verification example to determine whether it exists in the natural world. Determine whether homologous modeling of the chain protein complex should actually be performed.
  • a multi-chain protein three-dimensional structure including an arbitrary singular number such as a protein three-dimensional structure analyzed by an experiment and a protein three-dimensional structure predicted by a computer program.
  • the parameters that reflect the conformational induction and conformation of the protein and the conformational coordinates that have undergone structural changes are calculated in advance by, for example, a normal vibration calculation method or a molecular dynamics calculation method, and the parameters and the conformational structure that has undergone structural changes Using the structural coordinates, the interaction function when the target protein and another protein are bound is defined, and the binding state of the protein complex calculated using the above method is evaluated.
  • a contact relative arrangement coordinate database representing data on the types of amino acid residue pairs and three-dimensional relative positions is created.
  • a database of the types of amino acid residue pairs and the distance distribution between arbitrary atoms is created.
  • a contact site grid database which is a database of the types of amino acid residues, the number of amino acid residues that appeared on the protein surface, and the number of amino acid residues that appeared at the contact site, is created.
  • the database created from the protein complex three-dimensional structure database describes the three-dimensional relative arrangement of the side chains of the amino acid residues involved in protein-protein interaction, so that the contact sites of the amino acid side chains can be described. It is possible to analyze the tendency of the relative arrangement at the time. In addition, by describing the tendency of amino acid residues appearing at the contact site, it can be used as a score function in predicting the contact site on the three-dimensional coordinates of the protein three-dimensional structure. In addition, it can be used for a score function by statistically analyzing and quantifying what kind of amino acid side chain a certain amino acid side chain is likely to come into contact with.
  • a protein complex database for example, PDB and PQS You can also use a database that contains the structures of specific protein families that you have created yourself.
  • grid points are calculated and created on the surface of the protein three-dimensional structure.
  • the score is calculated using the database, and the contact tendency is calculated for each grid point.
  • a score is calculated for each grid point on the three-dimensional coordinates placed on the surface of the input protein three-dimensional structure. More detailed data can be created than the method of predicting only residues.
  • the search for the binding state of the multi-chain protein whose binding state is unknown is performed using the above-described score function, the result of contact site prediction, and the calculation result of the number of hydrogen bonds. .
  • the calculation cost is lower for all the atoms of the protein compared to the method of calculating the score function, predicting the contact site, and calculating the number of hydrogen bonds, so that the calculation can be performed at high speed.
  • homology modeling is performed for the purpose of predicting an interaction site of a protein whose individual protein three-dimensional structure is unknown and the protein-protein complex three-dimensional structure is also unknown. Then, grid points are calculated on the surface of the resulting three-dimensional structure, a score is calculated using the above database, and the contact tendency is determined for each grid point.
  • the processing after homology modeling is the same as above.
  • the search for the three-dimensional structure and the binding state of a multi-chain protein whose binding state is unknown is performed automatically. After the homology modeling of the multi-chain protein, the binding state is searched for in the same manner as described above.
  • the above-mentioned database and the kerf are modeled before modeling.
  • the interaction state is predicted and evaluated using the license file.
  • the sequence alignment must be created using various existing computers. Add delimiters other than amino acid symbols (e.g., ⁇ U '') to the end of each amino acid sequence (C-terminal) using alignment output results of FASTA, IMPARA, ClustalW, HMMER, BIOCES, etc. By doing so, a format indicating boundaries between the chains may be used.
  • the input file format in which the sequence alignment is described is not particularly limited.
  • a target protein is aligned with a reference protein
  • the following content may be adopted as a general formula.
  • the ID of the target protein is described after ⁇ > on the first line.
  • the amino acid sequence of the target protein is described without a line break for all protein chains, with the delimiter next to the terminal residue of each protein chain (such as a polypeptide chain).
  • the ID of the reference protein is described after ⁇ >.
  • the fourth line describes the amino acid sequence of the reference protein without a line break for all protein chains by adding a delimiter after the terminal residue of each protein chain (such as a polypeptide chain).
  • the alignment of the amino acid sequences on the second and fourth lines use the alignment obtained as in the previous period, and the position of the same delimiter is always the same on the second and fourth lines. Is preferred.
  • parentheses are for the sake of clarity, and are not actually described, and are preferably formed of a continuous character string.
  • the reference protein three-dimensional structure information can be converted into the amino acid complex three-dimensional database (PDB or the like) power from the reference protein ID described in the input alignment file. Obtain and contact between different proteins to obtain information on the relationship between amino acid residues. In addition, the contact judgment of the amino acid side chain of the reference protein can be accurately performed.
  • the amino acid complex three-dimensional structure database to be used is determined by methods such as X-ray structure analysis for proteins that form a protein complex experimentally.
  • the three-dimensional structure information is obtained experimentally. Then, from the obtained information on the correspondence between the amino acid residues in contact, information on the correspondence between the amino acid residues in contact with the target protein is created. The thus obtained information on the contact of the side chains between the reference protein and the protein chain having a different target protein is searched in the above database, and the score is obtained by using the above score function. Perform alignment evaluation of chain proteins.
  • the contact of the target protein with the amino acid residue is predicted from the contact state of the amino acid residue of the reference protein.
  • calculation can be performed easily and quickly.
  • the score of the target protein and the score of the reference protein are simultaneously output as an evaluation method, an absolute evaluation and a relative evaluation can be performed. If the reference protein structure data is data obtained by experiments, it becomes a criterion whether the score of the reference protein forms a protein complex, and the ratio of the score of the reference protein to the score of the target protein is determined. However, it can be used as a standard for determining whether or not the target protein forms a complex.
  • Example 1 a database shown in the following (1)-(3) was created using a PQS database in accordance with the method described in I of the above embodiment.
  • FIG. 12 shows an example of a database showing the distribution of amino acid residues in contact with ALA at the distance between C lines.
  • the leftmost item is the combination of amino acid pairs.
  • the number of C-interval distances in the PQS database in the category of distance per 1A is shown. ing.
  • Fig. 13 is a graph of Fig. 12.
  • FIG. 14 and FIG. 33 are graphs of other amino acid residues.
  • FIG. 35 An example of the created contact site grid database is shown in Figure 35.
  • the contact pattern i in Equation 1
  • the number of contact site grids Con in Equation 1
  • the number of surface grids C in Equation 1.
  • Example 2 the ID is lJK3 (Lang, R., Kocourek, A., Braun, M., Tschesche, H., Huber, R., Bode, W., Maskos, K.) in the Protein Data Bank: Substrate Specificity Determinants of Human Macrophage Elastase (Mmp-12) Based on the 1.1 A Crystal Structure J. Mol. Biol. 312 pp. 731 (2001))
  • the protein interaction site was predicted according to the method described in ⁇ in the above-described embodiment.
  • 1JK3 is a protein of matrix metaprotease-12 (hereinafter abbreviated as MMP-12) bound to a drug called Batimastat.
  • MMP-12 matrix metaprotease-12
  • the interaction site ie, the site to which Batimastat binds
  • the interaction site was predicted according to the method described in the above embodiment.
  • an interaction site was predicted using the database in I of the above embodiment according to the method described in ⁇ of the above embodiment.
  • a surface grid was generated on the surface at 1.OA intervals with respect to the xyz coordinates. .
  • a score of the type of amino acid residue 'the number appearing on the protein surface' and the number of amino acid residues appearing at the contact site was given by database search. The scorer followed Equation 1.
  • FIG. 36 Of the surface grid points whose scores were 10.0 or higher, those in the PDB format that were output and visualized, the area around the interaction site is enlarged in Figure 36. In Fig. 36, Batimastat is also displayed. Each of the grid points in FIG. 36 has a score, and the higher the score, the more likely it is to become an interaction site!
  • FIG. 37 shows the results of predicting the interaction site for the E chain of 2PTC. Gray darling point force The predicted score for the interaction site is the higher strength score.
  • the white protein molecule is the E chain of 2PTC.
  • FIG. 38 shows the I chain of 2PTC in FIG. 37 at the same time.
  • the black protein molecule is the I chain of 2PTC.
  • FIG. 39 is an enlarged view of a part of FIG. 37 from another angle.
  • FIG. 40 is a diagram also showing the I chain (black) of 2 PTC in FIG. 39 at the same time. These figures show that there is actually an interaction at the predicted grid points.
  • FIG. 41 shows the result of 1QPR interaction site prediction.
  • the white protein molecule is the A chain of 1QPR.
  • FIG. 42 is a diagram showing the results of predicting the A chain and the interaction site of 1QPR, and also shows the B chain (black) at the same time.
  • Figures 43 and 44 show a magnified view of 1QPR at different angles.
  • Example 2 As in Example 2, by predicting the interaction site, protein-protein and drug It is possible to quickly estimate the site where the object interaction site is not strong enough. In addition, if drug design is performed around that part, an effect can be expected for the development of a drug that shows some effect.
  • Example 3 according to the method described in III of the above-described embodiment, first, a SARS protease-derived genomic sequence published by the US Centers for Disease Control and Prevention (CDC) was used to determine the effective SARS The three-dimensional structure of the viral protein, Proteinase, was predicted by homology modeling. Next, the interaction site was predicted for the predicted protein three-dimensional structure.
  • CDC Centers for Disease Control and Prevention
  • the active site of SARS Protease in Example 3 was identified by the PDB ID used as a reference protein in homology modeling: lLVO (Anand, K., Palm, G.J., Mesters, JR, Siddell, SG , Ziebuhr, J., Hilgenfield, R .: Same as Structure of Coronavirus Main Proteinase Reveals Combination of a Chymotrypsin Fold with an Extra Alpha — Helical Domain Embo J. 21 pp. 3213 (2002)).
  • Example 3 the interaction site was predicted assuming that the active site was unknown.
  • FIG. 45 shows an enlarged view of the active site based on the prediction result.
  • the gray grid points indicate the high scores that were predicted as interaction sites.
  • the white protein molecule is the protein structure of Protease constructed by homology modeling. 1HPG (Nienaber, VL, Breddam, K., Birktoft, JJ: A glu tamic acid specific serine protease utilizes a novel histidine triad in substrate binding.Biochemistry 32 pp. 11469 (1993))
  • FIG. 46 shows the ligand superimposed on the active site of the protein conformation of SARS Protease and the ligand is displayed at the same time.
  • Example 4 the binding state of various multi-chain proteins was searched for according to the method described in IV of the above embodiment.
  • a structure in which the bonding state is analyzed experimentally is used, but it is assumed that the bonding state is unknown.
  • contact site prediction was performed according to the method described in II of the above-described embodiment. For each protein three-dimensional structure model, surface grids were generated on the surface at 1A intervals with respect to xyz coordinates. Next, the scores of the type of amino acid residue, the number of amino acid residues that appeared on the protein surface, and the number of amino acids that appeared at the contact site were assigned to all the surface grids by database search. The score followed Equation 1. Assuming that the interaction site has a component force, within the range of ⁇ 30 degrees from the correct relative arrangement (however, the Z-axis direction is rotated 360 degrees), "400 candidate structures" and "400 times score change" If you are helpless, reduce the range of random number movement by one. "
  • clustering was performed within a range of ⁇ 5 degrees for 400 candidate structures.
  • the number of hydrogen bonds and the score using Formula 2 obtained by searching the database in I2 of the above-described embodiment were calculated, and sorted by the score of Formula 3.
  • FIG. 47 shows the RMSD of the candidate structure and the correct structure having the highest score, and the RMSD of the candidate structure having the smallest RMSD and the ranking thereof.
  • Figures 48 to 59 show the PDBs with the best RMSD for each PDB superimposed on one of the protein chains.
  • the black protein molecule has the correct structure, and the white protein molecule has the lowest RMSD value among the candidate structures output as a result of docking.
  • Example 5 first, based on the decoded genomic sequence of SARS Protease published by the US Centers for Disease Control (CDC) and the like, the three-dimensional structure of a complex of Proteinase, a protein of SARS virus effective for therapeutic drugs, was determined. The relative configuration of the results predicted by the chain homology modeling method was optimized.
  • the relative configuration of the target protein is determined depending on the relative configuration of the reference protein. It is thought that the difference between the reference protein, the target protein and the amino acid sequence affects the difference in the relative configuration, and it is highly likely that the relative configuration of the target protein and the reference protein is different.
  • the purpose of this Example 5 was to further optimize the relative arrangement of the target protein and to obtain a stable structure.
  • a binding site is specified by the procedure described below, a relative arrangement rank that satisfies the information best is determined, and a database search and hydrogen search are performed. A score based on the number of bonds was calculated to determine the final candidate structure.
  • Fig. 60 shows the results obtained by performing alignment based on the amino acid sequence of the used SARS virus protease and constructing a three-dimensional structure using homology modeling.
  • a contact site prediction was performed according to the method described in II of the above-described embodiment.
  • surface grids were generated on the surface at 2A intervals with respect to xyz coordinates.
  • the scores of the number of amino acid residues, the number of amino acid residues that appeared on the protein surface, and the number of amino acid residues that appeared at the contact site were assigned to all the surface grids by database search. The score followed Equation 1.
  • the relative position change is narrowed to ⁇ 15 degrees
  • the number of candidate structures is 200
  • the random number movement range is ⁇ 5 degrees (however, the Z-axis direction Is rotated 360 degrees) and 400 points In this case, the range of random number movement is reduced by one.
  • the SARS virus protease (PDB ID: 1Q2W, Bonanno, JB, Fowler, R., Gupta, S., Hen die, J., Lorimer) experimentally determined by X-ray crystal structure analysis , D., Romero, R., Sauder, M., Wei, C.L., Liu, ET, Burley, SK, Harris, T .: Comparison with X-Ray Crystal St ructure of the Sars Coronavirus Main Protease) Inspection ih went.
  • the value of the root mean square (RMSD) value for the CA atom was used. The smaller the RMSD value, the smaller the error force S from 1Q2W.
  • RMSD root mean square
  • Severe acute respiratory syndrome a new type of pneumonia, is on the rise in Asia and other regions
  • Many pharmaceutical manufacturers and research laboratories are developing vaccines and therapeutic agents to combat SARS.
  • an accurate proteinase dimer structure can be constructed. This seems to play a very important role in drug design and functional analysis of SARS virus proteinase.
  • Example 6 Evaluation of Alignment File for Protein Complex Homology Modeling Part 1
  • Tissue plasminogen activator [ Homo sapiens] .Ita gaki, Y., Yasuda, H., Morinaga, T., Mitsuda, S. and Higashio, K. Purification and characterization of tissue plasminogen activator secreted by human embryonic lung diploid fibroolasts, IMR—90 cellls. Agric. Biol. Chem. 55 (5), 1225-1232 (1991)) was searched against the PDB database using the alignment program RPS-BLAST to create alignments. The condition is “E—value ⁇ 0.001”.
  • Example 6 for each alignment file, first, for the reference proteins, those in which the amino acid side chains were in contact between different chains were determined, and the corresponding relationship was examined. Next, from the correspondence information, the alignment file The amino acid residues at the same position in the amino acid sequence were also assumed to be in contact with each other, and their correspondence was determined.
  • the score at this time was calculated using the function of Equation 4.
  • the score for the alignment shown in FIG. 65 was 7.8253, and the score ratio with the reference protein was 97.908%.
  • the score for the alignment shown in FIG. 66 was 1.0628, and the score ratio with the reference protein was 40.780%.
  • the alignment in Fig. 65 shows a value very close to the contact site score of the reference protein, as compared with the alignment in Fig. 66, and the score of the contact site is Because of its high value, it can be said that it is suitable for performing homologous modeling of multi-chain proteins.
  • Example 6 when a large number of alignments are present, a technique for efficiently selecting an alignment that is biologically important and reliable is effective in efficiently analyzing the three-dimensional protein three-dimensional structure. It can be said that it is very effective. This suggests that the present invention plays an important role in the field of drug discovery such as drug design and screening acting on proteins.
  • Example 7 Evaluation of Alignment File for Protein Complex Homology Modeling Part 2
  • the strength of the complex interaction was examined for a certain amino acid sequence. Since the strength of the interaction is experimentally determined, the purpose is to compare it with the predicted value and verify its accuracy.
  • Stepl As the amino acid sequence used for verification, 62 amino acids described in the above-mentioned paper were used. Each of these amino acid sequences was searched against the PDB database using the alignment program PSI-BLAST to create an alignment. The NR database was used for profile creation. The conditions are "eialue ku 0.01", “homology ⁇ 20%”, and "at least 50% of the target protein amino acid sequence is aligned”.
  • Step 2 In order to create an alignment of a complex of a certain amino acid sequence A and a certain amino acid sequence B, first, PSI using the sequence A and the result of performing BLAST and PSI using the sequence B were performed. We focused on two of the results of BLAST. In the results of PSI-BLAST of sequence A, the detected PDB IDs also appear in the results of PSI-BLAST of sequence B in descending order of e value, and the names of the protein chains are different I checked. If any of these conditions were met, an alignment file of the protein complex was created with them, and this was used as an alignment in the complex of A and B.
  • Step 3 As in Step 2, in the PSI-BLAST results of sequence B, the detected PDB IDs also appear in the PSI-BLAST results of sequence A in order of e-value in descending order. In addition, we examined the strength of the protein chains with different names, and if there were any that met this condition, we created an alignment file of the protein complex with them.
  • Step 4 From the alignment file of the protein complex, the score of the reference protein, the score of the target protein, and the score of the reference protein were calculated, and the ratio (%) of the score of the target protein was output as a predicted value.
  • Step 5 The correlation between the score ratio calculated in Step 4 and the strength of the interaction described in the paper was examined.
  • the point of this verification method is to align the amino acid sequence of the complex used in the experiment with the sequence of the PDB for which X-ray crystal structure analysis has been performed, and to determine which amino acid in the sequence used in the experiment Residue force It is to speculate which amino acid residue comes into contact with the S protein-protein interaction site. Based on that guess, X-ray crystal structure analysis They guess how much smaller the force of the structural data (PDB file) and how weak the interaction is. The comparison of the experimental data is described below.
  • Fig. 67 is a diagram in which bZIP experimental data is color-coded according to the strength of the interaction.
  • interaction strength There are seven categories of interaction strength: “1: Z score> 20”, “2: Z> 10”, “3: Z> 5”, “4: Z> 2.5”, “5”. : Z> 1.5 ”,“ 6: Z ⁇ 1.0 ”, and“ 7: no assignment ”.
  • the Z score is calculated by the following equation “Zscore”. If “Z> 2.5”, it is determined that there is interaction, and if “Z ⁇ 1.0”, it is determined that there is no interaction.
  • the vertical and horizontal items are the name and species of the sequence, and the intersection of the vertical and horizontal items indicates the interaction strength of the protein complex having the two amino acid sequences. It is represented by For example, if the color at the intersection of the vertical A sequence and the horizontal B sequence is black, the protein with the amino acid sequence of A and the protein with the amino acid sequence of B have a very strong interaction. Is represented. The darker the color, the stronger the interaction.
  • Fig. 68 shows the ratio of the score of the reference protein to the score of the target protein in% for the score of the alignment evaluation calculated according to the method described in VI of the above-described embodiment.
  • the colors are classified according to the magnitude of the numerical value. There is a blank space with no data in each place. There is no data because it is a powerful place where alignment of that part cannot be obtained. As can be seen by comparing FIGS. 67 and 68, there is a correlation between the two figures.
  • FIG. 69 is a graph showing, for a combination of sequences from which a certain experimental value was obtained, what percentage of the combination of sequences from which the experimental value was obtained took what kind of predicted value.
  • FIG. What is important when actually making predictions is whether it is possible to correctly predict the difference that there is an interaction at "Z>2.5" and that there is no interaction at "Z ⁇ 1.0". is there.
  • Fig. 70 In order to set a threshold (%) of a score ratio that correctly predicts these, how the threshold ratio changes with various thresholds was verified in Fig. 70. Looking at Fig. 70, at the threshold of 50%, in the term “Z ⁇ 1.0” where there is no interaction, 74% of the terms are below the score ratio of 50%, while “Z> 2 In the section of “.5”, 34% were present at less than 50% of the score ratio. That is, in Example 7, a prediction method in which the presence or absence of an interaction is determined at a threshold of 50% seems to be effective.
  • Target 18 of CAPRI was used as the question data of the three-dimensional structure of the protein complex.
  • CAPRI is an international contest that predicts the three-dimensional structure of a protein and the three-dimensional structure of a complex.
  • Target 18 is the subject in Round 5.
  • Predicted data of the protein complex was downloaded from the homepage (http: ZZcapri.ebi.ac.uk/round5/round5.html) (data cannot be loaded at this time).
  • the three-dimensional structure of the complex of Aspergillus niger Xylanase-Triticum Aestivum Xylanase Inhibitor I was predicted using this data.
  • the three-dimensional structure data on the Xylanase side is registered in the PDB as Xylanase tetramer X-ray crystallography data! (PDB ID: 1UKR).
  • PDB ID: 1UKR Xylanase tetramer X-ray crystallography data!
  • snapshots every 10 ps that is, the power to determine the three-dimensional structure of 20 Xylanases.
  • benzene clustering with a threshold of 6 A was performed, the number of clusters was the highest V, and the snapshots were Xylanase Inhibitor The complex was adopted as a predictive structure.
  • the interaction binding site was searched for in the same manner as for Xylanase.However, since the three-dimensional structure of the Xylanase Inhibitor was X-ray crystallographic data obtained from a complex with Xylanase, the Xyz coordinates of the Inhibitor were Molecular dynamics calculations were performed in a simulated aqueous solution in which the benzene was free only, completely fixed.
  • the first cluster can be expressed as an ellipsoidal sphere, and the long and short directions of the benzene cluster can be obtained by solving the eigenvalue problem of coordinates.
  • Each benzene cluster of Xylanase and Xylanase Inhibitor can be fitted as orthogonal right-handed coordinate axes. Since there are 24 different fittings in the two right-handed coordinate systems, the initial complex three-dimensional structure of the Xylanase-Xylanase Inhibitor can be changed to 432 (3 X 6 X 24) were generated. Among them, 20 complexes with little collision between Xylanase and Xylanase Inhibitor were selected as candidates.
  • the Xylanase-Xylanase Inhibitor complex predicted coordinate data was determined with reference to the docking state determination score. Based on these three-dimensional structure prediction results and X-ray crystallographic data (P DB ID: 1T6G) of Xylanase-Xylanase Inhibitor complex released after the deadline of CAPRI Round5, the Xylanase part (lower) was RMS-fitted.
  • P DB ID: 1T6G X-ray crystallographic data
  • Fig. 74 One of the configurations of the Xylanas e Inhibitor (upper side) is shown in Fig. 74. As shown in FIG. 74, it can be seen that the docking site of Xylanase is accurately predicted.
  • the interaction site prediction apparatus, interaction site prediction method, program, and recording medium according to the present invention can predict a protein-protein complex three-dimensional structure that is closer to true, Predict the site. Therefore, the present invention is extremely useful for designing medical and agricultural chemical molecules. Further, the present invention is extremely effective when performing homology modeling on a large amount of a protein-protein complex three-dimensional structure.
  • the present invention is considered to be extremely useful in the field of analyzing biological information (bioinformatics) with a focus on molecular design of medical and agricultural chemicals.
  • the present invention can be widely practiced in many industrial fields, particularly in fields such as pharmaceuticals, foods, cosmetics, medical treatment, structural analysis, and functional analysis, and is therefore extremely useful.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Immunology (AREA)
  • Hematology (AREA)
  • Bioethics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biochemistry (AREA)
  • Urology & Nephrology (AREA)
  • Databases & Information Systems (AREA)
  • Medicinal Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Biomedical Technology (AREA)
  • General Chemical & Material Sciences (AREA)
  • Cell Biology (AREA)
  • Microbiology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Food Science & Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

 本発明は、タンパク質−タンパク質相互作用を研究するため相互作用部位予測装置、相互作用部位予測方法、プログラム、および記録媒体を提供することを目的とする。本発明は、タンパク質−タンパク質複合体立体構造既知である情報から、タンパク質−タンパク質相互作用を解析できるようにするため、三次元情報や統計情報を含んだデータベースを作成する。また、本発明は、当該データベースを用いることで、タンパク質−タンパク質複合体立体構造が未知のタンパク質の相互作用部位予測や、立体構造が未知のタンパク質の相互作用部位予測、タンパク質−タンパク質複合体立体構造の相対位置予測を精度よく行い、複数鎖タンパク質立体構造のホモロジーモデリングの結果の最適化や、ホモロジーモデリングの為のタンパク質−タンパク質複合体立体のアライメントの評価を精度よく行う。

Description

明 細 書
相互作用部位予測装置、相互作用部位予測方法、プログラム、および記 録媒体
技術分野
[0001] 本発明は、相互作用部位予測装置、相互作用部位予測方法、プログラム、および 記録媒体に関し、特に、タンパク質の相互作用部位を予測する相互作用部位予測 装置、相互作用部位予測方法、プログラム、および記録媒体に関するものである。本 発明により提供されるタンパク質-タンパク質複合体の結合状態の解析結果は、医農 薬品の設計や、タンパク質機能解析において有用である。
背景技術
[0002] (1)タンパク質-タンパク質ドッキング構造予測につ!/、て
タンパク質の機能は、タンパク質の相互作用として捉えることができる。その一つとし て、タンパク質-タンパク質ドッキング解析が行われているが、巨大分子同士の計算と なるため、計算規模が非常に大きくなり、その本格的利用がまだ行われていないとい う問題点がある。
[0003] (2)タンパク質複合体のホモロジ一モデリング法につ!、て
立体構造が既知のタンパク質に関する情報を利用し、立体構造が未知の目的タン ノ ク質とのァライメントを得て、このァライメント情報に基づいて目的タンパク質の立体 構造をコンピュータを用いて作成することが可能であり、この手法は通常、ホモロジ一 モデリング (homology modeling)と呼ばれて!/、る。この方法を用いて、複数鎖タン パク質やタンパク質複合体の立体構造を構築する場合、実際には、相対配置が、用 いた立体構造が既知のタンパク質と異なるのにもかかわらず、用いた立体構造が既 知のタンパク質と同じ相対配置に立体構造を構築してしまうという問題点がある。
[0004] (3)複数鎖タンパク質のァライメント評価につ!、て
ホモロジ一モデリングにおいて、重要な情報であるァライメント情報は、立体構造既 知のタンパク質立体構造のアミノ酸配列情報に対して、ホモロジ一検索を行うことで 取得するのが一般的である。このホモロジ一検索とァライメントを行うためには、 FAS TA (例えば、非特許文献 1参照。)や PSI-BLAST (例えば、非特許文献 2参照。 ) 等のコンピューターソフトを使用する事ができる。
[0005] ホモロジ一検索を行うと、一般的に各ァライメントについてホモロジ一と e値を得るこ とができる。ホモロジ一は残基一致度(%)である。 e値 (Expected Value)は、デー タベースにおいて全く偶然に同じスコアになる配列の数の期待値、すなわちそのァラ ィメントのスコアがどの程度まれであるのかを示す指標であり、小さければ小さいほど 似た配列は他に見つかりにくぐ偶然には見つ力りにくいことを表わしている。求めた ァライメントスコアが偶然出てしまう確率を P— valueとすると、データベース中でこのス コアの配列が偶然にホモロジ一検索により探索される配列数は、 DB— size X p— valu e ( = E— value)で求められる。ホモロジ一モデリングにおいて、ァライメントの評価は、 このホモロジ一と E— valueで行うのが主流である。
[0006] タンパク質複合体についてァライメントを作成する場合も同様に、ホモロジ一と E-v alueでァライメントの評価を行っており、複合体としての評価を行って 、るわけではな い、という問題点がある。
[0007] 非特許文献 1 : Pearson WR, Methods Enzymol, 266, 277-258, 199 6
非特許文献 2: Schaffer AA, Wolf YI, Ponting CP, Koonin EV, Ara vund L and Altschul SF, Bioinform atics, 12 , 1000—1011, 19 99
発明の開示
発明が解決しょうとする課題
[0008] 本発明者等は、タンパク質 タンパク質ドッキング構造を予測する方法について検 討を行った。タンパク質-タンパク質ドッキング構造予測は、巨大分子同士の計算とな るため、その計算規模が巨大になる問題点がある。本発明が解決しょうとする課題は 、上記の状況を鑑みて、医薬品などの開発に特に重要な鍵となる、タンパク質複合体 の相互作用を、高速かつ簡便に評価する方法を提供することにある。また、そのため の前処理として、タンパク質表面の表現方法と、相互作用部位になりやすい傾向を 数値化する方法考案することで、タンパク質の相互作用部位を予測する方法を提供 することにちある。
[0009] また、複数鎖タンパク質の立体構造をホモロジ一モデリング法を用いて構築する場 合、 目的タンパク質の相対配置が用いた立体構造が既知のタンパク質と異なるのに もかかわらず、そのまま、用いた既知のタンパク質と同じ相対配置に立体構造を構築 してしまうという問題点がある。本発明が解決しょうとする課題は、上記の状況を鑑み て、医薬品などの開発に特に重要な鍵となる、複数鎖を有する任意のタンパク質に ついてホモロジ一モデリングを行った結果を、より精度良く最適化する方法を提供す ることにある。また、そのための前処理として、ホモロジ一モデリング後の立体構造モ デル表面の表現方法と、相互作用部位になりやす 、傾向を数値化する方法考案す ることで、立体構造モデルの相互作用部位を予測する方法を提供することにもある。
[0010] また、ァライメントプログラムの類似度の指標となるホモロジ一や、 e— valueは、参照 タンパク質のアミノ酸配列と、検索を行ったデータベースに依存した数値であり、複合 体としての評価を行っているわけではない。したがって、正しく複合体として評価はし ていない問題点が生じる。本発明の課題は上記の状況を鑑みて、タンパク質複合体 データベースにより、ァライメントからホモロジ一モデリングを行うことで作成されるタン パク質複合体の立体構造の形成しやすさの指標も含めた、ァライメントの評価を精度 良く行う方法を提供することにある。
課題を解決するための手段
[0011] 本発明者等は、タンパク質 タンパク質相互作用を解析することを目的とした方法を 検討した結果、相互作用部位予測装置、相互作用部位予測方法、プログラム、およ び記録媒体を開発した。ここで、以下に記した規定値または式は、それぞれ変更可 能な値または関数であり、本発明の範囲を制限するものではない。
[0012] このような目的を達成するために、本発明にかかる相互作用部位予測装置は、タン パク質の相互作用部位の予測を行う相互作用部位予測装置であって、複数のタンパ ク質ータンパク質複合体立体構造データに対して、タンパク座標表面の xyz座標に 1 A刻みで格子点をおき、そのそれぞれポイントから炭素の所定の半径とタンパク質の 原子半径の和力も所定の範囲に表面の原子が存在する座標である、表面グリッドを 発生させる表面グリッド点発生手段と、上記表面グリッド発生手段にて発生させた各 表面グリッドついて、他のチェーンの表面原子半径に重なっているか否力判定し、接 触部位グリッドを選択する接触部位グリッド選択手段と、アミノ酸残基のパターン毎に
、上記表面グリッドとしてカウントされた個数と、上記接触部位グリッド選択手段にて上 記接触グリッドとしてカウントされた個数とを対応付けて格納した接触部位グリッドデ ータベースを作成する接触部位グリッドデータベース作成手段と、相互作用部位予 測の対象となる対象タンパク質構造データに対して、上記表面グリッドを発生させる 対象タンパク質表面グリッド発生手段と、上記対象タンパク質表面グリッド発生手段に て発生させた上記対象タンパク質の各表面グリッドにつ!/、て、上記接触部位グリッド データベースを参照して接触判定スコアを求め、当該接触判定スコアに基づいて上 記対象タンパク質の相互作用部位を予測する相互作用部位予測手段と、を備えたこ とを特徴とする。
また、つぎの発明にかかる相互作用部位予測装置は、上記に記載の相互作用部 位予測装置において、上記相互作用部位予測手段は、以下の数式 1を用いて、上 記接触判定スコアを求め、当該接触判定スコアに基づいて上記対象タンパク質の相 互作用部位を予測すること、を特徴とする。
ScO 二
Figure imgf000006_0001
(数式 1において、 iは 注目する接触アミノ残基パターンである。 Cは、パターン iに対 するデータベース内での表面グリッド数であり、 Conは接触部位でのパターン iのカウ ント数であり、その差である(C -Con)の数値は、非接触部位でのカウント数である。 [0014] また、つぎの発明にかかる相互作用部位予測装置は、上記に記載の相互作用部 位予測装置にぉ 、て、上記相互作用部位予測手段にて予測された上記相互作用 部位に対応する上記表面グリッドに対して、上記対象タンパク質と結合する結合タン ノ^質の接触部位にくるようなドッキング状態を探索するドッキング状態探索手段、を さらに備えたことを特徴とする。
[0015] また、つぎの発明にかかる相互作用部位予測装置は、上記に記載の相互作用部 位予測装置において、上記ドッキング状態探索手段は、複数のタンパク質-タンパク 質複合体立体構造データ対して、各タンパク質-タンパク質複合体の異なるチェーン 間で接触しているアミノ酸残基対について、相対配置座標データを求め、接触相対 配置座標データベースを作成する接触相対配置座標データベース作成手段と、上 記接触相対配置座標データベース作成手段にて作成された上記接触相対配置座 標データベースに登録された各相対配置座標データの任意の原子間の距離分布を 求め、距離分布データベースを作成する距離分布データベース作成手段と、上記距 離分布データベース作成手段にて作成された上記距離分布データベースを用いて 、ドッキング状態判定スコアを求めることにより、ドッキング状態を探索するドッキングス コア判定手段と、をさらに備えたことを特徴とする。
[0016] また、つぎの発明にかかる相互作用部位予測装置は、上記に記載の相互作用部 位予測装置において、上記ドッキングスコア判定手段は、以下の数式 2に基づいて、 上記ドッキング状態判定スコアを求めることにより、ドッキング状態を探索すること、を 特徴とする。
[数 2]
Count ,
Sum; ≥ 0.05のとき f 、
SCO log
Y Total n
Figure imgf000008_0001
Sumi j < 0.05のとさ
SCO. 7. 二 0
, J . . . (数式 2 )
(数式 2において、
[数 3]
Count y:接触面における &ゾの組み合わせが距離 に現れた個数 画
S丽', , Count ,、 :接触面における ί &ゾの組み合わせの総数 [数 5]
Total, =ァ &"7 :接触面に来た ζ·の個数 である。 )
[0017] また、つぎの発明にかかる相互作用部位予測装置は、上記に記載の相互作用部 位予測装置において、上記ドッキング状態探索手段は、上記対象タンパク質と上記 結合タンパク質の相対位置を変化させることにより、最適化された上記ドッキング状態 を探索する相対位置変化手段、をさらに備えたことを特徴とする。
[0018] また、本発明は相互作用部位予測方法に関するものであり、本発明にかかる相互 作用部位予測方法は、タンパク質の相互作用部位の予測を行う相互作用部位予測 方法であって、複数のタンパク質 タンパク質複合体立体構造データに対して、タン パク座標表面の xyz座標に 1 A刻みで格子点をおき、そのそれぞれポイントから炭素 の所定の半径とタンパク質の原子半径の和力 所定の範囲に表面の原子が存在す る座標である、表面グリッドを発生させる表面グリッド点発生ステップと、上記表面ダリ ッド発生ステップにて発生させた各表面グリッドついて、他のチェーンの表面原子半 径に重なって 、る力否か判定し、接触部位グリッドを選択する接触部位グリッド選択 ステップと、アミノ酸残基のパターン毎に、上記表面グリッドとしてカウントされた個数と 、上記接触部位グリッド選択ステップにて上記接触グリッドとしてカウントされた個数と を対応付けて格納した接触部位グリッドデータベースを作成する接触部位グリッドデ ータベース作成ステップと、相互作用部位予測の対象となる対象タンパク質構造デ ータに対して、上記表面グリッドを発生させる対象タンパク質表面グリッド発生ステツ プと、上記対象タンパク質表面グリッド発生ステップにて発生させた上記対象タンパク 質の各表面グリッドにつ 、て、上記接触部位グリッドデータベースを参照して接触判 定スコアを求め、当該接触判定スコアに基づいて上記対象タンパク質の相互作用部 位を予測する相互作用部位予測ステップと、を含むことを特徴とする。
また、つぎの発明にかかる相互作用部位予測方法は、上記に記載の相互作用部 位予測方法において、上記相互作用部位予測ステップは、以下の数式 1を用いて、 上記接触判定スコアを求め、当該接触判定スコアに基づいて上記対象タンパク質の 相互作用部位を予測すること、を特徴とする。
Scot =
Figure imgf000009_0001
(数式 1において、 iは、注目する接触アミノ残基パターンである。 C;は、パターン iに対 するデータベース内での表面グリッド数であり、 Conは接触部位でのパターン iのカウ ント数であり、その差である(Ci—Con)の数値は、非接触部位でのカウント数である。 )
[0020] また、つぎの発明にかかる相互作用部位予測方法は、上記に記載の相互作用部 位予測方法にお!、て、上記相互作用部位予測ステップにて予測された上記相互作 用部位に対応する上記表面グリッドに対して、上記対象タンパク質と結合する結合タ ンパク質の接触部位にくるようなドッキング状態を探索するドッキング状態探索ステツ プ、をさらに含むことを特徴とする。
[0021] また、つぎの発明にかかる相互作用部位予測方法は、上記に記載の相互作用部 位予測方法において、上記ドッキング状態探索ステップは、複数のタンパク質-タン パク質複合体立体構造データ対して、各タンパク質 タンパク質複合体の異なるチェ ーン間で接触しているアミノ酸残基対について、相対配置座標データを求め、接触 相対配置座標データベースを作成する接触相対配置座標データベース作成ステツ プと、上記接触相対配置座標データベース作成ステップにて作成された上記接触相 対配置座標データベースに登録された各相対配置座標データの任意の原子間の距 離分布を求め、距離分布データベースを作成する距離分布データベース作成ステツ プと、上記距離分布データベース作成ステップにて作成された上記距離分布データ ベースを用いて、ドッキング状態判定スコアを求めることにより、ドッキング状態を探索 するドッキングスコア判定ステップと、をさらに含むことを特徴とする。
[0022] また、つぎの発明にかかる相互作用部位予測方法は、上記に記載の相互作用部 位予測方法において、上記ドッキングスコア判定ステップは、以下の数式 2に基づい て、上記ドッキング状態判定スコアを求めることにより、ドッキング状態を探索すること 、を特徴とする。
[数 7] Sum- > 0.05のとき
Figure imgf000011_0001
Figure imgf000011_0003
< 0.05のとき
Figure imgf000011_0002
SCO. , = 0
J . . . (数式 2 )
(数式 2において、
[数 8]
Count y d:接触面における f &ゾの組み合わせが距離 に現れた個数 [数 9]
Siunt l = ^€01 11, i:接触面における; &ゾの組み合わせの総数 [数 10]
Total iニ :接触面に来た ί·の個数 である。 )
[0023] また、つぎの発明にかかる相互作用部位予測方法は、上記に記載の相互作用部 位予測方法において、上記ドッキング状態探索ステップは、上記対象タンパク質と上 記結合タンパク質の相対位置を変化させることにより、最適化された上記ドッキング状 態を探索する相対位置変化ステップ、をさらに含むことを特徴とする。
[0024] また、本発明はプログラムに関するものであり、本発明に力かるプログラムは、タン パク質の相互作用部位の予測を行う相互作用部位予測方法をコンピュータに実行さ せるプログラムであって、複数のタンパク質 タンパク質複合体立体構造データに対 して、タンパク座標表面の xyz座標に 1 A刻みで格子点をおき、そのそれぞれポイン トから炭素の所定の半径とタンパク質の原子半径の和力も所定の範囲に表面の原子 が存在する座標である、表面グリッドを発生させる表面グリッド点発生ステップと、上 記表面グリッド発生ステップにて発生させた各表面グリッドつ 、て、他のチェーンの表 面原子半径に重なって 、る力否か判定し、接触部位グリッドを選択する接触部位ダリ ッド選択ステップと、アミノ酸残基のパターン毎に、上記表面グリッドとしてカウントされ た個数と、上記接触部位グリッド選択ステップにて上記接触グリッドとしてカウントされ た個数とを対応付けて格納した接触部位グリッドデータベースを作成する接触部位 グリッドデータベース作成ステップと、相互作用部位予測の対象となる対象タンパク 質構造データに対して、上記表面グリッドを発生させる対象タンパク質表面グリッド発 生ステップと、上記対象タンパク質表面グリッド発生ステップにて発生させた上記対 象タンパク質の各表面グリッドにつ 、て、上記接触部位グリッドデータベースを参照し て接触判定スコアを求め、当該接触判定スコアに基づいて上記対象タンパク質の相 互作用部位を予測する相互作用部位予測ステップと、を含む相互作用部位予測方 法をコンピュータに実行させることを特徴とする。
また、つぎの発明にかかるプログラムは、上記に記載のプログラムにおいて、上記 相互作用部位予測ステップは、以下の数式 1を用いて、上記接触判定スコアを求め、 当該接触判定スコアに基づいて上記対象タンパク質の相互作用部位を予測すること ゝを特徴とする。
[数 11]
Sco, =
Figure imgf000012_0001
(数式 1において、 iは、注目する接触アミノ残基パターンである。 C;は、パターン iに対 するデータベース内での表面グリッド数であり、 Conは接触部位でのパターン iのカウ ント数であり、その差である(Ci—Con)の数値は、非接触部位でのカウント数である。 )
[0026] また、つぎの発明にかかるプログラムは、上記に記載のプログラムにおいて、上記 相互作用部位予測ステップにて予測された上記相互作用部位に対応する上記表面 グリッドに対して、上記対象タンパク質と結合する結合タンパク質の接触部位にくるよ うなドッキング状態を探索するドッキング状態探索ステップ、をさらに含むことを特徴と する。
[0027] また、つぎの発明にかかるプログラムは、上記に記載のプログラムにおいて、上記ド ッキング状態探索ステップは、複数のタンパク質 タンパク質複合体立体構造データ 対して、各タンパク質-タンパク質複合体の異なるチェーン間で接触して 、るアミノ酸 残基対について、相対配置座標データを求め、接触相対配置座標データベースを 作成する接触相対配置座標データベース作成ステップと、上記接触相対配置座標 データベース作成ステップにて作成された上記接触相対配置座標データベースに 登録された各相対配置座標データの任意の原子間の距離分布を求め、距離分布デ ータベースを作成する距離分布データベース作成ステップと、上記距離分布データ ベース作成ステップにて作成された上記距離分布データベースを用いて、ドッキング 状態判定スコアを求めることにより、ドッキング状態を探索するドッキングスコア判定ス テツプと、をさらに含むことを特徴とする。
[0028] また、つぎの発明にかかるプログラムは、上記に記載のプログラムにおいて、上記ド ッキングスコア判定ステップは、以下の数式 2に基づいて、上記ドッキング状態判定ス コアを求めることにより、ドッキング状態を探索すること、を特徴とする。 Counti d
Sum; ≥ 0.05のとき
,j
Figure imgf000014_0001
5顯 ゾ < 0.05のとき
SCO. , 二 0
'ゾ . . . (数式 2 )
(数式 2において、
[数 13]
Count ,?J <1:接触面における ζ· &ゾの組み合わせが距離^に現れた個数 [数 14]
Sum' , = Y Count :接触面における f &ゾの組み合わせの総数 [数 15]
Total 二 ":接触面に来たの個数 である。 )
[0029] また、つぎの発明にかかるプログラムは、上記に記載のプログラムにおいて、上記ド ッキング状態探索ステップは、上記対象タンパク質と上記結合タンパク質の相対位置 を変化させることにより、最適化された上記ドッキング状態を探索する相対位置変化 ステップ、をさらに含むことを特徴とする。
[0030] また、本発明は記録媒体に関するものであり、本発明に力かるコンピュータ読み取り 可能な記録媒体は、上記に記載のプログラムを記録したことを特徴とする。 発明の効果
[0031] 本発明によれば、以下のような効果を期待できる。
[0032] 本発明により、タンパク質-タンパク質、薬物相互作用部位が分力もないものに対し て、その部位の推定をより効率的かつ高速に行うことが可能である。また、その部分 を中心にドラッグデザインを行えば、何らかの効果を示す薬物の開発に効果を期待 できる。また、タンパク質機能解析においても、活性部位の推定などの効果を期待で きる。
[0033] また、本発明により、アミノ酸配列からコンピュータープログラムなどで予測されたタ ンパク質立体構造に対して、相互作用部位の推定をより効率的かつ高速に行うこと が可能である。また、その部分を中心にドラッグデザインを行えば、何らかの効果を示 す薬物の開発に効果を期待できる。また、タンパク質機能解析において、活性部位 の推定などの効果を期待できる。
[0034] また、本発明により、タンパク質複合体の結合状態を正確に予測することで、正確 なタンパク質複合体の構築を行うことに効果を期待できる。また、様々なタンパク質複 合体に対するドラッグデザインや、機能解析などにおいて非常に重要な役割を果た す効果が期待できる。
[0035] また、本発明により、特にホモロジ一モデリングなどのタンパク質複合体の立体構造 予測の結果に対して、相対配置の最適化を行うことで、正確なタンパク質複合体構 造の構築を行うことに効果を期待できる。本発明により、立体構造が未知の様々なタ ンパク質複合体に対するドラッグデザインや、機能解析などにおいて、効率よく精度 良く解析を行うという効果が期待できる。
[0036] また、本発明により、タンパク質複合体のァライメントが多数存在する場合、効率よく 生物学的に重要かつ信頼性のあるァライメントを選び出すことが可能である。このよう に複数鎖のタンパク質立体構造解析を効率よく行う本発明は、タンパク質に作用する ドラッグデザイン、スクリーニングといった創薬の分野で、大規模なタンパク質複合体 のホモロジ一モデリングを効率よく高速に精度良く解析を行うという効果を期待できる
図面の簡単な説明 [図 1]図 1は、本発明における「接触」の定義を示す図である。
[図 2]図 2は、本発明における「表面グリッド点」の定義を示す図である。
[図 3]図 3は、本発明における「接触部位グリッド点」の定義を示す図である。
[図 4]図 4は、本発明でのアミノ酸側鎖の 3次元相対配置データベースのうち、 PHE—
PHEの 3次元相対配置のデータを視覚化したものを示す図である。
[図 5]図 5は、タンパク質 タンパク質相互作用データベースでのデータベース作成方 法の一例を示すフローチャートである。
[図 6]図 6は、相互作用部位予測方法の一例を示すフローチャートである。
[図 7]図 7は、結合状態未知である複数鎖タンパク質の結合状態を探索する方法 (ドッ キング)でのフローチャートである。
[図 8]図 8は、結合状態未知である複数鎖タンパク質の結合状態を探索する方法 (ドッ キング)での相対位置変化を示す図である。
[図 9]図 9は、結合状態未知である複数鎖タンパク質の結合状態を探索する方法 (ドッ キング)で使用されている、乱数を使用した相対位置探索の工程の一例を示すフロ 一チャートである。
[図 10]図 10は、本発明における水素結合の定義を示す図である。
[図 11]図 11は、複数鎖タンパク質のホモロジ一モデリングを行うに際して、データべ 一スとァライメントファイルを用いて、相互作用状態の予測工程の一例を示すフロー チャートである。
[図 12]図 12は、 ALAと接触していたアミノ酸残基について、 C α間距離における分 布を表して 、るデータベースの一例を示す図である。
[図 13]図 13は、図 12をグラフで示す図である。
[図 14]図 14は、 ALAと接触していたアミノ酸残基について、 C α間距離における分 布を表して 、るグラフの一例を示す図である。
[図 15]図 15は、 ARGと接触していたアミノ酸残基について、 C α間距離における分 布を表して 、るグラフの一例を示す図である。
[図 16]図 16は、 ASNと接触していたアミノ酸残基について、 Cひ間距離における分 布を表して 、るグラフの一例を示す図である。 [図 17]図 17は、 ASPと接触していたアミノ酸残基について、 C a間距離における分 布を表して 、るグラフの一例を示す図である。
[図 18]図 18は、 CYSと接触していたアミノ酸残基について、 C o;間距離における分 布を表して 、るグラフの一例を示す図である。
[図 19]図 19は、 GLNと接触していたアミノ酸残基について、 Cひ間距離における分 布を表して 、るグラフの一例を示す図である。
[図 20]図 20は、 GLUと接触していたアミノ酸残基について、 Cひ間距離における分 布を表して 、るグラフの一例を示す図である。
[図 21]図 21は、 GLYと接触していたアミノ酸残基について、 Cひ間距離における分 布を表して 、るグラフの一例を示す図である。
[図 22]図 22は、 HISと接触していたアミノ酸残基について、 C o;間距離における分布 を表して!/、るグラフの一例を示す図である。
[図 23]図 23は、 ILEと接触していたアミノ酸残基について、 Cひ間距離における分布 を表して!/、るグラフの一例を示す図である。
[図 24]図 24は、 LEUと接触していたアミノ酸残基について、 Cひ間距離における分 布を表して 、るグラフの一例を示す図である。
[図 25]図 25は、 LYSと接触していたアミノ酸残基について、 Cひ間距離における分 布を表して 、るグラフの一例を示す図である。
[図 26]図 26は、 METと接触していたアミノ酸残基について、 C α間距離における分 布を表して 、るグラフの一例を示す図である。
[図 27]図 27は、 ΡΗΕと接触していたアミノ酸残基について、 Cひ間距離における分 布を表して 、るグラフの一例を示す図である。
[図 28]図 28は、 PROと接触していたアミノ酸残基について、 Cひ間距離における分 布を表して 、るグラフの一例を示す図である。
[図 29]図 29は、 SERと接触していたアミノ酸残基について、 C α間距離における分 布を表して 、るグラフの一例を示す図である。
[図 30]図 30は、 THRと接触していたアミノ酸残基について、 C a間距離における分 布を表して 、るグラフの一例を示す図である。 [図 31]図 31は、 TRPと接触していたアミノ酸残基について、 Cひ間距離における分 布を表して 、るグラフの一例を示す図である。
[図 32]図 32は、 TYRと接触していたアミノ酸残基について、 C a間距離における分 布を表して 、るグラフの一例を示す図である。
[図 33]図 33は、 VALと接触していたアミノ酸残基について、 C a間距離における分 布を表して 、るグラフの一例を示す図である。
[図 34]図 34は、アミノ酸対の親和性マトリクスの一例を示す図である。
[図 35]図 35は、アミノ酸残基の種類、タンパク質表面に現れた個数、接触部位に現 れた個数データベースの一例を示す図である。
[図 36]図 36は、実施例 2での、「PDB ID : 1JK3、 Batimastat」の相互作用部位予 測の結果のグリッド点を 3次元で示す図である。
[図 37]図 37は、実施例 2での、「PDB ID : 2PTC」のE鎖に対する相互作用部位予 測の結果のグリッド点と 2PTCの E鎖を 3次元で示す図である。
[図 38]図 38は、実施例 2での、「PDB ID : 2PTC」のE鎖に対する相互作用部位予 測の結果のグリッド点と 2PTCの E鎖および I鎖を 3次元で示す図である。
[図 39]図 39は、実施例 2での、「PDB ID : 2PTC」のE鎖に対する相互作用部位予 測の結果のグリッド点と 2PTCの E鎖を、相互作用部位で拡大して 3次元で示す図で ある。
[図 40]図 40は、実施例 2での、「PDB ID : 2PTC」のE鎖に対する相互作用部位予 測の結果のグリッド点と 2PTCの E鎖および I鎖を、相互作用部位で拡大して 3次元で 示す図である。
[図 41]図 41は、実施例 2での、「PDB 10 : 1<3?1^」の八鎖に対する相互作用部位予 測の結果のグリッド点と 1QPRの A鎖を 3次元で示す図である。
[図 42]図 42は、実施例 2での、「PDB ID : 1<3?1^」の八鎖に対する相互作用部位予 測の結果のグリッド点と 1QPRの A鎖および B鎖を 3次元で示す図である。
[図 43]図 43は、実施例 2での、「PDB ID : 1<3?1^」の八鎖に対する相互作用部位予 測の結果のグリッド点と 1QPRの A鎖を、相互作用部位で拡大して 3次元で示す図で ある。 [図 44]図 44は、実施例 2での、「PDB ID: 1<3? の八鎖に対する相互作用部位予 測の結果のグリッド点と 1QPRの A鎖を、相互作用部位で拡大して 3次元で示す図で ある。
[図 45]図 45は、実施例 3での、 SARS proteaseのホモロジ一モデリングの結果のタ ンパク質立体構造モデルに対して、相互作用部位予測の結果のグリッド点を相互作 用部位で拡大して 3次元で示す図である。
[図 46]図 46は、実施例 3での、 SARS proteaseのホモロジ一モデリングの結果のタ ンパク質立体構造モデルに対して、相互作用部位予測の結果のグリッド点を、相互 作用部位で拡大して 3次元で示す図である。
[図 47]図 47は、実施例 4での、検証を行った PDB IDそれぞれに対する最もスコア がよ力つた候補構造と正解構造との RMSD、候補構造の内で最も RMSDが小さか つたものの RMSDとその順位を示す図である。
[図 48]図 48は、実施例 4のドッキングの結果の-一例を示す図である。
[図 49]図 49は、実施例 4のドッキングの結果の-一例を示す図である。
[図 50]図 50は、実施例 4のドッキングの結果の-一例を示す図である。
[図 51]図 51は、実施例 4のドッキングの結果の-一例を示す図である。
[図 52]図 52は、実施例 4のドッキングの結果の-一例を示す図である。
[図 53]図 53は、実施例 4のドッキングの結果の-一例を示す図である。
[図 54]図 54は、実施例 4のドッキングの結果の-一例を示す図である。
[図 55]図 55は、実施例 4のドッキングの結果の-一例を示す図である。
[図 56]図 56は、実施例 4のドッキングの結果の-一例を示す図である。
[図 57]図 57は、実施例 4のドッキングの結果の-一例を示す図である。
[図 58]図 58は、実施例 4のドッキングの結果の-一例を示す図である。
[図 59]図 59は、実施例 4のドッキングの結果の-一例を示す図である。
[図 60]図 60は、実施例 5「立体構造未知のタンパク質複合体のホモロジ一モデリング の結果を最適化(SARS protease ダイマー構造)」での、 SARS proteaseのホ モロジ一モデリングの結果の一例を示す図である。
[図 61]図 61は、実施例 5での、 SARS proteaseのホモロジ一モデリングの結果を最 適化したものの一例を示す図である。
[図 62]図 62は、 X線結晶構造解析による SARS proteaseの構造「PDB ID : 1Q2 W」とホモロジ一モデリングの結果の構造を A鎖で重ね合わせたものの一例を示す図 である。
[図 63]図 63は、 X線結晶構造解析による SARS proteaseの構造「PDB ID : 1Q2 W」とホモロジ一モデリングの結果の構造を最適化した構造を A鎖で重ね合わせたも のの一例を示す図である。
[図 64]図 64は、実施例 6での、 tissue plasminogen activatoのアミノ酸配列デー タを示す図である。
[図 65]図 65は、実施例 6での、参照タンパク質が 1BHTのァライメントファイルの一例 を示す図である。
[図 66]図 66は、実施例 6での、参照タンパク質が lORFのァライメントファイルの一例 を示す図である。
[図 67]図 67は、実施例 7での、論文記載の bZIPの実験データを、その相互作用の 強さに応じて色分けして示す図である。
[図 68]図 68は、実施例 7におけるァライメント評価のスコアについて、参照タンパク質 のスコアと目的タンパク質のスコアの比を0 /0で分けて、その数値の大きさに応じて色 分けして示す図である。
[図 69]図 69は、実施例 7におけるある実験値が得られている配列の組み合わせにつ いて、その実験値が得られた配列の組み合わせのうち、何%がどのような予測値をと つたかをグラフで示す図である。
[図 70]図 70は、実施例 7において、様々な閾値における「Z> 2. 5」で相互作用あり、 「Z< 1. 0」で相互作用なしという実験結果、という違いを正しく予測できるかの検証 結果を示す図である。
[図 71]図 71は、本発明の基本原理に関する概念図である。
[図 72]図 72は、本発明が適用される本システムの構成の一例を示すブロック図であ る。
[図 73]図 73は、本発明が適用される本システムのドッキング状態探索部 102fの構成 の一例を示すブロック図である。
[図 74]図 74は、実施例 8におけるドッキング結果の一例を示す図である ( 符号の説明
100 相互作用部位予測装置
102 制御部
102a 表面グリッド点発生部
102b 接触部位グリッド選択部
102c 接触部位グリッドデータベース作成部
102d 対象タンパク質表面グリッド発生部
102e 相互作用部位予測部
102f ドッキング状態探索部
102fl 接触相対配置座標データベース作成部 102f2 距離分布データベース作成部
102f3 ドッキングスコア半 lj定咅
102f4 相対位置変化部
104 通信制御インターフェース部
106 記憶部
106a 表面グリッド点ファイル
106b 接触部位グリッドデータベース
106c 対象タンパク質表面グリッドファイル 106d 相互作用部位予測結果ファイル
106e ドッキング状態探索結果ファイル
106f 接触相対配置座標データベース
106g 距離分布データベース
108 入出力制御インターフェース部
112 入力装置
114 出力装置
200 外部システム 300 ネットワーク
発明を実施するための最良の形態
[0039] 以下に、本発明にかかる相互作用部位予測装置、相互作用部位予測方法、プログ ラム、および記録媒体の実施の形態を図面に基づいて詳細に説明する。なお、この 実施の形態により本発明が限定されるものではない。
[0040] 本明細書において使用される用語は、特に明記しない限り次の意味を有する。
「接触」とは、異なるタンパク同士において、それぞれの側鎖の原子間距離力も原 子半径を引 ヽた距離が 1 A以下の場合、接触して ヽる状態を意味する(図 1参照)。
「表面グリッド」とは、タンパク座標表面の xyz座標に 1 A刻みで格子点をおき、その それぞれポイントから炭素の所定の原子半径 (例えば 1. 7A)とタンパク質の原子半 径の和から所定の範囲(例えば + 1 Aの範囲)に表面の原子が存在する座標を意味 する(図 2参照)。
「接触部位グリッド」とは、表面グリッドの中で、他の chainの表面原子半径 (例えば 半径 1. 7A)と、表面グリッドの仮想炭素の原子半径 (例えば 1. 7A)が重なっている ものを意味する(図 3参照)。
「座標」とは、三次元空間上での立体構造を記述するものである。それは空間上の ある点を原点とする互いに垂直な 3方向の相対的な距離であり、 3つの数値力 なる ベクトノレ量である。
「目的タンパク質 (ターゲット)」とは、その立体構造の詳細が X線結晶解析や NMR 解析等により完全な立体構造が決定されておらず、ホモロジ一モデリングなどの手法 により立体構造構築の対象となる任意のタンパク質を意味する。このタンパク質には 、部分構造は解析されているが完全な立体構造が得られていないものや、単数鎖の 立体構造は得られて!/、るが、複数鎖の立体構造は得られて!/、な!、ものも含まれる。 本発明において、 X線結晶解析には、 X線のみならず電子線および中性子解析等も 含まれる。
「参照タンパク質 (リファレンス)」とは、その立体構造の詳細が X線結晶解析や NM R解析等により既に決定されており、目的タンパク質の立体構造を規定する原子座標 を構築するために参照するタンパク質を意味する。 「ァライメント」とは、 2種類以上のタンパク質についてアミノ酸配列の対応関係をつ けることを意味する。
[0041] [本発明の基本原理]
ここでは、本発明の基本原理について、図 71を参照して説明する。図 71は、本発 明の基本原理を示す概念図である。
[0042] まず、本発明は、複数のタンパク質 タンパク質複合体立体構造データに対して、 タンパク座標表面の Xyz座標に 1 A刻みで格子点をおき、そのそれぞれポイントから 炭素の所定の半径とタンパク質の原子半径の和力 所定の範囲に表面の原子が存 在する座標である、表面グリッドを発生させる (ステップ S— 1)。
[0043] そして、ステップ S—1にお!/、て発生させた各表面グリッドつ 、て、他のチェーンの表 面原子半径に重なっている力否か判定し、接触部位グリッドを選択する (ステップ S—
2)。
[0044] そして、アミノ酸残基のパターン毎に、表面グリッドとしてカウントされた個数と、ステ ップ S— 2により接触グリッドとしてカウントされた個数とを対応付けて格納した接触部 位グリッドデータベースを作成する(ステップ S— 3)。
[0045] そして、相互作用部位予測の対象となる対象タンパク質構造データに対して、表面グ リツドを発生させる (ステップ S-4)。
[0046] そして、ステップ S-4にて発生させた対象タンパク質の各表面グリッドにつ 、て、接 触部位グリッドデータベースを参照して接触判定スコアを求め、接触判定スコアに基 づ 、て対象タンパク質の相互作用部位を予測する (ステップ S— 5)。
[0047] ここで、以下の数式 1を用いて、上記接触判定スコアを求め、当該接触判定スコア に基づ!/、て、上記対象タンパク質の相互作用部位を予測してもよ!/、。
[数 16] 、 L^onk
ん =0
Sco. 二 log
Figure imgf000024_0001
∑{Ck -Conk
(数式 1
(数式 1において、 iは、注目する接触アミノ残基パターンである。 C;は、パターン iに対 するデータベース内での表面グリッド数であり、 Conは接触部位でのパターン iのカウ ント数であり、その差である(Ci—Con)の数値は、非接触部位でのカウント数である。 )
[0048] そして、ステップ S— 5にて予測された相互作用部位に対応する表面グリッドに対し て、対象タンパク質と結合する結合タンパク質の接触部位にくるようなドッキング状態 を探索する (ステップ S— 6)。
[0049] ここで、ドッキング状態を探索は、以下の 1)接触相対配置座標データベースと、 2) 距離分布データベースを予め作成しておき、当該距離分布データベースを用いてス コアを算出することにより行ってもよい。
1)接触相対配置座標データベース
複数のタンパク質 -タンパク質複合体立体構造データ対して、各タンパク質 -タンパ ク質複合体の異なるチェーン間で接触して 、るアミノ酸残基対にっ 、て、相対配置 座標データを求め、接触相対配置座標データベースを作成する。
2)距離分布データベース
接触相対配置座標データベースに登録された各相対配置座標データの任意の原 子間の距離分布を求め、距離分布データベースを作成する。
[0050] そして、距離分布データベースを用いて、以下の数式 2に基づ!/、て、上記ドッキン グ状態判定スコアを求めることにより、ドッキング状態を探索してもよい。
[数 17] Count }
Sum; ≥ 0.05のとき
SCO j = -
Figure imgf000025_0001
Figure imgf000025_0004
Sum: < 0.05のとき
SCO. . 二 0
l,J . . . (数式 2 )
(数式 2において、
[数 18]
Count t 接触面における ゾの組み合わせが距離^こ現れた個数 [数 19]
Sum, :
Figure imgf000025_0002
:接触面における ί &ゾ'の組み合わせの総数 [数 20]
Total, 二
Figure imgf000025_0003
:接触面に来た ζ·の個数 である。 )
[0051] また、ドッキング状態の探索は、対象タンパク質と結合タンパク質の相対位置を変化 させることにより、より最適化されたドッキング状態を探索することができる。
[0052] [システム構成]
ここでは、本発明が適用される本システムの構成について、図 72を参照して詳細に 説明する。図 72は、本発明が適用される本システムの構成の一例を示すブロック図 であり、該構成のうち本発明に関係する部分のみを概念的に示している。 [0053] 図 72に示すように、本システムは、概略的に、タンパク質の相互作用部位の予測を 行う相互作用部位予測装置 100と、外部データベースや各種の外部プログラムなど を提供する外部システム 200とを、ネットワーク 300を介して通信可能に接続して構 成されている。
[0054] ネットワーク 300は、相互作用部位予測装置 100と外部システム 200とを相互に接 続する機能を有し、例えばインターネットや LANなどである。
[0055] 外部システム 200は、ネットワーク 300を介して、相互作用部位予測装置 100と相 互に接続され、利用者に対してタンパク質立体構造データなどに関する外部データ ベースや各種の外部プログラムを実行するウェブサイトを提供する機能を有する。こ こで、外部システム 200は、 WEBサーバや ASPサーバ等として構成してもよぐその ハードウェア構成は、一般に巿販されるワークステーション、パーソナルコンピュータ 等の情報処理装置およびその付属装置により構成してもよい。また、外部システム 20 0の各機能は、外部システム 200のハードウェア構成中の CPU、ディスク装置、メモリ 装置、入力装置、出力装置、通信制御装置等、およびそれらを制御するプログラム 等により実現される。
[0056] 相互作用部位予測装置 100は、概略的に、相互作用部位予測装置 100の全体を 統括的に制御する CPU等の制御部 102と、通信回線等に接続されるルータ等の通 信装置(図示せず)に接続される通信制御インターフェース部 104と、各種のデータ ベースやファイルなどを格納する記憶部 106と、入力装置 112や出力装置 114に接 続される入出力制御インターフェース部 108と、を備えて構成されており、これら各部 は任意の通信路を介して通信可能に接続されている。さらに、相互作用部位予測装 置 100は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介 して、ネットワーク 300に通信可能に接続されている。
[0057] 記憶部 106に格納される各種のデータベースやテーブルやファイル(表面グリッド 点ファイル 106a—距離分布データベース 106g)は、固定ディスク装置等のストレー ジ手段であり、各種処理に用いる各種のプログラムやテーブルやファイルやデータべ ースゃウェブページ用ファイルなどを格納する。
[0058] これら記憶部 106の各構成要素のうち、表面グリッド点ファイル 106aは、後述する 表面グリッド点発生部 102aにより発生された表面グリッド点を格納する表面グリッド点 格納手段である。接触部位グリッドデータベース 106bは、後述する接触部位グリッド データベース作成部 102cにより作成された接触部位グリッドデータベースを格納す る接触部位グリッドデータベース格納手段である。対象タンパク質表面グリッドフアイ ル 106cは、後述する対象タンパク質表面グリッド発生部 102dにより発生された対象 タンパク質の表面グリッドを格納する対象タンパク質表面グリッド格納手段である。相 互作用部位予測結果ファイル 106dは、後述する相互作用部位予測部 102eにより 予測された相互作用部位の予測結果を格納する相互作用部位予測結果格納手段 である。ドッキング状態探索結果ファイル 106eは、後述するドッキング状態探索部 10 2fにより探索されたドッキング状態の結果を格納するドッキング状態探索結果格納手 段である。接触相対配置座標データベース 106fは、後述する接触相対配置座標デ ータベース作成部 102flにより作成された接触相対配置座標データベースを格納す る接触相対配置座標データベース格納手段である。距離分布データベース 106gは 、後述する距離分布データベース作成部 102f2により作成された距離分布データべ ースを格納する距離分布データベース格納手段である。
[0059] 通信制御インターフェース部 104は、相互作用部位予測装置 100とネットワーク 30 0 (またはルータ等の通信装置)との間における通信制御を行う。すなわち、通信制御 インターフェース部 104は、他の端末と通信回線を介してデータを通信する機能を有 する。
[0060] 入出力制御インターフェース部 108は、入力装置 112や出力装置 114の制御を行 う。ここで、出力装置 114としては、モニタ (家庭用テレビを含む)の他、スピーカ等を 用いることができる(なお、以下においては出力装置 114をモニタとして記載する場 合がある。 ) oまた、入力装置 112としては、キーボードやマウス、マイクなどを用いる ことができる。また、モニタも、マウスと協働してポインティングデバイス機能を実現す る。
[0061] 制御部 102は、 OS (Operating System)等の制御プログラム、および所要デー タを格納するための内部メモリを有し、これらのプログラム等により種々の処理を実行 するための情報処理を行う。制御部 102は、機能概念的に、表面グリッド点発生部 1 02aと、接触部位グリッド選択部 102bと、接触部位グリッドデータベース作成部 102c と、対象タンパク質表面グリッド発生部 102dと、相互作用部位予測部 102eと、ドツキ ング状態探索部 102fと、を含んで構成されている。
[0062] これら制御部 102の各構成要素のうち、表面グリッド点発生部 102aは、複数のタン パク質 タンパク質複合体立体構造データに対して、タンパク座標表面の xyz座標に 1 A刻みで格子点をおき、そのそれぞれポイントから炭素の所定の半径とタンパク質 の原子半径の和から所定の範囲に表面の原子が存在する座標である、表面グリッド を発生させる表面グリッド点発生手段である。接触部位グリッド選択部 102bは、表面 グリッド発生部 102aにて発生させた各表面グリッドついて、他のチェーンの表面原子 半径に重なって ヽるカゝ否か判定し、接触部位グリッドを選択する接触部位グリッド選 択手段である。
[0063] 接触部位グリッドデータベース作成部 102cは、アミノ酸残基のパターン毎に、表面 グリッドとしてカウントされた個数と、接触部位グリッド選択部 102bにて接触グリッドと してカウントされた個数とを対応付けて格納した接触部位グリッドデータベースを作成 する接触部位グリッドデータベース作成手段である。対象タンパク質表面グリッド発生 部 102dは、相互作用部位予測の対象となる対象タンパク質構造データに対して、表 面グリッドを発生させる対象タンパク質表面グリッド発生手段である。相互作用部位予 測部 102eは、対象タンパク質表面グリッド発生部 102dにて発生させた対象タンパク 質の各表面グリッドにつ 、て、接触部位グリッドデータベースを参照して接触判定ス コアを求め、当該接触判定スコアに基づいて対象タンパク質の相互作用部位を予測 する相互作用部位予測手段である。
[0064] ドッキング状態探索部 102fは、相互作用部位予測部 102eにて予測された相互作 用部位に対応する表面グリッドに対して、対象タンパク質と結合する結合タンパク質 の接触部位にくるようなドッキング状態を探索するドッキング状態探索手段である。こ こで、ドッキング状態探索部 102fは、図 73に示すように、接触相対配置座標データ ベース作成部 102flと、距離分布データベース作成部 102f 2と、ドッキングスコア判 定部 102f3と、相対位置変化部 102f4と、をさらに含んで構成されている。接触相対 配置座標データベース作成部 102flは、複数のタンパク質-タンパク質複合体立体 構造データ対して、各タンパク質-タンパク質複合体の異なるチェーン間で接触して いるアミノ酸残基対について、相対配置座標データを求め、接触相対配置座標デー タベースを作成する接触相対配置座標データベース作成手段である。距離分布デ ータベース作成部 102f2は、接触相対配置座標データベース作成部 102flにて作 成された接触相対配置座標データベースに登録された各相対配置座標データの任 意の原子間の距離分布を求め、距離分布データベースを作成する距離分布データ ベース作成手段である。ドッキングスコア判定部 102f3は、距離分布データベース作 成部 102f2にて作成された距離分布データベースを用いて、ドッキング状態判定ス コアを求めることにより、ドッキング状態を探索するドッキングスコア判定手段である。 相対位置変化部 102f4は、対象タンパク質と結合タンパク質の相対位置を変化させ ることにより、最適化されたドッキング状態を探索する相対位置変化手段である。
[0065] なお、これら各部によって行われる処理の詳細については、後述する。
[0066] [システムの処理]
ここでは、上述のように構成された本実施の形態における本システムの処理の一例 について、図を参照して詳細に説明する。
[0067] I.タンパク質 タンパク質相互作用データベース
相互作用部位予測装置 100を用いて、制御部 102の処理により、タンパク質-タン パク質複合体立体構造が既知のタンパク質相互作用状態についてデータベースィ匕 を全自動で行い、 3種類のデータベース (接触部位グリッドデータベース、距離分布 データベースおよび接触相対配置座標データベース)を作成する。ここで、本実施形 態では、タンパク質 タンパク質複合体立体構造として、 PQS (Protein Quaternar y Structure file server : http : / / pqs. ebi. ac. uk/ HenricK K, Thor nton JM. Related Articles, Links PQS : a protein quaternary stru cture file server. Trends Biochem Sci. 1998 Sep ; 23 (9): 358—61 . )データベースを使用する力 任意のタンパク質 タンパク質複合体立体構造デー タベース PDB (Protein Data Bank: Protein Data Bank http: / / www. r csb. orgZpdbZ)や、自分で作成した特定のタンパク質ファミリーの構造を集めた 構造データベースなどを使用してもよい。以下、それぞれのデータベース作成手順 を説明する。
[0068] 1-1.接触相対配置座標データベース (アミノ酸残基対の種類と、 3次元相対位置の データベース)(図 5に示す符号 (2)参照)
ドッキング状態探索部 102fは、接触相対配置座標データベース作成部 102flの 処理により、入力したタンパク質 タンパク質複合体立体構造データに対して、「接触 」の定義に当てはまる、異なるチェーン間の接触しているアミノ酸残基対について、相 対配置座標を求める。換言すると、基準となるアミノ酸側鎖に対して、 xyz座標系で、 接触している側鎖が相対的にどの位置にあるのかをデータ化する。
[0069] なお、アミノ酸側鎖はどれも同じ構造を持っているわけではないので、具体的には、 アミノ酸側鎖の原子のうち構造や物性や機能において重要な 3原子を選定し、選定 した 3原子で構成される平面を基準にして xyz座標系を定める。ここで、選定する 3原 子は任意であるため、側鎖に限った接触相対配置座標データベースではなぐタン パク質主鎖にぉ 、ての接触相対配置座標データベースを作成してもよ ヽ。図 4は、 接触相対配置座標データベース(3次元相対位置のデータベース)のデータを視覚 化したものである。なお、図 4では PHE— PHEの相対配置を表している。
以上の処理を PQSデータベースの 11785個のモデルにつ!、て行!、、接触相対配 置座標データベースを作成する。
[0070] 1-2.距離分布データベース (アミノ酸残基対の種類と、任意の原子間 (C α、 C j8原 子など)の距離分布データベース)(図 5に示す符号 (3)参照)
ドッキング状態探索部 102fは、距離分布データベース作成部 102f 2の処理により 、作成された接触相対配置座標データベースのデータから任意の原子間につ 、て の距離分布を求め、距離分布データベースを作成する。なお、距離分布データべ一 ス (特定原子間距離データベース)は、 C a -C a間の距離の分布を表しており、アミ ノ酸対の種類と、 C a -C a間の距離のカテゴリのどの部分に多く存在しているかを示 している。また、距離カテゴリは 1A間隔である。ここで、任意の原子間についての距 離を求めるので、 C jS -C jS間、 C a— C γ間、 Ν— Ν間等での距離分布データベース を作成してもよい。
[0071] 1-3.接触部位グリッドデータベース (アミノ酸残基の種類、タンパク質表面に現れた 個数、接触部位に現れた個数データベース)(図 5に示す符号(1)参照)
相互作用部位予測装置 100は、表面グリッド点発生部 102aの処理により、複数鎖 タンパク質立体構造にっ 、て、それぞれのタンパク分子に対して表面グリッドをタン パク質 -タンパク質複合体立体構造データに対して発生させる。つぎに、相互作用部 位予測装置 100は、接触部位グリッド選択部 102bや接触部位グリッドデータベース 作成部 102cの処理により、接触している残基ごとに表面グリッドの個数を数える。な お、複数の残基に同時に接触している表面グリッドについても、その種類ごとに個数 を数える。ただし、例えば、 CYS、 ALA、 GLYに接触している表面グリッド、および A LA、 CYS、 GLYに接触している表面グリッドについては、同一のパターンのカテゴリ として個数を数える。また、例えば、 LYSと LYSの 2残基に同時に接触している表面 グリッドについては、「LYS 'LYS」のパターンのカテゴリとして個数を数えることで、接 触している個数も考慮する。さらに、その表面グリッドが接触部位に現れていた場合 は、そのパターンの接触部位についても加算する。
II.上述したデータベースを用いて、任意のタンパク質の相互作用部位を予測する方 法 (図 6参照)
相互作用部位予測装置 100は、制御部 102の処理により、作成された接触部位グ リツドデータベースを用いて接触部位予測を行う。具体的には、まず、相互作用部位 予測装置 100は、対象タンパク質表面グリッド点発生部 102cの処理により、入力され たタンパク質立体構造データに対して表面グリッドを発生させる(図 6に示す符号(1) 参照)。つぎに、相互作用部位予測装置 100は、相互作用部位予測部 102eの処理 により、表面グリッドそれぞれについての接触しているアミノ酸残基のデータから、そ の表面グリッドそれぞれにつ 、て、接触部位グリッドデータベースを参照して検索を 行う(図 6に示す符号 (2)参照)。つぎに、相互作用部位予測装置 100は、相互作用 部位予測部 102eの処理により、この検索によって得られたデータ力も数式 1に従つ てスコアを計算し、計算されたスコアに基づいて相互作用部位を予測する(図 6に示 す符号 (3)参照)。なお、計算されたスコアはその表面グリッドから接触部位への来易 さを数値で表して 、るので、スコアが高 、表面グリッドが集まって 、る部分を接触部 位として予測してもよい。 [数 21]
Sco;
Figure imgf000032_0001
(数式 l )
(数式 1において、 iは、注目する接触アミノ残基パターンである。 C;は、パターン iに対 するデータベース内での表面グリッド数である。 Conは、接触部位でのパターン iの力 ゥント数であり、その差である(C; Con)の数値は、非接触部位でのカウント数である o )
[0073] そして、相互作用部位予測装置 100は、制御部 102の処理により、出力情報として 、各表面グリッドの座標とスコアを PDBファイル形式で出力する(図 6に示す符号(3) 参照)。なお、予め設定した閾値以上のデータの座標とスコアを PDB形式で出力して ちょい。
[0074] III.上述した IIの処理を行い、立体構造未知のタンパク質の相互作用部位を予測す る方法
まず、立体構造未知のタンパク質のアミノ酸配列に対して、ホモロジ一モデリングな どを行い、その立体構造を予測する。つぎに、ホモロジ一モデリングなどで予測され た立体構造に対して、上述した Πと同様の処理を行い、相互作用部位を予測する。
[0075] IV.結合状態未知である複数鎖タンパク質の結合状態を探索する方法 (ドッキング) 図 7は、結合状態未知である複数鎖タンパク質の結合状態を探索する工程の一例 を示すフローチャートである。
[0076] まず、相互作用部位予測装置 100は、制御部 102の処理により、上述した IIの処理 を行うことにより、入力したタンパク質立体構造データカゝら接触部位予測を行う(図 6 に示す符号(2)やステップ SA— 1、ステップ SA— 2参照)。 [0077] つぎに、相互作用部位予測装置 100は、ドッキング状態探索部 102fの処理により 、ステップ SA— 2にて予測されたグリッドデータについて、接触傾向が高いと予測され た表面グリッドが、接触部位にくるようなドッキング状態を探索する (ステップ SA— 3)。 ここで、すべての相対配置を検索する全検索法は膨大な時間が力かるため、乱数を 使用して検索を行う方法を使用してもよい(図 9参照)。また、相対位置変化部 102f4 で行われる相対位置の変化の方法は、具体的には、例えば、自由度 5の角度変化( xyz軸回転方向と、一方のタンパク分子の重心を原点とした相対位置関係 xy軸方向 )および距離である。図 8は、 2分子のタンパク質分子構造のうち一方を受容体タンパ クとしもう一方をリガンドタンパクとした場合に、受容体タンパクの重心からリガンドタン パクの重心を見る位置での、リガンドタンパク質の相対位置変化を示している。なお、 図 8において、リガンドタンパクの重心と受容体タンパクの重心とを結んだ直線力 軸 方向となる。
[0078] ここで、ステップ S A— 3にお 、て、乱数を使用して相対位置を決定し、ドッキング状 態を探索する工程について、図 9を参照して説明する。図 9は、乱数を使用して相対 位置を決定し探索する工程の一例をフローチャートにしたものである。
[0079] まず、ドッキング状態探索部 102fは、乱数を発生させてスタート地点を決め、同時 に、スタート地点のスコアを求める(ステップ SB— 1)。なお、当該スコアは、表面グリツ ドのうち接触部位に存在しているものを対象とする数式 1のスコアの総和である。ここ で、スタート地点はあらゆる場所に決定することが可能である力 およその接触部位 が判明している場合には、範囲を指定してもよい。これにより、計算時間の短縮と精 度の向上を図ることができる。
[0080] つぎに、ドッキング状態探索部 102fは、相対位置変化部 102f4の処理により、スタ ート地点から、 5つの自由度を持つ角度について、それぞれ士 N度の範囲内で乱数 を発生させて相対位置を決定する (ステップ SB-2)。
[0081] つぎに、ドッキング状態探索部 102fは、ドッキングスコア判定部 102f3の処理により 、その状態のスコアを計算し (ステップ SB— 3)、計算したスコアが移動前のスコアより 改善された力どうかを調べる (ステップ SB-4)。
[0082] ここで、スコアが改善された場合 (ステップ SB— 4: Yes)、その場所を新たなスタート 地点として (ステップ SD— 5)、その場所から士 N度の範囲内で再び乱数を発生させ て相対位置を再び決定し (ステップ SB— 2)、スコアの改善が見られるかを再び探索 する(ステップ SB-3およびステップ SB-4)。スコアが改善されて!、な!/、場合 (ステツ プ SB— 4 : No)、内部変数 mをインクリメントし (ステップ SB— 6)、インクリメントして mが 指定した回数 M以下であるか否かを判定し (ステップ SB— 7)、 m以下である場合 (ス テツプ SB—7 :Yes)にはステップ SB— 2に戻り、 m以下でない場合 (ステップ SB—7 :N o)にはステップ SB— 8へ進む。つまり、指定した回数 Mに達するまで、乱数を発生さ せてはスコアが改善されたかを繰り返し調べる。
[0083] つぎに、ドッキング状態探索部 102fは、改善が見られない回数 mが M回以上にな つた場合 (ステップ SB— 7 : No)、乱数の幅 Nが 1より大きければ (ステップ SB—8 :Yes )、乱数の幅 Nの値を 1減らし (ステップ SB— 9)、さらに mを 0に初期化して (ステップ S B— 10)、再びステップ SB— 2に戻る。そして、乱数の幅 Nが 1以下になるまで上述し た処理を繰り返し、ローカルミニマムに達するまで行う。
[0084] つぎに、ドッキング状態探索部 102fは、乱数の幅 Nが 1以下の場合 (ステップ SB— 8 : No)、ローカルミニマムに達したと見なして、その相対位置情報とスコアをリストに 加える(ステップ SB-11)。
[0085] つぎに、ドッキング状態探索部 102fは、リスト内の候補構造の個数が指定個数 p未 満であるか否かを判定し、 p未満であれば (ステップ SB— 12 : Yes)、ステップ SB— 1に 戻り、上述した処理を繰り返す。また、指定個数 pに達すれば (ステップ SB— 12 : No) 、処理を終了する。これにて、ドッキング状態を探索する方法について説明を終了す る。
[0086] 再び図 7に戻り、相互作用部位予測装置 100は、制御部 102の処理により、上記の 処理により候補構造のリストを作成した後、すべての候補構造に対して、クラスタリン グを行う(ステップ SA— 4)。なお、具体的には、例えば、クラスタリングされたクラスタ 一内でスコアが最も良いものを候補構造とする。
[0087] つぎに、ドッキング状態探索部 102fは、ドッキングスコア判定部 102f3の処理により 、距離分布データベースを使用した構造の評価と、主鎖水素結合の個数を判定する (ステップ SA— 5)。ここで、距離分布データベース(populationデータベース)を使 用したスコアの計算は、数式 2に基づいて行ってもよい,
[数 22]
C ountノ-"
Sum, ≥ 0.05のとさ
Figure imgf000035_0001
-く 0.05のとき
SCOl , 二 0
J . . . (数式 2 )
(数式 2において、
[数 23]
Count ! :接舢 における ゾの組み合わせが距離 Jに現れた個数 [数 24]
Sumi t = Y Count i j d:接触面における ι· &ゾの組み合わせの総数 [数 25]
Total, 二 " /:接触面に来た1'の個数 である。 )
ここで、ステップ SA— 5におレ、て、水素結合の判定は、厳密な水素結合判定ではな ぐ水素結合になりうる可能性があるものまで考慮する目的から、厳密な水素結合の 定義とは異なるものを水素結合としてもよい。また、 PDB形式のファイルにおいて、 N についた Hがない場合がほとんどであるため、水素はプログラムにより擬似的なもの を計算して付加してもよい。なお、本実施形態において、水素結合の定義は「z CO
N> 90° かつ ZCOH> 90° かつ O N間距離く 3. 9 A」とする(図 10参照)。
[0089] また、水素結合個数、距離分布データベース(populationデータベース)によるス コア、接触部位予測グリッドによるスコアの 3つを合計して下記のトータルスコア(total score)としてもよい。ここで、本実施形態において、下記のトータルスコアにおいて、 係数 aを 1000、 bを 10000と設定する。ただし、この係数は任意であり、条件によって 変更する。
[数 26] totalscore =—接触部位予測 grid score + a x population score - b x水秦ォ 合個银
[0090] つぎに、相互作用部位予測装置 100は、制御部 102の処理により、トータルスコア 順に、候補構造を並べ替えて、候補構造のランキングとして出力をする (ステップ S A 6)。
[0091] V.立体構造未知の複数鎖タンパク質の結合状態を探索する方法
まず、相互作用部位予測装置 100は、立体構造未知のタ複数鎖タンパク質のァミノ 酸配列に対して、ホモロジ一モデリングなどを行い、その立体構造を予測する。次に 、相互作用部位予測装置 100は、ホモロジ一モデリングなどで予測された複数鎖タン ノ^質の立体構造に対して、上述した IVと同様の処理を行い、相対配置の最適化を 行う。
[0092] VI.複数鎖タンパク質のホモロジ一モデリングを行うに際して、上述した IIにおけるデ ータベースとァライメントファイルを用いて、相互作用状態の予測を行う方法
図 11は、複数鎖タンパク質のホモロジ一モデリングを行うに際して、上述した IIにお けるデータベースとァライメントファイルを用いて、相互作用状態の予測を行う工程の 一例を示すフローチャートである。
[0093] まず、入力したァライメントファイルに記述されている参照タンパク質の PDB IDの 立体構造データ(PDB形式ファイル)を取得し、その構造データから異なるチェーン 間で接触して 、るアミノ酸残基を判定する (ステップ SC-1)。
[0094] つ!、で、ァライメントファイル内の参照タンパク質のアミノ酸配列データにっ 、て、接 触して!/ヽるアミノ酸残基対の対応関係を定める (ステップ SC— 2)。
[0095] っ 、で、ステップ SC— 2にて得られた対応関係を、ァライメントファイル内の目的タン パク質のアミノ酸配列データにつ!ヽて、接触して!/ヽるアミノ酸残基対の対応関係を定 める (ステップ SC-3)。つまり、参照タンパク質で接触しているアミノ酸残基の情報か ら、その同じ位置にァライメントされたアミノ酸残基も同様に接触しているものとしてい る。これにより、 目的タンパク質の立体構造の情報が無い場合でも、アミノ酸残基の接 触の推定を迅速に行うことができる。
[0096] つ!、で、ステップ SC— 2およびステップ SC— 3にて得られた目的タンパク質および参 照タンパク質の両方について、アミノ酸残基対の接触の情報をアミノ酸残基対の親和 性について記述されたスコアマトリックスに照合させて、その和をスコアとする (ステツ プ SC— 4)。ここで、このスコアの関数は数式 4の通りである。なお、数式 4のスコアは 一つのアミノ酸対のスコアにっ 、てであり、実際に接触して 、る個数分のこのスコア の和が、そのアミノ酸配列のスコアである。
[数 27]
SCO I., J =
Figure imgf000037_0001
(数式 4
[数 28]
Counte d:接触面における ゾの組み合わせが距離 に現れた個数
[数 29]
Sum, , ^ ^ Count^ ,:接触面における ζ· &ゾの組み合わせの総数 [数 30]
Total Sum :接触面に来た の個数 [0097] っ 、で、参照タンパク質(リファレンス)と、 目的タンパク質 (ターゲット)のアミノ酸配 列(シーケンス)それぞれにつ 、てスコアが計算され、それを比較する (ステップ SC- 5)。これにより、 目的タンパク質のアミノ酸配列の評価をすることができる。ここで、参 照タンパク質が、実験的に結合していると分力つているタンパク質の立体構造情報な らば、参照タンパク質のスコアに近ければ近いほど(「目的タンパク質複合体のスコア Z参照タンパク質複合体のスコア」の数値が高 ヽほど)、 目的タンパク質のァライメン トが、結合しやす 、正 ヽァライメントになって!/ヽると評価することができる。
[0098] 以上、本実施形態によれば、タンパク質-タンパク質相互作用を解析する。具体的 には以下の(1)一 (6)の方法を実行する。
(1)複数鎖タンパク質の立体構造データから、タンパク質相互作用状態をデータべ ース化する。
(2) (1)のデータベースを用いて、任意のタンパク質-タンパク質間及び、タンパク質 -低分子化合物間の相互作用部位を予測する。
(3)立体構造未知のタンパク質立体構造に対して、ホモロジ一モデリングを行った結 果、出力されたタンパク質立体構造に対して、(1)のデータベースを用いて、その相 互作用部位を予測する。
(4)結合状態未知である複数鎖タンパク質の各々のタンパク質分子間の結合状態を 探索する。
(5)立体構造未知のタンパク質複合体(目的タンパク質複合体)に対して、立体構造 既知のタンパク質複合体 (参照タンパク質複合体)の情報を使用し、ホモロジーモデ リングを行った結果、出力されたタンパク質複合体立体構造に対して、その結合状態 を (4)と同様の方法で最適化する。
(6)複数鎖タンパク質のホモロジ一モデリングを行うに際して、(1)で記述されたデー タベースを利用して得られた (4)で利用した相互作用の式と、ァライメントファイルを 用いて、相互作用状態の予測を行う。
[0099] また、本実施形態によれば、タンパク質 タンパク質複合体立体構造が既知のタン ノ ク質相互作用状態についてデータベース化を全自動で行う。具体的には、以下の (1)一(3)の処理を行う。 ( 1)大量の複数鎖タンパク質の立体構造座標ファイルを準備する。
(2)それぞれの複数鎖タンパク質立体構造座標ファイルにつ 、て、以下の(ァ)一 (ィ )の処理を行う。
(ァ)異なる鎖間での接触状態を、それぞれのアミノ酸残基に注目し、距離、相対座 標のデータを得る。
(ィ)複数鎖タンパク質の表面に仮想原子 (例えば炭素等)のグリッド点を発生させ て、その仮想原子が接触したアミノ酸残基の種類ごとに、その接触個数を得る。さら に複数鎖タンパク質の接触部位にある仮想原子のグリッド点のデータを得る。
(3)得られた大量のデータを、アミノ酸の種類ごとに分けてデータベース化する。デ ータの内容は、以下の(ァ)一(ゥ)の 3種類である。
(ァ)アミノ酸残基対の種類と、三次元相対位置のデータ。
(ィ)アミノ酸残基対の種類と、任意の原子間 (C α、 C j8原子など)の距離分布。
(ゥ)アミノ酸残基の種類と、タンパク質表面に現れた個数。接触部位に現れた個数 また、本実施形態によれば、タンパク質 タンパク質複合体立体構造が未知である タンパク質の相互作用部位の予測を、全自動で行う。具体的には、以下の(1)一(4) の処理を全自動で行う。
( 1)タンパク質表面に仮想原子のグリッド点を発生させる。
(2)アミノ酸残基の種類と、タンパク質表面に現れた個数、接触部位に現れた個数を データとして含むデータベースから、グリッド点の状態 (接触パターン)に適合するデ ータを検索する。
(3)データ検索の結果得られた数値から下記数式のスコア Scoを計算する。
[数 31] 、
Sco- : log
Figure imgf000040_0001
[数 32] 接触部位におけるパタ—ン ^が現れた割合
/T¾ Μ^ 非接触部位におけるパターンが現れた割合
スコアが良い場合、 正の値をとる。 この数式のスコア Scoにおいて、注目する接触パターンを iとする。 Cは、パターン i に対するデータベース内での表面グリッド数である。。。 は、接触部位でのパターン iのカウント数であり、その差である(C -Con )の数値は、非接触部位でのカウント数 である。
(4) 3次元座標にグリッド点の座標と、接触部位予測値 (Sco )を記載する。なお、予 測値が高 、ほど接触部位である可能性が高 、グリッド点である。
また、本実施形態によれば、立体構造が未知であるタンパク質の相互作用部位の 予測を、そのタンパク質の立体構造予測を行った後に、全自動で行う。具体的には、 以下の(1)一 (5)の処理を全自動で行う。
(1)立体構造未知のタンパク質のアミノ酸配列から、コンピュータープログラムなどを 用いて立体構造を予測し、立体構造を得る。
(2) (1)で得られたタンパク質立体構造の表面に仮想原子のグリッド点を発生させる
(3)アミノ酸残基の種類と、タンパク質表面に現れた個数、接触部位に現れた個数を データとして含むデータベースから、グリッド点の状態 (接触パターン)に適合するデ ータを検索する。
(4)データ検索の結果得られた数値から下記数式のスコア SCOiを計算する c
[数 33]
( f ヽ
Con!
n
∑Conk
人- =o
^co, 二 log
Cj一こ, (9/7,
∑{Ck -Conk )
人. =0
[数 34] 接触部位におけるパターン ίが現れた割合 对¾の対象は I
'、非接触部位におけるパターン! 'が現れた割合 . スコアが良い場合、 正の値をとる。 この数式のスコア Scoにおいて、注目する接触パターンを iとする。 Cは、パターン i に対するデータベース内での表面グリッド数である。 Conは、接触部位でのパターン iのカウト数であり、その差である(C -Con)の数値は、非接触部位でのカウント数で める。
(5) 3次元座標にグリッド点の座標と、接触部位予測値 (Sco)を記載する。なお、予 測値が高 、ほど接触部位である可能性が高 、グリッド点である。
また、本実施形態によれば、タンパク質 タンパク質複合体立体構造の結合状態未 知である複数鎖タンパク質の結合状態を探索する方法に使用したスコア関数におい て、以下に示す数式に従って、アミノ酸残基対の種類と、任意の原子間(例えば C a など)の距離分布のデータベースを使用する。
[数 35]
County.,,:接触 Eにおける i &ゾの組み合わせが距離 に現れた個数 [数 36]
Sum, . = Count; :接触面における &ゾの組み合わせの総数
[数 37]
Total, 匪,, :接触面に来たの個数
[数 38]
Count ι . ι, d
Sum; ≥ 0.05のと き
Figure imgf000042_0001
County d
Sum; '· く 0.05のと き
SCO 1., j . = 0
[数 39] ί実際にァミノ酸残基 ζ·と ·が接触した個数 アミノ酸残基/とゾが接触する期待値
スコアが良い場合、 負の値をとる。 また、本実施形態によれば、結合状態未知である複数鎖タンパク質の結合状態の 探索を行う。具体的には、以下の(1)一(4)で示した処理を行う。
(1)結合状態未知のタンパク質 2つについて、それぞれに接触部位予測のコンビュ 一タープログラムを使った処理を行う。 (2)結合状態未知のタンパク質二つの相対位置を変化させ、接触部位予測をよく満 たす相対配置を検索する。接触部位予測されたグリッドが実際に接触部位に現れた 場合に、そのグリッドのパターン iでのスコア(Scoi)を加算する方法でスコア順に並べ 替えたデータを得る。
(3) (2)で得られたデータについて、タンパク質二つの相対配置の近いもの同士をク ラスタリングする。クラスタリングされたグループ内の最も良いスコアをもつ相対配置を 代表として採用する。
(4)クラスタリングされた代表のスコアを比較して、上位 100位に対し、水素結合個数 、上記で記載されたスコアの加算を行い、相対配置候補の順番を並べ替え、上位の ものを候補構造とする。
また、本実施形態によれば、立体構造および結合状態未知である複数鎖タンパク 質の結合状態の探索を全自動で行う。具体的には、以下の(1)一(5)で示した処理 を行う。
(1)立体構造および結合状態未知のタンパク質複合体について、そのアミノ酸配列 力 コンピュータープログラムなどを用いて立体構造予測を行 、、タンパク質複合体 立体構造を得る。
(2) (1)で得られたタンパク質複合体立体構造について、それぞれに接触部位予測 のコンピュータープログラムを使った処理を行う。
(3)結合状態未知のタンパク質二つの相対位置を変化させ、接触部位予測をよく満 たす相対配置を検索する。接触部位予測されたグリッドが実際に接触部位に現れた 場合に、そのグリッドのパターン iでのスコア(Scoi)を加算する方法でスコア順に並べ 替えたデータを得る。
(4) (3)で得られたデータについて、タンパク質二つの相対配置の近いもの同士をク ラスタリングする。クラスタリングされたグループ内の最も良いスコアをもつ相対配置を 代表として採用する。
(5)クラスタリングされた代表のスコアを比較して、上位 100位に対し、水素結合個数 、上記で記載されたスコアの加算を行い、相対配置候補の順番を並べ替え、上位の ものを候補構造とする。 また、本実施形態によれば、立体構造既知のタンパク質複合体を参照して立体構 造が未知の目的タンパク質複合体のホモロジ一モデリングを行うに際して、モデリン グ前に上記のデータベースとァライメントファイルを用いて、相互作用状態の予測を 行う。具体的には、以下の(1)一(4)で示した処理を行う。
( 1)参照タンパク質複合体の結合状態について、上記と類似のスコアの計算を用い る。スコアの計算は、実際に側鎖が接触しているアミノ酸対のみを、下記数式の関数 を使用してスコアを加算する。
[数 40] 場合 i, jが接触している時 0 二— log
Figure imgf000044_0001
[数 41]
C ti i d:接触面における f &ノの組み合わせが距離 に現れた個数
[数 42]
Sum t Count j ii:接触面における ί' &ゾの組み合わせの総数
[数 43]
Total, 二 S« :接触面に来た ί·の個数
(2)目的タンパク質複合体のアミノ酸配列に従って、ァライメントを参照して、(1)で計 算したアミノ酸対を目的タンパク質複合体のアミノ酸対に置き換え、スコアの再計算を 行う。
(3) ( 1)で得られたスコアと(2)で得られたスコアとの比を出力する。複合体として存 在するために、比の値が大きいほうが望ましい。 2; 一で得られた目的タンハク質複^^のスコア)
, ( 1 ) で得られた参照タンパク質複合体のスコア.リ
(4) (3)で得られた比の値を検証例などカゝら算出された任意の比の値を使用して、自 然界に存在するかどうかを判定することで、目的の複数鎖タンパク質複合体のホモ口 ジーモデリングを実際にすべきかどうかを決定する。
[0106] また、本実施形態によれば、実験により解析されたタンパク質立体構造、及びコン ピュータープログラムにより予測されたタンパク質立体構造などの、任意の単数を含 む複数鎖のタンパク質立体構造が与えられた場合において、該当タンパク質の立体 構造力 誘導適合を反映したパラメーターおよび構造変化した立体構造座標を例え ば基準振動計算方法や分子動力学計算方法によりあらかじめ算出し、当該パラメ一 ターおよび構造変化した立体構造座標を用いて該当タンパク質と別のタンパク質が 結合した場合の相互作用関数を定義し、上記の方法を用いて算出されたタンパク質 複合体の結合状態を評価する。
[0107] また、本実施形態によれば、 3種類のデータベースを作成する。具体的には、ァミノ 酸残基対の種類と、 3次元相対位置のデータをあらわす接触相対配置座標データべ ースを作成する。また、アミノ酸残基対の種類と、任意の原子間 (C α、 C j8原子など) の距離分布のデータベースを作成する。さらに、アミノ酸残基の種類と、タンパク質表 面に現れた個数、接触部位に現れた個数のデータベースである接触部位グリッドデ ータベースを作成する。これにより、タンパク質複合体立体構造データベースから作 成されるデータベースは、タンパク質 タンパク質相互作用に関与して ヽるアミノ酸残 基の側鎖の 3次元相対配置を記述することで、アミノ酸側鎖の接触部位での相対配 置の傾向を解析することができる。また、接触部位に現れているアミノ酸残基の傾向 を記述することで、タンパク質立体構造の 3次元座標での接触部位予測におけるスコ ァ関数に利用することができる。また、あるアミノ酸側鎖が、どのようなアミノ酸側鎖と 接触しやすいかを統計的に解析して数値化することで、スコア関数に利用することが できる。ここで、タンパク質複合体データベースとして、例えば PDBや PQSなどの既 存のデータベースを用いてもよぐ自分で作成した特定のタンパク質ファミリーの構造 を集めた構造データベースを用いてもょ 、。
[0108] また、本実施形態によれば、タンパク質 タンパク質複合体立体構造が未知である タンパク質の相互作用部位の予測を行うことを目的として、タンパク質立体構造の表 面にグリッド点を計算し、作成したデータベースを用いてスコア計算し、接触傾向をグ リツド点それぞれについて求める。これにより、入力されたタンパク質立体構造の表面 におかれた 3次元座標上のグリッド点それぞれにスコアが計算されるので、接触部位 になる残基ではなく空間座標を調べることができるため、接触アミノ酸残基のみを予 測する手法に比べ、より詳細なデータを作成することができる。
[0109] また、本実施形態によれば、結合状態未知である複数鎖タンパク質の結合状態の 探索を、上記のスコア関数や、接触部位予測の結果、水素結合個数の計算結果を 利用して行う。これにより、結合状態未知のタンパク質複合体の結合状態を、上記の スコア関数や、接触部位予測の結果、水素結合個数において、よい条件で結合して いる状態を探索することができる。また、タンパク質の全原子について、上記のスコア 関数の計算や、接触部位の予測、水素結合個数の計算を行う方法に比べ、計算コス トが低いため、高速に計算を行うことができる。
[0110] また、本実施形態によれば、個々のタンパク質立体構造が未知であり、タンパク質- タンパク質複合体立体構造も未知であるタンパク質の相互作用部位の予測を行うこと を目的として、ホモロジ一モデリングを行い、その結果の立体構造の表面にグリッド点 を計算し、上記のデータベースを用いてスコアを計算し、接触傾向をグリッド点それ ぞれについて求める。なお、ホモロジ一モデリング後の処理は上記と同じである。
[0111] また、本実施形態によれば、立体構造および結合状態未知である複数鎖タンパク 質の結合状態の探索を全自動で行う。なお、複数鎖タンパク質のホモロジーモデリン グ後、上記と同様の方法により結合状態の探索を行う。
[0112] また、本実施形態によれば、立体構造既知のタンパク質複合体を参照して立体構 造が未知の目的複数鎖タンパク質のホモロジ一モデリングを行うに際して、モデリン グ前に上記のデータベースとァライメントファイルを用いて、相互作用状態の予測を 行い、かつ評価を行う。なお、配列ァライメントの作成には、各種既存のコンピュータ 一ソフトウェアである FASTAや IMPARA、 ClustalW, HMMER、 BIOCESなどの ァライメント出力結果を用いて複数の各アミノ酸配列末尾 (C末端)の次にアミノ酸記 号以外の区切り文字 (例えば「U」等)を付加することで、各鎖間の境界を示すフォー マットを用いてもよい。
[0113] また、配列ァライメントが記された入力ファイル形式としては、特に制限は無いが、 例えば、 目的タンパク質を参照タンパク質とァライメントを行った場合、一般式として 下記内容を採用してもよい。
[0114] 具体的には、 1行目は〉の後に、 目的タンパク質の IDを記載する。 2行目は目的タ ンパク質のアミノ酸配列を各タンパク質鎖 (ポリペプチド鎖等)の末端残基の次に区切 り文字をカ卩えて、すべてのタンパク質鎖について改行なしに記載する。 3行目は〉の 後に参照タンパク質の IDを記載する。 4行目は参照タンパク質のアミノ酸配列を、各 タンパク質鎖 (ポリペプチド鎖等)の末端残基の次に区切り文字を加えて、すべてのタ ンパク質鎖について改行なしに記載する。ここで、 2行目と 4行目のアミノ酸配列の並 ベ方については、前期の如く得られるァライメントを利用し、同一番目の区切り文字 の位置は 2行目と 4行目で常に一致させるのが好ましい。
[0115] これを例示すると以下のとおりである。
> (目的タンパク質の ID);
(第一鎖の配列)(区切り文字)(第一鎖の配列)(区切り文字) · · · ·(区切り文字)(第 M鎖の配列)
> (参照タンパク質の ID)
(第一鎖の配列)(区切り文字)(第一鎖の配列)(区切り文字) · · · ·(区切り文字)(第 M鎖の配列)
なお、括弧は見易くするためのものであり、実際には記載せず、連続した文字列に するのが望ましい。
[0116] また、本実施形態によれば、入力されたァライメントファイルに記載された参照タン パク質の IDから、参照タンパク質立体構造情報をアミノ酸複合体立体構造データべ ース (PDB等)力も取得し、異なるタンパク質間で接触して 、るアミノ酸残基の対応関 係の情報を取得する。なお、参照タンパク質のアミノ酸側鎖の接触判定が正確に行 われるようにするために、使用するアミノ酸複合体立体構造データベースは、実験的 にタンパク質複合体を形成するタンパク質につ ヽて、 X線構造解析などの手法により
、実験的にその立体構造情報が得られているものが望ましい。そして、得られた接触 しているアミノ酸残基の対応関係の情報から、 目的タンパク質の接触しているアミノ酸 残基の対応関係の情報を作成する。こうして得られた、参照タンパク質と目的タンパ ク質の異なるタンパク質鎖間での側鎖の接触情報を、上記のデータベースの検索を 行い、スコアを上記のスコア関数を使用することで、入力された複数鎖タンパク質の ァライメント評価を行う。
[0117] また、本実施形態によれば、 目的タンパク質をアミノ酸残基の接触を、参照タンパク 質のアミノ酸残基の接触状態から予測するという特徴がある。また、ァライメントの評 価を、ァライメントファイルから、ホモロジ一モデリングなどの手法によって、 目的タン ノ ク質の立体構造が得られていない場合でも、簡便かつ迅速に計算を行うことができ る。また、評価の方法として、 目的タンパク質のスコアと、参照タンパク質のスコアを同 時に出力するため、絶対的な評価と、相対的な評価を行うことができる。参照タンパク 質構造データが、実験によって得られたデータであるならば、参照タンパク質のスコ ァがタンパク質複合体を形成するかの基準となり、参照タンパク質のスコアと目的タン ノ ク質のスコアの比が、 目的タンパク質が複合体を形成するかどうかの基準とすること が可能である。
[0118] 以下に、相互作用部位予測装置 100を用いた実施例を説明する。なお、下記の実 施例は、本発明の具体的な認識を得る一助と見るべきであり、本発明の範囲を何ら 制限するものではない。
実施例 1
[0119] (データベース作成の例)
本実施例 1では、上述した実施形態の Iに記載された方法に従い、 PQSデータべ ースを使用して、下記の(1)一 (3)に示すデータベースを作成した。
[0120] (1)上述した実施形態の I 1における接触相対配置座標データベース(3次元相対 位置のデータベース)の作成例
図 4では、 PHE—PHEの相対配置が 3次元で図示されて!、る。 [0121] (2)上述した実施形態の I 2における距離分布データベースの作成例
ALAと接触していたアミノ酸残基について、 Cひ間距離における分布を表している データベースの一例を図 12に示した。図 12において、一番左の項目はアミノ酸対の 糸且み合わせであり、次に、 1 Aごとの距離のカテゴリに、 PQSデータベース内でその 距離の Cひ間距離を持っていた個数を表している。図 12をグラフ化したものが図 13 である。また、他のアミノ酸残基についてもグラフ化したものが図 14一図 33である。
[0122] また、このデータを下に、上述した実施形態の VIで使用した数式 4の SCOを、アミ ノ酸 20種類 X 20種類のマトリクスで図示した(図 34)。図 34において、色が濃いほど SCOのスコアが低!、(親和性が高 、)ことを表して!/、る。
i,j
[0123] (3)上述した実施形態の I 3における接触部位グリッドデータベースの作成例
PQSデータベース力 作成した接触部位グリッドデータベースの一例を図 35に示 した。図 35において、左から順に、接触パターン (数式 1の i)、接触部位グリッドの個 数 (数式 1の Con)、表面グリッドの個数 (数式 1の C )、である。
実施例 2
[0124] (相互作用部位予測の例)
本実施例 2では、 Protein Data Bankに IDが lJK3 (Lang, R. , Kocourek, A. , Braun, M. , Tschesche, H. , Huber, R. , Bode, W. , M askos, K. : Substrate Specificity Determinants of Human Macroph age Elastase (Mmp— 12) Based on the 1. 1 A Crystal Structure J . Mol. Biol. 312 pp. 731 (2001) )として登録されているタンパク質立体構 造情報に対して、上述した実施形態の Πに記載された方法に従い、タンパク質相互 作用部位の予測を行った。 1JK3は、 Batimastatと呼ばれる薬剤が結合した状態の マトリックスメタプロテアーゼ— 12 (以下 MMP— 12と略す)のタンパク質である。
[0125] ここで、 Batimastatが結合するサイトが不明であると仮定し、上述した実施形態で 説明した方法に従って、相互作用部位、すなわち Batimastatが結合するサイトの予 測を行った。まず、上述した実施形態の Iにおけるデータベースを使って、上述した 実施形態の Πに記載された方法に従い、相互作用部位予測を行った。立体構造モ デルに対して、その表面に表面グリッドを xyz座標に対して 1. OA間隔で発生させた 。次に、その表面グリッドすべてに対して、アミノ酸残基の種類'タンパク質表面に現 れた個数'接触部位に現れた個数のスコアを、データベース検索により付けた。スコ ァは数式 1に従った。そのスコアが 10. 0以上であった表面グリッド点のみにおいて P DB形式で出力して視覚化したもののうち、相互作用部位周辺を拡大したものが図 3 6である。なお、図 36では、 Batimastatも同時に表示している。図 36のグリッド点そ れぞれにつ 、てスコアがっ 、ており、そのスコアが高 、ほど相互作用部位になり易!ヽ t 、う情報を持って 、ることになる。
[0126] また、同様の処理により、 Protein Data Bankに IDが 2PTC (Marquart, M.
, Walter, J. , Deisenhofer, J. , Bode, W. , Huber, R. : The G eometry of the Reactive Site and of the Peptide Groups in Tryps in, Trypsinogen and its Complexes with Inhibitors Acta Crystallog r. , Sect. B 39 pp. 480 (1983) ) , lQPR (Sharma, V. , Grubmeyer, C. , Sacchettini, J. C. : Crystal structure of quinolinic acid ph osphoribosyltransf erase from Mmycobacterium tuberculosis: a poten tial TB drug target. Structure 6 pp. 1587 (1998) )として登録されて V、る複数鎖タンパク質につ 、て、上述した実施形態の IIに記載された方法に従 、、 それぞれタンパク質相互作用部位の予測を行った。
[0127] 図 37は 2PTCの E鎖に対して、相互作用部位予測を行った結果である。灰色のダリ ッド点力 相互作用部位として予測されたスコアが高力つたものである。白いタンパク 質分子は 2PTCの E鎖である。次に、図 37において 2PTCの I鎖も同時に表示した図 が図 38である。黒いタンパク質分子が 2PTCの I鎖である。
[0128] 図 39は図 37の一部を別の角度から拡大したものである。図 40は、図 39において 2 PTCの I鎖(黒)も同時に表示した図である。これらの図を見ると、予測されたグリッド 点に、実際に相互作用があることがわかる。同様に、 1QPRの相互作用部位予測の 結果を図 41に示す。白いタンパク質分子は 1QPRの A鎖である。図 42は、 1QPRの A鎖と相互作用部位予測の結果を示した図であり、 B鎖 (黒)を同時に表示したもの である。図 43および図 44は、 1QPRを別の角度で拡大表示したものである。
[0129] 本実施例 2のように、相互作用部位を予測することで、タンパク質-タンパク質、薬 物相互作用部位が分力 ないものに対して、その部位の推定を高速に行うことが可 能である。また、その部分を中心にドラッグデザインを行えば、何らかの効果を示す 薬物の開発に効果を期待できる。
実施例 3
[0130] (立体構造未知のタンパク質複合体のホモロジ一モデリングの結果にっ 、て相互作 用部位予測を行う例)
本実施例 3では、上述した実施形態の IIIに記載された方法に従い、まず米疾病対 策センター(CDC)等により公表された SARS Proteaseの解読されたゲノム配列か ら、治療薬に有効な SARSウィルスのタンパク質である Proteinaseの立体構造をホ モロジ一モデリング法で予測した。次に、予測された Proteaseのタンパク質立体構造 に対して、相互作用部位を予測した。
[0131] 本実施例 3における SARS Proteaseの活性部位は、ホモロジ一モデリングにお いて参照タンパク質として使用した PDB IDが lLVO (Anand, K. , Palm, G . J. , Mesters, J. R. , Siddell, S. G. , Ziebuhr, J. , Hilgenfel d, R. : Structure of Coronavirus Main Proteinase Reveals Combm ation of a Chymotrypsin Fold with an Extra Alpha— Helical Domai n Embo J. 21 pp. 3213 (2002) )と同じである。
[0132] 本実施例 3にお 、て、この活性部位が未知であると仮定して、相互作用部位予測を 行った。その予測結果で活性部位を拡大表示した図が図 45である。灰色のグリッド 点が、相互作用部位として予測されたスコアが高力 たものである。白いタンパク質 分子はホモロジ一モデリングにより構築された Proteaseのタンパク質立体構造である 。 1HPG (Nienaber, V. L. , Breddam, K. , Birktoft, J. J. : A glu tamic acid specific serine protease utilizes a novel histidine triad i n substrate binding. Biochemistry 32 pp. 11469 (1993) )を、ホモ口 ジーモデリングによって予測された SARSの Proteaseのタンパク質立体構造の活性 部位と重ね合わせ、そのリガンドを同時に表示した図が図 46である。相互作用部位 に、予測されたグリッドが存在していることから、相互作用部位の予測が精度よく行わ れていることがわ力る。 [0133] 本実施例 3のように、立体構造未知のタンパク質に対して相互作用部位予測を行う ことは、今後、 SARSのウィルスの Proteinaseに対するドラッグデザインや機能解析 などと!/、つた分野にぉ 、て非常に重要な役割を果たすものと思われる。
実施例 4
[0134] (結合状態未知のタンパク質複合体について、結合状態を探索する例)
本実施例 4では、様々な複数鎖タンパク質について、上述した実施形態の IVに記 載された方法に従い、結合状態を探索した。本実施例 4では、結合状態が実験的に 解析されて ヽる構造を使用して ヽるが、結合状態未知と仮定して ヽる。
[0135] まず、上述した実施形態の IIに記載された方法に従 、、接触部位予測を行った。そ れぞれのタンパク質立体構造モデルに対して、その表面に表面グリッドを xyz座標に 対して 1A間隔で発生させた。次に、その表面グリッドすべてに対して、アミノ酸残基 の種類 ·タンパク質表面に現れた個数 ·接触部位に現れた個数のスコアをデータべ ース検索により付けた。スコアは数式 1に従った。相互作用部位が分力つているものと して、正解相対配置から ± 30度範囲内(ただし、 Z軸方向は 360度回転)に、「候補 構造個数を 400個」および「400回スコア変化が無力つた場合に乱数移動範囲を 1度 減らす」と 、う条件で検索を行った。
[0136] 次に、候補構造 400個について、 ± 5度の範囲内でのクラスタリングを行った。クラ スター内の最もスコアがよいものについて、水素結合個数および上述した実施形態 の I 2におけるデータベース検索による数式 2を使用したスコアを計算し、数式 3のス コアで並べ替えた。数式 3の係数 aおよび bはそれぞれ、 a= 1000、 b = 10000にし た。
[0137] 結果、最もスコアがょカゝつた候補構造と正解構造との RMSD、および候補構造の 内で最も RMSDが小さかったものの RMSDとその順位を示した図が図 47である。そ れぞれの PDBについて最も RMSDが良かったものについて、一方のタンパク鎖に 重ね合わせて示した図が図 48—図 59である。黒いタンパク質分子が正解構造であ り、白いタンパク質分子がドッキングを行った結果出力された候補構造のうち、最も R MSD値が低かったものである。
[0138] これらを見て分力るとおり、タンパク質複合体の結合状態を精度良く予測することが できた。本実施例 4のドッキングにより、タンパク質の結合状態を正確に予測すること で、正確なタンパク質複合体の構築を行うことができた。そのことは、様々なタンパク 質複合体に対するドラッグデザインや機能解析などにおいて非常に重要な役割を果 たすものと思われる。
実施例 5
[0139] (立体構造未知のタンパク質複合体のホモロジ一モデリングの結果を最適化(SARS proteaseタィマー構造) )
本実施例 5では、まず米疾病対策センター(CDC)等により公表された SARS Pro teaseの解読されたゲノム配列から、治療薬に有効な SARSウィルスのタンパク質で ある Proteinaseの複合体の立体構造を複数鎖ホモロジ一モデリング法により予測し た結果について、その相対配置の最適化を行った。
[0140] 複数鎖ホモロジ一モデリング法による立体構造は、参照タンパク質の相対配置に依 存して、 目的タンパク質の相対配置が決定している。参照タンパク質と目的タンパク 質とアミノ酸配列の差異が、相対配置の差異に影響することが考えられており、 目的 タンパク質と参照タンパク質の相対配置が異なる可能性が高い。本実施例 5では、 目 的タンパク質の相対配置をより最適化し、安定な構造を求めることを目的とした。
[0141] 上述した実施形態の IIおよび IVに記載された方法に従って、以下で説明する手順 で、結合部位を特定し、その情報を最もよく満たす相対配置ランクを求め、データべ ース検索と水素結合の個数によるスコアを計算し、最終候補構造を決定した。
[0142] 用いた SARSウィルス Proteaseのアミノ酸配列を元にァライメントを行い、ホモロジ 一モデリング法を用いて立体構造を構築した結果を図 60に示す。
[0143] まず、上述した実施形態の IIに記載された方法に従 、、接触部位予測を行った。図 60の立体構造モデルに対して、その表面に表面グリッドを xyz座標に対して 2A間隔 で発生させた。次に、その表面グリッドすべてに対して、アミノ酸残基の種類'タンパク 質表面に現れた個数 ·接触部位に現れた個数のスコアをデータベース検索により付 けた。スコアは数式 1に従った。次に、図 60のホモロジ一モデリングの結果を初期座 標とし、相対位置変化を ± 15度に絞り、「候補構造個数を 200個」、「乱数移動範囲 を ± 5度 (ただし、 Z軸方向は 360度回転)」および「400回スコア変化が無力つた場 合に乱数移動範囲を 1度減らす」 、う条件で検索を行った。
[0144] 次に、候補構造 200個について、 ± 5度の範囲内でのクラスタリングを行った。クラ スター内の最もスコアがよいものについて、水素結合個数および上述した実施形態 の I 2のデータベース検索により数式 2を使用したスコアを計算し、数式 3のスコアで 並べ替えた。数式 3の係数 aおよび bはそれぞれ、 a = 250, b = 2500にした。結果、 最もスコアがよ力つた候補構造は、図 61に示した構造であった。
[0145] 次に、 X線結晶構造解析により実験的に求められた SARSウィルスの Protease (P DB ID : 1Q2W, Bonanno, J. B. , Fowler, R. , Gupta, S. , Hen die, J. , Lorimer, D. , Romero, R. , Sauder, M. , Wei, C. L . , Liu, E. T. , Burley, S. K. , Harris, T. : X— Ray Crystal St ructure of the Sars Coronavirus Main Protease)との比較検ih 行つた 。相対位置の検証比較は、 CA原子に対する根平均二乗平均 (RMSD値)の数値を 用いた。 RMSD値は小さいほど、 1Q2Wとの誤差力 S小さいことを示している。
[0146] ホモロジ一モデリング法により構築されたモデル構造と、実験により求められた X線 構造解析による立体構造モデル 1Q2Wを、 A鎖について重ね合わせを行った。この 重ね合わせは、 A鎖の重ねあわせによる A鎖間の RMSDが最小になるようにしたも のである。図 62において、色が濃い方は立体構造モデル 1Q2Wであり、薄い方はホ モロジ一モデリング法により構築されたモデル構造である。
[0147] 次に、 A鎖を重ね合わせた状態で B鎖間の RMSD値を求めた。結果、 RMSDは 4 . 688であった。
[0148] 同様に、立体構造モデル 1Q2Wと、相対位置の最適化を行ったモデル構造につ いても、 A鎖同士で重ねあわせを行い、 B鎖間の RMSD値を求めた。図 63において 、色が濃い方が立体構造モデル 1Q2Wであり、薄い方は最適化を行った結果のモ デル構造である。結果、 RMSDは 3. 645であった。このことから RMSDの改善が見 られている。
[0149] 以上の結果、ホモロジ一モデリング法により構築された SARSウィルスの Protease 構造を最適化することができた。
[0150] 新型肺炎である重症急性呼吸器症候群 SARSはアジアを中心とした地域で猛威を 振るつており、多くの製薬メーカーや研究所などにおいて SARSに対抗するためのヮ クチン開発や治療薬開発が進められている。本実施例 5のドッキングにより、相対配 置の最適化を行うことで、正確な Proteinaseダイマー構造の構築を行うことができる 。そのことは、 SARSのウィルスの Proteinaseに対するドラッグデザインや機能解析 などにおいて非常に重要な役割を果たすものと思われる。
実施例 6
[0151] (タンパク質複合体ホモロジ一モデリングの為のァライメントファイルの評価 その 1) 本実施例 6では、図 64に示した tissue plasminogen activatoのアミノ酸配列デ ~~タ (BAA0088丄. tissue plasminogen activator [Homo sapiens] . Ita gaki, Y. , Yasuda, H. , Morinaga, T. , Mitsuda, S. and Higashio, K . Purification and characterization of tissue plasminogen activator secreted by human embryonic lung diploid fibroolasts, IMR— 90 c ells. Agric. Biol. Chem. 55 (5) , 1225—1232 (1991) )をァライメント プログラム RPS— BLASTで PDBデータベースに対して検索し、ァライメントを作成し た。条件は「E— value≤0. 001」である。
[0152] 次に、その結果力も検出された参照タンパク質についての情報を PQSデータべ一 ス(http : ZZpqs. ebi. ac. ukZ)から調べ、ホモ(すべての鎖が同じアミノ酸配列 であること)何量体であるかの情報から、複数鎖タンパク質を表す配列ァライメントを 作成した。本実施例 6において、 BAA00881のタンパク質立体構造を構築するにあ たり、参照タンパク質のァライメント情報が 33個検出された。これらすべてについて立 体構造モデルの構築を行うには、非常に多くの計算時間と検証を必要とする。
[0153] 本実施例 6では、その組み合わせのァライメントファイルについて、生物学的に有用 であり複合体を形成すると思われるァライメントファイルを選別して順位付けするため に、上述した実施形態の VIに記載された方法に従い、評価を行った。 33個のァライ メントファイルうち、図 65と図 66にその内容の一部を一例として示した。
[0154] 本実施例 6において、それぞれのァライメントファイルに対して、まず、参照タンパク 質について、アミノ酸側鎖が異なる鎖間で接触しているものを判定し、その対応関係 を調べた。次に、その対応関係の情報から、ァライメントファイルで目的タンパク質の アミノ酸配列での同じ位置に存在するアミノ酸残基も、同様に接触しているものとし、 その対応関係を決定した。
[0155] 次に、その対応関係それぞれについて、データベース検索を行いスコアを計算した
。このときのスコアは数式 4の関数を用いて計算した。図 65に示すァライメントに対す るスコアは 7. 8253であり、参照タンパク質とのスコア比は 97. 908%であった。
[0156] 一方、図 66に示すァライメントに対するスコアは、 1. 0628であり、参照タンパク質と のスコア比は 40. 780%であった。
[0157] この 2例を比較するならば、図 65のァライメントは、図 66のァライメントと比較して、 参照タンパク質の接触部位スコアに非常に近 ヽ数値を表しており、接触部位のスコ ァが高いことから、複数鎖タンパク質のホモロジ一モデリングを行うのに適したァラィメ ントであるといえる。
[0158] 現在、様々な生物種の遺伝子の解析が行われており、そのタンパク質立体構造の 解析は近年その重要度を増して 、る。中でも複数鎖のタンパク質のホモロジーモデリ ング法は、そのタンパク質の立体構造を高速に大量に調べる上で、実験的手法 (X線 結晶解析等)に比べて、高速、簡便であり、その精度も実験結果と比較しても勝るとも 劣らな 、精度であることから非常に重要な技術となって 、る。
[0159] 本実施例 6のように、ァライメントが多数存在する場合、効率よく生物学的に重要か つ信頼性のあるァライメントを選び出す技術は、複数鎖のタンパク質立体構造解析を 効率よく行う上で非常に有効であるといえる。このことから、本発明は、タンパク質に 作用するドラッグデザインやスクリーニングといった創薬の分野で重要な役割を果た すものと思われる。
実施例 7
[0160] (タンパク質複合体ホモロジ一モデリングの為のァライメントファイルの評価 その 2) 本実施例 7では、上述した実施形態の VIに記載された方法を使用して、実際に実 験的にタンパク質複合体の相互作用の強さを求めて、あるアミノ酸配列に対して検証 を行った。実験的に相互作用の強さが求められているため、予測値との比較を行い、 その精度を検証するのが目的である。
[0161] 実験のデータは、論文「John R. S. Newman * and Amy E. Keating . Comprehensive Identification of Human bZIP Interactions with Coiled— Coil Arrays. Science. 2003 Jun 27 ; 300 (5628): 2097—10 1. Epub 2003 Jun 12.」から得た。検証方法は以下の通りである。
[0162] Stepl :検証に使用したアミノ酸配列は、上記の論文に記載されている 62個を使用 した。それらのアミノ酸配列に対してそれぞれ、ァライメントプログラム PSI— BLASTを 使用して PDBデータベースに対して検索を行い、ァライメントを作成した。プロフアイ ル作成には NRデータベースを使用した。条件は、「eialueく 0. 01」、 「homology < 20%」、「目的タンパク質アミノ酸配列の 50%以上をァライメントしている。」である。
[0163] Step2:あるアミノ酸配列 Aとあるアミノ酸配列 Bの複合体のァライメントを作成するた めに、まず、配列 Aを使用して PSI— BLASTを行った結果と配列 Bを使用して PSI— BLASTを行った結果の 2つに注目した。配列 Aの PSI— BLASTの結果において、 e valueが上位のものから順に、検出された PDB IDが配列 Bの PSI— BLASTの結 果でも現れており、かつそのタンパク質鎖の名前が異なるものであるか調べた。この 条件に適合するものがあった場合に、それらでタンパク質複合体のァライメントフアイ ルを作成し、それを A— Bと 、う組み合わせの複合体におけるァライメントとした。
[0164] Step3 : Step2と同様に、配列 Bの PSI— BLASTの結果において、 e— valueが上位 のものから順に、検出された PDB IDが配列 Aの PSI— BLASTの結果でも現れてお り、かつそのタンパク質鎖の名前が異なるものである力調べ、この条件に適合するも のがあった場合には、それらでタンパク質複合体のァライメントファイルを作成した。
[0165] Step4 :タンパク質複合体のァライメントファイルから、参照タンパク質のスコア、 目的 タンパク質のスコア、参照タンパク質のスコアを計算し、 目的タンパク質のスコアの比( %)を予測値として出力した。
[0166] Step5 : Step4で計算されたスコア比および論文に記載の相互作用の強さについて 、その相関関係を調べた。
[0167] この検証法のポイントは、実験で使用した複合体のアミノ酸配列に対して、 X線結晶 構造解析が行われている PDBの配列をァライメントすることで、実験で使用した配列 のどのアミノ酸残基力 Sタンパク質-タンパク質相互作用部位に来て、どのアミノ酸残基 と接触しているかを推測していることである。その推測を元に、 X線結晶構造解析の 構造データ(PDBファイル)のスコアよりどれほど小さくなつたの力、どれほど相互作 用が弱まったの力、を推測しているのである。以下、実験データの比較について述べ る。
[0168] 図 67は、 bZIPの実験データを、その相互作用の強さに応じて色分けした図である 。相互作用の強さのカテゴリは 7段階であり、「1 :Zスコア > 20」、「2 :Z> 10」、「3 :Z > 5」、「4 :Z> 2. 5」、「5 :Z> 1. 5」、「6 :Z< 1. 0」、「7 :no assignment」である。 Zスコアは、下記の式「Zscore」により計算される。なお、「Z> 2. 5」の場合には相互 作用ありと判定され、「Z< 1. 0」の場合には相互作用なしと判定される。
[数 45] signal - mean
ム score =
estimated standard deviation
[0169] 図 67において、縦横の項目は、配列の名称と種であり、縦と横の項目が交差して いる部分がその二つのアミノ酸配列を持つタンパク質複合体の相互作用の強さを色 で表している。例えば、縦の Aという配列と、横の Bという配列の交点にある色が黒色 だった場合、 Aのアミノ酸配列を持つタンパク質と Bのアミノ酸配列を持つタンパク質 力 非常に強い相互作用を示すということを表している。色が濃いものほど、相互作 用が強 、ものであることを示して 、る。
[0170] 同様の表示形式で、図 68は、上述した実施形態の VIに記載された方法に従って 計算されたァライメント評価のスコアについて、参照タンパク質のスコアと目的タンパ ク質のスコアの比を%で分けて、その数値の大きさに応じて色分けしたものである。 各所にデータの無い空白部分がある力 その部分のァライメントが得られな力つた場 所であるためにデータが無いのである。図 67と図 68を比較すると分かる通り、二つの 図には相関が見られることが分かる。
[0171] 次に、図 69は、ある実験値が得られている配列の組み合わせにおいて、その実験 値が得られた配列の組み合わせのうち、何%がどのような予測値をとつたかをグラフ で示した図ある。実際に予測を行う際に重要なのは、「Z> 2. 5」で相互作用あり、「Z < 1. 0」で相互作用なしという実験結果、という違いを正しく予測できるかということで ある。
[0172] 従って、これらを正しく予測するスコア比の閾値(%)を設定するために、様々な閾 値でどのように変化するかを図 70で検証した。図 70を見ると、閾値 50%では、相互 作用をしない「Z< 1. 0」の項で、その 74%がスコア比 50%未満に存在し、一方、相 互作用ありの「Z> 2. 5」の項で、その 34%がスコア比 50%未満に存在していた。つ まり、本実施例 7では、相互作用の有無を 50%の閾値で判定する予測方法が有効で あると思われる。
実施例 8
[0173] (単数鎖のタンパク質立体構造が与えられた場合の、該当タンパク質と別のタンパク 質との複合体の結合状態の評価)
実験により解析されたタンパク質の立体構造およびコンピュータプログラムにより予 測されたタンパク質の立体構造などの任意の数鎖を含むタンパク質の立体構造が与 えられた場合、基準振動計算方法や分子動力学計算方法により、当該タンパク質の 立体構造から、誘導適合を反映したゆらぎパラメータおよび構造変化を算出し、それ ら算出結果を用いて当該タンパク質と別のタンパク質が結合した複合体の立体構造 を予測した。
[0174] タンパク質複合体の立体構造出題データには、 CAPRI (Critital Assessment of PRedicted Interactions)の Target 18を用いた。 CAPRIはタンパク質の単 体立体構造力も複合体の立体構造を予測する国際コンテストで、 Target 18はその Round 5での出題である。タンパク質複合体の予測データはホームページ(http : ZZcapri. ebi. ac. uk/round5/round5. html)力らダウンロードした (現在は データのロードはできない)。このデータを用いて、 Aspergillus niger Xylanase- Triticum Aestivum Xylanase Inhibitor Iの複合体の立体構造を予測した。
[0175] Xylanase側の立体構造主題データは、 Xylanaseの 4量体の X線結晶解析データ として、 PDBに登録されて!、る (PDB ID: 1UKR)。 Xylanase側の結合部位を予測 する際、 Xylanaseは Inhibitorとの相互作用で誘導適合することが考えられる。そこ で、国際公開第 2002Z057854 (WO 2002,057854)号パンフレット(PCTZJ P2002/000286,「誘導適合を含めたタンパク質の立体構造構築方法およびその 利用」)に記載の方法を適用した。
[0176] すなわち、 Xylanaseのまわりに発生させた水分子について、タンパク質の中で MS ASの値が 30%以上のアミノ酸残基により形成される 3. 5A以内の表面に存在する 水分子をベンゼンで置換した。しかし、ベンゼン同士が 1. 5A以内になる場合は、水 分子のベンゼンへの置換は行わない。次に、 Xylanaseとベンゼンを含む系の周囲 に水分子を充分発生させ、分子力学計算による擬似水溶液中での系の最適化を 10 0ステップ行った。その計算にはタンパク質 C α原子の xyz座標に 300kcalZmolZ Aの拘束をかけた。続いて、 Xylanase単体での基準振動解析計算を行い、それら 二面体角の揺らぎデータに基づいて、 Xylanase主鎖に二面体角の拘束をかけた擬 似水溶液中での分子動力学計算を 200ps (ピコ秒)間行った。その際、二面体角の 拘束値の最大を lOOkcalZmolZRadianに設定した。計算では 10psごとのスナツ プショット、すなわち 20個の Xylanaseの立体構造が求まる力 それらスナップショット について閾値を 6 Aとしたベンゼンのクラスタリングイ匕を行い、クラスター数が最も多 V、スナップショットを Xylanase Inhibitorとの複合体を予測する構造として採用した 。また、 Xylanase Inhibitorについても Xylanaseと同じ方法で相互作用結合部位 を検索したが、 Xylanase Inhibitorの出題立体構造が Xylanaseとの複合体から得 られた X線結晶解析データであるので、 Inhibitorの xyz座標を完全に固定し、ベン ゼンだけをフリーにした擬似水溶液中での分子動力学計算を行った。
[0177] Xylanaseとベンゼンの系では、クラスタ一は楕円球と表現でき、座標の固有値問 題を解くことにより、ベンゼンクラスターの長短方向が求められる。また、 Xylanase I nhibitorとベンゼンの系でも同様である。 Xylanaseと Xylanase Inhibitorのべンゼ ンクラスターそれぞれは、直交した右手系の座標軸としてフィッティングすることがで きる。 2つの右手座標系でのフィッティングは 24通りになるので、 Xylanaseのべンゼ ンクラスター 3個と Inhibitorのクラスター 6個とのすべてのフィッティングで Xylanase -Xylanase Inhibitorの初期複合体立体構造を 432 (3 X 6 X 24)通り発生させた。 このうち、 Xylanaseと Xylanase Inhibitorの分子間衝突が少ない 20の複合体を候 補とした。
[0178] これら 20個の Xvlanase— Xylanase Inhibitor複合体予測データに対して、相互 作用部位の予測方法 (プログラム)を用いて、タンパク質双方の相対配置を変化させ
、ドッキング状態判定スコアを参考にして Xylanase— Xylanase Inhibitor複合体予 測座標データを求めた。それら立体構造予測結果と、 CAPRI Round5の締め切り 後に公開された Xylanase— Xylanase Inhibitor複合体の X線結晶解析データ(P DB ID: 1T6G)につ!/、て、 Xylanase部分(下側)を RMSフィットしたときの Xylanas e Inhibitor (上側)の立体配置の一つを図 74に示す。図 74に示すように、 Xylanas eのドッキング部位が正確に予測されていることがわかる。
産業上の利用可能性
[0179] 以上のように、本発明にかかる相互作用部位予測装置、相互作用部位予測方法、 プログラム、および記録媒体は、より真に近いタンパク質 -タンパク質複合体立体構 造を予測したり、相互作用部位を予測したりする。従って、本発明は、医農薬分子の 設計に極めて有用である。また、本発明は、タンパク質 タンパク質複合体立体構造 をについて大量にホモロジ一モデリングを行う際に、きわめて有効である。
[0180] また、本発明は、医農薬の分子設計などを中心に、生物情報の解析を行う分野 (バ ィォインフォマテイクス)において、極めて有用であると考えられる。そして、本発明は 、産業上多くの分野、特に医薬品、食品、化粧品、医療、構造解析、機能解析などの 分野で広く実施することができ、故に極めて有用である。

Claims

請求の範囲
[1] タンパク質の相互作用部位の予測を行う相互作用部位予測装置であって、
複数のタンパク質 タンパク質複合体立体構造データに対して、タンパク座標表面 の xyz座標に 1 A刻みで格子点をおき、そのそれぞれポイントから炭素の所定の半径 とタンパク質の原子半径の和力 所定の範囲に表面の原子が存在する座標である、 表面グリッドを発生させる表面グリッド点発生手段と、
上記表面グリッド発生手段にて発生させた各表面グリッドついて、他のチェーンの 表面原子半径に重なって 、る力否か判定し、接触部位グリッドを選択する接触部位 グリッド選択手段と、
アミノ酸残基のパターン毎に、上記表面グリッドとしてカウントされた個数と、上記接 触部位グリッド選択手段にて上記接触グリッドとしてカウントされた個数とを対応付け て格納した接触部位グリッドデータベースを作成する接触部位グリッドデータベース 作成手段と、
相互作用部位予測の対象となる対象タンパク質構造データに対して、上記表面ダリ ッドを発生させる対象タンパク質表面グリッド発生手段と、
上記対象タンパク質表面グリッド発生手段にて発生させた上記対象タンパク質の各 表面グリッドにつ 、て、上記接触部位グリッドデータベースを参照して接触判定スコ ァを求め、当該接触判定スコアに基づいて上記対象タンパク質の相互作用部位を予 測する相互作用部位予測手段と、
を備えたことを特徴とする相互作用部位予測装置。
[2] 請求項 1に記載の相互作用部位予測装置にお!、て、
上記相互作用部位予測手段は、以下の数式 1を用いて、上記接触判定スコアを求 め、当該接触判定スコアに基づいて上記対象タンパク質の相互作用部位を予測する こと、
[数 1]
Figure imgf000063_0001
(数式 1 )
(数式 1において、 iは、注目する接触アミノ残基パターンである。 C;は、パターン iに対 するデータベース内での表面グリッド数であり、 Conは接触部位でのパターン iのカウ ント数であり、その差である(Ci—Con)の数値は、非接触部位でのカウント数である。 )
を特徴とする相互作用部位予測装置。
[3] 請求項 1または請求項 2に記載の相互作用部位予測装置にぉ 、て、
上記相互作用部位予測手段にて予測された上記相互作用部位に対応する上記表 面グリッドに対して、上記対象タンパク質と結合する結合タンパク質の接触部位にくる ようなドッキング状態を探索するドッキング状態探索手段、
をさらに備えたことを特徴とする相互作用部位予測装置。
[4] 請求項 3に記載の相互作用部位予測装置にお 、て、
上記ドッキング状態探索手段は、
複数のタンパク質 -タンパク質複合体立体構造データ対して、各タンパク質 -タンパ ク質複合体の異なるチェーン間で接触して 、るアミノ酸残基対にっ 、て、相対配置 座標データを求め、接触相対配置座標データベースを作成する接触相対配置座標 データベース作成手段と、 上記接触相対配置座標データベース作成手段にて作成された上記接触相対配置 座標データベースに登録された各相対配置座標データの任意の原子間の距離分布 を求め、距離分布データベースを作成する距離分布データベース作成手段と、 上記距離分布データベース作成手段にて作成された上記距離分布データベース を用いて、ドッキング状態判定スコアを求めることにより、ドッキング状態を探索するド ッキングスコア判定手段と、
をさらに備えたことを特徴とする相互作用部位予測装置。
[5] 請求項 4に記載の相互作用部位予測装置にお 、て、
上記ドッキングスコア判定手段は、以下の数式 2に基づいて、上記ドッキング状態 判定スコアを求めることにより、ドッキング状態を探索すること、
[数 2]
Count,
,j- ' ≥ 0.05のとき
SCO j
Figure imgf000064_0001
Figure imgf000064_0002
= Sum^: : く 0.05のとき
SCO. , = 0
J ' ' · (数式 2 )
(数式 2において、
[数 3]
Count i :接触面における ί & _ /の組み合わせが距離 Jに現れた個数 [数 4]
Sum, County:接触面における !· & の組み合わせの総数
[数 5]
Total ( = Υ &/77^:接触面に来たの個数 である。 )
を特徴とする相互作用部位予測装置。
[6] 請求項 5に記載の相互作用部位予測装置にお 、て、
上記ドッキング状態探索手段は、
上記対象タンパク質と上記結合タンパク質の相対位置を変化させることにより、最適 化された上記ドッキング状態を探索する相対位置変化手段、
をさらに備えたことを特徴とする相互作用部位予測装置。
[7] タンパク質の相互作用部位の予測を行う相互作用部位予測方法であって、
複数のタンパク質 タンパク質複合体立体構造データに対して、タンパク座標表面 の xyz座標に 1 A刻みで格子点をおき、そのそれぞれポイントから炭素の所定の半径 とタンパク質の原子半径の和力 所定の範囲に表面の原子が存在する座標である、 表面グリッドを発生させる表面グリッド点発生ステップと、
上記表面グリッド発生ステップにて発生させた各表面グリッドつ 、て、他のチェーン の表面原子半径に重なって ヽるカゝ否カゝ判定し、接触部位グリッドを選択する接触部 位グリッド選択ステップと、
アミノ酸残基のパターン毎に、上記表面グリッドとしてカウントされた個数と、上記接 触部位グリッド選択ステップにて上記接触グリッドとしてカウントされた個数とを対応付 けて格納した接触部位グリッドデータベースを作成する接触部位グリッドデータべ一 ス作成ステップと、
相互作用部位予測の対象となる対象タンパク質構造データに対して、上記表面ダリ ッドを発生させる対象タンパク質表面グリッド発生ステップと、
上記対象タンパク質表面グリッド発生ステップにて発生させた上記対象タンパク質 の各表面グリッドにつ 、て、上記接触部位グリッドデータベースを参照して接触判定 スコアを求め、当該接触判定スコアに基づいて上記対象タンパク質の相互作用部位 を予測する相互作用部位予測ステップと、
を含むことを特徴とする相互作用部位予測方法。
[8] 請求項 7に記載の相互作用部位予測方法にお 、て、
上記相互作用部位予測ステップは、以下の数式 1を用いて、上記接触判定スコア を求め、当該接触判定スコアに基づいて上記対象タンパク質の相互作用部位を予測 すること、
[数 6]
Sco. 二
Figure imgf000066_0001
(数式 l )
(数式 1において、 iは、注目する接触アミノ残基パターンである。 C;は、パターン iに対 するデータベース内での表面グリッド数であり、 Conは接触部位でのパターン iのカウ ント数であり、その差である(Ci—Con)の数値は、非接触部位でのカウント数である。 )
を特徴とする相互作用部位予測方法。
[9] 請求項 7または請求項 8に記載の相互作用部位予測方法にお 、て、
上記相互作用部位予測ステップにて予測された上記相互作用部位に対応する上 記表面グリッドに対して、上記対象タンパク質と結合する結合タンパク質の接触部位 にくるようなドッキング状態を探索するドッキング状態探索ステップ、
をさらに含むことを特徴とする相互作用部位予測方法。
[10] 請求項 9に記載の相互作用部位予測方法にぉ 、て、
上記ドッキング状態探索ステップは、
複数のタンパク質 -タンパク質複合体立体構造データ対して、各タンパク質 -タンパ ク質複合体の異なるチェーン間で接触して 、るアミノ酸残基対にっ 、て、相対配置 座標データを求め、接触相対配置座標データベースを作成する接触相対配置座標 データベース作成ステップと、 上記接触相対配置座標データベース作成ステップにて作成された上記接触相対 配置座標データベースに登録された各相対配置座標データの任意の原子間の距離 分布を求め、距離分布データベースを作成する距離分布データベース作成ステップ と、
上記距離分布データベース作成ステップにて作成された上記距離分布データべ一 スを用いて、ドッキング状態判定スコアを求めることにより、ドッキング状態を探索する ドッキングスコァ判定ステップと、
をさらに含むことを特徴とする相互作用部位予測方法。
[11] 請求項 10に記載の相互作用部位予測方法において、
上記ドッキングスコア判定ステップは、以下の数式 2に基づいて、上記ドッキング状 態判定スコアを求めることにより、ドッキング状態を探索すること、
[数 7] し OWlt :
Sum; > 0.05のとき f ヽ
Sum;
5CO,y = -log
T Total n
V
Figure imgf000067_0001
ノ um < 0.05のとき
i:,J
SCO, . = 0
J . . . (数式 2 )
(数式 2において、
[数 8]
County:接触面における z' &ゾの組み合わせが距離 に現れた個数 [数 9]
Sum^ = Y Count, j d:接触面における! ' &ゾの組み合わせの総数 [数 10]
Total i = &i ( :接触面に来た/の個数 である。 )
を特徴とする相互作用部位予測方法。
[12] 請求項 11に記載の相互作用部位予測方法にぉ 、て、
上記ドッキング状態探索ステップは、
上記対象タンパク質と上記結合タンパク質の相対位置を変化させることにより、最適 ィ匕された上記ドッキング状態を探索する相対位置変化ステップ、
をさらに含むことを特徴とする相互作用部位予測方法。
[13] タンパク質の相互作用部位の予測を行う相互作用部位予測方法をコンピュータに 実行させるプログラムであって、
複数のタンパク質 タンパク質複合体立体構造データに対して、タンパク座標表面 の xyz座標に 1 A刻みで格子点をおき、そのそれぞれポイントから炭素の所定の半径 とタンパク質の原子半径の和力 所定の範囲に表面の原子が存在する座標である、 表面グリッドを発生させる表面グリッド点発生ステップと、
上記表面グリッド発生ステップにて発生させた各表面グリッドつ 、て、他のチェーン の表面原子半径に重なって ヽるカゝ否カゝ判定し、接触部位グリッドを選択する接触部 位グリッド選択ステップと、
アミノ酸残基のパターン毎に、上記表面グリッドとしてカウントされた個数と、上記接 触部位グリッド選択ステップにて上記接触グリッドとしてカウントされた個数とを対応付 けて格納した接触部位グリッドデータベースを作成する接触部位グリッドデータべ一 ス作成ステップと、
相互作用部位予測の対象となる対象タンパク質構造データに対して、上記表面ダリ ッドを発生させる対象タンパク質表面グリッド発生ステップと、
上記対象タンパク質表面グリッド発生ステップにて発生させた上記対象タンパク質 の各表面グリッドにつ 、て、上記接触部位グリッドデータベースを参照して接触判定 スコアを求め、当該接触判定スコアに基づいて上記対象タンパク質の相互作用部位 を予測する相互作用部位予測ステップと、
を含む相互作用部位予測方法をコンピュータに実行させることを特徴とするプログ ラム。
[14] 請求項 13に記載のプログラムにおいて、
上記相互作用部位予測ステップは、以下の数式 1を用いて、上記接触判定スコア を求め、当該接触判定スコアに基づいて上記対象タンパク質の相互作用部位を予測 すること、
[数 11]
Sco. -
Figure imgf000069_0001
(数式 1 )
(数式 1において、 iは、注目する接触アミノ残基パターンである。 Cは、パターン iに対 するデータベース内での表面グリッド数であり、 Conは接触部位でのパターン iのカウ ント数であり、その差である(C -Con)の数値は、非接触部位でのカウント数である。 )
を特徴とするプログラム。
[15] 請求項 13または請求項 14に記載のプログラムにおいて、
上記相互作用部位予測ステップにて予測された上記相互作用部位に対応する上 記表面グリッドに対して、上記対象タンパク質と結合する結合タンパク質の接触部位 にくるようなドッキング状態を探索するドッキング状態探索ステップ、
をさらに含むことを特徴とするプログラム。
[16] 請求項 15に記載のプログラムにおいて、
上記ドッキング状態探索ステップは、 複数のタンパク質 -タンパク質複合体立体構造データ対して、各タンパク質 -タンパ ク質複合体の異なるチェーン間で接触して 、るアミノ酸残基対にっ 、て、相対配置 座標データを求め、接触相対配置座標データベースを作成する接触相対配置座標 データベース作成ステップと、 上記接触相対配置座標データベース作成ステップにて作成された上記接触相対 配置座標データベースに登録された各相対配置座標データの任意の原子間の距離 分布を求め、距離分布データベースを作成する距離分布データベース作成ステップ と、
上記距離分布データベース作成ステップにて作成された上記距離分布データべ一 スを用いて、ドッキング状態判定スコアを求めることにより、ドッキング状態を探索する ドッキングスコァ判定ステップと、
をさらに含むことを特徴とするプログラム。
請求項 16に記載のプログラムにおいて、
上記ドッキングスコア判定ステップは、以下の数式 2に基づいて、上記ドッキング状 態判定スコアを求めることにより、ドッキング状態を探索すること、
[数 12]
Figure imgf000070_0001
05のとき
Figure imgf000070_0002
(数式 2 )
(数式 2において、 [数 13]
Count , j d:接触面における &ゾの組み合わせが距離^に現れた個数 [数 14]
Sum. , t,..! d:接触面における! · &ゾの組み合わせの総数 [数 15]
Total t 0,"" :接触面に来た fの個数 である。 )
を特徴とするプログラム。
[18] 請求項 17に記載のプログラムにおいて、
上記ドッキング状態探索ステップは、
上記対象タンパク質と上記結合タンパク質の相対位置を変化させることにより、最適 ィ匕された上記ドッキング状態を探索する相対位置変化ステップ、
をさらに含むことを特徴とするプログラム。
[19] 請求項 13から 18のいずれ力 1つに記載のプログラムを記録したことを特徴とするコ ンピュータ読み取り可能な記録媒体。
PCT/JP2005/003047 2004-02-24 2005-02-24 相互作用部位予測装置、相互作用部位予測方法、プログラム、および記録媒体 WO2005081166A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006510313A JP4751822B2 (ja) 2004-02-24 2005-02-24 相互作用部位予測装置、相互作用部位予測方法、プログラム、および記録媒体

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004048768 2004-02-24
JP2004-048768 2004-02-24

Publications (1)

Publication Number Publication Date
WO2005081166A1 true WO2005081166A1 (ja) 2005-09-01

Family

ID=34879524

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/003047 WO2005081166A1 (ja) 2004-02-24 2005-02-24 相互作用部位予測装置、相互作用部位予測方法、プログラム、および記録媒体

Country Status (2)

Country Link
JP (1) JP4751822B2 (ja)
WO (1) WO2005081166A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007299125A (ja) * 2006-04-28 2007-11-15 Kazunori Tsuji 生体高分子における相互作用部位の予測方法
WO2008062906A1 (fr) * 2006-11-22 2008-05-29 In-Silico Sciences, Inc. Système, procédé et programme de traitement de structure tridimensionnelle à protéine
JP2008135019A (ja) * 2006-10-26 2008-06-12 National Institute Of Agrobiological Sciences タンパク質複合体の会合領域の空間を評価する方法およびプログラムならびに解析装置
WO2011117933A1 (ja) * 2010-03-24 2011-09-29 パナソニック株式会社 相互作用力変化予測装置および相互作用力変化予測方法
JP2020091518A (ja) * 2018-12-03 2020-06-11 富士通株式会社 環状分子の構造探索方法、及び構造探索装置、並びにプログラム
JP7547799B2 (ja) 2020-06-05 2024-09-10 富士通株式会社 構造探索方法、構造探索装置、構造探索用プログラム、及び相互作用ポテンシャル特定方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
KAMIYA K. ET AL: "Algorithm for Normal Mode Analysis with General Internal Coordinates.", JOURNAL OF COMPUTATIONAL CHEMISTRY., vol. 24, 2003, pages 826 - 841, XP002989492 *
KOMATSU K. ET AL: "Evaluation of the Third Solvent Clusters Fitting Procedure for the Prediction of Protein-Protein Interactions Based on the Results at the CAPRI Blind Docking Study.", PROTEINS: STRUCTURE, FUNCTION, AND GENETICS., vol. 52, 2003, pages 15 - 18, XP002989493 *
ROCCHIA W. ET AL: "Rapid Grid-Based Construction of the Molecular Surface and the Use of Induced Surface Charge to Calculate Reaction Field Energies: Applications to the Molecular Systems and Geometric Objects.", JOURNAL OF COMPUTATIONAL CHEMISTRY., vol. 23, 2002, pages 128 - 137, XP002989490 *
WANG H. ET AL: "Grid-Search Molecular Accesible Surface Algorithm for Solving the Protein Docking Problem.", JOURNAL OF COMPUATTIONAL CHEMISTRY., vol. 12, no. 6, 1991, pages 746 - 750, XP002989489 *
YAMAGUCHI A. ET AL: "Enlarged FAMSBASE: protein 3D structure models of genome sequences for 41 species.", NUCLEIC ACIDS RESEARCH., vol. 31, no. 1, 2003, pages 463 - 468, XP002989491 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007299125A (ja) * 2006-04-28 2007-11-15 Kazunori Tsuji 生体高分子における相互作用部位の予測方法
JP2008135019A (ja) * 2006-10-26 2008-06-12 National Institute Of Agrobiological Sciences タンパク質複合体の会合領域の空間を評価する方法およびプログラムならびに解析装置
WO2008062906A1 (fr) * 2006-11-22 2008-05-29 In-Silico Sciences, Inc. Système, procédé et programme de traitement de structure tridimensionnelle à protéine
JPWO2008062906A1 (ja) * 2006-11-22 2010-03-04 株式会社インシリコサイエンス タンパク質立体構造処理装置、タンパク質立体構造処理方法、および、プログラム
JP4643713B2 (ja) * 2006-11-22 2011-03-02 株式会社インシリコサイエンス タンパク質立体構造処理装置、タンパク質立体構造処理方法、および、プログラム
WO2011117933A1 (ja) * 2010-03-24 2011-09-29 パナソニック株式会社 相互作用力変化予測装置および相互作用力変化予測方法
CN102272762A (zh) * 2010-03-24 2011-12-07 松下电器产业株式会社 相互作用力变化预测装置和相互作用力变化预测方法
CN102272762B (zh) * 2010-03-24 2015-11-25 松下知识产权经营株式会社 相互作用力变化预测装置和相互作用力变化预测方法
JP2020091518A (ja) * 2018-12-03 2020-06-11 富士通株式会社 環状分子の構造探索方法、及び構造探索装置、並びにプログラム
JP7176381B2 (ja) 2018-12-03 2022-11-22 富士通株式会社 環状分子の構造探索方法、及び構造探索装置、並びにプログラム
JP7547799B2 (ja) 2020-06-05 2024-09-10 富士通株式会社 構造探索方法、構造探索装置、構造探索用プログラム、及び相互作用ポテンシャル特定方法

Also Published As

Publication number Publication date
JP4751822B2 (ja) 2011-08-17
JPWO2005081166A1 (ja) 2007-10-25

Similar Documents

Publication Publication Date Title
Lee et al. Ab initio protein structure prediction
Gao et al. Incorporation of solvent effect into multi-objective evolutionary algorithm for improved protein structure prediction
Wallner et al. Can correct protein models be identified?
Yaseen et al. Context-based features enhance protein secondary structure prediction accuracy
Kihara et al. Quality assessment of protein structure models
Singh et al. SPRINGS: prediction of protein-protein interaction sites using artificial neural networks
Fiser Protein structure modeling in the proteomics era
US20130304432A1 (en) Methods and apparatus for predicting protein structure
Faure et al. Protein contacts, inter-residue interactions and side-chain modelling
Qu et al. A guide to template based structure prediction
Rata et al. Backbone statistical potential from local sequence-structure interactions in protein loops
WO2005081166A1 (ja) 相互作用部位予測装置、相互作用部位予測方法、プログラム、および記録媒体
R Joshi et al. Characteristic peptides of protein secondary structural motifs
US20130303383A1 (en) Methods and apparatus for predicting protein structure
Fujitsuka et al. SimFold energy function for de novo protein structure prediction: consensus with Rosetta
McAllister et al. An improved hybrid global optimization method for protein tertiary structure prediction
Shatnawi Review of recent protein-protein interaction techniques
Schafroth et al. Predicting peptide binding to MHC pockets via molecular modeling, implicit solvation, and global optimization
WO2008091225A1 (en) Comparative detection of structure patterns in interaction sites of molecules
JP4314206B2 (ja) リガンド探索装置、リガンド探索方法、プログラム、および記録媒体
Chen et al. Estimating quality of template‐based protein models by alignment stability
Guo et al. A historical perspective of template-based protein structure prediction
Suresh et al. A protein block based fold recognition method for the annotation of twilight zone sequences
Kim et al. Detecting local residue environment similarity for recognizing near‐native structure models
Gao et al. A database assisted protein structure prediction method via a swarm intelligence algorithm

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006510313

Country of ref document: JP

122 Ep: pct application non-entry in european phase