WO2003056461A1 - Dispositif de prediction de structure proteique, procede de prediction de structure proteique, programme et support d'enregistrement associes - Google Patents

Dispositif de prediction de structure proteique, procede de prediction de structure proteique, programme et support d'enregistrement associes Download PDF

Info

Publication number
WO2003056461A1
WO2003056461A1 PCT/JP2002/013832 JP0213832W WO03056461A1 WO 2003056461 A1 WO2003056461 A1 WO 2003056461A1 JP 0213832 W JP0213832 W JP 0213832W WO 03056461 A1 WO03056461 A1 WO 03056461A1
Authority
WO
WIPO (PCT)
Prior art keywords
fragment
sequence
matrix
cluster
query
Prior art date
Application number
PCT/JP2002/013832
Other languages
English (en)
French (fr)
Inventor
Seiji Saito
Original Assignee
Celestar Lexico-Sciences, Inc.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Celestar Lexico-Sciences, Inc. filed Critical Celestar Lexico-Sciences, Inc.
Priority to EP02792060A priority Critical patent/EP1460559A4/en
Publication of WO2003056461A1 publication Critical patent/WO2003056461A1/ja
Priority to US10/846,622 priority patent/US20050026217A1/en

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Definitions

  • the present invention relates to a protein structure prediction device, a protein structure prediction method, a program, and a recording medium, and in particular, to a protein structure prediction device, a protein structure prediction method, a program, which predicts a three-dimensional structure of a protein based on a sequence-structure correlation. And a recording medium.
  • the three-dimensional structure of a protein is uniquely determined from sequence information.
  • comparing the size of the array space and the structure space (native structure space) it can be said that the array space is larger. This is because, from an evolutionary perspective, even if the sequence changes slightly, the structure does not seem to change much. In other words, the structure is evolutionarily more conservative than the sequence.
  • Literature 1 states that the local structure is restricted to a specific biased structure by the local sequence, so that the structural space is reduced, that the structure is similar to the structure of a protein close in sequence, It discloses that a profile of a sequence is obtained by multiple alignment, and a short distance from a query sequence is obtained.
  • Reference 2 also shows that if there is a correlation between the fragment structure and sequence, a limited number of structure candidates can be extracted from the fragment sequence tendency, and the structure is clustered using two structural indices.
  • the sequence is calculated using the distance of frequencyprofi 1 e.Cluster creation is actually performed by searching for similar structures and searching for those with similar structures. It is disclosed to create a cluster of one structural fragment.
  • FIG. 1 is a diagram showing an example of a case where an array is represented by a profile according to the conventional technology
  • FIG. 2 is a diagram showing an image of creating a structural cluster according to the conventional technology.
  • the array is represented by a profile.
  • a profile is created by setting “1” to the amino acid corresponding to the sequence (AGGED).
  • AGGED amino acid corresponding to the sequence
  • Fig. 1 (b) a profile of this cluster is created as shown in Fig. 1 (b). That is, a profile is created by setting the frequency of amino acids present at a certain position with respect to a sequence belonging to a cluster.
  • clustering is performed in the sequence space (FIG. 2 (a)) so that similar sequences have the same cluster (1 to 5 in FIG. 2 (a)). That is, by calculating the similarity of the sequence profile and calculating the similarity of the entire sequence, an isotropic cluster is created.
  • the present invention provides a protein structure predicting apparatus, a protein structure predicting method, and a method for calculating a partial structure correlation from a partial sequence so as to be able to represent a complex variety of correlation and the confidence of the correlation. It aims to provide programs and recording media. Disclosure of the invention
  • the protein structure prediction apparatus creates a fragment sequence obtained by dividing sequence information into a predetermined length and a fragment structure corresponding to the fragment sequence based on the sequence information and three-dimensional structure information of the protein.
  • a fragment structure cluster creating means for creating a fragment structure cluster based on the degree of similarity; a fragment sequence similarity search means for performing a sequence similarity search on the fragment sequence with the surrounding fragment sequences in the sequence space; and the fragment sequence
  • a confidence matrix creating means for creating a confidence matrix that displays a confidence that is a probability that the similar sequence of the above belongs to the fragment structure cluster as a matrix of the fragment sequence and the structure cluster;
  • a query sequence input unit to be input, and the query sequence input by the query sequence input unit is divided into predetermined lengths.
  • Query fragment sequence creating means for creating a combined fragment sequence
  • query fragment sequence similarity searching means for performing a sequence similarity search with the fragment sequence for the query fragment sequence created by the query fragment sequence creating means
  • Fragment structure probability for calculating the probability that the query fragment sequence belongs to the fragment structure cluster based on the certainty matrix created by the certainty matrix creation means and the search result of the query fragment sequence similarity search means
  • a fragment sequence structure predicting means for predicting the fragment structure of the query sequence based on the probability calculated by the fragment structure probability calculating means.
  • a fragment sequence obtained by dividing sequence information into a predetermined length and a fragment structure corresponding thereto are created based on the sequence information and three-dimensional structure information of the protein, and based on the similarity between the fragment structures.
  • a fragment structure cluster is created by performing a sequence similarity search on the fragment sequence with the surrounding fragment sequences in the sequence space. Create a confidence matrix that displays the confidence that is the probability that belongs to the fragment structure cluster as a matrix of the fragment sequence and the structure cluster. Then, the user inputs a query sequence, divides the input query sequence into predetermined lengths to create a query fragment sequence, and performs a sequence similarity search with the fragment sequence for the created query fragment sequence.
  • the probability that the query fragment sequence belongs to the fragment structure cluster is calculated based on the created confidence matrix and the search results, and the fragment structure of the query sequence is predicted based on the calculated probability. It is possible to calculate the correlation of the substructure from the subsequence and predict the substructure so that various manifolds and the certainty of the correlation can be expressed. That is, according to the present invention, when calculating a structure, the probabilities (confidence) of a plurality of structure candidates are given and given according to the degree of correlation (a function of the confidence is used as the probability of structural change). Can be.
  • the present apparatus first forms a cluster of partial structures and takes into account the complex shape of the structure sequence correlation polymorphism and queries ( query)
  • a sequence correlation cluster can be created dynamically after an array is given.
  • the system creates structural clusters from different viewpoints (eg, fragment sequence length, fragment structure resolution, structural cluster size, degree of correlation, etc.) It becomes possible to calculate the structure by integrating the structure prediction results.
  • viewpoints eg, fragment sequence length, fragment structure resolution, structural cluster size, degree of correlation, etc.
  • the protein structure predicting apparatus is the protein structure predicting apparatus according to the above, wherein the similarity search result is obtained by performing a similarity search on the fragment sequence by the fragment sequence similarity search means in the form of a fragment sequence matrix.
  • a similarity matrix creating means, and a structural cluster information matrix displayed by the fragment sequence and the matrix of the structural clusters showing structural cluster information indicating which fragment structural cluster the fragment sequence belongs to
  • the information processing apparatus further comprises: a structure cluster to be created and an information matrix creating means, wherein the certainty matrix creating means comprises: the similarity matrix created by the similarity matrix creating means;
  • the method is characterized in that the certainty matrix is created based on the structural cluster information matrix created by the raster information matrix creating means. This more specifically shows an example of creating the certainty matrix.
  • a similarity matrix creating means for creating a similarity matrix represented by a matrix of fragment sequences based on the similarity search result of the fragment sequences, and a fragment structure cluster to which the fragment sequences belong Since the structural cluster information shown is represented by a fragment array and a matrix of structural clusters, a structural cluster one information matrix is created, and a confidence matrix is created based on the created similarity matrix and structural cluster information matrix. Using the calculation method, the certainty factor can be easily and precisely calculated based on the similarity search result.
  • the protein structure predicting apparatus is the protein structure predicting apparatus according to the above, wherein the whole structure optimization that performs a predetermined optimization on the initial whole structure determined by the fragment structure having the maximum certainty factor. Characterized by further comprising a conversion means. According to this device, a predetermined optimization is performed on the initial overall structure determined by the fragment structure having the maximum certainty factor. First, when the initial structure is created, it is divided into various possible fragment sequences and Will be able to integrate the best prediction results. Further, by further optimizing the initial structure, the accuracy of the overall structure prediction can be further improved.
  • the present invention relates to a method for predicting protein structure, and a method for predicting protein structure according to the present invention relates to a method for predicting a protein structure, comprising the steps of: A fragment structure corresponding to the fragment structure, and a fragment structure cluster creating step of creating a fragment structure cluster based on the similarity of the fragment structure; and the fragment sequence and sequence around the fragment sequence in the sequence space.
  • Confidence matrix creation step for creating a query sequence, and query sequence input step for the user to enter a query sequence A query fragment sequence creating step of dividing the query sequence input in the query sequence input step into a predetermined length to create a query fragment sequence; and the query created in the query fragment sequence creating step.
  • a query fragment sequence similarity search step for performing a sequence similarity search with the fragment sequence, the certainty matrix created in the certainty matrix creation step, and a query fragment sequence similarity search step
  • a fragment sequence structure predicting step of predicting the fragment structure based on the sequence information and three-dimensional structure information of the protein, a fragment sequence obtained by dividing the sequence information into a predetermined length and a fragment structure corresponding to the fragment sequence are created, and based on the similarity between the fragment structures.
  • a fragment structure cluster is created by performing a sequence similarity search on the fragment sequence with the surrounding fragment sequences in the sequence space, and the confidence that the probability that the similar sequence of the fragment sequence belongs to the fragment structure cluster is calculated using the fragment sequence and the structure.
  • the user inputs a query sequence, divides the input query sequence into predetermined lengths to create a query fragment sequence, and performs a sequence similarity search with the fragment sequence for the created query fragment sequence.
  • the probability that the query fragment sequence belongs to the fragment structure cluster is calculated based on the created confidence matrix and the search result, and the fragment structure of the query sequence is predicted based on the calculated probability.
  • the correlation of the substructure from the subsequence and predict the substructure so that various manifolds and the certainty of the correlation can be expressed. That is, according to the present invention, when calculating the structure, the probabilities (confidence) of a plurality of structure candidates are given and given according to the degree of correlation (function of the confidence is used as the probability of structural change). it can.
  • this method first creates a cluster of partial structures, takes into account the complex shape of the structural sequence correlation polymorphism, and queries ( query) dynamically after an array is given Sequence correlation clusters can be created.
  • the method also creates structural clusters from different perspectives (eg, fragment sequence length, fragment structure resolution, structural cluster size, degree of correlation, etc.) and shoes. It will be possible to calculate the structure by integrating the prediction results.
  • the protein structure predicting method according to the next invention is the protein structure predicting method according to the above, wherein the similarity search is performed on the fragment sequence in the fragment sequence similarity search step, and the similarity is represented by a matrix of fragment sequences.
  • the method further includes a structure cluster information matrix creation step of creating a matrix, wherein the confidence matrix creation step includes the similarity matrix created in the similarity matrix creation step and the structure cluster information matrix creation step.
  • the created structure class Based on the terpolymer information matrix, characterized in that to create the confidence the matrix.
  • the similarity search is performed on the fragment sequences, and a similarity matrix creating step of creating a similarity matrix represented by a matrix of fragment sequences, and determining which fragment structure cluster the fragment sequence belongs to,
  • a structural cluster-information matrix is created by displaying the structural cluster information shown in the form of a fragment array and a matrix of structural clusters.
  • the confidence matrix is calculated. Since it is created, it is possible to easily and precisely calculate the certainty factor based on the similarity search result using a matrix operation method.
  • the protein structure prediction method according to the next invention is the protein structure prediction method according to the above, wherein the entire structure optimization is performed by performing a predetermined optimization on the initial overall structure determined by the fragment structure having the maximum confidence. Characterized in that the method further comprises a You.
  • a predetermined optimization is performed on the initial overall structure determined by the fragment structure having the maximum certainty.
  • the initial structure is divided into various possible fragment sequences. Will be able to integrate the best prediction results. Further, by further optimizing the initial structure, the accuracy of the overall structure prediction can be further improved.
  • the present invention also relates to a program.
  • the program according to the present invention comprises a fragment sequence obtained by dividing sequence information into a predetermined length based on protein sequence information and three-dimensional structure information, and a fragment structure corresponding thereto.
  • Gender search step and a certainty matrix that creates a certainty matrix that displays the certainty factor indicating the probability that the similar sequence of the fragment sequence belongs to the fragment structure cluster in a matrix of the fragment sequence and the first structural cluster
  • a creating step a query sequence input step for allowing a user to input a query sequence, and the above query sequence input step.
  • a query fragment array creating step for creating the query fragment array by dividing the query sequence input in the step into a predetermined length; and for the query fragment sequence created in the query fragment array creating step, A query fragment sequence similarity search step for performing a sequence similarity search with the fragment sequence, the certainty matrix created in the certainty matrix creation step, and a search result of the query fragment sequence similarity search step
  • a fragment structure probability calculating step of calculating a probability that the query fragment sequence belongs to the fragment structure cluster based on the above, based on the probability calculated in the fragment structure probability calculating step, Causing the computer to execute a protein structure prediction program including a fragment sequence structure prediction step for predicting a fragment structure. It is characterized in.
  • a fragment sequence obtained by dividing the sequence information into a predetermined length and a fragment structure corresponding thereto are created, A fragment structure cluster is created based on the similarity of the fragment structure, a sequence similarity search is performed with respect to the fragment sequence in the sequence space with respect to the fragment sequence, and the similarity of the fragment sequence belongs to the fragment structure cluster with a probability.
  • the probability that the query fragment sequence belongs to the fragment structure cluster is calculated based on the created confidence matrix and the search result, and the fragment structure of the query sequence is predicted based on the calculated probability. It is possible to calculate the correlation of substructures from subsequences and predict the substructures so that complex manifolds and the certainty of correlations can be expressed. That is, according to the present invention, when calculating a structure, the probabilities (confidence) of a plurality of structure candidates are given and given according to the degree of correlation (a function of the confidence is used as the probability of structural change). it can.
  • this program first creates a cluster of partial structures and takes into account the complex shape of the structural sequence correlated manifold. ) After the sequence is given, a sequence correlation cluster can be created dynamically.
  • the program also creates a number of structural clusters from different perspectives (eg, fragment sequence length, fragment structure resolution, structural cluster size, degree of correlation, etc.), and the structure prediction results from each data set Can be integrated to calculate the structure.
  • perspectives eg, fragment sequence length, fragment structure resolution, structural cluster size, degree of correlation, etc.
  • a program according to the next invention is the program according to the above, wherein a similarity matrix is created by displaying a result of similarity search on the fragment sequence in the fragment sequence similarity search step as a matrix of fragment sequences.
  • Structural cluster information for creating a structural cluster information matrix in which the property matrix creating step and structural cluster information indicating which fragment structural cluster the fragment sequence belongs to are displayed in a matrix of the fragment sequence and the structural cluster.
  • Matrix work And the similarity matrix created in the similarity matrix creation step; and the structure cluster one information matrix created in the structure cluster one information matrix creation step. It is characterized in that the certainty matrix is created based on
  • the program according to the next invention is the program according to the above, further comprising an overall structure optimization step of performing a predetermined optimization on the initial overall structure determined by the fragment structure having the maximum confidence.
  • a predetermined optimization is performed on the initial overall structure determined by the fragment structure having the maximum certainty.
  • the initial structure is created, it is divided into various possible fragment sequences. It will be possible to integrate those optimal prediction results. Further, by further optimizing the initial structure, the accuracy of the overall structure prediction can be further improved.
  • the present invention relates to a recording medium, and the recording medium according to the present invention is characterized by recording the program described above.
  • the program described above can be realized using a computer by causing a computer to read and execute the program recorded on the recording medium. Similar effects can be obtained.
  • FIG. 1 is a diagram showing an example of a case where an array is represented by a profile according to the prior art
  • FIG. 2 is a diagram showing a structural cluster one creation image according to the prior art
  • FIG. FIG. 4 is a conceptual diagram showing a basic principle
  • FIG. 4 is a block diagram showing an example of a configuration of the present system to which the present invention is applied
  • FIG. 5 is a fragment structure prediction of the present system in the present embodiment.
  • FIG. 6 is a flowchart showing an example of the processing.
  • FIG. 6 shows an example in which the fragment structure cluster creating unit 102a acquires a fragment sequence and its corresponding fragment structure from the protein structure database 106a.
  • FIG. 7 is a diagram showing an example of a fragment structure cluster of the fragment sequence created by the fragment structure cluster creating section 102a
  • FIG. 8 is a diagram showing a hierarchical cluster method using the hierarchical cluster method.
  • Fragment structural cluster FIG. 9 is a diagram showing an example of the case of creating a fragment sequence.
  • FIG. 9 shows fragment sequence A, similar fragment sequences (D, F, G, S, I, etc.) and similarity score (50, 30). , 28, 25, 20 etc.) and a fragment structure cluster ( ⁇ , HI, J3, ⁇ , ⁇ , etc.) to which the fragment sequence belongs are searched.
  • FIG. 11 is a diagram illustrating an example of information stored in a similarity matrix 106 b.
  • FIG. 11 is a diagram illustrating an example of information stored in a structure cluster information matrix 106 c.
  • Figure 2 is a conceptual diagram showing that the confidence matrix creation unit 102 e creates a confidence matrix 106 d based on the similarity matrix 106 b and the structural cluster-information matrix 106 c.
  • Fig. 13 shows a similarity search for the query sequence (query fragment sequence) X and the search
  • FIG. 14 is a conceptual diagram showing an example of calculating the probability of a fragment structure belonging to the result by multiplying the confidence matrix 106 d by the result.
  • FIG. 14 shows the fragment structure prediction by the fragment sequence structure prediction unit 102 j.
  • FIG. 15 is a conceptual diagram showing an example of the present invention.
  • FIG. 15 is a conceptual diagram showing an example of the present invention.
  • FIG. 15 is a flowchart showing an example of an overall structure prediction process of the present system in the present embodiment.
  • BEST MODE FOR CARRYING OUT THE INVENTION embodiments of a protein structure prediction device, a protein structure prediction method, a program, and a recording medium according to the present invention will be described in detail with reference to the drawings. Note that the present invention is not limited by the embodiment.
  • FIG. 3 is a conceptual diagram showing the basic principle of the present invention.
  • the present invention generally has the following basic features. That is, the present invention proposes a new calculation method of the correlation from the partial sequence to the partial structure, which can express a complex variety of the correlation and calculate the degree of the correlation (certainty).
  • the present invention first creates structural clusters of various sizes from various data sets, and extracts sequence similarity data from among them. Then, after a query sequence is given by the user, a pseudo-dynamic array-to-structure correlation cluster is used by using structural clusters of various sizes for various subsequence divisions. Is calculated, and the magnitude of the correlation with the subsequence is calculated. The partial structure is predicted from the correlation cluster.
  • the present invention classifies the structure of sequence fragments. That is, typical fragment structures are extracted based on sequence information and structure information stored in a known protein structure database or the like, and those fragment structures are classified.
  • Fig. 3 (a) the structure of the periphery of a fragment sequence in the sequence space is examined.
  • Fig. 3 (b) creating a virtual cluster between the sequence and the structure by examining what typical structure is obtained around each fragment sequence Can be. That is, according to the present invention, the sequence similar to this sequence existing around a certain sequence A belongs to which structural cluster in the structural space. ?) And create a virtual cluster around this array.
  • this fragment when a certain unknown structural sequence fragment X is given, this fragment is similar to the sequence A. It obtains information such as the sequence, similarity to sequence C, etc., and combines virtual clusters based on this information to predict which structural cluster the sequence will eventually belong to.
  • the prediction of the overall structure of the present invention is performed in the following procedure.
  • the degree of correlation strength (confidence) is compared from the obtained partial structure candidates, and a partial structure with a strong correlation and a long partial sequence is used.
  • Partial structures with weak correlations are also stored as data together with probabilities. Then, using the stored data, this is used as a candidate for the next structure, and the structure is changed to perform a folding 'simulation (fol d in g s im u l a t i o n).
  • the structure is refined (optimized) for all atomic systems.
  • FIG. 4 is a block diagram showing an example of a configuration of the present system to which the present invention is applied, and conceptually shows only a part related to the present invention in the configuration.
  • This system is composed of a network 300, which comprises a protein structure prediction device 100 and an external system 200 that provides an external database for protein structure information, etc. It is configured to be communicably connected via a PC.
  • the network 300 has a function of interconnecting the protein structure prediction device 100 and the external system 200, and is, for example, the Internet.
  • the external system 200 is interconnected with the protein structure predicting device 100 via the network 300, and provides the user with an external database for protein structure information and the like. It has a function to provide a website to execute an external analysis program such as.
  • the external system 200 may be configured as a WEB server, an ASP server, or the like, and its hardware configuration is generally a commercially available workstation, NO. It may be constituted by an information processing device such as a sonar computer and its attached devices.
  • each function of the external system 200 It is realized by a CPU, a disk device, a memory device, an input device, an output device, a communication control device and the like in the configuration and a program for controlling them.
  • the protein structure predicting device 100 is generally composed of a control unit 102 such as a CPU that controls the entire protein structure predicting device 100 as a whole, a router connected to a communication line, and the like.
  • a communication control interface 104 connected to a communication device (not shown), an input / output control interface 108 connected to an input device 112 and an output device 114, and
  • the system is provided with a storage unit 106 for storing various databases and tables (protein structure database 106a to certainty matrix 106d), and these units are connected to arbitrary communication channels.
  • the protein structure prediction device 100 is communicably connected to a network 300 via a communication device such as a router and a wired or wireless communication line such as a dedicated line.
  • protein structure database 106a to certainty matrix 106d stored in the storage unit 106 are storage means such as a fixed disk device, and are used for various processes. It stores programs, tables, files, and files for database web pages.
  • the protein structure database 106a is a database storing protein structure information recorded in association with amino acid sequence information (primary structure) and three-dimensional structure information. It is. It is preferable that the protein structure database 106a excludes sequence redundancy.
  • the protein structure database 106a may be an external protein structure database (for example, PDB-SELECT, etc.) accessed via the Internet, or may be a copy of these databases or an original database. It may be an in-house database created by storing the protein structure of the original or by adding unique annotation information and the like.
  • the similarity matrix 106 b is a matrix table that stores information on similarity search results regarding fragment sequences and the like.
  • the structure cluster information matrix 106 c is a matrix table for storing information indicating which fragment structure cluster the fragment sequence belongs to.
  • the confidence matrix 106 d stores information indicating the confidence (probability) that a fragment sequence belongs to the fragment structure when information that a fragment sequence is similar to another fragment sequence is obtained. It is a matrix table to perform.
  • control unit 102 has a control program such as an OS (Operating System), a program defining various processing procedures, and the like, and an internal memory for storing required data. With these programs and the like, information processing for executing various processes is performed.
  • OS Operating System
  • program defining various processing procedures and the like
  • internal memory for storing required data.
  • the control unit 102 is functionally conceptually composed of a fragment structure cluster creation unit 102 a, a fragment sequence similarity search unit 102 b, a similarity matrix creation unit 102 c, and a structure cluster information matrix creation Part 102 d, confidence matrix creation part 102 e, query sequence input part 102 f, query fragment sequence creation part 102 g, query fragment sequence similarity search part 102 h, fragment structure It comprises a probability calculation unit 102 i, a fragment sequence structure prediction unit 102 j, and an overall structure optimization unit 102 k.
  • the fragment structure cluster creating unit 102a calculates the fragment sequence obtained by dividing the sequence information into a predetermined length and the fragment structure corresponding thereto.
  • This is a fragment structure cluster creating means for creating a fragment structure cluster based on the similarity of the fragment structures.
  • the fragment sequence similarity search unit 102b is a fragment sequence similarity search unit that performs a sequence similarity search on a fragment sequence with surrounding fragment sequences in the sequence space.
  • the similarity matrix creation unit 102 c creates a similarity matrix that creates a similarity matrix that displays the results of similarity search for fragment sequences by a fragment sequence similarity search unit as a matrix of fragment sequences. Means.
  • the structural cluster one information matrix creating unit 102 d generates a structural cluster one information matrix in which the structural cluster information indicating which fragment structural cluster the fragment sequence belongs to is displayed by the fragment array and the matrix of the structural cluster. To create This is a means for creating a cluster information matrix.
  • the confidence matrix creation unit 102 e creates a confidence matrix that displays the confidence, which is the probability that a similar sequence of the fragment sequence belongs to the fragment structure cluster, as a matrix of the fragment sequence and the structure cluster. This is a certainty matrix creation means.
  • the query sequence input unit 102 f is a query sequence input unit that allows a user to input a query sequence.
  • the query fragment sequence creation unit 102g is a query fragment sequence creation unit that divides the query sequence input by the query sequence input unit into predetermined lengths to create a query fragment sequence.
  • the query fragment sequence similarity search unit 102h is a query fragment sequence similarity search unit that performs a sequence similarity search with the fragment sequence for the query fragment sequence created by the query fragment sequence creation unit.
  • the fragment structure probability calculation unit 102 i generates a query fragment sequence based on the confidence matrix created by the confidence matrix creation unit and the search result of the query fragment sequence similarity search unit. Is a fragment structure probability calculating means for calculating a probability belonging to.
  • the fragment sequence structure prediction unit 102j is a fragment sequence structure prediction unit that predicts the fragment structure of the query sequence based on the probability calculated by the fragment structure probability calculation unit.
  • the whole structure optimization unit 102 k is a whole structure optimization unit that performs a predetermined optimization on the initial whole structure determined by the fragment structure having the maximum certainty factor. The details of the processing performed by these units will be described later.
  • FIG. 5 is a flowchart showing an example of a fragment structure prediction process of the present system in the present embodiment.
  • the protein structure prediction device 100 accesses the protein structure database 106a by the processing of the fragment structure cluster creation unit 102a, and obtains protein sequence information. (For example, amino acid sequence information, etc.) and three-dimensional structure information are obtained, and a fragment sequence obtained by dividing the sequence information into a predetermined length and a fragment structure corresponding thereto are generated (step S A-1).
  • FIG. 6 is a conceptual diagram showing an example in which the fragment structure cluster creating section 102a acquires a fragment sequence and its corresponding fragment structure from the protein structure database 106a.
  • the fragment structure cluster creating section 102a divides the sequence for each fragment sequence of a predetermined length (in FIG. 6, 7 amino acid residues) and takes the fragment sequence. It is stored in the storage unit 106 in association with the fragment structure.
  • the length of the fragment is not limited to 7 residues, and the fragment structure can be divided into various lengths.
  • FIG. 7 is a diagram showing an example of a fragment structure cluster of the fragment sequence created by the fragment structure cluster creating unit 102a.
  • the fragment structure cluster creation unit 102a uses a self-organizing map (SOM; se 1 forganized map) using the similarity of fragment structures (for example, rmsd or dme) as an index of similarity. ), k-means (k-means), clustering using known clustering methods such as hierarchical clustering.
  • SOM self-organizing map
  • k-means k-means
  • FIG. 8 is a diagram showing an example of a case where a fragment structure cluster is created by using a hierarchical cluster method.
  • the fragment structure cluster creation unit 102a performs clustering by calculating the distances of all fragment structures and sequentially grouping the closest distances.
  • the distance between the clusters is calculated by, for example, calculating the distances of all members belonging to each cluster and taking an average.
  • the protein structure prediction apparatus 100 performs similarity of the existing sequence such as b1 ast search with the surrounding fragment sequences in the sequence space for all the fragment sequences by the processing of the fragment sequence similarity search section 102b.
  • a similar fragment sequence, a similarity score, and a fragment structure cluster to which the fragment sequence belongs are obtained by a gender search technique (step SA-3).
  • Fig. 9 shows the similarity of fragment sequence A (D, F, G, S, I, etc.) and similarity score (50, 30, 28, 25, 20).
  • a fragment structure cluster ( ⁇ , / 3, ⁇ , ⁇ , etc.) to which the fragment sequence belongs.
  • the protein structure prediction device 100 uses the similarity matrix creation unit 102 c to perform a similarity search on the fragment sequence, and displays a similarity 1 ”raw matrix as a fragment sequence matrix.
  • Create 106 b (step SA-4)
  • Fig. 10 is a diagram showing an example of information stored in the similarity matrix 106 b.
  • the similarity matrix 106 b the result of performing a similarity search on each fragment sequence is stored.
  • the protein structure predicting apparatus 100 creates a structural cluster information matrix 106 c indicating to which fragment structural cluster the fragment sequence belongs by the processing of the structural cluster information matrix creating unit 102 d.
  • FIG. 11 is a diagram showing an example of information stored in the structural cluster information matrix 106c. As shown in FIG. 11, the structure cluster information “1” is set in the fragment structure cluster to which the fragment sequence belongs.
  • the protein structure prediction apparatus 100 when the information that a certain fragment sequence is similar to another fragment sequence is obtained by the processing of the confidence matrix creating unit 102e, the fragment sequence is A confidence matrix 106 d indicating the confidence that is the probability of belonging to the structural cluster of another fragment sequence is created (step SA-6).
  • FIG. 12 shows that the confidence matrix creation unit 102 e creates a confidence matrix 106 d based on the similarity matrix 106 b and the structural cluster information matrix 106 c.
  • the confidence matrix creation unit 102 e generates the confidence matrix by taking the product of the normalized similarity matrix 106 b and the structural cluster information matrix 106 c. Create 1 06 d.
  • the protein structure prediction device 100 executes the processing of the query sequence input unit 102 f. Then, the user inputs a query sequence (step SA-7). This sequence may be input by allowing the user to select a desired sequence from a database storing external amino acid sequences, or the user may directly input the desired sequence.
  • the protein structure prediction apparatus 100 divides the query sequence into fragment sequences of a predetermined length (for example, 7 amino acid residues) by the processing of the query fragment sequence creating unit 102 g, and divides the fragment sequence (query fragment sequence). It is stored in the storage unit 106 (step SA-8).
  • the length of the fragment is not limited to 7 residues, and the fragment structure may be divided into various lengths.
  • the protein structure prediction apparatus 100 searches the sequence similarity for each fragment sequence (query fragment sequence) of the query sequence by the processing of the query fragment sequence similarity search unit 102h (step SA-9), and the search result Based on the above, the probability of the fragment structure to which the fragment sequence belongs is calculated by the processing of the fragment structure probability calculating unit 102i (step SA-10).
  • FIG. 13 is a concept showing an example of performing a similarity search on a query sequence (query fragment sequence) X and multiplying the search result by a certainty matrix 106 d to calculate the probability of a fragment structure to which the query belongs.
  • FIG. As shown in Fig. 13, by multiplying the standardized similarity vector of the query sequence X by the confidence matrix 106 d, the probability that the query sequence X belongs to each fragment structure cluster (the confidence ) Can be calculated.
  • FIG. 14 is a conceptual diagram showing an example of fragment structure prediction by the fragment sequence structure prediction section 102 j.
  • the fragment sequence structure predicting unit 102 j sorts the query sequence X into the fragment structure by sorting according to the reliability of the structural gaster to which the similar sequence of the query sequence X belongs. Anticipate. This completes the fragment structure prediction processing.
  • FIG. 15 is a flowchart showing an example of the overall structure prediction processing of the present system in the present embodiment.
  • the user inputs a query (query) array (step SB-1).
  • the protein structure predicting apparatus 100 divides the query (query) sequence into fragment sequences of a predetermined length by the processing of the query fragment sequence creating unit 102g (Step SB-2).
  • fragment sequences of multiple patterns divided by different lengths are created (two patterns are created in Fig. 15).
  • the protein structure prediction device 100 predicts the fragment structure by the above-described method (step SB-3).
  • the protein structure prediction device 100 creates an initial overall structure from the fragment structure having the maximum certainty factor by the processing of the fragment sequence structure prediction unit 102j (step SB-4).
  • the protein structure prediction device 100 optimizes the entire structure using the statistical potential method, the MC method, and the simulated annealing (SA) by the processing of the entire structure optimization unit 102k. (Step SB-5).
  • SA simulated annealing
  • the fragment structure is randomly selected from the predicted fragment structures. , Calculate the energy value (E ne ;) of the confidence factor (P ne ;) after the replacement, and calculate the probability / 0 that the fragment structure after the replacement is adopted in the next step,
  • the protein structure prediction apparatus 100 performs the processing in a stand-alone form has been described as an example.However, in response to a request from a client terminal configured in a separate housing from the protein structure prediction apparatus 100, It may be configured to perform processing according to the request and return the processing result to the client terminal.
  • all or some of the processes described as being performed automatically can be manually performed, or the processes described as being performed manually can be performed. All or a part of the processing can be automatically performed by a known method.
  • each processing function performed by the control unit the whole or any part thereof is described by C It can be implemented by a PU (Central Processing Unit) and a program interpreted and executed by the CPU, or it can be implemented as hardware by wire-and-logic.
  • the program is recorded on a recording medium described later, and is mechanically read by the protein structure prediction device 100 as necessary. That is, a computer program for giving instructions to the CPU and performing various processes in cooperation with an OS (operating system) is recorded in the storage unit 106 such as a ROM or an HD.
  • the computer program is executed by being loaded into the RAM, and forms a control unit in cooperation with the CPU.
  • this computer program may be recorded on an application program server connected to the protein structure prediction device 100 via an arbitrary network, and download all or part of the computer program as needed. This is also possible.
  • the program according to the present invention can be stored in a computer-readable recording medium.
  • this “recording medium” refers to any “portable physical medium” such as a flexible disk, a magneto-optical disk, ROM, EPROM, EEPROM, CD-ROM, MO, DVD, etc., and various computer systems.
  • any ⁇ fixed physical medium '' such as built-in ROM, RAM, HD, etc., or a communication line or carrier wave when transmitting a program via a network represented by LAN, WAN, Internet, etc.
  • a “program” is a data processing method described in any language or description method, regardless of the format of source code or binary code. Note that the “program” is not necessarily limited to a single program, but may be distributed with multiple module libraries or a separate program typified by an operating system (OS). Including those that work to achieve that function. Note that a specific structure for reading a recording medium in each device described in the embodiment is described. Known configurations and procedures can be used for the configuration, reading procedure, or installation procedure after reading.
  • the network 300 has a function of interconnecting the protein structure prediction device 100 and the external system 200, and includes, for example, the Internet, an intranet, a LAN (including both wired and wireless), a VAN, and a personal computer.
  • Telecommunications networks public telephone networks (both analog and digital), leased line networks (both analog and digital), CATV networks, and mobile lines such as IMT2000, GSM, or PDCZPDC-P Switching network
  • a portable bucket switching network a radio paging network, a local radio network such as B 1 uetooth, a PHS network, and a satellite communication network such as CS, BS or IS DB may be included. That is, the present system can transmit and receive various data via any network regardless of whether it is wired or wireless.
  • the protein structure database 106a to the certainty matrix 106d include memory devices such as RAM and ROM, fixed disk devices such as a node disk, flexible disks, optical disks and the like. It is a storage means and stores various programs and tables, files, data bases, files for web pages, etc. used for various processes and websites.
  • the protein structure prediction device 100 connects a peripheral device such as a printer monitor or an image scanner to an information processing device such as an information processing terminal such as a known personal computer or workstation, and connects the information processing device of the present invention to the information processing device. It may be realized by implementing software (including programs, data, etc.) that realizes the above.
  • each database may be independently configured as an independent database device, and a part of the processing may be realized by a CGI (Comm on Gateway Interlace). You may.
  • CGI Common Gateway Interlace
  • a fragment sequence obtained by dividing sequence information into a predetermined length based on protein sequence information and three-dimensional structure information and a fragment structure corresponding thereto are obtained.
  • a fragment structure cluster is created based on the similarity of the fragment structure, and a sequence similarity search is performed on the fragment sequence with the surrounding fragment sequences in the sequence space, and the similar sequence of the fragment sequence is converted into the fragment structure cluster.
  • the user inputs a query sequence to the IJ user, divides the input query sequence into predetermined lengths, creates a query fragment sequence, and searches the fragment sequence and sequence similarity for the created query fragment sequence.
  • the probability that the query fragment sequence belongs to the fragment structure cluster is calculated based on the created confidence matrix and the search result, and the fragment structure of the query sequence is predicted based on the calculated probability. It is possible to calculate the correlation of substructures from subsequences and predict the substructures so that the complex manifolds and correlations can be expressed. That is, according to the present invention, when calculating the structure, the probabilities (confidence) of a plurality of structure candidates are given and given according to the degree of correlation (function of the confidence is used as the probability of structural change).
  • a protein structure prediction device, a protein structure prediction method, a program, and a recording medium that can be provided.
  • the present apparatus first forms a cluster of partial structures and takes into account the complex shape of the structure sequence correlation polymorphism and queries ( query) It is possible to provide a protein structure prediction device, a protein structure prediction method, a program, and a recording medium that can dynamically form a sequence correlation cluster after a sequence is given.
  • a number of structural clusters are created from different viewpoints (eg, fragment sequence length, fragment structure resolution, structural cluster size, degree of correlation, etc.), and the structure from each data set is created.
  • a recording medium can be provided.
  • similarity matrix creating means for creating a similarity matrix in which a result of similarity search for a fragment sequence is displayed as a matrix of fragment sequences, and to which fragment structure cluster the fragment sequence belongs
  • a structural cluster information matrix is created by displaying the structural cluster information indicating the above as a matrix of fragment sequences and structural clusters, and a confidence matrix is created based on the created similarity matrix and structural cluster one information matrix. It is possible to provide a protein structure prediction device, a protein structure prediction method, a program, and a recording medium that can easily and precisely calculate a certainty factor based on similarity search results using a matrix calculation method.
  • a predetermined optimization is performed on the initial overall structure determined by the fragment structure having the maximum certainty factor. It becomes possible to divide and integrate the optimal prediction results. Further, by further optimizing the initial structure, it is possible to provide a protein structure prediction device, a protein structure prediction method, a program, and a recording medium that can further improve the accuracy of the overall structure prediction.
  • the protein structure predicting apparatus, the protein structure predicting method, the program, and the recording medium according to the present invention provide a three-dimensional structure prediction of a protein, analysis of a site for mutual use of a protein, and creation using the analysis result. It can be used for medicines and the like.

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

明 細 書 蛋白質構造予測装置、 蛋白質構造予測方法、 プログラム、 および、 記録媒体 技術分野
本発明は、 蛋白質構造予測装置、 蛋白質構造予測方法、 プログラム、 および、 記録媒体に関し、 特に、 配列と構造の相関により蛋白質の立体構造を予測する蛋 白質構造予測装置、 蛋白質構造予測方法、 プログラム、 および、 記録媒体に関す る。 背景技術
蛋白質の立体構造は、 配列情報から一意に決まると言われている。 つまり、 配 列空間と構造空間との間には何らかの相関があるということである。 ここで、 配 列空間と構造空間 (ネイティブ構造の空間) の大きさを比較してみると、 配列空 間の方が大きいと言える。 なぜなら、 進化的に見ると、 配列が多少変化したとし ても構造はあまり変化しているようには見えないからである。 このことを換言す ると、 構造の方が配列よりも進化的に保守性が強いとも言える。
また、 近年の進化的に良く似た蛋白質の構造解析によって、 似たような配列を もつ蛋白質は、 似たような全体構造をもっということが明らかになつてきた。 全 体は部分の組み合わせから作られていると考えると、 蛋白質の全体構造に対して 成り立つであろう上記のような経験則が、 蛋白質の一部を切り出した部分に関し てもある程度成り立つのではないかと考えることができる。
実際に、 蛋白質の似たような部分配列は似たような部分構造となるという部分 配列と部分構造とに相関のあるものが存在している。 最近の研究では、 部分配列 と部分構造との相関を利用して、 部分配列から全体構造を組み立てるという試み が試されてきている。
例えば、 K i m T . S i m o n s等 「A s s e m b l y o f P r o t e i n Te r t i a r y S t r u c t u r e s f r om F r a g m e n t s w i t h S i m i l a r Lo c a l S e q u e n c e s u s i n g S i mu l a t e d Ann e a l i n g a n d B a y e s i a n S c o r i n g Fun c t i o n s」 J. Mo l . B i o l . (1997) 26 8, 209 p-225 p (以下 「文献 1」 という) や、 Ch r i s t o p h e r By s t r o f f 等 「P r e d e c t i o n o f Lo c a l S t r u c t u r e i n P r o t e i n s U s i n g a L i b r a r y o f S e q u e n c e— S t r u c t u r e Mo t i f sJ J. Mo l . B i o l . (1998) 281, 565 p-577 p (以下 「文献 2」 という) により開示 された研究においては、 部分配列に対応する構造をクラスタリングすることによ り、 広大な構造 (f o l d i n g) 空間を狭めることが可能となり、 フォールデ イング ·シミュレーションの計算時間の短縮にも繋がっている。
ここで、 文献 1には、 l o c a lな配列によって l o c a l構造は特定の偏つ た構造に制限されるので構造空間は小さくなること、 その構造は配列上近い蛋白 質の構造に類似していること、 配列のプロフアイルをマルチプルァラインメント により求め、 問合せ (q u e r y) 配列との距離の近さを求めることなどが開示 されている。
また、 文献 2には、 断片構造と配列の相関がある場合には、 断片の配列傾向か ら限られた数の構造の候補がとりだせること、 構造に関しては二つの構造指標を 用いてクラスタリングを行い、 また、 配列については f r e q u e n c y p r o f i 1 eの距離を使って計算し、 クラスター作成は配列が似ているものの中か ら構造が似てレ、るものを探してクラスタ一化することにより実際に配列一構造断 片のクラスターを作成することが開示されている。
従来技術による構造クラスタ一作成過程を第 1図および第 2図を用いて説明す る。 ここで、 第 1図は、 従来技術により配列をプロファイルで表現した場合の一 例を示す図であり、 第 2図は、 従来技術による構造クラスター作成イメージを示 す図である。 まず、 配列をプロファイルで表現する。 ここで、 第 1図 (a ) に示すように、 配列 (A G G E D ) に対応するアミノ酸に 「1」 を設定することにより、 プロフ アイルを作成する。 また、 例えば配列 (A G G E D) と (AD G D D) がーつの クラスターを構成しているときには、 このクラスターのプロファイルを第 1図 ( b ) のように作成する。 すなわち、 クラスター内に属する配列に関して、 ある位 置に存在するアミノ酸の頻度を設定することにより、 プロファイルを作成する。 プロファイルで比較することにより、 配列一つとクラスター間の類似度が計算で さる。
そして、 配列プロファイルの似ているものが同じクラスター (第 2図の (a ) における 1から 5 ) に入るように、 配列空間においてクラスタリングする (第 2 図の (a ) ) 。 すなわち、 配列プロファイルの類似度を計算して、 配列全体の類 似度を計算することにより、 等方向的なクラスターが作成される。
そして、 その配列が構造空間においてどの点に対応するかの相関を見て (第 2 図の (b ) では、 クラスター 1について構造空間との相関をとつている) 、 配列 —構造間の相関が大きいものをクラスター化する (第 2図の (c ) ) 。 すなわち、 第 2図 (b ) の配列空間のクラスターに含まれる一つ一つの配列について、 構造 空間の点が近いもの (構造が似ているもの) を抽出し、 構造が似ていないものは 捨てる。 このように作成されたクラスターと、 捨てられた配列とを用いて、 処理 を繰返すことにより、 構造クラスターを作成する。
しかしながら、 これらの従来の手法においては、 配列プロファイルを用いた静 的な配列と構造との相関クラスターを作っているが、 実際には配列空間と構造空 間との相関は複雑な多様体を形成していると思われ、 プロファイルといういわば 空間上で等方向的な相関の取り方では不十分であるという問題点を有していた。 また、 全体構造は部分構造から作られるとはいえ、 当然のことながら部分的に 相関の大きいもの、 小さいもの、 または、 相関が見えないものなどがあるはずで あり、 従来の手法においては、 それらの定量化も不十分であるという問題点を有 していた。 従って、 本発明は、 相関の複雑な多様体や相関の確信度をも表現可能なように、 部分配列から部分構造の相関を計算することのできる、 蛋白質構造予測装置、 蛋 白質構造予測方法、 プログラム、 および、 記録媒体を提供することを目的として いる。 発明の開示
本発明にかかる蛋白質構造予測装置は、 蛋白質の配列情報および立体構造情報 に基づいて、 配列情報を所定の長さに分割した断片配列とそれに対応する断片構 造とを作成し、 当該断片構造の類似度に基づいて断片構造クラスターを作成する 断片構造クラスター作成手段と、 上記断片配列について配列空間上における周囲 の上記断片配列と配列類似性検索を行う断片配列類似性検索手段と、 上記断片配 列の類似配列が上記断片構造クラスターに属する確率である確信度を、 上記断片 配列と上記構造クラスターとの行列で表示する確信度マトリックスを作成する確 信度マトリックス作成手段と、 利用者に問合せ配列を入力させる問合せ配列入力 手段と、 上記問合せ配列入力手段にて入力された上記問合せ配列を所定の長さに 分割して問合せ断片配列を作成する問合せ断片配列作成手段と、 上記問合せ断片 配列作成手段にて作成された上記問合せ断片配列について、 上記断片配列と配列 類似性検索を行う問合せ断片配列類似性検索手段と、 上記確信度マトリックス作 成手段にて作成した上記確信度マトリックスと、 上記問合せ断片配列類似性検索 手段の検索結果とに基づいて、 上記問合せ断片配列が上記断片構造クラスターに 属する確率を計算する断片構造確率計算手段と、 上記断片構造確率計算手段にて 計算された上記確率に基づいて、 上記問合せ配列の上記断片構造を予測する断片 配列構造予測手段とを備えたことを特徴とする。
この装置によれば、 蛋白質の配列情報および立体構造情報に基づいて、 配列情 報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、 当該 断片構造の類似度に基づいて断片構造クラスターを作成し、 断片配列について配 列空間上における周囲の断片配列と配列類似性検索を行い、 断片配列の類似配列 が断片構造クラスターに属する確率である確信度を、 断片配列と構造クラスター との行列で表示する確信度マトリ ックスを作成する。 そして、 利用者に問合せ配 列を入力させ、 入力された問合せ配列を所定の長さに分割して問合せ断片配列を 作成し、 作成された問合せ断片配列について、 断片配列と配列類似性検索を行い、 作成した確信度マトリッタスと検索結果とに基づいて、 問合せ断片配列が断片構 造クラスターに属する確率を計算し、 計算された確率に基づいて、 問合せ配列の 断片構造を予測するので、 相関の複雑な多様体や相関の確信度をも表現可能なよ うに、 部分配列から部分構造の相関を計算し、 その部分構造を予測することがで きるようになる。 すなわち、 本発明は、 構造を計算する際、 相関の度合に応じて 複数の構造候補の確率 (確信度) を与えて持たせておく (確信度の関数を構造変 化の確率として用いる) ことができる。
また、 蛋白質立体構造を相関の大きな部分構造のプロックとして考える手法は 以前からあるが、 本装置ではまず部分構造のクラスターを作り、 構造配列相関多 様体の複雑な形を考慮して、 問合せ (q u e r y ) 配列が与えられた後に動的に 配列相関クラスターを作ることができる。
また、 本装置は、 構造クラスターを違う観点から (例えば、 断片配列の長さ、 断片構造の解像度、 構造クラスタ一の大きさ、 相関の度合い等) レ、くつも作り、 それぞれのデータセットからの構造予測結果を統合して構造を計算することがで きるようになる。
つぎの発明にかかる蛋白質構造予測装置は、 上記に記載の蛋白質構造予測装置 において、 上記断片配列類似性検索手段により上記断片配列に関して類似性検索 をした結果を、 断片配列の行列で表示した類似性マトリックスを作成する類似性 マトリックス作成手段と、 上記断片配列がどの上記断片構造クラスターに属して いるかを示す構造クラスタ一情報を、 上記断片配列と上記構造クラスターの行列 で表示した構造クラスタ一情報マトリックスを作成する構造クラスタ一情報マト リックス作成手段とをさらに備え、 上記確信度マトリックス作成手段は、 上記類 似性マトリックス作成手段にて作成した上記類似性マトリックスと、 上記構造ク ラスター情報マトリックス作成手段にて作成した上記構造クラスター情報マトリ ッタスとに基づいて、 上記確信度マトリックスを作成することを特徴とする。 これは確信度マトリッタスの作成の一例を一層具体的に示すものである。 この 装置によれば、 断片配列に関して類似性検索をした結果を、 断片配列の行列で表 示した類似性マトリックスを作成する類似性マトリックス作成手段と、 断片配列 がどの断片構造クラスターに属しているかを示す構造クラスター情報を、 断片配 列と構造クラスターの行列で表示した構造クラスタ一情報マトリックスを作成し、 作成した類似性マトリックスと構造クラスター情報マトリッタスとに基づいて、 確信度マトリックスを作成するので、 行列演算手法を用いて類似性検索結果に基 づいて簡易かつ精緻に確信度を計算することができるようになる。
つぎの発明にかかる蛋白質構造予測装置は、 上記に記載の蛋白質構造予測装置 において、 最大の上記確信度を持つ上記断片構造にて決定された初期全体構造に ついて所定の最適化を行う全体構造最適化手段をさらに備えたことを特徴とする。 この装置によれば、 最大の確信度を持つ断片構造にて決定された初期全体構造 について所定の最適化を行うので、 まず、 初期構造を作成する際に様々な可能な 断片配列に分割しそれらの最適な予測結果を統合することができるようになる。 また、 初期構造をさらに最適化を行うことにより、 全体構造予測の精度をさらに 上げることができるようになる。
また、 本発明は蛋白質構造予測方法に関するものであり、 本発明にかかる蛋白 質構造予測方法は、 蛋白質の配列情報および立体構造情報に基づいて、 配列情報 を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、 当該断 片構造の類似度に基づいて断片構造クラスタ一を作成する断片構造クラスタ一作 成ステップと、 上記断片配列について配列空間上における周囲の上記断片配列と 配列類似性検索を行う断片配列類似性検索ステップと、 上記断片配列の類似配列 が上記断片構造クラスターに属する確率である確信度を、 上記断片配列と上記構 造クラスターとの行列で表示する確信度マトリックスを作成する確信度マトリツ クス作成ステップと、 利用者に問合せ配列を入力させる問合せ配列入力ステップ と、 上記問合せ配列入力ステップにて入力された上記問合せ配列を所定の長さに 分割して問合せ断片配列を作成する問合せ断片配列作成ステップと、 上記問合せ 断片配列作成ステップにて作成された上記問合せ断片配列について、 上記断片配 列と配列類似性検索を行う問合せ断片配列類似性検索ステップと、 上記確信度マ トリックス作成ステップにて作成した上記確信度マトリックスと、 上記問合せ断 片配列類似性検索ステップの検索結果とに基づいて、 上記問合せ断片配列が上記 断片構造クラスターに属する確率を計算する断片構造確率計算ステップと、 上記 断片構造確率計算ステップにて計算された上記確率に基づいて、 上記問合せ配列 の上記断片構造を予測する断片配列構造予測ステップとを含むことを特徴とする。 この方法によれば、 蛋白質の配列情報および立体構造情報に基づいて、 配列情 報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、 当該 断片構造の類似度に基づいて断片構造クラスターを作成し、 断片配列について配 列空間上における周囲の断片配列と配列類似性検索を行い、 断片配列の類似配列 が断片構造クラスターに属する確率である確信度を、 断片配列と構造クラスター との行列で表示する確信度マトリックスを作成する。 そして、 利用者に問合せ配 列を入力させ、 入力された問合せ配列を所定の長さに分割して問合せ断片配列を 作成し、 作成された問合せ断片配列について、 断片配列と配列類似性検索を行い、 作成した確信度マトリックスと検索結果とに基づいて、 問合せ断片配列が断片構 造クラスターに属する確率を計算し、 計算された確率に基づいて、 問合せ配列の 断片構造を予測するので、 相関の複雑な多様体や相関の確信度をも表現可能なよ うに、 部分配列から部分構造の相関を計算し、 その部分構造を予測することがで きるようになる。 すなわち、 本発明は、 構造を計算する際、 相関の度合いに応じ て複数の構造候補の確率 (確信度) を与えて持たせておく (確信度の関数を構造 変化の確率として用いる) ことができる。
また、 蛋白質立体構造を相関の大きな部分構造のプロックとして考える手法は 以前からあるが、 本方法ではまず部分構造のクラスターを作り、 構造配列相関多 様体の複雑な形を考慮して、 問合せ (q u e r y ) 配列が与えられた後に動的に 配列相関クラスターを作ることができる。
また、 本方法は、 構造クラスターを違う観点から (例えば、 断片配列の長さ、 断片構造の解像度、 構造クラスターの大きさ、 相関の度合い等) レ、くつも作り、 それぞれのデータセットからの構造予測結果を統合して構造を計算することがで きるようになる。
つぎの発明にかかる蛋白質構造予測方法は、 上記に記載の蛋白質構造予測方法 において、 上記断片配列類似性検索ステップにより上記断片配列に関して類似性 検索をした結果を、 断片配列の行列で表示した類似性マトリックスを作成する類 似性マトリツクス作成ステップと、 上記断片配列がどの上記断片構造クラスター に属しているかを示す構造クラスタ一情報を、 上記断片配列と上記構造クラスタ 一の行列で表示した構造クラスタ一情報マトリックスを作成する構造クラスター 情報マトリツクス作成ステップとをさらに含み、 上記確信度マトリツタス作成ス テツプは、 上記類似性マトリックス作成ステップにて作成した上記類似性マトリ ックスと、 上記構造クラスター情報マトリックス作成ステップにて作成した上記 構造クラスター情報マトリックスとに基づいて、 上記確信度マトリツクスを作成 することを特徴とする。
これは確信度マトリッタスの作成の一例を一層具体的に示すものである。 この 方法によれば、 断片配列に関して類似性検索をした結果を、 断片配列の行列で表 示した類似性マトリックスを作成する類似性マトリックス作成ステップと、 断片 配列がどの断片構造クラスターに属しているかを示す構造クラスター情報を、 断 片配列と構造クラスターの行列で表示した構造クラスタ一情報マトリックスを作 成し、 作成した類似性マトリックスと構造クラスタ一情報マトリックスとに基づ レ、て、 確信度マトリックスを作成するので、 行列演算手法を用いて類似性検索結 果に基づいて簡易かつ精緻に確信度を計算することができるようになる。
つぎの発明にかかる蛋白質構造予測方法は、 上記に記載の蛋白質構造予測方法 において、 最大の上記確信度を持つ上記断片構造にて決定された初期全体構造に ついて所定の最適化を行う全体構造最適化ステップをさらに含むことを特徴とす る。
この方法によれば、 最大の確信度を持つ断片構造にて決定された初期全体構造 について所定の最適化を行うので、 まず、 初期構造を作成する際に様々な可能な 断片配列に分割しそれらの最適な予測結果を統合することができるようになる。 また、 初期構造をさらに最適化を行うことにより、 全体構造予測の精度をさらに 上げることができるようになる。
また、 本発明はプログラムに関するものであり、 本発明にかかるプログラムは、 蛋白質の配列情報および立体構造情報に基づいて、 配列情報を所定の長さに分割 した断片配列とそれに対応する断片構造とを作成し、 当該断片構造の類似度に基 づいて断片構造クラスターを作成する断片構造クラスター作成ステップと、 上記 断片配列について配列空間上における周囲の上記断片配列と配列類似性検索を行 う断片配列類似性検索ステップと、 上記断片配列の類似配列が上記断片構造クラ スターに属する確率である確信度を、 上記断片配列と上記構造クラスタ一との行 列で表示する確信度マトリックスを作成する確信度マトリツタス作成ステップと、 利用者に問合せ配列を入力させる問合せ配列入力ステップと、 上記問合せ配列入 力ステップにて入力された上記問合せ配列を所定の長さに分割して問合せ断片配 列を作成する問合せ断片配列作成ステップと、 上記問合せ断片配列作成ステップ にて作成された上記問合せ断片配列について、 上記断片配列と配列類似性検索を 行う問合せ断片配列類似性検索ステップと、 上記確信度マトリックス作成ステッ プにて作成した上記確信度マトリックスと、 上記問合せ断片配列類似性検索ステ ップの検索結果とに基づいて、 上記問合せ断片配列が上記断片構造クラスターに 属する確率を計算する断片構造確率計算ステップと、 上記断片構造確率計算ステ ップにて計算された上記確率に基づいて、 上記問合せ配列の上記断片構造を予測 する断片配列構造予測ステツプとを含む蛋白質構造予測プログラムをコンビユー タに実行させることを特徴とする。
このプログラムによれば、 蛋白質の配列情報および立体構造情報に基づいて、 配列情報を所定の長さに分割した断片配列とそれに対応する断片構造とを作成し、 当該断片構造の類似度に基づいて断片構造クラスタ—を作成し、 断片配列につい て配列空間上における周囲の断片配列と配列類似性検索を行い、 断片配列の類似 配列が断片構造クラスターに属する確率である確信度を、 断片配列と構造クラス ターとの行列で表示する確信度マトリックスを作成する。 そして、 利用者に問合 せ配列を入力させ、 入力された問合せ配列を所定の長さに分割して問合せ断片配 列を作成し、 作成された問合せ断片配列について、 断片配列と配列類似性検索を 行い、 作成した確信度マトリックスと検索結果とに基づいて、 問合せ断片配列が 断片構造クラスターに属する確率を計算し、 計算された確率に基づいて、 問合せ 配列の断片構造を予測するので、 相関の複雑な多様体や相関の確信度をも表現可 能なように、 部分配列から部分構造の相関を計算し、 その部分構造を予測するこ とができるようになる。 すなわち、 本発明は、 構造を計算する際、 相関の度合に 応じて複数の構造候補の確率 (確信度) を与えて持たせておく (確信度の関数を 構造変化の確率として用いる) ことができる。
また、 蛋白質立体構造を相関の大きな部分構造のプロックとして考える手法は 以前からあるが、 本プログラムではまず部分構造のクラスターを作り、 構造配列 相関多様体の複雑な形を考慮して、 問合せ (q u e r y ) 配列が与えられた後に 動的に配列相関クラスターを作ることができる。
また、 本プログラムは、 構造クラスターを違う観点から (例えば、 断片配列の 長さ、 断片構造の解像度、 構造クラスターの大きさ、 相関の度合い等) いくつも 作り、 それぞれのデータセットからの構造予測結果を統合して構造を計算するこ とができるようになる。
つぎの発明にかかるプログラムは、 上記に記載のプログラムにおいて、 上記断 片配列類似性検索ステップにより上記断片配列に関して類似性検索をした結果を、 断片配列の行列で表示した類似性マトリックスを作成する類似性マトリックス作 成ステップと、 上記断片配列がどの上記断片構造クラスターに属しているかを示 す構造クラスター情報を、 上記断片配列と上記構造クラスターの行列で表示した 構造クラスター情報マトリックスを作成する構造クラスター情報マトリックス作 成ステップとをさらに含み、 上記確信度マトリックス作成ステップは、 上記類似 性マトリックス作成ステップにて作成した上記類似性マトリックスと、 上記構造 クラスタ一情報マトリックス作成ステップにて作成した上記構造クラスタ一情報 マトリックスとに基づいて、 上記確信度マトリックスを作成することを特徴とす る。
これは確信度マトリックスの作成の一例を一層具体的に示すものである。 この プログラムによれば、 断片配列に関して類似性検索をした結果を、 断片配列の行 列で表示した類似性マトリックスを作成する類似性マトリックス作成ステップと、 断片配列がどの断片構造クラスターに属しているかを示す構造クラスター情報を、 断片配列と構造クラスターの行列で表示した構造クラスタ一情報マトリックスを 作成し、 作成した類似性マトリックスと構造クラスタ一情報マトリックスとに基 づいて、 確信度マトリックスを作成するので、 行列演算手法を用いて類似性検索 結果に基づいて簡易かつ精緻に確信度を計算することができるようになる。
つぎの発明にかかるプログラムは、 上記に記載のプログラムにおいて、 最大の 上記確信度を持つ上記断片構造にて決定された初期全体構造について所定の最適 化を行う全体構造最適化ステップをさらに含むことを特徴とする。
このプログラムによれば、 最大の確信度を持つ断片構造にて決定された初期全 体構造について所定の最適化を行うので、 まず、 初期構造を作成する際に様々な 可能な断片配列に分割しそれらの最適な予測結果を統合することができるように なる。 また、 初期構造をさらに最適化を行うことにより、 全体構造予測の精度を さらに上げることができるようになる。
また、 本発明は記録媒体に関するものであり、 本発明にかかる記録媒体は、 上 記に記載されたプログラムを記録したことを特徴とする。
この記録媒体によれば、 当該記録媒体に記録されたプログラムをコンピュータ に読み取らせて実行することによって、 上記に記載されたプログラムをコンビュ —タを利用して実現することができ、 これら各プログラムと同様の効果を得るこ とができる。 図面の簡単な説明
第 1図は、 従来技術により配列をプロファイルで表現した場合の一例を示す図 であり、 第 2図は、 従来技術による構造クラスタ一作成イメージを示す図であり、 第 3図は、 本発明の基本原理を示す概念図であり、 第 4図は、 本発明が適用され る本システムの構成の一例を示すブロック図であり、 第 5図は、 本実施形態にお ける本システムの断片構造予測処理の一例を示すフローチヤ一トであり、 第 6図 は、 断片構造クラスター作成部 1 0 2 aが蛋白質構造データベース 1 0 6 aから 断片配列とそれに対応する断片構造とを取得する場合の一例を示す概念図であり、 第 7図は、 断片構造クラスター作成部 1 0 2 aが作成する断片配列の断片構造ク ラスターの一例を示す図であり、 第 8図は、 階層的クラスター手法を用いて断片 構造クラスターを作成する場合の一例を示す図であり、 第 9図は、 断片配列 Aに ついて、 その類似の断片配列 (D、 F、 G、 S、 I等) と、 類似度スコア (5 0、 3 0、 2 8、 2 5、 2 0等) と、 その断片配列が属する断片構造クラスター (α、 ひ、 J3、 α、 γ等) を検索した場合を示す概念図であり、 第 1 0図は、 類似性 マトリックス 1 0 6 bに格納される情報の一例を示す図であり、 第 1 1図は、 構 造クラスター情報マトリックス 1 0 6 cに格納される情報の一例を示す図であり、 第 1 2図は、 確信度マトリツクス作成部 1 0 2 eが類似性マトリックス 1 0 6 b および構造クラスタ一情報マトリックス 1 0 6 cに基づいて確信度マトリックス 1 0 6 dを作成することを示す概念図であり、 第 1 3図は、 問合せ配列 (問合せ 断片配列) Xについて類似性検索を行い、 その検索結果に確信度マトリックス 1 0 6 dを掛け合わせて属する断片構造の確率を計算する場合の一例を示す概念図 であり、 第 1 4図は、 断片配列構造予測部 1 0 2 jによる断片構造予測の一例を 示す概念図であり、 第 1 5図は、 本実施形態における本システムの全体構造予測 処理の一例を示すフローチャートである。 発明を実施するための最良の形態 以下に、 本発明にかかる蛋白質構造予測装置、 蛋白質構造予測方法、 プロダラ ム、 および、 記録媒体の実施の形態を図面に基づいて詳細に説明する。 なお、 こ の実施の形態によりこの発明が限定されるものではない。
[本発明の概要〕
以下、 本発明の概要について説明し、 その後、 本発明の構成および処理等につ いて詳細に説明する。 第 3図は本発明の基本原理を示す概念図である。
本発明は、 概略的に、 以下の基本的特徴を有する。 すなわち、 本発明は、 相関 の複雑な多様体を表現し、 相関の大きさの度合い (確信度) をも計算することが できる、 部分配列から部分構造への相関の新しい計算手法を提案する。
本発明は、 まず様々なデータセットから様々な大きさの構造クラスターを作り、 その中から配列の類似性データを取り出す。 そして、 利用者から問合せ (q u e r y ) 配列が与えられた後に、 様々な部分配列への分割に対して様々な大きさの 構造クラスターを用いて、 疑似的に動的な配列から構造への相関クラスターを作 成して、 部分配列との相関の大きさを計算する。 その相関クラスターから、 部分 構造の予測を行う。
本発明におけるクラスター作成過程を以下に説明する。 まず、 本発明は、 配列 断片の構造分類を行う。 すなわち、 既知の蛋白質構造データベースなどに格納さ れた配列情報および構造情報に基づいて、 典型的な断片構造を抽出し、 それらの 断片構造を分類する。
そして、 第 3図 (a ) に示すように、 ある断片配列の配列空間における周辺が どのような構造をとつているかをみる。 そして、 第 3図 (b ) に示すように、 そ れぞれの断片配列の周りでどのような典型構造が得られるかをみることにより、 配列一構造間の仮想的なクラスターを作成することができる。 すなわち、 本発明 は、 ある配列 Aの周りに存在するこの配列に似ている配列が、 構造空間上でどの 構造クラスターに属するか (どのような似方をしていれば、 どの構造クラスター に属するか) を計算し、 この配列の周りに仮想的なクラスターを作成する。 そし て、 本発明は、 ある未知構造配列断片 Xが与えられたとき、 これが配列 Aに似て いる、 配列 Cに似ているなどの情報を取得し、 これらの情報に基づいて仮想クラ スターを組み合わせて、 最終的に配列がどの構造クラスターに属するかを予測す る。
本発明の全体構造の予測は、 次の手順で行う。 まず、 得られた部分構造の候補 から、 相関の強さの度合い (確信度) を比較し、 相関の強く、 部分配列の長い部 分構造を用いて行う。 相関の弱い部分構造も、 確率と共にデータとして保持して おく。 そして、 保持したデータを用いて、 これを次の構造の候補として構造を変 化させていくことによりフォールデイング ' シミュレーション (f o l d i n g s i m u l a t i o n ) を行う。 そして、 構造のトポロジーが完成したら全原 子系での構造精密化 (最適化) を行う。
[システム構成]
まず、 本システムの構成について説明する。 第 4図は、 本発明が適用される本 システムの構成の一例を示すプロック図であり、 該構成のうち本発明に関係する 部分のみを概念的に示している。 本システムは、 概略的に、 蛋白質構造予測装置 1 0 0と、 蛋白質構造情報等に関する外部データベースゃホモロジ一検索等の外 部プログラム等を提供する外部システム 2 0 0とを、 ネットワーク 3 0 0を介し て通信可能に接続して構成されている。
第 4図においてネットワーク 3 0 0は、 蛋白質構造予測装置 1 0 0と外部シス テム 2 0 0とを相互に接続する機能を有し、 例えば、 インターネット等である。 第 4図において外部システム 2 0 0は、 ネットワーク 3 0 0を介して、 蛋白質 構造予測装置 1 0 0と相互に接続され、 利用者に対して蛋白質構造情報等に関す る外部データベースゃホモロジ一検索等の外部分析プログラムを実行するウェブ サイトを提供する機能を有する。
ここで、 外部システム 2 0 0は、 WE Bサーバや A S Pサーバ等として構成し てもよく、 そのハードウェア構成は、 一般に市販されるワークステーション、 ノ、。 一ソナルコンピュータ等の情報処理装置およびその付属装置により構成してもよ レ、。 また、 外部システム 2 0 0の各機能は、 外部システム 2 0 0のハードウェア 構成中の C P U、 ディスク装置、 メモリ装置、 入力装置、 出力装置、 通信制御装 置等およびそれらを制御するプログラム等により実現される。
第 4図において蛋白質構造予測装置 1 0 0は、 概略的に、 蛋白質構造予測装置 1 0 0の全体を統括的に制御する C P U等の制御部 1 0 2、 通信回線等に接続さ れるルータ等の通信装置 (図示せず) に接続される通信制御インターフェース部 1 0 4、 入力装置 1 1 2や出力装置 1 1 4に接続される入出力制御インタ一フエ ース部 1 0 8、 および、 各種のデータベースやテーブル (蛋白質構造データべ一 ス 1 0 6 a〜確信度マトリックス 1 0 6 d ) を格納する記憶部 1 0 6を備えて構 成されており、 これら各部は任意の通信路を介して通信可能に接続されている。 さらに、 この蛋白質構造予測装置 1 0 0は、 ルータ等の通信装置および専用線等 の有線または無線の通信回線を介して、 ネットワーク 3 0 0に通信可能に接続さ れている。
記憶部 1 0 6に格納される各種のデータベースやテーブル (蛋白質構造データ ベース 1 0 6 a〜確信度マトリックス 1 0 6 d ) は、 固定ディスク装置等のスト レージ手段であり、 各種処理に用いる各種のプログラムやテーブルやファイルや データベースゃゥェブベージ用フアイル等を格納する。 これら記憶部 1 0 6の各構成要素のうち、 蛋白質構造データベース 1 0 6 aは、 ァミノ酸配列情報 ( 1次構造) と立体構造情報とを対応付けて記録した蛋白質構 造情報を格納したデータベースである。 蛋白質構造データベース 1 0 6 aは、 配 列冗長性を排除したものであるものが好ましい。 蛋白質構造データベース 1 0 6 aは、 インターネッ トを経由してアクセスする外部の蛋白質構造データベース ( 例えば、 P D B— S E L E C T等) であってもよく、 また、 これらのデータべ一 スをコピーしたり、 オリジナルの蛋白質構造を格納したり、 さらに独自のァノテ ーシヨン情報等を付カ卩したりして作成したインハウスデータベースであってもよ い。
また、 類似性マトリックス 1 0 6 bは、 断片配列に関する類似性検索結果に関 する情報等を格納するマトリックステーブルである。 また、 構造クラスター情報マトリックス 1 0 6 cは、 断片配列がどの断片構造 クラスタ一に属しているかを示す情報等を格納するマトリックステーブルである。 また、 確信度マトリックス 1 0 6 dは、 ある断片配列が他の断片配列に似てい るという情報が得られたとき、 その断片配列が断片構造に属する確信度 (確率) を表す情報等を格納するマトリックステーブルである。
また、 第 4図において、 制御部 1 0 2は、 O S (O p e r a t i n g S y s t e m) 等の制御プログラム、 各種の処理手順等を規定したプログラム、 および 所要データを格納するための内部メモリを有し、 これらのプログラム等により、 種々の処理を実行するための情報処理を行う。 制御部 1 0 2は、 機能概念的に、 断片構造クラスター作成部 1 0 2 a、 断片配列類似性検索部 1 0 2 b、 類似性マ トリツクス作成部 1 0 2 c、 構造クラスター情報マトリ ックス作成部 1 0 2 d、 確信度マトリックス作成部 1 0 2 e、 問合せ配列入力部 1 0 2 f 、 問合せ断片配 列作成部 1 0 2 g、 問合せ断片配列類似性検索部 1 0 2 h、 断片構造確率計算部 1 0 2 i、 断片配列構造予測部 1 0 2 j、 および、 全体構造最適化部 1 0 2 kを 備えて構成されている。
このうち、 断片構造クラスター作成部 1 0 2 aは、 蛋白質の配列情報および立 体構造情報に基づレ、て、 配列情報を所定の長さに分割した断片配列とそれに対応 する断片構造とを作成し、 当該断片構造の類似度に基づいて断片構造クラスター を作成する断片構造クラスター作成手段である。 また、 断片配列類似性検索部 1 0 2 bは、 断片配列について配列空間上における周囲の断片配列と配列類似性検 索を行う断片配列類似性検索手段である。 また、 類似性マトリ ックス作成部 1 0 2 cは、 断片配列類似性検索手段により断片配列に関して類似性検索をした結果 を、 断片配列の行列で表示した類似性マトリックスを作成する類似性マトリック ス作成手段である。
また、 構造クラスタ一情報マトリックス作成部 1 0 2 dは、 断片配列がどの断 片構造クラスターに属しているかを示す構造クラスター情報を、 断片配列と上記 構造クラスターの行列で表示した構造クラスタ一情報マトリックスを作成する構 造クラスター情報マトリックス作成手段である。 また、 確信度マトリックス作成 部 1 0 2 eは、 断片配列の類似配列が断片構造クラスターに属する確率である確 信度を、 断片配列と構造クラスターとの行列で表示する確信度マトリックスを作 成する確信度マトリックス作成手段である。
また、 問合せ配列入力部 1 0 2 f は、 利用者に問合せ配列を入力させる問合せ 配列入力手段である。 また、 問合せ断片配列作成部 1 0 2 gは、 問合せ配列入力 手段にて入力された問合せ配列を所定の長さに分割して問合せ断片配列を作成す る問合せ断片配列作成手段である。 また、 問合せ断片配列類似性検索部 1 0 2 h は、 問合せ断片配列作成手段にて作成された問合せ断片配列について、 断片配列 と配列類似性検索を行う問合せ断片配列類似性検索手段である。 また、 断片構造 確率計算部 1 0 2 iは、 確信度マトリックス作成手段にて作成した確信度マトリ ックスと、 問合せ断片配列類似性検索手段の検索結果とに基づいて、 問合せ断片 配列が断片構造クラスターに属する確率を計算する断片構造確率計算手段である。 また、 断片配列構造予測部 1 0 2 jは、 断片構造確率計算手段にて計算された 確率に基づいて、 問合せ配列の断片構造を予測する断片配列構造予測手段である。 また、 全体構造最適化部 1 0 2 kは、 最大の確信度を持つ断片構造にて決定され た初期全体構造について所定の最適化を行う全体構造最適化手段である。 なお、 これら各部によって行なわれる処理の詳細については、 後述する。
[システムの処理]
次に、 このように構成された本実施の形態における本システムの処理の一例に ついて、 以下に第 5図〜第 1 5図を参照して詳細に説明する。
[断片構造予測処理]
次に、 断片構造予測処理の詳細について第 5図〜第 1 4図を参照して説明する。 第 5図は、 本実施の形態における本システムの断片構造予測処理の一例を示すフ ローチャートである。
まず、 蛋白質構造予測装置 1 0 0は、 断片構造クラスター作成部 1 0 2 aの処 理により、 蛋白質構造データベース 1 0 6 aにアクセスして、 蛋白質の配列情報 (例えば、 アミノ酸配列情報など) および立体構造情報を取得し、 配列情報を所 定の長さに分割した断片配列とそれに対応する断片構造とを生成する (ステップ S A- 1 ) 。 ここで、 第 6図は、 断片構造クラスター作成部 1 0 2 aが蛋白質構 造データベース 1 0 6 aから断片配列とそれに対応する断片構造とを取得する場 合の一例を示す概念図である。 第 6図に示すように、 断片構造クラスター作成部 1 0 2 aは、 所定の長さの断片配列 (第 6図においては 7アミノ酸残基) 毎に配 列を分割し、 その断片配列が取る断片構造と対応付けて記憶部 1 0 6に格納する。 ここで、 断片の長さは、 7残基に限らず、 様々な長さで断片構造を分割すること ができる。
ついで、 蛋白質構造予測装置 1 0 0は、 断片構造クラスター作成部 1 0 2 aの 処理により、 断片構造の類似度に基づいて断片構造クラスターを作成する (ステ ップ S A— 2 ) 。 ここで、 第 7図は、 断片構造クラスター作成部 1 0 2 aが作成 する断片配列の断片構造クラスターの一例を示す図である。 第 7図に示すように、 断片構造クラスター作成部 1 0 2 aは、 断片構造の類似度 (例えば、 r m s dや d m eなど) を類似度の指標として、 自己組織化マップ (S OM ; s e 1 f o r g a n i z e d m a p ) , k—平均法 (k— m e a n s ) 、 階層的クラスタ リングなどの既知のクラスタリング手法を用いてクラスター化する。
また、 第 8図は、 階層的クラスター手法を用いて断片構造クラスターを作成す る場合の一例を示す図である。 第 8図に示すように、 断片構造クラスター作成部 1 0 2 aは、 全ての断片構造の距離を計算し、 一番距離の近いものを順次まとめ ていくことによりクラスター化を行っている。 ここで、 クラスタ一間の距離は、 例えば、 それぞれのクラスターに属するもの全ての距離を計算して平均をとる等 により計算する。
ついで、 蛋白質構造予測装置 1 0 0は、 断片配列類似性検索部 1 0 2 bの処理 により、 全ての断片配列について配列空間上における周囲の断片配列と b 1 a s t検索等の既存の配列類似性検索手法により、 類似の断片配列、 類似度スコア、 その断片配列が属する断片構造クラスターを取得する (ステップ S A—3 ) 。 こ こで、 第 9図は、 断片配列 Aについて、 その類似の断片配列 (D、 F、 G、 S、 I等) と、 類似度スコア (5 0、 3 0、 2 8、 2 5、 2 0等) と、 その断片配列 が属する断片構造クラスター (α、 /3、 α、 γ等) を検索した場合を示す 概念図である。
っレ、で、 蛋白質構造予測装置 1 0 0は、 類似性マトリツクス作成部 1 0 2 cの 処理により、 断片配列に関して類似性検索をした結果を、 断片配列の行列で表示 した類似 1"生マトリックス 1 0 6 bを作成する (ステップ S A— 4 ) 。 ここで、 第 1 0図は、 類似性マトリックス 1 0 6 bに格納される情報の一例を示す図である。 第 1 0図に示すように、 類似性マトリックス 1 0 6 bには、 各断片配列に関して 類似性検索を実行した結果を格納する。
ついで、 蛋白質構造予測装置 1 0 0は、 構造クラスター情報マトリ ックス作成 部 1 0 2 dの処理により、 断片配列がどの断片構造クラスターに属しているかを 示す構造クラスター情報マトリックス 1 0 6 cを作成する (ステップ S A— 5 ) 。 第 1 1図は、 構造クラスター情報マトリックス 1 0 6 cに格納される情報の一例 を示す図である。 第 1 1図に示すように、 断片配列が属する断片構造クラスター に 「1」 の構造クラスター情報が設定されている。
ついで、 蛋白質構造予測装置 1 0 0は、 確信度マトリックス作成部 1 0 2 eの 処理により、 ある断片配列が他の断片配列と類似しているという情報が得られた ときに、 その断片配列が他の断片配列の構造クラスターに属する確率である確信 度を示す確信度マトリックス 1 0 6 dを作成する (ステップ S A— 6 ) 。 ここで、 第 1 2図は、 確信度マトリツクス作成部 1 0 2 eが類似性マトリックス 1 0 6 b および構造クラスター情報マトリックス 1 0 6 cに基づいて確信度マトリックス 1 0 6 dを作成することを示す概念図である。 第 1 2図に示すように、 確信度マ トリックス作成部 1 0 2 eは、 規格化した類似性マトリックス 1 0 6 bと構造ク ラスター情報マトリックス 1 0 6 cの積をとることにより確信度マトリックス 1 0 6 dを作成する。
ついで、 蛋白質構造予測装置 1 0 0は、 問合せ配列入力部 1 0 2 f の処理によ り、 利用者に問合せ (q u e r y) 配列を入力させる (ステップ SA—7) 。 こ の配列の入力は、 外部のアミノ酸配列を格納したデータベースから所望の配列を 利用者に選択させることにより入力してもよく、 また、 所望の配列を利用者が直 接入力してもよい。
ついで、 蛋白質構造予測装置 100は、 問合せ断片配列作成部 102 gの処理 により、 問合せ配列について所定の長さの断片配列 (例えば 7アミノ酸残基) に 分割し、 その断片配列 (問合せ断片配列) を記憶部 106に格納する (ステップ SA-8) 。 ここで、 断片の長さは、 7残基に限らず、 様々な長さで断片構造を 分割してもよい。
ついで、 蛋白質構造予測装置 100は、 問合せ断片配列類似性検索部 102 h の処理により、 問合せ配列の各断片配列 (問合せ断片配列) について配列類似性 を検索し (ステップ S A— 9) 、 その検索結果に基づいて、 断片構造確率計算部 102 iの処理により、 断片配列が属する断片構造の確率を計算する (ステップ SA— 10) 。 ここで、 第 13図は、 問合せ配列 (問合せ断片配列) Xについて 類似性検索を行い、 その検索結果に確信度マトリックス 106 dを掛け合わせて 属する断片構造の確率を計算する場合の一例を示す概念図である。 第 1 3図に示 すように、 問合せ配列 Xの規格化された類似度べクトルに確信度マトリックス 1 06 dを掛け合わせることにより、 問合せ配列 Xが各断片構造クラスターに属す る確率 (確信度) を計算することができる。
ついで、 蛋白質構造予測装置 100は、 断片配列構造予測部 102 jの処理に より、 この計算された確率 (確信度) に基づいて問合せ配列の断片構造を予測す る (ステップ SA— 1 1) 。 ここで、 第 14図は、 断片配列構造予測部 102 j による断片構造予測の一例を示す概念図である。 第 14図に示すように、 断片配 列構造予測部 102 jは、 問合せ配列 Xの類似配列の属する構造グラスターの確 信度に従ってソートすることにより、 その問合せ断片配列 Xが断片構造ひ に属 すると予想する。 これにて、 断片構造予測処理が終了する。
[全体構造予測処理] 次に、 全体構造予測処理の詳細について第 15図を参照して説明する。 第 15 図は、 本実施形態における本システムの全体構造予測処理の一例を示すフローチ ヤートである。
まず、 利用者が問合せ (qu e r y) 配列を入力する (ステップ SB— 1) 。 そして、 蛋白質構造予測装置 100は、 問合せ断片配列作成部 102 gの処理 により、 問合せ (qu e r y) 配列を所定の長さの断片配列に分割する (ステツ プ SB— 2) 。 ここで、 異なる長さで分割した複数のパターンの断片配列を作成 する (第 15図では 2つのパターンを作成している) 。
そして、 蛋白質構造予測装置 100は、 上述の方法により、 断片構造を予測す る (ステップ SB— 3) 。
そして、 蛋白質構造予測装置 100は、 断片配列構造予測部 102 jの処理に より、 最大の確信度を持つ断片構造により初期の全体構造を作成する (ステップ SB— 4) 。
そして、 蛋白質構造予測装置 100は、 全体構造最適化部 102 kの処理によ り、 統計的ポテンシャル法や、 MC法や、 シミュレ一テッド 'アニーリング (S A) などを用いて、 全体構造について最適化を行う (ステップ SB— 5) 。 ここで、 最適化の一例を以下に説明する。
(1) 全体構造のエネルギー値 (E。ld) を計算する。
(2) 継ぎ目の部分については、 ランダムに二面角を動かし、 動かした後のエネ ルギー値 (Enew) を計算し、 動かした二面角が次のステップで採用される確率
P を、
Figure imgf000023_0001
(ここで、 ΔΕ= Enew - E。ld) により計算する。
(3) 断片構造については、 予測された断片構造の中からランダムに選んで構造 を入れ替え、 入れ替えた後の確信度 (P ne;) のエネルギー値 (E ne;) を計算し、 入れ替えた後の断片構造が次のステップで採用される確率 /0 を、
P = P new e X p ( - β E n / P old e x p 、—/3 E old) により計算する。
そして、 (1 ) 力、ら ( 3 ) を繰返すことにより最適化を行う。 これにて、 全体 構造予測処理が終了する。
[他の実施の形態]
さて、 これまで本発明の実施の形態について説明したが、 本発明は、 上述した 実施の形態以外にも、 上記特許請求の範囲に記載した技術的思想の範囲内におい て種々の異なる実施の形態にて実施されてよいものである。
例えば、 蛋白質構造予測装置 1 0 0がスタンドアローンの形態で処理を行う場 合を一例に説明したが、 蛋白質構造予測装置 1 0 0とは別筐体で構成されるクラ イアント端末からの要求に応じて処理を行い、 その処理結果を当該クライアント 端末に返却するように構成してもよレ、。
また、 実施の形態において説明した各処理のうち、 自動的に行なわれるものと して説明した処理の全部または一部を手動的に行うこともでき、 あるいは、 手動 的に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的 に行うこともできる。
この他、 上記文書中や図面中で示した処理手順、 制御手順、 具体的名称、 各種 の登録データや検索条件等のパラメータを含む情報、 画面例、 データベース構成 については、 特記する場合を除いて任意に変更することができる。
また、 蛋白質構造予測装置 1 0 0に関して、 図示の各構成要素は機能概念的な ものであり、 必ずしも物理的に図示の如く構成されていることを要しない。 例えば、 蛋白質構造予測装置 1 0 0の各部 (各装置) が備える処理機能、 特に 制御部にて行なわれる各処理機能については、 その全部または任意の一部を、 C PU (C e n t r a l P r o c e s s i n g U n i t ) および当該 C P Uに て解釈実行されるプログラムにて実現することができ、 あるいは、 ワイヤ一ドロ ジックによるハードウェアとして実現することも可能である。 なお、 プログラム は、 後述する記録媒体に記録されており、 必要に応じて蛋白質構造予測装置 10 0に機械的に読み取られる。 すなわち、 ROMまたは HDなどの記憶部 106な どには、 OS (Op e r a t i n g Sy s t em) と協働して CPUに命令を 与え、 各種処理を行うためのコンピュータプログラムが記録されている。 このコ ンピュータプログラムは、 RAMにロードされることによって実行され、 CPU と協働して制御部を構成する。
し力 しながら、 このコンピュータプログラムは、 蛋白質構造予測装置 100に 対して任意のネットワークを介して接続されたアプリケーションプログラムサー バに記録されてもよく、 必要に応じてその全部または一部をダウンロードするこ とも可能である。
また、 本発明にかかるプログラムを、 コンピュータ読み取り可能な記録媒体に 格納することもできる。 ここで、 この 「記録媒体」 とは、 フレキシブルディスク、 光磁気ディスク、 ROM、 E PROM, EEPROM、 CD-ROM, MO、 D VD等の任意の 「可搬用の物理媒体」 や、 各種コンピュータシステムに内蔵され る ROM、 RAM, HD等の任意の 「固定用の物理媒体」 、 あるいは、 LAN、 WAN, インターネットに代表されるネットワークを介してプログラムを送信す る場合の通信回線や搬送波のように、 短期にプログラムを保持する 「通信媒体」 を含むものとする。
また、 「プログラム」 とは、 任意の言語や記述方法にて記述されたデータ処理 方法であり、 ソースコードやバイナリコード等の形式を問わなレ、。 なお、 「プロ グラム」 は必ずしも単一的に構成されるものに限られず、 複数のモジュールゃラ イブラリとして分散構成されるものや、 OS (Op e r a t i n g Sy s t e m) に代表される別個のプログラムと協働してその機能を達成するものをも含む。 なお、 実施の形態に示した各装置において記録媒体を読み取るための具体的な構 成、 読み取り手順、 あるいは、 読み取り後のインストール手順等については、 周 知の構成や手順を用いることができる。
また、 ネットワーク 300は、 蛋白質構造予測装置 100と外部システム 20 0とを相互に接続する機能を有し、 例えば、 インターネットや、 イントラネット や、 LAN (有線 無線の双方を含む) や、 VANや、 パソコン通信網や、 公衆 電話網 (アナログ デジタルの双方を含む) や、 専用回線網 (アナログ デジタ ルの双方を含む) や、 CATV網や、 IMT2000方式、 GSM方式または P DCZPDC— P方式等の携帯回線交換網 携帯バケツト交換網や、 無線呼出網 や、 B 1 u e t o o t h等の局所無線網や、 PHS網や、 CS、 BSまたは I S DB等の衛星通信網等のうちいずれかを含んでもよい。 すなわち、 本システムは、 有線 ·無線を問わず任意のネットヮ一クを介して、 各種データを送受信すること ができる。
記憶部 106に格納される各種のデータベース等 (蛋白質構造データベース 1 06 a〜確信度マトリックス 106 d) は、 RAM、 ROM等のメモリ装置、 ノヽ ードディスク等の固定ディスク装置、 フレキシブルディスク、 光ディスク等のス トレージ手段であり、 各種処理やウェブサイト提供に用いる各種のプログラムや テ一ブルやフアイルゃデ一タベースゃゥヱブベージ用フアイル等を格納する。 また、 蛋白質構造予測装置 100は、 既知のパーソナルコンピュータ、 ワーク ステーション等の情報処理端末等の情報処理装置にプリンタゃモニタやイメージ スキャナ等の周辺装置を接続し、 該情報処理装置に本発明の方法を実現させるソ フトウェア (プログラム、 データ等を含む) を実装することにより実現してもよ レ、。
さらに、 蛋白質構造予測装置 100の分散 ·統合の具体的形態は図示のものに 限られず、 その全部または一部を、 各種の負荷等に応じた任意の単位で、 機能的 または物理的に分散 ·統合して構成することができる。 例えば、 各データベース を独立したデータベース装置として独立に構成してもよく、 また、 処理の一部を C G I (Co mm o n Ga t ewa y I n t e r l a c e; ¾r用レヽて実現し てもよい。
以上詳細に説明したように、 本発明によれば、 蛋白質の配列情報および立体構 造情報に基づレ、て、 配列情報を所定の長さに分割した断片配列とそれに対応する 断片構造とを作成し、 当該断片構造の類似度に基づいて断片構造クラスタ一を作 成し、 断片配列について配列空間上における周囲の断片配列と配列類似性検索を 行い、 断片配列の類似配列が断片構造クラスターに属する確率である確信度を、 断片配列と構造クラスターとの行列で表示する確信度マトリックスを作成する。 そして、 禾 IJ用者に問合せ配列を入力させ、 入力された問合せ配列を所定の長さに 分割して問合せ断片配列を作成し、 作成された問合せ断片配列について、 断片配 列と配列類似性検索を行い、 作成した確信度マトリックスと検索結果とに基づい て、 問合せ断片配列が断片構造クラスターに属する確率を計算し、 計算された確 率に基づいて、 問合せ配列の断片構造を予測するので、 相関の複雑な多様体や相 関の確信度をも表現可能なように、 部分配列から部分構造の相関を計算し、 その 部分構造を予測することができるようになる。 すなわち、 本発明は、 構造を計算 する際、 相関の度合に応じて複数の構造候補の確率 (確信度) を与えて持たせて おく (確信度の関数を構造変化の確率として用いる) ことができる蛋白質構造予 測装置、 蛋白質構造予測方法、 プログラム、 および、 記録媒体を提供することが できる。
また、 蛋白質立体構造を相関の大きな部分構造のプロックとして考える手法は 以前からあるが、 本装置ではまず部分構造のクラスターを作り、 構造配列相関多 様体の複雑な形を考慮して、 問合せ (q u e r y ) 配列が与えられた後に動的に 配列相関クラスターを作ることができる蛋白質構造予測装置、 蛋白質構造予測方 法、 プログラム、 および、 記録媒体を提供することができる。
また、 本発明によれば、 構造クラスターを違う観点から (例えば、 断片配列の 長さ、 断片構造の解像度、 構造クラスターの大きさ、 相関の度合い等) いくつも 作り、 それぞれのデータセッ卜からの構造予測結果を統合して構造を計算するこ とができる蛋白質構造予測装置、 蛋白質構造予測方法、 プログラム、 および、 記 録媒体を提供することができる。
また、 本発明によれば、 断片配列に関して類似性検索をした結果を、 断片配列 の行列で表示した類似性マトリックスを作成する類似性マトリックス作成手段と、 断片配列がどの断片構造クラスターに属しているかを示す構造クラスター情報を、 断片配列と構造クラスターの行列で表示した構造クラスター情報マトリックスを 作成し、 作成した類似性マトリックスと構造クラスタ一情報マトリックスとに基 づいて、 確信度マトリックスを作成するので、 行列演算手法を用いて類似性検索 結果に基づいて簡易かつ精緻に確信度を計算することができる蛋白質構造予測装 置、 蛋白質構造予測方法、 プログラム、 および、 記録媒体を提供することができ る。
さらに、 本発明によれば、 最大の確信度を持つ断片構造にて決定された初期全 体構造について所定の最適化を行うので、 まず、 初期構造を作成する際に様々な 可能な断片配列に分割しそれらの最適な予測結果を統合することができるように なる。 また、 初期構造をさらに最適化を行うことにより、 全体構造予測の精度を さらに上げることができる蛋白質構造予測装置、 蛋白質構造予測方法、 プログラ ム、 および、 記録媒体を提供することができる。 産業上の利用可能性
以上のように、 本発明にかかる蛋白質構造予測装置、 蛋白質構造予測方法、 プ ログラム、 および、 記録媒体は、 蛋白質の立体構造予測、 蛋白質の相互用部位の 解析、 および、 解析結果を用いた創薬等に用いることができる。

Claims

請 求 の 範 囲
1 . 蛋白質の配列情報および立体構造情報に基づいて、 配列情報を所定の長さ に分割した断片配列とそれに対応する断片構造とを作成し、 当該断片構造の類似 度に基づいて断片構造クラスターを作成する断片構造クラスター作成手段と、 上記断片配列について配列空間上における周囲の上記断片配列と配列類似性検 索を行う断片配列類似性検索手段と、
上記断片配列の類似配列が上記断片構造クラスターに属する確率である確信度 を、 上記断片配列と上記構造クラスターとの行列で表示する確信度マトリックス を作成する確信度マトリックス作成手段と、
利用者に問合せ配列を入力させる問合せ配列入力手段と、
上記問合せ配列入力手段にて入力された上記問合せ配列を所定の長さに分割し て問合せ断片配列を作成する問合せ断片配列作成手段と、
上記問合せ断片配列作成手段にて作成された上記問合せ断片配列について、 上 記断片配列と配列類似性検索を行う問合せ断片配列類似性検索手段と、
上記確信度マトリックス作成手段にて作成した上記確信度マトリックスと、 上 記問合せ断片配列類似性検索手段の検索結果とに基づレ、て、 上記問合せ断片配列 が上記断片構造クラスターに属する確率を計算する断片構造確率計算手段と、 上記断片構造確率計算手段にて計算された上記確率に基づいて、 上記問合せ配 列の上記断片構造を予測する断片配列構造予測手段と、
を備えたことを特徴とする蛋白質構造予測装置。
2 . 上記断片配列類似性検索手段により上記断片配列に関して類似性検索をし た結果を、 断片配列の行列で表示した類似性マトリックスを作成する類似性マト リ ックス作成手段と、
上記断片配列がどの上記断片構造クラスタ一に属しているかを示す構造クラス タ一情報を、 上記断片配列と上記構造クラスターの行列で表示した構造クラスタ 一情報マトリックスを作成する構造クラスター情報マトリックス作成手段と、 をさらに備え、
上記確信度マトリックス作成手段は、 上記類似性マトリックス作成手段にて作 成した上記類似性マトリッタスと、 上記構造クラスター情報マトリックス作成手 段にて作成した上記構造クラスター情報マトリックスとに基づいて、 上記確信度 マトリックスを作成する、
ことを特徴とする請求の範囲第 1項に記載の蛋白質構造予測装置。
3 . 最大の上記確信度を持つ上記断片構造にて決定された初期全体構造につい て所定の最適化を行う全体構造最適化手段、
をさらに備えたことを特徴とする請求の範囲第 1項または第 2項に記載の蛋白 質構造予測装置。
4 . 蛋白質の配列情報および立体構造情報に基づいて、 配列情報を所定の長さ に分割した断片配列とそれに対応する断片構造とを作成し、 当該断片構造の類似 度に基づいて断片構造クラスターを作成する断片構造クラスター作成ステップと、 上記断片配列について配列空間上における周囲の上記断片配列と配列類似性検 索を行う断片配列類似性検索ステップと、
上記断片配列の類似配列が上記断片構造クラスターに属する確率である確信度 を、 上記断片配列と上記構造クラスターとの行列で表示する確信度マトリックス を作成する確信度マトリックス作成ステップと、
利用者に問合せ配列を入力させる問合せ配列入力ステップと、
上記問合せ配列入力ステップにて入力された上記問合せ配列を所定の長さに分 割して問合せ断片配列を作成する問合せ断片配列作成ステップと、
上記問合せ断片配列作成ステップにて作成された上記問合せ断片配列について、 上記断片配列と配列類似性検索を行う問合せ断片配列類似性検索ステツプと、 上記確信度マトリックス作成ステップにて作成した上記確信度マトリックスと、 上記問合せ断片配列類似性検索ステップの検索結果とに基づいて、 上記問合せ断 片配列が上記断片構造クラスターに属する確率を計算する断片構造確率計算ステ ップと、
上記断片構造確率計算ステップにて計算された上記確率に基づいて、 上記問合 せ配列の上記断片構造を予測する断片配列構造予測ステップと、
を含むことを特徴とする蛋白質構造予測方法。
5 . 上記断片配列類似性検索ステップにより上記断片配列に関して類似性検索 をした結果を、 断片配列の行列で表示した類似性マトリックスを作成する類似性 マトリ ックス作成ステップと、
上記断片配列がどの上記断片構造クラスターに属しているかを示す構造クラス ター情報を、 上記断片配列と上記構造クラスターの行列で表示した構造クラスタ 一情報マトリックスを作成する構造クラスター情報マトリックス作成ステップと、 をさらに含み、
上記確信度マトリックス作成ステップは、 上記類似性マトリックス作成ステッ プにて作成した上記類似性マトリックスと、 上記構造クラスタ一情報マトリック ス作成ステップにて作成した上記構造クラスター情報マトリックスとに基づいて、 上記確信度マトリックスを作成する、
ことを特徴とする請求の範囲第 4項に記載の蛋白質構造予測方法。
6 . 最大の上記確信度を持つ上記断片構造にて決定された初期全体構造につい て所定の最適化を行う全体構造最適化ステップ、
をさらに含むことを特徴とする請求の範囲第 4項または第 5項に記載の蛋白質 構造予測方法。
7 . 蛋白質の配列情報および立体構造情報に基づいて、 配列情報を所定の長さ に分割した断片配列とそれに対応する断片構造とを作成し、 当該断片構造の類似 度に基づいて断片構造クラスターを作成する断片構造クラスター作成ステップと、 上記断片配列について配列空間上における周囲の上記断片配列と配列類似性検 索を行う断片配列類似性検索ステップと、
上記断片配列の類似配列が上記断片構造クラスターに属する確率である確信度 を、 上記断片配列と上記構造クラスターとの行列で表示する確信度マトリックス を作成する確信度マトリックス作成ステップと、
利用者に問合せ配列を入力させる問合せ配列入力ステップと、
上記問合せ配列入力ステップにて入力された上記問合せ配列を所定の長さに分 割して問合せ断片配列を作成する問合せ断片配列作成ステップと、
上記問合せ断片配列作成ステップにて作成された上記問合せ断片配列について、 上記断片配列と配列類似性検索を行う問合せ断片配列類似性検索ステップと、 上記確信度マトリックス作成ステップにて作成した上記確信度マトリックスと、 上記問合せ断片配列類似性検索ステップの検索結果とに基づいて、 上記問合せ断 片配列が上記断片構造クラスターに属する確率を計算する断片構造確率計算ステ ップと、
上記断片構造確率計算ステップにて計算された上記確率に基づいて、 上記問合 せ配列の上記断片構造を予測する断片配列構造予測ステップと、
を含む蛋白質構造予測方法をコンピュータに実行させることを特徴とするプロ グラム。
8 . 上記断片配列類似性検索ステップにより上記断片配列に関して類似性検索 をした結果を、 断片配列の行列で表示した類似性マトリックスを作成する類似性 マトリックス作成ステップと、
上記断片配列がどの上記断片構造クラスターに属しているかを示す構造クラス タ一情報を、 上記断片配列と上記構造クラスターの行列で表示した構造クラスタ —情報マトリックスを作成する構造クラスター情報マトリックス作成ステップと、 をさらに含み、 上記確信度マトリックス作成ステップは、 上記類似性マトリツクス作成ステッ プにて作成した上記類似性マトリックスと、 上記構造クラスタ一情報マトリック ス作成ステップにて作成した上記構造クラスター情報マトリックスとに基づいて、 上記確信度マトリックスを作成する、
ことを特徴とする請求の範囲第 7項に記載のプロダラム。
9 . 最大の上記確信度を持つ上記断片構造にて決定された初期全体構造につい て所定の最適化を行う全体構造最適化ステップ、
をさらに含むことを特徴とする請求の範囲第 7項または第 8項に記載のプログ ラム。
1 0 . 蛋白質の配列情報および立体構造情報に基づいて、 配列情報を所定の長 さに分割した断片配列とそれに対応する断片構造とを作成し、 当該断片構造の類 似度に基づいて断片構造クラスターを作成する断片構造クラスター作成ステップ と、
上記断片配列について配列空間上における周囲の上記断片配列と配列類似性検 索を行う断片配列類似性検索ステップと、
上記断片配列の類似配列が上記断片構造クラスターに属する確率である確信度 を、 上記断片配列と上記構造クラスターとの行列で表示する確信度マトリックス を作成する確信度マトリックス作成ステツプと、
利用者に問合せ配列を入力させる問合せ配列入力ステップと、
上記問合せ配列入力ステップにて入力された上記問合せ配列を所定の長さに分 割して問合せ断片配列を作成する問合せ断片配列作成ステップと、
上記問合せ断片配列作成ステップにて作成された上記問合せ断片配列について、 上記断片配列と配列類似性検索を行う問合せ断片配列類似性検索ステップと、 上記確信度マトリックス作成ステップにて作成した上記確信度マトリックスと、 上記問合せ断片配列類似性検索ステップの検索結果とに基づいて、 上記問合せ断 片配列が上記断片構造クラスターに属する確率を計算する断片構造確率計算ステ ップと、
上記断片構造確率計算ステップにて計算された上記確率に基づいて、 上記問合 せ配列の上記断片構造を予測する断片配列構造予測ステップと、
を含む蛋白質構造予測方法をコンピュータに実行させるプログラムを記録した ことを特徴とするコンピュータ読み取り可能な記録媒体。
1 1 . 上記断片配列類似性検索ステップにより上記断片配列に関して類似性検 索をした結果を、 断片配列の行列で表示した類似性マトリックスを作成する類似 性マトリ ックス作成ステップと、
上記断片配列がどの上記断片構造クラスターに属しているかを示す構造クラス ター情報を、 上記断片配列と上記構造クラスターの行列で表示した構造クラスタ 一情報マトリックスを作成する構造クラスター情報マトリックス作成ステップと、 をさらに含み、
上記確信度マトリックス作成ステップは、 上記類似性マトリックス作成ステツ プにて作成した上記類似性マトリックスと、 上記構造クラスタ一情報マトリック ス作成ステップにて作成した上記構造クラスター情報マトリックスとに基づいて、 上記確信度マトリックスを作成するプログラムを記録したことを特徴とする請求 の範囲第 1 0項に記載のコンピュータ読み取り可能な記録媒体。
1 2 . 最大の上記確信度を持つ上記断片構造にて決定された初期全体構造につい て所定の最適化を行う全体構造最適化ステップ、
をさらに含むプログラムを記録したことを特徴とする請求の範囲第 1 0項また は第 1 1項に記載のコンピュータ読み取り可能な記録媒体。
PCT/JP2002/013832 2001-12-27 2002-12-27 Dispositif de prediction de structure proteique, procede de prediction de structure proteique, programme et support d'enregistrement associes WO2003056461A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP02792060A EP1460559A4 (en) 2001-12-27 2002-12-27 DEVICE FOR PREDICTING A PROTEIN STRUCTURE, METHOD FOR PREDICTING A PROTEIN STRUCTURE, PROGRAM AND RECORDING MEDIUM
US10/846,622 US20050026217A1 (en) 2001-12-27 2004-05-17 Protein structure prediction device, protein structure prediction method, program, and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2001-398569 2001-12-27
JP2001398569A JP4084040B2 (ja) 2001-12-27 2001-12-27 蛋白質構造予測装置、蛋白質構造予測方法、プログラム、および、記録媒体

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US10/846,622 Continuation-In-Part US20050026217A1 (en) 2001-12-27 2004-05-17 Protein structure prediction device, protein structure prediction method, program, and recording medium

Publications (1)

Publication Number Publication Date
WO2003056461A1 true WO2003056461A1 (fr) 2003-07-10

Family

ID=19189362

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2002/013832 WO2003056461A1 (fr) 2001-12-27 2002-12-27 Dispositif de prediction de structure proteique, procede de prediction de structure proteique, programme et support d'enregistrement associes

Country Status (4)

Country Link
US (1) US20050026217A1 (ja)
EP (1) EP1460559A4 (ja)
JP (1) JP4084040B2 (ja)
WO (1) WO2003056461A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1796009A3 (en) * 2005-12-08 2007-08-22 Electronics and Telecommunications Research Institute System for and method of extracting and clustering information
JP5732697B2 (ja) * 2010-07-02 2015-06-10 Necソリューションイノベータ株式会社 予測装置、予測方法、プログラムおよび記録媒体
CN104200130B (zh) * 2014-07-23 2017-08-11 浙江工业大学 一种基于树结构副本交换和片段组装的蛋白质结构预测方法
JP2017037377A (ja) * 2015-08-07 2017-02-16 富士通株式会社 情報処理装置、シミュレーション方法、およびシミュレーションプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3012441B2 (ja) * 1993-10-01 2000-02-21 日本電気株式会社 タンパク質立体構造予測方法
JP3585613B2 (ja) * 1995-12-08 2004-11-04 富士通株式会社 蛋白質の二次構造予測方法及び装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YI T.-M. ET AL.: "Protein secondary structure prediction using nearest-neighbor methods", JOURNAL OF MOLECULAR BIOLOGY, vol. 232, no. 4, 1993, pages 1117 - 1129, XP002965206 *

Also Published As

Publication number Publication date
JP4084040B2 (ja) 2008-04-30
JP2003196575A (ja) 2003-07-11
EP1460559A4 (en) 2007-01-24
US20050026217A1 (en) 2005-02-03
EP1460559A1 (en) 2004-09-22

Similar Documents

Publication Publication Date Title
Pagès et al. Protein model quality assessment using 3D oriented convolutional neural networks
Mulder et al. The InterPro database and tools for protein domain analysis
CA2700033A1 (en) Method, apparatus and computer program product for performing a visual search using grid-based feature organization
Selvitopi et al. Distributed many-to-many protein sequence alignment using sparse matrices
JP2002245048A (ja) 画像検索方法および画像検索装置
JP2007334402A (ja) クラスタリングされたベクトルデータを検索するサーバ、システム及び方法
CA2942106A1 (en) Aligning and clustering sequence patterns to reveal classificatory functionality of sequences
Ellis et al. diBELLA: Distributed long read to long read alignment
WO2008156773A1 (en) Biological database index and query searching
JPWO2003001409A1 (ja) 構造化データ処理装置
CN111274455A (zh) 图数据处理方法、装置、电子设备及计算机可读介质
WO2003056461A1 (fr) Dispositif de prediction de structure proteique, procede de prediction de structure proteique, programme et support d'enregistrement associes
JP2003330934A (ja) 変異体配列解析装置、変異体配列解析方法、プログラム、および、記録媒体
Vaddadi et al. Read mapping on genome variation graphs
Woo et al. MONACO: accurate biological network alignment through optimal neighborhood matching between focal nodes
EP1471444A1 (en) Rna sequence analyzer, and rna sequence analysis method, program and recording medium
EP1460560A1 (en) Apparatus for predicting interaction site, method of predicting interaction site, program and recording medium
JP2003242154A (ja) 遺伝子発現情報管理装置、遺伝子発現情報管理方法、プログラム、および、記録媒体
KR100478792B1 (ko) 2차원 젤 이미지를 이용한 유사 단백질 검색 장치 및 방법
JP4054574B2 (ja) 相互作用部位予測装置、相互作用部位予測方法、プログラム、および、記録媒体
JP4250443B2 (ja) 抗体設計装置、抗体設計方法、プログラム、および、記録媒体
Coatney et al. Motifminer: A general toolkit for efficiently identifying common substructures in molecules
Plewczynski et al. Molecular modeling of phosphorylation sites in proteins using a database of local structure segments
Tapinos et al. De novo assembly of nucleotide sequences in a compressed feature space
JP2004109053A (ja) 結合部位予測方法、結合部位予測装置、プログラム、および、記録媒体

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR IE IT LU MC NL PT SE SI SK TR

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2002792060

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 10846622

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2002792060

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 2002792060

Country of ref document: EP