WO2005027013A1 - タンパク質の膜貫通領域の数または位置の予測装置 - Google Patents

タンパク質の膜貫通領域の数または位置の予測装置 Download PDF

Info

Publication number
WO2005027013A1
WO2005027013A1 PCT/JP2004/012967 JP2004012967W WO2005027013A1 WO 2005027013 A1 WO2005027013 A1 WO 2005027013A1 JP 2004012967 W JP2004012967 W JP 2004012967W WO 2005027013 A1 WO2005027013 A1 WO 2005027013A1
Authority
WO
WIPO (PCT)
Prior art keywords
model
sequence
data
protein
sub
Prior art date
Application number
PCT/JP2004/012967
Other languages
English (en)
French (fr)
Inventor
Takashi Matsumoto
Daigo Muramatsu
Shinichiro Hashimoto
Takahide Tsunashima
Takashi Kaburagi
Masahiro Sasaki
Original Assignee
Takashi Matsumoto
Daigo Muramatsu
Shinichiro Hashimoto
Takahide Tsunashima
Takashi Kaburagi
Masahiro Sasaki
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Takashi Matsumoto, Daigo Muramatsu, Shinichiro Hashimoto, Takahide Tsunashima, Takashi Kaburagi, Masahiro Sasaki filed Critical Takashi Matsumoto
Publication of WO2005027013A1 publication Critical patent/WO2005027013A1/ja

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Definitions

  • the present invention relates to prediction of the number and / or position of transmembrane regions of a protein. Specifically, the present invention relates to an apparatus, a method, and a computer program for estimating the number and Z or position of transmembrane regions of a protein.
  • a protein having a linear amino acid sequence exhibits a variety of three-dimensional structures according to its own properties and the surrounding environment such as a liquid surrounding the protein. And such a three-dimensional structure greatly affects the function of the protein.
  • the importance of the problem of so-called membrane protein structure prediction that penetrates cell membranes is described in detail in, for example, Non-Patent Documents 1, 2, and 4-16.
  • Non-Patent Document 3 the prediction of the number of transmembrane regions using a hidden Markov model is disclosed. Since the state of the force model is not an open-loop structure, the transmembrane The number of regions is not fixed. Further, it is not disclosed that the data string used may be related to the hide opening pathology and charge of each amino acid residue.
  • Non-Patent Document 1 T. Hirokawa, S. Boon-Chieng, and S. Mitaku, 'SOSUI: classification and secondary structure prediction system for membrane proteins, "Bioinformatics, vol. 14, pp. 378-379, 1998.
  • Non-Patent Document 2 Y. Inoue, Y. Sugiyama, M. Ikeda, and T. bhimizu, "Classification of Eukaryotic 7- tms Transmembrane Proteins by Binary Topology Patterns, ⁇ Genome Informatics, vol. 12, pp. 336-337, 2001.
  • Non-Patent Reference Document 3 A. Krogh, B. Larsson, G. von Heijne, and E. Sonnhammer, "
  • Non-Patent Document 4 S. Moller, E. Kriventseva, and Apweiler, "A collection of well characterized integral membrane proteins, eioinformatics, vol. 16, pp. 1159-1160, 2000.
  • the present invention seeks to solve a limited problem that is not a general problem in protein structure prediction.
  • prediction is also made when the amino acid sequence is a water-soluble protein or a membrane protein, but it is assumed that the given amino acid sequence is a membrane protein.
  • An object of the present invention is to predict the number of transmembrane regions and the positions of transmembrane regions for a given sequence of amino acid residues.
  • the present invention provides a new algorithm for predicting the number and / or location of transmembrane regions.
  • This algorithm computes the charge from the noid mouthpathy index and charge associated with a stochastic dynamical system expressed as a function of the position of the amino acid residue. This uses a two-dimensional trajectory (trajectory).
  • One embodiment of the present invention is a number and z or a prediction means of a protein transmembrane region as a dedicated device realized using computer software.
  • a data extracting means for obtaining a hide mouth passivity data sequence and a charge data train corresponding to an amino acid residue sequence of a received protein, and storing the obtained hide mouth passivity data train and the charge data train And a transmembrane region and a loop region of an amino acid residue sequence for predicting the number or position of the transmembrane region of the protein based on the pass-through data sequence and the charge data sequence.
  • model storage means for holding a learned model parameter for defining the Hidden Markov Model, hide-open path data and charge data for an amino acid residue sequence as a test sequence
  • the column and the data storage means are also received, and the number and the Z or the position of the transmembrane region are changed based on the model parameters.
  • a predicting device for calculating the number or position of the protein transmembrane region comprising:
  • the hide mouth passie data is data of a hide mouth passie index.
  • the hydropathic index is an index indicating the degree of hydrophobicity determined for each amino acid.
  • a hydridic acidity index of an amino acid corresponding to each amino acid residue contained in a protein is used.
  • the charge data is data representing the charge state of the amino acid corresponding to each amino acid residue.
  • the data storage means and the model storage means are storage means such as electronic files which can be logically identified in a computer or the like. Various modes such as volatile storage (RAM, etc.), non-volatile storage (hard disk, non-volatile memory chip, etc.), internal storage, external storage, etc. It does not specifically ask for hardware specifications.
  • Model storage means holds trained model parameters for defining the hidden Markov model.
  • the tank A hidden Markov model is used to calculate the number of transmembrane regions of the protein.
  • This Hidden Markov Model has portions expressing the transmembrane region and the loop region of the amino acid residue sequence, respectively.
  • the data extraction means and the calculation means are functional means for realizing information processing by software using computer hardware.
  • the data extracting means has a function of extracting a hide mouth pathacy data sequence and a charge data sequence corresponding to the received residue sequence of the protein.
  • the conversion table means for giving each of the amino acid passinette data and charge for each amino acid.
  • the conversion table means is a look-up table which holds the conversion rules for giving the above-mentioned hide-portacy index and charge for each of the 20 amino acids.
  • the calculating means calculates a probability of providing a test data array, an aperture pass data sequence and a charge data sequence corresponding to the test array while changing the number, Z or position of the transmembrane region, and maximizes the probability. Has the function of outputting the number of trans-membrane. Thus, the most appropriate number or position of the transmembrane region for a given amino acid residue can be calculated.
  • a hidden Markov model learning means in which the hidden Markov model represented by the model parameters is realized, wherein the number, Z, or position of the transmembrane region is known as a training sequence. Learning was performed based on the hydropathy data and charge data in the amino acid residue sequence and the number and Z or position of the transmembrane region of the protein having the amino acid residue, and the learning was obtained. It is also preferable that the apparatus further comprises a hidden Markov model learning means for storing model parameters in the model storage means.
  • the learning means in the present invention optimizes specific model parameters of the hidden Markov model by an array for training (training array).
  • the hidden Markov model includes at least one first-type submodel expressing a transmembrane region of the protein and at least one second-type submodel expressing a loop region of the protein.
  • the hidden Markov model according to the present invention may have at least two types of submodels having different structures (first type and second type submodel). Note that even if the submodels are of the same type, the force has the same topological structure and the specific model parameters differ (including the difference between the output probability and the transition probability).
  • Open loop coupling is a structure in which the transition between submodels is limited to one direction and has no transition that loops between submodels, and has the advantage that the number of transmembrane regions does not change.
  • the model parameter determines the output probability of the pass-through index of the mouth opening set by performing flooring and smoothing for each of the first type sub-model and the second type sub-model.
  • a first group of parameters, a second group of parameters for setting the charge output probability, which are set by performing flooring on each of the first type submodel and the second type submodel, and the first type It is also preferable to include the state transition probabilities between the states included in each of the sub-models and the second-type sub-models.
  • Flooring is a method that is introduced to prevent the calculated probability value from becoming zero, and that avoids this inconvenience by increasing the minimum value of the parameters (state transition probability, output probability) by a certain amount. It is. Smoothing is a technique for smoothing the value being calculated based on a certain rule to prevent the fluctuation of non-essential data from affecting the calculation result.
  • the first type sub-model has a plurality of states each of which has a self-loop and is connected to each other in a left-to-right type.
  • the second type sub-model has a self-loop. It is also preferable to have a single state.
  • a method for predicting the number or position of a transmembrane region of a test sequence comprising the steps of: receiving an amino acid residue sequence of a protein that is a test sequence; An extraction step of obtaining a hide mouth passie data sequence and a charge data train for the test sequence; and accepting the hide mouth passie data sequence and the charge data train in accordance with the test sequence, based on known protein data.
  • the transmembrane region Calculating the probability of providing a hide-portion pass data sequence and a charge data sequence corresponding to the test sequence while changing the number and z or position of the test sequence, and the transmembrane region number calculating means maximizes the probability. Calculating the number and z or position of the transmembrane region.
  • a step of receiving an amino acid residue sequence of a protein known as a training sequence, and providing the data sequence and the data on the accepted training sequence, idopathy data, and charge data A calculating step of performing learning based on the number and Z or position of the transmembrane regions of the protein, and a storing step of storing model parameters obtained in the learning step in the model storage means.
  • a method is provided to perform prior to the step.
  • a computer program for causing a computer to operate as the above-described device and a computer program for causing a computer to execute the above-described method. Is done.
  • FIG. 1 is a block diagram showing a configuration of a device for predicting the number of transmembrane regions according to an embodiment of the present invention.
  • FIG. 2 is a flowchart showing a method for calculating model parameters according to the embodiment of the present invention.
  • FIG. 3 is a flowchart showing a method for estimating the number of transmembrane regions according to the embodiment of the present invention.
  • FIG. 4 shows the KD index (an example of a noid mouth pathacy index) and the trajectory of charge in an example of a training sequence according to the embodiment of the present invention.
  • FIG. 5 (a) is an explanatory diagram showing the overall model structure of a hidden Markov model used in the present invention.
  • FIG. 5B is an explanatory diagram showing a sub-model of the transmembrane region.
  • FIG. 5 (c) is a diagram showing a sub model of the loop region.
  • FIG. 6 is an explanatory diagram for explaining a criterion for evaluating prediction performance for the position of a transmembrane region.
  • A is the case where the identification result of the transmembrane region can be predicted (TP)
  • b is the case where the identification result of the transmembrane region cannot be predicted
  • case (FN) case where the position is predicted to be a transmembrane region (FP).
  • FIG. 7 is an explanatory diagram showing the results of predicting the positions of the transmembrane regions in the four proteins in comparison with the identification results.
  • t is a number assigned to an amino acid residue and represents a position.
  • T is the total number of amino acid residues.
  • [0028] There are 20 types of amino acids that make up a protein, and the force is usually represented by a 20-character symbol. This sequence represents a sequence of numerical values related to amino acids instead of a 20-character symbol.
  • the data of the hydropathic index (numerical value indicating the hydrid pathacy) of each amino acid and the data of the electric charge are compared.
  • the two-dimensional space is a sequence of amino acid residues (ie, the primary structure of the protein).
  • auxiliary sequence ⁇ Q ⁇ is a concept corresponding to the actual amino acid residue sequence.
  • This auxiliary array ⁇ Q ⁇ is a one-dimensional
  • Equation 2 Given by Where H indicates the underlying model structure.
  • the first and second equations in Equation 2 are general forms, and the last equation is a hidden Markov model used in the present invention.
  • a transition probability to state state j, b 1 is the state i is Nono id port
  • the hide mouth passy index takes a value of a real limited number of indices, for example, 17 for a Kyte-Doolittle index (Non-Patent Document 5). Similarly, charge can only take on a finite number of values (+1, 0, -1).
  • Equation 2 The method described by Equation 2 is used for a nonlinear time series prediction problem in which the internal dynamic system has an infinite number of states, a recognition problem for handwritten characters, or a problem in which the internal dynamic system has a finite number of states. Online sign verification problems with status can sometimes work.
  • time corresponds to the index parameter t, but in the basic sequence of proteins, t indicates the spatial position of the consecutive number of amino acid residues.
  • Equation 2 it is assumed that the internal stochastic dynamic system is first-order and the observation mechanism is independent of the internal dynamic system (with respect to the intrinsic probability). I can do it.
  • Equation 2 shows a very general paradigm called HMM (Hidden Markov Model), and the model structure adopted in this broad paradigm and the obtained data set have some predictions. Care must be taken to take into account the specific objectives of the problem. Even if one wants to design the model structure as detailed as possible by considering as many properties of the membrane protein as possible, the number of known membrane proteins is very limited, and many detailed models Fine tuning of the parameters is not possible. This is a manifestation of the data-fighting versus simplicity dilemma (Ockham's razor) [0032]
  • the model proposed in the present invention is configured as follows.
  • m represents the number of transmembrane regions.
  • ⁇ states with self-loops which are incorporated as shown in Fig. 5 (b). For example, given the entire training data set, it is defined as the average residue length of the transmembrane region.
  • the second component is a charge defined for each amino acid residue.
  • the model H (n) provided for each value of m is 2m + 1 submodels and m ( ⁇ + 1)
  • IO m I is the number of data sets obtained for m transmembrane regions. Since the proposed algorithm attempts to build one model from one dataset, n in (i) is equal to I ⁇ .
  • n ( ⁇ KD ⁇ , k; v): ⁇ D index t 1 m in the transmembrane region H ⁇ V ( ⁇ )
  • the number of residues whose D index is k, 13 and 13 are hyperparameters.
  • the output probabilities are the same in each sub model.
  • Tato Bayesian Inference T. Matsumoto, Y. Nakajima, M. Saito, J. Sugi, and H. Hamagishi, Reconstructions and predictions of nonlinear dynamical systems: A Hierarchical Bayesian Approach, "IEEE Trans, signal Processing, vol. 49, pp 2138-2155, 2001
  • step 1.2 would not have been possible without defining the closeness between the two amino acids (ASP, ASN, GLU, GL).
  • N) has the same KD index (-3.5).
  • n ( ⁇ Charge ⁇ , k; ⁇ v): number of remaining t 2 m 2 groups with charge k in the transmembrane region H ⁇ v (n),
  • n ( ⁇ Charge ⁇ , k; ⁇ v): Residue t 2 mu 2 with k charge in the loop region ⁇ ⁇ ( ⁇ )
  • T and ⁇ are hyperparameters.
  • Histidine can take two charge values depending on its own ⁇ . In the following examples, it is assumed that the charge of histidine is +1. The possibility of correctly considering the existence of two different values must be considered for future study. This tentative assumption does not appear to have a significant effect on predictive performance, because the number of histidines is low in the dataset used in the experiments.
  • ⁇ v (m) is a parameter to be tuned.
  • each submodel H ⁇ V ( ⁇ ) has the same number of states and the same topology m
  • n m, that is, each data set has m k
  • the number m of transmembrane regions is predicted by:
  • n: arg max (P (D test
  • the amino acid related to OtSt is predicted to be in the U-th transmembrane region ⁇ .
  • Equation 21 the left-hand side of Equation 21 is the probability that the state Q when given for the first array force t + l, t + 2, ..., T of the test becomes q.
  • Equation 18 Equation is not the only method of predicting the transmembrane region.
  • the ftp site has four different dataset categories A, B, C, and D. This classification is based on the degree of reliability of the protein structure. The structures of the datasets classified as A, B and C have been analyzed sufficiently well, although the degree of reliability is different. For this reason, most, if not all, of the datasets in A, B, and C are likely to have been used to train existing tools. This implies that it is appropriate to use datasets A, B, and C as training datasets, but not as a test dataset for comparing the performance of different algorithms. are doing. It is not impossible, but not impossible, to use existing training tools developed by other researchers! Difficult.
  • Table 1 shows the details of the dataset, that is, the number of datasets included in A, B, C, and D, and the number of transmembrane regions.
  • the first column of Table 2 shows the results of the method of the present invention.
  • the algorithm of the present invention correctly predicted 47 (94%).
  • TP True Positive Predictions: TP must meet two conditions. First, at least nine residues must be shared with the transmembrane region residues in the baseline annotation. In addition, the predicted transmembrane region must be able to be mapped to the reference identification results.
  • FIG. 6a is a conceptual diagram showing this concept, in which “T” indicates an amino acid in the transmembrane region, and “one” indicates an amino acid in the loop region.
  • FN False Negative Predictions
  • FP False Positive Predictions
  • FIG. 7 shows an example of a prediction result.
  • Figures 7 (a)-(c) show the forces predicted to be “true positive” with all transmembrane regions correct according to the above definition.
  • Figure 7 (d) shows false negatives.
  • One prediction, and all others are predicted to be correct. Accurate comparison with other prediction algorithms is difficult due to the different datasets used. A comparison of the performance of various prediction algorithms up to 2000 is given in Non-Patent Document 4.
  • FIG. 1 is a block diagram showing each component of the prediction device 1 of the present invention.
  • the data storage means 102 may store a conversion table 102a that holds hide-pathy data and charge data according to the type of the 20 amino acids.
  • Table 3 shows the contents of this conversion table.
  • the K-D index is described as a representative of the hide mouth passy index!
  • the data extraction means 104 outputs a data string of a hide-pathy index corresponding to each amino acid of the received amino acid residue and a data string of electric charges, and if necessary, outputs the data string.
  • the data is stored in the data storage means 102.
  • the data of the amino acid residue may be stored in the data storage means 102 as it is, and the data sequence of the no-passage index and the data sequence of the charge may be obtained together with the conversion table 102a.
  • the model storage means 106 stores model parameter data represented by the equation (16). Then, the calculating means 108 performs the calculation of Expression 15 using the model parameters according to the data string of the pass-through path index and the data string of the charges from the data extracting means 104, thereby obtaining the number of the transmembrane regions.
  • the calculating means 108 includes means for executing the calculations of Equations 15 and 17-19 (probability calculating means for calculating the probability of each term to be added, and the output of the probability calculating means is stored. (A necessary means such as a storage means for performing the addition and an addition means for adding the contents of the storage means).
  • the output of the calculating means 108 is output to the outside of the transmembrane region prediction device 1 by an appropriate output means (not shown), displayed on a display device (not shown), or stored by a storage means (not shown). (Not shown).
  • the prediction device 1 of the present invention may further include a hidden Markov model learning means 110.
  • the learning means 110 internally holds an HMM (Hidden Markov Model).
  • the HMM of this embodiment is the model described in the above [1.1 Model Structure].
  • the learning means 110 includes training sequence data (for example, the data output by the amino acid residue force data extracting means of the training sequence, the idopathy data sequence and the charge data sequence, and the training sequence) as learning data.
  • training sequence data for example, the data output by the amino acid residue force data extracting means of the training sequence, the idopathy data sequence and the charge data sequence, and the training sequence.
  • the learning means 110 has means for executing these learnings. Specifically, storage means for storing the actual number of transmembrane regions m of the training sequence and the identification result, storage means for storing the model parameters, and updating the model parameters to obtain a passport data sequence from the model being trained. Means for extracting the charge data string, and comparing means for comparing the data string with the actual passport data string of the training sequence and the charge data string are included. With reference to FIG. 2, a method for calculating model parameters according to the embodiment of the present invention will be described. As the training sequence, the amino acid residue sequences of a number of proteins whose amino acid residues and transmembrane region numbers or positions (identification results) are clearly shown by experiment are used. The data extraction means 104 also extracts the passport data string and the charge data string of the amino acid residue sequence of the training sequence (S202).
  • learning of a model is executed based on the pass-through path data and the charge data for the training sequence, and the number and Z or position of the transmembrane regions.
  • the model parameters are adjusted so that the hidden Markov model force training data array with the number of transmembrane regions is output as high as possible with the probability (likelihood) of the hidden-port pathacy data sequence and the charge data sequence.
  • the training is executed (S204).
  • This learning is performed by the learning means 110.
  • the learning means 110 stores the thus obtained model parameters in the model storage means 106 (S206).
  • the data extraction means 104 receives the amino acid residue sequence of the test sequence (the sequence of which the transmembrane region is unknown)
  • the data storage means 102 obtains a passport data string and a charge data string (S302).
  • the calculation means 108 changes the number of transmembrane regions (S304, S308) and uses the model parameters for the number of transmembrane regions at that time to calculate the received noid mouth pathacy data sequence and charge data sequence.
  • the obtained probability is calculated (S306).
  • the probability of the number of various transmembrane regions is calculated, and the number of transmembrane regions having the highest value of the probability is output (S310).
  • the number of transmembrane regions is calculated by using the trained model and the charge index using the learned mouth model.
  • calculating the position of the transmembrane region instead of calculating the number of transmembrane regions, use a means for calculating the position of the transmembrane region instead of the calculating unit 108, and change the position of the transmembrane region in S304 and S308. I do.
  • the position of the transmembrane region can be predicted using the result.
  • learning can be performed using model parameters obtained by predicting the number of transmembrane regions as initial model parameters.
  • the associated hyperparameters may be adjusted rather than fixed.
  • the Monte Carlo method may be used.
  • a more detailed structure may be considered, for example, by incorporating a boundary region between the transmembrane region and the loop region.

Landscapes

  • Spectroscopy & Molecular Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

 与えられたアミノ酸残基データから、そのアミノ酸が細胞膜を貫通する膜貫通領域の数または位置を予測する。受け付けたタンパク質の残基配列に対応するハイドロパシーデータ列と電荷データ列とを得るデータ抽出手段104と、求められたハイドロパシーデータ列と電荷データ列を記憶するデータ記憶手段102と、隠れマルコフモデルを定めるための学習されたモデルパラメータを保持するモデル記憶手段106と、膜貫通領域の数またはその位置を変更しながら前記テスト配列に対応するハイドロパシーデータ列および電荷データ列を与える確率を算出し、該確率を最大とする前記膜貫通数を出力する算出手段108とを備える予測装置1。                                                                                 

Description

明 細 書
タンパク質の膜貫通領域の数または位置の予測装置
技術分野
[0001] 本発明は、タンパク質の膜貫通領域の数または位置あるいはその両方の予測に関 する。具体的には、タンパク質の膜貫通領域の数および Zまたは位置を予測するた めの装置、方法及びコンピュータプログラムに関する。
背景技術
[0002] 直線状のアミノ酸配列力 なるタンパク質は、それ自体の性質とそれを取り巻く液体 などの周囲の環境に応じてバラエティーに富んだ立体構造を示す。そして、そのよう な立体構造がタンパク質の機能に大きな影響を与える。細胞膜を貫通するいわゆる 膜タンパク質の構造予測の問題の重要性は、例えば、非特許文献 1、 2、 4一 6に詳 細に記載されている。
[0003] 一般に、タンパク質の立体的構造の予測をするための方法は二通りある。一つは、 各アミノ酸の物理ィ匕学的性質に基づいてタンパク質の立体構造を構築しょうとするも のである。この際、トレーニングの概念は通常含まれない。もう一つは、既知構造につ いてのデータセット^^めて、特徴を抽出し、機械学習のアルゴリズムを用いることに より予測するものである。一般のタンパク質構造の予測にまつわる問題の多くにおい て、とりわけタンパク質の膜貫通の場合においては、予測精度の改善が必要である。
[0004] なお、非特許文献 3には、隠れマルコフモデルを用いた膜貫通領域数の予測が開 示されている力 モデルの状態がオープンループ構造ではないために、各モデルに おいて膜貫通領域数は固定されていない。また、用いられるデータ列も各アミノ酸残 基のハイド口パシーと電荷に関するもので有り得ることは開示されていない。
非特許文献 1 : T. Hirokawa, S. Boon- Chieng, and S. Mitaku, 'SOSUI: classification and secondary structure prediction system for membrane proteins," Bioinformatics, vol. 14, pp. 378-379, 1998.
非特許文献 2 : Y. Inoue, Y. Sugiyama, M. Ikeda, and T. bhimizu, "Classification of Eukaryotic 7- tms Transmembrane Proteins by Binary Topology Patterns,〃 Genome Informatics, vol. 12, pp. 336—337, 2001.
非特言午文献 3 : A. Krogh, B. Larsson, G. von Heijne, and E. Sonnhammer, "
Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes J. Mol. Biol, vol. 305, pp. 567-580, 2001.
非特 §午文献 4 : S. Moller, E. Kriventseva, and Apweiler, "A collection of well characterized integral membrane proteins, eioinformatics, vol. 16, pp. 1159—1160, 2000.
特 §午文献 5 :J. Kyte, and R. F. Doolittle, 'A simple method for displaying the hydropathic character of a protein, r/ J. Mol. Biol., vol. 157, pp. 105-132, 1972. 特 §午文献 6 : B. Rost, R. Casadio, P. Fariselli, and C. Sander, "Transmembrane helices predicted at 95% accuracy", Protein Science, col.4, pp.521- 533, 1995. 発明の開示
発明が解決しょうとする課題
[0005] 本発明は、タンパク質構造予測における一般的な問題ではなぐ限定された問題を 解決しょうとするものである。本発明においては、アミノ酸配列が水溶性タンパクや膜 タンパクである場合の予測も行なうが、与えられたアミノ酸配列は膜タンパクであるも のとする。本発明の目的は、与えられたアミノ酸残基の配列に対して、膜貫通領域の 数および膜貫通領域の位置を予測することにある。
[0006] 例えば、与えられた残基配列が七つの膜貫通領域を有するタンパク質に由来する ものである力を予測することには大いに興味がある (非特許文献 2参照)。本願発明 者の知る限り、これらの問題は簡単ではない。というのは、膜貫通タンパク質において X線結晶解析法は用いにくぐ構造が知られた膜貫通タンパク質が非常に少ないこと がーつの理由であってより正確な予測法が求められている。
課題を解決するための手段
[0007] 本発明は、膜貫通領域の数または位置あるいはそれらの両方を予測するための新 しいアルゴリズムを提供する。このアルゴリズムは、アミノ酸残基の位置の関数として 表現される確率動的システムに関連したノヽイド口パシーインデックスおよび電荷から なる二次元のトラジェクトリー(軌跡)を利用するものである。
[0008] 本発明の一つの態様は、コンピュータソフトウェアを用いて実現される専用装置とし てのタンパク質の膜貫通領域の数および zまたは予測手段である。本発明では、受 け付けたタンパク質のアミノ酸残基配列に対応するハイド口パシーデータ列と電荷デ ータ列とを得るデータ抽出手段と、求められたハイド口パシーデータ列と電荷データ 列を記憶するデータ記憶手段と、該ハイド口パシーデータ列と電荷データ列とに基づ いて前記タンパク質の膜貫通領域の数または位置を予測するための、アミノ酸残基 配列の膜貫通領域とループ領域とを表現する隠れマルコフモデルにっ 、て、該隠れ マルコフモデルを定めるための学習されたモデルパラメータを保持するモデル記憶 手段と、テスト配列であるアミノ酸残基配列に対するハイド口パシーデータ列と電荷デ ータ列とをデータ記憶手段力も受け付けて、前記モデルパラメータに基づいて、膜貫 通領域の数および Zまたは位置を変更しながら前記テスト配列に対応するハイドロバ シーデータ列および電荷データ列を与える確率を算出し、該確率を最大とする前記 膜貫通数を出力することにより、前記タンパク質の膜貫通領域の数または位置を算 出する算出手段とを備えてなる、タンパク質の膜貫通領域の数または位置の予測装 置が提供される。
[0009] ここで、ハイド口パシーデータとは、ハイド口パシーインデックスのデータである。ハイ ドロパシーインデックスとは、各アミノ酸に対して決まる疎水性の程度をあらわす指数 である。本発明では、タンパク質に含まれるアミノ酸残基のそれぞれに対応するァミノ 酸のハイド口パシーインデックスを用いる。
[0010] 電荷データとは、各アミノ酸残基に対応するアミノ酸の荷電状態を表わすデータで ある。データ記憶手段やモデル記憶手段は、コンピュータ等において論理的に識別 可能な電子ファイル等の記憶手段である。記憶手段の具体的な態様は、揮発性記 憶手段 (RAMなど)や不揮発性記憶手段 (ハードディスク、不揮発性メモリーチップ など)、内部記憶装置や外部記憶装置等の様々な態様を用いることができ、特にハ 一ドウエア仕様を問うものではない。モデル記憶手段は、該隠れマルコフモデルを定 めるためのトレーニングされたモデルパラメータを保持する。
[0011] 本発明によれば、該ハイド口パシーデータ列と電荷データ列とに基づいて前記タン ノ ク質の膜貫通領域の数を算出するために隠れマルコフモデルを用いる。この隠れ マルコフモデルはアミノ酸残基配列の膜貫通領域とループ領域とをそれぞれ表現す る部分を有している。
[0012] データ抽出手段や算出手段とは、ソフトウェアによる情報処理を、コンピュータハー ドウエアを用いて実現する機能手段である。このうち、データ抽出手段とは、受け付け たタンパク質の残基配列に対応するハイド口パシーデータ列と電荷データ列とを抽出 する機能を有する。このとき、例えば、各アミノ酸についてそれぞれハイド口パシーィ ンデッタスや電荷を与える変換テーブル手段を参照することができる。この場合、変 換テーブル手段は、 20種あるアミノ酸のそれぞれにつ 、て上記のハイド口パシーイン デッタスと電荷とを与える変換規則を保持するルックアップテーブルである。
[0013] 算出手段とは、膜貫通領域の数および Zまたは位置を変更しながら前記テスト配 列に対応するノ、イド口パシーデータ列および電荷データ列を与える確率を算出し、 該確率を最大とする前記膜貫通数を出力する機能を有している。これにより、与えら れたアミノ酸残基に対して膜貫通領域の最も適切な数または位置を算出することが できる。
[0014] また、本発明では、前記モデルパラメータにより表現される前記隠れマルコフモデ ルを内部に実現した隠れマルコフモデル学習手段であって、トレーニング配列として 膜貫通領域の数および Zまたは位置が既知であるアミノ酸残基配列におけるハイド 口パシーデータおよび電荷データと、該アミノ酸残基を有するタンパク質の該膜貫通 領域の数および Zまたは位置とに基づいて学習を実行し、該学習の結果として得ら れたモデルパラメータを前記モデル記憶手段に格納する隠れマルコフモデル学習 手段をさらに備えていることも好適である。
[0015] 本発明における学習手段は、トレーニングのための配列(トレーニング配列)によつ て隠れマルコフモデルの具体的なモデルパラメータを最適化する。
[0016] 前記隠れマルコフモデルは、前記タンパク質の膜貫通領域を表現する少なくとも一 つの第 1種のサブモデルと、前記タンパク質のループ領域を表現する少なくとも一つ の第 2種のサブモデルとを含むとともに、前記第 1種のサブモデルと前記第 2種のサ ブモデルとが交互にオープンループ結合した隠れマルコフモデルとすることも好適で ある。
[0017] 本発明における隠れマルコフモデルは、少なくとも 2種の構造が異なるサブモデル ( 第 1種および第 2種のサブモデル)を有しているものとしてもよい。なお、同じ種類の サブモデルであっても、トポロジカルな構造が同じではある力 具体的なモデルパラメ ータは異なる(出力確率と、遷移確率の違いなど)ものも含む。オープンループ結合 は、サブモデル間の遷移が一方向に限定されてサブモデル間をループする遷移をも たない構造であり、膜貫通領域の数が変動しない利点を有する。
[0018] 前記モデルパラメータは、前記第 1種のサブモデルおよび前記第 2種のサブモデ ルのそれぞれにつ!/、て、フロアリングおよびスムージングを施して設定されるハイド口 パシーインデックス出力確率を定める第 1群のパラメータと、前記第 1種のサブモデル および前記第 2種のサブモデルのそれぞれについてフロアリングを施して設定される 、電荷出力確率を定める第 2群のパラメータと、前記第 1種のサブモデルおよび前記 第 2種のサブモデルのそれぞれに含まれる各状態間の状態遷移確率とを含むものと することも好適である。
[0019] 本発明においては、フロアリングやスムージングという手法が用いられる。フロアリン グは、計算され確率値がゼロになることを防ぐ為に導入される手法であり、パラメータ (状態遷移確率、出力確率)の最小値をある量だけ増加させてこの不都合を回避す る手法である。また、スムージングは、ある規則に基づいて計算中の値を滑らかにし て、非本質的なデータの振れが計算結果に影響することを防止する手法である。
[0020] 前記第 1種のサブモデルは、それぞれが自己ループを有し、互いに left-to-right型 に結合された複数の状態を有し、前記第 2種のサブモデルは、 自己ループを有する 単一の状態を有するものとすることも好適である。
[0021] 本発明では、テスト配列についての膜貫通領域の数または位置を予測する方法で あって、テスト配列であるタンパク質のアミノ酸残基配列を受け付けるステップと、受け 付けたタンパク質のアミノ酸残基配列に対するハイド口パシーデータ列と電荷データ 列とを得る抽出ステップと、該テスト配列にっ 、ての前記ハイド口パシーデータ列と前 記電荷データ列とを受け付けて、既知のタンパク質のデータに基づき既にトレーニン グして得られて ヽる隠れマルコフモデルのモデルパラメータに基づ 、て、膜貫通領域 の数および zまたは位置を変更しながら前記テスト配列に対応するハイド口パシーデ ータ列および電荷データ列を与える確率を算出するステップと、前記膜貫通領域数 算出手段が、該確率を最大とする前記膜貫通領域の数および zまたは位置を出力 する算出ステップとを含む方法が提供される。
[0022] 本発明では、トレーニング配列として既知のタンパク質のアミノ酸残基配列を受け付 けるステップと、受け付けられたトレーニング配列に関するノ、イド口パシーデータおよ び電荷データと、該両データ列を与えるタンパク質の該膜貫通領域の数および Zま たは位置とに基づ 、て学習を実行する学習ステップと、該学習ステップによって得た モデルパラメータを前記モデル記憶手段に格納する格納ステップとを前記算出ステ ップに先立って実行する方法が提供される。
[0023] また、本発明では、コンピュータを、上記いずれかに記載の装置として動作させるた めの、コンピュータプログラムや、コンピュータに、上記いずれかに記載の方法を実行 させるための、コンピュータプログラムが提供される。
発明の効果
[0024] 本発明では、予備的な実験結果にっ 、ても示される。膜貫通領域の数にっ 、ての 予測精度は 94%であり、膜貫通領域の位置についての予測精度は 96. 09%である 。この結果は詳細なチューニングをしていない段階のものであり、十分に期待してよ いものである。
図面の簡単な説明
[0025] [図 1]図 1は、本発明の実施の形態に係る膜貫通領域数予測装置の構成を示すプロ ックダイヤグラムである。
[図 2]図 2は、本発明の実施の形態に係るモデルパラメータを算出する方法を示すフ ローチャートである。
[図 3]図 3は、本発明の実施の形態に係る膜貫通領域数予測方法を示すフローチヤ ートである。
[図 4]図 4は、本発明の実施の形態において、トレーニング配列の一例における、アミ ノ酸残基からも止められる K Dインデックス(ノヽイド口パシーインデックスの一例)と電 荷のトラジヱクトリーである。 [図 5]図 5の(a)は、本発明で用いられる隠れマルコフモデルの全体モデル構造を示 す説明図である。図 5の (b)は、膜貫通領域のサブモデルを示す説明図である。図 5 の(c)は、ループ領域のサブモデルを示す図である。
[図 6]図 6は、膜貫通領域の位置についての予測性能の評価の基準を説明する説明 図である。 (a)は膜貫通領域の同定結果を予測できた場合 (TP)、(b)は膜貫通領域 の同定結果を予測できな 、場合 (FN)、 (c)は、膜貫通領域でな!、位置を膜貫通領 域と予測した場合 (FP)である。
[図 7]図 7は、 4種のタンパク質における膜貫通領域の位置を予測した結果を、同定 結果と対比させて示す説明図である。
符号の説明
[0026] 1 予測装置
102 データ記憶手段
104 データ抽出手段
106 モデル記憶手段
108 算出手段
110 学習手段
発明を実施するための最良の形態
[0027] [1.ァノレゴリズム]
本発明では、タンパク質の基礎的な構造は与えられたものとして、以下の二次元の ベクトルシーケンスを検討する。ここに、 tはアミノ酸残基に付す番号であり、位置を表 わす。 Tはアミノ酸残基の総数である。
[数 1]
{Ot - (0) = hydropathv index, Of =charge)}t T =x
[0028] タンパク質を構成するアミノ酸は 20種有り、通常 20文字のシンボルにより表現され る力 このシーケンスは、 20文字のシンボルの代わりとして、アミノ酸に関連した数値 の並びを表わすものである。そして、本願発明においては各アミノ酸についてのハイ ドロパシーインデックス(ハイド口パシーを表わす数値)のデータと電荷のデータとの 二次元の広がりを有する空間が、アミノ酸残基の列(すなわちタンパク質の一次構造
)の周りに広がることになる。この問題に見られる配列(アミノ酸の配列)の性質を考慮 する一つの方法は、現実のアミノ酸残基の配列に対応する概念として補助配列( auxiliary sequence) {Q }を考慮することである。この補助配列 {Q }は、一次元のパラ
t t
メータ tによって示される内部確率動的システム (inner stochastic dynamical system)の 「トラジェクトリー」であり、この補助配列をブラウン運動世のような自己相関のないアミ ノ酸残基の配列であると考えることにより Oはこの補助配列の不確定性を伴った出力
t
とみなせる。 (つまりあるアミノ酸残基 iの隣にもう一つのアミノ酸残基 jがある確率を考 える事ができる)。このとき、同時確率分布は、
[数 2]
Ρ{{0) = ν ,0(2 = , {β = } I w,H)
= nP(O ,O \Qt ,w, )P{Q,+x ie„w,H) (a | W,H)
Figure imgf000010_0001
により与えられる。ここに、 Hは基礎となっているモデル構造を示している。数 2の式の 第 1および第 2の方程式は、一般形であり、最後の方程式が本発明で用いられる隠 れマルコフモデルである。 aは状態 状態 jへの遷移確率、 b 1は状態 iがノヽイド口
ij ikl
パシーインデックス v 1を与える出力確率、 b 2は状態 iが電荷 V 2を与える出力確
kl ik2 k2
率、 π .は状態 iの初期の確率である。ハイド口パシーインデックスは実数である力 有 限数のインデックスの値、例えば、 Kyte-Doolittleインデックスについては 17の値を取 ることに注意を要する (非特許文献 5)。同様に、電荷も有限数の値( + 1、 0、—1)だ けを取り得る。
[数 3]
O) = {v^ }, k = 1,...., K Of = [vk 2 2 }, k2 = …, K2 図 4は、ある膜貫通タンパク質の Κ Dインデックスと電荷との典型的なトラジェクトリ 一を表わしている。図 4は、アミノ酸残基位置を横軸に選び、各残基について、 K D インデックスの値と電荷の値をプロットし、さらに、膜貫通領域を示したものである。用 いたタンパク質は、 ACP02912であり、膜貫通領域の数 (m)は 5である。このデータ は、 ftpサイト (ftp://ftp.ebi.ac.UK/databases/testsets/transmembrane)力らダウン口 ~~ ドしたものである。 20シンボルの代わりにこれらの物理化学的インデックスを考慮した ことにより、主な結果として、異なるアミノ酸の間の「近さ」(nearness)が考慮可能となる 。即ち、ハイド口パシーインデックスの値が似ている二つのアミノ酸は、この特別な距 離 (metric)に関して互いに近いものと考える事ができる。このことにより、オーバーフィ ッティングの問題(ローカルミニマムに入ってしまいグローバルミニマムを見出すことが できない問題)を回避するための「スム一ジング Zフロアリング」を実行することが可能 となる。
[0030] 数 2の式によって記述される方式は、内部動的システムが無限数の状態を有する非 線形の時系列予測問題について、あるいは手書き文字の認識問題、内部動的シス テムが有限数の状態を有するオンラインサイン認証問題にっ 、て、うまく行くことがあ る。これらの 3つの分野では、インデックスパラメータ tに相当するのは時間であるが、 タンパク質の基本配列においては、 tはアミノ酸残基の連続番号という空間位置を示 している。数 2においては、内部確率動的システムが一次であり、観測機構が(内在 する確率について)内部動的システムに対して独立であることが仮定されているが、 このような制限を外した一般ィ匕は可能である。
[0031] [1. 1 モデル構造]
モデルの構造 Hは数 2の式を良好に適用するのに重要である。数 2の式は、 HMM (隠れマルコフモデル)と呼ばれる非常に一般的なパラダイムを示して 、るものであり 、この広いパラダイムの中で採用されるモデル構造と得られるデータセットは、ある予 測問題に固有の目的を考慮して、慎重に定める必要がある。膜タンパクの可能なか ぎり多数の性質を考慮することによってできるだけ詳細にモデル構造をデザインした いと考えても、構造の知られた膜タンパクの数は非常に限られており、詳細なモデル の多くのパラメータの微妙なチューニングを行なうことは不可能である。これは、デー タフイツティング対単純さのジレンマ(オッカムの剃刀: Ockham's razor)の現れである [0032] 本発明で提案されるモデルは、以下のように構成される。ここで、 mは膜貫通領域 の数を表わす。
(i) mの各値に対して H (n)が構成され、 η= 1、 · · ·、 nとする。 nは後に定義される
m m m
(ii)各モデル H (n)は、ループ領域のサブモデル Η λ (n)(u= 1、 · · ·、 m+ 1)と、膜
m m u
貫通領域のサブモデル H v (n) ( v = 1、 · · ·、 m)との交互の結合からなるオーブ
m
ンループ構造を有して 、る(図 5 (a) )。
(iii)膜貫通領域のサブモデル H μ V (η)は、単純な left-to-rightのトポロジーを有し
m
、 自己ループを持つ τ個の状態が存在して、図 5 (b)に示されるように組み込まれて いる。 ては、全トレーニングデータセットが与えられたとき、膜貫通領域の残基長の平 均値として定義される。
(iv)ループ領域のサブモデル Η λ (η)は自己ループをもつ単一状態のみを有する
m u
(図 5 (c) )。
(V)出力 Oの第 1の成分は、 Kyte-Doolittleインデックス(ノヽイド口パシーインデックス
t
の一種)であり、第 2の成分は、各アミノ酸残基に関して定められている電荷である。
[0033] [1. 2 学習]
mの各値について提供されるモデル H (n)は、 2m+ 1個のサブモデルと m ( τ +1)
m
+1個の状態とを有している。
を特定の mについてのトレーニングデータセットとする。ここで、 I Om I は m個の膜貫 通領域につ 、て得られるデータセットの数である。この提案されたアルゴリズムは一 つのデータセットから一つのモデルを構築しようと試みるものであるため、(i)における nは I ΟΊと等しくなる。
m
[0034] [ステップ 1 :K Dインデックス出力確率]
[b 1の学習]
ikl
ステ プ 1. 1 (7ロア ング). U μ v (n)の各状態 qについて、 i (1=1、 · · · τ )に関して一様に
m ί 1
[数 5]
Figure imgf000013_0001
と設定する。 H λ (η)の状態 qについて、
m u l
[数 6]
Figure imgf000013_0002
とする。
ここで、 n({KD }、 k; v ): =膜貫通領域 H μ V (η)内にある、 Κ Dインデック t 1 m
スが kである残基の数、 n({KD }、 k ; λ V ): =ループ領域 Η λ (η)内にある、 Κ-
1 t 1 m u
Dインデックスが kである残基の数、 13 と 13 はハイパーパラメータである。
1 u λ
ステップ 1.2 (スムージング)
[数 7]
Figure imgf000013_0003
ここで、 σはハイパーパラメータである c
類似のスムージングが
[数 8] についても実行される。
[0036] 本アルゴリズムにおいては、出力確率は個々のサブモデル内において同じである。
たと ベイズ推論(T. Matsumoto, Y. Nakajima, M. Saito, J. Sugi, and H. Hamagishi, Reconstructions and predictions of nonlinear dynamical systems: A Hierarchical Bayesian Approach," IEEE Trans, signal Processing, vol. 49, pp. 2138-2155, 2001) が可能ではあっても、本発明のおいては、ハイパーパラメータを経験的に選択するこ とによって、オーバーフィッティングの問題を回避することができる。もし、 2つのアミノ 酸の間の近さを定義していなかったなら、ステップ 1. 2が不可能であっただろうという ことに注目すべきである。さらに、 20種のうち 4つのアミノ酸 (ASP, ASN, GLU, GL N)が同じ K-Dインデックス (-3. 5)を有する点にも注目すべきである。
[0037] [ステップ 2 :電荷出力確率]
[b 2の学習]
ik
U μ V (η)の各状態 qについて、 i (1= 1、 · · · τ )に関して一様に
m 1
[数 9]
; n({Charget},k2^' v) + rM
2 v '― yXn({Charget},k2 ; jUv ) + γμ)
2 と設定する。 Η λ (η)の状態 qについて、
m u
[数 10]
Figure imgf000014_0001
とする。 ここで、
n( {Charge }、 k ; μ v ) : =膜貫通領域 H μ v (n)内にある、電荷が kである残 t 2 m 2 基の数、
n( {Charge }、 k; λ v ): =ループ領域 Η λ (η)内にある、電荷が kである残基 t 2 m u 2
の数、
T と γ λはハイパーパラメータである。
[0038] ヒスチジンでは、自身の ρΗに依存する二つの電荷値をとることができる。以下の実 施例においては、このヒスチジンの電荷は + 1であると仮定する。将来の検討課題と して、二つの異なる値の存在を正しく考慮する可能性が検討されなくてはならない。ヒ スチジンの数が実験で用いたデータセット中には少ないので、この暫定的な仮定は、 予測性能には大きな影響は有しないようである。
[0039] [ステップ 3 :状態遷移確率]
与えられた残基配列について、以下の分解を考える。
[数 11]
い"/^"1 *) ハ^ ^ +;/ ^^ ) {nmk ^ Ίλι ( ) (w* )+1λ2 (mk )
\Ut > t=\ , tし, =;^ ( \Ut ^x (mk)^n {mk )+\ ,
Figure imgf000015_0001
(mk )+ημ{ (mk )+ηχ2 (mk )+ ........+1
[a^の学習]
H λ (n)の状態 qについて、
m u i
[数 12]
'卜 l/ (mk), j = i
Figure imgf000015_0002
0, otherwise とする。 H μ v (n)の各状態 qについて、
m i
Figure imgf000016_0001
0, otherwise とする。ここで、 α v (m )はチューンされるべきパラメータである。
1 k
この実施の形態にぉ 、て以下の知見が得られて 、る。
(i) mのある値を考えると、各サブモデル H μ V (η)は同じ状態の数と同じトポロジー m
を有している。このため、 aは全ての nについて同じ値となるが、本発明の学習ルール においては、各データセットが異なる数の K Dインデックスと電荷を有するために、「 出力確率」は異なるだろう。したがって、 n =mとなり、つまり、各データセットがーつ m k
のモデルを生成する。
(ii)上記定式ィ匕において、二つの出力確率
[数 14]
{ }、 {¾ }
1S 簡単のために、独立であると仮定されている(現実にはそうではない)。
(iii)いくつかの理由により、 Baum-Welch法を使わない選択をした。第 1に、その方法 はローカルミ-マムに影響されやすいためである。第 2には、本発明の最初の試行パ ラメータの値の合理性をテストして、ここに提案する構造が正 、か確認するためで ある。勿論、学習過程はいろいろなやり方で改善されなくてはならない。
(iv) Kyte-Doolittleインデックスより優れたハイド口パシーインデックスが存在する力も しれない。実際、 80もの異なるハイド口パシーインデックスが提案されており、本発明 は原理的にはいずれのインデックスも使用できるものである。
(V)本発明の方式における各モデルは、膜貫通領域の数 mの固定した値を有して ヽ ること、および、個々のサブモデル内の各状態に関連している自己ループを除き、各 モデルが完全にオープンループである点に注目するべきである。これに対し、非特 許文献 3では、サブモデルの間の遷移が許容されており、このために mが固定されて いない。
[0041] [1. 3 予測計算]
D : = {O } Ttestをテスト配列とする。予測段階では、 mと、関連した状態配列 {Q }と test t t=l t は共に不明である。モデル H (n)が与えられると、各状態 qは特有のサブモデル H m 1 m
/ζ ν (η)あるいは Η λ (η)に関連していることに注目しなくてはならない。
m u
[0042] [mの予測]
膜貫通領域の数 mは、以下により予測される。
[数 15] m:二 arg max (P(Dtesl \ w, (n))
- arg max
Figure imgf000017_0001
に、
[数 16]
n := arg max (P(Dtest |
Figure imgf000017_0002
w := { は学習されたパラメータベク トル
である。
[0043] [膜貫通領域の予測]
[数 17]
となるとき、 O testに関連したアミノ酸が V番目の膜貫通領域 H β Vにあると予測され る。ここで、 t=lについては、 Q *: =qであり、 t>lについては、
1 1
[数 18]
Q := argmaxRfe,…… ,0 ' | Q, = , A¾( )
である(このとき、 Q * = q)(
t-i j
また、
[数 19]
となるとき、 O teStに関連したアミノ酸が U番目の膜貫通領域 Η λ にあると予測される。
t m u
[0044] ここで、以下の点を注記する。
(i)
[数 20] p(o;l:i,…… ,OriG = ,¾ ( ) 力 パラメータ wとモデル Hが固定されているときに状態 Qが qiにある尤度であること
t
に注目する必要がある。このことは、一様な事前確率 P (H (n) )にお 、て方程式を
m
[数 21]
Figure imgf000018_0001
, ,¾ ( )
∞ Ρ(Ο':Ι,……,OriG = ( ) と表記するために用いることができる。
(ii)つまり、数 21の式の左辺は、テストの第 1の配列力 t+l、t+2、 ...、Tについて 与えられたときの状態 Qが qとなる確率となる。
t i
(iii)数 18の式力 膜貫通領域の予測の唯一の方法というわけではない。
[0045] [2 実験] [2. 1 データセット]
一般のタンパク質構造の予測問題における非常に困難な課題の一つ、そして、特 に、膜タンパク質構造予測における大きな課題は、適切な実験のためのデータセット を得るのが難しい点にある。以下に示す本発明の実験のアミノ酸配列は、非特許文 献 4【こ ci載 れた ftpサイト (ftp:/ 1 ftp.ebi.ac.uk/ databases/ testsets/ transmembraneノ 力もダウンロードされたものである。このダウンロードしたアミノ酸配列のうちから、以下 の明確な同定結果のあるものを本発明の実験に用いた: DOMAIN CYTOPLASMIC, DOMAIN MATRIX, DOMAIN EXTRACELLULAR, DOMAIN INTERMEMBRANE, DOMAIN PERIPLASMIC, TRANSMEM。ここで、 CYTOPLASMIC, MATRIX, EXTRACELLULAR, INTERMEMBRANE、 PERIPLASMICをループセグメントとして 解釈し、 TRANSMEMを膜貫通セグメントとして解釈した。
[0046] 注意を要する重要な問題がある。予測実験を行なうと、当然、最良の既存のァルゴ リズムやツールと予測性能を比較したくなる。これを行なうためには、既存のツールの トレーニングにいずれのデータセットが用いられ、あるいは、用いられていないかを知 らなくてはならない。本発明者等の現在の状況では、そのようなデータセットを特定す ることは、不可能ではないかもしれないが非常に困難である。
[0047] 上記 ftpサイトには、 4つの異なるデータセットの分類 A、 B、 C、 Dがある。この分類 は、タンパク質構造の信頼性の程度に応じたものである。 A, B, Cに分類されたデー タセットの構造は、信頼性の程度は違うが、ほぼ十分に良好に解析されたものである 。このため、 A, B, Cにあるデータセットについて、全てとは言わないが、その多くが 既に既存のツールのトレーニングに用いられたものではないかと考えられる。このこと は、 A, B, Cのデータセットをトレーニングデータセットとして用いることは適当ではあ る力 異なるアルゴリズムの性能の比較のためのテストデータセットとして使用すること は適当ではないことを暗に意味している。他の研究者によって開発された既存の予 測ツールにつ!、て、新し!/、トレーニングを新し!/、トレーニングデータセットを用いて実 行することは、不可能ではないが、非常に困難である。これを改善するために、上記 サイトにあるファイル A, B, Cにあるデータセットをトレーニングのために用い、フアイ ル Dにあるデータセットをテストに使用した。ファイル Dにあるデータセットのうち、既存 のツールのトレーニングに用いられたものは少ないであろうから、異なるツール (本発 明のものも含む)は、ほぼ対等の立場といえるだろう。こうすることで、当然、 Dのテスト データセットは信頼性が乏しくなるというデメリットがある。このジレンマは、異なるタン パク質構造予測アルゴリズムを比較する際の重要な課題となり続けるだろう。
[0048] [2. 2 実験結果 1 :膜貫通領域の数]
表 1は、データセットの詳細、つまり、 A, B, C, Dに含まれるデータセットの数、膜 貫通領域の数を示している。表 2の第 1列は本発明の方法による結果を示している。 50個のテストデータセットのうち、本発明のアルゴリズムは 47個を正確に予測した(9 4%)。分類ミスをした 3つのタンパク質は P02725 (m= l)、 P32897 (m=4)、 P02 912 (m= 5)である。
[表 1]
Figure imgf000020_0001
[0049] 表 2の 2nd以降の列は、本発明のアルゴリズムが予測に失敗した様子を示している 。もし、数 15によって与えられる本発明の予測
[数 22]
が正確な値と異なっており、それに対応する尤度が 2番目に大きなものであるときに は、この表の 2ndに記載される。テストデータには、 3番目以下になるものは一つも見 られない。このことは、本発明の予測方法はほぼ正しぐかつ、より詳細なチューニン グによって改善され得ることを示唆していると言える。
[表 2]
Figure imgf000021_0001
[0050] 比較のため、膜貫通構造予測の分野において最もよく参照される 2つの論文である TMHMM (非特許文献 3)、および SOSUI (非特許文献 1)に対して、分類 Dの配列 をテストした。前者は 47個(94%)を正確に予測し、後者は 38個(76%)を正確に予 測した。これらのアルゴリズムは必要であれば、他の変数も予測する能力がある。
[0051] [2. 3 実験結果 2 :膜貫通領域の位置]
次に、膜貫通領域の位置を予測する場合について説明する。他と比較して重要な ノ ラメータは、各幕貫通領域にある状態の数てである。幾つかの予備実験により、 て = 21を選択した。
[0052] 表 1にあるように膜貫通領域の数は合計 230である。性能評価の判定基準は、非特 許文献 4に従った。性能の判定基準を定めるには、以下を考える。
(i)真のポジティブの予測(TP; True Positive Predictions): TPは二つの条件を満たさ なければならない。まず、少なくとも 9つの残基を、基準となる同定結果 (annotation) における膜貫通領域の残基と共有しなくてはならない。さらに、予測された膜貫通領 域が、基準の同定結果に対して対応付けできなくてはならない。図 6aは、この概念を 表わす概念図であり、「T」は膜貫通領域にあるアミノ酸を示し、「一」は、ループ領域 にあるアミノ酸を示す。
(ii)偽のネガティブの予測(FN; False Negative Predictions): FNは、予測できなかつ た膜貫通領域であり、図 6bにより示されるものである。
(iii)偽のポジティブの予測(FP; False Positive Predictions): FPは、基準となるタン ノ^質のテスト集合には、膜貫通領域として存在しないところに予測された膜貫通領 域を示す。これは、図 6cにより示される。
[0053] 性能の基準は、
[数 23] 正確さ (%) l - FN + FP)x 100(%)
TP + FN J により定義される。これは、非特許文献 4において用いられていると本願発明者が予 測して 、るものであるが、そこには式は明示されて ヽな 、。
われわれのアルゴリズムの性能は
TP=224,FN=6,FP=3,正確さ(%) = 96.09 (%)
である。
[0054] 図 7は、予測結果の例を示す。図 7の (a)—(c)は、上記定義に従って、全ての膜貫 通領域が正しぐ「真のポジティブ」と予測された例である力 図 7の(d)は、偽のネガ ティブという予測を一つ含み、他は全て正しいと予測されたものである。他の予測ァ ルゴリズムとの正確な対比は、用いられたデータセットが異なるために難しい。 2000 年までの様々な予測アルゴリズムの性能の比較が非特許文献 4に記載されて 、る。
[0055] [3. 予測装置]
上記の隠れマルコフモデルによる予測アルゴリズムを組み込んだタンパク質の膜貫 通領域の数または位置を予測する専用装置について説明する。
図 1は、本発明の予測装置 1の各構成要素を表わすブロックダイヤグラムである。デ ータ記憶手段 102は、 20種あるアミノ酸の種類に応じて、ハイド口パシーデータと電 荷データを保持する変換テーブル 102aを記憶して 、ても良 ヽ。この変換テーブルの 内容を表 3に記載する。
[表 3] アミノ酸 K—Dインデックス 電荷
G 1 y - 0. 4 0
A 1 a 1. 8 0
S e r 一 0. 8 0
P r o - 1. 6 0
V a 1 4. 2 0
T h r - 0. 7 0
C y s 2. 5 0
I 1 e 4. 5 0
L e u 3. 8 0
A s n 一 3. 5 0
A s p - 3. 5 ― 1
し y s — 3. 9 1
G 1 n - 3. 5 0
G 1 u - 3. 5 一 1
Me t 1. 9 0
H i s - 3. 2 0
P h e 2. 8 0
A r g 一 4. 5 1
T y r - 1. 3 0
T r p 一 0. 9 0 表 3ではハイド口パシーインデックスの代表として、 K一 Dインデックスを記載して!/、る。 アミノ酸残基の配列を受け取ると、データ抽出手段 104は、受け取ったアミノ酸残基 のそれぞれのアミノ酸に対応するハイド口パシーインデックスのデータ列と、電荷のデ 一タ列を出力し、必要に応じてデータ記憶手段 102に格納する。あるいは、アミノ酸 残基のデータをそのままデータ記憶手段 102に格納し、変換テーブル 102aと併せ てノ、イド口パシーインデックスのデータ列と電荷のデータ列が得られるように構成され ていても良い。
モデル記憶手段 106は、数 16の式で示されるモデルパラメータデータを格納して いる。そして、算出手段 108は、データ抽出手段 104からハイド口パシーインデックス のデータ列と電荷のデータ列とに応じて、モデルパラメータを用いて数 15の計算を 実行することにより、膜貫通領域数
[数 24] m を算出したり、各アミノ酸残基について数 17— 19の判定を行なって膜貫通領域にあ るかどうかを判定し、膜貫通領域の位置を定めたりする。図示しないが、算出手段 10 8には、数 15、数 17— 19の計算を実行するための手段 (加算される各項の確率を計 算する確率計算手段、その確率計算手段の出力を記憶する記憶手段、その記憶手 段の内容を加算する加算手段等の必要な手段)が実装されて!、る。
[0057] 算出手段 108の出力は、適当な出力手段(図示しない)により、膜貫通領域予測装 置 1の外部へ出力されたり、あるいは、表示装置(図示しない)に表示されたり、記憶 手段(図示しない)に記憶されたりすることができる。
[0058] 本発明の本発明の予測装置 1には、さらに、隠れマルコフモデル学習手段 110が 備えられていても良い。この学習手段 110は、内部には HMM (隠れマルコフモデル )を保持している。本態様の HMMは、上記の [1. 1 モデル構造]によって説明した モデルである。また、学習手段 110には、学習するためのデータとして、トレーニング 配列のデータ(トレーニング配列のアミノ酸残基力 データ抽出手段によって出力さ れたノ、イド口パシーデータ列と電荷データ列、トレーニング配列にっ 、て予め実験的 に得られている膜貫通領域の数 m、各アミノ酸残基が膜貫通領域にあるか、ループ 領域にあるかの同定結果)が与えられる。
[0059] この学習方法は、上記アルゴリズムの説明では Baum-Welch法を行なわな!/、と説明 しているが、これは検討段階における事情である。したがって、本発明においては、 Baum-Welch法による学習を利用しても良い。これ以外には、 Viterbi法による学習な ど、 HMMの学習法として知られる任意の学習法を用いることができる。例えば、 Dirichlet事前確率を組み込んだベイズ手法を取り入れることにより、大幅にモデルの 精度を改善することができる。
[0060] 学習手段 110は、図示しないが、これらの学習を実行するための手段を有している 。具体的には、トレーニング配列の実際の膜貫通領域の数 mや同定結果を保持する 記憶手段、モデルパラメータを保持する記憶手段、モデルパラメータを更新して学習 中のモデルからハイド口パシーデータ列と電荷データ列を抽出する手段、そして、そ のデータ列をトレーニング配列の実際のハイド口パシーデータ列と電荷データ列と比 較する比較手段などが含まれて 、る。 [0061] 図 2により、本発明の実施の形態におけるモデルパラメータの算出方法について説 明する。トレーニング配列として、アミノ酸残基や膜貫通領域の数あるいは位置(同定 結果)が実験により明ら力となっている多数のタンパク質のアミノ酸残基配列を用いる 。データ抽出手段 104により、このトレーニング配列のアミノ酸残基配列のそれぞれ 力もハイド口パシーデータ列と電荷データ列を抽出する(S202)。
[0062] 次に、トレーニング配列についてのハイド口パシーデータ列と電荷データ列と、膜貫 通領域の数および Zまたは位置とから、モデルの学習を実行する。例えば、モデル ノ ラメータを調整して、膜貫通領域の数を有する隠れマルコフモデル力 トレーニン グ配列のハイド口パシーデータ列と電荷データ列をできるだけ高 、確率 (尤度)で出 力するようにすることにより、トレーニングを実行する(S204)。この学習は、学習手段 110が行なう。さらに、学習手段 110は、そのようにして得られたモデルパラメータを モデル記憶手段 106に格納する(S206)。
[0063] 図 3により、本発明の実施の形態における膜貫通領域の数または位置の算出方法 について、膜貫通領域の数を求める場合について説明する。まず、データ抽出手段 104がテスト配列 (膜貫通領域が未知の配列)のアミノ酸残基配列を受け付けると、 データ記憶手段 102からハイド口パシーデータ列と電荷データ列を得る(S302)。算 出手段 108は、膜貫通領域の数を変えながら (S304、 S308)、そのときの膜貫通領 域の数におけるモデルパラメータを用いて、受け付けたノヽイド口パシーデータ列と電 荷データ列が得られる確率を算出する(S306)。これにより、様々な膜貫通領域の数 における確率が算出されるので、その確率が最も高い値を示す膜貫通領域の数を出 力する(S310)。これにより、学習済みのモデルを用いて、ハイド口パシーインデック スと電荷とによって膜貫通領域の数を算出することが可能となる。膜貫通領域の数を 求める代わりに膜貫通領域の位置を求める場合には、算出手段 108の代わりに膜貫 通領域の位置を算出する手段を用い、 S304、 S308では膜貫通領域の位置を変更 する。
[0064] なお、膜貫通領域の数の学習を実行した後、その結果を生かして膜貫通領域の位 置を予測することもできる。このためには、例えば、膜貫通領域の数を予測して得ら れたモデルパラメータを初期のモデルパラメータとして学習を行なうことができる。 [4. 考察]
提案されたアルゴリズムは、第 1歩に過ぎず、詳細なチューニングをしていない段階 のものであるため、先に記載した実験結果からは、本発明の方法は十分に期待して よいものであるといえる。ただし、このアルゴリズムには幾つかの改良が可能である。
(i) a , b の予測を、例えば、 Dirichlet事前確率を組み込んだベイズ手法を取り入れ ij ik
ることにより、大幅に改善することができる。
(ii)関連するハイパーパラメータは、固定されるのではなぐ調整されてもよい。この 場合には、モンテカルロ法が用いられてもよい。
(iii)電荷トラジェクトリーがこの問題についてより重要である可能性がある場合、サイ ドネス(内部または外部)が予測可能である。
(iv)例えば、膜貫通領域とループ領域との境界領域を取り入れることなどによって、 より詳細な構造が考慮されてもよい。
(V)改良のために、他の物理ィ匕学的な量も考慮できるであろう。
(vi) 3次元構造の予測も、成功すれば有用である。

Claims

請求の範囲
[1] 受け付けたタンパク質のアミノ酸残基配列に対応するハイド口パシーデータ列と電 荷データ列を記憶するデータ記憶手段と、
アミノ酸残基配列の膜貫通領域とループ領域とを表現する隠れマルコフモデルに っ 、て、該隠れマルコフモデルを定めるための学習されたモデルパラメータを保持 するモデル記憶手段と、
テスト配列であるアミノ酸残基配列に対するハイド口パシーデータ列と電荷データ列 とをデータ記憶手段から受け付けて、前記モデル記憶手段から得た前記モデルパラ メータに基づいて、膜貫通領域の数および Zまたは位置を変更しながら前記テスト配 列に対応するノ、イド口パシーデータ列および電荷データ列を与える確率を算出し、 該確率を最大とする前記膜貫通数を出力することにより、前記タンパク質の膜貫通領 域の数または位置を算出する算出手段と
を備えてなる、タンパク質の膜貫通領域の数および Zまたは位置の予測装置。
[2] 前記モデルパラメータにより表現される前記隠れマルコフモデルを内部に実現した 隠れマルコフモデル学習手段であって、トレーニング配列としての膜貫通領域の数 および Zまたは位置が既知であるアミノ酸残基配列におけるハイド口パシーデータお よび電荷データと、該アミノ酸残基を有するタンパク質の該膜貫通領域の数および Z または位置とに基づ 、て学習を実行し、該学習の結果として得られたモデルパラメ一 タを前記モデル記憶手段に格納する隠れマルコフモデル学習手段をさらに備えてい る、請求項 1に記載の予測装置。
[3] 前記隠れマルコフモデルは、
前記タンパク質の膜貫通領域を表現する少なくとも一つの第 1種のサブモデルと、 前記タンパク質のループ領域を表現する少なくとも一つの第 2種のサブモデルと を含むとともに、前記第 1種のサブモデルと前記第 2種のサブモデルとが交互にォ ープンループ結合した隠れマルコフモデルである、請求項 1または 2に記載の予測
[4] 前記モデルパラメータは、
前記第 1種のサブモデルおよび前記第 2種のサブモデルのそれぞれにつ 、て、フ ロアリングおよびスムージングを施して設定されるハイド口パシーインデックス出力確 率を定める第 1群のパラメータと、
前記第 1種のサブモデルおよび前記第 2種のサブモデルのそれぞれについてフロ ァリングを施して設定される、電荷出力確率を定める第 2群のパラメータと、
前記第 1種のサブモデルおよび前記第 2種のサブモデルのそれぞれに含まれる各 状態間の状態遷移確率と
を含むものである、請求項 3に記載の予測装置。
[5] 前記第 1種のサブモデルは、それぞれが自己ループを有し、互いに left-to-right型 に結合された複数の状態を有し、
前記第 2種のサブモデルは、自己ループを有する単一の状態を有する、請求項 3 に記載の予測装置。
[6] テスト配列についての膜貫通領域の数および Zまたは位置を予測する方法であつ て、
テスト配列であるタンパク質のアミノ酸残基配列を受け付けるステップと、 受け付けたテスト配列に対応するハイド口パシーデータ列と電荷データ列とを得る 抽出ステップと、
該テスト配列についての前記ハイド口パシーデータ列と前記電荷データ列とを受け 付けて、既知のタンパク質のデータに基づき既にトレーニングして得られている隠れ マルコフモデルのモデルパラメータに基づ 、て、膜貫通領域の数および zまたは位 置を変更しながら前記テスト配列に対応するハイド口パシーデータ列および電荷デ 一タ列を与える確率を算出するステップと、
前記膜貫通領域数算出手段が、該確率を最大とする前記膜貫通領域の数および zまたは位置を出力する算出ステップと
を含む方法。
[7] トレーニング配列としてその特性が既知のタンパク質のアミノ酸残基配列を受け付 けるステップと、
受け付けられたトレーニング配列に関するハイド口パシーデータおよび電荷データ と、 該両データ列を与えるタンパク質の該膜貫通領域の数および zまたは位置とに基づ いて学習を実行する学習ステップと、
該学習ステップによって得たモデルパラメータを前記モデル記憶手段に格納する 格納ステップと
を前記算出ステップに先立って実行する請求項 6に記載の方法。
[8] 前記隠れマルコフモデルは、
前記タンパク質の膜貫通領域を表現する少なくとも一つの第 1種のサブモデルと、 前記タンパク質のループ領域を表現する少なくとも一つの第 2種のサブモデルと を含むとともに、前記第 1種のサブモデルと前記第 2種のサブモデルとが交互にォ ープンループ結合した隠れマルコフモデルである、請求項 6または 7に記載の方法。
[9] 前記モデルパラメータは、
前記第 1種のサブモデルおよび前記第 2種のサブモデルのそれぞれにつ 、て、フ ロアリングおよびスムージングを施して設定されるハイド口パシーインデックス出力確 率を定める第 1群のパラメータと、
前記第 1種のサブモデルおよび前記第 2種のサブモデルのそれぞれについてフロ ァリングを施して設定される、電荷出力確率を定める第 2群のパラメータと、
前記第 1種のサブモデルおよび前記第 2種のサブモデルのそれぞれに含まれる各 状態間の状態遷移確率と
を含むものである、請求項 8に記載の方法。
[10] 前記第 1種のサブモデルは、それぞれが自己ループを有し、互いに left-to-right型 に結合された複数の状態を有し、
前記第 2種のサブモデルは、自己ループを有する単一の状態を有する、請求項 9 に記載の方法。
[11] コンピュータを、請求項 1一 5のいずれかに記載の装置として動作させるための、コ ンピュータプログラム。
[12] コンピュータに、請求項 6— 10のいずれかに記載の方法を実行させるための、コン ピュータプログラム n
PCT/JP2004/012967 2003-09-12 2004-09-07 タンパク質の膜貫通領域の数または位置の予測装置 WO2005027013A1 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2003321076 2003-09-12
JP2003-321076 2003-09-12
JP2004151159A JP2005108183A (ja) 2003-09-12 2004-05-21 タンパク質の膜貫通領域の数または位置の予測装置、予測方法及びコンピュータプログラム
JP2004-151159 2004-05-21

Publications (1)

Publication Number Publication Date
WO2005027013A1 true WO2005027013A1 (ja) 2005-03-24

Family

ID=34315666

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2004/012967 WO2005027013A1 (ja) 2003-09-12 2004-09-07 タンパク質の膜貫通領域の数または位置の予測装置

Country Status (2)

Country Link
JP (1) JP2005108183A (ja)
WO (1) WO2005027013A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010503058A (ja) * 2006-08-28 2010-01-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 決定論的モデルから確率論的モデルを導出する方法および装置
CN112069045A (zh) * 2020-08-14 2020-12-11 西安理工大学 基于隐马尔可夫的云平台软件性能预测方法
CN117153240A (zh) * 2023-08-18 2023-12-01 国家超级计算天津中心 基于氧自由基的关系确定方法、装置、设备及介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275247B (zh) * 2020-01-14 2024-02-23 西安理工大学 一种基于多种影响因素的极限学习机月度电量预测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002215634A (ja) * 2001-01-18 2002-08-02 Japan Science & Technology Corp 膜蛋白質か否かの判別方法、膜蛋白質の機能推定方法、膜貫通ヘリックス領域予測、及びこれらをコンピュータで実施するためのコンピュータプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002215634A (ja) * 2001-01-18 2002-08-02 Japan Science & Technology Corp 膜蛋白質か否かの判別方法、膜蛋白質の機能推定方法、膜貫通ヘリックス領域予測、及びこれらをコンピュータで実施するためのコンピュータプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KROGH A.: "Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes", JOURNAL OF MOLECULAR BIOLOGY, vol. 305, no. 3, 19 January 2001 (2001-01-19), pages 567 - 580, XP004469188 *
TUSNADY G.: "Principles governing amino acid composition of integral membrane proteins: application to topology prediction", JOURNAL OF MOLECULAR BIOLOGY, vol. 283, no. 2, 23 October 1998 (1998-10-23), pages 489 - 506, XP004462360 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010503058A (ja) * 2006-08-28 2010-01-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 決定論的モデルから確率論的モデルを導出する方法および装置
CN112069045A (zh) * 2020-08-14 2020-12-11 西安理工大学 基于隐马尔可夫的云平台软件性能预测方法
CN117153240A (zh) * 2023-08-18 2023-12-01 国家超级计算天津中心 基于氧自由基的关系确定方法、装置、设备及介质

Also Published As

Publication number Publication date
JP2005108183A (ja) 2005-04-21

Similar Documents

Publication Publication Date Title
JP7187681B2 (ja) 細胞画像の分析のためのコンピュータ実装方法、コンピュータプログラム製品およびシステム
Lanchantin et al. Deep motif dashboard: visualizing and understanding genomic sequences using deep neural networks
Gordaliza et al. Obtaining fairness using optimal transport theory
JP6620422B2 (ja) 設定方法、設定プログラム、及び設定装置
Li et al. From lasso regression to feature vector machine
Fisch et al. Few-shot conformal prediction with auxiliary tasks
Le Guen et al. Deep time series forecasting with shape and temporal criteria
Cholewa et al. Estimation of the number of states for gesture recognition with Hidden Markov Models based on the number of critical points in time sequence
Li et al. A new hybrid coding for protein secondary structure prediction based on primary structure similarity
CN107463799B (zh) 交互融合特征表示与选择性集成的dna结合蛋白识别方法
US20240120022A1 (en) Predicting protein amino acid sequences using generative models conditioned on protein structure embeddings
US20130170739A1 (en) Learning apparatus, a learning system, learning method and a learning program for object discrimination
CN111048145B (zh) 蛋白质预测模型的生成方法、装置、设备和存储介质
JP5667004B2 (ja) データ分類装置及び方法及びプログラム
WO2005027013A1 (ja) タンパク質の膜貫通領域の数または位置の予測装置
CN116130018A (zh) 有机晶体结构预测方法、装置、设备及存储介质
Zha et al. Recognizing plans by learning embeddings from observed action distributions
Fokianos et al. Biological applications of time series frequency domain clustering
Sivakumar et al. Breast cancer prediction system: A novel approach to predict the accuracy using majority-voting based hybrid classifier (MBHC)
Farag et al. Inductive Conformal Prediction for Harvest-Readiness Classification of Cauliflower Plants: A Comparative Study of Uncertainty Quantification Methods
JP7298870B2 (ja) 分子動力学データ解析装置及びプログラム
Zannat et al. Disease Prediction Through Syndromes by Clustering Algorithm
Shamima et al. Prediction of membrane protein structures using a projection based meta-cognitive radial basis function network
Livi et al. One-class classifiers based on entropic spanning graphs
CN111091865B (zh) MoRFs预测模型的生成方法、装置、设备和存储介质

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BW BY BZ CA CH CN CO CR CU CZ DK DM DZ EC EE EG ES FI GB GD GE GM HR HU ID IL IN IS KE KG KP KR LC LK LR LS LT LU LV MA MD MG MN MW MX MZ NA NI NO NZ OM PG PL PT RO RU SC SD SE SG SK SL SY TM TN TR TT TZ UA UG US UZ VC YU ZA ZM

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SZ TZ UG ZM ZW AM AZ BY KG MD RU TJ TM AT BE BG CH CY DE DK EE ES FI FR GB GR HU IE IT MC NL PL PT RO SE SI SK TR BF CF CG CI CM GA GN GQ GW ML MR SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
122 Ep: pct application non-entry in european phase