WO2006004182A9 - 配列予測システム - Google Patents

配列予測システム

Info

Publication number
WO2006004182A9
WO2006004182A9 PCT/JP2005/012542 JP2005012542W WO2006004182A9 WO 2006004182 A9 WO2006004182 A9 WO 2006004182A9 JP 2005012542 W JP2005012542 W JP 2005012542W WO 2006004182 A9 WO2006004182 A9 WO 2006004182A9
Authority
WO
WIPO (PCT)
Prior art keywords
sequence
data
biopolymer
unit
database
Prior art date
Application number
PCT/JP2005/012542
Other languages
English (en)
French (fr)
Other versions
WO2006004182A1 (ja
Inventor
Tomoya Miyakawa
Original Assignee
Nec Corp
Tomoya Miyakawa
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corp, Tomoya Miyakawa filed Critical Nec Corp
Priority to JP2006528959A priority Critical patent/JPWO2006004182A1/ja
Priority to US11/571,822 priority patent/US20090144209A1/en
Publication of WO2006004182A1 publication Critical patent/WO2006004182A1/ja
Publication of WO2006004182A9 publication Critical patent/WO2006004182A9/ja

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Definitions

  • the present invention relates to a sequence prediction system, and more particularly to a sequence prediction system and a sequence prediction database for predicting a sequence of a peptide having specific physical properties.
  • the present invention also relates to a sequence prediction support system that supports this sequence prediction.
  • the present invention relates to a sequence prediction program and method for operating a sequence prediction system.
  • the present invention also relates to a sequence prediction support program and method for operating a sequence prediction support system.
  • HCV hepatitis C virus
  • CTL cytotoxic T cells
  • CTL epitopes In order to identify such CTL epitopes, we perform database capillary predictions such as BIMAS and SYFPEITHI, and then conduct experiments to determine whether they actually bind to HLA molecules according to the prediction results. Those that bound to CTL were identified as CTL epitopes.
  • Non-patent document 1 describes a method for identifying peptides that bind to HLA molecules more accurately in order to identify peptides that bind to HLA molecules in less experiments! / Listed in a hurry.
  • Non-Patent Document 1 Udaka, K., et al, 'Empirical Evaluation of a Dynamic Experiment Design Method for Prediction of MHC Class I- Binging Peptides', The Journal oflmmunology, 169, p5744-5753, 2002
  • Non-Patent Document 1 determination is made of power / force of having a predetermined physical property, for example, a binding ability to an HLA molecule as described above, with respect to a peptide sequence arbitrarily selected from a computer. Thus, whether or not the actually selected peptide sequence has a predetermined physical property was confirmed by conducting an experiment. Non-Patent Document 1 describes that the selected peptide sequence was actually confirmed to have a predetermined physical property with a high V probability (2nd paragraph, page 5749, right column).
  • Non-Patent Document 1 the technique described in Non-Patent Document 1 is limited to a specific target, for example, a virus antigen, and it is necessary for the predicted peptide sequence to function as a virus antigen without experimentation. If a key having a specific physical property is quantitatively discriminated and only a sequence that is discriminated to have it is selected, it cannot be applied as it is, and it is still insufficient.
  • RNAi RNA interference sequence prediction
  • RNA aptamer single sequence prediction RNA aptamer single sequence prediction
  • the present invention has been made in view of the above-described circumstances, and a sequence prediction system and sequence capable of selecting only a biopolymer sequence having a certain predetermined physical property without performing an experiment.
  • the object is to provide a prediction database, a sequence prediction support system, a sequence prediction program, a sequence prediction support program, a sequence prediction method, and a sequence prediction support method.
  • the sequence prediction system has a database having a biopolymer attribute including a biopolymer sequence and an attribute value included in the biopolymer of this sequence.
  • a generator for generating a plurality of different data subsets from the data set; A hypothesis is generated for each data subset, and each hypothesis is applied to a second data set consisting of a biopolymer sequence independent of the data set, and a biological height of the second data set is determined.
  • a learning unit for deriving the attribute value of the molecular sequence, and obtaining the variance of the attribute value for each biopolymer sequence in the second data set, and extracting the biopolymer sequence having a variance larger than a certain standard as a question point Question point extractor and
  • An attribute value for the question point is received, the received attribute value is associated with the question point, and the biopolymer sequence is associated with the data control unit, and the entire sequence of the predetermined biopolymer is received.
  • An array input receiving unit
  • a sequence candidate extraction unit that extracts biopolymer sequence candidates to be predicted from all the sequences received by the sequence input reception unit
  • An attribute value estimation unit that generates a rule from all the data sets of the database after receiving sequence input, and applies a rule to each of the biopolymer sequence candidates to estimate an attribute value of the biopolymer sequence candidate; Mu
  • N data sets having a data pace force are extracted by the selection unit, and a plurality of different data subsets are generated from the N data sets by the generation unit.
  • the learning unit analyzes each of the data subsets independently to generate a certain hypothesis, and applies the hypothesis to the biopolymer sequence of the second data set to derive attribute values.
  • the second data set having the biopolymer sequence and the derived attribute value is generated as many as the number of data subsets. That is, attribute values are derived for the same biopolymer sequence based on hypotheses derived from each data subset.
  • the question point extraction unit obtains a variance of a plurality of attribute values derived for the same biopolymer sequence, and extracts a biopolymer sequence having a variance larger than a certain standard as a question point.
  • the data control unit receives the attribute value for the question point, associates it with the biopolymer sequence related to the question point, accumulates it in the database, and updates the contents of the database.
  • the sequence input accepting unit accepts the entire sequence of the predetermined biopolymer, and the sequence candidate extracting unit extracts the biopolymer sequence candidate that is the target of attribute value prediction from the entire sequence.
  • the attribute value estimation unit the updated database data A rule is generated from the set, and the rule value is estimated for each biopolymer array by applying this rule to the biopolymer array scouting.
  • the learning unit may be configured to function as an attribute value estimation unit after receiving the array input.
  • the second hypothesis created arbitrarily by applying hypotheses generated for each of a plurality of data subsets generated by the generator, etc. While deriving attribute values for each biopolymer sequence in the current data set, at the time of attribute value prediction, a law generated from the data set included in the updated database is applied to each biopolymer sequence.
  • the attribute value can be calculated as an estimated value for the candidate.
  • the biopolymer sequence is extracted in units of p monomer extraction units from the beginning of all the sequences received by the sequence input reception unit. Extraction may be performed for every P monomer extraction units while shifting each monomer unit downstream.
  • sequence candidate extraction unit may exclude a biopolymer sequence that does not require prediction from the extracted biopolymer sequence candidates that satisfies a predetermined condition before sending it to the attribute value estimation unit. Good.
  • the question point extraction unit may extract a biopolymer sequence having a large variance! / And a certain range from the direction as a question point.
  • a biopolymer sequence having a variance larger than a predetermined value may be extracted as a question point.
  • a sequence for extracting a biopolymer sequence candidate having an attribute value satisfying a predetermined condition among the attribute values of each biopolymer sequence candidate estimated by the attribute value estimation unit An extraction unit may be further provided.
  • the biopolymer array in which the estimated attribute value satisfies a predetermined condition It can be extracted as a predicted sequence.
  • the sequence prediction system according to the present invention includes a database having a biopolymer attribute including a biopolymer sequence and an attribute value included in the biopolymer of this sequence;
  • a sequence input receiving unit that receives the entire sequence of a predetermined biopolymer
  • a sequence candidate extraction unit that extracts a biopolymer sequence candidate to be predicted from all the sequences received by the sequence input reception unit;
  • the sequence input receiving unit accepts the entire sequence of a predetermined living body height, and the sequence candidate capturing unit extracts the body height that is the target of attribute value prediction from the entire sequence. Extract molecular sequence candidates.
  • the attribute value estimation unit generates a rule from the data set of the database, applies this rule to each biopolymer sequence candidate, and estimates an attribute value for each biopolymer sequence.
  • the sequence prediction database according to the present invention includes attribute values obtained by the sequence prediction system described above and a biopolymer sequence.
  • the sequence prediction support system includes a database having a biopolymer attribute including a biopolymer sequence and an attribute value included in the biopolymer of this sequence;
  • a generation unit for generating a plurality of different data subsets from the data set, and a hypothesis for each data subset, and a second data set consisting of a biopolymer sequence independent of the data set.
  • a learning unit that derives attribute values of the biopolymer sequence for the second data set by applying hypotheses,
  • a question point extraction unit that obtains a variance of attribute values for each biopolymer sequence in the second data set and extracts a biopolymer sequence having a variance larger than a certain reference as a question point;
  • a data control unit that receives an attribute value for the question point, associates the received attribute value with a biopolymer sequence related to the question point, and stores the attribute value in the database; 2005/012542
  • the selection unit extracts N data sets from the database, and the generation unit generates a plurality of different data subsets from the N data sets.
  • the learning unit analyzes each of the data subsets independently to generate a certain hypothesis, and applies the hypothesis to the biopolymer sequence of the second data set to derive attribute values.
  • the second data set having the biopolymer sequence and the derived attribute value is generated as many as the number of data subsets. That is, attribute values are derived for the same biopolymer sequence based on hypotheses derived from each data subset.
  • the question point extraction unit obtains a variance of a plurality of attribute values derived for the same biopolymer sequence, and extracts a biopolymer sequence having a variance larger than a certain standard as a question point.
  • the data control unit receives the attribute value for the question point, associates it with the biopolymer sequence related to the question point, accumulates it in the database, updates the contents of the database, and constructs a database that supports sequence prediction.
  • a sequence prediction program according to the present invention includes a computer device
  • a database having biopolymer attributes including a biopolymer array and attribute values of the biopolymer of this array;
  • a generation unit that generates a plurality of different data subsets from the data set, and a hypothesis for each data subset, and a second data set that is a biopolymer sequence independent of the data set.
  • a learning unit that derives attribute values of the biopolymer sequence for the second data set by applying hypotheses,
  • a question point extraction unit that obtains a variance of attribute values for each biopolymer sequence in the second data set and extracts a biopolymer sequence having a variance larger than a certain reference as a question point;
  • An attribute value for the interrogation point is received, the received attribute value is associated with a biopolymer sequence related to the interrogation point, and a data control unit that accumulates in the database and an entire sequence of a predetermined biopolymer are accepted An array input receiving unit;
  • the biopolymer arrangement to be predicted from the total sequence force received by the sequence input receiving unit
  • An attribute value estimation unit that generates a rule from all the data sets of the database after receiving sequence input, and applies a rule to each of the biopolymer sequence candidates to estimate an attribute value of the biopolymer sequence candidate; It functions as a sequence prediction system.
  • N data sets having a database power are extracted by the selection unit, and a plurality of different data subsets are generated from the N data sets by the generation unit.
  • the learning unit analyzes each of the data subsets independently to generate a certain hypothesis, and applies the hypothesis to the biopolymer sequence of the second data set to derive attribute values.
  • the second data set having the biopolymer sequence and the derived attribute value is generated as many as the number of data subsets. That is, attribute values are derived for the same biopolymer sequence based on hypotheses derived from each data subset.
  • the question point extraction unit the variance of a plurality of attribute values derived for the same biopolymer sequence is obtained, and a biomolecule sequence having a variance larger than a certain standard is extracted as a question point.
  • the data control unit receives the attribute value for the question point, associates it with the biopolymer sequence related to the question point, accumulates it in the database, and updates the contents of the database.
  • the sequence input accepting unit accepts the entire sequence of a predetermined biopolymer, and the sequence candidate extracting unit extracts biopolymer sequence candidates for attribute value prediction from this all sequence group.
  • the attribute value estimator generates a law from the updated database data set, applies this law to the biopolymer array candidate, and estimates the attribute value for each biopolymer array.
  • the general-purpose computer device functions as an array prediction system.
  • a sequence prediction program according to the present invention includes a computer device,
  • a data pace having a biopolymer attribute including an array of biopolymers and an attribute value included in the biopolymer of the array;
  • a sequence input receiving unit that receives the entire sequence of a predetermined biopolymer
  • a sequence candidate extraction unit for extracting biopolymer sequence candidates to be predicted from the total sequence force received by the sequence input reception unit;
  • An attribute value estimator that generates a rule from all the data sets of the database after accepting the sequence input, and applies a rule to each of the biopolymer sequence candidates to estimate an attribute value of the biopolymer sequence candidate; It functions as a sequence prediction system.
  • the sequence input receiving unit accepts the entire sequence of a predetermined biopolymer
  • the sequence candidate extraction unit also captures the biopolymer sequence candidate for which the attribute value is to be predicted.
  • the attribute value estimation unit generates a rule from the data set of the database, applies the rule to the biopolymer sequence candidate, and estimates the attribute value for each biopolymer sequence.
  • the general-purpose computer apparatus functions as an array prediction system.
  • a sequence prediction support program includes a computer device
  • a database having biopolymer attributes including a biopolymer array and attribute values of the biopolymer of this array;
  • a generating unit that generates a plurality of different data subsets from the data set, and a hypothesis for each data subset, and a hypothesis for each of the second data set consisting of biopolymer sequences independent of the data set And applying a learning unit for deriving the attribute value of the biopolymer sequence for the second data set,
  • a question point extraction unit that obtains a variance of attribute values for each biopolymer sequence in the second data set and extracts a biopolymer sequence having a variance larger than a certain reference as a question point;
  • a data control unit that receives an attribute value for the question point, associates the received attribute value with a biopolymer sequence related to the question point, and stores the attribute value in the database, and causes the function to function as a sequence prediction support system. It is.
  • N data sets having database power are extracted by the selection unit, and a plurality of different data subsets are generated from the N data sets by the generation unit.
  • the learning unit analyzes each subset of data independently to generate a certain hypothesis, applies the hypothesis to the biopolymer sequence of the second data set, and sets the attribute value Is derived.
  • the second data set having the derived values for the biopolymer sequence is generated as many as the number of data subsets. That is, attribute values are derived for the same biopolymer sequence based on hypotheses derived from each data subset.
  • the question point extraction unit obtains a variance of a plurality of attribute values derived for the same biopolymer sequence, and extracts a biopolymer sequence having a variance larger than a certain standard as a question point.
  • the data control unit receives the attribute value for the question point, associates it with the biopolymer sequence related to the question point, accumulates it in the database, updates the contents of the database, and constructs a database that supports sequence prediction.
  • the general-purpose computer device functions as an array prediction support system.
  • N data sets are selected from a database having a biopolymer sequence and an attribute value included in the biopolymer of this sequence, and a plurality of different data sets from the data set are selected.
  • a hypothesis is generated for each data subset, and a second hypothesis is applied to each second data set having a biopolymer alignment force independent of the data set to obtain a second hypothesis.
  • a question point extraction stage in which biopolymer sequences having a variance larger than a certain standard among the calculated variances are extracted as question points;
  • the attribute value for the question point is received, the received attribute value is associated with the biopolymer sequence that is applied to the question point, and the data update stage stored in the database and the entire sequence of the predetermined biopolymer are received. Then, a sequence candidate capturing step for extracting candidate biopolymer sequences to be predicted from all the received sequences.
  • An attribute value estimation stage for estimating the attribute value of
  • the sequence prediction support method selects N data sets from a database having a sequence of a biopolymer and an attribute value included in a biopolymer of the sequence, and further, the data set A data supply stage for generating a plurality of different data subsets from the
  • the learning unit generates hypotheses for each data subset, and applies the hypothesis to each of the second data set having a biopolymer alignment force independent of the data set.
  • a variance calculating step for calculating the variance of the attribute value For each biopolymer sequence in the second data set! /, A variance calculating step for calculating the variance of the attribute value;
  • a question point extraction stage in which biopolymer sequences having a variance larger than a certain standard among the calculated variances are extracted as question points;
  • sequence prediction system sequence prediction support system
  • sequence prediction program sequence prediction support program
  • sequence prediction method include the following modes.
  • One aspect of the sequence prediction system includes a database that stores data including a peptide sequence composed of a first predetermined number of amino acids and physical properties that are indicative of a predetermined physiological activity of the peptide sequence; A plurality of learning units for deriving a hypothesis obtained for the third predetermined number of peptide sequences from the peptide sequence and physical properties based on the predetermined number of data, and a fourth predetermined number of data are extracted from the database, A random resampling unit that randomly supplies a second predetermined number of data to each learning unit; a target sequence setting unit that sets a predetermined peptide sequence included in a hypothesis derived by each learning unit; A physical property extraction unit that extracts the physical properties specified by a given peptide sequence from the hypothesis data of each learning unit, and a variance evaluation that evaluates the variance of the physical properties extracted from each learning unit And parts, Te based ⁇ the evaluated dispersed, the target that requests the real data for the properties of the hypothetical peptide sequence A question point extraction unit that extracts
  • New data including physical properties based on the obtained peptide sequence and true data is received by the data control unit that accumulates in the database, the sequence input accepting unit that accepts all amino acid sequences of a given protein, and the sequence input accepting unit.
  • the sequence complement extraction unit sends the extracted peptide sequence candidates to the learning unit, and the results obtained in each learning unit are extracted.
  • a physical property estimation unit for estimating physical properties of the captured peptide sequence.
  • the database power fourth predetermined number of data is randomly resampled by the second predetermined number of data that is smaller than the fourth predetermined number by the random resampling unit, Sent to each learning unit.
  • different data is supplied for each learning unit.
  • Each learning unit analyzes the supplied data to obtain a predetermined physical property for a third predetermined peptide sequence from a certain hypothesis, that is, a peptide sequence consisting of the first predetermined number of amino acids and a predetermined physical property.
  • Data sets are derived.
  • the focused sequence setting unit sets a predetermined peptide sequence for comparing hypotheses derived by each learning unit, and the focused physical property extraction unit sets the physical property specified by the set predetermined peptide sequence.
  • the variance evaluation unit evaluates the variance of physical properties extracted from each learning unit, and the question point extraction unit uses the evaluated variance to determine the peptide for which true data for the hypothetical physical property is requested. Sequences are extracted and their hypotheses are compared.
  • the data update unit receives the true data, associates the true data with the extracted peptide sequence, and sends it to the data control unit. In addition, the data controller updates the contents of the database by adding data including the peptide sequence and physical properties based on the true data.
  • the sequence input accepting unit accepts the entire amino acid sequence of a given protein, extracts the peptide sequence candidate to be predicted from the entire amino acid sequence, and sends the peptide sequence candidate to the learning unit. send.
  • the physical property estimation unit estimates the physical properties of the extracted peptide sequence from the results obtained in each learning unit.
  • the sequence candidate extraction unit accepts the sequence input reception unit.
  • the peptide extraction unit consisting of the fifth predetermined number of amino acids is extracted from the beginning of the entire amino acid sequence, and the subsequent peptide sequence candidates are shifted downstream by a predetermined number of the sixth amino acid for each peptide extraction unit.
  • the peptide sequence may be extracted. Furthermore, peptide sequences that do not need to be predicted to satisfy the predetermined conditions of the extracted sequence candidate can also be eliminated before being sent to the learning unit.
  • the query point extraction unit may extract peptide sequences in the seventh predetermined number range from the largest variance as the query points, or the variance is less than a predetermined value. Large peptide sequences may be extracted as question points.
  • the hypothesis correction unit V is a data request unit that requests true data of physical properties of the peptide sequence extracted by the question point extraction unit, a data reception unit that receives the requested true data, and
  • the received true data may include a data adding unit that is associated with the extracted peptide sequence and sent to the data control unit.
  • the data request unit for example, request an experiment to the outside or obtain information from an external database for the peptide sequence that is the question point.
  • the data accepting unit accepts data corresponding to the true data
  • the data adding unit accepts the received true data to the data control unit so as to add it to the database in association with the peptide sequence for which data is requested. send.
  • a sequence extraction unit is further provided for extracting peptide sequence candidates having physical properties satisfying a predetermined estimated condition among the physical properties of each peptide sequence candidate estimated by the physical property estimation unit. May be.
  • the physical property estimation unit can extract a peptide sequence candidate having a predetermined physical property as having a predetermined physical property with respect to a predetermined protein.
  • this peptide is characterized by predicting the base sequence of a nucleic acid encoding the sequence.
  • One aspect of the sequence prediction support system is a database storing data including a peptide sequence composed of a first predetermined number of amino acids and physical properties that are indicative of a predetermined physiological activity of the peptide sequence; A plurality of learning units for deriving a hypothesis obtained for the third predetermined number of peptide sequences from the peptide sequence physical properties based on the second predetermined number of data, and a database capability.
  • a random resampling unit that extracts data and supplies each learning unit with a second predetermined number of data at random, and a target sequence setting unit that sets a predetermined peptide sequence included in the hypothesis derived by each learning unit
  • the physical properties specified by the set predetermined peptide sequences are extracted from the hypothesis data of each learning unit respectively.
  • the physical property extraction unit of interest and the variance of the physical properties extracted from each learning unit are evaluated. Based and dispersion evaluation unit, the evaluation has been distributed! /
  • the question point extraction unit that extracts the peptide sequence for which the true data for the hypothetical physical property is requested, and the physical data based on the true data for the extracted peptide sequence are received.
  • a data update unit that performs a process of associating; and a data control unit that stores new data including the peptide sequence obtained by the data update unit and physical properties based on the true data in a database.
  • the second predetermined number of data in which the database power of the fourth predetermined number 'is smaller than the fourth predetermined number is randomly resampled by the random resampling unit.
  • different data is supplied for each learning unit.
  • Each learning unit analyzes the supplied data to obtain a predetermined physical property for a third predetermined peptide sequence from a certain hypothesis, that is, a peptide sequence consisting of the first predetermined number of amino acids and a predetermined physical property.
  • Data sets are derived.
  • the focused sequence setting unit sets a predetermined peptide sequence for comparing hypotheses derived by each learning unit, and the focused physical property extraction unit sets the physical property specified by the set predetermined peptide sequence. Are extracted from the hypotheses of each learning unit.
  • the variance evaluation unit evaluates the variance of the physical properties extracted from each learning unit, and the question point extraction unit evaluates the evaluated variance. Based on the above, the target peptide sequences for which true data on the physical properties of the hypothesis are requested are extracted, and the hypotheses are compared.
  • the data update unit receives the true data, associates the true data with the extracted peptide sequence, and sends it to the data control unit. Furthermore, the data controller updates the contents of the database by adding data including the peptide sequence and physical properties based on the true data, thereby constructing a database that supports sequence prediction.
  • a computer device stores a data including a peptide sequence having a first predetermined number of amino acid forces and physical properties serving as an index of a predetermined physiological activity of the peptide sequence.
  • a plurality of learning units for deriving the hypothesis obtained from the third predetermined number of peptide sequences from the peptide sequence and physical properties, and database power A random resampling unit that takes out a fourth predetermined number of data and randomly supplies each learning unit with a second predetermined number of data, and a predetermined peptide sequence included in the hypothesis derived by each learning unit.
  • the target sequence setting unit to be set the physical property extraction unit that extracts the physical properties specified by the set predetermined peptide sequence, respectively, the hypothetical power of each learning unit, and the component of each extracted physical property
  • a variance evaluation unit that evaluates the variance
  • a question point extraction unit that extracts a peptide sequence for requesting true data for the hypothetical physical properties based on the evaluated variance, and accepts the requested true data
  • the data update unit that performs processing to correlate the physical properties based on the true data with respect to the extracted peptide sequences, and new data including the peptide sequences obtained by the data update unit and the physical properties based on the true data are stored in the database.
  • a data control unit a sequence input accepting unit that accepts the entire amino acid sequence of a predetermined protein, and an all amino acid sequence received by the sequence input accepting unit.
  • the sequence candidate extraction unit that sends the extracted peptide sequence candidate to the learning unit, and the physical properties of the extracted peptide sequence candidate from the results obtained in each learning unit And Properties estimator for constant for, that they appear as a sequence prediction system including.
  • the database power fourth predetermined number of data is randomly resampled by the second predetermined number of data that is smaller than the fourth predetermined number by the random resampling unit, Sent to each learning unit.
  • different learning units are used.
  • Data is provided.
  • Each learning unit analyzes the supplied data to obtain a predetermined physical property for a third predetermined peptide sequence from a certain hypothesis, that is, a peptide sequence consisting of the first predetermined number of amino acids and a predetermined physical property.
  • Data sets are derived.
  • the target sequence setting unit sets a predetermined peptide sequence for comparing hypotheses derived by each learning unit, and the target physical property extraction unit is specified by the set predetermined peptide sequence.
  • the physical properties are extracted from the hypotheses of each learning unit.
  • the variance evaluation unit evaluates the variance of the physical properties extracted by each learning component, and the question point extraction unit extracts the peptide sequence that is the target of requesting true data for the hypothesized physical properties. And each hypothesis is compared.
  • the data update unit receives the true data, associates the true data with the extracted peptide sequence, and sends it to the data control unit.
  • the data controller updates the contents of the database by adding data including the peptide sequence and physical properties based on the true data.
  • the sequence input accepting unit accepts the entire amino acid sequence of a given protein, extracts peptide sequence candidates to be predicted from the entire amino acid sequence, and sends the peptide sequence candidate to the learning unit.
  • the physical property estimation unit estimates the physical properties of the extracted peptide sequence candidates from the results obtained in each learning unit.
  • the general-purpose computer apparatus functions as an array prediction system.
  • a computer device stores data including a peptide sequence composed of a first predetermined number of amino acids and physical properties that serve as an index of a predetermined physiological activity of the peptide sequence.
  • a plurality of learning units for deriving a hypothesis obtained from a third predetermined number of peptide sequences from peptide sequences and physical properties based on a second predetermined number of the data, and a database capability
  • a random sampling unit that randomly supplies each learning unit with a second predetermined number of data and a predetermined peptide sequence included in the hypothesis derived by each learning unit.
  • a data update unit that receives data and performs a process of correlating physical properties based on the true data with the extracted peptide sequence, and a peptide sequence obtained by the data update unit and physical properties based on the true data.
  • a data control unit that accumulates new data including the data in a database to function as a sequence prediction support system.
  • the database power fourth predetermined number of data is randomly resampled by the second predetermined number of data that is smaller than the fourth predetermined number by the random resampling unit, Sent to each learning unit.
  • different data is supplied for each learning unit.
  • Each learning unit analyzes the supplied data to obtain a predetermined physical property for a third predetermined peptide sequence from a certain hypothesis, that is, a peptide sequence consisting of the first predetermined number of amino acids and a predetermined physical property.
  • Data sets are derived.
  • the focused sequence setting unit sets a predetermined peptide sequence for comparing hypotheses derived by each learning unit, and the focused physical property extraction unit sets the physical property specified by the set predetermined peptide sequence.
  • the variance evaluation unit evaluates the variance of the physical properties extracted for each learning component, and the question point extraction unit extracts the peptide sequence that is the target of requesting true data for the hypothetical physical properties based on the evaluated variance. And each hypothesis is compared.
  • the data update unit receives the true data, associates the true data with the extracted peptide sequence, and sends it to the data control unit. Furthermore, the data controller updates the contents of the database by adding data including the peptide sequence and physical properties based on the true data, thereby constructing a database that supports sequence prediction.
  • the general-purpose computer device functions as an array prediction support system.
  • data including a peptide sequence composed of a first predetermined number of amino acids and physical properties that serve as an index of a predetermined physiological activity of the peptide sequence is stored.
  • Database and database power A fourth predetermined number of data is randomly extracted, and based on a second predetermined number of data randomly sent from the fourth predetermined number of data, Based on the physical properties, a plurality of hypothesis deriving units for deriving the hypothesis obtained by the third predetermined number of peptide sequences and a predetermined peptide sequence included in the hypothesis derived by each hypothesis deriving unit are set.
  • the extracted physical properties are extracted from the hypothesis data of each hypothesis deriving unit, the variance of the extracted physical properties is evaluated, and based on the evaluated variance, the peptide sequence for which the true data for the hypothetical physical properties is requested is determined.
  • the data control unit that accumulates new data including the sequence and physical properties based on the true data in the data pace, and the whole amino acid sequence of the predetermined protein are received, and the received whole amino acid sequence is a pair of predictions.
  • the peptide sequence candidate is extracted, and the extracted peptide sequence candidates are sent to the hypothetical derivation unit. Including a physical property estimation output unit for estimating a physical property of the candidate, the.
  • each peptide sequence estimated by the physical property estimation output unit Among candidate physical properties, a sequence extraction unit for extracting peptide sequence candidates having physical properties satisfying a predetermined condition is further provided. Also good.
  • sequence prediction support system stores data including a peptide sequence having a first predetermined number of amino acid forces and physical properties serving as an index of a predetermined physiological activity of the peptide sequence.
  • Database and database power A fourth predetermined number of data is extracted at random, and the peptide is based on the second predetermined number of data randomly sent from the fourth predetermined number of data.
  • a plurality of hypothesis deriving units for deriving hypotheses obtained from the third predetermined number of peptide sequences from the sequence and physical properties, and predetermined peptide sequences included in the hypotheses derived by each hypothesis deriving unit The hypothetical power of each hypothesis deriving unit is extracted for each physical property specified by the set predetermined peptide sequence, the variance of the extracted physical properties is evaluated, and based on the evaluated variance, Truth for hypothetical physical properties And the question point array extraction unit for extracting the peptide sequence of interest to request the data, accepts the true data that has been requested, the extracted peptide sequence Nitsu! Stores new data in the database, including a data update unit that handles physical property-based physical properties, and peptide sequences obtained by the data update unit and physical properties based on true data Data control unit.
  • a computer device is connected to the first predetermined number of amino acids.
  • a database that stores data including a peptide sequence that has a force and physical properties that are indicative of a predetermined physiological activity of the peptide sequence, and a database power.
  • a fourth predetermined number of data is randomly extracted to obtain a fourth predetermined number. Based on the second predetermined number of data sent at random from among the data of the above, the hypothesis obtained from the physical properties of the peptide sequence is derived for the third predetermined number of peptide sequences.
  • a plurality of hypothesis deriving units and predetermined peptide sequences included in the hypotheses derived by each hypothesis deriving unit, and the physical properties specified by the set predetermined peptide sequences are set to the hypothesis category of each hypothesis deriving unit.
  • a query point sequence extraction unit that extracts each of the extracted physical properties, evaluates the variance of the extracted physical properties, and extracts a peptide sequence for requesting true data for the hypothetical physical properties based on the evaluated variance;
  • a data update unit that receives the requested true data and associates the extracted peptide sequence with the physical property based on the true data, and a new property that includes the peptide sequence obtained by the data update unit and the physical property based on the true data.
  • the data control unit that accumulates data in the database and the entire amino acid sequence of a given protein are received, and the received all amino acid sequences are extracted as peptide sequence candidates for prediction, and the extracted
  • the peptide sequence candidate is sent to the hypothesis deriving unit, and the sequence prediction system including the physical property estimation output unit for estimating the physical property of the extracted peptide sequence candidate from the output result is made to function.
  • the computer device stores data including a peptide sequence composed of a first predetermined number of amino acids and physical properties that serve as an index of a predetermined physiological activity of the peptide sequence.
  • Database and database power The fourth predetermined number of data is randomly extracted, and the peptide sequence and physical properties are based on the second predetermined number of data randomly sent from the fourth predetermined number of data. From the third predetermined number of peptide sequences, a plurality of hypothesis deriving units for deriving the hypothesis to be obtained and a predetermined peptide sequence included in the hypothesis derived by each hypothesis deriving unit are set.
  • the physical properties specified by the set predetermined peptide sequence are extracted from the hypothesis data of each hypothesis derivation unit, the variance of the extracted physical properties is evaluated, and the hypothesis of the hypothesis is based on the evaluated variance.
  • object An interrogator point sequence extraction unit for extracting the peptide sequence of interest that requires real data to, and receiving the requested true data, extracted peptide sequence Nitsu 1 /, Te based on the true data Sequence prediction support, which includes a data update unit that performs processing for associating sex, and a data control unit that stores new data including peptide sequences obtained by the data update unit and physical properties based on true data in a database It functions as a system.
  • a database that stores data including a peptide sequence composed of a first predetermined number of amino acids and physical properties that serve as an index of a predetermined physiological activity of the peptide sequence.
  • the random resampling unit extracts the fourth predetermined number of data, and randomly supplies the second predetermined number of data from the fourth predetermined number of data to each of the plurality of learning units.
  • a hypothesis derivation step in which each learning unit derives a hypothesis obtained for a third predetermined number of peptide sequences from V, peptide sequences and physical properties based on a second predetermined number of data;
  • the target sequence setting stage for setting a predetermined peptide sequence included in the hypothesis derived in each learning unit, and the physical properties specified by the set predetermined peptide sequence are determined from the hypothesis data of each learning unit.
  • a question point extraction stage for extracting a peptide sequence to be received, and processing for associating physical properties based on the true data with respect to the extracted peptide sequence by receiving the requested true data and converting the extracted peptide sequence to the true data.
  • New additional data including physical properties based on the data update stage for accumulating in the database, and accepting all amino acid sequences of a given protein.
  • the extracted peptide sequence candidates are sent to the learning unit and the results obtained in each learning unit Including a physical property estimation step for estimating a physical property of capturing peptide sequences weather, the.
  • sequence prediction support method is also included in the embodiments of the present invention. That is, from a database that stores data including a peptide sequence composed of a first predetermined number of amino acids and physical properties that are indicative of a predetermined physiological activity of the peptide sequence, a fourth predetermined number of data is obtained by a random resampling unit.
  • a random re-sampling stage in which a second predetermined number of data is randomly supplied from a fourth predetermined number of data to each of the plurality of learning units, and each learning unit has a second predetermined number Peptide sequence and data based on A hypothesis derivation stage for deriving a hypothesis obtained for the third predetermined number of peptide sequences from the physical properties, and a target sequence setting stage for setting a predetermined peptide sequence included in the hypothesis derived by each learning unit.
  • the physical property extraction stage that extracts the physical properties specified by the specified peptide sequence, each of the learning department's hypothesis ability, the variance evaluation stage that evaluates the variance of the physical properties extracted from each learning section, and the evaluated variance
  • a question point extraction stage for extracting the peptide sequence for which the true data for the hypothetical physical property is requested, and accepting the requested true data and associating the extracted peptide sequence with the physical property based on the true data
  • a data update stage in which new additional data including the obtained peptide sequence and physical properties based on the true data is stored in the database. Is a non-array prediction support method.
  • FIG. 1 is a block diagram showing an overview of a sequence prediction system according to the first embodiment of the present invention.
  • FIG. 2 is a diagram showing an example of a data set stored in a storage device.
  • FIG. 3 is a diagram showing an example of the existence probability of each amino acid at each aligned position of virtual peptide sequences tabulated based on probability parameters calculated by a learning unit.
  • FIG. 4 is a diagram illustrating an example of a hypothesis output by a learning unit.
  • FIG. 5 is a diagram schematically showing an example of data for question point extraction.
  • FIG. 6 shows an example in which the sequence candidate extraction unit is configured to exclude unnecessary peptide sequences.
  • FIG. 7 is a block diagram showing an overview of a sequence prediction system according to a second embodiment of the present invention.
  • FIG. 9 is a diagram showing a case where a request for true data is made to an external database, not to a user.
  • FIG. 10 is a flowchart explaining the operation of the sequence prediction support method according to the first embodiment.
  • FIG. 11 is a flowchart showing the operation of a sequence prediction system using a database constructed by a sequence prediction support system or an existing database.
  • FIG. 12 is a flow chart illustrating the operation of the sequence prediction support method according to the second embodiment.
  • FIG. 13 is a flowchart showing the operation of the sequence prediction system using the database constructed by the sequence prediction support system according to the second embodiment.
  • FIG. 1 is a block diagram showing an overview of the sequence prediction system according to the first embodiment of the present invention.
  • This sequence prediction system includes a storage device 126, which is a database having a biopolymer attribute including a biopolymer sequence and attribute values of the biopolymer of this sequence, and N data sets from the storage device 126.
  • a data control unit 128 as a selection unit to be selected, a generation unit 102 that generates a plurality of different data subsets from the data set, and a hypothesis for each data subset, and the data set Applying a hypothesis to each second data set, which is an independent biopolymer array power, and deriving the attribute value of the biopolymer array for the second data set, and the second data set
  • the question point extraction unit 118 that obtains the variance of the attribute value for each biopolymer sequence of and extracts a biopolymer sequence having a variance larger than a certain standard as a question point, and this question
  • the attribute value for the data is received, the received attribute value is associated with the biopolymer sequence related to the question point, and the data control unit 128 stored in the
  • the sequence input receiving unit 130 the sequence candidate extracting unit 131 that extracts the biopolymer sequence candidate to be predicted by the total sequence force received by the sequence input receiving unit 130, and all the storage devices 126 after receiving the sequence input
  • each rule is applied to each candidate biopolymer sequence, and
  • a learning unit 104 as an attribute value estimation unit for estimating the attribute value.
  • the storage device 126 is a database that accumulates a data set including peptide sequences as biopolymer sequences and attribute values of the peptide sequences.
  • This data set is composed of known data (referred to as “known data”) that has been clarified by documents or the like, or data sent from the data receiving unit 122 through the data control unit 128 described later.
  • FIG. 2 is a diagram showing an example of a data set stored in the storage device 126. As shown in FIG.
  • this data set consists of a peptide sequence consisting of a predetermined number of amino acids and an attribute value of this peptide sequence, for example, a physical property that is an index of a predetermined physiological activity, such as an antigen closely related to immune induction. And a binding constant (-logKd) to a human leukocyte antigen (HLA) complex which is a display molecule.
  • the number of amino acids in the peptide sequence is 8 to when targeting HLA class I molecules, for example, a fixed value of L1, for example 9, and 20 or less when targeting HLA class II molecules. Can be a fixed value.
  • an example of a peptide sequence in which HLA is an antigen-presenting molecule as a binding target will be described as an example of a biopolymer sequence, but a biopolymer sequence having other physiological activity,
  • it may be a peptide sequence that targets a G protein-coupled receptor having a peptide as a ligand, or may be a base sequence of a nucleic acid (such as DNA) encoding a predetermined peptide sequence as described above.
  • examples of biological macromolecules having a predetermined physiological activity include DNAs and RNAs composed of a predetermined number of nucleotides and having a predetermined base sequence.
  • the attribute value of the biopolymer sequence includes a physical property that serves as an index of the binding ability to a predetermined substance.
  • This physical property is related to, for example, the binding constant in addition to the binding target. It may be a physical property such as a hydrophobicity (or hydrophilicity).
  • the data control unit 128 functions as a selection unit that selects N data sets, and the selected N data sets are sent to the generation unit 102. Further, the data control unit 128 updates the data content of the storage device 126 by sending an additional data set sent from the data reception unit 122 to the storage device 126, as will be described later. [0068] In addition, in the data control unit 128, when all the arrays of a predetermined biomolecular arrangement are input from the array input receiving unit 130 described later, all data sets are stored from the data sets stored in the storage device 126. It is taken out and sent to the learning unit 104 as an attribute value estimation unit.
  • the generation unit 102 randomly samples from the N data sets sent from the data control unit 128, generates a data subset having arbitrary m (N> m) data power, The subset is sent to the learning unit 104.
  • each data subset may be the same number of data sets or may be a different number of data sets.
  • the learning unit 104 when a data subset is sent from the generation unit 102, a hypothesis described later is generated for each data subset, and when a data set is sent from the data control unit 128, A rule for estimating an attribute value for a candidate peptide sequence described later, for example, a binding constant in FIG. 2, is generated.
  • the learning unit 104 may include a plurality of calculation units, and each calculation unit may be configured to perform processing related to a plurality of data subsets in parallel, or may include a single calculation unit. The processing may be performed serially for each data subset.
  • arithmetic processing is performed according to the procedure of the hidden Markov model learning system described in Japanese Patent No. 3094860, for example.
  • the top row shows that the first or ninth amino acid has a methiyun (M) force of 3 ⁇ 49%, isoleucine (I) has a probability of 16%, and parin (V) has a probability of 12%. It is shown. The remaining 43% is calculated as the total probability of the remaining amino acids.
  • the aligned positions of the 8 amino acids are shown in the order of the left force in the right direction. According to this, the probability that the leftmost Threonin (T) is first is 1%, and the probability that it is second is 22%. In this way, the probability of existence is shown to the right, and the amino acids from the top 1 to 3 are shown above each aligned position. That is, the parameter storage device 140 is configured to store each probability parameter used for aggregating hypotheses that also include such parameter forces.
  • Non-Patent Document 1 The outline is as follows.
  • L is the peptide sequence O in a given HMM (Hidden Markov Model)
  • LKa ′ represents the average value of gKa of all peptides used in the calculation.
  • H indicates a reference HMM when the existence probability is uniform.
  • the learning unit 104 applies the hypothesis to a second data set consisting of a biopolymer sequence independent of the data set extracted by the data control unit 128, and the second data
  • the attribute value of the biopolymer sequence for the set is derived and sent to the question point extraction unit 118.
  • This second data set contains, for example, 100,000 peptide sequences, and hypotheses from multiple data subsets are applied to this second data set, respectively.
  • a second data set of attribute values for each array The number of data subsets is generated.
  • the peptide sequence for the second data set may be a variable set that is set each time a data subset is sent from the generation unit 102, and is arbitrarily set by the person using this system. It may be a set that is entered or selected. Further, it may be included in a predetermined data table.
  • a data set when a data set is sent from the data control unit 128, it acts as an attribute value estimation unit. That is, a law is generated based on a probability parameter that can be obtained by performing the same operation as described above. Unlike generating hypotheses, a set of rules is generated. For each candidate peptide sequence sent from the sequence candidate extraction unit 131 described later, an estimated value obtained by applying the rule is obtained, and this estimated value is associated as an attribute value of the corresponding candidate peptide sequence. , Sent to peptide database 138.
  • a calculation process is performed to obtain the variance of attribute values for each peptide sequence in the second data set.
  • FIG. 4 shows an example of the result of this calculation process.
  • ori indicates a binding constant as a temporary score of an attribute value that is a starting point of calculation in the learning unit 104.
  • 0.0000 is assigned as an initial value for all peptide sequences.
  • Mean means the average value of the prediction scores derived for each specific peptide sequence in the second data set, max in the same row is the maximum of the same prediction score, and min in the same row is the minimum of the same prediction score.
  • Sd of the bank represents the standard deviation of the prediction score
  • var of the bank represents the variance of the prediction score.
  • the question point extraction unit 118 extracts in order from the one with the largest variance.
  • Figure 5 schematically shows the ranking in the dataset.
  • peptide sequences as biopolymer sequences within a certain range, for example, the top 50 in the direction of large dispersion are extracted as question points in this data set, and the extracted peptide sequences are extracted as data request parts. 1 Sent to 20.
  • peptide sequences with a variance greater than a predetermined value may be extracted as question points! / ⁇ .
  • the peptide sequence related to the question point extracted by the question point extraction unit 118 is stored in data indicating a true attribute value, for example, measurement data obtained by an experiment or an external database.
  • Request data such as literature.
  • Data reception unit 122 Accepts measurement data input by the user in response to a request from the data request unit 120, or data such as literature obtained from a predetermined database as described later, and indicates these data as true attribute values. The data is sent to the data control unit 128 as data.
  • the data control unit 128 associates the data sent from the data receiving unit 122 with the peptide sequence selected as the question point, and adds an additional value including this peptide sequence and the attribute value related to this data.
  • a data set is generated and sent to the storage device 126. As described above, this additional data set is accumulated in the storage device 126 and becomes a candidate for data in the subsequent hypothesis derivation.
  • the sequence input receiving unit 130 forms information on the entire amino acid sequence of a predetermined protein for specifying a candidate peptide sequence that is desired to be predicted, for example, a target protein for which identification of an epitope is desired, such as a virus antigen.
  • the input of the entire amino acid sequence of the protein is received, and the received data is sent to the sequence candidate extraction unit 131.
  • This input may be made through a user interface by a predetermined input device, or via a network connected to the user interface.
  • target proteins other than the Winores antigen include bacteria and bacteria involved in infectious diseases such as Mycobacterium tuberculosis, O-157, Salmonella, Pseudomonas aeruginosa, Helicobacter pylori, Staphylococcus aureus, and malaria.
  • infectious diseases such as Mycobacterium tuberculosis, O-157, Salmonella, Pseudomonas aeruginosa, Helicobacter pylori, Staphylococcus aureus, and malaria.
  • Proteins involved in allergic diseases such as type I diabetes, Syugren's syndrome, hay fever, atopy, asthma, rheumatism, collagen disease, autoimmune diseases, rejection of organ transplants; cancer immunity It can also be applied to proteins such as cancer antigens; Algno, proteins that are conducive to imamosis, such as beta amyloid, which is the causative protein.
  • the sequence candidate extraction unit 131 extracts and extracts a peptide sequence candidate to be predicted based on the entire amino acid sequence of a predetermined protein, which is information received by the sequence input reception unit 130. Peptide sequence candidates are sent to the learning unit 104.
  • the peptide sequence extracted by the sequence candidate extraction unit 131 may include a sequence that cannot be practically used. Such unnecessary peptide sequences may be automatically excluded without human assistance. '
  • FIG. 6 shows an example in which the sequence candidate extraction unit 131 is configured to eliminate unnecessary peptide sequences. Indicates.
  • sequence candidate extraction unit 131 as a monomer unit of the total amino acid sequence power p units of the predetermined protein sent from the sequence input reception unit 130, for example, in a peptide extraction unit consisting of 8 to 11, particularly 9 amino acids, A weather catcher 150 for removing the weather trap and an unnecessary sequence exclusion unit 152 for removing a peptide sequence that does not require prediction satisfying a predetermined condition from the extracted peptide sequence candidates are provided.
  • the peptide sequence is extracted from the beginning of all the amino acid sequences received by the sequence input reception unit 130 in the peptide extraction unit, and the subsequent peptide sequence capturing is performed in q monomer units. For example, each peptide extraction unit is extracted while shifting one amino acid at a time downstream.
  • an unnecessary sequence database that accumulates data relating to peptide sequences that do not require prediction satisfying a predetermined condition from the extracted peptide sequence candidates, for example, data relating to unnecessary peptide sequences.
  • Peptide sequences identified by referring to the above are excluded from the prediction candidates before being sent to the learning unit 104, and the remaining peptide sequence candidates are sent to the learning unit 104. ing.
  • unnecessary peptide sequences have low water solubility, for example! / ⁇ Peptide sequences are fisted.
  • the sequence input accepting unit 130 when identifying a virus antigen desired to be identified by the sequence input accepting unit 130, such as a CTL epitope of hepatitis C virus, the entire amino acid sequence of the antigen protein of hepatitis C virus From the above, an indication of a peptide sequence acting as an epitope is extracted.
  • the antigen of hepatitis C virus is formed from 8 to 11 amino acids presented in human leukocyte antigen (HLA) class I molecules that induce immunity as a specific protein, and CTL is this part. Recognizing that hepatitis C virus is known to be impaired.
  • HLA human leukocyte antigen
  • 8 to 11 amino acid units are extracted as P monomer extraction units from the beginning of the entire amino acid sequence of hepatitis C virus antigen, followed by q monomer units from the beginning, for example, from the second amino acid shifted by 1 amino acid.
  • the first amino acid is shifted downstream by one amino acid, and then the extracted peptide sequence is extracted as an attribute value.
  • a candidate peptide sequence is extracted from the entire amino acid sequence of the received protein, and unnecessary peptide sequences are extracted from the extracted peptide sequences before prediction of physical properties. This eliminates the need for unnecessary estimation operations in the learning unit 104.
  • the unnecessary sequence database 154 may be a part of the storage device 126.
  • data related to physical properties such as hydrophobicity may be added to a part of the data as shown in FIG.
  • the data accumulated in the unnecessary sequence database 154 includes information on peptide sequences that require licenses from other companies, and is configured to exclude such peptide sequences, for example, for the development of new drugs.
  • the present embodiment can be used for the purpose of extracting necessary peptide sequence candidates.
  • an attribute value estimated by the learning unit 104 for example, a data set composed of a combination of a binding constant to an HLA class I molecule and a peptide sequence having this binding constant is accumulated.
  • the condition input receiving unit 134 receives an input of an attribute value, for example, a binding constant, which becomes a keyword for extracting a peptide sequence having a predetermined physical property from the peptide database 138. Similar to the array input receiving unit 130, this input may be performed through a user interface by a predetermined input device, or may be performed through this network by connecting a network to the user interface.
  • an attribute value for example, a binding constant
  • an input of a condition (attribute value) required according to the use of the peptide sequence to be extracted is accepted.
  • a condition attribute value
  • a keyword having a binding constant higher than 6 for an HLA class I molecule that is a predetermined protein is accepted as a keyword.
  • the sequence extraction unit 136 extracts a peptide sequence that satisfies the conditions received by the condition input reception unit 134 from the peptide database 138, and outputs the extracted peptide sequence as a prediction result.
  • the sequence input was accepted.
  • the learning part 104 receives an input to that effect, for example, a peptide sequence whose binding constant is estimated and information on the number of substitutions indicating how many amino acids are to be substituted in the peptide sequence.
  • the calculation at the estimation stage can be performed at, and the attribute value of the new peptide sequence can be estimated based on the calculation result.
  • FIG. 7 is a block diagram showing an overview of the sequence prediction system according to the second embodiment of the present invention.
  • This sequence prediction system includes a storage device 126 which is a database for storing data including a peptide sequence composed of a first predetermined number of amino acids and physical properties that are indicative of a predetermined physiological activity of the peptide of this peptide sequence.
  • a plurality of learning units 112 for deriving a hypothesis to be obtained for a third predetermined number of peptide sequences from the peptide sequence and the physical properties based on a second predetermined number of the data; and
  • a hypothesis deriving unit configured by a random resampling unit 110 that extracts a fourth predetermined number of data from the storage device 126 and supplies the second predetermined number of data to each learning unit 112 at random;
  • the target sequence setting unit 160 (FIG.
  • the physical property extraction unit 162 (FIG. 8) that also extracts the hypothesis power of each of the above, and the variance evaluation unit 164 (FIG. 8) that evaluates the variance of the physical properties extracted from each learning unit 112. 114, and a question point sequence extraction unit comprising a question point extraction unit 118 for extracting a peptide sequence for which true data for the physical property of the hypothesis is requested based on the evaluated variance.
  • a data control unit 128 that accumulates new data including the peptide sequence obtained by the data update unit and physical properties based on the true data in the storage device 126, and an entire array of predetermined proteins.
  • the sequence input receiving unit 130 that accepts a non-acid sequence, and the peptide sequence candidates to be predicted from the all amino acid sequences received by the sequence input receiving unit 130 are extracted, and the extracted peptide sequence candidates are learned.
  • a physical property estimation output unit comprising a sequence candidate extraction unit 131 to be sent to the unit 112, and a physical property estimation unit 132 that estimates the physical properties of the extracted peptide sequence candidates from the results obtained by the learning units 112; Mu
  • the storage device 126 is clearly described in the literature including a peptide sequence composed of the first predetermined number of amino acids and physical properties that are indicative of a predetermined physiological activity of the peptide sequence.
  • this is a database for accumulating a data set having known data (“known data”). Further, as will be described later, it can be updated by additional data sent through the data control unit 128.
  • FIG. 2 is a diagram showing an example of a data set stored in the storage device 126.
  • this data set is an addition of known data and true data, a peptide sequence consisting of a first predetermined number of amino acids, indicated by the data, and a predetermined physiology of this peptide sequence. It includes physical properties that are indicative of activity, for example, a binding constant (-logKd) to a human leukocyte antigen (HLA) complex that is an antigen-presenting molecule closely related to immune induction.
  • the number of amino acids as the first predetermined number is a fixed value of 8 to 11 when targeting HLA class I molecules, for example 9, and when targeting HLA class II molecules. Is a fixed value of 20 or less. 2005/012542
  • an example of a peptide sequence in which the binding target is HLA that is an antigen-presenting molecule is shown as a peptide sequence to be sought. It may be a peptide sequence targeting a conjugated receptor, or may be a base sequence of a nucleic acid (such as DNA) encoding a predetermined peptide sequence as described above.
  • the physical properties that serve as an index of the binding ability to a predetermined substance include physical properties related to binding, such as hydrophobicity (or hydrophilicity). May be.
  • the learning unit 112 derives the data based on the data resampled by the random resampling unit 110 described later, and the data adding unit 124 described later if necessary.
  • the additional data including the true data added in step S3 is sent to the storage device 126, and the data set stored in the storage device 126 is updated.
  • Random resampler 110 resamples a second predetermined number of data randomly from the fourth predetermined number of data sent from data controller 128 and supplies the data to each learning unit 112 To do.
  • the data control unit 128 and the random resampling unit 110 are interlocked so that the same number of different data (samples) are randomly supplied to each learning unit 112. For example, when 100 data as the fourth predetermined number is extracted from the storage device 126 and 50 data as the second predetermined number is supplied to each learning unit 112, the same data is supplied to all the learning units 112. Randomly resample and retrieve 100 to 50 data, send the retrieved data to one learning unit 112, and resample and retrieve another 50 data randomly The data is sent to another learning unit 112, and finally 50 different data are supplied to all learning units. Thereby, it is possible to prevent the same hypothesis from being derived from each learning unit 112. In this way, if the measured value (reference value) force S is about several hundreds at most, prediction by this system can be performed.
  • the learning unit 112 performs processing according to the purpose at the learning stage and the estimation stage.
  • the data control unit 128 performs the learning stage calculation.
  • the control signal cont is sent to each learning unit 112, and when the control signal cont is input, the learning unit 112 performs a calculation in the learning stage.
  • an estimation stage calculation is performed.
  • a plurality of learning units for example, 50 learning units are used by using input data in accordance with the procedure of the hidden Markov model learning system described in Japanese Patent No. 3094860, for example.
  • the probability calculation is performed at, and the calculation result is stored in the parameter storage device 140.
  • the probability parameters accumulated in the parameter storage device 140 are the first predetermined number, for example, the presence probability of each amino acid at each alignment position in the order of the peptide sequences consisting of 9 amino acids, and the order before and after each alignment position. It consists of the transition probability of.
  • the probability is accumulated according to the probability parameters accumulated in the parameter storage device 140, and the existence probability of each amino acid at each aligned position of the virtual peptide sequence as shown in Fig. 3 is obtained. It is like that.
  • a third predetermined number for example, 100,000 peptide sequences are combined based on the aggregation results as shown in FIG.
  • Hypothesis data is obtained by calculating a prediction score corresponding to a constant.
  • This hypothesis data is sent to the hypothesis comparison unit 114.
  • the hypothesis data may be sent to the data control unit 128.
  • this third predetermined number of peptide sequence sets may be a variable set that is set each time the learning phase calculation starts, and can be arbitrarily entered or selected by the person using this system. It may be a set.
  • the calculation in the estimation stage is performed in substantially the same way as the calculation in the learning stage, and the score of the binding constant corresponding to each peptide sequence obtained in each learning section 112 is the hypothesis comparison section. Instead, it is sent to the physical property estimation unit 132 described later.
  • the probability parameter stored in the parameter storage device 140 is overwritten every time deta random resampling is performed in the learning stage, and is stored last in the estimation stage. Use the probability parameter! The score is calculated. 05 012542
  • FIG. 8 shows a functional block diagram for explaining the function of the hypothesis comparison unit 114.
  • the hypothesis comparison unit 114 includes a target sequence setting unit 160, a target physical property extraction unit 162, and a variance evaluation unit 164. '
  • the sequence-of-interest setting unit 160 sets a peptide sequence to be compared for determining how much the hypothesis derived from each learning unit 112 converges to V.
  • This set peptide sequence is one of those that are listed as the peptide sequences of the data that make up each hypothesis!
  • the focused physical property extracting unit 162 extracts the physical properties specified by the peptide sequence set by the focused sequence setting unit 160 from the hypothesis data.
  • the variance evaluation unit 164 calculates the variance of the physical properties extracted by the focused physical property extraction unit 162 to obtain, for example, a data set as shown in FIG. 4 described above. The obtained variance is sent to the question point extraction unit 118.
  • the question point extraction unit 118 extracts in order of increasing variance obtained by the hypothesis comparison unit 114.
  • Figure 5 schematically shows the ranking in the data set. Further, from the data set, the highest 50th, which is the seventh predetermined number range from the one with the largest variance, is extracted as the question points, and the extracted peptide sequence is sent to the data request unit 120. Alternatively, a peptide sequence having a variance greater than a predetermined value may be extracted as a target peptide sequence for which true data is requested, that is, a question point.
  • the data request unit 120 requests true data, for example, measurement data obtained by experiments or data such as documents stored in an external database, with respect to the peptide sequences related to the question points extracted by the question point extraction unit 118.
  • the data accepting unit 122 accepts the force requested by the data requesting unit 120, the force input by the user S, the measurement data obtained from the user S, and the literature data obtained from a predetermined database as described later.
  • the data is sent to the data adding unit 124 as true data.
  • the data adding unit 124 once captures the true data sent from the data receiving unit 122, associates it with the peptide sequence that was the question point, and generates additional data including this peptide sequence and this physical property. This additional data is sent to the data control unit 128.
  • the sequence input receiving unit 130 desires to identify information on the entire amino acid sequence of a predetermined protein, for example, identification of an epitope, in order to specify a candidate peptide sequence that is desired to be predicted.
  • the input of the entire amino acid sequence of the target protein to be processed, for example, the protein forming the virus antigen, is received, and the received data is sent to the sequence candidate capturing unit 131.
  • This input may be made through a user interface by a predetermined input device or via a network connected to the user interface.
  • a target protein other than the virus antigen as described above may be the target of sequence input acceptance.
  • the sequence candidate extraction unit 131 extracts and extracts a candidate peptide sequence target for prediction based on the entire amino acid sequence of a predetermined protein, which is information received by the sequence input reception unit 130. Peptide sequence candidates are sent to each learning unit 112.
  • the peptide sequences extracted by the sequence candidate extraction unit 131 may include sequences that cannot actually be used.
  • the sequence capturing / extracting unit 131 may be configured to automatically exclude such unnecessary peptide sequences without human assistance.
  • the physical property estimation unit 132 the calculation in the estimation stage of the learning unit 112 is performed according to the peptide sequence candidate after being extracted by the sequence candidate extraction unit 131 and unnecessary peptide sequences are excluded as necessary. According to the results obtained by the above, the physical properties of each peptide sequence are estimated. This calculation result is obtained, for example, in a data set as shown in FIG. 5 described above. In the physical property estimation unit 1 32, for example, an average value is obtained for each peptide sequence, and a given protein of the peptide sequence, for example, a target protein. This estimation is performed for all peptide sequence candidates, and the combination of peptide sequence and putative physical properties is sent to the peptide database 138.
  • a data set consisting of a combination of the physical property estimated by the physical property estimation unit 132, for example, a binding constant to the HLA class I molecule and a peptide sequence having this physical property is obtained.
  • the condition input accepting unit 134 accepts input of physical properties, for example, binding constants, which are keywords for extracting peptide sequences having predetermined physical properties from the peptide data pace 138.
  • This input may be made through a user interface by a predetermined input device, similarly to the array input receiving unit 130, and may be connected to the user interface via a network. 2005/012542
  • an input of conditions (physical properties) required according to the use of the peptide sequence to be extracted is accepted.
  • a peptide sequence is used as a therapeutic agent for hepatitis C
  • the binding constant for an HLA class I molecule that is a predetermined protein is accepted as a keyword.
  • the sequence extraction unit 136 extracts a peptide sequence satisfying the condition received by the condition input reception unit 134 from the peptide database 138, and outputs the extracted peptide sequence as a prediction result.
  • the physical properties of a new peptide sequence obtained by substituting one to several amino acids into the peptide sequence were examined.
  • an input to that effect for example, a peptide sequence for which a binding constant is estimated, and V in the peptide sequence, an eighth predetermined number of information on whether to replace two amino acids, are input.
  • Each learning unit 112 performs an estimation stage calculation, and based on the calculation result, the physical property estimation unit 132 can estimate the physical property of the new peptide sequence.
  • Fig. 9 is a diagram showing a case where a request for true data is made to an external database that is not directed to the user.
  • an example applied to the sequence prediction system shown in FIG. 7 is shown, but the present invention can also be applied to the sequence prediction system shown in FIG.
  • the peptide sequence is sent to the database control unit 162 via the network 160 in response to a request from the data request unit 120, and the database control unit 162 stores the measured value of this peptide sequence in the measured value database 164.
  • this actual value is obtained, it is sent as data such as documents to the data reception unit 122 through the network 160. In this way, true data can be obtained automatically without human assistance.
  • FIG. 10 is a flowchart for explaining the operation of the sequence prediction support system according to the embodiment of the sequence prediction support method of the present invention.
  • the sequence prediction support system of this embodiment is included in the sequence prediction system according to the first embodiment shown in FIG. 1, and the reference numerals in FIG. .
  • N data sets are selected from a database having biopolymer sequences and attribute values of the biopolymers of this sequence, and a plurality of different data sets are selected from the data sets.
  • Step S1 which is a data supply stage for generating a data subset and supplying it to the learning unit, and the learning unit generate hypotheses for each data subset, and from the biopolymer sequence independent of the data set.
  • Step S2 which is a hypothesis derivation stage in which the hypothesis is applied to each second data set to derive the attribute value of the biopolymer sequence related to the second data set, and each biological height in the second data set
  • Step S3 which is a variance calculation stage for calculating the variance of attribute values for the molecular arrangement, and the living body height having a variance larger than a certain standard among the calculated variances
  • Step S4 which is a question point extraction stage for extracting a child sequence as a question point, and an attribute value for this question point are received, and the received attribute value is associated with the biopolymer sequence related to the question point, thereby de- And step S5, which is a data update stage stored in the database.
  • step S1 the data control unit 128 selects N data sets each including an array of storage device biomolecules as a database and attribute values included in the biopolymers of this array, and further generates a generation unit.
  • N data sets each including an array of storage device biomolecules as a database and attribute values included in the biopolymers of this array, and further generates a generation unit.
  • a plurality of different data subsets are generated from these N data sets and supplied to the learning unit 104.
  • step S2 as described above, the hypothesis generated for each data subset by the learning unit 104 is applied to the biopolymer sequence (peptide sequence) of the second data set. , The attribute value of each peptide sequence is derived.
  • step S3 the question point extraction unit 118 calculates the variance of the attribute value of each biopolymer sequence.
  • Step S4 the question point extraction unit 118 continues to extract, as the question points, biopolymer sequences having a variance larger than a certain standard among the calculated variances.
  • step S5 the attribute value for the extracted question point is received by the data receiving unit 122, and the data control unit 128 associates the received attribute value with the biomolecular sequence related to the question point.
  • the data is sent to and stored in the storage device 126, and the contents of the storage device 126 are updated.
  • a database that supports sequence prediction is constructed.
  • Steps S1 to S5 for example, the maximum variance obtained in step S3 It may be repeated as appropriate until the value becomes smaller than the predetermined value. In this case, the reliability of the contents of the sequence prediction support database is further improved.
  • FIG. 11 is a flowchart showing the operation of a sequence prediction system using a database constructed by the sequence prediction support system according to the first embodiment shown in FIG. It is.
  • step S110 the sequence input receiving unit 130 receives the entire sequence of a predetermined biopolymer, for example, a protein, and the sequence candidate extracting unit 118 predicts the received all sequence data.
  • the target biopolymer sequence in this case a peptide sequence candidate, is extracted and sent to the learning unit 104.
  • step S 111 after receiving the array input, the data control unit 128 extracts all data sets in the storage device 128 and sends them to the learning unit 104.
  • the learning unit 104 generates a rule from the entire data set and applies the rule to each of the above-described biopolymer sequence candidates to estimate the attribute value of the biopolymer sequence candidate.
  • the attribute value estimated by the learning unit 104 is sent to the peptide database 138, and is stored in association with the corresponding peptide sequence, whereby data comprising the peptide sequence and the attribute value is stored.
  • a database of sets can be created. This data set is not limited to peptide sequences, and any database of biopolymers such as DNA and RNA can be databased together with attribute values.
  • Step S113 to Step S114 are provided, and in Step S113, a keyword for extracting a peptide sequence having a predetermined attribute value from the peptide database 138 in the condition input receiving unit 134, for example, an attribute value is provided. Accepts input of conditions such as greater than the binding constant for a specific protein.
  • step S114 the sequence extraction unit 136 extracts a peptide sequence satisfying the condition received by the condition input reception unit 134 from the peptide database 138, and outputs the extracted peptide sequence as a prediction result. .
  • FIG. 12 is a flowchart for explaining the operation of the sequence prediction support system included in the sequence prediction system according to the second embodiment shown in FIG. In the following description, the reference numerals in FIG.
  • step S 10 data is extracted from the storage device 126 by the data control unit 128, and different data powers are randomly resampled to each learning unit 112 through the random resampling 110.
  • each learning unit 112 analyzes the supplied data and determines a third hypothesis, that is, a third predetermined number of 100,000 peptide sequences based on a certain hypothesis, that is, a peptide sequence and predetermined physical properties.
  • a data set including the obtained score is derived.
  • step S30 the target sequence setting unit 160 sets a predetermined peptide sequence for comparing the same hypotheses derived by each learning unit 112.
  • step S 40 the target physical property extraction unit 162 extracts the set predetermined peptide sequence and physical properties from the hypothesis data of each learning unit 112.
  • step S50 the variance evaluation unit 164 evaluates the variance of the physical properties extracted from each learning unit 112.
  • step S60 the question point extraction unit 118 extracts the data in descending order of the variance evaluated by the variance evaluation unit 164 of the hypothesis comparison unit 114.
  • the data set obtained in this way is shown schematically in Fig. 5.
  • step S70 the top 50 of the data set obtained in step S60 is extracted as the question points as described above, and the extracted peptide sequence is used as the true data for the hypothetical physical properties. It is extracted as a peptide sequence to be requested.
  • step S80 the data requesting unit 120 requests true data, the data receiving unit 122 receives the requested true data, and the data adding unit 124 extracts the array extracted in step S70. Additional data can be obtained by defining the hypothetical physical properties as true data.
  • step S90 the additional data obtained by the data adding unit 124 is sent to the storage device 126 through the data control unit 128, and the data in the storage device 126 is updated.
  • step S100 it is determined whether or not to perform the next learning. This judgment result is YES, That is, when the next learning is performed, the process returns to step S10, and the learning data force S is randomly supplied to each learning unit 112 by random resampling 110. If the determination result is NO, that is, if the next learning is not performed, the sequence prediction support operation ends.
  • the number of times of learning may be determined in advance as a predetermined number, or it may be determined whether or not the next learning is performed at each end.
  • the peptide sequences are rearranged in descending order of the hypothesis data, and a predetermined number, for example, up to 50 are extracted from the top as question points.
  • a predetermined number for example, up to 50 are extracted from the top as question points.
  • the estimated variance is a predetermined value.
  • the peptide sequence as described above may be extracted as a question point.
  • FIG. 13 is a flowchart showing the operation of the sequence prediction system using the database constructed by the sequence prediction support system according to the second embodiment.
  • step S200 the sequence input accepting unit 130 accepts the entire amino acid sequence of a virus antigen that is a target protein for a predetermined substance, for example, an antigen-presenting molecule, and in step S210, the received entire amino acid sequence is predicted. Peptide sequence candidates to be subjected to extraction are extracted, and the learning unit 112 performs an estimation stage calculation. From the calculation results, the physical property estimation unit estimates the binding constant of the peptide sequence candidate to the virus antigen. In step S220, In the peptide database 138, a data set of all the peptide sequence candidates and predetermined physical properties is generated and accumulated.
  • a predetermined substance for example, an antigen-presenting molecule
  • step S230 the condition input receiving unit 134 receives an input of a physical property as a keyword for extracting a peptide sequence having a predetermined physical property from the peptide database 138, for example, a binding constant for a predetermined protein.
  • step S240 the sequence extraction unit 136 extracts a peptide sequence satisfying the condition received by the condition input reception unit 134 from the peptide database 138, and outputs the extracted peptide sequence as a prediction result. .
  • a peptide sequence having a predetermined physical property can be extracted as expected to exhibit an epitope that binds to a predetermined substance.
  • a target protein for example, 9 amino acids derived from the amino acid sequence of a viral antigen
  • a peptide sequence having such immunity-inducing ability can be predicted using the number of T cell proliferation induced by this as an indicator of physiological activity.
  • peptide is assumed to be a ligand, a specific peptide ligand has not been identified.
  • Orphan G-protein coupled receptor (orphan-GPCR) ligand optimization Optimum for this assay, with numerical values such as calcium concentration increase and intracellular cAMP (intracellular biomolecule) increase in cultured cells accompanying peptide administration as indicators of physiological activity. Predicted peptide sequences.
  • the peptide sequence can also be predicted using the increase in the blood concentration of a physiologically active peptide or a physiologically active hormone composed of the peptide as an index of physiological activity.
  • the present embodiment can also be applied to DNA sequence prediction.
  • a transcription factor that controls gene expression must bind upstream of the gene sequence on the DNA, and the DNA base sequence of the transcription factor binding site must have a certain motif or law. It has been known. Therefore, by predicting the transcription of the transcription factor sequence that binds to the promoter involved in the specific gene expression, the gene expression and the DNA sequence pattern of the transcription factor binding site in a specific gene expression system are predicted. Rules can be found, and gene expression and transcription factor binding can be controlled.
  • the present embodiment can also be applied to RNAi sequence prediction.
  • RNAi sequence prediction For example, by binding to and cleaving mRNA with sequence homology in the presence of a specific small double-stranded RNA base sequence (siRNA) force-capturing factor of about 10 to 20 bases. Upstream ⁇ Downstream It is known to inhibit gene product production. Therefore, by predicting siRNA sequence candidates that bind to mRNA involved in specific gene expression, it becomes possible to predict the relationship between specific physiological activities and RNAi sequences.
  • siRNA sequence design which is actively researched and developed, will be possible.
  • RNA abutama sequence prediction An RNA aptamer is usually an RNA strand of 20 bases or more, and has a specific stable three-dimensional structure by binding between preferential bases within the sequence. Using this structural property, a target protein or the like can be identified. It is a substance that binds to the functional site of and controls its function. Therefore, by predicting RNA base sequence candidates that have a structure that binds to the functional site of the target protein, it becomes possible to predict the relationship between a specific physiological activity and an RNA abutama sequence. As a substance, it is possible to design an RNA abutama that is actively researched and developed.
  • the present invention also provides a program that causes a general-purpose computer device to function as the above-described sequence prediction system or sequence prediction support system.
  • biopolymer sequence such as a peptide sequence having a certain predetermined physical property or a nucleotide sequence of a nucleic acid by experiments. Become.
  • each component of the sequence prediction system or the sequence prediction support system described above can be expressed in a program.
  • a general-purpose computer device can be connected to the sequence prediction system. Or it can be operated as a sequence prediction support system.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

  生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースである記憶装置126と、記憶装置126からN個のデータセットを選択する選択部としてのデータ制御部128と、このデータセットから異なる複数のデータサブセットを生成する生成部102と、それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第2のデータセットにそれぞれ仮説を適用して、第2のデータセットにかかる生体高分子配列の属性値を導出する学習部104と、を含む。

Description

明 細 書
配列予測システム
技術分野
[0001] 本発明は、配列予測システムに関し、特に特定の物性を備えるペプチドの配列を 予測するための配列予測システムおよび配列予測データベースに関する。また、本 発明は、この配列予測を支援する配列予測支援システムに関する。さらに、本発明 は、配列予測システムを動作させるための配列予測プログラムおよび方法に関する。 また、本発明は、配列予測支援システムを動作させるための配列予測支援プロダラ ムおよび方法に関する。
' 背景技術
[0002] C型肝炎ウィルス (HCV)などのウィルスに感染すると、自然免疫によるウィルス排除 反応が起こり、次いで、特異的免疫応答が誘導され、ウィルスの排除反応が起こる。
[0003] 特異的免疫応答では、体液中のウィルスが中和抗体により排除され、細胞内のウイ ノレスが細胞傷害性 T細胞 (CTL)により排除される。すなわち、 CTLは、感染細胞表 面の HLAクラス I分子に提示された、 8〜11のアミノ酸力 なるウィルス抗原 (CTLェ ピトープ)を特異的に認識し、感染細胞を傷害することによりウィルスを排除する。した がって、このようなウィルスに特異的な CTLェピトープを同定することは、ウィルスに対 する治療ワクチンを作成する上で重要である。
[0004] このような CTLェピトープを同定するために、 BIMAS、 SYFPEITHIなどのデータ ベースカ ェピトープ予測を行って、予測結果に応じて実際に HLA分子と結合する か否カゝの実験を行って、実際に結合するものを CTLェピトープとして同定していた。
[0005] BIMAS、 SYFPEITHIなどのデータベースを用いた方法では、 HLA分子と結合 すると判断されたペプチドが実際には結合しな!/ヽことが多ぐ予測通りに CLTェピト ープを同定することが困難であった。
[0006] 非特許文献 1には、より少な 、実験で HLA分子と結合するペプチドを同定するた めに、より正確に HLA分子と結合するペプチドを同定する方法につ!/ヽて記載されて いる。 非特許文献 1 : Udaka, K., et al, 'Empirical Evaluation of a Dynamic ExperimentDesig n Method for Prediction of MHC Class I- Binging Peptides', The Journal oflmmunolo gy, 169, p5744-5753, 2002
発明の開示
[0007] ところで、非特許文献 1では、コンピュータから任意に選出されたペプチド配列に関 して、所定の物性、例えば上記のような HLA分子との結合能を有する力否力の判定 を行うことが開示されており、実際に選出されたペプチド配列が所定の物性を有する 力否かは、実験を行うことで確認をしていた。非特許文献 1には、選出されたペプチド 配列が、高 Vヽ確率で実際に所定の物性を有することが実験により確認された旨記載 されて 、る(5749頁右欄第 2段落)。
[0008] しかしながら、非特許文献 1に記載された技術を、ある特定のターゲット、例えばウイ ルス抗原に絞って、実験によらずに、予測されたペプチド配列がウィルス抗原として 機能するのに必要な特定の物性を有するカゝ否カゝを定量的に判別し、有すると判別さ れた配列のみを選出するといつた目的では、そのまま適用することができず、まだ不 十分であった。
[0009] 一方で、ペプチド配列と同様に、転写因子結合部位 DNA配列予測、 RNAi(RNA interference)配列予測、 RNAァプタマ一配列予測などについても、精度よい配列 予測が期待されている。
[0010] そこで、本発明は上述した実情に鑑みてなされたものであり、ある所定の物性を有 する生体高分子配列のみを実験によらないで選出することが可能な配列予測システ ムおよび配列予測データベース、配列予測支援システム、配列予測プログラムおよ ぴ配列予測支援プログラムならびに配列予铆方法および配列予測支援方法を提供 することを目的としている。
[0011] 本発明に係る配列予測システムは、上述の課題を解決するために、生体高分子の 配列と、この配列の生体高分子が備える属性値と^"む生体高分子属性を有するデ ータベースと、
前記データベースから N個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、 それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットと は独立の生体高分子配列カゝらなる第 2のデータセットにそれぞれ仮説を適用して、第 2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、 前記第 2のデータセット中の各生体高分子配列について属性値の分散を求めて、 一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部 と
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にか 力 生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、 所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列カゝら予測の対象となる生体高分子配 列候補を抽出する配列候捕抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに 、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候捕 の属性値を推定する属性値推定部と、 む。
このような構成により、選択部によりデータペース力 N個のデータセットが取り出さ れ、生成部によりこの N個のデータセットから異なる複数のデータサブセットが生成さ れる。学習部では、データサブセットのそれぞれについて独立に分析して一定の仮 説を生成し、第 2のデータセットの生体高分子配列に対して仮説を適用して属性値 が導出される。なお、生体高分子配列および導出属性値を有する第 2のデータセット は、データサブセット数と同じだけ生成される。すなわち、同じ生体高分子配列に対 して、各データサブセット由来の仮説に基づいてそれぞれ属性値が導出されることに なる。質問点抽出部では、同じ生体高分子配列について導出された複数の属性値 の分散を求めて、一定基準よりも分散が大きい生体高分子配列が質問点として抽出 される。データ制御部では、質問点に対する属性値を受け付けて、質問点にかかる 生体高分子配列と対応づけて、前記データベースに蓄積して、データベースの内容 が更新されるようになる。一方で、配列入力受付部では、所定の生体高分子の全配 列を受け付け、配列候補抽出部ではこの全配列カゝら属性値予測の対象となる生体 高分子配列候補を抽出する。属性値推定部では、更新されたデータベースのデータ セットから法則を生成し、生体高分子配列候捕にそれぞれこの法則を適用して、各生 体高分子配列に対して属性値を推定する。
[0013] この配列予測システムにおいて、学習部は、配列入力受付後にあっては、属性値 推定部として機能するように構成してもよ ヽ。
[0014] すなわち、一^ ^のコンピュータシステムにて、データベースの内容の更新時には、 生成部力ゝらの複数のデータサブセットのそれぞれについて生成された仮説を適用し て、任意に作成された第 2のデータセットの各生体高分子配列に対して属性値を導 出する一方で、属性値予測時には、更新済みのデータベースに含まれるデータセッ トから生成された法則を適用して、各生体高分子配列候補に対して属性値を推定値 として算出するようにすることができる。
[0015] この配列予測システムにお!/ヽて、配列候捕抽出部では、配列入力受付部で受け付 けた全配列の先頭から、 p個のモノマー取出単位で生体高分子配列を抽出し、以降 の生体高分子配列候捕を q個のモノマー単位ずつ下流側にずらしながら P個のモノ マー取出単位ごとに抽出してもよい。
[0016] また、配列候捕抽出部では、抽出された生体高分子配列候補の中から所定の条件 を満たす予測が不要な生体高分子配列を、属性値推定部に送る前に排除してもよ い。
このような構成により、生体高分子配列候補カゝら不要な配列を属性値の予測前に 排除することができ、無用な推定演算を低減することができる。
[0017] また、この配列予測システムにおレ、て、質問点抽出部では、分散が大き!/、方から一 定の範囲にある生体高分子配列が質問点として抽出されてもよぐあるいは分散が所 定の値よりも大きい生体高分子配列が質問点として抽出されてもよい。
このような構成により、学習部力 導出される仮説がある程度収束するまで質問点 を抽出し続けられるようになる。
[0018] これらの配列予測システムにおいて、属性値推定部にて推定された各生体高分子 配列候補の属性値のうち、所定の条件を満たす属性値を有する生体高分子配列候 捕を抽出する配列抽出部をさらに設けてもよい。
このような構成により、推定された属性値が所定の条件を満たす生体高分子配列を 予測配列として抽出することが可能になる。 , [0019] また、本発明に係る配列予測システムは、生体高分子の配列と、この配列の生体高 分子が備える属性値とを含む生体高分子属性を有するデータベースと、
所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列カゝら予測の対象となる生体高分子配 列候捕を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全デ ^タセットから法則を生成するとともに
、前記生体高分子配列候補にそれぞれ法則を適用 1 、当該生体高分子配列候補 の属性値を推定する属性値推定部と、を含む。
[0020] このような構成により、配列入力受付部では、所定の生体高分チの全配列を受け付 . け、配列候捕抽出部ではこの全配列カゝら属性値予測の対象となる 体高分子配列 候補を抽出する。属性値推定部では、データベースのデータセットから法則を生成し 、生体高分子配列候補にそれぞれこの法則を適用して、各生体高分子配列に対し て属性値を推定する。
[0021] 本発明に係る配列予測データベースは、前述の記載の配列予測システムにより得 られる属性値と、生体高分子配列とを有する。
[0022] 本発明に係る配列予測支援システムは、生体高分子の配列と、この配列の生体高 分子が備える属性値とを含む生体高分子属性を有するデータベースと、
前記データベースから N個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、 それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットと は独立の生体高分子配列カゝらなる第 2のデータセットにそれぞれ仮説を適用して、第 2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第 2のデータセット中の各生体高分子配列について属性値の分散を求めて、 一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部 と
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にか かる生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、 2005/012542
6
を含む。
[0023] このような構成により、選択部によりデータベースから N個のデータセットが取り出さ れ、生成部によりこの N個のデータセットから異なる複数のデータサブセットが生成さ れる。学習部では、データサブセットのそれぞれについて独立に分析して一定の仮 説を生成し、第 2のデータセットの生体高分子配列に対して仮説を適用して属性値 が導出される。なお、生体高分子配列および導出属性値を有する第 2のデータセット は、データサブセット数と同じだけ生成される。すなわち、同じ生体高分子配列に対 して、各データサブセット由来の仮説に基づいてそれぞれ属性値が導出されることに なる。質問点抽出部では、同じ生体高分子配列について導出された複数の属性値 の分散を求めて、一定基準よりも分散が大きい生体高分子配列が質問点として抽出 される。データ制御部では、質問点に対する属性値を受け付けて、質問点にかかる 生体高分子配列と対応づけて、前記データベースに蓄積して、データベースの内容 が更新され、配列予測を支援するデータベースが構築される。
[0024] 本発明に係る配列予測プログラムは、コンピュータ装置を、
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子 属性を有するデータベースと、
前記データベースから N個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、 それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットと は独立め生体高分子配列カゝらなる第 2のデータセットにそれぞれ仮説を適用して、第 2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第 2のデータセット中の各生体高分子配列について属性値の分散を求めて、 一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部 と
前記質問点に対する属性値を受け付けて、受け付けた属性値を前記質問点にか かる生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、 所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列力ら予測の対象となる生体高分子配 列候捕を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全デ一タセットから法則を生成するとともに 、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補 の属性値を推定する属性値推定部と、 む配列予測システムとして機能させるもの である。
[0025] このような構成により、選択部によりデータベース力も N個のデータセットが取り出さ れ、生成部によりこの N個のデータセットから異なる複数のデータサブセットが生成さ れる。学習部では、データサブセットのそれぞれについて独立に分析して一定の仮 説を生成し、第 2のデータセットの生体高分子配列に対して仮説を適用して属性値 が導出される。なお、生体高分子配列および導出属性値を有する第 2のデータセット は、データサブセット数と同じだけ生成される。すなわち、同じ生体高分子配列に対 して、各データサブセット由来の仮説に基づいてそれぞれ属性値が導出されることに なる。質問点抽出部では、同じ生体高分子配列について導出された複数の属性値 の分散を求めて、一定基準よりも分散が大きい生体髙分子配列が質問点として抽出 される。データ制御部では、質問点に対する属性値を受け付けて、質問点にかかる 生体高分子配列と対応づけて、前記データベースに蓄積して、データベースの内容 が更新されるようになる。一方で、配列入力受付部では、所定の生体高分子の全配 列を受け付け、配列候捕抽出部ではこの全配列カゝら属性値予測の対象となる生体 高分子配列候補を抽出する。属性値推定部では、更新されたデータベースのデータ セットから法則を生成し、生体高分子配列候捕にそれぞれこの法則を適用して、各生 体高分子配列に対して属性値を推定する。以上のように、汎用コンピュータ装置が配 列予測システムとして機能するようになる。
[0026] 本発明に係る配列予測プログラムは、コンピュータ装置を、
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子 属性を有するデータペースと、
所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列力、ら予測の対象となる生体高分子配 列候補を抽出する配列候補抽出部と、 配列入力受付後に前記データベースの全データセットから法則を生成するとともに 、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補 の属性値を推定する属性値推定部と、 ¾r ^む配列予測システムとして機能させるもの である。
[0027] このような構成により、配列入力受付部では、所定の生体高分子の全配列を受け付 け、配列候補抽出部ではこの全配列力も属性値予測の対象となる生体高分子配列 候捕を抽出する。属性値推定部では、データベースのデータセットから法則を生成し 、生体高分子配列候捕にそれぞれこの法則を適用して、各生体高分子配列に対し て属性値を推定する。以上のように、汎用コンピュータ装置が配列予測システムとし て機能するようになる。
[0028] 本発明に係る配列予測支援プログラムは、コンピュータ装置を、
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子 属性を有するデータベースと、
前記データベースから N個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、 それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットと は独立の生体高分子配列からなる第 2のデータセットにそれぞれ仮説を適用して、第 2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第 2のデータセット中の各生体高分子配列について属性値の分散を求めて、 一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部 と
前記質問点に対する属性値を受け付けて、受け付けた属性値を前記質問点にか かる生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、 を含む配列予測支援システムとして機能させるものである。
[0029] このような構成により、選択部によりデータベース力 N個のデータセットが取り出さ れ、生成部によりこの N個のデータセットから異なる複数のデータサブセットが生成さ れる。学習部では、データサブセットのそれぞれについて独立に分析して一定の仮 説を生成し、第 2のデータセットの生体高分子配列に対して仮説を適用して属性値 が導出される。なお、生体高分子配列おょぴ導出属性値を有する第 2のデータセット は、データサブセット数と同じだけ生成される。すなわち、同じ生体高分子配列に対 して、各データサブセット由来の仮説に基づいてそれぞれ属性値が導出されることに なる。質問点抽出部では、同じ生体高分子配列について導出された複数の属性値 の分散を求めて、一定基準よりも分散が大きい生体高分子配列が質問点として抽出 される。データ制御部では、質問点に対する属性値を受け付けて、質問点にかかる 生体高分子配列と対応づけて、前記データベースに蓄積して、データベースの内容 が更新され、配列予測を支援するデータベースが構築される。以上のように、汎用コ ンピュータ装置が配列予測支援システムとして機能するようになる。
本発明に係る配列予測方法は、生体高分子の配列と、この配列の生体高分子が備 える属性値とを有するデータベースから、 N個のデータセットを選択し、さらに当該デ ータセットから異なる複数のデータサブセットを生成して学習部に供給するデータ供 給段階と、
前記学習部において、それぞれのデータサブセットに対して仮説を生成するととも に、前記データセットとは独立の生体高分子配列力 なる第 2のデータセットにそれ ぞれ仮説を適用して、第 2のデータセットにかかる生体高分子配列の属性値を導出 する仮説導出段階と、
前記第 2のデータセット中の各生体高分子配列につ 、て属性値の分散を算出する 分散算出段階と、
算出された分散のうち、一定基準よりも分散が大きい生体高分子配列を質問点とし て抽出する質問点抽出段階と、
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にか 力る生体高分子配列と対応づけて、前記データベースに蓄積するデータ更新段階と 所定の生体高分子の全配列を受け付けて、この受け付けた全配列カゝら予測の対象 となる生体高分子配列候補を抽出する配列候捕抽出段階と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに 、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補 の属性値を推定する属性値推定段階と、を含む。
[0031] 本発明に係る配列予測支援方法は、生体高分子の配列と、この配列の生体高分 子が備える属性値とを有するデータベースから、 N個のデータセットを選択し、さらに 当該データセットから異なる複数のデータサブセットを生成して学習部に供給するデ ータ供給段階と、
前記学習部にぉ ヽて、それぞれのデータサブセットに対して仮説を生成するととも に、前記データセットとは独立の生体高分子配列力 なる第 2のデータセットにそれ ぞれ仮説を適用して、第 2のデータセットにかかる生体高分子配列の属性値を導出 する仮説導出段階と、
前記第 2のデータセット中の各生体高分子配列につ!/、て属性値の分散を算出する 分散算出段階と、
算出された分散のうち、一定基準よりも分散が大きい生体高分子配列を質問点とし て抽出する質問点抽出段階と、
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にか かる生体高分子配列と対応づけて、前記データベースに蓄積するデータ更新段階と 、を含む。
[0032] また、本発明に係る配列予測システム、配列予測支援システム、配列予測プロダラ ム、配列予測支援プログラムおよび配列予測方法は、下記の態様を含む。
[0033] 前記配列予測システムの一態様は、第 1の所定数のアミノ酸からなるペプチド配列 と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納する データベースと、第 2の所定数のデータに基づいてペプチド配列および物性から、第 3の所定数のペプチド配列について求めてなる仮説を導出する複数の学習部と、デ ータベースから第 4の所定数のデータを取り出して、各学習部に第 2の所定数のデー タずつランダムに供給するランダムリサンプリング部と、各学習部で導出された仮説に 含まれる所定のペプチド配列を設定する着目配列設定部と、設定された所定のぺプ チド配列により特定される物性を各学習部の仮説カゝらそれぞれ抽出する着目物性抽 出部と、各学習部から抽出された物性の分散を評価する分散評価部と、評価された 分散に基づ ヽて、仮説の物性に対する真データを要求する対象となるペプチド配列 を抽出する質問点抽出部と、要求された真データを受け付けて、抽出されたペプチド 配列につ!/、て真データに基づく物性を対応づける処理を行うデータ更新部と、デー タ更新部で得られたペプチド配列と真データに基づく物性と む新たなデータを、 データベースに蓄積するデータ制御部と、所定のタンパク質の全アミノ酸配列を受け 付ける配列入力受付部と、配列入力受付部にて受け付けた全アミノ酸配列カゝら予測 の対象となるペプチド配列候補を抽出するとともに、抽出した当該ペプチド配列候捕 を学習部に送る配列侯補抽出部と、各学習部で得られた結果から、抽出したぺプチ ド配列候捕の物性を推定する物性推定部と、を含む。
[0034] このような構成により、ランダムリサンプリング部よりデータベース力 第 4の所定数 のデータが第 4の所定数よりは小さい数である第 2の所定数のデータずつランダムに リサンプルされて、各学習部に送られる。このリサンプルでは、各学習部ごとに異なつ たデータが供給される。各学習部では、供給されたデータを分析して一定の仮説、 すなわち第 1の所定数のアミノ酸からなるペプチド配列と所定の物性とから、第 3の所 定数のペプチド配列について所定の物性を求めたデータセットが導出される。着目 配列設定部では、各学習部で導出された仮説同士を比較するための所定のぺプチ ド配列を設定して、着目物性抽出部では、この設定された所定のペプチド配列により 特定される物性を各学習部の仮説からそれぞれ抽出する。分散評価部では、各学習 部から抽出された物性の分散が評価され、質問点抽出部では、この評価された分散 に基づレ、て、仮説の物性に対する真データを要求する対象となるペプチド配列が抽 出され、それぞれの仮説が比較される。データ更新部では、真データを受け付けて、 この真データを抽出されたペプチド配列に対応づけして、データ制御部に送る。さら に、データ制御部によって、このペプチド配列と真データに基づく物性とを含むデー タを追加してデータベースの内容が更新される。一方で、配列入力受付部では、所 定のタンパク質の全アミノ酸配列を受け付け、この全アミノ酸配列カゝら予測の対象と なるペプチド配列候捕を抽出するとともに、このペプチド配列候捕を学習部に送る。 物性推定部では、各学習部で得られた結果から、抽出したペプチド配列候捕の物性 を推定する。
[0035] この配列予測システムにぉ 、て、配列候補抽出部では、配列入力受付部で受け付 けた全アミノ酸配列の先頭から、第 5の所定数のアミノ酸からなるペプチド取出単位 にて抽出し、以降のペプチド配列候補を第 6の所定数のアミノ酸ずつ下流側にずらし ながら前記ペプチド取出単位ごとにペプチド配列を抽出してもよい。さらに、抽出され た配列候捕の中力も所定の条件を満たす予測が不要なペプチド配列を、前記学習 部に送る前に排除することもできる。
[0036] このような構成により、受け付けたタンパク質の全ァミノ配列力 ペプチド配列候捕 を抽出して、この抽出されたペプチド配列候補のうち、不要なペプチド配列を物性の 予測前に取り出しておくことで、無用な推定演算の必要がなくなる。
[0037] 前記の配列予測システムにおいて、質問点抽出部では、分散が大きい方から第 7 の所定数の範囲にあるペプチド配列が質問点として抽出されてもよぐあるいは分散 が所定の値よりも大きいペプチド配列が質問点として抽出されてもよい。
[0038] このような構成により、各学習部カゝら導出された仮説がある程度収束するまで質問 点が抽出し続けられるようになる。
[0039] 前記の配列予測システムにお!/、て、仮説補正部は、質問点抽出部で抽出されたぺ プチド配列につ V、て物性の真データを要求するデータ要求部と、当該要求された真 データを受け付けるデータ受付部と、受け付けた真データを、抽出されたペプチド配 列に対応づけてデータ制御部に送るデータ追加部と、を含んでレヽてもよ 、。
[0040] このような構成により、質問点であるペプチド配列について、データ要求部から、真 データを、例えば外部に実験依頼をしたり、外部データベースに情報を求めたりする ことが可能になる。データ受付部では、この真データに対応するデータを受け付けて 、データ追加部ではこの受け付けた真データを、データ要求の対象となったペプチド 配列に対応づけてデータベースに追加するようにデータ制御部に送る。
[0041] 前記の配列予測システムにおいて、物性推定部にて推定された各ペプチド配列候 捕の物性のうち、推定所定の条件を満たす物性を有するペプチド配列候補を抽出す る配列抽出部をさらに設けてもよい。
[0042] このような構成により、物性推定部では、所定の物性を有するペプチド配列候捕が 、所定のタンパク質に対して所定の物性を示すものとして抽出することができる。
[0043] また、前述した配列予測システムにより予測されるペプチド配列より、このペプチド 配列をコードする核酸の塩基配列を予測することを特徴としている。
[0044] これにより、前述した配列予測システムにより予測されるペプチド配列カゝら所定のタ ンパク質に対して所定の物性を有する配列候補をコードする核酸の塩基配列を予測 することができるようになる。
[0045] 前記配列予測支援システムの一態様は、第 1の所定数のアミノ酸からなるペプチド 配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格 納するデータベースと、第 2の所定数のデータに基づレヽてペプチド配列おょぴ物性 から、第 3の所定数のペプチド配列について求めてなる仮説を導出する複数の学習 部と、データベース力 第 4の所定数のデータを取り出して、各学習部に第 2の所定 数のデータずつランダムに供給するランダムリサンプリング部と、各学習部で導出さ れた仮説に含まれる所定のペプチド配列を設定する着目配列設定部と、設定された 所定のペプチド配列により特定される物性を各学習部の仮説カゝらそれぞれ抽出する 着目物性抽出部と、各学習部から抽出された物性の分散を評価する分散評価部と、 評価された分散に基づ!/ヽて、仮説の物性に対する真データを要求する対象となるぺ プチド配列を抽出する質問点抽出部と、要求された真データを受け付けて、抽出さ れたペプチド配列について真データに基づく物性を対応づける処理を行うデータ更 新部と、データ更新部で得られたペプチド配列と真データに基づく物性とを含む新た なデータを、データベースに蓄積するデータ制御部と、を含む。
[0046] このような構成により、ランダムリサンプリング部よりデータベース力も第 4の所定数 ' のデータが第 4の所定数よりは小さい数である第 2の所定数のデータずつランダムに リサンプルされて、各学習部に送られる。このリサンプルでは、各学習部ごとに異なつ たデータが供給される。各学習部では、供給されたデータを分析して一定の仮説、 すなわち第 1の所定数のアミノ酸からなるペプチド配列と所定の物性とから、第 3の所 定数のペプチド配列について所定の物性を求めたデータセットが導出される。着目 配列設定部では、各学習部で導出された仮説同士を比較するための所定のぺプチ ド配列を設定して、着目物性抽出部では、この設定された所定のペプチド配列により 特定される物性を各学習部の仮説カゝらそれぞれ抽出する。分散評価部では、各学習 部から抽出された物性の分散が評価され、質問点抽出部では、この評価された分散 に基づ!/、て、仮説の物性に対する真データを要求する対象となるペプチド配列が抽 出され、それぞれの仮説が比較される。データ更新部では、真データを受け付けて、 この真データを抽出されたペプチド配列に対応づけして、データ制御部に送る。さら に、データ制御部によって、このペプチド配列と真データに基づく物性とを含むデー タを追加してデータベースの内容が更新され、配列予測を支援するデータベースが 構築される。
[0047] 前記配列予測プログラムの一態様は、コンピュータ装置を、第 1の所定数のアミノ酸 力 なるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを 含むデータを格納するデータベースと、第 2の所定数のデータに基づ!/、てペプチド 配列および物性から、第 3の所定数のペプチド配列につレ、て求めてなる仮説を導出 する複数の学習部と、データベース力 第 4の所定数のデータを取り出して、各学習 部に第 2の所定数のデータずつランダムに供給するランダムリサンプリング部と、各学 習部で導出された仮説に含まれる所定のペプチド配列を設定する着目配列設定部 と、設定された所定のペプチド配列により特定される物性を各学習部の仮説力 それ ぞれ抽出する着目物性抽出部と、各学習部力 抽出された物性の分散を評価する 分散評価部と、評価された分散に基づいて、仮説の物性に対する真データを要求す る対象となるペプチド配列を抽出する質問点抽出部と、要求された前記真データを 受け付けて、抽出されたペプチド配列について真データに基づく物性を対応づける 処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真データに基 づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と、所定の タンパク質の全アミノ酸配列を受け付ける配列入力受付部と、配列入力受付部にて 受け付けた全アミノ酸配列カゝら予測の対象となるペプチド配列候捕を抽出するととも に、抽出した当該ペプチド配列候捕を学習部に送る配列候補抽出部と、各学習部で 得られた結果から、抽出したペプチド配列候捕の物性を推定する物性推定部と、を 含む配列予測システムとして機能させるものである。
[0048] このような構成により、ランダムリサンプリング部よりデータベース力 第 4の所定数 のデータが第 4の所定数よりは小さい数である第 2の所定数のデータずつランダムに リサンプルされて、各学習部に送られる。このリサンプルでは、各学習部ごとに異なつ たデータが供給される。各学習部では、供給されたデータを分析して一定の仮説、 すなわち第 1の所定数のアミノ酸からなるペプチド配列と所定の物性とから、第 3の所 定数のペプチド配列について所定の物性を求めたデータセットが導出される。着目 配列設定部では、各学習部で導出された仮説同士を比較するための所定のぺプチ ド配列を設定して、着目物性抽出部ャは、この設定された所定のペプチド配列により 特定される物性を各学習部の仮説からそれぞれ抽出する。分散評価部では、各学習 部力 抽出された物性の分散が評価され、質問点抽出部では、この評価された分散 、て、仮説の物性に対する真データを要求する対象となるペプチド配列が抽 出され、それぞれの仮説が比較される。データ更新部では、真データを受け付けて、 この真データを抽出されたペプチド配列に対応づけして、データ制御部に送る。さら に、データ制御部によって、このペプチド配列と真データに基づく物性とを含むデー タを追加してデータベースの内容が更新される。一方で、配列入力受付部では、所 定のタンパク質の全アミノ酸配列を受け付け、この全アミノ酸配列から予測の対象と なるペプチド配列候補を抽出するとともに、このペプチド配列候捕を学習部に送る。 物性推定部では、各学習部で得られた結果から、抽出したペプチド配列候補の物性 を推定する。以上のように、汎用コンピュータ装置が配列予測システムとして機能する ようになる。
前記配列予測支援プログラムの一態様は、コンピュータ装置を、第 1の所定数のァ ミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物 ' 性とを含むデータを格納するデータベースと、第 2の所定数の前記データに基づい てペプチド配列および物性から、第 3の所定数のペプチド配列にっ ヽて求めてなる 仮説を導出する複数の学習部と、データベース力 第 4の所定数のデータを取り出し て、各学習部に第 2の所定数のデータずつランダムに供給するランダムリサンプリン グ部と、各学習部で導出された仮説に含まれる所定のペプチド配列を設定する着目 配列設定部と、設定された所定のペプチド配列により特定される物性を各学習部の 仮説からそれぞれ抽出する着目物性抽出部と、各学習部力 抽出された物性の分 散を評価する分散評価部と、評価された分散に基づいて、仮説の物性に対する真デ ータを要求する対象となるペプチド配列を抽出する質問点抽出部と、要求された真 データを受け付けて、抽出されたペプチド配列にっレヽて真データに基づく物性を対 応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真デ ータに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と 、を含む配列予測支援システムとして機能させるものである。
[0050] このような構成により、ランダムリサンプリング部よりデータベース力 第 4の所定数 のデータが第 4の所定数よりは小さい数である第 2の所定数のデータずつランダムに リサンプルされて、各学習部に送られる。このリサンプルでは、各学習部ごとに異なつ たデータが供給される。各学習部では、供給されたデータを分析して一定の仮説、 すなわち第 1の所定数のアミノ酸からなるペプチド配列と所定の物性とから、第 3の所 定数のペプチド配列について所定の物性を求めたデータセットが導出される。着目 配列設定部では、各学習部で導出された仮説同士を比較するための所定のぺプチ ド配列を設定して、着目物性抽出部では、この設定された所定のペプチド配列により 特定される物性を各学習部の仮説カゝらそれぞれ抽出する。分散評価部では、各学習 部力 抽出された物性の分散が評価され、質問点抽出部では、この評価された分散 に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列が抽 出され、それぞれの仮説が比較される。データ更新部では、真データを受け付けて、 この真データを抽出されたペプチド配列に対応づけして、データ制御部に送る。さら に、データ制御部によって、このペプチド配列と真データに基づく物性とを含むデー タを追加してデータベースの内容が更新され、配列予測を支援するデータベースが 構築される。以上のように、汎用コンピュータ装置が配列予測支援システムとして機 能するようになる。
[0051] また、前記配列予測システムの他の態様は、第 1の所定数のアミノ酸からなるぺプ チド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを 格納するデータベースと、データベース力 第 4の所定数のデータをランダムに取り 出して、第 4の所定数のデータの中からランダムに送られる第 2の所定数のデータに 基づ 、てペプチド配列おょぴ物性から、第 3の所定数のペプチド配列にっ 、て求め てなる仮説を導出する複数の仮説導出部と、各仮説導出部で導出された仮説に含ま れる所定のペプチド配列を設定し、この設定された所定のペプチド配列により特定さ れる物性を各仮説導出部の仮説カゝらそれぞれ抽出し、この抽出された物性の分散を 評価し、評価された分散に基づいて、仮説の物性に対する真データを要求する対象 となるペプチド配列を抽出する質問点配列抽出部と、要求された真データを受け付 けて、抽出されたペプチド配列について真データに基づく物性を対応づける処理を 行うデータ更新部と、データ更新部で得られたペプチド配列と真データに基づく物性 とを含む新たなデータを、データペースに蓄積するデータ制御部と、所定のタンパク 質の全アミノ酸配列を受け付けて、この受け付けた前記全アミノ酸配列カゝら予測の対 象となるペプチド配列候捕を抽出するとともに、抽出した当該ペプチド配列候補を仮 説導出部に送って、出力された結果から、抽出したペプチド配列候補の物性を推定 する物性推定出力部と、を含む。
[0052] この配列予測システムにおいて、物性推定出力部にて推定された各ペプチド配列 . 候補の物性のうち、所定の条件を満たす物性を有するペプチド配列候捕を抽出する 配列抽出部をさらに設けてもよい。
[0053] また、前記配列予測支援システムの他の態様は、第 1の所定数のアミノ酸力 なる ペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデ ータを格納するデータベースと、データベース力 第 4の所定数のデータをランダム に取り出して、第 4の所定数のデータの中からランダムに送られる第 2の所定数のデ ータに基づ \/、てペプチド配列および物性から、第 3の所定数のペプチド配列につ!/ヽ て求めてなる仮説を導出する複数の仮説導出部と、各仮説導出部で導出された仮 説に含まれる所定のペプチド配列を設定し、この設定された所定のペプチド配列に より特定される物性を各仮説導出部の仮説力 それぞれ抽出し、この抽出された物 性の分散を評価し、評価された分散に基づいて、仮説の物性に対する真データを要 求する対象となるペプチド配列を抽出する質問点配列抽出部と、要求された真デー タを受け付けて、抽出されたペプチド配列につ!/、て真デ^ "タに基づく物性を対応づ ける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真データに 基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と、を含 む。
[0054] 前記配列予測プログラムの一態様は、コンピュータ装置を、第 1の所定数のアミノ酸 力 なるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを 含むデータを格納するデータベースと、データベース力 第 4の所定数のデータをラ ンダムに取り出して、第 4の所定数のデータの中カゝらランダムに送られる第 2の所定 数のデータに基づ 、てペプチド配列おょぴ物性から、第 3の所定数のペプチド配列 につレ、て求めてなる仮説を導出する複数の仮説導出部と、各仮説導出部で導出さ れた仮説に含まれる所定のペプチド配列を設定し、この設定された所定のペプチド 配列により特定される物性を各仮説導出部の仮説カゝらそれぞれ抽出し、この抽出さ れた物性の分散を評価し、評価された分散に基づいて、仮説の物性に対する真デー タを要求する対象となるペプチド配列を抽出する質問点配列抽出部と、要求された 真データを受け付けて、抽出されたペプチド配列について真データに基づく物性を 対応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真 データに基づく物性と む新たなデータを、データベースに蓄積するデータ制御 部と、所定のタンパク質の全アミノ酸配列を受け付けて、この受け付けた全アミノ酸配 列カゝら予測の対象となるペプチド配列候捕を抽出するとともに、抽出した当該ぺプチ ド配列候補を仮説導出部に送って、出力された結果から、抽出したペプチド配列候 補の物性を推定する物性推定出力部と、を含む配列予測システムとして機能させる ものである。
前記配列予測支援プログラムの一態様は、コンピュータ装置を、第 1の所定数のァ ミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物 性とを含むデータを格納するデータベースと、データベース力 第 4の所定数のデー タをランダムに取り出して、第 4の所定数のデータの中からランダムに送られる第 2の 所定数のデータに基づレ、てペプチド配列および物性から、第 3の所定数のペプチド 配列にっ 、て求めてなる仮説を導出する複数の仮説導出部と、各仮説導出部で導 出された仮説に含まれる所定のペプチド配列を設定し、この設定された所定のぺプ チド配列により特定される物性を各仮説導出部の仮説カゝらそれぞれ抽出し、この抽 出された物性の分散を評価し、評価された分散に基づいて、仮説の物性に対する真 データを要求する対象となるペプチド配列を抽出する質問点配列抽出部と、要求さ れた真データを受け付けて、抽出されたペプチド配列につ 1/、て真データに基づく物 性を対応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と 真データに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制 御部と、を含む配列予測支援システムとして機能させるものである。
[0056] また、前記配列予測方法の一態様は、第 1の所定数のアミノ酸からなるペプチド配 列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納 するデータベースから、ランダムリサンプリング部により第 4の所定数のデータを取り 出して、複数の学習部のそれぞれに第 4の所定数のデータの中から第 2の所定数の データをランダムに供給するランダムリサンプリング段階と、各学習部において、第 2 の所定数のデータに基づ V、てペプチド配列および物性から、第 3の所定数のぺプチ ド配列について求めてなる仮説を導出する仮説導出段階と、各学習部で導出された 仮説に含まれる所定のペプチド配列を設定する着目配列設定段階と、設定された所 定のペプチド配列により特定される物性を各学習部の仮説カゝらそれぞれ抽出する着 目物性抽出段階と、各学習部から抽出された物性の分散を評価する分散評価段階 と、評価された分散に基づいて、仮説の物性に対する真データを要求する対象とな るペプチド配列を抽出する質問点抽出段階と、要求された前記真データを受け付け て、抽出されたペプチド配列について真データに基づく物性を対応づける処理を行 つて、得られたペプチド配列と真データに基づく物性とを含む新たな追加データを、 前記データベースに蓄積するデータ更新段階と、所定のタンパク質の全アミノ酸配 列を受け付けて、この受け付けた全アミノ酸配列力 予測の対象となるペプチド配列 侯捕を抽出するとともに、抽出した当該ペプチド配列候補を学習部に送る配列候補 抽出段階と、各学習部で得られた結果から、抽出した前記ペプチド配列候捕の物性 を推定する物性推定段階と、を含む。
[0057] また、以下のような配列予測支援方法も本発明の態様に含まれる。すなわち、第 1 の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理活性の 指標となる物性とを含むデータを格納するデータベースから、ランダムリサンプリング 部により第 4の所定数のデータを取り出して、複数の学習部のそれぞれに第 4の所定 数のデータの中から第 2の所定数のデータをランダムに供給するランダムリサンプリン グ段階と、各学習部において、第 2の所定数のデータに基づいてペプチド配列およ び物性から、第 3の所定数のペプチド配列について求めてなる仮説を導出する仮説 導出段階と、各学習部で導出された仮説に含まれる所定のペプチド配列を設定する 着目配列設定段階と、設定された所定のペプチド配列により特定される物性を各学 習部の仮説力 それぞれ抽出する着目物性抽出段階と、各学習部から抽出された 物性の分散を評価する分散評価段階と、評価された分散に基づいて、仮説の物性 に対する真データを要求する対象となるペプチド配列を抽出する質問点抽出段階と 、要求された真データを受け付けて、抽出されたペプチド配列について真データに 基づく物性を対応づける処理を行って、得られたペプチド配列と真データに基づく物 性とを含む新たな追加データを、データベースに蓄積するデータ更新段階と、を含 む配列予測支援方法である。
[0058] 本発明によれば、ある所定の物性を有する生体高分子配列のみを、実験によらな いで選出することが可能になる。
図面の簡単な説明
[0059] 上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実 施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
[0060] [図 1]本発明の第一の実施形態に係る配列予測システムの概要を示すプロック図で
[図 2]記憶装置で蓄積されるデータセットの一例を示す図である。
[図 3]学習部にて算出される確率パラメータに基づいて集計される仮想ペプチド配列 の各並び位置における各アミノ酸の存在確率の一例を示す図である。
[図 4]学習部が出力する仮説の一例を示す図である。
[図 5]質問点抽出のためのデータの一例を模式的に示す図である。
[図 6]不要なペプチド配列を排除するように配列候補抽出部を構成した一例を示す。
[図 7]本発明の第二の実施形態に係る配列予測システムの概要を示すブロック図で ある。
園 8]図 7の仮説比較部の機能を説明する機能ブロック図を示す。
[図 9]真データの要求をユーザにではなく、外部のデータベースに行う場合を示す図 である。 T JP2005/012542
21
[図 10]第一の実施形態に係る配列予測支援方法の動作について説明するフローチ ヤートである。
[図 11]配列予測支援システムにより構築されたデータベースあるいは既存のデータ ベースを用いた配列予測システムの動作を示すフローチャートである。
[図 12]第二の実施形態に係る配列予測支援方法の動作について説明するフローチ ヤー卜である。
[図 13]第二の実施形態に係る配列予測支援システムにより構築されたデータベース を用いた配列予測システムの動作を示すフローチャートである。
発明を実施するための最良の形態
[0061] 以下、本発明の実施の形態について、図面を用いて説明する。なお、すべての図 面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
[0062] 図 1は、本発明の第一の実施形態に係る配列予測システムの概要を示すブロック 図である。
この配列予測システムは、生体高分子の配列と、この配列の生体高分子が備える 属性値とを含む生体高分子属性を有するデータベースである記憶装置 126と、記憶 装置 126から N個のデータセットを選択する選択部としてのデータ制御部 128と、こ のデータセットから異なる複数のデータサブセットを生成する生成部 102と、それぞ れのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の 生体高分子配列力 なる第 2のデータセットにそれぞれ仮説を適用して、第 2のデー タセットにかかる生体高分子配列の属性値を導出する学習部 104と、第 2のデータセ ット中の各生体高分子配列について属性値の分散を求めて、一定基準よりも分散が 大きい生体高分子配列を質問点として抽出する質問点抽出部 118と、この質問点に 対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子 配列と対応づけて、記憶装置 126に蓄積するデータ制御部 128と、所定の生体髙分 子の全配列を受け付ける配列入力受付部 130と、配列入力受付部 130にて受け付 けた全配列力 予測の対象となる生体高分子配列候捕を抽出する配列候補抽出部 131と、配列入力受付後に記憶装置 126の全データセットから法則を生成するととも に、生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の 属性値を推定する属性値推定部としての学習部 104と、を含む。
[0063] 図 1において、記憶装置 126では、生体高分子配列としてのペプチド配列と、この ペプチド配列の属性値とを含むデータセットを蓄積するデータベースである。このデ ータセットは、例えば文献などにより明ら力となっている既知のデータ(「公知データ」 という)、あるいは後述するデータ制御部 128を通じてデータ受付部 122から送られる データにより構成される。
[0064] 図 2は、記憶装置 126で蓄積されるデータセットの一例を示す図である。
図 2に示したように、このデータセットは、所定数のアミノ酸からなるペプチド配列と、 このペプチド配列の属性値、例えば所定の生理活性の指標となる物性、例えば免疫 誘導に密接に関連する抗原提示分子であるヒト白血球抗原 (HLA: human leukocyte antigen)複合体への結合定数 (-logKd)とを含む。また、ペプチド配列のアミノ酸の数 は、 HLAクラス I分子を対象とする場合には 8〜: L1の固定された値、例えば 9であり、 また HLAクラス II分子を対象とする場合には 20以下の固定された値とすることができ る。
[0065] なお、本実施形態では、生体高分子配列として結合対象を抗原提示分子である H LAとするペプチドの配列の例に挙げて説明するが、他の生理活性を有する生体高 分子配列、例えばペプチドをリガンドとする Gタンパク質共役型受容体をターゲットと するペプチド配列であってもよ ヽし、前述したような所定のペプチド配列をコードする 核酸 (DNAなど)の塩基配列などであってもよい。また、所定の生理活性を有する生 体高分子としては、ペプチド配列の他に、所定数のヌクレオチドからなり、所定の塩 基配列を有する DNA、 RNAなども挙げられる。
[0066] また、生体高分子配列の属性値としては、所定の物質に対する結合能の指標とな る物性が挙げられ、この物性としては、例えば結合ターゲットに対する結合定数の他 に、結合に関係する物性、例えば疎水性度 (または親水性度)などであってもよい。
[0067] 図 1に戻り、データ制御部 128は、 N個のデータセットを選択する選択部として機能 し、選択された N個のデータセットは生成部 102に送られる。また、データ制御部 128 では、後述するように、データ受付部 122より送られる追加のデータセットを記憶装置 126に送ることにより、記憶装置 126のデータ内容の更新が行われる。 [0068] また、データ制御部 128では、後述する配列入力受付部 130より所定の生体髙分 子配の全配列の入力があったときには、記憶装置 126に蓄積されたデータセットから 全データセットが取り出され、属性値推定部としての学習部 104に送られる。
[0069] 生成部 102は、データ制御部 128より送られる N個のデータセットから、ランダムに サンプリングして、任意の m個(N>m)のデータ力もなるデータサブセットを生成して 、各データサブセットを学習部 104に送る。
[0070] ここでは、例えばデータ制御部 128より 100個のデータセットが送られたときに、例 ' えば 100個のうち 50個のデータセットをランダムにサンプリングして、 50個のデータ セットからなる一のデータサブセットが生成され、 100個のうち一のデータサブセットと は別の 50個のデータセットをサンプリングして、二のデータサブセットを生成する。こ のようにして、複数、例えば 50組のデータサブセットを生成する。なお、各データサブ セットは、同一の個数のデータセットであってもよいレそれぞれ異なる個数のデータ セットであってもよい。
[0071] 学習部 104では、生成部 102よりデータサブセットが送られたときは、それぞれのデ タサブセットに対して後述する仮説が生成され、データ制御部 128からデータセッ トが送られたときは、後述する候補ペプチド配列に対する属性値、例えば図 2の結合 定数を推定するための法則が生成される。
[0072] なお、この学習部 104は、複数の演算部を備えて、各演算部にて複数のデータサ プセットに関する処理をパラレルに行うように構成されていてもよいし、一つの演算部 を備えて、データサブセットごとに処理をシリアルに行うように構成されていてもよい。
[0073] いずれの場合においても、例えば特許第 3094860号公報に記載の隠れマルコフ モデル学習システムの手順にしたがって演算処理がなされる。
[0074] 生成部 102より、例えば 50個のデータサブセットが送られた場合は、各データサブ セットに対して確率計算を行い、この計算結果がパラメータ記憶装置 140に蓄積され る。このパラメータ記憶装置 140に蓄積される確率パラメータは、所定数、例えば 9個 のアミノ酸カゝらなるペプチド配列に関する仮説の場合、各アミノ酸の並び順における 各並ぴ位置での各アミノ酸の存在確率と、各並び位置の前後の遷移確率とからなる ものである。 [0075] ここで、各並び位置での各アミノ酸の存在確率おょぴ各並ぴ位置の前後の遷移確 率により、例えば図 3に示したような仮想ペプチド配列の各並び位置における各ァミノ 酸の存在確率が仮説として算出される。図 3においては、上段に 1番目または 9番目 のアミノ酸としてメチォユン (M)力 ¾9%の確率で、イソロイシン (I)が 16%の確率で、 パリン (V)が 12%の確率で入る結果が示されている。残りの 43%は、残りのアミノ酸 の存在確率の合計であると算出される。図 3の下段では、左力 順に右に向力 て 8 個のアミノ酸の並ぴ位置が示される。これによれば、一番左のトレォニン (T)が 1番目 である確率は 1%、 2番目である確率は 22%となっている。このようにして、右に向か つて存在確率が示され、上位 1位〜 3位までのアミノ酸が各並び位置の上側に示され ている。すなわち、パラメータ記憶装置 140には、このようなパラメータ力も構成される 仮説を集計するのに使用される各確率パラメータが蓄積されるようになっている。
[0076] また、ペプチド配列の確率計算と結合定数の関係は、非特許文献 1で示されて!/、る が、その概略は以下の通りである。
特定のペプチド Oに対する結合定数 Kaの対数値 logKaは、以下の式で示される。 LKa=L 一 C
0/H
または、
LKa=L 一 (L 一 LKa,)
O/H O/H'
ここで、 L は、与えられた HMM (Hidden Markov Model)におけるペプチド配列 O
O/H
の存在確率を示す。
また、 logKdすなわち式中の Cは、 C=L — LKa'で与えられる。
Ο/Η' .
ここで、 LKa'は、計算に用いた全てのペプチドの gKaの平均値を示す。
H,は、存在確率が均一な場合の reference HMMを示す。
[0077] また、学習部 104では、データ制御部 128で取り出されるデータセットとは独立の生 体高分子配列カゝらなる第 2のデータセットにそれぞれ前記仮説を適用して、この第 2 のデータセットにかかる生体高分子配列の属性値が導出され、質問点抽出部 118に 送られる。この第 2のデータセットには、例えば 10万個のペプチド配列が含まれ、この 第 2のデータセットに対して、複数のデータサブセット由来の仮説がそれぞれ適用さ れて、 10万個のペプチド配列および各配列の属性値からなる第 2のデータセットが、 データサブセットの数だけ生成される。なお、第 2のデータセットにかかるペプチド配 列は、生成部 102からデータサブセットが送られるたびに設定される変動的なセット であってもよ V、し、このシステムを利用する者により任意に入力または選択されるセッ トであってもよい。また、所定のデータテーブルに含まれるものであってもよい。
[0078] 一方、データ制御部 128からデータセットが送られた場合は、属性値推定部として 作用する。すなわち、前記と同様の演算が行われ得られる確率パラメータに基づい て法則が生成される。仮説を生成する場合とは異なり、一通りの法則が生成される。 後述する配列候捕抽出部 131から送られる各候補ペプチド配列に対して、当該法則 が適用されて得られた推定値が得られ、この推定値が該当する候補ペプチド配列の 属性値として関連づけられて、ペプチドデータベース 138に送られる。
[0079] 質問点抽出部 118では、第 2のデータセットの各々のペプチド配列について属性 値の分散を求める演算処理がなされる。
[0080] 図 4は、この演算処理の結果の一例を示す。
図 4において、 oriとは学習部 104において計算の出発点となる属性値の仮スコアと しての結合定数を示し、ここでは全ペプチド配列について初期値として 0. 0000が当 てられる。また、 meanとは第 2のデータセットの各々の特定のペプチド配列ごとに導出 された予測スコアの平均値を表し、同行の maxは同予測スコアの最大を、同行の min は同予測スコアの最小を、同行の sdは同予測スコアの標準偏差を、また同行の varは 同予測スコアの分散値を表す。
[0081] 続いて、質問点抽出部 118では、この分散の大きい方から順に取り出す。図 5は、 データセット中での順位付けを模式的に示す。また、このデータセットのうち、一定の 範囲、例えば分散の大きい方力 上位 50番目までにある生体高分子配列としてのぺ プチド配列が質問点として抽出され、この抽出されたペプチド配列がデータ要求部 1 20に送られる。あるいは、分散が所定の値よりも大きいペプチド配列が、質問点とし て抽出されるようにしてもよ!/ヽ。
[0082] データ要求部 120では、質問点抽出部 118にて抽出された質問点に係るペプチド 配列について、真の属性値を示すデータ、例えば実験により求める測定データや外 部データベースに蓄積されている文献等のデータを要求する。データ受付部 122で は、データ要求部 120による要求にしたがいユーザにより入力された測定データ、ま .たは後述するように所定のデータベースなどにより得られる文献等データを受け付け て、これらのデータを真の属性値を示すデータとしてデータ制御部 128に送る。
[0083] データ制御部 128では、データ受付部 122より送られるデータと、前記質問点とな つてレヽたペプチド配列とを対応づけて、このペプチド配列とこのデータにかかる属性 値とを含む追加のデータセットが生成され、記憶装置 126に送られる。前述したように 、この追加のデータセットは、記憶装置 126にて蓄積されて、次回以降の仮説導出の 際のデータの候補となる。
[0084] 配列入力受付部 130では、予測が所望されるペプチド配列の候補を特定するため の所定のタンパク質の全アミノ酸配列に関する情報、例えばェピトープの同定を所望 する標的タンパク質、例えばウィルス抗原を形成するタンパク質の全アミノ酸配列の 入力を受け付けて、受け付けたデータは配列候捕抽出部 131に送られる。この入力 は、所定の入力装置によりユーザインタフェースを通じてなされてもよく、またユーザ インタフェースにネットワークを接続して、このネットワークを介してなされてもょ 、。
[0085] ここで、ウイノレス抗原以外の標的タンパク質としては、感染症に関与する細菌、パク テリアなど、例えば結核菌、 O— 157菌、サルモネラ菌、緑膿菌、ピロリ菌、黄色ブド ゥ菌、マラリア菌、ボッリアヌス菌など;アレルギー疾患、例えば I型糖尿病、シユーグ レン症候群、花粉症、アトピー、喘息、リウマチ、膠原病、自己免疫疾患、臓器移植の 拒絶反応抑制などにかかわるタンパク質;がん免疫に力 わるタンパク質、例えばが ん抗原;アルッノ、イマ一症に力かわるタンパク質、例えば原因タンパク質であるべ一 タアミロイドなどにも適用可能である。
[0086] 配列候捕抽出部 131では、配列入力受付部 130にて受け付けた情報である所定 のタンパク質の全アミノ酸配列に基づいて予測の対象となるペプチド配列の候捕を 抽出し、抽出されたペプチド配列候補は学習部 104に送られる。
[0087] また、配列候捕抽出部 131で抽出されたペプチド配列では、現実的に使用できな い配列が含まれることがある。このような不要なペプチド配列を、人の手を借りないで 自動的に排除するようにしてもよい。'
[0088] 図 6は、不要なペプチド配列を排除するように配列候補抽出部 131を構成した一例 を示す。
配列候補抽出部 131では、配列入力受付部 130から送られる所定のタンパク質の 全アミノ酸配列力 p個のモノマー単位として、例えば 8〜11、特に 9個のアミノ酸から なるペプチド取出単位にて、ペプチド配列候捕を取り出す候捕取出部 150と、取り出 されたペプチド配列候補の中から所定の条件を満たす予測が不要なペプチド配列を 排除する不要配列排除部 152とが設けられている。
[0089] 候補取出部 150では、配列入力受付部 130で受け付けた全アミノ酸配列の先頭か ら、前記ペプチド取出単位にてペプチド配列を抽出し、以降のペプチド配列候捕を、 q個のモノマー単位ずつ、例えば 1つのアミノ酸ずつ下流側にずらしながら前記ぺプ チド取出単位ごとに抽出するようになっている。
[0090] また、不要配列排除部 152では、取り出されたペプチド配列候捕の中から所定の 条件を満たす予測が不要なペプチド配列、例えば不要なペプチド配列に関するデ ータを蓄積する不要配列データベース 154を参照して特定されるペプチド配列を不 要なものとして、学習部 104に送る前に予測候補から排除するようになっており、残り のペプチド配列候捕が学習部 104に送られるようになつている。ここで、不要なぺプ チド配列は、例えば水溶性が低!/ヽペプチド配列などが拳げられる。
[0091] 例えば、配列入力受付部 130で受け付けたェピトープの同定を所望するウィルス抗 原、例えば C型肝炎ウィルスの CTLェピトープの同定を行う場合に、 C型肝炎ウィル スの抗原タンパク質の全アミノ酸配列からェピトープとして作用するペプチド配列の 候捕が抽出されるようになっている。例えば、 C型肝炎ウィルスの抗原は、特定のタン パク質として免疫誘導を行うヒト白血球抗原(HLA: human leukocyte antigen)クラス I 分子に提示された 8〜 11のアミノ酸より形成され、 CTLがこの部分を認識して、 C型 肝炎ウィルスを障害することが知られている。したがって、 C型肝炎ウィルス抗原の全 アミノ酸配列の先頭から取り出す P個のモノマー取出単位として 8〜 11アミノ酸単位 で取り出し、続いて先頭より q個のモノマー単位、例えば 1アミノ酸ずらした二番目の アミノ酸から出発して前述のように 8〜11アミノ酸の単位で取り出す、というように、先 頭のアミノ酸を 1アミノ酸ずつ下流側にずらしながらペプチド取出単位ごとに取り出さ れ、この取り出されたペプチド配列を属性値の推定が所望される候捕ペプチド配列と して抽出される。
[0092] また、例えば、クラス II分子を認識するェピトープの同定を行うことも可能であり、こ の場合には、 p個のモノマー単位を 20以下、すなわちペプチド取出単位が 20以下の アミノ酸になるようにして、同様にペプチド配列を抽出して、この取り出されたペプチド 配列が属性値の推定が所望される候補ペプチド配列となる。
[0093] このような構成により、受け付けたタンパク質の全アミノ酸配列から候捕ペプチド配 . 列を抽出して、この抽出されたペプチド配列のうち、不要なペプチド配列を物性の予 測前に取り出しておくことで、学習部 104における無用な推定演算の必要がなくなる
[0094] なお、不要配列データベース 154は、記憶装置 126の一部であってもよい。この場 合、図 2に示したようなデータの一部に、例えば疎水性度のような物性に関するデー タも追加してもよい。
[0095] また、不要配列データベース 154に蓄積するデータには、他社のライセンスが必要 なペプチド配列に関する情報^ませて、このようなペプチド配列を排除するように 構成することにより、例えば新薬の開発に必要なペプチド配列候補の抽出という目的 に、本実施形態を用いることができるようになる。
[0096] ペプチドデータベース 138では、学習部 104にて推定された属性値、例えば HLA クラス I分子への結合定数と、この結合定数を有するペプチド配列との組合せからな るデータセットが蓄積される。
[0097] 条件入力受付部 134では、前記ペプチドデータベース 138から所定の物性を有す るペプチド配列を抽出するためのキーワードとなる属性値、例えば結合定数の入力 が受け付けられる。この入力は、配列入力受付部 130と同様に、所定の入力装置に よりユーザインタフェースを通じてなされてもよぐまたユーザインタフェースにネットヮ ークを接続して、このネットワークを介してなされてもょ 、。
[0098] ここで、抽出するペプチド配列の用途に応じて要求される条件 (属性値)の入力を 受け付ける。例えば、 C型肝炎の治療剤としてペプチド配列を用いる場合には、所定 のタンパク質である HLAクラス I分子に対する結合定数が 6より上のものをキーワード として受け付けるようにする。 [0099] 配列抽出部 136では、条件入力受付部 134で受け付けた条件を満たすペプチド 配列をペプチドデータベース 138から抽出して、抽出されたペプチド配列を予測結 果として出力する。
[0100] ここで、一度予測されたペプチド配列を用いて、当該ペプチド配列に 1〜数個のァ ミノ酸置換を行って得られる新規のペプチド配列の物性を調べたレヽときには、配列入 力受付部 130にて、その旨の入力、例えば結合定数が推定されたペプチド配列と、 そのペプチド配列のうち、いくつのアミノ酸を置換するのかを示す置換数の情報とを 入力することで、学習部 104にて推定段階の演算を行って、この演算結果に基づい て新規のペプチド配列の属性値の推定を行うことができる。
[0101] なお、学習部 104に出力させる仮説として、仮説導出用の第 2のデータセットにか 力るペプチド配列とこれに対する属性値、すなわち結合定数の値とするかわりに、他 の所定のタンパク質、例えば標的タンパク質、例えばウィルス抗原のアミノ酸配列由 来の 9アミノ酸の一覧を出力させることでェピトープの直接の予測計算とすることがで きる。また、属性値を導出するペプチド配列の数として 10万個という個数に限らず、 例えば 9アミノ酸からなるペプチド配列の属性値にっ ヽて予測するに際して、全ぺプ チド配列組合せである 209個について出力させることで、ぺプチド配列の全組合せに っ 、ての予測ができるようになる。
[0102] 図 7は、本発明の第二の実施形態に係る配列予測システムの概要を示すブロック 図である。
この配列予測システムは、第 1の所定数のアミノ酸からなるペプチド配列と、このぺ プチド配列のペプチドの所定の生理活性の指標となる物性とを含むデータを格納す るデータベースである記憶装置 126と、第 2の所定数の前記データに基づいて前記 ペプチド配列おょぴ前記物性から、第 3の所定数のペプチド配列にっ 、て求めてな る仮説を導出する複数の学習部 112,および,記憶装置 126から第 4の所定数のデ ータを取り出して、前記各学習部 112に前記第 2の所定数のデータずつランダムに 供給するランダムリサンプリング部 110より構成される仮説導出部と、各学習部 112で 導出された前記仮説に含まれる所定のペプチド配列を設定する着目配列設定部 16 0 (図 8)、設定された前記所定のペプチド配列により特定される物性を各学習部 112 の前記仮説力もそれぞれ抽出する着目物性抽出部 162 (図 8)、および、各学習部 1 12から抽出された前記物性の分散を評価する分散評価部 164 (図 8)カゝらなる仮説 比較部 114,および,評価された前記分散に基づいて、前記仮説の物性に対する真 データを要求する対象となるペプチド配列を抽出する質問点抽出部 118より構成さ れる質問点配列抽出部と、要求された前記真データを受け付けて、抽出された前記 ペプチド配列について前記真データに基づく物性を対応づける処理を行うデータ更 新部を構成するデータ要求部 120,データ受付部 122,および,データ追加部 124 と、前記データ更新部で得られた前記ペプチド配列と前記真データに基づく物性と を含む新たなデータを、記憶装置 126に蓄積するデータ制御部 128と、所定のタン パク質の全アミノ酸配列を受け付ける配列入力受付部 130,および,配列入力受付 部 130にて受け付けた前記全アミノ酸配列カゝら予測の対象となるペプチド配列候補 を抽出するとともに、抽出した当該ペプチド配列候補を学習部 112に送る配列候補 抽出部 131,および,各学習部 112で得られた結果から、抽出した前記ペプチド配 列候補の物性を推定する物性推定部 132より構成される物性推定出力部と、 ^む
[0103] 図 7において、記憶装置 126では、第 1の所定数のアミノ酸からなるペプチド配列と 、このペプチド配列の所定の生理活性の指標となる物性とを含む、文献などにより明 らカとなって 、る既知のデータ(「公知データ」と 、う)力もなるデータセットを蓄積する データベースである。また、後述するように、データ制御部 128を通じて送られる追加 データにより更新することができる。
[0104] 図 2は、記憶装置 126で蓄積されるデータセットの一例を示す図である。
図 2に示したように、このデータセットは、公知データおょぴ真のデータとしての追加, データにより示される、第 1の所定数のアミノ酸からなるペプチド配列と、このペプチド 配列の所定の生理活性の指標となる物性、例えば免疫誘導に密接に関連する抗原 提示分子であるヒト白血球抗原 (HLA: human leukocyte antigen)複合体への結合定 数 (- logKd)とを含む。また、第 1の所定数であるアミノ酸の数は、 HLAクラス I分子を 対象とする場合には 8〜11の固定された値、例えば 9であり、また HLAクラス II分子 を対象とする場合には 20以下の固定された値である。 2005/012542
31
[0105] なお、本実施形態では、求めるペプチド配列として結合対象を抗原提示分子であ る HLAとするペプチドの配列の例を示したが、他に生理活性物質、例えばペプチド をリガンドとする Gタンパク質共役型受容体をターゲットとするペプチド配列であって もよいし、前述したような所定のペプチド配列をコードする核酸 (DNAなど)の塩基配 列などであってもよい。
[0106] また、所定の物質に対する結合能の指標となる物性としては、結合ターゲットに対 する結合定数の他に、結合に関係する物性、例えば疎水性度 (または親水性度)な どであってもよい。
[0107] 図 7に戻り、データ制御部 128では、後述するランダムリサンプリング部 110によりリ サンプルされたデータに基づいて各学習部 112にて導出され、必要に応じて後述す るデータ追加部 124にて追加される真データを含む追加データを、記憶装置 126に 送り、記憶装置 126に蓄積されるデータセットを更新する。
[0108] ランダムリサンプル部 110は、データ制御部 128から送られる第 4の所定数のデー タの中から第 2の所定数のデータをランダムにリサンプルし、データを各学習部 112 に供給する。
[0109] このようにデータ制御部 128とランダムリサンプリング部 110とが連動して、各学習 部 112に同数の異なったデータ (サンプル)がランダムに供給されるようになる。例え ば、記憶装置 126から第 4の所定数としての 100のデータを取り出して、各学習部 11 2に第 2の所定数としての 50のデータを供給する場合に、全学習部 112に同じデー タを送るのではなくて、 100から 50のデータをランダムにリサンプリングして取り出し、 取り出したデータをひとつの学習部 112に送り、また別の 50のデータをランダムにリ サンプリングして取り出し、取り出したデータを他のひとつの学習部 112に送り、最終 的には全学習部に異なった 50のデータが供給される。これにより、各学習部 112か ら同一の仮説が導出されないようにすることができる。このようにして、多くても数百程 度の実測値 (文献値)力 Sあれば、本システムによる予測を行うことができるようになる。
[0110] 学習部 112では、学習段階と、推定段階とでその目的に応じた処理を行うようにな つている。入力されるデータがデータ制御部 128からランダムリランプリング部 110を 通じて送られるものであるときには、データ制御部 128より学習段階の演算を行うよう 制御信号 contを各学習部 112に送るようになっており、学習部 112では、この制御信 号 contが入力されると学習段階の演算を行う。一方で、後述する配列入力受付部 13 0から送られるデータに基づいたデータが送られるときは、推定段階の演算を行う。
[0111] 学習段階および推定段階のいずれにおいても、例えば特許第 3094860号公報に 記載の隠れマルコフモデル学習システムの手順にしたがって、入力されるデータを 用いて、複数の学習部、例えば 50の学習部にて確率計算を行い、この計算結果を パラメータ記憶装置 140に蓄積する。このパラメータ記憶装置 140に蓄積される確率 パラメータは、第 1の所定数、例えば 9個のアミノ酸からなるペプチド配列の並ぴ順に おける各並び位置での各アミノ酸の存在確率と、各並び位置の前後の遷移確率とか らなるものである。
[0112] そこで学習段階では、パラメータ記憶装置 140で蓄積された確率パラメータに応じ て集計して、前述した図 3に示したような仮想ペプチド配列の各並び位置における各 アミノ酸の存在確率が得られるようになっている。
[0113] そこで、予め設定された所定の個数の組合せのデータを得るために、第 3の所定数 、例えば 10万個のペプチド配列について、図 3に示したような集計結果に基づき、結 合定数に相当する予測スコアを算出して仮説データが得られる。この仮説データは、 仮説比較部 114に送られる。また、記憶装置 126にて仮説データを用いて、記憶装 置 126のデータセットを更新する場合には、この仮説データをデータ制御部 128に 送るようにしてもよい。なお、この第 3の所定数のペプチド配列セットは、学習段階の 計算が始まるたびに設定される変動的なセットであってもよ Vヽし、このシステムを利用 する者により任意に入力または選択されるセットであってもよい。
[0114] 一方、推定段階における演算は、学習段階での演算とほぼ同じように行われ、各学 習部 112で得られた各ペプチド配列に対応する結合定数のスコアが、仮説比較部 1 14ではなくて、後述する物性推定部 132に送られる。
[0115] また、パラメータ記憶装置 140に蓄積される確率パラメータは、学習段階では、デ 一タカランダムリサンプリングされるたびに上書きされる形になっており、推定段階で は最後に蓄積されて残って 、る確率パラメータを用!、て、スコアが算出されるようにな つている。 05 012542
33
[0116] ここで、図 8は、仮説比較部 114の機能を説明する機能ブロック図を示す。
仮説比較部 114は、着目配列設定部 160と、着目物性抽出部 162と、分散評価部 164とから構成される。 '
[0117] 着目配列設定部 160では、各学習部 112から導出される仮説がどの程度収束して V、るかを判別するための比較対象となるペプチド配列を設定する。この設定されるぺ プチド配列は、各仮説を構成するデータのペプチド配列として挙げられて!/ヽるものの ひとつである。着目物性抽出部 162では、着目配列設定部 160で設定されたぺプチ ド配列により特定される物性を仮説データの中から抽出する。分散評価部 164では、 着目物性抽出部 162で抽出された物性の分散を算出して、例えば前述した図 4に示 したようなデータセットが得られる。得られた分散は、質問点抽出部 118に送られる。
[0118] 質問点抽出部 118では、仮説比較部 114で得られた分散の大きい方力 順に取り 出す。図 5は、データセット中での順位付けを模式的に示す。また、このデータセット のうち、分散の大きい方から第 7の所定数の範囲である上位 50番目までが質問点と して抽出され、この抽出されたペプチド配列がデータ要求部 120に送られる。あるい は、分散が所定の値よりも大きい分散を与えたペプチド配列が、真データを要求する 対象となるペプチド配列、すなわち質問点として抽出されるようにしてもよい。
[0119] データ要求部 120では、質問点抽出部 118にて抽出された質問点に係るペプチド 配列について、真データ、例えば実験により求める測定データや外部データベース に蓄積されている文献等データを要求し、データ受付部 122では、データ要求部 12 0による要求にした力 Sつたユーザによる入力にした力 Sつた測定データ、後述するように 所定のデータベースなどにより得られる文献等データを受け付けて、これらのデータ を真データとしてデータ追加部 124に送る。
[0120] データ追加部 124では、データ受付部 122より送られる真データを一度取り込んで 、前記質問点となっていたペプチド配列と対応づけ、このペプチド配列とこの物性と を含む追加データを生成する処理を行い、この追加データがデータ制御部 128に送 られる。
[0121] 配列入力受付部 130では、予測が所望されるペプチド配列の候補を特定するため の所定のタンパク質の全アミノ酸配列に関する情報、例えばェピトープの同定を所望 する標的タンパク質、例えばウィルス抗原を形成するタンパク質の全アミノ酸配列の 入力を受け付けて、受け付けたデ一タは配列候捕抽出部 131に送られる。この入力 は、所定の入力装置によりユーザインタフェースを通じてなされてもよぐまたユーザ インタフェースにネットワークを接続して、このネットワークを介してなされてもょレ、。
[0122] ここで、前述したようなウィルス抗原以外の標的タンパク質を配列入力受付の対象と してもよい。
[0123] 配列候捕抽出部 131では、配列入力受付部 130にて受け付けた情報である所定 のタンパク質の全アミノ酸配列に基づいて予測の対象となるペプチド配列の候捕を 抽出し、抽出されたペプチド配列候補は各学習部 112に送られる。
[0124] また、配列候補抽出部 131で抽出されたペプチド配列では、現実的に使用できな い配列が含まれることがある。前述したように、配列候捕抽出部 131を構成して、この ような不要なペプチド配列を、人の手を借りな ヽで自動的に排除するようにしてもょ ヽ
[0125] 物性推定部 132では、配列候補抽出部 131で抽出され、必要に応じて不要なぺプ チド配列が排除された後のペプチド配列候捕にしたがって、学習部 112の推定段階 での演算により得られた結果にしたがって、各ペプチド配列の物性を推定する。この 演算結果は、例えば前述した図 5に示したようなデータセットで得られ、物性推定部 1 32では、各ペプチド配列について例えば平均値をもって、当該ペプチド配列の、所 定のタンパク質、例えば標的タンパク質への結合定数であると推定して、この推定が 全てのペプチド配列候捕にっ 、て行われて、ペプチド配列と推定物性との組合せが ペプチドデータベース 138に送られる。
[0126] ペプチドデータベース 138では、物性推定部 132にて推定された物性、例えば HL Aクラス I分子への結合定数と、こ'の物性を有するペプチド配列との組合せからなるデ ータセットが得られる。
[0127] 条件入力受付部 134では、前記ペプチドデータペース 138から所定の物性を有す るペプチド配列を抽出するためのキーワードとなる物性、例えば結合定数の入力が 受け付けられる。この入力は、配列入力受付部 130と同様に、所定の入力装置により ユーザインタフェースを通じてなされてもよく、またユーザインタフェースにネットヮー 2005/012542
35 クを接続して、このネットワークを介してなされてもよい。
[0128] ここで、抽出するペプチド配列の用途に応じて要求される条件 (物性)の入力を受 け付ける。例えば、 C型肝炎の治療剤としてペプチド配列を用いる場合には、所定の タンパク質である HLAクラス I分子に対する結合定数が 6より上のものをキーワードと して受け付けるようにする。 '
[0129] 配列抽出部 136では、条件入力受付部 134で受け付けた条件を満たすペプチド 配列をペプチドデータベース 138から抽出して、抽出されたペプチド配列を予測結 果として出力する。
[0130] ここで、一度予測されたペプチド配列を用いて、当該ペプチド配列に 1〜数個のァ ミノ酸置換を行って得られる新規のペプチド配列の物性を調べた ヽときには、配列入 力受付部 130にて、その旨の入力、例えば結合定数が推定されたペプチド配列と、 そのペプチド配列のうち、 V、くつのアミノ酸を置換するのかの第 8の所定数の情報とを 入力することで、各学習部 112にて推定段階の演算を行って、この演算結果に基づ レ、て物性推定部 132において新規のペプチド配列の物性の推定を行うことができる
[0131] 図 9は、真データの要求をユーザにではなぐ外部のデータベースに対して行う場 合を示す図である。ここでは、図 7に示した配列予測システムに適用した例を示すが 、図 1に示した配列予測システムに適用することもできる。
図 9に示したように、データ要求部 120の要求にしたがってネットワーク 160を介し てデータベース制御部 162にペプチド配列が送られて、データベース制御部 162で はこのペプチド配列の実測値を実測値データベース 164を参照して検索し、この実 測値が得られたら、文献等データとしてネットワーク 160を通じてデータ受付部 122 に送る。このようにすることで、人の手を借りないで自動的に真データを求めることが できるようになる。
[0132] 図 10は、本発明に係る配列予測支援方法の実施形態に係る配列予測支援システ ムに動作について説明するフローチャートである。なお、本実施形態の配列予測支 援システムは、図 1に示した第一の実施形態にカゝかる配列予測システムに含まれて おり、以下の説明では図 1の中の符号を適宜引用する。 [0133] この配列予測支援方法は、生体高分子の配列と、この配列の生体高分子が備える 属性値とを有するデータベースから、 N個のデータセットを選択し、さらに当該データ セットから異なる複数のデータサブセットを生成して学習部に供給するデータ供給段 階であるステップ S1と、学習部において、それぞれのデータサブセットに対して仮説 を生成するとともに、前記データセットとは独立の生体高分子配列からなる第 2のデ ータセットにそれぞれ仮説を適用して、第 2のデータセットにかかる生体高分子配列 の属性値を導出する仮説導出段階であるステップ S2と、第 2のデータセット中の各生 体高分子配列について属性値の分散を算出する分散算出段階であるステップ S3と 、算出された分散のうち、一定基準よりも分散が大きい生体高分子配列を質問点とし て抽出する質問点抽出段階であるステップ S4と、この質問点に対する属性値を受け 付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、デ ータベースに蓄積するデータ更新段階であるステップ S5と、を含む。
[0134] ステップ S1では、データ制御部 128により、データベースとしての記憶装置力 生 体高分子の配列と、この配列の生体高分子が備える属性値とからなるデータセット N 個が選択され、さらに生成部 102にてこれら N個のデータセットから異なる複数のデ ータサブセットが生成され、学習部 104に供給される。
[0135] ステップ S2では、前述したように、学習部 104にてそれぞれのデータサブセットに 対して生成された仮説を、第 2のデータセットにかかる生体高分子配列 (ペプチド配 列)に適用して、各ペプチド配列の属性値が導出される。
[0136] ステップ S3では、前述したように、質問点抽出部 118にて、各生体高分子配列の 属性値の分散が算出される。ステップ S4では、引き続き、質問点抽出部 118にて、 算出された分散のうち、一定基準よりも分散が大きい生体高分子配列が質問点とし て抽出される。
[0137] ステップ S5では、抽出された質問点に対する属性値をデータ受付部 122にて受け 付けて、データ制御部 128ではこの受け付けた属性値を当該質問点にかかる生体高 分子配列と対応づけて、記憶装置 126に送り蓄積し、記憶装置 126の内容が更新さ れる。以上により、配列予測を支援するデータベースが構築される。
[0138] また、図示しな!/、が、ステップ S1〜S5を、例えばステップ S3で得られる分散の最大 値が所定値よりも小さくなるまで、適宜繰り返してもよく、この場合、配列予測支援デ ータベースの内容の信頼性がより向上することになる。
[0139] 図 11は、図 1に示した第一の実施形態にかかる配列予測支援システムにより構築 されたデータベース、ある!/、は既存のデータベースを用 、た配列予測システムの動 作を示すフローチャートである。
[0140] 図 11によれば、ステップ S110では、配列入力受付部 130にて所定の生体高分子 、例えばタンパク質の全配列を受け付けて、配列候補抽出部 118によりこの受け付け た全配列カゝら予測の対象となる生体高分子配列、この場合ペプチド配列候補が抽出 され、学習部 104に送られる。ステップ S 111では、配列入力受付後に、データ制御 部 128にて記憶装置 128の全データセットが取り出されて、学習部 104に送られる。 学習部 104では、この全データセットから法則を生成するとともに、前記の生体高分 子配列候補にそれぞれ法則を適用して、当該生体高分子配列候捕の属性値が推定 される。
[0141] このようにして、構築されたデータベースあるいは既存のデータベースより、特定の 生体高分子配列に対する属性値の推定を行うことが可能になる。
[0142] さらに、ステップ S112を設けて、学習部 104にて推定された属性値をペプチドデ一 タベース 138に送り、該当するペプチド配列と関連づけて蓄積することで、ペプチド 配列と属性値とでなるデータセットのデータベース化が可能になる。このデータセット は、ペプチド配列に限らず、 DNA、 RNAなどの生体高分子配列のいずれについて も属性値と併せてデータベース化が可能になる。
[0143] さらに、ステップ S113〜ステップ S114を設けて、ステップ S113では、条件入力受 付部 134にて、ペプチドデータベース 138から所定の属性値を有するペプチド配列 を抽出するためのキーワード、例えば属性値が特定のタンパク質に対する結合定数 よりも大きいなどの条件の入力を受け付ける。
[0144] ステップ S114では、配列抽出部 136にて、条件入力受付部 134で受け付けた条 件を満たすペプチド配列をペプチドデータベース 138から抽出して、抽出されたぺプ チド配列を予測結果として出力する。
[0145] これにより、所定の属性値を有するペプチド配列が、所定の物質に結合するェピト P T/JP2005/012542
38 ープを示すことが期待されるものとして抽出することができる。
[0146] 図 12は、図 7に示した第二の実施形態にカゝかる配列予測システムに含まれる配列 予測支援システムの動作について説明するフローチャートである。以下の説明では 図 7の中の符号を適宜引用する。
[0147] ステップ S10では、データ制御部 128により記憶装置 126からデータが取り出され、 ランダムリサンプリング 110を通じて各学習部 112に異なったデータ力 ランダムにリ サンプリングされる。
[0148] ステップ S20では、各学習部 112にて、供給されたデータを分析して一定の仮説、 すなわちペプチド配列と所定の物性とから、第 3の所定数である 10万個のペプチド 配列について求めたスコアを含むデータセットが導出される。
[0149] ステップ S30では、着目配列設定部 160にて、各学習部 112で導出された仮説同 士を比較するための所定のペプチド配列が設定される。ステップ S40では、着目物 性抽出部 162にて、この設定された所定のペプチド配列および物性を各学習部 112 の仮説カゝらそれぞれ抽出する。ステップ S50では、分散評価部 164にて、各学習部 1 12から抽出された物性の分散が評価される。
[0150] ステップ S60では、質問点抽出部 118にて、仮説比較部 114の分散評価部 164に て評価された分散の大きい方から順に取り出される。このようにして得られるデータセ ットを、図 5に模式的に示す。
[0151] ステップ S70では、ステップ S60で得られたデータセットのうち、前述のように上位 5 0番目までが質問点として抽出され、この抽出されたペプチド配列が、仮説の物性に 対する真データを要求する対象となるペプチド配列として抽出される。
[0152] ステップ S80では、データ要求部 120にて真データを要求し、データ受付部 122に てこの要求された真データを受け付けて、データ追加部 124にてステップ S70で抽 出された配列について仮説の物性を受け付けた真データで定義して追加データが 得られる。
[0153] ステップ S90では、データ追加部 124で得られた追加データが、データ制御部 128 を通じて記憶装置 126に送られて、記憶装置 126のデータが更新される。
[0154] ステップ S100では、次の学習を行うか否かが判別される。この判別結果が YES、 すなわち次の学習が行われる場合、ステップ S10に戻り、ランダムリサンプリング 110 により各学習部 112に学習用のデータ力 Sランダムに供給されるようになる。また、判別 結果が NO、すなわち次の学習が行われない場合、配列予測支援動作は終了する。
[0155] なお、この学習回数は、予め所定回数だけと決めておいてもよいし、終了ごとに次 の学習を行うか否かを判断してもよレ、。
[0156] 以上により、配列予測を支援するデータベースが構築される。
なお、ステップ S60および S70において、仮説データの分散の大きい順にペプチド 配列を並び替えて、上位から所定の個数、例えば 50個までを質問点として抽出する カゝわりに、例えば評価された分散が所定値以上であるペプチド配列を質問点として 抽出されるようにしてもよい。
[0157] 図 13は、第二の実施形態にかかる配列予測支援システムにより構築されたデータ ベースを用いた配列予測システムの動作を示すフローチャートである。
[0158] ステップ S200では、配列入力受付部 130にて、所定の物質例えば抗原提示分子 に対する標的タンパク質であるウィルス抗原の全アミノ酸配列を受け付け、ステップ S 210では、受け付けた全アミノ酸配列カゝら予測の対象となるペプチド配列候補を抽出 し、学習部 112にて推定段階の演算を行って、その演算結果から物性推定部にて、 ペプチド配列候補のウィルス抗原に対する結合定数が推定され、ステップ S220では 、ペプチドデータベース 138にこの全てのペプチド配列候補と所定の物性とのデータ セットが生成され、蓄積される。
[0159] ステップ S230では、条件入力受付部 134にて、ペプチドデータベース 138から所 定の物性を有するペプチド配列を抽出するためのキーワードとなる物性、例えば所 定のタンパク質に対する結合定数の入力を受け付ける。
[0160] ステップ S240では、配列抽出部 136にて、条件入力受付部 134で受け付けた条 件を満たすペプチド配列をペプチドデータベース 138から抽出して、抽出されたぺプ チド配列を予測結果として出力する。
[0161] これにより、所定の物性を有するペプチド配列が、所定の物質に結合するェピトー プを示すことが期待されるものとして抽出することができる。
[0162] なお、複数の学習部 112に出力させる仮説として、第 3の所定数のペプチド配列と これに対する結合定数の値とするカゝわりに、他の所定のタンパク質、例えば標的タン パク質、例えばウィルス抗原のアミノ酸配列由来の 9アミノ酸のー覽を出力させること でェピトープの予測計算とすることができ、また第 3の所定数として 10万個という個数 に限らず、第 5の所定数を 9としたときの全ペプチド配列の 209個について出力させる ことで全ペプチド配列についての予測ができるようになる。
[0163] また、本実施形態では、特定の標的タンパク質のェピトープを構成するペプチド配 列を予測する例を説明したが、最初に学習部 112に入力する物性として免疫誘導能 、例えば標的に結合することで誘導される T細胞の増殖数などを生理活性を示す指 標として、このような免疫誘導能を有するペプチド配列を予測することができる。
[0164] また、ペプチドをリガンドとすることが想定されるものの、具体的なペプチドリガンドが 同定されていない Gタンパク質共役型受容体(orphan G - protein coupled receptor : o rphan-GPCR)のリガンド最適化を目的とするアツセィ系予測、具体的にはペプチド投 与に伴う培養細胞のカルシウム濃度上昇や細胞内 cAMP (細胞内生体分子)上昇な どの数値を生理活性を示す指標として、このアツセィ系に最適なペプチド配列を予測 することちできる。
[0165] また、生理活性ペプチド、あるいはペプチドから構成される生理活性ホルモンの血 中濃度上昇を生理活性の指標として、このペプチド配列を予測することもできる。
[0166] また、 DNA配列予測に本実施形態を適用することが可能である。例えば、遺伝子 が発現する場合、 DNA上の遺伝子配列の上流に遺伝子発現を制御する転写因子 が結合する必要があり、この転写因子の結合部位 DNA塩基配列には一定のモチー フあるいは法則があることが知られている。そこで、特定の遺伝子発現に関与するプ 口モータに結合する転写因子の配列の候捕を予測することで、特定の遺伝子発現系 におい'て遺伝子発現と転写因子結合部位の DNA配列パターンとの間に法則を見 つけること可能になり、遺伝子発現の制御や転写因子結合の制御なども可能になる
[0167] RNAi配列予測にも、本実施形態を適用することが可能である。例えば、特定の 10 〜20塩基程度の二本鎖の小分子 RNA塩基配列 (siRNA)力 捕助的な因子の共 存下で配列相同性を持った mRNAと結合して切断することにより、その上流■下流の 遺伝子産物生成を阻害することが知られている。そこで、特定の遺伝子発現に関与 する mRNAに結合する siRNAの配列の候補を予測することで、特定の生理活性と R NAi配列との関連性を予測することが可能になり、近年医薬品候補物質としても研究 開発が盛んな RNAiの配列デザインも可能になる。
[0168] RNAアブタマ一配列予測にも、本実施形態を適用することが可能である。 RNAァ プタマーとは、通常 20塩基以上の RNA鎖であり、配列内部の相捕的塩基間で結合 して特定の安定した立体構造を有し、この構造特性を利用して標的タンパク質などの 特定の機能部位に結合し、その機能を制御する物質である。そこで、標的タンパク質 の機能部位に結合する構造を有する RNA塩基配列の候補を予測することで、特定 の生理活性と RNAアブタマ一配列との関連性を予測することが可能になり、近年医 薬候補物質としても研究開発が盛んな RNAアブタマ一の配列デザイ^可能になる
[0169] 本発明は、汎用のコンピュータ装置を、以上の配列予測システムあるいは配列予測 支援システムとして機能させるプログラムも提供する。
[0170] 以上のように、本実施形態によれば、ある所定の物性を有するペプチド配列または 核酸の塩基配列などの生体高分子配列のみを、実験によらな 、で選出することが可 能になる。
[0171] 以上の配列予測システムまたは配列予測支援システムの各構成の動作をプロダラ ムで表現することも可能であり、このようなプログラムを用レヽることで、汎用コンピュータ 装置を、前記配列予測システムまたは配列予測支援システムとして動作させることが 可能になる。
[0172] また、質問点抽出部 118にて、学習部 112における次の学習段階での演算候補か ら不要なペプチド配列を排除するために、例えば図 7に示したような不要配列排除部 および必要に応じて不要配列データベースのような構成を設けてもょ 、。このように することで、不要なペプチド配列につ!/、て真データを要求することがなくなる。

Claims

請求の範囲
[1] 生体高分子の配列と、この配列の生体高分子が'備える属性値とを含む生体高分子 属性を有するデータベースと、
前記データベースから N個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、 それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットと は独立の生体高分子配列力らなる第 2のデータセットにそれぞれ仮説を適用して、第
2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第 2のデータセット中の各生体高分子配列について属性値の分散を求めて、 一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部 と
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にか 力る生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、 所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列カゝら予測の対象となる生体高分子配 列候補を抽出する配列候捕抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに 、前記生体高分子配列候捕にそれぞれ法則を適用して、当該生体高分子配列候補 の属性値を推定する属性値推定部と、
を含む配列予測システム。
[2] 請求項 1に記載の配列予測システムにお 、て、
前記学習部は、配列入力受付後にあっては、属性値推定部として機能することを 特徴とする配列予測システム。
[3] 請求項 1に記載の配列予測システムにおレ、て、
前記配列候補抽出部では、前記配列入力受付部で受け付けた全配列の先頭から 、 p個のモノマー取出単位で生体高分子配列を抽出し、以降の生体高分子配列候補 を q個のモノマー単位ずつ下流側にずらしながら p個のモノマー取出単位ごとに抽出 することを特徴とする配列予測システム。 [4] 請求項 1に記載の配列予測システムにおレ、て、
前記配列候補抽出部では、抽出された生体高分子配列候補の中力も所定の条件 を満たす予測が不要な生体高分子配列を、前記属性値推定部に送る前に排除する ことを特徴とする配列予測システム。
[5] 請求項 1に記載の配列予測システムにおレ、て、
前記質問点抽出部では、前記分散が大きい方力 一定の範囲にある生体高分子 配列が質問点として抽出されることを特徴とする配列予測システム。
[6] 請求項 1に記載の配列予測システムにお 、て、
前記質問点抽出部では、前記分散が所定の値よりも大きレ、生体高分子配列が質 問点として抽出されることを特徵とする配列予測システム。
[7] 請求項 1〜6のいずれかに記載の配列予測システムにおいて、
前記属性値推定部にて推定された各生体高分子配列候補の属性値のうち、所定 の条件を満たす属性値を有する生体高分子配列候補を抽出する配列抽出部をさら に設けた配列予測システム。
[8] 請求項 1〜7のいずれかに記載の配列予測システムにおいて、
前記生体高分子配列が、ペプチドのアミノ酸配列、核酸塩基配列のいずれかであ ることを特徴とする配列予測システム。
[9] 請求項 8に記載の配列予測システムにおいて、
前記属性値は、ペプチドまたは核酸と所定の生体高分子との結合定数であることを 特徴とする配列予測システム。
[10] 生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子 属性を有するデータベースと、
所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列カゝら予測の対象となる生体高分子配 列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに 、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候捕 の属性値を推定する属性値推定部と、 を含む配列予測システム。
[11] 請求項 1に記載の配列予測システムにより得られる属性値と、生体高分子配列とを 有する配列予測データベース。
[12] 生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子 属性を有するデータベースと、
前記データペースから N個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、 それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットと は独立の生体高分子配列力 なる第 2のデータセットにそれぞれ仮説を適用して、第
2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第 2のデータセット中の各生体高分子配列について属性値の分散を求めて、 一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部 と
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にか + カる生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、 を含む配列予測支援システム。
[13] 生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子 属性を有するデータベースと、
前記データベースから N個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、 それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットと は独立の生体高分子配列カゝらなる第 2のデータセットにそれぞれ仮説を適用して、第
2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、 を含む配列予測支援システム。
[14] 第 1の所定数のアミノ酸力 なるペプチド配列と、このペプチド配列の所定の生理 活性の指標となる物性とを含むデータを格納するデータベースと、
第 2の所定数の前記データに基づ 、て前記ペプチド配列おょぴ前記物性から、第
3の所定数のペプチド配列について求めてなる仮説を導出する複数の学習部と、 前記データベース力ゝら第 4の所定数のデータを取り出して、前記各学習部に前記 第 2の所定数のデータずつランダムに供給するランダムリサンプリング部と、 前記各学習部で導出された前記仮説に含まれる所定のペプチド配列を設定する 着目配列設定部と、
設定された前記所定のペプチド配列により特定される物性を前記各学習部の前記 仮説からそれぞれ抽出する着目物性抽出部と、
.前記各学習部カゝら抽出された前記物性の分散を評価する分散評価部と、 評価された前記分散に基づ!/ヽて、前記仮説の物性に対する真データを要求する対 象となるペプチド配列を抽出する質問点抽出部と、
要求された前記真データを受け付けて、抽出された前記ペプチド配列にっ 、て前 記真データに基づく物性を対応づける処理を行うデータ更新部と、
前記データ更新部で得られた前記ペプチド配列と前記真データに基づく物性とを 含む新たなデータを、前記データベースに蓄積するデータ制御部と、
所定のタンパク質の全アミノ酸配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた前記全アミノ酸配列力 予測の対象となるぺ プチド配列候補を抽出するとともに、抽出した当該ペプチド配列候捕を前記学習部 に送る配列候補抽出部と、
前記各学習部で得られた結果から、前記抽出した前記ペプチド配列候捕の物性を 推定する物性推定部と、を含む配列予測システム。
第 1の所定数のアミノ酸からなるペプチド配列と、このペプチド配列の所定の生理 活性の指標となる物性とを含むデータを格納するデータベースと、
前記データベース力ゝら第 4の所定数のデータをランダムに取り出して、第 4の所定 数のデータの中力 ランダムに送られる第 2の所定数のデータに基づいて前記ぺプ チド配列おょぴ前記物性から、第 3の所定数のペプチド配列について求めてなる仮 説を導出する複数の仮説導出部と、
前記各仮説導出部で導出された前記仮説に含まれる所定のペプチド配列を設定 し、この設定された前記所定のペプチド配列により特定される物性を前記各仮説導 出部の前記仮説力 それぞれ抽出し、この抽出された前記物性の分散を評価し、評 価された前記分散に基づいて、前記仮説の物性に対する真データを要求する対象と なるペプチド配列を抽出する質問点配列抽出部と、
要求された前記真データを受け付けて、抽出された前記ペプチド配列につ Vヽて前 記真データに基づく物性を対応づける処理を行うデータ更新部と、
前記データ更新部で得られた前記ペプチド配列と前記真データに基づく物性とを 含む新たなデータを、前記データベースに蓄積するデータ制御部と、
所定のタンパク質の全アミノ酸配列を受け付けて、この受け付けた前記全アミノ酸 配列カゝら予測の対象となるペプチド配列候捕を抽出するとともに、抽出した当該ぺプ チド配列候補を前記仮説導出部に送って、出力された結果から、前記抽出した前記 ペプチド配列候捕の物性を推定する物性推定出力部と、を含む配列予測システム。 コンピュータ装置を、
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子 属性を有するデータベースと、
前記データベースから N個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、 それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットと は独立の生体高分子配列力 なる第 2のデータセットにそれぞれ仮説を適用して、第
2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、 前記第 2のデータセット中の各生体高分子配列について属性値の分散を求めて、 一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部 と
前記質問点に対する属性値を受け付けて、受け付けた属性値を前記質問点にか る生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、 所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列カゝら予測の対象となる生体高分子配 列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに
、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補 47 の属性値を推定する属性値推定部と、 む配列予測システムとして機能させる配 列予測プログラム。
[17] コンピュータ装置を、
生体高分子の配列と、この配列の生体高分子力 s備える属性値とを含む生体高分子 属性を有するデータベースと、
所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列カゝら予測の対象となる生体高分子配 列候捕を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに
、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補 の属性値を推定する属性値推定部と、 む配列予測システムとして機能させる配 列予測プログラム。
[18] コンピュータ装置を、
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子 属性を有するデータベースと、
前記データベースから N個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、 それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットと は独立の生体高分子配列力 なる第 2のデータセットにそれぞれ仮説を適用して、第
2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、 前記第 2のデータセット中の各生体高分子配列について属性値の分散を求めて、 一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部 と
前記質問点に対する属性値を受け付けて、受け付けた属性値を前記質問点にか 力る生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、 を含む配列予測支援システムとして機能させる配列予測支援プログラム。
[19] 生体高分子の配列と、この配列の生体高分子力 S備える属性値とを有するデータべ ースから、 N個のデータセットを選択し、さらに当該データセットから異なる複数のデ ータサブセットを生成して学習部に供給するデータ供給段階と、
前記学習部にぉ ヽて、それぞれのデータサブセットに対して仮説を生成するととも に、前記データセットとは独立の生体高分子配列力もなる第 2のデータセットにそれ ぞれ仮説を適用して、第 2のデータセットにかかる生体高分子配列の属性値を導出 する仮説導出段階と、
前記第 2のデータセット中の各生体高分子配列につ ヽて属性値の分散を算出する 分散算出段階と、
算出された分散のうち、一定基準よりも分散が大きい生体高分子配列を質問点とし て抽出する質問点抽出段階と、
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にか かる生体高分子配列と対応づけて、前記データベースに蓄積するデータ更新段階と 所定の生体高分子の全配列を受け付けて、この受け付けた全配列カゝら予測の対象 となる生体高分子配列候捕を抽出する配列候捕抽出段階と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに 、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補 の属性値を推定する属性値推定段階と、を含む配列予測方法。
生体高分子の配列と、この配列の生体高分子が備える属性値とを有するデータべ ースから、 N個のデータセットを選択し、さらに当該データセットから異なる複数のデ ータサブセットを生成して学習部に供給するデータ供給段階と、
前記学習部において、それぞれのデータサブセットに对して仮説を生成するととも に、前記データセットとは独立の生体高分子配列力 なる第 2のデータセットにそれ ぞれ仮説を適用して、第 2のデータセットにかかる生体高分子配列の属性値を導出 する仮説導出段階と、
前記第 2のデータセット中の各生体高分子配列について属性値の分散を算出する 分散算出段階と、
算出された分散のうち、一定基準よりも分散が大きい生体高分子配列を質問点とし て抽出する質問点抽出段階と、 前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にか 力 生体高分子配列と対応づけて、前記データベースに蓄積するデータ更新段階と 、を含む配列予測支援方法。
PCT/JP2005/012542 2004-07-07 2005-07-07 配列予測システム WO2006004182A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006528959A JPWO2006004182A1 (ja) 2004-07-07 2005-07-07 配列予測システム
US11/571,822 US20090144209A1 (en) 2004-07-07 2005-07-07 Sequence prediction system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004201116 2004-07-07
JP2004-201116 2004-07-07

Publications (2)

Publication Number Publication Date
WO2006004182A1 WO2006004182A1 (ja) 2006-01-12
WO2006004182A9 true WO2006004182A9 (ja) 2006-03-09

Family

ID=35782982

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/012542 WO2006004182A1 (ja) 2004-07-07 2005-07-07 配列予測システム

Country Status (3)

Country Link
US (1) US20090144209A1 (ja)
JP (1) JPWO2006004182A1 (ja)
WO (1) WO2006004182A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7516368B2 (ja) 2019-06-07 2024-07-16 中外製薬株式会社 情報処理システム、情報処理方法、プログラム、及び、抗原結合分子或いはタンパク質を製造する方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007094137A1 (ja) 2006-02-17 2007-08-23 Nec Corporation 細胞傷害性t細胞の誘導方法、細胞傷害性t細胞の誘導剤、およびそれを用いた医薬組成物およびワクチン
JP5262709B2 (ja) * 2006-03-15 2013-08-14 日本電気株式会社 分子構造予測システム、方法及びプログラム
JP4841396B2 (ja) * 2006-10-18 2011-12-21 Necソフト株式会社 塩基配列の同定装置、核酸分子の二次構造取得装置、塩基配列の同定方法、核酸分子の二次構造取得方法、プログラム及び記録媒体
DK2918598T3 (en) * 2007-02-28 2019-04-29 The Govt Of U S A As Represented By The Secretary Of The Dept Of Health And Human Services Brachyury polypeptides and methods of use
WO2009066462A1 (ja) 2007-11-20 2009-05-28 Nec Corporation 細胞傷害性t細胞の誘導方法、細胞傷害性t細胞の誘導剤、およびそれを用いた医薬組成物およびワクチン
JP2010115177A (ja) * 2008-11-14 2010-05-27 Nec Soft Ltd 分解耐性を有するrnaアプタマー分子の修飾ヌクレオチド配列の選択方法
EP2387780A4 (en) * 2009-01-14 2015-03-04 Johanna Craig INTEGRATED OFFICE SOFTWARE FOR VIRUS DATA MANAGEMENT
WO2012005898A2 (en) * 2010-06-15 2012-01-12 Alnylam Pharmaceuticals, Inc. Chinese hamster ovary (cho) cell transcriptome, corresponding sirnas and uses thereof
US9609074B2 (en) * 2014-06-18 2017-03-28 Adobe Systems Incorporated Performing predictive analysis on usage analytics
CA3116265A1 (en) 2014-10-07 2016-04-14 Cytlimic Inc. Hsp70-derived peptide, pharmaceutical composition for treating or preventing cancer using same, immunity inducer, and method for producing antigen-presenting cell
TW201639868A (zh) 2015-03-09 2016-11-16 Nec Corp 來自muc1之胜肽、使用此胜肽之用於治療或預防癌症之醫藥組成物、免疫誘導劑、及抗原呈現細胞之製造方法
JP7259596B2 (ja) * 2019-07-01 2023-04-18 富士通株式会社 予測プログラム、予測方法および予測装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7516368B2 (ja) 2019-06-07 2024-07-16 中外製薬株式会社 情報処理システム、情報処理方法、プログラム、及び、抗原結合分子或いはタンパク質を製造する方法

Also Published As

Publication number Publication date
JPWO2006004182A1 (ja) 2008-04-24
WO2006004182A1 (ja) 2006-01-12
US20090144209A1 (en) 2009-06-04

Similar Documents

Publication Publication Date Title
WO2006004182A9 (ja) 配列予測システム
DK3144672T3 (en) GENOME IDENTIFICATION SYSTEM
CN111180081B (zh) 一种智能问诊方法及装置
Zou et al. Approaches for recognizing disease genes based on network
CN108108592B (zh) 一种用于遗传变异致病性打分的机器学习模型的构建方法
CN108122611B (zh) 一种信息推荐方法、装置及存储介质、程序产品
JP2005512015A (ja) 少なくとも1つの順序づけされた制限酵素マップを使用して1つ以上の遺伝子配列マップの検証、アラインメントおよび再順序づけを行うためのシステムおよび方法
Vanunu et al. A propagation-based algorithm for inferring gene-disease associations
EP2919137A1 (en) Related data generating apparatus, related data generating method, and program
JP2007102709A (ja) 遺伝子診断用のマーカー選定プログラム、該プログラムを実行する装置及びシステム、並びに遺伝子診断システム
KR20220099504A (ko) 친화도 예측 방법 및 모델의 트레이닝 방법, 장치, 전자 기기 및 기록 매체
CN112837747A (zh) 基于注意力孪生网络的蛋白质结合位点预测方法
CN103473416A (zh) 蛋白质相互作用的模型建立方法和装置
US20150356238A1 (en) Scoring the Deviation of an Individual with High Dimensionality from a First Population
CN109409522B (zh) 一种基于集成学习的生物网络推理算法
Guo et al. An encoding-decoding framework based on CNN for CircRNA-RBP binding sites prediction
KR102000832B1 (ko) miRNA-mRNA 연관도 분석 방법 및 miRNA-mRNA 네트워크 생성 장치
EP4233057A1 (en) Drug optimisation by active learning
KR102187594B1 (ko) 신약 후보 물질 발굴을 위한 멀티오믹스 데이터 처리 장치 및 방법
CN109256215B (zh) 一种基于自回避随机游走的疾病关联miRNA预测方法及系统
CN114388123A (zh) 智能辅诊方法、装置、设备及存储介质
Gupta et al. DAVI: Deep learning-based tool for alignment and single nucleotide variant identification
CN110739028B (zh) 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法
CN112133367A (zh) 药物与靶点间的相互作用关系预测方法及装置
JP2014112307A (ja) モチーフ検索プログラム、情報処理装置及びモチーフ検索方法

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

COP Corrected version of pamphlet

Free format text: PAGES 1/10 AND 3/10, DRAWINGS, REPLACED BY NEW PAGES 1/10 AND 3/10; DUE TO LATE TRANSMITTAL BY THE RECEIVING OFFICE

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006528959

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

122 Ep: pct application non-entry in european phase
WWE Wipo information: entry into national phase

Ref document number: 11571822

Country of ref document: US