WO2006004182A1 - 配列予測システム - Google Patents

配列予測システム Download PDF

Info

Publication number
WO2006004182A1
WO2006004182A1 PCT/JP2005/012542 JP2005012542W WO2006004182A1 WO 2006004182 A1 WO2006004182 A1 WO 2006004182A1 JP 2005012542 W JP2005012542 W JP 2005012542W WO 2006004182 A1 WO2006004182 A1 WO 2006004182A1
Authority
WO
WIPO (PCT)
Prior art keywords
sequence
data
biopolymer
unit
database
Prior art date
Application number
PCT/JP2005/012542
Other languages
English (en)
French (fr)
Other versions
WO2006004182A9 (ja
Inventor
Tomoya Miyakawa
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to JP2006528959A priority Critical patent/JPWO2006004182A1/ja
Priority to US11/571,822 priority patent/US20090144209A1/en
Publication of WO2006004182A1 publication Critical patent/WO2006004182A1/ja
Publication of WO2006004182A9 publication Critical patent/WO2006004182A9/ja

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Definitions

  • the present invention relates to a sequence prediction system, and more particularly to a sequence prediction system and a sequence prediction database for predicting a sequence of a peptide having specific physical properties.
  • the present invention also relates to a sequence prediction support system that supports this sequence prediction.
  • the present invention relates to a sequence prediction program and method for operating a sequence prediction system.
  • the present invention also relates to a sequence prediction support program and method for operating a sequence prediction support system.
  • HCV hepatitis C virus
  • CTL cytotoxic T cells
  • CTL epitopes [0004] In order to identify such CTL epitopes, database hypotheses such as BIMAS and SYFPEITHI also perform epitope prediction and conduct experiments to determine whether they actually bind to HLA molecules according to the prediction results. Those that bound to CTL were identified as CTL epitopes.
  • Non-Patent Document 1 describes a method for more accurately identifying a peptide that binds to an HLA molecule in order to identify a peptide that binds to an HLA molecule in fewer! / ⁇ experiments. Yes.
  • Non-Patent Document 1 Udaka, K., et al, 'Empirical Evaluation of a Dynamic Experiment Design Method for Prediction of MHC Class I- Binging Peptides', The Journal oflmmunology, 169, p5744-5753, 2002
  • Non-Patent Document 1 it is determined whether or not a peptide sequence arbitrarily selected from a computer has a predetermined physical property, for example, the ability to bind to an HLA molecule as described above. Whether or not the actually selected peptide sequence has a predetermined physical property has been confirmed by conducting an experiment. Non-Patent Document 1 describes that the selected peptide sequence has actually been confirmed to have a predetermined physical property with a high probability by experiments (2nd column, page 5749, right column).
  • Non-Patent Document 1 the technique described in Non-Patent Document 1 is focused on a specific target, for example, a virus antigen, and the predicted peptide sequence functions as a virus antigen without experimentation. However, it was not sufficient for the purpose of selecting the sequences that were identified as having the specific physical properties necessary for the purpose and quantitatively distinguishing them.
  • the present invention has been made in view of the above-described circumstances, and a sequence prediction system and sequence capable of selecting only a biopolymer sequence having a certain predetermined physical property without performing an experiment.
  • the object is to provide a prediction database, a sequence prediction support system, a sequence prediction program, a sequence prediction support program, a sequence prediction method, and a sequence prediction support method.
  • the sequence prediction system includes a database having a biopolymer attribute including a biopolymer sequence and an attribute value included in the biopolymer of the sequence.
  • a question point extraction unit that obtains a variance of attribute values for each biopolymer sequence in the second data set and extracts a biopolymer sequence having a variance larger than a certain reference as a question point;
  • An attribute value for the question point is received, the received attribute value is associated with a biopolymer sequence that is applied to the question point, a data control unit that accumulates in the database, and an entire array of predetermined biopolymers.
  • a sequence candidate extraction unit for extracting biopolymer sequence candidates to be subjected to total sequence force prediction received by the sequence input reception unit
  • An attribute value estimation unit that generates a rule from all the data sets of the database after accepting sequence input and applies the rule to each of the biopolymer sequence candidates to estimate an attribute value of the biopolymer sequence candidate; Including.
  • N data sets having a database power are extracted by the selection unit, and a plurality of different data subsets are generated from the N data sets by the generation unit.
  • the learning unit analyzes each of the data subsets independently to generate a certain hypothesis, and applies the hypothesis to the biopolymer sequence of the second data set to derive attribute values.
  • the second data set having the biopolymer sequence and the derived attribute value is generated as many as the number of data subsets. That is, attribute values are derived for the same biopolymer sequence based on hypotheses derived from each data subset.
  • the question point extraction unit obtains a variance of a plurality of attribute values derived for the same biopolymer sequence, and extracts a biopolymer sequence having a variance larger than a certain standard as a question point.
  • the data control unit receives the attribute value for the question point, associates it with the biopolymer sequence related to the question point, accumulates it in the database, and updates the contents of the database.
  • the sequence input accepting unit accepts the entire sequence of a predetermined biopolymer, and the sequence candidate extracting unit extracts a biopolymer sequence candidate for attribute value prediction from the entire sequence.
  • the attribute value estimation unit the updated database data A rule is generated from the set, and the rule value is estimated for each biopolymer sequence by applying this rule to each candidate biopolymer sequence.
  • the learning unit may function as an attribute value estimation unit after receiving the array input.
  • the hypothesis generated by applying the hypothesis generated to each of the plurality of data subsets from the generating unit is arbitrarily created. While deriving attribute values for each biopolymer sequence in the data set, at the time of attribute value prediction, a law generated from the data set included in the updated database is applied to each biopolymer sequence candidate.
  • the attribute value can be calculated as an estimated value.
  • the sequence candidate extraction unit extracts a biopolymer sequence in units of p monomer extraction units from the beginning of all sequences received by the sequence input reception unit.
  • the polymer sequence candidate may be extracted for every P monomer extraction units while shifting the q monomer units downstream by q units.
  • sequence candidate extraction unit may exclude, from the extracted biopolymer sequence candidates, biopolymer sequences that do not require prediction that satisfy a predetermined condition before sending them to the attribute value estimation unit. Yes.
  • the interrogation point extraction unit may extract a biopolymer array having a large variance in a certain range as a query point or the variance is less than a predetermined value. Larger biopolymer sequences may be extracted as question points.
  • a sequence for extracting a biopolymer sequence candidate having an attribute value satisfying a predetermined condition among the attribute values of each biopolymer sequence candidate estimated by the attribute value estimation unit An extraction unit may be further provided.
  • the biopolymer array in which the estimated attribute value satisfies a predetermined condition It can be extracted as a predicted sequence.
  • sequence prediction system includes a database having a biopolymer attribute including a biopolymer sequence and an attribute value included in the biopolymer of this sequence;
  • a sequence input receiving unit that receives the entire sequence of a predetermined biopolymer
  • a sequence candidate extraction unit for extracting biopolymer sequence candidates to be subjected to total sequence force prediction received by the sequence input reception unit
  • An attribute value estimation unit that generates a rule from all the data sets of the database after accepting sequence input and applies the rule to each of the biopolymer sequence candidates to estimate an attribute value of the biopolymer sequence candidate; Including.
  • the sequence input accepting unit accepts the entire sequence of a predetermined biopolymer
  • the sequence candidate extracting unit selects a biopolymer sequence candidate for attribute value prediction from the entire sequence. Extract.
  • the attribute value estimation unit generates a rule from the data set of the database, applies this rule to each biopolymer sequence candidate, and estimates an attribute value for each biopolymer sequence.
  • the sequence prediction database according to the present invention includes attribute values obtained by the sequence prediction system described above and a biopolymer sequence.
  • the sequence prediction support system includes a database having a biopolymer attribute including a biopolymer sequence and an attribute value included in the biopolymer of this sequence;
  • a generating unit that generates a plurality of different data subsets from the data set, and a hypothesis for each data subset, and a hypothesis for each of the second data set consisting of biopolymer sequences independent of the data set Apply the second
  • a learning unit for deriving the attribute value of the biopolymer sequence according to the data set of 2 is a learning unit for deriving the attribute value of the biopolymer sequence according to the data set of 2,
  • a question point extraction unit that obtains a variance of attribute values for each biopolymer sequence in the second data set and extracts a biopolymer sequence having a variance larger than a certain reference as a question point;
  • a data control unit that receives an attribute value for the question point, associates the received attribute value with a biopolymer sequence that is applied to the question point, and stores the attribute value in the database; including.
  • N data sets of database power are extracted by the selection unit, and a plurality of different data subsets are generated from the N data sets by the generation unit.
  • the learning unit analyzes each of the data subsets independently to generate a certain hypothesis, and applies the hypothesis to the biopolymer sequence of the second data set to derive attribute values.
  • the second data set having the biopolymer sequence and the derived attribute value is generated as many as the number of data subsets. That is, attribute values are derived for the same biopolymer sequence based on hypotheses derived from each data subset.
  • the question point extraction unit obtains a variance of a plurality of attribute values derived for the same biopolymer sequence, and extracts a biopolymer sequence having a variance larger than a certain standard as a question point.
  • the data control unit receives the attribute value for the question point, associates it with the biopolymer sequence related to the question point, accumulates it in the database, updates the contents of the database, and constructs a database that supports sequence prediction.
  • a sequence prediction program according to the present invention includes a computer device
  • a database having biopolymer attributes including a biopolymer array and attribute values of the biopolymer of this array;
  • a generating unit that generates a plurality of different data subsets from the data set, and a hypothesis for each data subset, and a hypothesis for each of the second data set consisting of biopolymer sequences independent of the data set And applying a learning unit for deriving the attribute value of the biopolymer sequence for the second data set,
  • a question point extraction unit that obtains a variance of attribute values for each biopolymer sequence in the second data set and extracts a biopolymer sequence having a variance larger than a certain reference as a question point;
  • An attribute value for the question point is received, the received attribute value is associated with a biopolymer sequence that is applied to the question point, and a data control unit that accumulates in the database; and an entire array of predetermined biopolymers An array input receiving unit for receiving;
  • An attribute value estimation unit that generates a rule from all the data sets of the database after accepting sequence input and applies the rule to each of the biopolymer sequence candidates to estimate an attribute value of the biopolymer sequence candidate; It functions as a sequence prediction system.
  • N data sets having database power are extracted by the selection unit, and a plurality of different data subsets are generated from the N data sets by the generation unit.
  • the learning unit analyzes each of the data subsets independently to generate a certain hypothesis, and applies the hypothesis to the biopolymer sequence of the second data set to derive attribute values.
  • the second data set having the biopolymer sequence and the derived attribute value is generated as many as the number of data subsets. That is, attribute values are derived for the same biopolymer sequence based on hypotheses derived from each data subset.
  • the question point extraction unit obtains a variance of a plurality of attribute values derived for the same biopolymer sequence, and extracts a biopolymer sequence having a variance larger than a certain standard as a question point.
  • the data control unit receives the attribute value for the question point, associates it with the biopolymer sequence related to the question point, accumulates it in the database, and updates the contents of the database.
  • the sequence input accepting unit accepts the entire sequence of a predetermined biopolymer
  • the sequence candidate extracting unit extracts a biopolymer sequence candidate for attribute value prediction from the entire sequence.
  • the attribute value estimation unit generates a rule from the updated database data set, applies the rule to each biopolymer sequence candidate, and estimates the attribute value for each biopolymer sequence.
  • the general-purpose computer device functions as an array prediction system.
  • a sequence prediction program according to the present invention includes a computer device,
  • a database having biopolymer attributes including a biopolymer array and attribute values of the biopolymer of this array;
  • a sequence input receiving unit that receives the entire sequence of a predetermined biopolymer
  • a sequence candidate extraction unit for extracting biopolymer sequence candidates to be subjected to total sequence force prediction received by the sequence input reception unit;
  • An attribute value estimation unit that generates a rule from all the data sets of the database after accepting sequence input and applies the rule to each of the biopolymer sequence candidates to estimate an attribute value of the biopolymer sequence candidate; It functions as a sequence prediction system.
  • the sequence input receiving unit accepts the entire sequence of a predetermined biopolymer
  • the sequence candidate extraction unit selects a biopolymer sequence candidate for attribute value prediction from the entire sequence. Extract.
  • the attribute value estimation unit generates a rule from the data set of the database, applies this rule to each biopolymer sequence candidate, and estimates an attribute value for each biopolymer sequence.
  • the general-purpose computer apparatus functions as an array prediction system.
  • a sequence prediction support program includes a computer device
  • a database having biopolymer attributes including a biopolymer array and attribute values of the biopolymer of this array;
  • a generating unit that generates a plurality of different data subsets from the data set, and a hypothesis for each data subset, and a hypothesis for each of the second data set consisting of biopolymer sequences independent of the data set And applying a learning unit for deriving the attribute value of the biopolymer sequence for the second data set,
  • a question point extraction unit that obtains a variance of attribute values for each biopolymer sequence in the second data set and extracts a biopolymer sequence having a variance larger than a certain reference as a question point;
  • An attribute value for the question point is received, the received attribute value is associated with a biopolymer sequence that is applied to the question point, and a data control unit that accumulates in the database is caused to function as a sequence prediction support system. Is.
  • N data sets having database power are extracted by the selection unit, and a plurality of different data subsets are generated from the N data sets by the generation unit.
  • the learning unit analyzes each subset of data independently to generate a certain hypothesis, applies the hypothesis to the biopolymer sequence of the second data set, and sets the attribute value Is derived.
  • the second data set having the biopolymer sequence and the derived attribute value is generated as many as the number of data subsets. That is, attribute values are derived for the same biopolymer sequence based on hypotheses derived from each data subset.
  • the question point extraction unit obtains a variance of a plurality of attribute values derived for the same biopolymer sequence, and extracts a biopolymer sequence having a variance larger than a certain standard as a question point.
  • the data control unit receives the attribute value for the question point, associates it with the biopolymer sequence related to the question point, accumulates it in the database, updates the contents of the database, and constructs a database that supports sequence prediction.
  • the general-purpose computer device functions as an array prediction support system.
  • N data sets are selected from a database having a biopolymer sequence and an attribute value included in the biopolymer of this sequence, and a plurality of different data sets from the data set are selected.
  • a hypothesis is generated for each data subset, and a second hypothesis is applied to each second data set having a biopolymer alignment force independent of the data set to obtain a second hypothesis.
  • a question point extraction stage in which biopolymer sequences having a variance larger than a certain standard among the calculated variances are extracted as question points;
  • the attribute value for the question point is received, the received attribute value is associated with the biopolymer sequence that is applied to the question point, and the data update stage stored in the database and the entire sequence of the predetermined biopolymer are received. Then, a sequence candidate extraction step for extracting the biopolymer sequence candidate that is a target of the received total sequence force prediction,
  • An attribute value estimation stage for estimating the attribute value of
  • the sequence prediction support method selects N data sets from a database having a sequence of a biopolymer and an attribute value included in a biopolymer of the sequence, and further, the data set A data supply stage for generating a plurality of different data subsets from the
  • a hypothesis is generated for each data subset, and a second hypothesis is applied to each second data set having a biopolymer alignment force independent of the data set to obtain a second hypothesis.
  • a question point extraction stage in which biopolymer sequences having a variance larger than a certain standard among the calculated variances are extracted as question points;
  • sequence prediction system sequence prediction support system
  • sequence prediction program sequence prediction support program
  • sequence prediction method include the following modes.
  • One aspect of the sequence prediction system includes a database that stores data including a peptide sequence having a first predetermined number of amino acid forces, and physical properties that are indicative of a predetermined physiological activity of the peptide sequence; A plurality of learning units for deriving a hypothesis obtained for the third predetermined number of peptide sequences from the peptide sequence and physical properties based on the predetermined number of data, and a database power.
  • a random resampling unit that randomly supplies a second predetermined number of data to each learning unit; a target sequence setting unit that sets a predetermined peptide sequence included in a hypothesis derived by each learning unit; A physical property extraction unit that extracts the physical properties specified by a given peptide sequence from the hypotheses of each learning unit, and a variance evaluation unit that evaluates the variance of the physical properties extracted from each learning unit , Based on the estimated variance, the target that requests the true data for the physical properties of the hypothetical peptide sequence Question point extraction unit that extracts the data, and the peptide that is extracted by receiving the requested true data A data updating unit that performs processing for associating physical properties based on true data; a data control unit that accumulates new data including peptide sequences obtained by the data updating unit and physical properties based on true data in a database; A sequence input accepting unit that accepts the entire amino acid sequence of a predetermined protein, and a peptide sequence candidate to be predicted is extracted from all the amino acid sequences accepted by the sequence input accepting unit
  • the database power fourth predetermined number of data is randomly resampled by the second predetermined number of data that is smaller than the fourth predetermined number by the random resampling unit, Sent to each learning unit.
  • different data is supplied for each learning unit.
  • Each learning unit analyzes the supplied data to obtain a predetermined physical property for a third predetermined peptide sequence from a certain hypothesis, that is, a peptide sequence having a predetermined number of amino acid forces and a predetermined physical property.
  • Data sets are derived.
  • the focused sequence setting unit sets a predetermined peptide sequence for comparing hypotheses derived by each learning unit, and the focused physical property extraction unit sets the physical property specified by the set predetermined peptide sequence.
  • the variance evaluation unit evaluates the variance of physical properties extracted from each learning unit, and the question point extraction unit is a target for requesting true data for hypothetical physical properties based on this evaluated variance! Peptide sequences are extracted and their hypotheses are compared.
  • the data update unit receives the true data, associates the true data with the extracted peptide sequence, and sends it to the data control unit.
  • the data controller updates the contents of the database by adding data including the peptide sequence and physical properties based on the true data.
  • the sequence input accepting unit accepts the entire amino acid sequence of a given protein, extracts peptide sequence candidates to be predicted from the entire amino acid sequence, and sends the peptide sequence candidates to the learning unit.
  • the physical property estimation unit estimates the physical properties of the extracted peptide sequence candidates from the results obtained in each learning unit.
  • the sequence candidate extraction unit receives the sequence input reception unit. From the beginning of the entire amino acid sequence, the peptide extraction unit having the fifth predetermined number of amino acid strengths is extracted, and the subsequent peptide sequence candidates are shifted to the downstream side by the sixth predetermined number of amino acids. The peptide sequence may be extracted. Furthermore, peptide sequences that do not require prediction satisfying a predetermined condition of the extracted sequence candidates can be excluded before being sent to the learning unit.
  • the peptide sequence candidates are also extracted with respect to the total amino acid sequence ability of the received protein, and unnecessary peptide sequences are extracted from the extracted peptide sequence candidates before prediction of physical properties. This eliminates the need for unnecessary estimation calculations.
  • the query point extraction unit may extract peptide sequences having a large variance in the seventh predetermined number range as the query points, or the variance is less than a predetermined value. Large peptide sequences may be extracted as question points.
  • the hypothesis correction unit is requested by the data request unit that requests true data of physical properties based on the peptide sequence extracted by the question point extraction unit.
  • a data receiving unit that receives the true data, and a data adding unit that sends the received true data to the data control unit in association with the extracted peptide sequence.
  • the data request unit for example, request an experiment to the outside or obtain information from an external database for the peptide sequence that is the question point.
  • the data accepting unit accepts data corresponding to the true data
  • the data adding unit accepts the received true data to the data control unit so as to add it to the database in association with the peptide sequence for which data is requested. send.
  • sequence extraction unit that extracts peptide sequence candidates having physical properties satisfying a predetermined estimated condition among the physical properties of each peptide sequence candidate estimated by the physical property estimation unit May be further provided.
  • the physical property estimation unit can extract a peptide sequence candidate having a predetermined physical property as having a predetermined physical property with respect to a predetermined protein.
  • this peptide is characterized by predicting the base sequence of a nucleic acid encoding the sequence.
  • One aspect of the sequence prediction support system includes a database storing data including a peptide sequence having a first predetermined number of amino acid powers and physical properties serving as an index of a predetermined physiological activity of the peptide sequence; Based on the second predetermined number of data, a plurality of learning units for deriving a hypothesis obtained for the third predetermined number of peptide sequences from the peptide sequence and physical properties, and a database power A random resampling unit that takes out and randomly supplies a second predetermined number of data to each learning unit, a target sequence setting unit that sets a predetermined peptide sequence included in a hypothesis derived by each learning unit, Each learning unit's hypothetical power is extracted from the physical properties specified by the specified peptide sequence.
  • a focused physical property extraction unit and a variance evaluation that evaluates the variance of the physical properties extracted from each learning unit Based on the evaluated variance, a question point extraction unit that extracts the peptide sequence for which the true data for the hypothetical physical property is requested, and the peptide sequence extracted by receiving the requested true data
  • a data update unit that performs processing for associating physical properties based on true data with respect to the data
  • a data control unit that accumulates new data including peptide sequences obtained in the data update unit and physical properties based on true data in a database, including.
  • the database power fourth predetermined number of data is randomly resampled by the second predetermined number of data that is smaller than the fourth predetermined number by the random resampling unit, Sent to each learning unit.
  • different data is supplied for each learning unit.
  • Each learning unit analyzes the supplied data to obtain a predetermined physical property for a third predetermined peptide sequence from a certain hypothesis, that is, a peptide sequence having a predetermined number of amino acid forces and a predetermined physical property.
  • Data sets are derived.
  • the focused sequence setting unit sets a predetermined peptide sequence for comparing hypotheses derived by each learning unit, and the focused physical property extraction unit sets the physical property specified by the set predetermined peptide sequence.
  • the variance evaluation unit evaluates the variance of the physical properties extracted from each learning unit, and the question point extraction unit evaluates the evaluated variance. Based on the above, the target peptide sequences for which true data on the physical properties of the hypothesis are requested are extracted, and the hypotheses are compared.
  • the data update unit receives the true data, associates the true data with the extracted peptide sequence, and sends it to the data control unit. Furthermore, the data controller updates the contents of the database by adding data including the peptide sequence and physical properties based on the true data, thereby constructing a database that supports sequence prediction.
  • a computer device stores a data including a peptide sequence having a first predetermined number of amino acid forces and physical properties serving as an index of a predetermined physiological activity of the peptide sequence. And a plurality of learning units for deriving a hypothesis obtained from the third predetermined number of peptide sequences from the peptide sequence and physical properties based on the second predetermined number of data, and a database power
  • the random resampling unit that randomly supplies a second predetermined number of data to each learning unit and sets the predetermined peptide sequence included in the hypothesis derived by each learning unit
  • a physical property extraction unit that extracts the physical properties specified by the set predetermined peptide sequence and the hypothetical power of each learning unit, and the physical property extracted from each learning unit.
  • a variance evaluation unit a question point extraction unit that extracts a peptide sequence that is a target for requesting true data for a hypothetical physical property based on the evaluated variance, and accepts the requested true data
  • a data update unit that performs processing for associating the physical properties based on the true data with the extracted peptide sequence, and new data including the peptide sequences obtained by the data update unit and the physical properties based on the true data are stored in the database.
  • a data control unit that stores data, a sequence input reception unit that accepts all amino acid sequences of a given protein, and a peptide sequence candidate that is a target for prediction of the total amino acid sequence power received by the sequence input reception unit.
  • the sequence candidate extraction unit that sends the peptide sequence candidates to the learning unit, and the physical properties of the extracted peptide sequence candidates are estimated from the results obtained by each learning unit
  • And Properties estimator that is intended to function as a sequence prediction system including.
  • the database power fourth predetermined number of data is randomly resampled by the second predetermined number of data that is smaller than the fourth predetermined number by the random resampling unit, Sent to each learning unit.
  • different learning units are used.
  • Data is provided.
  • Each learning unit analyzes the supplied data to obtain a predetermined physical property for a third predetermined peptide sequence from a certain hypothesis, that is, a peptide sequence having a predetermined number of amino acid forces and a predetermined physical property.
  • Data sets are derived.
  • the focused sequence setting unit sets a predetermined peptide sequence for comparing hypotheses derived by each learning unit, and the focused physical property extraction unit sets the physical property specified by the set predetermined peptide sequence.
  • the variance evaluation unit evaluates the variance of physical properties extracted from each learning unit, and the question point extraction unit is a target for requesting true data for hypothetical physical properties based on this evaluated variance! Peptide sequences are extracted and their hypotheses are compared.
  • the data update unit receives the true data, associates the true data with the extracted peptide sequence, and sends it to the data control unit.
  • the data controller updates the contents of the database by adding data including the peptide sequence and physical properties based on the true data.
  • the sequence input accepting unit accepts the entire amino acid sequence of a given protein, extracts peptide sequence candidates to be predicted from the entire amino acid sequence, and sends the peptide sequence candidates to the learning unit.
  • the physical property estimation unit estimates the physical properties of the extracted peptide sequence candidates from the results obtained in each learning unit.
  • the general-purpose computer apparatus functions as an array prediction system.
  • the computer device stores data including a first predetermined number of peptide sequences having amino acid power and physical properties that are indicative of predetermined physiological activity of the peptide sequences.
  • a database a plurality of learning units for deriving a hypothesis obtained from a peptide sequence and physical properties based on a second predetermined number of the data, and a database capability; Focusing on extracting a predetermined number of data and setting a random resampling unit that randomly supplies each learning unit with a second predetermined number of data and a predetermined peptide sequence included in the hypothesis derived by each learning unit
  • the sequence setting unit, the physical property extraction unit that extracts the physical properties specified by the set predetermined peptide sequence from the hypotheses of each learning unit, and the material extracted from each learning unit Distributed and dispersed evaluation unit which evaluates a, based on the evaluation dispersion, an interrogator point extraction unit that extracts a peptide sequence of interest that require true data for the physical properties of the hypothesis, the requested true
  • the database power fourth predetermined number of data is randomly resampled by the second predetermined number of data that is smaller than the fourth predetermined number by the random resampling unit, Sent to each learning unit.
  • different data is supplied for each learning unit.
  • Each learning unit analyzes the supplied data to obtain a predetermined physical property for a third predetermined peptide sequence from a certain hypothesis, that is, a peptide sequence having a predetermined number of amino acid forces and a predetermined physical property.
  • Data sets are derived.
  • the focused sequence setting unit sets a predetermined peptide sequence for comparing hypotheses derived by each learning unit, and the focused physical property extraction unit sets the physical property specified by the set predetermined peptide sequence.
  • the variance evaluation unit evaluates the variance of physical properties extracted from each learning unit, and the question point extraction unit is a target for requesting true data for hypothetical physical properties based on this evaluated variance! Peptide sequences are extracted and their hypotheses are compared.
  • the data update unit receives the true data, associates the true data with the extracted peptide sequence, and sends it to the data control unit. Furthermore, the data controller updates the contents of the database by adding data including the peptide sequence and physical properties based on the true data, thereby constructing a database that supports sequence prediction.
  • general-purpose computer devices function as an array prediction support system.
  • data including a peptide sequence having a first predetermined number of amino acid forces and physical properties serving as an index of a predetermined physiological activity of the peptide sequence is stored.
  • Database and database power Based on the second predetermined number of data randomly fetched from the fourth predetermined number of data and randomly sent from the fourth predetermined number of data, the peptide sequence and physical properties
  • a plurality of hypothesis deriving units for deriving the hypothesis obtained for the third predetermined number of peptide sequences and a predetermined peptide sequence included in the hypothesis derived by each hypothesis deriving unit are set.
  • the extracted physical properties are extracted from the hypotheses of each hypothesis deriving unit, the variance of the extracted physical properties is evaluated, and based on the evaluated variance, the peptide sequence for which the true data for the physical properties of the hypothesis is requested is extracted.
  • a query point sequence extraction unit; a data update unit that receives the requested true data and associates the extracted peptide sequence with physical properties based on the true data; and a peptide sequence obtained by the data update unit A data control unit that accumulates new data including physical properties based on true data in a database and a peptide sequence that is predicted from the received amino acid sequence of the given protein.
  • the candidate is extracted, and the extracted peptide sequence candidate is sent to the hypothetical derivation unit, and the extracted peptide sequence candidate is extracted from the output result.
  • a sequence extraction unit may be further provided that extracts peptide sequence candidates having physical properties satisfying a predetermined condition among the physical properties of each peptide sequence candidate estimated by the physical property estimation output unit.
  • sequence prediction support system stores data including a peptide sequence having a first predetermined number of amino acid forces and physical properties serving as an index of a predetermined physiological activity of the peptide sequence.
  • Database and database power The fourth predetermined number of data is randomly extracted, and the peptide sequence and the data are determined based on the second predetermined number of data randomly transmitted from the fourth predetermined number of data.
  • a plurality of hypothesis deriving units for deriving a hypothesis obtained from the third predetermined number of peptide sequences and a predetermined peptide sequence included in the hypothesis derived by each hypothesis deriving unit are set.
  • the physical properties specified by the set predetermined peptide sequence are extracted from the hypotheses of each hypothesis deriving unit, the variance of the extracted physical properties is evaluated, and the hypothetical physical properties are evaluated based on the evaluated variance.
  • True A query point sequence extraction unit that extracts the peptide sequence for which data is requested and a process that accepts the requested true data and associates physical properties based on the true data with the extracted peptide sequence
  • a data control unit for storing new data including the peptide sequence obtained by the data update unit and physical properties based on the true data in a database.
  • a computer device is connected to the first predetermined number of amino acids.
  • a database that stores data including a peptide sequence that has a force and physical properties that are indicative of a predetermined physiological activity of the peptide sequence, and a database power.
  • a fourth predetermined number of data is randomly extracted to obtain a fourth predetermined number.
  • a plurality of hypotheses are derived from the peptide sequence and physical properties, and the hypothesis obtained for the third predetermined number of peptide sequences
  • a predetermined peptide sequence included in the hypothesis derived by the deriving unit and each hypothesis deriving unit is set, and physical properties specified by the set predetermined peptide sequence are respectively extracted from the hypotheses of each hypothesis deriving unit
  • a query point sequence extractor that evaluates the variance of the extracted physical properties and extracts a peptide sequence that is a target of requesting true data for the hypothetical physical properties based on the evaluated variance, and a request
  • a data update unit that receives the true data and associates the physical properties based on the true data with respect to the extracted peptide sequence, and a new data including the peptide sequence obtained by the data update unit and the physical properties based on the true data.
  • the data control unit that accumulates data in the database and all amino acid sequences of a given protein are received, and peptide sequence candidates to be predicted are extracted from the received all amino acid sequences, and the extracted peptide A sequence candidate is sent to a hypothesis deriving unit, and is made to function as a sequence prediction system including a physical property estimation output unit that estimates the physical property of the extracted peptide sequence candidate from the output result.
  • the computer device stores data including a first predetermined number of peptide sequences having amino acid power and physical properties that are indicative of predetermined physiological activity of the peptide sequences.
  • Database and database power The fourth predetermined number of data is randomly extracted, and the fourth predetermined number of data is the middle force Based on the second predetermined number of data sent at random, from the peptide sequence and physical properties A plurality of hypothesis deriving sections for deriving hypotheses obtained for the third predetermined number of peptide sequences, and a predetermined peptide sequence included in the hypothesis derived by each hypothesis deriving section.
  • the physical properties specified by the peptide sequence are extracted from the hypotheses of each hypothesis deriving section, the variance of the extracted physical properties is evaluated, and the physical properties of the hypothesis are evaluated based on the evaluated variance.
  • a question point sequence extraction unit that extracts the peptide sequence that is the target of requesting the true data, and accepts the requested true data, and the extracted peptide sequence is based on the true data.
  • Sequence prediction support which includes a data update unit that performs processing for associating sex, and a data control unit that stores new data including peptide sequences obtained by the data update unit and physical properties based on true data in a database It functions as a system.
  • sequence predicting method from a database that stores data including a peptide sequence having a first predetermined number of amino acid forces and physical properties that are indicative of a predetermined physiological activity of the peptide sequence.
  • the random resampling unit extracts the fourth predetermined number of data, and randomly supplies the second predetermined number of data from the fourth predetermined number of data to each of the plurality of learning units.
  • a hypothesis derivation step in which each learning unit derives a hypothesis obtained for the third predetermined number of peptide sequences from the peptide sequence and physical properties based on the second predetermined number of data.
  • the target sequence setting stage which sets a predetermined peptide sequence included in the hypothesis derived by the learning unit, and the physical properties specified by the set predetermined peptide sequence
  • the target physical property extraction stage to be extracted the variance evaluation stage to evaluate the variance of the physical properties extracted from each learning unit, and the peptides for which true data is requested for the hypothetical physical properties based on the evaluated variance
  • New additional data including physical properties based on the data update stage for accumulating in the database, and accepting all amino acid sequences of a given protein, and accepting the peptide sequence candidates for prediction of the received total amino acid sequence power
  • the extracted peptide sequence candidates are sent out to the learning unit from the extracted sequence candidate extraction stage and the results obtained in each learning unit. Including a physical property estimation step for estimating a physical property of the tides sequence candidates, a
  • sequence prediction support method is also included in the embodiments of the present invention. That is, from a database storing data including a peptide sequence having the first predetermined number of amino acid forces and physical properties that are indicative of a predetermined physiological activity of the peptide sequence, a fourth predetermined number of data is obtained by a random resampling unit.
  • a random re-sampling stage in which a second predetermined number of data is randomly supplied from a fourth predetermined number of data to each of the plurality of learning units, and each learning unit has a second predetermined number Peptide sequence and data based on A hypothesis derivation stage for deriving a hypothesis obtained for the third predetermined number of peptide sequences from the physical properties, and a target sequence setting stage for setting a predetermined peptide sequence included in the hypothesis derived by each learning unit.
  • the physical property extraction stage that extracts the physical properties specified by the specified peptide sequence from the hypothesis of each learning department, the variance evaluation stage that evaluates the variance of physical properties extracted from each learning section, and the evaluated variance And a question point extraction stage for extracting peptide sequences for which true data for hypothetical physical properties is requested based on
  • the extracted peptide sequence is subjected to a process for associating the physical properties based on the true data, and new additional data including the obtained peptide sequence and the physical properties based on the true data is obtained.
  • This is a sequence prediction support method including a data update stage stored in a database.
  • FIG. 1 is a block diagram showing an overview of a sequence prediction system according to a first embodiment of the present invention.
  • FIG. 2 is a diagram showing an example of a data set stored in a storage device.
  • FIG. 3 is a diagram showing an example of the existence probability of each amino acid at each aligned position of virtual peptide sequences tabulated based on probability parameters calculated by a learning unit.
  • FIG. 4 is a diagram illustrating an example of a hypothesis output by a learning unit.
  • FIG. 5 is a diagram schematically showing an example of data for question point extraction.
  • FIG. 6 shows an example in which the sequence candidate extraction unit is configured to exclude unnecessary peptide sequences.
  • FIG. 7 is a block diagram showing an overview of a sequence prediction system according to a second embodiment of the present invention.
  • FIG. 8 is a functional block diagram illustrating the function of the hypothesis comparison unit in FIG.
  • FIG. 9 A diagram showing a case where a request for true data is made to an external database not to a user.
  • FIG. 10 is a flowchart explaining the operation of the sequence prediction support method according to the first embodiment.
  • FIG. 11 is a flowchart showing the operation of a sequence prediction system using a database constructed by a sequence prediction support system or an existing database.
  • FIG. 12 is a flowchart explaining the operation of the sequence prediction support method according to the second embodiment.
  • FIG. 13 is a flowchart showing the operation of the sequence prediction system using the database constructed by the sequence prediction support system according to the second embodiment.
  • FIG. 1 is a block diagram showing an overview of the sequence prediction system according to the first embodiment of the present invention.
  • This sequence prediction system includes a storage device 126, which is a database having a biopolymer attribute including a biopolymer sequence and attribute values of the biopolymer of this sequence, and N data sets from the storage device 126.
  • a data control unit 128 as a selection unit to be selected, a generation unit 102 that generates a plurality of different data subsets from the data set, and a hypothesis for each data subset, and the data set Applying a hypothesis to each of the second data set consisting of independent biopolymer sequences and deriving attribute values of the biopolymer sequence for the second data set, and a learning unit 104 in the second data set
  • the question point extraction unit 118 that obtains the variance of the attribute value for each biopolymer sequence of and extracts a biopolymer sequence having a variance larger than a certain standard as a question point, and this question The attribute value for the point is received, the received attribute value is associated with the biopolymer sequence related to the question point, the data control unit 128
  • the storage device 126 is a database that accumulates a data set including peptide sequences as biopolymer sequences and attribute values of the peptide sequences.
  • This data set is composed of known data (referred to as “known data”) that has been clarified by documents or the like, or data sent from the data receiving unit 122 through the data control unit 128 described later.
  • FIG. 2 is a diagram showing an example of a data set stored in the storage device 126. As shown in FIG.
  • this data set consists of a peptide sequence having a predetermined number of amino acid strengths, and an attribute value of this peptide sequence, for example, an antigen closely related to a physical property indicating a predetermined physiological activity, for example, immune induction. And a binding constant (-logKd) to a human leukocyte antigen (HLA) complex which is a display molecule.
  • the number of amino acids in the peptide sequence is 8 to when HLA class I molecules are targeted: a fixed value of L1, for example 9, and 20 when HLA class II molecules are targeted. The following fixed values can be used.
  • examples of biological macromolecules having a predetermined physiological activity include DNAs and RNAs composed of a predetermined number of nucleotides and having a predetermined base sequence.
  • the attribute value of the biopolymer sequence includes a physical property that serves as an index of the binding ability to a predetermined substance.
  • This physical property is related to, for example, the binding constant in addition to the binding target. It may be a physical property such as a hydrophobicity (or hydrophilicity).
  • the data control unit 128 functions as a selection unit that selects N data sets, and the selected N data sets are sent to the generation unit 102. Further, the data control unit 128 updates the data content of the storage device 126 by sending an additional data set sent from the data reception unit 122 to the storage device 126, as will be described later. [0068] In addition, in the data control unit 128, when all the arrays of a predetermined biological molecular arrangement are input from the array input receiving unit 130 described later, all data sets are stored from the data sets stored in the storage device 126. It is taken out and sent to the learning unit 104 as an attribute value estimation unit.
  • the generation unit 102 randomly samples from the N data sets sent from the data control unit 128 to generate a data subset including arbitrary m pieces (N> m) of data.
  • the subset is sent to the learning unit 104.
  • each data subset may be the same number of data sets or may be a different number of data sets.
  • the learning unit 104 when a data subset is sent from the generation unit 102, a hypothesis described later is generated for each data subset, and when a data set is sent from the data control unit 128, The rules for estimating the attribute values for the candidate peptide sequences to be generated, such as the binding constants of FIG. 2, are generated.
  • the learning unit 104 may include a plurality of calculation units, and each calculation unit may be configured to perform processing related to a plurality of data subsets in parallel, or may include a single calculation unit. It is configured to process each data subset serially.
  • arithmetic processing is performed according to the procedure of the hidden Markov model learning system described in Japanese Patent No. 3094860, for example.
  • the probability parameters stored in the parameter storage device 140 are, in the case of a hypothesis regarding a peptide sequence having a predetermined number, for example, nine amino acid forces, the existence probability of each amino acid at each alignment position in each amino acid alignment order, and each alignment. It consists of transition probabilities before and after the position. [0075]
  • the existence probability of each amino acid at each alignment position of the virtual peptide sequence as shown in Fig. 3 for example, based on the existence probability of each amino acid at each alignment position and the transition probability before and after each alignment position. Is calculated as a hypothesis. In Fig.
  • the top row shows that the first or ninth amino acid is methionine (M) with a 29% probability, isoleucine (I) with a 16% probability, and norrin (V) with a 12% probability. It is shown. The remaining 43% is calculated as the total probability of the remaining amino acids.
  • the lower part of Fig. 3 shows the alignment position of 8 amino acids from left to right. According to this, the probability that the leftmost Threonin (T) is first is 1%, and the probability that it is second is 22%. In this way, the probability of existence is shown to the right, and the amino acids from the top 1 to 3 are shown above each aligned position. That is, the parameter storage device 140 is configured to store each probability parameter used for aggregating hypotheses that also include such parameter forces.
  • LKa L-(L — LKa,)
  • L is the peptide sequence O in a given HMM (Hidden Markov Model)
  • LKa ′ represents the average value of logKa of all peptides used in the calculation.
  • H ′ represents a reference HMM when the existence probability is uniform.
  • the learning unit 104 applies the hypothesis to the second data set composed of the biopolymer sequence independent from the data set taken out by the data control unit 128, and applies this hypothesis to the second data set.
  • the attribute value of the biopolymer sequence is derived and sent to the question point extraction unit 118.
  • This second data set contains, for example, 100,000 peptide sequences, and hypotheses from multiple data subsets are applied to this second data set, respectively.
  • a second data set that also has the attribute value of each array The number of data subsets is generated.
  • the peptide sequence related to the second data set may be a variable set that is set each time a data subset is sent from the generation unit 102, or may be arbitrarily input or entered by a person using this system. It may be a set to be selected. Further, it may be included in a predetermined data table.
  • a data set when a data set is sent from the data control unit 128, it acts as an attribute value estimation unit. That is, a law is generated based on a probability parameter that can be obtained by performing the same operation as described above. Unlike generating hypotheses, a set of rules is generated. For each candidate peptide sequence sent from the sequence candidate extraction unit 131 described later, an estimated value obtained by applying the rule is obtained, and this estimated value is associated as an attribute value of the corresponding candidate peptide sequence, Sent to peptide database 138.
  • a calculation process is performed to obtain the variance of attribute values for each peptide sequence in the second data set.
  • FIG. 4 shows an example of the result of this calculation process.
  • ori indicates a binding constant as a temporary score of an attribute value that is a starting point of calculation in the learning unit 104.
  • 0.0000 is assigned as an initial value for all peptide sequences.
  • Mean means the average value of the prediction scores derived for each specific peptide sequence in the second data set, max in the same row is the maximum of the same prediction score, and min in the same row is the minimum of the same prediction score.
  • Sd of the bank represents the standard deviation of the prediction score
  • var of the bank represents the variance of the prediction score.
  • the question point extraction unit 118 sequentially takes out the direction of the large variance.
  • Figure 5 schematically shows the ranking in the dataset.
  • peptide sequences as biopolymer sequences in a certain range, for example, from the one with the largest variance to the top 50 are extracted as question points, and the extracted peptide sequences are used as data request parts. 1 Sent to 20. Alternatively, it may be extracted as a peptide sequence ability question point whose variance is greater than a predetermined value!
  • the peptide sequence related to the question point extracted by the question point extraction unit 118 is stored in data indicating a true attribute value, for example, measurement data obtained by an experiment or an external database.
  • Request data such as literature.
  • Data reception unit 122 Accepts measurement data input by the user in response to a request from the data request unit 120 or data such as literature obtained from a predetermined database as described later, and these data are data indicating true attribute values.
  • the data control unit 128 associates the data sent from the data receiving unit 122 with the peptide sequence obtained as the question point, and adds an additional value including the peptide sequence and an attribute value related to the data.
  • a data set is generated and sent to the storage device 126. As described above, this additional data set is accumulated in the storage device 126 and becomes a candidate for data in the subsequent hypothesis derivation.
  • the sequence input receiving unit 130 forms information on the entire amino acid sequence of a predetermined protein for specifying a candidate peptide sequence that is desired to be predicted, for example, a target protein for which identification of an epitope is desired, such as a virus antigen.
  • the input of the entire amino acid sequence of the protein is received, and the received data is sent to the sequence candidate extraction unit 131.
  • This input may be performed through a user interface by a predetermined input device, or may be performed through a network connected to the user interface.
  • target proteins other than viral antigens include bacteria, butteria, etc. involved in infectious diseases such as Mycobacterium tuberculosis, 0-157, Salmonella, Pseudomonas aeruginosa, Helicobacter pylori, Staphylococcus aureus, and malaria.
  • Allergic diseases such as type I diabetes, Syugren's syndrome, hay fever, atopy, asthma, rheumatism, collagen disease, autoimmune diseases, suppression of organ transplant rejection, cancer immunity, etc. It can also be applied to proteins, such as cancer antigens; proteins related to Arno, imaemia, such as beta amyloid, which is the causative protein.
  • sequence candidate extraction unit 131 a peptide sequence candidate to be predicted is extracted based on the entire amino acid sequence of a predetermined protein, which is information received by the sequence input reception unit 130, and the extracted peptide sequence Candidates are sent to the learning unit 104.
  • the peptide sequences extracted by the sequence candidate extraction unit 131 may include sequences that cannot actually be used. Let's try to eliminate such unnecessary peptide sequences automatically without human intervention.
  • FIG. 6 shows an example in which the sequence candidate extraction unit 131 is configured to eliminate unnecessary peptide sequences. Indicates.
  • the peptide sequence is determined by using, for example, a peptide extraction unit consisting of 8 to 11, particularly 9 amino acids, as P monomer units of the total amino acid sequence power of the predetermined protein sent from the sequence input reception unit 130.
  • a candidate extraction unit 150 that extracts candidates and an unnecessary sequence exclusion unit 152 that excludes peptide sequences that do not require prediction satisfying a predetermined condition satisfying the medium force of the extracted peptide sequence candidates are provided.
  • candidate extraction unit 150 a peptide sequence is extracted in the peptide extraction unit from the beginning of the entire amino acid sequence received by sequence input reception unit 130, and the subsequent peptide sequence candidates are divided into q monomer units. For example, each peptide extraction unit is extracted while shifting one amino acid to the downstream side.
  • the unnecessary sequence exclusion unit 152 stores an unnecessary sequence database 154 that accumulates data relating to peptide sequences that do not need to be predicted to satisfy a predetermined condition from the extracted peptide sequence candidates, for example, data related to unnecessary peptide sequences.
  • the peptide sequence specified by reference is considered unnecessary, and the prediction candidate power is also excluded before sending it to the learning unit 104, and the remaining peptide sequence candidates are sent to the learning unit 104.
  • unnecessary peptide sequences include, for example, low water solubility and peptide sequences.
  • a virus antigen desired to be identified by the sequence input accepting unit 130 such as a CTL epitope of hepatitis C virus
  • the entire amino acid sequence of the antigen protein of hepatitis C virus Peptide sequence candidates that act as force epitopes are extracted.
  • the antigen of hepatitis C virus is formed from 8 to 11 amino acids presented on human leukocyte antigen (HLA) class I molecules that induce immunity as a specific protein, and CTL is this part. Recognizing that hepatitis C virus is known to be impaired.
  • HLA human leukocyte antigen
  • candidate peptide sequences are also extracted for the total amino acid sequence of the received protein, and unnecessary peptide sequences are extracted from the extracted peptide sequences before physical properties are predicted. This eliminates the need for unnecessary estimation operations in the learning unit 104.
  • the unnecessary sequence database 154 may be a part of the storage device 126. In this case, add data related to physical properties such as hydrophobicity to a part of the data shown in Fig. 2.
  • the data accumulated in the unnecessary sequence database 154 includes information on peptide sequences that require licenses from other companies and is configured to exclude such peptide sequences, for example, for the development of new drugs.
  • the present embodiment can be used for the purpose of extracting peptide sequence candidates necessary for the preparation.
  • an attribute value estimated by the learning unit 104 for example, a data set that is a combination force of a binding constant to an HLA class I molecule and a peptide sequence having this binding constant is accumulated.
  • the condition input receiving unit 134 receives an input of an attribute value, for example, a binding constant, which becomes a keyword for extracting a peptide sequence having a predetermined physical property from the peptide database 138. Similar to the array input receiving unit 130, this input may be performed through a user interface by a predetermined input device, or may be performed through this network by connecting a network to the user interface.
  • an attribute value for example, a binding constant
  • an input of a condition (attribute value) required according to the use of the peptide sequence to be extracted is accepted.
  • a condition attribute value
  • a keyword having a binding constant higher than 6 for an HLA class I molecule that is a predetermined protein is accepted as a keyword.
  • the sequence extraction unit 136 extracts a peptide sequence that satisfies the conditions received by the condition input reception unit 134 from the peptide database 138, and outputs the extracted peptide sequence as a prediction result.
  • the learning part 104 receives an input to that effect, for example, a peptide sequence whose binding constant is estimated and information on the number of substitutions indicating how many amino acids are to be substituted in the peptide sequence.
  • the calculation at the estimation stage can be performed at, and the attribute value of the new peptide sequence can be estimated based on the calculation result.
  • FIG. 7 is a block diagram showing an overview of the sequence prediction system according to the second embodiment of the present invention.
  • This sequence prediction system includes a storage device 126, which is a database for storing data including a peptide sequence having a first predetermined number of amino acid forces and physical properties that are indicative of a predetermined physiological activity of the peptide having the peptide sequence.
  • a hypothesis deriving unit composed of a random resampling unit 110 that extracts a fourth predetermined number of data from 126 and supplies the second predetermined number of data to each learning unit 112 at random, and each learning
  • the target sequence setting unit 160 (FIG.
  • the physical property extraction unit 162 (Fig. 8) that extracts from each of the above hypotheses, and the variance evaluation unit 164 (Fig. 8) that evaluates the variance of the physical properties extracted from each learning unit 112.
  • a question point sequence extraction unit 118 including a question point extraction unit 118 for extracting a peptide sequence for which true data for the physical property of the hypothesis is requested based on the evaluated variance, and the requested true value.
  • a data control unit 128 that accumulates new data including the peptide sequence obtained by the data update unit and physical properties based on the true data in the storage device 126, and an entire amino acid of a predetermined protein.
  • the sequence input accepting unit 130 that accepts an acid sequence, and the total amino acid sequence ability accepted by the sequence input accepting unit 130 also extract peptide sequence candidates that are subject to prediction, and the extracted peptide sequence candidates to the learning unit 112 A sequence candidate extraction unit 131 to be sent, and a physical property estimation output unit composed of a physical property estimation unit 132 that estimates the physical properties of the extracted peptide sequence candidates from the results obtained by the learning units 112.
  • FIG. 2 is a diagram showing an example of a data set stored in the storage device 126.
  • this data set includes a first predetermined number of amino acid-powered peptide sequences represented by known data and additional data as true data, and a predetermined physiological activity of this peptide sequence. It includes physical properties that serve as indices, for example, a binding constant (-logKd) to a human leukocyte antigen (HLA) complex that is an antigen presenting molecule closely related to immune induction.
  • the number of amino acids that is the first predetermined number is 8 to when HLA class I molecules are targeted: a fixed value of L1, for example 9, and HLA class II molecules are targeted In some cases it is a fixed value of 20 or less.
  • the binding target is an example of a peptide sequence having HLA as an antigen-presenting molecule.
  • a physiologically active substance such as a G protein conjugate having a peptide as a ligand. It may be a peptide sequence that targets a type receptor, or may be a base sequence of a nucleic acid (such as DNA) encoding a predetermined peptide sequence as described above.
  • the physical properties that serve as an index of the binding ability to a predetermined substance include physical properties related to binding, such as hydrophobicity (or hydrophilicity). May be.
  • the learning unit 112 derives the data based on the data resampled by the random resampling unit 110 described later, and the data adding unit 124 described later if necessary.
  • the additional data including the true data added in step S3 is sent to the storage device 126, and the data set stored in the storage device 126 is updated.
  • Random resampler 110 resamples a second predetermined number of data randomly from the fourth predetermined number of data sent from data controller 128 and supplies the data to each learning unit 112 To do.
  • the data control unit 128 and the random resampling unit 110 work together to supply the same number of different data (samples) to each learning unit 112 at random. For example, when 100 data as the fourth predetermined number is extracted from the storage device 126 and 50 data as the second predetermined number is supplied to each learning unit 112, the same data is supplied to all the learning units 112. Randomly resample and retrieve 100 to 50 data, send the retrieved data to one learning unit 112, and resample and retrieve another 50 data randomly The data is sent to another learning unit 112, and finally 50 different data are supplied to all learning units. Thereby, it is possible to prevent the same hypothesis from being derived from each learning unit 112. In this way, if there are at most several hundreds of measured values (document values), prediction by this system can be performed.
  • the learning unit 112 performs processing according to the purpose at the learning stage and the estimation stage.
  • the data control unit 128 performs the learning stage calculation.
  • the control signal cont is sent to each learning unit 112, and when the control signal cont is input, the learning unit 112 performs a calculation in the learning stage.
  • an estimation stage calculation is performed.
  • a plurality of learning units for example, 50 learning units are used by using input data in accordance with the procedure of the hidden Markov model learning system described in Japanese Patent No. 3094860, for example.
  • the probability calculation is performed at, and the calculation result is stored in the parameter storage device 140.
  • the probability parameters accumulated in the parameter storage device 140 are the first predetermined number, for example, the probability of existence of each amino acid at each alignment position in the arrangement sequence of peptide sequences having nine amino acid forces, and the front and rear of each alignment position. It consists of the transition probability of.
  • the probability is accumulated according to the probability parameters accumulated in the parameter storage device 140, and the existence probability of each amino acid at each aligned position of the virtual peptide sequence as shown in Fig. 3 is obtained. It becomes like this.
  • a third predetermined number for example, 100,000 peptide sequences are combined based on the aggregation results as shown in FIG.
  • Hypothesis data is obtained by calculating a prediction score corresponding to a constant.
  • This hypothesis data is sent to the hypothesis comparison unit 114. Further, when the data set of the storage device 126 is updated using the hypothesis data in the storage device 126, the hypothesis data may be sent to the data control unit 128.
  • the third predetermined number of peptide sequence sets may be a variable set that is set each time the learning phase calculation starts, and is arbitrarily input or selected by a person using this system. It may be a set.
  • the calculation in the estimation stage is performed in substantially the same way as the calculation in the learning stage, and the scoring power of the binding constant corresponding to each peptide sequence obtained in each learning section 112 In the hypothesis comparison section 1 14 Without being sent, it is sent to the physical property estimation unit 132 described later.
  • FIG. 8 shows a functional block diagram for explaining the function of the hypothesis comparison unit 114.
  • the hypothesis comparison unit 114 includes a target sequence setting unit 160, a target physical property extraction unit 162, and a variance evaluation unit 164.
  • the sequence-of-interest setting unit 160 sets a peptide sequence to be compared for determining how much the hypothesis derived from each learning unit 112 converges to V.
  • This set peptide sequence is one of the peptide sequences of data constituting each hypothesis.
  • the focused physical property extraction unit 162 extracts the physical property specified by the peptide sequence set by the focused sequence setting unit 160 from the hypothesis data.
  • the variance evaluation unit 164 calculates the variance of the physical properties extracted by the focused physical property extraction unit 162 to obtain, for example, a data set as shown in FIG. 4 described above. The obtained variance is sent to the question point extraction unit 118.
  • the question point extraction unit 118 sequentially extracts the direction of great variance obtained by the hypothesis comparison unit 114.
  • Figure 5 schematically shows the ranking in the data set.
  • the direction with large variance is extracted as the question points up to the top 50 which is the seventh predetermined number range, and the extracted peptide sequence is sent to the data request unit 120.
  • a peptide sequence having a variance greater than a predetermined value may be extracted as a target peptide sequence for which true data is requested, that is, a question point.
  • the data request unit 120 requests true data, for example, measurement data obtained by experiments or data such as documents stored in an external database, with respect to the peptide sequences related to the question points extracted by the question point extraction unit 118.
  • the data receiving unit 122 receives the measurement data according to the input by the user according to the request from the data requesting unit 120, and the literature data obtained from a predetermined database as described later, and converts these data into the true data. To the data adding unit 124.
  • the data adding unit 124 once captures the true data sent from the data receiving unit 122, associates it with the peptide sequence that was the question point, and generates additional data including this peptide sequence and this physical property. Processing is performed, and this additional data is sent to the data control unit 128.
  • the sequence input receiving unit 130 desires to identify information on the entire amino acid sequence of a predetermined protein, for example, identification of an epitope, in order to specify a candidate peptide sequence that is desired to be predicted.
  • the input of the entire amino acid sequence of the target protein to be processed, for example, the protein forming the virus antigen, is received, and the received data is sent to the sequence candidate extraction unit 131.
  • This input may be performed through a user interface by a predetermined input device, or may be performed through a network connected to the user interface.
  • target proteins other than viral antigens as described above may be targeted for sequence input reception.
  • the sequence candidate extraction unit 131 extracts peptide sequence candidates to be predicted based on the entire amino acid sequence of a predetermined protein, which is information received by the sequence input reception unit 130, and extracts the extracted peptide sequence Candidates are sent to each learning unit 112.
  • the peptide sequences extracted by the sequence candidate extraction unit 131 may include sequences that cannot actually be used.
  • the sequence candidate extraction unit 131 may be configured to automatically eliminate such unnecessary peptide sequences without human assistance.
  • the learning is performed in the estimation step of the learning unit 112 according to the peptide sequence candidates after being extracted by the sequence candidate extraction unit 131 and unnecessary peptide sequences are excluded as necessary. According to the obtained results, the physical properties of each peptide sequence are estimated. This calculation result is obtained, for example, in a data set as shown in FIG. 5 described above.
  • the physical property estimation unit 1 32 for example, an average value is obtained for each peptide sequence, and a given protein of the peptide sequence, for example, a target protein. This estimation is performed for all peptide sequence candidates, and the combination of the peptide sequence and the estimated physical property is sent to the peptide database 138.
  • a data set is obtained which is a combination of the physical properties estimated by the physical property estimation unit 132, for example, binding constants to HLA class I molecules and peptide sequences having the physical properties.
  • the condition input accepting unit 134 accepts input of physical properties, for example, binding constants, which are keywords for extracting peptide sequences having predetermined physical properties from the peptide database 138.
  • This input may be made through a user interface by a predetermined input device as in the case of the array input receiving unit 130, and may be input to the user interface via a network. Connect this network and make it through this network.
  • an input of conditions (physical properties) required according to the use of the peptide sequence to be extracted is accepted.
  • a peptide sequence is used as a therapeutic agent for hepatitis C
  • the binding constant for an HLA class I molecule that is a predetermined protein is accepted as a keyword.
  • the sequence extraction unit 136 extracts a peptide sequence satisfying the condition received by the condition input reception unit 134 from the peptide database 138, and outputs the extracted peptide sequence as a prediction result.
  • the physical properties of a new peptide sequence obtained by substituting one to several amino acids into the peptide sequence were examined.
  • an input to that effect for example, a peptide sequence for which a binding constant is estimated, and an eighth predetermined number of information on how many amino acids are to be substituted in the peptide sequence are input.
  • the learning unit 112 can perform an estimation stage calculation, and the physical property estimation unit 132 can estimate the physical property of a new peptide sequence based on the calculation result.
  • Fig. 9 is a diagram showing a case where a request for true data is made to an external database that is not directed to the user.
  • an example applied to the sequence prediction system shown in FIG. 7 is shown, but the present invention can also be applied to the sequence prediction system shown in FIG.
  • the peptide sequence is sent to the database control unit 162 via the network 160 in response to a request from the data request unit 120, and the database control unit 162 stores the measured value of this peptide sequence in the measured value database 164.
  • this actual value is obtained, it is sent as data such as documents to the data reception unit 122 through the network 160. By doing so, it is possible to obtain true data automatically without help from people.
  • FIG. 10 is a flowchart for explaining the operation of the sequence prediction support system according to the embodiment of the sequence prediction support method of the present invention.
  • the sequence prediction support system of this embodiment is included in the sequence prediction system according to the first embodiment shown in FIG. 1, and the reference numerals in FIG. [0133]
  • N data sets are selected from a database having biopolymer sequences and attribute values of the biopolymers of this sequence, and a plurality of different data sets are selected from the data sets.
  • a hypothesis is generated for each data subset in step S1, which is a data supply stage for generating and supplying a data subset to the learning unit, and the biopolymer alignment ability independent of the data set is also generated in the learning unit.
  • Step S2 which is a hypothesis derivation stage in which the hypothesis is applied to each second data set to derive the attribute value of the biopolymer sequence related to the second data set, and each biological height in the second data set
  • Step S3 which is a variance calculation stage for calculating the variance of attribute values for the molecular arrangement, and the living body height having a variance larger than a certain standard among the calculated variances
  • Step S4 which is a question point extraction stage for extracting a child sequence as a question point, and an attribute value for this question point are received, and the received attribute value is associated with the biopolymer sequence related to the question point, thereby de- And step S5, which is a data update stage stored in the database.
  • step S1 the data control unit 128 selects N data sets each including an array of biopolymers and attribute values of the biopolymers of this array from a storage device as a database, and further generates a generation unit.
  • a plurality of different data subsets are generated from these N data sets and supplied to the learning unit 104.
  • step S2 as described above, the hypothesis generated for each data subset by the learning unit 104 is applied to the biopolymer sequence (peptide sequence) of the second data set. , The attribute value of each peptide sequence is derived.
  • step S3 the question point extraction unit 118 calculates the variance of the attribute value of each biopolymer sequence.
  • Step S4 the question point extraction unit 118 continues to extract, as the question points, biopolymer sequences having a variance larger than a certain standard among the calculated variances.
  • step S5 the attribute value for the extracted question point is received by the data receiving unit 122, and the data control unit 128 associates the received attribute value with the biomolecular sequence related to the question point.
  • the data is sent to and stored in the storage device 126, and the contents of the storage device 126 are updated.
  • a database that supports sequence prediction is constructed.
  • steps S1 to S5 are performed by, for example, maximum dispersion obtained in step S3.
  • the reliability of the contents of the sequence prediction support database can be further improved until the value becomes smaller than the predetermined value.
  • FIG. 11 is a flowchart showing the operation of the sequence prediction system using the database constructed by the sequence prediction support system that works on the first embodiment shown in FIG. 1 or an existing database.
  • step S110 the sequence input accepting unit 130 accepts the entire sequence of a predetermined biopolymer, for example, a protein, and the sequence candidate extracting unit 118 accepts this all sequence force prediction target.
  • a biopolymer sequence to be obtained, in this case, a peptide sequence candidate is extracted and sent to the learning unit 104.
  • step S111 after receiving the array input, the data control unit 128 extracts all data sets in the storage device 128 and sends them to the learning unit 104.
  • the learning unit 104 generates a rule from the entire data set and applies the rule to each of the biopolymer sequence candidates to estimate the attribute value of the biopolymer sequence candidate.
  • step S112 is provided, and the attribute value estimated by the learning unit 104 is sent to the peptide database 138 and accumulated in association with the corresponding peptide sequence, whereby data consisting of the peptide sequence and the attribute value is stored.
  • a database of sets can be created. This data set is not limited to peptide sequences, and any database of biopolymers such as DNA and RNA can be databased together with attribute values.
  • Step S 113 to Step S 114 are provided.
  • a keyword for extracting a peptide sequence having a predetermined attribute value from the peptide database 138 in the condition input receiving unit 134 for example, Accepts input of conditions such as the attribute value being greater than the binding constant for a specific protein.
  • step S114 the sequence extraction unit 136 extracts a peptide sequence satisfying the condition received by the condition input reception unit 134 from the peptide database 138, and outputs the extracted peptide sequence as a prediction result. .
  • the peptide arrangement force having a predetermined attribute value. It can be extracted as expected to show a loop.
  • FIG. 12 is a flowchart for explaining the operation of the sequence prediction support system included in the sequence prediction system according to the second embodiment shown in FIG. In the following description, the reference numerals in FIG.
  • step S 10 data is extracted from the storage device 126 by the data control unit 128, and different data powers are randomly resampled to each learning unit 112 through the random resampling 110.
  • each learning unit 112 analyzes the supplied data and determines a third hypothesis, that is, a third predetermined number of 100,000 peptide sequences based on a certain hypothesis, that is, a peptide sequence and predetermined physical properties.
  • a data set including the obtained score is derived.
  • step S30 the target sequence setting unit 160 sets a predetermined peptide sequence for comparing the same hypotheses derived by each learning unit 112.
  • step S40 the target physical property extraction unit 162 extracts the set predetermined peptide sequence and physical properties from the hypotheses of the respective learning units 112.
  • step S50 the variance evaluation unit 164 evaluates the variance of the physical properties extracted from each learning unit 112.
  • step S60 the question point extraction unit 118 extracts in order of magnitude and direction of variance evaluated by the variance evaluation unit 164 of the hypothesis comparison unit 114.
  • the data set obtained in this way is shown schematically in Fig. 5.
  • step S70 the top 50 of the data set obtained in step S60 is extracted as the question points as described above, and the extracted peptide sequence is used as the true data for the hypothetical physical properties. It is extracted as a peptide sequence to be requested.
  • step S80 the data requesting unit 120 requests true data, the data receiving unit 122 receives the requested true data, and the data adding unit 124 extracts the array extracted in step S70. Additional data can be obtained by defining the hypothetical physical properties as true data.
  • step S90 the data is sent to the storage device 126 through the additional data force data control unit 128 obtained by the data addition unit 124, and the data in the storage device 126 is updated.
  • step S100 it is determined whether or not to perform the next learning.
  • This judgment result is YES, That is, when the next learning is performed, the process returns to step S10, and learning data is randomly supplied to each learning unit 112 by random resampling 110.
  • the determination result power NO that is, when the next learning is not performed, the sequence prediction support operation ends.
  • the number of times of learning may be determined in advance as a predetermined number of times, or it may be determined whether or not the next learning is performed at each end.
  • steps S60 and S70 the peptide sequences are rearranged in descending order of the hypothesis data, and a predetermined number, for example, up to 50 is extracted from the top as question points. Make sure that the peptide sequence is extracted as a question point.
  • FIG. 13 is a flowchart showing the operation of the sequence prediction system using the database constructed by the sequence prediction support system according to the second embodiment.
  • step S200 the sequence input accepting unit 130 accepts the entire amino acid sequence of a virus antigen, which is a target protein for a predetermined substance, for example, an antigen-presenting molecule.
  • a virus antigen which is a target protein for a predetermined substance, for example, an antigen-presenting molecule.
  • Peptide sequence candidates are extracted, the learning unit 112 performs an estimation stage calculation, and the physical property estimation unit estimates the binding constant of the peptide sequence candidate to the virus antigen from the calculation result.
  • a data set of all the peptide sequence candidates and predetermined physical properties is generated and stored in the database 138.
  • step S230 the condition input receiving unit 134 receives an input of a physical property as a keyword for extracting a peptide sequence having a predetermined physical property from the peptide database 138, for example, a binding constant for a predetermined protein.
  • step S240 the sequence extraction unit 136 extracts a peptide sequence satisfying the condition received by the condition input reception unit 134 from the peptide database 138, and outputs the extracted peptide sequence as a prediction result. .
  • a peptide sequence having a predetermined physical property can be extracted as expected to exhibit an epitope that binds to a predetermined substance.
  • a third predetermined number of peptide sequences As a hypothesis to be output to the plurality of learning units 112, a third predetermined number of peptide sequences and Instead of using the value of the binding constant for this, it is possible to make an epitope prediction calculation by outputting a list of 9 amino acids derived from the amino acid sequence of another predetermined protein, such as a target protein, such as a viral antigen. also not limited to the number of 100,000 as the third predetermined number, Tsu All peptide sequences be output for 20 nine whole peptide sequence when a predetermined number of fifth and 9, the prediction of the hand become able to.
  • a peptide sequence having such immunity-inducing ability can be predicted using the number of T cell proliferation induced by this as an indicator of physiological activity.
  • peptides are used as ligands, but specific peptide ligands have not been identified.
  • Optimization of ligands for orphan G-protein coupled receptors (orphan-GPCRs) Optimum for this activity system, using numerical values such as calcium concentration increase and intracellular cAMP (intracellular biomolecule) increase in cultured cells following peptide administration as indicators of physiological activity. By predicting the correct peptide sequence.
  • the peptide sequence can also be predicted using the increase in the blood concentration of a physiologically active peptide or physiologically active hormone that also has peptide power as an index of physiological activity.
  • the present embodiment can also be applied to DNA sequence prediction.
  • a transcription factor that controls gene expression must bind upstream of the gene sequence on the DNA, and the DNA base sequence of the transcription factor binding site must have a certain motif or law. It has been known. Therefore, by predicting candidate transcription factor sequences that bind to promoters involved in specific gene expression, a law is established between gene expression and the DNA sequence pattern of the transcription factor binding site in a specific gene expression system. Can be found, and it is also possible to control gene expression and transcription factor binding.
  • RNAi sequence prediction For example, a specific small double-stranded RNA base sequence (siRNA) of about 10 to 20 bases.
  • siRNA small double-stranded RNA base sequence
  • auxiliary factor 'Downstream
  • siRNA sequence candidates that bind to mRNA involved in specific gene expression, it becomes possible to predict the relationship between specific physiological activities and RNAi sequences.
  • RNAi sequence design which is actively researched and developed, will be possible.
  • RNA aptamer is usually an RNA strand of 20 bases or more, and has a specific stable three-dimensional structure formed by binding between complementary bases in the sequence.
  • a specific protein such as a target protein is used by utilizing this structural property.
  • the present invention also provides a program that causes a general-purpose computer device to function as the above-described sequence prediction system or sequence prediction support system.
  • biopolymer sequence such as a peptide sequence having a certain predetermined physical property or a nucleic acid base sequence by experiments. Become.
  • each component of the above sequence prediction system or sequence prediction support system can also be expressed by a program, and by using such a program, a general-purpose computer apparatus can be connected to the sequence prediction system or the sequence prediction system. It is possible to operate as a prediction support system.
  • an unnecessary sequence removing unit as shown in FIG. You may provide a structure like an unnecessary arrangement

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

  生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデータベースである記憶装置126と、記憶装置126からN個のデータセットを選択する選択部としてのデータ制御部128と、このデータセットから異なる複数のデータサブセットを生成する生成部102と、それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の生体高分子配列からなる第2のデータセットにそれぞれ仮説を適用して、第2のデータセットにかかる生体高分子配列の属性値を導出する学習部104と、を含む。

Description

明 細 書
配列予測システム
技術分野
[0001] 本発明は、配列予測システムに関し、特に特定の物性を備えるペプチドの配列を 予測するための配列予測システムおよび配列予測データベースに関する。また、本 発明は、この配列予測を支援する配列予測支援システムに関する。さらに、本発明 は、配列予測システムを動作させるための配列予測プログラムおよび方法に関する。 また、本発明は、配列予測支援システムを動作させるための配列予測支援プロダラ ムおよび方法に関する。
背景技術
[0002] C型肝炎ウィルス (HCV)などのウィルスに感染すると、自然免疫によるウィルス排除 反応が起こり、次いで、特異的免疫応答が誘導され、ウィルスの排除反応が起こる。
[0003] 特異的免疫応答では、体液中のウィルスが中和抗体により排除され、細胞内のウイ ルスが細胞傷害性 T細胞 (CTL)により排除される。すなわち、 CTLは、感染細胞表 面の HLAクラス I分子に提示された、 8〜: L 1のアミノ酸力 なるウィルス抗原(CTLェ ピトープ)を特異的に認識し、感染細胞を傷害することによりウィルスを排除する。した がって、このようなウィルスに特異的な CTLェピトープを同定することは、ウィルスに対 する治療ワクチンを作成する上で重要である。
[0004] このような CTLェピトープを同定するために、 BIMAS、 SYFPEITHIなどのデータ ベースカもェピトープ予測を行って、予測結果に応じて実際に HLA分子と結合する か否かの実験を行って、実際に結合するものを CTLェピトープとして同定していた。
[0005] BIMAS、 SYFPEITHIなどのデータベースを用いた方法では、 HLA分子と結合 すると判断されたペプチドが実際には結合しないことが多ぐ予測通りに CLTェピト ープを同定することが困難であった。
[0006] 非特許文献 1には、より少な!/ヽ実験で HLA分子と結合するペプチドを同定するた めに、より正確に HLA分子と結合するペプチドを同定する方法にっ 、て記載されて いる。 非特許文献 1 : Udaka, K., et al, 'Empirical Evaluation of a Dynamic ExperimentDesig n Method for Prediction of MHC Class I- Binging Peptides', The Journal oflmmunolo gy, 169, p5744-5753, 2002
発明の開示
[0007] ところで、非特許文献 1では、コンピュータから任意に選出されたペプチド配列に関 して、所定の物性、例えば上記のような HLA分子との結合能を有する力否かの判定 を行うことが開示されており、実際に選出されたペプチド配列が所定の物性を有する か否かは、実験を行うことで確認をしていた。非特許文献 1には、選出されたペプチド 配列が、高い確率で実際に所定の物性を有することが実験により確認された旨記載 されて ヽる(5749頁右欄第 2段落)。
[0008] し力しながら、非特許文献 1に記載された技術を、ある特定のターゲット、例えばウイ ルス抗原に絞って、実験によらずに、予測されたペプチド配列がウィルス抗原として 機能するのに必要な特定の物性を有する力否力を定量的に判別し、有すると判別さ れた配列のみを選出するといつた目的では、そのまま適用することができず、まだ不 十分であった。
[0009] 一方で、ペプチド配列と同様に、転写因子結合部位 DNA配列予測、 RNAi (RNA interference)配列予測、 RNAァプタマ一配列予測などにつ!、ても、精度よ 、配列 予測が期待されている。
[0010] そこで、本発明は上述した実情に鑑みてなされたものであり、ある所定の物性を有 する生体高分子配列のみを実験によらないで選出することが可能な配列予測システ ムおよび配列予測データベース、配列予測支援システム、配列予測プログラムおよ び配列予測支援プログラムならびに配列予測方法および配列予測支援方法を提供 することを目的としている。
[0011] 本発明に係る配列予測システムは、上述の課題を解決するために、生体高分子の 配列と、この配列の生体高分子が備える属性値とを含む生体高分子属性を有するデ ータベースと、
前記データベース力 N個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、 それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットと は独立の生体高分子配列からなる第 2のデータセットにそれぞれ仮説を適用して、第 2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第 2のデータセット中の各生体高分子配列について属性値の分散を求めて、 一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部 と
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にか 力る生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、 所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列力 予測の対象となる生体高分子配 列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに 、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補 の属性値を推定する属性値推定部と、を含む。
このような構成により、選択部によりデータベース力も N個のデータセットが取り出さ れ、生成部によりこの N個のデータセットから異なる複数のデータサブセットが生成さ れる。学習部では、データサブセットのそれぞれについて独立に分析して一定の仮 説を生成し、第 2のデータセットの生体高分子配列に対して仮説を適用して属性値 が導出される。なお、生体高分子配列および導出属性値を有する第 2のデータセット は、データサブセット数と同じだけ生成される。すなわち、同じ生体高分子配列に対 して、各データサブセット由来の仮説に基づいてそれぞれ属性値が導出されることに なる。質問点抽出部では、同じ生体高分子配列について導出された複数の属性値 の分散を求めて、一定基準よりも分散が大きい生体高分子配列が質問点として抽出 される。データ制御部では、質問点に対する属性値を受け付けて、質問点にかかる 生体高分子配列と対応づけて、前記データベースに蓄積して、データベースの内容 が更新されるようになる。一方で、配列入力受付部では、所定の生体高分子の全配 列を受け付け、配列候補抽出部ではこの全配列から属性値予測の対象となる生体 高分子配列候補を抽出する。属性値推定部では、更新されたデータベースのデータ セットから法則を生成し、生体高分子配列候補にそれぞれこの法則を適用して、各生 体高分子配列に対して属性値を推定する。
[0013] この配列予測システムにおいて、学習部は、配列入力受付後にあっては、属性値 推定部として機能するように構成してもよ 、。
[0014] すなわち、一つのコンピュータシステムにて、データベースの内容の更新時には、 生成部からの複数のデータサブセットのそれぞれにつ 、て生成された仮説を適用し て、任意に作成された第 2のデータセットの各生体高分子配列に対して属性値を導 出する一方で、属性値予測時には、更新済みのデータベースに含まれるデータセッ トから生成された法則を適用して、各生体高分子配列候補に対して属性値を推定値 として算出するよう〖こすることができる。
[0015] この配列予測システムにお 、て、配列候補抽出部では、配列入力受付部で受け付 けた全配列の先頭から、 p個のモノマー取出単位で生体高分子配列を抽出し、以降 の生体高分子配列候補を q個のモノマー単位ずつ下流側にずらしながら P個のモノ マー取出単位ごとに抽出してもよい。
[0016] また、配列候補抽出部では、抽出された生体高分子配列候補の中から所定の条件 を満たす予測が不要な生体高分子配列を、属性値推定部に送る前に排除してもよ い。
このような構成により、生体高分子配列候補力 不要な配列を属性値の予測前に 排除することができ、無用な推定演算を低減することができる。
[0017] また、この配列予測システムにおいて、質問点抽出部では、分散が大きい方力も一 定の範囲にある生体高分子配列が質問点として抽出されてもよぐあるいは分散が所 定の値よりも大きい生体高分子配列が質問点として抽出されてもよい。
このような構成により、学習部力 導出される仮説がある程度収束するまで質問点 を抽出し続けられるようになる。
[0018] これらの配列予測システムにおいて、属性値推定部にて推定された各生体高分子 配列候補の属性値のうち、所定の条件を満たす属性値を有する生体高分子配列候 補を抽出する配列抽出部をさらに設けてもよい。
このような構成により、推定された属性値が所定の条件を満たす生体高分子配列を 予測配列として抽出することが可能になる。
[0019] また、本発明に係る配列予測システムは、生体高分子の配列と、この配列の生体高 分子が備える属性値とを含む生体高分子属性を有するデータベースと、
所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列力 予測の対象となる生体高分子配 列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに 、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補 の属性値を推定する属性値推定部と、を含む。
[0020] このような構成により、配列入力受付部では、所定の生体高分子の全配列を受け付 け、配列候補抽出部ではこの全配列から属性値予測の対象となる生体高分子配列 候補を抽出する。属性値推定部では、データベースのデータセットから法則を生成し 、生体高分子配列候補にそれぞれこの法則を適用して、各生体高分子配列に対し て属性値を推定する。
[0021] 本発明に係る配列予測データベースは、前述の記載の配列予測システムにより得 られる属性値と、生体高分子配列とを有する。
[0022] 本発明に係る配列予測支援システムは、生体高分子の配列と、この配列の生体高 分子が備える属性値とを含む生体高分子属性を有するデータベースと、
前記データベース力 N個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、 それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットと は独立の生体高分子配列からなる第 2のデータセットにそれぞれ仮説を適用して、第
2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第 2のデータセット中の各生体高分子配列について属性値の分散を求めて、 一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部 と
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にか 力る生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、 を含む。
[0023] このような構成により、選択部によりデータベース力 N個のデータセットが取り出さ れ、生成部によりこの N個のデータセットから異なる複数のデータサブセットが生成さ れる。学習部では、データサブセットのそれぞれについて独立に分析して一定の仮 説を生成し、第 2のデータセットの生体高分子配列に対して仮説を適用して属性値 が導出される。なお、生体高分子配列および導出属性値を有する第 2のデータセット は、データサブセット数と同じだけ生成される。すなわち、同じ生体高分子配列に対 して、各データサブセット由来の仮説に基づいてそれぞれ属性値が導出されることに なる。質問点抽出部では、同じ生体高分子配列について導出された複数の属性値 の分散を求めて、一定基準よりも分散が大きい生体高分子配列が質問点として抽出 される。データ制御部では、質問点に対する属性値を受け付けて、質問点にかかる 生体高分子配列と対応づけて、前記データベースに蓄積して、データベースの内容 が更新され、配列予測を支援するデータベースが構築される。
[0024] 本発明に係る配列予測プログラムは、コンピュータ装置を、
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子 属性を有するデータベースと、
前記データベース力 N個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、 それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットと は独立の生体高分子配列からなる第 2のデータセットにそれぞれ仮説を適用して、第 2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第 2のデータセット中の各生体高分子配列について属性値の分散を求めて、 一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部 と
前記質問点に対する属性値を受け付けて、受け付けた属性値を前記質問点にか 力る生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、 所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列力 予測の対象となる生体高分子配 列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに 、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補 の属性値を推定する属性値推定部と、を含む配列予測システムとして機能させるもの である。
[0025] このような構成により、選択部によりデータベース力 N個のデータセットが取り出さ れ、生成部によりこの N個のデータセットから異なる複数のデータサブセットが生成さ れる。学習部では、データサブセットのそれぞれについて独立に分析して一定の仮 説を生成し、第 2のデータセットの生体高分子配列に対して仮説を適用して属性値 が導出される。なお、生体高分子配列および導出属性値を有する第 2のデータセット は、データサブセット数と同じだけ生成される。すなわち、同じ生体高分子配列に対 して、各データサブセット由来の仮説に基づいてそれぞれ属性値が導出されることに なる。質問点抽出部では、同じ生体高分子配列について導出された複数の属性値 の分散を求めて、一定基準よりも分散が大きい生体高分子配列が質問点として抽出 される。データ制御部では、質問点に対する属性値を受け付けて、質問点にかかる 生体高分子配列と対応づけて、前記データベースに蓄積して、データベースの内容 が更新されるようになる。一方で、配列入力受付部では、所定の生体高分子の全配 列を受け付け、配列候補抽出部ではこの全配列から属性値予測の対象となる生体 高分子配列候補を抽出する。属性値推定部では、更新されたデータベースのデータ セットから法則を生成し、生体高分子配列候補にそれぞれこの法則を適用して、各生 体高分子配列に対して属性値を推定する。以上のように、汎用コンピュータ装置が配 列予測システムとして機能するようになる。
[0026] 本発明に係る配列予測プログラムは、コンピュータ装置を、
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子 属性を有するデータベースと、
所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列力 予測の対象となる生体高分子配 列候補を抽出する配列候補抽出部と、 配列入力受付後に前記データベースの全データセットから法則を生成するとともに 、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補 の属性値を推定する属性値推定部と、を含む配列予測システムとして機能させるもの である。
[0027] このような構成により、配列入力受付部では、所定の生体高分子の全配列を受け付 け、配列候補抽出部ではこの全配列から属性値予測の対象となる生体高分子配列 候補を抽出する。属性値推定部では、データベースのデータセットから法則を生成し 、生体高分子配列候補にそれぞれこの法則を適用して、各生体高分子配列に対し て属性値を推定する。以上のように、汎用コンピュータ装置が配列予測システムとし て機能するようになる。
[0028] 本発明に係る配列予測支援プログラムは、コンピュータ装置を、
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子 属性を有するデータベースと、
前記データベース力 N個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、 それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットと は独立の生体高分子配列からなる第 2のデータセットにそれぞれ仮説を適用して、第 2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第 2のデータセット中の各生体高分子配列について属性値の分散を求めて、 一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部 と
前記質問点に対する属性値を受け付けて、受け付けた属性値を前記質問点にか 力る生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、 を含む配列予測支援システムとして機能させるものである。
[0029] このような構成により、選択部によりデータベース力 N個のデータセットが取り出さ れ、生成部によりこの N個のデータセットから異なる複数のデータサブセットが生成さ れる。学習部では、データサブセットのそれぞれについて独立に分析して一定の仮 説を生成し、第 2のデータセットの生体高分子配列に対して仮説を適用して属性値 が導出される。なお、生体高分子配列および導出属性値を有する第 2のデータセット は、データサブセット数と同じだけ生成される。すなわち、同じ生体高分子配列に対 して、各データサブセット由来の仮説に基づいてそれぞれ属性値が導出されることに なる。質問点抽出部では、同じ生体高分子配列について導出された複数の属性値 の分散を求めて、一定基準よりも分散が大きい生体高分子配列が質問点として抽出 される。データ制御部では、質問点に対する属性値を受け付けて、質問点にかかる 生体高分子配列と対応づけて、前記データベースに蓄積して、データベースの内容 が更新され、配列予測を支援するデータベースが構築される。以上のように、汎用コ ンピュータ装置が配列予測支援システムとして機能するようになる。
本発明に係る配列予測方法は、生体高分子の配列と、この配列の生体高分子が備 える属性値とを有するデータベースから、 N個のデータセットを選択し、さらに当該デ ータセットから異なる複数のデータサブセットを生成して学習部に供給するデータ供 給段階と、
前記学習部において、それぞれのデータサブセットに対して仮説を生成するととも に、前記データセットとは独立の生体高分子配列力 なる第 2のデータセットにそれ ぞれ仮説を適用して、第 2のデータセットにかかる生体高分子配列の属性値を導出 する仮説導出段階と、
前記第 2のデータセット中の各生体高分子配列について属性値の分散を算出する 分散算出段階と、
算出された分散のうち、一定基準よりも分散が大きい生体高分子配列を質問点とし て抽出する質問点抽出段階と、
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にか 力る生体高分子配列と対応づけて、前記データベースに蓄積するデータ更新段階と 所定の生体高分子の全配列を受け付けて、この受け付けた全配列力 予測の対象 となる生体高分子配列候補を抽出する配列候補抽出段階と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに 、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補 の属性値を推定する属性値推定段階と、を含む。
[0031] 本発明に係る配列予測支援方法は、生体高分子の配列と、この配列の生体高分 子が備える属性値とを有するデータベースから、 N個のデータセットを選択し、さらに 当該データセットから異なる複数のデータサブセットを生成して学習部に供給するデ ータ供給段階と、
前記学習部において、それぞれのデータサブセットに対して仮説を生成するととも に、前記データセットとは独立の生体高分子配列力 なる第 2のデータセットにそれ ぞれ仮説を適用して、第 2のデータセットにかかる生体高分子配列の属性値を導出 する仮説導出段階と、
前記第 2のデータセット中の各生体高分子配列について属性値の分散を算出する 分散算出段階と、
算出された分散のうち、一定基準よりも分散が大きい生体高分子配列を質問点とし て抽出する質問点抽出段階と、
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にか 力る生体高分子配列と対応づけて、前記データベースに蓄積するデータ更新段階と 、を含む。
[0032] また、本発明に係る配列予測システム、配列予測支援システム、配列予測プロダラ ム、配列予測支援プログラムおよび配列予測方法は、下記の態様を含む。
[0033] 前記配列予測システムの一態様は、第 1の所定数のアミノ酸力 なるペプチド配列 と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納する データベースと、第 2の所定数のデータに基づいてペプチド配列および物性から、第 3の所定数のペプチド配列について求めてなる仮説を導出する複数の学習部と、デ ータベース力 第 4の所定数のデータを取り出して、各学習部に第 2の所定数のデー タずつランダムに供給するランダムリサンプリング部と、各学習部で導出された仮説に 含まれる所定のペプチド配列を設定する着目配列設定部と、設定された所定のぺプ チド配列により特定される物性を各学習部の仮説からそれぞれ抽出する着目物性抽 出部と、各学習部から抽出された物性の分散を評価する分散評価部と、評価された 分散に基づいて、仮説の物性に対する真データを要求する対象となるペプチド配列 を抽出する質問点抽出部と、要求された真データを受け付けて、抽出されたペプチド
Figure imgf000013_0001
、て真データに基づく物性を対応づける処理を行うデータ更新部と、デー タ更新部で得られたペプチド配列と真データに基づく物性とを含む新たなデータを、 データベースに蓄積するデータ制御部と、所定のタンパク質の全アミノ酸配列を受け 付ける配列入力受付部と、配列入力受付部にて受け付けた全アミノ酸配列から予測 の対象となるペプチド配列候補を抽出するとともに、抽出した当該ペプチド配列候補 を学習部に送る配列候補抽出部と、各学習部で得られた結果から、抽出したぺプチ ド配列候補の物性を推定する物性推定部と、を含む。
[0034] このような構成により、ランダムリサンプリング部よりデータベース力 第 4の所定数 のデータが第 4の所定数よりは小さい数である第 2の所定数のデータずつランダムに リサンプルされて、各学習部に送られる。このリサンプルでは、各学習部ごとに異なつ たデータが供給される。各学習部では、供給されたデータを分析して一定の仮説、 すなわち第 1の所定数のアミノ酸力もなるペプチド配列と所定の物性とから、第 3の所 定数のペプチド配列について所定の物性を求めたデータセットが導出される。着目 配列設定部では、各学習部で導出された仮説同士を比較するための所定のぺプチ ド配列を設定して、着目物性抽出部では、この設定された所定のペプチド配列により 特定される物性を各学習部の仮説力 それぞれ抽出する。分散評価部では、各学習 部から抽出された物性の分散が評価され、質問点抽出部では、この評価された分散 に基づ!/、て、仮説の物性に対する真データを要求する対象となるペプチド配列が抽 出され、それぞれの仮説が比較される。データ更新部では、真データを受け付けて、 この真データを抽出されたペプチド配列に対応づけして、データ制御部に送る。さら に、データ制御部によって、このペプチド配列と真データに基づく物性とを含むデー タを追加してデータベースの内容が更新される。一方で、配列入力受付部では、所 定のタンパク質の全アミノ酸配列を受け付け、この全アミノ酸配列から予測の対象と なるペプチド配列候補を抽出するとともに、このペプチド配列候補を学習部に送る。 物性推定部では、各学習部で得られた結果から、抽出したペプチド配列候補の物性 を推定する。
[0035] この配列予測システムにお 、て、配列候補抽出部では、配列入力受付部で受け付 けた全アミノ酸配列の先頭から、第 5の所定数のアミノ酸力 なるペプチド取出単位 にて抽出し、以降のペプチド配列候補を第 6の所定数のアミノ酸ずつ下流側にずらし ながら前記ペプチド取出単位ごとにペプチド配列を抽出してもよい。さらに、抽出され た配列候補の中力 所定の条件を満たす予測が不要なペプチド配列を、前記学習 部に送る前に排除することもできる。
[0036] このような構成により、受け付けたタンパク質の全ァミノ配列力もペプチド配列候補 を抽出して、この抽出されたペプチド配列候補のうち、不要なペプチド配列を物性の 予測前に取り出しておくことで、無用な推定演算の必要がなくなる。
[0037] 前記の配列予測システムにおいて、質問点抽出部では、分散が大きい方力も第 7 の所定数の範囲にあるペプチド配列が質問点として抽出されてもよぐあるいは分散 が所定の値よりも大きいペプチド配列が質問点として抽出されてもよい。
[0038] このような構成により、各学習部力 導出された仮説がある程度収束するまで質問 点が抽出し続けられるようになる。
[0039] 前記の配列予測システムにお!/、て、仮説補正部は、質問点抽出部で抽出されたぺ プチド配列にっ 、て物性の真データを要求するデータ要求部と、当該要求された真 データを受け付けるデータ受付部と、受け付けた真データを、抽出されたペプチド配 列に対応づけてデータ制御部に送るデータ追加部と、を含んで 、てもよ 、。
[0040] このような構成により、質問点であるペプチド配列について、データ要求部から、真 データを、例えば外部に実験依頼をしたり、外部データベースに情報を求めたりする ことが可能になる。データ受付部では、この真データに対応するデータを受け付けて 、データ追加部ではこの受け付けた真データを、データ要求の対象となったペプチド 配列に対応づけてデータベースに追加するようにデータ制御部に送る。
[0041] 前記の配列予測システムにお 、て、物性推定部にて推定された各ペプチド配列候 補の物性のうち、推定所定の条件を満たす物性を有するペプチド配列候補を抽出す る配列抽出部をさらに設けてもよい。
[0042] このような構成により、物性推定部では、所定の物性を有するペプチド配列候補が 、所定のタンパク質に対して所定の物性を示すものとして抽出することができる。
[0043] また、前述した配列予測システムにより予測されるペプチド配列より、このペプチド 配列をコードする核酸の塩基配列を予測することを特徴としている。
[0044] これにより、前述した配列予測システムにより予測されるペプチド配列から所定のタ ンパク質に対して所定の物性を有する配列候補をコードする核酸の塩基配列を予測 することがでさるよう〖こなる。
[0045] 前記配列予測支援システムの一態様は、第 1の所定数のアミノ酸力 なるペプチド 配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格 納するデータベースと、第 2の所定数のデータに基づ 、てペプチド配列および物性 から、第 3の所定数のペプチド配列について求めてなる仮説を導出する複数の学習 部と、データベース力 第 4の所定数のデータを取り出して、各学習部に第 2の所定 数のデータずつランダムに供給するランダムリサンプリング部と、各学習部で導出さ れた仮説に含まれる所定のペプチド配列を設定する着目配列設定部と、設定された 所定のペプチド配列により特定される物性を各学習部の仮説力 それぞれ抽出する 着目物性抽出部と、各学習部から抽出された物性の分散を評価する分散評価部と、 評価された分散に基づいて、仮説の物性に対する真データを要求する対象となるぺ プチド配列を抽出する質問点抽出部と、要求された真データを受け付けて、抽出さ れたペプチド配列について真データに基づく物性を対応づける処理を行うデータ更 新部と、データ更新部で得られたペプチド配列と真データに基づく物性とを含む新た なデータを、データベースに蓄積するデータ制御部と、を含む。
[0046] このような構成により、ランダムリサンプリング部よりデータベース力 第 4の所定数 のデータが第 4の所定数よりは小さい数である第 2の所定数のデータずつランダムに リサンプルされて、各学習部に送られる。このリサンプルでは、各学習部ごとに異なつ たデータが供給される。各学習部では、供給されたデータを分析して一定の仮説、 すなわち第 1の所定数のアミノ酸力もなるペプチド配列と所定の物性とから、第 3の所 定数のペプチド配列について所定の物性を求めたデータセットが導出される。着目 配列設定部では、各学習部で導出された仮説同士を比較するための所定のぺプチ ド配列を設定して、着目物性抽出部では、この設定された所定のペプチド配列により 特定される物性を各学習部の仮説力 それぞれ抽出する。分散評価部では、各学習 部から抽出された物性の分散が評価され、質問点抽出部では、この評価された分散 に基づ!/、て、仮説の物性に対する真データを要求する対象となるペプチド配列が抽 出され、それぞれの仮説が比較される。データ更新部では、真データを受け付けて、 この真データを抽出されたペプチド配列に対応づけして、データ制御部に送る。さら に、データ制御部によって、このペプチド配列と真データに基づく物性とを含むデー タを追加してデータベースの内容が更新され、配列予測を支援するデータベースが 構築される。
[0047] 前記配列予測プログラムの一態様は、コンピュータ装置を、第 1の所定数のアミノ酸 力 なるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを 含むデータを格納するデータベースと、第 2の所定数のデータに基づいてペプチド 配列および物性から、第 3の所定数のペプチド配列にっ 、て求めてなる仮説を導出 する複数の学習部と、データベース力 第 4の所定数のデータを取り出して、各学習 部に第 2の所定数のデータずつランダムに供給するランダムリサンプリング部と、各学 習部で導出された仮説に含まれる所定のペプチド配列を設定する着目配列設定部 と、設定された所定のペプチド配列により特定される物性を各学習部の仮説力 それ ぞれ抽出する着目物性抽出部と、各学習部から抽出された物性の分散を評価する 分散評価部と、評価された分散に基づいて、仮説の物性に対する真データを要求す る対象となるペプチド配列を抽出する質問点抽出部と、要求された前記真データを 受け付けて、抽出されたペプチド配列にっ 、て真データに基づく物性を対応づける 処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真データに基 づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と、所定の タンパク質の全アミノ酸配列を受け付ける配列入力受付部と、配列入力受付部にて 受け付けた全アミノ酸配列力 予測の対象となるペプチド配列候補を抽出するととも に、抽出した当該ペプチド配列候補を学習部に送る配列候補抽出部と、各学習部で 得られた結果から、抽出したペプチド配列候補の物性を推定する物性推定部と、を 含む配列予測システムとして機能させるものである。
[0048] このような構成により、ランダムリサンプリング部よりデータベース力 第 4の所定数 のデータが第 4の所定数よりは小さい数である第 2の所定数のデータずつランダムに リサンプルされて、各学習部に送られる。このリサンプルでは、各学習部ごとに異なつ たデータが供給される。各学習部では、供給されたデータを分析して一定の仮説、 すなわち第 1の所定数のアミノ酸力もなるペプチド配列と所定の物性とから、第 3の所 定数のペプチド配列について所定の物性を求めたデータセットが導出される。着目 配列設定部では、各学習部で導出された仮説同士を比較するための所定のぺプチ ド配列を設定して、着目物性抽出部では、この設定された所定のペプチド配列により 特定される物性を各学習部の仮説力 それぞれ抽出する。分散評価部では、各学習 部から抽出された物性の分散が評価され、質問点抽出部では、この評価された分散 に基づ!/、て、仮説の物性に対する真データを要求する対象となるペプチド配列が抽 出され、それぞれの仮説が比較される。データ更新部では、真データを受け付けて、 この真データを抽出されたペプチド配列に対応づけして、データ制御部に送る。さら に、データ制御部によって、このペプチド配列と真データに基づく物性とを含むデー タを追加してデータベースの内容が更新される。一方で、配列入力受付部では、所 定のタンパク質の全アミノ酸配列を受け付け、この全アミノ酸配列から予測の対象と なるペプチド配列候補を抽出するとともに、このペプチド配列候補を学習部に送る。 物性推定部では、各学習部で得られた結果から、抽出したペプチド配列候補の物性 を推定する。以上のように、汎用コンピュータ装置が配列予測システムとして機能する ようになる。
前記配列予測支援プログラムの一態様は、コンピュータ装置を、第 1の所定数のァ ミノ酸力 なるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物 性とを含むデータを格納するデータベースと、第 2の所定数の前記データに基づい てペプチド配列および物性から、第 3の所定数のペプチド配列にっ 、て求めてなる 仮説を導出する複数の学習部と、データベース力 第 4の所定数のデータを取り出し て、各学習部に第 2の所定数のデータずつランダムに供給するランダムリサンプリン グ部と、各学習部で導出された仮説に含まれる所定のペプチド配列を設定する着目 配列設定部と、設定された所定のペプチド配列により特定される物性を各学習部の 仮説からそれぞれ抽出する着目物性抽出部と、各学習部カゝら抽出された物性の分 散を評価する分散評価部と、評価された分散に基づいて、仮説の物性に対する真デ ータを要求する対象となるペプチド配列を抽出する質問点抽出部と、要求された真 データを受け付けて、抽出されたペプチド配列について真データに基づく物性を対 応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真デ ータに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と 、を含む配列予測支援システムとして機能させるものである。
[0050] このような構成により、ランダムリサンプリング部よりデータベース力 第 4の所定数 のデータが第 4の所定数よりは小さい数である第 2の所定数のデータずつランダムに リサンプルされて、各学習部に送られる。このリサンプルでは、各学習部ごとに異なつ たデータが供給される。各学習部では、供給されたデータを分析して一定の仮説、 すなわち第 1の所定数のアミノ酸力もなるペプチド配列と所定の物性とから、第 3の所 定数のペプチド配列について所定の物性を求めたデータセットが導出される。着目 配列設定部では、各学習部で導出された仮説同士を比較するための所定のぺプチ ド配列を設定して、着目物性抽出部では、この設定された所定のペプチド配列により 特定される物性を各学習部の仮説力 それぞれ抽出する。分散評価部では、各学習 部から抽出された物性の分散が評価され、質問点抽出部では、この評価された分散 に基づ!/、て、仮説の物性に対する真データを要求する対象となるペプチド配列が抽 出され、それぞれの仮説が比較される。データ更新部では、真データを受け付けて、 この真データを抽出されたペプチド配列に対応づけして、データ制御部に送る。さら に、データ制御部によって、このペプチド配列と真データに基づく物性とを含むデー タを追加してデータベースの内容が更新され、配列予測を支援するデータベースが 構築される。以上のように、汎用コンピュータ装置が配列予測支援システムとして機 會するようになる。
[0051] また、前記配列予測システムの他の態様は、第 1の所定数のアミノ酸力もなるぺプ チド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを 格納するデータベースと、データベース力 第 4の所定数のデータをランダムに取り 出して、第 4の所定数のデータの中からランダムに送られる第 2の所定数のデータに 基づ 、てペプチド配列および物性から、第 3の所定数のペプチド配列につ!、て求め てなる仮説を導出する複数の仮説導出部と、各仮説導出部で導出された仮説に含ま れる所定のペプチド配列を設定し、この設定された所定のペプチド配列により特定さ れる物性を各仮説導出部の仮説からそれぞれ抽出し、この抽出された物性の分散を 評価し、評価された分散に基づいて、仮説の物性に対する真データを要求する対象 となるペプチド配列を抽出する質問点配列抽出部と、要求された真データを受け付 けて、抽出されたペプチド配列について真データに基づく物性を対応づける処理を 行うデータ更新部と、データ更新部で得られたペプチド配列と真データに基づく物性 とを含む新たなデータを、データベースに蓄積するデータ制御部と、所定のタンパク 質の全アミノ酸配列を受け付けて、この受け付けた前記全アミノ酸配列から予測の対 象となるペプチド配列候補を抽出するとともに、抽出した当該ペプチド配列候補を仮 説導出部に送って、出力された結果から、抽出したペプチド配列候補の物性を推定 する物性推定出力部と、を含む。
[0052] この配列予測システムにおいて、物性推定出力部にて推定された各ペプチド配列 候補の物性のうち、所定の条件を満たす物性を有するペプチド配列候補を抽出する 配列抽出部をさらに設けてもよい。
[0053] また、前記配列予測支援システムの他の態様は、第 1の所定数のアミノ酸力もなる ペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデ ータを格納するデータベースと、データベース力 第 4の所定数のデータをランダム に取り出して、第 4の所定数のデータの中からランダムに送られる第 2の所定数のデ ータに基づ 、てペプチド配列および物性から、第 3の所定数のペプチド配列にっ ヽ て求めてなる仮説を導出する複数の仮説導出部と、各仮説導出部で導出された仮 説に含まれる所定のペプチド配列を設定し、この設定された所定のペプチド配列に より特定される物性を各仮説導出部の仮説からそれぞれ抽出し、この抽出された物 性の分散を評価し、評価された分散に基づいて、仮説の物性に対する真データを要 求する対象となるペプチド配列を抽出する質問点配列抽出部と、要求された真デー タを受け付けて、抽出されたペプチド配列にっ 、て真データに基づく物性を対応づ ける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真データに 基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御部と、を含 む。
[0054] 前記配列予測プログラムの一態様は、コンピュータ装置を、第 1の所定数のアミノ酸 力 なるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物性とを 含むデータを格納するデータベースと、データベース力 第 4の所定数のデータをラ ンダムに取り出して、第 4の所定数のデータの中からランダムに送られる第 2の所定 数のデータに基づ 、てペプチド配列および物性から、第 3の所定数のペプチド配列 につ 1、て求めてなる仮説を導出する複数の仮説導出部と、各仮説導出部で導出さ れた仮説に含まれる所定のペプチド配列を設定し、この設定された所定のペプチド 配列により特定される物性を各仮説導出部の仮説からそれぞれ抽出し、この抽出さ れた物性の分散を評価し、評価された分散に基づいて、仮説の物性に対する真デー タを要求する対象となるペプチド配列を抽出する質問点配列抽出部と、要求された 真データを受け付けて、抽出されたペプチド配列について真データに基づく物性を 対応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と真 データに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制御 部と、所定のタンパク質の全アミノ酸配列を受け付けて、この受け付けた全アミノ酸配 列から予測の対象となるペプチド配列候補を抽出するとともに、抽出した当該べプチ ド配列候補を仮説導出部に送って、出力された結果から、抽出したペプチド配列候 補の物性を推定する物性推定出力部と、を含む配列予測システムとして機能させる ものである。
前記配列予測支援プログラムの一態様は、コンピュータ装置を、第 1の所定数のァ ミノ酸力 なるペプチド配列と、このペプチド配列の所定の生理活性の指標となる物 性とを含むデータを格納するデータベースと、データベース力 第 4の所定数のデー タをランダムに取り出して、第 4の所定数のデータの中力 ランダムに送られる第 2の 所定数のデータに基づ 、てペプチド配列および物性から、第 3の所定数のペプチド 配列について求めてなる仮説を導出する複数の仮説導出部と、各仮説導出部で導 出された仮説に含まれる所定のペプチド配列を設定し、この設定された所定のぺプ チド配列により特定される物性を各仮説導出部の仮説からそれぞれ抽出し、この抽 出された物性の分散を評価し、評価された分散に基づいて、仮説の物性に対する真 データを要求する対象となるペプチド配列を抽出する質問点配列抽出部と、要求さ れた真データを受け付けて、抽出されたペプチド配列につ 、て真データに基づく物 性を対応づける処理を行うデータ更新部と、データ更新部で得られたペプチド配列と 真データに基づく物性とを含む新たなデータを、データベースに蓄積するデータ制 御部と、を含む配列予測支援システムとして機能させるものである。
[0056] また、前記配列予測方法の一態様は、第 1の所定数のアミノ酸力もなるペプチド配 列と、このペプチド配列の所定の生理活性の指標となる物性とを含むデータを格納 するデータベースから、ランダムリサンプリング部により第 4の所定数のデータを取り 出して、複数の学習部のそれぞれに第 4の所定数のデータの中から第 2の所定数の データをランダムに供給するランダムリサンプリング段階と、各学習部において、第 2 の所定数のデータに基づ 、てペプチド配列および物性から、第 3の所定数のぺプチ ド配列について求めてなる仮説を導出する仮説導出段階と、各学習部で導出された 仮説に含まれる所定のペプチド配列を設定する着目配列設定段階と、設定された所 定のペプチド配列により特定される物性を各学習部の仮説力 それぞれ抽出する着 目物性抽出段階と、各学習部から抽出された物性の分散を評価する分散評価段階 と、評価された分散に基づいて、仮説の物性に対する真データを要求する対象とな るペプチド配列を抽出する質問点抽出段階と、要求された前記真データを受け付け て、抽出されたペプチド配列にっ 、て真データに基づく物性を対応づける処理を行 つて、得られたペプチド配列と真データに基づく物性とを含む新たな追加データを、 前記データベースに蓄積するデータ更新段階と、所定のタンパク質の全アミノ酸配 列を受け付けて、この受け付けた全アミノ酸配列力 予測の対象となるペプチド配列 候補を抽出するとともに、抽出した当該ペプチド配列候補を学習部に送る配列候補 抽出段階と、各学習部で得られた結果から、抽出した前記ペプチド配列候補の物性 を推定する物性推定段階と、を含む。
[0057] また、以下のような配列予測支援方法も本発明の態様に含まれる。すなわち、第 1 の所定数のアミノ酸力 なるペプチド配列と、このペプチド配列の所定の生理活性の 指標となる物性とを含むデータを格納するデータベースから、ランダムリサンプリング 部により第 4の所定数のデータを取り出して、複数の学習部のそれぞれに第 4の所定 数のデータの中から第 2の所定数のデータをランダムに供給するランダムリサンプリン グ段階と、各学習部において、第 2の所定数のデータに基づいてペプチド配列およ び物性から、第 3の所定数のペプチド配列について求めてなる仮説を導出する仮説 導出段階と、各学習部で導出された仮説に含まれる所定のペプチド配列を設定する 着目配列設定段階と、設定された所定のペプチド配列により特定される物性を各学 習部の仮説からそれぞれ抽出する着目物性抽出段階と、各学習部から抽出された 物性の分散を評価する分散評価段階と、評価された分散に基づいて、仮説の物性 に対する真データを要求する対象となるペプチド配列を抽出する質問点抽出段階と
、要求された真データを受け付けて、抽出されたペプチド配列について真データに 基づく物性を対応づける処理を行って、得られたペプチド配列と真データに基づく物 性とを含む新たな追加データを、データベースに蓄積するデータ更新段階と、を含 む配列予測支援方法である。
[0058] 本発明によれば、ある所定の物性を有する生体高分子配列のみを、実験によらな いで選出することが可能になる。
図面の簡単な説明
[0059] 上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実 施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
[0060] [図 1]本発明の第一の実施形態に係る配列予測システムの概要を示すブロック図で ある。
[図 2]記憶装置で蓄積されるデータセットの一例を示す図である。
[図 3]学習部にて算出される確率パラメータに基づいて集計される仮想ペプチド配列 の各並び位置における各アミノ酸の存在確率の一例を示す図である。
[図 4]学習部が出力する仮説の一例を示す図である。
[図 5]質問点抽出のためのデータの一例を模式的に示す図である。
[図 6]不要なペプチド配列を排除するように配列候補抽出部を構成した一例を示す。
[図 7]本発明の第二の実施形態に係る配列予測システムの概要を示すブロック図で ある。
[図 8]図 7の仮説比較部の機能を説明する機能ブロック図を示す。
[図 9]真データの要求をユーザにではなぐ外部のデータベースに行う場合を示す図 である。 [図 10]第一の実施形態に係る配列予測支援方法の動作について説明するフローチ ヤートである。
[図 11]配列予測支援システムにより構築されたデータベースあるいは既存のデータ ベースを用いた配列予測システムの動作を示すフローチャートである。
[図 12]第二の実施形態に係る配列予測支援方法の動作について説明するフローチ ヤートである。
[図 13]第二の実施形態に係る配列予測支援システムにより構築されたデータベース を用いた配列予測システムの動作を示すフローチャートである。
発明を実施するための最良の形態
[0061] 以下、本発明の実施の形態について、図面を用いて説明する。なお、すべての図 面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
[0062] 図 1は、本発明の第一の実施形態に係る配列予測システムの概要を示すブロック 図である。
この配列予測システムは、生体高分子の配列と、この配列の生体高分子が備える 属性値とを含む生体高分子属性を有するデータベースである記憶装置 126と、記憶 装置 126から N個のデータセットを選択する選択部としてのデータ制御部 128と、こ のデータセットから異なる複数のデータサブセットを生成する生成部 102と、それぞ れのデータサブセットに対して仮説を生成するとともに、前記データセットとは独立の 生体高分子配列からなる第 2のデータセットにそれぞれ仮説を適用して、第 2のデー タセットにかかる生体高分子配列の属性値を導出する学習部 104と、第 2のデータセ ット中の各生体高分子配列について属性値の分散を求めて、一定基準よりも分散が 大きい生体高分子配列を質問点として抽出する質問点抽出部 118と、この質問点に 対する属性値を受け付けて、受け付けた属性値を当該質問点にかかる生体高分子 配列と対応づけて、記憶装置 126に蓄積するデータ制御部 128と、所定の生体高分 子の全配列を受け付ける配列入力受付部 130と、配列入力受付部 130にて受け付 けた全配列から予測の対象となる生体高分子配列候補を抽出する配列候補抽出部 131と、配列入力受付後に記憶装置 126の全データセットから法則を生成するととも に、生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の 属性値を推定する属性値推定部としての学習部 104と、を含む。
[0063] 図 1において、記憶装置 126では、生体高分子配列としてのペプチド配列と、この ペプチド配列の属性値とを含むデータセットを蓄積するデータベースである。このデ ータセットは、例えば文献などにより明ら力となっている既知のデータ(「公知データ」 という)、あるいは後述するデータ制御部 128を通じてデータ受付部 122から送られる データにより構成される。
[0064] 図 2は、記憶装置 126で蓄積されるデータセットの一例を示す図である。
図 2に示したように、このデータセットは、所定数のアミノ酸力もなるペプチド配列と、 このペプチド配列の属性値、例えば所定の生理活性の指標となる物性、例えば免疫 誘導に密接に関連する抗原提示分子であるヒト白血球抗原 (HLA: human leukocyte antigen)複合体への結合定数 (-logKd)とを含む。また、ペプチド配列のアミノ酸の数 は、 HLAクラス I分子を対象とする場合には 8〜: L 1の固定された値、例えば 9であり、 また HLAクラス II分子を対象とする場合には 20以下の固定された値とすることができ る。
[0065] なお、本実施形態では、生体高分子配列として結合対象を抗原提示分子である H LAとするペプチドの配列の例に挙げて説明する力 他の生理活性を有する生体高 分子配列、例えばペプチドをリガンドとする Gタンパク質共役型受容体をターゲットと するペプチド配列であってもよ 、し、前述したような所定のペプチド配列をコードする 核酸 (DNAなど)の塩基配列などであってもよい。また、所定の生理活性を有する生 体高分子としては、ペプチド配列の他に、所定数のヌクレオチドからなり、所定の塩 基配列を有する DNA、 RNAなども挙げられる。
[0066] また、生体高分子配列の属性値としては、所定の物質に対する結合能の指標とな る物性が挙げられ、この物性としては、例えば結合ターゲットに対する結合定数の他 に、結合に関係する物性、例えば疎水性度 (または親水性度)などであってもよい。
[0067] 図 1に戻り、データ制御部 128は、 N個のデータセットを選択する選択部として機能 し、選択された N個のデータセットは生成部 102に送られる。また、データ制御部 128 では、後述するように、データ受付部 122より送られる追加のデータセットを記憶装置 126に送ることにより、記憶装置 126のデータ内容の更新が行われる。 [0068] また、データ制御部 128では、後述する配列入力受付部 130より所定の生体高分 子配の全配列の入力があったときには、記憶装置 126に蓄積されたデータセットから 全データセットが取り出され、属性値推定部としての学習部 104に送られる。
[0069] 生成部 102は、データ制御部 128より送られる N個のデータセットから、ランダムに サンプリングして、任意の m個(N>m)のデータからなるデータサブセットを生成して 、各データサブセットを学習部 104に送る。
[0070] ここでは、例えばデータ制御部 128より 100個のデータセットが送られたときに、例 えば 100個のうち 50個のデータセットをランダムにサンプリングして、 50個のデータ セットからなる一のデータサブセットが生成され、 100個のうち一のデータサブセットと は別の 50個のデータセットをサンプリングして、二のデータサブセットを生成する。こ のようにして、複数、例えば 50組のデータサブセットを生成する。なお、各データサブ セットは、同一の個数のデータセットであってもよいし、それぞれ異なる個数のデータ セットであってもよい。
[0071] 学習部 104では、生成部 102よりデータサブセットが送られたときは、それぞれのデ ータサブセットに対して後述する仮説が生成され、データ制御部 128からデータセッ トが送られたときは、後述する候補ペプチド配列に対する属性値、例えば図 2の結合 定数を推定するための法則が生成される。
[0072] なお、この学習部 104は、複数の演算部を備えて、各演算部にて複数のデータサ ブセットに関する処理をパラレルに行うように構成されていてもよいし、一つの演算部 を備えて、データサブセットごとに処理をシリアルに行うように構成されて 、てもよ 、。
[0073] いずれの場合においても、例えば特許第 3094860号公報に記載の隠れマルコフ モデル学習システムの手順にしたがって演算処理がなされる。
[0074] 生成部 102より、例えば 50個のデータサブセットが送られた場合は、各データサブ セットに対して確率計算を行い、この計算結果がパラメータ記憶装置 140に蓄積され る。このパラメータ記憶装置 140に蓄積される確率パラメータは、所定数、例えば 9個 のアミノ酸力 なるペプチド配列に関する仮説の場合、各アミノ酸の並び順における 各並び位置での各アミノ酸の存在確率と、各並び位置の前後の遷移確率とからなる ものである。 [0075] ここで、各並び位置での各アミノ酸の存在確率および各並び位置の前後の遷移確 率により、例えば図 3に示したような仮想ペプチド配列の各並び位置における各ァミノ 酸の存在確率が仮説として算出される。図 3においては、上段に 1番目または 9番目 のアミノ酸としてメチォニン(M)が 29%の確率で、イソロイシン (I)が 16%の確率で、 ノリン (V)が 12%の確率で入る結果が示されている。残りの 43%は、残りのアミノ酸 の存在確率の合計であると算出される。図 3の下段では、左から順に右に向力つて 8 個のアミノ酸の並び位置が示される。これによれば、一番左のトレォニン (T)が 1番目 である確率は 1%、 2番目である確率は 22%となっている。このようにして、右に向か つて存在確率が示され、上位 1位〜 3位までのアミノ酸が各並び位置の上側に示され ている。すなわち、パラメータ記憶装置 140には、このようなパラメータ力も構成される 仮説を集計するのに使用される各確率パラメータが蓄積されるようになっている。
[0076] また、ペプチド配列の確率計算と結合定数の関係は、非特許文献 1で示されて!/、る 力 その概略は以下の通りである。
特定のペプチド Oに対する結合定数 Kaの対数値 logKaは、以下の式で示される。 LKa = L C
O/H
または、
LKa = L - (L — LKa,)
O/H O/H'
ここで、 L は、与えられた HMM (Hidden Markov Model)におけるペプチド配列 O
O/H
の存在確率を示す。
また、 logKdすなわち式中の Cは、 C=L —LKa'で与えられる。
Ο/Η'
ここで、 LKa'は、計算に用いた全てのペプチドの logKaの平均値を示す。 H'は、存在確率が均一な場合の reference HMMを示す。
[0077] また、学習部 104では、データ制御部 128で取り出されるデータセットとは独立の生 体高分子配列からなる第 2のデータセットにそれぞれ前記仮説を適用して、この第 2 のデータセットにかかる生体高分子配列の属性値が導出され、質問点抽出部 118に 送られる。この第 2のデータセットには、例えば 10万個のペプチド配列が含まれ、この 第 2のデータセットに対して、複数のデータサブセット由来の仮説がそれぞれ適用さ れて、 10万個のペプチド配列および各配列の属性値力もなる第 2のデータセットが、 データサブセットの数だけ生成される。なお、第 2のデータセットにかかるペプチド配 列は、生成部 102からデータサブセットが送られるたびに設定される変動的なセット であってもよいし、このシステムを利用する者により任意に入力または選択されるセッ トであってもよい。また、所定のデータテーブルに含まれるものであってもよい。
[0078] 一方、データ制御部 128からデータセットが送られた場合は、属性値推定部として 作用する。すなわち、前記と同様の演算が行われ得られる確率パラメータに基づい て法則が生成される。仮説を生成する場合とは異なり、一通りの法則が生成される。 後述する配列候補抽出部 131から送られる各候補ペプチド配列に対して、当該法則 が適用されて得られた推定値が得られ、この推定値が該当する候補ペプチド配列の 属性値として関連づけられて、ペプチドデータベース 138に送られる。
[0079] 質問点抽出部 118では、第 2のデータセットの各々のペプチド配列について属性 値の分散を求める演算処理がなされる。
[0080] 図 4は、この演算処理の結果の一例を示す。
図 4において、 oriとは学習部 104において計算の出発点となる属性値の仮スコアと しての結合定数を示し、ここでは全ペプチド配列について初期値として 0. 0000が当 てられる。また、 meanとは第 2のデータセットの各々の特定のペプチド配列ごとに導出 された予測スコアの平均値を表し、同行の maxは同予測スコアの最大を、同行の min は同予測スコアの最小を、同行の sdは同予測スコアの標準偏差を、また同行の varは 同予測スコアの分散値を表す。
[0081] 続いて、質問点抽出部 118では、この分散の大きい方力も順に取り出す。図 5は、 データセット中での順位付けを模式的に示す。また、このデータセットのうち、一定の 範囲、例えば分散の大きい方から上位 50番目までにある生体高分子配列としてのぺ プチド配列が質問点として抽出され、この抽出されたペプチド配列がデータ要求部 1 20に送られる。あるいは、分散が所定の値よりも大きいペプチド配列力 質問点とし て抽出されるようにしてもよ!、。
[0082] データ要求部 120では、質問点抽出部 118にて抽出された質問点に係るペプチド 配列について、真の属性値を示すデータ、例えば実験により求める測定データや外 部データベースに蓄積されている文献等のデータを要求する。データ受付部 122で は、データ要求部 120による要求にしたがいユーザにより入力された測定データ、ま たは後述するように所定のデータベースなどにより得られる文献等データを受け付け て、これらのデータを真の属性値を示すデータとしてデータ制御部 128に送る。
[0083] データ制御部 128では、データ受付部 122より送られるデータと、前記質問点とな つて 、たペプチド配列とを対応づけて、このペプチド配列とこのデータにかかる属性 値とを含む追加のデータセットが生成され、記憶装置 126に送られる。前述したように 、この追加のデータセットは、記憶装置 126にて蓄積されて、次回以降の仮説導出の 際のデータの候補となる。
[0084] 配列入力受付部 130では、予測が所望されるペプチド配列の候補を特定するため の所定のタンパク質の全アミノ酸配列に関する情報、例えばェピトープの同定を所望 する標的タンパク質、例えばウィルス抗原を形成するタンパク質の全アミノ酸配列の 入力を受け付けて、受け付けたデータは配列候補抽出部 131に送られる。この入力 は、所定の入力装置によりユーザインタフェースを通じてなされてもよぐまたユーザ インタフェースにネットワークを接続して、このネットワークを介してなされてもよ 、。
[0085] ここで、ウィルス抗原以外の標的タンパク質としては、感染症に関与する細菌、バタ テリアなど、例えば結核菌、 0— 157菌、サルモネラ菌、緑膿菌、ピロリ菌、黄色ブド ゥ菌、マラリア菌、ボッリアヌス菌など;アレルギー疾患、例えば I型糖尿病、シユーグ レン症候群、花粉症、アトピー、喘息、リウマチ、膠原病、自己免疫疾患、臓器移植の 拒絶反応抑制などにかかわるタンパク質;がん免疫にかかわるタンパク質、例えばが ん抗原;アルッノ、イマ一症にかかわるタンパク質、例えば原因タンパク質であるべ一 タアミロイドなどにも適用可能である。
[0086] 配列候補抽出部 131では、配列入力受付部 130にて受け付けた情報である所定 のタンパク質の全アミノ酸配列に基づいて予測の対象となるペプチド配列の候補を 抽出し、抽出されたペプチド配列候補は学習部 104に送られる。
[0087] また、配列候補抽出部 131で抽出されたペプチド配列では、現実的に使用できな い配列が含まれることがある。このような不要なペプチド配列を、人の手を借りないで 自動的に排除するようにしてもょ 、。
[0088] 図 6は、不要なペプチド配列を排除するように配列候補抽出部 131を構成した一例 を示す。
配列候補抽出部 131では、配列入力受付部 130から送られる所定のタンパク質の 全アミノ酸配列力 P個のモノマー単位として、例えば 8〜11、特に 9個のアミノ酸から なるペプチド取出単位にて、ペプチド配列候補を取り出す候補取出部 150と、取り出 されたペプチド配列候補の中力 所定の条件を満たす予測が不要なペプチド配列を 排除する不要配列排除部 152とが設けられている。
[0089] 候補取出部 150では、配列入力受付部 130で受け付けた全アミノ酸配列の先頭か ら、前記ペプチド取出単位にてペプチド配列を抽出し、以降のペプチド配列候補を、 q個のモノマー単位ずつ、例えば 1つのアミノ酸ずつ下流側にずらしながら前記ぺプ チド取出単位ごとに抽出するようになっている。
[0090] また、不要配列排除部 152では、取り出されたペプチド配列候補の中から所定の 条件を満たす予測が不要なペプチド配列、例えば不要なペプチド配列に関するデ ータを蓄積する不要配列データベース 154を参照して特定されるペプチド配列を不 要なものとして、学習部 104に送る前に予測候補力も排除するようになっており、残り のペプチド配列候補が学習部 104に送られるようになつている。ここで、不要なぺプ チド配列は、例えば水溶性が低 、ペプチド配列などが挙げられる。
[0091] 例えば、配列入力受付部 130で受け付けたェピトープの同定を所望するウィルス抗 原、例えば C型肝炎ウィルスの CTLェピトープの同定を行う場合に、 C型肝炎ウィル スの抗原タンパク質の全アミノ酸配列力 ェピトープとして作用するペプチド配列の 候補が抽出されるようになっている。例えば、 C型肝炎ウィルスの抗原は、特定のタン パク質として免疫誘導を行うヒト白血球抗原(HLA: human leukocyte antigen)クラス I 分子に提示された 8〜11のアミノ酸より形成され、 CTLがこの部分を認識して、 C型 肝炎ウィルスを障害することが知られている。したがって、 C型肝炎ウィルス抗原の全 アミノ酸配列の先頭から取り出す P個のモノマー取出単位として 8〜: L 1アミノ酸単位 で取り出し、続いて先頭より q個のモノマー単位、例えば 1アミノ酸ずらした二番目の アミノ酸から出発して前述のように 8〜: L 1アミノ酸の単位で取り出す、というように、先 頭のアミノ酸を 1アミノ酸ずつ下流側にずらしながらペプチド取出単位ごとに取り出さ れ、この取り出されたペプチド配列を属性値の推定が所望される候補ペプチド配列と して抽出される。
[0092] また、例えば、クラス II分子を認識するェピトープの同定を行うことも可能であり、こ の場合には、 p個のモノマー単位を 20以下、すなわちペプチド取出単位が 20以下の アミノ酸になるようにして、同様にペプチド配列を抽出して、この取り出されたペプチド 配列が属性値の推定が所望される候補ペプチド配列となる。
[0093] このような構成により、受け付けたタンパク質の全アミノ酸配列力も候補ペプチド配 列を抽出して、この抽出されたペプチド配列のうち、不要なペプチド配列を物性の予 測前に取り出しておくことで、学習部 104における無用な推定演算の必要がなくなる
[0094] なお、不要配列データベース 154は、記憶装置 126の一部であってもよい。この場 合、図 2に示したようなデータの一部に、例えば疎水性度のような物性に関するデー タち追カロしてちょい。
[0095] また、不要配列データベース 154に蓄積するデータには、他社のライセンスが必要 なペプチド配列に関する情報を含ませて、このようなペプチド配列を排除するように 構成することにより、例えば新薬の開発に必要なペプチド配列候補の抽出という目的 に、本実施形態を用いることができるようになる。
[0096] ペプチドデータベース 138では、学習部 104にて推定された属性値、例えば HLA クラス I分子への結合定数と、この結合定数を有するペプチド配列との組合せ力 な るデータセットが蓄積される。
[0097] 条件入力受付部 134では、前記ペプチドデータベース 138から所定の物性を有す るペプチド配列を抽出するためのキーワードとなる属性値、例えば結合定数の入力 が受け付けられる。この入力は、配列入力受付部 130と同様に、所定の入力装置に よりユーザインタフェースを通じてなされてもよぐまたユーザインタフェースにネットヮ ークを接続して、このネットワークを介してなされてもょ 、。
[0098] ここで、抽出するペプチド配列の用途に応じて要求される条件 (属性値)の入力を 受け付ける。例えば、 C型肝炎の治療剤としてペプチド配列を用いる場合には、所定 のタンパク質である HLAクラス I分子に対する結合定数が 6より上のものをキーワード として受け付けるようにする。 [0099] 配列抽出部 136では、条件入力受付部 134で受け付けた条件を満たすペプチド 配列をペプチドデータベース 138から抽出して、抽出されたペプチド配列を予測結 果として出力する。
[0100] ここで、一度予測されたペプチド配列を用いて、当該ペプチド配列に 1〜数個のァ ミノ酸置換を行って得られる新規のペプチド配列の物性を調べた 、ときには、配列入 力受付部 130にて、その旨の入力、例えば結合定数が推定されたペプチド配列と、 そのペプチド配列のうち、いくつのアミノ酸を置換するのかを示す置換数の情報とを 入力することで、学習部 104にて推定段階の演算を行って、この演算結果に基づい て新規のペプチド配列の属性値の推定を行うことができる。
[0101] なお、学習部 104に出力させる仮説として、仮説導出用の第 2のデータセットにか 力るペプチド配列とこれに対する属性値、すなわち結合定数の値とするかわりに、他 の所定のタンパク質、例えば標的タンパク質、例えばウィルス抗原のアミノ酸配列由 来の 9アミノ酸の一覧を出力させることでェピトープの直接の予測計算とすることがで きる。また、属性値を導出するペプチド配列の数として 10万個という個数に限らず、 例えば 9アミノ酸力 なるペプチド配列の属性値について予測するに際して、全ぺプ チド配列組合せである 209個につ 、て出力させることで、ペプチド配列の全組合せに つ 、ての予測ができるようになる。
[0102] 図 7は、本発明の第二の実施形態に係る配列予測システムの概要を示すブロック 図である。
この配列予測システムは、第 1の所定数のアミノ酸力 なるペプチド配列と、このべ プチド配列のペプチドの所定の生理活性の指標となる物性とを含むデータを格納す るデータベースである記憶装置 126と、第 2の所定数の前記データに基づいて前記 ペプチド配列および前記物性から、第 3の所定数のペプチド配列にっ 、て求めてな る仮説を導出する複数の学習部 112,および,記憶装置 126から第 4の所定数のデ ータを取り出して、前記各学習部 112に前記第 2の所定数のデータずつランダムに 供給するランダムリサンプリング部 110より構成される仮説導出部と、各学習部 112で 導出された前記仮説に含まれる所定のペプチド配列を設定する着目配列設定部 16 0 (図 8)、設定された前記所定のペプチド配列により特定される物性を各学習部 112 の前記仮説からそれぞれ抽出する着目物性抽出部 162 (図 8)、および、各学習部 1 12から抽出された前記物性の分散を評価する分散評価部 164 (図 8)力もなる仮説 比較部 114,および,評価された前記分散に基づいて、前記仮説の物性に対する真 データを要求する対象となるペプチド配列を抽出する質問点抽出部 118より構成さ れる質問点配列抽出部と、要求された前記真データを受け付けて、抽出された前記 ペプチド配列について前記真データに基づく物性を対応づける処理を行うデータ更 新部を構成するデータ要求部 120,データ受付部 122,および,データ追加部 124 と、前記データ更新部で得られた前記ペプチド配列と前記真データに基づく物性と を含む新たなデータを、記憶装置 126に蓄積するデータ制御部 128と、所定のタン パク質の全アミノ酸配列を受け付ける配列入力受付部 130,および,配列入力受付 部 130にて受け付けた前記全アミノ酸配列力も予測の対象となるペプチド配列候補 を抽出するとともに、抽出した当該ペプチド配列候補を学習部 112に送る配列候補 抽出部 131,および,各学習部 112で得られた結果から、抽出した前記ペプチド配 列候補の物性を推定する物性推定部 132より構成される物性推定出力部と、を含む
[0103] 図 7において、記憶装置 126では、第 1の所定数のアミノ酸力 なるペプチド配列と 、このペプチド配列の所定の生理活性の指標となる物性とを含む、文献などにより明 らかとなつて 、る既知のデータ(「公知データ」 t\、う)力もなるデータセットを蓄積する データベースである。また、後述するように、データ制御部 128を通じて送られる追カロ データにより更新することができる。
[0104] 図 2は、記憶装置 126で蓄積されるデータセットの一例を示す図である。
図 2に示したように、このデータセットは、公知データおよび真のデータとしての追カロ データにより示される、第 1の所定数のアミノ酸力 なるペプチド配列と、このペプチド 配列の所定の生理活性の指標となる物性、例えば免疫誘導に密接に関連する抗原 提示分子であるヒト白血球抗原(HLA: human leukocyte antigen)複合体への結合定 数 (-logKd)とを含む。また、第 1の所定数であるアミノ酸の数は、 HLAクラス I分子を 対象とする場合には 8〜: L 1の固定された値、例えば 9であり、また HLAクラス II分子 を対象とする場合には 20以下の固定された値である。 [0105] なお、本実施形態では、求めるペプチド配列として結合対象を抗原提示分子であ る HLAとするペプチドの配列の例を示した力 他に生理活性物質、例えばペプチド をリガンドとする Gタンパク質共役型受容体をターゲットとするペプチド配列であって もよ 、し、前述したような所定のペプチド配列をコードする核酸 (DNAなど)の塩基配 列などであってもよい。
[0106] また、所定の物質に対する結合能の指標となる物性としては、結合ターゲットに対 する結合定数の他に、結合に関係する物性、例えば疎水性度 (または親水性度)な どであってもよい。
[0107] 図 7に戻り、データ制御部 128では、後述するランダムリサンプリング部 110によりリ サンプルされたデータに基づいて各学習部 112にて導出され、必要に応じて後述す るデータ追加部 124にて追加される真データを含む追加データを、記憶装置 126に 送り、記憶装置 126に蓄積されるデータセットを更新する。
[0108] ランダムリサンプル部 110は、データ制御部 128から送られる第 4の所定数のデー タの中から第 2の所定数のデータをランダムにリサンプルし、データを各学習部 112 に供給する。
[0109] このようにデータ制御部 128とランダムリサンプリング部 110とが連動して、各学習 部 112に同数の異なったデータ (サンプル)がランダムに供給されるようになる。例え ば、記憶装置 126から第 4の所定数としての 100のデータを取り出して、各学習部 11 2に第 2の所定数としての 50のデータを供給する場合に、全学習部 112に同じデー タを送るのではなくて、 100から 50のデータをランダムにリサンプリングして取り出し、 取り出したデータをひとつの学習部 112に送り、また別の 50のデータをランダムにリ サンプリングして取り出し、取り出したデータを他のひとつの学習部 112に送り、最終 的には全学習部に異なった 50のデータが供給される。これにより、各学習部 112か ら同一の仮説が導出されないようにすることができる。このようにして、多くても数百程 度の実測値 (文献値)があれば、本システムによる予測を行うことができるようになる。
[0110] 学習部 112では、学習段階と、推定段階とでその目的に応じた処理を行うようにな つている。入力されるデータがデータ制御部 128からランダムリランプリング部 110を 通じて送られるものであるときには、データ制御部 128より学習段階の演算を行うよう 制御信号 contを各学習部 112に送るようになっており、学習部 112では、この制御信 号 contが入力されると学習段階の演算を行う。一方で、後述する配列入力受付部 13 0から送られるデータに基づいたデータが送られるときは、推定段階の演算を行う。
[0111] 学習段階および推定段階のいずれにおいても、例えば特許第 3094860号公報に 記載の隠れマルコフモデル学習システムの手順にしたがって、入力されるデータを 用いて、複数の学習部、例えば 50の学習部にて確率計算を行い、この計算結果を パラメータ記憶装置 140に蓄積する。このパラメータ記憶装置 140に蓄積される確率 ノ ラメータは、第 1の所定数、例えば 9個のアミノ酸力もなるペプチド配列の並び順に おける各並び位置での各アミノ酸の存在確率と、各並び位置の前後の遷移確率とか らなるちのである。
[0112] そこで学習段階では、パラメータ記憶装置 140で蓄積された確率パラメータに応じ て集計して、前述した図 3に示したような仮想ペプチド配列の各並び位置における各 アミノ酸の存在確率が得られるようになって 、る。
[0113] そこで、予め設定された所定の個数の組合せのデータを得るために、第 3の所定数 、例えば 10万個のペプチド配列について、図 3に示したような集計結果に基づき、結 合定数に相当する予測スコアを算出して仮説データが得られる。この仮説データは、 仮説比較部 114に送られる。また、記憶装置 126にて仮説データを用いて、記憶装 置 126のデータセットを更新する場合には、この仮説データをデータ制御部 128に 送るようにしてもよい。なお、この第 3の所定数のペプチド配列セットは、学習段階の 計算が始まるたびに設定される変動的なセットであってもよ 、し、このシステムを利用 する者により任意に入力または選択されるセットであってもよい。
[0114] 一方、推定段階における演算は、学習段階での演算とほぼ同じように行われ、各学 習部 112で得られた各ペプチド配列に対応する結合定数のスコア力 仮説比較部 1 14ではなくて、後述する物性推定部 132に送られる。
[0115] また、パラメータ記憶装置 140に蓄積される確率パラメータは、学習段階では、デ ータがランダムリサンプリングされるたびに上書きされる形になっており、推定段階で は最後に蓄積されて残って ヽる確率パラメータを用いて、スコアが算出されるようにな つている。 [0116] ここで、図 8は、仮説比較部 114の機能を説明する機能ブロック図を示す。
仮説比較部 114は、着目配列設定部 160と、着目物性抽出部 162と、分散評価部 164とから構成される。
[0117] 着目配列設定部 160では、各学習部 112から導出される仮説がどの程度収束して V、るかを判別するための比較対象となるペプチド配列を設定する。この設定されるべ プチド配列は、各仮説を構成するデータのペプチド配列として挙げられて 、るものの ひとつである。着目物性抽出部 162では、着目配列設定部 160で設定されたべプチ ド配列により特定される物性を仮説データの中から抽出する。分散評価部 164では、 着目物性抽出部 162で抽出された物性の分散を算出して、例えば前述した図 4に示 したようなデータセットが得られる。得られた分散は、質問点抽出部 118に送られる。
[0118] 質問点抽出部 118では、仮説比較部 114で得られた分散の大きい方力も順に取り 出す。図 5は、データセット中での順位付けを模式的に示す。また、このデータセット のうち、分散の大きい方力も第 7の所定数の範囲である上位 50番目までが質問点と して抽出され、この抽出されたペプチド配列がデータ要求部 120に送られる。あるい は、分散が所定の値よりも大きい分散を与えたペプチド配列が、真データを要求する 対象となるペプチド配列、すなわち質問点として抽出されるようにしてもよい。
[0119] データ要求部 120では、質問点抽出部 118にて抽出された質問点に係るペプチド 配列について、真データ、例えば実験により求める測定データや外部データベース に蓄積されている文献等データを要求し、データ受付部 122では、データ要求部 12 0による要求にしたがったユーザによる入力にしたがった測定データ、後述するように 所定のデータベースなどにより得られる文献等データを受け付けて、これらのデータ を真データとしてデータ追加部 124に送る。
[0120] データ追加部 124では、データ受付部 122より送られる真データを一度取り込んで 、前記質問点となっていたペプチド配列と対応づけ、このペプチド配列とこの物性と を含む追加データを生成する処理を行 、、この追加データがデータ制御部 128に送 られる。
[0121] 配列入力受付部 130では、予測が所望されるペプチド配列の候補を特定するため の所定のタンパク質の全アミノ酸配列に関する情報、例えばェピトープの同定を所望 する標的タンパク質、例えばウィルス抗原を形成するタンパク質の全アミノ酸配列の 入力を受け付けて、受け付けたデータは配列候補抽出部 131に送られる。この入力 は、所定の入力装置によりユーザインタフェースを通じてなされてもよぐまたユーザ インタフェースにネットワークを接続して、このネットワークを介してなされてもよ 、。
[0122] ここで、前述したようなウィルス抗原以外の標的タンパク質を配列入力受付の対象と してちよい。
[0123] 配列候補抽出部 131では、配列入力受付部 130にて受け付けた情報である所定 のタンパク質の全アミノ酸配列に基づいて予測の対象となるペプチド配列の候補を 抽出し、抽出されたペプチド配列候補は各学習部 112に送られる。
[0124] また、配列候補抽出部 131で抽出されたペプチド配列では、現実的に使用できな い配列が含まれることがある。前述したように、配列候補抽出部 131を構成して、この ような不要なペプチド配列を、人の手を借りな 、で自動的に排除するようにしてもょ 、
[0125] 物性推定部 132では、配列候補抽出部 131で抽出され、必要に応じて不要なぺプ チド配列が排除された後のペプチド配列候補にしたがって、学習部 112の推定段階 での演算により得られた結果にしたがって、各ペプチド配列の物性を推定する。この 演算結果は、例えば前述した図 5に示したようなデータセットで得られ、物性推定部 1 32では、各ペプチド配列について例えば平均値をもって、当該ペプチド配列の、所 定のタンパク質、例えば標的タンパク質への結合定数であると推定して、この推定が 全てのペプチド配列候補につ 、て行われて、ペプチド配列と推定物性との組合せが ペプチドデータベース 138に送られる。
[0126] ペプチドデータベース 138では、物性推定部 132にて推定された物性、例えば HL Aクラス I分子への結合定数と、この物性を有するペプチド配列との組合せ力 なるデ ータセットが得られる。
[0127] 条件入力受付部 134では、前記ペプチドデータベース 138から所定の物性を有す るペプチド配列を抽出するためのキーワードとなる物性、例えば結合定数の入力が 受け付けられる。この入力は、配列入力受付部 130と同様に、所定の入力装置により ユーザインタフェースを通じてなされてもよぐまたユーザインタフェースにネットヮー クを接続して、このネットワークを介してなされてちょい。
[0128] ここで、抽出するペプチド配列の用途に応じて要求される条件 (物性)の入力を受 け付ける。例えば、 C型肝炎の治療剤としてペプチド配列を用いる場合には、所定の タンパク質である HLAクラス I分子に対する結合定数が 6より上のものをキーワードと して受け付けるようにする。
[0129] 配列抽出部 136では、条件入力受付部 134で受け付けた条件を満たすペプチド 配列をペプチドデータベース 138から抽出して、抽出されたペプチド配列を予測結 果として出力する。
[0130] ここで、一度予測されたペプチド配列を用いて、当該ペプチド配列に 1〜数個のァ ミノ酸置換を行って得られる新規のペプチド配列の物性を調べた 、ときには、配列入 力受付部 130にて、その旨の入力、例えば結合定数が推定されたペプチド配列と、 そのペプチド配列のうち、いくつのアミノ酸を置換するのかの第 8の所定数の情報とを 入力することで、各学習部 112にて推定段階の演算を行って、この演算結果に基づ V、て物性推定部 132にお 、て新規のペプチド配列の物性の推定を行うことができる
[0131] 図 9は、真データの要求をユーザにではなぐ外部のデータベースに対して行う場 合を示す図である。ここでは、図 7に示した配列予測システムに適用した例を示すが 、図 1に示した配列予測システムに適用することもできる。
図 9に示したように、データ要求部 120の要求にしたがってネットワーク 160を介し てデータベース制御部 162にペプチド配列が送られて、データベース制御部 162で はこのペプチド配列の実測値を実測値データベース 164を参照して検索し、この実 測値が得られたら、文献等データとしてネットワーク 160を通じてデータ受付部 122 に送る。このようにすることで、人の手を借りないで自動的に真データを求めることが でさるよう〖こなる。
[0132] 図 10は、本発明に係る配列予測支援方法の実施形態に係る配列予測支援システ ムに動作について説明するフローチャートである。なお、本実施形態の配列予測支 援システムは、図 1に示した第一の実施形態に力かる配列予測システムに含まれて おり、以下の説明では図 1の中の符号を適宜引用する。 [0133] この配列予測支援方法は、生体高分子の配列と、この配列の生体高分子が備える 属性値とを有するデータベースから、 N個のデータセットを選択し、さらに当該データ セットから異なる複数のデータサブセットを生成して学習部に供給するデータ供給段 階であるステップ S1と、学習部において、それぞれのデータサブセットに対して仮説 を生成するとともに、前記データセットとは独立の生体高分子配列力もなる第 2のデ ータセットにそれぞれ仮説を適用して、第 2のデータセットにかかる生体高分子配列 の属性値を導出する仮説導出段階であるステップ S2と、第 2のデータセット中の各生 体高分子配列について属性値の分散を算出する分散算出段階であるステップ S3と 、算出された分散のうち、一定基準よりも分散が大きい生体高分子配列を質問点とし て抽出する質問点抽出段階であるステップ S4と、この質問点に対する属性値を受け 付けて、受け付けた属性値を当該質問点にかかる生体高分子配列と対応づけて、デ ータベースに蓄積するデータ更新段階であるステップ S5と、を含む。
[0134] ステップ S1では、データ制御部 128により、データベースとしての記憶装置から生 体高分子の配列と、この配列の生体高分子が備える属性値とからなるデータセット N 個が選択され、さらに生成部 102にてこれら N個のデータセットから異なる複数のデ ータサブセットが生成され、学習部 104に供給される。
[0135] ステップ S2では、前述したように、学習部 104にてそれぞれのデータサブセットに 対して生成された仮説を、第 2のデータセットにかかる生体高分子配列 (ペプチド配 列)に適用して、各ペプチド配列の属性値が導出される。
[0136] ステップ S3では、前述したように、質問点抽出部 118にて、各生体高分子配列の 属性値の分散が算出される。ステップ S4では、引き続き、質問点抽出部 118にて、 算出された分散のうち、一定基準よりも分散が大きい生体高分子配列が質問点とし て抽出される。
[0137] ステップ S5では、抽出された質問点に対する属性値をデータ受付部 122にて受け 付けて、データ制御部 128ではこの受け付けた属性値を当該質問点にかかる生体高 分子配列と対応づけて、記憶装置 126に送り蓄積し、記憶装置 126の内容が更新さ れる。以上により、配列予測を支援するデータベースが構築される。
[0138] また、図示しないが、ステップ S1〜S5を、例えばステップ S3で得られる分散の最大 値が所定値よりも小さくなるまで、適宜繰り返してもよぐこの場合、配列予測支援デ ータベースの内容の信頼性がより向上することになる。
[0139] 図 11は、図 1に示した第一の実施形態に力かる配列予測支援システムにより構築 されたデータベース、あるいは既存のデータベースを用いた配列予測システムの動 作を示すフローチャートである。
[0140] 図 11によれば、ステップ S110では、配列入力受付部 130にて所定の生体高分子 、例えばタンパク質の全配列を受け付けて、配列候補抽出部 118によりこの受け付け た全配列力 予測の対象となる生体高分子配列、この場合ペプチド配列候補が抽出 され、学習部 104に送られる。ステップ S111では、配列入力受付後に、データ制御 部 128にて記憶装置 128の全データセットが取り出されて、学習部 104に送られる。 学習部 104では、この全データセットから法則を生成するとともに、前記の生体高分 子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補の属性値が推定 される。
[0141] このようにして、構築されたデータベースあるいは既存のデータベースより、特定の 生体高分子配列に対する属性値の推定を行うことが可能になる。
[0142] さらに、ステップ S112を設けて、学習部 104にて推定された属性値をペプチドデー タベース 138に送り、該当するペプチド配列と関連づけて蓄積することで、ペプチド 配列と属性値とでなるデータセットのデータベース化が可能になる。このデータセット は、ペプチド配列に限らず、 DNA、 RNAなどの生体高分子配列のいずれについて も属性値と併せてデータベース化が可能になる。
[0143] さらに、ステップ S 113〜ステップ S 114を設けて、ステップ S 113では、条件入力受 付部 134にて、ペプチドデータベース 138から所定の属性値を有するペプチド配列 を抽出するためのキーワード、例えば属性値が特定のタンパク質に対する結合定数 よりも大きいなどの条件の入力を受け付ける。
[0144] ステップ S114では、配列抽出部 136にて、条件入力受付部 134で受け付けた条 件を満たすペプチド配列をペプチドデータベース 138から抽出して、抽出されたぺプ チド配列を予測結果として出力する。
[0145] これにより、所定の属性値を有するペプチド配列力 所定の物質に結合するェピト ープを示すことが期待されるものとして抽出することができる。
[0146] 図 12は、図 7に示した第二の実施形態に力かる配列予測システムに含まれる配列 予測支援システムの動作にっ 、て説明するフローチャートである。以下の説明では 図 7の中の符号を適宜引用する。
[0147] ステップ S10では、データ制御部 128により記憶装置 126からデータが取り出され、 ランダムリサンプリング 110を通じて各学習部 112に異なったデータ力 ランダムにリ サンプリングされる。
[0148] ステップ S20では、各学習部 112にて、供給されたデータを分析して一定の仮説、 すなわちペプチド配列と所定の物性とから、第 3の所定数である 10万個のペプチド 配列について求めたスコアを含むデータセットが導出される。
[0149] ステップ S30では、着目配列設定部 160にて、各学習部 112で導出された仮説同 士を比較するための所定のペプチド配列が設定される。ステップ S40では、着目物 性抽出部 162にて、この設定された所定のペプチド配列および物性を各学習部 112 の仮説からそれぞれ抽出する。ステップ S50では、分散評価部 164にて、各学習部 1 12から抽出された物性の分散が評価される。
[0150] ステップ S60では、質問点抽出部 118にて、仮説比較部 114の分散評価部 164に て評価された分散の大き 、方力 順に取り出される。このようにして得られるデータセ ットを、図 5に模式的に示す。
[0151] ステップ S70では、ステップ S60で得られたデータセットのうち、前述のように上位 5 0番目までが質問点として抽出され、この抽出されたペプチド配列が、仮説の物性に 対する真データを要求する対象となるペプチド配列として抽出される。
[0152] ステップ S80では、データ要求部 120にて真データを要求し、データ受付部 122に てこの要求された真データを受け付けて、データ追加部 124にてステップ S70で抽 出された配列について仮説の物性を受け付けた真データで定義して追加データが 得られる。
[0153] ステップ S90では、データ追加部 124で得られた追加データ力 データ制御部 128 を通じて記憶装置 126に送られて、記憶装置 126のデータが更新される。
[0154] ステップ S100では、次の学習を行うか否かが判別される。この判別結果が YES、 すなわち次の学習が行われる場合、ステップ S10に戻り、ランダムリサンプリング 110 により各学習部 112に学習用のデータがランダムに供給されるようになる。また、判別 結果力NO、すなわち次の学習が行われない場合、配列予測支援動作は終了する。
[0155] なお、この学習回数は、予め所定回数だけと決めておいてもよいし、終了ごとに次 の学習を行うか否かを判断してもよい。
[0156] 以上により、配列予測を支援するデータベースが構築される。
なお、ステップ S60および S70において、仮説データの分散の大きい順にペプチド 配列を並び替えて、上位から所定の個数、例えば 50個までを質問点として抽出する 力わりに、例えば評価された分散が所定値以上であるペプチド配列を質問点として 抽出されるようにしてちょい。
[0157] 図 13は、第二の実施形態に力かる配列予測支援システムにより構築されたデータ ベースを用いた配列予測システムの動作を示すフローチャートである。
[0158] ステップ S200では、配列入力受付部 130にて、所定の物質例えば抗原提示分子 に対する標的タンパク質であるウィルス抗原の全アミノ酸配列を受け付け、ステップ S 210では、受け付けた全アミノ酸配列から予測の対象となるペプチド配列候補を抽出 し、学習部 112にて推定段階の演算を行って、その演算結果から物性推定部にて、 ペプチド配列候補のウィルス抗原に対する結合定数が推定され、ステップ S220では 、ペプチドデータベース 138にこの全てのペプチド配列候補と所定の物性とのデータ セットが生成され、蓄積される。
[0159] ステップ S230では、条件入力受付部 134にて、ペプチドデータベース 138から所 定の物性を有するペプチド配列を抽出するためのキーワードとなる物性、例えば所 定のタンパク質に対する結合定数の入力を受け付ける。
[0160] ステップ S240では、配列抽出部 136にて、条件入力受付部 134で受け付けた条 件を満たすペプチド配列をペプチドデータベース 138から抽出して、抽出されたぺプ チド配列を予測結果として出力する。
[0161] これにより、所定の物性を有するペプチド配列が、所定の物質に結合するェピトー プを示すことが期待されるものとして抽出することができる。
[0162] なお、複数の学習部 112に出力させる仮説として、第 3の所定数のペプチド配列と これに対する結合定数の値とするかわりに、他の所定のタンパク質、例えば標的タン ノ ク質、例えばウィルス抗原のアミノ酸配列由来の 9アミノ酸の一覧を出力させること でェピトープの予測計算とすることができ、また第 3の所定数として 10万個という個数 に限らず、第 5の所定数を 9としたときの全ペプチド配列の 209個について出力させる ことで全ペプチド配列にっ 、ての予測ができるようになる。
[0163] また、本実施形態では、特定の標的タンパク質のェピトープを構成するペプチド配 列を予測する例を説明したが、最初に学習部 112に入力する物性として免疫誘導能 、例えば標的に結合することで誘導される T細胞の増殖数などを生理活性を示す指 標として、このような免疫誘導能を有するペプチド配列を予測することができる。
[0164] また、ペプチドをリガンドとすることが想定されるものの、具体的なペプチドリガンドが 同定されていない Gタンパク質共役型受容体(orphan G-protein coupled receptor : o rphan-GPCR)のリガンド最適化を目的とするアツセィ系予測、具体的にはペプチド投 与に伴う培養細胞のカルシウム濃度上昇や細胞内 cAMP (細胞内生体分子)上昇な どの数値を生理活性を示す指標として、このアツセィ系に最適なペプチド配列を予測 することちでさる。
[0165] また、生理活性ペプチド、あるいはペプチド力も構成される生理活性ホルモンの血 中濃度上昇を生理活性の指標として、このペプチド配列を予測することもできる。
[0166] また、 DNA配列予測に本実施形態を適用することが可能である。例えば、遺伝子 が発現する場合、 DNA上の遺伝子配列の上流に遺伝子発現を制御する転写因子 が結合する必要があり、この転写因子の結合部位 DNA塩基配列には一定のモチー フあるいは法則があることが知られている。そこで、特定の遺伝子発現に関与するプ 口モータに結合する転写因子の配列の候補を予測することで、特定の遺伝子発現系 において遺伝子発現と転写因子結合部位の DNA配列パターンとの間に法則を見 つけること可能になり、遺伝子発現の制御や転写因子結合の制御なども可能になる
[0167] RNAi配列予測にも、本実施形態を適用することが可能である。例えば、特定の 10 〜20塩基程度の二本鎖の小分子 RNA塩基配列(siRNA)力 補助的な因子の共 存下で配列相同性を持った mRNAと結合して切断することにより、その上流'下流の 遺伝子産物生成を阻害することが知られている。そこで、特定の遺伝子発現に関与 する mRNAに結合する siRNAの配列の候補を予測することで、特定の生理活性と R NAi配列との関連性を予測することが可能になり、近年医薬品候補物質としても研究 開発が盛んな RNAiの配列デザインも可能になる。
[0168] RNAァプタマ一配列予測にも、本実施形態を適用することが可能である。 RNAァ プタマーとは、通常 20塩基以上の RNA鎖であり、配列内部の相補的塩基間で結合 して特定の安定した立体構造を有し、この構造特性を利用して標的タンパク質などの 特定の機能部位に結合し、その機能を制御する物質である。そこで、標的タンパク質 の機能部位に結合する構造を有する RNA塩基配列の候補を予測することで、特定 の生理活性と RNAアブタマ一配列との関連性を予測することが可能になり、近年医 薬候補物質としても研究開発が盛んな RNAアブタマ一の配列デザインも可能になる
[0169] 本発明は、汎用のコンピュータ装置を、以上の配列予測システムあるいは配列予測 支援システムとして機能させるプログラムも提供する。
[0170] 以上のように、本実施形態によれば、ある所定の物性を有するペプチド配列または 核酸の塩基配列などの生体高分子配列のみを、実験によらな 、で選出することが可 會 になる。
[0171] 以上の配列予測システムまたは配列予測支援システムの各構成の動作をプロダラ ムで表現することも可能であり、このようなプログラムを用いることで、汎用コンピュータ 装置を、前記配列予測システムまたは配列予測支援システムとして動作させることが 可會 になる。
[0172] また、質問点抽出部 118にて、学習部 112における次の学習段階での演算候補か ら不要なペプチド配列を排除するために、例えば図 7に示したような不要配列排除部 および必要に応じて不要配列データベースのような構成を設けてもよい。このように することで、不要なペプチド配列について真データを要求することがなくなる。

Claims

請求の範囲
[1] 生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子 属性を有するデータベースと、
前記データベース力 N個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、 それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットと は独立の生体高分子配列からなる第 2のデータセットにそれぞれ仮説を適用して、第
2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第 2のデータセット中の各生体高分子配列について属性値の分散を求めて、 一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部 と
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にか 力る生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、 所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列力 予測の対象となる生体高分子配 列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに 、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補 の属性値を推定する属性値推定部と、
を含む配列予測システム。
[2] 請求項 1に記載の配列予測システムにお 、て、
前記学習部は、配列入力受付後にあっては、属性値推定部として機能することを 特徴とする配列予測システム。
[3] 請求項 1に記載の配列予測システムにお 、て、
前記配列候補抽出部では、前記配列入力受付部で受け付けた全配列の先頭から 、 p個のモノマー取出単位で生体高分子配列を抽出し、以降の生体高分子配列候補 を q個のモノマー単位ずつ下流側にずらしながら p個のモノマー取出単位ごとに抽出 することを特徴とする配列予測システム。 [4] 請求項 1に記載の配列予測システムにお 、て、
前記配列候補抽出部では、抽出された生体高分子配列候補の中から所定の条件 を満たす予測が不要な生体高分子配列を、前記属性値推定部に送る前に排除する ことを特徴とする配列予測システム。
[5] 請求項 1に記載の配列予測システムにお 、て、
前記質問点抽出部では、前記分散が大きい方から一定の範囲にある生体高分子 配列が質問点として抽出されることを特徴とする配列予測システム。
[6] 請求項 1に記載の配列予測システムにお 、て、
前記質問点抽出部では、前記分散が所定の値よりも大きい生体高分子配列が質 問点として抽出されることを特徴とする配列予測システム。
[7] 請求項 1〜6のいずれかに記載の配列予測システムにおいて、
前記属性値推定部にて推定された各生体高分子配列候補の属性値のうち、所定 の条件を満たす属性値を有する生体高分子配列候補を抽出する配列抽出部をさら に設けた配列予測システム。
[8] 請求項 1〜7のいずれかに記載の配列予測システムにおいて、
前記生体高分子配列が、ペプチドのアミノ酸配列、核酸塩基配列のいずれかであ ることを特徴とする配列予測システム。
[9] 請求項 8に記載の配列予測システムにお 、て、
前記属性値は、ペプチドまたは核酸と所定の生体高分子との結合定数であることを 特徴とする配列予測システム。
[10] 生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子 属性を有するデータベースと、
所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列力 予測の対象となる生体高分子配 列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに 、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補 の属性値を推定する属性値推定部と、 を含む配列予測システム。
[11] 請求項 1に記載の配列予測システムにより得られる属性値と、生体高分子配列とを 有する配列予測データベース。
[12] 生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子 属性を有するデータベースと、
前記データベース力 N個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、 それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットと は独立の生体高分子配列からなる第 2のデータセットにそれぞれ仮説を適用して、第
2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第 2のデータセット中の各生体高分子配列について属性値の分散を求めて、 一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部 と
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にか 力る生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、 を含む配列予測支援システム。
[13] 生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子 属性を有するデータベースと、
前記データベース力 N個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、 それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットと は独立の生体高分子配列からなる第 2のデータセットにそれぞれ仮説を適用して、第
2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、 を含む配列予測支援システム。
[14] 第 1の所定数のアミノ酸力 なるペプチド配列と、このペプチド配列の所定の生理 活性の指標となる物性とを含むデータを格納するデータベースと、
第 2の所定数の前記データに基づ 、て前記ペプチド配列および前記物性から、第
3の所定数のペプチド配列について求めてなる仮説を導出する複数の学習部と、 前記データベース力 第 4の所定数のデータを取り出して、前記各学習部に前記 第 2の所定数のデータずつランダムに供給するランダムリサンプリング部と、 前記各学習部で導出された前記仮説に含まれる所定のペプチド配列を設定する 着目配列設定部と、
設定された前記所定のペプチド配列により特定される物性を前記各学習部の前記 仮説からそれぞれ抽出する着目物性抽出部と、
前記各学習部から抽出された前記物性の分散を評価する分散評価部と、 評価された前記分散に基づいて、前記仮説の物性に対する真データを要求する対 象となるペプチド配列を抽出する質問点抽出部と、
要求された前記真データを受け付けて、抽出された前記ペプチド配列にっ 、て前 記真データに基づく物性を対応づける処理を行うデータ更新部と、
前記データ更新部で得られた前記ペプチド配列と前記真データに基づく物性とを 含む新たなデータを、前記データベースに蓄積するデータ制御部と、
所定のタンパク質の全アミノ酸配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた前記全アミノ酸配列力 予測の対象となるぺ プチド配列候補を抽出するとともに、抽出した当該ペプチド配列候補を前記学習部 に送る配列候補抽出部と、
前記各学習部で得られた結果から、前記抽出した前記ペプチド配列候補の物性を 推定する物性推定部と、を含む配列予測システム。
第 1の所定数のアミノ酸力 なるペプチド配列と、このペプチド配列の所定の生理 活性の指標となる物性とを含むデータを格納するデータベースと、
前記データベース力 第 4の所定数のデータをランダムに取り出して、第 4の所定 数のデータの中力 ランダムに送られる第 2の所定数のデータに基づいて前記ぺプ チド配列および前記物性から、第 3の所定数のペプチド配列にっ 、て求めてなる仮 説を導出する複数の仮説導出部と、
前記各仮説導出部で導出された前記仮説に含まれる所定のペプチド配列を設定 し、この設定された前記所定のペプチド配列により特定される物性を前記各仮説導 出部の前記仮説力 それぞれ抽出し、この抽出された前記物性の分散を評価し、評 価された前記分散に基づいて、前記仮説の物性に対する真データを要求する対象と なるペプチド配列を抽出する質問点配列抽出部と、
要求された前記真データを受け付けて、抽出された前記ペプチド配列にっ 、て前 記真データに基づく物性を対応づける処理を行うデータ更新部と、
前記データ更新部で得られた前記ペプチド配列と前記真データに基づく物性とを 含む新たなデータを、前記データベースに蓄積するデータ制御部と、
所定のタンパク質の全アミノ酸配列を受け付けて、この受け付けた前記全アミノ酸 配列から予測の対象となるペプチド配列候補を抽出するとともに、抽出した当該ぺプ チド配列候補を前記仮説導出部に送って、出力された結果から、前記抽出した前記 ペプチド配列候補の物性を推定する物性推定出力部と、を含む配列予測システム。 コンピュータ装置を、
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子 属性を有するデータベースと、
前記データベース力 N個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、 それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットと は独立の生体高分子配列からなる第 2のデータセットにそれぞれ仮説を適用して、第
2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第 2のデータセット中の各生体高分子配列について属性値の分散を求めて、 一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部 と
前記質問点に対する属性値を受け付けて、受け付けた属性値を前記質問点にか かる生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、 所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列力 予測の対象となる生体高分子配 列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに 、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補 の属性値を推定する属性値推定部と、を含む配列予測システムとして機能させる配 列予測プログラム。
[17] コンピュータ装置を、
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子 属性を有するデータベースと、
所定の生体高分子の全配列を受け付ける配列入力受付部と、
前記配列入力受付部にて受け付けた全配列力 予測の対象となる生体高分子配 列候補を抽出する配列候補抽出部と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに 、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補 の属性値を推定する属性値推定部と、を含む配列予測システムとして機能させる配 列予測プログラム。
[18] コンピュータ装置を、
生体高分子の配列と、この配列の生体高分子が備える属性値とを含む生体高分子 属性を有するデータベースと、
前記データベース力 N個のデータセットを選択する選択部と、
前記データセットから異なる複数のデータサブセットを生成する生成部と、 それぞれのデータサブセットに対して仮説を生成するとともに、前記データセットと は独立の生体高分子配列からなる第 2のデータセットにそれぞれ仮説を適用して、第
2のデータセットにかかる生体高分子配列の属性値を導出する学習部と、
前記第 2のデータセット中の各生体高分子配列について属性値の分散を求めて、 一定基準よりも分散が大きい生体高分子配列を質問点として抽出する質問点抽出部 と
前記質問点に対する属性値を受け付けて、受け付けた属性値を前記質問点にか 力る生体高分子配列と対応づけて、前記データベースに蓄積するデータ制御部と、 を含む配列予測支援システムとして機能させる配列予測支援プログラム。
[19] 生体高分子の配列と、この配列の生体高分子が備える属性値とを有するデータべ ースから、 N個のデータセットを選択し、さらに当該データセットから異なる複数のデ ータサブセットを生成して学習部に供給するデータ供給段階と、
前記学習部において、それぞれのデータサブセットに対して仮説を生成するととも に、前記データセットとは独立の生体高分子配列力もなる第 2のデータセットにそれ ぞれ仮説を適用して、第 2のデータセットにかかる生体高分子配列の属性値を導出 する仮説導出段階と、
前記第 2のデータセット中の各生体高分子配列について属性値の分散を算出する 分散算出段階と、
算出された分散のうち、一定基準よりも分散が大きい生体高分子配列を質問点とし て抽出する質問点抽出段階と、
前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にか 力る生体高分子配列と対応づけて、前記データベースに蓄積するデータ更新段階と 所定の生体高分子の全配列を受け付けて、この受け付けた全配列力 予測の対象 となる生体高分子配列候補を抽出する配列候補抽出段階と、
配列入力受付後に前記データベースの全データセットから法則を生成するとともに 、前記生体高分子配列候補にそれぞれ法則を適用して、当該生体高分子配列候補 の属性値を推定する属性値推定段階と、を含む配列予測方法。
生体高分子の配列と、この配列の生体高分子が備える属性値とを有するデータべ ースから、 N個のデータセットを選択し、さらに当該データセットから異なる複数のデ ータサブセットを生成して学習部に供給するデータ供給段階と、
前記学習部において、それぞれのデータサブセットに対して仮説を生成するととも に、前記データセットとは独立の生体高分子配列力もなる第 2のデータセットにそれ ぞれ仮説を適用して、第 2のデータセットにかかる生体高分子配列の属性値を導出 する仮説導出段階と、
前記第 2のデータセット中の各生体高分子配列について属性値の分散を算出する 分散算出段階と、
算出された分散のうち、一定基準よりも分散が大きい生体高分子配列を質問点とし て抽出する質問点抽出段階と、 前記質問点に対する属性値を受け付けて、受け付けた属性値を当該質問点にか 力る生体高分子配列と対応づけて、前記データベースに蓄積するデータ更新段階と 、を含む配列予測支援方法。
PCT/JP2005/012542 2004-07-07 2005-07-07 配列予測システム WO2006004182A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006528959A JPWO2006004182A1 (ja) 2004-07-07 2005-07-07 配列予測システム
US11/571,822 US20090144209A1 (en) 2004-07-07 2005-07-07 Sequence prediction system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-201116 2004-07-07
JP2004201116 2004-07-07

Publications (2)

Publication Number Publication Date
WO2006004182A1 true WO2006004182A1 (ja) 2006-01-12
WO2006004182A9 WO2006004182A9 (ja) 2006-03-09

Family

ID=35782982

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/012542 WO2006004182A1 (ja) 2004-07-07 2005-07-07 配列予測システム

Country Status (3)

Country Link
US (1) US20090144209A1 (ja)
JP (1) JPWO2006004182A1 (ja)
WO (1) WO2006004182A1 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007094137A1 (ja) 2006-02-17 2007-08-23 Nec Corporation 細胞傷害性t細胞の誘導方法、細胞傷害性t細胞の誘導剤、およびそれを用いた医薬組成物およびワクチン
WO2008047876A1 (fr) * 2006-10-18 2008-04-24 Nec Soft, Ltd. Procédé permettant d'identifier une séquence nucléotidique et procédé permettant d'obtenir une structure secondaire de molécule d'acide nucléique, appareil permettant d'identifier une séquence nucléotidique et appareil permettant d'obtenir une structure secondaire de molécule d'acide nucléique, et programme permettant d'ide
WO2009066462A1 (ja) 2007-11-20 2009-05-28 Nec Corporation 細胞傷害性t細胞の誘導方法、細胞傷害性t細胞の誘導剤、およびそれを用いた医薬組成物およびワクチン
JP2010115177A (ja) * 2008-11-14 2010-05-27 Nec Soft Ltd 分解耐性を有するrnaアプタマー分子の修飾ヌクレオチド配列の選択方法
JP2010519904A (ja) * 2007-02-28 2010-06-10 アメリカ合衆国 ブラキュリポリペプチドおよび使用方法
JP2012515402A (ja) * 2009-01-14 2012-07-05 ガタカ,エルエルシー ウイルスデータを管理するための統合デスクトップソフトウェア
JP5262709B2 (ja) * 2006-03-15 2013-08-14 日本電気株式会社 分子構造予測システム、方法及びプログラム
EP3925968A2 (en) 2014-10-07 2021-12-22 Cytlimic Inc. Hsp70-derived peptide, pharmaceutical composition for treating or preventing cancer using same, immunity inducer, and method for producing antigen-presenting cell
US11618770B2 (en) 2015-03-09 2023-04-04 Nec Corporation MUC1-derived peptide, and pharmaceutical composition for treatment or prevention of cancer, immunity-inducing agent and method for manufacturing antigen presenting cell using same

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012005898A2 (en) * 2010-06-15 2012-01-12 Alnylam Pharmaceuticals, Inc. Chinese hamster ovary (cho) cell transcriptome, corresponding sirnas and uses thereof
US9609074B2 (en) * 2014-06-18 2017-03-28 Adobe Systems Incorporated Performing predictive analysis on usage analytics
JP7259596B2 (ja) * 2019-07-01 2023-04-18 富士通株式会社 予測プログラム、予測方法および予測装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ASOGAWA M. ET AL: "Nodo Gakushuho o Riyo shita Soyaku Screening. (Drug Screening Using Active Learning)", NEC TECHNICAL JOURNAL., vol. 56, no. 10, 25 November 2003 (2003-11-25), pages 28 - 32, XP002998982 *
MIYAGAWA T. ET AL: "Nodo Gakushuho o Riyo shita Peptide Vaccine Kaihatsu. (Peptide Vaccine Development with Application of "Active Learning Methods")", NEC TECHNICAL JOURNAL., vol. 56, no. 10, 25 November 2003 (2003-11-25), pages 33 - 37, XP002998981 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2491940A3 (en) * 2006-02-17 2012-11-28 Nec Corporation Method for inducing cytotoxic T-cells, cytotoxic T-cell inducer, and pharmaceutical composition and vaccine employing same
WO2007094137A1 (ja) 2006-02-17 2007-08-23 Nec Corporation 細胞傷害性t細胞の誘導方法、細胞傷害性t細胞の誘導剤、およびそれを用いた医薬組成物およびワクチン
EP2491940A2 (en) 2006-02-17 2012-08-29 Nec Corporation Method for inducing cytotoxic T-cells, cytotoxic T-cell inducer, and pharmaceutical composition and vaccine employing same
JP5262709B2 (ja) * 2006-03-15 2013-08-14 日本電気株式会社 分子構造予測システム、方法及びプログラム
WO2008047876A1 (fr) * 2006-10-18 2008-04-24 Nec Soft, Ltd. Procédé permettant d'identifier une séquence nucléotidique et procédé permettant d'obtenir une structure secondaire de molécule d'acide nucléique, appareil permettant d'identifier une séquence nucléotidique et appareil permettant d'obtenir une structure secondaire de molécule d'acide nucléique, et programme permettant d'ide
JP2008102675A (ja) * 2006-10-18 2008-05-01 Nec Soft Ltd 塩基配列の同定方法及び核酸分子の二次構造取得方法、並びにこれらを実行する装置及びプログラム
US9311447B2 (en) 2006-10-18 2016-04-12 Nec Solution Innovators, Ltd. Method for identifying nucleotide sequence, method for acquiring secondary structure of nucleic acid molecule, apparatus for identifying nucleotide sequence, apparatus for acquiring secondary structure of nucleic acid molecule, program for identifying nucleotide sequence, and program for acquiring secondary structure of nucleic acid molecule
US8200441B2 (en) 2006-10-18 2012-06-12 Nec Soft, Ltd. Method for identifying nucleotide sequence, method for acquiring secondary structure of nucleic acid molecule, apparatus for identifying nucleotide sequence, apparatus for acquiring secondary structure of nucleic acid molecule, program for identifying nucleotide sequence, and program for acquiring secondary structure of nucleic acid molecule
JP2010519904A (ja) * 2007-02-28 2010-06-10 アメリカ合衆国 ブラキュリポリペプチドおよび使用方法
WO2009066462A1 (ja) 2007-11-20 2009-05-28 Nec Corporation 細胞傷害性t細胞の誘導方法、細胞傷害性t細胞の誘導剤、およびそれを用いた医薬組成物およびワクチン
EP2216041A4 (en) * 2007-11-20 2012-10-24 Nec Corp METHOD FOR INDUCING CYTOTOXIC LYMPHOCYTE T, CYTOTOXIC LYMPHOCYTE T INDUCER, AND PHARMACEUTICAL COMPOSITION AND VACCINE COMPRISING EACH INDUCER
JP2010115177A (ja) * 2008-11-14 2010-05-27 Nec Soft Ltd 分解耐性を有するrnaアプタマー分子の修飾ヌクレオチド配列の選択方法
JP2012515402A (ja) * 2009-01-14 2012-07-05 ガタカ,エルエルシー ウイルスデータを管理するための統合デスクトップソフトウェア
EP3925968A2 (en) 2014-10-07 2021-12-22 Cytlimic Inc. Hsp70-derived peptide, pharmaceutical composition for treating or preventing cancer using same, immunity inducer, and method for producing antigen-presenting cell
US11618770B2 (en) 2015-03-09 2023-04-04 Nec Corporation MUC1-derived peptide, and pharmaceutical composition for treatment or prevention of cancer, immunity-inducing agent and method for manufacturing antigen presenting cell using same

Also Published As

Publication number Publication date
JPWO2006004182A1 (ja) 2008-04-24
WO2006004182A9 (ja) 2006-03-09
US20090144209A1 (en) 2009-06-04

Similar Documents

Publication Publication Date Title
WO2006004182A1 (ja) 配列予測システム
Jain et al. Prediction modelling of COVID using machine learning methods from B-cell dataset
Li et al. DeepImmuno: deep learning-empowered prediction and generation of immunogenic peptides for T-cell immunity
RU2015110326A (ru) Система и способ клинической поддержки
US20220130541A1 (en) Disease-gene prioritization method and system
Yang et al. Prediction of aptamer–protein interacting pairs based on sparse autoencoder feature extraction and an ensemble classifier
Vanunu et al. A propagation-based algorithm for inferring gene-disease associations
CN110738650B (zh) 一种传染病感染识别方法、终端设备及存储介质
KR20220099504A (ko) 친화도 예측 방법 및 모델의 트레이닝 방법, 장치, 전자 기기 및 기록 매체
US20240170097A1 (en) Method and system for optimal vaccine design
CN103473416A (zh) 蛋白质相互作用的模型建立方法和装置
Xu et al. NetBCE: an interpretable deep neural network for accurate prediction of linear B-cell epitopes
Oladipo et al. Immunoinformatics design of multi-epitope peptide for the diagnosis of Schistosoma haematobium infection
CN113345581B (zh) 一种基于集成学习的脑卒中溶栓后出血概率预测方法
Yerneni et al. IAS: Interaction specific GO term associations for predicting Protein-Protein Interaction Networks
Barrio et al. EVALLER: a web server for in silico assessment of potential protein allergenicity
Li et al. ACNNT3: attention-CNN framework for prediction of sequence-based bacterial type III secreted effectors
JP2019101654A (ja) 健康管理支援装置、方法およびプログラム
JP5773406B2 (ja) Gpiアンカー型タンパク質の判定装置、判定方法及び判定プログラム
Zhang et al. Optimally-connected hidden markov models for predicting MHC-binding peptides
CN100428254C (zh) 交叉反应抗原计算机辅助筛选的方法
Ullah et al. Estimating a ranked list of human hereditary diseases for clinical phenotypes by using weighted bipartite network
Singh et al. Prediction and analysis of paralogous proteins in Trichomonas vaginalis genome
CN114388123A (zh) 智能辅诊方法、装置、设备及存储介质
CN109256215B (zh) 一种基于自回避随机游走的疾病关联miRNA预测方法及系统

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

COP Corrected version of pamphlet

Free format text: PAGES 1/10 AND 3/10, DRAWINGS, REPLACED BY NEW PAGES 1/10 AND 3/10; DUE TO LATE TRANSMITTAL BY THE RECEIVING OFFICE

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006528959

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

122 Ep: pct application non-entry in european phase
WWE Wipo information: entry into national phase

Ref document number: 11571822

Country of ref document: US