WO2006013925A1 - 同位体比によるペプチドを構成するアミノ酸配列の検定 - Google Patents

同位体比によるペプチドを構成するアミノ酸配列の検定 Download PDF

Info

Publication number
WO2006013925A1
WO2006013925A1 PCT/JP2005/014303 JP2005014303W WO2006013925A1 WO 2006013925 A1 WO2006013925 A1 WO 2006013925A1 JP 2005014303 W JP2005014303 W JP 2005014303W WO 2006013925 A1 WO2006013925 A1 WO 2006013925A1
Authority
WO
WIPO (PCT)
Prior art keywords
amino acid
peptide
acid sequence
estimated
value
Prior art date
Application number
PCT/JP2005/014303
Other languages
English (en)
French (fr)
Inventor
Yasushi Ishihama
Takatoshi Kawai
Original Assignee
Eisai R & D Management Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eisai R & D Management Co., Ltd. filed Critical Eisai R & D Management Co., Ltd.
Priority to US11/659,113 priority Critical patent/US20090012714A1/en
Priority to JP2006531544A priority patent/JP4614960B2/ja
Priority to EP05768470A priority patent/EP1775581A4/en
Publication of WO2006013925A1 publication Critical patent/WO2006013925A1/ja

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Definitions

  • the present invention relates to an assay method for evaluating the validity of an amino acid sequence in which the mass spectrometric power of a peptide is also estimated, and more specifically, the theoretical value of the peptide isotope ratio and the measurement of the peptide isotope ratio.
  • the present invention relates to a test method for evaluating the validity of an estimated amino acid sequence by comparing the values, a test apparatus, a program for executing the method, and a recording medium storing the program.
  • This database search method is roughly divided into two methods.
  • One is a peptide mass fingerprinting method (PMF method, for example, see Non-Patent Document 1).
  • PMF method peptide mass fingerprinting method
  • MS mass of the peptide group
  • the protein in the database is processed in silico in the same way. Proteins are identified by searching for the degree of agreement between the data and theoretical data.
  • the problem with this method is that a certain number of peptides are required to distinguish the true protein from the pseudo-hit protein group.
  • the PMF method is generally difficult to apply in the case of a mixture, and high accuracy is required for the measured peptide mass in order to increase the specificity of the search.
  • the PMF method has a problem that it cannot basically cope with post-translational modifications that change the peptide mass.
  • Another method is a method using a tandem mass spectrum.
  • Peptides introduced into MS are fragmented by collisional dissociation inside the MS, and the resulting vector (MSMS spectrum, tandem mass spectrum, fragment spectrum, or CI (D spectrum) force Since partial information on the amino acid sequence of a peptide can be obtained, identification is performed by searching information that also obtains protein force in a database (for example, see Non-Patent Documents 2 to 4).
  • this method only one peptide has sufficient search specificity, so it is suitable for mixture measurements and exhaustive analysis.
  • Non-Patent Document 1 M. Mann, P. Hojrup, P. Roepstorif, Biol Mass Spectrom 2 2 (1993) 338.
  • Non-Patent Document 2 J.K.Eng, A.L.McCormack, I. Yates, John R., Journal of the American Society for Mass Spectrometry 5 (1994) 976.
  • Non-Patent Document 3 M. Mann, M. Wilm, Anal Chem 66 (1994) 4390.
  • Non-Patent Document 4 D.N. Perkins, D.J. Pappin, D.M. Creasy, J.S. Cottrell, Electrophoresis 20 (1999) 3551.
  • the present invention tests whether the amino acid sequence in the candidate list output from the identification engine is correct when determining and identifying the amino acid sequence of a peptide using MS. Therefore, it is an object of the present invention to obtain additional information from the MS.
  • Means for solving the problem [0009]
  • the present inventors focused on the peptide isotope ratio.
  • the isotope ratio of the elements constituting the peptide is universally constant on the earth. From the amino acid sequence output from the identification engine, the composition ratio of the elements constituting the peptide can be calculated, and the composition specific power of the element can be calculated based on the isotope ratio of each element. If the calculated isotope ratio was consistent with the isotope ratio measured by MS, it was considered that the output amino acid sequence was evaluated as correct.
  • the amino acid sequence estimated by searching a peptide database based on peptide mass information and / or peptide modification information obtained by peptide mass spectrometry (1) calculating a theoretical value of peptide isotope ratio from the estimated amino acid sequence and / or peptide modification information, and (2) mass information of the peptide.
  • a method for assaying a deduced amino acid sequence is based on peptide mass information and / or peptide modification information obtained by peptide mass spectrometry.
  • the method further includes the step of selecting one or a plurality of amino acid sequences from the estimated amino acid sequence based on a parameter value reflecting the above.
  • an amino acid sequence having the parameter equal to or greater than a predetermined value is selected from the estimated amino acid sequence.
  • the apparatus includes a mass spectrometer and a computer having a calculation unit, and is based on peptide mass information and / or peptide modification information obtained by the mass spectrometer.
  • An apparatus for testing an amino acid sequence estimated by searching a database related to peptides wherein the arithmetic unit receives the mass information of the peptide and / or the modification information of the peptide, and (a) A calculation means for calculating a theoretical value of the peptide isotope ratio from the estimated amino acid sequence and / or peptide modification information; and (b) measuring a measured value of the peptide isotope ratio from the mass information of the peptide. And (c) comparing the theoretical value and the measured value, and from the difference between the theoretical value and the measured value, There is provided an assay device comprising: an evaluation unit that evaluates the validity of the amino acid sequence estimated by the calculation unit.
  • the computing unit further comprises a judging means for judging whether or not the estimated amino acid sequence is correct. Or a calculation means for calculating a parameter value reflecting the validity of the estimated amino acid sequence, and selecting one or a plurality of amino acid sequences from the estimated amino acid sequence based on the parameter To do.
  • the selection also selects an amino acid sequence having the parameter equal to or greater than a predetermined value as the estimated amino acid sequence power.
  • the amino acid estimated by searching a peptide database in a computer that receives peptide mass information and / or peptide modification information obtained by peptide mass spectrometry (I) a step of inputting mass information and / or peptide modification information of the peptide into a calculation unit provided in a computer; and (ii) the calculation unit is configured to estimate the sequence.
  • the step of determining whether the estimated amino acid sequence is correct by the arithmetic unit, or based on the value of a parameter reflecting the validity of the estimated amino acid sequence further includes selecting one or more amino acid sequences from the sequence.
  • the selection also selects an amino acid sequence having the parameter equal to or greater than a predetermined value as the estimated amino acid sequence capability.
  • a computer-readable recording medium storing a program according to the third aspect.
  • the program according to the present invention is installed or downloaded to a computer through various recording media such as a force CD-ROM, a magnetic disk, and a semiconductor memory, which is used to cause the computer to execute each step of the verification method according to the present invention. Is possible.
  • peptide mass information used in the present invention refers to information obtained by mass spectrometry, including the M / Z value of peptides obtained by mass spectrometry.
  • peptide modification information used in the present invention refers to information regarding modifications that are added to peptides in vivo or during peptide preparation, but also includes unmodified peptide information. Modifications added in vivo include phosphorylation, addition of sugar chains, addition of fatty acids, and the like. Modifications added during peptide preparation include enzyme digestion, reduction, acetylene candy and the like.
  • amino acid sequence estimated by searching peptide mass information from a peptide database refers to an amino acid sequence estimated by the PMF method or MSMS treatment.
  • the “peptide database” refers to a protein database or a nucleic acid database, a protein database such as NCBInr database and the like, and a nucleic acid database such as GenBank database.
  • the “presumed amino acid sequence” includes modified amino acids, for example, amino acids with phosphorylation, addition of sugar chains, addition of fatty acids, and the like! /.
  • the amino acid sequence to be tested according to the present invention is a method of searching a peptide mass information database obtained by the PMF method (Non-Patent Document 1) and an amino acid sequence information of a peptide obtained from a tandem mass spectrum. How to search a database (non-patent literature It is the amino acid sequence estimated by 2-4).
  • the method for identifying peptides using the obtained data is obtained by using commercially available software such as SonarMSMS (Genomic Solution) and database such as NCBInr ( http://www.ncbi.nlm.nih.gov/), IPU Sport and other databases can be used for analysis and automatic identification. It is easy for those skilled in the art to estimate the amino acid sequence of a peptide using data measured by MS (Nat Genet. 1998: 20, 46-50; J Cell Biol. 1998: 141, 967-977; J
  • Peptide constituent elements are more easily calculated than amino acid constituent elements.
  • the peptide isotope ratio can be calculated based on the stable isotope natural abundance ratio and its mass number from the constituent elements (JA. Yergey, Int. J. Mass Spectrom. Ion Phys. 52 (1983) 337).
  • the composition ratio of the first isotope peak which is an element of mass number
  • the composition ratio of the body peak is the coefficient of X 1 in the following formula
  • the composition ratio of the n + 1-th isotope peak in which n is replaced by an isotope with a large mass number is the relationship of X n in the formula below. Calculated as a number.
  • the natural abundance ratio of each element is, for example, JA Yergey, Int.
  • composition ratio of the first isotope peak and the composition ratio of the second isotope peak can be calculated as the coefficients of X ⁇ X 1 in Equation 1.
  • composition ratio of the second isotope peak Composition ratio of the second isotope peak
  • the composition ratio of the third isotope peak can also be calculated as the coefficient of X 2 in Equation 1, and the composition ratio below that is also calculated as ⁇ 3 ⁇ ⁇ 4 ⁇ can do.
  • the same calculation can be made by adding ⁇ and other element terms to Equation 1.
  • specific amino acids may be labeled with stable isotopes.
  • the isotope ratio of the peptide is calculated using the isotope abundance ratio of the labeled amino acid instead of the stable isotope natural abundance ratio.
  • the label may be metabolically labeled by adding a stable isotope-labeled amino acid to the culture medium, or the peptide may be chemically modified with a stable isotope-labeled compound.
  • Peptide isotope ratio measurements are determined from the peptide MS spectra. From MS, the force to obtain a spectrum as shown in Fig. 1 The first peak with the lowest mass is a peptide consisting of all the constituent elements with the lightest mass number, and the second peak is the constituent element. One of them is a peptide that is replaced by an isotope with one mass number. For the isotope ratio, the maximum value of each peak (peak height) or peak area force can be obtained. In some cases, the measured power of the MS spectrum can be manipulated to remove the error.
  • the corresponding peak height or area should be averaged to obtain the measured isotope ratio. Is also allowed. Further, by taking the difference in peak height (area), the influence of knock ground may be removed, and then the ratio may be taken. This kind of operation is usually performed when the peak value of liquid chromatography is also used to obtain a quantitative value. However, these methods can also be applied to MS spectrum peaks.
  • [0033] 3 The step of comparing the theoretical value and the measured value of the isotope ratio and evaluating the validity of the amino acid sequence.
  • the theoretical value obtained from the above 1. and the measured value obtained in the above 2. Evaluate whether the estimated amino acid sequence is correct. If the measured and theoretical values of isotope ratios are standardized and the values are aligned, it is determined that the estimated amino acid sequence is correct, and if not, it is determined that it is incorrect.
  • Standardization methods include, for example, a method that takes a ratio to the first peak, a method that takes a ratio to the highest peak, or a method that expresses the existing ratio as a whole.
  • the standardized values may be displayed as a graph, and if they are complete, the estimated amino acid sequence may be determined to be correct, and if they are not complete, it may be determined to be incorrect.
  • FIGS. 2 and 3 of the embodiment described later are determined to be correct, while FIG. 4 of the embodiment described later is determined to be incorrect.
  • Statistical processing is not particularly limited, and examples thereof include a method of linearly regressing a measured value with respect to a theoretical value. Linear regression can be calculated, for example, using the Microsoft Excel LINEST function. If the point indicating the theoretical value and the measured value is close to the regression line, it is determined to be positive, and if it is far away, it is determined to be incorrect. Further, if the correlation coefficient between the theoretical value and the measured value is high, it is preferably 0.98 or more, more preferably 0.99 or more, the estimated amino acid sequence is judged to be correct, and if low, preferably 0.98 or less. If so, it is judged to be wrong.
  • the statistical means is not limited to the above method. For example, the test may be performed by a method such as% square test of an error between the standardized theoretical value and the measured value.
  • the results of these tests are estimated based on comprehensive judgment together with an index of correctness when estimating the amino acid sequence, for example, a threshold value for identifying and determining the score of a database search engine (for example, mascot).
  • an index of correctness when estimating the amino acid sequence for example, a threshold value for identifying and determining the score of a database search engine (for example, mascot).
  • the deduced amino acid sequence is valid, and when there are multiple deduced amino acid sequences, one or more deduced from the deduced amino acid sequence. It is possible to evaluate whether the correct amino acid sequence is selected correctly.
  • the amino acid sequences in the database can be evaluated by isotope ratios and used as parameters for estimating candidate amino acid sequences. Is possible.
  • FIG. 5 shows a scheme of an assay method according to the present invention after mass analysis by a mass spectrometer.
  • first, peptide mass information, Z or peptide modification information, and one or more estimated amino acid sequences, which are the results of peptide mass spectrometry, are input (step of FIG. 5).
  • the input side is an analysis device that constitutes an assay device according to the present invention described later.
  • this amino acid sequence is estimated by searching various databases as described above. From this amino acid sequence, the constituent elements constituting the peptide and the number of the elements are determined.
  • step S12 based on the estimated amino acid sequence information and / or peptide modification information, particularly information on the constituent elements of the amino acid, the method capability of calculating the isotope ratio of the peptide described above Calculate the theoretical isotope ratio.
  • step S13 the mass information ability of the peptide actually measured is obtained.
  • the difference in value is evaluated from the theoretical value and the measured value of the isotope ratio (see step S14).
  • a parameter such as a correlation coefficient in linear regression or a% square test can be used as a criterion.
  • a parameter reflecting the validity of the amino acid sequence for example, the value of a correlation coefficient or a correlation coefficient of a regression line can be determined from the result of statistical processing.
  • the estimated amino acid sequence is one and the parameter value is equal to or greater than a predetermined value, it is determined that the estimation is appropriate.
  • the value of the parameter is equal to or less than a predetermined value, it is determined that the estimation is not correct.
  • the estimated amino acid sequence power when there are a plurality of estimated amino acid sequences, one or a plurality of amino acid sequences whose parameter values reflecting the validity of the amino acid sequence are equal to or greater than a predetermined value are used as the estimated amino acid sequence power. You can choose. In this way, the estimated amino acid configuration When there are one or more columns, it is possible to evaluate the correctness of the deduced amino acid sequence from the parameter values reflecting the validity.
  • FIG. 6 shows a functional block diagram of a test apparatus that causes a computer to execute a program related to the test method according to the present invention.
  • FIG. 6 schematically shows only the portion related to the present invention, and the microcomputer power is also configured.
  • the verification apparatus 10 generally includes a mass spectrometer 20 and an analysis apparatus 30 that processes and checks data relating to mass spectrometry obtained by the mass spectrometer 20. Prepare. And the test
  • inspection apparatus 10 is further provided with the external device 40 which provides the external analysis program (not shown) for amino acid sequence determination connected also through the network 50 so that communication was possible. Note that the network 50 shown in FIG. 5 has a function of interconnecting the analysis device 30 and the external device 40, such as the Internet.
  • the mass spectrometer 20 used in the present invention is not particularly limited as long as it is a commercially available mass spectrometer.
  • the mass spectrometer 20 may be provided with a data storage unit 25 for storing the results obtained by measurement with the apparatus.
  • the mass spectrometer 20 used in the present invention may be provided with a control unit and an input / output unit for controlling the device, or may be connected to the external device 40 through the network 50.
  • the external device 40 illustrated in FIG. 5 is connected to the analysis device 30 that analyzes information related to mass spectrometry via the network 50, and searches the user for an external database related to amino acid sequence information and the like. It has a function to provide a website for executing external analysis programs such as
  • the external device 40 may be configured as a WEB server, an ASP server, or the like, and its hardware configuration is based on an information processing device such as a commercially available workstation or a personal computer and its associated devices. It may be configured.
  • Each function of the external device 40 is realized by a CPU, a disk device, a memory device, an input device, an output device, a communication control device, etc., and a program for controlling them in the hardware configuration of the external device unit.
  • a database such as NCBInr can be used as the external device unit.
  • the analyzer 30 shown in FIG. 6 generally controls the entire mass spectrometer 20 in an integrated manner.
  • An arithmetic unit 60 such as a CPU, a communication control interface unit 70 connected to a communication device (not shown) such as a router connected to a communication line, the mass analyzer 20, and an output device 90 such as a display printer And an input / output control interface unit 80 connected to the computer, and a storage unit 100 for storing various databases.
  • Each unit is communicably connected via an arbitrary communication path.
  • the analyzing device 30 according to the present invention is communicably connected to a network via a communication device such as a router and a wired or wireless communication line such as a dedicated line.
  • the storage unit 100 Various databases (mass analysis data, amino acid sequence data, etc.) stored in the storage unit 100 are storage means such as a fixed disk device, and store files, data, and the like.
  • the mass spectrometry data is the mass information of the peptide obtained by the mass spectrometer 20.
  • the amino acid sequence data may be amino acid sequence data obtained as a result of mass spectrometry analysis obtained by a mass spectrometer or external amino acid sequence data accessible via the Internet. Furthermore, it may be in-house data created by copying these databases, storing original array information, or assigning unique identification numbers.
  • the calculation unit 60 is a device that stores a program for executing the analysis method according to the present invention, and controls the analysis device 30 and thus the entire verification device 10.
  • the arithmetic unit 60 has a control program such as an OS (operating system), a program that defines various processing procedures, and an internal memory (not shown) for storing necessary data. Information processing for executing various processes is performed.
  • the program for executing the test method according to the present invention may be stored in the storage unit 100.
  • FIG. 7 is a flow chart conceptually showing a program for executing the test method according to the present invention.
  • the calculation unit 60 estimated the mass information and Z or modification information of the peptide obtained by the mass spectrometer 20 or such information from the database related to the peptide.
  • a plurality of amino acid sequences for example, information on the amino acid sequence estimated by the MS / MS process is acquired through the Internet 50 via the communication control interface unit while collating with an external database, for example, the NCBInr database. And, if necessary, this acquired mass spectrometry data Is stored in the storage unit 100.
  • an identification number such as a scan number may be assigned to each mass spectrometry data so as to facilitate data retrieval.
  • the calculation unit 60 of the test apparatus 10 uses the external database and Information on the amino acid sequence estimated by the MS / MS process may be acquired while collating.
  • step S22 the obtained deduced amino acid sequence and / or modification information of the peptide is calculated.
  • the theoretical value of the isotope ratio of the peptide is calculated. This theoretical value is a value from which the constituent element of the peptide is obtained from the amino acid sequence of the peptide, and the stable isotope natural abundance ratio and its mass power are calculated from this constituent element.
  • step S23 the actually measured measurement value of the peptide isotope ratio is obtained from the mass information of the peptide.
  • step S24 the difference between the theoretical value and the measured value is obtained, and the validity of the estimated amino acid sequence of the peptide is evaluated from the value of the difference (see step S25). It is desirable to judge this validity by performing statistical processing on the obtained theoretical values and measured values.
  • Statistical processing includes a method in which the measured value is linearly regressed with respect to the theoretical value.
  • the value of the correlation coefficient in linear regression which is a parameter reflecting the validity, is 0.98 or more.
  • the ratio is 0.99 or more, the estimated amino acid is found to be positive.
  • the determination of whether or not the deduced amino acid sequence is correct is performed by determining whether the parameter reflecting the validity, preferably, the value of the correlation coefficient in linear regression is a desired value or more, 0, 1 or a plurality of amino acids This can be done by selecting the sequence from the deduced amino acid sequence.
  • 0 means that the deduced amino acid sequence did not contain an amino acid sequence judged to be positive.
  • a desired value can be set to a value of 0.98 or more, preferably a value of 0.99 or more.
  • FIG. 8 is a functional block diagram showing a detailed configuration of the calculation unit 60 used in the present invention.
  • the arithmetic unit 60 for executing the test method according to the present invention described in FIG. 7 receives the mass information of the peptide obtained by the mass spectrometer 20 through the input / output control interface unit 80.
  • the calculation unit 60 of the present invention includes a calculation unit 62, a measurement unit 64, an evaluation unit 66, and a determination unit 69 or a calculation unit 68.
  • the calculation means 62 calculates the theoretical value of the isotope ratio of the peptide from the amino acid sequence estimated in an external database and the modification information of z or peptide.
  • the measurement means 64 measures the measured value of the peptide isotope ratio from the mass information of the peptide from the mass spectrometer 20.
  • the evaluation means 66 estimates the difference between the theoretical value and the measured value based on the theoretical value and measured value of the isotope ratio obtained by the calculating means 62 and the measuring means 64.
  • This evaluation means 66 estimates the discrepancy between the theoretical value and the measured value. This discrepancy can be estimated by a parameter reflecting the validity of the estimated amino acid sequence.
  • the evaluation means 66 includes calculation means 68 for calculating the value of this parameter, and evaluates the validity of the estimated amino acid sequence.
  • the judgment means 69 judges whether or not the estimated amino acid sequence is correct.
  • the difference between the theoretical value and the measured value of the isotope ratio indicates that the estimated amino acid sequence is correct when there is no statistically significant difference, while it is statistically significant. If there is a significant difference, the deduced amino acid sequence is judged to be incorrect.
  • a deviation between the theoretical value of the isotope ratio and the measured value is observed from the parameter value that is the result of the calculation means 68, for example, a linear regression is performed as a predetermined value of the norometer. When the value of the correlation coefficient is 0.98 or less, it can be determined that the estimated amino acid sequence is correct.
  • the calculation unit 60 used in the present invention implements the verification method according to the present invention even in the configuration arranged in the mass spectrometer 20 according to the necessity of the force described in the configuration arranged in the analysis device 30. Hurry.
  • of a mouse was extracted and stored frozen. Homogenization was performed with a Teflon R homogenizer, and undestructed cells and nuclei were removed by centrifugation at 500 ⁇ g for 5 minutes. Next, the supernatant was centrifuged at 100,000 ⁇ g for 1 hour to prepare a soluble fraction. The amount of protein measured was 3.12 mg / mL. This was a fractionated sample.
  • each fractionated sample was redissolved in 200 L of 0.2% beta'octyldarcoside aqueous solution containing 8 M urea, diluted 5 times with 50 mM ammonium bicarbonate, and totaled to 1 mL. did. 100 L trypsin (Promega, Cat. No. V5111) was added to 0.3 mg of protein and digested at 37 ° C for 24 hours. Add 50 L of ammonia water and 0.5 mL of ultrapure water to the digested sample, centrifuge at 20,000 G for 1 minute, and remove the supernatant from a key exchange column (Minto Q PC 3.2 / 3: Amersham Biosciences Cat). No. 17—0686—01).
  • the HP PLC side is a self-made electrospray column packed with C18 silica gel (ReproSn-Pur 120 C18-AQ, 3 m) (Y. Ishihama, J. Rappsilber, JS Andersen, M. Mann, J Chromatogr A 979 (2002) 233.)
  • the initial B concentration was adjusted to 0.1 x 150 mm using 0.5% acetic acid water as mobile phase A and 0.5% acetic acid water containing 80% acetonitrile as mobile phase B.
  • mobile phase B is linearly 10% for the first 5 minutes, linearly 30% for the next 60 minutes, then linearly 100% for the next 5 minutes, then mobile phase B is 100%
  • the sample was held for 10 minutes, then mobile phase B was 5%, and the next sample was injected after 30 minutes.
  • the LC-10A series ROM from Shimadzu Corporation was made micro-compatible as the equipment, and the supplied Shimadzu Corporation was removed as the mixing chamber, and a Parco T connector was adopted.
  • As the flow rate a flow-splitting method was adopted, and the column was adjusted to have a flow rate of about 200 to 400 nL per minute.
  • the sample was injected with 3 ⁇ L using the CTC autosampler PAL, and the sample was injected once into the sample loop of the injector and then into the analytical column.
  • a column holder specially manufactured by Nihon-Kyoto Technos Co., Ltd. was attached to the Applied Biosystems / MDS-Sciex QSTAR Pulsar i equipped with the Protana XYZ stage, allowing the position of the electrospray integrated column to be adjusted arbitrarily. .
  • 2.4kV ESI voltage on the pump side of the column Application was made through a PARCO metal connector. Measurements were performed in Information dependent acquisition mode, after a 1 second Survey scan, followed by up to 4 MSMS scans (1.5 seconds each). The switch from MSMS mode to Survey scan is one spectrum.
  • candidate peptide groups are selected by comparison with the isotope ratios of all peptides in the database using the measured values of isotope ratios.
  • the spectrum of Fig. 2 was obtained, the measured values of the isotope ratio were compared with the isotope ratios of all peptides of the molecular weight in the database, and candidate peptide groups were selected. From the m / z difference between the peptide isotope peaks in Fig. 2, the charge number is 3, and the actual S! J value of the peptide mass number is 2328.9.
  • Criteria for the correlation coefficient vary depending on the measurement device and conditions, but if the coefficient, which is a parameter that reflects the validity of the estimated amino acid sequence, is set to 0.99 or more, the candidate selected from the mass number It was narrowed from 360 peptides to 160 by isotope ratio. It was found that the narrowed-down sequence included candidate sequences selected as correct sequences by the mascot shown in FIG.
  • Figure 10 shows data for the peptide mass number near 939.39 (plus or minus IDa).
  • the candidate sequence by the mascot is indicated by ⁇ in FIG. If the correlation coefficient criterion is 0.99 or higher, the number of candidate peptides can be reduced from 1203 to 362, and sequences that are erroneously identified by the mascot can be excluded from the candidate peptide group. (See Figure 10).
  • the peptide is a peptide generated by trypsin digestion! /
  • narrow down candidate peptides from the isotope ratio that is, select multiple amino acid sequences from the estimated amino acid sequence.
  • the narrowed down array can be used as a mascot for correctness / incorrectness. It was consistent.
  • the isotope ratio can be used as a new parameter for narrowing candidate peptides.
  • the present invention when identifying a peptide in proteomic technology, whether the amino acid sequence estimated by performing a database search based on mass information or amino acid sequence information obtained by MS is correct. It is possible to use additional information such as the isotope ratio obtained from the MS spectrum power for the evaluation of whether or not, and the peptide can be identified more accurately.
  • FIG. 1 shows an example of a mass spectrometry spectrum of a typical peptide.
  • FIG. 2 shows the correlation between the measured value of the isotope ratio from the MS spectrum of the peptide and the theoretical value calculated from the estimated amino acid sequence and the measured value and the theoretical value in one example of the present invention.
  • FIG. (A) shows the relationship with the peak height of the MS spectrum, and (B) shows the correlation with the measured and theoretical values.
  • FIG. 3 shows the correlation between the measured value of the isotope ratio from the MS spectrum of the peptide and the theoretical value calculated from the estimated amino acid sequence and the measured value and the theoretical value in another example of the present invention.
  • FIG. (A) shows the relationship with the peak height of the MS spectrum
  • (B) shows the correlation with measured and theoretical values.
  • FIG. 4 In yet another embodiment of the present invention, the measured value of the isotope ratio from the MS spectrum of the peptide and the theoretical value calculated from the estimated amino acid sequence, and the correlation between the measured value and the theoretical value.
  • FIG. (A) shows the relationship with the peak height of the MS spectrum
  • (B) shows the correlation with measured and theoretical values.
  • FIG. 5 shows a scheme of an assay method according to the present invention after mass analysis by a mass spectrometer.
  • FIG. 6 shows a functional block diagram of a verification apparatus that causes a computer to execute a program related to a verification method according to the present invention.
  • FIG. 7 is a flowchart conceptually showing a program for executing the verification method according to the present invention.
  • FIG. 8 is a functional block diagram showing a detailed configuration of an arithmetic unit used in the present invention.
  • FIG. 9 shows the results of correlation coefficients for peptide groups with mass numbers in the vicinity (2328.9-lDa, 2328.9 Da, 23 28.9 + IDa) in the examples of the present invention.
  • FIG. 10 shows the results of correlation coefficients in the vicinity of the peptide mass number of 939.39 (plus or minus IDa) in the examples of the present invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

 本発明の課題は、MSを用いてペプチドのアミノ酸配列を決定し同定する際に、同定エンジンから出力される候補リスト中のアミノ酸配列の妥当性を評価するための付加的な情報をMSから得ることである。本発明は、ペプチドの質量分析により得られたペプチドの質量情報及び/又はペプチドの修飾情報を基に、ペプチドに関するデータベースを検索することにより推定されたアミノ酸配列を検定する方法であって、(1)前記推定したアミノ酸配列及び/又はペプチドの修飾情報から、ペプチドの同位体比の理論値を算出する工程と、(2)前記ペプチドの質量情報から、ペプチドの同位体比の測定値を測定する工程と、(3)前記理論値と前記測定値とを比較し、前記理論値と前記測定値との差異から、推定されたアミノ酸配列の妥当性を評価する工程と、を含む、推定されたアミノ酸配列の検定方法を提供する。    

Description

同位体比によるペプチドを構成するアミノ酸配列の検定
技術分野
[0001] 本発明は、ペプチドの質量分析力も推定されたアミノ酸配列の妥当性を評価する 検定方法に係り、より詳細には、ペプチドの同位体比の理論値と、ペプチドの同位体 比の測定値とを比較して、推定されたアミノ酸配列の妥当性を評価する検定方法、検 定装置および前記方法を実行するプログラム、並びに該プログラムを格納した記録 媒体に関する。
背景技術
[0002] 近年、遺伝子の塩基配列が網羅的に解析され、蛋白質及び核酸のデータベース が拡充されたことにより、ペプチド配列が完全に決定できなくても、部分的な質量分 析 (以下、単に「MS」ともいう。)の解析情報を基に、データベースからマッチするぺプ チド配列を探し出すことが可能となった。
[0003] このデータベース検索法には大別して 2つの方法がある。 1つはペプチドマスフィン ガープリンティング法 (PMF法、たとえば、非特許文献 1参照)である。タンパク質をトリ プシン消化などの切断特異性が明らかな方法での処理の後、そのペプチド群の質量 を MSで測定し、一方、データベース中のタンパク質についても in silicoで同様の処 理を行い、測定データと理論データとの一致度を検索することにより、タンパク質の同 定を行うものである。この方法の問題点は、その真のタンパク質を偽ヒットタンパク質 群から見分けるためにはある程度の数のペプチドが必要なことである。また、 PMF法 では、一般的には混合物の場合は適用が困難であるし、検索の特異性を高めるため には測定されるペプチド質量に高い精度が要求される。さらに、 PMF法では、ぺプチ ド質量が変わってしまう翻訳後修飾には、基本的には対応できないなどの問題点が ある。
[0004] もう一つの方法は、タンデムマススペクトルを用いる方法である。 MSに導入されたぺ プチドは MSの内部での衝突解離によりフラグメント化されるが、その際に得られるス ベクトル(MSMSスペクトル、タンデムマススペクトル、フラグメントスペクトル、または CI Dスペクトル)力 ペプチドのアミノ酸配列の部分情報が得られるので、データベース 中のタンパク質力も得られる情報を検索することにより同定を行うものである(たとえば 、非特許文献 2ないし 4参照)。本方法では 1つのペプチドだけでも十分に検索特異 性があるので混合物での測定や網羅的解析に向いている。また、その特異性の高さ 力 ゲノムに対して直接検索をすることも可能であるし、翻訳後修飾にも対応可能で ある。
[0005] し力しながら、前述のいずれの方法でも哺乳類の組織や細胞といった非常に多種 類の蛋白質が存在する場合、検索エンジン力も出力されるタンパク質リストから、偽ヒ ットを完全に取り除くのは容易ではなぐ同定のためのクライテリアを工夫しても 10〜3 0%程度の偽ヒットタンパク質が常に混在しており、ペプチド同定のための付カ卩的な情 報が求められている。
[0006] さらに、データベースを用いずに MSMSスペクトルやペプチドシークェンサ一から得 られる情報だけ力 配列を決定する de novoシークェンシングにおいても、付加的な 情報は、決定された配列の妥当性を検定するのに大きな役割を果たすことが期待さ れる。
[0007] 非特許文献 1 : M. Mann, P. Hojrup, P. Roepstorif, Biol Mass Spectrom 2 2 (1993) 338.
非特許文献 2 : J.K. Eng, A.L. McCormack, I. Yates, John R., Journal of the American Society for Mass Spectrometry 5 (1994) 976.
非特許文献 3 : M. Mann, M. Wilm, Anal Chem 66 (1994) 4390. 非特許文献 4 : D.N. Perkins, D.J. Pappin, D.M. Creasy, J.S. Cottrell, Electrophoresis 20 (1999) 3551.
発明の開示
発明が解決しょうとする課題
[0008] そこで、本発明は上記の事情に鑑み、 MSを用いてペプチドのアミノ酸配列を決定し 同定する際に、同定エンジンから出力される候補リスト中のアミノ酸配列が正しいか 否かを検定するための、付加的な情報を MSから得ることを本発明の目的とする。 課題を解決するための手段 [0009] 本発明者らは、 MSから得られる付加的な情報のうち、ペプチドの同位体比に着目し た。ペプチドを構成する元素の同位体比は、地球上では普遍的に一定である。同定 エンジンから出力されるアミノ酸配列から、当該ペプチドを構成する元素の組成比が 計算でき、元素の組成比力 各元素の同位体比を基にペプチドの同位体比が計算 できる。もし計算された同位体比が、 MSにより実測された同位体比と一致すれば、出 力されたアミノ酸配列は正しいことが評価されると考えた。
[0010] 本発明の第一の態様では、ペプチドの質量分析により得られたペプチドの質量情 報及び/又はペプチドの修飾情報を基に、ペプチドに関するデータベースを検索す ることにより推定されたアミノ酸配列を検定する方法であって、 (1)前記推定したァミノ 酸配列及び/又はペプチドの修飾情報から、ペプチドの同位体比の理論値を算出す る工程と、(2)前記ペプチドの質量情報から、ペプチドの同位体比の測定値を測定 する工程と、(3)前記理論値と前記測定値とを比較し、前記理論値と前記測定値との 差異から、推定されたアミノ酸配列の妥当性を評価する工程と、を含む推定されたァ ミノ酸配列の検定方法を提供する。
[0011] 本発明に係る検定方法の好ましい態様によれば、(4)前記妥当性の評価に基づき 、前記推定されたアミノ酸配列が正しいか否かを判断する工程を、あるいは、前記妥 当性を反映したパラメータの値に基づいて、前記推定されたアミノ酸配列から 1又は 複数のアミノ酸配列を選択する工程をさらに含む。
[0012] 本発明に係る検定方法の好ま 、態様によれば、前記選択工程は、前記パラメ一 タが所定の値以上であるアミノ酸配列を前記推定されたアミノ酸配列から選択する。
[0013] また、本発明の第二の態様では、質量分析装置と、演算部を有するコンピュータと を備え、前記質量分析装置にて得られたペプチドの質量情報及び/又はペプチドの 修飾情報を基に、ペプチドに関するデータベースを検索することにより推定されたァ ミノ酸配列を検定する装置であって、前記演算部は、前記ペプチドの質量情報及び/ 又はペプチドの修飾情報を受けた後に、 (a)前記推定したアミノ酸配列及び/又はぺ プチドの修飾情報から、ペプチドの同位体比の理論値を算出する算出手段と、 (b) 前記ペプチドの質量情報から、ペプチドの同位体比の測定値を測定する測定手段と 、(c)前記理論値と前記測定値とを比較し、前記理論値と前記測定値との差異から、 前記演算部が推定したアミノ酸配列の妥当性を評価する評価手段と、を備える検定 装置を提供する。
[0014] 本発明に係る検定装置の好ましい態様によれば、(d)前記妥当性の評価に基づき 、前記演算部は前記推定されたアミノ酸配列が正 ヽか否かを判断する判断手段を さらに備える、あるいは、前記推定されたアミノ酸配列の妥当性を反映したパラメータ の値を計算される計算手段をさらに備え、前記パラメータに基づいて、前記推定され たアミノ酸配列から 1又は複数のアミノ酸配列を選択する。
[0015] 本発明に係る検定装置の好ま ヽ態様によれば、前記選択は、前記パラメータが 所定の値以上であるアミノ酸配列を前記推定されたアミノ酸配列力も選択する。
[0016] さらに、本発明の第三の態様では、ペプチドの質量分析により得られたペプチドの 質量情報及び/又はペプチドの修飾情報を受けるコンピュータに、ペプチドに関する データベースを検索することにより推定されたアミノ酸配列を検定させるためのプログ ラムであって、(i)コンピュータが備える演算部へ前記ペプチドの質量情報及び/又は ペプチドの修飾情報を入力する工程と、(ii)前記演算部が、前記推定したアミノ酸配 列及び/又はペプチドの修飾情報から、ペプチドの同位体比の理論値を算出するェ 程と、(m)前記演算部が、前記ペプチドの質量情報から、ペプチドの同位体比の測 定値を測定する工程と、(iv)前記理論値と前記測定値とを比較し、前記理論値と前 記測定値との差異から、前記演算部が推定したアミノ酸配列の妥当性を評価するェ 程とを実行するプログラムを提供する。
[0017] 本発明に係るプログラムの好ましい態様によれば、(V)前記妥当性の評価に基づき
、前記演算部が前記推定されたアミノ酸配列が正しいか否かを判断する工程を、ある いは、前記推定されたアミノ酸配列の妥当性を反映したパラメータの値に基づいて、 前記推定されたアミノ酸配列から 1又は複数のアミノ酸配列を選択する工程を、さらに 含む。
[0018] 本発明に係るプログラムの好ま U、態様によれば、前記選択は、前記パラメータが 所定の値以上であるアミノ酸配列を前記推定されたアミノ酸配列力も選択する。
[0019] さらにまた、本発明の第四の態様では、前述の第三の態様によるプログラムを格納 したコンピュータ読み取り可能な記録媒体を提供する。 [0020] なお、本発明に係るプログラムは、本発明による検定方法の各工程をコンピュータ にて実行させるものである力 CD-ROM,磁気ディスク、半導体メモリなどの各種記録 媒体を通じてコンピュータにインストールまたはダウンロードすることが可能である。
[0021] また、本発明で用いる用語「ペプチドの質量情報」とは、質量分析により得られるぺ プチドの M/Zの値を含む、質量分析により得られる情報をいう。さらに、本発明で用い る用語「ペプチドの修飾情報」とは、生体内で、あるいはペプチド調製中にペプチド に加えられる修飾に関する情報をいうが、無修飾のペプチド情報をも含む。生体内で 加えられる修飾には、リン酸化、糖鎖の付加、脂肪酸の付加等が挙げられ、ペプチド 調製中に加えられる修飾には、酵素消化、還元、ァセチルイ匕等が挙げられる。さらに また、本発明で用いる用語「ペプチドの質量情報を、ペプチドに関するデータベース と検索することにより推定されたアミノ酸配列」とは、 PMF法や MSMS処理により推定さ れるアミノ酸配列をいう。ここで、「ペプチドに関するデータベース」には、タンパ質デ ータベースまたは核酸データベースを指し、タンパク質データベースとしては NCBInr データベース等が、核酸データベースとしては、 GenBankデータベース等が挙げられ る。また、「推定されるアミノ酸配列」には、修飾されたアミノ酸、たとえばリン酸化、糖 鎖の付加、脂肪酸の付加等がされたアミノ酸が含まれて!/、てもよ 、。
発明の効果
[0022] 本発明により、 MSにより得られた質量情報あるいはアミノ酸配列情報を基に、デー タベース検索を行って推定されたアミノ酸配列が正しいか否かを評価するにあたり、
MSスペクトルの同位体比と 、う付カ卩的な情報を用い、その推定アミノ酸配列の妥当 性の検定方法を提供することができる。
発明を実施するための最良の形態
[0023] 以下の実施形態は、本発明を説明するための例示であり、本発明をこの実施形態 にのみ限定する趣旨ではない。本発明は、その要旨を逸脱しない限り、さまざまな形 態で実施することができる。
[0024] 本発明により検定されるアミノ酸配列は、 PMF法により得られたペプチドの質量情報 力 データベースを検索する方法 (非特許文献 1)、及びタンデムマススペクトルから 得られたペプチドのアミノ酸配列情報力 データベースを検索する方法 (非特許文献 2〜4)により推定されたアミノ酸配列である。
[0025] なお、 MSによる測定の結果力 得られたデータを用いてペプチドを同定する方法 は、得られたデータを市販のソフトフェア、たとえば、 SonarMSMS (Genomic solution 社)およびデータベース、たとえば、 NCBInr (http://www.ncbi.nlm.nih.gov/) , IPU Sport等のデータベースを使用することにより解析し、自動同定が可能である。 MSによ る測定データを用いて、ペプチドのアミノ酸配列を推定することは当業者にとって容 易である(Nat Genet. 1998: 20, 46-50; J Cell Biol. 1998: 141, 967-977; J
Cell Biol. 2000: 148, 635—651; Nature. 2002: 415, 141-147; Nature. 2002 : 415, 180-183; Curr Opin Cell Biol. 2003: 15, 199-205;
Curr Opin Cell Biol. 2003: 7, 21- 27参照)。
[0026] 以下に、推定されるアミノ酸配列を検定する方法につ!ヽて、詳しく記載する。
1.推定されるペプチド配列から、ペプチドの同位体比を計算する工程
ペプチドの構成元素は、アミノ酸の構成元素より容易に計算される。ペプチドの同 位体比は、構成元素より安定同位体天然存在比とその質量数を基に算出できる (J.A . Yergey, Int. J. Mass Spectrom. Ion Phys. 52 (1983) 337.)。 ¾, 12C, 13C, 14N, 15N, 160, 170, 180, 32S, 33S, 34S, 36Sの天然存在比を用いると、全ての 構成元素が最も軽い質量数の元素である 1番目の同位体ピークの構成比は、下記 式 1の X°の係数として、構成元素のうちの一つが質量数の多い同位体と置き換わつ た 2番目の同位体ピークの構成比は、下記式の X1の係数として、以下、 n個が質量数 の多い同位体と置き換わった n+1番目の同位体ピークの構成比は、下記式の Xnの係 数として計算される。なお、各元素の天然存在比は、たとえば、 J.A. Yergey, Int. J.
Mass Spectrom. Ion Phys. 52 (1983) 337.の Table 3 (347頁)に記載されてい る (表 1参照)。
[0027] [表 1] π* 質量数 同位体比
C 12 0.98900
13 0.01 100
Η 1 0.99985
2 0.00015
Ν 14 0.99630
15 0.00370
0 16 0.99762
17 0.00038
18 0.00200
S 32 0.95020
33 0.00750
34 0.04210
36 0.00020
[0028] [数 1]
1 Η+ΧΡ )'、。
2Η )ΝΗ (Ρ 12C+X' 13C) (Pl 4NTズ Pl5N 160 ' 「17。τズ Γ 180
33S 36、 式 1
Hの数 : NH Nの数 :NN Sの数 : N s
32
の存在比: P1H 14Nの存在比: P14N Sの存在比: P32S
2Hの存在比: P2H 15Nの存在比: P15N 33sの存在比: P33S
34sの存在比: P34S
Cの数 : Nc 0の数 : N0
36sの存在比: P36S
'2Cの存在比: P12C '60の存在比: P160
'3Cの存在比: P13C '70の存在比: P170
180の存在比: P,80
[0029] 具体的には、 1番目の同位体ピークの構成比及び 2番目の同位体ピークの構成比 は、下記の通り、式 1の X^X1の係数として算出できる。
[0030] [数 2] 1番目の同位体ピークの構成比
— p p c p N pN0 r
1H 12C 14N "^160
2番目の同位体ピークの構成比
NH-1 Nc NN
pN。 Ns NH Nc- 1 N
= NHPIH 「2H P 12C Pl4N ド 160 P32S + NQPIH P 12C p13C PN14N p
N 160 P 32S
NH NN- 1 NN o-1 Ns
+ NNPT H P 1N2CC 14N Pl5N P1N6°0 p3N2sS I O P^INHH PN12CC P 14N Pl60 Pl70 P32S p NN pN。 Ns-1
+ Ν5Ρ ΗΗ p1N2cC 14N 160 P32S P33S
[0031] 同様に、 3番目の同位体ピークの構成比も、式 1の X2の係数として算出することがで き、それ以下の構成比も χ3·χ4· · ·として同様に算出することができる。また、リン (Ρ)、 その他の元素を含むペプチドについても、式 1に Ρ、その他元素の項を付け加えるこ とにより同様に計算できる。場合によっては、特定のアミノ酸を安定同位体で標識す ることも許される。この場合には、標識されたアミノ酸について、安定同位体天然存在 比に代えて標識アミノ酸の同位体存在比を用いて、ペプチドの同位体比を計算する 。標識は培養液に安定同位体標識アミノ酸を加えて代謝的に標識しても、ペプチドを 安定同位体標識化合物により化学的に修飾してもよい。
[0032] 2.ペプチドの同位体比を測定する工程
ペプチドの同位体比の測定値は、ペプチドの MSスペクトルから測定される。 MSから は、図 1に示すようなスペクトルが得られる力 最初の質量最小のピークが全ての構 成元素が最も軽い質量数の元素で構成されるペプチドであり、 2番目のピークが構成 元素のうちの一つが、質量数が 1つ多い同位体と置き換わったペプチドである。同位 体比は、それぞれのピークの最大値 (ピークの高さ)又はピーク面積力 得ることがで きる。場合によっては、 MSスペクトルの測定値力も誤差を取り除く操作をすることも許 される。たとえば、 LCMSなどのように、同一ペプチドのスペクトルがクロマトグラフィー の溶出時間に従って経時的に複数得られている場合、対応するピークの高さ又は面 積を平均化して同位体比測定値とすることも許される。また、各ピーク高さ (面積)の 差をとることにより、ノ ックグラウンドの影響を除き、その後、比を取ってもよい。このよ うな操作は、液体クロマトグラフィーのピーク力も定量値を得る際に通常行われるもの であって、それら方法を MSスペクトルのピークに対して応用することも許される。
[0033] 3.同位体比の理論値と測定値を比較し、アミノ酸配列の妥当性を評価する工程 前記 1.から得られた理論値と前記 2.で得られる測定値を比較して、推定されたァ ミノ酸配列が正しいか否かを評価する。同位体比の測定値と理論値を標準化し、そ の値が揃って 、れば推定されたアミノ酸配列が正 、と判断され、揃って 、なければ 誤っていると判断される。標準化の方法としては、たとえば、 1番目のピークに対する 比率をとる方法、最も高いピークに対する比率をとる方法、または全体を 1とした時の 存在比率として表す方法が挙げられる。また、上記標準化した値をグラフとして表示 し、揃っていれば推定されたアミノ酸配列が正しいと判断され、揃っていなければ誤 つていると判断してもよい。たとえば、後述する実施例の図 2及び 3は正しい配列と判 断され、他方、後述する実施例の図 4は誤った配列であると判断される。
[0034] 本発明にお 、て、推定されたアミノ酸配列が正 、か否かの評価は、得られた理論 値と測定値に統計的な処理を施して判断することが望まし 、。統計的な処理としては 、特に限定されないが、理論値に対して測定値を直線回帰する方法等が挙げられる 。直線回帰は、たとえば、 Microsoft Excelの LINEST関数により計算できる。理論値と 測定値を示す点が回帰直線に近ければ正 、配列であると判断され、離れて ヽれば 誤っていると判断される。また、理論値と測定値の間の相関係数が高ければ、好まし くは 0.98以上、更に好ましくは 0.99以上であれば推定されたアミノ酸配列が正しいと 判断され、低ければ、好ましくは 0.98以下であれば誤っていると判断される。統計的 な手段は上記方法に限られず、たとえば、標準化した理論値と測定値の間の誤差を %二乗検定するなどの方法により検定を行ってもよい。
[0035] これらの検定の結果は、アミノ酸配列を推定するときの正しさの指標、たとえば、デ ータベース検索エンジン (たとえば、マスコット)のスコアの同定判定の閾値などと共に 総合的に判断して、推定されたアミノ酸配列が一つの場合には、その推定アミノ酸配 列が妥当なものであるか、また、推定されたアミノ酸配列が複数ある場合には、当該 推定されたアミノ酸配列から 1又は複数の妥当なアミノ酸配列の選択が正しいか否か の評価を行うことができる。また、データベース中のアミノ酸配列に対して同位体比に よる評価を行!ヽ、候補アミノ酸配列を推定するためのパラメータとして使用することも 可能である。
[0036] 本発明に係る検定方法について説明する。図 5は、質量分析装置による質量分析 後、本発明に係る検定方法のスキームを示す。本発明に係る検定方法は、まず、ぺ プチドの質量分析の結果であるペプチドの質量情報及び Z又はペプチドの修飾情 報や推定された 1又は複数のアミノ酸配列が入力される(図 5の工程 S11参照)。この 場合、入力される側は、後述する本発明に係る検定装置を構成する解析装置である 。そして、このアミノ酸配列は、前述のように各種のデータベースを検索することにより 推定されることは当業者には容易に理解できる。このアミノ酸配列から、ペプチドを構 成する構成元素とその元素の数が判明する。
[0037] 次いで、工程 S12にて、推定されたアミノ酸配列の情報及び/又はペプチドの修飾 情報、特にアミノ酸の構成元素に関する情報に基づいて、前述のペプチドの同位体 比を計算する方法力 ペプチドの同位体比の理論値を算出する。一方、工程 S 13で は、実際に測定されたペプチドの質量情報力 ペプチドの同位体比の測定値を求め る。
[0038] 以上のように、同位体比の理論値および測定値の値から、力かる値の差異を評価 する(工程 S14参照)。この場合、差異を評価する基準としては、直線回帰における 相関係数や%二乗検定等のパラメータを基準とすることができる。そして、その評価 基準の結果から、所定の基準値に照らして、工程 S 15にて推定されたアミノ酸配列が 正しいか否かを判断する。この判断の際、前述の統計的処理を行うこともできる。
[0039] 具体的には、統計的処理の結果から、アミノ酸配列の妥当性を反映したパラメータ 、たとえば、相関係数や回帰直線の相関係数の値力 判断することができる。推定さ れたアミノ酸配列が一つのとき、前記パラメータの値が所定の値以上である場合、当 該推定が妥当であると判断される。一方、前記パラメータの値が所定の値以下である 場合には、当該推定は正しくないと判断される。この所定の値は予め設定することに より、推定されたアミノ酸配列の妥当性の評価 ·判断を容易に行うことができる。
[0040] さらに、推定されたアミノ酸配列が複数あるとき、前記アミノ酸配列の妥当性を反映 したパラメータの値が所定の値以上である、 1又は複数のアミノ酸配列を、前記推定 されたアミノ酸配列力も選択することができる。このようにして、推定されたアミノ酸配 列が 1又は複数ある場合、その妥当性を反映したパラメータの値から、推定アミノ酸 配列の正誤を評価することが可能となる。
[0041] 図 6は、本発明による検定方法に係るプログラムを、コンピュータにて実行させる検 定装置の機能ブロック図を示す。なお、図 6では、本発明に関連する部分のみを概 念的に示し、マイクロコンピュータ力も構成される。
[0042] 本発明に係る検定装置 10は、概略的には、質量分析装置 20と、その質量分析装 置 20にて得られた質量分析に関するデータを処理'カ卩ェする解析装置 30とを備える 。そして、検定装置 10は、ネットワーク 50を介して通信可能も接続した、アミノ酸配列 決定用の外部分析プログラム (不図示)を提供する外部装置 40を、さらに備える。な お、図 5に示すネットワーク 50は、解析装置 30と外部装置 40とを相互に接続する機 能を有し、たとえば、インターネット等である。本発明にて用いられる質量分析装置 2 0は、特に限定されるものではなぐ市販の質量分析装置であればよい。そして、前 記質量分析装置 20は、それ自体に該装置にて測定して得られた結果を保存するデ ータ保存部 25を備えていてもよい。また、本発明に用いられる質量分析装置 20は、 それ自体に装置を制御する制御部や入出力部を備えるものであってもよぐさらに、 ネットワーク 50を通じて外部装置 40と接続していてもよい。図 5に例示する外部装置 40は、ネットワーク 50を介して、質量分析に関する情報を解析する解析装置 30と相 互に接続され、利用者に対してアミノ酸配列情報等に関する外部データベースゃホ モロジ一検索等の外部分析プログラムを実行するウエッブサイトを提供する機能を具 有する。
[0043] ここで、外部装置 40は、 WEBサーバや ASPサーバ等として構成してもよく、そのハ 一ドウエア構成は、一般に市販されるワークステーション、パーソナルコンピュータ等 の情報処理装置及びその付属装置により構成してもよい。また、外部装置 40の各機 能は、外部装置部のハードウ ア構成中の CPU、ディスク装置、メモリ装置、入力装 置、出力装置、通信制御装置等およびそれらを制御するプログラム等により実現され る。本発明では、前記外部装置部として NCBInr等のデータベースを利用することが できる。
[0044] 図 6に示す解析装置 30は、概略的には、質量分析装置 20の全体を統括的に制御 する CPU等の演算部 60、通信回線等に接続されるルータ等の通信装置 (不図示) に接続される通信制御インターフェース部 70、質量分析装置 20、およびディスプレ ィゃプリンタ一等の出力装置 90に接続される入出力制御インターフェース部 80、お よび各種のデータベースを格納する記憶部 100を備えて構成される。各部は任意の 通信路を介して通信可能に接続される。さら〖こ、本発明による解析装置 30は、ルー タ等の通信装置及び専用線等の有線又は無線の通信回線を介して、ネットワークに 通信可能に接続されている。記憶部 100に格納される各種のデータベース (質量分 析データやアミノ酸配列データ等)は、固定ディスク装置等のストレージ手段であり、 ファイルやデータ等を格納する。前記記憶部 100の各構成要素のうち、質量分析デ ータは、質量分析装置 20にて得られたペプチドの質量情報等である。また、アミノ酸 配列データは、質量分析装置にて得られた質量分析スぺ外ルの解析結果としての アミノ酸配列データや、インターネットを経由してアクセス可能な外部のアミノ酸配列 データであってもよい。さらに、これらのデータベースをコピーしたり、オリジナルの配 列情報を格納したり、さらに独自の識別番号を付与し作成したインハウスデータであ つてもよい。
[0045] 演算部 60は、本発明に係る解析方法を実行するプログラムを格納し、前記解析装 置 30を、ひいては検定装置 10の全体を制御する装置である。前記演算部 60は、 O S (operating system)等の制御プログラム、各種の処理手順等を規定したプログラム 、および所要データを格納するための内部メモリ(不図示)を有し、これらのプログラム 等により、種々の処理を実行するための情報処理を行う。なお、本発明に係る検定方 法を実行するプログラムは、前記記憶部 100に格納されて 、てもよ 、。
[0046] 図 7は、本発明に係る検定方法を実行するプログラムを、概念的に表すフローチヤ ートである。工程 S21にて、演算部 60は、質量分析装置 20にて得られたペプチドの 質量情報及び Z又は修飾情報、あるいはかかる情報を、ペプチドに関するデータべ ースと検索することにより推定された、 1又は複数のアミノ酸配列、たとえば、通信制 御インターフェース部を介したインターネット 50を通じて、外部のデータベース、たと えば、 NCBInrデータベースと照合させながら、 MS/MS処理により推定されたアミノ酸 配列に関する情報を取得する。そして、必要に応じて、この取得した質量分析データ を記憶部 100に保存するが、その際に、後述する解析の便宜のため、データ検索を 容易にするように、各質量分析データに、スキャン番号等の識別番号を付与してもよ い。一方で、本発明に係る検定装置 10の演算部 60が、質量分析装置 20にて得られ たペプチドの質量情報及び/又修飾情報を取得した後、演算部 60にて、外部のデー タベースと照合させながら、 MS/MS処理により推定されたアミノ酸配列に関する情報 を取得してもよい。
[0047] 工程 S22に示すように、取得した推定アミノ酸配列及び/又はペプチドの修飾情報 力 当該ペプチドの同位体比の理論値を算出する。この理論値とは、ペプチドのアミ ノ酸配列からペプチドの構成元素が求まり、この構成元素より安定同位体天然存在 比とその質量数力も算出される値である。他方、工程 S23において、前記ペプチドの 質量情報から、ペプチドの同位体比の実際に測定された測定値を求める。
[0048] 次いで、工程 S24において前記理論値と前記測定値との差異を求め、当該差異の 値から、ペプチドの推定されたアミノ酸配列の妥当性を評価する(工程 S25参照)。こ の妥当性の評価は、得られた理論値と測定値に統計的な処理を施して判断すること が望ましい。統計的な処理としては、理論値に対して測定値を直線回帰する方法等 が挙げられる。そして、推定されたアミノ酸配列が一つの場合には、この理論値と測 定値が略一致したとき、たとえば、妥当性を反映したパラメータである、直線回帰にお ける相関係数の値が 0.98以上のとき、より好ましくは 0.99以上のときは、推定されたァ ミノ酸は正 、配列であると判明する。
[0049] 一方、推定されたアミノ酸配列が複数ある場合、推定アミノ酸配列が正 、か否か の判断は、前記パラメータの値が所定の値以上である 1又は複数のアミノ酸配列を、 推定されたアミノ酸配列力 選択することにより行うことができる。
[0050] そして、推定アミノ酸配列が正 、か否かの判断は、妥当性を反映したパラメータ、 好ましくは直線回帰における相関係数の値が所望の値以上である、 0、 1又は複数の アミノ酸配列を推定されたアミノ酸配列から選択することにより行うことができる。ここで 、 0とは推定アミノ酸配列中に正 、と判断されたアミノ酸配列は含まれて 、なかった ことを意味する。また、前記パラメータが直線回帰における相関係数の場合、所望の 値として、 0. 98以上の値、好ましくは 0. 99以上の値を設定することができる。 [0051] その後、必要に応じ、演算部で解析されたパラメータの値等のデータをディスプレイ 若しくはプリンタ一等の出力装置 90に表示若しくは印字することができる。
[0052] 図 8は、本発明に用いる演算部 60の詳細な構成を示す機能ブロック図である。前 述のように、図 7で説明した本発明に係る検定方法を実行するための演算部 60は、 質量分析装置 20にて得られたペプチドの質量情報を、入出力制御インターフェース 部 80を通じて受け取る。本発明の演算部 60は、算出手段 62と、測定手段 64と、評 価手段 66と、判断手段 69又は計算手段 68とを備える。前記算出手段 62は、外部の データベースにて推定されたアミノ酸配列及び z又はペプチドの修飾情報から、ぺ プチドの同位体比の理論値を算出する。一方、前記測定手段 64は質量分析装置 20 からのペプチドの質量情報からペプチドの同位体比の測定値を測定する。そして、 前記算出手段 62と前記測定手段 64にて得られた同位体比の理論値および測定値 を基づいて、前記評価手段 66では理論値と測定値の差異を見積もる。この評価手段 66では、理論値と測定値との乖離を見積もるものである。この乖離は、推定されたァ ミノ酸配列の妥当性を反映したパラメータにより見積もることができる。そして、前記評 価手段 66は、このパラメータの値を計算する計算手段 68を備え、推定アミノ酸配列 の妥当性を評価する。
[0053] さらに、計算手段 68における結果を踏まえ、判断手段 69では、推定されたアミノ酸 配列が正しいか否かの判断を行う。これは、同位体比の理論値と測定値の間の乖離 の値から、統計的に有意な差がない場合には推定されたアミノ酸配列は正しいと判 断される一方で、統計的に有意な差がある場合には推定されたアミノ酸配列は正しく ないと判断される。具体的には、計算手段 68の結果であるパラメータの値から、同位 体比の理論値と測定値との間に乖離が観測された場合には、たとえば、ノラメータの 所定の値として、直線回帰における相関係数の値が 0.98以下の場合、推定されたァ ミノ酸配列は正しくな 、と判断できる。
[0054] 本発明に用いる演算部 60は、解析装置 30に配置された構成で説明した力 必要 に応じて、質量分析装置 20に配置された構成でも、本発明に係る検定方法を実施 することはでさる。
実施例 [0055] 本発明を以下の実施例によってさらに詳細に説明するが、本発明の範囲はこれら に限定されるものではない。本発明の記載に基づき、種々の変更、修飾が当業者に は可能であり、これらの変更、修飾も本発明に包含される。
[0056] 以下に、 MSから得られたアミノ酸配列情報を基にデータベース検索を行 、、推定さ れたアミノ酸配列を同位体の存在比により検定した具体例を示す。
[0057] サンプルとして、マウスの^ | を摘出し凍結保存した。テフロン Rホモジナイザーにて ホモジナイズし、 500 X g 5分間の遠心分離により未破壊の細胞、核などを除去し た。次に、その上清を 100,000 X g 1時間の遠心分離することにより可溶性画分を 調製した。タンパク質量を測定したところ、 3.12mg/mLであった。これを分画したサン プルとした。
[0058] 続!、て、各分画したサンプルにっき 2mLずつ(lmLチューブ 2本ずつ)にっき以下の 操作を行った。尿素(Bio- Rad社 Cat. No. 161- 0731)を加えて 8Mとし、 lmLあたり 3mgのデイチオスレィトール(和光純薬 Cat. No. 045-08974: DTT)をカ卩えた 0.5M Tris緩衝液 (pH 8.3, Sigma社製) 500 Lを各分画したサンプルに加え、 37度で 3時 間インキュベーションしてタンパク質中のシスティン残基を還元した。その後、尿素を 加えて 8Mとし、 8mgのアクリルアミド (Bio- Rad社製 Cat. No. 161- 0107)をカ卩えた 0.5M Tris緩衝液 (pH 8.3) 500 Lを、各分画したサンプルカ卩えて室温で 3時間インキュ ベーシヨンしてシスティン残基をアルキル化した。そこに 8mgの DTTを加えることで過 剰のアクリルアミドを失活させた。分子量 1万カットの透析チューブ SnakeSkin (ピアス 社、 Cat. No. 68100)を使い、 1000倍量の 10mMの炭酸水素アンモ-ゥム緩衝液に より、 4°Cにて、 1昼夜透析して還元アルキル化試薬を除去し、当該分画したサンプル を SpeedVacにて凍結乾燥した。
[0059] この各分画したサンプルを 8Mの尿素を含む 0.2%ベータ 'ォクチルダルコシド水溶 液 200 Lで再溶解し、 50mMの炭酸水素アンモ-ゥムで 5倍に希釈し、計 lmLとした。 タンパク質量 0.3mgに対して 100 Lのトリプシン(プロメガ社製、 Cat. No. V5111)を 加えて 37°Cにて 24時間消化を行った。消化したサンプルに 50 Lのアンモニア水と 0. 5mLの超純水をカ卩えて 2万 Gで 1分間遠心し、上清をァ-オン交換カラム(Minト Q PC 3.2/3: Amersham Biosciences Cat. No. 17—0686—01)に注入した。 HPLC条件 は、流速が毎分 0.2mL、 UV検出波長が 235nm & 280nmとした。移動相 Aが 25mMの アンモニアに 5 %ァセトニトリル、移動相 Bが 1Mの酢酸アンモ-ゥムで pH 8.6に 5% ァセトニトリルとし、グラディエントは、最初 5分間が 100%移動相 Aで、その後 40分かけ て移動相濃度を直線的に 40%まで増加させ、その後 15分間で移動相 Bを 100%とし て 5分間流した。 1分毎に分画し、カラム力も溶出してくるフラクションを、 TFAを加える ことにより酸性とした。 27分力も 30分までの分画試料を選び、あら力じめァセトニトリル で洗浄後 0.1% TFA水でコンディショニングしておいた StageTip C18(自家製、 J. Rappsilber, Y. Ishihama, Μ. Mann, Anal Chem 75 (2003) 663)にアプライし、 続いて 5%ァセトニトリルを含む 0.1% TFA水 20 しで3回洗浄、5 しの70%ァセト 二トリルを含む 0.1% TFA 水で溶出することにより脱塩した。 Speedvacで溶媒を揮 発させ、 5 μ Lの 5%ァセトニトリルを含む 0.1% TFA水で再溶解した。
次に、この HPLCにより分離したサンプルを LC (C18 column) /MS (Applied
Biosystems/MDS-Sciex QSTAR Pulsar i)で測定を行った。このときの条件は、 H PLC側としては C18シリカゲル(ReproSn-Pur 120 C18-AQ, 3 m)を充填した自家 製のエレクトロスプレ^——体型カラム(Y. Ishihama, J. Rappsilber, J.S. Andersen, M. Mann, J Chromatogr A 979 (2002) 233.) 0.1 x 150mmに移動相 Aとして 0 .5%酢酸水、移動相 Bとして 80%ァセトニトリルを含む 0.5%酢酸水を用いて、初期 B 濃度を 5%として、最初の 5分間で移動相 Bを直線的に 10%、次の 60分間で直線的に 30%、その後 5分間で直線的に 100%とし、その後移動相 Bを 100%にして 10分間維 持、その後移動相 Bを 5%として 30分後に次のサンプルを注入した。装置には島津製 作所の LC-10Aシリーズの ROMをミクロ対応として、また、ミキシングチャンバ一として は付属の島津製作所製を外してパルコ社の Tコネクターを採用した。流速としては、 Flow-splitting方式を採用し、カラムには約毎分 200〜400nLの流速となるように調整 した。サンプルを CTC社のオートサンプラー PALによって 3 μ L注入し、サンプルを一 度インジェクターのサンプルループに注入した後に分析カラムに送り込んだ。 Protana 社製 XYZステージを装備した Applied Biosystems/MDS-Sciex社の QSTAR Pulsar i に日京テクノス社に特注したカラムホルダーを装着し、エレクトロスプレ一一体型カラ ムの位置を任意に調整できるようにした。 ESI電圧として 2.4kVをカラムのポンプ側の パルコ社製金属コネクターを通して印加した。測定は、 Information dependent acqui sitionモードで、 1秒間の Surveyスキャンの後、最大 4つの MSMSスキャン(各 1.5秒)を 行った。 MSMS modeから Survey scan へのスィッチは 1スペクトルとした。
[0061] 得られたデータについては、 Mascot (Matrixscience社)および NCBInrデータべ一 ス用いてタンパク質の自動同定を行った。出力された結果の中から、表 1に記載する 3つのペプチドを選択して同位体比による検定を行った。
[0062] [表 2]
Mascot
No. 推定アミノ酸配列 Observed
由来タンパク質 Peptide
score m/z mass
1 AFVHWYVGEGM EGEFSEAR tubulin alpha 63 777. 3087 2329. 0109 ribosomal protein,
2 ILDSVGIEADDDR 93 709. 3246 1416. 6732 large P2
similar to hypothetical
3 AAGQEDDK + Oxidation 22 490. 6823 979. 3916
} protein MGC35338
[0063] マスコットスコアの同定判定の閾値(95 %)は 37であるので、 No.l及び 2のペプチドは 正しく同定されており、 No.3のペプチドは正しく同定されていないと考えられる。これ ら 3つのペプチドの分子式より、同位体比の理論値を QSTARの測定ソフトウェアであ る Analyst QS (Applied Biosystems/MDS- Sciex)の付属機能(Tools/Calculators/ Isotope Distribution)を用いて算出した。また、同位体比の測定値を Analyst QSの ピークインテグレーション機能を用いて各同位体のピーク高さ(強度)及び面積を求 め、理論値と比較した。 No.1〜3のペプチドについての結果を、それぞれ、図 2〜4に 示した。
[0064] マスコットスコア力も正しく同定されていると考えられる No.l及び 2のペプチドでは、 同位体比の理論値と測定値が良く一致するのに対し、正しく同定されていないと考え られる No. 3のペプチドでは、理論値と測定値の乖離が見られた。
[0065] 同位体比の理論値及び測定値(ピーク高さ及びピーク面積)を Microsoft Excelの LINEST関数を用いて直線回帰した。正しく同定されて ヽると考えられる No.l及び 2の ペプチドでは、相関係数 (R2)が 0.99以上と高い相関を示したのに対し、正しく同定さ れていないと考えられる No.3のペプチドでは相関係数が 0.97となり、理論値と測定値 の間で相関を取ることにより、推定アミノ酸配列の妥当性を検定できることが明らかと なった。
[0066] 次に、同位体比の実測値を用いて、データベース中の全ペプチドの同位体比と比 較し、候補ペプチド群を選択する場合の実施例について説明する。図 2のスペクトル が得られた場合について、同位体比の実測値をデータベース中の当該分子量の全 ペプチドの同位体比と比較し、候補ペプチド群を選択した。図 2スペクトル中のぺプ チド同位体のピーク間の m/zの差より、荷電数は 3であり、従ってペプチドの質量数の 実 S!J値は 2328.9である。 International protein index (IPI) database
(ftp://ftp.ebi.ac.uk/pub/databases/IPI/current/ipi.MOUSE.fasta.gz)の July 1, 2004 versionの MOUSEタンパク質(40,981個)を用いて in silicoでトリプシン消化し、得られ たペプチド力 5残基以上で配列がユニークなものは 753,926個であった。図 2から得 られた同位体比(実測値)を、このペプチド群の同位体比 (理論値)に対し回帰し、そ の時の回帰直線の相関係数を算出した。図 9は、質量数が近傍 (2328.9
- lDa、 2328.9Da、 2328.9 + IDa)のペプチド群についての結果を示す。
[0067] 相関係数のクライテリアは測定装置、条件によって変動するが、推定されたアミノ酸 配列の妥当性を反映したパラメータである係数を 0.99以上とした場合には、質量数か ら選ばれた候補ペプチド 360個から、同位体比により 160個に絞り込まれた。この絞り 込まれた配列に、図 9中に で示されたマスコットにより正しい配列として選ばれた候 補配列が含まれて 、たことが判明した。
[0068] 同様に、図 4のスペクトルが得られた場合、上記と同様、同位体比の実測値を
753,926個のペプチドの理論同位体比に対して回帰分析し、その回帰直線の相関係 数を調べた。図 10は、ペプチドの質量数 939.39の近傍(プラスマイナス IDa)につい てのデータを示す。マスコットによる候補配列は、図 10中にて△で示した。相関係数 のクライテリアを 0.99以上とした場合、候補ペプチドは 1203個から 362個に絞り込むこ とが可能であり、マスコットにより誤っているとされた配列は、候補ペプチド群から除外 することが可能であった(図 10参照)。
[0069] ペプチドがトリプシン消化により生成したペプチドであると!/、う情報を基に、同位体 比から候補ペプチドを絞り込むこと、つまり、推定されたアミノ酸配列から複数のァミノ 酸配列を選択することが可能であり、絞り込まれた配列はマスコットによる正誤判定と 矛盾しないものであった。同位体比は、候補ペプチドの絞り込みの新たなパラメータ として使用可能であると考えられる。
産業上の利用可能性
[0070] 本発明によれば、プロテオーム技術においてペプチドを同定するにあたり、 MSによ り得られた質量情報あるいはアミノ酸配列情報を基に、データベース検索を行って推 定されたアミノ酸配列が正 、か否かの評価を、 MSスペクトル力 得られる同位体比 という付加的な情報を用いることが可能となり、ペプチドの同定をより精度高く行うこと ができるようになった。
図面の簡単な説明
[0071] [図 1]代表的なペプチドの質量分析スペクトルの一例を示す。
[図 2]本発明の一の実施例における、ペプチドの MSスペクトルからの同位体比の測 定値および推定されたアミノ酸配列から計算される理論値と、その測定値および理論 値との相関関係を示す図である。 (A)は MSスペクトルのピーク高さにおける関係を示 し、(B)は測定値および理論値との相関関係を示す。
[図 3]本発明の別の実施例における、ペプチドの MSスペクトルからの同位体比の測 定値および推定されたアミノ酸配列から計算される理論値と、その測定値および理論 値との相関関係を示す図である。 (A)は MSスペクトルのピーク高さにおける関係を示 し、(B)は測定値および理論値との相関関係を示す
[図 4]本発明のさらに別の実施例における、ペプチドの MSスペクトルからの同位体比 の測定値および推定されたアミノ酸配列から計算される理論値と、その測定値および 理論値との相関関係を示す図である。 (A)は MSスペクトルのピーク高さにおける関係 を示し、 (B)は測定値および理論値との相関関係を示す
[図 5]図 5は、質量分析装置による質量分析後、本発明に係る検定方法のスキームを 示す。
[図 6]図 6は、本発明による検定方法に係るプログラムを、コンピュータにて実行させる 検定装置の機能ブロック図を示す。
[図 7]図 7は、本発明に係る検定方法を実行するプログラムを、概念的に表すフロー チャートである。 [図 8]図 8は、本発明に用いる演算部の詳細な構成を示す機能ブロック図である。
[図 9]図 9は、本発明の実施例において、質量数が近傍(2328.9- lDa、 2328.9Da、 23 28.9 + IDa)のペプチド群についての相関係数の結果を示す。
[図 10]図 10は、本発明の実施例において、ペプチドの質量数 939.39の近傍 (プラス マイナス IDa)についての相関係数の結果を示す。

Claims

請求の範囲 [1] ペプチドの質量分析により得られたペプチドの質量情報及び/又はペプチドの修飾 情報を基に、ペプチドに関するデータベースを検索することにより推定されたアミノ酸 配列を検定する方法であって、
(1) 前記推定したアミノ酸配列及び/又はペプチドの修飾情報から、ペプチドの同 位体比の理論値を算出する工程と、
(2) 前記ペプチドの質量情報から、ペプチドの同位体比の測定値を測定するェ 程と、
(3) 前記理論値と前記測定値とを比較し、前記理論値と前記測定値との差異から 、推定されたアミノ酸配列の妥当性を評価する工程と、
を含む、推定されたアミノ酸配列の検定方法。
[2] (4)前記妥当性の評価に基づき、前記推定されたアミノ酸配列が正 、か否かを判 断する工程を、あるいは、前記妥当性を反映したパラメータの値に基づいて、前記推 定されたアミノ酸配列から 1又は複数のアミノ酸配列を選択する工程を、さらに含む請 求項 1に記載の検定方法。
[3] 前記選択工程は、前記パラメータが所定の値以上であるアミノ酸配列を前記推定さ れたアミノ酸配列から選択する、請求項 2に記載の検定方法。
[4] 質量分析装置と、演算部を有するコンピュータとを備え、前記質量分析装置にて得 られたペプチドの質量情報及び/又はペプチドの修飾情報を基に、ペプチドに関す るデータベースを検索することにより推定されたアミノ酸配列を検定する装置であって
前記演算部は、前記ペプチドの質量情報及び/又はペプチドの修飾情報を受けた 後に、
(a)前記推定したアミノ酸配列及び/又はペプチドの修飾情報から、ペプチドの同 位体比の理論値を算出する算出手段と、
(b)前記ペプチドの質量情報から、ペプチドの同位体比の測定値を測定する測定 手段と、
(c)前記理論値と前記測定値とを比較し、前記理論値と前記測定値との差異から、 前記演算部が推定したアミノ酸配列の妥当性を評価する評価手段と、を備える検定 装置。
[5] (d)前記妥当性の評価に基づき、前記演算部は前記推定されたアミノ酸配列が正 しいか否かを判断する判断手段をさらに備える、あるいは、前記推定されたアミノ酸 配列の妥当性を反映したパラメータの値を計算される計算手段をさらに備え、前記パ ラメータに基づいて、前記推定されたアミノ酸配列から 1又は複数のアミノ酸配列を選 択する、請求項 5に記載の検定装置。
[6] 前記選択は、前記パラメータが所定の値以上であるアミノ酸配列を前記推定された アミノ酸配列から選択する、請求項 5に記載の検定装置。
[7] ペプチドの質量分析により得られたペプチドの質量情報及び/又はペプチドの修飾 情報を受けるコンピュータに、ペプチドに関するデータベースを検索することにより推 定されたアミノ酸配列を検定させるためのプログラムであって、
(i)コンピュータが備える演算部へ前記ペプチドの質量情報及び/又はペプチドの 修飾情報を入力する工程と、
(ii)前記演算部が、前記推定したアミノ酸配列及び/又はペプチドの修飾情報から 、ペプチドの同位体比の理論値を算出する工程と、
(iii)前記演算部が、前記ペプチドの質量情報から、ペプチドの同位体比の測定値 を測定する工程と、
(iv)前記理論値と前記測定値とを比較し、前記理論値と前記測定値との差異から、 前記演算部が推定したアミノ酸配列の妥当性を評価する工程と、
を実行するプログラム。
[8] (V)前記妥当性の評価に基づき、前記演算部が前記推定されたアミノ酸配列が正 しいか否かを判断する工程を、あるいは、前記推定されたアミノ酸配列の妥当性を反 映したパラメータの値に基づ 、て、前記推定されたアミノ酸配列から 1又は複数のアミ ノ酸配列を選択する工程を、さらに含む請求項 7に記載のプログラム。
[9] 前記選択は、前記パラメータが所定の値以上であるアミノ酸配列を前記推定された アミノ酸配列から選択する、請求項 8に記載のプログラム。
[10] 請求項 7ないし 9のうち何れか一項に記載のプログラムを格納したコンピュータ読み 取り可能な記録媒体。
PCT/JP2005/014303 2004-08-04 2005-08-04 同位体比によるペプチドを構成するアミノ酸配列の検定 WO2006013925A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US11/659,113 US20090012714A1 (en) 2004-08-04 2005-08-04 Test of amino acid sequence constituting peptide using isotopic ratio
JP2006531544A JP4614960B2 (ja) 2004-08-04 2005-08-04 同位体比によるペプチドを構成するアミノ酸配列の検定
EP05768470A EP1775581A4 (en) 2004-08-04 2005-08-04 INVESTIGATION OF A PEPTIDE-BASED AMINO ACID SEQUENCE DEPENDING ON THE ISOTOPE RATIO

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-228324 2004-08-04
JP2004228324 2004-08-04

Publications (1)

Publication Number Publication Date
WO2006013925A1 true WO2006013925A1 (ja) 2006-02-09

Family

ID=35787204

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/014303 WO2006013925A1 (ja) 2004-08-04 2005-08-04 同位体比によるペプチドを構成するアミノ酸配列の検定

Country Status (4)

Country Link
US (1) US20090012714A1 (ja)
EP (1) EP1775581A4 (ja)
JP (1) JP4614960B2 (ja)
WO (1) WO2006013925A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010525327A (ja) * 2007-04-16 2010-07-22 モメンタ ファーマシューティカルズ インコーポレイテッド グリカンを評価するためのms法
JP2012098276A (ja) * 2010-11-03 2012-05-24 Agilent Technologies Inc 質量スペクトルのライブラリをキュレーションするためのシステム及び方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002527756A (ja) * 1998-10-15 2002-08-27 ネオジェネシス・ドラッグ・ディスカバリー・インコーポレイテッド 化学品混合物中の化合物を同定する方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002527756A (ja) * 1998-10-15 2002-08-27 ネオジェネシス・ドラッグ・ディスカバリー・インコーポレイテッド 化学品混合物中の化合物を同定する方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
See also references of EP1775581A4 *
TABATA T. ET AL: "Focused Proteome ni LOkeru Bioinformatics - 2: Tanpakushitsu Dotei Kekka no Filtering Tool", DAI 51 KAI SHITSURYO BUNSEKI SOGO TORONKAI KOEN YOSHITSU, 14 May 2003 (2003-05-14) - 16 May 2003 (2003-05-16), pages 368 - 369, XP003005660 *
TABATA T. ET AL: "Proteomics Kaisekiyo Software no Kaihatsu - (1) Tanpakushitsu Hatsugen Teiryo Kaisekiyo Program", DAI 27 KAI THE MOLECULAR BIOLOGY SOCIETY OF JAPAN NENKAI PROGRAM KOEN YOSHISHU, 25 November 2004 (2004-11-25), pages 811, XP003005658 *
YOKOI Y. ET AL: "Focused Proteome ni Okeru Bioinformatics - 1: LC-MS/MS Data kara no Tanpakushitsu Dotei Sofuto no Kikaku Hyoka", DAI 51 KAI SHITSURYO BUNSEKI SOGO TORONKAI KOEN YOSHISHU, 14 May 2003 (2003-05-14) - 16 May 2003 (2003-05-16), pages 366 - 367, XP003005659 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010525327A (ja) * 2007-04-16 2010-07-22 モメンタ ファーマシューティカルズ インコーポレイテッド グリカンを評価するためのms法
JP2012098276A (ja) * 2010-11-03 2012-05-24 Agilent Technologies Inc 質量スペクトルのライブラリをキュレーションするためのシステム及び方法

Also Published As

Publication number Publication date
EP1775581A1 (en) 2007-04-18
EP1775581A4 (en) 2009-06-03
US20090012714A1 (en) 2009-01-08
JPWO2006013925A1 (ja) 2008-05-01
JP4614960B2 (ja) 2011-01-19

Similar Documents

Publication Publication Date Title
Shilov et al. The Paragon Algorithm, a next generation search engine that uses sequence temperature values and feature probabilities to identify peptides from tandem mass spectra
Searle et al. Chromatogram libraries improve peptide detection and quantification by data independent acquisition mass spectrometry
Chamrad et al. Evaluation of algorithms for protein identification from sequence databases using mass spectrometry data
Eng et al. A face in the crowd: recognizing peptides through database search
Cagney et al. In silico proteome analysis to facilitate proteomics experiments using mass spectrometry
Ramus et al. Benchmarking quantitative label-free LC–MS data processing workflows using a complex spiked proteomic standard dataset
Escher et al. Using i RT, a normalized retention time for more targeted measurement of peptides
Higdon et al. Randomized sequence databases for tandem mass spectrometry peptide and protein identification
Johnson et al. Current perspectives and recommendations for the development of mass spectrometry methods for the determination of allergens in foods
Karp et al. Design and analysis issues in quantitative proteomics studies
Colangelo et al. Review of software tools for design and analysis of large scale MRM proteomic datasets
Blueggel et al. Bioinformatics in proteomics
Vaudel et al. A complex standard for protein identification, designed by evolution
JP2004257922A (ja) 質量分析スペクトルの解析システム
Pancsa et al. Early folding events, local interactions, and conservation of protein backbone rigidity
MacCoss Computational analysis of shotgun proteomics data
Percy et al. Multiplexed MRM‐based assays for the quantitation of proteins in mouse plasma and heart tissue
JP2007256126A (ja) 質量分析システム
Li et al. Improved sequence variant analysis strategy by automated false positive removal
WO2020079878A1 (ja) 糖鎖構造解析装置、及び糖鎖構造解析用プログラム
Feng et al. Selected reaction monitoring to measure proteins of interest in complex samples: a practical guide
JP4614960B2 (ja) 同位体比によるペプチドを構成するアミノ酸配列の検定
Martens Bioinformatics challenges in mass spectrometry-driven proteomics
Moruz et al. Mass fingerprinting of complex mixtures: protein inference from high-resolution peptide masses and predicted retention times
Chang et al. UniQua: a universal signal processor for MS-based qualitative and quantitative proteomics applications

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006531544

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2005768470

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 11659113

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWP Wipo information: published in national office

Ref document number: 2005768470

Country of ref document: EP