WO2023204008A1 - 微生物判別用のデータベースを構築する方法および装置 - Google Patents

微生物判別用のデータベースを構築する方法および装置 Download PDF

Info

Publication number
WO2023204008A1
WO2023204008A1 PCT/JP2023/013810 JP2023013810W WO2023204008A1 WO 2023204008 A1 WO2023204008 A1 WO 2023204008A1 JP 2023013810 W JP2023013810 W JP 2023013810W WO 2023204008 A1 WO2023204008 A1 WO 2023204008A1
Authority
WO
WIPO (PCT)
Prior art keywords
database
mass
constructing
genome
charge ratio
Prior art date
Application number
PCT/JP2023/013810
Other languages
English (en)
French (fr)
Inventor
華奈江 寺本
是嗣 緒方
勇地 関口
大典 三浦
Original Assignee
株式会社島津製作所
国立研究開発法人産業技術総合研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社島津製作所, 国立研究開発法人産業技術総合研究所 filed Critical 株式会社島津製作所
Publication of WO2023204008A1 publication Critical patent/WO2023204008A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Definitions

  • the present invention relates to a method and apparatus for constructing a database for microorganism identification.
  • Non-Patent Document 1 discloses that there are two possible approaches for identifying microorganisms using mass spectrometry.
  • the first approach is a fingerprint method that identifies unknown microorganisms by comparing the mass spectrum measured for the unknown microorganism with a database of mass spectra measured for each known microorganism.
  • this method has problems such as the fact that the mass spectrum pattern of microorganisms is easily influenced by the culture medium conditions and measurement reproduction method.
  • the present disclosure has been made to solve such problems, and its purpose is to improve the quality of a mass-to-charge ratio database constructed based on a genome database, which is used for identifying microorganisms using mass spectrometry. It is about improving.
  • a method for constructing a database for identifying microorganisms includes the steps of: acquiring genome data of a microorganism from a genome database; determining whether the acquired genome data satisfies a standard; A step of predicting expressed proteins for each genome data determined to satisfy the requirement, and a step of constructing a mass-to-charge ratio database containing a list of mass-to-charge ratios predicted for each genome data based on the predicted proteins. Equipped with.
  • a device for constructing a database for identifying microorganisms constructs a database for identifying microorganisms using genome data of microorganisms obtained from a genome database.
  • the device includes a processor and a storage unit.
  • the processor determines whether the acquired genomic data meets the criteria. Furthermore, the processor predicts expressed proteins for each piece of genomic data determined to meet the criteria.
  • the processor also builds a mass-to-charge ratio database that includes a list of predicted mass-to-charge ratios for each genomic data based on the predicted proteins.
  • the processor also stores a mass-to-charge ratio database in the storage unit.
  • the method of constructing a database for identifying microorganisms it is possible to construct a mass-to-charge ratio database based only on genome data that satisfies standards on the genome database. That is, it is possible to improve the quality of the mass-to-charge ratio database constructed based on the genome database, which is used for identifying microorganisms using mass spectrometry.
  • FIG. 1 is a schematic diagram showing the configuration of a microorganism discrimination system according to an embodiment of the present invention.
  • 3 is a flowchart showing an overview of processing performed by the device.
  • FIG. 2 is a functional block diagram of an apparatus related to construction of a mass-to-charge ratio database.
  • FIG. 2 is a functional block diagram of an apparatus related to sample discrimination.
  • 3 is a flowchart showing a process for constructing a mass-to-charge ratio database.
  • 3 is a flowchart showing a subroutine for determining genome data. It is a flowchart showing the process of adding new genome data.
  • 3 is a flowchart illustrating processing related to sample discrimination.
  • 12 is a flowchart illustrating another example of processing related to sample discrimination.
  • FIG. 2 is a diagram showing the relationship between the total number of base sequences at gene sites in the genome and the estimated number of genes per genome.
  • FIG. 1 is a schematic diagram showing the configuration of a microorganism discrimination system 1000 according to an embodiment of the present invention.
  • a microorganism identification system 1000 includes a public genome database 70, a public classification database 80, a network 90, and a device 100.
  • database is also referred to as "DB”.
  • the public genome DB 70 is a database containing genome data of organisms.
  • a genome is genetic information on nucleic acids (deoxyribonucleic acid (DNA), ribonucleic acid (RNA)) possessed by an organism, and includes the base sequence of the nucleic acid.
  • genome data mainly refers to DNA sequence data.
  • the public genome DB 70 is typically a DB containing a large number of genome data of organisms that have been released to the public, such as NCBI (National Center for Biotechnology Information), DDBJ (DNA Data Bank of Japan), and EMBL (European Molecular Biology Laboratory). ) genome DB.
  • NCBI National Center for Biotechnology Information
  • DDBJ DNA Data Bank of Japan
  • EMBL European Molecular Biology Laboratory
  • the example of the public genome DB 70 is not limited to this, and may include, for example, a genome DB that is not open to the public.
  • the public classification DB 80 is a database containing data regarding the classification of organisms (hereinafter referred to as classification data).
  • classification data data regarding the classification of organisms
  • the classification of living things is generally based on the relationships between living things indicated by classes such as family, genus, and species.
  • Microbial classification has traditionally been based on multiple indicators, including morphological observation, phenotypic traits, chemical classification indicators, protein analysis, and DNA analysis, which are based on both phenotype and genome, but only genomic information is used. There are multiple classification systems.
  • the public classification DB 80 is typically a DB containing classification data of organisms that is open to the public, and is, for example, a DB such as GTDB (Genome Taxonomy Database), RDP (Ribosomal Database Project), or Silva.
  • GTDB Gene Taxonomy Database
  • RDP Rabosomal Database Project
  • Silva the example of the public classification DB 80 is not limited to this, and may include, for example, a DB that is not open to the public.
  • the network 90 is a network for the device 100 to communicate with the public genome DB 70 and the public classification DB 80.
  • Network 90 is, for example, the Internet, which interconnects numerous government, corporate, public, and private networks around the globe.
  • the device 100 is a device that constructs a mass-to-charge ratio (m/z) DB for identifying microorganisms using mass spectrometry.
  • identifying microorganisms refers to identifying microorganisms taxonomically. That is, for example, identifying at least one of the genus, species, strain, and strain of the microorganism. Therefore, the device 100 corresponds to an example of "a device for constructing a database for identifying microorganisms.”
  • the apparatus 100 is an apparatus for identifying microorganisms using mass spectrometry using the m/zDB.
  • the device 100 also corresponds to an example of a "microorganism discrimination device.”
  • the "type" of a microorganism or organism refers to at least one of the "genotype, strain, or rank of phylogenetic taxonomic group such as subspecies, species, genus, family, etc.” of the microorganism or organism. including.
  • the device 100 includes a controller 101, a display 15, and an operation section 14.
  • a display 15 and an operation unit 14 are connected to the controller 101 .
  • the operation unit 14 typically includes a touch panel, a keyboard, a mouse, and the like.
  • the operation unit 14 receives user operation inputs to the processor 10 .
  • the display 15 is composed of, for example, a liquid crystal panel that can display images.
  • the display 15 displays an image related to acceptance of a user's operation input, and displays the results of processing by the processor 10.
  • the controller 101 has a processor 10, a memory 11, a communication interface (I/F) 12, and an input/output I/F 13 as main components. These units are communicably connected to each other via a bus.
  • the processor 10 is typically an arithmetic processing unit such as a CPU (Central Processing Unit) or an MPU (Micro Processing Unit).
  • the processor 10 controls the operation of the device 100 by reading and executing programs stored in the memory 11.
  • the memory 11 is realized, for example, by a storage device such as a ROM (Read Only Memory), a RAM (Random Access Memory), and an HDD (Hard Disk Drive).
  • the ROM can store programs executed by the processor 10.
  • the RAM can temporarily store data used during execution of a program in the processor 10, and can function as a temporary data memory used as a work area.
  • HDD is a nonvolatile storage device.
  • a semiconductor storage device such as a flash memory may be used.
  • the program and/or data may be stored in an external storage device that can be accessed by the processor 10.
  • the memory 11 corresponds to an example of a "storage unit".
  • the communication I/F 12 is a communication interface for exchanging various data with external devices including the public genome DB 70 and the public classification DB 80, and is realized by an adapter, a connector, or the like.
  • the communication method may be a wireless communication method using a wireless LAN (Local Area Network) or the like, or a wired communication method using a USB (Universal Serial Bus) or the like.
  • the input/output I/F 13 is an interface for exchanging various data between the processor 10 and external devices connected to the input/output I/F 13.
  • the external device includes an operation section 14 and a display 15.
  • a mass spectrometer (MS) 16 may be connected to the input/output I/F 13.
  • the input/output I/F 13 includes a device that exchanges data between a storage terminal such as a USB memory connected to the device 100 and the processor 10.
  • MS16 is a device for performing mass spectrometry of components contained in a sample, such as MALDI-TOF MS (Matrix-Assisted Laser Desorption/Ionization Time-of-Flight Mass Spectrometry), MALDI-IT-TOF (Matrix-TOF) Assisted Laser Desorption/Ionization Ion Trap Time-of-Flight Mass Spectrometry) or scanning IT-MS, but is not limited thereto.
  • MALDI-TOF MS Massatrix-Assisted Laser Desorption/Ionization Time-of-Flight Mass Spectrometry
  • MALDI-IT-TOF Matrix-TOF Assisted Laser Desorption/Ionization Ion Trap Time-of-Flight Mass Spectrometry
  • scanning IT-MS scanning IT-MS
  • MS16 performs mass spectrometry of proteins in a sample. Therefore, in a mass spectrum, peaks are detected depending on the m/z of proteins in the sample. Therefore, referring to the mass spectrum pattern, more specifically, the m/z list (herein also referred to as m/z list) for which a peak with a height equal to or higher than a predetermined threshold value is obtained, it is possible to identify the mass spectrum that is included in the sample. Understand protein.
  • the m/z included in the m/z list indicates the m/z corresponding to the peak of the mass spectrum.
  • the MS 16 performs mass spectrometry on the unknown microorganism sample, and then transmits a sample list, which is a sample m/z list, to the device 100.
  • Processor 10 determines the samples based on the sample list.
  • the device 100 does not need to be configured by one computer, and may be configured by multiple computers.
  • mass spectral data of many types of microorganisms are required.
  • the mass spectrum pattern can change due to genetic diversity, culture conditions, pretreatment for mass spectrometry measurement, and variations associated with repeated measurements. Therefore, considering these actual circumstances, a practical database requires a very large amount of mass spectrum data, for example, several tens of mass spectra for each type of microorganism, and tens of thousands of mass spectra for all types of microorganisms in total.
  • Mass spectral data is required. In other words, constructing a practical database requires actually culturing microorganisms and measuring mass spectra a large number of times (for example, tens of thousands of times), which is costly. .
  • m/zDB is a database of m/z lists predicted from the proteins. Attention has been focused on a method of constructing a m/zDB and utilizing the m/zDB. In this method, samples are identified by comparing the m/z list included in the m/z DB with a sample list that is an m/z list corresponding to the peak of the mass spectrum of an unknown microorganism. In this method, there is no need to actually culture microorganisms and measure mass spectra, and a database of mass spectra can be constructed more easily than the above-mentioned fingerprint method.
  • an m/zDB is constructed based only on high-quality genome data that satisfies predetermined standards among the genome data acquired from the public genome DB 70.
  • the quality of m/zDB can be improved.
  • the accuracy of microorganism discrimination using the m/zDB can be improved.
  • the predicted m/z list may include false peaks that do not appear in the mass spectrum when actually measured. This is because even if a sequence is predicted to express a protein based on genome data, the protein may not be expressed for some reason, or even if it is expressed, it will not be ionized, resulting in a peak in the measured mass spectrum. This is because there is a possibility that it cannot be detected.
  • the false peaks become noise, and the sample list and the m/z list of microorganisms unrelated to the sample may match. Gender was considered. Therefore, there was a possibility that the sample would be identified as an unrelated type of microorganism. That is, there was a concern that the accuracy of microorganism discrimination would decrease.
  • proteins that are less likely to cause false peaks i.e. proteins that are likely to be expressed in the living body of microorganisms and are not detected as peaks when mass spectra are measured.
  • Microorganisms are identified by weighting proteins that are likely to be Therefore, the possibility of being mistakenly identified as a different microorganism due to the influence of false peaks is reduced. Thereby, the accuracy of microorganism discrimination can be improved.
  • FIG. 2 is a flowchart showing an overview of the processing performed by the device 100.
  • step (hereinafter also referred to as ST) 101 the processor 10 of the device 100 constructs m/zDB from the genome data of the public genome DB 70.
  • step (PS) 101 the processor 10 uses the m/zDB to identify a sample that is an unknown microorganism.
  • FIG. 3 is a functional block diagram of the device 100 related to m/zDB construction, corresponding to ST101 in FIG. 2.
  • apparatus 100 includes a genome data collection section 21, a genome data determination section 22, a protein prediction section 23, an m/zDB construction section 24, and a storage section 25.
  • the genome data collection unit 21 collects genome data from the public genome DB 70.
  • the genome data determination unit 22 determines whether the collected genome data satisfies a predetermined standard related to the quality of the genome data.
  • the protein prediction unit 23 predicts expressed proteins for genome data that meet predetermined criteria. Specifically, a putative gene region is predicted from the DNA sequence, and an amino acid sequence is predicted from the putative gene region. The protein to be expressed is then predicted based on the amino acid sequence.
  • the m/zDB construction unit 24 predicts an m/z list based on the predicted proteins, constructs an m/zDB, and stores it in the storage unit 25.
  • the m/zDB includes, for example, two types of m/zDB.
  • One m/zDB is the entire m/zDB that includes m/z corresponding to all proteins predicted from genomic data.
  • the other m/z DB is a specific m/z DB that includes only m/z corresponding to proteins included in a specific group among proteins predicted from genome data.
  • the two m/zDBs are used to identify a sample that is an unknown microorganism, as explained in FIG.
  • the genome data collection unit 21, the genome data determination unit 22, the protein prediction unit 23, and the m/zDB construction unit 24 correspond to the processor 10 in FIG.
  • the storage unit 25 corresponds to the memory 11 in FIG.
  • FIG. 4 is a functional block diagram of the apparatus 100 related to sample discrimination, corresponding to ST102 in FIG.
  • apparatus 100 includes an acquisition section 31, a sample discrimination section 32, an annotation section 33, an output section 34, and a storage section 25.
  • the acquisition unit 31 acquires a sample list.
  • the sample list is obtained, for example, from the MS 16 connected to the device 100.
  • the method for acquiring the sample list is not limited to this.
  • the sample list may be acquired from an external device that communicates with the device 100 or a storage terminal connected to the device 100.
  • the acquisition unit 31 further estimates and corrects the measurement error of m/z included in the sample list as necessary.
  • the acquisition unit 31 corresponds to the processor 10 in FIG.
  • the sample discrimination unit 32 discriminates samples by comparing the sample list and the m/z DB stored in the storage unit 25 after weighting the m/z values corresponding to proteins included in a specific group. .
  • the sample discrimination section 32 includes, for example, a primary screening section 321 and a secondary screening section 322.
  • the primary screening unit 321 uses the m/z list included in the specific m/z DB to perform screening based on m/z corresponding to proteins included in a specific group.
  • the secondary screening unit 322 performs screening based on m/z corresponding to all proteins for the m/z list corresponding to the genome data narrowed down in the primary screening among the m/z lists included in the entire m/z DB.
  • the sample is discriminated by performing the following steps.
  • the sample discriminator 32 corresponds to the processor 10 in FIG.
  • the annotation unit 33 links an annotation that is information regarding the predicted protein to each m/z included in the sample list. For example, software that searches for the name of the corresponding protein based on the mass of the protein is used to link the annotation.
  • the annotation section 33 corresponds to the processor 10 in FIG.
  • the discrimination result and m/z annotation by the sample discrimination section 32 are stored in the storage section 25 and/or outputted by the output section 34.
  • the output unit 34 corresponds to the processor 10 and the display 15 or communication I/F 12 in FIG. That is, the determination result and annotation are displayed on the display 15 and/or transmitted to an external device via the communication I/F 12. This allows the user to recognize the determination results and annotations.
  • FIG. 5 is a flowchart showing the process of constructing m/zDB.
  • the processing in ST02 to ST28 shown in FIG. 5 corresponds to the processing in ST101 in FIG.
  • the processor 10 acquires microorganism genome data from the public genome DB 70. At this time, by acquiring genome data from a plurality of public genome DBs 70, it is possible to comprehensively collect genome data of clinically or industrially important microbial species.
  • the processor 10 integrates the acquired genome data and constructs a collected genome DB.
  • the processor 10 determines whether the genome data in the collected genome DB satisfies predetermined criteria.
  • the standards are set so that only high-quality genomic data meets the standards. The specific contents of the criteria will be explained with reference to FIG.
  • the processor 10 constructs a high-quality genome DB that includes genome data determined to meet the criteria.
  • the processor 10 predicts genes included in the genome data included in the high-quality genome DB.
  • a gene refers to a specific region of DNA that is translated into a protein, or information contained in that region.
  • Gene prediction includes, for example, estimating a putative gene region that is translated into a protein on genome data using the translation start codon (ATG sequence) and termination codon (TGA sequence) as clues.
  • the processor 10 predicts the post-translation amino acid sequence from the predicted gene. Prediction of an amino acid sequence includes, for example, estimating amino acids corresponding to each codon (three base sequences) contained in a predicted gene region and connecting them.
  • the processor 10 predicts post-translational modifications to the protein consisting of the predicted amino acid sequence.
  • Post-translational modification is a modification performed on a protein in order to transform the protein immediately after translation into a protein that actually functions in various parts of the body.
  • Post-translational modifications include, for example, removal of methionine, protein degradation including removal of signal peptides, specific chemical modifications including phosphorylation.
  • Post-translational modifications are added to most proteins and change their m/z. Therefore, by considering post-translational modifications, a more accurate protein m/z can be calculated.
  • the processor 10 predicts a protein to which the predicted post-translational modification has been added.
  • the processor 10 predicts an m/z list for each genome data based on the protein. Specifically, m/z corresponding to the protein is calculated based on the mass of atoms contained in the protein. Note that, as the mass of the atom, it is preferable to use the average mass of the element that reflects the isotope distribution of the element in nature. This allows a more accurate m/z to be calculated.
  • the processor 10 constructs an entire m/z DB that is a database of mass-to-charge ratios including the m/z list.
  • the entire m/zDB contains all predicted m/z for each genomic data.
  • the processor 10 links the annotation to the protein data predicted in ST16.
  • An annotation generally refers to information regarding a protein, including the name, function, etc. of the protein. Linking of annotations is performed using, for example, general software that adds annotations according to m/z, but is not limited to this. It is also possible to create a table showing the relationship between m/z and annotations, and use the table.
  • an annotation is information about a protein, and includes information about a group in which the protein is included.
  • the information regarding the protein group includes at least one of protein name, function, and family.
  • m/z corresponding to proteins in a particular group can be selected based on the annotation and treated separately from m/z corresponding to other proteins. Therefore, for example, selective weighting may be applied to m/z corresponding to "a group of proteins that are likely to be expressed in vivo in microorganisms and are also likely to be detected as a peak when mass spectra are measured.” This makes it possible to identify microorganisms.
  • condition the condition that among microorganisms classified into a certain type (for example, microorganisms belonging to a certain family), there exists a predetermined proportion or more of microorganisms whose amino acid sequence similarity (homology) is at least a predetermined threshold; condition that the mass-to-charge ratio can be analyzed within an error range of ⁇ 14 Da (more preferably ⁇ 3 Da) when measured by MALDI-MS measurement, and that the mass of the protein is 4 to 30 kDa (more preferably 2 kDa).
  • functions essential for life support include functions essential for at least one of cell maintenance and proliferation.
  • a group determined in consideration of such conditions is, for example, ribosomal proteins.
  • Other examples of the group are chaperones, DNA binding proteins.
  • the group is not limited to proteins that are significantly expressed in all microorganisms as exemplified above, but may also be proteins that are known to be significantly expressed in a specific microorganism. For example, if samples are discriminated by weighting specific proteins that are known to be significantly expressed in each genus, it is possible to increase the possibility that a sample will be discriminated into the correct genus.
  • an example of a "significantly expressed protein" is a protein that exhibits an expression level equal to or higher than a predetermined threshold.
  • the processor 10 selects proteins predicted to be included in a specific group based on the information regarding the group included in the annotation. In subsequent ST26, the processor 10 predicts a specific m/z list that includes only m/z predicted from the selected protein. In ST20C, the processor 10 constructs a specific m/z DB, which is an m/z database including a specific m/z list.
  • Another advantage of linking annotations is that it becomes easier for the user to understand which proteins each m/z included in the m/z list corresponds to. From this point of view, in order to make the annotations for m/z easier to use, in ST20B, the processor 10 constructs an annotation DB that compiles the annotations for m/z included in the overall m/z DB.
  • Yet another advantage of linking annotations is that the validity of the comparison between the sample list and the m/z list included in the m/zDB can be examined with reference to the annotations.
  • an annotation can be referred to in the m/z list of the m/zDB that is determined to have a high degree of matching (compatibility rate) between the sample list and the m/z pattern.
  • the m/z list contains many m/z corresponding to proteins that are presumed not to be expressed in the microorganism based on the annotations, the reliability of the m/z list itself is at risk. Therefore, the validity of comparison with the sample list is low in the first place, and the reliability of sample discrimination is also low.
  • the m/z corresponding to a protein in the sample list that is considered to be functionally important and evolutionarily conserved matches the m/z of noise in the m/z list. It can be seen that the validity of the comparison is low and the reliability of the sample discrimination is also low. In this way, when a user finds an m/z list with low validity in comparison with the sample list, the user can increase the reliability of the determination by, for example, removing the m/z list.
  • Annotations in the annotation DB are linked with m/z included in the m/zDB.
  • the m/z DB and the annotation DB are associated so that when referring to m/z in the m/z list included in the m/z DB, the corresponding annotations included in the annotation DB can also be referred to.
  • an annotation DB may be configured as part of the m/zDB, with annotations corresponding to m/z included in the m/zDB added.
  • the processor 10 obtains classification data from the public classification DB 80.
  • the processor 10 constructs a collected classification DB that integrates the collected classification data.
  • the collection classification DB is constructed based on the classification data of the plurality of public classification DBs 80, it is possible to incorporate a wide range of taxonomic systems. Therefore, by using the collection classification DB, it becomes possible to reflect various taxonomic systems in the microorganism discrimination results.
  • the collection classification DB may include a genome ID that is an ID for each genome.
  • the genome ID is created based on, for example, collected classification data.
  • Classification data in the collection classification DB is associated with data included in each of the overall m/z DB, specific m/z DB, and annotation DB. Therefore, a genome ID can be added to each genome data of the entire m/zDB and the specific m/zDB. It is also possible to use the contents of the collection classification DB to organize the overall m/z DB and specific m/z DB, or to reflect them on the contents.
  • the collection classification DB can also be used for other purposes in the device 100, such as when determining the above-mentioned "specific protein known to be significantly expressed only in a specific species.”
  • microorganism DB these four associated DBs are collectively referred to as the microorganism DB.
  • the processor 10 After constructing the microorganism DB in ST20A to ST20D, the processor 10 temporarily ends the process. This makes it possible for the apparatus 100 to use the microorganism DB to discriminate samples using mass spectrometry, which will be described in detail in FIGS. 8 and 9.
  • the process shown in FIG. 5 is performed, for example, once a year, depending on the update of the public genome DB 70. Thereby, the contents updated in the public genome DB 70 can be appropriately reflected in the microorganism DB, so that the contents of the microorganism DB can be further improved.
  • FIG. 6 is a diagram illustrating the genome data determination process.
  • ST060 to ST069 shown in FIG. 6 are processes corresponding to ST06 in FIG. 2.
  • the processing shown in FIG. 6 is performed to remove low-quality genome data included in the collected genome DB.
  • the processor 10 determines the quality of the genome data based on the completeness of the genome data.
  • Genome integrity is determined using, for example, a group of single copy marker genes, which are known to exist in one copy of each microbial genome, as an indicator. If the genomic data were complete, all single copy marker genes should be present within the sample. However, if the genomic data is incomplete, for example, when part of the genomic data is missing or incorrectly read, the single-copy marker gene contained in the missing part will be lost. be exposed. Therefore, the larger the portion of the genome data that is missing or incorrectly read, the fewer the number of single-copy marker genes on the genome data. Therefore, the number of single copy marker genes can be used as an indicator of the completeness of genomic data. Specifically, completeness is calculated as a percentage in proportion to the number of single copy marker genes present, with the case where all single copy marker genes are present on the genome data being 100%.
  • the processor 10 determines whether the integrity of the genome data is greater than the reference value T1.
  • the reference value T1 is, for example, 50%. If the completeness is less than or equal to the reference value T1 (NO in ST060), the processor 10 removes the genome data in ST061. If the completeness is greater than the reference value T1 (YES in ST060), the processor 10 advances the process to ST062.
  • the processor 10 determines the quality of the genome data based on the rate of contamination of the genome.
  • Contamination refers to a phenomenon in which, for some reason, the DNA sequence of one genome data is mixed with the DNA sequence of another genome data. In other words, contamination typically means that the DNA sequences of multiple microorganisms are mixed together. If the rate at which a single copy marker gene is found is 100% when there is no contamination in the genome data, this rate will be greater than 100% if contamination has occurred. Therefore, for example, the contamination rate is calculated based on the number of single-copy marker genes found, with 100% being the case where all single-copy marker genes were present in the genome data without contamination. Ru.
  • the contamination rate is n%.
  • n is a real number satisfying n>0. If the rate of contamination is high, it is considered that there is a high possibility that the DNA sequences of multiple types of microorganisms are mixed together.
  • the processor 10 determines whether the contamination rate is smaller than the reference value T2.
  • the reference value T2 is, for example, 20%. If the contamination rate is equal to or higher than the reference value T2 (NO in ST062), the processor 10 removes the genome data in ST063. If the contamination rate is smaller than the reference value T2 (YES in ST062), the processor 10 advances the process to ST064.
  • the processor 10 determines the quality of the genome data based on the number of contigs.
  • a contig refers to a fragmented sequence in which a single DNA sequence is fragmented into multiple DNA sequences. Therefore, the larger the number of contigs, the more finely the DNA sequence is fragmented. If there are too many contigs, the gene region that expresses the protein will be fragmented, and it may not be possible to read it out accurately.
  • the number of contigs can be determined by counting how many parts the DNA sequence contained in the genome data is divided into.
  • the processor 10 determines whether the number of contigs is smaller than the reference value T3.
  • the reference value T3 is, for example, 1000 pieces. If the number of contigs is equal to or greater than the reference value T3 (NO in ST064), the processor 10 removes the genome data in ST065. If the number of contigs is smaller than the reference value T3 (YES in ST064), the processor 10 advances the process to ST066.
  • the processor 10 determines the quality of the genome data based on the number of undetermined bases.
  • An undetermined base refers to a base that could not be determined to be an AGCT when the DNA base sequence was decoded. There is a high possibility that a gene cannot be appropriately found from a DNA sequence that contains many undetermined bases.
  • the processor 10 determines whether the number of undetermined bases is smaller than the reference value T4.
  • the reference value T4 is, for example, 100,000 pieces. If the number of undetermined bases is equal to or greater than the reference value T4 (NO in ST066), the processor 10 deletes the genome data in ST067. If the number of contigs is smaller than the reference value T4 (YES in ST067), the processor 10 advances the process to ST068.
  • the processor 10 determines the quality of the genome data based on whether the number of genes satisfies a reference value. This criterion is used to determine whether the number of genes estimated from genome data is within a reasonable range. For example, if the number of genes inferred from genome data is abnormally large, it is thought that for some reason, parts that are not originally genes have been inferred as genes. For example, when a DNA base sequence is decoded, a mistake in base sequence decoding occurs, and a sequence that is not originally related to the start or end of transcription or translation becomes a sequence that is related to the start or end of transcription or translation. It can be interpreted as .
  • a sequence that does not originally express a protein may be misunderstood as a sequence that expresses a protein, and the predicted m/z list may include many erroneous peaks. If such an m/z list is included in the m/zDB, the quality of the m/zDB will be degraded, and the accuracy of sample discrimination will also be degraded.
  • the processor 10 determines whether the number obtained by dividing the number of genes in the genome data by the number of coding bases encoding the genes is smaller than the reference value T5.
  • a base encoding a gene generally refers to a base contained in a region related to protein expression on a DNA sequence.
  • the reference value T5 is, for example, 0.00180. If the divided number is equal to or greater than the reference value T5 (NO in ST068), the processor 10 removes the genome data in ST069. If the divided number is smaller than the reference value T5 (YES in ST068), the processor 10 adds the genome data to the high-quality genome DB.
  • the processor 10 performs ST060 to ST069 on all genome data included in the collected genome DB.
  • the calculation method for each criterion of completeness, contamination rate, number of contigs, number of undetermined bases, and validity of number of genes is not limited to the above example.
  • the validity of the number of genes may be determined based on whether the number of genes included in one piece of genome data is smaller than a predetermined reference value.
  • the genome data that was included in the collected genome DB and does not meet the standards is removed. That is, among the genome data included in the public genome DB 70, those with low quality are removed, and only those with high quality are used to construct the m/zDB. Therefore, the quality of m/zDB in the device 100 is improved.
  • the device 100 is further configured to be capable of adding new genome data to the m/zDB.
  • the addition is performed, for example, when a user using the device 100 discovers a new microorganism and desires to add genome data of the microorganism.
  • FIG. 7 is a diagram showing the process of adding new genome data.
  • ST02 in the flowchart of FIG. 5 is changed to ST02A, and steps ST04 and ST08 of FIG. 5 are deleted.
  • the processing after ST12 in the flowchart of FIG. 7 corresponds to the processing after ST12 in the flowchart of FIG.
  • the processor 10 acquires new genome data. Specifically, for example, the processor 10 receives the genome data from an external device such as a DNA sequencer or a storage device, or from a storage terminal such as a USB memory, via the input/output I/F 13 or the communication I/F 12. get.
  • an external device such as a DNA sequencer or a storage device
  • a storage terminal such as a USB memory
  • the processor 10 determines whether the genome data meets the criteria.
  • the standards are set so that only high-quality genomic data meets the standards. If the new genome data meets the criteria, the processor 10 advances the process to ST10. If the new genomic data does not meet the criteria, processor 10 removes the new genomic data.
  • the processor 10 predicts genes included in the genome data, and advances the process to ST12. Since the subsequent processing is the same as the processing in FIG. 5, the description thereof will not be repeated. Therefore, the processor 10 can also add a protein whose expression is predicted from new genome data to the m/zDB if the quality satisfies a predetermined standard.
  • the m/z list predicted from newly acquired genome data can be added to the m/zDB, and the contents of the m/zDB can be further enriched.
  • the quality of the m/zDB is further improved, and the accuracy of sample discrimination using the m/zDB is also further improved.
  • the apparatus 100 discriminates samples using the m/zDB constructed as described above.
  • FIG. 8 is a flowchart showing processing related to sample discrimination.
  • the processing in ST32 to ST54 shown in FIG. 8 corresponds to the processing in ST102 in FIG.
  • processor 10 obtains a sample list.
  • the sample list is obtained from the MS 16, for example.
  • the processor 10 determines whether to correct m/z of the sample list. For example, whether or not to correct the sample list is set by the user in advance.
  • m/z that is larger than the actual value or smaller than the actual value may be detected depending on the mass of the protein contained in the sample, the equipment used, etc. That is, in the sample list, some m/z shift may be included as a measurement error.
  • m/zDB included in the device 100 is a theoretical value and does not include measurement errors. Therefore, it is better to shift the m/z in the sample list so as to cancel the measurement error and then compare it with the m/z DB included in the device 100 to more accurately identify the sample.
  • Estimation of measurement error is performed in the following steps. First, a sample list that includes measurement errors is directly compared with "an m/z list that is assumed to (substantially) not include measurement errors.” Subsequently, when the sample list is shifted by a predetermined value, a predetermined value is searched for that increases the matching rate with "the m/z list that is assumed not to include measurement errors.” This predetermined value corresponds to the measurement error. Note that the predetermined value is found within the range of possible values for the measurement error.
  • the "m/z list that is assumed not to contain measurement errors" is, for example, an m/z list included in a specific m/z DB that is considered unlikely to contain false peaks, but is not limited to this. , for example, it may be an m/z list included in the entire m/z DB, or it may be another m/z list prepared for correcting measurement errors in the sample list.
  • the processor 10 When correcting the m/z of the sample list (YES in ST34), in ST36, the processor 10 estimates the measurement error included in the sample list based on the specific m/z DB. In ST38, the processor 10 performs a correction by shifting the m/z of the sample list by the estimated measurement error.
  • the processor 10 corrects the sample list and m/z DB for proteins included in a specific group.
  • the samples are discriminated by weighting the corresponding m/z and comparing them.
  • the processor 10 selects, from the specific m/z DB, an m/z list whose matching rate with the sample list is higher than a predetermined rank as primary screening.
  • m/z list with a precision of a predetermined rank or higher means a list of m/z with a precision of a predetermined rank or higher with respect to the sample list among the m/z lists in the m/zDB used for screening. This is a certain m/z list.
  • the N1 m/z lists with the highest precision are selected as the m/z lists with the precision of a predetermined rank or higher.
  • N1 is an integer between 500 and 5000, for example.
  • m/z list with a precision of a predetermined rank or higher is an m/z list with a precision of a predetermined value or higher.
  • the m/z list whose precision is greater than or equal to a predetermined value can be considered as "the m/z list whose precision is higher than or equal to the number of m/z lists whose precision is greater than or equal to the predetermined value.”
  • the processor 10 selects the m/z list in the entire m/z DB that corresponds to the top N1 m/z lists. In other words, the m/z list in the entire m/z DB of the genome corresponding to the top N1 m/z lists is selected.
  • the processor 10 discriminates the sample by selecting an m/z list having a high matching rate with the sample list from among the m/z lists in the selected overall m/z DB as secondary screening. .
  • the top N2 m/z lists in the selected entire m/z DB are selected as m/z lists with a high matching rate.
  • N1 is an integer satisfying N2 ⁇ N1, for example, an integer between 1 and 100.
  • the processor 10 reflects the classification data in the discrimination result. For example, the processor 10 adds microorganism classification information (family, genus, species, strain, etc.) corresponding to each of the N1 selected m/z lists.
  • microorganism classification information family, genus, species, strain, etc.
  • N1 m/z lists may be organized based on classification data. For example, a table may be created in which N1 m/z lists are sorted in order of classification information. Furthermore, for example, a diagram may be created in which microorganisms corresponding to N1 m/z lists are described on a phylogenetic tree. Furthermore, for example, the number of microorganisms corresponding to a specific family, genus, species, or strain included in the microorganisms corresponding to N1 m/z lists may be quantified. Specifically, a table may be created that describes the families, genera, species, and strains that are the most numerous among the microorganisms corresponding to the N1 m/z lists.
  • the determination results may be further narrowed down by reflecting the classification data on N1 m/z lists. Specifically, processing such as removing m/z lists that are taxonomically obvious outliers may be added.
  • processing illustrated above it is possible to output a discrimination result that reflects a taxonomic viewpoint.
  • the processing illustrated above may be performed based on two or more types of taxonomic systems. This makes it possible to create discrimination results that reflect multiple taxonomic viewpoints.
  • the processor 10 determines whether to predict a protein corresponding to m/z included in the sample list, that is, a protein considered to be expressed in the sample. Whether or not to predict a protein is set by the user in advance, for example.
  • the processor 10 If no protein is predicted (NO in ST48), the processor 10 outputs the determination result in ST50 and ends the process.
  • the determination result is output by being displayed on the display 15, for example.
  • the processor 10 When predicting a protein (YES in ST48), in ST52, the processor 10 links the annotation of the protein corresponding to m/z included in the sample list.
  • the annotation is information about the protein, and includes information about the group in which the protein is included.
  • the processor 10 adds the name and function of the protein corresponding to m/z to the sample list.
  • the processor 10 may create a table of names and functions of proteins corresponding to m/z included in the sample list, which is independent of the sample list.
  • the processor 10 When the protein annotations are linked, in ST54, the processor 10 outputs the discrimination results created in ST44 and ST46 and the annotations associated with m/z included in the sample list in ST52, and executes the processing. finish.
  • the determination result and the annotation are output by being displayed on the display 15, for example.
  • the user can easily recognize information about proteins predicted to be expressed in the sample, thereby deepening his/her understanding of the sample.
  • the information regarding the protein can be referenced when examining the discrimination results of the sample, and when performing other analyzes on the sample, increasing convenience for the user.
  • primary screening based on a specific m/z DB and secondary screening based on the entire m/z DB are performed, which has the following advantages.
  • the secondary screening may be performed by focusing on m/z of proteins included in a specific group different from the primary screening.
  • samples can be distinguished by focusing on two types of important proteins.
  • the device 100 can taxonomically discriminate samples through two or more stages of screening, including screening based on m/z corresponding to proteins included in a particular group. By performing a plurality of different screenings in this manner, the characteristics of each screening can be utilized to improve the accuracy of sample discrimination as a whole.
  • the device 100 can be configured to discriminate samples based on classification data regarding classification of microorganisms.
  • a specific m/z DB can be configured to include only m/z corresponding to a group of proteins commonly expressed within a relatively higher taxonomic group (for example, a genus as a taxonomic group higher than a species/strain).
  • a relatively higher taxonomic group for example, a genus as a taxonomic group higher than a species/strain.
  • the specific m/z DB includes a group PA of proteins that are commonly expressed within a certain genus A. In this case, it is possible to accurately determine whether a sample is included in genus A by screening using the specific m/z DB.
  • a specific m/zDB is constructed to include each group of proteins that are commonly expressed within each genus
  • the genus of a sample can be determined accurately by screening using the specific m/zDB. can. Thereafter, as a secondary screening, species and strains within the determined genus can be determined. Therefore, in the primary screening, it is possible to reduce the possibility that the genus of the sample will be incorrectly determined, and in the secondary screening, it is possible to perform screening in a state suitable for species/strain discrimination. Therefore, the accuracy of sample discrimination can be improved.
  • the method of weighting m/z corresponding to proteins included in a specific group is not limited to the method using the above-mentioned specific m/z DB.
  • the method of weighting m/z corresponding to proteins included in a specific group is not limited to the method using the above-mentioned specific m/z DB.
  • the calculation method may be such that the precision is higher than when /z matches.
  • FIG. 9 is a flowchart showing another example of processing related to sample discrimination.
  • ST40 to ST42 of the flowchart of FIG. 8 are changed to ST40A, and the other steps of FIG. 9 are the same as those of FIG.
  • the processor 10 selects an m/z list with a high matching rate to the sample list from among the m/z lists in the entire m/z DB.
  • the top N3 m/z lists in the entire m/z DB are selected as m/z lists with high precision.
  • the processor 10 first calculates, for each m/z list included in the entire m/z DB, the number of matches between m/z included in the m/z list and m/z included in the sample list. The score is calculated by multiplying by a predetermined coefficient. Then, in the entire m/z DB, m/z lists whose scores are higher than a predetermined rank are selected.
  • the "m/z list with a score of a predetermined rank or higher" is an m/z list with a score of a predetermined rank or higher among the m/z lists in the m/zDB used for screening. be.
  • the m/z list with the top N3 scores is selected as the m/z list with the scores at a predetermined rank or higher.
  • Another example of the "m/z list with scores equal to or higher than a predetermined rank” is an m/z list with scores equal to or higher than a predetermined numerical value.
  • the m/z list whose score is equal to or greater than a predetermined numerical value can be thought of as "the m/z list whose score is equal to or higher than the rank corresponding to the number of m/z lists whose score is equal to or greater than the predetermined numerical value.”
  • the coefficients used when calculating the score are: if m/z corresponding to a protein included in a specific group matches, and if m/z corresponding to a protein not included in a specific group matches is set to be larger than .
  • the factor is set to 10 times.
  • the score tends to be larger than when m/z corresponding to proteins that do not belong to that group match, and as a result, the precision rate decreases. It is easy to be calculated high. Therefore, samples can be discriminated while weighting proteins included in a specific group. Therefore, samples can be discriminated by weighting, for example, functionally important and conserved proteins that are unlikely to contain false peaks, thereby increasing the accuracy of sample discrimination.
  • the m/z corresponding to the protein included in the specific group may be selected as the m/z included in the specific m/z DB, or may be selected with reference to the annotation DB. Furthermore, as described above, it is not always necessary to use the specific m/z DB in estimating the measurement error shown in ST36. Therefore, in the microorganism discrimination method that weights with score coefficients, construction of a specific m/z DB is not necessarily essential.
  • a method of performing multi-stage screening using a specific m/z DB and a method of changing score coefficients may be combined.
  • a specific m/z DB of a certain group of proteins is used for screening
  • a secondary screening a sample is screened by increasing the coefficient when the m/z corresponding to a protein in another group matches. You may also perform a determination.
  • Genome sequences of bacteria and archaea were obtained from the US National Center for Biotechnology Information (NCBI) via an FTP server (using RefSeq v95, over 270,000 sequences).
  • Gene inference using Prodigal was performed for all genome sequences to predict gene loci and their products. The completeness and contamination of the results were estimated by checkM.
  • the number of contigs in the genome sequence, the number of undetermined bases (N), N50, and the number of genes relative to the genome base length were measured on a computer.
  • N50 is one of the indicators indicating the quality of genome information (assembly), and indicates the weighted average of the sequence lengths of contigs in the assembly of the genome sequence.
  • N50 is the length of the sequence (base length) when half of the total length is reached when contigs are arranged in order of length and added in order from the top.
  • the product (protein) predicted from the deduced gene is processed by removing methionine, predicting the signal protein, and predicting the cleavage fragment (using SignalP) according to its amino acid composition, and then calculating the predicted final protein. The mass was calculated. Convert these theoretical protein mass information into data (total m/zDB), collect phylogenetic classification information for each genome (existing taxonomic information such as GTDB, Silva, GreenGenes, etc.), and create a database in which they are linked with the same ID. (Classification DB).
  • Genome sequences For each genome sequence, estimated completeness is 50% or less, contamination is 10% or more, number of contigs is 1,000 or more, N50 is 5kbp or less, and undetermined bases (N) are 100,000 or more. Genome sequences that showed a standard value of were judged to be of low quality and were excluded from the data. In addition, genome sequences with (number of genes/number of bases at loci in the genome, total length) of 0.00180 or more were deleted.
  • a database was constructed for all genome entries without considering these criteria, and microorganisms were identified from the protein measurement peak list of known microbial strains obtained by MALDI-MS (AXIMA (registered trademark), manufactured by Shimadzu Corporation). In this case, it was observed that genome entries with an extremely high number of genes per genome had a high probability of matching, leading to incorrect results.
  • Microorganisms obtained from the National Institute of Product Evaluation and Evaluation (NBRC), etc. such as Escherichia coli NBRC 3301, Bacillus subtilis subsp. subtilis NBRC 13719, Microlunatus phosphovorus NBRC 101784, Bifidobacterium longum ATCC 15707, Clostridium acetobutylicum NBRC 13948, Arthrobacter globiformis NBRC 12137, Brachybacterium conglomeratum NBRC 15472, Streptomyces griseus subsp.
  • NBRC National Institute of Product Evaluation and Evaluation
  • griseus NBRC 12875, Tetrasphaera duodecadis NBRC12959, Bacteroides fragil is ATCC 25285, Sphingomonas yanoikuyae NBRC 15102, Xanthobacter autotrophicus NBRC 102463, Rhodobacter azotoformans NBRC 16436, Methanosarcina thermophila MST-A1, Thau era linaloolentis Culture bacteria and archaea such as NBRC 102519 in the specified medium, centrifuge the culture solution (10,000 g, 2 minutes) to remove the medium components, add the same amount of pure water to disperse the bacterial cells, and grow under the same conditions. The supernatant was removed by centrifugation.
  • 500 ⁇ L of pure water was added to the obtained bacterial cell precipitate to disperse the bacterial cells to obtain a bacterial cell dispersion.
  • 500 ⁇ L of zirconia beads ( ⁇ 0.5 mm) were added to a 1.5 mL tube with a screw cap, and 500 ⁇ L of the above-mentioned bacterial cell dispersion was added.
  • a bead crusher (TOMY Seiko MS-100) was used to crush the beads at 4,000 rpm for a total of 3 minutes, and the crushed liquid was centrifuged (15,000 g, 5 minutes).
  • the degree of coincidence was confirmed by comparing the peaks in the peak list with the theoretical m/z values in the database.
  • the theoretical peaks estimated from the genome information of the relevant bacterial species coincided with the measured peaks within a certain width, but among them, the theoretical peaks estimated from the genome information of the bacterial species other than the relevant bacterial species It also contained genomic information that showed a high degree of concordance.
  • FIG. 10 is a diagram showing the relationship between the total number of base sequences at gene sites in the genome and the estimated number of genes per genome. More specifically, FIG. 10 shows the relationship between the base length of each gene locus in the genome and the estimated number of genes estimated from bacterial and archaeal genome information (over 270,000 items) in RefSeq95.
  • Figure 10 when the relationship between the total number of base sequences and estimated genes is shown for all genome entries (more than 270,000), the dashed line in Figure 10 (number of genes/total number of bases at the locus in the genome) Many genomes located above the 0.00180 line) were detected. These predictions result in proteins that do not actually exist due to errors in reading the base sequence during genome decoding, and more theoretical peaks than the actual ones are predicted, resulting in peak coincidences being seen as false positives. It was assumed that this was the cause.
  • a total m/zDB with 193,197 entries was created.
  • a database representative at the species level was created separately with reference to the GTDB, and a representative database at the species level consisting of 31,760 entries was constructed.
  • Microorganisms obtained from NBRC, etc. such as Escherichia coli NBRC 3301, Bacillus subtilis subsp. RC 12137, Brachybacterium conglomeratum NBRC 15472, Streptomyces griseus subsp griseus NBRC 12875, Tetrasphaera duodecadis NBRC12959, Bacteroides fragilis ATCC 25285, Sphingomonas yanoikuyae NBRC 15102, Xanthobacter autotrophicus NBRC 102463, Rhodobacter azotoformans NBRC 16436, Methanosarcina thermophila Bacteria and archaea such as MST-A1 and Thauera linaloolentis NBRC 102519 are cultured in specified media.
  • the culture solution was centrifuged (10,000 g, 2 minutes) to remove medium components, the same amount of pure water was added to disperse the bacterial cells, and the culture solution was centrifuged under the same conditions to remove the supernatant.
  • These microbial groups include diverse phylogenetic groups such as aerobic and anaerobic bacteria, and methanogenic archaea, and have various cell wall structures such as gram-positive and gram-negative, and also include actinomycetes. 500 ⁇ L of pure water was added to the obtained bacterial cell precipitate to disperse the bacterial cells to obtain a bacterial cell dispersion.
  • the theoretical peak list in the database created above was compared with the actually measured peaks obtained from the cultured microorganism group. If there is an actual measured peak within a certain range from the theoretical peak, the peak is considered to be a match, and if the range is 200 ppm and the number of matching peaks is calculated for all entries in the entire m/zDB, the genome entry with the highest matching degree It was observed that there were cases where the genome entry did not necessarily correspond to the measured strain.
  • a database (specific m/zDB) was constructed in which proteins that are likely to be detected frequently by MALDI measurements were selected.
  • ribosomal proteins that are frequently detected are extracted with reference to a database (annotation DB), and genome entries that have a high degree of agreement with the measured peak list are selected from the database (for example, 500 to 5,000 entries are extracted).
  • annotation DB a database
  • genome entries that have a high degree of agreement with the measured peak list are selected from the database (for example, 500 to 5,000 entries are extracted).
  • Table 1 is a diagram showing the results of discrimination using the algorithm for bacteria and archaea having various lineages, physiological characteristics, and cell wall characteristics.
  • a method for constructing a database for identifying microorganisms includes the steps of acquiring genome data of a microorganism from a genome database, determining whether the acquired genome data satisfies a standard, and determining whether the acquired genome data satisfies a standard.
  • a mass-to-charge ratio database can be constructed based only on genome data that satisfies the standards on the genome database. That is, it is possible to improve the quality of a mass-to-charge ratio database constructed based on a genome database and used for discrimination of microorganisms using mass spectrometry.
  • the step of determining whether the criterion is satisfied may include a step of determining based on whether the number of genes satisfies the reference value.
  • the step of determining whether the criteria are met may include a step of determining based on genome integrity.
  • the step of determining whether the criteria are met is a step of determining based on the rate of contamination of the genome. May include.
  • genome data with a high rate of contamination can be removed. That is, genome data that is likely to contain a mixture of DNA sequences of multiple types of microorganisms is not reflected in the mass-to-charge ratio database. Therefore, the quality of the mass-to-charge ratio database is improved.
  • the step of determining whether the criteria are met may include a step of determining based on the number of contigs. good.
  • genome data with a large number of contigs can be removed. If there are too many contigs, the gene region that expresses the protein will be fragmented, and it may not be possible to read it out accurately. Therefore, the quality of the mass-to-charge ratio database can be improved by removing low-quality genome data based on the number of contigs and preventing the genome data from being reflected in the mass-to-charge ratio database.
  • the step of determining whether the criteria are met is a step of determining based on the number of undetermined bases. May include.
  • genome data with a large number of undetermined bases can be removed.
  • a gene cannot be appropriately found from a DNA sequence that contains many undetermined bases. Therefore, by removing low-quality genomic data based on the number of undetermined bases and preventing the genomic data from being reflected in the mass-to-charge ratio database, the quality of the mass-to-charge ratio database can be improved.
  • the step of constructing a mass-to-charge ratio database includes adding the predicted protein or mass-to-charge ratio to the predicted protein or mass-to-charge ratio.
  • the method may include a step of linking information regarding a group in which the identified protein is included.
  • the mass-to-charge ratio corresponding to a protein included in a specific group is selectively processed based on information regarding the group in which the protein is included. becomes possible.
  • the specific group is, for example, "a group of proteins that are likely to be expressed in vivo in microorganisms and are also likely to be detected as a peak when mass spectra are measured.”
  • the information regarding the group may include at least one of protein name, protein function, and family.
  • mass-to-charge ratios corresponding to the same protein, proteins having the same function, or proteins of the same family can be selectively processed.
  • the mass-to-charge ratio corresponding to "a group of proteins that is likely to be expressed in vivo in microorganisms and that is likely to be detected as a peak when mass spectra are measured" can be determined by protein name, function, or Based on family information, it becomes possible to weight and discriminate samples.
  • the step of constructing a mass-to-charge ratio database is based on information regarding the group.
  • the method may further include building a specific mass-to-charge ratio database including a specific mass-to-charge ratio list having only predicted mass-to-charge ratios.
  • the group is based on the condition that the expression level is equal to or higher than a predetermined threshold; a condition that a predetermined proportion or more of microorganisms whose amino acid sequence similarity is greater than a predetermined threshold exists, a condition that the protein is a basic protein, and an error within ⁇ 14 Da when measured by MALDI-MS measurement. Selection based on at least one of the following conditions: the mass-to-charge ratio can be analyzed within a range, the mass of the protein is within 4 to 30 kDa, and the number of types of proteins included in the group is a predetermined number or more. and the vital functions may include functions essential to at least one of cell maintenance and proliferation.
  • a protein that is likely to be expressed in vivo and is also detected as a peak when mass spectra are measured satisfies the above conditions.
  • the mass-to-charge ratio corresponding to can be selectively processed.
  • the group may include at least one of a ribosomal protein, a chaperone, and a DNA binding protein.
  • ribosomal proteins, chaperones, and DNA-binding proteins which are highly likely to be expressed in living organisms and appear as peaks when mass spectra are measured, are The mass-to-charge ratio corresponding to the protein to be detected can be selectively processed. Therefore, it is possible to discriminate samples by weighting these proteins.
  • the step of constructing a mass-to-charge ratio database includes the entire database including all predicted mass-to-charge ratios.
  • the method may include building a mass-to-charge ratio database.
  • the step of constructing a mass-to-charge ratio database includes the entire database including all predicted mass-to-charge ratios.
  • the method may include building a mass-to-charge ratio database.
  • the step of constructing the mass-to-charge ratio database may include the step of associating the classification data with the mass-to-charge ratio database.
  • the genome ID created based on the collected classification data is used as the data contained in each of the overall mass-to-charge ratio database and the specific mass-to-charge ratio database. It is associated with Further, the collected classification data can be used to organize the overall mass-to-charge ratio database and the specific mass-to-charge ratio database, or can be reflected in the contents. The collected classification data can also be used for other uses in the device, such as when determining "specific proteins known to be significantly expressed only in specific species.”
  • the step of predicting includes a step of predicting a gene from genome data and a step of translating the predicted gene.
  • the method may include the steps of predicting a subsequent amino acid sequence, predicting a post-translational modification from the translated amino acid sequence, and predicting a protein to which the predicted post-translational modification has been added.
  • proteins that are actually expressed in a living body can be predicted from genome data. Therefore, the mass-to-charge ratio of proteins actually expressed in vivo can be reflected in the mass-to-charge ratio database, thereby improving the quality of the mass-to-charge ratio database.
  • (Paragraph 16) In the method for constructing a database for identifying microorganisms according to any one of Paragraphs 1 to 15, the step of acquiring new genome data and adding the new genome data to the mass-to-charge ratio database. A step of determining whether the new genome data satisfies the criteria, predicting the expressed protein from the new genome data, predicting the mass-to-charge ratio based on the prediction result, and calculating the new mass-to-charge ratio. The method may include predicting the list and adding the new list of mass-to-charge ratios to a mass-to-charge ratio database.
  • a device for constructing a database for identifying microorganisms constructs a database for identifying microorganisms using genome data of microorganisms obtained from a genome database.
  • the device includes a processor and a storage unit.
  • the processor determines whether the acquired genomic data meets the criteria. Furthermore, the processor predicts expressed proteins for each piece of genomic data determined to meet the criteria.
  • the processor also builds a mass-to-charge ratio database that includes a list of predicted mass-to-charge ratios for each genomic data based on the predicted proteins.
  • the processor also stores a mass-to-charge ratio database in the storage unit.
  • the apparatus for constructing a database for microorganism discrimination described in Section 17 it is possible to construct a mass-to-charge ratio database based only on genome data that satisfies the standards on the genome database. That is, it is possible to improve the quality of the mass-to-charge ratio database constructed based on the genome database, which is used for identifying microorganisms using mass spectrometry.

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

ゲノムデータベースから、微生物のゲノムデータを取得するステップ(ST02)と、取得したゲノムデータが基準を満たすか判定するステップ(ST06)と、基準を満たすと判定されたゲノムデータ毎に、発現するタンパク質を予測するステップ(ST16)と、予測されたタンパク質に基づいて予測された、ゲノムデータ毎の質量電荷比のリストを含む、質量電荷比データベースを構築するステップ(ST20A,20C)とを備える、微生物判別用のデータベースを構築する方法。

Description

微生物判別用のデータベースを構築する方法および装置
 本発明は、微生物判別用のデータベースを構築する方法および装置に関する。
 非特許文献1には、質量分析法を用いた微生物の判別について、2つのアプローチがあり得ることが開示されている。
 1つ目のアプローチは、未知の微生物について測定したマススペクトルを、既知の微生物毎に測定されたマススペクトルのデータベースと比較することで、未知の微生物を判別するフィンガープリント法である。しかし、この方法には、微生物のマススペクトルのパターンが、培地条件および測定の再現法により強く影響を受けやすい等の問題があった。
 このようなフィンガープリント法の問題に対して、2つ目のアプローチとして、ゲノムデータベースを用いたバイオインフォマティクスに基づく方法が着目されている。この方法では、未知の微生物について測定したマススペクトルを、ゲノムデータベースから予測されたタンパク質の質量電荷比のデータベースと比較することで、未知の微生物を判別する。この方法において、予測された質量電荷比は、培地条件および測定の再現法の影響を受けないので、上記のフィンガープリント法の問題を解決することができる。
田村廣人ら、「リボソームタンパク質をバイオマーカーとしたMALDI-TOF MSによる細菌識別-S10-GERMS法による細菌の迅速識別-」、島津評論別刷、第70巻、第3・4号、2013年
 この2つ目の方法において、予測された質量電荷比のデータベースの品質には、さらなる向上が望まれている。例えばゲノムデータベースに含まれる品質の低いゲノムデータが、予測された質量電荷比のデータベースの品質に影響している可能性が考えられる。
 本開示は、かかる課題を解決するためになされたものであり、その目的は、質量分析法を用いた微生物の判別に用いられる、ゲノムデータベースを基に構築される質量電荷比のデータベースの品質を向上することである。
 本開示の第1の局面に係る微生物判別用のデータベースを構築する方法は、ゲノムデータベースから、微生物のゲノムデータを取得するステップと、取得したゲノムデータが基準を満たすか判定するステップと、基準を満たすと判定されたゲノムデータ毎に、発現するタンパク質を予測するステップと、予測されたタンパク質に基づいて予測された、ゲノムデータ毎の質量電荷比のリストを含む、質量電荷比データベースを構築するステップとを備える。
 本開示の第2の局面に係る微生物判別用のデータベースを構築する装置は、ゲノムデータベースから取得した微生物のゲノムデータを用いて微生物判別用のデータベースを構築する。当該装置は、プロセッサと、記憶部とを備える。プロセッサは、取得したゲノムデータが基準を満たすか判定する。また、プロセッサは、基準を満たすと判定されたゲノムデータ毎に、発現するタンパク質を予測する。また、プロセッサは、予測されたタンパク質に基づいて予測された、ゲノムデータ毎の質量電荷比のリストを含む質量電荷比データベースを構築する。また、プロセッサは、記憶部に、質量電荷比データベースを記憶する。
 本開示による微生物判別用のデータベースを構築する方法によれば、ゲノムデータベース上の基準を満たすゲノムデータのみに基づいて、質量電荷比データベースを構築できる。すなわち、質量分析法を用いた微生物の判別に用いられる、ゲノムデータベースを基に構築される質量電荷比のデータベースの品質を向上できる。
本発明の実施形態に従う微生物判別システムの構成を示す概略図である。 装置で行なう処理の概要を示すフローチャートである。 質量電荷比データベースの構築に関する、装置の機能ブロック図である。 サンプルの判別に関する、装置の機能ブロック図である。 質量電荷比データベースを構築する処理を示すフローチャートである。 ゲノムデータの判定のサブルーチンを示すフローチャートである。 新たなゲノムデータを追加する処理を示すフローチャートである。 サンプルの判別に関する処理を示すフローチャートである。 サンプルの判別に関する処理の他の例を示すフローチャートである。 ゲノム中の遺伝子部位での塩基配列総数とゲノムあたりの推定遺伝子数との関係を示す図である。
 以下に、本発明の実施の形態について図面を参照して詳細に説明する。なお、以下では図中の同一または相当部分には同一の符号を付して、その説明は原則的に繰返さないものとする。
 [1.微生物判別システムの構成]
 図1は、本発明の実施の形態に係る微生物判別システム1000の構成を示す概略図である。
 図1を参照して、微生物判別システム1000は、公開ゲノムデータベース70、公開分類データベース80、ネットワーク90および装置100を含む。なお、本明細書において、「データベース」は、「DB」とも記載する。
 公開ゲノムDB70は、生物のゲノムデータを含むデータベースである。ゲノムとは、ある生物のもつ核酸(デオキシリボ核酸(DNA)、リボ核酸(RNA))上の遺伝情報であり、核酸の塩基配列を含む。本明細書においては、ゲノムデータは主にDNA配列のデータを指す。
 公開ゲノムDB70は、典型的には、一般に公開された生物のゲノムデータを多数含むDBであり、例えばNCBI(National Center for Biotechnology Information)、DDBJ(DNA Data Bank of Japan)、EMBL(European Molecular Biology Laboratory)のゲノムDBである。しかし公開ゲノムDB70の例はこれに限定されず、例えば、一般に公開されていないゲノムDBを含んでもよい。
 公開分類DB80は、生物の分類に関するデータ(以下、分類データ)を含むデータベースである。生物の分類とは、一般的には、科、属、種等の階級により示される生物同士の類縁関係に基づいた分類である。微生物の分類においては、伝統的に表現型とゲノムの両方に基づく、形態観察、表現形質、化学分類指標、タンパク質分析およびDNA分析という複数の指標に基づいて分類がなされているが、ゲノム情報のみでの分類体系もあり、複数の分類体系が存在する。
 公開分類DB80は、典型的には、一般に公開された生物の分類データを含むDBであり、例えばGTDB(Genome Taxonomy Database)、RDP(Ribosomal Database Project)、Silva等のDBである。しかし公開分類DB80の例はこれに限定されず、例えば、一般に公開されていないDBを含んでもよい。
 ネットワーク90は、装置100が公開ゲノムDB70および公開分類DB80と通信するためのネットワークである。ネットワーク90は、例えば、地球上の多数の政府、企業、公共、私用のネットワークを相互接続したインターネットである。
 装置100は、質量分析法を用いて微生物を判別するための質量電荷比(m/z)DBを構築する装置である。本明細書において、微生物を判別するとは、微生物を分類学的に同定することを指す。すなわち、例えば、微生物の属、種、株、系統の少なくとも1つを同定することである。したがって、装置100は、「微生物判別用のデータベースを構築する装置」の一実施例に対応する。また、装置100は、当該m/zDBを利用して、質量分析法を用いて微生物を判別するための装置である。したがって、装置100は、「微生物判別装置」の一実施例にも対応する。なお、本明細書において、微生物または生物の「種類」とは、例えば、微生物または生物の「ジェノタイプ、株、あるいは亜種・種・属・科等の系統分類群のランク」の少なくとも1つを含む。
 装置100は、コントローラ101と、ディスプレイ15と、操作部14とを含む。コントローラ101には、ディスプレイ15および操作部14が接続される。操作部14は、典型的には、タッチパネル、キーボード、マウスなどで構成される。操作部14は、プロセッサ10に対するユーザの操作入力を受け付ける。ディスプレイ15は、例えば画像を表示可能な液晶パネルで構成される。ディスプレイ15は、ユーザの操作入力の受け付けに関する画像を表示し、プロセッサ10による処理の結果を表示する。
 コントローラ101は、主な構成要素として、プロセッサ10と、メモリ11と、通信インターフェイス(I/F)12と、入出力I/F13とを有する。これらの各部は、バスを介して互いに通信可能に接続される。
 プロセッサ10は、典型的には、CPU(Central Processing Unit)またはMPU(Micro Processing Unit)などの演算処理部である。プロセッサ10は、メモリ11に記憶されたプログラムを読み出して実行することで、装置100の動作を制御する。
 メモリ11は、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、および、HDD(Hard Disk Drive)などの記憶装置で実現される。ROMは、プロセッサ10にて実行されるプログラムを格納することができる。RAMは、プロセッサ10におけるプログラムの実行中に利用されるデータを一時的に格納することができ、作業領域として利用される一時的なデータメモリとして機能することができる。HDDは、不揮発性の記憶装置である。HDDに加えて、あるいは、HDDに代えて、フラッシュメモリなどの半導体記憶装置を採用してもよい。なお、上記プログラムおよび/またはデータは、プロセッサ10がアクセス可能な外部の記憶装置に格納されていてもよい。メモリ11は、「記憶部」の一実施例に対応する。
 通信I/F12は、公開ゲノムDB70および公開分類DB80を含む外部装置と、各種データをやり取りするための通信インターフェイスであり、アダプタまたはコネクタなどによって実現される。なお、通信方式は、無線LAN(Local Area Network)などによる無線通信方式であってもよいし、USB(Universal Serial Bus)などを利用した有線通信方式であってもよい。
 入出力I/F13は、プロセッサ10と、入出力I/F13に接続される外部機器との間で各種データをやり取りするためのインターフェイスである。外部機器は、操作部14と、ディスプレイ15とを含む。入出力I/F13には、質量分析装置(MS)16が接続されてもよい。本明細書においては、入出力I/F13は、装置100に接続されるUSBメモリ等の記憶端末と、プロセッサ10との間でデータのやり取りを行なう機器も含むとする。
 MS16は、サンプルに含まれる成分の質量分析を行なうための装置であり、例えば、MALDI-TOF MS(Matrix-Assisted Laser Desorption/Ionization Time-of-Flight Mass Spectrometry)、MALDI-IT-TOF(Matrix-Assisted Laser Desorption/Ionization Ion Trap Time-of-Flight Mass Spectrometry)またはスキャン型IT-MSであるが、これに限定されない。MS16がMALDI-TOF MSの場合では、レーザー照射により生じたイオンをフライトチューブに引き出して飛行させ、飛行時間に応じて分離したのち検出する。飛行時間は、成分の質量電荷比m/zに相関する。その結果、m/zを横軸に、検出されたイオン強度を縦軸に示したマススペクトルが得られる。
 本明細書において、MS16はサンプル中のタンパク質の質量分析を行なう。よって、マススペクトルにおいては、サンプル中のタンパク質のm/zに応じてピークが検出される。よって、マススペクトルのパターン、より詳細には、所定の閾値以上の高さのピークが得られたm/zのリスト(本明細書ではm/zリストとも称する)を参照すると、サンプルに含まれるタンパク質がわかる。本明細書において、m/zリストに含まれるm/zは、マススペクトルのピークに対応するm/zを示すとする。
 異なる種類の生物は、異なるタンパク質を含むので、それぞれのマススペクトルのパターンおよびm/zリストも異なったものとなる。よって、マススペクトルのパターンおよびm/zリストに基づいて、生物の判別が可能である。
 MS16は、サンプルである未知の微生物の質量分析を行なったのち、サンプルのm/zリストであるサンプルリストを装置100に送信する。プロセッサ10は、サンプルリストに基づいて、サンプルを判別する。
 なお、装置100は、1つのコンピュータによって構成される必要はなく、複数のコンピュータによって構成されてもよい。
 [2.従来の装置との比較]
 従来、このような質量分析装置を用いた微生物の判別方法として、微生物毎に実際に測定したマススペクトルを含むデータベースを構築し、当該データベースと未知の微生物のマススペクトルとを比較する、フィンガープリント法が行なわれてきた。
 しかし、フィンガープリント法のための実用的なデータベースを構築するには、多くの種類(例えば千数百種)の微生物の実測したマススペクトルデータが必要である。また、同じ種類の微生物であっても、遺伝的多様性、培養条件、マススペクトル測定の前処理、繰り返し測定に伴うばらつきにより、マススペクトルのパターンが変化し得る。よって、これらの実情を鑑みると、実用的なデータベースには、非常に多くのマススペクトルデータが必要であり、例えば、各種類の微生物につき数十個、全ての種類の微生物で合計数万個のマススペクトルデータが必要となる。すなわち、実用的なデータベースの構築には、非常に多くの回数(例えば数万回)の微生物の培養およびマススペクトルの測定を実際に行なうことが必要であり、多大なコストがかかるものであった。
 そこで、新たな質量分析法を用いた微生物の判別方法として、公開されているゲノムデータベースを用いて、発現するタンパク質を予測し、当該タンパク質から予測されたm/zリストのデータベースであるm/zDBを構築し、当該m/zDBを利用する方法が着目されてきた。この方法では、当該m/zDBに含まれるm/zリストと、未知の微生物のマススペクトルのピークに対応するm/zリストであるサンプルリストとを比較することにより、サンプルを判別する。この方法においては、微生物の培養およびマススペクトルの測定を実際に行なう必要がなくなり、上記のフィンガープリント法と比較して、より簡便にマススペクトルのデータベースを構築することができる。
 しかし、この方法においても、予測されたm/zDBの品質、および、当該m/zDBを用いた微生物の判別の精度には、向上の余地があった。
 例えば、この方法では、公開されているゲノムデータベースの中に含まれる、品質の低いゲノムデータ(例えば未決定塩基を多く含むゲノムデータ)も、m/zDBに反映されてしまう。この結果、m/zDBの品質が低下し、m/zDBを用いた微生物の判別の精度も低下することが、懸念されていた。
 そこで、本実施の形態に従う装置100においては、公開ゲノムDB70から取得したゲノムデータのうち、所定の基準を満たす、品質の高いゲノムデータのみに基づいて、m/zDBを構築する。これにより、m/zDBの品質を向上することができる。また、当該m/zDBを用いた微生物の判別の精度を向上することができる。
 さらに、従来の予測されたm/zDBを用いた微生物の判別法には、他の問題も懸念されていた。例えば、予測されたm/zリストには、実測した場合マススペクトルには現れない偽のピークが含まれることが懸念されていた。これは、ゲノムデータからはタンパク質を発現すると予測される配列であっても、実際には何らかの理由でタンパク質が発現しなかったり、発現してもイオン化しない等の理由で実測のマススペクトルにおいてはピークとして検出できない可能性があるからである。この結果、サンプルリストと予測されたm/zリストとを比較する際に、当該偽のピークがノイズとなり、サンプルリストと、サンプルに無関係な種類の微生物のm/zリストが適合してしまう可能性が考えられた。よって、サンプルが無関係な種類の微生物であると判別されてしまう可能性が考えられた。すなわち、微生物の判別の精度が低下することが懸念されていた。
 そこで、本実施の形態に従う装置100においては、偽のピークとなる可能性が低いタンパク質、すなわち、「微生物の生体内で発現する可能性が高く、マススペクトルを測定した場合にもピークとして検出される可能性が高いタンパク質」に重み付けして微生物の判別を行なう。よって、偽のピークの影響により、異なる微生物と誤って判別されてしまう可能性が低減される。これにより、微生物の判別の精度を向上することができる。
 [3.装置の処理の概要]
 図2は、装置100で行なう処理の概要を示すフローチャートである。ステップ(以下、STとも称する)101において、装置100のプロセッサ10は、公開ゲノムDB70のゲノムデータからm/zDBを構築する。ST102において、プロセッサ10は、当該m/zDBを用いて、未知の微生物であるサンプルを判別する。
 (3-1.m/zDBの構築に関する機能ブロック)
 図3は、図2のST101に対応する、m/zDBの構築に関する装置100の機能ブロック図である。図3を参照して、装置100は、ゲノムデータ収集部21、ゲノムデータ判定部22、タンパク質予測部23、m/zDB構築部24および記憶部25を含む。
 ゲノムデータ収集部21は、公開ゲノムDB70から、ゲノムデータを収集する。
 ゲノムデータ判定部22は、収集したゲノムデータが、ゲノムデータの品質に関連する所定の基準を満たすか否かを判定する。
 タンパク質予測部23は、所定の基準を満たしたゲノムデータについて、発現するタンパク質を予測する。具体的にはDNA配列から推定遺伝子領域を予測し、推定遺伝子領域からアミノ酸配列が予測される。そして、当該アミノ酸配列に基づいて、発現するタンパク質が予測される。
 m/zDB構築部24は、予測されたタンパク質に基づいて、m/zリストを予測し、m/zDBを構築し、記憶部25に保存する。m/zDBは、例えば、2種類のm/zDBを含む。一方のm/zDBは、ゲノムデータから予測された全てのタンパク質に対応するm/zを含む全体m/zDBである。他方のm/zDBは、ゲノムデータから予測されたタンパク質のうち、特定のグループに含まれるタンパク質に対応するm/zだけを含む特定m/zDBである。当該2つのm/zDBは、図4で説明する、未知の微生物であるサンプルの判別に用いられる。
 ゲノムデータ収集部21、ゲノムデータ判定部22、タンパク質予測部23およびm/zDB構築部24は、図1のプロセッサ10に対応する。記憶部25は、図1のメモリ11に対応する。
 (3-2.サンプルの判別に関する機能ブロック)
 図4は、図2のST102に対応する、サンプルの判別に関する装置100の機能ブロック図である。図4を参照して、装置100は、取得部31、サンプル判別部32、注釈部33、出力部34および記憶部25を含む。
 取得部31は、サンプルリストを取得する。サンプルリストは例えば、装置100に接続されたMS16から取得される。サンプルリストの取得方法はこれに限定されず、例えば、装置100と通信する外部の装置、または、装置100に接続される記憶端末から取得されてもよい。取得部31は、さらに、必要に応じてサンプルリストに含まれるm/zの測定誤差を推定し、補正を行なう。取得部31は、図1のプロセッサ10に対応する。
 サンプル判別部32は、サンプルリストと、記憶部25に記憶されたm/zDBとを、特定のグループに含まれるタンパク質に対応するm/zに重み付けした上で比較することによって、サンプルを判別する。サンプル判別部32は、例えば、一次スクリーニング部321および二次スクリーニング部322を含む。一次スクリーニング部321は、特定m/zDBに含まれるm/zリストを利用して、特定のグループに含まれるタンパク質に対応するm/zに基づくスクリーニングを行なう。二次スクリーニング部322は、全体m/zDBに含まれるm/zリストのうち、一次スクリーニングで絞り込まれたゲノムデータに対応するm/zリストについて、全てのタンパク質に対応するm/zに基づくスクリーニングを行なうことによって、サンプルを判別する。サンプル判別部32は、図1のプロセッサ10に対応する。
 注釈部33は、サンプルリストに含まれる各m/zに対し、予測されるタンパク質に関する情報である注釈をリンクさせる。注釈のリンクには、例えば、タンパク質の質量に基づいて、対応するタンパク質の名称を検索するソフトウェアが用いられる。注釈部33は、図1のプロセッサ10に対応する。
 サンプル判別部32による判別結果およびm/zの注釈は、記憶部25に記憶され、かつ/または、出力部34により出力される。出力部34は、図1のプロセッサ10、および、ディスプレイ15または通信I/F12に相当する。すなわち、判別結果および注釈は、ディスプレイ15に表示される、および/または、通信I/F12を介して外部の装置に送信される。これにより、ユーザは、判別結果および注釈を認識することができる。
 [4.m/zDBの構築に関する処理の流れ]
 (4-1.m/zDBの構築)
 次に、装置100で行なわれる処理の流れを具体的に説明する。
 図5は、m/zDBを構築する処理を示すフローチャートである。図5に示されるST02~ST28の処理は、図2のST101における処理に相当する。
 図5を参照して、ST02において、プロセッサ10は、公開ゲノムDB70から、微生物のゲノムデータを取得する。このとき、複数の公開ゲノムDB70からゲノムデータを取得することにより、臨床あるいは産業上重要な微生物種のゲノムデータを網羅的に収集することが可能である。
 ST04において、プロセッサ10は、取得したゲノムデータを統合して、収集ゲノムDBを構築する。
 ST06において、プロセッサ10は、収集ゲノムDB内のゲノムデータが予め定められた基準を満たすか否かを判定する。当該基準は、品質の高いゲノムデータのみが基準を満たすように設定される。具体的な基準の内容については、図6で説明する。
 ST08において、プロセッサ10は、基準を満たすと判定されたゲノムデータが含まれる高品質ゲノムDBを構築する。
 ST10において、プロセッサ10は、高品質ゲノムDBに含まれるゲノムデータについて、ゲノムデータに含まれる遺伝子を予測する。遺伝子とは、DNA上のタンパク質に翻訳される特定の領域、または、その領域に含まれる情報を指す。遺伝子の予測は、例えば、ゲノムデータ上のタンパク質に翻訳される推定遺伝子領域を、翻訳の開始コドン(ATG配列)および終止コドン(TGA配列)を手がかりに推定することを含む。
 ST12において、プロセッサ10は、予測された遺伝子から翻訳後のアミノ酸配列を予測する。アミノ酸配列の予測は、例えば、推定遺伝子領域に含まれる各コドン(3つの塩基配列)に対応するアミノ酸を推定し、それをつなぎ合わせることを含む。
 ST14において、プロセッサ10は、予測されたアミノ酸配列からなるタンパク質に対する翻訳後修飾を予測する。翻訳後修飾は、翻訳された直後のタンパク質が、実際に生体内の各所で機能するタンパク質に変化するために、タンパク質に対して行なわれる修飾である。翻訳後修飾は、例えば、メチオニンの除去、シグナルペプチドの除去を含むタンパク質の分解、リン酸化を含む特異的化学修飾を含む。翻訳後修飾はほとんどのタンパク質に加えられ、そのm/zを変化させる。よって、翻訳後修飾を鑑みることで、より正確なタンパク質のm/zが算出できる。
 ST16において、プロセッサ10は、予測された翻訳後修飾を加えたタンパク質を予測する。
 ST18において、プロセッサ10は、当該タンパク質に基づいてゲノムデータ毎のm/zリストを予測する。具体的には、当該タンパク質に含まれる原子の質量を基に、タンパク質に対応するm/zが計算される。なお、原子の質量として、自然界における元素の同位体分布を反映した元素の平均質量が用いられることが好ましい。これにより、より正確なm/zが計算される。
 ST20Aにおいて、プロセッサ10は、当該m/zリストを含む質量電荷比のデータベースである全体m/zDBを構築する。全体m/zDBは、ゲノムデータ毎に予測された全てのm/zを含む。
 一方で、ST22において、プロセッサ10は、ST16で予測されたタンパク質のデータに注釈をリンクさせる。注釈とは、一般的には、タンパク質に関する情報であり、タンパク質の名称、機能等を含む。注釈のリンクは、例えば、一般的な、m/zに応じて注釈を付加するソフトウェアを使用して行なわれるが、これに限定されず、例えば装置100が公開ゲノムDB70および公開分類DB80に基づいてm/zと注釈との関連を示す表を作成し、当該表を用いて行なわれてもよい。
 本明細書においては、注釈は、タンパク質に関する情報であり、タンパク質が含まれるグループの情報を含む。タンパク質のグループに関する情報は、タンパク質の名称、機能およびファミリーの少なくともいずれか1つを含む。
 注釈をリンクさせるメリットの1つは、注釈に基づいて特定のグループに含まれるタンパク質に対応するm/zを選択して、その他のタンパク質に対応するm/zとは別に扱うことができることである。よって、例えば、「微生物の生体内で発現する可能性が高く、マススペクトルを測定した場合にもピークとして検出される可能性が高いタンパク質のグループ」に対応するm/zに、選択的に重み付けして微生物の判別を行なうことが可能になる。これにより、ゲノムデータから予測されたm/zリストにおいて、「微生物の生体内では実際にタンパク質として発現しなかったり、発現してもマススペクトルには現れないタンパク質に対応するm/z(偽のピーク)」に比べ、「生体内で発現する可能性が高く、マススペクトルを測定した場合にもピークとして検出される可能性が高いタンパク質に対応するm/z」に重み付けして、サンプルを選別できる。よって、予測したm/zリストに含まれる偽のピークがノイズとなり、サンプルの選別の精度が低減することを抑制できる。
 「生体内で発現する可能性が高く、マススペクトルを測定した場合にもピークとして検出される」ためには、発現量が所定の閾値以上であるという条件、生命維持に不可欠な機能を有するという条件、所定の種類に分類される微生物(例えば所定の科に属する微生物)においてアミノ酸配列の類似度(相同性)が所定の閾値以上である微生物が所定の割合以上存在するという条件、塩基性タンパク質であるという条件、MALDI-MS測定で測定した際に±14Da以内(さらに好ましくは±3Da以内)の誤差範囲で質量電荷比を分析できるという条件、タンパク質の質量が4~30kDa(さらに好ましくは2~20kDa)に含まれるという条件、グループに含まれるタンパク質の種類が所定の数以上であるという条件、所定の種類に分類される微生物(例えば所定の科に属する微生物)において当該ゲノムデータを含む微生物の数が所定の割合以上である条件、の少なくとも1つの条件に基づいて、グループが選択されることが好ましい。
 なお、上記生命維持に不可欠な機能は、細胞の維持および増殖の少なくとも1つに不可欠な機能を含む。
 このような条件を鑑みて決定されるグループは、例えば、リボソームタンパク質である。グループの他の例は、シャペロン、DNA結合タンパク質である。
 また、グループは、上記に例示したような微生物全般で顕著に発現するタンパク質に限らず、特定の微生物で顕著に発現することが知られているタンパク質であってもよい。例えば、各々の属で顕著に発現することが知られている特定のタンパク質に重み付けして、サンプルの判別を行なうと、サンプルが正しい属に判別される可能性を高めることができる。なお、本明細書において「顕著に発現するタンパク質」の一例は、所定の閾値以上の発現量を示すタンパク質である。
 ST24において、プロセッサ10は、注釈に含まれるグループに関する情報に基づいて、特定のグループに含まれると予測されるタンパク質を選択する。続くST26において、プロセッサ10は、選択されたタンパク質から予測されるm/zのみを含む特定m/zリストを予測する。ST20Cにおいて、プロセッサ10は、特定m/zリストを含むm/zデータベースである特定m/zDBを構築する。
 注釈をリンクさせる他のメリットは、m/zリストに含まれるm/zがそれぞれどんなタンパク質に対応するか否かがユーザにとってわかりやすくなることである。このような観点から、m/zに対する注釈を利用しやすくするために、ST20Bにおいて、プロセッサ10は全体m/zDBに含まれるm/zに対する注釈をまとめた注釈DBを構築する。
 注釈をリンクさせるさらに他のメリットは、注釈を参照して、サンプルリストとm/zDBに含まれるm/zリストとの比較の妥当性が検討できることである。例えば、サンプルリストとm/zのパターンが適合する度合い(適合率)が高いと判定されたm/zDBのm/zリストにおいて、注釈を参照できる。このとき、当該m/zリストにおいて、注釈からはその微生物においては発現しないと推定されるタンパク質に対応するm/zが多数含まれる場合には、当該m/zリスト自体の信頼性が危ぶまれるので、そもそもサンプルリストと比較する妥当性も低く、サンプルの判別の信頼性も低い。また、サンプルリストにおいて機能的に重要であり、進化的に保存されていると思われるタンパク質に対応するm/zが、当該m/zリストにおけるノイズのm/zと一致する場合にも、当該比較の妥当性が低く、サンプルの判別性の信頼性も低いことが分かる。このように、サンプルリストとの比較の妥当性が低いm/zリストを見いだした場合、ユーザは、当該m/zリストを除去するなどして、判別の信頼性を高めることができる。
 注釈DBの注釈は、m/zDBに含まれるm/zとリンクされる。一例として、m/zDBに含まれるm/zリストのm/zを参照する際に、注釈DBに含まれる対応する注釈が合わせて参照できるように、m/zDBと注釈DBが対応づけられる。また、他の例としては、m/zDBに含まれるm/zに対応する注釈が付加される形で、m/zDBの一部として注釈DBが構成されてもよい。
 ST28において、プロセッサ10は、公開分類DB80の分類データを取得する。ST20Dにおいて、プロセッサ10は、収集した分類データを統合した、収集分類DBを構築する。このとき、複数の公開分類DB80の分類データに基づいて収集分類DBを構築すれば、幅広い分類学的体系を取り込むことが可能である。よって、収集分類DBを用いれば、様々な分類学的体系を、微生物の判別結果に反映することが可能になる。
 また、収集分類DBは、ゲノムごとのIDであるゲノムIDを含んでもよい。ゲノムIDは、例えば収集した分類データに基づいて作成される。
 収集分類DBの分類データは、全体m/zDB、特定m/zDB、注釈DBの各々に含まれるデータと対応付けられる。よって、全体m/zDB、特定m/zDBの各ゲノムデータに、ゲノムIDを付加することができる。また、収集分類DBの内容を、全体m/zDBおよび特定m/zDBの整理に用いたり、内容に反映することも可能である。また収集分類DBは、上記した「特定の種でのみ顕著に発現することが知られている特定のタンパク質」を決定するとき等、装置100における他の用途にも用いることが可能である。
 これらの対応付けられた4つのDBをまとめて微生物DBと称する。プロセッサ10は、ST20A~20Dで微生物DBを構築した後に、処理を一旦終了する。これにより、装置100は、微生物DBを用いて、図8、図9で詳述する質量分析法を用いたサンプルの判別を行うことが可能になる。
 図5で示された処理は、例えば公開ゲノムDB70の更新に応じて、例えば年1回行なわれる。これにより、公開ゲノムDB70で更新された内容を適宜微生物DBに反映できるので、微生物DBの内容がさらに向上する。
 (4-2.ゲノムデータの判定)
 図6は、ゲノムデータの判定処理を示す図である。図6に示されるST060~ST069は、図2のST06に対応する処理である。図6に示される処理は、収集ゲノムDBに含まれる品質の低いゲノムデータを除去するために行なわれる。
 ST060において、プロセッサ10は、ゲノムデータの完全性に基づいて、ゲノムデータの品質を判定する。ゲノムの完全性は、例えば微生物のゲノムに1コピーずつ存在することが知られている単一コピーマーカー遺伝子(single copy marker gene)群を指標として行なわれる。ゲノムデータが完全である場合、サンプル内に単一コピーマーカー遺伝子が全て存在するはずである。しかし、例えば、ゲノムデータの一部が欠損していたり、誤って読み取られている場合のように、ゲノムデータが不完全である場合には、当該欠損部に含まれる単一コピーマーカー遺伝子は失われる。したがって、ゲノムデータが欠損したり、誤って読み取られている部分が大きいほど、ゲノムデータ上の単一コピーマーカー遺伝子の数は少なくなる。従って、ゲノムデータの完全性の指標として、単一コピーマーカー遺伝子の数が使用できる。具体的には、ゲノムデータ上に単一コピーマーカー遺伝子が全て存在した場合を100%として、単一コピーマーカー遺伝子が存在した数に比例して完全性が割合として計算される。
 具体的には、ST060において、プロセッサ10は、ゲノムデータの完全性が基準値T1より大きいか否かを判定する。基準値T1は、例えば50%である。完全性が基準値T1以下の場合(ST060においてNO)、ST061において、プロセッサ10は、当該ゲノムデータを除去する。完全性が基準値T1より大きい場合(ST060においてYES)、プロセッサ10は、ST062に処理を進める。
 ST062において、プロセッサ10は、ゲノムのコンタミネーションの割合に基づいて、ゲノムデータの品質を判定する。コンタミネーションとは、何らかの理由で、1つのゲノムデータのDNA配列中に、他のゲノムデータのDNA配列が混じってしまう現象を指す。すなわち、コンタミネーションが起こっているとは、典型的には複数の微生物のDNA配列が混ざってしまっている状態である。ゲノムデータにコンタミネーションが起こっていない場合、単一コピーマーカー遺伝子が見いだされる割合を100%とすると、コンタミネーションが起こっている場合、当該割合は100%より大きくなる。したがって、例えば、コンタミネーションが起こらずに、ゲノムデータ上に単一コピーマーカー遺伝子が全て存在した場合を100%として、単一コピーマーカー遺伝子が見いだされた数に基づいてコンタミネーションの割合が計算される。単一コピーマーカー遺伝子が見いだされた数が(100+n)%に相当する場合、コンタミネーションの割合はn%である。nはn>0を満たす実数である。コンタミネーションの割合が高いと、複数の種類の微生物のDNA配列が混ざってしまっている可能性が高いと考えられる。
 具体的には、ST062において、プロセッサ10は、コンタミネーションの割合が基準値T2より小さいか否かを判定する。基準値T2は、例えば20%である。コンタミネーションの割合が基準値T2以上である場合(ST062においてNO)、ST063において、プロセッサ10は、当該ゲノムデータを除去する。コンタミネーションの割合が基準値T2より小さい場合(ST062においてYES)、プロセッサ10は、ST064に処理を進める。
 ST064において、プロセッサ10は、コンティグの数に基づいて、ゲノムデータの品質を判定する。コンティグとは、本来1本のDNA配列が、複数のDNA配列に分断されている場合、その分断された配列のことを指す。従って、コンティグの数が多いほど、DNA配列が細かく分断されている。コンティグの数が多すぎると、タンパク質を発現する遺伝子領域も分断され、正確に読み出せない可能性がある。コンティグの数は、ゲノムデータに含まれるDNA配列がいくつに分断されているかを数えればわかる。
 具体的には、ST064において、プロセッサ10は、コンティグの数が基準値T3より小さいか否かを判定する。基準値T3は、例えば1000個である。コンティグの数が基準値T3以上である場合(ST064においてNO)、ST065において、プロセッサ10は、当該ゲノムデータを除去する。コンティグの数が基準値T3より小さい場合(ST064においてYES)、プロセッサ10は、ST066に処理を進める。
 ST066において、プロセッサ10は、未決定塩基の数に基づいて、ゲノムデータの品質を判定する。未決定塩基とは、DNA塩基配列が解読された際に、AGCTのいずれとも判定できなかった塩基を指す。未決定塩基が多く含まれるDNA配列からは、適切に遺伝子が見いだせない可能性が高い。
 具体的には、ST066において、プロセッサ10は、未決定塩基の数が基準値T4より小さいか否かを判定する。基準値T4は、例えば10万個である。未決定塩基の数が基準値T4以上である場合(ST066においてNO)、ST067において、プロセッサ10は、当該ゲノムデータを除去する。コンティグの数が基準値T4より小さい場合(ST067においてYES)、プロセッサ10は、ST068に処理を進める。
 ST068において、プロセッサ10は、遺伝子数が基準値を満たすか否かに基づいて、ゲノムデータの品質を判定する。この基準は、ゲノムデータから推測される遺伝子数が妥当な範囲に含まれるか否かを判定するためのものである。例えば、ゲノムデータから推測される遺伝子数が異常に多い場合、何らかの原因で、本来遺伝子でない部分が遺伝子として推測されてしまっていると考えられる。何らかの原因とは、例えば、DNA塩基配列の解読の際に、塩基配列の解読間違いが生じて、本来転写や翻訳の開始や終了に関係しない配列が、転写や翻訳の開始や終了に関係する配列として解読されてしまうことである。この場合、本来タンパク質を発現しない配列も、タンパク質を発現する配列であると誤解されてしまい、予測されるm/zリストには誤ったピークが多数含まれてしまうことが懸念される。このようなm/zリストがm/zDBに含まれると、m/zDBの品質が低下し、サンプルの判別の精度も低下する。
 具体的には、ST068において、プロセッサ10は、ゲノムデータ中の遺伝子数を、遺伝子をコードする塩基(coding bases)の数で除算した数が、基準値T5より小さいか否かを判定する。遺伝子をコードする塩基とは、一般的には、DNA配列上の、タンパク質の発現に関する領域に含まれる塩基を指す。基準値T5は、例えば0.00180である。当該除算した数が基準値T5以上である場合(ST068においてNO)、ST069において、プロセッサ10は、当該ゲノムデータを除去する。当該除算した数が基準値T5より小さい場合(ST068においてYES)、プロセッサ10は、当該ゲノムデータを高品質ゲノムDBに加える。
 プロセッサ10は、ST060~ST069を、収集ゲノムDBに含まれる全てのゲノムデータに対して行なう。
 なお、完全性、コンタミネーションの割合、コンティグの数、未決定塩基の数、遺伝子数の妥当性の各々の基準に対する計算法は上記の例に限定されない。例えば、遺伝子数の妥当性は、1つのゲノムデータに含まれる遺伝子数が、所定の基準値より小さいか否かで判定してもよい。
 図6に示された処理により、収集ゲノムDBに含まれていた、基準を満たさないゲノムデータは除去される。すなわち、公開ゲノムDB70に含まれていたゲノムデータのうち、品質の低いものが除去され、品質の高いものだけがm/zDBを構築するために使用される。よって、装置100におけるm/zDBの品質が向上する。
 (4-3.新たなゲノムデータの追加)
 装置100は、さらに、新たなゲノムデータのm/zDBへの追加も可能に構成される。当該追加は、例えば、装置100を使用するユーザが、新たな微生物を発見し、当該微生物のゲノムデータの追加を所望するときに実施される。
 図7は、新たなゲノムデータを追加する処理を示す図である。図7のフローチャートは、図5のフローチャートのST02がST02Aに変更されており、図5のST04,ST08のステップが削除されている。図7のフローチャートのST12以降の処理は、図5のフローチャートのST12以降の処理に対応する。
 ST02Aにおいて、プロセッサ10は、新たなゲノムデータを取得する。具体的には、例えば、プロセッサ10は、当該ゲノムデータをDNAシーケンサまたは記憶装置などの外部の装置から、または、USBメモリなどの記憶端末から、入出力I/F13または通信I/F12を介して取得する。
 ST06において、プロセッサ10は、当該ゲノムデータが基準を満たすか判定する。当該基準は、品質の高いゲノムデータのみが基準を満たすように設定される。新たなゲノムデータが基準を満たした場合、プロセッサ10はST10に処理を進める。新たなゲノムデータが基準を満たさない場合、プロセッサ10は新たなゲノムデータを除去する。
 ST10において、プロセッサ10は、当該ゲノムデータに含まれる遺伝子を予測し、処理をST12に進める。以降の処理は、図5の処理と同じであるため、その説明は繰り返さない。よって、プロセッサ10は、新たなゲノムデータから発現が予測されるタンパク質についても、所定の基準を満たす品質の場合には、m/zDBに追加することができる。
 このように構成すれば、新たに取得されたゲノムデータから予測されるm/zリストをm/zDBに追加することができ、m/zDBの内容をより充実させることができる。結果的に、m/zDBの品質がさらに向上し、当該m/zDBを用いてのサンプルの判別の精度もさらに向上する。
 [5.サンプルの判別に関する処理の流れ]
 (5-1.2段階スクリーニング)
 装置100は、以上のように構築したm/zDBを用いてサンプルの判別を行なう。
 図8は、サンプルの判別に関する処理を示すフローチャートである。図8に示されるST32~ST54の処理は、図2のST102の処理に相当する。
 図8を参照して、ST32において、プロセッサ10は、サンプルリストを取得する。サンプルリストは、例えば、MS16から取得される。ST34において、プロセッサ10は、サンプルリストのm/zを補正するか否かを判定する。サンプルリストを補正するか否かは、例えば、前もってユーザに設定されている。
 MALDI-TOF MS等の質量分析装置における分析時には、サンプルに含まれるタンパク質の質量、使用する装置等に応じて、実際より大きい、または、実際より小さいm/zが検出されることがある。すなわち、サンプルリストにおいては、多少のm/zのシフトが測定誤差として含まれる場合がある。一方、装置100に含まれるm/zDBは、理論値であるので、測定誤差を含まない。よって、サンプルリストのm/zを測定誤差を打ち消すようにシフトしてから、装置100に含まれるm/zDBと比較した方が、正確にサンプルが判別できる。
 測定誤差の推定は、以下の手順で行なわれる。まず、測定誤差を含むサンプルリストをそのまま「測定誤差を(略)含まないと想定されるm/zリスト」と比較する。続いて、当該サンプルリストを所定の値でシフトしたときに、「測定誤差を含まないと想定されるm/zリスト」との適合率が高くなる所定の値を探す。この所定の値が、測定誤差に対応する。なお、所定の値は、測定誤差としてとりうる値の範囲内で探される。
 なお、「測定誤差を含まないと想定されるm/zリスト」は、例えば、偽のピークを含みにくいと考えられる特定m/zDBに含まれるm/zリストであるが、これに限定されず、例えば全体m/zDBに含まれるm/zリストでもよいし、サンプルリストの測定誤差の補正用に準備された他のm/zリストであってもよい。
 サンプルリストのm/zを補正する場合(ST34においてYES)、ST36において、プロセッサ10は、特定m/zDBに基づいて、サンプルリストに含まれる測定誤差を推定する。ST38において、プロセッサ10は、推定された測定誤差の分だけサンプルリストのm/zをシフトするという補正を行なう。
 サンプルリストのm/zを補正しない場合(ST34においてNO)、または、ST38に続いて、ST40~ST44において、プロセッサ10は、サンプルリストと、m/zDBとを、特定のグループに含まれるタンパク質に対応するm/zに重み付けした上で比較し、サンプルを判別する。
 ST40において、プロセッサ10は、一次スクリーニングとして、特定m/zDBの中から、サンプルリストとの適合率が所定の順位以上のm/zリストを選択する。「適合率が所定の順位以上のm/zリスト」とは、より詳細には、スクリーニングに用いるm/zDB中のm/zリストの中で、サンプルリストとの適合率が所定の順位以上であるm/zリストである。例えば、適合率が上位N1個のm/zリストが、適合率が所定の順位以上のm/zリストとして選択される。N1は、例えば500~5000の間の整数である。「適合率が所定の順位以上のm/zリスト」の他の例は、適合率が所定の数値以上のm/zリストである。「適合率が所定の数値以上のm/zリスト」は、「適合率が所定の数値以上のm/zリストの数に対応する順位以上のm/zリスト」と考えることができる。
 ST42において、プロセッサ10は、当該上位N1個のm/zリストに対応する、全体m/zDB中のm/zリストを選択する。換言すると、当該上位N1個のm/zリストに対応するゲノムの、全体m/zDB中のm/zリストを選択する。
 ST44において、プロセッサ10は、二次スクリーニングとして、選択された全体m/zDB中のm/zリストの中から、サンプルリストと適合率の高いm/zリストを選択することにより、サンプルを判別する。例えば、選択された全体m/zDB中のm/zリストの上位N2個のm/zリストが、適合率の高いm/zリストとして選択される。なお、N1は、N2<N1となる整数であり、例えば、1~100の間の整数である。
 サンプルの判別が完了すると、ST46において、プロセッサ10は、判別結果に分類データを反映する。例えば、プロセッサ10は、選別されたN1個のm/zリストの各々に対応する微生物の分類情報(科、属、種、系統等)を付加する。
 また、N1個のm/zリストを、分類データを基に整理してもよい。例えば、N1個のm/zリストを、分類情報順に並び替えた表を作成してもよい。また、例えば、N1個のm/zリストに対応する微生物を系統樹上に記載した図を作成してもよい。また、例えば、N1個のm/zリストに対応する微生物の中に特定の科、属、種、系統に対応する微生物がいくつずつ含まれるかを数値化してもよい。具体的には、N1個のm/zリストに対応する微生物の中で、最も数が多かった科、属、種、系統を記載した表を作成してもよい。また、例えば、N1個のm/zリストに分類データを反映することで、さらに判別結果を絞り込んでもよい。具体的には、分類学的に明らかな外れ値であるm/zリストは除去するなどの処理を加えてもよい。以上に例示された処理により、分類学的観点を反映した判別結果が出力可能である。また、以上に例示された処理は、2種類以上の分類学的体系に基づいてなされてもよい。これにより、複数の分類学的観点を反映した判別結果を作成できる。
 ST48において、プロセッサ10は、サンプルリストに含まれるm/zに対応するタンパク質、すなわち、サンプルで発現すると考えられるタンパク質を予測するかを判定する。タンパク質を予測するか否かは、例えば、前もってユーザによって設定されている。
 タンパク質を予測しない場合(ST48においてNO)、ST50において、プロセッサ10は判別結果を出力し、処理を終了する。判別結果は、例えば、ディスプレイ15に表示されることで、出力される。
 タンパク質を予測する場合(ST48においてYES)、ST52において、プロセッサ10は、サンプルリストに含まれるm/zに対応するタンパク質の注釈をリンクさせる。注釈は、上記したようにタンパク質に関する情報であり、タンパク質が含まれるグループに関する情報を含む。具体的には、例えば、プロセッサ10は、サンプルリストに、m/zに対応するタンパク質の名称および機能の項目を追加する。また、例えば、プロセッサ10は、サンプルリストと独立した、サンプルリストに含まれるm/zに対応するタンパク質の名称および機能の表を作成してもよい。
 タンパク質の注釈がリンクされると、ST54において、プロセッサ10は、ST44,ST46で作成された判別結果と、ST52においてサンプルリストに含まれるm/zに対応づけられた注釈とを出力し、処理を終了する。判別結果と注釈とは、例えば、ディスプレイ15に表示されることで、出力される。このように、サンプルリストから予測された発現するタンパク質に関する情報を出力すると、ユーザは、サンプルにおいて発現すると予測されるタンパク質に関する情報を容易に認識できるので、サンプルへの理解を深める。また、当該タンパク質に関する情報は、サンプルの判別結果の検討時にも参照可能であるし、サンプルに対して他の解析を行なうときに参照することも可能であり、ユーザの利便性を高める。
 図8の処理では、特定m/zDBに基づく一次スクリーニングと、全体m/zDBに基づく二次スクリーニングが行なわれるが、これには以下のメリットがある。まず、機能的に重要であり、発現量の多いタンパク質のm/zに絞って一次スクリーニングを行なうことによって、偽のピークの影響が少ない状態で、適合率の高いm/zリストを絞り込むことができる。次に、全てのm/zにおいて、二次スクリーニングを行なうことによって、一次スクリーニングで行なった特定のグループに含まれるタンパク質以外のタンパク質の類似度を反映することができる。
 なお、一次スクリーニングと異なる特定のグループに含まれるタンパク質のm/zに絞って二次スクリーニングを行なってもよい。この場合は、2種類の重要なタンパク質に着目してサンプルを判別できる。
 また、このように異なるスクリーニングを3回以上組み合わせてもよい。
 まとめると、装置100は、特定のグループに含まれるタンパク質に対応するm/zに基づくスクリーニングを含む、2段階以上のスクリーニングによりサンプルを分類学的に判別することができる。このように複数の異なるスクリーニングを行なうことで、それぞれのスクリーニングの特徴を生かし、全体としてサンプルの判別の精度を高めることができる。
 さらに、装置100は、微生物の分類に関する分類データを基に、サンプルを判別するようにも構成できる。
 例えば、特定m/zDBを、比較的上位の分類群(例えば種・株より上位の分類群として属等)の中で共通して発現するタンパク質のグループに対応するm/zのみを含むように構築する。概念的には、特定m/zDBとして、ある属A内で共通して発現するタンパク質のグループPAを含むとする。この場合、当該特定m/zDBを用いたスクリーニングにより、サンプルが属Aに含まれるか否かを精度よく判定できる。同様にして、特定m/zDBとして、各属内で共通して発現するタンパク質のグループの各々を含むように構築すれば、当該特定m/zDBを用いたスクリーニングにより、サンプルの属を精度よく判別できる。そして、その後、二次スクリーニングとして、判別された属内での、種・株の判別を行なうことができる。よって、一次スクリーニングにおいて、サンプルの属が誤って判定される可能性を軽減し、二次スクリーニングにおいて、種・株の判別に適した状態でスクリーニングを行なうことができる。よって、サンプルの判別の精度を高めることができる。
 (5-2.スコアによる重み付け)
 サンプルの判別において、特定のグループに含まれるタンパク質に対応するm/zに重み付けする方法は、上記の特定m/zDBを利用する方法に限定されない。例えば、サンプルリストと全体m/zDBに含まれるm/zリストとを比較する際に、特定のグループに含まれるタンパク質に対応するm/zが一致した場合には、他のタンパク質に対応するm/zが一致した場合より、適合率が高くなるように計算する方法であってもよい。
 図9は、サンプルの判別に関する処理の他の例を示すフローチャートである。図9のフローチャートは、図8のフローチャートのST40~ST42がST40Aに変更されており、図9のその他のステップは図8と同様である。
 図9のST40Aにおいて、プロセッサ10は、全体m/zDB中のm/zリストの中から、サンプルリストと適合率の高いm/zリストを選択する。例えば、全体m/zDB中の上位N3個のm/zリストが、適合率の高いm/zリストとして選択される。具体的には、プロセッサ10は、まず、全体m/zDBに含まれるm/zリストの各々について、m/zリストに含まれるm/zとサンプルリストに含まれるm/zとが一致した数に、所定の係数を乗算してスコアを計算する。そして、全体m/zDB中において、スコアが所定の順位以上のm/zリストを選択する。「スコアが所定の順位以上のm/zリスト」とは、より詳細には、スクリーニングに用いるm/zDB中のm/zリストの中で、スコアが所定の順位以上であるm/zリストである。例えば、スコアが上位N3個のm/zリストが、スコアが所定の順位以上のm/zリストとして選択される。「スコアが所定の順位以上のm/zリスト」の他の例は、スコアが所定の数値以上のm/zリストである。「スコアが所定の数値以上のm/zリスト」は、「スコアが所定の数値以上のm/zリストの数に対応する順位以上のm/zリスト」と考えることができる。
 このとき、スコアを計算する際に用いる係数は、特定のグループに含まれるタンパク質に対応するm/zが一致した場合には、特定のグループに含まれるタンパク質に対応しないm/zが一致した場合よりも大きくなるように設定されている。例えば、係数は10倍に設定される。すなわち、特定のグループに含まれるタンパク質に対応するm/zが一致した場合の方が、そうではないタンパク質に対応するm/zが一致した場合より、スコアが大きくなりやすく、結果として適合率が高く計算されやすくなる。したがって、特定のグループに含まれるタンパク質に重み付けした状態で、サンプルの判別を行なうことができる。よって、例えば偽のピークを含みにくい機能的に重要で保存されているタンパク質について重み付けしてサンプルを判別できるので、サンプルの判別の精度が高まる。
 なお、ST40Aにおいて、特定のグループに含まれるタンパク質に対応するm/zは、特定m/zDBに含まれるm/zとして選択されてもよいが、注釈DBを参照して選択されてもよい。また、上記したように、ST36で示される測定誤差の推定においても、必ずしも特定m/zDBを利用する必要は無い。よって、スコアの係数で重み付けをする微生物の判別方法においては、特定m/zDBの構築は必ずしも必須ではない。
 また、重み付けの方法として、特定m/zDBを利用した多段スクリーニングを行なう方法と、スコアの係数を変化させる方法を組み合わせてもよい。例えば、一次スクリーニングとして、とあるグループのタンパク質の特定m/zDBを用いてスクリーニングし、二次スクリーニングとして、別のグループのタンパク質に相当するm/zが一致した場合の係数を大きくしてサンプルを判別することを行なってもよい。
 [6.実験例]
 微生物判別システム1000を用いて行なった実験の一例を説明する。
 (6-1.データベース構築)
 米国・国立生物工学情報センター(NCBI)からバクテリア、アーキアのゲノム配列をFTPサーバを介して取得した(RefSeq v95を利用、27万件以上)。すべてのゲノム配列について、遺伝子推定(Prodigalを利用)を行い遺伝子座とその産物の予測を行った。その結果の完全性、コンタミネーションはcheckMにより推定した。また、ゲノム配列中のコンティグ数、未決定塩基(N)の数、N50、ゲノム塩基長に対する遺伝子数をコンピュータ上で計測した。なお、N50とは、ゲノム情報(アセンブリ)の良し悪しを示す指標の一つであり、ゲノム配列のアセンブリ中のコンティグの配列長の加重平均を示す。N50は、コンティグを長い順に並べて上から順に足していった時に、全体の長さの半分に達したときの配列の長さ(塩基長)のことである。推定された遺伝子から予測される産物(タンパク質)は、そのアミノ酸構成に応じて、メチオニンの除去、シグナルタンパクの予測とそれによる切断断片予測(SignalPを利用)を実施し、予測される最終タンパク質の質量を計算した。それら理論タンパク質質量情報をデータ化し(全体m/zDB)、各ゲノムの系統分類情報(GTDB、Silva、GreenGenesなどの既存の分類学的情報)を収集、それらが同一IDで連結されたデータベースを作成した(分類DB)。また、予測された遺伝子産物(タンパク質)については、UniProKBやPFAMなどの既存のタンパク質データベースの登録情報との類似度を利用して、それぞれのタンパク質の機能を推定し、すべての理論タンパク質質量とタンパク質の名称が紐づいたデータベース(注釈DB)を作成した。
 各ゲノム配列について、推定された完全度が50%以下、コンタミネーションが10%以上、コンティグ数が1,000以上、N50が5kbp以下、未決定塩基(N)が100,000以上かのいずれかの基準値を示すゲノム配列は、ゲノム配列の品質が低いと判断しデータより除外した。また、(遺伝子数/ゲノム中の遺伝子座における塩基数全長)が0.00180以上のゲノム配列は削除した。
 これらの基準を考慮せずにすべてのゲノムエントリを対象としてデータベースを構築し、MALDI-MS(AXIMA(登録商標) 島津製作所製)により取得した既知微生物株のタンパク質測定ピークリストから微生物同定を行った場合、ゲノムあたりの遺伝子数が極端に高いゲノムエントリが高い確率で一致し、正しい結果が得られないことが観察された。
 具体的な、既知微生物株の実験手順は次の通りである。独立行政法人製品評価技術基盤機構バイオテクノロジーセンター(NBRC)などより入手した微生物群、たとえばEscherichia coli NBRC 3301、Bacillus subtilis subsp. subtilis NBRC 13719、Microlunatus phosphovorus NBRC 101784、Bifidobacterium longum ATCC 15707、Clostridium acetobutylicum NBRC 13948、Arthrobacter globiformis NBRC 12137、Brachybacterium conglomeratum NBRC 15472、Streptomyces griseus subsp. griseus NBRC 12875、Tetrasphaera duodecadis NBRC12959、Bacteroides fragilis ATCC 25285、Sphingomonas yanoikuyae NBRC 15102、Xanthobacter autotrophicus NBRC 102463、Rhodobacter azotoformans NBRC 16436、Methanosarcina thermophila MST-A1、Thauera linaloolentis NBRC 102519などのバクテリア、アーキアを指定培地で培養し、培養液を遠心分離して(10000g、2分)培地成分を除去し、同量の純水を加えて菌体を分散させ、同じ条件で遠心分離して、上清を除去した。得られた菌体の沈殿物に純水500μLを加えて菌体を分散させ、菌体分散液を得た。1.5mL容のスクリューキャップ付チューブに500μLのジルコニアビーズ(φ0.5mm)を加え、前述の菌体分散液500μLを加えた。ビーズ破砕機(TOMY精工製 MS-100)で4000rpm、合計3分間破砕処理を行い、破砕液を遠心分離して(15000g、5分)得た上清1μLを9μLの10mg/mlのCHCA(α-cyano-4-hydroxycinnamic acid)溶液(1%TFA(Trifluoroacetic Acid)を含む50%アセトニトリル水溶液)と混合して、MALDI-MS用試料プレートに1μL滴下し、風乾させて試料/マトリックス混合結晶を調製した。これらの菌体試料よりMALDI-MSリニア―モードでm/z2000-20000の範囲を測定し、MALDIマススペクトルを得た。ピークピックを行い、検出ピークのm/z値とピーク強度(mV)からなるピークリストを作成した。
 その後、上記で作成したデータベースを利用しピークリスト中のピークとデータベース中の理論m/z値との照合により、一致度の確認を行った。その結果、多くで実測ピークが一定の幅で一致するものが該当の菌種のゲノム情報から推定された理論ピークであったが、そのうち該当の菌種以外のゲノム情報から推定された理論ピークにも高い一致度を示すゲノム情報が含まれていた。
 図10は、ゲノム中の遺伝子部位での塩基配列総数とゲノムあたりの推定遺伝子数との関係を示す図である。より詳細には、図10は、RefSeq95でのバクテリア、アーキアゲノム情報(27万件以上)から推定したそれぞれのゲノム中遺伝子座位塩基長と推定遺伝子数の関係を示す。図10において、当該塩基配列総数と推定遺伝子との関係をすべてのゲノムエントリ(27万件以上)で示した場合、図10中の一点鎖線(遺伝子数/ゲノム中の遺伝子座における塩基数全長が0.00180の線)よりも上に位置するゲノムが多く検出されていた。これらは、ゲノム解読時の塩基配列の読み取りエラーなどに起因して実際には存在しないタンパク質を予測、実際よりも多くの理論ピークを予測していることで偽陽性としてピークの一致が見られることがその原因であることが推定された。
 一方、使用するデータ(遺伝子数/ゲノム中の遺伝子座における塩基数全長)が約0.00180以上のゲノムエントリをデータベースから削除することで、上記微生物群からのピークリストと、該当するゲノム情報からの推定理論ピークとの一致度が上位に位置付けられる結果が得られた。換言すると、図10の一点鎖線の上に位置するゲノムエントリをデータベースから削除することで適切な評価を実施できることが確認された。これらのことは、公共データベースに登録のあるゲノム情報をもとに、上記の方法で適切に選別したデータベースを構築することが、微生物判別用のデータベースを構築する上で不可欠であることを示している。
 これらの選別の結果、193,197エントリを持つ全体m/zDBを作成した。また、GTDBを参考にその中で種レベルで代表するデータベースを別途作成し、31,760エントリで構成される種レベルの代表データベースを構築した。
 (6-2.アルゴリズム構築)
 NBRCなどより入手した微生物群、たとえばEscherichia coli NBRC 3301、Bacillus subtilis subsp. subtilis NBRC 13719、Microlunatus phosphovorus NBRC 101784、Bifidobacterium longum ATCC 15707、Clostridium acetobutylicum NBRC 13948、Arthrobacter globiformis NBRC 12137、Brachybacterium conglomeratum NBRC 15472、Streptomyces griseus subsp. griseus NBRC 12875、Tetrasphaera duodecadis NBRC12959、Bacteroides fragilis ATCC 25285、Sphingomonas yanoikuyae NBRC 15102、Xanthobacter autotrophicus NBRC 102463、Rhodobacter azotoformans NBRC 16436、Methanosarcina thermophila MST-A1、Thauera linaloolentis NBRC 102519などのバクテリア、アーキアを指定培地で培養し、培養液を遠心分離して(10000g、2分)培地成分を除去し、同量の純水を加えて菌体を分散させ、同じ条件で遠心分離して、上清を除去した。これらの微生物群は、好気性、嫌気性バクテリア、メタン生成アーキアなどの多様な系統群を含み、グラム陽性、グラム陰性などの多様な細胞壁構造を持ち、放線菌なども含まれる微生物群である。これらの得られた菌体の沈殿物に純水500μLを加えて菌体を分散させ菌体分散液を得た。1.5mL容のスクリューキャップ付チューブに500μLのジルコニアビーズ(φ0.5mm)を加え、前述の菌体分散液500μLを加えた。ビーズ破砕機(TOMY精工製 MS-100)で4000rpm、合計3分間破砕処理を行い、破砕液を遠心分離して(15000g、5分)得た上清1μLを9μLの10mg/mlのCHCA溶液(1%TFAを含む50%アセトニトリル水溶液)と混合して、MALDI-MS用試料プレートに1μL滴下し、風乾させて試料/マトリックス混合結晶を調製した。次に、MALDI-MS(AXIMA(登録商標) 島津製作所製)で測定を行い、各試料菌株のマススペクトルを得た。
 上記作成のデータベースでの理論ピークリストと、培養微生物群から実際に得られた実測ピークを比較した。理論ピークから一定の範囲内に実測ピークがある場合ピークを一致するとし、その範囲を200ppmとして一致するピーク数を全体m/zDB中のすべてのエントリで計算した場合、最も一致度が高いゲノムエントリが必ずしも測定株に該当するゲノムエントリではない場合が見られた。次に、MALDIでの測定で高頻度に検出されやすいタンパク質を選別したデータベース(特定m/zDB)を構築した。ここでは、高頻度で検出されやすいリボソームタンパクをデータベース(注釈DB)を参考に抽出し、そのデータベース中で実測ピークリストと一致度が高いゲノムエントリを選別(たとえば500から5,000エントリを抽出)、それらのエントリに対してすべての理論タンパクピークリストを利用した一致度を計算する2段階の検索アルゴリズムを実装した。その結果、下記表1に示すように、上記15菌株の全てにおいて、実測ピークリストから近縁なゲノムエントリを選択、正しく系統分類群(属、種)を推定できるアルゴリズムが構築された。表1は、様々な系統、生理学的特徴、細胞壁の特徴を持つバクテリアおよびアーキアについて、当該アルゴリズムを用いて判別した結果を示す図である。
Figure JPOXMLDOC01-appb-T000001
 [態様]
 上述した複数の例示的な実施形態は、以下の態様の具体例であることが当業者により理解される。
 (第1項)一態様に係る微生物判別用のデータベースを構築する方法は、ゲノムデータベースから、微生物のゲノムデータを取得するステップと、取得したゲノムデータが基準を満たすか判定するステップと、基準を満たすと判定されたゲノムデータ毎に、発現するタンパク質を予測するステップと、予測されたタンパク質に基づいて予測された、ゲノムデータ毎の質量電荷比のリストを含む、質量電荷比データベースを構築するステップとを備えてもよい。
 第1項に記載の微生物判別用のデータベースを構築する方法によれば、ゲノムデータベース上の基準を満たすゲノムデータのみに基づいて、質量電荷比データベースを構築できる。すなわち、質量分析法を用いた微生物の判別に用いられる、ゲノムデータベースを基に構築される質量電荷比のデータベースの品質を向上できる。
 (第2項)第1項に記載の微生物判別用のデータベースを構築する方法において、基準を満たすか判定するステップは、遺伝子数が基準値を満たすかに基づいて判定するステップを含んでもよい。
 第2項に記載の微生物判別用のデータベースを構築する方法によれば、ゲノムデータから推測される遺伝子数が妥当な範囲に含まれないゲノムデータは除去され、質量電荷比データベースには反映されない。よって、質量電荷比データベースの品質が向上する。
 (第3項)第1項または第2項に記載の微生物判別用のデータベースを構築する方法において、基準を満たすか判定するステップは、ゲノムの完全性に基づいて判定するステップを含んでもよい。
 第3項に記載の微生物判別用のデータベースを構築する方法によれば、ゲノムデータの一部が欠損していたり、誤って読み取られている場合のように、ゲノムデータが不完全である場合には、当該ゲノムデータは除去され、質量電荷比データベースには反映されない。よって、質量電荷比データベースの品質が向上する。
 (第4項)第1~3項のいずれか1項に記載の微生物判別用のデータベースを構築する方法において、基準を満たすか判定するステップは、ゲノムのコンタミネーションの割合に基づいて判定するステップを含んでもよい。
 第4項に記載の微生物判別用のデータベースを構築する方法によれば、コンタミネーションの割合が高いゲノムデータを除去できる。すなわち、複数の種類の微生物のDNA配列が混ざってしまっている可能性が高いゲノムデータは、質量電荷比データベースには反映されない。よって、質量電荷比データベースの品質が向上する。
 (第5項)第1~4項のいずれか1項に記載の微生物判別用のデータベースを構築する方法において、基準を満たすか判定するステップは、コンティグの数に基づいて判定するステップを含んでもよい。
 第5項に記載の微生物判別用のデータベースを構築する方法によれば、コンティグの数が多いゲノムデータを除去できる。コンティグの数が多すぎると、タンパク質を発現する遺伝子領域も分断され、正確に読み出せない可能性がある。よって、コンティグの数に基づいて品質の低いゲノムデータが除去され、当該ゲノムデータが質量電荷比データベースに反映されないようにすることで、質量電荷比データベースの品質が向上できる。
 (第6項)第1~5項のいずれか1項に記載の微生物判別用のデータベースを構築する方法において、基準を満たすか判定するステップは、未決定塩基の数に基づいて判定するステップを含んでもよい。
 第6項に記載の微生物判別用のデータベースを構築する方法によれば、未決定塩基の数が多いゲノムデータを除去できる。未決定塩基が多く含まれるDNA配列からは、適切に遺伝子が見いだせない可能性が高い。よって、未決定塩基の数に基づいて品質の低いゲノムデータが除去され、当該ゲノムデータが質量電荷比データベースに反映されないようにすることで、質量電荷比データベースの品質が向上できる。
 (第7項)第1~6項のいずれか1項に記載の微生物判別用のデータベースを構築する方法において、質量電荷比データベースを構築するステップは、予測されたタンパク質または質量電荷比に、予測されたタンパク質が含まれるグループに関する情報をリンクさせるステップを含んでもよい。
 第7項に記載の微生物判別用のデータベースを構築する方法によれば、タンパク質が含まれるグループに関する情報に基づいて、特定のグループに含まれるタンパク質に対応する質量電荷比を選択的に処理することが可能となる。特定のグループとは、例えば、「微生物の生体内で発現する可能性が高く、マススペクトルを測定した場合にもピークとして検出される可能性が高いタンパク質のグループ」である。
 (第8項)第7項に記載の微生物判別用のデータベースを構築する方法において、グループに関する情報は、タンパク質の名称、タンパク質の機能およびファミリーの少なくとも1つを含んでもよい。
 第8項に記載の微生物判別用のデータベースを構築する方法によれば、同じタンパク質、同じ機能を有するタンパク質、または、同じファミリーのタンパク質に対応する質量電荷比を選択的に処理できる。例えば、「微生物の生体内で発現する可能性が高く、マススペクトルを測定した場合にもピークとして検出される可能性が高いタンパク質のグループ」に対応する質量電荷比を、タンパク質の名称、機能またはファミリーの情報に基づいて、重み付けしてサンプルを判別することが可能となる。
 (第9項)第7項または第8項に記載の微生物判別用のデータベースを構築する方法において、質量電荷比データベースを構築するステップは、グループに関する情報に基づいて、特定のグループに含まれると予測された質量電荷比のみを有する特定質量電荷比リストを含む特定質量電荷比データベースを構築するステップをさらに含んでもよい。
 第9項に記載の微生物判別用のデータベースを構築する方法によれば、特定質量電荷比データベースを用いて、特定のグループに含まれるタンパク質の質量電荷比を選択的に処理することが容易となる。例えば、特定のグループに含まれるタンパク質の質量電荷比にのみ基づいたスクリーニングが可能になる。
 (第10項)第7~9項のいずれか1項に記載の微生物判別用のデータベースを構築する方法において、グループは、発現量が所定の閾値以上であるという条件、生命維持に不可欠な機能を有するという条件、アミノ酸配列の類似度が所定の閾値以上である微生物が所定の割合以上存在するという条件、塩基性タンパク質であるという条件、MALDI-MS測定で測定した際に±14Da以内の誤差範囲で質量電荷比を分析できるという条件、タンパク質の質量が4~30kDaに含まれるという条件、グループに含まれるタンパク質の種類が所定の数以上であるという条件、の少なくとも1つの条件に基づいて選択され、生命維持に不可欠な機能は、細胞の維持および増殖の少なくとも1つに不可欠な機能を含んでよい。
 第10項に記載の微生物判別用のデータベースを構築する方法によれば、上記の条件を満たす「生体内で発現する可能性が高く、マススペクトルを測定した場合にもピークとして検出されるタンパク質」に対応する質量電荷比が選択的に処理できる。
 (第11項)第7~10項のいずれか1項に記載の微生物判別用のデータベースを構築する方法において、グループは、リボソームタンパク質、シャペロン、DNA結合タンパク質の少なくとも1つを含んでもよい。
 第11項に記載の微生物判別用のデータベースを構築する方法によれば、リボソームタンパク質、シャペロン、DNA結合タンパク質という、「生体内で発現する可能性が高く、マススペクトルを測定した場合にもピークとして検出されるタンパク質」に対応する質量電荷比が選択的に処理できる。よって、これらのタンパク質に重み付けして、サンプルの判別を行なうことが可能となる。
 (第12項)第1~6項のいずれか1項に記載の微生物判別用のデータベースを構築する方法において、質量電荷比データベースを構築するステップは、予測された全ての質量電荷比を含む全体質量電荷比データベースを構築するステップを含んでもよい。
 第12項に記載の微生物判別用のデータベースを構築する方法によれば、全体質量電荷比データベースを用いて、全ての質量電荷比に基づいたスクリーニングも可能になる。よって、特定のグループに含まれるタンパク質以外のタンパク質の類似度も、サンプルの選別に反映することが可能となる。
 (第13項)第7~11項のいずれか1項に記載の微生物判別用のデータベースを構築する方法において、質量電荷比データベースを構築するステップは、予測された全ての質量電荷比を含む全体質量電荷比データベースを構築するステップを含んでもよい。
 第13項に記載の微生物判別用のデータベースを構築する方法によれば、全体質量電荷比データベースを用いて、全ての質量電荷比に基づいたスクリーニングも可能になる。よって、特定のグループに含まれるタンパク質以外のタンパク質の類似度も、サンプルの選別に反映することが可能となる。
 (第14項)第1~13項のいずれか1項に記載の微生物判別用のデータベースを構築する方法において、微生物の分類に関する分類データを含むデータベースから、分類データを取得するステップをさらに備えてよい。質量電荷比データベースを構築するステップは、分類データと質量電荷比データベースとを対応づけるステップを含んでもよい。
 第14項に記載の微生物判別用のデータベースを構築する方法によれば、収集した分類データに基づいて作成されたゲノムIDを、全体質量電荷比データベース、特定質量電荷比データベースの各々に含まれるデータと対応付けられる。また、収集した分類データを、全体質量電荷比データベース、特定質量電荷比データベースの整理に用いたり、内容に反映することも可能である。また収集した分類データを、「特定の種でのみ顕著に発現することが知られている特定のタンパク質」を決定するとき等、装置における他の用途にも用いることが可能である。
 (第15項)第1~14項のいずれか1項に記載の微生物判別用のデータベースを構築する方法において、予測するステップは、ゲノムデータから遺伝子を予測するステップと、予測された遺伝子から翻訳後のアミノ酸配列を予測するステップと、翻訳後のアミノ酸配列から翻訳後修飾を予測するステップと、予測された翻訳後修飾を加えたタンパク質を予測するステップとを含んでもよい。
 第15項に記載の微生物判別用のデータベースを構築する方法によれば、ゲノムデータから、実際に生体内で発現するタンパク質が予測できる。よって、実際に生体内で発現するタンパク質の質量電荷比を、質量電荷比データベースに反映できるため、質量電荷比データベースの品質が向上する。
 (第16項)第1~15項のいずれか1項に記載の微生物判別用のデータベースを構築する方法において、質量電荷比データベースに、新たなゲノムデータを取得するステップと、新たなゲノムデータが基準を満たすか判定するステップと、新たなゲノムデータが基準を満たした場合、新たなゲノムデータから発現するタンパク質を予測し、予測結果に基づいて質量電荷比を予測し、新たな質量電荷比のリストを予測するステップと、新たな質量電荷比のリストを、質量電荷比データベースに追加するステップとを含んでよい。
 第16項に記載の微生物判別用のデータベースを構築する方法によれば、新たに取得されたゲノムデータをm/zDBに追加することができ、m/zDBの内容をより充実させることができる。結果的に、m/zDBの品質がさらに向上し、当該m/zDBを用いてのサンプルの判別の精度もさらに向上する。
 (第17項)一態様に係る微生物判別用のデータベースを構築する装置は、ゲノムデータベースから取得した微生物のゲノムデータを用いて微生物判別用のデータベースを構築する。当該装置は、プロセッサと、記憶部とを備える。プロセッサは、取得したゲノムデータが基準を満たすか判定する。また、プロセッサは、基準を満たすと判定されたゲノムデータ毎に、発現するタンパク質を予測する。また、プロセッサは、予測されたタンパク質に基づいて予測された、ゲノムデータ毎の質量電荷比のリストを含む質量電荷比データベースを構築する。また、プロセッサは、記憶部に、質量電荷比データベースを記憶する。
 第17項に記載の微生物判別用のデータベースを構築する装置によれば、ゲノムデータベース上の基準を満たすゲノムデータのみに基づいて、質量電荷比データベースを構築できる。すなわち、質量分析法を用いた微生物の判別に用いられる、ゲノムデータベースを基に構築される質量電荷比のデータベースの品質を向上できる。
 今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
 10 プロセッサ、11 メモリ、12 通信I/F、13 入出力I/F、14 操作部、15 ディスプレイ、16 MS、21 ゲノムデータ収集部、22 ゲノムデータ判定部、23 タンパク質予測部、24 構築部、25 記憶部、31 取得部、32 サンプル判別部、33 注釈部、34 出力部、70 公開ゲノムデータベース、80 公開分類データベース、90 ネットワーク、100 装置、101 コントローラ、321 一次スクリーニング部、322 二次スクリーニング部、1000 微生物判別システム。

Claims (17)

  1.  ゲノムデータベースから、微生物のゲノムデータを取得するステップと、
     取得したゲノムデータが基準を満たすか判定するステップと、
     基準を満たすと判定されたゲノムデータ毎に、発現するタンパク質を予測するステップと、
     予測されたタンパク質に基づいて予測された、ゲノムデータ毎の質量電荷比のリストを含む、質量電荷比データベースを構築するステップとを備える、微生物判別用のデータベースを構築する方法。
  2.  前記基準を満たすか判定するステップは、遺伝子数が基準値を満たすかに基づいて判定するステップを含む、請求項1に記載の微生物判別用のデータベースを構築する方法。
  3.  前記基準を満たすか判定するステップは、ゲノムの完全性に基づいて判定するステップを含む、請求項1または2に記載の微生物判別用のデータベースを構築する方法。
  4.  前記基準を満たすか判定するステップは、ゲノムのコンタミネーションの割合に基づいて判定するステップを含む、請求項1または2に記載の微生物判別用のデータベースを構築する方法。
  5.  前記基準を満たすか判定するステップは、コンティグの数に基づいて判定するステップを含む、請求項1または2に記載の微生物判別用のデータベースを構築する方法。
  6.  前記基準を満たすか判定するステップは、未決定塩基の数に基づいて判定するステップを含む、請求項1または2に記載の微生物判別用のデータベースを構築する方法。
  7.  前記質量電荷比データベースを構築するステップは、予測されたタンパク質または質量電荷比に、予測されたタンパク質が含まれるグループに関する情報をリンクさせるステップを含む、請求項1に記載の微生物判別用のデータベースを構築する方法。
  8.  前記グループに関する情報は、タンパク質の名称、タンパク質の機能およびファミリーの少なくとも1つを含む、請求項7に記載の微生物判別用のデータベースを構築する方法。
  9.  前記質量電荷比データベースを構築するステップは、前記グループに関する情報に基づいて、特定の前記グループに含まれると予測された質量電荷比のみを有する特定質量電荷比リストを含む特定質量電荷比データベースを構築するステップをさらに含む、請求項7または8に記載の微生物判別用のデータベースを構築する方法。
  10.  前記グループは、発現量が所定の閾値以上であるという条件、生命維持に不可欠な機能を有するという条件、アミノ酸配列の類似度が所定の閾値以上である微生物が所定の割合以上存在するという条件、塩基性タンパク質であるという条件、MALDI-MS測定で測定した際に±14Da以内の誤差範囲で質量電荷比を分析できるという条件、タンパク質の質量が4~30kDaに含まれるという条件、グループに含まれるタンパク質の種類が所定の数以上であるという条件、の少なくとも1つの条件に基づいて選択され、
     生命維持に不可欠な機能は、細胞の維持および増殖の少なくとも1つに不可欠な機能を含む、請求項7または8に記載の微生物判別用のデータベースを構築する方法。
  11.  前記グループは、リボソームタンパク質、シャペロン、DNA結合タンパク質の少なくとも1つを含む、請求項7または8に記載の微生物判別用のデータベースを構築する方法。
  12.  前記質量電荷比データベースを構築するステップは、予測された全ての質量電荷比を含む全体質量電荷比データベースを構築するステップを含む、請求項1または2に記載の微生物判別用のデータベースを構築する方法。
  13.  前記質量電荷比データベースを構築するステップは、予測された全ての質量電荷比を含む全体質量電荷比データベースを構築するステップをさらに含む、請求項7または8に記載の微生物判別用のデータベースを構築する方法。
  14.  微生物の分類に関する分類データを含むデータベースから、分類データを取得するステップをさらに備え、
     前記質量電荷比データベースを構築するステップは、前記分類データと前記質量電荷比データベースとを対応づけるステップを含む、請求項1または2に記載の、微生物判別用のデータベースを構築する方法。
  15.  前記予測するステップは、
      ゲノムデータから遺伝子を予測するステップと、
      予測された遺伝子から翻訳後のアミノ酸配列を予測するステップと、
      翻訳後のアミノ酸配列から翻訳後修飾を予測するステップと、
      予測された翻訳後修飾を加えたタンパク質を予測するステップとを含む、請求項1または2に記載の、微生物判別用のデータベースを構築する方法。
  16.  前記質量電荷比データベースに、新たなゲノムデータを取得するステップと、
     前記新たなゲノムデータが基準を満たすか判定するステップと、
     前記新たなゲノムデータが基準を満たした場合、前記新たなゲノムデータから発現するタンパク質を予測し、予測結果に基づいて質量電荷比を予測し、新たな質量電荷比のリストを予測するステップと、
     前記新たな質量電荷比のリストを、前記質量電荷比データベースに追加するステップとを含む、請求項1または2に記載の、微生物判別用のデータベースを構築する方法。
  17.  ゲノムデータベースから取得した微生物のゲノムデータを用いて微生物判別用のデータベースを構築する装置であって、
     プロセッサと、
     記憶部とを備え、
     前記プロセッサは、
      取得したゲノムデータが基準を満たすか判定し、
      基準を満たすと判定されたゲノムデータ毎に、発現するタンパク質を予測し、
      予測されたタンパク質に基づいて予測された、ゲノムデータ毎の質量電荷比のリストを含む質量電荷比データベースを構築し、
      前記記憶部に、前記質量電荷比データベースを記憶する、微生物判別用のデータベースを構築する装置。
PCT/JP2023/013810 2022-04-21 2023-04-03 微生物判別用のデータベースを構築する方法および装置 WO2023204008A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022070280 2022-04-21
JP2022-070280 2022-04-21

Publications (1)

Publication Number Publication Date
WO2023204008A1 true WO2023204008A1 (ja) 2023-10-26

Family

ID=88419777

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/013810 WO2023204008A1 (ja) 2022-04-21 2023-04-03 微生物判別用のデータベースを構築する方法および装置

Country Status (1)

Country Link
WO (1) WO2023204008A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017168743A1 (ja) * 2016-03-31 2017-10-05 株式会社島津製作所 微生物の識別方法
WO2020218555A1 (ja) * 2019-04-26 2020-10-29 bitBiome株式会社 単一生物単位の配列情報の新規処理法
JP2020182445A (ja) * 2019-09-13 2020-11-12 bitBiome株式会社 単一生物単位の配列情報の新規処理法
JP2021516970A (ja) * 2018-03-14 2021-07-15 アーバー バイオテクノロジーズ, インコーポレイテッド 新規crispr dnaターゲティング酵素及びシステム
JP2021193963A (ja) * 2020-06-16 2021-12-27 合同会社H.U.グループ中央研究所 遺伝子検索装置、遺伝子検索方法および遺伝子検索プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017168743A1 (ja) * 2016-03-31 2017-10-05 株式会社島津製作所 微生物の識別方法
JP2021516970A (ja) * 2018-03-14 2021-07-15 アーバー バイオテクノロジーズ, インコーポレイテッド 新規crispr dnaターゲティング酵素及びシステム
WO2020218555A1 (ja) * 2019-04-26 2020-10-29 bitBiome株式会社 単一生物単位の配列情報の新規処理法
JP2020182445A (ja) * 2019-09-13 2020-11-12 bitBiome株式会社 単一生物単位の配列情報の新規処理法
JP2021193963A (ja) * 2020-06-16 2021-12-27 合同会社H.U.グループ中央研究所 遺伝子検索装置、遺伝子検索方法および遺伝子検索プログラム

Similar Documents

Publication Publication Date Title
Bickhart et al. Generating lineage-resolved, complete metagenome-assembled genomes from complex microbial communities
Wu et al. A novel abundance-based algorithm for binning metagenomic sequences using l-tuples
JP6238069B2 (ja) 微生物の識別方法
Cox et al. Integrating gene and protein expression data: pattern analysis and profile mining
US9177100B2 (en) Method and systems for processing polymeric sequence data and related information
US20150242565A1 (en) Method and device for analyzing microbial community composition
EP3438275B1 (en) Microorganism identification method
JP6709434B2 (ja) 微生物の識別方法
WO2014019267A1 (en) Method and system to determine biomarkers related to abnormal condition
Godmer et al. Revisiting species identification within the Enterobacter cloacae complex by matrix-assisted laser desorption ionization–time of flight mass spectrometry
US20170108509A1 (en) Method For Using Protein Databases To Identify Microorganisms
Bickhart et al. Generation of lineage-resolved complete metagenome-assembled genomes by precision phasing
WO2023204008A1 (ja) 微生物判別用のデータベースを構築する方法および装置
Wu et al. A novel abundance-based algorithm for binning metagenomic sequences using l-tuples
WO2023204006A1 (ja) 微生物判別方法および微生物判別装置
TW201719468A (zh) 用以分析細菌菌種之定序資料的系統及其方法
WO2022192904A1 (en) Systems and methods for identifying microbial biosynthetic genetic clusters
JP2008161056A (ja) Dna配列解析装置、dna配列解析方法およびプログラム
Kostas et al. Using Matrix-Assisted Laser Desorption/Ionization Time of Flight Spectra To Elucidate Species Boundaries by Matching to Translated DNA Databases
EP2835751A1 (en) Method of deconvolution of mixed molecular information in a complex sample to identify organism(s)
Palsson et al. Alleleomes characterize the survivors of 3.5 billion years of bacterial evolution
KR102624180B1 (ko) rRNA 오페론 데이터베이스 구축 방법 및 이를 이용한 미생물 메타게놈 분석 방법
CN110600083B (zh) 基于无拼接组装wgs数据的醋酸钙—鲍曼不动杆菌复合群鉴定方法
Feng et al. MOBFinder: a tool for MOB typing for plasmid metagenomic fragments based on language model
Williams Application of Exact Alignments with an In-memory Core Gene Database for an Improved Metagenomic Taxonomic Classification

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23791659

Country of ref document: EP

Kind code of ref document: A1