WO2020050627A1 - 시료 미생물의 동정 및 분류 방법 - Google Patents

시료 미생물의 동정 및 분류 방법 Download PDF

Info

Publication number
WO2020050627A1
WO2020050627A1 PCT/KR2019/011410 KR2019011410W WO2020050627A1 WO 2020050627 A1 WO2020050627 A1 WO 2020050627A1 KR 2019011410 W KR2019011410 W KR 2019011410W WO 2020050627 A1 WO2020050627 A1 WO 2020050627A1
Authority
WO
WIPO (PCT)
Prior art keywords
mer
unique
sample
information
database
Prior art date
Application number
PCT/KR2019/011410
Other languages
English (en)
French (fr)
Inventor
안토니오 샬리타 윌리암스마우리시오
윤석환
하성민
Original Assignee
주식회사 천랩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020190109117A external-priority patent/KR102349921B1/ko
Application filed by 주식회사 천랩 filed Critical 주식회사 천랩
Priority to US17/273,078 priority Critical patent/US20210202040A1/en
Priority to EP19857095.4A priority patent/EP3848936A4/en
Publication of WO2020050627A1 publication Critical patent/WO2020050627A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Definitions

  • the present invention relates to a method for identifying and classifying microorganisms contained in a sample using a k-mer perfect match algorithm and a bacterial core gene, and a method for analyzing the abundance of microorganisms in the sample, preferably the metagenome sample. It has the advantage of being able to analyze the taxonomic composition of for faster and more accurately without bias.
  • the disadvantage of the method using these genetic markers is that the size of the bacterial genome and the frequency of the genes are very irregular (some species or genera contain more markers than other species) and recalculate those markers when other species or genera are added to the reference database. Is to do it. If an existing marker is found in a completely different taxonomic group, the marker can no longer be used for the existing taxonomic group.
  • a standardization step should be performed for each species in the taxonomy profile.
  • a standardization step considering the genome size for each species should be included. For example, species A with a genome size of 5 Mb will contribute more to the sample compared to species B with a genome size of 2 Mb.
  • the number of leads obtained from NGS should be normalized according to the size and frequency of the gene markers in the same genome.
  • Metagenome is a term used when analyzing the genome of several microorganisms included in a sample containing several microorganisms, for example, a sample taken from the environment. Recently, several studies have made it possible to list the bacterial composition of microbial guns in humans and the environment using metagenome NGS data analysis based on marker genes using 16S ribosomal RNA (16S rRNA), and metagenome NGS data using the Shotgun technique. The analysis of is actively researched.
  • the present invention identifies and classifies two or more microbial species contained in a sample more quickly and more accurately without biasing the analysis of the taxonomic composition using the k-mer exact k-mer matching method and the bacterial core gene. It provides a method and a system for identifying and classifying microorganisms in a sample.
  • a further embodiment of the present invention analyzes the abundance of microorganisms contained in a sample using a k-mer exact k-mer matching method and a bacterial core gene, particularly taxonomic profiling for a metagenome sample. It is to provide a method (taxanomy profiling method).
  • An example of the present invention provides microbial genome information obtained from a sample
  • a sample k-mer dataset is obtained using the microbial genome information
  • a method for identifying and classifying microorganisms in a sample may be used to obtain abundance information of microorganisms in a sample, and more specifically
  • a sample k-mer dataset is obtained using the microbial genome information
  • It relates to a method for obtaining the abundance profile information of the species of microorganisms in the sample by calculating the abundance in the sample of the microorganism.
  • a method for identifying and classifying microorganisms in a sample according to the present invention uses a computer device
  • Genomic information including sequencing reads obtained by analyzing microbial genomic DNA obtained from a sample by Next Generation Sequencing (NGS) is obtained,
  • the microorganism taxon information is classified by a unique ID, and is assigned to individual k-mers in the reference k-mer database.
  • the sample microbial genome information includes sequencing reads obtained by Next Generation Sequencing (NGS),
  • the unique ID corresponding to the taxonomic level obtained for each of the individual sequencing reads is collected by performing the entire sequencing read included in the sample microbial genome, and the entire unique ID list is created to identify and classify the sample microorganisms. That's how it is.
  • the method for obtaining the taxonomic profile information or abundance of microorganisms in a sample according to the present invention provides microbial genome information obtained from a sample
  • a sample k-mer dataset is obtained using the microbial genome information
  • the sample microbial genome information includes sequencing reads obtained by Next Generation sequencing (NGS),
  • the unique ID corresponding to the taxonomic level obtained for each individual sequencing read is collected for the entire sequencing read included in the sample microbial genome, and a full unique ID list is generated.
  • the number of reads assigned to each unique ID corresponding to the taxonomic level is obtained.
  • It relates to a method for obtaining information on the abundance profile of a species of microorganism in a sample.
  • a sample comprising at least two or more microbial species or a sample containing at least two microbial genomic information, e.g., a species or a least common ancestor of a microorganism contained in a metagenome sample, specified
  • microbial genomic information e.g., a species or a least common ancestor of a microorganism contained in a metagenome sample, specified
  • One or more information selected from the group consisting of species population and relative abundance can be obtained.
  • a reference k-mer database of reference microbial core genes, a k-mer extractor, and a k-mer analyzer (k) to which microbial classification information is assigned As a system for identifying and classifying microorganisms in a sample, including a processor equipped with a -mer analyzer,
  • the reference k-mer database includes one or more k-mers generated from genetic information of one or more reference bacterial core genes, wherein the k-mer is assigned classification information of the microorganism,
  • the k-mer extractor of the processor extracts one or more k-mers from microbial genomic information obtained from a sample to generate a k-mer dataset
  • the k-mer analyzer of the processor selects a k-mer having exactly the same nucleic acid sequence information as the k-mer included in the reference k-mer database with respect to the k-mer included in the sample k-mer dataset, and selects the above.
  • the index containing the classified k-mer (taxon) information is listed, and identification and classification of microorganisms included in the sample is performed based on the taxonomic information on the selected k-mer.
  • the degree analyzer refers to the cluster size occupied by a specific microorganism in all the microorganisms in the sample and can be calculated in various ways.
  • the abundance analyzer obtains genomic information of a sample microorganism by an NGS method, and the microorganism taxon information is classified by a unique ID, and is assigned to an individual k-mer of a reference k-mer database ,
  • the unique ID corresponding to the taxonomic level obtained for each individual sequencing read is collected for the entire sequencing read included in the sample microbial genome, and a full unique ID list is generated.
  • the number of reads assigned to each unique ID corresponding to the taxonomic level is obtained.
  • the method may include dividing the number of leads allocated for each unique ID by the sum of the number of leads allocated to the entire list of unique IDs to obtain abundance in the sample for the microbial species or classification information corresponding to the unique ID.
  • the relative josdance of the microorganism is the number of reads (classified read) assigned to each unique ID corresponding to the taxonomic level in the list of the total unique ID of the sample microorganism, and the total uniqueness. It may be a value obtained by dividing by the sum of the number of leads allocated to the ID list.
  • the present invention relates to a method for identifying and classifying microorganism species contained in a sample and a system for identifying and classifying microorganisms in a sample using a k-mer perfect match method and a bacterial core gene.
  • a method and system for identifying and classifying microorganisms in a sample according to the present invention is obtained using (a) microbial genome information obtained from a sample, a sample k-mer dataset for the entire genome of microorganisms in the sample, (b) a reference k-mer database of reference bacterial core genes, given microbial classification information, (c) according to the k-mer perfect match method (a) k- included in the sample k-mer dataset For mer, (b) comparing the k-mer included in the reference k-mer database to select a perfect match k-mer, and (d) using the selected taxon information of the k-mer, the sample It may include the step of identifying and classifying the microorganism species contained in.
  • the method or system for identifying and classifying microorganisms according to the present invention is obtained using (a) microbial genome information obtained from a sample, and includes obtaining a sample k-mer dataset for the entire genome of the microbes in the sample.
  • the step of obtaining the sample k-mer data set includes: (a-1) extracting the entire genomic DNA of one or more microorganisms present in the test sample (dielectric DNA extraction), and (a-2) the whole genomic DNA of the sample microorganism Sequencing to obtain nucleotide sequence information (sequence information analysis), (a-3) extracting one or more k-mers from the microbial genomic information to generate a k-mer dataset (sample k-mer data Set creation).
  • (a-1) can be performed separately from (a-2) providing the nucleotide sequence information of the entire microbial genomic DNA of the sample, (a-1) identifying the microbial microorganism according to the present invention is the genomic DNA extraction step. And may not be included in the classification method.
  • the step of obtaining the sample k-mer dataset according to the present invention is not particularly limited in the process of extracting the entire genomic DNA of one or more microorganisms present in the test sample, and using a DNA extraction method of microorganisms known in the art. Can be done.
  • the step of obtaining a sample k-mer dataset according to the present invention includes sequencing to obtain nucleotide sequence information by performing sequencing of the whole microbial genomic DNA, and the method of sequencing the whole microbial genomic DNA of the sample is It can be performed by various DNA sequence analysis methods known in the art.
  • microbiome is a genome information of microorganisms present in a sample, and can be obtained by various methods, for example, NGS method or shotgun sequencing method.
  • the input nucleotide data of the metagenome sample to be analyzed can be obtained by analyzing the DNA sequence of the metagenome sample by large-scale parallel sequencing techniques such as shotgun meta-genome sequencing or next-generation sequencing (NGS).
  • NGS next-generation sequencing
  • the microbial genomic information may include sequencing reads obtained by Next Generation Sequencing (NGS).
  • NGS Next Generation Sequencing
  • Shotgun metagenome sequencing is a technique for cutting large amounts of DNA fragments into randomly arranged small fragments. Shotgun meta-genome sequencing can comprehensively extract all genes from all organisms in a given complex sample, assess bacterial diversity and detect the amount of microorganisms in various environments. Shotgun meta-genome sequencing has the advantage of providing a means to study unculturable microorganisms that are impossible or difficult to analyze.
  • the step of obtaining a sample k-mer dataset according to the present invention includes the steps of (a-3) extracting one or more k-mers from the microbial genome information to generate a k-mer dataset (sample k-mer dataset generation) ).
  • the microbial genomic information includes sequencing reads obtained by Next Generation sequencing (NGS), using a computer device, one base according to the length of the k-mer for each individual sequencing read
  • NGS Next Generation sequencing
  • the k-mer dataset can be obtained for the entire microbial genome included in the sample by cutting the fragment strings of k-mer length by moving each time.
  • Generation of the sample k-mer dataset may be performed using a k-mer extractor, and the exemplary k-mer extractor may be a JELLYFISH program, but is not limited thereto.
  • JELLYFISH is a command line application that calculates the k-mer from a given input FASTA file.
  • the test sample may include one or more microbial species, preferably two or more microorganisms, or more preferably a metagenome sample.
  • the metagenome may be defined as a genome set of all microorganisms present in a specific natural environment, or may be a generic term for a clone containing a genome or gene extracted from a recent environmental sample.
  • k-mer refers to a polynucleotide fragment having K nucleotides
  • the k-mer or k-mer fragment of the bacterial core gene according to the present invention is the length generated from the bacterial core gene from each bacterial species.
  • the method described herein is directed against the k-mer fragment database generated from the metagenome sample, k- of the reference bacterial core gene. It is possible to perform identification and classification of microorganisms included in the sample through accurate match comparison of mer sequences.
  • the microbial genomic information includes sequencing reads obtained by Next Generation sequencing (NGS), and the length of the k-mer is shorter than the length of the sequencing reads. It is preferred.
  • NGS Next Generation sequencing
  • sequencing reads also called “leads” or “query sequences” refer to nucleic acid base sequences derived from nucleic acid molecules.
  • the length of the sequencing read obtained in the general sequence analysis may be 50 nucleotides (nt) or more, 60 nts or more, 70 nts or more, 80 nts or more, 90 nts or more, or 100 nts or more, and the upper limit is not particularly limited.
  • the length range of the sequencing read is 50 to 5,000 nt, 50 to 4,000 nt, 50 to 3,000 nt, 50 to 2,000 nt, 50 to 1,500 nt, 50 to 1,000 nt, 50 to 900 nt, 50 to 800 nt, 50 to 700nt, 50 to 600nt, 50 to 500nt, 60 to 5,000 nt, 60 to 4,000 nt, 60 to 3,000nt, 60 to 2,000nt, 60 to 1,500nt, 60 to 1,000nt, 60 to 900nt, 60 to 800nt, 60 to 700nt, 60 to 600nt, 50 to 500nt, 60 to 5,000 nt, 60 to 4,000 nt, 60 to 3,000nt, 60 to 2,000nt, 60 to 1,500nt, 60 to 1,000nt, 60 to 900nt, 60 to 800nt, 60 to 700nt, 60 to 600nt, 60 to 500nt, 70 to 5,000
  • Exemplary ranges of the size or length of the k-mer used to classify the metagenome in the method of the invention are 10 to 100 nucleotides (nt), 10 to 90 nt, 10 to 80 nt, 10 to 70 nt, 10 to 60 nt, 10 to 50 nt, 10 to 40 nt, or 18 to 31 nt.
  • the shorter the length of the k-mer the fewer types of sequence combinations are possible.
  • tens of thousands of known bacteria and millions of unknowns are known. It is not possible to obtain a sufficient number of k-mer sequence types necessary to distinguish.
  • the selection range of the length of the k-mer used in the present invention is greater than or equal to 10 nt of the length of the k-mer and storage with a number of combinations capable of sufficiently distinguishing tens of thousands of known bacteria considering the characteristics of the k-mer analysis. It is desirable to select within a 100-nt k-mer that can maximize capacity and computing power efficiency and maintain sensitivity.
  • the method or system for identifying and classifying microorganisms includes (b) constructing a reference k-mer database of reference microbial core genes to which microbial classification information has been assigned, or A system can be constructed that includes a reference k-mer database of bacterial core genes. That is, the sample k-mer data set is compared with the reference k-mer database of the reference microbial core gene, and the microorganism classification information included in the reference k-mer database of the microbial core gene is compared. Using, it is possible to identify and classify microorganisms in the sample.
  • the reference k-mer database of the reference bacterial core gene, to which the microorganism classification information is assigned (b-1) obtains nucleotide sequence information of the bacterial core gene of at least two or more reference microorganisms, and (b -2) Using the sequence information of the reference core gene, it is divided into k-mers, and a process of assigning microbial taxon information to each k-mer is performed to construct a k-mer database with taxon information. can do.
  • the reference k-mer database contains any bacterial core sequence compared to the sample k-mer dataset.
  • the reference k-mer database can be reconstructed, including the core gene of a new reference microorganism, if found.
  • Taxonomic information is given for each reference k-mer sequence in the reference k-mer database, and additionally associated sample phenotypes, taxonomic groups, specific species, expression profiles, specific genes, associated phenotypes such as disease progression, drug resistance Alternatively, information about some known characteristics, such as pathogenicity, may be given.
  • the reference k-mer database used in the present invention is generated using a bacterial core gene sequence, and must include at least one core gene for each bacterial genome.
  • a k-mer fragment database of a reference core gene is constructed for taxonomic profiling, and includes one or more k-mer fragments generated from the reference core gene, wherein the k-mer fragment is Bacteria classification information is given.
  • the k-mer fragment database of the reference core gene obtains reference core gene information from the reference bacterial genome information, divides the reference core gene information into K-mer fragments, and k-mers of the reference core gene. A fragment database is obtained, and the k-mer fragment is given bacterial taxon.
  • bacterial core gene is broadly defined as a gene present in at least one of all or most bacterial genomes with only one copy.
  • the core gene is similar to a single copy gene, and the number of bacterial core genes varies depending on the species included in the database.
  • the bacterial core gene may be present as a single copy gene in the genomic information of all reference microorganisms used to construct a k-mer database of a reference core gene.
  • the length of the bacterial core gene to be applied to the present invention may be 100 to 4,000 bases (nucleotide, nt) long, for example, 110 to 4,000 nt, 120 to 4,000 nt, 125 to 4,000 nt, 110 to 3,900 nt, 120 to 3,900 It may be nt, 125 to 3,900 nt, 110 to 3,800 nt, 120 to 3,800 nt, or 125 to 3,800 nt, but it can be made of a k-mer and selected to an appropriate length if it can be used for microbial classification.
  • the bacterial core gene used in an example of the present invention is the ratio (A) and / or distinct (distinct) k-mer of the number of unique k-mer sequences to the number of total k-mer sequences.
  • the ratio (B) of the number of unique k-mer sequences to the number of sequences it can be selected from among the bacterial core genes.
  • the bacterial core gene may have a value of (A) of 40% or more, and / or a value of (B) of 75% or more. The longer the k-mer, the larger the numbers (A) and (B).
  • Table 1 shows the number of unique k-mers, the number of distinct k-mers, the total number of k-mers, and the unique k-s of various sizes in the k-mer database of the bacterial core gene according to a specific embodiment of the present invention. It shows the percentage of mer.
  • the reference k-mer database of the bacterial core gene of the reference microorganism may be altered due to the addition of the reference microorganism and / or core gene.
  • a k-mer sequence having only one copy in all sequences of the bacterial core gene of the reference microbial population is called a native k-mer, and does not include a k-mer sequence having two or more copies.
  • a k-mer sequence with one or more copies, including repetitive k-mers and native k-mers, is called a distinct k-mer, but counts as one copy.
  • the number of distinct k-mers in Table 1 refers to the sum of the number of unique k-mers and one copy number selected from repetitive k-mers having two or more copies.
  • the term total k-mer refers to the sum of all single k-mers in the bacterial core gene sequence of the reference microbial population. For example, the following:
  • k-mer set ⁇ AA, AC, AC, AG, AG, AG ⁇ ;
  • the k-mer is an item to be distinguished when extracting from a core gene to be used as a database, and in the case of a native k-mer, the corresponding k-mer refers to a single strain or a single species, and excludes the unique k-mer from the distinct k-mer.
  • the k-mers are found in two or more strains (genomes) or two or more core genes, and when found in two or more microbial genomes, each genome is a different taxonomy, the least common using each taxonomy information An ancestor (LCA) is used as the classification information of the corresponding k-mer.
  • LCA ancestor
  • the sample k-mer dataset calculates the k-mer match for the distinct k-mer among the three items of the above k-mer. Differentiated k-mers, including unique k-mers, are assigned classification information, so that a list of taxon information for sequencing leads can be assigned.
  • the advantage of using the k-mer sequence of the bacterial core gene is that it eliminates the need for a read normalization step when calculating the taxonomy abundance for a given sample. For the entire genome sequence, larger genomes tend to provide a larger number of leads to meta-genome samples than smaller genomes. For example, compared to species B with 2 million base pairs, species A with 10 million base pairs provides 5 times more reads to the sample per unit cell. If the metagenome profile contains 10 million leads of species A and 10 million leads of species B, species A and species B mean the same number of leads, but due to the difference in genome size, the sample contains one genome of species A, Species B can be inferred to contain five genomes.
  • the bacterial genome contains several copies of 16S rRNA, a situation similar to the above can also occur in a method using a 16S rRNA sequence, whereby the 16S rRNA reads for each species in the given metagenome sample contribute differently.
  • the bacterial core gene is present in all or most species, and there is only one copy in all genomes, so no normalization step is required.
  • the use of the k-mer sequence of the bacterial core gene reduces the size of the physical storage medium required to store and analyze all metagenome samples.
  • a reference full genome k-mer database for 10,000 species requires approximately 450 gigabytes on all types of physical storage media, but the same 10,000 species of bacterial core gene k-mer database is sufficient for approximately 7 gigabytes Therefore, in the case of actual storage media, the storage size of about 6,400% is reduced. This reduction in storage space allows the use of faster types of physical storage media such as RAM or solid-state drives.
  • the method described herein demonstrates the advantage of using a bacterial core gene using an accurate k-mer match approach for accurate metagenome taxonomic profiling.
  • the core gene set is a unique k-mer belonging to a particular species (k-mer with only one copy in all genomes), so the percentage of unique k-mers must be high. Contains a list of taxonomy and taxonomy for individual microbial genomes used to build a database of reference core genes.
  • the reference k-mer database described above may be generated by an algorithm or program designed for the number of k-mers, for example, JELLYFISH.
  • JELLYFISH is a command line application that counts k-mers from a specific input FASTA file, and uses an efficient hash table to store k-mers and their unique numeric IDs in memory.
  • Hash table is a data structure that can map a key to a value using a hash function that calculates an index as an array of desired values.
  • the DNA k-mer sequence is stored as a hash key while the unique numeric ID is stored as a value (Fig. 3).
  • the unique numeric ID belongs to a specific species. Because the location on the classification system or the unique taxonomy name has a large information body, there is a unique numeric ID that can indicate the taxonomy name, and each ID is associated with each species for all microbial species included in the reference database. Matches ( Figure 4). When a previously stored k-mer is found again in a different DNA sequence, the LCA (Lowest Common Ancestor) ID is used instead of the unique numeric ID for a particular species ( Figure 5).
  • LCA Local Common Ancestor
  • the LCA ID is generated using a classification diagram. For example, if k-mers are found in the reference sequences of E. coli and Shigella species, the LCA IDs will belong to the family taxa (Enterobacteriaceae) to which they belong. Once the LCA is calculated, it replaces the value in the hash table for that k-mer. All k-mers are created in memory as hash tables and stored on the hard drive.
  • the hash table file is also called a Kraken database. Kraken is an open source k-mer classifier and is compatible with the JELLYFISH built-in database.
  • the bacterial core gene of the k-mer database has the advantage that the file size of the final database is small, and the database can be allocated to faster and smaller memory, such as RAM memory for execution, As a result, k-mer classifier programs can be run hundreds of times faster.
  • the k-mer database of bacterial core genes reduced the percentage of classification errors at the species level by almost half, showing how a smaller database representing the same number of species as the entire genomic k-mer database could be more accurate (Table 4). .
  • the step (b-1) of obtaining the nucleotide sequence information of the bacterial core gene of at least two or more reference microorganisms is performed by performing genomic DNA sequence extraction and sequence information analysis of the reference microorganism, or core genes of the reference microorganism Amplification of bays can be performed to perform sequence information analysis, or by extracting sequence information from a database of microbial genome sequence information, nucleotide sequence information of a bacterial core gene of a reference microorganism can be obtained.
  • DNA application and sequencing are sample k-mer of step (a). It can be performed in substantially the same way as in the step of obtaining the dataset.
  • nucleotide sequence information of a bacterial core gene of a reference microorganism is obtained by extracting sequence information rules from a database of microbial genome sequence information
  • UBCG bioinformatics pipeline can be used or obtained through an alternative pipeline.
  • the sequence information (input dataset) of the microbial genomic DNA of the entire sample can be searched and downloaded from the Sequence Read Archive of the National Center for Biotechnology Information (NCBI) using the SRA toolkit program, but is not limited thereto.
  • the bacterial core gene can be extracted from the genome of the EzBioCloud database using the UBCG pipeline.
  • the (b-2) is divided into k-mers using the sequence information of the core genes of the entire reference microbial population, and the process of assigning microbial taxon information to each k-mer is performed, and taxon information is given.
  • K-mer database can be built.
  • the reference k-mer database of the reference microorganism core gene includes one or more k-mers generated from the reference core gene by dividing the DNA information of the reference core gene into k-mers, wherein the k-mer is a microorganism classification (taxon) information may be assigned.
  • the method of constructing a k-mer database using the k-mer and reference microbial core gene information is substantially the same as the description of the step of obtaining a sample k-mer dataset in step (a). have. However, in the construction of the sample k-mer dataset of step (a), the whole genome information of the microorganisms in the sample is used, but in the construction of the reference k-mer database, the core gene of the reference microorganism is different.
  • Microorganism classification (taxon) information is assigned to each of the divided k-mers, so that a k-mer database to which taxon information is assigned can be constructed.
  • the assignment of the microbial classification information implies individual classification information regarding the corresponding species because the corresponding k-mer means a single genome or a single species.
  • the distinct k-mers, except for the intrinsic k-mers are found in two or more core genes present in the same genome or in two or more different genomes.
  • microbial classification information of the corresponding genome is given, and when it is found in two or more different microbial genomes, if each genome is a different taxonomy, information on each taxonomy is provided.
  • the least common ancestor (LCA) used is used as the classification information of the corresponding k-mer.
  • a unique ID for microbial taxon information is assigned to construct a k-mer database of reference core genes
  • a method of assigning a unique ID regarding microbial taxon information is: (i) In the case of a unique k-mer, a unique ID of the microbial species to which the corresponding k-mer belongs is assigned; (ii) If the k-mer is a distinct k-mer and the k-mer is found in only one species of microorganism, the unique ID of the microorganism is given, and (iii) the k-mer is a distinct k-mer. When found in a microorganism species, it may be performed by selecting a Least Common ancestor (LCA) and assigning a unique ID to the corresponding microorganism taxon information.
  • LCA Least Common ancestor
  • the method or system for identifying and classifying microorganisms according to the present invention includes (c) a k-mer included in a reference k-mer database for a k-mer included in a sample k-mer dataset according to the k-mer perfect match method.
  • the comparison may include the step of selecting a perfect match k-mer, and (d) identifying and classifying microbial species included in the sample using the selected k-mer taxon information.
  • the k-mers included in the sample k-mer dataset are compared, and are completely matched. Perform the step of selecting the k-mer.
  • the present invention relates to a computer system that enables accurate and efficient classification of metagenome reads by comparing it with a k-mer database of bacterial core genes to generate a metagenome taxonomic profile.
  • a k-mer database of bacterial core genes to generate a metagenome taxonomic profile.
  • sequence identity refers to the nucleotide-to-nucleotide correspondence of two polynucleotides each.
  • (c) k-mer comparison and selection of an exact match k-mer compare the test k-mer dataset with a reference k-mer database to search for the existence of a completely identical k-mer sequence, and 1 If more than two bases are different, it is judged that they are not the same.
  • multiple k-mers are found in the core gene when constructing the k-mer database of the reference core gene, it is processed as the distinct k-mer, and is applicable in the genetic information of the input sample (lead of metagenome data). If the k-mer exactly matches the k-mer in the database, the unique ID of the k-mer is listed and used.
  • k-mer fragments eg, extracted k-mers
  • k-mer fragments eg, stored k-mers
  • test k- Only k-mer fragments that exactly match the mer fragment are selected from the reference k-mer database.
  • KRAKEN is a command line application that performs an exact match comparison of a previously established reference k-mer database (step b) and an input test k-mer fragment dataset (step a).
  • KRAKEN is a command-line application that performs an exact match comparison of a database and an input data set and categorizes all input leads using a taxanomic tree and the lowest common ancestor (LCA) technique. Through the LCA technique, KRAKEN selects a higher taxonomic rank for the lead if one lead matches the exact different species.
  • LCA lowest common ancestor
  • (c) k-mer comparison and perfect match k-mer selection using KRAKEN and (d) identification and classification of microorganisms in a sample first load a reference k-mer database (hash table) into memory From there, the read (DNA sequence) nucleotide sequence portion is read from the input sample k-mer dataset, and then the read read is divided into k-mers as follows to perform a search based on a perfect match method. Then, KRAKEN searches the corresponding k-mer to get the corresponding value (unique ID) from the hash table. Each read obtained from the input dataset is divided into k-mers to obtain a sample k-mer dataset, and the size of the k-mer included in the sample k-mer dataset matches the size of the k-mer in the reference database. Should be.
  • FIG. 6 shows an example of sequencing read classification according to the present invention.
  • a hash table reference k-mer database
  • a query lead test lead of genomic sequence information of the sample microorganism
  • the query read (CGAGCGCAACCCGTT) (SEQ ID NO: 1) is divided into several k-mers: ⁇ CGAGCGCAACCC (SEQ ID NO: 2), GGAGCGCAACCC (SEQ ID NO: 3), AGCGCAACCCGT (SEQ ID NO: 4) ⁇ , GCGCAACCCGTT (SEQ ID NO: 5) ⁇
  • each k-mer has a unique numeric ID, and in this case, the related ID numbers are ⁇ 5756, 2347, 1345, 1345 ⁇ .
  • the ID relates to species belonging to different genus, and the lead classification is assigned to the most common taxa. In this case, the classification is at the family level. Since the k-mer sequence is used as a key key in the hash map, searching for such a k-mer requires a certain computation time. Kraken stores all of the unique IDs of all found k-mer sequences in a file and calculates how many k-mers were found for each ID with the selected number of k-mers. Finally, Kraken uses the selected number of K-mers to generate results (reports) showing the number of leads for each species or higher taxa.
  • the microbial taxon information is classified by a unique ID, and is assigned to individual k-mers in the reference k-mer database.
  • the sample microbial genome information includes sequencing reads obtained by Next Generation sequencing (NGS),
  • the unique ID corresponding to the taxonomic level obtained for each of the individual sequencing reads is collected by performing the entire sequencing read included in the sample microbial genome, and the entire unique ID list is created to identify and classify the sample microorganisms. May be
  • a sample k-mer dataset is obtained using the microbial genome information
  • the microbial taxon information is classified by a unique ID, and is assigned to individual k-mers in the reference k-mer database.
  • the sample microbial genome information includes sequencing reads obtained by Next Generation sequencing (NGS),
  • the unique ID corresponding to the taxonomic level obtained for each individual sequencing read is collected for the entire sequencing read included in the sample microbial genome, and a full unique ID list is generated.
  • the number of reads assigned to each unique ID corresponding to the taxonomic level is obtained.
  • It may be a method of obtaining the abundance profile information of a species of microorganism in a sample.
  • the method for identification and taxonomic profiling of microorganisms using the bacterial core gene and k-mer dataset according to the present invention has the following advantages.
  • the "exact k-mer” approach according to the present invention can perform classification more quickly.
  • the reason why rapid classification is possible according to the exact k-mer approach is that the "correct k-mer approach" operates on a previously obtained database called a "reference k-mer database” with substrings of the genome, against which This is because only the exact match of the string is required.
  • the conventionally known homology search approach is time consuming since it is necessary to find the insertion, deletion and mutation of the DNA base contained over the entire length of the read for several genomic sequences included in the reference database.
  • microbial classification using the bacterial core gene according to the present invention can greatly reduce the storage capacity of the database.
  • the average genome size of all species calculated based on the EzBioCloud database is an average of 4 million base pairs, while the average length per core gene calculated through the UBCG pipeline is 1,000 base pairs. Therefore, in the identification and classification of microorganisms of a metagenome sample containing the genome of at least two or more microorganisms as in the present invention, the size of the storage capacity of the database to be processed is the condition of the program execution speed and storage capacity, hardware and the like, and microbiological taxonomy. This is a very important factor when considering the time and speed of profiling.
  • the genetic markers conventionally used for microbial classification are very diverse in frequency and size, and depending on the frequency and size, the microbial classification results are influenced, and it may be difficult to apply to the new genome and thus may need to be modified.
  • a bacterial core gene is used instead of a genetic marker according to an example of the present invention, since all bacterial genomes contain almost the same size core gene, it is possible to more equally respond to all genomes without bias. Since the taxonomically close genome has a more similar core gene, the use of the core gene in the homology search creates an inaccurate or ambiguous taxonomic profile at the subclass, particularly at the species level.
  • the method described in one example of the present invention enables metagenomic taxonomic profiling based on an exact match comparison of the k-mer sequence associated with the bacterial core gene from each species in the bacterial kingdom.
  • a computer system is described that is configured to generate a metagenome taxonomic profile using a bacterial core gene and a k-mer database.
  • the present invention provides a reference k-mer database of (a) a reference bacterial core gene, (b) a k-mer extractor and a k-mer analyzer (k-mer).
  • a reference k-mer database of (a) a reference bacterial core gene, (b) a k-mer extractor and a k-mer analyzer (k-mer).
  • the reference k-mer database includes one or more k-mers generated from DNA information of one or more reference bacterial core genes, wherein the k-mer is assigned the classification information of the microorganism;
  • the processor's k-mer extractor extracts one or more k-mers from metagenome information obtained from a sample
  • the k-mer analyzer of the processor selects a k-mer having exactly the same nucleic acid sequence information as the k-mer included in the k-mer database of the reference core gene for the k-mer included in the sample k-mer dataset. Then, the index containing the selected k-mer's taxon information is cataloged, and identification and classification of microorganisms included in the sample is performed based on the taxonomic information about the selected k-mer. It relates to a system for identifying and classifying microorganisms in a sample.
  • the system includes at least one processor and one or more storage devices having stored computer-executable instructions.
  • the instructions can be executed by one or more processors and receive a set of input data containing nucleotide sequences.
  • the input sequence is compared to a k-mer database of reference bacterial core genes pre-built using a k-mer analyzer.
  • the aforementioned k-mer analyzer can generate a taxonomic profile for the input data set.
  • the test k-mer dataset is a reference bacteria.
  • the taxon information of a specific species on the k-mer database of the matched reference core gene in the sample k-mer dataset by comparison with a reference k-mer database containing the core gene's k-mer database and the k-mer perfect match, and / or Or, record taxon information including LCM information, and classify the k-mer dataset of the test core gene using taxon information and the total number of k-mers that are completely matched to sample k generating a taxonomic profile for the -mer dataset (input dataset).
  • a step of selecting a taxon of a fully matched k-merm for all sequences (sequencing reads) obtained from the input dataset Specifically, a list of unique IDs (eg numbers or letters) corresponding to the k-mer for each sequencing read Create and select a taxon based on the ID value, select the taxon corresponding to the ID if there is one selected ID, select the least common ancestor (LCA) if there are multiple selected IDs, and As a step of combining the unique ID (taxon) information allocated for each sequencing read for all the species to obtain the number of classified reads per taxonomic level (number), and determining the taxonomic profile of microorganisms in the sample , Specifically, the profile is determined according to the number of leads allocated for each unique ID (taxon).
  • unique IDs eg numbers or letters
  • the final taxon for all sequences in the input dataset may or may not use an additional filtering process.
  • One form of the product obtained as a result of the method according to the invention may be a metanomicnomic taxonomy report, which includes the total number of leads for one or more taxonomic levels. Because of the definition of the bacterial core gene, a standardization step is not required, and thus the report can be referred to as a metanomic abundance report.
  • the metagenomic classification method of the present invention can be executed by one or more processors, and the k-mer database of bacterial core genes can be transferred to a faster physical storage medium such as RAM memory for faster classification.
  • the computer environment 100 includes a computer device 110 having a memory 120 and at least one processor 131. Other components may include a variety of different processor and memory types.
  • the memory 120 may be any type, physical, volatile, non-volatile, external storage device, USB memory, SSD memory, or any type of storage device, and may be a combination of two or more types of memory.
  • the computer device 110 may also include a mouse, keyboard, any kind of monitor, speaker, and any other device that can be used for any kind of input / output between the computer device 110 and the user, Computer device 110 comprising one or more input / output hardware 132.
  • the computer device 110 also includes at least one communication channel 133 that can be used to communicate with at least one additional computer system.
  • the communication channel may be in the form of a local area network (LAN), the Internet, or a similar network configuration.
  • the computer device 110 also includes some executable components 134-135, where the executable components can be defined as software coded components, modules, or methods that can be executed on a computing system.
  • FIG. 1 shows an example of a setup of a computer system designed to generate a metagenomic taxonomic profile for a given sample, compared to a reference bacterial core gene k-mer database.
  • the above example is not intended to limit the location of one or more of its components.
  • the memory component 120 shown in FIG. 1 includes a bacterial core gene k-mer database 121 containing k-mers previously generated from a set of bacterial core genes.
  • the core gene may vary depending on the number of species represented by the core gene.
  • memory component 120 includes metagenomic data sample component 122 that may include one or more files containing one or more polynucleotide sequences comprising at least 50 base pairs.
  • the file can be FASTA format file, FASTQ format file, or text-based including any other format that can include polynucleotide sequences.
  • the file represents a sample of metagenomic data and will be compared to the bacterial core gene k-mer database 121 using the k-mer analyzer 123 with a selective filtering process 135.
  • FIG. 2 is a schematic diagram schematically showing a process of comparing each k-mer sequence obtained from a query lead obtained from a metagenome data sample with a reference bacterial core gene k-mer database.
  • the computer readable method may be implemented as a program executable on a computer on a computer readable medium.
  • Another example provides a computer program stored on a computer readable storage medium to execute the steps of the computer readable method.
  • Computer programs stored on computer readable storage media may be combined with hardware.
  • a computer program stored in a computer-readable storage medium is a program for executing each step of the computer-readable method, and all steps can be executed by one program or by two or more programs executing one or more steps.
  • Another example provides a computer readable storage medium (or recording medium) having a program executable on a computer (computer executable instructions) to execute steps of a computer readable method.
  • the present invention relates to a method and system for identifying and classifying microorganisms contained in a metagenome sample using a k-mer full match algorithm and a bacterial core gene, and the analysis of the taxonomic composition for the metagenome sample is faster and without bias. It has the advantage of being able to do it more accurately.
  • the computing environment 100 includes a computer device 110 having a memory 120 and at least one processor 131.
  • FIG. 2 shows an example of a process for comparing reads from a metagenome sample according to an example of the present invention, comparing each k-mer sequence obtained from the input reads of the test sample with a reference k-mer database of bacterial core genes. .
  • 3 is an example of a hash table for k-mer classification according to an example of the present invention, where k-mer represents a key and the ID (numerical value) of a species is stored as a value.
  • 4 is a hash table including two k-mers according to an example of the present invention and belongs to two different species.
  • LCA is a family level (ID 930).
  • the query lead (CGAGCGCAACCCGTT) should be classified, can read all 4 k-mers, 4 k-mers are retrieved from the hash table The corresponding values are extracted (5756, 2347, 1345, 1345).
  • the LCA for the k-mer is selected, in which case the leads will be classified as the node 930 (father of the nodes).
  • Example 1 Establishing a reference K-mer database for bacterial core genes
  • 92 bacterial core genes were extracted from 9,604 genomics obtained from the EzBioCloud database.
  • the UBCG pipeline uses phylogenetic relationships to identify a set of core genes that are single copies in the genome.
  • the method for identifying a set of bacterial core genes and the obtained data is based on the contents of the UBCG paper (Seong-In Na et al., Journal of Microbiology (2016) Vol. 56, No.4, pp280-285). Extracted and confirmed, the method of this paper analyzes many existing microbial genome data, selects 92 genes that each microorganism has in common as a single copy, selects HMM (Hidden Markov) of the gene sequence for each gene Model) is a method of making a gene sequence pattern profile and using the search program using the gene sequence pattern profile, for example, a program such as HMMER to extract and confirm the gene sequence.
  • HMM Hidden Markov
  • JELLYFISH creates a k-mer database with a 26-mer length from the bacterial core gene
  • the reference k-mer database obtained above has a 87% percentage of the unique k-mer and a total size of 6.4 GB. Calculated.
  • Table 2 shows the analysis results of the reference K-mer database obtained according to this example.
  • Table 2 below shows the number of intrinsic k-mers, the number of distinct k-mers, the total number of k-mers, and the percentage of intrinsic k-mers of various sizes in the k-mer database of bacterial core genes.
  • Another reference k-mer database was created to demonstrate the efficiency of using the bacterial core gene in the reference k-mer database.
  • the k-mer database was prepared according to the same procedure as in Example 1, but the entire genomic sequence was used.
  • the k-mer database for the entire genome includes the same species as included in the k-mer database for the bacterial core gene.
  • JELLYFISH produces a k-mer database with a 26-mer length from the entire bacterial genome, and the obtained k-mer database is a total size of 353.11 GB, which is about 55 times larger than the file capacity of Example 1.
  • the sample metagenome input file of 2-1 was sorted by the KRAKEN program. .
  • the database was allocated to RAM memory so that the KRAKEN program could access the database faster. Sorting 296,514 leads from the input data set took approximately 9 seconds.
  • KRAKEN is a command-line application that performs an exact match comparison of a database and an input data set and categorizes all input leads using a taxanomic tree and the lowest common ancestor (LCA) technique.
  • LCA lowest common ancestor
  • the analysis error rate according to the classification method using the reference k-mer database of the bacterial core gene and the reference k-mer database of the entire genome is calculated by the following Equation 1, and the results are shown as a percentage of the analysis error in Table 3.
  • the term “predicted abundance” refers to the percentage predicted for a given species by a given method, and “Expected abundance” is the true percentage of the species present in the sample. It shows the abundance.
  • the error rate is the value obtained by dividing the absolute value of [Real Expected Abundance]-[(core gene k-mer] / (full genome K-mer)] by [Real Expected Abundance].
  • the analysis error rate of the k-mer database of the core gene according to Example 1 is lower than that of the entire genome k-mer database according to Comparative Example 1.
  • the Bray-Curtis similarity index also known as the Bray-Curtis distance
  • 1 is the sum of the smallest number of species found in each sample for the species commonly found in both samples. This is the index minus the number multiplied by the total number of species found in each sample divided by the sum.
  • a value calculated by the Bray-Curtis distance method is a sample that is not similar to each other as it is closer to 1, and a sample that is similar as it is closer to 0.
  • Table 4 shows a comparison of Bray-Curtis similarity index and known abundance calculated for the reference k-mer database of the bacterial core gene of Example 1 and the reference k-mer database of the entire bacterial genome of Comparative Example 1. , Shows that the taxonomic profile of the reference k-er database of core genes is closer to known facts.
  • the error rate in Table 2 is the absolute value of [Real Expected Abundance]-[(core gene k-mer] / (full genome K-mer)] divided by [Real Expected Abundance], and the actual expected value without unit
  • the total error in Table 5 is the sum of these error rate values for each method (Core gene k-mer / Full genome k-mer), and the average error is the average value.
  • the bacterial core gene of the k-mer database according to Example 1 has the advantage of having a small capacity of the final database, and consequently it can allocate the database to faster and smaller memory such as RAM memory. This allows the classification program to run hundreds of times faster.
  • the reference k-mer database of the bacterial core gene reduces the percentage of classification errors at the species level by almost half, so that a smaller capacity database shows more accurate classification results while showing the same number of species as the entire genomic k-mer database. It can be provided.
  • This experiment was performed to confirm the accuracy of the metagenome classification using the k-mer database of the bacterial core gene.
  • this experiment tested whether the reference k-mer dataset of the core gene according to the present invention had a greater similarity to the 16S rRNA dataset, compared to the reference k-mer dataset of the entire genome.
  • 5 random sets (NCBI SRA ID: SRS058770, SRS063985, SRS016203, SRS062427, SRS052697) of Human Microbiome Project (HMP) were selected from both 16S rRNA data and shotgun data.
  • the taxonomic profiling for each shotgun dataset was calculated using the reference k-mer database of core genes in substantially the same way as in Example 1, and the reference k- of the entire genome in substantially the same way as in Comparative Example 1. It was calculated using the mer database.
  • the 16S rRNA data is taxonomically profiled by the cloud platform EzBioCloud (www.ezbiocloud.net).
  • the accuracy of the reference k-mer database of the core gene and the reference k-mer database of the entire genome was determined by prediction of the 16S rRNA taxonomic profile.
  • Tables 6-10 below show the overall abundance of 16S rRNA and shotgun data for each HMP sample obtained in Example 3-1, at the genus level.
  • Tables 5 to 9 compare the 16S rRNA methods most commonly used in taxonomic profiling using data published to date.
  • Table 5 to Table 9 show the results of taxonomic profiling calculated using various public data to demonstrate that the method using the k-mer database of the core gene used in the present invention has a high correlation with the existing method. It is shown in.
  • Example 3-1 For all HMP sets obtained in Example 3-1, a reference k-mer database of core genes according to Example 1, a reference k-mer database of the entire genome according to Comparative Example 1, and a classification method using a 16S rRNA database For, Bray-Curtis similarity index was calculated in substantially the same manner as in Example 2-4 and is shown in Table 10 below.
  • Table 11 shows the Bray-Curtis similarity for all HMP sets using three reference databases.
  • the Bray-Curtis similarity index indicates similarity as it approaches 0, and not similar as it approaches 1 .
  • the k-mer dataset of the core gene according to Example 1 is compared It shows a greater similarity to 16S rRNA data compared to the k-mer data set of the whole genome according to Example 1.

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 k-mer 완전 매치 알고리즘과 박테리아 코어 유전자를 사용하여 시료에 포함된 미생물을 동정 및 분류 방법에 관한 것으로, 바람직하게는 상기 메타게놈 샘플에 대한 분류학적 조성에 대한 분석을 편향없이 더 빠르고 더 정확하게 할 수 있는 장점이 있다.

Description

시료 미생물의 동정 및 분류 방법
본 발명은 k-mer 완전 매치 알고리즘과 박테리아 코어 유전자를 사용하여 시료에 포함된 미생물 동정 및 분류하는 방법과 상기 시료 내 미생물의 균종 풍부도를 분석하는 방법에 관한 것으로, 바람직하게는 상기 메타게놈 샘플에 대한 분류학적 조성에 대한 분석을 편향없이 더 빠르고 더 정확하게 할 수 있는 장점이 있다.
지난 10 년 동안 메타게놈 시료의 분류학적 조성을 예측하는 것은 어려운 일이었다. 주어진 샘플에 포함된 미생물 분류군을 결정할 수 있다면 환경에 미치는 미생물의 역할에 대한 많은 통찰력을 얻을 수 있다. 매년 공개되는 새로운 게놈을 데이터베이스에 추가하여 분석하면 더 정확하고 상세한 분류가 가능하다. 그러나 이러한 과정은 매우 많은 양의 복잡한 계산을 요구하며, 수천 개의 참조 게놈에 대한 샘플로부터 수백만 번 이상의 판독을 필요로 하기에 일반적으로 대규모의 CPU 클러스터를 필요로 한다.
지난 수십 년 동안 분류법은 상동성 검색 (서열 정렬)을 통해 이루어졌다. 이 방법은 참조 데이터베이스에 충분한 정보가 없고 특정 게놈 리드(read)와 "가장 가까운(the closest)" 매치를 찾으려고 할 때 유용하다. 주어진 종 (species)이 참조 데이터베이스에 없다면 많은 수의 리드가 분류되지 않기 때문에 데이터베이스의 정보 부족으로 " k-mer 완전일치"의 접근법을 신뢰할 수 없게 만들었다.
그러나, 최근 몇 년 동안 공개적으로 이용 가능한 게놈의 수가 증가했기 때문에 "k-mer 완전일치" 접근법의 신뢰도가 충분히 높아졌고 이 방법을 구현하기 위한 컴퓨터 속도가 빨라지면서 유용한 방법이 되었다. 반면에, 상동성 검색 방법은 수행해야 할 비교 횟수가 많아져서 느려지고, 관련 게놈이 유사한 수준의 서열 구성을 가지기 때문에 부정확하다. 이러한 부정확성을 피하고 계산 시간을 줄이기 위해 일부 상동성 검색 방법은 유전자 마커 (여러 종 또는 속에서 한 번만 존재하는 서열)를 사용하여 비교 횟수를 감소시킨다.
이러한 유전자 마커를 이용한 방법의 단점은 박테리아 게놈의 크기와 유전자의 빈도가 매우 불규칙적이며 (일부 종 또는 속은 다른 종보다 더 많은 마커를 포함함) 다른 종 또는 속이 참조 데이터베이스에 추가되면 해당 마커를 다시 계산해야 한다는 것이다. 기존의 마커가 새롭게 발견된 완전히 다른 분류군에서 발견되면 해당 마커는 더 이상 기존 분류군에 대해 사용할 수 없다.
보다 정확한 분류학적 프로파일(taxonomy profile)을 얻기 위해서는, 분류학적 프로파일에 있는 각 종에 대해 표준화 단계를 수행해야 한다. 전체 게놈 데이터베이스를 참조 데이터베이스로 사용하는 메타게놈 분류(metagenomic taxonomy) 프로파일의 경우, 각 종(species)에 대한 게놈 크기를 고려한 표준화 단계가 포함되어야 한다. 예를 들어, 5 Mb의 게놈 크기를 갖는 A 종은 2 Mb의 게놈 크기를 갖는 B종과 비교하여 샘플에 더 많은 기여를 하게 된다. 유전자 마커를 이용할 경우 NGS (Next Generation Sequencing)에서 얻은 리드 수는 동일한 게놈에서의 유전자 마커 크기와 빈도에 따라 표준화(normalization)되어야 한다.
메타게놈은 여러 미생물을 포함하는 시료, 예를 들면 환경에서 채취한 시료 등에 포함된 여러 미생물의 유전체를 함께 분석하는 경우 사용하는 용어이다. 최근 여러 연구를 통해 16S 리보솜 RNA(16S rRNA)를 이용한 마커 유전자 기반의 메타게놈 NGS 데이터 분석을 이용하여 인간 및 환경의 미생물 총의 세균 구성을 목록화 하는 것이 가능해졌으며 Shotgun 기법을 이용한 메타게놈 NGS 데이터의 분석이 활발하게 연구되고 있다.
본 발명은 k-mer 완전일치법(exact k-mer matching method)과 박테리아 코어 유전자를 사용하여, 분류학적 조성에 대한 분석을 편향없이 더 빠르고 더 정확하게 시료에 포함된 2종 이상의 미생물 종을 동정 및 분류 방법 및 시료 내 미생물을 동정 및 분류하는 시스템을 제공하는 것이다.
본 발명의 추가 일예는 k-mer 완전일치법(exact k-mer matching method)과 박테리아 코어 유전자를 사용하여, 시료에 포함된 미생물의 균종 풍부도를 분석하여, 특히 메타게놈 시료에 대한 분류학적 프로파일링 방법(taxanomy profiling method)을 제공하는 것이다.
본 발명의 일 예는 시료에서 얻은 미생물 유전체 정보를 제공하고,
상기 미생물 유전체 정보를 이용하여 시료 k-mer 데이터세트를 얻고,
미생물 분류 정보가 부여된, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와, 상기 시료 k-mer 데이터세트를 비교하여, 상기 시료 내 미생물을 동정 및 분류하는 단계를 포함하는, 시료 내 미생물을 동정 및 분류하는 방법에 관한 것이다.
본 발명의 추가 일 예는, 시료 내 미생물을 동정 및 분류하는 방법을 이용하여, 시료 내 미생물의 풍부도 정보를 얻을 수 있으며, 더욱 자세하게는
시료에서 얻은 미생물 유전체 정보를 제공하고,
상기 미생물 유전체 정보를 이용하여 시료 k-mer 데이터세트를 얻고,
미생물 분류 정보가 부여된, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와, 상기 시료 k-mer 데이터세트를 비교하여, 상기 시료 내 미생물을 동정 및 분류하고,
상기 미생물의 시료 내 풍부도를 산출하여 시료 내 미생물의 종의 풍부도 프로파일 정보를 얻는 방법에 관한 것이다.
구체적으로 일 예에서, 본 발명에 따른 시료 내 미생물을 동정 및 분류하는 방법은, 컴퓨터 장치를 이용하여,
시료에서 얻은 미생물 유전체 DNA를 차세대 염기서열 분석법(Next Generation sequencing, NGS)으로 분석하여 얻어진 시퀀싱 리드를 포함하는 유전체 정보를 얻고,
상기 개별 시퀀싱 리드에 대해 k-mer 데이터세트를 만들어, 상기 시료에 포함된 미생물 유전체 전체에 대한 시료 k-mer 데이터세트를 얻고,
미생물 분류 정보가 부여된, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와, 상기 시료 k-mer 데이터세트를 비교하여, 상기 시료 내 미생물을 동정 및 분류하는 단계를 포함할 수 있다.
본 발명의 추가 일 예에서, 본 발명에 따른 시료 내 미생물을 동정 및 분류하는 방법은, 상기 미생물 분류(taxon) 정보는 고유 ID로 구분하여, 참조 k-mer 데이터베이스의 개별 k-mer에 부여된 것이며, 상기 시료 미생물 유전체 정보는 차세대 염기서열 분석법(Next Generation sequencing, NGS)으로 얻어진 시퀀싱 리드를 포함하며,
상기 시료 미생물 유전체의 개별 시퀀싱 리드에 대해,
(i) 하나이상의 k-mer를 포함하는 k-mer 데이터세트를 만들어, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와 비교하여, 뉴클레오티드 서열이 완전일치한 k-mer를 참조 k-mer 데이터베이스로부터 선정하고,
(ii) 상기 선정된 k-mer에 부여된 미생물 분류 정보을 갖는 고유 ID 정보를 얻고,
(iii)상기 시퀀싱 리드에서 얻어진 하나 이상의 고유 ID를 모은 목록 정보를 이용하여, 고유 ID 목록에 포함된 고유 ID가 하나이거나 모두 동일할 경우 해당 ID를 시퀀싱 리드의 고유 ID로 선택하고, 고유 ID 목록에 둘 이상의 서로 다른 고유 ID가 포함될 경우 최소공통조상(LCA)에 해당하는 고유 ID를 선택하며,
(iv) 상기 개별 시퀀싱 리드별로 할당된 분류학적 수준에 해당하는 고유 ID의 분류 정보를 결합하며,
상기 개별 시퀀싱 리드별로 얻어진 분류학적 수준에 해당하는 고유 ID를, 상기 시료 미생물 유전체에 포함된 전체 시퀀싱 리드에 대해 수행하여 얻어진 고유 ID 를 모아 전체 고유 ID 목록을 만들어, 상기 시료 미생물의 동정 및 분류하는 것인, 방법에 관한 것이다.
또한, 본 발명에 따른 시료 내 미생물의 분류학적 프로파일 정보 또는 풍부도를 얻는 방법은, 시료에서 얻은 미생물 유전체 정보를 제공하고,
상기 미생물 유전체 정보를 이용하여 시료 k-mer 데이터세트를 얻고,
미생물 분류(taxon) 정보가 부여된, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와, 상기 시료 k-mer 데이터세트를 비교하는 단계를 포함하며,
상기 시료 미생물 유전체 정보는 차세대 염기서열 분석법(Next Generation sequencing, NGS)으로 얻어진 시퀀싱 리드를 포함하며,
상기 시료 미생물 유전체의 개별 시퀀싱 리드에 대해,
(i) 하나이상의 k-mer를 포함하는 k-mer 데이터세트를 만들어, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와 비교하여, 뉴클레오티드 서열이 완전일치한 k-mer를 참조 k-mer 데이터베이스로부터 선정하고,
(ii) 상기 선정된 k-mer에 부여된 고유 ID 정보를 얻고,
(iii)상기 시퀀싱 리드에서 얻어진 하나 이상의 고유 ID를 모은 목록 정보를 이용하여, 고유 ID 목록에 포함된 고유 ID가 하나이거나 모두 동일할 경우 해당 ID를 시퀀싱 리드의 고유 ID로 선택하고, 고유 ID 목록에 둘 이상의 서로 다른 고유 ID가 포함될 경우 최소공통조상(LCA)에 해당하는 고유 ID를 부여하고,
(iv) 상기 개별 시퀀싱 리드별로 할당된 분류학적 수준에 해당하는 고유 ID의 분류 정보를 결합하며,
상기 개별 시퀀싱 리드별로 얻어진 분류학적 수준에 해당하는 고유 ID를, 상기 시료 미생물 유전체에 포함된 전체 시퀀싱 리드에 대해 수행하여 얻어진 고유 ID 를 모아 전체 고유 ID 목록을 만들고,
시료 미생물의 전체 고유 ID 목록에서, 상기 분류학적 수준에 해당하는 고유 ID별로 할당된 리드 (classified read)의 수 (number)를 얻고,
상기 고유 ID별로 할당된 리드 수를, 전체 고유 ID 목록에 할당된 리드 수의 총합으로 나누어, 해당 고유 ID에 해당하는 미생물 종 또는 분류정보에 대해 시료 내의 풍부도를 얻는 단계를 포함하는,
시료 내 미생물의 종의 풍부도 프로파일 정보를 얻는 방법에 관한 것이다.
본 발명에 따른 방법을 사용하여, 적어도 2종 이상의 미생물 종을 포함하는 시료 또는 적어도 2종 이상의 미생물 유전체 정보를 포함하는 시료, 예컨대 메타게놈 시료에 포함된 미생물의 종 또는 최소공통조상, 분류, 특정 종의 규모(population) 및 상대적 풍부도로 이루어지는 군에서 선택된 하나 이상의 정보를 얻을 수 있다.
본 발명의 또 다른 일 예는, 미생물 분류 정보가 부여된, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와, k-mer 추출기 (k-mer extractor)와 k-mer 분석기(k-mer analyzer)를 구비한 프로세서를 포함하는, 시료 내 미생물을 동정 및 분류하는 시스템으로서,
상기 참조 k-mer의 데이터베이스는 하나 이상의 참조 박테리아 코어 유전자의 유전 정보로부터 생성된 하나 이상의 k-mer를 포함하며, 상기 k-mer는 상기 미생물의 분류 정보가 부여된 것이며,
상기 프로세서의 k-mer 추출기는 시료에서 얻은 미생물 유전체 정보로부터 하나 이상의 k-mer를 추출하여 k-mer 데이터세트를 생성하며,
상기 프로세서의 k-mer 분석기는, 시료 k-mer 데이터세트에 포함된 k-mer에 대해 참조 k-mer 데이터베이스에 포함된 k-mer와 핵산서열정보가 완전히 동일한 k-mer을 선정하여, 상기 선정된 k-mer의 분류(taxon)정보를 포함하고 있는 인덱스를 목록화하고, 상기 선별된 k-mer에 대한 분류학적 정보를 기초로 시료에 포함된 미생물의 동정 및 분류를 수행하는 것이다.
본 발명의 또 다른 일 예는, 미생물 분류 정보가 부여된, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와, k-mer 추출기 (k-mer extractor), k-mer 분석기(k-mer analyzer), 및 풍부도 분석기를 구비한 프로세서를 포함하는, 시료 내 미생물의 종의 풍부도 프로파일 정보를 얻는 시스템으로서, 상기 k-mer 추출기 및 k-mer 분석기는 상술한 바와 같으며, 풍부도 분석기 시료 내 전체 미생물에서 특정 미생물이 점유하는 군집 규모를 의미하며 다양한 방법으로 계산될 수 있다.
구체적인 일 예에 따르면, 풍부도 분석기는 NGS 방법으로 시료 미생물의 유전체 정보를 얻고 상기 미생물 분류(taxon) 정보는 고유 ID로 구분하여, 참조 k-mer 데이터베이스의 개별 k-mer에 부여된 것인 경우,
상기 시료 미생물 유전체의 개별 시퀀싱 리드에 대해,
(i) 하나이상의 k-mer를 포함하는 k-mer 데이터세트를 만들어, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와 비교하여, 뉴클레오티드 서열이 완전일치한 k-mer를 참조 k-mer 데이터베이스로부터 선정하고,
(ii) 상기 선정된 k-mer에 부여된 고유 ID 정보를 얻고,
(iii)상기 시퀀싱 리드에서 얻어진 하나 이상의 고유 ID를 모은 목록 정보를 이용하여, 고유 ID 목록에 포함된 고유 ID가 하나이거나 모두 동일할 경우 해당 ID를 시퀀싱 리드의 고유 ID로 선택하고, 고유 ID 목록에 둘 이상의 서로 다른 고유 ID가 포함될 경우 최소공통조상(LCA)에 해당하는 고유 ID를 부여하고,
(iv) 상기 개별 시퀀싱 리드별로 할당된 분류학적 수준에 해당하는 고유 ID의 분류 정보를 결합하며,
상기 개별 시퀀싱 리드별로 얻어진 분류학적 수준에 해당하는 고유 ID를, 상기 시료 미생물 유전체에 포함된 전체 시퀀싱 리드에 대해 수행하여 얻어진 고유 ID 를 모아 전체 고유 ID 목록을 만들고,
시료 미생물의 전체 고유 ID 목록에서, 상기 분류학적 수준에 해당하는 고유 ID별로 할당된 리드 (classified read)의 수 (number)를 얻고,
상기 고유 ID별로 할당된 리드 수를, 전체 고유 ID 목록에 할당된 리드 수의 총합으로 나누어, 해당 고유 ID에 해당하는 미생물 종 또는 분류정보에 대해 시료 내의 풍부도를 얻는 단계를 포함할 수 있다. 상기 방법에 의한 경우 미생물의 상대적인 풍부도(relative adundance)는 시료 미생물의 전체 고유 ID 목록에서, 상기 분류학적 수준에 해당하는 고유 ID별로 할당된 리드 (classified read)의 수 (number)를, 전체 고유 ID 목록에 할당된 리드 수의 총합으로 나누어 얻어진 값일 수 있다.
이하, 본 발명을 더욱 자세히 설명하고자 한다.
본 발명은 k-mer 완전일치법과 박테리아 코어 유전자를 사용하여, 시료에 포함된 미생물 종을 동정 및 분류 방법 및 시료 내 미생물을 동정 및 분류하는 시스템에 관한 것이다.
구체적으로, 본 발명에 따른 시료 내 미생물을 동정 및 분류하는 방법 및 시스템은, (a)시료에서 얻은 미생물 유전체 정보를 이용하여 얻어지며, 시료 내 미생물의 전체 유전체에 대한 시료 k-mer 데이터세트, (b) 미생물 분류 정보가 부여된, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스, (c) k-mer 완전일치법에 따라 (a) 시료 k-mer 데이터세트에 포함된 k-mer에 대해, (b) 참조 k-mer 데이터베이스에 포함된 k-mer을 비교하여 완전일치 k-mer를 선정하고, (d) 상기 선정된 k-mer의 분류(taxon)정보를 이용하여, 시료에 포함된 미생물 종을 동정 및 분류하는 단계를 포함할 수 있다.
본 발명에 따른 미생물 동정 및 분류하는 방법 또는 시스템은 (a)시료에서 얻은 미생물 유전체 정보를 이용하여 얻어지며, 시료 내 미생물의 전체 유전체에 대한 시료 k-mer 데이터세트을 얻는 단계를 포함한다.
상기 시료 k-mer 데이터세트를 얻는 단계는, (a-1) 시험 시료 내 존재하는 1종 이상의 미생물 전체 유전체 DNA를 추출하고(유전체 DNA 추출), (a-2) 상기 시료 미생물의 전체 유전체 DNA의 서열분석을 수행하여 뉴클레오티드 서열정보를 얻고 (서열정보 분석), (a-3) 상기 미생물 유전체 정보로부터 하나 이상의 k-mer를 추출하여 k-mer 데이터세트를 생성하는 단계(시료 k-mer 데이타세트 생성)를 포함할 수 있다.
상기 (a-1) 를 별도로 수행하여 (a-2) 시료 전체의 미생물 유전체 DNA의 뉴클레오티드 서열정보를 제공하는 단계부터 수행할 수 있으므로 (a-1) 유전체 DNA 추출 단계가 본 발명에 따른 미생물 동정 및 분류하는 방법에 포함되지 않을 수도 있다.
본 발명에 따른 시료 k-mer 데이터세트를 얻는 단계는, 시험 시료 내 존재하는 1종 이상의 미생물의 전체 유전체 DNA를 추출하는 공정은 특별히 한정하지 않으며 본 기술분야에 알려진 미생물의 DNA 추출 방법을 사용하여 수행할 수 있다.
본 발명에 따른 시료 k-mer 데이터세트를 얻는 단계는, 상기 시료 전체의 미생물 유전체 DNA의 서열분석을 수행하여 뉴클레오티드 서열정보를 얻는 서열분석을 포함하며, 시료 전체의 미생물 유전체 DNA의 서열분석 방법은 본 기술분야에서 알려진 다양한 DNA 서열 분석방법으로 수행할 수 있다.
예를 들면, 마이크로바이옴은 시료 내 존재하는 미생물의 유전체 정보로서, 다양한 방법으로 얻어질 수 있으며, 예를 들면 NGS 방법 또는 샷건 서열분석법으로 얻을 수 있다. 분석하고자 하는 메타게놈 샘플의 입력 뉴클레오티드 데이터는 샷건 메타 게놈 서열분석 또는 차세대 서열분석 (NGS)과 같은 대규모 병렬 시퀀싱 기술에 의해 메타게놈 샘플의 DNA 서열을 분석함으로써 얻을 수 있다.
NGS 방법을 이용하여 유전체 서열 정보를 분석하는 경우, 상기 미생물 유전체 정보는 차세대 염기서열 분석법(Next Generation sequencing, NGS)으로 얻어진 시퀀싱 리드를 포함할 수 있다.
샷건 메타게놈 서열분석 (Shotgun metagenome sequencing)은 대량의 DNA 조각을 무작위로 배열된 작은 조각으로 절단하는 기술이다. 샷건 메타 게놈 서열분석은 주어진 복잡한 시료에 존재하는 모든 유기체의 모든 유전자를 포괄적으로 추출할 수 있고, 박테리아의 다양성을 평가하고 다양한 환경에서 미생물의 양을 탐지할 수 있다. 샷건 메타 게놈 서열분석은 분석이 불가능하거나 어려운 미배양 미생물(unculturable microorganisms)을 연구할 수 있는 수단을 제공한다는 장점이 있다.
본 발명에 따른 시료 k-mer 데이터세트를 얻는 단계는, (a-3) 상기 미생물 유전체 정보로부터 하나 이상의 k-mer를 추출하여 k-mer 데이터세트를 생성하는 단계(시료 k-mer 데이터세트 생성)을 포함할 수 있다.
구체적 일 예에서, 상기 미생물 유전체 정보는 차세대 염기서열 분석법(Next Generation sequencing, NGS)으로 얻어진 시퀀싱 리드를 포함하며, 컴퓨터 장치를 이용하여, 상기 개별 시퀀싱 리드에 대해 k-mer 길이에 맞추어 1개 염기씩 이동하며 k-mer 길이의 단편 문자열을 잘라내어 k-mer 데이터세트를 만들어, 상기 시료에 포함된 미생물 유전체 전체에 대한 시료 k-mer 데이터세트를 얻을 수 있다. 상기 시료 k-mer 데이터세트의 생성은 k-mer 추출기를 이용하여 수행할 수 있으며, 예시적인 k-mer 추출기는 젤리피쉬 (JELLYFISH) 프로그램일 수 있으나 이에 한정되지 아니한다. JELLYFISH는 주어진 입력 FASTA 파일에서 k-mer를 계산하는 명령 줄 응용 프로그램이다.
본 발명의 일 예에서, 상기 시험 시료에는 1종 이상의 미생물 균종을 포함할 수 있으며, 바람직하게는 2종 이상의 미생물을 포함하거나, 더욱 바람직하게는 메타게놈 시료일 수 있다. 메타게놈이란 특정 자연환경에 존재하는 모든 미생물의 유전체 집합으로 정의되거나, 최근 환경시료로부터 추출한 유전체 또는 유전자를 포함하는 클론을 총칭하는 것일 수 있다.
일반적으로 "k-mer"는 K개 뉴클레오티드를 갖는 폴리뉴클레오티드 단편을 의미하며, 본 발명에 따른 박테리아 코어 유전자의 k-mer 또는 k-mer 단편은, 각 박테리아 종으로부터 박테리아 코어 유전자로부터 생성된 길이 "k"개의 뉴클레오티드의 길이를 갖는 폴리뉴클레오티드 서열이며, 어떤 시퀀스가 주어졌을 때, 길이가 k개인 가능한 모든 subsequence의 집합이다.
시료 내 존재하는 미생물의 전체 유전체 서열정보로부터 하나 이상의 k-mer 단편 서열을 생성함으로써, 본 명세서 기술된 방법은 메타게놈 시료로부터 생성된 k-mer 단편 데이타베이스에 대해, 참조 박테리아 코어 유전자의 k-mer 서열을 정확한 매치 비교를 통해 시료에 포함된 미생물의 동정 및 분류를 수행할 수 있다.
예를 들어 "AGCTCT"시퀀스는 3-nt 서브시퀀스 "AGC", "GCT", "CTC"및 "TCT"로 나눌 수 있으며, 이들 서브 시퀀스들 각각은 k-mer이고, k = 3이다. K-Mers는 중첩되거나 중첩되지 않을 수 있다.
NGS 방법을 이용하여 유전체 서열 정보를 분석하는 경우, 상기 미생물 유전체 정보는 차세대 염기서열 분석법(Next Generation sequencing, NGS)으로 얻어진 시퀀싱 리드를 포함하며, 상기 k-mer의 길이는 시퀀싱 리드의 길이보다 짧은 것이 바람직하다. 일반적으로, 시퀀싱 리드("리드"또는 "쿼리 서열"이라고도 함)은 핵산 분자에서 유추된 핵산 염기 서열을 의미한다.
또한, 일반적인 서열 분석에서 얻어지는 시퀀싱 리드의 길이는 하한치가 50 뉴클레오티드(nt) 이상, 60nt 이상, 70 nt 이상, 80 nt이상, 90 nt이상, 또는 100 nt 이상일 수 있으며, 상한치는 특별히 한정하지 하나 5,000 nt이하, 4,000nt 이하, 3,000 nt이하, 2,000 nt이하, 1000 nt 이하, 900 nt 이하, 800 nt 이하, 700 nt 이하, 600 nt이하, 또는 500 nt 이하일 수 있으며, 또는 상기 상한치와 하한치의 조합 범위를 가질 수 있다. 예를 들면, 시퀀싱 리드의 길이범위는 50 내지 5,000 nt, 50 내지 4,000 nt, 50 내지 3,000nt, 50 내지 2,000nt, 50 내지 1,500nt, 50 내지 1,000nt, 50 내지 900nt, 50 내지 800nt, 50 내지 700nt, 50 내지 600nt, 50 내지 500nt, 60 내지 5,000 nt, 60 내지 4,000 nt, 60 내지 3,000nt, 60 내지 2,000nt, 60 내지 1,500nt, 60 내지 1,000nt, 60 내지 900nt, 60 내지 800nt, 60 내지 700nt, 60 내지 600nt, 60 내지 500nt, 70 내지 5,000 nt, 70 내지 7,000 nt, 70 내지 3,000nt, 70 내지 2,000nt, 70 내지 1,500nt, 70 내지 1,000nt, 70 내지 900nt, 70 내지 800nt, 70 내지 700nt, 70 내지 600nt, 또는 70 내지 500nt일 수 있다.
본 발명의 방법에서 메타게놈의 분류에 사용된 k-mer의 크기 또는 길이의 예시적인 범위는 10 내지 100 뉴클레오티드(nt), 10 내지 90 nt, 10 내지 80 nt, 10 내지 70 nt, 10 내지 60 nt, 10 내지 50 nt, 10 내지 40 nt 또는 18 내지 31 nt 인 것일 수 있다. k-mer를 이용한 분석에서 k-mer의 길이가 짧을수록 가능한 서열 조합의 종류가 적어지게 되어, 너무 짧은 길이의 k-mer 서열을 이용할 경우 알려진 수 만종의 박테리아 및 알려지지 않은 수백만 종의 박테리아 서열을 구분하는데 필요한 충분한 수의 k-mer 서열 종류를 확보할 수 없게 된다. 또한 길이가 긴 k-mer를 이용하게 될 경우 서열 조합의 수가 증가하게 되어 특정 종에 대한 정확한 매치가 가능해지는 장점은 있으나 서열 분석 오류 및 유전자 돌연변이 등에 의한 불일치에 매우 민감해져 민감도(sensitivity)를 낮추게 되며 더 많은 조합에 대해서 데이터베이스를 구축하게 되어 데이터베이스 크기가 커지고 긴 서열에 대해 일치 여부 계산을 하게 되어 더 많은 저장 용량과 컴퓨터 파워를 필요로 하게 된다.
본 발명에서 사용한 k-mer 길이의 선정 범위는 상기 k-mer 분석의 특성을 고려하여 현재까지 알려진 수만 종의 세균을 충분히 구분할 수 있는 조합의 경우의 수를 가진 10nt의 k-mer 길이 이상과 저장 용량 및 컴퓨팅 파워 효율을 극대화 하고 민감도(sensitivity)를 유지할 수 있는 수준인 100nt의 k-mer 이내에서 선정되는 것이 바람직하다.
본 발명에 따른 미생물 동정 및 분류하는 방법 또는 시스템은 (b) 미생물 분류 정보가 부여된, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스를 구축하는 단계를 포함하거나, 또는 상기 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스를 포함하는 시스템을 구축할 수 있다. 즉, 상기 시료 k-mer 데이터세트를, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와 비교하여, 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스에 포함된 미생물 분류 정보를 이용하여, 시료 내 미생물을 동정 및 분류할 수 있다.
상기 미생물 분류 정보가 부여된, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스는, (b-1) 적어도 2종 이상의 참조 미생물 전체 의 박테리아 코어 유전자의 뉴클레오티드 서열정보를 얻고, (b-2) 상기 참조 코어 유전자의 서열정보를 이용하여 k-mer로 분할하고, 상기 각 k-mer에 미생물 분류(taxon)정보를 부여하는 공정을 수행하여, taxon 정보가 부여된 k-mer 데이터베이스 구축할 수 있다.
참조 k-mer 데이터베이스는 시료 k-mer 데이터세트와 비교되는 임의의 박테리아 코어 서열을 포함한다. 참조 k-mer데이터베이스는 신규 참조 미생물의 코어 유전자가 발견된 경우 이를 포함하여 재구성할 수 있다. 참조 k-mer 데이터베이스에서 각각의 참조 k-mer 서열에 대한 분류학적 정보가 부여되며, 추가로 샘플 소스, 분류학적 그룹, 특정 종, 발현 프로파일, 특정 유전자, 질환 진행 가능성과 같은 연관된 표현형, 약물 내성 또는 병원성과 같은 몇몇 공지 된 특성에 관한 정보를 추가로 부여할 수 있다.
본 발명에 사용되는 참조 k-mer 데이터베이스는, 박테리아 코어 유전자 서열을 이용하여 생성되며, 각 박테리아 게놈에 대해 적어도 하나의 코어 유전자를 포함해야 한다.
본 발명에서 분류학적 프로파일링을 위해 참조 코어 유전자(reference core gene)의 k-mer 단편 데이터베이스를 구축하며, 상기 참조 코어 유전자로부터 생성된 하나 이상의 k-mer 단편을 포함하며, 상기 k-mer 단편은 박테리아 분류정보가 부여된 것이다. 상기 참조 코어 유전자의 k-mer 단편 데이터베이스는, 참조 박테리아 유전체 정보에서 참조 코어 유전자 (reference core gene) 정보를 얻고, 상기 참조 코어 유전자 정보를 K-mer 단편으로 분할하여, 참조 코어 유전자의 k-mer 단편 데이터베이스를 얻으며, 상기 k-mer 단편은 박테리아 분류정보 (taxon)가 부여된 것이다.
본 명세서에서 용어 "박테리아 코어 유전자(bacterial core gene)"는 모든 또는 대부분의 박테리아 게놈에서 단 하나의 카피로 최소한 하나씩은 존재하는 유전자로 광범위하게 정의된다. 상기 코어 유전자는 단일 카피 유전자 (single copy gene)와 유사하며, 박테리아 코어 유전자의 수는 데이터베이스에 포함된 종에 따라 다양하다. 구체적으로, 상기 박테리아 코어 유전자는, 참조 코어 유전자(bacterial core gene)의 k-mer 데이터베이스를 구축하는데 사용된 전체 참조 미생물의 유전체 정보에서 단일 카피 유전자 (single copy gene)로 존재하는 것일 수 있다.
본 발명에 적용될 박테리아 코어 유전자의 길이는 100 내지 4,000 염기(뉴클레오티드, nt) 길이일 수 있으며, 예를 들면 110 내지 4,000 nt, 120 내지 4,000nt, 125 내지 4,000 nt, 110 내지 3,900 nt, 120 내지 3,900nt, 125 내지 3,900 nt, 110 내지 3,800 nt, 120 내지 3,800nt, 또는 125 내지 3,800 nt일 수 있으나, k-mer 로 제작하여 미생물 분류에 사용 가능하다면 적절한 길이에 선정할 수 있다.
본 발명의 일 예에서 사용된 박테리아 코어 유전자는, 전체(total) k-mer 서열의 수에 대한 고유(unique) k-mer 서열의 수의 비율(A) 및/또는 구별 (distinct) k-mer 서열의 수에 대한 고유한 k-mer 서열의 수의 비율(B)을 고려하여 박테리아 코어 유전자중에서 선택될 수 있다. 바람직하게는, 상기 박테리아 코어 유전자는 (A)의 수치가 40 % 이상일 수 있고, 및/또는 (B)의 수치가 75 % 이상일 수 있다. k-mer의 길이가 길수록 (A)와 (B)가 더 큰 수이다.
하기 표 1은, 본 발명의 구체적 일예에 따른 박테리아 코어 유전자의 k-mer 데이터베이스에서 고유 k-mer의 수, 구별 k-mer의 수, 전체 k-mer의 수, 및 다양한 크기를 갖는 고유 k-mer의 백분율을 나타낸다. 참조 미생물의 박테리아 코어 유전자의 참고 k-mer 데이터베이스는 참조 미생물 및/또는 코어 유전자의 추가로 인해 변경될 수 있다.
[표 1]
Figure PCTKR2019011410-appb-I000001
본 명세서에서 참조 미생물 집단의 박테리아 코어 유전자의 모든 서열에서 단 하나의 카피(copy)을 갖는 k-mer 서열을 고유 k-mer라고 하며, 두 개 이상의 카피가 있는 k-mer 서열을 포함하지 않는다. 반복적인 k-mer와 고유 k-mer를 포함하여 하나 이상의 카피가 있는 k-mer 서열은 구별 k-mer라고 하며, 다만 하나의 카피로 계수된다. 따라서, 표 1에서 구별 k-mer의 수는 고유 k-mer의 수와 2 개 이상의 카피를 갖는 반복적인 k-mer에서 선택된 하나의 카피 수의 합계를 의미한다. 전체(total) k-mer라 함은 상기 참조 미생물 집단의 박테리아 코어 유전자 서열에서 모든 단일 k-mer의 합을 의미한다. 예시적으로 표시하면 다음과 같다:
k-mer 세트 = {AA, AC, AC, AG, AG, AG};
고유(Unique) k-mer = {AA} = 1 k-mer;
구별(Distinct) k-mer = {AA, AC, AG} = 3 k-mers;
전체(Total) k-mer = {AA, AC, AC, AG, AG, AG} = 6 k-mers.
상기 k-mer는 데이터베이스로 사용될 코어 유전자로부터 추출 시에 구분되는 항목으로 고유 k-mer의 경우 해당 k-mer가 단일 균주 또는 단일 종을 의미하게 되며, 구별 k-mer에서 고유 k-mer를 제외한 k-mer 들은 두 개 이상의 균주(게놈) 또는 두 개 이상의 코어 유전자에서 발견된 경우로서 이중 두 개 이상의 미생물 게놈에서 발견된 경우에 대해서 각각의 게놈이 다른 분류군일 경우 각각의 분류군 정보를 이용한 최소공통조상(LCA)을 해당 k-mer의 분류정보로 사용하게 된다.
입력 데이터로서 시료 내 미생물 유전체 정보를 이용하여 시료 k-mer 데이터세트는, 상기 세 가지 항목의 k-mer 중에서 구별(Distinct) k-mer에 대해서 k-mer 완전일치 (exact k-mer matching) 계산을 하게 되며 고유 k-mer를 포함한 구별 k-mer는 각각 분류정보가 부여되어 있어, 시퀀싱 리드에 대한 분류(taxon) 정보 리스트를 할당할 수 있게 한다.
박테리아 코어 유전자의 k-mer 서열을 사용하는 장점은, 주어진 샘플에 대한 분류학적 풍부도(taxonomy abundance)를 계산할 때, 리드 정규 단계(read normalization step)의 필요성을 제거한다는 것이다. 전체 게놈 서열의 경우, 사이즈가 큰 게놈은, 사이즈가 작은 게놈에 비해 메타 게놈 샘플에 더 많은 수의 리드 제공하는 경향이 있다. 예를 들어, 2백만 염기쌍을 갖는 종B에 비해, 천만 염기쌍을 갖는 종A는 단위 세포당 시료에 5배 더 많은 리드를 제공한다. 메타게놈 프로파일이 종A의 천만 리드와 종B의 천만 리드를 포함하는 경우, 종A와 종B는 리드 수가 동일한 것을 의미하지만, 게놈 크기 차이로 인해 시료는 종A의 1개 게놈을 포함하고, 종B는 5개 게놈을 포함하는 것으로 유추할 수 있다. 박테리아 게놈은 수개의 16S rRNA 카피를 포함하므로, 상기와 유사한 상황은 16S rRNA 서열을 이용한 방법에서도 발생될 수 있으며, 이에 주어진 메타게놈 시료 내에 각각의 종에 대한 16S rRNA 리드가 다르게 기여하게 된다. 반면에, 박테리아 코어 유전자는 든 또는 대부분의 종에서 존재하고, 모든 게놈에서 한 카피만 존재하므로, 정규화 단계가 필요하지 않다.
또한, 박테리아 코어 유전자의 k-mer 서열을 사용하면 모든 메타게놈 시료를 저장하고 분석하는데 필요한 물리적 저장 매체의 크기가 감소된다. 예를 들어, 10,000 종에 대한 참조 전체 게놈 k-mer 데이터베이스는 모든 유형의 물리적 저장 매체에서 대략 450 기가 바이트를 필요로 하지만, 동일한 10,000 종의 박테리아 코어 유전자 k-mer 데이터베이스는 대략 7 기가 바이트로 충분하므로, 실제 저장 미디어의 경우 약 6,400 %의 저장 크기가 감소한다. 이러한 저장 공간의 크기 감소는 RAM 또는 솔리드 스테이트 드라이브(solid-state drive)와 같은 보다 빠른 유형의 물리적 저장 매체의 사용을 가능하게 한다.
본원에서 기술된 방법은 정확한 메타게놈 분류학적 프로파일링을 위해 정확한 k-mer 매치 접근법을 사용하여 박테리아 코어 유전자를 사용하는 이점을 나타낸다.
참조 k-mer 데이터베이스를 준비할 때, k-mer의 크기 또는 길이를 선택해야 한다. 하기 표 1에서 k의 크기가 데이터베이스에 미칠 영향을 보여준다. 단계 (A)에서 정의된 바와 같이, 코어 유전자 세트는 특정 종에 속하는 고유한 k-mer (모든 게놈에서 한 카피만 존재하는 k-mer)이므로, 고유한 k-mer의 백분율이 높아야 한다. 참조 코어 유전자의 데이터베이스를 구축하기 위해 사용된 개별 미생물 게놈에 대한 분류체계 및 분류학명 리스트를 포함한다.
상기 기술한 참조 k-mer 데이터베이스는 k-mer 개수용으로 고안된 알고리즘 또는 프로그램, 예를 들면 JELLYFISH로 생성할 수 있다. JELLYFISH 는 특정 입력 FASTA 파일로부터 k-mer를 개수하는 명령 줄 응용 프로그램이며, 효율적인 해시 테이블을 사용하여 k-mer와 해당 고유 숫자 ID를 메모리에 저장한다. 해시 테이블은 인덱스를 원하는 값에 대한 배열로 계산하는 해시 함수를 사용하여 키(key)를 값에 매핑할 수 있는 데이터 구조이다. 고유한 숫자 ID가 값으로 저장되는 동안 DNA k-mer 시퀀스는 해시 키로 저장된다(도 3).
새로운 k-mer가 있을 때마다 해시 테이블에 새로운 공간이 할당되고 고유 숫자 ID가 저장된다. 이 경우 고유한 숫자 ID는 특정 종에 속한다. 분류체계상의 위치나 고유한 분류학명은 정보체의 크기가 크므로 해당 분류학명을 지시할 수 있는 고유한 숫자 ID가 있고 각각의 ID는 참조데이터베이스에 포함되어 있는 모든 미생물종에 대해서 각각의 종과 매치됩니다(도 4). 이전에 저장된 k-mer가 다른 DNA 서열에서 다시 발견되면, LCA (Lowest Common Ancestor) ID가 특정 종에 대한 고유 숫자 ID을 대신하여 사용된다(도 5).
상기 LCA ID는 분류 계통도를 사용하여 생성된다. 예를 들어, k-mer가 E. coli 및 Shigella 종의 참조 서열에서 발견되면, LCA ID는 이들이 속하는 과 분류(Enterobacteriaceae)에 속할 것이다. 일단 LCA가 계산되면 해당 k-mer에 대한 해시 테이블 내의 값을 대체한다. 모든 k-mer가 해시 테이블로 메모리에 생성되고 하드 드라이브에 저장된다. 상기 해시 테이블 파일은 Kraken 데이터베이스라고도 한다. Kraken은 오픈 소스 k-mer 분류자이며 JELLYFISH 내장 데이터베이스와 호환된다.
하기 표 4에 나타낸 바와 같이, k-mer 데이터베이스의 박테리아 코어 유전자는 최종 데이터베이스의 파일 크기가 작다는 장점을 가지며, 실행을 위한 RAM 메모리와 같이 더 빠르고 더 작은 메모리에 상기 데이터베이스를 할당할 수 있으며, 결과적으로 k-mer 분류자 프로그램을 수 백배 더 빠르게 실행할 수 있다.
박테리아 코어 유전자의 k-mer 데이터베이스는 종 수준에서 분류 오류 백분율을 거의 반으로 감소시켜, 전체 게놈 k-mer 데이터베이스와 동일한 수의 종을 나타내는 더 작은 데이터베이스가 어떻게 더 정확할 수 있는지를 보여준다(표 4).
더욱 자세하게는, 상기 (b-1) 적어도 2종 이상의 참조 미생물 전체의 박테리아 코어 유전자의 뉴클레오티드 서열정보를 얻는 단계는, 참조 미생물의 유전체 DNA 서열 추출 및 서열정보 분석을 수행하거나, 참조 미생물의 코어 유전자만을 증폭하여 서열정보 분석을 수행하거나, 미생물 유전체 서열정보에 관한 데이터베이스에서 서열정보를 추출하여, 참조 미생물의 박테리아 코어 유전자의 뉴클레오티드 서열정보를 얻을 수 있다.
상기 참조 미생물의 유전체 DNA 서열 추출 및 서열정보 분석을 수행하거나, 참조 미생물의 코어 유전자만을 증폭하여 서열정보 분석을 수행하는 방법의 경우, DNA 출원 및 서열분석은 상기 단계 (a)의 시료 k-mer 데이터세트 얻는 단계에서 수행한 방법과 실질적으로 동일한 방법으로 수행할 수 있다.
또한, 미생물 유전체 서열정보에 관한 데이터베이스에서 서열정보룰 추출하여 참조 미생물의 박테리아 코어 유전자의 뉴클레오티드 서열정보를 얻는 경우에는 UBCG 생물정보학 파이프라인을 사용하거나 대체 파이프 라인을 통해 얻을 수 있다. 예를 들면, 상기 시료 전체의 미생물 유전체 DNA의 서열정보 (입력 데이터세트)는 SRA 툴킷 프로그램을 사용하여 NCBI (National Center for Biotechnology Information)의 Sequence Read Archive에서 검색 및 다운로드 할 수 있지만 이에 국한되지는 않다. 예를 들어 박테리아 코어 유전자는 UBCG 파이프 라인을 사용하여 EzBioCloud 데이터베이스의 게놈에서 추출될 수 있다.
상기 (b-2) 전체 참조 미생물 집단의 코어 유전자의 서열정보를 이용하여 k-mer로 분할하고, 상기 각 k-mer에 미생물 분류(taxon)정보를 부여하는 공정을 수행하여, taxon 정보가 부여된 k-mer 데이터베이스 구축할 수 있다.
상기 참조 미생물 코어 유전자의 참조 k-mer 데이터베이스는 상기 참조 코어 유전자의 DNA 정보를 k-mer으로 분할하여, 상기 참조 코어 유전자로부터 생성된 하나 이상의 k-mer를 포함하며, 상기 k-mer은 미생물 분류(taxon)정보가 부여된 것일 수 있다. 상기 k-mer 및 참조 미생물 코어 유전자 정보를 이용하여 k-mer 데이터베데이스를 구축하는 방법은, 상기 단계 (a)의 시료 k-mer 데이터세트 얻는 단계에 관한 설명고 실질적으로 동일하게 수행할 수 있다. 다만, 상기 단계 (a)의 시료 k-mer 데이터세트의 구축에서는 시료 내 미생물의 전체 유전체 정보를 이용한 것이나, 참고 k-mer 데이터베이스 구축에서는 참고 미생물의 코어 유전자를 이용하는 것이 상이하다.
상기 분할된 각각의 k-mer에는 미생물 분류(taxon)정보를 부여하여 taxon 정보가 부여된 k-mer 데이터베이스 구축할 수 있다. 상기 미생물 분류 정보의 부여는, 고유 k-mer의 경우 해당 k-mer가 단일 게놈 또는 단일 균종을 의미하게 되므로 해당하는 균종에 관한 개별 분류정보를 부여한다. 또한, 구별 k-mer에서 고유 k-mer를 제외한 k-mer 들은 동일 게놈에 존재하는 두 개 이상의 코어 유전자에서 발견되거나 또는 두 개 이상의 상이한 게놈에서 발견된 경우이다. 동일 게놈에 존재하는 두 개 이상의 코어 유전자에서 발견되는 경우에는 해당 게놈의 미생물 분류 정보를 부여하며, 두 개 이상의 상이한 미생물 게놈에서 발견된 경우에 대해서 각각의 게놈이 다른 분류군일 경우 각각의 분류군 정보를 이용한 최소공통조상(LCA)을 해당 k-mer의 분류정보로 사용하게 된다.
더욱 자세하게는, 상기 참조 코어 유전자의 참조 k-mer 데이터베이스는,
참조 미생물 유전체 정보에서 참조 코어 유전자 (reference core gene)의 서열 정보를 추출하고, 상기 참조 코어 유전자의 서열 정보를 k-mer으로 분할하여 하나 이상의 k-mer를 얻고,
상기 각 k-mer에 대해 미생물 분류(taxon) 정보에 관한 고유 ID를 부여하여 참조 코어 유전자의 k-mer 데이터베이스를 구축하며,
상기 각 k-mer에 대해 미생물 분류(taxon) 정보에 관한 고유 ID를 부여하는 방법은, (i)고유(Unique) k-mer 인 경우 해당 k-mer 가 속한 미생물 종의 고유 ID를 부여하고, (ii) 구별(distinct) k-mer이면서 해당 k-mer가 미생물 한 종에서만 발견될 경우 해당 미생물 종의 고유 ID를 부여하고, (iii) 구별(distinct) k-mer 이면서 해당 k-mer가 여러 미생물 종에서 발견될 경우 최소공통조상(LCA)을 선택하여 해당 미생물 분류(taxon)정보에 대한 고유 ID를 부여하여 수행되는 것일 수 있다.
본 발명에 따른 미생물 동정 및 분류하는 방법 또는 시스템은 (c) k-mer 완전일치법에 따라 시료 k-mer 데이터세트에 포함된 k-mer에 대해, 참조 k-mer 데이터베이스에 포함된 k-mer을 비교하여 완전일치 k-mer를 선정하고, (d) 상기 선정된 k-mer의 분류(taxon)정보를 이용하여, 시료에 포함된 미생물 종을 동정 및 분류하는 단계를 포함할 수 있다.
본 발명에 따른 미생물 동정 및 분류하는 방법 또는 시스템에서, 상기 시료 k-mer 데이터세트에 포함된 k-mer에 대해, (b) 참조 k-mer 데이터베이스에 포함된 k-mer을 비교하여, 완전일치 k-mer를 선정하는 단계 수행한다.
본 발명은 메타게놈 분류(metagenomic taxonomic) 프로파일을 생성하기 위해 박테리아 코어 유전자의 k-mer 데이터베이스와 비교함으로써 정확하고 효율적인 메타게놈 리드의 분류를 가능하게 하는 컴퓨터 시스템에 관한 것이다. 박테리아 코어 유전자의 k-mer 데이터베이스를 사용하면 다양한 기술적 효과와 이점을 얻을 수 있다.
"정확한 k-mer 매치 (exact k-mer match)," "정확한 k-mer 배열(exact k-mer alignment) 접근법" 또는 "k-mer 완전일치법" 과 박테리아 코어 유전자의 염기 서열을 조합하여 이용함으로써, 더 빠르고 정확하며 편향없이 미생물 분류를 수행할 수 있다. 입력 데이터에서 생성된 k-mer 전체에 대해 데이터베이스의 k-mer와 정확히 일치하는 k-mer를 검색하여 해당 k-mer의 분류(taxon)정보를 포함하고 있는 인덱스를 목록화 하는 방법으로 수행할 수 있다.
일반적으로 "정확한 일치(exact match)" 또는 "완전 일치" 는 비교되는 서열 중 가장 짧은 길이 (또는 동일한 경우 두 서열의 길이 이상)에 걸쳐 100 % 동일성을 나타낸다. 일반적으로, "서열 동일성(sequence identity)"은 각각 2 개의 폴리뉴클레오티드의 뉴클레오티드 - 대 - 뉴클레오티드 대응을 지칭한다.
구체적으로, 상기 (c) k-mer 비교 및 완전일치 k-mer를 선정은, 시험 k-mer 데이타세트를 참조 k-mer 데이터베이스와 비교하여 서열이 완전히 동일한 k-mer가 존재하는 지를 검색하고 1개 이상의 염기라도 상이하면 동일하지 않는 것으로 판단하게 된다. 참조 코어 유전자의 k-mer 데이터베이스 구축 시 코어 유전자에서 동일한 k-mer가 여러 개 나오게 된 경우 상기 구별(distinct) k-mer로 처리되고, 입력된 시료의 유전자 정보(메타게놈 데이터의 리드)에서는 해당 k-mer가 데이터베이스의 k-mer와 정확히 매치될 경우 해당 k-mer의 고유 ID를 목록화 하여 사용한다. 예를 들면, 시험 시료에서 얻어진 k-mer 단편 (예, extracted k-mers)와 참조 k-mer 데이터베이스의 k-mer 단편 (예, stored k-mers) 사이에 염기서열을 비교하며, 시험 k-mer 단편과 정확한 매치가 되는 k-mer단편만을 참조 k-mer 데이터베이스에서 선택하게 된다.
상기 (c) k-mer 비교 및 완전일치 k-mer의 선정은 k-mer 분석기로 수행할 수 있으며, k-mer 분석기의 예는 KRAKEN을 들 수 있다. KRAKEN은 이전에 구축된 참조 k-mer 데이터베이스 (단계 b)와 입력된 시험 k-mer 단편 데이터세트(단계 a)의 정확한 일치 비교를 수행하는 명령 줄 응용 프로그램이다. KRAKEN은 데이터베이스와 입력 데이터 세트의 정확한 일치 비교를 수행하는 명령 줄 응용 프로그램이며 분류학적 계통도(taxanomic tree)와 최하위 공통 조상(lowest common ancestor, LCA)기법을 사용하여 모든 입력 리드를 분류한다. LCA 기법을 통해 KRAKEN은 하나의 리드가 상이한 종과 정확한 매치를 한다면, 상기 리드에 대해 좀더 높은 분류학적 순위(rank)를 선택한다.
구체적인 예로서, KRAKEN를 이용한 (c) k-mer 비교 및 완전일치 k-mer를 선정 및 (d) 시료 내 미생물의 동정 및 분류는, 먼저 참조 k-mer 데이터베이스 (해쉬 테이블)를 메모리에 로드하고 거기에서부터 입력된 시료 k-mer 데이터세트로부터 리드 (DNA 시퀀스) 염기서열 부분을 읽고, 이후 읽은 리드를 하기와 같이 k-mer로 분할하여 완전일치 방법에 기반한 검색을 수행한다. 그런 다음, KRAKEN은 해당 k-mer를 검색하여 해시 테이블에서 해당 값 (고유 ID)을 얻는다. 상기 입력 데이타세트에서 얻어진 각각의 리드는 k-mer로 분할되어 시료 k-mer 데이터세트를 얻고, 상기 시료 k-mer 데이터세트에 포함된 k-mer의 크기는 참조 데이터베이스의 k-mer 크기와 일치해야 한다.
도 6은 본 발명에 따른 시퀀싱 리드 분류의 예를 보여준다. 도 6에서, 해시 테이블 (참조 k-mer 데이터베이스)이 메모리로 로드되고 쿼리 리드(시료 미생물의 유전체 서열정보의 시험 리드)가 분류되어야 한다. 상기 쿼리 리드 (CGAGCGCAACCCGTT)(SEQ ID NO: 1)은 여러 개의 k-mer로 분할된다: {CGAGCGCAACCC (SEQ ID NO: 2), GGAGCGCAACCC (SEQ ID NO: 3), AGCGCAACCCGT(SEQ ID NO: 4)}, GCGCAACCCGTT(SEQ ID NO: 5)}, 각각의 k-mer에는 고유한 숫자 ID가 있고, 이 경우 관련 ID 숫자는 {5756, 2347, 1345, 1345}이다. 상기 ID는 상이한 속(genus)에 속하는 종(species)에 관한 것으로서, 리드 분류가 가장 일반적인 분류군에 할당된다. 이 경우 분류는 과(family) 수준이다. k-mer 시퀀스가 해시 맵 (hash map)의 주요 인자(key)로 사용되므로, 그러한 k-mer를 검색하려면 일정한 계산 시간이 필요하다. Kraken은 발견된 모든 k-mer 서열의 고유 ID 모두를 파일에 저장하고 각 ID에 대해 얼마나 많은 k-mer가 발견되었는지를 선정된 k-mer 수로 계산한다. 마지막으로 Kraken은 선정된 K-mer 수(number)를 사용하여 각 종 또는 더 높은 상위 분류군에 대해 리드 수를 표시하는 결과(보고서)를 생성한다.
더욱 자세하게는, 상기 미생물 분류(taxon) 정보는 고유 ID로 구분하여, 참조 k-mer 데이터베이스의 개별 k-mer에 부여된 것이며,
상기 시료 미생물 유전체 정보는 차세대 염기서열 분석법(Next Generation sequencing, NGS)으로 얻어진 시퀀싱 리드를 포함하며,
상기 시료 미생물 유전체의 개별 시퀀싱 리드에 대해,
(i) 하나이상의 k-mer를 포함하는 k-mer 데이터세트를 만들어, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와 비교하여, 뉴클레오티드 서열이 완전일치한 k-mer를 참조 k-mer 데이터베이스로부터 선정하고,
(ii) 상기 선정된 k-mer에 부여된 고유 ID 정보를 얻고,
(iii)상기 시퀀싱 리드에서 얻어진 하나 이상의 고유 ID를 모은 목록 정보를 이용하여, 고유 ID 목록에 포함된 고유 ID가 하나이거나 모두 동일할 경우 해당 ID를 시퀀싱 리드의 고유 ID로 선택하고, 고유 ID 목록에 둘 이상의 서로 다른 고유 ID가 포함될 경우 최소공통조상(LCA)에 해당하는 고유 ID를 선택하며,
(iv) 상기 개별 시퀀싱 리드별로 할당된 분류학적 수준에 해당하는 고유 ID의 분류 정보를 결합하며,
상기 개별 시퀀싱 리드별로 얻어진 분류학적 수준에 해당하는 고유 ID를, 상기 시료 미생물 유전체에 포함된 전체 시퀀싱 리드에 대해 수행하여 얻어진 고유 ID 를 모아 전체 고유 ID 목록을 만들어, 상기 시료 미생물의 동정 및 분류하는 것일 수 있다.
또한, 시료에서 얻은 미생물 유전체 정보를 제공하고,
상기 미생물 유전체 정보를 이용하여 시료 k-mer 데이터세트를 얻고,
미생물 분류(taxon) 정보가 부여된, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와, 상기 시료 k-mer 데이터세트를 비교하는 단계를 포함하며,
상기 미생물 분류(taxon) 정보는 고유 ID로 구분하여, 참조 k-mer 데이터베이스의 개별 k-mer에 부여된 것이며,
상기 시료 미생물 유전체 정보는 차세대 염기서열 분석법(Next Generation sequencing, NGS)으로 얻어진 시퀀싱 리드를 포함하며,
상기 시료 미생물 유전체의 개별 시퀀싱 리드에 대해,
(i) 하나이상의 k-mer를 포함하는 k-mer 데이터세트를 만들어, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와 비교하여, 뉴클레오티드 서열이 완전일치한 k-mer를 참조 k-mer 데이터베이스로부터 선정하고,
(ii) 상기 선정된 k-mer에 부여된 고유 ID 정보를 얻고,
(iii)상기 시퀀싱 리드에서 얻어진 하나 이상의 고유 ID를 모은 목록 정보를 이용하여, 고유 ID 목록에 포함된 고유 ID가 하나이거나 모두 동일할 경우 해당 ID를 시퀀싱 리드의 고유 ID로 선택하고, 고유 ID 목록에 둘 이상의 서로 다른 고유 ID가 포함될 경우 최소공통조상(LCA)에 해당하는 고유 ID를 부여하고,
(iv) 상기 개별 시퀀싱 리드별로 할당된 분류학적 수준에 해당하는 고유 ID의 분류 정보를 결합하며,
상기 개별 시퀀싱 리드별로 얻어진 분류학적 수준에 해당하는 고유 ID를, 상기 시료 미생물 유전체에 포함된 전체 시퀀싱 리드에 대해 수행하여 얻어진 고유 ID 를 모아 전체 고유 ID 목록을 만들고,
시료 미생물의 전체 고유 ID 목록에서, 상기 분류학적 수준에 해당하는 고유 ID별로 할당된 리드 (classified read)의 수 (number)를 얻고,
상기 고유 ID별로 할당된 리드 수를, 전체 고유 ID 목록에 할당된 리드 수의 총합으로 나누어, 해당 고유 ID에 해당하는 미생물 종 또는 분류정보에 대해 시료 내의 풍부도를 얻는 단계를 포함하는,
시료 내 미생물의 종의 풍부도 프로파일 정보를 얻는 방법일 수 있다.
본 발명에 따른 박테리아 코어 유전자 및 k-mer 데이터세트를 사용한 미생물의 동정 및 분류학적 프로파일링 방법은 하기와 같은 장점을 갖는다.
첫째, "상동성 검색(homology search)"기반 접근 방식과 비교하여, 본 발명에 따른 "정확한 k-mer (exact k-mer)" 접근법은 더욱 신속히 분류를 수행할 수 있다. 상기 정확한 k-mer 접근법에 따라 신속한 분류가 가능한 이유는, "정확한 k-mer 접근법"이 게놈의 서브문자열을 가진 "참조 k-mer 데이터베이스"라고 하는 사전에 얻어진 데이터베이스에서 작동하고, 상기 데이터베이스에 대해 문자열의 정확한 일치 여부만을 필요로 하기 때문이다. 그러나, 종래에 알려진 상동성 검색 접근법은, 참조 데이터베이스에 포함된 여러 개의 게놈 서열에 대해 리드 전체 길이에 걸쳐 포함된 DNA 염기의 삽입, 삭제 및 돌연변이를 찾아 내야 하므로 상당한 시간이 소요된다.
둘째, 전체 게놈(유전체) 서열을 사용하는 것과 비교하여, 본 발명에 따른 박테리아 코어 유전자를 이용한 미생물 분류는, 데이터베이스의 저장 용량을 매우 감소시킬 수 있다. EzBioCloud 데이터베이스를 기준으로 계산된 전체 종의 평균 게놈 크기는 평균 4 백만개의 염기쌍인 반면, UBCG 파이프라인을 통해 계산된 코어 유전자 한 개당 평균 길이는 1,000 염기쌍이다. 따라서, 본 발명과 같이 적어도 2종 이상의 미생물의 게놈을 포함하는 메타게놈 시료의 미생물 동정 및 분류에서는 처리할 데이터베이스의 저장 용량 크기는 프로그램 수행 속도 및 저장 용량, 하드웨어 등의 구비 조건과, 미생물 분류학적 프로파일링을 얻는 시간 및 속도를 고려할 때 매우 중요한 요소이다.
셋째, 종래에 미생물 분류에 사용된 유전자 마커는 빈도 및 크기가 매우 다양하며, 빈도 및 크기에 따라 미생물 분류 결과에 영향을 미치고 새로운 게놈에는 적용하기 어려워 변경이 필요할 수 있다. 본 발명의 일 예에 따라 유전자 마커 대신에 박테리아 코어 유전자를 사용하면 모든 박테리아 게놈이 거의 동일한 크기의 코어 유전자를 포함하고 있기 때문에, 보다 동등하게 편향없이 모든 게놈에 대응할 수 있다. 분류학적으로 근접한 게놈은 더욱 유사한 코어 유전자를 가지고 있기 때문에, 상동성 검색에서 코어 유전자를 사용하면 하위 분류군, 특히 종 수준에서 부정확하거나 모호한 분류학적 프로파일이 생성되는 문제점이 있다.
본 발명의 일 예에서 기술된 방법은 박테리아 계(kingdom)에서 각 종(species)으로부터 박테리아 코어 유전자와 관련된 k-mer 서열의 정확한 일치 비교에 근거한 메타게놈 분류학적 프로파일링을 가능하게 한다.
본 발명의 추가 일 예에서, 박테리아 코어 유전자 및 k-mer 데이터베이스를 사용하여 메타게놈 분류학적 프로파일을 생성하도록 구성된 컴퓨터 시스템이 설명된다.
구체적인 일 예에서, 본 발명은 (a) 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와, (b)k-mer 추출기 (k-mer extractor)와 k-mer 분석기(k-mer analyzer)를 구비한 프로세서를 포함하는, 시험 시료 내 미생물을 동정 및 분류하는 시스템으로서,
상기 참조 k-mer의 데이터베이스는 하나 이상의 참조 박테리아 코어 유전자의 DNA 정보로부터 생성된 하나 이상의 k-mer를 포함하며, 상기 k-mer은 상기 미생물의 분류 정보가 부여된 것이며;
상기 프로세서의 k-mer 추출기는 시료에서 얻은 메타게놈 정보에서 하나 이상의 k-mer을 추출하며,
상기 프로세서의 k-mer 분석기는, 상기 시료 k-mer 데이터세트에 포함된 k-mer에 대해 참조 코어 유전자의 k-mer 데이터베이스에 포함된 k-mer와 핵산서열정보가 완전히 동일한 k-mer을 선정하여, 상기 선정된 k-mer의 분류(taxon)정보를 포함하고 있는 인덱스를 목록화하고, 상기 선별된 k-mer에 대한 분류학적 정보를 기초로 시료에 포함된 미생물의 동정 및 분류를 수행하는 것인, 시료 내 미생물을 동정 및 분류하는 시스템에 관한 것이다.
상기 시스템은 적어도 하나의 프로세서 및 저장된 컴퓨터 실행 가능 명령어를 갖는 하나 이상의 저장 장치를 포함한다. 상기 명령은 하나 이상의 프로세서에 의해 실행될 수 있고 뉴클레오티드 서열을 함유하는 입력 데이터 세트를 수신한다. 입력 서열은 k-mer 분석기를 사용하여 사전 구축된 참조 박테리아 코어 유전자의 k-mer 데이터베이스와 비교된다. 마지막으로, 전술한 k-mer 분석기는 상기 입력 데이터 세트에 대한 분류학적 프로파일을 생성할 수 있다.
본 발명의 일 예에 따라 시험 시료 내에 존재하는 박테리아 균종을 동정 및 분류하는 방법을 2종 이상의 박테리아를 포함하는 시료, 예를 들면 메타게놈 시료에 적용하는 경우, 시험 k-mer 데이터세트는 참조 박테리아 코어 유전자의 k-mer를 포함하는 참조 k-mer 데이타베이스와 k-mer 완전일치법으로 비교하여, 시료 k-mer 데이터세트에서 일치된 참조 코어 유전자의 k-mer 데이터베이스 상의 특정 균종의 taxon 정보 및/또는 최소공통조상(LCA) 정보가 포함된 taxon 정보를 기록하고, taxon 정보 및 완전일치된 k-mer 수의 합계 정보를 이용하여 시험 코어 유전자의 k-mer 데이타세트에 대한 분류를 수행하여 시료 k-mer 데이터세트 (입력 데이터세트)에 대한 분류학적 프로파일을 생성하는 단계를 포함한다.
입력 데이터세트로부터 얻어진 모든 서열 (시퀀싱 리드)에 대한 완전 일치하는 k-merm의 taxon을 선택하는 단계로서, 구체적으로 각 시퀀싱 리드별로 k-mer에 해당하는 고유 ID (예, 숫자 또는 문자 등) 목록을 만들고 상기 ID값에 기반하여 taxon을 선택하게 되며, 선택된 ID가 하나인 경우 해당 ID에 해당하는 taxon를 선택하고, 선택된 ID가 여러 개인 경우 최소공통조상(LCA)을 선택하고, 입력 데이터세트의 모든 균종에 대한 각 시퀀싱 리드별로 할당된 고유 ID(taxon) 정보를 결합하여 분류학적 수준 당 분류된 리드 (classified read)의 수 (number)를 얻고, 시료 내 미생물의 분류학적 프로파일을 결정하는 단계로서, 구체적으로 고유 ID(taxon) 별로 할당된 리드 수에 따라 프로파일 결정하는 것이다.
본 발명에 따른 미생물 분류 방법에서, 상기 시료 미생물의 유전체 DNA를 NGS 방법으로 서열정보를 분석하는 경우 시퀀싱 리드보다 작은 크기의 단편은 분석대상에서 제외되며, 얻어진 시료 k-mer 데이터세트가 참조 k-mer 데이터베이스와 비교하여 완전히 일치하지 않는 k-mer는 분석대상에서 제외되게 된다.
본 발명에 따른 방법에서, 입력 데이터세트 내 모든 서열에 대한 최종 taxon 를 추가 필터링 공정을 사용할 수도 있고 사용하지 않을 수도 있다.
본 발명에 따른 방법의 결과 얻어지는 산물의 일 형태는 메타게놈 분류 보고서 (metagenomic taxonomy report)일 수 있으며, 하나 이상의 분류학적 수준에 대한 리드의 총 수를 포함한다. 박테리아 코어 유전자의 정의 때문에, 표준화 단계가 필요하지 않으며, 이에 상기 보고서는 메타게놈 풍부 보고서(metagenomic abundance report)라고 할 수 있다.
본 발명의 메타게놈 분류 방법은 하나 이상의 프로세서에 의해 실행될 수 있으며, 더 빠른 분류를 위해 박테리아 코어 유전자의 k-mer 데이터베이스를 RAM 메모리와 같은 보다 빠른 물리적 저장 매체로 전송할 수 있다.
본 발명은 예시적인 도면을 참조하여 설명될 수 있다.
도 1은 박테리아 코어 유전자의 k-mer 데이터베이스에 대한, 입력 샘플의 정확한 k-mer 매치에 기초한, 메타게놈 분류학적 프로파일링을 위해 구성된 컴퓨터 환경(100)의 예를 도시한다. 상기 컴퓨터 환경 (100)은 메모리 (120) 및 적어도 하나의 프로세서 (131)를 갖는 컴퓨터 장치 (110)를 포함한다. 다른 구성 요소는 상이한 다양한 프로세서 및 메모리 유형을 포함 할 수 있다. 메모리 (120)는 임의의 유형, 물리적, 휘발성, 비 휘발성, 외부 저장 장치, USB 메모리, SSD 메모리 또는 임의의 종류의 저장 장치 일 수 있으며, 2 이상의 유형의 메모리의 조합 일 수 있다.
상기 컴퓨터 장치 (110)는 또한 마우스, 키보드, 임의의 종류의 모니터, 스피커 및 컴퓨터 장치 (110)과 사용자 사이에 임의 종류의 입력/출력을 위해 사용될 수 있는 임의의 다른 장치를 포함할 수 있는, 하나 이상의 입력 / 출력 하드웨어 (132)를 포함하는 컴퓨터 장치 (110)에 관한 것이다.
상기 컴퓨터 장치 (110)는 또한 적어도 하나의 부가적인 컴퓨터 시스템과 통신하는데 사용될 수 있는 적어도 하나의 통신 채널 (133)을 포함한다. 상기 통신 채널은 근거리 통신망 (LAN), 인터넷 또는 유사한 네트워크 구성의 형태 일 수 있다.
상기 컴퓨터 장치 (110)는 또한 몇몇 실행 가능 컴포넌트 (134-135)를 포함하며, 여기서 실행 가능 컴포넌트는 컴퓨팅 시스템상에서 실행될 수 있는 소프트웨어 코딩 된 컴포넌트, 모듈 또는 방법으로 정의 될 수 있다.
도 1은 참조 박테리아 코어 유전자 k-mer 데이터베이스와 비교하여, 주어진 샘플에 대한 메타게놈 분류학적 프로파일을 생성하도록 설계된 컴퓨터 시스템의 설정에 대한 예를 도시한다. 또 다른 설정에서는 하나 이상의 구성 요소가 없을 수 있다. 상기 예는 그 구성 요소 중 하나 이상의 위치를 제한할 의도는 아니다.
도 1에 도시된 메모리 컴포넌트 (120)는 이전에 박테리아 코어 유전자 세트로부터 생성된 k-mer를 함유하는 박테리아 코어 유전자 k-mer 데이터베이스 (121)를 포함한다. 상기 코어 유전자는 상기 코어 유전자가 나타내는 종의 수에 따라 다양 할 수 있다. 또한, 메모리 구성 요소 (120)는 적어도 50개 염기쌍을 포함하는 하나 이상의 폴리뉴클레오티드 서열을 함유하는 하나 이상의 파일을 포함할 수 있는 메타게놈 데이타 샘플 구성 요소 (122)를 포함한다. 상기 파일은 FASTA 포맷 파일, FASTQ 포맷 파일 또는 폴리뉴클레오티드 서열을 포함할 수 있는 임의의 다른 포맷을 포함하는 텍스트 기반 일 수 있다. 상기 파일은 메타게놈 데이터 샘플을 나타내고, 선택적 필터링 프로세스 (135)와 함께 k-mer 분석기(123)를 사용하여 박테리아 코어 유전자 k-mer 데이터베이스 (121)와 비교될 것이다.
도 2는 메타게놈 데이터 샘플로부터의 얻어진 쿼리 리드로부터 얻어진 각각의 k-mer 서열을 참조 박테리아 코어 유전자 k-mer 데이터베이스와 비교하는 과정을 대략적으로 도시한 모식도이다.
상기 컴퓨터 판독 방법은 컴퓨터 판독 가능 매체상의 컴퓨터에서 실행 가능한 프로그램으로 구현 될 수 있다.
다른 일 예는 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램을 제공하여 컴퓨터 판독 방법의 단계들을 실행한다. 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램은 하드웨어와 결합 될 수 있다. 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램은 컴퓨터 판독 방법의 각 단계를 실행하기 위한 프로그램이고, 모든 단계는 하나의 프로그램에 의해 실행되거나, 하나 이상의 단계를 실행하는 둘 이상의 프로그램에 의해 실행될 수 있다.
다른 일 예는 컴퓨터 판독 가능 방법의 단계들을 실행하기 위해 컴퓨터에서 실행 가능한 프로그램 (컴퓨터 실행 가능 명령)을 갖는 컴퓨터 판독 가능 저장 매체 (또는 기록 매체)를 제공한다.
본 발명은 k-mer 완전 매치 알고리즘과 박테리아 코어 유전자를 사용하여 메타게놈 샘플에 포함된 미생물 동정 및 분류 방법 및 시스템에 관한 것으로, 상기 메타게놈 샘플에 대한 분류학적 조성에 대한 분석을 편향없이 더 빠르고 더 정확하게 할 수 있는 장점이 있다.
도 1은 본 발명의 일 예에 따라 박테리아 코어 유전자의 k-mer 데이터베이스에 대한, 입력 샘플의 정확한 k-mer 매치에 기초한 메타게놈 분류학적 프로파일링을 위해 구성된 컴퓨팅 환경 (100)을 도시한다. 상기 컴퓨팅 환경 (100)은 메모리 (120) 및 적어도 하나의 프로세서 (131)를 갖는 컴퓨터 장치 (110)를 포함한다.
도 2는 본 발명의 일 예에 따라 메타게놈 샘플로부터 리드를 비교하는 프로세스의 예를 도시하며, 시험 시료의 입력 리드로부터 얻어진 각 k-mer 서열을 박테리아 코어 유전자의 참조 k-mer 데이터베이스와 비교한다.
도 3은 본 발명의 일 예에 따라 k-mer 분류를 위한 해쉬 테이블의 예시로서, k-mer는 키(key)를 나타내고 종 (species)의 ID (수치 값)는 값으로 저장된다.
도 4는 본 발명의 일 예에 따라 두 개의 k-mer를 포함하는 해시 테이블이며 두 개의 상이한 종에 속한다.
도 5는 본 발명의 일 예에 따라 두 개의 k-mer를 포함하는 해시 테이블이며, 하나는 두 개의 상이한 종 (5756과 1345)에 속하며, 상기 두 개 ID를 저장하는 대신에 가장 낮은 공통 조상 (LCA)이 계산되며, 이 경우 LCA는 과(family) 수준이다(ID 930).
도 6은 본 발명의 일 예에 따라 메모리에 할당된 해시 테이블로서, 쿼리 리드(CGAGCGCAACCCGTT)는 분류되어야 하며, 전체 4개의 k-mer를 읽을 수 있으며, 4 개의 k-mer가 해시 테이블에서 검색되고 해당 값이 추출된다 (5756, 2347, 1345, 1345). 리드를 분류하기 위해, k-mer에 대한 LCA를 선택하고, 이 경우 상기 리드는 노드 930 (father of the nodes)로 분류될 것이다.
이하, 본 발명을 실시 예에 의해 구체적으로 설명한다. 그러나, 하기 실시 예는 본 발명을 예시하기 위한 것일 뿐 본 발명의 범위를 한정하는 것은 아니다.
실시예 1: 박테리아 코어 유전자에 대한 참조 K-mer 데이터베이스의 수립
UBCG 파이프 라인을 사용하여 EzBioCloud 데이터베이스에서 얻어진 9,604 개게놈에서 92 개의 박테리아 코어 유전자를 추출하였다. UBCG 파이프 라인은 게놈 내 단일 카피인 코어 유전자 세트를 확인하기 위해 계통 발생 관계를 사용한다.
구체적으로, 박테리아 코어 유전자 세트 확인 방법 및 얻어진 자료는, UBCG 논문 (Seong-In Na et al., Journal of Microbiology (2018) Vol. 56, No.4, pp280-285)내용에 기초하여 코어 유전자를 추출하고 확인한 것으로 해당 논문의 방법은 기존에 공개된 많은 미생물 유전체 데이터를 분석하여 각각의 미생물이 공통적으로 단일 카피로 가지고 있는 92개 유전자를 선정하여 각각의 유전자에 대해서 해당 유전자 서열의 HMM(Hidden Markov Model)을 이용한 유전자 서열 패턴 프로파일을 만들고 유전자 서열 패턴 프로파일을 이용한 검색 프로그램, 예를 들어 HMMER 과 같은 프로그램을 사용하여 해당 유전자 서열을 추출하고 확인하는 방법이다.
상기 박테리아 코어 유전자를 사용하여 젤리피쉬 (JELLYFISH) 프로그램으로 k-mer 데이터베이스를 생성하였다. JELLYFISH는 주어진 입력 FASTA 파일에서 k-mer를 계산하는 명령 줄 응용 프로그램이다. 본 실시예에서는 k = 26을 사용하였다.
JELLYFISH가 박테리아 코어 유전자로부터 26-mer 길이를 갖는 k-mer 데이터베이스를 생성하며, 상기 얻어진 참조 k-mer 데이터베이스는 87 %의 고유(unique) k-mer의 백분율이 87%이고, 전체 크기 6.4 GB를 산출했다.
본 실시예에 따라 얻어진 참조 K-mer 데이터베이스의 분석 결과를 하기 표 2에 나타낸다. 하기 표 2는 박테리아 코어 유전자의 k-mer 데이터베이스에서 고유 k-mer의 수, 구별 k-mer의 수, 전체 k-mer의 수, 및 다양한 크기를 갖는 고유 k-mer의 백분율을 나타낸다.
[표 2]
Figure PCTKR2019011410-appb-I000002
비교예 1. 박테리아 전체 게놈에 대한 참조 K-mer 데이터베이스의 수립
참조 k-mer 데이터베이스에서 박테리아 코어 유전자를 사용하는 효율성을 보여주기 위해 또 다른 참조 k-mer 데이터베이스를 만들었다.
본 실험에서는 상기 k-mer 데이타베이스는 실시예 1과 동일한 과정에 따라 제작되었지만, 전체 게놈 서열이 사용되었다. 전체 게놈에 대한 k-mer 데이터베이스는 박테리아 코어 유전자에 대한 k-mer 데이터베이스에 포함된 종과 동일한 종을 포함한다.
JELLYFISH가 박테리아 전체 게놈으로부터 26-mer 길이를 갖는 k-mer 데이터베이스를 생성하며, 상기 얻어진 k-mer 데이터베이스는 전체 크기 353.11 GB로서 실시예 1의 파일 용량에 비해 약 55배 큰 수치이었다.
실시예 2: 분석 오류율 평가
2-1: 실험 시료
기존에 발표된 합성된 메타게놈 입력 파일을 본 발명에 따른 분류 방법의 검증에 사용하였다. 상기 합성 데이터세트에 대한 분류학적 및 대략적인 풍부도(taxonomy and approximate abundance)는 Laskar F 등의 J Basic Microbiol. 2018 Feb;58(2):101-119의 "Diversity of methanogenic archaea in freshwater sediments of lacustrine ecosystems"에 기재되어 있다.
2-2: 참조 k-mer 데이터베이스를 이용한 시료 미생물의 분류
실시예 1의 참조 박테리아 코어 유전자의 참조 k-mer 데이타베이스와 비교예 1의 박테리아 전체 게놈의 참조 k-mer 데이타베이스를 사용하여, KRAKEN 프로그램으로 상기 2-1의 시료 메타게놈 입력 파일을 분류하였다.
실시예 1에서 얻은, 작은 크기를 갖는 박테리아 코어 유전자의 참조 k-mer 데이터베이스에 대해, 상기데이터베이스를 RAM 메모리에 할당하여 KRAKEN 프로그램이 데이터베이스에 더 빨리 접근할 수 있게 했다. 입력 데이터 세트에서 296,514 개의 리드를 분류하는 데는 대략 9 초가 걸렸다.
K-mer 분석기인 KRAKEN 프로그램을 사용하여, 시료 k-mer 데이터세트와 참조 박테리아 코어 유전자의 k-mer 데이터베이스를 비교했다. KRAKEN은 데이터베이스와 입력 데이터 세트의 정확한 일치 비교를 수행하는 명령 줄 응용 프로그램이며 분류학적 계통도(taxanomic tree)와 최하위 공통 조상(lowest common ancestor, LCA)기법을 사용하여 모든 입력 리드를 분류한다. LCA 기법을 통해 KRAKEN은 하나의 리드가 상이한 종과 정확한 매치를 한다면, 상기 리드에 대해 좀더 높은 분류학적 순위(rank)를 선택한다.
비교예 1에서 얻은, 전체 게놈의 참조 k-mer 데이터베이스의 크기 때문에 RAM 메모리에 할당할 수 없었지만 대신 표준 하드 드라이브에 보관되었다. 미생물의 분류 과정은 실시예 1에서 얻은 박테리아 코어 유전자 k-mer 데이터베이스보다 약 218 배 더 긴 시간인 47 분이 걸렸다. 전체 게놈의 참조 k-mer 데이터베이스가 전체 게놈 서열을 포함하며 모든 게놈이 동일한 크기가 아니기 때문에, 추가 단계가 수행되어야 했다. 즉, 전체 게놈의 참조 k-mer 데이터베이스를 사용하여 예측된 비율은 각 균종에 대한 평균 게놈 크기를 사용하여 정규화하여야 한다.
실시예1에서 얻은 박테리아 코어 유전자의 참조 k-mer 데이터베이스와 비교예 1에서 얻은 전체 게놈의 참조 k-mer 데이터베이스를 사용하여, 실시예 2-1의 시료에 대한 각 종에 대한 분류된 리드의 비율과, 입력 데이터세트에 대해 이전에 발표된 알려진 비율을 하기 표 2에 나타냈다.
2-3: 분석 오류율 평가 (Test for analysis error rate)
박테리아 코어 유전자의 참조 k-mer 데이터베이스와 전체 게놈의 참조 k-mer 데이터베이스를 사용한 분류 방법에 따른 분석 오류율을 다음의 수학식 1로 계산하고, 그 결과를 표 3에서 분석 오류 백분율로 나타낸다.
[수학식 1]
Figure PCTKR2019011410-appb-I000003
상기 수학식 1에서, "예측된 풍부도 (predicted abundance)"라는 용어는 주어진 방법이 주어진 종에 대해 예측한 백분율을 말하며, "예상된 풍부도(Expected abundance)"는 표본에 존재하는 종의 진정한 풍부도를 나타낸다.
하기 표 2에서 error rate는 [Real Expected Abundance] - [(core gene k-mer]/(full genome K-mer)] 의 절대값을 [Real Expected Abundance]로 나눈 값이다. 표 2에서 볼 수 있듯이, 실시예 1에 따른 코어 유전자의 k-mer 데이터베이스가 갖는 분석 오류율은 비교예 1에 따른 전체 게놈의 k-mer 데이터베이스보다 낮다.
[표 3]
Figure PCTKR2019011410-appb-I000004
Figure PCTKR2019011410-appb-I000005
2-4: 데이터베이스의 Bray-Curtis 유사도 거리 분석
실시예 1의 박테리아 코어 유전자의 참조 k-mer 데이타베이스와 비교예 1의 박테리아 전체 게놈의 참조 k-mer 데이터베이스에 대해, Bray-Curtis 유사도 지수를 평가하였다.
Bray-Curtis 유사도 지수는 Bray-Curtis 거리라고도 하며, 두 시료에서 발견된 종 수준의 조성을 기준으로 1에서 두 시료에서 공통으로 발견되는 종에 대해 각각 시료에서 발견된 종 수 중 작은 수의 합에 2을 곱한 수를 각각의 시료에서 발견된 총 종수를 각각 합한 수로 나눈 것을 뺀 지수이다. Bray-Curtis 거리 방법에 의해 산출된 값이 1에 가까울수록 서로 유사하지 않은 시료이고 0에 가까울수록 유사한 시료입니다.
실시예 1의 박테리아 코어 유전자의 참조 k-mer 데이타베이스와 비교예 1의 박테리아 전체 게놈의 참조 k-mer 데이터베이스에 대해 계산된 Bray-Curtis 유사도 지수와 알려진 풍부도를 비교한 것으로 표 4에 나타냈으며, 코어 유전자의 참조 k-er 데이터베이스의 분류학적 프로파일이 알려진 사실에 더 가깝다는 것을 보여준다.
[표 4] Bray-Curtis distance
Figure PCTKR2019011410-appb-I000006
2-5: 데이터베이스를 이용한 분류 요약
본 실시예에서, 실시예1의 박테리아 코어 유전자의 참조 k-mer 데이타베이스와 비교예 1의 박테리아 전체 게놈의 참조 k-mer 데이터베이스를 이용하여, 기존에 발표된 합성된 메타게놈 입력 파일를 분류한 결과를 정리하면 하기 표 5와 같다.
표 2의 error rate는 [Real Expected Abundance] - [(core gene k-mer]/(full genome K-mer)] 의 절대값을 [Real Expected Abundance]로 나눈 값이며, 단위가 없는 실제 기대되는 값 과의 비율적인 차이 값이다. 표 5에서 Total error는 각각의 방법(Core gene k-mer / Full genome k-mer)에 대해 이 error rate 값의 합이며 average error는 평균 값이다.
[표 5]
Figure PCTKR2019011410-appb-I000007
표 5에 나타낸 바와 같이, 실시예 1에 따른 k-mer 데이터베이스의 박테리아 코어 유전자는 최종 데이터베이스의 작은 용량을 갖는 이점이 있으며, 결과적으로 RAM 메모리와 같이 더 빠르고 더 작은 메모리에 상기 데이터베이스를 할당할 수 있으며, 이에 분류 프로그램을 수백 배 더 빠르게 실행할 수 있다.
또한, 박테리아 코어 유전자의 참조 k-mer 데이터베이스는 종 수준에서 분류 오류 백분율을 거의 절반으로 감소시켜, 전체 게놈 k-mer 데이터베이스와 동일한 수의 종을 나타내면서도 더 작은 용량의 데이터베이스가 더 정확한 분류 결과를 제공할 수 있음을 나타낸다.
실시예 3: 미생물 분류방법의 정확성 시험
3-1: 실험 시료
박테리아 코어 유전자의 k-mer 데이터베이스를 이용한 메타게놈 분류의 정확성을 확인하기 위해 본 실험을 수행하였다.
즉, 본 실험은 전체 게놈의 참조 k-mer 데이터세트와 비교하여, 본 발명에 따른 코어 유전자의 참조 k-mer 데이터세트가 16S rRNA 데이터세트와 더 큰 유사성을 가졌는지 여부를 시험하였다. 특히, 16S rRNA 데이터와 샷건 데이터 모두에서 Human Microbiome Project (HMP)의 5 가지 무작위 세트 (NCBI SRA ID : SRS058770, SRS063985, SRS016203, SRS062427, SRS052697)를 선택했다.
3-2: 분류학적 분석
각각 샷건 데이터세트에 대한 분류학적 프로파일링은, 실시예 1과 실질적으로 동일한 방법으로 코어 유전자의 참조 k-mer 데이터베이스를 이용하여 계산하고, 비교예 1과 실질적으로 동일한 방법으로 전체 게놈의 참조 k-mer 데이터베이스를 사용하여 계산하였다. 16S rRNA 데이터는 클라우드 플랫폼 EzBioCloud (www.ezbiocloud.net)에 의해 분류학적으로 프로파일링된 것이다.
코어 유전자의 참조 k-mer 데이터베이스 및 전체 게놈의 참조 k-mer 데이터베이스의 정확성을 16S rRNA 분류학적 프로파일 예측으로 측정하였다.
하기 표 6 내지 표 10는 속(genus) 수준에서, 실시예 3-1에서 얻은 각 HMP 샘플에 대한 16S rRNA 및 샷건 데이터의 전체 풍부도(abundance)를 나타낸다. 표 5에서 표 9는 현재까지 발표된 데이터를 사용하여 분류학적 프로파일링에서 가장 일반적으로 사용되는 16S rRNA 방법과 비교한 것이다. 본 발명에 사용된 코어 유전자의 k-mer 데이타베이스를 이용한 방법이 기존의 방법과 높은 상관 관계를 가짐을 입증하기 위해 다양한 공개 데이터를 이용하여 계산된 분류학적 프로파일링의 결과를 표 5 내지 표 9에 나타낸다.
즉, 5가지 HMP 샘플 중에서, NCBI SRA ID: SRS058770의 계산된 분류학적 프로파일링의 결과는 표 6에 기재하고, NCBI SRA ID: RS063985 의 계산된 분류학적 프로파일링의 결과는 표 7에 기재하고, NCBI SRA ID: SRS016203 의 계산된 분류학적 프로파일링의 결과는 표 8에 기재하고, NCBI SRA ID: SRS062427 의 계산된 분류학적 프로파일링의 결과는 표 9에 기재하고, NCBI SRA ID: SRS052697 의 계산된 분류학적 프로파일링의 결과는 표 10에 각각 기재하였다.
[표 6]
Figure PCTKR2019011410-appb-I000008
[표 7]
Figure PCTKR2019011410-appb-I000009
[표 8]
Figure PCTKR2019011410-appb-I000010
[표 9]
Figure PCTKR2019011410-appb-I000011
[표 10]
Figure PCTKR2019011410-appb-I000012
3-3: Bray-Curtis 유사도 분석
상기 실시예 3-1에서 얻은 모든 HMP 세트에 대해, 실시예 1에 따른 코어 유전자의 참조 k-mer 데이터베이스, 비교예 1에 따른 전체 게놈의 참조 k-mer 데이터베이스, 및 16S rRNA 데이터베이스를 이용한 분류 방법에 대해, 실시예 2-4와 실질적으로 동일한 방법으로 Bray-Curtis 유사도 지수를 산출하여 하기 표 10에 나타낸다.
표 11은 3 가지 참조 데이터베이스를 사용하는 모든 HMP 세트에 대한 Bray-Curtis 유사도를 나타낸 것으로서, 표 11에서 Bray-Curtis 유사도 지수는 0에 근접할수록 유사함을 나타내고, 1에 근접할수록 유사하지 않은 것을 나타낸다.
[표 11] Bray-Curtis 유사도 지수
Figure PCTKR2019011410-appb-I000013
상기 표 11의 Bray-Curtis 유사도 분석 결과에 나타낸 바와 같이, 3 개의 데이터베이스를 사용하는 모든 HMP 세트에 대한 Bray-Curtis 유사도를 비교한 결과, 실시예 1에 따른 코어 유전자의 k-mer 데이터세트가 비교예 1에 따른 전체 게놈의 k-mer 데이터 세트와 비교하여 16S rRNA 데이터와 더 큰 유사성을 나타냄을 보여준다.

Claims (14)

  1. 시료에서 얻은 미생물 유전체 정보를 제공하고,
    상기 미생물 유전체 정보를 이용하여 시료 k-mer 데이터세트를 얻고,
    미생물 분류(taxon) 정보가 부여된, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와, 상기 시료 k-mer 데이터세트를 비교하여, 상기 시료 내 미생물을 동정 및 분류하는 단계를 포함하는,
    시료 내 미생물을 동정 및 분류하는 방법.
  2. 제1항에 있어서, 상기 미생물 유전체 정보는 차세대 염기서열 분석법(Next Generation sequencing, NGS)으로 분석하여 얻어진 것인 방법.
  3. 제1항에 있어서, 상기 시료 k-mer 데이터세트를 얻는 단계는, 차세대 염기서열 분석법(Next Generation sequencing, NGS)으로 얻어진 시퀀싱 리드별로 k-mer 길이에 맞추어 1개 뉴클레오티드씩 이동하며 k-mer 길이의 단편 문자열을 잘라내어 k-mer 데이터세트를 얻는 것인 방법.
  4. 제3항에 있어서, 상기 k-mer의 길이는 시퀀싱 리드의 길이보다 짧은 것인 방법.
  5. 제1항에 있어서, 상기 시료 k-mer 데이터세트와 참조 k-mer 데이터베이스에 포함된 k-mer 길이는 동일한 것인 방법.
  6. 제1항에 있어서, 상기 참조 k-mer 데이터베이스는, 상기 각 참조 코어 유전자로부터 생성된 하나 이상의 k-mer를 포함하며, 상기 k-mer는 미생물 분류(taxon)정보가 부여된 것인 방법.
  7. 제1항에 있어서, 상기 미생물 분류(taxon) 정보는 고유 ID로 구분하여 부여되는 것인 방법.
  8. 제1항에 있어서, 상기 참조 k-mer 데이터베이스에 포함된 k-mer에 부여된 미생물 분류 정보는, 미생물 균종(species) 또는 최소공통조상(LCA) 정보가 포함된 분류(taxon) 정보인 방법.
  9. 제8항에 있어서, 상기 참조 코어 유전자의 참조 k-mer 데이터베이스는,
    참조 미생물 유전체 정보에서 참조 코어 유전자 (reference core gene)의 서열 정보를 추출하고, 상기 참조 코어 유전자의 서열 정보를 k-mer으로 분할하여 하나 이상의 k-mer를 얻고,
    상기 각 k-mer에 대해 미생물 분류(taxon) 정보에 관한 고유 ID를 부여하여 참조 코어 유전자의 k-mer 데이터베이스를 구축하며,
    상기 각 k-mer에 대해 미생물 분류(taxon) 정보에 관한 고유 ID를 부여하는 방법은,
    (i)고유(Unique) k-mer 인 경우 해당 k-mer 가 속한 미생물 종의 고유 ID를 부여하고,
    (ii) 구별(distinct) k-mer이면서 해당 k-mer가 미생물 한 종에서만 발견될 경우 해당 미생물 종의 고유 ID를 부여하고,
    (iii) 구별(distinct) k-mer 이면서 해당 k-mer가 여러 미생물 종에서 발견될 경우 최소공통조상(LCA)을 선택하여 해당 미생물 분류(taxon)정보에 대한 고유 ID를 부여하여 수행되는 것인, 방법.
  10. 제1항에 있어서, 상기 시료 k-mer 데이터세트와 참조 코어 유전자의 k-mer 데이터베이스의 비교는, 시료 k-mer 데이터세트에 포함된 k-mer에 대해 참조 코어 유전자의 k-mer 데이터베이스에 포함된 k-mer과 뉴클레오티드 서열정보가 완전히 동일한 k-mer를 선정하고, 상기 선정된 k-mer의 분류(taxon)정보를 포함하고 있는 인덱스를 목록화하여 수행되는 것인 방법.
  11. 제10항에 있어서, 상기 시료 k-mer 데이터세트를, 참조 코어 유전자의 k-mer 데이터베이스와 비교는 KRAKEN 프로그램으로 수행되는 것인 방법.
  12. 제1항에 있어서,
    상기 미생물 분류(taxon) 정보는 고유 ID로 구분하여, 참조 k-mer 데이터베이스의 개별 k-mer에 부여된 것이며,
    상기 시료 미생물 유전체 정보는 차세대 염기서열 분석법(Next Generation sequencing, NGS)으로 얻어진 시퀀싱 리드를 포함하며,
    상기 시료 미생물 유전체의 개별 시퀀싱 리드에 대해,
    (i) 하나이상의 k-mer를 포함하는 k-mer 데이터세트를 만들어, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와 비교하여, 뉴클레오티드 서열이 완전일치한 k-mer를 참조 k-mer 데이터베이스로부터 선정하고,
    (ii) 상기 선정된 k-mer에 부여된 고유 ID 정보를 얻고,
    (iii)상기 시퀀싱 리드에서 얻어진 하나 이상의 고유 ID를 모은 목록 정보를 이용하여, 고유 ID 목록에 포함된 고유 ID가 하나이거나 모두 동일할 경우 해당 ID를 시퀀싱 리드의 고유 ID로 선택하고, 고유 ID 목록에 둘 이상의 서로 다른 고유 ID가 포함될 경우 최소공통조상(LCA)에 해당하는 고유 ID를 선택하며,
    (iv) 상기 개별 시퀀싱 리드별로 할당된 분류학적 수준에 해당하는 고유 ID의 분류 정보를 결합하며,
    상기 개별 시퀀싱 리드별로 얻어진 분류학적 수준에 해당하는 고유 ID를, 상기 시료 미생물 유전체에 포함된 전체 시퀀싱 리드에 대해 수행하여 얻어진 고유 ID 를 모아 전체 고유 ID 목록을 만들어, 상기 시료 미생물의 동정 및 분류하는 것인, 방법.
  13. 시료에서 얻은 미생물 유전체 정보를 제공하고,
    상기 미생물 유전체 정보를 이용하여 시료 k-mer 데이터세트를 얻고,
    미생물 분류(taxon) 정보가 부여된, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와, 상기 시료 k-mer 데이터세트를 비교하는 단계를 포함하며,
    상기 미생물 분류(taxon) 정보는 고유 ID로 구분하여, 참조 k-mer 데이터베이스의 개별 k-mer에 부여된 것이며,
    상기 시료 미생물 유전체 정보는 차세대 염기서열 분석법(Next Generation sequencing, NGS)으로 얻어진 시퀀싱 리드를 포함하며,
    상기 시료 미생물 유전체의 개별 시퀀싱 리드에 대해,
    (i) 하나이상의 k-mer를 포함하는 k-mer 데이터세트를 만들어, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와 비교하여, 뉴클레오티드 서열이 완전일치한 k-mer를 참조 k-mer 데이터베이스로부터 선정하고,
    (ii) 상기 선정된 k-mer에 부여된 고유 ID 정보를 얻고,
    (iii)상기 시퀀싱 리드에서 얻어진 하나 이상의 고유 ID를 모은 목록 정보를 이용하여, 고유 ID 목록에 포함된 고유 ID가 하나이거나 모두 동일할 경우 해당 ID를 시퀀싱 리드의 고유 ID로 선택하고, 고유 ID 목록에 둘 이상의 서로 다른 고유 ID가 포함될 경우 최소공통조상(LCA)에 해당하는 고유 ID를 부여하고,
    (iv) 상기 개별 시퀀싱 리드별로 할당된 분류학적 수준에 해당하는 고유 ID의 분류 정보를 결합하며,
    상기 개별 시퀀싱 리드별로 얻어진 분류학적 수준에 해당하는 고유 ID를, 상기 시료 미생물 유전체에 포함된 전체 시퀀싱 리드에 대해 수행하여 얻어진 고유 ID 를 모아 전체 고유 ID 목록을 만들고,
    시료 미생물의 전체 고유 ID 목록에서, 상기 분류학적 수준에 해당하는 고유 ID별로 할당된 리드 (classified read)의 수 (number)를 얻고,
    상기 고유 ID별로 할당된 리드 수를, 전체 고유 ID 목록에 할당된 리드 수의 총합으로 나누어, 해당 고유 ID에 해당하는 미생물 종 또는 분류정보에 대해 시료 내의 풍부도를 얻는 단계를 포함하는,
    시료 내 미생물의 종의 풍부도 프로파일 정보를 얻는 방법.
  14. (a) 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와, (b)k-mer 추출기 (k-mer extractor)와 k-mer 분석기(k-mer analyzer)를 구비한 프로세서를 포함하는, 시험 시료 내 미생물을 동정 및 분류하는 시스템으로서,
    상기 참조 k-mer의 데이터베이스는 하나 이상의 참조 박테리아 코어 유전자의 DNA 정보로부터 생성된 하나 이상의 k-mer를 포함하며, 상기 k-mer은 상기 미생물의 분류 정보가 부여된 것이며;
    상기 프로세서의 k-mer 추출기는 시료에서 얻은 메타게놈 정보에서 하나 이상의 k-mer을 추출하며,
    상기 프로세서의 k-mer 분석기는, 상기 시료 k-mer 데이터세트에 포함된 k-mer에 대해 참조 코어 유전자의 k-mer 데이터베이스에 포함된 k-mer와 핵산서열정보가 완전히 동일한 k-mer을 선정하여, 상기 선정된 k-mer의 분류(taxon)정보를 포함하고 있는 고유 ID를 목록화하고, 상기 선정된 k-mer에 대한 분류학적 정보를 기초로 시료에 포함된 미생물의 동정 및 분류를 수행하는 것인,
    시료 내 미생물을 동정 및 분류하는 시스템.
PCT/KR2019/011410 2018-09-05 2019-09-04 시료 미생물의 동정 및 분류 방법 WO2020050627A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/273,078 US20210202040A1 (en) 2018-09-05 2019-09-04 Method for identifying and classifying sample microorganisms
EP19857095.4A EP3848936A4 (en) 2018-09-05 2019-09-04 PROCEDURES FOR IDENTIFICATION AND CLASSIFICATION OF SAMPLE MICROORGANISMS

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201862727121P 2018-09-05 2018-09-05
US62/727,121 2018-09-05
KR10-2019-0109117 2019-09-03
KR1020190109117A KR102349921B1 (ko) 2018-09-05 2019-09-03 시료 미생물의 동정 및 분류 방법

Publications (1)

Publication Number Publication Date
WO2020050627A1 true WO2020050627A1 (ko) 2020-03-12

Family

ID=69722597

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/011410 WO2020050627A1 (ko) 2018-09-05 2019-09-04 시료 미생물의 동정 및 분류 방법

Country Status (1)

Country Link
WO (1) WO2020050627A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112951330A (zh) * 2021-02-07 2021-06-11 北京大学 一种基于宏组学技术从复杂环境体系中获知全程氨氧化微生物相对丰度和活性的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016172643A2 (en) * 2015-04-24 2016-10-27 University Of Utah Research Foundation Methods and systems for multiple taxonomic classification
KR101798229B1 (ko) * 2016-12-27 2017-12-12 주식회사 천랩 전장 리보솜 rna 서열정보를 얻는 방법 및 상기 리보솜 rna 서열정보를 이용하여 미생물을 동정하는 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016172643A2 (en) * 2015-04-24 2016-10-27 University Of Utah Research Foundation Methods and systems for multiple taxonomic classification
KR101798229B1 (ko) * 2016-12-27 2017-12-12 주식회사 천랩 전장 리보솜 rna 서열정보를 얻는 방법 및 상기 리보솜 rna 서열정보를 이용하여 미생물을 동정하는 방법

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
"NCBI", Database accession no. SRS052697
KAWULOK, J.: "CoMeta: classification of metagenomes using k-mers", PLOS ONE, 17 April 2015 (2015-04-17), pages e0121453, XP055521941, DOI: 10.1371/journal.pone.0121453 *
LASKAR F ET AL.: "Diversity of methanogenic archaea in freshwater sediments of lacustrine ecosystems", J BASIC MICROBIOL, vol. 58, no. 2, February 2018 (2018-02-01), pages 101 - 119
NA, S.-I.: "UBCG: Up-to-date bacterial core gene set and pipeline for phylogenomic tree reconstruction", JOURNAL OF MICROBIOLOGY, vol. 56, no. 4, 2018, pages 281 - 285, XP036471493 *
RAIME, K.: "Method for the identification of taxon-specific k-mers from chloroplast genome: a case study on tomato plant (Solanum lycopersicum", FRONTIERS IN PLANT SCIENCE, vol. 9, no. 6, 17 January 2018 (2018-01-17), pages 1 - 12, XP055692708 *
See also references of EP3848936A4 *
SEONG-IN NA ET AL., JOURNAL OF MICROBIOLOGY, vol. 56, no. 4, 2018, pages 280 - 285
WANG, Y.: "Identifying group-specific sequences for microbial communities using long k-mer sequence signatures", FRONTIERS IN MICROBIOLOGY, vol. 9, no. 872, 3 May 2018 (2018-05-03), pages 1 - 18, XP055692706 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112951330A (zh) * 2021-02-07 2021-06-11 北京大学 一种基于宏组学技术从复杂环境体系中获知全程氨氧化微生物相对丰度和活性的方法
CN112951330B (zh) * 2021-02-07 2022-09-27 北京大学 一种基于宏组学技术从复杂环境体系中获知全程氨氧化微生物相对丰度和活性的方法

Similar Documents

Publication Publication Date Title
Ren et al. Identifying viruses from metagenomic data using deep learning
Erill et al. In silico analysis reveals substantial variability in the gene contents of the gamma proteobacteria LexA-regulon
Schwartz et al. Human–mouse alignments with BLASTZ
Zhao et al. Construction of an interactive online phytoplasma classification tool, i PhyClassifier, and its application in analysis of the peach X-disease phytoplasma group (16SrIII)
Page et al. Multilocus sequence typing by blast from de novo assemblies against PubMLST
Li et al. Mapping short DNA sequencing reads and calling variants using mapping quality scores
Snel et al. Quantifying modularity in the evolution of biomolecular systems
WO2023033329A1 (ko) 질환 연관 유전자 변이 분석을 통한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법
Healy et al. Identification to the species level and differentiation between strains of Aspergillus clinical isolates by automated repetitive-sequence-based PCR
WO2010005261A2 (ko) 데이터 검색을 위한 파일 생성 방법 및 데이터 파일의 검색방법 그리고 데이터 파일 검색을 위한 데이터베이스 관리 시스템
WO2011071209A1 (ko) 히든 마코브 모델을 이용한 식물 저항성 유전자 동정 및 분류를 위한 시스템 및 방법
WO2020050627A1 (ko) 시료 미생물의 동정 및 분류 방법
WO2017086675A1 (ko) 대사 이상 질환 진단 장치 및 그 방법
Harbert Algorithms and strategies in short‐read shotgun metagenomic reconstruction of plant communities
WO2011068315A2 (ko) 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치 및 그 방법
Mukhopadhyay et al. A comparative study of genetic sequence classification algorithms
WO2023063528A1 (ko) 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치 및 그 방법
WO2015009046A1 (ko) 배타적 분자 오비탈 분포를 갖는 분자 오비탈 라이브러리 및 이를 이용한 분자 오비탈 분포 영역 평가 방법 및 이를 이용한 시스템
WO2022196859A1 (ko) rRNA 오페론 데이터베이스 구축 방법 및 이를 이용한 미생물 메타게놈 분석 방법
Konstantinidis et al. FastAAI: efficient estimation of genome average amino acid identity and phylum-level relationships using tetramers of universal proteins
WO2021172780A1 (ko) 유전자 선별 방법 및 장치
Menconi et al. Mobilomics in Saccharomyces cerevisiae strains
WO2021045312A1 (ko) 해시 코드 기반의 검색 장치 및 검색 방법
WO2023080571A1 (ko) 타겟 분석물을 검출하기 위한 서열 식별자를 선정하는 방법
Blanco‐Pastor et al. Evolutionary networks from RAD seq loci point to hybrid origins of Medicago carstiensis and Medicago cretacea

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19857095

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019857095

Country of ref document: EP

Effective date: 20210406