WO2022196859A1 - rRNA 오페론 데이터베이스 구축 방법 및 이를 이용한 미생물 메타게놈 분석 방법 - Google Patents

rRNA 오페론 데이터베이스 구축 방법 및 이를 이용한 미생물 메타게놈 분석 방법 Download PDF

Info

Publication number
WO2022196859A1
WO2022196859A1 PCT/KR2021/004625 KR2021004625W WO2022196859A1 WO 2022196859 A1 WO2022196859 A1 WO 2022196859A1 KR 2021004625 W KR2021004625 W KR 2021004625W WO 2022196859 A1 WO2022196859 A1 WO 2022196859A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
database
rrna
generating
operon
Prior art date
Application number
PCT/KR2021/004625
Other languages
English (en)
French (fr)
Inventor
설동혁
조서애
Original Assignee
주식회사 이지놈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 이지놈 filed Critical 주식회사 이지놈
Publication of WO2022196859A1 publication Critical patent/WO2022196859A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Definitions

  • the present invention reclassifies the microbial classification system through microbial genome information including the rRNA operon sequence, extracts the rRNA operon sequence, and curates through sequence clustering, phylogenetic tree, etc.
  • rRNA operon database that can build a database It relates to a construction method, and a microbial metagenome analysis method capable of analyzing the microbial metagenome based on sequence alignment (mapping) using the same.
  • short-read sequencing is supported by various analysis tools and pipelines as it enables accurate and cost-effective analysis.
  • the natural nucleic acid polymer has a long length, it is difficult to reconstruct and enumerate the original nucleic acid polymer using short-read sequencing, which analyzes the nucleotide sequence using a short sequencing fragment.
  • short-read sequencing can improve de novo assembly, mapping accuracy, transcript isotype identification, and detection of structural variations.
  • Long-read sequencing of natural molecules DNA and RNA eliminates amplification bias while preserving base modifications. Because of these features, long-read sequencing has been studied for a wide range of applications in genomics to model organisms and non-model organisms, with improved accuracy and continued savings in throughput and cost.
  • Nanopore sequencing is also used in Metagenomics.
  • the conventional short-read-based sequencing can be used only for a part of the variable region (mainly the V3-V4 region) among 16S rRNA, so the resolution is high. It is so low that it is not possible to clearly distinguish the level of the genus, let alone the species.
  • long-read-based sequencing can target 16S rRNA, taxonomic resolution is greatly improved to the extent that it can clearly distinguish even strains beyond species.
  • the present inventors built a database using the bacterial 16S-23S rRNA operon to create a platform capable of identifying and classifying microorganisms at the species level.
  • Another object of the present invention relates to a computer program recorded in a computer-readable recording medium for executing a method of constructing an rRNA operon database.
  • Another object of the present invention relates to a computer-implemented rRNA operon database system.
  • Another object of the present invention relates to a method for identifying microorganisms using an rRNA operon database.
  • Another object of the present invention relates to a computer program recorded in a computer-readable recording medium for executing a microorganism identification method.
  • Another object of the present invention relates to a computer-implemented microbial identification system.
  • the present invention provides an rRNA operon database construction method for constructing a database by extracting only valid data from microbial genome information including an rRNA operon sequence, and generating microbial classification system data using the valid data, and sequence alignment (mapping, mapping) based on an identification method for analyzing the microbial metagenome that can analyze the microbial metagenome.
  • An example of the present invention relates to a method for constructing an rRNA operon database comprising the following steps:
  • the data acquisition step or the quality control step is to further perform taxon reclassification, rRNA operon database construction method.
  • the data acquisition step may be to generate initial data from genome information.
  • genomic information may mean microbial genome information.
  • the microorganism may be a prokaryote including an operon sequence, such as an intestinal microorganism or bacteria, but is not limited thereto.
  • the genome (genome) information is the US National Center for Biotechnology Information (NCBI) Genbank, European Bioinformatics Institute-European Nucleotide Archive (European Bioinformatics Institute-European Nucleotide Archive; EBI-ENA) , National Institute of Genetics, Japan DNA Data Bank of Japan (DDBJ), U.S. Department of ENERGY (USDOE) Integrated Microbial Genomes (Integrated Microbial Genomes) &Microbiomes; IMG/M) and may be obtained from one or more databases selected from the group consisting of Ensembl, for example, may be obtained from the NCBI gene bank database of the US National Center for Biotechnology Information.
  • NCBI National Center for Biotechnology Information
  • EBI-ENA European Bioinformatics Institute-European Nucleotide Archive
  • EBI-ENA National Institute of Genetics
  • DDBJ Japan DNA Data Bank of Japan
  • USDOE U.S. Department of ENERGY
  • IMG/M Integrated Microbial Genomes
  • the genomic information may include one or more pieces of information selected from the group consisting of a nucleotide sequence encoding 16S rRNA, a nucleotide sequence encoding 23S rRNA, and a nucleotide sequence encoding 16S-ITS-23S rRNA. .
  • 16S rRNA is an rRNA constituting the 30S subunit of the prokaryotic ribosome, and may have a length of about 1,500 nucleotides. Most of the sequences of 16S rRNA are highly conserved, while high sequence diversity appears in some sections. In particular, it is used for bioidentification because there is little diversity between species, while diversity appears between other species.
  • 16S-ITS-23S rRNA may include a nucleotide sequence encoding 16S rRNA, an internal transcribed spacer (ITS), and a nucleotide sequence encoding 23S rRNA.
  • Different microorganisms can be classified or identified by using the nucleotide sequence encoding 16S rRNA, the nucleotide sequence encoding 23S rRNA, or the nucleotide sequence encoding 16S-ITS-23S rRNA.
  • ITS may refer to an internal transcribed spacer (ITS) including tRNA between the 16S rRNA operon and the 23S rRNA operon on the genome of a microorganism.
  • ITS internal transcribed spacer
  • the term “operon” may refer to a DNA fragment including a series of gene groups (nucleotide sequences) that generally encode proteins.
  • the initial data may include the name of the microorganism, the full-length genome sequence, the species name, the genus name, the genome assembly level, and the genome accession number information, but is not limited thereto.
  • the level of genome assembly in the present invention depends on whether there is a problem with the initial data itself, whether there is a problem with the method of generating the amplicon product, or the method of generating valid data. It may be used to check whether there is a problem or the like.
  • taxa-reassignment in the data acquisition step, taxa-reassignment may be additionally performed.
  • taxa reclassification compares initial data with reference genome classification information, reassignment of taxa mis-assignment among initial data, or removes contaminated data (contaminant).
  • the reference genome classification information is, for example, a genomic taxonomy database related to a nomenclature of prokaryotes proposed according to a phylogenetic approach based on a set of conserved proteins.
  • GTDB Gene Taxonomy Database
  • the taxon misclassification data may mean microbial data to which a taxon is not designated, microbial data not classified up to a species-level, or microbial data in which a taxon is incorrectly designated.
  • contaminated data may refer to microbial data in which microbial genome sequences derived from at least two or more species are mixed with one microbial data.
  • Taxa mis-assignment or contaminated data is a common problem with data stored in public repository, and if it is used without removing it, the reliability of the entire database may be reduced.
  • taxa reclassification may be performed using GTDB-Tk or CheckM software, for example, may be performed using GTDB-Tk software, but is not limited thereto.
  • the amplicon generating step may be to generate amplicon product data using initial data.
  • the amplicon product data may include nucleotide sequence information of the amplicon product having a size between 3,500 and 7,000 bp.
  • a microbial genome may have more than one rRNA operon, and for example, if two operons are present, some amplicon products may include both the first operon and the second operon, thereby reducing the accuracy of microbial classification or identification. can trill
  • the amplicon product including two or more operons can be removed from valid data.
  • the amplicon product data may be generated using EMBOSS-primersearch software.
  • the amplicon product data may be generated using the 16S-27F primer and the 23S-2241R primer shown in Table 1.
  • the quality control step may be to generate valid data by removing the amplicon product data including an ambiguous nucleotide among the amplicon product data.
  • ambiguous nucleotide may mean a nucleotide sequence consisting of other bases except for A, G, T and C.
  • the data acquisition step or the quality control step may additionally perform taxon reclassification.
  • the quality control step may not additionally perform taxon reclassification.
  • the quality control step may additionally perform taxon reclassification.
  • the database construction step may be to generate classification system data from valid data through sequence clustering and phylogenetic tree construction.
  • sequence clustering may be to cluster operon sequences with high similarity into one group by comparing genome sequences of different microorganisms using valid data.
  • sequence clustering may be performed using one selected from the group consisting of Cd-hit-est and UCLUST, for example, it may be performed using Cd-hit-est, but this It is not limited.
  • the construction of a phylogenetic tree may be to construct a phylogenetic tree of microorganisms belonging to the same family by comparing the genome sequences of different microorganisms using valid data.
  • phylogenetic tree construction may be performed using one selected from the group consisting of IQ-tree and MEGA, for example, may be performed using IQ-tree, but is not limited thereto .
  • microorganisms of different species with similar or identical operon sequences may belong to different microbial species groups or phylogenetic trees. Through sequence clustering and phylogenetic tree construction, it is possible to remove microbial genome information of different species but with similar or identical operon sequences, which can improve the reliability of taxonomy data included in the final database.
  • the taxonomy data includes 16S-ITS-23S rRNA operon sequence, taxa after microbial reclassification, taxa before microbial reclassification, assembly level of genome, rRNA operon copy number of genome and primer binding region sequence information may include.
  • before and after microbial reclassification may mean before and after performing taxa reclassification using GTDB-Tk.
  • the database building step may further include a filtering step.
  • the filtering step may be to remove erroneous data due to misassembly of the classification system data using a blast (Basic Local Alignment Search Tool; BLAST).
  • BLAST Basic Local Alignment Search Tool
  • Another example of the present invention relates to a computer program recorded in a computer-readable recording medium for executing a method for constructing an rRNA operon database, comprising the following steps:
  • the data acquisition step or the quality control step is a computer program recorded on a computer-readable recording medium for executing the method of constructing an rRNA operon database, which is to further perform taxa reclassification.
  • Another embodiment of the present invention is an rRNA operon database system comprising at least one processor implemented to execute computer-readable instructions,
  • the at least one processor includes
  • It relates to an rRNA operon database system, which further performs taxa reclassification after generating the initial data or after generating the valid data.
  • a computer program may configure the processing device to operate as desired or, independently or collectively, instruct the processing device.
  • the computer program is permanently stored in any kind of machine, component, physical device, virtual equipment, computer storage medium or device for interpretation by or providing instructions or data to the processing device. , or temporarily embody.
  • the software may be distributed over networked computer systems and stored or executed in a distributed manner.
  • the computer program may be stored in one or more computer-readable recording media.
  • the method of the present invention may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium.
  • the medium may continuously store a computer executable program, or may be a temporary storage for execution or download.
  • the medium may be various recording means or storage means in the form of a single or several hardware combined, it is not limited to a medium directly connected to any computer system, and may exist distributed on a network. Examples of the medium include hard disks, magnetic media such as floppy disks and magnetic tapes, optical recording media such as CD-ROMs and DVDs, magneto-optical media such as floppy disks, and ROMs. , RAM, flash memory, and the like may be configured to store program instructions.
  • examples of other media may include recording media or storage media managed by an app store that distributes applications, sites that supply or distribute other various software, and servers.
  • the program instructions recorded on the medium may be specially designed and configured for the embodiment, or may be known and available to those skilled in the art.
  • Examples of program instructions include not only machine language codes such as those generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.
  • a read mapping step of mapping sequencing data to taxonomy data A read mapping step of mapping sequencing data to taxonomy data.
  • the data input step may be to receive sequencing data.
  • sequencing data may be a sequencing product of a microorganism to be identified.
  • sequencing data may include, but is not limited to, genome sequencing products for a plurality of microorganisms to be identified.
  • the sequencing data may include one or more selected from the group consisting of nucleotide sequence information encoding 16S rRNA, nucleotide sequence encoding 23S rRNA, and nucleotide sequence encoding 16S-ITS-23S rRNA. .
  • the data input step may further include a calibration step of correcting the sequencing data to the rrn operon copy number (rrn operon copy number).
  • rrn operon copy number may refer to the number of amplicon products generated from one microbial genome.
  • the correction step may be dividing the number of sequencing data, which is a sequencing product for one microorganism, by the number of copies of the rrn operon of the microorganism.
  • the read mapping step may be to identify the microorganism by read mapping the sequencing data to the classification system data.
  • the read mapping step includes the 16S-23S rRNA operon sequence included in the classification system data for the nucleotide sequence information of the microorganisms included in the sample, the taxon after reclassification of microorganisms, the taxon before reclassification of microorganisms, the assembly level of the genome, the level of the genome It may be to compare the rRNA operon copy number and primer binding region sequence information.
  • lead mapping does not derive a result that has a low value based on the alignment score, but removes the secondary alignment by deriving only the highest value as a result. .
  • the term 'alignment score' may refer to a value obtained by adding a constant value to an aligned length after allocating a predetermined value to individual bases of a base sequence pair of an aligned microorganism.
  • the term 'secondary alignment' refers to a sequence in which a sequence is effectively aligned due to a sequencing error in the process of mapping sequencing data to taxonomy data, incomplete match between sequenced DNA and a reference, etc. It may mean not
  • the classification system data may be generated in the rRNA operon database construction method of the present invention.
  • the read mapping step may be performed using one selected from the group consisting of BLASR, Minimap2 and NGMLR, for example, may be performed using Minimap2, but is not limited thereto.
  • the lead mapping step may further include a visualization step.
  • the visualization step may be to generate a phylogenetic tree with Krona software, generate a microbial species content graph with Matplotlib software, or both, using the identified microorganism information, but is not limited thereto.
  • Another example of the present invention relates to a computer program recorded on a computer-readable recording medium for executing a method for identifying microorganisms, including the following steps:
  • a read mapping step of read mapping of sequencing data to taxonomy data is
  • the computer program recorded in the computer-readable recording medium to execute the microorganism identification method in the present invention may use the database constructed through the rRNA operon database construction method of the present invention.
  • Another example of the present invention is a microorganism identification system comprising at least one processor implemented to execute computer-readable instructions,
  • the at least one processor includes
  • a microbial identification system comprising read mapping of sequencing data to taxonomy data.
  • the microbial identification system may use a database constructed through the rRNA operon database construction method of the present invention.
  • the present invention relates to a method for constructing an rRNA operon database and a method for analyzing the microbial metagenome using the same.
  • the analysis of the 16S-23S rRNA operon is simple, so that the analysis of the microbial community using a long-read sequence is performed. It can provide convenience and improve the accuracy of classification and identification of microorganisms at the species level.
  • 1A is a flowchart showing the overall process of building a database according to an embodiment of the present invention.
  • FIG. 1B shows the appearance of a stacked bar plot, which is an example of visualization that can be expressed by a pipeline according to an embodiment of the present invention.
  • FIG 2 shows the results of identification of microorganisms before and after the reference sequence is input to the database according to an embodiment of the present invention.
  • 3A shows false positive values appearing as a result of identifying microorganisms included in the MOCK1 community using the database and the rrn-DBv2 database according to an embodiment of the present invention.
  • 3B shows false-positive values appearing as a result of identifying microorganisms included in the MOCK2 community using the database and the rrn-DBv2 database according to an embodiment of the present invention.
  • FIG. 4A shows an alpha diversity value that appears as a result of identifying microorganisms included in the MOCK1 community using the database and the rrn-DBv2 database according to an embodiment of the present invention.
  • Figure 4b shows the alpha diversity values appearing as a result of identifying microorganisms included in the MOCK2 community using the database and the rrn-DBv2 database according to an embodiment of the present invention.
  • Figure 5a shows the relative abundance of microorganisms appearing as a result of identifying microorganisms included in the MOCK1 community using the database and the rrn-DBv2 database according to an embodiment of the present invention.
  • Figure 5b shows the relative content of microorganisms shown as a result of identifying microorganisms included in the MOCK2 community using the database and the rrn-DBv2 database according to an embodiment of the present invention.
  • a data acquisition step of generating initial data from genome information an amplicon generating step of generating amplicon product data using the initial data;
  • 16S-ITS-23S amplicon product was generated with 16S-27F primer and 23S-2241R primer using EMBOSS-primersearch. did. Filtering and curation were performed according to the following criteria and methods.
  • the size of the amplicon product should be between 3,500 and 7,000 bp;
  • GTDBtk (a software toolkit for assigning objective taxonomic classification to bacterial and archaeal genomes based on Genome Database Taxonomy GTDB) was performed to prevent taxonomy mis-assignment in the case of the product-made genome. Then, exclude genomes that have not been assigned or have not been assigned to the species-level;
  • (4) is (4-1) constructing a phylogenetic tree within the same family (phylogenetic tree construction), (4-2) checking the sequence generated due to mis assembly, etc. This was done by web-blasting.
  • the acquired genomic data may be, for example, the name of the microorganism Escherichia coli , but due to the nature of the public repository, its full genome sequence may be that of Lactobacillus casei , not Escherichia coli .
  • the obtained genomic data confirms taxa mis-assignment data or contaminated data, which is a problem in the public storage database, and then builds the database. Only valid data were left in the , and data with corrupted data or misclassified taxon were removed.
  • the microbial classification system was reassigned to GTDB-Tk. For reference, it is sufficient to perform GTDB-Tk at least once during the entire database construction process.
  • Reclassification was performed by removing unclassified or unclassified genomic data down to the species-level.
  • the operon sequences are deleted (deduplicated). In this case, either genome was removed (Sequence clustering).
  • the rrn operon copy number means the number of amplicon products generated from one microbial genome in Experimental Example 1-2.
  • the rrn operon copy number can correct the relative content data for each microbial species.
  • Calibration of the relative content data for each microbial species can be performed, for example, if the average rrn operon copy number is 7 for microorganism A and 3 for microorganism B, sequencing microorganism A and microorganism B in the sample to obtain reads, It means dividing by the number of copies of the rrn operon in each microorganism.
  • Pipeline a series of systems that pass data one after another, is implemented in Python, and minimap2-based read mapping is used.
  • Secondary alignment was removed to reduce false positives due to a high error rate. Reads have the potential to align with more than one genomic information on the rRNA operon database due to sequence homology. In this case, the secondary alignment removal was performed by deriving only the highest value as a result, without deriving a result having a low value based on the alignment score.
  • the alignment block length is 3,500 bp or more considering that the average length of the rRNA operon sequence is about 4,300 bp, and the number of residue matches is 2,500 bp or more considering that the read accuracy of the nanopore is 80 to 90%. was set to In the case of the alignment block length, if the alignment block is set at the level of 2,200 bp, the possibility of false positives may increase.
  • MIrROR is the name of a database constructed according to an embodiment of the present invention.
  • FIG. 1B An example of a stacked bar plot that can be represented by using Matplotlib in the visualization of the present invention is shown in FIG. 1B .
  • visualization using Krona can provide a Krona plot.
  • the table shows the misclassified taxa. 3 is shown.
  • MOCK swarm GTDB taxonomy (Read count) NCBI taxonomy Species taxied read count MOCK1_1 Escherichia flexneri (12,325) Escherichia coli 562 11,964 Salmonella sp. HNK130 2664291 123 Shigella sonnei 624 96 Shigella dysenteriae 622 55 Shigella boydii 621 35 Shigella flexneri 623 32 Escherichia sp.
  • R3 2082618 20 Bacillus marinus (5471) Bacillus intestinalis 1963032 3146 Bacillus subtilis 1423 2325 MOCK1_2 Escherichia flexneri (7918) Escherichia coli 562 7693 Salmonella sp. HNK130 2664291 79 Shigella sonnei 624 63 Shigella dysenteriae 622 39 Shigella flexneri 623 21 Shigella boydii 621 15 Escherichia sp.
  • R3 2082618 8 Bacillus marinus (5471) Bacillus intestinalis 1963032 2037 Bacillus subtilis 1423 1435 MOCK2_1 Escherichia flexneri (3341) Escherichia coli 562 3192 Salmonella sp. HNK130 2664291 70 Shigella dysenteriae 622 32 Shigella sonnei 624 16 Shigella flexneri 623 14 Shigella boydii 621 14 Shigella sp. SF-2015 1776082 2 Escherichia sp. R3 2082618 One MOCK2_2 Escherichia flexneri (4256) Escherichia coli 562 4039 Salmonella sp. HNK130 2664291 90 Shigella dysenteriae 622 42 Shigella sonnei 624 40 Shigella boydii 621 27 Shigella flexneri 623 15 Shigella sp. SF-2015 1776082 3
  • Table 5 shows the results of blasting the rRNA operon sequence extracted from the V. rogosae genome of the MOCK2 cluster into the database.
  • Query designation Query cover identity percentage (Percent identity) GTDB taxa (GTDB taxonomy) first operon (4207 bp) GCF_000183505.1 99 98.38 Veillonella rogosae GCF_002959775.1 99 98.42 Veillonella rogosae GCF_900637515.1 100 98.46 Veillonella dispar second operon (4737 bp) GCF_000183505.1 94 99.43 Veillonella rogosae GCF_002959775.1 94 99.43 Veillonella rogosae GCF_900637515.1 96 97.46 Veillonella dispar 3rd operon (4406bp) GCF_000183505.1 99 98.93 Veillonella rogosae GCF_002959775.1 99 98.39 Veillonella rogosae 4th operon (4268bp) GCF_000183505.1 96 98.76 Veillonella rogosae GCF_00
  • V. rogosae is classified as V. dispar is the sequence of the rRNA operon of V. rogosae and V. dispar . This is because the similarity is high.
  • the database of the present invention constructed using 97,781 operon sequences included in 9,485 species, was compared to rrn_DBv2 (Benitez-Paez, et al., Strand, the only previously reported conventional rRNA database). -wise and bait-assisted assembly of nearly-full rrn operons applied to assess species engraftment after faecal microbiota transplantation, 2020, bioRxiv). Comparative analyzes were performed on two bacterial populations.
  • the false positive probability was measured and shown in FIGS. 3A and 3B .
  • rrn_DBv2 is significantly different from the alpha diversity of the theoretical MOCK cluster, whereas the present invention has only a slight difference.
  • interpolated means interpolation, which is a method of estimating a value between two known data values, and extrapolated is a method of estimating a new value that has not yet been observed through an already observed value. means law.
  • MOCK1_1 is 2.35
  • MOCK1_2 is 2.31
  • MOCK2_1 is 1.91
  • MOCK2_2 is 2.10
  • MOCK1_1 is 25.10
  • MOCK1_2 is 25.10
  • MOCK2_1 is 32.
  • MOKC2_2 was 30.20.
  • the MIrROR of the present invention reduces the misclassification rate by -90.64% for MOCK1_1, -90.80% for MOCK1_2, -94.11% for MOCK2_1 and -93.05% for MOCK2_2, thereby reducing the overall microbial taxa misclassification rate compared to rrn_DBv2. It was confirmed that it was reduced to 1/10 level.
  • the L 2 distance for each type and genera of the MOCK1 and MOCK2 populations was calculated according to Equation 1 below.
  • estimated i means the relative content of the i-th microorganism obtained as a result of the analysis
  • expected i means the theoretical content (theoretical composition) for the MOCK1 and 2 clusters of the products shown in Table 2.
  • i denotes the i-th microorganism
  • n denotes the total number of microorganisms.
  • Tables 7 and 8 were used for expected i and estimated i .
  • rrn_DBv2 was found to have a higher L 2 distance compared to the embodiment, which is the database of the present invention, at both the species and genus level, which indicates that the MIrROR database, which is an embodiment of the present invention, is in the rrn-DBv2 database. In comparison, it means that the accuracy of identification of microorganisms by type and genus of the MOCK community is high.
  • the MIrROR database of the present invention has 97,781 operon sequences and can cover 9,485 species, whereas the rrn_DBv2 database has 22,580 operon sequences and can cover only 2,536 species. Therefore, the present invention not only covers about 3 times the species by including about 4 times more sequence, but also has better accuracy.
  • the present inventors have developed a database (MIrROR) for 16S-23S rRNA operon analysis, which will facilitate microbial community analysis using long-read sequences.
  • the present invention reclassifies the microbial classification system through microbial genome information including the rRNA operon sequence, extracts the rRNA operon sequence, and curates through sequence clustering, phylogenetic tree, etc.
  • rRNA operon database that can build a database It relates to a construction method, and a microbial metagenome analysis method capable of analyzing the microbial metagenome based on sequence alignment (mapping) using the same.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 rRNA 오페론 서열을 포함하는 미생물 유전체 (genome) 정보를 통해 미생물 분류 체계를 재분류하고 rRNA 오페론 서열을 추출한 후, 서열 군집화ㆍ계통수 등을 통해 큐레이션하여 데이터베이스를 구축할 수 있는 rRNA 오페론 데이터베이스 구축 방법, 및 이를 이용하여 서열 정렬 (맵핑) 기반으로 미생물 메타게놈을 분석할 수 있는 미생물 메타게놈 분석 방법에 관한 것으로, 본 발명을 이용하면 16S-23S rRNA 오페론 분석이 간편하여 롱-리드 시퀀스 (long-read sequence)를 이용한 미생물 군집 분석에 편의를 제공하고, 종 수준의 미생물의 분류 및 동정 정확도가 향상된다.

Description

rRNA 오페론 데이터베이스 구축 방법 및 이를 이용한 미생물 메타게놈 분석 방법
본 발명은 rRNA 오페론 서열을 포함하는 미생물 유전체 (genome) 정보를 통해 미생물 분류 체계를 재분류하고 rRNA 오페론 서열을 추출한 후, 서열 군집화ㆍ계통수 등을 통해 큐레이션하여 데이터베이스를 구축할 수 있는 rRNA 오페론 데이터베이스 구축 방법, 및 이를 이용하여 서열 정렬 (맵핑) 기반으로 미생물 메타게놈을 분석할 수 있는 미생물 메타게놈 분석 방법에 관한 것이다.
지난 20여년간 배지를 이용하지 않는 배양-비의존적 분자생물학적 기법들(culture-independent molecularbiology methods)이 많이 개발되었으며, 이 기술들은 미생물의 동정뿐만 아니라 다양한 환경에 서식하는 미생물의 다양성을 연구하는데 크게 기여하고 있다.
특히, 숏-리드 시퀀싱 (Short-read sequencing)은 효율적인 비용으로 정확하게 분석이 가능하여 다양한 분석 도구 및 파이프라인 (pipeline)에서 지원한다. 그러나 천연 핵산 중합체는 길이가 길기 때문에, 짧은 시퀀싱 단편을 이용하여 염기 서열을 분석하는 숏-리드 시퀀싱을 이용하면 원래의 핵산 중합체를 재구성하고 계수하는 작업이 어렵다. 이에, 롱-리드 시퀀싱 (Long-read sequencing)을 이용하면 드누보 어셈블리 (de novo assembly), 맵핑 정확성, 전사체 이소형 식별 및 구조적 변이의 감지를 향상시킬 수 있다. 천연 분자인 DNA 및 RNA의 롱-리드 시퀀싱은 염기 변형 (base modification)을 보존하면서 증폭 편향 (amplification bias)을 제거한다. 이러한 기능 때문에 정확성이 향상되고, 처리량과 비용이 지속적으로 절감하여 모델 유기체 및 비모델 유기체에 대한 유전체학의 광범위한 응용 분야를 위하여 롱-리드 시퀀싱이 연구되었다.
나노포어 시퀀싱 (Nanopore sequencing)과 같은 롱-리드 (long-read) 기반 3세대 시퀀싱의 발전은 고품질의 유전체 조립, 구조적 변이 (structure variation)와 RNA 이소형 (isoform) 발굴의 정확도 향상, 별도의 처리 없이 염기 변형 (base modification)을 확인할 수 있게 해주는 등 유전체나 전사체 스터디를 가리지 않고 다양한 분야에서 이용되고 있다.
나노포어 시퀀싱은 메타지노믹스 (Metagenomics)에서도 이용된다. 박테리아 (bacteria)의 메타-바코딩 (meta-barcoding) 분석에서 기존 숏-리드 기반 시퀀싱은 16S rRNA 중 변이 지역 (variable region) 일부 (주로 V3-V4 지역)에만 이용할 수 있으므로, 해상도 (resolution)가 낮아 종 (species)은 커녕 속 (genus) 수준도 명확하게 구별할 수 없다. 그러나, 롱-리드 기반 시퀀싱은 16S rRNA를 타겟으로 할 수 있으므로, 종을 넘어 심지어 균주 (strain)까지 명확하게 구별할 수 있을 정도로 분류 해상도 (taxonomic resolution)가 크게 향상되었다.
최근 이에 한 발 더 나아가, 약 4,300bp 가까이 되는 16S-ITS-23S rRNA 오페론을 확인하려는 시도가 있었고, 긴 절편 (fragment)은 상대적으로 높은 에러율(error rate)을 보상함으로써 성공적으로 종 수준의 분석이 가능하였다.
그러나, 16S rRNA 분석을 위한 SILVA 또는 qiime과 같은 참조 데이터베이스와 분석 파이프라인 등이 잘 정립된 것과 달리, rRNA 오페론의 분석을 위하여는 파이프라인은 커녕 제대로 큐레이션 (curation)된 rRNA 오페론 데이터베이스 조차 없어, 메타지노믹스에서 롱-리드 시퀀싱 (Long-read sequencing)의 무궁한 잠재력에 비해 연구를 하기 위한 자원이나 기반은 매우 부족하다.
이에, rRNA 오페론 데이터베이스 및 파이프라인의 구축이 시급한 실정이다.
본 발명자들은 군유전체학 (Metagenomics)에 있어서, 박테리아 16S-23S rRNA 오페론 (operon)을 이용한 데이터베이스를 구축하여 종 (species) 수준의 미생물 동정 및 분류가 가능한 플랫폼을 만들기 위해 노력하였다.
그 결과, rRNA 오페론 서열을 포함하는 미생물 유전체 정보를 가공하여 미생물 분류 체계 데이터를 생성함으로써, 데이터베이스를 구축하면 다양한 미생물을 분류 및 동정할 수 있고, 정확도 또한 향상됨을 확인하였다.
이에, 본 발명의 목적은 rRNA 오페론 데이터베이스 구축 방법을 제공하는 것이다.
본 발명의 다른 목적은 rRNA 오페론 데이터베이스 구축 방법을 실행시키기 위해 컴퓨터로 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램에 관한 것이다.
본 발명의 또 다른 목적은 컴퓨터로 구현되는 rRNA 오페론 데이터베이스 시스템에 관한 것이다.
본 발명의 또 다른 목적은 rRNA 오페론 데이터베이스를 이용한 미생물 동정 방법에 관한 것이다.
본 발명의 또 다른 목적은 미생물 동정 방법을 실행시키기 위해 컴퓨터로 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램에 관한 것이다.
본 발명의 또 다른 목적은 컴퓨터로 구현되는 미생물 동정 시스템에 관한 것이다.
본 발명은 rRNA 오페론 서열을 포함하는 미생물 유전체 정보로부터 유효 데이터만을 추출하고, 유효 데이터를 이용하여 미생물 분류 체계 데이터를 생성함으로써 데이터베이스를 구축하는 rRNA 오페론 데이터베이스 구축 방법, 및 이를 이용하여 서열 정렬 (맵핑, mapping) 기반으로 미생물 메타게놈을 분석할 수 있는 미생물 메타게놈을 분석하는 동정 방법에 관한 것이다.
이하 본 발명을 더욱 자세히 설명하고자 한다.
본 발명의 일 예는 다음의 단계를 포함하는 rRNA 오페론 데이터베이스 구축 방법에 관한 것이다:
유전체 (genome) 정보로부터 초기 데이터를 생성하는 데이터 획득 단계;
초기 데이터를 이용하여 앰플리콘 산물 (amplicon product) 데이터를 생성하는 앰플리콘 생성 단계;
앰플리콘 산물 데이터 중 모호한 염기서열 (ambiguous nucleotide)을 포함하는 앰플리콘 산물 데이터를 제거하여 유효 데이터를 생성하는 퀄리티 컨트롤 단계; 및
유효 데이터를 이용하여 분류 체계 데이터를 생성하는 데이터베이스 구축 단계;
를 포함하고,
상기 데이터 획득 단계 또는 상기 퀄리티 컨트롤 단계는 분류군 재분류를 추가로 수행하는 것인, rRNA 오페론 데이터베이스 구축 방법.
본 발명에 있어서 데이터 획득 단계는 유전체 (genome) 정보로부터 초기 데이터를 생성하는 것일 수 있다.
본 발명에 있어서 유전체 정보는 미생물 유전체 정보를 의미하는 것일 수 있다.
본 발명에 있어서 미생물은 장내 미생물, 박테리아 등과 같이 오페론 서열을 포함하는 원핵생물일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서 유전체 (genome) 정보는 미국 국립생물공학정보센터 (National Center for Biotechnology Information; NCBI)의 Genbank, 유럽 생물정보학 기관-유럽 핵산 기록보관소 (European Bioinformatics Institute-European Nucleotide Archive; EBI-ENA), 일본국립유전학연구소의 (National Institute of Genetics)의 일본 DNA 데이터 은행 (DNA Data Bank of Japan; DDBJ), 미국 에너지부 (U.S. Department of ENERGY; USDOE) 산하의 통합 미생물 유전체 & 메타게놈 (Integrated Microbial Genomes & Microbiomes; IMG/M) 및 Ensembl로 이루어진 군으로부터 선택되는 1종 이상의 데이터베이스로부터 획득하는 것일 수 있으며, 예를 들어, 미국 국립생물공학정보센터의 유전자 은행 (NCBI gene bank) 데이터베이스로부터 획득되는 것일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서 유전체 정보는 16S rRNA를 암호화하는 염기서열, 23S rRNA를 암호화하는 염기서열 및 16S-ITS-23S rRNA를 암호화하는 염기서열로 이루어진 군으로부터 선택되는 1종 이상의 정보를 포함하는 것일 수 있다.
16S rRNA는 원핵생물 리보솜의 30S 소단위체를 구성하고 있는 rRNA로, 약 1,500 뉴클레오타이드 정도의 길이를 갖는 것일 수 있다. 16S rRNA의 서열은 대부분 상당히 보존되어 있는 한편 일부 구간에서는 높은 염기서열 다양성이 나타난다. 특히 동종간에는 다양성이 거의 없는 반면에 타종간에는 다양성이 나타나므로 생물동정에 사용된다.
본 발명에 있어서 16S-ITS-23S rRNA는 16S rRNA를 암호화하는 염기서열, 내부전사스페이서 (Internal transcribed spacer; ITS), 및 23S rRNA를 암호화하는 염기서열을 포함하는 것일 수 있다.
16S rRNA를 암호화하는 염기서열, 23S rRNA를 암호화하는 염기서열 또는 16S-ITS-23S rRNA를 암호화하는 염기서열을 이용하면 서로 다른 미생물을 분류하거나 동정할 수 있다.
ITS는 미생물의 유전체상 16S rRNA 오페론과 23S rRNA 오페론 사이에 tRNA 등이 포함되는 내부전사스페이서 (Internal transcribed spacer; ITS)를 의미하는 것일 수 있다.
본 명세서에서, 용어 “오페론 (operon)”은 일반적으로 단백질을 암호화하는 일련의 유전자군 (염기서열)을 포함하는 DNA 단편을 의미하는 것일 수 있다.
본 발명에 있어서 초기 데이터는 미생물의 명칭, 전장 유전체 서열, 종명, 속명, 유전체 조립 수준 (assembly level) 및 유전체 등록번호 (accession number) 정보를 포함하는 것일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서 유전체 조립 수준은 초기 데이터로부터 앰플리콘 산물 데이터 또는 유효 데이터가 생성되지 않을 경우, 초기 데이터 자체에 문제 여부, 앰플리콘 산물로의 생성 방법에 문제 여부, 또는 유효 데이터로의 생성 방법에 문제 여부 등이 있는지 확인하기 위해 이용되는 것일 수 있다.
본 발명에 있어서 데이터 획득 단계는 분류군 재분류 (taxa-reassignment)를 추가로 수행할 수 있다.
본 발명에 있어서 분류군 재분류는 초기 데이터를 참조 유전체 분류 정보와 비교하여, 초기 데이터 중 분류군 오분류 데이터 (taxa mis-assignment)의 분류군을 재분류 (reassignment)하거나, 오염된 데이터 (contaminant)를 제거하는 것일 수 있다.
본 발명의 일 구체예에서, 참조 유전체 분류 정보는 예를 들어, 보존된 단백질 세트 (set of conserved proteins) 기반의 계통학적 접근 방식에 따라 제안된 원핵 생물 명명법 (nomenclature of prokaryotes)과 관련된 유전체 분류학 데이터베이스 (Genome Taxonomy Database; GTDB)일 수 있다.
본 발명에 있어서 분류군 오분류 데이터는 분류군이 지정되지 않은 미생물 데이터, 종 수준 (species-level)까지 분류되지 않은 미생물 데이터 또는 분류군이 잘못 지정된 미생물 데이터를 의미하는 것일 수 있다.
본 발명에 있어서 오염된 데이터는 하나의 미생물 데이터에 적어도 2 이상의 종으로부터 유래된 미생물 유전체 서열이 섞인 미생물 데이터를 의미하는 것일 수 있다.
분류군 오분류 (taxa mis-assignment) 또는 오염된 (contaminant) 데이터는 공공 저장 데이터베이스 (public repository)에 저장된 데이터가 가지는 일반적인 문제점으로서, 이를 제거하지 않고 이용할 경우, 데이터베이스 전체의 신뢰성을 감소시킬 수 있다.
본 발명에 있어서 분류군 재분류는 GTDB-Tk 또는 CheckM 소프트웨어를 이용하여 수행되는 것일 수 있으며, 예를 들어, GTDB-Tk 소프트웨어를 이용하여 수행되는 것일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서 앰플리콘 생성 단계는 초기 데이터를 이용하여 앰플리콘 산물 (amplicon product) 데이터를 생성하는 것일 수 있다.
본 발명에 있어서 앰플리콘 산물 데이터는 3,500 내지 7,000 bp 사이의 크기를 갖는 앰플리콘 산물의 염기서열 정보를 포함하는 것일 수 있다.
미생물 유전체는 하나 이상의 rRNA 오페론이 존재할 수 있고, 예를 들어, 2개의 오페론이 존재하는 경우, 일부 앰플리콘 산물은 첫 번째 오페론과 두 번째 오페론을 모두 포함할 수 있어, 미생물 분류 또는 동정 정확도를 떨어트릴 수 있다. 본 발명에서는 앰플리콘 산물의 크기를 한정함으로써 2종 이상의 오페론을 포함하는 앰플리콘 산물을 유효 데이터에서 제거할 수 있다.
본 발명에 있어서 앰플리콘 산물 데이터는 EMBOSS-primersearch 소프트웨어를 이용하여 생성되는 것일 수 있다.
본 발명에 있어서 앰플리콘 산물 데이터는 표 1에 나타낸 16S-27F 프라이머 및 23S-2241R 프라이머를 이용하여 생성되는 것일 수 있다.
본 발명에 있어서 퀄리티 컨트롤 단계는 앰플리콘 산물 데이터 중 모호한 염기서열 (ambiguous nucleotide)을 포함하는 앰플리콘 산물 데이터를 제거하여 유효 데이터를 생성하는 것일 수 있다.
본 명세서에서, 용어 “모호한 염기서열 (ambiguous nucleotide)”은 A, G, T 및 C를 제외한 기타 염기로 이루어진 염기서열을 의미하는 것일 수 있다.
본 발명에 있어서 데이터 획득 단계 또는 퀄리티 컨트롤 단계는 분류군 재분류를 추가로 수행할 수 있다.
본 발명의 일 구체예에서, 데이터 획득 단계가 분류군 재분류를 추가로 수행한 경우, 퀄리티 컨트롤 단계는 분류군 재분류를 추가로 수행하지 않을 수 있다.
본 발명의 일 구체예에서, 데이터 획득 단계가 분류군 재분류를 추가로 수행하지 않은 경우, 퀄리티 컨트롤 단계는 분류군 재분류를 추가로 수행할 수 있다.
본 발명에 있어서 데이터베이스 구축 단계는 서열 군집화 및 계통수 구축을 통해 유효 데이터로부터 분류 체계 데이터를 생성하는 것일 수 있다.
본 발명에 있어서 서열 군집화는 유효 데이터를 이용하여 서로 다른 미생물의 유전체 서열을 비교하여 유사도가 높은 오페론 서열을 1군으로 군집화하는 것일 수 있다.
본 발명에 있어서 서열 군집화는 Cd-hit-est 및 UCLUST로 이루어진 군으로부터 선택되는 1종을 이용하여 수행되는 것일 수 있으며, 예를 들어, Cd-hit-est를 이용하여 수행되는 것일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서 계통수 구축은 유효 데이터를 이용하여 서로 다른 미생물의 유전체 서열을 비교하여 동일한 과 (family) 내에 속하는 미생물의 계통수 (phylogenetic tree)를 구축하는 것일 수 있다.
본 발명에 있어서 계통수 구축은 IQ-tree 및 MEGA로 이루어진 군으로부터 선택되는 1종을 이용하여 수행되는 것일 수 있으며, 예를 들어, IQ-tree를 이용하여 수행되는 것일 수 있으나, 이에 한정되는 것은 아니다.
앰플리콘 조립 중에 데이터가 오염되었거나 기타 원인을 알 수 없는 이유로 인해, 서로 다른 종이면서도 오페론 서열이 비슷하거나 동일한 미생물은 다른 미생물 종의 군에 속하거나 계통수에 속할 수 있다. 서열 군집화 및 계통수 구축을 통해, 서로 다른 종이면서도 오페론 서열이 비슷하거나 동일한 어느 한 쪽의 미생물 유전체 정보를 제거할 수 있고, 이는 최종 데이터베이스에 포함되는 분류 체계 데이터의 신뢰도를 향상시킬 수 있다.
본 발명의 일 구체예에서, 분류 체계 데이터는 16S-ITS-23S rRNA 오페론 서열, 미생물 재분류 후 분류군, 미생물 재분류 전 분류군, 유전체의 조립 수준, 유전체의 rRNA 오페론 복제 수 및 프라이머 결합 지역 서열 정보를 포함하는 것일 수 있다.
본 발명의 일 구체예에서, 미생물 재분류 전과 후는 GTDB-Tk을 이용하여 분류군 재분류를 수행하기 전과 후를 의미하는 것일 수 있다.
본 발명에 있어서 데이터베이스 구축 단계는 필터링 단계를 추가로 포함할 수 있다.
본 발명에 있어서 필터링 단계는 블라스트 (Basic Local Alignment Search Tool; BLAST)를 이용하여 분류 체계 데이터 중 부정 조립 (mis assembly) 등으로 인해 잘못 만들어진 데이터를 제거하는 것일 수 있다.
본 발명의 다른 일 예는 다음의 단계를 포함하는, rRNA 오페론 데이터베이스 구축 방법을 실행시키기 위해 컴퓨터로 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램에 관한 것이다:
유전체 (genome) 정보로부터 초기 데이터를 생성하는 데이터 획득 단계;
초기 데이터를 이용하여 앰플리콘 산물 (amplicon product) 데이터를 생성하는 앰플리콘 생성 단계;
앰플리콘 산물 데이터 중 모호한 염기서열 (ambiguous nucleotide)을 포함하는 앰플리콘 산물 데이터를 제거하여 유효 데이터를 생성하는 퀄리티 컨트롤 단계; 및
유효 데이터를 이용하여 분류 체계 데이터를 생성하는 데이터베이스 구축 단계;
를 포함하고,
상기 데이터 획득 단계 또는 상기 퀄리티 컨트롤 단계는 분류군 재분류를 추가로 수행하는 것인, rRNA 오페론 데이터베이스 구축 방법을 실행시키기 위해 컴퓨터로 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램.
본 발명의 또 다른 일 예는 컴퓨터로 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하는 rRNA 오페론 데이터베이스 시스템에 있어서,
상기 적어도 하나의 프로세서는,
유전체 (genome) 정보로부터 초기 데이터를 생성하고;
초기 데이터로부터 앰플리콘 산물 데이터를 생성하고;
앰플리콘 산물 데이터 중 모호한 염기서열 (ambiguous nucleotide)을 포함하는 앰플리콘 산물 데이터를 제거하여 유효 데이터를 생성하고; 및
유효 데이터를 이용하여 분류 체계 데이터를 생성하며;
상기 초기 데이터를 생성한 후 또는 상기 유효 데이터를 생성한 후에 추가로 분류군 재분류를 수행하는 것인, rRNA 오페론 데이터베이스 시스템에 관한 것이다.
본 발명의 일 구현예에서, 컴퓨터 프로그램은 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로 (collectively) 처리 장치를 명령할 수 있다. 상기 컴퓨터 프로그램은, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소 (component), 물리적 장치, 가상장치 (virtual equipment), 컴퓨터 저장 매체 또는 장치에 영구적으로, 또는 일시적으로 구체화 (embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수 있다. 상기 컴퓨터 프로그램은 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
본 발명의 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 판독이 가능한 매체에 기록될 수 있다. 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magnetooptical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.
매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 당업자에게 공지되어 사용 가능한 것일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
본 발명의 또 다른 일 예는 다음의 단계를 포함하는 미생물 동정 방법에 관한 것이다:
시퀀싱 데이터 (sequencing data)를 입력받는 데이터 입력 단계; 및
시퀀싱 데이터를 분류 체계 데이터에 맵핑 (mapping)하는 리드 맵핑 단계.
본 발명에 있어서 데이터 입력 단계는 시퀀싱 데이터 (sequencing data)를 입력받는 것일 수 있다.
본 발명에 있어서 시퀀싱 데이터는 동정하려는 미생물의 시퀀싱 산물일 수 있다.
본 발명에 있어서 시퀀싱 데이터는 복수 개의 동정하려는 미생물에 대한 유전체의 시퀀싱 산물을 포함할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서 시퀀싱 데이터는 16S rRNA를 암호화하는 염기서열 정보, 23S rRNA를 암호화하는 염기서열 및 16S-ITS-23S rRNA를 암호화하는 염기서열로 이루어진 군으로부터 선택되는 1종 이상을 포함하는 것일 수 있다.
본 발명에 있어서 데이터 입력 단계는 시퀀싱 데이터를 rrn 오페론 카피 수 (rrn operon copy number)로 보정하는 보정 단계를 추가로 포함할 수 있다.
본 명세서에서 용어 “rrn 오페론 카피 수”는 하나의 미생물 유전체로부터 생성된 앰플리콘 산물 (amplicon product)의 개수를 의미할 수 있다.
본 발명의 일 구체예에서, 보정 단계는 하나의 미생물에 대한 시퀀싱 산물인 시퀀싱 데이터의 수를 해당 미생물의 rrn 오페론 카피 수로 나누는 것일 수 있다.
본 발명에 있어서 리드 맵핑 단계는 시퀀싱 데이터를 분류 체계 데이터에 리드 맵핑 (read mapping)하여 미생물을 동정 (identification)하는 것일 수 있다.
본 발명에 있어서 리드 맵핑 단계는 샘플에 포함되는 미생물의 염기서열 정보를 분류 체계 데이터에 포함되는 16S-23S rRNA 오페론 서열, 미생물 재분류 후 분류군, 미생물 재분류 전 분류군, 유전체의 조립 수준, 유전체의 rRNA 오페론 복제 수 및 프라이머 결합 지역 서열 정보와 비교하는 것일 수 있다.
본 발명에 있어서 리드 맵핑은 정렬 스코어 (Alignment score)를 기준으로 낮은 값을 갖는 것은 결과로 도출하지 않고, 가장 높은 값을 보이는 것만 결과로 도출함으로써 2차 정렬 (secondary alignment)을 제거하는 것일 수 있다.
본 명세서에서, 용어 '정렬 스코어 (Alignment score)'는 정렬된 미생물의 염기서열 쌍의 개별 염기에 일정한 값을 할당한 후, 정렬한 길이에 대해 일정한 값을 합산한 값을 의미할 수 있다.
본 명세서에서, 용어 '2차 정렬 (secondary alignment)'은 시퀀싱 데이터 (sequencing data)를 분류 체계 데이터에 맵핑하는 과정에서 시퀀싱 오류, 시퀀싱된 DNA와 참조 간의 불완전한 일치 등의 이유로 인하여 유효하게 서열이 정렬되지 않은 것을 의미할 수 있다.
본 발명에 있어서 분류 체계 데이터는 본 발명의 rRNA 오페론 데이터베이스 구축 방법에서 생성되는 것일 수 있다.
본 발명에 있어서 리드 맵핑 단계는 BLASR, Minimap2 및 NGMLR로 이루어진 군으로부터 선택되는 1종을 이용하여 수행되는 것일 수 있으며, 예를 들어, Minimap2를 이용하여 수행되는 것일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서 리드 맵핑 단계는 시각화 단계를 추가로 포함하는 것일 수 있다.
본 발명에 있어서 시각화 단계는 동정한 미생물 정보를 이용하여, Krona 소프트웨어로 계통수를 생성하거나, Matplotlib 소프트웨어로 미생물 종별 함량 그래프를 생성 또는 이들 모두를 생성하는 것일 수 있으나, 이에 한정되는 것은 아니다.
본 발명의 또 다른 일 예는 다음의 단계를 포함하고, 미생물 동정 방법을 실행시키기 위해 컴퓨터로 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램에 관한 것이다:
시퀀싱 데이터 (sequencing data)를 입력받는 데이터 입력 단계; 및
시퀀싱 데이터를 분류 체계 데이터에 리드 맵핑 (read mapping)하는 리드 맵핑 단계.
본 발명에 있어서 미생물 동정 방법을 실행시키기 위해 컴퓨터로 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램은 본 발명의 rRNA 오페론 데이터베이스 구축 방법을 통해 구축된 데이터베이스를 이용하는 것일 수 있다.
본 발명의 또 다른 일 예는 컴퓨터로 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하는 미생물 동정 시스템에 있어서,
상기 적어도 하나의 프로세서는,
시퀀싱 데이터 (sequencing data)를 입력받고; 및
시퀀싱 데이터를 분류 체계 데이터에 리드 맵핑 (read mapping)하는 것인, 미생물 동정 시스템.
본 발명에 있어서 미생물 동정 시스템은 본 발명의 rRNA 오페론 데이터베이스 구축 방법을 통해 구축된 데이터베이스를 이용하는 것일 수 있다.
본 발명은 rRNA 오페론 데이터베이스 구축 방법 및 이를 이용한 미생물 메타게놈 분석 방법에 관한 것으로, 본 발명을 이용하면 16S-23S rRNA 오페론 분석이 간편하여 롱-리드 시퀀스 (long-read sequence)를 이용한 미생물 군집 분석에 편의를 제공하고, 종 수준의 미생물의 분류 및 동정 정확도를 향상시킬 수 있다.
도 1a는 본 발명의 일 실시예에 따른 데이터베이스의 구축 과정을 전체적으로 나타낸 흐름도이다.
도 1b는 본 발명의 일 실시예에 따른 파이프라인이 표현할 수 있는 시각화 (visualization) 예시인 누적 바 플롯 (stacked bar plot)의 외관을 나타낸 것이다.
도 2는 본 발명의 일 실시예에 따른 데이터베이스에 참조 서열이 입력되기 전후의 미생물 동정 결과를 나타낸 것이다.
도 3a는 본 발명의 일 실시예에 따른 데이터베이스와 rrn-DBv2 데이터베이스를 이용하여 MOCK1 군집에 포함되는 미생물을 동정한 결과 나타나는 위양성 (false positive) 값을 나타낸 것이다.
도 3b는 본 발명의 일 실시예에 따른 데이터베이스와 rrn-DBv2 데이터베이스를 이용하여 MOCK2 군집에 포함되는 미생물을 동정한 결과 나타나는 위양성 값을 나타낸 것이다.
도 4a는 본 발명의 일 실시예에 따른 데이터베이스와 rrn-DBv2 데이터베이스를 이용하여 MOCK1 군집에 포함되는 미생물을 동정한 결과 나타나는 알파 다양성 (alpha diversity) 값을 나타낸 것이다.
도 4b는 본 발명의 일 실시예에 따른 데이터베이스와 rrn-DBv2 데이터베이스를 이용하여 MOCK2 군집에 포함되는 미생물을 동정한 결과 나타나는 알파 다양성 값을 나타낸 것이다.
도 5a는 본 발명의 일 실시예에 따른 데이터베이스와 rrn-DBv2 데이터베이스를 이용하여 MOCK1 군집에 포함되는 미생물을 동정한 결과 나타나는 미생물 상대 함량 (relative abundance)을 나타낸 것이다.
도 5b는 본 발명의 일 실시예에 따른 데이터베이스와 rrn-DBv2 데이터베이스를 이용하여 MOCK2 군집에 포함되는 미생물을 동정한 결과 나타나는 미생물 상대 함량을 나타낸 것이다.
유전체 (genome) 정보로부터 초기 데이터를 생성하는 데이터 획득 단계; 초기 데이터를 이용하여 앰플리콘 산물 (amplicon product) 데이터를 생성하는 앰플리콘 생성 단계; 앰플리콘 산물 데이터 중 모호한 염기서열 (ambiguous nucleotide)을 포함하는 앰플리콘 산물 데이터를 제거하여 유효 데이터를 생성하는 퀄리티 컨트롤 단계; 및 유효 데이터를 이용하여 분류 체계 데이터를 생성하는 데이터베이스 구축 단계;를 포함하고, 상기 데이터 획득 단계 또는 상기 퀄리티 컨트롤 단계는 분류군 재분류를 추가로 수행하는 것인, rRNA 오페론 데이터베이스 구축 방법.
이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 보다 구체적으로 설명하기 위한 것으로, 본 발명의 요지에 따라 본 발명의 범위가 이들 실시예에 의해 제한되지 않는다는 것은 당 업계에서 통상의 지식을 가진 자에 있어서 자명할 것이다.
실험예 1. 16S-23S rRNA 오페론 데이터베이스 구축
데이터베이스 구축 과정을 요약하면, NCBI로부터 박테리아 지놈 (bacterial genome)을 다운받은 후, EMBOSS-primersearch를 이용하여 16S-27F 프라이머 및 23S-2241R 프라이머로 16S-ITS-23S 앰플리콘 산물 (amplicon product)을 생성하였다. 필터링 (filtering) 및 큐레이션 (curation)은 다음의 기준 및 방법으로 수행되었다.
(1) 앰플리콘 산물 (amplicon product)의 사이즈는 3,500 내지 7,000 bp 사이일 것;
(2) A, T, G, C를 제외한 불분명한 뉴클레오티드 (ambiguous nucleotide)가 포함된 서열은 제거할 것;
(3) 산물이 만들어진 지놈의 경우 분류 오배정 (taxonomy mis-assignment)을 방지하기 위해 GTDBtk (Genome Database Taxonomy GTDB를 기반으로 세균 및 고세균 지놈에 객관적인 분류학적 분류를 할당하기 위한 소프트웨어 툴킷)를 수행한 후, 배정이 되지 않거나 종 수준 (species-level)까지 배정이 되지 않은 지놈을 제외할 것;
(4) 같은 종으로서 완전히 일치하는 오페론은 제거하고, 다른 종이지만, 오페론이 비슷하거나 같은 경우 한 쪽 지놈을 제거할 것.
여기서 (4)는 (4-1) 같은 과 (family) 내에서 계통수를 구축하고 (phylogenetic tree construction), (4-2) 부정 조립 (mis assembly) 등으로 인해 발생된 서열을 확인한 후, 웹-블라스트 (web-blast) 함으로써 수행되었다.
1-1. 미생물 유전체 데이터 획득
미국 국립생물공학정보센터 (National Center for Biotechnology Information; NCBI)의 Genbank로부터 이용할 수 있는 최대한 많은 종의 전장 유전체 서열 (full-length genome)과 이에 해당하는 미생물의 명칭, 종명, 속명, 유전체 조립 수준 (assembly level) 및 유전체 등록번호 (accession number)를 포함하는 시퀀싱 데이터 (sequencing data)를 획득하였다.
획득한 유전체 데이터는 예를 들어, 미생물의 명칭이 Escherichia coli일 수 있으나, 공공 저장 데이터베이스 (public repository)의 특성상 이의 전장 유전체 서열은 Escherichia coli의 것이 아닌 Lactobacillus casei의 것일 수 있다.
따라서, 아래와 같은 퀄리티 컨트롤 (quality control; QC)을 수행함으로써, 획득한 유전체 데이터에서 공공 저장 데이터베이스의 문제점인 분류군 오분류 (taxa mis-assignment) 데이터 또는 오염된 (contaminant) 데이터를 확인한 후, 데이터베이스 구축에 유효한 데이터만을 남기고, 데이터가 오염되거나 분류군이 잘못 분류된 데이터를 제거하였다.
1-2. rRNA 오페론 서열 추출
EMBOSS-primersearch와 표 1에 나타낸 16S-27F 프라이머 및 23S-2241R 프라이머를 이용하여, 퀄리티 컨트롤을 마친 유효 데이터로부터 16S-ITS-23S 앰플리콘 산물 (amplicon product)을 생성하였다.
서열번호 명명 서열목록 비고
1 16S-27F primer 5'-AGRGTTYGATYHTGGCTCAG-3'
2 23S-2241R primer 5'-ACCRCCCCAGTHAAACT-3'
16S-ITS-23S 앰플리콘 산물에서 3,500 내지 7,000 bp 사이의 크기를 갖는 앰플리콘 산물만을 남기고, 서열 내 A, G, T 및 C를 제외한 모호한 염기서열 (ambiguous nucleotide)이 포함되는지를 확인하여, 유효 데이터에서 모호한 염기서열을 포함하는 앰플리콘 산물을 모두 제거하였다.
이후 유효 데이터를 이용하여 GTDB-Tk로 미생물 분류 체계를 재분류 (reassignment)하였다. 참고로, GTDB-Tk는 데이터베이스의 전체 구축 과정에서 적어도 1회 이상 수행하면 충분하다.
재분류는 분류가 되지 않았거나 종 수준 (species-level)까지 분류가 되지 않은 지놈 데이터를 제거함으로써 수행되었다. 또한, Cd-hit-est 소프트웨어 툴을 이용하여, 서로 다른 지놈이 같은 종으로 분류되면서 오페론 서열이 완전히 일치하는 경우에는 그 오페론 서열은 제거하였고 (deduplicated), 다른 종이면서 오페론 서열이 비슷하거나 동일한 경우에는 어느 한 쪽의 지놈을 제거하였다 (Sequence clustering).
다음으로, IQ-tree를 이용하여 같은 과 (family) 내에서 속 (genus)과 종 (species)을 나타낸 계통수를 구축한 후 (phylogenetic tree construction), 블라스트 (Basic Local Alignment Search Tool; BLAST)를 수행하여 부정 조립 (mis assembly) 등으로 인해 만들어진 서열을 확인하였다. 최종적으로, 다른 종이면서 오페론 서열이 비슷하거나 동일한 경우에는 어느 한 쪽의 유전체를 제거함으로써 (filtering) 데이터베이스를 구축하였다.
실험예 2. 미생물 동정 및 분류를 위한 파이프라인 구축
2-1. rrn 오페론 카피 수 산출
실험예 1-2에서 재분류된 미생물 분류 체계를 기준으로 미생물 종별 평균 rrn 오페론 카피 수 (rrn operon copy number)를 산출하였다. rrn 오페론 카피 수는 실험예 1-2에서 하나의 미생물 유전체로부터 생성된 앰플리콘 산물 (amplicon product)의 개수를 의미한다. rrn 오페론 카피 수 (rrn operon copy number)는 미생물 종별 상대함량 데이터를 보정할 수 있다.
미생물 종별 상대함량 데이터의 보정은 예를 들어, 평균 rrn 오페론 카피 수가 미생물 A는 7이고, 미생물 B는 3인 경우, 시료 내에 미생물 A와 미생물 B를 시퀀싱하여 리드를 얻고, 각 리드를 그에 해당하는 각 미생물의 rrn 오페론 카피 수로 나누는 것을 의미한다.
2-2. 리드 맵핑 (Read mapping)
데이터를 차례대로 전달하는 일련의 시스템인 파이프라인 (Pipeline)은 파이썬 (python)으로 구현되어 있으며, minimap2 기반 리드 맵핑 (read mapping)을 사용하였다.
높은 에러율 (error rate)에 의한 위양성 (false positive)을 줄이기 위해 2차 정렬 (secondary alignment)을 제거하였다. 리드 (read)는 서열 상동성으로 인해 rRNA 오페론 데이터베이스상에서 두 군데 이상의 유전체 정보에 정렬될 가능성이 있다. 이 경우, 정렬 스코어 (Alignment score)를 기준으로 낮은 값을 갖는 것은 결과로 도출하지 않고, 가장 높은 값을 보이는 것만 결과로 도출함으로써 2차 정렬 제거를 수행하였다.
정렬 블록 길이는 (alignment block length) 3,500 bp인 것을, 그리고 잔기 매치 수 (number of residue matches)는 2,500 bp인 것의 정렬 (alignment)만 고려하였다. 정렬 블록 길이는 rRNA 오페론 서열의 평균 길이가 약 4,300bp 임을 고려하여 3,500bp 이상인 것으로, 잔기 매치 수는 나노포어 (nanopore)의 리드 (read) 정확도가 80 내지 90%를 나타내는 것을 고려하여 2,500bp 이상인 것으로 설정하였다. 정렬 블록 길이의 경우, 2,200bp 수준으로 정렬 블록을 설정하면 위양성 (false positive) 발생가능성이 높아질 수 있다.
본 발명의 일 실시예에 따른 데이터베이스의 전체 구축 과정은 도 1a에 나타내었다. MIrROR는 본 발명의 일 실시예에 따라 구축된 데이터베이스의 명칭이다.
2-3. 시각화 (Visualization)
파이프라인 수행 후 결과물인 각 샘플의 프로파일 (profile)은 Krona (생물 정보 시각화를 위한 메타 유전체 시각화 도구)를 이용하여 시각화하였다. 또한, 미생물 전체 군집은 Matplotlib (파이썬의 매트랩과 유사한 것으로서 그래프 표시를 가능하게 하는 라이브러리)을 이용하여 누적 플롯 (stacked plot)으로 나타내었다.
본 발명의 시각화 (visualization)에서 Matplotlib을 이용하면 나타낼 수 있는 누적 바 플롯 (stacked bar plot) 예시를 도 1b에 나타내었다. 여기서, Krona를 이용하여 시각화하면 크로나 플롯 (Krona plot)을 제공할 수 있다.
실험예 3. rRNA 데이터베이스인 rrn_DBv2와의 비교
3-1. 데이터베이스 비교 분석을 위한 준비
8개의 미생물 DNA가 포함된 MOCK1 (ZymoBIOMICS®)과 인간 장관 (human gut)을 모방하여 14개의 미생물 DNA가 포함된 MOCK2 (ZymoBIOMICS®)를 대상으로 비교를 수행하였다.
MOCK1 및 MOCK2 군집의 미생물 이론적 함량은 표 2에 나타내었다.
MOCK 군집 제품명 카탈로그 번호 이론적 함량
(16S-23S rRNA 오페론)
MOCK1 ZymoBIOMICS®
Microbial Community Standard
D6300 Bacillus subtilis 17.4
Enterococcus faecalis 9.9
Escherichia coli 10.1
Lactobacillus fermentum 18.4
Listeria monocytogenes 14.1
Pseudomonas aeruginosa 4.2
Salmonella enterica 10.4
Staphylococcus aureus 15.5
Cryptococcus neoformans Fungi
Saccharomyces cerevisiae Fungi
MOCK2 ZymoBIOMICS®
Gut Microbiome Standard
D6331 Akkermansia muciniphila 0.97
Bacteroides fragilis 9.94
Bifidobacterium adolescentis 8.78
Clostridioides difficile 2.62
Clostridium perfringens 0.0002
Enterococcus faecalis 0.0009
Escherichia coli 12.12
Faecalibacterium prausnitzii 17.63
Fusobacterium nucleatum 7.49
Lactobacillus fermentum 9.63
Prevotella corporis 4.98
Roseburia hominis 9.89
Salmonella enterica 0.009
Veillonella rogosae 15.87
Methanobrevibacter smithii Archaea
Candida albicans Fungi
Saccharomyces cerevisiae Fungi
3-2. 오분류된 분류군 (misclassified taxa)
롱-리드 시퀀싱 (Long-read sequencing)을 이용하여 얻은 MOCK1 및 MOCK2의 rrn 오페론 서열 정보로 MOCK1 및 MOCK2에 포함된 미생물 종을 분류 및 동정한 결과, 분류군이 오분류된 경우 (misclassified taxa)를 표 3에 나타내었다.
MOCK 군집 GTDB taxonomy
(Read count)
NCBI taxonomy Species taxid Read count
MOCK1_1 Escherichia flexneri
(12,325)
Escherichia coli 562 11,964
Salmonella sp. HNK130 2664291 123
Shigella sonnei 624 96
Shigella dysenteriae 622 55
Shigella boydii 621 35
Shigella flexneri 623 32
Escherichia sp. R3 2082618 20
Bacillus marinus
(5471)
Bacillus intestinalis 1963032 3146
Bacillus subtilis 1423 2325
MOCK1_2 Escherichia flexneri
(7918)
Escherichia coli 562 7693
Salmonella sp. HNK130 2664291 79
Shigella sonnei 624 63
Shigella dysenteriae 622 39
Shigella flexneri 623 21
Shigella boydii 621 15
Escherichia sp. R3 2082618 8
Bacillus marinus
(5471)
Bacillus intestinalis 1963032 2037
Bacillus subtilis 1423 1435
MOCK2_1 Escherichia flexneri
(3341)
Escherichia coli 562 3192
Salmonella sp. HNK130 2664291 70
Shigella dysenteriae 622 32
Shigella sonnei 624 16
Shigella flexneri 623 14
Shigella boydii 621 14
Shigella sp. SF-2015 1776082 2
Escherichia sp. R3 2082618 1
MOCK2_2 Escherichia flexneri
(4256)
Escherichia coli 562 4039
Salmonella sp. HNK130 2664291 90
Shigella dysenteriae 622 42
Shigella sonnei 624 40
Shigella boydii 621 27
Shigella flexneri 623 15
Shigella sp. SF-2015 1776082 3
표 3에서 확인할 수 있듯이, MOCK1에서 1%를 초과한 미생물 종은 총 8종으로, 이 중 6개인 Enterococcus faecalis, Lactobacillus fermentum, Listeria monocytogenes, Pseudomonas aeruginosa, Salmonella enterica 및 Staphylococcus aureus는 기대한대로 분류되었으나, 나머지 2종은 Escherichia coli 대신 Escherichia flexneri로, Bacillus subtilis 대신 Bacillus marinus로 오분류되었는데, 기존 NCBI taxonomy를 적용할 시에는 E. coli B. subtilis가 제대로 분류되었다.
MOCK2 샘플에서는 0.01% 이하로 포함된 3종을 제외한 총 11종 중에서 8종은 기대한대로 분류되었으나, MOCK1과 같이 E. coliE. flexneri로 검출되었고, Veillonella rogosaeVeillonella dispar로, Prevotella corporisPrevotella fucsa로 오분류되었다.
E. coli 오분류 원인은 MOCK1과 동일하게 GTDB에 의한 재분류 때문이었다.
P. corporis의 오분류 원인을 파악하기 위하여, NCBI 접근 번호 (NCBI accession number), 각 콘티그 (contig), rRNA 유전자 (gene) 및 위치 (position, 괄호 안은 가닥을 의미함)를 표 4에 나타내었다.
NCBI 문헌 번호 콘티그 rRNA 유전자 위치 (strand)
GCF_000430525.1 NZ_AUME01000079.1 5S rRNA 3028-3113(-)
NZ_AUME01000091.1 23S rRNA 1-1188 (-)
GCF_000613365.1 NZ_BAIT01000093.1 5S rRNA 49-157 (-)
NZ_BAIT01000093.1 23S rRNA 342-3234 (-)
NZ_BAIT01000116.1 16S rRNA 2-1250 (-)
GCF_001546595.1 NZ_KQ957193.1 23S rRNA 2-1476 (-)
NZ_KQ957224.1 16S rRNA 41-1182 (-)
NZ_KQ957299.1 16S rRNA 204-618 (+)
표 4에서 확인할 수 있듯이, P. corporis의 경우 (NCBI accession number: GCF_001546595.1), NCBI genbank에 단 3개의 유전체 밖에 없었으며 모두 스캐폴드 (scaffold)나 콘티그 (contig)일뿐, 16S rRNA와 23S rRNA가 하나의 콘티그에 존재하지 않고 떨어져 있었다. 이로 인해, P. corporisP. jejuniP. fusca 등으로 분류된 것으로 판단하였다. 그러나, 도 2에서 확인할 수 있듯이, P. corporis의 참조 rRNA 오페론 서열을 데이터베이스에 부가함으로써 오분류되지 않고 정확하게 P. corporis로 분류되게 할 수 있었다.
마지막으로, MOCK2 군집의 V. rogosae 유전체에서 추출한 rRNA operon 서열을 데이터베이스에 블라스트 (blast)한 결과를 표 5에 나타내었다.
쿼리 (Query) 명칭 쿼리 커버 (Query cover) 동일성 백분율
(Percent identity)
GTDB 분류군
(GTDB taxonomy)
첫 번째 오페론 (4207 bp) GCF_000183505.1 99 98.38 Veillonella rogosae
GCF_002959775.1 99 98.42 Veillonella rogosae
GCF_900637515.1 100 98.46 Veillonella dispar
두 번째 오페론 (4737 bp) GCF_000183505.1 94 99.43 Veillonella rogosae
GCF_002959775.1 94 99.43 Veillonella rogosae
GCF_900637515.1 96 97.46 Veillonella dispar
세 번째 오페론 (4406bp) GCF_000183505.1 99 98.93 Veillonella rogosae
GCF_002959775.1 99 98.39 Veillonella rogosae
네 번째 오페론 (4268bp) GCF_000183505.1 96 98.76 Veillonella rogosae
GCF_002959775.1 96 98.68 Veillonella rogosae
GCF_002005185.1 100 97.39 Veillonella parvula
표 5에서 확인할 수 있듯이, 리드 맵핑시 쿼리 커버 (query cover)와 정렬 스코어 (alignment score)는 정비례하므로 V. rogosaeV. dispar로 분류된 이유는 V. rogosaeV. dispar의 rRNA 오페론의 서열 상동성 (similarity)이 높기 때문이다.
3-3. 미생물 군집 분석의 정확도 비교 평가
43,653개의 유전체 (genome)로부터, 9,485개의 종에 포함되는 97,781개의 오페론 서열을 이용하여 구축된 본 발명의 데이터베이스를, 종래 유일하게 보고된 종래의 rRNA 데이터베이스인 rrn_DBv2 (Benitez-Paez, et al., Strand-wise and bait-assisted assembly of nearly-full rrn operons applied to assess species engraftment after faecal microbiota transplantation, 2020, bioRxiv)와 비교 분석하였다. 비교 분석은 2개의 박테리아 군집에 대하여 수행하였다.
위양성 (false positive) 확률을 측정하여, 도 3a 및 3b에 나타내었다.
도 3a 및 3b에서 확인할 수 있듯이, rrn_DBv2는 MOCK1 및 MOCK2 군집에 대하여, 미생물 종별 함량이 1% 보다 낮은 경우 위양성 (false positive)이 계속해서 증가한 반면, 본 발명은 일정 수준까지만 위양성이 증가하였다.
또한, 알파 다양성 (alpha diversity)을 측정하여, 도 4a 및 4b에 나타내었다.
도 4a 및 4b에서 확인할 수 있듯이, rrn_DBv2는 이론적 MOCK 군집의 알파 다양성과 크게 차이가 난 반면, 본 발명은 미세한 차이가 났을 뿐이다.
도 3a, 3b 및 도 4a, 4b에서 interpolated는 알려진 두 데이터 값 사이의 값을 추정하는 방식인 내삽법을 의미하고, extrapolated는 이미 관찰된 값을 통해 아직 관찰되지 않은 새로운 값을 추정하는 방식인 외삽법을 의미한다.
그리고, MOCK 1 및 2에 대하여 미생물 상대 함량을 2회 측정하여, 그 결과를 도 5a 및 5b에 나타내었고, 그 중 미생물 분류군의 오분류 비율을 의미하는 “Other”의 면적을 표 6에 나타내었다.
MIrROR rrn_DBv2
MOCK 1_1 2.35 25.10
MOCK 1_2 2.31 25.10
MOCK 2_1 1.91 32.42
MOCK 2_2 2.10 30.20
도 5a 및 5b, 표 6에서 확인할 수 있듯이, 본 발명의 MIrROR 데이터베이스는 MOCK1_1이 2.35, MOCK1_2가 2.31, MOCK2_1이 1.91 및 MOCK2_2가 2.10인 반면, rrn_DBv2 데이터베이스는 MOCK1_1이 25.10, MOCK1_2가 25.10, MOCK2_1이 32.42 및 MOKC2_2가 30.20이었다.
본 발명의 MIrROR는 rrn_DBv2에 비하여, 오분류 비율이 MOCK1_1의 경우 -90.64%, MOCK1_2의 경우 -90.80%, MOCK2_1의 경우 -94.11% 및 MOCK2_2의 경우 -93.05% 감소시켜, 전체적으로 미생물 분류군 오분류 비율을 1/10 수준으로 감소시켰음을 확인하였다.
다음으로, MOCK1 및 MOCK2 군집의 상대적 풍부도 (relative abundance) 측정값을 기대값과 비교하기 위하여, 하기 수학식 1에 따라 MOCK1 및 MOCK2 군집의 종별, 속별 L2 거리 (L2 distance)를 계산하였다.
Figure PCTKR2021004625-appb-M000001
여기서, estimatedi는 분석 결과로 얻은 i번째 미생물의 상대 함량을, expectedi는 표 2에 나타낸 제품의 MOCK1 및 2 군집에 대한 이론적 함량 (theoretical Compostition)을 의미한다. i는 i번째 미생물을, n은 미생물의 총 개수를 의미한다. expectedi 및 estimatedi는 표 7 및 8에 나타낸 값을 이용하였다.
Species Theoretical
Composition
MIrROR-MOCK1_1 MIrROR-MOCK1_2 rrn_DBv2-MOCK1_1 rrn_DBv2-MOCK1_2
1 Others 0 2.4 2.3 25.1 25.1
2 Bacillus subtilis 17.4 11.3 11.2 11.5 11.4
3 Enterococcus faecalis 9.9 2.4 2.8 2.2 2.6
4 Escherichia coli 10.1 25.8 25.8 23.0 22.9
5 Lactobacillus fermentum 18.4 12.8 13.2 8.0 8.3
6 Listeria monocytogenes 14.1 7.8 7.9 5.9 5.9
7 Pseudomonas aeruginosa 4.2 4.9 5.0 3.0 3.1
8 Salmonella enterica 10.4 10.0 10.1 2.1 2.1
9 Staphylococcus aureus 15.5 22.8 21.7 19.4 18.7
Species Theoretical
Composition
MIrROR-MOCK2_1 MIrROR-MOCK2_2 rrn_DBv2-MOCK2_1 rrn_DBv2-MOCK2_2
1 Others 0 1.9 2.1 32.4 30.2
2 Akkermansia muciniphila 0.97 0.7 0.7 0.7 0.7
3 Bacteroides fragilis 9.95 22.6 21.3 19.8 18.4
4 Bifidobacterium adolescentis 8.78 3.7 3.9 0.8 1.0
5 Clostridioides difficile 2.64 3.5 3.2 1.0 0.9
6 Clostridium perfringens 0.0002 0.0 0.0 0.0 0.0
7 Enterococcus faecalis 0.0009 0.0 0.0 0.2 0.2
8 Escherichia coli 12.14 20.4 21.8 17.7 19.0
9 Faecalibacterium prausnitzii 17.64 11.9 13.9 11.8 13.8
10 Fusobacterium nucleatum 7.49 4.9 5.0 2.3 2.2
11 Lactobacillus fermentum 9.63 5.7 6.0 3.6 3.7
12 Prevotella corporis 4.98 9.5 9.0 4.6 4.2
13 Roseburia hominis 9.89 2.4 2.4 0.9 1.0
14 Salmonella enterica 0.009 0.0 0.0 0.5 0.5
15 Veillonella rogosae 15.88 12.6 10.8 3.7 4.3
계산된 L2 거리를 표 9에 나타내었다.
Database MOCK1_1 MOCK1_2 MOCK2_1 MOCK2_2
MIrROR 0.2155 0.2140 0.2100 0.2080 0.1994 0.2040 0.1946 0.2003
rrn_DBv2 0.2356 0.2270 0.2319 0.2226 0.2416 0.2361 0.2292 0.2269
표 9에서 확인할 수 있듯이, rrn_DBv2는 종 및 속 수준에서 모두, 본 발명의 데이터베이스인 실시예에 비하여 더 높은 L2 distance를 갖는 것으로 나타났고, 이는 본 발명의 실시예인 MIrROR 데이터베이스가 rrn-DBv2 데이터베이스에 비하여 MOCK 군집의 종별, 속별 미생물 동정 정확도가 높음을 의미한다.
즉, 본 발명의 MIrROR 데이터베이스는 97,781개의 오페론 서열을 가지고 9,485개의 종을 커버할 수 있는 반면, rrn_DBv2 데이터베이스는 22,580개의 오페론 서열을 가지고 2,536개의 종을 커버할 수 있을 뿐이다. 따라서, 본 발명은 약 4배의 서열을 더 포함하여 약 3배의 종을 커버할 뿐만 아니라, 정확도 면에서도 더 우수하였다.
본 발명자들은 16S-23S rRNA operon 분석을 위한 데이터베이스 (MIrROR)를 개발하였으며, 이는 롱-리드 시퀀스 (long-read sequence)를 이용한 미생물 군집 분석을 촉진시켜줄 것이다.
본 발명은 rRNA 오페론 서열을 포함하는 미생물 유전체 (genome) 정보를 통해 미생물 분류 체계를 재분류하고 rRNA 오페론 서열을 추출한 후, 서열 군집화ㆍ계통수 등을 통해 큐레이션하여 데이터베이스를 구축할 수 있는 rRNA 오페론 데이터베이스 구축 방법, 및 이를 이용하여 서열 정렬 (맵핑) 기반으로 미생물 메타게놈을 분석할 수 있는 미생물 메타게놈 분석 방법에 관한 것이다.

Claims (15)

  1. 유전체 (genome) 정보로부터 초기 데이터를 생성하는 데이터 획득 단계;
    초기 데이터를 이용하여 앰플리콘 산물 (amplicon product) 데이터를 생성하는 앰플리콘 생성 단계;
    앰플리콘 산물 데이터 중 모호한 염기서열 (ambiguous nucleotide)을 포함하는 앰플리콘 산물 데이터를 제거하여 유효 데이터를 생성하는 퀄리티 컨트롤 단계; 및
    유효 데이터를 이용하여 분류 체계 데이터를 생성하는 데이터베이스 구축 단계;
    를 포함하고,
    상기 데이터 획득 단계 또는 상기 퀄리티 컨트롤 단계는 분류군 재분류를 추가로 수행하는 것인, rRNA 오페론 데이터베이스 구축 방법.
  2. 제1항에 있어서, 상기 유전체 정보는 미국 국립생물공학정보센터 (National Center for Biotechnology Information; NCBI)의 Genbank, 유럽 생물정보학 기관-유럽 핵산 기록보관소 (European Bioinformatics Institute-European Nucleotide Archive; EBI-ENA), 일본국립유전학연구소의 (National Institute of Genetics)의 일본 DNA 데이터 은행 (DNA Data Bank of Japan; DDBJ), 미국 에너지부 (U.S. Department of ENERGY; USDOE) 산하의 통합 미생물 유전체 & 메타게놈 (Integrated Microbial Genomes & Microbiomes; IMG/M) 및 Ensembl로 이루어진 군으로부터 선택되는 1종 이상의 데이터베이스로부터 획득하는 것인, rRNA 오페론 데이터베이스 구축 방법.
  3. 제1항에 있어서, 상기 유전체 정보는 16S rRNA를 암호화하는 염기서열 정보 및 23S rRNA를 암호화하는 염기서열로 이루어진 군으로부터 선택되는 1종 이상을 포함하는 것인, rRNA 오페론 데이터베이스 구축 방법.
  4. 제1항에 있어서, 상기 앰플리콘 산물은 EMBOSS-primersearch를 이용하여 생성되는 것인, rRNA 오페론 데이터베이스 구축 방법.
  5. 제1항에 있어서, 상기 앰플리콘 산물은 16S-27F 프라이머 및 23S-2241R 프라이머를 이용하여 생성되는 것인, rRNA 오페론 데이터베이스 구축 방법.
  6. 제1항에 있어서, 상기 데이터베이스 구축 단계는 서열 군집화 및 계통수 구축을 수행함으로써 분류 체계 데이터를 생성하는 것인, rRNA 오페론 데이터베이스 구축 방법.
  7. 제6항에 있어서, 상기 서열 군집화는 Cd-hit-est 또는 UCLUST를 이용하여 수행되는 것인, rRNA 오페론 데이터베이스 구축 방법.
  8. 제6항에 있어서, 상기 계통수 구축은 IQ-tree 또는 MEGA를 이용하여 수행되는 것인, rRNA 오페론 데이터베이스 구축 방법.
  9. 제1항에 있어서, 상기 데이터베이스 구축 단계는 필터링 단계를 추가로 포함하는 것인, rRNA 오페론 데이터베이스 구축 방법.
  10. 제1항에 있어서, 상기 분류군 재분류는 GTDB-Tk 또는 CheckM을 이용하여 수행되는 것인, rRNA 오페론 데이터베이스 구축 방법.
  11. 유전체 (genome) 정보로부터 초기 데이터를 생성하는 데이터 획득 단계;
    초기 데이터를 이용하여 앰플리콘 산물 (amplicon product) 데이터를 생성하는 앰플리콘 생성 단계;
    앰플리콘 산물 데이터 중 모호한 염기서열 (ambiguous nucleotide)을 포함하는 앰플리콘 산물 데이터를 제거하여 유효 데이터를 생성하는 퀄리티 컨트롤 단계; 및
    유효 데이터를 이용하여 분류 체계 데이터를 생성하는 데이터베이스 구축 단계;
    를 포함하고,
    상기 데이터 획득 단계 또는 상기 퀄리티 컨트롤 단계 이후에 분류군 재분류를 추가로 수행하는 것인, rRNA 오페론 데이터베이스 구축 방법을 실행시키기 위해 컴퓨터로 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램.
  12. 컴퓨터로 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하는 rRNA 오페론 데이터베이스 시스템에 있어서,
    상기 적어도 하나의 프로세서는,
    유전체 (genome) 정보로부터 초기 데이터를 생성하고;
    초기 데이터로부터 앰플리콘 산물 데이터를 생성하고;
    앰플리콘 산물 데이터 중 모호한 염기서열 (ambiguous nucleotide)을 포함하는 앰플리콘 산물 데이터를 제거하여 유효 데이터를 생성하고; 및
    유효 데이터를 이용하여 분류 체계 데이터를 생성하며;
    상기 초기 데이터를 생성한 후 또는 상기 유효 데이터를 생성한 후에 추가로 분류군 재분류를 수행하는 것인, rRNA 오페론 데이터베이스 시스템.
  13. 다음의 단계를 포함하는 미생물 동정 방법:
    시퀀싱 데이터 (sequencing data)를 입력받는 데이터 입력 단계; 및
    시퀀싱 데이터를 분류 체계 데이터에 맵핑 (mapping)하는 리드 맵핑 단계.
  14. 제13항에 있어서, 상기 데이터 입력 단계는 시퀀싱 데이터를 rrn 오페론 카피 수 (rrn operon copy number)로 보정하는 보정 단계를 추가로 포함하는 것인, 미생물 동정 방법.
  15. 제13항에 있어서, 상기 맵핑은 정렬 스코어 (Alignment score)를 기준으로 가장 높은 값을 보이는 유전체 데이터만 결과로 도출함으로써 2차 정렬 (secondary alignment)을 제거하는 것인, 미생물 동정 방법.
PCT/KR2021/004625 2021-03-18 2021-04-13 rRNA 오페론 데이터베이스 구축 방법 및 이를 이용한 미생물 메타게놈 분석 방법 WO2022196859A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0035182 2021-03-18
KR1020210035182A KR102624180B1 (ko) 2021-03-18 2021-03-18 rRNA 오페론 데이터베이스 구축 방법 및 이를 이용한 미생물 메타게놈 분석 방법

Publications (1)

Publication Number Publication Date
WO2022196859A1 true WO2022196859A1 (ko) 2022-09-22

Family

ID=83320567

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/004625 WO2022196859A1 (ko) 2021-03-18 2021-04-13 rRNA 오페론 데이터베이스 구축 방법 및 이를 이용한 미생물 메타게놈 분석 방법

Country Status (2)

Country Link
KR (1) KR102624180B1 (ko)
WO (1) WO2022196859A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240121511A (ko) 2023-02-02 2024-08-09 연세대학교 산학협력단 롱리드 시퀀싱을 이용한 장내 원핵 미생물의 메타게놈 분석 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101798229B1 (ko) * 2016-12-27 2017-12-12 주식회사 천랩 전장 리보솜 rna 서열정보를 얻는 방법 및 상기 리보솜 rna 서열정보를 이용하여 미생물을 동정하는 방법
US20210017582A1 (en) * 2019-07-19 2021-01-21 Safeguard Biosystems Holdings Ltd. Detection of genomic sequences and probe molecules therefor

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101798229B1 (ko) * 2016-12-27 2017-12-12 주식회사 천랩 전장 리보솜 rna 서열정보를 얻는 방법 및 상기 리보솜 rna 서열정보를 이용하여 미생물을 동정하는 방법
US20210017582A1 (en) * 2019-07-19 2021-01-21 Safeguard Biosystems Holdings Ltd. Detection of genomic sequences and probe molecules therefor

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ANONYMOUS: "MIrROR: Microbial Identification using rRNA Operon Region", MIRROR, 19 February 2021 (2021-02-19), XP055967379, Retrieved from the Internet <URL:https://github.com/seoldh/MIrROR> [retrieved on 20221003] *
DE OLIVEIRA MARTINS LEONARDO, PAGE ANDREW J, MATHER ALISON E, CHARLES IAN G: "Taxonomic resolution of the ribosomal RNA operon in bacteria: implications for its use with long-read sequencing", NAR GENOMICS AND BIOINFORMATICS, vol. 2, no. 1, 1 March 2020 (2020-03-01), pages 1, XP055967381, DOI: 10.1093/nargab/lqz016 *
MARTIJN JORAN, LIND ANDERS E., SCHÖN MAX E., SPIERTZ IAN, JUZOKAITE LINA, BUNIKIS IGNAS, PETTERSSON OLGA V., ETTEMA THIJS J. G.: "Confident phylogenetic identification of uncultured prokaryotes through long read amplicon sequencing of the 16S‐ITS‐23S rRNA operon", ENVIRONMENTAL MICROBIOLOGY, BLACKWELL SCIENCE, GB, vol. 21, no. 7, 1 July 2019 (2019-07-01), GB , pages 2485 - 2498, XP055967382, ISSN: 1462-2912, DOI: 10.1111/1462-2920.14636 *

Also Published As

Publication number Publication date
KR102624180B1 (ko) 2024-01-15
KR20220130379A (ko) 2022-09-27

Similar Documents

Publication Publication Date Title
Zhao et al. Construction of an interactive online phytoplasma classification tool, i PhyClassifier, and its application in analysis of the peach X-disease phytoplasma group (16SrIII)
Wei et al. Computer-simulated RFLP analysis of 16S rRNA genes: identification of ten new phytoplasma groups
Boxrud et al. Comparison of multiple-locus variable-number tandem repeat analysis, pulsed-field gel electrophoresis, and phage typing for subtype analysis of Salmonella enterica serotype Enteritidis
Wei et al. Automated RFLP pattern comparison and similarity coefficient calculation for rapid delineation of new and distinct phytoplasma 16Sr subgroup lineages
Paziewska et al. Recombination within and between species of the alpha proteobacterium Bartonella infecting rodents
Motin et al. Genetic variability of Yersinia pestis isolates as predicted by PCR-based IS 100 genotyping and analysis of structural genes encoding glycerol-3-phosphate dehydrogenase (glpD)
Saccardo et al. Genome drafts of four phytoplasma strains of the ribosomal group 16SrIII
Carpenter Towards simultaneous analysis of morphological and molecular data in Hymenoptera
Daubin et al. Bacterial genomes as new gene homes: the genealogy of ORFans in E. coli
WO2015183025A1 (ko) 표적 특이적 뉴클레아제를 이용한 표적 dna의 민감한 검출 방법
Brügger et al. Shuffling of Sulfolobus genomes by autonomous and non-autonomous mobile elements
WO2022196859A1 (ko) rRNA 오페론 데이터베이스 구축 방법 및 이를 이용한 미생물 메타게놈 분석 방법
EP3051450A1 (en) Method of typing nucleic acid or amino acid sequences based on sequence analysis
Choi et al. Population genomics of infectious and integrated Wolbachia pipientis genomes in Drosophila ananassae
Rahbari et al. Understanding the genomic structure of copy‐number variation of the low‐affinity Fcγ receptor region allows confirmation of the association of FCGR3B deletion with rheumatoid arthritis
WO2022097844A1 (ko) 유전자 복제수 변이 정보를 이용하여 췌장암 환자의 생존 예후를 예측하는 방법
WO2017094941A1 (ko) 핵산의 혼합물을 포함하는 샘플에서 복제수 변이를 결정하는 방법
Sharma et al. VirulentPred 2.0: an improved method for prediction of virulent proteins in bacterial pathogens
Franova et al. Multigene characterization of a new ‘Candidatus Phytoplasma rubi’-related strain associated with blackberry witches’ broom
Lynch et al. Campylobacter majalis sp. nov. and Campylobacter suis sp. nov., novel Campylobacter species isolated from porcine gastrointestinal mucosa
Rosa et al. Comparison of PCR-RFLP, API® 20 Strep and MALDI-TOF MS for identification of Streptococcus spp. collected from sheep and goat milk samples
Larhammar et al. Major genomic events and their consequences for vertebrate evolution and endocrinology
WO2023163458A1 (ko) Crispr-cas 기반의 살모넬라균 검출용 조성물 및 이를 이용한 살모넬라균 검출방법
WO2020050627A1 (ko) 시료 미생물의 동정 및 분류 방법
WO2018021636A1 (ko) 휴먼 하플로타이핑 시스템 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21931803

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21931803

Country of ref document: EP

Kind code of ref document: A1