KR20220130379A - METHOD FOR CONSTRUCTING rRNA OPERON DATABASE AND MICROBIAL METAGENOMIC ANALYSIS METHOD USING THEREOF - Google Patents

METHOD FOR CONSTRUCTING rRNA OPERON DATABASE AND MICROBIAL METAGENOMIC ANALYSIS METHOD USING THEREOF Download PDF

Info

Publication number
KR20220130379A
KR20220130379A KR1020210035182A KR20210035182A KR20220130379A KR 20220130379 A KR20220130379 A KR 20220130379A KR 1020210035182 A KR1020210035182 A KR 1020210035182A KR 20210035182 A KR20210035182 A KR 20210035182A KR 20220130379 A KR20220130379 A KR 20220130379A
Authority
KR
South Korea
Prior art keywords
data
database
rrna
generating
operon
Prior art date
Application number
KR1020210035182A
Other languages
Korean (ko)
Other versions
KR102624180B1 (en
Inventor
설동혁
조서애
Original Assignee
주식회사 이지놈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 이지놈 filed Critical 주식회사 이지놈
Priority to KR1020210035182A priority Critical patent/KR102624180B1/en
Priority to PCT/KR2021/004625 priority patent/WO2022196859A1/en
Publication of KR20220130379A publication Critical patent/KR20220130379A/en
Application granted granted Critical
Publication of KR102624180B1 publication Critical patent/KR102624180B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

The present invention relates to a method for constructing an rRNA operon database and a method for analyzing microbial metagenome using the same. The method for constructing an rRNA operon database reclassifies a microbial classification system through microbial genome information including an rRNA operon sequence; extracts the rRNA operon sequence; and constructs the database by curating the rRNA operon sequence through sequence clustering and phylogeny. The method for analyzing microbial metagenome analyzes the microbial metagenome based on sequence arrangement (mapping) using the method for constructing an rRNA operon database. The present invention provides convenience for microbial clustering analysis using a long-read sequence with convenient 16S-23S rRNA operon analysis, and improves classification and identification accuracy of species-level microorganisms.

Description

rRNA 오페론 데이터베이스 구축 방법 및 이를 이용한 미생물 메타게놈 분석 방법 {METHOD FOR CONSTRUCTING rRNA OPERON DATABASE AND MICROBIAL METAGENOMIC ANALYSIS METHOD USING THEREOF}rRNA operon database construction method and microbial metagenome analysis method using the same

본 발명은 rRNA 오페론 서열을 포함하는 미생물 유전체 (genome) 정보를 통해 미생물 분류 체계를 재분류하고 rRNA 오페론 서열을 추출한 후, 서열 군집화ㆍ계통수 등을 통해 큐레이션하여 데이터베이스를 구축할 수 있는 rRNA 오페론 데이터베이스 구축 방법, 및 이를 이용하여 서열 정렬 (맵핑) 기반으로 미생물 메타게놈을 분석할 수 있는 미생물 메타게놈 분석 방법에 관한 것이다.The present invention reclassifies the microbial classification system through microbial genome information including the rRNA operon sequence, extracts the rRNA operon sequence, and curates through sequence clustering, phylogenetic tree, etc. rRNA operon database that can build a database It relates to a construction method, and a microbial metagenome analysis method capable of analyzing the microbial metagenome based on sequence alignment (mapping) using the same.

지난 20여년간 배지를 이용하지 않는 배양-비의존적 분자생물학적 기법들(culture-independent molecularbiology methods)이 많이 개발되었으며, 이 기술들은 미생물의 동정뿐만 아니라 다양한 환경에 서식하는 미생물의 다양성을 연구하는데 크게 기여하고 있다.In the past 20 years, many culture-independent molecular biology methods that do not use a medium have been developed, and these technologies contribute greatly to the study of the diversity of microorganisms living in various environments as well as the identification of microorganisms. have.

특히, 숏-리드 시퀀싱 (Short-read sequencing)은 효율적인 비용으로 정확하게 분석이 가능하여 다양한 분석 도구 및 파이프라인 (pipeline)에서 지원한다. 그러나 천연 핵산 중합체는 길이가 길기 때문에, 짧은 시퀀싱 단편을 이용하여 염기 서열을 분석하는 숏-리드 시퀀싱을 이용하면 원래의 핵산 중합체를 재구성하고 계수하는 작업이 어렵다. 이에, 롱-리드 시퀀싱 (Long-read sequencing)을 이용하면 드누보 어셈블리 (de novo assembly), 맵핑 정확성, 전사체 이소형 식별 및 구조적 변이의 감지를 향상시킬 수 있다. 천연 분자인 DNA 및 RNA의 롱-리드 시퀀싱은 염기 변형 (base modification)을 보존하면서 증폭 편향 (amplification bias)을 제거한다. 이러한 기능 때문에 정확성이 향상되고, 처리량과 비용이 지속적으로 절감하여 모델 유기체 및 비모델 유기체에 대한 유전체학의 광범위한 응용 분야를 위하여 롱-리드 시퀀싱이 연구되었다.In particular, short-read sequencing is supported by various analysis tools and pipelines as it enables accurate and cost-effective analysis. However, since the natural nucleic acid polymer has a long length, it is difficult to reconstruct and enumerate the original nucleic acid polymer using short-read sequencing, which analyzes the nucleotide sequence using a short sequencing fragment. Thus, the use of long-read sequencing can improve de novo assembly, mapping accuracy, transcript isotype identification, and detection of structural variations. Long-read sequencing of natural molecules DNA and RNA eliminates amplification bias while preserving base modifications. Because of these features, long-read sequencing has been studied for a wide range of applications in genomics to model organisms and non-model organisms, with improved accuracy and continued savings in throughput and cost.

나노포어 시퀀싱 (Nanopore sequencing)과 같은 롱-리드 (long-read) 기반 3세대 시퀀싱의 발전은 고품질의 유전체 조립, 구조적 변이 (structure variation)와 RNA 이소형 (isoform) 발굴의 정확도 향상, 별도의 처리 없이 염기 변형 (base modification)을 확인할 수 있게 해주는 등 유전체나 전사체 스터디를 가리지 않고 다양한 분야에서 이용되고 있다.Advances in long-read-based third-generation sequencing, such as nanopore sequencing, have resulted in high-quality genome assembly, improved accuracy in the detection of structural variations and RNA isoforms, and separate processing. It is being used in a variety of fields regardless of genome or transcriptome studies, such as enabling the identification of base modifications without

나노포어 시퀀싱은 메타지노믹스 (Metagenomics)에서도 이용된다. 박테리아 (bacteria)의 메타-바코딩 (meta-barcoding) 분석에서 기존 숏-리드 기반 시퀀싱은 16S rRNA 중 변이 지역 (variable region) 일부 (주로 V3-V4 지역)에만 이용할 수 있으므로, 해상도 (resolution)가 낮아 종 (species)은 커녕 속 (genus) 수준도 명확하게 구별할 수 없다. 그러나, 롱-리드 기반 시퀀싱은 16S rRNA를 타겟으로 할 수 있으므로, 종을 넘어 심지어 균주 (strain)까지 명확하게 구별할 수 있을 정도로 분류 해상도 (taxonomic resolution)가 크게 향상되었다.Nanopore sequencing is also used in Metagenomics. In the meta-barcoding analysis of bacteria, the conventional short-read-based sequencing can be used only for a part of the variable region (mainly the V3-V4 region) among 16S rRNA, so the resolution is high. It is so low that it is not possible to clearly distinguish the level of the genus, let alone the species. However, since long-read-based sequencing can target 16S rRNA, taxonomic resolution is greatly improved to the extent that it can clearly distinguish even strains beyond species.

최근 이에 한 발 더 나아가, 약 4,300bp 가까이 되는 16S-ITS-23S rRNA 오페론을 확인하려는 시도가 있었고, 긴 절편 (fragment)은 상대적으로 높은 에러율(error rate)을 보상함으로써 성공적으로 종 수준의 분석이 가능하였다.Recently, an attempt has been made to go one step further and identify the 16S-ITS-23S rRNA operon, which is close to about 4,300 bp, and the long fragment compensates for the relatively high error rate, so that the species-level analysis is successfully performed. It was possible.

그러나, 16S rRNA 분석을 위한 SILVA 또는 qiime과 같은 참조 데이터베이스와 분석 파이프라인 등이 잘 정립된 것과 달리, rRNA 오페론의 분석을 위하여는 파이프라인은 커녕 제대로 큐레이션 (curation)된 rRNA 오페론 데이터베이스 조차 없어, 메타지노믹스에서 롱-리드 시퀀싱 (Long-read sequencing)의 무궁한 잠재력에 비해 연구를 하기 위한 자원이나 기반은 매우 부족하다.However, unlike the well-established reference databases and analysis pipelines such as SILVA or qiime for 16S rRNA analysis, for the analysis of rRNA operons, there is not even a properly curated rRNA operon database, let alone a pipeline. Compared to the limitless potential of long-read sequencing in metagenomics, there are very few resources or foundations for research.

이에, rRNA 오페론 데이터베이스 및 파이프라인의 구축이 시급한 실정이다.Accordingly, there is an urgent need to construct an rRNA operon database and pipeline.

본 발명자들은 군유전체학 (Metagenomics)에 있어서, 박테리아 16S-23S rRNA 오페론 (operon)을 이용한 데이터베이스를 구축하여 종 (species) 수준의 미생물 동정 및 분류가 가능한 플랫폼을 만들기 위해 노력하였다.In Metagenomics, the present inventors built a database using the bacterial 16S-23S rRNA operon to create a platform capable of identifying and classifying microorganisms at the species level.

그 결과, rRNA 오페론 서열을 포함하는 미생물 유전체 정보를 가공하여 미생물 분류 체계 데이터를 생성함으로써, 데이터베이스를 구축하면 다양한 미생물을 분류 및 동정할 수 있고, 정확도 또한 향상됨을 확인하였다.As a result, it was confirmed that by processing the microbial genome information including the rRNA operon sequence to generate microbial classification system data, it is possible to classify and identify various microorganisms and improve the accuracy by constructing a database.

이에, 본 발명의 목적은 rRNA 오페론 데이터베이스 구축 방법을 제공하는 것이다.Accordingly, it is an object of the present invention to provide a method for constructing an rRNA operon database.

본 발명의 다른 목적은 rRNA 오페론 데이터베이스 구축 방법을 실행시키기 위해 컴퓨터로 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램에 관한 것이다.Another object of the present invention relates to a computer program recorded in a computer-readable recording medium for executing a method of constructing an rRNA operon database.

본 발명의 또 다른 목적은 컴퓨터로 구현되는 rRNA 오페론 데이터베이스 시스템에 관한 것이다.Another object of the present invention relates to a computer-implemented rRNA operon database system.

본 발명의 또 다른 목적은 rRNA 오페론 데이터베이스를 이용한 미생물 동정 방법에 관한 것이다.Another object of the present invention relates to a method for identifying microorganisms using an rRNA operon database.

본 발명의 또 다른 목적은 미생물 동정 방법을 실행시키기 위해 컴퓨터로 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램에 관한 것이다.Another object of the present invention relates to a computer program recorded in a computer-readable recording medium for executing a microorganism identification method.

본 발명의 또 다른 목적은 컴퓨터로 구현되는 미생물 동정 시스템에 관한 것이다.Another object of the present invention relates to a computer-implemented microbial identification system.

본 발명은 rRNA 오페론 서열을 포함하는 미생물 유전체 정보로부터 유효 데이터만을 추출하고, 유효 데이터를 이용하여 미생물 분류 체계 데이터를 생성함으로써 데이터베이스를 구축하는 rRNA 오페론 데이터베이스 구축 방법, 및 이를 이용하여 서열 정렬 (맵핑, mapping) 기반으로 미생물 메타게놈을 분석할 수 있는 미생물 메타게놈을 분석하는 동정 방법에 관한 것이다.The present invention provides an rRNA operon database construction method for constructing a database by extracting only valid data from microbial genome information including an rRNA operon sequence, and generating microbial classification system data using the valid data, and sequence alignment (mapping, mapping) based on an identification method for analyzing the microbial metagenome that can analyze the microbial metagenome.

이하 본 발명을 더욱 자세히 설명하고자 한다.Hereinafter, the present invention will be described in more detail.

본 발명의 일 예는 다음의 단계를 포함하는 rRNA 오페론 데이터베이스 구축 방법에 관한 것이다:An example of the present invention relates to a method for constructing an rRNA operon database comprising the following steps:

유전체 (genome) 정보로부터 초기 데이터를 생성하는 데이터 획득 단계;a data acquisition step of generating initial data from genome information;

초기 데이터를 이용하여 앰플리콘 산물 (amplicon product) 데이터를 생성하는 앰플리콘 생성 단계;an amplicon generating step of generating amplicon product data using the initial data;

앰플리콘 산물 데이터 중 모호한 염기서열 (ambiguous nucleotide)을 포함하는 앰플리콘 산물 데이터를 제거하여 유효 데이터를 생성하는 퀄리티 컨트롤 단계; 및A quality control step of generating valid data by removing the amplicon product data including an ambiguous nucleotide among the amplicon product data; and

유효 데이터를 이용하여 분류 체계 데이터를 생성하는 데이터베이스 구축 단계;database construction step of generating classification system data using valid data;

를 포함하고, including,

상기 데이터 획득 단계 또는 상기 퀄리티 컨트롤 단계는 분류군 재분류를 추가로 수행하는 것인, rRNA 오페론 데이터베이스 구축 방법.The data acquisition step or the quality control step is to further perform taxon reclassification, rRNA operon database construction method.

본 발명에 있어서 데이터 획득 단계는 유전체 (genome) 정보로부터 초기 데이터를 생성하는 것일 수 있다.In the present invention, the data acquisition step may be to generate initial data from genome information.

본 발명에 있어서 유전체 정보는 미생물 유전체 정보를 의미하는 것일 수 있다.In the present invention, genomic information may mean microbial genome information.

본 발명에 있어서 미생물은 장내 미생물, 박테리아 등과 같이 오페론 서열을 포함하는 원핵생물일 수 있으나, 이에 한정되는 것은 아니다.In the present invention, the microorganism may be a prokaryote including an operon sequence, such as an intestinal microorganism or bacteria, but is not limited thereto.

본 발명에 있어서 유전체 (genome) 정보는 미국 국립생물공학정보센터 (National Center for Biotechnology Information; NCBI)의 Genbank, 유럽 생물정보학 기관-유럽 핵산 기록보관소 (European Bioinformatics Institute-European Nucleotide Archive; EBI-ENA), 일본국립유전학연구소의 (National Institute of Genetics)의 일본 DNA 데이터 은행 (DNA Data Bank of Japan; DDBJ), 미국 에너지부 (U.S. Department of ENERGY; USDOE) 산하의 통합 미생물 유전체 & 메타게놈 (Integrated Microbial Genomes & Microbiomes; IMG/M) 및 Ensembl로 이루어진 군으로부터 선택되는 1종 이상의 데이터베이스로부터 획득하는 것일 수 있으며, 예를 들어, 미국 국립생물공학정보센터의 유전자 은행 (NCBI gene bank) 데이터베이스로부터 획득되는 것일 수 있으나, 이에 한정되는 것은 아니다.In the present invention, the genome (genome) information is the US National Center for Biotechnology Information (NCBI) Genbank, European Bioinformatics Institute-European Nucleotide Archive (European Bioinformatics Institute-European Nucleotide Archive; EBI-ENA) , National Institute of Genetics, Japan DNA Data Bank of Japan (DDBJ), U.S. Department of ENERGY (USDOE) Integrated Microbial Genomes (Integrated Microbial Genomes) &Microbiomes; IMG/M) and may be obtained from one or more databases selected from the group consisting of Ensembl, for example, may be obtained from the NCBI gene bank database of the US National Center for Biotechnology Information. However, the present invention is not limited thereto.

본 발명에 있어서 유전체 정보는 16S rRNA를 암호화하는 염기서열, 23S rRNA를 암호화하는 염기서열 및 16S-ITS-23S rRNA를 암호화하는 염기서열로 이루어진 군으로부터 선택되는 1종 이상의 정보를 포함하는 것일 수 있다.In the present invention, the genomic information may include one or more pieces of information selected from the group consisting of a nucleotide sequence encoding 16S rRNA, a nucleotide sequence encoding 23S rRNA, and a nucleotide sequence encoding 16S-ITS-23S rRNA. .

16S rRNA는 원핵생물 리보솜의 30S 소단위체를 구성하고 있는 rRNA로, 약 1,500 뉴클레오타이드 정도의 길이를 갖는 것일 수 있다. 16S rRNA의 서열은 대부분 상당히 보존되어 있는 한편 일부 구간에서는 높은 염기서열 다양성이 나타난다. 특히 동종간에는 다양성이 거의 없는 반면에 타종간에는 다양성이 나타나므로 생물동정에 사용된다.16S rRNA is an rRNA constituting the 30S subunit of the prokaryotic ribosome, and may have a length of about 1,500 nucleotides. Most of the sequences of 16S rRNA are highly conserved, while high sequence diversity appears in some sections. In particular, it is used for bioidentification because there is little diversity between species, while diversity appears between other species.

본 발명에 있어서 16S-ITS-23S rRNA는 16S rRNA를 암호화하는 염기서열, 내부전사스페이서 (Internal transcribed spacer; ITS), 및 23S rRNA를 암호화하는 염기서열을 포함하는 것일 수 있다.In the present invention, 16S-ITS-23S rRNA may include a nucleotide sequence encoding 16S rRNA, an internal transcribed spacer (ITS), and a nucleotide sequence encoding 23S rRNA.

16S rRNA를 암호화하는 염기서열, 23S rRNA를 암호화하는 염기서열 또는 16S-ITS-23S rRNA를 암호화하는 염기서열을 이용하면 서로 다른 미생물을 분류하거나 동정할 수 있다.Different microorganisms can be classified or identified by using the nucleotide sequence encoding 16S rRNA, the nucleotide sequence encoding 23S rRNA, or the nucleotide sequence encoding 16S-ITS-23S rRNA.

ITS는 미생물의 유전체상 16S rRNA 오페론과 23S rRNA 오페론 사이에 tRNA 등이 포함되는 내부전사스페이서 (Internal transcribed spacer; ITS)를 의미하는 것일 수 있다.ITS may refer to an internal transcribed spacer (ITS) including tRNA between the 16S rRNA operon and the 23S rRNA operon on the genome of a microorganism.

본 명세서에서, 용어 “오페론 (operon)”은 일반적으로 단백질을 암호화하는 일련의 유전자군 (염기서열)을 포함하는 DNA 단편을 의미하는 것일 수 있다.As used herein, the term “operon” may refer to a DNA fragment including a series of gene groups (nucleotide sequences) that generally encode proteins.

본 발명에 있어서 초기 데이터는 미생물의 명칭, 전장 유전체 서열, 종명, 속명, 유전체 조립 수준 (assembly level) 및 유전체 등록번호 (accession number) 정보를 포함하는 것일 수 있으나, 이에 한정되는 것은 아니다.In the present invention, the initial data may include the name of the microorganism, the full-length genome sequence, the species name, the genus name, the genome assembly level, and the genome accession number information, but is not limited thereto.

본 발명에 있어서 유전체 조립 수준은 초기 데이터로부터 앰플리콘 산물 데이터 또는 유효 데이터가 생성되지 않을 경우, 초기 데이터 자체에 문제 여부, 앰플리콘 산물로의 생성 방법에 문제 여부, 또는 유효 데이터로의 생성 방법에 문제 여부 등이 있는지 확인하기 위해 이용되는 것일 수 있다.In the present invention, when amplicon product data or valid data is not generated from the initial data, the level of genome assembly in the present invention depends on whether there is a problem with the initial data itself, whether there is a problem with the method of generating the amplicon product, or the method of generating valid data. It may be used to check whether there is a problem or the like.

본 발명에 있어서 데이터 획득 단계는 분류군 재분류 (taxa-reassignment)를 추가로 수행할 수 있다.In the present invention, in the data acquisition step, taxa-reassignment may be additionally performed.

본 발명에 있어서 분류군 재분류는 초기 데이터를 참조 유전체 분류 정보와 비교하여, 초기 데이터 중 분류군 오분류 데이터 (taxa mis-assignment)의 분류군을 재분류 (reassignment)하거나, 오염된 데이터 (contaminant)를 제거하는 것일 수 있다.In the present invention, taxa reclassification compares initial data with reference genome classification information, reassignment of taxa mis-assignment among initial data, or removes contaminated data (contaminant). may be doing

본 발명의 일 구체예에서, 참조 유전체 분류 정보는 예를 들어, 보존된 단백질 세트 (set of conserved proteins) 기반의 계통학적 접근 방식에 따라 제안된 원핵 생물 명명법 (nomenclature of prokaryotes)과 관련된 유전체 분류학 데이터베이스 (Genome Taxonomy Database; GTDB)일 수 있다.In one embodiment of the present invention, the reference genome classification information is, for example, a genomic taxonomy database related to a nomenclature of prokaryotes proposed according to a phylogenetic approach based on a set of conserved proteins. (Genome Taxonomy Database; GTDB).

본 발명에 있어서 분류군 오분류 데이터는 분류군이 지정되지 않은 미생물 데이터, 종 수준 (species-level)까지 분류되지 않은 미생물 데이터 또는 분류군이 잘못 지정된 미생물 데이터를 의미하는 것일 수 있다.In the present invention, the taxon misclassification data may mean microbial data to which a taxon is not designated, microbial data not classified up to a species-level, or microbial data in which a taxon is incorrectly designated.

본 발명에 있어서 오염된 데이터는 하나의 미생물 데이터에 적어도 2 이상의 종으로부터 유래된 미생물 유전체 서열이 섞인 미생물 데이터를 의미하는 것일 수 있다.In the present invention, contaminated data may refer to microbial data in which microbial genome sequences derived from at least two or more species are mixed with one microbial data.

분류군 오분류 (taxa mis-assignment) 또는 오염된 (contaminant) 데이터는 공공 저장 데이터베이스 (public repository)에 저장된 데이터가 가지는 일반적인 문제점으로서, 이를 제거하지 않고 이용할 경우, 데이터베이스 전체의 신뢰성을 감소시킬 수 있다.Taxa mis-assignment or contaminated data is a common problem with data stored in public repository, and if it is used without removing it, the reliability of the entire database may be reduced.

본 발명에 있어서 분류군 재분류는 GTDB-Tk 또는 CheckM 소프트웨어를 이용하여 수행되는 것일 수 있으며, 예를 들어, GTDB-Tk 소프트웨어를 이용하여 수행되는 것일 수 있으나, 이에 한정되는 것은 아니다.In the present invention, taxa reclassification may be performed using GTDB-Tk or CheckM software, for example, may be performed using GTDB-Tk software, but is not limited thereto.

본 발명에 있어서 앰플리콘 생성 단계는 초기 데이터를 이용하여 앰플리콘 산물 (amplicon product) 데이터를 생성하는 것일 수 있다.In the present invention, the amplicon generating step may be to generate amplicon product data using initial data.

본 발명에 있어서 앰플리콘 산물 데이터는 3,500 내지 7,000 bp 사이의 크기를 갖는 앰플리콘 산물의 염기서열 정보를 포함하는 것일 수 있다.In the present invention, the amplicon product data may include nucleotide sequence information of the amplicon product having a size between 3,500 and 7,000 bp.

미생물 유전체는 하나 이상의 rRNA 오페론이 존재할 수 있고, 예를 들어, 2개의 오페론이 존재하는 경우, 일부 앰플리콘 산물은 첫 번째 오페론과 두 번째 오페론을 모두 포함할 수 있어, 미생물 분류 또는 동정 정확도를 떨어트릴 수 있다. 본 발명에서는 앰플리콘 산물의 크기를 한정함으로써 2종 이상의 오페론을 포함하는 앰플리콘 산물을 유효 데이터에서 제거할 수 있다.A microbial genome may have more than one rRNA operon, and for example, if two operons are present, some amplicon products may include both the first operon and the second operon, thereby reducing the accuracy of microbial classification or identification. can trill In the present invention, by limiting the size of the amplicon product, the amplicon product including two or more operons can be removed from valid data.

본 발명에 있어서 앰플리콘 산물 데이터는 EMBOSS-primersearch 소프트웨어를 이용하여 생성되는 것일 수 있다.In the present invention, the amplicon product data may be generated using EMBOSS-primersearch software.

본 발명에 있어서 앰플리콘 산물 데이터는 표 1에 나타낸 16S-27F 프라이머 및 23S-2241R 프라이머를 이용하여 생성되는 것일 수 있다.In the present invention, the amplicon product data may be generated using the 16S-27F primer and the 23S-2241R primer shown in Table 1.

본 발명에 있어서 퀄리티 컨트롤 단계는 앰플리콘 산물 데이터 중 모호한 염기서열 (ambiguous nucleotide)을 포함하는 앰플리콘 산물 데이터를 제거하여 유효 데이터를 생성하는 것일 수 있다.In the present invention, the quality control step may be to generate valid data by removing the amplicon product data including an ambiguous nucleotide among the amplicon product data.

본 명세서에서, 용어 “모호한 염기서열 (ambiguous nucleotide)”은 A, G, T 및 C를 제외한 기타 염기로 이루어진 염기서열을 의미하는 것일 수 있다.As used herein, the term “ambiguous nucleotide” may mean a nucleotide sequence consisting of other bases except for A, G, T and C.

본 발명에 있어서 데이터 획득 단계 또는 퀄리티 컨트롤 단계는 분류군 재분류를 추가로 수행할 수 있다.In the present invention, the data acquisition step or the quality control step may additionally perform taxon reclassification.

본 발명의 일 구체예에서, 데이터 획득 단계가 분류군 재분류를 추가로 수행한 경우, 퀄리티 컨트롤 단계는 분류군 재분류를 추가로 수행하지 않을 수 있다.In one embodiment of the present invention, when the data acquisition step additionally performs taxon reclassification, the quality control step may not additionally perform taxon reclassification.

본 발명의 일 구체예에서, 데이터 획득 단계가 분류군 재분류를 추가로 수행하지 않은 경우, 퀄리티 컨트롤 단계는 분류군 재분류를 추가로 수행할 수 있다.In one embodiment of the present invention, when the data acquisition step does not additionally perform taxon reclassification, the quality control step may additionally perform taxon reclassification.

본 발명에 있어서 데이터베이스 구축 단계는 서열 군집화 및 계통수 구축을 통해 유효 데이터로부터 분류 체계 데이터를 생성하는 것일 수 있다.In the present invention, the database construction step may be to generate classification system data from valid data through sequence clustering and phylogenetic tree construction.

본 발명에 있어서 서열 군집화는 유효 데이터를 이용하여 서로 다른 미생물의 유전체 서열을 비교하여 유사도가 높은 오페론 서열을 1군으로 군집화하는 것일 수 있다.In the present invention, sequence clustering may be to cluster operon sequences with high similarity into one group by comparing genome sequences of different microorganisms using valid data.

본 발명에 있어서 서열 군집화는 Cd-hit-est 및 UCLUST로 이루어진 군으로부터 선택되는 1종을 이용하여 수행되는 것일 수 있으며, 예를 들어, Cd-hit-est를 이용하여 수행되는 것일 수 있으나, 이에 한정되는 것은 아니다.In the present invention, sequence clustering may be performed using one selected from the group consisting of Cd-hit-est and UCLUST, for example, it may be performed using Cd-hit-est, but this It is not limited.

본 발명에 있어서 계통수 구축은 유효 데이터를 이용하여 서로 다른 미생물의 유전체 서열을 비교하여 동일한 과 (family) 내에 속하는 미생물의 계통수 (phylogenetic tree)를 구축하는 것일 수 있다.In the present invention, the construction of a phylogenetic tree may be to construct a phylogenetic tree of microorganisms belonging to the same family by comparing the genome sequences of different microorganisms using valid data.

본 발명에 있어서 계통수 구축은 IQ-tree 및 MEGA로 이루어진 군으로부터 선택되는 1종을 이용하여 수행되는 것일 수 있으며, 예를 들어, IQ-tree를 이용하여 수행되는 것일 수 있으나, 이에 한정되는 것은 아니다.In the present invention, phylogenetic tree construction may be performed using one selected from the group consisting of IQ-tree and MEGA, for example, may be performed using IQ-tree, but is not limited thereto .

앰플리콘 조립 중에 데이터가 오염되었거나 기타 원인을 알 수 없는 이유로 인해, 서로 다른 종이면서도 오페론 서열이 비슷하거나 동일한 미생물은 다른 미생물 종의 군에 속하거나 계통수에 속할 수 있다. 서열 군집화 및 계통수 구축을 통해, 서로 다른 종이면서도 오페론 서열이 비슷하거나 동일한 어느 한 쪽의 미생물 유전체 정보를 제거할 수 있고, 이는 최종 데이터베이스에 포함되는 분류 체계 데이터의 신뢰도를 향상시킬 수 있다.Due to data contamination during amplicon assembly or other unknown reasons, microorganisms of different species with similar or identical operon sequences may belong to different microbial species groups or phylogenetic trees. Through sequence clustering and phylogenetic tree construction, it is possible to remove microbial genome information of different species but with similar or identical operon sequences, which can improve the reliability of taxonomy data included in the final database.

본 발명의 일 구체예에서, 분류 체계 데이터는 16S-ITS-23S rRNA 오페론 서열, 미생물 재분류 후 분류군, 미생물 재분류 전 분류군, 유전체의 조립 수준, 유전체의 rRNA 오페론 복제 수 및 프라이머 결합 지역 서열 정보를 포함하는 것일 수 있다.In one embodiment of the present invention, the taxonomy data includes 16S-ITS-23S rRNA operon sequence, taxa after microbial reclassification, taxa before microbial reclassification, assembly level of genome, rRNA operon copy number of genome and primer binding region sequence information may include.

본 발명의 일 구체예에서, 미생물 재분류 전과 후는 GTDB-Tk을 이용하여 분류군 재분류를 수행하기 전과 후를 의미하는 것일 수 있다.In one embodiment of the present invention, before and after microbial reclassification may mean before and after performing taxa reclassification using GTDB-Tk.

본 발명에 있어서 데이터베이스 구축 단계는 필터링 단계를 추가로 포함할 수 있다.In the present invention, the database building step may further include a filtering step.

본 발명에 있어서 필터링 단계는 블라스트 (Basic Local Alignment Search Tool; BLAST)를 이용하여 분류 체계 데이터 중 부정 조립 (mis assembly) 등으로 인해 잘못 만들어진 데이터를 제거하는 것일 수 있다.In the present invention, the filtering step may be to remove erroneous data due to misassembly of the classification system data using a blast (Basic Local Alignment Search Tool; BLAST).

본 발명의 다른 일 예는 다음의 단계를 포함하는, rRNA 오페론 데이터베이스 구축 방법을 실행시키기 위해 컴퓨터로 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램에 관한 것이다:Another example of the present invention relates to a computer program recorded in a computer-readable recording medium for executing a method for constructing an rRNA operon database, comprising the following steps:

유전체 (genome) 정보로부터 초기 데이터를 생성하는 데이터 획득 단계;a data acquisition step of generating initial data from genome information;

초기 데이터를 이용하여 앰플리콘 산물 (amplicon product) 데이터를 생성하는 앰플리콘 생성 단계;an amplicon generating step of generating amplicon product data using the initial data;

앰플리콘 산물 데이터 중 모호한 염기서열 (ambiguous nucleotide)을 포함하는 앰플리콘 산물 데이터를 제거하여 유효 데이터를 생성하는 퀄리티 컨트롤 단계; 및A quality control step of generating valid data by removing the amplicon product data including an ambiguous nucleotide among the amplicon product data; and

유효 데이터를 이용하여 분류 체계 데이터를 생성하는 데이터베이스 구축 단계;database construction step of generating classification system data using valid data;

를 포함하고,including,

상기 데이터 획득 단계 또는 상기 퀄리티 컨트롤 단계는 분류군 재분류를 추가로 수행하는 것인, rRNA 오페론 데이터베이스 구축 방법을 실행시키기 위해 컴퓨터로 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램.The data acquisition step or the quality control step is a computer program recorded on a computer-readable recording medium for executing the method of constructing an rRNA operon database, which is to further perform taxa reclassification.

본 발명의 또 다른 일 예는 컴퓨터로 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하는 rRNA 오페론 데이터베이스 시스템에 있어서,Another embodiment of the present invention is an rRNA operon database system comprising at least one processor implemented to execute computer-readable instructions,

상기 적어도 하나의 프로세서는,the at least one processor,

유전체 (genome) 정보로부터 초기 데이터를 생성하고;generating initial data from genome information;

초기 데이터로부터 앰플리콘 산물 데이터를 생성하고;generate amplicon product data from the initial data;

앰플리콘 산물 데이터 중 모호한 염기서열 (ambiguous nucleotide)을 포함하는 앰플리콘 산물 데이터를 제거하여 유효 데이터를 생성하고; 및generating valid data by removing the amplicon product data including an ambiguous nucleotide among the amplicon product data; and

유효 데이터를 이용하여 분류 체계 데이터를 생성하며;generate taxonomy data using the valid data;

상기 초기 데이터를 생성한 후 또는 상기 유효 데이터를 생성한 후에 추가로 분류군 재분류를 수행하는 것인, rRNA 오페론 데이터베이스 시스템에 관한 것이다.It relates to an rRNA operon database system, which further performs taxa reclassification after generating the initial data or after generating the valid data.

본 발명의 일 구현예에서, 컴퓨터 프로그램은 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로 (collectively) 처리 장치를 명령할 수 있다. 상기 컴퓨터 프로그램은, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소 (component), 물리적 장치, 가상장치 (virtual equipment), 컴퓨터 저장 매체 또는 장치에 영구적으로, 또는 일시적으로 구체화 (embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수 있다. 상기 컴퓨터 프로그램은 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다. In one embodiment of the present invention, a computer program may configure the processing device to operate as desired or, independently or collectively, instruct the processing device. The computer program is permanently stored in any kind of machine, component, physical device, virtual equipment, computer storage medium or device for interpretation by or providing instructions or data to the processing device. , or temporarily embody. The software may be distributed over networked computer systems and stored or executed in a distributed manner. The computer program may be stored in one or more computer-readable recording media.

본 발명의 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 판독이 가능한 매체에 기록될 수 있다. 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magnetooptical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.The method of the present invention may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium. The medium may continuously store a computer executable program, or may be a temporary storage for execution or download. In addition, the medium may be various recording means or storage means in the form of a single or several hardware combined, it is not limited to a medium directly connected to any computer system, and may exist distributed on a network. Examples of the medium include hard disks, magnetic media such as floppy disks and magnetic tapes, optical recording media such as CD-ROMs and DVDs, magneto-optical media such as floppy disks, and ROMs. , RAM, flash memory, and the like may be configured to store program instructions. In addition, examples of other media may include recording media or storage media managed by an app store that distributes applications, sites that supply or distribute other various software, and servers.

매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 당업자에게 공지되어 사용 가능한 것일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.The program instructions recorded on the medium may be specially designed and configured for the embodiment, or may be known and available to those skilled in the art. Examples of program instructions include not only machine language codes such as those generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.

본 발명의 또 다른 일 예는 다음의 단계를 포함하는 미생물 동정 방법에 관한 것이다:Another embodiment of the present invention relates to a method for identifying microorganisms comprising the steps of:

시퀀싱 데이터 (sequencing data)를 입력받는 데이터 입력 단계; 및a data input step of receiving sequencing data; and

시퀀싱 데이터를 분류 체계 데이터에 맵핑 (mapping)하는 리드 맵핑 단계.A read mapping step of mapping sequencing data to taxonomy data.

본 발명에 있어서 데이터 입력 단계는 시퀀싱 데이터 (sequencing data)를 입력받는 것일 수 있다.In the present invention, the data input step may be to receive sequencing data.

본 발명에 있어서 시퀀싱 데이터는 동정하려는 미생물의 시퀀싱 산물일 수 있다.In the present invention, sequencing data may be a sequencing product of a microorganism to be identified.

본 발명에 있어서 시퀀싱 데이터는 복수 개의 동정하려는 미생물에 대한 유전체의 시퀀싱 산물을 포함할 수 있으나, 이에 한정되는 것은 아니다.In the present invention, sequencing data may include, but is not limited to, genome sequencing products for a plurality of microorganisms to be identified.

본 발명에 있어서 시퀀싱 데이터는 16S rRNA를 암호화하는 염기서열 정보, 23S rRNA를 암호화하는 염기서열 및 16S-ITS-23S rRNA를 암호화하는 염기서열로 이루어진 군으로부터 선택되는 1종 이상을 포함하는 것일 수 있다.In the present invention, the sequencing data may include one or more selected from the group consisting of nucleotide sequence information encoding 16S rRNA, nucleotide sequence encoding 23S rRNA, and nucleotide sequence encoding 16S-ITS-23S rRNA. .

본 발명에 있어서 데이터 입력 단계는 시퀀싱 데이터를 rrn 오페론 카피 수 (rrn operon copy number)로 보정하는 보정 단계를 추가로 포함할 수 있다.In the present invention, the data input step may further include a calibration step of correcting the sequencing data to the rrn operon copy number (rrn operon copy number).

본 명세서에서 용어 “rrn 오페론 카피 수”는 하나의 미생물 유전체로부터 생성된 앰플리콘 산물 (amplicon product)의 개수를 의미할 수 있다.As used herein, the term “rrn operon copy number” may refer to the number of amplicon products generated from one microbial genome.

본 발명의 일 구체예에서, 보정 단계는 하나의 미생물에 대한 시퀀싱 산물인 시퀀싱 데이터의 수를 해당 미생물의 rrn 오페론 카피 수로 나누는 것일 수 있다.In one embodiment of the present invention, the correction step may be dividing the number of sequencing data, which is a sequencing product for one microorganism, by the number of copies of the rrn operon of the microorganism.

본 발명에 있어서 리드 맵핑 단계는 시퀀싱 데이터를 분류 체계 데이터에 리드 맵핑 (read mapping)하여 미생물을 동정 (identification)하는 것일 수 있다.In the present invention, the read mapping step may be to identify the microorganism by read mapping the sequencing data to the classification system data.

본 발명에 있어서 리드 맵핑 단계는 샘플에 포함되는 미생물의 염기서열 정보를 분류 체계 데이터에 포함되는 16S-23S rRNA 오페론 서열, 미생물 재분류 후 분류군, 미생물 재분류 전 분류군, 유전체의 조립 수준, 유전체의 rRNA 오페론 복제 수 및 프라이머 결합 지역 서열 정보와 비교하는 것일 수 있다.In the present invention, the read mapping step includes the 16S-23S rRNA operon sequence included in the classification system data for the nucleotide sequence information of the microorganisms included in the sample, the taxon after reclassification of microorganisms, the taxon before reclassification of microorganisms, the assembly level of the genome, the level of the genome It may be to compare the rRNA operon copy number and primer binding region sequence information.

본 발명에 있어서 리드 맵핑은 정렬 스코어 (Alignment score)를 기준으로 낮은 값을 갖는 것은 결과로 도출하지 않고, 가장 높은 값을 보이는 것만 결과로 도출함으로써 2차 정렬 (secondary alignment)을 제거하는 것일 수 있다.In the present invention, lead mapping does not derive a result that has a low value based on the alignment score, but removes the secondary alignment by deriving only the highest value as a result. .

본 명세서에서, 용어 '정렬 스코어 (Alignment score)'는 정렬된 미생물의 염기서열 쌍의 개별 염기에 일정한 값을 할당한 후, 정렬한 길이에 대해 일정한 값을 합산한 값을 의미할 수 있다.In the present specification, the term 'alignment score' may refer to a value obtained by adding a constant value to an aligned length after allocating a predetermined value to individual bases of a base sequence pair of an aligned microorganism.

본 명세서에서, 용어 '2차 정렬 (secondary alignment)'은 시퀀싱 데이터 (sequencing data)를 분류 체계 데이터에 맵핑하는 과정에서 시퀀싱 오류, 시퀀싱된 DNA와 참조 간의 불완전한 일치 등의 이유로 인하여 유효하게 서열이 정렬되지 않은 것을 의미할 수 있다.As used herein, the term 'secondary alignment' refers to a sequence in which a sequence is effectively aligned due to a sequencing error in the process of mapping sequencing data to taxonomy data, incomplete match between sequenced DNA and a reference, etc. It may mean not

본 발명에 있어서 분류 체계 데이터는 본 발명의 rRNA 오페론 데이터베이스 구축 방법에서 생성되는 것일 수 있다.In the present invention, the classification system data may be generated in the rRNA operon database construction method of the present invention.

본 발명에 있어서 리드 맵핑 단계는 BLASR, Minimap2 및 NGMLR로 이루어진 군으로부터 선택되는 1종을 이용하여 수행되는 것일 수 있으며, 예를 들어, Minimap2를 이용하여 수행되는 것일 수 있으나, 이에 한정되는 것은 아니다.In the present invention, the read mapping step may be performed using one selected from the group consisting of BLASR, Minimap2 and NGMLR, for example, may be performed using Minimap2, but is not limited thereto.

본 발명에 있어서 리드 맵핑 단계는 시각화 단계를 추가로 포함하는 것일 수 있다.In the present invention, the lead mapping step may further include a visualization step.

본 발명에 있어서 시각화 단계는 동정한 미생물 정보를 이용하여, Krona 소프트웨어로 계통수를 생성하거나, Matplotlib 소프트웨어로 미생물 종별 함량 그래프를 생성 또는 이들 모두를 생성하는 것일 수 있으나, 이에 한정되는 것은 아니다.In the present invention, the visualization step may be to generate a phylogenetic tree with Krona software, generate a microbial species content graph with Matplotlib software, or both, using the identified microorganism information, but is not limited thereto.

본 발명의 또 다른 일 예는 다음의 단계를 포함하고, 미생물 동정 방법을 실행시키기 위해 컴퓨터로 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램에 관한 것이다:Another example of the present invention relates to a computer program recorded on a computer-readable recording medium for executing a method for identifying microorganisms, including the following steps:

시퀀싱 데이터 (sequencing data)를 입력받는 데이터 입력 단계; 및a data input step of receiving sequencing data; and

시퀀싱 데이터를 분류 체계 데이터에 리드 맵핑 (read mapping)하는 리드 맵핑 단계.A read mapping step of read mapping of sequencing data to taxonomy data.

본 발명에 있어서 미생물 동정 방법을 실행시키기 위해 컴퓨터로 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램은 본 발명의 rRNA 오페론 데이터베이스 구축 방법을 통해 구축된 데이터베이스를 이용하는 것일 수 있다.The computer program recorded in the computer-readable recording medium to execute the microorganism identification method in the present invention may use the database constructed through the rRNA operon database construction method of the present invention.

본 발명의 또 다른 일 예는 컴퓨터로 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하는 미생물 동정 시스템에 있어서,Another example of the present invention is a microorganism identification system comprising at least one processor implemented to execute computer-readable instructions,

상기 적어도 하나의 프로세서는,the at least one processor,

시퀀싱 데이터 (sequencing data)를 입력받고; 및receiving sequencing data; and

시퀀싱 데이터를 분류 체계 데이터에 리드 맵핑 (read mapping)하는 것인, 미생물 동정 시스템.A microbial identification system, comprising read mapping of sequencing data to taxonomy data.

본 발명에 있어서 미생물 동정 시스템은 본 발명의 rRNA 오페론 데이터베이스 구축 방법을 통해 구축된 데이터베이스를 이용하는 것일 수 있다.In the present invention, the microbial identification system may use a database constructed through the rRNA operon database construction method of the present invention.

본 발명은 rRNA 오페론 데이터베이스 구축 방법 및 이를 이용한 미생물 메타게놈 분석 방법에 관한 것으로, 본 발명을 이용하면 16S-23S rRNA 오페론 분석이 간편하여 롱-리드 시퀀스 (long-read sequence)를 이용한 미생물 군집 분석에 편의를 제공하고, 종 수준의 미생물의 분류 및 동정 정확도를 향상시킬 수 있다.The present invention relates to a method for constructing an rRNA operon database and a method for analyzing the microbial metagenome using the same. Using the present invention, the analysis of the 16S-23S rRNA operon is simple, so that the analysis of the microbial community using a long-read sequence is performed. It can provide convenience and improve the accuracy of classification and identification of microorganisms at the species level.

도 1a는 본 발명의 일 실시예에 따른 데이터베이스의 구축 과정을 전체적으로 나타낸 흐름도이다.
도 1b는 본 발명의 일 실시예에 따른 파이프라인이 표현할 수 있는 시각화 (visualization) 예시인 누적 바 플롯 (stacked bar plot)의 외관을 나타낸 것이다.
도 2는 본 발명의 일 실시예에 따른 데이터베이스에 참조 서열이 입력되기 전후의 미생물 동정 결과를 나타낸 것이다.
도 3a는 본 발명의 일 실시예에 따른 데이터베이스와 rrn-DBv2 데이터베이스를 이용하여 MOCK1 군집에 포함되는 미생물을 동정한 결과 나타나는 위양성 (false positive) 값을 나타낸 것이다.
도 3b는 본 발명의 일 실시예에 따른 데이터베이스와 rrn-DBv2 데이터베이스를 이용하여 MOCK2 군집에 포함되는 미생물을 동정한 결과 나타나는 위양성 값을 나타낸 것이다.
도 4a는 본 발명의 일 실시예에 따른 데이터베이스와 rrn-DBv2 데이터베이스를 이용하여 MOCK1 군집에 포함되는 미생물을 동정한 결과 나타나는 알파 다양성 (alpha diversity) 값을 나타낸 것이다.
도 4b는 본 발명의 일 실시예에 따른 데이터베이스와 rrn-DBv2 데이터베이스를 이용하여 MOCK2 군집에 포함되는 미생물을 동정한 결과 나타나는 알파 다양성 값을 나타낸 것이다.
도 5a는 본 발명의 일 실시예에 따른 데이터베이스와 rrn-DBv2 데이터베이스를 이용하여 MOCK1 군집에 포함되는 미생물을 동정한 결과 나타나는 미생물 상대 함량 (relative abundance)을 나타낸 것이다.
도 5b는 본 발명의 일 실시예에 따른 데이터베이스와 rrn-DBv2 데이터베이스를 이용하여 MOCK2 군집에 포함되는 미생물을 동정한 결과 나타나는 미생물 상대 함량을 나타낸 것이다.
1A is a flowchart illustrating an overall process of constructing a database according to an embodiment of the present invention.
1B shows the appearance of a stacked bar plot, which is an example of visualization that can be expressed by a pipeline according to an embodiment of the present invention.
2 shows the results of identification of microorganisms before and after the reference sequence is input to the database according to an embodiment of the present invention.
3A shows false positive values appearing as a result of identifying microorganisms included in the MOCK1 community using the database and the rrn-DBv2 database according to an embodiment of the present invention.
3B shows false-positive values appearing as a result of identifying microorganisms included in the MOCK2 community using the database and the rrn-DBv2 database according to an embodiment of the present invention.
4A shows an alpha diversity value that appears as a result of identifying microorganisms included in the MOCK1 community using the database and the rrn-DBv2 database according to an embodiment of the present invention.
Figure 4b shows the alpha diversity values appearing as a result of identifying microorganisms included in the MOCK2 community using the database and the rrn-DBv2 database according to an embodiment of the present invention.
Figure 5a shows the relative abundance of microorganisms appearing as a result of identifying microorganisms included in the MOCK1 community using the database and the rrn-DBv2 database according to an embodiment of the present invention.
Figure 5b shows the relative content of microorganisms shown as a result of identifying microorganisms included in the MOCK2 community using the database and the rrn-DBv2 database according to an embodiment of the present invention.

이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 보다 구체적으로 설명하기 위한 것으로, 본 발명의 요지에 따라 본 발명의 범위가 이들 실시예에 의해 제한되지 않는다는 것은 당 업계에서 통상의 지식을 가진 자에 있어서 자명할 것이다.Hereinafter, the present invention will be described in more detail through examples. These examples are only for illustrating the present invention in more detail, and it will be apparent to those of ordinary skill in the art that the scope of the present invention is not limited by these examples according to the gist of the present invention. .

실험예 1. 16S-23S rRNA 오페론 데이터베이스 구축Experimental Example 1. 16S-23S rRNA operon database construction

데이터베이스 구축 과정을 요약하면, NCBI로부터 박테리아 지놈 (bacterial genome)을 다운받은 후, EMBOSS-primersearch를 이용하여 16S-27F 프라이머 및 23S-2241R 프라이머로 16S-ITS-23S 앰플리콘 산물 (amplicon product)을 생성하였다. 필터링 (filtering) 및 큐레이션 (curation)은 다음의 기준 및 방법으로 수행되었다.To summarize the database construction process, after downloading the bacterial genome from NCBI, 16S-ITS-23S amplicon product was generated with 16S-27F primer and 23S-2241R primer using EMBOSS-primersearch. did. Filtering and curation were performed according to the following criteria and methods.

(1) 앰플리콘 산물 (amplicon product)의 사이즈는 3,500 내지 7,000 bp 사이일 것;(1) the size of the amplicon product should be between 3,500 and 7,000 bp;

(2) A, T, G, C를 제외한 불분명한 뉴클레오티드 (ambiguous nucleotide)가 포함된 서열은 제거할 것;(2) Remove sequences containing ambiguous nucleotides except for A, T, G, and C;

(3) 산물이 만들어진 지놈의 경우 분류 오배정 (taxonomy mis-assignment)을 방지하기 위해 GTDBtk (Genome Database Taxonomy GTDB를 기반으로 세균 및 고세균 지놈에 객관적인 분류학적 분류를 할당하기 위한 소프트웨어 툴킷)를 수행한 후, 배정이 되지 않거나 종 수준 (species-level)까지 배정이 되지 않은 지놈을 제외할 것;(3) GTDBtk (a software toolkit for assigning objective taxonomic classification to bacterial and archaeal genomes based on Genome Database Taxonomy GTDB) was performed to prevent taxonomy mis-assignment in the case of the product-made genome. Then, exclude genomes that have not been assigned or have not been assigned to the species-level;

(4) 같은 종으로서 완전히 일치하는 오페론은 제거하고, 다른 종이지만, 오페론이 비슷하거나 같은 경우 한 쪽 지놈을 제거할 것.(4) Remove operons that are identical to each other in the same species, and remove one genome if they are different species but have similar or identical operons.

여기서 (4)는 (4-1) 같은 과 (family) 내에서 계통수를 구축하고 (phylogenetic tree construction), (4-2) 부정 조립 (mis assembly) 등으로 인해 발생된 서열을 확인한 후, 웹-블라스트 (web-blast) 함으로써 수행되었다.Here, (4) is (4-1) constructing a phylogenetic tree within the same family (phylogenetic tree construction), (4-2) checking the sequence generated due to mis assembly, etc. This was done by web-blasting.

1-1. 미생물 유전체 데이터 획득1-1. Microbial genome data acquisition

미국 국립생물공학정보센터 (National Center for Biotechnology Information; NCBI)의 Genbank로부터 이용할 수 있는 최대한 많은 종의 전장 유전체 서열 (full-length genome)과 이에 해당하는 미생물의 명칭, 종명, 속명, 유전체 조립 수준 (assembly level) 및 유전체 등록번호 (accession number)를 포함하는 시퀀싱 데이터 (sequencing data)를 획득하였다.Full-length genome sequences of as many species as possible available from the Genbank of the National Center for Biotechnology Information (NCBI) in the United States and the names, species names, genus names, and genome assembly levels of corresponding microorganisms ( assembly level) and sequencing data including a genome accession number (accession number) were obtained.

획득한 유전체 데이터는 예를 들어, 미생물의 명칭이 Escherichia coli일 수 있으나, 공공 저장 데이터베이스 (public repository)의 특성상 이의 전장 유전체 서열은 Escherichia coli의 것이 아닌 Lactobacillus casei의 것일 수 있다.The acquired genomic data may be, for example, the name of the microorganism Escherichia coli , but due to the nature of the public repository, its full genome sequence may be that of Lactobacillus casei , not Escherichia coli .

따라서, 아래와 같은 퀄리티 컨트롤 (quality control; QC)을 수행함으로써, 획득한 유전체 데이터에서 공공 저장 데이터베이스의 문제점인 분류군 오분류 (taxa mis-assignment) 데이터 또는 오염된 (contaminant) 데이터를 확인한 후, 데이터베이스 구축에 유효한 데이터만을 남기고, 데이터가 오염되거나 분류군이 잘못 분류된 데이터를 제거하였다.Therefore, by performing the following quality control (QC), the obtained genomic data confirms taxa mis-assignment data or contaminated data, which is a problem in the public storage database, and then builds the database. Only valid data were left in the , and data with corrupted data or misclassified taxon were removed.

1-2. rRNA 오페론 서열 추출1-2. rRNA operon sequence extraction

EMBOSS-primersearch와 표 1에 나타낸 16S-27F 프라이머 및 23S-2241R 프라이머를 이용하여, 퀄리티 컨트롤을 마친 유효 데이터로부터 16S-ITS-23S 앰플리콘 산물 (amplicon product)을 생성하였다.Using EMBOSS-primersearch and the 16S-27F primer and 23S-2241R primer shown in Table 1, a 16S-ITS-23S amplicon product was generated from valid data after quality control.

서열번호SEQ ID NO: 명명denomination 서열목록sequence list 비고note 1One 16S-27F primer16S-27F primer 5'-AGRGTTYGATYHTGGCTCAG-3'5'-AGRGTTYGATYHTGGCTCAG-3' 22 23S-2241R primer23S-2241R primer 5'-ACCRCCCCAGTHAAACT-3'5'-ACCRCCCAGTHAAACT-3'

16S-ITS-23S 앰플리콘 산물에서 3,500 내지 7,000 bp 사이의 크기를 갖는 앰플리콘 산물만을 남기고, 서열 내 A, G, T 및 C를 제외한 모호한 염기서열 (ambiguous nucleotide)이 포함되는지를 확인하여, 유효 데이터에서 모호한 염기서열을 포함하는 앰플리콘 산물을 모두 제거하였다.In the 16S-ITS-23S amplicon product, only the amplicon product having a size between 3,500 and 7,000 bp is left, and it is valid by checking whether an ambiguous nucleotide is included except for A, G, T and C in the sequence. All amplicon products containing ambiguous nucleotide sequences were removed from the data.

이후 유효 데이터를 이용하여 GTDB-Tk로 미생물 분류 체계를 재분류 (reassignment)하였다. 참고로, GTDB-Tk는 데이터베이스의 전체 구축 과정에서 적어도 1회 이상 수행하면 충분하다.Then, using the valid data, the microbial classification system was reassigned to GTDB-Tk. For reference, it is sufficient to perform GTDB-Tk at least once during the entire database construction process.

재분류는 분류가 되지 않았거나 종 수준 (species-level)까지 분류가 되지 않은 지놈 데이터를 제거함으로써 수행되었다. 또한, Cd-hit-est 소프트웨어 툴을 이용하여, 서로 다른 지놈이 같은 종으로 분류되면서 오페론 서열이 완전히 일치하는 경우에는 그 오페론 서열은 제거하였고 (deduplicated), 다른 종이면서 오페론 서열이 비슷하거나 동일한 경우에는 어느 한 쪽의 지놈을 제거하였다 (Sequence clustering).Reclassification was performed by removing unclassified or unclassified genomic data down to the species-level. In addition, using the Cd-hit-est software tool, when different genomes are classified as the same species and the operon sequences are completely identical, the operon sequences are deleted (deduplicated). In this case, either genome was removed (Sequence clustering).

다음으로, IQ-tree를 이용하여 같은 과 (family) 내에서 속 (genus)과 종 (species)을 나타낸 계통수를 구축한 후 (phylogenetic tree construction), 블라스트 (Basic Local Alignment Search Tool; BLAST)를 수행하여 부정 조립 (mis assembly) 등으로 인해 만들어진 서열을 확인하였다. 최종적으로, 다른 종이면서 오페론 서열이 비슷하거나 동일한 경우에는 어느 한 쪽의 유전체를 제거함으로써 (filtering) 데이터베이스를 구축하였다.Next, after constructing a phylogenetic tree representing genus and species within the same family using IQ-tree (phylogenetic tree construction), Blast (Basic Local Alignment Search Tool; BLAST) is performed Thus, the sequence generated due to mis assembly, etc. was confirmed. Finally, when the operon sequences of different species are similar or identical, the database was constructed by removing (filtering) the genome of either side.

실험예 2. 미생물 동정 및 분류를 위한 파이프라인 구축Experimental Example 2. Pipeline construction for identification and classification of microorganisms

2-1. rrn 오페론 카피 수 산출2-1. rrn operon copy number calculation

실험예 1-2에서 재분류된 미생물 분류 체계를 기준으로 미생물 종별 평균 rrn 오페론 카피 수 (rrn operon copy number)를 산출하였다. rrn 오페론 카피 수는 실험예 1-2에서 하나의 미생물 유전체로부터 생성된 앰플리콘 산물 (amplicon product)의 개수를 의미한다. rrn 오페론 카피 수 (rrn operon copy number)는 미생물 종별 상대함량 데이터를 보정할 수 있다.Based on the microbial classification system reclassified in Experimental Example 1-2, the average rrn operon copy number for each microbial species was calculated. The rrn operon copy number means the number of amplicon products generated from one microbial genome in Experimental Example 1-2. The rrn operon copy number can correct the relative content data for each microbial species.

미생물 종별 상대함량 데이터의 보정은 예를 들어, 평균 rrn 오페론 카피 수가 미생물 A는 7이고, 미생물 B는 3인 경우, 시료 내에 미생물 A와 미생물 B를 시퀀싱하여 리드를 얻고, 각 리드를 그에 해당하는 각 미생물의 rrn 오페론 카피 수로 나누는 것을 의미한다.Calibration of the relative content data for each microbial species can be performed, for example, if the average rrn operon copy number is 7 for microorganism A and 3 for microorganism B, sequencing microorganism A and microorganism B in the sample to obtain reads, It means dividing by the number of copies of the rrn operon in each microorganism.

2-2. 리드 맵핑 (Read mapping)2-2. Read mapping

데이터를 차례대로 전달하는 일련의 시스템인 파이프라인 (Pipeline)은 파이썬 (python)으로 구현되어 있으며, minimap2 기반 리드 맵핑 (read mapping)을 사용하였다.Pipeline, a series of systems that pass data one after another, is implemented in Python, and minimap2-based read mapping is used.

높은 에러율 (error rate)에 의한 위양성 (false positive)을 줄이기 위해 2차 정렬 (secondary alignment)을 제거하였다. 리드 (read)는 서열 상동성으로 인해 rRNA 오페론 데이터베이스상에서 두 군데 이상의 유전체 정보에 정렬될 가능성이 있다. 이 경우, 정렬 스코어 (Alignment score)를 기준으로 낮은 값을 갖는 것은 결과로 도출하지 않고, 가장 높은 값을 보이는 것만 결과로 도출함으로써 2차 정렬 제거를 수행하였다.Secondary alignment was removed to reduce false positives due to a high error rate. Reads have the potential to align with more than one genomic information on the rRNA operon database due to sequence homology. In this case, the secondary alignment removal was performed by deriving only the highest value as a result, without deriving a result having a low value based on the alignment score.

정렬 블록 길이는 (alignment block length) 3,500 bp인 것을, 그리고 잔기 매치 수 (number of residue matches)는 2,500 bp인 것의 정렬 (alignment)만 고려하였다. 정렬 블록 길이는 rRNA 오페론 서열의 평균 길이가 약 4,300bp 임을 고려하여 3,500bp 이상인 것으로, 잔기 매치 수는 나노포어 (nanopore)의 리드 (read) 정확도가 80 내지 90%를 나타내는 것을 고려하여 2,500bp 이상인 것으로 설정하였다. 정렬 블록 길이의 경우, 2,200bp 수준으로 정렬 블록을 설정하면 위양성 (false positive) 발생가능성이 높아질 수 있다.Only alignments of those with an alignment block length of 3,500 bp and a number of residue matches of 2,500 bp were considered. The alignment block length is 3,500 bp or more considering that the average length of the rRNA operon sequence is about 4,300 bp, and the number of residue matches is 2,500 bp or more considering that the read accuracy of the nanopore is 80 to 90%. was set to In the case of the alignment block length, if the alignment block is set at the level of 2,200 bp, the possibility of false positives may increase.

본 발명의 일 실시예에 따른 데이터베이스의 전체 구축 과정은 도 1a에 나타내었다. MIrROR는 본 발명의 일 실시예에 따라 구축된 데이터베이스의 명칭이다. The entire process of constructing a database according to an embodiment of the present invention is shown in FIG. 1A. MIrROR is the name of a database constructed according to an embodiment of the present invention.

2-3. 시각화 (Visualization)2-3. Visualization

파이프라인 수행 후 결과물인 각 샘플의 프로파일 (profile)은 Krona (생물 정보 시각화를 위한 메타 유전체 시각화 도구)를 이용하여 시각화하였다. 또한, 미생물 전체 군집은 Matplotlib (파이썬의 매트랩과 유사한 것으로서 그래프 표시를 가능하게 하는 라이브러리)을 이용하여 누적 플롯 (stacked plot)으로 나타내었다.The profile of each sample, which is the result after pipeline execution, was visualized using Krona (a meta-genome visualization tool for visualization of biological information). In addition, the entire microbial community was shown as a stacked plot using Matplotlib (a library that enables graph display as similar to MATLAB in Python).

본 발명의 시각화 (visualization)에서 Matplotlib을 이용하면 나타낼 수 있는 누적 바 플롯 (stacked bar plot) 예시를 도 1b에 나타내었다. 여기서, Krona를 이용하여 시각화하면 크로나 플롯 (Krona plot)을 제공할 수 있다.An example of a stacked bar plot that can be represented by using Matplotlib in the visualization of the present invention is shown in FIG. 1B . Here, visualization using Krona can provide a Krona plot.

실험예 3. rRNA 데이터베이스인 rrn_DBv2와의 비교Experimental Example 3. Comparison with rrn_DBv2, an rRNA database

3-1. 데이터베이스 비교 분석을 위한 준비3-1. Preparing for database comparative analysis

8개의 미생물 DNA가 포함된 MOCK1 (ZymoBIOMICS®)과 인간 장관 (human gut)을 모방하여 14개의 미생물 DNA가 포함된 MOCK2 (ZymoBIOMICS®)를 대상으로 비교를 수행하였다.A comparison was performed with MOCK1 (ZymoBIOMICS ® ) containing 8 microbial DNA and MOCK2 (ZymoBIOMICS ® ) containing 14 microbial DNA mimicking the human gut.

MOCK1 및 MOCK2 군집의 미생물 이론적 함량은 표 2에 나타내었다.The theoretical microbial contents of the MOCK1 and MOCK2 populations are shown in Table 2.

MOCK 군집MOCK swarm 제품명product name 카탈로그 번호catalog number bell 이론적 함량
(16S-23S rRNA 오페론)
theoretical content
(16S-23S rRNA operon)
MOCK1MOCK1 ZymoBIOMICS®
Microbial Community Standard
ZymoBIOMICS®
Microbial Community Standard
D6300D6300 Bacillus subtilisBacillus subtilis 17.417.4
Enterococcus faecalisEnterococcus faecalis 9.99.9 Escherichia coliEscherichia coli 10.110.1 Lactobacillus fermentumLactobacillus fermentum 18.418.4 Listeria monocytogenesListeria monocytogenes 14.114.1 Pseudomonas aeruginosaPseudomonas aeruginosa 4.24.2 Salmonella entericaSalmonella enterica 10.410.4 Staphylococcus aureusStaphylococcus aureus 15.515.5 Cryptococcus neoformansCryptococcus neoformans FungiFungi Saccharomyces cerevisiaeSaccharomyces cerevisiae FungiFungi MOCK2MOCK2 ZymoBIOMICS®
Gut Microbiome Standard
ZymoBIOMICS®
Gut Microbiome Standard
D6331D6331 Akkermansia muciniphilaAkkermansia muciniphila 0.970.97
Bacteroides fragilisBacteroides fragilis 9.949.94 Bifidobacterium adolescentisBifidobacterium adolescentis 8.788.78 Clostridioides difficileClostridioides difficile 2.622.62 Clostridium perfringensClostridium perfringens 0.00020.0002 Enterococcus faecalisEnterococcus faecalis 0.00090.0009 Escherichia coliEscherichia coli 12.1212.12 Faecalibacterium prausnitziiFaecalibacterium prausnitzii 17.6317.63 Fusobacterium nucleatumFusobacterium nucleatum 7.497.49 Lactobacillus fermentumLactobacillus fermentum 9.639.63 Prevotella corporisPrevotella corporis 4.984.98 Roseburia hominisRoseburia hominis 9.899.89 Salmonella entericaSalmonella enterica 0.0090.009 Veillonella rogosaeVeillonella rogosae 15.8715.87 Methanobrevibacter smithiiMethanobrevibacter smithii ArchaeaArchaea Candida albicansCandida albicans FungiFungi Saccharomyces cerevisiaeSaccharomyces cerevisiae FungiFungi

3-2. 오분류된 분류군 (misclassified taxa)3-2. misclassified taxa

롱-리드 시퀀싱 (Long-read sequencing)을 이용하여 얻은 MOCK1 및 MOCK2의 rrn 오페론 서열 정보로 MOCK1 및 MOCK2에 포함된 미생물 종을 분류 및 동정한 결과, 분류군이 오분류된 경우 (misclassified taxa)를 표 3에 나타내었다.As a result of classifying and identifying the microbial species included in MOCK1 and MOCK2 using the rrn operon sequence information of MOCK1 and MOCK2 obtained using long-read sequencing, the table shows the misclassified taxa. 3 is shown.

MOCK 군집MOCK swarm GTDB taxonomy
(Read count)
GTDB taxonomy
(Read count)
NCBI taxonomyNCBI taxonomy Species taxidSpecies taxied Read countread count
MOCK1_1MOCK1_1 Escherichia flexneri
(12,325)
Escherichia flexneri
(12,325)
Escherichia coliEscherichia coli 562562 11,96411,964
Salmonella sp. HNK130 Salmonella sp. HNK130 26642912664291 123123 Shigella sonneiShigella sonnei 624624 9696 Shigella dysenteriaeShigella dysenteriae 622622 5555 Shigella boydiiShigella boydii 621621 3535 Shigella flexneriShigella flexneri 623623 3232 Escherichia sp. R3 Escherichia sp. R3 20826182082618 2020 Bacillus marinus
(5471)
Bacillus marinus
(5471)
Bacillus intestinalisBacillus intestinalis 19630321963032 31463146
Bacillus subtilisBacillus subtilis 14231423 23252325 MOCK1_2MOCK1_2 Escherichia flexneri
(7918)
Escherichia flexneri
(7918)
Escherichia coliEscherichia coli 562562 76937693
Salmonella sp. HNK130 Salmonella sp. HNK130 26642912664291 7979 Shigella sonneiShigella sonnei 624624 6363 Shigella dysenteriaeShigella dysenteriae 622622 3939 Shigella flexneriShigella flexneri 623623 2121 Shigella boydiiShigella boydii 621621 1515 Escherichia sp. R3 Escherichia sp. R3 20826182082618 88 Bacillus marinus
(5471)
Bacillus marinus
(5471)
Bacillus intestinalisBacillus intestinalis 19630321963032 20372037
Bacillus subtilisBacillus subtilis 14231423 14351435 MOCK2_1MOCK2_1 Escherichia flexneri
(3341)
Escherichia flexneri
(3341)
Escherichia coliEscherichia coli 562562 31923192
Salmonella sp. HNK130 Salmonella sp. HNK130 26642912664291 7070 Shigella dysenteriaeShigella dysenteriae 622622 3232 Shigella sonneiShigella sonnei 624624 1616 Shigella flexneriShigella flexneri 623623 1414 Shigella boydiiShigella boydii 621621 1414 Shigella sp. SF-2015 Shigella sp. SF-2015 17760821776082 22 Escherichia sp. R3 Escherichia sp. R3 20826182082618 1One MOCK2_2MOCK2_2 Escherichia flexneri
(4256)
Escherichia flexneri
(4256)
Escherichia coliEscherichia coli 562562 40394039
Salmonella sp. HNK130 Salmonella sp. HNK130 26642912664291 9090 Shigella dysenteriaeShigella dysenteriae 622622 4242 Shigella sonneiShigella sonnei 624624 4040 Shigella boydiiShigella boydii 621621 2727 Shigella flexneriShigella flexneri 623623 1515 Shigella sp. SF-2015 Shigella sp. SF-2015 17760821776082 33

표 3에서 확인할 수 있듯이, MOCK1에서 1%를 초과한 미생물 종은 총 8종으로, 이 중 6개인 Enterococcus faecalis, Lactobacillus fermentum, Listeria monocytogenes, Pseudomonas aeruginosa, Salmonella enterica 및 Staphylococcus aureus는 기대한대로 분류되었으나, 나머지 2종은 Escherichia coli 대신 Escherichia flexneri로, Bacillus subtilis 대신 Bacillus marinus로 오분류되었는데, 기존 NCBI taxonomy를 적용할 시에는 E. coli B. subtilis가 제대로 분류되었다.As can be seen in Table 3, there were a total of 8 types of microorganisms exceeding 1% in MOCK1, of which 6 , Enterococcus faecalis, Lactobacillus fermentum, Listeria monocytogenes, Pseudomonas aeruginosa, Salmonella enterica, and Staphylococcus aureus were classified as expected, but the remaining Two species were misclassified as Escherichia flexneri instead of Escherichia coli and Bacillus marinus instead of Bacillus subtilis . E. coli and B. subtilis were properly classified when the existing NCBI taxonomy was applied.

MOCK2 샘플에서는 0.01% 이하로 포함된 3종을 제외한 총 11종 중에서 8종은 기대한대로 분류되었으나, MOCK1과 같이 E. coliE. flexneri로 검출되었고, Veillonella rogosaeVeillonella dispar로, Prevotella corporisPrevotella fucsa로 오분류되었다.In the MOCK2 sample, 8 out of 11 species were classified as expected except for 3 species included in 0.01% or less, but like MOCK1, E. coli was detected as E. flexneri , Veillonella rogosae as Veillonella dispar , and Prevotella corporis as Prevotella It was misclassified as fucsa .

E. coli 오분류 원인은 MOCK1과 동일하게 GTDB에 의한 재분류 때문이었다.of E. coli The cause of misclassification was due to reclassification by GTDB as in MOCK1.

P. corporis의 오분류 원인을 파악하기 위하여, NCBI 접근 번호 (NCBI accession number), 각 콘티그 (contig), rRNA 유전자 (gene) 및 위치 (position, 괄호 안은 가닥을 의미함)를 표 4에 나타내었다.In order to identify the cause of misclassification of P. corporis , the NCBI accession number, each contig, rRNA gene and position (in parentheses means strand) are shown in Table 4 It was.

NCBI 문헌 번호NCBI literature number 콘티그contig rRNA 유전자rRNA gene 위치 (strand)position (strand) GCF_000430525.1GCF_000430525.1 NZ_AUME01000079.1NZ_AUME01000079.1 5S rRNA5S rRNA 3028-3113(-)3028-3113(-) NZ_AUME01000091.1NZ_AUME01000091.1 23S rRNA23S rRNA 1-1188 (-)1-1188 (-) GCF_000613365.1GCF_000613365.1 NZ_BAIT01000093.1NZ_BAIT01000093.1 5S rRNA5S rRNA 49-157 (-)49-157 (-) NZ_BAIT01000093.1NZ_BAIT01000093.1 23S rRNA23S rRNA 342-3234 (-)342-3234 (-) NZ_BAIT01000116.1NZ_BAIT01000116.1 16S rRNA16S rRNA 2-1250 (-)2-1250 (-) GCF_001546595.1GCF_001546595.1 NZ_KQ957193.1NZ_KQ957193.1 23S rRNA23S rRNA 2-1476 (-)2-1476 (-) NZ_KQ957224.1NZ_KQ957224.1 16S rRNA16S rRNA 41-1182 (-)41-1182 (-) NZ_KQ957299.1NZ_KQ957299.1 16S rRNA16S rRNA 204-618 (+)204-618 (+)

표 4에서 확인할 수 있듯이, P. corporis의 경우 (NCBI accession number: GCF_001546595.1), NCBI genbank에 단 3개의 유전체 밖에 없었으며 모두 스캐폴드 (scaffold)나 콘티그 (contig)일뿐, 16S rRNA와 23S rRNA가 하나의 콘티그에 존재하지 않고 떨어져 있었다. 이로 인해, P. corporisP. jejuniP. fusca 등으로 분류된 것으로 판단하였다. 그러나, 도 2에서 확인할 수 있듯이, P. corporis의 참조 rRNA 오페론 서열을 데이터베이스에 부가함으로써 오분류되지 않고 정확하게 P. corporis로 분류되게 할 수 있었다.As can be seen in Table 4, in the case of P. corporis (NCBI accession number: GCF_001546595.1), there were only three genomes in the NCBI genbank, and all were scaffolds or contigs, 16S rRNA and 23S rRNA was not present in one contig and was separated. For this reason, it was determined that P. corporis was classified as P. jejuni and P. fusca . However, as can be seen in FIG. 2 , by adding the reference rRNA operon sequence of P. corporis to the database, it could be accurately classified as P. corporis without being misclassified.

마지막으로, MOCK2 군집의 V. rogosae 유전체에서 추출한 rRNA operon 서열을 데이터베이스에 블라스트 (blast)한 결과를 표 5에 나타내었다.Finally, Table 5 shows the results of blasting the rRNA operon sequence extracted from the V. rogosae genome of the MOCK2 cluster into the database.

쿼리 (Query)Query 명칭designation 쿼리 커버 (Query cover)Query cover 동일성 백분율
(Percent identity)
identity percentage
(Percent identity)
GTDB 분류군
(GTDB taxonomy)
GTDB taxa
(GTDB taxonomy)
첫 번째 오페론 (4207 bp)first operon (4207 bp) GCF_000183505.1GCF_000183505.1 9999 98.3898.38 Veillonella rogosaeVeillonella rogosae GCF_002959775.1GCF_002959775.1 9999 98.4298.42 Veillonella rogosaeVeillonella rogosae GCF_900637515.1GCF_900637515.1 100100 98.4698.46 Veillonella disparVeillonella dispar 두 번째 오페론 (4737 bp)second operon (4737 bp) GCF_000183505.1GCF_000183505.1 9494 99.4399.43 Veillonella rogosaeVeillonella rogosae GCF_002959775.1GCF_002959775.1 9494 99.4399.43 Veillonella rogosaeVeillonella rogosae GCF_900637515.1GCF_900637515.1 9696 97.4697.46 Veillonella disparVeillonella dispar 세 번째 오페론 (4406bp)3rd operon (4406bp) GCF_000183505.1GCF_000183505.1 9999 98.9398.93 Veillonella rogosaeVeillonella rogosae GCF_002959775.1GCF_002959775.1 9999 98.3998.39 Veillonella rogosaeVeillonella rogosae 네 번째 오페론 (4268bp)4th operon (4268bp) GCF_000183505.1GCF_000183505.1 9696 98.7698.76 Veillonella rogosaeVeillonella rogosae GCF_002959775.1GCF_002959775.1 9696 98.6898.68 Veillonella rogosaeVeillonella rogosae GCF_002005185.1GCF_002005185.1 100100 97.3997.39 Veillonella parvulaVeillonella parvula

표 5에서 확인할 수 있듯이, 리드 맵핑시 쿼리 커버 (query cover)와 정렬 스코어 (alignment score)는 정비례하므로 V. rogosaeV. dispar로 분류된 이유는 V. rogosaeV. dispar의 rRNA 오페론의 서열 상동성 (similarity)이 높기 때문이다.As can be seen in Table 5, the query cover and alignment score are directly proportional to the read mapping, so the reason why V. rogosae is classified as V. dispar is the sequence of the rRNA operon of V. rogosae and V. dispar . This is because the similarity is high.

3-3. 미생물 군집 분석의 정확도 비교 평가3-3. Comparative evaluation of the accuracy of microbiome analysis

43,653개의 유전체 (genome)로부터, 9,485개의 종에 포함되는 97,781개의 오페론 서열을 이용하여 구축된 본 발명의 데이터베이스를, 종래 유일하게 보고된 종래의 rRNA 데이터베이스인 rrn_DBv2 (Benitez-Paez, et al., Strand-wise and bait-assisted assembly of nearly-full rrn operons applied to assess species engraftment after faecal microbiota transplantation, 2020, bioRxiv)와 비교 분석하였다. 비교 분석은 2개의 박테리아 군집에 대하여 수행하였다.From 43,653 genomes, the database of the present invention, constructed using 97,781 operon sequences included in 9,485 species, was compared to rrn_DBv2 (Benitez-Paez, et al., Strand, the only previously reported conventional rRNA database). -wise and bait-assisted assembly of nearly-full rrn operons applied to assess species engraftment after faecal microbiota transplantation, 2020, bioRxiv). Comparative analyzes were performed on two bacterial populations.

위양성 (false positive) 확률을 측정하여, 도 3a 및 3b에 나타내었다.The false positive probability was measured and shown in FIGS. 3A and 3B .

도 3a 및 3b에서 확인할 수 있듯이, rrn_DBv2는 MOCK1 및 MOCK2 군집에 대하여, 미생물 종별 함량이 1% 보다 낮은 경우 위양성 (false positive)이 계속해서 증가한 반면, 본 발명은 일정 수준까지만 위양성이 증가하였다.As can be seen in Figures 3a and 3b, rrn_DBv2 with respect to the MOCK1 and MOCK2 communities, when the content of each microbial species is lower than 1%, the false positive (false positive) continues to increase, whereas in the present invention, false positives increased only up to a certain level.

또한, 알파 다양성 (alpha diversity)을 측정하여, 도 4a 및 4b에 나타내었다.In addition, alpha diversity was measured and shown in FIGS. 4A and 4B .

도 4a 및 4b에서 확인할 수 있듯이, rrn_DBv2는 이론적 MOCK 군집의 알파 다양성과 크게 차이가 난 반면, 본 발명은 미세한 차이가 났을 뿐이다.As can be seen in FIGS. 4A and 4B , rrn_DBv2 is significantly different from the alpha diversity of the theoretical MOCK cluster, whereas the present invention has only a slight difference.

도 3a, 3b 및 도 4a, 4b에서 interpolated는 알려진 두 데이터 값 사이의 값을 추정하는 방식인 내삽법을 의미하고, extrapolated는 이미 관찰된 값을 통해 아직 관찰되지 않은 새로운 값을 추정하는 방식인 외삽법을 의미한다.3A, 3B and 4A, 4B, interpolated means interpolation, which is a method of estimating a value between two known data values, and extrapolated is a method of estimating a new value that has not yet been observed through an already observed value. means law.

그리고, MOCK 1 및 2에 대하여 미생물 상대 함량을 2회 측정하여, 그 결과를 도 5a 및 5b에 나타내었고, 그 중 미생물 분류군의 오분류 비율을 의미하는 “Other”의 면적을 표 6에 나타내었다.In addition, the relative content of microorganisms for MOCK 1 and 2 was measured twice, and the results are shown in FIGS. 5A and 5B, and the area of “Other”, which means the rate of misclassification of the microbial taxa, is shown in Table 6. .

MIrRORMIrROR rrn_DBv2rrn_DBv2 MOCK 1_1MOCK 1_1 2.352.35 25.1025.10 MOCK 1_2MOCK 1_2 2.312.31 25.1025.10 MOCK 2_1MOCK 2_1 1.911.91 32.4232.42 MOCK 2_2MOCK 2_2 2.102.10 30.2030.20

도 5a 및 5b, 표 6에서 확인할 수 있듯이, 본 발명의 MIrROR 데이터베이스는 MOCK1_1이 2.35, MOCK1_2가 2.31, MOCK2_1이 1.91 및 MOCK2_2가 2.10인 반면, rrn_DBv2 데이터베이스는 MOCK1_1이 25.10, MOCK1_2가 25.10, MOCK2_1이 32.42 및 MOKC2_2가 30.20이었다.As can be seen in FIGS. 5A and 5B and Table 6, in the MIrROR database of the present invention, MOCK1_1 is 2.35, MOCK1_2 is 2.31, MOCK2_1 is 1.91, and MOCK2_2 is 2.10, whereas in the rrn_DBv2 database, MOCK1_1 is 25.10, MOCK1_2 is 25.10, MOCK2_1 is 32. and MOKC2_2 was 30.20.

본 발명의 MIrROR는 rrn_DBv2에 비하여, 오분류 비율이 MOCK1_1의 경우 -90.64%, MOCK1_2의 경우 -90.80%, MOCK2_1의 경우 -94.11% 및 MOCK2_2의 경우 -93.05% 감소시켜, 전체적으로 미생물 분류군 오분류 비율을 1/10 수준으로 감소시켰음을 확인하였다.Compared to rrn_DBv2, the MIrROR of the present invention reduces the misclassification rate by -90.64% for MOCK1_1, -90.80% for MOCK1_2, -94.11% for MOCK2_1 and -93.05% for MOCK2_2, thereby reducing the overall microbial taxa misclassification rate compared to rrn_DBv2. It was confirmed that it was reduced to 1/10 level.

다음으로, MOCK1 및 MOCK2 군집의 상대적 풍부도 (relative abundance) 측정값을 기대값과 비교하기 위하여, 하기 수학식 1에 따라 MOCK1 및 MOCK2 군집의 종별, 속별 L2 거리 (L2 distance)를 계산하였다.Next, in order to compare the measured relative abundance of the MOCK1 and MOCK2 populations with the expected values, the L 2 distance for each type and genera of the MOCK1 and MOCK2 populations was calculated according to Equation 1 below. .

[수학식 1][Equation 1]

Figure pat00001
Figure pat00001

여기서, estimatedi는 분석 결과로 얻은 i번째 미생물의 상대 함량을, expectedi는 표 2에 나타낸 제품의 MOCK1 및 2 군집에 대한 이론적 함량 (theoretical Compostition)을 의미한다. i는 i번째 미생물을, n은 미생물의 총 개수를 의미한다. expectedi 및 estimatedi는 표 7 및 8에 나타낸 값을 이용하였다.Here, estimated i means the relative content of the i-th microorganism obtained as a result of the analysis, and expected i means the theoretical content (theoretical composition) for the MOCK1 and 2 clusters of the products shown in Table 2. i denotes the i-th microorganism, and n denotes the total number of microorganisms. The values shown in Tables 7 and 8 were used for expected i and estimated i .

SpeciesSpecies Theoretical
Composition
Theoretical
Composition
MIrROR-MOCK1_1MIrROR-MOCK1_1 MIrROR-MOCK1_2MIrROR-MOCK1_2 rrn_DBv2-MOCK1_1rrn_DBv2-MOCK1_1 rrn_DBv2-MOCK1_2rrn_DBv2-MOCK1_2
1One OthersOthers 00 2.42.4 2.32.3 25.125.1 25.125.1 22 Bacillus subtilisBacillus subtilis 17.417.4 11.311.3 11.211.2 11.511.5 11.411.4 33 Enterococcus faecalisEnterococcus faecalis 9.99.9 2.42.4 2.82.8 2.22.2 2.62.6 44 Escherichia coliEscherichia coli 10.110.1 25.825.8 25.825.8 23.023.0 22.922.9 55 Lactobacillus fermentumLactobacillus fermentum 18.418.4 12.812.8 13.213.2 8.08.0 8.38.3 66 Listeria monocytogenesListeria monocytogenes 14.114.1 7.87.8 7.97.9 5.95.9 5.95.9 77 Pseudomonas aeruginosaPseudomonas aeruginosa 4.24.2 4.94.9 5.05.0 3.03.0 3.13.1 88 Salmonella entericaSalmonella enterica 10.410.4 10.010.0 10.110.1 2.12.1 2.12.1 99 Staphylococcus aureusStaphylococcus aureus 15.515.5 22.822.8 21.721.7 19.419.4 18.718.7

SpeciesSpecies Theoretical
Composition
Theoretical
Composition
MIrROR-MOCK2_1MIrROR-MOCK2_1 MIrROR-MOCK2_2MIrROR-MOCK2_2 rrn_DBv2-MOCK2_1rrn_DBv2-MOCK2_1 rrn_DBv2-MOCK2_2rrn_DBv2-MOCK2_2
1One OthersOthers 00 1.91.9 2.12.1 32.432.4 30.230.2 22 Akkermansia muciniphilaAkkermansia muciniphila 0.970.97 0.70.7 0.70.7 0.70.7 0.70.7 33 Bacteroides fragilisBacteroides fragilis 9.959.95 22.622.6 21.321.3 19.819.8 18.418.4 44 Bifidobacterium adolescentisBifidobacterium adolescentis 8.788.78 3.73.7 3.93.9 0.80.8 1.01.0 55 Clostridioides difficileClostridioides difficile 2.642.64 3.53.5 3.23.2 1.01.0 0.90.9 66 Clostridium perfringensClostridium perfringens 0.00020.0002 0.00.0 0.00.0 0.00.0 0.00.0 77 Enterococcus faecalisEnterococcus faecalis 0.00090.0009 0.00.0 0.00.0 0.20.2 0.20.2 88 Escherichia coliEscherichia coli 12.1412.14 20.420.4 21.821.8 17.717.7 19.019.0 99 Faecalibacterium prausnitziiFaecalibacterium prausnitzii 17.6417.64 11.911.9 13.913.9 11.811.8 13.813.8 1010 Fusobacterium nucleatumFusobacterium nucleatum 7.497.49 4.94.9 5.05.0 2.32.3 2.22.2 1111 Lactobacillus fermentumLactobacillus fermentum 9.639.63 5.75.7 6.06.0 3.63.6 3.73.7 1212 Prevotella corporisPrevotella corporis 4.984.98 9.59.5 9.09.0 4.64.6 4.24.2 1313 Roseburia hominisRoseburia hominis 9.899.89 2.42.4 2.42.4 0.90.9 1.01.0 1414 Salmonella entericaSalmonella enterica 0.0090.009 0.00.0 0.00.0 0.50.5 0.50.5 1515 Veillonella rogosaeVeillonella rogosae 15.8815.88 12.612.6 10.810.8 3.73.7 4.34.3

계산된 L2 거리를 표 9에 나타내었다.The calculated L 2 distance is shown in Table 9.

DatabaseDatabase MOCK1_1MOCK1_1 MOCK1_2MOCK1_2 MOCK2_1MOCK2_1 MOCK2_2MOCK2_2 bell inside bell inside bell inside bell inside MIrRORMIrROR 0.21550.2155 0.21400.2140 0.21000.2100 0.20800.2080 0.19940.1994 0.20400.2040 0.19460.1946 0.20030.2003 rrn_DBv2rrn_DBv2 0.23560.2356 0.22700.2270 0.23190.2319 0.22260.2226 0.24160.2416 0.23610.2361 0.22920.2292 0.22690.2269

표 9에서 확인할 수 있듯이, rrn_DBv2는 종 및 속 수준에서 모두, 본 발명의 데이터베이스인 실시예에 비하여 더 높은 L2 distance를 갖는 것으로 나타났고, 이는 본 발명의 실시예인 MIrROR 데이터베이스가 rrn-DBv2 데이터베이스에 비하여 MOCK 군집의 종별, 속별 미생물 동정 정확도가 높음을 의미한다.As can be seen in Table 9, rrn_DBv2 was found to have a higher L 2 distance compared to the embodiment, which is the database of the present invention, at both the species and genus level, which indicates that the MIrROR database, which is an embodiment of the present invention, is in the rrn-DBv2 database. In comparison, it means that the accuracy of identification of microorganisms by type and genus of the MOCK community is high.

즉, 본 발명의 MIrROR 데이터베이스는 97,781개의 오페론 서열을 가지고 9,485개의 종을 커버할 수 있는 반면, rrn_DBv2 데이터베이스는 22,580개의 오페론 서열을 가지고 2,536개의 종을 커버할 수 있을 뿐이다. 따라서, 본 발명은 약 4배의 서열을 더 포함하여 약 3배의 종을 커버할 뿐만 아니라, 정확도 면에서도 더 우수하였다.That is, the MIrROR database of the present invention has 97,781 operon sequences and can cover 9,485 species, whereas the rrn_DBv2 database has 22,580 operon sequences and can cover only 2,536 species. Therefore, the present invention not only covers about 3 times the species by including about 4 times more sequence, but also has better accuracy.

본 발명자들은 16S-23S rRNA operon 분석을 위한 데이터베이스 (MIrROR)를 개발하였으며, 이는 롱-리드 시퀀스 (long-read sequence)를 이용한 미생물 군집 분석을 촉진시켜줄 것이다.The present inventors have developed a database (MIrROR) for 16S-23S rRNA operon analysis, which will facilitate microbial community analysis using long-read sequences.

<110> eGnome Co., Ltd <120> METHOD FOR CONSTRUCTING rRNA OPERON DATABASE AND MICROBIAL METAGENOMIC ANALYSIS METHOD USING THEREOF <130> PN200449 <160> 2 <170> KoPatentIn 3.0 <210> 1 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> 16S-27F primer <400> 1 agrgttygat yhtggctcag 20 <210> 2 <211> 17 <212> DNA <213> Artificial Sequence <220> <223> 23S-2241R primer <400> 2 accrccccag thaaact 17 <110> eGnome Co., Ltd <120> METHOD FOR CONSTRUCTING rRNA OPERON DATABASE AND MICROBIAL METAGENOMIC ANALYSIS METHOD USING THEREOF <130> PN200449 <160> 2 <170> KoPatentIn 3.0 <210> 1 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> 16S-27F primer <400> 1 agrgttygat yhtggctcag 20 <210> 2 <211> 17 <212> DNA <213> Artificial Sequence <220> <223> 23S-2241R primer <400> 2 accrccccag thaaact 17

Claims (15)

유전체 (genome) 정보로부터 초기 데이터를 생성하는 데이터 획득 단계;
초기 데이터를 이용하여 앰플리콘 산물 (amplicon product) 데이터를 생성하는 앰플리콘 생성 단계;
앰플리콘 산물 데이터 중 모호한 염기서열 (ambiguous nucleotide)을 포함하는 앰플리콘 산물 데이터를 제거하여 유효 데이터를 생성하는 퀄리티 컨트롤 단계; 및
유효 데이터를 이용하여 분류 체계 데이터를 생성하는 데이터베이스 구축 단계;
를 포함하고,
상기 데이터 획득 단계 또는 상기 퀄리티 컨트롤 단계는 분류군 재분류를 추가로 수행하는 것인, rRNA 오페론 데이터베이스 구축 방법.
a data acquisition step of generating initial data from genome information;
an amplicon generating step of generating amplicon product data using the initial data;
A quality control step of generating valid data by removing the amplicon product data including an ambiguous nucleotide among the amplicon product data; and
database construction step of generating classification system data using valid data;
including,
The data acquisition step or the quality control step is to further perform taxon reclassification, rRNA operon database construction method.
제1항에 있어서, 상기 유전체 정보는 미국 국립생물공학정보센터 (National Center for Biotechnology Information; NCBI)의 Genbank, 유럽 생물정보학 기관-유럽 핵산 기록보관소 (European Bioinformatics Institute-European Nucleotide Archive; EBI-ENA), 일본국립유전학연구소의 (National Institute of Genetics)의 일본 DNA 데이터 은행 (DNA Data Bank of Japan; DDBJ), 미국 에너지부 (U.S. Department of ENERGY; USDOE) 산하의 통합 미생물 유전체 & 메타게놈 (Integrated Microbial Genomes & Microbiomes; IMG/M) 및 Ensembl로 이루어진 군으로부터 선택되는 1종 이상의 데이터베이스로부터 획득하는 것인, rRNA 오페론 데이터베이스 구축 방법.According to claim 1, wherein the genomic information is National Center for Biotechnology Information (NCBI) Genbank, European Bioinformatics Institute-European Nucleotide Archive (European Bioinformatics Institute-European Nucleotide Archive; EBI-ENA) , National Institute of Genetics, Japan DNA Data Bank of Japan (DDBJ), U.S. Department of ENERGY (USDOE) Integrated Microbial Genomes (Integrated Microbial Genomes) &Microbiomes; IMG/M) and Ensembl to obtain from one or more databases selected from the group consisting of, rRNA operon database construction method. 제1항에 있어서, 상기 유전체 정보는 16S rRNA를 암호화하는 염기서열 정보 및 23S rRNA를 암호화하는 염기서열로 이루어진 군으로부터 선택되는 1종 이상을 포함하는 것인, rRNA 오페론 데이터베이스 구축 방법.The method according to claim 1, wherein the genomic information comprises at least one selected from the group consisting of nucleotide sequence information encoding 16S rRNA and nucleotide sequence encoding 23S rRNA. 제1항에 있어서, 상기 앰플리콘 산물은 EMBOSS-primersearch를 이용하여 생성되는 것인, rRNA 오페론 데이터베이스 구축 방법.The method of claim 1, wherein the amplicon product is generated using EMBOSS-primersearch. 제1항에 있어서, 상기 앰플리콘 산물은 16S-27F 프라이머 및 23S-2241R 프라이머를 이용하여 생성되는 것인, rRNA 오페론 데이터베이스 구축 방법.The method according to claim 1, wherein the amplicon product is generated using a 16S-27F primer and a 23S-2241R primer. 제1항에 있어서, 상기 데이터베이스 구축 단계는 서열 군집화 및 계통수 구축을 수행함으로써 분류 체계 데이터를 생성하는 것인, rRNA 오페론 데이터베이스 구축 방법.The method of claim 1, wherein the database construction step generates taxonomy data by performing sequence clustering and phylogenetic tree construction. 제6항에 있어서, 상기 서열 군집화는 Cd-hit-est 또는 UCLUST를 이용하여 수행되는 것인, rRNA 오페론 데이터베이스 구축 방법.The method of claim 6, wherein the sequence clustering is performed using Cd-hit-est or UCLUST. 제6항에 있어서, 상기 계통수 구축은 IQ-tree 또는 MEGA를 이용하여 수행되는 것인, rRNA 오페론 데이터베이스 구축 방법.The method of claim 6, wherein the phylogenetic tree construction is performed using IQ-tree or MEGA. 제1항에 있어서, 상기 데이터베이스 구축 단계는 필터링 단계를 추가로 포함하는 것인, rRNA 오페론 데이터베이스 구축 방법.According to claim 1, wherein the database construction step further comprises a filtering step, rRNA operon database construction method. 제1항에 있어서, 상기 분류군 재분류는 GTDB-Tk 또는 CheckM을 이용하여 수행되는 것인, rRNA 오페론 데이터베이스 구축 방법.The method of claim 1, wherein the taxa reclassification is performed using GTDB-Tk or CheckM. 유전체 (genome) 정보로부터 초기 데이터를 생성하는 데이터 획득 단계;
초기 데이터를 이용하여 앰플리콘 산물 (amplicon product) 데이터를 생성하는 앰플리콘 생성 단계;
앰플리콘 산물 데이터 중 모호한 염기서열 (ambiguous nucleotide)을 포함하는 앰플리콘 산물 데이터를 제거하여 유효 데이터를 생성하는 퀄리티 컨트롤 단계; 및
유효 데이터를 이용하여 분류 체계 데이터를 생성하는 데이터베이스 구축 단계;
를 포함하고,
상기 데이터 획득 단계 또는 상기 퀄리티 컨트롤 단계 이후에 분류군 재분류를 추가로 수행하는 것인, rRNA 오페론 데이터베이스 구축 방법을 실행시키기 위해 컴퓨터로 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램.
a data acquisition step of generating initial data from genome information;
an amplicon generating step of generating amplicon product data using the initial data;
A quality control step of generating valid data by removing the amplicon product data including an ambiguous nucleotide among the amplicon product data; and
database construction step of generating classification system data using valid data;
including,
A computer program recorded in a computer-readable recording medium to execute the method for constructing an rRNA operon database, which will further perform taxa reclassification after the data acquisition step or the quality control step.
컴퓨터로 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하는 rRNA 오페론 데이터베이스 시스템에 있어서,
상기 적어도 하나의 프로세서는,
유전체 (genome) 정보로부터 초기 데이터를 생성하고;
초기 데이터로부터 앰플리콘 산물 데이터를 생성하고;
앰플리콘 산물 데이터 중 모호한 염기서열 (ambiguous nucleotide)을 포함하는 앰플리콘 산물 데이터를 제거하여 유효 데이터를 생성하고; 및
유효 데이터를 이용하여 분류 체계 데이터를 생성하며;
상기 초기 데이터를 생성한 후 또는 상기 유효 데이터를 생성한 후에 추가로 분류군 재분류를 수행하는 것인, rRNA 오페론 데이터베이스 시스템.
An rRNA operon database system comprising at least one processor implemented to execute computer readable instructions, the rRNA operon database system comprising:
the at least one processor,
generating initial data from genome information;
generate amplicon product data from the initial data;
generating valid data by removing the amplicon product data including an ambiguous nucleotide among the amplicon product data; and
generate taxonomy data using the valid data;
The rRNA operon database system, wherein taxa reclassification is further performed after generating the initial data or after generating the valid data.
다음의 단계를 포함하는 미생물 동정 방법:
시퀀싱 데이터 (sequencing data)를 입력받는 데이터 입력 단계; 및
시퀀싱 데이터를 분류 체계 데이터에 맵핑 (mapping)하는 리드 맵핑 단계.
A method for identifying microorganisms comprising the steps of:
a data input step of receiving sequencing data; and
A read mapping step of mapping sequencing data to taxonomy data.
제13항에 있어서, 상기 데이터 입력 단계는 시퀀싱 데이터를 rrn 오페론 카피 수 (rrn operon copy number)로 보정하는 보정 단계를 추가로 포함하는 것인, 미생물 동정 방법14. The method of claim 13, wherein the data input step further comprises a calibration step of correcting the sequencing data to an rrn operon copy number. 제13항에 있어서, 상기 맵핑은 정렬 스코어 (Alignment score)를 기준으로 가장 높은 값을 보이는 유전체 데이터만 결과로 도출함으로써 2차 정렬 (secondary alignment)을 제거하는 것인, 미생물 동정 방법.
The method of claim 13, wherein the mapping removes secondary alignment by deriving only the genomic data showing the highest value based on the alignment score as a result.
KR1020210035182A 2021-03-18 2021-03-18 METHOD FOR CONSTRUCTING rRNA OPERON DATABASE AND MICROBIAL METAGENOMIC ANALYSIS METHOD USING THEREOF KR102624180B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210035182A KR102624180B1 (en) 2021-03-18 2021-03-18 METHOD FOR CONSTRUCTING rRNA OPERON DATABASE AND MICROBIAL METAGENOMIC ANALYSIS METHOD USING THEREOF
PCT/KR2021/004625 WO2022196859A1 (en) 2021-03-18 2021-04-13 Method for constructing rrna operon database and microbial metagenomic analysis method using same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210035182A KR102624180B1 (en) 2021-03-18 2021-03-18 METHOD FOR CONSTRUCTING rRNA OPERON DATABASE AND MICROBIAL METAGENOMIC ANALYSIS METHOD USING THEREOF

Publications (2)

Publication Number Publication Date
KR20220130379A true KR20220130379A (en) 2022-09-27
KR102624180B1 KR102624180B1 (en) 2024-01-15

Family

ID=83320567

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210035182A KR102624180B1 (en) 2021-03-18 2021-03-18 METHOD FOR CONSTRUCTING rRNA OPERON DATABASE AND MICROBIAL METAGENOMIC ANALYSIS METHOD USING THEREOF

Country Status (2)

Country Link
KR (1) KR102624180B1 (en)
WO (1) WO2022196859A1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101798229B1 (en) * 2016-12-27 2017-12-12 주식회사 천랩 ribosomal RNA sequence extraction method and microorganism identification method using extracted ribosomal RNA sequence

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210017582A1 (en) * 2019-07-19 2021-01-21 Safeguard Biosystems Holdings Ltd. Detection of genomic sequences and probe molecules therefor

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101798229B1 (en) * 2016-12-27 2017-12-12 주식회사 천랩 ribosomal RNA sequence extraction method and microorganism identification method using extracted ribosomal RNA sequence

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
A. Benitez-Paez 외, "Strand-wise and bait-assisted assembly of nearly-full rrn operons applied to assess species engraftment after faecal microbiota transplantation", bioRxiv, 292896v1. (2020.09.11.) *
A. Cuscó 외, "Microbiota profiling with long amplicons using Nanopore sequencing: full-length 16S rRNA gene and whole rrn operon", bioRxiv, 450734v1. (2018.10.24.)* *
D. McDonald 외, "An improved Greengenes taxonomy with explicit ranks for ecological and evolutionary analyses of bacteria and archaea", The ISME Journal, 6:610-618. (2011.12.01.)* *
J. Martjin 외, "Confident phylogenetic identification of uncultured prokaryotes through long read amplicon seqeuncing of 16S-ITS-23S rRNA operon", Environmental microbiology, 21(7):2485-2498. (2019.) *
L. De Oliveira Martins 외, "Taxonomic resolution of the ribosomal RNA operon in bacteria: implications for its use with long-read seqeuncing", NAR genomics and bioinformatics, 2(1):1-7. (2020.) *
N. Peker 외, "A Comparison of Three Different Bioinformatics Analyses of the 16S-23S rRNA Encoding Region for Bacterial Identification", Frontiers in Microbiology, 10:620. (2019.04.16.)* *

Also Published As

Publication number Publication date
WO2022196859A1 (en) 2022-09-22
KR102624180B1 (en) 2024-01-15

Similar Documents

Publication Publication Date Title
Bickhart et al. Assignment of virus and antimicrobial resistance genes to microbial hosts in a complex microbial community by combined long-read assembly and proximity ligation
Gruber-Vodicka et al. phyloFlash: rapid small-subunit rRNA profiling and targeted assembly from metagenomes
Prior et al. Genomic and proteomic evidence supporting the division of the plant pathogen Ralstonia solanacearum into three species
Breitwieser et al. Human contamination in bacterial genomes has created thousands of spurious proteins
Press et al. Hi-C deconvolution of a human gut microbiome yields high-quality draft genomes and reveals plasmid-genome interactions
Larsen et al. Benchmarking of methods for genomic taxonomy
McQuiston et al. Molecular phylogeny of the salmonellae: relationships among Salmonella species and subspecies determined from four housekeeping genes and evidence of lateral gene transfer events
Terrat et al. Meta‐barcoded evaluation of the ISO standard 11063 DNA extraction procedure to characterize soil bacterial and fungal community diversity and composition
Ghanem et al. Core genome multilocus sequence typing: a standardized approach for molecular typing of Mycoplasma gallisepticum
KR102579902B1 (en) Sequencing process
WO2014019164A1 (en) Method and device for analyzing microbial community composition
Brealey et al. Dental calculus as a tool to study the evolution of the mammalian oral microbiome
Lachance et al. A stable phylogeny of the large‐spored Metschnikowia clade
Frantzen et al. Lactococcus lactis diversity in undefined mixed dairy starter cultures as revealed by comparative genome analyses and targeted amplicon sequencing of epsD
EP3438276A1 (en) Microorganism identification method
Godmer et al. Revisiting species identification within the Enterobacter cloacae complex by matrix-assisted laser desorption ionization–time of flight mass spectrometry
EP3511847A1 (en) Method for obtaining ribosomal rna (rrna) sequence information and method for identifying microorganism using rrna
Luo et al. Diverse gene functions in a soil mobilome
Garoutte et al. Methodologies for probing the metatranscriptome of grassland soil
Bickhart et al. Generation of lineage-resolved complete metagenome-assembled genomes by precision phasing
Kloub et al. Systematic detection of large-scale multigene horizontal transfer in prokaryotes
Orellana et al. Comparing genomes recovered from time-series metagenomes using long-and short-read sequencing technologies
Pankoke et al. Evaluation of commercially available DNA extraction kits for the analysis of the broiler chicken cecal microbiota
Martinez-Hernandez et al. Unexpected myriad of co-occurring viral strains and species in one of the most abundant and microdiverse viruses on Earth
Petters-Vandresen et al. Mating-type locus rearrangements and shifts in thallism states in Citrus-associated Phyllosticta species

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant