WO2022196859A1

WO2022196859A1 - rRNA 오페론 데이터베이스 구축 방법 및 이를 이용한 미생물 메타게놈 분석 방법

Info

Publication number: WO2022196859A1
Application number: PCT/KR2021/004625
Authority: WO
Inventors: 설동혁; 조서애
Original assignee: 주식회사 이지놈
Priority date: 2021-03-18
Filing date: 2021-04-13
Publication date: 2022-09-22
Also published as: KR102624180B1; KR20220130379A

Abstract

본 발명은 rRNA 오페론 서열을 포함하는 미생물 유전체 (genome) 정보를 통해 미생물 분류 체계를 재분류하고 rRNA 오페론 서열을 추출한 후, 서열 군집화ㆍ계통수 등을 통해 큐레이션하여 데이터베이스를 구축할 수 있는 rRNA 오페론 데이터베이스 구축 방법, 및 이를 이용하여 서열 정렬 (맵핑) 기반으로 미생물 메타게놈을 분석할 수 있는 미생물 메타게놈 분석 방법에 관한 것으로, 본 발명을 이용하면 16S-23S rRNA 오페론 분석이 간편하여 롱-리드 시퀀스 (long-read sequence)를 이용한 미생물 군집 분석에 편의를 제공하고, 종 수준의 미생물의 분류 및 동정 정확도가 향상된다.

Description

rRNA 오페론 데이터베이스 구축 방법 및 이를 이용한 미생물 메타게놈 분석 방법

본 발명은 rRNA 오페론 서열을 포함하는 미생물 유전체 (genome) 정보를 통해 미생물 분류 체계를 재분류하고 rRNA 오페론 서열을 추출한 후, 서열 군집화ㆍ계통수 등을 통해 큐레이션하여 데이터베이스를 구축할 수 있는 rRNA 오페론 데이터베이스 구축 방법, 및 이를 이용하여 서열 정렬 (맵핑) 기반으로 미생물 메타게놈을 분석할 수 있는 미생물 메타게놈 분석 방법에 관한 것이다.

지난 20여년간 배지를 이용하지 않는 배양-비의존적 분자생물학적 기법들(culture-independent molecularbiology methods)이 많이 개발되었으며, 이 기술들은 미생물의 동정뿐만 아니라 다양한 환경에 서식하는 미생물의 다양성을 연구하는데 크게 기여하고 있다.

특히, 숏-리드 시퀀싱 (Short-read sequencing)은 효율적인 비용으로 정확하게 분석이 가능하여 다양한 분석 도구 및 파이프라인 (pipeline)에서 지원한다. 그러나 천연 핵산 중합체는 길이가 길기 때문에, 짧은 시퀀싱 단편을 이용하여 염기 서열을 분석하는 숏-리드 시퀀싱을 이용하면 원래의 핵산 중합체를 재구성하고 계수하는 작업이 어렵다. 이에, 롱-리드 시퀀싱 (Long-read sequencing)을 이용하면 드누보 어셈블리 (de novo assembly), 맵핑 정확성, 전사체 이소형 식별 및 구조적 변이의 감지를 향상시킬 수 있다. 천연 분자인 DNA 및 RNA의 롱-리드 시퀀싱은 염기 변형 (base modification)을 보존하면서 증폭 편향 (amplification bias)을 제거한다. 이러한 기능 때문에 정확성이 향상되고, 처리량과 비용이 지속적으로 절감하여 모델 유기체 및 비모델 유기체에 대한 유전체학의 광범위한 응용 분야를 위하여 롱-리드 시퀀싱이 연구되었다.

나노포어 시퀀싱 (Nanopore sequencing)과 같은 롱-리드 (long-read) 기반 3세대 시퀀싱의 발전은 고품질의 유전체 조립, 구조적 변이 (structure variation)와 RNA 이소형 (isoform) 발굴의 정확도 향상, 별도의 처리 없이 염기 변형 (base modification)을 확인할 수 있게 해주는 등 유전체나 전사체 스터디를 가리지 않고 다양한 분야에서 이용되고 있다.

나노포어 시퀀싱은 메타지노믹스 (Metagenomics)에서도 이용된다. 박테리아 (bacteria)의 메타-바코딩 (meta-barcoding) 분석에서 기존 숏-리드 기반 시퀀싱은 16S rRNA 중 변이 지역 (variable region) 일부 (주로 V3-V4 지역)에만 이용할 수 있으므로, 해상도 (resolution)가 낮아 종 (species)은 커녕 속 (genus) 수준도 명확하게 구별할 수 없다. 그러나, 롱-리드 기반 시퀀싱은 16S rRNA를 타겟으로 할 수 있으므로, 종을 넘어 심지어 균주 (strain)까지 명확하게 구별할 수 있을 정도로 분류 해상도 (taxonomic resolution)가 크게 향상되었다.

최근 이에 한 발 더 나아가, 약 4,300bp 가까이 되는 16S-ITS-23S rRNA 오페론을 확인하려는 시도가 있었고, 긴 절편 (fragment)은 상대적으로 높은 에러율(error rate)을 보상함으로써 성공적으로 종 수준의 분석이 가능하였다.

그러나, 16S rRNA 분석을 위한 SILVA 또는 qiime과 같은 참조 데이터베이스와 분석 파이프라인 등이 잘 정립된 것과 달리, rRNA 오페론의 분석을 위하여는 파이프라인은 커녕 제대로 큐레이션 (curation)된 rRNA 오페론 데이터베이스 조차 없어, 메타지노믹스에서 롱-리드 시퀀싱 (Long-read sequencing)의 무궁한 잠재력에 비해 연구를 하기 위한 자원이나 기반은 매우 부족하다.

이에, rRNA 오페론 데이터베이스 및 파이프라인의 구축이 시급한 실정이다.

본 발명자들은 군유전체학 (Metagenomics)에 있어서, 박테리아 16S-23S rRNA 오페론 (operon)을 이용한 데이터베이스를 구축하여 종 (species) 수준의 미생물 동정 및 분류가 가능한 플랫폼을 만들기 위해 노력하였다.

그 결과, rRNA 오페론 서열을 포함하는 미생물 유전체 정보를 가공하여 미생물 분류 체계 데이터를 생성함으로써, 데이터베이스를 구축하면 다양한 미생물을 분류 및 동정할 수 있고, 정확도 또한 향상됨을 확인하였다.

이에, 본 발명의 목적은 rRNA 오페론 데이터베이스 구축 방법을 제공하는 것이다.

본 발명의 다른 목적은 rRNA 오페론 데이터베이스 구축 방법을 실행시키기 위해 컴퓨터로 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램에 관한 것이다.

본 발명의 또 다른 목적은 컴퓨터로 구현되는 rRNA 오페론 데이터베이스 시스템에 관한 것이다.

본 발명의 또 다른 목적은 rRNA 오페론 데이터베이스를 이용한 미생물 동정 방법에 관한 것이다.

본 발명의 또 다른 목적은 미생물 동정 방법을 실행시키기 위해 컴퓨터로 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램에 관한 것이다.

본 발명의 또 다른 목적은 컴퓨터로 구현되는 미생물 동정 시스템에 관한 것이다.

본 발명은 rRNA 오페론 서열을 포함하는 미생물 유전체 정보로부터 유효 데이터만을 추출하고, 유효 데이터를 이용하여 미생물 분류 체계 데이터를 생성함으로써 데이터베이스를 구축하는 rRNA 오페론 데이터베이스 구축 방법, 및 이를 이용하여 서열 정렬 (맵핑, mapping) 기반으로 미생물 메타게놈을 분석할 수 있는 미생물 메타게놈을 분석하는 동정 방법에 관한 것이다.

이하 본 발명을 더욱 자세히 설명하고자 한다.

본 발명의 일 예는 다음의 단계를 포함하는 rRNA 오페론 데이터베이스 구축 방법에 관한 것이다:

유전체 (genome) 정보로부터 초기 데이터를 생성하는 데이터 획득 단계;

초기 데이터를 이용하여 앰플리콘 산물 (amplicon product) 데이터를 생성하는 앰플리콘 생성 단계;

앰플리콘 산물 데이터 중 모호한 염기서열 (ambiguous nucleotide)을 포함하는 앰플리콘 산물 데이터를 제거하여 유효 데이터를 생성하는 퀄리티 컨트롤 단계; 및

유효 데이터를 이용하여 분류 체계 데이터를 생성하는 데이터베이스 구축 단계;

를 포함하고,

상기 데이터 획득 단계 또는 상기 퀄리티 컨트롤 단계는 분류군 재분류를 추가로 수행하는 것인, rRNA 오페론 데이터베이스 구축 방법.

본 발명에 있어서 데이터 획득 단계는 유전체 (genome) 정보로부터 초기 데이터를 생성하는 것일 수 있다.

본 발명에 있어서 유전체 정보는 미생물 유전체 정보를 의미하는 것일 수 있다.

본 발명에 있어서 미생물은 장내 미생물, 박테리아 등과 같이 오페론 서열을 포함하는 원핵생물일 수 있으나, 이에 한정되는 것은 아니다.

본 발명에 있어서 유전체 (genome) 정보는 미국 국립생물공학정보센터 (National Center for Biotechnology Information; NCBI)의 Genbank, 유럽 생물정보학 기관-유럽 핵산 기록보관소 (European Bioinformatics Institute-European Nucleotide Archive; EBI-ENA), 일본국립유전학연구소의 (National Institute of Genetics)의 일본 DNA 데이터 은행 (DNA Data Bank of Japan; DDBJ), 미국 에너지부 (U.S. Department of ENERGY; USDOE) 산하의 통합 미생물 유전체 & 메타게놈 (Integrated Microbial Genomes & Microbiomes; IMG/M) 및 Ensembl로 이루어진 군으로부터 선택되는 1종 이상의 데이터베이스로부터 획득하는 것일 수 있으며, 예를 들어, 미국 국립생물공학정보센터의 유전자 은행 (NCBI gene bank) 데이터베이스로부터 획득되는 것일 수 있으나, 이에 한정되는 것은 아니다.

본 발명에 있어서 유전체 정보는 16S rRNA를 암호화하는 염기서열, 23S rRNA를 암호화하는 염기서열 및 16S-ITS-23S rRNA를 암호화하는 염기서열로 이루어진 군으로부터 선택되는 1종 이상의 정보를 포함하는 것일 수 있다.

16S rRNA는 원핵생물 리보솜의 30S 소단위체를 구성하고 있는 rRNA로, 약 1,500 뉴클레오타이드 정도의 길이를 갖는 것일 수 있다. 16S rRNA의 서열은 대부분 상당히 보존되어 있는 한편 일부 구간에서는 높은 염기서열 다양성이 나타난다. 특히 동종간에는 다양성이 거의 없는 반면에 타종간에는 다양성이 나타나므로 생물동정에 사용된다.

본 발명에 있어서 16S-ITS-23S rRNA는 16S rRNA를 암호화하는 염기서열, 내부전사스페이서 (Internal transcribed spacer; ITS), 및 23S rRNA를 암호화하는 염기서열을 포함하는 것일 수 있다.

16S rRNA를 암호화하는 염기서열, 23S rRNA를 암호화하는 염기서열 또는 16S-ITS-23S rRNA를 암호화하는 염기서열을 이용하면 서로 다른 미생물을 분류하거나 동정할 수 있다.

ITS는 미생물의 유전체상 16S rRNA 오페론과 23S rRNA 오페론 사이에 tRNA 등이 포함되는 내부전사스페이서 (Internal transcribed spacer; ITS)를 의미하는 것일 수 있다.

본 명세서에서, 용어 “오페론 (operon)”은 일반적으로 단백질을 암호화하는 일련의 유전자군 (염기서열)을 포함하는 DNA 단편을 의미하는 것일 수 있다.

본 발명에 있어서 초기 데이터는 미생물의 명칭, 전장 유전체 서열, 종명, 속명, 유전체 조립 수준 (assembly level) 및 유전체 등록번호 (accession number) 정보를 포함하는 것일 수 있으나, 이에 한정되는 것은 아니다.

본 발명에 있어서 유전체 조립 수준은 초기 데이터로부터 앰플리콘 산물 데이터 또는 유효 데이터가 생성되지 않을 경우, 초기 데이터 자체에 문제 여부, 앰플리콘 산물로의 생성 방법에 문제 여부, 또는 유효 데이터로의 생성 방법에 문제 여부 등이 있는지 확인하기 위해 이용되는 것일 수 있다.

본 발명에 있어서 데이터 획득 단계는 분류군 재분류 (taxa-reassignment)를 추가로 수행할 수 있다.

본 발명에 있어서 분류군 재분류는 초기 데이터를 참조 유전체 분류 정보와 비교하여, 초기 데이터 중 분류군 오분류 데이터 (taxa mis-assignment)의 분류군을 재분류 (reassignment)하거나, 오염된 데이터 (contaminant)를 제거하는 것일 수 있다.

본 발명의 일 구체예에서, 참조 유전체 분류 정보는 예를 들어, 보존된 단백질 세트 (set of conserved proteins) 기반의 계통학적 접근 방식에 따라 제안된 원핵 생물 명명법 (nomenclature of prokaryotes)과 관련된 유전체 분류학 데이터베이스 (Genome Taxonomy Database; GTDB)일 수 있다.

본 발명에 있어서 분류군 오분류 데이터는 분류군이 지정되지 않은 미생물 데이터, 종 수준 (species-level)까지 분류되지 않은 미생물 데이터 또는 분류군이 잘못 지정된 미생물 데이터를 의미하는 것일 수 있다.

본 발명에 있어서 오염된 데이터는 하나의 미생물 데이터에 적어도 2 이상의 종으로부터 유래된 미생물 유전체 서열이 섞인 미생물 데이터를 의미하는 것일 수 있다.

분류군 오분류 (taxa mis-assignment) 또는 오염된 (contaminant) 데이터는 공공 저장 데이터베이스 (public repository)에 저장된 데이터가 가지는 일반적인 문제점으로서, 이를 제거하지 않고 이용할 경우, 데이터베이스 전체의 신뢰성을 감소시킬 수 있다.

본 발명에 있어서 분류군 재분류는 GTDB-Tk 또는 CheckM 소프트웨어를 이용하여 수행되는 것일 수 있으며, 예를 들어, GTDB-Tk 소프트웨어를 이용하여 수행되는 것일 수 있으나, 이에 한정되는 것은 아니다.

본 발명에 있어서 앰플리콘 생성 단계는 초기 데이터를 이용하여 앰플리콘 산물 (amplicon product) 데이터를 생성하는 것일 수 있다.

본 발명에 있어서 앰플리콘 산물 데이터는 3,500 내지 7,000 bp 사이의 크기를 갖는 앰플리콘 산물의 염기서열 정보를 포함하는 것일 수 있다.

미생물 유전체는 하나 이상의 rRNA 오페론이 존재할 수 있고, 예를 들어, 2개의 오페론이 존재하는 경우, 일부 앰플리콘 산물은 첫 번째 오페론과 두 번째 오페론을 모두 포함할 수 있어, 미생물 분류 또는 동정 정확도를 떨어트릴 수 있다. 본 발명에서는 앰플리콘 산물의 크기를 한정함으로써 2종 이상의 오페론을 포함하는 앰플리콘 산물을 유효 데이터에서 제거할 수 있다.

본 발명에 있어서 앰플리콘 산물 데이터는 EMBOSS-primersearch 소프트웨어를 이용하여 생성되는 것일 수 있다.

본 발명에 있어서 앰플리콘 산물 데이터는 표 1에 나타낸 16S-27F 프라이머 및 23S-2241R 프라이머를 이용하여 생성되는 것일 수 있다.

본 발명에 있어서 퀄리티 컨트롤 단계는 앰플리콘 산물 데이터 중 모호한 염기서열 (ambiguous nucleotide)을 포함하는 앰플리콘 산물 데이터를 제거하여 유효 데이터를 생성하는 것일 수 있다.

본 명세서에서, 용어 “모호한 염기서열 (ambiguous nucleotide)”은 A, G, T 및 C를 제외한 기타 염기로 이루어진 염기서열을 의미하는 것일 수 있다.

본 발명에 있어서 데이터 획득 단계 또는 퀄리티 컨트롤 단계는 분류군 재분류를 추가로 수행할 수 있다.

본 발명의 일 구체예에서, 데이터 획득 단계가 분류군 재분류를 추가로 수행한 경우, 퀄리티 컨트롤 단계는 분류군 재분류를 추가로 수행하지 않을 수 있다.

본 발명의 일 구체예에서, 데이터 획득 단계가 분류군 재분류를 추가로 수행하지 않은 경우, 퀄리티 컨트롤 단계는 분류군 재분류를 추가로 수행할 수 있다.

본 발명에 있어서 데이터베이스 구축 단계는 서열 군집화 및 계통수 구축을 통해 유효 데이터로부터 분류 체계 데이터를 생성하는 것일 수 있다.

본 발명에 있어서 서열 군집화는 유효 데이터를 이용하여 서로 다른 미생물의 유전체 서열을 비교하여 유사도가 높은 오페론 서열을 1군으로 군집화하는 것일 수 있다.

본 발명에 있어서 서열 군집화는 Cd-hit-est 및 UCLUST로 이루어진 군으로부터 선택되는 1종을 이용하여 수행되는 것일 수 있으며, 예를 들어, Cd-hit-est를 이용하여 수행되는 것일 수 있으나, 이에 한정되는 것은 아니다.

본 발명에 있어서 계통수 구축은 유효 데이터를 이용하여 서로 다른 미생물의 유전체 서열을 비교하여 동일한 과 (family) 내에 속하는 미생물의 계통수 (phylogenetic tree)를 구축하는 것일 수 있다.

본 발명에 있어서 계통수 구축은 IQ-tree 및 MEGA로 이루어진 군으로부터 선택되는 1종을 이용하여 수행되는 것일 수 있으며, 예를 들어, IQ-tree를 이용하여 수행되는 것일 수 있으나, 이에 한정되는 것은 아니다.

앰플리콘 조립 중에 데이터가 오염되었거나 기타 원인을 알 수 없는 이유로 인해, 서로 다른 종이면서도 오페론 서열이 비슷하거나 동일한 미생물은 다른 미생물 종의 군에 속하거나 계통수에 속할 수 있다. 서열 군집화 및 계통수 구축을 통해, 서로 다른 종이면서도 오페론 서열이 비슷하거나 동일한 어느 한 쪽의 미생물 유전체 정보를 제거할 수 있고, 이는 최종 데이터베이스에 포함되는 분류 체계 데이터의 신뢰도를 향상시킬 수 있다.

본 발명의 일 구체예에서, 분류 체계 데이터는 16S-ITS-23S rRNA 오페론 서열, 미생물 재분류 후 분류군, 미생물 재분류 전 분류군, 유전체의 조립 수준, 유전체의 rRNA 오페론 복제 수 및 프라이머 결합 지역 서열 정보를 포함하는 것일 수 있다.

본 발명의 일 구체예에서, 미생물 재분류 전과 후는 GTDB-Tk을 이용하여 분류군 재분류를 수행하기 전과 후를 의미하는 것일 수 있다.

본 발명에 있어서 데이터베이스 구축 단계는 필터링 단계를 추가로 포함할 수 있다.

본 발명에 있어서 필터링 단계는 블라스트 (Basic Local Alignment Search Tool; BLAST)를 이용하여 분류 체계 데이터 중 부정 조립 (mis assembly) 등으로 인해 잘못 만들어진 데이터를 제거하는 것일 수 있다.

본 발명의 다른 일 예는 다음의 단계를 포함하는, rRNA 오페론 데이터베이스 구축 방법을 실행시키기 위해 컴퓨터로 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램에 관한 것이다:

를 포함하고,

상기 데이터 획득 단계 또는 상기 퀄리티 컨트롤 단계는 분류군 재분류를 추가로 수행하는 것인, rRNA 오페론 데이터베이스 구축 방법을 실행시키기 위해 컴퓨터로 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램.

본 발명의 또 다른 일 예는 컴퓨터로 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하는 rRNA 오페론 데이터베이스 시스템에 있어서,

상기 적어도 하나의 프로세서는,

유전체 (genome) 정보로부터 초기 데이터를 생성하고;

초기 데이터로부터 앰플리콘 산물 데이터를 생성하고;

앰플리콘 산물 데이터 중 모호한 염기서열 (ambiguous nucleotide)을 포함하는 앰플리콘 산물 데이터를 제거하여 유효 데이터를 생성하고; 및

유효 데이터를 이용하여 분류 체계 데이터를 생성하며;

상기 초기 데이터를 생성한 후 또는 상기 유효 데이터를 생성한 후에 추가로 분류군 재분류를 수행하는 것인, rRNA 오페론 데이터베이스 시스템에 관한 것이다.

본 발명의 일 구현예에서, 컴퓨터 프로그램은 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로 (collectively) 처리 장치를 명령할 수 있다. 상기 컴퓨터 프로그램은, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소 (component), 물리적 장치, 가상장치 (virtual equipment), 컴퓨터 저장 매체 또는 장치에 영구적으로, 또는 일시적으로 구체화 (embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수 있다. 상기 컴퓨터 프로그램은 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

본 발명의 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 판독이 가능한 매체에 기록될 수 있다. 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magnetooptical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.

매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 당업자에게 공지되어 사용 가능한 것일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

본 발명의 또 다른 일 예는 다음의 단계를 포함하는 미생물 동정 방법에 관한 것이다:

시퀀싱 데이터 (sequencing data)를 입력받는 데이터 입력 단계; 및

시퀀싱 데이터를 분류 체계 데이터에 맵핑 (mapping)하는 리드 맵핑 단계.

본 발명에 있어서 데이터 입력 단계는 시퀀싱 데이터 (sequencing data)를 입력받는 것일 수 있다.

본 발명에 있어서 시퀀싱 데이터는 동정하려는 미생물의 시퀀싱 산물일 수 있다.

본 발명에 있어서 시퀀싱 데이터는 복수 개의 동정하려는 미생물에 대한 유전체의 시퀀싱 산물을 포함할 수 있으나, 이에 한정되는 것은 아니다.

본 발명에 있어서 시퀀싱 데이터는 16S rRNA를 암호화하는 염기서열 정보, 23S rRNA를 암호화하는 염기서열 및 16S-ITS-23S rRNA를 암호화하는 염기서열로 이루어진 군으로부터 선택되는 1종 이상을 포함하는 것일 수 있다.

본 발명에 있어서 데이터 입력 단계는 시퀀싱 데이터를 rrn 오페론 카피 수 (rrn operon copy number)로 보정하는 보정 단계를 추가로 포함할 수 있다.

본 명세서에서 용어 “rrn 오페론 카피 수”는 하나의 미생물 유전체로부터 생성된 앰플리콘 산물 (amplicon product)의 개수를 의미할 수 있다.

본 발명의 일 구체예에서, 보정 단계는 하나의 미생물에 대한 시퀀싱 산물인 시퀀싱 데이터의 수를 해당 미생물의 rrn 오페론 카피 수로 나누는 것일 수 있다.

본 발명에 있어서 리드 맵핑 단계는 시퀀싱 데이터를 분류 체계 데이터에 리드 맵핑 (read mapping)하여 미생물을 동정 (identification)하는 것일 수 있다.

본 발명에 있어서 리드 맵핑 단계는 샘플에 포함되는 미생물의 염기서열 정보를 분류 체계 데이터에 포함되는 16S-23S rRNA 오페론 서열, 미생물 재분류 후 분류군, 미생물 재분류 전 분류군, 유전체의 조립 수준, 유전체의 rRNA 오페론 복제 수 및 프라이머 결합 지역 서열 정보와 비교하는 것일 수 있다.

본 발명에 있어서 리드 맵핑은 정렬 스코어 (Alignment score)를 기준으로 낮은 값을 갖는 것은 결과로 도출하지 않고, 가장 높은 값을 보이는 것만 결과로 도출함으로써 2차 정렬 (secondary alignment)을 제거하는 것일 수 있다.

본 명세서에서, 용어 '정렬 스코어 (Alignment score)'는 정렬된 미생물의 염기서열 쌍의 개별 염기에 일정한 값을 할당한 후, 정렬한 길이에 대해 일정한 값을 합산한 값을 의미할 수 있다.

본 명세서에서, 용어 '2차 정렬 (secondary alignment)'은 시퀀싱 데이터 (sequencing data)를 분류 체계 데이터에 맵핑하는 과정에서 시퀀싱 오류, 시퀀싱된 DNA와 참조 간의 불완전한 일치 등의 이유로 인하여 유효하게 서열이 정렬되지 않은 것을 의미할 수 있다.

본 발명에 있어서 분류 체계 데이터는 본 발명의 rRNA 오페론 데이터베이스 구축 방법에서 생성되는 것일 수 있다.

본 발명에 있어서 리드 맵핑 단계는 BLASR, Minimap2 및 NGMLR로 이루어진 군으로부터 선택되는 1종을 이용하여 수행되는 것일 수 있으며, 예를 들어, Minimap2를 이용하여 수행되는 것일 수 있으나, 이에 한정되는 것은 아니다.

본 발명에 있어서 리드 맵핑 단계는 시각화 단계를 추가로 포함하는 것일 수 있다.

본 발명에 있어서 시각화 단계는 동정한 미생물 정보를 이용하여, Krona 소프트웨어로 계통수를 생성하거나, Matplotlib 소프트웨어로 미생물 종별 함량 그래프를 생성 또는 이들 모두를 생성하는 것일 수 있으나, 이에 한정되는 것은 아니다.

본 발명의 또 다른 일 예는 다음의 단계를 포함하고, 미생물 동정 방법을 실행시키기 위해 컴퓨터로 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램에 관한 것이다:

시퀀싱 데이터를 분류 체계 데이터에 리드 맵핑 (read mapping)하는 리드 맵핑 단계.

본 발명에 있어서 미생물 동정 방법을 실행시키기 위해 컴퓨터로 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램은 본 발명의 rRNA 오페론 데이터베이스 구축 방법을 통해 구축된 데이터베이스를 이용하는 것일 수 있다.

본 발명의 또 다른 일 예는 컴퓨터로 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하는 미생물 동정 시스템에 있어서,

상기 적어도 하나의 프로세서는,

시퀀싱 데이터 (sequencing data)를 입력받고; 및

시퀀싱 데이터를 분류 체계 데이터에 리드 맵핑 (read mapping)하는 것인, 미생물 동정 시스템.

본 발명에 있어서 미생물 동정 시스템은 본 발명의 rRNA 오페론 데이터베이스 구축 방법을 통해 구축된 데이터베이스를 이용하는 것일 수 있다.

본 발명은 rRNA 오페론 데이터베이스 구축 방법 및 이를 이용한 미생물 메타게놈 분석 방법에 관한 것으로, 본 발명을 이용하면 16S-23S rRNA 오페론 분석이 간편하여 롱-리드 시퀀스 (long-read sequence)를 이용한 미생물 군집 분석에 편의를 제공하고, 종 수준의 미생물의 분류 및 동정 정확도를 향상시킬 수 있다.

도 1a는 본 발명의 일 실시예에 따른 데이터베이스의 구축 과정을 전체적으로 나타낸 흐름도이다.

도 1b는 본 발명의 일 실시예에 따른 파이프라인이 표현할 수 있는 시각화 (visualization) 예시인 누적 바 플롯 (stacked bar plot)의 외관을 나타낸 것이다.

도 2는 본 발명의 일 실시예에 따른 데이터베이스에 참조 서열이 입력되기 전후의 미생물 동정 결과를 나타낸 것이다.

도 3a는 본 발명의 일 실시예에 따른 데이터베이스와 rrn-DBv2 데이터베이스를 이용하여 MOCK1 군집에 포함되는 미생물을 동정한 결과 나타나는 위양성 (false positive) 값을 나타낸 것이다.

도 3b는 본 발명의 일 실시예에 따른 데이터베이스와 rrn-DBv2 데이터베이스를 이용하여 MOCK2 군집에 포함되는 미생물을 동정한 결과 나타나는 위양성 값을 나타낸 것이다.

도 4a는 본 발명의 일 실시예에 따른 데이터베이스와 rrn-DBv2 데이터베이스를 이용하여 MOCK1 군집에 포함되는 미생물을 동정한 결과 나타나는 알파 다양성 (alpha diversity) 값을 나타낸 것이다.

도 4b는 본 발명의 일 실시예에 따른 데이터베이스와 rrn-DBv2 데이터베이스를 이용하여 MOCK2 군집에 포함되는 미생물을 동정한 결과 나타나는 알파 다양성 값을 나타낸 것이다.

도 5a는 본 발명의 일 실시예에 따른 데이터베이스와 rrn-DBv2 데이터베이스를 이용하여 MOCK1 군집에 포함되는 미생물을 동정한 결과 나타나는 미생물 상대 함량 (relative abundance)을 나타낸 것이다.

도 5b는 본 발명의 일 실시예에 따른 데이터베이스와 rrn-DBv2 데이터베이스를 이용하여 MOCK2 군집에 포함되는 미생물을 동정한 결과 나타나는 미생물 상대 함량을 나타낸 것이다.

유전체 (genome) 정보로부터 초기 데이터를 생성하는 데이터 획득 단계; 초기 데이터를 이용하여 앰플리콘 산물 (amplicon product) 데이터를 생성하는 앰플리콘 생성 단계; 앰플리콘 산물 데이터 중 모호한 염기서열 (ambiguous nucleotide)을 포함하는 앰플리콘 산물 데이터를 제거하여 유효 데이터를 생성하는 퀄리티 컨트롤 단계; 및 유효 데이터를 이용하여 분류 체계 데이터를 생성하는 데이터베이스 구축 단계;를 포함하고, 상기 데이터 획득 단계 또는 상기 퀄리티 컨트롤 단계는 분류군 재분류를 추가로 수행하는 것인, rRNA 오페론 데이터베이스 구축 방법.

이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 보다 구체적으로 설명하기 위한 것으로, 본 발명의 요지에 따라 본 발명의 범위가 이들 실시예에 의해 제한되지 않는다는 것은 당 업계에서 통상의 지식을 가진 자에 있어서 자명할 것이다.

실험예 1. 16S-23S rRNA 오페론 데이터베이스 구축

데이터베이스 구축 과정을 요약하면, NCBI로부터 박테리아 지놈 (bacterial genome)을 다운받은 후, EMBOSS-primersearch를 이용하여 16S-27F 프라이머 및 23S-2241R 프라이머로 16S-ITS-23S 앰플리콘 산물 (amplicon product)을 생성하였다. 필터링 (filtering) 및 큐레이션 (curation)은 다음의 기준 및 방법으로 수행되었다.

(1) 앰플리콘 산물 (amplicon product)의 사이즈는 3,500 내지 7,000 bp 사이일 것;

(2) A, T, G, C를 제외한 불분명한 뉴클레오티드 (ambiguous nucleotide)가 포함된 서열은 제거할 것;

(3) 산물이 만들어진 지놈의 경우 분류 오배정 (taxonomy mis-assignment)을 방지하기 위해 GTDBtk (Genome Database Taxonomy GTDB를 기반으로 세균 및 고세균 지놈에 객관적인 분류학적 분류를 할당하기 위한 소프트웨어 툴킷)를 수행한 후, 배정이 되지 않거나 종 수준 (species-level)까지 배정이 되지 않은 지놈을 제외할 것;

(4) 같은 종으로서 완전히 일치하는 오페론은 제거하고, 다른 종이지만, 오페론이 비슷하거나 같은 경우 한 쪽 지놈을 제거할 것.

여기서 (4)는 (4-1) 같은 과 (family) 내에서 계통수를 구축하고 (phylogenetic tree construction), (4-2) 부정 조립 (mis assembly) 등으로 인해 발생된 서열을 확인한 후, 웹-블라스트 (web-blast) 함으로써 수행되었다.

1-1. 미생물 유전체 데이터 획득

미국 국립생물공학정보센터 (National Center for Biotechnology Information; NCBI)의 Genbank로부터 이용할 수 있는 최대한 많은 종의 전장 유전체 서열 (full-length genome)과 이에 해당하는 미생물의 명칭, 종명, 속명, 유전체 조립 수준 (assembly level) 및 유전체 등록번호 (accession number)를 포함하는 시퀀싱 데이터 (sequencing data)를 획득하였다.

획득한 유전체 데이터는 예를 들어, 미생물의 명칭이 Escherichia coli일 수 있으나, 공공 저장 데이터베이스 (public repository)의 특성상 이의 전장 유전체 서열은 Escherichia coli의 것이 아닌 Lactobacillus casei의 것일 수 있다.

따라서, 아래와 같은 퀄리티 컨트롤 (quality control; QC)을 수행함으로써, 획득한 유전체 데이터에서 공공 저장 데이터베이스의 문제점인 분류군 오분류 (taxa mis-assignment) 데이터 또는 오염된 (contaminant) 데이터를 확인한 후, 데이터베이스 구축에 유효한 데이터만을 남기고, 데이터가 오염되거나 분류군이 잘못 분류된 데이터를 제거하였다.

1-2. rRNA 오페론 서열 추출

EMBOSS-primersearch와 표 1에 나타낸 16S-27F 프라이머 및 23S-2241R 프라이머를 이용하여, 퀄리티 컨트롤을 마친 유효 데이터로부터 16S-ITS-23S 앰플리콘 산물 (amplicon product)을 생성하였다.

서열번호	명명	서열목록	비고
1	16S-27F primer	5'-AGRGTTYGATYHTGGCTCAG-3'
2	23S-2241R primer	5'-ACCRCCCCAGTHAAACT-3'

16S-ITS-23S 앰플리콘 산물에서 3,500 내지 7,000 bp 사이의 크기를 갖는 앰플리콘 산물만을 남기고, 서열 내 A, G, T 및 C를 제외한 모호한 염기서열 (ambiguous nucleotide)이 포함되는지를 확인하여, 유효 데이터에서 모호한 염기서열을 포함하는 앰플리콘 산물을 모두 제거하였다.

이후 유효 데이터를 이용하여 GTDB-Tk로 미생물 분류 체계를 재분류 (reassignment)하였다. 참고로, GTDB-Tk는 데이터베이스의 전체 구축 과정에서 적어도 1회 이상 수행하면 충분하다.

재분류는 분류가 되지 않았거나 종 수준 (species-level)까지 분류가 되지 않은 지놈 데이터를 제거함으로써 수행되었다. 또한, Cd-hit-est 소프트웨어 툴을 이용하여, 서로 다른 지놈이 같은 종으로 분류되면서 오페론 서열이 완전히 일치하는 경우에는 그 오페론 서열은 제거하였고 (deduplicated), 다른 종이면서 오페론 서열이 비슷하거나 동일한 경우에는 어느 한 쪽의 지놈을 제거하였다 (Sequence clustering).

다음으로, IQ-tree를 이용하여 같은 과 (family) 내에서 속 (genus)과 종 (species)을 나타낸 계통수를 구축한 후 (phylogenetic tree construction), 블라스트 (Basic Local Alignment Search Tool; BLAST)를 수행하여 부정 조립 (mis assembly) 등으로 인해 만들어진 서열을 확인하였다. 최종적으로, 다른 종이면서 오페론 서열이 비슷하거나 동일한 경우에는 어느 한 쪽의 유전체를 제거함으로써 (filtering) 데이터베이스를 구축하였다.

실험예 2. 미생물 동정 및 분류를 위한 파이프라인 구축

2-1. rrn 오페론 카피 수 산출

실험예 1-2에서 재분류된 미생물 분류 체계를 기준으로 미생물 종별 평균 rrn 오페론 카피 수 (rrn operon copy number)를 산출하였다. rrn 오페론 카피 수는 실험예 1-2에서 하나의 미생물 유전체로부터 생성된 앰플리콘 산물 (amplicon product)의 개수를 의미한다. rrn 오페론 카피 수 (rrn operon copy number)는 미생물 종별 상대함량 데이터를 보정할 수 있다.

미생물 종별 상대함량 데이터의 보정은 예를 들어, 평균 rrn 오페론 카피 수가 미생물 A는 7이고, 미생물 B는 3인 경우, 시료 내에 미생물 A와 미생물 B를 시퀀싱하여 리드를 얻고, 각 리드를 그에 해당하는 각 미생물의 rrn 오페론 카피 수로 나누는 것을 의미한다.

2-2. 리드 맵핑 (Read mapping)

데이터를 차례대로 전달하는 일련의 시스템인 파이프라인 (Pipeline)은 파이썬 (python)으로 구현되어 있으며, minimap2 기반 리드 맵핑 (read mapping)을 사용하였다.

높은 에러율 (error rate)에 의한 위양성 (false positive)을 줄이기 위해 2차 정렬 (secondary alignment)을 제거하였다. 리드 (read)는 서열 상동성으로 인해 rRNA 오페론 데이터베이스상에서 두 군데 이상의 유전체 정보에 정렬될 가능성이 있다. 이 경우, 정렬 스코어 (Alignment score)를 기준으로 낮은 값을 갖는 것은 결과로 도출하지 않고, 가장 높은 값을 보이는 것만 결과로 도출함으로써 2차 정렬 제거를 수행하였다.

정렬 블록 길이는 (alignment block length) 3,500 bp인 것을, 그리고 잔기 매치 수 (number of residue matches)는 2,500 bp인 것의 정렬 (alignment)만 고려하였다. 정렬 블록 길이는 rRNA 오페론 서열의 평균 길이가 약 4,300bp 임을 고려하여 3,500bp 이상인 것으로, 잔기 매치 수는 나노포어 (nanopore)의 리드 (read) 정확도가 80 내지 90%를 나타내는 것을 고려하여 2,500bp 이상인 것으로 설정하였다. 정렬 블록 길이의 경우, 2,200bp 수준으로 정렬 블록을 설정하면 위양성 (false positive) 발생가능성이 높아질 수 있다.

본 발명의 일 실시예에 따른 데이터베이스의 전체 구축 과정은 도 1a에 나타내었다. MIrROR는 본 발명의 일 실시예에 따라 구축된 데이터베이스의 명칭이다.

2-3. 시각화 (Visualization)

파이프라인 수행 후 결과물인 각 샘플의 프로파일 (profile)은 Krona (생물 정보 시각화를 위한 메타 유전체 시각화 도구)를 이용하여 시각화하였다. 또한, 미생물 전체 군집은 Matplotlib (파이썬의 매트랩과 유사한 것으로서 그래프 표시를 가능하게 하는 라이브러리)을 이용하여 누적 플롯 (stacked plot)으로 나타내었다.

본 발명의 시각화 (visualization)에서 Matplotlib을 이용하면 나타낼 수 있는 누적 바 플롯 (stacked bar plot) 예시를 도 1b에 나타내었다. 여기서, Krona를 이용하여 시각화하면 크로나 플롯 (Krona plot)을 제공할 수 있다.

실험예 3. rRNA 데이터베이스인 rrn_DBv2와의 비교

3-1. 데이터베이스 비교 분석을 위한 준비

8개의 미생물 DNA가 포함된 MOCK1 (ZymoBIOMICS^®)과 인간 장관 (human gut)을 모방하여 14개의 미생물 DNA가 포함된 MOCK2 (ZymoBIOMICS^®)를 대상으로 비교를 수행하였다.

MOCK1 및 MOCK2 군집의 미생물 이론적 함량은 표 2에 나타내었다.

MOCK 군집	제품명	카탈로그 번호	종	이론적 함량 (16S-23S rRNA 오페론)
MOCK1	ZymoBIOMICS® Microbial Community Standard	D6300	Bacillus subtilis	17.4
			Enterococcus faecalis	9.9
			Escherichia coli	10.1
			Lactobacillus fermentum	18.4
			Listeria monocytogenes	14.1
			Pseudomonas aeruginosa	4.2
			Salmonella enterica	10.4
			Staphylococcus aureus	15.5
			Cryptococcus neoformans	Fungi
			Saccharomyces cerevisiae	Fungi
MOCK2	ZymoBIOMICS® Gut Microbiome Standard	D6331	Akkermansia muciniphila	0.97
			Bacteroides fragilis	9.94
			Bifidobacterium adolescentis	8.78
			Clostridioides difficile	2.62
			Clostridium perfringens	0.0002
			Enterococcus faecalis	0.0009
			Escherichia coli	12.12
			Faecalibacterium prausnitzii	17.63
			Fusobacterium nucleatum	7.49
			Lactobacillus fermentum	9.63
			Prevotella corporis	4.98
			Roseburia hominis	9.89
			Salmonella enterica	0.009
			Veillonella rogosae	15.87
			Methanobrevibacter smithii	Archaea
			Candida albicans	Fungi
			Saccharomyces cerevisiae	Fungi

3-2. 오분류된 분류군 (misclassified taxa)

롱-리드 시퀀싱 (Long-read sequencing)을 이용하여 얻은 MOCK1 및 MOCK2의 rrn 오페론 서열 정보로 MOCK1 및 MOCK2에 포함된 미생물 종을 분류 및 동정한 결과, 분류군이 오분류된 경우 (misclassified taxa)를 표 3에 나타내었다.

MOCK 군집	GTDB taxonomy (Read count)	NCBI taxonomy	Species taxid	Read count
MOCK1_1	Escherichia flexneri (12,325)	Escherichia coli	562	11,964
		Salmonella sp. HNK130	2664291	123
		Shigella sonnei	624	96
		Shigella dysenteriae	622	55
		Shigella boydii	621	35
		Shigella flexneri	623	32
		Escherichia sp. R3	2082618	20
	Bacillus marinus (5471)	Bacillus intestinalis	1963032	3146
	Bacillus marinus (5471)	Bacillus subtilis	1423	2325
MOCK1_2	Escherichia flexneri (7918)	Escherichia coli	562	7693
		Salmonella sp. HNK130	2664291	79
		Shigella sonnei	624	63
		Shigella dysenteriae	622	39
		Shigella flexneri	623	21
		Shigella boydii	621	15
		Escherichia sp. R3	2082618	8
	Bacillus marinus (5471)	Bacillus intestinalis	1963032	2037
	Bacillus marinus (5471)	Bacillus subtilis	1423	1435
MOCK2_1	Escherichia flexneri (3341)	Escherichia coli	562	3192
		Salmonella sp. HNK130	2664291	70
		Shigella dysenteriae	622	32
		Shigella sonnei	624	16
		Shigella flexneri	623	14
		Shigella boydii	621	14
		Shigella sp. SF-2015	1776082	2
		Escherichia sp. R3	2082618	1
MOCK2_2	Escherichia flexneri (4256)	Escherichia coli	562	4039
		Salmonella sp. HNK130	2664291	90
		Shigella dysenteriae	622	42
		Shigella sonnei	624	40
		Shigella boydii	621	27
		Shigella flexneri	623	15
		Shigella sp. SF-2015	1776082	3

표 3에서 확인할 수 있듯이, MOCK1에서 1%를 초과한 미생물 종은 총 8종으로, 이 중 6개인 Enterococcus faecalis, Lactobacillus fermentum, Listeria monocytogenes, Pseudomonas aeruginosa, Salmonella enterica 및 Staphylococcus aureus는 기대한대로 분류되었으나, 나머지 2종은 Escherichia coli 대신 Escherichia flexneri로, Bacillus subtilis 대신 Bacillus marinus로 오분류되었는데, 기존 NCBI taxonomy를 적용할 시에는 E. coli 및 B. subtilis가 제대로 분류되었다.

MOCK2 샘플에서는 0.01% 이하로 포함된 3종을 제외한 총 11종 중에서 8종은 기대한대로 분류되었으나, MOCK1과 같이 E. coli가 E. flexneri로 검출되었고, Veillonella rogosae가 Veillonella dispar로, Prevotella corporis 가 Prevotella fucsa로 오분류되었다.

E. coli의 오분류 원인은 MOCK1과 동일하게 GTDB에 의한 재분류 때문이었다.

P. corporis의 오분류 원인을 파악하기 위하여, NCBI 접근 번호 (NCBI accession number), 각 콘티그 (contig), rRNA 유전자 (gene) 및 위치 (position, 괄호 안은 가닥을 의미함)를 표 4에 나타내었다.

NCBI 문헌 번호	콘티그	rRNA 유전자	위치 (strand)
GCF_000430525.1	NZ_AUME01000079.1	5S rRNA	3028-3113(-)
GCF_000430525.1	NZ_AUME01000091.1	23S rRNA	1-1188 (-)
GCF_000613365.1	NZ_BAIT01000093.1	5S rRNA	49-157 (-)
	NZ_BAIT01000093.1	23S rRNA	342-3234 (-)
	NZ_BAIT01000116.1	16S rRNA	2-1250 (-)
GCF_001546595.1	NZ_KQ957193.1	23S rRNA	2-1476 (-)
	NZ_KQ957224.1	16S rRNA	41-1182 (-)
	NZ_KQ957299.1	16S rRNA	204-618 (+)

표 4에서 확인할 수 있듯이, P. corporis의 경우 (NCBI accession number: GCF_001546595.1), NCBI genbank에 단 3개의 유전체 밖에 없었으며 모두 스캐폴드 (scaffold)나 콘티그 (contig)일뿐, 16S rRNA와 23S rRNA가 하나의 콘티그에 존재하지 않고 떨어져 있었다. 이로 인해, P. corporis가 P. jejuni 및 P. fusca 등으로 분류된 것으로 판단하였다. 그러나, 도 2에서 확인할 수 있듯이, P. corporis의 참조 rRNA 오페론 서열을 데이터베이스에 부가함으로써 오분류되지 않고 정확하게 P. corporis로 분류되게 할 수 있었다.

마지막으로, MOCK2 군집의 V. rogosae 유전체에서 추출한 rRNA operon 서열을 데이터베이스에 블라스트 (blast)한 결과를 표 5에 나타내었다.

쿼리 (Query)	명칭	쿼리 커버 (Query cover)	동일성 백분율 (Percent identity)	GTDB 분류군 (GTDB taxonomy)
첫 번째 오페론 (4207 bp)	GCF_000183505.1	99	98.38	Veillonella rogosae
	GCF_002959775.1	99	98.42	Veillonella rogosae
	GCF_900637515.1	100	98.46	Veillonella dispar
두 번째 오페론 (4737 bp)	GCF_000183505.1	94	99.43	Veillonella rogosae
	GCF_002959775.1	94	99.43	Veillonella rogosae
	GCF_900637515.1	96	97.46	Veillonella dispar
세 번째 오페론 (4406bp)	GCF_000183505.1	99	98.93	Veillonella rogosae
세 번째 오페론 (4406bp)	GCF_002959775.1	99	98.39	Veillonella rogosae
네 번째 오페론 (4268bp)	GCF_000183505.1	96	98.76	Veillonella rogosae
	GCF_002959775.1	96	98.68	Veillonella rogosae
	GCF_002005185.1	100	97.39	Veillonella parvula

표 5에서 확인할 수 있듯이, 리드 맵핑시 쿼리 커버 (query cover)와 정렬 스코어 (alignment score)는 정비례하므로 V. rogosae가 V. dispar로 분류된 이유는 V. rogosae와 V. dispar의 rRNA 오페론의 서열 상동성 (similarity)이 높기 때문이다.

3-3. 미생물 군집 분석의 정확도 비교 평가

43,653개의 유전체 (genome)로부터, 9,485개의 종에 포함되는 97,781개의 오페론 서열을 이용하여 구축된 본 발명의 데이터베이스를, 종래 유일하게 보고된 종래의 rRNA 데이터베이스인 rrn_DBv2 (Benitez-Paez, et al., Strand-wise and bait-assisted assembly of nearly-full rrn operons applied to assess species engraftment after faecal microbiota transplantation, 2020, bioRxiv)와 비교 분석하였다. 비교 분석은 2개의 박테리아 군집에 대하여 수행하였다.

위양성 (false positive) 확률을 측정하여, 도 3a 및 3b에 나타내었다.

도 3a 및 3b에서 확인할 수 있듯이, rrn_DBv2는 MOCK1 및 MOCK2 군집에 대하여, 미생물 종별 함량이 1% 보다 낮은 경우 위양성 (false positive)이 계속해서 증가한 반면, 본 발명은 일정 수준까지만 위양성이 증가하였다.

또한, 알파 다양성 (alpha diversity)을 측정하여, 도 4a 및 4b에 나타내었다.

도 4a 및 4b에서 확인할 수 있듯이, rrn_DBv2는 이론적 MOCK 군집의 알파 다양성과 크게 차이가 난 반면, 본 발명은 미세한 차이가 났을 뿐이다.

도 3a, 3b 및 도 4a, 4b에서 interpolated는 알려진 두 데이터 값 사이의 값을 추정하는 방식인 내삽법을 의미하고, extrapolated는 이미 관찰된 값을 통해 아직 관찰되지 않은 새로운 값을 추정하는 방식인 외삽법을 의미한다.

그리고, MOCK 1 및 2에 대하여 미생물 상대 함량을 2회 측정하여, 그 결과를 도 5a 및 5b에 나타내었고, 그 중 미생물 분류군의 오분류 비율을 의미하는 “Other”의 면적을 표 6에 나타내었다.

	MIrROR	rrn_DBv2
MOCK 1_1	2.35	25.10
MOCK 1_2	2.31	25.10
MOCK 2_1	1.91	32.42
MOCK 2_2	2.10	30.20

도 5a 및 5b, 표 6에서 확인할 수 있듯이, 본 발명의 MIrROR 데이터베이스는 MOCK1_1이 2.35, MOCK1_2가 2.31, MOCK2_1이 1.91 및 MOCK2_2가 2.10인 반면, rrn_DBv2 데이터베이스는 MOCK1_1이 25.10, MOCK1_2가 25.10, MOCK2_1이 32.42 및 MOKC2_2가 30.20이었다.

본 발명의 MIrROR는 rrn_DBv2에 비하여, 오분류 비율이 MOCK1_1의 경우 -90.64%, MOCK1_2의 경우 -90.80%, MOCK2_1의 경우 -94.11% 및 MOCK2_2의 경우 -93.05% 감소시켜, 전체적으로 미생물 분류군 오분류 비율을 1/10 수준으로 감소시켰음을 확인하였다.

다음으로, MOCK1 및 MOCK2 군집의 상대적 풍부도 (relative abundance) 측정값을 기대값과 비교하기 위하여, 하기 수학식 1에 따라 MOCK1 및 MOCK2 군집의 종별, 속별 L₂ 거리 (L₂ distance)를 계산하였다.

여기서, estimated_i는 분석 결과로 얻은 i번째 미생물의 상대 함량을, expected_i는 표 2에 나타낸 제품의 MOCK1 및 2 군집에 대한 이론적 함량 (theoretical Compostition)을 의미한다. i는 i번째 미생물을, n은 미생물의 총 개수를 의미한다. expected_i 및 estimated_i는 표 7 및 8에 나타낸 값을 이용하였다.

	Species	Theoretical Composition	MIrROR-MOCK1_1	MIrROR-MOCK1_2	rrn_DBv2-MOCK1_1	rrn_DBv2-MOCK1_2
1	Others	0	2.4	2.3	25.1	25.1
2	Bacillus subtilis	17.4	11.3	11.2	11.5	11.4
3	Enterococcus faecalis	9.9	2.4	2.8	2.2	2.6
4	Escherichia coli	10.1	25.8	25.8	23.0	22.9
5	Lactobacillus fermentum	18.4	12.8	13.2	8.0	8.3
6	Listeria monocytogenes	14.1	7.8	7.9	5.9	5.9
7	Pseudomonas aeruginosa	4.2	4.9	5.0	3.0	3.1
8	Salmonella enterica	10.4	10.0	10.1	2.1	2.1
9	Staphylococcus aureus	15.5	22.8	21.7	19.4	18.7

	Species	Theoretical Composition	MIrROR-MOCK2_1	MIrROR-MOCK2_2	rrn_DBv2-MOCK2_1	rrn_DBv2-MOCK2_2
1	Others	0	1.9	2.1	32.4	30.2
2	Akkermansia muciniphila	0.97	0.7	0.7	0.7	0.7
3	Bacteroides fragilis	9.95	22.6	21.3	19.8	18.4
4	Bifidobacterium adolescentis	8.78	3.7	3.9	0.8	1.0
5	Clostridioides difficile	2.64	3.5	3.2	1.0	0.9
6	Clostridium perfringens	0.0002	0.0	0.0	0.0	0.0
7	Enterococcus faecalis	0.0009	0.0	0.0	0.2	0.2
8	Escherichia coli	12.14	20.4	21.8	17.7	19.0
9	Faecalibacterium prausnitzii	17.64	11.9	13.9	11.8	13.8
10	Fusobacterium nucleatum	7.49	4.9	5.0	2.3	2.2
11	Lactobacillus fermentum	9.63	5.7	6.0	3.6	3.7
12	Prevotella corporis	4.98	9.5	9.0	4.6	4.2
13	Roseburia hominis	9.89	2.4	2.4	0.9	1.0
14	Salmonella enterica	0.009	0.0	0.0	0.5	0.5
15	Veillonella rogosae	15.88	12.6	10.8	3.7	4.3

계산된 L₂ 거리를 표 9에 나타내었다.

Database	MOCK1_1		MOCK1_2		MOCK2_1		MOCK2_2
Database	종	속	종	속	종	속	종	속
MIrROR	0.2155	0.2140	0.2100	0.2080	0.1994	0.2040	0.1946	0.2003
rrn_DBv2	0.2356	0.2270	0.2319	0.2226	0.2416	0.2361	0.2292	0.2269

표 9에서 확인할 수 있듯이, rrn_DBv2는 종 및 속 수준에서 모두, 본 발명의 데이터베이스인 실시예에 비하여 더 높은 L₂ distance를 갖는 것으로 나타났고, 이는 본 발명의 실시예인 MIrROR 데이터베이스가 rrn-DBv2 데이터베이스에 비하여 MOCK 군집의 종별, 속별 미생물 동정 정확도가 높음을 의미한다.

즉, 본 발명의 MIrROR 데이터베이스는 97,781개의 오페론 서열을 가지고 9,485개의 종을 커버할 수 있는 반면, rrn_DBv2 데이터베이스는 22,580개의 오페론 서열을 가지고 2,536개의 종을 커버할 수 있을 뿐이다. 따라서, 본 발명은 약 4배의 서열을 더 포함하여 약 3배의 종을 커버할 뿐만 아니라, 정확도 면에서도 더 우수하였다.

본 발명자들은 16S-23S rRNA operon 분석을 위한 데이터베이스 (MIrROR)를 개발하였으며, 이는 롱-리드 시퀀스 (long-read sequence)를 이용한 미생물 군집 분석을 촉진시켜줄 것이다.

Claims

유전체 (genome) 정보로부터 초기 데이터를 생성하는 데이터 획득 단계;

초기 데이터를 이용하여 앰플리콘 산물 (amplicon product) 데이터를 생성하는 앰플리콘 생성 단계;

앰플리콘 산물 데이터 중 모호한 염기서열 (ambiguous nucleotide)을 포함하는 앰플리콘 산물 데이터를 제거하여 유효 데이터를 생성하는 퀄리티 컨트롤 단계; 및

유효 데이터를 이용하여 분류 체계 데이터를 생성하는 데이터베이스 구축 단계;

를 포함하고,

상기 데이터 획득 단계 또는 상기 퀄리티 컨트롤 단계는 분류군 재분류를 추가로 수행하는 것인, rRNA 오페론 데이터베이스 구축 방법.
제1항에 있어서, 상기 유전체 정보는 미국 국립생물공학정보센터 (National Center for Biotechnology Information; NCBI)의 Genbank, 유럽 생물정보학 기관-유럽 핵산 기록보관소 (European Bioinformatics Institute-European Nucleotide Archive; EBI-ENA), 일본국립유전학연구소의 (National Institute of Genetics)의 일본 DNA 데이터 은행 (DNA Data Bank of Japan; DDBJ), 미국 에너지부 (U.S. Department of ENERGY; USDOE) 산하의 통합 미생물 유전체 & 메타게놈 (Integrated Microbial Genomes & Microbiomes; IMG/M) 및 Ensembl로 이루어진 군으로부터 선택되는 1종 이상의 데이터베이스로부터 획득하는 것인, rRNA 오페론 데이터베이스 구축 방법.
제1항에 있어서, 상기 유전체 정보는 16S rRNA를 암호화하는 염기서열 정보 및 23S rRNA를 암호화하는 염기서열로 이루어진 군으로부터 선택되는 1종 이상을 포함하는 것인, rRNA 오페론 데이터베이스 구축 방법.
제1항에 있어서, 상기 앰플리콘 산물은 EMBOSS-primersearch를 이용하여 생성되는 것인, rRNA 오페론 데이터베이스 구축 방법.
제1항에 있어서, 상기 앰플리콘 산물은 16S-27F 프라이머 및 23S-2241R 프라이머를 이용하여 생성되는 것인, rRNA 오페론 데이터베이스 구축 방법.
제1항에 있어서, 상기 데이터베이스 구축 단계는 서열 군집화 및 계통수 구축을 수행함으로써 분류 체계 데이터를 생성하는 것인, rRNA 오페론 데이터베이스 구축 방법.
제6항에 있어서, 상기 서열 군집화는 Cd-hit-est 또는 UCLUST를 이용하여 수행되는 것인, rRNA 오페론 데이터베이스 구축 방법.
제6항에 있어서, 상기 계통수 구축은 IQ-tree 또는 MEGA를 이용하여 수행되는 것인, rRNA 오페론 데이터베이스 구축 방법.
제1항에 있어서, 상기 데이터베이스 구축 단계는 필터링 단계를 추가로 포함하는 것인, rRNA 오페론 데이터베이스 구축 방법.
제1항에 있어서, 상기 분류군 재분류는 GTDB-Tk 또는 CheckM을 이용하여 수행되는 것인, rRNA 오페론 데이터베이스 구축 방법.
유전체 (genome) 정보로부터 초기 데이터를 생성하는 데이터 획득 단계;

초기 데이터를 이용하여 앰플리콘 산물 (amplicon product) 데이터를 생성하는 앰플리콘 생성 단계;

앰플리콘 산물 데이터 중 모호한 염기서열 (ambiguous nucleotide)을 포함하는 앰플리콘 산물 데이터를 제거하여 유효 데이터를 생성하는 퀄리티 컨트롤 단계; 및

유효 데이터를 이용하여 분류 체계 데이터를 생성하는 데이터베이스 구축 단계;

를 포함하고,

상기 데이터 획득 단계 또는 상기 퀄리티 컨트롤 단계 이후에 분류군 재분류를 추가로 수행하는 것인, rRNA 오페론 데이터베이스 구축 방법을 실행시키기 위해 컴퓨터로 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램.
컴퓨터로 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하는 rRNA 오페론 데이터베이스 시스템에 있어서,

상기 적어도 하나의 프로세서는,

유전체 (genome) 정보로부터 초기 데이터를 생성하고;

초기 데이터로부터 앰플리콘 산물 데이터를 생성하고;

앰플리콘 산물 데이터 중 모호한 염기서열 (ambiguous nucleotide)을 포함하는 앰플리콘 산물 데이터를 제거하여 유효 데이터를 생성하고; 및

유효 데이터를 이용하여 분류 체계 데이터를 생성하며;

상기 초기 데이터를 생성한 후 또는 상기 유효 데이터를 생성한 후에 추가로 분류군 재분류를 수행하는 것인, rRNA 오페론 데이터베이스 시스템.
다음의 단계를 포함하는 미생물 동정 방법:

시퀀싱 데이터 (sequencing data)를 입력받는 데이터 입력 단계; 및

시퀀싱 데이터를 분류 체계 데이터에 맵핑 (mapping)하는 리드 맵핑 단계.
제13항에 있어서, 상기 데이터 입력 단계는 시퀀싱 데이터를 rrn 오페론 카피 수 (rrn operon copy number)로 보정하는 보정 단계를 추가로 포함하는 것인, 미생물 동정 방법.
제13항에 있어서, 상기 맵핑은 정렬 스코어 (Alignment score)를 기준으로 가장 높은 값을 보이는 유전체 데이터만 결과로 도출함으로써 2차 정렬 (secondary alignment)을 제거하는 것인, 미생물 동정 방법.