WO2020050627A1

WO2020050627A1 - 시료 미생물의 동정 및 분류 방법

Info

Publication number: WO2020050627A1
Application number: PCT/KR2019/011410
Authority: WO
Inventors: 안토니오 샬리타 윌리암스마우리시오; 윤석환; 하성민
Original assignee: 주식회사 천랩
Priority date: 2018-09-05
Filing date: 2019-09-04
Publication date: 2020-03-12

Abstract

본 발명은 k-mer 완전 매치 알고리즘과 박테리아 코어 유전자를 사용하여 시료에 포함된 미생물을 동정 및 분류 방법에 관한 것으로, 바람직하게는 상기 메타게놈 샘플에 대한 분류학적 조성에 대한 분석을 편향없이 더 빠르고 더 정확하게 할 수 있는 장점이 있다.

Description

시료 미생물의 동정 및 분류 방법

본 발명은 k-mer 완전 매치 알고리즘과 박테리아 코어 유전자를 사용하여 시료에 포함된 미생물 동정 및 분류하는 방법과 상기 시료 내 미생물의 균종 풍부도를 분석하는 방법에 관한 것으로, 바람직하게는 상기 메타게놈 샘플에 대한 분류학적 조성에 대한 분석을 편향없이 더 빠르고 더 정확하게 할 수 있는 장점이 있다.

지난 10 년 동안 메타게놈 시료의 분류학적 조성을 예측하는 것은 어려운 일이었다. 주어진 샘플에 포함된 미생물 분류군을 결정할 수 있다면 환경에 미치는 미생물의 역할에 대한 많은 통찰력을 얻을 수 있다. 매년 공개되는 새로운 게놈을 데이터베이스에 추가하여 분석하면 더 정확하고 상세한 분류가 가능하다. 그러나 이러한 과정은 매우 많은 양의 복잡한 계산을 요구하며, 수천 개의 참조 게놈에 대한 샘플로부터 수백만 번 이상의 판독을 필요로 하기에 일반적으로 대규모의 CPU 클러스터를 필요로 한다.

지난 수십 년 동안 분류법은 상동성 검색 (서열 정렬)을 통해 이루어졌다. 이 방법은 참조 데이터베이스에 충분한 정보가 없고 특정 게놈 리드(read)와 "가장 가까운(the closest)" 매치를 찾으려고 할 때 유용하다. 주어진 종 (species)이 참조 데이터베이스에 없다면 많은 수의 리드가 분류되지 않기 때문에 데이터베이스의 정보 부족으로 " k-mer 완전일치"의 접근법을 신뢰할 수 없게 만들었다.

그러나, 최근 몇 년 동안 공개적으로 이용 가능한 게놈의 수가 증가했기 때문에 "k-mer 완전일치" 접근법의 신뢰도가 충분히 높아졌고 이 방법을 구현하기 위한 컴퓨터 속도가 빨라지면서 유용한 방법이 되었다. 반면에, 상동성 검색 방법은 수행해야 할 비교 횟수가 많아져서 느려지고, 관련 게놈이 유사한 수준의 서열 구성을 가지기 때문에 부정확하다. 이러한 부정확성을 피하고 계산 시간을 줄이기 위해 일부 상동성 검색 방법은 유전자 마커 (여러 종 또는 속에서 한 번만 존재하는 서열)를 사용하여 비교 횟수를 감소시킨다.

이러한 유전자 마커를 이용한 방법의 단점은 박테리아 게놈의 크기와 유전자의 빈도가 매우 불규칙적이며 (일부 종 또는 속은 다른 종보다 더 많은 마커를 포함함) 다른 종 또는 속이 참조 데이터베이스에 추가되면 해당 마커를 다시 계산해야 한다는 것이다. 기존의 마커가 새롭게 발견된 완전히 다른 분류군에서 발견되면 해당 마커는 더 이상 기존 분류군에 대해 사용할 수 없다.

보다 정확한 분류학적 프로파일(taxonomy profile)을 얻기 위해서는, 분류학적 프로파일에 있는 각 종에 대해 표준화 단계를 수행해야 한다. 전체 게놈 데이터베이스를 참조 데이터베이스로 사용하는 메타게놈 분류(metagenomic taxonomy) 프로파일의 경우, 각 종(species)에 대한 게놈 크기를 고려한 표준화 단계가 포함되어야 한다. 예를 들어, 5 Mb의 게놈 크기를 갖는 A 종은 2 Mb의 게놈 크기를 갖는 B종과 비교하여 샘플에 더 많은 기여를 하게 된다. 유전자 마커를 이용할 경우 NGS (Next Generation Sequencing)에서 얻은 리드 수는 동일한 게놈에서의 유전자 마커 크기와 빈도에 따라 표준화(normalization)되어야 한다.

메타게놈은 여러 미생물을 포함하는 시료, 예를 들면 환경에서 채취한 시료 등에 포함된 여러 미생물의 유전체를 함께 분석하는 경우 사용하는 용어이다. 최근 여러 연구를 통해 16S 리보솜 RNA(16S rRNA)를 이용한 마커 유전자 기반의 메타게놈 NGS 데이터 분석을 이용하여 인간 및 환경의 미생물 총의 세균 구성을 목록화 하는 것이 가능해졌으며 Shotgun 기법을 이용한 메타게놈 NGS 데이터의 분석이 활발하게 연구되고 있다.

본 발명은 k-mer 완전일치법(exact k-mer matching method)과 박테리아 코어 유전자를 사용하여, 분류학적 조성에 대한 분석을 편향없이 더 빠르고 더 정확하게 시료에 포함된 2종 이상의 미생물 종을 동정 및 분류 방법 및 시료 내 미생물을 동정 및 분류하는 시스템을 제공하는 것이다.

본 발명의 추가 일예는 k-mer 완전일치법(exact k-mer matching method)과 박테리아 코어 유전자를 사용하여, 시료에 포함된 미생물의 균종 풍부도를 분석하여, 특히 메타게놈 시료에 대한 분류학적 프로파일링 방법(taxanomy profiling method)을 제공하는 것이다.

본 발명의 일 예는 시료에서 얻은 미생물 유전체 정보를 제공하고,

상기 미생물 유전체 정보를 이용하여 시료 k-mer 데이터세트를 얻고,

미생물 분류 정보가 부여된, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와, 상기 시료 k-mer 데이터세트를 비교하여, 상기 시료 내 미생물을 동정 및 분류하는 단계를 포함하는, 시료 내 미생물을 동정 및 분류하는 방법에 관한 것이다.

본 발명의 추가 일 예는, 시료 내 미생물을 동정 및 분류하는 방법을 이용하여, 시료 내 미생물의 풍부도 정보를 얻을 수 있으며, 더욱 자세하게는

시료에서 얻은 미생물 유전체 정보를 제공하고,

미생물 분류 정보가 부여된, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와, 상기 시료 k-mer 데이터세트를 비교하여, 상기 시료 내 미생물을 동정 및 분류하고,

상기 미생물의 시료 내 풍부도를 산출하여 시료 내 미생물의 종의 풍부도 프로파일 정보를 얻는 방법에 관한 것이다.

구체적으로 일 예에서, 본 발명에 따른 시료 내 미생물을 동정 및 분류하는 방법은, 컴퓨터 장치를 이용하여,

시료에서 얻은 미생물 유전체 DNA를 차세대 염기서열 분석법(Next Generation sequencing, NGS)으로 분석하여 얻어진 시퀀싱 리드를 포함하는 유전체 정보를 얻고,

상기 개별 시퀀싱 리드에 대해 k-mer 데이터세트를 만들어, 상기 시료에 포함된 미생물 유전체 전체에 대한 시료 k-mer 데이터세트를 얻고,

미생물 분류 정보가 부여된, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와, 상기 시료 k-mer 데이터세트를 비교하여, 상기 시료 내 미생물을 동정 및 분류하는 단계를 포함할 수 있다.

본 발명의 추가 일 예에서, 본 발명에 따른 시료 내 미생물을 동정 및 분류하는 방법은, 상기 미생물 분류(taxon) 정보는 고유 ID로 구분하여, 참조 k-mer 데이터베이스의 개별 k-mer에 부여된 것이며, 상기 시료 미생물 유전체 정보는 차세대 염기서열 분석법(Next Generation sequencing, NGS)으로 얻어진 시퀀싱 리드를 포함하며,

상기 시료 미생물 유전체의 개별 시퀀싱 리드에 대해,

(i) 하나이상의 k-mer를 포함하는 k-mer 데이터세트를 만들어, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와 비교하여, 뉴클레오티드 서열이 완전일치한 k-mer를 참조 k-mer 데이터베이스로부터 선정하고,

(ii) 상기 선정된 k-mer에 부여된 미생물 분류 정보을 갖는 고유 ID 정보를 얻고,

(iii)상기 시퀀싱 리드에서 얻어진 하나 이상의 고유 ID를 모은 목록 정보를 이용하여, 고유 ID 목록에 포함된 고유 ID가 하나이거나 모두 동일할 경우 해당 ID를 시퀀싱 리드의 고유 ID로 선택하고, 고유 ID 목록에 둘 이상의 서로 다른 고유 ID가 포함될 경우 최소공통조상(LCA)에 해당하는 고유 ID를 선택하며,

(iv) 상기 개별 시퀀싱 리드별로 할당된 분류학적 수준에 해당하는 고유 ID의 분류 정보를 결합하며,

상기 개별 시퀀싱 리드별로 얻어진 분류학적 수준에 해당하는 고유 ID를, 상기 시료 미생물 유전체에 포함된 전체 시퀀싱 리드에 대해 수행하여 얻어진 고유 ID 를 모아 전체 고유 ID 목록을 만들어, 상기 시료 미생물의 동정 및 분류하는 것인, 방법에 관한 것이다.

또한, 본 발명에 따른 시료 내 미생물의 분류학적 프로파일 정보 또는 풍부도를 얻는 방법은, 시료에서 얻은 미생물 유전체 정보를 제공하고,

미생물 분류(taxon) 정보가 부여된, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와, 상기 시료 k-mer 데이터세트를 비교하는 단계를 포함하며,

상기 시료 미생물 유전체 정보는 차세대 염기서열 분석법(Next Generation sequencing, NGS)으로 얻어진 시퀀싱 리드를 포함하며,

상기 시료 미생물 유전체의 개별 시퀀싱 리드에 대해,

(ii) 상기 선정된 k-mer에 부여된 고유 ID 정보를 얻고,

(iii)상기 시퀀싱 리드에서 얻어진 하나 이상의 고유 ID를 모은 목록 정보를 이용하여, 고유 ID 목록에 포함된 고유 ID가 하나이거나 모두 동일할 경우 해당 ID를 시퀀싱 리드의 고유 ID로 선택하고, 고유 ID 목록에 둘 이상의 서로 다른 고유 ID가 포함될 경우 최소공통조상(LCA)에 해당하는 고유 ID를 부여하고,

상기 개별 시퀀싱 리드별로 얻어진 분류학적 수준에 해당하는 고유 ID를, 상기 시료 미생물 유전체에 포함된 전체 시퀀싱 리드에 대해 수행하여 얻어진 고유 ID 를 모아 전체 고유 ID 목록을 만들고,

시료 미생물의 전체 고유 ID 목록에서, 상기 분류학적 수준에 해당하는 고유 ID별로 할당된 리드 (classified read)의 수 (number)를 얻고,

상기 고유 ID별로 할당된 리드 수를, 전체 고유 ID 목록에 할당된 리드 수의 총합으로 나누어, 해당 고유 ID에 해당하는 미생물 종 또는 분류정보에 대해 시료 내의 풍부도를 얻는 단계를 포함하는,

시료 내 미생물의 종의 풍부도 프로파일 정보를 얻는 방법에 관한 것이다.

본 발명에 따른 방법을 사용하여, 적어도 2종 이상의 미생물 종을 포함하는 시료 또는 적어도 2종 이상의 미생물 유전체 정보를 포함하는 시료, 예컨대 메타게놈 시료에 포함된 미생물의 종 또는 최소공통조상, 분류, 특정 종의 규모(population) 및 상대적 풍부도로 이루어지는 군에서 선택된 하나 이상의 정보를 얻을 수 있다.

본 발명의 또 다른 일 예는, 미생물 분류 정보가 부여된, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와, k-mer 추출기 (k-mer extractor)와 k-mer 분석기(k-mer analyzer)를 구비한 프로세서를 포함하는, 시료 내 미생물을 동정 및 분류하는 시스템으로서,

상기 참조 k-mer의 데이터베이스는 하나 이상의 참조 박테리아 코어 유전자의 유전 정보로부터 생성된 하나 이상의 k-mer를 포함하며, 상기 k-mer는 상기 미생물의 분류 정보가 부여된 것이며,

상기 프로세서의 k-mer 추출기는 시료에서 얻은 미생물 유전체 정보로부터 하나 이상의 k-mer를 추출하여 k-mer 데이터세트를 생성하며,

상기 프로세서의 k-mer 분석기는, 시료 k-mer 데이터세트에 포함된 k-mer에 대해 참조 k-mer 데이터베이스에 포함된 k-mer와 핵산서열정보가 완전히 동일한 k-mer을 선정하여, 상기 선정된 k-mer의 분류(taxon)정보를 포함하고 있는 인덱스를 목록화하고, 상기 선별된 k-mer에 대한 분류학적 정보를 기초로 시료에 포함된 미생물의 동정 및 분류를 수행하는 것이다.

본 발명의 또 다른 일 예는, 미생물 분류 정보가 부여된, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와, k-mer 추출기 (k-mer extractor), k-mer 분석기(k-mer analyzer), 및 풍부도 분석기를 구비한 프로세서를 포함하는, 시료 내 미생물의 종의 풍부도 프로파일 정보를 얻는 시스템으로서, 상기 k-mer 추출기 및 k-mer 분석기는 상술한 바와 같으며, 풍부도 분석기 시료 내 전체 미생물에서 특정 미생물이 점유하는 군집 규모를 의미하며 다양한 방법으로 계산될 수 있다.

구체적인 일 예에 따르면, 풍부도 분석기는 NGS 방법으로 시료 미생물의 유전체 정보를 얻고 상기 미생물 분류(taxon) 정보는 고유 ID로 구분하여, 참조 k-mer 데이터베이스의 개별 k-mer에 부여된 것인 경우,

상기 시료 미생물 유전체의 개별 시퀀싱 리드에 대해,

(ii) 상기 선정된 k-mer에 부여된 고유 ID 정보를 얻고,

상기 고유 ID별로 할당된 리드 수를, 전체 고유 ID 목록에 할당된 리드 수의 총합으로 나누어, 해당 고유 ID에 해당하는 미생물 종 또는 분류정보에 대해 시료 내의 풍부도를 얻는 단계를 포함할 수 있다. 상기 방법에 의한 경우 미생물의 상대적인 풍부도(relative adundance)는 시료 미생물의 전체 고유 ID 목록에서, 상기 분류학적 수준에 해당하는 고유 ID별로 할당된 리드 (classified read)의 수 (number)를, 전체 고유 ID 목록에 할당된 리드 수의 총합으로 나누어 얻어진 값일 수 있다.

이하, 본 발명을 더욱 자세히 설명하고자 한다.

본 발명은 k-mer 완전일치법과 박테리아 코어 유전자를 사용하여, 시료에 포함된 미생물 종을 동정 및 분류 방법 및 시료 내 미생물을 동정 및 분류하는 시스템에 관한 것이다.

구체적으로, 본 발명에 따른 시료 내 미생물을 동정 및 분류하는 방법 및 시스템은, (a)시료에서 얻은 미생물 유전체 정보를 이용하여 얻어지며, 시료 내 미생물의 전체 유전체에 대한 시료 k-mer 데이터세트, (b) 미생물 분류 정보가 부여된, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스, (c) k-mer 완전일치법에 따라 (a) 시료 k-mer 데이터세트에 포함된 k-mer에 대해, (b) 참조 k-mer 데이터베이스에 포함된 k-mer을 비교하여 완전일치 k-mer를 선정하고, (d) 상기 선정된 k-mer의 분류(taxon)정보를 이용하여, 시료에 포함된 미생물 종을 동정 및 분류하는 단계를 포함할 수 있다.

본 발명에 따른 미생물 동정 및 분류하는 방법 또는 시스템은 (a)시료에서 얻은 미생물 유전체 정보를 이용하여 얻어지며, 시료 내 미생물의 전체 유전체에 대한 시료 k-mer 데이터세트을 얻는 단계를 포함한다.

상기 시료 k-mer 데이터세트를 얻는 단계는, (a-1) 시험 시료 내 존재하는 1종 이상의 미생물 전체 유전체 DNA를 추출하고(유전체 DNA 추출), (a-2) 상기 시료 미생물의 전체 유전체 DNA의 서열분석을 수행하여 뉴클레오티드 서열정보를 얻고 (서열정보 분석), (a-3) 상기 미생물 유전체 정보로부터 하나 이상의 k-mer를 추출하여 k-mer 데이터세트를 생성하는 단계(시료 k-mer 데이타세트 생성)를 포함할 수 있다.

상기 (a-1) 를 별도로 수행하여 (a-2) 시료 전체의 미생물 유전체 DNA의 뉴클레오티드 서열정보를 제공하는 단계부터 수행할 수 있으므로 (a-1) 유전체 DNA 추출 단계가 본 발명에 따른 미생물 동정 및 분류하는 방법에 포함되지 않을 수도 있다.

본 발명에 따른 시료 k-mer 데이터세트를 얻는 단계는, 시험 시료 내 존재하는 1종 이상의 미생물의 전체 유전체 DNA를 추출하는 공정은 특별히 한정하지 않으며 본 기술분야에 알려진 미생물의 DNA 추출 방법을 사용하여 수행할 수 있다.

본 발명에 따른 시료 k-mer 데이터세트를 얻는 단계는, 상기 시료 전체의 미생물 유전체 DNA의 서열분석을 수행하여 뉴클레오티드 서열정보를 얻는 서열분석을 포함하며, 시료 전체의 미생물 유전체 DNA의 서열분석 방법은 본 기술분야에서 알려진 다양한 DNA 서열 분석방법으로 수행할 수 있다.

예를 들면, 마이크로바이옴은 시료 내 존재하는 미생물의 유전체 정보로서, 다양한 방법으로 얻어질 수 있으며, 예를 들면 NGS 방법 또는 샷건 서열분석법으로 얻을 수 있다. 분석하고자 하는 메타게놈 샘플의 입력 뉴클레오티드 데이터는 샷건 메타 게놈 서열분석 또는 차세대 서열분석 (NGS)과 같은 대규모 병렬 시퀀싱 기술에 의해 메타게놈 샘플의 DNA 서열을 분석함으로써 얻을 수 있다.

NGS 방법을 이용하여 유전체 서열 정보를 분석하는 경우, 상기 미생물 유전체 정보는 차세대 염기서열 분석법(Next Generation sequencing, NGS)으로 얻어진 시퀀싱 리드를 포함할 수 있다.

샷건 메타게놈 서열분석 (Shotgun metagenome sequencing)은 대량의 DNA 조각을 무작위로 배열된 작은 조각으로 절단하는 기술이다. 샷건 메타 게놈 서열분석은 주어진 복잡한 시료에 존재하는 모든 유기체의 모든 유전자를 포괄적으로 추출할 수 있고, 박테리아의 다양성을 평가하고 다양한 환경에서 미생물의 양을 탐지할 수 있다. 샷건 메타 게놈 서열분석은 분석이 불가능하거나 어려운 미배양 미생물(unculturable microorganisms)을 연구할 수 있는 수단을 제공한다는 장점이 있다.

본 발명에 따른 시료 k-mer 데이터세트를 얻는 단계는, (a-3) 상기 미생물 유전체 정보로부터 하나 이상의 k-mer를 추출하여 k-mer 데이터세트를 생성하는 단계(시료 k-mer 데이터세트 생성)을 포함할 수 있다.

구체적 일 예에서, 상기 미생물 유전체 정보는 차세대 염기서열 분석법(Next Generation sequencing, NGS)으로 얻어진 시퀀싱 리드를 포함하며, 컴퓨터 장치를 이용하여, 상기 개별 시퀀싱 리드에 대해 k-mer 길이에 맞추어 1개 염기씩 이동하며 k-mer 길이의 단편 문자열을 잘라내어 k-mer 데이터세트를 만들어, 상기 시료에 포함된 미생물 유전체 전체에 대한 시료 k-mer 데이터세트를 얻을 수 있다. 상기 시료 k-mer 데이터세트의 생성은 k-mer 추출기를 이용하여 수행할 수 있으며, 예시적인 k-mer 추출기는 젤리피쉬 (JELLYFISH) 프로그램일 수 있으나 이에 한정되지 아니한다. JELLYFISH는 주어진 입력 FASTA 파일에서 k-mer를 계산하는 명령 줄 응용 프로그램이다.

본 발명의 일 예에서, 상기 시험 시료에는 1종 이상의 미생물 균종을 포함할 수 있으며, 바람직하게는 2종 이상의 미생물을 포함하거나, 더욱 바람직하게는 메타게놈 시료일 수 있다. 메타게놈이란 특정 자연환경에 존재하는 모든 미생물의 유전체 집합으로 정의되거나, 최근 환경시료로부터 추출한 유전체 또는 유전자를 포함하는 클론을 총칭하는 것일 수 있다.

일반적으로 "k-mer"는 K개 뉴클레오티드를 갖는 폴리뉴클레오티드 단편을 의미하며, 본 발명에 따른 박테리아 코어 유전자의 k-mer 또는 k-mer 단편은, 각 박테리아 종으로부터 박테리아 코어 유전자로부터 생성된 길이 "k"개의 뉴클레오티드의 길이를 갖는 폴리뉴클레오티드 서열이며, 어떤 시퀀스가 주어졌을 때, 길이가 k개인 가능한 모든 subsequence의 집합이다.

시료 내 존재하는 미생물의 전체 유전체 서열정보로부터 하나 이상의 k-mer 단편 서열을 생성함으로써, 본 명세서 기술된 방법은 메타게놈 시료로부터 생성된 k-mer 단편 데이타베이스에 대해, 참조 박테리아 코어 유전자의 k-mer 서열을 정확한 매치 비교를 통해 시료에 포함된 미생물의 동정 및 분류를 수행할 수 있다.

예를 들어 "AGCTCT"시퀀스는 3-nt 서브시퀀스 "AGC", "GCT", "CTC"및 "TCT"로 나눌 수 있으며, 이들 서브 시퀀스들 각각은 k-mer이고, k = 3이다. K-Mers는 중첩되거나 중첩되지 않을 수 있다.

NGS 방법을 이용하여 유전체 서열 정보를 분석하는 경우, 상기 미생물 유전체 정보는 차세대 염기서열 분석법(Next Generation sequencing, NGS)으로 얻어진 시퀀싱 리드를 포함하며, 상기 k-mer의 길이는 시퀀싱 리드의 길이보다 짧은 것이 바람직하다. 일반적으로, 시퀀싱 리드("리드"또는 "쿼리 서열"이라고도 함)은 핵산 분자에서 유추된 핵산 염기 서열을 의미한다.

또한, 일반적인 서열 분석에서 얻어지는 시퀀싱 리드의 길이는 하한치가 50 뉴클레오티드(nt) 이상, 60nt 이상, 70 nt 이상, 80 nt이상, 90 nt이상, 또는 100 nt 이상일 수 있으며, 상한치는 특별히 한정하지 하나 5,000 nt이하, 4,000nt 이하, 3,000 nt이하, 2,000 nt이하, 1000 nt 이하, 900 nt 이하, 800 nt 이하, 700 nt 이하, 600 nt이하, 또는 500 nt 이하일 수 있으며, 또는 상기 상한치와 하한치의 조합 범위를 가질 수 있다. 예를 들면, 시퀀싱 리드의 길이범위는 50 내지 5,000 nt, 50 내지 4,000 nt, 50 내지 3,000nt, 50 내지 2,000nt, 50 내지 1,500nt, 50 내지 1,000nt, 50 내지 900nt, 50 내지 800nt, 50 내지 700nt, 50 내지 600nt, 50 내지 500nt, 60 내지 5,000 nt, 60 내지 4,000 nt, 60 내지 3,000nt, 60 내지 2,000nt, 60 내지 1,500nt, 60 내지 1,000nt, 60 내지 900nt, 60 내지 800nt, 60 내지 700nt, 60 내지 600nt, 60 내지 500nt, 70 내지 5,000 nt, 70 내지 7,000 nt, 70 내지 3,000nt, 70 내지 2,000nt, 70 내지 1,500nt, 70 내지 1,000nt, 70 내지 900nt, 70 내지 800nt, 70 내지 700nt, 70 내지 600nt, 또는 70 내지 500nt일 수 있다.

본 발명의 방법에서 메타게놈의 분류에 사용된 k-mer의 크기 또는 길이의 예시적인 범위는 10 내지 100 뉴클레오티드(nt), 10 내지 90 nt, 10 내지 80 nt, 10 내지 70 nt, 10 내지 60 nt, 10 내지 50 nt, 10 내지 40 nt 또는 18 내지 31 nt 인 것일 수 있다. k-mer를 이용한 분석에서 k-mer의 길이가 짧을수록 가능한 서열 조합의 종류가 적어지게 되어, 너무 짧은 길이의 k-mer 서열을 이용할 경우 알려진 수 만종의 박테리아 및 알려지지 않은 수백만 종의 박테리아 서열을 구분하는데 필요한 충분한 수의 k-mer 서열 종류를 확보할 수 없게 된다. 또한 길이가 긴 k-mer를 이용하게 될 경우 서열 조합의 수가 증가하게 되어 특정 종에 대한 정확한 매치가 가능해지는 장점은 있으나 서열 분석 오류 및 유전자 돌연변이 등에 의한 불일치에 매우 민감해져 민감도(sensitivity)를 낮추게 되며 더 많은 조합에 대해서 데이터베이스를 구축하게 되어 데이터베이스 크기가 커지고 긴 서열에 대해 일치 여부 계산을 하게 되어 더 많은 저장 용량과 컴퓨터 파워를 필요로 하게 된다.

본 발명에서 사용한 k-mer 길이의 선정 범위는 상기 k-mer 분석의 특성을 고려하여 현재까지 알려진 수만 종의 세균을 충분히 구분할 수 있는 조합의 경우의 수를 가진 10nt의 k-mer 길이 이상과 저장 용량 및 컴퓨팅 파워 효율을 극대화 하고 민감도(sensitivity)를 유지할 수 있는 수준인 100nt의 k-mer 이내에서 선정되는 것이 바람직하다.

본 발명에 따른 미생물 동정 및 분류하는 방법 또는 시스템은 (b) 미생물 분류 정보가 부여된, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스를 구축하는 단계를 포함하거나, 또는 상기 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스를 포함하는 시스템을 구축할 수 있다. 즉, 상기 시료 k-mer 데이터세트를, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와 비교하여, 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스에 포함된 미생물 분류 정보를 이용하여, 시료 내 미생물을 동정 및 분류할 수 있다.

상기 미생물 분류 정보가 부여된, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스는, (b-1) 적어도 2종 이상의 참조 미생물 전체 의 박테리아 코어 유전자의 뉴클레오티드 서열정보를 얻고, (b-2) 상기 참조 코어 유전자의 서열정보를 이용하여 k-mer로 분할하고, 상기 각 k-mer에 미생물 분류(taxon)정보를 부여하는 공정을 수행하여, taxon 정보가 부여된 k-mer 데이터베이스 구축할 수 있다.

참조 k-mer 데이터베이스는 시료 k-mer 데이터세트와 비교되는 임의의 박테리아 코어 서열을 포함한다. 참조 k-mer데이터베이스는 신규 참조 미생물의 코어 유전자가 발견된 경우 이를 포함하여 재구성할 수 있다. 참조 k-mer 데이터베이스에서 각각의 참조 k-mer 서열에 대한 분류학적 정보가 부여되며, 추가로 샘플 소스, 분류학적 그룹, 특정 종, 발현 프로파일, 특정 유전자, 질환 진행 가능성과 같은 연관된 표현형, 약물 내성 또는 병원성과 같은 몇몇 공지 된 특성에 관한 정보를 추가로 부여할 수 있다.

본 발명에 사용되는 참조 k-mer 데이터베이스는, 박테리아 코어 유전자 서열을 이용하여 생성되며, 각 박테리아 게놈에 대해 적어도 하나의 코어 유전자를 포함해야 한다.

본 발명에서 분류학적 프로파일링을 위해 참조 코어 유전자(reference core gene)의 k-mer 단편 데이터베이스를 구축하며, 상기 참조 코어 유전자로부터 생성된 하나 이상의 k-mer 단편을 포함하며, 상기 k-mer 단편은 박테리아 분류정보가 부여된 것이다. 상기 참조 코어 유전자의 k-mer 단편 데이터베이스는, 참조 박테리아 유전체 정보에서 참조 코어 유전자 (reference core gene) 정보를 얻고, 상기 참조 코어 유전자 정보를 K-mer 단편으로 분할하여, 참조 코어 유전자의 k-mer 단편 데이터베이스를 얻으며, 상기 k-mer 단편은 박테리아 분류정보 (taxon)가 부여된 것이다.

본 명세서에서 용어 "박테리아 코어 유전자(bacterial core gene)"는 모든 또는 대부분의 박테리아 게놈에서 단 하나의 카피로 최소한 하나씩은 존재하는 유전자로 광범위하게 정의된다. 상기 코어 유전자는 단일 카피 유전자 (single copy gene)와 유사하며, 박테리아 코어 유전자의 수는 데이터베이스에 포함된 종에 따라 다양하다. 구체적으로, 상기 박테리아 코어 유전자는, 참조 코어 유전자(bacterial core gene)의 k-mer 데이터베이스를 구축하는데 사용된 전체 참조 미생물의 유전체 정보에서 단일 카피 유전자 (single copy gene)로 존재하는 것일 수 있다.

본 발명에 적용될 박테리아 코어 유전자의 길이는 100 내지 4,000 염기(뉴클레오티드, nt) 길이일 수 있으며, 예를 들면 110 내지 4,000 nt, 120 내지 4,000nt, 125 내지 4,000 nt, 110 내지 3,900 nt, 120 내지 3,900nt, 125 내지 3,900 nt, 110 내지 3,800 nt, 120 내지 3,800nt, 또는 125 내지 3,800 nt일 수 있으나, k-mer 로 제작하여 미생물 분류에 사용 가능하다면 적절한 길이에 선정할 수 있다.

본 발명의 일 예에서 사용된 박테리아 코어 유전자는, 전체(total) k-mer 서열의 수에 대한 고유(unique) k-mer 서열의 수의 비율(A) 및/또는 구별 (distinct) k-mer 서열의 수에 대한 고유한 k-mer 서열의 수의 비율(B)을 고려하여 박테리아 코어 유전자중에서 선택될 수 있다. 바람직하게는, 상기 박테리아 코어 유전자는 (A)의 수치가 40 % 이상일 수 있고, 및/또는 (B)의 수치가 75 % 이상일 수 있다. k-mer의 길이가 길수록 (A)와 (B)가 더 큰 수이다.

하기 표 1은, 본 발명의 구체적 일예에 따른 박테리아 코어 유전자의 k-mer 데이터베이스에서 고유 k-mer의 수, 구별 k-mer의 수, 전체 k-mer의 수, 및 다양한 크기를 갖는 고유 k-mer의 백분율을 나타낸다. 참조 미생물의 박테리아 코어 유전자의 참고 k-mer 데이터베이스는 참조 미생물 및/또는 코어 유전자의 추가로 인해 변경될 수 있다.

[표 1]

본 명세서에서 참조 미생물 집단의 박테리아 코어 유전자의 모든 서열에서 단 하나의 카피(copy)을 갖는 k-mer 서열을 고유 k-mer라고 하며, 두 개 이상의 카피가 있는 k-mer 서열을 포함하지 않는다. 반복적인 k-mer와 고유 k-mer를 포함하여 하나 이상의 카피가 있는 k-mer 서열은 구별 k-mer라고 하며, 다만 하나의 카피로 계수된다. 따라서, 표 1에서 구별 k-mer의 수는 고유 k-mer의 수와 2 개 이상의 카피를 갖는 반복적인 k-mer에서 선택된 하나의 카피 수의 합계를 의미한다. 전체(total) k-mer라 함은 상기 참조 미생물 집단의 박테리아 코어 유전자 서열에서 모든 단일 k-mer의 합을 의미한다. 예시적으로 표시하면 다음과 같다:

k-mer 세트 = {AA, AC, AC, AG, AG, AG};

고유(Unique) k-mer = {AA} = 1 k-mer;

구별(Distinct) k-mer = {AA, AC, AG} = 3 k-mers;

전체(Total) k-mer = {AA, AC, AC, AG, AG, AG} = 6 k-mers.

상기 k-mer는 데이터베이스로 사용될 코어 유전자로부터 추출 시에 구분되는 항목으로 고유 k-mer의 경우 해당 k-mer가 단일 균주 또는 단일 종을 의미하게 되며, 구별 k-mer에서 고유 k-mer를 제외한 k-mer 들은 두 개 이상의 균주(게놈) 또는 두 개 이상의 코어 유전자에서 발견된 경우로서 이중 두 개 이상의 미생물 게놈에서 발견된 경우에 대해서 각각의 게놈이 다른 분류군일 경우 각각의 분류군 정보를 이용한 최소공통조상(LCA)을 해당 k-mer의 분류정보로 사용하게 된다.

입력 데이터로서 시료 내 미생물 유전체 정보를 이용하여 시료 k-mer 데이터세트는, 상기 세 가지 항목의 k-mer 중에서 구별(Distinct) k-mer에 대해서 k-mer 완전일치 (exact k-mer matching) 계산을 하게 되며 고유 k-mer를 포함한 구별 k-mer는 각각 분류정보가 부여되어 있어, 시퀀싱 리드에 대한 분류(taxon) 정보 리스트를 할당할 수 있게 한다.

박테리아 코어 유전자의 k-mer 서열을 사용하는 장점은, 주어진 샘플에 대한 분류학적 풍부도(taxonomy abundance)를 계산할 때, 리드 정규 단계(read normalization step)의 필요성을 제거한다는 것이다. 전체 게놈 서열의 경우, 사이즈가 큰 게놈은, 사이즈가 작은 게놈에 비해 메타 게놈 샘플에 더 많은 수의 리드 제공하는 경향이 있다. 예를 들어, 2백만 염기쌍을 갖는 종B에 비해, 천만 염기쌍을 갖는 종A는 단위 세포당 시료에 5배 더 많은 리드를 제공한다. 메타게놈 프로파일이 종A의 천만 리드와 종B의 천만 리드를 포함하는 경우, 종A와 종B는 리드 수가 동일한 것을 의미하지만, 게놈 크기 차이로 인해 시료는 종A의 1개 게놈을 포함하고, 종B는 5개 게놈을 포함하는 것으로 유추할 수 있다. 박테리아 게놈은 수개의 16S rRNA 카피를 포함하므로, 상기와 유사한 상황은 16S rRNA 서열을 이용한 방법에서도 발생될 수 있으며, 이에 주어진 메타게놈 시료 내에 각각의 종에 대한 16S rRNA 리드가 다르게 기여하게 된다. 반면에, 박테리아 코어 유전자는 든 또는 대부분의 종에서 존재하고, 모든 게놈에서 한 카피만 존재하므로, 정규화 단계가 필요하지 않다.

또한, 박테리아 코어 유전자의 k-mer 서열을 사용하면 모든 메타게놈 시료를 저장하고 분석하는데 필요한 물리적 저장 매체의 크기가 감소된다. 예를 들어, 10,000 종에 대한 참조 전체 게놈 k-mer 데이터베이스는 모든 유형의 물리적 저장 매체에서 대략 450 기가 바이트를 필요로 하지만, 동일한 10,000 종의 박테리아 코어 유전자 k-mer 데이터베이스는 대략 7 기가 바이트로 충분하므로, 실제 저장 미디어의 경우 약 6,400 %의 저장 크기가 감소한다. 이러한 저장 공간의 크기 감소는 RAM 또는 솔리드 스테이트 드라이브(solid-state drive)와 같은 보다 빠른 유형의 물리적 저장 매체의 사용을 가능하게 한다.

본원에서 기술된 방법은 정확한 메타게놈 분류학적 프로파일링을 위해 정확한 k-mer 매치 접근법을 사용하여 박테리아 코어 유전자를 사용하는 이점을 나타낸다.

참조 k-mer 데이터베이스를 준비할 때, k-mer의 크기 또는 길이를 선택해야 한다. 하기 표 1에서 k의 크기가 데이터베이스에 미칠 영향을 보여준다. 단계 (A)에서 정의된 바와 같이, 코어 유전자 세트는 특정 종에 속하는 고유한 k-mer (모든 게놈에서 한 카피만 존재하는 k-mer)이므로, 고유한 k-mer의 백분율이 높아야 한다. 참조 코어 유전자의 데이터베이스를 구축하기 위해 사용된 개별 미생물 게놈에 대한 분류체계 및 분류학명 리스트를 포함한다.

상기 기술한 참조 k-mer 데이터베이스는 k-mer 개수용으로 고안된 알고리즘 또는 프로그램, 예를 들면 JELLYFISH로 생성할 수 있다. JELLYFISH 는 특정 입력 FASTA 파일로부터 k-mer를 개수하는 명령 줄 응용 프로그램이며, 효율적인 해시 테이블을 사용하여 k-mer와 해당 고유 숫자 ID를 메모리에 저장한다. 해시 테이블은 인덱스를 원하는 값에 대한 배열로 계산하는 해시 함수를 사용하여 키(key)를 값에 매핑할 수 있는 데이터 구조이다. 고유한 숫자 ID가 값으로 저장되는 동안 DNA k-mer 시퀀스는 해시 키로 저장된다(도 3).

새로운 k-mer가 있을 때마다 해시 테이블에 새로운 공간이 할당되고 고유 숫자 ID가 저장된다. 이 경우 고유한 숫자 ID는 특정 종에 속한다. 분류체계상의 위치나 고유한 분류학명은 정보체의 크기가 크므로 해당 분류학명을 지시할 수 있는 고유한 숫자 ID가 있고 각각의 ID는 참조데이터베이스에 포함되어 있는 모든 미생물종에 대해서 각각의 종과 매치됩니다(도 4). 이전에 저장된 k-mer가 다른 DNA 서열에서 다시 발견되면, LCA (Lowest Common Ancestor) ID가 특정 종에 대한 고유 숫자 ID을 대신하여 사용된다(도 5).

상기 LCA ID는 분류 계통도를 사용하여 생성된다. 예를 들어, k-mer가 E. coli 및 Shigella 종의 참조 서열에서 발견되면, LCA ID는 이들이 속하는 과 분류(Enterobacteriaceae)에 속할 것이다. 일단 LCA가 계산되면 해당 k-mer에 대한 해시 테이블 내의 값을 대체한다. 모든 k-mer가 해시 테이블로 메모리에 생성되고 하드 드라이브에 저장된다. 상기 해시 테이블 파일은 Kraken 데이터베이스라고도 한다. Kraken은 오픈 소스 k-mer 분류자이며 JELLYFISH 내장 데이터베이스와 호환된다.

하기 표 4에 나타낸 바와 같이, k-mer 데이터베이스의 박테리아 코어 유전자는 최종 데이터베이스의 파일 크기가 작다는 장점을 가지며, 실행을 위한 RAM 메모리와 같이 더 빠르고 더 작은 메모리에 상기 데이터베이스를 할당할 수 있으며, 결과적으로 k-mer 분류자 프로그램을 수 백배 더 빠르게 실행할 수 있다.

박테리아 코어 유전자의 k-mer 데이터베이스는 종 수준에서 분류 오류 백분율을 거의 반으로 감소시켜, 전체 게놈 k-mer 데이터베이스와 동일한 수의 종을 나타내는 더 작은 데이터베이스가 어떻게 더 정확할 수 있는지를 보여준다(표 4).

더욱 자세하게는, 상기 (b-1) 적어도 2종 이상의 참조 미생물 전체의 박테리아 코어 유전자의 뉴클레오티드 서열정보를 얻는 단계는, 참조 미생물의 유전체 DNA 서열 추출 및 서열정보 분석을 수행하거나, 참조 미생물의 코어 유전자만을 증폭하여 서열정보 분석을 수행하거나, 미생물 유전체 서열정보에 관한 데이터베이스에서 서열정보를 추출하여, 참조 미생물의 박테리아 코어 유전자의 뉴클레오티드 서열정보를 얻을 수 있다.

상기 참조 미생물의 유전체 DNA 서열 추출 및 서열정보 분석을 수행하거나, 참조 미생물의 코어 유전자만을 증폭하여 서열정보 분석을 수행하는 방법의 경우, DNA 출원 및 서열분석은 상기 단계 (a)의 시료 k-mer 데이터세트 얻는 단계에서 수행한 방법과 실질적으로 동일한 방법으로 수행할 수 있다.

또한, 미생물 유전체 서열정보에 관한 데이터베이스에서 서열정보룰 추출하여 참조 미생물의 박테리아 코어 유전자의 뉴클레오티드 서열정보를 얻는 경우에는 UBCG 생물정보학 파이프라인을 사용하거나 대체 파이프 라인을 통해 얻을 수 있다. 예를 들면, 상기 시료 전체의 미생물 유전체 DNA의 서열정보 (입력 데이터세트)는 SRA 툴킷 프로그램을 사용하여 NCBI (National Center for Biotechnology Information)의 Sequence Read Archive에서 검색 및 다운로드 할 수 있지만 이에 국한되지는 않다. 예를 들어 박테리아 코어 유전자는 UBCG 파이프 라인을 사용하여 EzBioCloud 데이터베이스의 게놈에서 추출될 수 있다.

상기 (b-2) 전체 참조 미생물 집단의 코어 유전자의 서열정보를 이용하여 k-mer로 분할하고, 상기 각 k-mer에 미생물 분류(taxon)정보를 부여하는 공정을 수행하여, taxon 정보가 부여된 k-mer 데이터베이스 구축할 수 있다.

상기 참조 미생물 코어 유전자의 참조 k-mer 데이터베이스는 상기 참조 코어 유전자의 DNA 정보를 k-mer으로 분할하여, 상기 참조 코어 유전자로부터 생성된 하나 이상의 k-mer를 포함하며, 상기 k-mer은 미생물 분류(taxon)정보가 부여된 것일 수 있다. 상기 k-mer 및 참조 미생물 코어 유전자 정보를 이용하여 k-mer 데이터베데이스를 구축하는 방법은, 상기 단계 (a)의 시료 k-mer 데이터세트 얻는 단계에 관한 설명고 실질적으로 동일하게 수행할 수 있다. 다만, 상기 단계 (a)의 시료 k-mer 데이터세트의 구축에서는 시료 내 미생물의 전체 유전체 정보를 이용한 것이나, 참고 k-mer 데이터베이스 구축에서는 참고 미생물의 코어 유전자를 이용하는 것이 상이하다.

상기 분할된 각각의 k-mer에는 미생물 분류(taxon)정보를 부여하여 taxon 정보가 부여된 k-mer 데이터베이스 구축할 수 있다. 상기 미생물 분류 정보의 부여는, 고유 k-mer의 경우 해당 k-mer가 단일 게놈 또는 단일 균종을 의미하게 되므로 해당하는 균종에 관한 개별 분류정보를 부여한다. 또한, 구별 k-mer에서 고유 k-mer를 제외한 k-mer 들은 동일 게놈에 존재하는 두 개 이상의 코어 유전자에서 발견되거나 또는 두 개 이상의 상이한 게놈에서 발견된 경우이다. 동일 게놈에 존재하는 두 개 이상의 코어 유전자에서 발견되는 경우에는 해당 게놈의 미생물 분류 정보를 부여하며, 두 개 이상의 상이한 미생물 게놈에서 발견된 경우에 대해서 각각의 게놈이 다른 분류군일 경우 각각의 분류군 정보를 이용한 최소공통조상(LCA)을 해당 k-mer의 분류정보로 사용하게 된다.

더욱 자세하게는, 상기 참조 코어 유전자의 참조 k-mer 데이터베이스는,

참조 미생물 유전체 정보에서 참조 코어 유전자 (reference core gene)의 서열 정보를 추출하고, 상기 참조 코어 유전자의 서열 정보를 k-mer으로 분할하여 하나 이상의 k-mer를 얻고,

상기 각 k-mer에 대해 미생물 분류(taxon) 정보에 관한 고유 ID를 부여하여 참조 코어 유전자의 k-mer 데이터베이스를 구축하며,

상기 각 k-mer에 대해 미생물 분류(taxon) 정보에 관한 고유 ID를 부여하는 방법은, (i)고유(Unique) k-mer 인 경우 해당 k-mer 가 속한 미생물 종의 고유 ID를 부여하고, (ii) 구별(distinct) k-mer이면서 해당 k-mer가 미생물 한 종에서만 발견될 경우 해당 미생물 종의 고유 ID를 부여하고, (iii) 구별(distinct) k-mer 이면서 해당 k-mer가 여러 미생물 종에서 발견될 경우 최소공통조상(LCA)을 선택하여 해당 미생물 분류(taxon)정보에 대한 고유 ID를 부여하여 수행되는 것일 수 있다.

본 발명에 따른 미생물 동정 및 분류하는 방법 또는 시스템은 (c) k-mer 완전일치법에 따라 시료 k-mer 데이터세트에 포함된 k-mer에 대해, 참조 k-mer 데이터베이스에 포함된 k-mer을 비교하여 완전일치 k-mer를 선정하고, (d) 상기 선정된 k-mer의 분류(taxon)정보를 이용하여, 시료에 포함된 미생물 종을 동정 및 분류하는 단계를 포함할 수 있다.

본 발명에 따른 미생물 동정 및 분류하는 방법 또는 시스템에서, 상기 시료 k-mer 데이터세트에 포함된 k-mer에 대해, (b) 참조 k-mer 데이터베이스에 포함된 k-mer을 비교하여, 완전일치 k-mer를 선정하는 단계 수행한다.

본 발명은 메타게놈 분류(metagenomic taxonomic) 프로파일을 생성하기 위해 박테리아 코어 유전자의 k-mer 데이터베이스와 비교함으로써 정확하고 효율적인 메타게놈 리드의 분류를 가능하게 하는 컴퓨터 시스템에 관한 것이다. 박테리아 코어 유전자의 k-mer 데이터베이스를 사용하면 다양한 기술적 효과와 이점을 얻을 수 있다.

"정확한 k-mer 매치 (exact k-mer match)," "정확한 k-mer 배열(exact k-mer alignment) 접근법" 또는 "k-mer 완전일치법" 과 박테리아 코어 유전자의 염기 서열을 조합하여 이용함으로써, 더 빠르고 정확하며 편향없이 미생물 분류를 수행할 수 있다. 입력 데이터에서 생성된 k-mer 전체에 대해 데이터베이스의 k-mer와 정확히 일치하는 k-mer를 검색하여 해당 k-mer의 분류(taxon)정보를 포함하고 있는 인덱스를 목록화 하는 방법으로 수행할 수 있다.

일반적으로 "정확한 일치(exact match)" 또는 "완전 일치" 는 비교되는 서열 중 가장 짧은 길이 (또는 동일한 경우 두 서열의 길이 이상)에 걸쳐 100 % 동일성을 나타낸다. 일반적으로, "서열 동일성(sequence identity)"은 각각 2 개의 폴리뉴클레오티드의 뉴클레오티드 - 대 - 뉴클레오티드 대응을 지칭한다.

구체적으로, 상기 (c) k-mer 비교 및 완전일치 k-mer를 선정은, 시험 k-mer 데이타세트를 참조 k-mer 데이터베이스와 비교하여 서열이 완전히 동일한 k-mer가 존재하는 지를 검색하고 1개 이상의 염기라도 상이하면 동일하지 않는 것으로 판단하게 된다. 참조 코어 유전자의 k-mer 데이터베이스 구축 시 코어 유전자에서 동일한 k-mer가 여러 개 나오게 된 경우 상기 구별(distinct) k-mer로 처리되고, 입력된 시료의 유전자 정보(메타게놈 데이터의 리드)에서는 해당 k-mer가 데이터베이스의 k-mer와 정확히 매치될 경우 해당 k-mer의 고유 ID를 목록화 하여 사용한다. 예를 들면, 시험 시료에서 얻어진 k-mer 단편 (예, extracted k-mers)와 참조 k-mer 데이터베이스의 k-mer 단편 (예, stored k-mers) 사이에 염기서열을 비교하며, 시험 k-mer 단편과 정확한 매치가 되는 k-mer단편만을 참조 k-mer 데이터베이스에서 선택하게 된다.

상기 (c) k-mer 비교 및 완전일치 k-mer의 선정은 k-mer 분석기로 수행할 수 있으며, k-mer 분석기의 예는 KRAKEN을 들 수 있다. KRAKEN은 이전에 구축된 참조 k-mer 데이터베이스 (단계 b)와 입력된 시험 k-mer 단편 데이터세트(단계 a)의 정확한 일치 비교를 수행하는 명령 줄 응용 프로그램이다. KRAKEN은 데이터베이스와 입력 데이터 세트의 정확한 일치 비교를 수행하는 명령 줄 응용 프로그램이며 분류학적 계통도(taxanomic tree)와 최하위 공통 조상(lowest common ancestor, LCA)기법을 사용하여 모든 입력 리드를 분류한다. LCA 기법을 통해 KRAKEN은 하나의 리드가 상이한 종과 정확한 매치를 한다면, 상기 리드에 대해 좀더 높은 분류학적 순위(rank)를 선택한다.

구체적인 예로서, KRAKEN를 이용한 (c) k-mer 비교 및 완전일치 k-mer를 선정 및 (d) 시료 내 미생물의 동정 및 분류는, 먼저 참조 k-mer 데이터베이스 (해쉬 테이블)를 메모리에 로드하고 거기에서부터 입력된 시료 k-mer 데이터세트로부터 리드 (DNA 시퀀스) 염기서열 부분을 읽고, 이후 읽은 리드를 하기와 같이 k-mer로 분할하여 완전일치 방법에 기반한 검색을 수행한다. 그런 다음, KRAKEN은 해당 k-mer를 검색하여 해시 테이블에서 해당 값 (고유 ID)을 얻는다. 상기 입력 데이타세트에서 얻어진 각각의 리드는 k-mer로 분할되어 시료 k-mer 데이터세트를 얻고, 상기 시료 k-mer 데이터세트에 포함된 k-mer의 크기는 참조 데이터베이스의 k-mer 크기와 일치해야 한다.

도 6은 본 발명에 따른 시퀀싱 리드 분류의 예를 보여준다. 도 6에서, 해시 테이블 (참조 k-mer 데이터베이스)이 메모리로 로드되고 쿼리 리드(시료 미생물의 유전체 서열정보의 시험 리드)가 분류되어야 한다. 상기 쿼리 리드 (CGAGCGCAACCCGTT)(SEQ ID NO: 1)은 여러 개의 k-mer로 분할된다: {CGAGCGCAACCC (SEQ ID NO: 2), GGAGCGCAACCC (SEQ ID NO: 3), AGCGCAACCCGT(SEQ ID NO: 4)}, GCGCAACCCGTT(SEQ ID NO: 5)}, 각각의 k-mer에는 고유한 숫자 ID가 있고, 이 경우 관련 ID 숫자는 {5756, 2347, 1345, 1345}이다. 상기 ID는 상이한 속(genus)에 속하는 종(species)에 관한 것으로서, 리드 분류가 가장 일반적인 분류군에 할당된다. 이 경우 분류는 과(family) 수준이다. k-mer 시퀀스가 해시 맵 (hash map)의 주요 인자(key)로 사용되므로, 그러한 k-mer를 검색하려면 일정한 계산 시간이 필요하다. Kraken은 발견된 모든 k-mer 서열의 고유 ID 모두를 파일에 저장하고 각 ID에 대해 얼마나 많은 k-mer가 발견되었는지를 선정된 k-mer 수로 계산한다. 마지막으로 Kraken은 선정된 K-mer 수(number)를 사용하여 각 종 또는 더 높은 상위 분류군에 대해 리드 수를 표시하는 결과(보고서)를 생성한다.

더욱 자세하게는, 상기 미생물 분류(taxon) 정보는 고유 ID로 구분하여, 참조 k-mer 데이터베이스의 개별 k-mer에 부여된 것이며,

상기 시료 미생물 유전체의 개별 시퀀싱 리드에 대해,

(ii) 상기 선정된 k-mer에 부여된 고유 ID 정보를 얻고,

상기 개별 시퀀싱 리드별로 얻어진 분류학적 수준에 해당하는 고유 ID를, 상기 시료 미생물 유전체에 포함된 전체 시퀀싱 리드에 대해 수행하여 얻어진 고유 ID 를 모아 전체 고유 ID 목록을 만들어, 상기 시료 미생물의 동정 및 분류하는 것일 수 있다.

또한, 시료에서 얻은 미생물 유전체 정보를 제공하고,

상기 미생물 분류(taxon) 정보는 고유 ID로 구분하여, 참조 k-mer 데이터베이스의 개별 k-mer에 부여된 것이며,

상기 시료 미생물 유전체의 개별 시퀀싱 리드에 대해,

(ii) 상기 선정된 k-mer에 부여된 고유 ID 정보를 얻고,

시료 내 미생물의 종의 풍부도 프로파일 정보를 얻는 방법일 수 있다.

본 발명에 따른 박테리아 코어 유전자 및 k-mer 데이터세트를 사용한 미생물의 동정 및 분류학적 프로파일링 방법은 하기와 같은 장점을 갖는다.

첫째, "상동성 검색(homology search)"기반 접근 방식과 비교하여, 본 발명에 따른 "정확한 k-mer (exact k-mer)" 접근법은 더욱 신속히 분류를 수행할 수 있다. 상기 정확한 k-mer 접근법에 따라 신속한 분류가 가능한 이유는, "정확한 k-mer 접근법"이 게놈의 서브문자열을 가진 "참조 k-mer 데이터베이스"라고 하는 사전에 얻어진 데이터베이스에서 작동하고, 상기 데이터베이스에 대해 문자열의 정확한 일치 여부만을 필요로 하기 때문이다. 그러나, 종래에 알려진 상동성 검색 접근법은, 참조 데이터베이스에 포함된 여러 개의 게놈 서열에 대해 리드 전체 길이에 걸쳐 포함된 DNA 염기의 삽입, 삭제 및 돌연변이를 찾아 내야 하므로 상당한 시간이 소요된다.

둘째, 전체 게놈(유전체) 서열을 사용하는 것과 비교하여, 본 발명에 따른 박테리아 코어 유전자를 이용한 미생물 분류는, 데이터베이스의 저장 용량을 매우 감소시킬 수 있다. EzBioCloud 데이터베이스를 기준으로 계산된 전체 종의 평균 게놈 크기는 평균 4 백만개의 염기쌍인 반면, UBCG 파이프라인을 통해 계산된 코어 유전자 한 개당 평균 길이는 1,000 염기쌍이다. 따라서, 본 발명과 같이 적어도 2종 이상의 미생물의 게놈을 포함하는 메타게놈 시료의 미생물 동정 및 분류에서는 처리할 데이터베이스의 저장 용량 크기는 프로그램 수행 속도 및 저장 용량, 하드웨어 등의 구비 조건과, 미생물 분류학적 프로파일링을 얻는 시간 및 속도를 고려할 때 매우 중요한 요소이다.

셋째, 종래에 미생물 분류에 사용된 유전자 마커는 빈도 및 크기가 매우 다양하며, 빈도 및 크기에 따라 미생물 분류 결과에 영향을 미치고 새로운 게놈에는 적용하기 어려워 변경이 필요할 수 있다. 본 발명의 일 예에 따라 유전자 마커 대신에 박테리아 코어 유전자를 사용하면 모든 박테리아 게놈이 거의 동일한 크기의 코어 유전자를 포함하고 있기 때문에, 보다 동등하게 편향없이 모든 게놈에 대응할 수 있다. 분류학적으로 근접한 게놈은 더욱 유사한 코어 유전자를 가지고 있기 때문에, 상동성 검색에서 코어 유전자를 사용하면 하위 분류군, 특히 종 수준에서 부정확하거나 모호한 분류학적 프로파일이 생성되는 문제점이 있다.

본 발명의 일 예에서 기술된 방법은 박테리아 계(kingdom)에서 각 종(species)으로부터 박테리아 코어 유전자와 관련된 k-mer 서열의 정확한 일치 비교에 근거한 메타게놈 분류학적 프로파일링을 가능하게 한다.

본 발명의 추가 일 예에서, 박테리아 코어 유전자 및 k-mer 데이터베이스를 사용하여 메타게놈 분류학적 프로파일을 생성하도록 구성된 컴퓨터 시스템이 설명된다.

구체적인 일 예에서, 본 발명은 (a) 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와, (b)k-mer 추출기 (k-mer extractor)와 k-mer 분석기(k-mer analyzer)를 구비한 프로세서를 포함하는, 시험 시료 내 미생물을 동정 및 분류하는 시스템으로서,

상기 참조 k-mer의 데이터베이스는 하나 이상의 참조 박테리아 코어 유전자의 DNA 정보로부터 생성된 하나 이상의 k-mer를 포함하며, 상기 k-mer은 상기 미생물의 분류 정보가 부여된 것이며;

상기 프로세서의 k-mer 추출기는 시료에서 얻은 메타게놈 정보에서 하나 이상의 k-mer을 추출하며,

상기 프로세서의 k-mer 분석기는, 상기 시료 k-mer 데이터세트에 포함된 k-mer에 대해 참조 코어 유전자의 k-mer 데이터베이스에 포함된 k-mer와 핵산서열정보가 완전히 동일한 k-mer을 선정하여, 상기 선정된 k-mer의 분류(taxon)정보를 포함하고 있는 인덱스를 목록화하고, 상기 선별된 k-mer에 대한 분류학적 정보를 기초로 시료에 포함된 미생물의 동정 및 분류를 수행하는 것인, 시료 내 미생물을 동정 및 분류하는 시스템에 관한 것이다.

상기 시스템은 적어도 하나의 프로세서 및 저장된 컴퓨터 실행 가능 명령어를 갖는 하나 이상의 저장 장치를 포함한다. 상기 명령은 하나 이상의 프로세서에 의해 실행될 수 있고 뉴클레오티드 서열을 함유하는 입력 데이터 세트를 수신한다. 입력 서열은 k-mer 분석기를 사용하여 사전 구축된 참조 박테리아 코어 유전자의 k-mer 데이터베이스와 비교된다. 마지막으로, 전술한 k-mer 분석기는 상기 입력 데이터 세트에 대한 분류학적 프로파일을 생성할 수 있다.

본 발명의 일 예에 따라 시험 시료 내에 존재하는 박테리아 균종을 동정 및 분류하는 방법을 2종 이상의 박테리아를 포함하는 시료, 예를 들면 메타게놈 시료에 적용하는 경우, 시험 k-mer 데이터세트는 참조 박테리아 코어 유전자의 k-mer를 포함하는 참조 k-mer 데이타베이스와 k-mer 완전일치법으로 비교하여, 시료 k-mer 데이터세트에서 일치된 참조 코어 유전자의 k-mer 데이터베이스 상의 특정 균종의 taxon 정보 및/또는 최소공통조상(LCA) 정보가 포함된 taxon 정보를 기록하고, taxon 정보 및 완전일치된 k-mer 수의 합계 정보를 이용하여 시험 코어 유전자의 k-mer 데이타세트에 대한 분류를 수행하여 시료 k-mer 데이터세트 (입력 데이터세트)에 대한 분류학적 프로파일을 생성하는 단계를 포함한다.

입력 데이터세트로부터 얻어진 모든 서열 (시퀀싱 리드)에 대한 완전 일치하는 k-merm의 taxon을 선택하는 단계로서, 구체적으로 각 시퀀싱 리드별로 k-mer에 해당하는 고유 ID (예, 숫자 또는 문자 등) 목록을 만들고 상기 ID값에 기반하여 taxon을 선택하게 되며, 선택된 ID가 하나인 경우 해당 ID에 해당하는 taxon를 선택하고, 선택된 ID가 여러 개인 경우 최소공통조상(LCA)을 선택하고, 입력 데이터세트의 모든 균종에 대한 각 시퀀싱 리드별로 할당된 고유 ID(taxon) 정보를 결합하여 분류학적 수준 당 분류된 리드 (classified read)의 수 (number)를 얻고, 시료 내 미생물의 분류학적 프로파일을 결정하는 단계로서, 구체적으로 고유 ID(taxon) 별로 할당된 리드 수에 따라 프로파일 결정하는 것이다.

본 발명에 따른 미생물 분류 방법에서, 상기 시료 미생물의 유전체 DNA를 NGS 방법으로 서열정보를 분석하는 경우 시퀀싱 리드보다 작은 크기의 단편은 분석대상에서 제외되며, 얻어진 시료 k-mer 데이터세트가 참조 k-mer 데이터베이스와 비교하여 완전히 일치하지 않는 k-mer는 분석대상에서 제외되게 된다.

본 발명에 따른 방법에서, 입력 데이터세트 내 모든 서열에 대한 최종 taxon 를 추가 필터링 공정을 사용할 수도 있고 사용하지 않을 수도 있다.

본 발명에 따른 방법의 결과 얻어지는 산물의 일 형태는 메타게놈 분류 보고서 (metagenomic taxonomy report)일 수 있으며, 하나 이상의 분류학적 수준에 대한 리드의 총 수를 포함한다. 박테리아 코어 유전자의 정의 때문에, 표준화 단계가 필요하지 않으며, 이에 상기 보고서는 메타게놈 풍부 보고서(metagenomic abundance report)라고 할 수 있다.

본 발명의 메타게놈 분류 방법은 하나 이상의 프로세서에 의해 실행될 수 있으며, 더 빠른 분류를 위해 박테리아 코어 유전자의 k-mer 데이터베이스를 RAM 메모리와 같은 보다 빠른 물리적 저장 매체로 전송할 수 있다.

본 발명은 예시적인 도면을 참조하여 설명될 수 있다.

도 1은 박테리아 코어 유전자의 k-mer 데이터베이스에 대한, 입력 샘플의 정확한 k-mer 매치에 기초한, 메타게놈 분류학적 프로파일링을 위해 구성된 컴퓨터 환경(100)의 예를 도시한다. 상기 컴퓨터 환경 (100)은 메모리 (120) 및 적어도 하나의 프로세서 (131)를 갖는 컴퓨터 장치 (110)를 포함한다. 다른 구성 요소는 상이한 다양한 프로세서 및 메모리 유형을 포함 할 수 있다. 메모리 (120)는 임의의 유형, 물리적, 휘발성, 비 휘발성, 외부 저장 장치, USB 메모리, SSD 메모리 또는 임의의 종류의 저장 장치 일 수 있으며, 2 이상의 유형의 메모리의 조합 일 수 있다.

상기 컴퓨터 장치 (110)는 또한 마우스, 키보드, 임의의 종류의 모니터, 스피커 및 컴퓨터 장치 (110)과 사용자 사이에 임의 종류의 입력/출력을 위해 사용될 수 있는 임의의 다른 장치를 포함할 수 있는, 하나 이상의 입력 / 출력 하드웨어 (132)를 포함하는 컴퓨터 장치 (110)에 관한 것이다.

상기 컴퓨터 장치 (110)는 또한 적어도 하나의 부가적인 컴퓨터 시스템과 통신하는데 사용될 수 있는 적어도 하나의 통신 채널 (133)을 포함한다. 상기 통신 채널은 근거리 통신망 (LAN), 인터넷 또는 유사한 네트워크 구성의 형태 일 수 있다.

상기 컴퓨터 장치 (110)는 또한 몇몇 실행 가능 컴포넌트 (134-135)를 포함하며, 여기서 실행 가능 컴포넌트는 컴퓨팅 시스템상에서 실행될 수 있는 소프트웨어 코딩 된 컴포넌트, 모듈 또는 방법으로 정의 될 수 있다.

도 1은 참조 박테리아 코어 유전자 k-mer 데이터베이스와 비교하여, 주어진 샘플에 대한 메타게놈 분류학적 프로파일을 생성하도록 설계된 컴퓨터 시스템의 설정에 대한 예를 도시한다. 또 다른 설정에서는 하나 이상의 구성 요소가 없을 수 있다. 상기 예는 그 구성 요소 중 하나 이상의 위치를 제한할 의도는 아니다.

도 1에 도시된 메모리 컴포넌트 (120)는 이전에 박테리아 코어 유전자 세트로부터 생성된 k-mer를 함유하는 박테리아 코어 유전자 k-mer 데이터베이스 (121)를 포함한다. 상기 코어 유전자는 상기 코어 유전자가 나타내는 종의 수에 따라 다양 할 수 있다. 또한, 메모리 구성 요소 (120)는 적어도 50개 염기쌍을 포함하는 하나 이상의 폴리뉴클레오티드 서열을 함유하는 하나 이상의 파일을 포함할 수 있는 메타게놈 데이타 샘플 구성 요소 (122)를 포함한다. 상기 파일은 FASTA 포맷 파일, FASTQ 포맷 파일 또는 폴리뉴클레오티드 서열을 포함할 수 있는 임의의 다른 포맷을 포함하는 텍스트 기반 일 수 있다. 상기 파일은 메타게놈 데이터 샘플을 나타내고, 선택적 필터링 프로세스 (135)와 함께 k-mer 분석기(123)를 사용하여 박테리아 코어 유전자 k-mer 데이터베이스 (121)와 비교될 것이다.

도 2는 메타게놈 데이터 샘플로부터의 얻어진 쿼리 리드로부터 얻어진 각각의 k-mer 서열을 참조 박테리아 코어 유전자 k-mer 데이터베이스와 비교하는 과정을 대략적으로 도시한 모식도이다.

상기 컴퓨터 판독 방법은 컴퓨터 판독 가능 매체상의 컴퓨터에서 실행 가능한 프로그램으로 구현 될 수 있다.

다른 일 예는 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램을 제공하여 컴퓨터 판독 방법의 단계들을 실행한다. 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램은 하드웨어와 결합 될 수 있다. 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램은 컴퓨터 판독 방법의 각 단계를 실행하기 위한 프로그램이고, 모든 단계는 하나의 프로그램에 의해 실행되거나, 하나 이상의 단계를 실행하는 둘 이상의 프로그램에 의해 실행될 수 있다.

다른 일 예는 컴퓨터 판독 가능 방법의 단계들을 실행하기 위해 컴퓨터에서 실행 가능한 프로그램 (컴퓨터 실행 가능 명령)을 갖는 컴퓨터 판독 가능 저장 매체 (또는 기록 매체)를 제공한다.

본 발명은 k-mer 완전 매치 알고리즘과 박테리아 코어 유전자를 사용하여 메타게놈 샘플에 포함된 미생물 동정 및 분류 방법 및 시스템에 관한 것으로, 상기 메타게놈 샘플에 대한 분류학적 조성에 대한 분석을 편향없이 더 빠르고 더 정확하게 할 수 있는 장점이 있다.

도 1은 본 발명의 일 예에 따라 박테리아 코어 유전자의 k-mer 데이터베이스에 대한, 입력 샘플의 정확한 k-mer 매치에 기초한 메타게놈 분류학적 프로파일링을 위해 구성된 컴퓨팅 환경 (100)을 도시한다. 상기 컴퓨팅 환경 (100)은 메모리 (120) 및 적어도 하나의 프로세서 (131)를 갖는 컴퓨터 장치 (110)를 포함한다.

도 2는 본 발명의 일 예에 따라 메타게놈 샘플로부터 리드를 비교하는 프로세스의 예를 도시하며, 시험 시료의 입력 리드로부터 얻어진 각 k-mer 서열을 박테리아 코어 유전자의 참조 k-mer 데이터베이스와 비교한다.

도 3은 본 발명의 일 예에 따라 k-mer 분류를 위한 해쉬 테이블의 예시로서, k-mer는 키(key)를 나타내고 종 (species)의 ID (수치 값)는 값으로 저장된다.

도 4는 본 발명의 일 예에 따라 두 개의 k-mer를 포함하는 해시 테이블이며 두 개의 상이한 종에 속한다.

도 5는 본 발명의 일 예에 따라 두 개의 k-mer를 포함하는 해시 테이블이며, 하나는 두 개의 상이한 종 (5756과 1345)에 속하며, 상기 두 개 ID를 저장하는 대신에 가장 낮은 공통 조상 (LCA)이 계산되며, 이 경우 LCA는 과(family) 수준이다(ID 930).

도 6은 본 발명의 일 예에 따라 메모리에 할당된 해시 테이블로서, 쿼리 리드(CGAGCGCAACCCGTT)는 분류되어야 하며, 전체 4개의 k-mer를 읽을 수 있으며, 4 개의 k-mer가 해시 테이블에서 검색되고 해당 값이 추출된다 (5756, 2347, 1345, 1345). 리드를 분류하기 위해, k-mer에 대한 LCA를 선택하고, 이 경우 상기 리드는 노드 930 (father of the nodes)로 분류될 것이다.

이하, 본 발명을 실시 예에 의해 구체적으로 설명한다. 그러나, 하기 실시 예는 본 발명을 예시하기 위한 것일 뿐 본 발명의 범위를 한정하는 것은 아니다.

실시예 1: 박테리아 코어 유전자에 대한 참조 K-mer 데이터베이스의 수립

UBCG 파이프 라인을 사용하여 EzBioCloud 데이터베이스에서 얻어진 9,604 개게놈에서 92 개의 박테리아 코어 유전자를 추출하였다. UBCG 파이프 라인은 게놈 내 단일 카피인 코어 유전자 세트를 확인하기 위해 계통 발생 관계를 사용한다.

구체적으로, 박테리아 코어 유전자 세트 확인 방법 및 얻어진 자료는, UBCG 논문 (Seong-In Na et al., Journal of Microbiology (2018) Vol. 56, No.4, pp280-285)내용에 기초하여 코어 유전자를 추출하고 확인한 것으로 해당 논문의 방법은 기존에 공개된 많은 미생물 유전체 데이터를 분석하여 각각의 미생물이 공통적으로 단일 카피로 가지고 있는 92개 유전자를 선정하여 각각의 유전자에 대해서 해당 유전자 서열의 HMM(Hidden Markov Model)을 이용한 유전자 서열 패턴 프로파일을 만들고 유전자 서열 패턴 프로파일을 이용한 검색 프로그램, 예를 들어 HMMER 과 같은 프로그램을 사용하여 해당 유전자 서열을 추출하고 확인하는 방법이다.

상기 박테리아 코어 유전자를 사용하여 젤리피쉬 (JELLYFISH) 프로그램으로 k-mer 데이터베이스를 생성하였다. JELLYFISH는 주어진 입력 FASTA 파일에서 k-mer를 계산하는 명령 줄 응용 프로그램이다. 본 실시예에서는 k = 26을 사용하였다.

JELLYFISH가 박테리아 코어 유전자로부터 26-mer 길이를 갖는 k-mer 데이터베이스를 생성하며, 상기 얻어진 참조 k-mer 데이터베이스는 87 %의 고유(unique) k-mer의 백분율이 87%이고, 전체 크기 6.4 GB를 산출했다.

본 실시예에 따라 얻어진 참조 K-mer 데이터베이스의 분석 결과를 하기 표 2에 나타낸다. 하기 표 2는 박테리아 코어 유전자의 k-mer 데이터베이스에서 고유 k-mer의 수, 구별 k-mer의 수, 전체 k-mer의 수, 및 다양한 크기를 갖는 고유 k-mer의 백분율을 나타낸다.

[표 2]

비교예 1. 박테리아 전체 게놈에 대한 참조 K-mer 데이터베이스의 수립

참조 k-mer 데이터베이스에서 박테리아 코어 유전자를 사용하는 효율성을 보여주기 위해 또 다른 참조 k-mer 데이터베이스를 만들었다.

본 실험에서는 상기 k-mer 데이타베이스는 실시예 1과 동일한 과정에 따라 제작되었지만, 전체 게놈 서열이 사용되었다. 전체 게놈에 대한 k-mer 데이터베이스는 박테리아 코어 유전자에 대한 k-mer 데이터베이스에 포함된 종과 동일한 종을 포함한다.

JELLYFISH가 박테리아 전체 게놈으로부터 26-mer 길이를 갖는 k-mer 데이터베이스를 생성하며, 상기 얻어진 k-mer 데이터베이스는 전체 크기 353.11 GB로서 실시예 1의 파일 용량에 비해 약 55배 큰 수치이었다.

실시예 2: 분석 오류율 평가

2-1: 실험 시료

기존에 발표된 합성된 메타게놈 입력 파일을 본 발명에 따른 분류 방법의 검증에 사용하였다. 상기 합성 데이터세트에 대한 분류학적 및 대략적인 풍부도(taxonomy and approximate abundance)는 Laskar F 등의 J Basic Microbiol. 2018 Feb;58(2):101-119의 "Diversity of methanogenic archaea in freshwater sediments of lacustrine ecosystems"에 기재되어 있다.

2-2: 참조 k-mer 데이터베이스를 이용한 시료 미생물의 분류

실시예 1의 참조 박테리아 코어 유전자의 참조 k-mer 데이타베이스와 비교예 1의 박테리아 전체 게놈의 참조 k-mer 데이타베이스를 사용하여, KRAKEN 프로그램으로 상기 2-1의 시료 메타게놈 입력 파일을 분류하였다.

실시예 1에서 얻은, 작은 크기를 갖는 박테리아 코어 유전자의 참조 k-mer 데이터베이스에 대해, 상기데이터베이스를 RAM 메모리에 할당하여 KRAKEN 프로그램이 데이터베이스에 더 빨리 접근할 수 있게 했다. 입력 데이터 세트에서 296,514 개의 리드를 분류하는 데는 대략 9 초가 걸렸다.

K-mer 분석기인 KRAKEN 프로그램을 사용하여, 시료 k-mer 데이터세트와 참조 박테리아 코어 유전자의 k-mer 데이터베이스를 비교했다. KRAKEN은 데이터베이스와 입력 데이터 세트의 정확한 일치 비교를 수행하는 명령 줄 응용 프로그램이며 분류학적 계통도(taxanomic tree)와 최하위 공통 조상(lowest common ancestor, LCA)기법을 사용하여 모든 입력 리드를 분류한다. LCA 기법을 통해 KRAKEN은 하나의 리드가 상이한 종과 정확한 매치를 한다면, 상기 리드에 대해 좀더 높은 분류학적 순위(rank)를 선택한다.

비교예 1에서 얻은, 전체 게놈의 참조 k-mer 데이터베이스의 크기 때문에 RAM 메모리에 할당할 수 없었지만 대신 표준 하드 드라이브에 보관되었다. 미생물의 분류 과정은 실시예 1에서 얻은 박테리아 코어 유전자 k-mer 데이터베이스보다 약 218 배 더 긴 시간인 47 분이 걸렸다. 전체 게놈의 참조 k-mer 데이터베이스가 전체 게놈 서열을 포함하며 모든 게놈이 동일한 크기가 아니기 때문에, 추가 단계가 수행되어야 했다. 즉, 전체 게놈의 참조 k-mer 데이터베이스를 사용하여 예측된 비율은 각 균종에 대한 평균 게놈 크기를 사용하여 정규화하여야 한다.

실시예1에서 얻은 박테리아 코어 유전자의 참조 k-mer 데이터베이스와 비교예 1에서 얻은 전체 게놈의 참조 k-mer 데이터베이스를 사용하여, 실시예 2-1의 시료에 대한 각 종에 대한 분류된 리드의 비율과, 입력 데이터세트에 대해 이전에 발표된 알려진 비율을 하기 표 2에 나타냈다.

2-3: 분석 오류율 평가 (Test for analysis error rate)

박테리아 코어 유전자의 참조 k-mer 데이터베이스와 전체 게놈의 참조 k-mer 데이터베이스를 사용한 분류 방법에 따른 분석 오류율을 다음의 수학식 1로 계산하고, 그 결과를 표 3에서 분석 오류 백분율로 나타낸다.

[수학식 1]

상기 수학식 1에서, "예측된 풍부도 (predicted abundance)"라는 용어는 주어진 방법이 주어진 종에 대해 예측한 백분율을 말하며, "예상된 풍부도(Expected abundance)"는 표본에 존재하는 종의 진정한 풍부도를 나타낸다.

하기 표 2에서 error rate는 [Real Expected Abundance] - [(core gene k-mer]/(full genome K-mer)] 의 절대값을 [Real Expected Abundance]로 나눈 값이다. 표 2에서 볼 수 있듯이, 실시예 1에 따른 코어 유전자의 k-mer 데이터베이스가 갖는 분석 오류율은 비교예 1에 따른 전체 게놈의 k-mer 데이터베이스보다 낮다.

[표 3]

2-4: 데이터베이스의 Bray-Curtis 유사도 거리 분석

실시예 1의 박테리아 코어 유전자의 참조 k-mer 데이타베이스와 비교예 1의 박테리아 전체 게놈의 참조 k-mer 데이터베이스에 대해, Bray-Curtis 유사도 지수를 평가하였다.

Bray-Curtis 유사도 지수는 Bray-Curtis 거리라고도 하며, 두 시료에서 발견된 종 수준의 조성을 기준으로 1에서 두 시료에서 공통으로 발견되는 종에 대해 각각 시료에서 발견된 종 수 중 작은 수의 합에 2을 곱한 수를 각각의 시료에서 발견된 총 종수를 각각 합한 수로 나눈 것을 뺀 지수이다. Bray-Curtis 거리 방법에 의해 산출된 값이 1에 가까울수록 서로 유사하지 않은 시료이고 0에 가까울수록 유사한 시료입니다.

실시예 1의 박테리아 코어 유전자의 참조 k-mer 데이타베이스와 비교예 1의 박테리아 전체 게놈의 참조 k-mer 데이터베이스에 대해 계산된 Bray-Curtis 유사도 지수와 알려진 풍부도를 비교한 것으로 표 4에 나타냈으며, 코어 유전자의 참조 k-er 데이터베이스의 분류학적 프로파일이 알려진 사실에 더 가깝다는 것을 보여준다.

[표 4] Bray-Curtis distance

2-5: 데이터베이스를 이용한 분류 요약

본 실시예에서, 실시예1의 박테리아 코어 유전자의 참조 k-mer 데이타베이스와 비교예 1의 박테리아 전체 게놈의 참조 k-mer 데이터베이스를 이용하여, 기존에 발표된 합성된 메타게놈 입력 파일를 분류한 결과를 정리하면 하기 표 5와 같다.

표 2의 error rate는 [Real Expected Abundance] - [(core gene k-mer]/(full genome K-mer)] 의 절대값을 [Real Expected Abundance]로 나눈 값이며, 단위가 없는 실제 기대되는 값 과의 비율적인 차이 값이다. 표 5에서 Total error는 각각의 방법(Core gene k-mer / Full genome k-mer)에 대해 이 error rate 값의 합이며 average error는 평균 값이다.

[표 5]

표 5에 나타낸 바와 같이, 실시예 1에 따른 k-mer 데이터베이스의 박테리아 코어 유전자는 최종 데이터베이스의 작은 용량을 갖는 이점이 있으며, 결과적으로 RAM 메모리와 같이 더 빠르고 더 작은 메모리에 상기 데이터베이스를 할당할 수 있으며, 이에 분류 프로그램을 수백 배 더 빠르게 실행할 수 있다.

또한, 박테리아 코어 유전자의 참조 k-mer 데이터베이스는 종 수준에서 분류 오류 백분율을 거의 절반으로 감소시켜, 전체 게놈 k-mer 데이터베이스와 동일한 수의 종을 나타내면서도 더 작은 용량의 데이터베이스가 더 정확한 분류 결과를 제공할 수 있음을 나타낸다.

실시예 3: 미생물 분류방법의 정확성 시험

3-1: 실험 시료

박테리아 코어 유전자의 k-mer 데이터베이스를 이용한 메타게놈 분류의 정확성을 확인하기 위해 본 실험을 수행하였다.

즉, 본 실험은 전체 게놈의 참조 k-mer 데이터세트와 비교하여, 본 발명에 따른 코어 유전자의 참조 k-mer 데이터세트가 16S rRNA 데이터세트와 더 큰 유사성을 가졌는지 여부를 시험하였다. 특히, 16S rRNA 데이터와 샷건 데이터 모두에서 Human Microbiome Project (HMP)의 5 가지 무작위 세트 (NCBI SRA ID : SRS058770, SRS063985, SRS016203, SRS062427, SRS052697)를 선택했다.

3-2: 분류학적 분석

각각 샷건 데이터세트에 대한 분류학적 프로파일링은, 실시예 1과 실질적으로 동일한 방법으로 코어 유전자의 참조 k-mer 데이터베이스를 이용하여 계산하고, 비교예 1과 실질적으로 동일한 방법으로 전체 게놈의 참조 k-mer 데이터베이스를 사용하여 계산하였다. 16S rRNA 데이터는 클라우드 플랫폼 EzBioCloud (www.ezbiocloud.net)에 의해 분류학적으로 프로파일링된 것이다.

코어 유전자의 참조 k-mer 데이터베이스 및 전체 게놈의 참조 k-mer 데이터베이스의 정확성을 16S rRNA 분류학적 프로파일 예측으로 측정하였다.

하기 표 6 내지 표 10는 속(genus) 수준에서, 실시예 3-1에서 얻은 각 HMP 샘플에 대한 16S rRNA 및 샷건 데이터의 전체 풍부도(abundance)를 나타낸다. 표 5에서 표 9는 현재까지 발표된 데이터를 사용하여 분류학적 프로파일링에서 가장 일반적으로 사용되는 16S rRNA 방법과 비교한 것이다. 본 발명에 사용된 코어 유전자의 k-mer 데이타베이스를 이용한 방법이 기존의 방법과 높은 상관 관계를 가짐을 입증하기 위해 다양한 공개 데이터를 이용하여 계산된 분류학적 프로파일링의 결과를 표 5 내지 표 9에 나타낸다.

즉, 5가지 HMP 샘플 중에서, NCBI SRA ID: SRS058770의 계산된 분류학적 프로파일링의 결과는 표 6에 기재하고, NCBI SRA ID: RS063985 의 계산된 분류학적 프로파일링의 결과는 표 7에 기재하고, NCBI SRA ID: SRS016203 의 계산된 분류학적 프로파일링의 결과는 표 8에 기재하고, NCBI SRA ID: SRS062427 의 계산된 분류학적 프로파일링의 결과는 표 9에 기재하고, NCBI SRA ID: SRS052697 의 계산된 분류학적 프로파일링의 결과는 표 10에 각각 기재하였다.

[표 6]

[표 7]

[표 8]

[표 9]

[표 10]

3-3: Bray-Curtis 유사도 분석

상기 실시예 3-1에서 얻은 모든 HMP 세트에 대해, 실시예 1에 따른 코어 유전자의 참조 k-mer 데이터베이스, 비교예 1에 따른 전체 게놈의 참조 k-mer 데이터베이스, 및 16S rRNA 데이터베이스를 이용한 분류 방법에 대해, 실시예 2-4와 실질적으로 동일한 방법으로 Bray-Curtis 유사도 지수를 산출하여 하기 표 10에 나타낸다.

표 11은 3 가지 참조 데이터베이스를 사용하는 모든 HMP 세트에 대한 Bray-Curtis 유사도를 나타낸 것으로서, 표 11에서 Bray-Curtis 유사도 지수는 0에 근접할수록 유사함을 나타내고, 1에 근접할수록 유사하지 않은 것을 나타낸다.

[표 11] Bray-Curtis 유사도 지수

상기 표 11의 Bray-Curtis 유사도 분석 결과에 나타낸 바와 같이, 3 개의 데이터베이스를 사용하는 모든 HMP 세트에 대한 Bray-Curtis 유사도를 비교한 결과, 실시예 1에 따른 코어 유전자의 k-mer 데이터세트가 비교예 1에 따른 전체 게놈의 k-mer 데이터 세트와 비교하여 16S rRNA 데이터와 더 큰 유사성을 나타냄을 보여준다.

Claims

시료에서 얻은 미생물 유전체 정보를 제공하고,

상기 미생물 유전체 정보를 이용하여 시료 k-mer 데이터세트를 얻고,

미생물 분류(taxon) 정보가 부여된, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와, 상기 시료 k-mer 데이터세트를 비교하여, 상기 시료 내 미생물을 동정 및 분류하는 단계를 포함하는,

시료 내 미생물을 동정 및 분류하는 방법.
제1항에 있어서, 상기 미생물 유전체 정보는 차세대 염기서열 분석법(Next Generation sequencing, NGS)으로 분석하여 얻어진 것인 방법.
제1항에 있어서, 상기 시료 k-mer 데이터세트를 얻는 단계는, 차세대 염기서열 분석법(Next Generation sequencing, NGS)으로 얻어진 시퀀싱 리드별로 k-mer 길이에 맞추어 1개 뉴클레오티드씩 이동하며 k-mer 길이의 단편 문자열을 잘라내어 k-mer 데이터세트를 얻는 것인 방법.
제3항에 있어서, 상기 k-mer의 길이는 시퀀싱 리드의 길이보다 짧은 것인 방법.
제1항에 있어서, 상기 시료 k-mer 데이터세트와 참조 k-mer 데이터베이스에 포함된 k-mer 길이는 동일한 것인 방법.
제1항에 있어서, 상기 참조 k-mer 데이터베이스는, 상기 각 참조 코어 유전자로부터 생성된 하나 이상의 k-mer를 포함하며, 상기 k-mer는 미생물 분류(taxon)정보가 부여된 것인 방법.
제1항에 있어서, 상기 미생물 분류(taxon) 정보는 고유 ID로 구분하여 부여되는 것인 방법.
제1항에 있어서, 상기 참조 k-mer 데이터베이스에 포함된 k-mer에 부여된 미생물 분류 정보는, 미생물 균종(species) 또는 최소공통조상(LCA) 정보가 포함된 분류(taxon) 정보인 방법.
제8항에 있어서, 상기 참조 코어 유전자의 참조 k-mer 데이터베이스는,

참조 미생물 유전체 정보에서 참조 코어 유전자 (reference core gene)의 서열 정보를 추출하고, 상기 참조 코어 유전자의 서열 정보를 k-mer으로 분할하여 하나 이상의 k-mer를 얻고,

상기 각 k-mer에 대해 미생물 분류(taxon) 정보에 관한 고유 ID를 부여하여 참조 코어 유전자의 k-mer 데이터베이스를 구축하며,

상기 각 k-mer에 대해 미생물 분류(taxon) 정보에 관한 고유 ID를 부여하는 방법은,

(i)고유(Unique) k-mer 인 경우 해당 k-mer 가 속한 미생물 종의 고유 ID를 부여하고,

(ii) 구별(distinct) k-mer이면서 해당 k-mer가 미생물 한 종에서만 발견될 경우 해당 미생물 종의 고유 ID를 부여하고,

(iii) 구별(distinct) k-mer 이면서 해당 k-mer가 여러 미생물 종에서 발견될 경우 최소공통조상(LCA)을 선택하여 해당 미생물 분류(taxon)정보에 대한 고유 ID를 부여하여 수행되는 것인, 방법.
제1항에 있어서, 상기 시료 k-mer 데이터세트와 참조 코어 유전자의 k-mer 데이터베이스의 비교는, 시료 k-mer 데이터세트에 포함된 k-mer에 대해 참조 코어 유전자의 k-mer 데이터베이스에 포함된 k-mer과 뉴클레오티드 서열정보가 완전히 동일한 k-mer를 선정하고, 상기 선정된 k-mer의 분류(taxon)정보를 포함하고 있는 인덱스를 목록화하여 수행되는 것인 방법.
제10항에 있어서, 상기 시료 k-mer 데이터세트를, 참조 코어 유전자의 k-mer 데이터베이스와 비교는 KRAKEN 프로그램으로 수행되는 것인 방법.
제1항에 있어서,

상기 미생물 분류(taxon) 정보는 고유 ID로 구분하여, 참조 k-mer 데이터베이스의 개별 k-mer에 부여된 것이며,

상기 시료 미생물 유전체 정보는 차세대 염기서열 분석법(Next Generation sequencing, NGS)으로 얻어진 시퀀싱 리드를 포함하며,

상기 시료 미생물 유전체의 개별 시퀀싱 리드에 대해,

(i) 하나이상의 k-mer를 포함하는 k-mer 데이터세트를 만들어, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와 비교하여, 뉴클레오티드 서열이 완전일치한 k-mer를 참조 k-mer 데이터베이스로부터 선정하고,

(ii) 상기 선정된 k-mer에 부여된 고유 ID 정보를 얻고,

(iii)상기 시퀀싱 리드에서 얻어진 하나 이상의 고유 ID를 모은 목록 정보를 이용하여, 고유 ID 목록에 포함된 고유 ID가 하나이거나 모두 동일할 경우 해당 ID를 시퀀싱 리드의 고유 ID로 선택하고, 고유 ID 목록에 둘 이상의 서로 다른 고유 ID가 포함될 경우 최소공통조상(LCA)에 해당하는 고유 ID를 선택하며,

(iv) 상기 개별 시퀀싱 리드별로 할당된 분류학적 수준에 해당하는 고유 ID의 분류 정보를 결합하며,

상기 개별 시퀀싱 리드별로 얻어진 분류학적 수준에 해당하는 고유 ID를, 상기 시료 미생물 유전체에 포함된 전체 시퀀싱 리드에 대해 수행하여 얻어진 고유 ID 를 모아 전체 고유 ID 목록을 만들어, 상기 시료 미생물의 동정 및 분류하는 것인, 방법.
시료에서 얻은 미생물 유전체 정보를 제공하고,

상기 미생물 유전체 정보를 이용하여 시료 k-mer 데이터세트를 얻고,

미생물 분류(taxon) 정보가 부여된, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와, 상기 시료 k-mer 데이터세트를 비교하는 단계를 포함하며,

상기 미생물 분류(taxon) 정보는 고유 ID로 구분하여, 참조 k-mer 데이터베이스의 개별 k-mer에 부여된 것이며,

상기 시료 미생물 유전체 정보는 차세대 염기서열 분석법(Next Generation sequencing, NGS)으로 얻어진 시퀀싱 리드를 포함하며,

상기 시료 미생물 유전체의 개별 시퀀싱 리드에 대해,

(i) 하나이상의 k-mer를 포함하는 k-mer 데이터세트를 만들어, 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와 비교하여, 뉴클레오티드 서열이 완전일치한 k-mer를 참조 k-mer 데이터베이스로부터 선정하고,

(ii) 상기 선정된 k-mer에 부여된 고유 ID 정보를 얻고,

(iii)상기 시퀀싱 리드에서 얻어진 하나 이상의 고유 ID를 모은 목록 정보를 이용하여, 고유 ID 목록에 포함된 고유 ID가 하나이거나 모두 동일할 경우 해당 ID를 시퀀싱 리드의 고유 ID로 선택하고, 고유 ID 목록에 둘 이상의 서로 다른 고유 ID가 포함될 경우 최소공통조상(LCA)에 해당하는 고유 ID를 부여하고,

(iv) 상기 개별 시퀀싱 리드별로 할당된 분류학적 수준에 해당하는 고유 ID의 분류 정보를 결합하며,

상기 개별 시퀀싱 리드별로 얻어진 분류학적 수준에 해당하는 고유 ID를, 상기 시료 미생물 유전체에 포함된 전체 시퀀싱 리드에 대해 수행하여 얻어진 고유 ID 를 모아 전체 고유 ID 목록을 만들고,

시료 미생물의 전체 고유 ID 목록에서, 상기 분류학적 수준에 해당하는 고유 ID별로 할당된 리드 (classified read)의 수 (number)를 얻고,

상기 고유 ID별로 할당된 리드 수를, 전체 고유 ID 목록에 할당된 리드 수의 총합으로 나누어, 해당 고유 ID에 해당하는 미생물 종 또는 분류정보에 대해 시료 내의 풍부도를 얻는 단계를 포함하는,

시료 내 미생물의 종의 풍부도 프로파일 정보를 얻는 방법.
(a) 참조 미생물 코어 유전자(bacterial core gene)의 참조 k-mer 데이터베이스와, (b)k-mer 추출기 (k-mer extractor)와 k-mer 분석기(k-mer analyzer)를 구비한 프로세서를 포함하는, 시험 시료 내 미생물을 동정 및 분류하는 시스템으로서,

상기 참조 k-mer의 데이터베이스는 하나 이상의 참조 박테리아 코어 유전자의 DNA 정보로부터 생성된 하나 이상의 k-mer를 포함하며, 상기 k-mer은 상기 미생물의 분류 정보가 부여된 것이며;

상기 프로세서의 k-mer 추출기는 시료에서 얻은 메타게놈 정보에서 하나 이상의 k-mer을 추출하며,

상기 프로세서의 k-mer 분석기는, 상기 시료 k-mer 데이터세트에 포함된 k-mer에 대해 참조 코어 유전자의 k-mer 데이터베이스에 포함된 k-mer와 핵산서열정보가 완전히 동일한 k-mer을 선정하여, 상기 선정된 k-mer의 분류(taxon)정보를 포함하고 있는 고유 ID를 목록화하고, 상기 선정된 k-mer에 대한 분류학적 정보를 기초로 시료에 포함된 미생물의 동정 및 분류를 수행하는 것인,

시료 내 미생물을 동정 및 분류하는 시스템.