KR102273311B1

KR102273311B1 - 장내 미생물을 이용한 질병의 예측방법 및 시스템

Info

Publication number: KR102273311B1
Application number: KR1020190057214A
Authority: KR
Inventors: 방소현; 유동안; 조서애; 김희발
Original assignee: 주식회사 이지놈
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2021-07-07
Also published as: KR20200133067A

Abstract

본 발명은 장내 미생물을 이용한 질병의 예측방법 및 시스템에 관한 것이다. 본 발명의 방법 및 시스템을 이용하는 경우, 장내 미생물을 이용하여 다양한 질병을 신뢰성 있게 예측할 수 있다.

Description

장내 미생물을 이용한 질병의 예측방법 및 시스템{METHOD AND SYSTEM FOR PREDICTING DISEASE FROM GUT MICROBIAL DATA}

본 발명은 장내 미생물을 이용한 질병의 예측방법 및 시스템에 관한 것으로, 보다 구체적으로는 장내 미생물을 질병을 예측하는 지표로 사용함으로써 다양한 질병을 예측하는 방법 및 시스템에 관한 것이다.

기계 학습 기술은 다양한 분야에 적용되어 왔으며, 특히 질병 예측 및 의학적 질병 진단을 위한 생명 공학 분야에서 유용한 전략이 되었다. 질병을 예측하기 위해서는 유전자 발현 패턴, 유전자형 및 메틸화를 포함한 생물학적 데이터가 이용될 수 있다. 이러한, 생물학적 데이터의 영역은 미생물 군집과 숙주의 면역 체계와의 연관성으로 인해, 미생물 군집까지 확장되었다. 미생물 군은 점막 부위와 비 점막 부위 모두에서 면역 세포의 발달과 기능을 촉진시킨다. 따라서 장내미생물과 면역체계의 상관성은 다양한 질병의 발생과 관련이 있다. 그러나 아직까지 장내 마이크로바이옴 데이터를 활용하여 여러 질병을 예측하기 위한 시도는 미미한 실정이고, 신뢰성에도 문제가 있었다.

본 발명자들은 장내 마이크로바이옴 데이터를 활용하여 여러 질병을 예측하기 위한 방법을 개발하고자 예의 연구 노력하였다. 구체적으로 16S rRNA 염기 서열 분석으로부터 얻은 장내 미생물 데이터를 여러 가지 질병과 관련하여 다중 클래스 분류기를 기반으로 분류 모델을 구축하고, 질병과의 연관성을 찾기 위해 특징 선택(feature selection)을 수행하였다. 그 결과, 도출된 마이크로바이옴 집합이 높은 정확도로 질병을 예측할 수 있음을 확인하고 본 발명을 완성하였다.

따라서, 본 발명의 목적은 본 발명은 장내 미생물을 이용한 질병의 예측방법 및 시스템을 제공하는 것이다.

본 발명의 일 양태에 따르면, 본 발명은 다음 단계를 포함하는 컴퓨터로 구현되는 미생물을 이용한 질병의 예측방법을 제공한다:

(a) 질병과 관련된 장내 미생물의 메타지놈 데이터를 수집하는 단계;

(b) 상기 장내 미생물의 메타지놈 데이터를 표준화하는 단계;

(c) 상기 장내 미생물의 메타지놈 데이터를 분류기 및 미생물의 분류체계 별로 질병 예측 모델의 정확도 비교하여, 가장 예측 정확도가 높은 분류기 및 미생물의 분류체계 조합을 선택하는 단계;

(d) 상기 조합에서 특징 선택(feature selection)을 수행하여 질병 별 질병 예측 정확도가 높은 미생물의 집단을 도출하는 단계; 및

(e) 상기 미생물 집단 데이터를 이용하여 질병을 예측하는 단계.

본 명세서에서, 메타지놈(Metagenome)의 지놈(genome)은 유전자의 집합을 의미하고, 메타지놈은 지놈이 많이 모인 집합을 의미한다. Metagenome 연구는 미생물 군집을 분석하는 분야로 환경과 미생물 간의 생태학적인 의미를 연구하는데 현재 미생물 유전체 및 메타지놈(metagenome)의 연구 범위는 분석 기술의 발전에 따라 모델 균주나 표준 균주의 분석에 국한되지 않고 유전체 정보 비교를 위한 환경 분리 미생물이나 유연관계가 가까운 미생물의 분석으로 급속히 확장되고 있다. 본 명세서에서 메타지놈 데이터는 16S rRNA를 증폭하여 얻은 DNA 데이터를 의미한다.

본 명세서에서, 16S rRNA(16S ribosomal RNA)는 원핵생물 리보솜의 30S 소단위체를 구성하고 있는 rRNA로, 약 1,500 뉴클레오타이드 정도의 길이를 갖는다. 16S rRNA의 서열은 대부분 상당히 보존되어 있는 한편 일부 구간에서는 높은 염기서열 다양성이 나타난다. 특히 동종간에는 다양성이 거의 없는 반면에 타종간에는 다양성이 나타나므로 생물동정에 사용된다. 따라서, 16S rRNA 서열을 비교하면 원핵생물을 동정할 수 있다.

본 발명의 일 구현예에 있어서, 상기 미생물은 장내 미생물이다.

본 발명의 일 구현예에 있어서, 상기 질병은 1종 이상의 질병인 것인, 질병의 예측방법.

본 발명의 구체적인 구현예에 있어서, 상기 질병은 MS(multiple sclerosis), JIA(juvenile idiopathic arthritis), ME/CFS(myalgic encephalomyelitis/chronic fatigue syndrome), AIDS(acquired immune deficiency syndrome), Stroke, 및 CRC(colorectal cancer)를 포함하나, 이에 한정되는 것은 아니다.

본 발명의 일 구현예에 있어서, 상기 표준화의 방법은 TMM 표준화(Trimmed mean of M-values normalization) 또는 Quantile 표준화(Quantile normalization)이다.

본 발명의 구체적인 구현예에 있어서, 상기 표준화의 방법이 TMM 표준화인 경우, FDR(false discovery rate)가 5% 이하가 되도록 다중검정 오류를 보정한 것을 특징으로 한다.

상기 TMM 표준화 방법은 샘플 별 생성된 전체 미생물의 양을 보정하기 위하여 사용된 표준화 방법이다.

상기 Quantile 표준화 방법은 샘플들의 분포를 비슷하게 만들기 위하여 사용된 표준화 방법이다. 본 발명의 구체적인 구현예에서, 여섯 개의 스터디(MS, JIA, ME/CFS, AIDS, Stroke, CRC)에서 건강한 샘플들로 baseline으로 이용하여 건강한 샘플들의 분포를 기반으로 표준화를 진행하였다. 이는 여섯 개의 스터디에서 온 건강한 샘플들이 비슷한 분포를 가지고 있다고 가정했기 때문에 수행되었다.

본 발명의 일 구현예에 있어서, 상기 분류기(classifier)는 당업계에 공지된 다양한 클래스 예측 알고리즘(class prediction algorithm)을 포함하며, 예컨대 LogitBoost, LMT(logistic model tree), SVM(support vector machine) 또는 KNN(K-Nearest Neighbor) 분류기이나 이에 한정되는 것은 아니다.

KNN(K-Nearest Neighbor) 분석 알고리즘은 시험 개체의 k 최인접 이웃을 서치한다. kNN 분석 알고리즘에 있어서, 한 개체의 묘사자와 모든 개체들 각각의 묘사자 사이에 모든 짝(pairwise) "거리들"을 계산한다. 이어, 시험 개체에 대한 kNNs를 선택하고, 개체가 kNNs 중에서 최공통 형질에 민감한지 여부를 예측한다.

서포트 벡터 머신(support vector machine, SVM) 알고리즘은 시험 개체가 속하는 것으로 판단되는 최가능성 클래스(most likely class)를 동정하는 분별 분류 방법이다. SVM 분석 알고리즘에 있어서, SVM을 훈련시켜 모든 이원적 형질들의 각각에서 하나의 개체의 타당한 형질(correct trait)을 인식하도록 한다. 최종적으로, SVM에 의한 모든 쌍 분류들의 최대 선출을 갖는 것을 최가능성 형질에 대한 시험 개체의 민감성을 예측한다.

본 발명의 구체적인 구현예에 있어서, 상기 LogitBoost 분류기의 파라미터는 I이고, 1 내지 40 사이의 정수이다.

본 발명의 구체적인 구현예에 있어서, 상기 SVM(support vector machine) 분류기의 파라미터는 G 및 C이고, G는 1e^-4, 1e^-3, 1e^-2, 1e^-1,1,또는 10 중에서 선택되고, C는 0.1, 1, 10, 100, 및 1000 중에서 선택된다.

본 발명의 구체적인 구현예에 있어서, 상기 KNN(K-Nearest Neighbor) 분류기의 파라미터는 K이고, 3, 5, 7, 9, 11, 13, 및 15 중에서 선택된다.

본 발명의 구체적인 구현예에 있어서, 상기 분류기의 파라미터는 미생물의 각 분류체계 별로 가장 높은 정확도를 나타내는 파라미터로 선택된 것을 특징으로 한다.

본 발명의 일 구현예에 있어서, 상기 미생물의 분류체계는 문(phylum), 강(class), 목(order), 과(family), 속(genus), 종(species), 또는 이들의 조합이다. 본 발명의 구체적인 구현예에 있어서, 상기 미생물의 분류체계는 속(genus), 종(species), 또는 이들의 조합이다.

본 발명의 일 구현예에 있어서, 상기 특징 선택은 FS(forward selection) 방식 또는 BE(backward elimination) 방식이고, 바람직하게는 BE 방식이다.

본 발명에서, 상기 FS(Forward selection) 방식은 가장 정확도가 높은 한 개의 feature로 시작하여, 성능을 최고로 하는 feature 들을 차례로 더해가는 방식이다. 본 발명자들은 더 이상 feature가 남아있지 않을 때까지 계속해서 feature들을 하나 하나씩 더해갔다.

본 발명에서 상기 BE(Backward elimination) 방식은 모든 feature로 시작하여 최고의 정확도를 나타낼 때까지 계속해서 feature들을 하나 하나씩 제거하는 방식이다.

본 발명의 다른 양태에 따르면, 본 발명은 컴퓨터 시스템과 결합되어 미생물을 이용한 질병의 예측방법을 실행시키기 위해 컴퓨터 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램을 제공한다. 여기에서 상기 미생물을 이용한 질병의 예측방법은 다음 단계를 포함한다:

본 발명의 또 다른 일 양태에 따르면, 본 발명은 컴퓨터로 구현되는 미생물을 이용한 질병의 예측시스템에 있어서, 컴퓨터가 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하고,

상기 적어도 하나의 프로세서는,

(a) 질병과 관련된 장내 미생물의 메타지놈 데이터를 수집하고;

(b) 상기 장내 미생물의 메타지놈 데이터를 표준화하고;

(c) 상기 장내 미생물의 메타지놈 데이터를 분류기 및 미생물의 분류체계 별로 질병 예측 모델의 정확도 비교하여, 가장 예측 정확도가 높은 분류기 및 미생물의 분류체계 조합을 선택하고;

(d) 상기 조합에서 특징 선택(feature selection)을 수행하여 질병 별 질병 예측 정확도가 높은 미생물의 집단을 도출하고; 및

(e) 상기 미생물 집단 데이터를 이용하여 질병을 예측하는 것을 특징으로 하는 질병의 예측시스템을 제공한다.

본 발명의 일 구현예에 있어서, 상기 컴퓨터 프로그램은 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 상기 컴퓨터 프로그램은, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수 있다. 상기 컴퓨터 프로그램은 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

본 발명의 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magnetooptical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.

매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 당업자에게 공지되어 사용 가능한 것일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

본 발명의 상기 컴퓨터 프로그램과 시스템은, 상술한 미생물을 이용한 질병의 예측방법을 실행하는 프로그램 또는 프로세서를 포함하므로, 명세서의 과도한 복잡성을 피하기 위하여 상기 본 발명의 일 양태에 따른 질병의 예측방법과 중복되는 범위 내의 기재사항은 생략한다.

본 발명의 특징 및 이점을 요약하면 다음과 같다:

본 발명은 장내 미생물을 이용한 질병의 예측방법 및 시스템을 제공한다. 본 발명의 방법 및 시스템을 이용하는 경우, 장내 미생물을 이용하여 다양한 질병을 신뢰성 있게 예측할 수 있다.

도 1a는 본 발명의 실험 디자인과 메타 분석을 위한 데이터 처리과정을 나타낸다. 구체적으로(1) 메타분석을 위한 normalization 과정과 feature의 제거;(2) 여섯가지 질병에 대한 메타지놈 데이터를 통합하여 여러 질병을 예측하기 위한 분류 분석의 단계를 나타낸다.
도 1b는 다섯 가지 미생물 분류단계에서 feature의 개수를 나타낸 도이다. "Total"은 데이터 전처리 전의 모든 feautre의 개수를 나타낸다. "Filtering"은 데이터 전처리 이후에 제거되고 남은 feature의 개수를 나타낸다.
도 2a-2c는 미생물의 분류학적 수준과 feature selection 방법에 의한 분류의 성능을 나타낸 도이다. 도 2a는 미생물의 분류학적 수준별 정확성을 나타낸다. 각각의 점은 네 개의 다중 클래스 분류기(LogitBoost, LMT, SVM 및 KNN) 별 feature들의 정확성을 상징한다. 오류 표시선이 있는 파란색 점은 각 분류기 별 feature들의 정확도의 평균을 나타낸다. 도 2b는 미생물의 분류학적 수준과 feature selection 방법에 의한 4 개의 분류기의 정확도 평균을 나타낸다. 막대의 색상은 feature selection 방법을 나타낸다. "All"는 feature selection 없이 모든 feature가 분류에 사용됨을 나타내고, "FS" 및 "BE"는 각각 FS 및 BE의 하위 집합을 나타낸다. 오류 막대는 각 미생물 분류 수준 및 feature selection 방법에서의 정확도의 표준 오류를 나타낸다. 도 2c는 미생물 분류 수준 및 feature selection 방법에 의한 4 개의 분류기의 feature 갯수의 평균을 나타낸다.
도 3a-3b는 속의 수준에서 4 가지의 분류기(LogitBoost, LMT, SVM 및 KNN)에 따른 분류 성능을 나타낸 도이다. 도 3a는 세 가지의 feature selection 전략(feature selection 안 한 경우, FS 및 BE)을 적용한 4 가지의 분류기의 정확도를 나타낸다. 다양한 feature selection 전략이 포함된 각 분류기의 성능 평가는 세 번 수행되었다. 도 3b는 3 개의 feature selection 전략을 가진 4 가지의 분류기에 의한 feature의 개수를 나타낸다.
도 4는 4 가지의 분류기(LogitBoost, LMT, SVM 및 KNN)와 2 가지의 feature selection 방법(FS, BE) 별로 선택된 feature의 수를 나타낸 벤다이어그램이다.

이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 보다 구체적으로 설명하기 위한 것으로, 본 발명의 요지에 따라 본 발명의 범위가 이들 실시예에 의해 제한되지 않는다는 것은 당업계에서 통상의 지식을 가진 자에 있어서 자명할 것이다.

실시예

실험재료 및 방법

1. 6가지 질병과 관련된 장내 미생물 데이터 수집

장의 미생물 군집의 메타지놈(metagenome) 데이터 세트에 기초한 질병 예측을 위해, 많은 수의 메타지놈(metagenome) 샘플을 European Bioinformatics Institute(EBI) 데이터베이스에서 모았다(www.ebi.ac.uk/metagenomics/). 다른 실험 프로토콜에 의한 biases(편향)을 감소시키기 위해, 데이터는 여러 범주에 의해 모아졌다:(1) 현재 많이 사용되는 방식인 대변 샘플링을 통한 16S rRNA에 기초한 메타지놈 데이터,(2) 454, Illumina와 같은 시퀀싱 플랫폼을 수집하였고,(3) 종단적 자료일 경우에는, 독립 가설을 위해 첫번째 측정 자료를 수집하였다.(4) OUT(operational taxonomic unit)을 확인하고 정량 하는데 있어 EBI pipeline v2.0 or v3.0(www.ebi.ac.uk/metagenomics/pipelines/3.0)을 사용하였다.

EBI 파이프라인에서는 다음과 같은 여러 tool들이 사용되었다:

(1) Trimmomatic(v0.32): 퀄리티 체크와 낮은 퀄리티의 read를 제거;

(2) SeqPrep(v1.1) paired-end reads를 합쳐서 하나의 read로 만듦;

(3) rRNASelector(v1.0.1) non-ribosomal RNA를 필터링; 및

(4) QIIME(v1.9.0) OTU를 찾고 정량화.

이러한 파이프라인으로부터, 문, 강, 목, 과 및 속 수준에서 장내 미생물 데이터가 Greengenes 16S rRNA에 기반하여 생성되었다.

2. 다른 질병과 관련된 연구들로부터 얻은 메타지놈 데이터의 전처리

평균 read 개수의 5% 이하를 가지고 있는 샘플들은 제거되었다. 문, 강, 목, 과 및 속 수준과 같은 다섯 개 미생물 분류기준에 의한 미생물의 양이 feature로 사용되었다. EdgeR을 이용하여 feature들의 양을 TMM 표준화(Trimmed mean of M-values normalization, TMM normalization) 하였다. 서로 다른 질병 연구로부터 얻은 메타지놈 데이터 간의 이질성을 감소시키기 위해서, 여섯 개 연구로부터 얻은 건강한 샘플들 간에 다른 양으로 존재하는 미생물들을 제거하였다. 이때, feature의 양이 음의 이항분포를 가진다고 가정하고 log-likelihood ratio test를 수행하였다. 통계 테스트에서, 다중검정 오류(multiple testing error)를 보정하고자 FDR(false discovery rate)이 사용되었으며, 5%의 유의수준이 유의한 결과를 위해 고려되었다.

본 발명자들은 또한 샘플들의 분포를 비슷하게 만들기 위해서, 미생물의 양을 quantile 표준화(quantile normalization) 하였다. Quantile 표준화에 있어서, 표준화된 값(normalized values)을 구하는 데에는 두 가지 타입의 기준선이 사용될 수 있다:

(1) 각 feature의 quantile 로부터 온 global mean vector; 및

(2) 특정한 baseline vector.

여섯 개의 스터디에서 온 건강한 샘플들이 비슷한 분포를 가지고 있다고 가정했기 때문에, 두번째 baseline을 구하는 방법을 선택하여 control sample로 baseline vector를 형성하였다.

3. 장내 미생물 데이터를 이용하여 다양한 질병을 구분하는 분류기들

본 발명자들이 본 발명에서 사용한 다중 그룹 분류기는 KNN(k-Nearest Neighbor), LogitBoost, LMT(logistic model tree), support vector machines(SVMs) with sequential minimal optimization(SMO)이다. KNN은 여러 그룹으로의 분류가 가능한 분류기이다. LogitBoost는 multiclass logistic loss를 고려함으로써 여러 그룹으로 분류가 가능하도록 한 발전된 부스팅 알고리즘이며, 단백질 구조 class를 예측하는데 이용되기도 하였다. LMT(logistic model tree)는 잎에 logistic model을 갖고 있는 회귀 나무(regression tree)에 기반하였다. 약물 합성과 자폐스펙트럼 장애와 같은 예측에서도 LMT는 다른 방법에 비해 이점이 있는 것으로 알려져 있다. SMO(sequential minimal optimization)는 이차의 프로그래밍 해결을 제외한 classification 방식의 SVM(support vector machine)의 효과적인 방법이다. KNN과 SVM 분류기는 가장 많이 사용되는 방법이며 다양한 연구에 성공적으로 사용되어 왔다.

본 발명자들은 분류 분석을 RWeka 패키지에 있는 상기 4개의 분류기를 이용해 수행하였다. 상기 KNN, LogitBoost, LMT, SVM 분류기에서 사용된 명령문은 다음과 같았다:

"IBk(class~.,data= InputData, control = Weka_control(K =Selected Parameter), na.action=NULL)",

"LogitBoost(class~.,data= InputData, control = Weka_control(I = Selected Parameter), na.action=NULL)",

"LMT(class~.,data= InputData, na.action=NULL)", 및

" SMO(class~.,data=InputData, control = Weka_control(K = list( kernel, G = Selected Parameter), C = Selected Parameter), na.action=NULL)".

상기 분류기들의 분류의 성능을 평가하기 위해서 10-fold cross-validation이 사용되었다. 10-fold cross validation은 전체 샘플들을 10개의 그룹으로 나누어 9개의 그룹은 모델을 구축하는 데에 사용하고, 1개의 그룹은 구축된 모델의 성능을 평가하는 것을 10회 반복하여 수행하는 방법이다.

분류기를 위한 파라미터를 선택하기 위해, 본 발명자들은 모든 가능한 파라미터를 탐색하고 최고의 성능을 내는 파라미터를 찾는 greedy method를 사용하였다.

3-1. KNN

KNN에서 파라미터 K는 {3, 5, 7, 9, 11, 13, 15}의 범주의 값에서 선택되었다(표 1).

KNN 알고리즘의 파라미터

Parameter(K)	Accuracy
Parameter(K)	Phylum	Class	Order	Family	Genus
3	53.88	66.95	71.12	70.40	81.75
5	52.73	65.80	70.98	68.82	81.75
7	53.30	64.22	69.54	69.11	82.18
9	53.45	63.07	69.54	70.11	81.47
11	53.16	62.21	69.25	71.12	82.18
13	53.30	61.93	69.11	70.55	81.61
15	53.88	60.20	67.10	70.40	80.75

가장 높은 정확도는 각 분류체계 수준 별로 볼드체로 표시되었다.

3-2. LogitBoost

LogitBoost에서는, 파라미터 I은 1과 40사이의 값으로 선택되었다(표 2).

LogitBoost 알고리즘의 파라미터

Parameter(I)	Accuracy
Parameter(I)	Phylum	Class	Order	Family	Genus
1	52.16	60.34	65.52	71.70	77.73
2	53.30	64.37	69.40	71.70	81.18
3	55.03	67.53	71.12	77.59	84.63
4	57.18	67.53	71.55	78.45	85.92
5	55.75	68.53	75.14	79.89	88.07
6	54.60	70.11	74.86	80.75	91.09
7	55.17	70.40	76.29	81.47	90.66
8	55.03	69.97	76.15	82.04	91.24
9	54.60	70.26	77.59	81.61	91.95
10	55.60	70.69	76.01	82.61	91.95
11	55.03	70.98	77.01	82.90	92.82
12	54.60	70.98	77.87	83.05	92.67
13	55.32	70.69	76.72	82.18	92.67
14	54.60	70.83	77.73	83.19	93.39
15	54.45	70.98	77.59	82.47	93.82
16	54.74	70.55	78.02	83.48	92.82
17	53.88	70.69	77.44	84.05	94.54
18	54.89	70.83	78.02	83.91	92.67
19	54.89	70.40	76.87	83.91	93.97
20	54.89	71.12	78.45	85.06	93.97
21	54.60	70.69	78.45	84.77	94.54
22	55.17	71.12	77.44	84.77	94.68
23	54.60	71.55	77.87	84.63	94.54
24	55.03	70.40	79.31	84.20	94.40
25	54.89	70.83	79.02	84.48	93.39
26	54.60	70.69	79.31	84.34	93.53
27	55.32	71.12	77.16	83.62	94.25
28	54.60	70.83	77.87	84.77	93.97
29	54.45	70.98	77.16	84.20	94.68
30	55.75	69.83	77.87	85.49	95.40
31	54.89	71.12	77.73	84.48	94.40
32	54.89	70.26	78.02	84.48	95.11
33	54.45	70.55	78.16	84.63	93.97
34	55.46	70.83	78.45	83.33	93.82
35	54.74	70.98	77.87	84.05	94.68
36	55.03	70.55	78.45	84.63	94.11
37	55.32	70.83	78.59	82.90	94.97
38	54.45	70.40	79.02	84.77	93.97
39	54.89	70.69	79.02	84.63	94.11
40	54.89	70.98	77.30	83.48	94.83

3-3. SVM(for RBF kernel)

SVM(for RBF kernel) 에서는 파라미터 G 와 파라미터 C 가 각각 {1e^-4, 1e^-3…, 10} 와 {0.1,1,…,1000} 의 값들에서 탐색되었다(표 3).

SVM 알고리즘에서 RBF Kernel의 파라미터

	Phylum
	1e.04	0.001	0.01	0.1	1	10
0.1	37.79	37.79	37.79	52.59	54.31	55.03
1	37.79	37.79	52.44	54.89	54.17	55.89
10	37.79	50.86	54.89	54.60	54.74	54.45
100	52.44	54.89	55.60	55.32	55.03	54.74
150	53.45	54.89	55.17	54.45	54.17	55.03
200	53.59	54.89	55.03	54.74	55.03	54.89
300	53.74	54.89	55.32	54.89	55.32	54.89
400	54.31	54.89	54.31	54.45	54.17	54.45
1000	54.89	55.03	55.32	54.60	55.17	54.31
	Class
	1e.04	0.001	0.01	0.1	1	10
0.1	37.79	37.79	37.79	54.60	64.66	48.85
1	37.79	37.79	56.18	63.79	68.68	68.97
10	37.79	56.18	61.49	69.11	69.25	68.68
100	56.32	61.35	68.97	70.40	69.40	68.68
150	59.63	68.25	69.11	70.11	70.26	68.53
200	60.34	68.68	69.97	70.40	69.97	68.82
300	60.34	68.25	70.11	69.97	69.83	68.97
400	60.78	68.82	70.26	69.68	69.40	68.82
1000	62.50	68.68	70.55	69.54	70.11	68.39
	Order
	1e.04	0.00	0.01	0.10	1.00	10.00
0.1	37.79	37.79	37.79	51.58	69.40	41.38
1	37.79	37.79	60.20	74.57	78.02	59.91
10	37.79	61.64	75.43	77.87	75.86	61.93
100	59.63	74.43	79.31	76.87	74.86	61.78
150	68.97	76.29	77.87	78.59	76.15	61.49
200	69.40	76.29	78.02	78.45	76.01	63.22
300	71.70	77.73	77.16	78.02	76.58	61.49
400	72.41	78.16	77.73	78.02	75.14	62.36
1000	75.29	78.30	78.59	76.87	75.86	61.78
	Family
	1e.04	0.00	0.01	0.10	1.00	10.00
0.1	37.79	37.79	37.79	49.43	51.58	37.79
1	37.79	37.79	59.91	77.73	78.30	38.22
10	37.79	62.07	78.88	81.90	78.30	39.22
100	61.49	78.59	82.61	79.45	79.17	38.94
150	68.68	79.17	82.04	80.17	78.30	39.08
200	70.98	79.17	81.90	77.59	79.89	38.79
300	74.14	80.60	82.76	79.74	79.17	38.79
400	75.57	81.03	82.61	79.45	79.02	39.22
1000	78.45	82.61	81.75	80.17	79.45	38.94
	Genus
	1e.04	0.00	0.01	0.10	1.00	10.00
0.1	37.79	37.79	37.79	62.21	39.08	37.79
1	37.79	37.79	69.11	86.06	79.31	37.79
10	37.79	69.40	1.00	91.52	81.18	37.79
100	69.54	88.22	92.53	91.09	81.47	37.79
150	77.30	90.23	91.81	92.24	81.75	37.79
200	79.02	91.52	91.95	92.53	82.04	37.79
300	80.75	91.09	92.10	91.67	81.18	37.79
400	82.76	91.81	93.10	91.95	80.46	37.79
1000	87.21	92.53	93.25	92.39	81.32	37.79

각 열은 파라미터 G를 나타내고, 각 행은 파라미터 C를 나타낸다. 가장 높은 정확도는 각 분류체계 수준 별로 볼드체로 표시되었다.

각 미생물 분류체계별로 가장 높은 정확도를 가진 파라미터들이 선택되었다(표 4).

질병 분류에서 선택된 파라미터

	KNN	LogitBoost	SMO
	K	I	C	G
Phylum	3	4	1	10
Class	3	23	1000	0.01
Order	3	24	100	0.01
Family	11	30	300	0.01
Genus	7	30	1000	0.01

같은 정확도의 파라미터가 있을 경우에는, 더 낮은 값을 가진 파라미터가 선택되었다.

4. Wrapper 방법을 이용한 Feature selection

FS(Forward selection) 및 BE(Backward elimination)와 같은 wrapper feature-selection approach를 이용하여 분류의 성능을 향상시켜줄 feature subset을 찾았다.

FS(Forward selection)는 가장 정확도가 높은 한 개의 feature로 시작하여, 성능을 최고로 하는 feature 들을 차례로 더해가는 방법이다. 본 발명자들은 더 이상 feature가 남아있지 않을 때까지 계속해서 feature들을 하나 하나씩 더해갔다.

BE(Backward elimination)는 모든 feature로 시작하여 최고의 정확도를 나타낼 때까지 계속해서 feature들를 하나 하나씩 제거하는 방법이다. 이러한 feature selection 과정에서, 본 발명자들은 가장 높은 정확도를 갖는 최적의 feature subset을 찾을 수 있었다.

실험 결과

1. 메타분석(Meta-analysis)로부터 오는 편향을 줄이기 위한 데이터 전처리 과정(데이터 수집 및 표준화)

본 발명자들은 먼저 MS(multiple sclerosis), JIA(juvenile idiopathic arthritis), ME/CFS(myalgic encephalomyelitis/chronic fatigue syndrome), AIDS(acquired immune deficiency syndrome), Stroke, CRC(colorectal cancer)의 총 6 가지 질병 중 하나를 가진 환자와, 건강한 사람(대조 샘플)에 대해 1,079 명의 개체군의 메타지놈 데이터를 수집하였다(표 5).

HIV에 대한 연구는 시퀀싱 된 평균 read의 양(89.9M)가 가장 많았지만 뇌졸중에 대한 연구에서 평균 read의 양은 4.9M로 가장 낮았다. 모든 개체 중에서 7067.68 미만의 read 개수를 가진(평균의 5% 미만) 6 명의 개체가 제거되었다. 따라서 추후 분석을 위해 총 1,073 명의 샘플(696 명의 환자와 377 개의 건강한 사람의 샘플)이 사용되었다. 1,073 개의 샘플에 대한 문, 강, 목, 과, 속 수준에서의 미생물의 양은 여러 연구로부터 데이터를 모아서 사용하기 때문에 발생하는 변동을 보정하기 위해 표준화 하였다(도 1a).

미생물이 양을 TMM 표준화 한 이후, 본 발명자들은 6 가지 질병을 가진 환자의 샘플과 건강한 환자의 샘플의 미생물 양을 비교하였다. 여러 연구에서 수집할 때 발생하는 데이터의 편향을 최소화하고자, 본 발명자들은 FDR을 통하여 각 연구의 건강한 샘플들에 차별적으로 존재하는 미생물을 제거하였다(false discovery rate(FDR) <0.05). 그 결과, 총 미생물의 평균 16%(문, 강, 목, 과, 속 수준에서 각각 5, 21, 42, 74, 199 개)가 남겨졌다(도 1b).

이후 건강한 샘플을 기준으로 미생물의 양의 전체적인 분포를 보정하기 위하여, quantile 표준화를 수행하였다.

상기 데이터 전처리 결과에 의해, 6개의 질병을 가진 696 개의 샘플의 미생물의 양이 문, 강, 목, 과, 속의 수준에서 각각 5, 21, 42, 74, 199 가지의 표준화된 미생물의 양이 이후의 질병 예측을 위한 분류 분석의 특징(feature)으로 고려되었다.

수집한 메타지놈 연구에 대한 요약

SRA_study	Disease	Body site	# of case samples	# of control samples	Average reads per sample(std)
ERP010458	Stroke	Gut	141	92	4.9M(0.4M)
ERP013262	JIA	Gut	29	29	9.2M(2M)
ERP014628	ME/CFS	Gut	49	39	52.5M(17.1M)
SRP068240	HIV1	Gut	191	33	89.9M(69.9M)
SRP073172	CRC	Gut	263	141	14.2M(10.3M)
SRP075039	MS	Gut	29	44	31.2M(5.5M)

2. 다섯 가지 미생물 분류체계에 따른 분류 성능

다른 분류체계의 미생물 양이 특징(feature)으로 사용되었을 때 분류 성능에 미치는 효과를 확인하기 위하여, 본 발명자들은 분류의 성능을 문, 강, 목, 과, 속 수준에서의 미생물의 양으로 구성된 feature set을 사용하여 평가하였다. 그 결과, KNN, LMT, LogitBoost, SVM 과 같은 네가지 분류기의 정확도의 평균은 더 낮은 미생물 분류체계를 사용할수록 향상됨을 확인하였다(도 2a). 구체적으로 문, 강, 목, 과, 속 수준에서의 평균 정확도는 각각 55, 69.9, 76.5, 80.4, 90.4%였다. 속(genus) 수준에서의 정확도는 문(phylum) 수준에서의 정확도보다 35.4%나 더 높았다.

반면에, 가장 높은 성능을 나타낸 분류기(LogitBoost)와 낮은 성능을 나타낸 분류기(KNN)의 정확도 차이는 11.92%였다. 위 결과로부터, 본 발명자들은 분류기에 따른 정확도 차이보다 미생물 분류체계에 따른 정확도 차이가 훨씬 크다는 것을 확인하였다.

또한, 본 발명자들은 몇몇 미생물만이 인간의 건강이나 질병과 밀접하게 관련이 있다고 밝혀져 있기 때문에, 분류에 사용된 미생물들은 질병과 연관되어 있지 않을 것이라고 가정하였다. 그리고 더 정확하게 질병을 분류하는 feature를 찾기 위해서 feature selection 과정을 수행하였다. Feature selection에서 본 발명자들은 forward selection(FS)과 backward elimination(BE) 방법을 4개의 분류기와 5개 미생물 분류체계에서의 미생물 양에 모두 적용하였다. Feature selection은 목, 과, 속의 수준에서는 정확도를 각각 2.6%, 2.4%, 및 2.7% 향상시켰으나, 문, 강 수준에서는 각각 0.6%와 0.4%의 미미한 정도만 향상시키는 것을 확인할 수 있었다(도 2b).

feature selection으로 인한 가장 높은 정확도 향상인 2.7%는 genus level의 feature를 사용할 때 이루어졌다. Feature selection으로 문, 강, 목, 과, 속 수준에서의 5, 21, 42, 74, 199개의 feature 개수를 평균 2.75, 16.5, 29.1, 45.3, 139.5개로 줄일 수 있었다(도 2c). 따라서, 가장 많은 feature의 개수가 속 수준에서 제거되었다. 정확도의 높은 향상과 줄어든 feature의 개수를 고려할 때, feature selection은 속 수준에서 가장 효과가 있음을 확인하였다.

3. 속 수준에서 분류 성능의 비교

본 발명자들은 다중 클래스 분류기와 feature selection 방법에 따른 분류 성능을 상기 2에서 다섯 가지 미생물 분류기준 중 가장 높은 성능을 보인 속 수준에서의 성능으로 비교하였다. 분류는 10-fold cross-validation(CV)을 사용하여 진행되었고, 정확도는 3번의 분류 시행에서 얻어진 10-fold CV의 평균값으로 계산되었다.

다중 클래스 분류기에 따른 분류성능의 차이

4개의 다중 클래스 분류기는 분류성능에 영향을 주었다(도 3a).

정확도의 평균은 LogitBoost(93.6%)가 가장 높았으며, LMT(92.4%), SVM(91.6%), KNN(81.5%) 순으로 높았다. 가장 정확도가 높은 다중 클래스 분류기인 LogitBoost와 가장 정확도가 낮은 다중 클래스 분류기인 KNN의 정확도 차이는 12%였다. 도 2a에서 LogitBoost와 KNN의 성능의 차이는 미생물의 분류체계가 낮아질수록 증가하였다. 상기 LogitBoost의 높은 정확도는 LogitBoost가 데이터의 상호작용을 좀 더 효율적으로 다루고, outlier에 완강 하기 때문에 높은 성능을 보인 것으로 추측된다. KNN의 경우 미생물의 개수가 적을 때에 적합한 분류기이기 때문에 상기 실험에서는 낮은 성능을 보인 것으로 해석된다. 따라서, 약 12%라는 다중 클래스 분류기 간의 높은 정확도의 차이는 속 수준에서의 많은 feature 개수 때문에 야기된 것으로 추측된다.

Feature selection 방식에 따른 분류성능의 차이

FS(forward selection)와 BE(backward elimination) 방식으로부터 최적의 features 집단을 찾았을 때, 네 가지 다중 클래스 분류기의 평균적인 정확도는 90.4%(All)에서 92.9%(FS 사용시), 93.3%(BE 사용시)로 증가하였다. 특히, KNN 알고리즘을 사용하였을 때 정확도는 81.8%(All)에서 86.7%(FS), 87.5%(BE)로 급격하게 증가하였다.

FS는 미생물을 한 개씩 넣고 가장 높은 정확도를 가진 미생물을 고른 후, 나머지 미생물들을 번갈아가면서 하나씩 넣어 최고의 정확도를 가진 미생물 집단을 형성해 나가는 방법이다. 반면, BE는 전체 미생물에서 한 개씩 제거하면서 최고의 정확도를 가진 미생물 집단을 형성해 나가는 방법이다. BE를 이용하여 최적의 정확도를 보이는 속(genus) 집단을 구성하였을 때, 더 적은 속(genus)의 종류로 더 높은 정확도를 달성할 수 있음이 확인되었다. 이러한 결과는 장내 미생물의 경우, 서로 군집을 이루고 생물학적으로 상호작용하기 때문에 상호작용을 하고 있는 미생물을 고려하면서 집단을 선택하는 BE이 미생물의 집단을 구성하는데 있어 효과적으로 작용하기 때문인 것으로 추측된다.

네 가지 다중 클래스 분류기에서, BE 방식은 LogitBoost, LMT, SVM, KNN 에서 FS 방식보다 각각 0.09%, 1.19%, 0.09%, 0.43%만큼 정확도를 더 크게 증가시켰다. LMT 분류기에서 BE 방식은 가장 효율적으로 정확도를 증가시켰다. 평균적으로 사용된 feature의 개수는 4가지 다중 클래스 분류기에서 평균적으로 199개에서 143.5(FS), 135.5(BE)로 감소되었다(도 3b). 비록 BE가 평균적으로 feature의 개수를 FS에 비해 더 많이 감소시키긴 했지만, 감소된 feature의 개수는 모든 다중 클래스 분류기에서 이런 경향을 보인 것은 아니었다. FS는 효율적으로 LogitBoost 분류기에서 feature의 개수를 감소시켰으나, BE는 LMT 분류기에서 효율적으로 feature의 개수를 감소시켰다.

요약하자면, feature selection을 행하는 것은 모든 다중 클래스 분류기에서의 분류의 전반적인 성능을 향상시키는 feature들의 조합을 얻을 수 있도록 하였다. 더 중요하게, 더 적은 개수의 feature들을 사용하여 높은 정확도로 질병을 예측할 수 있었다.

4. 6개의 질병별 정확도(false positive error rate, false negative error rate)

본 발명자들은 2개의 class로 분류할 때 사용되는 정확도, false positive rate(FPR), false negative rate(FNR) 계산 방법으로 분류의 성능을 검정하였다. 본 발명자들은 가장 높은 성능을 보인 BE 방식으로부터 얻어진 feature set으로 질병(클래스)별 분류의 성능을 조사하였다.

모델은 10 배 교차 검증에 의해 평가되었고 3 번 반복되었다. 값은 평균 정확도 ± 분산을 나타냄.

그 결과, 가장 높은 성능을 가진 LogitBoost 분류기에서 질병(클래스)들의 분류 평균 정확도는 98.1%로, 전체 정확도 93.6%보다 높았다. 이러한 정확도의 증가는 2개 클래스를 분류할 때 사용되는 성능 지표를 적용하였기 때문에 발생한 높은 true negative의 개수 때문인 것으로 보인다. 이러한 이유로, FPR(1.26%)의 평균은 FNR(13.86%)의 평균 보다 낮았다. true positive가 true negative와 true positive의 합으로 나눠지는 FPR은 true negative에 반비례하기 때문에, 이 계산 방식을 사용할 때 높은 true positive로 인해 FPR이 아주 낮아진다.

여섯 가지 질병들 중에 colorectal cancer(CRC)는 가장 높은 FPR(3.7%)을 가지고 있으며, 이는 CRC가 아닌 다른 질병에 걸린 3.7%의 환자들이 CRC로 분류되었음을 의미한다. CRC의 가장 낮은 정확도(96.84%)는 높은 FPR에 의해 야기된다. 즉, 질병의 FNR이 질병의 종류에 따라 차이가 크게 나타났다.

CRC, HIV1, stroke(2.28, 0.36, 3.78%의 FNR)는 FNR이 5% 미만 이었다.그러나 JIA, ME/CFS, MS(16.09, 28.47,32.18%의 FNR)는 10% 이상의 FNR을 보였다. JIA, ME/CFS, MS 등 FNR이 높은 질병은 다른 질병으로 분류되는 경우가 더 많았다. 상기 표에서, 본 발명자들은 높은 FNR을 가진 질병이 질병들 중 가장 높은 FPR을 갖는 CRC로 분류될 가능성이 높다는 것을 관찰했다.

다른 알고리즘에서의 FPR 및 FNR이 높은 질병은 LogitBoost 알고리즘과 동일하였다. CRC는 다른 분류기에서 가장 높은 FPR과 가장 낮은 정확도를 보였다. JIA, ME/CFS 및 MS는 다른 분류기의 다른 질병에 비해 FNR이 높았다. KNN 알고리즘에서 CRC는 12.93%의 가장 높은 FPR을 보였고, 다른 클래스는 3%보다 낮은 FPR을 보였다. 또한 JIA, ME/CFS 및 MS의 FNR(34.48, 64.58 및 77.01%)은 FNR이 8% 미만인 다른 클래스의 FNR보다 높았다. 그러나 KNN에서 FPR(또는 FNR)이 높은 클래스는 LogitBoost보다 FPR(또는 FNR)이 높았다. KNN(12.93%)에서 CRC의 FPR은 LogitBoost(3.7%)보다 3 배나 높았다. KNN의 JIA, ME/CFS 및 MS(58.69%, 3 질병의 평균)의 FNR은 LogitBoost의 2 배(25.58%, 3 질병의 평균)였다.

5. 질병과 관련된 미생물 feature의 분류

본 발명자들은 Feature selection을 통해 미생물 분류 기준별로 6 개의 질병을 구분하는 feature subset을 찾아내었다. 선택된 feature들은 6 가지 질병과의 밀접한 관련성을 보여주는 feature 일 수 있으므로 각 질병을 예측하기 위한 미생물 마커(microbial marker)로 사용될 수 있다.

본 발명자들은 4 가지의 다중 클래스 분류기 x 2 가지의 feature selection 방법의 조합인 8 개의 방법이, 잠재적 바이오 마커들 중에서 어떤 속(genus)이 분류 성능에 중요한 역할을 하는지 확인하고자 feature subset에서 공통적으로 선택된 속(genus)을 조사하였다.

LogitBoost, LMT, SVM 및 KNN 분류기에서 FS, BE에서 공통적으로 선택된 feature의 수는 각각 94, 66, 120 및 116이었다(도 4). 그 중 17 개의 genus 가 4 개의 분류기 모두에서 공통적으로 확인되었다(표 7).

4 개의 분류기에서 두 가지 feature selection 방법으로부터 얻어진 완강한 genera 하위 집합.

No.	Genus	Logit Boost/ FS	LogitBoost /BE	LMT/ FS	LMT/ BE	SVM/ FS	SVM/ BE	KNN/ FS	KNN/ BE	Mean of order
1	PSBM3	3	2	5	3	3	2	3	3	3
2	Candidatus Azobacteroides	6	10	7	8	10	122	5	60	28.5
3	Cetobacterium	10	19	6	25	19	31	17	154	35.125
4	Ralstonia	46	17	93	14	27	16	45	24	35.25
5	Proteus	32	3	126	15	6	27	9	78	37
6	Flavobacterium	33	7	98	51	44	17	49	7	38.25
7	Moryella	8	105	1	77	7	1	103	65	45.875
8	Citrobacter	11	89	20	5	88	7	135	13	46
9	Anaerofustis	23	6	35	73	66	26	129	36	49.25
10	Dickeya	18	26	27	10	171	11	28	111	50.25
11	Owenweeksia	52	16	95	6	8	131	68	58	54.25
12	Salmonella	22	69	99	61	49	59	125	77	70.125
13	Pediococcus	99	93	46	82	67	45	145	19	74.5
14	Variovorax	80	127	54	79	133	79	58	57	83.375
15	Leuconostoc	83	112	96	63	63	91	94	88	86.25
16	Marvinbryantia	106	156	118	43	80	113	78	89	97.875
17	Novosphingobium	51	151	121	48	90	82	116	151	101.25

상기 표 7은 상술한 4 가지의 분류기와 2 가지의 feature selection 방법 조합에 의해 선택된 17 개의 속(genera)을 나타낸다. 상기 표의 열은 "분류기/feature selection 방법"을 나타낸다. 표의 숫자는 선택 단계에서 속(genus)의 순서를 보여준다. 숫자가 낮을수록 성능 측면에서 해당 속(genera)의 중요성을 나타낸다.

본 발명자들은 상기 분류에서 이러한 속(genus)의 중요성을 더욱 명확히 하기 위해 개별 속(genus)의 순위를 면밀히 검토하였다. Feature selection 절차 중에 추가 또는 삭제되는 속(genus)의 순위는, 성능이 더 높은 feature가 먼저 추가되거나 나중에 삭제되는 경향이 있으므로 중요할 수 있다. 따라서 본 발명자들은 selection에서 속(genus)의 순위를 고려하였다. 17 개 속(genus) 중에서 PSBM3 만 199 개의 feature 중 5 순위 내로 선택되어 199개의 feature 중 5% 미만에 해당하였다. PSBM3은 Erysipelotrichaceae라고 불리는 박테리아에 속하며, 이는 면역 체계와 관련이 있는 것으로 알려져 있다. Erysipelotrichaceae는 IgA에 의해 코팅되었고 그들의 수준은 TNF-α(tumor necrosis factor alpha)의 수준과 양의 상관 관계를 가졌다. 특히, PSBM3은 염증 질환의 병인에 중요한 역할을 하는 invariant natural killer T 와 관련이 있는 것으로 알려져 있다.

Claims

컴퓨터로 구현되는 미생물을 이용한 질병의 예측방법에 있어서,
(a) 질병과 관련된 장내 미생물의 메타지놈 데이터를 수집하는 단계;
(b) 상기 장내 미생물의 메타지놈 데이터를 표준화하는 단계;
(c) 상기 장내 미생물의 메타지놈 데이터를 분류기 및 미생물의 분류체계 별로 질병 예측 모델의 정확도 비교하여, 가장 예측 정확도가 높은 분류기 및 미생물의 분류체계 조합을 선택하는 단계;
(d) 상기 조합에서 특징 선택(feature selection)을 수행하여 질병 별 질병 예측 정확도가 높은 미생물의 집단을 도출하는 단계; 및
(e) 상기 미생물 집단 데이터를 이용하여 질병을 예측하는 단계를 포함하고,
상기 표준화의 방법은 TMM 표준화(Trimmed mean of M-values normalization) 및 Quantile 표준화(Quantile normalization)이고,
상기 분류기는 LogitBoost, LMT(logistic model tree), SVM(support vector machine) 또는 KNN(K-Nearest Neighbor) 분류기이고,
상기 LogitBoost 분류기의 파라미터는 I이고, 1 내지 40 사이의 정수이며,
상기 SVM(support vector machine) 분류기의 파라미터는 G 및 C이고, G는 1e-4, 1e-3, 1e-2, 1e-1, 1, 또는 10 중에서 선택되고, C는 0.1, 1, 10, 100, 및 1000 중에서 선택되며,
상기 KNN(K-Nearest Neighbor) 분류기의 파라미터는 K이고, 3, 5, 7, 9, 11, 13, 및 15 중에서 선택되며,
상기 분류기의 파라미터는 미생물의 각 분류체계 별로 가장 높은 정확도를 나타내는 것으로 선택되고,
상기 질병은 MS(multiple sclerosis), JIA(juvenile idiopathic arthritis), ME/CFS(myalgic encephalomyelitis/chronic fatigue syndrome), AIDS(acquired immune deficiency syndrome), Stroke, 및 CRC(colorectal cancer)를 포함하는 6종의 질병인 것인, 질병의 예측방법.
제1항에 있어서, 상기 미생물은 장내 미생물인 것인, 질병의 예측방법.
삭제
삭제
제1항에 있어서, 상기 표준화의 방법이 TMM 표준화인 경우, FDR(false discovery rate)가 5% 이하가 되도록 다중검정 오류를 보정한 것인, 질병의 예측방법.
삭제
삭제
삭제
삭제
삭제
삭제
제1항에 있어서, 상기 특징 선택은 FS(forward selection) 방식 또는 BE(backward elimination) 방식인 것인, 질병의 예측방법.
컴퓨터 시스템과 결합되어 미생물을 이용한 질병의 예측방법을 실행시키기 위해 컴퓨터 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램에 있어서, 상기 미생물을 이용한 질병의 예측방법은,
(a) 질병과 관련된 장내 미생물의 메타지놈 데이터를 수집하는 단계;
(b) 상기 장내 미생물의 메타지놈 데이터를 표준화하는 단계;
(c) 상기 장내 미생물의 메타지놈 데이터를 분류기 및 미생물의 분류체계 별로 질병 예측 모델의 정확도 비교하여, 가장 예측 정확도가 높은 분류기 및 미생물의 분류체계 조합을 선택하는 단계;
(d) 상기 조합에서 특징 선택(feature selection)을 수행하여 질병 별 질병 예측 정확도가 높은 미생물의 집단을 도출하는 단계; 및
(e) 상기 미생물 집단 데이터를 이용하여 질병을 예측하는 단계를 포함하고,
상기 표준화의 방법은 TMM 표준화(Trimmed mean of M-values normalization) 및 Quantile 표준화(Quantile normalization)이고,
상기 분류기는 LogitBoost, LMT(logistic model tree), SVM(support vector machine) 또는 KNN(K-Nearest Neighbor) 분류기이고,
상기 LogitBoost 분류기의 파라미터는 I이고, 1 내지 40 사이의 정수이며,
상기 SVM(support vector machine) 분류기의 파라미터는 G 및 C이고, G는 1e-4, 1e-3, 1e-2, 1e-1, 1, 또는 10 중에서 선택되고, C는 0.1, 1, 10, 100, 및 1000 중에서 선택되며,
상기 KNN(K-Nearest Neighbor) 분류기의 파라미터는 K이고, 3, 5, 7, 9, 11, 13, 및 15 중에서 선택되며,
상기 분류기의 파라미터는 미생물의 각 분류체계 별로 가장 높은 정확도를 나타내는 것으로 선택되고,
상기 질병은 MS(multiple sclerosis), JIA(juvenile idiopathic arthritis), ME/CFS(myalgic encephalomyelitis/chronic fatigue syndrome), AIDS(acquired immune deficiency syndrome), Stroke, 및 CRC(colorectal cancer)를 포함하는 6종의 질병인 것인, 컴퓨터 프로그램.
컴퓨터로 구현되는 미생물을 이용한 질병의 예측시스템에 있어서,
컴퓨터가 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하고,
상기 적어도 하나의 프로세서는,
(a) 질병과 관련된 장내 미생물의 메타지놈 데이터를 수집하고;
(b) 상기 장내 미생물의 메타지놈 데이터를 표준화하고;
(c) 상기 장내 미생물의 메타지놈 데이터를 분류기 및 미생물의 분류체계 별로 질병 예측 모델의 정확도 비교하여, 가장 예측 정확도가 높은 분류기 및 미생물의 분류체계 조합을 선택하고;
(d) 상기 조합에서 특징 선택(feature selection)을 수행하여 질병 별 질병 예측 정확도가 높은 미생물의 집단을 도출하고; 및
(e) 상기 미생물 집단 데이터를 이용하여 질병을 예측하는 것을 특징으로하고,
상기 표준화의 방법은 TMM 표준화(Trimmed mean of M-values normalization) 및 Quantile 표준화(Quantile normalization)이고,
상기 분류기는 LogitBoost, LMT(logistic model tree), SVM(support vector machine) 또는 KNN(K-Nearest Neighbor) 분류기이고,
상기 LogitBoost 분류기의 파라미터는 I이고, 1 내지 40 사이의 정수이며,
상기 SVM(support vector machine) 분류기의 파라미터는 G 및 C이고, G는 1e-4, 1e-3, 1e-2, 1e-1, 1, 또는 10 중에서 선택되고, C는 0.1, 1, 10, 100, 및 1000 중에서 선택되며,
상기 KNN(K-Nearest Neighbor) 분류기의 파라미터는 K이고, 3, 5, 7, 9, 11, 13, 및 15 중에서 선택되며,
상기 분류기의 파라미터는 미생물의 각 분류체계 별로 가장 높은 정확도를 나타내는 것으로 선택되고,
상기 질병은 MS(multiple sclerosis), JIA(juvenile idiopathic arthritis), ME/CFS(myalgic encephalomyelitis/chronic fatigue syndrome), AIDS(acquired immune deficiency syndrome), Stroke, 및 CRC(colorectal cancer)를 포함하는 6종의 질병인 것인, 질병의 예측시스템.