KR102273311B1 - 장내 미생물을 이용한 질병의 예측방법 및 시스템 - Google Patents

장내 미생물을 이용한 질병의 예측방법 및 시스템 Download PDF

Info

Publication number
KR102273311B1
KR102273311B1 KR1020190057214A KR20190057214A KR102273311B1 KR 102273311 B1 KR102273311 B1 KR 102273311B1 KR 1020190057214 A KR1020190057214 A KR 1020190057214A KR 20190057214 A KR20190057214 A KR 20190057214A KR 102273311 B1 KR102273311 B1 KR 102273311B1
Authority
KR
South Korea
Prior art keywords
classifier
disease
accuracy
microorganisms
microorganism
Prior art date
Application number
KR1020190057214A
Other languages
English (en)
Other versions
KR20200133067A (ko
Inventor
방소현
유동안
조서애
김희발
Original Assignee
주식회사 이지놈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 이지놈 filed Critical 주식회사 이지놈
Priority to KR1020190057214A priority Critical patent/KR102273311B1/ko
Publication of KR20200133067A publication Critical patent/KR20200133067A/ko
Application granted granted Critical
Publication of KR102273311B1 publication Critical patent/KR102273311B1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/02Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving viable microorganisms
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/689Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6854Immunoglobulins
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Abstract

본 발명은 장내 미생물을 이용한 질병의 예측방법 및 시스템에 관한 것이다. 본 발명의 방법 및 시스템을 이용하는 경우, 장내 미생물을 이용하여 다양한 질병을 신뢰성 있게 예측할 수 있다.

Description

장내 미생물을 이용한 질병의 예측방법 및 시스템{METHOD AND SYSTEM FOR PREDICTING DISEASE FROM GUT MICROBIAL DATA}
본 발명은 장내 미생물을 이용한 질병의 예측방법 및 시스템에 관한 것으로, 보다 구체적으로는 장내 미생물을 질병을 예측하는 지표로 사용함으로써 다양한 질병을 예측하는 방법 및 시스템에 관한 것이다.
기계 학습 기술은 다양한 분야에 적용되어 왔으며, 특히 질병 예측 및 의학적 질병 진단을 위한 생명 공학 분야에서 유용한 전략이 되었다. 질병을 예측하기 위해서는 유전자 발현 패턴, 유전자형 및 메틸화를 포함한 생물학적 데이터가 이용될 수 있다. 이러한, 생물학적 데이터의 영역은 미생물 군집과 숙주의 면역 체계와의 연관성으로 인해, 미생물 군집까지 확장되었다. 미생물 군은 점막 부위와 비 점막 부위 모두에서 면역 세포의 발달과 기능을 촉진시킨다. 따라서 장내미생물과 면역체계의 상관성은 다양한 질병의 발생과 관련이 있다. 그러나 아직까지 장내 마이크로바이옴 데이터를 활용하여 여러 질병을 예측하기 위한 시도는 미미한 실정이고, 신뢰성에도 문제가 있었다.
본 발명자들은 장내 마이크로바이옴 데이터를 활용하여 여러 질병을 예측하기 위한 방법을 개발하고자 예의 연구 노력하였다. 구체적으로 16S rRNA 염기 서열 분석으로부터 얻은 장내 미생물 데이터를 여러 가지 질병과 관련하여 다중 클래스 분류기를 기반으로 분류 모델을 구축하고, 질병과의 연관성을 찾기 위해 특징 선택(feature selection)을 수행하였다. 그 결과, 도출된 마이크로바이옴 집합이 높은 정확도로 질병을 예측할 수 있음을 확인하고 본 발명을 완성하였다.
따라서, 본 발명의 목적은 본 발명은 장내 미생물을 이용한 질병의 예측방법 및 시스템을 제공하는 것이다.
본 발명의 일 양태에 따르면, 본 발명은 다음 단계를 포함하는 컴퓨터로 구현되는 미생물을 이용한 질병의 예측방법을 제공한다:
(a) 질병과 관련된 장내 미생물의 메타지놈 데이터를 수집하는 단계;
(b) 상기 장내 미생물의 메타지놈 데이터를 표준화하는 단계;
(c) 상기 장내 미생물의 메타지놈 데이터를 분류기 및 미생물의 분류체계 별로 질병 예측 모델의 정확도 비교하여, 가장 예측 정확도가 높은 분류기 및 미생물의 분류체계 조합을 선택하는 단계;
(d) 상기 조합에서 특징 선택(feature selection)을 수행하여 질병 별 질병 예측 정확도가 높은 미생물의 집단을 도출하는 단계; 및
(e) 상기 미생물 집단 데이터를 이용하여 질병을 예측하는 단계.
본 명세서에서, 메타지놈(Metagenome)의 지놈(genome)은 유전자의 집합을 의미하고, 메타지놈은 지놈이 많이 모인 집합을 의미한다. Metagenome 연구는 미생물 군집을 분석하는 분야로 환경과 미생물 간의 생태학적인 의미를 연구하는데 현재 미생물 유전체 및 메타지놈(metagenome)의 연구 범위는 분석 기술의 발전에 따라 모델 균주나 표준 균주의 분석에 국한되지 않고 유전체 정보 비교를 위한 환경 분리 미생물이나 유연관계가 가까운 미생물의 분석으로 급속히 확장되고 있다. 본 명세서에서 메타지놈 데이터는 16S rRNA를 증폭하여 얻은 DNA 데이터를 의미한다.
본 명세서에서, 16S rRNA(16S ribosomal RNA)는 원핵생물 리보솜의 30S 소단위체를 구성하고 있는 rRNA로, 약 1,500 뉴클레오타이드 정도의 길이를 갖는다. 16S rRNA의 서열은 대부분 상당히 보존되어 있는 한편 일부 구간에서는 높은 염기서열 다양성이 나타난다. 특히 동종간에는 다양성이 거의 없는 반면에 타종간에는 다양성이 나타나므로 생물동정에 사용된다. 따라서, 16S rRNA 서열을 비교하면 원핵생물을 동정할 수 있다.
본 발명의 일 구현예에 있어서, 상기 미생물은 장내 미생물이다.
본 발명의 일 구현예에 있어서, 상기 질병은 1종 이상의 질병인 것인, 질병의 예측방법.
본 발명의 구체적인 구현예에 있어서, 상기 질병은 MS(multiple sclerosis), JIA(juvenile idiopathic arthritis), ME/CFS(myalgic encephalomyelitis/chronic fatigue syndrome), AIDS(acquired immune deficiency syndrome), Stroke, 및 CRC(colorectal cancer)를 포함하나, 이에 한정되는 것은 아니다.
본 발명의 일 구현예에 있어서, 상기 표준화의 방법은 TMM 표준화(Trimmed mean of M-values normalization) 또는 Quantile 표준화(Quantile normalization)이다.
본 발명의 구체적인 구현예에 있어서, 상기 표준화의 방법이 TMM 표준화인 경우, FDR(false discovery rate)가 5% 이하가 되도록 다중검정 오류를 보정한 것을 특징으로 한다.
상기 TMM 표준화 방법은 샘플 별 생성된 전체 미생물의 양을 보정하기 위하여 사용된 표준화 방법이다.
상기 Quantile 표준화 방법은 샘플들의 분포를 비슷하게 만들기 위하여 사용된 표준화 방법이다. 본 발명의 구체적인 구현예에서, 여섯 개의 스터디(MS, JIA, ME/CFS, AIDS, Stroke, CRC)에서 건강한 샘플들로 baseline으로 이용하여 건강한 샘플들의 분포를 기반으로 표준화를 진행하였다. 이는 여섯 개의 스터디에서 온 건강한 샘플들이 비슷한 분포를 가지고 있다고 가정했기 때문에 수행되었다.
본 발명의 일 구현예에 있어서, 상기 분류기(classifier)는 당업계에 공지된 다양한 클래스 예측 알고리즘(class prediction algorithm)을 포함하며, 예컨대 LogitBoost, LMT(logistic model tree), SVM(support vector machine) 또는 KNN(K-Nearest Neighbor) 분류기이나 이에 한정되는 것은 아니다.
KNN(K-Nearest Neighbor) 분석 알고리즘은 시험 개체의 k 최인접 이웃을 서치한다. kNN 분석 알고리즘에 있어서, 한 개체의 묘사자와 모든 개체들 각각의 묘사자 사이에 모든 짝(pairwise) "거리들"을 계산한다. 이어, 시험 개체에 대한 kNNs를 선택하고, 개체가 kNNs 중에서 최공통 형질에 민감한지 여부를 예측한다.
서포트 벡터 머신(support vector machine, SVM) 알고리즘은 시험 개체가 속하는 것으로 판단되는 최가능성 클래스(most likely class)를 동정하는 분별 분류 방법이다. SVM 분석 알고리즘에 있어서, SVM을 훈련시켜 모든 이원적 형질들의 각각에서 하나의 개체의 타당한 형질(correct trait)을 인식하도록 한다. 최종적으로, SVM에 의한 모든 쌍 분류들의 최대 선출을 갖는 것을 최가능성 형질에 대한 시험 개체의 민감성을 예측한다.
본 발명의 구체적인 구현예에 있어서, 상기 LogitBoost 분류기의 파라미터는 I이고, 1 내지 40 사이의 정수이다.
본 발명의 구체적인 구현예에 있어서, 상기 SVM(support vector machine) 분류기의 파라미터는 G 및 C이고, G는 1e-4, 1e-3, 1e-2, 1e-1, 1, 또는 10 중에서 선택되고, C는 0.1, 1, 10, 100, 및 1000 중에서 선택된다.
본 발명의 구체적인 구현예에 있어서, 상기 KNN(K-Nearest Neighbor) 분류기의 파라미터는 K이고, 3, 5, 7, 9, 11, 13, 및 15 중에서 선택된다.
본 발명의 구체적인 구현예에 있어서, 상기 분류기의 파라미터는 미생물의 각 분류체계 별로 가장 높은 정확도를 나타내는 파라미터로 선택된 것을 특징으로 한다.
본 발명의 일 구현예에 있어서, 상기 미생물의 분류체계는 문(phylum), 강(class), 목(order), 과(family), 속(genus), 종(species), 또는 이들의 조합이다. 본 발명의 구체적인 구현예에 있어서, 상기 미생물의 분류체계는 속(genus), 종(species), 또는 이들의 조합이다.
본 발명의 일 구현예에 있어서, 상기 특징 선택은 FS(forward selection) 방식 또는 BE(backward elimination) 방식이고, 바람직하게는 BE 방식이다.
본 발명에서, 상기 FS(Forward selection) 방식은 가장 정확도가 높은 한 개의 feature로 시작하여, 성능을 최고로 하는 feature 들을 차례로 더해가는 방식이다. 본 발명자들은 더 이상 feature가 남아있지 않을 때까지 계속해서 feature들을 하나 하나씩 더해갔다.
본 발명에서 상기 BE(Backward elimination) 방식은 모든 feature로 시작하여 최고의 정확도를 나타낼 때까지 계속해서 feature들을 하나 하나씩 제거하는 방식이다.
본 발명의 다른 양태에 따르면, 본 발명은 컴퓨터 시스템과 결합되어 미생물을 이용한 질병의 예측방법을 실행시키기 위해 컴퓨터 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램을 제공한다. 여기에서 상기 미생물을 이용한 질병의 예측방법은 다음 단계를 포함한다:
(a) 질병과 관련된 장내 미생물의 메타지놈 데이터를 수집하는 단계;
(b) 상기 장내 미생물의 메타지놈 데이터를 표준화하는 단계;
(c) 상기 장내 미생물의 메타지놈 데이터를 분류기 및 미생물의 분류체계 별로 질병 예측 모델의 정확도 비교하여, 가장 예측 정확도가 높은 분류기 및 미생물의 분류체계 조합을 선택하는 단계;
(d) 상기 조합에서 특징 선택(feature selection)을 수행하여 질병 별 질병 예측 정확도가 높은 미생물의 집단을 도출하는 단계; 및
(e) 상기 미생물 집단 데이터를 이용하여 질병을 예측하는 단계.
본 발명의 또 다른 일 양태에 따르면, 본 발명은 컴퓨터로 구현되는 미생물을 이용한 질병의 예측시스템에 있어서, 컴퓨터가 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하고,
상기 적어도 하나의 프로세서는,
(a) 질병과 관련된 장내 미생물의 메타지놈 데이터를 수집하고;
(b) 상기 장내 미생물의 메타지놈 데이터를 표준화하고;
(c) 상기 장내 미생물의 메타지놈 데이터를 분류기 및 미생물의 분류체계 별로 질병 예측 모델의 정확도 비교하여, 가장 예측 정확도가 높은 분류기 및 미생물의 분류체계 조합을 선택하고;
(d) 상기 조합에서 특징 선택(feature selection)을 수행하여 질병 별 질병 예측 정확도가 높은 미생물의 집단을 도출하고; 및
(e) 상기 미생물 집단 데이터를 이용하여 질병을 예측하는 것을 특징으로 하는 질병의 예측시스템을 제공한다.
본 발명의 일 구현예에 있어서, 상기 컴퓨터 프로그램은 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 상기 컴퓨터 프로그램은, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수 있다. 상기 컴퓨터 프로그램은 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
본 발명의 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magnetooptical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.
매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 당업자에게 공지되어 사용 가능한 것일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
본 발명의 상기 컴퓨터 프로그램과 시스템은, 상술한 미생물을 이용한 질병의 예측방법을 실행하는 프로그램 또는 프로세서를 포함하므로, 명세서의 과도한 복잡성을 피하기 위하여 상기 본 발명의 일 양태에 따른 질병의 예측방법과 중복되는 범위 내의 기재사항은 생략한다.
본 발명의 특징 및 이점을 요약하면 다음과 같다:
본 발명은 장내 미생물을 이용한 질병의 예측방법 및 시스템을 제공한다. 본 발명의 방법 및 시스템을 이용하는 경우, 장내 미생물을 이용하여 다양한 질병을 신뢰성 있게 예측할 수 있다.
도 1a는 본 발명의 실험 디자인과 메타 분석을 위한 데이터 처리과정을 나타낸다. 구체적으로(1) 메타분석을 위한 normalization 과정과 feature의 제거;(2) 여섯가지 질병에 대한 메타지놈 데이터를 통합하여 여러 질병을 예측하기 위한 분류 분석의 단계를 나타낸다.
도 1b는 다섯 가지 미생물 분류단계에서 feature의 개수를 나타낸 도이다. "Total"은 데이터 전처리 전의 모든 feautre의 개수를 나타낸다. "Filtering"은 데이터 전처리 이후에 제거되고 남은 feature의 개수를 나타낸다.
도 2a-2c는 미생물의 분류학적 수준과 feature selection 방법에 의한 분류의 성능을 나타낸 도이다. 도 2a는 미생물의 분류학적 수준별 정확성을 나타낸다. 각각의 점은 네 개의 다중 클래스 분류기(LogitBoost, LMT, SVM 및 KNN) 별 feature들의 정확성을 상징한다. 오류 표시선이 있는 파란색 점은 각 분류기 별 feature들의 정확도의 평균을 나타낸다. 도 2b는 미생물의 분류학적 수준과 feature selection 방법에 의한 4 개의 분류기의 정확도 평균을 나타낸다. 막대의 색상은 feature selection 방법을 나타낸다. "All"는 feature selection 없이 모든 feature가 분류에 사용됨을 나타내고, "FS" 및 "BE"는 각각 FS 및 BE의 하위 집합을 나타낸다. 오류 막대는 각 미생물 분류 수준 및 feature selection 방법에서의 정확도의 표준 오류를 나타낸다. 도 2c는 미생물 분류 수준 및 feature selection 방법에 의한 4 개의 분류기의 feature 갯수의 평균을 나타낸다.
도 3a-3b는 속의 수준에서 4 가지의 분류기(LogitBoost, LMT, SVM 및 KNN)에 따른 분류 성능을 나타낸 도이다. 도 3a는 세 가지의 feature selection 전략(feature selection 안 한 경우, FS 및 BE)을 적용한 4 가지의 분류기의 정확도를 나타낸다. 다양한 feature selection 전략이 포함된 각 분류기의 성능 평가는 세 번 수행되었다. 도 3b는 3 개의 feature selection 전략을 가진 4 가지의 분류기에 의한 feature의 개수를 나타낸다.
도 4는 4 가지의 분류기(LogitBoost, LMT, SVM 및 KNN)와 2 가지의 feature selection 방법(FS, BE) 별로 선택된 feature의 수를 나타낸 벤다이어그램이다.
이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 보다 구체적으로 설명하기 위한 것으로, 본 발명의 요지에 따라 본 발명의 범위가 이들 실시예에 의해 제한되지 않는다는 것은 당업계에서 통상의 지식을 가진 자에 있어서 자명할 것이다.
실시예
실험재료 및 방법
1. 6가지 질병과 관련된 장내 미생물 데이터 수집
장의 미생물 군집의 메타지놈(metagenome) 데이터 세트에 기초한 질병 예측을 위해, 많은 수의 메타지놈(metagenome) 샘플을 European Bioinformatics Institute(EBI) 데이터베이스에서 모았다(www.ebi.ac.uk/metagenomics/). 다른 실험 프로토콜에 의한 biases(편향)을 감소시키기 위해, 데이터는 여러 범주에 의해 모아졌다:(1) 현재 많이 사용되는 방식인 대변 샘플링을 통한 16S rRNA에 기초한 메타지놈 데이터,(2) 454, Illumina와 같은 시퀀싱 플랫폼을 수집하였고,(3) 종단적 자료일 경우에는, 독립 가설을 위해 첫번째 측정 자료를 수집하였다.(4) OUT(operational taxonomic unit)을 확인하고 정량 하는데 있어 EBI pipeline v2.0 or v3.0(www.ebi.ac.uk/metagenomics/pipelines/3.0)을 사용하였다.
EBI 파이프라인에서는 다음과 같은 여러 tool들이 사용되었다:
(1) Trimmomatic(v0.32): 퀄리티 체크와 낮은 퀄리티의 read를 제거;
(2) SeqPrep(v1.1) paired-end reads를 합쳐서 하나의 read로 만듦;
(3) rRNASelector(v1.0.1) non-ribosomal RNA를 필터링; 및
(4) QIIME(v1.9.0) OTU를 찾고 정량화.
이러한 파이프라인으로부터, 문, 강, 목, 과 및 속 수준에서 장내 미생물 데이터가 Greengenes 16S rRNA에 기반하여 생성되었다.
2. 다른 질병과 관련된 연구들로부터 얻은 메타지놈 데이터의 전처리
평균 read 개수의 5% 이하를 가지고 있는 샘플들은 제거되었다. 문, 강, 목, 과 및 속 수준과 같은 다섯 개 미생물 분류기준에 의한 미생물의 양이 feature로 사용되었다. EdgeR을 이용하여 feature들의 양을 TMM 표준화(Trimmed mean of M-values normalization, TMM normalization) 하였다. 서로 다른 질병 연구로부터 얻은 메타지놈 데이터 간의 이질성을 감소시키기 위해서, 여섯 개 연구로부터 얻은 건강한 샘플들 간에 다른 양으로 존재하는 미생물들을 제거하였다. 이때, feature의 양이 음의 이항분포를 가진다고 가정하고 log-likelihood ratio test를 수행하였다. 통계 테스트에서, 다중검정 오류(multiple testing error)를 보정하고자 FDR(false discovery rate)이 사용되었으며, 5%의 유의수준이 유의한 결과를 위해 고려되었다.
본 발명자들은 또한 샘플들의 분포를 비슷하게 만들기 위해서, 미생물의 양을 quantile 표준화(quantile normalization) 하였다. Quantile 표준화에 있어서, 표준화된 값(normalized values)을 구하는 데에는 두 가지 타입의 기준선이 사용될 수 있다:
(1) 각 feature의 quantile 로부터 온 global mean vector; 및
(2) 특정한 baseline vector.
여섯 개의 스터디에서 온 건강한 샘플들이 비슷한 분포를 가지고 있다고 가정했기 때문에, 두번째 baseline을 구하는 방법을 선택하여 control sample로 baseline vector를 형성하였다.
3. 장내 미생물 데이터를 이용하여 다양한 질병을 구분하는 분류기들
본 발명자들이 본 발명에서 사용한 다중 그룹 분류기는 KNN(k-Nearest Neighbor), LogitBoost, LMT(logistic model tree), support vector machines(SVMs) with sequential minimal optimization(SMO)이다. KNN은 여러 그룹으로의 분류가 가능한 분류기이다. LogitBoost는 multiclass logistic loss를 고려함으로써 여러 그룹으로 분류가 가능하도록 한 발전된 부스팅 알고리즘이며, 단백질 구조 class를 예측하는데 이용되기도 하였다. LMT(logistic model tree)는 잎에 logistic model을 갖고 있는 회귀 나무(regression tree)에 기반하였다. 약물 합성과 자폐스펙트럼 장애와 같은 예측에서도 LMT는 다른 방법에 비해 이점이 있는 것으로 알려져 있다. SMO(sequential minimal optimization)는 이차의 프로그래밍 해결을 제외한 classification 방식의 SVM(support vector machine)의 효과적인 방법이다. KNN과 SVM 분류기는 가장 많이 사용되는 방법이며 다양한 연구에 성공적으로 사용되어 왔다.
본 발명자들은 분류 분석을 RWeka 패키지에 있는 상기 4개의 분류기를 이용해 수행하였다. 상기 KNN, LogitBoost, LMT, SVM 분류기에서 사용된 명령문은 다음과 같았다:
"IBk(class~.,data= InputData, control = Weka_control(K =Selected Parameter), na.action=NULL)",
"LogitBoost(class~.,data= InputData, control = Weka_control(I = Selected Parameter), na.action=NULL)",
"LMT(class~.,data= InputData, na.action=NULL)", 및
" SMO(class~.,data=InputData, control = Weka_control(K = list( kernel, G = Selected Parameter), C = Selected Parameter), na.action=NULL)".
상기 분류기들의 분류의 성능을 평가하기 위해서 10-fold cross-validation이 사용되었다. 10-fold cross validation은 전체 샘플들을 10개의 그룹으로 나누어 9개의 그룹은 모델을 구축하는 데에 사용하고, 1개의 그룹은 구축된 모델의 성능을 평가하는 것을 10회 반복하여 수행하는 방법이다.
분류기를 위한 파라미터를 선택하기 위해, 본 발명자들은 모든 가능한 파라미터를 탐색하고 최고의 성능을 내는 파라미터를 찾는 greedy method를 사용하였다.
3-1. KNN
KNN에서 파라미터 K는 {3, 5, 7, 9, 11, 13, 15}의 범주의 값에서 선택되었다(표 1).
KNN 알고리즘의 파라미터
Parameter(K) Accuracy
Phylum Class Order Family Genus
3 53.88 66.95 71.12 70.40 81.75
5 52.73 65.80 70.98 68.82 81.75
7 53.30 64.22 69.54 69.11 82.18
9 53.45 63.07 69.54 70.11 81.47
11 53.16 62.21 69.25 71.12 82.18
13 53.30 61.93 69.11 70.55 81.61
15 53.88 60.20 67.10 70.40 80.75
가장 높은 정확도는 각 분류체계 수준 별로 볼드체로 표시되었다.
3-2. LogitBoost
LogitBoost에서는, 파라미터 I은 1과 40사이의 값으로 선택되었다(표 2).
LogitBoost 알고리즘의 파라미터
Parameter(I) Accuracy
Phylum Class Order Family Genus
1 52.16 60.34 65.52 71.70 77.73
2 53.30 64.37 69.40 71.70 81.18
3 55.03 67.53 71.12 77.59 84.63
4 57.18 67.53 71.55 78.45 85.92
5 55.75 68.53 75.14 79.89 88.07
6 54.60 70.11 74.86 80.75 91.09
7 55.17 70.40 76.29 81.47 90.66
8 55.03 69.97 76.15 82.04 91.24
9 54.60 70.26 77.59 81.61 91.95
10 55.60 70.69 76.01 82.61 91.95
11 55.03 70.98 77.01 82.90 92.82
12 54.60 70.98 77.87 83.05 92.67
13 55.32 70.69 76.72 82.18 92.67
14 54.60 70.83 77.73 83.19 93.39
15 54.45 70.98 77.59 82.47 93.82
16 54.74 70.55 78.02 83.48 92.82
17 53.88 70.69 77.44 84.05 94.54
18 54.89 70.83 78.02 83.91 92.67
19 54.89 70.40 76.87 83.91 93.97
20 54.89 71.12 78.45 85.06 93.97
21 54.60 70.69 78.45 84.77 94.54
22 55.17 71.12 77.44 84.77 94.68
23 54.60 71.55 77.87 84.63 94.54
24 55.03 70.40 79.31 84.20 94.40
25 54.89 70.83 79.02 84.48 93.39
26 54.60 70.69 79.31 84.34 93.53
27 55.32 71.12 77.16 83.62 94.25
28 54.60 70.83 77.87 84.77 93.97
29 54.45 70.98 77.16 84.20 94.68
30 55.75 69.83 77.87 85.49 95.40
31 54.89 71.12 77.73 84.48 94.40
32 54.89 70.26 78.02 84.48 95.11
33 54.45 70.55 78.16 84.63 93.97
34 55.46 70.83 78.45 83.33 93.82
35 54.74 70.98 77.87 84.05 94.68
36 55.03 70.55 78.45 84.63 94.11
37 55.32 70.83 78.59 82.90 94.97
38 54.45 70.40 79.02 84.77 93.97
39 54.89 70.69 79.02 84.63 94.11
40 54.89 70.98 77.30 83.48 94.83
가장 높은 정확도는 각 분류체계 수준 별로 볼드체로 표시되었다.
3-3. SVM(for RBF kernel)
SVM(for RBF kernel) 에서는 파라미터 G 와 파라미터 C 가 각각 {1e-4, 1e-3…, 10} 와 {0.1,1,…,1000} 의 값들에서 탐색되었다(표 3).
SVM 알고리즘에서 RBF Kernel의 파라미터
Phylum
1e.04 0.001 0.01 0.1 1 10
0.1 37.79 37.79 37.79 52.59 54.31 55.03
1 37.79 37.79 52.44 54.89 54.17 55.89
10 37.79 50.86 54.89 54.60 54.74 54.45
100 52.44 54.89 55.60 55.32 55.03 54.74
150 53.45 54.89 55.17 54.45 54.17 55.03
200 53.59 54.89 55.03 54.74 55.03 54.89
300 53.74 54.89 55.32 54.89 55.32 54.89
400 54.31 54.89 54.31 54.45 54.17 54.45
1000 54.89 55.03 55.32 54.60 55.17 54.31
Class
1e.04 0.001 0.01 0.1 1 10
0.1 37.79 37.79 37.79 54.60 64.66 48.85
1 37.79 37.79 56.18 63.79 68.68 68.97
10 37.79 56.18 61.49 69.11 69.25 68.68
100 56.32 61.35 68.97 70.40 69.40 68.68
150 59.63 68.25 69.11 70.11 70.26 68.53
200 60.34 68.68 69.97 70.40 69.97 68.82
300 60.34 68.25 70.11 69.97 69.83 68.97
400 60.78 68.82 70.26 69.68 69.40 68.82
1000 62.50 68.68 70.55 69.54 70.11 68.39
Order
1e.04 0.00 0.01 0.10 1.00 10.00
0.1 37.79 37.79 37.79 51.58 69.40 41.38
1 37.79 37.79 60.20 74.57 78.02 59.91
10 37.79 61.64 75.43 77.87 75.86 61.93
100 59.63 74.43 79.31 76.87 74.86 61.78
150 68.97 76.29 77.87 78.59 76.15 61.49
200 69.40 76.29 78.02 78.45 76.01 63.22
300 71.70 77.73 77.16 78.02 76.58 61.49
400 72.41 78.16 77.73 78.02 75.14 62.36
1000 75.29 78.30 78.59 76.87 75.86 61.78
Family
1e.04 0.00 0.01 0.10 1.00 10.00
0.1 37.79 37.79 37.79 49.43 51.58 37.79
1 37.79 37.79 59.91 77.73 78.30 38.22
10 37.79 62.07 78.88 81.90 78.30 39.22
100 61.49 78.59 82.61 79.45 79.17 38.94
150 68.68 79.17 82.04 80.17 78.30 39.08
200 70.98 79.17 81.90 77.59 79.89 38.79
300 74.14 80.60 82.76 79.74 79.17 38.79
400 75.57 81.03 82.61 79.45 79.02 39.22
1000 78.45 82.61 81.75 80.17 79.45 38.94
Genus
1e.04 0.00 0.01 0.10 1.00 10.00
0.1 37.79 37.79 37.79 62.21 39.08 37.79
1 37.79 37.79 69.11 86.06 79.31 37.79
10 37.79 69.40 1.00 91.52 81.18 37.79
100 69.54 88.22 92.53 91.09 81.47 37.79
150 77.30 90.23 91.81 92.24 81.75 37.79
200 79.02 91.52 91.95 92.53 82.04 37.79
300 80.75 91.09 92.10 91.67 81.18 37.79
400 82.76 91.81 93.10 91.95 80.46 37.79
1000 87.21 92.53 93.25 92.39 81.32 37.79
각 열은 파라미터 G를 나타내고, 각 행은 파라미터 C를 나타낸다. 가장 높은 정확도는 각 분류체계 수준 별로 볼드체로 표시되었다.
각 미생물 분류체계별로 가장 높은 정확도를 가진 파라미터들이 선택되었다(표 4).
질병 분류에서 선택된 파라미터
KNN LogitBoost SMO
K I C G
Phylum 3 4 1 10
Class 3 23 1000 0.01
Order 3 24 100 0.01
Family 11 30 300 0.01
Genus 7 30 1000 0.01
같은 정확도의 파라미터가 있을 경우에는, 더 낮은 값을 가진 파라미터가 선택되었다.
4. Wrapper 방법을 이용한 Feature selection
FS(Forward selection) 및 BE(Backward elimination)와 같은 wrapper feature-selection approach를 이용하여 분류의 성능을 향상시켜줄 feature subset을 찾았다.
FS(Forward selection)는 가장 정확도가 높은 한 개의 feature로 시작하여, 성능을 최고로 하는 feature 들을 차례로 더해가는 방법이다. 본 발명자들은 더 이상 feature가 남아있지 않을 때까지 계속해서 feature들을 하나 하나씩 더해갔다.
BE(Backward elimination)는 모든 feature로 시작하여 최고의 정확도를 나타낼 때까지 계속해서 feature들를 하나 하나씩 제거하는 방법이다. 이러한 feature selection 과정에서, 본 발명자들은 가장 높은 정확도를 갖는 최적의 feature subset을 찾을 수 있었다.
실험 결과
1. 메타분석(Meta-analysis)로부터 오는 편향을 줄이기 위한 데이터 전처리 과정(데이터 수집 및 표준화)
본 발명자들은 먼저 MS(multiple sclerosis), JIA(juvenile idiopathic arthritis), ME/CFS(myalgic encephalomyelitis/chronic fatigue syndrome), AIDS(acquired immune deficiency syndrome), Stroke, CRC(colorectal cancer)의 총 6 가지 질병 중 하나를 가진 환자와, 건강한 사람(대조 샘플)에 대해 1,079 명의 개체군의 메타지놈 데이터를 수집하였다(표 5).
HIV에 대한 연구는 시퀀싱 된 평균 read의 양(89.9M)가 가장 많았지만 뇌졸중에 대한 연구에서 평균 read의 양은 4.9M로 가장 낮았다. 모든 개체 중에서 7067.68 미만의 read 개수를 가진(평균의 5% 미만) 6 명의 개체가 제거되었다. 따라서 추후 분석을 위해 총 1,073 명의 샘플(696 명의 환자와 377 개의 건강한 사람의 샘플)이 사용되었다. 1,073 개의 샘플에 대한 문, 강, 목, 과, 속 수준에서의 미생물의 양은 여러 연구로부터 데이터를 모아서 사용하기 때문에 발생하는 변동을 보정하기 위해 표준화 하였다(도 1a).
미생물이 양을 TMM 표준화 한 이후, 본 발명자들은 6 가지 질병을 가진 환자의 샘플과 건강한 환자의 샘플의 미생물 양을 비교하였다. 여러 연구에서 수집할 때 발생하는 데이터의 편향을 최소화하고자, 본 발명자들은 FDR을 통하여 각 연구의 건강한 샘플들에 차별적으로 존재하는 미생물을 제거하였다(false discovery rate(FDR) <0.05). 그 결과, 총 미생물의 평균 16%(문, 강, 목, 과, 속 수준에서 각각 5, 21, 42, 74, 199 개)가 남겨졌다(도 1b).
이후 건강한 샘플을 기준으로 미생물의 양의 전체적인 분포를 보정하기 위하여, quantile 표준화를 수행하였다.
상기 데이터 전처리 결과에 의해, 6개의 질병을 가진 696 개의 샘플의 미생물의 양이 문, 강, 목, 과, 속의 수준에서 각각 5, 21, 42, 74, 199 가지의 표준화된 미생물의 양이 이후의 질병 예측을 위한 분류 분석의 특징(feature)으로 고려되었다.
수집한 메타지놈 연구에 대한 요약
SRA_study Disease Body site # of case samples # of control samples Average reads per sample(std)
ERP010458 Stroke Gut 141 92 4.9M(0.4M)
ERP013262 JIA Gut 29 29 9.2M(2M)
ERP014628 ME/CFS Gut 49 39 52.5M(17.1M)
SRP068240 HIV1 Gut 191 33 89.9M(69.9M)
SRP073172 CRC Gut 263 141 14.2M(10.3M)
SRP075039 MS Gut 29 44 31.2M(5.5M)
2. 다섯 가지 미생물 분류체계에 따른 분류 성능
다른 분류체계의 미생물 양이 특징(feature)으로 사용되었을 때 분류 성능에 미치는 효과를 확인하기 위하여, 본 발명자들은 분류의 성능을 문, 강, 목, 과, 속 수준에서의 미생물의 양으로 구성된 feature set을 사용하여 평가하였다. 그 결과, KNN, LMT, LogitBoost, SVM 과 같은 네가지 분류기의 정확도의 평균은 더 낮은 미생물 분류체계를 사용할수록 향상됨을 확인하였다(도 2a). 구체적으로 문, 강, 목, 과, 속 수준에서의 평균 정확도는 각각 55, 69.9, 76.5, 80.4, 90.4%였다. 속(genus) 수준에서의 정확도는 문(phylum) 수준에서의 정확도보다 35.4%나 더 높았다.
반면에, 가장 높은 성능을 나타낸 분류기(LogitBoost)와 낮은 성능을 나타낸 분류기(KNN)의 정확도 차이는 11.92%였다. 위 결과로부터, 본 발명자들은 분류기에 따른 정확도 차이보다 미생물 분류체계에 따른 정확도 차이가 훨씬 크다는 것을 확인하였다.
또한, 본 발명자들은 몇몇 미생물만이 인간의 건강이나 질병과 밀접하게 관련이 있다고 밝혀져 있기 때문에, 분류에 사용된 미생물들은 질병과 연관되어 있지 않을 것이라고 가정하였다. 그리고 더 정확하게 질병을 분류하는 feature를 찾기 위해서 feature selection 과정을 수행하였다. Feature selection에서 본 발명자들은 forward selection(FS)과 backward elimination(BE) 방법을 4개의 분류기와 5개 미생물 분류체계에서의 미생물 양에 모두 적용하였다. Feature selection은 목, 과, 속의 수준에서는 정확도를 각각 2.6%, 2.4%, 및 2.7% 향상시켰으나, 문, 강 수준에서는 각각 0.6%와 0.4%의 미미한 정도만 향상시키는 것을 확인할 수 있었다(도 2b).
feature selection으로 인한 가장 높은 정확도 향상인 2.7%는 genus level의 feature를 사용할 때 이루어졌다. Feature selection으로 문, 강, 목, 과, 속 수준에서의 5, 21, 42, 74, 199개의 feature 개수를 평균 2.75, 16.5, 29.1, 45.3, 139.5개로 줄일 수 있었다(도 2c). 따라서, 가장 많은 feature의 개수가 속 수준에서 제거되었다. 정확도의 높은 향상과 줄어든 feature의 개수를 고려할 때, feature selection은 속 수준에서 가장 효과가 있음을 확인하였다.
3. 속 수준에서 분류 성능의 비교
본 발명자들은 다중 클래스 분류기와 feature selection 방법에 따른 분류 성능을 상기 2에서 다섯 가지 미생물 분류기준 중 가장 높은 성능을 보인 속 수준에서의 성능으로 비교하였다. 분류는 10-fold cross-validation(CV)을 사용하여 진행되었고, 정확도는 3번의 분류 시행에서 얻어진 10-fold CV의 평균값으로 계산되었다.
다중 클래스 분류기에 따른 분류성능의 차이
4개의 다중 클래스 분류기는 분류성능에 영향을 주었다(도 3a).
정확도의 평균은 LogitBoost(93.6%)가 가장 높았으며, LMT(92.4%), SVM(91.6%), KNN(81.5%) 순으로 높았다. 가장 정확도가 높은 다중 클래스 분류기인 LogitBoost와 가장 정확도가 낮은 다중 클래스 분류기인 KNN의 정확도 차이는 12%였다. 도 2a에서 LogitBoost와 KNN의 성능의 차이는 미생물의 분류체계가 낮아질수록 증가하였다. 상기 LogitBoost의 높은 정확도는 LogitBoost가 데이터의 상호작용을 좀 더 효율적으로 다루고, outlier에 완강 하기 때문에 높은 성능을 보인 것으로 추측된다. KNN의 경우 미생물의 개수가 적을 때에 적합한 분류기이기 때문에 상기 실험에서는 낮은 성능을 보인 것으로 해석된다. 따라서, 약 12%라는 다중 클래스 분류기 간의 높은 정확도의 차이는 속 수준에서의 많은 feature 개수 때문에 야기된 것으로 추측된다.
Feature selection 방식에 따른 분류성능의 차이
FS(forward selection)와 BE(backward elimination) 방식으로부터 최적의 features 집단을 찾았을 때, 네 가지 다중 클래스 분류기의 평균적인 정확도는 90.4%(All)에서 92.9%(FS 사용시), 93.3%(BE 사용시)로 증가하였다. 특히, KNN 알고리즘을 사용하였을 때 정확도는 81.8%(All)에서 86.7%(FS), 87.5%(BE)로 급격하게 증가하였다.
FS는 미생물을 한 개씩 넣고 가장 높은 정확도를 가진 미생물을 고른 후, 나머지 미생물들을 번갈아가면서 하나씩 넣어 최고의 정확도를 가진 미생물 집단을 형성해 나가는 방법이다. 반면, BE는 전체 미생물에서 한 개씩 제거하면서 최고의 정확도를 가진 미생물 집단을 형성해 나가는 방법이다. BE를 이용하여 최적의 정확도를 보이는 속(genus) 집단을 구성하였을 때, 더 적은 속(genus)의 종류로 더 높은 정확도를 달성할 수 있음이 확인되었다. 이러한 결과는 장내 미생물의 경우, 서로 군집을 이루고 생물학적으로 상호작용하기 때문에 상호작용을 하고 있는 미생물을 고려하면서 집단을 선택하는 BE이 미생물의 집단을 구성하는데 있어 효과적으로 작용하기 때문인 것으로 추측된다.
네 가지 다중 클래스 분류기에서, BE 방식은 LogitBoost, LMT, SVM, KNN 에서 FS 방식보다 각각 0.09%, 1.19%, 0.09%, 0.43%만큼 정확도를 더 크게 증가시켰다. LMT 분류기에서 BE 방식은 가장 효율적으로 정확도를 증가시켰다. 평균적으로 사용된 feature의 개수는 4가지 다중 클래스 분류기에서 평균적으로 199개에서 143.5(FS), 135.5(BE)로 감소되었다(도 3b). 비록 BE가 평균적으로 feature의 개수를 FS에 비해 더 많이 감소시키긴 했지만, 감소된 feature의 개수는 모든 다중 클래스 분류기에서 이런 경향을 보인 것은 아니었다. FS는 효율적으로 LogitBoost 분류기에서 feature의 개수를 감소시켰으나, BE는 LMT 분류기에서 효율적으로 feature의 개수를 감소시켰다.
요약하자면, feature selection을 행하는 것은 모든 다중 클래스 분류기에서의 분류의 전반적인 성능을 향상시키는 feature들의 조합을 얻을 수 있도록 하였다. 더 중요하게, 더 적은 개수의 feature들을 사용하여 높은 정확도로 질병을 예측할 수 있었다.
4. 6개의 질병별 정확도(false positive error rate, false negative error rate)
본 발명자들은 2개의 class로 분류할 때 사용되는 정확도, false positive rate(FPR), false negative rate(FNR) 계산 방법으로 분류의 성능을 검정하였다. 본 발명자들은 가장 높은 성능을 보인 BE 방식으로부터 얻어진 feature set으로 질병(클래스)별 분류의 성능을 조사하였다.
Figure 112019049900893-pat00001
모델은 10 배 교차 검증에 의해 평가되었고 3 번 반복되었다. 값은 평균 정확도 ± 분산을 나타냄.
그 결과, 가장 높은 성능을 가진 LogitBoost 분류기에서 질병(클래스)들의 분류 평균 정확도는 98.1%로, 전체 정확도 93.6%보다 높았다. 이러한 정확도의 증가는 2개 클래스를 분류할 때 사용되는 성능 지표를 적용하였기 때문에 발생한 높은 true negative의 개수 때문인 것으로 보인다. 이러한 이유로, FPR(1.26%)의 평균은 FNR(13.86%)의 평균 보다 낮았다. true positive가 true negative와 true positive의 합으로 나눠지는 FPR은 true negative에 반비례하기 때문에, 이 계산 방식을 사용할 때 높은 true positive로 인해 FPR이 아주 낮아진다.
여섯 가지 질병들 중에 colorectal cancer(CRC)는 가장 높은 FPR(3.7%)을 가지고 있으며, 이는 CRC가 아닌 다른 질병에 걸린 3.7%의 환자들이 CRC로 분류되었음을 의미한다. CRC의 가장 낮은 정확도(96.84%)는 높은 FPR에 의해 야기된다. 즉, 질병의 FNR이 질병의 종류에 따라 차이가 크게 나타났다.
CRC, HIV1, stroke(2.28, 0.36, 3.78%의 FNR)는 FNR이 5% 미만 이었다.그러나 JIA, ME/CFS, MS(16.09, 28.47,32.18%의 FNR)는 10% 이상의 FNR을 보였다. JIA, ME/CFS, MS 등 FNR이 높은 질병은 다른 질병으로 분류되는 경우가 더 많았다. 상기 표에서, 본 발명자들은 높은 FNR을 가진 질병이 질병들 중 가장 높은 FPR을 갖는 CRC로 분류될 가능성이 높다는 것을 관찰했다.
다른 알고리즘에서의 FPR 및 FNR이 높은 질병은 LogitBoost 알고리즘과 동일하였다. CRC는 다른 분류기에서 가장 높은 FPR과 가장 낮은 정확도를 보였다. JIA, ME/CFS 및 MS는 다른 분류기의 다른 질병에 비해 FNR이 높았다. KNN 알고리즘에서 CRC는 12.93%의 가장 높은 FPR을 보였고, 다른 클래스는 3%보다 낮은 FPR을 보였다. 또한 JIA, ME/CFS 및 MS의 FNR(34.48, 64.58 및 77.01%)은 FNR이 8% 미만인 다른 클래스의 FNR보다 높았다. 그러나 KNN에서 FPR(또는 FNR)이 높은 클래스는 LogitBoost보다 FPR(또는 FNR)이 높았다. KNN(12.93%)에서 CRC의 FPR은 LogitBoost(3.7%)보다 3 배나 높았다. KNN의 JIA, ME/CFS 및 MS(58.69%, 3 질병의 평균)의 FNR은 LogitBoost의 2 배(25.58%, 3 질병의 평균)였다.
5. 질병과 관련된 미생물 feature의 분류
본 발명자들은 Feature selection을 통해 미생물 분류 기준별로 6 개의 질병을 구분하는 feature subset을 찾아내었다. 선택된 feature들은 6 가지 질병과의 밀접한 관련성을 보여주는 feature 일 수 있으므로 각 질병을 예측하기 위한 미생물 마커(microbial marker)로 사용될 수 있다.
본 발명자들은 4 가지의 다중 클래스 분류기 x 2 가지의 feature selection 방법의 조합인 8 개의 방법이, 잠재적 바이오 마커들 중에서 어떤 속(genus)이 분류 성능에 중요한 역할을 하는지 확인하고자 feature subset에서 공통적으로 선택된 속(genus)을 조사하였다.
LogitBoost, LMT, SVM 및 KNN 분류기에서 FS, BE에서 공통적으로 선택된 feature의 수는 각각 94, 66, 120 및 116이었다(도 4). 그 중 17 개의 genus 가 4 개의 분류기 모두에서 공통적으로 확인되었다(표 7).
4 개의 분류기에서 두 가지 feature selection 방법으로부터 얻어진 완강한 genera 하위 집합.
No. Genus Logit Boost/
FS
LogitBoost
/BE
LMT/
FS
LMT/
BE
SVM/
FS
SVM/
BE
KNN/
FS
KNN/
BE
Mean of order
1 PSBM3 3 2 5 3 3 2 3 3 3
2 Candidatus Azobacteroides 6 10 7 8 10 122 5 60 28.5
3 Cetobacterium 10 19 6 25 19 31 17 154 35.125
4 Ralstonia 46 17 93 14 27 16 45 24 35.25
5 Proteus 32 3 126 15 6 27 9 78 37
6 Flavobacterium 33 7 98 51 44 17 49 7 38.25
7 Moryella 8 105 1 77 7 1 103 65 45.875
8 Citrobacter 11 89 20 5 88 7 135 13 46
9 Anaerofustis 23 6 35 73 66 26 129 36 49.25
10 Dickeya 18 26 27 10 171 11 28 111 50.25
11 Owenweeksia 52 16 95 6 8 131 68 58 54.25
12 Salmonella 22 69 99 61 49 59 125 77 70.125
13 Pediococcus 99 93 46 82 67 45 145 19 74.5
14 Variovorax 80 127 54 79 133 79 58 57 83.375
15 Leuconostoc 83 112 96 63 63 91 94 88 86.25
16 Marvinbryantia 106 156 118 43 80 113 78 89 97.875
17 Novosphingobium 51 151 121 48 90 82 116 151 101.25
상기 표 7은 상술한 4 가지의 분류기와 2 가지의 feature selection 방법 조합에 의해 선택된 17 개의 속(genera)을 나타낸다. 상기 표의 열은 "분류기/feature selection 방법"을 나타낸다. 표의 숫자는 선택 단계에서 속(genus)의 순서를 보여준다. 숫자가 낮을수록 성능 측면에서 해당 속(genera)의 중요성을 나타낸다.
본 발명자들은 상기 분류에서 이러한 속(genus)의 중요성을 더욱 명확히 하기 위해 개별 속(genus)의 순위를 면밀히 검토하였다. Feature selection 절차 중에 추가 또는 삭제되는 속(genus)의 순위는, 성능이 더 높은 feature가 먼저 추가되거나 나중에 삭제되는 경향이 있으므로 중요할 수 있다. 따라서 본 발명자들은 selection에서 속(genus)의 순위를 고려하였다. 17 개 속(genus) 중에서 PSBM3 만 199 개의 feature 중 5 순위 내로 선택되어 199개의 feature 중 5% 미만에 해당하였다. PSBM3은 Erysipelotrichaceae라고 불리는 박테리아에 속하며, 이는 면역 체계와 관련이 있는 것으로 알려져 있다. Erysipelotrichaceae는 IgA에 의해 코팅되었고 그들의 수준은 TNF-α(tumor necrosis factor alpha)의 수준과 양의 상관 관계를 가졌다. 특히, PSBM3은 염증 질환의 병인에 중요한 역할을 하는 invariant natural killer T 와 관련이 있는 것으로 알려져 있다.

Claims (14)

  1. 컴퓨터로 구현되는 미생물을 이용한 질병의 예측방법에 있어서,
    (a) 질병과 관련된 장내 미생물의 메타지놈 데이터를 수집하는 단계;
    (b) 상기 장내 미생물의 메타지놈 데이터를 표준화하는 단계;
    (c) 상기 장내 미생물의 메타지놈 데이터를 분류기 및 미생물의 분류체계 별로 질병 예측 모델의 정확도 비교하여, 가장 예측 정확도가 높은 분류기 및 미생물의 분류체계 조합을 선택하는 단계;
    (d) 상기 조합에서 특징 선택(feature selection)을 수행하여 질병 별 질병 예측 정확도가 높은 미생물의 집단을 도출하는 단계; 및
    (e) 상기 미생물 집단 데이터를 이용하여 질병을 예측하는 단계를 포함하고,
    상기 표준화의 방법은 TMM 표준화(Trimmed mean of M-values normalization) 및 Quantile 표준화(Quantile normalization)이고,
    상기 분류기는 LogitBoost, LMT(logistic model tree), SVM(support vector machine) 또는 KNN(K-Nearest Neighbor) 분류기이고,
    상기 LogitBoost 분류기의 파라미터는 I이고, 1 내지 40 사이의 정수이며,
    상기 SVM(support vector machine) 분류기의 파라미터는 G 및 C이고, G는 1e-4, 1e-3, 1e-2, 1e-1, 1, 또는 10 중에서 선택되고, C는 0.1, 1, 10, 100, 및 1000 중에서 선택되며,
    상기 KNN(K-Nearest Neighbor) 분류기의 파라미터는 K이고, 3, 5, 7, 9, 11, 13, 및 15 중에서 선택되며,
    상기 분류기의 파라미터는 미생물의 각 분류체계 별로 가장 높은 정확도를 나타내는 것으로 선택되고,
    상기 질병은 MS(multiple sclerosis), JIA(juvenile idiopathic arthritis), ME/CFS(myalgic encephalomyelitis/chronic fatigue syndrome), AIDS(acquired immune deficiency syndrome), Stroke, 및 CRC(colorectal cancer)를 포함하는 6종의 질병인 것인, 질병의 예측방법.
  2. 제1항에 있어서, 상기 미생물은 장내 미생물인 것인, 질병의 예측방법.
  3. 삭제
  4. 삭제
  5. 제1항에 있어서, 상기 표준화의 방법이 TMM 표준화인 경우, FDR(false discovery rate)가 5% 이하가 되도록 다중검정 오류를 보정한 것인, 질병의 예측방법.
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 제1항에 있어서, 상기 특징 선택은 FS(forward selection) 방식 또는 BE(backward elimination) 방식인 것인, 질병의 예측방법.
  13. 컴퓨터 시스템과 결합되어 미생물을 이용한 질병의 예측방법을 실행시키기 위해 컴퓨터 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램에 있어서, 상기 미생물을 이용한 질병의 예측방법은,
    (a) 질병과 관련된 장내 미생물의 메타지놈 데이터를 수집하는 단계;
    (b) 상기 장내 미생물의 메타지놈 데이터를 표준화하는 단계;
    (c) 상기 장내 미생물의 메타지놈 데이터를 분류기 및 미생물의 분류체계 별로 질병 예측 모델의 정확도 비교하여, 가장 예측 정확도가 높은 분류기 및 미생물의 분류체계 조합을 선택하는 단계;
    (d) 상기 조합에서 특징 선택(feature selection)을 수행하여 질병 별 질병 예측 정확도가 높은 미생물의 집단을 도출하는 단계; 및
    (e) 상기 미생물 집단 데이터를 이용하여 질병을 예측하는 단계를 포함하고,
    상기 표준화의 방법은 TMM 표준화(Trimmed mean of M-values normalization) 및 Quantile 표준화(Quantile normalization)이고,
    상기 분류기는 LogitBoost, LMT(logistic model tree), SVM(support vector machine) 또는 KNN(K-Nearest Neighbor) 분류기이고,
    상기 LogitBoost 분류기의 파라미터는 I이고, 1 내지 40 사이의 정수이며,
    상기 SVM(support vector machine) 분류기의 파라미터는 G 및 C이고, G는 1e-4, 1e-3, 1e-2, 1e-1, 1, 또는 10 중에서 선택되고, C는 0.1, 1, 10, 100, 및 1000 중에서 선택되며,
    상기 KNN(K-Nearest Neighbor) 분류기의 파라미터는 K이고, 3, 5, 7, 9, 11, 13, 및 15 중에서 선택되며,
    상기 분류기의 파라미터는 미생물의 각 분류체계 별로 가장 높은 정확도를 나타내는 것으로 선택되고,
    상기 질병은 MS(multiple sclerosis), JIA(juvenile idiopathic arthritis), ME/CFS(myalgic encephalomyelitis/chronic fatigue syndrome), AIDS(acquired immune deficiency syndrome), Stroke, 및 CRC(colorectal cancer)를 포함하는 6종의 질병인 것인, 컴퓨터 프로그램.
  14. 컴퓨터로 구현되는 미생물을 이용한 질병의 예측시스템에 있어서,
    컴퓨터가 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하고,
    상기 적어도 하나의 프로세서는,
    (a) 질병과 관련된 장내 미생물의 메타지놈 데이터를 수집하고;
    (b) 상기 장내 미생물의 메타지놈 데이터를 표준화하고;
    (c) 상기 장내 미생물의 메타지놈 데이터를 분류기 및 미생물의 분류체계 별로 질병 예측 모델의 정확도 비교하여, 가장 예측 정확도가 높은 분류기 및 미생물의 분류체계 조합을 선택하고;
    (d) 상기 조합에서 특징 선택(feature selection)을 수행하여 질병 별 질병 예측 정확도가 높은 미생물의 집단을 도출하고; 및
    (e) 상기 미생물 집단 데이터를 이용하여 질병을 예측하는 것을 특징으로하고,
    상기 표준화의 방법은 TMM 표준화(Trimmed mean of M-values normalization) 및 Quantile 표준화(Quantile normalization)이고,
    상기 분류기는 LogitBoost, LMT(logistic model tree), SVM(support vector machine) 또는 KNN(K-Nearest Neighbor) 분류기이고,
    상기 LogitBoost 분류기의 파라미터는 I이고, 1 내지 40 사이의 정수이며,
    상기 SVM(support vector machine) 분류기의 파라미터는 G 및 C이고, G는 1e-4, 1e-3, 1e-2, 1e-1, 1, 또는 10 중에서 선택되고, C는 0.1, 1, 10, 100, 및 1000 중에서 선택되며,
    상기 KNN(K-Nearest Neighbor) 분류기의 파라미터는 K이고, 3, 5, 7, 9, 11, 13, 및 15 중에서 선택되며,
    상기 분류기의 파라미터는 미생물의 각 분류체계 별로 가장 높은 정확도를 나타내는 것으로 선택되고,
    상기 질병은 MS(multiple sclerosis), JIA(juvenile idiopathic arthritis), ME/CFS(myalgic encephalomyelitis/chronic fatigue syndrome), AIDS(acquired immune deficiency syndrome), Stroke, 및 CRC(colorectal cancer)를 포함하는 6종의 질병인 것인, 질병의 예측시스템.
KR1020190057214A 2019-05-15 2019-05-15 장내 미생물을 이용한 질병의 예측방법 및 시스템 KR102273311B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190057214A KR102273311B1 (ko) 2019-05-15 2019-05-15 장내 미생물을 이용한 질병의 예측방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190057214A KR102273311B1 (ko) 2019-05-15 2019-05-15 장내 미생물을 이용한 질병의 예측방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20200133067A KR20200133067A (ko) 2020-11-26
KR102273311B1 true KR102273311B1 (ko) 2021-07-07

Family

ID=73679231

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190057214A KR102273311B1 (ko) 2019-05-15 2019-05-15 장내 미생물을 이용한 질병의 예측방법 및 시스템

Country Status (1)

Country Link
KR (1) KR102273311B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230106239A (ko) 2022-01-06 2023-07-13 경상국립대학교산학협력단 반려견의 종양질환 진단 방법

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102578552B1 (ko) 2021-07-14 2023-09-15 주식회사 아이도트 질환 자동 진단을 위한 학습 데이터 생성 방법 및 그를 이용한 질환 자동 진단 시스템
WO2023056341A1 (en) * 2021-09-29 2023-04-06 The Regents Of The University Of California Systems and methods for microbiome therapeutics

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Pereira et al., Comparison of normalization methods for the analysis of metagenomic gene abundance data. BMC Genomics. 2018, Vol. 19, No. 274, https://doi.org/10.1186/s12864-018-4637-6 1부.*
Wu et al., Metagenomics Biomarkers Selected for Prediction of Three Different Diseases in Chinese Population. BioMed Research International. 11 January 2018, Volume 2018, Article ID 2936257, https://doi.org/10.1155/2018/2936257 1부.*

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230106239A (ko) 2022-01-06 2023-07-13 경상국립대학교산학협력단 반려견의 종양질환 진단 방법

Also Published As

Publication number Publication date
KR20200133067A (ko) 2020-11-26

Similar Documents

Publication Publication Date Title
Tampuu et al. ViraMiner: Deep learning on raw DNA sequences for identifying viral genomes in human samples
Smith et al. Analysis of phylogenomic datasets reveals conflict, concordance, and gene duplications with examples from animals and plants
KR102273311B1 (ko) 장내 미생물을 이용한 질병의 예측방법 및 시스템
Deneke et al. PaPrBaG: A machine learning approach for the detection of novel pathogens from NGS data
US11482305B2 (en) Artificial intelligence analysis of RNA transcriptome for drug discovery
US8798937B2 (en) Methods for optimizing and using medical diagnostic classifiers based on genetic algorithms
KR20230084319A (ko) 심층 컨볼루션 신경망을 트레이닝하기 위한 심층 학습-기반 기술
US20230222311A1 (en) Generating machine learning models using genetic data
CN112466404B (zh) 一种宏基因组重叠群无监督聚类方法及系统
Yang et al. Unsupervised binning of environmental genomic fragments based on an error robust selection of l-mers
Zhu et al. Identification of full and partial class relevant genes
Girgis MeShClust v3. 0: high-quality clustering of DNA sequences using the mean shift algorithm and alignment-free identity scores
Chen et al. Human disease prediction from microbiome data by multiple feature fusion and deep learning
CN114582429A (zh) 基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置
Anyaso-Samuel et al. Metagenomic geolocation prediction using an adaptive ensemble classifier
CN111944902A (zh) 一种基于lincRNA表达谱组合特征的肾乳头状细胞癌早期预测方法
CN114317725B (zh) 克罗恩病生物标志物、试剂盒及生物标志物的筛选方法
Tanaseichuk et al. A probabilistic approach to accurate abundance-based binning of metagenomic reads
Chitode et al. A comparative study of microarray data analysis for cancer classification
CN1957353A (zh) 用于优化基于基因组学的医学诊断测试的遗传算法
Anand et al. Building an intelligent integrated method of gene selection for facioscapulohumeral muscular dystrophy diagnosis
Wang et al. A network-based integrated framework for predicting virus-host interactions with applications
Krachunov et al. Machine learning-driven noise separation in high variation genomics sequencing datasets
Bible et al. DeepMicrobes: taxonomic classification for metagenomics with deep learning
Asgari et al. A New Approach for Scalable Analysis of Microbial Communities

Legal Events

Date Code Title Description
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant