KR20220068866A

KR20220068866A - 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법

Info

Publication number: KR20220068866A
Application number: KR1020210000099A
Authority: KR
Inventors: 이범재; 김남주; 김정안
Original assignee: 고려대학교 산학협력단
Priority date: 2020-11-19
Filing date: 2021-01-04
Publication date: 2022-05-26

Abstract

본 발명은 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법을 공개한다. 이 방법은 장내 점막에서 메타게놈 분석을 수행하는 단계; 상기 수행한 메타게놈 분석 결과 제시된 미생물에 대한 비율이 매트릭스로 산출되는 단계; 상기 매트릭스에서 각 질병 분류군을 설명하는 미생물 종의 비율을 산출하는 단계; 상기 산출된 미생물 종의 비율을 시각화하는 단계;를 포함하고, 상기 메타게놈 분석 결과를 바탕으로 기계학습 기법을 이용하여 장내 질병의 위험을 예측하는 것을 특징으로 한다. 본 발명에 의할 경우, 장내 점막에서 채취한 샘플을 이용하므로 분변을 이용한 검사로 분변의 특성상 식생활 패턴, 약제 복용 등 외부 환경의 변함에 따른 변형이 적고, 질병 진단의 일관성이 획기적으로 개선되게 된다. 또한, 각 질병 분류군을 정확하게 설명하는 비율을 선정하고 시각화함으로써, 질병 진단의 신뢰성과 정확성을 향상시킬 수 있다.

Description

기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법{A method for classifying disease taxa by microorganisms using machine learning method}

본 발명은 미생물에 의한 질병 분류군의 분류 방법에 관한 것으로서, 보다 상세하게는 장내 점막에서의 메타게놈 분석 결과 각 질병 분류군을 정확하게 설명하는 미생물의 종, 또는 속 이상의 분류단계를 기계학습 기법을 이용하여 찾는 방법에 관한 것이다.

현재 장 유래 샘플에서의 메타게놈 분석 기술은 10 여년 전 네이처 저널에 소개된 이후 많은 후속 연구가 진행되고 있다.

특히, 장내 미생물의 불균형에 따른 인체 질환의 진단법은 많은 논문과 특허 문서를 통해 제시되고 있다.

예를 들어, 국내등록특허 제10-1915360호는 아토피 피부염 진단을 위한 특정 미생물 종을 검출하는 방법에 관한 기술이고, 유럽등록특허 EP 2955232 B1은 대변 샘플에서의 미생물 군집에 따른 대장암의 진단법에 관한 기술이며, 미국공개특허 US 2019-0136299 A1은 진단기준과 클러스터링(clustering) 결과에 관한 기술이 제시되었다.

하지만, 상기 종래 기술들은 분변을 이용한 검사로 분변의 특성상 식생활 패턴, 약제 복용 등 외부 환경의 변함에 따른 변형(variation)이 심한 단점이 있어서, 정확하고 효율적인 질병 진단의 일관성이 유지되지 않는 한계가 있었다.

한국등록특허 제10-1915360호

본 발명의 목적은 메타게놈 분석 결과를 바탕으로 기계학습 기법 중 결정 트리와 랜덤 포레스트를 적용하여 장내 질병의 위험을 예측하는 마커를 발굴함으로써, 미생물에 대한 각 질병 분류군을 정확하게 분류할 수 있는 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법을 제공하는 데 있다.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허청구범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

상기 목적을 달성하기 위한 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법은 장내 점막에서 메타게놈 분석을 수행하는 단계; 상기 수행한 메타게놈 분석 결과 제시된 미생물에 대한 비율이 매트릭스로 산출되는 단계; 상기 매트릭스에서 각 질병 분류군을 설명하는 미생물 종의 비율을 산출하는 단계; 상기 산출된 미생물 종의 비율을 시각화하는 단계;를 포함하고, 상기 메타게놈 분석 결과를 바탕으로 기계학습 기법을 이용하여 장내 질병의 위험을 예측하는 것을 특징으로 한다.

상기 목적을 달성하기 위한 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법의 상기 기계학습 기법은, 결정 트리 및 랜덤 포레스트를 적용하는 것을 특징으로 한다.

상기 목적을 달성하기 위한 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법의 상기 기계학습 기법은, 동일한 미생물종이 검출되는 질환 중에서 미생물 종 비율에 대해 결정 트리 및 랜덤 포레스트를 적용하여 질환 중 어느 하나로 분류하는 것을 특징으로 한다.

상기 목적을 달성하기 위한 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법은 상기 (c) 단계와 상기 (d) 단계 사이에, 장내 미생물균총에서 Bacteroides vulgatus, Tyzzerella nexilis 및 Lachnoclostridium pacaense의 함량을 확인하여 상기 결정 트리 및 상기 랜덤 포레스트를 적용하는 단계;를 더 포함하는 것을 특징으로 한다.

상기 목적을 달성하기 위한 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법은 상기 Bacteroides vulgatus의 함량이 정상보다 낮은 경우 고위험 대장선종, 진행성 대장암 및 궤양성 대장염으로 진단하는 것을 특징으로 한다.

상기 목적을 달성하기 위한 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법은 상기 Bacteroides vulgatus의 함량이 0.02% 초과인 경우 정상으로 진단하고, 0.02% 이하인 경우 고위험 대장선종, 진행성 대장암, 및 궤양성 대장염으로 진단하는 것을 특징으로 한다.

상기 목적을 달성하기 위한 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법은 상기 Bacteroides vulgatus의 함량이 0.02% 이하이고, 상기 Tyzzerella nexilis의 함량이 0.000759% 이상인 경우 진행성 선종으로 진단하는 것을 특징으로 한다.

상기 목적을 달성하기 위한 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법은 상기 Bacteroides vulgatus의 함량이 0.02% 이하이고, 상기 Tyzzerella nexilis의 함량이 0.000759% 미만이며, 상기 Lachnoclostridium pacaense의 함량이 0.000536% 초과인 경우 궤양성 대장염으로 진단하는 것을 특징으로 한다.

상기 목적을 달성하기 위한 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법은 상기 Bacteroides vulgatus의 함량이 0.02% 이하이고, 상기 Tyzzerella nexilis의 함량이 0.000759% 미만이며, 상기 Lachnoclostridium pacaense의 함량이 0.000536% 이하인 경우 진행성 대장암으로 진단하는 것을 특징으로 한다.

기타 실시예의 구체적인 사항은 "발명을 실시하기 위한 구체적인 내용" 및 첨부 "도면"에 포함되어 있다.

본 발명의 이점 및/또는 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 각종 실시예를 참조하면 명확해질 것이다.

그러나, 본 발명은 이하에서 개시되는 각 실시예의 구성만으로 한정되는 것이 아니라 서로 다른 다양한 형태로도 구현될 수도 있으며, 단지 본 명세서에서 개시한 각각의 실시예는 본 발명의 게시가 완전하도록 하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구범위의 각 청구항의 범주에 의해 정의될 뿐임을 알아야 한다.

본 발명에 의할 경우, 장내 점막에서 채취한 샘플을 이용하므로 분변을 이용한 검사로 분변의 특성상 식생활 패턴, 약제 복용 등 외부 환경의 변함에 따른 변형이 적고, 질병 진단의 일관성이 획기적으로 개선되게 된다.

또한, 각 질병 분류군을 정확하게 설명하는 비율을 선정하고 시각화함으로써, 질병 진단의 신뢰성과 정확성을 향상시킬 수 있다.

도 1은 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법의 동작을 설명하기 위한 순서도이다.
도 2 내지 도 7은 본 발명의 일 실시예에 따라 미생물의 종, 속, 과, 목, 강, 문 각각에 대한 고위험 대장선종, 진행성 대장암, 궤양성 대장염, 정상 대조군 각각을 설명하는 결정 트리(decision tree)를 도시한 도면이다.
도 8은 본 발명의 일 실시예에 따라 입력 데이터의 일부에 대하여, 각 종이 전체 미생물 군집 중 차지하는 비율을 나타낸 표이다.
도 9는 본 발명의 일 실시예에 따라 ANOVA 기법을 이용해 각 질병 분류군을 정확하게 설명하는 비율을 선정하고 시각화한 도면이다.
도 10은 본 발명의 다른 실시예에 따라 고위험 대장선종, 진행성 대장암, 궤양성 대장염, 정상 대조군 각각을 설명하는 결정 트리(decision tree) 및 랜덤 포레스트(random forest)를 통하여 설문지 정보로부터 중요한 인자를 발굴하는 방법을 도시한 도면이다.
도 11은 본 발명의 다른 실시예에 따라 결정 트리 개수 대비 설문지 정보의 에러값을 나타낸 그래프이다.
도 12는 본 발명의 다른 실시예에 따라 평균 감소값 대비 설문지 정보 중 27개의 변수들 간의 상관 관계를 나타낸 그래프이다.

이하, 첨부한 도면을 참고로 하여 본 발명의 바람직한 실시예에 대하여 상세히 설명하면 다음과 같다.

본 발명을 상세하게 설명하기 전에, 본 명세서에서 사용된 용어나 단어는 통상적이거나 사전적인 의미로 무조건 한정하여 해석되어서는 아니 되며, 본 발명의 발명자가 자신의 발명을 가장 최선의 방법으로 설명하기 위해서 각종 용어의 개념을 적절하게 정의하여 사용할 수 있다.

더 나아가 이들 용어나 단어는 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 함을 알아야 한다.

즉, 본 명세서에서 사용된 용어는 본 발명의 바람직한 실시예를 설명하기 위해서 사용되는 것일 뿐이고, 본 발명의 내용을 구체적으로 한정하려는 의도로 사용된 것이 아니다.

이들 용어는 본 발명의 여러 가지 가능성을 고려하여 정의된 용어임을 알아야 한다.

또한, 본 명세서에 있어서, 단수의 표현은 문맥상 명확하게 다른 의미로 지시하지 않는 이상, 복수의 표현을 포함할 수 있다.

또한, 유사하게 복수로 표현되어 있다고 하더라도 단수의 의미를 포함할 수 있음을 알아야 한다.

본 명세서의 전체에 걸쳐서 어떤 구성 요소가 다른 구성 요소를 "포함"한다고 기재하는 경우에는, 특별히 반대되는 의미의 기재가 없는 한 임의의 다른 구성 요소를 제외하는 것이 아니라 임의의 다른 구성 요소를 더 포함할 수도 있다는 것을 의미할 수 있다.

더 나아가서, 어떤 구성 요소가 다른 구성 요소의 "내부에 존재하거나, 연결되어 설치된다"고 기재한 경우에는, 이 구성 요소가 다른 구성 요소와 직접적으로 연결되어 있거나 접촉하여 설치되어 있을 수 있다.

또한, 일정한 거리를 두고 이격되어 설치되어 있을 수도 있으며, 일정한 거리를 두고 이격되어 설치되어 있는 경우에 대해서는 해당 구성 요소를 다른 구성 요소에 고정 내지 연결시키기 위한 제 3의 구성 요소 또는 수단이 존재할 수 있다.

한편, 상기 제 3의 구성 요소 또는 수단에 대한 설명은 생략될 수도 있음을 알아야 한다.

반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결"되어 있다거나, 또는 "직접 접속"되어 있다고 기재되는 경우에는, 제 3의 구성 요소 또는 수단이 존재하지 않는 것으로 이해하여야 한다.

마찬가지로, 각 구성 요소 간의 관계를 설명하는 다른 표현들, 즉 " ~ 사이에"와 "바로 ~ 사이에", 또는 " ~ 에 이웃하는"과 " ~ 에 직접 이웃하는" 등도 마찬가지의 취지를 가지고 있는 것으로 해석되어야 한다.

또한, 본 명세서에 있어서 "일면", "타면", "일측", "타측", "제 1", "제 2" 등의 용어는, 하나의 구성 요소에 대해서 이 하나의 구성 요소가 다른 구성 요소로부터 명확하게 구별될 수 있도록 하기 위해서 사용된다.

하지만, 이와 같은 용어에 의해서 해당 구성 요소의 의미가 제한적으로 사용되는 것은 아님을 알아야 한다.

또한, 본 명세서에서 "상", "하", "좌", "우" 등의 위치와 관련된 용어는, 사용된다면, 해당 구성 요소에 대해서 해당 도면에서의 상대적인 위치를 나타내고 있는 것으로 이해하여야 한다.

또한, 이들의 위치에 대해서 절대적인 위치를 특정하지 않는 이상은, 이들 위치 관련 용어가 절대적인 위치를 언급하고 있는 것으로 이해하여서는 아니 된다.

더욱이, 본 발명의 명세서에서는, "부", "기", "모듈", "장치" 등의 용어는, 사용된다면, 하나 이상의 기능이나 동작을 처리할 수 있는 단위를 의미한다.

이는 하드웨어 또는 소프트웨어, 또는 하드웨어와 소프트웨어의 결합으로 구현될 수 있음을 알아야 한다.

본 명세서에 첨부된 도면에서 본 발명을 구성하는 각 구성 요소의 크기, 위치, 결합 관계 등은 본 발명의 사상을 충분히 명확하게 전달할 수 있도록 하기 위해서 또는 설명의 편의를 위해서 일부 과장 또는 축소되거나 생략되어 기술되어 있을 수 있고, 따라서 그 비례나 축척은 엄밀하지 않을 수 있다.

또한, 이하에서, 본 발명을 설명함에 있어서, 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 구성, 예를 들어, 종래 기술을 포함하는 공지 기술에 대한 상세한 설명은 생략될 수도 있다.

도 1은 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법의 동작을 설명하기 위한 순서도이다.

도 2 내지 도 7은 본 발명의 일 실시예에 따라 미생물의 종, 속, 과, 목, 강, 문 각각에 대한 고위험 대장선종, 진행성 대장암, 궤양성 대장염, 정상 대조군 각각을 설명하는 결정 트리(decision tree)를 도시한 도면으로서, A는 고위험 대장선종, CL은 진행성 대장암, UL은 궤양성 대장염, W는 정상 대조군을 나타낸다.

도 8은 본 발명의 일 실시예에 따라 입력 데이터의 일부에 대하여, 각 종이 전체 미생물 군집 중 차지하는 비율을 나타낸 표이다.

도 2 내지 도 7에서 보는 바와 같이, 장내 점막(또는 다른 조직, 분변도 가능)에서 수행한 메타게놈 분석(metagenome sequencing) 결과, 제시된 미생물의 종, 속, 과, 목, 강, 문에 대한 비율이 매트릭스(matrix)로 산출된다.

그 다음, 이 매트릭스에서 각 질병 분류군을 정확하게 설명하는 미생물의 종(또는 상위 분류군)의 비율을 뽑아내고 시각화한다.

도 2에서, 결정 노드의 첫째 줄은 4가지 질병 분류군 중 가장 많은 질병 분류군을 나타내고, 비율에 따라 색상의 진하기가 다르게 도시된다.

또한, 결정 노드의 둘째 줄은 4가지 질병 분류군에 속하는 각 샘플 수이고, 순서대로 고위험 대장선종, 진행성 대장암, 궤양성 대장염, 정상 대조군 각각을 나타낸다.

또한, 결정 노드 아래 조건은 조건에 해당되면 왼쪽 결정 노드로 분류되고, 조건에 해당되지 않으면 오른쪽 결정 노드로 분류된다.

본 발명의 기계학습 기법은 동일한 미생물종이 검출되는 질환 중에서 미생물 종 비율에 대해 결정 트리 및 랜덤 포레스트를 적용하여 질환 중 어느 하나로 분류된다.

예를 들어, 도 2에서, 결정 트리는 3 개의 결정 노드로 구성되어 있다.

즉, 가장 상위 레벨의 결정 노드인 제1 미생물균 예를 들어, Bacteroides vulgatus는 1차적으로 정상 대조군 또는 진행성 대장암을 분류하는 균의 기준이 되고, 그 다음 레벨의 두번째 결정 노드인 제2 미생물균 예를 들어, Tyzzerella nexilis는 진행성 대장암 또는 고위험 대장선종을 분류하는 균의 기준이 되며, 제3 미생물균 예를 들어, Lachnoclostridium pacaense는 진행성 대장암 또는 궤양성 대장염을 분류하는 균의 기준이 된다.

도 2에서 보는 바와 같이, Bacterides vulgatus 종의 비율이 전체 비율의 0.0296 (2.96%) 이상인 경우 전체 정상(W) 13명 중 10명이 최종 결정 노드인 세번째 결정 노드로 곧바로 분류되었다.

가장 오른쪽의 최종 결정 노드는 주로 정상 대조군(W) 샘플들로 구성이 되어 있으며, 총 18명 중 10명이 정상이었다.

Tyzzerella nexilis 종의 비율이 전체 비율의 0.000759 (0.0759%) 이상인 경우 총 12명의 고위험 대장선종(A) 환자 중 7명이 가장 왼쪽의 최종 결정 노드로 분류되었다.

Lachnoclostridium pacaense 종의 비율이 전체 비율의 0.000536 (0.0536%) 비율 이상일 경우 궤양성 대장염, 미만일 경우 진행성 대장암으로 분류되었다.

이에 따라, 도 8에서 보는 바와 같이, 메타게놈 분석 결과 총 528종이 검출되었으며, 각 종들의 샘플별 비율이 산출되었다.

도 8에서, 각 행의 제목은 종, 각 열의 제목은 검체명을 나타내고, 기타 분류 포함 총 529행으로 이루어져 있다.

또한, R에서의 분석을 위해 데이터 프레임 형태로 불러오고, 분류는 R의 rpart 패키지를 활용하였다.

도 9는 본 발명의 일 실시예에 따라 ANOVA 기법을 이용해 각 질병 분류군을 정확하게 설명하는 비율을 선정하고 시각화한 도면이다.

도 9에서 보는 바와 같이, p-value는 0.03 이하인 결과들이고, 궤양성 대장염 및 정상 대조군, 고위험 대장선종 및 진행성 대장암이 약한 클러스터링이 되는 것을 확인하였다.

이때, 시각화는 R의 pheatmap 패키지로 수행하였다.

도 10은 본 발명의 다른 실시예에 따라 고위험 대장선종, 진행성 대장암, 궤양성 대장염, 정상 대조군 각각을 설명하는 결정 트리(decision tree) 및 랜덤 포레스트(random forest)를 통하여 설문지 정보로부터 중요한 인자를 발굴하는 방법을 도시한 도면으로서, A는 고위험 대장선종, CL은 진행성 대장암, UL은 궤양성 대장염, W는 정상 대조군을 나타낸다.

도 11은 본 발명의 다른 실시예에 따라 결정 트리 개수 대비 설문지 정보의 에러값을 나타낸 그래프이다.

도 12는 본 발명의 다른 실시예에 따라 평균 감소값 대비 설문지 정보 중 27개의 변수들 간의 상관 관계를 나타낸 그래프이다.

도 10에서 보는 바와 같이, 결정 트리에서, 정신건강 지표(SA)가 낮을수록 고위험 대장선종으로 분류되었고, 애완동물 사육기간이 길수록 정상 대조군으로 분류되었다.

또한, 잡곡 섭취가 낮을수록 진행성 대장암으로 분류되었고, 멸치 섭취가 많을수록 진행성 대장암에 비해 고위험 대장선종으로 분류되는 경향이 확인되었다.

즉, 랜덤 포레스트를 통해서 4가지 분류군을 가장 잘 설명하는 설문지 정보를 찾은 결과, 총 27개의 변수들이 확인되었으며, 각 변수들을 중요한 순서대로 나열하면 아래와 같다.

SA, CESD 정신건강 지표, 요구르트, 연령, 약물 복용, 배변 습관 변이, 음주량, 질병 과거력, 탄산 음료, 식후 포만감, 누적 담배, 두부 섭취, 튀긴 음식, 잡곡, 소주, 피곤 정도, 상복부 팽만감, 미역, 녹차, 혈변, 대변의 형상, 수면 시간, 쇠고기, 콩, 대변 횟수, 오징어, 고구마 순이다.

이와 같이, 본 발명은 메타게놈 분석 결과를 바탕으로 기계학습 기법 중 결정 트리와 랜덤 포레스트를 적용하여 장내 질병의 위험을 예측하는 마커를 발굴함으로써, 미생물에 대한 각 질병 분류군을 정확하게 분류할 수 있는 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법을 제공한다.

이를 통하여, 본 발명은 장내 점막에서 채취한 샘플을 이용하므로 분변을 이용한 검사로 분변의 특성상 식생활 패턴, 약제 복용 등 외부 환경의 변함에 따른 변형이 적고, 질병 진단의 일관성이 획기적으로 개선되게 된다.

또한, 각 질병 분류군을 정확하게 설명하는 비율을 선정하고 시각화함으로써, 질병 진단의 신뢰성과 정확성을 향상시킬 수 있게 된다.

이상, 일부 예를 들어서 본 발명의 바람직한 여러 가지 실시예에 대해서 설명하였지만, 본 "발명을 실시하기 위한 구체적인 내용" 항목에 기재된 여러 가지 다양한 실시예에 관한 설명은 예시적인 것에 불과한 것이며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 이상의 설명으로부터 본 발명을 다양하게 변형하여 실시하거나 본 발명과 균등한 실시를 행할 수 있다는 점을 잘 이해하고 있을 것이다.

또한, 본 발명은 다른 다양한 형태로 구현될 수 있기 때문에 본 발명은 상술한 설명에 의해서 한정되는 것이 아니며, 이상의 설명은 본 발명의 개시 내용이 완전해지도록 하기 위한 것으로 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이며, 본 발명은 청구범위의 각 청구항에 의해서 정의될 뿐임을 알아야 한다.

A: 고위험 대장선종
CL: 진행성 대장암
UL: 궤양성 대장염
W: 정상 대조군

Claims

(a) 장내 점막에서 메타게놈 분석을 수행하는 단계;
(b) 상기 수행한 메타게놈 분석 결과, 제시된 미생물에 대한 비율이 매트릭스로 산출되는 단계;
(c) 상기 매트릭스에서 각 질병 분류군을 설명하는 미생물 종의 비율을 산출하는 단계; 및
(d) 상기 산출된 미생물 종의 비율을 시각화하는 단계;
를 포함하고,
상기 메타게놈 분석 결과를 바탕으로 기계학습 기법을 이용하여 장내 질병의 위험을 예측하며,
상기 기계학습 기법은,
상기 각 질병 분류군 중 가장 많은 질병 분류군이 첫째 줄에 기재되고, 상기 각 질병 분류군에 속하는 각 샘플 수가 둘째 줄에 기재되는 결정 노드를 포함하는 결정 트리를 적용하는 것을 특징으로 하는,
기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
제1항에 있어서,
상기 기계학습 기법은,
상기 결정 트리 외에 랜덤 포레스트를 적용하는 것을 특징으로 하는,
기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
제2항에 있어서,
상기 기계학습 기법은,
동일한 미생물종이 검출되는 질환 중에서 미생물 종 비율에 대해 상기 결정 트리 및 상기 랜덤 포레스트를 적용하여 질환 중 어느 하나로 분류하는 것을 특징으로 하는,
기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
제2항에 있어서,
상기 (c) 단계와 상기 (d) 단계 사이에,
장내 미생물균총에서 Bacteroides vulgatus, Tyzzerella nexilis 및 Lachnoclostridium pacaense의 함량을 확인하여 상기 결정 트리 및 상기 랜덤 포레스트를 적용하는 단계;
를 더 포함하는 것을 특징으로 하는,
기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
제4항에 있어서,
상기 Bacteroides vulgatus의 함량이 정상보다 낮은 경우 고위험 대장선종, 진행성 대장암 및 궤양성 대장염으로 진단하는 것을 특징으로 하는,
기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
제4항에 있어서,
상기 Bacteroides vulgatus의 함량이 0.02% 초과인 경우 정상으로 진단하고, 0.02% 이하인 경우 고위험 대장선종, 진행성 대장암, 및 궤양성 대장염으로 진단하는 것을 특징으로 하는,
기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
제4항에 있어서,
상기 Bacteroides vulgatus의 함량이 0.02% 이하이고,
상기 Tyzzerella nexilis의 함량이 0.000759% 이상인 경우 진행성 선종으로 진단하는 것을 특징으로 하는,
기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
제4항에 있어서,
상기 Bacteroides vulgatus의 함량이 0.02% 이하이고,
상기 Tyzzerella nexilis의 함량이 0.000759% 미만이며,
상기 Lachnoclostridium pacaense의 함량이 0.000536% 초과인 경우 궤양성 대장염으로 진단하는 것을 특징으로 하는,
기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
제4항에 있어서,
상기 Bacteroides vulgatus의 함량이 0.02% 이하이고,
상기 Tyzzerella nexilis의 함량이 0.000759% 미만이며,
상기 Lachnoclostridium pacaense의 함량이 0.000536% 이하인 경우 진행성 대장암으로 진단하는 것을 특징으로 하는,
기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
제1항에 있어서,
상기 결정 트리는,
제1 미생물균이 정상 대조군 또는 진행성 대장암을 분류하는 균의 기준이 되는 결정 노드;
제2 미생물균이 진행성 대장암 또는 고위험 대장선종을 분류하는 균의 기준이 되는 결정 노드; 및
제3 미생물균이 진행성 대장암 또는 궤양성 대장염을 분류하는 균의 기준이 되는 결정 노드;
를 포함하는 것을 특징으로 하는,
기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.