KR20220068866A - 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법 - Google Patents
기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법 Download PDFInfo
- Publication number
- KR20220068866A KR20220068866A KR1020210000099A KR20210000099A KR20220068866A KR 20220068866 A KR20220068866 A KR 20220068866A KR 1020210000099 A KR1020210000099 A KR 1020210000099A KR 20210000099 A KR20210000099 A KR 20210000099A KR 20220068866 A KR20220068866 A KR 20220068866A
- Authority
- KR
- South Korea
- Prior art keywords
- disease
- taxa
- machine learning
- microorganisms
- content
- Prior art date
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 58
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 58
- 244000005700 microbiome Species 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000010801 machine learning Methods 0.000 title claims abstract description 36
- 238000003745 diagnosis Methods 0.000 claims abstract description 10
- 210000004347 intestinal mucosa Anatomy 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims abstract description 8
- 208000028774 intestinal disease Diseases 0.000 claims abstract description 5
- 206010009944 Colon cancer Diseases 0.000 claims description 25
- 208000001333 Colorectal Neoplasms Diseases 0.000 claims description 25
- 206010009900 Colitis ulcerative Diseases 0.000 claims description 18
- 201000006704 Ulcerative Colitis Diseases 0.000 claims description 18
- 201000002758 colorectal adenoma Diseases 0.000 claims description 18
- 238000003066 decision tree Methods 0.000 claims description 18
- 241000606215 Bacteroides vulgatus Species 0.000 claims description 13
- 238000007637 random forest analysis Methods 0.000 claims description 12
- 241001147795 Tyzzerella nexilis Species 0.000 claims description 10
- 241001018714 Lachnoclostridium pacaense Species 0.000 claims description 8
- 239000013078 crystal Substances 0.000 claims description 3
- 244000005709 gut microbiome Species 0.000 claims description 3
- 208000003200 Adenoma Diseases 0.000 claims description 2
- 206010001233 Adenoma benign Diseases 0.000 claims description 2
- 210000003608 fece Anatomy 0.000 abstract description 9
- 239000003814 drug Substances 0.000 abstract description 5
- 229940079593 drug Drugs 0.000 abstract description 5
- 235000008242 dietary patterns Nutrition 0.000 abstract description 4
- 241000894007 species Species 0.000 description 11
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 3
- 230000000813 microbial effect Effects 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 238000000540 analysis of variance Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 2
- 230000004630 mental health Effects 0.000 description 2
- 206010000060 Abdominal distension Diseases 0.000 description 1
- 241001474374 Blennius Species 0.000 description 1
- 241000238366 Cephalopoda Species 0.000 description 1
- 206010008399 Change of bowel habit Diseases 0.000 description 1
- 241001454694 Clupeiformes Species 0.000 description 1
- 206010012438 Dermatitis atopic Diseases 0.000 description 1
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 1
- 244000068988 Glycine max Species 0.000 description 1
- 235000010469 Glycine max Nutrition 0.000 description 1
- 101001004953 Homo sapiens Lysosomal acid lipase/cholesteryl ester hydrolase Proteins 0.000 description 1
- 244000017020 Ipomoea batatas Species 0.000 description 1
- 235000002678 Ipomoea batatas Nutrition 0.000 description 1
- 102100026001 Lysosomal acid lipase/cholesteryl ester hydrolase Human genes 0.000 description 1
- 244000061176 Nicotiana tabacum Species 0.000 description 1
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 1
- CDBYLPFSWZWCQE-UHFFFAOYSA-L Sodium Carbonate Chemical compound [Na+].[Na+].[O-]C([O-])=O CDBYLPFSWZWCQE-UHFFFAOYSA-L 0.000 description 1
- 244000269722 Thea sinensis Species 0.000 description 1
- 235000019513 anchovy Nutrition 0.000 description 1
- 201000008937 atopic dermatitis Diseases 0.000 description 1
- 235000013527 bean curd Nutrition 0.000 description 1
- 235000015278 beef Nutrition 0.000 description 1
- 208000024330 bloating Diseases 0.000 description 1
- 208000027503 bloody stool Diseases 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 235000009569 green tea Nutrition 0.000 description 1
- 208000035861 hematochezia Diseases 0.000 description 1
- 230000000968 intestinal effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000291 postprandial effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000036186 satiety Effects 0.000 description 1
- 235000019627 satiety Nutrition 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000004622 sleep time Effects 0.000 description 1
- 235000019997 soju Nutrition 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 235000013618 yogurt Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
- C12Q1/689—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Organic Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Immunology (AREA)
- Physiology (AREA)
- Genetics & Genomics (AREA)
- Epidemiology (AREA)
- Biochemistry (AREA)
- Public Health (AREA)
- Microbiology (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
본 발명은 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법을 공개한다. 이 방법은 장내 점막에서 메타게놈 분석을 수행하는 단계; 상기 수행한 메타게놈 분석 결과 제시된 미생물에 대한 비율이 매트릭스로 산출되는 단계; 상기 매트릭스에서 각 질병 분류군을 설명하는 미생물 종의 비율을 산출하는 단계; 상기 산출된 미생물 종의 비율을 시각화하는 단계;를 포함하고, 상기 메타게놈 분석 결과를 바탕으로 기계학습 기법을 이용하여 장내 질병의 위험을 예측하는 것을 특징으로 한다. 본 발명에 의할 경우, 장내 점막에서 채취한 샘플을 이용하므로 분변을 이용한 검사로 분변의 특성상 식생활 패턴, 약제 복용 등 외부 환경의 변함에 따른 변형이 적고, 질병 진단의 일관성이 획기적으로 개선되게 된다. 또한, 각 질병 분류군을 정확하게 설명하는 비율을 선정하고 시각화함으로써, 질병 진단의 신뢰성과 정확성을 향상시킬 수 있다.
Description
본 발명은 미생물에 의한 질병 분류군의 분류 방법에 관한 것으로서, 보다 상세하게는 장내 점막에서의 메타게놈 분석 결과 각 질병 분류군을 정확하게 설명하는 미생물의 종, 또는 속 이상의 분류단계를 기계학습 기법을 이용하여 찾는 방법에 관한 것이다.
현재 장 유래 샘플에서의 메타게놈 분석 기술은 10 여년 전 네이처 저널에 소개된 이후 많은 후속 연구가 진행되고 있다.
특히, 장내 미생물의 불균형에 따른 인체 질환의 진단법은 많은 논문과 특허 문서를 통해 제시되고 있다.
예를 들어, 국내등록특허 제10-1915360호는 아토피 피부염 진단을 위한 특정 미생물 종을 검출하는 방법에 관한 기술이고, 유럽등록특허 EP 2955232 B1은 대변 샘플에서의 미생물 군집에 따른 대장암의 진단법에 관한 기술이며, 미국공개특허 US 2019-0136299 A1은 진단기준과 클러스터링(clustering) 결과에 관한 기술이 제시되었다.
하지만, 상기 종래 기술들은 분변을 이용한 검사로 분변의 특성상 식생활 패턴, 약제 복용 등 외부 환경의 변함에 따른 변형(variation)이 심한 단점이 있어서, 정확하고 효율적인 질병 진단의 일관성이 유지되지 않는 한계가 있었다.
본 발명의 목적은 메타게놈 분석 결과를 바탕으로 기계학습 기법 중 결정 트리와 랜덤 포레스트를 적용하여 장내 질병의 위험을 예측하는 마커를 발굴함으로써, 미생물에 대한 각 질병 분류군을 정확하게 분류할 수 있는 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법을 제공하는 데 있다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허청구범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
상기 목적을 달성하기 위한 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법은 장내 점막에서 메타게놈 분석을 수행하는 단계; 상기 수행한 메타게놈 분석 결과 제시된 미생물에 대한 비율이 매트릭스로 산출되는 단계; 상기 매트릭스에서 각 질병 분류군을 설명하는 미생물 종의 비율을 산출하는 단계; 상기 산출된 미생물 종의 비율을 시각화하는 단계;를 포함하고, 상기 메타게놈 분석 결과를 바탕으로 기계학습 기법을 이용하여 장내 질병의 위험을 예측하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법의 상기 기계학습 기법은, 결정 트리 및 랜덤 포레스트를 적용하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법의 상기 기계학습 기법은, 동일한 미생물종이 검출되는 질환 중에서 미생물 종 비율에 대해 결정 트리 및 랜덤 포레스트를 적용하여 질환 중 어느 하나로 분류하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법은 상기 (c) 단계와 상기 (d) 단계 사이에, 장내 미생물균총에서 Bacteroides vulgatus, Tyzzerella nexilis 및 Lachnoclostridium pacaense의 함량을 확인하여 상기 결정 트리 및 상기 랜덤 포레스트를 적용하는 단계;를 더 포함하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법은 상기 Bacteroides vulgatus의 함량이 정상보다 낮은 경우 고위험 대장선종, 진행성 대장암 및 궤양성 대장염으로 진단하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법은 상기 Bacteroides vulgatus의 함량이 0.02% 초과인 경우 정상으로 진단하고, 0.02% 이하인 경우 고위험 대장선종, 진행성 대장암, 및 궤양성 대장염으로 진단하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법은 상기 Bacteroides vulgatus의 함량이 0.02% 이하이고, 상기 Tyzzerella nexilis의 함량이 0.000759% 이상인 경우 진행성 선종으로 진단하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법은 상기 Bacteroides vulgatus의 함량이 0.02% 이하이고, 상기 Tyzzerella nexilis의 함량이 0.000759% 미만이며, 상기 Lachnoclostridium pacaense의 함량이 0.000536% 초과인 경우 궤양성 대장염으로 진단하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법은 상기 Bacteroides vulgatus의 함량이 0.02% 이하이고, 상기 Tyzzerella nexilis의 함량이 0.000759% 미만이며, 상기 Lachnoclostridium pacaense의 함량이 0.000536% 이하인 경우 진행성 대장암으로 진단하는 것을 특징으로 한다.
기타 실시예의 구체적인 사항은 "발명을 실시하기 위한 구체적인 내용" 및 첨부 "도면"에 포함되어 있다.
본 발명의 이점 및/또는 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 각종 실시예를 참조하면 명확해질 것이다.
그러나, 본 발명은 이하에서 개시되는 각 실시예의 구성만으로 한정되는 것이 아니라 서로 다른 다양한 형태로도 구현될 수도 있으며, 단지 본 명세서에서 개시한 각각의 실시예는 본 발명의 게시가 완전하도록 하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구범위의 각 청구항의 범주에 의해 정의될 뿐임을 알아야 한다.
본 발명에 의할 경우, 장내 점막에서 채취한 샘플을 이용하므로 분변을 이용한 검사로 분변의 특성상 식생활 패턴, 약제 복용 등 외부 환경의 변함에 따른 변형이 적고, 질병 진단의 일관성이 획기적으로 개선되게 된다.
또한, 각 질병 분류군을 정확하게 설명하는 비율을 선정하고 시각화함으로써, 질병 진단의 신뢰성과 정확성을 향상시킬 수 있다.
도 1은 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법의 동작을 설명하기 위한 순서도이다.
도 2 내지 도 7은 본 발명의 일 실시예에 따라 미생물의 종, 속, 과, 목, 강, 문 각각에 대한 고위험 대장선종, 진행성 대장암, 궤양성 대장염, 정상 대조군 각각을 설명하는 결정 트리(decision tree)를 도시한 도면이다.
도 8은 본 발명의 일 실시예에 따라 입력 데이터의 일부에 대하여, 각 종이 전체 미생물 군집 중 차지하는 비율을 나타낸 표이다.
도 9는 본 발명의 일 실시예에 따라 ANOVA 기법을 이용해 각 질병 분류군을 정확하게 설명하는 비율을 선정하고 시각화한 도면이다.
도 10은 본 발명의 다른 실시예에 따라 고위험 대장선종, 진행성 대장암, 궤양성 대장염, 정상 대조군 각각을 설명하는 결정 트리(decision tree) 및 랜덤 포레스트(random forest)를 통하여 설문지 정보로부터 중요한 인자를 발굴하는 방법을 도시한 도면이다.
도 11은 본 발명의 다른 실시예에 따라 결정 트리 개수 대비 설문지 정보의 에러값을 나타낸 그래프이다.
도 12는 본 발명의 다른 실시예에 따라 평균 감소값 대비 설문지 정보 중 27개의 변수들 간의 상관 관계를 나타낸 그래프이다.
도 2 내지 도 7은 본 발명의 일 실시예에 따라 미생물의 종, 속, 과, 목, 강, 문 각각에 대한 고위험 대장선종, 진행성 대장암, 궤양성 대장염, 정상 대조군 각각을 설명하는 결정 트리(decision tree)를 도시한 도면이다.
도 8은 본 발명의 일 실시예에 따라 입력 데이터의 일부에 대하여, 각 종이 전체 미생물 군집 중 차지하는 비율을 나타낸 표이다.
도 9는 본 발명의 일 실시예에 따라 ANOVA 기법을 이용해 각 질병 분류군을 정확하게 설명하는 비율을 선정하고 시각화한 도면이다.
도 10은 본 발명의 다른 실시예에 따라 고위험 대장선종, 진행성 대장암, 궤양성 대장염, 정상 대조군 각각을 설명하는 결정 트리(decision tree) 및 랜덤 포레스트(random forest)를 통하여 설문지 정보로부터 중요한 인자를 발굴하는 방법을 도시한 도면이다.
도 11은 본 발명의 다른 실시예에 따라 결정 트리 개수 대비 설문지 정보의 에러값을 나타낸 그래프이다.
도 12는 본 발명의 다른 실시예에 따라 평균 감소값 대비 설문지 정보 중 27개의 변수들 간의 상관 관계를 나타낸 그래프이다.
이하, 첨부한 도면을 참고로 하여 본 발명의 바람직한 실시예에 대하여 상세히 설명하면 다음과 같다.
본 발명을 상세하게 설명하기 전에, 본 명세서에서 사용된 용어나 단어는 통상적이거나 사전적인 의미로 무조건 한정하여 해석되어서는 아니 되며, 본 발명의 발명자가 자신의 발명을 가장 최선의 방법으로 설명하기 위해서 각종 용어의 개념을 적절하게 정의하여 사용할 수 있다.
더 나아가 이들 용어나 단어는 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 함을 알아야 한다.
즉, 본 명세서에서 사용된 용어는 본 발명의 바람직한 실시예를 설명하기 위해서 사용되는 것일 뿐이고, 본 발명의 내용을 구체적으로 한정하려는 의도로 사용된 것이 아니다.
이들 용어는 본 발명의 여러 가지 가능성을 고려하여 정의된 용어임을 알아야 한다.
또한, 본 명세서에 있어서, 단수의 표현은 문맥상 명확하게 다른 의미로 지시하지 않는 이상, 복수의 표현을 포함할 수 있다.
또한, 유사하게 복수로 표현되어 있다고 하더라도 단수의 의미를 포함할 수 있음을 알아야 한다.
본 명세서의 전체에 걸쳐서 어떤 구성 요소가 다른 구성 요소를 "포함"한다고 기재하는 경우에는, 특별히 반대되는 의미의 기재가 없는 한 임의의 다른 구성 요소를 제외하는 것이 아니라 임의의 다른 구성 요소를 더 포함할 수도 있다는 것을 의미할 수 있다.
더 나아가서, 어떤 구성 요소가 다른 구성 요소의 "내부에 존재하거나, 연결되어 설치된다"고 기재한 경우에는, 이 구성 요소가 다른 구성 요소와 직접적으로 연결되어 있거나 접촉하여 설치되어 있을 수 있다.
또한, 일정한 거리를 두고 이격되어 설치되어 있을 수도 있으며, 일정한 거리를 두고 이격되어 설치되어 있는 경우에 대해서는 해당 구성 요소를 다른 구성 요소에 고정 내지 연결시키기 위한 제 3의 구성 요소 또는 수단이 존재할 수 있다.
한편, 상기 제 3의 구성 요소 또는 수단에 대한 설명은 생략될 수도 있음을 알아야 한다.
반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결"되어 있다거나, 또는 "직접 접속"되어 있다고 기재되는 경우에는, 제 3의 구성 요소 또는 수단이 존재하지 않는 것으로 이해하여야 한다.
마찬가지로, 각 구성 요소 간의 관계를 설명하는 다른 표현들, 즉 " ~ 사이에"와 "바로 ~ 사이에", 또는 " ~ 에 이웃하는"과 " ~ 에 직접 이웃하는" 등도 마찬가지의 취지를 가지고 있는 것으로 해석되어야 한다.
또한, 본 명세서에 있어서 "일면", "타면", "일측", "타측", "제 1", "제 2" 등의 용어는, 하나의 구성 요소에 대해서 이 하나의 구성 요소가 다른 구성 요소로부터 명확하게 구별될 수 있도록 하기 위해서 사용된다.
하지만, 이와 같은 용어에 의해서 해당 구성 요소의 의미가 제한적으로 사용되는 것은 아님을 알아야 한다.
또한, 본 명세서에서 "상", "하", "좌", "우" 등의 위치와 관련된 용어는, 사용된다면, 해당 구성 요소에 대해서 해당 도면에서의 상대적인 위치를 나타내고 있는 것으로 이해하여야 한다.
또한, 이들의 위치에 대해서 절대적인 위치를 특정하지 않는 이상은, 이들 위치 관련 용어가 절대적인 위치를 언급하고 있는 것으로 이해하여서는 아니 된다.
더욱이, 본 발명의 명세서에서는, "부", "기", "모듈", "장치" 등의 용어는, 사용된다면, 하나 이상의 기능이나 동작을 처리할 수 있는 단위를 의미한다.
이는 하드웨어 또는 소프트웨어, 또는 하드웨어와 소프트웨어의 결합으로 구현될 수 있음을 알아야 한다.
본 명세서에 첨부된 도면에서 본 발명을 구성하는 각 구성 요소의 크기, 위치, 결합 관계 등은 본 발명의 사상을 충분히 명확하게 전달할 수 있도록 하기 위해서 또는 설명의 편의를 위해서 일부 과장 또는 축소되거나 생략되어 기술되어 있을 수 있고, 따라서 그 비례나 축척은 엄밀하지 않을 수 있다.
또한, 이하에서, 본 발명을 설명함에 있어서, 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 구성, 예를 들어, 종래 기술을 포함하는 공지 기술에 대한 상세한 설명은 생략될 수도 있다.
도 1은 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법의 동작을 설명하기 위한 순서도이다.
도 2 내지 도 7은 본 발명의 일 실시예에 따라 미생물의 종, 속, 과, 목, 강, 문 각각에 대한 고위험 대장선종, 진행성 대장암, 궤양성 대장염, 정상 대조군 각각을 설명하는 결정 트리(decision tree)를 도시한 도면으로서, A는 고위험 대장선종, CL은 진행성 대장암, UL은 궤양성 대장염, W는 정상 대조군을 나타낸다.
도 8은 본 발명의 일 실시예에 따라 입력 데이터의 일부에 대하여, 각 종이 전체 미생물 군집 중 차지하는 비율을 나타낸 표이다.
도 2 내지 도 7에서 보는 바와 같이, 장내 점막(또는 다른 조직, 분변도 가능)에서 수행한 메타게놈 분석(metagenome sequencing) 결과, 제시된 미생물의 종, 속, 과, 목, 강, 문에 대한 비율이 매트릭스(matrix)로 산출된다.
그 다음, 이 매트릭스에서 각 질병 분류군을 정확하게 설명하는 미생물의 종(또는 상위 분류군)의 비율을 뽑아내고 시각화한다.
도 2에서, 결정 노드의 첫째 줄은 4가지 질병 분류군 중 가장 많은 질병 분류군을 나타내고, 비율에 따라 색상의 진하기가 다르게 도시된다.
또한, 결정 노드의 둘째 줄은 4가지 질병 분류군에 속하는 각 샘플 수이고, 순서대로 고위험 대장선종, 진행성 대장암, 궤양성 대장염, 정상 대조군 각각을 나타낸다.
또한, 결정 노드 아래 조건은 조건에 해당되면 왼쪽 결정 노드로 분류되고, 조건에 해당되지 않으면 오른쪽 결정 노드로 분류된다.
본 발명의 기계학습 기법은 동일한 미생물종이 검출되는 질환 중에서 미생물 종 비율에 대해 결정 트리 및 랜덤 포레스트를 적용하여 질환 중 어느 하나로 분류된다.
예를 들어, 도 2에서, 결정 트리는 3 개의 결정 노드로 구성되어 있다.
즉, 가장 상위 레벨의 결정 노드인 제1 미생물균 예를 들어, Bacteroides vulgatus는 1차적으로 정상 대조군 또는 진행성 대장암을 분류하는 균의 기준이 되고, 그 다음 레벨의 두번째 결정 노드인 제2 미생물균 예를 들어, Tyzzerella nexilis는 진행성 대장암 또는 고위험 대장선종을 분류하는 균의 기준이 되며, 제3 미생물균 예를 들어, Lachnoclostridium pacaense는 진행성 대장암 또는 궤양성 대장염을 분류하는 균의 기준이 된다.
도 2에서 보는 바와 같이, Bacterides vulgatus 종의 비율이 전체 비율의 0.0296 (2.96%) 이상인 경우 전체 정상(W) 13명 중 10명이 최종 결정 노드인 세번째 결정 노드로 곧바로 분류되었다.
가장 오른쪽의 최종 결정 노드는 주로 정상 대조군(W) 샘플들로 구성이 되어 있으며, 총 18명 중 10명이 정상이었다.
Tyzzerella nexilis 종의 비율이 전체 비율의 0.000759 (0.0759%) 이상인 경우 총 12명의 고위험 대장선종(A) 환자 중 7명이 가장 왼쪽의 최종 결정 노드로 분류되었다.
Lachnoclostridium pacaense 종의 비율이 전체 비율의 0.000536 (0.0536%) 비율 이상일 경우 궤양성 대장염, 미만일 경우 진행성 대장암으로 분류되었다.
이에 따라, 도 8에서 보는 바와 같이, 메타게놈 분석 결과 총 528종이 검출되었으며, 각 종들의 샘플별 비율이 산출되었다.
도 8에서, 각 행의 제목은 종, 각 열의 제목은 검체명을 나타내고, 기타 분류 포함 총 529행으로 이루어져 있다.
또한, R에서의 분석을 위해 데이터 프레임 형태로 불러오고, 분류는 R의 rpart 패키지를 활용하였다.
도 9는 본 발명의 일 실시예에 따라 ANOVA 기법을 이용해 각 질병 분류군을 정확하게 설명하는 비율을 선정하고 시각화한 도면이다.
도 9에서 보는 바와 같이, p-value는 0.03 이하인 결과들이고, 궤양성 대장염 및 정상 대조군, 고위험 대장선종 및 진행성 대장암이 약한 클러스터링이 되는 것을 확인하였다.
이때, 시각화는 R의 pheatmap 패키지로 수행하였다.
도 10은 본 발명의 다른 실시예에 따라 고위험 대장선종, 진행성 대장암, 궤양성 대장염, 정상 대조군 각각을 설명하는 결정 트리(decision tree) 및 랜덤 포레스트(random forest)를 통하여 설문지 정보로부터 중요한 인자를 발굴하는 방법을 도시한 도면으로서, A는 고위험 대장선종, CL은 진행성 대장암, UL은 궤양성 대장염, W는 정상 대조군을 나타낸다.
도 11은 본 발명의 다른 실시예에 따라 결정 트리 개수 대비 설문지 정보의 에러값을 나타낸 그래프이다.
도 12는 본 발명의 다른 실시예에 따라 평균 감소값 대비 설문지 정보 중 27개의 변수들 간의 상관 관계를 나타낸 그래프이다.
도 10에서 보는 바와 같이, 결정 트리에서, 정신건강 지표(SA)가 낮을수록 고위험 대장선종으로 분류되었고, 애완동물 사육기간이 길수록 정상 대조군으로 분류되었다.
또한, 잡곡 섭취가 낮을수록 진행성 대장암으로 분류되었고, 멸치 섭취가 많을수록 진행성 대장암에 비해 고위험 대장선종으로 분류되는 경향이 확인되었다.
즉, 랜덤 포레스트를 통해서 4가지 분류군을 가장 잘 설명하는 설문지 정보를 찾은 결과, 총 27개의 변수들이 확인되었으며, 각 변수들을 중요한 순서대로 나열하면 아래와 같다.
SA, CESD 정신건강 지표, 요구르트, 연령, 약물 복용, 배변 습관 변이, 음주량, 질병 과거력, 탄산 음료, 식후 포만감, 누적 담배, 두부 섭취, 튀긴 음식, 잡곡, 소주, 피곤 정도, 상복부 팽만감, 미역, 녹차, 혈변, 대변의 형상, 수면 시간, 쇠고기, 콩, 대변 횟수, 오징어, 고구마 순이다.
이와 같이, 본 발명은 메타게놈 분석 결과를 바탕으로 기계학습 기법 중 결정 트리와 랜덤 포레스트를 적용하여 장내 질병의 위험을 예측하는 마커를 발굴함으로써, 미생물에 대한 각 질병 분류군을 정확하게 분류할 수 있는 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법을 제공한다.
이를 통하여, 본 발명은 장내 점막에서 채취한 샘플을 이용하므로 분변을 이용한 검사로 분변의 특성상 식생활 패턴, 약제 복용 등 외부 환경의 변함에 따른 변형이 적고, 질병 진단의 일관성이 획기적으로 개선되게 된다.
또한, 각 질병 분류군을 정확하게 설명하는 비율을 선정하고 시각화함으로써, 질병 진단의 신뢰성과 정확성을 향상시킬 수 있게 된다.
이상, 일부 예를 들어서 본 발명의 바람직한 여러 가지 실시예에 대해서 설명하였지만, 본 "발명을 실시하기 위한 구체적인 내용" 항목에 기재된 여러 가지 다양한 실시예에 관한 설명은 예시적인 것에 불과한 것이며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 이상의 설명으로부터 본 발명을 다양하게 변형하여 실시하거나 본 발명과 균등한 실시를 행할 수 있다는 점을 잘 이해하고 있을 것이다.
또한, 본 발명은 다른 다양한 형태로 구현될 수 있기 때문에 본 발명은 상술한 설명에 의해서 한정되는 것이 아니며, 이상의 설명은 본 발명의 개시 내용이 완전해지도록 하기 위한 것으로 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이며, 본 발명은 청구범위의 각 청구항에 의해서 정의될 뿐임을 알아야 한다.
A: 고위험 대장선종
CL: 진행성 대장암
UL: 궤양성 대장염
W: 정상 대조군
CL: 진행성 대장암
UL: 궤양성 대장염
W: 정상 대조군
Claims (10)
- (a) 장내 점막에서 메타게놈 분석을 수행하는 단계;
(b) 상기 수행한 메타게놈 분석 결과, 제시된 미생물에 대한 비율이 매트릭스로 산출되는 단계;
(c) 상기 매트릭스에서 각 질병 분류군을 설명하는 미생물 종의 비율을 산출하는 단계; 및
(d) 상기 산출된 미생물 종의 비율을 시각화하는 단계;
를 포함하고,
상기 메타게놈 분석 결과를 바탕으로 기계학습 기법을 이용하여 장내 질병의 위험을 예측하며,
상기 기계학습 기법은,
상기 각 질병 분류군 중 가장 많은 질병 분류군이 첫째 줄에 기재되고, 상기 각 질병 분류군에 속하는 각 샘플 수가 둘째 줄에 기재되는 결정 노드를 포함하는 결정 트리를 적용하는 것을 특징으로 하는,
기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
- 제1항에 있어서,
상기 기계학습 기법은,
상기 결정 트리 외에 랜덤 포레스트를 적용하는 것을 특징으로 하는,
기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
- 제2항에 있어서,
상기 기계학습 기법은,
동일한 미생물종이 검출되는 질환 중에서 미생물 종 비율에 대해 상기 결정 트리 및 상기 랜덤 포레스트를 적용하여 질환 중 어느 하나로 분류하는 것을 특징으로 하는,
기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
- 제2항에 있어서,
상기 (c) 단계와 상기 (d) 단계 사이에,
장내 미생물균총에서 Bacteroides vulgatus, Tyzzerella nexilis 및 Lachnoclostridium pacaense의 함량을 확인하여 상기 결정 트리 및 상기 랜덤 포레스트를 적용하는 단계;
를 더 포함하는 것을 특징으로 하는,
기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
- 제4항에 있어서,
상기 Bacteroides vulgatus의 함량이 정상보다 낮은 경우 고위험 대장선종, 진행성 대장암 및 궤양성 대장염으로 진단하는 것을 특징으로 하는,
기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
- 제4항에 있어서,
상기 Bacteroides vulgatus의 함량이 0.02% 초과인 경우 정상으로 진단하고, 0.02% 이하인 경우 고위험 대장선종, 진행성 대장암, 및 궤양성 대장염으로 진단하는 것을 특징으로 하는,
기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
- 제4항에 있어서,
상기 Bacteroides vulgatus의 함량이 0.02% 이하이고,
상기 Tyzzerella nexilis의 함량이 0.000759% 이상인 경우 진행성 선종으로 진단하는 것을 특징으로 하는,
기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
- 제4항에 있어서,
상기 Bacteroides vulgatus의 함량이 0.02% 이하이고,
상기 Tyzzerella nexilis의 함량이 0.000759% 미만이며,
상기 Lachnoclostridium pacaense의 함량이 0.000536% 초과인 경우 궤양성 대장염으로 진단하는 것을 특징으로 하는,
기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
- 제4항에 있어서,
상기 Bacteroides vulgatus의 함량이 0.02% 이하이고,
상기 Tyzzerella nexilis의 함량이 0.000759% 미만이며,
상기 Lachnoclostridium pacaense의 함량이 0.000536% 이하인 경우 진행성 대장암으로 진단하는 것을 특징으로 하는,
기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
- 제1항에 있어서,
상기 결정 트리는,
제1 미생물균이 정상 대조군 또는 진행성 대장암을 분류하는 균의 기준이 되는 결정 노드;
제2 미생물균이 진행성 대장암 또는 고위험 대장선종을 분류하는 균의 기준이 되는 결정 노드; 및
제3 미생물균이 진행성 대장암 또는 궤양성 대장염을 분류하는 균의 기준이 되는 결정 노드;
를 포함하는 것을 특징으로 하는,
기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20200155257 | 2020-11-19 | ||
KR1020200155257 | 2020-11-19 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20220068866A true KR20220068866A (ko) | 2022-05-26 |
Family
ID=81808294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210000099A KR20220068866A (ko) | 2020-11-19 | 2021-01-04 | 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20220068866A (ko) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101915360B1 (ko) | 2015-09-22 | 2018-11-08 | 고려대학교 산학협력단 | 바이오 마커 조성물, 진단용 키트, 및 정보제공방법 |
-
2021
- 2021-01-04 KR KR1020210000099A patent/KR20220068866A/ko not_active Application Discontinuation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101915360B1 (ko) | 2015-09-22 | 2018-11-08 | 고려대학교 산학협력단 | 바이오 마커 조성물, 진단용 키트, 및 정보제공방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Colli et al. | Platelet count, spleen length, and platelet count‐to‐spleen length ratio for the diagnosis of oesophageal varices in people with chronic liver disease or portal vein thrombosis | |
Zhang | Residuals and regression diagnostics: focusing on logistic regression | |
Greenland | Analysis goals, error‐cost sensitivity, and analysis hacking: Essential considerations in hypothesis testing and multiple comparisons | |
CN105368944B (zh) | 可检测疾病的生物标志物及其用途 | |
Nearing et al. | Infectious complications are associated with alterations in the gut microbiome in pediatric patients with acute lymphoblastic leukemia | |
Liu et al. | A model to identify individuals at high risk for esophageal squamous cell carcinoma and precancerous lesions in regions of high prevalence in China | |
Heffner et al. | Multilevel likelihood ratios for identifying exudative pleural effusions | |
Colli et al. | Capsule endoscopy for the diagnosis of oesophageal varices in people with chronic liver disease or portal vein thrombosis | |
KR102513540B1 (ko) | 대장점막의 장내미생물총분석을 이용한 고위험성대장선종, 진행성 결장암 궤양성 대장염 및 정상대조군의 감별 진단 방법 | |
Bailey et al. | Comparisons between cats with normal and increased fPLI concentrations in cats diagnosed with inflammatory bowel disease | |
Dipnall et al. | Into the bowels of depression: unravelling medical symptoms associated with depression by applying machine-learning techniques to a community based population sample | |
CN107305596A (zh) | 肝门部胆管癌患者预后预测模型 | |
Resch et al. | Victoria Symptom Validity Test: A systematic review and cross-validation study | |
Mahnic et al. | Distinct types of gut microbiota dysbiosis in hospitalized gastroenterological patients are disease non-related and characterized with the predominance of either Enterobacteriaceae or Enterococcus | |
Wu et al. | Potential of gut microbiome for detection of autism spectrum disorder | |
CN114242245A (zh) | 一种基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法、系统和装置 | |
Milner et al. | A histological method for quantifying Plasmodium falciparum in the brain in fatal paediatric cerebral malaria | |
Masala et al. | A two-layered classifier based on the radial basis function for the screening of thalassaemia | |
Sauerbrei et al. | Interpreting results in 2× 2 tables: part 9 of a series on evaluation of scientific publications | |
KR20220068866A (ko) | 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법 | |
Gonullu et al. | Diagnostic accuracy rates of appendicitis scoring systems for the stratified age groups | |
Gritti et al. | Understanding the literature: complexity of statistical methods used in high-impact cardiothoracic surgery research | |
Ciampi et al. | Delirium superimposed on dementia: defining disease states and course from longitudinal measurements of a multivariate index using latent class analysis and hidden Markov chains | |
Topa et al. | Biomarkers for the diagnosis and monitoring of celiac disease: can you count on me? | |
Dehal et al. | Accuracy of nodal staging is influenced by sidedness in colon cancer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal |