KR20220068866A - 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법 - Google Patents

기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법 Download PDF

Info

Publication number
KR20220068866A
KR20220068866A KR1020210000099A KR20210000099A KR20220068866A KR 20220068866 A KR20220068866 A KR 20220068866A KR 1020210000099 A KR1020210000099 A KR 1020210000099A KR 20210000099 A KR20210000099 A KR 20210000099A KR 20220068866 A KR20220068866 A KR 20220068866A
Authority
KR
South Korea
Prior art keywords
disease
taxa
machine learning
microorganisms
content
Prior art date
Application number
KR1020210000099A
Other languages
English (en)
Inventor
이범재
김남주
김정안
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Publication of KR20220068866A publication Critical patent/KR20220068866A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/689Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Immunology (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Epidemiology (AREA)
  • Biochemistry (AREA)
  • Public Health (AREA)
  • Microbiology (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법을 공개한다. 이 방법은 장내 점막에서 메타게놈 분석을 수행하는 단계; 상기 수행한 메타게놈 분석 결과 제시된 미생물에 대한 비율이 매트릭스로 산출되는 단계; 상기 매트릭스에서 각 질병 분류군을 설명하는 미생물 종의 비율을 산출하는 단계; 상기 산출된 미생물 종의 비율을 시각화하는 단계;를 포함하고, 상기 메타게놈 분석 결과를 바탕으로 기계학습 기법을 이용하여 장내 질병의 위험을 예측하는 것을 특징으로 한다. 본 발명에 의할 경우, 장내 점막에서 채취한 샘플을 이용하므로 분변을 이용한 검사로 분변의 특성상 식생활 패턴, 약제 복용 등 외부 환경의 변함에 따른 변형이 적고, 질병 진단의 일관성이 획기적으로 개선되게 된다. 또한, 각 질병 분류군을 정확하게 설명하는 비율을 선정하고 시각화함으로써, 질병 진단의 신뢰성과 정확성을 향상시킬 수 있다.

Description

기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법{A method for classifying disease taxa by microorganisms using machine learning method}
본 발명은 미생물에 의한 질병 분류군의 분류 방법에 관한 것으로서, 보다 상세하게는 장내 점막에서의 메타게놈 분석 결과 각 질병 분류군을 정확하게 설명하는 미생물의 종, 또는 속 이상의 분류단계를 기계학습 기법을 이용하여 찾는 방법에 관한 것이다.
현재 장 유래 샘플에서의 메타게놈 분석 기술은 10 여년 전 네이처 저널에 소개된 이후 많은 후속 연구가 진행되고 있다.
특히, 장내 미생물의 불균형에 따른 인체 질환의 진단법은 많은 논문과 특허 문서를 통해 제시되고 있다.
예를 들어, 국내등록특허 제10-1915360호는 아토피 피부염 진단을 위한 특정 미생물 종을 검출하는 방법에 관한 기술이고, 유럽등록특허 EP 2955232 B1은 대변 샘플에서의 미생물 군집에 따른 대장암의 진단법에 관한 기술이며, 미국공개특허 US 2019-0136299 A1은 진단기준과 클러스터링(clustering) 결과에 관한 기술이 제시되었다.
하지만, 상기 종래 기술들은 분변을 이용한 검사로 분변의 특성상 식생활 패턴, 약제 복용 등 외부 환경의 변함에 따른 변형(variation)이 심한 단점이 있어서, 정확하고 효율적인 질병 진단의 일관성이 유지되지 않는 한계가 있었다.
한국등록특허 제10-1915360호
본 발명의 목적은 메타게놈 분석 결과를 바탕으로 기계학습 기법 중 결정 트리와 랜덤 포레스트를 적용하여 장내 질병의 위험을 예측하는 마커를 발굴함으로써, 미생물에 대한 각 질병 분류군을 정확하게 분류할 수 있는 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법을 제공하는 데 있다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허청구범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
상기 목적을 달성하기 위한 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법은 장내 점막에서 메타게놈 분석을 수행하는 단계; 상기 수행한 메타게놈 분석 결과 제시된 미생물에 대한 비율이 매트릭스로 산출되는 단계; 상기 매트릭스에서 각 질병 분류군을 설명하는 미생물 종의 비율을 산출하는 단계; 상기 산출된 미생물 종의 비율을 시각화하는 단계;를 포함하고, 상기 메타게놈 분석 결과를 바탕으로 기계학습 기법을 이용하여 장내 질병의 위험을 예측하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법의 상기 기계학습 기법은, 결정 트리 및 랜덤 포레스트를 적용하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법의 상기 기계학습 기법은, 동일한 미생물종이 검출되는 질환 중에서 미생물 종 비율에 대해 결정 트리 및 랜덤 포레스트를 적용하여 질환 중 어느 하나로 분류하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법은 상기 (c) 단계와 상기 (d) 단계 사이에, 장내 미생물균총에서 Bacteroides vulgatus, Tyzzerella nexilis 및 Lachnoclostridium pacaense의 함량을 확인하여 상기 결정 트리 및 상기 랜덤 포레스트를 적용하는 단계;를 더 포함하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법은 상기 Bacteroides vulgatus의 함량이 정상보다 낮은 경우 고위험 대장선종, 진행성 대장암 및 궤양성 대장염으로 진단하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법은 상기 Bacteroides vulgatus의 함량이 0.02% 초과인 경우 정상으로 진단하고, 0.02% 이하인 경우 고위험 대장선종, 진행성 대장암, 및 궤양성 대장염으로 진단하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법은 상기 Bacteroides vulgatus의 함량이 0.02% 이하이고, 상기 Tyzzerella nexilis의 함량이 0.000759% 이상인 경우 진행성 선종으로 진단하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법은 상기 Bacteroides vulgatus의 함량이 0.02% 이하이고, 상기 Tyzzerella nexilis의 함량이 0.000759% 미만이며, 상기 Lachnoclostridium pacaense의 함량이 0.000536% 초과인 경우 궤양성 대장염으로 진단하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법은 상기 Bacteroides vulgatus의 함량이 0.02% 이하이고, 상기 Tyzzerella nexilis의 함량이 0.000759% 미만이며, 상기 Lachnoclostridium pacaense의 함량이 0.000536% 이하인 경우 진행성 대장암으로 진단하는 것을 특징으로 한다.
기타 실시예의 구체적인 사항은 "발명을 실시하기 위한 구체적인 내용" 및 첨부 "도면"에 포함되어 있다.
본 발명의 이점 및/또는 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 각종 실시예를 참조하면 명확해질 것이다.
그러나, 본 발명은 이하에서 개시되는 각 실시예의 구성만으로 한정되는 것이 아니라 서로 다른 다양한 형태로도 구현될 수도 있으며, 단지 본 명세서에서 개시한 각각의 실시예는 본 발명의 게시가 완전하도록 하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구범위의 각 청구항의 범주에 의해 정의될 뿐임을 알아야 한다.
본 발명에 의할 경우, 장내 점막에서 채취한 샘플을 이용하므로 분변을 이용한 검사로 분변의 특성상 식생활 패턴, 약제 복용 등 외부 환경의 변함에 따른 변형이 적고, 질병 진단의 일관성이 획기적으로 개선되게 된다.
또한, 각 질병 분류군을 정확하게 설명하는 비율을 선정하고 시각화함으로써, 질병 진단의 신뢰성과 정확성을 향상시킬 수 있다.
도 1은 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법의 동작을 설명하기 위한 순서도이다.
도 2 내지 도 7은 본 발명의 일 실시예에 따라 미생물의 종, 속, 과, 목, 강, 문 각각에 대한 고위험 대장선종, 진행성 대장암, 궤양성 대장염, 정상 대조군 각각을 설명하는 결정 트리(decision tree)를 도시한 도면이다.
도 8은 본 발명의 일 실시예에 따라 입력 데이터의 일부에 대하여, 각 종이 전체 미생물 군집 중 차지하는 비율을 나타낸 표이다.
도 9는 본 발명의 일 실시예에 따라 ANOVA 기법을 이용해 각 질병 분류군을 정확하게 설명하는 비율을 선정하고 시각화한 도면이다.
도 10은 본 발명의 다른 실시예에 따라 고위험 대장선종, 진행성 대장암, 궤양성 대장염, 정상 대조군 각각을 설명하는 결정 트리(decision tree) 및 랜덤 포레스트(random forest)를 통하여 설문지 정보로부터 중요한 인자를 발굴하는 방법을 도시한 도면이다.
도 11은 본 발명의 다른 실시예에 따라 결정 트리 개수 대비 설문지 정보의 에러값을 나타낸 그래프이다.
도 12는 본 발명의 다른 실시예에 따라 평균 감소값 대비 설문지 정보 중 27개의 변수들 간의 상관 관계를 나타낸 그래프이다.
이하, 첨부한 도면을 참고로 하여 본 발명의 바람직한 실시예에 대하여 상세히 설명하면 다음과 같다.
본 발명을 상세하게 설명하기 전에, 본 명세서에서 사용된 용어나 단어는 통상적이거나 사전적인 의미로 무조건 한정하여 해석되어서는 아니 되며, 본 발명의 발명자가 자신의 발명을 가장 최선의 방법으로 설명하기 위해서 각종 용어의 개념을 적절하게 정의하여 사용할 수 있다.
더 나아가 이들 용어나 단어는 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 함을 알아야 한다.
즉, 본 명세서에서 사용된 용어는 본 발명의 바람직한 실시예를 설명하기 위해서 사용되는 것일 뿐이고, 본 발명의 내용을 구체적으로 한정하려는 의도로 사용된 것이 아니다.
이들 용어는 본 발명의 여러 가지 가능성을 고려하여 정의된 용어임을 알아야 한다.
또한, 본 명세서에 있어서, 단수의 표현은 문맥상 명확하게 다른 의미로 지시하지 않는 이상, 복수의 표현을 포함할 수 있다.
또한, 유사하게 복수로 표현되어 있다고 하더라도 단수의 의미를 포함할 수 있음을 알아야 한다.
본 명세서의 전체에 걸쳐서 어떤 구성 요소가 다른 구성 요소를 "포함"한다고 기재하는 경우에는, 특별히 반대되는 의미의 기재가 없는 한 임의의 다른 구성 요소를 제외하는 것이 아니라 임의의 다른 구성 요소를 더 포함할 수도 있다는 것을 의미할 수 있다.
더 나아가서, 어떤 구성 요소가 다른 구성 요소의 "내부에 존재하거나, 연결되어 설치된다"고 기재한 경우에는, 이 구성 요소가 다른 구성 요소와 직접적으로 연결되어 있거나 접촉하여 설치되어 있을 수 있다.
또한, 일정한 거리를 두고 이격되어 설치되어 있을 수도 있으며, 일정한 거리를 두고 이격되어 설치되어 있는 경우에 대해서는 해당 구성 요소를 다른 구성 요소에 고정 내지 연결시키기 위한 제 3의 구성 요소 또는 수단이 존재할 수 있다.
한편, 상기 제 3의 구성 요소 또는 수단에 대한 설명은 생략될 수도 있음을 알아야 한다.
반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결"되어 있다거나, 또는 "직접 접속"되어 있다고 기재되는 경우에는, 제 3의 구성 요소 또는 수단이 존재하지 않는 것으로 이해하여야 한다.
마찬가지로, 각 구성 요소 간의 관계를 설명하는 다른 표현들, 즉 " ~ 사이에"와 "바로 ~ 사이에", 또는 " ~ 에 이웃하는"과 " ~ 에 직접 이웃하는" 등도 마찬가지의 취지를 가지고 있는 것으로 해석되어야 한다.
또한, 본 명세서에 있어서 "일면", "타면", "일측", "타측", "제 1", "제 2" 등의 용어는, 하나의 구성 요소에 대해서 이 하나의 구성 요소가 다른 구성 요소로부터 명확하게 구별될 수 있도록 하기 위해서 사용된다.
하지만, 이와 같은 용어에 의해서 해당 구성 요소의 의미가 제한적으로 사용되는 것은 아님을 알아야 한다.
또한, 본 명세서에서 "상", "하", "좌", "우" 등의 위치와 관련된 용어는, 사용된다면, 해당 구성 요소에 대해서 해당 도면에서의 상대적인 위치를 나타내고 있는 것으로 이해하여야 한다.
또한, 이들의 위치에 대해서 절대적인 위치를 특정하지 않는 이상은, 이들 위치 관련 용어가 절대적인 위치를 언급하고 있는 것으로 이해하여서는 아니 된다.
더욱이, 본 발명의 명세서에서는, "부", "기", "모듈", "장치" 등의 용어는, 사용된다면, 하나 이상의 기능이나 동작을 처리할 수 있는 단위를 의미한다.
이는 하드웨어 또는 소프트웨어, 또는 하드웨어와 소프트웨어의 결합으로 구현될 수 있음을 알아야 한다.
본 명세서에 첨부된 도면에서 본 발명을 구성하는 각 구성 요소의 크기, 위치, 결합 관계 등은 본 발명의 사상을 충분히 명확하게 전달할 수 있도록 하기 위해서 또는 설명의 편의를 위해서 일부 과장 또는 축소되거나 생략되어 기술되어 있을 수 있고, 따라서 그 비례나 축척은 엄밀하지 않을 수 있다.
또한, 이하에서, 본 발명을 설명함에 있어서, 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 구성, 예를 들어, 종래 기술을 포함하는 공지 기술에 대한 상세한 설명은 생략될 수도 있다.
도 1은 본 발명의 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법의 동작을 설명하기 위한 순서도이다.
도 2 내지 도 7은 본 발명의 일 실시예에 따라 미생물의 종, 속, 과, 목, 강, 문 각각에 대한 고위험 대장선종, 진행성 대장암, 궤양성 대장염, 정상 대조군 각각을 설명하는 결정 트리(decision tree)를 도시한 도면으로서, A는 고위험 대장선종, CL은 진행성 대장암, UL은 궤양성 대장염, W는 정상 대조군을 나타낸다.
도 8은 본 발명의 일 실시예에 따라 입력 데이터의 일부에 대하여, 각 종이 전체 미생물 군집 중 차지하는 비율을 나타낸 표이다.
도 2 내지 도 7에서 보는 바와 같이, 장내 점막(또는 다른 조직, 분변도 가능)에서 수행한 메타게놈 분석(metagenome sequencing) 결과, 제시된 미생물의 종, 속, 과, 목, 강, 문에 대한 비율이 매트릭스(matrix)로 산출된다.
그 다음, 이 매트릭스에서 각 질병 분류군을 정확하게 설명하는 미생물의 종(또는 상위 분류군)의 비율을 뽑아내고 시각화한다.
도 2에서, 결정 노드의 첫째 줄은 4가지 질병 분류군 중 가장 많은 질병 분류군을 나타내고, 비율에 따라 색상의 진하기가 다르게 도시된다.
또한, 결정 노드의 둘째 줄은 4가지 질병 분류군에 속하는 각 샘플 수이고, 순서대로 고위험 대장선종, 진행성 대장암, 궤양성 대장염, 정상 대조군 각각을 나타낸다.
또한, 결정 노드 아래 조건은 조건에 해당되면 왼쪽 결정 노드로 분류되고, 조건에 해당되지 않으면 오른쪽 결정 노드로 분류된다.
본 발명의 기계학습 기법은 동일한 미생물종이 검출되는 질환 중에서 미생물 종 비율에 대해 결정 트리 및 랜덤 포레스트를 적용하여 질환 중 어느 하나로 분류된다.
예를 들어, 도 2에서, 결정 트리는 3 개의 결정 노드로 구성되어 있다.
즉, 가장 상위 레벨의 결정 노드인 제1 미생물균 예를 들어, Bacteroides vulgatus는 1차적으로 정상 대조군 또는 진행성 대장암을 분류하는 균의 기준이 되고, 그 다음 레벨의 두번째 결정 노드인 제2 미생물균 예를 들어, Tyzzerella nexilis는 진행성 대장암 또는 고위험 대장선종을 분류하는 균의 기준이 되며, 제3 미생물균 예를 들어, Lachnoclostridium pacaense는 진행성 대장암 또는 궤양성 대장염을 분류하는 균의 기준이 된다.
도 2에서 보는 바와 같이, Bacterides vulgatus 종의 비율이 전체 비율의 0.0296 (2.96%) 이상인 경우 전체 정상(W) 13명 중 10명이 최종 결정 노드인 세번째 결정 노드로 곧바로 분류되었다.
가장 오른쪽의 최종 결정 노드는 주로 정상 대조군(W) 샘플들로 구성이 되어 있으며, 총 18명 중 10명이 정상이었다.
Tyzzerella nexilis 종의 비율이 전체 비율의 0.000759 (0.0759%) 이상인 경우 총 12명의 고위험 대장선종(A) 환자 중 7명이 가장 왼쪽의 최종 결정 노드로 분류되었다.
Lachnoclostridium pacaense 종의 비율이 전체 비율의 0.000536 (0.0536%) 비율 이상일 경우 궤양성 대장염, 미만일 경우 진행성 대장암으로 분류되었다.
이에 따라, 도 8에서 보는 바와 같이, 메타게놈 분석 결과 총 528종이 검출되었으며, 각 종들의 샘플별 비율이 산출되었다.
도 8에서, 각 행의 제목은 종, 각 열의 제목은 검체명을 나타내고, 기타 분류 포함 총 529행으로 이루어져 있다.
또한, R에서의 분석을 위해 데이터 프레임 형태로 불러오고, 분류는 R의 rpart 패키지를 활용하였다.
도 9는 본 발명의 일 실시예에 따라 ANOVA 기법을 이용해 각 질병 분류군을 정확하게 설명하는 비율을 선정하고 시각화한 도면이다.
도 9에서 보는 바와 같이, p-value는 0.03 이하인 결과들이고, 궤양성 대장염 및 정상 대조군, 고위험 대장선종 및 진행성 대장암이 약한 클러스터링이 되는 것을 확인하였다.
이때, 시각화는 R의 pheatmap 패키지로 수행하였다.
도 10은 본 발명의 다른 실시예에 따라 고위험 대장선종, 진행성 대장암, 궤양성 대장염, 정상 대조군 각각을 설명하는 결정 트리(decision tree) 및 랜덤 포레스트(random forest)를 통하여 설문지 정보로부터 중요한 인자를 발굴하는 방법을 도시한 도면으로서, A는 고위험 대장선종, CL은 진행성 대장암, UL은 궤양성 대장염, W는 정상 대조군을 나타낸다.
도 11은 본 발명의 다른 실시예에 따라 결정 트리 개수 대비 설문지 정보의 에러값을 나타낸 그래프이다.
도 12는 본 발명의 다른 실시예에 따라 평균 감소값 대비 설문지 정보 중 27개의 변수들 간의 상관 관계를 나타낸 그래프이다.
도 10에서 보는 바와 같이, 결정 트리에서, 정신건강 지표(SA)가 낮을수록 고위험 대장선종으로 분류되었고, 애완동물 사육기간이 길수록 정상 대조군으로 분류되었다.
또한, 잡곡 섭취가 낮을수록 진행성 대장암으로 분류되었고, 멸치 섭취가 많을수록 진행성 대장암에 비해 고위험 대장선종으로 분류되는 경향이 확인되었다.
즉, 랜덤 포레스트를 통해서 4가지 분류군을 가장 잘 설명하는 설문지 정보를 찾은 결과, 총 27개의 변수들이 확인되었으며, 각 변수들을 중요한 순서대로 나열하면 아래와 같다.
SA, CESD 정신건강 지표, 요구르트, 연령, 약물 복용, 배변 습관 변이, 음주량, 질병 과거력, 탄산 음료, 식후 포만감, 누적 담배, 두부 섭취, 튀긴 음식, 잡곡, 소주, 피곤 정도, 상복부 팽만감, 미역, 녹차, 혈변, 대변의 형상, 수면 시간, 쇠고기, 콩, 대변 횟수, 오징어, 고구마 순이다.
이와 같이, 본 발명은 메타게놈 분석 결과를 바탕으로 기계학습 기법 중 결정 트리와 랜덤 포레스트를 적용하여 장내 질병의 위험을 예측하는 마커를 발굴함으로써, 미생물에 대한 각 질병 분류군을 정확하게 분류할 수 있는 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법을 제공한다.
이를 통하여, 본 발명은 장내 점막에서 채취한 샘플을 이용하므로 분변을 이용한 검사로 분변의 특성상 식생활 패턴, 약제 복용 등 외부 환경의 변함에 따른 변형이 적고, 질병 진단의 일관성이 획기적으로 개선되게 된다.
또한, 각 질병 분류군을 정확하게 설명하는 비율을 선정하고 시각화함으로써, 질병 진단의 신뢰성과 정확성을 향상시킬 수 있게 된다.
이상, 일부 예를 들어서 본 발명의 바람직한 여러 가지 실시예에 대해서 설명하였지만, 본 "발명을 실시하기 위한 구체적인 내용" 항목에 기재된 여러 가지 다양한 실시예에 관한 설명은 예시적인 것에 불과한 것이며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 이상의 설명으로부터 본 발명을 다양하게 변형하여 실시하거나 본 발명과 균등한 실시를 행할 수 있다는 점을 잘 이해하고 있을 것이다.
또한, 본 발명은 다른 다양한 형태로 구현될 수 있기 때문에 본 발명은 상술한 설명에 의해서 한정되는 것이 아니며, 이상의 설명은 본 발명의 개시 내용이 완전해지도록 하기 위한 것으로 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이며, 본 발명은 청구범위의 각 청구항에 의해서 정의될 뿐임을 알아야 한다.
A: 고위험 대장선종
CL: 진행성 대장암
UL: 궤양성 대장염
W: 정상 대조군

Claims (10)

  1. (a) 장내 점막에서 메타게놈 분석을 수행하는 단계;
    (b) 상기 수행한 메타게놈 분석 결과, 제시된 미생물에 대한 비율이 매트릭스로 산출되는 단계;
    (c) 상기 매트릭스에서 각 질병 분류군을 설명하는 미생물 종의 비율을 산출하는 단계; 및
    (d) 상기 산출된 미생물 종의 비율을 시각화하는 단계;
    를 포함하고,
    상기 메타게놈 분석 결과를 바탕으로 기계학습 기법을 이용하여 장내 질병의 위험을 예측하며,
    상기 기계학습 기법은,
    상기 각 질병 분류군 중 가장 많은 질병 분류군이 첫째 줄에 기재되고, 상기 각 질병 분류군에 속하는 각 샘플 수가 둘째 줄에 기재되는 결정 노드를 포함하는 결정 트리를 적용하는 것을 특징으로 하는,
    기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
  2. 제1항에 있어서,
    상기 기계학습 기법은,
    상기 결정 트리 외에 랜덤 포레스트를 적용하는 것을 특징으로 하는,
    기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
  3. 제2항에 있어서,
    상기 기계학습 기법은,
    동일한 미생물종이 검출되는 질환 중에서 미생물 종 비율에 대해 상기 결정 트리 및 상기 랜덤 포레스트를 적용하여 질환 중 어느 하나로 분류하는 것을 특징으로 하는,
    기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
  4. 제2항에 있어서,
    상기 (c) 단계와 상기 (d) 단계 사이에,
    장내 미생물균총에서 Bacteroides vulgatus, Tyzzerella nexilis 및 Lachnoclostridium pacaense의 함량을 확인하여 상기 결정 트리 및 상기 랜덤 포레스트를 적용하는 단계;
    를 더 포함하는 것을 특징으로 하는,
    기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
  5. 제4항에 있어서,
    상기 Bacteroides vulgatus의 함량이 정상보다 낮은 경우 고위험 대장선종, 진행성 대장암 및 궤양성 대장염으로 진단하는 것을 특징으로 하는,
    기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
  6. 제4항에 있어서,
    상기 Bacteroides vulgatus의 함량이 0.02% 초과인 경우 정상으로 진단하고, 0.02% 이하인 경우 고위험 대장선종, 진행성 대장암, 및 궤양성 대장염으로 진단하는 것을 특징으로 하는,
    기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
  7. 제4항에 있어서,
    상기 Bacteroides vulgatus의 함량이 0.02% 이하이고,
    상기 Tyzzerella nexilis의 함량이 0.000759% 이상인 경우 진행성 선종으로 진단하는 것을 특징으로 하는,
    기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
  8. 제4항에 있어서,
    상기 Bacteroides vulgatus의 함량이 0.02% 이하이고,
    상기 Tyzzerella nexilis의 함량이 0.000759% 미만이며,
    상기 Lachnoclostridium pacaense의 함량이 0.000536% 초과인 경우 궤양성 대장염으로 진단하는 것을 특징으로 하는,
    기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
  9. 제4항에 있어서,
    상기 Bacteroides vulgatus의 함량이 0.02% 이하이고,
    상기 Tyzzerella nexilis의 함량이 0.000759% 미만이며,
    상기 Lachnoclostridium pacaense의 함량이 0.000536% 이하인 경우 진행성 대장암으로 진단하는 것을 특징으로 하는,
    기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
  10. 제1항에 있어서,
    상기 결정 트리는,
    제1 미생물균이 정상 대조군 또는 진행성 대장암을 분류하는 균의 기준이 되는 결정 노드;
    제2 미생물균이 진행성 대장암 또는 고위험 대장선종을 분류하는 균의 기준이 되는 결정 노드; 및
    제3 미생물균이 진행성 대장암 또는 궤양성 대장염을 분류하는 균의 기준이 되는 결정 노드;
    를 포함하는 것을 특징으로 하는,
    기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법.
KR1020210000099A 2020-11-19 2021-01-04 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법 KR20220068866A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20200155257 2020-11-19
KR1020200155257 2020-11-19

Publications (1)

Publication Number Publication Date
KR20220068866A true KR20220068866A (ko) 2022-05-26

Family

ID=81808294

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210000099A KR20220068866A (ko) 2020-11-19 2021-01-04 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법

Country Status (1)

Country Link
KR (1) KR20220068866A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101915360B1 (ko) 2015-09-22 2018-11-08 고려대학교 산학협력단 바이오 마커 조성물, 진단용 키트, 및 정보제공방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101915360B1 (ko) 2015-09-22 2018-11-08 고려대학교 산학협력단 바이오 마커 조성물, 진단용 키트, 및 정보제공방법

Similar Documents

Publication Publication Date Title
Colli et al. Platelet count, spleen length, and platelet count‐to‐spleen length ratio for the diagnosis of oesophageal varices in people with chronic liver disease or portal vein thrombosis
Zhang Residuals and regression diagnostics: focusing on logistic regression
Greenland Analysis goals, error‐cost sensitivity, and analysis hacking: Essential considerations in hypothesis testing and multiple comparisons
CN105368944B (zh) 可检测疾病的生物标志物及其用途
Nearing et al. Infectious complications are associated with alterations in the gut microbiome in pediatric patients with acute lymphoblastic leukemia
Liu et al. A model to identify individuals at high risk for esophageal squamous cell carcinoma and precancerous lesions in regions of high prevalence in China
Heffner et al. Multilevel likelihood ratios for identifying exudative pleural effusions
Colli et al. Capsule endoscopy for the diagnosis of oesophageal varices in people with chronic liver disease or portal vein thrombosis
KR102513540B1 (ko) 대장점막의 장내미생물총분석을 이용한 고위험성대장선종, 진행성 결장암 궤양성 대장염 및 정상대조군의 감별 진단 방법
Bailey et al. Comparisons between cats with normal and increased fPLI concentrations in cats diagnosed with inflammatory bowel disease
Dipnall et al. Into the bowels of depression: unravelling medical symptoms associated with depression by applying machine-learning techniques to a community based population sample
CN107305596A (zh) 肝门部胆管癌患者预后预测模型
Resch et al. Victoria Symptom Validity Test: A systematic review and cross-validation study
Mahnic et al. Distinct types of gut microbiota dysbiosis in hospitalized gastroenterological patients are disease non-related and characterized with the predominance of either Enterobacteriaceae or Enterococcus
Wu et al. Potential of gut microbiome for detection of autism spectrum disorder
CN114242245A (zh) 一种基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法、系统和装置
Milner et al. A histological method for quantifying Plasmodium falciparum in the brain in fatal paediatric cerebral malaria
Masala et al. A two-layered classifier based on the radial basis function for the screening of thalassaemia
Sauerbrei et al. Interpreting results in 2× 2 tables: part 9 of a series on evaluation of scientific publications
KR20220068866A (ko) 기계학습법을 이용한 미생물에 의한 질병 분류군의 분류 방법
Gonullu et al. Diagnostic accuracy rates of appendicitis scoring systems for the stratified age groups
Gritti et al. Understanding the literature: complexity of statistical methods used in high-impact cardiothoracic surgery research
Ciampi et al. Delirium superimposed on dementia: defining disease states and course from longitudinal measurements of a multivariate index using latent class analysis and hidden Markov chains
Topa et al. Biomarkers for the diagnosis and monitoring of celiac disease: can you count on me?
Dehal et al. Accuracy of nodal staging is influenced by sidedness in colon cancer

Legal Events

Date Code Title Description
E902 Notification of reason for refusal