KR20210145539A - 마이크로바이옴을 이용한 건강 정보 제공 방법 및 분석장치 - Google Patents

마이크로바이옴을 이용한 건강 정보 제공 방법 및 분석장치 Download PDF

Info

Publication number
KR20210145539A
KR20210145539A KR1020200062554A KR20200062554A KR20210145539A KR 20210145539 A KR20210145539 A KR 20210145539A KR 1020200062554 A KR1020200062554 A KR 1020200062554A KR 20200062554 A KR20200062554 A KR 20200062554A KR 20210145539 A KR20210145539 A KR 20210145539A
Authority
KR
South Korea
Prior art keywords
information
microbiome
sample
machine learning
microorganisms
Prior art date
Application number
KR1020200062554A
Other languages
English (en)
Other versions
KR102492977B1 (ko
Inventor
양성우
전재경
최익정
박지은
조창우
황인희
심선혜
서정선
김창훈
서한솔
신지원
김인선
Original Assignee
주식회사 마크로젠
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 마크로젠 filed Critical 주식회사 마크로젠
Priority to KR1020200062554A priority Critical patent/KR102492977B1/ko
Publication of KR20210145539A publication Critical patent/KR20210145539A/ko
Application granted granted Critical
Publication of KR102492977B1 publication Critical patent/KR102492977B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Primary Health Care (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

마이크로바이옴을 이용한 건강 정보 제공 방법은 분석장치가 인간의 샘플에 속한 미생물 군집에 대한 메타게놈(metagenome) 데이터를 획득하는 단계, 상기 분석장치가 상기 메타게놈 데이터와 미생물 유전정보 데이터베이스를 비교하여 상기 미생물 군집을 구성하는 복수의 미생물들의 구성 정보를 확인하는 단계, 상기 분석장치가 상기 구성 정보를 사전에 학습된 기계학습모델에 입력하는 단계 및 상기 분석장치가 상기 기계학습모델의 출력값을 기준으로 상기 샘플에 대한 건강 정보를 생성하는 단계를 포함한다.

Description

마이크로바이옴을 이용한 건강 정보 제공 방법 및 분석장치{PROVIDING METHOD FOR HEALTH INFORMATION BASED ON MICROBIOME AND ANALYSIS APPARATUS}
이하 설명하는 기술은 마이크로바이옴을 이용한 건강 정보를 제공하는 기법에 관한 것이다.
복합 형질(complex trait)은 표현형을 결정하는데 관여하는 형질을 말한다. 연구자들은 GWAS(Genome Wide Association Study)를 사용하여 복합 형질과 SNP(Single Nucleotide Polymorphism)의 연관성에 대한 연구를 수행하였다. 다만, GWAS는 특정 케이스에 대하여 단일 SNP의 통계적 의미만을 제시하는 유전성 결여(missing heritability)의 문제가 있고, SNP별로 특정 질환에 관여하는 가중치를 부여할 수 없다는 한계가 있다.
한편, 사람의 몸 내부에는 세균, 곰팡이, 원생동물 등 다양한 미생물들이 군집을 이루어 공생하고 있다. 장내 미생물은 장 내에서 하나의 복잡한 생태계를 이루며 사람과 공생관계를 유지하고 있다. 연구자들은 장내 미생물의 유전체 정보를 분석하여 인간의 복합 형질과의 연관성을 찾아가고 있다. 예컨대, 장내 미생물은 비만, 당뇨와 같은 대사 질환과 감염 질환, 자가면역 질환에 연관된다고 알려졌다.
Andrew Brantley Hall, Andrew C. Tolonen, Ramnik J. Xavier, "Human genetic variation and the gut microbiome in disease", Nature Reviews Genetics volume 18, pages 690-699, 2017
이하 설명하는 기술은 장내 생태계를 반영하는 미생물 군집의 특성을 기준으로 특정 질환과 같은 복합 형질을 예측하는 도구를 제공하고자 한다.
마이크로바이옴을 이용한 건강 정보 제공 방법은 분석장치가 인간의 샘플에 속한 미생물 군집에 대한 메타게놈(metagenome) 데이터를 획득하는 단계, 상기 분석장치가 상기 메타게놈 데이터와 미생물 유전정보 데이터베이스를 비교하여 상기 미생물 군집을 구성하는 복수의 미생물들의 구성 정보를 확인하는 단계, 상기 분석장치가 상기 구성 정보를 사전에 학습된 기계학습모델에 입력하는 단계 및 상기 분석장치가 상기 기계학습모델의 출력값을 기준으로 상기 샘플에 대한 건강 정보를 생성하는 단계를 포함한다. 상기 구성 정보는 상기 복수의 미생물들 각각의 구성 비율을 포함한다.
마이크로바이옴 분석장치는 인간의 샘플에 속한 미생물 군집에 대한 메타게놈(metagenome) 데이터를 입력받는 입력장치, 미생물 군집을 구성하는 복수의 미생물들의 구성 정보를 입력받아 샘플에 대한 건강 정보를 출력하는 기계학습모델을 저장하는 저장장치 및 상기 메타게놈 데이터로 기준으로 상기 샘플에 대한 구성 정보를 결정하고, 상기 구성 정보를 상기 기계학습모델에 입력하여 상기 샘플에 대한 건강 정보를 생성하는 연산장치를 포함한다.
이하 설명하는 기술은 수집이 용이한 샘플을 이용하여 특정 질환에 대하여 정확도 높은 진단 내지 예측을 한다. 이하 설명하는 기술은 다양한 질환에 대하여 사용자의 관리를 위한 정보를 제공한다.
도 1은 샘플의 건강 정보를 제공하는 시스템의 예이다.
도 2는 기계학습모델 구축 과정에 대한 예이다.
도 3은 다양한 기계학습모델의 파라미터에 대한 최적 임계값 탐색의 예이다.
도 4는 기계학습모델이 출력하는 건강 정보에 대한 ROC 커브에 대한 예이다.
도 5는 MRS의 교차비(odds ration) 분석에 대한 예이다.
도 6은 샘플의 건강 정보를 생성하는 과정에 대한 예이다
도 7은 분석장치의 구성에 대한 예이다.
이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시례를 가질 수 있는 바, 특정 실시례들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
이하 설명에서 사용되는 용어에 대하여 먼저 설명한다.
숙주는 미생물이 서식하는 대상이다. 숙주는 인간 또는 동물 등이 될 수 있다. 이하 설명하는 기술은 동물의 건강 상태를 확인하는 기법으로도 활용될 수 있다. 다만, 이하 숙주는 인간이라고 가정한다.
샘플은 건강 상태를 분석할 대상 내지 상기 대상에서 추출한 시료를 의미한다. 샘플은 분변과 같이 장내 미생물 파악이 가능한 시료일 수 있다.
유전체 정보는 특정한 개인 또는 개체의 유전체 데이터를 의미한다. 유전체 정보는 다양한 기술을 이용하여 획득될 수 있다. 개체는 기본적으로 인간, 동물, 식물, 미생물 등을 포함하는 의미이다. 예컨대, 유전체 데이터는 세포, 조직 등으로부터 데옥시리보 핵산(DNA), 리보핵산(RNA), 또는 단백질(Protein) 등에서 얻어진 염기서열, 유전자 발현 데이터, 표준 유전체 데이터와의 유전 변이, DNA 메틸화(methylation) 등을 포함할 수 있다. 대표적으로 유전체 정보는 NGS(Next Generation Sequencing)를 이용하여 획득되는 유전자 정보일 수 있다. NGS 분석 결과는 디지털 파일(fastq) 포맷으로 제공될 수 있다.
인간 마이크로바이옴(human microbiome)은 인체에 서식, 공생하는 개체 수준의 세균, 바이러스 그리고 곰팡이 등 모든 미생물 군집과 이들 미생물 군집이 가지는 유전정보로 정의된다. 일반적으로 인간 마이크로바이옴은 인간의 장, 구강, 피부 등에 서식하는 미생물에 대한 정보를 포함한다. 인간 마이크로바이옴은 미생물의 16s rRNA와 함께 전체 게놈(Whole genome) 등의 정보를 포함한다. 16s rRNA의 양은 사람으로부터 나온 여러 가지 샘플에 대해 메타게놈 분석을 하여 알 수 있다. 메타게놈 분석은 여러 가지 메타게놈 분석과 관련된 생명정보학적 도구를 이용해 수행할 수 있다. 분석의 목적은 일반적으로 16s rRNA의 양을 측정하여 사용자의 인체 유래 미생물의 양과 분포를 확인하는 것이다. 인간 마이크로바이옴은 16s rRNA분석을 위한 원시 정보부터 획득되는 OTU(Operational Taxonomic Unit) 정보를 포함한다. 나아가, 전장 유전체 분석(whole-genome sequencing)은 샘플의 염기서열 전체를 해독하는 방식으로, 분석 결과는 인간 유전 정보와 미생물의 유전 정보를 모두 포함한다. 따라서, 연구자는 미생물의 유전 정보만 추출(인간 유정 정보 필터링)하여 미생물 군집의 유전 정보를 확인할 수 있다.
미생물의 전체 게놈은 미생물의 유전자적 변이에 의해 증식 또는 감소하게 되며, 이 정보는 사람의 건강에 중요한 기능을 한다고 알려졌다. 이하 인간 마이크로바이옴 또는 마이크로바이옴은 동일한 의미로 사용한다.
임상정보는 의료 검진의 결과로 추출되는 데이터를 의미한다. 예컨대, 임상 정보는 (i) 표현형(phenotype) 정보, (ii) 의료 장비로 인간이나 인간에서 추출한 시료(혈액 등)를 측정 내지 분석한 결과 및 (iii) 의료진의 진단 결과 등을 포함한다. 예컨대, 표현형 정보는 나이, 신장, 체중, 성별, 인종 등과 같은 정보를 포함할 수 있다. 예컨대, 장비 측정 결과는 BMI(Body Mass Index), 콜레스테롤 수치, 당화혈색소 수치, 혈당 수치 등과 같은 정보를 포함할 수 있다. 나아가 장비 측정 결과는 X-ray, CT, PET, MRI 등과 같은 의료 영상을 포함할 수 있다. 의료진의 진단 결과는 표현형 정보, 장비 측정 결과 및 문진 등을 토대로 결정되는 진단 정보를 의미한다. 예컨대, 의료진의 진단 결과는 질병의 확진, 질병의 정도, 예측 수명, 치료 방법, 약품 정보 등을 포함할 수 있다.
생활습관 정보는 생활습관(lifelog)과 관련한 정보를 의미한다. 예컨대, 생활습관 정보는 (i) 신체 활동 정보, (ii) 음식 섭취 정보, (iii) 운동 정보 등을 포함할 수 있다. 신체 활동 정보는 수면 시간, 기상 시간, 근무 시간, 휴식 시간 등을 포함할 수 있다. 음식 섭취 정보는 하루 섭취 열량, 섭취 영양분의 양 등을 포함할 수 있다. 운동 정보는 운동 여부, 운동 강도 등의 정보를 포함할 수 있다. 생활습관 정보는 측정 장비로 모니터링하여 측정할 수 있다. 나아가 생활습관 정보는 개인 생활에 대한 설문조사를 통하여 획득될 수도 있다.
전술한 임상 정보 및 생활습관 정보는 숙주에 대한 정보이다. 숙주에 대한 정보를 숙주 정보라고 명명할 수 있다.
숙주 정보와 구별되는 정보는 마이크로바이옴 정보이다. 마이크로바이옴 정보는 숙주 내에 있는 미생물에 대한 정보이다. 마이크로바이옴 정보는 미생물 군집에 대한 정보 내지 미생물 전체 게놈에 대한 정보를 포함한다. 미생물 군집에 대한 유전체 정보는 전장 유전체 분석(whole-genome sequencing), 16S rDNA 메타게놈 시퀀싱 등과 같은 기법으로 확보할 수 있다. 마이크로바이옴 정보는 컴퓨터가 처리할 수 있는 메타게놈 데이터에 해당한다.
인간 장내에는 서로 다른 종류의 다양한 미생물이 군집을 형성한다. 마이크로바이옴 정보를 분석하면, 샘플에 있는 미생물 군집에 대한 정보를 알 수 있다. 미생물 군집을 구성하는 미생물들의 종류 또는/및 서로 다른 종류 미생물의 비율을 미생물 구성 정보 또는 마이크로바이옴 구성 정보라고 명명한다.
건강 정보는 개인의 건강 상태를 나타내는 정보이다. (i) 건강 정보는 특정 질환에 대한 위험도와 같은 정보를 포함할 수 있다. 예컨대, 건강 정보는 제2형 당뇨(type 2 diabetes)에 대한 위험도를 포함할 수 있다. 건강 정보는 특정 샘플에 대하여 해당 질환에 대한 위험군 또는 비위험군과 같은 정보를 포함할 수 있다. (ii) 건강 정보는 특정 질환에 대한 진행 정도를 포함할 수도 있다. (iii) 나아가, 건강 정보는 다른 복합 형질에 대한 정보를 포함할 수도 있다.
이하 설명하는 기술은 인체 유래 미생물 군집의 유전체 정보를 분석하여 복합 형질을 판별한다. 예컨대, 이하 설명하는 기술은 장내 미생물을 이용하여 특정 질환에 대한 진단, 위험도, 예후 예측 등에 적용할 수 있다.
도 1은 서비스 사용자(A), 유전체 정보 제공자(B) 및 서비스 제공자(C)를 도시한다. 도 1은 서비스 사용자에게 건강 정보를 제공하는 시스템에 대한 예이다. 도 1은 사용자의 샘플을 이용하여 사용자의 건강 정보를 제공하는 서비스 흐름을 도시한다.
서비스 사용자(A)는 분석장치가 분석한 건강 정보를 제공받는 주체이다. 서비스 사용자(A)는 개인 또는 의료 기관일 수 있다. 서비스 사용자(A)는 대상자의 건강 상태를 파악하기 위하여 필요한 샘플(시료) 및 정보를 사전에 수집할 수 있다. 서비스 사용자(A)는 분석을 위한 샘플 및 정보를 유전체 정보 제공자(B)에게 제공할 수 있다.
유전체 정보 제공자(B)는 샘플을 분석하여 마이크로바이옴 정보를 제공하는 주체이다. 유전체 정보 제공자(B)는 메타게놈 시퀀싱 기법으로 메타게놈 데이터를 생성한다. 메타게놈 데이터는 숙주의 유전체 정보 및 마이크로바이옴 정보를 포함할 수 있다.
서비스 제공자(C)는 샘플의 마이크로바이옴 정보를 이용하여 샘플의 건강 정보를 생성하는 주체이다. 서비스 제공자(C)는 유전체 데이터를 분석하는 전문 기관일 수 있다. 한편, 서비스 제공자(C)는 유전체 정보를 생성하는 유전체 정보 제공자(B)와 동일한 주체일 수 있다. 이 경우, 서비스 제공자(C)는 서비스 사용자(A)로부터 샘플을 전달받아, 마이크로바이옴 정보를 생성하고, 마이크로바이옴 정보에 기반하여 건강 정보를 제공한다.
서비스 사용자(A)는 일정한 키트(kit)를 이용하여 샘플 및 건강 관련된 설문 정보를 서비스 제공자(C)에게 제공할 수 있다. 서비스 제공자(C)는 키트에 포함된 샘플을 이용하여 메타게놈 데이터를 생성할 수 있다. 또한, 서비스 제공자(C)는 키트에 포함된 정보를 EMR(Electronic Medical Record) DB(120)에 전송할 수도 있다.
도 1은 샘플의 건강 정보를 제공하는 시스템의 예이다. 도 1은 2가지 유형의 시스템을 도시한다. 분석장치(150, 250)는 샘플의 메타게놈 데이터를 분석하여 건강 정보를 생성한다. 도 1에서 분석장치는 네트워크 서버(150) 및 컴퓨터 단말(250)의 형태로 도시하였다.
도 1(A)는 서버 형태의 분석장치(150)를 포함하는 시스템(100)에 대한 예이다.
유전체 정보 생성장치(110)는 샘플에 대한 메타게놈 데이터를 생성한다. 유전체 정보 생성장치(110)는 생성한 유전체 정보를 별도의 DB에 저장할 수도 있다. 분석장치(150)는 유전체 정보 생성장치(110) 또는 별도의 DB로부터 특정 샘플의 메타게놈 데이터를 수신한다. 특정 샘플을 구별하기 위하여 메타게놈 데이터는 개체에 대한 식별정보를 포함할 수 있다.
분석장치(150)는 샘플의 메타게놈 데이터를 기준으로 해당 샘플의 건강 정보를 생성한다. 분석장치(150)는 샘플의 마이크로바이옴 구성 정보를 기계학습모델에 입력하여 건강 정보를 생성할 수 있다. 분석장치(150)는 샘플에 대한 분석 결과를 서비스 사용자(A)에게 제공할 수 있다. 예컨대, 분석장치(150)는 개인 단말(50)에 분석 결과를 전송할 수도 있다.
한편, 분석장치(150)는 EMR 데이터베이스(120)로부터 동일 샘플에 대한 임상 정보를 수신할 수도 있다. 예컨대, 분석장치(150)는 샘플의 나이 및 성별 정보를 수신할 수 있다.
EMR 데이터베이스(120)는 서비스 사용자(A)에 대한 정보를 보유한다. EMR 데이터베이스(120)가 보유한 정보는 서비스 사용자(A)가 제공할 수 있다. 또는, EMR 데이터베이스(120)가 보유한 정보는 서비스 제공자(C)가 제공할 수도 있다. 서비스 제공자(C)는 서비스 사용자(A)로부터 받은 키트를 이용하여 일정한 임상 정보를 EMR 데이터베이스(120)에 저장할 수 있다.
이 경우, 분석장치(150)는 샘플의 메타게놈 데이터 및 임상 정보를 분석하여 건강 정보를 생성할 수 있다. 나아가, 분석장치(150)는 샘플의 임상 정보뿐만 아니라, 생활습관 정보를 더 수신하여 건강 정보를 생성할 수도 있다.
도 1(B)는 컴퓨터 단말 형태의 분석장치(250)를 포함하는 시스템(200)에 대한 예이다. 유전체 정보 생성장치(210)는 샘플에 대한 메타게놈 데이터를 생성한다. 유전체 정보 생성장치(210)는 생성한 메타게놈 데이터를 별도의 DB에 저장할 수도 있다.
분석장치(250)는 유선 또는 무선 네트워크로 유전체 정보 생성장치(210) 또는 별도의 DB로부터 특정 샘플의 메타게놈 데이터를 수신할 수 있다. 또는 분석장치(250)는 메타게놈 데이터를 저장 매체(SD카드, USB 등)를 통해 입력받을 수도 있다. 특정 샘플을 구별하기 위하여 유전체 정보는 개체에 대한 식별정보를 포함할 수 있다.
분석장치(250)는 샘플의 메타게놈 데이터를 기준으로 해당 샘플의 건강 정보를 생성한다. 분석장치(250)는 샘플의 마이크로바이옴 구성 정보를 기계학습모델에 입력하여 건강 정보를 생성할 수 있다. 분석장치(250)는 샘플에 대한 분석 결과를 출력할 수 있다.
한편, 분석장치(250)는 EMR 데이터베이스(220)로부터 동일 샘플에 대한 임상 정보를 수신할 수도 있다. 예컨대, 분석장치(250)는 샘플의 나이 및 성별 정보를 수신할 수 있다. EMR 데이터베이스(220)는 서비스 사용자(A)가 제공할 수도 있다. 이 경우, 분석장치(250)는 샘플의 메타게놈 데이터 및 임상 정보를 분석하여 건강 정보를 생성할 수 있다. 나아가, 분석장치(250)는 샘플의 임상 정보뿐만 아니라, 생활습관 정보를 더 수신하여 건강 정보를 생성할 수도 있다.
도 1에서 설명한 바와 같이 분석장치(150 및 250)는 마이크로바이옴 구성 정보를 사전에 마련한 기계학습모델에 입력하여 건강 정보 또는 건강 정보를 생성하기 위한 출력값을 생성한다. 먼저, 건강 정보 생성을 위한 기계학습모델을 구축하는 과정을 설명한다.
도 2는 기계학습모델 구축을 위한 시스템(300)에 대한 예이다. 컴퓨터 장치(350)가 학습 데이터를 이용하여 기계학습모델을 훈련한다고 가정한다. 컴퓨터 장치(350)는 설계된 기계학습모델에 학습 데이터를 반복적으로 입력하면서, 기계학습모델의 파라미터를 최적화한다.
컴퓨터 장치(350)는 공개된 데이터를 활용하여 기계학습모델을 생성할 수 있다. 나아가, 컴퓨터 장치(350)는 기계학습모델 생성을 위한 전용 학습 데이터를 이용하여 기계학습모델을 생성할 수도 있다.
학습 데이터는 크게 임상 정보와 마이크로바이옴 정보로 구분할 수 있다. (1) 임상 정보는 개인의 임상 정보 내지 생활습관 정보 등을 포함할 수 있다. 예컨대, 임상 정보는 도 2에 도시한 바와 같이 개인의 나이 및 성별로 구성될 수 있다. EMR DB(310)는 개인의 식별자, 나이 및 성별을 항목으로 갖는 테이블을 보유한다. 개인의 임상 정보는 병원의 진료 데이터, 개인이 작성한 문진 데이터 등을 통하여 획득할 수 있다. (2) 마이크로바이옴 정보는 도 2에 도시한 바와 같이 개인 식별자, 미생물 군집의 구성 정보 및 해당 개인의 건강 정보로 구성될 수 있다. 마이크로바이옴 DB(320)는 개인 식별자, 미생물 군집의 구성 정보 및 해당 개인의 건강 정보를 항목으로 갖는 테이블을 보유한다. 마이크로바이옴 정보는 개인의 샘플을 분석한 주체가 제공한다. 예컨대, 연구기관의 연구자, 병원의 임상 분석팀, 유전체 분석 회사 등이 마이크로바이옴 정보를 제공한다. 마이크로바이옴 정보는 구성 정보를 포함한다. 구성 정보는 기계학습모델을 생성하는 주체가 주어진 마이크로바이옴 정보를 분석하여 생성할 수도 있다. 즉, 컴퓨터 장치(350)가 입력된 마이크로바이옴 정보를 처리하여 구성 정보를 추출하고, 구성 정보를 학습데이터로 이용할 수도 있다.
연구자는 제2형 당뇨(type 2 diabetes)에 대한 공개된 데이터를 활용하여 기계학습모델을 구축하고, 모델을 검증하였다. 따라서, 이하 제2형 당뇨를 중심으로 기술을 설명하고자 한다. 다만, 이하 설명하는 기술이 특정 복합 형질의 판정에 국한되는 것은 아니다.
분석에 사용한 데이터 세트는 NCBI(National Center for Biotechnology Information) SRA050230이다. 해당 데이터 세트는 제2형 당뇨 환자와 정상인 225명에 대한 데이터를 포함한다. 해당 데이터 세트에서 225명 중 표현형과 샘플명이 일치하는 153개의 샘플을 선별하였다. 표현형과 관련한 정보는 보충자료(supplement data)를 통해 확인하였다.
도 3은 기계학습모델 구축 과정(400)에 대한 예이다. 먼저, 기계학습모델 학습을 위한 입력데이터(410)를 마련한다. 입력데이터는 샘플의 마이크로바이옴 구성 정보이다. 즉, 훈련데이터는 샘플의 미생물 군집을 구성하는 각 미생물 비율을 포함할 수 있다. 연구자는 컴퓨터 장치를 이용하여 기계학습모델을 구축할 수 있다. 이하, 컴퓨터 장치가 기계학습모델을 구축한다고 설명한다.
전술한 153개의 샘플 데이터는 원시(raw) 메타게놈 데이터에 해당한다. 컴퓨터 장치는 원시 메타게놈 데이터를 획득한다(411). 원시 메타게놈 테이터는 전체 메타게놈 시퀀싱 데이터, 16s rRNA 메타게놈 시퀀싱 데이터를 포함한다. 컴퓨터 장치는 원시 메타게놈 데이터에 대한 리드(read)를 트리밍(trimming)할 수 있다(412). 즉, 컴퓨터 장치는 원시 메타게놈 데이터의 미생물 염기 서열 중 품질(qualtiy)이 낮은 부분을 잘라낼 수 있다. 컴퓨터 장치는 상용 프로그램을 사용하여 트리밍을 할 수 있다. 실험 과정에서 TrimGalore v0.5.0 (https://github.com/FelixKrueger/TrimGalore)를 이용하여 전술한 153 샘플의 리드를 트리밍 하였다. 트리밍에 사용한 파라미터는 (i)Quality Phred score cutoff 28, (ii) Maximum trimming error rate 0.1, (iii)Minimum required adapter overlap 1 bp, (iv)최소 요구 시퀀스 길이는 20 bp이다.
컴퓨터 장치는 원시 메타게놈 데이터에서 인간 서열을 제거한다(413). 컴퓨터 장치는 인간 유전체 DB를 활용하여 원시 메타게놈 데이터에서 순수 인간 유전체 정보와 매칭되는 서열을 제거한다. 한편, 컴퓨터 장치는 상용 프로그램을 사용하여 인간 유전체를 제거할 수도 있다. 실험 과정에서 컴퓨터 장치는 metaWRAP v1.2.2의 read_qc 명령어를 기본 파라미터(default parameter)를 적용하여 인간 유전체 데이터를 제거하였다. 상기 명령어는 BMTagger를 통해 참조 인간 게놈(reference human genome, hg38)에 리드를 맵핑하고, 성공적으로 맵핑된 리드를 제거한다.
이후, 컴퓨터 장치는 미생물 유전체 DB를 이용하여 메타게놈 데이터를 맵핑한다(414). 실험 과정에서 컴퓨터 장치는 KRAKEN2 v2.0.8(https://ccb.jhu.edu/software/kraken2/)를 이용해 남은 리드들을 동정하였다. 컴퓨터 장치는 GTDB(Genome based Taxonomy Database) RS86을 기반으로 제작된 KRAKEN DB(https://github.com/hcdenbakker/GTDB_Kraken)를 함께 사용하였다. 미생물 유전체 DB에 맵핑하면, 메타게놈 데이터가 어떤 종류의 미생물로 구성되었는지 확인할 수 있다(415). 실험에서는 컴퓨터 장치가 153개 샘플의 미생물 종(taxon)별로 발견된 리드의 개수를 테이블 형태로 정리하였다(415). 미생물 종별로 리드 개가 정리된 테이블을 분류 테이블이라고 명명한다.
실험에서 마이크로바이옴의 fastq 파일에 대한 평균 리드의 수는 1,388,202,442개(n=153)이다. 트리밍 이후 평균 리드의 수는 1,250,010,408(n=153)으로서 QC과정에서 9.96%의 리드가 제거되었다. BMTagger를 이용하여 인간 리드를 검출한 결과 인간 리드는 나오지 않았다. 이후 KRAKEN을 이용하여 할당한 결과 미생물 종으로 할당된 리드의 수는 평균 10,663,811개이었고, 샘플당 최소한 설정된 리드의 평균 수는 5,708,018개이었다. 평균 35.3%의 리드가 미분류되었으며, 미분류된 리드들은 향후 분석에서 제외하였다. 샘플들에서 발견된 BacteriaArchaea는 12946종이며, 우점종은 Bacteroides _B vulgatus (144샘플의 평균 상대 양: 7.9%), Bacteroides uniformis (4.5%), Bacteroides_B dorei (4.2%) 등이었다.
153개 샘플에 대한 메타게놈 데이터를 이용하여, 기계학습모델 학습을 위한 훈련 데이터를 마련하고(421), 학습된 모델 검증을 위한 검증 데이터(422)를 마련하였다.
컴퓨터 장치는 분류 테이블에는 각 종의 리드가 153개의 샘플에서 각각 몇 개씩 발견되었는지 확인할 수 있다. 컴퓨터 장치는 샘플마다 리드의 수가 다르기 때문에 각 리드의 수를 전체 리드의 개수로 나눠 백분율(percentage) 값으로 전환하였다. 컴퓨터 장치는 153개의 데이터 세트를 무작위로 107개의 훈련 데이터 세트와 46개의 검증 데이터 세트로 구분하였다. 한편, 훈련 데이터 세트와 검증 데이터 세트는 최대한 비슷한 성질을 지닌 그룹으로 구분하여야 한다. 두 그룹 간의 분포 차이가 유의미한지 확인하기 위해 t-검증(test)을 이용하여 p 값(value)을 확인하였다. p 값이 0.01보다 높을 경우 두 그룹은 유의미하게 다르지 않다고 정의한다.
컴퓨터 장치는 훈련 데이터를 이용하여 기계학습모델을 학습하였다(423). 나아가, 컴퓨터 장치는 추가적으로 EMR 데이터를 더 이용하여 기계학습모델을 학습하였다. 도 3에서 EMR 데이터는 샘플의 임상 정보 및/또는 생활습관 정보를 포함할 수 있다. 실제 실험에서는 샘플의 나이와 성별을 EMR 데이터로 사용하였다.
기계학습모델은 다양한 유형 중 어느 하나를 사용할 수 있다. 또는, 기계학습모델은 복수의 모델을 조합하여 사용할 수도 있다. 기계 학습 모델은 복수의 미생물의 구성 비율들을 복수의 입력으로 삼는 다변량 분석(multivariate analysis) 모델일 수 있다.
기계학습모델은 리지 회귀분석(Ridge regression), 신축망(Elastic Net). LASSO(Least Absolute Shrinkage and Selection Operator), SVM(Support Vector Machine), 랜덤 포레스트(Random Forest), 부스팅 모델(XGboost, catBoost 등), 다층 퍼셉트론(multilayer perceptron) 등과 같은 다양한 모델 중 적어도 하나일 수 있다.
기계학습모델이 산출하는 출력값은 아래 수학식 1과 같이 표현할 수 있다.
Figure pat00001
MRSi는 샘플 i에 대한 출력값이다. 한편, MRS(Microbiome Risk Score)는 마이크로바이옴을 기준으로 특정 질환에 대한 위험 정도를 산출한 값이라고 할 수 있다. n은 미생물 종류의 개수이다. j는 미생물 식별자이다. Taxa abundanceij는 샘플 i에서 전체 미생물 중 미생물 j의 비율이다. βj는 미생물 j에 대한 가중치이다. β0는 절편(intercept)이다. 가중치 β에 대한 최적화는 다음 과정을 통해 계산할 수 있다.
Figure pat00002
비용(Cost)은 β를 최적화하기 위한 함수이다. yi는 실제 라벨(제2형 당뇨 여부)을 의미한다. 가중치는 실제 값 yi 값과 MRSi의 차이가 최소가 되는 비용으로 최적화된다.
다만, 현재 확보된 코호트(cohort)에서 마이크로바이옴 데이터는 검출된 종에 비해 샘플의 수가 적었다. 따라서, 검출되는 종의 질병과의 연관성이 낮은 순서에 따라 축소(shrinkage)를 진행할 필요가 있다. 해당 값은 λ를 통해 최적화를 진행하며 모델의 성능이 최적화된 시점의 λ를 사용하는 것이 일반적이다. 아래 수학식 3은 데이터에 대한 축소를 적용한 비용을 나타낸다.
Figure pat00003
한편, 기계학습모델은 특정한 복합 형질에 따라 다른 모델이 준비될 수 있다. 예컨대, 기계학습모델은 질환의 종류에 따라 서로 다른 모델이 사전에 마련될 수 있다. 한편, 동일한 복합 형질(질환)이라도, 지역 또는 인종에 따라 마이크로바이옴 구성이 달라질 수 있다. 마이크로바이옴은 유전적 영향 및 환경적 영향(식습관 등)에 모두 영향을 받기 때문이다. 따라서, 동일한 복합 형질(질환)이라고, 기계학습모델은 지역이나 인종에 따라 서로 다른 모델이 마련될 수도 있다.
컴퓨터 장치는 103개의 훈련 데이터 세트를 학습시켜 모델을 최적화하였다. 또한, 컴퓨터 장치는 51개의 검증 데이터 세트를 이용하여 각 모델의 성능을 검증하였다(424).
실험과정에서 복수의 기계학습모델을 구축하여 검증하였다. 실험에서는 리지 회귀분석, SVM, 랜덤 포레스트, LASSO 및 신축망 모델을 구축하여 검증하였다. 도 4는 다양한 기계학습모델의 파라미터에 대한 최적 임계값 탐색의 예이다. 탐색은 훈련 데이터 세트를 이용하였다. LASSO, 신축망(Elastic Net) 및 리지 회귀 모델은 r 제곱(square) 값을 통해 최적화를 진행하였다. 랜덤 포레스트(RF)는 OOB 점수(Out Of Bagging score)를 이용하여 최적화하였다. SVM은 훈련 데이터 세트의 평균 정확도(mean accuracy)가 최대값이 나오도록 최적화 임계값을 설정하였다.
도 4(A)는 랜덤 포레스트(RF)의 파라미터의 최적 임계값을 탐색한 결과이다. 랜덤 포레스트는 n estimator가 4일 때 최적이었다. 도 4(B)는 SVM의 파라미터의 최적 임계값을 탐색한 결과이다. SVM은 C값이 0.96일 때 최적이었다. 도 4(C)는 신축망의 파라미터의 최적 임계값을 탐색한 결과이다. 신축망은 L1 ratio(alpha)의 변화에 따른 값을 확인 결과 L1 비율(ratio)은 0.1일 때 최적이었다. 도 4(D)는 LASSO의 파라미터의 최적 임계값을 탐색한 결과이다. LASSO는 람다(lambda) 값이 0.0001이 최적이었다. 도 3(E)는 리지 회귀 모델의 파라미터의 최적 임계값을 탐색한 결과이다. 리지 회귀 모델은 람다 값이 0.001이 최적이었다.
실험에서는 리지 회귀분석, SVM, 랜덤 포레스트, LASSO 및 신축망 모델을 구축하여 검증하였다. 각 모델에 대한 파라미터 최적화 이후, 해당 모델의 AUC(Area Under the ROC Curve) 결과는 아래 표 1에 표시한다.
모델 구분 AUC 값
랜덤 포레스트(RF) 0.6273
SVM 0.555
LASSO 0.6851
신축망 0.7917
리지 회귀 모델 0.8009
제2형 당뇨에 대한 샘플 데이터를 기준으로 구축된 기계학습모델 중 리지 회귀 모델이 가장 결과값이 좋았다. 이후 리지 회귀 모델을 이용하여 전술한 MRS 모델로 선정하여 결과를 종래 연구 결과와 비교하였다. MRS 모델은 마이크로바이옴을 이용하여 특정 질환에 대한 위험도를 예측하는 모델이라고 할 수 있다.
리지 회귀 모델 기반 MRS 모델과 종래 연구를 비교하기 위하여 종들 간 관계(species-species association)를 확인해야 한다. 종들 간 관계를 확인하기 위해 부분 상관(partial correlation)을 사용하였다. 부분 상관을 확인하기 위해 스피어만 상관분석(spearman correlation)을 이용해 구한 r값을 활용하였다. 예컨대, 종 1과 종 2의 관계를 종 3에 독립적으로 확인하려 한다면 아래 수학식 4를 통해 확인할 수 있다.
Figure pat00004
rsp12 ,3은 종 1과 종 2 간의 부분 상관을 보고자 할 때 종 3의 영향이 없도록 한다는 기호이다. rspij는 종 i과 종 j의 스피어만 상관의 결과이다.
MRS 모델을 통해 각 종에 대한 베타 계수(beta coefficient)를 파악하여다. MRS 모델 기준으로 베타 계수가 가장 높은 상위 10개의 미생물들과 종전 연구결과에 나왔던 종들을 비교하였다. 베타 계수의 절대값을 기준으로 상위 10개는 Dialister succinatiphilus(0.123%), CAG -269 sp2(0.067%), Fusobacterium _A varium(0.066%), Clostridium_M bolteae(0.477%), Collinsella tanakaei(0.039%), CAG-194 sp1, Dakarella massiliensis, Fusobacterium_A mortiferum, Prevotella(genus), CAG-81 sp1 이었다. 이 중 다섯 종은 종래 제2형 당뇨 또는 기타 질병과의 연관성이 보고된 바 있다.
예컨대, Dialister succinatiphilus는 Hemoglobin A1C(HbAlc)와 연관이 있다고 밝혀졌다. CAG -269 sp2가 속한 Clostridia는 제2형 당뇨환자들에서 유의미하게 높은 양을 보였다. Fusobacterium _A variumFusobacterium 의 증가가 제2형 당뇨 이외에도 Dementia, chronic obstructive, lung disease, heart disease 등과도 관련이 있다고 보고가 있다. Clostridium_M bolteae는 인슐린 저항에 영향을 주는 균으로 연구되었다. Collinsella tanakaei는 환자군에서 Collinsella가 건강한 모집단에 비하여 유의미한 차이가 있다고 연구되었다. 따라서, 종래 연구 결과에 비추어 MRS 모델로 결정된 주요한 미생물들이 제2형 당뇨 환자와 연관성이 높다는 것을 알 수 있다.
기계학습모델은 마이크로바이옴 구성 정보 외에 임상 정보도 활용할 수 있다. 비교를 위하여 (i) 샘플의 마이크로바이움 구성 정보만을 사용하여 구축한 기계학습모델, (ii) 샘플의 마이크로바이움 구성 정보 및 임상 정보는 사용하여 구축한 기계학습모델 및 (iii) 샘플의 임상 정보만을 사용하여 구축한 기계학습모델을 구축하였다.
임상 정보는 성별과 나이를 사용하였다. 나이의 스케일(scale)이 성별과 다르기 때문에 최소-최대 스케일링(min-max scaling)을 통해 성별 및 나이 두 가지 모두 동일한 범위로 조정하였다. 임상 정보만을 사용한 모델은 로지스틱 회귀(Logistic regression)를 사용하여 구축하였다. 마이크로바이움 구성 정보 또는 마이크로바이움 구성 정보/임상 정보를 사용한 모델은 리지 회귀를 사용하여 구축하였다.
도 5는 기계학습모델이 출력하는 건강 정보에 대한 ROC 커브에 대한 예이다. 마이크로바이옴만을 이용한 모델(Microbiome data)과 임상 정보만을 이용한 모델(Clinical data)의 성능 차이를 확인한다.
마이크로바이옴만을 이용한 모델은 AUC 값이 0.801(95% Confidence Interval(CI) = 0.697 to 0.891)이고, 임상 정보만을 이용한 모델은 AUC값이 0.731(95% CI = 0.629 to 0.833)이다. 마이크로바이옴과 임상 정보를 모두 이용한 모델(Microbiome data+Clinical data)은 AUC값이 0.794(95% CI= 0.683 to 0.889)였다. 대부분의 구간에서 마이크로바이옴만을 이용한 모델이 임상 정보만을 이용한 모델보다 성능이 좋았다.
나아가, 마이크로바이옴과 임상 정보를 모두 이용한 모델이 마이크로바이옴만을 사용한 모델보다 전반적으로 민감도(sensitivity)와 특이도(specificity)가 높았다. 따라서, 질병 진단에서 마이크로바이옴과 임상 정보가 서로 상호 보완적인 역할을 한다고 해석할 수 있다.
도 6은 MRS의 교차비(odd ratio) 분석에 대한 예이다. 교차비 값은 20% 미만 샘플의 위험도를 기준으로 측정하였다. MRS 값이 20-40%의 사람들은 20% 미만의 사람들보다 약 1.67배 높은 위험도를 보인다. MRS 값이 40~60%의 사람들은 20% 미만의 사람들보다 약 1.97배 더 높은 위험도를 보인다. MRS 값이 60~80%의 사람들은 20% 미만의 사람들보다 2.39배 더 높은 위험도를 보인다. MRS 값이 80% 이상의 사람들은 20% 미만의 사람들보다 3.07배 더 높은 위험도를 보인다. 따라서, MRS 값이 질환의 위험도 예측에 매우 높은 연관성이 있다는 것을 알 수 있다.
도 7은 샘플의 건강 정보를 생성하는 과정(500)에 대한 예이다. 샘플의 건강 정보를 생성하는 과정은 분석장치가 수행한다고 가정한다. 분석장치는 먼저 입력 데이터 전처리를 수행한다(510). 입력 데이터 전처리는 원시 메타게놈 데이터로부터 마이크로바이옴 구성 정보를 생성하는 과정이다.
분석장치는 원시 메타게놈 데이터를 획득한다(511). 원시 메타게놈 테이터는 전체 메타게놈 시퀀싱 데이터, 16s rRNA 메타게놈 시퀀싱 데이터를 포함한다. 분석장치는 원시 메타게놈 데이터에 대한 리드(read)를 트리밍(trimming)할 수 있다(512). 즉, 분석장치는 원시 메타게놈 데이터의 미생물 염기 서열 중 품질(qualtiy)이 낮은 부분을 잘라낼 수 있다. 분석장치는 다양한 상용 프로그램을 사용하여 트리밍을 할 수도 있다. 분석장치는 원시 메타게놈 데이터에서 인간 서열을 제거한다(513). 분석장치는 인간 유전체 DB(hg38)를 활용하여 원시 메타게놈 데이터에서 순수 인간 유전체 정보와 매칭되는 서열을 제거한다. 한편, 컴퓨터 장치는 상용 프로그램을 사용하여 인간 유전체를 제거할 수도 있다(513).
이후, 분석장치는 미생물 유전체 DB를 이용하여 메타게놈 데이터를 맵핑한다(514). 미생물 유전체 DB는 공개된 미생물 유전체 DB를 활용할 수도 있다. 이 과정을 통해 분석장치는 메타게놈 데이터에 포함된 미생물을 파악할 수 있다.
분석장치는 샘플의 미생물 종(taxon)별로 발견된 리드의 개수를 분류 테이블로 정리하여 마이크로바이옴 구성 정보를 생성할 수 있다(515). 마이크로바이옴 구성 정보는 샘플에 포함된 미생물 군집에 대하여, 미생물 군집을 구성하는 각 미생물들의 구성 비율을 의미한다.
분석장치는 사전에 학습된 기계학습모델에 마이크로바이옴 구성 정보를 입력한다. 분석장치는 추가적으로 EMR 데이터를 입력받을 수도 있다(520). EMR 데이터는 임상 정보(나이, 성별 등) 및 생활습관 정보 중 적어도 하나를 포함할 수 있다. 기계학습모델의 학습 과정에 대해서는 도 3에서 설명하였다. 기계학습모델은 입력 데이터를 입력받아 일정한 출력값을 출력한다(530). 기계학습모델이 출력하는 출력값 자체가 건강 정보를 구성할 수 있다.
분석장치는 출력값을 일정하게 정규화할 수 있다(535). 정규화된 출력값이 건강 정보를 구성할 수도 있다. 아래 수학식 5에서 표현한 MRS는 정규화된 값이다. 수학식 5에서 xi는 샘플 i에 대하여 기계학습모델이 출력하는 값이다. MRS는 이와 같이 백분위로 변환된 값일 수 있다.
Figure pat00005
도 8은 마이크로바이옴을 분석하는 분석장치의 구성(600)에 대한 예이다. 분석장치(600)는 전술한 분석장치(150, 250)에 해당하는 구성이다. 분석장치(600)는 샘플의 메타게놈 데이터를 분석하는 모델 내지 프로그램을 이용하여 샘플에 대한 건강 정보를 생성할 수 있다. 분석장치(600)는 물리적으로 다양한 형태로 구현될 수 있다. 예컨대, 분석장치(600)는 PC, 스마트기기, 컴퓨터 장치, 네트워크의 서버, 데이터 처리 전용 칩셋 등의 형태를 가질 수 있다.
분석장치(600)는 저장장치(610), 메모리(620), 연산장치(630), 인터페이스 장치(640), 통신장치(650) 및 출력장치(660)를 포함할 수 있다.
저장장치(610)는 미생물 군집을 구성하는 복수의 미생물들의 구성 정보를 입력받아 샘플에 대한 건강 정보를 출력하는 기계학습모델을 저장할 수 있다. 기계학습모델은 도 3과 같은 과정으로 사전에 학습된 모델이다.
저장장치(610)는 입력받은 샘플의 메타게놈 데이터를 저장할 수 있다.
저장장치(610)는 인간 참조 유전체 DB 및/또는 미생물 참조 유전체 DB를 저장할 수 있다.
메모리(620)는 분석장치(600)가 데이터 처리 과정에 필요한 데이터 및 생성되는 임시 데이터를 저장할 수 있다.
인터페이스장치(640)는 외부로부터 일정한 명령 및 데이터를 입력받는 장치이다. 인터페이스장치(640)는 물리적으로 연결된 입력장치 또는 외부 저장장치로부터 샘플의 메타게놈 데이터를 입력받을 수 있다. 또한, 인터페이스장치(640)는 샘플의 임상 정보 등을 입력받을 수도 있다. 인터페이스장치(640)는 데이터 처리를 위한 프로그램을 입력받을 수 있다.
통신장치(650)는 유선 또는 무선 네트워크를 통해 일정한 정보를 수신하고 전송하는 구성을 의미한다. 통신장치(650)는 외부 객체로부터 샘플의 메타게놈 데이터를 수신할 수 있다. 통신장치(650)는 샘플의 임상 정보 등을 입력받을 수도 있다. 통신장치(650)는 데이터 처리를 위한 프로그램 및 데이터를 수신할 수 있다.
통신장치(650)는 네트워크상에 존재하는 인간 참조 DB와 통신하여 인간 유전체 정보를 수신할 수도 있다. 또한, 통신장치(650)는 네트워크상에 존재하는 미생물 참조 DB와 통신하여 미생물 유전체 정보를 수신할 수도 있다. 통신장치(650)는 샘플에 대한 건강 정보를 외부로 송신할 수도 있다.
통신장치(650) 내지 인터페이스장치(640)는 외부로부터 일정한 데이터 내지 명령을 전달받는 장치이다. 통신장치(650) 내지 인터페이스장치(640)를 입력장치라고 명명할 수 있다.
출력장치(660)는 일정한 정보를 출력하는 장치이다. 출력장치(660)는 데이터 처리 과정에 필요한 인터페이스, 분석 결과 등을 출력할 수 있다.
연산 장치(630)는 샘플 전체에 대한 메타게놈 데이터에서 마이크로바이옴 구성 정보를 추출할 수 있다. 연산 장치(630)는 원시 메타게놈 데이터에서 품질이 낮은 리드를 트리밍할 수 있다. 연산 장치(630)는 인감 참조 DB를 활용하여 원시 메타게놈 데이터에서 인간 유전체 정보를 제거할 수 있다. 연산 장치(630)는 미생물 참조 DB를 활용하여 원시 메타게놈 데이터에서 미생물 유래 메타게놈 데이터를 추출할 수 있다. 또한, 연산 장치(630)는 미생물 참조 DB를 활용하여 샘플의 미생물 군집을 구성하는 각 미생물의 종류 및 각 미생물의 구성 비율(마이크로바이옴 구성 정보)을 결정할 수도 있다.
연산 장치(630)는 마이크로바이옴 구성 정보를 기계학습모델에 입력하여 출력값을 생성할 수 있다. 연산 장치(630)는 마이크로바이옴 구성 정보 및 임상 정보를 기계학습모델에 입력하여 출력값을 생성할 수 있다. 연산 장치(630)는 기계학습모델이 출력한 값을 일정하게 정규화할 수 있다.
연산 장치(630)는 기계학습모델의 출력값 또는 정규화된 출력값을 기준으로 샘플에 대한 건강 상태를 판단할 수 있다. 예컨대, 연산 장치(630)는 특정 질환에 대한 위험도 정보를 제공할 수 있다.
연산 장치(630)는 데이터를 처리하고, 일정한 연산을 처리하는 프로세서, AP, 프로그램이 임베디드된 칩과 같은 장치일 수 있다.
또한, 상술한 바와 같은 마이크로바이옴 분석 방법 내지 건강 정보 제공 방법은 컴퓨터에서 실행될 수 있는 실행가능한 알고리즘을 포함하는 프로그램(또는 어플리케이션)으로 구현될 수 있다. 상기 프로그램은 일시적 또는 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM (read-only memory), PROM (programmable read only memory), EPROM(Erasable PROM, EPROM) 또는 EEPROM(Electrically EPROM) 또는 플래시 메모리 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
일시적 판독 가능 매체는 스태틱 램(Static RAM,SRAM), 다이내믹 램(Dynamic RAM,DRAM), 싱크로너스 디램 (Synchronous DRAM,SDRAM), 2배속 SDRAM(Double Data Rate SDRAM,DDR SDRAM), 증강형 SDRAM(Enhanced SDRAM,ESDRAM), 동기화 DRAM(Synclink DRAM,SLDRAM) 및 직접 램버스 램(Direct Rambus RAM,DRRAM) 과 같은 다양한 RAM을 의미한다.
본 실시례 및 본 명세서에 첨부된 도면은 전술한 기술에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 전술한 기술의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시례는 모두 전술한 기술의 권리범위에 포함되는 것이 자명하다고 할 것이다.

Claims (19)

  1. 분석장치가 인간의 샘플에 속한 미생물 군집에 대한 메타게놈(metagenome) 데이터를 획득하는 단계;
    상기 분석장치가 상기 메타게놈 데이터와 미생물 유전정보 데이터베이스를 비교하여 상기 미생물 군집을 구성하는 복수의 미생물들의 구성 정보를 확인하는 단계;
    상기 분석장치가 상기 구성 정보를 사전에 학습된 기계학습모델에 입력하는 단계; 및
    상기 분석장치가 상기 기계학습모델의 출력값을 기준으로 상기 샘플에 대한 건강 정보를 생성하는 단계를 포함하되,
    상기 구성 정보는 상기 복수의 미생물들 각각의 구성 비율을 포함하는 마이크로바이옴을 이용한 건강 정보 제공 방법.
  2. 제1항에 있어서,
    상기 메타게놈 데이터는 상기 샘플에 대한 메타게놈 분석 데이터에서 인간 유래 유전체를 제거한 유전체 정보인 마이크로바이옴을 이용한 건강 정보 제공 방법.
  3. 제1항에 있어서,
    상기 미생물 군집은 인간 장 내의 미생물들로 구성되는 마이크로바이옴을 이용한 건강 정보 제공 방법.
  4. 제1항에 있어서,
    상기 기계학습모델은 상기 복수의 미생물의 구성 비율들을 복수의 입력으로 삼는 다변량 분석(multivariate analysis) 모델인 마이크로바이옴을 이용한 건강 정보 제공 방법.
  5. 제1항에 있어서,
    상기 기계학습모델은 상기 복수의 미생물 각각의 구성 비율에 대한 가중합을 산출하고, 상기 복수의 미생물 각각에 대한 가중치는 사전에 학숩되는 마이크로바이옴을 이용한 건강 정보 제공 방법.
  6. 제5항에 있어서,
    상기 가중치는 학습과정에서 복수의 미생물 전체를 기준으로 학습 데이터의 라벨(label) 값과 상기 가중합의 차이가 최소가 되도록 설정되는 마이크로바이옴을 이용한 건강 정보 제공 방법.
  7. 제5항에 있어서,
    상기 가중치는 미생물 종류에 따라 학습과정에서 특정 복합 형질에 대한 연관도를 고려하여 축소(shrinkage)되는 마이크로바이옴을 이용한 건강 정보 제공 방법.
  8. 제1항에 있어서,
    상기 기계학습모델은 아래의 수학식으로 표현되는 값을 산출하는 마이크로바이옴을 이용한 건강 정보 제공 방법.
    Figure pat00006

    (MRSi는 샘플 i에 대한 산출값이고, n은 미생물 종류의 개수, j는 미생물 식별자, Taxa abundanceij는 샘플 i에서 전체 미생물 중 미생물 j의 비율, βj는 미생물 j에 대한 가중치, β0는 절편임)
  9. 제1항에 있어서,
    상기 분석장치는 상기 출력값을 백분율로 변환하여 상기 건강 정보를 생성하는 마이크로바이옴을 이용한 건강 정보 제공 방법.
  10. 제1항에 있어서,
    상기 기계학습모델은 리지 회귀분석(Ridge regression), 신축망(Elastic Net). LASSO(Least Absolute Shrinkage and Selection Operator), SVM(Support Vector Machine), 랜덤 포레스트(Random Forest), 부스팅 모델(Boosting) 및 다층 퍼셉트론(multilayer perceptron) 중 어느 하나인 마이크로바이옴을 이용한 건강 정보 제공 방법.
  11. 제1항에 있어서,
    상기 분석장치는 상기 샘플에 대한 나이 및 성별을 상기 기계학습모델에 더 입력하고,
    상기 기계학습모델은 샘플에 포함된 복수의 미생물들 각각의 구성 비율, 나이 및 성별을 입력받아 상기 출력값을 출력하는 마이크로바이옴을 이용한 건강 정보 제공 방법.
  12. 인간의 샘플에 속한 미생물 군집에 대한 메타게놈(metagenome) 데이터를 입력받는 입력장치;
    미생물 군집을 구성하는 복수의 미생물들의 구성 정보를 입력받아 샘플에 대한 건강 정보를 출력하는 기계학습모델을 저장하는 저장장치; 및
    상기 메타게놈 데이터로 기준으로 상기 샘플에 대한 구성 정보를 결정하고, 상기 구성 정보를 상기 기계학습모델에 입력하여 상기 샘플에 대한 건강 정보를 생성하는 연산장치를 포함하되,
    상기 구성 정보는 상기 복수의 미생물들 각각의 구성 비율을 포함하는 마이크로바이옴 분석장치.
  13. 제12항에 있어서,
    상기 연산장치는 상기 메타게놈 데이터와 미생물 유전정보 데이터베이스를 비교하여 상기 미생물 군집을 구성하는 복수의 미생물들의 구성 정보를 결정하는 마이크로바이옴 분석장치.
  14. 제12항에 있어서,
    상기 기계학습모델은 상기 복수의 미생물의 구성 비율들을 복수의 입력으로 삼는 다변량 분석(multivariate analysis) 모델인 마이크로바이옴 분석장치.
  15. 제12항에 있어서,
    상기 기계학습모델은 상기 복수의 미생물 각각의 구성 비율에 대한 가중합을 산출하고, 상기 복수의 미생물 각각에 대한 가중치는 사전에 학숩되는 마이크로바이옴 분석장치.
  16. 제15항에 있어서,
    상기 가중치는 학습과정에서 복수의 미생물 전체를 기준으로 학습 데이터의 라벨(label) 값과 상기 가중합의 차이가 최소가 되도록 설정되는 마이크로바이옴 분석장치.
  17. 제12항에 있어서,
    상기 기계학습모델은 아래의 수학식으로 표현되는 값을 산출하는 마이크로바이옴 분석장치.
    Figure pat00007

    (MRSi는 샘플 i에 대한 산출값이고, n은 미생물 종류의 개수, j는 미생물 식별자, Taxa abundanceij는 샘플 i에서 전체 미생물 중 미생물 j의 비율, βj는 미생물 j에 대한 가중치, β0는 절편임)
  18. 제12항에 있어서,
    상기 입력장치는 상기 샘플의 나이 및 성별을 더 입력받고,
    상기 기계학습모델은 샘플에 포함된 복수의 미생물들 각각의 구성 비율, 나이 및 성별을 입력받아 상기 출력값을 출력하는 마이크로바이옴 분석장치.
  19. 제11항에 있어서,
    상기 기계학습모델은 건강 정보의 종류 및 인종에 따라 서로 다른 모델로 학습되는 마이크로바이옴 분석장치.
KR1020200062554A 2020-05-25 2020-05-25 마이크로바이옴을 이용한 건강 정보 제공 방법 및 분석장치 KR102492977B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200062554A KR102492977B1 (ko) 2020-05-25 2020-05-25 마이크로바이옴을 이용한 건강 정보 제공 방법 및 분석장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200062554A KR102492977B1 (ko) 2020-05-25 2020-05-25 마이크로바이옴을 이용한 건강 정보 제공 방법 및 분석장치

Publications (2)

Publication Number Publication Date
KR20210145539A true KR20210145539A (ko) 2021-12-02
KR102492977B1 KR102492977B1 (ko) 2023-01-31

Family

ID=78867141

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200062554A KR102492977B1 (ko) 2020-05-25 2020-05-25 마이크로바이옴을 이용한 건강 정보 제공 방법 및 분석장치

Country Status (1)

Country Link
KR (1) KR102492977B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230116472A (ko) 2022-01-28 2023-08-04 순천향대학교 산학협력단 마이크로바이옴 채취 장치
KR20240015429A (ko) 2022-07-27 2024-02-05 주식회사 어큐진 마이크로바이옴 데이터를 활용한 머신러닝 기반 비만위험도 예측방법 및 이를 이용한 헬스케어 서비스

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016214111A (ja) * 2015-05-15 2016-12-22 森永乳業株式会社 腸内状態の判定方法、および腸内状態の判定装置
JP2016214109A (ja) * 2015-05-15 2016-12-22 森永乳業株式会社 腸内年齢の推定方法、および腸内年齢の推定装置
KR20190025180A (ko) * 2017-08-31 2019-03-11 주식회사 이노아이엔씨 동물 건강 모니터링을 위한 장내세균분석 적용방법
KR20200054203A (ko) * 2017-08-14 2020-05-19 소마젠 인크 질병-관련 마이크로바이옴 특성화 프로세스

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016214111A (ja) * 2015-05-15 2016-12-22 森永乳業株式会社 腸内状態の判定方法、および腸内状態の判定装置
JP2016214109A (ja) * 2015-05-15 2016-12-22 森永乳業株式会社 腸内年齢の推定方法、および腸内年齢の推定装置
KR20200054203A (ko) * 2017-08-14 2020-05-19 소마젠 인크 질병-관련 마이크로바이옴 특성화 프로세스
KR20190025180A (ko) * 2017-08-31 2019-03-11 주식회사 이노아이엔씨 동물 건강 모니터링을 위한 장내세균분석 적용방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Andrew Brantley Hall, Andrew C. Tolonen, Ramnik J. Xavier, "Human genetic variation and the gut microbiome in disease", Nature Reviews Genetics volume 18, pages 690-699, 2017

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230116472A (ko) 2022-01-28 2023-08-04 순천향대학교 산학협력단 마이크로바이옴 채취 장치
KR20240015429A (ko) 2022-07-27 2024-02-05 주식회사 어큐진 마이크로바이옴 데이터를 활용한 머신러닝 기반 비만위험도 예측방법 및 이를 이용한 헬스케어 서비스

Also Published As

Publication number Publication date
KR102492977B1 (ko) 2023-01-31

Similar Documents

Publication Publication Date Title
JP6420543B2 (ja) ゲノムデータ処理方法
CA2877429C (en) Systems and methods for generating biomarker signatures with integrated bias correction and class prediction
García-Gallo et al. A machine learning-based model for 1-year mortality prediction in patients admitted to an Intensive Care Unit with a diagnosis of sepsis
KR102258899B1 (ko) 통합적 건강 정보를 이용한 식단 및 운동 추천 방법 및 서비스 시스템
JP2013505730A (ja) 患者を分類するためのシステムおよび方法
JP2014508994A5 (ko)
US9940383B2 (en) Method, an arrangement and a computer program product for analysing a biological or medical sample
US20230222311A1 (en) Generating machine learning models using genetic data
JP7041614B2 (ja) 生体データにおけるパターン認識のマルチレベルアーキテクチャ
CN1385702A (zh) 提供临床诊断服务的方法
CN107301331B (zh) 一种基于基因芯片数据的疾病影响因素的挖掘方法
US20060184489A1 (en) Genetic knowledgebase creation for personalized analysis of medical conditions
CA2877436C (en) Systems and methods for generating biomarker signatures
US11581094B2 (en) Methods and systems for generating a descriptor trail using artificial intelligence
JP2023526241A (ja) 複数の機械学習モデルに基づく臨床予測器
JP2020030662A (ja) 疾病評価指標算出方法、装置、システム、及び、プログラム、並びに、疾病評価指標を算出するためのモデル作成方法。
EP4260340A1 (en) Predicting fractional flow reserve from electrocardiograms and patient records
KR102492977B1 (ko) 마이크로바이옴을 이용한 건강 정보 제공 방법 및 분석장치
JP2020030800A (ja) 疾病評価指標算出方法、装置、システム、及び、プログラム、並びに、疾病評価指標を算出するためのモデル作成方法。
RU2699284C2 (ru) Система и способ интерпретации данных и предоставления рекомендаций пользователю на основе его генетических данных и данных о составе микробиоты кишечника
US20220165392A1 (en) Personalized content providing method based on personal multiple feature information and analysis apparatus
US20090006055A1 (en) Automated Reduction of Biomarkers
Rayan Machine Learning for Smart Health Care
Alizadeh et al. A Practical Guide to Evaluating and Using Big Data in Digestive Disease Research
KR20210157978A (ko) 유전체 분석 정보를 이용한 개인 맞춤형 영양정보 제공방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant