KR20210001959A - 위암의 다층 다요인 패널과 Computational biological network modeling을 통한 위암 발암에 대한 에티옴 모형 - Google Patents

위암의 다층 다요인 패널과 Computational biological network modeling을 통한 위암 발암에 대한 에티옴 모형 Download PDF

Info

Publication number
KR20210001959A
KR20210001959A KR1020200072911A KR20200072911A KR20210001959A KR 20210001959 A KR20210001959 A KR 20210001959A KR 1020200072911 A KR1020200072911 A KR 1020200072911A KR 20200072911 A KR20200072911 A KR 20200072911A KR 20210001959 A KR20210001959 A KR 20210001959A
Authority
KR
South Korea
Prior art keywords
gastric cancer
model
factors
etiome
risk
Prior art date
Application number
KR1020200072911A
Other languages
English (en)
Other versions
KR102467999B1 (ko
Inventor
박수경
장지은
이상준
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Publication of KR20210001959A publication Critical patent/KR20210001959A/ko
Application granted granted Critical
Publication of KR102467999B1 publication Critical patent/KR102467999B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

위암 발암 예측 방법에 관한 것이며, 위암 발암 예측 방법은, (a) 전장 유전체 연관 분석을 이용하여 위암과 유전요인과의 관련성을 평가하고, 유의한 연관성을 보이는 유전요인을 선별하는 단계, (b) 위암 발생의 병인 요인으로 추출된 복수의 병인 요인 변수를 고려하여 위암 발생 예측 에티옴 패널 모형을 구축하는 단계, (c) 구축된 상기 위암 발생 예측 에티옴 패널 모형을 기반으로 복수의 병인 요인을 예측인자로 포함하는 다중요인 가중 콕스 비례위험 회귀모형 (Multi-variable weighted Cox proportional hazard regression model)을 구축하는 단계 및 (d) 구축된 상기 다중요인 가중 콕스 비례위험 회귀모형 내 각 병인 요인에 따른 위암발생위험 추정치를 기반으로 개인의 위암 발생 확률을 예측하는 단계를 포함할 수 있다.

Description

위암의 다층 다요인 패널과 Computational biological network modeling을 통한 위암 발암에 대한 에티옴 모형{ETIOME MODEL FOR GASTRIC CANCER DEVELOPMENT BASED ON MULTI-LAYER AD MULTI-FACTOR PANEL AND COMPUTATIONAL BIOLOGICAL NETWORK MODELING}
본원은 위암 발암 예측 장치 및 방법에 관한 것이다. 보다 구체적으로, 본원은 위암 발생과 관련된 여러 형태의 병인 요인을 통합한 에티옴 패널을 구축하고, 구축된 패널을 기반으로 병인 요인 상호 간 및 병인 요인과 위암 발생 간 연관성 분석 및 경로분석을 수행함으로써 개인의 향후 위암 발생확률을 예측하고, 위암 에티옴 네트워크를 제시하여 위암 발암기전 상 예방중재 표적을 찾아내고 이를 예방에 적용하는 방법에 관한 것이다.
위암발생예측모형: 위암 위험요인들의 노출 여부 및 정도에 따라 인구집단 내에서 요인 비노출 대상에 대해 요인 노출 대상의 상대적 위암 위험도 (비교위험도 relative risk (RR) 혹은 위험비 hazard ratio (HR))를 이용하여 통계적 모형인 콕스회귀모형에 의해 위암예측모형을 개발할 수 있다.
위에서 기술된 방법으로 개발된 위암발생예측모형의 경우, 한국 건강보험공단 건강검진자료에서 체질량지수, 암 가족력, 규칙적 식사 여부, 짠맛 선호도, 음주량, 흡연량, 신체활동 등을 위암 발생에 대한 위험요인으로 사용하였고, 8년 동안 대상자들을 추적 관찰하여 해당 위험요인 노출에 따른 위암 발생의 위험도를 콕스회귀분석에 의거하여 산출하였는데, 이 모형은 8년 이내 위암발생확률을 예측하는 모형이다.
상기 모형은 한국인 공단 건강검진 및 설문 등을 통해 비교적 획득이 어렵지 않은 위험요인 노출정보를 기반으로 개인의 위암발생확률을 예측할 수 있다는 데 의미가 있다. 그러나 위암의 요인 중 WHO 산하의 국제암연구소 (International Agency for Cancer Research (IARC))에서 발암요인 1군 (sufficient carcinogen to human) 으로 지목한 요인은 헬리코박터 파이로리 (H. pylori), 방사선, 담배 흡연이며, 발암요인 2A 군 (동물실험에서는 발암성이 명확하지만 인간 연구 결과에서는 연구가 적어서 limited evidence 단계인 상태) 으로 과다한 소금 섭취, 가공육 섭취, 등이 있다고 보고하였다. 또한, 위암의 가족력도 위암의 위험요인으로 중요하다. 그러나 상기 모형의 경우 주 발암요인으로 가장 중요한 H. pylori 정보가 없고 위암 가족력이 없어 환경 요인에 있어서 중요한 요건이 부족한 상황이다.
또 다른 위암발생예측모형은 일본에서 개발된 것으로 연령, 성별, 흡연 여부, 위암 가족력, 염장식품 섭취, 헬리코박터 파이로리 항체, 혈장 펩시노겐 수준을 위험요인으로 사용하여 10년간 대상자를 추적 관찰하여 10년 내 위암발생확률을 예측하는 모형이 통계적 모형인 콕스회귀모형에 의해 개발되었다. 한국에서 개발된 모형과 비교하여 위암 주요 위험요인으로 헬리코박터 감염정보와 위암 가족력을 예측인자로 포함하고 있다는 장점이 있다.
기존에 개발된 상기 두 모형은 건강검진 및 설문 등을 통해 비교적 획득이 어렵지 않은 위험요인 노출정보를 기반으로 개인의 위암발생확률을 예측할 수 있다는 데 의미가 있다. 하지만, 이들 모형의 설명력은 약 75% 전후로 설명력 측면에서 개선의 여지가 있다고 할 수 있다.
또한, 모형 내 예측인자로 고려된 위암 위험요인의 정보가 내재적 요인 (연령, 성별, 체질량지수, 가족력 등)과 생활습관요인 (흡연, 음주, 짠 음식 섭취, 신체활동 등) 등에 국한되어 있어 정밀한 예측모형을 만들기에는 정보가 제한적이라고 할 수 있다.
덧붙여 상기 기존에 개발된 두 모형은 개인의 위암발생확률만을 제시하였기에 위암의 다양한 병인 요인들 간의 연관성을 파악하거나 중재의 표적요인을 찾는데 도움이 되는 정보는 제공할 수 없다는 한계점을 가지고 있다.
개인의 유전자 정보나 단백체 정보, 생체 지표, 검사 지표 등의 정보가 포함될 때 위암발생 예측을 하는 데 있어 훨씬 더 정밀하고 정확한 예측이 가능할 수 있어 정밀의학적 접근을 위해서는 이를 포함하는 위암발생예측모형이 필요하다.
에티옴 연구: 질병발생과 관련하여 병인 요인을 통합한 에티옴 연구가 시도된 바 있다. 기존 에티옴 연구는 다른 목적으로 구축된 이차 자료원을 기반으로 연구가 수행되었으며, 이차 자료원을 기반으로 하여 가상적으로 요인-질병 간 관련성을 단순 연결선으로 그릴 수 있었다. 그러나 개인적 수준에서 병인 요인들의 조합으로 인한 질병 위험수준은 평가할 수 없었다. 따라서 기존 에티옴 연구는 개인의 질병발생확률을 예측하는 도구로는 이용될 수 없다는 제한점이 있는다 (도 1 참조).
도 1을 참조하면, 기존에 시도된 에티옴 연구는 가상적 원인적 관계는 그려낼 수 있었지만 개인적 수준에서의 병인들의 조합으로 인한 질병 위험수준은 관찰 불가능하다는 문제점이 있다.
이에 따라, 개인의 위암 발생과 관련된 여러 형태의 병인 요인 (내재적 요인, 환경요인, 생활습관요인, 유전요인, 발암 미세환경 유도/조절 요인 등)을 통합한 에티옴 자료를 기반으로 보다 정밀하게 개인의 위암발생확률을 예측하는 방법이 요구된다. 또한, 여러 병인 요인들 간 상호작용 및 병인 요인과 위암발생 간 연관성에 대한 네트워크를 제시함으로써 위암 발암기전 상에서 중재의 표적요인을 찾을 수 있도록 시각적인 가이드를 제공할 필요가 있다.
본원의 배경이 되는 기술은 한국공개특허공보 제10-2012-0077568호에 개시되어 있다.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 존 위암발생예측모형 개발과정에는 위암 발암과정에 관여하는 병인 요인들을 종합적으로 고려하지 못하였고, 개인의 위암발생확률을 산출하는데 그쳤다. 이로 인해 정밀도 부족 및 병인 요인 간 관계에 대한 정보 부재와 같은 제한점이 남아 있다. 본원은 상기와 같이 기존 위암발생예측모형이 가지는 제한점을 극복하여 보다 정밀한 위암예측모형 및 네트워크를 개발하고자 하는 데 목적이 있다. 구체적으로 한국인을 대상으로 위암 발생과 관련된 여러 형태의 병인요인 (내재적 요인, 환경요인, 생활습관요인, 유전요인, 발암 미세환경 유도/조절 요인 등)을 통합한 에티옴 패널을 구축하고, 구축된 패널을 기반으로 여러 병인요인들 상호 간병인 요인과 위암 간 연관성 분석을 시행함으로써 개인의 위암발생예측모형 및 에티옴 네트워크를 개발하고자 한다. 이를 기반으로 개인의 위암발생확률을 예측하고, 위암 발암기전 상 중재 표적요인을 찾는 알고리즘을 구축하는 것이다. 구축된 알고리즘을 바탕으로 어떠한 병인 요인을 중재할 때, 해당 병인요인 중재로 인해 2차적으로 중재되는 요인을 시각적으로 파악하고 실제 위암발생확률이 얼마나 낮아질 수 있는가를 제시하는 도구를 제공하는 위암예방관리 서비스를 구현하고자 하는데 그 목적이 있다.
다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 일 실시예에 따른 위암 발암 예측 방법은, (a) 전장 유전체 연관 분석을 이용하여 위암과 유전요인과의 관련성을 평가하고, 유의한 연관성을 보이는 유전요인을 선별하는 단계, (b) 위암 발생의 병인 요인으로 추출된 복수의 병인 요인 변수를 고려하여 위암 발생 예측 에티옴 패널 모형을 구축하는 단계, (c) 구축된 상기 위암 발생 예측 에티옴 패널 모형을 기반으로 복수의 병인 요인을 예측인자로 포함하는 다중요인 가중 콕스 비례위험 회귀모형 (Multi-variable weighted Cox proportional hazard regression model)을 구축하는 단계 및 (d) 구축된 상기 다중요인 가중 콕스 비례위험 회귀모형 내 각 병인 요인에 따른 위암발생위험 추정치를 기반으로 개인의 위암 발생 확률을 예측하는 단계를 포함할 수 있다.
또한, 상기 (a) 단계는, 한국인 다기관 코호트에서 내 환자-대조군 데이터를 발견 세트로 설정하고, 질병관리본부의 안산-안성 코호트 유전체 데이터를 유효성 검사 세트로 설정하여 각각의 전장 유전체 분석을 수행할 수 있다.
또한, 상기 (a) 단계는, 상기 전장 유전체 분석을 통해 상기 발견 세트와 상기 유효성 검사 세트 결과를 바탕으로 통계적으로 유의하다고 판단되는 SNP을 선별하고, 선별된 상기 SNP에 대하여 질병관리본부 안산-안성 유전체 데이터 내에서 위험 대립 유전자(risk allele)의 개수를 산출하고, 선정된 유전 변이당 위험점수를 합산하여 최종 다유전적 위험 점수를 산출하고, 위암 위험의 유전적 요인으로 결정할 수 있다.
또한, 상기 (b) 단계는, 개인의 내재적 요인 및 환경요인과 관련된 변수를 기반으로 제1에티옴 모형을 구축하는 단계, 환경요인-인체 발암성 미세환경(carcinogenic microenvironment) 유발 및 조절자 변수를 기반으로 제2에티옴 모형을 구축하는 단계, 개인별 생체지표 변수를 기반으로 제3에티옴 모형을 구축하는 단계, 상기 제1에티옴 모형 및 제2에티옴 모형을 통합하여 제4에티옴 모형을 구축하는 단계 및 상기 제4에티옴 모형 및 위암 연관 유전적 요인 변수를 기반으로 제5에티옴 모형을 구축하는 단계를 포함할 수 있다.
또한, 상기 위암 발생 예측 에티옴 패널 모형은, 상기 제5에티옴 모형을 기반으로 한 Random survival forest(RSF) 모델링으로 구축될 수 있다.
또한, 상기(d)단계는, 인공신경망 기반으로 위암 발생을 예측하되, 단일 시점에서 수집된 유전 정보를 통합 입력하기 위해 순환신경망 마지막 층에 다층 퍼셉트론 신경망을 추가적으로 연결하고, 출력층은 위암 발생 유 또는 무로 설정할 수 있다.
또한, 위암 발암 예측 방법은, (e) 상기 위암 발생과 연관성이 있는 병인 요인들의 정보를 기반으로 다요인 가중 콕스 비례위험 회귀모형을 구축하는 단계를 더 포함할 수 있다.
본원의 일 실시예에 따르면, 위암 발암 예측 장치는 전장 유전체 연관 분석을 이용하여 위암과 유전요인과의 관련성을 평가하고, 유의한 연관성을 보이는 유전요인을 선별하는 유전요인 선별부, 위암 발생의 병인 요인으로 추출된 복수의 병인 요인 변수를 고려하여 위암 발생 예측 에티옴 패널 모형을 구축하는 에티옴 패널 모형 구축부 및 다중요인 가중 콕스 비례위험 회귀모형 내 각 병인 요인에 따른 위암발생위험 추정치를 기반으로 개인의 위암 발생 확률을 예측하는 위암 발생 예측부를 포함하되, 상기 회귀모형 구축부는, 구축된 상기 위암 발생 예측 에티옴 패널 모형을 기반으로 복수의 병인 요인을 예측인자로 포함하는 다중요인 가중 콕스 비례위험 회귀모형 (Multi-variable weighted Cox proportional hazard regression model)을 구축할 수 있다.
또한, 상기 유전요인 선별부는, 한국인 다기관 코호트에서 내 환자-대조군 데이터를 발견 세트로 설정하고, 질병관리본부의 안산-안성 코호트 유전체 데이터를 유효성 검사 세트로 설정하여 각각의 전장 유전체 분석을 수행할 수 있다.
또한, 상기 유전요인 선별부는, 상기 전장 유전체 분석을 통해 상기 발견 세트와 상기 유효성 검사 세트의 결과를 바탕으로 통계적으로 유의하다고 판단되는 SNP을 선별하고, 선별된 상기 SNP에 대하여 질병관리본부 안산-안성 유전체 데이터 내에서 위험 대립 유전자(risk allele)의 개수를 산출하고, 선정된 유전 변이당 위험점수를 합산하여 최종 다유전적 위험 점수를 산출하고, 위암 위험의 유전적 요인으로 결정할 수 있다.
또한, 상기 에티옴 패널 모형 구축부는, 개인의 내재적 요인 및 환경요인과 관련된 변수를 기반으로 구축된 제1에티옴 모형, 환경요인-인체 발암성 미세환경(carcinogenic microenvironment) 유발 및 조절자 변수를 기반으로 구축된 제2에티옴 모형, 개인별 생체지표 변수를 기반으로 구축된 제3에티옴 모형, 상기 제1에티옴 모형 및 제2에티옴 모형을 통합하여 구축된 제4에티옴 모형 및 상기 제4에티옴 모형 및 위암 연관 유전적 요인 변수를 기반으로 구축된 제5 에티옴 모형을 포함할 수 있다.
또한, 상기 위암 발생 예측부는, 인공신경망 기반으로 위암 발생을 예측하되, 단일 시점에서 수집된 유전 정보를 통합 입력하기 위해 순환신경망 마지막 층에 다층 퍼셉트론 신경망을 추가적으로 연결하고, 출력층은 위암 발생 유 또는 무로 설정할 수 있다.
또한, 위암 발생 예측 장치는, 상기 위암 발생과 연관성이 있는 상기 병인 요인들의 정보를 기반으로 다요인 가중 콕스 비례위험 회귀모형을 구축하는 회귀모형 구축부를 더 포함할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 위암 발생에 관여하는 여러 형태의 병인요인의 정보를 통합한 에티옴 패널을 바탕으로 아직 해당 질병을 진단받지 않은 상태의 대상자에 대해 특정기간 내 위암발생확률을 정밀하게 예측할 수 있고, 이를 바탕으로 해당 대상자가 위암 발생 고위험군에 속하는 지 판단할 수 있다.
또한, 경로분석을 통하여 위암 발병 병리학적 기전에 근거한 에티옴 네트워크 모형, 요인노출에서 질병발생까지의 자연사에 근거한 에티옴 네트워크 모형, 유전요인의 경우 생물학적 신호 전단 경로 모형을 제시함으로써 위암 발암과정에서 각 병인요인들 간 관계를 시각적으로 제시하고, 이를 기반으로 중재의 표적요인을 선정함으로써 위암 일차예방에 기여할 수 있다.
또한, 지역사회 일반 인구집단의 건강관리 현장 적용에 활용하거나, 임상시험에서 고위험군 선정 등에 활용할 수 있고, 위암발생예측모델의 웹(WEB) 및 앱(APP)을 활용한 제품에 활용할 수 있다.
다만, 본원에서 얻을 수 있는 효과는 상기된 바와 같은 효과들로 한정되지 않으며, 또 다른 효과들이 존재할 수 있다.
도 1은 본원의 일 실시예에 따른 기존에 시도된 에티옴 연구를 설명하기 위한 도면이다.
도 2는 본원의 일 실시예에 따른 위암 발암 예측 장치의 개략적인 구성도이다.
도 3은 본원의 일 실시예에 따른 위암발생예측모형의 각 요인들 (exposure)이 서로의 교란요인 (confounders)으로 작용하면서 위암 (outcome)의 위험요인으로 작용하는 3자간 네트워크만 (교란요인, 위암 발생, 주요인) 존재하는 상태에서의 네트워크 모형을 나타내는 도면이다.
도 4는 본원의 실시 예에 따른 위암 발병에 대한 병리학적 기전에 근거한 다단계 에티옴 질병모형을 나타내는 도면이다.
도 5는 본원의 실시 예에 따른 요인노출-질병발생 간 연속선 측면에서의 자연사를 기반으로 한 다요인 에티옴 질병모형을 나타내는 도면이다. (발암성 미세환경 요인이 제외된 모형)
도 6은 본원의 일 실시예에 따른 요인노출-질병발생 간 연속선 측면에서의 자연사를 기반으로 한 다요인 에티옴 질병모형을 나타내는 도면이다. (발암성 미세환경 요인이 포함된 모형)
도 7은 본원의 일 실시예에 따른 위암발생예측모형의 Mendelian randomization을 설명하기 위한 도면이다.
도 8은 본원의 일 실시예에 따른 위암 발암 예측 장치의 개략적인 블록도이다.
도 9a 내지 도 9j는 본원의 일 실시예에 따른 에티옴 모형 구축부에서 구축된 에티옴 모형의 2년 발생 설명력 및 5년 발생 설명력의 확률기반 통계모형, Gradient boosting model, random survival forest의 결과를 ROC 곡선 및 AUC로 나타낸 도면이다.
도 10은 본원의 일 실시예에 따른 위암 발생 예측 에티옴 패널 모형에 기초한 위암의 위험 인자에 대한 히트맵이다.
도 11a 내지 도 11e는 본원의 일 실시예에 따른 위암 발생 예측 에티옴 패널 모형에 기초한 위암의 위험 인자에 대한 random survival forest의 Partial dependency plots (PDPs)를 나타낸 도면이다.
도 12는 본원의 일 실시예에 따른 내재적요인-환경요인을 포함한 통계모형에서의 위암 발생확률 예측에 대한 모형의 설명력을 나타낸 도면이다.
도 13은 본원의 일 실시예에 따른 [내재적요인-환경요인 + 발암성 미세환경 인자]을 포함한 통계모형에서의 위암 발생확률 예측에 대한 모형의 설명력을 나타낸 도면이다.
도 14는 본원의 일 실시예에 따른 위암 발생에 대한 요인들의 복합적 위험도 Joint risk (risk score) 와 위암 발생 확률 (risk) 및 인구집단에서의 복합적 위험도를 가진 집단의 분포 (prevalence)를 나타낸 도면이다.
도 15는 본원의 일 실시예에 따른 위암 발생에 관련된 일부 마커에 따른 에티옴 패널 네트워크를 나타낸 도면이다.
도 16은 본원의 일 실시예에 따른 위암 발암에 관련된 유전자가 실제로 유전자 발현이 되는지 그것이 유전자 발현 증가 혹은 감소가 위암 발암에 관련되는지에 대한 경로분석을 통한 에티옴 패널 네트워크를 나타낸 도면이다.
도 17 은 본원의 일 실시예에 따른 에티옴 패널 네트워크 결과에 대한 예제 (유전자 결과)를 나타낸 도면이다.
도 18은 본원의 일 실시예에 따른 위암 발암 예측 방법에 대한 동작 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결" 또는 "간접적으로 연결"되어 있는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
도 2는 본원의 일 실시예에 따른 위암 발암 예측 장치의 개략적인 구성도이다. 도 2를 참조하면, 위암 발암 예측 장치(10)는 질병 예측 서버(20)와 네트워크(30)를 통해 연동될 수 있으나, 이에 한정되는 것은 아니다. 예시적으로, 질병 예측 서버(20)는 질병관리본부의 한국인 유전체 역학조사사업의 일부인 안산-안성 코호트의 유전체 자료원과 1차부터 7차까지의 추적된 추적 자료를 포함할 수 있다.
본원의 일 실시예에 따르면, 위암 발암 예측 장치(10)는 적어도 하나의 인터페이스 장치를 구비하는 디바이스로서, 예를 들면, 스마트폰(Smartphone), 스마트패드(Smart Pad), 태블릿 PC, 웨어러블 디바이스 등과 PCS(Personal Communication System), GSM(Global System for Mobile communication), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말기 같은 모든 종류의 무선 통신 장치 및 데스크탑 컴퓨터, 스마트 TV와 같은 고정용 단말기일 수도 있다. 예시적으로 디바이스에는 사용자에게 질병 위험도를 예측 정보를 제공하기 위한 위암 발암 예측 어플리케이션(application)이 설치 및 구동될 수 있으나, 이에 한정되는 것은 아니다.
이하 설명되는 위암 발암 예측 방법은 위암 발암 예측 장치(10)에서 수행될 수 있다. 다른 일예로, 위암 발암 예측 방법의 각 단계는 질병 예측 서버(20)에서 수행될 수 있다. 또 다른 일예로, 위암 발암 예측 방법의 각 단계 중 일부 단계는 위암 발암 예측 장치(10)에서 수행되고, 나머지 단계는 질병 예측 서버(20)에서 수행될 수 있다. 예를 들어, 위암 발암 예측 장치(10)는 위암 발암 예측 방법의 일부 단계로서 사용자 입력을 수신하고, 수신된 사용자 입력을 서버로 전송하며, 사용자 입력에 응답하여 서버로부터 전송된 정보를 화면에 표시하는 기능만을 수행할 수 있으며, 이 밖에 위암 발암 예측 방법의 나머지 단계는 질병 예측 서버(20)에서 수행될 수 있다. 이하에서는 설명의 편의를 위하여 위암 발암 예측 장치(10)에서 위암 발암 예측 방법이 수행되는 예에 대하여 설명하기로 한다.
위암 발암 예측 장치(10) 및 질병 예측 서버(20) 간의 정보 공유를 위한 네트워크(30)의 일 예로는 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5G 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 유무선 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, Wifi 네트워크, NFC(Near Field Communication) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함될 수 있으며, 이에 한정된 것은 아니다.
본원의 일 실시예에 따르면, 위암 발암 예측 장치(10)는 한국인 다기관암코호트(Korean Multicenter Cancer Cohort (KMCC))를 기반으로 한 환자-코호트연구 (case-cohort study) 를 연구 설계로 한다. 또한, 위암 발암 예측 장치(10)는 환자-코호트연구에서 대상자들의 유전적 소인 (유전 요인), 연령, 성, 교육정도 등 내재요인, 환경요인, 생활습관요인, 발암 미세환경 유발/조절 요인 등 병인요인에 따른 위암발생 위험을 평가한다.
또한, 위암 발암 예측 장치(10)는 유전 요인 검색과 재현성 평가를 위해, 유전 요인의 경우 두 가지 유전 요인 (유전자 마커)를 발견(discovery) 하기 위해 두 개의 환자-대조군연구 대상자 데이터를 이용할 수 있다. 첫 번째 대상자 데이터는 한국인다기관암코호트 중 코호트 내 환자-대조군 연구 (nested case-control study) 설계로 1:1 매칭(짝짓기)을 통해 선별한 대상 집단이며, 두 번째 대상자 데이터는 질병관리본부 한국인 유전체 역학조사 사업의 일환인, 위암 환자 유전체정보와 유전체 역학 코호트의 도시 기반 코호트의 유전체 정보를 1:3 매칭(짝짓기) 하여 구축한 환자-대조군연구 대상자 집단일 수 있다.
또한, 위암 발암 예측 장치(10)는 상기 두 개의 발견 대상자에 대해 전장 유전체 분석을 시행하고, 전장 유전체 분석의 유전자형 (genotyping) 결과는 1KG phase 3정보를 이용하여 천만개 유전자 정보로 imputation을 시행할 수 있다. 일예로, 위암 발암 예측 장치(10)는 발견 단계(discovery phase)에서 두 개의 발견 자료원에서 전장 유전체 연관성 분석을 이용하여 위암 발생과 관련된 유전자 마커를 p-value의 threshold 1x10-5를 기준으로 하여 선별할 수 있다(discovery phase). 또한, 위암 발암 예측 장치(10)는 선별된 유전자 마커들의 재현성 검정을 위해 질병관리본부 안산-안성코호트 중 유전체 정보가 있는 대상자의 유전자형 정보를 1KG phase 3정보로 imputation을 시행한 다음, 전장유전체연관성 분석을 이용하여 위암발생과 관련된 유전자 마커가 재현되는지를 확인할 수 있다. (재현 단계 (replication phase)).
본원의 일 실시예에 따르면, 위암 발암 예측 장치(10)는 에티옴 네트워크 모형을 구축하기 위한 에티옴 패널을 구축할 수 있다. 위암 발암 예측 장치(10)는 에티옴 네트워크 모형을 구축하기 위해 아래와 같은 네 가지 에티옴 패널을 먼저 구축할 수 있다.
1. 위암 발생에 대한 개인별 내재적인자-환경요인 클러스터 1(목적: 건강한 사람들의 건강검진에서 이용할 수 있는 모형)
2. 위암 발생에 대한 환경요인-인체 발암성 미세환경(carcinogenic microenvironment) 유발/조절자 클러스터 2(목적: 위암 발병 가능성이 높은 대상자, 가족력 대상자, 유전성 위암 등 위암 고위험군에서 이용할 수 있는 모형 및 특히 외부 환경발암물질에 대한 노출 가능성을 고민하는 대상에 대해 이용)
3. 클러스터 1 + 위암-연관 유전자 클러스터 3(목적: 건강검진에서 이용할 수 있는 모형 & 개인별 감수성에 따른 차이 보정 가능)
4. 클러스터 2 + 위암-연관 유전자 클러스터 4(위암 발병 가능성이 높은 대상자, 가족력 대상자, 유전성 위암 등 위암 고위험군에서 이용 & 개인별 감수성에 따른 차이 보정 가능)
에티옴 패널에서 내재적인자로는 위암 가족력, 연령, 성, 교육 정도와 가구수입 등 위생적 생활 및 영양상태와 연관될 수 있는 변수들이 포함될 수 있다. 또한, 환경요인으로는 담배흡연, 알콜음주, 운동, 과도한 소금의 섭취, 콩류 섭취 및 채소와 과일 섭취, 짠음식류 섭취 등의 식이요인, 비만지표 등의 생활습관과 관련된 요인이 포함될 수 있다. 또한, 헬리코박터 파이로리 감염, 고병독성 헬리코박터 파이로리 감염 등이 포함되며, 그 외 건진 상에서 혈액 이상 소견으로 관찰될 수 있는 낮은 헤모글로빈/헤마토크리트, 높은 GGT, 높은 FBS (혹은 글루코즈 저항성, 혹은 인슐린 저항성 지표) 등과 위암 전 단계에서 관찰될 수 있는 양성질환인 만성위염 등이 포함될 수 있다. 또한, 인체 발암성 미세환경 (carcinogenic microenvironment) 유발/조절자로는 aflatoxin 노출 생체지표, 소디움 생체지표, 산화스트레스 생체지표, HGF, cMET, 이소플라본 생체지표 (Genistein, Daidzein, Equol), 리그난 생체지표 등이 포함될 수 있다.
본원의 일 실시예에 따르면, 위암 발암 예측 장치(10)는 네 가지 에티옴 패널 중 첫 번째 패널인 “1) 위암 발생에 대한 개인별 내재적인자-환경요인 클러스터”는 그 목적이 건강한 사람들의 건강검진에서 이용할 수 있는 모형을 개발하고자 하는 목적으로 생성할 수 있다. 첫 번째 패널에 유전자 마커를 추가한 세 번째 패널인 (3)“클러스터 1 + 위암-연관 유전자) 의 경우 같은 환경요인에 의해 노출되더라도 개인별 감수성 차이에 따라 위암 발생이 달라지기 때문에 개인의 감수성을 고려한 정밀 모형을 목적으로 하고 있다.
또한, 위암 발암 예측 장치(10)는 네 가지 에티옴 패널 중 인체 발암성 미세환경 (carcinogenic microenvironment) 유발/조절자가 포함되는 두 번째 패널 (“2) 위암 발생에 대한 환경요인-인체 발암성 미세환경 (carcinogenic microenvironment) 유발/조절자 클러스터)는 그 목적이 위암 발병 가능성이 높은 대상자 즉 위암의 고위험대상자로, 위암 가족력이 있거나 유전성 위암 가능성이 높은 대상자, 위암 발생과 연관된 고침투성 유전자를 가진 대상자 등이 이용할 수 있는 모형이며 특히 외부 환경 발암물질에 대한 노출 가능성을 고민하는 대상이 이용 가능한 모형으로 생성할 수 있다. 또한, 네 번째 패널 (“4) 클러스터 2 + 위암-연관 유전자가 추가된 모형)의 경우는 두 번째 에티옴 패널의 목적과 더불어 개인별 감수성에 따른 차이를 볼 수 있어 상기 모형 중 가장 정밀의학적 예측과 정확한 모형으로 볼 수 있다.
본원의 일 실시예에 따르면, 위암 발암 예측 장치(10)는 상기 구축된 에티옴 패널을 통해 위암 발생 확률 값을 예측하고 에티옴 패널 네트워크를 구성할 수 있다. 일예로, 통계적 모형인 콕스회귀분석을 이용하되 (수학식 1 참조), 요인들 간은 각 요인들이 서로의 교란요인으로 작용하는 3자간 네트워크만 (교란요인, 위암 발생, 주 요인) 존재하는 상태에서 이들을 분석할 수 있다. (도 3 참조)
일예로, 다중요인모형으로부터 얻어진 각 병인요인 값 (x)와 베타값 (β)를 가지는 개인의 특정시점(t) 위암 발생확률을 수학식 1과 같이 표현할 수 있다.
Figure pat00001
예시적으로, 도 3은 각 요인들 (exposure)이 서로의 교란요인 (confounders)으로 작용하면서 위암 (outcome)의 위험요인으로 작용하는 3자간 네트워크만 (교란요인, 위암 발생, 주요인) 존재하는 상태에서의 네트워크 모형을 나타내는 도면이다.
본원의 일 실시예에 따르면, 위암 발암 예측 장치(10)는 기계적 학습방법 중 랜덤 포레스트, 딥러닝 각각을 이용하되, ‘위정상상태-헬리코박터 감염-만성위염 및 위위축증-위암에 이르는 위암 발병의 병리학적 기전의 각 단계에 작용하는 병인요인들을 제시하는 에티옴 네트워크 모형(도면 4 참조)에 따라 에서 제시된 순서에 따라 정상상태에 작용하는 요인으로부터 최종 위암 발생에 미치는 요인 중 환경요인, 검사요인, 이후 발암성 미세환경 및 생물학적 시그널링 패스웨이 관련 유전자 마커까지 순차적으로 포함하는 방식을 이용하여 네트워크 생성하고 위암 발생을 예측할 수 있다.
예시적으로 도 4는 본원의 실시 예에 따른 위암 발병에 대한 병리학적 기전에 근거한 다단계 에티옴 질병모형을 나타내는 도면이다.
본원의 일 실시예에 따르면, 위암 발암 예측 장치(10)는 기계적 학습방법 중 랜덤 포레스트, 딥러닝 각각을 이용하되, ‘노출에서 위암발생까지의 자연사를 유전요인 - 가족력 - 생활 및 환경요인 - 노출지표 - 전 위암단계의 질병으로 설정 후 자연사의 각 단계에 작용하는 병인요인들을 제시하는 에티옴 네트워크 모형 ([도면 5] - 발암성 미세환경인자를 제외한 상태에서의 모형; [도면 6] - 발암성 미세환경인자를 포함한 상태에서의 모형)’ 에서 제시된 순서에 따라 포함하되, 가족력 - 생활 및 환경요인 - H. pylori - 검사요인 - 위염 - 최종 위암 발생의 연결선상에서 순차적으로 포함하는 방식을 이용하여 네트워크 구성하고 위암 발생을 예측할 수 있다.
예시적으로, 도 5는 본원의 실시 예에 따른 요인노출-질병발생 간 연속선 측면에서의 자연사를 기반으로 한 다요인 에티옴 질병모형을 나타내는 도면이다. (발암성 미세환경 요인이 제외된 모형) 도 6은 본원의 일 실시예에 따른 요인노출-질병발생 간 연속선 측면에서의 자연사를 기반으로 한 다요인 에티옴 질병모형을 나타내는 도면이다. (발암성 미세환경 요인이 포함된 모형)
본원의 일 실시예에 따르면, 위암 발암 예측 장치(10)는 전체 12개 방법 (= 에티옴 패널 구성 방식 4개 방법 x 에티옴 패널 네트워크 구성과 위암 발생확률 값 예측 방식 3개 방법) 에 의해 중 에티옴 패널 네트워크가 구성될 수 있으나 이에 한정되는 것은 아니다.
한편, 위암 발생 예측 장치(10)는 상기 전체 12개 방법에 의해 중 에티옴 패널 네트워크가 구성될 수 있으나, 그 중 인과적 연관성에 대해 적절하게 설명할 수 있는 상호 연결선들이 그려져 있는지를 먼저 확인하였는데, 개별 환경적 요인에 대한 인과적 연관성은 해당 요인이 다른 요인들과 통계적 다중공선성이나 다른 요인들의 잘못된 연관성을 부여하는 인자로 작용하지 않음을 확인한 다음 생물학적으로 인과적 연관성이 명확하지 않은 경우에는 Mendelian randomization 방법을 이용하여 인과적 연관성을 확인하였고, 이를 네트워크상에서 포함 여부를 확인하였다. (도 7 참조)
예시적으로, 도 7은 본원의 일 실시예에 따른 위암발생예측모형의 Mendelian randomization을 설명하기 위한 도면이다. 도 7을 참조하면, 환경요인(exposure) 의 인과적 연관성은 유전 마커 (SNPs) 로 확인할 수 있으며, 해당 유전 마커들은 위암 발생과의 연관성뿐만 아니라 위암 발생의 다른 요인 (confounders)과도 연관되어 있지 않은 유전 요인들로써, 인과성이 의심되는 환경요인(exposure)과 유일하게 연관성이 있는 것이어야 한다. 이것을 Mendelian randomization 이라고 한다.
본원의 일 실시예에 따르면, 위암 발생 예측 장치(10)는 질병과 연관된 병인요인들의 집합체라고 정의할 수 있는 에티옴 패널을 기반으로 통계적 확률기반 위암발생예측모형을 개발하고, 경로분석을 통해 위암 발암과정에 병인요인 간 관계를 시각적으로 제시하는 에티옴 네트워크를 제시하는 과정은 아래와 같다. 먼저, 유전요인을 제외하고 위암 발생과 관련되어 있는 병인 요인을 선별하기 위하여 환자-코호트 연구 세팅 내에서 잠재적 병인요인에 따른 위암발생위험도를 가중 콕스 비례위험 회귀모형을 이용하여 평가 후 유의한 연관성을 보이는 요인을 선별한다. 유전요인의 경우 환자-대조군 연구 세팅 내에서 전장유전체연관분석을 이용하여 위암과의 관련성을 평가 후 유의한 연관성을 보이는 요인을 선별한다. 선별된 병인요인들의 정보를 통합하고, 이러한 정보를 바탕으로 다요인 가중 콕스 비례위험 회귀모형을 구축한다. 구축된 회귀모형 내 각 병인요인에 따른 위암발생위험 추정치를 기반으로 개인의 위암발생확률을 예측한다. 또한, 경로분석을 통해 선별된 병인요인들 간 병인요인과 위암발생 간 연관성을 에티옴 네트워크로 제시한다.
도 8은 본원의 일 실시예에 따른 위암 발암 예측 장치의 개략적인 블록도이다.
도 8을 참조하면, 위암 발암 예측 장치(10)는 유전요인 선별부(11), 에티옴 모형 구축부(12), 회귀모형 구축부(13) 및 위암 발생 예측부(14)를 포함할 수 있으나, 이에 한정되는 것은 아니다.
본원의 일 실시예에 따르면, 유전요인 선별부(11)는 전장 유전체 연관 분석을 이용하여 위암과 유전요인과의 관련성을 평가할 수 있다. 또한, 유전요인 선별부(11)는 유의한 연관성을 보이는 유전요인을 선별할 수 있다. 또한, 유전요인 선별부(11)는 한국인 다기관 코호트에서 내 환자-대조군 데이터를 발견 세트로 설정할 수 있다. 또한, 유전요인 선별부(11)는 질병관리본부의 안산-안성 코호트 유전체 데이터를 유효성 검사 세트로 설정하여 각각의 전장 유전체 분석을 수행할 수 있다.
일예로, 유전요인은 한국인 다기관 코호트에서 1:1로 위암환자와 대조군을 매칭(짝짓기) 한 nested case-control study(환자-대조군 데이터) 세팅을 발견 세트(discovery set), 질병관리본부의 KoGES 유전체 코호트 중 안산안성 코호트 유전체 자료를 유효성 검사 세트(validation set)로 전장 유전체 분석을 진행하였다.
유전요인 선별부(11)는 각각의 raw genotype(로우 유전자형) 자료는 strand 방향을 순방향으로 맞춘 뒤에, reference panel(참조 패널)을 Haplotype Reference Consortium(HRC, 현재 세계에서 가장 큰 참조 유전체 데이터베이스로 알려진 하플로타입 레퍼런스 컨소시엄) 기반으로 imputation을 진행하여, 기존의 1000 Genome Project을 기반으로 한 imputation 자료보다 최근에 밝혀진 더 많은 수의 SNP 정보를 확보할 수 있다.
유전요인 선별부(11)는 두 전장 유전체 분석에서 validation(타당성 검증)이 되는 SNP을 위암의 유전 요인으로써 선정할 수 있다. 또한, 유전요인 선별부(11)는 기존 한국인 다기관 코호트 기반으로 유전체 분석이 진행된 biological pathway (생물학적 경로)에 해당하는 SNP들의 genotype을 바탕으로 시행된 로지스틱 회귀 분석을 통해 통계적으로 유의한 SNP들의 경우, validation set(유효성 검사 세트)인 안산안성 코호트에서 Linkage Disequilibrium(연쇄불평등 유전) 에 해당되는 SNP로 validation(타당성 검증)을 진행하였다. 연쇄불평등 유전은 염색체의 동일장소(유전자좌 locus)에 있는 대립유전자 allele가 부모로부터 전해지고, 많은 유전자는 독립유전의 법칙에 따라서 전해지나, 그 법칙으로 계산한 예측빈도 이상의 고빈도로 특정의 하플로타입 haplotype(밀접한 유전자군에 의한 표현형)이 상반해서 유전하는 경우를 연쇄 불평등이라고 한다.
다른 일예로, 유전요인 선별부(11)는 유전요인에 따른 위암발생 감수성 차이는 전장 유전체 연관 분석을 이용하여 평할 수 있다. 이용된 유전체 데이터는 Affy matrix 기반 genotype 데이터로써, 대부분의 SNP chip 들은 약 50 내지 100만개 정도의 probe를 가지고 있기 때문에 이는 30억 염기를 가지고 있는 인간의 모든 SNP을 반영하기에는 턱없이 부족한 숫자라고 할 수 있다. 하지만, imputation 기법을 통하여 관찰되지 않는 genotype을 통계적 기법에 의해 추론을 하는 과정을 통하여 SNP ship에 없었던 position의 allele을 유추할 수 있게 되며, 또한 N 수를 늘려서 통계적인 파워를 높이는 효과를 얻을 수 있다.
Imputation 과정은 phasing 과정과 imputation, 총 2가지 과정을 거친다. 우선 phasing에서 해당 서열이 부모 중 누구에게서 물려받은 것인지 구분하는 작업을 진행하는 것으로 부모의 haplotype 정보가 있으면 매우 유리하지만 없을 때 추정하는 알고리즘이다. 해당 분석 과정은 shapeit2를 사용하여 진행될 수 있다. 유전요인 선별부(11)는 Pre-phasing 과정이 끝나고 imputation 과정을 수행하게 되며, impute2 프로그램을 사용하여 진행할 수 있다. imputation의 기반이 되는 자료원은 1,000 genome project phase 3 East Asian population이었으며, imputation이 끝난 뒤에는 imputation quality를 높이는 과정을 진행한다. 해당 데이터에서는 imputation quality score R2 0.3 (low quality score) 이하인 SNPs들은 제거하며, Probability 는 0.9를 기준으로, Completion rate는 0.98을 기준으로 imputation quality control을 진행한다.
유전요인 선별부(11)는 상기 과정을 통해 선별된 SNP을 기반으로 SNP quality control 과정을 진행할 수 있다. 1% 이상 missing rate를 지닌 8,632,679개의 SNP을 제외하고, p-value 1E-05 이하의 Hardy-Weinberg equilibrium을 보인 (대조군 기준) SNP 역시 제외한다. 마지막으로 minor allele frequency 0.05 이하 (대조군 기준)의 SNP을 제외시키고 남은 SNP을 연구에 최종 포함한다.
유전요인 선별부(11)는 Imputation과 SNP quality control 과정을 거친 유전체 데이터를 기반으로 한국인다기관암코호트 내 환자-대조군 데이터 및 질병관리본부 위암 환자-대조군 데이터를 발견 세트(discovery set)로 설정하고, 질병관리본부의 안산-안성코호트 데이터를 유효성 검사 세트(validation set)로 설정하고, 각각 전장 유전체 연관성 분석(Genome-wide association study, GWAS)를 실시할 수 있다.
또한, 유전요인 선별부(11)는 전장 유전체 분석을 통해 발견 세트와 상기 유효성 검사 세트 결과를 바탕으로 통계적으로 유의하다고 판단되는 SNP을 선별하고, 선별된 SNP에 대하여 질병관리본부 안산-안성 유전체 데이터 내에서 위험 대립 유전자(risk allele)의 개수를 산출할 수 있다.
또한, 유전요인 선별부(11)는 선정된 유전 변이당 위험점수를 합산하여 최종 다유전적 위험 점수를 산출하고, 위암 위험의 유전적 요인으로 결정할 수 있다. 달리 말해, 유전요인 선별부(11)는 Validation(타당성 검증)을 통해서 선정된 SNP들로 다유전적 위험 점수(polygenic risk score; PRS)를 산출할 수 있다. 또한, 유전요인 선별부(11)는 선정된 SNP들의 위험 대립유전자(risk allele)의 개수를 산출할 수 있다.
일예로, 기본형 대립 유전자(reference allele)를 A라 지칭하고, 변이형 대립유전자(alternative allele)를 T라고 지칭하였을 경우, 유전요인 선별부(11)는 SNP의 염기 형태가 A/A인 경우 위험 대립유전자의 개수는 0, A/T인 경우 1, 그리고 T/T인 경우는 2라고 산출할 수 있다.
본원의 일 실시예에 따르면, 유전요인 선별부(11)는 대립유전자 정보가 결측인 대상자를 modeling (regression boostrapping), monte carlo sampling, 연쇄방정식 (chained equation) 기반으로 시뮬레이션 데이터를 생성할 수 있다. 예를 들어, 유전요인 선별부(11)는 산출된 PRS를 유전정보가 존재하지 않은 위암발생예측 모델링 데이터에 시뮬레이션시킴으로써, 유전적 요인이 위암발생예측에 기여하는 바를 평가하고, 나아가 위암발생예측 모델의 설명력을 증가시킬 수 있다. 시뮬레이션 데이터는 modeling (regression boostrapping), monte carlo sampling, 연쇄방정식 (chained equation) 기반으로 생성한다.
유전요인 선별부(11)는 관찰된 다른 변수들을 활용한 회귀분포로부터 무작위로 추출하는 등의 기법을 거치게 되며, 해당 단계를 반복하여 복수의 자료를 생성하여 통계 분석 결과는 예측 후 통합 기법을 통해 산출할 수 있다. 시뮬레이션의 단계는 크게 6가지 단계로 구성될 수 있다.
유전요인 선별부(11)는 1단계에서 regression bootstrapping을 활용하여 PRS(다유전적 위험 점수) 값을 시뮬레이션할 수 있다. 또한, 유전요인 선별부(11)는 2단계에서 일부를 결측 상태로 되돌릴 수 있다. 또한, 유전요인 선별부(11)는 3단계에서는 이를 종속변수로 하여 나머지 변수를 독립변수로 하는 회귀분석을 실시할 수 있다. 또한, 유전요인 선별부(11)는 4단계에서 회귀 분석의 결과를 토대로 다시 PRS(다유전적 위험 점수) 값을 시뮬레이션할 수 있다. 또한, 유전요인 선별부(11)는 이후 단계에서는 PRS(다유전적 위험 점수) 값이 독립변수 역할을 하게 되며 5단계에서는 2단계의 과정이 다른 변수들을 위해 반복 수행할 수 있다. 이 과정이 1회 실시되는 것을 한 사이클이라고 정의하며 유전 요인 선별부(11)는 6단계를 복수의 사이클을 실시하여 시뮬레이션 값이 안정적인 값을 갖도록 갱신할 수 있다.
또한, 유전요인 선별부(11)는 해당 과정(앞서 설명된 시뮬레이션)을 통해 100개의 시뮬레이션 데이터 세트를 생성하여 PRS 점수에 따른 위암 발생 위험 증가 정도를 파악하고 나아가 모델링의 예측력 (C-index) 증가분을 산출할 수 있다.
또한, 유전요인 선별부(11)는 대상자수가 많은 안산안성 코호트를 기반으로 진행한 전장 유전체 분석결과로부터 제시된 오즈비를 기반으로 자연로그를 취하여 가중치를 부여할 수 있다. PRS는 “각 SNP당 위험 점수=ln(기존 문헌에서 보고된 오즈비)*(위험 대립 유전자의 개수)”로 계산하게 되며 선정된 유전 변이당 위험점수를 합산해서 최종 다유전적 위험 점수를 산출하여 모델링에 위암 위험의 유전적 요인으로써 간주할 수 있다. 달리 말해, 유전요인 선별부(11)는 선별된 SNP에 대하여 질병관리본부 안산-안성 유전체 데이터 내에서 위험 대립 유전자 (risk allele)의 개수를 산출하고, 기본형 대립 유전자 (reference allele)를 A라고 지칭하고, 변이형 대립유전자 (alternative allele)를 T라고 지칭하였을 경우, SNP의 염기 형태가 A/A인 경우 위험 대립유전자의 개수는 0, A/T인 경우 1, 그리고 T/T인 경우는 2로 산출한다. 또한, 해당 데이터를 기반으로 실시된 GWAS 분석 결과에서 해당 SNP들의 오즈비 값을 자연로그를 취하여 가중치를 부여한다. “각 SNP당 위험 점수 = ln(GWAS 분석 결과 오즈비)*(위험 대립 유전자의 개수)”를 계산하게 되며, 선정된 유전 변이당 위험 점수를 합산해서 최종적으로 다유전적 위험 점수 (Polygenic risk score; PRS)를 산출할 수 있다.
본원의 일 실시예에 따르면, 에티옴 모형 구축부(12)는 가중 콕스 비례위험 회귀모형에서 위암 발생의 병인 요인으로 추출된 복수의 병인 요인 변수를 고려하여 위암 발생 예측 에티옴 패널 모형을 구축할 수 있다. 예를 들어, 에티옴 모형 구축부(12)는 위암 병인요인들과 위암 발생간의 연관성은 가중 콕스 비례위험 회귀모형(Weighted Cox proportional hazard regression model)을 이용하여 평가할 수 있다. 에티옴 모형 구축부(12)는 가중치의 경우 위암 환자군의 경우 1을 할당하고, 비환자군의 경우 성별, 연령(10세 간격)으로 층화된 각 층화군 내 샘플링 확률값의 역수를 할당할 수 있다.
일예로, 에티옴 모형 구축부(12)는 앞서 설명된 유전요인 선별부(11)에서 수행된 시뮬레이션 과정을 통해 위암 발생 과정에 관여하는 병인요인을 선별 후 이들 요인에 정보를 통합하여 에티옴 패널을 구축할 수 있다. 에티옴 모형 구축부(12)는 목적에 따라 아래와 같이 4가지 에티옴 패널을 구축할 수 있다. 이때, 위암 발생 예측 에티옴 패널 모형은 에티옴 모형 구축부(12)에서 구축된 최종적인 모델로써, 위암 발생 예측 에티옴 패널 모형은 제5에티옴 모형을 기반으로 한 Random survival forest(RSF) 모델링으로 구축될 수 있다.
다른 일예로, 에티옴 모형 구축부(12)는 가중 콕스 비례위험 회귀모형에서 위암발생의 병인요인으로서 가능성을 보이는(Type 3 test p-value <0.10) 인자들의 정보를 합하여 위암 에티옴 패널을 구축할 수 있다.
한편, 에티옴 모형 구축부(12)는 제1에티옴 모형 내지 제5에티옴 모형을 포함할 수 있다. 에티옴 모형 구축부(12)는 위암과 연관성 있는 것으로 알려진 다층 다병요인 정보를 통합하여 에티옴 패널을 구축하고, 에티옴으로 통합된 정보를 입력하여 개인 맞춤형 위암발생 위험도 산출할 수 있다.
예시적으로, 제1에티옴 모형은 건강검진형 모형으로, 성별, 나이, H. Pylori 감염 여부, AST/AST ratio, GGT, 헤모글로빈, 알부민, 총콜레스테롤, Triglyceride, HDL, 혈당, 요당, WBC, 총단백, 요산, HBsAg, HBsAb, Polygenic risk score의 변수로 구축될 수 있다. 또한, 제2에티옴 모형은 생활 습관 모형으로서, 제1에티옴 모형과 체질량지수, 운동빈도, Waist/Hip ratio, pack-year, 알코올섭취량, 위궤양 과거력, 전암 과거력의 변수로 구축될 수 있다. 또한, 제3에티옴 모형은, 생체 지표 모형으로서, 성별, 나이, H. Pylori 감염 여부, VacA, CagA, HGF, Isoprost, OHDG, BPDE, C-met, Daidzein, Enterolactone, Equol, Genistein, Aflatoxin, Sodium, Polygenic risk score의 변수로 구축될 수 있다. 또한, 제4에티옴 모형은 생체 지표 및 건강검진형 모형으로서, 제3에티옴 모형과 AST/AST ratio, GGT, 헤모글로빈, 알부민, 총콜레스테롤, Triglyceride, HDL, 혈당, 요당, WBC, 총단백, 요산, HBsAg, HbsAb의 변수로 구축될 수 있다. 또한, 제5에티옴 모형은, 최종 통합 모형으로서, 제4에티옴 모형과 체질량지수, 운동빈도, Waist/Hip ratio, pack-year, 알코올섭취량, 위궤양 과거력, 전암 과거력의 변수로 구축될 수 있다.
해당 모형들을 구축하기 위한 모델링 방법은 통계적 기반 확률 모형, 머신러닝 알고리즘: Gradient Boosting Model, 머신러닝 알고리즘: Random Survival Forest 에 적용함으로써 각 개인이 고위험군인지 아닌지 분류하거나 위암 발생확률을 산출하는 과정으로 구성될 수 있다.
도 9a 내지 도 9j는 본원의 일 실시예에 따른 에티옴 모형 구축부에서 구축된 에티옴 모형의 2년 발생 설명력 및 5년 발생 설명력의 확률기반 통계모형, Gradient boosting model, random survival forest의 결과를 ROC 곡선 및 AUC로 나타낸 도면이다.
에티옴 모형 구축부(12)는 개인의 내재적요인 및 환경요인과 관련된 변수를 기반으로 제1에티옴 모형을 구축할 수 있다. 제1에티옴 모형은 건강한 사람들의 건강검진정보에 기반하여 이용할 수 있는 모형으로 일반인구집단에서 비교적 획득이 쉬운 정보를 기반으로 개인의 위암발생 위험도를 평가할 수 있으며, polygenic risk score를 통한 개인별 위암과 관련된 유전적인 요인에 대한 위험도까지 고려할 수 있는 모형이다.
도 9a 및 도 9b를 참조하면, 개인별 내재적인자-환경요인을 기반으로 하는 에티옴 모형의 경우 3가지 모델링의 위암 2년 발생 설명력 (Harrell’s C-statistics)은 확률기반 통계모형, Gradient boosting model, 그리고 random survival forest가 각각 0.826 (0.788-0.864), 0.808 (0.783-0.831), 0.850 (0.830-0.874)로 확인되었다. 제1에티옴 모형을 기반으로 건강한 개인은 위암발생 이전에 위암 발생확률을 확인하고, 에티옴 모델 상에서 그들이 가지고 있는 병인요인의 위치 및 타병인요인과의 연관성 및 중재 우선순위를 파악 후 스스로가 일차예방에 적용할 수 있다.
또한, 제1에티옴 모형에서 내재적인자로는 위암 가족력, 연령, 성, 교육 정도와 가구수입 등 위생적 생활 및 영양상태와 연관될 수 있는 변수들이 포함되고, 환경요인으로는 담배흡연, 알콜음주, 운동, 과도한 소금의 섭취, 콩류 섭취 및 채소와 과일 섭취, 짠음식류 섭취 등의 식이요인, 비만지표 등의 변수들이 포함될 수 있다.
또한, 에티옴 모형 구축부(3)는 환경요인-인체 발암성 미세환경(carcinogenic microenvironment) 유발 및 조절자 변수를 기반으로 제2에티옴 모형을 구축할 수 있다. 제2에티옴 모형은 위암발생 가능성이 높은 대상자, 가족력이 있는 대상자 등 위암 고위험군으로 분류할 수 있는 집단을 대상으로 그들의 평소 생활 습관을 기반으로 하는 환경요인-인체 발암성 미세환경 (carcinogenic microenvironment) 유발 및 조절자에 대한 정보를 기반으로 구축된 에티옴 모형이다. 제1에티옴 모형과 마찬가지로, polygenic risk score를 통한 개인별 위암과 관련된 유전적인 요인에 대한 위험도까지 고려할 수 있다.
도 9c 및 9d를 참조하면, 환경요인-인체 발암성 미세환경 (carcinogenic microenvironment) 유발/조절자 정보를 포함하는 제2에티옴 모형의 경우 각 모델링의 위암 2년 발생 설명력 (Harrell’s C-statistics)은 확률기반 통계모형, Gradient boosting model, 그리고 random survival forest가 각각 0.877 (0.843-0.911), 0.811 (0.792-0.837), 0.869 (0.843-0.888)로 확인되었다.
한편, 제2에티옴 모형을 기반으로 위암 발병에 대한 병리학적 기전에 근거하여 다단계 에티옴 질병모형과 요인노출-질병발생 간 연속선 측면에서의 자연사를 기반으로 한 다요인 에티옴 질병네트워크를 구축할 수 있다. 다단계 에티옴 질병모형 및 다요인 에티옴 질병네트워크를 통해 위암 고위험군은 건강검진정보에 기반한 모형보다 정밀하게 개인의 위암발생 위험확률을 산출할 수 있고, 본인이 위암발생 위험요인을 높이는 어떠한 요인을 가지고 있는지 확인하고 에티옴 모형 상에서 해당 요인의 위치 및 다른 요인들 간의 연관성을 시각적으로 확인함으로써 중재요인 및 중재요인의 우선순위를 설정하고 일차예방에 적용할 수 있다.
또한, 제2에티옴 모형의 인체 발암성 미세환경 (carcinogenic microenvironment) 유발 및 조절자로는 aflatoxin 노출 생체지표, 소디움 생체지표, 산화스트레스 생체지표, HGF, cMET, 이소플라본 생체지표 (Genistein, Daidzein, Equol), 리그난 생체지표 등의 변수가 포함될 수 있다.
또한, 에티옴 모형 구축부(12)는 개인별 생체지표 변수를 기반으로 제3에티옴 모형을 구축할 수 있다. 제3에티옴 모형은 사람들의 생체 지표 (biomarker)에 기반하여 이용할 수 있는 모형으로 일반적인 건강검진으로 얻을 수 있는 정보 이외에 실험을 통해 측정 가능한 다양한 생체 지표들을 고려하여 각 개인의 위암 발생 위험도를 평가할 수 있다.
생체 지표는 위암의 발생 위험에 기여한다고 기존에 알려진 대표적인 마커들을 선정하였으며, 산화스트레스지표 (Isoprost, OHDG, BPDE), C-met, isoflavone 지표 (Daidzein, Genistein, Equol), Lignan 지표 (Enterolactone), HGF, 24 hour urinary sodium, Aflatoxin B1, 헬리코박터 파이로리 감염 정보 (H.pylori, VacA, CagA)로 구성되어 있다. 제3에티옴 모형도 타모형과 마찬가지로 polygenic risk score를 통한 개인별 위암과 관련된 유전적인 요인에 대한 위험도까지 기본적으로 고려대상에 포함이 된다.
도 9e 및 도 9f를 참조하면, 개인별 생체지표인자를 기반으로 구축된 제3에티옴 모형을 기반으로 구축된 3가지 모델링의 위암 2년 발생 설명력(Harrell’s C-statistics)은 확률기반 통계모형, Gradient boosting model, 그리고 random survival forest가 각각 0.916 (0.891-0.940), 0.956 (0.949-0.962), 0.969 (0.959-0.977)로 확인되었다. 제3에티옴 모형을 통해 생체지표지수를 획득한 개인은 해당 정보를 기반으로 본인이 위암 발생과 관련된 어떠한 지표를 가지고 있는지 확인을 하고 해당 생체 지표에 대한 중재요인의 우선순위를 설정하여 일차 예방을 도모할 수 있다.
또한, 에티옴 모형 구축부(12)는 제1에티옴 모형 및 제2에티옴 모형을 통합하여 제4에티옴 모형을 구축할 수 있다. 제4에티온 모형은 사람들의 건강검진 정보와 동시에 평소 생활 습관 및 위암의 고위험군으로 분류될 수 있는 가족력이나 과거력이 있는 대상자의 정보를 통합한 모형이라고 할 수 있다. 해당 모형은 개인별 내재적인자 뿐만 아니라 인체발암성 미세 환경, 그에 따른 유발 조절자 정보를 포함하여 위암의 발생을 예측할 수 있는 에티옴 패널이며, 제4에티옴 모형에서도 polygenic risk score를 통한 개인별 위암과 관련된 유전적인 요인에 대한 위험도를 고려할 수 있게 구축되어있다.
도 9g 및 도 9h를 참조하면, 제4에티옴 모형의 경우 각 모델링의 위암 2년 발생 설명력 (Harrell’s C-statistics)은 확률기반 통계모형, Gradient boosting model, 그리고 random survival forest가 각각 0.905 (0.880-0.930), 0.956 (0.948-0.962), 0.971 (0.963-0.979)로 확인되었다. 제4에티옴 모형을 기반으로 개인은 건강검진 정보와 평소 생활 습관을 통합적으로 고려하여 위암의 발생에 관련된 병인 요인을 파악할 수 있고, 본인의 위암 발생 위험도를 높이는 평소 생활 습관을 개선할 수 있는 방향을 제시할 수 있다.
또한, 에티옴 모형 구축부(12)는 제4에티옴 모형 및 위암 연관 유전적 요인 변수를 기반으로 제5에티옴 모형을 구축할 수 있다. 제5에티온 모형은 사람들의 건강검진, 생활습관, 생체지표 및 유전적인 요인을 통합적으로 고려할 수 있는 위암 발생 통합 에티옴 패널이라고 할 수 있다.
도 9i 및 도 9j를 참조하면, 각 모델링의 위암 2년 발생 설명력 (Harrell’s C-statistics)은 확률기반 통계모형, Gradient boosting model, 그리고 random survival forest가 각각 0.913 (0.888-0.938), 0.958 (0.952 - 0.965), 0.972 (0.964-0.980)로 확인되었다. 제5에티옴 모형을 통해 개인은 다양한 종류의 위암 발생 위험 요인을 기반으로 다각적으로 위암 발생 예측을 할 수 있다.
한편, 에티옴 모형에서 고려하는 위암의 위험 요인 인자들이 많을수록 확률적 기반의 통계 모델링과 머신 러닝 기법 기반의 모델링 간의 설명력이 확연하게 차이나는 것을 볼 수 있다.
도 10은 본원의 일 실시예에 따른 위암 발생 예측 에티옴 패널 모형에 기초한 위암의 위험 인자에 대한 히트맵이다.
최종적인 위암 발생 예측 에티옴 패널 모형은 제5에티옴 모형을 기반으로 한 Random survival forest (RSF) 모델링으로 구축한다. 해당 모형에서 위암 2년 발생 예측 설명력 (Harrell’s C-statistics)은 0.972 (0.964-0.980)로 확인되어 모든 모형 및 모델링에서 가장 높은 예측력을 지닌다.
도 10을 참조하면, RSF 모델링 결과로써 Variable importance (VIMP)를 제시하여 위암 발생 위험 요인 중에서 가장 위암 발생 위험에 가장 기여도가 높은 인자를 확인할 수 있으며, 산화스트레스 지표 중 하나인 BPDE, 생체지표 중 하나인 HFG, 그리고 유전적 요인을 대표하는 PRS가 상위에 위치함을 볼 수 있다. 또한, marginal effect를 시각화 한 PDP를 통해 각각의 위험 요인들과 위암 발생 위험 간의 선형적 및 비선형적 관계를 밝힘으로써 예측력은 좋지만 설명력은 낮은 일반적인 머신 러닝 기법의 한계점을 보완하고 극복할 수 있는 수단으로 사용될 수 있다.
한편, 도 11a 내지 도 11e는 본원의 일 실시예에 따른 위암 발생 예측 에티옴 패널 모형에 기초한 위암의 위험 인자에 대한 random survival forest의 Partial dependency plots (PDPs)를 나타낸 도면이다. 위암의 위험 인자는 Age, Sex, H. pylori infection, VacA, CagA, HGF, Isoprost, OHDG, BPDE, C-met, Daidzein, Enterolactone, Equol, Genistein, Aflatoxin, 24 hour urinary sodium by Kawasaki, Polygenic risk score, AST/ALT ratio, GGT, Hemoglobin, Albumin, Total cholesterol, Triglyceride, HDL, FBS, Uric glucose, WBC, Total protein, Uric acid, HBsAg, HBsAb, Body mass index, Physical activity, Waist/Hip ratio, Pack-year, Alcohol drinking (g) in one place, Personal history of Ulcer, Personal history of total cancer를 포함할 수 있다. 도 11a 내지 도 11e는 복수의 위암의 위험 인자를 위암 발생 예측 에티옴 패널 모형(제5에티옴 모형)에 적용하여 random survival forest의 Partial dependency plots (PDPs)를 나타낸 도면이다.
앞서 제1에티옴 모형 내지 제5에티옴 모형에 적용된 Random survival forest는 생존 자료를 분석하기 위해 random forest를 발전시킨 것으로 random forest의 알고리즘을 기본으로 한다. 주어진 자료로부터 bootstrap 샘플을 생성하며 이들을 기반으로 in-bag bootstrap 샘플 (in-bag-data)로 training 모형을 생성한다. 일반적으로 전체 샘플의 1/3은 bootstrap 표본이 생성될 시에 한 번도 포함되지 않는 샘플이 존재하게 되는데 이들을 out-of-bag(OOB)라 하며, 해당 샘플을 기반으로 test 모형을 생성하게 된다.
In-bag bootstrap 샘플에서 survival tree를 성장시킨다. 각 마디에서 전체 모델링에 포함되는 변수 중 일부만을 복원추출을 통해 후보변수를 무작위를 골라, 이 중에서 자식 마디의 동질성이 최대가 되는 변수를 선택하여 최적의 분리가 발생되는 지점을 찾는다. 후보 변수들의 일부를 무작위 복원 추출을 통해 몇 천 개의 tree 모델을 만드는 이유는, decision tree과 같이 정적인 1개의 트리를 생성하여 이를 기반으로 모델링을 진행할 경우, 정보량이 많은(분산이 크고 중요도가 높은) 변수가 해당 모델을 과도하게 설명하는 경향이 있기 때문에 이로부터 발생하는 편향을 줄이기 위한 목적에 있다. 정지기준에 도달할 때까지 이 과정을 반복하며 마디를 분리해 나가며, 마디가 더 이상 분리되지 않은 terminal node에 도달하면 모델 구축 작업이 종료된다.
그리고 tree의 끝 마디에서 얻은 정보를 결합하여 앙상블 누적위험함수를 구축하여 예측모형을 얻는다. 마디 간 차이는 생존 시간이 다름을 의미하므로, 분리규칙은 log-rank 검정 통계량이 최대가 되는 변수와 지점을 찾아 생존 차이(survival difference)를 극대화한 값이다. 마지막으로 모형을 평가하는 과정을 거치는데, OOB 자료에 적용하여 모형의 성능을 살펴본다.
Random survival forest는 VIMP(variable importance)에 기초하여 모형에 유의한 영향을 주는 유의한 변수를 평가한다. VIMP는 중요성을 확인하고자 하는 변수를 무작위로 “noise” 처리한 경우의 오차가 처리하지 않았을 때보다 얼만큼 중요도가 증가 혹은 감소하였는지를 의미한다. 따라서 높은 VIMP를 갖는 변수는 해당 모델의 예측력에 더 큰 영향을 주는 것으로 설명할 수 있다.
또한, Gradient Boosting Algorithm (GBM)은 회귀분석 또는 분류 분석을 수행할 수 있는 예측모형이며 예측모형의 앙상블 방법론 중 boosting 계열에 속하는 알고리즘이다. 주요 앙상블 알고리즘은 bagging과 boosting으로 나눌 수 있고, Gradient boosting은 Gradient를 이용하여 Boosting 하는 알고리즘이다. Boosting 이란 약한 분류기를 결합하여 강한 분류기를 만드는 과정이다. 분류기 A, B가 있고, 각각의 0.3 정도의 accuracy를 보여준다고 할 경우, A, B를 결합하여 더 높은 정확도, 예를 들어 0.7 정도의 accuracy를 얻는 게 앙상블 알고리즘의 기본 원리이다. Boosting은 이 과정을 순차적으로 실행한다. A 분류기를 만든 후, 그 정보를 바탕으로 B 분류기를 만들어 나가는 과정을 순차적으로 반복하여, 최종적으로 만들어진 분류기들을 모두 결합하여 최종 모델을 만드는 것이 Boosting의 원리이다. GBM의 모델 구축은 residual fitting을 기반으로 이루어진다. 아주 간단한 모델 A를 통해 y를 예측하고 남은 잔차 (residual)을 다시 B라는 모델을 통해 예측하고 A+B 모델을 통해 y를 예측한다면 A보다 나은 B 모델을 만들 수 있게 되며, 해당 과정을 반복하게 될 경우 잔차는 계속해서 줄어들게 되고, training set을 잘 설명하는 예측 모형을 만들 수 있게 된다.
또한, 일반적인 머신러닝 및 딥러닝 모델들은 해당 변수가 어떻게 결과값에 영향을 주었는지 파악하고 활용하기가 상당히 힘들어진다. 이러한 특성에서 흔히 예측력이 높으나 해석이 힘들 모델을 black box라고 부른다. 따라서 다양한 모델에서 범용적으로 적용이 가능하고 모델의 예측값과 input 변수가 어떤 관계가 있었는지를 해석하고자 하는 목적으로 Partial dependence plot (PDP)를 주로 사용한다. Partial Dependence Plot(PDP)의 목적은 하나 혹은 두 개의 변수가 예측 결과에 미치는 주변 효과(marginal effect)를 알아보는 것이다. 다시 말해, 한 확률변수의 값을 고정시키고 다른 확률변수의 값을 변화시키면서 그에 따른 확률 값들을 모두 더하는 것이다. Partial Dependence Plot의 가장 큰 장점은 종속 변수와 관심 있는 독립 변수간 비선형 관계도 반영하기 때문에 다양한 형태의 관계를 볼 수 있다는 것이다.
본원의 일 실시예에 따르면, 에티옴 모형 구축부(12)에서 RSF 기반으로 구축한 위암 에티옴 패널 통합 모형은 하기 수학식 2와 같이 표현될 수 있다. 수학식 2에서, h는 terminal node 이고, b는 survival tree이고, t는 at time 이고, d는 the number of events이고, i는 individuals at risk이고, B는 survival forest with B trees 이다.
Figure pat00002
Figure pat00003
= Age, Sex, H. pylori infection, VacA, CagA, HGF, Isoprost, OHDG, BPDE, C-met, Daidzein, Enterolactone, Equol, Genistein, Aflatoxin, 24hour urinary sodium by Kawasaki, Polygenic risk score, AST/ALT ratio, GGT, Hemoglobin, Albumin, Total cholesterol, Triglyceride, HDL, FBS, Uric glucose, WBC, Total protein, Uric acid, HBsAg, HBsAb, Body mass index, Physical activity, Waist/Hip ratio, Pack-year, Alcohol drinking (g) in one place, Personal history of Ulcer, Personal history of total cancer
본원의 일 실시예에 따르면, 회귀모형 구축부(13)는 위암 발생과 연관성이 있는 병인 요인들의 정보를 기반으로 다요인 가중 콕스 비례위험 회귀모형을 구축할 수 있다. 또한, 회귀모형 구축부(13)는 구축된 위암 발생 예측 에티옴 패널 모형을 기반으로 복수의 병인 요인을 예측인자로 포함하는 다중요인 가중 콕스 비례위험 회귀모형 (Multi-variable weighted Cox proportional hazard regression model)을 구축할 수 있다. 회귀모형 구축부(13)는 해당 모형에서 위암발생확률 예측을 위한 각 병인요인에 따른 위암발생위험 추정치 (β)를 확보할 수 있다.
또한, 회귀모형 구축부(13)는 다중요인 가중 콕스 회귀모형의 정확도를 Harrell’s C-statistics 및 calibration plot으로 평가할 수 있다. 예시적으로, 회귀모형 구축부(13)는 모형간 예측력을 평가하는 지표로 Harrell의 concordance index(c-index, Harrell 외 1982)를 사용한다. C-index는 ROC(receiver operating curve) 곡선 아래의 면적 (AUC)으로 두 개체를 임의로 선택하여 생존 시간이 짧은 개체의 위험도가 더 높게 예측된 경우의 확률을 말한다. C-index를 계산한다. 가 0.5이면 무작위로 예측한 것과 차이가 없고, 1에 가까울수록 모형의 분류 능력이 높다. 해당 모델은 100번의 bootstrapping을 통해 cross-validation한 ROC 곡선과 AUC 값을 제시함으로써, 모형 간의 성능을 비교할 수 있다.
또한, 위암발생확률모형 개발을 위해 필요한 정보로 특정시점의 위암발생에 대한 생존함수를 산출할 수 있다. 개인의 위암발생확률은 각 병인요인의 값(χ), 해당 병인요인에 따른 위암발생위험 추정치 (β), 특정시점 위암발생에 대한 생존함수 f(x), w (환자-코호트연구에서의 가중치)를 적용하여 생존함수를 산출할 수 있다.
상기에 기술된 도 11a 내지 도 11e에서 설명된 위암의 잠재적 병인요인 노출에 따른 위암발생위험도 평가 결과에 대한 예시는 아래와 같다. 회귀모형 구축부(13)는 한국인다기관암코호트 내 위암 환자-코호트 자료원을 기반으로 코호트 입적 당시 수집된 노출요인 및 당시 수집된 생체시료를 이용하여 측정된 생체지표 노출요인에 따른 위암발생위험도를 가중 콕스 비례위험 회귀모형을 이용하여 평가할 수 있다. 고려된 위암의 잠재적 병인요인으로는 내재요인 (연령, 성별, 체질량지수), 흡연, 짠 음식에 대한 선호도, 음주, 건강검진 기반 혈액/소변 검사 이상치, 헬리코박터 파이로리 감염, 암 미세환경 유발/조절인자 (HGF, c-Met, Isoflavones, Lignan, oxidative stress marker, urinary sodium 등), 위암 가족력, 전위암단계의 질병상태 등을 포함할 수 있다. 또한, 상기 과정을 통해 유의미하게 위암발생위험도와 관련있는 병인요인을 선정하였고 (Type 3 test p-value < 0.10), 연령, 성별, 성별 흡연량 (갑년), 짠 음식에 대한 선호도 대리변수, 체질량지수, 성별 음주빈도, 감마-글루타밀 전이효소 농도, 성별 헤모글로빈 농도, 헬리코박터 파이로리 감염, HGF, c-Met, 이소플라본, 리그난, 요내 나트륨, 산화스트레스 지표, 위염 질병력, 위암 가족력이 위암발생예측모형을 위한 예측 병인요인으로 선정할 수 있다. 에티옴 모형 구축부(12)에서 선정된 병인요인 정보를 기반으로 상기에 제시된 5개 에티옴 패널 구성할 수 있다.
본원의 일 실시예에 따르면, 위암 발생 예측부(14)는 구축된 다중요인 가중 콕스 비례위험 회귀모형 내 각 병인 요인에 따른 위암발생위험 추정치를 기반으로 개인의 위암 발생 확률을 예측할 수 있다.
또한, 위암 발생 예측부(14)는 인공신경망 기반으로 위암 발생을 예측하되, 단일 시점에서 수집된 유전 정보를 통합 입력하기 위해 순환신경망 마지막 층에 다층 퍼셉트론 신경망을 추가적으로 연결하고, 출력층은 위암 발생 유 또는 무로 설정할 수 있다.
위암 발생 예측부(14)는 질병 발생 위험을 예측하기 위해 생활 습관 및 건강 상태와 같은 시계열 데이터를 입력할 수 있는 인공 신경망 중 딥신경망을 적용하였으며 단일 시점에서 수집한 유전 정보를 통합 입력하기 위해 기존 순환신경망 마지막 층에 다층 퍼셉트론 신경망을 추가적으로 연결할 수 있다. 마지막으로 출력층에 위암 발생 유/무로 설정하였으며 발생 유/무의 시점은 신경망에 입력한 시계열 데이터의 시점 이후이다.
수학식 3에 표현된 딥신경망에 반복 측정된 개개인의 생활 습관 및 건강 상태 변수를 입력하여 시간에 따른 상관관계뿐만 아니라 생활 습관 및 건강 상태 변수간의 상관관계까지 분석할 수 있다.
Figure pat00004
수학식 3에서 에서
Figure pat00005
는 t시점의 생활 습관 및 건강 상태의 입력 변수를
Figure pat00006
는 t시점의 은닉층을 나타내고
Figure pat00007
Figure pat00008
는 각각 입력 변수와 은닉층간의 가중치와 은닉층들 간의 가중치를 나타낸다.
Figure pat00009
유전 정보는 단일 시점으로 수집되었으므로 딥신경망에 통합시키기 위해 수학식 4와 같이 딥신경망 마지막 층에 다층 퍼셉트론 신경망을 연결하여 입력한다. 만약 유전정보를 포함하는 모형일 경우에는 각 질병(고혈압, 당뇨병, 비만, 대사증후군) 각각에 대해 기존에 잘 알려진 유전정보를 대립유전자에 따른 위험 지수(Risk factor)로 변환하여 입력한다. 수학식 4에서 z가 유전 정보를 나타내고
Figure pat00010
는 인공신경망 모델을 통해 예측된 각 질병의 위험도를 나타낸다.
Figure pat00011
수학식 5는 구축된 인공신경망의 오차식이며 산출된 오차를 역전파 알고리즘을 통해 인공신경망의 가중치를 학습한다. 학습 과정 중 noise에 따른 과적합을 방지하기 위해 l2 정규화 식을 추가하였으며
Figure pat00012
는 각 실제 위암에 대한 발생 유/무를 나타낸다.
위암 발생 예측부(14)는 구축된 인공신경망의 타당도 검증을 위하여 전체 대상자를 3등분하여 교차검증을 시행하여 검증을 수행할 수 있다. 에티옴 모형 구축부(12)는 검증 후, 문헌 조사를 통해 위암 발생에 알려진 여러 요인의 경우 가중치를 조정하여 모형을 수정할 수 있다.
에티옴 패널 네트워크상에 포함된 위암 발생에 관련된 [내재적요인-환경요인]과 통계적 모형에서의 beta 값은 표1과 같다.
Variables Beta
coefficient
Age 0.0520
Sex
Women 0
Men 0.6166
Sex-specific pack-year3
Never smoker 0
Dose 1 0.1104
Dose 2 0.2058
H. pylori infection
Never 0
Ever 0.8354
GGT (IU/L)
<50 0
≥50 0.2896
Sex-specific alcohol drinking frequency(/week)3
Never drinker 0
Frequency 1 0.3300
Frequency 2 0.2710
Family history of GC
No 0
Yes 0.3593
Gastritis
No 0
Yes 0.4214
Body mass index (kg/m2)
< 23.0 0
≥23.0 0.1078
Instrumental variable of salty food intakes
Low dose 0
Moderate dose 0.5110
High dose 0.8969
Sex-specific hemoglobin (g/dL)2
Low 0
Normal-High 0.8759
에티옴 패널 네트워크 상에 포함된 위암 발생에 관련된 [내재적요인-환경요인 + 발암성 미세환경 인자]과 통계적 모형에서의 beta 값은 표 2아래와 같다.
Variables Beta
coefficient
Age 0.0273
Sex
Women 0
Men 0.4243
Sex-specific pack-year3
Never smoker 0
Dose 1 0.1112
Dose 2 0.1658
H. pylori infection
Never 0
Ever 1.5739
GGT (IU/L)
<50 0
≥50 0.2896
Sex-specific alcohol drinking frequency (/week)3
Never drinker 0
Frequency 1 0.1931
Frequency 2 0.1312
Family history of GC
No 0
Yes 0.2938
Gastritis
No 0
Yes 0.2422
Body mass index (kg/m2)
< 23.0 0
≥23.0 0.2938
Instrumental variable of salty food intakes
Low dose 0
Moderate dose 0.1311
High dose 0.6828
Sex-specific hemoglobin (g/dL)2
Low 0
Normal-High 0.8521
Urinary 24-hour sodiumexcretion
<200 -0.0076
200-219.9 0
≥220 0.4542
8-isoprostane (ng/mL)
<3000 0
≥3000 1.3146
Enterolactone (pg/mL)
<35 0
≥35 -0.6117
Isoflavones
All low - one high 0
Two high -0.4409
Three-four high -1.1314
cMET (pg/mL)
<15.7 0
≥15.7 -1.4328
HGF (pg/mL)
<227 0
227-331.9 0.9369
≥332 1.7165
도 12는 본원의 일 실시예에 따른 내재적요인-환경요인을 포함한 통계모형에서의 위암 발생확률 예측에 대한 모형의 설명력을 나타낸 도면이고, 도 13은 본원의 일 실시예에 따른 [내재적 요인-환경요인 + 발암성 미세환경 인자]을 포함한 통계모형에서의 위암 발생확률 예측에 대한 모형의 설명력을 나타낸 도면이다.
도 12 및 도 13을 참조하면, 두 통계적 모형 각각의 설명력 (훈련 모형에서의 값)은 다음과 같다. 첫 번째 모형은 78% 정도 위암 발생을 예측 가능하며 (C-statistics 0.780 (0.756-0.804)) (도면 12) & 두 번째 모형은 위암 발생을 85% 정도 예측 가능하다. (C-statistics 0.847 (0.827-0.867))(도13)
도 14는 본원의 일 실시예에 따른 위암 발생에 대한 요인들의 복합적 위험도 Joint risk (risk score) 와 위암 발생 확률 (risk) 및 인구집단에서의 복합적 위험도를 가진 집단의 분포 (prevalence)를 나타낸 도면이다.
표 3은 위험요인 조합에 따른 위암발생확률 예측에 대한 통계방법, 기계학습법 각각에 대한 예측력 (Harrell’s C)에 대한 비교 결과이다.
통계 렌덤포레스트 딥러닝
(1) 내재-환경요인 0.780 (5) [위암 발암 기전 기반] 0.800 0.802
(6) [요인-질병 간 연속선상 자연사 기반] 0.804 0.813
(2) 내재-환경요인 + 유전요인 0.801 (7) [위암 발암 기전 기반] 0.812 0.827
(8) [요인-질병 간 연속선상 자연사 기반] 0.815 0.835
(3) 내재-환경요인+발암성미세환경요인 0.847 (9) [위암 발암 기전 기반] 0.852 0.855
(10) [요인-질병 간 연속선상 자연사 기반] 0.860 0.875
(4) 내재-환경요인+발암성미세환경요인 + 유전요인 0.852 (11) [위암 발암 기전 기반] 0.855 0.855
(12) [요인-질병 간 연속선상 자연사 기반] 0.861 0.885
도 14는 본원의 일 실시예에 따른 위암 발생에 대한 요인들의 복합적 위험도 Joint risk (risk score) 와 위암 발생 확률 (risk) 및 인구집단에서의 복합적 위험도를 가진 집단의 분포 (prevalence)를 나타낸 도면이고, 도 15는 본원의 일 실시예에 따른 위암 발생에 관련된 일부 마커에 따른 에티옴 패널 네트워크를 나타낸 도면이다.
도 14 및 도 15를 참조하면, 본원의 에티옴 패널 네트워크는 각 요인들의 위암 발생에 대한 위험도, 위암 발생에 대한 연관성의 강도, 요인들 간의 상호작용과 유전자 발현과 같은 생물학적 타당성 결과 등을 모두 파악할 수 있다.
일반적인 경로 분석과 본원의 경로 분석과의 차이점은 기존의 경로 분석에서는 요인들 간의 상호작용이나 결과변수로부터 가장 강력한 요인들에 근접한 위치에 두거나 상호 관련된 요인들을 같은 위치에 두고 더 강한 요인에 대해 굶은 line으로 표시하는 등, 변수들 간 상호관련성을 주로 판단할 수 있었다.
본원에서는 각 요인과 위암 간 연관성의 강도를 가중치로 반영하였고, 이는 각 유전요인과 위암 간 연관성 분석에서 산출된 p-value와 Herrell’s C 값을 이용하여 가중치 (1/P*0.001) 와 Herrell’s C 값의 z 축으로 하여 각 연관성의 강도를 네트워크상에서 선의 굵기로 표현하였으며, 재현되었거나 외부 타당성을 확보한 요인의 경우는 가중치를 부여하여 재현성의 강도나 외부 타당성의 강도에 따라 node의 색을 달리 표시할 수 있도록 또한 가중치를 부여하였다.
또한, 요인들 간 상호작용에 대해서는 기존 통계적 모형에서 변수를 제거하는 방법과 상호작용 분석법에 따라 우선 심각하게 영향을 주는 요인들을 확인하였고, 이후 생물학적 네트워크 분석 tool을 이용하여 최종 네트워크에서 가중치를 반영한 위험도, 강도, 생물학적 타당성 및 요인들 간 연관성들을 네트워크로 연결하는 방식을 사용하여 좀 더 연관성 정도, 위험도, 외부 타당성과 재현성, 요인들 간 관련성 등을 동시에 파악할 수 있다.
도 16은 본원의 일 실시예에 따른 위암 발암에 관련된 유전자가 실제로 유전자 발현이 되는지 그것이 유전자 발현 증가 혹은 감소가 위암 발암에 관련되는지에 대한 경로분석을 통한 에티옴 패널 네트워크를 나타낸 도면이다.
도 16을 참조하면, 위암 발생 예측부(15)는 위암 발생에 관련된 유전자 마커 발현에 따른 에티옴 패널 네트워크 2로서, 위암의 발생 확률에 대해서는 통계적 모형과 기계학습법에 의해 도출하였고, 발생 위험도와 각 요인들 간 연관성, 상호작용 및 생물학적 타당성에 대한 경로분석을 통해 에티옴 네트워크 결과를 제시할 수 있다.
본원의 일 실시예에 따르면, 위암 발암 예측 장치(10)는 한국인을 대상으로 위암 발생과 관련된 여러 형태의 병인요인 (발암성화학물질, 유전자, 생활습관, 식이, 단백 및 대사물질 생체 농도 등)을 통합한 에티옴 패널을 구축하고, 구축된 패널을 기반으로 다요인 다층 병인요인을 상호간, 경로 간 관련성 분석을 수행함으로써, 위암 발생과 관련된 원인 인자의 에티옴 네트워크 (Etiome panel network)을 제시하고 이들을 이용한 모형을 구축하여 이를 통해 위암 발암기전 상 인자들의 위치와 발암 표적 요인을 확인함과 동시에 미래의 위암 발생을 예측하고, 추후 위암 예방 중재와 약물예방표적을 도출할 수 있다.
일예로, 에티옴 (Etiome)이란 질병과 연관된 유전적 환경적 병인요인들의 종합적인 집약체로 정의할 수 있다. 에티옴 패널 네트워크는 위암 발병에 대한 병리학적 기전에 근거하여 다단계 에티옴 질병모형 (도 4 참조), 요인노출-질병발생 간 연속선 측면에서의 자연사를 기반으로 한 다요인 에티옴 질병모형 (도 5 및 6 참조)과 유전자의 경우 biological signaling pathway (도 16 참조) 등 3가지 패널을 구축하고 4가지 형태로 조합하여 구성될 수 있다.
위암 발암 예측 장치(10)는 [1) 위암 발생에 대한 개인별 내재적인자-환경요인 클러스터 (목적: 건강한 사람들의 건강검진에서 이용할 수 있는 모형). 2) 위암 발생에 대한 환경요인-인체 발암성 미세환경 (carcinogenic microenvironment) 인자 클러스터 (목적: 위암 발병 가능성이 높은 대상자, 가족력 대상자, 유전성 위암 등 위암 고위험군에서 이용할 수 있는 모형 & 특히 외부 환경발암물질에 대한 노출 가능성을 고민하는 대상에 대해 이용), 3) 클러스터 1 + 위암 유전자 (목적: 건강검진에서 이용할 수 있는 모형 & 개인별 감수성에 따른 차이 보정 가능). 4) 클러스터 2 + 위암 유전자 (위암 발병 가능성이 높은 대상자, 가족력 대상자, 유전성 위암 등 위암 고위험군에서 이용 & 개인별 감수성에 따른 차이 보정 가능)] 등을 포함할 수 있다.
도 17 은 본원의 일 실시예에 따른 에티옴 패널 네트워크 결과에 대한 예제 (유전자 결과)를 나타낸 도면이다.
위암 발암 예측 장치(10)는 위암의 에티옴 모형을 설정하고 통계방식과 기계학습법을 이용하여 위암 발생확률을 예측하고 생물학적 경로 분석을 응용하되 기존의 경로 분석과는 다른 방식을 도입하여 개인의 위암 발생에 대한 위험도, 요인들 간의 상호작용과 유전자 발현과 같은 생물학적 타당성, 다른 결과에서의 재현성 및 외부 타당성 들이 network 결과에서 모두 파악될 수 있도록 가중치를 고안하여 결과 (도 17 참조)를 산출한다.
이하에서는 상기에 자세히 설명된 내용을 기반으로, 본원의 동작 흐름을 간단히 살펴보기로 한다.
도 18은 본원의 일 실시예에 따른 위암 발암 예측방법에 대한 동작 흐름도이다.
도 18에 도시된 위암 발암 예측 방법은 앞서 설명된 위암 발암 예측 장치(10)에 의하여 수행될 수 있다. 따라서, 이하 생략된 내용이라고 하더라도 위암 발암 예측 장치(10)에 대하여 설명된 내용은 위암 발암 예측 방법에 대한 설명에도 동일하게 적용될 수 있다.
단계 S101에서, 위암 발암 예측 장치(10)는 전장 유전체 연관 분석을 이용하여 위암과 유전요인과의 관련성을 평가하고, 유의한 연관성을 보이는 유전요인을 선별할 수 있다.
단계 S102에서, 위암 발암 예측 장치(10)는 위암 발생의 병인 요인으로 추출된 복수의 병인 요인 변수를 고려하여 위암 발생 예측 에티옴 패널 모형을 구축할 수 있다.
단계 S103에서, 위암 발암 예측 장치(10)는 구축된 위암 발생 예측 에티옴 패널 모형을 기반으로 복수의 병인 요인을 예측인자로 포함하는 다중요인 가중 콕스 비례위험 회귀모형(Multi-variable weighted Cox proportional hazard regression model)을 구축할 수 있다.
단계 S104에서, 위암 발암 예측 장치(10)는 구축된 다중요인 가중 콕스 비례위험 회귀모형 내 각 병인 요인에 따른 위암발생위험 추정치를 기반으로 개인의 위암 발생 확률을 예측할 수 있다.
상술한 설명에서, 단계 S101 내지 S104는 본원의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
본원의 일 실시 예에 따른 위암 발암 예측 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
또한, 전술한 위암 발암 예측 방법은 기록 매체에 저장되는 컴퓨터에 의해 실행되는 컴퓨터 프로그램 또는 애플리케이션의 형태로도 구현될 수 있다.
전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.
10: 위암 발암 예측 장치
11: 유전요인 선별부
12: 에티옴 모형 구축부
13: 회귀모형 구축부
14: 위암 발생 예측부

Claims (12)

  1. (a) 전장 유전체 연관 분석을 이용하여 위암과 유전요인과의 관련성을 평가하고, 유의한 연관성을 보이는 유전요인을 선별하는 단계;
    (b) 위암 발생의 병인 요인으로 추출된 복수의 병인 요인 변수를 고려하여 위암 발생 예측 에티옴 패널 모형을 구축하는 단계;
    (c) 구축된 상기 위암 발생 예측 에티옴 패널 모형을 기반으로 복수의 병인 요인을 예측인자로 포함하는 다중요인 가중 콕스 비례위험 회귀모형 (Multi-variable weighted Cox proportional hazard regression model)을 구축하는 단계; 및
    (d) 구축된 상기 다중요인 가중 콕스 비례위험 회귀모형 내 각 병인 요인에 따른 위암발생위험 추정치를 기반으로 개인의 위암 발생 확률을 예측하는 단계,
    를 포함하는, 위암 발암 예측 방법.
  2. 제1항에 있어서,
    상기 (a) 단계는,
    한국인 다기관 코호트에서 내 환자-대조군 데이터를 발견 세트로 설정하고, 질병관리본부의 안산-안성 코호트 유전체 데이터를 유효성 검사 세트로 설정하여 각각의 전장 유전체 분석을 수행하는 것인, 위암 발암 예측 방법.
  3. 제2항에 있어서,
    상기 (a) 단계는,
    상기 전장 유전체 분석을 통해 상기 발견 세트와 상기 유효성 검사 세트 결과를 바탕으로 통계적으로 유의하다고 판단되는 SNP을 선별하고, 선별된 상기 SNP에 대하여 질병관리본부 안산-안성 유전체 데이터 내에서 위험 대립 유전자(risk allele)의 개수를 산출하고, 선정된 유전 변이당 위험점수를 합산하여 최종 다유전적 위험 점수를 산출하고, 위암 위험의 유전적 요인으로 결정하는 것인, 위암 발암 예측 방법.
  4. 제1항에 있어서,
    상기 (b) 단계는,
    개인의 내재적요인 및 환경요인과 관련된 변수를 기반으로 제1에티옴 모형을 구축하는 단계;
    환경요인-인체 발암성 미세환경(carcinogenic microenvironment) 유발 및 조절자 변수를 기반으로 제2에티옴 모형을 구축하는 단계;
    개인별 생체지표 변수를 기반으로 제3에티옴 모형을 구축하는 단계;
    상기 제1에티옴 모형 및 제2에티옴 모형을 통합하여 제4에티옴 모형을 구축하는 단계; 및
    상기 제4에티옴 모형 및 위암 연관 유전적 요인 변수를 기반으로 제5에티옴 모형을 구축하는 단계,
    를 포함하는 것인, 위암 발암 예측 방법.
  5. 제4항에 있어서,
    상기 위암 발생 예측 에티옴 패널 모형은,
    상기 제5에티옴 모형을 기반으로 한 Random survival forest(RSF) 모델링으로 구축되는 것인, 위암 발암 예측 방법.
  6. 제1항에 있어서,
    상기(d)단계는,
    인공신경망 기반으로 위암 발생을 예측하되, 단일 시점에서 수집된 유전 정보를 통합 입력하기 위해 순환신경망 마지막 층에 다층 퍼셉트론 신경망을 추가적으로 연결하고, 출력층은 위암 발생 유 또는 무로 설정하는 것인, 위암 발암 예측 방법.
  7. 전장 유전체 연관 분석을 이용하여 위암과 유전요인과의 관련성을 평가하고, 유의한 연관성을 보이는 유전요인을 선별하는 유전요인 선별부;
    위암 발생의 병인 요인으로 추출된 복수의 병인 요인 변수를 고려하여 위암 발생 예측 에티옴 패널 모형을 구축하는 에티옴 패널 모형 구축부; 및
    다중요인 가중 콕스 비례위험 회귀모형 내 각 병인 요인에 따른 위암발생위험 추정치를 기반으로 개인의 위암 발생 확률을 예측하는 위암 발생 예측부,
    구축된 상기 위암 발생 예측 에티옴 패널 모형을 기반으로 복수의 병인 요인을 예측인자로 포함하는 다중요인 가중 콕스 비례위험 회귀모형 (Multi-variable weighted Cox proportional hazard regression model)을 구축하는 회귀모형 구축부; 및
    구축된 상기 다중요인 가중 콕스 비례위험 회귀모형 내 각 병인 요인에 따른 위암발생위험 추정치를 기반으로 개인의 위암 발생 확률을 예측하는 위암 발생 예측부,
    를 포함하는 것인, 위암 발암 예측 장치.
  8. 제7항에 있어서,
    상기 유전요인 선별부는,
    한국인 다기관 코호트에서 내 환자-대조군 데이터를 발견 세트로 설정하고, 질병관리본부의 안산-안성 코호트 유전체 데이터를 유효성 검사 세트로 설정하여 각각의 전장 유전체 분석을 수행하는 것인, 위암 발암 예측 장치.
  9. 제8항에 있어서,
    상기 유전요인 선별부는,
    상기 전장 유전체 분석을 통해 상기 발견 세트와 상기 유효성 검사 세트의 결과를 바탕으로 통계적으로 유의하다고 판단되는 SNP을 선별하고, 선별된 상기 SNP에 대하여 질병관리본부 안산-안성 유전체 데이터 내에서 위험 대립 유전자(risk allele)의 개수를 산출하고, 선정된 유전 변이당 위험점수를 합산하여 최종 다유전적 위험 점수를 산출하고, 위암 위험의 유전적 요인으로 결정하는 것인, 위암 발암 예측 장치.
  10. 제7항에 있어서,
    상기 에티옴 패널 모형 구축부는,
    개인의 내재적요인 및 환경요인과 관련된 변수를 기반으로 구축된 제1에티옴 모형;
    환경요인-인체 발암성 미세환경(carcinogenic microenvironment) 유발 및 조절자 변수를 기반으로 구축된 제2에티옴 모형;
    개인별 생체지표 변수를 기반으로 구축된 제3에티옴 모형;
    상기 제1에티옴 모형 및 제2에티옴 모형을 통합하여 구축된 제4에티옴 모형; 및
    상기 제4에티옴 모형 및 위암 연관 유전적 요인 변수를 기반으로 구축된 제5 에티옴 모형,
    을 포함하는 것인, 위암 발암 예측 장치.
  11. 제7항에 있어서,
    상기 위암 발생 예측부는,
    인공신경망 기반으로 위암 발생을 예측하되, 단일 시점에서 수집된 유전 정보를 통합 입력하기 위해 순환신경망 마지막 층에 다층 퍼셉트론 신경망을 추가적으로 연결하고, 출력층은 위암 발생 유 또는 무로 설정하는 것인, 위암 발암 예측 장치.
  12. 제1항 내지 제6항 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020200072911A 2019-06-27 2020-06-16 위암의 다층 다요인 패널과 Computational biological network modeling을 통한 위암 발암에 대한 에티옴 모형 KR102467999B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20190076972 2019-06-27
KR1020190076972 2019-06-27

Publications (2)

Publication Number Publication Date
KR20210001959A true KR20210001959A (ko) 2021-01-06
KR102467999B1 KR102467999B1 (ko) 2022-11-17

Family

ID=74127931

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200072911A KR102467999B1 (ko) 2019-06-27 2020-06-16 위암의 다층 다요인 패널과 Computational biological network modeling을 통한 위암 발암에 대한 에티옴 모형

Country Status (1)

Country Link
KR (1) KR102467999B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113284612A (zh) * 2021-05-21 2021-08-20 大连海事大学 一种基于XGBoost算法的生存分析方法
KR20220115723A (ko) * 2021-02-10 2022-08-18 고려대학교 산학협력단 위암 수술 이후 제2형 당뇨병 예후의 예측 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170047037A (ko) * 2015-10-22 2017-05-04 한국과학기술원 임상 및 바이오 정보 통합 질병 예후예측 시스템 및 방법
KR20180079209A (ko) * 2016-12-30 2018-07-10 서울대학교산학협력단 만성신장 질환의 질병 위험도를 예측하는 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170047037A (ko) * 2015-10-22 2017-05-04 한국과학기술원 임상 및 바이오 정보 통합 질병 예후예측 시스템 및 방법
KR20180079209A (ko) * 2016-12-30 2018-07-10 서울대학교산학협력단 만성신장 질환의 질병 위험도를 예측하는 장치 및 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220115723A (ko) * 2021-02-10 2022-08-18 고려대학교 산학협력단 위암 수술 이후 제2형 당뇨병 예후의 예측 방법
WO2022173201A3 (ko) * 2021-02-10 2022-10-06 고려대학교 산학협력단 위암 수술 이후 제2형 당뇨병 예후의 예측 방법
CN113284612A (zh) * 2021-05-21 2021-08-20 大连海事大学 一种基于XGBoost算法的生存分析方法
CN113284612B (zh) * 2021-05-21 2024-04-16 大连海事大学 一种基于XGBoost算法的生存分析方法

Also Published As

Publication number Publication date
KR102467999B1 (ko) 2022-11-17

Similar Documents

Publication Publication Date Title
Ramspek et al. External validation of prognostic models: what, why, how, when and where?
KR102024375B1 (ko) 만성신장 질환의 질병 위험도를 예측하는 장치 및 방법
Thakur et al. Profile of risk factors for non-communicable diseases in Punjab, Northern India: Results of a state-wide STEPS survey
Koehler et al. Serum liver enzymes are associated with all‐cause mortality in an elderly population
Austin et al. Automated variable selection methods for logistic regression produced unstable models for predicting acute myocardial infarction mortality
CN103501859B (zh) 基于细胞的探询式分析及其应用
Lagani et al. A systematic review of predictive risk models for diabetes complications based on large scale clinical studies
KR102316403B1 (ko) 만성신장 질환 발생 예측 장치 및 방법
Bilal et al. Neighborhood social and economic change and diabetes incidence: The HeartHealthyHoods study
Ruaño et al. Physiogenomics: integrating systems engineering and nanotechnology for personalized medicine
KR102467999B1 (ko) 위암의 다층 다요인 패널과 Computational biological network modeling을 통한 위암 발암에 대한 에티옴 모형
Mirabnahrazam et al. Predicting time-to-conversion for dementia of Alzheimer's type using multi-modal deep survival analysis
CN110289092A (zh) 使用所测分析物改进疾病诊断的方法
Martin et al. Determinants of direct discharge home from critical care units: A population-based cohort analysis
Arbeev et al. Genetic model for longitudinal studies of aging, health, and longevity and its potential application to incomplete data
Clark et al. Prognostic factors: rationale and methods of analysis and integration
Panagoulias et al. Towards personalized nutrition applications with nutritional biomarkers and machine learning
Ghandian et al. Machine learning to predict progression of non‐alcoholic fatty liver to non‐alcoholic steatohepatitis or fibrosis
Westerman et al. Genome-wide gene–diet interaction analysis in the UK Biobank identifies novel effects on hemoglobin A1c
Tang et al. Identification of traditional Chinese medicine constitutions and physiological indexes risk factors in metabolic syndrome: a data mining approach
van den Puttelaar et al. Risk-stratified screening for colorectal cancer using genetic and environmental risk factors: a cost-effectiveness analysis based on real-world data
Schiborn et al. German Diabetes Risk Score for the Determination of the Individual Type 2 Diabetes Risk: 10-Year Prediction and External Validations
Ruberu et al. Bayesian meta-analysis of penetrance for cancer risk
KR20200015315A (ko) 기계 학습을 이용하여 비만하지 않은 대상자의 대사증후군 발생 가능성을 예측하는 방법 및 장치
Wong et al. Prediction of mortality and hospitalization risk using nutritional indicators and their changes over time in a large prevalent hemodialysis cohort

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant