KR102316403B1 - 만성신장 질환 발생 예측 장치 및 방법 - Google Patents

만성신장 질환 발생 예측 장치 및 방법 Download PDF

Info

Publication number
KR102316403B1
KR102316403B1 KR1020200000929A KR20200000929A KR102316403B1 KR 102316403 B1 KR102316403 B1 KR 102316403B1 KR 1020200000929 A KR1020200000929 A KR 1020200000929A KR 20200000929 A KR20200000929 A KR 20200000929A KR 102316403 B1 KR102316403 B1 KR 102316403B1
Authority
KR
South Korea
Prior art keywords
disease
chronic kidney
occurrence
kidney disease
genomic
Prior art date
Application number
KR1020200000929A
Other languages
English (en)
Other versions
KR20200084807A (ko
Inventor
박수경
김종효
안서경
김경식
문성지
홍유진
Original Assignee
서울대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교 산학협력단 filed Critical 서울대학교 산학협력단
Publication of KR20200084807A publication Critical patent/KR20200084807A/ko
Application granted granted Critical
Publication of KR102316403B1 publication Critical patent/KR102316403B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B23/00Models for scientific, medical, or mathematical purposes, e.g. full-sized devices for demonstration purposes
    • G09B23/28Models for scientific, medical, or mathematical purposes, e.g. full-sized devices for demonstration purposes for medicine
    • G09B23/30Anatomical models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Medicinal Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

만성신장질환 발생 예측 장치에 관한 것이며, 만성신장질환 발생 예측 장치는, 복수의 질환과 관련된 유전체 마커를 선별하는 유전체 마커 선별부, 상기 유전체 마커 선별부에서 선별된 복수의 질환과 관련된 유전체 마커를 이용하여 통합 유전체 지표를 산출하는 통합 유전체 지표 산출부, 상기 복수의 질환과 관련된 요인들을 도출하여 통합 위험 요인 모델을 구축하는 통합 위험 요인 구축부, 상기 통합 유전체 지표 및 상기 통합 위험 요인 모델을 입력으로 하여, 질병 발생 예측 모델을 구축하는 질병 발생 예측 모델 생성부 및 상기 질병 발생 예측 모델에 신규 질환 예측 데이터를 입력으로 하여 대상자의 만성신장질환 발생을 예측하는 질환 예측부를 포함할 수 있다.

Description

만성신장 질환 발생 예측 장치 및 방법{APPARATUS AND METHOD FOR PREDICTING CHRONIC KIDNEY DISEASE}
본원은 만성신장 질환 발생 예측 장치 및 방법에 관한 것이다.
건강위험예측 도구 구현 및 그에 따른 고위험군에 대한 중재가 활발히 이루어지고 있는 질환 중 대표적인 것은 유방암이고, 서양에서 구현된 유방암 발생위험도 평가모델에 따르면 크게 세 가지로 나눌 수 있다.
그 중 하나는 일반인구에서 기저위험도 (baseline risk)와 위험요인의 조합(joint risk)으로 절대 발생 가능성을 예측하는 모델이고, 다른 하나는 위험인자의 상대적인 위험 크기에 따라 발생 가능성을 예측하는 방법일 수 있으며, 세 번째는 유전성 유방암 발생 예측에 특화하여 사용되는 모델로 가족력을 기반으로 BRCA 유전자 돌연변이 보유 가능성 또는 BRCA 유전자 돌연변이 보유 가능성에 기반 하여 유방암 발생 가능성을 예측할 수 있다.
현재 국내에서는 대한가정의학회에서 한국형 건강위험예측도구를 개발하였으며 이를 적용하여 국민건강보험공단에서 건강검진을 받은 국민들을 대상으로 공단 홈페이지 <건강iN>에 개인별 맞춤형 건강관리 프로그램 서비스를 제공되고 있다.
하지만, 기존의 질병 발생 위험 모형은 질병을 예측하는 데 있어서, 질병이 없는 건강한 대상자를 기반으로 새롭게 생길 질병 발생 위험에 대해서 예측을 하기에, 일반 인구집단에서의 적용이 제한된다는 한계점이 있다. 또한, 주로 한 질병에 대한 발생 혹은 사망으로 한가지의 결과에 대한 위험 확률값을 제시하여, 많은 변수를 입력하는데 비해 단 하나의 질병만을 예측한다는 제한점을 가진다. 그리고 무엇보다도 이러한 기존 기술의 경우 건강위험요인을 확인하고 이를 교정함으로써 주기적으로 변화하는 개인의 건강 상태를 관리하기에는 부적절하다는 한계가 있다.
이에 따라, 요인 노출의 시기와 이후 변화될 수 있는 상태의 시간적 연속성과 질병의 자연사를 고려하여, 개인의 유전학적 특성을 기반으로 연령, 성별과 같은 인구학적 지표, 사회학적 요인, 질병가족력 요인과 이후 변화되어 노출될 수 있는 환경적 행태 관련 요인, 그리고 이런 행태 요인에 따라 변화하는 비만 관련 측정 지표와 혈액 이상을 인지하는 혈액 마커와 이런 모든 과정의 상태의 변화로 인한 질병의 이환 및 전질병상태의 이환 여부를 질병의 생물학적 연속성을 고려하여, 향후 고혈압, 당뇨병, 그리고 그들의 동반질병과 만성신장질환 발생 위험을 확인하는 통합 질병 발생 정밀예측 모형의의 제시를 통한 건강 상태 관리 및 개인 맞춤형 예방 방안이 필요로 된다.
본원의 배경이 되는 기술은 한국등록특허공보 제10-0931300호에 개시되어 있다.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 개인이 태어날 때부터 가지고 있는 유전적 특징부터 시작해서, 환경적 요인의 변화와 이들에 따른 혈액 마커의 변화 양상으로 고려함으로써, 시간 순서에 따른 위험 요인을 고려하고, 시시각각으로 변화하는 이들의 양상으로 반영하여 향후 고혈압, 당뇨병과 이들의 동반질병과 만성신장질환 3가지 질병 발생 위험을 예측하는 발생 통합 모형을 구축하는 만성신장 질환 발생 예측 장치 및 방법을 제공하려는 것을 목적으로 한다.
다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 일 실시예에 따른 만성신장질환 발생 예측 장치는, 복수의 질환과 관련된 유전체 마커를 선별하는 유전체 마커 선별부, 상기 유전체 마커 선별부에서 선별된 복수의 질환과 관련된 유전체 마커를 이용하여 통합 유전체 지표를 산출하는 통합 유전체 지표 산출부, 상기 복수의 질환과 관련된 요인들을 도출하여 통합 위험 요인 모델을 구축하는 통합 위험 요인 구축부, 상기 통합 유전체 지표 및 상기 통합 위험 요인 모델을 입력으로 하여, 질병 발생 예측 모델을 구축하는 질병 발생 예측 모델 생성부 및 상기 질병 발생 예측 모델에 신규 질환 예측 데이터를 입력으로 하여 대상자의 만성신장질환 발생을 예측하는 질환 예측부를 포함할 수 있다.
또한, 상기 유전체 마커 선별부는, 제1질환과 관련된 제1유전체 마커를 선별하고, 선별된 상기 제1유전체 마커를 도시 코호트 및 농촌 코호트 각각에서 검증하여 제1유전체 마커로 결정하고, 제2질환과 관련된 제2유전체 마커를 선별하고, 선별된 상기 제2유전체 마커를 도시 코호트 및 농촌 코호트 각각에서 검증하여 제2유전체 마커로 결정할 수 있다.
또한, 상기 유전체 마커 선별부는, 회귀분석 알고리즘을 기반으로 복수의 질환과 연관된 단일염기 다형성(SNP) 마커를 선정하고, 상기 단일염기 다형성(SNP) 마커, 상기 제1유전체 마커 및 상기 제2유전체 마커 중 적어도 어느 하나를 고려하여 핵심 유전자 정보를 도출할 수 있다.
또한, 상기 통합 위험 요인 구축부는, 기본 인구학적 요인, 사회학적 요인, 질병 및 가족력 요인, 환경적 행태 관련 요인, 비만 관련 지표 요인, 혈액적 이상인지 지표 요인, 기저상태의 질병 이환 상태요인 중 적어도 어느 하나를 고려하여 상기 복수의 질환과 관련된 요인들을 도출하고 통합 위험 요인 모델을 구축할 수 있다.
또한, 만성신장질환 발생 예측 장치는, 복수의 질환 중 적어도 어느 하나의 질병을 보유하고 있는 대상자의 데이터를 설명변수로서 도출하는 설명변수 도출부를 더 포함할 수 있다.
또한, 상기 질병 발생 예측 모델 생성부는, 만성신장 질환의 질환자의 생활상태 변수 및 건강상태 변수를 포함하는 복수의 상태 변수, 상기 핵심 유전자 정보 및 만성신장 질환의 질병 위험도를 입력으로 하여, 상기 복수의 상태 변수 및 핵심 유전자 정보 중 적어도 하나 이상과 상기 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 질병 발생 예측 모델을 생성할 수 있다.
또한, 상기 질병 발생 예측 모델은, 상기 복수의 상태 변수 중 제 1 상태 변수 및 이전 시점 은닉층을 입력층으로 하고 상기 복수의 상태 변수 중 제 2 상태 변수 또는 현재 시점 상태 변수를 은닉층으로 할 때, 상기 입력층과 은닉층 사이의 관계의 정도를 학습하는 제 1 학습을 하고, 상기 은닉층 및 상기 유전자 정보를 입력층으로 하고 상기 질병 위험도를 출력층으로 할 때, 상기 은닉층과 출력층 사이의 관계의 정도를 학습하는 제 2 학습을 함으로써, 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 상기 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 것이되, 상기 제 1 학습은 [수학식 1]을 기반으로, 상기 입력층과 은닉층 사이의 관계의 정도를 학습하는 것이되,
[수학식 1]
Figure 112020000727484-pat00001
이때, 상기
Figure 112020000727484-pat00002
는 t 시점에서의 은닉층이고, 상기
Figure 112020000727484-pat00003
는 입력층과 은닉층 사이의 제1유형의 관계의 정도를 나타내는 제1가중치이고, 상기
Figure 112020000727484-pat00004
은 이전 시점 은닉층이고,
Figure 112020000727484-pat00005
는 입력층과 은닉층 사이의 제2유형의 관계의 정도를 나타내는 제2가중치이고,
Figure 112020000727484-pat00006
는 t시점에서의 제1상태 변수일 수 있다.
또한, 상기 제2학습은 [수학식 1] 및 [수학식 2]를 기반으로 상기 은닉층과 출력층 사이의 관계의 정도를 학습하는 것이되,
[수학식 2]
Figure 112020000727484-pat00007
이때, 상기 y는 출력층이고, 상기
Figure 112020000727484-pat00008
는 은닉층과 출력층 사이의 관계의 정도를 나타내는 제3가중치이고,
Figure 112020000727484-pat00009
는 t 시점에서의 은닉층이고, 상기
Figure 112020000727484-pat00010
는 입력층 중 유전자 정보와 출력층 사이의 관계의 정도를 나타내는 제4가중치이고, z는 입력층 중 유전자 정보일 수 있다.
또한, 상기 질병 발생 예측 모델 생성부는, [수학식 3]을 기반으로 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 상기 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 기계 학습 모델을 생성 시 발생하는 오차에 가중치를 갱신하는 것이되,
[수학식 3]
Figure 112020000727484-pat00011
상기 E는 상기 질병 발생 예측 모델 생성부의 오차의 검출값이고, 상기 t는 상기 만성신장 질환의 발생 여부이고, 상기 y는 기계학습 모델을 통해 예측된 질병 위험도이고,
Figure 112020000727484-pat00012
는 오차에 따른 과적합(overfitting)을 방지하기 위한 L2 정규식일 수 있다.
또한, 상기 질환 예측부는, 상기 대상자의 만성신장질환 발생 예측 결과와 연계된 질병 예방 관리 정보를 제공할 수 있다.
본원의 일 실시예에 따르면, 만성신장질환 발생 예측 방법은, 복수의 질환과 관련된 유전체 마커를 선별하는 단계, 선별된 복수의 질환과 관련된 유전체 마커를 이용하여 통합 유전체 지표를 산출하는 단계, 상기 복수의 질환과 관련된 요인들을 도출하여 통합 위험 요인 모델을 구축하는 단계, 상기 통합 유전체 지표 및 상기 통합 위험 요인 모델을 입력으로 하여, 질병 발생 예측 모델을 구축하는 단계 및 상기 질병 발생 예측 모델에 신규 질환 예측 데이터를 입력으로 하여 대상자의 만성신장질환 발생을 예측하는 단계를 포함할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 본인이 가지고 있는 유전적 특성부터 시작해서, 환경적 요인의 변화와 이에 따른 임상 수치들의 변화 양상을 기반으로, 고혈압과 당뇨병 그리고 이들의 다중질병의 형태인 만성신장질환의 발생 확률이 높은 대상자를 확인하여, 높은 확률을 가진 대상자에 대해 조기 진단을 통해 예방 방안을 제시하고, 유병 환자의 경우에도 더욱 악화 (심혈관계 질환 및 사망) 되기 전에 있어 사전에 이를 치료하여 2차 예방을 함으로써, 심혈관질환, 만성신장질환, 대사이상질환, 신경질환 등의 합병증 발생 위험을 감소시킬 수 있기 때문에 삶의 질을 높일 수 있는 효과가 있다.
전술한 본원의 과제 해결 수단에 의하면, 고혈압, 당뇨병, 만성신장질환 발생의 위험 요인에 따른 질병 위험 양상에 대한 정보를 제시함으로써, 생활습관 교정을 통해 이러한 위험 요인을 제어하고, 이에 따른 질병 위험의 감소 형태를 확인함으로써, 개인의 적극적 자가 건강관리를 유도할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 기계학습 기반으로 구축된 모형을 사용함으로써 높은 예측력을 통해 실제 지역사회 일반 인구 집단이나, 임상시험에서의 고위험군을 확인 및 관리할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 고혈압, 당뇨병, 만성신장질환과 같은 대사질환을 예측하고 미리 예방함으로써, 사망의 위험을 높이는 질병의 다중질환 위험을 낮추는데 도움을 줄 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 알고리즘은 질병 위함 예측 모형이나 개인 건강관리서비스를 목표로 한 웹(WEB) 및 앱(APP)을 활용한 제품에 활용될 수 있다.
다만, 본원에서 얻을 수 있는 효과는 상기된 바와 같은 효과들로 한정되지 않으며, 또 다른 효과들이 존재할 수 있다.
도 1은 본원의 일 실시예에 따른 만성신장질환 발생 예측 장치의 개략적인 구성도이다.
도 2는 본원의 일 실시예에 따른 만성신장질환 장치의 개략적인 블록도이다.
도 3은 본원의 일 실시예에 따른 만성신장질환 장치의 유전변이정보확장의 참조유전체 정보로 사용할 수 있는 정보 리스트를 나타낸 도면이다.
도 4는 본원의 일 실시예에 따른 고혈압과 관련된 유의한 유전체 마커를 설명하기 위한 도면이다.
도 5는 본원의 일 실시예에 따른 당뇨병과 관련된 유의한 유전체 마커를 설명하기 위한 도면이다.
도 6은 본원의 일 실시예에 따른 고혈압 통합 유전체 점수 구축의 결과를 설명하기 위한 도면이다.
도 7은 본원의 일 실시예에 따른 당뇨병 통합 유전체 점수 구축의 결과를 설명하기 위한 도면이다.
도 8은 본원의 일 실시예에 따른 요인 노출의 시기와 이후 변화될 수 있는 상태의 시간적 연속성과 질병의 자연사를 고려하여 예측모형에 순차적으로 포함된 변수를 나타내는 도면이다.
도 9는 본원의 일 실시예에 따른 시계열 데이터와 유전 데이터를 통합하는 딥러닝 모델 구조를 설명하기 위한 도면이다.
도 10은 본원의 일 실시예에 따른 질병 발생 예측 모델의 대략적인 다이어그램이다.
도 11은 본원의 일 실시예에 따른 랜덤포레스트 예측 모형의 개략적인 다이어그램이다.
도 12는 본원의 일 실시예에 따른 여러 경우의 모형들을 앙상블 기법으로 훈련시킨 과정을 개략적으로 나타낸 도면이다.
도 13은 본원의 일 실시예에 따른 통계적, 기계학습 모형에 따른 고혈압 발생위험 예측도 비교를 나타낸 도면이다.
도 14는 본원의 일 실시예에 따른 통계적, 기계학습 모형에 따른 당뇨병 발생위험 예측도 비교를 나타낸 도면이다.
도 15는 본원의 일 실시예에 따른 통계적, 기계학습 모형에 따른 만성신장질환 발생위험 예측도 비교를 나타낸 도면이다.
도 16은 본원의 일 실시예에 따른 만성신장질환 발생 예측 방법에 대한 동작 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결" 또는 "간접적으로 연결"되어 있는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
본원은 요인 노출의 시기와 이후 변화될 수 있는 상태의 시간적 연속성과 질병의 자연사를 고려하여, 개인의 유전학적 특성을 기반으로 연령, 성별과 같은 인구학적 지표, 사회학적 요인, 질병가족력 요인과 이후 변화되어 노출될 수 있는 환경적 행태 관련 요인, 그리고 이런 행태 요인에 따라 변화하는 비만 관련 측정 지표와 혈액 이상을 인지하는 혈액 마커와 이런 모든 과정의 상태의 변화로 인한 질병의 이환 및 전질병상태의 이환 여부를 질병의 생물학적 연속성을 고려하여, 향후 고혈압, 당뇨병, 그리고 그들의 동반질병과 만성신장질환까지의 3가지의 질병 발생 위험을 확인하는 통합 질병 발생 예측 모형의 방법에 관한 것이다.
도 1은 본원의 일 실시예에 따른 만성신장질환 발생 예측 장치의 개략적인 구성도이다.
도1을 참조하면, 만성신장질환 발생 예측 장치(10) 및 질병 예측 서버(20)는 네트워크를 통해 연동될 수 있다. 예시적으로, 질병 예측 서버(20)는 질병관리본부의 한국인 유전체역학조사사업의 일부인 안산-안성 코호트의 유전체 자료원과 1차부터 7차까지의 추적된 추적 자료를 포함할 수 있다. 질병 예측 서버(20)는 네트워크를 통해 만성신장질환 발생 예측 장치(10)로 질병관리본부의 한국인 유전체 역학조사 사업의 일환인 안산-안성 코호트의 유전체 자료원과 추적 자료원의 정보를 제공할 수 있다.
만성신장질환 발생 예측 장치(10)는 질병 예측 서버(20)와 데이터, 콘텐츠, 각종 통신 신호를 네트워크를 통해 송수신하고, 데이터 저장 및 처리의 기능을 가지는 모든 종류의 서버, 단말, 또는 디바이스를 포함할 수 있다.
만성신장질환 발생 예측 장치(10)는 네트워크를 통해 질병 예측 서버(20)와 연동되는 디바이스로서, 예를 들면, 스마트폰(Smartphone), 스마트패드(Smart Pad), 태블릿 PC, 웨어러블 디바이스 등과 PCS(Personal Communication System), GSM(Global System for Mobile communication), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말기 같은 모든 종류의 무선 통신 장치 및 데스크탑 컴퓨터, 스마트 TV와 같은 고정용 단말기일 수도 있다.
만성신장질환 발생 예측 장치(10) 및 질병 예측 서버(20)간의 정보 공유를 위한 네트워크의 일 예로는 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5G 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 유무선 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, Wifi 네트워크, NFC(Near Field Communication) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함될 수 있으며, 이에 한정된 것은 아니다.
이하 설명되는 만성신장 질환 발생 예측 방법은 만성신장질환 발생 예측 장치 (10)에서 수행될 수 있다. 다른 일예로, 만성신장 질환 발생 예측 방법의 각 단계는 질병 예측 서버(20)에서 수행될 수 있다. 또 다른 일예로, 만성신장 질환 발생 예측 방법의 각 단계 중 일부 단계는 만성신장질환 발생 예측 장치(10)에서 수행되고, 나머지 단계는 질병 예측 서버(20)에서 수행될 수 있다. 예를 들어, 만성신장질환 발생 예측 장치 (10는 만성신장 질환의 질병을 예측하는 방법의 일부 단계로서 사용자 입력을 수신하고, 수신된 사용자 입력을 서버로 전송하며, 사용자 입력에 응답하여 서버로부터 전송된 정보를 화면에 표시하는 기능만을 수행할 수 있으며, 이 밖에 만성신장 질환 발생 예측 방법의 나머지 단계는 질병 예측 서버(20)에서 수행될 수 있다. 이하에서는 설명의 편의를 위하여 만성신장 질환 발생 예측 장치(10)에서 만성신장 질환 발생 예측 방법이 수행되는 예에 대하여 설명하기로 한다.
본원의 일 실시예에 따르면, 만성신장질환 발생 예측 장치(10)는 한국인을 대상으로 하여 유전체 정보와 1-7기까지 총 6번의 반복측정으로 이루어진 인구·사회학적 요인, 환경적 생태 요인, 비만 관련 요인에 대한 신체 측정치, 주요 혈액 마커 정보, 현재의 질병 이환 상태 등의 정보를 조사한 질병관리본부의 코호트 데이터를 질병 예측 서버(20)로부터 제공받아, 만성신장질환 발생을 예측할 수 있다.
또한, 만성신장질환 발생 예측 장치(10)는 한국인을 대상으로 하여 유전체 정보와 생활 습관, 비만 관련 신체 측정치, 주요 혈액마커 정보, 현재의 질병 상태 등의 정보를 조사한 질병관리본부의 코호트 데이터를 이용하여 만성신장질환 발생을 예측할 수 있다. 만성신장질환 발생 예측 장치(10)는 질병관리본부의 안산안성 코호트 대상자를 대상으로 모형을 구축하고, 도시기반 코호트와 농촌기반 코호트, 그리고 이들의 통합인 도시-농촌기반 통합 코호트 3개의 코호트를 통해 구축된 모형을 기반으로 검증을 수행할 수 있다.
또한, 만성신장질환 발생 예측 장치(10)는 유전체 마커 분석을 위해 전체 인구집단에서 고혈압, 당뇨병, 만성신장질환 이환과 신규 발생을 모두 통합하여, 이환/발생 대상자를 환자군으로 분류할 수 있다. 또한, 만성신장질환 발생 예측 장치(10)는 이환/발생에 모두 해당하지 않은 대상자를 대조군을 분류하여 고혈압과 당뇨병 각 질병에 관련된 유전체 마커를 선별할 수 있다. 만성신장질환 발생 예측 장치(10)는 환자군과 대조군을 통합하여 ‘통합 유전체 점수’를 구축할 수 있다. 특히 여기서 유전체 정보는 기존 타 연구에서는 microarray 기반 유전체 정보(genotyping)를 이용하여 고혈압, 당뇨병 마커를 산출하였지만 만성신장질환 발생 예측 장치(10)는 1K genome 3.0 최신버전을 기반으로 imputation이 진행된 유전체 정보로 확장하여 해당 정보를 유전체마커 분석에 적용하였다.
또한, 만성신장질환 발생 예측 장치(10)는 고혈압, 당뇨병, 그리고 당뇨병-고혈압 동반상태 (고혈압과 당뇨병은 생물학적 병리학적 기전 상 동시이환 높음) 및 만성신장질환 (고혈압과 당뇨병은 만성신장질환의 4대 원인성 질환 중 가장 많은 규모를 차지하고 있는 2대 질환임)에 대해 각 질병 이환과 각 질병 발생에 관련된 요인을 확인하고, 이들을 모두 통합하여, 이들의 환경적 행태 요인과 그들의 변화상태에 대한 ‘통합 위험 요인’을 구축할 수 있다.
또한, 만성신장질환 발생 예측 장치(10)는 질병의 위험요인으로는 볼 수 없지만, 일반 인구집단의 구성 상태를 볼 때, 고혈압 환자, 고혈압 전질병상태, 당뇨병 환자, 당뇨병 전질병상태의 환자가 존재하고 있고, 이들의 경우 정상 상태에 비해 다른 질병의 발생 위험이 더욱 높기 때문에 (예를 들어, 정상 상태에 비해 고혈압 전질병상태는 당뇨병, 만성신장질환 발생 위험이 높고, 고혈압 환자는 정상이나 전질병상태에 비해 그 위험이 더욱 높음), 이러한 일방 인구 집단의 상태를 위험 예측 모델에 바로 적용하기 위해, ‘기저조사의 질병-전질병상태 지표’ (고혈압, 당뇨병, 만성신장질환 이환과 전질병상태 이환에 대한 평가 지표)를 설명변수에 추가할 수 있다.
또한, 만성신장질환 발생 예측 장치(10)는 발생위험 예측 모델의 결과로 고혈압, 당뇨병, 그리고 이들의 동반질병으로 고혈압과 당뇨병의 동반상태와 만성신장질환의 발생으로 정의하였고, 위험예측모델의 설명변수는 ‘기저조사의 통합 유전체 점수’와 ‘반복측정 통합 위험 요인’, ‘기저조사의 질병-전질병 상태 지표’를 모두 통합하여 ‘통합 위험 요인 패널’을 구축할 수 있다.
또한, 만성신장질환 발생 예측 장치(10)는 통계기반의 시간변이 비례확률위험 모형과 신경구조망과 랜덤 포레스트와 같은 기계학습 방법을 적용하여 위험 예측 모델을 구축할 수 있다. 또한 만성신장질환 발생 예측 장치(10)는 반복적 훈련과 모형의 예측력 비교를 통해 가장 높은 예측력을 가진 랜덤포레스트를 이용한 모형을 최종 ‘통합 위험 예측 모형’으로 선정할 수 있다.
또한, 만성신장질환 발생 예측 장치(10)는 기계학습 방법 모형에서는 결과변수에 대한 설명 변수를 포함할 때, ‘요인 노출의 시기와 이후 변화될 수 있는 상태의 시간적 연속성과 질병의 자연서’를 고려할 수 있으며, 이후 모든 설명 변수가 포함된 이후 결과변수들도 질병의 자연사와 질병의 생물학적 연속성에 따라 포함되도록 생성할 수 있다.
또한, 만성신장질환 발생 예측 장치(10)는 출생부터 노출될 수 있는 요인 (유전체) -> 인구학적 지표 (연령과 성별) -> 사회학적 요인 (교육수준, 소득 수준, 결혼 여부) -> 질병력·가족력 요인 -> 이후 변화되어 노출될 수 있는 행태 요인 -> 행태 요인으로 인해 변화될 수 있는 비만 관련 측정 지표-> 이들로 인해 변화될 수 있는 혈액적 이상을 인지하는 혈액 마커-> 모든 상태의 변화로 인한 질병의 이환 및 전질병상태의 이환 여부 -> 고혈압 혹은 당뇨병 단독질병 발생 -> 고혈압-당뇨병 동반질병발생 -> 만성신장질환 발생과 같은 흐름으로 만성신장질환 발생 여부를 예측할 수 있다.
도 2는 본원의 일 실시예에 따른 만성신장질환 장치의 개략적인 블록도이다.
도2를 참조하면 만성신장질환 장치(10)는 유전체 마커 선별부(11), 통합 유전체 지표 산출부(12), 통합 위험 요인 구축부(13), 설명변수 도출부(14), 질병 발생 예측 모델 생성부(15) 및 질환 예측부(16)를 포함할 수 있다. 다만, 만성신장질환 장치(10)의 구성이 이에 한정되는 것은 아니다.
본원의 일 실시예에 따르면, 유전체 마커 선별부(11)는 복수의 질환과 관련된 유전체 마커를 선별할 수 있다. 일예로, 복수의 질환은, 고혈압, 당뇨병, 당뇨병-고혈압 동반상태 및 만성신장질환을 포함할 수 있다. 예시적으로 유전체 마커 선별부(11)는 출생부터 노출될 수 있는 요인인 유전체 마커를 선별하기 위해서 안산안성 코호트 전체 대상자 중에서 유전체가 있고, 혈압과 혈압약 복용여부와 공복혈당과 당화혈색소 당뇨병 복용 여부 정보를 가지고 있어, 고혈압과 당뇨병 정의가 가능한 대상자를 대상으로 복수의 질환과 관련된 유전체 마커의 선별 대상자로 선정할 수 있다.
또한, 유전체 마커 선별부(11)는 제1질환과 관련된 제1유전체 마커를 선별하고, 선별된 상기 제1유전체 마커를 도시 코호트 및 농촌 코호트 각각에서 검증하여 제1유전체 마커로 결정할 수 있다. 일예로, 제1질환은 고혈압일 수 있다. 예시적으로, 유전체 마커 선별부(11)는 질병 예측 서버(20)로부터 안산안성 코호트 정보를 제공받을 수 있다. 유전체 마커 선별부(11)는 안산안성 코호트에서 제1질환과 관련된 제1유전체 마커(예를 들어, 고혈압 관련 유전체 마커)를 선별하고, 이를 도시코호트와 농촌 코호트 각각에서 검증하여 최종 고혈압 관련 유전체 마커를 선별할 수 있다. 예시적으로, 유전체 마커 선별부(11)는 안산안성 코호트 전체 대상자 10,030명 중 유전체 데이터가 있고 고혈압 정의가 가능한 대상자 (혈압, 혈압약 복용여부에 대한 정보 있음) 8,840명을 대상으로 하여, 제1질환과 관련된 제1유전체 마커를 선별할 수 있다. 또한, 유전체 마커 선별부(11)는 기저자료와 추적자료를 통합할 수 있다. 유전체 마커 선별부(11)는 고축기 혈압이 제1혈압 이상이거나, 이완기 혈압이 제2혈압 이상이거나, 혈압약을 복용하는 대상자의 경우 고혈압 환자군으로 정의할 수 있다. 또한, 이환과 발생에 한번도 포함되지 않는 대상자를 고혈압 대조군으로 설정할 수 있다. 달리 말해, 유전체 마커 선별부(11)는 기저자료와 추적자료를 통합하여 고축기 혈압 (SBP) 130mm/Hg 이상이거나 이완기 혈압 (DBP)이 90mm/Hg 이상이거나 혈압약을 복용한 경우를 고혈압 환자군으로 정의하고, 이환과 발생에 한번도 포함되지 않은 대상자를 대조군으로 설정할 수 있다. 일예로, 유전체 마커 선별부(11)는 안산안성코호트에서는 7,444명, 도시 코호트에서는 858명, 농촌 코호트에서는 332명의 대상자를 유전체 마커의 선별을 위해 도출할 수 있다. 다만, 이에; 한정되는 것은 아니며 다양한 실시예가 존재할 수 있다.
또한, 유전체 마커 선별부(11)는 제2질환과 관련된 제2유전체 마커를 선별하고, 선별된 상기 제2유전체 마커를 도시 코호트 및 농촌 코호트 각각에서 검증하여 제2유전체 마커로 결정할 수 있다. 예시적으로, 유전체 마커 선별부(11)는 질병 예측 서버(20)로부터 안산안성 코호트 정보를 제공받을 수 있다. 유전체 마커 선별부(11)는 안산안성 코호트에서 제2질환과 관련된 제2유전체 마커(예를 들어, 당뇨병 관련 유전체 마커)를 선별하고, 이를 도시코호트와 농촌 코호트 각각에서 검증하여 최종 고혈압 관련 유전체 마커를 선별할 수 있다. 유전체 마커 선별부(11)는 안산안성 코호트 전체 대상자 10,030명 중 유전체 데이터가 있고 당뇨병 정의가 가능한 대상자 (공복혈당, HBA1C, 당뇨병약 복용여부) 8,831명을 대상으로 제2질환과 관련된 제2유전체 마커를 선별할 수 있다. 또한, 유전체 마커 선별부(11)는 1기부터 7기까지 공복혈당이 제1혈당 이상이거나 당화혈색소가 제1혈색소 이상이거나 당뇨병약을 복용한 경우를 당뇨병이라고 정의할 수 있다. 달리 말해, 유전체 마커 선별부(11)는 1기부터 7기까지 공복혈당이 126 이상이거나 당화혈색소가 6.5% 이상이거나 당뇨병약을 복용한 경우를 당뇨병이라고 정의할 수 있다. 유전체 마커 선별부(11)는 기저자료와 추적자료를 통합하여 공복혈당이 126 이상이거나 당화혈색소가 6.5% 이상이거나 당뇨병약을 복용한 경우를 당뇨병 환자군으로 정의할 수 있다. 또한, 유전체 마커 선별부(11)는 이환과 발생에 한번도 포함되지 않은 대상자를 대조군으로 설정할 수 있다. 일예로, 유전체 마커 선별부(11) 최종적으로, 안산안성코호트에서는 7,444명, 도시 코호트에서는 858명, 농촌 코호트에서는 332명의 대상자를 유전체 마커의 선별을 위해 도출할 수 있다. 다만, 이에; 한정되는 것은 아니며 다양한 실시예가 존재할 수 있다.
본원의 일 실시예에 따르면, 유전체 마커 선별부(11)는 유전체 유전형질분석(Genotyping) 데이터의 유전변이정보확장(genotype imputation)을 통한 유전자 정보를 확장할 수 있다. 예시적으로, 안산안성 집단에서의 유전체 정보는 Affimetrix 6.0 array를 이용한 유전체 분석으로 당시 최대 60만개의 SNPs으로 구성된 유전체 칩을 기반으로 유전체 분석이 진행되었다. 그러나 이 칩은 모든 SNPs에 대한 정보를 제공할 수 있는 것이 아니라 일정 간격으로 SNPs을 확인하도록 하는 방법이기 때문에 한국인 인구집단에서 빈도가 드물거나 이질성이 없는 경우 SNP에 대한 정보는 얻기 어렵다는 한계가 있다. 60만개 SNPs 중 30-40만개 정도에서만 SNPs의 변이를 확인할 수 있었고 그들 중 유전체 마커를 찾을 수 있다. 유전체 마커 선별부(11)는유전체 칩의 한계점을 보완하기 위해 유전변이정보를 확장할 수 있는 방법인 유전형 임퓨테이션(genotype imputation, 이하 ‘유전변이정보확장)을 적용하여 유전변이정보를 확장할 수 있다. 이는 수천 명 이상의 유전체 정보를 바탕으로 수천만 개 이상의 유전변이를 가져올 수 있으며, 이를 이용해서 유전변이정보확장, 유전변이 빈도 확인 등에 사용할 수 있다. 그 결과 유전체 마커 선별부(11)는 유전체 칩에 있는 수십만 개의 유전변이정보를 WGS 수준인 약 8천만 개 이상으로 유전변이정보를 확장할 수 있다. 유전변이정보확장 방법은 참조유전체 정보와 유전체 칩의 유전변이정보를 비교해서 유전체 칩에는 없지만 참조유전체 정보에 있는 유전변이를 통계적으로 추정해서 확보할 수 있는 분석 방법이다.
도 3은 본원의 일 실시예에 따른 만성신장질환 장치의 유전변이정보확장의 참조유전체 정보로 사용할 수 있는 정보 리스트를 나타낸 도면이다.
예시적으로 도3을 참조하면, 도3은 유전변이정보확장의 참조유전체 정보로 사용할 수 있는 정보 리스트로, 유전체 마커 선별부(11)는 참조유전체 정보로서 가장 상부에 있는 1K Genome project에서 산출된 Eastern Asian 결과를 적용하여 유전변이정보확장의 참조유전체 정보를 획득할 수 있다.
일예로, 유전체 마커 선별부(11)는 안산안성 코호트 중 유전체 정보가 있는 대상자를 기반으로 유전변이정보를 확장할 수 있다. 마커 선별부(11)는-Imputation을 실시하기 전 ‘Plink’ 프로그램을 이용하여 원 데이터에서의 QC (MAF: 0.01, missing rate per sample: 0.05, missing rate per SNP: 0.02, Hardy-weinberg: < 10-6)를 수행할 수 있다. 마커 선별부(11)는 이후 ‘HG19’로 annotation을 변경하고 annotation이 불가능한 SNP을 제거할 수 있다. 또한, 마커 선별부(11)는 Pre-phasing을 위해 ‘Shapeit2, 1000 Genome Phase 3 East Asian population’을 사용할 수 있으며, 직접적인 imputation 수행은 ‘impute2’를 이용하여 수행할 수 있다. 또한, 마커 선별부(11)는 File converting을 위해서는 Plink 2.0 버전에서의 ‘Qctool v2’을 이용할 수 있다. 또한, 마커 선별부(11)는- Imputation 결과 중 probability 0.9, completion rate 0.98, info (r2) 0.7 이상을 기준으로 filtering 시행할 수 있다. 마커 선별부(11)는 최종 Impution 후 원 genotyping 자료는 총 31,563,540 SNPs 으로 확장할 수 있다. 기존 타 연구에서는 유전체 분석 정보(Affimetrix 6.0 array genotyping) 를 이용하여 고혈압, 당뇨병 마커를 산출하였지만 마커 선별부(11)는 1K genome 3.0 최신버전을 기반으로 정보를 확장하여 (Imputation) 그 정보를 유전체마커 분석에 이용하였다.
본원의 일 실시예에 따르면, 유전체 마커 선별부(11)는, 회귀분석 알고리즘을 기반으로 복수의 질환과 연관된 단일염기 다형성(SNP) 마커를 선정하고, 단일염기 다형성(SNP) 마커, 제1유전체 마커 및 제2유전체 마커 중 적어도 어느 하나를 고려하여 핵심 유전자 정보를 도출할 수 있다. 일예로, 유전체 마커 선별부(11)는 로지스틱 회귀분석 (Logistic regression)을 이용해 SNP 마커 자체가 질병에 미치는 위험 (crude odds ratio [crude OR])을 산출할 수 있다. 또한 유전체 마커 선별부(11)는 성별과 연령 변수의 경우 질병뿐 아니라 다른 위험요인에 동시에 미치는 영향이 가장 큰 변수이기 때문에 두 변수를 보정한 SNP 마커의 질병 위험 (Age-sex adjusted OR) 결과를 산출할 수 있다.
예시적으로, 유전체 마커 선별부(11)는 입력 데이터에서 SNPs에서의 세부적인 품질관리를 수행할 수 있다. 유전체 마커 선별부(11)는 Genotyping missing < 5% 에 의해 11,313,891 SNPs 제거할 수 있다. 또한, 유전체 마커 선별부(11)는 HWE p <1E-06 에 의해 183 SNPs 제거할 수 있다. 또한, 유전체 마커 선별부(11)는 MAF (Minor allele frequency) < 1% 에 의해 17,950,690 SNPs 제거할 수 있다. 유전체 마커 선별부(11)는 최종 2,298,777 SNPs 으로 SNPs을 도출할 수 있으며, 대상자에 대한 missing 등은 이미 질본에서 사전에 QC를 시행한 바 있어서 더 이상 처리하지 않을 수 있다.
또한, 유전체 마커 선별부(11)는 Q-Q plot과 lambda를 통해 보정해야 할 집단 간 이질성이 존재 할 경우에는 인구집단에 기반하여 보정을 실시할 수 있다. 유전체 마커 선별부(11)는 Phenotype에 따른 SNP의 통계적인 유의성은 < 1 x 10-6을 기준으로 하여 threshold 미만의 SNP을 선정할 수 있다. 유전체 마커 선별부(11)는 분석결과의 시각화를 위하여 각 SNP에서의 P-value를 염색체(chromosome), 물리적 거리순으로 늘여놓은 Manhattan plot을 생성할 수 있다. 유전체 마커 선별부(11)는 각 SNP 지표들의 additive effect 가정 하에서 Cochran-Armitage test (1df)를 시행하여 raw p-value를 산출하였으며 Manhattan plot을 통해 결과를 확인할 수 있다. 달리 말해, 유전체 마커 선별부(11)는 각 SNP에서의 P-value를 염색체(chromosome), 물리적 거리순으로 늘여놓은 Manhattan plot를 사용자 단말로 제공함으로써, 사용자는 시각화된 분석결과를 제공받을 수 있다. 또한, 유전체 마커 선별부(11)는 로지스틱 회귀분석 (Logistic regression)을 이용해 SNP 마커 자체가 질병에 미치는 위험 (crude odds ratio [crude OR])을 산출하였고, 또한 성별과 연령 변수의 경우 질병뿐 아니라 다른 위험요인에 동시에 미치는 영향이 가장 큰 변수이기 때문에 두 변수를 보정한 SNP 마커의 질병 위험 (Age-sex adjusted OR) 결과를 산출할 수 있다.
달리 말해, 유전체 마커 선별부(11)는 질병의 마커이면서 또한 질병 위험예측에 이용할 수 있는 유전체 지표의 선별할 수 있다. 유전체 마커 선별부(11)는 복수의 질병 각각에 대하여 Crude 와 Age-sex adjusted 결과에서 공통적으로 유의하게 해당 질병과 연관성 있는 SNP 마커를 선정할 수 있다. 유전체 마커 선별부(11)는 상기 선정 마커 중 질병 위험을 높이는 방향의 마커 (odds ratio (OR) ≥ 1) 를 만족하는 SNP)을 유전 마커로 선정할 수 있다. 고혈압 환자에서 당뇨병은 흔한 동반이환 질환이고, 당뇨병 환자에서도 마찬가지로 고혈압이 흔한 동반이환 질환이며, 고혈압과 당뇨병은 혈관네트워크를 통해 같은 표적기관에 영향을 주며, 고혈압과 당뇨병은 만성신장질환, 심내혈관질환, 신부전, 심부전, 안구질환 등의 원인성 질환이며, 이들 질환으로 인하여 이들 발생률과 사망률을 급격히 증가한다.
따라서 유전체 마커 선별부(11)는 제1질환(고혈압) 및 제2질환(당뇨병)의 유전체 SNP 마커를 통합하여 고혈압, 당뇨병, 고혈압-당뇨병 동반질환과 만성신장질환에 이용하여 만성신장질환 발생을 예측할 수 있다. 유전체 마커 선별부(11)는 이러한 생물학적 타당성 하에서 선정된 SNP 마커들을 통합하여 최종 유전체 마커 패널을 구축할 수 있다.
도4는 본원의 일 실시예에 따른 고혈압과 관련된 유의한 유전체 마커를 설명하기 위한 도면이다. 도4의 (a)는 로지스틱 회귀분석 (Logistic regression)을 이용해 아무것도 보정하지 않은 Crude 모델이다. 또한, 도4의 (b)는 성별과 연령을 추가적으로 보정한 Age-sex adjusted 모델이다. 유전체 마커 선별부(11)는 로지스틱 회귀분석 (Logistic regression)을 이용해 아무것도 보정하지 않은 Crude 모델과 성별과 연령을 추가적으로 보정한 Age-sex adjusted 모델 각각에서 고혈압과 관련있는 유전지표 결과를 qq-plot과 Manhattan plot을 통해 결과를 확인할 수 있다.
또한, 유전체 마커 선별부(11)는 Crude 결과와 연령과 성별을 보정한 결과 모두에서 공통된 SNP 중 Odds ratio (OR)이 1 이상인 SNP을 최종 선정할 수 있다. 최종 선정된 4개의 SNP은 표1과 같다. 표1은 최종 선정된 고혈압 SNP이다.
SNP Gene CCHR PPOS MAF Alleles OR L95 U95 P
rs35639474 6 0.928329 -/T 1.35641 1.19034 1.54564 4.77E-06
rs57808874 STOML3 13 0.756094 -/G 1.21593 1.11934 1.32085 3.66E-06
rs7040217 RAD23B 9 0.822863 A/C 1.19135 1.10399 1.28563 6.61E-06
rs7986278 13 0.960859 A/G 1.56804 1.32225 1.85952 2.33E-07
도5는 본원의 일 실시예에 따른 당뇨병과 관련된 유의한 유전체 마커를 설명하기 위한 도면이다. 도5의(a)는 로지스틱 회귀분석 (Logistic regression)을 이용해 아무것도 보정하지 않은 Crude 모델이다. 또한, 도4의 (b)는 성별과 연령을 추가적으로 보정한 Age-sex adjusted 모델이다. 유전체 마커 선별부(11)는 로지스틱 회귀분석 (Logistic regression)을 이용해 아무것도 보정하지 않은 Crude 모델과 성별과 연령을 추가적으로 보정한 Age-sex adjusted 모델 각각에서의 당뇨병과 관련있는 유전 마커를 확인할 수 있다.또한, 유전체 마커 선별부(11)는 Crude 결과와 연령과 성별을 보정한 결과 모두에서 공통된 SNP 중 Odds ratio (OR)이 1 이상이고, p-value<10e-6 인 SNP을 최종 선정할 수 있다. 최종 선정된 28개의 SNP은 표2와 같다. 표2는 최종 선정된 당뇨병 SNP이다.
SNP Gene CHR POS MAF Alleles OR L95 U95 P
rs10536170 CDKAL1 6 2.1E+07 0.535241 -/TATAT 1.2966 1.19898 1.40217 7.84E-11
rs138420022 CDKAL1 6 2.1E+07 0.532877 -/T 1.29703 1.19891 1.40318 9.18E-11
rs9356744 CDKAL1 6 2.1E+07 0.522241 C/T 1.29027 1.19407 1.39424 1.15E-10
rs34499031 CDKAL1 6 2.1E+07 0.525247 -/AA 1.28926 1.19316 1.3931 1.29E-10
rs9356748 CDKAL1 6 2.1E+07 0.521774 A/T 1.26924 1.17589 1.37001 9.55E-10
rs6906327 CDKAL1 6 2.1E+07 0.528224 A/G 1.2584 1.16749 1.3564 1.88E-09
rs9358356 CDKAL1 6 2.1E+07 0.525268 C/T 1.259 1.16703 1.35822 2.67E-09
rs9295474 CDKAL1 6 2.1E+07 0.52291 C/G 1.2532 1.16206 1.35148 4.66E-09
rs9348440 CDKAL1 6 2.1E+07 0.532331 C/T 1.24481 1.15518 1.34141 9.28E-09
rs9356743 CDKAL1 6 2.1E+07 0.509704 C/T 1.24565 1.15059 1.34856 5.85E-08
rs56099357 CDKAL1 6 2.1E+07 0.558728 -/T 1.23076 1.14152 1.32698 6.43E-08
rs4515379 CDKAL1 6 2.1E+07 0.563085 C/G 1.22286 1.13425 1.3184 1.59E-07
rs80151164 8 6.1E+07 0.934038 A/C 1.51167 1.27822 1.78775 1.38E-06
rs77039794 6 2.1E+07 0.556653 A/G 1.21547 1.12272 1.31589 1.45E-06
rs75897742 8 6.1E+07 0.940407 A/G 1.54327 1.29299 1.842 1.54E-06
rs2328529 CDKAL1 6 2.1E+07 0.586855 A/C 1.19771 1.11127 1.29087 2.35E-06
rs17193507 LOC107987429 6 3.1E+07 0.960873 G/T 1.58192 1.30641 1.91553 2.63E-06
rs75925737 8 6.1E+07 0.938786 A/G 1.52515 1.27831 1.81966 2.79E-06
rs116381594 8 6.1E+07 0.939492 C/G 1.52499 1.27806 1.81963 2.84E-06
rs114462576 8 6.1E+07 0.94065 G/T 1.52641 1.27809 1.82297 3.03E-06
rs115952070 8 6.1E+07 0.940802 C/T 1.52735 1.27851 1.82462 3.04E-06
rs116468467 8 6.1E+07 0.940623 C/T 1.52611 1.27792 1.82252 3.04E-06
rs114961690 8 6.1E+07 0.941057 A/G 1.52852 1.27901 1.82671 3.07E-06
rs2932331 5 3863434 0.015545 A/G 2.55321 1.71879 3.79272 3.44E-06
rs11187007 IDE 10 9.4E+07 0.326168 A/G 1.20482 1.11315 1.30405 3.94E-06
rs191296992 LPP 3 1.9E+08 0.98986 A/G 2.98624 1.87495 4.75618 4.09E-06
rs116198656 5 3867721 0.985373 A/G 2.58996 1.72272 3.8938 4.77E-06
rs115880178 8 6.1E+07 0.938456 C/T 1.50468 1.26266 1.79311 4.96E-06
본원의 일 실시예에 따르면, 통합 유전체 지표 산출부(12)는 유전체 마커 선별부(11)에서 선별된 복수의 질환과 관련된 유전체 마커를 이용하여 통합 유전체 지표를 산출할 수 있다. 일예로, 통합 유전체 지표 산출부(12)에서 구축된 통합 유전체 마커 패널의 경우 수십개의 많은 SNP 마커들이 포함되어 있다. 이들을 동시에 이용할 경우 실제로 유전자가 질병에 영향을 주는 경우가 대개 많은 경우 5-7% 이하로 보고 있는데, 많은 SNP들이 동시에 모형에 들어갈 경우 질병 예측에 있어서 환경적 영향에 비해 유전적 영향성이 커지게 되어 이는 생물학적 타당성에 위배된다. 통합 유전체 지표 산출부(12)는 이러한 문제점을 해결하기 위해 이를 하나의 지표로 산출하고자 유전체 점수의 형태로 산출할 수 있다.또한, 통합 유전체 지표 산출부(12)는 유전체 점수를 산출할 수 있다. 유전체 점수 (polygenic risk score) 는 각 SNP의 beta 값과 개인별 각 SNP의 질병에 대한 확률값을 곱한 뒤 모두 합산한 후 SNP의 총 개수로 나누어 polygenic risk score를 산출될 수 있다.
여기서, Xj는 유전체 점수 (polygenic risk score)이고, ORi는 각 SNP의 beta 값이고, SNPij는 개인별 각 SNP의 질병에 대한 확률값이고, m은 SNP의 총 개수이다.
[수학식 4]
Figure 112020000727484-pat00013
본원의 일 실시예에 따르면, 통합 위험 요인 구축부(13)는 복수의 질환과 관련된 요인들을 도출하여 통합 위험 요인 모델을 구축할 수 있다. 복수의 질환은 고혈압, 당뇨병, 당뇨병-고혈압 동반상태 및 만성신장질환을 포함할 수 있다. 통합 위험 요인 구축부(13)는 각 질병 발생에 관련된 요인을 도출하고, 도출된 요인들과 환경적 요인을 결합하여 그들의 상태에 대한 통합 위험 요인 모델을 구축할 수 있다.
도6은 본원의 일 실시예에 따른 고혈압 통합 유전체 점수 구축의 결과를 설명하기 위한 도면이다.
예시적으로 도6을 참조하면, 통합 위험 요인 구축부(13)에서 최종 선정된 SNP 마커로 유전체 점수를 산출한 결과, 고혈압의 PRS의 분포는 도6과 같다.
통합 요인 구축부(13)에서 고혈압 Polygenic risk score 기본값은 표3과 같다.
최솟값 중위수 평균값 최대값
0.00 0.05240 0.06465 0.34822
도7은 본원의 일 실시예에 따른 당뇨병 통합 유전체 점수 구축의 결과를 설명하기 위한 도면이다.예시적으로 도6을 참조하면, 통합 위험 요인 구축부(13)에서 최종 선정된 SNP 마커로 유전체 점수를 산출한 결과, 당뇨병의 PRS의 분포는 도7과 같다.
통합 요인 구축부(13)에서 고혈압 Polygenic risk score 기본값은 표4와 같다.
최솟값 중위수 평균값 최대값
0.04813 0.1903 0.1996 0.57534
본원의 일 실시예에 따르면, 통합 위험 요인 구축부(13)는, 기본 인구학적 요인, 사회학적 요인, 질병 및 가족력 요인, 환경적 행태 관련 요인, 비만 관련 지표 요인, 혈액적 이상인지 지표 요인, 기저상태의 질병 이환 상태요인 중 적어도 어느 하나를 고려하여 상기 복수의 질환과 관련된 요인들을 도출하고 통합 위험 요인 모델을 구축할 수 있다. 예시적으로, 통합 위험 요인 구축부(13)는 기본 인구학적 요인으로는 성별과 연령에 대응하는 변수가 포함되도록 하여 통합 위험 요인 모델을 구축할 수 있다. 또한, 통합 위험 요인 구축부(13)는 사회학적 요인으로는 교육수준 및 소득수준에 대응하는 변수가 포함되도록 하여 통합 위험 요인 모델을 구축할 수 있다. 또한, 통합 위험 요인 구축부(13)는 질병 및 가족력 요인으로는 심혈관계질환 가족력 점수 (고혈압 가족력 여부, 당뇨병 가족력 여부, 심장질환 가족역 여부 3가지의 가족력에 대해 각각 가족력이 있는 경우 1로, 없는 경우를 0으로 두고, 질병 가족력이 모두 없는 경우를 0으로, 한가지 이상 있는 경우를 1점으로 분류하여 산출함) 에 대응하는 변수가 포함되도록 하여 통합 위험 요인 모델을 구축할 수 있다.
또한, 통합 위험 요인 구축부(13)는 환경적 행태 관련 요인으로는 알콜음주 상태와 규칙적 운동 상태, 담배 흡연 상태에 대응하는 변수가 포함되도록 하여 통합 위험 요인 모델을 구축할 수 있다. 또한, 통합 위험 요인 구축부(13)는 비만 관련 지표 요인으로는 비만지표인 체질량지수, 복부비만지표인 허리둘레에 대응하는 변수가 포함되도록 하여 통합 위험 요인 모델을 구축할 수 있다. 또한, 통합 위험 요인 구축부(13)는 혈액적 이상을 인지하는 지표로서는 지질이상지표인 TG, HDL-콜레스테롤, 총 콜레스테롤과 간이상지표인 ALBUMIN에 대응하는 변수가 포함되도록 하여 통합 위험 요인 모델을 구축할 수 있다.
또한, 통합 위험 요인 구축부(13)는 기저상태의 질병 이환 상태 (혈액 이상, 혈압 이상 및 질병력)로는 심혈관계질환 질병력 점수 (울혈성 심부전증 진단 여부, 관상동맥 질환 진단 여부, 뇌졸중, 중풍 등의 뇌혈관 질환 진단 여부 3가지의 질병력에 대해 각각 질병력이 있는 경우 1로, 없는 경우를 0으로 두고, 질병력이 모두 없는 경우를 0으로, 한가지 이상 있는 경우를 1점으로 분류하여 산출함) 고혈압 이환, 고혈압 전단계, 당뇨병 이환, 당뇨병 전단계, 만성신장질환 유병 상태 에 대응하는 변수가 포함되도록 하여 통합 위험 요인 모델을 구축할 수 있다.
한편, 통합 위험 요인 구축부(13)는 통합 위험요인 및 통합 유전체 지표(유전체 점수)를 포함하여 통합 위험 요인 모델을 구축할 수 있다. 통합 유전체 지표(유전체 점수)는 통합 유전체 지표 산출부(12)에서 산출된 결과일 수 있다. 통합 유전체 지표 산출부(12)는 고혈압과 당뇨병에서 산출된 모든 유전체 지표가 포함되도록 유전체 점수를 산출할 수 있다.
또한, 통합 위험 요인 구축부(13)는 복수의 질환 각각에 대응하는 통합 위험 요인 모델을 구축할 수 있다. 통합 위험 요인 구축부(13)는 고혈압과 연관된 유전체 지표들만을 고려하여 유전체 점수가 산출되도록 하여 고혈압 발생을 예측하는 통합 위험 요인 모델을 생성할 수 있다. 또한, 통합 위험 요인 구축부(13)는 당뇨병과 연관된 유전체 지표들만을 고려하여 유전체 점수가 산출되도록 하여 당뇨병 발생을 예측하는 통합 위험 요인 모델을 생성할 수 있다. 또한, 통합 위험 요인 구축부(13)는 당뇨병-고혈압 동반발생 및 만성신장질환 통합 위험 요인 모델에서는 모든 유전체 지표를 기반으로 한 유전체 점수가 산출되도록 하여 통합 위험 요인 모델을 생성할 수 있다.
본원의 일 실시예에 따르면, 설명변수 도출부(14)는 복수의 질환 중 적어도 어느 하나의 질병을 보유하고 있는 대상자의 데이터를 설명변수로서 도출할 수 있다. 달리 말해, 설명변수 도출부(14)는 질병 발생 예측 모델에 포함될 설명 변수를 도출할 수 있다. 설명 변수는 전체 인구집단의 고혈압, 당뇨병 유병과 관련된 위험요인과 고혈압, 당뇨병 발생과 관련된 위험요인을 포함할 수 있다. 고혈압-당뇨병 동반상태의 경우는 두 질병의 위험요인을 통합할 경우 포괄할 수 있다고 설정하고, 따로 위험요인을 도출하지 않았다.
설명변수 도출부(14)는 만성신장질환의 경우 고혈압, 당뇨병이 원인으로 발생하는 질환이긴 하지만 두 질병의 위험요인만으로는 위험요인을 모두 포괄하기 어렵다고 판단되어 각각의 질환에 연관된 위험요인을 선별할 수 있다. 그 이유는 만성신장질환의 또 다른 원인성 질환으로 polycystic kidney disease, glomerulonephosis와 같은 신장질환이 원인이다.
또한, 설명변수 도출부(14)는 기저집단에서 이환은 전체 집단의 5% 미만에 불과하여 검정력이 부족하여 분석하지 않았고, 대신 추적기간 동안 발생은 전체 집단의 약 20% 정도라서 발생에 대한 위험요인에 대해서 분석하여 이를 포함할 수 있다. 설명변수 도출부(14)는 는 유전적 요인 이외 환경적 및 기타 인체 변화상태에 대한 요인에 대해서는 고혈압, 당뇨병의 이환과 발생 각각의 위험요인들과 만성신장질환 발생 위험요인을 모두 통합하여 통합 위험 요인 모델을 구축할 수 있다. 예시적으로, 유전체 마커 선별부(11)는 유전적 요인과 관련하여, 유전체 Genotyping 원 정보를 1k genome 정보 기반 imputation을 통해 확장하여 고혈압, 당뇨병과 관련된 SNPs 마커를 선정하였고 통합 유전체 지표 산출부(12)는 하나의 유전체 지표를 형성하기 위해 여러 마커들을 통합한 유전체 점수 (Polygenic risk score: PRS)로 환산할 수 있다. 설명변수 도출부(14)는 이를 지표로 하여 통합 위험 요인 모델을 구축할 수 있다. 최종 모형에 포함된 변수는 따라서 유전체 지표 (유전체 점수)와 통합 위험요인들로 구성되었고, 최종 이들을 통합 위험 요인 모델이라고 할 수 있다.
본원의 일 실시예에 따르면, 설명변수 도출부(14)는 질병의 위험요인으로는 볼 수 없지만 일반 인구집단의 구성 상태를 볼 때, 고혈압 환자, 고혈압 전질병상태, 당뇨병 환자, 당뇨병 전질병상태의 환자가 존재하고 있고 이들의 경우 정상 상태에 비해 다른 질병의 발생 위험이 더욱 높기 때문에 (예를 들어, 정상 상태에 비해 고혈압 전질병상태는 당뇨병, 만성신장질환 발생 위험이 높고, 고혈압 환자는 정상이나 전질병상태에 비해 그 위험은 더욱 높음), 이러한 일반 집단의 상태를 위험 예측 모델에 설명변수로 바로 적용하기 위해, ‘기저조사의 질병-전질병상태 지표’ (고혈압, 당뇨병, 만성신장질환 이환과 전질병상태 이환에 대한 평가 지표)를 도출할 수 있다.
본원의 일 실시예에 따르면, 통합 위험 요인 구축부(13)는 고혈압, 당뇨병, 그리고 이들의 동반질병으로 고혈압과 당뇨병의 동반상태와 만성신장질환의 발생과 관련하여 질병 발생 예측 모델의 결과변수로 해당 변수를 적용할 수 있다. 또한, 통합 위험 요인 구축부(13)는 통합 유전체 지표 산출부(12)의 유전체 지표 산출 결과, 통합 위험 요인, 설명변수 도출부(14)에서 도출된 기저조사의 질병-전질병상태 지표를 통합하여 통합 위험 요인 모델을 구축할 수 있다.
또한, 통합 위험 요인 구축부(13)는 출생 이후 환경적 노출과 그들이 변화 상태 및 인체 내 생물학적 변화를 반영하는 지표들을 선정할 수 있다. 통합 위험 요인 구축부(13)는 전체 변수에 대해서 개인식별자, 조사일과 같이 질병 예측과 관련이 없는 변수들과 질병 결과와 직접적으로 관련이 되거나 결측치 비율이 20%가 넘어가는 변수는 제외할 수 있다. 이후 통합 위험 요인 구축부(13)는 고혈압과 당뇨병 이환의 경우, 다항 로지스틱 회귀모형에서 3가지의 변수 선택법 (전진, 후진, 단계별)을, 고혈압, 당뇨병, 만성신장질환 발생의 경우 콕스 비례확률위험 모형에서의 3가지 변수 선택법 (전진, 후진, 단계별)을 기반으로 적어도 2개의 과정에서 나온 변수를 선정할 수 있다.
통합 위험 요인 구축부(13)는 이후 임상적 판단 기준을 바탕으로 고혈압, 당뇨병, 그리고 그들의 동반질병과 만성신장질환 통합 발생 모델을 구축하기 위해서 기본 인구학적 요인 (성별, 연령) 사회학적 요인 (교육수준, 소득수준, 결혼 여부), 가족력 요인 (심혈관계질환 가족력 점수: 고혈압 가족력 여부, 당뇨병 가족력 여부, 심장질환 가족역 여부 3가지의 가족력에 대해 각각 가족력이 있는 경우 1로, 없는 경우를 0으로 두소, 질병 가족력이 모두 없는 경우를 0으로, 한가지 이상 있는 경우를 1점으로 분류하여 산출함)), 환경적 행태 관련 요인 (음주, 규칙적 운동 여부, 흡연 상태)과 비만 지표 (체질량지수, 허리둘레), 혈액적 이상을 인지하는 지표 (지질이상지표인 TG, HDL-콜레스테롤, 총 콜레스테롤과 빈혈지표인 헤모글로빈, 간이상지표인 ALT), 기저상태의 질병 이환 상태 (심혈관계질환 질병력 점수 (울혈성 심부전증 진단 여부, 관상동맥 질환 진단 여부, 뇌졸중, 중풍 등의 뇌혈관 질환 진단 여부 3가지의 질병력에 대해 각각 질병력이 있는 경우 1로, 없는 경우를 0으로 두고, 질병력이 모두 없는 경우를 0으로, 한가지 이상 있는 경우를 1점으로 분류하여 산출함) 고혈압 이환, 고혈압 전단계, 당뇨병 이환, 당뇨병 전단계, 만성신장질환 이환 상태) 등을 포함해 최종적으로 19개의 변수가 선정할 수 있다. 최종 모형에 포함된 변수는 따라서 유전체 지표 (유전체 점수)와 통합 위험요인들로 구성되었고, 최종 이들을 ‘통합 위험요인 패널’이라고 할 수 있다.
본원의 일 실시예에 따르면, 질병 발생 예측 모델 생성부(15)는 통합 유전체 지표 및 통합 위험 요인 모델을 입력으로 하여, 질병 발생 예측 모델을 구축할 수 있다. 예시적으로, 질병 발생 예측 모델은 통계적 방법 (비례확률위험 모형)과 기계학습 방법 (서포트 벡터 머신, 신경구조망, 랜덤 포레스트)을 이용하여 고혈압, 당뇨병, 고혈압-당뇨병 동반질병과 만성신장질환의 발생에 대한 통합 위험 예측 모형을 구축할 수 있다. 질병 발생 예측 모델 생성부(15)는 제1통계 기법과 제2기계학습 방법을 적용하여 질병 발생 예측 모델을 구축할 수 있다. 예를 들어, 제1통계 기법은 콕스 비례위험 모형일 수 있다. 또한, 제2기계학습 방법은 서포트 벡터 머신 (Support Vector Machine, SVM), recurrent neural network (RNN), 랜덤 포레스트 (Random Forest, RF) 중 어느 하나를 포함할 수 있다. 또한, 질병 발생 예측 모델 생성부(15)는 다양한 알고리즘에 기반하여 생성된 질병 발생 예측 모델을 비교하고 가장 예측력이 높은 랜덤포레스트를 이용한 모델을 최종 통합 위험 예측 모형(질병 발생 예측 모델)으로 선정할 수 있다.
예시적으로, 질병 발생 예측 모델 생성부(15)는 고혈압, 당뇨병 유전체 마커와 반복적으로 측정된 요인들을 이용해서 기존에 알려진 질병의 위험 요인 조합에 따른 질병 위험을 확인하기 위해 콕스회귀모형을 이용해 각 요인 별 질병 위험도를 확인할 수 있다. 질병 발생 예측 모델 생성부(15)는 콕스 비례위험 모형을 이용한 통계모형 방법과 기계학습법인 인공 신경망 기반의 서포트 벡터 머신 (Support Vector Machine, SVM), 딥러닝의 한 방법인 recurrent neural network (RNN)과 랜덤 포레스트 (Random Forest, RF)를 이용하여 질병 발생 예측 모델을 구축할 수 있다. 질병 발생 예측 모델 생성부(15)는 복수의 신경망으로부터 구축된 예측 모델 중 가장 예측력이 좋은 결과를 가진 모형을 최종 질병 예측 모형으로 설정할 수 있다.
질병 발생 예측 모델 생성부(15)는 복수의 질환의 질환자의 유전체 마커 정보와 복수의 질병의 위험 요인 변수 및 만성신장 질환의 질병 위험도를 입력으로 하여, 복수의 질환의 질환자의 유전체 마커 정보와 복수의 질병의 위험 요인 변수 및 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 질병 위험도 사이의 관계의 정보를 학습하는 질병 위험도 기계학습 모델을 생성할 수 있다. 예시적으로 기계학습 모델은 콕스회귀모형을 이용하여 기계학습 모델을 생성할 수 있다.
질병 발생 예측 모델 생성부(15)는 고혈압, 당뇨병 유전체 마커와 반복적으로 측정된 요인들을 이용해서 반복 측정된 요인들의 변화에 따른 질병 위험을 확인하기 위해 시간변이 콕스회귀모형을 이용해 각 요인 별 질병 위험도를 할 수 있다. 최종 질병 발생 예측 모델을 위해서 시간 변이 콕스회귀모형을 이용한 통계모형 방법과 기계학습법인 인공 신경망 기반의 서포트 벡터 머신 (Support Vector Machine, SVM), 딥러닝의 한 방법인 recurrent neural network (RNN)과 랜덤 포레스트 (Random Forest, RF)를 이용하여 질병 발생 예측 모델을 구축할 수 있다. 질병 발생 예측 모델 생성부(15)는 그 중 가장 예측력이 좋은 결과를 가진 모형을 최종 질병 예측 모델로 설정할 수 있다.
본원의 일 실시예에 따르면, 질병 발생 예측 모델 생성부(15)는 유전체 마커 선별부(11), 통합 유전체 지표 산출부(12), 통합 위험 요인 구축부(13)에서 도출된 변수들을 이분형으로 구분할 수 있다. 예를 들어, 질병 발생 예측 모델 생성부(15) 신체 계측치 및 혈액 마커와 같은 연속형 변수의 경우, 대사증후군 진단 기준에 의거하여 정상범위와 정상을 벗어난 위험수준 범위로 구분하였고, 체질량지수를 기반으로 한 비만정도, 4구간으로 정의한 연령분포 (50세 미만, 50-60세, 60-70세, 70세 이상), 환경적 행태 관련 변수들, 4분위수로 정의한 PRS과 같은 범주형 변수의 경우, 각 수준에 대한 더미변수 (dummy variable)를 만들어 이분형의 값을 갖도록 구분할 수 있다. 질병 발생 예측 모델 생성부(15)에서 변수들을 이분형으로 구분함으로써, 각 변수의 상태별 질병 발생에 미치는 영향을 평가할 수 있다.
또한, 질병 발생 예측 모델 생성부(15)는 질병 발생 예측 모델을 검증하기 위해, 훈련 데이터 셋(training set)과 검증 데이터 셋(test set)으로 구분하여 질병 발생 예측 모델을 구축할 수 잇다. 일예로, 질병 발생 예측 모델 생성부(15)는 모델을 구축하고 검증단계가 필요하기 때문에, 안산안성 코호트를 trainng set으로, 도시 코호트를 test set1, 농촌 코호트를 test set2로, 도시와 농촌 통합 코호트를 test set3로 정의하여 이에 대한 외부 검증을 진행할 수 있다.
질병 발생 예측 모델 생성부(15)는 훈련 데이터 셋(training set)과 검증 데이터 셋(test set)에 적용해 예측도를 확인해봄으로써, 구축된 모델의 일반화 정도를 확인할 수 있다. 질병 발생 예측 모델 생성부(15)는 전체 대상자를 7 대 3의 비로 구분하여 정상 대상자와 각 질병 발생 (고혈압, 당뇨병, 고혈압-당뇨병 동반질병, 만성신장질병) 대상자의 70%는 모형개발을 위해 사용하였고, 30%는 모델의 검증을 위해 테스트 데이터로 사용하였다. 훈련 데이터 셋(training set)에서는 통합 위험요인 패널의 변수들을 이용해 결과변수만을 변경해 가면서 각 결과변수 발생 위험을 예측하고자 하였는데, 이를 위해 통계학적 방법으로는 시간 변이 콕스 비례확률위험 모형을, 기계학습 방법으로는 인공신경망 기반 방법 2가지 (서포트 벡터 머신 (Support vector machine) 과 딥러닝 recurrent neural network (RNN))와 랜덤포레스트법을 선정하여 각각에 대해 다른 알고리즘을 적용하여 학습 모델을 구축할 수 있다.
서포트 벡터머신은 지도 학습 모델이며 분류와 회귀 분석을 응용하여 두 범주 중 어느 하나에 속한 데이터의 집합이 주어졌을 때, 주어진 데이터 집합을 바탕으로 하여 새로운 데이터가 어느 카테고리에 속할지 판단하는 비확률적 이분형 선형 분류 모델을 만들어 가장 가까운 학습 자료와 가장 먼 거리의 초평면을 확인하여 분리를 하도록 하는 방법이다. 질병 발생 예측 모델 생성부(15)는 여러 응용 방법 중 스플라인 및 분산분석 RBF 커널법을 응용하였다.
랜덤 포레스트법은 분류, 회귀 분석 등에 사용되는 앙상블 학습방법의 일종으로, 훈련 과정에서 구성한 다수의 결정 트리로부터 분류 또는 회귀분석의 평균 예측치를 출력하여 다음 과정으로 동작할 수 있다. 먼저, 학습 데이터로부터 트리 구조와 매개변수를 자동으로 학습하도록 하는 방식으로 진행되어 독립적인 훈련단계와 학습을 하게 하여 최종 종단 노드인 질병 발생 여부에 도달하게 하는 방식으로 진행할 수 있다. 또한, 전형적 랜덤 포레스트법에서는 임의적으로 데이터에서 변수를 선별하여 모형을 만들고 복원추출을 통해 또 다른 변수들을 무작위로 추출해 가면서 또 다른 모형을 만드는 것이 원칙인데, 이 과정에서 가중치가 크지만 에러 데이터나 생물학적 관련성이 떨어지는 변수가 들어오거나 전자보다 후자에 일어났어야 하는 중간결과에 해당되는 것들이 원인에 해당하는 변수보다 먼저 들어오는 상황이 발생할 수도 있다. 이 문제를 어느 정도 해결하기 위해 앙상블 학습법은 유지하되 생물학적 시간적 알고리즘 하에서 변수들이 트리에 포함되도록 하기 위해 집단별로 변수들로 그루핑하여 단계별로 각 집단의 변수들이 포함되도록 조정하는 알고리즘을 개발하여 사용할 수 있다.
질병 발생 예측 모델 생성부(15) 각 모형의 예측력을 검정하기 위해 훈련 데이터 셋(training set)에서 생성된 모형이 검증 데이터 셋(test set)에서 재현되는 지를 검증하기 위한 내부 타당성 검증을 위해 검증 데이터 셋(test set)을 boot-straping 기법을 이용하여 1,000번의 permutation을 시행한 다음 각 산출된 모형의 확률 산출 방식을 그대로 적용하여 training set의 예측값과 test set의 예측값이 일치되는 지에 대해 검증하였고, test set 에서의 ROC-curve와 AUC값을 제시할 수 있다. 랜덤 포레스트의 경우, ntree=300을 이용하여 AUC값을 산출할 수 있다. 각 모형의 예측력은 AUC 의 95% 신뢰구간으로 차이를 검정하였고, 가장 높은 AUC를 가진 모형을 최종 예측 모형으로 선정할 수 있다.
도8은 본원의 일 실시예에 따른 요인 노출의 시기와 이후 변화될 수 있는 상태의 시간적 연속성과 질병의 자연사를 고려하여 예측모형에 순차적으로 포함된 변수를 나타내는 도면이다.
도8은 개인의 유전적 특성을 바탕으로 질병에 유의한 유전체 마커를 이용한 유전체 스코어를 기반으로 인구학적, 사회학적 요인, 환경적 행태 관련 요인, 비만 관련 측정 지표, 혈액 마커에 따른 현재 건강 상태, 기저상태에서의 질병 이환 상태에 대한 시계열적 데이터가 추가되면서 최종적으로 고혈압과 당뇨병, 이들의 다중질병 고혈압-당뇨병 발생과 더 나아가 만성신장질환 발생에 이르기까지의 흐름을 나타내는 도면이다.
도9는 본원의 일 실시예에 따른 시계열 데이터와 유전 데이터를 통합하는 딥러닝 모델 구조를 설명하기 위한 도면이다. 도 10은 본원의 일 실시예에 따른 질병 발생 예측 모델의 대략적인 다이어그램이다. 도11은 본원의 일 실시예에 따른 랜덤포레스트 예측 모형의 개략적인 다이어그램이다. 도12는 본원의 일 실시예에 따른 여러 경우의 모형들을 앙상블 기법으로 훈련시킨 과정을 개략적으로 나타낸 도면이다.
본원의 일 실시예에 따르면, 질병 발생 예측 모델 생성부(15)는 만성신장 질환의 질환자의 생활상태 변수 및 건강상태 변수를 포함하는 복수의 상태 변수, 핵심 유전자 정보 및 만성신장 질환의 질병 위험도를 입력으로 하여, 복수의 상태 변수 및 핵심 유전자 정보 중 적어도 하나 이상과 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 질병 발생 예측 모델을 생성할 수 있다.
질병 발생 예측 모델 생성부(15)는 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 만성신장 질환의 질병 위험도 사이의 관계의 정보를 학습하는 기계학습 모델을 생성할 수 있다. 예시적으로, 기계학습 모델은 순환신경망(Recurrent Neural Network, RNN) 과 다층퍼셉트론신경망 (Multi-layer perceptron neural network, MLP)을 이용해 기계학습 모델을 생성할 수 있다.
본원의 일 실시예에 따르면, 질병 발생 예측 모델 생성부(15)는 만성신장 질환의 각 질병과 관련된 유전자를 다층 퍼셉트론 신경망을 연결해 순환신경망에 연결하여 입력할 수 있다. 또한, 질병 발생 예측 모델 생성부(15)는 반복 측정된 복수의 상태 변수를 통해 각 역학적 변수의 시간에 따른 상관관계뿐만 아니라 변수간의 상관관계까지 분석이 가능하도록 이를 순환 신경망에 순차적으로 입력하여 분석할 수 있다.
또한, 질병 발생 예측 모델 생성부(15)는 대상자의 대상자 상태 변수 및 대상자 유전자의 정보를 반복측정하고 반복 측정된 정보를 입력할 수 있다. 질병 발생 예측 모델 생성부(15)는 대상자의 대상자 상태 변수 및 대상자 유전자의 정보를 기반으로 생활습관 및 신체계측치, 임상치 등의 반복 측정된 값들에 대해 생활습관에 변화가 있는지를 확인할 수 있다. 질병 발생 예측 모델 생성부(15)는 반복 측정된 값들 중 유사한 양상을 보이는 집단끼리 구분 하여 각각에 대한 클러스터를 생성하고, 성별, 질병별로 비슷한 생활습관 변화 양상을 보이는 집단을 구분할 수 있다. 질병 발생 예측 모델 생성부(15)는 대상자의 대상자 유전자 정보를 기반으로, 만성신장 질환의 각 질병별로 생활습관의 변화와 관련된 유의한 유전자를 선별할 수 있다. 유의한 유전자는 만성신장 질환의 각 질병과 연계된 유전자일 수 있다.
예시적으로 도9를 참조하면, 질병 발생 예측 모델 생성부(15)는 반복 측정된 대상자의 대상자 유전 데이터를 인공신경망 중 순환신경망에 순차적으로 입력하고, 만성신장 질환의 각 질병별로 생활습관의 변화와 관련된 유의한 유전자는 다층퍼셉트론을 통해 순환신경망에 연결될 수 있다.
예시적으로 도 10을 참조하면, 질병 발생 예측 모델 생성부(15)는 생활상태 변수 및 건강상태 변수를 포함하는 복수의 상태 변수와 같은 시계열 데이터를 입력할 수 있는 인공 신경망 중 순환신경망을 적용하여 기계학습 모델을 생성할 수 있다. 질병 발생 예측 모델 생성부(15)는 단일 시점에서 수집한 유전 정보를 통합 입력하기 위해 기존 순환신경망 마지막 층에 다층 퍼셉트론 신경망을 추가적으로 연결할 수 있다. 질병 발생 예측 모델 생성부(15)는 마지막의 출력 층에 만성신장 질환 발생 유/무를 설정할 수 있다.
예시적으로, 인공 신경망은 입력층(input layer), 은닉층(hidden layer) 및 출력층(output layer)의 3가지의 층으로 구분될 수 있다. 각 층들은 노드들로 구성되어 있으며, 입력층은 시스템 외부로부터 입력자료를 받아들여 시스템으로 입력 자료를 전송할 수 있다. 은닉층은 시스템 안쪽에 자리잡고 있으며 입력 값을 넘겨받아 입력자료를 처리한 뒤 결과를 산출할 수 있다. 출력층은 입력 값과 현재 시스템 상태에 기준하여 시스템 출력 값을 산출할 수 있다. 입력층은 예측값(출력변수)을 도출하기 위한 예측변수(입력변수)의 값들을 입력할 수 있다. 입력층에 n개의 입력 값들이 있다면 입력층은 n개의 노드를 가지게 되며, 본원에서의 입력층에 입력되는 값은 생활상태 변수 및 건강상태를 포함하는 복수의 상태 변수와 유전자 정보일 수 있다. 은닉층은 복수의 입력 노드로부터 입력 값을 받아 가중합을 계산하고, 이 값을 전이함수에 적용하여 출력층에 전달할 수 있다. 예시적으로 기계학습 모델의 입력층은 복수의 상태 정보, 유전자 정보, 이전 시점의 은닉층이 될 수 있고, 은닉층은 복수의 상태 정보, 복수의 상태 정보를 그룹핑한 정보일 수 있고, 출력층은 질병 위험도를 나타내는 것일 수 있다.
본원의 일 실시예에 따르면 질병 발생 예측 모델은 복수의 상태 변수 중 제 1 상태 변수를 입력층으로 하고 복수의 상태 변수 중 제 2 상태 변수를 은닉층으로 할 때, 입력층과 은닉층 사이의 관계의 정보를 학습하는 제 1 학습을 수행할 수 있다. 또한, 기계학습 모델은 복수의 상태 변수의 이전 시점 상태 변수를 입력층으로 하고 복수의 상태 변수의 현재 시점 상태 변수를 은닉층으로 할 때, 입력층과 은닉층 사이의 관계의 정보를 학습하는 제 1 학습을 수행할 수 있다.
기계학습 모델은 수학식1을 기반으로, 입력층과 은닉층 사이의 관계의 정도를 학습할 수 있다. 관계의 정도는 입력층에 입력 받은 정보들의 가중합을 계산한 값을 의미할 수 있으나, 이에 한정되는 것은 아니다.
Figure 112020000727484-pat00014
이때,
Figure 112020000727484-pat00015
는 t 시점에서의 은닉층이고,
Figure 112020000727484-pat00016
은 t시점의 이전 시점 은닉층이고,
Figure 112020000727484-pat00017
는 제 1 상태 변수이고,
Figure 112020000727484-pat00018
는 입력층과 은닉층 사이의 제 1 유형의 관계의 정도를 나타내는 제 1 가중치이고,
Figure 112020000727484-pat00019
는 입력층과 은닉층 사이의 제 2 유형의 관계의 정도를 나타내는 제 2 가중치이다. 예시적으로, [수학식 1]에서
Figure 112020000727484-pat00020
는 t시점의 복수의 상태 변수 중 제 1 상태 변수이고,
Figure 112020000727484-pat00021
는 t시점의 은닉층을 나타내고
Figure 112020000727484-pat00022
는 복수의 상태 변수(입력 변수)와 은닉층간의 가중치이고,
Figure 112020000727484-pat00023
는 은닉층들간의 가중치일 수 있으나, 이에 한정되는 것은 아니다. 일예로, 제 1 유형의 관계의 정도는 시간에 따른 복수의 상태 변수들관의 상관관계(가중치)일 수 있고, 제 2 유형의 관계의 정도는 복수의 상태 변수간의 상관관계(가중치)일 수 있으나, 이에 한정되진 않는다.
질병 발생 예측 모델은 [수학식 1]에 표현된 순환신경망에 반복 측정된 복수의 상태 변수 (예를 들어, 개개인의 생활 습관 및 건강 상태 변수)를 입력하여 시간에 따른 상관관계뿐만 아니라 생활 습관 및 건강 상태 변수간의 상관관계까지 분석할 수 있다.
본원의 일 실시예에 따르면, 질병 발생 예측 모델은 은닉층 및 유전자 정보를 입력층으로 하고 질병 위험도를 출력층으로 할 때, 은닉층과 출력층 사이의 관계의 정보를 학습하는 제 2 학습을 수행할 수 있다. 또한, 기계학습 모델은 은닉층 및 유전자 정보를 입력층으로 하고 질병 위험도를 출력층으로 할 때, 은닉층과 출력층 사이의 관계의 정보를 학습하는 제 2 학습을 수행할 수 있다.
기계학습 모델은 [수학식 2]를 기반으로 은닉층과 출력층 사이의 관계의 정도를 학습할 수 있다. 제 2학습은 [수학식 1] 및 [수학식2]를 기반으로 은닉층과 출력층 사이의 관계의 정도를 학습할 수 있다. 기계학습 모델은 [수학식1] 및[수학식2]를 기반으로 입력층, 은닉층 및 출력층 사이의 관계의 정보를 학습하고 출력층의 결과로 질병 위험도의 예측 결과를 학습할 수 있다.
Figure 112020000727484-pat00024
이때, y는 출력층이고,
Figure 112020000727484-pat00025
는 은닉층과 출력층 사이의 관계의 정도를 나타내는 제 3 가중치이고,
Figure 112020000727484-pat00026
는 은닉층이고,
Figure 112020000727484-pat00027
는 입력층 중 유전자 정보와 출력층 사이의 관계의 정도를 나타내는 제4 가중치이고, z는 입력층 중 유전자 정보일 수 있다. 일예로, 제 3 가중치는 질병 위험을 예측하기 위해 복수의 상태 변수와 출력층 사이의 관계를 나타낸 관계의 정도이고, 제 4가중치는 특정 유전자에 가중치를 부여하기 위한 유전자 정보와 출력층 사이의 관계의 정도일 수 있다.
본원의 일 실시예에 따르면, 유전 정보는 단일 시점으로 수집되었으므로 순환신경망에 통합시키기 위해 [수학식 2]와 같이 순환신경망 마지막 층에 다층 퍼셉트론 신경망을 연결하여 입력할 수 있다. 예시적으로, 유전 정보는 단일염기 다형성 형태로 수집되었으며, 각 만성신장 질병 각각에 대해 기존에 알려진 유전정보를 대립유전자에 따른 위험 지수(Risk fator)로 변환하여 입력할 수 있다. 기계학습 모델은 제 2 학습을 통해, 은닉층과 출력층 사이의 관계의 정도, 즉 은닉층과 출력층 사이의 가중치를 학습할 수 있다.
본원의 일 실시예에 따르면, 질병 발생 예측 모델 생성부(15)는 [수학식 3]을 기반으로 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 질병 발생 예측 모델 생성 시 발생하는 오차에 가중치를 갱신할 수 있다.
Figure 112020000727484-pat00028
E는 질병 발생 예측 모델(기계학습 모델 생의 오차의 검출값이고, t는 만성신장 질환의 발생 여부이고, y는 기계학습 모델을 통해 예측된 질병 위험도이고,
Figure 112020000727484-pat00029
는 오차에 따른 과적합(overfitting)을 방지하기 위한 L2 정규식이다.
[수학식 3]은 질병 위험도 기계학습 모델 생성부(140)의 오차식이며 산출된 오차를 역전파 알고리즘을 통해 인공신경망의 가중치를 학습할 수 있다. 학습 과정 중 발생하는 노이즈(noise)에 따른 과적합을 방지하기 위해 L2 정화규 식을 추가하였으며, t는 각 실제 만성신장 질환에 대한 발생 유 또는 무를 나타내는 것일 수 있으나, 이에 한정되는 것은 아니다.
본원의 일 실시예에 따르면, 질병 발생 예측 모델 생성부(15)에서 적용된 콕스비례위험모델은 유전체지표와 인구학적, 사회적, 가족력 지표는 1회 측정되었고 고혈압과 당뇨병, 만성신장질환 상태는 기저 조사에서의 이환 상태만을 포함하였으므로 역시 1회 측정할 수 있다. 질병 발생 예측 모델 생성부(15)는 질병 발생 위험을 행태요인과 비만관련 지표, 혈액 이상 지표들은 역시 기반조사 당시 측정치를 기반으로 질병 발생 위험을 예측할 수 있다. 질병 발생 모델 생성부(15)는 질병 발생 위험을 예측하고자 콕스비례위험모형을 이용할 수 있다. 질병 발생 예측 모델 생성부(15)는 콕스 비례확률위험 모형을 이용한 분석을 통해, 각 변수 별 고혈압, 당뇨병, 만성신장질환 발생에 미치는 영향도 (beta) 값과 질병 발생 위험 (HR, hazard ratio)을 확인할 수 있다.
예시적으로 도 11을 참조하면, 상기 모형은 생물학적인 시간적 선후관계를 고려하기 위해 집단별 변수들을 단계별로 진입되도록한 모형이며, 도11과 같이 여러 경우의 모형들을 앙상블 기법으로 배깅과 부스팅을 통해 훈련시킴으로 일반화 가능한 최적모형을 생성할 수 있다. 도11은 여러 경우의 모형 선별과 앙상블 훈련 및 최적화모델 설정애 대한 간략한 다이어그램이다.
본원의 일 실시예에 다르면, 질환 예측부(16)는 질병발생 예측 모델에 신규 질환 예측 데이터를 입력으로 하여 대상자의 만성신장질환 발생을 예측할 수 있다.
질환 예측부(16)는 대상자의 유전자 정보, 복수의 통합 위험 요인 지표 혈액 마커 등을 질병 발생 예측 모델에 적용하여 대상자의 만성신장질환 발생을 예측할 수 있다. 예시적으로, 질환 예측부(16)는 질병 위험도 기계학습 모델에 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 대상자의 대상자 질병 위험도를 예측할 수 있다. 또한, 질환 예측부(16)는 는 질병 위험도 기계학습 모델 및 유전자 정보 통계확률 모델에 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 대상자의 대상자 질병 위험도를 예측할 수 있다.
본원의 일 실시예에 따르면 질환 예측부(16)는 기계학습 모델 및 통계확률 모델에 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 대상자의 대상자 질병 위험도를 예측할 수 있다. 또한, 질환 예측부(16)는 대상자의 질병 위험도 예측 결과를 기 설정된 분류 항목에 기반하여 시각화할 수 있다. 예를 들어, 질환 예측부(16)는 딥러닝 기반의 시각화 알고리즘을 구축하여 질병 발생 예측 모델 생성부(15)의 질병 발생 예측 모델을 기반으로 각 대상자별 시각화된 결과를 제공할 수 있다. 질환 예측부(16)는 부정적 요인의 변화양상을 바탕으로 개인의 질병 위험 경로의 변화를 예측하여 시각화하여 제공할 수 있다. 또한, 질환 예측부(16)는 긍정적 요인의 변화양상을 바탕으로 개인의 질병 위험 확률이 감소될 수 있는 안전 경로를 시각화하여 제공할 수 있다. 또한, 질환 예측부(16)는 부정적 요인 및 긍정적 요인의 변화 양상을 통합적으로 고려하여, 각 대상자별 생활 습관의 변화양상을 바탕으로 만성신장질환 및 최종 건강상태인 심혈관계 질환, 만성심장질환 및 사망에 대한 위험회피 경로 안내를 통해 개인 맞춤형 예방 관리 서비스 모형을 제공할 수 있다
또한, 질환 예측부(16)는 대상자의 만성신장질환 발생 예측 결과와 연계된 질병 예방 관리 정보를 제공할 수 있다. 질환 예측부(16)는 사용자 단말(미도시)로 대상자의 만성신장질환 발생 예측 결과와 연계된 질병 예방 관리 정보를 제공할 수 있다. 일예로, 질병 예방 관리 정보는, 고혈압, 당뇨병, 고혈압-당뇨병 동반 상태, 만성신장질환 대상자와 연계된 식단, 운동법 등과 관련된 정보를 포함할 수 있다.
본원의 일 실시예에 따르면, 만성신장질환 발생 예측 장치(10)는 기저인구집단에서의 각 질병 이환과 연관된 요인을 선정할 수 있다. 먼저, 만성신장질환 발생 예측 장치(10) 전체 변수 501개중에서 다음과 같은 기준으로 변수들을 제외할 수 있다. 이때, 개인식별자, 조사일과 같이 질병 (고혈압, 당뇨병, 만성신장질환) 예측과 관련 없는 변수들은 제외할 수 있다. 또한, 질병 진단 여부, 질병 과거력 등과 같이 질병의 최종상태 (고혈압, 당뇨병, 만성신장질환) 와 직접적으로 관련된 변수들은 제외할 수 있다. 또한, 결측치 비율이 전체 데이터의 20%를 넘어가는 변수들은 제외할 수 있다. 만성신장질환 발생 예측 장치(10)는 이와 같은 과정을 거쳐 고려 대상으로 총 120개의 변수를 도출할 수 있다.
또한, 만성신장질환 발생 예측 장치(10)는 전처리 단계를 거쳐 정의된 질병이환 상태를 반응 변수로 두고 120개 변수들에 대한 전체 다항 로지스틱 회귀모형을 작성하여 변수들을 선택할 수 있다. 만성신장질환 발생 예측 장치(10)는다항 로지스틱 회귀모형을 작성 후, 변수선택법 (전진Forward / 후진Backward / 단계별Stepwise Selection)을 실행하여 변수를 1차적으로 선정 후, 각각의 3가지의 변수 선정 방법 중 적어도 2개의 변수선택법 적용과정에서 나온 변수를 선정할 수 있다. 만성신장질환 발생 예측 장치(10)는 여기에 추가로, 임상적·역학적 유의성을 기반으로 고혈압/당뇨병/만성신장질환의 발생과 유의한 연관성을 가진 위험요인을 아래와 같은 방법을 통해 선정할 수 있다. 구체적으로 콕스비례위험모형에서 backward, forward, stepwise를 통한 각각의 3가지의 변수 선정 방법을 기반으로 분석을 수행 후, 적어도 2개의 변수선택법 적용결과에서 나온 변수를 선정할 수 있다. 기존 선행연구에서 구축된 심혈관계질환 및 대사질환 예측 모형에 사용된 변수들을 추가적 설명변수로 선정할 수 있다. 기존 선행연구에서 구축된 심혈관계 질환 예측 모형은 표5와 같다.
인구학적
및 가족력
생활습관 질병과거력 혈압 혈액검사
(지질)
기타 혈액검사
성별 흡연 당뇨병 SBP 총콜레스테롤 혈당
연령 체질량지수 CVD DBP HDL-콜레스테롤 C reative
protein
인종 신체활동 AF 고혈압 LDL-콜레스테롤 Albumin
심혈관계질환 가족력 식이 당불내성(Glucose
intolerance)
TG Creatinine
심리적 요인 협심증
사회경제학적요인 기타
음주
최종적으로 본 모형에 포함된 변수들은 우리나라에서 건강증진 질병예방정책 기반 개선해야 할 요인으로 흡연, 음주, 비만, 규칙적 운동이 포함되어 있어 흡연의 국민보건측면에서의 중요성을 고려하여 이러한 변수들을 고려하여 선정하였다. 만성신장질환 발생 예측 장치(10)는 위의 과정을 기반으로, 고혈압, 당뇨병, 만성신장질환 통합 발생 모델을 구축하기 위해서 성별, 연령, 교육수준, 소득수준, 심혈관계질환 과거력, 심혈관계질환 가족력 점수, 환경적 행태 관련 요인 (음주, 규칙적 운동 여부, 흡연 상태)과 비만 지표인 체질량지수, 허리둘레, 혈액검사 (총 콜레스테롤, HDL-콜레스테롤, TG), Albumin과 같은 간기능 혈액 마커, 기저상태의 질병 이환 상태, 질병의 유전체 마커 등을 포함해 최종적으로 19개의 변수를 선정할 수 있다. 본원의 일 실시예에 따르면, 통합 위험 요인 구축부(13)는 통합 위험요인 패널에 선정된 변수들의 고혈압과 당뇨병 발생에 대한 영향성을 평가할 수 있다. 예시적으로 통합 위험 요인 구축부(13)는 고혈압 발생에 대한 영향성을 평가할 수 있다. 표 6은 통합 위험요인 패널 변수의 고혈압 발생에 대한 영향성 평가이다.
각 요인에서의 beta 값이 0보다 클 경우, 해당 요인에 따른 질병 발생 위험은 증가하는 양상을, 반면에 0보다 작을 경우에는 고혈압 발생 위험이 감소하는 양상을 나타냄.
Variable beta Standard error HR (95% CI)1 P-value1
연령, 세
<50 ref
50-60 0.582 0.040 1.79 (1.65-1.94) <.0001
60-70 0.927 0.039 2.53 (2.34-2.73) <.0001
성별
남자 ref
여자 -0.119 0.032 0.89 (0.83-0.95) 0.001
교육수준
초등학교이하 ref
고등학교 -0.501 0.035 0.61 (0.57-0.65) <.0001
대학교 이상 -0.634 0.055 0.53 (0.48-0.59) <.0001
Income, 만원/월
<100만원/월 ref
100-200만원/월 -0.418 0.040 0.66 (0.61-0.71) <.0001
200-400만원/월 -0.609 0.042 0.54 (0.50-0.59) <.0001
400만원/월 이상 -0.588 0.067 0.56 (0.49-0.63) <.0001
BMI, kg/m2
<23 ref
23-27.5 0.382 0.040 1.47 (1.36-1.59) <.0001
27.5+ 0.778 0.048 2.18 (1.98-2.39) <.0001
허리둘레, cm
남자 <90cm, 여자 <85cm ref
남자 90+, 여자85+ 0.645 0.033 1.91 (1.79-2.04) <.0001
흡연여부
Never ref
Past 0.148 0.044 1.16 (1.06-1.27) <.0001
Current 0.039 0.039 1.04 (0.96-1.12) 0.314
음주여부
Never ref
Past 0.056 0.068 1.06 (0.93-1.21) 0.411
Current 0.018 0.033 1.02 (0.95-1.09) 0.584
규칙적인 운동
No ref
Yes -0.031 0.032 0.97 (0.91-1.03) 0.331
고혈압 상태 (Blood pressure)1
정상 ref
전고혈압 1.629 0.044 5.10 (4.68-5.56) <.0001
고혈압 2.741 0.057 15.50 (13.86-17.333) <.0001
당뇨병 상태 (Fasting Glucose and HBA1C)2
정상 ref
전당뇨 0.415 0.070 1.51 (1.32-1.74) <.0001
당뇨병 0.528 0.047 1.70 (1.55-1.86) <.0001
만성신장질환 (creatinine)3
정상 ref
CKD 0.694 0.087 2.00 (1.69-2.38) <.0001
Total cholesterol, mg/dL
<200 ref
200-240 0.115 0.036 1.12 (1.05-1.20) 0.002
240+ 0.324 0.053 1.38 (1.25-1.54) <.0001
HDL-C, mg/dL
남자 40+, 여자 50+ ref
남자<40여자<50 0.151 0.033 1.16 (1.09-1.24) <.0001
TG, mg/dL
< 150 ref
150+ 0.486 0.033 1.63 (1.53-1.73) <.0001
ALBUMIN, g/dL
3.4-5.4 ref
<3.4 0.839 0.353 2.32 (1.16-4.63) 0.018
심혈관질환 과거력 점수4
0 ref
1+ 0.650 0.098 1.92 (1.58-2.32) <.0001
심혈관질환 가족력 점수5
0 ref
1+ 0.060 0.044 1.06 (0.97-1.16) 0.171
고혈압 유전체 점수
Continuous scale
Categorical scale
Quantile1 ref
Q2 0.070 0.054 1.07 (0.96-1.19) 0.201
Q3 0.095 0.054 1.10 (0.99-1.22) 0.078
Q4 0.223 0.052 1.25 (1.13-1.39) <.0001
Q5 0.299 0.051 1.35 (1.22-1.49) <.0001
고혈압 상태는 SBP가 120mmHg이하이면서 DBP가 80mmHg 이하를 정상으로, SBP가 130mmHg이상이거나 또는 DBP 80mmHg이상인 경우 혹은 SBP 140mmHg미만이면서 DBP가 90mmHg미만인 경우를 전고혈압단계로, SBP가 140mmHg이상이거나 DBP가 90mmHg이상인 경우를 고혈압으로 정의할 수 있다. 당뇨병 상태는 공복 혈당이 100mg/dL미만이자 HBA1C가 6.5% 미만인 경우를 정상으로, 100≤공복혈당<126mg/dL 이면서 HBA1C가 6.5% 미만인 경우 당뇨병전단계로, 공복혈당이 126mmHg이상이거나 HBA1C 6.5이상인 경우를 당뇨병으로 정의할 수 있다.
만성신장질환 상태는 혈청 크레아틴 농도를 바탕으로 한 추정사구체여과율 (Estimated glomerular filtration rate: eGRFR)값이 60미만을 만성신잘질환으로 정의할 수 있다.
심혈관계질환 과거력 점수는 울혈성 심부전증 진단 여부, 관상동맥 질환 진단 여부, 뇌졸중, 중풍 등의 뇌혈관 질환 진단 여부 3가지의 질병력에 대해 각각 질병력이 있는 경우 1로, 없는 경우를 0으로 두고, 질병력이 모두 없는 경우를 0으로, 한가지 이상 있는 경우를 1점으로 분류하여 산출할 수 있다.
심혈관계질환 가족력 점수는 고혈압 가족력 여부, 당뇨병 가족력 여부, 심장질환 가족역 여부 3가지의 가족력에 대해 각각 가족력이 있는 경우 1로, 없는 경우를 0으로 두고, 질병 가족력이 모두 없는 경우를 0으로, 한가지 이상 있는 경우를 1점으로 분류하여 산출할 수 있다.
50세 미만 대상자에 비해 연령이 증가할수록, 그리고 여성에 비해 남성에서의 고혈압 발생의 위험이 높은 것을 확인할 수 있다. 교육수준에서는 ‘초등학교 미만’을 기준으로, 교육기간이 길수록 고혈압의 비율이 낮아지는 양상이 관찰되었다. 또한 대체로 소득수준이 높을수록 발생위험이 감소하는 양상을 보이는 것을 확인할 수 있다. 이는 사회경제학적 수준에 따라 건강 상태에 주의를 기울이는 정도, 종사하는 업무의 종류, 건강유지에 대해 필요한 지식의 차이 등에서 온 효과일 것으로 예측할 수 있다. 비만 관련 지표인 체질량 지수와 복부비만의 지표인 허리둘레는 증가할수록 고혈압 발생 위험이 높아지는 것을 확인할 수 있다. 음주여부와 규칙적 운동 상태에 대해서는 고혈압의 발생 위험이 유의하지 않음을 확인할 수 있다. 단, 흡연의 경우 과거 흡연자에서 고혈압 발생 위험이 유의하게 증가하는 것을 확인할 수 있다. 혈액 이상 상태를 나타내는 혈액 마커의 경우, 지질이상지표인 TG, HDL-콜레스테롤, 총 콜레스테롤과 간이상지표인 Albumin는 임상 참고치를 바탕으로 범주를 구분하였고, 정상범주를 벗어나는 수치를 가질 경우 고혈압의 발생이 통계적으로 유의하게 증가하는 형태를 나타나는 것을 확인할 수 있다. 현재 질병 이환 상태를 나타내는 심혈관계 질병력 점수와 고혈압, 당뇨병, 만성신장질환의 이환 상태일수록 고혈압 위험이 증가하는 양상을 보이는 것을 확인할 수 있다. 심혈관계질환 과거력이 있는 경우, 고혈압 위험이 증가하나 유의하지는 않음을 확인할 수 있다. 고혈압과 관련된 유전체로 이뤄진 유전체 점수가 높을수록 고혈압 위험이 증가하는 것을 확인할 수 있다.
본원의 일 실시예에 따르면, 통합 위험 요인 구축부(13)는 통합 위험요인 패널에 선정된 변수들의 고혈압과 당뇨병 발생에 대한 영향성을 평가할 수 있다. 예시적으로 통합 위험 요인 구축부(13)는 당뇨병 발생에 대한 영향성을 평가할 수 있다. 표 7은 통합 위험요인 패널 변수의 당뇨병 발생에 대한 영향성 평가이다.
각 요인에서의 beta 값이 0보다 클 경우, 해당 요인에 따른 질병 발생 위험은 증가하는 양상을, 반면에 0보다 작을 경우에는 당뇨병 발생 위험이 감소하는 양상을 나타냄.
Variable beta Standard error HR (95% CI)1 P-value1
연령, 세
<50 ref
50-60 0.539 0.065 1.71 (1.51-1.95) <.0001
60-70 0.639 0.065 1.89 (1.67-2.15) <.0001
성별
남자 ref
여자 -0.160 0.054 0.85 (0.77-0.95) 0.003
교육수준
초등학교이하 ref
고등학교 -0.341 0.058 0.71 (0.64-0.80) <.0001
대학교 이상 -0.323 0.087 0.72 (0.61-0.86) <.0001
Income, 만원/월
<100만원/월 ref
100-200만원/월 -0.235 0.066 0.79 (0.69-0.90) <.0001
200-400만원/월 -0.353 0.068 0.70 (0.62-0.80) <.0001
400만원/월 이상 -0.246 0.105 0.78 (0.64-0.96) 0.019
BMI, kg/m2
<23 ref
23-27.5 0.505 0.072 1.66 (1.44-1.91) <.0001
27.5+ 1.151 0.079 3.16 (2.71-3.69) <.0001
허리둘레, cm
남자 <90cm, 여자 <85cm ref
남자 90+, 여자85+ 0.880 0.054 2.41 (2.17-2.68) <.0001
흡연여부
Never ref
Past 0.140 0.075 1.15 (0.99-1.33) 0.061
Current 0.244 0.062 1.28 (1.13-1.44) <.0001
음주여부
Never ref
Past 0.317 0.102 1.37 (1.13-1.68) 0.002
Current -0.023 0.056 0.98 (0.88-1.09) 0.675
규칙적인 운동
No ref
Yes -0.077 0.053 0.93 (0.83-1.03) 0.148
고혈압 상태 (Blood pressure)1
정상 ref
전고혈압 0.600 0.060 1.82 (1.62-2.05) <.0001
고혈압 0.883 0.078 2.42 (2.08-2.82) <.0001
당뇨병 상태 (Fasting Glucose and HBA1C)2
정상 ref
전당뇨 1.927 0.093 6.87 (5.73-8.24) <.0001
만성신장질환 (creatinine)3
정상 ref
CKD 0.203 0.157 1.23 (0.90-1.66) 0.195
Total cholesterol, mg/dL
<200 ref
200-240 0.328 0.057 1.39 (1.24-1.55) <.0001
240+ 0.694 0.077 2.00 (1.72-2.33) <.0001
HDL-C, mg/dL
남자 40+, 여자 50+ ref
남자<40여자<50 0.363 0.053 1.44 (1.30-1.60) <.0001
TG, mg/dL
< 150 ref
150+ 0.994 0.054 2.70 (2.43-3.00) <.0001
ALBUMIN, g/dL
3.4-5.4 ref
<3.4 1.473 0.448 4.36 (1.81-10.50) 0.001
심혈관질환 과거력 점수4
0 ref
1+ 0.415 0.162 1.51 (1.10-2.08) 0.011
심혈관질환 가족력 점수5
0 ref
1+ -0.022 0.072 0.98 (0.85-1.23) 0.755
당뇨병 유전체 점수
Continuous scale
Categorical scale
Quantile1 ref
Q2 0.095 0.088 1.10 (0.93-1.31) 0.283
Q3 0.137 0.087 1.15 (0.97-1.36) 0.116
Q4 0.315 0.084 1.37 (1.16-1.62) <.0001
Q5 0.491 0.082 1.63 (1.39-1.92) <.0001
본원의 일 실시예에 따르면, 비만 관련 지표인 체질량 지수와 복부비만의 지표인 허리둘레는 증가할수록 당뇨병 발생 위험이 높아지는 것을 확인할 수 있다. 또한, 현재 흡연자이거나, 과거에 음주를 한 경우 당뇨병의 위험이 유의하게 증가하는 것을 확인할 수 있다. 그러나 규칙적 운동의 상태의 경우 당뇨병의 발생 위험이 유의하지 않음을 확인할 수 있다. 혈액 이상 상태를 나타내는 혈액 마커의 경우, 지질이상지표인 TG, HDL-콜레스테롤, 총 콜레스테롤과 간이상지표인 Alubmin는 임상 참고치를 바탕으로 범주를 구분하였고, 정상범주에 벗어나는 높은 수치를 가질 경우 당뇨병의 발생이 통계적으로 유의하게 증가하는 형태를 보이는 것을 확인할 수 있다. 또한, 현재 질병 이환 상태를 나타내는 고혈압, 전당뇨병, 만성신장질환의 이환상태일수록 당뇨병 위험이 증가하는 양상을 보이는 것을 확인할 수 있다. 또한 심혈관계질환 과거력이 있는 경우, 당뇨병 발생위험이 유의하게 증가하는 것을 확인함. 다만 심혈관계 질환 가족력의 경우 당뇨병의 발생 위험이 유의하지 않았음을 확인할 수 있다. 당뇨병과 관련된 유전체로 이뤄진 유전체 점수가 높을수록 당뇨병 위험이 증가하는 것을 확인할 수 있다.본원의 일 실시예에 따르면, 통합 위험 요인 구축부(13)는 통합 위험요인 패널에 선정된 변수들의 만성신장질환에 대한 영향성을 평가할 수 있다. 예시적으로 통합 위험 요인 구축부(13)는 만성신장질환 발생에 대한 영향성을 평가할 수 있다. 표 8은 통합 위험요인 패널 변수의 만성신장질환 발생에 대한 영향성 평가이다.
각 요인에서의 beta 값이 0보다 클 경우, 해당 요인에 따른 질병 발생 위험은 증가하는 양상을, 반면에 0보다 작을 경우에는 만성신장질환 발생 위험이 감소하는 양상을 나타냄.
Variable beta Standard error HR (95% CI)1 P-value1
연령, 세
<50 ref
50-60 0.692 0.072 2.00 (1.74-2.30) <.0001
60-70 1.545 0.064 4.69 (4.14-5.31) <.0001
성별
남자 ref
여자 0.494 0.054 1.64 (1.47-1.82) <.0001
교육수준
초등학교이하 ref
고등학교 -0.637 0.055 0.53 (0.48-0.59) <.0001
대학교 이상 -0.694 0.089 0.50 (0.42-0.59) <.0001
Income, 만원/월
<100만원/월 ref
100-200만원/월 -0.519 0.064 0.60 (0.53-0.68) <.0001
200-400만원/월 -0.580 0.066 0.56 (0.49-0.64) <.0001
400만원/월 이상 -0.753 0.116 0.47 (0.38-0.59) <.0001
BMI, kg/m2
<23 ref
23-27.5 0.171 0.062 1.19 (1.05-1.34) 0.006
27.5+ 0.489 0.076 1.63 (1.41-1.89) <.0001
허리둘레, cm
남자 <90cm, 여자 <85cm ref
남자 90+, 여자85+ 0.587 0.052 1.80 (1.62-1.99) <.0001
흡연여부
Never ref
Past -0.286 0.077 0.75 (0.65-0.87) <.0001
Current -0.416 0.068 0.66 (0.58-0.75) <.0001
음주여부
Never ref
Past -0.124 0.105 0.88 (0.72-1.09) 0.239
Current -0.522 0.055 0.59 (0.53-0.66) <.0001
규칙적인 운동
No ref
Yes -0.094 0.052 0.91 (0.82-1.01) 0.068
고혈압 상태 (Blood pressure)1
정상 ref
전고혈압 0.424 0.059 1.53 (1.36-1.71) <.0001
고혈압 0.800 0.077 2.23 (1.92-2.59) <.0001
당뇨병 상태 (Fasting Glucose and HBA1C)2
정상 ref
전당뇨 -0.060 0.136 0.94 (0.72-1.23) 0.660
당뇨병 0.807 0.067 2.24 (1.97-2.56) <.0001
Total cholesterol, mg/dL
<200 ref
200-240 0.314 0.056 1.37 (1.23-1.53) <.0001
240+ 0.478 0.083 1.61 (1.37-1.90) <.0001
HDL-C, mg/dL
남자 40+, 여자 50+ ref
남자<40여자<50 0.430 0.054 1.54 (1.38-1.71) <.0001
TG, mg/dL
< 150 ref
150+ 0.447 0.052 1.56 (1.41-1.73) <.0001
ALBUMIN, g/dL
3.4-5.4 ref
<3.4 2.457 0.501 11.67 (4.37-31.16) <.0001
심혈관질환 과거력 점수4
0 ref
1+ 0.747 0.150 2.11 (1.57-2.83) <.0001
심혈관질환 가족력 점수5
0 ref
1+ 0.055 0.070 1.06 (0.92-1.21) 0.439
고혈압 유전체 점수
Continuous scale
Categorical scale
Quantile1 ref
Q2 -0.015 0.086 0.99 (0.83-1.17) 0.865
Q3 0.102 0.084 1.11 (0.94-1.31) 0.223
Q4 0.118 0.082 1.13 (0.96-1.32) 0.154
Q5 0.107 0.082 1.12 (0.95-1.31) 0.192
당뇨병 유전체 점수
Continuous scale
Categorical scale
Quantile1 ref
Q2 -0.074 0.081 0.93 (0.79-1.09) 0.359
Q3 -0.011 0.079 0.99 (0.85-1.16) 0.890
Q4 -0.141 0.082 0.87 (0.74-1.02) 0.086
Q5 -0.082 0.081 0.92 (0.79-1.08) 0.316
비만 관련 지표인 체질량 지수와 복부비만의 지표인 허리둘레는 증가할수록 만성신장질환 발생 위험이 높아지는 것을 확인할 수 있다. 또한, 규칙적운동의 경우, 만성신장질환 발생에 유의하진 않음을 확인할 수 있다. 또한, 혈액 이상 상태를 나타내는 혈액 마커의 경우, 지질이상지표인 TG, HDL-콜레스테롤, 총 콜레스테롤과 임상 참고치를 바탕으로 범주를 구분하였고, 정상범주에 비해 높은 수치를 가질 경우 당뇨병의 발생이 통계적으로 유의하게 증가하는 형태를 보인다. 현재 질병 이환 상태를 나타내는 고혈압, 당뇨병 이환상태일수록 만성신장질환 위험이 증가하는 양상을 보이는 것을 확인할 수 있다. 심혈관계 질환 가족력이 있을수록 만성신장질환의 발생 위험이 증가하는 것을 확인할 수 있다. 본원의 일 실시예에 따르면, 질병 발생 예측 모델 생성부(15)는 통계적 방법, 복수의 기계학습법을 이용하여 질병 발생 예측 모델을 구축하였을 때의 모델의 예측력을 비교할 수 있다. 질병 발생 예측 모델 생성부(15)는 다양한 인공지능 학습법을 적용한 질병 발생 예측 모델을 비교한 결과, 고혈압, 당뇨병과 그들의 동반질병인 만성신장질환 발생 위험 예측도가 가장 높은 방법이 적용된 예측 모델을 최종적으로 질병 발생 예측 모델로 선정할 수 있다.
예시적으로, 통계적 방법 (콕스모형), 3가지 기계학습법 (인공신경망, 딥러닝 기반 recurrent neural network (RNN), 랜덤 포레스트)으로 각각의 질병 예측 모형을 구축하였을 때의 모형의 예측력을 ROC-curve를 그려 비교하였고, 이에 산출된 AUC값은 표9 내지 표11과 같다.
표9는 고혈압 발생 위험도를 예측한 결과이다.
고혈압 안산안성 도시기반 농촌기반 도시+농촌 통합
통계기법 0.855 0.605 0.654 0.616
기계학습법 서프트벡터머신(SVM) 0.982 0.547 0.73 0.562
RNN 0.853 0.534 0.552 0.508
랜덤 포레스트 0.988 0.683 0.623 0.664
표 10은 당뇨병 발생 위험도를 예측한 결과이다.
당뇨병 안산안성 도시기반 농촌기반 도시+농촌 통합
통계기법 0.881 0.791 0.804 0.816
기계학습법 서프트벡터머신(SVM) 0.993 0.692 0.704 0.711
RNN 0.853 0.624 0.640 0.605
랜덤 포레스트 0.998 0.880 0.812 0.869
표11은 만성신장질환 발생 위험도를 예측한 결과이다.
만성신장질환 안산안성 도시기반 농촌기반 도시+농촌 통합
통계기법 0.748 0.742 0.860 0.804
기계학습법 서프트벡터머신(SVM) 0.996 0.512 0.668 0.589
RNN 0.735 0.641 0.666 0.594
랜덤 포레스트 0.998 0.803 0.851 0.824
도13은 본원의 일 실시예에 따른 통계적, 기계학습 모형에 따른 고혈압 발생위험 예측도 비교를 나타낸 도면이고, 도14는 본원의 일 실시예에 따른 통계적, 기계학습 모형에 따른 당뇨병 발생위험 예측도 비교를 나타낸 도면이고, 도15는 본원의 일 실시예에 따른 통계적, 기계학습 모형에 따른 만성신장질환 발생위험 예측도 비교를 나타낸 도면이다.질병 발생 예측 모델 생성부(15)는 여러 가지 모형을 비교한 결과, 고혈압, 당뇨병과 그들의 동반질병인 만성신장질환 발생 위험 예측도가 가장 높은 랜덤포레스트 방법을 최종 모형으로 선정할 수 있다.
본원의 일 실시예에 따르면, 만성신장질환 발생 예측 장치(10)는 한국인 호발질병인 고혈압과 당뇨병에 대한 유전체 마커가 포함되어 있어 이들 질병과 이들의 동반이환 및 이들 질병이 원인이 되어 발생하는 만성신장질환 발생 위험 예측에 있어 기존 모형과 달리 정밀예측이 가능하다. 특히 이 유전체 마커는 기존 연구와 달리 1K genome 3.0 최신버전 기반으로 확장된 유전 정보를 이용하여 선별된 마커이다.
또한, 만성신장질환 발생 예측 장치(10)는 현재 일반인에서의 질병 상태 (정상, 전질병 혹은 질병이환 상태)가 모형에 포함되어 있기 때문에 일반인구집단에서 질병 발생 위험이 더 높을 수 있는 이환 및 비이상 상태를 고려하였기 때문에 기존 환자들이나 비이상 상태의 환자들에게도 질병 예방관리 방안을 제안하고 이를 적용할 수 있다.
또한, 기존 타 모형에서는 일개 질병의 발생이나 이환을 표적으로 하여 질병 예측 모델(모형)을 구축한 반면, 만성신장질환 발생 예측 장치(10)에서 구축된 질병 발생 예측 모델(모형)은 질병의 생물학적 병리학적 기전과 질병의 자연사를 고려하여 4개의 질병 상태를 동시에 파악할 수 있는 통합 모형을 구축하였다는 점에 있어서 타 모형과 달리 특이성이 있다.
또한, 만성신장질환 발생 예측 장치(10)에서 구축된 질병 발생 예측 모델은 기존 모형과 달리 여러 모형을 이용하여 훈련을 통해 가장 좋은 예측력을 가진 모형을 최종 선정하였으며, 현재 최종 모형에서는 (질병에 따라 다르지만) 예측력이 적어도 80% 이상 (-최고 91%)에 달하고 있어 매우 높은 예측력을 지닌다.
최종 선정된 모형의 변수들을 배정할 때 요인 노출의 시기와 이후 변화될 수 있는 상태의 시간적 연속성과 질병의 자연사 및 질병의 연속성을 모두 고려하여 생물학적 알고리즘 하에서 순차적으로 모형을 형성하였기 때문에 실제 인간 사회에서 일어날 수 있는 시간적으로 생물학적 변화 상태에 대한 예측이 가능한 모형으로 볼 수 있다.
본원의 다른 일 실시예에 따르면, 만성신장질환 발생 예측 장치(10)는 만성신장 질환의 질환자의 유전자 정보 및 만성신장 질환의 질병 위험도를 입력으로 하여, 유전자 정보와 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 유전자 정보 기계학습 모델을 생성할 수 있다. 또한, 만성신장질환 발생 예측 장치(10)는 유전자 정보 기계학습 모델을 이용하여 유전자 정보로부터 핵심 유전자 정보를 선택할 수 있다. 또한, 만성신장 질환의 질환자의 생활상태 변수 및 건강상태 변수를 포함하는 복수의 상태 변수, 핵심 유전자 정보 및 만성신장 질환의 질병 위험도를 입력으로 하여, 복수의 상태 변수 및 핵심 유전자 정보 중 적어도 하나 이상과 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 질병 위험도 기계학습 모델을 생성할 수 있다. 또한, 만성신장질환 발생 예측 장치(10)는 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 입력 받을 수 있다. 또한, 만성신장질환 발생 예측 장치(10)는 질병 위험도 기계학습 모델에 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 대상자의 대상자 질병 위험도를 예측할 수 있다.
또한, 만성신장질환 발생 예측 장치(10)는 만성신장 질환의 질환자의 유전자 정보 및 만성신장 질환의 질병 위험도를 입력으로 하여, 유전자 정보 각각의 존재 유무 또는 값에 따라 만성신장 질환의 질병 위험도를 확률적으로 나타내는 유전자 정보 통계확률 모델을 생성할 수 있다. 만성신장질환 발생 예측 장치(10)는 유전자 정보 통계확률 모델 및 유전자 정보 기계학습 모델을 이용하여 유전자 정보로부터 핵심 유전자 정보를 선택할 수 있다.
또한, 만성신장질환 발생 예측 장치(10)는 만성신장 질환의 질환자의 복수의 상태 변수, 유전자 정보 및 만성신장 질환의 질병 위험도를 입력으로 하여, 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상의 존재 유무 또는 값에 따라 만성신장 질환의 질병 위험도를 확률적으로 나타내는 통계확률 모델을 생성할 수 있다. 또한, 질병 위험도 기계학습 모델 및 유전자 정보 통계확률 모델에 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 대상자의 대상자 질병 위험도를 예측할 수 있다.
또한, 만성신장질환 발생 예측 장치(10)는 만성신장 질환의 질환자의 복수의 상태 변수, 유전자 정보 및 만성신장 질환의 질병 위험도를 입력으로 하고, 복수의 상태 변수 중 상기 만성신장 질환과 연관된 적어도 하나 이상의 상태 변수를 선택하고, 적어도 하나 이상의 상태 변수의 존재 여부 또는 값에 대한 만성신장 질환의 질병 위험도를 확률적으로 나타내는 기본 통계확률 모델을 생성할 수 있다. 또한, 만성신장 질환과 연관된 유전자 정보의 존재 여부에 따라 만성신장 질환의 질병 위험도에 가중치를 적용함으로써, 기본 통계확률 모델로부터 통계확률 모델을 생성할 수 있다.
또한, 만성신장질환 발생 예측 장치(10)의 유전자 정보 기계학습 모델은 복수의 상태 변수 중 제 1 상태 변수를 입력층으로 하고 복수의 상태 변수 중 제 2 상태 변수를 은닉층으로 할 때, 입력층과 은닉층 사이의 관계의 정도를 학습하는 제 1 학습을 하고, 은닉층 및 유전자 정보를 입력층으로 하고 질병 위험도를 출력층으로 할 때, 은닉층과 출력층 사이의 관계의 정도를 학습하는 제 2 학습을 함으로써, 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습할 수 있다.
또한, 만성신장질환 발생 예측 장치(10)의 유전자 정보 기계학습 모델은 상기 복수의 상태 변수의 이전 시점 상태 변수를 입력층으로 하고 상기 복수의 상태 변수의 현재 시점 상태 변수를 은닉층으로 할 때, 상기 입력층과 은닉층 사이의 관계의 정도를 학습하는 제 1 학습을 하고, 상기 은닉층 및 상기 유전자 정보를 입력층으로 하고 상기 질병 위험도를 출력층으로 할 때, 상기 은닉층과 출력층 사이의 관계의 정도를 학습하는 제 2 학습을 함으로써, 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 상기 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습할 수 있다.
이하에서는 상기에 자세히 설명된 내용을 기반으로, 본원의 동작 흐름을 간단히 살펴보기로 한다.
도 16은 본원의 일 실시예에 따른 만성신장질환 발생 예측 방법에 대한 동작 흐름도이다.
도16에 도시된 만성신장질환 발생 예측 방법은 앞서 설명된 만성신장질환 발생 예측 장치(10)에 의하여 수행될 수 있다. 따라서, 이하 생략된 내용이라고 하더라도 만성신장질환 발생 예측 장치(10)에 대하여 설명된 내용은 만성신장질환 발생 예측 방법에 대한 설명에도 동일하게 적용될 수 있다.
단계 S161에서, 만성신장질환 발생 예측 장치(10)는 복수의 질환과 관련된 유전체 마커를 선별할 수 있다.
단계 S162에서, 만성신장질환 발생 예측 장치(10)는 선별된 복수의 질환과 관련된 유전체 마커를 이용하여 통합 유전체 지표를 산출할 수 있다.
단계 S163에서, 만성신장질환 발생 예측 장치(10)는 복수의 질환과 관련된 요인들을 도출하여 통합 위험 요인 모델을 구축할 수 있다.
단계 S164에서, 만성신장질환 발생 예측 장치(10)는 통합 유전체 지표 및 통합 위험 요인 모델을 입력으로 하여, 질병 발생 예측 모델을 구축할 수 있다.
단계 S165에서, 만성신장질환 발생 예측 장치(10)는 질병 발생 예측 모델에 신규 질환 예측 데이터를 입력으로 하여 대상자의 만성신장질환 발생을 예측할 수 있다.
상술한 설명에서, 단계 S161 내지 S165은 본원의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
본원의 일 실시 예에 따른 만성신장질환 발생 예측 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
또한, 전술한 만성신장질환 발생 예측 방법은 기록 매체에 저장되는 컴퓨터에 의해 실행되는 컴퓨터 프로그램 또는 애플리케이션의 형태로도 구현될 수 있다.
전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.
10: 만성신장질환 발생 예측 장치
11: 유전체 마커 선별부
12: 통합 유전체 지표 산출부
13: 통합 위험 요인 구축부
14: 설명변수 도출부
15: 질병 발생 예측 모델 생성부
16: 질환 예측부
20: 질병 예측 서버

Claims (11)

  1. 만성신장질환 발생 예측 장치에 있어서,
    복수의 질환과 관련된 유전체 마커를 선별하는 유전체 마커 선별부;
    상기 유전체 마커 선별부에서 선별된 복수의 질환과 관련된 유전체 마커를 이용하여 통합 유전체 지표를 산출하는 통합 유전체 지표 산출부;
    상기 복수의 질환과 관련된 요인들을 도출하여 통합 위험 요인 모델을 구축하는 통합 위험 요인 구축부;
    상기 통합 유전체 지표 및 상기 통합 위험 요인 모델을 입력으로 하여, 질병 발생 예측 모델을 구축하는 질병 발생 예측 모델 생성부; 및
    상기 질병 발생 예측 모델에 신규 질환 예측 데이터를 입력으로 하여 대상자의 만성신장질환 발생을 예측하는 질환 예측부
    를 포함하는 만성신장질환 발생 예측 장치.
  2. 제1항에 있어서,
    상기 유전체 마커 선별부는,
    제1질환과 관련된 제1유전체 마커를 선별하고, 선별된 상기 제1유전체 마커를 도시 코호트 및 농촌 코호트 각각에서 검증하여 제1유전체 마커로 결정하고, 제2질환과 관련된 제2유전체 마커를 선별하고, 선별된 상기 제2유전체 마커를 도시 코호트 및 농촌 코호트 각각에서 검증하여 제2유전체 마커로 결정하는 것인, 만성신장질환 발생 예측 장치.
  3. 제2항에 있어서,
    상기 유전체 마커 선별부는,
    회귀분석 알고리즘을 기반으로 복수의 질환과 연관된 단일염기 다형성(SNP) 마커를 선정하고, 상기 단일염기 다형성(SNP) 마커, 상기 제1유전체 마커 및 상기 제2유전체 마커 중 적어도 어느 하나를 고려하여 핵심 유전자 정보를 도출하는 것인, 만성신장질환 발생 예측 장치.
  4. 제1항에 있어서,
    상기 통합 위험 요인 구축부는,
    기본 인구학적 요인, 사회학적 요인, 질병 및 가족력 요인, 환경적 행태 관련 요인, 비만 관련 지표 요인, 혈액적 이상인지 지표 요인, 기저상태의 질병 이환 상태요인 중 적어도 어느 하나를 고려하여 상기 복수의 질환과 관련된 요인들을 도출하고 통합 위험 요인 모델을 구축하는 것인, 만성신장질환 발생 예측 장치.
  5. 제1항에 있어서,
    복수의 질환 중 적어도 어느 하나의 질병을 보유하고 있는 대상자의 데이터를 설명변수로서 도출하는 설명변수 도출부를 더 포함하는 것인, 만성신장질환 발생 예측 장치.
  6. 제3항에 있어서,
    상기 질병 발생 예측 모델 생성부는,
    만성신장 질환의 질환자의 생활상태 변수 및 건강상태 변수를 포함하는 복수의 상태 변수, 상기 핵심 유전자 정보 및 만성신장 질환의 질병 위험도를 입력으로 하여, 상기 복수의 상태 변수 및 핵심 유전자 정보 중 적어도 하나 이상과 상기 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 질병 발생 예측 모델을 생성하는 것인, 만성신장질환 발생 예측 장치.
  7. 제6항에 있어서,
    상기 질병 발생 예측 모델은,
    상기 복수의 상태 변수 중 제 1 상태 변수 및 이전 시점 은닉층을 입력층으로 하고 상기 복수의 상태 변수 중 제 2 상태 변수 또는 현재 시점 상태 변수를 은닉층으로 할 때, 상기 입력층과 은닉층 사이의 관계의 정도를 학습하는 제 1 학습을 하고,
    상기 은닉층 및 상기 유전자 정보를 입력층으로 하고 상기 질병 위험도를 출력층으로 할 때, 상기 은닉층과 출력층 사이의 관계의 정도를 학습하는 제 2 학습을 함으로써, 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 상기 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 것이되,
    상기 제 1 학습은 [수학식 1]을 기반으로, 상기 입력층과 은닉층 사이의 관계의 정도를 학습하는 것이되,
    [수학식 1]
    Figure 112020000727484-pat00030

    이때, 상기
    Figure 112020000727484-pat00031
    는 t 시점에서의 은닉층이고, 상기
    Figure 112020000727484-pat00032
    는 입력층과 은닉층 사이의 제1유형의 관계의 정도를 나타내는 제1가중치이고, 상기
    Figure 112020000727484-pat00033
    은 이전 시점 은닉층이고,
    Figure 112020000727484-pat00034
    는 입력층과 은닉층 사이의 제2유형의 관계의 정도를 나타내는 제2가중치이고,
    Figure 112020000727484-pat00035
    는 t시점에서의 제1상태 변수인 것인, 만성신장질환 발생 예측 장치.
  8. 제7항에 있어서,
    상기 제2학습은 [수학식 1] 및 [수학식 2]를 기반으로 상기 은닉층과 출력층 사이의 관계의 정도를 학습하는 것이되,
    [수학식 2]
    Figure 112020000727484-pat00036

    이때, 상기 y는 출력층이고, 상기
    Figure 112020000727484-pat00037
    는 은닉층과 출력층 사이의 관계의 정도를 나타내는 제3가중치이고,
    Figure 112020000727484-pat00038
    는 t 시점에서의 은닉층이고, 상기
    Figure 112020000727484-pat00039
    는 입력층 중 유전자 정보와 출력층 사이의 관계의 정도를 나타내는 제4가중치이고, z는 입력층 중 유전자 정보인 것인, 만성신장질환 발생 예측 장치.
  9. 제8항에 있어서,
    상기 질병 발생 예측 모델 생성부는,
    [수학식 3]을 기반으로 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 상기 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 기계 학습 모델을 생성 시 발생하는 오차에 가중치를 갱신하는 것이되,
    [수학식 3]
    Figure 112020000727484-pat00040

    상기 E는 상기 질병 발생 예측 모델 생성부의 오차의 검출값이고, 상기 t는 상기 만성신장 질환의 발생 여부이고, 상기 y는 기계학습 모델을 통해 예측된 질병 위험도이고,
    Figure 112020000727484-pat00041
    는 오차에 따른 과적합(overfitting)을 방지하기 위한 L2 정규식인 것인, 만성신장질환 발생 예측 장치.
  10. 제1항에 있어서,
    상기 질환 예측부는,
    상기 대상자의 만성신장질환 발생 예측 결과와 연계된 질병 예방 관리 정보를 제공하는 것인, 만성신장질환 발생 예측 장치.
  11. 만성신장질환 발생 예측 방법에 있어서,
    복수의 질환과 관련된 유전체 마커를 선별하는 단계;
    선별된 복수의 질환과 관련된 유전체 마커를 이용하여 통합 유전체 지표를 산출하는 단계;
    상기 복수의 질환과 관련된 요인들을 도출하여 통합 위험 요인 모델을 구축하는 단계;
    상기 통합 유전체 지표 및 상기 통합 위험 요인 모델을 입력으로 하여, 질병 발생 예측 모델을 구축하는 단계; 및
    상기 질병 발생 예측 모델에 신규 질환 예측 데이터를 입력으로 하여 대상자의 만성신장질환 발생을 예측하는 단계;
    를 포함하는 만성신장질환 발생 예측 방법.
KR1020200000929A 2019-01-03 2020-01-03 만성신장 질환 발생 예측 장치 및 방법 KR102316403B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190000793 2019-01-03
KR20190000793 2019-01-03

Publications (2)

Publication Number Publication Date
KR20200084807A KR20200084807A (ko) 2020-07-13
KR102316403B1 true KR102316403B1 (ko) 2021-10-22

Family

ID=71570562

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200000929A KR102316403B1 (ko) 2019-01-03 2020-01-03 만성신장 질환 발생 예측 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102316403B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240131037A (ko) 2023-02-23 2024-08-30 인제대학교 산학협력단 신장질환 비교군을 이용한 건강관리장치 및 그 장치의 구동방법

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933288A (zh) * 2020-08-21 2020-11-13 上海交通大学医学院附属第九人民医院 基于cnn的先天性耳聋疾病预测方法、系统以及终端
KR102599132B1 (ko) * 2020-11-26 2023-11-09 가톨릭대학교 산학협력단 빅데이터 기반의 질환 발병 위험도 예측 시스템, 예측 방법, 및 프로그램
CN116779179B (zh) * 2023-08-22 2023-11-10 聊城市第二人民医院 一种基于支持向量机的肾细胞瘤背景信息分析系统
CN117133450B (zh) * 2023-10-27 2024-02-06 深圳市力牧生物科技有限公司 基于数据共享的宠物医疗智能诊断方法、系统及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102024375B1 (ko) * 2016-12-30 2019-09-23 서울대학교 산학협력단 만성신장 질환의 질병 위험도를 예측하는 장치 및 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240131037A (ko) 2023-02-23 2024-08-30 인제대학교 산학협력단 신장질환 비교군을 이용한 건강관리장치 및 그 장치의 구동방법

Also Published As

Publication number Publication date
KR20200084807A (ko) 2020-07-13

Similar Documents

Publication Publication Date Title
KR102316403B1 (ko) 만성신장 질환 발생 예측 장치 및 방법
KR102024375B1 (ko) 만성신장 질환의 질병 위험도를 예측하는 장치 및 방법
Quazi Artificial intelligence and machine learning in precision and genomic medicine
US9646265B2 (en) Model updating method, model updating device, and recording medium
Abbas et al. Predicting long-term type 2 diabetes with support vector machine using oral glucose tolerance test
US20170308981A1 (en) Patient condition identification and treatment
Elhoseny et al. A new multi-agent feature wrapper machine learning approach for heart disease diagnosis
Li et al. Integrated machine learning approaches for predicting ischemic stroke and thromboembolism in atrial fibrillation
Dixit Risk Assessment for Hospital Readmissions: Insights from Machine Learning Algorithms
Visco et al. Artificial intelligence in hypertension management: an ace up your sleeve
EP2628113A1 (en) Healthcare information technology system for predicting development of cardiovascular conditions
WO2006072011A2 (en) Methods, systems, and computer program products for developing and using predictive models for predicting a plurality of medical outcomes, for evaluating intervention strategies, and for simultaneously validating biomarker causality
JP2012064087A (ja) 生活習慣病の診断予測装置、生活習慣病の診断予測方法及びプログラム
EP4260340A1 (en) Predicting fractional flow reserve from electrocardiograms and patient records
WO2020210487A1 (en) Systems and methods for nutrigenomics and nutrigenetic analysis
Xie et al. AutoScore-Survival: Developing interpretable machine learning-based time-to-event scores with right-censored survival data
KR102467999B1 (ko) 위암의 다층 다요인 패널과 Computational biological network modeling을 통한 위암 발암에 대한 에티옴 모형
Thorsteinsdottir et al. Validation of prognostic indices for short term mortality in an incident dialysis population of older adults> 75
Islam et al. Predicting the risk of diabetic retinopathy using explainable machine learning algorithms
US20230046951A1 (en) System and method for assessing risk of type 2 mellitus diabetes complications
WO2020148757A1 (en) System and method for selecting required parameters for predicting or detecting a medical condition of a patient
Kumar et al. Predictive Modeling for Early Detection of Diabetes Using Machine Learning Approach
Preo et al. Significant EHR feature-driven t2d inference: predictive machine learning and networks
Shams et al. A predictive analytics approach to reducing avoidable hospital readmission
Ordoñez-Guillen et al. Machine learning based study for the classification of Type 2 diabetes mellitus subtypes

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant