KR102024373B1 - 대사이상 질환의 질병 위험도를 예측하는 장치 및 방법 - Google Patents

대사이상 질환의 질병 위험도를 예측하는 장치 및 방법 Download PDF

Info

Publication number
KR102024373B1
KR102024373B1 KR1020170183817A KR20170183817A KR102024373B1 KR 102024373 B1 KR102024373 B1 KR 102024373B1 KR 1020170183817 A KR1020170183817 A KR 1020170183817A KR 20170183817 A KR20170183817 A KR 20170183817A KR 102024373 B1 KR102024373 B1 KR 102024373B1
Authority
KR
South Korea
Prior art keywords
disease
disease risk
history
metabolic
state variables
Prior art date
Application number
KR1020170183817A
Other languages
English (en)
Other versions
KR20180079208A (ko
Inventor
박수경
김종효
태주호
안충현
안서경
최정빈
Original Assignee
서울대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교 산학협력단 filed Critical 서울대학교 산학협력단
Publication of KR20180079208A publication Critical patent/KR20180079208A/ko
Application granted granted Critical
Publication of KR102024373B1 publication Critical patent/KR102024373B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/22Social work or social welfare, e.g. community support activities or counselling services
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Child & Adolescent Psychology (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)

Abstract

본원은 대사이상 질환의 질병 위험도를 예측하는 장치에 관한것으로서, 대사이상 질환의 질병 위험도를 예측하는 장치는, 상기 대사이상 질환의 질환자의 생활상태 변수 및 건강상태 변수를 포함하는 복수의 상태 변수, 유전자 정보 및 대사이상 질환의 질병 위험도를 입력으로 하여, 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 상기 대사이상 질환의 질병 위험도 사이의 관계의 정도를 학습하는 기계학습 모델을 생성하는 기계학습 모델 생성부, 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 입력받는 정보 입력부 및 상기 기계학습 모델에 상기 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 상기 대상자의 대상자 질병 위험도를 예측하는 질병 위험도 예측부를 포함할 수 있다.

Description

대사이상 질환의 질병 위험도를 예측하는 장치 및 방법 { APPARATUS AND METHOD FOR PREDICTING DISEASE RISK OF METABOLIC DISEASE }
본원은 대사이상 (고혈압, 당뇨병, 비만, 대사성증후군) 질환의 질병 위험도를 예측하는 장치 및 방법에 관한 것이다.
건강위험예측 도구 구현 및 그에 따른 고위험군에 대한 중재가 활발히 이루어지고 있는 질환 중 대표적인 것은 유방암이고, 서양에서 구현된 유방암 발생위험도 평가모델에 따르면 크게 세 가지로 나눌 수 있다.
그 중 하나는 일반인구에서 기저위험도 (baseline risk)와 위험요인의 조합(joint risk)으로 절대 발생 가능성을 예측하는 모델이고, 다른 하나는 위험인자의 상대적인 위험 크기에 따라 발생 가능성을 예측하는 방법일 수 있으며, 세 번째는 유전성 유방암 발생 예측에 특화하여 사용되는 모델로 가족력을 기반으로 BRCA 유전자 돌연변이 보유 가능성 또는 BRCA 유전자 돌연변이 보유 가능성에 기반 하여 유방암 발생 가능성을 예측할 수 있다.
현재 국내에서는 대한가정의학회에서 한국형 건강위험예측도구를 개발하였으며 이를 적용하여 국민건강보험공단에서 건강검진을 받은 국민들을 대상으로 공단 홈페이지 <건강iN>에 개인별 맞춤형 건강관리 프로그램 서비스를 제공되고 있다.
하지만, 국민건강보험공단에서 제공하는 건강위험예측도구는 사망률에 대해 그 타당도가 입증된 바 있으나, 개별 사망 원인에 대한 분석이 부족하고, 이 도구의 목적이 교정 가능한 건강위험요인을 발견하여 실천하도록 하는 것이 주된 목적이므로 개인의 현재 건강 상태를 측정하기에는 부적절하다는 한계가 있다.
이에 따라, 개인의 생활습관 및 건강 상태를 기반으로 하여 향후의 질병 발생 확률을 예측하는 방법이 요구된다.
본원의 배경이 되는 기술은 한국공개특허공보 제10-2004-0012368(공개일: 2004.02.11)호에 개시되어 있다.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 개인의 생활 습관, 건강 상태 및 유전 정보를 이용하여 현재 대사 이상 질환과 관련된 질병의 상태인 비만, 당뇨병, 고혈압 등의 발생위험을 예측하는 알고리즘을 구축하고, 구축된 알고리즘을 기반으로 만성질환과 관련된 만성심장질환 위험 또는 사망과 같은 최종 건강상태를 예측할 수 있는 대사이상 질환의 질병 위험도를 예측하는 장치 및 방법을 제공하고자 한다.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 질병관리본부의 한국인 유전체 역학조사 사업의 일환인 안산-안성 코호트 의 유전체 자료원과 추적 자료원을 기반으로 인공신경망 기반 예측 모형과 통계적 확률모형을 기반으로 한 질병 위험 예측 모형을 구축하고, 구축된 모형을 이용해 현재 대사증후군과 관련된 질병의 유병위험을 예측하고 향후 고혈압, 당뇨병, 비만, 대사증후군과 같은 대사이상질환 발생 위험 확률을 예측해 일차예방을 위한 생활습관변화 안내 경로를 표시할 수 있는 대사이상 질환의 질병 위험도를 예측하는 장치 및 방법을 제공하고자 한다.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로, 인공신경망 기반의 질병 발생 예측 모형 및 통계학적 확률기반의 질병 발생 예측 모형을 구축하고, 각 질병 발생 위험에 대한 대상자의 확률값을 연산하고, 시각화 알고리즘을 통해 대상자 맞춤형 예방관리서비스 모형을 구축할 수 있는 대사이상 질환의 질병 위험도를 예측하는 장치 및 방법을 제공하고자 한다.
다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들도 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 일 실시예에 따르면, 대사이상 질환의 질병 위험도를 예측하는 장치는, 상기 대사이상 질환의 질환자의 생활상태 변수 및 건강상태 변수를 포함하는 복수의 상태 변수, 유전자 정보 및 대사이상 질환의 질병 위험도를 입력으로 하여, 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 상기 대사이상 질환의 질병 위험도 사이의 관계의 정도를 학습하는 기계학습 모델을 생성하는 기계학습 모델 생성부, 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 입력받는 정보 입력부 및 상기 기계학습 모델에 상기 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 상기 대상자의 대상자 질병 위험도를 예측하는 질병 위험도 예측부를 포함할 수 있다.
본원의 일 실시예에 따르면, 대사이상 질환 질병 위험도 예측 장치는, 상기 대사이상 질환의 질환자의 상기 복수의 상태 변수, 상기 유전자 정보 및 대사이상 질환의 질병 위험도를 입력으로 하여, 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상의 존재 유무 또는 값에 따라 상기 대사이상 질환의 질병 위험도를 확률적으로 나타내는 통계확률 모델을 생성하는 통계확률 모델 생성부를 더 포함하되, 상기 기계학습 모델 및 상기 통계확률 모델에 상기 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 상기 대상자의 대상자 질병 위험도를 예측하는 질병 위험도 예측부를 포함할 수 있다.
본원의 일 실시예에 따르면, 상기 통계확률 모델 생성부는, 상기 대사이상 질환의 질환자의 상기 복수의 상태 변수, 상기 유전자 정보 및 대사이상 질환의 질병 위험도를 입력으로 하고, 상기 복수의 상태 변수 중 상기 대사이상 질환과 연관된 적어도 하나 이상의 상태 변수를 선택하고, 상기 적어도 하나 이상의 상태 변수의 존재 여부 또는 값에 대한 상기 대사이상 질환의 질병 위험도를 확률적으로 나타내는 기본 통계확률 모델을 생성하는 기본 통계확률 모델 생성부 및 상기 대사이상 질환과 연관된 유전자 정보의 존재 여부에 따라 상기 대사이상 질환의 질병 위험도에 가중치를 적용함으로써, 기본 통계확률 모델로부터 상기 통계확률 모델을 생성하는 생성부를 포함할 수 있다.
본원의 일 실시예에 따르면, 상기 기계학습 모델은 상기 복수의 상태 변수 중 제 1 상태 변수를 입력층으로 하고 상기 복수의 상태 변수 중 제 2 상태 변수를 은닉층으로 할 때, 상기 입력층과 은닉층 사이의 관계의 정도를 학습하는 제 1 학습을 하고, 상기 은닉층 및 상기 유전자 정보를 입력층으로 하고 상기 질병 위험도를 출력층으로 할 때, 상기 은닉층과 출력층 사이의 관계의 정도를 학습하는 제 2 학습을 함으로써, 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 상기 대사이상 질환의 질병 위험도 사이의 관계의 정도를 학습하는 것일 수 있다.
본원의 일 실시예에 따르면, 상기 기계학습 모델은 상기 복수의 상태 변수의 이전 시점 상태 변수를 입력층으로 하고 상기 복수의 상태 변수의 현재 시점 상태 변수를 은닉층으로 할 때, 상기 입력층과 은닉층 사이의 관계의 정도를 학습하는 제 1 학습을 하고, 상기 은닉층 및 상기 유전자 정보를 입력층으로 하고 상기 질병 위험도를 출력층으로 할 때, 상기 은닉층과 출력층 사이의 관계의 정도를 학습하는 제 2 학습을 함으로써, 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 상기 대사이상 질환의 질병 위험도 사이의 관계의 정도를 학습하는 것일 수 있다.
본원의 일 실시예에 따르면, 상기 기계학습 모델은 상기 복수의 상태 변수 중 제 1 상태 변수 및 이전 시점 은닉층을 입력층으로 하고 상기 복수의 상태 변수 중 제 2 상태 변수 또는 현재 시점 상태 변수를 은닉층으로 할 때, 상기 입력층과 은닉층 사이의 관계의 정도를 학습하는 제 1 학습을 하고,상기 은닉층 및 상기 유전자 정보를 입력층으로 하고 상기 질병 위험도를 출력층으로 할 때, 상기 은닉층과 출력층 사이의 관계의 정도를 학습하는 제 2 학습을 함으로써, 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 상기 대사이상 질환의 질병 위험도 사이의 관계의 정도를 학습하는 것이되,
[수학식 1]
Figure 112017131046614-pat00001
이때, 상기
Figure 112017131046614-pat00002
는 t 시점에서의 은닉층이고, 상기
Figure 112017131046614-pat00003
은 이전 시점 은닉층이고,
Figure 112017131046614-pat00004
는 제 1 상태 변수이고, 상기
Figure 112017131046614-pat00005
는 입력층과 은닉층 사이의 제 1 유형의 관계의 정도를 나타내는 제 1 가중치이고, 상기
Figure 112017131046614-pat00006
는 입력층과 은닉층 사이의 제 2 유형의 관계의 정도를 나타내는 제 2 가중치인 것일 수 있다.
본원의 일 실시예에 따르면, 상기 제 2학습은 [수학식 1] 및 [수학식2]를 기반으로 상기 은닉층과 출력층 사이의 관계의 정도를 학습하는 것이되,
[수학식 2]
Figure 112017131046614-pat00007
이때, 상기 y는 출력층이고, 상기
Figure 112017131046614-pat00008
는 은닉층과 출력층 사이의 관계의 정도를 나타내는 제 3 가중치이고,
Figure 112017131046614-pat00009
는 은닉층이고, 상기
Figure 112017131046614-pat00010
는 입력층 중 유전자 정보와 출력층 사이의 관계의 정도를 나타내는 제4 가중치이고, z는 입력층 중 유전자 정보인 것일 수 있다.
본원의 일 실시예에 따르면, 상기 기계학습 모델 생성부는 [수학식 3]을 기반으로 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 상기 대사이상 질환의 질병 위험도 사이의 관계의 정도를 학습하는 기계학습 모델을 생성 시 발생하는 오차에 가중치를 갱신하는 것이되,
[수학식 3]
Figure 112017131046614-pat00011
상기 E는 상기 기계학습 모델 생성부의 오차의 검출값이고, 상기 t는 상기 대사이상 질환의 발생 여부이고, 상기 y는 기계학습 모델을 통해 예측된 질병 위험도이고,
Figure 112017131046614-pat00012
는 오차에 따른 과적합(overfitting)을 방지하기 위한 L2 정규식일 수 있다.
본원의 일 실시예에 따르면, 상기 질병 위험도 예측부는, 상기 대상자의 질병 위험도 예측 결과를 기 설정된 분류 항목에 기반하여 시각화할 수 있다.
본원의 일 실시예에 따르면, 상기 대상자의 질병 위험도 예측 결과와 연계된 질병 예방 관리 정보를 제공할 수 있다.
본원의 일 실시예에 따르면, 상기 통계확률 모델 생성부는, 상기 대사이상 질환이 고혈압일 경우, 상기 복수의 상태 변수를 나이, 최종 학력, 월평균 수입, 빈혈, 단백뇨, 요중당, 콜레스테롤, 나트륨 섭취 정도, 칼륨 섭취 정도, 음주 여부, 흡연 여부, 고지혈증, 지방간, 알레르기질환, 관절염, 혈중요산수치, 대사성 질환 가족력 및 운동 여부 중 적어도 5개 이상을 포함하여 상기 복수의 상태 변수의 값에 따라 상기 고혈압의 질병 위험도를 확률적으로 나타내는 통계확률 모델을 생성할 수 있다.
본원의 일 실시예에 따르면, 상기 통계확률 모델 생성부는, 상기 대사이상 질환이 비만인 경우, 상기 복수의 상태 변수를 나이, 최종 학력, 고지혈증 과거력, 심근경색 과거력, 지방간 과거력, 담낭염 과거력, 알레르기 과거력, 갑상선질환, 관절염, 혈압, 운동 여부, 칼로리섭취량 대비 나트륨 섭취 정도, 단백질 섭취 정도, 지방 섭취 정도, 단백료, 총콜레스테롤, 공복혈당, 음주여부, 흡연여부, 혈중요산수치 및 대사성 질환 가족력 중 적어도 5개 이상을 포함하여 상기 복수의 상태 변수의 값에 따라 상기 비만의 질병 위험도를 확률적으로 나타내는 통계확률 모델을 생성할 수 있다.
본원의 일 실시예에 따르면, 상기 통계확률 모델 생성부는, 상기 대사이상 질환이 당뇨인 경우, 상기 복수의 상태 변수를 최종 학력, 결혼 여부, 직업, 수입, 성별, 나이, 고혈압 과거력, 고지혈증 과거력, 심근경색 과거력, 만성 위염 과거력, 지방간 과거력, 담낭염 과거력, 만성기관지염 과거력, 천식 과거력, 알레르기 과거력, 관절염, 골다공증 과거력, 백내장 과거력, 우울증 과거력, 감상선 질환 과거력, 간접 흡연 노출 횟수, 총 알코올 섭취량, 운동 회수, 첫 아이 출산 나이, 임신성 당뇨병 과거력, 임공 유산 과거력, 거대아 출산 과거력, 경구 피임약 복용 여부, 당뇨병 가족력, 협심증 과거력, 뇌졸증 과거력, 현재의 주관적 건강상태의 정도, 수면의 질, 혈뇨, 지방, 탄수화물, 비타민, 아연, 몸무게, 허리둘레, 엉덩이둘레, 맥박수, 수축기혈압, 이완기혈압, 체질량 수 중 적어도 5개 이상을 포함하여 상기 복수의 상태 변수의 값에 따라 상기 당뇨의 질병 위험도를 확률적으로 나타내는 통계확률 모델을 생성할 수 있다.
본원의 일 실시예에 따르면, 상기 통계확률 모델 생성부는, 상기 대사이상 질환이 대사증후군일 경우, 상기 복수의 상태 변수를 나이, 성별, 최종학력, 월평균수입, ALT, 빈혈, 단백뇨, 나트륨섭취, 칼륨섭취, 열량섭취, 운동 여부, 흡연력, 심근경색 과거력, 지방간 과거력, 담낭염 과거력, 알레르기 질환, 갑상선 질환 과거력, 관절염, 혈중요산수치 및 대사성 질환 가족력 여부 중 적어도 5개 이상을 포함하여 상기 복수의 상태 변수의 값에 따라 상기 대사증후군의 질병 위험도를 확률적으로 나타내는 통계확률 모델을 생성할 수 있다.
본원의 일 실시예에 따르면, 대사이상 질환의 질병 위험도를 예측하는 방법은, 상기 대사이상 질환의 질환자의 생활상태 변수 및 건강상태 변수를 포함하는 복수의 상태 변수, 유전자 정보 및 대사이상 질환의 질병 위험도를 입력으로 하여, 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 상기 대사이상 질환의 질병 위험도 사이의 관계의 정도를 학습하는 기계학습 모델을 생성하는 단계, 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 입력받는 단계 및 상기 기계학습 모델에 상기 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 상기 대상자의 질병 위험도를 예측하는 단계를 포함할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 개인의 상태 변수 및 유전정보를 기반으로 하여 고혈압, 당뇨병, 비만, 대사성증후군과 같은 대상이상 질환의 현재 질병가능확률을 확인하고, 아직 해당 질병을 진단받지 않은 상태를 가진 대상자에 대해 자신의 현재 상태에서 4그룹으로 구분된 위험군(낮음-보통수준-높음-매우높음) 중 어느 정도의 에 속하는지를 확인하고 이를 바탕으로 향후의 고혈압, 당뇨병, 비만, 대사증후군 발생 확률을 예측하여 조기 진단을 통해 이를 예방하고 치료할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 질병관리본부의 한국인 유전체 역학조사 사업의 일환인 안산-안성 코호트 의 유전체 자료원과 추적 자료원을 기반으로 인공신경망 기반 예측 모형과 통계적 확률모형을 기반으로 한 질병 위험 예측 모형을 구축하고, 구축된 모형을 이용해 현재 대사증후군과 관련된 질병의 유병위험을 예측하고 향후 고혈압, 당뇨병, 비만, 대사증후군과 같은 대사이상질환 발생 위험 확률을 예측해 일차예방을 위한 생활습관변화 안내 경로를 표시할 수 있다.
전술한 본원의 과제 해결 수단에 의하면 인공신경망 기반의 질병 발생 예측 모형 및 통계학적 확률기반의 질병 발생 예측 모형을 구축하고, 각 질병 발생 위험에 대한 대상자의 확률값을 연산하고, 시각화 알고리즘을 통해 대상자 맞춤형 예방관리서비스 모형을 구축할 수 있는 대사이상 질환의 질병 위험도를 예측할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 고혈압과 당뇨병, 대사증후군을 가진 대상자는 이후 다른 대사 이상 질환을 동반할 위험이 높기 때문에 조기 진단을 통해 치료 가능성을 높이며, 더 나아가 사망위험을 높이는 대사 이상 질환으로 인한 합병증 및 심혈관질환, 만성심장질환 발생 및 사망 위험을 감소시킬 수 있어 개인의 삶의 질의 향상을 이룰 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 지역사회 일반 인구집단의 건강관리 현장 적용에 활용하거나, 임상시험에서 고위험군 선정 등에 활용할 수 있고, 위험예측모델의 웹(WEB) 및 앱(APP)을 활용한 제품에 활용할 수 있다.
도 1은 본원의 일 실시예에 따른 대사이상 질환의 질병을 예측하는 장치의 개략적인 시스템이다.
도 2는 본원의 일 실시예에 따른 대사이상 질환의 질병을 예측하는 장치의 개략적인 구성도이다.
도 3a 내지 도3g는 본원의 일 실시예에 따른 대사이상 질환의 질병을 통계확률 모델 생성부를 기반으로 예측한 실시예를 설명하기 위한 도면이다.
도4는 본원의 일 실시예에 따른 기계학습 모델 및 통계확률 모델에 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 대상자의 대상자 질병 위험도를 예측하는 과정을 개략적으로 도시한 도면이다.
도 5는 본원의 일 실시예에 따른 통계 확률 모델 생성부의 질병유병 위험 발생위험 확률 예측과 사망위험을 통한 위험도를 평가하는 실시예를 설명하기 위한 예시도이다.
도6은 본원의 일 실시예에 따른 대사이상 질환 질병 위험도 예측 과정의 일 실시예를 설명하기 위한 도면이다.
도 7은 본원의 일 실시예에 따른 복수의 대사이상질환의 클러스터링을 나타낸 도면이다.
도8은 본원의 일 실시예에 따른 대사이상질환의 질병위험에 대한 안내지도를 시각화한 도면이다.
도9a내지9p는 본원의 일 실시예에 따른 대사이상질환 각각의 질병 위험 예측의 통계확률 모델을 설명하기 위한 예시도이다.
도10은 본원의 일 실시예에 따른 대사이상 질환 질병 위험도 예측 방법의 개략적인 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함" 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
본원은 인공신경망 기반의 질병 발생 예측 모델 및 통계학적 확률기반의 질병 발생 예측 모델을 기반으로 대상자의 질병 위험도를 예측하는 대사이상 질환 질병 위험도 예측 장치에 관한 것이다.
본원의 일 실시예에 따르면, 도 1은 본원의 일 실시예에 따른 대사이상 질환의 질병을 예측하는 장치의 개략적인 시스템도이다. 도 1을 참조하면, 대사이상 질환의 질병을 예측하는 장치(100)는 질병 예측 서버(200)와 네트워크로 연동될 수 있으나, 이에 한정되는 것은 아니다. 예시적으로, 질병 예측 서버(200)는 질병관리본부의 한국인 유전체역학조사사업의 일부인 안산-안성 코호트의 유전체 자료원과 1차부터 7차까지의 추적된 추적 자료를 포함할 수 있다. 질병 예측 서버(200)는 대사이상 질환의 질병을 예측하는 장치(100)로 질병관리본부의 한국인 유전체 역학조사 사업의 일환인 안산-안성 코호트의 유전체 자료원과 추적 자료원의 정보를 네트워크를 통해 제공할 수 있다.
본원의 일 실시예에 따르면, 대사이상 질환의 질병을 예측하는 장치(100)는 적어도 하나의 인터페이스 장치를 구비하는 디바이스로서, 예를 들면, 스마트폰(Smartphone), 스마트패드(Smart Pad), 태블릿 PC, 웨어러블 디바이스 등과 PCS(Personal Communication System), GSM(Global System for Mobile communication), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말기 같은 모든 종류의 무선 통신 장치 및 데스크탑 컴퓨터, 스마트 TV와 같은 고정용 단말기일 수도 있다. 예시적으로 디바이스에는 사용자에게 질병 위험도를 예측 정보를 제공하기 위한 대사이상 질환의 질병 예측 어플리케이션(application)이 설치 및 구동될 수 있으나, 이에 한정되는 것은 아니다.
이하 설명되는 대사이상 질환의 질병을 예측하는 방법은 대사이상 질환의 질병을 예측하는 장치(100)에서 수행될 수 있다. 다른 일예로, 대사이상 질환의 질병을 예측하는 방법의 각 단계는 질병 예측 서버(200)에서 수행될 수 있다. 또 다른 일예로, 대사이상 질환의 질병을 예측하는 방법의 각 단계 중 일부 단계는 대사이상 질환의 질병을 예측하는 장치(100)에서 수행되고, 나머지 단계는 질병 예측 서버(200)에서 수행될 수 있다. 예를 들어, 대사이상 질환의 질병을 예측하는 장치(100)는 대사이상 질환의 질병을 예측하는 방법의 일부 단계로서 사용자 입력을 수신하고, 수신된 사용자 입력을 서버로 전송하며, 사용자 입력에 응답하여 서버로부터 전성된 정보를 화면에 표시하는 기능만을 수행할 수 있으며, 이 밖에 대사이상 질환의 질병을 예측하는 방법의 나머지 단계는 질병 예측 서버(200)에서 수행될 수 있다. 이하에서는 설명의 편의를 위하여 대사이상 질환의 질병을 예측하는 장치(100)에서 대사이상 질환의 질병을 예측하는 방법이 수행되는 예에 대하여 설명하기로 한다.
도2는 본원의 일 실시예에 따른 대사이상 질환의 질병을 예측하는 장치의 개략적인 구성도이다. 도2를 참조하면, 대사이상 질환의 질병을 예측하는 장치(100)는 정보 입력부(110), 기계학습 모델 생성부(120), 통계확률 모델 생성부(130) 및 질병 위험도 예측부(140)를 포함할 수 있으나, 이에 한정되는 것은 아니다.
정보 입력부(110)는 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 입력받을 수 있다. 정보 입력부(110)는 대상자의 대상자 상태 변수를 획득하기 위해, 복수의 생활상태 변수 및 건강상태 변수를 사용자 단말로 제공할 수 있다. 예를 들어, 사용자 단말에는 복수의 생활상태 변수 및 건강상태 변수에 해당하는 목록들이 출력되고, 사용자는 본인의 생활상태 변수 및 건강상태 변수에 해당하는 정보들을 입력할 수 있다.
본원의 일 실시예에 따르면, 상태 변수는 연령, 성별, 가구 수입 등의 인구학적 특성과, 가족력, 과거력 등의 역학 정보, 음주력, 흡연력, 신체 활동, 영양 섭취 등의 생활 습관, 신장, 체중, 혈액 검사 결과와 같은 신체 계측 치 및 임상 정보를 보함하는 대상자의 생활상태 변수 및 건강상태 변수일 수 있다. 유전자 정보는 단일염기 다형성 형태로 수집된 유전 정보일 수 있다.
정보 입력부(110)는 질병 예방 서버(200)로부터 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 입력받을 수 있다. 질병 예방 서버(200)는 질병관리본부의 한국인 유전체역학조사사업의 일부인 안산-안성 코호트의 유전체 자료원과 1차부터 7차까지의 추적된 추적 자료를 대상자의 대상자 상태 변수 및 대상자 유전자 정보로 제공할 수 있으나, 이에 한정되는 것은 아니다.
기계학습 모델 생성부(120)는 대사이상 질환의 질환자의 생활상태 변수 및 건강상태 변수를 포함하는 복수의 상태 변수, 유전자 정보 및 대사이상 질환의 질병 위험도를 입력으로 할 수 있다. 예시적으로, 대사이상 질환의 질환자는 고혈압, 당뇨병, 비만, 대사성증후군과 같은 질환을 가지고 있는 환자일 수 있다. 대사이상 질환의 질환자의 복수의 상태 변수는, 반복 측정된 개인의 생활 습관 및 건강 상태 정보 일 수 있다. 대사이상 질환의 질환자의 유전자 정보는 기저조사 당시 단일시점에서 수집된 자료일 수 있다. 대사이상 질환의 각 질병과 관련된 유전체는 기준 문헌을 통해 알려진 유전체 정보일 수 있다. 기계학습 모델 생성부(120)는 질병 예측 서버(200)로부터 대사이상 질환의 질환자의 복수의 상태 변수, 유전자 정보 및 대사이상 질환의 질병 위험도를 제공받을 수 있다. 질병 예측 서버(200)가 제공하는 대사이상 질환의 질환자의 복수의 상태 변수 및 유전자 정보는 주기적으로 추적 관찰 시행된 7차 추적 자료일 수 있으며, 유전 정보와 추적 자료를 이용하여 대상자의 질병(예를 들어, 고혈압, 당뇨병, 비만, 대사증후군)의 발생 여부를 확인할 수 있다.
기계학습 모델 생성부(120)는 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 대사이상 질환의 질병 위험도 사이의 관계의 정보를 학습하는 기계학습 모델을 생성할 수 있다. 예시적으로, 기계학습 모델은 순환신경망 (Recurrent Neural Network, RNN) 과 다층퍼셉트론신경망 (Multi-layer perceptron neural network, MLP)을 이용해 기계학습 모델을 생성할 수 있다.
본원의 일 실시예에 따르면, 기계학습 모델 생성부(120)는 대사이상 질환의 각 질병과 관련된 유전자를 다층 퍼셉트론 신경망을 연결해 순환신경망에 연결하여 입력할 수 있다. 또한, 기계학습 모델 생성부(120)는 반복 측정된 복수의 상태 변수를 통해 각 역학적 변수의 시간에 따른 상관관계뿐만 아니라 변수간의 상관관계까지 분석이 가능하도록 이를 순환 신경망에 순차적으로 입력하여 분석할 수 있다.
기계학습 모델 생성부(120)는 대상자의 대상자 상태 변수 및 대상자 유전자의 정보를 반복측정하고 반복 측정된 정보를 입력할 수 있다. 기계학습 모델 생성부(120)는 대상자의 대상자 상태 변수 및 대상자 유전자의 정보를 기반으로 생활습관 및 신체계측치, 임상치 등의 반복 측정된 값들에 대해 생활습관에 변화가 있는지를 확인할 수 있다. 기계학습 모델 생성부(120)는 반복 측정된 값들 중 유사한 양상을 보이는 집단끼리 구분 하여 각각에 대한 클러스터를 생성하고, 성별, 질병별로 비슷한 생활습관 변화 양상을 보이는 집단을 구분할 수 있다. 기계학습 모델 생성부(120)는 대상자의 대상자 유전자 정보를 기반으로, 대사이상 질환의 각 질병별로 생활습관의 변화와 관련된 유의한 유전자를 선별할 수 있다. 유의한 유전자는 대사이상 질환의 각 질병과 연계된 유전자일 수 있다.
본원의 일 실시예에 따르면, 기계학습 모델 생성부(120)는 반복측정된 대상자의 대상자 상태 변수를 인경신공망 중 순환신경망에 순차적으로 입력하고, 대사이상 질환의 각 질병별로 생활습관의 변화와 관련된 유의한 유전자는 다층퍼셉트론을 통해 순환신경망에 연결될 수 있다.
기계학습 모델 생성부(120)는 생활상태 변수 및 건강상태 변수를 포함하는 복수의 상태 변수와 같은 시계열 데이터를 입력할 수 있는 인공 신경망 중 순환신경망을 적용하여 기계학습 모델을 생성할 수 있다. 기계학습 모델 생성부(120)는 단일 시점에서 수집한 유전 정보를 통합 입력하기 위해 기존 순환신경망 마지막 층에 다층 퍼셉트론 신경망을 추가적으로 연결할 수 있다. 기계학습 모델 생성부(120)는 마지막의 출력 층에 고혈압, 당뇨병, 비만 및 대사성증후군 발생 유/무를 설정할 수 있다.
예시적으로, 인공 신경망은 입력층(input layer), 은닉층(hidden layer) 및 출력층(output layer)의 3가지의 층으로 구분될 수 있다. 각 층들은 노드들로 구성되어 있으며, 입력층은 시스템 외부로부터 입력자료를 받아들여 시스템으로 입력 자료를 전송할 수 있다. 은닉층은 시스템 안쪽에 자리잡고 있으며 입력 값을 넘겨받아 입력자료를 처리한 뒤 결과를 산출할 수 있다. 출력층은 입력 값과 현재 시스템 상태에 기준하여 시스템 출력 값을 산출할 수 있다. 입력층은 예측값(출력변수)을 도출하기 위한 예측변수(입력변수)의 값들을 입력할 수 있다. 입력층에 n개의 입력 값들이 있다면 입력층은 n개의 노드를 가지게 되며, 본원에서의 입력층에 입력되는 값은 생활상태 변수 및 건강상태를 포함하는 복수의 상태 변수와 유전자 정보일 수 있다. 은닉층은 복수의 입력 노드로부터 입력 값을 받아 가중합을 계산하고, 이 값을 전이함수에 적용하여 출력층에 전달할 수 있다. 예시적으로 기계학습 모델의 입력층은 복수의 상태 정보, 유전자 정보, 이전 시점의 은닉층이 될 수 있고, 은닉층은 복수의 상태 정보, 복수의 상태 정보를 그룹핑한 정보일 수 있고, 출력층은 질병 위험도를 나타내는 것일 수 있다.
본원의 일 실시예에 따르면 기계학습 모델은 복수의 상태 변수 중 제 1 상태 변수를 입력층으로 하고 복수의 상태 변수 중 제 2 상태 변수를 은닉층으로 할 때, 입력층과 은닉층 사이의 관계의 정보를 학습하는 제 1 학습을 수행할 수 있다. 또한, 기계학습 모델은 복수의 상태 변수의 이전 시점 상태 변수를 입력층으로 하고 복수의 상태 변수의 현재 시점 상태 변수를 은닉층으로 할 때, 입력층과 은닉층 사이의 관계의 정보를 학습하는 제 1 학습을 수행할 수 있다.
기계학습 모델은 [수학식1]을 기반으로, 입력층과 은닉층 사이의 관계의 정도를 학습할 수 있다. 관계의 정도는 입력층에 입력 받은 정보들의 가중합을 계산한 값을 의미할 수 있으나, 이에 한정되는 것은 아니다.
[수학식 1]
Figure 112017131046614-pat00013
이때,
Figure 112017131046614-pat00014
는 t 시점에서의 은닉층이고,
Figure 112017131046614-pat00015
은 t시점의 이전 시점 은닉층이고,
Figure 112017131046614-pat00016
는 제 1 상태 변수이고,
Figure 112017131046614-pat00017
는 입력층과 은닉층 사이의 제 1 유형의 관계의 정도를 나타내는 제 1 가중치이고,
Figure 112017131046614-pat00018
는 입력층과 은닉층 사이의 제 2 유형의 관계의 정도를 나타내는 제 2 가중치이다. 예시적으로, [수학식 1]에서
Figure 112017131046614-pat00019
는 t시점의 복수의 상태 변수 중 제 1 상태 변수이고,
Figure 112017131046614-pat00020
는 t시점의 은닉층을 나타내고
Figure 112017131046614-pat00021
는 복수의 상태 변수(입력 변수)와 은닉층간의 가중치이고,
Figure 112017131046614-pat00022
는 은닉층들간의 가중치일 수 있으나, 이에 한정되는 것은 아니다. 일예로, 제 1 유형의 관계의 정도는 시간에 따른 복수의 상태 변수들관의 상관관계(가중치)일 수 있고, 제 2 유형의 관계의 정도는 복수의 상태 변수간의 상관관계(가중치)일 수 있으나, 이에 한정되진 않는다.
기계학습 모델은 [수학식 1]에 표현된 순환신경망에 반복 측정된 복수의 상태 변수 (예를 들어, 개개인의 생활 습관 및 건강 상태 변수)를 입력하여 시간에 따른 상관관계뿐만 아니라 생활 습관 및 건강 상태 변수간의 상관관계까지 분석할 수 있다.
본원의 일 실시예에 따르면, 기계학습 모델은 은닉층 및 유전자 정보를 입력층으로 하고 질병 위험도를 출력층으로 할 때, 은닉층과 출력층 사이의 관계의 정보를 학습하는 제 2 학습을 수행할 수 있다. 또한, 기계학습 모델은 은닉층 및 유전자 정보를 입력층으로 하고 질병 위험도를 출력층으로 할 때, 은닉층과 출력층 사이의 관계의 정보를 학습하는 제 2 학습을 수행할 수 있다.
기계학습 모델은 [수학식 2]를 기반으로 은닉층과 출력층 사이의 관계의 정도를 학습할 수 있다. 제 2학습은 [수학식 1] 및 [수학식2]를 기반으로 은닉층과 출력층 사이의 관계의 정도를 학습할 수 있다. 기계학습 모델은 [수학식1] 및[수학식2]를 기반으로 입력층, 은닉층 및 출력층 사이의 관계의 정보를 학습하고 출력층의 결과로 질병 위험도의 예측 결과를 학습할 수 있다.
[수학식 2]
Figure 112017131046614-pat00023
이때, y는 출력층이고,
Figure 112017131046614-pat00024
는 은닉층과 출력층 사이의 관계의 정도를 나타내는 제 3 가중치이고,
Figure 112017131046614-pat00025
는 은닉층이고,
Figure 112017131046614-pat00026
는 입력층 중 유전자 정보와 출력층 사이의 관계의 정도를 나타내는 제4 가중치이고, z는 입력층 중 유전자 정보일 수 있다. 일예로, 제 3 가중치는 질병 위험을 예측하기 위해 복수의 상태 변수와 출력층 사이의 관계를 나타낸 관계의 정도이고, 제 4가중치는 특정 유전자에 가중치를 부여하기 위한 유전자 정보와 출력층 사이의 관계의 정도일 수 있다.
본원의 일 실시예에 따르면, 유전 정보는 단일 시점으로 수집되었으므로 순환신경망에 통합시키기 위해 [수학식 2]와 같이 순환신경망 마지막 층에 다층 퍼셉트론 신경망을 연결하여 입력할 수 있다. 예시적으로, 유전 정보는 단일염기 다형성 형태로 수집되었으며, 각 대사이상 질병(고혈압, 당뇨병, 비만, 대사증후군) 각각에 대해 기존에 알려진 유전정보를 대립유전자에 따른 위험 지수(Risk fator)로 변환하여 입력할 수 있다. 기계학습 모델은 제 2 학습을 통해, 은닉층과 출력층 사이의 관계의 정도, 즉 은닉층과 출력층 사이의 가중치를 학습할 수 있다.
본원의 일 실시예에 따르면, 기계학습 모델 생성부(120)는 [수학식 3]을 기반으로 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 대사이상 질환의 질병 위험도 사이의 관계의 정도를 학습하는 기계학습 모델 생성 시 발생하는 오차에 가중치를 갱신할 수 있다.
[수학식 3]
Figure 112017131046614-pat00027
E는 기계학습 모델 생성부(120)의 오차의 검출값이고, t는 대사이상 질환의 발생 여부이고, y는 기계학습 모델을 통해 예측된 질병 위험도이고,
Figure 112017131046614-pat00028
는 오차에 따른 과적합(overfitting)을 방지하기 위한 L2 정규식이다.
[수학식 3]은 기계학습 모델 생성부(120)의 오차식이며 산출된 오차를 역전파 알고리즘을 통해 인공신경망의 가중치를 학습할 수 있다. 학습 과정 중 발생하는 노이즈(noise)에 따른 과적합을 방지하기 위해 L2 정화규 식을 추가하였으며, t는 각 실제 대사이상 질환(고혈압, 당뇨병, 비만, 대사증후군)에 대한 발생 유 또는 무를 나타내는 것일 수 있으나, 이에 한정되는 것은 아니다.
본원의 일 실시예에 따르면, 기계학습 모델 생성부(120)는 구축된 기계학습 모델(예를 들어, 인공신경망)의 타당도 검증을 위해 대사이상 질환의 질환자(전체 대상자)를 3그룹으로 구분하여 교차검증을 시행할 수 있다. 기계학습 모델 생성부(120)는 검증 후 문헌 조사를 통해 대사이상 질병(고혈압, 당뇨병, 비만, 대사증후군) 발생과 연관된 생활상태 변수 및 건강상태 변수를 포함하는 복수의 상태 변수에 가중치를 조정하여 견고한 기계학습 모델을 생성할 수 있다.
본원의 일 실시예에 따르면 질병 위험도 예측부(140)는 기계학습 모델에 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 대상자의 대상자 질병 위험도를 예측할 수 있다.
본원의 일 실시예에 따르면, 통계확률 모델 생성부(130)는 기본 통계확률 모델 생성부(131) 및 가중치 통계확률 모델 생성부(132)를 포함할 수 있다.
통계확률 모델 생성부(130)는 대사이상 질환의 질환자의 복수의 상태 변수, 유전자 정보 및 대사이상 질환의 질병 위험도를 입력으로 하여, 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상의 존재 유무 또는 값에 따라 대사이상 질환의 질병 위험도를 확률적으로 나타내는 통계확률 모델을 생성할 수 있다. 예시적으로, 통계확률 모델 생성부(130)는 대상자가 현재 4그룹으로 구분된 위험군(낮음-보통수준-높음-매우높음) 중 어느 곳에 속하는 지 확인 할 수 있다. 또한 통계확률 모델 생성부(130)는 변수(복수의 상태 변수) 별 질병 발생 위험도에 미치는 영향도 (b)를 기반으로 각 대상자별 관측된 (observed) 질병발생 위험 (R)과 기저위험을 나타내는 각 변수 조합 별 기대되는 (expected) 질병의 위험도 (R0) 를 예측하고 이를 이용하여 최종적으로 각 대상자 고유의 risk score를 연산할 수 있다.
본원의 일 실시예에 따르면, 기본 통계확률 모델 생성부(131)는 대사이상 질환의 질환자의 복수의 상태 변수, 유전자 정보 및 대사이상 질환의 질병 위험도를 입력하고, 복수의 상태 변수 중 대사이상 질환과 연관된 적어도 하나 이상의 변수를 선택하고, 적어도 하나 이상의 상태 변수의 존재 여부 또는 값에 대한 대사이상 질환의 질병 위험도를 확률적으로 나타내는 기본 통계확률 모델을 생성할 수 있다.
예시적으로, 기본 통계확률 모델 생성부(131)는 개인(대상자, 질환자)이 인식할 수 있는 복수의 상태 변수(예를 들어, 생활 습관, 신체 계측치, 질병력과 같은 요인의 반복측정된 정보)를 입력할 수 있다. 또한, 기본 통계확률 모델 생성부(131)는 질병 예측 서버(200)로부터 제공받은 질병관리본부의 한국인 유전체역학조사사업의 일부인 안산-안성 코호트의 1차부터 7차까지의 추적된 추적 자료를 기반으로 대사이상 질환의 질병 위험도를 확률적으로 나타내는 통계확률 모델을 생성할 수 있다. 또한, 통계확률 모델 생성부(130)는 기저 조사 당시 개인의 생활 습관 및 건강 상태 정보에 대한 입력을 기반으로 대사이상 질환의 질병 위험도를 확률적으로 나타내는 통계확률 모델을 생성할 수 있다. 또한, 기본 통계확률 모델 생성부(131)는 개인이 인식하지 못하는 영양소 섭취 및 임상수치와 같은 요인에 대한 반복 측정된 값에 대한 대사이상 질환의 질병 위험도를 확률적으로 나타내는 통계확률 모델을 기반으로 주요 변수에 대한 선정이 이루어질 수 있다.
기본 통계확률 모델 생성부(131)는 개인이 인식할 수 있는 복수의 상태 변수 중 통계적 확률 기반의 모형을 이용해 주요 변수에 대한 선정을 1차적으로 수행하고, 개인이 인식하지 못하는 영양소 섭취 및 임상수치와 같은 요인을 통계적 확률 기반의 모형을 이용해 주요 변수에 대한 선정을 2차적으로 수행하고, 1차 및 2차 주요 변수 선정에 기반하여 대사이상 질환의 질병 위험도를 확률적으로 나타내는 기본 통계확률 모델에 대한 주요 변수를 선정할 수 있다. 예시적으로, 앞서 설명된 통계확률 모델은 통계확률 모형의 방법 중 하나인 콕스비례위험모형을 이용하여 전진선택법, 후진선택법 및 단계 삽입법의 3가지의 변수 선정 과정을 통해 2번 이상 선정된 변수에 대해 1차 변수(주요 변수)를 선정할 수 있다.
또한, 기본 통계확률 모델 생성부(131)는 의학적 임상적 기반으로 대사이상 질환의 각 지병과 관련된 변수를 추가 선정할 수 있다. 유전정보에 기반한 유전체 선정은 먼저 입력된 유전 정보를 기반으로 각 대사이상 질환의 질병별 유의한 유전체를 선정하고, 통계적으로 유의하지는 않았으나 기존에 질병과 연관성이 있다고 보고된 유전자에 대해 추가 선정이 이뤄져 최종적으로 유전체가 선별될 수 있다. 또한, 기본 통계확률 모델 선정부(130)는 전문가의 의학적 판단 하에, 임상적으로 유의한 변수에 대한 추가적인 입력을 통해 최종적으로 대사이상 질환의 각 질병예측에 포함된 변수를 선정할 수 있다.
또한, 기본 통계확률 모델 생성부(131)는 모형 구축과 검증을 위해 대상자를 7대 3 비율로 구축데이터 (training set)과 검증 데이터 (test set)으로 구분할 수 있다. 기본 통계확률 모델 생성부(131)는 선정된 변수를 이용하여 구축데이터 내에서 통계적 모델 기반인 경쟁적 확률 위험 위험 모형을 이용한 대상자의 현재 대사증후군과 관련된 비만, 고혈압 전단계, 당뇨병 전단계 발생 위험을 예측하는 기본 통계확률 모델을 생성할 수 있다. 기본 통계확률 모델 생성부(131)는 검증 데이터에서 검증하는 내부검증 (internal validation)과 5겹 교차검증 (cross-validation)을 통해 각 변수 별(복수의 상태 변수 각각) 질병 발생에 미치는 영향도(b)에 대한 최적의 값을 추출하고, 이를 이용한 최종 질병 발생 기본 통계확률 모델을 생성할 수 있다.
가중치 통계확률 모델 생성부(132)는 대사이상 질환과 연관된 유전자 정보의 존재 여부에 따라 대사이상 질환의 질병 위험도에 가중치를 적용함으로써, 기본 통계확률 모델로부터 통계확률 모델을 생성할 수 있다.
본원의 일 실시예에 따르면, 통계확률 모델 생성부(130)는 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상의 존재 유무 또는 값에 따라 고혈압의 질병 위험도를 확률적으로 나타내는 통게확률 모델을 생성할 수 있다. 예시적으로, 통계확률 모델 생성부(130)는 현재의 전단계고혈압 및 고혈압 유병예측에 대한 임상적으로 연관성이 알려진 변수(예시적으로, 가족력, 과거력, 연령, 성별, 식습관, 생활습관 등)를 선정할 수 있다. 통계확률 모델 생성부(130)는 단변량과 다변량 로지스틱 모형을 차례로 적용하여 고혈압 유병상태에 대한 위험 요인을 선정하고, 후진선택법을 통하여 최종적으로 24개의 변수를 선정할 수 있다.
통계확률 모델 생성부(140)는 [수학식4]에 기반하여 고혈압전단계의 유병확률을 산출할 수 있다.
[수학식 4]
고혈압전단계 Ps=1/(1+eb1)
본원의 일 실시예에 따르면, b1은 고혈압전단계와 연관된 복수의 상태 변수 중 대사이상 질환과 연관된 적어도 하나 이상의 선정한 상태 변수 및 대사이상 질환과 연관된 유전자 정보의 존재 여부에 따라 대사이상 질환의 질병위험도에 적용된 가중치일 수 있다.
b1(고혈압전단계)=(0.37156 * [나이=50-59] + 0.80200 * [나이=60-69] + 0.89609 * [나이=70+] - 0.41552 * [성별=여성] + 0.43825 * [최종학력=무학] + 0.32208 * [최종학력=초등학교] + 0.19062 * [최종학력=중학교] + 0.13103 * [최종학력=고등학교] - 0.03046 * [최종학력=4년제대학] + 0.11333 * [월평균수입=300만원미만] + 0.05827 * [월평균수입=300-399] -0.13926 * [월평균수입=600만원+] + 0.23111 * [ALT=20-39] + 0.43178 * [ALT=40+] -0.12783 * [Hb=빈혈] + 0.34359 * [Hb 남자15/여자14 이상] + 0.32334*[단백뇨= 2+ - 4+] + 0.06766 *[요중당=+/- - 1+] + 0.27763*[요중당= 2+ - 4+] + 0.18232*[총콜레스테롤=200-239] + 0.30748*[총콜레스테롤=240+] + 0.17395*[HDL=40미만] + 0.12222*[HDL=40-59] + 0.06766 *[나트륨섭취=과잉] + 0.00995*[칼륨섭취=과잉] + 0.00995*[단백질섭취=충분, 지방섭취=과잉]-0.05129*[음주여부=음주중단] +0.10436*[음주여부=현재음주] + 0.01980*[간접흡연=예] + 0.21511 *[고지혈증=예] + 0.04879*[협심증=예] + 0.15700*[지방간=예] - 0.13926 *[알레르기=예] + 0.04879 *[관절염=예] + 0.13976*[hscrp=0.3+] -0.12783 *[혈중요산수치=moderate] + 0.25464 *[혈중요산수치=high] +0.37844 *[대사성질환가족력=1명] + 0.37844 *[대사성질환가족력=2명이상] + 0.02956 [몸에땀날정도운동=5+회/주]
또한, 통계확률 모델 생성부(140)는 [수학식5]에 기반하여 고혈압의 유병확률을 산출할 수 있다.
[수학식5]
고혈압 Ps=1/(1+eb2)
본원의 일 실시예에 따르면, b2는 고혈압과 연관된 복수의 상태 변수 중 대사이상 질환과 연관된 적어도 하나 이상의 선정한 상태 변수 및 대사이상 질환과 연관된 유전자 정보의 존재 여부에 따라 대사이상 질환의 질병위험도에 적용된 가중치일 수 있다.
b2(고혈압)=(0.60432 * [나이=50-59] + 1.26695 * [나이=60-69] + 1.51732* [나이=70+] - -0.49430 * [성별=여성] + 0.77932 * [최종학력=무학] + 0.51879 * [최종학력=초등학교] + 0.31481 * [최종학력=중학교] +0.19062 * [최종학력=고등학교] - 0.04082* [최종학력=4년제대학] + 0.23111 * [월평균수입=300만원미만] + 0.08618 * [월평균수입=300-399] -0.16252 * [월평균수입=600만원+]+ 0.37156 * [ALT=20-39] + 0.70310 * [ALT=40+] - 0.16252 * [Hb=빈혈] + 0.58222 * [Hb 남자15/여자14 이상] + 0.29267 *[단백뇨= + ] + 1.13140 *[단백뇨=2+ - 4+] + 0.30010 * [요중 당= + ] + 0.58222 *[요중 당= 2+ - 4+] + 0.28518 *[총콜레스테롤=200+] + 0.46373 *[총콜레스테롤=240+] + 0.16551*[HDL=60미만] + 0.07696 *[나트륨섭취=과잉] + 0.09531 *[칼륨섭취=과잉] - 0.04082 *[단백질섭취or지방섭취=1개 기준치이상] - 0.09431 *[단백질섭취=충분, 지방섭취=과잉] - 0.10536 *[음주여부=음주중단] + 0.19885 *[음주여부=현재음주] + 0.11333 *[간접흡연=예] + 0.23111 *[고지혈증=예] + 0.18232 *[지방간=예] - 0.21072 *[알레르기질환=예] + 0.10436 *[관절염=예] + 0.25464 *[hscrp=0.3+] - 0.16252 *[혈중요산수치=low] + 0.62594 *[혈중요산수치=high] +0.40547 *[대사성질환가족력=1명] + 0.61519 *[대사성질환가족력=2명이상] + 0.07696[몸에땀날정도운동=5+회/주])
도 3a는 전단계 고혈압 예측 ROC 곡선 및 고혈압 예측 ROC 곡선을 나타낸 그래프일 수 있다. 예시적으로, 도3a 를 참조하면, 통계학적 모델 생성부(130)는 유병확률 예측모형의 예측력을 평가하기 위해 내부 타당도 검사를 시행할 수 있다. 도3a의 도면부호(a)는 전단계고혈압 예측 모형의 c-통계량(95% 신뢰구간)은 0.639 (0.635-0.642)로 산출되었으며, 도3a의 도면부호(b)는 고혈압 예측 모형의 c-통계량(95% 신뢰구간)은 0.757 (0.754-0.760)으로 산출될 수 있다.
도3a 를 참조하면, 구축된 최종 예측모형을 통해 예측된 전단계고혈압 및 고혈압 확률의 현재의 정상, 전단계고혈압, 고혈압 상태에 따른 분포를 확인할 수 있다. 구축된 최종 예측모형을 통해 전단계 고혈압 및 고혈압 대상자에게 전단계 고혈압일 확률 및 고혈압일 확률이 증가하는 양상을 보이는 것을 확인할 수 있다.
도3b는 전단계 고혈압 및 고혈압집단에서 확률 분포를 나타낸 그래프이다. 예시적으로 도 3b를 참조하면, 도3b의 도면부호 (a)는 정상 체중 집단에서의 전단계고혈압 확률분포이고, 도면부호 (b)는 전단계고혈압 집단에서의 전단계고혈압 확률 분포이고, 도면부호 (c)는 고혈압 집단에서의 전단계고혈압 확률 분포이고, 도면부호(d)는 정상 체중 집단에서의 고혈압 확률 분포이고, 도면부호(e)는 전단계고혈압 집단에서의 고혈압 확률 분포이고, 도면부호(f)는 고혈압 집단에서의 고혈압 확률 분포를 나타낸 그래프일 수 있다.
또한, 본원의 일 실시예에 따르면, 통계확률 모델 생성부(130)는 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상의 존재 유무 또는 값에 따라 비만의 질병 위험도를 확률적으로 나타내는 통게확률 모델을 생성할 수 있다. 예시적으로, 통계확률 모델 생성부(130)는 현재의 과체중 및 비만 유병예측에 대한 기존 연구로 연관성이 알려진 변수(예시적으로, 가족력, 과거력, 연령, 성별, 식습관, 생활습관 등)를 선정할 수 있다. 통계확률 모델 생성부(130)는 단변량과 다변량 로지스틱 모형을 차례로 적용하여 고혈압 유병상태에 대한 위험 요인을 선정하고, 후진선택법을 통하여 최종적으로 24개의 변수를 선정할 수 있다.
통계확률 모델 생성부(140)는 [수학식6]에 기반하여 과체중의 유병확률을 산출할 수 있다.
[수학식 6]
과체중 Ps=1/(1+eb3)
본원의 일 실시예에 따르면, b3은 과제충과 연관된 복수의 상태 변수 중 대사이상 질환과 연관된 적어도 하나 이상의 선정한 상태 변수 및 대사이상 질환과 연관된 유전자 정보의 존재 여부에 따라 대사이상 질환의 질병위험도에 적용된 가중치일 수 있다.
b3(과체중) = ( -0.02020 * [나이=50-59] - 0.01005 * [나이=60-69] - 0.18633 * [나이=70+] - 0.05129 * [성별=여성] + 0.50682 * [최종학력=무학] + 0.32930 * [최종학력=초등학교] + 0.11333 * [최종학력=중학교] + 0.01980 * [최종학력=고등학교] + 0.19062 * [최종학력=4년제대학] + 0.18232 *[고지혈증과거력=예] + 0.23902*[심근경색과거력=예] + 0.62594 *[지방간과거력=예] + 0.13976 *[담낭염과거력=예] - 0.10536 *[알레르기과거력=예] - 0.10536 *[갑상선질환=예] + 0.29267 *[관절염=예] + 0.47623 *[혈압=1단계고혈압] + 0.62058 *[혈압=2단계고혈압] + 0.06766 [몸에땀날정도운동=안함] - 0.03046 [몸에땀날정도운동=5+회/주] + 0.07696 * [하루평균열량섭취=과다] + 0.02956 *[칼로리섭취량 대비 나트륨섭취=중등도] + 0.07696 *[칼로리섭취량 대비 나트륨섭취=고도] + 0.11333 *[단백질섭취or지방섭취=1개 기준치이상] + 0.20701*[단백질섭취=충분, 지방섭취=과잉] + 0.55389 * [ALT=20-39] + 0.94001 * [ALT=40+] - 0.10536 * [Hb=빈혈] + 0.25464 * [Hb 남자15/여자14 이상] + 0.12222*[단백뇨= 1+] + 0.17395 *[단백뇨= 2+ - 4+] + 0.23111 *[총콜레스테롤=200-239] + 0.39204 *[총콜레스테롤=240+] + 1.02962*[HDL=40미만] + 0.61519*[HDL=40-59] + 0.30010 *[공복혈당=110-125] + 0.23902 *[공복혈당=126+] -0.05129*[음주여부=음주중단] +0.10436*[음주여부=현재음주] + 0.01980*[간접흡연=예] + 0.37844 *[hscrp=0.3-0.99] + 0.08618 *[hscrp=1.0+] -0.35667 *[혈중요산수치=moderate] + 0.48858 *[혈중요산수치=high] +0.05827 *[대사성질환가족력=1명] + 0.11333 *[대사성질환가족력=2명이상])
통계확률 모델 생성부(140)는 [수학식7]에 기반하여 비만의 유병확률을 산출할 수 있다.
[수학식 7]
비만 Ps=1/(1+eb4)
본원의 일 실시예에 따르면, b4는 비만과 연관된 복수의 상태 변수 중 대사이상 질환과 연관된 적어도 하나 이상의 선정한 상태 변수 및 대사이상 질환과 연관된 유전자 정보의 존재 여부에 따라 대사이상 질환의 질병위험도에 적용된 가중치일 수 있다.
b4(비만) = ( -0.35667 * [나이=50-59] -0.52763 * [나이=60-69] -0.73397 * [나이=70+] + 0.84157 * [성별=여성] + 0.63127 * [최종학력=무학] + 0.33647* [최종학력=초등학교] + 0.05827 * [최종학력=중학교] + 0.07696 * [최종학력=고등학교] + 0.14842 * [최종학력=4년제대학] + 0.33647 *[고지혈증과거력=예] + 0.62594 *[심근경색과거력=예] + 0.87547 *[지방간과거력=예] + 0.30010 *[담낭염과거력=예] - 0.18633 *[알레르기과거력=예] - 0.22314 *[갑상선질환=예] + 0.62058 *[관절염=예] + 0.93216 *[혈압=1단계고혈압] + 1.24415 *[혈압=2단계고혈압] + 0.21511 [몸에땀날정도운동=안함] + 0.11333 * [몸에땀날정도운동=5+회/주] + 0.11333 * [하루평균열량섭취=과다] + 0.07696 *[칼로리섭취량 대비 나트륨섭취=중등도] + 0.16551 *[칼로리섭취량 대비 나트륨섭취=고도] + 0.21511 *[단백질섭취or지방섭취=1개 기준치이상] + 0.47000 *[단백질섭취=충분, 지방섭취=과잉] + 1.02962 * [ALT=20-39] + 1.93297 * [ALT=40+] - 0.04082 * [Hb=빈혈] + 0.36464 * [Hb 남자15/여자14 이상] + 0.35066 *[단백뇨= 1+] + 0.54812 *[단백뇨= 2+ - 4+] + 0.22314 *[총콜레스테롤=200-239] + 0.37156 *[총콜레스테롤=240+] + 1.32442 *[HDL=40미만] + 0.76547 *[HDL=40-59] + 0.71295 *[공복혈당=110-125] + 0.63127 *[공복혈당=126+] -0.05129*[음주여부=음주중단] +0.10436*[음주여부=현재음주] + 0.01980*[간접흡연=예] + 1.05779 *[hscrp=0.3-0.99] + 0.57661 *[hscrp=1.0+] -0.69315 *[혈중요산수치=moderate] + 0.90826 *[혈중요산수치=high] +0.08618 *[대사성질환가족력=1명] + 0.23902 *[대사성질환가족력=2명이상])
도3c는 과체중 및 비만 예측 ROC 곡선을 개략적으로 나타낸 도면이다. 예시적으로, 도3c 를 참조하면, 통계학적 모델 생성부(130)는 유병확률 예측모형의 예측력을 평가하기 위해 내부 타당도 검사를 시행할 수 있다. 도3c의 도면부호(a)는 과체중 예측 모형의 c-통계량(95% 신뢰구간)은 0.691 (0.688-0.693)로 산출되었으며, 도3c의 도면부호(b)는 고혈압 예측 모형의 c-통계량(95% 신뢰구간)은 0.810 (0.804-0.815)으로 산출된 것을 확인할 수 있다. 도3c의 그래프를 보면, 체중에 비해 비만 예측 모형의 설명력이 더 높게 나타났으며, 비만의 경우 과체중보다 정상인과 위험 요인의 분포가 더 분명히 차이나기 때문일 수 있다.
도3c 를 참조하면, 구축된 최종 예측모형을 통해 예측된 과체중 및 비만 확률의 현재의 정상, 과체중, 비만 상태에 따른 분포를 확인할 수 있다. 과체중 및 비만 대상자에서 과체중일 확률 및 비만일 확률이 모두 증가하는 양상을 보이는 것을 확인 할 수 있다.
도3d는 현재의 정상, 과체중, 비만 상태에 따른 정상, 과체중, 비만 예측의 확률 분호 그래프이다. 예시적으로 도 3d를 참조하면, 도3d에 도시된 그래프는 각각 현재의 정상(nomal), 과체중(overweight), 비만(obestity) 상태에 따른 정상, 과체중, 비만 예측 확률 분포를 나타낸 것을 확인 할 수 있다.
본원의 일 실시예에 따르면, b4는 비만과 연관된 복수의 상태 변수 중 대사이상 질환과 연관된 적어도 하나 이상의 선정한 상태 변수 및 대사이상 질환과 연관된 유전자 정보의 존재 여부에 따라 대사이상 질환의 질병위험도에 적용된 가중치일 수 있다. 예시적으로, 통계확률 모델 생성부(140)는 당뇨에 대해 결측치가 20%를 넘지 않으며 임상적 유의성이 있는 변수 120개를 선정하고, 이 중 연속형 변수의 경우 4분위에 따라 범주형으로 재구성하여 통계 모델을 생성할 수 있다. 통게적 확률 모델 생성부(140)는 다변량 로지스틱 모형의 변수선택에 대한 자동화된 전진선택법, 후진선택법, 단계별선택법을 적용하여 당뇨 유병상태 대한 위험 요인 선정을 시행하고 각 결과모델의 C통계량을 산출하여 가장 설명력이 높은 것으로 판단된 65개 변수로 이루어진 단계별 선택법 모델을 최종 모델로 선정할 수 있다.
통계확률 모델 생성부(140)는 [수학식8]에 기반하여 당뇨의 유병확률을 산출할 수 있다.
[수학식 8]
당뇨 Ps=1/(1+eb5)
b5(당뇨) =(-0.04082* [최종학력=중·고등학교] -0.18633 * [최종학력=2·4년제대학] -0.07257 * [결혼여부=기혼]+0.01980 * [직업=사무직] + 0.07696 * [직업=주부] + 0.05827 * [직업=기타]+ 0.02956 * [수입=2Q] -0.08338 * [수입=4Q]+ 0.54232 * [성별=여성] + 0.02956*[만 나이(연속형)]+ 0.36464 *[고혈압과거력=예] + 0.14842 *[고지혈증과거력=예] + 0.14842*[심근경색과거력=예] -0.19845 *[만성위염과거력=예] + 0.16551 *[지방간과거력=예] + 0.11333 *[담낭염과거력=예] -0.17435 *[만성기관지염과거력=예] -0.10536 *[천식과거력=예] -0.18633 *[알레르기과거력=예] -0.16252 *[관절염=예] -0.19845 *[골다공증과거력=예] + 0.21511 *[백내장과거력=예] -0.10536 *[우울증과거력=예] -0.03046 *[갑상선질환과거력=항진] -0.21072 *[갑상선질환과거력=저하] -0.05129*[갑상선질환과거력=기타]+ 0.07696*[간접흡연노출횟수=상위50%] + 0.04879*[간접흡연노출횟수=하위50%] -0.01005*[총알코올섭취량=1Q] + 0.04879*[총알코올섭취량=2Q] +0.17395*[총알코올섭취량=3Q] + 0.12222 [운동횟수=상위50%]-0.04082*[첫아이출산나이=2Q] -0.08338*[첫아이출산나이=3Q] -0.06188*[첫아이출산나이=4Q] + 0.90016 *[임신성당뇨병과거력=예]-0.05129*[인공유산과거력=예]+ 0.26236*[거대아출산과거력=예]+ 0.02956*[경구피임약복용여부=과거복용] -0.32850*[경구피임약복용여부=현재복용]+ 0.06766*[당뇨병가족력=유] -0.07257*[협심증가족력=유] -0.08338*[뇌졸중가족력=유]+ 0.12222 *[현재의주관적건강상태=4점] + 0.19062*[현재의주관적건강상태=3점] + 0.39878 *[현재의주관적건강상태=2점] + 0.48858*[현재의주관적건강상태=1점] + 0.03922*[“현재 매우 편안하며 건강하다고 느낀다”=3점] + 0.08618*[“현재 매우 편안하며 건강하다고 느낀다”=2점] + 0.12222*[“현재 매우 편안하며 건강하다고 느낀다”=1점]-0.09431 *[“잠자고 난 후에도 개운한 감이 없다”=그렇지않다] -0.10536*[“잠자고 난 후에도 개운한 감이 없다”=그렇다] -0.03046*[“잠자고 난 후에도 개운한 감이 없다”=매우그렇다]-0.01005*[“기력(원기)이 왕성함을 느낀다.”=3점] -0.04082*[“기력(원기)이 왕성함을 느낀다.”=2점] -0.09431*[“기력(원기)이 왕성함을 느낀다.”=1점]+ 0.01980 *[“밤이면 심란해지거나 불안해진다.”=3점] -0.05129*[“밤이면 심란해지거나 불안해진다.”=1점]-0.24846 *[혈뇨=4Q] -0.28768 *[혈뇨=3Q] -0.47804 *[혈뇨=2Q]+ 0.17395 * [ALT=20-39] + 0.41871 * [ALT=40+]-0.11653 * [Hb=빈혈] -0.08338 * [Hb=정상]-0.02020 * [지방(g)]-0.01005 * [탄수화물(g)]+ 0.00995* [철(mg)]+ 0.25464*[비타민 B1(mg)]+ 0.00995 * [아연(ug)]-0.21072 * [비타민 B6(mg)]+ 0.01980 * [몸무게]+ 0.02956 * [허리둘레]-0.13926*[엉덩이둘레=2Q] -0.24846*[엉덩이둘레=3Q] -0.40048*[엉덩이둘레=4Q] + 0.09531*[맥박수=2Q] + 0.23902 *[맥박수=3Q] + 0.41871 *[맥박수=4Q]+0.14842 *[수축기혈압=2Q] +0.27763 *[수축기혈압=3Q] +0.41211*[수축기혈압=4Q] +0.03922*[이완기혈압=2Q] -0.02020*[이완기혈압=3Q] -0.11653*[이완기혈압=4Q]+ 0.19062*[γ-GTP=2Q] + 0.43178*[γ-GTP=3Q] + 0.63658*[γ-GTP=4Q]+0.14842*[Albumin=2Q] +0.27003*[Albumin=3Q] +0.48858*[Albumin=4Q]+0.03922*[BUN=2Q] +0.13103*[BUN=3Q] +0.23902*[BUN=4Q]-0.12783 *[Creatinine]- 0.04082*[Uric Acid=2Q] - 0.05129*[Uric Acid=3Q] - 0.19845*[Uric Acid=4Q]-0.13926*[Total cholesterol=2Q] -0.13926*[Total cholesterol=3Q] -0.08338*[Total cholesterol=4Q]] -0.01005*[HDL-cholesterol=2Q] -0.07257*[HDL-cholesterol=3Q] -0.08338*[HDL-cholesterol=4Q]] + 0.16551 *[Triglyceride=2Q] + 0.25464*[Triglyceride=3Q] + 0.41871*[Triglyceride=4Q]] + 0.04879 *[체질량 지수=2Q] + 0.10436*[체질량 지수=3Q] + 0.09531*[체질량 지수=4Q])
통계확률 모델 생성부(140)는 유병확률 예측모형의 예측력을 평가하기 위해 내부 타당도 검사를 시행할 수 있다. 통계확률 모델 생성부(140)는 과체중 예측 모형의 c-통계량(95% 신뢰구간)은 0.749로 산출될 수 있다.
도 3e는 단계별 선택법으로 얻은 다항 로지스틱 모형으로 예측한 대사이상 질병 중 당뇨일 확률을 나타낸 그래프이다. 예시적으로 도3e를 참조하면, 구축된 최종 예측모형을 통해 예측된 당뇨의 현재의 정상, 당뇨전단계, 당뇨 상태에 따른 분포를 확인할 수 있다. 도3e의 그래프로부터 당뇨전단계 및 당뇨 대상자에서 과체중일 확률 및 비만일 확률이 모두 증가하는 양상을 보이는 것을 확인할 수 있다.
본원의 일 실시예에 따르면, 통계확률 모델 생성부(130)는 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상의 존재 유무 또는 값에 따라 대사증후군의 질병 위험도를 확률적으로 나타내는 통게확률 모델을 생성할 수 있다. 예시적으로, 통계확률 모델 생성부(130)는 현재의 대사증후군에 대한 임상적으로 연관성이 알려진 변수(예시적으로, 가족력, 과거력, 연령, 성별, 식습관, 생활습관 등)를 선정할 수 있다. 통계확률 모델 생성부(130)는 단변량과 다변량 로지스틱 모형을 차례로 적용하여 대사증후군 유병상태에 대한 위험 요인을 선정하고, 후진선택법을 통하여 최종적으로 21개의 변수를 선정할 수 있다.
통계확률 모델 생성부(140)는 [수학식9]에 기반하여 대사증후군의 유병확률을 산출할 수 있다.
[수학식 9]
대사증후군 Ps=1/(1+eb6)
본원의 일 실시예에 따르면, b5은 대사증후군과 연관된 복수의 상태 변수 중 대사이상 질환과 연관된 적어도 하나 이상의 선정한 상태 변수 및 대사이상 질환과 연관된 유전자 정보의 존재 여부에 따라 대사이상 질환의 질병위험도에 적용된 가중치일 수 있다.
b6(대사증후군) = ( 0.37156 * [나이=50-59] + 0.77011 * [나이=60-69] +0.77932* [나이=70+] + 0.19062* [성별=여성] +0.55962* [최종학력=무학] +0.29267* [최종학력=초등학교] + 0.13976* [최종학력=중학교] +0.15700 * [최종학력=고등학교] - 0.01005* [최종학력=4년제대학] + 0.15700 * [월평균수입=300만원미만] + 0.06766 * [월평균수입=300-399] -0.04082* [월평균수입=600만원+]+ 0.70804* [ALT=20-39] + 1.28371 * [ALT=40+] -0.11653 * [Hb=빈혈] + 0.41211* [Hb 남자15/여자14 이상] + 0.45108 *[단백뇨= + ] + 1.12817 *[단백뇨=2+ - 4+] + 0.07696 *[나트륨섭취=과잉] + 0.12222 *[칼륨섭취=과잉] +0.06766*[열량섭취=과잉] + 0.06766*[몸에땀날정도운동=거의안함] + 0.02956*[몸에땀날정도운동=5+회/주] +0.15700 *[흡연력<20PY] +0.30010 *[흡연력=20-39] + 0.27003 *[흡연력=40+] + 0.27763 *[심근경색과거력=예] + 0.57098 *[지방간과거력=예] + 0.11333 *[담낭염과거력=예] -0.17435 *[알레르기질환=예] - 0.12783*[갑상선질환과거력=예] + 0.10436 *[관절염=예] + 0.59333*[hscrp=0.3+] + 0.20701 *[hscrp=0.3+] -0.28768 *[혈중요산수치=low] + 0.84157 *[혈중요산수치=high] + 0.24686 *[대사성질환가족력=1명] + 0.34359 *[대사성질환가족력=2명이상])
도3f는 대사증후군 예측 ROC 곡선을 개략적으로 나타낸 도면이다. 예시적으로 도3f를 참조하면, 통계확률 모델 생성부(130)를 기반으로 최종적으로 선정된 대사증후군의 유병확률 모형의 c-통계량(95% 신뢰구간)은 0.730 (0.728-0.733) 로 나타나는 것을 확인할 수 있다.
도3g는 정상집단 및 대사증후군집단에서의 대사증후군 확률 분포를 개략적으로 나타낸 그래프이다. 도3g의 도면부호 (a)는 정상집단에서의 대사증후군 확률 분포이고, 도면부호 (b)는 대사증후군집단에서의 대사증후군 확률 분포를 나타낸 그래프일 수 있다. 도3g를 참조하면, 통게적 확률 모델 생성부(130)에서 구축된 최종 예측모형을 통해 예측된 대사증후군 유병 확률을 현재의 정상, 대사증후군 상태에 따라 분포를 확인할 수 있다. 또한, 도3g에 나타낸 그래프를 참조하여, 대사증후군이 나타난 군에서 실제 대사증후군 유병상태일 확률값이 증가하는 양상을 보이는 것을 확인할 수 있다.
본원의 일 실시예에 따르면 질병 위험도 예측부(140)는 기계학습 모델 및 통계확률 모델에 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 대상자의 대상자 질병 위험도를 예측할 수 있다. 또한, 질병 위험도 예측부(140)는 대상자의 질병 위험도 예측 결과를 기 설정된 분류 항목에 기반하여 시각화할 수 있다. 예를 들어, 질병 위험도 예측부(140)는 딥러닝 기반의 시각화 알고리즘을 구축하여 기계학습 모델 생성부(120)의 기계학습 모델 및 통계확률 모델 생성부(130)의 통계확률 모델을 기반으로 각 대상자별 시각화된 결과를 제공할 수 있다. 질병 위험도 예측부(140)는 부정적 요인의 변화양상을 바탕으로 개인의 질병 위험 경로의 변화를 예측하여 시각화하여 제공할 수 있다. 또한, 질병 위험도 예측부(140)는 긍정적 요인의 변화양상을 바탕으로 개인의 질병 위험 확률이 감소될 수 있는 안전 경로를 시각화하여 제공할 수 있다. 또한, 질병 위험도 예측부(140)는 부정적 요인 및 긍정적 요인의 변화 양상을 통합적으로 고려하여, 각 대상자별 생활 습관의 변화양상을 바탕으로 대사이상질환 및 최종 건강상태인 심혈관계 질환, 만성심장질환 및 사망에 대한 위험회피 경로 안내를 통해 개인 맞춤형 예방 관리 서비스 모형을 제공할 수 있다.
예시적으로, 질병 위험도 예측부(140)는 추후 반복 측정된 대상자(개인)의 복수의 상태 정보(생활 습관 및 건강 상태 정보)를 기계학습 모델 생성부(120) 및 통계확률 모델 생성부(130)에 재입력하여 각 역학적 변수의 시간에 따른 변화를 파악하고 변화 속도를 예측 모형에 적용하여 계산하여, 대상자의 중간건강관리에 따른 건강상태 수정결과와 그에 따른 재 예측된 질병 발생 위험도를 제공할 수 있다.
도4는 본원의 일 실시예에 따른 기계학습 모델 및 통계확률 모델에 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 대상자의 대상자 질병 위험도를 예측하는 과정을 개략적으로 도시한 도면이다. 도 4를 참조하여 설명되는 대상자의 대상자 질병 위험도를 예측하는 과정은 도 1 내지 도3g를 통해 설명된 대사이상 질환의 질병 위험도를 예측하는 장치(100)의 각 부에서 처리하는 내용이므로, 이하 설명되지 않은 내용이라 할지라도, 도 1 내지 도 3g를 통해 설명된 대사이상 질환 질병 위험도 예측 장치(100)의 동작 설명에 포함되거나 유추 가능하므로 자세한 설명은 생략될 수 있다.
도 4를 참조하면, 1. 통계학적 알고리즘은 통계확률 모델 생성부(130)에 의해 수행되는 과정일 수 있다. 먼저, 통계학적 모델 생성부(130)는 유전정보 및 개인 생활습관 기저 및 반복측정 정보 (복수의 상태 변수)를 입력으로 할 수 있다. 통계학적 모델 생성부(130)는 유전자 정보에 기반하여, 주 유전자를 선정할 수 있다. 이때, 각 대사이상 질환과 연계된 유전자 중 중요도가 떨어지지만 포함될 수 있는 추가 유전자를 선정할 수 있다. 또한, 통계적 모델 생성부(130)는 기존 주요연구 상 보고된 각 대사이상 질환과 연계된 중요 유전자를 선정할 수 있다. 통계적 모델 생성부(130)는 각 대사이상 질환과 연계된 최종 유전자를 선정할 수 있다.
다음으로, 통계학적 모델 생성부(130)는 복수의 상태 정보(개인 생활습관 기저 및 반복측정 정보)를 입력으로 하여, 대사이상 질환과 연계된 통계확률 모델 상에서의 중요 상태 정보 요인을 선정할 수 있다. 통계학적 모델 생성부(130)는 의학적 요인 및 통계모형에서 빠진 상태 정보(인자)를 추가적으로 선정할 수 있다. 통계학적 모델 생성부(130)는 최종 복수의 상태 변수(환경요인 변수)를 선정할 수 있다.
통계학적 모델 생성부(130)는 선정된 복수의 상태 변수를 적용하여 대사이상 질환의 질병 위험도를 확률적으로 나타낼 수 있다. 통계학적 모델 생성부(130)는 질병이 없는 정상인들의 상태 변수를 대상자의 복수의 상태 변수를 통계확률 모델과 비교하여 질병 발생 위험을 예측할 수 있다.
도 4에 도시된, 2. 머신러닝 알고리즘은 기계학습 모델 생성부(120)에 의해 수행되는 과정일 수 있다. 기계학습 모델 생성부(120)는 개인 생활습관 반복측정 정보(복수의 상태 변수)를 입력으로 할 수 있다. 또한, 기계학습 모델 생성부(120)는 유전정보를 입력으로 할 수 있다. 기계학습 모델 생성부(120)는 반복 측정된 복수의 상태 변수간의 변화를 확인할 수 있다. 기계학습 모델 생성부(120)는 유사한 복수의 상태 변수들의 집단을 형성할 수 있다. 기계학습 모델 생성부(120)는 유사한 복수의 상태 변수들의 집단에서 성별 및 대사이상 질환별(고혈압, 비만, 당뇨, 대사이상증후군)로 구분할 수 있다. 기계학습 모델 생성부(120)는 질병별로 생활습관의 변화와 관련된 유의한 유전자를 선별할 수 있다. 기계학습 모델 생성부(120)는 기계학습 모델의 반복적 훈련을 통해 예측도를 최적할 수 있다.
본원의 일 실시예에 따르면, 질병 위험도 예측부(140)는 반복 측정된 복수의 상태 변수간의 변화를 시각화하여 제공할 수 있다. 질병 위험도 예측부(140)는 기계학습 모델 생성부(120) 및 통계확률 모델 생성부(130)를 기반으로 예측된 대상자의 대상자 질병 위험도 예측값 중 최적의 예측값을 제공할 수 있다. 예를 들어, 대상자의 복수의 상태 변수 및 유전자 정보를 입력으로 하여 기계학습 모델에서 예측된 예측값이 통계확률 모델 생성부(130)에서 통계학적 모델을 기반으로 생성된 예측값 보다 정확하다고 판단되면, 질병 위험도 예측부(140)는 기계학습 모델 생성부(120)에서 예측된 예측값을 제공할 수 있다. 질병 위험도 예측부(140)는 시뮬레이션 시각화 알고리즘을 적용하여 개인 맞춤형 예방 관리서비스 모형을 제공할 수 있다. 질병 위험도 예측부(140)는 반복측정(복수의 상태 정보를 반복적으로 측정한 측정 값) 수치변화, 위험경로 및 위험회피 경로를 제공할 수 있다. 예시적으로, 위험경로는 대상자의 복수의 생활 습관 중 고혈압의 질환자가 될 예측 정도가 높은 생활 습관의 상태 변수가 발생되는 경우, 해당 상태 변수를 제공하여, 부정적 영향 요인의 시뮬레이션 위험 예측값을 제공할 수 있다.
도 5는 본원의 일 실시예에 따른 통계 확률 모델 생성부(130)의 질병유병 위험 발생위험 확률 예측과 사망위험을 통한 위험도를 평가하는 실시예를 설명하기 위한 예시도이다.
예시적으로, 도5를 참조하면, 통계확률 모델 생성부(130)는 입력1로 개인이 인식하고 있는 요인들을 입력받을 수 있다. 일예로, 개인이 인식하고 있는 요인은 생활습관, 신체 계측치, 질병력과 같은 요인일 수 있다. 통계확률 모델 생성부(130)는 입력2로 개인이 인식하지 못하고 있는 요인들을 입력 받을 수 있다. 개인이 인식하지 못하고 있는 요인들은 영양소 섭취 및 임상수치와 같은 요인일 수 있다.
통계확률 모델 생성부(130)는 입력1 및 입력2를 기반으로 특정 질환과 연계된 주요 상태 변수를 선정하고, 대상자의 현재 질병가능 확률을 예측할 수 있다. 본원에서는 대사증후군, 비만, 고혈압, 당뇨병과 같은 대사이상 질환의 질병의 유병확률을 예측할 수 있다. 통계확률 모델 생성부(130)는 확률 평가 결과를 매우 높음, 높음, 보통, 낮음과 같은 위험도 중 하나를 선정하여 확률 평가 결과를 제공할 수 있다. 질병 위험도 예측부(140)는 확률 평가 결과에 기반하여 각 위험도에 해당하는 대상자(개인)의 맞춤형 위험 조치 정보를 제공할 수 있다. 대상자(개인)의 맞춤형 위험 조치 정보는 고확률 대상에 대한 병원 내원, 건강 검진 등의 정보 및 현재 질병가능확률을 감소할 수 있는 방안일 수 있다.
통계확률 모델 생성부(130)는 중간건강상태 제공 이후 일정 시간이 지난 후 향후 대사이상 질환의 질병발생 위험 평가를 제공할 수 있다. 통계확률 모델 생성부(130)는 위험 평가 결과를 최고 위험군, 고 위험군, 중간정도 위험군, 저위험군으로 구분하여 대상자의 위험 평가 결과를 제공할 수 있다. 질병 위험도 예측부(140)는 위험 평가 결과에 기반하여 개인 맞춤형 위험 조치 정보를 제공할 수 있다.
또한, 통계확률 모델 생성부(130)는 향후 질병발생 위험 및 사망위험의 위험 평가 결과를 제공할 수 있다. 예를 들어, 최종결과는 대사이상 질병 발생 이후 발생할 수 잇는 만성신장질환, 심혈관질환 사망의 위험 평가 결과일 수 있다. 통계확률 모델 생성부(130)는 최종 결과에 대한 위험 평가를 최고 위험군, 고 위험군, 중간정도 위험군, 저위험군으로 구분하여 대상자의 최종 결과 위험 평가 결과를 제공할 수 있다. 질병 위험도 예측부(140)는 최종 결과 위험 평가 결과에 기반하여 개인 맞춤형 위험 조치 정보를 제공할 수 있다.
질병 위험도 예측부(140)는 대사이상 질환의 부정적 영향 요인의 시계열적 변동 정보를 제공할 수 있다. 또한, 질병 위험도 예측부(140)는 긍정적 영향 요인의 시계열적 변동 정보를 제공할 수 있다. 질병 위험도 예측부(140)는 부정적 영향 요인이 가상 중재될 경우, 긍정적 시계열 요인 변동경로를 제공할 수 있다. 질병 위험도 예측부(140)는 중재 전후 가상시뮬레이션 위험 예측값을 제공할 수 있다.
본원의 일 실시예에 따르면, 사용자는 질병 위험도 예측부(140)가 제공한 개인 맞춤형 위험 조치 정보를 기반으로 개인의 건강상태 개선을 시행하고, 기 설정된 주기(예를 들어, 1년)마다 복수의 상태 변수, 즉, 개인이 인식하고 있는 요인들을 입력하고, 통계확률 모델 생성부(130)는 복수의 상태 변수에 기반하여 중간건강상태, 결과, 최종결과를 반복적으로 예측할 수 있다.
도6은 본원의 일 실시예에 따른 대사이상 질환 질병 위험도 예측 과정의 일 실시예를 설명하기 위한 도면이다.
예시적으로 도 6을 참조하면, 대사이상 질환 질병 위험도 예측 장치(100)는 질병 예측 서버(200)로부터 다기관 코호트 빅데이터 취합 및 연계 정보를 제공받을 수 있다. 질병 예측 서버(200)는 한국인 유전체역학 코호트 기초자료(KoGesm n=21만명), 한국인 유전체역학 코호트 유전자 자료(KoGES, n=1만명), 국가 암 등록 자료 및 통계청 사망원인 자료를 포함할 수 있으나, 이에 한정되는 것은 아니다. 예를 들면, 대사이상 질환 질병 위험도 예측 장치(100)에 한국인 유전체역학 코호트 기초자료(KoGesm n=21만명), 한국인 유전체역학 코호트 유전자 자료(KoGES, n=1만명), 국가 암 등록 자료 및 통계청 사망원인 자료가 저장되어 있을 수 있다.
대사이상 질환 질병 위험도 예측 장치(100)는 기저 측정자료 및 생활습관 역동패턴의 통합모델을 구축할 수 있다. 대사이상 질환 질병 위험도 예측 장치(100)는코호트 기저자료(n=21만명) 기반 건강나이를 모형화할 수 있다. 대사이상 질환 질병 위험도 예측 장치(100)는유전체 역학자료기반 생활습관 역동성 및 유전변이를 연계분석하고 인공지능 모델을 기반으로 통합모델을 구축할 수 있다. 대사이상 질환 질병 위험도 예측 장치(100)는 건강나이, 생활습관 역동성, 유전정보 통합 모델을 구축할 수 있다.
또한, 대사이상 질환 질병 위험도 예측 장치(100)는 한국인 주요질병 위험인자 및 위험 회피 모형을 도출할 수 있다. 대사이상 질환 질병 위험도 예측 장치(100)는 유전자, 과거력, 가족력, 치료력, 생활습관, 식습관, 여성력, 검사수치, 신체계측 등의 입력 정보를 기반으로 기계학습 모델 및 통계학적 모델을 통해 고혈압, 당뇨, 비만, 대사증후군, 위암, 대장암, 갑상선암, 유방암 등의 질병을 예측할 수 있다.
대사이상 질환 질병 위험도 예측 장치(100)는 개인맞춤 질병위험 및 위험회피 안내지도를 생성할 수 있다. 대사이상 질환 질병 위험도 예측 장치(100)는 개인맞춤 질병위험 및 위험회피 안내지도를 제공함으로써, 개인별 건강상태 개선을 시행하여 질병 위험 확률을 감소시킬 수 있다.
도 7은 본원의 일 실시예에 따른 복수의 대사이상질환의 클러스터링을 나타낸 도면이다. 도 7을 참조하면, 기계학습 모델 생성부(120)는 복수의 상태 변수들을 대사이상질환 각각에 해당하는 복수의 상태 변수들을 클러스터링 할 수 있다.
도8은 본원의 일 실시예에 따른 대사이상질환의 질병위험에 대한 안내지도를 시각화한 도면이다. 도 3을 참조하면, 질병 위험도 예측부(140)는 복수의 상태 변수들을 기반으로 대사이상질환의 질병들의 위험, 안전, 최적 등의 질병위험도에 대한 안내지도를 시각화하여 제공할 수 있다.
이하에서는 통계확률 모델 생성부(130)를 통하여 구축된 예측결과 중 전단계고혈압 및 고혈압 발생예측에 대한 결과를 예시적으로 설명하고자 한다. 예시적으로, 통계확률 모델 생성부(130)는 콕스 비례위험 모형을 통하여 각각의 복수의 상태 변수(생활 습관 및 건강 상태 변수) 와 고혈압의 발생 사이의 상관관계와 임상적 유의성을 평가할 수 있다. 또한, 통계확률 모델 생성부(130)는 고혈압 발생과 유의한 상관성을 갖는 변수들을 모두 통계적 모델에 포함하여 다변량 콕스 비례위험 모형을 구축할 수 있다. 통계확률 모델 생성부(130)는 다변량 콕스 비례위험 모형에서 각 질병의 발생과 유의한 상관관계를 보이는 변수들을 선정하고, 이 과정에서 파악된 후보변수들을 통계적 설명력과 임상적 유의성, 기존의 알려진 역학적 근거들을 토대로 최종 모델을 선정할 수 있다.
이하의 표 1 내지 표3은 변수선정 결과를 개략적으로 나타낸 표일 수 있다.
표1은 변수선택법 중 전진 선택법(forward)를 적용하여 선정된 변수들의 결과일 수 있다.
Variables P-value
1 나이 <.0001
2 교육수준 0.0072
3 당뇨 이환여부 0.2742
4 고지혈증 과거력 0.0002
5 흡연상태 0.0022
6 알코올 섭취정도 <.0001
7 체질량지수 <.0001
8 간기능검사(ALT) <.0001
9 공복혈당 100mg/dL 이상 <.0001
10 허리둘레 남자90 / 여자 85 이상 0.0131
11 소변 Dipstick 검사 - 단백검출 0.0185
12 소변 Dipstick 검사 - 당검출 0.4736
13 대사성 심뇌혈관질환 가족력 0.0186
14 심부전 과거력 0.0601
15 관상동맥질환 과거력 0.0212
16 만성 폐질환 과거력 <.0001
17 뇌혈관질환 과거력 0.0217
[표2]는 변수선택법(backward: 제거된 변수 리스트, SLS=0.05) 중 후진제거법을 적용하여 선정된 선정 변수일 수 있다.
Variables P-value
1 나이 <.0001
2 교육수준 0.0057
3 고지혈증 과거력 <.0001
4 흡연상태 0.0026
5 알코올 섭취정도 <.0001
6 체질량지수 <.0001
7 간기능검사(ALT) <.0001
8 공복혈당 100mg/dL 이상 <.0001
9 허리둘레 남자90 / 여자 85 이상 0.0142
10 공복혈당 125mg/dL 이상 0.0434
11 소변 Dipstick 검사 - 단백검출 <.0001
12 대사성 심뇌혈관질환 가족력 0.0149
13 관상동맥질환 과거력 0.0202
11 만성 폐질환 과거력 <.0001
12 뇌혈관질환 과거력 0.0254
[표3]는 변수선택법 중 단계적 선택법(stepwise: SLE=0.2, SLS=0.1)을 적용하여 선정된 선정 변수일 수 있다.
Variables P-value
1 나이 0.0033
2 가계 수입 0.0029
3 알코올 섭취정도 <.0001
4 체질량지수 0.004
5 BUN <.0001
6 간기능검사(ALT) 0.0095
7 헤모글로빈 <.0001
8 HbA1c <.0001
9 공복혈당 100mg/dL 이상 <.0001
10 허리둘레 남자90 / 여자 85 이상 <.0001
11 소변 Dipstick 검사 - 헤모글로빈검출 0.0003
12 철분 섭취력 0.0004
13 대사성 심뇌혈관질환 가족력 0.0002
14 관상동맥질환 과거력 0.0215
15 만성 폐질환 과거력 0.0001
통계확률 모델 생성부(130)는 표1 내지 표3에 도시된 변수선택법의 세가지 단계를 거쳐 파악된 후보변수들을 기반으로 최종 모델을 선정하는 과정에서 다중공선성을 배제하고 각 변수(복수의 상태변수)에 대한 안정적인 계수값을 산출하기 위해 두 개 이상의 변수들을 통합하거나 변수의 구간을 단순화하는 과정을 수행할 수 있다. 예시적으로, 통계확률 모델 생성부(130)는 소변 딥스틱(Dipstick) 검사의 경우 요당검출과 요단백검출을 통합하여 Urine Score라는 변수로 변환하였으며, 연령의 경우, 40-49세 / 50-59세 / 60세 이상으로, 신체 계측치 및 임상수치와 같은 연속형 변수의 경우 임상적 기준에 의거하여 정상범위와 정상을 벗어난 위험수준 범위, 혹은 정상범위 / 경계수준 / 위험수준 으로 구분하여 최종 변수를 선정할 수 있다.
본원의 일 실시예에 따르면, 통계확률 모델 생성부(130)의 복수의 상태 변수 선정 과정을 통해 각 대사이상 질병의 위험요인이 대사이상 질병에 미치는 영향을 그래프로 도식화하여 제공할 수 있다.
도9a는 고혈압 발생 위험요인의 상관관계를 그래프로 도식화하여 제공한 도면이다. 도 9a를 참조하면, 통계확률 모델 생성부(130)는 선정된 콕스 비례위험 모형에서 변수별 질병 발생 위험도에 미치는 영향도(b)값을 이용하여 [수학식 10]
Figure 112017131046614-pat00029
과 같이 Joint Risk(JR)을 연산할 수 있다.
통계확률 모델 생성부(130)는 각 대상자별 관측된 (observed) 질병발생 위험 (R)과 기저위험을 나타내는 각 변수 조합 별 기대되는 (expected) 질병의 위험도 (R0) 를 예측하여 아래와 같은 공식을 이용하여 최종적으로 각 대상자 고유의 risk score를 연산할 수 있다.
각 대상자별 관측된 (observed) 질병발생 위험 (R)은 [수학식 11]
Figure 112017131046614-pat00030
과 같이 표현될 수 있다.
또한, 기저위험을 나타내는 각 변수 조합 별 기대되는 (expected) 질병의 위험도 (R0) [수학식 12]
Figure 112017131046614-pat00031
와 같이 표현될 수 있다.
각 대상자 고유의 Risk Socore는 [수학식 13]
Figure 112017131046614-pat00032
과 같이 표현될 수 있다.
위의 수식을 이용해 고혈압의 발생 위험점수 (risk score)를 예시로 구한 결과는 다음과 같다.
R(고혈압) = 0.35081 X [나이 50-59세] +0.78914 X [나이 60세이상] + 0.12973 X [성별: 여성] + 0.20087 X [교육수준: 초등학교 이상] + 0.50856 X [교육수준: 무학] + 0.12850 X [과거 음주 & 현재 금주자] + 0.51991 X [현재 음주자] + 0.23994 X [대사성 심뇌혈관질환 가족력 수: 1] + 0.46804 X [대사성 심뇌혈관질환 가족력 수: 2+] + 0.23038 X [ALT: 20-39] + 0.49469 X [ALT: 40+] + 0.21599 X [공복혈당: 126+] + 0.46171 X [Urine score: 1] +0.75740 X [Urine score: 2+] -0.53332 X [체질량지수: 23-25] -0.28629 X [체질량지수: 25+] +0.48784 X [허리둘레이상] + 0.64224 X [대사성 심뇌혈관질환 병력 유무]
R(고혈압전단계) = (0.31015*[성별=남성] + 0.64466 * [최종학력=무학 혹은 초등학교] + 0.30032 * [최종학력=중·고등학교] + 0.25211 * [소변 딥스틱검사=1+] + 0.67147 * [소변 딥스틱검사=2+ or above] + 0.14519 * [음주상태=현재정상음주자] + 0.49028 * [음주상태=과도음주(WHO기준)] + 0.28945 * [공복혈당 100mg/dL 이상] + 0.20918 * [ALT 20-39] + 0.34625 * [ALT 40+] + 0.56323 * [허리둘레(남자90cm, 여자85 이상)]
R0 (고혈압)= (0.35081 X 0.167937) + (0.78914 X 0.058857) + (0.12973 X 0.336888) + (0.20087 X 0.383394) + (0.50856 X 0.048626)+ (0.12850 X 0.13931) + (0.51991 X 0.004758) + (0.23994 X 0.006942) + (0.4804 X 0.000212) + (0.23038 X 0.115931) + (0.49469 X 0.004099) + (0.21599 X 0.027350) + (0.46171 X 0.006726) + (0.75740 X 0.000024) + (-0.53332 X 0.147837) + (-0.28629 X 0.073394) + (0.48784 X 0.045542) + (0.64224 X 0.000048);
(고혈압전단계)= (0.31015* 0.4359) + (0.64466*0.2029) + (0.30032*0.6239) + (0.25211*0.0713) + (0.67147*0.0032) + (0.14519*0.3935) + (0.49028*0.0628) + (0.28945*0.1631) + (0.20918*0.3499) + (0.34625*0.0610) + (0.56323*0.2012)
도9b를 참조하면, 질병 위험도 예측부(140)는 상기의 공식을 이용하여 전체 대상에 대해 고혈압과 고혈압 전단계의 발생 위험점수를 계산하고, 이를 바탕으로, 고혈압의 2년, 4년, 10년 발생 위험도를 산출할 수 있다.
도9c의 도면부호(a)는 고혈압 발생확률 그래프이고, 도면부호(b)는 고혈압 발생의 주요 요인의 risk score와 10년 고혈압 발생위험도를 나타낸 그래프이다.
본원의 일 실시예에 따르면, 통계확률 모델 생성부(130)는 경쟁 위험 모형을 완성하기 위하여서는 일반 인구집단에서의 각 질병(고혈압, 당뇨병, 비만, 대사증후군 및 만성신장질환)에 대한 발생률과, 각 질병으로 인한 사망률, 전체 사망 원인으로 인한 사망률 자료가 필요하며, 전체 사망률 자료는 통계청의 연령별 사망 원인 통계 자료를 통해, 비만, 고혈압 및 대사증후군으로 인한 사망률은 기존 문헌의 비만, 고혈압 및 대사증후군으로 인한 사망의 인구집단 기여위험도 정보와 통계청의 연령별 사망 원인 통계 자료를 이용해 산출할 수 있다. 각 질병에 대한 연령별 발생률은 건강보험공단의 건강검진 표본코호트 자료를 이용하여 산출할 수 있다.
[수학식 13]
Figure 112017131046614-pat00033
대사이상 질환 질병 위험도 예측 장치(100)는 산출된 연령별 질병의 발생률, 사망률, 전체 사망률을 기반으로 [수학식 13]과 같이 경쟁 위험 모형을 구축할 수 있다. 구축된 경쟁 위험 모형은 타당도 검증을 위하여 전체 대상자를 5등분하여 교차 검증을 시행하여 검증과정을 진행할 수 있다.
이하에서는 고혈압 발생위험 예측모형의 예측력 검증과정을 설명고자 한다. 고혈압 발생위험 모형의 예측력 및 검증은 총 3가지 방법을 이용하여 실행할 수 있다. ROC curve와 AUC값을 이용하여 내적 타당도와 교차검증을 시행하고, 기 산출된 Risk score 값에 대해 고혈압 발생의 관찰값과 발생 예측값을 비교할 수 있다. 고혈압 발생 위험의 optimal cutpoint에 대해 Youden index와 Distance to (0, 1)과 민감도 타당도의 일치도 3가지 방법의 민감도와 타당도를 확인을 통해 구축된 riskscore에 따른 고혈압 발생예측의 예측도를 평가할 수 있다.
도 9d를 참조하면, 70%의 training set(대상자: 6,657명) 을 사용하여 구축한 고혈압 발생 예측모형에서의 AUC 값은 0.7186, 95% 신뢰구간은 0.7023-0.7350 으로 확인된 것을 알 수 있다. 또한, 30%의 training set (대상자: 2,2853명)을 사용하여 구축한 고혈압 발생 예측모형에서의 AUC 값은 0.7405, 95% 신뢰구간은 0.7239-0.7570 으로 확인된 것을 알 수 있다.
통계확률 모델 생성부(130)는 고혈압발생위험의 예측력을 검정하기 위해 교차검증(cross-validation)을 실시할 수 있다. 교차검증의 방법은 boot-straping 기법을 이용하여 training set과 test set에서 각 1,000번의 permutation을 시행하여 permutation 결과, training set은 6,657,000개, test set은 2,853,000개의 관측치를 확인하였다. 다음 기 산출된 모형의 확률 산출 방식을 그대로 적용하여 validation set의 관찰값과 기댓값이 일치되는지에 대해 교차검증을 시행하였다. 그 결과 도9e에 도시된 것과 같이, training set에 대한 고혈압 발생 위험의 예측력 검증값은 AUC 값은 0.7186, 95% 신뢰구간은 0.7181-0.7191로 나타났다. 또한 도9e에 도시된 것과 같이, test set에 대한 예측력은 AUC 값은 0.6870, 95% 신뢰구간은 0.6862-0.6878 로 나타났다.
도 9f는 전체 대상자에 대한 고혈압 발생값과 예측값에 대한 비교 그래프이다.(10년 발생 기준) 도 9f에 도시된 그래프를 참조하면, 기 산출된 Risk score 값에 대해 고혈압 발생의 관찰값과 발생 예측값을 비교하였다 (10년 발생 위험도 비교). 이 과정에서 추적관찰 기간 10년간 고혈압 실제 발생값과 모형을 통해 예측한 위험도가 거의 비슷하게 산출되었음을 확인할 수 있다.
본원의 일 실시예에 따르면, training set에 대해 Yoden index, Distance to (0,1), Sensitivity, Specificity equality의 원칙을 이용하여 optimal cutpoint와 민감도와 타당도를 확인하였다.
그 결과로 training set에서의 AUC 값은 0.7186, 95% 신뢰구간은 0.7023-0.7350으로 계산되었다. Yoden index를 산출하는 방법은 최대값 (J=민감도+특이도-1)을 이용하며, 이 때의 최대값은 0.3752로 산출되었다. 이에 따른 cut-point는 0.32488이며, 민감도 = 0.73661, 특이도 = 0.59764인 것이 확인되었다. Distance to (0,1) 방법에 따라 산출된 최소값은 0.47389였으며, 이에 따른 cut-point는 0.31509이며, 민감도 = 0.69085, 특이도 = 0.64083로 산출되었다. Sensitivity, Specificity equality 방법은 민감도와 특이도의 차이값이 최소인 경우를 뜻하며, 이 때 산출된 최소값은 0.00011이며, 이에 따른 cut-point는 0.31248이며, 민감도 = 0.66183, 특이도 = 0.66172임을 확인하였다. 도9g는 training set을 이용한 고혈압 발생예측 모형의 예측력 (AUC: 0.7186)을 나타낸 그래프이다.
[표 4]는 상기에 설명된 3가지 방법을 이용한 optimal cut-point와 민감도, 타당도 확인한 결과일 수 있다.
cut-point Sensitivity Specificity
Yoden index 0.32488 0.73661 0.59764
Distance to (0,1) 0.31509 0.69085 0.64083
Sensitivity, Specificity equality 0.31248 0.66183 0.66172
앞서 설명된 통계확률 모델 생성부(130)를 통하여 구축된 예측결과 중 (2) 당뇨 발생 예측에 대한 결과는 다음과 같다. 우선은 질병관리본부 지역사회코호트 자료를 대상자 기준으로 80%의 training set과 20%의 test set으로 나누고 training set로 다음과 같은 모델 구축을 진행하였다. 당뇨병 유병위험 예측모형에서 유의하였던 변수들을 대상자 나이를 default 변수로 포함하는 단항 콕스 비례위험 모형에 적용하여 상관관계를 평가하여 후보변수들을 선정하였다.
다만 지역사회 코호트 자료의 변수들 중 반복측정자료에서 매 측정시마다 바뀔 수 있는 변수는 time-dependent 형태로 바꾸어 다항 콕스 회귀분석에 적용하였다. 초경 나이, 교육 수준 등 그 값이 고정된 변수들은 time-independent한 최초 측정된 변수값들을 적용하였다. 아래는 상기의 과정과 이에 따라 선정된 후보변수를 성별에 따라 Harrell’s C concordance index가 큰 순으로 나타낸 것이다.
[표5]는 남성 당뇨병 발생위험 예측모형 후보변수이다.
변수명 HR (95% CI) P-value Harrell’s C
허리-엉덩이 둘레 비율 3.35 (1.71 - 6.57) 0.0004 0.674
6.55 (3.4 - 12.63) <.0001
11.19 (5.77 - 21.69) <.0001
γ-GTP 2.32 (1.03 - 5.22) 0.042 0.673
3.72 (1.71 - 8.09) 0.0009
7.71 (3.59 - 16.55) <.0001
Triglyceride 1.7 (1.07 - 2.72) 0.0258 0.65
2.43 (1.55 - 3.79) 0.0001
4.03 (2.63 - 6.17) <.0001
ALT 간 수치 1.47 (1.01 - 2.15) 0.0451 0.649
3.93 (2.63 - 5.88) <.0001
BMI 체질량 지수 1.36 (0.91 - 2.02) 0.1341 0.638
2.06 (1.42 - 2.99) 0.0001
3.38 (2.35 - 4.86) <.0001
DBP 이완기 혈압 1.48 (0.95 - 2.3) 0.082 0.617
2.43 (1.58 - 3.73) <.0001
2.92 (1.93 - 4.44) <.0001
SBP 수축기 혈압 1.38 (0.92 - 2.07) 0.1206 0.606
2.09 (1.44 - 3.05) 0.0001
2.29 (1.53 - 3.44) 0.0001
고혈압 과거력 - 진단 여부 2.34 (1.7 - 3.21) <.0001 0.595
흡연 pack-year 1.27 (0.84 - 1.91) 0.2528 0.592
2.06 (1.41 - 3.02) 0.0002
1.93 (1.23 - 3.04) 0.0043
HDL-cholesterol 0.69 (0.51 - 0.93) 0.0154 0.59
0.54 (0.37 - 0.8) 0.0022
0.58 (0.4 - 0.84) 0.0036
수입 0.88 (0.63 - 1.23) 0.4421 0.577
0.65 (0.45 - 0.94) 0.0229
0.6 (0.34 - 1.06) 0.0801
섬유[Fiber(g)] 1.07 (0.73 - 1.55) 0.7386 0.575
1.07 (0.74 - 1.56) 0.7048
1.48 (1.03 - 2.13) 0.0346
헤모글로빈 1.52 (0.74 - 3.13) 0.2512 0.575
2.26 (1.09 - 4.66) 0.0281
만성위염 과거력 - 진단 여부 0.58 (0.41 - 0.82) 0.0022 0.575
고지혈증 과거력 - 진단 여부 2.43 (1.42 - 4.19) 0.0013 0.573
요산 (Uric Acid) 1.32 (0.66 - 2.64) 0.4244 0.571
1.72 (0.9 - 3.31) 0.1032
1.87 (0.98 - 3.57) 0.0565
고혈압 가족력 - 가족력 유무 1.32 (0.97 - 1.79) 0.0753 0.568
비타민 C[Vit.C(mg)] 0.98 (0.68 - 1.41) 0.9061 0.567
1.06 (0.74 - 1.52) 0.759
1.36 (0.95 - 1.95) 0.0931
Total cholesterol 1.22 (0.85 - 1.77) 0.2776 0.567
1.3 (0.89 - 1.9) 0.1739
1.56 (1.08 - 2.25) 0.0182
회분[Ash(mg)] 1.21 (0.81 - 1.8) 0.3516 0.567
1.27 (0.86 - 1.88) 0.2213
1.44 (0.98 - 2.13) 0.0625
칼륨[K(mg)] 1.12 (0.76 - 1.64) 0.5693 0.566
1.24 (0.85 - 1.8) 0.2704
1.39 (0.95 - 2.03) 0.0867
알레르기질환 과거력 - 진단 여부 0.59 (0.28 - 1.25) 0.1704 0.563
레티놀[Retinol(ug)] 0.7 (0.48 - 1.02) 0.0623 0.563
0.82 (0.57 - 1.17) 0.2662
0.88 (0.62 - 1.25) 0.4802
결혼 여부 0.65 (0.38 - 1.09) 0.1013 0.563
당뇨병 가족력 - 가족력 유무 1.68 (1.14 - 2.47) 0.0082 0.562
심장질환 가족력 - 가족력 유무 0.51 (0.23 - 1.14) 0.101 0.561
직업 0.63 (0.42 - 0.94) 0.022 0.561
0 ( - ) 0.9934
0.93 (0.68 - 1.26) 0.6272
나트륨[Na(mg)] 1.35 (0.9 - 2.02) 0.1485 0.561
1.58 (1.06 - 2.35) 0.0249
1.33 (0.89 - 2) 0.1609
교육 수준 1.08 (0.77 - 1.52) 0.6519 0.56
0.68 (0.43 - 1.07) 0.0954
협심증/심근경색증 과거력 - 진단 여부 2.43 (0.89 - 6.58) 0.0818 0.56
갑상선 질환 - 진단 여부 2.28 (1.01 - 5.12) 0.0468 0.557
[표 6]은 여성 당뇨병 발생위험 예측모형 후보변수이다.
변수명 HR (95% CI) P-value Harrell’s C
Triglyceride 2.71 (1.8 - 4.09) <.0001 0.718
4.15 (2.78 - 6.19) <.0001
6.55 (4.41 - 9.74) <.0001
BMI 체질량 지수 2.34 (1.48 - 3.69) <.0001 0.713
3.12 (2 - 4.86) <.0001
6.3 (4.15 - 9.56) <.0001
γ-GTP 2.18 (1.64 - 2.9) <.0001 0.702
3.79 (2.78 - 5.17) <.0001
4.51 (3.1 - 6.55) <.0001
DBP 이완기 혈압 2.13 (1.51 - 3.01) <.0001 0.688
2.33 (1.61 - 3.38) <.0001
3.82 (2.7 - 5.39) <.0001
SBP 수축기 혈압 1.67 (1.17 - 2.39) 0.0048 0.684
1.95 (1.36 - 2.79) 0.0003
3.36 (2.38 - 4.75) <.0001
허리-엉덩이 둘레 비율 2 (1.39 - 2.88) 0.0002 0.679
2.48 (1.73 - 3.55) <.0001
3.22 (2.28 - 4.53) <.0001
고혈압 과거력 - 진단 여부 2.54 (1.96 - 3.3) <.0001 0.678
HDL-cholesterol 0.69 (0.52 - 0.91) 0.0078 0.672
0.53 (0.38 - 0.73) 0.0001
0.38 (0.27 - 0.53) <.0001
Total cholesterol 2.03 (1.43 - 2.89) 0.0001 0.665
1.91 (1.33 - 2.72) 0.0004
2.23 (1.56 - 3.18) <.0001
ALT 간 수치 1.73 (1.36 - 2.2) <.0001 0.664
3.68 (2.53 - 5.34) <.0001
헤모글로빈 1.64 (1.21 - 2.23) 0.0015 0.65
2.7 (1.72 - 4.26) <.0001
당뇨병 가족력 - 가족력 유무 2.08 (1.54 - 2.8) <.0001 0.649
협심증/심근경색증 과거력 - 진단 여부 3.5 (1.65 - 7.44) 0.0011 0.648
만성위염 과거력 - 진단 여부 0.78 (0.59 - 1.03) 0.0806 0.646
고혈압 가족력 - 가족력 유무 1.25 (0.95 - 1.63) 0.106 0.645
Albumin 1.35 (1.03 - 1.77) 0.027 0.645
1.36 (0.97 - 1.9) 0.0766
1.23 (0.84 - 1.8) 0.2902
칼슘[Ca(mg)] 0.72 (0.52 - 0.99) 0.0423 0.644
0.9 (0.66 - 1.22) 0.4976
0.85 (0.62 - 1.15) 0.2919
직업 0.57 (0.25 - 1.31) 0.1848 0.644
1.1 (0.87 - 1.39) 0.4395
1 (0.62 - 1.64) 0.9861
수입 0.77 (0.57 - 1.04) 0.0855 0.644
0.85 (0.61 - 1.18) 0.3226
0.68 (0.38 - 1.23) 0.2042
교육 수준 0.86 (0.65 - 1.14) 0.2948 0.644
0.5 (0.26 - 0.97) 0.0397
흡연 pack-year 1.67 (0.98 - 2.86) 0.0612 0.643
0 ( - ) 0.992
4.86 (0.68 - 34.69) 0.1151
지방[Fat] 0.89 (0.67 - 1.19) 0.4369 0.642
0.99 (0.73 - 1.34) 0.9343
0.67 (0.46 - 0.99) 0.0422
1일 알코올 섭취량 1.1 (0.81 - 1.49) 0.5598 0.642
0.88 (0.51 - 1.52) 0.6556
1.31 (0.65 - 2.66) 0.4526
2.63 (0.84 - 8.26) 0.0974
첫 출산 나이 1 (0.73 - 1.35) 0.9797 0.641
0.91 (0.67 - 1.23) 0.5482
0.77 (0.52 - 1.14) 0.1925
레티놀[Retinol(ug)] 0.79 (0.58 - 1.08) 0.1382 0.64
0.75 (0.55 - 1.04) 0.0871
0.83 (0.6 - 1.14) 0.2477
이하에서 설명되는 수학식은 위의 후보변수들(표4 및 표5)을 토대로 최종 예측모형을 구축하는 과정을 설명한 것이다. 최종 예측모형 구축 과정에는 남·녀 대상자를 구분하여 각각의 군에서 전진 선택법·후진 소거법·단계법 선택법을 적용하여 2차 변수 과정을 거치고 그 중 기존 문헌을 검토하여 임상적으로 유의미한 변수를 최종변수로 선정한다. 이를 토대로 남·여 각각의 최종 당뇨 예측 모형을 구축하였고 다음과 같다.
R(여성) = 0.00995 * [나이] + 0.03922 * [맥박=2Q] +0.02956 * [맥박=3Q] +0.29267 * [맥박=4Q] +0.40547 * [체질량지수=2Q] +0.50078 * [체질량지수=3Q] +0.59333 * [체질량지수=4Q] +0.22314 * [수축기혈압=2Q] +0.45742 * [수축기혈압=3Q] +0.41211 * [수축기혈압=4Q] +0.17395 * [허리-엉덩이둘레비율=2Q] +0.36464 * [허리-엉덩이둘레비율=3Q] +0.51282 * [허리-엉덩이둘레비율=4Q] +0.07696 * [감마지티피=2Q] +0.31481 * [감마지티피=3Q] +0.30010 * [감마지티피=4Q] +0.29267 * [총콜레스테롤=2Q] +0.19062 * [총콜레스테롤=3Q] +0.26236 * [총콜레스테롤=4Q] +0.43178 * [자궁적출술여부=예] +0.14842 * [ALT간수치=경등도상승] +0.37844 * [ALT간수치=중등도상승]
R(남성) = 0.12222 * [감마지티피=2Q] +0.27003 * [감마지티피=3Q] +0.58779 * [감마지티피=4Q] +0.02956 * [허리-엉덩이둘레비율=2Q] +0.23111 * [허리-엉덩이둘레비율=3Q] +0.54232 * [허리-엉덩이둘레비율=4Q] +0.23111 * [ALT=경도상승] +0.47000 * [ALT=중등도상승] +0.23902 * [당뇨병가족력유무=유] +0.21511 * [수축기혈압=3Q] +0.32208 * [수축기혈압=4Q] -0.09431 * [HDL=2Q] -0.15082 * [HDL=3Q] -0.11653 * [HDL=4Q] +0.15700 * [음주=상위50%]
통계확률 모델 생성부(130)는 80% Training set을 사용하여 구축한 상기 성별 당뇨병 전단계 예측모형들의 결과 parameter값들을 사용하여 20% Test set의 각 대상자 risk score를 계산하였다. Risk score와 실제 당뇨병 전단계 발생까지의 time-until-event를 비교하는 Harrell’s C concordance index를 통해 모형의 예측력을 검증하였다. 남성 당뇨병 전단계 예측모형의 경우, Training set에서는 0.6327의 예측력을 보였고, Test set에서 검증된 예측력은 0.6137로 나타났음. 여성 당뇨병 전단계 예측모형의 경우, Training set에서는 0.6968의 예측력을 보였고, Test set에서 검증된 예측력은 0.6633으로 나타났다.
통계확률 모델 생성부(130)를 통하여 구축된 예측결과 중 비만 발생 대한 예측모형은 실제 자료원인 지역사회 코호트의 연령군이 40-70대의 중장년층으로 비만으로의 체중변화가 실제로 연구에 필요한 수준으로 관찰되지 않아 (2) 과체중 발생에 대한 분석만 진행하였다. 과체중 발생 예측에 대한 결과는 도9h에 도시된 그래프와 같다. 우선 콕스 비례위험 모형을 통하여 각각의 생활 습관 및 건강 상태 변수와 과체중의 발생 사이의 상관관계와 임상적 유의성을 평가하며, 과체중 발생과 유의한 상관성을 갖는 변수들을 모두 모형에 포함하여 다변량 콕스 비례위험 모형을 구축한다. 다변량 콕스 비례위험 모형에서 각 질병의 발생과 유의한 상관관계를 보이는 변수들을 선정하고, 이 과정에서 파악된 후보변수들을 통계적 설명력과 임상적 유의성, 기존의 알려진 역학적 근거들을 토대로 최종 모델을 선정하였다. 도9h는 과체중 발생과 위험요인간의 상관관계를 도시한 도면이다.
선정된 콕스 비례위험 모형에서 b 값을 이용하여 joint risk (JR)를 연산하고 각 대상자 고유의 risk score를 연산하는 과정은 앞서 설명한 고혈압 발생 예측모형과 수식과 과정이 동일하다. 과체중 발생 위험점수 (risk score)를 예시로 구한 결과는 다음과 같다.
R=(0.48390453*[40-49세] + 0.410596218*[50-59세]+0.31819286*[sex=female] + 0.378146797*[education=college or above] + 0.137845916*[education=middle or high] + 0.454680575*b_SL_CRP1 + 0.544133653*[past smoker] + 0.057786443*[current smoker]+ 0.483874227*[fasting glucose?100];
Figure 112017131046614-pat00034
= 1.20881
상기의 공식을 이용하여 전체 대상에 대해 대사증후군의 발생 위험점수를 계산하고, 이를 바탕으로, 과체중의 2년, 4년 ,10년 발생 위험도를 산출하였다.
도9i는 10년간의 과체중 위험도(risk score)와 실제 연구대상자에서 관찰된 발생확률를 위험점수의 10분위구간에 따라 나누어 비교한 막대그래프이다.
경쟁 위험 모형을 완성하는 방법은 앞서 설명하였던 고혈압 발생모형의 그것과 과정과 수식, 자료원이 동일하여 생략하였다. 산출된 연령별 질병의 발생률, 사망률, 전체 사망률을 기반으로 구축된 경쟁 위험 모형은 타당도 검증을 위하여 전체 대상자를 5등분하여 교차 검증을 시행하여 검증과정을 진행한다.
도9j를 참조하여, 과체중 발생위험 예측모형의 예측력 검증과정을 설명하고자 한다. 도9j의 도면부호 (a)는 raining set(대상자: 3,089명)의 반복측정 자료를 이용한 과체중 발생예측 모형의 예측력이고, 도면부호(b)는 test set(대상자: 1,324명)의 반복측정 자료를 이용한 과체중 발생예측 모형의 예측력이다. 과체중 발생위험 모형의 예측력 및 검증은 총 3가지 방법을 이용하여 실행할 수 있다. ROC curve와 AUC값을 이용하여 내적 타당도와 교차검증을 시행하고, 기 산출된 Risk score 값에 대해 과체중 발생의 관찰값과 발생 예측값을 비교한다. 과체중 발생 위험의 optimal cutpoint에 대해 Youden index와 Distance to (0, 1)과 민감도 타당도의 일치도 3가지 방법의 민감도와 타당도를 확인을 통해 구축된 riskscore에 따른 고혈압 발생예측의 예측도를 평가한다. 도9j에 도시된 그래프에서 70%의 training set(대상자: 3,089명)을 사용하여 구축한 과체중 발생 예측모형에서의 AUC 값은 0.6069, 95% 신뢰구간은 0.5840-0.6298으로 산출되었다. 30%의 testing set (대상자: 1,324명)을 사용하여 구축한 과체중 발생 예측모형에서의 AUC 값은 0.5862, 95% 신뢰구간은 0.5509-0.6215으로 산출되었다.
통계적 확률 모델 생성부(130)는 과체중 발생위험의 예측력을 검정하기 위해 교차검증(cross-validation)을 실시할 수 있다. 교차검증의 방법은 앞의 고혈압 발생모형의 경우와 마찬가지로 boot-straping 기법을 이용하여 training set과 test set에서 각 1,000번의 permutation을 시행하여 permutation 결과, training set은 16,469,000개, test set은 6,962,000개의 관측치를 확인하였다. 다음 기 산출된 모형의 확률 산출 방식을 그대로 적용하여 validation set의 관찰값과 기댓값이 일치되는지에 대해 교차검증을 시행하였다. 그 결과 아래 그림과 같이 training set에 대한 고혈압 발생 위험의 예측력 검증값은 AUC=0.6065, 95% 신뢰구간 0.6058-0.6073로 나타남. 또한 오른쪽 그림과 같이 test set에 대한 예측력은 AUC=0.5859, 95% 신뢰구간 0.5848-0.5870 로 나타났다.
통계확률 모델 생성부(130)는 training set에 대해 Yoden index, Distance to (0,1), Sensitivity, Specificity equality의 원칙을 이용하여 optimal cutpoint와 민감도와 타당도를 확인하였다. Yoden index를 산출하는 방법은 최대값 (J=민감도+특이도-1)인 지점을 이용하며, 이에 따른 cut-point는 0.34444이며, 민감도=0.61777, 특이도=0.69643를 확인하였다. Distance to (0,1) 방법에 따라 산출된 최소값은 D=0.58615이였으며, 이에 따른 cut-point는 0.35396, 민감도=0.61777, 특이도=0.69643로 산출되었다. Sensitivity, Specificity equality 방법은 민감도와 특이도의 차이값이 최소인 경우를 뜻하며, 이에 따른 cut-point는 0.35304이며, 민감도=0.56752, 특이도=0.60386로 계산되었다.
[표7]은 3가지 방법을 이용한 과체중 발생위험의 optimal cut-point와 민감도, 타당도 확인 결과이다.
cut-point Sensitivity Specificity
Yoden index 0.34444 0.71195 0.46216
Distance to (0,1) 0.35396 0.61777 0.69643
Sensitivity, Specificity equality 0.35304 0.56752 0.60386
본원의 일 실시예에 따르면, 통계적 확률 모델 생성부(130)를 통하여 구축된 예측결과 중 (4) 대사증후군 발생에 대한 예측모형의 구축과정과 결과는 다음과 같다. 우선 콕스 비례위험 모형을 통하여 각각의 생활 습관 및 건강 상태 변수와 대사증후군의 발생 사이의 상관관계와 임상적 유의성을 평가하며, 대사증후군 발생과 유의한 상관성을 갖는 변수들을 모두 모형에 포함하여 다변량 콕스 비례위험 모형을 구축한다. 다변량 콕스 비례위험 모형에서 각 질병의 발생과 유의한 상관관계를 보이는 변수들을 선정하고, 이 과정에서 파악된 후보변수들을 통계적 설명력과 임상적 유의성, 기존의 알려진 역학적 근거들을 토대로 최종 모델을 선정하였다. 도9l은 대사증후군 발생과 위험요인들간의 상관관계를 나타낸 그래프이다.
선정된 콕스 비례위험 모형에서 b 값을 이용하여 joint risk (JR)를 연산하고 각 대상자 고유의 risk score를 연산하는 과정은 앞서 설명한 고혈압 발생 예측모형과 수식과 과정이 동일하다. 대사증후군 발생 위험점수 (risk score)를 예시로 구한 결과는 다음과 같다.
R=(0.19128*[나이=50-59] +0.49768*[나이=60-69] +0.51076*[성별=남성] +0.04479*[최종학력=중고등학교] +0.40455*[최종학력=초등학교 or 무학] +0.09120*[흡연=현재금연 or 흡연] +0.27919*[CRP=이상] +0.93949*[당화혈색소=비정상] +0.15759*[음주=WHO기준이상] +0.29207*[대사성 심뇌혈관질환 가족력 수=1] +0.69454*[대사성 심뇌혈관질환 가족력 수=2+] +0.26725* [ALT=20-39] +0.55180*[ALT=40+] +0.45048* [소변딥스틱=1+] +1.27320*[소변딥스틱=2+] +0.81051*[체질량지수=23-24.9] +1.47086*[체질량지수=25+];
Figure 112017131046614-pat00035
=2.07417
상기의 공식을 이용하여 도9m에 도시된 것과 같이, 전체 대상에 대해 대사증후군의 발생 위험점수를 계산하고, 이를 바탕으로, 대사증후군 2년, 4년 ,10년 발생 위험도를 산출하였다.
경쟁 위험 모형을 완성하기 위하여 일반 인구집단에서의 대사증후군에 대한 발생률과, 각 질병으로 인한 사망률, 전체 사망 원인으로 인한 사망률 자료가 필요하며, 전체 사망률 자료는 통계청의 연령별 사망 원인 통계 자료를 통해, 비만, 고혈압 및 대사증후군로 인한 사망률은 기존 문헌의 대사증후군으로 인한 사망의 인구집단 기여위험도 정보와 통계청의 연령별 사망 원인 통계 자료를 이용해 산출한다. 각 질병에 대한 연령별 발생률은 건강보험공단의 건강검진 표본코호트 자료를 이용하여 산출한다.
[수학식 14]
Figure 112017131046614-pat00036
통계적 확률 모델 생성부(130)는 산출된 연령별 질병의 발생률, 사망률, 전체 사망률을 기반으로 상기의 수학식과 같이 경쟁 위험 모형을 구축한다. 구축된 경쟁 위험 모형은 타당도 검증을 위하여 전체 대상자를 5등분하여 교차 검증을 시행하여 검증과정을 진행한다. 이하에서는 대사증후군 발생위험 예측모형의 예측력 검증과정을 설명한다. 대사증후군 발생위험 모형의 앞의 고혈압 발생 예측모형의 예측력 및 검증과정과 동일하게 총 3가지 방법을 이용하여 실행할 수 있다. (ROC curve와 AUC값을 이용한 내적 타당도와 교차검증, 기 산출된 Risk score 값에 대해 고혈압 발생의 관찰값과 발생 예측값을 비교, 고혈압 발생 위험의 optimal cutpoint에 대해 Youden index와 Distance to (0, 1)과 민감도 타당도의 일치도)
이하에서는 대사증후군 발생위험 모형의 내적 타당도를 검증하기 위하여, 대사증후군 발생의 예측값을 산출하고 모델에 선정된 총 10개의 변수들의 경우의 수를 행렬 자료로 생성하였다. (210=1024개).
70%의 training set(대상자: 3,902명) 을 사용하여 구축한 대사증후군 발생 예측모형에서의 AUC 값은 0.7057, 95% 신뢰구간은 0.6932-0.7182 으로 산출되었다. 또한 30%의 testing set (대상자: 2,2853명)을 사용하여 구축한 대사증후군 발생 예측모형에서의 AUC 값은 0.6961, 95% 신뢰구간은 0.6765-0.7156 으로 확인되었다.
도9n은 통계확률 모델 생성부(130)를 통해 추정된 10년간의 대사증후군 위험도(risk score)와 실제 연구대상자에서 관찰된 발생확률를 위험점수의 10분위구간에 따라 나누어 비교한 막대그래프이다.
도9o의 도면부호(a)는 training set(대상자: 3,902명)의 반복측정 자료를 이용한 대사증후군 발생예측 모형의 예측력이고, 도면부호(b)는 test set(대상자: 2,853명)의 반복측정 자료를 이용한 대사증후군 발생예측 모형의 예측력이다.
통계확률 모델 생성부(130)는 대사증후군 발생위험의 예측력을 검정하기 위해 교차검증(cross-validation)을 실시할 수 있다. 교차검증의 방법은 앞서의 고혈압 발생모형, 과체중 발생모형과 마찬가지로 boot-straping 기법을 이용하여 training set과 test set에서 각 1,000번의 permutation을 시행하였다. 다음 기 산출된 모형의 확률 산출 방식을 그대로 적용하여 validation set의 관찰값과 기댓값이 일치되는지에 대해 교차검증을 시행하였다. 그 결과 아래 그림과 같이 training set에 대한 대사증후군 발생 위험의 예측력 검증값은 AUC=0.7399, 95% 신뢰구간 0.7394-0.7404로 산출되었다. test set에 대한 예측력은 AUC=0.6956, 95% 신뢰구간 0.6949-0.6962로 계산되었다.
도9p의 도면부호 raining set의 부트스트랩을 이용한 대사증후군 발생 위험의 예측력 교차검증결과 그래프이고, (a)는 도면부호 (b)는 est set의 부트스트랩을 이용한 대사증후군 발생 위험의 예측력 교차검증 결과 그래프이다.
통계적 확률 모델 생성부(130)는 training set에 대해 Yoden index, Distance to (0,1), Sensitivity, Specificity equality의 원칙을 이용하여 optimal cutpoint와 민감도와 타당도를 확인하였다. Yoden index를 산출하는 방법은 최대값 (민감도+특이도-1)을 이용하며, 이 때의 최대값은 0.31692로 산출되었다. 이에 따른 cut-point는 0.29747이며, 민감도=0.59065, 특이도=0.72869를 확인하였다. Distance to (0,1) 방법은 아래의 공식에 따라 값을 산출함. 아래 공식에 따라 산출된 최소값은 0.4453이였으며, 이에 따른 민감도=0.61397, 특이도=0.70276을 확인하였다. Sensitivity, Specificity equality 방법은 민감도와 특이도의 차이값이 최소인 경우를 뜻하며, 이 때 산출된 최소값은 0.00627이며, 이에 따른 민감도=0.64637, 특이도=0.65265로 산출되었다.
[표8]은 3가지 방법을 이용한 대사증후군의 optimal cut-point와 민감도, 타당도이다.
cut-point Sensitivity Specificity
Yoden index 0.29747 0.59065 0.72869
Distance to (0,1) 0.29391 0.61397 0.70276
Sensitivity, Specificity equality 0.28545 0.64637 0.65265
도 10은 본원의 일 실시예에 따른 대사이상 질환 질병 위험도 예측 방법의 개략적인 흐름도이다. 도 1-에 따른 대사이상 질환 질병 위험도 에측 방법은 도 1 내지 도 9를 통해 설명된 대사이상 질환 질병 위험도 예측 장치(100)의 각 부에서 리되는 내용을 개략적으로 설명한다. 따라서 이하 설명되지 않은 내용이라 할지라고, 도 1내지 도 9를 통해 설명된 대사이상 질환 질병 위험도 예측 장치의 동작 설명에 포함되거나 유추 가능하므로 자세한 설명은 생략된다.
도 10을 참조하면, 단계S101에서 대사이상 질환 질병 위험도 예측 장치(100)는 대사이상 질환의 질환자의 생활상태 변수 및 건강상태 변수를 포함하는 복수의 상태 변수, 유전자 정보 및 대사이상 질환의 질병 위험도를 입력으로 하여, 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 대사이상 질환의 질병 위험도 사이의 관계의 정도를 학습하는 기계학습 모델을 생성할 수 있다. 또한, 대사이상 질환 질병 위험도 예측 장치(100)는 대사이상 질환의 질환자의 복수의 상태 변수, 유전자 정보 및 대사이상 질환의 질병 위험도를 입력으로 하여, 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상의 존재 유무 또는 값에 따라 대사이상 질환의 질병 위험도를 확률적으로 나타내는 통계확률 모델을 생성할 수 있다.
단계 S102에서 대사이상 질환 질병 위험도 예측 장치(100)는 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 입력받을 수 있다.
단계 S103에서 대사이상 질환 질병 위험도 예측 장치(100)는 기계학습 모델에 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 대상자의 질병 위험도를 예측할 수 있다.
전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.
100: 대사이상 질환 질병 위험도 예측 장치
110: 정보 입력부
120: 기계학습 모델 생성부
130: 통계적 확률 모델 생성부
200: 질병 예측 서버

Claims (15)

  1. 대사이상 질환의 질병 위험도를 예측하는 장치에 있어서,
    상기 대사이상 질환의 질환자의 생활상태 변수 및 건강상태 변수를 포함하는 복수의 상태 변수, 유전자 정보 및 대사이상 질환의 질병 위험도를 입력으로 하여, 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 상기 대사이상 질환의 질병 위험도 사이의 관계의 정도를 학습하는 기계학습 모델을 생성하는 기계학습 모델 생성부;
    상기 대사이상 질환의 질환자의 상기 복수의 상태 변수, 상기 유전자 정보 및 대사이상 질환의 질병 위험도를 입력으로 하여, 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상의 존재 유무 또는 값에 따라 상기 대사이상 질환의 질병 위험도를 확률적으로 나타내는 통계확률 모델을 생성하는 통계확률 모델 생성부;
    대상자의 대상자 상태 변수 및 대상자 유전자 정보를 입력받는 정보 입력부; 및
    상기 기계학습 모델 및 상기 통계확률 모델에 상기 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 상기 대상자의 고혈압, 당뇨병, 비만 및 대사성증후군을 포함하는 대사이상 질환의 질병 위험도를 예측하는 질병 위험도 예측부를 포함하되,
    상기 기계학습 모델 생성부는,
    반복 측정된 복수의 상태 변수를 제1인공신경망에 순차적으로 입력하고, 생활습관 변화와 관련된 유전 정보를 통합 입력하기 위해 상기 제1인공신경망의 마지막 층에 제2인공신경망을 연결하여 상기 대사이상 질환의 질병 위험도 사이의 관계의 정도를 학습하는 것인, 대사이상 질환 질병 위험도 예측 장치.
  2. 삭제
  3. 제 1 항에 있어서,
    상기 통계확률 모델 생성부는,
    상기 대사이상 질환의 질환자의 상기 복수의 상태 변수, 상기 유전자 정보 및 대사이상 질환의 질병 위험도를 입력으로 하고, 상기 복수의 상태 변수 중 상기 대사이상 질환과 연관된 적어도 하나 이상의 상태 변수를 선택하고, 상기 적어도 하나 이상의 상태 변수의 존재 여부 또는 값에 대한 상기 대사이상 질환의 질병 위험도를 확률적으로 나타내는 기본 통계확률 모델을 생성하는 기본 통계확률 모델 생성부; 및
    상기 대사이상 질환과 연관된 유전자 정보의 존재 여부에 따라 상기 대사이상 질환의 질병 위험도에 가중치를 적용함으로써, 기본 통계확률 모델로부터 상기 통계확률 모델을 생성하는 가중치 통계확률 모델 생성부를 포함하는 대사이상 질환 질병 위험도 예측 장치.
  4. 제1항에 있어서,
    상기 기계학습 모델은 상기 복수의 상태 변수 중 제 1 상태 변수를 입력층으로 하고 상기 복수의 상태 변수 중 제 2 상태 변수를 은닉층으로 할 때, 상기 입력층과 은닉층 사이의 관계의 정도를 학습하는 제 1 학습을 하고,
    상기 은닉층 및 상기 유전자 정보를 입력층으로 하고 상기 질병 위험도를 출력층으로 할 때, 상기 은닉층과 출력층 사이의 관계의 정도를 학습하는 제 2 학습을 함으로써, 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 상기 대사이상 질환의 질병 위험도 사이의 관계의 정도를 학습하는 것인, 대사이상 질환 질병 위험도 예측 장치.
  5. 제 1 항에 있어서,
    상기 기계학습 모델은 상기 복수의 상태 변수의 이전 시점 상태 변수를 입력층으로 하고 상기 복수의 상태 변수의 현재 시점 상태 변수를 은닉층으로 할 때, 상기 입력층과 은닉층 사이의 관계의 정도를 학습하는 제 1 학습을 하고,
    상기 은닉층 및 상기 유전자 정보를 입력층으로 하고 상기 질병 위험도를 출력층으로 할 때, 상기 은닉층과 출력층 사이의 관계의 정도를 학습하는 제 2 학습을 함으로써, 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 상기 대사이상 질환의 질병 위험도 사이의 관계의 정도를 학습하는 것인, 대사이상 질환 질병 위험도 예측 장치.
  6. 제 1 항에 있어서,
    상기 기계학습 모델은 상기 복수의 상태 변수 중 제 1 상태 변수 및 이전 시점 은닉층을 입력층으로 하고 상기 복수의 상태 변수 중 제 2 상태 변수 또는 현재 시점 상태 변수를 은닉층으로 할 때, 상기 입력층과 은닉층 사이의 관계의 정도를 학습하는 제 1 학습을 하고,
    상기 은닉층 및 상기 유전자 정보를 입력층으로 하고 상기 질병 위험도를 출력층으로 할 때, 상기 은닉층과 출력층 사이의 관계의 정도를 학습하는 제 2 학습을 함으로써, 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 상기 대사이상 질환의 질병 위험도 사이의 관계의 정도를 학습하는 것이되,
    상기 제 1 학습은 [수학식 1]을 기반으로, 상기 입력층과 은닉층 사이의 관계의 정도를 학습하는 것이되,
    [수학식 1]
    Figure 112017131046614-pat00037

    이때, 상기
    Figure 112017131046614-pat00038
    는 t 시점에서의 은닉층이고, 상기
    Figure 112017131046614-pat00039
    은 이전 시점 은닉층이고,
    Figure 112017131046614-pat00040
    는 제 1 상태 변수이고, 상기
    Figure 112017131046614-pat00041
    는 입력층과 은닉층 사이의 제 1 유형의 관계의 정도를 나타내는 제 1 가중치이고, 상기
    Figure 112017131046614-pat00042
    는 입력층과 은닉층 사이의 제 2 유형의 관계의 정도를 나타내는 제 2 가중치인 것인, 대사이상 질환 질병 위험도 예측 장치.
  7. 제6항에 있어서,
    상기 제 2학습은 [수학식 1] 및 [수학식2]를 기반으로 상기 은닉층과 출력층 사이의 관계의 정도를 학습하는 것이되,
    [수학식 2]
    Figure 112017131046614-pat00043

    이때, 상기 y는 출력층이고, 상기
    Figure 112017131046614-pat00044
    는 은닉층과 출력층 사이의 관계의 정도를 나타내는 제 3 가중치이고,
    Figure 112017131046614-pat00045
    는 은닉층이고, 상기
    Figure 112017131046614-pat00046
    는 입력층 중 유전자 정보와 출력층 사이의 관계의 정도를 나타내는 제4 가중치이고, z는 입력층 중 유전자 정보인 것인, 대사이상 질환 질병 위험도 예측 장치.
  8. 제 1 항에 있어서,
    상기 기계학습 모델 생성부는,
    [수학식 3]을 기반으로 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 상기 대사이상 질환의 질병 위험도 사이의 관계의 정도를 학습하는 기계학습 모델을 생성 시 발생하는 오차에 가중치를 갱신하는 것이되,
    [수학식 3]
    Figure 112017131046614-pat00047

    상기 E는 상기 기계학습 모델 생성부의 오차의 검출값이고, 상기 t는 상기 대사이상 질환의 발생 여부이고, 상기 y는 기계학습 모델을 통해 예측된 질병 위험도이고,
    Figure 112017131046614-pat00048
    는 오차에 따른 과적합(overfitting)을 방지하기 위한 L2 정규식인 것인, 대사이상 질환 질병 위험도 예측 장치.
  9. 제 1항에 있어서,
    상기 질병 위험도 예측부는,
    상기 대상자의 질병 위험도 예측 결과를 기 설정된 분류 항목에 기반하여 시각화하는 것인, 대사이상 질환 질병 위험도 예측 장치.
  10. 제 1항에 있어서,
    상기 질병 위험도 예측부는,
    상기 대상자의 질병 위험도 예측 결과와 연계된 질병 예방 관리 정보를 제공하는 것인, 대사이상 질환 질병 위험도 예측 장치.
  11. 제 1 항에 있어서,
    상기 통계확률 모델 생성부는,
    상기 대사이상 질환이 고혈압일 경우, 상기 복수의 상태 변수를 나이, 최종 학력, 월평균 수입, 빈혈, 단백뇨, 요중당, 콜레스테롤, 나트륨 섭취 정도, 칼륨 섭취 정도, 음주 여부, 흡연 여부, 고지혈증, 지방간, 알레르기질환, 관절염, 혈중요산수치, 대사성 질환 가족력 및 운동 여부 중 적어도 5개 이상을 포함하여 상기 복수의 상태 변수의 값에 따라 상기 고혈압의 질병 위험도를 확률적으로 나타내는 통계확률 모델을 생성하는 것인, 대사이상 질환 질병 위험도 예측 장치.
  12. 제 1 항에 있어서,
    상기 통계확률 모델 생성부는,
    상기 대사이상 질환이 비만인 경우, 상기 복수의 상태 변수를 나이, 최종 학력, 고지혈증 과거력, 심근경색 과거력, 지방간 과거력, 담낭염 과거력, 알레르기 과거력, 갑상선질환, 관절염, 혈압, 운동 여부, 칼로리섭취량 대비 나트륨 섭취 정도, 단백질 섭취 정도, 지방 섭취 정도, 단백료, 총콜레스테롤, 공복혈당, 음주여부, 흡연여부, 혈중요산수치 및 대사성 질환 가족력 중 적어도 5개 이상을 포함하여 상기 복수의 상태 변수의 값에 따라 상기 비만의 질병 위험도를 확률적으로 나타내는 통계확률 모델을 생성하는 것인, 대사이상 질환 질병 위험도 예측 장치.
  13. 제 1 항에 있어서,
    상기 통계확률 모델 생성부는,
    상기 대사이상 질환이 당뇨인 경우, 상기 복수의 상태 변수를 최종 학력, 결혼 여부, 직업, 수입, 성별, 나이, 고혈압 과거력, 고지혈증 과거력, 심근경색 과거력, 만성 위염 과거력, 지방간 과거력, 담낭염 과거력, 만성기관지염 과거력, 천식 과거력, 알레르기 과거력, 관절염, 골다공증 과거력, 백내장 과거력, 우울증 과거력, 감상선 질환 과거력, 간접 흡연 노출 횟수, 총 알코올 섭취량, 운동 회수, 첫 아이 출산 나이, 임신성 당뇨병 과거력, 임공 유산 과거력, 거대아 출산 과거력, 경구 피임약 복용 여부, 당뇨병 가족력, 협심증 과거력, 뇌졸증 과거력, 현재의 주관적 건강상태의 정도, 수면의 질, 혈뇨, 지방, 탄수화물, 비타민, 아연, 몸무게, 허리둘레, 엉덩이둘레, 맥박수, 수축기혈압, 이완기혈압, 체질량 수 중 적어도 5개 이상을 포함하여 상기 복수의 상태 변수의 값에 따라 상기 당뇨의 질병 위험도를 확률적으로 나타내는 통계확률 모델을 생성하는 것인, 대사이상 질환 질병 위험도 예측 장치.
  14. 제 1 항에 있어서,
    상기 통계확률 모델 생성부는,
    상기 대사이상 질환이 대사증후군일 경우, 상기 복수의 상태 변수를 나이, 성별, 최종학력, 월평균수입, ALT, 빈혈, 단백뇨, 나트륨섭취, 칼륨섭취, 열량섭취, 운동 여부, 흡연력, 심근경색 과거력, 지방간 과거력, 담낭염 과거력, 알레르기 질환, 갑상선 질환 과거력, 관절염, 혈중요산수치 및 대사성 질환 가족력 여부 중 적어도 5개 이상을 포함하여 상기 복수의 상태 변수의 값에 따라 상기 대사증후군의 질병 위험도를 확률적으로 나타내는 통계확률 모델을 생성하는 것인, 대사이상 질환 질병 위험도 예측 장치.
  15. 대사이상 질환 질병 위험도 예측 장치에서, 대사이상 질환의 질병 위험도를 예측하는 방법에 있어서,
    기계학습 모델 생성부에서, 상기 대사이상 질환의 질환자의 생활상태 변수 및 건강상태 변수를 포함하는 복수의 상태 변수, 유전자 정보 및 대사이상 질환의 질병 위험도를 입력으로 하여, 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 상기 대사이상 질환의 질병 위험도 사이의 관계의 정도를 학습하는 기계학습 모델을 생성하는 단계;
    통계확률 모델 생성부에서, 상기 대사이상 질환의 질환자의 상기 복수의 상태 변수, 상기 유전자 정보 및 대사이상 질환의 질병 위험도를 입력으로 하여, 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상의 존재 유무 또는 값에 따라 상기 대사이상 질환의 질병 위험도를 확률적으로 나타내는 통계확률 모델을 생성하는 단계;
    정보 입력부에서, 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 입력받는 단계; 및
    예측부에서, 상기 기계학습 모델 및 상기 통계확률 모델에 상기 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 상기 대상자의 고혈압, 당뇨병, 비만 및 대사성증후군을 포함하는 대사이상 질환의 질병 위험도를 예측하는 단계를 포함하되,
    상기 기계학습 모델을 생성하는 단계는,
    반복 측정된 복수의 상태 변수를 제1인공신경망에 순차적으로 입력하고, 생활습관 변화와 관련된 유전 정보를 통합 입력하기 위해 상기 제1인공신경망의 마지막 층에 제2인공신경망을 연결하여 상기 대사이상 질환의 질병 위험도 사이의 관계의 정도를 학습하는 것인, 대사이상 질환 질병 위험도 예측 방법.

KR1020170183817A 2016-12-30 2017-12-29 대사이상 질환의 질병 위험도를 예측하는 장치 및 방법 KR102024373B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020160183851 2016-12-30
KR20160183851 2016-12-30

Publications (2)

Publication Number Publication Date
KR20180079208A KR20180079208A (ko) 2018-07-10
KR102024373B1 true KR102024373B1 (ko) 2019-09-23

Family

ID=62709635

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020170183818A KR102024375B1 (ko) 2016-12-30 2017-12-29 만성신장 질환의 질병 위험도를 예측하는 장치 및 방법
KR1020170183817A KR102024373B1 (ko) 2016-12-30 2017-12-29 대사이상 질환의 질병 위험도를 예측하는 장치 및 방법

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020170183818A KR102024375B1 (ko) 2016-12-30 2017-12-29 만성신장 질환의 질병 위험도를 예측하는 장치 및 방법

Country Status (3)

Country Link
US (1) US20190172587A1 (ko)
KR (2) KR102024375B1 (ko)
WO (2) WO2018124831A1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021075869A1 (ko) * 2019-10-15 2021-04-22 계명대학교 산학협력단 혈중 메타볼리즘을 이용한 건강 상태 정보 제공 장치 및 그 방법
KR20210062532A (ko) 2019-11-21 2021-05-31 경북대학교 산학협력단 주의 계층적 적응 신경 퍼지 추론 시스템을 이용한 유방암 예측 방법, 이를 수행하기 위한 기록 매체 및 장치
KR102278646B1 (ko) * 2020-08-12 2021-07-19 주식회사 디이프 고객 맞춤형 식품 추천 시스템
KR20220113191A (ko) * 2021-02-05 2022-08-12 가천대학교 산학협력단 소비자 직접 의뢰 유전자 검사 기반 피검사자의 맞춤형 영양 가이드 제공 시스템 및 제공 방법

Families Citing this family (103)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11568982B1 (en) 2014-02-17 2023-01-31 Health at Scale Corporation System to improve the logistics of clinical care by selectively matching patients to providers
US10592554B1 (en) 2017-04-03 2020-03-17 Massachusetts Mutual Life Insurance Company Systems, devices, and methods for parallelized data structure processing
US11238989B2 (en) * 2017-11-08 2022-02-01 International Business Machines Corporation Personalized risk prediction based on intrinsic and extrinsic factors
JP7007027B2 (ja) * 2018-03-30 2022-01-24 Necソリューションイノベータ株式会社 予測システム、モデル生成システム、方法およびプログラム
WO2020081956A1 (en) * 2018-10-18 2020-04-23 Medimmune, Llc Methods for determining treatment for cancer patients
US11621081B1 (en) * 2018-11-13 2023-04-04 Iqvia Inc. System for predicting patient health conditions
KR102311269B1 (ko) * 2018-12-13 2021-10-12 주식회사 케이티 건강 정보 관리 서버, 이를 이용한 건강 정보 관리 방법 및 컴퓨터 프로그램
KR102316403B1 (ko) * 2019-01-03 2021-10-22 서울대학교 산학협력단 만성신장 질환 발생 예측 장치 및 방법
EP3909054A4 (en) * 2019-01-11 2022-10-26 Quadrus Medical Technologies, Inc. SYSTEMS AND METHODS FOR EVALUATION AND EVALUATION OF RENAL FUNCTIONAL DIAGNOSTICS, CLASSIFICATION AND THERAPY RECOMMENDATION
KR102202864B1 (ko) * 2019-03-05 2021-01-15 (주)비바이노베이션 빅데이터 분석 및 인공지능 문진을 통한 질병 예측 정보를 제공하는 사용자 단말기
US11471729B2 (en) 2019-03-11 2022-10-18 Rom Technologies, Inc. System, method and apparatus for a rehabilitation machine with a simulated flywheel
US20200289045A1 (en) 2019-03-11 2020-09-17 Rom Technologies, Inc. Single sensor wearable device for monitoring joint extension and flexion
US11915827B2 (en) * 2019-03-14 2024-02-27 Kenneth Neumann Methods and systems for classification to prognostic labels
US10553319B1 (en) * 2019-03-14 2020-02-04 Kpn Innovations, Llc Artificial intelligence systems and methods for vibrant constitutional guidance
KR102188115B1 (ko) 2019-03-20 2020-12-07 인천대학교 산학협력단 생성적 적대 신경망을 기초로 암의 예후 예측에 사용되는 바이오 마커의 선정이 가능한 전자 장치 및 그 동작 방법
US11250062B2 (en) * 2019-04-04 2022-02-15 Kpn Innovations Llc Artificial intelligence methods and systems for generation and implementation of alimentary instruction sets
KR102188118B1 (ko) 2019-04-15 2020-12-07 인천대학교 산학협력단 암에 따른 유전자 간의 상관관계에 기초하여 유전자 분산 표현을 위한 유전자 특징 벡터를 생성하는 전자 장치 및 그 동작 방법
US11801423B2 (en) 2019-05-10 2023-10-31 Rehab2Fit Technologies, Inc. Method and system for using artificial intelligence to interact with a user of an exercise device during an exercise session
US11433276B2 (en) 2019-05-10 2022-09-06 Rehab2Fit Technologies, Inc. Method and system for using artificial intelligence to independently adjust resistance of pedals based on leg strength
US11904207B2 (en) 2019-05-10 2024-02-20 Rehab2Fit Technologies, Inc. Method and system for using artificial intelligence to present a user interface representing a user's progress in various domains
US11957960B2 (en) 2019-05-10 2024-04-16 Rehab2Fit Technologies Inc. Method and system for using artificial intelligence to adjust pedal resistance
US11205140B2 (en) * 2019-06-03 2021-12-21 Kpn Innovations Llc Methods and systems for self-fulfillment of an alimentary instruction set based on vibrant constitutional guidance
KR102102848B1 (ko) * 2019-06-12 2020-04-22 주식회사 프로카젠 전립선암 위험점수 산출기, 상기 산출기의 동작 방법
TWI774964B (zh) * 2019-06-19 2022-08-21 宏碁股份有限公司 患病機率預測方法與電子裝置
KR102248732B1 (ko) * 2019-06-27 2021-05-06 (주)해피마인드 종합주의력 검사 데이터에 기초하여 주의력 결핍 및 과잉 행동 장애를 분류 및 치료반응을 예측하는 시스템 및 방법
KR102467999B1 (ko) * 2019-06-27 2022-11-17 서울대학교산학협력단 위암의 다층 다요인 패널과 Computational biological network modeling을 통한 위암 발암에 대한 에티옴 모형
US11114193B2 (en) * 2019-07-03 2021-09-07 Kpn Innovations, Llc Methods and systems for optimizing dietary levels utilizing artificial intelligence
KR20210014305A (ko) 2019-07-30 2021-02-09 삼성전자주식회사 생체정보 추정 장치 및 방법
US20210038166A1 (en) * 2019-08-05 2021-02-11 Yeda Research And Development Co. Ltd. Method and system for predicting childhood obesity
CN112349412B (zh) * 2019-08-06 2024-03-22 宏碁股份有限公司 患病机率预测方法与电子装置
KR102303272B1 (ko) * 2019-08-20 2021-09-17 주식회사 프로카젠 전립선암 위험도의 변화 정도 예측 시스템
US11923088B2 (en) * 2019-08-30 2024-03-05 AR & NS Investment, LLC Artificial intelligence-based personalized health maintenance system to generate digital therapeutic environment for multi-modal therapy
US11071597B2 (en) 2019-10-03 2021-07-27 Rom Technologies, Inc. Telemedicine for orthopedic treatment
US20220409114A1 (en) * 2019-09-17 2022-12-29 Quadrus Medical Technologies, Inc. System and method for personalized kidney evaluation, diagnosis and therapy recommendation
US11701548B2 (en) 2019-10-07 2023-07-18 Rom Technologies, Inc. Computer-implemented questionnaire for orthopedic treatment
US11756666B2 (en) 2019-10-03 2023-09-12 Rom Technologies, Inc. Systems and methods to enable communication detection between devices and performance of a preventative action
US11282608B2 (en) 2019-10-03 2022-03-22 Rom Technologies, Inc. Method and system for using artificial intelligence and machine learning to provide recommendations to a healthcare provider in or near real-time during a telemedicine session
US11101028B2 (en) 2019-10-03 2021-08-24 Rom Technologies, Inc. Method and system using artificial intelligence to monitor user characteristics during a telemedicine session
US11337648B2 (en) 2020-05-18 2022-05-24 Rom Technologies, Inc. Method and system for using artificial intelligence to assign patients to cohorts and dynamically controlling a treatment apparatus based on the assignment during an adaptive telemedical session
US11923065B2 (en) 2019-10-03 2024-03-05 Rom Technologies, Inc. Systems and methods for using artificial intelligence and machine learning to detect abnormal heart rhythms of a user performing a treatment plan with an electromechanical machine
US11955220B2 (en) 2019-10-03 2024-04-09 Rom Technologies, Inc. System and method for using AI/ML and telemedicine for invasive surgical treatment to determine a cardiac treatment plan that uses an electromechanical machine
US11282599B2 (en) 2019-10-03 2022-03-22 Rom Technologies, Inc. System and method for use of telemedicine-enabled rehabilitative hardware and for encouragement of rehabilitative compliance through patient-based virtual shared sessions
US11955223B2 (en) 2019-10-03 2024-04-09 Rom Technologies, Inc. System and method for using artificial intelligence and machine learning to provide an enhanced user interface presenting data pertaining to cardiac health, bariatric health, pulmonary health, and/or cardio-oncologic health for the purpose of performing preventative actions
US11955221B2 (en) 2019-10-03 2024-04-09 Rom Technologies, Inc. System and method for using AI/ML to generate treatment plans to stimulate preferred angiogenesis
US20210134458A1 (en) 2019-10-03 2021-05-06 Rom Technologies, Inc. System and method to enable remote adjustment of a device during a telemedicine session
US11270795B2 (en) 2019-10-03 2022-03-08 Rom Technologies, Inc. Method and system for enabling physician-smart virtual conference rooms for use in a telehealth context
US11830601B2 (en) 2019-10-03 2023-11-28 Rom Technologies, Inc. System and method for facilitating cardiac rehabilitation among eligible users
US20210134432A1 (en) 2019-10-03 2021-05-06 Rom Technologies, Inc. Method and system for implementing dynamic treatment environments based on patient information
US11978559B2 (en) 2019-10-03 2024-05-07 Rom Technologies, Inc. Systems and methods for remotely-enabled identification of a user infection
US11325005B2 (en) 2019-10-03 2022-05-10 Rom Technologies, Inc. Systems and methods for using machine learning to control an electromechanical device used for prehabilitation, rehabilitation, and/or exercise
US20210142893A1 (en) 2019-10-03 2021-05-13 Rom Technologies, Inc. System and method for processing medical claims
US11282604B2 (en) 2019-10-03 2022-03-22 Rom Technologies, Inc. Method and system for use of telemedicine-enabled rehabilitative equipment for prediction of secondary disease
US11075000B2 (en) 2019-10-03 2021-07-27 Rom Technologies, Inc. Method and system for using virtual avatars associated with medical professionals during exercise sessions
US11915815B2 (en) 2019-10-03 2024-02-27 Rom Technologies, Inc. System and method for using artificial intelligence and machine learning and generic risk factors to improve cardiovascular health such that the need for additional cardiac interventions is mitigated
US11955222B2 (en) 2019-10-03 2024-04-09 Rom Technologies, Inc. System and method for determining, based on advanced metrics of actual performance of an electromechanical machine, medical procedure eligibility in order to ascertain survivability rates and measures of quality-of-life criteria
US11961603B2 (en) 2019-10-03 2024-04-16 Rom Technologies, Inc. System and method for using AI ML and telemedicine to perform bariatric rehabilitation via an electromechanical machine
US11915816B2 (en) 2019-10-03 2024-02-27 Rom Technologies, Inc. Systems and methods of using artificial intelligence and machine learning in a telemedical environment to predict user disease states
US20210134425A1 (en) 2019-10-03 2021-05-06 Rom Technologies, Inc. System and method for using artificial intelligence in telemedicine-enabled hardware to optimize rehabilitative routines capable of enabling remote rehabilitative compliance
US11887717B2 (en) 2019-10-03 2024-01-30 Rom Technologies, Inc. System and method for using AI, machine learning and telemedicine to perform pulmonary rehabilitation via an electromechanical machine
US20210134412A1 (en) 2019-10-03 2021-05-06 Rom Technologies, Inc. System and method for processing medical claims using biometric signatures
US11139060B2 (en) 2019-10-03 2021-10-05 Rom Technologies, Inc. Method and system for creating an immersive enhanced reality-driven exercise experience for a user
US11317975B2 (en) 2019-10-03 2022-05-03 Rom Technologies, Inc. Method and system for treating patients via telemedicine using sensor data from rehabilitation or exercise equipment
US20210128080A1 (en) 2019-10-03 2021-05-06 Rom Technologies, Inc. Augmented reality placement of goniometer or other sensors
US11515028B2 (en) 2019-10-03 2022-11-29 Rom Technologies, Inc. Method and system for using artificial intelligence and machine learning to create optimal treatment plans based on monetary value amount generated and/or patient outcome
US11515021B2 (en) 2019-10-03 2022-11-29 Rom Technologies, Inc. Method and system to analytically optimize telehealth practice-based billing processes and revenue while enabling regulatory compliance
US11069436B2 (en) 2019-10-03 2021-07-20 Rom Technologies, Inc. System and method for use of telemedicine-enabled rehabilitative hardware and for encouraging rehabilitative compliance through patient-based virtual shared sessions with patient-enabled mutual encouragement across simulated social networks
US20210127974A1 (en) 2019-10-03 2021-05-06 Rom Technologies, Inc. Remote examination through augmented reality
US11826613B2 (en) 2019-10-21 2023-11-28 Rom Technologies, Inc. Persuasive motivation for orthopedic treatment
WO2021085676A1 (ko) * 2019-10-31 2021-05-06 주식회사 이노제닉스 인공지능 기반 아토피 피부염 예측 및 예방 상품 추천 방법
CN111048214A (zh) * 2019-11-11 2020-04-21 北京荣之联科技股份有限公司 外来畜禽疫病传播态势的预警方法及装置
CN111081334B (zh) * 2019-12-18 2023-04-18 鲁东大学 一种基于风险因素概率组合分析的慢性疾病早期预警方法
KR102186486B1 (ko) * 2019-12-20 2020-12-03 주식회사 슈파스 인공지능 기반의 이미지 분석을 통한 의학적 이벤트 발생 감지 방법, 장치 및 컴퓨터프로그램
KR102446005B1 (ko) * 2020-01-30 2022-09-21 연세대학교 원주산학협력단 딥러닝 기반 건강 위험도 예측을 통한 건강 개선 프로그램 제공 방법
KR102369001B1 (ko) * 2020-02-04 2022-02-28 연세대학교 원주산학협력단 대사 증후군 점수 추정 방법과 이를 이용한 표시 방법
KR102425629B1 (ko) * 2020-03-30 2022-07-28 주식회사 헤링스 사용자의 생활습관 관리 방법 및 장치
KR102558970B1 (ko) * 2020-04-17 2023-07-25 서울대학교병원 뇌동맥류 발병 위험도 예측 장치 및 방법
US11610679B1 (en) * 2020-04-20 2023-03-21 Health at Scale Corporation Prediction and prevention of medical events using machine-learning algorithms
KR102264498B1 (ko) * 2020-04-23 2021-06-14 주식회사 바스젠바이오 유병 확률 예측을 위한 컴퓨터 프로그램
KR102489070B1 (ko) * 2020-05-29 2023-01-16 연세대학교 산학협력단 학습 모델 기반의 아토피 피부염 관리 장치 및 그 방법
KR102314107B1 (ko) * 2020-06-02 2021-10-19 (주)어메이징푸드솔루션 식품의 알러지 증상 발현도를 산출하기 위한 플랫폼 제공 장치 및 방법
KR102504883B1 (ko) * 2020-06-05 2023-03-02 인하대학교 산학협력단 인공 지능 기반 기계 학습을 이용한 급성 신부전 발생 예측 장치 및 그 방법
CN112086130B (zh) * 2020-08-13 2021-07-27 东南大学 一种基于测序和数据分析的肥胖风险预测装置的预测方法
KR102478613B1 (ko) * 2020-08-24 2022-12-16 경희대학교 산학협력단 스마트 헬스케어 의사결정 지원 시스템을 위한 진화 가능한 증상-질병 예측 시스템
US11227690B1 (en) * 2020-09-14 2022-01-18 Opendna Ltd. Machine learning prediction of therapy response
KR102599132B1 (ko) * 2020-11-26 2023-11-09 가톨릭대학교 산학협력단 빅데이터 기반의 질환 발병 위험도 예측 시스템, 예측 방법, 및 프로그램
KR20220077892A (ko) * 2020-12-02 2022-06-09 (주)지놈오피니언 선천적 대사질환 위험도 점수를 이용한 심뇌혈관질환의 위험도 측정 방법
US11164669B1 (en) * 2020-12-29 2021-11-02 Kpn Innovations, Llc. Systems and methods for generating a viral alleviation program
CN112951421A (zh) * 2021-01-26 2021-06-11 吾征智能技术(北京)有限公司 一种基于饮食习惯推导高血压的系统、设备及存储介质
KR102599840B1 (ko) * 2021-02-04 2023-11-07 가톨릭대학교 산학협력단 당뇨병 발병 위험도 산출 시스템, 산출 방법, 및 프로그램
KR102510347B1 (ko) * 2021-02-10 2023-03-20 고려대학교 산학협력단 위암 수술 이후 제2형 당뇨병 예후의 예측 방법
CN112967807B (zh) * 2021-03-03 2023-12-01 吾征智能技术(北京)有限公司 基于饮食行为预测脑卒中的系统、设备及存储介质
US20220318626A1 (en) * 2021-04-05 2022-10-06 Nec Laboratories America, Inc. Meta-training framework on dual-channel combiner network system for dialysis event prediction
KR102417448B1 (ko) * 2021-05-20 2022-07-06 한국과학기술정보연구원 머신 러닝 기반 잠복기별 치매 예측 방법, 그리고 이를 구현하기 위한 장치
CN113178261A (zh) * 2021-06-04 2021-07-27 福州大学 基于机器学习的糖尿病预测模型构建方法及系统
KR102646527B1 (ko) * 2021-11-12 2024-03-11 가천대학교 산학협력단 Ai 기반 감염 의심자 분류 장치 및 그 방법
AU2022331545A1 (en) * 2021-08-18 2024-02-29 Klinrisk, Inc. Systems and methods for predicting kidney function decline
US20230075176A1 (en) * 2021-09-08 2023-03-09 Optum Services (Ireland) Limited Interactable and interpretable temporal disease risk profiles
CN114358989A (zh) * 2021-12-07 2022-04-15 重庆邮电大学 一种基于标准差和交互信息的慢性疾病特征选择方法
KR20240009132A (ko) 2022-07-13 2024-01-22 포체인스 주식회사 가중치 거리함수를 이용한 질병 예측 장치 및 그 방법
US20240071623A1 (en) * 2022-08-31 2024-02-29 AXL Health, LLC Patient health platform
KR102553562B1 (ko) 2022-10-13 2023-07-10 서울대학교산학협력단 유방암 발생 위험도 예측 장치 및 방법
KR102531776B1 (ko) * 2022-10-31 2023-05-12 대한민국 유전 및 라이프스타일 위험도 평가 기반 제2형 당뇨병 고위험군 진단 방법
KR102660560B1 (ko) * 2024-02-14 2024-04-25 삼성화재해상보험 주식회사 심뇌혈관 위험도 평가 서비스 제공 방법 및 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050032066A1 (en) * 2003-08-04 2005-02-10 Heng Chew Kiat Method for assessing risk of diseases with multiple contributing factors

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110202486A1 (en) * 2009-07-21 2011-08-18 Glenn Fung Healthcare Information Technology System for Predicting Development of Cardiovascular Conditions
GB201214440D0 (en) * 2012-08-13 2012-09-26 Randox Lab Ltd Kidney disease biomarker
US11101021B2 (en) * 2014-08-08 2021-08-24 Icahn School Of Medicine At Mount Sinai Electronic phenotyping technique for diagnosing chronic kidney disease
WO2016094330A2 (en) * 2014-12-08 2016-06-16 20/20 Genesystems, Inc Methods and machine learning systems for predicting the liklihood or risk of having cancer
KR20160043527A (ko) * 2016-03-31 2016-04-21 강수진 당뇨병 및 당뇨 합병증 관리시스템과 방법
US20170308981A1 (en) * 2016-04-22 2017-10-26 New York University Patient condition identification and treatment

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050032066A1 (en) * 2003-08-04 2005-02-10 Heng Chew Kiat Method for assessing risk of diseases with multiple contributing factors

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021075869A1 (ko) * 2019-10-15 2021-04-22 계명대학교 산학협력단 혈중 메타볼리즘을 이용한 건강 상태 정보 제공 장치 및 그 방법
KR20210062532A (ko) 2019-11-21 2021-05-31 경북대학교 산학협력단 주의 계층적 적응 신경 퍼지 추론 시스템을 이용한 유방암 예측 방법, 이를 수행하기 위한 기록 매체 및 장치
KR102278646B1 (ko) * 2020-08-12 2021-07-19 주식회사 디이프 고객 맞춤형 식품 추천 시스템
KR20220113191A (ko) * 2021-02-05 2022-08-12 가천대학교 산학협력단 소비자 직접 의뢰 유전자 검사 기반 피검사자의 맞춤형 영양 가이드 제공 시스템 및 제공 방법
KR102662469B1 (ko) * 2021-02-05 2024-04-30 가천대학교 산학협력단 소비자 직접 의뢰 유전자 검사 기반 피검사자의 맞춤형 영양 가이드 제공 시스템 및 제공 방법

Also Published As

Publication number Publication date
US20190172587A1 (en) 2019-06-06
KR20180079209A (ko) 2018-07-10
WO2018124854A1 (ko) 2018-07-05
KR102024375B1 (ko) 2019-09-23
WO2018124831A1 (ko) 2018-07-05
KR20180079208A (ko) 2018-07-10

Similar Documents

Publication Publication Date Title
KR102024373B1 (ko) 대사이상 질환의 질병 위험도를 예측하는 장치 및 방법
US11521748B2 (en) Health risk score for risk stratification and compliance monitoring for next best action
Noble et al. Risk models and scores for type 2 diabetes: systematic review
Strauss et al. Health outcomes and socio-economic status among the elderly in China: Evidence from the CHARLS Pilot
CN108648827B (zh) 心脑血管疾病风险预测方法及装置
JP2011501276A (ja) 健康関連の転帰を予測するためのオンラインコミュニティを使用した自己改善方法
KR102316403B1 (ko) 만성신장 질환 발생 예측 장치 및 방법
Heydari et al. Comparison of artificial neural networks with logistic regression for detection of obesity
KR102131973B1 (ko) 개인 건강관리 방법 및 시스템
JP2012064087A (ja) 生活習慣病の診断予測装置、生活習慣病の診断予測方法及びプログラム
Ling et al. Point-of-care differentiation of Kawasaki disease from other febrile illnesses
US20200027181A1 (en) Automated health data acquisition, processing and communication system and method
CN114943629A (zh) 一种健康管理保健服务系统及其健康管理方法
Kist et al. Large health disparities in cardiovascular death in men and women, by ethnicity and socioeconomic status in an urban based population cohort
Kasajima et al. Future projection of the health and functional status of older people in Japan: A multistate transition microsimulation model with repeated cross‐sectional data
KR102467999B1 (ko) 위암의 다층 다요인 패널과 Computational biological network modeling을 통한 위암 발암에 대한 에티옴 모형
Islam et al. Consensus on recommended functions of a smart home system to improve self-management behaviors in people with heart failure: A modified delphi approach
Chen et al. Childhood maltreatment, subjective social status, and health disparities in bereavement
Liu et al. Machine learning algorithms identify demographics, dietary features, and blood biomarkers associated with stroke records
US20230046951A1 (en) System and method for assessing risk of type 2 mellitus diabetes complications
Zhang et al. Identifying the predictors of severe psychological distress by auto-machine learning methods
JP2008186439A (ja) 在宅健康管理システム
Fahey et al. Producing and using clinical prediction rules
TWM613138U (zh) 健康風險評估系統
Maria et al. Obesity Risk Prediction Using Machine Learning Approach

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant