KR20220075700A - gPRS를 이용한 제2형 당뇨질환 예측 시스템 - Google Patents

gPRS를 이용한 제2형 당뇨질환 예측 시스템 Download PDF

Info

Publication number
KR20220075700A
KR20220075700A KR1020200164072A KR20200164072A KR20220075700A KR 20220075700 A KR20220075700 A KR 20220075700A KR 1020200164072 A KR1020200164072 A KR 1020200164072A KR 20200164072 A KR20200164072 A KR 20200164072A KR 20220075700 A KR20220075700 A KR 20220075700A
Authority
KR
South Korea
Prior art keywords
type
gprs
risk score
diabetes
information
Prior art date
Application number
KR1020200164072A
Other languages
English (en)
Inventor
이정혜
한석주
김수현
강지훈
Original Assignee
울산과학기술원
고신대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 울산과학기술원, 고신대학교 산학협력단 filed Critical 울산과학기술원
Priority to KR1020200164072A priority Critical patent/KR20220075700A/ko
Publication of KR20220075700A publication Critical patent/KR20220075700A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Primary Health Care (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Pathology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 gPRS를 이용한 제2형 당뇨질환 예측 시스템에 대한 것이다.
본 발명에 따른 제2형 당뇨질환 예측 시스템은 코호트 자료를 이용하여 당뇨질환을 가진 환자와 정상인으로부터 신체 계측 정보, 임상 검사 정보 및 유전체 데이터를 획득하는 정보수집부, 상기 유전체 데이터를 이용하여 당뇨질환에 대한 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)를 획득하는 제어부, 상기 신체 계측 정보, 임상 검사 정보 및 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)를 교차 조합하여 생성된 데이터셋을 이용하여 랜덤 포레스트(RF) 모형을 학습시키는 학습부, 그리고 상기 랜덤 포레스트(RF) 모형에 측정 대상자의 신체 계측 정보, 임상 검사 정보 및 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)를 입력하여 제2형 당뇨질환 발생 여부를 예측하는 예측부를 포함한다.
이와 같이 본 발명에 따르면, 유전체 데이터를 기반으로 산출된 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)를 변수로 이용함으로써 예측 모형의 제2형 당뇨질환 예측 정확도를 향상시킬 수 있다.

Description

gPRS를 이용한 제2형 당뇨질환 예측 시스템{Type 2 diabetes mellitus prediction system using genome-wide Polygenic Risk Score}
본 발명은 gPRS를 이용한 제2형 당뇨질환 예측 시스템에 관한 것으로서, 더욱 상세하게는 코호트 자료를 기반으로 산출된 전장 유전체 기반 다원 유전자성 위험 점수(genome-wide Polygenic Risk Score, gPRS)를 이용하여 제2형 당뇨질환을 예측하는 당뇨질환 예측 시스템에 관한 것이다.
당뇨질환은 발생하는 기전에 따라 제1형과 제2형으로 나뉜다.
제1형 당뇨질환은 췌장에서 분비되는 인슐린의 감소에 따라 주로 청소년기 이전에 발생하는 것으로, 소아 당뇨질환이라고도 한다. 반면에 제2형 당뇨질환은 췌장의 인슐린 분비 능력은 비교적 유지되고 있으나 비만 등의 다른 요인으로 인해 인슐린이 작용하지 못하여 발생되는 것으로, 성인형 당뇨질환이라고도 한다.
제2형 당뇨질환은 초기 증상이 약하게 드러나는 편으로 환자가 자각하지 못하는 경우가 대부분이다.
기존에는 가족력, 과체중 유무 및 생활 습관 등을 통해 제 2형 당뇨질환의 발병 여부를 예측하였으나, 최근에는 유전적 정보에 기반하여 제2형 당뇨질환의 위험성 예측의 개선에 초점을 둔 연구가 점진적으로 진행되는 추세이다.
본 발명의 배경이 되는 기술은 대한민국 등록특허공보 제10-21722107호(2017.03.27. 공고)에 개시되어 있다.
본 발명이 이루고자 하는 기술적 과제는 코호트 자료를 기반으로 산출된 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)를 이용하여 제2형 당뇨질환을 예측하는 당뇨질환 예측 시스템을 제공하기 위한 것이다.
이러한 기술적 과제를 이루기 위한 본 발명의 실시예에 따른 gPRS를 이용한 제2형 당뇨질환 예측 시스템에 있어서, 코호트 자료를 이용하여 당뇨질환을 가진 환자와 정상인으로부터 신체 계측 정보, 임상 검사 정보 및 유전체 데이터를 획득하는 정보수집부, 상기 획득한 유전체 데이터를 이용하여 제2형 당뇨질환에 대한 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)를 획득하는 제어부, 상기 신체 계측 정보, 임상 검사 정보 및 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)를 교차 조합하여 생성된 데이터셋을 이용하여 랜덤 포레스트(Random Forest, RF) 모형을 학습시키는 학습부, 그리고 상기 랜덤 포레스트(RF) 모형에 측정 대상자의 신체 계측 정보, 임상 검사 정보 및 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)를 입력하여 당뇨질환 발생 여부를 예측하는 예측부를 포함한다.
상기 제어부는, 상기 추출된 유전체 데이터를 이용하여 제2형 당뇨질환과 연관성이 있는 단일 염기 다형성(Single Nucleotide polymorphism, SNP)을 획득하고, 획득한 단일 염기 다형성(SNP)을 점수화하여 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)를 획득할 수 있다.
상기 학습부는, 상기 신체 계측 정보, 임상 검사 정보 및 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)를 이용하여 데이터셋을 생성하고, 생성된 데이터셋을 랜덤 포레스트(RF) 모형에 입력하여 학습시킬 수 있다.
상기 학습부는, 상기 신체 계측 정보 및 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)를 이용하여 데이터셋을 생성하고, 생성된 데이터셋을 랜덤 포레스트(RF) 모형에 입력하여 학습시킬 수 있다.
이와 같이 본 발명에 따르면, 유전체 데이터를 기반으로 산출된 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)를 변수로 이용함으로써 예측 모형의 제2형 당뇨질환 예측 정확도를 향상시킬 수 있다. 또한, 제2형 당뇨질환 예측 정확도가 높은 기계학습모형을 추출하고, 추출된 기계학습모형에 측정 대상자의 유전체 기반 데이터를 입력하여 제2형 당뇨질환 발생 여부를 예측함으로써 예측 성능을 더욱 향상시킬 수 있다.
도 1은 본 발명의 실시예에 따른 제2형 당뇨질환 예측 시스템을 설명하기 위한 도면이다.
도 2는 본 발명의 실시예에 따른 제2형 당뇨질환 예측 시스템을 이용한 제2형 당뇨질환 예측방법을 설명하기 위한 순서도이다.
도 3은 도 2에 도시된 S210단계에서 데이터를 획득하는 방법에 대해 설명하기 위한 도면이다.
도 4는 도 2에 도시된 S230단계에서 진행된 성능평가 결과를 나타내는 도면이다.
도 5는 도 2에 도시된 S230단계에서 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)가 제2형 당뇨 질환 발생 여부 예측에 있어서의 효용성을 나타내는 도면이다.
이하 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하기로 한다. 이 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.
또한 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서, 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
먼저, 도 1을 통해 본 발명의 실시 예에 따른 제2형 당뇨질환 예측 시스템에 대하여 설명한다.
도 1은 본 발명의 실시예에 따른 제2형 당뇨질환 예측 시스템을 설명하기 위한 도면이다.
도 1에서와 같이 본 발명의 실시 예에 따른 제2형 당뇨질환 예측 시스템(100)는 정보수집부(110), 제어부(120), 학습부(130) 및 예측부(140)를 포함한다.
먼저, 정보수집부(110)는 제2형 당뇨질환을 가진 환자와 정상인으로부터 획득한 신체 계측 정보, 임상 검사 정보 및 유전체 데이터를 수집한다. 부연하자면, 정보수집부(210)는 질병관리본부 국립보건연구원에 기 구축된 코호트 자료를 이용하여 건강 및 생활습관 관련 설문조사와 검진을 통한 신체 계측 정보, 임상 검사 정보 및 유전체 데이터를 수집한다.
제어부(120)는 수집된 유전체 데이터를 이용하여 제2형 당뇨질환에 대한 유전체 기반 다원 유전자성 위험 점수(gPRS)를 획득한다.
이를 다시 설명하면, 제어부(120)는 코호트로부터 획득한 유전체 데이터를 이용하여 단일 염기 다형성(SNP)에 대한 분석 정보를 획득한다. 그리고, 제어부(120)는 획득한 단일 염기 다형성(SNP)를 이용하여 제2형 당뇨질환 발생과 연관성이 있는 유전자를 추출하고, 추출된 유전자의 위험도에 따라 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)를 산출한다.
학습부(130)는 신체 계측 정보, 임상 검사 정보 및 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)를 이용하여 데이터셋을 생성하고, 생성된 데이터셋을 이용하여 랜덤 포레스트(RF) 모형을 학습시킨다.
마지막으로 예측부(140)는 학습이 완료된 랜덤 포레스트(RF) 모형에 측정 대상자의 신체 계측 정보, 임상 검사 정보 및 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)를 입력하여 제2형 당뇨질환 발생 여부를 예측한다.
이하에서는 도 2 내지 도 5를 이용하여 본 발명의 실시예에 따른 제2형 당뇨질환 예측 시스템(100)을 이용하여 제2형 당뇨질환 예측방법에 대해 더욱 상세하게 설명한다.
도 2는 본 발명의 실시예에 따른 제2형 당뇨질환 예측 시스템을 이용한 제2형 당뇨질환 예측방법을 설명하기 위한 순서도이고, 도 3은 도 2에 도시된 S210단계에서 데이터를 획득하는 방법에 대해 설명하기 위한 도면이다.
도 2에 도시된 바와 같이, 본 발명의 실시예에 따른 제2형 당뇨질환 예측 시스템(100)은 정상인 및 제2형 당뇨질환 환자의 신체 계측 정보, 임상 검사 정보 및 유전체 데이터를 수집한다(S210).
부연하자면, 정보수집부(110)는 코호트를 통해 신체 계측 정보, 임상 검사 정보 및 유전체 데이터를 획득한다. 여기서 코호트는 지역사회기반 코호트(안산, 안성), 도시기반 코호트(HEXA) 및 농촌기반 코호트(CAVAS)를 포함한다.
도 3에 도시된 바와 같이, 정보수집부(110)는 2001년에서부터 2016년까지 공개된 코호트를 기반으로 총 5,493명의 자료를 획득한다. 그리고, 정보수집부(110)는 획득한 자료 중에서 하기의 기준을 이용하여 일부 자료를 제외한다.
자세히는 2001년에서 2002년 사이에 획득한 코호트 자료를 기준으로 당뇨질환 질환을 진단받았거나, 당뇨질환 질환을 치료하였거나, 인슐린을 이용하여 치료를 받았거나, 측정된 공복 혈당 수치를 이용하여 806명의 자료를 제외한다.
그 다음, 정보수집부(110)는 4,687명의 자료 중에서 2001년에서 2002년 사이에 획득한 코호트 자료를 기준으로 당뇨질환 질환을 진단받았거나, 당뇨질환 질환을 치료하였거나, 인슐린을 이용하여 치료를 받았거나, 측정된 공복 혈당 수치를 이용하여 3,585명의 자료를 제외한다.
마지막으로 정보수집부(110)는 1,102명의 자료 중에서 결측치가 존재하는 자료, 약 23%를 제외하고 최종적으로 획득한 1,095명의 자료를 이용하여 분석을 수행한다. 그리고 정보수집부(110)는 분석에 따라 신체 계측 정보, 임상 검사 정보 및 유전체 정보를 획득한다.
여기서 신체 계측 정보는 성별, 나이, 고혈압 여부, 신체질량지수(BMI), 가족력, 흡연 여부, 섭취 알코올량 중에서 적어도 하나를 포함한다.
그리고, 임상 검사 정보는 당화혈색소(HBA1C)(%), 혈당(glucose) (mg/dL), 총 콜레스테롤(mg/dL), HDL 콜레스테롤(mg/dL), 중성 지방(Triglycerides)(mg/dL), 베타세포의 분비기능(HOMA-B)(mg/dL) 및 인슐린 저항성(HOMA-IR)(mg/Dl )중에서 적어도 하나를 포함한다.
제어부(120)는 획득한 자료를 기반으로 유전형 분석을 수행하여 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)를 산출한다(S220).
제어부(120)는 코호트를 통해 획득한 유전체 데이터를 로지스틱 회귀 (Logistic Regression, LR) 모형을 통해 분석하여 게놈 차원의 제2형 당뇨질환 유전자좌를 추출한다.
그 다음, 제어부(120)는 본페로니 보정(Bonferroni correction)을 이용하여 제2형 당뇨질환과 연관성이 있는 단일 염기 다형성(SNP)을 분석한다.
이때, 본페로니 보정을 위해 제2형 당뇨질환과 게놈 전체 연관성의 유의 임계값을 P<5×10-8로 설정하고, 위양성 오류의 임계치는 P<0.05로 설정한다.
그리고, 제어부(120)는 각각의 단일 염기 다형성(SNP)별 영향력을 고려하여 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)를 계산한다.
S220단계가 완료되면, 학습부(130)는 생성된 데이터셋을 이용하여 복수의 기계학습 알고리즘을 학습시킨다(S230).
학습부(130)는 신체 계측 정보, 임상 검사 정보 및 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)를 교차 조합하여 복수의 데이터셋을 생성한다. 부연하자면, 학습부(130)는 신체 계측 정보로부터 추출된 데이터를 이용하여 제1 타입 데이터셋을 생성하고, 신체 계측 정보와 임상 검사 정보로부터 추출된 데이터를 이용하여 제2 타입 데이터셋을 생성한다. 또한, 학습부(130)는 신체 계측 정보와 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)로부터 추출된 데이터를 이용하여 제3 타입 데이터셋을 생성하고, 신체 계측 정보, 임상 검사 정보 및 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)로부터 추출된 데이터를 이용하여 제4 타입 데이터셋을 생성한다.
그 다음, 학습부(130)는 생성된 제1 타입 데이터셋 내지 제4 타입 데이터셋을 이용하여 로지스틱 회귀(LR) 모형, 랜덤 포레스트(RF) 모형 및 심층 신경망(Deep Neural Network, DNN) 모형을 각각 학습시킨다.
그리고 학습부(130)는 학습이 완료된 로지스틱 회귀(LR) 모형, 랜덤 포레스트(RF) 모형 및 심층 신경망(DNN) 모형의 성능평가를 진행한다. 이때, 복수의 기계 학습 알고리즘에 대한 성능평가는 곡선하면적(area under the curve, AUC) 값을 이용하여 획득한다. 한편, 곡선하면적(AUC) 값이 1에 가까울수록 예측 모형의 정확도가 높다고 판단한다.
도 4는 도 2에 도시된 S230단계에서 진행된 성능평가 결과를 나타내는 도면이고, 도 5는 도 2에 도시된 S230단계에서 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)가 제2형 당뇨질환 발생 여부 예측에 있어서 효용성을 나타내는 도면이다.
도 4에 도시된 바와 같이, 제1 타입 데이터셋을 이용하여 학습시켰을 경우에는 심층 신경망(DNN) 모형의 곡선하면적(AUC) 값이 가장 크게 산출되고, 제2 타입 데이터셋을 이용하여 학습시켰을 경우에는 랜덤 포레스트(RF) 모형의 곡선하면적(AUC) 값이 가장 크게 산출되었다. 또한, 제3 타입 데이터셋 및 제4 타입 데이터셋을 이용하여 학습시켰을 경우에는 랜덤 포레스트(RF) 모형의 곡선하면적(AUC) 값이 가장 크게 산출되었다.
한편, 데이터셋은 제1 타입 데이터셋에서 제4 타입 데이터셋으로 갈수록 변수가 추가되는 형태로 구성되며, 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)가 포함되었을 경우에 기계 학습 알고리즘을 이용한 제2형 당뇨 질환의 예측 정확도가 향상되었다.
또한, 도 5에 도시된 바와 같이, 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)는 실제로 당뇨 발병 환자군과 비 발병 환자군을 구별하는 효용성을 가진다.
마지막으로 예측부(140)는 측정 대상자의 신체 계측 정보, 임상 검사 정보 및 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)를 랜덤 포레스트(RF) 모형에 입력하여 제2형 당뇨질환의 발병 여부를 예측한다(S240).
부연하자면, 예측부(140)는 로지스틱 회귀(LR) 모형, 랜덤 포레스트(RF) 모형 및 심층 신경망(DNN) 모형 중에서 예측 정확도가 가장 높은 랜덤 포레스트(RF) 모형을 이용하여 측정 대상자의 제2형 당뇨질환 발생 여부를 예측한다.
이때, 예측부(140)는 측정 대상자의 신체 계측 정보 및 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)를 랜덤 포레스트(RF) 모형에 입력하여 제2형 당뇨질환 발생 여부를 예측할 수도 있고, 신체 계측 정보, 임상 검사 정보 및 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)를 랜덤 포레스트(RF) 모형에 입력하여 제2형 당뇨질환 발생 여부를 예측할 수도 있다.
본 발명의 실시예에서의 예측부는 랜덤 포레스트(RF) 모형을 이용하여 측정 대상자의 제2형 당뇨질환 발생여부를 예측하였으나, 이에 한정하지 않고 로지스틱 회귀(LR) 모형 또는 심층 신경망(DNN) 모형을 통해서 측정 대상자의 제2형 당뇨질환 발생여부를 예측할 수도 있다.
이와 같이 본 발명에 따른 당뇨질환 예측 장치는 유전체 데이터를 기반으로 산출된 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)를 변수로 이용함으로써 예측 모형의 제2형 당뇨질환 예측 정확도를 향상시킬 수 있다. 또한, 제2형 당뇨질환 예측 정확도가 높은 기계학습모형을 추출하고, 추출된 기계학습모형에 측정 대상자의 유전체 기반 데이터를 입력하여 제2형 당뇨질환 발생 여부를 예측함으로써 예측 성능을 더욱 향상시킬 수 있다.
본 발명은 도면에 도시된 실시 예를 참고로 하여 설명되었으나 이는 예시적인 것에 불과하며, 당해 기술이 속하는 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호범위는 아래의 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.
100 : 제2형 당뇨질환 예측 시스템
110 : 정보수집부
120 : 제어부
130 : 학습부
140 : 예측부

Claims (4)

  1. gPRS를 이용한 제2형 당뇨질환 예측 시스템에 있어서,
    코호트 자료를 이용하여 당뇨질환을 가진 환자와 정상인으로부터 신체 계측 정보, 임상 검사 정보 및 유전체 데이터를 획득하는 정보수집부,
    상기 유전체 데이터를 이용하여 당뇨질환에 대한 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)를 획득하는 제어부,
    상기 신체 계측 정보, 임상 검사 정보 및 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)를 교차 조합하여 생성된 데이터셋을 이용하여 랜덤 포레스트(RF) 모형을 학습시키는 학습부, 그리고
    상기 랜덤 포레스트(RF) 모형에 측정 대상자의 신체 계측 정보, 임상 검사 정보 및 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)를 입력하여 제2형 당뇨질환 발생 여부를 예측하는 예측부를 포함하는 제2형 당뇨질환 예측 시스템.
  2. 제1항에 있어서,
    상기 제어부는,
    상기 추출된 유전체 데이터를 이용하여 제2형 당뇨질환과 연관성이 있는 단일 염기 다형성(SNP)을 획득하고, 획득한 단일 염기 다형성(SNP)을 점수화하여 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)를 획득하는 제2형 당뇨질환 예측 시스템.
  3. 제1항에 있어서,
    상기 학습부는,
    상기 신체 계측 정보, 임상 검사 정보 및 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)를 이용하여 데이터셋을 형성하고, 형성된 데이터셋을 랜덤 포레스트(RF) 모형에 입력하여 학습시키는 제2형 당뇨질환 예측 시스템.
  4. 제1항에 있어서,
    상기 학습부는,
    상기 신체 계측 정보 및 전장 유전체 기반 다원 유전자성 위험 점수(gPRS)를 이용하여 데이터셋을 형성하고, 형성된 데이터셋을 랜덤 포레스트(RF) 모형에 입력하여 학습시키는 제2형 당뇨질환 예측 시스템.
KR1020200164072A 2020-11-30 2020-11-30 gPRS를 이용한 제2형 당뇨질환 예측 시스템 KR20220075700A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200164072A KR20220075700A (ko) 2020-11-30 2020-11-30 gPRS를 이용한 제2형 당뇨질환 예측 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200164072A KR20220075700A (ko) 2020-11-30 2020-11-30 gPRS를 이용한 제2형 당뇨질환 예측 시스템

Publications (1)

Publication Number Publication Date
KR20220075700A true KR20220075700A (ko) 2022-06-08

Family

ID=81981843

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200164072A KR20220075700A (ko) 2020-11-30 2020-11-30 gPRS를 이용한 제2형 당뇨질환 예측 시스템

Country Status (1)

Country Link
KR (1) KR20220075700A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102531776B1 (ko) * 2022-10-31 2023-05-12 대한민국 유전 및 라이프스타일 위험도 평가 기반 제2형 당뇨병 고위험군 진단 방법
KR102683199B1 (ko) * 2023-07-26 2024-07-09 (주) 아이크로진 대규모 제2 형 당뇨 데이터셋 기반의 불균형 대조군 마커 선별 학습 알고리즘을 활용한 환자(질환)군/대조군 예측 학습 모델 구축 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102531776B1 (ko) * 2022-10-31 2023-05-12 대한민국 유전 및 라이프스타일 위험도 평가 기반 제2형 당뇨병 고위험군 진단 방법
KR102683199B1 (ko) * 2023-07-26 2024-07-09 (주) 아이크로진 대규모 제2 형 당뇨 데이터셋 기반의 불균형 대조군 마커 선별 학습 알고리즘을 활용한 환자(질환)군/대조군 예측 학습 모델 구축 방법

Similar Documents

Publication Publication Date Title
Zhang et al. Clinical interpretation of sequence variants
US20200027557A1 (en) Multimodal modeling systems and methods for predicting and managing dementia risk for individuals
US20060278241A1 (en) Physiogenomic method for predicting clinical outcomes of treatments in patients
Kurniansyah et al. A multi-ethnic polygenic risk score is associated with hypertension prevalence and progression throughout adulthood
WO2007103977A2 (en) A physiogenomic method for predicting clinical outcomes of treatments in patients
KR20220075700A (ko) gPRS를 이용한 제2형 당뇨질환 예측 시스템
Trivedi Right patient, right treatment, right time: biosignatures and precision medicine in depression
EP1332462A2 (en) System and method for selectively classifying a population
JP2023546240A (ja) 疾患を発症するリスクを評価する方法
CN115011687A (zh) 预测缺血性脑卒中患者不良预后的生物标志物组、试剂盒和系统
KR102042824B1 (ko) 류마티스관절염 예후 예측용 snp 마커 세트
Xu et al. A nomogram model for the risk prediction of type 2 diabetes in healthy eastern China residents: a 14-year retrospective cohort study from 15,166 participants
Ghandian et al. Machine learning to predict progression of non‐alcoholic fatty liver to non‐alcoholic steatohepatitis or fibrosis
Ding et al. Biomarker and genomic analyses reveal molecular signatures of non-cardioembolic ischemic stroke
Horton et al. Cross-trait Mendelian randomization study to investigate whether migraine is a risk factor for multiple sclerosis
Shoaib et al. Evaluation of polygenic risk scores to differentiate between type 1 and type 2 diabetes
Kotadia et al. AF and in-hospital mortality in COVID-19 patients
Jin et al. Use of patient-reported data to match depression screening intervals with depression risk profiles in primary care patients with diabetes: development and validation of prediction models for major depression
CN113160985A (zh) 一种covid-19临床不良预后风险的预测方法及系统
Liao et al. Multilocus genetic risk score for diabetic retinopathy in the Han Chinese population of Taiwan
Jeon et al. Impact of molecular drug susceptibility testing on the time to multidrug-resistant tuberculosis treatment initiation
CN117012390A (zh) 一种结核性脑膜炎死亡风险评估模型、构建方法、系统和装置
CN113643753B (zh) 冠心病多基因遗传风险评分及联合临床风险评估应用
US20230260659A1 (en) Method for a predictive prognosis of the onset of a cardiovascular disease
KR102042823B1 (ko) 류마티스관절염 예후 예측용 snp 마커 세트