KR102382707B1 - 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치 및 그 방법 - Google Patents

다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치 및 그 방법 Download PDF

Info

Publication number
KR102382707B1
KR102382707B1 KR1020210148683A KR20210148683A KR102382707B1 KR 102382707 B1 KR102382707 B1 KR 102382707B1 KR 1020210148683 A KR1020210148683 A KR 1020210148683A KR 20210148683 A KR20210148683 A KR 20210148683A KR 102382707 B1 KR102382707 B1 KR 102382707B1
Authority
KR
South Korea
Prior art keywords
disease
analysis
data
time
factor
Prior art date
Application number
KR1020210148683A
Other languages
English (en)
Other versions
KR102382707B9 (ko
Inventor
김호
김정오
김정은
윤상혁
이솔
지선하
박승환
권도형
차지희
김나영
김은교
박다현
안지민
송우정
Original Assignee
주식회사 바스젠바이오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 바스젠바이오 filed Critical 주식회사 바스젠바이오
Priority to KR1020210148683A priority Critical patent/KR102382707B1/ko
Application granted granted Critical
Publication of KR102382707B1 publication Critical patent/KR102382707B1/ko
Publication of KR102382707B9 publication Critical patent/KR102382707B9/ko
Priority to PCT/KR2022/009116 priority patent/WO2023080379A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Theoretical Computer Science (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

본 발명은 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성기술에 대한 것으로, 발병 예상 정보 포함하는 질환 발병 정보 생성함에 있어 전처리된 유전체 데이터 및 검진 결과 데이터를 이용하여 분류된 복수의 그룹에 각각 포함된 복수의 유전자 변이를 대상으로 그룹별로 PRS 모델을 설계하고 PRS 모델을 이용해 산출한 다유전자 위험점수가 공변량으로 적용된 시간 의존 연관성 산출 모델에 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 입력함으로써 COX 모델에 입력될 독립변수와 종속 변수 간의 시점 별 연관성 크기를 산출하여 시계열 특성 변수로 선정하고, 검진 결과 데이터를 대상으로 산출된 상기 적어도 하나의 시계열 특성 변수를 적용하며 적용된 다수의 인원의 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 각 그룹별로 COX 회귀 분석을 수행하여 각 그룹 별 질병 발생 위험도를 차이값을 이용하여 위험도 변화량을 산출하여 발병 예상 정보를 생성함으로써 시간의 흐름을 반영하여 상대적으로 더욱 정확한 질환 발병 정보를 제공하는데 그 목적이 있다.

Description

다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치 및 그 방법{disease onset information generating apparatus based on time-dependent correlation using polygenic risk score and method therefor}
본 발명은 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성기술에 대한 것으로 더욱 자세하게는 다수의 인원 대한 유전체 데이터 또는 복수의 선행 문헌을 입력 받아 복수의 분석을 수행하여 유전체 데이터를 전처리하고 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 복수의 분석을 수행하여 검진 결과 데이터를 전처리 한 후 전처리된 유전체 데이터를 이용하여 그룹별로 유전자 변이별 다유전자 위험점수를 계산하고, 유전자 변이별 다유전자 위험점수(
Figure 112021126105697-pat00001
)를 시간 의존 연관성 산출 모델에 공변량으로 적용하여 시계열 특성 변수를 산정하며, 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 산출된 적어도 하나의 시계열 특성 변수를 적용하여 다수의 인원의 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 각 그룹별로 COX 회귀 분석을 수행하여 각 그룹 별로 질병 발생 위험도를 계산하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치 및 그 방법에 대한 것이다.
바이오 마커란 단백질이나 DNA, RNA(리복핵산), 대사 물질 등을 이용해 몸 안의 변화에 영향을 미치는 유전자 변이 등의 지표를 의미하며, 이를 이용하여 생명체의 정상 또는 병리적인 상태, 약물에 대한 반응 정도 등을 객관적으로 측정할 수 있는 기술에 대한 중요도가 점차 증가하고 있다.
이러한 바이오 마커를 도출하여 암을 비롯해 뇌졸중, 치매 등 각종 난치병을 진단하기 위한 효과적 방식으로 각광받고 있으며 신약개발과정에 반영할 수 있어 안전성확보는 물론 비용절감 효과까지 바라볼 수 있으나, 바이오 마커와 질병의 연관성을 검증하기가 쉬지 않아 종래의 기술에서는 GWAS 분석등을 통해 특정 개인 유전체 변이를 분석하여 개인 유전체 맵을 작성하여 특정 질병과 연관성이 높은 유전자 변이를 선정하여 바이오 마커로 정의하는 기술들이 존재하였다.
[대한민국 공개번호 제10-2019-0000341호 "개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법"]
GWAS 분석은 유전자 변이와 연관된 형질(예를 들어 질병)을 찾는 하나의 탐색 (Exploratory) 방법으로, 일반적으로 케이스(Case, 관심 형질을 가진 집단, 예를 들어 환자군) 와 컨트롤(Control, 형질을 갖지 않는 집단, 예를 들어 정상군)의 유전 정보를 서로 비교하여, 케이스 상에서 더 많은 빈도를 갖는 유전자 변이를 형질과 연관성을 가진 유전자 변이로 선정하는 방식을 사용하고 있다.
GWAS 분석은 모든 유전자 위치에 대해 연관성의 정도를 분석하기 때문에, 관심있는 형질 또는 질환에 1차적으로 관련되어 있는 후보 유전자를 찾아내는 데 매우 유용한 탐색 도구 (screening method)가 될 수 있으나. 그 원리가 통계적 연관성 분석에 기인하는 것으로 인과 관계를 찾는 것이 아니라 우연히 연관되어 나타나는 유전자들의 후보를 찾는 과정이기 때문에, GWAS 분석만으로는 형질과 연관성을 가진 유전자 변이를 탐색하는 것의 정확도를 올리는 것에 대한 한계점이 명확하다.
또한 종래에 질환 유발에 복합적으로 영향을 미치는 복수의 요인들에 대하여 정확하게 도출하기 위하여 많은 노력들이 있었으나 각 개인들의 1회 건강 상태 데이터들을 분석해서는 분석 패턴을 일반화하기가 매우 어려우며, 인공 신경망을 이용한 빅데이터 분석을 통해서 복수의 사람들의 건상 상태 데이터를 분석하는 방법은 입력값과 결과값 사이의 인과관계가 불명확하여 해당 요인들이 질환에 대해 영향을 미치는 것에 대한 정확도를 신뢰할 수 없다는 문제점들이 존재하였다.
본 발명은 복수의 분석 방법을 통해 유전체 데이터 및 검진 결과 데이터를 전처리 하고, 전처리된 유전체 데이터를 이용하여 그룹별로 유전자 변이별 다유전자 위험점수를 계산하여 유전자 변이별 다유전자 위험점수(
Figure 112021126105697-pat00002
)를 시간 의존 연관성 산출 모델에 공변량으로 적용하는 방법으로 시계열 특성 변수를 산정하며, 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 적용함으로써 질환 연관성 요인 분석에 있어 시간 변동성이 반영되도록 할 수 있으며, 시계열 특성 변수를 적용하여 다수의 인원의 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 각 그룹별로 COX 회귀 분석을 수행하여 각 그룹 별로 질병 발생 위험도를 계산함으로써 이를 통해 발병 예상 정보를 생성할 수 있는 기술을 제공하는 것을 목적으로 한다.
본 발명의 실시예에 따르면 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치는 다수의 인원 대한 유전체 데이터 또는 복수의 선행 문헌을 입력 받아 복수의 분석을 수행하여 복수의 질환 유발 인자 후보 리스트를 생성하고, 상기 복수의 질환 유발 인자 후보 리스트에 포함된 유전자 변이를 복수의 그룹으로 분류하는 유전체 데이터 전처리부; 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 복수의 분석을 수행하여 적어도 하나의 질환 연관성 요인을 선정하고, 집단 추세 모형을 이용하여 상기 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터에 포함된 개별 검진 결과값들의 변화를 기준으로 상기 다수의 인원을 그룹핑을 하여 복수의 그룹을 생성하는 검진 결과 데이터 전처리부; 상기 유전체 데이터 전처리부에서 분류된 복수의 그룹에 각각 포함된 복수의 유전자 변이를 대상으로 그룹별로 PRS 모델을 설계하고, 상기 PRS 모델을 이용하여 각 그룹별 유전자 변이의 위험 대립 유전자의 수에 대하여 연관성(
Figure 112021126105697-pat00003
)을 가중치로 계산하여 상기 그룹별로 유전자 변이별 다유전자 위험점수(
Figure 112021126105697-pat00004
) 및 그룹 다유전자 위험점수(
Figure 112021126105697-pat00005
)를 계산하는 다유전자 위험 점수 산출부; 산출된 상기 유전자 변이별 다유전자 위험점수(
Figure 112021126105697-pat00006
)를 시간 의존 연관성 산출 모델에 공변량으로 적용하며, 상기 검진 결과 데이터 전처리부에서 생성된 각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 상기 시간 의존 연관성 산출 모델에 입력하여 COX 모델에 입력될 독립변수와 종속 변수 간의 시점 별 연관성 크기를 산출하여 시계열 특성 변수로 선정하는 시계열 특성 변수화부; 상기 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 산출된 상기 적어도 하나의 시계열 특성 변수를 적용하고, 적용된 다수의 인원의 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 각 그룹별로 COX 회귀 분석을 수행하여 각 그룹 별로 질병 발생 위험도를 계산하는 위험도 계산부; 및 계산된 각 그룹 별 질병 발생 위험도를 차이값을 이용하여 위험도 변화량을 산출하여 발병 예상 정보를 생성하는 발병 예상 정보 생성부를 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 유전체 데이터 전처리부는, 다수의 인원 대한 유전체 데이터 또는 복수의 선행 문헌을 입력 받아 질환 유발 인자 후보를 선별하는 복수의 분석을 수행하는 질환 유발 인자 선별부; 상기 복수의 분석 별 질환 유발 인자 후보로 선별된 복수의 유전자 변이를 포함한 복수의 질환 유발 인자 후보 리스트를 생성하는 질환 유발 인자 후보 리스트 생성부; 생성된 상기 복수의 질환 유발 인자 후보 리스트에 포함된 유전자 변이 중 서로 겹치는 정도에 따라 상기 복수의 질환 유발 인자 후보 리스트에 포함된 유전자 변이를 복수의 그룹으로 분류하는 유전자 변이 그룹 분류부; 분류된 상기 복수의 그룹을 복수의 우선 순위 등급으로 나누고, 각 우선 순위 등급별로 포함된 복수의 유전자 변이 중 중첩되는 유전자 변이를 하나만 남기고 제거하여 복수의 등급별 유전자 변이 리스트를 생성하는 우선 순위 등급 분류부를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 유전체 데이터 전처리부는, 다수의 인원 대한 유전체 데이터 또는 복수의 선행 문헌을 입력받아 타겟 질환에 대하여 GWAS 분석, AI 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행할 수 있다.
본 발명의 일 실시예에 따르면 상기 질환 유발 인자 선별부는, 다수의 인원 대한 유전체 데이터를 입력받아 타겟 질환을 대상으로 전장 유전체 연관분석을 수행하고, 상기 수행의 결과로 유전자 변이 별로 산출된 P값을 미리 설정된 임계치와 대비하여, 상기 임계치 이하인 복수의 유전자 변이를 질환 유발 인자 후보로 선별하는 GWAS 분석 수행부를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 질환 유발 인자 선별부는, 인공 신경망 기반의 질환 유발 인자 예측 모델에 질환이 라벨링 된 다수의 인원에 대한 유전체 데이터를 입력하여 유전자 변이별 중요도 점수(Importance score)를 출력하고, 상기 출력된 유전자 변이별 중요도 점수 중 미리 설정된 점수를 초과하는 중요도 점수를 가진 복수의 유전자 변이를 질환 유발 인자 후보로 선별하는 AI 분석 수행부를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 질환 유발 인자 선별부는, 타겟 질환을 대상으로 유전자 변이에 대한 영향을 주제로 기고된 복수의 선행 문헌을 메타 분석 모델에 입력하여 상기 복수의 선행 문헌별로 상기 유전자 변이의 주제에 부합하는 효과 크기를 산출하고, 산출된 효과 크기의 분산의 역수를 각 선행 문헌의 효과 크기에 가중치로 적용하여 각 유전자 변이 별로 타겟 질환 영향력 점수를 측정하여, 각 유전자 변이 별 타겟 질환 영향력 점수를 기준으로 복수의 유전자 변이를 질환 유발 인자 후보로 선별하는 메타 분석 수행부를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 GWAS 분석 수행부는, 상기 질환 유발 인자 후보로 선별된 복수의 유전자 변이를 대상으로, 각 유전자 변이의 위치가 연관불균형 상태를 가지는지 여부를 판단하고, 판단 결과에 따라 각 유전자 자리(Locus)별 대표성을 가지는 하나의 유전자 변이만을 선별하여 최종 질환 유발 인자 후보를 생성할 수 있다.
본 발명의 일 실시예에 따르면 상기 AI 분석 수행부는, 질환이 라벨링 된 다수의 인원에 대한 유전체 데이터는 유전자 변이 식별 코드, 공변인 정보, 타겟 질환 정보를 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 AI 분석 수행부는, 상기 인공 신경망 기반의 질환 유발 인자 예측 모델은 다수의 인원에 대한 유전체 데이터에 포함된 유전자 변이 식별 코드, 공변인 정보, 타겟 질환 정보를 입력받아 타겟 질환에 대한 유전자 변이별 중요도 점수(Importance score)를 출력하도록 학습될 수 있다.
본 발명의 일 실시예에 따르면 상기 AI 분석 수행부는, 유전자 변이별 중요도 점수를 각 유전자 변이들의 순서를 무작위로 섞은 뒤, 중요도를 판단하고자 하는 유전자 변이를 노이즈로 정의하는 모델을 생성하고, 상기 모델이 상기 유전자 변이에 대한 의존도를 정량화하여 산출할 수 있다.
본 발명의 일 실시예에 따르면 상기 메타 분석 수행부는, 상기 복수의 선행 문헌별로 상기 유전자 변이의 주제에 부합하는 효과 크기는 각 선행 문헌별로 오즈비(odds ratio)와 신뢰구간을 산출하여, 상기 오즈비와 신뢰구간을 토대로 선행 문헌별 유전자 변이가 타겟 질환에 미치는 효과 크기를 추정할 수 있다.
본 발명의 일 실시예에 따르면 상기 메타 분석 수행부는, 상기 효과 크기에 역분산 추정을 통해 선행 문헌별 가중치로 산출하고, 산출된 각 선행 문헌별 오즈비에 상기 가중치를 적용하여 산출된 선행 문헌별 오즈비를 합산하여 타겟 질환 영향력 점수를 산출할 수 있다.
본 발명의 일 실시예에 따르면 상기 유전자 변이 그룹 분류부는 상기 GWAS 분석, AI 분석, 메타 분석을 각각 수행하여 생성된 3개의 질환 유발 인자 후보 리스트에 포함된 유전자 변이 중 서로 겹치는 정도에 따라 9개의 그룹으로 유전자 변이를 분류할 수 있다.
본 발명의 일 실시예에 따르면 상기 우선 순위 등급 분류부는, 상기 9개의 그룹을 1, 2, 3등급의 우선 순위 등급으로 분류하며, 1등급에는 1개 그룹을, 2등급에는 4개 그룹을, 3등급에는 4개 그룹을 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 다유전자 위험 점수 산출부는, 각 그룹별 유전자 변이의 위험 대립 유전자의 수에 대하여 연관성(
Figure 112021126105697-pat00007
)은 상기 GWAS 분석 결과에서 도출된 각 그룹별 유전자 변이의 위험 대립 유전자의 수에 대한 연관성(
Figure 112021126105697-pat00008
)일 수 있다.
본 발명의 일 실시예에 따르면 상기 PRS 모델이 연속형 타겟 질환 또는 이산형 타겟 질환에 대한 것인지 여부에 따라 상기 PRS 모델의 검증을 수행하여 상기 PRS 모델의 사용 또는 재설계를 결정하는 PRS 모델 검증부를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 검진 결과 데이터 전처리부는, 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 질환 연관성 요인 후보를 선정하는 복수의 분석을 수행하는 연관성 분석 수행부; 상기 복수의 분석 별 질환 연관성 요인 후보로 선정된 복수의 질환 관련 인자 중 서로 겹치는 정도에 따라 적어도 하나의 질환 연관성 요인을 선정하는 질환 연관성 요인 선정부; 상기 선정된 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터 중 데이터의 2차 가공이 필요한 질환 연관성 요인을 대상으로 미리 설정된 전처리 기준에 따라 데이터를 가공하는 전처리 수행부; 및 집단 추세 모형을 이용하여 시간의 흐름에 따른 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터에 포함된 개별 검진 결과값들의 변화를 기준으로 상기 다수의 인원을 그룹핑을 하여 복수의 그룹을 생성하는 데이터 그룹 분류부를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 연관성 분석 수행부는, 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 타겟 질환에 대하여 질환 연관성 분석, 빅데이터 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행할 수 있다.
본 발명의 일 실시예에 따르면 상기 연관성 분석 수행부는, 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터를 대상으로 타겟 질환의 발병 가능성에 대한 복수의 질환 관련 인자의 연관성 분석을 수행하여, 연관성이 높은 것으로 도출된 질환 관련 인자를 질환 연관성 요인 후보로 선정하는 질환 연관성 분석부를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 연관성 분석 수행부는, 텍스트 기반의 질환 관련 자료가 저장된 데이터 베이스로부터 크롤링을 이용하여 복수의 데이터를 수집하고, 수집된 복수의 데이터를 대상으로 텍스트 마이닝을 수행하여 질환 연관성 요인 후보를 선정하는 빅데이터 분석부를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 연관성 분석 수행부는, 타겟 질환과 질환 관련 인자에 대한 영향을 주제로 한 복수의 질환 관련 자료를 메타 분석 모델에 입력하여, 상기 복수의 질환 관련 자료 별로 질환 관련 인자별의 효과 크기를 산출하여, 상기 효과 크기에 따라 질환 연관성 요인 후보를 선정하는 메타 분석 수행부를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 질환 연관성 요인 선정부는, 질환 연관성 분석, 빅데이터 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행하여 생성된 복수의 질환 연관성 요인 후보를 각각 대비하여 생성된 질환 연관성 요인 후보들 모두에 포함되어 있는 질환 관련 인자만을 질환 연관성 요인으로 선정할 수 있다.
본 발명의 일 실시예에 따르면 상기 전처리 수행부는, 선정된 적어도 하나의 질환 연관성 요인에 포함된 질환 관련 인자에 대한 개별 검진 결과값을 검진 결과 데이터로부터 수집하고, 수집된 개별 검진 결과값을 시계열로 나열하는 전처리를 수행하여 전체 검진 대상 기간별 시계열 검진 데이터로 생성할 수 있다.
본 발명의 일 실시예에 따르면 상기 전처리 수행부는, 미리 설정된 전처리 기준에 따라 선정된 적어도 하나의 질환 연관성 요인에 포함된 질환 관련 인자가 개별 검진 결과값으로는 경향성 기준 또는 판단 기준으로 사용될 수 없는 것으로 분류되는 경우, 경향성 기준 또는 판단 기준으로 사용될 수 있도록 상기 미리 설정된 전처리 기준에 따라 검진 결과 데이터에서 산출 혹은 재가공하는 전처리를 수행하여 전체 검진 대상 기간별 시계열 검진 데이터로 생성할 수 있다.
본 발명의 일 실시예에 따르면 상기 전처리 수행부는, 상기 미리 설정된 전처리 기준은 질환 관련 인자가 개별 검진 결과값을 전처리 없이 집단 추세 모형에 입력하여 결과 값을 낼 수 없는 질환 관련 인자의 종류에 대한 정보 및 상기 질환 관련 인자의 전처리 방법에 대한 정보를 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 데이터 그룹 분류부는, 각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 대상으로 궤적 형태를 추정하여 각 그룹별로 궤적 형태의 차이를 대비하여 분류된 그룹의 분류 적합도를 검증할 수 있다.
본 발명의 실시예에 따르면 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 방법은 적어도 하나의 프로세서를 포함한 질환 발병 정보 생성 장치에 의하여 구동되는, 다수의 인원 대한 유전체 데이터 또는 복수의 선행 문헌을 입력 받아 복수의 분석을 수행하여 복수의 질환 유발 인자 후보 리스트를 생성하고, 상기 복수의 질환 유발 인자 후보 리스트에 포함된 유전자 변이를 복수의 그룹으로 분류하는 단계; 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 복수의 분석을 수행하여 적어도 하나의 질환 연관성 요인을 선정하고, 집단 추세 모형을 이용하여 상기 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터에 포함된 개별 검진 결과값들의 변화를 기준으로 상기 다수의 인원을 그룹핑을 하여 복수의 그룹을 생성하는 단계; 상기 유전체 데이터를 대상으로 분류된 복수의 그룹에 각각 포함된 복수의 유전자 변이를 대상으로 그룹별로 PRS 모델을 설계하고, 상기 PRS 모델을 이용하여 각 그룹별 유전자 변이의 위험 대립 유전자의 수에 대하여 연관성(
Figure 112021126105697-pat00009
)을 가중치로 계산하여 상기 그룹별로 유전자 변이별 다유전자 위험점수(
Figure 112021126105697-pat00010
) 및 그룹 다유전자 위험점수(
Figure 112021126105697-pat00011
)를 계산하는 단계; 산출된 상기 유전자 변이별 다유전자 위험점수(
Figure 112021126105697-pat00012
)를 시간 의존 연관성 산출 모델에 공변량으로 적용하며, 상기 검진 결과 데이터를 대상으로 생성된 각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 상기 시간 의존 연관성 산출 모델에 입력하여 COX 모델에 입력될 독립변수와 종속 변수 간의 시점 별 연관성 크기를 산출하여 시계열 특성 변수로 선정하는 단계; 상기 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 산출된 상기 시계열 특성 변수를 적용하고, 적용된 다수의 인원의 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 각 그룹별로 COX 회귀 분석을 수행하여 각 그룹 별로 질병 발생 위험도를 계산하는 단계; 및 계산된 각 그룹 별 질병 발생 위험도를 차이값을 이용하여 위험도 변화량을 산출하여 발병 예상 정보를 생성하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 유전자 변이를 복수의 그룹으로 분류하는 단계는, 다수의 인원 대한 유전체 데이터 또는 복수의 선행 문헌을 입력 받아 질환 유발 인자 후보를 선별하는 복수의 분석을 수행하는 단계; 상기 복수의 분석 별 질환 유발 인자 후보로 선별된 복수의 유전자 변이를 포함한 복수의 질환 유발 인자 후보 리스트를 생성하는 단계; 생성된 상기 복수의 질환 유발 인자 후보 리스트에 포함된 유전자 변이 중 서로 겹치는 정도에 따라 상기 복수의 질환 유발 인자 후보 리스트에 포함된 유전자 변이를 복수의 그룹으로 분류하는 단계; 분류된 상기 복수의 그룹을 복수의 우선 순위 등급으로 나누고, 각 우선 순위 등급별로 포함된 복수의 유전자 변이 중 중첩되는 유전자 변이를 하나만 남기고 제거하여 복수의 등급별 유전자 변이 리스트를 생성하는 단계를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 복수의 분석을 수행하는 단계는, 다수의 인원 대한 유전체 데이터 또는 복수의 선행 문헌을 입력받아 타겟 질환에 대하여 GWAS 분석, AI 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행할 수 있다.
본 발명의 일 실시예에 따르면 상기 복수의 분석을 수행하는 단계는, 다수의 인원 대한 유전체 데이터를 입력받아 타겟 질환을 대상으로 전장 유전체 연관분석을 수행하고, 상기 수행의 결과로 유전자 변이 별로 산출된 P값을 미리 설정된 임계치와 대비하여, 상기 임계치 이하인 복수의 유전자 변이를 질환 유발 인자 후보로 선별하는 단계를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 복수의 분석을 수행하는 단계는, 인공 신경망 기반의 질환 유발 인자 예측 모델에 질환이 라벨링 된 다수의 인원에 대한 유전체 데이터를 입력하여 유전자 변이별 중요도 점수(Importance score)를 출력하고, 상기 출력된 유전자 변이별 중요도 점수 중 미리 설정된 점수를 초과하는 중요도 점수를 가진 복수의 유전자 변이를 질환 유발 인자 후보로 선별하는 단계를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 복수의 분석을 수행하는 단계는, 타겟 질환을 대상으로 유전자 변이에 대한 영향을 주제로 기고된 복수의 선행 문헌을 메타 분석 모델에 입력하여 상기 복수의 선행 문헌별로 상기 유전자 변이의 주제에 부합하는 효과 크기를 산출하고, 산출된 효과 크기의 분산의 역수를 각 선행 문헌의 효과 크기에 가중치로 적용하여 각 유전자 변이 별로 타겟 질환 영향력 점수를 측정하여, 각 유전자 변이 별 타겟 질환 영향력 점수를 기준으로 복수의 유전자 변이를 질환 유발 인자 후보로 선별하는 단계를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 임계치 이하인 복수의 유전자 변이를 질환 유발 인자 후보로 선별하는 단계는, 상기 질환 유발 인자 후보로 선별된 복수의 유전자 변이를 대상으로, 각 유전자 변이의 위치가 연관불균형 상태를 가지는지 여부를 판단하고, 판단 결과에 따라 각 유전자 자리(Locus)별 대표성을 가지는 하나의 유전자 변이만을 선별하여 최종 질환 유발 인자 후보를 생성할 수 있다.
본 발명의 일 실시예에 따르면 상기 미리 설정된 점수를 초과하는 중요도 점수를 가진 복수의 유전자 변이를 질환 유발 인자 후보로 선별하는 단계는, 질환이 라벨링 된 다수의 인원에 대한 유전체 데이터는 유전자 변이 식별 코드, 공변인 정보, 타겟 질환 정보를 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 미리 설정된 점수를 초과하는 중요도 점수를 가진 복수의 유전자 변이를 질환 유발 인자 후보로 선별하는 단계는, 상기 인공 신경망 기반의 질환 유발 인자 예측 모델은 다수의 인원에 대한 유전체 데이터에 포함된 유전자 변이 식별 코드, 공변인 정보, 타겟 질환 정보를 입력받아 타겟 질환에 대한 유전자 변이별 중요도 점수(Importance score)를 출력하도록 학습될 수 있다.
본 발명의 일 실시예에 따르면 상기 미리 설정된 점수를 초과하는 중요도 점수를 가진 복수의 유전자 변이를 질환 유발 인자 후보로 선별하는 단계는, 유전자 변이별 중요도 점수를 각 유전자 변이들의 순서를 무작위로 섞은 뒤, 중요도를 판단하고자 하는 유전자 변이를 노이즈로 정의하는 모델을 생성하고, 상기 모델이 상기 유전자 변이에 대한 의존도를 정량화하여 산출할 수 있다.
본 발명의 일 실시예에 따르면 상기 각 유전자 변이 별 타겟 질환 영향력 점수를 기준으로 복수의 유전자 변이를 질환 유발 인자 후보로 선별하는 단계는, 상기 복수의 선행 문헌별로 상기 유전자 변이의 주제에 부합하는 효과 크기는 각 선행 문헌별로 오즈비(odds ratio)와 신뢰구간을 산출하여, 상기 오즈비와 신뢰구간을 토대로 선행 문헌별 유전자 변이가 타겟 질환에 미치는 효과 크기를 추정할 수 있다.
본 발명의 일 실시예에 따르면 상기 각 유전자 변이 별 타겟 질환 영향력 점수를 기준으로 복수의 유전자 변이를 질환 유발 인자 후보로 선별하는 단계는, 상기 효과 크기에 역분산 추정을 통해 선행 문헌별 가중치로 산출하고, 산출된 각 선행 문헌별 오즈비에 상기 가중치를 적용하여 산출된 선행 문헌별 오즈비를 합산하여 타겟 질환 영향력 점수를 산출할 수 있다.
본 발명의 일 실시예에 따르면 상기 복수의 질환 유발 인자 후보 리스트에 포함된 유전자 변이를 복수의 그룹으로 분류하는 단계는, 상기 GWAS 분석, AI 분석, 메타 분석을 각각 수행하여 생성된 3개의 질환 유발 인자 후보 리스트에 포함된 유전자 변이 중 서로 겹치는 정도에 따라 9개의 그룹으로 유전자 변이를 분류할 수 있다.
본 발명의 일 실시예에 따르면 상기 복수의 질환 유발 인자 후보 리스트에 포함된 유전자 변이를 복수의 그룹으로 분류하는 단계는, 상기 9개의 그룹을 1, 2, 3등급의 우선 순위 등급으로 분류하며, 1등급에는 1개 그룹을, 2등급에는 4개 그룹을, 3등급에는 4개 그룹을 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 다유전자 위험점수를 계산하는 단계는, 각 그룹별 유전자 변이의 위험 대립 유전자의 수에 대하여 연관성(
Figure 112021126105697-pat00013
)은 상기 GWAS 분석의 결과에서 도출된 각 그룹별 유전자 변이의 위험 대립 유전자의 수에 대한 연관성(
Figure 112021126105697-pat00014
)일 수 있다.
본 발명의 일 실시예에 따르면 상기 PRS 모델이 연속형 타겟 질환 또는 이산형 타겟 질환에 대한 것인지 여부에 따라 상기 PRS 모델의 검증을 수행하여 상기 PRS 모델의 사용 또는 재설계를 결정하는 단계를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 검진 결과 데이터 전처리부는, 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 질환 연관성 요인 후보를 선정하는 복수의 분석을 수행하는 단계; 상기 복수의 분석 별 질환 연관성 요인 후보로 선정된 복수의 질환 관련 인자 중 서로 겹치는 정도에 따라 적어도 하나의 질환 연관성 요인을 선정하는 단계; 상기 선정된 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터 중 데이터의 2차 가공이 필요한 질환 연관성 요인을 대상으로 미리 설정된 전처리 기준에 따라 데이터를 가공하는 단계; 및 집단 추세 모형을 이용하여 시간의 흐름에 따른 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터에 포함된 개별 검진 결과값들의 변화를 기준으로 상기 다수의 인원을 그룹핑을 하여 복수의 그룹을 생성하는 단계를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 질환 연관성 요인 후보를 선정하는 복수의 분석을 수행하는 단계는, 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 타겟 질환에 대하여 질환 연관성 분석, 빅데이터 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행할 수 있다.
본 발명의 일 실시예에 따르면 상기 질환 연관성 요인 후보를 선정하는 복수의 분석을 수행하는 단계는, 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터를 대상으로 타겟 질환의 발병 가능성에 대한 복수의 질환 관련 인자의 연관성 분석을 수행하여, 연관성이 높은 것으로 도출된 질환 관련 인자를 질환 연관성 요인 후보로 선정하는 단계를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 질환 연관성 요인 후보를 선정하는 복수의 분석을 수행하는 단계는, 텍스트 기반의 질환 관련 자료가 저장된 데이터 베이스로부터 크롤링을 이용하여 복수의 데이터를 수집하고, 수집된 복수의 데이터를 대상으로 텍스트 마이닝을 수행하여 질환 연관성 요인 후보를 선정하는 단계를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 질환 연관성 요인 후보를 선정하는 복수의 분석을 수행하는 단계는, 타겟 질환과 질환 관련 인자에 대한 영향을 주제로 한 복수의 질환 관련 자료를 메타 분석 모델에 입력하여, 상기 복수의 질환 관련 자료 별로 질환 관련 인자별의 효과 크기를 산출하여, 상기 효과 크기에 따라 질환 연관성 요인 후보를 선정하는 단계를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 질환 연관성 요인 후보를 선정하는 복수의 분석을 수행하는 단계는, 질환 연관성 분석, 빅데이터 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행하여 생성된 복수의 질환 연관성 요인 후보를 각각 대비하여 생성된 질환 연관성 요인 후보들 모두에 포함되어 있는 질환 관련 인자만을 질환 연관성 요인으로 선정할 수 있다.
본 발명의 일 실시예에 따르면 상기 미리 설정된 전처리 기준에 따라 데이터를 가공하는 단계는, 선정된 적어도 하나의 질환 연관성 요인에 포함된 질환 관련 인자에 대한 개별 검진 결과값을 검진 결과 데이터로부터 수집하고, 수집된 개별 검진 결과값을 시계열로 나열하는 전처리를 수행하여 전체 검진 대상 기간별 시계열 검진 데이터로 생성할 수 있다.
본 발명의 일 실시예에 따르면 상기 미리 설정된 전처리 기준에 따라 데이터를 가공하는 단계는, 미리 설정된 전처리 기준에 따라 선정된 적어도 하나의 질환 연관성 요인에 포함된 질환 관련 인자가 개별 검진 결과값으로는 경향성 기준 또는 판단 기준으로 사용될 수 없는 것으로 분류되는 경우, 경향성 기준 또는 판단 기준으로 사용될 수 있도록 상기 미리 설정된 전처리 기준에 따라 검진 결과 데이터에서 산출 혹은 재가공하는 전처리를 수행하여 전체 검진 대상 기간별 시계열 검진 데이터로 생성할 수 있다.
본 발명의 일 실시예에 따르면 상기 미리 설정된 전처리 기준에 따라 데이터를 가공하는 단계는, 상기 미리 설정된 전처리 기준은 질환 관련 인자가 개별 검진 결과값을 전처리 없이 집단 추세 모형에 입력하여 결과 값을 낼 수 없는 질환 관련 인자의 종류에 대한 정보 및 상기 질환 관련 인자의 전처리 방법에 대한 정보를 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 미리 설정된 전처리 기준에 따라 데이터를 가공하는 단계는, 각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 대상으로 궤적 형태를 추정하여 각 그룹별로 궤적 형태의 차이를 대비하여 분류된 그룹의 분류 적합도를 검증할 수 있다.
본 발명의 실시예에 따라 구현된 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치에 의하면, 발병 예상 정보 포함하는 질환 발병 정보 생성함에 있어 전처리된 유전체 데이터 및 검진 결과 데이터를 이용하여 분류된 복수의 그룹에 각각 포함된 복수의 유전자 변이를 대상으로 그룹별로 PRS 모델을 설계하고 PRS 모델을 이용해 산출한 다유전자 위험점수가 공변량으로 적용된 시간 의존 연관성 산출 모델에 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 입력함으로써 COX 모델에 입력될 독립변수와 종속 변수 간의 시점 별 연관성 크기를 산출하여 시계열 특성 변수로 선정하고, 검진 결과 데이터를 대상으로 산출된 상기 적어도 하나의 시계열 특성 변수를 적용하며 적용된 다수의 인원의 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 각 그룹별로 COX 회귀 분석을 수행하여 각 그룹 별 질병 발생 위험도를 차이값을 이용하여 위험도 변화량을 산출하여 발병 예상 정보를 생성함으로써 시간의 흐름을 반영하여 상대적으로 더욱 정확한 질환 발병 정보를 제공할 수 있다.
도 1은 본 발명의 제1 실시예에 따라 구현된 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치의 구성도이다.
도 2는 도 1에 도시된 유전체 데이터 전처리부의 세부 구성도이다.
도 3은 도 2에 도시된 질환 유발 인자 선별부의 세부 구성도이다.
도 4는 도 1에 도시된 검진 결과 데이터 전처리부의 세부 구성도이다.
도 5는 도 4에 도시된 질환 연관성 분석부의 세부 구성도이다.
도 6은 본 발명의 제2 실시예에 따라 구현된 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치의 구성도이다.
도 7은 본 발명의 일 실시예에 따라 GWAS 분석이 수행된 결과 생성된 맨하튼 플롯을 이용하여 복수의 분석 별 질환 유발 인자 후보를 선정하는 것을 나타낸 도면이다.
도 8은 본 발명의 일 실시예에 따라 GWAS 분석이 수행된 결과 생성된 결과 데이터의 데이터 테이블 형식을 나타낸 도면이다.
도 9는 본 발명의 일 실시예에 따라 AI 분석을 수행하기 위해 인공 신경망 기반의 질환 유발 인자 예측 모델에 입력될 예측 모델에 질환이 라벨링 된 다수의 인원에 대한 유전체 데이터의 데이터 형식을 나타낸 도면이다.
도 10은 본 발명의 일 실시예에 따라 메타 분석을 통해 특정 유전자 변이와 질환 간의 연관성을 기재한 각 선행 문헌마다 산출된 오즈비(odds ratio, OR)와 특정 유전자 변이의 타겟 질환 영향력 점수를 나타낸 도면이다.
도 11은 본 발명의 일 실시예에 따라 GWAS 분석, AI 분석, 메타 분석을 각각 수행하여 생성된 3개의 질환 유발 인자 후보 리스트에 포함된 유전자 변이 중 서로 겹치는 정도에 따라 복수의 그룹으로 유전자 변이를 분류하는 기준을 나타낸 도면이다.
도 12는 본 발명의 일 실시예에 따라 3개의 질환 유발 인자 후보 리스트에 포함된 유전자 변이를 9개의 그룹으로 분류하고 3개의 우선 순위 등급으로 분류한 것을 나타낸 도면이다.
도 13은 본 발명의 일 실시예에 따라 분류된 위험도 등급에 따라 산출된 기대여명 그래프를 나타낸 도면이다.
도 14는 본 발명의 일 실시예에 따른 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 방법의 흐름도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.
본 발명에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 발명에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.
일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한 도면들의 각 블록과 흐름도 도면들의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수 있음을 이해할 수 있을 것이며, 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 흐름도 블록(들)에서 설명된 기능들을 수행하는 수단을 생성하게 된다.
이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 흐름도 블록(들)에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다.
컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 흐름도 블록(들)에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다.
그리고 몇 가지 대체 실시예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
이 때, 본 실시예에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field-Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다.
그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.
따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.
본 발명의 실시예들을 구체적으로 설명함에 있어서, 특정 시스템의 예를 주된 대상으로 할 것이지만, 본 명세서에서 청구하고자 하는 주요한 요지는 유사한 기술적 배경을 가지는 여타의 통신 시스템 및 서비스에도 본 명세서에 개시된 범위를 크게 벗어나지 아니하는 범위에서 적용 가능하며, 이는 당해 기술분야에서 숙련된 기술적 지식을 가진 자의 판단으로 가능할 것이다.
이하, 도면을 참조하여 본 발명의 실시 예에 따른 시간 변동 공변량 기반의 PRS 모델을 이용한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법에 대하여 설명한다.
도 1은 본 발명의 제1 실시예에 따라 구현된 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치의 구성도이다.
도 1을 참조하면 본 발명의 제1 실시예에 따라 구현된 시간 변동 공변량 기반의 PRS 모델을 이용한 질환별 위험 유전자 변이 정보 생성 장치(1)는 유전체 데이터 전처리부(10), 검진 결과 데이터 전처리부(20), 다유전자 위험 점수 산출부(30), 시계열 특성 변수화부(40), 위험도 계산부(50), 발병 예상 정보 생성부(60)를 포함할 수 있다.
유전체 데이터 전처리부(10)는 다수의 인원에 대한 유전체 데이터 또는 복수의 선행 문헌을 입력 받아 타겟 질환에 대하여 GWAS 분석, AI 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행하여 분석 별로 질환 유발 인자 후보 리스트를 생성하고, 생성된 분석 별 질환 유발 인자 후보 리스트에 포함된 유전자 변이 중 서로 겹치는 정도에 따라 복수의 질환 유발 인자 후보 리스트에 포함된 유전자 변이를 복수의 유전자 변이 그룹으로 분류하며, 분류된 복수의 유전자 변이 그룹을 미리 설정된 우선 등급 분류 기준에 따라 복수의 우선 순위 등급으로 나눌 수 있다.
본 발명의 일 실시예에 따르면 유전체 데이터 전처리부(10)는 다수의 인원 대한 유전체 데이터 또는 복수의 선행 문헌을 분석하여 분석 별로 질환 유발 인자 후보 리스트를 생성할 수 있다.
본 발명의 일 실시예에 따르면 유전체 데이터 전처리부(10)는 분석 별로 생성된 질환 유발 인자 후보 리스트에 포함된 유전자 변이를 복수의 그룹으로 분류하고, 분류된 복수의 그룹을 대상으로 적어도 하나의 그룹을 포함하는 우선 순위 등급을 선정하여 분류할 수 있다.
유전체 데이터 전처리부(10)에 대해서는 도 2를 참조하여 더 자세하게 설명하도록 한다.
검진 결과 데이터 전처리부(20)는 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 복수의 분석을 수행하여 적어도 하나의 질환 연관성 요인을 선정하고, 집단 추세 모형을 이용하여 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터 또는 복수의 질환 관련 자료에 포함된 개별 검진 결과값들의 변화를 기준으로 다수의 인원을 그룹핑을 하여 복수의 검진 인원 그룹을 생성할 수 있다.
본 발명의 일 실시예에 따르면 검진 결과 데이터 전처리부(20)는 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 복수의 분석을 수행하여 각 분석 결과에 따라 적어도 하나의 질환 연관성 요인을 선정할 수 있다.
본 발명의 일 실시예에 따르면 검진 결과 데이터 전처리부(20)는 집단 추세 모형을 이용하여 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터에 포함된 개별 검진 결과값들의 변화를 기준으로 다수의 인원을 그룹핑을 하여 복수의 그룹을 생성할 수 있으며, 여기서 집단 추세 모형이란 시간에 따른 행동 유형을 군집으로 분류하고, 각 그룹의 궤적 형태를 추정하여 그룹 수와 자료와의 최적 적합도를 갖는 그룹의 수를 검증하는 방법을 의미할 수 있다.
검진 결과 데이터 전처리부(20)에 대해서는 도 4를 참조하여 더 자세하게 설명하도록 한다.
다유전자 위험 점수 산출부(30)는 유전체 데이터 전처리부에서 분류된 복수의 유전자 변이 그룹에 각각 포함된 복수의 유전자 변이를 대상으로 그룹별로 PRS 모델을 설계하고, PRS 모델을 이용하여 각 그룹별 유전자 변이의 위험 대립 유전자의 수에 대하여 연관성(
Figure 112021148163471-pat00133
)을 가중치로 계산하여 유전자 변이 그룹별로 유전자 변이별 다유전자 위험점수(
Figure 112021148163471-pat00134
) 및 그룹 다유전자 위험점수(
Figure 112021148163471-pat00135
)를 계산할 수 있다.
본 발명의 일 실시예에 따르면 PRS 모델은 수학식 1과 같이 설계되어 PRS 모델을 이용하여 GWAS 분석 결과에서 도출된 각 그룹별 유전자 변이의 위험 대립 유전자의 수에 대하여 연관성(
Figure 112021126105697-pat00018
)을 가중치로 계산하여 그룹별로 유전자 변이별 다유전자 위험점수(
Figure 112021126105697-pat00019
) 및 그룹 다유전자 위험점수(
Figure 112021126105697-pat00020
)를 계산할 수 있도록 설계될 수 있다.
Figure 112021126105697-pat00021
본 발명의 일 실시예에 따르면 타겟 질환(pheno type)에 대하여 GWAS 분석 결과로 도출된 그룹내 P개 유전자 변이(SNP)의 위험 대립유전자(risk allele)의 수(
Figure 112021126105697-pat00022
)에 대하여 연관성(
Figure 112021126105697-pat00023
)을 가중치로 계산한 가중합을 그룹별 다유전자 위험점수(
Figure 112021126105697-pat00024
)로 산출할 수 있다.
본 발명의 일 실시예에 따르면 가중치는 유전자 변이와 타겟 질환(phenotype)간의 회귀분석을 통해서도 계산할 수 있으나, 또 다른 일 실시예에 따르면 유전자 변이(SNP0간 연관성(LD)가 존재하기 때문에 일반적인 회귀분석을 통해 계산하는 경우 가중치의 추정값(
Figure 112021126105697-pat00025
)의 분산이 커지는 등 통계적 문제가 발생하여 일반화 회귀분석(Regularized regression)방법을 사용하여 추정할 수 있으며, 일반화 회귀분석 중 Lasso와 Ridge방법을 기반으로 한 추정 모형이 사용될 수 있다.
시계열 특성 변수화부(40)는 산출된 유전자 변이별 다유전자 위험점수(
Figure 112021126105697-pat00026
)를 시간 의존 연관성 산출 모델에 공변량으로 적용하며, 검진 결과 데이터 전처리부에서 생성된 각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 시간 의존 연관성 산출 모델에 입력하여 COX 모델에 입력될 독립변수와 종속 변수 간의 시점 별 연관성 크기를 산출하여 시계열 특성 변수로 선정할 수 있다.
본 발명의 일 실시예에 따르면 시간 의존 연관성 산출 모델은 생존분석에서 시간에 따라 값이 변화하는 변수를 반영하기 위하여 extended cox model인 Time-dependent cox를 사용하기 위한 모델로, 시점 t에 따라 변화하는 설명변수(X)와 반응변수(Y)간 연관성의 크기를 산출하고 이를 시계열 특성 변수로 정의하고 질환 연관성 요인에 대한 검진 결과 데이터에 적용할 수 있다.
본 발명의 일 실시예에 따르면 시간 의존 연관성 산출 모델은 Time-dependent cox를 사용하기 위해 아래 수학식 2와 같이 표현될 수 있다.
Figure 112021126105697-pat00027
Figure 112021126105697-pat00028
: 일반적인 COX 모델
Figure 112021126105697-pat00029
: t시점에 수집된 모든 측정값
Figure 112021126105697-pat00030
: 모든 t시점에서 측정된 측정값
본 발명의 일 실시예에 따르면 특정 변수의 반응변수(질환 발생)와의 연관성을 산출하여 연관성 지수를 (
Figure 112021126105697-pat00031
라고 정의할 수 있으며, 수학식 2에서
Figure 112021126105697-pat00032
의 부분의 수식은 시간에 흐름에 영향을 받지 않는 복수의 변수(
Figure 112021126105697-pat00033
)에 대한 반응변수와의 연관성(
Figure 112021126105697-pat00034
)을 이용한 COX 회귀 분석 수식을 의미하며,
Figure 112021126105697-pat00035
의 수식은 시간에 흐름에 영향을 받는 복수의 변수(
Figure 112021126105697-pat00036
)에 대한 반응변수와의 연관성(
Figure 112021126105697-pat00037
)을 이용한 COX 회귀 분석 수식을 의미한다.
본 발명의 일 실시예에 따르면 시간에 흐름에 영향을 받지 않는 복수의 변수(
Figure 112021126105697-pat00038
)는 성별, 유전자형, 분석을 진행하는 시점까지의 질환 과거력, 다유전자 위험점수 등과 같이 시점별로 변동하지 아니하는 변수에 대한 수치화 된 값을 의미할 수 있으며, 시간에 흐름에 영향을 받는 복수의 변수(
Figure 112021126105697-pat00039
)는 공복 혈당 수치, 수축기 혈압 및/또는 이완기 혈압, 총 콜레스테롤 수치 및/또는 고밀도 콜레스테롤 수치(HDL), 저밀도 콜레스테롤 수치(LDL), 체중, 체질량지수(BMI)등과 같이 성별을 제외한 검진 결과 데이터에 포함된 항목의 변수에 대한 수치화 된 값을 의미할 수 있다.
본 발명의 일 실시예에 따르면 산출된 유전자 변이별 다유전자 위험점수(
Figure 112021126105697-pat00040
)를 시간 의존 연관성 산출 모델에 공변량으로 적용하기 위하여 수학식 2의
Figure 112021126105697-pat00041
수식에 유전자 변이별 다유전자 위험점수(
Figure 112021126105697-pat00042
)를
Figure 112021126105697-pat00043
로 입력하고, 유전자 변이별 다유전자 위험점수(
Figure 112021126105697-pat00044
) 반응변수와의 연관성 지수를
Figure 112021126105697-pat00045
로 입력하는 방법을 사용할 수 있다.
위험도 계산부(50)는 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 산출된 시계열 특성 변수를 적용하고, 적용된 다수의 인원의 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 각 검진 인원 그룹별로 COX 회귀 분석을 수행하여 각 검진 인원 그룹별로 질병 발생 위험도를 계산할 수 있다.
본 발명의 일 실시예에 따르면 위험도 계산부(50)는 산출된 적어도 하나의 시계열 특성 변수를 질환 연관성 요인에 대한 검진 결과 데이터에 적용시킬 수 있으며, 질환 연관성 요인에 대한 검진 결과 데이터의 각 시점별 질환 유발 요인의 수치에 각 시점 별로 산출된 시계열 특성 변수를 곱하는 식으로 적용을 수행할 수 있다.
본 발명의 일 실시 예에 따르면 시계열 특성 변수가 적용된 질환 연관성 요인에 대한 검진 결과 데이터로 이루어진 각 그룹을 대상으로 각 그룹 별로 COX 회귀 분석을 수행하여 각 그룹 별로 질병 발생 위험도를 계산할 수 있다.
본 발명의 일 실시예에 다르면 시계열 특성 변수가 적용된 질환 연관성 요인에 대한 검진 결과 데이터를 각 그룹별로 COX 회귀 분석 모델에 입력하여 COX 회귀 분석을 수행하면, 각 그룹간 각 시점별 생존율 데이터가 산출될 수 있다.
본 발명의 일 실시예에 따르면 COX 회귀 분석을 수행하여 산출된 각 그룹간 각 시점별 생존율 데이터의 역수 값을 각 그룹 별로 질병 발생 위험도를 계산할 수 있다.
발병 예상 정보 생성부(60)는 계산된 각 그룹 별 질병 발생 위험도를 차이값을 이용하여 위험도 변화량을 산출하여 발병 예상 정보를 생성할 수 있다.
본 발명의 일 실시예에 따르면 발병 예상 정보 생성부(60)는 계산된 각 검진 인원 그룹별 질병 발생 위험도를 차이값을 이용하여 위험도 변화량을 산출하여 발병 예상 정보를 생성할 수 있다.
본 발명의 일 실시예에 따르면 발병 예상 정보 생성부(60)는 계산된 각 그룹 별 질병 발생 위험도를 각 시점별로 대비하여 각 그룹별 특정 시점에서의 위험도 변화량을 산출할 수 있으며, 이를 기반으로 발병 예상 정보를 생성할 수 있다.
본 발명의 일 실시예에 따르면 발병 예상 정보 생성부(60)는 산출된 각 그룹별 특정 시점에서의 위험도 변화량의 평균값을 해당 시점의 위험도 변화량으로 특정하여 이를 기반으로 이후 시점에서의 발병 예상율을 산정하여 발병 예상 정보를 생성할 수 있다.
본 발명의 일 실시예에 따르면 발병 예상 정보는 시간의 흐름에 따라 적어도 하나의 질환 유발 요인을 가진 사람이 해당 질환이 발병할 확률 또는 위험율을 그래프 형태로 나타내어 각 그래프별로 위험 단계, 중간 단계, 비위험 단계로 구분한 것일 수 있으나 시간의 흐름에 따라 발병에 대한 예상 정보를 나타낼 수 있는 것이라면 제한없이 사용될 수 있다.
도 2는 도 1에 도시된 유전체 데이터 전처리부의 세부 구성도이다.
도 2를 참조하면 유전체 데이터 전처리부(10)는 질환 유발 인자 선별부(110), 질환 유발 인자 후보 리스트 생성부(120), 유전자 변이 그룹 분류부(130), 우선 순위 등급 분류부(140)를 포함할 수 있다.
질환 유발 인자 선별부(110)는 다수의 인원 대한 유전체 데이터 또는 복수의 선행 문헌을 입력 받아 질환 유발 인자 후보를 선별하는 복수의 분석을 수행할 수 있다.
여기서 질환 유발 인자 후보란 특정 질환을 유발하는데 연관성이 있을 것으로 예상되는 유전자 변이(single nucleotide polymorphism, SNP)의 후보를 선정한 것을 의미할 수 있다.
본 발명의 일 실시예에 따르면 다수의 인원 대한 유전체 데이터로는 코호트 데이터(cohort data)를 사용할 수 있으나, 다수의 인원에 대한 유전체 정보가 데이터 세트 형태로 구현된 데이터라면 제한없이 사용될 수 있다.
여기서 코호트 데이터란 특정 질병 발생이 의심되는 또는 특정 질병이 발생한 특정 인구 집단에 대한 유전체 및 건강 정보가 데이터 세트 형식으로 표현된 데이터를 의미할 수 있다.
또한 선행 문헌이란 유전체 데이터에 포함된 대량의 유전자 변이 중 특정 질환에 대한 질환 유발 인자 후보로 선별할 수 있도록 그 문헌의 주제가 특정 질환과 특정 유전자 변이와의 관계성에 대한 내용이 포함된 문헌을 의미할 수 있으며 일반적으로 논문이 이에 해당될 수 있으나, 이에 한정되지 아니하고 문헌의 연구 주제가 특정 질환 및 특정 유전자 변이에 대한 관계성에 대한 것이라면 제한 없이 사용될 수 있다.
본 발명의 일 실시예에 따르면 질환 유발 인자 선별부(110)는 다수의 인원 대한 유전체 데이터 또는 복수의 선행 문헌을 입력 받아 타겟 질환에 대하여 GWAS 분석 및 AI 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행할 수 있다.
본 발명의 일 실시예에 따르면 유전체 데이터를 대상으로는 GWAS 분석 및 AI 분석을 수행할 수 있으며, 복수의 선행 문헌을 대상으로는 메타 분석을 수행할 수 있다.
여기서 GWAS 분석은 유전체 데이터를 대상으로 특정 질환에 연관 있는 유전변이를 발굴하는 분석 도구를 의미하며, 질병이 없는 사람들과 질병을 가진 사람의 전체 유전체를 대조하여 질병을 유발할 수 있는 유전자 변이를 탐색할 수 있으며, 본 발명의 일 실시예에 따르면 GWAS 분석을 통해 질병을 유발할 수 있는 유전자 변이로 탐색되면 질환 유발 인자 후보로 선별할 수 있다.
또한 AI 분석은 유전체 데이터를 대상으로 인공 신경망 기반의 질환 유발 인자 예측 모델을 이용하여 유전자 변이별 중요도 점수를 산출하고, 유전자 변이별 중요도 점수에 따라 유전자 변이별 중요도 점수에 따라 유전자 변이 중 질환 유발 인자 후보를 선별할 수 있다.
마지막으로 메타 분석은 선행 문헌들의 텍스트 정보를 크롤링(crawling)하여 수집한 정보를 바탕으로 선행 문헌별 분석 정보 기반의 데이터 세트를 생성하고 해당 데이터 세트를 대상으로 유전자 변이의 주제에 부합하는 효과 크기, 즉 해당 유전자 변이가 특정 질환에 영향을 미치는 크기를 산출하고, 효과 크기를 이용하여 타겟 질환 영향력 점수를 측정함으로써 이에 따라 질환 유발 인자 후보로 선별하는 것을 의미할 수 있다.
질환 유발 인자 후보 리스트 생성부(120)는 복수의 분석 별 질환 유발 인자 후보로 선별된 복수의 유전자 변이를 포함한 복수의 질환 유발 인자 후보 리스트를 생성할 수 있다.
본 발명의 일 실시예에 따르면 질환 유발 인자 후보 리스트 생성부(120)는 GWAS 분석, AI 분석, 메타 분석 중 적어도 하나 이상의 분석을 통해 복수의 질환 유발 인자 후보로 선별된 유전자 변이 및 선별된 유전자 변이의 분석 결과 데이터를 각 분석 결과 별로 리스트 형식으로 묶어 분석 결과 별 질환 유발 인자 후보 리스트를 생성할 수 있다.
유전자 변이 그룹 분류부(130)는 생성된 복수의 질환 유발 인자 후보 리스트에 포함된 유전자 변이 중 서로 겹치는 정도에 따라 복수의 질환 유발 인자 후보 리스트에 포함된 유전자 변이를 복수의 그룹으로 분류할 수 있다.
본 발명의 일 실시예에 따르면 유전자 변이 중 서로 겹치는 정도에 따라 교집합 여부를 판단하여 유전자 변이를 복수의 그룹으로 분류할 수 있으며, 이는 도 11을 참조하며 더욱 자세하게 설명하도록 한다.
본 발명의 일 실시예에 따르면 GWAS 분석, AI 분석, 메타 분석을 각각 수행하여 생성된 3개의 질환 유발 인자 후보 리스트에 포함된 유전자 변이 중 서로 겹치는 정도에 따라 9개의 그룹으로 유전자 변이를 분류할 수 있다.
본 발명의 일 실시예에 따르면 유전자 변이 그룹 분류부(130)는 3개의 질환 유발 인자 후보 리스트에 포함된 유전자 변이 중 각 리스트와의 교집합에 포함되는지 포함된다면 몇 개의 리스트와 교집합을 이루는지에 따라 9개의 그룹으로 유전자 변이를 분류할 수 있다.
본 발명의 일 실시예에 따르면 유전자 변이 그룹 분류부(130)는 9개 그룹을 1, 2, 3등급의 우선 순위 등급으로 분류하며, 1등급에는 1개 그룹을, 2등급에는 4개 그룹을, 3등급에는 4개 그룹을 포함하도록 할 수 있다.
본 발명의 일 실시예에 따르면 9개 그룹 중 3개의 질환 유발 인자 후보 리스트에 모두 포함된 유전자 변이들로 형성된 그룹을 1등급으로, 3개의 질환 유발 인자 후보 리스트 중 2개의 질환 유발 인자 후보 리스트에 포함된 유전자 변이들로 형성된 그룹을 2등급으로, 3개의 질환 유발 인자 후보 리스트 중 1개의 질환 유발 인자 후보 리스트에만 포함된 유전자 변이들로 형성된 그룹을 3등급으로 분류할 수 있다.
9개의 그룹으로 9개 그룹을 1, 2, 3등급의 우선 순위 등급으로 분류하는 것에 대해서는 도 12를 참조하며 더 자세하게 설명하도록 한다.
유전자 변이 그룹 분류부(130)는 생성된 복수의 질환 유발 인자 후보 리스트에 포함된 유전자 변이 중 서로 겹치는 정도에 따라 복수의 질환 유발 인자 후보 리스트에 포함된 유전자 변이를 복수의 그룹으로 분류할 수 있다.
우선 순위 등급 분류부(140)는 분류된 복수의 그룹을 복수의 우선 순위 등급으로 나누고, 각 우선 순위 등급별로 포함된 복수의 유전자 변이 중 중첩되는 유전자 변이를 하나만 남기고 제거하여 복수의 등급별 유전자 변이 리스트를 생성할 수 있다.
본 발명의 일 실시예에 따르면 분류된 복수의 그룹을 복수의 우선 순위 등급으로 나누고, 각 우선 순위 등급별로 포함된 복수의 유전자 변이 중 중첩되는 유전자 변이를 하나만 남기고 제거하여 복수의 등급별 유전자 변이 리스트를 생성할 수 있다.
본 발명의 일 실시예에 따르면 3개의 질환 유발 인자 후보 리스트에 포함된 유전자 변이들 중 각 리스트에 중복되게 포함될 유전자 변이가 존재할 가능성이 있기 때문에 복수의 그룹을 복수의 우선 순위 등급으로 나눈 후, 각 우선 순위 등급별로 포함된 복수의 유전자 변이 중 중첩되는 유전자 변이가 있다면 등급별 순위를 선정할 때 중복될 수 있으니 하나만 남기고 제거하여 등급별 유전자 변이 리스트를 생성할 수 있다.
도 3은 도 2에 도시된 질환 유발 인자 선별부의 세부 구성도이다.
도 3을 참조하면 도 1에 개시된 질환 유발 인자 선별부(110)의 세부 구성이 나타나 있으며, 질환 유발 인자 선별부(100)는 GWAS 분석 수행부(111), AI 분석 수행부(112), 메타 분석 수행부(113) 중 적어도 하나를 포함할 수 있으며, 본 발명의 일 실시예에 따르면 GWAS 분석 수행부(111), AI 분석 수행부(112), 메타 분석 수행부(113)를 모두 포함할 수 있다.
GWAS 분석 수행부(111)는 다수의 인원 대한 유전체 데이터를 입력 받아 타겟 질환을 대상으로 전장 유전체 연관분석을 수행하고, 수행의 결과로 유전자 변이 별로 산출된 P값을 미리 설정된 임계치와 대비하여, 임계치 이하인 복수의 유전자 변이를 질환 유발 인자 후보로 선별할 수 있다.
본 발명의 일 실시예에 따르면 전장 유전체 연관분석을 수행 결과 유전자 변이 별로 산출된 P값을 이용해 유전자 변이를 질환 유발 인자 후보로 선별하는 방법으로 맨하튼 플롯(manhattan plot)을 이용할 수 있으며, 이는 도 7을 참조하며 더 자세하게 설명하도록 한다.
본 발명의 일 실시예에 따르면 GWAS 분석 수행부(111)는 질환 유발 인자 후보로 선별된 복수의 유전자 변이를 대상으로, 각 유전자 변이의 위치가 연관불균형(linkage disequilibrium) 상태를 가지는지 여부를 판단하고, 판단 결과에 따라 각 유전자 자리(Locus)별 대표성을 가지는 하나의 유전자 변이만을 선별하여 최종 질환 유발 인자 후보를 생성할 수 있다.
본 발명의 일 실시예에 따르면 GWAS 분석 수행부(111)는 각 유전자 자리(Locus)별 대표성을 가지는 하나의 유전자 변이만을 선별하기 위하여 질환 유발 인자 후보로 선별된 복수의 유전자 변이에 대하여 LD clumping 수행하여 각 유전자 자리(Locus)별 대표성을 가지는 유전자 변이를 선별하는 방법을 사용할 수 있으며, 선별 기준은 산출된 유전자 변이별 중요도 점수(Importance score)를 토대로 순위를 설정하여 최상위 유전자 변이를 선별할 수 있다.
여기서 유전자 변이별 중요도 점수(Importance score)는 예측력에 가장 영향력을 미치는 feature, 즉 특징인 유전자 변이를 산출하기 위해 정량화된 값을 산출하는 방법을 의미할 수 있다.
본 발명의 일 실시예에 따르면 GWAS 분석 수행부(111)는 전장 유전체 연관분석을 수행하여 복수의 필드 값들을 항목으로 하는 데이터 테이블 형태의 결과 데이터를 생성할 수 있으며, 여기에는 염색체 ID, SNP ID 이때 유전자 변이 별로 산출된 P값이 포함될 수 있으며 더 자세하게는 도 8을 참조하며 설명하도록 한다.
AI 분석 수행부(112)는 인공 신경망 기반의 질환 유발 인자 예측 모델에 질환이 라벨링 된 다수의 인원에 대한 유전체 데이터를 입력하여 유전자 변이별 중요도 점수(Importance score)를 출력하고, 출력된 유전자 변이별 중요도 점수 중 미리 설정된 점수를 초과하는 중요도 점수를 가진 복수의 유전자 변이를 질환 유발 인자 후보로 선별할 수 있다.
본 발명의 일 실시예에 따르면 인공 신경망 기반의 질환 유발 인자 예측 모델에 입력되는 질환이 라벨링 된 다수의 인원에 대한 유전체 데이터는 유전자 변이 식별 코드, 공변인 정보, 타겟 질환 정보를 포함할 수 있다.
질환이 라벨링 된 다수의 인원에 대한 유전체 데이터의 형식에 대해서는 도 9를 참조하면 더 자세하게 설명하도록 한다.
본 발명의 일 실시예에 따르면 인공 신경망 기반의 질환 유발 인자 예측 모델은 입력값과 출력값 사이의 인과관계를 파악하기 어려운 블랙박스 문제를 해결하기 위하여 복수의 유전자 변이를 질환 유발 인자 후보를 선별하기 위하여 머신러닝 중 트리(tree-based) 계열의 알고리즘을 이용하며, XAI(Explainable AI) 기법을 통해 유전자 변이별 중요도 점수(Importance score)를 구하는 방법을 이용할 수 있다.
본 발명의 일 실시예에 따르면 인공 신경망 기반의 질환 유발 인자 예측 모델은 다수의 인원에 대한 유전체 데이터에 포함된 유전자 변이 식별 코드, 공변인 정보, 타겟 질환 정보를 입력 받아 타겟 질환에 대한 유전자 변이별 중요도 점수(Importance score)를 출력하도록 학습될 수 있다.
본 발명의 일 실시예에 따르면 수학식 3과 같은 수식을 통해 타겟 질환에 대한 유전자 변이별 중요도 점수(Importance score)를 산출할 수 있다.
Figure 112021126105697-pat00046
여기서 학습이 완료된 질환 유발 인자 예측 모델을
Figure 112021126105697-pat00047
, 질환이 라벨링 된 다수의 인원에 대한 유전체 데이터의 데이터 세트는
Figure 112021126105697-pat00048
, 데이터 세트
Figure 112021126105697-pat00049
에 대한 질환 유발 인자 예측 모델
Figure 112021126105697-pat00050
의 점수는
Figure 112021126105697-pat00051
, 데이터 세트
Figure 112021126105697-pat00052
를 랜덤하게 셔플한 횟수를
Figure 112021126105697-pat00053
, 데이터 세트
Figure 112021126105697-pat00054
를 랜덤하게
Figure 112021126105697-pat00055
번 셔플한 데이터를
Figure 112021126105697-pat00056
,
Figure 112021126105697-pat00057
에 대한 질환 유발 인자 예측 모델을
Figure 112021126105697-pat00058
의 점수는
Figure 112021126105697-pat00059
일 수 있으며 수학식 3를 이용하여 유전자 변이
Figure 112021126105697-pat00060
에 대한 유전자 변이별 중요도 점수
Figure 112021126105697-pat00061
를 산출할 수 있다.
본 발명의 일 실시예에 따르면 AI 분석 수행부(112)는 유전자 변이별 중요도 점수를 각 유전자 변이들의 순서를 무작위로 섞은 뒤, 중요도를 판단하고자 하는 유전자 변이를 노이즈로 정의하는 모델을 생성하고, 모델이 유전자 변이에 대한 의존도를 정량화하여 산출할 수 있다.
본 발명의 일 실시예에 따르면 중요도를 판단하고자 하는 유전자 변이를 노이즈로 정의하는 모델을 생성하고, 모델이 유전자 변이에 대한 의존도를 정량화 하여 산출하기 위하여 Permutation feature importance 기법을 사용할 수 있으며, 이 기법은 데이터 테이블 형태의 데이터 세트에 적합한 데이터에 적합한 explainability AI 기법으로, 각 변수들의 순서를 무작위로 섞은 뒤, 중요도를 판단하고자 하는 특징(유전자 변이)를 노이즈로 만듦으로써, 상기 모델이 해당 특징(유전자 변이)에 얼마나 의존적인지를 정량화 하는 방식으로 수행될 수 있다.
메타 분석 수행부(113)는 타겟 질환을 대상으로 유전자 변이에 대한 영향을 주제로 기고된 복수의 선행 문헌을 메타 분석 모델에 입력하여 복수의 선행 문헌별로 상기 유전자 변이의 주제에 부합하는 효과 크기를 산출하고, 산출한 효과 크기의 분산의 역수를 각 선행 문헌의 효과 크기에 가중치로 적용하여 각 유전자 변이 별로 타겟 질환 영향력 점수를 측정하여, 상기 각 유전자 변이별 타겟 질환 영향력 점수를 기준으로 복수의 유전자 변이를 질환 유발 인자 후보로 선별할 수 있다.
본 발명의 일 실시예에 따르면 메타 분석 수행부(113)는 복수의 선행 문헌별로 상기 유전자 변이의 주제에 부합하는 효과 크기는 각 선행 문헌별로 오즈비(odds ratio)와 신뢰구간을 산출하여, 오즈비와 신뢰구간을 토대로 선행 별 유전자 변이가 타겟 질환에 미치는 효과 크기를 추정할 수 있다.
본 발명의 일 실시예에 따르면 메타 분석 수행부(113)는 복수의 선행 문헌별을 분석하여 동일한 주제, 즉 특정 질환에 대한 특정 유전자 변이의 영향성에 대하여 기재된 선행 문헌을 체계적으로 고찰하고, 최종 선정된 문헌들을 분석하여 주제에 부합하는 결과값(효과 크기)을 추출하여 사용할 수 있다.
본 발명의 일 실시예에 따르면 효과 크기를 추출하기 위한 방법은 다양하게 존재할 수 있으며, 추출하는 효과크기의 종류는 주제에 따라 상이한데, 표준화 평균차(Standardized mean difference)를 기준으로 한 효과크기, 상관계수를 기준으로 한 효과 크기, 그리고 오즈비(odds ratio)를 기준으로 한 효과 크기 등을 사용할 수 있다.
본 발명의 일 실시예에 따르면 오즈비(odds ratio)를 기준으로 효과 크기를 산출하기 위하여 각 유전자 변이 별로 질환에 대한 영향력의 크기(연관성 크기)에 대한 지표인 오즈비(odds ratio, OR)와 95% 신뢰구간(95% Confidence Interval, CI)을 토대로 효과크기를 추정할 수 있으며. 각 개별 문헌의 오즈비를 종합하여 종합 효과크기(overall OR)를 산출할 수 있다.
본 발명의 일 실시예에 따라 오즈비와 신뢰구간을 토대로 선행 별 유전자 변이가 타겟 질환에 미치는 효과 크기를 추정하는 것에 대해서는 도 10을 참조하며 더욱 자세하게 설명하도록 한다.
본 발명의 일 실시예에 따르면 산출한 효과 크기를 이용하여 유전자 변이 별로 타겟 질환 영향력 점수를 측정하기 위하여 역분산 추정법(generic inverse variance estimation method)을 이용할 수 있다.
역분산 추정법은 메타분석에서 가중치를 주기위해 사용되는 방법으로, 추정된 효과크기의 분산의 역수를 개별 선행 문헌의 가중치로 사용할 수 있다.
역분산 추정법을 사용하는 본 발명의 일 실시예에 따르면 표본수가 큰 연구에 대한 선행 문헌은 작은 분산을 가지고, 분산의 역수는 커지게 될 것이므로, 표본수가 큰 연구에 대한 선행 문헌에 더 큰 가중치를 주는 것으로 사용될 수 있다.
상기 일 실시예에 따르면 각 선행 문헌의 오즈비에 자연로그를 취한
Figure 112021126105697-pat00062
를 산출하고,
Figure 112021126105697-pat00063
에 대한 표준오차(SE)를 계산하고, 계산된 표준오차의 제곱의 역수를 가중치
Figure 112021126105697-pat00064
로 산출할 수 있으며, 수학식 4와 같이 산출된 각 선행 문헌의 가중치를 오즈비에 곱한 값을 모두 합하여 종합적인 효과 크기(ORpooled)를 계산할 수 있다.
Figure 112021126105697-pat00065
Figure 112021126105697-pat00066
Figure 112021126105697-pat00067
도 4는 도 1에 도시된 검진 결과 데이터 전처리부의 세부 구성도이다.
도 4를 참조하면 검진 결과 데이터 전처리부(20)은 연관성 분석 수행부(210), 질환 연관성 요인 선정부(220), 전처리 수행부(230), 데이터 그룹 분류부(240)를 포함할 수 있다.
연관성 분석 수행부(210)는 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 질환 연관성 요인 후보를 선정하는 복수의 분석을 수행할 수 있다.
여기서 검진 결과 데이터는 특정 인원이 적어도 한번 이상 수행한 건강 검진의 각 항목별 결과를 데이터 세트 형태로 저장하여 다수의 인원에 대한 인원별 복수의 건강 검진 결과를 포함하는 데이터를 의미할 수 있다.
본 발명의 일 실시예에 따르면 검진 결과 데이터에 포함되는 건강 검진 항목은 공복 혈당 수치, 수축기 혈압 및/또는 이완기 혈압, 총 콜레스테롤 수치 및/또는 고밀도 콜레스테롤 수치(HDL), 저밀도 콜레스테롤 수치(LDL), 체중, 체질량지수(BMI) 등이 포함될 수 있다.
여기서 질환 연관성 요인 후보는 타겟 질환의 발병을 유발하는 요인들을 질환 연관성 요인으로 정의하여, 질환 연관성 요인으로 선정될 수 있을 만한 복수의 요인들을 질환 연관성 요인의 후보군으로 선정한 것을 의미할 수 있다.
본 발명의 일 실시예에 따르면 타겟 질환의 발병을 유발하는 요인으로는 검진 결과 데이터에 포함되는 건강 검진 항목일 수 있으며, 검진 결과 데이터에 포함되는 건강 검진 항목을 한번 또는 복수의 단계를 거쳐 가공하여 생성한 특정 요인일 수 있다.
본 발명의 일 실시예에 따르면 질환 관련 자료는 타겟 질환과 특정 요인과의 발생 연관성 대한 연구 결과 또는 다수의 인원들에 대한 통계 분석 결과 등의 내용을 포함하고 있는 텍스트 기반의 자료를 의미할 수 있으며, 일반적으로 의학 논문, 통계 자료 등이 될 수 있으나 이에 한정되지 아니하고, 텍스트 기반의 타겟 질환과 특정 요인과의 발생 연관성 대한 자료라면 제한 없이 사용될 수 있다.
본 발명의 일 실시예에 따르면 연관성 분석 수행부(210)는 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 타겟 질환에 대하여 질환 연관성 분석, 빅데이터 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행할 수 있다.
본 발명의 일 실시예에 따르면 연관성 분석 수행부(210)는 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 질환 연관성 분석, 빅데이터 분석, 메타 분석을 모두 수행하여 각 분석 결과에 따른 3개의 질환 연관성 요인 후보를 선정할 수 있다.
질환 연관성 요인 선정부(220)는 복수의 분석 별 질환 연관성 요인 후보로 선정된 복수의 질환 관련 인자 중 서로 겹치는 정도에 따라 적어도 하나의 질환 연관성 요인을 선정할 수 있다.
본 발명의 일 실시예에 따르면 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 질환 연관성 분석, 빅데이터 분석, 메타 분석 중 적어도 하나 이상을 수행하여 각 분석 결과에 따라 생성된 적어도 2개 이상의 질환 연관성 요인 후보 사이에 적어도 2개 이상 공통되게 포함된 요인들만 질환 연관성 요인으로 선정하여 질환 연관성 요인 리스트를 생성할 수 있다.
본 발명의 일 실시예에 따르면 질환 연관성 요인 선정부(220)는 질환 연관성 분석, 빅데이터 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행하여 생성된 복수의 질환 연관성 요인 후보를 각각 대비하여 생성된 질환 연관성 요인 후보들 모두에 포함되어 있는 질환 관련 인자만을 질환 연관성 요인으로 선정할 수 있다.
상기 일 실시예에 따르면 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 질환 연관성 분석, 빅데이터 분석, 메타 분석을 모두 수행하여 생성된 각 분석 결과에 따른 3개의 질환 연관성 요인 후보에 모두 포함된 요인들만 질환 연관성 요인으로 선정하여 질환 연관성 요인 리스트를 생성할 수 있다.
상기 일 실시예에 따르면 질환 연관성 분석, 빅데이터 분석, 메타 분석을 모두 수행하여 생성된 각 분석 결과에 따른 3개의 질환 연관성 요인 후보에 모두 포함된 요인들만 질환 연관성 요인으로 선정하는 이유는 수많은 요인 중 해당 질환의 유발에 상대적으로 높은 영향력을 미치는 요인을 보수적으로 선정하기 위함이며, 이에 따라 분석에 소요되는 연산 자원 및 시간의 절감이 가능하며 그 정확도 또한 상승되는 효과를 얻을 수 있다.
전처리 수행부(230)는 선정된 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터 중 데이터의 2차 가공이 필요한 질환 연관성 요인을 대상으로 미리 설정된 전처리 기준에 따라 데이터를 가공할 수 있다.
본 발명의 일 실시예에 따르면 미리 설정된 전처리 기준으로는 다음 기준들이 존재하나 이에 국한되지 아니하고 검진 결과 데이터에 포함된 건강 검진의 각 항목별 결과를 가공하여 질환 연관성 요인을 명확하게 할 수 있는 요인으로 도출할 수 있다면 제한없이 사용될 수 있다.
본 발명의 일 실시예에 따르면 전처리 수행부(230)는 미리 설정된 전처리 기준에 따라 선정된 적어도 하나의 질환 연관성 요인에 포함된 질환 관련 인자가 개별 검진 결과값으로는 경향성 기준 또는 판단 기준으로 사용될 수 없는 것으로 분류되는 경우, 경향성 기준 또는 판단 기준으로 사용될 수 있도록 미리 설정된 전처리 기준에 따라 검진 결과 데이터에서 산출 혹은 재가공하는 전처리를 수행하여 전체 검진 대상 기간별 시계열 검진 데이터로 생성할 수 있다.
본 발명의 일 실시예에 따르면 전처리 기준은 아래와 같을 수 있으나 이에 한정되지 아니하고, 경향성 기준 또는 판단 기준으로 사용될 수 있도록 전처리하는 것이라면 제한 없이 사용될 수 있다.
[전처리 기준]
(1) 공복 혈당을 이용하여 당뇨 유무 데이터로 전처리
: 공복혈당 < 100 (정상),
100 ≤ 공복혈당 <126 (공복혈당장애)
126 < 공복혈당 (당뇨)
(2) 수축기 또는 이완기 혈압을 이용하여 고혈압 여부 데이터로 전처리
: 수축기 혈압 < 120 or 이완기 혈압 < 80 (정상)
120 ≤ 수축기 혈압 < 140 or 80 ≤이완기 혈압 < 90 (전고혈압)
140 ≤ 수축기 혈압 < 160 or 90 ≤ 이완기 혈압 < 100 (1단계 고혈압)
160 ≤ 수축기 혈압 or 100 ≤ 이완기 혈압 (2단계 고혈압)
(3) 총 콜레스테롤양 혹은 LDL을 이용한 이상지질혈증 유무 데이터로 전처리
(4) BMI을 이용한 비만도 데이터로 전처리
: BMI < 18.5 (저체중)
18.5 ≤ BMI < 25.0 (정상)
25.0 ≤ BMI < 30.0 (과체중)
30 ≤ BMI (비만)
30.0 ≤ BMI < 35.0 (중도비만)
35.0 ≤ BMI < 40.0 (고도비만)
40 ≤ BMI (초고도비만)
본 발명의 일 실시예에 따르면 전처리 수행부(230)는 선정된 적어도 하나의 질환 연관성 요인에 포함된 질환 관련 인자에 대한 개별 검진 결과값을 검진 결과 데이터로부터 수집하고, 수집된 개별 검진 결과값을 시계열로 나열하는 전처리를 수행하여 전체 검진 대상 기간별 시계열 검진 데이터로 생성할 수 있다.
본 발명의 일 실시 예에 따르면 수집된 개별 검진 결과값을 시계열로 나열하는 전처리를 수행하여 전체 검진 대상 기간별 시계열 검진 데이터로 생성하는 과정에 있어 전체 검진 대상 기간별 시계열 검진 데이터 상의 결측치가 존재하는 경우, 결측치 값을 제거하는 전처리를 수행할 수 있으며, 또 다른 실시예에 따르면 통계적인 대체(imputation)방식을 이용하여 해당 결측치의 값을 추정하여 추정한 값을 결측치 항목에 추가하는 전처리를 수행할 수 있으며, 또 다른 실시예에 따르면 인공신경망 기반의 머신 러닝 기법을 이용하여 결측치를 보완하는 전처리를 수행할 수도 있다.
본 발명의 일 실시예에 따르면 전처리 수행부(230)는 미리 설정된 전처리 기준은 질환 관련 인자가 개별 검진 결과값을 전처리 없이 집단 추세 모형에 입력하여 결과 값을 낼 수 없는 질환 관련 인자의 종류에 대한 정보 및 상기 질환 관련 인자의 전처리 방법에 대한 정보를 포함할 수 있다.
여기서 집단 추세 모형이란 시간에 따른 행동 유형을 군집으로 분류하고, 각 그룹의 궤적 형태를 추정하여 그룹 수와 자료와의 최적 적합도를 갖는 그룹의 수를 검증하는 방법을 의미할 수 있다.
데이터 그룹 분류부(240)는 집단 추세 모형을 이용하여 시간의 흐름에 따른 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터에 포함된 개별 검진 결과값들의 변화를 기준으로 상기 다수의 인원을 그룹핑을 하여 복수의 그룹을 생성할 수 있다.
본 발명의 일 실시예에 따르면 데이터 그룹 분류부(240)는 어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터에 포함된 개별 검진 결과값을 집단 추세 모형에 입력하여 자료의 개별 관찰치가 각 그룹에 속할 확률을 계산하여 종속변수 확률 밀도 함수의 속성에 따라 시점에 따라 각기 다른 분포를 가정하고 추정함으로써 아래 수학식 5와 같이 개별 검진 결과값들의 변화에 따라 각 그룹에 다수의 인원이 포함되는 복수의 그룹을 생성할 수 있다.
Figure 112021126105697-pat00068
Figure 112021126105697-pat00069
Figure 112021126105697-pat00070
Figure 112021126105697-pat00071
본 발명의 일 실시예에 따르면 수학식 5과 같이 종속 변수의 확률밀도 함수는 특정 그룹에 소속될 확률과 특정 그룹 구성원들의 종속변수 확률밀도 함수 곱의 총합으로 표현될 수 있으며, 특정 그룹 구성원의 종속 변수는 매 시점마다 상호독립성을 지니고 있으므로 종속변수의 확률밀도 함수는 매시점별 해당 확률밀도 함수의 곱으로 계산할 수 있다.
본 발명의 일 실시예에 따르면 데이터 그룹 분류부(240)는 각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 대상으로 궤적 형태를 추정하여 각 그룹별로 궤적 형태의 차이를 대비하여 분류된 그룹의 분류 적합도를 검증할 수 있다.
본 발명의 일 실시예에 따르면 집단 추세 모형을 이용하여 각 그룹의 궤적과 각 그룹에서 사례 수 비율을 함께 주정하기 위하여 최대우도추정법을 이용할 수 있으며, 자료에 나타난 개인의 사건 궤적 내용을 상대적으로 가장 잘 묘사하는 최종 모델의 선정 여부는 베이지안 정보지수(BIC)를 기준으로 결정할 수 있고, 이 때 BIC 값이 낮을수록 상대적으로 자료에 나타난 개인의 사건 궤적 내용을 상대적으로 더 묘사하는 모델로 평가할 수 있다.
도 5는 도 4에 도시된 연관성 분석 수행부의 세부 구성도이다.
도 5를 참조하면 연관성 분석 수행부(20)는 질환 연관성 분석부(211), 빅데이터 분석부(212), 메타 분석 수행부(213)를 포함할 수 있다.
질환 연관성 분석부(211)는 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터를 대상으로 타겟 질환의 발병 가능성에 대한 복수의 질환 관련 인자의 연관성 분석을 수행하여, 연관성이 높은 것으로 도출된 질환 관련 인자를 질환 연관성 요인 후보로 선정할 수 있다.
본 발명의 일 실시예에 따르면 질환 연관성 분석부(211)는 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터를 질환 연관성 분석 모델에 입력하여 타겟 질환의 발병 가능성에 대한 복수의 질환 관련 인자의 연관성 분석을 수행할 수 있다.
본 발명의 일 실시예에 따르면 질환 연관성 분석 모델은 인공 신경망 기반의 딥러닝 모델로 구현될 수 있으며, 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터를 입력 받으면 질환과 연관성이 상대적으로 높은 적어도 하나의 검진 결과 항목을 도출하도록 학습될 수 있다.
본 발명의 다른 일 실시예에 따르면 질환 연관성 분석 모델은 입력 받은 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터를 대상으로 상관 분석을 수행하는 모델일 수 있으며, 이를 통해 질환과 연관성이 상대적으로 높은 적어도 하나의 검진 결과 항목을 도출하여 복수의 질환 관련 인자의 연관성 분석을 수행할 수 있다.
빅데이터 분석부(212)는 텍스트 기반의 질환 관련 자료가 저장된 데이터 베이스로부터 크롤링을 이용하여 복수의 데이터를 수집하고, 수집된 복수의 데이터를 대상으로 텍스트 마이닝을 수행하여 질환 연관성 요인 후보를 선정할 수 있다.
본 발명의 일 실시예에 따르면 빅데이터 분석부(212)는 NCBI DB, OMIM, Diseases Card, open DB 등의 데이터 베이스로부터 텍스트 기반의 데이터를 크롤링을 통해 각 질환명, 관련 항목, 원인 정보 등을 대상으로 수집을 수행하고, 수집된 데이터의 텍스트 마이닝 작업을 통하여 유의한 관련 항목을 선별하여 도출하여 타겟 질환과 복수의 질환 관련 인자와의 연관성 분석을 수행할 수 있다.
메타 분석 수행부(213)는 타겟 질환과 질환 관련 인자에 대한 영향을 주제로 한 복수의 질환 관련 자료를 메타 분석 모델에 입력하여, 복수의 질환 관련 자료 별로 질환 관련 인자별의 효과 크기를 산출하여, 효과 크기에 따라 질환 연관성 요인 후보를 선정할 수 있다.
본 발명의 일 실시예에 따르면 질환 관련 인자는 특정 질환의 발병에 영양을 미칠 수 있는 요인에 대한 것을 의미하며, 다른 질병 유무, 건강 검진 결과값이 미리 설정된 일정 범위 내인지 여부 등일 수 있으나, 이에 한정되지 아니하고 기타 질환 발병에 영향을 미칠 수 있는 요인이라면 제한 없이 사용될 수 있다.
본 발명의 일 실시 예에 따르면 메타 분석은 복수의 질환 관련 자료들을 메타 분석 모델에 입력하여 질환 관련 자료별 분석 정보 기반의 데이터 세트를 생성하고 해당 데이터 세트를 대상으로 질환 관련 인자의 주제에 부합하는 효과 크기, 즉 해당 질환 관련 인자가 특정 질환에 영향을 미치는 크기를 산출하고, 효과 크기를 이용하여 타겟 질환 영향력 점수를 측정함으로써 이에 따라 질환 연관성 요인 후보로 선별하는 것을 의미할 수 있다.
본 발명의 일 실시예에 따르면 효과 크기를 추출하기 위한 방법은 다양하게 존재할 수 있으며, 추출하는 효과크기의 종류는 주제에 따라 상이한데, 표준화 평균차(Standardized mean difference)를 기준으로 한 효과크기, 상관계수를 기준으로 한 효과 크기, 그리고 오즈비(odds ratio)를 기준으로 한 효과 크기 등을 사용할 수 있다.
본 발명의 일 실시예에 따르면 오즈비(odds ratio)를 기준으로 효과 크기를 산출하기 위하여 각 질환 관련 인자 별로 질환에 대한 영향력의 크기(연관성 크기)에 대한 지표인 오즈비(odds ratio, OR)와 95% 신뢰구간(95% Confidence Interval, CI)을 토대로 효과크기를 추정할 수 있으며. 각 개별 질환 관련 자료의 오즈비를 종합하여 종합 효과크기(overall OR)를 산출할 수 있다.
본 발명의 일 실시예에 따르면 산출한 효과 크기를 이용하여 질환 관련 인자별로 타겟 질환 영향력 점수를 측정하기 위하여 역분산 추정법(generic inverse variance estimation method)을 이용할 수 있다.
역분산 추정법은 메타분석에서 가중치를 주기위해 사용되는 방법으로, 추정된 효과크기의 분산의 역수를 개별 질환 관련 자료의 가중치로 사용할 수 있다.
역분산 추정법을 사용하는 본 발명의 일 실시예에 따르면 표본수가 큰 연구에 대한 질환 관련 자료는 작은 분산을 가지고, 분산의 역수는 커지게 될 것이므로, 표본수가 큰 연구에 대한 질환 관련 자료에 더 큰 가중치를 주는 것으로 사용될 수 있다.
상기 일 실시예에 따르면 각 질환 관련 자료의 오즈비에 자연로그를 취한
Figure 112021126105697-pat00072
를 산출하고,
Figure 112021126105697-pat00073
에 대한 표준오차(SE)를 계산하고, 계산된 표준오차의 제곱의 역수를 가중치
Figure 112021126105697-pat00074
로 산출할 수 있으며, 수학식 4와 같이 산출된 각 질환 관련 자료의 가중치를 오즈비에 곱한 값을 모두 합하여 종합적인 효과 크기(ORpooled)를 계산할 수 있다.
도 6은 본 발명의 제2 실시예에 따라 구현된 시간 변동 공변량 기반의 PRS 모델을 이용한 질환별 위험 유전자 변이 정보 생성 장치의 구성도이다.
도 6을 참조하면 본 발명의 제2 실시예에 따라 구현된 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치는 유전체 데이터 전처리부(10), 검진 결과 데이터 전처리부(20), 다유전자 위험 점수 산출부(30), 시계열 특성 변수화부(40), 위험도 계산부(50), 발병 예상 정보 생성부(60) 및 PRS 모델 검증부(70)를 더 포함할 수 있다.
PRS 모델 검증부(70)는 PRS 모델이 연속형 타겟 질환 또는 이산형 타겟 질환에 대한 것인지 여부에 따라 상기 시간 변동 PRS 모델의 검증을 수행하여 상기 시간 변동 PRS 모델의 사용 또는 재설계를 결정할 수 있다.
본 발명의 일 실시예에 따르면 PRS 모델이 연속형 타겟 질환 또는 이산형 타겟 질환에 대한 것인지 여부에 따라 PRS 모델의 검증을 수행하여 PRS 모델의 사용 또는 재설계를 결정할 수 있다.
PRS 모델의 평가는 크게 두가지로 나눌 수 있으며 phenotype이 키, 몸무게, BMI등과 같은 연속형인 경우와, 본 발명과 같이 질환 등과 같은 이산형인 경우로 나눌 수 있다.
본 발명의 일 실시예에 따르면 PRS 검증부(70)가 이산형 타겟 질환에 대한 시간 변동 PRS 모델을 검증하기 위해서는 ROC 커브(ROC curve)가 사용될 수 있으며, ROC 커브의 AUC 값을 산출하여 해당 PRS 모델이 적절한지 여부를 검증할 수 있다.
본 발명의 일 실시예에 따르면 이산형인 경우, PRS추정값을 이용하여 ROC 커브(ROC curve)를 생성할 수 있으며, 질환(phenotype)사이의 AUC를 이용하여 모형의 성능을 평가할 수 있고, AUC가 높을수록 모형의 성능이 좋다고 평가할 수 있다.
도 7은 본 발명의 일 실시예에 따라 GWAS 분석이 수행된 결과 생성된 맨하튼 플롯을 이용하여 복수의 분석 별 질환 유발 인자 후보를 선정하는 것을 나타낸 도면이다.
도 7을 참조하면 본 발명의 일 실시예에 따라 GWAS 분석이 수행된 결과 생성된 맨하튼 플롯(manhattan plot)이 나타나 있으며, 맨하튼 플롯은 다수의 인원 대한 유전체 데이터를 대상으로 GWAS 분석을 통해 타겟 질환을 종속변수로 하여 선형회귀모형이나 로지스틱 회귀모형, mixed model을 통하여 타겟 질환과 유전체 데이터에 포함된 복수의 유전자 변이들 사이의 연관성 분석을 수행하여 생성된 막대형태의 그래프를 의미하여, X축은 개별 유전자 변이를 나타낼 수 있으며 Y축은 GWAS 분석을 통해 산출된 유전자 변이 별 P값을 의미할 수 있다.
본 발명의 일 실시예에 따르면 임계치를 5.0x10-8으로 설정하여 맨하튼 플롯 상에 표시된 복수의 유전자 변이 중 P값이 임계치인 5.0x10-8이하인 경우 복수의 유전자 변이를 질환 유발 인자 후보로 선별할 수 있다.
도 8은 본 발명의 일 실시예에 따라 GWAS 분석이 수행된 결과 생성된 결과 데이터의 데이터 테이블 형식을 나타낸 도면이다.
도 8을 참조하면 본 발명의 일 실시예에 따라 GWAS 분석이 수행된 결과 생성된 결과 데이터의 데이터 테이블 형식이 나타나 있으며, 결과 데이터에는 염색체 ID, 유전자 변이(SNP) ID, 좌위 (base-pair) 정보, 검정된 대립유전자 정보, 효과크기 산정 기준 등의 정보, 선행 문헌 정보 등이 포함될 수 있다.
도 9는 본 발명의 일 실시예에 따라 AI 분석을 수행하기 위해 인공 신경망 기반의 질환 유발 인자 예측 모델에 입력될 예측 모델에 질환이 라벨링 된 다수의 인원에 대한 유전체 데이터의 데이터 형식을 나타낸 도면이다.
도 9를 참조하면 본 발명의 일 실시예에 따라 질환이 라벨링 된 유전체 데이터의 데이터 형식이 나타나 있으며, 질환이 라벨링된 유전체 데이터는 유전자 변이 식별 코드(SNP rs number), 공변인 정보(covariate), 타겟 질환 정보(pheno type)가 포함될 수 있다.
도 10은 본 발명의 일 실시예에 따라 메타 분석을 통해 특정 유전자 변이와 질환 간의 연관성을 기재한 각 선행 문헌마다 산출된 오즈비(odds ratio, OR)와 특정 유전자 변이의 타겟 질환 영향력 점수를 나타낸 도면이다.
도 10을 참조하면 본 발명의 일 실시예에 따라 메타 분석을 통해 특정 유전자 변이와 질환 간의 연관성을 기재한 각 선행 문헌마다 산출된 오즈비(odds ratio, OR)와 특정 유전자 변이의 타겟 질환 영향력 점수를 산출하는 과정이 나타나 있다.
도 10을 참조하면 Abraham, R (2009), Allen, M. (Mayo Cohort) (2014) 등은 개별 선행 문헌을 나타내며, 도 6의 표에는 각 개별 선행 문헌의 오즈비(OR)와 95% 신뢰구간(95% CI)이 기록되어 있으며, 이러한 각 개별 선행 문헌의 오즈비를 종합하여 종합 효과크기(overall OR)이 1.03 산출된 것이 나타나 있다.
도 11은 본 발명의 일 실시예에 따라 GWAS 분석, AI 분석, 메타 분석을 각각 수행하여 생성된 3개의 질환 유발 인자 후보 리스트에 포함된 유전자 변이 중 서로 겹치는 정도에 따라 복수의 그룹으로 유전자 변이를 분류하는 기준을 나타낸 도면이다.
도 11을 참조하면 GWAS 분석, AI 분석, 메타 분석을 각각 수행하여 생성된 3개의 질환 유발 인자 후보 리스트에 포함된 유전자 변이 중 서로 겹치는 정도에 따라 복수의 그룹으로 유전자 변이를 분류하는 기준이 나타나 있으며, 생성된 3개의 질환 유발 인자 후보 리스트에 포함된 유전자 변이를 각각 비교하여 겹치는 정도, 즉 교집합을 이루는 정도에 까라 3개 질환 유발 인자 후보 리스트에 모두 포함되는 그룹, 2개 질환 유발 인자 후보 리스트에 포함되는 그룹, 1개 질환 유발 인자 후보 리스트에만 포함되는 그룹으로 분류할 수 있다.
도 12는 본 발명의 일 실시예에 따라 3개의 질환 유발 인자 후보 리스트에 포함된 유전자 변이를 9개의 그룹으로 분류하고 3개의 우선 순위 등급으로 분류한 것을 나타낸 도면이다.
도 12를 참조하면 3개의 질환 유발 인자 후보 리스트에 포함된 유전자 변이를 9개의 그룹으로 분류하고 3개의 우선 순위 등급으로 분류한 것이 나타나 있으며, 도 8과 같이 3개 질환 유발 인자 후보 리스트에 모두 포함되는 그룹 1개, 2개 질환 유발 인자 후보 리스트에 포함되는 그룹 4개, 1개 질환 유발 인자 후보 리스트에 포함되는 그룹 4개로 분류될 수 있으며, 각 리스트끼리 교집합 조합으로 각 그룹은 생성될 수 있다.
도 13은 본 발명의 일 실시예에 따라 분류된 위험도 등급에 따라 산출된 기대여명 그래프를 나타낸 도면이다.
본 발명의 일 실시예에 따르면 복수의 등급별 유전자 변이 리스트에 포함된 각 유전자 변이의 질환별 유전자 변이 연관성 점수를 기준으로 정렬하여 고위험 그룹, 중간 위험 그룹, 저위험 그룹으로 유전자 변이들을 분류할 수 있고, 이를 이용하여 도 13과 같이 해당 유전자를 가지고 있는 사람들의 경과 시간(elapsed time)을 그래프로 생성하여 사용자에게 위험 그룹별로 질환의 발생이 예상되는 발생률(incidence rate)을 제공할 수 있다.
도 14는 본 발명의 일 실시예에 따른 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 방법의 흐름도이다.
본 발명의 일 실시예에 따르면 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 방법은 적어도 하나의 프로세서로 이루어진 질환 발병 정보 생성 장치에 의하여 구동될 수 있다.
다수의 인원 대한 유전체 데이터 또는 복수의 선행 문헌을 입력 받아 복수의 질환 유발 인자 후보 리스트를 생성하고, 유전자 변이를 복수의 그룹으로 분류하여 우선 순위 등급을 나눈다(S10).
본 발명의 일 실시예에 따르면 다다수의 인원에 대한 유전체 데이터 또는 복수의 선행 문헌을 입력 받아 타겟 질환에 대하여 GWAS 분석, AI 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행하여 상기 분석 별로 질환 유발 인자 후보 리스트를 생성하고, 상기 생성된 분석 별 질환 유발 인자 후보 리스트에 포함된 유전자 변이 중 서로 겹치는 정도에 따라 상기 복수의 질환 유발 인자 후보 리스트에 포함된 유전자 변이를 복수의 유전자 변이 그룹으로 분류하며, 분류된 상기 복수의 유전자 변이 그룹을 미리 설정된 우선 등급 분류 기준에 따라 복수의 우선 순위 등급으로 나눌 수 있다.
본 발명의 일 실시예에 따르면 다수의 인원 대한 유전체 데이터 또는 복수의 선행 문헌을 분석하여 분석 별로 질환 유발 인자 후보 리스트를 생성할 수 있다.
본 발명의 일 실시예에 따르면 분석 별로 생성된 질환 유발 인자 후보 리스트에 포함된 유전자 변이를 복수의 그룹으로 분류하고, 분류된 복수의 그룹을 대상으로 적어도 하나의 그룹을 포함하는 우선 순위 등급을 선정하여 분류할 수 있다.
본 발명의 일 실시예에 따르면 다수의 인원 대한 유전체 데이터 또는 복수의 선행 문헌을 입력 받아 질환 유발 인자 후보를 선별하는 복수의 분석을 수행할 수 있다.
본 발명의 일 실시예에 따르면 다수의 인원 대한 유전체 데이터로는 코호트 데이터(cohort data)를 사용할 수 있으나, 다수의 인원에 대한 유전체 정보가 데이터 세트 형태로 구현된 데이터라면 제한없이 사용될 수 있다.
본 발명의 일 실시예에 따르면 질환 유발 인자 선별부(110)는 다수의 인원 대한 유전체 데이터 또는 복수의 선행 문헌을 입력 받아 타겟 질환에 대하여 GWAS 분석 및 AI 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행할 수 있다.
본 발명의 일 실시예에 따르면 유전체 데이터를 대상으로는 GWAS 분석 및 AI 분석을 수행할 수 있으며, 복수의 선행 문헌을 대상으로는 메타 분석을 수행할 수 있다.
본 발명의 일 실시예에 따르면 복수의 분석 별 질환 유발 인자 후보로 선별된 복수의 유전자 변이를 포함한 복수의 질환 유발 인자 후보 리스트를 생성할 수 있다.
본 발명의 일 실시예에 따르면 GWAS 분석, AI 분석, 메타 분석 중 적어도 하나 이상의 분석을 통해 복수의 질환 유발 인자 후보로 선별된 유전자 변이 및 선별된 유전자 변이의 분석 결과 데이터를 각 분석 결과 별로 리스트 형식으로 묶어 분석 결과 별 질환 유발 인자 후보 리스트를 생성할 수 있다.
본 발명의 일 실시예에 따르면 다수의 인원 대한 유전체 데이터를 입력 받아 타겟 질환을 대상으로 전장 유전체 연관분석을 수행하고, 수행의 결과로 유전자 변이 별로 산출된 P값을 미리 설정된 임계치와 대비하여, 임계치 이하인 복수의 유전자 변이를 질환 유발 인자 후보로 선별할 수 있다.
본 발명의 일 실시예에 따르면 전장 유전체 연관분석을 수행 결과 유전자 변이 별로 산출된 P값을 이용해 유전자 변이를 질환 유발 인자 후보로 선별하는 방법으로 맨하튼 플롯(manhattan plot)을 이용할 수 있으며, 이는 도 7을 참조하며 더 자세하게 설명하도록 한다.
본 발명의 일 실시예에 따르면 질환 유발 인자 후보로 선별된 복수의 유전자 변이를 대상으로, 각 유전자 변이의 위치가 연관불균형(linkage disequilibrium) 상태를 가지는지 여부를 판단하고, 판단 결과에 따라 각 유전자 자리(Locus)별 대표성을 가지는 하나의 유전자 변이만을 선별하여 최종 질환 유발 인자 후보를 생성할 수 있다.
본 발명의 일 실시예에 따르면 각 유전자 자리(Locus)별 대표성을 가지는 하나의 유전자 변이만을 선별하기 위하여 질환 유발 인자 후보로 선별된 복수의 유전자 변이에 대하여 LD clumping 수행하여 각 유전자 자리(Locus)별 대표성을 가지는 유전자 변이를 선별하는 방법을 사용할 수 있으며, 선별 기준은 산출된 유전자 변이별 중요도 점수(Importance score)를 토대로 순위를 설정하여 최상위 유전자 변이를 선별할 수 있다.
여기서 유전자 변이별 중요도 점수(Importance score)는 예측력에 가장 영향력을 미치는 feature, 즉 특징인 유전자 변이를 산출하기 위해 정량화된 값을 산출하는 방법을 의미할 수 있다.
본 발명의 일 실시예에 따르면 전장 유전체 연관분석을 수행하여 복수의 필드 값들을 항목으로 하는 데이터 테이블 형태의 결과 데이터를 생성할 수 있으며, 여기에는 염색체 ID, SNP ID 이때 유전자 변이 별로 산출된 P값이 포함될 수 있다.
본 발명의 일 실시예에 따르면 인공 신경망 기반의 질환 유발 인자 예측 모델에 질환이 라벨링 된 다수의 인원에 대한 유전체 데이터를 입력하여 유전자 변이별 중요도 점수(Importance score)를 출력하고, 출력된 유전자 변이별 중요도 점수 중 미리 설정된 점수를 초과하는 중요도 점수를 가진 복수의 유전자 변이를 질환 유발 인자 후보로 선별할 수 있다.
본 발명의 일 실시예에 따르면 인공 신경망 기반의 질환 유발 인자 예측 모델에 입력되는 질환이 라벨링 된 다수의 인원에 대한 유전체 데이터는 유전자 변이 식별 코드, 공변인 정보, 타겟 질환 정보를 포함할 수 있다.
본 발명의 일 실시예에 따르면 인공 신경망 기반의 질환 유발 인자 예측 모델은 입력값과 출력값 사이의 인과관계를 파악하기 어려운 블랙박스 문제를 해결하기 위하여 복수의 유전자 변이를 질환 유발 인자 후보를 선별하기 위하여 머신러닝 중 트리(tree-based) 계열의 알고리즘을 이용하며, XAI(Explainable AI) 기법을 통해 유전자 변이별 중요도 점수(Importance score)를 구하는 방법을 이용할 수 있다.
본 발명의 일 실시예에 따르면 인공 신경망 기반의 질환 유발 인자 예측 모델은 다수의 인원에 대한 유전체 데이터에 포함된 유전자 변이 식별 코드, 공변인 정보, 타겟 질환 정보를 입력 받아 타겟 질환에 대한 유전자 변이별 중요도 점수(Importance score)를 출력하도록 학습될 수 있다.
본 발명의 일 실시예에 따르면 수학식 3과 같은 수식을 통해 타겟 질환에 대한 유전자 변이별 중요도 점수(Importance score)를 산출할 수 있다.
본 발명의 일 실시예에 따르면 유전자 변이별 중요도 점수를 각 유전자 변이들의 순서를 무작위로 섞은 뒤, 중요도를 판단하고자 하는 유전자 변이를 노이즈로 정의하는 모델을 생성하고, 모델이 유전자 변이에 대한 의존도를 정량화하여 산출할 수 있다.
본 발명의 일 실시예에 따르면 중요도를 판단하고자 하는 유전자 변이를 노이즈로 정의하는 모델을 생성하고, 모델이 유전자 변이에 대한 의존도를 정량화 하여 산출하기 위하여 Permutation feature importance 기법을 사용할 수 있으며, 이 기법은 데이터 테이블 형태의 데이터 세트에 적합한 데이터에 적합한 explainability AI 기법으로, 각 변수들의 순서를 무작위로 섞은 뒤, 중요도를 판단하고자 하는 특징(유전자 변이)를 노이즈로 만듦으로써, 상기 모델이 해당 특징(유전자 변이)에 얼마나 의존적인지를 정량화 하는 방식으로 수행될 수 있다.
본 발명의 일 실시예에 따르면 타겟 질환을 대상으로 유전자 변이에 대한 영향을 주제로 기고된 복수의 선행 문헌을 메타 분석 모델에 입력하여 복수의 선행 문헌별로 상기 유전자 변이의 주제에 부합하는 효과 크기를 산출하고, 산출한 효과 크기의 분산의 역수를 각 선행 문헌의 효과 크기에 가중치로 적용하여 각 유전자 변이 별로 타겟 질환 영향력 점수를 측정하여, 상기 각 유전자 변이별 타겟 질환 영향력 점수를 기준으로 복수의 유전자 변이를 질환 유발 인자 후보로 선별할 수 있다.
본 발명의 일 실시예에 따르면 복수의 선행 문헌별로 상기 유전자 변이의 주제에 부합하는 효과 크기는 각 선행 문헌별로 오즈비(odds ratio)와 신뢰구간을 산출하여, 오즈비와 신뢰구간을 토대로 선행 별 유전자 변이가 타겟 질환에 미치는 효과 크기를 추정할 수 있다.
본 발명의 일 실시예에 따르면 복수의 선행 문헌별을 분석하여 동일한 주제, 즉 특정 질환에 대한 특정 유전자 변이의 영향성에 대하여 기재된 선행 문헌을 체계적으로 고찰하고, 최종 선정된 문헌들을 분석하여 주제에 부합하는 결과값(효과 크기)을 추출하여 사용할 수 있다.
본 발명의 일 실시예에 따르면 효과 크기를 추출하기 위한 방법은 다양하게 존재할 수 있으며, 추출하는 효과크기의 종류는 주제에 따라 상이한데, 표준화 평균차(Standardized mean difference)를 기준으로 한 효과크기, 상관계수를 기준으로 한 효과 크기, 그리고 오즈비(odds ratio)를 기준으로 한 효과 크기 등을 사용할 수 있다.
본 발명의 일 실시예에 따르면 오즈비(odds ratio)를 기준으로 효과 크기를 산출하기 위하여 각 유전자 변이 별로 질환에 대한 영향력의 크기(연관성 크기)에 대한 지표인 오즈비(odds ratio, OR)와 95% 신뢰구간(95% Confidence Interval, CI)을 토대로 효과크기를 추정할 수 있으며. 각 개별 문헌의 오즈비를 종합하여 종합 효과크기(overall OR)를 산출할 수 있다.
본 발명의 일 실시예에 따라 오즈비와 신뢰구간을 토대로 선행 별 유전자 변이가 타겟 질환에 미치는 효과 크기를 추정하는 것에 대해서는 도 10을 참조하며 더욱 자세하게 설명하도록 한다.
본 발명의 일 실시예에 따르면 산출한 효과 크기를 이용하여 유전자 변이 별로 타겟 질환 영향력 점수를 측정하기 위하여 역분산 추정법(generic inverse variance estimation method)을 이용할 수 있다.
역분산 추정법은 메타분석에서 가중치를 주기위해 사용되는 방법으로, 추정된 효과크기의 분산의 역수를 개별 선행 문헌의 가중치로 사용할 수 있다.
역분산 추정법을 사용하는 본 발명의 일 실시예에 따르면 표본수가 큰 연구에 대한 선행 문헌은 작은 분산을 가지고, 분산의 역수는 커지게 될 것이므로, 표본수가 큰 연구에 대한 선행 문헌에 더 큰 가중치를 주는 것으로 사용될 수 있다.
상기 일 실시예에 따르면 각 선행 문헌의 오즈비에 자연로그를 취한
Figure 112021126105697-pat00075
를 산출하고,
Figure 112021126105697-pat00076
에 대한 표준오차(SE)를 계산하고, 계산된 표준오차의 제곱의 역수를 가중치
Figure 112021126105697-pat00077
로 산출할 수 있으며, 수학식 4와 같이 산출된 각 선행 문헌의 가중치를 오즈비에 곱한 값을 모두 합하여 종합적인 효과 크기(ORpooled)를 계산할 수 있다.
본 발명의 일 실시예에 따르면 생성된 복수의 질환 유발 인자 후보 리스트에 포함된 유전자 변이 중 서로 겹치는 정도에 따라 복수의 질환 유발 인자 후보 리스트에 포함된 유전자 변이를 복수의 그룹으로 분류할 수 있다.
본 발명의 일 실시예에 따르면 유전자 변이 중 서로 겹치는 정도에 따라 교집합 여부를 판단하여 유전자 변이를 복수의 그룹으로 분류할 수 있다.
본 발명의 일 실시예에 따르면 GWAS 분석, AI 분석, 메타 분석을 각각 수행하여 생성된 3개의 질환 유발 인자 후보 리스트에 포함된 유전자 변이 중 서로 겹치는 정도에 따라 9개의 그룹으로 유전자 변이를 분류할 수 있다.
본 발명의 일 실시예에 따르면 3개의 질환 유발 인자 후보 리스트에 포함된 유전자 변이 중 각 리스트와의 교집합에 포함되는지 포함된다면 몇 개의 리스트와 교집합을 이루는지에 따라 9개의 그룹으로 유전자 변이를 분류할 수 있다.
본 발명의 일 실시예에 따르면 9개 그룹을 1, 2, 3등급의 우선 순위 등급으로 분류하며, 1등급에는 1개 그룹을, 2등급에는 4개 그룹을, 3등급에는 4개 그룹을 포함하도록 할 수 있다.
본 발명의 일 실시예에 따르면 9개 그룹 중 3개의 질환 유발 인자 후보 리스트에 모두 포함된 유전자 변이들로 형성된 그룹을 1등급으로, 3개의 질환 유발 인자 후보 리스트 중 2개의 질환 유발 인자 후보 리스트에 포함된 유전자 변이들로 형성된 그룹을 2등급으로, 3개의 질환 유발 인자 후보 리스트 중 1개의 질환 유발 인자 후보 리스트에만 포함된 유전자 변이들로 형성된 그룹을 3등급으로 분류할 수 있다.
9개의 그룹으로 9개 그룹을 1, 2, 3등급의 우선 순위 등급으로 분류하는 것에 대해서는 도 12를 참조하며 더 자세하게 설명하도록 한다.
본 발명의 일 실시예에 따르면 생성된 복수의 질환 유발 인자 후보 리스트에 포함된 유전자 변이 중 서로 겹치는 정도에 따라 복수의 질환 유발 인자 후보 리스트에 포함된 유전자 변이를 복수의 그룹으로 분류할 수 있다.
본 발명의 일 실시예에 따르면 분류된 복수의 그룹을 복수의 우선 순위 등급으로 나누고, 각 우선 순위 등급별로 포함된 복수의 유전자 변이 중 중첩되는 유전자 변이를 하나만 남기고 제거하여 복수의 등급별 유전자 변이 리스트를 생성할 수 있다.
본 발명의 일 실시예에 따르면 분류된 복수의 그룹을 복수의 우선 순위 등급으로 나누고, 각 우선 순위 등급별로 포함된 복수의 유전자 변이 중 중첩되는 유전자 변이를 하나만 남기고 제거하여 복수의 등급별 유전자 변이 리스트를 생성할 수 있다.
본 발명의 일 실시예에 따르면 3개의 질환 유발 인자 후보 리스트에 포함된 유전자 변이들 중 각 리스트에 중복되게 포함될 유전자 변이가 존재할 가능성이 있기 때문에 복수의 그룹을 복수의 우선 순위 등급으로 나눈 후, 각 우선 순위 등급별로 포함된 복수의 유전자 변이 중 중첩되는 유전자 변이가 있다면 등급별 순위를 선정할 때 중복될 수 있으니 하나만 남기고 제거하여 등급별 유전자 변이 리스트를 생성할 수 있다.
검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 적어도 하나의 질환 연관성 요인을 선정하고, 집단 추세 모형을 이용하여 다수의 인원의 검진 결과 데이터에 포함된 개별 검진 결과값들의 변화를 기준으로 복수의 그룹을 생성한다(S20).
본 발명의 일 실시 예에 따르면 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 복수의 분석을 수행하여 적어도 하나의 질환 연관성 요인을 선정하고, 집단 추세 모형을 이용하여 상기 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터에 포함된 개별 검진 결과값들의 변화를 기준으로 상기 다수의 인원을 그룹핑을 하여 복수의 그룹을 생성할 수 있다.
본 발명의 일 실시예에 따르면 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 복수의 분석을 수행하여 각 분석 결과에 따라 적어도 하나의 질환 연관성 요인을 선정할 수 있다.
본 발명의 일 실시예에 따르면 집단 추세 모형을 이용하여 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터에 포함된 개별 검진 결과값들의 변화를 기준으로 다수의 인원을 그룹핑을 하여 복수의 그룹을 생성할 수 있으며, 여기서 집단 추세 모형이란 시간에 따른 행동 유형을 군집으로 분류하고, 각 그룹의 궤적 형태를 추정하여 그룹 수와 자료와의 최적 적합도를 갖는 그룹의 수를 검증하는 방법을 의미할 수 있다.
본 발명의 일 실시 예에 따르면 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 질환 연관성 요인 후보를 선정하는 복수의 분석을 수행할 수 있다.
본 발명의 일 실시예에 따르면 검진 결과 데이터에 포함되는 건강 검진 항목은 공복 혈당 수치, 수축기 혈압 및/또는 이완기 혈압, 총 콜레스테롤 수치 및/또는 고밀도 콜레스테롤 수치(HDL), 저밀도 콜레스테롤 수치(LDL), 체중, 체질량지수(BMI) 등이 포함될 수 있다.
본 발명의 일 실시예에 따르면 타겟 질환의 발병을 유발하는 요인으로는 검진 결과 데이터에 포함되는 건강 검진 항목일 수 있으며, 검진 결과 데이터에 포함되는 건강 검진 항목을 한번 또는 복수의 단계를 거쳐 가공하여 생성한 특정 요인일 수 있다.
본 발명의 일 실시예에 따르면 질환 관련 자료는 타겟 질환과 특정 요인과의 발생 연관성 대한 연구 결과 또는 다수의 인원들에 대한 통계 분석 결과 등의 내용을 포함하고 있는 텍스트 기반의 자료를 의미할 수 있으며, 일반적으로 의학 논문, 통계 자료 등이 될 수 있으나 이에 한정되지 아니하고, 텍스트 기반의 타겟 질환과 특정 요인과의 발생 연관성 대한 자료라면 제한 없이 사용될 수 있다.
본 발명의 일 실시예에 따르면 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 타겟 질환에 대하여 질환 연관성 분석, 빅데이터 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행할 수 있다.
본 발명의 일 실시예에 따르면 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 질환 연관성 분석, 빅데이터 분석, 메타 분석을 모두 수행하여 각 분석 결과에 따른 3개의 질환 연관성 요인 후보를 선정할 수 있다.
본 발명의 일 실시예에 따르면 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터를 대상으로 타겟 질환의 발병 가능성에 대한 복수의 질환 관련 인자의 연관성 분석을 수행하여, 연관성이 높은 것으로 도출된 질환 관련 인자를 질환 연관성 요인 후보로 선정할 수 있다.
본 발명의 일 실시예에 따르면 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터를 질환 연관성 분석 모델에 입력하여 타겟 질환의 발병 가능성에 대한 복수의 질환 관련 인자의 연관성 분석을 수행할 수 있다.
본 발명의 일 실시예에 따르면 질환 연관성 분석 모델은 인공 신경망 기반의 딥러닝 모델로 구현될 수 있으며, 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터를 입력 받으면 질환과 연관성이 상대적으로 높은 적어도 하나의 검진 결과 항목을 도출하도록 학습될 수 있다.
본 발명의 다른 일 실시예에 따르면 질환 연관성 분석 모델은 입력 받은 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터를 대상으로 상관 분석을 수행하는 모델일 수 있으며, 이를 통해 질환과 연관성이 상대적으로 높은 적어도 하나의 검진 결과 항목을 도출하여 복수의 질환 관련 인자의 연관성 분석을 수행할 수 있다.
본 발명의 일 실시예에 따르면 텍스트 기반의 질환 관련 자료가 저장된 데이터 베이스로부터 크롤링을 이용하여 복수의 데이터를 수집하고, 수집된 복수의 데이터를 대상으로 텍스트 마이닝을 수행하여 질환 연관성 요인 후보를 선정할 수 있다.
본 발명의 일 실시예에 따르면 NCBI DB, OMIM, Diseases Card, open DB 등의 데이터 베이스로부터 텍스트 기반의 데이터를 크롤링을 통해 각 질환명, 관련 항목, 원인 정보 등을 대상으로 수집을 수행하고, 수집된 데이터의 텍스트 마이닝 작업을 통하여 유의한 관련 항목을 선별하여 도출하여 타겟 질환과 복수의 질환 관련 인자와의 연관성 분석을 수행할 수 있다.
본 발명의 일 실시예에 따르면 타겟 질환과 질환 관련 인자에 대한 영향을 주제로 한 복수의 질환 관련 자료를 메타 분석 모델에 입력하여, 복수의 질환 관련 자료 별로 질환 관련 인자별의 효과 크기를 산출하여, 효과 크기에 따라 질환 연관성 요인 후보를 선정할 수 있다.
본 발명의 일 실시예에 따르면 질환 관련 인자는 특정 질환의 발병에 영양을 미칠 수 있는 요인에 대한 것을 의미하며, 다른 질병 유무, 건강 검진 결과값이 미리 설정된 일정 범위 내인지 여부 등일 수 있으나, 이에 한정되지 아니하고 기타 질환 발병에 영향을 미칠 수 있는 요인이라면 제한 없이 사용될 수 있다.
본 발명의 일 실시 예에 따르면 메타 분석은 복수의 질환 관련 자료들을 메타 분석 모델에 입력하여 질환 관련 자료별 분석 정보 기반의 데이터 세트를 생성하고 해당 데이터 세트를 대상으로 질환 관련 인자의 주제에 부합하는 효과 크기, 즉 해당 질환 관련 인자가 특정 질환에 영향을 미치는 크기를 산출하고, 효과 크기를 이용하여 타겟 질환 영향력 점수를 측정함으로써 이에 따라 질환 연관성 요인 후보로 선별하는 것을 의미할 수 있다.
본 발명의 일 실시예에 따르면 효과 크기를 추출하기 위한 방법은 다양하게 존재할 수 있으며, 추출하는 효과크기의 종류는 주제에 따라 상이한데, 표준화 평균차(Standardized mean difference)를 기준으로 한 효과크기, 상관계수를 기준으로 한 효과 크기, 그리고 오즈비(odds ratio)를 기준으로 한 효과 크기 등을 사용할 수 있다.
본 발명의 일 실시예에 따르면 오즈비(odds ratio)를 기준으로 효과 크기를 산출하기 위하여 각 질환 관련 인자 별로 질환에 대한 영향력의 크기(연관성 크기)에 대한 지표인 오즈비(odds ratio, OR)와 95% 신뢰구간(95% Confidence Interval, CI)을 토대로 효과크기를 추정할 수 있으며. 각 개별 질환 관련 자료의 오즈비를 종합하여 종합 효과크기(overall OR)를 산출할 수 있다.
본 발명의 일 실시예에 따르면 산출한 효과 크기를 이용하여 질환 관련 인자별로 타겟 질환 영향력 점수를 측정하기 위하여 역분산 추정법(generic inverse variance estimation method)을 이용할 수 있다.
역분산 추정법은 메타분석에서 가중치를 주기위해 사용되는 방법으로, 추정된 효과크기의 분산의 역수를 개별 질환 관련 자료의 가중치로 사용할 수 있다.
역분산 추정법을 사용하는 본 발명의 일 실시예에 따르면 표본수가 큰 연구에 대한 질환 관련 자료는 작은 분산을 가지고, 분산의 역수는 커지게 될 것이므로, 표본수가 큰 연구에 대한 질환 관련 자료에 더 큰 가중치를 주는 것으로 사용될 수 있다.
상기 일 실시예에 따르면 각 질환 관련 자료의 오즈비에 자연로그를 취한
Figure 112021126105697-pat00078
를 산출하고,
Figure 112021126105697-pat00079
에 대한 표준오차(SE)를 계산하고, 계산된 표준오차의 제곱의 역수를 가중치
Figure 112021126105697-pat00080
로 산출할 수 있으며, 수학식 4와 같이 산출된 각 질환 관련 자료의 가중치를 오즈비에 곱한 값을 모두 합하여 종합적인 효과 크기(ORpooled)를 계산할 수 있다.
본 발명의 일 실시예에 따르면 복수의 분석 별 질환 연관성 요인 후보로 선정된 복수의 질환 관련 인자 중 서로 겹치는 정도에 따라 적어도 하나의 질환 연관성 요인을 선정할 수 있다.
본 발명의 일 실시예에 따르면 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 질환 연관성 분석, 빅데이터 분석, 메타 분석 중 적어도 하나 이상을 수행하여 각 분석 결과에 따라 생성된 적어도 2개 이상의 질환 연관성 요인 후보 사이에 적어도 2개 이상 공통되게 포함된 요인들만 질환 연관성 요인으로 선정하여 질환 연관성 요인 리스트를 생성할 수 있다.
본 발명의 일 실시예에 따르면 질환 연관성 분석, 빅데이터 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행하여 생성된 복수의 질환 연관성 요인 후보를 각각 대비하여 생성된 질환 연관성 요인 후보들 모두에 포함되어 있는 질환 관련 인자만을 질환 연관성 요인으로 선정할 수 있다.
상기 일 실시예에 따르면 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 질환 연관성 분석, 빅데이터 분석, 메타 분석을 모두 수행하여 생성된 각 분석 결과에 따른 3개의 질환 연관성 요인 후보에 모두 포함된 요인들만 질환 연관성 요인으로 선정하여 질환 연관성 요인 리스트를 생성할 수 있다.
상기 일 실시예에 따르면 질환 연관성 분석, 빅데이터 분석, 메타 분석을 모두 수행하여 생성된 각 분석 결과에 따른 3개의 질환 연관성 요인 후보에 모두 포함된 요인들만 질환 연관성 요인으로 선정하는 이유는 수많은 요인 중 해당 질환의 유발에 상대적으로 높은 영향력을 미치는 요인을 보수적으로 선정하기 위함이며, 이에 따라 분석에 소요되는 연산 자원 및 시간의 절감이 가능하며 그 정확도 또한 상승되는 효과를 얻을 수 있다.
본 발명의 일 실시 예에 따르면 선정된 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터 중 데이터의 2차 가공이 필요한 질환 연관성 요인을 대상으로 미리 설정된 전처리 기준에 따라 데이터를 가공할 수 있다.
본 발명의 일 실시예에 따르면 미리 설정된 전처리 기준으로는 다음 기준들이 존재하나 이에 국한되지 아니하고 검진 결과 데이터에 포함된 건강 검진의 각 항목별 결과를 가공하여 질환 연관성 요인을 명확하게 할 수 있는 요인으로 도출할 수 있다면 제한없이 사용될 수 있다.
본 발명의 일 실시예에 따르면 미리 설정된 전처리 기준에 따라 선정된 적어도 하나의 질환 연관성 요인에 포함된 질환 관련 인자가 개별 검진 결과값으로는 경향성 기준 또는 판단 기준으로 사용될 수 없는 것으로 분류되는 경우, 경향성 기준 또는 판단 기준으로 사용될 수 있도록 미리 설정된 전처리 기준에 따라 검진 결과 데이터에서 산출 혹은 재가공하는 전처리를 수행하여 전체 검진 대상 기간별 시계열 검진 데이터로 생성할 수 있다.
본 발명의 일 실시예에 따르면 전처리 기준은 아래와 같을 수 있으나 이에 한정되지 아니하고, 경향성 기준 또는 판단 기준으로 사용될 수 있도록 전처리하는 것이라면 제한 없이 사용될 수 있다.
[전처리 기준]
(1) 공복 혈당을 이용하여 당뇨 유무 데이터로 전처리
: 공복혈당 < 100 (정상),
100 ≤ 공복혈당 <126 (공복혈당장애)
126 < 공복혈당 (당뇨)
(2) 수축기 또는 이완기 혈압을 이용하여 고혈압 여부 데이터로 전처리
: 수축기 혈압 < 120 or 이완기 혈압 < 80 (정상)
120 ≤ 수축기 혈압 < 140 or 80 ≤이완기 혈압 < 90 (전고혈압)
140 ≤ 수축기 혈압 < 160 or 90 ≤ 이완기 혈압 < 100 (1단계 고혈압)
1 ≤ 수축기 혈압 or 100 ≤ 이완기 혈압 (2단계 고혈압)
(3) 총 콜레스테롤양 혹은 LDL을 이용한 이상지질혈증 유무 데이터로 전처리
(4) BMI을 이용한 비만도 데이터로 전처리
: BMI < 18.5 (저체중)
18.5 ≤ BMI < 25.0 (정상)
25.0 ≤ BMI < 30.0 (과체중)
30 ≤ BMI (비만)
30.0 ≤ BMI < 35.0 (중도비만)
35.0 ≤ BMI < 40.0 (고도비만)
40 ≤ BMI (초고도비만)
본 발명의 일 실시예에 따르면 선정된 적어도 하나의 질환 연관성 요인에 포함된 질환 관련 인자에 대한 개별 검진 결과값을 검진 결과 데이터로부터 수집하고, 수집된 개별 검진 결과값을 시계열로 나열하는 전처리를 수행하여 전체 검진 대상 기간별 시계열 검진 데이터로 생성할 수 있다.
본 발명의 일 실시 예에 따르면 수집된 개별 검진 결과값을 시계열로 나열하는 전처리를 수행하여 전체 검진 대상 기간별 시계열 검진 데이터로 생성하는 과정에 있어 전체 검진 대상 기간별 시계열 검진 데이터 상의 결측치가 존재하는 경우, 결측치 값을 제거하는 전처리를 수행할 수 있으며, 또 다른 실시예에 따르면 통계적인 대체(imputation)방식을 이용하여 해당 결측치의 값을 추정하여 추정한 값을 결측치 항목에 추가하는 전처리를 수행할 수 있으며, 또 다른 실시예에 따르면 인공신경망 기반의 머신 러닝 기법을 이용하여 결측치를 보완하는 전처리를 수행할 수도 있다.
본 발명의 일 실시예에 따르면 미리 설정된 전처리 기준은 질환 관련 인자가 개별 검진 결과값을 전처리 없이 집단 추세 모형에 입력하여 결과 값을 낼 수 없는 질환 관련 인자의 종류에 대한 정보 및 상기 질환 관련 인자의 전처리 방법에 대한 정보를 포함할 수 있다.
본 발명의 일 실시예에 따르면 집단 추세 모형을 이용하여 시간의 흐름에 따른 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터에 포함된 개별 검진 결과값들의 변화를 기준으로 상기 다수의 인원을 그룹핑을 하여 복수의 그룹을 생성할 수 있다.
본 발명의 일 실시예에 따르면 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터에 포함된 개별 검진 결과값을 집단 추세 모형에 입력하여 자료의 개별 관찰치가 각 그룹에 속할 확률을 계산하여 종속변수 확률 밀도 함수의 속성에 따라 시점에 따라 각기 다른 분포를 가정하고 추정함으로써 수학식 5와 같이 개별 검진 결과값들의 변화에 따라 각 그룹에 다수의 인원이 포함되는 복수의 그룹을 생성할 수 있다.
본 발명의 일 실시예에 따르면 수학식 5과 같이 종속 변수의 확률밀도 함수는 특정 그룹에 소속될 확률과 특정 그룹 구성원들의 종속변수 확률밀도 함수 곱의 총합으로 표현될 수 있으며, 특정 그룹 구성원의 종속 변수는 매 시점마다 상호독립성을 지니고 있으므로 종속변수의 확률밀도 함수는 매시점별 해당 확률밀도 함수의 곱으로 계산할 수 있다.
본 발명의 일 실시예에 따르면 각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 대상으로 궤적 형태를 추정하여 각 그룹별로 궤적 형태의 차이를 대비하여 분류된 그룹의 분류 적합도를 검증할 수 있다.
본 발명의 일 실시예에 따르면 집단 추세 모형을 이용하여 각 그룹의 궤적과 각 그룹에서 사례 수 비율을 함께 주정하기 위하여 최대우도추정법을 이용할 수 있으며, 자료에 나타난 개인의 사건 궤적 내용을 상대적으로 가장 잘 묘사하는 최종 모델의 선정 여부는 베이지안 정보지수(BIC)를 기준으로 결정할 수 있고, 이 때 BIC 값이 낮을수록 상대적으로 자료에 나타난 개인의 사건 궤적 내용을 상대적으로 더 묘사하는 모델로 평가할 수 있다.
유전체 데이터를 대상으로 분류된 복수의 그룹에 각각 포함된 복수의 유전자 변이를 대상으로 그룹별로 설계된 PRS 모델을 이용하여 그룹별로 유전자 변이별 다유전자 위험점수 및 그룹 다유전자 위험점수를 계산한다(S30).
본 발명의 일 실시예에 따르면 유전체 데이터 전처리부에서 분류된 복수의 그룹에 각각 포함된 복수의 유전자 변이를 대상으로 그룹별로 PRS 모델을 설계하고, PRS 모델을 이용하여 각 그룹별 유전자 변이의 위험 대립 유전자의 수에 대하여 연관성(
Figure 112021126105697-pat00081
)을 가중치로 계산하여 그룹별로 유전자 변이별 다유전자 위험점수(
Figure 112021126105697-pat00082
) 및 그룹 다유전자 위험점수(
Figure 112021126105697-pat00083
)를 계산할 수 있다.
본 발명의 일 실시예에 따르면 PRS 모델은 수학식 1과 같이 설계되어 PRS 모델을 이용하여 GWAS 분석 결과에서 도출된 각 그룹별 유전자 변이의 위험 대립 유전자의 수에 대하여 연관성(
Figure 112021126105697-pat00084
)을 가중치로 계산하여 그룹별로 유전자 변이별 다유전자 위험점수(
Figure 112021126105697-pat00085
) 및 그룹 다유전자 위험점수(
Figure 112021126105697-pat00086
)를 계산할 수 있도록 설계될 수 있다.
본 발명의 일 실시예에 따르면 타겟 질환(pheno type)에 대하여 GWAS 분석 결과로 도출된 그룹내 P개 유전자 변이(SNP)의 위험 대립유전자(risk allele)의 수(
Figure 112021126105697-pat00087
)에 대하여 연관성(
Figure 112021126105697-pat00088
)을 가중치로 계산한 가중합을 그룹별 다유전자 위험점수(
Figure 112021126105697-pat00089
)로 산출할 수 있다.
본 발명의 일 실시예에 따르면 가중치는 유전자 변이와 타겟 질환(phenotype)간의 회귀분석을 통해서도 계산할 수 있으나, 또 다른 일 실시예에 따르면 유전자 변이(SNP)간 연관성(LD)가 존재하기 때문에 일반적인 회귀분석을 통해 계산하는 경우 가중치의 추정값(
Figure 112021126105697-pat00090
)의 분산이 커지는 등 통계적 문제가 발생하여 일반화 회귀분석(Regularized regression)방법을 사용하여 추정할 수 있으며, 일반화 회귀분석 중 Lasso와 Ridge방법을 기반으로 한 추정 모형이 사용될 수 있다.
산출된 유전자 변이별 다유전자 위험점수를 시간 의존 연관성 산출 모델에 공변량으로 적용하며, 검진 결과 데이터를 대상으로 생성된 각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 시간 의존 연관성 산출 모델에 입력하여 시점 별 연관성 크기를 산출하여 시계열 특성 변수로 선정한다(S40).
본 발명의 일 실시예에 따르면 산출된 유전자 변이별 다유전자 위험점수(
Figure 112021126105697-pat00091
)를 시간 의존 연관성 산출 모델에 공변량으로 적용하며, 검진 결과 데이터 전처리부에서 생성된 각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 시간 의존 연관성 산출 모델에 입력하여 COX 모델에 입력될 독립변수와 종속 변수 간의 시점 별 연관성 크기를 산출하여 시계열 특성 변수로 선정할 수 있다.
본 발명의 일 실시예에 따르면 시간 의존 연관성 산출 모델은 생존분석에서 시간에 따라 값이 변화하는 변수를 반영하기 위하여 extended cox model인 Time-dependent cox를 사용하기 위한 모델로, 시점 t에 따라 변화하는 설명변수(X)와 반응변수(Y)간 연관성의 크기를 산출하고 이를 시계열 특성 변수로 정의하고 질환 연관성 요인에 대한 검진 결과 데이터에 적용할 수 있다.
본 발명의 일 실시예에 따르면 시간 의존 연관성 산출 모델은 Time-dependent cox를 사용하기 위해 수학식 2와 같이 표현될 수 있다.
본 발명의 일 실시예에 따르면 특정 변수의 반응변수(질환 발생)와의 연관성을 산출하여 연관성 지수를 (
Figure 112021126105697-pat00092
라고 정의할 수 있으며, 수학식 2에서
Figure 112021126105697-pat00093
의 부분의 수식은 시간에 흐름에 영향을 받지 않는 복수의 변수(
Figure 112021126105697-pat00094
)에 대한 반응변수와의 연관성(
Figure 112021126105697-pat00095
)을 이용한 COX 회귀 분석 수식을 의미하며,
Figure 112021126105697-pat00096
의 수식은 시간에 흐름에 영향을 받는 복수의 변수(
Figure 112021126105697-pat00097
)에 대한 반응변수와의 연관성(
Figure 112021126105697-pat00098
)을 이용한 COX 회귀 분석 수식을 의미한다.
본 발명의 일 실시예에 따르면 시간에 흐름에 영향을 받지 않는 복수의 변수(
Figure 112021126105697-pat00099
)는 성별, 유전자형, 질환 과거력, 다유전자 위험점수 등과 같이 시점별로 변동하지 아니하는 변수에 대한 수치화 된 값을 의미할 수 있으며, 시간에 흐름에 영향을 받는 복수의 변수(
Figure 112021126105697-pat00100
)는 공복 혈당 수치, 수축기 혈압 및/또는 이완기 혈압, 총 콜레스테롤 수치 및/또는 고밀도 콜레스테롤 수치(HDL), 저밀도 콜레스테롤 수치(LDL), 체중, 체질량지수(BMI)등과 같이 성별을 제외한 검진 결과 데이터에 포함된 항목의 변수에 대한 수치화 된 값을 의미할 수 있다.
본 발명의 일 실시예에 따르면 산출된 유전자 변이별 다유전자 위험점수(
Figure 112021126105697-pat00101
)를 시간 의존 연관성 산출 모델에 공변량으로 적용하기 위하여 수학식 2의
Figure 112021126105697-pat00102
수식에 유전자 변이별 다유전자 위험점수(
Figure 112021126105697-pat00103
)를
Figure 112021126105697-pat00104
로 입력하고, 유전자 변이별 다유전자 위험점수(
Figure 112021126105697-pat00105
) 반응변수와의 연관성 지수를
Figure 112021126105697-pat00106
로 입력하는 방법을 사용할 수 있다.
질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 산출된 적어도 하나의 시계열 특성 변수를 적용하고, 적용된 다수의 인원의 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 각 그룹별로 COX 회귀 분석을 수행하여 각 그룹 별로 질병 발생 위험도를 계산한다(S50).
본 발명의 일 실시예에 따르면 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 산출된 적어도 하나의 시계열 특성 변수를 적용하고, 적용된 다수의 인원의 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 각 그룹별로 COX 회귀 분석을 수행하여 각 그룹 별로 질병 발생 위험도를 계산할 수 있다.
본 발명의 일 실시예에 따르면 산출된 적어도 하나의 시계열 특성 변수를 질환 연관성 요인에 대한 검진 결과 데이터에 적용시킬 수 있으며, 질환 연관성 요인에 대한 검진 결과 데이터의 각 시점별 질환 유발 요인의 수치에 각 시점 별로 산출된 시계열 특성 변수를 곱하는 식으로 적용을 수행할 수 있다.
본 발명의 일 실시 예에 따르면 시계열 특성 변수가 적용된 질환 연관성 요인에 대한 검진 결과 데이터로 이루어진 각 그룹을 대상으로 각 그룹 별로 COX 회귀 분석을 수행하여 각 그룹 별로 질병 발생 위험도를 계산할 수 있다.
본 발명의 일 실시예에 다르면 시계열 특성 변수가 적용된 질환 연관성 요인에 대한 검진 결과 데이터를 각 그룹별로 COX 회귀 분석 모델에 입력하여 COX 회귀 분석을 수행하면, 각 그룹간 각 시점별 생존율 데이터가 산출될 수 있다.
본 발명의 일 실시예에 따르면 COX 회귀 분석을 수행하여 산출된 각 그룹간 각 시점별 생존율 데이터의 역수 값을 각 그룹 별로 질병 발생 위험도를 계산할 수 있다.
계산된 각 그룹 별 질병 발생 위험도를 차이값을 이용하여 위험도 변화량을 산출하여 발병 예상 정보를 생성한다(S60).
본 발명의 일 실시예에 따르면 계산된 각 그룹 별 질병 발생 위험도를 차이값을 이용하여 위험도 변화량을 산출하여 발병 예상 정보를 생성할 수 있다.
본 발명의 일 실시예에 따르면 계산된 각 그룹 별 질병 발생 위험도를 차이값을 이용하여 위험도 변화량을 산출하여 발병 예상 정보를 생성할 수 있다.
본 발명의 일 실시예에 따르면 계산된 각 그룹 별 질병 발생 위험도를 각 시점별로 대비하여 각 그룹별 특정 시점에서의 위험도 변화량을 산출할 수 있으며, 이를 기반으로 발병 예상 정보를 생성할 수 있다.
본 발명의 일 실시예에 따르면 산출된 각 그룹별 특정 시점에서의 위험도 변화량의 평균값을 해당 시점의 위험도 변화량으로 특정하여 이를 기반으로 이후 시점에서의 발병 예상율을 산정하여 발병 예상 정보를 생성할 수 있다.
본 발명의 일 실시예에 따르면 발병 예상 정보는 시간의 흐름에 따라 적어도 하나의 질환 유발 요인을 가진 사람이 해당 질환이 발병할 확률 또는 위험율을 그래프 형태로 나타내어 각 그래프별로 위험 단계, 중간 단계, 비위험 단계로 구분한 것일 수 있으나 시간의 흐름에 따라 발병에 대한 예상 정보를 나타낼 수 있는 것이라면 제한없이 사용될 수 있다.
본 발명의 실시 예는 이상에서 설명한 장치 및/또는 방법을 통해서만 구현이 되는 것은 아니며, 이상에서 본 발명의 실시 예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (52)

  1. 다수의 인원에 대한 유전체 데이터 또는 복수의 선행 문헌을 입력 받아 타겟 질환에 대하여 GWAS 분석, AI 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행하여 상기 분석 별로 질환 유발 인자 후보 리스트를 생성하고, 상기 생성된 분석 별 질환 유발 인자 후보 리스트에 포함된 유전자 변이 중 서로 겹치는 정도에 따라 상기 복수의 질환 유발 인자 후보 리스트에 포함된 유전자 변이를 복수의 유전자 변이 그룹으로 분류하며, 분류된 상기 복수의 유전자 변이 그룹을 미리 설정된 우선 등급 분류 기준에 따라 복수의 우선 순위 등급으로 나누는 유전체 데이터 전처리부;
    다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 복수의 분석을 수행하여 적어도 하나의 질환 연관성 요인을 선정하고, 집단 추세 모형을 이용하여 상기 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터 또는 복수의 질환 관련 자료에 포함된 개별 검진 결과값들의 변화를 기준으로 상기 다수의 인원을 그룹핑을 하여 복수의 검진 인원 그룹을 생성하는 검진 결과 데이터 전처리부;
    상기 유전체 데이터 전처리부에서 분류된 복수의 유전자 변이 그룹에 각각 포함된 복수의 유전자 변이를 대상으로 그룹별로 PRS 모델을 설계하고, 상기 PRS 모델을 이용하여 각 그룹별 유전자 변이의 위험 대립 유전자의 수에 대하여 연관성(
    Figure 112021148163471-pat00136
    )을 가중치로 계산하여 상기 유전자 변이 그룹별로 유전자 변이별 다유전자 위험점수(
    Figure 112021148163471-pat00137
    ) 및 그룹 다유전자 위험점수(
    Figure 112021148163471-pat00138
    )를 계산하는 다유전자 위험 점수 산출부;
    산출된 상기 유전자 변이별 다유전자 위험점수(
    Figure 112021148163471-pat00139
    )를 시간 의존 연관성 산출 모델에 공변량으로 적용하며, 상기 검진 결과 데이터 전처리부에서 생성된 각 검진 인원 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 상기 시간 의존 연관성 산출 모델에 입력하여 COX 모델에 입력될 독립변수와 종속 변수 간의 시점 별 연관성 크기를 산출하여 시계열 특성 변수로 선정하는 시계열 특성 변수화부;
    상기 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 산출된 상기 시계열 특성 변수를 적용하고, 적용된 다수의 인원의 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 각 검진 인원 그룹별로 COX 회귀 분석을 수행하여 각 검진 인원 그룹별로 질병 발생 위험도를 계산하는 위험도 계산부; 및
    계산된 각 검진 인원 그룹별 질병 발생 위험도를 차이값을 이용하여 위험도 변화량을 산출하여 발병 예상 정보를 생성하는 발병 예상 정보 생성부를 포함하는 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치.
  2. 제 1 항에 있어서 상기 유전체 데이터 전처리부는,
    다수의 인원에 대한 유전체 데이터 또는 복수의 선행 문헌을 입력 받아 질환 유발 인자 후보를 선별하는 복수의 분석을 수행하는 질환 유발 인자 선별부;
    상기 복수의 분석 별 질환 유발 인자 후보로 선별된 복수의 유전자 변이를 포함한 복수의 질환 유발 인자 후보 리스트를 생성하는 질환 유발 인자 후보 리스트 생성부;
    생성된 상기 복수의 질환 유발 인자 후보 리스트에 포함된 유전자 변이 중 서로 겹치는 정도에 따라 상기 복수의 질환 유발 인자 후보 리스트에 포함된 유전자 변이를 복수의 유전자 변이 그룹으로 분류하는 유전자 변이 그룹 분류부;
    분류된 상기 복수의 유전자 변이 그룹을 미리 설정된 우선 등급 분류 기준에 따라 복수의 우선 순위 등급으로 나누고, 각 우선 순위 등급별로 포함된 복수의 유전자 변이 중 중첩되는 유전자 변이를 하나만 남기고 제거하여 복수의 등급별 유전자 변이 리스트를 생성하는 우선 순위 등급 분류부를 더 포함하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치.
  3. 삭제
  4. 제 2 항에 있어서 상기 질환 유발 인자 선별부는,
    다수의 인원 대한 유전체 데이터를 입력받아 타겟 질환을 대상으로 전장 유전체 연관분석을 수행하고, 상기 수행의 결과로 유전자 변이 별로 산출된 P값을 미리 설정된 임계치와 대비하여, 상기 임계치 이하인 복수의 유전자 변이를 질환 유발 인자 후보로 선별하는 GWAS 분석 수행부를 더 포함하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치.
  5. 제 2 항에 있어서 상기 질환 유발 인자 선별부는,
    인공 신경망 기반의 질환 유발 인자 예측 모델에 질환이 라벨링 된 다수의 인원에 대한 유전체 데이터를 입력하여 유전자 변이별 중요도 점수(Importance score)를 출력하고, 상기 출력된 유전자 변이별 중요도 점수 중 미리 설정된 점수를 초과하는 중요도 점수를 가진 복수의 유전자 변이를 질환 유발 인자 후보로 선별하는 AI 분석 수행부를 더 포함하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치.
  6. 제 2 항에 있어서 상기 질환 유발 인자 선별부는,
    타겟 질환을 대상으로 유전자 변이에 대한 영향을 주제로 기고된 복수의 선행 문헌을 메타 분석 모델에 입력하여 상기 복수의 선행 문헌 별로 상기 유전자 변이의 주제에 부합하는 효과 크기를 산출하고, 산출된 효과 크기의 분산의 역수를 각 선행 문헌의 효과 크기에 가중치로 적용하여 각 유전자 변이 별로 타겟 질환 영향력 점수를 측정하여, 각 유전자 변이 별 타겟 질환 영향력 점수를 기준으로 복수의 유전자 변이를 질환 유발 인자 후보로 선별하는 메타 분석 수행부를 더 포함하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치.
  7. 제 4 항에 있어서 상기 GWAS 분석 수행부는,
    상기 질환 유발 인자 후보로 선별된 복수의 유전자 변이를 대상으로, 각 유전자 변이의 위치가 연관불균형 상태를 가지는지 여부를 판단하고, 판단 결과에 따라 각 유전자 자리(Locus)별 대표성을 가지는 하나의 유전자 변이만을 선별하여 최종 질환 유발 인자 후보를 생성하는 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치.
  8. 제 5 항에 있어서 상기 AI 분석 수행부는,
    질환이 라벨링 된 다수의 인원에 대한 유전체 데이터는 유전자 변이 식별 코드, 공변인 정보, 타겟 질환 정보를 포함하는 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치.
  9. 제 5 항에 있어서 상기 AI 분석 수행부는,
    상기 인공 신경망 기반의 질환 유발 인자 예측 모델은 다수의 인원에 대한 유전체 데이터에 포함된 유전자 변이 식별 코드, 공변인 정보, 타겟 질환 정보를 입력받아 타겟 질환에 대한 유전자 변이별 중요도 점수(Importance score)를 출력하도록 학습된 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치.
  10. 제 5 항에 있어서 상기 AI 분석 수행부는,
    유전자 변이별 중요도 점수를 각 유전자 변이들의 순서를 무작위로 섞은 뒤, 중요도를 판단하고자 하는 유전자 변이를 노이즈로 정의하는 모델을 생성하고, 상기 모델이 상기 유전자 변이에 대한 의존도를 정량화하여 산출하는 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치.
  11. 제 6 항에 있어서 상기 메타 분석 수행부는,
    상기 복수의 선행 문헌별로 상기 유전자 변이의 주제에 부합하는 효과 크기는 각 선행 문헌별로 오즈비(odds ratio)와 신뢰구간을 산출하여, 상기 오즈비와 신뢰구간을 토대로 선행 문헌별 유전자 변이가 타겟 질환에 미치는 효과 크기를 추정하는 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치.
  12. 제 11 항에 있어서 상기 메타 분석 수행부는,
    상기 효과 크기에 역분산 추정을 통해 선행 문헌별 가중치로 산출하고, 산출된 각 선행 문헌별 오즈비에 상기 가중치를 적용하여 산출된 선행 문헌별 오즈비를 합산하여 타겟 질환 영향력 점수를 산출하는 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치.
  13. 제 2 항에 있어서 상기 유전자 변이 그룹 분류부는
    상기 GWAS 분석, AI 분석, 메타 분석을 각각 수행하여 생성된 3개의 질환 유발 인자 후보 리스트에 포함된 유전자 변이 중 서로 겹치는 정도에 따라 9개의 그룹으로 유전자 변이를 분류하는 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치.
  14. 제 13 항에 있어서 상기 우선 순위 등급 분류부는,
    상기 9개의 그룹을 1, 2, 3등급의 우선 순위 등급으로 분류하며, 1등급에는 1개 그룹을, 2등급에는 4개 그룹을, 3등급에는 4개 그룹을 포함하도록 하는 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치.
  15. 제 4 항에 있어서 상기 다유전자 위험 점수 산출부는,
    각 그룹별 유전자 변이의 위험 대립 유전자의 수에 대하여 연관성(
    Figure 112021148163471-pat00140
    )은상기 GWAS 분석 결과에서 도출된 각 그룹별 유전자 변이의 위험 대립 유전자의 수에 대한 연관성(
    Figure 112021148163471-pat00141
    )인 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치.
  16. 제 1 항에 있어서,
    상기 PRS 모델이 연속형 타겟 질환 또는 이산형 타겟 질환에 대한 것인지 여부에 따라 상기 PRS 모델의 검증을 수행하여 상기 PRS 모델의 사용 또는 재설계를 결정하는 PRS 모델 검증부를 더 포함하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치.
  17. 제 1 항에 있어서 상기 검진 결과 데이터 전처리부는,
    다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 질환 연관성 요인 후보를 선정하는 복수의 분석을 수행하는 연관성 분석 수행부;
    상기 복수의 분석 별 질환 연관성 요인 후보로 선정된 복수의 질환 관련 인자 중 서로 겹치는 정도에 따라 적어도 하나의 질환 연관성 요인을 선정하는 질환 연관성 요인 선정부;
    상기 선정된 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터 중 데이터의 2차 가공이 필요한 질환 연관성 요인을 대상으로 미리 설정된 전처리 기준에 따라 데이터를 가공하는 전처리 수행부; 및
    집단 추세 모형을 이용하여 시간의 흐름에 따른 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터에 포함된 개별 검진 결과값들의 변화를 기준으로 상기 다수의 인원을 그룹핑을 하여 복수의 검진 인원 그룹을 생성하는 데이터 그룹 분류부를 더 포함하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치.
  18. 제 17 항에 있어서 상기 연관성 분석 수행부는,
    다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 타겟 질환에 대하여 질환 연관성 분석, 빅데이터 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행하는 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치.
  19. 제 18 항에 있어서 상기 연관성 분석 수행부는,
    다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터를 대상으로 타겟 질환의 발병 가능성에 대한 복수의 질환 관련 인자의 연관성 분석을 수행하여, 연관성이 높은 것으로 도출된 질환 관련 인자를 질환 연관성 요인 후보로 선정하는 질환 연관성 분석부를 더 포함하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치.
  20. 제 18 항에 있어서 상기 연관성 분석 수행부는,
    텍스트 기반의 질환 관련 자료가 저장된 데이터 베이스로부터 크롤링을 이용하여 복수의 데이터를 수집하고, 수집된 복수의 데이터를 대상으로 텍스트 마이닝을 수행하여 질환 연관성 요인 후보를 선정하는 빅데이터 분석부를 더 포함하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치.
  21. 제 18 항에 있어서 상기 연관성 분석 수행부는,
    타겟 질환과 질환 관련 인자에 대한 영향을 주제로 한 복수의 질환 관련 자료를 메타 분석 모델에 입력하여, 상기 복수의 질환 관련 자료 별로 질환 관련 인자별의 효과 크기를 산출하여, 상기 효과 크기에 따라 질환 연관성 요인 후보를 선정하는 메타 분석 수행부를 더 포함하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치.
  22. 제 18 항에 있어서 상기 질환 연관성 요인 선정부는,
    질환 연관성 분석, 빅데이터 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행하여 생성된 복수의 질환 연관성 요인 후보를 각각 대비하여 생성된 질환 연관성 요인 후보들 모두에 포함되어 있는 질환 관련 인자만을 질환 연관성 요인으로 선정하는 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치.
  23. 제 17 항에 있어서 상기 전처리 수행부는,
    선정된 적어도 하나의 질환 연관성 요인에 포함된 질환 관련 인자에 대한 개별 검진 결과값을 검진 결과 데이터로부터 수집하고, 수집된 개별 검진 결과값을 시계열로 나열하는 전처리를 수행하여 전체 검진 대상 기간별 시계열 검진 데이터로 생성하는 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치.
  24. 제 17 항에 있어서 상기 전처리 수행부는,
    미리 설정된 전처리 기준에 따라 선정된 적어도 하나의 질환 연관성 요인에 포함된 질환 관련 인자가 개별 검진 결과값으로는 경향성 기준 또는 판단 기준으로 사용될 수 없는 것으로 분류되는 경우, 경향성 기준 또는 판단 기준으로 사용될 수 있도록 상기 미리 설정된 전처리 기준에 따라 검진 결과 데이터에서 산출 혹은 재가공하는 전처리를 수행하여 전체 검진 대상 기간별 시계열 검진 데이터로 생성하는 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치.
  25. 제 24 항에 있어서 상기 전처리 수행부는,
    상기 미리 설정된 전처리 기준은 질환 관련 인자가 개별 검진 결과값을 전처리 없이 집단 추세 모형에 입력하여 결과 값을 낼 수 없는 질환 관련 인자의 종류에 대한 정보 및 상기 질환 관련 인자의 전처리 방법에 대한 정보를 포함하는 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치.
  26. 제 17 항에 있어서 상기 데이터 그룹 분류부는,
    각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 대상으로 궤적 형태를 추정하여 각 그룹별로 궤적 형태의 차이를 대비하여 분류된 그룹의 분류 적합도를 검증하는 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치.
  27. 적어도 하나의 프로세서를 포함한 질환 발병 정보 생성 장치에 의하여 구동되는,
    다수의 인원에 대한 유전체 데이터 또는 복수의 선행 문헌을 입력 받아 타겟 질환에 대하여 GWAS 분석, AI 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행하여 상기 분석 별로 질환 유발 인자 후보 리스트를 생성하고, 상기 생성된 분석 별 질환 유발 인자 후보 리스트에 포함된 유전자 변이 중 서로 겹치는 정도에 따라 상기 복수의 질환 유발 인자 후보 리스트에 포함된 유전자 변이를 복수의 유전자 변이 그룹으로 분류하며, 분류된 상기 복수의 유전자 변이 그룹을 미리 설정된 우선 등급 분류 기준에 따라 복수의 우선 순위 등급으로 나누는 단계;
    다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 복수의 분석을 수행하여 적어도 하나의 질환 연관성 요인을 선정하고, 집단 추세 모형을 이용하여 상기 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터에 포함된 개별 검진 결과값들의 변화를 기준으로 상기 다수의 인원을 그룹핑을 하여 복수의 검진 인원 그룹을 생성하는 단계;
    상기 유전체 데이터를 대상으로 분류된 복수의 유전자 변이 그룹에 각각 포함된 복수의 유전자 변이를 대상으로 그룹별로 PRS 모델을 설계하고, 상기 PRS 모델을 이용하여 각 그룹별 유전자 변이의 위험 대립 유전자의 수에 대하여 연관성(
    Figure 112021148163471-pat00142
    )을 가중치로 계산하여 상기 그룹별로 유전자 변이별 다유전자 위험점수(
    Figure 112021148163471-pat00143
    ) 및 그룹 다유전자 위험점수(
    Figure 112021148163471-pat00144
    )를 계산하는 단계;
    산출된 상기 유전자 변이별 다유전자 위험점수(
    Figure 112021148163471-pat00145
    )를 시간 의존 연관성 산출 모델에 공변량으로 적용하며, 상기 검진 결과 데이터를 대상으로 생성된 각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 상기 시간 의존 연관성 산출 모델에 입력하여 COX 모델에 입력될 독립변수와 종속 변수 간의 시점 별 연관성 크기를 산출하여 시계열 특성 변수로 선정하는 단계;
    상기 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 산출된 상기 시계열 특성 변수를 적용하고, 적용된 다수의 인원의 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 각 그룹별로 COX 회귀 분석을 수행하여 각 그룹 별로 질병 발생 위험도를 계산하는 단계; 및
    계산된 각 그룹 별 질병 발생 위험도를 차이값을 이용하여 위험도 변화량을 산출하여 발병 예상 정보를 생성하는 단계를 포함하는 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 방법.
  28. 제 27 항에 있어서 상기 유전자 변이를 복수의 유전자 변이 그룹으로 분류하는 단계는,
    다수의 인원에 대한 유전체 데이터 또는 복수의 선행 문헌을 입력 받아 질환 유발 인자 후보를 선별하는 복수의 분석을 수행하는 단계;
    상기 복수의 분석 별 질환 유발 인자 후보로 선별된 복수의 유전자 변이를 포함한 복수의 질환 유발 인자 후보 리스트를 생성하는 단계;
    생성된 상기 복수의 질환 유발 인자 후보 리스트에 포함된 유전자 변이 중 서로 겹치는 정도에 따라 상기 복수의 질환 유발 인자 후보 리스트에 포함된 유전자 변이를 복수의 유전자 변이 그룹으로 분류하는 단계;
    분류된 상기 복수의 유전자 변이 그룹을 복수의 우선 순위 등급으로 나누고, 각 우선 순위 등급별로 포함된 복수의 유전자 변이 중 중첩되는 유전자 변이를 하나만 남기고 제거하여 복수의 등급별 유전자 변이 리스트를 생성하는 단계를 더 포함하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 방법.
  29. 삭제
  30. 제 28 항에 있어서 상기 복수의 분석을 수행하는 단계는,
    상기 GWAS 분석을 통하여 다수의 인원 대한 유전체 데이터를 입력받아 타겟 질환을 대상으로 전장 유전체 연관분석을 수행하고, 상기 수행의 결과로 유전자 변이 별로 산출된 P값을 미리 설정된 임계치와 대비하여, 상기 임계치 이하인 복수의 유전자 변이를 질환 유발 인자 후보로 선별하는 단계를 더 포함하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 방법.
  31. 제 28 항에 있어서 상기 복수의 분석을 수행하는 단계는,
    인공 신경망 기반의 질환 유발 인자 예측 모델에 질환이 라벨링 된 다수의 인원에 대한 유전체 데이터를 입력하여 유전자 변이별 중요도 점수(Importance score)를 출력하고, 상기 출력된 유전자 변이별 중요도 점수 중 미리 설정된 점수를 초과하는 중요도 점수를 가진 복수의 유전자 변이를 질환 유발 인자 후보로 선별하는 단계를 더 포함하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 방법.
  32. 제 28 항에 있어서 상기 복수의 분석을 수행하는 단계는,
    타겟 질환을 대상으로 유전자 변이에 대한 영향을 주제로 기고된 복수의 선행 문헌을 메타 분석 모델에 입력하여 상기 복수의 선행 문헌 별로 상기 유전자 변이의 주제에 부합하는 효과 크기를 산출하고, 산출된 효과 크기의 분산의 역수를 각 선행 문헌의 효과 크기에 가중치로 적용하여 각 유전자 변이 별로 타겟 질환 영향력 점수를 측정하여, 각 유전자 변이 별 타겟 질환 영향력 점수를 기준으로 복수의 유전자 변이를 질환 유발 인자 후보로 선별하는 단계를 더 포함하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 방법.
  33. 제 30 항에 있어서 상기 임계치 이하인 복수의 유전자 변이를 질환 유발 인자 후보로 선별하는 단계는,
    상기 질환 유발 인자 후보로 선별된 복수의 유전자 변이를 대상으로, 각 유전자 변이의 위치가 연관불균형 상태를 가지는지 여부를 판단하고, 판단 결과에 따라 각 유전자 자리(Locus)별 대표성을 가지는 하나의 유전자 변이만을 선별하여 최종 질환 유발 인자 후보를 생성하는 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 방법.
  34. 제 31 항에 있어서 상기 미리 설정된 점수를 초과하는 중요도 점수를 가진 복수의 유전자 변이를 질환 유발 인자 후보로 선별하는 단계는,
    질환이 라벨링 된 다수의 인원에 대한 유전체 데이터는 유전자 변이 식별 코드, 공변인 정보, 타겟 질환 정보를 포함하는 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 방법.
  35. 제 31 항에 있어서 상기 미리 설정된 점수를 초과하는 중요도 점수를 가진 복수의 유전자 변이를 질환 유발 인자 후보로 선별하는 단계는,
    상기 인공 신경망 기반의 질환 유발 인자 예측 모델은 다수의 인원에 대한 유전체 데이터에 포함된 유전자 변이 식별 코드, 공변인 정보, 타겟 질환 정보를 입력받아 타겟 질환에 대한 유전자 변이별 중요도 점수(Importance score)를 출력하도록 학습된 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 방법.
  36. 제 31 항에 있어서 상기 미리 설정된 점수를 초과하는 중요도 점수를 가진 복수의 유전자 변이를 질환 유발 인자 후보로 선별하는 단계는,
    유전자 변이별 중요도 점수를 각 유전자 변이들의 순서를 무작위로 섞은 뒤, 중요도를 판단하고자 하는 유전자 변이를 노이즈로 정의하는 모델을 생성하고, 상기 모델이 상기 유전자 변이에 대한 의존도를 정량화하여 산출하는 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 방법.
  37. 제 32 항에 있어서 상기 각 유전자 변이 별 타겟 질환 영향력 점수를 기준으로 복수의 유전자 변이를 질환 유발 인자 후보로 선별하는 단계는,
    상기 복수의 선행 문헌별로 상기 유전자 변이의 주제에 부합하는 효과 크기는 각 선행 문헌별로 오즈비(odds ratio)와 신뢰구간을 산출하여, 상기 오즈비와 신뢰구간을 토대로 선행 문헌별 유전자 변이가 타겟 질환에 미치는 효과 크기를 추정하는 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 방법.
  38. 제 37 항에 있어서 상기 각 유전자 변이 별 타겟 질환 영향력 점수를 기준으로 복수의 유전자 변이를 질환 유발 인자 후보로 선별하는 단계는,
    상기 효과 크기에 역분산 추정을 통해 선행 문헌별 가중치로 산출하고, 산출된 각 선행 문헌별 오즈비에 상기 가중치를 적용하여 산출된 선행 문헌별 오즈비를 합산하여 타겟 질환 영향력 점수를 산출하는 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 방법.
  39. 제 28 항에 있어서 상기 복수의 질환 유발 인자 후보 리스트에 포함된 유전자 변이를 복수의 유전자 변이 그룹으로 분류하는 단계는,
    상기 GWAS 분석, AI 분석, 메타 분석을 각각 수행하여 생성된 3개의 질환 유발 인자 후보 리스트에 포함된 유전자 변이 중 서로 겹치는 정도에 따라 9개의 유전자 변이 그룹으로 유전자 변이를 분류하는 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 방법.
  40. 제 39 항에 있어서 상기 복수의 질환 유발 인자 후보 리스트에 포함된 유전자 변이를 복수의 유전자 변이 그룹으로 분류하는 단계는,
    상기 9개의 유전자 변이 그룹을 1, 2, 3등급의 우선 순위 등급으로 분류하며, 1등급에는 1개 그룹을, 2등급에는 4개 그룹을, 3등급에는 4개 그룹을 포함하도록 하는 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 방법.
  41. 제 30 항에 있어서 상기 다유전자 위험점수를 계산하는 단계는,
    각 그룹별 유전자 변이의 위험 대립 유전자의 수에 대하여 연관성(
    Figure 112021148163471-pat00117
    )은 상기 GWAS 분석의 결과에서 도출된 각 그룹별 유전자 변이의 위험 대립 유전자의 수에 대한 연관성(
    Figure 112021148163471-pat00118
    )인 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 방법.
  42. 제 41 항에 있어서,
    상기 PRS 모델이 연속형 타겟 질환 또는 이산형 타겟 질환에 대한 것인지 여부에 따라 상기 PRS 모델의 검증을 수행하여 상기 PRS 모델의 사용 또는 재설계를 결정하는 단계를 더 포함하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 방법.
  43. 제 27 항에 있어서 상기 검진 결과 데이터 전처리부는,
    다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 질환 연관성 요인 후보를 선정하는 복수의 분석을 수행하는 단계;
    상기 복수의 분석 별 질환 연관성 요인 후보로 선정된 복수의 질환 관련 인자 중 서로 겹치는 정도에 따라 적어도 하나의 질환 연관성 요인을 선정하는 단계;
    상기 선정된 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터 중 데이터의 2차 가공이 필요한 질환 연관성 요인을 대상으로 미리 설정된 전처리 기준에 따라 데이터를 가공하는 단계; 및
    집단 추세 모형을 이용하여 시간의 흐름에 따른 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터에 포함된 개별 검진 결과값들의 변화를 기준으로 상기 다수의 인원을 그룹핑을 하여 복수의 검진 인원 그룹을 생성하는 단계를 더 포함하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 방법.
  44. 제 43 항에 있어서 상기 질환 연관성 요인 후보를 선정하는 복수의 분석을 수행하는 단계는,
    다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 타겟 질환에 대하여 질환 연관성 분석, 빅데이터 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행하는 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 방법.
  45. 제 44 항에 있어서 상기 질환 연관성 요인 후보를 선정하는 복수의 분석을 수행하는 단계는,
    다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터를 대상으로 타겟 질환의 발병 가능성에 대한 복수의 질환 관련 인자의 연관성 분석을 수행하여, 연관성이 높은 것으로 도출된 질환 관련 인자를 질환 연관성 요인 후보로 선정하는 단계를 더 포함하는 시간 변동 공변량 기반의 PRS 모델을 이용한 질환별 위험 유전자 변이 정보 생성 방법.
  46. 제 44 항에 있어서 상기 질환 연관성 요인 후보를 선정하는 복수의 분석을 수행하는 단계는,
    텍스트 기반의 질환 관련 자료가 저장된 데이터 베이스로부터 크롤링을 이용하여 복수의 데이터를 수집하고, 수집된 복수의 데이터를 대상으로 텍스트 마이닝을 수행하여 질환 연관성 요인 후보를 선정하는 단계를 더 포함하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 방법.
  47. 제 44 항에 있어서 상기 질환 연관성 요인 후보를 선정하는 복수의 분석을 수행하는 단계는,
    타겟 질환과 질환 관련 인자에 대한 영향을 주제로 한 복수의 질환 관련 자료를 메타 분석 모델에 입력하여, 상기 복수의 질환 관련 자료 별로 질환 관련 인자별의 효과 크기를 산출하여, 상기 효과 크기에 따라 질환 연관성 요인 후보를 선정하는 단계를 더 포함하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 방법.
  48. 제 44 항에 있어서 상기 질환 연관성 요인 후보를 선정하는 복수의 분석을 수행하는 단계는,
    질환 연관성 분석, 빅데이터 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행하여 생성된 복수의 질환 연관성 요인 후보를 각각 대비하여 생성된 질환 연관성 요인 후보들 모두에 포함되어 있는 질환 관련 인자만을 질환 연관성 요인으로 선정하는 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 방법.
  49. 제 43 항에 있어서 상기 미리 설정된 전처리 기준에 따라 데이터를 가공하는 단계는,
    선정된 적어도 하나의 질환 연관성 요인에 포함된 질환 관련 인자에 대한 개별 검진 결과값을 검진 결과 데이터로부터 수집하고, 수집된 개별 검진 결과값을 시계열로 나열하는 전처리를 수행하여 전체 검진 대상 기간별 시계열 검진 데이터로 생성하는 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 방법.
  50. 제 43 항에 있어서 상기 미리 설정된 전처리 기준에 따라 데이터를 가공하는 단계는,
    미리 설정된 전처리 기준에 따라 선정된 적어도 하나의 질환 연관성 요인에 포함된 질환 관련 인자가 개별 검진 결과값으로는 경향성 기준 또는 판단 기준으로 사용될 수 없는 것으로 분류되는 경우, 경향성 기준 또는 판단 기준으로 사용될 수 있도록 상기 미리 설정된 전처리 기준에 따라 검진 결과 데이터에서 산출 혹은 재가공하는 전처리를 수행하여 전체 검진 대상 기간별 시계열 검진 데이터로 생성하는 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 방법.
  51. 제 50 항에 있어서 상기 미리 설정된 전처리 기준에 따라 데이터를 가공하는 단계는,
    상기 미리 설정된 전처리 기준은 질환 관련 인자가 개별 검진 결과값을 전처리 없이 집단 추세 모형에 입력하여 결과 값을 낼 수 없는 질환 관련 인자의 종류에 대한 정보 및 상기 질환 관련 인자의 전처리 방법에 대한 정보를 포함하는 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 방법.
  52. 제 43 항에 있어서 상기 미리 설정된 전처리 기준에 따라 데이터를 가공하는 단계는,
    각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 대상으로 궤적 형태를 추정하여 각 그룹별로 궤적 형태의 차이를 대비하여 분류된 그룹의 분류 적합도를 검증하는 것을 특징으로 하는 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 방법.
KR1020210148683A 2021-11-02 2021-11-02 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치 및 그 방법 KR102382707B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210148683A KR102382707B1 (ko) 2021-11-02 2021-11-02 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치 및 그 방법
PCT/KR2022/009116 WO2023080379A1 (ko) 2021-11-02 2022-06-27 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210148683A KR102382707B1 (ko) 2021-11-02 2021-11-02 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR102382707B1 true KR102382707B1 (ko) 2022-04-08
KR102382707B9 KR102382707B9 (ko) 2022-06-16

Family

ID=81183176

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210148683A KR102382707B1 (ko) 2021-11-02 2021-11-02 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치 및 그 방법

Country Status (2)

Country Link
KR (1) KR102382707B1 (ko)
WO (1) WO2023080379A1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102473861B1 (ko) * 2022-05-31 2022-12-06 주식회사 바스젠바이오 약물 효과 예측 snp 기반의 유전자 점수를 이용한 약물 임상 시뮬레이션 시스템 및 그 방법
WO2023080379A1 (ko) * 2021-11-02 2023-05-11 주식회사 바스젠바이오 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치 및 그 방법
WO2024019471A1 (ko) * 2022-07-18 2024-01-25 아주대학교산학협력단 지수함수를 이용한 생존곡선 생성 시스템 및 그 방법
WO2024096618A1 (ko) * 2022-11-02 2024-05-10 주식회사 디시젠 암 발생 위험도 예측 방법

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117633504B (zh) * 2023-10-30 2024-06-21 国网江苏省电力有限公司淮安供电分公司 一种油浸变压器状态的光纤传感评估方法和装置
CN118197650B (zh) * 2024-05-17 2024-07-30 长春中医药大学 一种用于评估妇科微创手术安全的智能监测系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101991007B1 (ko) * 2016-05-27 2019-06-20 (주)메디젠휴먼케어 Snp를 이용한 질병 관련 유전체 분석 시스템 및 장치
KR102211536B1 (ko) * 2018-06-07 2021-02-03 한국과학기술원 딥러닝 기반의 질환 위험 유전 변이 발굴 장치
KR102041504B1 (ko) * 2018-12-20 2019-11-27 (주)신테카바이오 환자 계층화를 위한 맞춤의학 분석 플랫폼
KR102063781B1 (ko) * 2019-08-08 2020-01-08 주식회사 클리노믹스 유전적 구성비를 이용한 질병 또는 표현형의 위험도 예측 장치 및 방법
KR102087613B1 (ko) * 2019-08-08 2020-03-11 주식회사 클리노믹스 연관 표현형의 유전적 위험도를 결합한 질병의 위험도 예측 장치 및 방법
KR102223362B1 (ko) * 2020-08-10 2021-03-05 주식회사 쓰리빌리언 증상 연관 유전변이를 이용한 질병 유발 유전변이 발굴 시스템 및 방법
KR102382707B1 (ko) * 2021-11-02 2022-04-08 주식회사 바스젠바이오 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치 및 그 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023080379A1 (ko) * 2021-11-02 2023-05-11 주식회사 바스젠바이오 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치 및 그 방법
KR102473861B1 (ko) * 2022-05-31 2022-12-06 주식회사 바스젠바이오 약물 효과 예측 snp 기반의 유전자 점수를 이용한 약물 임상 시뮬레이션 시스템 및 그 방법
WO2024019471A1 (ko) * 2022-07-18 2024-01-25 아주대학교산학협력단 지수함수를 이용한 생존곡선 생성 시스템 및 그 방법
WO2024096618A1 (ko) * 2022-11-02 2024-05-10 주식회사 디시젠 암 발생 위험도 예측 방법

Also Published As

Publication number Publication date
WO2023080379A1 (ko) 2023-05-11
KR102382707B9 (ko) 2022-06-16

Similar Documents

Publication Publication Date Title
KR102382707B1 (ko) 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치 및 그 방법
Azadifar et al. Graph-based relevancy-redundancy gene selection method for cancer diagnosis
KR102351306B1 (ko) 질환 연관 유전자 변이 분석을 통한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법
EP2864919B1 (en) Systems and methods for generating biomarker signatures with integrated dual ensemble and generalized simulated annealing techniques
US20020095260A1 (en) Methods for efficiently mining broad data sets for biological markers
CN107301331B (zh) 一种基于基因芯片数据的疾病影响因素的挖掘方法
KR101693504B1 (ko) 개인 전장 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템
KR101693510B1 (ko) 개인 전장 유전체의 유전변이정보를 이용한 유전형 분석 시스템 및 방법
US9940383B2 (en) Method, an arrangement and a computer program product for analysing a biological or medical sample
KR102304357B1 (ko) 주기적으로 업데이트 되는 유전자 변이 검사 결과 리포트 자동 발행 시스템
EP3036712A1 (en) Methods for predicting prognosis
Ahmad et al. Diagnosis of cardiovascular disease using deep learning technique
JPWO2019181022A1 (ja) 遺伝子変異の評価装置、評価方法、プログラム、および記録媒体
KR102389479B1 (ko) 시간 변동 공변량 기반의 prs 모델을 이용한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법
KR101693717B1 (ko) 개인 전장 유전체의 유전변이정보를 이용한 생리활성변이 분석 시스템
KR102405900B1 (ko) 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치 및 그 방법
Sundar et al. An intelligent prediction model for target protein identification in hepatic carcinoma using novel graph theory and ann model
US20180181705A1 (en) Method, an arrangement and a computer program product for analysing a biological or medical sample
CN113838519B (zh) 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统
CN115171906A (zh) 一种基于机器学习的前列腺癌筛查和诊断方法
CN117425937A (zh) 用于确定双基因或寡基因变异的组合的致病性的预测方法
CN114300036A (zh) 遗传变异致病性预测方法、装置、存储介质及计算机设备
JP2008090833A (ja) 判別因子セットを特定する方法、システム及びコンピュータソフトウェアプログラム
Tsai et al. Significance analysis of ROC indices for comparing diagnostic markers: applications to gene microarray data
US20240266062A1 (en) Disease risk evaluation method, disease risk evaluation system, and health information processing device

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Re-publication after modification of scope of protection [patent]