KR102405900B1 - 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치 및 그 방법 - Google Patents

시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치 및 그 방법 Download PDF

Info

Publication number
KR102405900B1
KR102405900B1 KR1020210134876A KR20210134876A KR102405900B1 KR 102405900 B1 KR102405900 B1 KR 102405900B1 KR 1020210134876 A KR1020210134876 A KR 1020210134876A KR 20210134876 A KR20210134876 A KR 20210134876A KR 102405900 B1 KR102405900 B1 KR 102405900B1
Authority
KR
South Korea
Prior art keywords
disease
time
data
analysis
factor
Prior art date
Application number
KR1020210134876A
Other languages
English (en)
Inventor
이솔
김정오
김호
김정은
윤상혁
박승환
권도형
차지희
김나영
Original Assignee
주식회사 바스젠바이오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 바스젠바이오 filed Critical 주식회사 바스젠바이오
Priority to KR1020210134876A priority Critical patent/KR102405900B1/ko
Application granted granted Critical
Publication of KR102405900B1 publication Critical patent/KR102405900B1/ko
Priority to PCT/KR2022/009112 priority patent/WO2023063528A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

본 발명은 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 기술에 대한 것으로, 위하여 각 개인들의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 및 복수의 질환 관련 자료를 분석하여 적어도 하나의 질환 연관성 요인을 선정하고, 이에 따라 사용자의 발병 예상 정보를 생성하는 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치 및 그 방법을 제공하는데 그 목적이 있다.

Description

시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치 및 그 방법{disease onset information generating apparatus through disease-related factor analysis based on time variability and method therefor}
본 발명은 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 기술에 대한 것으로, 더 자세하게는 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 분석하여 적어도 하나의 질환 연관성 요인을 선정하고, 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터에 포함된 개별 검진 결과값을 집단 추세 모형에 입력하여 다수의 인원이 포함된 하여 복수의 그룹을 생성하고, 각 그룹별로 시계열 특성 변수화를 수행하여 시간의 흐름에 따른 검진 결과에 미치는 영향력을 적어도 하나의 시계열 특성 변수로 산출하며, 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 산출된 적어도 하나의 시계열 특성 변수를 적용하여 각 그룹 별로 질병 발생 위험도를 계산함으로써 위험도 변화량을 산출하여 발병 예상 정보를 생성하는 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치 및 그 방법을 제공하는데 그 목적이 있다.
질환을 유발하는 요인은 한가지일 수도 있으나 확률적으로 다양한 요인들이 복합적으로 영향을 미치는 경우가 일반적이다.
종래에 질환 유발에 복합적으로 영향을 미치는 복수의 요인들에 대하여 정확하게 도출하기 위하여 많은 노력들이 있었으나 각 개인들의 1회 건강 상태 데이터들을 분석해서는 분석 패턴을 일반화하기가 매우 어려우며, 인공 신경망을 이용한 빅데이터 분석을 통해서 복수의 사람들의 건상 상태 데이터를 분석하는 방법은 입력값과 결과값 사이의 인과관계가 불명확하여 해당 요인들이 질환에 대해 영향을 미치는 것에 대한 정확도를 신뢰할 수 없다는 문제점들이 존재하였다.
선행기술문헌 [한국등록특허 제10-0673252호(2007.01.16)]
본 발명은 각 개인들의 1회 건강 상태 데이터들을 분석해서는 분석 패턴을 일반화하기가 매우 어려우며, 인공 신경망을 이용한 빅데이터 분석을 통해서 복수의 사람들의 건상 상태 데이터를 분석하는 방법은 입력값과 결과값 사이의 인과관계가 불명확하여 해당 요인들이 질환에 대해 영향을 미치는 것에 대한 정확도를 신뢰할 수 없다는 문제점을 해결하기 위하여 각 개인들의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 및 복수의 질환 관련 자료를 분석함으로써 적어도 하나의 질환 연관성 요인을 선정하고, 이에 따라 사용자의 발병 예상 정보를 생성하는 기술을 제공하고자 한다.
본 발명의 실시예에 따르면 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치 는 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 질환 연관성 요인 후보를 선정하는 복수의 분석을 수행하는 연관성 분석 수행부; 상기 복수의 분석 별 질환 연관성 요인 후보로 선정된 복수의 질환 관련 인자 중 서로 겹치는 정도에 따라 적어도 하나의 질환 연관성 요인을 선정하는 질환 연관성 요인 선정부;
상기 선정된 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터 중 데이터의 2차 가공이 필요한 질환 연관성 요인을 대상으로 미리 설정된 전처리 기준에 따라 데이터를 가공하는 데이터 전처리부; 집단 추세 모형을 이용하여 시간의 흐름에 따른 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터에 포함된 개별 검진 결과값들의 변화를 기준으로 상기 다수의 인원을 그룹핑을 하여 복수의 그룹을 생성하는 데이터 그룹 분류부; 생성된 상기 복수의 그룹에 포함된 다수의 인원의 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 각 그룹별로 시계열 특성 변수화를 수행하여 시간의 흐름에 따른 검진 결과에 미치는 영향력을 적어도 하나의 시계열 특성 변수로 산출하는 시계열 특성 변수화부; 상기 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 산출된 상기 적어도 하나의 시계열 특성 변수를 적용하고, 적용된 다수의 인원의 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 각 그룹별로 COX 회귀 분석을 수행하여 각 그룹 별로 질병 발생 위험도를 계산하는 위험도 계산부; 및
계산된 각 그룹 별 질병 발생 위험도를 차이값을 이용하여 위험도 변화량을 산출하여 발병 예상 정보를 생성하는 발병 예상 정보 생성부를 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 연관성 분석 수행부는, 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 타겟 질환에 대하여 질환 연관성 분석, 빅데이터 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행할 수 있다.
본 발명의 일 실시예에 따르면 상기 연관성 분석 수행부는, 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터를 대상으로 타겟 질환의 발병 가능성에 대한 복수의 질환 관련 인자의 연관성 분석을 수행하여, 연관성이 높은 것으로 도출된 질환 관련 인자를 질환 연관성 요인 후보로 선정하는 질환 연관성 분석부를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 연관성 분석 수행부는, 텍스트 기반의 질환 관련 자료가 저장된 데이터 베이스로부터 크롤링을 이용하여 복수의 데이터를 수집하고, 수집된 복수의 데이터를 대상으로 텍스트 마이닝을 수행하여 질환 연관성 요인 후보를 선정하는 빅데이터 분석부를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 연관성 분석 수행부는, 타겟 질환과 질환 관련 인자에 대한 영향을 주제로 한 복수의 질환 관련 자료를 메타 분석 모델에 입력하여, 상기 복수의 질환 관련 자료 별로 질환 관련 인자별의 효과 크기를 산출하여, 상기 효과 크기에 따라 질환 연관성 요인 후보를 선정하는 메타 분석 수행부를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 질환 연관성 요인 선정부는, 질환 연관성 분석, 빅데이터 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행하여 생성된 복수의 질환 연관성 요인 후보를 각각 대비하여 생성된 질환 연관성 요인 후보들 모두에 포함되어 있는 질환 관련 인자만을 질환 연관성 요인으로 선정할 수 있다.
본 발명의 일 실시예에 따르면 상기 데이터 전처리부는, 선정된 적어도 하나의 질환 연관성 요인에 포함된 질환 관련 인자에 대한 개별 검진 결과값을 검진 결과 데이터로부터 수집하고, 수집된 개별 검진 결과값을 시계열로 나열하는 전처리를 수행하여 전체 검진 대상 기간별 시계열 검진 데이터로 생성할 수 있다.
본 발명의 일 실시예에 따르면 상기 데이터 전처리부는, 미리 설정된 전처리 기준에 따라 선정된 적어도 하나의 질환 연관성 요인에 포함된 질환 관련 인자가 개별 검진 결과값으로는 경향성 기준 또는 판단 기준으로 사용될 수 없는 것으로 분류되는 경우, 경향성 기준 또는 판단 기준으로 사용될 수 있도록 상기 미리 설정된 전처리 기준에 따라 검진 결과 데이터에서 산출 혹은 재가공하는 전처리를 수행하여 전체 검진 대상 기간별 시계열 검진 데이터로 생성할 수 있다.
본 발명의 일 실시예에 따르면 상기 데이터 전처리부는, 상기 미리 설정된 전처리 기준은 질환 관련 인자가 개별 검진 결과값을 전처리 없이 집단 추세 모형에 입력하여 결과 값을 낼 수 없는 질환 관련 인자의 종류에 대한 정보 및 상기 질환 관련 인자의 전처리 방법에 대한 정보를 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 데이터 그룹 분류부는, 각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 대상으로 궤적 형태를 추정하여 각 그룹별로 궤적 형태의 차이를 대비하여 분류된 그룹의 분류 적합도를 검증할 수 있다.
본 발명의 일 실시예에 따르면 상기 시계열 특성 변수화부는, 각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 시간 변동 공변량 산출 모델에 입력하여 시간의 흐름에 따라 개별 검진 결과값에 대한 영향력을 각 시점별 공변량으로 산출하며, 산출된 상기 각 시점별 공변량을 시계열 특성 변수로 사용하는 시점별 공변량 산출부를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 시계열 특성 변수화부는, 각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 시간 의존 연관성 산출 모델에 입력하여 COX 모델에 입력될 독립변수와 종속 변수 간의 시점 별 연관성 크기를 산출하며, 산출된 상기 각 시점별 연관성 크기를 시계열 특성 변수로 사용하는 시간 의존 연관성 산출부를 더 포함할 수 있다.
본 발명의 실시예에 따르면 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 방법은 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 질환 연관성 요인 후보를 선정하는 복수의 분석을 수행하는 단계; 상기 복수의 분석 별 질환 연관성 요인 후보로 선정된 복수의 질환 관련 인자 중 서로 겹치는 정도에 따라 적어도 하나의 질환 연관성 요인을 선정하는 단계; 상기 선정된 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터 중 데이터의 2차 가공이 필요한 질환 연관성 요인을 대상으로 미리 설정된 전처리 기준에 따라 데이터를 가공하는 단계; 집단 추세 모형을 이용하여 시간의 흐름에 따른 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터에 포함된 개별 검진 결과값들의 변화를 기준으로 상기 다수의 인원을 그룹핑 하여 복수의 그룹을 생성하는 단계; 생성된 상기 복수의 그룹에 포함된 다수의 인원의 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 각 그룹별로 시계열 특성 변수화를 수행하여 시간의 흐름에 따른 검진 결과에 미치는 영향력을 적어도 하나의 시계열 특성 변수로 산출하는 단계; 상기 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 산출된 상기 적어도 하나의 시계열 특성 변수를 적용하고, 적용된 다수의 인원의 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 각 그룹별로 COX 회귀 분석을 수행하여 각 그룹 별로 질병 발생 위험도를 계산하는 단계; 및 계산된 각 그룹 별 질병 발생 위험도를 차이값을 이용하여 위험도 변화량을 산출하여 발병 예상 정보를 생성하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 복수의 분석을 수행하는 단계는, 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력받아 타겟 질환에 대하여 질환 연관성 분석, 빅데이터 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행할 수 있다.
본 발명의 일 실시예에 따르면 상기 복수의 분석을 수행하는 단계는, 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터를 대상으로 타겟 질환의 발병 가능성에 대한 복수의 질환 관련 인자의 연관성 분석을 수행하여, 연관성이 높은 것으로 도출된 질환 관련 인자를 질환 연관성 요인 후보로 선정하는 단계를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 복수의 분석을 수행하는 단계는, 텍스트 기반의 질환 관련 자료가 저장된 데이터 베이스로부터 크롤링을 이용하여 복수의 데이터를 수집하고, 수집된 복수의 데이터를 대상으로 텍스트 마이닝을 수행하여 질환 연관성 요인 후보를 선정하는 단계를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 복수의 분석을 수행하는 단계는, 타겟 질환과 질환 관련 인자에 대한 영향을 주제로 한 복수의 질환 관련 자료를 메타 분석 모델에 입력하여, 상기 복수의 질환 관련 자료 별로 질환 관련 인자별의 효과 크기를 산출하여, 상기 효과 크기에 따라 질환 연관성 요인 후보를 선정하는 단계를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 질환 연관성 요인을 선정하는 단계는, 질환 연관성 분석, 빅데이터 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행하여 생성된 복수의 질환 연관성 요인 후보를 각각 대비하여 생성된 질환 연관성 요인 후보들 모두에 포함되어 있는 질환 관련 인자만을 질환 연관성 요인으로 선정할 수 있다.
본 발명의 일 실시예에 따르면 상기 데이터를 가공하는 단계는, 정된 적어도 하나의 질환 연관성 요인에 포함된 질환 관련 인자에 대한 개별 검진 결과값을 검진 결과 데이터로부터 수집하고, 수집된 개별 검진 결과값을 시계열로 나열하는 전처리를 수행하여 전체 검진 대상 기간별 시계열 검진 데이터로 생성할 수 있다.
본 발명의 일 실시예에 따르면 상기 데이터를 가공하는 단계는, 미리 설정된 전처리 기준에 따라 선정된 적어도 하나의 질환 연관성 요인에 포함된 질환 관련 인자가 개별 검진 결과값으로는 경향성 기준 또는 판단 기준으로 사용될 수 없는 것으로 분류되는 경우, 경향성 기준 또는 판단 기준으로 사용될 수 있도록 상기 미리 설정된 전처리 기준에 따라 검진 결과 데이터에서 산출 혹은 재가공하는 전처리를 수행하여 전체 검진 대상 기간별 시계열 검진 데이터로 생성할 수 있다.
본 발명의 일 실시예에 따르면 상기 데이터를 가 공하는 단계는, 상기 미리 설정된 전처리 기준은 질환 관련 인자가 개별 검진 결과값을 전처리 없이 집단 추세 모형에 입력하여 결과 값을 낼 수 없는 질환 관련 인자의 종류에 대한 정보 및 상기 질환 관련 인자의 전처리 방법에 대한 정보를 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 복수의 그룹을 생성하는 단계는, 각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 대상으로 궤적 형태를 추정하여 각 그룹별로 궤적 형태의 차이를 대비하여 분류된 그룹의 분류 적합도를 검증할 수 있다.
본 발명의 일 실시예에 따르면 상기 시계열 특성 변수로 산출하는 단계는, 각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 시간 변동 공변량 산출 모델에 입력하여 시간의 흐름에 따라 개별 검진 결과값에 대한 영향력을 각 시점별 공변량으로 산출하며, 산출된 상기 각 시점별 공변량을 시계열 특성 변수로 사용하는 단계를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 시계열 특성 변수로 산출하는 단계는,
각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 시간 의존 연관성 산출 모델에 입력하여 COX 모델에 입력될 독립변수와 종속 변수 간의 시점 별 연관성 크기를 산출하며, 산출된 상기 각 시점별 연관성 크기를 시계열 특성 변수로 사용하는 단계를 더 포함할 수 있다.
본 발명의 실시예에 따라 구현된 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 기술을 이용하여 개인별 누적 검진 결과 데이터를 입력하여 종래의 특정 시점을 기준으로만 질병 발생을 예측하는 1차원적인 분석에서 벗어나 시계열적으로 검진 결과 데이터를 분석함으로써 질환 연관성 요인을 종합적이고도 시간의 흐름에 따라 변동되는 발병 위험도 정보까지도 제공할 수 있는 효과를 제공할 수 있다.
도 1은 본 발명의 실시예에 따라 구현된 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치의 구성도이다.
도 2는 도 1에서 도시된 연관성 분석 수행부의 세부 구성도이다.
도 3은 도 1에서 도시된 시계열 특성 변수화부의 세부 구성도이다.
도 4는 본 발명의 일 실시예에 따라 구현된 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치의 데이터 흐름도이다.
도 5는 본 발명의 일 실시예에 따라 위험도 변화량을 포함하는 발병 예상 정보를 이용하여 산출된 기대여명 그래프를 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 방법의 흐름도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.
본 발명에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 발명에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.
일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한 도면들의 각 블록과 흐름도 도면들의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수 있음을 이해할 수 있을 것이며, 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 흐름도 블록(들)에서 설명된 기능들을 수행하는 수단을 생성하게 된다.
이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 흐름도 블록(들)에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다.
컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 흐름도 블록(들)에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다.
그리고 몇 가지 대체 실시예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
이 때, 본 실시예에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field-Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다.
그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.
따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.
본 발명의 실시예들을 구체적으로 설명함에 있어서, 특정 시스템의 예를 주된 대상으로 할 것이지만, 본 명세서에서 청구하고자 하는 주요한 요지는 유사한 기술적 배경을 가지는 여타의 통신 시스템 및 서비스에도 본 명세서에 개시된 범위를 크게 벗어나지 아니하는 범위에서 적용 가능하며, 이는 당해 기술분야에서 숙련된 기술적 지식을 가진 자의 판단으로 가능할 것이다.
이하, 도면을 참조하여 본 발명의 실시 예에 따른 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치 및 그 방법에 대하여 설명한다.
도 1은 본 발명의 실시예에 따라 구현된 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치의 구성도이다.
본 발명의 일 실시예에 따르면 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치(1000)은 연관성 분석 수행부(100), 질환 연관성 요인 선정부(200), 데이터 전처리부(300), 데이터 그룹 분류부(400), 시계열 특성 변수화부(500), 위험도 계산부(600), 발병 예상 정보 생성부(700)를 포함할 수 있다.
연관성 분석 수행부(100)는 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 질환 연관성 요인 후보를 선정하는 복수의 분석을 수행할 수 있다.
여기서 검진 결과 데이터는 특정 인원이 적어도 한번 이상 수행한 건강 검진의 각 항목별 결과를 데이터 세트 형태로 저장하여 다수의 인원에 대한 인원별 복수의 건강 검진 결과를 포함하는 데이터를 의미할 수 있다.
본 발명의 일 실시예에 따르면 검진 결과 데이터에 포함되는 건강 검진 항목은 공복 혈당 수치, 수축기 혈압 및/또는 이완기 혈압, 총 콜레스테롤 수치 및/또는 고밀도 콜레스테롤 수치(HDL), 저밀도 콜레스테롤 수치(LDL), 체중, 체질량지수(BMI) 등이 포함될 수 있다.
여기서 질환 연관성 요인 후보는 타겟 질환의 발병을 유발하는 요인들을 질환 연관성 요인으로 정의하여, 질환 연관성 요인으로 선정될 수 있을 만한 복수의 요인들을 질환 연관성 요인의 후보군으로 선정한 것을 의미할 수 있다.
본 발명의 일 실시예에 따르면 타겟 질환의 발병을 유발하는 요인으로는 검진 결과 데이터에 포함되는 건강 검진 항목일 수 있으며, 검진 결과 데이터에 포함되는 건강 검진 항목을 한번 또는 복수의 단계를 거쳐 가공하여 생성한 특정 요인일 수 있다.
본 발명의 일 실시예에 따르면 질환 관련 자료는 타겟 질환과 특정 요인과의 발생 연관성 대한 연구 결과 또는 다수의 인원들에 대한 통계 분석 결과 등의 내용을 포함하고 있는 텍스트 기반의 자료를 의미할 수 있으며, 일반적으로 의학 논문, 통계 자료 등이 될 수 있으나 이에 한정되지 아니하고, 텍스트 기반의 타겟 질환과 특정 요인과의 발생 연관성 대한 자료라면 제한 없이 사용될 수 있다.
본 발명의 일 실시예에 따르면 연관성 분석 수행부(100)는 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 타겟 질환에 대하여 질환 연관성 분석, 빅데이터 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행할 수 있다.
본 발명의 일 실시예에 따르면 연관성 분석 수행부(100)는 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 질환 연관성 분석, 빅데이터 분석, 메타 분석을 모두 수행하여 각 분석 결과에 따른 3개의 질환 연관성 요인 후보를 선정할 수 있다.
질환 연관성 요인 선정부(200)는 복수의 분석 별 질환 연관성 요인 후보로 선정된 복수의 질환 관련 인자 중 서로 겹치는 정도에 따라 적어도 하나의 질환 연관성 요인을 선정할 수 있다.
본 발명의 일 실시예에 따르면 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 질환 연관성 분석, 빅데이터 분석, 메타 분석 중 적어도 하나 이상을 수행하여 각 분석 결과에 따라 생성된 적어도 2개 이상의 질환 연관성 요인 후보 사이에 적어도 2개 이상 공통되게 포함된 요인들만 질환 연관성 요인으로 선정하여 질환 연관성 요인 리스트를 생성할 수 있다.
본 발명의 일 실시예에 따르면 질환 연관성 요인 선정부(200)는 질환 연관성 분석, 빅데이터 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행하여 생성된 복수의 질환 연관성 요인 후보를 각각 대비하여 생성된 질환 연관성 요인 후보들 모두에 포함되어 있는 질환 관련 인자만을 질환 연관성 요인으로 선정할 수 있다.
상기 일 실시예에 따르면 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 질환 연관성 분석, 빅데이터 분석, 메타 분석을 모두 수행하여 생성된 각 분석 결과에 따른 3개의 질환 연관성 요인 후보에 모두 포함된 요인들만 질환 연관성 요인으로 선정하여 질환 연관성 요인 리스트를 생성할 수 있다.
상기 일 실시예에 따르면 질환 연관성 분석, 빅데이터 분석, 메타 분석을 모두 수행하여 생성된 각 분석 결과에 따른 3개의 질환 연관성 요인 후보에 모두 포함된 요인들만 질환 연관성 요인으로 선정하는 이유는 수많은 요인 중 해당 질환의 유발에 상대적으로 높은 영향력을 미치는 요인을 보수적으로 선정하기 위함이며, 이에 따라 분석에 소요되는 연산 자원 및 시간의 절감이 가능하며 그 정확도 또한 상승되는 효과를 얻을 수 있다.
데이터 전처리부(300)는 선정된 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터 중 데이터의 2차 가공이 필요한 질환 연관성 요인을 대상으로 미리 설정된 전처리 기준에 따라 데이터를 가공할 수 있다.
본 발명의 일 실시예에 따르면 미리 설정된 전처리 기준으로는 다음 기준들이 존재하나 이에 국한되지 아니하고 검진 결과 데이터에 포함된 건강 검진의 각 항목별 결과를 가공하여 질환 연관성 요인을 명확하게 할 수 있는 요인으로 도출할 수 있다면 제한없이 사용될 수 있다.
본 발명의 일 실시예에 따르면 데이터 전처리부(300)는 미리 설정된 전처리 기준에 따라 선정된 적어도 하나의 질환 연관성 요인에 포함된 질환 관련 인자가 개별 검진 결과값으로는 경향성 기준 또는 판단 기준으로 사용될 수 없는 것으로 분류되는 경우, 경향성 기준 또는 판단 기준으로 사용될 수 있도록 미리 설정된 전처리 기준에 따라 검진 결과 데이터에서 산출 혹은 재가공하는 전처리를 수행하여 전체 검진 대상 기간별 시계열 검진 데이터로 생성할 수 있다.
본 발명의 일 실시예에 따르면 전처리 기준은 아래와 같을 수 있으나 이에 한정되지 아니하고, 경향성 기준 또는 판단 기준으로 사용될 수 있도록 전처리하는 것이라면 제한 없이 사용될 수 있다.
[전처리 기준]
(1) 공복 혈당을 이용하여 당뇨 유무 데이터로 전처리
: 공복혈당 < 100 (정상),
100 ≤ 공복혈당 <126 (공복혈당장애)
126 < 공복혈당 (당뇨)
(2) 수축기 또는 이완기 혈압을 이용하여 고혈압 여부 데이터로 전처리
: 수축기 혈압 < 120 or 이완기 혈압 < 80 (정상)
120 ≤ 수축기 혈압 < 140 or 80 ≤이완기 혈압<90 (전고혈압)
140 ≤ 수축기 혈압 < 160 or 90 ≤ 이완기 혈압 < 100 (1단계 고혈압)
160 <= 수축기 혈압 or 100 ≤ 이완기 혈압 (2단계 고혈압)
(3) 총 콜레스테롤양 혹은 LDL을 이용한 이상지질혈증 유무 데이터로 전처리
(4) BMI을 이용한 비만도 데이터로 전처리
: BMI < 18.5 (저체중)
18.5 ≤ BMI < 25.0 (정상)
25.0 ≤ BMI < 30.0 (과체중)
30 ≤ BMI (비만)
30.0 ≤ BMI < 35.0 (중도비만)
35.0 ≤ BMI < 40.0 (고도비만)
40 ≤ BMI (초고도비만)
본 발명의 일 실시예에 따르면 데이터 전처리부(300)는 선정된 적어도 하나의 질환 연관성 요인에 포함된 질환 관련 인자에 대한 개별 검진 결과값을 검진 결과 데이터로부터 수집하고, 수집된 개별 검진 결과값을 시계열로 나열하는 전처리를 수행하여 전체 검진 대상 기간별 시계열 검진 데이터로 생성할 수 있다.
본 발명의 일 실시 예에 따르면 수집된 개별 검진 결과값을 시계열로 나열하는 전처리를 수행하여 전체 검진 대상 기간별 시계열 검진 데이터로 생성하는 과정에 있어 전체 검진 대상 기간별 시계열 검진 데이터 상의 결측치가 존재하는 경우, 결측치 값을 제거하는 전처리를 수행할 수 있으며, 또 다른 실시예에 따르면 통계적인 대체(imputation)방식을 이용하여 해당 결측치의 값을 추정하여 추정한 값을 결측치 항목에 추가하는 전처리를 수행할 수 있으며, 또 다른 실시예에 따르면 인공신경망 기반의 머신 러닝 기법을 이용하여 결측치를 보완하는 전처리를 수행할 수도 있다.
본 발명의 일 실시예에 따르면 데이터 전처리부(300)는 미리 설정된 전처리 기준은 질환 관련 인자가 개별 검진 결과값을 전처리 없이 집단 추세 모형에 입력하여 결과 값을 낼 수 없는 질환 관련 인자의 종류에 대한 정보 및 상기 질환 관련 인자의 전처리 방법에 대한 정보를 포함할 수 있다.
여기서 집단 추세 모형이란 시간에 따른 행동 유형을 군집으로 분류하고, 각 그룹의 궤적 형태를 추정하여 그룹 수와 자료와의 최적 적합도를 갖는 그룹의 수를 검증하는 방법을 의미할 수 있다.
데이터 그룹 분류부(400)는 집단 추세 모형을 이용하여 시간의 흐름에 따른 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터에 포함된 개별 검진 결과값들의 변화를 기준으로 상기 다수의 인원을 그룹핑을 하여 복수의 그룹을 생성할 수 있다.
본 발명의 일 실시예에 따르면 데이터 그룹 분류부(400)는 어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터에 포함된 개별 검진 결과값을 집단 추세 모형에 입력하여 자료의 개별 관찰치가 각 그룹에 속할 확률을 계산하여 종속변수 확률 밀도 함수의 속성에 따라 시점에 따라 각기 다른 분포를 가정하고 추정함으로써 아래 수학식 1과 같이 개별 검진 결과값들의 변화에 따라 각 그룹에 다수의 인원이 포함되는 복수의 그룹을 생성할 수 있다.
Figure 112021116376191-pat00001
Figure 112021116376191-pat00002
Figure 112021116376191-pat00003
Figure 112021116376191-pat00004
본 발명의 일 실시예에 따르면 수학식 1과 같이 종속 변수의 확률밀도 함수는 특정 그룹에 소속될 확률과 특정 그룹 구성원들의 종속변수 확률밀도 함수 곱의 총합으로 표현될 수 있으며, 특정 그룹 구성원의 종속 변수는 매 시점마다 상호독립성을 지니고 있으므로 종속변수의 확률밀도 함수는 매시점별 해당 확률밀도 함수의 곱으로 계산할 수 있다.
본 발명의 일 실시예에 따르면 데이터 그룹 분류부(400)는 각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 대상으로 궤적 형태를 추정하여 각 그룹별로 궤적 형태의 차이를 대비하여 분류된 그룹의 분류 적합도를 검증할 수 있다.
본 발명의 일 실시예에 따르면 집단 추세 모형을 이용하여 각 그룹의 궤적과 각 그룹에서 사례 수 비율을 함께 주정하기 위하여 최대우도추정법을 이용할 수 있으며, 자료에 나타난 개인의 사건 궤적 내용을 상대적으로 가장 잘 묘사하는 최종 모델의 선정 여부는 베이지안 정보지수(BIC)를 기준으로 결정할 수 있고, 이 때 BIC 값이 낮을수록 상대적으로 자료에 나타난 개인의 사건 궤적 내용을 상대적으로 더 묘사하는 모델로 평가할 수 있다.
시계열 특성 변수화부(500)는 생성된 복수의 그룹에 포함된 다수의 인원의 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 각 그룹별로 시계열 특성 변수화를 수행하여 시간의 흐름에 따른 검진 결과에 미치는 영향력을 적어도 하나의 시계열 특성 변수로 산출할 수 있다.
본 발명의 일 실시예에 따르면 시계열 특성 변수화부(500)는 복수의 그룹에 포함된 다수의 인원의 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 각 그룹별로 시계열 특성 변수화를 수행하여 각 시점별로 적어도 하나 이상의 시계열 특성 변수로 산출할 수 있다.
본 발명의 일 실시예에 따르면 각 그룹별로 시계열 특성 변수화를 수행하여 각 시점별 시계열 특성 변수를 산출하기 위하여 시간 변동 공변량 산출 모델을 이용하는 실시예 및 시간 의존 연관성 산출 모델을 이용하는 실시예가 존재할 수 있다.
본 발명의 일 실시예에 따르면 각 그룹별로 시계열 특성 변수화를 수행하여 각 시점별 시계열 특성 변수를 산출하는 것은 각 시점별로 타겟 질환 유발 요인이 해당 질환에 대한 영향력이 다를 수 있음에도 불구하고 이후 수행될 COX 회기 분석에서는 각 시점별로 위험이 일정하다는 "비례위험"을 가정하고 있으므로, 시계열 특성 변수화 없이 이를 각 시점별로 위험도를 일괄적으로 계산함으로써 발생할 수 있는 오차를 시간 개념을 반영한 시계열적 분석을 통해 보완하기 위함이며, 이를 통해 종래의 질환 유발 요인을 분석하는 기법에 비해 상대적으로 더 정확한 정확도를 확보할 수 있다.
본 발명에 따라 각 그룹별로 시계열 특성 변수화를 수행하기 위해 시간 변동 공변량 산출 모델을 이용하는 실시예 및 시간 의존 연관성 산출 모델을 이용하는 실시예에 대해서는 도 3을 참조하며 자세히 설명하도록 한다.
위험도 계산부(600)는 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 산출된 상기 적어도 하나의 시계열 특성 변수를 적용하고, 적용된 다수의 인원의 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 각 그룹별로 COX 회귀 분석을 수행하여 각 그룹 별로 질병 발생 위험도를 계산할 수 있다.
본 발명의 일 실시예에 따르면 위험도 계산부(600)는 산출된 적어도 하나의 시계열 특성 변수를 질환 연관성 요인에 대한 검진 결과 데이터에 적용시킬 수 있으며, 질환 연관성 요인에 대한 검진 결과 데이터의 각 시점별 질환 유발 요인의 수치에 각 시점 별로 산출된 시계열 특성 변수를 곱하는 식으로 적용을 수행할 수 있다.
본 발명의 일 실시 예에 따르면 시계열 특성 변수가 적용된 질환 연관성 요인에 대한 검진 결과 데이터로 이루어진 각 그룹을 대상으로 각 그룹 별로 COX 회귀 분석을 수행하여 각 그룹 별로 질병 발생 위험도를 계산할 수 있다.
본 발명의 일 실시예에 다르면 시계열 특성 변수가 적용된 질환 연관성 요인에 대한 검진 결과 데이터를 각 그룹별로 COX 회귀 분석 모델에 입력하여 COX 회귀 분석을 수행하면, 각 그룹간 각 시점별 생존율 데이터가 산출될 수 있다.
본 발명의 일 실시예에 따르면 COX 회귀 분석을 수행하여 산출된 각 그룹간 각 시점별 생존율 데이터의 역수 값을 각 그룹 별로 질병 발생 위험도를 계산할 수 있다.
발병 예상 정보 생성부(700)는 계산된 각 그룹 별 질병 발생 위험도를 차이값을 이용하여 위험도 변화량을 산출하여 발병 예상 정보를 생성할 수 있다.
본 발명의 일 실시예에 따르면 발병 예상 정보 생성부(700)는 계산된 각 그룹 별 질병 발생 위험도를 각 시점별로 대비하여 각 그룹별 특정 시점에서의 위험도 변화량을 산출할 수 있으며, 이를 기반으로 발병 예상 정보를 생성할 수 있다.
본 발명의 일 실시예에 따르면 산출된 각 그룹별 특정 시점에서의 위험도 변화량의 평균값을 해당 시점의 위험도 변화량으로 특정하여 이를 기반으로 이후 시점에서의 발병 예상율을 산정하여 발병 예상 정보를 생성할 수 있다.
본 발명의 일 실시예에 따르면 발병 예상 정보는 시간의 흐름에 따라 적어도 하나의 질환 유발 요인을 가진 사람이 해당 질환이 발병할 확률 또는 위험율을 그래프 형태로 나타내어 각 그래프별로 위험 단계, 중간 단계, 비위험 단계로 구분한 것일 수 있으나 시간의 흐름에 따라 발병에 대한 예상 정보를 나타낼 수 있는 것이라면 제한없이 사용될 수 있다.
도 2는 도 1에서 도시된 연관성 분석 수행부의 세부 구성도이다.
도 2를 참조하면 도 1에서 도시된 연관성 분석 수행부(100)는 질환 연관성 분석부(110), 빅데이터 분석부(120), 메타 분석 수행부(130)을 포함할 수 있다.
질환 연관성 분석부(110)는 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터를 대상으로 타겟 질환의 발병 가능성에 대한 복수의 질환 관련 인자의 연관성 분석을 수행하여, 연관성이 높은 것으로 도출된 질환 관련 인자를 질환 연관성 요인 후보로 선정할 수 있다.
본 발명의 일 실시예에 따르면 질환 연관성 분석부(110)는 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터를 질환 연관성 분석 모델에 입력하여 타겟 질환의 발병 가능성에 대한 복수의 질환 관련 인자의 연관성 분석을 수행할 수 있다.
본 발명의 일 실시예에 따르면 질환 연관성 분석 모델은 인공 신경망 기반의 딥러닝 모델로 구현될 수 있으며, 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터를 입력 받으면 질환과 연관성이 상대적으로 높은 적어도 하나의 검진 결과 항목을 도출하도록 학습될 수 있다.
본 발명의 다른 일 실시예에 따르면 질환 연관성 분석 모델은 입력 받은 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터를 대상으로 상관 분석을 수행하는 모델일 수 있으며, 이를 통해 질환과 연관성이 상대적으로 높은 적어도 하나의 검진 결과 항목을 도출하여 복수의 질환 관련 인자의 연관성 분석을 수행할 수 있다.
빅데이터 분석부(120)는 텍스트 기반의 질환 관련 자료가 저장된 데이터 베이스로부터 크롤링을 이용하여 복수의 데이터를 수집하고, 수집된 복수의 데이터를 대상으로 텍스트 마이닝을 수행하여 질환 연관성 요인 후보를 선정할 수 있다.
본 발명의 일 실시예에 따르면 빅데이터 분석부(120)는 NCBI DB, OMIM, Diseases Card, open DB 등의 데이터 베이스로부터 텍스트 기반의 데이터를 크롤링을 통해 각 질환명, 관련 항목, 원인 정보 등을 대상으로 수집을 수행하고, 수집된 데이터의 텍스트 마이닝 작업을 통하여 유의한 관련 항목을 선별하여 도출하여 타겟 질환과 복수의 질환 관련 인자와의 연관성 분석을 수행할 수 있다.
메타 분석 수행부(130)는 타겟 질환과 질환 관련 인자에 대한 영향을 주제로 한 복수의 질환 관련 자료를 메타 분석 모델에 입력하여, 복수의 질환 관련 자료 별로 질환 관련 인자별의 효과 크기를 산출하여, 효과 크기에 따라 질환 연관성 요인 후보를 선정할 수 있다.
본 발명의 일 실시예에 따르면 질환 관련 인자는 특정 질환의 발병에 영양을 미칠 수 있는 요인에 대한 것을 의미하며, 다른 질병 유무, 건강 검진 결과값이 미리 설정된 일정 범위 내인지 여부 등일 수 있으나, 이에 한정되지 아니하고 기타 질환 발병에 영향을 미칠 수 있는 요인이라면 제한 없이 사용될 수 있다.
본 발명의 일 실시 예에 따르면 메타 분석은 복수의 질환 관련 자료들을 메타 분석 모델에 입력하여 질환 관련 자료별 분석 정보 기반의 데이터 세트를 생성하고 해당 데이터 세트를 대상으로 질환 관련 인자의 주제에 부합하는 효과 크기, 즉 해당 질환 관련 인자가 특정 질환에 영향을 미치는 크기를 산출하고, 효과 크기를 이용하여 타겟 질환 영향력 점수를 측정함으로써 이에 따라 질환 연관성 요인 후보로 선별하는 것을 의미할 수 있다.
본 발명의 일 실시예에 따르면 효과 크기를 추출하기 위한 방법은 다양하게 존재할 수 있으며, 추출하는 효과크기의 종류는 주제에 따라 상이한데, 표준화 평균차(Standardized mean difference)를 기준으로 한 효과크기, 상관계수를 기준으로 한 효과 크기, 그리고 오즈비(odds ratio)를 기준으로 한 효과 크기 등을 사용할 수 있다.
본 발명의 일 실시예에 따르면 오즈비(odds ratio)를 기준으로 효과 크기를 산출하기 위하여 각 질환 관련 인자 별로 질환에 대한 영향력의 크기(연관성 크기)에 대한 지표인 오즈비(odds ratio, OR)와 95% 신뢰구간(95% Confidence Interval, CI)을 토대로 효과크기를 추정할 수 있으며. 각 개별 질환 관련 자료의 오즈비를 종합하여 종합 효과크기(overall OR)를 산출할 수 있다.
본 발명의 일 실시예에 따르면 산출한 효과 크기를 이용하여 질환 관련 인자별로 타겟 질환 영향력 점수를 측정하기 위하여 역분산 추정법(generic inverse variance estimation method)을 이용할 수 있다.
역분산 추정법은 메타분석에서 가중치를 주기위해 사용되는 방법으로, 추정된 효과크기의 분산의 역수를 개별 질환 관련 자료의 가중치로 사용할 수 있다.
역분산 추정법을 사용하는 본 발명의 일 실시예에 따르면 표본수가 큰 연구에 대한 질환 관련 자료는 작은 분산을 가지고, 분산의 역수는 커지게 될 것이므로, 표본수가 큰 연구에 대한 질환 관련 자료에 더 큰 가중치를 주는 것으로 사용될 수 있다.
상기 일 실시예에 따르면 각 질환 관련 자료의 오즈비에 자연로그를 취한
Figure 112021116376191-pat00005
를 산출하고,
Figure 112021116376191-pat00006
에 대한 표준오차(SE)를 계산하고, 계산된 표준오차의 제곱의 역수를 가중치
Figure 112021116376191-pat00007
로 산출할 수 있으며, 아래 수학식 2와 같이 산출된 각 질환 관련 자료의 가중치를 오즈비에 곱한 값을 모두 합하여 종합적인 효과 크기(ORpooled)를 계산할 수 있다.
Figure 112021116376191-pat00008
Figure 112021116376191-pat00009
Figure 112021116376191-pat00010
도 3은 도 1에서 도시된 시계열 특성 변수화부의 세부 구성도이다.
도 3을 참조하면 본 발명의 일 실시예에 따른 도 1에서 도시된 시계열 특성 변수화부(500)는 시점별 공변량 산출부(510), 시간 의존 연관성 산출부(520)를 더 포함할 수 있다.
시점별 공변량 산출부(510)는 각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 시간 변동 공변량 산출 모델에 입력하여 시간의 흐름에 따라 개별 검진 결과값에 대한 영향력을 각 시점별 공변량으로 산출하며, 산출된 상기 각 시점별 공변량을 시계열 특성 변수로 사용할 수 있다.
본 발명의 일 실시예에 따르면 시간 변동 공변량 산출 모델은 동일한 질환 연관성 요인에 대하여 여러 시점에서 관측하였을 때, 각 시점별로 과거의 관측값이 현재의 관측값에 영향을 미치게 되므로, 이러한 시점별 영향력을 산출하기 위하여 시간 가변성 공변량(Time-varying covariate)분석을 수행하는 것을 의미한다.
여기서 시간 가변성 공변량 산출 모델은 COX 회기 분석을 기반으로 하는 을 수행함에 있어 시점별로 일정하지 않다는 현상을 반영하기 위한 기법을 의미할 수 있으며, 과거의 관측값이 현재의 관측값에 영향을 미치는 경우가 발생하는 경우 이러한 영향력에 대한 변수를 Time-varying covariate로 정의할 수 있으며, 생존 분석에 있어서 시계열 값이 반영된 특정 변수의 반응변수와의 연관성(
Figure 112021116376191-pat00011
)이 각 시점 별로 달라지는 경우, 각 시점 별 연관성을 Time-Varying Coefficients(
Figure 112021116376191-pat00012
라고 정의할 수 있고, 본 발명의 일 실시예에 따르면 시간 가변성 공변량 산출 모델은 아래 수학식 3과 같이 표현될 수 있다.
Figure 112021116376191-pat00013
Figure 112021116376191-pat00014
:
Figure 112021116376191-pat00015
시점
Figure 112021116376191-pat00016
번째 sample의 반응 변수(
Figure 112021116376191-pat00017
)
Figure 112021116376191-pat00018
:
Figure 112021116376191-pat00019
시점 time-trend function
Figure 112021116376191-pat00020
:
Figure 112021116376191-pat00021
시점
Figure 112021116376191-pat00022
번째 설명변수와 반응변수간의 연관성(
Figure 112021116376191-pat00023
)
Figure 112021116376191-pat00024
:
Figure 112021116376191-pat00025
시점
Figure 112021116376191-pat00026
번째 sample의
Figure 112021116376191-pat00027
번째 변수
Figure 112021116376191-pat00028
:
Figure 112021116376191-pat00029
번째 sample에 대한 random effect(
Figure 112021116376191-pat00030
)
Figure 112021116376191-pat00031
:
Figure 112021116376191-pat00032
시점
Figure 112021116376191-pat00033
번째 sample의 오차항(error)
시간 의존 연관성 산출부(520)는 각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 시간 의존 연관성 산출 모델에 입력하여 COX 모델에 입력될 독립변수와 종속 변수 간의 시점 별 연관성 크기를 산출하며, 산출된 상기 각 시점별 연관성 크기를 시계열 특성 변수로 사용할 수 있다.
본 발명의 일 실시예에 따르면 시간 의존 연관성 산출부(520)는 생존분석에서 시간에 따라 값이 변화하는 변수를 반영하기 위하여 extended cox model인 Time-dependent cox를 사용하기 위해 시간 의존 연관성 산출 모델을 이용하여 시점 t에 따라 변화하는 설명변수(X)와 반응변수(Y)간 연관성의 크기를 산출하고 이를 시계열 특성 변수로 정의하고 질환 연관성 요인에 대한 검진 결과 데이터에 적용할 수 있다.
본 발명의 일 실시예에 따르면 extended cox model은 아래 수학식 4와 같이 표현될 수 있다.
Figure 112021116376191-pat00034
Figure 112021116376191-pat00035
: 일반적인 COX 모델
Figure 112021116376191-pat00036
: t시점에 수집된 모든 측정값
Figure 112021116376191-pat00037
: 모든 t시점에서 측정된 측정값
도 4는 본 발명의 일 실시예에 따라 구현된 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치의 데이터 흐름도이다.
도 4를 참조하면 본 발명의 일 실시예에 따른 질환 발병 정보 생성 장치의 각 구성요소별 데이터 흐름이 나타나 있다.
본 발명의 일 실시예에 따르면 질환 발병 정보 생성 장치는 질환 연관성 분석부(110)와 빅데이터 분석부(120)는 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터를 입력 받아 질환 연관성 요인 후보를 선정할 수 있으며, 메타 분석 수행부(130)는 복수의 질환 관련 자료를 입력 받아 질환 연관성 요인 후보를 선정할 수 있다.
본 발명의 일 실시예에 따르면 질환 연관성 요인 선정부(200)는 질환 연관성 분석부(110)와 빅데이터 분석부(120), 메타 분석 수행부(130)로부터 분석 별 질환 연관성 요인 후보를 수신하여 적어도 하나의 질환 연관성 요인을 선정할 수 있으며, 데이터 전처리부(300)는 적어도 하나의 질환 연관성 요인에 대한 정보를 질환 연관성 요인 선정부(200)로부터 입력 받아 요인에 대한 다수의 인원의 검진 결과 데이터 중 데이터의 2차 가공이 필요한 질환 연관성 요인을 대상으로 미리 설정된 전처리 기준에 따라 데이터를 2차 가공할 수 있다.
본 발명의 일 실시예에 따르면 데이터 그룹 분류부(400)는 데이터 전처리부(300)로부터 2차 가공된 데이터를 입력 받아 다수의 인원의 검진 결과 데이터에 포함된 개별 검진 결과값들의 변화를 기준으로 상기 다수의 인원을 그룹핑을 수행하여 복수의 그룹을 생성할 수 있다.
본 발명의 일 실시예에 따르면 시점별 공변량 산출부(510)와 시간 의존 연관성 산출부(520)는 데이터 그룹 분류부(400)로부터 생성된 복수의 그룹의 정보 및 다수의 인원의 검진 결과 데이터에 포함된 개별 검진 결과값를 입력 받아 시점별 공변량 산출부(510)는 시간 변동 공변량을 산출하고, 시간 의존 연관성 산출부(520)는 시간 의존 연관성을 산출하여 각 그룹별로 시계열 특성 변수화를 수행하여 시간의 흐름에 따른 검진 결과에 미치는 영향력을 적어도 하나의 시계열 특성 변수로 산출할 수 있다.
본 발명의 일 실시예에 따르면 위험도 계산부(600)는 시점별 공변량 산출부(510)와 시간 의존 연관성 산출부(520)로부터 적어도 하나의 시계열 특성 변수를 수신 받아 질환 연관성 요인에 대한 검진 결과 데이터에 산출된 적어도 하나의 시계열 특성 변수를 적용하고, 적용된 다수의 인원의 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 각 그룹별로 COX 회귀 분석을 수행하여 각 그룹 별로 질병 발생 위험도를 계산할 수 있다.
본 발명의 일 실시에 따르면 발병 예상 정보 생성부(700)는 위험도 계산부(600)로부터 각 그룹 별로 질병 발생 위험도 수신 받아 계산된 각 그룹 별 질병 발생 위험도를 차이값을 이용하여 위험도 변화량을 산출하여 발병 예상 정보를 생성할 수 있다.
도 5는 본 발명의 일 실시예에 따라 위험도 변화량을 포함하는 발병 예상 정보를 이용하여 산출된 기대여명 그래프를 나타낸 도면이다.
도 5를 참조하면 본 발명의 일 실시예에 따라 기대여명 그래프가 도시되어 있으며, 복수의 발병 예상 정보를 기준으로 정렬하여 각 시점별로 고위험 단계, 중간 단계, 비위험 단계로 질환 연관성 요인을 분류할 수 있고, 이를 이용하여 도 5와 같이 해당 질환 유발 인자를 가지고 있는 사람들의 경과 시간(elapsed time)을 그래프로 생성하여 사용자에게 위험 그룹별로 질환의 발생이 예상되는 발생률(incidence rate)을 제공할 수 있다.
도 6은 본 발명의 일 실시예에 따른 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 방법의 흐름도이다.
검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 질환 연관성 요인 후보를 선정하는 복수의 분석을 수행한다(S10).
본 발명의 일 실시예에 따르면 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 질환 연관성 요인 후보를 선정하는 복수의 분석을 수행할 수 있다.
여기서 검진 결과 데이터는 특정 인원이 적어도 한번 이상 수행한 건강 검진의 각 항목별 결과를 데이터 세트 형태로 저장하여 다수의 인원에 대한 인원별 복수의 건강 검진 결과를 포함하는 데이터를 의미할 수 있다.
본 발명의 일 실시예에 따르면 검진 결과 데이터에 포함되는 건강 검진 항목은 공복 혈당 수치, 수축기 혈압 및/또는 이완기 혈압, 총 콜레스테롤 수치 및/또는 고밀도 콜레스테롤 수치(HDL), 저밀도 콜레스테롤 수치(LDL), 체중, 체질량지수(BMI) 등이 포함될 수 있다.
본 발명의 일 실시예에 따르면 타겟 질환의 발병을 유발하는 요인으로는 검진 결과 데이터에 포함되는 건강 검진 항목일 수 있으며, 검진 결과 데이터에 포함되는 건강 검진 항목을 한번 또는 복수의 단계를 거쳐 가공하여 생성한 특정 요인일 수 있다.
본 발명의 일 실시예에 따르면 질환 관련 자료는 타겟 질환과 특정 요인과의 발생 연관성 대한 연구 결과 또는 다수의 인원들에 대한 통계 분석 결과 등의 내용을 포함하고 있는 텍스트 기반의 자료를 의미할 수 있으며, 일반적으로 의학 논문, 통계 자료 등이 될 수 있으나 이에 한정되지 아니하고, 텍스트 기반의 타겟 질환과 특정 요인과의 발생 연관성 대한 자료라면 제한 없이 사용될 수 있다.
본 발명의 일 실시예에 따르면 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 타겟 질환에 대하여 질환 연관성 분석, 빅데이터 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행할 수 있다.
본 발명의 일 실시예에 따르면 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 질환 연관성 분석, 빅데이터 분석, 메타 분석을 모두 수행하여 각 분석 결과에 따른 3개의 질환 연관성 요인 후보를 선정할 수 있다.
본 발명의 일 실시예에 따르면 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터를 대상으로 타겟 질환의 발병 가능성에 대한 복수의 질환 관련 인자의 연관성 분석을 수행하여, 연관성이 높은 것으로 도출된 질환 관련 인자를 질환 연관성 요인 후보로 선정할 수 있다.
본 발명의 일 실시예에 따르면 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터를 질환 연관성 분석 모델에 입력하여 타겟 질환의 발병 가능성에 대한 복수의 질환 관련 인자의 연관성 분석을 수행할 수 있다.
본 발명의 일 실시예에 따르면 질환 연관성 분석 모델은 인공 신경망 기반의 딥러닝 모델로 구현될 수 있으며, 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터를 입력 받으면 질환과 연관성이 상대적으로 높은 적어도 하나의 검진 결과 항목을 도출하도록 학습될 수 있다.
본 발명의 다른 일 실시예에 따르면 질환 연관성 분석 모델은 입력 받은 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터를 대상으로 상관 분석을 수행하는 모델일 수 있으며, 이를 통해 질환과 연관성이 상대적으로 높은 적어도 하나의 검진 결과 항목을 도출하여 복수의 질환 관련 인자의 연관성 분석을 수행할 수 있다.
본 발명의 일 실시예에 따르면 텍스트 기반의 질환 관련 자료가 저장된 데이터 베이스로부터 크롤링을 이용하여 복수의 데이터를 수집하고, 수집된 복수의 데이터를 대상으로 텍스트 마이닝을 수행하여 질환 연관성 요인 후보를 선정할 수 있다.
본 발명의 일 실시예에 따르면 NCBI DB, OMIM, Diseases Card, open DB 등의 데이터 베이스로부터 텍스트 기반의 데이터를 크롤링을 통해 각 질환명, 관련 항목, 원인 정보 등을 대상으로 수집을 수행하고, 수집된 데이터의 텍스트 마이닝 작업을 통하여 유의한 관련 항목을 선별하여 도출하여 타겟 질환과 복수의 질환 관련 인자와의 연관성 분석을 수행할 수 있다.
본 발명의 일 실시예에 따르면 타겟 질환과 질환 관련 인자에 대한 영향을 주제로 한 복수의 질환 관련 자료를 메타 분석 모델에 입력하여, 복수의 질환 관련 자료 별로 질환 관련 인자별의 효과 크기를 산출하여, 효과 크기에 따라 질환 연관성 요인 후보를 선정할 수 있다.
본 발명의 일 실시예에 따르면 질환 관련 인자는 특정 질환의 발병에 영양을 미칠 수 있는 요인에 대한 것을 의미하며, 다른 질병 유무, 건강 검진 결과값이 미리 설정된 일정 범위 내인지 여부 등 일 수 있으나, 이에 한정되지 아니하고 기타 질환 발병에 영향을 미칠 수 있는 요인이라면 제한 없이 사용될 수 있다.
본 발명의 일 실시 예에 따르면 메타 분석은 복수의 질환 관련 자료들을 메타 분석 모델에 입력하여 질환 관련 자료별 분석 정보 기반의 데이터 세트를 생성하고 해당 데이터 세트를 대상으로 질환 관련 인자의 주제에 부합하는 효과 크기, 즉 해당 질환 관련 인자가 특정 질환에 영향을 미치는 크기를 산출하고, 효과 크기를 이용하여 타겟 질환 영향력 점수를 측정함으로써 이에 따라 질환 연관성 요인 후보로 선별하는 것을 의미할 수 있다.
본 발명의 일 실시예에 따르면 효과 크기를 추출하기 위한 방법은 다양하게 존재할 수 있으며, 추출하는 효과크기의 종류는 주제에 따라 상이한데, 표준화 평균차(Standardized mean difference)를 기준으로 한 효과크기, 상관계수를 기준으로 한 효과 크기, 그리고 오즈비(odds ratio)를 기준으로 한 효과 크기 등을 사용할 수 있다.
본 발명의 일 실시예에 따르면 오즈비(odds ratio)를 기준으로 효과 크기를 산출하기 위하여 각 질환 관련 인자 별로 질환에 대한 영향력의 크기(연관성 크기)에 대한 지표인 오즈비(odds ratio, OR)와 95% 신뢰구간(95% Confidence Interval, CI)을 토대로 효과크기를 추정할 수 있으며. 각 개별 질환 관련 자료의 오즈비를 종합하여 종합 효과크기(overall OR)를 산출할 수 있다.
본 발명의 일 실시예에 따르면 산출한 효과 크기를 이용하여 질환 관련 인자별로 타겟 질환 영향력 점수를 측정하기 위하여 역분산 추정법(generic inverse variance estimation method)을 이용할 수 있다.
역분산 추정법은 메타분석에서 가중치를 주기위해 사용되는 방법으로, 추정된 효과크기의 분산의 역수를 개별 질환 관련 자료의 가중치로 사용할 수 있다.
역분산 추정법을 사용하는 본 발명의 일 실시예에 따르면 표본수가 큰 연구에 대한 질환 관련 자료는 작은 분산을 가지고, 분산의 역수는 커지게 될 것이므로, 표본수가 큰 연구에 대한 질환 관련 자료에 더 큰 가중치를 주는 것으로 사용될 수 있다.
상기 일 실시예에 따르면 각 질환 관련 자료의 오즈비에 자연로그를 취한
Figure 112021116376191-pat00038
를 산출하고,
Figure 112021116376191-pat00039
에 대한 표준오차(SE)를 계산하고, 계산된 표준오차의 제곱의 역수를 가중치
Figure 112021116376191-pat00040
로 산출할 수 있으며, 수학식 2와 같이 산출된 각 질환 관련 자료의 가중치를 오즈비에 곱한 값을 모두 합하여 종합적인 효과 크기(ORpooled)를 계산할 수 있다.
복수의 분석 별 질환 연관성 요인 후보로 선정된 복수의 질환 관련 인자 중 서로 겹치는 정도에 따라 적어도 하나의 질환 연관성 요인을 선정한다(S20).
본 발명의 일 실시예에 따르면 복수의 분석 별 질환 연관성 요인 후보로 선정된 복수의 질환 관련 인자 중 서로 겹치는 정도에 따라 적어도 하나의 질환 연관성 요인을 선정할 수 있다.
상기 일 실시예에 따르면 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 질환 연관성 분석, 빅데이터 분석, 메타 분석 중 적어도 하나 이상을 수행하여 각 분석 결과에 따라 생성된 적어도 2개 이상의 질환 연관성 요인 후보 사이에 적어도 2개 이상 공통되게 포함된 요인들만 질환 연관성 요인으로 선정하여 질환 연관성 요인 리스트를 생성할 수 있다.
본 발명의 일 실시예에 따르면 질환 연관성 분석, 빅데이터 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행하여 생성된 복수의 질환 연관성 요인 후보를 각각 대비하여 생성된 질환 연관성 요인 후보들 모두에 포함되어 있는 질환 관련 인자만을 질환 연관성 요인으로 선정할 수 있다.
상기 일 실시예에 따르면 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 질환 연관성 분석, 빅데이터 분석, 메타 분석을 모두 수행하여 생성된 각 분석 결과에 따른 3개의 질환 연관성 요인 후보에 모두 포함된 요인들만 질환 연관성 요인으로 선정하여 질환 연관성 요인 리스트를 생성할 수 있다.
상기 일 실시예에 따르면 질환 연관성 분석, 빅데이터 분석, 메타 분석을 모두 수행하여 생성된 각 분석 결과에 따른 3개의 질환 연관성 요인 후보에 모두 포함된 요인들만 질환 연관성 요인으로 선정하는 이유는 수많은 요인 중 해당 질환의 유발에 상대적으로 높은 영향력을 미치는 요인을 보수적으로 선정하기 위함이며, 이에 따라 분석에 소요되는 연산 자원 및 시간의 절감이 가능하며 그 정확도 또한 상승되는 효과를 얻을 수 있다.
적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터 중 데이터의 2차 가공이 필요한 질환 연관성 요인을 대상으로 미리 설정된 전처리 기준에 따라 데이터를 가공한다(S30).
본 발명의 일 실시예에 따르면 선정된 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터 중 데이터의 2차 가공이 필요한 질환 연관성 요인을 대상으로 미리 설정된 전처리 기준에 따라 데이터를 가공할 수 있다.
본 발명의 일 실시예에 따르면 미리 설정된 전처리 기준으로는 다음 기준들이 존재하나 이에 국한되지 아니하고 검진 결과 데이터에 포함된 건강 검진의 각 항목별 결과를 가공하여 질환 연관성 요인을 명확하게 할 수 있는 요인으로 도출할 수 있다면 제한없이 사용될 수 있다.
본 발명의 일 실시예에 따르면 미리 설정된 전처리 기준에 따라 선정된 적어도 하나의 질환 연관성 요인에 포함된 질환 관련 인자가 개별 검진 결과값으로는 경향성 기준 또는 판단 기준으로 사용될 수 없는 것으로 분류되는 경우, 경향성 기준 또는 판단 기준으로 사용될 수 있도록 미리 설정된 전처리 기준에 따라 검진 결과 데이터에서 산출 혹은 재가공하는 전처리를 수행하여 전체 검진 대상 기간별 시계열 검진 데이터로 생성할 수 있다.
본 발명의 일 실시예에 따르면 선정된 적어도 하나의 질환 연관성 요인에 포함된 질환 관련 인자에 대한 개별 검진 결과값을 검진 결과 데이터로부터 수집하고, 수집된 개별 검진 결과값을 시계열로 나열하는 전처리를 수행하여 전체 검진 대상 기간별 시계열 검진 데이터로 생성할 수 있다.
본 발명의 일 실시 예에 따르면 수집된 개별 검진 결과값을 시계열로 나열하는 전처리를 수행하여 전체 검진 대상 기간별 시계열 검진 데이터로 생성하는 과정에 있어 전체 검진 대상 기간별 시계열 검진 데이터 상의 결측치가 존재하는 경우, 결측치 값을 제거하는 전처리를 수행할 수 있으며, 또 다른 실시예에 따르면 통계적인 대체(imputation)방식을 이용하여 해당 결측치의 값을 추정하여 추정한 값을 결측치 항목에 추가하는 전처리를 수행할 수 있으며, 또 다른 실시예에 따르면 인공신경망 기반의 머신 러닝 기법을 이용하여 결측치를 보완하는 전처리를 수행할 수도 있다.
본 발명의 일 실시예에 따르면 미리 설정된 전처리 기준은 질환 관련 인자가 개별 검진 결과값을 전처리 없이 집단 추세 모형에 입력하여 결과 값을 낼 수 없는 질환 관련 인자의 종류에 대한 정보 및 상기 질환 관련 인자의 전처리 방법에 대한 정보를 포함할 수 있다.
집단 추세 모형을 이용하여 시간의 흐름에 따른 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터에 포함된 개별 검진 결과값들의 변화를 기준으로 다수의 인원을 그룹핑 하여 복수의 그룹을 생성한다(S40).
본 발명의 일 실시예에 따르면 집단 추세 모형을 이용하여 시간의 흐름에 따른 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터에 포함된 개별 검진 결과값들의 변화를 기준으로 상기 다수의 인원을 그룹핑을 하여 복수의 그룹을 생성할 수 있다.
본 발명의 일 실시예에 따르면 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터에 포함된 개별 검진 결과값을 집단 추세 모형에 입력하여 자료의 개별 관찰치가 각 그룹에 속할 확률을 계산하여 종속변수 확률 밀도 함수의 속성에 따라 시점에 따라 각기 다른 분포를 가정하고 추정함으로써 수학식 1과 같이 개별 검진 결과값들의 변화에 따라 각 그룹에 다수의 인원이 포함되는 복수의 그룹을 생성할 수 있다.
본 발명의 일 실시예에 따르면 수학식 1과 같이 종속 변수의 확률밀도 함수는 특정 그룹에 소속될 확률과 특정 그룹 구성원들의 종속변수 확률밀도 함수 곱의 총합으로 표현될 수 있으며, 특정 그룹 구성원의 종속 변수는 매 시점마다 상호독립성을 지니고 있으므로 종속변수의 확률밀도 함수는 매시점별 해당 확률밀도 함수의 곱으로 계산할 수 있다.
본 발명의 일 실시예에 따르면 각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 대상으로 궤적 형태를 추정하여 각 그룹별로 궤적 형태의 차이를 대비하여 분류된 그룹의 분류 적합도를 검증할 수 있다.
본 발명의 일 실시예에 따르면 집단 추세 모형을 이용하여 각 그룹의 궤적과 각 그룹에서 사례 수 비율을 함께 주정하기 위하여 최대우도추정법을 이용할 수 있으며, 자료에 나타난 개인의 사건 궤적 내용을 상대적으로 가장 잘 묘사하는 최종 모델의 선정 여부는 베이지안 정보지수(BIC)를 기준으로 결정할 수 있으며, BIC 값이 낮을수록 상대적으로 자료에 나타난 개인의 사건 궤적 내용을 상대적으로 더 묘사하는 모델로 평가할 수 있다.
복수의 그룹에 포함된 다수의 인원의 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 각 그룹별로 시계열 특성 변수화를 수행하여 적어도 하나의 시계열 특성 변수 산출한다(S50).
본 발명의 일 실시예에 따르면 생성된 복수의 그룹에 포함된 다수의 인원의 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 각 그룹별로 시계열 특성 변수화를 수행하여 시간의 흐름에 따른 검진 결과에 미치는 영향력을 적어도 하나의 시계열 특성 변수로 산출할 수 있다.
본 발명의 일 실시예에 따르면 복수의 그룹에 포함된 다수의 인원의 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 각 그룹별로 시계열 특성 변수화를 수행하여 각 시점별로 적어도 하나 이상의 시계열 특성 변수로 산출할 수 있다.
본 발명의 일 실시예에 따르면 각 그룹별로 시계열 특성 변수화를 수행하여 각 시점별 시계열 특성 변수를 산출하기 위하여 시간 변동 공변량 산출 모델을 이용하는 실시예 및 시간 의존 연관성 산출 모델을 이용하는 실시예가 존재할 수 있다.
본 발명의 일 실시예에 따르면 각 그룹별로 시계열 특성 변수화를 수행하여 각 시점별 시계열 특성 변수를 산출하는 것은 각 시점별로 타겟 질환 유발 요인이 해당 질환에 대한 영향력이 다를 수 있음에도 불구하고 이후 수행될 COX 회기 분석에서는 각 시점별로 위험이 일정하다는 "비례위험"을 가정하고 있으므로, 시계열 특성 변수화 없이 이를 각 시점별로 위험도를 일괄적으로 계산함으로써 발생할 수 있는 오차를 시간 개념을 반영한 시계열적 분석을 통해 보완하기 위함이며, 이를 통해 종래의 질환 유발 요인을 분석하는 기법에 비해 상대적으로 더 정확한 정확도를 확보할 수 있다.
본 발명의 일 실시예에 따르면 각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 시간 변동 공변량 산출 모델에 입력하여 시간의 흐름에 따라 개별 검진 결과값에 대한 영향력을 각 시점별 공변량으로 산출하며, 산출된 상기 각 시점별 공변량을 시계열 특성 변수로 사용할 수 있다.
본 발명의 일 실시예에 따르면 시간 변동 공변량 산출 모델은 동일한 질환 연관성 요인에 대하여 여러 시점에서 관측하였을 때, 각 시점별로 과거의 관측값이 현재의 관측값에 영향을 미치게 되므로, 이러한 시점별 영향력을 산출하기 위하여 시간 가변성 공변량(Time-varying covariate)분석을 수행하는 것을 의미한다.
본 발명의 일 실시예에 따르면 시간 가변성 공변량 산출 모델은 COX 회기 분석을 기반으로 하는 을 수행함에 있어 시점별로 일정하지 않다는 현상을 반영하기 위한 기법을 의미할 수 있으며, 과거의 관측값이 현재의 관측값에 영향을 미치는 경우가 발생하는 경우 이러한 영향력에 대한 변수를 Time-varying covariate로 정의할 수 있으며, 생존 분석에 있어서 시계열 값이 반영된 특정 변수의 반응변수와의 연관성(
Figure 112021116376191-pat00041
)이 각 시점 별로 달라지는 경우, 각 시점 별 연관성을 Time-Varying Coefficients(
Figure 112021116376191-pat00042
라고 정의할 수 있고, 본 발명의 일 실시예에 따르면 시간 가변성 공변량 산출 모델은 수학식 3과 같이 표현될 수 있다.
본 발명의 일 실시예에 따르면 각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 시간 의존 연관성 산출 모델에 입력하여 COX 모델에 입력될 독립변수와 종속 변수 간의 시점 별 연관성 크기를 산출하며, 산출된 상기 각 시점별 연관성 크기를 시계열 특성 변수로 사용할 수 있다.
본 발명의 일 실시예에 따르면 생존분석에서 시간에 따라 값이 변화하는 변수를 반영하기 위하여 extended cox model인 Time-dependent cox를 사용하기 위해 시간 의존 연관성 산출 모델을 이용하여 시점 t에 따라 변화하는 설명변수(X)와 반응변수(Y)간 연관성의 크기를 산출하고 이를 시계열 특성 변수로 정의하고 질환 연관성 요인에 대한 검진 결과 데이터에 적용할 수 있다.
본 발명의 일 실시예에 따르면 extended cox model은 수학식 4와 같이 표현될 수 있다.
질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 적어도 하나의 시계열 특성 변수를 적용하고, 적용된 다수의 인원의 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 각 그룹별로 COX 회귀 분석을 수행하여 질병 발생 위험도를 계산한다(S60).
본 발명의 일 실시예에 따르면 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 산출된 상기 적어도 하나의 시계열 특성 변수를 적용하고, 적용된 다수의 인원의 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 각 그룹별로 COX 회귀 분석을 수행하여 각 그룹 별로 질병 발생 위험도를 계산할 수 있다.
본 발명의 일 실시예에 따르면 산출된 상기 적어도 하나의 시계열 특성 변수를 질환 연관성 요인에 대한 검진 결과 데이터에 적용시킬 수 있으며, 질환 연관성 요인에 대한 검진 결과 데이터의 각 시점별 질환 유발 요인의 수치에 각 시점 별로 산출된 시계열 특성 변수를 곱하는 식으로 적용을 수행할 수 있다.
본 발명의 일 실시 예에 따르면 시계열 특성 변수가 적용된 질환 연관성 요인에 대한 검진 결과 데이터로 이루어진 각 그룹을 대상으로 각 그룹 별로 COX 회귀 분석을 수행하여 각 그룹 별로 질병 발생 위험도를 계산할 수 있다.
본 발명의 일 실시예에 다르면 시계열 특성 변수가 적용된 질환 연관성 요인에 대한 검진 결과 데이터를 각 그룹별로 COX 회귀 분석 모델에 입력하여 COX 회귀 분석을 수행하면, 각 그룹간 각 시점별 생존율 데이터가 산출될 수 있다.
본 발명의 일 실시예에 따르면 COX 회귀 분석을 수행하여 산출된 각 그룹간 각 시점별 생존율 데이터의 역수 값을 각 그룹 별로 질병 발생 위험도를 계산할 수 있다.
계산된 각 그룹 별 질병 발생 위험도를 차이값을 이용하여 위험도 변화량을 산출하여 발병 예상 정보를 생성한다(S70).
본 발명의 일 실시예에 따르면 계산된 각 그룹 별 질병 발생 위험도를 차이값을 이용하여 위험도 변화량을 산출하여 발병 예상 정보를 생성할 수 있다.
본 발명의 일 실시예에 따르면 계산된 각 그룹 별 질병 발생 위험도를 각 시점별로 대비하여 각 그룹별 특정 시점에서의 위험도 변화량을 산출할 수 있으며, 이를 기반으로 발병 예상 정보를 생성할 수 있다.
본 발명의 일 실시예에 따르면 산출된 각 그룹별 특정 시점에서의 위험도 변화량의 평균값을 해당 시점의 위험도 변화량으로 특정하여 이를 기반으로 이후 시점에서의 발병 예상율을 산정하여 발병 예상 정보를 생성할 수 있다.
본 발명의 일 실시예에 따르면 발병 예상 정보는 시간의 흐름에 따라 적어도 하나의 질환 유발 요인을 가진 사람이 해당 질환이 발병할 확률 또는 위험율을 그래프 형태로 나타내어 각 그래프별로 위험 단계, 중간 단계, 비위험 단계로 구분한 것일 수 있으나 시간의 흐름에 따라 발병에 대한 예상 정보를 나타낼 수 있는 것이라면 제한없이 사용될 수 있다.
본 발명의 실시 예는 이상에서 설명한 장치 및/또는 방법을 통해서만 구현이 되는 것은 아니며, 이상에서 본 발명의 실시 예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (24)

  1. 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 질환 연관성 요인 후보를 선정하는 복수의 분석을 수행하는 연관성 분석 수행부;
    상기 복수의 분석 별 질환 연관성 요인 후보로 선정된 복수의 질환 관련 인자 중 서로 겹치는 정도에 따라 적어도 하나의 질환 연관성 요인을 선정하는 질환 연관성 요인 선정부;
    상기 선정된 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터 중 데이터의 2차 가공이 필요한 질환 연관성 요인을 대상으로 미리 설정된 전처리 기준에 따라 데이터를 가공하는 데이터 전처리부;
    집단 추세 모형을 이용하여 시간의 흐름에 따른 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터에 포함된 개별 검진 결과값들의 변화를 기준으로 상기 다수의 인원을 그룹핑을 하여 복수의 그룹을 생성하는 데이터 그룹 분류부;
    생성된 상기 복수의 그룹에 포함된 다수의 인원의 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 각 그룹별로 시계열 특성 변수화를 수행하여 시간의 흐름에 따른 검진 결과에 미치는 영향력을 적어도 하나의 시계열 특성 변수로 산출하는 시계열 특성 변수화부;
    상기 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 산출된 상기 적어도 하나의 시계열 특성 변수를 적용하고, 적용된 다수의 인원의 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 각 그룹별로 COX 회귀 분석을 수행하여 각 그룹 별로 질병 발생 위험도를 계산하는 위험도 계산부; 및
    계산된 각 그룹 별 질병 발생 위험도를 차이값을 이용하여 위험도 변화량을 산출하여 발병 예상 정보를 생성하는 발병 예상 정보 생성부를 포함하고,
    상기 데이터 전처리부는,
    미리 설정된 전처리 기준에 따라 선정된 적어도 하나의 질환 연관성 요인에 포함된 질환 관련 인자가 개별 검진 결과값으로는 경향성 기준 또는 판단 기준으로 사용될 수 없는 것으로 분류되는 경우, 경향성 기준 또는 판단 기준으로 사용될 수 있도록 상기 미리 설정된 전처리 기준에 따라 검진 결과 데이터에서 산출 혹은 재가공하는 전처리를 수행하여 전체 검진 대상 기간별 시계열 검진 데이터로 생성하는 것을 특징으로 하는 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치.
  2. 제 1 항에 있어서 상기 연관성 분석 수행부는,
    다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 타겟 질환에 대하여 질환 연관성 분석, 빅데이터 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행하는 것을 특징으로 하는 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치.
  3. 제 2 항에 있어서 상기 연관성 분석 수행부는,
    다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터를 대상으로 타겟 질환의 발병 가능성에 대한 복수의 질환 관련 인자의 연관성 분석을 수행하여, 연관성이 높은 것으로 도출된 질환 관련 인자를 질환 연관성 요인 후보로 선정하는 질환 연관성 분석부를 더 포함하는 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치.
  4. 제 2 항에 있어서 상기 연관성 분석 수행부는,
    텍스트 기반의 질환 관련 자료가 저장된 데이터 베이스로부터 크롤링을 이용하여 복수의 데이터를 수집하고, 수집된 복수의 데이터를 대상으로 텍스트 마이닝을 수행하여 질환 연관성 요인 후보를 선정하는 빅데이터 분석부를 더 포함하는 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치.
  5. 제 2 항에 있어서 상기 연관성 분석 수행부는,
    타겟 질환과 질환 관련 인자에 대한 영향을 주제로 한 복수의 질환 관련 자료를 메타 분석 모델에 입력하여, 상기 복수의 질환 관련 자료 별로 질환 관련 인자별의 효과 크기를 산출하여, 상기 효과 크기에 따라 질환 연관성 요인 후보를 선정하는 메타 분석 수행부를 더 포함하는 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치.
  6. 제 2 항에 있어서 상기 질환 연관성 요인 선정부는,
    질환 연관성 분석, 빅데이터 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행하여 생성된 복수의 질환 연관성 요인 후보를 각각 대비하여 생성된 질환 연관성 요인 후보들 모두에 포함되어 있는 질환 관련 인자만을 질환 연관성 요인으로 선정하는 것을 특징으로 하는 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치.
  7. 제 1 항에 있어서 상기 데이터 전처리부는,
    선정된 적어도 하나의 질환 연관성 요인에 포함된 질환 관련 인자에 대한 개별 검진 결과값을 검진 결과 데이터로부터 수집하고, 수집된 개별 검진 결과값을 시계열로 나열하는 전처리를 수행하여 전체 검진 대상 기간별 시계열 검진 데이터로 생성하는 것을 특징으로 하는 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치.
  8. 삭제
  9. 제 1 항에 있어서 상기 데이터 전처리부는,
    상기 미리 설정된 전처리 기준은 질환 관련 인자가 개별 검진 결과값을 전처리 없이 집단 추세 모형에 입력하여 결과 값을 낼 수 없는 질환 관련 인자의 종류에 대한 정보 및 상기 질환 관련 인자의 전처리 방법에 대한 정보를 포함하는 것을 특징으로 하는 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치.
  10. 제 1 항에 있어서 상기 데이터 그룹 분류부는,
    각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 대상으로 궤적 형태를 추정하여 각 그룹별로 궤적 형태의 차이를 대비하여 분류된 그룹의 분류 적합도를 검증하는 것을 특징으로 하는 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치.
  11. 제 1 항에 있어서 상기 시계열 특성 변수화부는,
    각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 시간 변동 공변량 산출 모델에 입력하여 시간의 흐름에 따라 개별 검진 결과값에 대한 영향력을 각 시점별 공변량으로 산출하며, 산출된 상기 각 시점별 공변량을 시계열 특성 변수로 사용하는 시점별 공변량 산출부를 더 포함하는 것을 특징으로 하는 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치.
  12. 제 1 항에 있어서 상기 시계열 특성 변수화부는,
    각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 시간 의존 연관성 산출 모델에 입력하여 COX 모델에 입력될 독립변수와 종속 변수 간의 시점 별 연관성 크기를 산출하며, 산출된 상기 각 시점별 연관성 크기를 시계열 특성 변수로 사용하는 시간 의존 연관성 산출부를 더 포함하는 것을 특징으로 하는 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치.
  13. 다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력 받아 질환 연관성 요인 후보를 선정하는 복수의 분석을 수행하는 단계;
    상기 복수의 분석 별 질환 연관성 요인 후보로 선정된 복수의 질환 관련 인자 중 서로 겹치는 정도에 따라 적어도 하나의 질환 연관성 요인을 선정하는 단계;
    상기 선정된 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터 중 데이터의 2차 가공이 필요한 질환 연관성 요인을 대상으로 미리 설정된 전처리 기준에 따라 데이터를 가공하는 단계;
    집단 추세 모형을 이용하여 시간의 흐름에 따른 적어도 하나의 질환 연관성 요인에 대한 다수의 인원의 검진 결과 데이터에 포함된 개별 검진 결과값들의 변화를 기준으로 상기 다수의 인원을 그룹핑 하여 복수의 그룹을 생성하는 단계;
    생성된 상기 복수의 그룹에 포함된 다수의 인원의 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 각 그룹별로 시계열 특성 변수화를 수행하여 시간의 흐름에 따른 검진 결과에 미치는 영향력을 적어도 하나의 시계열 특성 변수로 산출하는 단계;
    상기 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 산출된 상기 적어도 하나의 시계열 특성 변수를 적용하고, 적용된 다수의 인원의 질환 연관성 요인에 대한 검진 결과 데이터를 대상으로 각 그룹별로 COX 회귀 분석을 수행하여 각 그룹 별로 질병 발생 위험도를 계산하는 단계; 및
    계산된 각 그룹 별 질병 발생 위험도를 차이값을 이용하여 위험도 변화량을 산출하여 발병 예상 정보를 생성하는 단계를 포함하고,
    상기 데이터를 가공하는 단계는,
    미리 설정된 전처리 기준에 따라 선정된 적어도 하나의 질환 연관성 요인에 포함된 질환 관련 인자가 개별 검진 결과값으로는 경향성 기준 또는 판단 기준으로 사용될 수 없는 것으로 분류되는 경우, 경향성 기준 또는 판단 기준으로 사용될 수 있도록 상기 미리 설정된 전처리 기준에 따라 검진 결과 데이터에서 산출 혹은 재가공하는 전처리를 수행하여 전체 검진 대상 기간별 시계열 검진 데이터로 생성하는 것을 특징으로 하는 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 방법.
  14. 제 13 항에 있어서 상기 복수의 분석을 수행하는 단계는,
    다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터 또는 복수의 질환 관련 자료를 입력받아 타겟 질환에 대하여 질환 연관성 분석, 빅데이터 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행하는 것을 특징으로 하는 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 방법.
  15. 제 14 항에 있어서 상기 복수의 분석을 수행하는 단계는,
    다수의 인원의 시간의 흐름에 따른 검진 결과를 포함한 검진 결과 데이터를 대상으로 타겟 질환의 발병 가능성에 대한 복수의 질환 관련 인자의 연관성 분석을 수행하여, 연관성이 높은 것으로 도출된 질환 관련 인자를 질환 연관성 요인 후보로 선정하는 단계를 더 포함하는 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 방법.
  16. 제 14 항에 있어서 상기 복수의 분석을 수행하는 단계는,
    텍스트 기반의 질환 관련 자료가 저장된 데이터 베이스로부터 크롤링을 이용하여 복수의 데이터를 수집하고, 수집된 복수의 데이터를 대상으로 텍스트 마이닝을 수행하여 질환 연관성 요인 후보를 선정하는 단계를 더 포함하는 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 방법.
  17. 제 14 항에 있어서 상기 복수의 분석을 수행하는 단계는,
    타겟 질환과 질환 관련 인자에 대한 영향을 주제로 한 복수의 질환 관련 자료를 메타 분석 모델에 입력하여, 상기 복수의 질환 관련 자료 별로 질환 관련 인자별의 효과 크기를 산출하여, 상기 효과 크기에 따라 질환 연관성 요인 후보를 선정하는 단계를 더 포함하는 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 방법.
  18. 제 14 항에 있어서 상기 질환 연관성 요인을 선정하는 단계는,
    질환 연관성 분석, 빅데이터 분석, 메타 분석 중 적어도 하나 이상의 분석을 수행하여 생성된 복수의 질환 연관성 요인 후보를 각각 대비하여 생성된 질환 연관성 요인 후보들 모두에 포함되어 있는 질환 관련 인자만을 질환 연관성 요인으로 선정하는 것을 특징으로 하는 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 방법.
  19. 제 13 항에 있어서 상기 데이터를 가공하는 단계는,
    선정된 적어도 하나의 질환 연관성 요인에 포함된 질환 관련 인자에 대한 개별 검진 결과값을 검진 결과 데이터로부터 수집하고, 수집된 개별 검진 결과값을 시계열로 나열하는 전처리를 수행하여 전체 검진 대상 기간별 시계열 검진 데이터로 생성하는 것을 특징으로 하는 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 방법.
  20. 삭제
  21. 제 13 항에 있어서 상기 데이터를 가공하는 단계는,
    상기 미리 설정된 전처리 기준은 질환 관련 인자가 개별 검진 결과값을 전처리 없이 집단 추세 모형에 입력하여 결과 값을 낼 수 없는 질환 관련 인자의 종류에 대한 정보 및 상기 질환 관련 인자의 전처리 방법에 대한 정보를 포함하는 것을 특징으로 하는 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 방법.
  22. 제 13 항에 있어서 상기 복수의 그룹을 생성하는 단계는,
    각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 대상으로 궤적 형태를 추정하여 각 그룹별로 궤적 형태의 차이를 대비하여 분류된 그룹의 분류 적합도를 검증하는 것을 특징으로 하는 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 방법.
  23. 제 13 항에 있어서 상기 시계열 특성 변수로 산출하는 단계는,
    각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 시간 변동 공변량 산출 모델에 입력하여 시간의 흐름에 따라 개별 검진 결과값에 대한 영향력을 각 시점별 공변량으로 산출하며, 산출된 상기 각 시점별 공변량을 시계열 특성 변수로 사용하는 단계를 더 포함하는 것을 특징으로 하는 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 방법.
  24. 제 13 항에 있어서 상기 시계열 특성 변수로 산출하는 단계는,
    각 그룹에 포함된 인원들의 검진 결과 데이터에 포함된 질환 연관성 요인 별 개별 검진 결과값들을 시간 의존 연관성 산출 모델에 입력하여 COX 모델에 입력될 독립변수와 종속 변수 간의 시점 별 연관성 크기를 산출하며, 산출된 상기 각 시점별 연관성 크기를 시계열 특성 변수로 사용하는 단계를 더 포함하는 것을 특징으로 하는 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 방법.
KR1020210134876A 2021-10-12 2021-10-12 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치 및 그 방법 KR102405900B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210134876A KR102405900B1 (ko) 2021-10-12 2021-10-12 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치 및 그 방법
PCT/KR2022/009112 WO2023063528A1 (ko) 2021-10-12 2022-06-27 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210134876A KR102405900B1 (ko) 2021-10-12 2021-10-12 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR102405900B1 true KR102405900B1 (ko) 2022-06-08

Family

ID=81981641

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210134876A KR102405900B1 (ko) 2021-10-12 2021-10-12 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치 및 그 방법

Country Status (2)

Country Link
KR (1) KR102405900B1 (ko)
WO (1) WO2023063528A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023063528A1 (ko) * 2021-10-12 2023-04-20 주식회사 바스젠바이오 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치 및 그 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170023770A (ko) * 2014-06-25 2017-03-06 삼성전자주식회사 진단모델 생성 시스템 및 방법
KR20180058159A (ko) * 2016-11-23 2018-05-31 주식회사 셀바스에이아이 질환 발병 예측 방법 및 장치
KR20210053064A (ko) * 2019-11-01 2021-05-11 주식회사 피씨티 생활습관정보의 위험요인 정도에 따라 대장암 관련 정보를 예측하는 방법 및 시스템.

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101925506B1 (ko) * 2017-12-12 2018-12-06 한국과학기술정보연구원 감염병 확산 예측 방법 및 장치
KR102288056B1 (ko) * 2019-08-06 2021-08-11 고려대학교 산학협력단 인공지능을 이용한 암환자 예후인자 중요도 분석 및 치료계획 처방적 분석 시스템
KR102405900B1 (ko) * 2021-10-12 2022-06-08 주식회사 바스젠바이오 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치 및 그 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170023770A (ko) * 2014-06-25 2017-03-06 삼성전자주식회사 진단모델 생성 시스템 및 방법
KR20180058159A (ko) * 2016-11-23 2018-05-31 주식회사 셀바스에이아이 질환 발병 예측 방법 및 장치
KR20210053064A (ko) * 2019-11-01 2021-05-11 주식회사 피씨티 생활습관정보의 위험요인 정도에 따라 대장암 관련 정보를 예측하는 방법 및 시스템.

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023063528A1 (ko) * 2021-10-12 2023-04-20 주식회사 바스젠바이오 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치 및 그 방법

Also Published As

Publication number Publication date
WO2023063528A1 (ko) 2023-04-20

Similar Documents

Publication Publication Date Title
Chitra et al. Review of heart disease prediction system using data mining and hybrid intelligent techniques
Padmanaban et al. Applying machine learning techniques for predicting the risk of chronic kidney disease
Bhat et al. Prevalence and early prediction of diabetes using machine learning in North Kashmir: a case study of district bandipora
KR102382707B1 (ko) 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치 및 그 방법
CN108985929B (zh) 训练方法、业务数据分类处理方法及装置、电子设备
JP6750055B2 (ja) 顔画像からの定性的特徴を評価するコンピュータ実行ツールを構築する方法
CN112016097B (zh) 一种预测网络安全漏洞被利用时间的方法
KR102405900B1 (ko) 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치 및 그 방법
RU2607977C1 (ru) Способ создания модели объекта
Bhoomika et al. Ensemble Learning Approaches for Detecting Parkinson's Disease
KR102389479B1 (ko) 시간 변동 공변량 기반의 prs 모델을 이용한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법
CN109344852A (zh) 图像识别方法和装置、分析仪器和存储介质
Vaňhara et al. Artificial neural networks for fly identification: A case study from the genera Tachina and Ectophasia (Diptera, Tachinidae)
Praveen et al. Diabetes Prediction with Ensemble Learning Techniques in Machine Learning
CN114357855A (zh) 基于平行卷积神经网络的结构损伤识别方法和装置
Sharma et al. Prediction of Parkinson's Disease Using Machine Learning Techniques
KR20170079553A (ko) 설문 기반 체질 판단 방법 및 장치
Hadi et al. Classification of COVID-19 Disease Using Genes Expression and Deep Learning Technique
Singh et al. Malaria parasite recognition in thin blood smear images using squeeze and excitation networks
Abhilash et al. Prognostication Of Diabetes Using Data Mining Models
Khilar et al. Analyzing the Occurrence of Stroke using Machine Learning-A comparative Study on Supervised Learning Models
Agarwal An augmentation in the diagnostic potency of breast cancer through a deep learning cloud-based AI framework to compute tumor malignancy & risk
CN109583500A (zh) 一种基于深度漂移-扩散方法的美学图像质量预测系统及方法
Billah Symptom analysis of Parkinson disease using SVM-SMO and Ada-Boost classifiers
JP7435821B2 (ja) 学習装置、心理状態系列予測装置、学習方法、心理状態系列予測方法、及びプログラム

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant