KR20180058466A - 질환 발병 확률 예측 모델 학습 방법 및 장치 - Google Patents

질환 발병 확률 예측 모델 학습 방법 및 장치 Download PDF

Info

Publication number
KR20180058466A
KR20180058466A KR1020160157476A KR20160157476A KR20180058466A KR 20180058466 A KR20180058466 A KR 20180058466A KR 1020160157476 A KR1020160157476 A KR 1020160157476A KR 20160157476 A KR20160157476 A KR 20160157476A KR 20180058466 A KR20180058466 A KR 20180058466A
Authority
KR
South Korea
Prior art keywords
disease
data
prediction model
generating
event
Prior art date
Application number
KR1020160157476A
Other languages
English (en)
Other versions
KR101923654B1 (ko
Inventor
최상훈
채명훈
박서진
이관홍
민충기
Original Assignee
주식회사 셀바스에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 셀바스에이아이 filed Critical 주식회사 셀바스에이아이
Priority to KR1020160157476A priority Critical patent/KR101923654B1/ko
Publication of KR20180058466A publication Critical patent/KR20180058466A/ko
Application granted granted Critical
Publication of KR101923654B1 publication Critical patent/KR101923654B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/22Social work or social welfare, e.g. community support activities or counselling services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06Q50/24
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q90/00Systems or methods specially adapted for administrative, commercial, financial, managerial or supervisory purposes, not involving significant data processing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

본 발명은 질환 발병 확률 예측 모델 학습 방법 및 장치에 관한 발명이며, 본 발명의 일 실시예에 따른 질환 발병 확률 예측 모델 학습 방법은 적어도 하나의 외부 데이터베이스로부터 복수의 항목을 포함하는 원본 데이터를 수신하는 단계, 원본 데이터를 기초로 미리 결정된 기준에 따라 1회의 진료 또는 1회의 건강 검진을 하나의 이벤트로 나타내는 가공 데이터를 생성하는 단계, 가공 데이터에 포함된 복수의 이벤트 각각에 대한 질환 예측 모델을 생성하는 단계, 질환 예측 모델에 가공 데이터를 대입하여, 질환 발병 여부를 나타내는 출력값을 산출하는 단계, 출력값과 정답을 비교하는 단계 및 비교된 결과에 따라 상기 질환 예측 모델을 업데이트하는 단계를 포함하고, 가공 데이터에 대해 미리 결정된 질환 확률과 질환 예측 모델을 통해 산출된 질환 발병 확률을 비교하고 비교된 결과에 따라 질환 예측 모델을 업데이트하여, 질환 예측 모델을 통해 산출되는 질환 발병 확률의 정확성을 높일 수 있는 질환 발병 확률 예측 모델 학습 방법 및 장치를 제공할 수 있는 효과가 있다.

Description

질환 발병 확률 예측 모델 학습 방법 및 장치{METHOD AND APPARATUS FOR MACHINE-LEARNING OF A MODEL PREDICTING PROBABILITY OF OUTBREAK OF DISEASE}
본 발명은 질환 발병 확률 예측 모델 학습 방법 및 장치에 관한 것으로서, 보다 상세하게는 이벤트와 이벤트에 해당하는 정답을 학습하여 특정 이벤트가 입력되었을 때 특정 이벤트에 대한 질환 발병 확률을 산출할 수 있는 질환 예측 모델을 생성하는 질환 발병 예측 학습 장법 및 장치에 관한 것이다.
의료업계에서는 질환 발병을 예측하기 위하여 하나의 요소만을 사용하거나, 복수의 요소들을 기초로 통계학적으로만 활용하고 있고, 복수의 요소들을 필터링하여 필수적인 요소를 추출하는 데는 한계가 있다. 따라서, 의료 데이터를 활용하여, 의료 데이터에 포함된 복수의 요소들을 기초로 머신 러닝을 통해 추출된 요소를 다차원 형태로 고려하게 된다면 훨씬 높은 정확도의 질환 발병 확률을 예측할 수 있으며, 더 나아가, 한국인에게 적합한 질환 발병 예측 모델을 구현할 수 있다.
[관련기술문헌]
치주질환 예측 시스템 및 이를 이용한 치주질환 예측 방법 (공개특허 10-2016-0083502호)
본 발명이 해결하고자 하는 과제는 직접적으로 질환으로 결정될 수 있는 데이터를 제외하여 가공 데이터를 생성함으로써, 정확도가 높은 질환 발병 확률을 산출하는 모델을 생성할 수 있는 질환 발병 확률 예측 모델 학습 방법 및 장치를 제공하는 것이다.
본 발명이 해결하고자 하는 다른 과제는 가공 데이터에 대해 미리 결정된 질환 발병 확률과 질환 예측 모델을 통해 산출된 질환 발병 확률을 비교하고 비교된 결과에 따라 질환 예측 모델을 업데이트하여, 질환 예측 모델을 통해 산출되는 질환 발병 확률의 정확성을 높일 수 있는 질환 발병 확률 예측 모델 학습 방법 및 장치를 제공하는 것이다.
발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 질환 발병 확률 예측 모델 학습 방법은 적어도 하나의 외부 데이터베이스로부터 복수의 항목을 포함하는 원본 데이터를 수신하는 단계, 원본 데이터를 기초로 미리 결정된 기준에 따라 1회의 진료 또는 1회의 건강 검진을 하나의 이벤트로 나타내는 가공 데이터를 생성하는 단계, 가공 데이터에 포함된 복수의 이벤트 각각에 대한 질환 예측 모델을 생성하는 단계, 질환 예측 모델에 가공 데이터를 대입하여, 질환 발병 여부를 나타내는 출력값을 산출하는 단계, 출력값과 정답을 비교하는 단계 및 비교된 결과에 따라 질환 예측 모델을 업데이트하는 단계를 포함한다.
본 발명의 다른 특징에 따르면, 가공 데이터는, 사회학적 데이터, 적어도 상기 1회의 진료를 포함하는 진료 기록 데이터 및 적어도 상기 1회의 건강 검진을 포함하는 건강 검진 데이터 중 하나 이상을 가공하여 상기 1회의 진료 또는 상기 1회의 건강 검진으로 나타낸 상기 하나의 이벤트일 수 있다.
본 발명의 다른 특징에 따르면, 가공 데이터는, 질환자, 비질환자 각각의 상기 이벤트에 대한 비율이 동일할 수 있다.
본 발명의 다른 특징에 따르면, 정답은, 질환 발병 여부를 0 또는 1로 나타낼 수 있다.
본 발명의 또 다른 특징에 따르면, 정답은, 주상병이 부여된 시점 이후부터 1로 결정될 수 있다.
본 발명의 또 다른 특징에 따르면, 정답은, 발병 시점에만 1로 결정될 수 있다..
본 발명의 또 다른 특징에 따르면, 정답은, 발병 시점 직전부터 0 이상 1이하로 결정될 수 있다.
본 발명의 또 다른 특징에 따르면, 가공 데이터를 생성하는 단계는, 이벤트에 포함된 상기 복수의 항목 중 복용 약품 분류 코드 및 복용 약품 투약량을 나열하는 단계, 복용 약품 분류 코드와 예측하려는 질환이 연관 관계가 있는지 결정하는 단계 및 복용 약품 분류 코드와 질환이 연관된 경우, 상기 복용 약품 분류 코드 및 상기 복용 약품 투약량를 삭제하는 단계를 포함함할 수 있다.
본 발명의 또 다른 특징에 따르면, 질환 발병 확률 예측 모델 학습 방법은 가공 데이터의 시간 구간 내에서 선택된 일부의 시간 구간을 갖는 추가 가공 데이터를 생성하는 단계를 더 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 추가 가공 데이터를 생성하는 단계는, 가공 데이터가 질환자에 대한 데이터인 경우, 질환 발병 시점을 포함하는 시간 구간 내에서 선택된 시간 구간에 해당하는 가공 데이터를 추가 가공 데이터로 생성하는 단계일 수 있다.
본 발명의 또 다른 특징에 따르면, 추가 가공 데이터를 생성하는 단계는, 가공 데이터가 비질환자에 대한 데이터인 경우, 선택된 시간 구간에 해당하는 가공 데이터를 추가 가공 데이터로 생성하는 단계일 수 있다.
본 발명의 또 다른 특징에 따르면, 가공 데이터를 생성하는 단계는, 원본 데이터에 포함된 진료 기록 데이터 중 직접적으로 질환을 판별할 수 있는 데이터를 제외하도록 진료 데이터를 필터링하는 단계를 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 가공 데이터를 생성하는 단계는, 질환자와 비질환자의 이벤트에 대한 평균 길이를 보정하는 단계를 더 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 가공 데이터를 생성하는 단계는, 복수의 항목에 해당하는 각각의 단위를 추출하는 단계 및 각각의 단위를 상기 가공 데이터에 필요한 단위로 변환하는 단계를 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 가공 데이터를 생성하는 단계는, 복수의 항목에 해당하는 값의 각각의 평균 및 표준편차를 계산하는 단계 및 평균 및 표준편차를 z-score로 변환하는 단계를 포함할 수 있다.
전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 질환 발병 확률 예측 모델 학습 장치는 적어도 하나의 외부 데이터베이스로부터 복수의 항목을 포함하는 원본 데이터를 수신하도록 구성된 통신부 및 원본 데이터를 기초로 미리 결정된 기준에 따라 1회의 진료 또는 1회의 건강 검진을 하나의 이벤트로 나타내는 가공 데이터를 생성하도록 구성된 프로세서 및 원본 데이터 및 가공 데이터를 저장하는 저장부를 포함하고, 프로세서는, 가공 데이터에 포함된 복수의 이벤트 각각에 대한 질환 예측 모델을 생성하고, 질환 예측 모델에 가공 데이터를 대입하여, 질환 발병 여부를 나타내는 출력값을 산출하고, 출력값과 정답을 비교하고, 비교된 결과에 따라 질환 예측 모델을 업데이트하도록 구성된다.
본 발명의 다른 특징에 따르면, 프로세서는, 이벤트에 포함된 복수의 항목 중 복용 약품 분류 코드 및 복용 약품 투약량을 나열하고, 복용 약품 분류 코드와 예측하려는 질환이 연관 관계가 있는지 결정하고, 복용 약품 분류 코드와 상기 질환이 연관된 경우, 복용 약품 분류 코드 및 투약량 데이터를 삭제하도록 구성될 수 있다.
본 발명의 또 다른 특징에 따르면, 프로세서는, 가공 데이터의 시간 구간 내에서 선택된 일부의 시간 구간을 갖는 추가 가공 데이터를 생성하도록 구성될 수 있다.
본 발명의 또 다른 특징에 따르면, 프로세서는, 원본 데이터에 포함된 진료 기록 데이터 중 직접적으로 질환을 판별할 수 있는 데이터를 제외하도록 진료 데이터를 필터링하도록 구성될 수 있다.
본 발명의 또 다른 특징에 따르면, 프로세서는, 질환자와 비질환자의 이벤트에 대한 평균 길이를 보정하도록 구성될 수 있다.
기타 실시예의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명은 직접적으로 질환 발병으로 결정될 수 있는 데이터를 제외하여 가공 데이터를 생성함으로써, 정확도가 높은 질환 발병 확률을 산출하는 모델을 생성할 수 있는 질환 발병 확률 예측 모델 학습 방법 및 장치를 제공할 수 있는 효과가 있다.
본 발명은 가공 데이터에 대해 미리 결정된 질환 발병 확률과 질환 예측 모델을 통해 산출된 질환 발병 확률을 비교하고 비교된 결과에 따라 질환 예측 모델을 업데이트하여, 질환 예측 모델을 통해 산출되는 질환 발병 확률의 정확성을 높일 수 있는 질환 발병 확률 예측 모델 학습 방법 및 장치를 제공할 수 있는 효과가 있다.
본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.
도 1은 본 발명의 일 실시예에 따른 질환 발병 확률 예측 모델 학습 방법을 설명하기 위한 개략도이다.
도 2는 본 발명의 일 실시예에 따른 질환 발병 확률 예측 모델 학습 장치의 개략적인 구성을 도시한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 질환 발병 확률 예측 모델 학습 방법에 따라 질환 예측 모델을 생성하고, 업데이트하는 절차를 도시한 순서도이다.
도 4a 내지 도 4c는 본 발명의 일 실시예에 따라 정답을 나타내는 그래프이다.
도 5a 내지 도 5c는 본 발명의 일 실시예에 따라 심혈관 질환과 연관된 데이터를 제외한 가공 데이터 테이블을 도시한 개략도들이다.
도 6a은 본 발명의 일 실시예에 따라 질환자에 대한 추가 가공 데이터를 도시한 개략도이다.
도 6b는 본 발명의 일 실시예에 따라 비질환자에 대한 추가 가공 데이터를 도시한 개략도이다.
도 6c는 본 발명의 일 실시예에 따라 질환자에 대한 추가 가공 데이터 및 비질환자에 대한 추가 가공 데이터의 구성 테이블을 도시한 개략도이다.
도 6d는 가공 데이터만으로 질환 예측 모델을 학습했을 경우와 가공 데이터 및 추가 가공 데이터로 질환 예측 모델을 학습했을 경우의 성능 데이터 테이블을 도시한 개략도이다.
도 7a 내지 도 7b는 본 발명의 일 실시예에 따라 복수의 항목의 값을 정규화하여 입력한 가공 데이터 테이블을 도시한 개략도들이다.
도 8a 내지 도 8b는 본 발명의 일 실시예에 따라 복수의 항목의 값을 정의된 단위로 변환하여 입력한 가공 데이터 테이블을 도시한 개략도들이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 발명의 실시예를 설명하기 위한 도면에 개시된 형상, 크기, 비율, 각도, 개수 등은 예시적인 것이므로 본 발명이 도시된 사항에 한정되는 것은 아니다. 또한, 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명은 생략한다. 본 명세서 상에서 언급된 '포함한다', '갖는다', '이루어진다' 등이 사용되는 경우, '~만'이 사용되지 않는 이상 다른 부분이 추가될 수 있다. 구성요소를 단수로 표현한 경우에 특별히 명시적인 기재 사항이 없는 한 복수를 포함하는 경우를 포함한다.
구성요소를 해석함에 있어서, 별도의 명시적 기재가 없더라도 오차 범위를 포함하는 것으로 해석한다.
비록 제1, 제2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않는다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있다.
별도로 명시하지 않는 한 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.
도 1은 본 발명의 일 실시예에 따른 질환 발병 확률 예측 모델 학습 방법을 설명하기 위한 개략도이다.
도 1을 참조하면, 질환 발병 예측 학습 시스템 (1000) 은 가공 데이터 (100) 에 대한 질환 예측 모델 (200) 을 생성하고, 질환 예측 모델 (200) 을 통해 산출된 출력값 (300) 과 미리 결정된 정답 (400) 을 비교한 결과 (500) 에 따라 질환 예측 모델 (200) 을 업데이트하는 시스템이다.
가공 데이터 (100) 는 외부의 데이터베이스로부터 수신된 원본 데이터를 가공한 데이터로서, 미리 결정된 기준에 따라 원본 데이터를 통합하여 하나의 이벤트를 포함하도록 가공된다. 가공 데이터 (100) 는 적어도 하나의 이벤트를 포함한다. 이벤트는 심혈관 질환 발병 확률과 연관된 의료 관련 활동으로 정의된다. 예를 들어, 이벤트는 병원에서의 진료, 처방 또는 건강 검진으로 정의될 수 있다. 하나의 이벤트는 동일자의 진료와 처방을 포함할 수도 있다. 이 때, 가공 데이터 (100) 의 개수와 가공 데이터 (100) 에 포함된 이벤트의 개수는 제한되지 않는다. 이벤트의 길이가 길어짐에 따라 발생하는 질환 예측 모델 (200) 의 학습 성능 하락의 원인을 가공 데이터 (100) 의 생성을 통해 해결할 수 있다.
질환 예측 모델 (200) 은 입력된 데이터를 연산 처리하여, 출력값 (300) 을 산출하는 모델이다. 이 때, 입력된 데이터는 가공 데이터 (100) 이며, 출력값 (300) 은 질환 발병 여부이다. 질환 예측 모델 (200) 은 복수의 가공 데이터 (100) 를 입력받을 수 있으며, 복수의 가공 데이터 (100) 각각에 해당하는 각각의 출력값 (300) 을 산출할 수 있다. 더 나아가, 질환 예측 모델 (200) 은 복수의 가공 데이터 (100) 를 연산 처리하여 복수의 가공 데이터 (100) 에 대한 하나의 출력값 (300) 을 산출할 수 있다.
출력값 (300) 은 질환 발병 여부에 대한 값으로, 질환 예측 모델 (200) 에 의해 산출된다. 이 때, 출력값 (300) 은 복수의 가공 데이터 (100) 각각에 해당하는 복수의 출력값 (300) 및 복수의 가공 데이터 (100) 에 해당하는 하나의 출력값 (300) 일 수 있다. 질환이 발병할 가능성이 있는 경우, 출력값 (300) 은 1에 근접한 값을 가지며, 질환이 발병할 가능성이 없는 경우, 출력값 (300) 은 0에 근접한 값을 가진다. 더 나아가, 임의의 이벤트에 대한 출력값 (300) 은 하나 이상일 수 있다. 예를 들어, 임의의 이벤트에 대한 출력값 (300) 은 질환 발병 확률과 질환이 발병하지 않을 확률인 2개의 출력으로 구성되어, 1의 값을 가질 수 있다. 또한, 임의의 이벤트에 대한 출력값 (300) 은 세분화된 질환의 확률 각각에 대응하여 복수의 출력으로 구성될 수 있다.
정답 (400) 은 가공 데이터 (100) 에 대응하여 미리 결정된 값으로, 가공 데이터 (100) 에 포함된 이벤트에 대한 질환 발병 여부이다. 이 때, 정답 (400) 은 0 또는 1의 값을 가진다. 즉, 1은 질환이 발병되었을 때의 값이고, 0은 질환이 발병되지 않았을 때의 값이다.
결과 (500) 는 출력값 (300) 과 정답 (400) 을 비교하여 결정된 결과에 대한 데이터이다. 예를 들어, 출력값 (300) 이 질환이 발병되지 않을 수치값이고, 정답 (400) 이 질환이 발병되었을 때의 값인 경우, 결과 (500) 는 출력값 (300) 과 정답 (400) 은 일치하지 않는다는 데이터를 포함한다. 이 때, 결과 (500) 에 따라 질환 예측 모델 (200) 은 업데이트될 수 있다.
이하에서는, 질환 예측 모델을 구현하는 질환 발병 확률 예측 모델 학습 장치 (600) 에서의 질환 발병 확률 예측 모델 학습 방법에 대한 보다 상세한 설명을 위해 도 2를 함께 참조한다.
도 2는 본 발명의 일 실시예에 따른 질환 발병 확률 예측 모델 학습 장치의 개략적인 구성을 도시한 블록도이다. 설명의 편의를 위해 도 1을 참조하여 설명한다.
도 2를 참조하면, 질환 발병 확률 예측 모델 학습 장치 (600) 는 통신부 (610), 프로세서 (620) 및 저장부 (630) 를 포함한다.
질환 발병 확률 예측 모델 학습 장치 (600) 의 통신부 (610) 는 적어도 하나의 외부 데이터베이스로부터 복수의 항목을 포함하는 원본 데이터를 수신하도록 구성된다. 여기서, 외부 데이터란, 건강보험공단의 건강 검진 코호트 데이터베이스, 진료기관의 진료 및 검진 데이터베이스의 데이터일 수 있다. 건강 검진 코호트 데이터베이스는 건강 보험 및 의료급여권자 전체에 대한 진료 명세서와 치료 내역, 상병 내역, 처방전 내역 등에 대한 데이터를 포함한다. 또한, 통신부 (610) 는 산출된 심혈관 질환 발병 확률을 의료 기관, 보험사 및 개인에게 제공할 수 있다.
질환 발병 확률 예측 모델 학습 장치 (600) 의 프로세서 (620) 는 원본 데이터를 기초로 미리 결정된 기준에 따라 1회의 진료 또는 1회의 건강 검진을 하나의 이벤트로 나타내는 가공 데이터를 생성하도록 구성된다. 이 때, 프로세서 (620) 는 심혈관 질환을 암시할 수 있는 일부의 이벤트를 삭제하여 가공 데이터를 생성할 수 있다. 또한, 프로세서 (620) 는 가공 데이터의 시간 구간 내에서 선택된 일부의 시간 구간을 갖는 추가 가공 데이터를 생성할 수 있다. 따라서, 프로세서 (620) 는 가공 데이터 뿐만 아니라 추가 가공 데이터에 포함된 복수의 이벤트 각각에 대한 질환 예측 모델을 생성하고, 질환 예측 모델에 가공 데이터를 대입하여, 출력값을 산출한다. 더 나아가, 프로세서 (620) 는 출력값과 정답을 비교하여, 비교한 결과에 따라 질환 예측 모델을 업데이트하도록 구성된다.
질환 발병 확률 예측 모델 학습 장치 (600) 의 저장부 (630) 는 수신한 데이터 및 생성된 데이터를 저장한다. 구체적으로, 저장부 (630) 는 외부 데이터베이스로부터 수신한 원본 데이터, 원본 데이터를 기초로 생성한 가공 데이터를 저장하며 더 나아가, 산출한 출력값을 저장한다. 또한, 저장부 (630) 는 정답 또한 저장할 수 있는데, 정답은 통신부 (610) 를 통해 외부 데이터베이스로부터 수신할 수도 있고, 사용자로부터 입력받을 수도 있다.
이하에서는 질환 발병 확률 예측 모델 학습 방법에 대한 보다 상세한 설명을 위해 도 3을 함께 참조한다.
도 3은 본 발명의 일 실시예에 따른 질환 발병 확률 예측 모델 학습 방법에 따라 질환 예측 모델을 생성하고, 업데이트하는 절차를 도시한 순서도이다. 이하에서는 설명의 편의를 위해 심혈관 질환 발병 예측 모델을 학습하는 방법에 대해서 설명한다. 그러나, 이에 제한되지 않고, 본 발명의 일 실시예에 따른 질환 발병 예측 모델 학습 방법은 다양한 질환 발병 예측 모델을 학습시키는데 사용될 수 있다. 또한, 설명의 편의를 위해 도 2의 구성 요소들과 도면 부호를 참조하여 설명한다.
질환 발병 확률 예측 모델 학습 장치 (600) 의 통신부 (610) 는 적어도 하나의 외부 데이터베이스로부터 복수의 항목을 포함하는 원본 데이터를 수신한다 (S310).
구체적으로, 통신부 (610) 는 사회학적 데이터, 적어도 1회의 진료를 포함하는 진료 기록 데이터 및 적어도 1회의 건강 검진을 포함하는 건강 검진 데이터인 원본 데이터 중 하나 이상을 수신한다. 여기서, 사회학적 데이터는 건강 보험 가입자 및 의료 급여 수급권자의 건강 보장 자격 정보로, 성, 연령, 거주 지역과 같은 인구 사회학적 정보, 사망일자, 사망원인을 포함하는 사망관련 정보, 건강보험 가입 여부, 의료급여 지급 여부와 같은 건강보장 유형 및 소득 분위 및 장애 등록 정보를 포함하는 사회 경제적 수준 및 기타 정보를 포함한다. 또한, 진료 기록 데이터는 요양 급여 비용 명세서 상의 의료 이용 내역 및 의료비 발생 내역을 의미한다. 진료 기록 데이터는 의료 기관 이용 정보, 요양 급여 비용, 진료 과목, 진료 상병 정보, 진찰, 처치, 수술, 기타 행위 급여 내역, 치료 재료 등의 상세 진료 내역을 포함한다. 구체적인 원본 데이터의 특징, 외부 데이터베이스에서의 필드명은 표 1과 같다.
특징 건강검진 코호트DB 필드 명 비고
시간 NHIS_HEALS_HC.HME_DT, NHIS_HEALS_GY.RECU_FR_DT, NHIS_HEALS_GY.DTH_MDY 이벤트 시간과 2002년 1월 1일과의 차이 값
NHIS_HEALS_JK.SEX
연령 NHIS_HEALS_JK.AGE
소득분위 NHIS_HEALS_JK.CTRB_PT_TYPE_CD categorical type으로 9개의 특징을 가짐
장애중증도구분 NHIS_HEALS_JK.DFAB_GRD_CD
장애유형코드 NHIS_HEALS_JK.DFAB_PTN_CD
검진기관종별코드 NHIS_HEALS_JK.YKIHO_GUBUN_CD
체질량지수 NHIS_HEALS_HC.BMI
허리둘레 NHIS_HEALS_HC.WAIST
수축기혈압 NHIS_HEALS_HC.BP_HIGH
이완기혈압 NHIS_HEALS_HC.BP_LWST
식전혈당 NHIS_HEALS_HC.BLDS
총콜레스테롤 NHIS_HEALS_HC.TOT_CHOLE
트리글리세라이드 NHIS_HEALS_HC.TRIGLYCERIDE
HDL콜레스테롤 NHIS_HEALS_HC.HDL_CHOLE
LDL콜레스테롤 NHIS_HEALS_HC.LDL_CHOLE
혈색소 NHIS_HEALS_HC.HMG
요단백 NHIS_HEALS_HC.OLIG_PROTE_CD
혈청크레아틴 NHIS_HEALS_HC.CREATININE
혈청지오티 NHIS_HEALS_HC.SGOT_AST
혈청지피티 NHIS_HEALS_HC.SGPT_ALT
감마지티피 NHIS_HEALS_HC.GAMMA_GTP
간장 질환 유무 가족력 NHIS_HEALS_HC.FMLY_LIVER_DISE_PATIEN_YN
가족력 뇌졸증 유무 NHIS_HEALS_HC.FMLY_APOP_PATIEN_YN
가족력 심장별 유무 NHIS_HEALS_HC.FMLY_HDISE_PATIEN_YN
가족력 고혈압 유무 NHIS_HEALS_HC.FMLY_HPRTS_PATIEN_YN
가족력 당뇨병 유무 NHIS_HEALS_HC.FMLY_DIABML_PATIEN_YN
가족력 암유무 유무 NHIS_HEALS_HC.FMLY_CANCER_PATIEN_YN
흡연상태 NHIS_HEALS_HC.SMK_STAT_TYPE_RSPS_CD
1회 음주량 NHIS_HEALS_HC.TM1_DRKQTY_RSPS_CD
뇌졸증 과거 병력 NHIS_HEALS_HC.HCHK_APOP_PMH_YN
심장병 과거 병력 NHIS_HEALS_HC.HCHK_HDISE_PMH_YN
고혈압 과거 병력 NHIS_HEALS_HC.HCHK_HPRTS_PMH_YN
당뇨병 과거 병력 NHIS_HEALS_HC.HCHK_DIABML_PMH_YN
고지혈증 과거 벙력 NHIS_HEALS_HC.HCHK_HPLPDM_PMH_YN
폐결핵 과거 벙력 NHIS_HEALS_HC.HCHK_PHSS_PMH_YN
기타(암포함) 과거 병력 NHIS_HEALS_HC.HCHK_ETCDSE_PMH_YN
(과거) 흡연기간 NHIS_HEALS_HC.PAST_SMK_TERM_RSPS_CD
(과거) 하루평균흡연량 NHIS_HEALS_HC.PAST_DSQTY_RSPS_CD
(현재) 흡연기간 NHIS_HEALS_HC.CUR_SMK_TERM_RSPS_CD
(현재) 하루평균흡연량 NHIS_HEALS_HC.CUR_DSQTY_RSPS_CD
1주 20분이상 격렬한 운동 NHIS_HEALS_HC.MOV20_WEK_FREQ_ID
1주 30분이상 격렬한 운동 NHIS_HEALS_HC.MOV30_WEK_FREQ_ID
1주 30분이상 걷기 운동 NHIS_HEALS_HC.WLK30_WEK_FREQ_ID
인지기능장애 NHIS_HEALS_HC.KDSQ_C
인지기능/동년배와비교 NHIS_HEALS_HC.KDSQ_C_1
인지기능/1년전과비교 NHIS_HEALS_HC.KDSQ_C_2
인지기능/중요한일지장여부 NHIS_HEALS_HC.KDSQ_C_3
인지기능/타인의본인증상인지 NHIS_HEALS_HC.KDSQ_C_4
인지기능/일상생활지장여부 NHIS_HEALS_HC.KDSQ_C_5
1주 운동 횟수 NHIS_HEALS_HC.EXERCI_FREQ_RSPS_CD
더 나아가, 원본 데이터는 외부 데이터베이스 중 건강검진코호트 데이터베이스에서 심혈관 질환 혹은 암의 과거력이 없는 80세 미만의 데이터만 사용한다. 다양한 원본 데이터를 수신하기 때문에, 지역, 문화적인 특징, 그리고 시대에 따라 차이가 나는 환경적인 요인으로 인한 질환 발병 예측 정확도가 떨어지는 문제를 추가적인 데이터 수집, 지역별 복수의 질환 예측 모델을 생성하는 방법 등으로 보완할 수 있는 장점이 있다.
이어서, 프로세서 (620) 는 원본 데이터를 기초로 미리 결정된 기준에 따라 1회의 진료 또는 1회의 건강 검진을 하나의 이벤트로 나타내는 가공 데이터를 생성한다 (S320).
여기서, 가공 데이터는 사회학적 데이터, 적어도 1회의 진료를 포함하는 진료 기록 데이터 및 적어도 1회의 건강 검진을 포함하는 건강 검진 데이터 중 하나 이상을 가공하여 1회의 진료 또는 1회의 건강 검진으로 나타낸 하나의 이벤트이다. 예를 들어, 프로세서 (620) 는 개인 일련 번호, 복용 약품 분류 코드, 복용 약품 투약량 등의 항목을 하루의 요양 개시 일자, 즉 1회의 진료 또는 1회의 건강 검진에 따라 분류함으로써 하나의 이벤트로 구성하여 미리 결정된 기준에 따라 가공 데이터를 생성한다. 이 때, 가공 데이터는 이벤트에 대한 정답을 필수적으로 포함한다.
생성되는 가공 데이터는 질환자, 비질환자 각각의 이벤트에 대한 비율이 동일하도록 설정될 수 있다. 또한, 질환자와 비질환자의 이벤트에 대한 평균 길이는 프로세서 (620) 에 의해 보정된다. 즉, 프로세서 (620) 는 질환자와 비질환자의 이벤트에 대한 개수와 길이를 동일하게 함으로써, 질환자와 비질환자의 데이터를 동일하게 고려하여 출력값의 산출 정확도를 높일 수 있다.
이 때, 프로세서 (620) 는 원본 데이터에 포함된 진료 기록 데이터 중 직접적으로 심혈관 질환을 판별할 수 있는 데이터를 제외하도록 진료 및 건강 검진 이벤트를 필터링하여 가공 데이터를 생성할 수 있다. 예를 들어, 프로세서 (620) 는 동맥 경화증, 협심증, 심근 경색증과 관련된 진료 데이터를 제외하도록 필터링하여 가공 데이터를 생성할 수 있다.
또한, 몇몇 실시예에서, 프로세서 (620) 는 이벤트에 포함된 복수의 항목 중 복용 약품 분류 코드 및 복용 약품 투약량을 나열하고, 복용 약품 분류 코드와 예측하려는 심혈관 질환이 연관 관계가 있는지 결정한다. 예를 들어, 프로세서 (620) 는 나열한 복용 약품 분류 코드 및 복용 약품 투약량이 혈전을 녹이는 기능이 있는 경우, 복용 약품 분류 코드가 심혈관 질환과 연관 관계가 있다고 결정한다. 복용 약품 분류 코드와 심혈관 질환이 연관된 경우, 프로세서 (620) 는 복용 약품 분류 코드 및 투약량을 삭제한다. 심혈관 질환과 상관관계가 높은 데이터는 제외하여 가공 데이터를 생성함으로써, 심혈관 질환을 암시하는 데이터가 입력되었다고해서 무조건적으로 심혈관 질환이 발병되었다고 결정하지 않도록 할 수 있다. 구체적인 상관관계가 높은 데이터를 제외하여 가공 데이터를 생성하는 실시예는 도 5a 내지 도 5c를 참조하여 상세히 후술한다.
다양한 실시예에서, 프로세서 (620) 는 복수의 항목에 해당하는 각각의 단위를 추출한다. 예를 들어, 프로세서 (620) 는 키 및 몸무게의 단위인 m와 kg을 추출한다. 이어서, 프로세서 (620) 는 각각의 단위를 가공 데이터에서 정의된 단위로 변환한다. 예를 들어, 가공 데이터에서 정의된 단위가 ft와 lb인 경우, 프로세서 (620) 는 키 및 몸무게 항목에 해당하는 단위를 m에서 ft로, kg에서 lb로 변환한다. 즉, 프로세서 (620) 는 복수의 항목에 해당하는 단위를 변환함으로써, 하나의 항목에 대해 각각 다른 경우에 단위를 통일할 수 있다. 구체적인 복수의 항목의 값을 정의된 단위로 변환하여 입력한 가공 데이터 테이블에 대해서는 도 8a 및 도 8b를 참조하여 상세히 후술한다.
한편, 다양한 실시예에서, 프로세서 (620) 는 이벤트에 포함된 복수의 항목의 데이터에 대한 평균 및 표준편차를 계산한다. 이어서, 프로세서 (620) 는 계산한 평균 및 표준편차를 z-score로 변환하여 복수의 항목의 데이터에 입력한다. 이벤트에 포함된 복수의 항목의 데이터를 z-score로 변환하여 입력함으로써, 프로세서 (620) 는 각 항목에 대한 데이터를 정규화할 수 있다. 구체적인 복수의 항목의 값을 정규화하여 입력한 가공 데이터 테이블에 대해서는 도 7a 및 도 7b를 참조하여 상세히 후술한다.
또다른 실시예에서, 프로세서 (620) 는 가공 데이터의 시간 구간 내에서 선택된 일부의 시간 구간을 갖는 추가 가공 데이터를 생성할 수도 있다. 구체적으로, 가공 데이터가 질환자에 대한 데이터인 경우, 프로세서 (620) 는 질환 발병 시점을 포함하는 시간 구간 내에서 선택된 시간 구간에 해당하는 가공 데이터를 추가 가공 데이터로 생성한다. 또한, 가공 데이터가 비질환자에 대한 데이터인 경우, 프로세서 (620) 는 선택된 시간 구간에 해당하는 가공 데이터를 추가 가공 데이터로 생성한다. 구체적인 추가 가공 데이터의 생성에 대한 실시예는 도 6a 및 도 6b를 참조하여 상세히 후술한다.
또한, 건강검진코호트 데이터베이스로부터 수신한 51만명에 대한 원본 데이터 중 심혈관 질환자의 데이터는 전체의 7.9% 수준으로 질환자의 데이터보다 음성 데이터가 더 많은 불균형한 데이터이기 때문에, 프로세서 (620) 는 질환자의 데이터 전체와 임의로 선정된 비질환자의 데이터의 표본 집합을 다시 각각 6:2:2 비율로 학습 세트, 검증 세트 및 테스트 세트로 분할할 수 있다. 검증 세트는 질환 예측 모델의 학습 종료 시점을 결정하기 위해 사용되며, 최종적으로 테스트 세트로 질환 예측 모델의 성능을 확인한다. 학습 세트와 검증 세트를 6:2 비율대로 구성하여 학습할 경우 모두 비질환자의 데이터로 편향 학습되어 높은 정확도와 낮은 손실 값을 출력할 수 있다. 따라서, 프로세서 (620) 는 학습 세트와 검증 세트에서의 비질환자의 데이터 및 질환자의 데이터의 비율을 under-sampling 혹은 over-sampling과 같은 방법으로 일치시키고, 테스트 세트의 경우 전체 샘플 구성비대로 질환자 비율을 7.9%로 유지하여 구성할 수 있다.
이어서, 프로세서 (620) 는 가공 데이터에 포함된 복수의 이벤트 각각에 대한 질병 예측 모델을 생성한다 (S330).
즉, 프로세서 (620) 는 가공 데이터에 포함된 복수의 이벤트에 대한 출력값을 산출할 수 있도록 복수의 이벤트 각각에 대한 질병 예측 모델을 생성한다. 이 때, 질병 예측 모델은 여러 층으로 구성될 수 있다. 프로세서 (620) 가 생성한 질병 예측 모델은 가공 데이터에 포함된 복수의 이벤트에 대한 하나의 출력값을 산출할 수도 있고, 복수의 이벤트 각각에 대한 출력값을 산출할 수도 있다.
이어서, 프로세서 (620) 는 질병 예측 모델에 가공 데이터를 대입하여, 질환 발병 여부를 나타내는 출력값을 산출한다 (S340).
여기서, 질병 예측 모델은 입력된 가공 데이터를 머신 러닝에 의해 학습되고, 학습의 결과로 결정된 파라미터들을 적용하여 질환 발병 확률을 산출한다. 이 때, 프로세서 (620) 는 가공 데이터에 포함된 복수의 이벤트 각각에 대한 질환 발병 확률을 산출할 수도 있고, 가공 데이터에 포함된 복수의 이벤트에 대해 통합한 하나의 질환 발병 확률을 산출할 수 있다. 더 나아가, 프로세서 (620) 는 질환의 종류에 따른 발병 확률도 산출할 수 있다. 구체적으로, 프로세서 (620) 는 질병 예측 모델에 복수의 이벤트를 포함하는 가공 데이터를 대입하여, 복수의 이벤트에 대응하는 하나의 출력값을 산출한다. 또한, 프로세서 (620) 는 가공 데이터에 포함된 복수의 이벤트 각각에 대응하는 질환 발병 여부를 나타내는 출력값을 산출할 수 있다. 이 때, 출력값은 질환이 발병될 가능성이 있는 경우, 1에 근접한 값을 갖는다. 또한, 질환이 발병될 가능성이 없는 경우, 0에 근접한 값을 갖는다.
이어서, 프로세서 (620) 는 출력값과 정답을 비교한다 (S350).
정답은 질환 발병 여부를 0 또는 1로 나타낸 값이다. 즉, 정답은 질병 예측 모델에 의해 산출된 값이 아닌 이벤트에 대한 실제의 질환 발병 여부로, 질환 예측 모델이 출력값을 정상적으로 산출했는지 비교하기 위한 값이다. 이 때, 정답은 주상병이 부여된 시점 이후부터 또는 발병 시점에만 1로 결정될 수 있다. 또한, 정답은 발병 시점 직전부터 0 이상 1 이하로 결정될 수 있다. 따라서, 프로세서 (620) 는 미리 결정된 정답과 질환 예측 모델에 의해 산출된 출력값을 비교한다. 구체적인 정답에 대한 종류는 도 4a 내지 도 4c를 참조하여 상세히 후술한다.
이어서, 프로세서 (620) 는 비교된 결과에 따라 질환 예측 모델을 업데이트한다 (S360).
예를 들어, 출력값과 정답이 상이한 경우, 프로세서 (620) 는 질환 예측 모델이 정답과 동일한 출력값을 산출할 수 있도록 질환 예측 모델을 업데이트한다. 또한, 출력값과 정답이 동일한 경우, 프로세서 (620) 는 질환 예측 모델이 계속해서 정답과 동일한 출력값을 산출할 수 있도록 질환 예측 모델을 업데이트 할 수 있다.
다양한 실시예에서, 프로세서 (620) 는 질환 예측 모델 (200) 에서 산출한 하나 이상의 이벤트에 대한 출력값 (300) 이전에 복수의 또 다른 출력값을 산출할 수 있다. 구체적으로, 프로세서 (620) 는 질환 예측 모델 (200) 에서 산출하는 T개의 이벤트 대한 내부 계산값을
Figure pat00001
라 할 수 있으며, 마지막 이벤트 oT 값을 z값으로 변환할 수 있다. 이어서, 프로세서 (620) 는 z값을 변환하여 출력값 (300) 을 산출한다. 이 때, 프로세서 (620) 는 oT 값을 출력값 (300) 의 출력의 개수에 일치되도록 변환하여 z를 산출한다. 프로세서 (620) 는 이하 수학식 1을 사용하여 oT값을 z값으로 변환한다. 설명의 편의를 위해 하나 이상의 이벤트에 대한 하나의 이벤트에 대응 하는 내부 계산값 oT를 선정하여 하나의 발병 확률을 계산하였으나 내부 계산값 o에 대한 각각의 이벤트에 대해 수학식 1, 2를 적용하면 각각의 이벤트에 대한 발병 확률을 출력할 수 있다.
[수학식 1]
Figure pat00002
또한, 프로세서 (620) 는 이하 수학식 2를 이용하여 z값을 출력값 (300) 으로 변환한다. 이어서, 프로세서 (620) 는 이하 수학식 2를 이용하여 심혈관 질환 발병 확률을 산출할 수 있다.
[수학식 2]
Figure pat00003
여기서,
Figure pat00004
이며, z는 출력값, y는 심혈관 질환 발병 확률을 나타낸다. 이 때, K는 출력값을 구성하는 출력의 개수를 의미한다. 예를 들어, 출력값이 질환 발병 확률 및 질환이 발병하지 않을 확률 두가지의 출력으로 구성된 경우, K는 2이다.
이 때, oT는 o의 원소인 oT는 백터이며, 크기는 신경망 내부적으로 정의된 은닉 노드의 크기로 임의로 정의될 수 있다. 예를 들어, 출력값 (300) 을 질환/비질환 확률로 출력값 (300) 의 크기를 2로 정의하고, 은닉 노드의 크기를 6으로 정의하였다면, 프로세서 (620) 는 크기가 일치하지 않기 때문에 최적화할 행렬 W를 두고 크기를 일치킬 수 있다. 아울러 산출된 출력값 (300) 의 범위는 확률 값이 아니기 때문에 프로세서 (620) 는 수학식 2를 사용하여 0 ~ 1 사이의 확률 값으로 변환할 수 있다.
이에 따라, 질환 발병 확률 예측 모델 학습 장치 (600) 는 가공 데이터에 대응하는 정답과 질환 예측 모델을 통해 산출한 출력값을 비교하여, 비교한 결과에 따라 질환 예측 모델을 지속해서 업데이트함으로써, 질환 예측 모델이 정확한 출력값을 산출하도록 하며, 더 나아가, 정확도가 높은 심혈관 질환 발병 확률도 산출할 수 있도록 한다. 또한, 질환 발병 확률 예측 모델 학습 장치 (600) 는 산출한 심혈관 질환 발병 확률을 질환자, 비질환자, 보험사, 의료기관, 건강보험공단 등에 제공하여, 심혈관 질환의 발병을 보다 빨리 예측할 수 있게 함으로써, 질환자는 빠르게 진료받을 수 있도록 하며, 비질환자는 심혈관 질환의 발병을 예방할 수 있도록 한다.
도 4a 내지 도 4c는 본 발명의 일 실시예에 따라 정답을 나타내는 그래프이다.
도 4a를 참조하면, 제1 정답 그래프 (710) 는 진단 결과에 따라 주상병이 부여된 시점 이후에 정답을 1로 나타낸다. 즉, 주상병이 부여되기 전 시점 (711) 의 정답은 0이며, 주상병이 부여된 시점 (712) 및 주상병이 부여된 이후의 시점 (713) 의 정답은 1이다.
도 4b를 참조하면, 제2 정답 그래프 (720) 는 질환 발병 시점에만 정답을 1로 나타낸다. 즉, 질환 발병 이전 시점 (721) 의 정답은 0이며, 질환 발병 시점 (722) 의 정답은 1이다. 또한, 질환 발병 시점 (722) 이후에 특정 요인에 의해 질환이 개선된 경우, 예를 들어, 혈압 질환 관련 질환자의 혈압 수치가 개선된 경우, 질환 발병 이후 시점 (723) 의 정답은 0이다.
도 4c를 참조하면, 제3 정답 그래프 (730) 는 질환 발병 시점 이전부터 질환 발병 시점까지 0 이상 1이하로 나타낸다. 구체적으로, 질환 발병 이전 시점 (731) 의 정답은 0이며, 질환 발병 이전 시점 (731) 에서 질환 발병 시점 (732) 까지의 0에서 1까지 비례하게 증가한다. 즉, 질환 발병 이전 시점 (731) 에서 질환 발병 시점 (732) 까지 질환은 발병되고 있다고 판단하여 정답은 0에서 1까지 비례하게 증가한다. 질환 발병 시점 (732) 에서 질환 발병 이후 시점 (733) 까지 질환이 개선되지 않은 경우, 정답은 1이다.
이에 따라, 질환 발병 확률 예측 모델 학습 장치 (600) 는 주상병이 부여된 시점, 질환 발병 시점 등 다양한 기준으로 정답을 나타내어, 질환 예측 모델이 다양한 경우의 수를 고려할 수 있도록 한다.
도 5a 내지 도 5c는 본 발명의 일 실시예에 따라 심혈관 질환과 연관된 데이터를 제외한 가공 데이터 테이블을 도시한 개략도들이다.
도 5a를 참조하면, 원본 데이터 테이블 (810) 은 하나의 진료 일자 (811, 812) 에 대한 복수의 이벤트를 포함한다. 예를 들어, 원본 데이터 테이블 (810) 은 2002년 12월 07일에 해당하는 진료 일자 (811) 에 대한 2가지의 복용 악품 분류 코드 (821) 및 복용 약품 투약량 (831) 을 포함한다. 따라서, 원본 데이터 테이블 (810) 은 A043016, A054502 인 복용 약품 분류 코드 (821) 에 따라 2002년 12월 07일인 진료 일자 (811) 에 해당하는 2개의 행을 포함한다. 이 때, 2002년 12월 07일인 진료 일자 (811) 에 해당하는 행에는 복용 약품 투약량 (831) 도 포함된다. 마찬가지로, 원본 데이터 테이블 (810) 은 A166503, A037008 인 복용 약품 분류 코드 (822) 에 따라 2002년 12월 21일인 진료 일자 (812) 에 해당하는 2개의 행을 포함한다. 이 때, 2002년 12월 21일인 진료 일자 (812) 에 해당하는 행에는 복용 약품 투약량 (832) 도 포함된다.
도 5b를 참조하면, 제1 가공 데이터 테이블 (820) 은 하나의 진료 일자에 대한 하나의 이벤트를 포함한다. 예를 들어, 제1 가공 데이터 테이블 (820) 은 하나의 행에 진료 일자에 대한 데이터 즉, 복용 약품 분류 코드 각각에 해당하는 복용 약품 투약량을 포함한다. 구체적으로, 제1 가공 데이터 테이블 (820) 은 하나의 진료 일자인 2002년 12월 07일의 진료 일자 (811) 에 복용 약품 분류 코드 (821) 와 복용 약품 투약량 (831) 을 포함한다. 또한, 제1 가공 데이터 테이블 (820) 은 2002년 12월 21일의 진료 일자 (812) 에 복용 약품 분류 코드 (822) 및 복용 약품 투약량 (832) 을 포함한다. 즉, 제1 가공 데이터 테이블 (820) 은 하나의 진료 일자에 해당하는 복수의 이벤트를 통합한 하나의 이벤트에 대한 행을 포함한다. 이 때, 복용 약품 분류 코드 (821, 822) 와 심혈관 질환의 연관 관계가 결정될 수 있다. 예를 들어, 복용 약품 분류 코드 (822) 에 포함된 A166503 및 A166503의 복용 약품 투약량 (832) 은 심혈관 질환과 연관 관계가 있다고 결정될 수 있다.
도 5c를 참조하면, 제2 가공 데이터 테이블 (830) 은 심혈관 질환과 연관된 복용 약품 분류 코드 및 복용 약품 투약량을 제외한 나머지 데이터를 포함한다. 구체적으로, 제2 가공 데이터 테이블 (830) 은 심혈관 질환과 연관된 복용 약품 분류 코드인 A166503과 A166503의 복용 약품 투약량을 제외하고, 심혈관 질환과 연관되지 않은 복용 약품 분류 코드 (821, 822) 및 복용 약품 투약량 (831, 832) 만을 포함한다.
이에 따라, 질환 발병 확률 예측 모델 학습 장치 (600) 는 심혈관 질환과 상관관계가 높은 데이터는 제외하여 가공 데이터를 생성함으로써, 질환 예측 모델이 심혈관 질환과 연관된 데이터가 입력되었다고해서 무조건적으로 심혈관 질환이 발병되었다고 판단하지 않도록 한다.
도 6a은 본 발명의 일 실시예에 따라 질환자에 대한 추가 가공 데이터를 도시한 개략도이다.
도 6a를 참조하면, 질환자의 이벤트 그래프 (910) 는 가공 데이터 (911), 제1 추가 가공 데이터 (912) 및 제2 추가 가공 데이터 (913) 를 포함한다. 가공 데이터 (911) 는 하나의 이벤트를 포함할 수도 있고, 복수의 이벤트를 포함할 수도 있다. 이 때, 가공 데이터 (911) 의 시간 구간은 1로 나타낼 수 있다. 제1 추가 가공 데이터 (912) 는 가공 데이터 (911) 의 3분의 1에 해당하는 시간 구간에 대한 데이터이다. 또한, 제2 추가 가공 데이터 (913) 는 가공 데이터 (911) 의 3분의 2에 해당하는 시간 구간에 대한 데이터이다. 이 때, 제1 추가 가공 데이터 (912) 및 제2 추가 가공 데이터 (913) 는 질환 발병 시점을 포함한다. 설명의 편의를 위해 시간 구간을 3분의 1 및 3분의 2로 기재하였지만, 시간 구간은 한정되지 않는다.
도 6b는 본 발명의 일 실시예에 따라 비질환자에 대한 추가 가공 데이터를 도시한 개략도이다.
도 6b를 참조하면, 비질환자의 이벤트 그래프 (920) 는 가공 데이터 (921), 제1 추가 가공 데이터 (922) 및 제2 추가 가공 데이터 (923) 를 포함한다. 가공 데이터 (921) 는 하나의 이벤트를 포함할 수도 있고, 복수의 이벤트를 포함할 수도 있다. 이 때, 가공 데이터 (921) 의 시간 구간은 1로 나타낼 수 있다. 제1 추가 가공 데이터 (922) 는 가공 데이터 (921) 의 3분의 1에 해당하는 시간 구간에 대한 데이터이다. 또한, 제2 추가 가공 데이터 (923) 는 가공 데이터 (921) 의 3분의 2에 해당하는 시간 구간에 대한 데이터이다. 이 때, 제1 추가 가공 데이터 (922) 및 제2 추가 가공 데이터 (923) 는 가공 데이터 (921) 의 마지막 검진 시점 또는 마지막 진료 시점 전의 무작위로 선택된 시간 구간에 대한 데이터이다. 설명의 편의를 위해 시간 구간을 3분의 1 및 3분의 2로 기재하였지만, 시간 구간은 한정되지 않는다.
도 6c는 본 발명의 일 실시예에 따라 질환자에 대한 추가 가공 데이터 및 비질환자에 대한 추가 가공 데이터의 구성 테이블을 도시한 개략도이다.
도 6c를 참조하면, 데이터 구성 테이블 (930) 는 가공 데이터만을 포함한 학습 세트, 검증 세트, 테스트 세트의 수와 가공 데이터 및 추가 가공 데이터를 포함한 학습 세트, 검증 세트, 테스트 세트의 수를 포함한다. 이 때, 가공 데이터에 대한 학습 세트, 검증 세트 및 테스트 세트는 질환자와 비질환자에 대한 가공 데이터 각각을 포함한다. 또한, 가공 데이터 및 추가 가공 데이터에 대한 학습 세트, 검증 세트 및 테스트 세트도 질환자와 비질환자에 대한 가공 데이터 각각을 포함한다.
도 6d는 가공 데이터만으로 질환 예측 모델을 학습했을 경우와 가공 데이터 및 추가 가공 데이터로 질환 예측 모델을 학습했을 경우의 성능 데이터 테이블을 도시한 개략도이다.
도 6d를 참조하면, 성능 데이터 테이블 (940) 는 가공 데이터를 적용한 질환 예측 모델 및 가공 데이터와 추가 가공 데이터를 적용한 질환 예측 모델에서의 성능 데이터를 포함한다. 성능 데이터 테이블 (940) 에 포함된 Precision은 양성 데이터로 분류한 질환자 중 실제 양성 데이터의 비율, Recall은 전체 양성 데이터 중 양성 데이터를 얼마나 찾았는지에 대한 비율, Accuracy는 양성 데이터와 음성 데이터의 수를 맞춘 비율, F1 Score은 Precision 및 Recall을 통합한 지표를 의미한다. 가공 데이터를 적용한 질환 예측 모델과 가공 데이터와 추가 가공 데이터를 적용한 질환 예측 모델에서의 F1 Score 값은 유사하지만, 가공 데이터와 추가 가공 데이터를 적용한 질환 예측 모델에서의 Precision은 가공 데이터를 적용한 질환 예측 모델의 Precision보다 약간 크다. 또한, 가공 데이터와 추가 가공 데이터를 적용한 질환 예측 모델에서의 Recall은 가공 데이터를 적용한 질환 예측 모델에서의 Recall보다 약간 작다.
이에 따라, 질환 발병 확률 예측 모델 학습 장치 (600) 는 질환자인 경우, 질환 발병 시점을 포함하는 선택된 시간 구간에 대한 가공 데이터를 추가 가공 데이터로 생성하고, 비질환자인 경우, 무작위로 선택된 시간 구간에 대한 가공 데이터를 추가 가공 데이터로 생성함으로써, 질환 예측 모델이 다양한 경우의 이벤트를 고려할 수 있도록 한다.
도 7a 내지 도 7b는 본 발명의 일 실시예에 따라 복수의 항목의 값을 정규화하여 입력한 가공 데이터 테이블을 도시한 것이다.
도 7a를 참조하면, 원본 데이터 테이블 (1010) 은 개인 일련 번호에 따른 복수의 이벤트를 포함한다. 이 때, 복수의 이벤트는 BMI, 수축기 혈압, 이완기 혈압과 같은 복수의 항목을 포함하며, 복수의 항목은 각각 다른 단위의 수치값으로 입력된다. 예를 들어, BMI는 kg/m2, 수축기 혈압과 이완기 혈압은 mmHg에 해당하는 수치값으로 입력된다.
도 7b를 참조하면, 가공 데이터 테이블 (1020) 은 복수의 항목에 z-score로 변환된 수치값을 포함한다. 이 때, z-score로 변환된 값은 각각 다른 단위의 수치값의 평균 및 표준편차에서 산출된다. 즉, 가공 데이터 테이블 (1020) 는 복수의 항목에 해당하는 각각 다른 단위의 수치값을 하나의 단위로 적용한 것과 같은 값인 z-score 변환 수치값을 복수의 항목에 포함할 수 있다.
이에 따라, 질환 발병 확률 예측 모델 학습 장치 (600) 는 각각 다른 단위의 복수의 항목을 z-score로 변환함으로써, 복수의 항목에 동일한 기준값을 적용하여 질환 발병 확률에 영향을 주는 항목을 보다 용이하게 인식할 수 있도록 한다.
도 8a 내지 도 8b는 본 발명의 일 실시예에 따라 복수의 항목의 값을 정의된 단위로 변환하여 입력한 가공 데이터 테이블을 도시한 것이다.
도 8a를 참조하면, 원본 데이터 테이블 (1110) 은 개인 일련 번호에 따른 복수의 이벤트를 포함한다. 이 때, 복수의 이벤트는 키, 몸무게, 현재 흡연 기간, 현재 하루 평균 흡연량, 1회 음주량인 복수의 항목을 포함한다. 이 때, 하나의 항목에 대응하는 수치값은 각각 다른 단위로 입력될 수 있다. 예를 들어, 키는 cm, ft, 몸무게는 kg, lb, 현재 흡연 기간은 5년 단위, 1년 단위, 현재 하루 평균 흡연량은 반갑 단위, 개피 단위, 1회 음주량은 소주 반병 단위, 소주잔 단위로 입력될 수 있다.
도 8b를 참조하면, 가공 데이터 테이블 (1120) 은 하나의 항목에 동일한 단위의 수치값을 포함한다. 예를 들어, 가공 데이터 테이블 (1120) 은 cm인 키, kg인 몸무게, 1년 단위의 현재 흡연 기간, 개피 단위인 현재 하루 평균 흡연량, 소주잔 단위인 1회 음주량인 항목에 해당하는 수치값을 포함한다.
이에 따라, 질환 발병 확률 예측 모델 학습 장치 (600) 는 하나의 항목에 각각 다른 단위의 수치값을 동일한 단위의 수치값으로 생성함으로써, 심혈관 질환 발병 예측 모델이 각각 다른 단위의 수치값으로 구성되었던 원본 데이터도 입력받을 수 있어 보다 다양한 데이터를 기초로 정확도가 높은 질환 발병 확률을 산출할 수 있도록 한다.
본 명세서에서, 각 블록 또는 각 단계는 특정된 논리적 기능 (들) 을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또한, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서에 의해 실행되는 하드웨어, 소프트웨어 모듈 또는 그 2 개의 결합으로 직접 구현될 수도 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM 또는 당업계에 알려진 임의의 다른 형태의 저장 매체에 상주할 수도 있다. 예시적인 저장 매체는 프로세서에 커플링되며, 그 프로세서는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로 (ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형실시될 수 있다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100, 911, 921: 가공 데이터
200: 질환 예측 모델
300: 출력값
400: 정답
500: 결과
600: 질환 발병 확률 예측 모델 학습 장치
610: 통신부
620: 프로세서
630: 저장부
710: 제1 정답 그래프
711: 주상병이 부여되기 전 시점
712: 주상병이 부여된 시점
713: 주상병이 부여된 이후의 시점
720: 제2 정답 그래프
721, 731: 질환 발병 이전 시점
722, 732: 질환 발병 시점
723, 733: 질환 발병 이후 시점
730: 제3 정답 그래프
810: 원본 데이터 테이블
811, 812: 진료 일자
820: 제1 가공 데이터 테이블
821, 822: 복용 약품 분류 코드
830: 제2 가공 데이터 테이블
831, 832: 복용 약품 투약량
910: 질환자의 이벤트 그래프
912, 922: 제1 추가 가공 데이터
913, 923: 제2 추가 가공 데이터
920: 비질환자의 이벤트 그래프
1000: 질환 발병 예측 학습 시스템
1010, 1110: 원본 데이터 테이블
1020, 1120: 가공 데이터 테이블

Claims (20)

  1. 적어도 하나의 외부 데이터베이스로부터 복수의 항목을 포함하는 원본 데이터를 수신하는 단계;
    상기 원본 데이터를 기초로 미리 결정된 기준에 따라 1회의 진료 또는 1회의 건강 검진을 하나의 이벤트로 나타내는 가공 데이터를 생성하는 단계;
    상기 가공 데이터에 포함된 상기 복수의 이벤트 각각에 대한 질환 예측 모델을 생성하는 단계;
    상기 질환 예측 모델에 상기 가공 데이터를 대입하여, 질환 발병 여부를 나타내는 출력값을 산출하는 단계;
    상기 출력값과 정답을 비교하는 단계; 및
    비교된 결과에 따라 상기 질환 예측 모델을 업데이트하는 단계를 포함하는, 질환 발병 확률 예측 모델 학습 방법.
  2. 제1항에 있어서,
    상기 가공 데이터는,
    사회학적 데이터, 적어도 상기 1회의 진료를 포함하는 진료 기록 데이터 및 적어도 상기 1회의 건강 검진을 포함하는 건강 검진 데이터 중 하나 이상을 가공하여 상기 1회의 진료 또는 상기 1회의 건강 검진으로 나타낸 상기 하나의 이벤트인, 질환 발병 확률 예측 모델 학습 방법.
  3. 제1항에 있어서,
    상기 가공 데이터는,
    질환자, 비질환자 각각의 상기 이벤트에 대한 비율이 동일한, 질환 발병 확률 예측 모델 학습 방법.
  4. 제1항에 있어서,
    상기 정답은,
    상기 질환 발병 여부를 0 또는 1로 나타낸, 질환 발병 확률 예측 모델 학습 방법.
  5. 제4항에 있어서,
    상기 정답은,
    주상병이 부여된 시점 이후부터 1로 결정되는, 질환 발병 확률 예측 모델 학습 방법.
  6. 제4항에 있어서,
    상기 정답은,
    발병 시점에만 1로 결정되는, 질환 발병 확률 예측 모델 학습 방법.
  7. 제4항에 있어서,
    상기 정답은,
    발병 시점 직전부터 0 이상 1이하로 결정되는, 질환 발병 확률 예측 모델 학습 방법.
  8. 제1항에 있어서,
    상기 가공 데이터를 생성하는 단계는,
    상기 이벤트에 포함된 상기 복수의 항목 중 복용 약품 분류 코드 및 복용 약품 투약량을 나열하는 단계;
    상기 복용 약품 분류 코드와 예측하려는 질환이 연관 관계가 있는지 결정하는 단계; 및
    상기 복용 약품 분류 코드와 상기 질환이 연관된 경우, 상기 복용 약품 분류 코드 및 상기 복용 약품 투약량를 삭제하는 단계를 포함하는, 질환 발병 확률 예측 모델 학습 방법.
  9. 제1항에 있어서,
    상기 가공 데이터의 시간 구간 내에서 선택된 일부의 시간 구간을 갖는 추가 가공 데이터를 생성하는 단계를 더 포함하는, 질환 발병 확률 예측 모델 학습 방법.
  10. 제9항에 있어서,
    상기 추가 가공 데이터를 생성하는 단계는,
    상기 가공 데이터가 질환자에 대한 데이터인 경우,
    질환 발병 시점을 포함하는 시간 구간 내에서 선택된 시간 구간에 해당하는 상기 가공 데이터를 상기 추가 가공 데이터로 생성하는 단계인, 질환 발병 확률 예측 모델 학습 방법.
  11. 제9항에 있어서,
    상기 추가 가공 데이터를 생성하는 단계는,
    상기 가공 데이터가 비질환자에 대한 데이터인 경우,
    선택된 시간 구간에 해당하는 상기 가공 데이터를 상기 추가 가공 데이터로 생성하는 단계인, 질환 발병 확률 예측 모델 학습 방법.
  12. 제1항에 있어서,
    상기 가공 데이터를 생성하는 단계는,
    상기 원본 데이터에 포함된 진료 기록 데이터 중 직접적으로 질환을 판별할 수 있는 데이터를 제외하도록 상기 이벤트를 필터링하는 단계를 포함하는, 질환 발병 확률 예측 모델 학습 방법.
  13. 제1항에 있어서,
    상기 가공 데이터를 생성하는 단계는,
    질환자와 비질환자의 상기 이벤트에 대한 평균 길이를 보정하는 단계를 더 포함하는, 질환 발병 확률 예측 모델 학습 방법.
  14. 제1항에 있어서,
    상기 가공 데이터를 생성하는 단계는,
    상기 복수의 항목에 해당하는 각각의 단위를 추출하는 단계; 및
    상기 각각의 단위를 상기 가공 데이터에 필요한 단위로 변환하는 단계를 포함하는, 질환 발병 확률 예측 모델 학습 방법.
  15. 제1항에 있어서,
    상기 가공 데이터를 생성하는 단계는,
    상기 복수의 항목에 해당하는 값의 각각의 평균 및 표준편차를 계산하는 단계; 및
    상기 평균 및 표준편차를 z-score로 변환하는 단계를 포함하는, 질환 발병 확률 예측 모델 학습 방법.
  16. 적어도 하나의 외부 데이터베이스로부터 복수의 항목을 포함하는 원본 데이터를 수신하도록 구성된 통신부; 및
    상기 원본 데이터를 기초로 미리 결정된 기준에 따라 1회의 진료 또는 1회의 건강 검진을 하나의 이벤트로 나타내는 가공 데이터를 생성하도록 구성된 프로세서; 및
    상기 원본 데이터 및 상기 가공 데이터를 저장하는 저장부를 포함하고,
    상기 프로세서는,
    상기 가공 데이터에 포함된 상기 복수의 이벤트 각각에 대한 질환 예측 모델을 생성하고,
    상기 질환 예측 모델에 상기 가공 데이터를 대입하여, 질환 발병 여부를 나타내는 출력값을 산출하고,
    상기 출력값과 정답을 비교하고,
    비교된 결과에 따라 상기 질환 예측 모델을 업데이트하도록 구성된, 질환 발병 확률 예측 모델 학습 장치.
  17. 제16항에 있어서,
    상기 프로세서는,
    상기 이벤트에 포함된 상기 복수의 항목 중 복용 약품 분류 코드 및 복용 약품 투약량을 나열하고,
    상기 복용 약품 분류 코드와 예측하려는 질환이 연관 관계가 있는지 결정하고,
    상기 복용 약품 분류 코드와 상기 질환이 연관된 경우, 상기 복용 약품 분류 코드 및 상기 투약량 데이터를 삭제하도록 구성된, 질환 발병 확률 예측 모델 학습 장치.
  18. 제16항에 있어서,
    상기 프로세서는,
    상기 가공 데이터의 시간 구간 내에서 선택된 일부의 시간 구간을 갖는 추가 가공 데이터를 생성하도록 구성된, 질환 발병 확률 예측 모델 학습 장치.
  19. 제16항에 있어서,
    상기 프로세서는,
    상기 원본 데이터에 포함된 진료 기록 데이터 중 직접적으로 질환을 판별할 수 있는 데이터를 제외하도록 상기 이벤트를 필터링하도록 구성된, 질환 발병 확률 예측 모델 학습 장치.
  20. 제16항에 있어서,
    상기 프로세서는,
    질환자와 비질환자의 상기 이벤트에 대한 평균 길이를 보정하도록 구성된, 질환 발병 확률 예측 모델 학습 장치.
KR1020160157476A 2016-11-24 2016-11-24 질환 발병 확률 예측 모델 학습 방법 및 장치 KR101923654B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160157476A KR101923654B1 (ko) 2016-11-24 2016-11-24 질환 발병 확률 예측 모델 학습 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160157476A KR101923654B1 (ko) 2016-11-24 2016-11-24 질환 발병 확률 예측 모델 학습 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20180058466A true KR20180058466A (ko) 2018-06-01
KR101923654B1 KR101923654B1 (ko) 2018-11-29

Family

ID=62635357

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160157476A KR101923654B1 (ko) 2016-11-24 2016-11-24 질환 발병 확률 예측 모델 학습 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101923654B1 (ko)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102013692B1 (ko) * 2018-11-09 2019-08-23 한국과학기술정보연구원 자살 치명도 예측 장치 및 방법
CN111133524A (zh) * 2018-08-31 2020-05-08 谷歌有限责任公司 隐私优先的设备上联合健康建模和干预
WO2020180135A1 (ko) * 2019-03-06 2020-09-10 주식회사 인포메디텍 뇌 질환 예측 장치 및 방법, 뇌 질환을 예측하기 위한 학습 장치
WO2021134027A1 (en) * 2019-12-27 2021-07-01 Henry M. Jackson Foundation For The Advancement Of Military Medicine Predicting and addressing severe disease in individuals with sepsis
CN113057586A (zh) * 2021-03-17 2021-07-02 上海电气集团股份有限公司 一种病症预警方法、装置、设备及介质
KR20210084224A (ko) * 2019-12-27 2021-07-07 주식회사 라이프시맨틱스 보험 설계를 위한 질환예측 서비스 시스템
KR20210153499A (ko) * 2020-06-10 2021-12-17 주식회사 비플러스랩 발병 질환 예측 방법 및 그 시스템
KR102417448B1 (ko) * 2021-05-20 2022-07-06 한국과학기술정보연구원 머신 러닝 기반 잠복기별 치매 예측 방법, 그리고 이를 구현하기 위한 장치
CN117079825A (zh) * 2023-06-02 2023-11-17 中国医学科学院阜外医院 一种疾病发生概率预测方法及疾病发生概率确定系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019244646A1 (ja) * 2018-06-18 2019-12-26 日本電気株式会社 疾病リスク予測装置、疾病リスク予測方法および疾病リスク予測プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015132903A1 (ja) * 2014-03-05 2015-09-11 株式会社日立製作所 医療データ分析システム、医療データ分析方法及び記憶媒体

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111133524A (zh) * 2018-08-31 2020-05-08 谷歌有限责任公司 隐私优先的设备上联合健康建模和干预
KR102013692B1 (ko) * 2018-11-09 2019-08-23 한국과학기술정보연구원 자살 치명도 예측 장치 및 방법
WO2020180135A1 (ko) * 2019-03-06 2020-09-10 주식회사 인포메디텍 뇌 질환 예측 장치 및 방법, 뇌 질환을 예측하기 위한 학습 장치
KR20210096292A (ko) * 2019-03-06 2021-08-04 주식회사 뉴로젠 뇌 질환 예측 장치 및 방법, 뇌 질환을 예측하기 위한 학습 장치
WO2021134027A1 (en) * 2019-12-27 2021-07-01 Henry M. Jackson Foundation For The Advancement Of Military Medicine Predicting and addressing severe disease in individuals with sepsis
KR20210084224A (ko) * 2019-12-27 2021-07-07 주식회사 라이프시맨틱스 보험 설계를 위한 질환예측 서비스 시스템
KR20210153499A (ko) * 2020-06-10 2021-12-17 주식회사 비플러스랩 발병 질환 예측 방법 및 그 시스템
CN113057586A (zh) * 2021-03-17 2021-07-02 上海电气集团股份有限公司 一种病症预警方法、装置、设备及介质
CN113057586B (zh) * 2021-03-17 2024-03-12 上海电气集团股份有限公司 一种病症预警方法、装置、设备及介质
KR102417448B1 (ko) * 2021-05-20 2022-07-06 한국과학기술정보연구원 머신 러닝 기반 잠복기별 치매 예측 방법, 그리고 이를 구현하기 위한 장치
CN117079825A (zh) * 2023-06-02 2023-11-17 中国医学科学院阜外医院 一种疾病发生概率预测方法及疾病发生概率确定系统
CN117079825B (zh) * 2023-06-02 2024-01-19 中国医学科学院阜外医院 一种疾病发生概率预测方法及疾病发生概率确定系统

Also Published As

Publication number Publication date
KR101923654B1 (ko) 2018-11-29

Similar Documents

Publication Publication Date Title
KR101923654B1 (ko) 질환 발병 확률 예측 모델 학습 방법 및 장치
KR101885111B1 (ko) 질환 발병 예측 방법 및 장치
Rajendra et al. Prediction of diabetes using logistic regression and ensemble techniques
US20200315518A1 (en) Apparatus for processing data for predicting dementia through machine learning, method thereof, and recording medium storing the same
US20170147777A1 (en) Method and apparatus for predicting health data value through generation of health data pattern
US20140095201A1 (en) Leveraging Public Health Data for Prediction and Prevention of Adverse Events
US20110295621A1 (en) Healthcare Information Technology System for Predicting and Preventing Adverse Events
Castelijns et al. Illness burden and physical outcomes associated with collaborative care in patients with comorbid depressive disorder in chronic medical conditions: A systematic review and meta-analysis
Sharma et al. Deep neuro‐fuzzy approach for risk and severity prediction using recommendation systems in connected health care
US20180144103A1 (en) Method and apparatus for predicting probability of outbreak of disease
JP2015090689A (ja) 医療データ分析システム、及び医療データを分析する方法
US20140122382A1 (en) Bayesian modeling of pre-transplant variables accurately predicts kidney graft survival
Pendlebury et al. Delirium risk stratification in consecutive unselected admissions to acute medicine: validation of externally derived risk scores
de Carvalho et al. Machine learning improves the identification of individuals with higher morbidity and avoidable health costs after acute coronary syndromes
Levine et al. Remote vs in-home physician visits for hospital-level care at home: a randomized clinical trial
Muttalib et al. Performance of pediatric mortality prediction models in low-and middle-income countries: a systematic review and meta-analysis
Javeed et al. Predicting dementia risk factors based on feature selection and neural networks
AU2016266046A1 (en) A process for creating a care plan
US20230343431A1 (en) Apparatus and method for determining a composition of a replacement therapy treatment
Turnbull et al. Understanding patients’ perceived health after critical illness: Analysis of two prospective, longitudinal studies of ARDS survivors
Bin-Hezam et al. A machine learning approach towards detecting dementia based on its modifiable risk factors
KR102456208B1 (ko) 의약품 부작용 예측을 기반으로 한 의약품 부작용 관리 시스템 제공 방법 및 이러한 방법을 수행하는 장치
Razali et al. Generating treatment plan in medicine: A data mining approach
Tabish India’s Covid-19 Crisis: Challenges & Strategies
Khan et al. Understanding chronic disease comorbidities from baseline networks: Knowledge discovery utilising administrative healthcare data

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right