KR102292041B1 - 질병 발병 예측을 위한 시구간 단위 데이터 세트 구성 방법 및 그 장치 - Google Patents

질병 발병 예측을 위한 시구간 단위 데이터 세트 구성 방법 및 그 장치 Download PDF

Info

Publication number
KR102292041B1
KR102292041B1 KR1020190140129A KR20190140129A KR102292041B1 KR 102292041 B1 KR102292041 B1 KR 102292041B1 KR 1020190140129 A KR1020190140129 A KR 1020190140129A KR 20190140129 A KR20190140129 A KR 20190140129A KR 102292041 B1 KR102292041 B1 KR 102292041B1
Authority
KR
South Korea
Prior art keywords
data
time period
unit
data set
onset
Prior art date
Application number
KR1020190140129A
Other languages
English (en)
Other versions
KR20210054240A (ko
Inventor
강미라
신수용
조주희
이승은
정옥순
최종수
박영진
박종수
김소정
강단비
임영혁
최윤호
장동경
제갈세용
이진형
문한송
Original Assignee
사회복지법인 삼성생명공익재단
주식회사 브이엔티지
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 사회복지법인 삼성생명공익재단, 주식회사 브이엔티지 filed Critical 사회복지법인 삼성생명공익재단
Priority to KR1020190140129A priority Critical patent/KR102292041B1/ko
Publication of KR20210054240A publication Critical patent/KR20210054240A/ko
Application granted granted Critical
Publication of KR102292041B1 publication Critical patent/KR102292041B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

본 발명은 질병 발병 예측을 위한 데이터 세트 구성 방법에 관한 것으로, 환자의 의료 기록 데이터를 수신하는 과정, 상기 의료 기록 데이터를 시구간 단위에 대응하여 분할함으로써, 적어도 하나 이상의 단위 데이터들을 생성하는 과정, 상기 단위 데이터들을 상기 시구간 단위로 기준 시간이 다른 데이터 세트로 병합하여 적어도 하나 이상의 데이터 세트들을 생성하는 과정을 포함하는 방법을 제공할 수 있다.

Description

질병 발병 예측을 위한 시구간 단위 데이터 세트 구성 방법 및 그 장치 {METHOD FOR COMPRISING TIME INTERVAL UNIT DATA SET TO PREDICT DISEASE AND DEVICE THEREOF}
본 개시(disclosure)는 질병 발병 예측을 위한 시구간 단위 데이터 세트 구성 방법 및 그 장치에 관한 것이다.
의료 기관에서 축적된 환자의 의료 기록 데이터는 환자 한 명의 데이터를 하나의 데이터세트로 인식하여 관리한다. 따라서, 생존 분석(survival analysis) 또는 의료 통계 작업 등의 의료 분석을 수행하기 위해, 질병 발병 경험이 있는 환자들의 데이터만을 사용하는 경우, 데이터의 수가 적어 분석 결과의 신뢰도가 낮고, 질병에 영향을 미치는 변수를 정확하게 파악하기 어려운 문제점이 있다.
예를 들어, 국내의 경우 2013년 기준 연간 19,200여명의 환자가 유방암 진단을 받고 있으며, 유병자 수는 147,000여명에 이르고 있으며, 계속적으로 증가 추세를 보이고 있으므로, 예방적, 치료적 차원에서 유방암 발생 환자들의 데이터를 분석할 필요가 있다. 특히, 유방암과 같은 암의 경우, 질병의 발병과 관련된 변수가 많아 일정 수준 이상의 환자 데이터가 확보되어야 신뢰할 수 있는 결과를 얻을 수 있지만, 의료 기관에서 축적한 질병 발병 확진 경험이 있는 환자들의 데이터는 매우 부족한 상황이므로, 통계에 활용할 수 있는 데이터를 증가시킬 수 있는 방안이 필요하다.
본원 발명의 배경이 되는 기술로는 ⅰ) 일본 공개특허공보 특개2019-040456호(2019.03.14.) (발명 명칭 : 교사 정보 첨부 학습 데이터 생성 방법, 기계 학습 방법, 교사 정보 첨부 학습 데이터 생성 시스템 및 프로그램), ⅱ)한국 공개특허공보 제10-2019-0123609호(2019.11.01.) (발명 명칭 : 딥 어텐션 네트워크를 이용하여 환자 의료 기록으로부터 질병 예후를 예측하는 방법 및 시스템), ⅲ) 일본 공개특허공보 특개2018-140172호(2018.09.13.) (발명 명칭 : 데이터 수집 장치 및 데이터 수집 방법)가 있다.
상술한 바와 같은 논의를 바탕으로, 본 개시(disclosure)는 의료 기관에서 축적하고 있는 데이터의 양을 증가시켜 빅데이터를 구축함으로써, 의료 분석 결과의 신뢰도를 향상시키기 위한 방법 및 그 장치를 제공한다.
본 개시의 다양한 실시 예들에 따르면, 질병 발병 예측을 위한 데이터 세트 구성 방법은 환자의 의료 기록 데이터를 수신하는 과정, 상기 의료 기록 데이터를 시구간 단위에 대응하여 분할함으로써, 적어도 하나 이상의 단위 데이터들을 생성하는 과정, 상기 단위 데이터들을 상기 시구간 단위로 기준 시간이 다른 데이터 세트로 병합하여 적어도 하나 이상의 데이터 세트들을 생성하는 과정을 포함할 수 있다.
본 개시의 다양한 실시 예들에 따르면, 질병 발병 예측을 위한 데이터 세트 구성하기 위한 다중 데이터 생성 장치는 적어도 하나 이상의 프로세서를 포함하고, 상기 적어도 하나이상의 프로세서는, 환자의 의료 기록 데이터를 수신하고, 상기 의료 기록 데이터를 시구간 단위에 대응하여 분할함으로써, 적어도 하나 이상의 단위 데이터들을 생성하고, 상기 단위 데이터들을 상기 시구간 단위로 기준 시간이 다른 데이터 세트로 병합하여 적어도 하나 이상의 데이터 세트들을 생성하도록 구성될 수 있다.
본 발명의 실시 예들에 따르면, 부족한 환자의 의료기록 데이터의 양을 증가시킴으로써, 의료 분석 관련 인공지능 모델의 입력 데이터를 구성할 수 있을 정도의 다수의 의료 기록 데이터를 구성할 수 있다.
도 1은 다양한 실시 예들에 따른, 질병 발병 예측을 위한 시구간 단위 데이터 세트를 구성하고 사용하기 위한 시스템의 일 예이다.
도 2는 다양한 실시 예들에 따른, 환자의 의료 기록 데이터로부터 생성된 데이터 세트들의 일 예이다.
도 3은 다양한 실시 예들에 따른, 환자의 의료 기록 데이터로부터 생성된 데이터 세트들 중 발병 타겟 데이터 세트들을 나타내는 일 예이다.
도 4는 다양한 실시 예들에 따른, 환자의 의료 기록 데이터로부터 생성된 데이터 세트들 중 미발병 타겟 데이터 세트들을 나타내는 일 예이다.
도 5은 다양한 실시 예들에 따른, 질병 발병 예측을 위한 시구간 단위 데이터 세트를 구성하기 위한 방법을 설명하기 위한 흐름도의 일 예이다.
도 6은 다양한 실시 예들에 따른, 질병 발병 예측을 위한 시구간 단위 데이터 세트를 구성하기 위한 방법을 설명하기 위한 흐름도의 다른 예이다.
본 개시에서 사용되는 용어들은 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 다른 실시 예의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 개시에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 본 개시에 사용된 용어들 중 일반적인 사전에 정의된 용어들은, 관련 기술의 문맥상 가지는 의미와 동일 또는 유사한 의미로 해석될 수 있으며, 본 개시에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 개시에서 정의된 용어일지라도 본 개시의 실시 예들을 배제하도록 해석될 수 없다.
이하에서 설명되는 본 개시의 다양한 실시 예들에서 하드웨어적인 접근 방법을 예시로서 설명한다. 하지만, 본 개시의 다양한 실시 예들에서 하드웨어와 소프트웨어를 모두 사용하는 기술을 포함하고 있으므로, 본 개시의 다양한 실시 예들이 소프트웨어 기반의 접근 방법을 제외하는 것은 아니다.
이하 설명에서 사용되는 데이터의 표시에 관련된 변수(예: 파라미터(parameter), 단위, 세트)을 지칭하는 용어, 발명의 동작을 수행하는데 사용되는 객체(예: 전자 장치, 표시 장치, 디스플레이 장치 등)를 지칭하는 용어, 장치의 구성요소를 지칭하는 용어(예: 저장소, 회로, 프로세서, 컨트롤러, 제어부 등) 등은 설명의 편의를 위해 예시된 것이다. 따라서, 본 개시가 후술되는 용어들에 한정되는 것은 아니며, 동등한 기술적 의미를 가지는 다른 용어가 사용될 수 있다.
이하, 본 개시의 다양한 실시 예가 첨부된 도면과 연관되어 기재된다. 본 개시의 다양한 실시 예는 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들이 도면에 예시되고 관련된 상세한 설명이 기재되어 있다. 그러나 이는 본 개시의 다양한 실시 예를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 다양한 실시 예의 사상 및 기술 범위에 포함되는 모든 변경 및/또는 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용되었다.
이하에서, 첨부된 도면을 이용하여 본 발명의 다양한 실시 예들에 대하여 구체적으로 설명한다.
통상적으로 질병 예측 방법(예: 개별 환자 단위의 시간 추적 데이터 및 사건 발생 데이터를 동시에 사용하는 생존 분석(survival analysis) 방법)을 사용하기 위해서는 (1) 개인의 충분한 의료 기록(예: 질병 진단 기록, 건강검진 기록) 데이터가 존재할 것, (2) 의료 기관들에 축적된 데이터들의 양식이 표준화 되어있을 것, (3) 의료 기록 데이터들이 통계에 사용될 수 있을 정도로 충분히 존재할 것이라는 조건이 필요하다. 하지만 환자 개인의 정기적이고 장기간의 의료 기관 방문을 통해 특정 목적의 검사가 수행됨으로써, 의료 기록 데이터가 빠짐없이 축적된 사례는 드물 수 있다. 또한 상기 사례가 존재하더라도 검사를 수행한 의료 기관이 변경되면 검사 방법 및 기준이 상이할 수 있어, 요구되는 개별 환자의 데이터를 충분히 수집하는 것이 어려울 수 있다.
한편 인공지능 기술의 발달로 인해, 질병 예측 분야에서도 다수의 데이터와 심층 신경망 학습을 통해 출력데이터의 특정 패턴을 찾아내어 질병 발병 예측 정확도를 높이는 기술들이 활용되고 있다. 이때, 인공 지능을 활용한 질병 예측에서 개별 환자 중심의 데이터 세트가 사용되고 있어, 개별 환자의 데이터를 충분히 수집하는 것의 어려움으로 인해, 심층 신경망 학습의 중요한 장점을 활용하지 못하고 있다.
따라서, 본 발명은 질병 발병 예측을 위한 인공지능 모델, 기계 학습 모델 또는 심층 신경망 모델의 입력 데이터를 구성함에 있어, 개별 환자의 의료 기록을 추적하여 개인 환자의 시계열적 데이터를 구성하는 방식이 아닌, 개인 환자들의 의료 기록 데이터의 발병 시점 이전 특정 기간의 측정 데이터를 중심으로 데이터 세트를 구성함으로써, 입력 데이터의 수를 증가시킬 수 있는 방법을 제공한다.
본 발병이 제공하는 방법을 활용하면, 특정 질병(예: 유방암)의 의료 분석(예: 생존 분석, 발생 위험도 분석, 생존 기간별 재발 예측 분석)을 위해 수집한 데이터들이라도 인공지능 모델의 입력 데이터를 구성할 수 있는 정도의 다수의 데이터를 구성할 수 있다. 특히, 발병률 및 유병률이 낮은 질병에 있어서, 충분한 의료기록 데이터 확보가 가능하게 함으로써, 인공지능 모델을 사용한 의료 분석을 가능하게 할 수 있다.
본 발명은 인위적으로 데이터를 창출하는 기존의 방식(예: 다운샘플링(down-sampling, 오버샘플링(over-sampling), SMOTE(synthetic minority over-sampling technique)과는 달리 실제 존재하는 데이터를 분할하여 사용하므로 신뢰할 수 있는 데이터를 기반으로 분석의 정확도를 높일 수 있다. 또한, 개별 발병 환자의 검사 이력을 추적하여 진료하는 생존 분석 방법을 사용하지 않더라도, 환자의 의료기록 데이터로부터 구축된 빅데이터와 인공지능기술을 활용하여 정확도 높은 질병 예측 분석을 수행할 수 있다. 또한, 특정 환자 개인의 장기간 데이터를 추적하여 의료 데이터 분석을 수행하는 것보다, 불특정 다수의 발병 전 데이터들을 심층 신경망 학습에 활용함으로써, 특정 질병의 기간별 발병 예측을 효율적으로 수행할 수 있게 한다.
도 1은 다양한 실시 예들에 따른, 질병 발병 예측을 위한 시구간 단위 데이터 세트를 구성하고 사용하기 위한 시스템의 일 예이다. 도 1을 참고하면, 질병 발병 예측을 위한 시구간 단위 데이터 세트를 구성하고 사용하기 위한 시스템은 다중 데이터 생성 장치(101), 데이터 저장소(103), 신경망 학습 장치(105)를 포함할 수 있다.
다중 데이터 생성 장치(101)는, 데이터 저장소(101)로부터 환자의 의료 기록 데이터들을 수신하고, 데이터를 변경 가능한 시구간 단위(예: 1년)로 분할함으로써, 다수의 데이터 세트를 생성할 수 있다. 예를 들어, 다중 데이터 생성 장치(101)는 데이터 저장소(101)로부터 수신한 환자의 의료 기록 데이터들을 기설정된 시구간 단위로 분할하여 단위 데이터들을 생성하고, 단위 데이터들을 기설정된 시구간 단위로 기준 시간이 다른 데이터 세트로 병합하여 적어도 하나 이상의 데이터 세트들을 생성할 수 있다.
일 실시 예에서, 환자의 의료 기록 데이터가 시구간 단위로 연속적으로 존재하지 않더라도, 다중 데이터 생성 장치(101)는 의료 기록 데이터를 시구간 단위로 분할하여 단위 데이터를 생성하고, 단위 데이터들을 병합하여 데이터 세트로 생성할 수 있다. 예를 들어, 환자의 의료 기록이 질병 발병 진단을 받지 않은 2017년에 대응하는 단위 데이터와 질병 발병 진단을 받은 2019년에 대응하는 단위 데이터를 포함하고, 2018년에 대응하는 단위 데이터를 포함하지 않는 경우, 2017년에 대응하는 단위 데이터와 2019년에 대응하는 단위 데이터를 병합하여 데이터 세트를 생성할 수 있다.
일 실시 예에서, 환자의 의료 기록 데이터가 시구간 단위로 연속적으로 존재 하지 않아 시구간 단위로 연속된 단위 데이터들로 분할되지 못하는 경우, 다중 데이터 생성 장치(101)는 의료 기록 데이터를 오버샘플링(over-sampling)함으로써 시구간 단위로 연속적인 단위 데이터들을 생성할 수 있다. 예를 들어, 환자가 2010년-2015년, 2017년-2019년에 의료 기록이 존재하고, 2016년 의료 기록이 존재하지 않아 연 단위로 연속된 단위 데이터들로 분할되지 못하는 경우, 다중 데이터 생성 장치(101)는 의료 기록 데이터를 오버샘플링함으로써, 2016년 의료 기록 데이터를 생성하고, 연 단위로 연속된 단위 데이터들을 생성할 수 있다. 일 실시 예에서, 다중 데이터 생성 장치(101)는 GAN(generative adversarial network) 기법에 기반한 심층 신경망 모델을 학습함으로써, 의료 기록 데이터의 오버샘플링을 수행할 수 있다. 일 실시 예에서, 다중 데이터 생성 장치(101)는 환자의 진료 기록이 적어도 1번 이상 존재하는 경우, 의료 기록 데이터를 오버샘플링함으로써, 시구간 단위로 연속적인 단위 데이터들을 생성할 수 있다.
다중 데이터 생성 장치(101)는 프로세서, 메모리, 입력 장치, 표시 장치, 인터페이스, 통신 모듈을 포함할 수 있다. 프로세서는, 예를 들면, 소프트웨어(예: 프로그램)를 실행하여 프로세서에 연결된 다중 데이터 생성 장치(101)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)을 제어할 수 있고, 다양한 데이터 처리 또는 연산을 수행할 수 있다. 메모리는, 다중 데이터 생성 장치(101)의 적어도 하나의 구성요소(예: 프로세서)에 의해 사용되는 다양한 데이터를 저장할 수 있다. 입력 장치는, 다중 데이터 생성 장치(101)의 구성요소(예: 프로세서)에 사용될 명령 또는 데이터를 외부(예: 사용자, 데이터 저장소(103), 신경망 학습 장치(105))로부터 수신할 수 있다. 입력 장치는, 예를 들면, 마이크, 마우스, 키보드, 또는 디지털 펜(예: 스타일러스 펜)을 포함할 수 있다. 표시 장치는, 예를 들면, 디스플레이, 홀로그램 장치, 또는 프로젝터 및 해당 장치를 제어하기 위한 제어 회로를 포함할 수 있다. 인터페이스는 다중 데이터 생성 장치(101)의 외부 전자 장치(예: 데이터 저장소(103), 신경망 학습 장치(105))와 직접 또는 무선으로 연결되기 위해 사용될 수 있는 하나 이상의 지정된 프로토콜들을 지원할 수 있다. 통신 모듈은 데이터 저장소(103), 신경망 학습 장치(105)와 외부 전자 장치(예: 데이터 저장소(103), 신경망 학습 장치(105))간의 직접(예: 유선) 통신 채널 또는 무선 통신 채널의 수립, 및 수립된 통신 채널을 통한 통신 수행을 지원할 수 있다.
데이터 저장소(103)는 의료 기록 데이터를 저장하고 있고, 다중 데이터 생성 장치가 다수의 데이터 세트를 생성할 수 있도록, 의료 기록 데이터를 전달할 수 있다. 예를 들어, 데이터 저장소(103)는 각 의료 기관의 의료 기록 데이터를 저장하고 있는 서버일 수 있다. 예를 들어, 의료 기록 데이터는 환자들의 특정 질병(예: 유방암)에 대한 질병 진단 정보, 영상 정보, 유전체 정보, 생활 습관 정보 중 적어도 하나 이상을 포함할 수 있다.
일 실시 예에서, 데이터 저장소(103)는 다중 데이터 생성 장치(101)가 의료 기록 데이터를 수신하여 생성한 다수의 데이터 세트를 다중 데이터 생성 장치(101)로부터 전달받아 저장할 수 있다. 일 실시 예에 따르면, 데이터 저장소(103)는 복수의 장치의 조합일 수 있고, 각각은 다중 데이터 생성 장치(101) 또는 신경망 학습 장치(105)와 동일한 또는 다른 종류의 장치일 수 있다.
신경망 학습 장치(105)는 다중 데이터 생성 장치(101)이 생성한 데이터 세트들을 입력 데이터로 하여 신경망 학습을 수행하는 장치일 수 있다. 예를 들어, 신경망 학습 장치(105)는 다중 데이터 생성 장치(101)이 생성한 데이터 세트들을 저장하고 있는 데이터 저장소(103)으로부터, 데이터 세트들을 전달받을 수 있다. 전달받은 데이터 세트들에 기반하여, 신경망 학습을 수행할 수 있다. 예를 들어, 신경망 학습 장치(105)는 전달받은 데이터 세트들을 입력 값으로 특정 질병(예: 유방암) 발생 예측 모델을 신경망 학습함으로써, 특정 질병 예측과 관련된 데이터를 출력할 수 있다. 예를 들어, 신경망 학습 장치(105)는 특정 질병 발생 예측 모델을 신경망 학습함으로써, 특정 질병에 대한 생존 분석 결과, 발병 위험도 분석, 생존 기간별 재발 예측 분석 결과를 출력할 수 있다.
일 실시 예에서, 신경망 학습 장치(105)는 특정 질병에 대한 특정 기간 후 예측 모델을 신경망 학습함으로써, 생존 분석 결과를 출력할 수 있다. 예를 들어, 신경망 학습 장치(105)는 특정 질병에 대한 2년 후 예측 모델을 신경망 학습하고, 다중 데이터 생성 장치(101)가 1년 단위로 단위 데이터를 분할하여 데이터 세트들을 생성하는 경우, 환자의 의료 기록 데이터로부터 생성된 2년 단위 데이터 세트들이 입력 값으로 사용될 수 있다. 환자의 특정 질병 발병 시구간을 포함하는 단위 데이터를 포함하는 데이터 세트를 발병 타겟 데이터 세트로써, 환자의 특정 질병 발병 시구간을 포함하지 않는 단위 데이터를 포함하는 데이터 세트를 미발병 타겟 데이터 세트로써, 2년 후 예측 모델의 입력 값으로 사용함으로써, 2년 후 예측 모델을 신경망 학습하고, 동일한 방법으로 상이한 특정 기간 후 예측 모델을 신경망 학습함으로써, 의료 데이터 분석(예: 생존 분석) 결과를 출력할 수 있다.
일 실시 예에 따르면, 신경망 학습 장치(105)는 복수의 장치의 조합일 수 있고, 각각은 다중 데이터 생성 장치(101) 또는 데이터 저장소(103)와 동일한 또는 다른 종류의 장치일 수 있다.
본 개시의 다양한 실시 예들에 따르면, 발병 예측을 위한 데이터 세트 구성하기 위한 다중 데이터 생성 장치는 적어도 하나 이상의 프로세서를 포함하고, 상기 적어도 하나 이상의 프로세서는, 환자의 의료 기록 데이터를 수신하고, 상기 의료 기록 데이터를 시구간 단위에 대응하여 분할함으로써, 적어도 하나 이상의 단위 데이터들을 생성하고, 상기 단위 데이터들을 상기 시구간 단위로 기준 시간이 다른 데이터 세트로 병합하여 적어도 하나 이상의 데이터 세트들을 생성하도록 구성될 수 있다.
본 개시의 다양한 실시 예들에 따르면, 상기 적어도 하나 이상의 데이터 세트들 각각은, 상기 시구간 단위로 단위 데이터들을 연속적으로 포함하고, 상기 기준 시간은, 상기 적어도 하나 이상의 데이터 세트들 각각이 포함하는 가장 앞서는 시구간에 대응하는 단위 데이터의 시구간의 시간일 수 있다.
본 개시의 다양한 실시 예들에 따르면, 상기 적어도 하나 이상의 프로세서는, 상기 적어도 하나 이상의 데이터 세트들 각각의 포함하는 단위 데이터들 중 마지막 시구간에 대응하는 단위 데이터의 시구간이 환자의 질병이 발병한 시구간인 경우, 상기 데이터 세트를 발병 타겟 데이터 세트로 결정하고, 상기 마지막 시구간에 대응하는 데이터 세트의 마지막 시구간이 환자의 질병이 발병한 시구간이 아닌 경우, 상기 데이터 세트를 미발병 타겟 데이터 세트로 결정하도록 더 구성될 수 있다.
본 개시의 다양한 실시 예들에 따르면, 상기 적어도 하나 이상의 프로세서는,
상기 의료 기록 데이터가 상기 시구간 단위로 단위 데이터들을 연속적으로 포함하지 않는 경우, 상기 의료 기록 데이터를 오버샘플링함으로써 상기 의료 기록 데이터가 상기 시구간 단위로 단위 데이터들을 연속적으로 포함하도록 적어도 하나 이상의 단위 데이터들을 생성하도록 더 구성될 수 있다.
본 개시의 다양한 실시 예들에 따르면, 상기 시구간 단위는, 1년 단위일 수 있다.
도 2는 다양한 실시 예들에 따른, 환자의 의료 기록 데이터로부터 생성된 데이터 세트들의 일 예이다. 도 2를 참고하면, 다수의 환자가 치료들의 이유로 의료 기관에 방문하여 축적된 데이터는 각 환자의 데이터를 특정 시구간 단위로 분할한 뒤 각 시구간 별 데이터를 개별 데이터 세트로 재구성될 수 있다. 예를 들어, 한 명의 환자 데이터로부터 복수의 데이터를 추출하기 위해, 환자의 의료기록 데이터(201)가 시구간 단위에 대응하여 분할됨으로써 단위 데이터들이 생성되고, 단위 데이터들이 병합되어 데이터 세트들이 생성될 수 있다.
예를 들어, 도 2를 참조하면, 특정 시구간 단위가 1년인 경우, 환자의 의료기록 데이터(201)는 1년 단위의 시구간 단위에 대응하여 분할됨으로써, 단위 데이터들이 생성되고, 단위 데이터들을 병합하여 1년 단위 데이터 세트들(203), 2년 단위 데이터 세트들(205), 3년 단위 데이터 세트들(207)이 생성될 수 있다. 1년 단위의 시구간 단위에 대응하여 분할된 단위 데이터들은, 동일한 시구간 단위에 대응하는 데이터 세트들인 1년 단위 데이터 세트들(203)로 생성될 수 있다. 이 때, 데이터 세트를 만들기 위해 병합되는 단위 데이터의 수는 가변적일 수 있고, 예를 들어, 단위 데이터들을 시구간의 7배에 해당하는 7년 단위로 병합되어 7년 단위 데이터 세트들(209)이 생성될 수 있다.
일 실시 예에서, 환자의 의료기록 데이터(201)가 시구간 단위로 분할된 뒤, 기준 시간대를 시구간 단위로 이동하여 데이터 세트를 재구성함으로써, 한 명의 환자에게서 여러 개의 데이터 세트가 생성될 수 있다. 기준 시간대는 각 데이터 세트가 포함하는 단위 데이터들에 대응하는 시구간 중 가장 앞선 시구간일 수 있다. 예를 들어, 도 2의 2년 단위 데이터 세트들(205)을 참고하면, 1년 단위의 단위 데이터들이 기준 시간대를 1년 단위로 2010년부터 2019년까지 이동하면서 2개씩 병합됨으로써, 9개의 데이터 세트들이 생성될 수 있다.
일 실시 예에서, 환자의 의료 기록 데이터가 시구간 단위로 연속적으로 존재하지 않더라도, 의료 기록 데이터를 시구간 단위로 분할하여 단위 데이터를 생성하고, 단위 데이터들을 병합하여 데이터 세트로 생성할 수 있다. 예를 들어, 환자의 의료 기록이 질병 발병 진단을 받지 않은 2017년에 대응하는 단위 데이터와 질병 발병 진단을 받은 2019년에 대응하는 단위 데이터를 포함하고, 2018년에 대응하는 단위 데이터를 포함하지 않는 경우, 2017년에 대응하는 단위 데이터와 2019년에 대응하는 단위 데이터를 병합함으로써, 3년 단위 데이터 세트가 생성될 수 있다.
일 실시 예에서, 환자의 의료 기록 데이터(201)가 시구간 단위로 연속적으로 존재 하지 않아 시구간 단위로 연속된 단위 데이터들로 분할되지 못하는 경우, 환자의 의료 기록 데이터(201)를 오버샘플링함으로써, 시구간 단위로 연속된 단위 데이터들을 생성하고, 데이터 세트를 생성할 수 있다. 일 실시 예에서, 환자의 의료 기록 데이터(201)은 GAN 기법에 기반한 심층 신경망 모델을 이용하여 오버샘플링을 수행할 수 있다. 일 실시 예에서, 환자의 진료 기록이 적어도 1번 이상 존재하는 경우, 환자의 의료 기록 데이터를 오버샘플링함으로써, 시구간 단위로 연속적인 단위 데이터들을 생성할 수 있다.
한 명의 의료기록 데이터(201)로부터 다수의 데이터 세트들이 생성되는 경우, 예를 들어, 도 2를 참조하면, 2010년부터 2019년까지 의료 기록이 존재하는 환자의 의료기록 데이터(201)로부터 시구간 단위를 1년의 단위 데이터들이 분할되고, 단위 데이터들로부터 1-3년 단위 데이터 세트들(203, 205, 207)의 데이터 세트들이 생성될 수 있다. 이 경우, 기존 환자의 의료기록 데이터 1개, 1년 단위 데이터 세트 10개, 2년 단위 데이터 세트 9개, 3년 단위 데이터 세트 8개로부터 총 28개의 데이터 세트를 생성할 수 있다. 단위 데이터들이 병합되어 생성되는 데이터 세트들의 시구간은 변경될 수 있고, 하나의 의료 기록 데이터로부터 생성되는 데이터 세트의 수는 변경될 수 있다. 예를 들어, 환자의 의료기록 데이터(201)로부터 1-7년 단위 데이터 세트들이 생성될 경우, 총 49개의 데이터 세트가 생성될 수 있고, 1-10년 단위 데이터 세트들이 생성될 경우, 총 55개의 데이터 세트가 생성될 수 있다.
일 실시 예에서, 환자의 의료기록 데이터(201)에서 분할되는 단위 데이터들의 시구간 단위는 변경될 수 있다. 예를 들어, 도 2와 달리 시구간 단위가 6개월일 경우, 환자의 의료 기록 데이터(201)로부터 분할되는 단위 데이터의 수는 증가할 수 있고, 단위 데이터들을 시구간 단위로 병합하여 생성되는 데이터 세트들의 수는 증가할 수 있다.
도 3은 다양한 실시 예들에 따른, 환자의 의료 기록 데이터로부터 생성된 데이터 세트들 중 발병 타겟 데이터 세트들을 나타내는 일 예이다. 도 3을 참고하면, 환자의 특정 질병 발병 시점을 기준으로 과거의 진료 기록으로부터 생성된 데이터 세트들을 발병 타겟 데이터 세트로 결정하고, 특정 질병 발병 예측 모델의 입력 데이터로 사용할 수 있다.
예를 들어, 환자의 의료기록 데이터(201)에 기반하여 생성된 데이터 세트들 각각이 포함하는 단위 데이터들 중 마지막 시구간에 대응하는 단위 데이터의 시구간이 환자의 질병이 발병한 시구간인 경우, 상기 데이터 세트는 발병 타겟 데이터 세트로 결정될 수 있다. 예를 들어, 도 3을 참조하면, 1년 단위로 단위 데이터들이 분할되는 경우, 2년 단위 데이터 세트들(205) 중 환자의 질병이 발병한 2019년에 해당하는 시구간에 대응하는 단위 데이터를 마지막 시구간에 포함하는 데이터 세트(2051)는 발병 타겟 데이터 세트로 결정될 수 있다. 동일한 방법으로, 병합되는 단위 데이터들의 수가 변경되더라도, 질병이 발병한 시구간을 포함하는 데이터 세트는 발병 타겟 데이터 세트로 결정될 수 있으며, 예를 들어, 3년 단위 데이터 세트들(207) 중 환자의 질병이 발병한 2019년에 해당하는 시구간을 포함하는 데이터 세트(2071) 또는 7년 단위 데이터 세트들(209) 중 환자의 질병이 발병한 2019년에 해당하는 시구간을 포함하는 데이터 세트(2091)가 발병 타겟 데이터 세트로 결정될 수 있다. 예를 들어, 1년 단위로 단위 데이터들이 분할되는 경우, 단위 데이터의 시구간 단위와 동일한 1년 단위 데이터 세트들(203)에서도, 데이터 세트들 중 환자의 질병이 발병한 시구간을 포함하는 데이터 세트(2031)는 발병 타겟 데이터 세트로 결정될 수 있다.
일 실시 예에서, 질병 발병 시점 기준 특정 기간 전부터의 기록을 포함하는 발병 타겟 데이터 세트는 상기 특정 기간 후 질병 발병 예측 모델의 입력 데이터로 사용될 수 있다. 예를 들어, 1년 단위로 단위 데이터들이 분할되는 경우, 2년 단위 데이터 세트들(205) 중 환자의 질병이 발병한 2019년에 해당하는 시구간을 포함하는 데이터 세트(2051)는 질병이 미발병한 2018년 및 질병이 발병한 2019년에 대응하는 의료 기록 데이터를 포함하므로, 1년 후 질병 발병 예측 모델의 입력 데이터로 사용될 수 있다. 동일한 방법으로, 병합되는 단위 데이터들의 수가 변경되더라도, 질병 발병 시점 기준 특정 기간 전부터의 기록을 포함하는 발병 타겟 데이터 세트는 상기 특정 기간 후 질병 발병 예측 모델의 입력 데이터로 사용될 수 있으며, 예를 들어, 1년 단위로 단위 데이터들이 분할되는 경우, 3년 단위 데이터 세트들(207) 중 환자의 질병이 발병한 2019년에 해당하는 시구간을 포함하는 데이터 세트(2071)는 2년 후 질병 발병 예측 모델의 입력 데이터로, 7년 단위 데이터 세트들(209) 중 환자의 질병이 발병한 2019년에 해당하는 시구간을 포함하는 데이터 세트(2091)는 6년 후 질병 발병 예측 모델의 입력 데이터로 사용될 수 있다. 발병 타겟 데이터 세트들을 활용하여 상이한 기간의 특정 기간 후 질병 발병 예측 모델들을 학습함으로써, 특정 질병의 발병을 예측하기 위한 의료 데이터 분석에 사용될 수 있고, 특정 질병의 발병 기간을 예측하거나, 생존 분석을 수행하거나, 생존 기간별 재발 예측 분석을 수행하는데 이용될 수 있다.
일 실시 예에서, 환자의 의료 기록 데이터가 시구간 단위로 연속적인 단위 데이터를 포함하지 않는 데이터 세트가 포함하는 단위 데이터들 중 마지막 시구간에 대응하는 단위 데이터의 시구간이 환자의 질병이 발병한 시구간인 경우, 상기 데이터 세트가 발병 데이터 세트로 결정될 수 있다. 예를 들어, 질병 발병 진단을 받지 않은 2017년에 대응하는 단위 데이터와 질병 발병 진단을 받은 2019년에 대응하는 단위 데이터를 포함하고, 2018년에 대응하는 단위 데이터를 포함하지 않는 3년 단위 데이터 세트가 발병 타겟 데이터 세트로 결정되고, 2년 후 질병 발병 예측 모델의 입력 데이터로 사용될 수 있다.
도 4는 다양한 실시 예들에 따른, 환자의 의료 기록 데이터로부터 생성된 데이터 세트들 중 미발병 타겟 데이터 세트들을 나타내는 일 예이다. 도 4를 참고하면, 환자의 특정 질병 발병 시점 이전의 시점을 기준으로 과거의 진료 기록으로부터 생성된 데이터 세트들을 미발병 타겟 데이터 세트로 결정하고, 특정 질병 발병 예측 모델의 입력 데이터로 사용할 수 있다.
예를 들어, 환자의 의료기록 데이터(201)에 기반하여 생성된 데이터 세트들 각각이 포함하는 단위 데이터들 중 마지막 시구간에 대응하는 단위 데이터의 시구간이 환자의 질병이 발병한 시구간이 아닌 경우, 상기 데이터 세트는 미발병 타겟 데이터 세트로 결정될 수 있다. 예를 들어, 도 4를 참조하면, 1년 단위로 단위 데이터들이 분할되는 경우, 2년 단위 데이터 세트들(205) 중 환자의 질병이 발병한 2019년에 해당하는 시구간을 포함하는 데이터 세트(2051)를 제외한, 환자의 질병이 발병한 2019년에 해당하는 시구간을 포함하지 않는 데이터 세트들(2052, 2053, 2054, 2055, 2056, 2057, 2058, 2059)은 미발병 타겟 데이터 세트로 결정될 수 있다. 동일한 방법으로, 병합되는 단위 데이터들의 수가 변경되더라도, 질병이 발병한 시구간을 포함하지 않는 데이터 세트는 미발병 타겟 데이터 세트로 결정될 수 있다.
일 실시 예에서, 데이터 세트가 포함하는 단위 데이터의 마지막 시구간이 질병 발병 시점을 포함하지 않는 미발병 타겟 데이터 세트는 특정 기간 후 질병 발병 예측 모델의 입력 데이터로 사용될 수 있다. 예를 들어, 1년 단위로 단위 데이터들이 분할되는 경우, 환자의 질병이 발병한 2019년에 해당하는 시구간을 포함하지 않는 데이터 세트들(2052, 2053, 2054, 2055, 2056, 2057, 2058, 2059)은 2년 후 질병 발병 예측 모델의 입력 데이터로 사용될 수 있다. 예를 들어, 데이터 세트(2052)는 2017년 및 2018년 데이터를 포함하고, 2017년 및 2018년 데이터는 질병 발병 판정을 받지 않았기 때문에, 미발병 타겟 데이터 세트로 결정될 수 있다.
동일한 방법으로, 병합되는 단위 데이터들의 수가 변경되더라도, 미발병 타겟 데이터 세트는 특정 기간 후 질병 발병 예측 모델의 입력 데이터로 사용될 수 있다. 예를 들어, 데이터 세트(2052)는 질병이 발병한 것으로 판정되지 않은 2017년 및 2018년 데이터를 포함하므로, 2년 후 질병 발병 예측 모델의 입력 데이터로 사용될 수 있다. 결정된 미발병 타겟 데이터 세트들을 입력 데이터로 상이한 기간의 특정 기간 후 질병 발병 예측 모델들을 학습함으로써, 특정 질병의 발병을 예측하기 위한 의료 데이터 분석에 사용될 수 있고, 특정 질병의 발병 기간을 예측하거나, 생존 분석을 수행하거나, 생존 기간별 재발 예측 분석을 수행하는데 이용될 수 있다.
일 실시 예에서, 환자의 의료 기록 데이터가 시구간 단위로 연속적인 단위 데이터를 포함하지 않는 데이터 세트가 포함하는 단위 데이터들 중 마지막 시구간에 대응하는 단위 데이터의 시구간이 환자의 질병이 발병한 시구간이 아닌 경우, 상기 데이터 세트가 미발병 데이터 세트로 결정될 수 있다. 예를 들어, 질병 발병 진단을 받지 않은 2016년 및 2018년에 대응하는 단위 데이터들을 포함하고, 2017년에 대응하는 단위 데이터를 포함하지 않는 3년 단위 데이터 세트가 미발병 타겟 데이터 세트로 결정되고, 2년 후 질병 발병 예측 모델의 입력 데이터로 사용될 수 있다.
일 실시 예에서, 발병 타겟 데이터와 미발병 타겟 데이터는 특정 기간 후 질병 발병 예측 모델의 입력 데이터로 사용될 수 있다. 도 4를 참조하면, 2018년 및 2019년에 대응하는 단위 데이터를 포함하는 데이터 세트(2051)는 2019년 질병 발병 진단을 받았으므로 질병 발병을 타겟으로 하는 1년 후 질병 발병 예측 모델의 입력 데이터로 활용할 수 있다. 동일 환자의 2017년 및 2018년에 대응하는 단위 데이터를 포함하는 데이터 세트(2053)는 2017년 및 2018년에 질병 미발병 진단을 받았기 때문에 질병 미발병을 타겟 값으로 하는 1년 후 질병 발병 예측 모델의 입력 데이터로 사용될 수 있다. 일 실시 예에서, 시구간 단위로 연속적이지 않은 2017년 및 2019년에 대응하는 단위 데이터를 포함하는 데이터 세트는 2019년 질병 발병 진단을 받았으므로 질병 발병을 타겟 값으로 하는 2년 후 예측 모델의 입력 데이터로 사용될 수 있다.
일 실시 예에서, 특정 질병에 대한 적어도 하나 이상의 환자의 의료 기록 데이터의 발병 타겟 데이터 세트들 및 미발병 타겟 데이터 세트들을 활용하여, 상이한 기간의 질병 발병 예측 모델들을 학습함으로써, 의료 데이터 분석에 사용될 수 있고, 특정 질병의 발병 기간을 예측하거나, 생존 분석을 수행하거나, 생존 기간별 재발 예측 분석을 수행하는데 이용될 수 있다.
도 5은 다양한 실시 예들에 따른, 질병 발병 예측을 위한 시구간 단위 데이터 세트를 구성하기 위한 방법을 설명하기 위한 흐름도의 일 예이다. 도 5의 흐름도는 다중 데이터 생성 장치(101)의 동작 방법 일 수 있다.
도 5를 참고하면, 501 단계에서, 다중 데이터 생성 장치(101)는 환자의 의료 기록 데이터를 수신할 수 있다. 예를 들어, 다중 데이터 생성 장치(101)는 다중 데이터 생성 장치(101)와 동일한 또는 다른 장치(예: 데이터 저장소(101))로부터 환자의 의료 기록 데이터들을 수신할 수 있다. 환자의 의료 기록 데이터는 각 의료 기관의 의료 기록 데이터일 수 있고, 환자들의 특정 질병에 대한 질병 진단 정보, 영상 정보, 유전체 정보, 생활 습관 정보 중 적어도 하나 이상을 포함할 수 있다. 환자의 의료 기록 데이터는 기설정된 시구간 단위로 연속된 데이터를 포함하거나, 연속하지 않은 데이터를 포함할 수 있다.
503 단계에서, 다중 데이터 생성 장치(101)는 환자의 의료 기록 데이터를 시구간 단위에 대응하여 분할함으로써, 단위 데이터들을 생성할 수 있다. 예를 들어, 다중 데이터 생성 장치(101)는, 수신한 환자의 의료 기록 데이터를 변경 가능한 시구간 단위(예: 1년)로 분할하여 단위 데이터들을 생성할 수 있다. 일 실시 예에서, 환자의 의료 기록 데이터가 시구간 단위로 연속적으로 존재하지 않더라도, 다중 데이터 생성 장치(101)는 존재하지 않는 시구간 단위의 단위 데이터를 제외하고 의료 기록 데이터를 시구간 단위로 분할하여 단위 데이터를 생성할 수 있다. 예를 들어, 환자의 의료기록 데이터가 2017년 및 2019년의 데이터를 포함할 경우, 2017년에 대응하는 단위 데이터와 2019년에 대응하는 단위 데이터를 생성할 수 있다.
505 단계에서, 다중 데이터 생성 장치(101)는 단위 데이터들을 시구간 단위로 기준 시간이 다른 데이터 세트로 병합하여 데이터 세트들을 생성할 수 있다. 기준 시간은 각 데이터 세트가 포함하는 단위 데이터들에 대응하는 시구간 중 가장 앞선 시구간일 수 있다. 단위 데이터가 병합되는 수는 변경 가능할 수 있다. 예를 들어, 1년 단위의 시구간으로 분할된 단위 데이터들을 하나씩 포함하여 1년 단위 데이터 세트들이 생성될 수 있고, 2개씩 병합되어 2년 단위 데이터 세트들이 생성될 수 있다. 예를 들어, 2년 단위 데이터 세트들의 경우, 1년 단위의 단위 데이터들이 기준 시간을 1년 단위로 이동하면서 2개씩 병합됨으로써, 다수의 데이터 세트들이 생성될 수 있다. 일 실시 예에서, 환자의 의료 기록 데이터가 시구간 단위로 연속적으로 존재하지 않더라도, 다중 데이터 생성 장치(101)는 존재하지 않는 시구간 단위의 단위 데이터를 제외하고 생성된 단위 데이터들을 병합하여 데이터 세트를 생성할 수 있다.
도 6은 다양한 실시 예들에 따른, 질병 발병 예측을 위한 시구간 단위 데이터 세트를 구성하기 위한 방법을 설명하기 위한 흐름도의 다른 예이다. 도 6의 흐름도는 다중 데이터 생성 장치(101)의 동작 방법 일 수 있다.
도 6을 참고하면, 601 단계에서, 다중 데이터 생성 장치(101)는 환자의 의료 기록 데이터를 수신할 수 있다. 예를 들어, 다중 데이터 생성 장치(101)는 다중 데이터 생성 장치(101)와 동일한 또는 다른 장치(예: 데이터 저장소(101))로부터 환자의 의료 기록 데이터들을 수신할 수 있다.
603 단계에서, 다중 데이터 생성 장치(101)는 환자의 의료 기록 데이터를 시구간 단위에 대응하여 분할함으로써, 단위 데이터들을 생성할 수 있다. 예를 들어, 다중 데이터 생성 장치(101)는, 수신한 환자의 의료 기록 데이터를 변경 가능한 시구간 단위(예: 1년)로 분할하여 단위 데이터들을 생성할 수 있다.
605 단계에서, 다중 데이터 생성 장치(101)는 단위 데이터들을 시구간 단위로 기준 시간이 다른 데이터 세트로 병합하여 데이터 세트들을 생성할 수 있다. 기준 시간은 각 데이터 세트가 포함하는 단위 데이터들에 대응하는 시구간 중 가장 앞선 시구간일 수 있다. 단위 데이터가 병합되는 수는 변경 가능할 수 있다. 일 실시 예에서, 환자의 의료 기록 데이터가 시구간 단위로 연속적으로 존재하지 않더라도, 다중 데이터 생성 장치(101)는 존재하지 않는 시구간 단위의 단위 데이터를 제외하고 생성된 단위 데이터들을 병합하여 데이터 세트를 생성할 수 있다.
607 단계에서, 다중 데이터 생성 장치(101)는 데이터 세트의 마지막 시구간에 대응하는 단위 데이터의 시구간이 질병이 발병한 시구간인지 여부를 결정할 수 있다. 일 실시 예에서, 다중 데이터 생성 장치(101)는 데이터 세트가 포함하는 단위 데이터들 중 마지막 시구간에 대응하는 단위 데이터의 시구간이 환자가 질병 발병 판정을 받은 시점을 포함하면, 데이터 세트의 마지막 시구간에 대응하는 단위 데이터의 시구간이 질병이 발병한 시구간인 것으로 결정할 수 있다. 예를 들어, 1년 단위로 단위 데이터들이 분할되고 환자가 2019년에 질병 발병 판정을 받은 경우, 2년 단위 데이터 세트들 중 2018년 및 2019년에 해당하는 시구간에 대응하는 단위 데이터를 포함하는 데이터 세트는 데이터 세트의 마지막 시구간에 대응하는 단위 데이터의 시구간이 질병이 발병한 시구간인 데이터 세트로 결정할 수 있다. 다른 예를 들어, 환자의 의료 기록 데이터가 시구간 단위로 연속적으로 존재하지 않고 1년 단위로 단위 데이터들이 분할되고 환자가 2019년에 질병 발병 판정을 받은 경우, 3년 단위 데이터 세트들 중 2017년 및 2019년에 해당하는 시구간에 대응하는 단위 데이터를 포함하는 데이터 세트는 데이터 세트의 마지막 시구간에 대응하는 단위 데이터의 시구간이 질병이 발병한 시구간인 데이터 세트로 결정할 수 있다.
데이터 세트의 마지막 시구간에 대응하는 단위 데이터의 시구간이 질병이 발병한 시구간인 아닌 것으로 결정되면, 609 단계에서, 다중 데이터 생성 장치(101)는 데이터 세트를 미발병 타겟 데이터 세트로 결정할 수 있고, 질병이 발병한 시구간인 것으로 결정되면, 611 단계에서, 다중 데이터 생성 장치(101)는 데이터 세트를 발병 타겟 데이터 세트로 결정할 수 있다.
발병 타겟 데이터 세트들 및 미발병 타겟 데이터 세트는, 도 3 및 4의 설명에서 상술한 바와 같이, 상이한 기간의 질병 발병 예측 모델들을 학습하는데 이용됨으로써, 의료 데이터 분석에 사용될 수 있고, 특정 질병의 발병 기간을 예측하거나, 생존 분석을 수행하거나, 생존 기간별 재발 예측 분석을 수행하는데 이용될 수 있다.
본 개시의 다양한 실시 예들에 따르면, 질병 발병 예측을 위한 데이터 세트 구성 방법은 환자의 의료 기록 데이터를 수신하는 과정, 상기 의료 기록 데이터를 시구간 단위에 대응하여 분할함으로써, 적어도 하나 이상의 단위 데이터들을 생성하는 과정, 상기 단위 데이터들을 상기 시구간 단위로 기준 시간이 다른 데이터 세트로 병합하여 적어도 하나 이상의 데이터 세트들을 생성하는 과정을 포함할 수 있다.
본 개시의 다양한 실시 예들에 따르면, 상기 적어도 하나 이상의 데이터 세트들 각각은, 상기 시구간 단위로 단위 데이터들을 연속적으로 포함하고, 상기 기준 시간은, 상기 적어도 하나 이상의 데이터 세트들 각각이 포함하는 가장 앞서는 시구간에 대응하는 단위 데이터의 시구간의 시간일 수 있다.
본 개시의 다양한 실시 예들에 따르면, 질병 발병 예측을 위한 데이터 세트 구성 방법은 상기 적어도 하나 이상의 데이터 세트들 각각이 포함하는 단위 데이터들 중 마지막 시구간에 대응하는 단위 데이터의 시구간이 환자의 질병이 발병한 시구간인 경우, 상기 데이터 세트를 발병 타겟 데이터 세트로 결정하는 과정, 상기 마지막 시구간에 대응하는 데이터 세트의 마지막 시구간이 환자의 질병이 발병한 시구간이 아닌 경우, 상기 데이터 세트를 미발병 타겟 데이터 세트로 결정하는 과정을 더 포함할 수 있다.
본 개시의 다양한 실시 예들에 따르면, 질병 발병 예측을 위한 데이터 세트 구성 방법에서 적어도 하나 이상의 단위 데이터들을 생성하는 과정은, 상기 의료 기록 데이터가 상기 시구간 단위로 단위 데이터들을 연속적으로 포함하지 않는 경우, 상기 의료 기록 데이터를 오버샘플링함으로써 상기 의료 기록 데이터가 상기 시구간 단위로 단위 데이터들을 연속적으로 포함하도록 적어도 하나 이상의 단위 데이터들을 생성하는 과정을 포함할 수 있다.
본 개시의 다양한 실시 예들에 따르면, 상기 시구간 단위는, 1년 단위일 수 있다.
본 개시에 다양한 실시 예들에 따른 전자 장치는 다양한 형태의 장치가 될 수 있다. 전자 장치는, 예를 들면, 휴대용 통신 장치 (예: 스마트 폰), 컴퓨터 장치, 휴대용 멀티미디어 장치, 휴대용 의료 기기, 카메라, 웨어러블 장치, 또는 가전 장치를 포함할 수 있다. 본 문서의 실시 예에 따른 전자 장치는 전술한 기기들에 한정되지 않는다.
본 개시의 다양한 실시 예에서, "포함하다." 또는 "가지다." 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 개시의 다양한 실시 예들 및 이에 사용된 용어들은 본 문서에 기재된 기술적 특징들을 특정한 실시 예들로 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 또는 관련된 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 아이템에 대응하는 명사의 단수 형은 관련된 문맥상 명백하게 다르게 지시하지 않는 한, 상기 아이템 한 개 또는 복수 개를 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및 B 중 적어도 하나",“A 또는 B 중 적어도 하나,”"A, B 또는 C," "A, B 및 C 중 적어도 하나,”및 “A, B, 또는 C 중 적어도 하나"와 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들 중 어느 하나, 또는 그들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", 또는 "첫째" 또는 "둘째"와 같은 용어들은 단순히 해당 구성요소를 다른 해당 구성요소와 구분하기 위해 사용될 수 있으며, 해당 구성요소들을 다른 측면(예: 중요성 또는 순서)에서 한정하지 않는다. 어떤(예: 제 1) 구성요소가 다른(예: 제 2) 구성요소에, “기능적으로” 또는 “통신적으로”라는 용어와 함께 또는 이런 용어 없이, “커플드” 또는 “커넥티드”라고 언급된 경우, 그것은 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로(예: 유선으로), 무선으로, 또는 제 3 구성요소를 통하여 연결될 수 있다는 것을 의미한다.
본 개시에서 사용된 용어 “유닛”, "모듈" 또는 “-부”는 하드웨어, 소프트웨어 또는 펌웨어로 구현된 유닛을 포함할 수 있으며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는, 상기 부품의 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 일 실시 예에 따르면, 모듈은 ASIC(application-specific integrated circuit)의 형태로 구현될 수 있다.
본 개시의 청구항 또는 명세서에 기재된 실시 예들에 따른 방법들은 하드웨어, 소프트웨어, 또는 하드웨어와 소프트웨어의 조합의 형태로 구현될(implemented) 수 있다.
소프트웨어로 구현하는 경우, 하나 이상의 프로그램(소프트웨어 모듈)을 저장하는 컴퓨터 판독 가능 저장 매체가 제공될 수 있다. 컴퓨터 판독 가능 저장 매체에 저장되는 하나 이상의 프로그램은, 전자 장치(device) 내의 하나 이상의 프로세서에 의해 실행 가능하도록 구성된다(configured for execution). 하나 이상의 프로그램은, 전자 장치로 하여금 본 개시의 청구항 또는 명세서에 기재된 실시 예들에 따른 방법들을 실행하게 하는 명령어(instructions)를 포함한다.
이러한 프로그램(소프트웨어 모듈, 소프트웨어)은 랜덤 액세스 메모리 (random access memory), 플래시(flash) 메모리를 포함하는 불휘발성(non-volatile) 메모리, 롬(read only memory, ROM), 전기적 삭제가능 프로그램가능 롬(electrically erasable programmable read only memory, EEPROM), 자기 디스크 저장 장치(magnetic disc storage device), 컴팩트 디스크 롬(compact disc-ROM, CD-ROM), 디지털 다목적 디스크(digital versatile discs, DVDs) 또는 다른 형태의 광학 저장 장치, 마그네틱 카세트(magnetic cassette)에 저장될 수 있다. 또는, 이들의 일부 또는 전부의 조합으로 구성된 메모리에 저장될 수 있다. 또한, 각각의 구성 메모리는 다수 개 포함될 수도 있다.
또한, 프로그램은 인터넷(Internet), 인트라넷(Intranet), LAN(local area network), WAN(wide area network), 또는 SAN(storage area network)과 같은 통신 네트워크, 또는 이들의 조합으로 구성된 통신 네트워크를 통하여 접근(access)할 수 있는 부착 가능한(attachable) 저장 장치(storage device)에 저장될 수 있다. 이러한 저장 장치는 외부 포트를 통하여 본 개시의 실시 예를 수행하는 장치에 접속할 수 있다. 또한, 통신 네트워크상의 별도의 저장장치가 본 개시의 실시 예를 수행하는 장치에 접속할 수도 있다.
상술한 본 개시의 구체적인 실시 예들에서, 개시에 포함되는 구성요소는 제시된 구체적인 실시 예에 따라 단수 또는 복수로 표현되었다. 그러나, 단수 또는 복수의 표현은 설명의 편의를 위해 제시한 상황에 적합하게 선택된 것으로서, 본 개시가 단수 또는 복수의 구성요소에 제한되는 것은 아니며, 복수로 표현된 구성요소라 하더라도 단수로 구성되거나, 단수로 표현된 구성요소라 하더라도 복수로 구성될 수 있다.
일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미가 있는 것으로 해석되어야 하며, 본 개시의 다양한 실시 예에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
한편 본 개시의 상세한 설명에서 구체적인 실시 예에 관해 설명하였으나, 본 개시의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 개시의 범위는 설명된 실시 예에 국한되어 정해져서는 아니 되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.

Claims (10)

  1. 질병 발병 예측을 위한 데이터 세트 구성하기 위한 다중 데이터 생성 장치에 의해 수행되는, 질병 발병 예측을 위한 데이터 세트 구성 방법에 있어서,
    환자의 의료 기록 데이터를 수신하는 과정;
    상기 의료 기록 데이터를 시구간 단위에 대응하여 분할함으로써, 적어도 하나 이상의 단위 데이터들을 생성하는 과정; 및
    상기 단위 데이터들을 상기 시구간 단위로 기준 시간이 다른 데이터 세트로 병합하여 적어도 하나 이상의 데이터 세트들을 생성하는 과정을 포함하고,
    상기 데이터 세트들을 생성하는 과정은,
    동일 환자의 상기 단위 데이터들을 기 설정된 시구간 단위로 기준 시간이 다른 적어도 하나의 데이터 세트로 병합하는 과정; 및
    적어도 하나의 상기 데이터 세트를 특정 질병 발병 시구간을 포함하는 단위 데이터를 포함하는지 여부를 기초로 발병 타겟 데이터 세트와 미발병 타겟 데이터 세트로 분류하는 과정을 포함하는, 방법.
  2. 청구항 1에 있어서,
    상기 적어도 하나 이상의 데이터 세트들 각각은, 상기 시구간 단위로 단위 데이터들을 연속적으로 포함하고,
    상기 기준 시간은, 상기 적어도 하나 이상의 데이터 세트들 각각이 포함하는 가장 앞서는 시구간에 대응하는 단위 데이터의 시구간의 시간인 방법.
  3. 청구항 1에 있어서,
    상기 적어도 하나 이상의 데이터 세트들 각각이 포함하는 단위 데이터들 중 마지막 시구간에 대응하는 단위 데이터의 시구간이 환자의 질병이 발병한 시구간인 경우, 상기 데이터 세트를 발병 타겟 데이터 세트로 결정하는 과정; 및
    상기 마지막 시구간에 대응하는 데이터 세트의 마지막 시구간이 환자의 질병이 발병한 시구간이 아닌 경우, 상기 데이터 세트를 미발병 타겟 데이터 세트로 결정하는 과정을 더 포함하는 방법.
  4. 청구항 1에 있어서, 적어도 하나 이상의 단위 데이터들을 생성하는 과정은,
    상기 의료 기록 데이터가 상기 시구간 단위로 단위 데이터들을 연속적으로 포함하지 않는 경우, 상기 의료 기록 데이터를 오버샘플링함으로써 상기 의료 기록 데이터가 상기 시구간 단위로 단위 데이터들을 연속적으로 포함하도록 적어도 하나 이상의 단위 데이터들을 생성하는 과정을 포함하는 방법.
  5. 청구항 1에 있어서,
    상기 시구간 단위는, 1년 단위인 방법.
  6. 질병 발병 예측을 위한 데이터 세트 구성하기 위한 다중 데이터 생성 장치에 있어서,
    상기 다중 데이터 생성 장치는 적어도 하나 이상의 프로세서를 포함하고,
    상기 적어도 하나 이상의 프로세서는,
    환자의 의료 기록 데이터를 수신하고,
    상기 의료 기록 데이터를 시구간 단위에 대응하여 분할함으로써, 적어도 하나 이상의 단위 데이터들을 생성하고,
    상기 단위 데이터들을 상기 시구간 단위로 기준 시간이 다른 데이터 세트로 병합하여 적어도 하나 이상의 데이터 세트들을 생성하고,
    동일 환자에 대하여 상기 단위 데이터들을 기 설정된 상기 시구간 단위로 기준 시간이 다른 적어도 하나의 데이터 세트로 병합하고,
    적어도 하나의 상기 데이터 세트를 특정 질병 발병 시구간을 포함하는 단위 데이터를 포함하는지 여부를 기초로 발병 타겟 데이터 세트와 미발병 타겟 데이터 세트로 분류하도록 구성된 장치.
  7. 청구항 6에 있어서,
    상기 적어도 하나 이상의 데이터 세트들 각각은, 상기 시구간 단위로 단위 데이터들을 연속적으로 포함하고,
    상기 기준 시간은, 상기 적어도 하나 이상의 데이터 세트들 각각이 포함하는 가장 앞서는 시구간에 대응하는 단위 데이터의 시구간의 시간인 장치.
  8. 청구항 6에 있어서, 상기 적어도 하나 이상의 프로세서는,
    상기 적어도 하나 이상의 데이터 세트들 각각의 포함하는 단위 데이터들 중 마지막 시구간에 대응하는 단위 데이터의 시구간이 환자의 질병이 발병한 시구간인 경우, 상기 데이터 세트를 발병 타겟 데이터 세트로 결정하고,
    상기 마지막 시구간에 대응하는 데이터 세트의 마지막 시구간이 환자의 질병이 발병한 시구간이 아닌 경우, 상기 데이터 세트를 미발병 타겟 데이터 세트로 결정하도록 더 구성된 장치.
  9. 청구항 6에 있어서, 상기 적어도 하나 이상의 프로세서는,
    상기 의료 기록 데이터가 상기 시구간 단위로 단위 데이터들을 연속적으로 포함하지 않는 경우, 상기 의료 기록 데이터를 오버샘플링함으로써 상기 의료 기록 데이터가 상기 시구간 단위로 단위 데이터들을 연속적으로 포함하도록 적어도 하나 이상의 단위 데이터들을 생성하도록 더 구성된 장치.
  10. 청구항 6에 있어서,
    상기 시구간 단위는, 1년 단위인 장치.

KR1020190140129A 2019-11-05 2019-11-05 질병 발병 예측을 위한 시구간 단위 데이터 세트 구성 방법 및 그 장치 KR102292041B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190140129A KR102292041B1 (ko) 2019-11-05 2019-11-05 질병 발병 예측을 위한 시구간 단위 데이터 세트 구성 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190140129A KR102292041B1 (ko) 2019-11-05 2019-11-05 질병 발병 예측을 위한 시구간 단위 데이터 세트 구성 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20210054240A KR20210054240A (ko) 2021-05-13
KR102292041B1 true KR102292041B1 (ko) 2021-08-24

Family

ID=75913596

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190140129A KR102292041B1 (ko) 2019-11-05 2019-11-05 질병 발병 예측을 위한 시구간 단위 데이터 세트 구성 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR102292041B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018140172A (ja) * 2017-02-28 2018-09-13 株式会社Nttドコモ データ収集装置及びデータ収集方法
JP2019040456A (ja) * 2017-08-25 2019-03-14 国立大学法人 鹿児島大学 教師情報付学習データ生成方法、機械学習方法、教師情報付学習データ生成システム及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102225894B1 (ko) * 2018-04-24 2021-03-11 네이버 주식회사 딥 어텐션 네트워크를 이용하여 환자 의료 기록으로부터 질병 예후를 예측하는 방법 및 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018140172A (ja) * 2017-02-28 2018-09-13 株式会社Nttドコモ データ収集装置及びデータ収集方法
JP2019040456A (ja) * 2017-08-25 2019-03-14 国立大学法人 鹿児島大学 教師情報付学習データ生成方法、機械学習方法、教師情報付学習データ生成システム及びプログラム

Also Published As

Publication number Publication date
KR20210054240A (ko) 2021-05-13

Similar Documents

Publication Publication Date Title
JP6691401B2 (ja) 個別化予測モデルを用いた、個人レベルのリスク・ファクタの識別およびランク付け
KR102216689B1 (ko) 시계열 의료 데이터를 통한 질병 예후 예측을 위한 딥 뉴럴 네트워크의 분류 결과 시각화 방법 및 시스템
US9760689B2 (en) Computer-aided diagnosis method and apparatus
JP2020522794A (ja) ニューラルネットワーク分類
US20230420094A1 (en) Methods and systems for calculating health care treatment statistics
KR102460442B1 (ko) 시계열 데이터 처리 장치, 이를 포함하는 건강 예측 시스템, 및 시계열 데이터 처리 장치의 동작 방법
CN104995664B (zh) 实时的连续交互学习及检测
CN103177179A (zh) 诊断因素集合确定设备和方法
CN115699204A (zh) 基于多个机器学习模型的临床预测因子
JP7145059B2 (ja) モデルの予測根拠提示システム及びモデルの予測根拠提示方法
CN109344017A (zh) 一种基于机器学习预测内存故障的方法,设备及可读存储介质
US11651584B2 (en) System and method for memory augmented domain adaptation
US11004564B2 (en) Method and apparatus for processing medical data
CN111161884A (zh) 针对不平衡数据的疾病预测方法、装置、设备及介质
US20210174229A1 (en) Device for ensembling data received from prediction devices and operating method thereof
KR102292041B1 (ko) 질병 발병 예측을 위한 시구간 단위 데이터 세트 구성 방법 및 그 장치
US20230118299A1 (en) Radiologist fingerprinting
US11694801B2 (en) Identifying and extracting stimulus-response variables from electronic health records
Fadhillah et al. Smart Odontogram: Dental Diagnosis of Patients using Deep Learning
JP2016122317A (ja) 共通化情報提供プログラム、共通化情報提供方法、および共通化情報提供装置
Nazurah et al. HealthyHeart Data Visualization: Predicting Heart Condition Using Machine Learning
JP6960369B2 (ja) 分析システム及び分析方法
US20220223287A1 (en) Ai based system and method for prediciting continuous cardiac output (cco) of patients
US11324469B2 (en) Informatics radiomics integration system (IRIS): a novel combined informatics and radiomics method for integration of many types of data for classification into different groups for improved visualization
US20200286627A1 (en) Systems and methods for treatment-effect analysis

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right