KR102424884B1 - 생존 데이터 정제 서버와 생존 데이터 분석 서버를 포함하는 시스템 및 그 제어방법 - Google Patents

생존 데이터 정제 서버와 생존 데이터 분석 서버를 포함하는 시스템 및 그 제어방법 Download PDF

Info

Publication number
KR102424884B1
KR102424884B1 KR1020210159392A KR20210159392A KR102424884B1 KR 102424884 B1 KR102424884 B1 KR 102424884B1 KR 1020210159392 A KR1020210159392 A KR 1020210159392A KR 20210159392 A KR20210159392 A KR 20210159392A KR 102424884 B1 KR102424884 B1 KR 102424884B1
Authority
KR
South Korea
Prior art keywords
data
survival
time
cut
study
Prior art date
Application number
KR1020210159392A
Other languages
English (en)
Inventor
송종우
Original Assignee
오브젠 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오브젠 주식회사 filed Critical 오브젠 주식회사
Priority to KR1020210159392A priority Critical patent/KR102424884B1/ko
Application granted granted Critical
Publication of KR102424884B1 publication Critical patent/KR102424884B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Game Theory and Decision Science (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Pathology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)

Abstract

본 발명은 생존 분석 시스템 및 그 제어방법에 관한 것이다. 본 발명에 따른 생존분석 시스템의 제어방법은, 수집된 관측 생존 데이터 중에서 우중도 절단 데이터를 추출하는 단계와; 상기 추출된 우중도 절단 데이터들을 추적손실 절단 데이터와 연구종료 절단 데이터로 구분하는 단계와; 상기 구분된 추적손실 절단 데이터와 연구종료 절단 데이터에 대해 각각의 알고리즘을 적용하여 각각의 생존시간을 추정 및 대체하는 단계와; 상기 관측 생존 데이터 중 생존시간이 확인된 생존여부 확정 데이터와 상기 생존시간이 대체된 추적손실 절단 데이터 및 연구종료 절단 데이터를 기 구비된 분석 시스템에 전달하는 단계를 포함하는 것을 특징으로 한다.

Description

생존 데이터 정제 서버와 생존 데이터 분석 서버를 포함하는 시스템 및 그 제어방법{SYSTEM COMPRISING SURVIVAL DATA REFINEMENT SERVER AND SURVIVAL DATA ANALYSIS SERVER, AND CONTROL METHOD THEREOF}
본 발명은 생존 데이터 정제 서버와 생존 데이터 분석 서버를 포함하는 시스템 및 그 제어방법에 관한 것으로, 보다 상세하게는 생존 시간을 갖는 각 데이터를 정제하여 통계에 활용할 수 있도록 하는 시스템 및 그 제어방법에 관한 것이다.
생존분석은 통계학의 한 분야로, 어떠한 현상이 발생하기까지에 걸리는 시간에 대해 분석하는 것인데, 예를 들면, 생명체의 관찰시작부터 사망에 이르는 시간을 분석하는 것이 그 한 예이다.
생존분석은 의학 연구는 물론 기계의 내구성에 대한 판단 등 여러 분야에서 사용될 수 있다. 즉, 인간의 사망이나 질병 발생, 기계 고장처럼 특정 현상이 발생하기까지 걸리는 시간을 분석할 수 있는 것이다.
더 나아가 생존분석은 웹페이지의 고객 이탈율과 같이 특정 이벤트와 시간이 매칭되는 다양한 종류의 경우에 적용될 수 있다.
생존분석을 위해 다양한 모델들이 제시되고 있는데, 대표적인 방법으로는 카플란-메이어 (Kaplan-Meier) 생존분석과 콕스 비례위험 모형(Cox proportional hazards model), 로그 순위법 (Log-rank test), 랜덤 생존 숲(Random survival forestes) 등이 있다.
생존분석 방법을 분류하자면 모수적 방법과 비모수적 방법으로 구분할 수 있는데, 모수적 방법은 결과 변수가 정규분포, 이항 분포, 포아송 분포 등 사전에 알고 있는 분포를 따른다는 가정하에 회귀분석을 통해 생존 함수를 구축하는 것을 의미하고, 비모수적 방법은 분포 가정을 적용하지 않고 생존 함수를 구축하는 것을 의미한다.
즉, 생존분석을 위해서는, 수집된 데이터를 상술한 다양한 모델들에 적용하게 되는데, 이를 위해서는 수집된 데이터들이 가능한한 분석 기간 내에 그 상태가 명확하게 결정된 데이터일 필요가 있다.
예를 들어 분석 기간 내에 생존 여부가 확실하게 결정된 데이터(완전 데이터 또는 생존 여부 확정 데이터)를 가지고 분석해야 그 분석 결과의 신뢰도 및 정확도가 향상되는 것이다.
그런데, 생존분석을 위해 수집되는 모든 데이터들이 상술한 바와 같이 분석 기간(관찰 기간) 동안에 생존 여부가 확정되는 것은 아니다.
즉, 관찰 기간 중에 이벤트(사건) 발생 여부를 확인할 수 없는 데이터들이 존재하는데, 이러한 데이터를 중도절단(Censored) 데이터라고 한다.
그런데 이러한 중도 절단 데이터는 생존 데이터에 대한 우도 함수를 복잡하게 만들어 생존분석 모형을 추정하기 어렵게 하는 경향이 있고, 중도 절단 데이터가 증가할수록 해당 생존 데이터를 이용한 분석의 정확도는 떨어질 수밖에 없으므로, 중도 절단 데이터에 대한 적절한 처리가 필요하다고 할 수 있다.
공개특허 제10-2021-0099605호
본 발명은 상기한 종래의 필요성을 충족시키기 위해 안출된 것으로서, 그 목적은 생존 데이터에 포함되는 중도 절단 데이터에 대한 적절한 처리를 통해 생존 데이터 분석의 정확도와 신뢰도를 향상시킬 수 있는 생존분석 시스템 및 그 제어방법을 제공하는 것이다.
상기한 목적을 달성하기 위해 본 발명에 따른 생존분석 시스템은, 수집된 관측 생존 데이터를 연구 시작 시점을 기준으로 좌측 이동 정렬을 수행한 후에, 우중도 절단 데이터들의 각 절단 시점과 연구 종료 시점까지의 거리를 기초로 추적손실 절단 데이터와 연구종료 절단 데이터로 구분하고, 상기 추적손실 절단 데이터에 대해서는 상기 관측 생존 데이터 중 생존시간이 확인된 생존여부 확정 데이터들과의 유사도를 기초로 생존시간을 추정하고, 상기 연구종료 절단 데이터에 대해서는 나머지 데이터들 중 적어도 일부의 모수적 분포 형태를 기초로 생존시간을 추정하는 생존 데이터 정제 서버와; 상기 생존 데이터 정제 서버에 의해 생존 시간이 추정된 추적손실 절단 데이터와 연구종료 절단 데이터 및 상기 생존여부 확정 데이터를 회귀분석 기계 학습 모듈에 입력하여 최종 회귀모델을 생성하고, 해당 최종 회귀모듈을 이용하여 특정 조건의 생존 데이터에 대한 생존 시간을 예측하는 생존 데이터 분석 서버를 포함할 수 있다.
여기서, 상기 생존 데이터 정제 서버는, 상기 정렬된 데이터들 중 생존여부 확정 데이터와 우중도 절단 데이터의 비율을 기초로 상기 연구 종료 시점을 기준으로 한 가상 기준 영역을 정하고, 각 우중도 절단 데이터 중 절단 시점이 상기 가상 기준 영역에 포함되지 않는 것을 추적손실 절단 데이터로 구분하고, 각 우중도 절단 데이터 중 절단 시점이 상기 가상 기준 영역에 포함되는 것을 연구종료 절단 데이터로 구분할 수 있다.
여기서, 상기 생존 데이터 정제 서버는 상기 연구 종료 시점을 기점으로 하여, 상기 생존여부 확정 데이터의 생존 종료 시점과 상기 우중도 절단 데이터의 절단 시점의 비율이 기 설정된 비율에 도달하는 시점까지의 영역을 상기 가상 기준 영역으로 정할 수 있다.
여기서, 상기 생존 데이터 정제 서버는, 상기 추적손실 절단 데이터 각각에 대해 기 설정된 조건에 따른 유사 특성 조합을 갖는 적어도 하나의 생존여부 확정 데이터를 추출한 후, 추출된 생존여부 확정 데이터의 생존 시간의 평균을 그 대응되는 추적손실 절단 데이터의 생존 시간으로 추정할 수 있다.
여기서, 상기 생존 데이터 정제 서버는, 상기 생존 시간이 추정된 추적손실 절단 데이터의 생존 시간 대 밀도 분포가 하기의 식에 의해 평탄화되도록 처리할 수 있다.
여기서, 상기 평탄화 파라미터는, 상기 평탄화 파라미터를 응답 변수로 하고, 관측 생존시간과 진정 생존 시간에 기초한 표준 편차간 비율, 사분범위간 비율, 왜도차, 첨도차, 우중도 절단 데이터 비율을 각각의 예측 변수로 결정한 후, 회귀모델을 이용하여 예측할 수 있다.
여기서, 상기 생존 데이터 정제 서버는 상기 추적손실 절단 데이터의 생존시간 추정을 포함하는 결과를 이용하여 상기 연구종료 절단 데이터에 대한 생존시간 추정을 수행할 수 있다.
여기서, 상기 생존 데이터 정제 서버는, 상기 생존여부 확정 데이터 및 생존시간이 추정된 상기 추적손실 절단 데이터 중 적어도 어느 하나를 이용하여 모수적 분포를 추정하고, 그 추정된 분포에서 연구 기간을 초과한 생존 시간을 갖는 생존 데이터를 선정한 후 생존 시간에 기초하여 제1 정렬하고, 상기 생존여부 확정 데이터와 생존시간이 추정된 상기 추적손실 절단 데이터를 이용하여 회귀 모델 피팅을 수행하고, 해당 피팅된 회귀 모델을 이용하여 상기 연구종료 절단 데이터의 생존 시간을 예측한 후 해당 생존시간에 따라 제2 정렬하며, 상기 제1 정렬된 순서와 상기 제2 정렬된 순서를 서로 대응시킨 후, 상기 제1 정렬된 생존 데이터의 생존시간을 대응되는 연구종료 절단 데이터의 생존시간으로 추정할 수 있다.
또, 상기한 목적을 달성하기 위해 본 발명에 따른 생존분석 시스템의 제어방법은, 생존 데이터 정제 서버와 생존 데이터 분석 서버를 포함하는 생존분석 시스템의 제어방법에 있어서, 상기 생존 데이터 정제 서버가 수집된 관측 생존 데이터를 연구 시작 시점을 기준으로 좌측 이동 정렬을 수행하는 단계와; 상기 생존 데이터 정제 서버가 좌측 이동 정렬된 생존 데이터 중 우중도 절단 데이터들의 각 절단 시점과 연구 종료 시점까지의 거리를 기초로 추적손실 절단 데이터와 연구종료 절단 데이터로 구분하는 단계와; 상기 생존 데이터 정제 서버가 상기 추적손실 절단 데이터에 대해서는 상기 관측 생존 데이터 중 생존시간이 확인된 생존여부 확정 데이터들과의 유사도를 기초로 생존시간을 추정하는 단계와; 상기 생존 데이터 정제 서버가 상기 연구종료 절단 데이터에 대해서 나머지 데이터들 중 적어도 일부의 모수적 분포 형태를 기초로 생존시간을 추정하는 단계와; 상기 생존 데이터 분석 서버가 상기 생존 데이터 정제 서버에 의해 생존 시간이 추정된 추적손실 절단 데이터와 연구종료 절단 데이터 및 상기 생존여부 확정 데이터를 회귀분석 기계 학습 모듈에 입력하여 최종 회귀모델을 생성하는 단계와; 상기 생존 데이터 분석 서버가 상기 생성된 최종 회귀모듈을 이용하여 특정 조건의 생존 데이터에 대한 생존 시간을 예측하는 단계를 포함할 수 있다.
여기서, 상기는, 상기 생존 데이터 정제 서버가 상기 정렬된 데이터들 중 생존여부 확정 데이터와 우중도 절단 데이터의 비율을 기초로 상기 연구 종료 시점을 기준으로 한 가상 기준 영역을 정하는 단계와; 상기 생존 데이터 정제 서버가 상기 각 우중도 절단 데이터 중 절단 시점이 상기 가상 기준 영역에 포함되지 않는 것을 추적손실 절단 데이터로 구분하고, 각 우중도 절단 데이터 중 절단 시점이 상기 가상 기준 영역에 포함되는 것을 연구종료 절단 데이터로 구분하는 단계를 포함할 수 있다.
여기서, 상기 생존 데이터 정제 서버가 상기 연구 종료 시점을 기점으로 하여, 상기 생존여부 확정 데이터의 생존 종료 시점과 상기 우중도 절단 데이터의 절단 시점의 비율이 기 설정된 비율에 도달하는 시점까지의 영역을 상기 가상 기준 영역으로 정할 수 있다.
여기서, 상기 생존 데이터 정제 서버가, 상기 추적손실 절단 데이터 각각에 대해 기 설정된 조건에 따른 유사 특성 조합을 갖는 적어도 하나의 생존여부 확정 데이터를 추출한 후, 추출된 생존여부 확정 데이터의 생존 시간의 평균을 그 대응되는 추적손실 절단 데이터의 생존 시간으로 추정할 수 있다.
여기서, 상기는, 상기 생존 데이터 정제 서버가 상기 생존 시간이 추정된 추적손실 절단 데이터의 생존 시간 대 밀도 분포가 하기의 식에 의해 평탄화되도록 처리하는 단계를 더 포함할 수 있다.
여기서, 상기 평탄화 파라미터는, 상기 평탄화 파라미터를 응답 변수로 하고, 관측 생존시간과 진정 생존 시간에 기초한 표준 편차간 비율, 사분범위간 비율, 왜도차, 첨도차, 우중도 절단 데이터 비율을 각각의 예측 변수로 결정한 후, 회귀모델을 이용하여 예측할 수 있다.
여기서, 상기, 상기 생존 데이터 정제 서버가 상기 추적손실 절단 데이터의 생존시간 추정을 포함하는 결과를 이용하여 상기 연구종료 절단 데이터에 대한 생존시간 추정을 수행할 수 있다.
여기서, 상기 생존 데이터 정제 서버가 상기 생존여부 확정 데이터 및 생존시간이 추정된 상기 추적손실 절단 데이터 중 적어도 어느 하나를 이용하여 모수적 분포를 추정하고, 그 추정된 분포에서 연구 기간을 초과한 생존 시간을 갖는 생존 데이터를 선정한 후 생존 시간에 기초하여 제1 정렬하고, 상기 생존여부 확정 데이터와 생존시간이 추정된 상기 추적손실 절단 데이터를 이용하여 회귀 모델 피팅을 수행하고, 해당 피팅된 회귀 모델을 이용하여 상기 연구종료 절단 데이터의 생존 시간을 예측한 후 해당 생존시간에 따라 제2 정렬하며, 상기 제1 정렬된 순서와 상기 제2 정렬된 순서를 서로 대응시킨 후, 상기 제1 정렬된 생존 데이터의 생존시간을 대응되는 연구종료 절단 데이터의 생존시간으로 추정할 수 있다.
이상 설명한 바와 같이 본 발명에 따르면, 생존분석시 중도절단된 데이터들에 대해 최적의 생존 시간을 할당함으로써 정교한 회귀 모델이 구축될 수 있도록 하고, 이에 따라 새로운 데이터들에 대한 생존 시간을 보다 정확하게 예측할 수 있도록 하는 효과를 달성한다.
도 1은 본 발명의 일 실시예에 따른 생존분석 시스템의 전체적인 개략 구성도이고,
도 2는 도 1의 생존 데이터 정제 서버의 기능 블록도이고,
도 3은 관측 생존 데이터를 연구 시점을 기준으로 좌측 정렬한 상태를 나타낸 도면이고,
도 4는 KNN 대체를 수행한 이후의 중도 절단 데이터의 분포를 나타낸 도면이고,
도 5는 평탄화 매개 변수 추정을 위한 변수들을 나타낸 표이고,
도 6은 본 발명의 일 실시예에 따른 생존분석 시스템의 전체적인 제어 흐름도이다.
이하에서는 첨부도면을 참조하여 본 발명에 대해 상세히 설명한다.
이하 본 발명에 따른 각 실시예는 본 발명의 이해를 돕기 위한 하나의 예에 불과하고, 본 발명이 이러한 실시예에 한정되는 것은 아니다. 특히 본 발명은 각 실시예에 포함되는 개별 구성, 개별 기능, 또는 개별 단계 중 적어도 어느 하나 이상의 조합으로 구성될 수 있다.
특히, 편의상 청구 범위의 일부 청구항에는 '(a)'와 같은 알파벳을 포함시켰으나, 이러한 알파벳이 각 단계의 순서를 규정하는 것은 아니다.
본 발명의 일 실시예에 따른 생존분석 시스템(1)의 기능 블록의 일 예는 도 1에 도시된 바와 같다.
동 도면에 도시된 바와 같이 생존분석 시스템은 생존 데이터 정제 서버(100)와 생존 데이터 분석 서버(200)를 포함하여 구성될 수 있다.
여기서 생존 데이터 정제 서버(100)는 수집된 관측 생존 데이터를 분석한 후, 부족한 데이터를 보완하는 기능을 수행하는 것으로서, 관측된 생존 데이터 중에서 생존시간이 확인되지 않은 데이터들에 대해 기 설정된 알고리즘을 이용하여 생존시간을 추정하는 기능을 수행한다.
이때, 생존 데이터 정제 서버(100)는 연구 시작 시점을 기준으로 모든 관측된 생존 데이터를 좌측 이동 정렬을 수행한 후에, 우중도 절단 데이터들의 각 절단 시점과 연구 종료 시점까지의 거리를 기초로 추적손실 절단 데이터와 연구종료 절단 데이터로 구분한 후에, 각 구분된 추적손실 절단 데이터와 연구종료 절단 데이터에 대해서 서로 다른 알고리즘을 적용하여 생존시간을 추정할 수 있다.
특히, 생존 데이터 정제 서버(100)는 추적손실 절단 데이터에 대해서는 관측 생존 데이터 중 생존시간이 확인된 생존여부 확정 데이터들과의 유사도를 기초로 생존시간을 추정하고, 반면에 연구종료 절단 데이터에 대해서는 연구종료 절단 데이터를 제외한 나머지 생존 데이터들 중 적어도 일부를 이용한 모수적 분포 형태를 기초로 생존시간을 추정할 수 있다.
이러한 생존 데이터 정제 서버(100)의 구체적인 기능 블록의 일 예는 도 2에 도시된 바와 같다.
동 도면에 도시된 바와 같이, 생존분석 시스템(1)은 데이터 수집부(110), 데이터 정렬부(120), 데이터 분류부(130), 생존시간 추정부(140), 데이터 전송부(150)를 포함하여 구성될 수 있다.
데이터 수집부(110)는 생존 데이터를 수집하는 기능을 수행하는데, 여기서 생존 데이터는 특정 이벤트가 발생할 때까지의 생존하는지 여부가 결정되는 데이터로서, 앞서 언급한 바와 같이 수술 후로부터 사망시까지의 걸리는 시간을 분석하기 위해 관측된 데이터, 기계 부품이 사용 시작시점부터 파손이 발생할 때가지 걸리는 시간을 분석하기 위해 관측된 데이터 등 그 데이터의 종류에는 제한이 없다.
이처럼 데이터 수집부(110)에 의해 수집되는 데이터를 이하에서는 '관측 생존 데이터'라 칭한다.
생존 데이터의 정의 및 특성은 공지된 것에 불과하므로 보다 상세한 설명은 생략한다.
데이터 정렬부(120)는 수집된 관측 생존 데이터를 연구 시작 시점을 기준으로 좌측 이동 정렬을 수행하는 기능을 수행한다.
예를 들어 도 3(a)와 같이 특정 연구 기간 내에 수집된 관측 생존 데이터를 도 3(b)와 같이 각 생존 데이터의 시작 위치를 연구기간의 시작 위치로 좌측 이동시키는 것이다.
이때 그 생존 데이터의 생존 기간(즉, 선의 길이)과 생존 여부에 대한 정보는 그대로 유지할 수 있다.
한편, 도 3을 참조하면 a, c, f는 생존여부 확정(complete) 데이터(즉, 사망 시점이 확인된 데이터)이고, b,d,e,g,h는 사망시점 등이 확인되지 않은 중도 절단 데이터라 할 수 있다.
참고로, 중도 절단 데이터는 좌중도 절단 데이터, 우중도 절단 데이터, 구간 중도 절단 데이터로 구분할 수 있는데, 우선, 좌중도 절단 데이터는 실제 값이 특정 값 이하인 것은 알고 있으나 그 값이 정확히 어떤 값인지 모르는 경우일 때 발생하는 것이다. 예를 들어, 임상시험 참여의 적합 여부를 평가하는 스크리닝 시기에는 기본적으로 병력을 조사하게 되는데 만약 고혈압을 기저질환으로 갖는 시험참여자가 "과거에 진단을 받은 건 기억나는데 정확히 언제쯤인지는 기억나질 않는다" 라고 답했다면 이는 좌중도절단의 경우로 할 수 있다.
우중도절단은 실제 값이 특정 값 이상 인 것은 알고 있으나 그 값이 정확히 어떤 값인지 모르는 경우일 때 발생한다. 예를 들어, 어떤 약을 12개월의 시험기간동안 말기암 환자들을 대상으로 투여할 때, 그 기간동안 사망하지 않는 환자가 존재할 수 있는데, 이러한 경우 (추적조사가 없다면) 생존기간이 12개월 이상인 것은 알고 있으나 정확히 몇개월인지는 알 수가 없고, 이러한 경우에 우중도절단이 발생했다고 할 수 있다.
구간 중도절단은 실제 값이 어떤 구간 내에서 발생하는 정도만 알고 정확히 언제 발생했는지 모를 경우 발생한다. 예를 들어 임상시험 참여자는 정해진 방문 일정에 맞추어 병원에 방문하여 검사를 진행하는데, 만약 감염연구에 참여한 대상자가 1차 방문에서는 문제가 없었으나 2차 방문 검사 결과 감염이 되었다고 조사되었다면 그 대상자는 1차 방문과 2차 방문 사이의 어느 시점에 감염되었다는 것은 알 수 있으나 정확한 시기는 알 수가 없고, 이러한 경우에 구간중도절단이 발생했다고 할 수 있다.
본 실시에에서는 상술한 다양한 종류의 중도 절단 데이터들 중에서 우중도 절단 데이터만이 존재한다고 가정한다.
즉, 수집되는 관측 생존 데이터에는 연구기간(관찰 기간) 내에 생존 여부가 확인된(특히 사망기간과 관련된 연구인 경우 사망 시점이 확인된) 생존여부 확정 데이터와, 우중도 절단 데이터만이 존재한다고 가정하는 것이다.
한편, 데이터 분류부(130)는 데이터 정렬부에 의해 정렬된 데이터들 중 우중도 절단 데이터들만을 추출하여 각 절단 시점과 연구 종료 시점까지의 거리를 기초로 추적손실 절단 데이터와 연구종료 절단 데이터로 구분하는 기능을 수행한다.
여기서 추적손실 절단 데이터는 연구 기간 중에 외부 요인으로 인해 더 이상 추적이 이루어지지 못한 데이터에 대응되는 것이고, 연구종료 절단 데이터는 연구 기간 종료로 인해 더 이상 추가적으로 생존 여부를 관찰할 수 없는 데이터에 대응되는 것이다.
본 실시예에서 추적손실 절단 데이터와 연구종료 절단 데이터는 실제 데이터의 중도 절단 원인에 기인한 것으로 한정되는 것이 아니고, 해당 중도 절단 데이터의 절단 시점에 기초하여 분류된 것일 수 있다.
즉, 앞서 설명한 바와 같이 모든 관측 생존 데이터를 연구 시작 시점(관찰 시작 시점)을 기준으로 좌측 정렬을 수행한 한 상태에서, 데이터 분류부(130)는 중도 절단 데이터들의 중도 절단 시점과 연구 종료 시점간의 거리에 기초하여 추적손실 절단 데이터와 연구종료 절단 데이터로 구분할 수 있는 것이다.
즉, 도 3(a)와 같이 관측 생존 데이터를 3(b)와 같이 연구 기간 시점을 기준으로 좌측 정렬을 수행한 상태에서, 데이터 분류부(130)는 중도 절단 데이터들 중에서 그 중도 절단 시점이 연구 종료 시점과 상대적으로 거리가 먼 곳에 있는 것은 추적손실 절단 데이터라고 분류하고, 그 중도 절단 시점이 연구 종료 시점과 상대적으로 거리가 가까운 곳에 있는 것은 연구종료 절단 데이터라고 분류할 수 있는 것이다.
특히, 데이터 분류부(130)는 데이터 정렬부에 의해 정렬된 데이터들 중 생존여부 확정 데이터와 우중도 절단 데이터의 비율을 기초로 연구 종류 시점을 기준으로 한 가상 기준 영역을 정하고, 각 우중도 절단 데이터 중 절단 시점이 가상 기준 영역에 포함되지 않는 것을 추적손실 절단 데이터로 구분하고, 각 우중도 절단 데이터 중 절단 시점이 가상 기준 영역에 포함되는 것을 연구종료 절단 데이터로 구분할 수 있는 것이다.
여기서, 데이터 분류부(130)는 가상 기준 영역을 설정함에 있어서, 연구 종료 시점을 기점으로 하여, 생존여부 확정 데이터의 생존 종료 시점과 상기 우중도 절단 데이터의 절단 시점의 비율이 기 설정된 비율에 도달하는 시점까지의 영역을 가상 기준 영역으로 설정할 수 있다.
가상 기준 영역의 예가 도 3(b)에 도시되었다.
즉, 첨언하면 데이터 분류부(130)는 연구 종료 시점 근처에 있는 소정의 영역을 가상 기준 영역으로 설정할 수 있는데, 이때 그 소정의 가상 기준 영역 존재하는 생존 여부 확정 데이터와 우중도 절단 데이터의 비율이 기 설정된 비율(예를 들어 1:10)이 되도록 하는 것이다.
구체적으로 도 3(b)에서 데이터 분류부(130)은 a, c, f는 생존여부 확정(complete) 데이터(즉, 사망 시점이 확인된 데이터), d,e,g,h는 추적손실 절단 데이터, b는 연구종료 절단 데이터로 분류할 수 있는 것이다.
생존시간 추정부(140)는 데이터 분류부(130)에서 구분된 추적손실 절단 데이터와 연구종료 절단 데이터에 대해 각각의 알고리즘을 적용하여 각각의 생존시간을 추정 및 대체하는 기능을 수행한다.
즉, 중도 절단 데이터는 그 성격상 생존시간이 특정되지 않은 데이터를 의미하는데, 생존시간 추정부(140)는 이러한 각 중도 절단 데이터들의 생존 시간을 기 설정된 알고리즘을 적용하여 추정하는 기능을 수행한다. 여기서 생존 시간을 추정한다는 것은 추정된 생존시간으로 대체(imputation)하는 것을 포함할 수 있다.
이러한 생존시간 추정부(140)의 기능에 의해 수집된 모든 관측 생존 데이터가 완전한 데이터(중도 절단이 발생하지 않은 데이터)가 될 수 있는 것이다.
여기서 생존시간 추정부(140)는 추적손실 절단 데이터와 연구종료 절단 데이터에 대해서 서로 다른 알고리즘을 적용하여 생존 시간을 추정하는데, 이하 그 구체적인 과정을 설명한다.
먼저, 추적손실 절단 데이터의 생존 시간을 추정하는 과정을 설명하면 다음과 같다.
우선 설명의 편의를 위해 표기법을 정의하면 다음과 같다.
Figure 112021133232517-pat00001
: (
Figure 112021133232517-pat00002
)집합을 갖는 생존여부 확정 데이터 세트
Figure 112021133232517-pat00003
:
Figure 112021133232517-pat00004
집합을 갖는 추적 손실 절단 데이터 세트
Figure 112021133232517-pat00005
:
Figure 112021133232517-pat00006
집합을 갖는 연구종료 절단 데이터 세트
Figure 112021133232517-pat00007
: 관찰된 생존 시간,
Figure 112021133232517-pat00008
생존시간 추정부(140)는 추적손실 절단 데이터 각각에 대해 기 설정된 조건에 따른 유사 특성 조합(예를 들어 유사 공변량 조합)을 갖는 적어도 하나의 생존여부 확정 데이터를 추출한 후, 추출된 생존여부 확정 데이터의 생존 시간의 평균을 그 대응되는 추적손실 절단 데이터의 생존 시간으로 추정할 수 있다.
예를 들어 환자의 생존기간을 분석하는 경우에, 각 환자의 나이, 가족관계, 직업, 경제력 등 다양한 변수들 중에서 추적손실 절단 데이터를 유발한 환자와 유사한 값을 가지는 타 환자들의 생존기간의 평균을 해당 추적손실 절단 데이터를 유발한 환자의 생존기간으로 추정 및 대체하는 것이고, 이하 이를 KNN 수행이라 한다.
이 경우 다음과 같이 표현할 수 있다.
Figure 112021133232517-pat00009
즉, LC 에 속하는 모든 원소에 대해서 KNN을 수행한 생존기간이
Figure 112021133232517-pat00010
이 되는 것이다.
이때 각 변수(독립변수)들까지의 거리를 고려하여 유사 환자군을 선정할 수 있다.
예를 들어 생존시간 추정부(140)는 추적손실 절단 데이터를 유발한 환자의 나이와 기 설정된 범위 이내의 오차를 갖는 환자들의 생존기간의 평균을 해당 추적손실 절단 데이터 유발 환자의 생존기간으로 추정 및 대체할 수 있는 것이다.
이때 해당 중도 절단이 발생한 시점까지의 생존은 확인된 것이므로, 그 이상의 생존 기간을 갖는 환자들의 생존기간의 평균을 그 추적손실 절단 데이터 유발 환자의 생존기간으로 추정 및 대체할 수 있다.
이어서 생존시간 추정부(140)는 생존 시간이 추정 및 대체된 추적손실 절단 데이터의 생존 시간 대 밀도 분포에 대해 평탄화 처리를 수행할 수 있다.
이를 표시법으로 표현하면 다음과 같다.
Figure 112021133232517-pat00011
즉, LC에 속하는 모든 원소에 대해서 평탄화 처리까지 수행된 생존 시간이
Figure 112021133232517-pat00012
가 되는 것이다.
이하에서는 이러한 평탄화 과정을 보다 구체적으로 설명한다.
먼저 평탄화 과정을 처리한 결과에 대해 설명하면 도 4에 도시된 바와 같다.
도 4(a)는 상술한 KNN 대체가 이루어지기 전의 상태를 나타내고 있는데, 중도 절단된 데이터의 분포가 원 데이터의 분포보다 좌측으로 이동해 있음을 알 수 있고, 도 4(b)S는 KNN 대체가 이루어진 후의 원 데이터와 대체된 데이터의 분포를 나타내고 있다.
즉, 도 4(b)를 살펴보면, KNN대체 이후의 분포가 더 평균에 집중되어 있음을 알 수 있고, 이러한 데이터를 그대로 이용하는 경우 생존 분석 모델의 결과의 정확도나 신뢰도가 다소 떨어지므로 평탄화 과정(분포 조정 과정)을 거치게 되는 것이다.
우선, 평탄화 단계를 설명하기 위한 표기법을 먼저 정의하면 다음과 같다.
Figure 112021133232517-pat00013
: 관측된 생존 시간,
Figure 112021133232517-pat00014
Figure 112021133232517-pat00015
: KNN 대체 이후 생존 시간,
Figure 112021133232517-pat00016
Figure 112021133232517-pat00017
: 진정 생존 시간,
Figure 112021133232517-pat00018
Figure 112021133232517-pat00019
평탄화 처리를 위해 생존시간 추정부(140)는 앞서 산출한 KNN 대체 생존 시간을 다음의 식에 적용하여 추적손실 절단 데이터에 대한 최종 생존 시간(진정 생존 시간)을 추정할 수 있다.
Figure 112021133232517-pat00020
- 식(1)
여기서,
Figure 112021133232517-pat00021
은 추정된 평탄화 매개 변수이고,
Figure 112021133232517-pat00022
을 만족한다.
상술한 식으로부터 평탄화 파라미터는 실제 생존 시간의 분산과 추정 및 대체된 생존 시간(KNN 대체 생존시간)의 분산 간의 비율에 해당함을 알 수 있다.
여기서 추적손실 절단 데이터에 대한 실제 생존 시간은 관찰되지 못하는 것이므로, 평탄화 매개 변수(파라미터)는 소정의 추정 모델 구축을 통해 판단될 수 있다.
이때,
Figure 112021133232517-pat00023
에 대한 제대로된 추정을 위해, 평탄화 파라미터를 응답 변수로 하고, 관측 생존시간과 진정 생존 시간에 기초한 표준 편차간 비율, 사분범위간 비율, 왜도차, 첨도차, 우중도 절단 데이터 비율을 각각의 예측 변수로 결정한 후, 이러한 응답 변수와 예측 변수에 기초한 회귀모델을 이용할 수 있다.
평탄화 매개 변수를 추정하기 위한 변수들이 대해 도 5에 도시되었다.
여기서 SD는 표준편차를 의미하고,
Figure 112021133232517-pat00024
,
Figure 112021133232517-pat00025
은 사분범위를 의미하며, skewness는 왜도를, kurtosis는 첨도를 의미한다.
특히 k의 추정을 위해서 다양한 회귀모델 중 랜덤 포레스트 모델이 이용될 수 있다.
랜덤 포레스트 모델은 의사결정 나무(Decision Tree)가 학습 데이터에 오버피팅 하는 경향을 보이는 것을 극복한 것으로서 다수의 나무들(각각 모델에 해당함)로부터 분류 결과를 취합해서 결론을 얻는 방식을 이용한다.
즉, 중복 데이터를 허용하고 속성에 제한을 가하는 배깅(Bagging)과정을 통해 복수 개의 의사결정 트리를 만들고, 이러한 서로 다른 나무(트리)들을 모아서 '숲'을 이루도록 하여 각 의사결정 나무들에 의한 다수결과 유사한 방식으로 처리하게 된다.
랜덤 포레스트 모델은 기계 학습 중 지도 학습을 통해 형성되는 회귀 분석을 위한 모델에 해당하는 것으로서, 그 자체는 공지된 기술에 해당하므로 보다 상세한 설명은 생략한다.
다만, 본 실시예에서는 도 5와 같은 실제 측정되는 값들을 이용한 독립변수들을 생성한 후, 이를 회귀 모델(랜덤 포레스트 모델)에 적용하여
Figure 112021133232517-pat00026
를 추정한다는 점이 특징이라 할 수 있다.
한편, 생존시간 추정부(140)는 연구종료 절단 데이터에 대해서도 생존시간 추정 및 대체를 수행할 수 있는데, 이하 이에 대해 설명한다.
생존시간 추정부(140)는 추적손실 절단 데이터에 대한 생존시간 추정 및 대체를 먼저 수행한 후, 그 추적손실 절단 데이터의 생존시간 추정 및 대체 결과를 이용하여 연구종료 절단 데이터에 대한 생존시간 추정 및 대체를 수행할 수 있다.
즉, 생존시간 추정부(140)는 생존여부 확정 데이터 및 생존시간이 추정된 추적손실 절단 데이터 중 적어도 어느 하나를 이용하여 추출한 데이터와, 추적손실 절단 데이터에 기초하여 형성된 회귀 모델을 통해 추출한 데이터를 서로 비교하여 연구종료 절단 데이터의 생존시간을 추정할 수 있는 것이다.
구체적으로 설명하면, 먼저 생존시간 추정부(140)는 생존여부 확정 데이터와 생존시간이 추정된 추적손실 절단 데이터 중 적어도 어느 하나를 이용하여 모수적 분포를 추정할 수 있다.
즉, 생존시간 추정부(140)는 생존여부 확정 데이터를 이용하여 모수적 분포를 추정하거나, 생존여부 확정 데이터 및 앞서 생존시간이 추정된 추적손실 절단 데이터들을 함께 이용하여 모수적 분포를 추정할 수 있다.
여기서, 분포 파라미터를 추정하기 위해 생존시간 추정부(140)는 베이블(Weibull) 분포를 이용할 수 있다.
즉, 생존 여부 확정 데이터가 베이블 분포를 따른다는 전제하에 주어진 관측 생존 데이터(중도 절단되지 않은 데이터)를 이용하여 베이블 분포의 파라미터를 추정할 수 있는데, 이처럼 소정의 데이터들이 특정 분포를 따르는 것을 전제로 하여 그 분포 파라미터를 추정하는 과정은 공지된 기술에 해당하므로 보다 상세한 설명은 생략한다.
즉, 모수적 분포를 추정한다는 것은 특정 분포를 가정한 상황에서 해당 분포의 모수를 통계적 기법으로 확정해나가는 것을 의미하고, 이처럼 소정의 데이터가 주어졌을 때 분포의 형태를 추정하는 것 자체는 공지된 기술에 해당하므로 보다 상세한 설명은 생략한다.
본 실시예에서는 이러한 모수적 분포가 예측 결정된 후에, 생존시간 추정부(140)는 그 추정된 분포에서 연구 기간을 초과한 생존 시간을 갖는 생존여부 확정 데이터를 선정한 후 생존 시간에 기초하여 제1 정렬을 수행하는 특징을 수행한다.
즉, 생존시간 추정부(140)는 해당 분포에서 연구 기간을 초과한 생존 시간을 갖는 데이터를 추출할 수 있고, 이렇게 추출된 데이터를 그 생존 기간을 기준으로 정렬하는 것이다.
이러한 정렬 과정을 편의상 제1 정렬 과정이라 하는데, 예를 들어 정렬된 생존 시간은 3, 3.8, 4, 4.5, 6 일 수 있다.
한편, 앞서서 추적손실 절단 데이터에 대해서 생존시간이 추정 및 대체(평탄화 과정 포함)되게 되는데, 이렇게 생존시간이 추정 및 대체된 추적손실 절단 데이터와 생존여부 확정 데이터를 회귀 모델 피팅을 수행한다.
여기서 회귀 모델 피팅은 주어진 데이터를 이용하여 회귀 모델의 파라미터를 산출하는 과정을 의미하는데, 주어진 데이터를 이용한 회귀 모델을 피팅하는 과정 역시 공지된 기술에 해당하므로 보다 상세한 설명은 생략한다.
즉, 회귀 모델 피팅에 의해 주어진 데이터에 의한 회귀 모델(예측된 회귀 모델)이 구축될 수 있는 것이다.
이렇게 회귀 모델이 구축된 이후, 생존시간 추정부(140)는 연구종료 절단 데이터를 회귀 모델에 적용시켜 생존 시간을 예측한다.
회귀 모델이 새로운 데이터를 입력하여 출력값으로서 예측값을 산출하는 과정 역시 공지된 기술에 해당하므로 보다 상세한 설명은 생략한다.
이렇게 연구종료 절단 데이터에 대한 생존 시간이 예측 되면, 생존시간 추정부(140)는 그 예측된 생존 시간 기준으로 해당 연구종료 절단 데이터를 정렬한다.
이러한 정렬 과정을 편의상 제2 정렬 과정이라 하는데, 예를 들어 연구종료 절단 데이터가 그 정렬된 순서대로 x1, x3, x5, x2, x3일 수 있다.
이후, 생존시간 추정부(140)는 제1 정렬된 순서와 제2 정렬된 순서를 서로 대응시킨 후, 제1 정렬된 생존 데이터의 생존시간을 대응되는 연구종료 절단 데이터의 생존시간으로 추정 및 대체한다.
즉, 상술한 예를 참조하면, 생존시간 추정부(140)는 x1에는 3, x3에는 3.8, x5에는 4, x2에는 4.5, x3에는 6을 생존 시간으로 할당할 수 있는 것이다.
한편, 데이터 전송부(150)는 관측 생존 데이터 중 생존시간이 확인된 생존여부 확정 데이터와 생존시간 추정부(140)에 의해 생존시간이 대체된 추적손실 절단 데이터 및 연구종료 절단 데이터를 회귀모듈을 생성하는 생존 데이터 분석 서버(200)에 전송하는 기능을 수행한다.
즉, 데이터 전송부(150)는 상술한 과정을 거치면서 모든 수집된 관측 생존 데이터에 대해 생존 시간이 결정(추정 포함)되었으므로, 이러한 데이터들을 기 구비된 생존 데이터 분석 시스템에 전달하여 분석이 이루어지도록 하는 것이다.
한편, 생존 데이터 분석 서버(200)는 생존 데이터 정제 서버(100)에 의해 생존 시간이 추정된 추적손실 절단 데이터와 연구종료 절단 데이터 및, 생존여부 확정 데이터를 입력받거나 전달받은 후, 회귀분석 기계 학습 모듈에 입력하여 최종 회귀모델을 생성하는 기능을 수행한다.
즉, 주어진 관측 생존 데이터가 모두 완전한 데이터(중도 절단이 발생하지 않은 데이터)가 되었으므로, 이들을 이용한 최종 회귀모델이 구축될 수 있는 것이다.
데이터에 기반한 회귀모델 구축 그 자체는 공지된 다양한 방식이 있는데, 본 실시예에서는, 회귀모델 구축을 위해 이용하는 데이터가 앞선 추정 과정을 거쳐 완전하게 된 데이터이게 되는 것이다.
특히, 여기서 생존 데이터 분석 서버(200)는 전통적인 회귀 분석을 수행하는 서버일 수도 있지만, 기계 학습을 수행하는 것일 수도 있다.
이렇게 최종 회귀모델이 구축된 후, 생존 데이터 분석 서버(200)는 특정 조건의 생존 데이터에 대한 생존 시간을 해당 최종 회귀모델을 이용하여 예측하는 기능도 수행한다.
즉, 특정 조건의 데이터를 입력으로 하고, 해당 데이터의 생존 기간을 출력값으로 최종 회귀모델이 제대로 형성된 경우, 그 이후에 관측되거나 발생되는 특정 조건에 대해 신뢰성 높은 결과를 예측할 수 있게 된다.
즉, 수집된 관측 생존 데이터에 대한 기계 학습을 통해 관측 생존 데이터에 대한 최적의 분석 모델이 결정(구체적으로는 모델의 파라미터)될 수 있고, 이렇게 분석 모델(최종 회귀모델)이 결정되면, 추후 새로운 데이터를 해당 분석 모델이 입력하여 결과를 추출할 수 있게 된다.
예를 들어 환자의 나이, 가족관계, 직업, 경제력을 입력하면 해당 환자의 생존 시간을 예측할 수 있는 것이다.
이하에서는 도 6을 참조하여 본 발명의 일 실시예에 따른 생존분석 시스템(1)의 전체적인 제어 과정을 설명한다.
생존분석 시스템(1)은 관측 생존 데이터를 입력받고(단계 S1), 그 중에서 우중도 절단 데이터가 존재하는 경우(단계 S) 이를 추출한다(단계 S5).
이어서 생존분석 시스템(1)은 생존 기간과 관련하여 KNN 대체가 가능한 상태인지 여부를 판단하는데(단계 S7), 예를 들어 추적손실 절단 데이터에 대해서는 KNN 대체가 가능한 것으로 판단할 수 있다.
이러한 추적손실 절단 데이터(단계 S9)에 대해서 생존분석 시스템(1)은 KNN 대체를 수행한다(단계 S11).
KNN 대체를 수행한다는 것은 추적손실 절단 데이터 각각에 대해 기 설정된 조건에 따른 유사 공변량 조합을 갖는 적어도 하나의 생존여부 확정 데이터를 추출한 후, 추출된 생존여부 확정 데이터의 생존 시간의 평균을 그 대응되는 추적손실 절단 데이터의 생존 시간으로 추정 및 대체하는 것을 의미한다.
이어서 생존분석 시스템(1)은 KNN 대체가 수행된 추적손실 절단 데이터에 대해서 평탄화 처리를 수행한다(단계 S13).
평탄화 처리를 위해 필요한 평탄화 매개변수에 대해, 생존분석 시스템(1)은 도 5의 테이블에 도시된 변수들을 활용한 회귀 모델을 통해 추정할 수 있다.
이러한 과정을 통해 추적손실 절단 데이터에 대한 생존 시간이 최종 추정될 수 있는 것이다.
한편, 생존분석 시스템(1)은 수집된 관측 생존 데이터를 활용하여 모수적 분포를 추정하고(단계 S23), 이러한 과정을 통해 추정 형성된 분포상에서 연구 기간을 초과한 생존 시간을 갖는 생존 데이터를 선정하고, 생존 시간에 기초하여 제1 정렬을 수행한다(단계 S25).
도 5에서는 생존분석 시스템이 수집된 관측 생존 데이터 중에서 마치 생존여부 확정 데이터만을 이용하여 모수적 분포를 추정하는 것을 일 예로 하였으나, 단계 S15에서 생성된 최종 추적 손실 절단 데이터(즉, 생존시간이 추정된 최종 추적손실 절단 데이터)도 함께 고려하여 모수적 분포를 추정할 수도 있음은 물론이다.
이 경우 고려되는 전체 데이터의 양이 증가하므로 생성되는 모수적 분포에 대한 신뢰성이 더 증가될 수 있다.
또한, 생존분석 시스템(1)은 앞서 최종 생존 기간이 추정(평탄화 과정 포함)된 추적손실 절단 데이터와 생존여부 확정 데이터를 이용한 회귀 모델을 피팅하고(단계 S17), 피팅된 회귀 모델을 이용하여 위험 랭킹을 산출할 수 있다(단계 S19).
여기서 위험 랭킹은 회귀 모델이 구축된 이후, 연구종료 절단 데이터를 회귀 모델에 적용시켜 예측한 생존 시간을 정렬하여 산출한 것이다. 즉, 각 연구종료 절단 데이터에 대한 위험 랭킹이 순서대로 매칭될 수 있는 것이다. 이를 제2 정렬이라 할 수 있다.
이후, 생존분석 시스템(1)은 제1 정렬된 순서와 제2 정렬된 순서를 서로 대응시킨 후, 제1 정렬된 생존여부 확정 데이터의 생존시간을 대응되는 연구종료 절단 데이터의 생존시간으로 추정 및 대체한다(단계 S27, S29).
이렇게 각 추적손실 절단 데이터 및 연구종료 절단 데이터들에 대해서 생존 시간이 제대로 추정/대체되도록 한 후에, 생존 여부 확정 데이터와 함께 기 분석 시스템에 전송될 수 있음은 앞서 설명한 바와 같다(단계 S31).
한편, 상술한 각 실시예를 수행하는 과정은 소정의 기록 매체(예를 들어 컴퓨터로 판독 가능한)에 저장된 프로그램 또는 애플리케이션에 의해 이루어질 수 있음은 물론이다. 여기서 기록 매체는 RAM(Random Access Memory)과 같은 전자적 기록 매체, 하드 디스크와 같은 자기적 기록 매체, CD(Compact Disk)와 같은 광학적 기록 매체 등을 모두 포함한다.
이때, 기록 매체에 저장된 프로그램은 컴퓨터나 스마트폰 등과 같은 하드웨어 상에서 실행되어 상술한 각 실시예를 수행할 수 있다. 특히, 상술한 본 발명에 따른 생존 데이터 정제 서버의 기능 블록 중 적어도 어느 하나는 이러한 프로그램 또는 애플리케이션에 의해 구현될 수 있다.
또한, 본 발명은 상기한 특정 실시예에 한정되는 것이 아니라 본 발명의 요지를 벗어나지 않는 범위 내에서 여러 가지로 변형 및 수정하여 실시할 수 있는 것이다. 이러한 변형 및 수정이 첨부되는 청구범위에 속한다면 본 발명에 포함된다는 것은 자명할 것이다.
1 : 생존분석 시스템 100 : 생존 데이터 정제 서버
200 : 생존 데이터 분석 서버 110 : 데이터 수집부
120 : 데이터 정렬부 130 : 데이터 분류부
140 : 생존시간 추정부 150 : 데이터 전송부

Claims (18)

  1. 삭제
  2. 수집된 관측 생존 데이터를 연구 시작 시점을 기준으로 좌측 이동 정렬을 수행한 후에, 우중도 절단 데이터들의 각 절단 시점과 연구 종료 시점까지의 거리를 기초로 추적손실 절단 데이터와 연구종료 절단 데이터로 구분하고, 상기 추적손실 절단 데이터에 대해서는 상기 관측 생존 데이터 중 생존시간이 확인된 생존여부 확정 데이터들과의 유사도를 기초로 생존시간을 추정하고, 상기 연구종료 절단 데이터에 대해서는 나머지 데이터들 중 적어도 일부의 모수적 분포 형태를 기초로 생존시간을 추정하는 생존 데이터 정제 서버와;
    상기 생존 데이터 정제 서버에 의해 생존 시간이 추정된 추적손실 절단 데이터와 연구종료 절단 데이터 및 상기 생존여부 확정 데이터를 회귀분석 기계 학습 모듈에 입력하여 최종 회귀모델을 생성하고, 해당 최종 회귀모듈을 이용하여 특정 조건의 생존 데이터에 대한 생존 시간을 예측하는 생존 데이터 분석 서버를 포함하며,
    상기 생존 데이터 정제 서버는, 상기 정렬된 데이터들 중 생존여부 확정 데이터와 우중도 절단 데이터의 비율을 기초로 상기 연구 종료 시점을 기준으로 한 가상 기준 영역을 정하고, 각 우중도 절단 데이터 중 절단 시점이 상기 가상 기준 영역에 포함되지 않는 것을 추적손실 절단 데이터로 구분하고, 각 우중도 절단 데이터 중 절단 시점이 상기 가상 기준 영역에 포함되는 것을 연구종료 절단 데이터로 구분하는 것을 특징으로 하는 생존분석 시스템.
  3. 제2항에 있어서,
    상기 생존 데이터 정제 서버는 상기 연구 종료 시점을 기점으로 하여, 상기 생존여부 확정 데이터의 생존 종료 시점과 상기 우중도 절단 데이터의 절단 시점의 비율이 기 설정된 비율에 도달하는 시점까지의 영역을 상기 가상 기준 영역으로 정하는 것을 특징으로 하는 생존분석 시스템.
  4. 제3항에 있어서,
    상기 생존 데이터 정제 서버는, 상기 추적손실 절단 데이터 각각에 대해 기 설정된 조건에 따른 유사 특성 조합을 갖는 적어도 하나의 생존여부 확정 데이터를 추출한 후, 추출된 생존여부 확정 데이터의 생존 시간의 평균을 그 대응되는 추적손실 절단 데이터의 생존 시간으로 추정하는 것을 특징으로 하는 생존분석 시스템.
  5. 제4항에 있어서,
    상기 생존 데이터 정제 서버는, 상기 생존 시간이 추정된 추적손실 절단 데이터의 생존 시간 대 밀도 분포가 하기의 식에 의해 평탄화되도록 처리하는 것을 특징으로 하는 생존분석 시스템.
    Figure 112021133232517-pat00027

    (여기서,
    Figure 112021133232517-pat00028
    는 소정의 매개 변수(평탄화 변수라 함)임)
  6. 제5항에 있어서,
    상기 평탄화 파라미터는, 상기 평탄화 파라미터를 응답 변수로 하고, 관측 생존시간과 진정 생존 시간에 기초한 표준 편차간 비율, 사분범위간 비율, 왜도차, 첨도차, 우중도 절단 데이터 비율을 각각의 예측 변수로 결정한 후, 회귀모델을 이용하여 예측한 것을 특징으로 하는 생존분석 시스템.
  7. 삭제
  8. 수집된 관측 생존 데이터를 연구 시작 시점을 기준으로 좌측 이동 정렬을 수행한 후에, 우중도 절단 데이터들의 각 절단 시점과 연구 종료 시점까지의 거리를 기초로 추적손실 절단 데이터와 연구종료 절단 데이터로 구분하고, 상기 추적손실 절단 데이터에 대해서는 상기 관측 생존 데이터 중 생존시간이 확인된 생존여부 확정 데이터들과의 유사도를 기초로 생존시간을 추정하고, 상기 연구종료 절단 데이터에 대해서는 나머지 데이터들 중 적어도 일부의 모수적 분포 형태를 기초로 생존시간을 추정하는 생존 데이터 정제 서버와;
    상기 생존 데이터 정제 서버에 의해 생존 시간이 추정된 추적손실 절단 데이터와 연구종료 절단 데이터 및 상기 생존여부 확정 데이터를 회귀분석 기계 학습 모듈에 입력하여 최종 회귀모델을 생성하고, 해당 최종 회귀모듈을 이용하여 특정 조건의 생존 데이터에 대한 생존 시간을 예측하는 생존 데이터 분석 서버를 포함하고,
    상기 생존 데이터 정제 서버는 상기 추적손실 절단 데이터의 생존시간 추정을 포함하는 결과를 이용하여 상기 연구종료 절단 데이터에 대한 생존시간 추정을 수행하며,
    상기 생존 데이터 정제 서버는, 상기 생존여부 확정 데이터 및 생존시간이 추정된 상기 추적손실 절단 데이터 중 적어도 어느 하나를 이용하여 모수적 분포를 추정하고, 그 추정된 분포에서 연구 기간을 초과한 생존 시간을 갖는 생존 데이터를 선정한 후 생존 시간에 기초하여 제1 정렬하고, 상기 생존여부 확정 데이터와 생존시간이 추정된 상기 추적손실 절단 데이터를 이용하여 회귀 모델 피팅을 수행하고, 해당 피팅된 회귀 모델을 이용하여 상기 연구종료 절단 데이터의 생존 시간을 예측한 후 해당 생존시간에 따라 제2 정렬하며, 상기 제1 정렬된 순서와 상기 제2 정렬된 순서를 서로 대응시킨 후, 상기 제1 정렬된 생존 데이터의 생존시간을 대응되는 연구종료 절단 데이터의 생존시간으로 추정하는 것을 특징으로 하는 생존분석 시스템.
  9. 삭제
  10. 생존 데이터 정제 서버와 생존 데이터 분석 서버를 포함하는 생존분석 시스템의 제어방법에 있어서,
    (a) 상기 생존 데이터 정제 서버가 수집된 관측 생존 데이터를 연구 시작 시점을 기준으로 좌측 이동 정렬을 수행하는 단계와;
    (b) 상기 생존 데이터 정제 서버가 좌측 이동 정렬된 생존 데이터 중 우중도 절단 데이터들의 각 절단 시점과 연구 종료 시점까지의 거리를 기초로 추적손실 절단 데이터와 연구종료 절단 데이터로 구분하는 단계와;
    (c) 상기 생존 데이터 정제 서버가 상기 추적손실 절단 데이터에 대해서는 상기 관측 생존 데이터 중 생존시간이 확인된 생존여부 확정 데이터들과의 유사도를 기초로 생존시간을 추정하는 단계와;
    (d) 상기 생존 데이터 정제 서버가 상기 연구종료 절단 데이터에 대해서 나머지 데이터들 중 적어도 일부의 모수적 분포 형태를 기초로 생존시간을 추정하는 단계와;
    (e) 상기 생존 데이터 분석 서버가 상기 생존 데이터 정제 서버에 의해 생존 시간이 추정된 추적손실 절단 데이터와 연구종료 절단 데이터 및 상기 생존여부 확정 데이터를 회귀분석 기계 학습 모듈에 입력하여 최종 회귀모델을 생성하는 단계와;
    (f) 상기 생존 데이터 분석 서버가 상기 생성된 최종 회귀모듈을 이용하여 특정 조건의 생존 데이터에 대한 생존 시간을 예측하는 단계를 포함하고,
    상기 (b) 단계는, (b1) 상기 생존 데이터 정제 서버가 상기 정렬된 데이터들 중 생존여부 확정 데이터와 우중도 절단 데이터의 비율을 기초로 상기 연구 종료 시점을 기준으로 한 가상 기준 영역을 정하는 단계와; (b2) 상기 생존 데이터 정제 서버가 상기 각 우중도 절단 데이터 중 절단 시점이 상기 가상 기준 영역에 포함되지 않는 것을 추적손실 절단 데이터로 구분하고, 각 우중도 절단 데이터 중 절단 시점이 상기 가상 기준 영역에 포함되는 것을 연구종료 절단 데이터로 구분하는 단계를 포함하는 것을 특징으로 하는 생존분석 시스템의 제어방법.
  11. 제10항에 있어서,
    상기 (b1) 단계에서는, 상기 생존 데이터 정제 서버가 상기 연구 종료 시점을 기점으로 하여, 상기 생존여부 확정 데이터의 생존 종료 시점과 상기 우중도 절단 데이터의 절단 시점의 비율이 기 설정된 비율에 도달하는 시점까지의 영역을 상기 가상 기준 영역으로 정하는 것을 특징으로 하는 생존분석 시스템의 제어방법.
  12. 제11항에 있어서,
    상기 (c) 단계에서는, 상기 생존 데이터 정제 서버가, 상기 추적손실 절단 데이터 각각에 대해 기 설정된 조건에 따른 유사 특성 조합을 갖는 적어도 하나의 생존여부 확정 데이터를 추출한 후, 추출된 생존여부 확정 데이터의 생존 시간의 평균을 그 대응되는 추적손실 절단 데이터의 생존 시간으로 추정하는 것을 특징으로 하는 생존분석 시스템의 제어방법.
  13. 제12항에 있어서,
    상기 (c) 단계는, 상기 생존 데이터 정제 서버가 상기 생존 시간이 추정된 추적손실 절단 데이터의 생존 시간 대 밀도 분포가 하기의 식에 의해 평탄화되도록 처리하는 단계를 더 포함하는 것을 특징으로 하는 생존분석 시스템의 제어방법.
    Figure 112021133232517-pat00029

    (여기서,
    Figure 112021133232517-pat00030
    는 소정의 매개 변수(평탄화 변수라 함)임)
  14. 제13항에 있어서,
    상기 평탄화 파라미터는, 상기 평탄화 파라미터를 응답 변수로 하고, 관측 생존시간과 진정 생존 시간에 기초한 표준 편차간 비율, 사분범위간 비율, 왜도차, 첨도차, 우중도 절단 데이터 비율을 각각의 예측 변수로 결정한 후, 회귀모델을 이용하여 예측한 것을 특징으로 하는 생존분석 시스템의 제어방법.
  15. 삭제
  16. 생존 데이터 정제 서버와 생존 데이터 분석 서버를 포함하는 생존분석 시스템의 제어방법에 있어서,
    (a) 상기 생존 데이터 정제 서버가 수집된 관측 생존 데이터를 연구 시작 시점을 기준으로 좌측 이동 정렬을 수행하는 단계와;
    (b) 상기 생존 데이터 정제 서버가 좌측 이동 정렬된 생존 데이터 중 우중도 절단 데이터들의 각 절단 시점과 연구 종료 시점까지의 거리를 기초로 추적손실 절단 데이터와 연구종료 절단 데이터로 구분하는 단계와;
    (c) 상기 생존 데이터 정제 서버가 상기 추적손실 절단 데이터에 대해서는 상기 관측 생존 데이터 중 생존시간이 확인된 생존여부 확정 데이터들과의 유사도를 기초로 생존시간을 추정하는 단계와;
    (d) 상기 생존 데이터 정제 서버가 상기 연구종료 절단 데이터에 대해서 나머지 데이터들 중 적어도 일부의 모수적 분포 형태를 기초로 생존시간을 추정하는 단계와;
    (e) 상기 생존 데이터 분석 서버가 상기 생존 데이터 정제 서버에 의해 생존 시간이 추정된 추적손실 절단 데이터와 연구종료 절단 데이터 및 상기 생존여부 확정 데이터를 회귀분석 기계 학습 모듈에 입력하여 최종 회귀모델을 생성하는 단계와;
    (f) 상기 생존 데이터 분석 서버가 상기 생성된 최종 회귀모듈을 이용하여 특정 조건의 생존 데이터에 대한 생존 시간을 예측하는 단계를 포함하고,
    상기 (d) 단계에서, 상기 생존 데이터 정제 서버가 상기 추적손실 절단 데이터의 생존시간 추정을 포함하는 결과를 이용하여 상기 연구종료 절단 데이터에 대한 생존시간 추정을 수행하며,
    상기 생존 데이터 정제 서버가 상기 생존여부 확정 데이터 및 생존시간이 추정된 상기 추적손실 절단 데이터 중 적어도 어느 하나를 이용하여 모수적 분포를 추정하고, 그 추정된 분포에서 연구 기간을 초과한 생존 시간을 갖는 생존 데이터를 선정한 후 생존 시간에 기초하여 제1 정렬하고, 상기 생존여부 확정 데이터와 생존시간이 추정된 상기 추적손실 절단 데이터를 이용하여 회귀 모델 피팅을 수행하고, 해당 피팅된 회귀 모델을 이용하여 상기 연구종료 절단 데이터의 생존 시간을 예측한 후 해당 생존시간에 따라 제2 정렬하며, 상기 제1 정렬된 순서와 상기 제2 정렬된 순서를 서로 대응시킨 후, 상기 제1 정렬된 생존 데이터의 생존시간을 대응되는 연구종료 절단 데이터의 생존시간으로 추정하는 것을 특징으로 하는 생존분석 시스템의 제어방법.
  17. 제10항 내지 제14항, 제16항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
  18. 하드웨어와 결합되어 제10항 내지 제14항, 제16항 중 어느 한 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능 기록 매체에 저장된 응용 프로그램.
KR1020210159392A 2021-11-18 2021-11-18 생존 데이터 정제 서버와 생존 데이터 분석 서버를 포함하는 시스템 및 그 제어방법 KR102424884B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210159392A KR102424884B1 (ko) 2021-11-18 2021-11-18 생존 데이터 정제 서버와 생존 데이터 분석 서버를 포함하는 시스템 및 그 제어방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210159392A KR102424884B1 (ko) 2021-11-18 2021-11-18 생존 데이터 정제 서버와 생존 데이터 분석 서버를 포함하는 시스템 및 그 제어방법

Publications (1)

Publication Number Publication Date
KR102424884B1 true KR102424884B1 (ko) 2022-07-27

Family

ID=82701225

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210159392A KR102424884B1 (ko) 2021-11-18 2021-11-18 생존 데이터 정제 서버와 생존 데이터 분석 서버를 포함하는 시스템 및 그 제어방법

Country Status (1)

Country Link
KR (1) KR102424884B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210099605A (ko) 2018-11-29 2021-08-12 소마로직, 인크. 클래스 불균형 세트의 다운샘플링과 생존 분석을 조합한 질병 위험도 판정 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210099605A (ko) 2018-11-29 2021-08-12 소마로직, 인크. 클래스 불균형 세트의 다운샘플링과 생존 분석을 조합한 질병 위험도 판정 방법

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Eunjung Yoon et al. "Estimación de la función de supervivencia y la mediana del tiempo de supervivencia a partir de datos censurados por intervalos", Applied Statistical Research, 2010, pp.521-531 *
Ji Eun-jung, etc. "Aplicación de la Metodología de Análisis de Supervivencia en Oftalmología", Journal of Retina, 2018, pp.01-12 *
윤은정 등. "구간중도절단자료에서 생존함수와 중간생존시간에 대한 추정", 응용통계연구, 2010, pp.521-531 1부.*
지은정 등. "안과영역에서 생존분석 방법론 적용", Journal of Retina, 2018, pp.01-12 1부.*

Similar Documents

Publication Publication Date Title
US10872131B2 (en) Progression analytics system
Schonlau The clustergram: A graph for visualizing hierarchical and nonhierarchical cluster analyses
CN106156791B (zh) 业务数据分类方法和装置
CN108833139B (zh) 一种基于类别属性划分的ossec报警数据聚合方法
CN104166881A (zh) 数据分析装置以及保健事业支援方法
CN111831871B (zh) 用于空调工作模式推荐的方法及装置、设备
CN113297578B (zh) 基于大数据和人工智能的信息感知方法及信息安全系统
WO2018188533A1 (zh) 用于健康评估的健康模型构建方法、终端及存储介质
CN110706822B (zh) 基于逻辑回归模型和决策树模型的健康管理方法
CN112241494A (zh) 基于用户行为数据的关键信息推送方法及装置
US20100094785A1 (en) Survival analysis system, survival analysis method, and survival analysis program
Hakim et al. An efficient modified bagging method for early prediction of brain stroke
CN106575225B (zh) 模块划分辅助装置、方法和存储介质
CN104077128B (zh) 一种数据处理方法及装置
KR102424884B1 (ko) 생존 데이터 정제 서버와 생존 데이터 분석 서버를 포함하는 시스템 및 그 제어방법
WO2020004101A1 (ja) 表示制御装置、表示制御方法及び表示制御プログラム
KR102393367B1 (ko) 생존 분석 시스템 및 그 제어방법
JP3563394B2 (ja) 画面表示システム
CN112445846A (zh) 医疗项目识别方法、装置、设备及计算机可读存储介质
CN112217908A (zh) 基于迁移学习的信息推送方法、装置及计算机设备
JP4194697B2 (ja) 分類ルール探求式クラスター分析装置
KR102425204B1 (ko) 변수 속성에 기반한 탐색적 데이터 분석 자동화 시스템과 방법
CN106202847B (zh) 一种就诊预测方法
CN109690585A (zh) 信息处理装置、信息处理方法及信息处理程序
CN110225007A (zh) webshell流量数据聚类分析方法以及控制器和介质

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant