KR102393367B1 - 생존 분석 시스템 및 그 제어방법 - Google Patents

생존 분석 시스템 및 그 제어방법 Download PDF

Info

Publication number
KR102393367B1
KR102393367B1 KR1020210156857A KR20210156857A KR102393367B1 KR 102393367 B1 KR102393367 B1 KR 102393367B1 KR 1020210156857 A KR1020210156857 A KR 1020210156857A KR 20210156857 A KR20210156857 A KR 20210156857A KR 102393367 B1 KR102393367 B1 KR 102393367B1
Authority
KR
South Korea
Prior art keywords
data
survival
survival time
analysis system
time
Prior art date
Application number
KR1020210156857A
Other languages
English (en)
Inventor
송종우
Original Assignee
오브젠 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오브젠 주식회사 filed Critical 오브젠 주식회사
Priority to KR1020210156857A priority Critical patent/KR102393367B1/ko
Application granted granted Critical
Publication of KR102393367B1 publication Critical patent/KR102393367B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Complex Calculations (AREA)

Abstract

본 발명은 생존 분석 시스템 및 그 제어방법에 관한 것이다. 본 발명에 따른 생존분석 시스템의 제어방법은, 수집된 관측 생존 데이터 중에서 우중도 절단 데이터를 추출하는 단계와; 상기 추출된 우중도 절단 데이터들을 추적손실 절단 데이터와 연구종료 절단 데이터로 구분하는 단계와; 상기 구분된 추적손실 절단 데이터와 연구종료 절단 데이터에 대해 각각의 알고리즘을 적용하여 각각의 생존시간을 추정 및 대체하는 단계와; 상기 관측 생존 데이터 중 생존시간이 확인된 생존여부 확정 데이터와 상기 생존시간이 대체된 추적손실 절단 데이터 및 연구종료 절단 데이터를 기 구비된 분석 시스템에 전달하는 단계를 포함하는 것을 특징으로 한다.

Description

생존 분석 시스템 및 그 제어방법{SURVIVAL ANALYSIS SYSTEM AND CONTROL METHOD THEREOF}
본 발명은 생존 분석 시스템 및 그 제어방법에 관한 것으로, 보다 상세하게는 생존 시간을 갖는 각 데이터를 정제하여 통계에 활용할 수 있도록 하는 생존분석 시스템 및 그 제어방법에 관한 것이다.
생존분석은 통계학의 한 분야로, 어떠한 현상이 발생하기까지에 걸리는 시간에 대해 분석하는 것인데, 예를 들면, 생명체의 관찰시작부터 사망에 이르는 시간을 분석하는 것이 그 한 예이다.
생존분석은 의학 연구는 물론 기계의 내구성에 대한 판단 등 여러 분야에서 사용될 수 있다. 즉, 인간의 사망이나 질병 발생, 기계 고장처럼 특정 현상이 발생하기까지 걸리는 시간을 분석할 수 있는 것이다.
더 나아가 생존분석은 웹페이지의 고객 이탈율과 같이 특정 이벤트와 시간이 매칭되는 다양한 종류의 경우에 적용될 수 있다.
생존분석을 위해 다양한 모델들이 제시되고 있는데, 대표적인 방법으로는 카플란-메이어 (Kaplan-Meier) 생존분석과 콕스 비례위험 모형(Cox proportional hazards model), 로그 순위법 (Log-rank test), 랜덤 생존 숲(Random survival forestes) 등이 있다.
생존분석 방법을 분류하자면 모수적 방법과 비모수적 방법으로 구분할 수 있는데, 모수적 방법은 결과 변수가 정규분포, 이항 분포, 포아송 분포 등 사전에 알고 있는 분포를 따른다는 가정하에 회귀분석을 통해 생존 함수를 구축하는 것을 의미하고, 비모수적 방법은 분포 가정을 적용하지 않고 생존 함수를 구축하는 것을 의미한다.
즉, 생존분석을 위해서는, 수집된 데이터를 상술한 다양한 모델들에 적용하게 되는데, 이를 위해서는 수집된 데이터들이 가능한한 분석 기간 내에 그 상태가 명확하게 결정된 데이터일 필요가 있다.
예를 들어 분석 기간 내에 생존 여부가 확실하게 결정된 데이터(완전 데이터 또는 생존 여부 확정 데이터)를 가지고 분석해야 그 분석 결과의 신뢰도 및 정확도가 향상되는 것이다.
그런데, 생존분석을 위해 수집되는 모든 데이터들이 상술한 바와 같이 분석 기간(관찰 기간) 동안에 생존 여부가 확정되는 것은 아니다.
즉, 관찰 기간 중에 이벤트(사건) 발생 여부를 확인할 수 없는 데이터들이 존재하는데, 이러한 데이터를 중도절단(Censored) 데이터라고 한다.
그런데 이러한 중도 절단 데이터는 생존 데이터에 대한 우도 함수를 복잡하게 만들어 생존분석 모형을 추정하기 어렵게 하는 경향이 있고, 중도 절단 데이터가 증가할수록 해당 생존 데이터를 이용한 분석의 정확도는 떨어질 수밖에 없으므로, 중도 절단 데이터에 대한 적절한 처리가 필요하다고 할 수 있다.
공개특허 제10-2021-0099605호
본 발명은 상기한 종래의 필요성을 충족시키기 위해 안출된 것으로서, 그 목적은 생존 데이터에 포함되는 중도 절단 데이터에 대한 적절한 처리를 통해 생존 데이터 분석의 정확도와 신뢰도를 향상시킬 수 있는 생존분석 시스템 및 그 제어방법을 제공하는 것이다.
상기한 목적을 달성하기 위해 본 발명에 따른 생존분석 시스템의 제어방법은, 수집된 관측 생존 데이터 중에서 우중도 절단 데이터를 추출하는 단계와; 상기 추출된 우중도 절단 데이터들을 추적손실 절단 데이터와 연구종료 절단 데이터로 구분하는 단계와; 상기 구분된 추적손실 절단 데이터와 연구종료 절단 데이터에 대해 각각의 알고리즘을 적용하여 각각의 생존시간을 추정 및 대체하는 단계와; 상기 관측 생존 데이터 중 생존시간이 확인된 생존여부 확정 데이터와 상기 생존시간이 대체된 추적손실 절단 데이터 및 연구종료 절단 데이터를 기 구비된 분석 시스템에 전달하는 단계를 포함할 수 있다.
여기서, 상기는, 상기 추적손실 절단 데이터 각각에 대해 기 설정된 조건에 따른 유사 공변량 조합을 갖는 적어도 하나의 생존여부 확정 데이터를 추출하는 단계와; 상기 추출된 생존여부 확정 데이터의 생존 시간의 평균을 그 대응되는 추적손실 절단 데이터의 생존 시간으로 추정 및 대체하는 단계를 포함할 수 있다.
여기서, 상기는, 상기 생존 시간이 추정 및 대체된 추적손실 절단 데이터의 생존 시간 대 밀도 분포가 하기의 식에 의해 평탄화되도록 하는 단계를 더 포함할 수 있다.
여기서, 상기 평탄화 파라미터는, 실제 생존 시간의 분산과 상기 추정 및 대체된 생존 시간의 분산 간의 비율에 해당할 수 있다.
여기서, 상기 평탄화 파라미터는, 상기 평탄화 파라미터를 응답 변수로 하고, 관측 생존시간과 진정 생존 시간에 기초한 표준 편차간 비율, 사분범위간 비율, 왜도차, 첨도차, 우중도 절단 데이터 비율을 각각의 예측 변수로 결정한 후, 회귀모델을 이용하여 예측할 수 있다.
여기서, 상기 추적손실 절단 데이터에 대한 생존시간 추정 및 대체를 먼저 수행한 후, 그 추적손실 절단 데이터의 생존시간 추정 및 대체 결과를 이용하여 상기 연구종료 절단 데이터에 대한 생존시간 추정 및 대체를 수행할 수 있다.
여기서, 상기는, 상기 생존여부 확정 데이터를 이용하여 분포 파라미터를 추정하는 단계와; 상기를 통해 추정된 분포에서 연구 기간을 초과한 생존 시간을 갖는 생존여부 확정 데이터를 선정한 후, 생존 시간에 기초하여 정렬하는 단계와; 상기 생존여부 확정 데이터와 생존시간이 추정 및 대체된 상기 추적손실 절단 데이터를 이용하여 회귀 모델 피팅을 수행하는 단계와; 상기를 통해 피팅된 회귀 모델을 이용하여 상기 연구종료 절단 데이터의 생존 시간을 예측한 후 해당 생존시간에 따라 정렬하는 단계와; 상기 정렬된 순서와 상기 정렬된 순서를 서로 대응시킨 후, 상기 생존여부 확정 데이터의 생존시간을 대응되는 연구종료 절단 데이터의 생존시간으로 추정 및 대체하는 단계를 포함할 수 있다.
또, 상기한 목적을 달성하기 위해 본 발명에 따른 생존분석 시스템은, 수집된 관측 생존 데이터 중에서 우중도 절단 데이터를 추출하는 데이터 추출부와; 상기 데이터 추출부에서 추출된 우중도 절단 데이터들을 추적손실 절단 데이터와 연구종료 절단 데이터로 구분하는 데이터 분류부와; 상기 데이터 분류부에서 구분된 추적손실 절단 데이터와 연구종료 절단 데이터에 대해 각각의 알고리즘을 적용하여 각각의 생존시간을 추정 및 대체하는 생존시간 대체부와; 상기 관측 생존 데이터 중 생존시간이 확인된 생존여부 확정 데이터와 상기 생존시간 대체부에 의해 생존시간이 대체된 추적손실 절단 데이터 및 연구종료 절단 데이터를 기 구비된 분석 시스템에 전달하는 데이터 전송부를 포함할 수 있다.
여기서, 상기 생존시간 대체부는, 상기 추적손실 절단 데이터 각각에 대해 기 설정된 조건에 따른 유사 공변량 조합을 갖는 적어도 하나의 생존여부 확정 데이터를 추출한 후, 추출된 생존여부 확정 데이터의 생존 시간의 평균을 그 대응되는 추적손실 절단 데이터의 생존 시간으로 추정 및 대체할 수 있다.
여기서, 상기 생존시간 대체부는, 상기 생존 시간이 추정 및 대체된 추적손실 절단 데이터의 생존 시간 대 밀도 분포가 하기의 식에 의해 평탄화되도록 처리할 수 있다.
여기서, 상기 평탄화 파라미터는, 실제 생존 시간의 분산과 상기 추정 및 대체된 생존 시간의 분산 간의 비율에 해당할 수 있다.
여기서, 상기 평탄화 파라미터는, 상기 평탄화 파라미터를 응답 변수로 하고, 관측 생존시간과 진정 생존 시간에 기초한 표준 편차간 비율, 사분범위간 비율, 왜도차, 첨도차, 우중도 절단 데이터 비율을 각각의 예측 변수로 결정한 후, 회귀모델을 이용하여 예측할 수 있다.
여기서, 상기 생존시간 대체부는 상기 추적손실 절단 데이터에 대한 생존시간 추정 및 대체를 먼저 수행한 후, 그 추적손실 절단 데이터의 생존시간 추정 및 대체 결과를 이용하여 상기 연구종료 절단 데이터에 대한 생존시간 추정 및 대체를 수행할 수 있다.
여기서, 상기 생존시간 대체부는, 상기 생존여부 확정 데이터를 이용하여 분포 파라미터를 추정하고, 그 추정된 분포에서 연구 기간을 초과한 생존 시간을 갖는 생존여부 확정 데이터를 선정한 후 생존 시간에 기초하여 제1 정렬하고, 상기 생존여부 확정 데이터와 생존시간이 추정 및 대체된 상기 추적손실 절단 데이터를 이용하여 회귀 모델 피팅을 수행하고, 해당 피팅된 회귀 모델을 이용하여 상기 연구종료 절단 데이터의 생존 시간을 예측한 후 해당 생존시간에 따라 제2 정렬하며, 상기 제1 정렬된 순서와 상기 제2 정렬된 순서를 서로 대응시킨 후, 상기 제1 정렬된 생존여부 확정 데이터의 생존시간을 대응되는 연구종료 절단 데이터의 생존시간으로 추정 및 대체할 수 있다.
이상 설명한 바와 같이 본 발명에 따르면, 생존분석시 중도절단된 데이터들에 대해 최적의 생존 시간을 할당함으로써 정교한 회귀 모델이 구축될 수 있도록 하고, 이에 따라 새로운 데이터들에 대한 생존 시간을 보다 정확하게 예측할 수 있도록 하는 효과를 달성한다.
도 1은 본 발명의 일 실시예에 따른 생존분석 시스템의 기능 블록도이고,
도 2는 관측 생존 데이터 중에서 우중도 절단 데이터의 형태를 나타낸 도면이고,
도 3은 KNN 대체를 수행한 이후의 중도 절단 데이터의 분포를 나타낸 도면이고,
도 4는 평탄화 매개 변수 추정을 위한 변수들을 나타낸 표이고,
도 5는 본 발명의 일 실시예에 따른 생존분석 시스템의 전체적인 제어 흐름도이다.
이하에서는 첨부도면을 참조하여 본 발명에 대해 상세히 설명한다.
이하 본 발명에 따른 각 실시예는 본 발명의 이해를 돕기 위한 하나의 예에 불과하고, 본 발명이 이러한 실시예에 한정되는 것은 아니다. 특히 본 발명은 각 실시예에 포함되는 개별 구성, 개별 기능, 또는 개별 단계 중 적어도 어느 하나 이상의 조합으로 구성될 수 있다.
특히, 편의상 청구 범위의 일부 청구항에는 '(a)'와 같은 알파벳을 포함시켰으나, 이러한 알파벳이 각 단계의 순서를 규정하는 것은 아니다.
본 발명의 일 실시예에 따른 생존분석 시스템(100)의 기능 블록의 일 예는 도 1에 도시된 바와 같다.
동 도면에 도시된 바와 같이, 생존분석 시스템(100)은 데이터 수집부(110), 데이터 추출부(120), 데이터 분류부(130), 생존시간 대체부(140), 데이터 전송부(150)를 포함하여 구성될 수 있다.
데이터 수집부(110)는 생존 데이터를 수집하는 기능을 수행하는데, 여기서 생존 데이터는 특정 이벤트가 발생할 때까지의 생존하는지 여부가 결정되는 데이터로서, 앞서 언급한 바와 같이 수술 후로부터 사망시까지의 걸리는 시간을 분석하기 위해 관측된 데이터, 기계 부품이 사용 시작시점부터 파손이 발생할 때가지 걸리는 시간을 분석하기 위해 관측된 데이터 등 그 데이터의 종류에는 제한이 없다.
이처럼 데이터 수집부(110)에 의해 수집되는 데이터를 이하에서는 '관측 생존 데이터'라 칭한다.
생존 데이터의 정의 및 특성은 공지된 것에 불과하므로 보다 상세한 설명은 생략한다.
데이터 추출부(120)는 수집된 관측 생존 데이터 중에서 중도 절단 데이터를 추출하는 기능을 수행한다.
중도 절단 데이터는 좌중도 절단 데이터, 우중도 절단 데이터, 구간 중도 절단 데이터로 구분할 수 있는데, 우선, 좌중도 절단 데이터는 실제 값이 특정 값 이하인 것은 알고 있으나 그 값이 정확히 어떤 값인지 모르는 경우일 때 발생하는 것이다. 예를 들어, 임상시험 참여의 적합 여부를 평가하는 스크리닝 시기에는 기본적으로 병력을 조사하게 되는데 만약 고혈압을 기저질환으로 갖는 시험참여자가 "과거에 진단을 받은 건 기억나는데 정확히 언제쯤인지는 기억나질 않는다" 라고 답했다면 이는 좌중도절단의 경우로 할 수 있다.
우중도절단은 실제 값이 특정 값 이상 인 것은 알고 있으나 그 값이 정확히 어떤 값인지 모르는 경우일 때 발생한다. 예를 들어, 어떤 약을 12개월의 시험기간동안 말기암 환자들을 대상으로 투여할 때, 그 기간동안 사망하지 않는 환자가 존재할 수 있는데, 이러한 경우 (추적조사가 없다면) 생존기간이 12개월 이상인 것은 알고 있으나 정확히 몇개월인지는 알 수가 없고, 이러한 경우에 우중도절단이 발생했다고 할 수 있다.
구간 중도절단은 실제 값이 어떤 구간 내에서 발생하는 정도만 알고 정확히 언제 발생했는지 모를 경우 발생한다. 예를 들어 임상시험 참여자는 정해진 방문 일정에 맞추어 병원에 방문하여 검사를 진행하는데, 만약 감염연구에 참여한 대상자가 1차 방문에서는 문제가 없었으나 2차 방문 검사 결과 감염이 되었다고 조사되었다면 그 대상자는 1차 방문과 2차 방문 사이의 어느 시점에 감염되었다는 것은 알 수 있으나 정확한 시기는 알 수가 없고, 이러한 경우에 구간중도절단이 발생했다고 할 수 있다.
본 실시에에서는 상술한 다양한 종류의 중도 절단 데이터들 중에서 우중도 절단 데이터만이 존재한다고 가정한다.
즉, 데이터 수집부(110)에 의해 수집되는 관측 생존 데이터에는 연구기간(관찰 기간) 내에 생존 여부가 확인된(특히 사망기간과 관련된 연구인 경우 사망 시점이 확인된) 생존여부 확정 데이터와, 우중도 절단 데이터만이 존재한다고 가정하는 것이다.
따라서 데이터 추출부(120)는 수집된 관측 생존 데이터 중에서 우중도 절단 데이터를 추출할 수 있다.
데이터 분류부(130)는 데이터 추출부(120)에서 추출된 우중도 절단 데이터들을 추적손실 절단 데이터와 연구종료 절단 데이터로 구분하는 기능을 수행한다.
여기서 추적손실 절단 데이터는 연구 기간 중에 외부 요인으로 인해 더 이상 추적이 이루어지지 못한 데이터에 대응되는 것이고, 연구종료 절단 데이터는 연구 기간 종료로 인해 더 이상 추가적으로 생존 여부를 관찰할 수 없는 데이터에 대응되는 것이다.
본 실시예에서 추적손실 절단 데이터와 연구종료 절단 데이터는 실제 데이터의 중도 절단 원인에 기인한 것으로 한정되는 것이 아니고, 해당 중도 절단 데이터의 절단 시점에 기초하여 분류된 것일 수 있다.
예를 들어 데이터 분류부(130)는 데이터 추출부(120)에서 추출된 우중도 절단 데이터를 포함하여 모든 관측 생존 데이터를 연구 시작 시점(관찰 시작 시점)을 기준으로 좌측 정렬을 수행한 후에 중도 절단 데이터들의 중도 절단 시점과 연구 종료 시점간의 거리에 기초하여 추적손실 절단 데이터와 연구종료 절단 데이터로 구분할 수 있는 것이다.
이에 대한 예가 도 2에 도시되었다.
도 2(a)와 같이 관측 생존 데이터가 수집된 상태에서 데이터 분류부(130)는 도 2(b)와 같이 각 관측 생존 데이터를 좌측 정렬을 수행한 후에, 중도 절단 데이터들 중에서 그 중도 절단 시점이 연구 종료 시점과 상대적으로 거리가 먼 곳에 있는 것은 추적손실 절단 데이터라고 분류하고, 그 중도 절단 시점이 연구 종료 시점과 상대적으로 거리가 가까운 곳에 있는 것은 연구종료 절단 데이터라고 분류할 수 있는 것이다.
구체적으로 도 2(b)에서 데이터 분류부(130)는 a, c, f는 생존여부 확정(complete) 데이터(즉, 사망 시점이 확인된 데이터), d,e,g,h는 추적손실 절단 데이터, b는 연구종료 절단 데이터로 분류할 수 있다.
특히, 데이터 분류부(130)는 연구 종료 시점을 기준으로 소정의 영역을 선정하고, 그 영역 내의 중도 절단 데이터를 연구종료 절단 데이터로 결정하고, 나머지 중도 절단 데이터를 추적손실 절단 데이터로 결정할 수도 있다.
이때 해당 영역은 해당 영역 내에서의 생존여부 확정 데이터와 중도 절단 데이터의 비율에 의해 결정될 수도 있다.
일 예로, 데이터 분류부(130)는 연구 종료 시점을 기준으로 생존여부 확정 데이터와 중도 절단 데이터의 비율이 1:10인 영역을 선택하고, 그 선택된 영역 내에 있는 중도 절단 데이터를 연구종료 절단 데이터로 분류할 수 있는 것이다.
생존시간 대체부(140)는 데이터 분류부(130)에서 구분된 추적손실 절단 데이터와 연구종료 절단 데이터에 대해 각각의 알고리즘을 적용하여 각각의 생존시간을 추정 및 대체하는 기능을 수행한다.
즉, 중도 절단 데이터는 그 성격상 생존시간이 특정되지 않은 데이터를 의미하는데, 생존시간 대체부(140)는 이러한 각 중도 절단 데이터들의 생존 시간을 기 설정된 알고리즘을 적용하여 채워 넣는 역할을 수행하는 것이다.
여기서 생존시간 대체부(140)는 추적손실 절단 데이터와 연구종료 절단 데이터에 대해서 서로 다른 알고리즘을 적용하여 생존 시간을 추정하는데, 이하 그 구체적인 과정을 설명한다.
먼저, 추적손실 절단 데이터의 생존 시간을 추정하는 과정을 설명하면 다음과 같다.
우선 설명의 편의를 위해 표기법을 정의하면 다음과 같다.
Figure 112021131554703-pat00001
: (
Figure 112021131554703-pat00002
)집합을 갖는 생존여부 확정 데이터 세트
Figure 112021131554703-pat00003
:
Figure 112021131554703-pat00004
집합을 갖는 추적 손실 절단 데이터 세트
Figure 112021131554703-pat00005
:
Figure 112021131554703-pat00006
집합을 갖는 연구종료 절단 데이터 세트
Figure 112021131554703-pat00007
: 관찰된 생존 시간,
Figure 112021131554703-pat00008
생존시간 대체부(140)는 추적손실 절단 데이터 각각에 대해 기 설정된 조건에 따른 유사 공변량 조합을 갖는 적어도 하나의 생존여부 확정 데이터를 추출한 후, 추출된 생존여부 확정 데이터의 생존 시간의 평균을 그 대응되는 추적손실 절단 데이터의 생존 시간으로 추정 및 대체할 수 있다.
예를 들어 환자의 생존기간을 분석하는 경우에, 각 환자의 나이, 가족관계, 직업, 경제력 등 다양한 변수들 중에서 추적손실 절단 데이터를 유발한 환자와 유사한 값을 가지는 타 환자들의 생존기간의 평균을 해당 추적손실 절단 데이터를 유발한 환자의 생존기간으로 추정 및 대체하는 것이고, 이하 이를 KNN 수행이라 한다.
이 경우 다음과 같이 표현할 수 있다.
Figure 112021131554703-pat00009
즉, LC 에 속하는 모든 원소에 대해서 KNN을 수행한 생존기간이
Figure 112021131554703-pat00010
이 되는 것이다.
이때 각 변수(독립변수)들까지의 거리를 고려하여 유사 환자군을 선정할 수 있다.
예를 들어 생존시간 대체부(140)는 추적손실 절단 데이터를 유발한 환자의 나이와 기 설정된 범위 이내의 오차를 갖는 환자들의 생존기간의 평균을 해당 추적손실 절단 데이터 유발 환자의 생존기간으로 추정 및 대체할 수 있는 것이다.
이때 해당 중도 절단이 발생한 시점까지의 생존은 확인된 것이므로, 그 이상의 생존 기간을 갖는 환자들의 생존기간의 평균을 그 추적손실 절단 데이터 유발 환자의 생존기간으로 추정 및 대체할 수 있다.
이어서 생존시간 대체부(140)는 생존 시간이 추정 및 대체된 추적손실 절단 데이터의 생존 시간 대 밀도 분포에 대해 평탄화 처리를 수행할 수 있다.
이를 수식으로 표현하면 다음과 같다.
Figure 112021131554703-pat00011
즉, LC에 속하는 모든 원소에 대해서 평탄화 처리까지 수행된 생존 시간이
Figure 112021131554703-pat00012
가 되는 것이다.
이하에서는 이러한 평탄화 과정을 보다 구체적으로 설명한다.
먼저 평탄화 과정을 처리한 결과에 대해 설명하면 도 3에 도시된 바와 같다.
도 3(a)는 상술한 KNN 대체가 이루어지기 전의 상태를 나타내고 있는데, 중도 절단된 데이터의 분포가 원 데이터의 분포보다 좌측으로 이동해 있음을 알 수 있고, 도 3(b)S는 KNN 대체가 이루어진 후의 원 데이터와 대체된 데이터의 분포를 나타내고 있다.
즉, 도 3(b)를 살펴보면, KNN대체 이후의 분포가 더 평균에 집중되어 있음을 알 수 있고, 이러한 데이터를 그대로 이용하는 경우 생존 분석 모델의 결과의 정확도나 신뢰도가 다소 떨어지므로 평탄화 과정(분포 조정 과정)을 거치게 되는 것이다.
우선, 평탄화 단계를 설명하기 위한 표기법을 먼저 정의하면 다음과 같다.
Figure 112021131554703-pat00013
: 관측된 생존 시간,
Figure 112021131554703-pat00014
Figure 112021131554703-pat00015
: KNN 대체 이후 생존 시간,
Figure 112021131554703-pat00016
Figure 112021131554703-pat00017
: 진정 생존 시간,
Figure 112021131554703-pat00018
Figure 112021131554703-pat00019
평탄화 처리를 위해 생존시간 대체부(140)는 앞서 산출한 KNN 대체 생존 시간을 다음의 식에 적용하여 추적손실 절단 데이터에 대한 최종 생존 시간(진정 생존 시간)을 추정할 수 있다.
Figure 112021131554703-pat00020
- 식(1)
여기서,
Figure 112021131554703-pat00021
은 추정된 평탄화 매개 변수이고,
Figure 112021131554703-pat00022
을 만족한다.
상술한 식으로부터 평탄화 파라미터는 실제 생존 시간의 분산과 추정 및 대체된 생존 시간(KNN 대체 생존시간)의 분산 간의 비율에 해당함을 알 수 있다.
여기서 추적손실 절단 데이터에 대한 실제 생존 시간은 관찰되지 못하는 것이므로, 평탄화 매개 변수(파라미터)는 소정의 추정 모델 구축을 통해 판단될 수 있다.
이때,
Figure 112021131554703-pat00023
에 대한 제대로된 추정을 위해, 평탄화 파라미터를 응답 변수로 하고, 관측 생존시간과 진정 생존 시간에 기초한 표준 편차간 비율, 사분범위간 비율, 왜도차, 첨도차, 우중도 절단 데이터 비율을 각각의 예측 변수로 결정한 후, 이러한 응답 변수와 예측 변수에 기초한 회귀모델을 이용할 수 있다.
평탄화 매개 변수를 추정하기 위한 변수들이 대해 도 4에 도시되었다.
특히 k의 추정을 위해서 다양한 회귀모델 중 랜덤 포레스트 모델이 이용될 수 있다.
랜덤 포레스트 모델은 의사결정 나무(Decision Tree)가 학습 데이터에 오버피팅 하는 경향을 보이는 것을 극복한 것으로서 다수의 나무들(각각 모델에 해당함)로부터 분류 결과를 취합해서 결론을 얻는 방식을 이용한다.
즉, 중복 데이터를 허용하고 속성에 제한을 가하는 배깅(Bagging)과정을 통해 복수 개의 의사결정 트리를 만들고, 이러한 서로 다른 나무(트리)들을 모아서 '숲'을 이루도록 하여 각 의사결정 나무들에 의한 다수결과 유사한 방식으로 처리하게 된다.
랜덤 포레스트 모델은 기계 학습 중 지도 학습을 통해 형성되는 회귀 분석을 위한 모델에 해당하는 것으로서, 그 자체는 공지된 기술에 해당하므로 보다 상세한 설명은 생략한다.
다만, 본 실시예에서는 도 4와 같은 실제 측정되는 값들을 이용한 독립변수들을 생성한 후, 이를 회귀 모델(랜덤 포레스트 모델)에 적용하여
Figure 112021131554703-pat00024
를 추정한다는 점이 특징이라 할 수 있다.
한편, 생존시간 대체부(140)는 연구종료 절단 데이터에 대해서도 생존시간 추정 및 대체를 수행할 수 있는데, 이하 이에 대해 설명한다.
생존시간 대체부(140)는 추적손실 절단 데이터에 대한 생존시간 추정 및 대체를 먼저 수행한 후, 그 추적손실 절단 데이터의 생존시간 추정 및 대체 결과를 이용하여 연구종료 절단 데이터에 대한 생존시간 추정 및 대체를 수행할 수 있다.
즉, 생존시간 대체부(140)는 생존여부 확정 데이터의 분포에 기초하여 추출한 데이터와, 추적손실 절단 데이터에 기초하여 형성된 회귀 모델을 통해 추출한 데이터를 서로 비교하여 연구종료 절단 데이터의 생존시간을 추정할 수 있는 것이다.
구체적으로 설명하면, 먼저 생존시간 대체부(140)는 생존여부 확정 데이터를 이용하여 분포 파라미터를 추정하고, 그 추정된 분포에서 연구 기간을 초과한 생존 시간을 갖는 생존여부 확정 데이터를 선정한 후 생존 시간에 기초하여 제1 정렬을 수행한다.
분포 파라미터를 추정하기 위해 생존시간 대체부(140)는 베이블(Weibull) 분포를 이용할 수 있다.
즉, 생존 여부 확정 데이터가 베이블 분포를 따른다는 전제하에 주어진 관측 생존 데이터(중도 절단되지 않은 데이터)를 이용하여 베이블 분포의 파라미터를 추정할 수 있는데, 이처럼 소정의 데이터들이 특정 분포를 따르는 것을 전제로 하여 그 분포 파라미터를 추정하는 과정은 공지된 기술에 해당하므로 보다 상세한 설명은 생략한다.
이처럼 분포 파라미터가 결정되면, 생존시간 대체부(140)는 해당 분포에서 연구 기간을 초과한 생존 시간을 갖는 데이터를 추출할 수 있고, 이렇게 추출된 데이터를 그 생존 기간을 기준으로 정렬한다.
이러한 정렬 과정을 편의상 제1 정렬 과정이라 하는데, 예를 들어 정렬된 생존 시간은 3, 3.8, 4, 4.5, 6 일 수 있다.
한편, 앞서서 추적손실 절단 데이터에 대해서 생존시간이 추정 및 대체(평탄화 과정 포함)되게 되는데, 이렇게 생존시간이 추정 및 대체된 추적손실 절단 데이터와 생존여부 확정 데이터를 회귀 모델 피팅을 수행한다.
여기서 회귀 모델 피팅은 주어진 데이터를 이용하여 회귀 모델의 파라미터를 산출하는 과정을 의미하는데, 주어진 데이터를 이용한 회귀 모델을 피팅하는 과정 역시 공지된 기술에 해당하므로 보다 상세한 설명은 생략한다.
즉, 회귀 모델 피팅에 의해 주어진 데이터에 의한 회귀 모델(예측된 회귀 모델)이 구축될 수 있는 것이다.
이렇게 회귀 모델이 구축된 이후, 생존시간 대체부(140)는 연구종료 절단 데이터를 회귀 모델에 적용시켜 생존 시간을 예측한다.
회귀 모델이 새로운 데이터를 입력하여 출력값으로서 예측값을 산출하는 과정 역시 공지된 기술에 해당하므로 보다 상세한 설명은 생략한다.
이렇게 연구종료 절단 데이터에 대한 생존 시간이 예측 되면, 그 예측된 생존 시간 기준으로 해당 연구종료 절단 데이터를 정렬한다.
이러한 정렬 과정을 편의상 제2 정렬 과정이라 하는데, 예를 들어 연구종료 절단 데이터가 그 정렬된 순서대로 x1, x3, x5, x2, x3일 수 있다.
이후, 생존시간 대체부(140)는 제1 정렬된 순서와 제2 정렬된 순서를 서로 대응시킨 후, 제1 정렬된 생존여부 확정 데이터의 생존시간을 대응되는 연구종료 절단 데이터의 생존시간으로 추정 및 대체한다.
즉, 상술한 예를 참조하면, 생존시간 대체부(140)는 x1에는 3, x3에는 3.8, x5에는 4, x2에는 4.5, x3에는 6을 생존 시간으로 할당할 수 있는 것이다.
한편, 데이터 전송부(150)는 관측 생존 데이터 중 생존시간이 확인된 생존여부 확정 데이터와 생존시간 대체부(140)에 의해 생존시간이 대체된 추적손실 절단 데이터 및 연구종료 절단 데이터를 기 구비된 분석 시스템에 전달하는 기능을 수행한다.
즉, 데이터 전송부(150)는 상술한 과정을 거치면서 모든 수집된 관측 생존 데이터에 대해 생존 시간이 결정(추정 포함)되었으므로, 이러한 데이터들을 기 구비된 분석 시스템에 전달하여 분석이 이루어지도록 하는 것이다.
여기서 기 구비된 분석 시스템은 회귀 분석 시스템일 수 있고, 특히 기계 학습을 수행하는 시스템일 수 있다.
수집된 관측 생존 데이터에 대한 기계 학습을 통해 관측 생존 데이터에 대한 최적의 분석 모델이 결정(구체적으로는 모델의 파라미터)될 수 있고, 이렇게 분석 모델이 결정되면, 추후 새로운 데이터를 해당 분석 모델이 입력하여 결과를 추출할 수 있게 된다.
예를 들어 환자의 나이, 가족관계, 직업, 경제력을 입력하면 해당 환자의 생존 시간을 예측할 수 있는 것이다.
회귀 분석 시스템의 종류나 역할 그 자체는 공지된 기술에 해당하므로 보다 상세한 설명을 생략한다.
이하에서는 도 5를 참조하여 본 발명의 일 실시예에 따른 생존분석 시스템(100)의 전체적인 제어 과정을 설명한다.
생존분석 시스템(100)은 관측 생존 데이터를 입력받고(단계 S1), 그 중에서 우중도 절단 데이터가 존재하는 경우(단계 S) 이를 추출한다(단계 S5).
이어서 생존분석 시스템(100)은 생존 기간과 관련하여 KNN 대체가 가능한 상태인지 여부를 판단하는데(단계 S7), 예를 들어 추적손실 절단 데이터에 대해서는 KNN 대체가 가능한 것으로 판단할 수 있다.
이러한 추적손실 절단 데이터(단계 S9)에 대해서 생존분석 시스템(100)은 KNN 대체를 수행한다(단계 S11).
KNN 대체를 수행한다는 것은 추적손실 절단 데이터 각각에 대해 기 설정된 조건에 따른 유사 공변량 조합을 갖는 적어도 하나의 생존여부 확정 데이터를 추출한 후, 추출된 생존여부 확정 데이터의 생존 시간의 평균을 그 대응되는 추적손실 절단 데이터의 생존 시간으로 추정 및 대체하는 것을 의미한다.
이어서 생존분석 시스템(100)은 KNN 대체가 수행된 추적손실 절단 데이터에 대해서 평탄화 처리를 수행한다(단계 S13).
평탄화 처리를 위해 필요한 평탄화 매개변수에 대해, 생존분석 시스템(100)은 도 4의 테이블에 도시된 변수들을 활용한 회귀 모델을 통해 추정할 수 있다.
이러한 과정을 통해 추적손실 절단 데이터에 대한 생존 시간이 최종 추정될 수 있는 것이다.
한편, 생존분석 시스템(100)은 수집된 관측 생존 데이터를 활용하여 모수적 분포를 추정하고(단계 S23), 이러한 과정을 통해 추정 형성된 분포상에서 연구 기간을 초과한 생존 시간을 갖는 생존여부 확정 데이터를 선정하고, 생존 시간에 기초하여 제1 정렬을 수행한다(단계 S25).
또한, 생존분석 시스템(100)은 앞서 최종 생존 기간이 추정(평탄화 과정 포함)된 추적손실 절단 데이터와 생존여부 확정 데이터를 이용한 회귀 모델을 피팅하고(단계 S17), 피팅된 회귀 모델을 이용하여 위험 랭킹을 산출할 수 있다(단계 S19).
여기서 위험 랭킹은 회귀 모델이 구축된 이후, 연구종료 절단 데이터를 회귀 모델에 적용시켜 예측한 생존 시간을 정렬하여 산출한 것이다. 즉, 각 연구종료 절단 데이터에 대한 위험 랭킹이 순서대로 매칭될 수 있는 것이다. 이를 제2 정렬이라 할 수 있다.
이후, 생존분석 시스템(100)은 제1 정렬된 순서와 제2 정렬된 순서를 서로 대응시킨 후, 제1 정렬된 생존여부 확정 데이터의 생존시간을 대응되는 연구종료 절단 데이터의 생존시간으로 추정 및 대체한다(단계 S27, S29).
이렇게 각 추적손실 절단 데이터 및 연구종료 절단 데이터들에 대해서 생존 시간이 제대로 추정/대체되도록 한 후에, 생존 여부 확정 데이터와 함께 기 분석 시스템에 전송될 수 있음은 앞서 설명한 바와 같다(단계 S31).
한편, 상술한 각 실시예를 수행하는 과정은 소정의 기록 매체(예를 들어 컴퓨터로 판독 가능한)에 저장된 프로그램 또는 애플리케이션에 의해 이루어질 수 있음은 물론이다. 여기서 기록 매체는 RAM(Random Access Memory)과 같은 전자적 기록 매체, 하드 디스크와 같은 자기적 기록 매체, CD(Compact Disk)와 같은 광학적 기록 매체 등을 모두 포함한다.
이때, 기록 매체에 저장된 프로그램은 컴퓨터나 스마트폰 등과 같은 하드웨어 상에서 실행되어 상술한 각 실시예를 수행할 수 있다. 특히, 상술한 본 발명에 따른 생존분석 시스템의 기능 블록 중 적어도 어느 하나는 이러한 프로그램 또는 애플리케이션에 의해 구현될 수 있다.
또한, 본 발명은 상기한 특정 실시예에 한정되는 것이 아니라 본 발명의 요지를 벗어나지 않는 범위 내에서 여러 가지로 변형 및 수정하여 실시할 수 있는 것이다. 이러한 변형 및 수정이 첨부되는 청구범위에 속한다면 본 발명에 포함된다는 것은 자명할 것이다.
100 : 생존분석 시스템 110 : 데이터 수집부
120 : 데이터 추출부 130 : 데이터 분류부
140 : 생존시간 대체부 150 : 데이터 전송부

Claims (16)

  1. 생존분석 시스템이 수행하는 제어방법에 있어서,
    (a) 수집된 관측 생존 데이터 중에서 우중도 절단 데이터를 추출하는 단계와;
    (b) 상기 (a) 단계에서 추출된 우중도 절단 데이터들을 추적손실 절단 데이터와 연구종료 절단 데이터로 구분하는 단계와;
    (c) 상기 (b) 단계에서 구분된 추적손실 절단 데이터와 연구종료 절단 데이터에 대해 각각의 알고리즘을 적용하여 각각의 생존시간을 추정 및 대체하는 단계와;
    (d) 상기 관측 생존 데이터 중 생존시간이 확인된 생존여부 확정 데이터와 상기 (c) 단계에서 생존시간이 대체된 추적손실 절단 데이터 및 연구종료 절단 데이터를 기 구비된 분석 시스템에 전달하는 단계를 포함하는 것을 특징으로 하는 생존분석 시스템의 제어방법.
  2. 제1항에 있어서,
    상기 (c) 단계는,
    (c1) 상기 추적손실 절단 데이터 각각에 대해 기 설정된 조건에 따른 유사 공변량 조합을 갖는 적어도 하나의 생존여부 확정 데이터를 추출하는 단계와;
    (c2) 상기 (c1) 단계에서 추출된 생존여부 확정 데이터의 생존 시간의 평균을 그 대응되는 추적손실 절단 데이터의 생존 시간으로 추정 및 대체하는 단계를 포함하는 것을 특징으로 하는 생존분석 시스템의 제어방법.
  3. 제2항에 있어서,
    상기 (c) 단계는,
    상기 (c2) 단계에서 생존 시간이 추정 및 대체된 추적손실 절단 데이터의 생존 시간 대 밀도 분포가 하기의 식에 의해 평탄화되도록 하는 단계를 더 포함하는 것을 특징으로 하는 생존분석 시스템의 제어방법.
    Figure 112021131554703-pat00025

    (여기서,
    Figure 112021131554703-pat00026
    는 평탄화 매개 변수임)
  4. 제3항에 있어서,
    상기 평탄화 파라미터는, 실제 생존 시간의 분산과 상기 (c2)단계에서 추정 및 대체된 생존 시간의 분산 간의 비율에 해당하는 것을 특징으로 하는 생존분석 시스템의 제어방법.
  5. 제4항에 있어서,
    상기 평탄화 파라미터는, 상기 평탄화 파라미터를 응답 변수로 하고, 관측 생존시간과 진정 생존 시간에 기초한 표준 편차간 비율, 사분범위간 비율, 왜도차, 첨도차, 우중도 절단 데이터 비율을 각각의 예측 변수로 결정한 후, 회귀모델을 이용하여 예측한 것을 특징으로 하는 생존분석 시스템의 제어방법.
  6. 제1항에 있어서,
    상기 (c) 단계에서는 상기 추적손실 절단 데이터에 대한 생존시간 추정 및 대체를 먼저 수행한 후, 그 추적손실 절단 데이터의 생존시간 추정 및 대체 결과를 이용하여 상기 연구종료 절단 데이터에 대한 생존시간 추정 및 대체를 수행하는 것을 특징으로 하는 생존분석 시스템의 제어방법.
  7. 제6항에 있어서,
    상기 (c) 단계는,
    (c3) 상기 생존여부 확정 데이터를 이용하여 분포 파라미터를 추정하는 단계와;
    (c4) 상기 (c3)단계를 통해 추정된 분포에서 연구 기간을 초과한 생존 시간을 갖는 생존여부 확정 데이터를 선정한 후, 생존 시간에 기초하여 정렬하는 단계와;
    (c5) 상기 생존여부 확정 데이터와 생존시간이 추정 및 대체된 상기 추적손실 절단 데이터를 이용하여 회귀 모델 피팅을 수행하는 단계와;
    (c6) 상기 (c5) 단계를 통해 피팅된 회귀 모델을 이용하여 상기 연구종료 절단 데이터의 생존 시간을 예측한 후 해당 생존시간에 따라 정렬하는 단계와;
    (c7) 상기 (c6) 단계에서 정렬된 순서와 상기 (c4) 단계에서 정렬된 순서를 서로 대응시킨 후, 상기 (c4) 단계의 생존여부 확정 데이터의 생존시간을 대응되는 연구종료 절단 데이터의 생존시간으로 추정 및 대체하는 단계를 포함하는 것을 특징으로 하는 생존분석 시스템의 제어방법.
  8. 제1항 내지 제7항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
  9. 하드웨어와 결합되어 제1항 내지 제7항 중 어느 한 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능 기록 매체에 저장된 응용 프로그램.
  10. 수집된 관측 생존 데이터 중에서 우중도 절단 데이터를 추출하는 데이터 추출부와;
    상기 데이터 추출부에서 추출된 우중도 절단 데이터들을 추적손실 절단 데이터와 연구종료 절단 데이터로 구분하는 데이터 분류부와;
    상기 데이터 분류부에서 구분된 추적손실 절단 데이터와 연구종료 절단 데이터에 대해 각각의 알고리즘을 적용하여 각각의 생존시간을 추정 및 대체하는 생존시간 대체부와;
    상기 관측 생존 데이터 중 생존시간이 확인된 생존여부 확정 데이터와 상기 생존시간 대체부에 의해 생존시간이 대체된 추적손실 절단 데이터 및 연구종료 절단 데이터를 기 구비된 분석 시스템에 전달하는 데이터 전송부를 포함하는 것을 특징으로 하는 생존분석 시스템.
  11. 제10항에 있어서,
    상기 생존시간 대체부는, 상기 추적손실 절단 데이터 각각에 대해 기 설정된 조건에 따른 유사 공변량 조합을 갖는 적어도 하나의 생존여부 확정 데이터를 추출한 후, 추출된 생존여부 확정 데이터의 생존 시간의 평균을 그 대응되는 추적손실 절단 데이터의 생존 시간으로 추정 및 대체하는 것을 특징으로 하는 생존분석 시스템.
  12. 제11항에 있어서,
    상기 생존시간 대체부는, 상기 생존 시간이 추정 및 대체된 추적손실 절단 데이터의 생존 시간 대 밀도 분포가 하기의 식에 의해 평탄화되도록 처리하는 것을 특징으로 하는 생존분석 시스템.
    Figure 112021131554703-pat00027

    (여기서,
    Figure 112021131554703-pat00028
    는 평탄화 매개 변수임)
  13. 제12항에 있어서,
    상기 평탄화 파라미터는, 실제 생존 시간의 분산과 상기 추정 및 대체된 생존 시간의 분산 간의 비율에 해당하는 것을 특징으로 하는 생존분석 시스템.
  14. 제13항에 있어서,
    상기 평탄화 파라미터는, 상기 평탄화 파라미터를 응답 변수로 하고, 관측 생존시간과 진정 생존 시간에 기초한 표준 편차간 비율, 사분범위간 비율, 왜도차, 첨도차, 우중도 절단 데이터 비율을 각각의 예측 변수로 결정한 후, 회귀모델을 이용하여 예측한 것을 특징으로 하는 생존분석 시스템.
  15. 제10항에 있어서,
    상기 생존시간 대체부는 상기 추적손실 절단 데이터에 대한 생존시간 추정 및 대체를 먼저 수행한 후, 그 추적손실 절단 데이터의 생존시간 추정 및 대체 결과를 이용하여 상기 연구종료 절단 데이터에 대한 생존시간 추정 및 대체를 수행하는 것을 특징으로 하는 생존분석 시스템.
  16. 제15항에 있어서,
    상기 생존시간 대체부는, 상기 생존여부 확정 데이터를 이용하여 분포 파라미터를 추정하고, 그 추정된 분포에서 연구 기간을 초과한 생존 시간을 갖는 생존여부 확정 데이터를 선정한 후 생존 시간에 기초하여 제1 정렬하고, 상기 생존여부 확정 데이터와 생존시간이 추정 및 대체된 상기 추적손실 절단 데이터를 이용하여 회귀 모델 피팅을 수행하고, 해당 피팅된 회귀 모델을 이용하여 상기 연구종료 절단 데이터의 생존 시간을 예측한 후 해당 생존시간에 따라 제2 정렬하며, 상기 제1 정렬된 순서와 상기 제2 정렬된 순서를 서로 대응시킨 후, 상기 제1 정렬된 생존여부 확정 데이터의 생존시간을 대응되는 연구종료 절단 데이터의 생존시간으로 추정 및 대체하는 것을 특징으로 하는 생존분석 시스템.
KR1020210156857A 2021-11-15 2021-11-15 생존 분석 시스템 및 그 제어방법 KR102393367B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210156857A KR102393367B1 (ko) 2021-11-15 2021-11-15 생존 분석 시스템 및 그 제어방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210156857A KR102393367B1 (ko) 2021-11-15 2021-11-15 생존 분석 시스템 및 그 제어방법

Publications (1)

Publication Number Publication Date
KR102393367B1 true KR102393367B1 (ko) 2022-05-03

Family

ID=81591113

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210156857A KR102393367B1 (ko) 2021-11-15 2021-11-15 생존 분석 시스템 및 그 제어방법

Country Status (1)

Country Link
KR (1) KR102393367B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210084224A (ko) * 2019-12-27 2021-07-07 주식회사 라이프시맨틱스 보험 설계를 위한 질환예측 서비스 시스템
KR20210099605A (ko) 2018-11-29 2021-08-12 소마로직, 인크. 클래스 불균형 세트의 다운샘플링과 생존 분석을 조합한 질병 위험도 판정 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210099605A (ko) 2018-11-29 2021-08-12 소마로직, 인크. 클래스 불균형 세트의 다운샘플링과 생존 분석을 조합한 질병 위험도 판정 방법
KR20210084224A (ko) * 2019-12-27 2021-07-07 주식회사 라이프시맨틱스 보험 설계를 위한 질환예측 서비스 시스템

Similar Documents

Publication Publication Date Title
US10140422B2 (en) Progression analytics system
CN110363387A (zh) 基于大数据的画像分析方法、装置、计算机设备及存储介质
CN110051324B (zh) 一种急性呼吸窘迫综合征死亡率预测方法及系统
CN112017789B (zh) 分诊数据处理方法、装置、设备及介质
CN112313702B (zh) 显示控制设备、显示控制方法以及显示控制程序
CN113297578B (zh) 基于大数据和人工智能的信息感知方法及信息安全系统
CN109243546B (zh) 抗凝药药效优化模型的建立方法及装置
CN113297393A (zh) 基于态势感知和大数据的情报生成方法及信息安全系统
Hakim et al. An efficient modified bagging method for early prediction of brain stroke
CN104077128B (zh) 一种数据处理方法及装置
CN106575225B (zh) 模块划分辅助装置、方法和存储介质
KR102393367B1 (ko) 생존 분석 시스템 및 그 제어방법
CN111144738A (zh) 信息处理方法、装置、计算机设备和存储介质
KR102424884B1 (ko) 생존 데이터 정제 서버와 생존 데이터 분석 서버를 포함하는 시스템 및 그 제어방법
Ahmed et al. Detection of lymphoblastic leukemia using VGG19 model
Shankar et al. Analysis and prediction of chronic kidney disease
CN112445846A (zh) 医疗项目识别方法、装置、设备及计算机可读存储介质
Antonio et al. Vertebra fracture classification from 3D CT lumbar spine segmentation masks using a convolutional neural network
KR102425204B1 (ko) 변수 속성에 기반한 탐색적 데이터 분석 자동화 시스템과 방법
CN116313086A (zh) 一种亚健康预测模型构建方法、装置、设备及存储介质
JP6876300B2 (ja) 予測装置
CN115662595A (zh) 基于在线诊疗系统的用户信息管理方法及系统
JP7491821B2 (ja) 要因推定方法、予測方法、属性値推定方法、要因推定装置、予測装置、属性値推定装置およびプログラム
CN115064270A (zh) 一种基于影像组学图像特征的肝癌复发预测方法
CN118552018B (zh) 一种基于ai分析反馈的就诊流程优化调整方法及系统

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant