KR20210099605A

KR20210099605A - 클래스 불균형 세트의 다운샘플링과 생존 분석을 조합한 질병 위험도 판정 방법

Info

Publication number: KR20210099605A
Application number: KR1020217020120A
Authority: KR
Inventors: 욜란다 하가르; 가르기 다타; 레이 알렉산더; 마이클 힌터베르그
Original assignee: 소마로직, 인크.
Priority date: 2018-11-29
Filing date: 2019-11-21
Publication date: 2021-08-12
Also published as: EP3886696A4; CN113271849A; AU2019385818A1; SG11202105063QA; US20220015714A1; WO2020112478A1; EP3886696A1; CN113271849B; IL283467A; JP2022509835A; CA3120716A1

Abstract

생존 분석에 의해 클래스 불균형 세트를 다운샘플링하기 위한 방법은, 클래스 불균형 데이터 세트를 획득하는 단계 - 클래스 불균형 데이터 세트는 복수의 대상체로부터의 생물학적 데이터를 포함하고, 각 대상체의 생물학적 데이터는 관찰, 시간 값 및 복수의 임상 측정을 포함하며, 생물학적 데이터는 다수 데이터 클래스 또는 소수 데이터 클래스의 부분인 것으로 분류되고, 다수 데이터 클래스는 소수 데이터 클래스보다 많은 수의 관찰을 가짐 -; 클래스 불균형 데이터 세트를 다운샘플링하는 단계 - 다운샘플링은 다수 데이터 클래스가 소수 데이터 클래스와 동등한 또는 실질적으로 동등한 수의 관찰을 갖게 함 -; 및 생존 모델을 생성하기 위해 생존 분석에 의해 다운샘플링된 데이터 세트에 대해 교차 검증을 수행하는 단계를 포함하며; 관찰은 특정 시간 값에서 이벤트를 포함하거나 이벤트를 포함하지 않는다.

Description

클래스 불균형 세트의 다운샘플링과 생존 분석을 조합한 질병 위험도 판정 방법

[관련 출원에 대한 상호 참조]

본 출원은 2018년 11월 29일에 출원된 미국 가특허출원 제62/773,028호 및 2018년 12월 21일에 출원된 미국 가특허출원 제62/783,733호에 대한 우선권의 이익을 주장하며, 그 전체 내용이 참조로 본 명세서에 포함된다.

본 개시는 일반적으로 질병 위험도 판정 분야에 관한 것으로, 특히 질병 위험도를 판정하기 위해 전자 데이터를 처리하는 시스템 및 방법에 관한 것이다.

다양한 질병 관련 상태 또는 이벤트, 예를 들어 심혈관 이벤트, 당뇨병 진단, 다양한 암 종류 등의 위험과 관련된 바이오마커를 식별하기 위한 방법은 주로 유전자 염기서열 분석(gene sequencing), 전사체학(transcriptomics), 단백질체학(proteomics) 및 대사체학(metabolomics)과 같은 고 처리량 기술의 발견으로 인해 개선되었다. 그러나, 이러한 기술은 의미있는 바이오마커 시그니처를 추출하는 것을 어렵게 할 수 있는 복잡한 생물학적 프로세스를 나타내는 고차원 데이터를 제공함으로써 문제를 더욱 복잡하게 한다.

1차 목표가 특정된 기간 내에 질병 관련 상태 또는 이벤트를 경험하게 될 개체들의 정확한 식별인 경우, 통상적으로 분류 접근법만을 채용하는 분석은 이를 분류 툴과 함께 양쪽의 생존 모델 접근법을 통합하는 특별한 유형의 분류 문제로서 프레이밍함으로써 강화될 수 있다. 그러나, 생존 분석은 질병 관련 상태 또는 이벤트를 경험한 환자 수와 이를 경험하지 않은 환자 수 간의 불균형으로 곤경에 처할 수 있다. 예측 분류기는 일반적으로 모델이 "가능한 한 자주" 정확하도록 훈련되기 때문에 불균형 데이터에 대해 저조하게 수행되는 것으로 알려져 있다. 이 효과는, 소수 클래스가 빈번하게 잘못 분류될 수 있지만 다수 클래스가 여전히 정확하게 예측되므로, 더 큰 다수 클래스가 모델에 대해 선택된 기능을 구동하기 때문에 발생한다. 그러나, 민감도 및 특이성은 불균형이 되어, 어떤 그룹이 더 많은 수의 관측치를 갖는지에 따라 하나가 다른 것보다 최대화된다. 건강 결과를 모델링함에 있어서는, 코호트 내에서 질병 유병률이 낮아 소수 클래스를 형성하는 것이 일반적이다. 그 상황에서는, 민감도를 희생시키면서 특이성이 극대화될 것이며, 이는 조건 또는 이벤트의 발병 위험이 있는 개체들을 가능한 한 많이 식별하는 것이 목표일 때에 문제가 된다.

따라서, 특정 질병 또는 상태에 대한 분자 시그니처 또는 바이오마커를 식별하는 개선된 방식을 위한 대체 방법이 계속적으로 요구되고 있다. 본 개시는 바이오마커 발견을 개선하기 위한 방법을 제공함으로써 이러한 요구를 충족시킨다.

본 개시의 일부 양태에 따르면, 개시된 시스템 및 방법은 생존 분석의 민감도 및 특이성을 개선하기 위해 시간 값을 포함하는 클래스 불균형 데이터 세트의 다수 클래스, 즉 더 많은 관찰을 갖는 클래스를 다운샘플링하는 것에 관한 것이다. 다운샘플링의 목적은, 모델의 민감도 및 특이성의 균형을 맞추기 위해 진단된 개체와 진단되지 않은 개체에게 동일한 주의를 기울이도록 분류기를 "바이어스(bias)"하는 것이다.

일 실시형태에서, 클래스 불균형 데이터 세트를 획득하는 단계 - 클래스 불균형 데이터 세트는 복수의 대상체로부터의 생물학적 데이터를 포함하고, 각 대상체의 생물학적 데이터는 관찰, 시간 값 및 복수의 임상 측정을 포함하며, 생물학적 데이터는 다수 데이터 클래스 또는 소수 데이터 클래스의 부분인 것으로 분류되고, 다수 데이터 클래스는 소수 데이터 클래스보다 많은 수의 관찰을 가짐 -; 다운샘플링된 데이터 세트를 생성하기 위해 클래스 불균형 데이터 세트를 다운샘플링하는 단계 - 다운샘플링은 다수 데이터 클래스가 소수 데이터 클래스와 동등한 또는 실질적으로 동등한 수의 관찰을 갖게 함 -; 및 생존 모델을 생성하기 위해 생존 분석에 의해 다운샘플링된 데이터 세트에 대해 교차 검증(cross-validation)을 수행하는 단계를 포함하며; 관찰은 특정 시간 값에서 이벤트를 포함하거나 이벤트를 포함하지 않는, 방법이 개시된다.

본 개시의 양태에 따르면, 생존 모델의 곡선 아래 면적(area under the curve: AUC), 민감도, 특이성 및/또는 C 지수(C-index)는 클래스 불균형 데이터 세트가 생존 분석 전에 다운샘플링되지 않은 생존 모델의 AUC, 민감도, 특이성 및/또는 C 지수보다 1에 더 가깝다.

다른 실시예에서, 클래스 불균형 데이터 세트는 생존 데이터 세트이고 및/또는 이벤트는 대상체의 질병, 장애 또는 상태이다. 또 다른 실시예에서, 생존 분석은 콕스 비례 위험 분석(cox proportional hazard analysis), 랜덤 포레스트 분석(random forest analysis), 가속화 실패 시간 분석(accelerated failure time analysis), 및 페널티 회귀 기술(penalized regression technique)과 같은 기계 학습 적응을 포함한, 이들의 임의의 조합으로 구성된 그룹으로부터 선택된다. 상기 방법은 엘라스틱 네트 패널티(elastic net penalty)를 더 포함할 수 있다.

다른 실시형태에서, 교차 검증은 적어도 2 폴드, 3 폴드, 4 폴드, 5 폴드, 6 폴드, 7 폴드, 8 폴드, 9 폴드, 10 폴드, 11 폴드, 12 폴드, 13 폴드, 14 폴드, 15 폴드, 16 폴드, 17 폴드, 18 폴드, 19 폴드 또는 20 폴드의 교차 검증이다. 다른 실시형태에서, 생존 모델은 5개 내지 1,000개의 특징을 포함하고, 여기서 각 특징은 단백질 측정, 임상 인자 및 이들의 조합으로 이루어지는 그룹으로부터 선택된다. 임상 인자는 연령, 체중, 혈압, 신장, BMI, 콜레스테롤, 성별 및 이들의 조합으로 이루어지는 그룹으로부터 선택된다.

또 다른 실시형태에서, 임상 측정은 단백질체 측정, 게놈 측정, 전사체 측정, 대사체 측정 및 이들의 조합으로부터 선택된다. 또한, 교차 검증은 k 폴드, Generalized Monte Carlo, leave-p-out 교차 검증 또는 부트스트래핑 방법으로부터 선택된다.

본 개시의 양태에 따르면, 다수 데이터 클래스는 클래스 불균형 데이터 세트의 95%이고 소수 데이터 클래스는 클래스 불균형 데이터 세트의 5%이거나, 또는 다수 데이터 클래스는 클래스 불균형 데이터 세트의 90%이고 소수 데이터 클래스는 클래스 불균형 데이터 세트의 10%이거나, 또는 다수 데이터 클래스는 클래스 불균형 데이터 세트의 85%이고 소수 데이터 클래스는 클래스 불균형 데이터 세트의 15%이거나, 또는 다수 데이터 클래스는 클래스 불균형 데이터 세트의 80%이고 소수 데이터 클래스는 클래스 불균형 데이터 세트의 20%이거나, 또는 다수 데이터 클래스는 클래스 불균형 데이터 세트의 75%이고 소수 데이터 클래스는 클래스 불균형 데이터 세트의 25%이거나, 또는 다수 데이터 클래스는 클래스 불균형 데이터 세트의 70%이고 소수 데이터 클래스는 클래스 불균형 데이터 세트의 30%이거나, 또는 다수 데이터 클래스는 클래스 불균형 데이터 세트의 65%이고 소수 데이터 클래스는 클래스 불균형 데이터 세트의 35%이거나, 또는 다수 데이터 클래스는 클래스 불균형 데이터 세트의 60%이고 소수 데이터 클래스는 클래스 불균형 데이터 세트의 40%이다.

다른 실시형태에 따르면, 다운샘플링된 데이터 세트를 생성하기 위해 클래스 불균형 데이터 세트를 다운샘플링하는 단계 - 다운샘플링은 다수 데이터 클래스가 소수 데이터 클래스와 동등하거나 실질적으로 동등한 수의 관찰을 갖게 함 -; 및 생존 모델을 생성하기 위해 생존 분석에 의해 다운샘플링된 데이터 세트에 대해 교차 검증을 수행하는 단계를 포함하며; 관찰은 특정 시간 값에서 이벤트를 포함하거나 이벤트를 포함하지 않고; 클래스 불균형 데이터 세트는 복수의 대상체로부터의 생물학적 데이터를 포함하며, 각 대상체의 생물학적 데이터는 관찰, 시간 값 및 복수의 단백질 측정을 포함하고, 생물학적 데이터는 다수 데이터 클래스 또는 소수 데이터 클래스의 부분인 것으로 분류되며, 다수 데이터 클래스는 소수 데이터 클래스보다 많은 수의 관찰을 갖는, 방법이 개시된다.

본 개시의 양태에 따르면, 생존 모델의 AUC, 민감도, 특이성 및/또는 C 지수는 클래스 불균형 데이터 세트가 생존 분석 전에 다운샘플링되지 않은 생존 모델의 AUC, 민감도, 특이성 및/또는 C 지수보다 1에 더 가깝다.

본 개시의 실시예에서, AUC는 대상체가 특정된 시점까지 이벤트를 가질 것인지 여부의 판정에 기초하여 계산된다.

질병 위험도를 판정하기 위한 컴퓨터 구현 방법이 또한 개시되며, 상기 방법은, 클래스 불균형 데이터 세트를 획득하는 단계 - 클래스 불균형 데이터 세트는 복수의 대상체로부터의 생물학적 데이터를 포함하고, 각 대상체의 생물학적 데이터는 관찰, 시간 값 및 복수의 임상 측정을 포함하며, 생물학적 데이터는 다수 데이터 클래스 또는 소수 데이터 클래스의 부분인 것으로 분류되고, 다수 데이터 클래스는 소수 데이터 클래스보다 많은 수의 관찰을 가짐 -; 다운샘플링된 데이터 세트를 생성하기 위해 클래스 불균형 데이터 세트를 다운샘플링하는 단계 - 다운샘플링은 다수 데이터 클래스가 소수 데이터 클래스와 동등한 또는 실질적으로 동등한 수의 관찰을 갖게 함 -; 및 생존 모델을 생성하기 위해 생존 분석에 의해 다운샘플링된 데이터 세트에 대해 교차 검증을 수행하는 단계를 포함하며; 관찰은 특정 시간 값에서 이벤트를 포함하거나 이벤트를 포함하지 않고; 다운샘플링 및 교차 검증의 단계는 컴퓨터 시스템에 의해 컴퓨팅된다.

질병 위험도를 판정하기 위한 방법에 대한 방법 단계를 수행하기 위해 컴퓨터에 의해 실행 가능한 명령어의 프로그램을 유형으로 구현하는, 컴퓨터에 의해 판독 가능한 프로그램 저장 장치가 또한 개시되며, 상기 방법은, 클래스 불균형 데이터 세트를 획득하는 단계 - 클래스 불균형 데이터 세트는 복수의 대상체로부터의 생물학적 데이터를 포함하고, 각 대상체의 생물학적 데이터는 관찰, 시간 값 및 복수의 임상 측정을 포함하며, 생물학적 데이터는 다수 데이터 클래스 또는 소수 데이터 클래스의 부분인 것으로 분류되고, 다수 데이터 클래스는 소수 데이터 클래스보다 많은 수의 관찰을 가짐 -; 다운샘플링된 데이터 세트를 생성하기 위해 클래스 불균형 데이터 세트를 다운샘플링하는 단계 - 다운샘플링은 다수 데이터 클래스가 소수 데이터 클래스와 동등한 또는 실질적으로 동등한 수의 관찰을 갖게 함 -; 및 생존 모델을 생성하기 위해 생존 분석에 의해 다운샘플링된 데이터 세트에 대해 교차 검증을 수행하는 단계를 포함하며; 관찰은 특정 시간 값에서 이벤트를 포함하거나 이벤트를 포함하지 않는다.

질병 위험도를 판정하기 위한 컴퓨팅 시스템이 또한 개시되며, 상기 컴퓨터 시스템은, 프로그램된 명령어를 저장하기 위한 메모리, 및 동작을 수행하기 위한 프로그램 명령어를 수행하도록 구성되는 프로세서를 포함하고, 상기 동작은 클래스 불균형 데이터 세트를 획득하는 것 - 클래스 불균형 데이터 세트는 복수의 대상체로부터의 생물학적 데이터를 포함하고, 각 대상체의 생물학적 데이터는 관찰, 시간 값 및 복수의 임상 측정을 포함하며, 생물학적 데이터는 다수 데이터 클래스 또는 소수 데이터 클래스의 부분인 것으로 분류되고, 다수 데이터 클래스는 소수 데이터 클래스보다 많은 수의 관찰을 가짐 -; 다운샘플링된 데이터 세트를 생성하기 위해 클래스 불균형 데이터 세트를 다운샘플링하는 것 - 다운샘플링은 다수 데이터 클래스가 소수 데이터 클래스와 동등한 또는 실질적으로 동등한 수의 관찰을 갖게 함 -; 및 생존 모델을 생성하기 위해 생존 분석에 의해 다운샘플링된 데이터 세트에 대해 교차 검증을 수행하는 것을 포함하며; 관찰은 특정 시간 값에서 이벤트를 포함하거나 이벤트를 포함하지 않는다.

비일시적인 컴퓨터 판독 가능 매체가 또한 개시되며, 상기 컴퓨터 판독 가능 매체는 동작을 수행하기 위해 프로세서에 의해 실행 가능한 명령어가 저장되어 있고, 상기 동작은, 클래스 불균형 데이터 세트를 획득하는 것 - 클래스 불균형 데이터 세트는 복수의 대상체로부터의 생물학적 데이터를 포함하고, 각 대상체의 생물학적 데이터는 관찰, 시간 값 및 복수의 임상 측정을 포함하며, 생물학적 데이터는 다수 데이터 클래스 또는 소수 데이터 클래스의 부분인 것으로 분류되고, 다수 데이터 클래스는 소수 데이터 클래스보다 많은 수의 관찰을 가짐 -; 다운샘플링된 데이터 세트를 생성하기 위해 클래스 불균형 데이터 세트를 다운샘플링하는 것 - 다운샘플링은 다수 데이터 클래스가 소수 데이터 클래스와 동등한 또는 실질적으로 동등한 수의 관찰을 갖게 함 -; 및 생존 모델을 생성하기 위해 생존 분석에 의해 다운샘플링된 데이터 세트에 대해 교차 검증을 수행하는 것을 포함하며; 관찰은 특정 시간 값에서 이벤트를 포함하거나 이벤트를 포함하지 않는다.

질병 위험도를 판정하기 위한 컴퓨터 구현 방법이 또한 개시되며, 상기 방법은, 클래스 불균형 데이터 세트를 컴퓨터에 의해 수신하는 단계 - 클래스 불균형 데이터 세트는 복수의 대상체로부터의 생물학적 데이터를 포함하고, 각 대상체의 생물학적 데이터는 관찰, 시간 값 및 복수의 임상 측정을 포함하며, 생물학적 데이터는 다수 데이터 클래스 또는 소수 데이터 클래스의 부분인 것으로 분류되고, 다수 데이터 클래스는 소수 데이터 클래스보다 많은 수의 관찰을 가짐 -; 다운샘플링된 데이터 세트를 생성하기 위해 클래스 불균형 데이터 세트를 컴퓨터에 의해 다운샘플링하는 단계 - 다운샘플링은 다수 데이터 클래스가 소수 데이터 클래스와 동등한 또는 실질적으로 동등한 수의 관찰을 갖게 함 -; 및 생존 모델을 생성하기 위해 생존 분석에 의해 다운샘플링된 데이터 세트에 대해 컴퓨터 교차 검증을 수행하는 단계를 포함하며; 관찰은 특정 시간 값에서 이벤트를 포함하거나 이벤트를 포함하지 않는다.

도 1은 본 개시의 방법, 시스템 및 다른 양태가 구현될 수 있는 네트워크형 컴퓨팅 환경의 실시예를 도시한다.
도 2는 본 개시에 따른 임상 데이터 획득 및 처리를 위한 질병 위험 분석 플랫폼의 상위 레벨 아키텍처 다이어그램이다.
도 3은 HUNT3 CHD 서브코호트에서 심근경색(Myocardial Infarction: MI)에 대한 카플란-마이어(Kaplan-Meier) 생존 곡선을 도시한다.
도 4는 예측된 이벤트에 의해 계층화된 테스트 세트 상의 MI에 대한 카플란-마이어 생존 곡선을 도시한다. 각 방법에 대해, 테스트 세트는 교차 검증을 통해 식별된 임계값을 사용하여 고위험 및 평균 위험 개체들로 분할된다. 그 후, 양쪽의 그룹에 대해 카플란-마이어 곡선이 계산된다. 로지스틱 회귀(logistic regression) 모델 결과에서는, 모두가 위험이 낮다고 예측되므로, 하나의 생존 곡선만을 생성한다.
도 5는 4년 이하의 MI를 예측하기 위해 다운샘플링된 콕스 엘라스틱 네트 모델(downsampled Cox elastic net model)을 사용하여, 테스트 세트 상의 MI에 대한 카플란-마이어 생존 곡선을 도시한다. 개체들을 고위험군으로 분류하기 위한 상이한 임계값이 조사되었다.

다른 언급이 없는 한, 기술 용어는 통상적인 용도에 따라 사용된다. 분자 생물학에서 일반적인 용어의 정의는 1994년에 Oxford University Press(ISBN 0-19-854287-9)에 의해 출판된 Benjamin Lewin의 Genes V; 1994년에 Blackwell Science Ltd.(ISBN 0-632-02182-9)에 의해 출판된 Kendrew(eds.) 등의 The Encyclopedia of Molecular Biology; 및 1995년에 VCH Publishers, Inc.(ISBN 1-56081-569-8)에 의해 출판된 Robert A. Meyers(ed.) 등의 Molecular Biology and Biotechnology: a Comprehensive Desk Reference에서 찾을 수 있다. 달리 설명되지 않는 한, 본 명세서에서 사용되는 기술 및 과학 용어는 본 개시가 속하는 기술분야의 당업자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 단수 용어("a", "an" 및 "the")는 문맥상 달리 나타내지 않는 한 복수 대상을 포함한다. "A 또는 B를 포함함"은 A, 또는 B, 또는 A 및 B를 포함하는 것을 의미한다. 핵산 또는 폴리펩티드에 대해 주어진 모든 염기 크기 또는 아미노산 크기 및 모든 분자량 또는 분자질량 값은 근사값이고, 설명을 위해 제공되는 것임을 또한 이해해야 한다.

또한, 본 명세서에 제공된 범위는 범위 내의 모든 값에 대한 축약형인 것으로 이해된다. 예를 들어, 1 내지 50의 범위는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49 또는 50(또한, 문맥에서 달리 명시하지 않는 한 이들의 분수)으로 이루어지는 그룹으로부터의 임의의 숫자, 숫자들의 조합 또는 하위 범위를 포함하는 것으로 이해된다. 임의의 농도 범위, 백분율 범위, 비율 범위 또는 정수 범위는 달리 나타내지 않는 한, 언급된 범위 내의 임의의 정수 값, 및 적절한 경우, 그의 분수(예를 들어, 정수의 1/10 및 1/100)를 포함하는 것으로 이해되어야 한다. 또한, 폴리머 서브유닛, 크기 또는 두께와 같은 임의의 물리적 특징과 관련하여 본 명세서에 언급된 임의의 수의 범위는 달리 나타내지 않는 한 언급된 범위 내의 임의의 정수를 포함하는 것으로 이해되어야 한다. 본 명세서에서 사용되는 바와 같이, "약(about)" 또는 "본질적으로 이루어지는(consisting essentially of)"은 달리 나타내지 않는 한 표시된 범위, 값 또는 구조의 ±20%를 의미한다. 본 명세서에서 사용되는 바와 같이, 용어 "포함하다(include)" 및 "포함하다(comprise)"는 개방형이며 동의어로 사용된다.

본 명세서에 기재된 것과 유사한 또는 동등한 방법 및 물질이 본 개시의 실시 또는 시험에 사용될 수 있지만, 적합한 방법 및 물질이 아래에 기재된다. 본 명세서에 언급된 모든 출판물, 특허출원, 특허 및 기타 참고 문헌은 그 전체가 참조로 포함된다. 상충되는 경우, 용어 설명을 포함한 본 명세서가 우선할 것이다. 또한, 물질, 방법 및 실시예는 예시일 뿐이며, 제한하려는 의도가 아니다.

본 명세서에서 사용되는 바와 같이, "SOMAmer" 또는 느린 오프-레이트 변형된 앱타머(Slow Off-Rate Modified Aptamer)는 개선된 오프-레이트 특성을 갖는 앱타머를 지칭한다. SOMAmer는 발명의 명칭이 "Method for Generating Aptamers with Improved Off-Rates"인 미국 특허 제7,947,447호에 기재된 개선된 SELEX 방법을 사용하여 생성될 수 있다.

용어 "생물학적 샘플", "샘플" 및 "테스트 샘플"은 본 명세서에서 개체로부터 얻거나 다른 방식으로 그로부터 유래된 임의의 물질, 생물학적 유체, 조직 또는 세포를 지칭하기 위해 상호 교환 가능하게 사용된다. 이것은 혈액(전혈, 백혈구, 말초 혈액 단핵 세포, 버피 코트, 혈장 및 혈청을 포함함), 가래, 눈물, 점액, 비강 세척, 비강 흡인, 호흡, 소변, 정액, 타액, 복막 세척, 복수, 낭포액(cystic fluid), 수막액(meningeal fluid), 양수, 선액, 림프액, 유두 흡인물, 기관지 흡인물(예를 들어, 기관지 폐포 세척), 기관지 솔질, 활액, 관절 흡인물, 기관 분비물, 세포, 세포 추출물 및 뇌척수액을 포함한다. 이것은 또한 이전의 모든 부분에서 실험적으로 분리된 부분을 포함한다. 예를 들어, 혈액 샘플은 혈청, 혈장으로, 또는 적혈구 또는 백혈구(leukocyte)와 같은 특정 유형의 혈액 세포를 포함하는 부분으로 분류될 수 있다. 일부 실시형태에서, 샘플은 조직 및 유체 샘플의 조합과 같은 개체로부터의 샘플들의 조합일 수 있다. 용어 "생물학적 샘플"은 또한, 예를 들어 대변 샘플, 조직 샘플 또는 조직 생검(tissue biopsy)으로부터 균질화된 고체 물질을 함유하는 물질을 포함한다. 용어 "생물학적 샘플"은 또한 조직 배양 또는 세포 배양으로부터 유래된 물질을 포함한다. 생물학적 샘플을 얻기 위한 임의의 적합한 방법이 사용할 수 있고; 예시적인 방법은, 예를 들어 정맥 절개술(phlebotomy), 면봉 채취(예를 들어, 구강상피 세포 채취(buccal swab)) 및 미세 바늘 흡인 생검 절차(fine needle aspirate biopsy procedure)를 포함한다. 미세 바늘 흡인에 민감한 예시적인 조직은 림프절, 폐, 폐 세척, BAL(기관지 폐포 세척), 갑상선, 유방, 췌장 및 간을 포함한다. 샘플은 또한, 예를 들어 현미 해부(micro dissection)(예를 들어, 레이저 캡처 현미 해부(LCM) 또는 레이저 현미 해부(LMD)), 방광 세척, 도말(smear)(예를 들어, PAP 도말) 또는 관 세척(ductal lavage)에 의해 수집될 수 있다. 개체로부터 획득되거나 유래된 "생물학적 샘플"은 개체로부터 획득된 후에 임의의 적합한 방식으로 처리된 임의의 이러한 샘플을 포함한다.

본 명세서에서 사용되는 바와 같이, "생물학적 데이터"는 생물학적 샘플로부터 유래된 임의의 데이터를 지칭한다. 이러한 생물학적 데이터는, 선택적으로 다중 앱타머 기반 분석법(a multiplexed aptamer-based assay)에서 단백질 표적에 특유한 앱타머를 이용하여 수집되는 단백질체 데이터를 포함하지만 이에 한정되지 않는다.

본 명세서에서 사용되는 바와 같이, "임상 인자"는 질병 상태 또는 이벤트의 위험 증가와 관련될 수 있는 생리학적 속성을 지칭한다. 임상 인자는 연령, 체중, 혈압, 신장, BMI, 콜레스테롤 및 성별을 포함되지만 이에 한정되지 않는다.

본 명세서에서 사용되는 바와 같이, "클래스 불균형"은 세트의 데이터가 2개 이상의 클래스로 분류될 때에 2개 이상의 클래스가 실질적으로 동일하지 않은 수의 관찰을 갖는다는 것을 설명하는 데이터 세트의 특성을 지칭한다.

본 명세서에서 사용되는 바와 같이, "교차 검증"은 모델을 구축하는 데 사용되는 데이터에 대한 모델 성능을 평가하기 위한 임의의 모델 구축 및 검증 기술, 및 통계 분석의 결과가 k 폴드 교차 검증, 몬테 카를로(Monte Carlo) 교차 검증 및 leave-p-out 검증(여기서, p는 1 내지 총 샘플 수 - 1일 수 있음)을 포함하지만 이에 한정되지 않는 독립적인 데이터 세트로 일반화되는 방법을 지칭한다.

본 명세서에서 사용되는 바와 같이, "다운샘플링"은 클래스 불균형을 감소시키기 위해 더 많은 관찰, 즉 다수 데이터 클래스를 갖는 클래스의 데이터의 부분 집합화를 지칭한다.

본 명세서에서 사용되는 바와 같이, "동등한" 또는 "실질적으로 동등한"은 관찰 수에서 10% 미만의 차이를 갖는 비교된 클래스들 간의 차이를 지칭한다.

본 명세서에서 사용되는 바와 같이, "특징(feature)"은 데이터 세트에서 대상체에 대한 측정 가능한 속성 또는 특성을 의미한다. 특징은 단백질 측정 및 임상 인자를 포함하지만 이에 한정되지 않는다.

본 명세서에서 사용되는 바와 같이, "다수 데이터 클래스"는 2개의 클래스를 갖는 클래스 불균형 데이터 세트에서 더 많은 수의 관찰을 갖는 클래스를 지칭한다.

본 명세서에서 사용되는 바와 같이, "소수 데이터 클래스"는 2개의 클래스를 갖는 클래스 불균형 데이터 세트에서 더 적은 수의 관찰을 갖는 클래스를 지칭한다.

본 명세서에서 사용되는 바와 같이, "생존 분석"은 이벤트까지의 시간 데이터(time to event data)의 임의의 모델링을 지칭한다. 생존 분석 방법은 임의의 이벤트까지의 시간(time-to-event) 결과, 예를 들어 MI까지의 시간, 당뇨병 발병, 다양한 형태의 암 발병 등에 사용될 수 있다. 생존 분석은 콕스 비례 위험 분석, 랜덤 포레스트 분석 및 가속화 실패 시간 분석을 포함하지만 이에 한정되지 않는다.

본 명세서에서 사용되는 바와 같이, "생존 데이터 세트"는 관심 이벤트가 대상체가 관찰된 기간 내에 발생했는지 여부를 나타내는 시간 값 및 이벤트 상태 값 양쪽 모두를 포함하는 임의의 데이터 세트를 지칭한다.

생존 분석에서, 클래스 불균형은 중대한 문제를 나타내며, 특정 시간 내에서 질병(또는 이벤트)이 없는 개체들의 수가 질병이 있는 개체들보다 많다. 이러한 불균형은 질병 위험이 높은 개체들에게 부정확한 위험 예측을 초래할 수 있다. 다운샘플링은 소수 및 다수 클래스 내의 개체 수를 밸런싱함으로써 이 문제를 완화하므로, 소수 클래스 내의 개체와 관련된 특징의 검출 및 선택뿐만 아니라 질병 또는 이벤트의 발생 위험에 대한 추정된 영향을 개선한다.

생존 분석을 위한 클래스 불균형 데이터 세트의 다운샘플링이 AUC를 개선하는 것으로 입증된 하나의 맥락은, 안정적인 관상 동맥 심장병(Coronary Heart Disease: CHD)이 있는 환자의 심혈관 이벤트의 위험과 관련된 순환 단백질 바이오마커를 식별하는 데 사용된 SOMAscan® 단백질체 분석에 의해 생성된 단백질체 데이터(proteomics data)를 이용하는 것이다. 결과 모델은 기존의 임상 위험 툴에 비해 향상된 능력을 제공하며, 심혈관 이벤트의 복합 종점 사이에서 광범위한 적용 가능성과 일반화 가능성을 제공한다.

본 개시는 안정적인 CHD가 있는 환자들 중에서 2차 MI를 예측하기 위한 표적화된 모델을 설명한다. 단백질체 데이터는 안정적인 CHD 환자들 중에서 채혈 후 4년 이내에 2차 MI를 경험할 가능성이 있는 환자를 식별하는 데 사용되었다. 단백질체 신호 외에도, 데이터는 관찰 과정에 걸쳐 특정 심혈관 이벤트가 발생했는지의 여부에 대한 정보, 및 a) 이벤트 또는 b) 다른 인자로 인한 연구 종료에 대한 시간 길이를 포함한다. 이러한 이벤트까지의 시간 데이터는 문제가 생존 분석 기술에 적합하게 한다.

1차 목표가 4년 이내에 MI 이벤트가 발생할 개체들의 정확한 식별인 경우, 분석은 분류 문제로 재구성될 수 있으며, 여기서 개체들은 이벤트가 4년 전에 발생한 경우에 "양성" 클래스이고, 개체들은 MI없이 4년 기간이 지난 후에도 연구에 남아있는 개체인 경우에 "음성" 클래스로 분류된다. 생존 모델이 분류기 개발에서 MI에 시간을 통합함으로써 "모든 정보를 사용"하기 때문에 생존 분석 툴의 사용은 (표준 분류 모델에 비해) 모델의 예측 정확도를 개선한다. 이러한 재구성은 또한 AUC 및 오차 행렬(confusion matrix)과 같은 표준 분류 메트릭(standard classification metrics)의 사용이 모델 성능을 평가할 수 있게 한다.

이러한 생존 모델을 평가하는 방법은 전통적인 접근법이 아니지만, 이벤트 특정 분류는 임상 세팅에서 많은 이점을 제공한다. 환자를 "양성" 또는 "음성"으로 라벨링하는 것은 (예를 들어, 위험 비율 또는 확률에 비해) 광범위한 대중에게 보다 쉽게 이해될 수 있다. 예후 테스트에 대한 이러한 개선된 이해력은 임상의가 보다 정확하고 표적화된 의료 관리를 제공할 수 있게 한다. 그러나, 표준 분류 모델링과 마찬가지로, 생존 분석에 대한 이러한 접근법은 이벤트를 경험한 환자와 이벤트를 경험하지 않은 환자의 불균형으로 곤경에 처할 수 있다.

예를 들어, 실시예 1에서 분석된 서브코호트의 개체들 중 8.1%만이 4년 이내에 2차 MI를 갖지만, 8배보다 더 많은 참가자(66.9%)가 4년보다 길게 이벤트없이 생존하고 있다. 다운샘플링의 목적은, 모델의 민감도 및 특이성의 균형을 맞추기 위해 진단된 개체와 진단되지 않은 개체에게 동일한 주의를 기울이도록 분류기를 "바이어스(bias)"하는 것이다. 리샘플링 기술은 다양한 머신 러닝 방법론에 적용되었지만, 클래스 불균형은 생존 모델링 기술을 사용하는 머신 러닝에서 미개척 주제이다.

실시예 1에서, 다운샘플링은 콕스 비례 위험 엘라스틱 네트 회귀 모델과 조합되고, 초기 채혈 후 4년 이내의 MI 이벤트의 예측이 평가된다.

실시예 1로부터 명백한 바와 같이, 생존 분석, 예를 들어 a-콕스 비례 위험 엘라스틱 네트 모델(즉, "Coxnet" 모델)의 성능은 모델링 동안 데이터를 다운샘플링함으로써 개선될 수 있다. 본 개시는 다운샘플링된 Coxnet 모델이 표준 Coxnet 모델, 다운샘플링된 엘라스틱 네트 로지스틱 회귀 모델 및 표준 엘라스틱 네트 로지스틱 회귀 모델보다 우수하다는 것을 효과적으로 입증한다.

다운샘플링 이외에도, 생존 모델에 통합될 수 있는 클래스 불균형을 처리하는 다른 방법이 있다. 예를 들어, 케이스-웨이팅(case-weighting), 단순 오버샘플링 또는 SMOTE(Synthetic Minority Oversampling Technique)와 같은 더 복잡한 오버샘플링 기술이 전통적인 생존 분석뿐만 아니라 랜덤 생존 포레스트와 같은 확장된 머신 러닝 방법에서도 고려될 수 있다.

실시 예 1은 특정 시간 프레임 내에서 MI 이벤트의 예측과 관련하여 생존 분석에서 다운샘플링의 조합을 상세하게 설명하지만, 본 명세서에 개시된 방법은 선택된 시간 내에서 질병 상태 또는 질병 관련 이벤트 위험의 임의의 예측에 적용될 수 있다.

도 1은 본 개시의 양태에 따른, 예를 들어 클래스 불균형 데이터를 다운샘플링함으로써 질병 위험도를 판정하기 위해 전자 데이터를 처리하기 위한 네트워크형 컴퓨팅 환경(100)의 블록도이다. 도 1에 나타낸 바와 같이, 네트워크형 컴퓨팅 환경(100)은, 서버 시스템(104) 및 전자 데이터베이스(106)를 포함하는 질병 위험 분석 플랫폼(102)을 포함할 수 있다. 서버 시스템(104)은 인터넷과 같은 전자 네트워크(108)를 통해 사용하기 위해 질병 위험 분석 플랫폼(102)의 소프트웨어 모듈, 알고리즘, 또는 다른 서브시스템을 저장하고 실행할 수 있다. 사용자는 컴퓨팅 디바이스 등과 같은 사용자 디바이스(110)에 의해 전자 네트워크(108)를 통해 질병 위험 분석 플랫폼(102)에 액세스할 수 있다. 사용자 디바이스(110)는 사용자가 전자 네트워크(108)를 통해 서버 시스템(104)에 의해 호스팅되는 질병 위험 분석 플랫폼(102)에 액세스하기 위한 웹 브라우저를 디스플레이하는 것을 가능하게 할 수 있다. 사용자 디바이스(110)는 개인용 컴퓨팅 디바이스, 모바일 컴퓨팅 디바이스 등과 같은 웹 페이지에 액세스하기 위한 임의의 유형의 디바이스일 수 있다. 소스 디바이스(112)는 전자 네트워크(108)를 통해 질병 위험 분석 플랫폼(102)으로/으로부터 데이터를 제공 및/또는 수신할 수 있다. 소스 디바이스(112)는 개인용 컴퓨팅 디바이스, 모바일 컴퓨팅 디바이스 등과 같은 웹 페이지에 액세스하기 위한 임의의 유형의 디바이스일 수 있다.

도 1은 단지 예시로서 제공된다. 다른 실시예가 가능하고 도 1의 네트워크형 컴퓨팅 환경(100)과는 상이할 수 있다. 또한, 네트워크형 컴퓨팅 환경(100)에 나타낸 디바이스 및 네트워크의 수 및 배열이 예시로서 제공된다. 실제로, 네트워크형 컴퓨팅 환경(100)에 나타낸 것보다 추가의 디바이스, 더 적은 디바이스 및/또는 네트워크, 다른 디바이스 및/또는 네트워크, 또는 다르게 배열된 디바이스 및/또는 네트워크가 있을 수 있다. 또한, 도 1에 나타낸 2개 이상의 디바이스는 단일 디바이스 내에서 구현될 수 있거나, 또는 도 1에 나타낸 단일 디바이스는 다수의 분산된 디바이스로 구현될 수 있다. 추가적으로 또는 대안적으로, 네트워크형 컴퓨팅 환경(100)의 하나 이상의 사용자 디바이스 및/또는 서버 시스템은 서버 시스템(104) 및/또는 질병 위험 분석 플랫폼(102)의 하나 이상의 기능을 수행할 수 있다.

도 2는 질병 위험도를 판정하기 위해 전자 데이터를 처리하기 위한 예시적인 컴퓨터 아키텍처(200)를 도시한다. 구체적으로, 도 2는 본 개시의 하나 이상의 실시형태에 따른, 클래스 불균형 세트의 다운샘플링을 생존 분석과 조합하도록 구성된 예시적인 컴퓨터 아키텍처(200)를 도시한다. 도 2의 컴퓨터 아키텍처(200)에 나타낸 바와 같이, 질병 위험 분석 플랫폼(102)의 서버 시스템(104)은 데이터 획득 모듈(212), 다운샘플링 모듈(214) 및 교차 검증 모듈(216)을 포함할 수 있다. 질병 위험 분석 플랫폼(102)은 로컬 또는 원격 액세스 여부에 관계없이 하나 이상의 데이터베이스 또는 데이터 저장소를 더 포함할 수 있다. 예를 들어, 도 2에 나타낸 바와 같이, 질병 위험 분석 플랫폼(102)은 다수 클래스 데이터(202) 및 소수 클래스 데이터(204)를 포함하는 클래스 불균형 데이터 세트(206)를 포함할 수 있다. 질병 위험 분석 플랫폼(102)은 다운샘플링된 데이터 세트(208) 및 생존 모델(210)을 더 포함할 수 있다. 데이터 획득 모듈(212), 다운샘플링 모듈(214), 교차 검증 모듈(216), 클래스 불균형 데이터 세트(206), 다운샘플링된 데이터 세트(208) 및 생존 모델(210) 중 하나 이상이 로컬, 원격 또는 로컬 및 원격 양쪽 모두로 저장 또는 실행되는 기능 및 내용의 일부 또는 전부를 가질 수 있고, 그의 기능은 플랫폼의 다른 구성요소에 걸쳐 조합되거나 분산될 수 있음을 이해해야 한다.

예시적인 컴퓨터 아키텍처(200)의 일 실시형태에서, 데이터 획득 모듈(212)은 사용자 디바이스(110) 또는 소스 디바이스(112)로부터 다수 클래스 데이터(202) 및 소수 클래스 데이터(204)를 포함하는 클래스 불균형 데이터 세트(206)를 수신할 수 있다. 이 클래스 불균형 데이터 세트(206)는 다운샘플링된 데이터 세트(208)를 생성하기 위해 다운샘플링 모듈(214)에 의해 처리될 수 있다. 이 다운샘플링된 데이터 세트(208)는 생존 모델(210)을 생성하기 위해 교차 검증 모듈(216)에 의해 처리될 수 있다. 이 생존 모델(210)은 전자 네트워크(108)를 통해 사용자 디바이스(100) 및/또는 소스 디바이스(112)로 전송될 수 있다.

프로그램 가능한 로직이 사용되는 경우, 이러한 로직은 상업적으로 이용 가능한 처리 플랫폼 또는 특수 목적 디바이스에서 실행될 수 있다. 당업자는, 개시된 주제의 실시형태가 멀티코어 멀티프로세서 시스템, 미니컴퓨터, 메인프레임 컴퓨터, 분산된 기능으로 링크 또는 클러스터링된 컴퓨터뿐만 아니라, 가상의 임의의 디바이스에 내장될 수 있는 보급형 또는 소형 컴퓨터를 포함한 다양한 컴퓨터 시스템 구성으로 실행될 수 있다.

예를 들어, 적어도 하나의 프로세서 디바이스 및 메모리가 전술한 실시형태를 구현하는 데 사용될 수 있다. 프로세서 디바이스는 단일 프로세서, 복수의 프로세서 또는 이들의 조합일 수 있다. 프로세서 디바이스는 하나 이상의 프로세서 "코어"를 가질 수 있다.

도 1 및 도 2의 실시예에서 전술한 바와 같이, 본 개시의 다양한 실시형태는 프로세서 디바이스를 사용하여 구현될 수 있다. 이 설명을 읽은 후에, 다른 컴퓨터 시스템 및/또는 컴퓨터 아키텍처를 사용하여 본 개시의 실시형태를 구현하는 방법이 관련 기술 분야의 숙련자에게는 명백해질 것이다. 동작들이 순차 프로세스로 설명될 수 있지만, 동작 중 일부는 실제로 병렬로, 동시에 그리고/또는 분산된 환경에서 수행될 수 있고, 단일 또는 멀티프로세서 머신에 의한 액세스를 위해 로컬 또는 원격으로 저장된 프로그램 코드를 사용하여 수행될 수 있다. 또한, 일부 실시형태에서, 동작의 순서는 개시된 주제의 사상에서 벗어나지 않고 재배열될 수 있다.

질병 위험 분석 플랫폼(102) 및/또는 사용자 디바이스(110) 또는 소스 디바이스(112)와 같은 질병 위험 분석 플랫폼(102)에 액세스하기 위해 사용되는 임의의 디바이스는 중앙 처리 유닛(CPU)을 포함할 수 있음을 이해해야 한다. 이러한 CPU는, 예를 들어 임의의 유형의 특수 목적 또는 범용 마이크로프로세서 디바이스를 포함하는 임의의 유형의 프로세서 디바이스일 수 있다. 관련 기술 분야의 숙련자에 의해 이해되는 바와 같이, CPU는 또한 단독으로 작동하는 시스템과 같은 멀티코어/멀티프로세서 시스템, 또는 클러스터 또는 서버 팜에서 작동하는 컴퓨팅 디바이스의 클러스터에서 단일 프로세서일 수 있다. CPU는 데이터 통신 인프라, 예를 들어 버스, 메시지 큐, 네트워크 또는 멀티코어 메시지 전달 방식에 연결될 수 있다.

질병 위험 분석 플랫폼(102) 및/또는 사용자 디바이스(110) 또는 소스 디바이스(112)와 같은 질병 위험 분석 플랫폼(102)에 액세스하기 위해 사용되는 임의의 디바이스는 또한 메인 메모리, 예를 들어 RAM(Random Access Memory)을 포함할 수 있고, 또한 보조 메모리를 포함할 수 있음을 또한 이해해야 한다. 보조 메모리, 예를 들어 판독 전용 메모리(ROM)는, 예를 들어 하드 디스크 드라이브 또는 착탈식 저장 드라이브일 수 있다. 이러한 착탈식 저장 드라이브는, 예를 들어 플로피 디스크 드라이브, 자기 테이프 드라이브, 광 디스크 드라이브, 플래시 메모리 등을 포함할 수 있다. 이 실시예에서 착탈식 저장 드라이브는 잘 알려진 방식으로 착탈식 저장 유닛으로부터 판독하고 및/또는 그곳에 기록한다. 착탈식 저장 유닛은 착탈식 저장 드라이브에 의해 판독되고 기록되는 플로피 디스크, 자기 테이프, 광 디스크 등을 포함할 수 있다. 관련 기술 분야의 숙련자에 의해 이해되는 바와 같이, 이러한 착탈식 저장 유닛은 일반적으로 컴퓨터 소프트웨어 및/또는 데이터가 저장된 컴퓨터 사용 가능한 저장 매체를 포함한다.

대체 구현예에서, 보조 메모리는 컴퓨터 프로그램 또는 다른 명령어가 디바이스에 로딩될 수 있게 하기 위한 다른 유사한 수단을 포함할 수 있다.

이러한 수단의 예는, 소프트웨어 및 데이터가 착탈식 저장 유닛으로부터 디바이스로 전송될 수 있게 하는 프로그램 카트리지 및 카트리지 인터페이스(예를 들어, 비디오 게임 디바이스에서 찾을 수 있는 것), 착탈식 메모리 칩(예를 들어, EPROM 또는 PROM) 및 관련 소켓, 그리고 다른 착탈식 저장 유닛 및 인터페이스를 포함할 수 있다.

질병 위험 분석 플랫폼(102) 및/또는 사용자 디바이스(110) 또는 소스 디바이스(112)와 같은 질병 위험 분석 플랫폼(102)에 액세스하기 위해 사용되는 임의의 디바이스는 또한 통신 인터페이스("COM")를 포함할 수 있음을 또한 이해해야 한다. 통신 인터페이스는 소프트웨어 및 데이터가 디바이스와 외부 디바이스 간에 전송될 수 있게 한다. 통신 인터페이스는 모뎀, 네트워크 인터페이스(예를 들어, 이더넷 카드), 통신 포트, PCMCIA 슬롯 및 카드 등을 포함할 수 있다. 통신 인터페이스를 통해 전송되는 소프트웨어 및 데이터는 전자, 전자기, 광학 또는 통신 인터페이스에 의해 수신될 수 있는 다른 신호일 수 있는 신호 형태일 수 있다. 이들 신호는, 예를 들어 와이어 또는 케이블, 광섬유, 전화선, 휴대폰 링크, RF 링크 또는 다른 통신 채널을 사용하여 구현될 수 있는 디바이스의 통신 경로를 통해 통신 인터페이스에 제공될 수 있다.

이러한 장비의 하드웨어 요소, 운영 체제 및 프로그래밍 언어는 본질적으로 통상적이며, 당업자는 이에 대해 충분히 익숙하다고 추정된다. 질병 위험 분석 플랫폼에 액세스하기 위해 사용되는 디바이스는 또한 키보드, 마우스, 터치스크린, 모니터, 디스플레이 등과 같은 입력 및 출력 디바이스와 연결하기 위한 입력 및 출력 포트를 포함할 수 있다. 물론, 다양한 서버 기능은 처리 부하를 분산시키기 위해 다수의 유사한 플랫폼에서 분산 방식으로 구현될 수 있다. 대안적으로, 서버는 하나의 컴퓨터 하드웨어 플랫폼의 적절한 프로그래밍에 의해 구현될 수 있다.

본 명세서에 개시된 시스템, 장치, 디바이스 및 방법이 도면을 참조하여 예시를 통해 상세하게 설명된다. 본 명세서에서 논의되는 실시예는 예시일 뿐이며 본 명세서에 설명된 장치, 디바이스, 시스템 및 방법의 설명을 돕기 위해 제공된다. 도면에 나타내거나 후술되는 특징 또는 구성요소는 특별히 필수로 지정되지 않는 한 임의의 장치, 디바이스, 시스템 또는 방법의 임의의 특정 구현예에 대해 필수인 것으로 간주되지 않아야 한다. 쉽게 읽고 명확하게 하기 위해, 특정의 구성요소, 모듈 또는 방법이 특정 도면과 관련해서만 설명될 수 있다. 본 개시에서, 특정 기술, 배열 등의 임의의 식별은 제시된 특정 실시예와 관련되거나, 또는 이러한 기술, 배열 등에 대한 일반적인 설명일 뿐이다. 특정 세부 사항 또는 실시예의 식별은 이와 같이 특별히 지정되지 않는 한 필수 또는 제한적인 것으로 의도되지 않으며 해석되어서도 안된다. 구성요소의 조합 또는 하위조합을 구체적으로 설명하지 못한다고 해서 조합 또는 하위 조합이 불가능하다는 표시로 이해되지 않아야 한다. 개시되고 설명된 실시예, 배열, 구성, 구성요소, 요소, 장치, 디바이스, 시스템, 방법 등에 대한 변형이 이루어질 수 있고 특정 적용을 위해 요구될 수 있음을 이해할 것이다. 또한, 설명된 임의의 방법에 대해, 방법이 흐름도와 함께 설명되는지의 여부와 관계없이, 문맥에 의해 달리 지정되거나 요구되지 않는 한, 방법의 실행에서 수행되는 단계들의 임의의 명시적 또는 암시적 순서는 이들 단계가 제시된 순서대로 수행되어야만 하는 것을 의미하는 것이 아니며, 대신에 다른 순서로 또는 병렬로 수행될 수 있다.

본 개시를 통해, 구성요소 또는 모듈에 대한 언급은 일반적으로 기능 또는 관련된 기능의 그룹을 수행하기 위해 논리적으로 함께 그룹화될 수 있는 항목을 지칭한다. 구성요소 및 모듈은 소프트웨어, 하드웨어 또는 소프트웨어와 하드웨어의 조합으로 구현될 수 있다. 용어 "소프트웨어"는 실행 가능한 코드, 예를 들어 머신 실행 가능한 또는 머신 해석 가능한 명령어뿐만 아니라, 데이터 구조, 데이터 저장소 및 펌웨어 및 임베디드 소프트웨어를 포함한 임의의 적합한 전자 포맷으로 저장된 컴퓨팅 명령어를 포함하기 위해 광범위하게 사용된다. 용어 "정보" 및 "데이터"는 광범위하게 사용되며, 실행 가능한 코드를 포함한 다양한 전자 정보; 특히 텍스트, 비디오 데이터 및 오디오 데이터와 같은 콘텐츠; 및 다양한 코드 또는 플래그를 포함한다. 용어 "정보", "데이터" 및 "콘텐츠"는 때때로 문맥 상 허용되는 경우에 상호 교환 가능하게 사용된다.

실시예

이하의 실시예는 본 발명의 일부 실시형태를 보다 충실하게 설명하기 위해 제시된다. 그러나, 이들은 본 발명의 넓은 범위를 한정하는 것으로 해석되지 않아야 한다. 당업자는 본 발명의 사상을 벗어나지 않고 다양한 화합물을 설계하기 위해 이 발견의 기본 원리를 쉽게 채택할 수 있다.

실시예 1

이 실시예는 도 2의 예시적인 데이터 위험 분석 플랫폼 내에서 수행될 수 있는 바와 같이 초기 채혈 후 4년 이내에 심근경색(MI) 이벤트의 예측을 평가하기 위해 콕스 비례 위험 엘라스틱 네트 회귀 모델과 조합된 다운샘플링에 대한 설명을 제공한다.

이 실시예의 목적은 적어도 2개의 폴드(two-fold)이었다: 1) 소수 및 다수 클래스 양쪽 모두를 예측하는 특징의 선택 및 식별, 및 2) 소수 클래스에 대한 위험이 잘 예측되도록 하는 추정 효과 크기의 유도. 대조를 위해, 로지스틱 회귀 엘라스틱 네트 모델의 예측 능력을 (다운샘플링의 유무에 따라) 검사했고, 또한 다운샘플링이 없는 콕스 엘라스틱 네트 모델도 검사했다.

물질 및 방법 - 데이터세트

분석에 사용된 샘플은 연구 참가자로부터 채취한 혈액 샘플 및 후속 건강 정보를 포함한 노르웨이로부터의 전향 코호트 연구(prospective cohort study)인 HUNT3 연구로부터의 서브코호트이었다. CHD 서브코호트는, 6개월 이전의 MI 이력, 협착, 유도성 허혈 또는 이전의 관상동맥 재혈관화를 통해 기존이지만 안정적인 CHD의 증거에 대해 유도된 포함 기준에 따라 이전에 설명되었다(Peter Ganz 등, Development and validation of a protein-based risk score for cardiovascular outcomes among patients with stable coronary heart disease. Jama, 315(23): 2532-2541, 2016). 혈장 샘플은 상대적인 단백질 존재량(relative protein abundance)을 측정하기 위해 느린 오프-레이트 변형된 앱타머(SOMAmer®) 시약을 사용하는 SOMAscan® Assay(SomaLogic, Inc; Boulder, CO USA)를 사용하여 분석되었다. V4 분석은 5,220개의 단백질 분석물을 측정하며, 단백질 바이오마커 발견을 위한 잘 확립된 플랫폼이다.

서브코호트에서, 8.1%의 환자가 4년 이내에 2차 MI를 경험했다(표 1). CHD 서브코호트에서 MI에 대한 카플란-마이어 생존 곡선이 도 3에 도시되어 있다. 카플란-마이어 곡선은 시간 경과에 따라 이벤트가 없을(예를 들어, MI가 없을) 확률이 어떻게 변화하는지를 검사하기 위한 경험적 비모수적 방법(empirical, non-parametric method)이다. HUNT3 데이터세트의 CHD 서브코호트에서 MI에 대해 이벤트가 없을 확률이 점진적으로 감소한다. 표 1은 CHD 서브코호트에서 MI의 발생률과 인구 통계학적 정보를 나타낸다.

[표 1 - 안정적인 CHD 서브코호트에 대한 인구 통계학적 특성]

물질 및 방법 - 콕스 엘라스틱 네트 모델

생존 데이터는 MI 이벤트, 암으로 인한 사망, 질병에 대한 재입원, 기계 부품 고장 등을 포함한 광범위한 주제를 수용하는 이벤트까지의 시간인 결과를 특징으로 한다. 시간 의존 데이터의 속성은, 이벤트가 연구 기간 외에 발생하는 경우에 일부 개체에 대해 이벤트가 관찰되지 않을 것이라는 것이다. 이들 개체는 "중도절단되며(censored)", 이는 다수의 이유(예를 들어, MI와 관련되지 않은 원인으로 인한 사망, 연구로부터 철회하는 개체, 연구 기간 종료 후에 발생하는 MI)로 발생할 수 있다. 다수 유형의 중도절단(censoring)이 있지만, 데이터는 MI 이벤트가 없는 환자의 경우 최종 관찰 시점 이후에 발생한 것으로 간주되는 것을 의미하는 적합하게 중도절단된 개체(right-censored individuals)를 포함한다.

생존 데이터는 생존 함수 S(.)를 통해 특성화되며, 이는 이벤트가 없을 확률이며 시점 t에서 다음과 같이 계산된다.

여기서, f(.)는 MI에 대한 시간의 확률 밀도 함수이다. 생존 기능과 함께, 이벤트까지의 시간을 현저하게 늘리거나 줄이는 특징도 식별되고 특성화될 수 있다. 다수의 생존 분석 기술이 있지만, 가장 일반적인 것 중 하나는 콕스 비례 위험 모델이다. 콕스 모델은 다음과 같이 표현된다.

여기서, λ(t|.)는 위험 함수(또는 "즉시 실패 위험" 함수)이며 λ(t|.) = f(t|.)/S(t|.)로 정의된다. 또한, X_i는 i번째 개체에 대한 특징 측정의 p x 1 벡터이고, β는 특징 효과의 p x 1 벡터이다. 콕스 모델의 주요 목표는 특징이 개체의 이벤트 발생 위험에 미치는 영향을 추정하는 것이다. 기준 위험률 λ₀(t)는 추정 루틴에서 장애모수(nuisance parameter)로 취급되므로, 검사되지 않는다.

데이터 세트 내의 특징 수가 샘플 크기보다 크므로, 엘라스틱 네트 패널티는 최소 절대 수축 및 선택 연산자(즉, 래소(lasso))와 리지 회귀(ridge regression) 또는 티코노프 정규화(Tikhonov regularization)를 조합하는 페널티 회귀의 한 형태인 우리의 모델에 통합될 수 있다. 이 툴은 래소 루틴을 통해 특징 선택을 수행하면서, 상관된 특징이 모델에 함께 남아있게 할 수 있어, p가 n보다 클 수 있도록 한다. 표준 회귀 모델에서, 특징 효과 β는 통상적으로 반응 Y_i와 예측 변수 X'_iβ 간의 차이를 최소화함으로써 추정된다. 그러나, 엘라스틱 네트 정규화에 의하면, 추정된 특징 효과는 다음과 같이 계산된다.

여기서, λ₁은 래소 회귀와 관련된 L₁ 패널티이고, λ₂는 리지 회귀와 관련된 L₂ 패널티이다.

생존 분석은 CRAN-R에서 이용 가능한 glmnet 패키지를 통해 구현된 콕스 엘라스틱 네트 모델을 사용함으로써 엘라스틱 네트 패널티와 조합되었다. 콕스 엘라스틱 네트 모델은 표준 콕스 비례 위험 모델을 엘라스틱 네트 패널티화와 병합하여, 생존 기술의 사용이 패널티 회귀의 이점에 더해 분류기를 개발할 수 있게 한다.

클래스 불균형을 완화하기 위해, 콕스 비례 위험 엘라스틱 네트 모델이 다운샘플링 기술과 조합되었다. 이 접근법은 교차 검증을 통해 식별되는 위험 비율 임계값을 사용하여 계산된 "고위험" 분류기를 사용하여 개체가 4년 이내에 MI 이벤트가 있을 "고위험"에 있는지의 여부를 가장 잘 예측하는 특징의 식별을 가능하게 했다. 또한, 이 기술은 고위험 개체를 정확하게 예측하는 특징이 전체 코호트를 사용하여 유도된 경우와 다른 "가중치"(즉, β 추정치)를 가질 수 있도록 하는 특징 효과를 추정했다.

비교를 위해, 2개의 엘라스틱 네트 로지스틱 회귀 모델(다운샘플링의 유무에 상관없이, R 내의 캐럿 패키지를 통해 구현될 수 있음)뿐만 아니라, 다운샘플링 기술을 통합하지 않은 콕스 엘라스틱 네트 모델이 있다. AUC, 민감도, 특이성 및 C 지수를 사용하여 모델을 적절하게 비교했다.

분석은 RStudio 서버 버전 1.1.453에서 R 버전 3.4.4를 사용하여 수행되었다.

물질 및 방법 - 데이터 부분 집합화

데이터세트는 트레이닝 세트(데이터의 80%)와 테스트 세트(20%)로 분할되었다. 트레이닝 세트는 모델 구축에 사용되었으며 최종 모델은 테스트 세트에서 평가되었다. 콕스 엘라스틱 네트 모델에 대한 테스트 세트의 예측 임계값은 교차 검증 동안 폴드당 생성된 임계값의 평균으로 계산되었다. 패널티 회귀 모델을 구현하기 전에, 트레이닝 세트를 사용하여 단변량 필터링(univariate filtering)이 수행되었다. 스튜던트 t-테스트(student's t-test)는 분석물별로 계산되어, 평균 값이 연구 창에서 MI 이벤트가 있는 개체와 없는 개체 간에 통계적으로 유의하게 다른지를 평가했다. 이 기술의 유용성을 일관성있게 입증하기 위해, 모델 개발 전반에 걸쳐 상위 100개의 분석물 (잘못된 발견률 값으로 순위 매김)이 포함되었다.

결과

다운샘플링된 콕스 엘라스틱 네트 모델의 결과를 2개의 로지스틱 회귀 엘라스틱 네트 모델(다운샘플링됨 및 다운샘플링되지 않음) 및 다운샘플링을 사용하지 않은 콕스 엘라스틱 네트 모델과 비교하였다. 표기의 단순화를 위해 콕스 엘라스틱 네트 모델은 "Coxnet" 모델로, 엘라스틱 네트 로지스틱 회귀 모델은 "LRnet" 모델로 지칭된다. 다운샘플링된 모델의 경우, "DS"가 앞에 추가되었다(예를 들어, 다운샘플링을 구현하는 콕스 엘라스틱 네트 모델은 "DS-Coxnet"이다).

모델들 간에, 각 모델 유형 내에서 최적의 모델을 선택하기 위해 트레이닝 세트에서 5 폴드 교차 검증의 5회 반복이 사용되었다. 최대 AUC를 통해 최적의 모델이 선택되었다. 특징 선택, 추정 효과 및 분류 임계값은 모델마다 다르게 할 수 있었다. 교차 검증 후, 각 카테고리 내의 상위 모델의 예측 능력이 테스트 데이터 세트에서 평가되었다.

모델 개발 동안, Coxnet 모델은 원래 데이터를 사용하여 생성되었지만, 4년 시점에 AUC 메트릭을 사용한 분류를 위해 최적화되었다. 이것은 표준 생존 모델이 구축되었지만 AUC를 계산하고 모델을 최적화하는 데 이진 4년 마크 분류기(binary 4 year-mark classifier)(4년 전 MI 예/아니오)가 사용되었음을 의미한다. 4년 결과는 AUC를 사용하여 또한 최적화된 로지스틱 회귀 모델 개발에 사용되었다. C 지수는 표준 생존 모델 메트릭을 사용하여 모델 비교 목적으로 생존 모델에 대해 계산되었다.

모델 결과 및 비교

교차 검증 결과는 2개의 Coxnet 모델이 표준 LRnet 모델을 크게 능가한다는 것을 보여준다(표 2 참조). 생존 분석 방법이 특징 선택 및 모델 개발의 일부로서 이벤트 정보에 대한 시간을 사용하기 때문에 이러한 결과가 예상된다. 더욱 설득력 있는 결과는, DS-Coxnet 모델이 모든 분류 메트릭(AUC, 민감도, 특이성)에 걸쳐 DS-LRnet 및 표준 Coxnet 모델 양쪽 모두를 능가한다는 것이다. 또한, DS-Coxnet 모델은 표준 Coxnet 모델보다 C 지수가 높아서, 다운샘플링된 모델이 MI에 대한 시간 순서를 더 잘 예측함을 나타낸다.

[표 2 - 교차 검증된 트레이닝 세트 결과]

교차 검증을 통한 모델 최적화 후에, 상위 모델의 예측 능력이 4년 마크에 의해 MI가 있는 "고위험"으로서 개체를 정확하게 예측하는 것에 기초한 민감도 및 특이성의 검사를 포함한, 테스트 세트에서 평가되었다.

테스트 세트의 모든 모델에 대한 성능 메트릭은 표 3에 나타나 있다. DS-Coxnet 모델은 AUC가 0.63인 "램덤 챈스"보다 우수한 성능을 보이는 유일한 모델이다. 또한, DS-Coxnet 모델은 DS-LRnet 모델 및 표준 Coxnet 모델 양쪽 모두에 비해 가장 높은 민감도와 특이성을 갖는다(당연히, LRnet 모델은 학습 데이터 세트에서 수행되는 바와 같이 테스트 데이터 세트에서도 성능이 떨어진다).

[표 3 - 테스트 세트 결과]

다운샘플링된 생존 모델 접근법의 이점을 더욱 입증하기 위해, 각 모델에 대해 카플란-마이어 곡선이 개체가 고위험으로 예측되는지 여부에 따라 계층화되거나 또는 교차 검증을 통해 식별된 모델 특정 임계값을 사용하지 않는 테스트 세트에서 생성되었다(도 4 참조). 이 비교를 위해, 표준 및 DS-Coxnet 모델의 임계값은 교차 검증 반복을 통해 평균 임계값으로 계산되었다. 이러한 육안 검사 방법은 DS-Coxnet 모델의 임계값을 사용하여 고위험 그룹과 평균 위험 그룹 간의 매우 분명한 분리를 보여준다. 이 분리는 다른 모델에 대해서는 잘 정의되어 있지 않다.

수치(figures)와 모델 평가 메트릭의 조합된 증거(표 3)는 다운샘플링된 생존 모델 접근법이 4년 이내에 MI의 고위험에 있는 개체를 식별하는 데 유익하다는 강력한 경우를 만든다.

다운샘플링된 Coxnet 모델에 대한 임계값 조사

DS-Coxnet 모델을 사용하여 테스트 세트를 예측하기 위해 사용된 임계값은 교차 검증 반복으로부터의 모든 임계값에 대한 평균이었다. 이 임계값은 다른 모델보다 더 높은 민감도와 특이성을 초래했지만, 이들 값은 여전히 상당히 불균형했다. 중요한 고려사항은, 예측 임계값을 조작하여 민감도/특이성 절충을 더욱 균형있게 할 수 있는지 여부이다.

분류 모델과 같이, 임계값은 민감도를 최대화하거나, 특이성을 최대화하거나, 또는 테스트 세트에서 민감도와 특이성 간의 차이를 최소화하는 값을 찾도록 조정될 수 있다. 표 4는 테스트 세트에 대한 상이한 임계값의 성능 메트릭을 표시하고, 도 5는 각각에 대한 카플란-마이어 곡선을 도시한다. 표 4에 나타낸 바와 같이, 예측에 대한 임계값을 변경하는 것은 민감도가 AUC의 감소없이 60%보다 높아지게 한다. 그러나, 카플란-마이어 곡선(도 5)은 평균 임계값을 사용하여 고위험 개체와 평균 위험 개체 간의 가장 넓은 분리를 나타낸다.

[표 4 - 다운샘플링된 콕스 모델을 사용하여 테스트 세트에 다른 임계값을 적용]

민감도 및 특이성이 통상적으로 원하는 것(즉, 70% 이상)보다 상대적으로 낮지만, 이 결과는 4년 전에 MI 이벤트를 경험한 테스트 세트에 13명의 대상체가 있다는 사실 때문일 가능성이 높아서, 모델 개발을 제한한다. 그러나, 이 분석은 생존 모델에서 위험 수준을 분류하기 위해 사용되는 임계값이 분류 모델에서와 동일한 방식으로 조정될 수 있음을 입증한다.

명세서 및 실시예는 단지 예시적인 것으로 간주되며, 본 개시의 진정한 범위 및 사상은 다음의 청구범위에 의해 나타나는 것으로 의도된다.

Claims

방법으로서,
a) 클래스 불균형 데이터 세트(class-imbalanced data set)를 획득하는 단계 - 상기 클래스 불균형 데이터 세트는 복수의 대상체로부터의 생물학적 데이터를 포함하고, 각 대상체의 상기 생물학적 데이터는 관찰, 시간 값 및 복수의 임상 측정을 포함하며, 상기 생물학적 데이터는 다수 데이터 클래스(majority data class) 또는 소수 데이터 클래스(minority data class)의 부분인 것으로 분류되고, 상기 다수 데이터 클래스는 상기 소수 데이터 클래스보다 많은 수의 관찰을 가짐 -;
b) 다운샘플링된 데이터 세트를 생성하기 위해 상기 클래스 불균형 데이터 세트를 다운샘플링하는 것 - 상기 다운샘플링은 상기 다수 데이터 클래스가 상기 소수 데이터 클래스와 동등한 또는 실질적으로 동등한 수의 관찰을 갖게 함 -; 및
c) 생존 모델을 생성하기 위해 생존 분석에 의해 상기 다운샘플링된 데이터 세트에 대해 교차 검증을 수행하는 것을 포함하며;
상기 관찰은 특정 시간 값에서 이벤트를 포함하거나 이벤트를 포함하지 않는, 방법.
제1항에 있어서, 상기 생존 모델의 AUC, 민감도, 특이성 및/또는 C 지수는 상기 클래스 불균형 데이터 세트가 상기 생존 분석 전에 다운샘플링되지 않은 생존 모델의 AUC, 민감도, 특이성 및/또는 C 지수보다 1에 더 가까운, 방법.
제1항에 있어서, 상기 클래스 불균형 데이터 세트는 생존 데이터 세트인, 방법.
제1항에 있어서, 상기 이벤트가 대상체의 질병, 장애 또는 상태인, 방법.
제1항에 있어서, 상기 생존 분석은 콕스 비례 위험 분석, 랜덤 포레스트 분석, 가속화 실패 시간 분석 및 이들의 임의의 조합으로 이루어지는 그룹으로부터 선택되는, 방법.
제5항에 있어서, 엘라스틱 네트 패널티(elastic net penalty)를 더 포함하는, 방법.
제1항에 있어서, 상기 교차 검증은 적어도 2 폴드, 3 폴드, 4 폴드, 5 폴드, 6 폴드, 7 폴드, 8 폴드, 9 폴드, 10 폴드, 11 폴드, 12 폴드, 13 폴드, 14 폴드, 15 폴드, 16 폴드, 17 폴드, 18 폴드, 19 폴드 또는 20 폴드의 교차 검증인, 방법.
제1항에 있어서, 상기 생존 모델은 5개 내지 1,000개의 특징을 포함하고, 각 특징은 단백질 측정, 임상 인자 및 이들의 조합으로 이루어지는 그룹으로부터 선택되는, 방법.
제8항에 있어서, 임상 인자는 연령, 체중, 혈압, 신장, BMI, 콜레스테롤, 성별 및 이들의 조합으로 이루어지는 그룹으로부터 선택되는, 방법.
제1항에 있어서, 상기 임상 측정은 단백질체 측정, 게놈 측정, 전사체 측정, 대사체 측정 및 이들의 조합으로부터 선택되는, 방법.
제1항에 있어서, 상기 교차 검증은 k 폴드 교차 검증, 몬테 카를로(Monte Carlo) 교차 검증 및 리브 엔 아웃(Leave N Out) 검증으로부터 선택되는, 방법.
제1항에 있어서, 상기 다수 데이터 클래스는 상기 클래스 불균형 데이터 세트의 95%이고, 상기 소수 데이터 클래스는 상기 클래스 불균형 데이터 세트의 5%인, 방법.
제1항에 있어서, 상기 다수 데이터 클래스는 상기 클래스 불균형 데이터 세트의 90%이고, 상기 소수 데이터 클래스는 상기 클래스 불균형 데이터 세트의 10%인, 방법.
제1항에 있어서, 상기 다수 데이터 클래스는 상기 클래스 불균형 데이터 세트의 85%이고, 상기 소수 데이터 클래스는 상기 클래스 불균형 데이터 세트의 15%인, 방법.
제1항에 있어서, 상기 다수 데이터 클래스는 상기 클래스 불균형 데이터 세트의 80%이고, 상기 소수 데이터 클래스는 상기 클래스 불균형 데이터 세트의 20%인, 방법.
제1항에 있어서, 상기 다수 데이터 클래스는 상기 클래스 불균형 데이터 세트의 75%이고, 상기 소수 데이터 클래스는 상기 클래스 불균형 데이터 세트의 25%인, 방법.
제1항에 있어서, 상기 다수 데이터 클래스는 상기 클래스 불균형 데이터 세트의 70%이고, 상기 소수 데이터 클래스는 상기 클래스 불균형 데이터 세트의 30%인, 방법.
제1항에 있어서, 상기 다수 데이터 클래스는 상기 클래스 불균형 데이터 세트의 65%이고, 상기 소수 데이터 클래스는 상기 클래스 불균형 데이터 세트의 35%인, 방법.
제1항에 있어서, 상기 다수 데이터 클래스는 상기 클래스 불균형 데이터 세트의 60%이고, 상기 소수 데이터 클래스는 상기 클래스 불균형 데이터 세트의 40%인, 방법.
방법으로서,
a) 다운샘플링된 데이터 세트를 생성하기 위해 클래스 불균형 데이터 세트를 다운샘플링하는 단계 - 상기 다운샘플링은 다수 데이터 클래스가 소수 데이터 클래스와 동등한 또는 실질적으로 동등한 수의 관찰을 갖게 함 -; 및
b) 생존 모델을 생성하기 위해 생존 분석에 의해 상기 다운샘플링된 데이터 세트에 대해 교차 검증을 수행하는 단계를 포함하며;
상기 관찰은 특정 시간 값에서 이벤트를 포함하거나 이벤트를 포함하지 않고,
상기 클래스 불균형 데이터 세트는 복수의 대상체로부터의 생물학적 데이터를 포함하고, 각 대상체의 상기 생물학적 데이터는 관찰, 시간 값 및 복수의 임상 측정을 포함하며, 상기 생물학적 데이터는 상기 다수 데이터 클래스 또는 상기 소수 데이터 클래스의 부분인 것으로 분류되고, 상기 다수 데이터 클래스는 상기 소수 데이터 클래스보다 많은 수의 관찰을 가지는, 방법.
제20항에 있어서, 상기 생존 모델의 AUC, 민감도, 특이성 및/또는 C 지수는 상기 클래스 불균형 데이터 세트가 상기 생존 분석 전에 다운샘플링되지 않은 생존 모델의 AUC, 민감도, 특이성 및/또는 C 지수보다 1에 더 가까운, 방법.
제21항에 있어서, 상기 AUC는 대상체가 특정된 시점까지 이벤트를 가질 것인지 여부의 판정에 기초하여 계산되는, 방법.
질병 위험도를 판정하기 위한 컴퓨터 구현 방법으로서,
a) 클래스 불균형 데이터 세트를 획득하는 단계 - 상기 클래스 불균형 데이터 세트는 복수의 대상체로부터의 생물학적 데이터를 포함하고, 각 대상체의 상기 생물학적 데이터는 관찰, 시간 값 및 복수의 임상 측정을 포함하며, 상기 생물학적 데이터는 다수 데이터 클래스 또는 소수 데이터 클래스의 부분인 것으로 분류되고, 상기 다수 데이터 클래스는 상기 소수 데이터 클래스보다 많은 수의 관찰을 가짐 -;
b) 다운샘플링된 데이터 세트를 생성하기 위해 상기 클래스 불균형 데이터 세트를 다운샘플링하는 단계 - 상기 다운샘플링은 상기 다수 데이터 클래스가 상기 소수 데이터 클래스와 동등한 또는 실질적으로 동등한 수의 관찰을 갖게 함 -; 및
c) 생존 모델을 생성하기 위해 생존 분석에 의해 상기 다운샘플링된 데이터 세트에 대해 교차 검증을 수행하는 단계를 포함하며;
상기 관찰은 특정 시간 값에서 이벤트를 포함하거나 이벤트를 포함하지 않으며; 단계 b) 및 단계 c)는 컴퓨터 시스템에 의해 컴퓨팅되는, 컴퓨터 구현 방법.
제23항에 있어서, 상기 생존 모델의 AUC, 민감도, 특이성 및/또는 C 지수는 상기 클래스 불균형 데이터 세트가 상기 생존 분석 전에 다운샘플링되지 않은 생존 모델의 AUC, 민감도, 특이성 및/또는 C 지수보다 1에 더 가까운, 컴퓨터 구현 방법.
질병 위험도를 판정하기 위한 방법에 대한 방법 단계를 수행하기 위해 컴퓨터에 의해 실행 가능한 명령어의 프로그램을 유형으로 구현하는, 컴퓨터에 의해 판독 가능한 프로그램 저장 장치로서, 상기 방법은,
a) 클래스 불균형 데이터 세트를 획득하는 단계 - 상기 클래스 불균형 데이터 세트는 복수의 대상체로부터의 생물학적 데이터를 포함하고, 각 대상체의 상기 생물학적 데이터는 관찰, 시간 값 및 복수의 임상 측정을 포함하며, 상기 생물학적 데이터는 다수 데이터 클래스 또는 소수 데이터 클래스의 부분인 것으로 분류되고, 상기 다수 데이터 클래스는 상기 소수 데이터 클래스보다 많은 수의 관찰을 가짐 -;
b) 다운샘플링된 데이터 세트를 생성하기 위해 상기 클래스 불균형 데이터 세트를 다운샘플링하는 단계 - 상기 다운샘플링은 상기 다수 데이터 클래스가 상기 소수 데이터 클래스와 동등한 또는 실질적으로 동등한 수의 관찰을 갖게 함 -; 및
c) 생존 모델을 생성하기 위해 생존 분석에 의해 상기 다운샘플링된 데이터 세트에 대해 교차 검증을 수행하는 단계를 포함하며;
상기 관찰은 특정 시간 값에서 이벤트를 포함하거나 이벤트를 포함하지 않는, 프로그램 저장 장치.
제25항에 있어서, 상기 생존 모델의 AUC, 민감도, 특이성 및/또는 C 지수는 상기 클래스 불균형 데이터 세트가 상기 생존 분석 전에 다운샘플링되지 않은 생존 모델의 AUC, 민감도, 특이성 및/또는 C 지수보다 1에 더 가까운, 프로그램 저장 장치.
질병 위험도를 판정하기 위한 컴퓨팅 시스템으로서, 프로그램된 명령어를 저장하기 위한 메모리; 동작을 수행하기 위해 상기 프로그래밍된 명령어를 실행하도록 구성된 프로세서를 포함하며, 상기 동작은,
a) 클래스 불균형 데이터 세트를 획득하는 것 - 상기 클래스 불균형 데이터 세트는 복수의 대상체로부터의 생물학적 데이터를 포함하고, 각 대상체의 상기 생물학적 데이터는 관찰, 시간 값 및 복수의 임상 측정을 포함하며, 상기 생물학적 데이터는 다수 데이터 클래스 또는 소수 데이터 클래스의 부분인 것으로 분류되고, 상기 다수 데이터 클래스는 상기 소수 데이터 클래스보다 많은 수의 관찰을 가짐 -;
b) 다운샘플링된 데이터 세트를 생성하기 위해 상기 클래스 불균형 데이터 세트를 다운샘플링하는 것 - 상기 다운샘플링은 상기 다수 데이터 클래스가 상기 소수 데이터 클래스와 동등한 또는 실질적으로 동등한 수의 관찰을 갖게 함 -; 및
c) 생존 모델을 생성하기 위해 생존 분석에 의해 상기 다운샘플링된 데이터 세트에 대해 교차 검증을 수행하는 것을 포함하며;
상기 관찰은 특정 시간 값에서 이벤트를 포함하거나 이벤트를 포함하지 않는, 컴퓨팅 시스템.
제27항에 있어서, 상기 생존 모델의 AUC, 민감도, 특이성 및/또는 C 지수는 상기 클래스 불균형 데이터 세트가 상기 생존 분석 전에 다운샘플링되지 않은 생존 모델의 AUC, 민감도, 특이성 및/또는 C 지수보다 1에 더 가까운, 방법.
동작을 수행하기 위해 프로세서에 의해 실행 가능한 명령어가 저장된 비일시적인 컴퓨터 판독 가능 매체로서, 상기 동작은,
a) 클래스 불균형 데이터 세트를 획득하는 것 - 상기 클래스 불균형 데이터 세트는 복수의 대상체로부터의 생물학적 데이터를 포함하고, 각 대상체의 상기 생물학적 데이터는 관찰, 시간 값 및 복수의 임상 측정을 포함하며, 상기 생물학적 데이터는 다수 데이터 클래스 또는 소수 데이터 클래스의 부분인 것으로 분류되고, 상기 다수 데이터 클래스는 상기 소수 데이터 클래스보다 많은 수의 관찰을 가짐 -;
b) 다운샘플링된 데이터 세트를 생성하기 위해 상기 클래스 불균형 데이터 세트를 다운샘플링하는 것 - 상기 다운샘플링은 상기 다수 데이터 클래스가 상기 소수 데이터 클래스와 동등한 또는 실질적으로 동등한 수의 관찰을 갖게 함 -; 및
c) 생존 모델을 생성하기 위해 생존 분석에 의해 상기 다운샘플링된 데이터 세트에 대해 교차 검증을 수행하는 것을 포함하며;
상기 관찰은 특정 시간 값에서 이벤트를 포함하거나 이벤트를 포함하지 않는, 비일시적인 컴퓨터 판독 가능 매체.
제29항에 있어서, 상기 생존 모델의 AUC, 민감도, 특이성 및/또는 C 지수는 상기 클래스 불균형 데이터 세트가 상기 생존 분석 전에 다운샘플링되지 않은 생존 모델의 AUC, 민감도, 특이성 및/또는 C 지수보다 1에 더 가까운, 방법.
질병 위험도를 판정하기 위한 컴퓨터 구현 방법으로서,
a) 클래스 불균형 데이터 세트를 수신하는 단계 - 상기 클래스 불균형 데이터 세트는 복수의 대상체로부터의 생물학적 데이터를 포함하고, 각 대상체의 상기 생물학적 데이터는 관찰, 시간 값 및 복수의 임상 측정을 포함하며, 상기 생물학적 데이터는 다수 데이터 클래스 또는 소수 데이터 클래스의 부분인 것으로 분류되고, 상기 다수 데이터 클래스는 상기 소수 데이터 클래스보다 많은 수의 관찰을 가짐 -;
b) 다운샘플링된 데이터 세트를 생성하기 위해 상기 클래스 불균형 데이터 세트를 상기 컴퓨터에 의해 다운샘플링하는 단계 - 상기 다운샘플링은 상기 다수 데이터 클래스가 상기 소수 데이터 클래스와 동등한 또는 실질적으로 동등한 수의 관찰을 갖게 함 -; 및
c) 생존 모델을 생성하기 위해 생존 분석에 의해 상기 다운샘플링된 데이터 세트에 대해 상기 컴퓨터에 의해 교차 검증을 수행하는 단계를 포함하며;
상기 관찰은 특정 시간 값에서 이벤트를 포함하거나 이벤트를 포함하지 않는, 컴퓨터 구현 방법.
제31항에 있어서, 상기 생존 모델의 AUC, 민감도, 특이성 및/또는 C 지수는 상기 클래스 불균형 데이터 세트가 상기 생존 분석 전에 다운샘플링되지 않은 생존 모델의 AUC, 민감도, 특이성 및/또는 C 지수보다 1에 더 가까운, 방법.