KR20230167070A

KR20230167070A - 국재화 정확도를 위한 조건부 기원 조직 리턴

Info

Publication number: KR20230167070A
Application number: KR1020237037807A
Authority: KR
Inventors: 올리버 클로드 벤; 피터 디. 프리즈; 사무엘 에스. 그로스; 로버트 에이브 페인 칼레프; 아라시 잠시디
Original assignee: 그레일, 엘엘씨
Priority date: 2021-04-06
Filing date: 2022-04-05
Publication date: 2023-12-07
Also published as: AU2022255318A1; CN117063238A; CA3207988A1; EP4302299A1; IL305894A; US20220333209A1; WO2022216756A1; JP2024513563A

Abstract

핵산 샘플을 사용하여 질병 상태의 국재화(예컨대, 암의 기원 조직)를 위한 시스템 및 방법이 본원에 개시된다. 일 실시형태에서, 방법은 일 샘플의 복수의 암 신호를 수신하는 단계를 포함하며, 각각의 암 신호는 해당 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타낸다. 방법은 제1 복수의 암 신호 중 가장 큰 확률을 갖는 제1 암 신호를 결정한다. 제1 암 신호가 기준을 만족한다는 결정에 따라, 방법은 샘플을 제1 질병 상태와 연관시킨다. 제1 암 신호가 기준을 만족하지 않는다는 결정에 따라, 방법은 복수의 암 신호 중 두 번째로 큰 확률을 갖는 제2 암 신호를 결정하고, 샘플을 제1 질병 상태 및 제2 질병 상태와 연관시킨다.

Description

국재화 정확도를 위한 조건부 기원 조직 리턴

관련 출원의 교차 참조

본 출원은 2021년 4월 6일에 출원된 미국 임시출원 제63/171,355호에 대한 우선권을 주장하며, 이 미국 출원은 모든 목적을 위해 이의 전체 내용이 참조에 의해서 본 명세서에 포함된다.

1. 기술분야

본 개시내용은 전반적으로 질병 상태의 국재화(localization)를 위한 기원 조직(tissue of origin) 결정의 조건부 리턴(conditional return)에 관한 것이다.

2. 배경기술

모델은 의심되는 암의 기원 조직을 예측하도록 훈련될 수 있다. 그러나 생물학적 모호성으로 인해, 타당한 것 같은 기원 조직 예측이 둘 이상 있을 수 있다. 예를 들어, 암의 다양한 기원 조직들을 갖는 생물체의 샘플들은 유사한 특징들을 가질 수 있다. 의사나 다른 헬스 케어 제공자(health care provider)가 모호하거나 복잡한 암 신호들을 파싱(parse)하여 개인에 대한 진단을 결정하는 것은 어렵다. 낮은 종양 쉐딩(tumor shedding)(예컨대, 초기 단계 암들)을 갖는 샘플들은 또한, 정보를 제공하는 단편이 더 적기 때문에, 국재화하기가 어렵다.

핵산 샘플을 사용하여 질병 상태(예컨대, 암의 존재 또는 부재, 암 유형 및/또는 암 기원 조직(본원에서, "암 신호 기원"이라고도 함))의 국재화를 위한 방법이 본원에 개시된다. 본원에 개시된 실시형태는 비침습적 방법을 이용한 암 진단 및 암의 조기 검출의 분야에서 기존 기술에 대한 개선을 제공한다. 일 양태에서, 본 개시내용은 암 진단을 위한 방법을 제공하며, 이 방법은 제1 개인의 제1 샘플의 제1 복수의 암 신호를 수신하는 단계 - 제1 복수의 암 신호 중 각각의 암 신호는 제1 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -; 제1 복수의 암 신호 중 가장 큰 확률을 갖는 제1 암 신호를 결정하는 단계; 제1 암 신호가 기준을 만족한다고 결정하는 단계에 응답하여, 제1 샘플을 제1 암 신호에 대응하는 질병 상태와 연관시키는 단계; 제1 개인의 제1 진단을 결정하기 위한 클라이언트 디바이스 상의 제시를 위해, 제1 샘플과 연관된 제1 암 신호에 대응하는 질병 상태를 제공하는 단계; 제2 개인의 제2 샘플의 제2 복수의 암 신호를 수신하는 단계 - 제2 복수의 암 신호 중 각각의 암 신호는 제2 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -; 제2 복수의 암 신호 중 가장 큰 확률을 갖는 제2 암 신호를 결정하는 단계; 제2 암 신호가 기준을 만족하지 않는다고 결정하는 단계에 응답하여, 제2 샘플을 적어도 제2 암 신호를 포함하는 제2 복수의 암 신호의 일 서브세트에 대응하는 복수의 질병 상태의 일 서브세트와 연관시키는 단계; 및 제2 개인의 제2 진단을 결정하기 위한 클라이언트 디바이스 상의 제시를 위해, 제2 샘플과 연관된 제2 복수의 암 신호의 서브세트에 대응하는 복수의 질병 상태의 서브세트를 제공하는 단계를 포함한다.

일부 실시형태에서, 본 개시내용의 방법, 시스템, 또는 비일시적 컴퓨터 판독 가능 매체는 제2 복수의 암 신호 중에서 두 번째로 가장 큰 확률을 갖는 제3 암 신호를 결정하는 단계를 더 포함하되, 제2 복수의 암 신호의 서브세트는 제3 암 신호를 더 포함한다.

일부 실시형태에서, 기준은 확률 임계값이고, 제1 암 신호가 기준을 만족한다고 결정하는 단계는 제1 암 신호의 최대 확률이 확률 임계값보다 더 크다고 결정하는 단계를 포함한다. 일부 실시형태에서, 확률 임계값은 적어도 88%, 89%, 90%, 91% 또는 92%이다.

일부 실시형태에서, 본 개시내용의 방법, 시스템, 또는 비일시적 컴퓨터 판독 가능 매체는 위양성(false positives) 및 암 신호 확률들의 정확성에 기초하여 기준을 결정하는 단계를 더 포함한다.

일부 실시형태에서, 본 개시내용의 방법, 시스템, 또는 비일시적 컴퓨터 판독 가능 매체는 현재의 암이 샘플과 연관될 잔여 위험에 기초하여 기준을 결정하는 단계를 더 포함한다.

일부 실시형태에서, 본 개시내용의 방법, 시스템, 또는 비일시적 컴퓨터 판독 가능 매체는 제1 복수의 암 신호 중에서 n개의 가장 큰 확률을 갖는 제1 복수의 암 신호의 일 서브세트의 n개의 암 신호를 결정하는 단계; 및 제1 복수의 암 신호 중 적어도 임계 수의 서브세트가 일 카테고리의 질병 상태들과 연관되어 있다고 결정하는 단계에 응답하여, 제1 샘플을 카테고리의 질병 상태들의 각각의 질병 상태와 연관시키는 단계를 더 포함한다.

일부 실시형태에서, 일 카테고리의 질병 상태들은 인간 유두종 바이러스(HPV) 암이다. 일부 실시형태에서, 일 카테고리의 질병 상태들은 위암과 장암을 포함한다.

일부 실시형태에서, 복수의 질병 상태는 비-암(non-cancer) 상태를 포함한다.

일부 실시형태에서, 복수의 질병 상태는 항문암, 유방암, 자궁암, 자궁경부암, 난소암, 방광암, 신우 및 요관의 요로상피암, 요로상피 이외의 신장암, 전립선암, 항문직장암, 대장암, 식도의 편평상피세포암, 편평상피 이외의 식도암, 위암, 간세포로부터 발생한 간담도암, 간세포 이외의 세포로부터 발생한 간담도암, 췌장암, 인유두종바이러스 관련 두경부암, 인유두종바이러스와 관련되지 않은 두경부암, 폐선암종, 소세포폐암, 선암종 또는 소세포 폐암 이외의 폐암 및 편평 세포 폐암, 신경내분비암, 흑색종, 갑상선암, 육종, 다발성 골수종, 림프종, 백혈병, 신장암, 간암, 담관암, 혈질세포신생종암, 상부 위장관암, 외음부암, 폐 신경내분비 종양 및 기타 고도선종 신경내분비 종양을 포함하는 그룹으로부터 선택된 하나 이상의 유형의 암을 포함한다.

일부 실시형태에서, 본 개시내용의 방법, 시스템, 또는 비일시적 컴퓨터 판독 가능 매체는 제2 샘플과 연관된 복수의 질병 상태들의 서브세트에 대응하는 각각의 질병 상태의 그래픽적 비교를, 클라이언트 디바이스 상의 제시를 위해, 제공하는 단계를 더 포함한다. 일부 실시형태에서, 그래픽적 비교는 제2 복수의 암 신호의 확률들에 기초한 막대 그래프이다.

다른 양태에서, 본 개시내용은 컴퓨터 프로세서 및 메모리를 포함하는 시스템을 제공하며, 이 메모리는 컴퓨터 프로세서에 의해서 실행될 때 프로세서로 하여금 다음의 단계를 수행하게 하는 컴퓨터 프로그램 명령어를 저장하고, 다음의 단계는, 제1 개인의 제1 샘플의 제1 복수의 암 신호를 수신하는 단계 - 제1 복수의 암 신호 중 각각의 암 신호는 제1 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -; 제1 복수의 암 신호 중 가장 큰 확률을 갖는 제1 암 신호를 결정하는 단계; 제1 암 신호가 기준을 만족한다고 결정하는 단계에 응답하여, 제1 샘플을 제1 암 신호에 대응하는 질병 상태와 연관시키는 단계; 제1 개인의 제1 진단을 결정하기 위한 클라이언트 디바이스 상의 제시를 위해, 제1 샘플과 연관된 제1 암 신호에 대응하는 질병 상태를 제공하는 단계; 제2 개인의 제2 샘플의 제2 복수의 암 신호를 수신하는 단계 - 제2 복수의 암 신호 중 각각의 암 신호는 제2 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -; 제2 복수의 암 신호 중 가장 큰 확률을 갖는 제2 암 신호를 결정하는 단계; 제2 암 신호가 기준을 만족하지 않는다고 결정하는 단계에 응답하여, 제2 샘플을 적어도 제2 암 신호를 포함하는 제2 복수의 암 신호의 일 서브세트에 대응하는 복수의 질병 상태의 일 서브세트와 연관시키는 단계; 및 제2 개인의 제2 진단을 결정하기 위한 클라이언트 디바이스 상의 제시를 위해, 제2 샘플과 연관된 제2 복수의 암 신호의 서브세트에 대응하는 복수의 질병 상태의 서브세트를 제공하는 단계를 포함한다.

다른 양태에서, 본 개시내용은 하나 이상의 프로세서에 의해서 실행될 때, 하나 이상의 프로세서로 하여금 다음의 단계를 수행하게 하는 명령어를 포함하는 비일시적 컴퓨터 판독 가능 매체를 제공하며, 다음의 단계는, 제1 개인의 제1 샘플의 제1 복수의 암 신호를 수신하는 단계 - 제1 복수의 암 신호 중 각각의 암 신호는 제1 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -; 제1 복수의 암 신호 중 가장 큰 확률을 갖는 제1 암 신호를 결정하는 단계; 제1 암 신호가 기준을 만족한다고 결정하는 단계에 응답하여, 제1 샘플을 제1 암 신호에 대응하는 질병 상태와 연관시키는 단계; 제1 개인의 제1 진단을 결정하기 위한 클라이언트 디바이스 상의 제시를 위해, 제1 샘플과 연관된 제1 암 신호에 대응하는 질병 상태를 제공하는 단계; 제2 개인의 제2 샘플의 제2 복수의 암 신호를 수신하는 단계 - 제2 복수의 암 신호 중 각각의 암 신호는 제2 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -; 제2 복수의 암 신호 중 가장 큰 확률을 갖는 제2 암 신호를 결정하는 단계; 제2 암 신호가 기준을 만족하지 않는다고 결정하는 단계에 응답하여, 제2 샘플을 적어도 제2 암 신호를 포함하는 제2 복수의 암 신호의 일 서브세트에 대응하는 복수의 질병 상태의 일 서브세트와 연관시키는 단계; 및 제2 개인의 제2 진단을 결정하기 위한 클라이언트 디바이스 상의 제시를 위해, 제2 샘플과 연관된 제2 복수의 암 신호의 서브세트에 대응하는 복수의 질병 상태의 서브세트를 제공하는 단계를 포함한다.

다른 양태에서, 본 개시내용은 암 신호 국재화를 위한 방법을 제공하며, 이 방법은 샘플의 복수의 암 신호를 수신하는 단계 - 복수의 암 신호 중 각각의 암 신호는 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -; 복수의 암 신호 중 가장 큰 확률을 갖는 제1 암 신호를 결정하는 단계; 제1 암 신호가 기준을 만족한다는 결정에 따라, 샘플을 제1 암 신호에 대응하는 제1 질병 상태와 연관시키는 단계; 제1 암 신호가 기준을 충족하지 않는다는 결정에 따라: 복수의 암 신호 중 두 번째로 가장 큰 확률을 갖는 제2 암 신호를 결정하는 단계; 및 샘플을 제1 암 신호에 대응하는 질병 상태 및 제2 암 신호에 대응하는 제2 질병 상태와 연관시키는 단계를 포함한다.

일부 실시형태에서, 본 개시내용의 방법, 시스템, 또는 비일시적 컴퓨터 판독 가능 매체는 제1 암 신호가 기준을 만족한다는 결정에 따라, 샘플 내 암의 예측을 결정하기 위해 기계 학습 모델에 대한 입력으로서 제1 암 신호를 제공하는 단계; 및 제1 암 신호가 기준을 만족하지 않는다는 결정에 따라, 샘플 내 암의 예측을 결정하기 위해 기계 학습 모델에 대한 입력으로서 제1 암 신호 및 제2 암 신호를 제공하는 단계를 더 포함한다.

일부 실시형태에서, 본 개시내용의 방법, 시스템, 또는 비일시적 컴퓨터 판독 가능 매체는 제1 암 신호가 기준을 만족한다는 결정에 따라, 제1 암 신호에 대응하는 제1 질병 상태와 샘플의 연관성을 포함하는 제1 훈련 세트를 생성하여 암 신호 국재화를 위한 기계 학습 모델을 훈련시키는 단계; 및 제1 암 신호가 기준을 만족하지 않는다는 결정에 따라, 제1 암 신호에 대응하는 제1 질병 상태 및 제2 암 신호에 대응하는 제2 질병 상태와 샘플의 연관성을 포함하는 제2 훈련 세트를 생성하여 기계 학습 모델을 훈련시키는 단계를 더 포함한다.

다른 양태에서, 본 개시내용은 암 신호 국재화를 위한 방법을 제공하며, 이 방법은 샘플의 복수의 암 신호를 수신하는 단계 - 복수의 암 신호 중 각각의 암 신호는 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -; 복수의 암 신호 중 제1 암 신호가, 복수의 암 신호 중 나머지 암 신호들이 부정확하다고 가정하면, 참양성일 제1 조건부 확률을 결정하는 단계; 제1 조건부 확률이 기준을 만족한다고 결정하는 단계에 응답하여, 샘플을 제1 암 신호에 대응하는 적어도 하나의 질병 상태와 연관시키는 단계; 제1 암 신호를 제외한 복수의 암 신호의 일 서브세트를 결정하는 단계; 복수의 암 신호의 서브세트 중 제2 암 신호가, 복수의 암 신호의 서브세트 중 나머지 암 신호들이 부정확하다고 가정하면, 참양성일 제2 조건부 확률을 결정하는 단계; 및 제2 조건부 확률이 기준을 만족한다고 결정하는 단계에 응답하여, 샘플을 제2 암 신호에 대응하는 적어도 하나의 질병 상태와 연관시키는 단계를 포함한다.

다양한 실시형태에서, 시스템은 컴퓨터 프로세서 및 메모리를 포함하며, 메모리는 컴퓨터 프로세서에 의해서 실행될 때 프로세서로 하여금 본원에 설명된 방법들 중 어느 하나를 수행하게 하는 컴퓨터 프로그램 명령어를 저장한다. 다양한 실시형태에서, 비일시적 컴퓨터 판독 가능 매체는 하나 이상의 프로그램을 저장하며, 하나 이상의 프로그램은 프로세서를 포함하는 전자 디바이스에 의해 실행될 때 이 디바이스가 본원에 설명된 방법들 중 어느 하나를 수행하게 하는 명령어를 포함한다.

도 1a는 다양한 실시형태에 따른 암 신호 국재화를 위한 방법의 흐름도이다.
도 1b는 다양한 실시형태에 따른 암 신호 국재화를 위한 다른 방법의 흐름도이다.
도 2a는 다양한 실시형태에 따른 핵산 샘플을 시퀀싱하기 위한 시스템을 예시한다.
도 2b는 다양한 실시형태에 따른 암 신호 국재화를 위한 분석 시스템의 블록도이다.
도 3은 다양한 실시형태에 따른 핵산들을 시퀀싱하는 프로세스를 설명하는 흐름도이다.
도 4는 일 실시형태에 따른 암 신호 국재화 동안의 참양성 및 위양성의 실험 결과를 예시한다.
도 5는 다양한 실시형태에 따른 조건부 확률에 기초한 암 신호 국재화를 위한 방법의 흐름도이다.
도 6은 일 실시형태에 따른 암 신호 국재화의 실험 결과를 예시한다.
도 7은 일 실시형태에 따른 조건부 리턴에 기초한 암 신호 국재화의 실험 결과를 예시한다.
도 8은 일 실시형태에 따른 잠복성 암 샘플로부터의 암 신호 국재화의 실험 결과를 예시한다.
도 9는 일 실시형태에 따른 암 샘플의 서브샘플링을 예시하는 플롯이다.
도 10a 및 도 10b는 일 실시형태에 따른 예상되는 스크리닝 암 신호 강도와 매칭되도록 서브샘플링된 검출된 암 샘플을 예시한다.
도 11a 및 도 11b는 일부 실시형태에 따른 서브샘플링 전후의 암 유형별 암 신호 세기를 예시한다.
도 12는 일부 실시형태에 따른 서브샘플링 전후의 암 유형 및 단계에 따른 암 신호 세기를 예시한다.
도 13a 및 도 13b는 일부 실시형태에 따른, 제1, 제2, 제3 및 제4 CSL 콜(call)에 의해서 캡처된 CSL 신호의 비율과 같은 CSL 콜 확률의 분포의 막대 그래프를 포함한다.
도 14a 및 도 14b는 일부 실시형태에 따른, 실제 암 유형별로, 제1, 제2, 제3 및 제4 CSL 콜에 의해서 캡처된 CSL 신호의 비율과 같은 CSL 콜 확률의 분포의 막대 그래프를 포함한다.
도 15a, 도 15b 및 도 15c는 일부 실시형태에 따라 위양성과 참양성으로 구분된 중앙값 암 점수들의 막대 그래프들을 포함한다.
도 16은 일부 실시형태에 따른 누적 확률 점수를 예시한다.
도 17a 및 도 17b는 일부 실시형태에 따른 암 신호 국재화의 조건부 정확도를 예시한다.
도 18a 및 도 18b는 일부 실시형태에 따른, 고체 샘플 유형 및 액체 샘플 유형에 대한 암 신호 국재화의 조건부 정확도를 예시한다.
도 19a 및 도 19b는 일부 실시형태에 따른, 암 단계에 기반한 암 신호 국재화의 조건부 정확도를 예시한다.
도 20a 및 도 20b는 일부 실시형태에 따른 암 신호 국재화의 누적 정확도를 예시한다.
도 21a 및 도 21b는 일부 실시형태에 따른 위양성의 암 신호 국재화를 예시한다.
도 22a 및 도 22b는 일부 실시형태에 따른 암 유형에 기반한 위양성의 암 신호 국재화를 예시한다.

이제 여러 실시형태를 자세히 참조할 것이며, 이의 실시예는 첨부 도면에 예시된다. 실행 가능한 경우에 유사하거나 비슷한 참조 번호가 도면에 사용될 수 있으며 유사하거나 비슷한 기능을 나타낼 수 있다는 점에 유의한다. 또한, 본원에 언급된 모든 공개 자료(특허 출원, 특허, 논문, 회의록 등)의 내용은 그 전체가 본 명세서에 참조에 의해서 포함된다는 점에 유의한다.

I. 정의

다르게 정의되지 않는 한, 본원에 사용된 모든 기술 및 과학 용어는 본 설명이 속하는 기술분야에서 숙련된 사람에 의해서 일반적으로 이해되는 의미를 갖는다. 본원에서 사용되는 바와 같이, 다음 용어는 아래에서 다음 용어에 부여된 의미를 갖는다.

"개인"이라는 용어는 인간 개인을 지칭한다. "건강한 개인"이라는 용어는 암이나 질병이 없다고 추정되는 개인을 지칭한다.

"피험자"라는 용어는 DNA가 분석되고 있는 개인을 지칭한다. 피험자는 테스트 피험자로서, 이의 DNA가 그 사람이 질병 상태(예컨대, 암, 암의 유형, 또는 암 기원 조직)를 가지고 있는지 여부를 평가하기 위해 본원에 설명된 바와 같이 전체 게놈 시퀀싱 또는 표적 패널을 사용하여 평가될 수 있다. 피험자는 또한 암이나 다른 질병이 없는 것으로 알려진 대조군의 일부일 수 있다. 피험자는 또한 암 또는 다른 질병을 앓고 있는 것으로 알려진 암 그룹 또는 다른 질병 그룹의 일부일 수 있다. 대조군 및 암/질병 그룹은 표적 패널을 설계하거나 검증하는 것을 지원하기 위해서 사용될 수 있다.

"참조 샘플"이라는 용어는 질병 상태가 알려진 피험자로부터 얻은 샘플을 지칭한다.

"훈련 샘플"이라는 용어는 서열 판독(sequence read)을 생성하는 데 사용될 수 있는 알려진 질병 상태로부터 얻은 샘플을 지칭한다. 질병 상태 분류에 활용될 수 있는 특징을 생성하기 위해 훈련 샘플은 확률 모델에 적용될 수 있다.

"시험 샘플"이라는 용어는 질병 상태가 알려지지 않은 샘플을 지칭한다.

"서열 판독"이라는 용어는 개인으로부터 얻은 샘플로부터의 뉴클레오티드 서열 판독을 지칭한다. 서열 판독은 샘플의 핵산 단편으로부터 생성될 수 있다. 서열 판독은 단일 기원 핵산 분자로부터의 복수의 앰플리콘으로부터 유래된 복수의 서열 판독으로부터 생성된 붕괴된 서열 판독일 수 있다. 일부 실시형태에서, 서열 판독은 중복이 제거된 서열 판독일 수 있다. 서열 판독은 당업계에 공지된 다양한 방법을 통해 획득될 수 있다.

"질병 상태"라는 용어는 질병의 존재 또는 부재, 질병의 유형, 및/또는 질병 기원 조직 지칭한다. 예를 들어, 일 실시형태에서, 본 개시내용은 암(즉, 암의 존재 또는 부재), 암 유형, 또는 암 기원 조직을 검출하기 위한 방법, 시스템 및 비일시적 컴퓨터 판독 가능 매체를 제공한다.

"기원 조직" 또는 "TOO(tissue of origin)"라는 용어는 질병 상태가 발생하거나 기원할 수 있는 기관, 기관 그룹, 신체 부위 또는 세포 유형을 지칭한다. 예를 들어, 기원 조직 또는 암세포 유형의 식별은 일반적으로 추가적으로 진단하고, 병의 단계를 정하고, 치료를 결정하기 위한 적절한 다음 단계를 식별할 수 있다.

본원에 사용된 용어 "메틸화"는 메틸기가 DNA 분자에 첨가되는 화학적 프로세스를 지칭한다. DNA의 4개 염기 중 2개인 사이토신("C")과 아데닌("A")은 메틸화될 수 있다. 예를 들어, 사이토신 염기의 피리미딘 고리 상의 수소 원자기 메틸기로 변환되어 5-메틸사이토신을 형성할 수 있다. 메틸화는 본원에서 "CpG 부위"로 지칭되는 사이토신 및 구아닌의 디뉴클레오티드에서 발생하는 경향이 있다. 다른 예에서, 메틸화는 CpG 부위의 일부가 아닌 사이토신에서 또는 사이토신이 아닌 다른 뉴클레오티드에서 발생할 수 있으나, 이는 더 드물게 발생한다. 본 개시내용에서, 메틸화는 명확성을 위해서 CpG 부위와 관련하여 논의된다. 그러나 본원에서 설명되는 원리는 비-사이토신(non-cytosine) 메틸화를 포함하여 비-CpG 맥락에서의 메틸화의 검출을 위해 동일하게 적용 가능하다. 예를 들어, 아데닌 메틸화는 박테리아, 식물 및 포유류 DNA에서 관찰되었지만, 상당히 덜 주목을 받았다.

이러한 구현 예에서, 메틸화를 검출하기 위해 사용되는 습식 실험실 어세이(wet laboratory assay)는 당업계에 잘 알려진 바와 같이 본원에 기술된 것과 다를 수 있다. 또한, 메틸화 상태 벡터는 일반적으로 메틸화가 발생했거나 발생하지 않은 부위(해당 부위가 구체적으로 CpG 부위가 아니더라도)의 벡터인 요소를 포함할 수 있다. 이러한 치환으로, 본원에 기술된 프로세스의 나머지 부분은 동일하며, 결과적으로 본원에 기술된 본 발명의 개념은 이러한 다른 형태의 메틸화에 적용 가능하다.

"CpG 부위"라는 용어는 5'에서 3' 방향을 따른 염기의 선형 서열에서 사이토신 뉴클레오티드가 구아닌 뉴클레오티드에 의해서 추종되는 DNA 분자의 영역을 지칭한다. "CpG"는 단 하나의 인산기에 의해서 분리된 사이토신과 구아닌인 5'-C-포스페이트-G-3'의 약칭이며, 인산염은 DNA에서 임의의 두 개의 뉴클레오티드를 함께 링크한다. CpG 디뉴클레오티드의 사이토신은 메틸화되어 5-메틸사이토신을 형성할 수 있다.

"세포 유리 데옥시리보핵산", "세포 유리 DNA" 또는 "cfDNA"라는 용어는 혈액, 땀, 소변, 또는 타액과 같은 체액에서 순환하고 하나 이상의 건강한 세포로부터 그리고/또는 하나 이상의 암세포로부터 유래하는 데옥시리보핵산 단편을 지칭한다.

"순환 종양 DNA" 또는 "ctDNA"라는 용어는 종양 세포 또는 다른 유형의 암세포로부터 유래하는 데옥시리보핵산 단편을 지칭하며, 이는 죽어가는 세포의 아포토시스(apoptosis)나 네크로시스(necrosis)와 같은 생물학적 프로세스의 결과로 혈액, 땀, 소변, 타액과 같은 개인의 체액으로 방출되거나 생존 가능한 종양 세포에 의해서 능동적으로 방출될 수 있다.

II. 국재화 방법의 개요

도 1a는 다양한 실시형태에 따른 암 신호 국재화를 위한 방법(100)의 흐름도이다. 도 2b는 다양한 실시형태에 따른 암 신호 국재화를 위한 분석 시스템(200)의 블록도이다. 도 2b에 도시된 실시형태에서, 분석 시스템(200)은 서열 프로세서(210), 기계 학습 엔진(220), 확률론적 모델(230), 분류기(240), 및 국재화 엔진(250)을 포함한다. 다양한 실시형태에서, 분석 시스템(200)은 본원에 설명된 방법들 중 임의의 것을 수행한다. 방법(100)은 다음의 단계들을 포함하지만 이에 한정되지는 않는다.

단계 110에서, 국재화 엔진(250)은 제1 샘플의 제1 세트의 암 신호들을 수신한다. 암 신호는 또한 "확률 점수" 또는 "암 점수"라고 지칭될 수 있다. 제1 세트의 암 신호들 중 각각의 암 신호는 제1 샘플이 일 세트의 질병 상태들 중 상이한 질병 상태와 연관된 확률을 나타낸다. 암 신호(의 확률) 각각은 0% 내지 100%, 0 내지 100, 0 내지 1의 스케일 상에 있을 수 있다. 제1 세트 내의 암 신호들은 100%, 100 또는 1로 총계될 수 있다.

암 신호들은 하나 이상의 분류기(240)에 의해 생성될 수 있다. 다양한 실시형태에서, 분류기(240)는 샘플들의 서열 판독(sequence read)들을 프로세싱함으로써 암 신호들을 생성한다. 서열 프로세서(210)는 샘플들의 서열 판독들을 생성할 수 있다. 일부 실시형태에서, 신호들은 암 이외의 질병 상태들과 연관된다. 예를 들어, 질병 상태들은 의학적 또는 생리학적 질환(physiological condition)들, 유전적 장애(disorder)들, 건강 관련 메트릭(metrics) 및 기타 유형의 질병들을 포함할 수 있다.

다양한 실시형태에서, 분류기(240)는 21개의 상이한 암 유형에 대한 암 신호들과 하나의 비-암(non-cancer) 신호를 포함하는 일 세트의 22개의 암 신호를 생성한다. 21개의 상이한 암 유형은 다음을 포함한다: 항문; 방광 및 요로상피관; 유방; 자궁 경부; 결장 및 직장; 머리와 목; 신장; 간 및 담관; 폐; 폐 또는 기타 기관의 신경내분비 세포; 림프계통; 멜라닌 세포 계통; 골수 계통; 난소; 췌장 및 담낭; 혈장 세포 계통; 전립선; 뼈 및 연조직; 갑상선; 위와 식도; 자궁. 다른 실시형태에서, 분류기는 다른 수의 암 신호들을 포함하는 세트, 또는 상기 목록과 다른 유형의 질병 상태를 포함하는 세트를 생성한다.

단계 120에서, 국재화 엔진(250)은 제1 세트의 암 신호들 중 가장 큰 확률을 갖는 제1 암 신호를 결정한다. 단계 130에서, 제1 암 신호가 기준을 만족한다고 결정하는 것에 응답하여, 국재화 엔진(240)은 제1 샘플을 제1 암 신호에 대응하는 적어도 하나의 질병 상태와 연관시킨다. 예를 들어, 국재화 엔진(250)은 제1 샘플이 질병 상태에 의해 표시된 기원 조직을 갖는 암과 연관되어 있다는 예측을 리포트할 수 있다. 일부 실시형태에서, 국재화 엔진(250)은 제1 암 신호에 대응하는 질병 상태만을 리포트한다; 즉, 국재화 엔진(250)은 제1 세트의 암 신호들 중 다른 암 신호에 대응하는 질병 상태의 예측을 리포트하지 않을 것이다. 기준이 만족될 때 하나의 질병 상태만을 리포트하는 것은 분석 시스템(200)에 의해 제공되는 출력의 복잡성을 감소시키는 데 도움이 될 수 있으며, 이는 의사의 업무를 지원할 수 있다.

다양한 실시형태에서, 기준은 양성 암 점수의 90% 확률 임계값이다. 즉, 국재화 엔진(250)은 분류기(240)가 90%의 암 신호 기원 조직 점수 매스(score mass)를 제1 암 신호(질병 상태에 대응함)에 할당하는지 여부를 결정한다. 일 세트의 암 신호들이 이전에 기술된 바와 같이 22개의 암 유형을 포함하는 일부 실시형태에서, 확률 임계값은 하나의 비-암 신호를 만족하지 않으며; 즉, 국재화 엔진(250)은 분류기(240)가 21개의 암 신호 중에서 90%의 암 신호 기원 조직 점수 매스를 제1 암 신호에 할당하는지 여부를 결정한다. 다른 실시형태에서, 확률 임계값은 암의 존재를 나타내는 암 신호뿐만 아니라 하나의 비-암 신호를 설명한다. 다른 실시형태에서, 기준은 미리 결정된 다른 확률 임계값, 예를 들어, 88%, 89%, 91%, 92% 등일 수 있다.

다양한 실시형태에서, 국재화 엔진(250)은 위양성(false positives) 및 암 신호 확률의 정확성에 기초하여 기준을 결정한다. 정확하게 검출된 참양성의 비율을 증가시키는 기준에 대한 확률 임계값을 선택하는 것은 또한 위양성, 즉, 실제로 암이 존재하지 않는 건강한 샘플에서 암의 존재를 잘못 예측하는 것의 수를 증가시킬 수 있다. 이러한 상충관계(trade-off)는 도 4에 예시된 플롯(400)에 예시된다. 더 낮은 확률 임계값에서, 참양성 검출을 위한 한계 이익률(marginal benefit)이 높다. 90%를 초과하는 더 큰 확률 임계값에서, 한계 이익률 참양성 검출은, 위양성의 증가된 비율 때문에, 감소된다. 일 실시형태에서, 국재화 엔진(250)은 참양성 대 위양성 검출의 플롯(400) 상에서 곡선의 변곡점을 결정함으로써 확률 임계값을 결정한다. 변곡점에 기초하여, 국재화 엔진(250)은, 확률 임계값을 사용하여 암 예측을 결정하는 것이 위양성 검출의 위험을 완화하면서 참양성 검출의 정확도를 향상시키기 때문에 확률 임계값, 예를 들어 90%가 최적이라고 결정한다. 확률 임계값은 참양성을 예측할 때 위양성의 위험을 고려하지 않는 기존 방법에 비해 더 우수한 것을 제공한다. 높은 비율의 위양성을 갖는 기존 방법은 전반적으로 더 낮은 예측 정확도로 귀결된다. 따라서, 확률 임계값은, 예를 들어, 수술이 필요할 수 있는 조직 생검 대신 혈액 샘플을 사용하는, 특히 비침습적 절차에서, 암 예측을 결정하는 유용한 응용분야에 대해 유리하다.

단계 140에서, 국재화 엔진(250)은 제2 샘플의 제2 세트의 암 신호들을 수신한다. 제1 샘플과 제2 샘플은 두 명의 상이한 환자 또는 동일한 환자로부터 유래된 것일 수 있다. 샘플들은 세포 유리(cell free) 핵산 샘플(예컨대, cfDNA), 고형 종양 샘플 및/또는 기타 유형의 생물학적 샘플 중 임의의 것을 포함할 수 있다. 제2 세트의 암 신호들 중 각각의 암 신호는 제2 샘플이 일 세트의 질병 상태들(예컨대, 제1 세트의 암 신호들에 대한 동일한 세트) 중 상이한 질병 상태와 연관된 확률을 나타낸다.

단계 150에서, 국재화 엔진(250)은 제2 세트의 암 신호들 중 가장 큰 확률을 갖는 제2 암 신호를 결정한다. 단계 160에서, 제2 암 신호가 기준을 만족하지 않는다고 결정하는 것에 응답하여, 국재화 엔진(250)은 제2 샘플을 제2 세트의 암 신호들의 서브세트에 대응하는 일 세트의 질병 상태들의 서브세트와 연관시킨다. 일부 실시형태에서, 제2 세트의 암 신호들의 서브세트는 제2 세트의 암 신호들 중에서 가장 큰 2개의 확률을 갖는 암 신호들을 포함할 수 있다. 다른 실시형태에서, 제2 세트의 암 신호들의 서브세트는 다양한 수의 암 신호, 예를 들어 3개, 4개, 5개 또는 6개 이상의 암 신호를 포함할 수 있다.

일부 실시형태에서, 국재화 엔진(250)은 제1 세트의 암 신호들 중에서 n개의 가장 큰 확률을 갖는 제1 세트의 암 신호들의 일 서브세트의 n개의 암 신호를 결정한다. 제1 세트의 암 신호들 중 적어도 임계 수의 서브세트가 일 카테고리의 질병 상태들과 연관되어 있다고 결정하는 것에 응답하여, 국재화 엔진(250)은 제1 샘플을 일 카테고리의 질병 상태들의 각각의 질병 상태와 연관시킨다. 예를 들어, 일 카테고리의 질병 상태들은 인간 유두종 바이러스(HPV) 암이다. 다른 실시예에서, 일 카테고리의 질병 상태들은 위암과 장암을 포함한다. 다른 실시형태에서, 일 카테고리의 질병 상태들은 하나 이상의 다른 유형의 암을 포함할 수 있다.

일부 실시형태에서, 국재화 엔진(250)은 현재 암이 샘플과 연관될 잔여 위험(개인이 암으로 진단될 위험)에 기초하여 기준을 결정할 수 있다. 예를 들어, 국재화 엔진(250)은 기원 조직 예측이 부정확하다고 가정하면, 암의 조건부 확률에 기초하여 추가 암 신호를 리포트하기로 결정하며, 여기서 v는 교정된 기원 조직 확률의 순위 지정된 정렬된 벡터이다.

국재화 엔진(250)은 제1 기원 조직에서 암이 검출되지 않은 암-양성 테스트 후에 개인이 암에 걸렸을 확률을 결정할 수 있으며; 암은 제2 또는 제3 기원 조직에서 검출될 수 있다.

국재화 엔진(250)은 다른 유형의 건강 관리 제공자들 중에서 의사, 내과의사 또는 임상의와 같은 사용자에게 질병 상태 결정(예컨대, 암 기원 조직 국재화)을 제시할 수 있다. 예를 들어, 국재화 엔진(250)은 클라이언트 디바이스 상에서의 제시를 위해 제1 샘플과 연관된 제1 암 신호에 대응하는 질병 상태를 사용자에게 제공한다. 국재화 엔진(250)은 제2 샘플과 연관된 일 세트의 질병 상태들의 서브세트에 대응하는 각각의 질병 상태의 그래픽적 비교를 제공할 수 있다. 다양한 실시형태에서, 그래픽적 비교는 제2 세트의 암 신호들의 확률들에 기초한 막대 그래프이다. 확률들의 시각적 표현을 제시함으로써, 사용자는 국재화 엔진(250)에 의해서 출력되는 정보를 직감적으로 해석할 수 있다. 예를 들어, 그래픽적 비교는 사용자가 검출된 암의 참양성 기원 조직일 가능성이 더 큰 기원 조직에 더 많은 가중치를 두는 것을 제안할 수 있다.

도 1b는 다양한 실시형태에 따른 암 신호 국재화를 위한 다른 방법(170)의 흐름도이다. 방법(170)은 다음의 단계들을 포함하지만 이에 한정되지는 않는다.

단계 172에서, 국재화 엔진(250)은 일 샘플의 일 세트의 암 신호들을 수신한다. 해당 세트의 암 신호들 중 각각의 암 신호는 해당 샘플이 일 세트의 질병 상태들 중 상이한 질병 상태와 연관된 확률을 나타낸다. 단계 174에서, 국재화 엔진(250)은 해당 세트의 암 신호들 중 가장 큰 확률을 갖는 제1 암 신호를 결정한다.

단계 176에서, 제1 암 신호가 기준(상술된 기준들 중 임의의 것과 같은)을 만족한다는 결정에 따라, 국재화 엔진(250)은 해당 샘플을 제1 암 신호에 대응하는 제1 질병 상태와 연관시킨다.

단계 178에서, 제1 암 신호가 해당 기준을 만족하지 않는다는 결정에 따라, 국재화 엔진(250)은 해당 세트의 암 신호들 중에서 두 번째로 큰 확률을 갖는 제2 암 신호를 결정하고; 단계 180에서, 국재화 엔진(250)은 해당 샘플을 제1 암 신호에 대응하는 질병 상태 및 제2 암 신호에 대응하는 제2 질병 상태와 연관시킨다. 다시 말해, 국재화 엔진(250)은 제2 세트의 암 신호들 중 2개의 가장 큰 확률을 갖는 암 신호와 해당 샘플을 연관시킨다.

도 5는 다양한 실시형태에 따른 조건부 확률에 기초한 암 신호 국재화를 위한 방법(500)의 흐름도이다. 미리 결정된 확률 임계값을 사용하는 대신, 국재화 엔진(250)은 이전 n-1개의 암 신호들이 부정확하다고 가정하면 n번째 암 신호가 정확할 조건부 확률에 기초하여 임계값을 결정할 수 있다. 이 경우, 국재화 엔진(250)은 P(n번째 암 신호 정확 | 이전 n-1개의 암 신호들 부정확)가 임계 확률 초과와 같이 기준을 만족하는 한 계속해서 암 신호들을 리턴할 수 있다. 방법(500)은 다음의 단계들을 포함하지만 이에 한정되지는 않는다.

단계 510에서, 국재화 엔진(250)은 일 샘플의 일 세트의 암 신호들을 수신한다. 암 신호들 중 각각은 해당 샘플이 일 세트의 질병 상태들 중 상이한 질병 상태와 연관된 확률을 나타낸다.

단계 520에서, 국재화 엔진(250)은 일 세트의 암 신호들 중 제1 암 신호가, 일 세트의 암 신호들 중 나머지 암 신호들이 부정확하다고 가정하면 참양성일 제1 조건부 확률을 결정한다. 단계 530에서, 제1 조건부 확률이 기준을 만족한다고 결정하는 것에 응답하여, 국재화 엔진(250)은 해당 샘플을 제1 암 신호에 대응하는 적어도 하나의 질병 상태와 연관시킨다.

단계 540에서, 국재화 엔진은 제1 암 신호를 제외한 복수의 암 신호의 일 서브세트를 결정한다. 단계 550에서, 국재화 엔진은 일 서브세트의 암 신호들 중 제2 암 신호가, 일 서브세트의 암 신호들 중 나머지 암 신호들이 부정확하다고 가정하면 참양성일 제2 조건부 확률을 결정한다. 단계 560에서, 제2 조건부 확률이 해당 기준을 만족한다고 결정하는 것에 응답하여, 국재화 엔진(250)은 해당 샘플을 제2 암 신호에 대응하는 적어도 하나의 질병 상태와 연관시킨다.

II.A. 어세이(assay) 프로토콜

도 3은 일 실시형태에 따른 핵산들을 시퀀싱하는 프로세스(300)를 설명하는 흐름도이다. 일부 실시형태에서, 프로세스(300)는 본원에 설명된 암 신호 국재화를 위한 방법들 중 어느 하나를 수행하기 위해 분석 시스템(200)에 의해서 사용되는 서열 판독을 생성하기 위해 수행된다.

단계 310에서, 핵산 샘플(예컨대, DNA 또는 RNA)이 피험자로부터 추출된다. 본 개시내용에서, DNA 및 RNA는 달리 명시되지 않는 한 상호교환적으로 사용될 수 있다. 즉, 본원에 설명된 실시형태는 DNA 및 RNA 유형의 핵산 서열 모두에 적용될 수 있다. 그러나, 본원에 설명된 실시예는 명확성 및 설명의 목적을 위해 DNA에 초점을 맞출 수 있다. 샘플은 전체 게놈을 포함하여, 임의의 서브세트의 인간 게놈으로부터 유래된 핵산 분자를 포함할 수 있다. 샘플은 혈액, 혈장, 혈청, 소변, 대변, 타액, 기타 유형의 체액 또는 이들의 조합을 포함할 수 있다. 일부 실시형태에서, 혈액 샘플을 채취하는 방법(예컨대, 주사기 또는 손가락 채혈(finger prick))은 수술을 필요로 할 수 있는 조직 생검을 얻기 위한 절차보다 덜 침습적일 수 있다. 추출된 샘플은 cfDNA 및/또는 ctDNA를 포함할 수 있다. 피험자가 암과 같은 질병 상태를 가지고 있는 경우, 피험자로부터 추출된 샘플 내의 세포 유리 핵산(예컨대, cfDNA)은 일반적으로 질병 상태를 평가하는 데 사용할 수 있는 검출 가능한 수준의 핵산을 포함한다.

단계 315에서, 추출된 핵산(예컨대, cfDNA 단편을 포함함)은 처리되어 비메틸화 사이토신을 우라실로 변환시킨다. 일부 실시형태에서, 방법(300)은, 메틸화된 사이토신을 변환시킴 없이 비메틸화된 사이토신을 우라실로 변환시키는 샘플의 술폰산 처리를 사용한다. 예를 들어, EZ DNA Methylation^TM - Gold, EZ DNA Methylation^TM - Direct 또는 EZ DNA Methylation^TM - Lightning 키트(Zymo Research Corp(미국 캘리포니아주 어바인 소재)로부터 입수 가능)와 같은 상용 키트는 술폰산 변환을 위해서 사용된다. 다른 실시형태에서, 비메틸화된 사이토신의 우라실로의 변환은 효소 반응을 사용하여 달성된다. 예를 들어, 변환은 비메틸화된 사이토신을 우라실로 변환하기 위해 상업적으로 입수 가능한 키트, 예를 들어 APOBEC-Seq(NEBiolabs, 매사추세츠주 입스위치 소재)를 사용할 수 있다.

단계 320에서, 시퀀싱 라이브러리가 준비된다. 일부 실시형태에서, 해당 준비는 적어도 두 개의 단계를 포함한다. 제1 단계에서, ssDNA 어댑터는 ssDNA 결찰 반응을 사용하여 술폰산-변환 ssDNA 분자의 3'-OH 말단에 추가된다. 일부 실시형태에서, ssDNA 결찰 반응은 CircLigase II(Epicentre)를 사용하여 ssDNA 어댑터를 술폰산-변환 ssDNA 분자의 3'-OH 말단에 결찰하며, 여기서 어댑터의 5'-말단이 인산화되고 술폰산-변환 ssDNA가 탈인산화되었다(즉, 3' 말단이 수산기를 가지고 있음). 다른 실시형태에서, ssDNA 결찰 반응은 Thermostable 5' AppDNA/RNA 리가제(New England BioLabs(매사추세츠주 입스위치 소재)로부터 입수 가능)를 사용하여 ssDNA 어댑터를 술폰산-변환 ssDNA 분자의 3'-OH 말단에 결찰시킨다. 이러한 실시예에서, 제1 UMI 어댑터는 5'-말단에서 아데닐화되고, 3'-말단에서 차단된다. 다른 실시형태에서, ssDNA 결찰 반응은 T4 RNA 리가제(New England BioLabs로부터 입수 가능)를 사용하여 ssDNA 어댑터를 술폰산-변환 ssDNA 분자의 3'-OH 말단에 결찰시킨다.

제2 단계에서, 제2 가닥 DNA는 확장 반응(extension reaction)으로 합성된다. 예를 들어, ssDNA 어댑터에 포함된 프라이머 서열에 보합(hybridize)하는 확장 프라이머(extension primer)는 이중-가닥 술폰산-변환 DNA 분자를 형성하기 위해 프라이머 확장 반응에 사용된다. 선택적으로 일부 실시형태에서, 확장 반응은 술폰산-변환 주형 가닥의 우라실 잔기를 통해 판독할 수 있는 효소를 사용한다.

선택적으로, 제3 단계에서, dsDNA 어댑터는 이중-가닥 술폰산-변환 DNA 분자에 추가된다. 그런 다음, 이중-가닥 술폰산-변환 DNA는 증폭되어 시퀀싱 어댑터를 추가할 수 있다. 예를 들어, P5 서열을 포함하는 순방향 프라이머 및 P7 서열을 포함하는 역방향 프라이머를 사용하는 PCR 증폭은 술폰산-변환 DNA에 P5 서열 및 P7 서열을 추가하기 위해서 사용된다. 선택적으로, 라이브러리 준비 동안에, 고유 분자 식별자(UMI: unique molecular identifier)들은 어댑터 결찰을 통해 핵산 분자들(예컨대, DNA 분자)에 추가될 수 있다. UMI는 어댑터 결찰 동안에 DNA 단편들의 말단들에 추가되는 짧은 핵산 서열(예컨대, 4-10개의 염기쌍)이다. 일부 실시형태에서, UMI는 특정 DNA 단편으로부터 유래하는 서열 판독을 식별하는 데 사용될 수 있는 고유 태그 역할을 하는 축퇴 염기쌍이다. 어댑터 결찰 후 PCR 증폭 동안에, UMI는 부착된 DNA 단편과 함께 복제되며, 이는 다운스트림 분석에서 동일한 원본 단편으로부터 유래된 서열 판독을 식별하는 방법을 제공한다.

선택적인 단계 325에서, 핵산(예컨대, 단편)들이 보합될 수 있다. 보합 프로브(본원에서 "프로브"라고도 함)는 질병 상태들에 대한 정보를 제공하는 핵산 단편들을 표적화하고 끌어낼 수 있다. 특정한 작업 흐름에 대해, 프로브는 DNA 또는 RNA의 표적(상보적) 가닥에 어닐링(또는 보합)하도록 설계될 수 있다. 표적 가닥은 "양성" 가닥(예컨대, mRNA로 전사되고 이어서 단백질로 번역되는 가닥) 또는 상보적인 "음성" 가닥일 수 있다. 프로브는 길이가 10s, 100s 또는 1000s의 염기쌍일 수 있다. 또한, 프로브는 일 표적 영역의 중첩 부분들을 커버할 수 있다.

선택적인 단계 330에서, 보합된 핵산 단편들은 포획되어 농축, 예를 들어 PCR을 사용하여 증폭될 수 있다. 일부 실시형태에서, 표적화된 DNA 서열은 라이브러리로부터 농축될 수 있다. 이것은, 예를 들어, 표적화 패널 어세이가 샘플들에 대해 수행되는 경우에 사용된다. 예를 들어, 표적 서열은 농축되어 후속적으로 시퀀싱될 수 있는 농축된 서열을 얻을 수 있다. 일반적으로, 프로브 보합된 표적 핵산을 단리하고 농축하는 데에는 당업계에 공지된 임의의 방법이 사용될 수 있다. 예를 들어, 당업계에 널리 공지된 바와 같이, 스트렙타비딘 코팅된 표면(예컨대, 스트렙타비딘-코팅된 비드)을 사용하여 프로브에 보합된 표적 핵산의 단리를 용이하게 하기 위해 비오틴 모이어티가 프로브의 5'-말단에 첨가(즉, 비오티닐화)될 수 있다.

단계 335에서, 서열 판독은 핵산 샘플, 예를 들어, 농축된 서열로부터 생성된다. 시퀀싱 데이터는 당업계에 공지된 수단에 의해 농축된 DNA 서열로부터 획득될 수 있다. 예를 들어, 방법은, 합성 기술(Illumina), 파이로시퀀싱(454 Life Sciences), 이온 반도체 기술(Ion Torrent 시퀀싱), 단일 분자 실시간 시퀀싱(Pacific Biosciences), 결찰에 의한 시퀀싱(SOLiD 시퀀싱), 나노포어 시퀀싱(Oxford Nanopore Technologies) 또는 페어드-엔드(paired-end) 시퀀싱을 포함하는 차세대 염기시퀀싱(NGS: next generation sequencing) 기술을 포함할 수 있다. 일부 실시형태에서, 가역적 염료 종결자(reversible dye terminator)를 이용한 합성을 통한 시퀀싱(sequencing-by-synthesis)을 사용하여 대규모 병렬 시퀀싱이 수행된다.

II.B. 예시적인 시퀀서 및 분석 시스템

도 2a는 다양한 실시형태에 따른 핵산 샘플을 시퀀싱하기 위한 시스템을 예시한다. 이러한 예시적인 다이어그램은 시퀀서(270) 및 분석 시스템(200)과 같은 디바이스들을 포함한다. 시퀀서(270) 및 분석 시스템(200)은 본원에 설명된 프로세스들에서 하나 이상의 단계를 수행하기 위해 협력하여 작동할 수 있다.

다양한 실시형태에서, 시퀀서(270)는 농축된 핵산 샘플(260)을 수용한다. 도 2a에 도시된 바와 같이, 시퀀서(270)는 특정 작업들(예컨대, 시퀀싱 시작 또는 시퀀싱 종료)과의 사용자 상호작용을 가능하게 하는 그래픽 사용자 인터페이스(275)뿐만 아니라 농축된 단편 샘플들을 포함하는 시퀀싱 카트리지를 로딩하기 위한 그리고/또는 시퀀싱 어세이를 수행하기 위해 필요한 버퍼를 로딩하기 위한 하나 이상의 로딩 스테이션(280)을 포함할 수 있다. 따라서, 일단 시퀀서(270)의 사용자가 시퀀서(270)의 로딩 스테이션(280)에 필요한 시약 및 시퀀싱 카트리지를 제공하면, 사용자는 시퀀서(270)의 그래픽 사용자 인터페이스(275)와 상호작용함으로써 시퀀싱을 개시할 수 있다. 일단 개시되면, 시퀀서(270)는 시퀀싱을 수행하고, 핵산 샘플(260)로부터 농축된 단편들의 서열 판독을 출력한다.

일부 실시형태에서, 시퀀서(270)는 분석 시스템(200)과 통신 가능하게 결합된다. 분석 시스템(200)은 하나 이상의 CpG 부위에서의 메틸화 상태 평가, 변이체 호출 또는 품질 관리와 같은 다양한 애플리케이션에 대한 서열 판독을 프로세싱하기 위해 사용되는 컴퓨팅 디바이스들 중 일부를 포함한다. 시퀀서(270)는 분석 시스템(200)에 BAM 파일 형식의 서열 판독을 제공할 수 있다. 분석 시스템(200)은 무선 통신 기술, 유선 통신 기술, 또는 무선과 유선 통신 기술의 조합을 통해 시퀀서(270)에 통신 가능하게 결합될 수 있다. 일반적으로, 분석 시스템(200)은 프로세서 및 프로세서에 의해 실행될 때 프로세서가 서열 판독을 프로세싱하게 하거나 본원에 개시된 방법들 또는 프로세스들 중 어느 하나의 하나 이상의 단계를 수행하게 하는 컴퓨터 명령어를 저장하는 비일시적 컴퓨터 판독 가능 저장 매체로 구성된다.

일부 실시형태에서, 서열 판독은 정렬 위치 정보를 결정하기 위해 당업계에 공지된 방법을 사용하여 참조 게놈에 정렬될 수 있다. 정렬 위치는 일반적으로 특정한 서열 판독을 시작 뉴클레오티드 염기 및 끝 뉴클레오티드 염기에 해당하는 참조 게놈 내 영역의 시작 위치와 끝 위치를 설명할 수 있다. 메틸화 시퀀싱에 대응하여, 정렬 위치 정보는 참조 게놈에 대한 정렬에 따라 서열 판독에 포함된 첫 번째 CpG 부위 및 마지막 CpG 부위를 나타내도록 일반화될 수 있다. 정렬 위치 정보는 특정한 서열 판독에서 모든 CpG 부위의 위치 및 메틸화 상태를 추가로 나타낼 수 있다. 참조 게놈에서 일 영역은 유전자 또는 유전자의 세그먼트와 연관될 수 있으며, 따라서, 분석 시스템(200)은 서열 판독에 정렬되는 하나 이상의 유전자로 서열 판독을 라벨링할 수 있다. 일 실시형태에서, 단편 길이(또는 사이즈)는 시작 위치와 끝 위치로부터 결정된다.

다양한 실시형태에서, 예를 들어, 페어드-엔드 시퀀싱 프로세스가 사용되는 경우, 서열 판독은 R_1 및 R_2로 표시된 판독 쌍으로 구성된다. 예를 들어, 제1 판독 R_1은 이중-가닥 DNA(dsDNA) 분자의 제1 말단으로부터 시퀀싱될 수 있는 반면, 제2 판독 R_2는 이중-가닥 DNA(dsDNA) 분자의 제2 말단으로부터 시퀀싱될 수 있다. 따라서, 제1 판독 R_1 및 제2 판독 R_2의 뉴클레오티드 염기쌍들은 참조 게놈의 뉴클레오티드 염기들과 일관되게(예컨대, 반대 배향으로) 정렬될 수 있다. 판독 쌍 R_1 및 R_2로부터 도출된 정렬 위치 정보는 제1 판독의 일 단부(예컨대, R_1)에 대응하는 참조 게놈의 시작 위치 및 제2 판독의 일 단부(예컨대, R_2)에 대응하는 참조 게놈의 종료 위치를 포함할 수 있다. 다시 말해, 참조 게놈의 시작 위치와 종료 위치는 핵산 단편이 대응하는 참조 게놈 내의 가능한 위치를 나타냅니다. 일 실시형태에서, 판독 쌍 R_1 및 R_2는 단편 안으로 조립될 수 있고, 이 단편은 후속 분석 및/또는 분류를 위해서 사용될 수 있다. SAM(서열 정렬 맵) 형식 또는 BAM(이진) 형식을 갖는 출력 파일이 생성되어 추가 분석을 위해 출력될 수 있다.

이제 도 2b를 참조하면, 분석 시스템(200)은 DNA 샘플, 서열 판독, 또는 기타 정보를 분석하는 데 사용하기 위한 하나 이상의 컴퓨팅 디바이스 및/또는 하나 이상의 프로세서를 구현한다.

일부 실시형태에서, 서열 프로세서(210)는 샘플로부터 단편들에 대한 메틸화 상태 벡터들을 생성한다. 단편 상의 각각의 CpG 부위에서, 서열 프로세서(210)는, 메틸화, 비메틸화 또는 불확정 여부에 관계없이, 참조 게놈 내의 단편의 위치, 단편 내의 CpG 부위들의 수, 및 단편 내의 각각의 CpG 부위의 메틸화 상태를 특정하는 각각의 단편에 대한 메틸화 상태 벡터를 생성한다. 서열 프로세서(210)는 서열 데이터베이스(215) 내에 단편들에 대한 메틸화 상태 벡터들을 저장할 수 있다. 서열 데이터베이스(215) 내의 데이터는 샘플로부터의 메틸화 상태 벡터들이 서로 연관되도록 조직화될 수 있다.

또한, 다수의 다양한 모델들(230)은 모델 데이터베이스(225)에 저장되거나 테스트 샘플들과의 사용을 위해 검색될 수 있다. 일 실시예에서, 모델은 변칙적인 단편들로부터 파생된 특징 벡터를 사용하여 테스트 샘플에 대한 암 예측을 결정하기 위한 훈련된 암 분류기(240)이다. 암 분류기의 훈련 및 사용은 본원의 다른 곳에서 논의된다. 분석 시스템(200)은 하나 이상의 모델(230) 및/또는 하나 이상의 분류기(240)를 훈련시키고, 다양한 훈련된 매개변수들을 매개변수 데이터베이스(235)에 저장할 수 있다. 분석 시스템(200)은 기능들과 함께 모델들(230) 및/또는 분류기들(240)을 모델 데이터베이스(225)에 저장한다.

추론 동안, 기계 학습 엔진(220)은 출력을 리턴하기 위해 하나 이상의 모델(230) 및/또는 분류기(240)를 사용한다. 기계 학습 엔진은 매개변수 데이터베이스(235)로부터의 훈련된 매개변수와 함께 모델 데이터베이스(225) 내의 모델들(230) 및/또는 분류기들(240)에 액세스한다. 각각의 모델에 따라, 기계 학습 엔진(220)은 모델에 대한 적절한 입력을 수신하고, 수신된 입력, 매개변수들, 입력과 출력을 관련시키는 각각의 모델의 함수를 기반으로 출력을 계산한다. 일부 사용 사례에서, 기계 학습 엔진(220)은 모델로부터 계산된 출력의 신뢰도와 상관된 메트릭을 추가로 계산한다. 다른 사용 사례에서, 기계 학습 엔진(220)은 모델에서의 사용을 위한 다른 매개 값(intermediary value)을 계산한다.

III. 모델 기반 특성 공학 및 분류

III.A. 모델 기반 특성 공학

일 실시형태에 따르면, 본 개시내용은 질병 상태의 분류를 위해 유용한 특징을 도출하기 위한 모델 기반 특성 공학에 관한 것이다. 본원의 다른 곳에 설명된 바와 같이, 질병 상태는 질병의 존재 또는 부재, 질병의 유형, 및/또는 질병 기원 조직일 수 있다. 예를 들어, 본원에 설명된 바와 같이, 질병 상태는 암의 존재 또는 부재, 암의 유형, 및/또는 암의 기원 조직일 수 있다. 암의 유형 및/또는 암의 기원 조직은 다른 종류의 암 중에서 다음을 포함하는 그룹으로부터 선택될 수 있다: 유방암, 자궁암, 자궁경부암, 난소암, 방광암, 신우의 요로상피암, 요로상피 이외의 신장암, 전립선암, 항문직장암, 대장암, 식도암, 위암, 간세포로부터 발생된 간담도암, 간세포 이외의 세포로부터 발생된 간담도암, 췌장암, 상부 위장관의 편평상피 세포암, 편평상피 이외의 상부 위장관암, 두경부암, 폐암, 예컨대, 폐 선암종, 소세포 폐암, 편평상피 세포 폐암 및 선암종 또는 소세포 폐암 이외의 암, 신경내분비암, 흑색종, 갑상선암, 육종, 다발성 골수종, 림프종, 및 백혈병.

프로세스에서, 본원의 다른 곳에서 설명된 바와 같이, 제1 질병 상태를 갖는 제1 참조 샘플로부터 제1 복수의 서열 판독이 생성되고, 제2 질병 상태를 갖는 제2 참조 샘플로부터 제2 복수의 서열 판독이 생성된다. 제1 복수의 서열 판독 및/또는 제2 복수의 서열 판독은 10,000개 초과, 50,000개 초과, 100,000개 초과, 200,000개 초과, 500,000개 초과, 1,000,000개 초과, 2,000,000개 초과, 5,000,000개 초과, 또는 10,000,000개 초과의 서열 판독일 수 있다. 본원에 사용된 바와 같이, "참조 샘플"은 알려진 질병 상태를 갖는 피험자로부터 얻은 샘플이다. 일부 실시형태에서, 하나 이상의 알려진 질병 상태를 갖는 하나 이상의 참조 샘플은 하나 이상의 확률 모델을 훈련하는 데 사용될 수 있으며, 이는 다음으로 미지의 테스트 샘플의 질병 상태를 분류하기 위한 특징을 도출하는 데 사용될 수 있다. 샘플은 게놈 DNA(gDNA) 샘플 또는 세포 유리 DNA(cfDNA) 샘플일 수 있다. 참조 샘플은 혈액 샘플, 혈장 샘플, 혈청 샘플, 소변 샘플, 대변 샘플 및 타액 샘플일 수 있다. 대안적으로, 참조 샘플은 전혈, 혈액 분획(blood fraction), 조직 생검, 흉수, 심낭액, 뇌척수액 및 복막액일 수 있다. 일부 실시형태에서, 제1 참조 샘플은 암에 걸린 것으로 알려진 피험자로부터 획득되고, 제2 참조 샘플은 건강한 피험자 또는 비-암 피험자로부터 획득된다. 일부 실시형태에서, 제1 참조 샘플은 제1 유형의 암(예컨대, 폐암)을 갖는 것으로 알려진 피험자로부터 획득되고, 제2 참조 샘플은 제2 유형의 암(예컨대, 유방암)을 갖는 것으로 알려진 피험자로부터 획득된다. 또 다른 실시형태에서, 제1 참조 샘플은 제1 질병 기원 조직(예컨대, 폐 질환)을 갖는 것으로 알려진 피험자로부터 획득되고, 제2 참조 샘플은 제2 질병 상태 기원 조직(예컨대, 간 질환)으로부터 획득된다.

계속해서 프로세스를 진행하면서, 기계 학습 엔진(220)은 제1 복수의 서열 판독과 제2 복수의 서열 판독으로부터 각각 제1 확률 모델(230)과 제2 확률 모델(230)을 훈련시키며, 각각의 확률 모델은 하나 이상의 가능한 질병 상태들 중 상이한 질병 상태와 연관된다. 이전에 설명된 바와 같이, 질병 상태는 암의 존재 또는 부재, 암의 유형, 및/또는 암의 기원 조직일 수 있다. 다양한 실시형태에서, 훈련 데이터는 K-배수(K-fold) 교차 검증을 위해 K개의 서브세트(폴드)로 분할된다. 폴드는, 다른 인자들 중에서, 암/비-암 상태, 기원 조직, 암 단계, 연령(예컨대, 10년 버킷으로 그룹화), 성별, 민족, 및 흡연 상태에 대해 균형을 이룰 수 있다. K-1개의 폴드로부터의 데이터는 확률 모델들을 위한 훈련 데이터로서 사용될 수 있고, 헬드-아웃(held-out) 폴드는 테스트 데이터로서 사용될 수 있다.

기계 학습 엔진(220)은 확률 모델들(230) 각각을 제1 복수 및 제2 복수 서열 판독에 각각 피팅함으로써 제1 및 제2 질병 상태 각각에 대해 제1 및 제2 확률 모델(230)을 훈련시킨다. 예를 들어, 일 실시형태에서, 제1 확률 모델은 암에 걸린 것으로 알려진 피험자들로부터의 하나 이상의 샘플로부터 유래된 제1 복수의 서열 판독을 사용하여 피팅되고, 제2 확률 모델은 건강한 피험자들 또는 비-암 피험자들로부터의 하나 이상의 샘플로부터 유래된 제2 복수의 서열 판독을 사용하여 피팅된다. 다른 실시형태에서, 제1 확률 모델은 제1 유형의 암 또는 제1 기원 조직에 대해 훈련될 수 있고, 제2 확률 모델은 제2 유형의 암 또는 제2 기원 조직에 대해 훈련될 수 있다. 당업자가 이해하는 바와 같이, 임의의 수의 질병 상태 확률 모델은 다수의 가능한 질병 상태 중 임의의 하나를 갖는 피험자들로부터 채취한 하나 이상의 샘플로부터 유래된 서열 판독을 활용하여 훈련될 수 있다. 예를 들어, 일부 실시형태에서, 추가적인 암 특이적 확률 모델들(즉, 추가 유형의 암 및/또는 기원 조직 모델들의 경우)은, 본 명세서의 다른 곳에 기술된 바와 같이, 제3, 제4, 제5, 제6, 제7, 제8, 제9, 제10 등(예컨대, 최대 20개, 또는 30개 이상)의 특정 유형의 암에 대해 훈련될 수 있고, 일 훈련 세트 또는 미지의 암 유형으로부터의 서열 판독이 또 다른 암 유형(또는 암 기원 조직)보다 일 암 유형(또는 암 기원 조직)으로부터 유래될 가능성이 더 높을 확률을 결정하기 위해서 사용될 수 있다.

본원에서 사용되는 바와 같이, "확률 모델"은 서열 판독 상의 하나 이상의 부위에서의 메틸화 상태에 기초하여 서열 판독에 확률을 할당할 수 있는 임의의 수학적 모델이다. 훈련 동안에, 기계 학습 엔진(220)은 알려진 질병을 갖는 피험자들로부터의 하나 이상의 샘플로부터 유래된 서열 판독들을 피팅하고, 메틸화 정보 또는 메틸화 상태 벡터들을 활용하여 질병 상태를 나타내는 서열 판독 확률들을 결정하는 데 사용될 수 있다. 특히, 일 실시형태에서, 기계 학습 엔진(220)은 서열 판독 내의 각각의 CpG 부위에 대한 관찰된 메틸화의 비율을 결정한다. 메틸화의 비율은 CpG 부위 내에서 메틸화된 염기쌍의 비율 또는 백분율을 나타낸다. 훈련된 확률 모델(230)은 메틸화의 비율들의 곱에 의해 매개변수화될 수 있다. 일반적으로, 샘플로부터의 서열 판독들에 확률들을 할당하기 위한 임의의 알려진 확률 모델이 사용될 수 있다. 예를 들어, 확률 모델은, 핵산 단편 상의 모든 부위(예컨대, CpG 부위)에 메틸화 확률이 할당되는 이항 모델, 또는 일 부위에서의 메틸화가 핵산 단편 상의 하나 이상의 다른 부위의 메틸화에 대해 독립적인 것으로 가정되는 별개의 메틸화 확률에 의해 각각의 CpG의 메틸화가 지정되는 독립 부위 모델일 수 있다.

III.B. 질병 상태 기원 조직 분류

다양한 실시형태에 따르면, 기계 학습 엔진(220)은 확률 모델들(230)을 훈련시키며, 각각의 확률 모델은 일 세트의 다수의 질병 상태 중 다른 질병 상태와 연관된다. 이전에 설명된 바와 같이, 다양한 실시형태에서, 질병 상태는 암의 존재 또는 부재, 암의 유형, 및/또는 암의 기원 조직일 수 있다. 추가적으로, 질병 상태는 다른 유형의 질병(반드시 암과 연관될 필요는 없음) 또는 건강한 상태(암 또는 질병이 없음)와 연관될 수 있다.

기계 학습 엔진(220)은 하나 이상의 세트의 서열 판독들을 사용하여 확률 모델들(230)을 훈련시키며, 여기서 하나 이상의 세트의 서열 판독들 중 각각은 일 세트의 다수의 질병 상태들 중 상이한 질병 상태로부터 생성된다. 질병 상태는 다음을 포함하는 그룹으로부터 선택된 임의의 수의 유형의 암 또는 암 기원 조직을 포함할 수 있다: 유방암, 자궁암, 자궁경부암, 난소암, 방광암, 신우의 요로상피암, 요로상피 이외의 신장암, 전립선암, 항문직장암, 대장암, 식도암, 위암, 간세포로부터 발생된 간담도암, 간세포 이외의 세포로부터 발생된 간담도암, 췌장암, 상부 위장관의 편평상피 세포암, 편평상피 이외의 상부 위장관암, 두경부암, 폐암, 예컨대, 폐 선암종, 소세포 폐암, 편평상피 세포 폐암 및 선암종 또는 소세포 폐암 이외의 암, 신경내분비암, 흑색종, 갑상선암, 육종, 다발성 골수종, 림프종, 및 백혈병.

기계 학습 엔진(220)은 질병 상태들 중 각각에 대응하는 각각의 샘플로부터 유래하는 서열 판독들에 확률 모델(230)을 피팅함으로써 복수의 질병 상태 각각에 대해 확률 모델(230)을 훈련시킨다. 예를 들어, 일부 실시형태에서, 확률 모델들은 특정 유형들의 암에 대해 훈련될 수 있다. 이 실시형태에 따르면, 암-특이적 확률 모델들은 제1, 제2, 제3 등 특정 유형의 암에 대해 훈련될 수 있고, (예컨대, 미지의 테스트 샘플의) 암 유형을 평가하는 데 사용될 수 있다. 예를 들어, 폐암 특이적 확률 모델은 폐암과 연관된 하나 이상의 샘플로부터 유래하는 일 세트의 서열 판독들을 사용하여 피팅된다. 다른 예로서, 유방암 특이적 확률 모델은 유방암과 연관된 하나 이상의 샘플로부터 유래하는 일 세트의 서열 판독들을 사용하여 피팅된다. 일부 실시형태에서, 조직 특이적 확률 모델들은 제1, 제2, 제3 등의 조직 유형에 대해 훈련될 수 있고, 질병 상태 기원 조직을 평가하는 데 사용될 수 있다. 예를 들어, 제1 기원 조직 확률 모델은 제1 조직 유형으로부터(예컨대, 폐 생체검사와 같은 폐 조직 샘플로부터) 유래된 일 세트의 서열 판독들을 사용하여 피팅될 수 있고, 제2 기원 조직 확률 모델은 제2 조직 유형으로부터(예컨대, 간 생체검사와 같은 간 조직 샘플로부터) 유래된 일 세트의 서열 판독들을 사용하여 피팅될 수 있다. 대안적으로, 일부 실시형태에서, 암 확률 모델은 암에 걸린 것으로 알려진 피험자들로부터의 하나 이상의 샘플로부터 유래된 일 세트의 서열 판독들을 사용하여 피팅되고, 비-암 특이적 확률 모델은 건강한 피험자들 또는 비-암 피험자들로부터의 하나 이상의 샘플로부터 유래된 일 세트의 서열 판독들을 사용하여 피팅된다. 당업자가 이해하는 바와 같이, 임의의 수의 질병 상태 확률 모델은 다수의 가능한 질병 상태 중 임의의 하나를 갖는 피험자들로부터 채취한 하나 이상의 샘플로부터 유래된 서열 판독을 활용하여 훈련될 수 있다. 예를 들어, 일부 실시형태에서, 복수의 서열 판독은 상이한 질병 상태(예컨대, 다양한 유형의 암)를 갖는 하나 이상의 피험자들로부터 각각 획득된 3, 4, 5, 6, 7, 8, 9, 또는 10개 이상의 참조 샘플로부터 생성될 수 있고, 3, 4, 5, 6, 7, 8, 9, 또는 10개 이상의 확률 모델을 훈련시키기 위해서 사용된다.

훈련 동안, 기계 학습 엔진(220)은 메틸화 정보 또는 메틸화 상태 벡터들을 활용하여 질병 상태를 나타내는 서열 판독들에 대해 훈련될 수 있다. 특히, 기계 학습 엔진(220)은 서열 판독 내의 각각의 CpG 부위에 대한 관찰된 메틸화의 비율을 결정한다. 메틸화의 비율은 CpG 부위 내에서 메틸화된 염기쌍의 비율 또는 백분율을 나타낸다. 훈련된 확률 모델(230)은 메틸화의 비율들의 곱에 의해 매개변수화될 수 있다. 이전에 설명된 바와 같이, 샘플로부터의 서열 판독들에 확률들을 할당하기 위한 임의의 알려진 확률 모델이 사용될 수 있다. 예를 들어, 확률 모델은, 핵산 단편 상의 모든 부위(예컨대, CpG 부위)에 메틸화 확률이 할당되는 이항 모델, 또는 일 부위에서의 메틸화가 핵산 단편 상의 하나 이상의 다른 부위의 메틸화에 대해 독립적인 것으로 가정되는 별개의 메틸화 확률에 의해 각각의 CpG의 메틸화가 지정되는 독립 부위 모델일 수 있다.

일부 실시형태에서, 각각의 CpG 부위에서의 메틸화의 확률이 서열 판독 또는 서열 판독이 유래된 핵산 분자의 일부 선행 CpG 부위들에서의 메틸화 상태에 의존하는 마르코프(Markov) 모델이다. 예를 들어, 발명의 명칭이 "Anomalous Fragment Detection and Classification"이고, 2019년 3월 13일자로 출원된 미국 특허 출원 제16/352,602호를 참조한다.

일부 실시형태에서, 확률 모델(230)은 근원적인 모델들로부터의 구성요소들의 혼합을 사용하여 피팅된 "혼합 모델"이다. 예를 들어, 일부 실시형태에서, 혼합 구성요소들은 다수의 독립 부위 모델들을 사용하여 결정될 수 있으며, 여기서 각각의 CpG 부위에서의 메틸화(예컨대, 메틸화의 비율)는 다른 CpG 부위들에서의 메틸화에 대해 독립적인 것으로 가정된다. 독립적인 부위 모델을 활용하는, 서열 판독 또는 이로부터 유래하는 핵산 분자에 할당된 확률은 서열 판독이 메틸화된 각각의 CpG 부위에서의 메틸화 확률과 '1 마이너스 서열 판독이 비메틸화되는 각각의 CpG 부위에서의 메틸화 확률'의 곱이다. 본 실시형태에 따르면, 기계 학습 엔진(220)은 혼합 구성요소들 중 각각의 메틸화의 비율을 결정한다. 혼합물 모델은, 각각이 메틸화의 비율들의 곱과 연관된 혼합 구성요소들의 합에 의해서 매개변수화된다. n개의 혼합 구성요소들의 확률 모델 Pr은 다음과 같이 표현될 수 있다:

입력 단편의 경우, 은 참조 게놈의 위치 i에서 관찰된 단편의 메틸화 상태를 나타내며, 0은 비메틸화를 나타내고 1은 메틸화를 나타낸다. 각각의 혼합 구성요소 k에 대한 부분 할당(fractional assignment)은 이며, 여기서 이고 이다. 혼합 구성요소 k의 CpG 부위 내의 i 위치에서 메틸화의 확률은 이다. 따라서, 비메틸화의 확률은 이다. 혼합 구성요소들의 수 n은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 등이 될 수 있다.

일부 실시형태에서, 기계 학습 엔진(220)은 정규화 강도 r로 각각의 메틸화에 확률에 적용되는 정규화 패널티에 따라, 질병 상태로부터 유래하는 모든 단편들의 로그-우도(log-likelihood)를 최대화하는 일 세트의 매개변수 를 식별하기 위해 최대-우도(maximum-likelihood) 추정을 사용하여 확률 모델(230)을 피팅한다. N개의 총 단편에 대한 최대화된 수량은 다음과 같이 표현될 수 있다:

분석 시스템(200)은 확률 모델(230)을 적용하여 제2 세트의 서열 판독들의 각각의 서열 판독에 대한 값들을 계산한다. 값들은 적어도 확률 모델(230)의 질병 상태와 연관된 샘플로부터 기원된 서열 판독(및 대응하는 단편)의 확률에 기초하여 계산된다. 분석 시스템(200)은 상이한 확률 모델들(230) 각각에 대해 이러한 단계를 반복할 수 있다. 일부 실시형태에서, 분석 시스템(200)은 특정 질병 상태들과 연관된 피팅된 확률 모델들과 함께 로그 우도비(log-likelihood ratio) R을 사용하여 값을 계산한다. 구체적으로, 로그 우도비는 질병 상태와 연관된 샘플들 및 건강한 샘플들에 대한 단편 상의 메틸화 패턴을 관찰할 확률 Pr을 사용하여 계산될 수 있다.

다른 실시형태에서, 분석 시스템(200)은 다른 유형의 비율 또는 방정식을 사용하여 값을 계산할 수 있다. 기계 학습 엔진(220)은 다양한 질병 상태에 대해 고려된 로그 우도비 중 적어도 하나가 임계값을 초과하는지 여부에 기초하여 질병 상태(예컨대, 암)를 나타내는 단편을 결정할 수 있다.

III.C. 분류

다양한 실시형태에서, 분석 시스템(200)은 특징들을 사용하여 분류기(240)를 생성한다. 분류기(240)는 테스트 피험자의 테스트 샘플로부터의 입력 서열 판독에 대해 질병 상태와 연관된 기원 조직을 예측하도록 훈련된다. 분석 시스템(200)은, 예를 들어, 상호 정보 계산들 또는 다른 계산된 척도에 기초하여 분류기를 훈련하기 위해 질병 상태들의 각각의 쌍에 대해 미리 결정된 수(예컨대, 1024)의 상위 순위 특징을 선택할 수 있다. 미리 결정된 수는 교차 검증에서의 성능에 기초하여 선택된 하이퍼매개변수로서 취급될 수 있다. 분석 시스템(200)은 또한 한 쌍의 질병 상태를 구별하는 데 더 유익한 것으로 결정된 참조 게놈의 영역으로부터 특징들을 선택할 수 있다. 다양한 실시형태에서, 분석 시스템(200)은 각각의 영역에 대해 그리고 각각의 암 유형 쌍(음성 유형인 비-암을 포함함)에 대해 최선의 성능 티어(tier)를 유지한다.

일부 실시형태에서, 분석 시스템(200)은 특징 벡터를 갖는 훈련 샘플들의 세트들을 분류기(240) 안으로 입력함으로써 그리고 분류기(240)의 기능이 훈련 특징 벡터들을 그들의 대응 라벨과 정확하게 연관시키도록 분류 매개변수를 조정함으로써 분류기(240)를 훈련시킨다. 분석 시스템(200)은 분류기(240)의 반복적인 배치 훈련을 위해 훈련 샘플들을 하나 이상의 훈련 샘플들의 세트들로 그룹화할 수 있다. 훈련 특징 벡터들을 포함하는 훈련 샘플들의 모든 세트들을 입력하고 분류 매개변수를 조정한 후, 분류기(240)는 약간의 오차 한계 내에서 테스트 샘플들의 특징 벡터에 따라 테스트 샘플들을 라벨링하도록 충분히 훈련될 수 있다. 분석 시스템(200)은 다수의 방법들, 예를 들어, L1-정규화된 로지스틱 회귀 또는 L2-정규화된 로지스틱 회귀(예컨대, 로그 손실 함수 사용), 일반화 선형 모델(GLM: generalized linear model), 랜덤 포레스트, 다항 로지스틱 회귀, 다층 퍼셉트론(multilayer perceptron), 지원 벡터 머신, 신경망, 또는 임의의 기타 적합한 기계 학습 기술 중 어느 하나에 따라 분류기(240)를 훈련시킬 수 있다.

다양한 실시형태에서, 분석 시스템(200)은 폴드에 대한 훈련 데이터에 대해 다항 로지스틱 회귀 분류기를 훈련시키고, 헬드-아웃 데이터에 대한 예측을 생성한다. K개의 폴드들 각각에 대해, 분석 시스템(200)은 하이퍼매개변수들의 각각의 조합에 대해 하나의 로지스틱 회귀를 훈련시킨다. 예시적인 하이퍼매개변수는 L2 페널티, 즉 로지스틱 회귀의 가중치들에 적용되는 정규화의 형식이다. 또 다른 예시적인 하이퍼매개변수는 topK, 즉 각각의 조직 유형 쌍(비-암을 포함함)에 대해 유지할 상위 순위 영역들의 수이다. 예를 들어, topK = 16인 경우, 분석 시스템(200)은 본원에 설명된 상호 정보 절차에 의해서 순위가 매겨진 바와 같이 조직 유형 쌍당 상위 16개의 영역들을 유지한다. 이 절차를 따름으로써, 분석 시스템(200)은 분류기가 예측이 생성된 데이터에 대해 훈련되지 않도록 보장하면서 훈련 세트 내의 각각의 샘플에 대한 예측을 생성할 수 있다.

다양한 실시형태에서, 각각의 세트의 하이퍼매개변수들에 대해, 분석 시스템(200)은 전체 훈련 세트의 교차 검증된 예측들에 대한 성능을 평가하고, 분석 시스템(200)은 전체 훈련 세트에 대한 재훈련을 위한 최상의 성능을 갖는 일 세트의 하이퍼매개변수를 선택한다. 성능은 로그 손실 메트릭(log-loss metric)을 기반으로 결정될 수 있다. 분석 시스템(200)은 각각의 샘플에 대한 정확한 라벨을 위해 예측의 음의 로그를 취하고 다음으로 샘플들에 대해 합산함으로써 로그 손실을 계산할 수 있다. 예를 들어, 정확한 라벨을 위한 1.0의 완벽한 예측은 0의 로그 손실로 귀결될 것이다(낮을수록 더 정확함). 새로운 샘플에 대한 예측을 생성하기 위해, 분석 시스템(200)은 위에서 설명된 방법을 사용하여 특징 값들을 계산할 수 있지만, 선택된 topK 값 아래에서 선택된 특징들(지역/양성 클래스 조합들)로 한정된다. 분석 시스템(200)은 훈련된 로지스틱 회귀 모델을 사용하여 예측을 생성하기 위해 생성된 특징들을 사용할 수 있다.

다양한 실시형태에서, 분석 시스템(200)은 분류기(240)를 적용하여 테스트 샘플의 기원 조직을 예측하며, 여기서 기원 조직은 질병 상태들 중 하나와 연관된다. 일부 실시형태에서, 분류기(240)는 둘 이상의 질병 상태 또는 기원 조직에 대한 예측 또는 가능성을 리턴할 수 있다. 예를 들어, 분류기(240)는 테스트 샘플이 유방암 기원 조직을 가질 가능성이 65%, 폐암 기원 조직을 가질 가능성이 25%, 건강한 기원 조직을 가질 가능성이 10%라는 예측을 리턴할 수 있다. 분석 시스템(200)은 예측 값들을 추가로 프로세스하여 단일 질병 상태 결정을 생성할 수 있다.

IV. 실시예

도 6은 일 실시형태에 따른 암 신호 국재화(CSL: cancer signal localization)의 실험 결과를 예시한다. 실험 결과는 분석 시스템(200)이 1개의 암 신호(즉, 가장 큰 확률 점수를 갖는 암 신호), 2개의 암 신호(즉, 2개의 가장 큰 확률 점수를 갖는 암 신호), 및 3개의 암 신호(즉, 3개의 가장 큰 확률 점수를 갖는 암 신호)를 리포트할 때 암 검출들의 백분율을 나타낸다. 결과에 포함된 많은 유형의 암에 대해, 하나의 암 신호 대신 두 개의 암 신호를 리포트할 때 검출들의 백분율이 증가한다.

실험 결과는 일 세트의 450개의 샘플을 기반으로 한다. 이러한 샘플들은 잠재성 암들의 암 신호 강도의 예상 분포를 반영하도록 선택되었다. 잠복암들은 미진단 사전-임상(pre-clinical) 암이다. 항문, 방광 및 요로상피암과 같은 일부 암 유형에 대한 서브샘플 사이즈는 다른 암 유형의 서브샘플 사이즈에 비해 작다. 도 6은 처음 2개의 CSL이 부정확한 경우 세 번째 CSL이 5%의 경우에 검출 가능한 이점을 거의 제공하지 않는다는 것을 추가로 보여준다.

도 7은 일 실시형태에 따른 조건부 리턴에 기초한 암 신호 국재화의 실험 결과를 예시한다. 여기서, 분석 시스템(200)은 암 신호가 양성 암 신호 매스의 90% 이상의 확률 점수를 갖는 경우 하나의 암 신호(최상위 점수의 암 신호)를 리턴한다. 그렇지 않으면, 분석 시스템(200)은 2개의 가장 큰 확률 점수와 연관된, 최대 상위 2개의 암 신호를 리턴한다. 막대 그래프는 1개 및 2개의 암 신호를 리턴한 각각의 유형의 암에서 샘플의 비율을 예시한다. 예를 들어, 유방암 샘플들의 70%는 하나의 암 신호를 리턴하였고, 30%는 두 개의 암 신호를 리턴하였다. 다른 예로서, 난소암 샘플들의 50%는 하나의 암 신호를 리턴하였고, 50%는 두 개의 암 신호를 리턴하였다.

요약하면, 실험 결과는, 최상위 CSL이 약 90%의 경우에 정확한 반면, 제2 CSL은 최상위 CSL이 부정확한 때의 절반의 경우에 정확하다는 것을 나타낸다. 제3 CSL은 상위 2개가 부정확한 때의 약 80%의 경우에 부정확하고, 우연보다는 낫지만, 일부 경우에 리포트된다면, 의사나 기타 헬스 케어 제공자가 효과적인 판단을 내리는 데 유용하지 않을 수 있다. 따라서, 일부 실시형태에서, 다른 진단/분석 방법(예컨대, 전신 영상 촬영)이 착수되기 전에 최대 2번의 국재화 시도가 제공된다. 특히, 결과는 림프성 CSL 및 골수성 CSL이 매우 신뢰가능하게 국재화된다는 것, 및 대부분의 암이 처음 두 개의 CSL에서 국재화된다는 것을 나타낸다.

결정된 확률 임계값을 사용하여 상위 암 신호들을 리포트하는 것은 헬스 케어 제공자에게 하나 이상의 암 신호의 필터링된 서브세트가 제시되므로 기존 암 진단 프로세스에 개선을 제공한다. 헬스 케어 제공자는 부정확할 거 같거나(예컨대, 위양성) 신뢰할 수 없는 암 신호 국재화를 포함할 수 있는 더 큰 세트의 신호들을 파스(parse)할 필요가 없으므로 보다 정확하고 신속하게 진단을 내릴 수 있다. 이전에 설명된 바와 같이, 종양 쉐딩(tumor shedding)(예컨대, 초기 단계 암들)은 정보를 제공하는 단편이 더 적기 때문에 국재화하기가 어렵다. 따라서 비침습적 암 예측을 위한 기존 방법은 위양성 또는 신뢰할 수 없는 암 신호를 처리하는 데 어려움을 겪는다. 암 신호로부터 이러한 잡음을 감소시키는 것은 진단 프로세스의 복잡성을 감소시킨다. 암 신호 국재화의 향상된 정확도는 또한 암에 대해 위양성 진단을 받은 개인에 대한 불필요한 치료를 감소시킨다.

다양한 실시형태에서, 확률 임계값을 사용하여 암 신호를 필터링하는 것은, 또한 암 진단을 위한 방법이 후속 처리 단계에서 필터링된 암 신호들을 사용하기 때문에 컴퓨터 기능을 향상시킨다. 예를 들어, 분석 시스템(200)은 필터링된 (예컨대, 서브세트의) 암 신호들을 암 예측들을 출력하는 기계 학습 모델에 대한 입력으로서 사용한다. 다른 실시예로서, 분석 시스템(200)은 필터링된 암 신호들을 훈련 데이터로서 사용하여 기계 학습 모델을 훈련시켜 암 예측들, 예를 들어, 암의 존재가 샘플에서 검출되는 경우, 기원 조직을 결정한다. 이러한 실시예에서, 필터링된 암 신호들을 사용하는 것은 기계 학습 모델을 구현하는 컴퓨터에 의해서 요구되는 계산 리소스 또는 처리 시간을 감소시킨다. 컴퓨터는 필터링되지 않은 세트의 암 신호들 대신 상위 암 신호들(예컨대, 확률 임계값을 사용하여 필터링함으로써 결정된 서브세트의 하나 또는 두 개의 신호)을 처리함으로써 계산 시간을 절약한다. 필터링되지 않은 세트의 암 신호들은 도 7에 도시된 다양한 암 유형에 의해 명백한 바와 같이 10개 이상의 암 신호를 포함할 수 있다. 더욱이, 시간이 지남에 따라 추가적인 암 신호들이 식별됨에 따라 필터링되지 않은 세트의 암 신호들은 증가할 것이다. 다양한 실시형태에서, 분석 시스템(200)은 많은 개인에 대한 암 신호들을 프로세스한다. 큰 스케일에서, 분석 시스템(200)이 암의 예측들을 결정하기 위해 프로세스해야 하는 데이터의 큰 사이즈 때문에 컴퓨터 기능에 대한 개선이 증폭된다. 암 진단을 보다 효율적이고 신속하게 결정하는 것은 암의 더 이른 검출 및 치료를 가능하게 하며, 이는 개인의 건강과 예후에 매우 중요할 수 있다. 비침습적 방법을 사용하여 효율적이고 정확한 암의 예측을 달성하는 것은, 이러한 방법이 암 진단을 더 많은 사람들에게 접근 가능하게 할 수 있기 때문에 더욱 유익하다.

도 8은 일 실시형태에 따른 잠복성 암 샘플로부터의 암 신호 국재화의 실험 결과를 예시한다. x축은 제1 기원 조직 확률을 나타내고, y축은 제2 기원 조직 확률을 나타낸다. 잠재성 암 샘플들은 개인들로부터의 혈액 채취 동안에는 진단된 암을 갖지 않았지만, 해당 개인들은 나중에 암으로 진단되었다. 따라서, 잠재성 암 샘플로부터의 암 신호 강도는 이미 진단된 암을 갖는 샘플로부터의 신호에 비해 약하다. 잠재성 암 샘플로부터의 암 신호 강도는 또한 기원 조직 국재화의 정확성과 관련하여 더 큰 불확실성을 갖는다.

도 9는 일 실시형태에 따른 암 샘플의 서브샘플링을 예시하는 플롯이다. 잠재성 암 샘플들(900)에 대한 참양성 암 검출들의 비율은 일 세트의 진단된 암 샘플들(910)에 대한 참양성 암 검출들의 비율에 비해 더 낮다. 잠재성 암 샘플들(900)의 예상된 스크리닝 암 신호 강도를 더 밀접하게 반영하기 위해, 일 세트의 진단된 암 샘플들(910)(예컨대, 1876개의 샘플)이 일 서브세트의 진단된 암 샘플들(920)(예컨대, 450개의 샘플)로 다운샘플링되었다. 서브샘플링된 참양성들은, 잠재적 분포가 얼마나 잘 매칭하는지와 분석을 위해 충분한 수의 샘플들을 유지하는 것 사이의 트레이드오프의 균형을 유지하는 경험적으로 선택된 임계값과 함께, |Δnon_cancer 점수| < 0.05 또는 |상대 Δnon_cancer 점수| < 0.1 또는 |Δlogit(non_cancer 점수)| < 0.4 내에서 표적 잠재성 비-암 점수와의 매칭에 기반하여 선택되었다.

도 10a 및 도 10b는 예상되는 스크리닝 암 신호 강도와 매칭되도록 서브샘플링된 검출된 암 샘플(참양성)을 예시한다. 서브샘플링은 더 적은 수의 4기 암과 더 많은 수의 1기 및 2기 암을 위해 선택된다. 또한, 도 10a 및 도 10b는 암 단계에 따른 암 신호 세기를 도시하고, 암 단계가 1기로부터 4기로 진행될수록, 검출된 참양성의 비율이 전반적으로 증가하는 것을 도시한다. 그러나 두 개인 사이의 비교에서, 1기 암과 연관된 제1 개인으로부터의 샘플은 4기 암과 연관된 제2 개인으로부터의 샘플보다 더 큰 암 신호 세기를 가질 수 있었다.

도 11a 및 도 11b는 일부 실시형태에 따른 서브샘플링 전후의 암 유형별 암 신호 세기를 예시한다. 일부 암 유형(예컨대, 폐, 결장 및 직장, 췌장 및 담낭)의 경우, 서브샘플링 후 참양성 검출의 비율이 감소되었다. 다른 암 유형(예컨대, 림프계 종양(lymphoid neoplasms), 유방암, 자궁 및 전립선)의 경우, 서브샘플링 후 참양성 검출의 비율이 증가했다.

도 12는 일부 실시형태에 따른 서브샘플링 전후의 암 유형 및 단계에 따른 암 신호 세기를 예시한다. 도 12에 도시된 바와 같이, 가장 큰 변화는 4기 폐, 췌장_담낭, 대장_직장의 감소, 및 2기 유방 및 1기 자궁의 증가이다.

도 13a 및 도 13b는 일부 실시형태에 따른, 제1, 제2, 제3 및 제4 CSL 콜(call)에 의해서 캡처된 CSL 신호의 비율과 같은 CSL 콜 확률의 분포의 막대 그래프를 포함한다. 구체적으로, 도 13a는 상위 4개의 암 신호에 걸쳐 누적 및 한계 암 점수의 분포의 전체 그래프를 도시한다. 누적 막대들은 상위 1개, 2개, 3개 및/또는 4개의 암 신호에 대한 암 점수들의 합을 반영한다. 막대들은 중앙값이며, 하한 및 상한 오류는 10%와 90%이다.

도 13b는 다양한 암 단계에 걸쳐 누적 암 점수 및 한계 암 점수의 분포의 그래프를 도시한다. 막대 그래프들의 오차 막대들은 10번째 및 90번째 백분위수 암 점수들을 나타냅니다. 도 13a 및 도 13b에 도시된 바와 같이, 신호의 약 50-95%가 최상위 CSL에서 캡처되며, 중앙값은 약 90%이고 초기 단계에서는 약간 더 적다.

도 14a 및 도 14b는 일부 실시형태에 따른, 실제 암 유형별로, 제1, 제2, 제3 및 제4 CSL 콜에 의해서 캡처된 CSL 신호의 비율과 같은 CSL 콜 확률의 분포의 막대 그래프를 포함한다. 실험 결과에 의해서 예시되는 바와 같이, 항문 및 외음부와 같은 HPV-유발 암의 샘플은 다른 암 유형의 암 점수에 비해 더 낮은 암 점수를 갖는다.

일부 실시형태에서, 국재화 엔진(250)은, 카테고리 자체 내의 개별 유형의 암의 최상위 암 점수가 기준을 만족하지 않는 경우에도, 일 카테고리(예컨대, HPV-유발 암)로부터 다수의 암 기원 조직을 리턴한다. 예를 들어, 항문 샘플들의 최상위 암 신호는 암 점수가 45%이고, 외음부 샘플들의 최상위 암 점수는 암 점수가 60%이다. 암 점수가 모두 90% 확률 임계값을 만족하지 않더라도, 국재화 엔진(250)은 가장 큰 신호 세기를 갖는 일 세트의 암 신호들(예컨대, 상위 3개 암 신호) 내에 항문 암 신호 및 외음부 암 신호가 있는 경우 항문 암 신호 및 외음부 암 신호를 리턴하도록 결정할 수 있다. 국재화 엔진(250)은 다수의 유형의 암들(예컨대, 위암 및 장암)을 포함하는 다른 카테고리에 기초하여 암 신호들의 리턴을 컨디셔닝할 수 있다.

도 15a, 도 15b 및 도 15c는 일부 실시형태에 따라 위양성과 참양성으로 구분된 중앙값 암 점수들의 막대 그래프들을 포함한다. 도 15a에 도시된 위양성의 암 점수의 크기는 도 15b에 도시된 참양성의 암 점수의 크기보다 더 낮다. 따라서, 국재화 엔진(250)은 최상위 암 신호가 확률 임계값(예컨대, 90%)을 만족할 가능성이 적기 때문에 위양성에 대한 2개 이상의 암 신호를 더 자주 리턴한다.

도 16은 일부 실시형태에 따른 누적 확률 점수를 예시한다. 도 16에서의 플롯은, 누적 확률 점수가 임계 확률에 도달하는 국재화 엔진(250)에 의해서 리턴되어야 하는 암 신호들의 수를 도시한다. 예를 들어, 참양성 샘플들의 약 75%는 90%의 임계 확률을 누적하기 위해 리턴된 3개 미만의 암 신호(즉, 리턴된 1개 또는 2개의 암 신호)를 필요로 한다. 대조적으로, 위양성 샘플들의 50% 미만은 90%의 임계 확률을 축적하기 위해 리턴된 3개 미만의 암 신호를 필요로 할 것이다. 위양성의 암 점수가 참양성의 암 점수의 크기보다 더 낮은 경향이 있기 때문에 이러한 결과는 도 15a 내지 도 15c에 도시된 결과와 일치한다.

도 17a 및 도 17b는 일부 실시형태에 따른 암 신호 국재화의 조건부 정확도를 예시한다. 도 17b에 도시된 바와 같이, 최상위 암 신호(즉, 가장 큰 확률 점수를 갖는 제1 라벨)는 샘플들의 대략 90%에서 정확하다. 두 번째 암 신호(즉, 제2 라벨)는 최상위 암 신호가 부정확할 때 샘플들의 약 50%에서 정확하다. 세 번째 암 신호(즉, 제3 라벨)는 상위 두 개의 암 신호가 부정확할 때 샘플들의 약 20%에서 정확하다.

도 18a 및 도 18b는 일부 실시형태에 따른, 고체 샘플 유형 및 액체 샘플 유형에 대한 암 신호 국재화의 조건부 정확도를 예시한다. 도 19a 및 도 19b는 일부 실시형태에 따른, 암 단계에 기반한 암 신호 국재화의 조건부 정확도를 예시한다. 도 18a의 결과는 액체 샘플들의 암 신호 국재화들이 고체 샘플들의 것보다 더 정확하다는 것을 보여준다. 고체 샘플과 비교하여, 더 많은 수의 액체 샘플에 대해, 국재화 엔진(250)은 암 기원 조직의 정확한 국재화인 최상위 암 신호(즉, 제1 라벨)를 리턴했다. 대조적으로, 고체 샘플에 대한 정확한 국재화는 더 많은 암 신호(예컨대, 제2, 제3, 제4, 제5+ 라벨)가 리턴될 것을 요구했다.

도 20a 및 도 20b는 일부 실시형태에 따른 암 신호 국재화의 누적 정확도를 예시한다. 최상위 암 신호는 샘플들의 약 90%에서 기원 조직의 정확한 국재화이다. 제2, 제3, 제4 암 신호 국재화에 대해 누적 정확도는 각각 약 94%, 95%, 및 96%로 증가한다.

도 21a 및 도 21b는 일부 실시형태에 따른 위양성의 암 신호 국재화를 예시한다. 도 22a 및 도 22b는 일부 실시형태에 따른 암 유형에 기반한 위양성의 암 신호 국재화를 예시한다. 도 21a 및 도 21b에 도시된 결과는 위양성 기원 조직 국재화가 혈액학적(혈액) 기원 또는 고형(종양) 기원을 갖는 것으로 예측되는지 여부를 나타낸다. 위양성은 지배적으로 고체 국재화에 대해 예측된다.

V. 암 응용분야

일부 실시형태에서, 본 개시내용의 방법, 분석 시스템 및/또는 분류기는, 암의 존재(또는 부재)를 검출하고, 암 진행 또는 재발을 모니터링하고, 치료 반응 또는 유효성을 모니터링하고, 최소 잔여 질병(MRD: minimum residual disease)의 존재를 결정하거나 모니터링하거나, 또는 이들의 조합을 하는 데 사용될 수 있다. 일부 실시형태에서, 분석 시스템 및/또는 분류기는 암에 대한 기원 조직를 식별하는 데 사용될 수 있다. 예를 들어, 시스템 및/또는 분류기는 암을 다음 암 유형들 중 하나로 식별하는 데 사용될 수 있다: 두경부암, 간/담도암, 상부 GI암, 췌장/담낭암; 대장암, 난소암, 폐암, 다발성 골수종, 림프계 종양, 흑색종, 육종, 유방암, 및 자궁암. 예를 들어, 본원에 설명된 바와 같이, 분류기는 샘플 특징 벡터가 암을 앓는 피험자로부터 유래된 가능성 또는 확률 점수(예컨대, 0% 내지 100%, 또는 0 내지 100)를 생성하는 데 사용될 수 있다.

일부 실시형태에서, 확률 점수는 피험자가 암에 걸렸는지 여부를 결정하기 위해 임계 확률과 비교된다. 다른 실시형태에서, 가능성 또는 확률 점수는 질병 진행을 모니터링하기 위해 또는 치료 유효성(예컨대, 치료 효능)을 모니터링하기 위해 다양한 시점(예컨대, 치료 전 또는 후)에 평가될 수 있다. 또 다른 실시형태에서, 가능성 또는 확률 점수는 임상 결정(예컨대, 암 진단, 치료 선택, 치료 유효성 평가 등)을 내리기 위해 또는 이에 영향을 주기 위해 사용될 수 있다. 예를 들어, 일 실시형태에서, 가능성 또는 확률 점수가 임계값을 초과하는 경우, 의사는 적절한 치료를 처방할 수 있다. 일부 실시형태에서, 예를 들어, 환자가 질병 상태(예컨대, 암)를 갖고 있다는 확률 점수, 질병 유형(예컨대, 암의 유형) 및/또는 기원 조직(예컨대, 암의 기원 조직)을 포함하는 테스트 결과를 환자에게 제공하기 위해 테스트 보고서가 생성될 수 있다.

V.A. 암의 조기 검출

일부 실시형태에서, 본 개시내용의 방법 및/또는 분류기는 암에 걸린 것으로 의심되는 피험자에서 암의 존재 또는 부재를 검출하는 데 사용된다. 예를 들어, (본원에 설명된) 분류기는 샘플 특징 벡터가 암에 걸린 피험자로부터 유래된 가능성 또는 확률 점수를 결정하는 데 사용될 수 있다.

일 실시형태에서, 60 이상의 확률 점수는 피험자가 암에 걸렸다는 것을 나타낼 수 있다. 또 다른 실시형태에서, 65 이상, 70 이상, 75 이상, 80 이상, 85 이상, 90 이상, 또는 95 이상의 확률 점수는 피험자가 암에 걸렸다는 것을 나타내었다. 다른 실시형태에서, 확률 점수는 질병의 중증도를 나타낼 수 있다. 예를 들어, 확률 점수 80은 80 미만의 점수(예컨대, 70의 점수)에 비해 암의 더 심각한 형태 또는 더 후기 단계를 나타낼 수 있다. 유사하게, 시간 경과에 따른(예컨대, 제2, 이후 시점에) 확률 점수의 증가는 질병 진행을 나타낼 수 있고, 시간 경과에 따른(예컨대, 제2, 이후 시점에) 확률 점수의 감소는 성공적인 치료를 나타낼 수 있다.

다른 실시형태에서, 암 로그-오즈(log-odds) 비는, 본원에 설명된 바와 같이, 암이 될 확률 대 비-암이 될 확률의 비율(즉, 1에서 암이 될 확률을 뺀 값)의 로그를 취함으로써 시험 피험자에 대해 계산될 수 있다. 본 실시형태에 따르면, 1보다 큰 암 로그-오즈 비는 피험자가 암에 걸렸다는 것을 나타낼 수 있다. 또 다른 실시형태에서, 1.2 초과, 1.3 초과, 1.4 초과, 1.5 초과, 1.7 초과, 2 초과, 2.5 초과, 3 초과, 3.5 초과, 또는 4 초과의 암 로그-오즈는 피험자가 암에 걸렸다는 것을 나타낸다. 다른 실시형태에서, 암 로그-오즈 비는 질병의 중증도를 나타낼 수 있다. 예를 들어, 2보다 더 큰 암 로그-오즈 비는 2 미만의 점수(예컨대, 1의 점수)에 비해 암의 더 심각한 형태 또는 후기 단계를 나타낼 수 있다. 유사하게, 시간 경과에 따른(예컨대, 제2, 이후 시점에) 암 로그-오즈 비의 증가는 질병 진행을 나타낼 수 있고, 시간 경과에 따른(예컨대, 제2, 이후 시점에) 암 로그-오즈 비의 감소는 성공적인 치료를 나타낼 수 있다.

본 개시내용의 양태에 따르면, 본 개시내용의 방법 및 시스템은 다수의 암 징후들을 검출하거나 분류하도록 훈련될 수 있다. 예를 들어, 본 개시내용의 방법, 시스템 및 분류기는 한 개 이상, 두 개 이상, 세 개 이상, 다섯 개 이상, 또는 열 개 이상의 서로 다른 유형의 암의 존재를 검출하는 데 사용될 수 있다.

V.B. 암 및 치료 모니터링

특정 실시형태에서, 제1 시점은 암 치료 전(예컨대, 절제 수술 또는 치료적 중재(therapeutic intervention) 전)이고, 제2 시점은 암 치료 후(예컨대, 절제 수술 또는 치료적 중재 후)이고, 방법은 치료의 유효성을 모니터링하는 데 사용된다. 예를 들어, 제2 가능성 또는 확률 점수가 제1 가능성 또는 확률 점수에 비해 감소하면, 치료가 성공적인 것으로 간주된다. 그러나, 제2 가능성 또는 확률 점수가 제1 가능성 또는 확률 점수에 비해 증가하면, 치료가 성공적이지 않은 것으로 간주된다. 다른 실시형태에서, 제1 시점 및 제2 시점은 모두 암 치료 전(예컨대, 절제 수술 또는 치료적 중재 전)이다. 또 다른 실시형태에서, 제1 시점 및 제2 시점 둘 다는 암 치료 후(예컨대, 절제 수술 또는 치료적 중재 전)이고, 방법은 치료의 유효성 또는 치료의 유효성의 상실을 모니터링하는 데 사용된다. 또 다른 실시형태에서, cfDNA 샘플들은 제1 및 제2 시점에 한 명의 암 환자로부터 획득되고 분석되어, 예를 들어, 암 진행을 모니터링하거나, 암이 완화되었는지 결정하거나(예컨대, 치료 후), 잔여 질병 또는 질병의 재발을 모니터링 또는 검출하거나, 치료(예컨대, 치료) 효능을 모니터링할 수 있다.

당업자는 시험 샘플들이 임의의 원하는 세트의 시점들에 걸쳐 한 명의 암 환자로부터 획득될 수 있고 환자의 암 상태를 모니터링하기 위해 개시내용의 방법에 따라 분석될 수 있다는 것을 쉽게 인식할 것이다. 일부 실시형태에서, 제1 시점과 제2 시점은 약 15분 내지 약 30년 범위, 예를 들어 약 30분, 예를 들어 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 또는 약 24시간, 예를 들어 약 1, 2, 3, 4, 5, 10, 15, 20, 25 또는 약 30일, 또는 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 또는 12개월, 또는 약 1, 1.5, 2, 2.5, 3, 3.5, 4, 4.5, 5, 5.5, 6, 6.5, 7, 7.5, 8, 8.5, 9, 9.5, 10, 10.5, 11, 11.5, 12, 12.5, 13, 13.5, 14, 14.5, 15, 15.5, 16, 16.5, 17, 17.5, 18, 18.5, 19, 19.5, 20, 20.5, 21, 21.5, 22, 22.5, 23, 23.5, 24, 2 4.5, 25, 25.5, 26, 26.5, 27, 27.5, 28, 28.5, 29, 29.5 또는 약 30년의 범위 내의 시간의 양만큼 분리된다. 다른 실시형태에서, 시험 샘플들은 적어도 매 3개월에 한 번, 적어도 매 6개월에 한 번, 적어도 매 1년에 한 번, 적어도 매 2년에 한 번, 적어도 매 3년에 한 번, 적어도 매 4년에 한 번, 또는 적어도 매 5년에 한 번 해당 환자로부터 획득될 수 있다.

V.C. 치료

또 다른 실시형태에서, 본원에 설명된 임의의 방법으로부터 획득된 정보는 임상 결정(예컨대, 암 진단, 치료 선택, 치료 유효성 평가 등)을 내리기 위해 또는 이에 영향을 주기 위해 사용될 수 있다. 예를 들어, 일 실시형태에서, 가능성 또는 확률 점수가 임계값을 초과하는 경우, 의사는 적절한 치료(예컨대, 절제 수술, 방사선 요법, 화학 요법 및/또는 면역 요법)를 처방할 수 있다. 일부 실시형태에서, 가능성 또는 확률 점수와 같은 정보는 의사 또는 피험자에게 판독 정보로서 제공될 수 있다.

(본원에 설명된) 분류기는 샘플 특징 벡터가 암에 걸린 피험자로부터 유래된 가능성 또는 확률 점수를 결정하는 데 사용될 수 있다. 일 실시형태에서, 가능성 또는 확률이 임계값을 초과하는 경우 적절한 치료(예컨대, 절제 수술 또는 치료)가 처방된다. 예를 들어, 일 실시형태에서, 가능성 또는 확률 점수가 60 이상이면, 하나 이상의 적절한 치료법이 처방된다. 다른 실시형태에서, 가능성 또는 확률 점수가 65 이상, 70 이상, 75 이상, 80 이상, 85 이상, 90 이상, 또는 95 이상인 경우, 하나 이상의 적절한 치료법이 처방된다. 다른 실시형태에서, 암 로그-오즈 비는 암 치료의 유효성을 나타낼 수 있다. 예를 들어, 시간 경과에 따른(예컨대, 치료 후 제2 치료에서) 암 로그-오즈 비의 증가는 치료가 효과적이지 않았다는 것을 나타낼 수 있다. 마찬가지로, 시간 경과에 따른(예컨대, 치료 후 제2 치료에서) 암 로그-오즈 비의 감소는 성공적인 치료를 나타낼 수 있다. 또 다른 실시형태에서, 암 로그-오즈 비가 1 초과, 1.5 초과, 2 초과, 2.5 초과, 3 초과, 3.5 초과, 또는 4 초과인 경우, 하나 이상의 적절한 치료법이 처방된다.

일부 실시형태에서, 치료법은 화학요법제, 표적화된 암 치료 요법제, 분화(differentiating) 치료 요법제, 호르몬 치료 요법제, 및 면역요법제를 포함하는 그룹으로부터 선택된 하나 이상의 암 치료 요법제이다. 예를 들어, 치료법은 알킬화제, 항대사물질, 안트라사이클린, 항종양 항생제, 세포골격 교란물질(탁산), 토포이소머라제 억제제, 유사분열 억제제, 코르티코스테로이드, 키나제 억제제, 뉴클레오티드 유사체, 백금계-기반 제제 및 이들의 조합을 포함하는 그룹으로부터 선택된 하나 이상의 화학요법제일 수 있다. 일부 실시형태에서, 치료법은 신호 전달 억제제(예컨대, 티로신 키나제 및 성장 인자 수용체 억제제), 히스톤 데아세틸라제(HDAC: histone deacetylase) 억제제, 레티노산 수용체 작용제, 프로테오솜 억제제, 혈관신생 억제제 및 단일클론 항체 접합체를 포함하는 그룹으로부터 선택된 하나 이상의 표적 암 치료 요법제이다. 일부 실시형태에서, 치료법은 트레티노인, 알리트레티노인 및 벡사로텐과 같은 레티노이드를 포함하는 하나 이상의 분화 치료 요법제이다. 일부 실시형태에서, 치료법은 항에스트로겐, 아로마타제 억제제, 프로게스틴, 에스트로겐, 항안드로겐 및 GnRH 작용제 또는 유사체를 포함하는 그룹으로부터 선택된 하나 이상의 호르몬 치료 요법제이다. 일 실시형태에서, 치료법은 단클론 항체 요법, 예컨대, 리툭시맙(RITUXAN) 및 알렘투주맙(CAMPATH), 비특이적 면역요법 및 보조제, 예컨대, BCG, 인터루킨-2(IL-2), 및 인터페론-알파, 면역조절제, 예를 들어, 탈리도마이드 및 레날리도마이드(REVLIMID)를 포함하는 그룹으로부터 선택된 하나 이상의 면역요법제이다. 종양의 유형, 암의 단계, 암 치료 또는 치료제에 대한 이전 노출, 및 암의 다른 특성과 같은 특성을 기반으로 적절한 암 치료 요법제를 선택하는 것은 숙련된 의사 또는 종양학자의 능력 내에 있다.

VI. 추가 고려 사항

본 개시내용의 실시형태에 대한 전술한 설명은 예시의 목적으로 제시되었으며, 이는 총망라되도록 또는 개시된 정확한 형태로 본 발명을 한정하도록 의도되지 않는다. 관련 기술분야에서 숙련된 사람은 상기 개시내용을 고려하여 많은 수정예 및 변형예가 가능하다는 것을 이해할 수 있다.

본 설명의 일부 부분은 정보에 대한 동작의 알고리즘 및 기호 표현의 관점에서 본 개시내용의 실시형태를 설명한다. 이러한 알고리즘 설명 및 표현은 데이터 프로세싱 기술 분야의 숙련된 사람들에 의해서 자신의 작업의 내용을 해당 기술 분야에서 숙련된 다른 사람들에게 효과적으로 전달하기 위해 일반적으로 사용된다. 이러한 동작은, 기능적으로, 계산적으로, 또는 논리적으로 설명되지만, 컴퓨터 프로그램이나 등가의 전기 회로, 마이크로코드 등에 의해서 구현되는 것으로 이해된다. 더욱이, 일반성을 잃지 않으면서, 이러한 작업의 배열을 모듈로 지칭하는 것이 때로는 편리한 것으로 입증되었다. 설명된 작동 및 이와 연관된 모듈은 소프트웨어, 펌웨어, 하드웨어, 또는 이들의 임의의 조합으로 구현될 수 있다.

본원에 설명된 단계, 동작, 또는 프로세스 중 어느 하나는 하나 이상의 하드웨어 또는 소프트웨어 모듈로, 단독으로 또는 다른 디바이스와 결합하여 수행되거나 구현될 수 있다. 일부 실시형태에서, 소프트웨어 모듈은 설명된 단계, 작동, 또는 프로세스 중 어느 하나 또는 전부를 수행하기 위한 컴퓨터 프로세서에 의해서 실행될 수 있는 컴퓨터 프로그램 코드를 포함하는 컴퓨터 판독 가능 비일시적 매체를 포함하는 컴퓨터 프로그램 제품으로 구현된다.

실시형태는 또한 본원에 설명된 컴퓨팅 프로세스에 의해서 생성되는 결과물과 관련될 수 있다. 이러한 결과물은 컴퓨팅 프로세스로부터 기인되는 정보를 포함할 수 있으며, 여기서 정보는 비일시적, 유형(tangible)의 컴퓨터 판독 가능 저장 매체 상에 저장되고, 컴퓨터 프로그램 제품 또는 본원에 설명된 기타 데이터 조합의 임의의 실시형태를 포함할 수 있다.

마지막으로, 본 명세서에 사용된 언어는 주로 가독성과 교육적인 목적을 위해 선택되었으며, 발명의 주제를 서술하거나 제한하기 위해 선택되었을 수 없다. 따라서, 본 발명의 범위는 이러한 상세한 설명에 의해서가 아니라 여기에 기초한 출원 상에서 나오는 임의의 청구범위에 의해서 제한되는 것으로 의도되었다. 따라서, 본원의 실시형태의 개시내용은 다음의 청구범위에 제시된 본 발명의 범위를 제한하는 것이 아니라 예시하기 위한 것이다.

Claims

암 진단을 위한 방법으로서,
제1 개인의 제1 샘플의 제1 복수의 암 신호를 수신하는 단계 - 상기 제1 복수의 암 신호 중 각각의 암 신호는 상기 제1 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -;
상기 제1 복수의 암 신호 중 가장 큰 확률을 갖는 제1 암 신호를 결정하는 단계;
상기 제1 암 신호가 기준을 만족한다고 결정하는 단계에 응답하여, 상기 제1 샘플을 상기 제1 암 신호에 대응하는 질병 상태와 연관시키는 단계;
상기 제1 개인의 제1 진단을 결정하기 위한 클라이언트 디바이스 상의 제시를 위해, 상기 제1 샘플과 연관된 상기 제1 암 신호에 대응하는 상기 질병 상태를 제공하는 단계;
제2 개인의 제2 샘플의 제2 복수의 암 신호를 수신하는 단계 - 상기 제2 복수의 암 신호 중 각각의 암 신호는 상기 제2 샘플이 상기 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -;
상기 제2 복수의 암 신호 중 가장 큰 확률을 갖는 제2 암 신호를 결정하는 단계;
상기 제2 암 신호가 상기 기준을 만족하지 않는다고 결정하는 단계에 응답하여, 상기 제2 샘플을 적어도 상기 제2 암 신호를 포함하는 상기 제2 복수의 암 신호의 일 서브세트에 대응하는 상기 복수의 질병 상태의 일 서브세트와 연관시키는 단계; 및
상기 제2 개인의 제2 진단을 결정하기 위한 상기 클라이언트 디바이스 상의 제시를 위해, 상기 제2 샘플과 연관된 상기 제2 복수의 암 신호의 상기 서브세트에 대응하는 상기 복수의 질병 상태의 상기 서브세트를 제공하는 단계를 포함하는 방법.
제1항에 있어서,
상기 방법은 상기 제2 복수의 암 신호 중에서 두 번째로 가장 큰 확률을 갖는 제3 암 신호를 결정하는 단계를 더 포함하되, 상기 제2 복수의 암 신호의 상기 서브세트는 상기 제3 암 신호를 더 포함하는, 방법.
제1항 또는 제2항에 있어서, 상기 기준은 확률 임계값이고, 상기 제1 암 신호가 상기 기준을 만족한다고 결정하는 단계는,
상기 제1 암 신호의 최대 확률이 상기 확률 임계값보다 더 크다고 결정하는 단계를 포함하는, 방법.
제3항에 있어서, 상기 확률 임계값은 적어도 90%인, 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
위양성(false positives) 및 암 신호 확률들의 정확성에 기초하여 상기 기준을 결정하는 단계를 더 포함하는 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
현재의 암이 샘플과 연관될 잔여 위험에 기초하여 상기 기준을 결정하는 단계를 더 포함하는 방법.
제1항 내지 제6항 중 어느 한 항에 있어서,
상기 제1 복수의 암 신호 중에서 n개의 가장 큰 확률을 갖는 상기 제1 복수의 암 신호의 일 서브세트의 n개의 암 신호를 결정하는 단계; 및
상기 제1 복수의 암 신호 중 적어도 임계 수의 상기 서브세트가 일 카테고리의 질병 상태들과 연관되어 있다고 결정하는 단계에 응답하여, 상기 제1 샘플을 상기 카테고리의 질병 상태들의 각각의 질병 상태와 연관시키는 단계를 더 포함하는 방법.
제7항에 있어서, 상기 카테고리의 질병 상태들은 인간 유두종 바이러스(HPV: human papillomavirus) 암인, 방법.
제7항에 있어서, 상기 카테고리의 질병 상태들은 위암 및 장암을 포함하는, 방법.
제1항 내지 제9항 중 어느 한 항에 있어서, 상기 복수의 질병 상태는 비-암(non-cancer) 상태를 포함하는, 방법.
제1항 내지 제10항 중 어느 한 항에 있어서, 상기 복수의 질병 상태는 항문암, 유방암, 자궁암, 자궁경부암, 난소암, 방광암, 신우 및 요관의 요로상피암, 요로상피 이외의 신장암, 전립선암, 항문직장암, 대장암, 식도의 편평상피세포암, 편평상피 이외의 식도암, 위암, 간세포로부터 발생한 간담도암, 간세포 이외의 세포로부터 발생한 간담도암, 췌장암, 인유두종바이러스 관련 두경부암, 인유두종바이러스와 관련되지 않은 두경부암, 폐선암종, 소세포폐암, 선암종 또는 소세포 폐암 이외의 폐암 및 편평 세포 폐암, 신경내분비암, 흑색종, 갑상선암, 육종, 다발성 골수종, 림프종, 백혈병, 신장암, 간암, 담관암, 혈질세포신생종암, 상부 위장관암, 외음부암, 폐 신경내분비 종양 및 기타 고도선종 신경내분비 종양을 포함하는 그룹으로부터 선택된 하나 이상의 유형의 암을 포함하는, 방법.
제1항 내지 제11항 중 어느 한 항에 있어서,
상기 제2 샘플과 연관된 상기 복수의 질병 상태들의 상기 서브세트에 대응하는 각각의 질병 상태의 그래픽적 비교를, 상기 클라이언트 디바이스 상의 제시를 위해, 제공하는 단계를 더 포함하는 방법.
제12항에 있어서, 상기 그래픽적 비교는 상기 제2 복수의 암 신호의 확률들에 기초한 막대 그래프인, 방법.
암 신호 국재화(localization)를 위한 방법으로서,
샘플의 복수의 암 신호를 수신하는 단계 - 상기 복수의 암 신호 중 각각의 암 신호는 상기 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -;
상기 복수의 암 신호 중 가장 큰 확률을 갖는 제1 암 신호를 결정하는 단계;
상기 제1 암 신호가 기준을 만족한다는 결정에 따라, 상기 샘플을 상기 제1 암 신호에 대응하는 제1 질병 상태와 연관시키는 단계;
상기 제1 암 신호가 상기 기준을 충족하지 않는다는 결정에 따라:
상기 복수의 암 신호 중 두 번째로 가장 큰 확률을 갖는 제2 암 신호를 결정하는 단계; 및
상기 샘플을 상기 제1 암 신호에 대응하는 상기 제1 질병 상태 및 상기 제2 암 신호에 대응하는 제2 질병 상태와 연관시키는 단계를 포함하는 방법.
제14항에 있어서,
상기 제1 암 신호가 상기 기준을 만족한다는 결정에 따라, 상기 샘플 내 암의 예측을 결정하기 위해 기계 학습 모델에 대한 입력으로서 상기 제1 암 신호를 제공하는 단계; 및
상기 제1 암 신호가 상기 기준을 만족하지 않는다는 결정에 따라, 상기 샘플 내 암의 예측을 결정하기 위해 상기 기계 학습 모델에 대한 입력으로서 상기 제1 암 신호 및 상기 제2 암 신호를 제공하는 단계를 더 포함하는 방법.
제14항에 있어서,
상기 제1 암 신호가 상기 기준을 만족한다는 결정에 따라, 상기 제1 암 신호에 대응하는 상기 제1 질병 상태와 상기 샘플의 연관성을 포함하는 제1 훈련 세트를 생성하여 암 신호 국재화를 위한 기계 학습 모델을 훈련시키는 단계; 및
상기 제1 암 신호가 상기 기준을 만족하지 않는다는 결정에 따라, 상기 제1 암 신호에 대응하는 상기 제1 질병 상태 및 상기 제2 암 신호에 대응하는 상기 제2 질병 상태와 상기 샘플의 연관성을 포함하는 제2 훈련 세트를 생성하여 상기 기계 학습 모델을 훈련시키는 단계를 더 포함하는 방법.
제14항 내지 제16항 중 어느 한 항에 있어서, 상기 기준은 확률 임계값이고, 상기 제1 암 신호가 상기 기준을 만족한다는 결정은
상기 제1 암 신호의 최대 확률이 상기 확률 임계값보다 더 크다고 결정하는 단계를 포함하는, 방법.
제14항 내지 제17항 중 어느 한 항에 있어서,
위양성 및 암 신호 확률들의 정확성에 기초하여 상기 기준을 결정하는 단계를 더 포함하는 방법.
제14항 내지 제18항 중 어느 한 항에 있어서,
현재의 암이 샘플과 연관될 잔여 위험에 기초하여 상기 기준을 결정하는 단계를 더 포함하는 방법.
제14항 내지 제19항 중 어느 한 항에 있어서,
상기 복수의 암 신호 중에서 n개의 가장 큰 확률을 갖는 상기 복수의 암 신호의 일 서브세트의 n개의 암 신호를 결정하는 단계; 및
상기 복수의 암 신호 중 적어도 임계 수의 상기 서브세트가 일 카테고리의 질병 상태들과 연관되어 있다고 결정하는 단계에 응답하여, 상기 샘플을 상기 카테고리의 질병 상태들의 각각의 질병 상태와 연관시키는 단계를 더 포함하는 방법.
제20항에 있어서, 상기 카테고리의 질병 상태들은 인간 유두종 바이러스(HPV 암인, 방법.
제20항에 있어서, 상기 카테고리의 질병 상태들은 위암 및 장암을 포함하는, 방법.
제14항 내지 제22항 중 어느 한 항에 있어서, 상기 복수의 질병 상태는 비-암 상태를 포함하는, 방법.
제14항 내지 제23항 중 어느 한 항에 있어서, 상기 복수의 질병 상태는 항문암, 유방암, 자궁암, 자궁경부암, 난소암, 방광암, 신우 및 요관의 요로상피암, 요로상피 이외의 신장암, 전립선암, 항문직장암, 대장암, 식도의 편평상피세포암, 편평상피 이외의 식도암, 위암, 간세포로부터 발생한 간담도암, 간세포 이외의 세포로부터 발생한 간담도암, 췌장암, 인유두종바이러스 관련 두경부암, 인유두종바이러스와 관련되지 않은 두경부암, 폐선암종, 소세포폐암, 선암종 또는 소세포 폐암 이외의 폐암 및 편평 세포 폐암, 신경내분비암, 흑색종, 갑상선암, 육종, 다발성 골수종, 림프종, 백혈병, 신장암, 간암, 담관암, 혈질세포신생종암, 상부 위장관암, 외음부암, 폐 신경내분비 종양 및 기타 고도선종 신경내분비 종양을 포함하는 그룹으로부터 선택된 하나 이상의 유형의 암을 포함하는, 방법.
제14항 내지 제24항 중 어느 한 항에 있어서,
진단을 결정하기 위한 클라이언트 디바이스 상의 제시를 위해, 상기 제1 샘플과 연관된 상기 제1 암 신호에 대응하는 상기 질병 상태를 제공하는 단계를 더 포함하는 방법.
제14항 내지 제25항 중 어느 한 항에 있어서,
진단을 결정하기 위한 상기 클라이언트 디바이스 상의 제시를 위해, 상기 제2 샘플과 연관된 상기 복수의 질병 상태들의 상기 서브세트에 대응하는 각각의 질병 상태의 그래픽적 비교를 제공하는 단계를 더 포함하는 방법.
제26항에 있어서, 상기 그래픽적 비교는 상기 제2 복수의 암 신호의 확률들에 기초한 막대 그래프인, 방법.
암 신호 국재화를 위한 방법으로서,
샘플의 복수의 암 신호를 수신하는 단계 - 상기 복수의 암 신호 중 각각의 암 신호는 상기 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -;
상기 복수의 암 신호 중 제1 암 신호가, 상기 복수의 암 신호 중 나머지 암 신호들이 부정확하다고 가정하면, 참양성일 제1 조건부 확률을 결정하는 단계;
상기 제1 조건부 확률이 기준을 만족한다고 결정하는 단계에 응답하여, 상기 샘플을 상기 제1 암 신호에 대응하는 적어도 하나의 질병 상태와 연관시키는 단계;
상기 제1 암 신호를 제외한 상기 복수의 암 신호의 일 서브세트를 결정하는 단계;
상기 복수의 암 신호의 상기 서브세트 중 제2 암 신호가, 상기 복수의 암 신호의 상기 서브세트 중 나머지 암 신호들이 부정확하다고 가정하면, 참양성일 제2 조건부 확률을 결정하는 단계; 및
상기 제2 조건부 확률이 상기 기준을 만족한다고 결정하는 단계에 응답하여, 상기 샘플을 상기 제2 암 신호에 대응하는 적어도 하나의 질병 상태와 연관시키는 단계를 포함하는 방법.
컴퓨터 프로세서 및 메모리를 포함하는 시스템으로서, 상기 메모리는 상기 컴퓨터 프로세서에 의해서 실행될 때 상기 프로세서로 하여금 다음의 단계를 수행하게 하는 컴퓨터 프로그램 명령어를 저장하고, 상기 다음의 단계는,
제1 개인의 제1 샘플의 제1 복수의 암 신호를 수신하는 단계 - 상기 제1 복수의 암 신호 중 각각의 암 신호는 상기 제1 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -;
상기 제1 복수의 암 신호 중 가장 큰 확률을 갖는 제1 암 신호를 결정하는 단계;
상기 제1 암 신호가 기준을 만족한다고 결정하는 단계에 응답하여, 상기 제1 샘플을 상기 제1 암 신호에 대응하는 질병 상태와 연관시키는 단계;
상기 제1 개인의 제1 진단을 결정하기 위한 클라이언트 디바이스 상의 제시를 위해, 상기 제1 샘플과 연관된 상기 제1 암 신호에 대응하는 상기 질병 상태를 제공하는 단계;
제2 개인의 제2 샘플의 제2 복수의 암 신호를 수신하는 단계 - 상기 제2 복수의 암 신호 중 각각의 암 신호는 상기 제2 샘플이 상기 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -;
상기 제2 복수의 암 신호 중 가장 큰 확률을 갖는 제2 암 신호를 결정하는 단계;
상기 제2 암 신호가 상기 기준을 만족하지 않는다고 결정하는 단계에 응답하여, 상기 제2 샘플을 적어도 상기 제2 암 신호를 포함하는 상기 제2 복수의 암 신호의 일 서브세트에 대응하는 상기 복수의 질병 상태의 일 서브세트와 연관시키는 단계; 및
상기 제2 개인의 제2 진단을 결정하기 위한 상기 클라이언트 디바이스 상의 제시를 위해, 상기 제2 샘플과 연관된 상기 제2 복수의 암 신호의 상기 서브세트에 대응하는 상기 복수의 질병 상태의 상기 서브세트를 제공하는 단계를 포함하는, 시스템.
하나 이상의 프로세서에 의해서 실행될 때, 상기 하나 이상의 프로세서로 하여금 다음의 단계를 수행하게 하는 명령어를 포함하는 비일시적 컴퓨터 판독 가능 매체로서, 상기 다음의 단계는,
제1 개인의 제1 샘플의 제1 복수의 암 신호를 수신하는 단계 - 상기 제1 복수의 암 신호 중 각각의 암 신호는 상기 제1 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -;
상기 제1 복수의 암 신호 중 가장 큰 확률을 갖는 제1 암 신호를 결정하는 단계;
상기 제1 암 신호가 기준을 만족한다고 결정하는 단계에 응답하여, 상기 제1 샘플을 상기 제1 암 신호에 대응하는 질병 상태와 연관시키는 단계;
상기 제1 개인의 제1 진단을 결정하기 위한 클라이언트 디바이스 상의 제시를 위해, 상기 제1 샘플과 연관된 상기 제1 암 신호에 대응하는 상기 질병 상태를 제공하는 단계;
제2 개인의 제2 샘플의 제2 복수의 암 신호를 수신하는 단계 - 상기 제2 복수의 암 신호 중 각각의 암 신호는 상기 제2 샘플이 상기 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -;
상기 제2 복수의 암 신호 중 가장 큰 확률을 갖는 제2 암 신호를 결정하는 단계;
상기 제2 암 신호가 상기 기준을 만족하지 않는다고 결정하는 단계에 응답하여, 상기 제2 샘플을 적어도 상기 제2 암 신호를 포함하는 상기 제2 복수의 암 신호의 일 서브세트에 대응하는 상기 복수의 질병 상태의 일 서브세트와 연관시키는 단계; 및
상기 제2 개인의 제2 진단을 결정하기 위한 상기 클라이언트 디바이스 상의 제시를 위해, 상기 제2 샘플과 연관된 상기 제2 복수의 암 신호의 상기 서브세트에 대응하는 상기 복수의 질병 상태의 상기 서브세트를 제공하는 단계를 포함하는, 비일시적 컴퓨터 판독 가능 매체.
컴퓨터 프로세서 및 메모리를 포함하는 시스템으로서, 상기 메모리는 상기 컴퓨터 프로세서에 의해서 실행될 때 상기 프로세서로 하여금 다음의 단계를 수행하게 하는 컴퓨터 프로그램 명령어를 저장하고, 상기 다음의 단계는,
샘플의 복수의 암 신호를 수신하는 단계 - 상기 복수의 암 신호 중 각각의 암 신호는 상기 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -;
상기 복수의 암 신호 중 가장 큰 확률을 갖는 제1 암 신호를 결정하는 단계;
상기 제1 암 신호가 기준을 만족한다는 결정에 따라, 상기 샘플을 상기 제1 암 신호에 대응하는 제1 질병 상태와 연관시키는 단계;
상기 제1 암 신호가 상기 기준을 충족하지 않는다는 결정에 따라:
상기 복수의 암 신호 중 두 번째로 가장 큰 확률을 갖는 제2 암 신호를 결정하는 단계; 및
상기 샘플을 상기 제1 암 신호에 대응하는 상기 제1 질병 상태 및 상기 제2 암 신호에 대응하는 제2 질병 상태와 연관시키는 단계를 포함하는, 시스템.
하나 이상의 프로세서에 의해서 실행될 때, 상기 하나 이상의 프로세서로 하여금 다음의 단계를 수행하게 하는 명령어를 포함하는 비일시적 컴퓨터 판독 가능 매체로서, 상기 다음의 단계는,
샘플의 복수의 암 신호를 수신하는 단계 - 상기 복수의 암 신호 중 각각의 암 신호는 상기 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -;
상기 복수의 암 신호 중 가장 큰 확률을 갖는 제1 암 신호를 결정하는 단계;
상기 제1 암 신호가 기준을 만족한다는 결정에 따라, 상기 샘플을 상기 제1 암 신호에 대응하는 제1 질병 상태와 연관시키는 단계;
상기 제1 암 신호가 상기 기준을 충족하지 않는다는 결정에 따라:
상기 복수의 암 신호 중 두 번째로 가장 큰 확률을 갖는 제2 암 신호를 결정하는 단계; 및
상기 샘플을 상기 제1 암 신호에 대응하는 상기 제1 질병 상태 및 상기 제2 암 신호에 대응하는 제2 질병 상태와 연관시키는 단계를 포함하는, 비일시적 컴퓨터 판독 가능 매체.
컴퓨터 프로세서 및 메모리를 포함하는 시스템으로서, 상기 메모리는 상기 컴퓨터 프로세서에 의해서 실행될 때 상기 프로세서로 하여금 다음의 단계를 수행하게 하는 컴퓨터 프로그램 명령어를 저장하고, 상기 다음의 단계는,
샘플의 복수의 암 신호를 수신하는 단계 - 상기 복수의 암 신호 중 각각의 암 신호는 상기 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -;
상기 복수의 암 신호 중 제1 암 신호가, 복수의 암 신호 중 나머지 암 신호들이 부정확하다고 가정하면, 참양성일 제1 조건부 확률을 결정하는 단계;
상기 제1 조건부 확률이 기준을 만족한다고 결정하는 단계에 응답하여, 상기 샘플을 상기 제1 암 신호에 대응하는 적어도 하나의 질병 상태와 연관시키는 단계;
상기 제1 암 신호를 제외한 상기 복수의 암 신호의 일 서브세트를 결정하는 단계;
상기 복수의 암 신호의 상기 서브세트 중 제2 암 신호가, 상기 복수의 암 신호의 상기 서브세트 중 나머지 암 신호들이 부정확하다고 가정하면, 참양성일 제2 조건부 확률을 결정하는 단계; 및
상기 제2 조건부 확률이 상기 기준을 만족한다고 결정하는 단계에 응답하여, 상기 샘플을 상기 제2 암 신호에 대응하는 적어도 하나의 질병 상태와 연관시키는 단계를 포함하는, 시스템.
하나 이상의 프로세서에 의해서 실행될 때, 상기 하나 이상의 프로세서로 하여금 다음의 단계를 수행하게 하는 명령어를 포함하는 비일시적 컴퓨터 판독 가능 매체로서, 상기 다음의 단계는,
샘플의 복수의 암 신호를 수신하는 단계 - 상기 복수의 암 신호 중 각각의 암 신호는 상기 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -;
상기 복수의 암 신호 중 제1 암 신호가, 복수의 암 신호 중 나머지 암 신호들이 부정확하다고 가정하면, 참양성일 제1 조건부 확률을 결정하는 단계;
상기 제1 조건부 확률이 기준을 만족한다고 결정하는 단계에 응답하여, 상기 샘플을 상기 제1 암 신호에 대응하는 적어도 하나의 질병 상태와 연관시키는 단계;
상기 제1 암 신호를 제외한 상기 복수의 암 신호의 일 서브세트를 결정하는 단계;
상기 복수의 암 신호의 상기 서브세트 중 제2 암 신호가, 상기 복수의 암 신호의 상기 서브세트 중 나머지 암 신호들이 부정확하다고 가정하면, 참양성일 제2 조건부 확률을 결정하는 단계; 및
상기 제2 조건부 확률이 상기 기준을 만족한다고 결정하는 단계에 응답하여, 상기 샘플을 상기 제2 암 신호에 대응하는 적어도 하나의 질병 상태와 연관시키는 단계를 포함하는, 비일시적 컴퓨터 판독 가능 매체.