KR20200143462A

KR20200143462A - 생물학적 샘플의 다중 분석물 검정을 위한 기계 학습 구현

Info

Publication number: KR20200143462A
Application number: KR1020207032808A
Authority: KR
Inventors: 아담 드레이크; 다니엘 델루박; 캐서린 니하우스; 에릭 아리아지; 임란 하크; 츠-위 리우; 나단 완; 에이제이 칸난; 브랜든 화이트
Original assignee: 프리놈 홀딩스, 인크.
Priority date: 2018-04-13
Filing date: 2019-04-15
Publication date: 2020-12-23
Also published as: AU2019253118A1; WO2019200410A1; US20210210205A1; US11681953B2; US11847532B2; JP7455757B2; EP3776381A4; SG11202009696WA; JP2021521536A; EP3776381A1; AU2019253118B2; US20210174958A1; JP2024081675A; CA3095056A1; US20240202603A1; CN112292697A

Abstract

분자의 다중 부류를 사용하는 혈액 기반의 암 진단 시험을 분석하는 시스템 및 방법이 기재된다. 시스템은 생물학적 샘플로부터의 다중 분석물, 예를 들면, 무세포 DNA, 무세포 마이크로RNA, 및 순환 단백질을 분석하기 위하여 기계 학습(ML)을 사용한다. 시스템은 다중 검정, 예를 들면, 전체 게놈 시퀀싱, 전체 게놈 바이설파이트 시퀀싱 또는 EM-seq, 소형 RNA 시퀀싱, 및 정량적 면역검정을 사용할 수 있다. 이는 신호 사이의 독립적인 정보를 이용함으로써 진단의 민감도 및 특이도를 증가시킬 수 있다. 작업 동안, 시스템은 생물학적 샘플을 수신하고, 샘플로부터의 복수의 분자 부류를 분리한다. 복수의 검정에 있어서, 시스템은 특징 세트를 식별하여 기계 학습 모델에 입력한다. 시스템은 각각의 분자 부류에 대한 검정을 수행하고, 측정치로부터 특징 벡터를 형성한다. 시스템은 특징 벡터를 기계 학습 모델에 입력하고, 샘플이 특정된 성질을 갖는지의 여부의 출력 분류를 수득한다.

Description

생물학적 샘플의 다중 분석물 검정을 위한 기계 학습 구현

관련 출원에 대한 상호 참조

본 출원은 다음 미국 가특허 출원:

2018년 4월 13일자로 출원된 제US 62/657,602호,

2018년 10월 24일자로 출원된 제US 62/749,955호,

2018년 6월 18일자로 출원된 제US 62/679,641호,

2018년 11월 14일자로 출원된 제US 62/767,435호,

2018년 6월 1일자로 출원된 제US 62/679,587호,

2018년 9월 14일자로 출원된 제US 62/731,557호,

2018년 10월 8일자로 출원된 제US 62/742,799호,

2019년 2월 2일자로 출원된 제US 62/804,614호,

2018년 11월 14일자로 출원된 제US 62/767,369호, 및

2019년 3월 29일자로 출원된 제US 62/824,709호의 유익을 주장하며, 이들의 내용은 그 전문이 참조에 의해 본 명세서에 원용된다.

암 스크리닝은 복잡하고, 다양한 암 유형은 스크리닝과 초기 검출을 위한 상이한 접근법을 필요로 한다. 환자 순응성은 비-혈청 분석물(non-serum analyte)을 요구하는 스크리닝 방법이 자주 낮은 참여를 야기한다는 과제를 남긴다. 각각 유방조영술, 팹 테스트(pap test), 및 S상결장검사/FOBT에 의한 유방암, 자궁경부암 및 결장직장암에 대한 스트리닝 비율은 미국 질병 예방 특별 위원회(US Preventative Services Task Force: USPSTF)에 의해 권고된 100% 순응성과 거리가 멀다(Sabatino et al, Cancer Screening Test Use - United States, 2013, MMWR, 2015 64(17):464-468, Adler et al. BMC Gastroenterology 2014, 14:183). 최근 보고는 이제까지 결장직장암 스크리닝을 받은 적격 성인의 퍼센트가 주에 따라 2016년에 58.5%(뉴멕시코주) 내지 75.9%(메인주) 범위이고 평균 67.3%였다고 밝혔다(Joseph DA, et al. Use of Colorectal Cancer Screening Tests by State. Prev Chronic Dis 2018; 15:170535).

혈액 기반의 시험은 암 진단법으로서 및 정밀 의학에서 대단한 장래성을 약속한다. 그러나, 대부분 현재 시험은 단일 부류의 분자(예를 들면, 순환 종양 DNA, 혈소판 mRNA, 순환 단백질)의 분석으로 제한된다. 잠재적인 분석을 위하여 혈액에서 생물학적 분석물의 넓은 보완물이 존재하고, 관련된 데이터 생성이 유의미하다. 그러나, 전체 분석물의 분석은 힘들고, 경제적이지 않으며, 유용한 신호와 관련된 엄청난 생물학적 잡음을 더할 수 있고, 진단 또는 정밀 의학 응용분야를 위한 유용한 분석에 혼동을 줄 수 있다.

심지어 초기 검출 및 게놈 특성화에 있어서, 게놈 분석이 효과적인 약물 또는 적용 가능한 임상 시험을 지명하는데 실패하는 상당한 수의 경우가 남아 있다. 심지어 표적 가능한 게놈 변경이 발견되는 경우, 환자는 치료법에 항상 반응하지는 않는다(Pauli et al., Cancer Discov. 2017, 7(5): 462-477). 추가로, 검출 방법을 위한 순환 종양 DNA(ctDNA)의 사용에 대한 민감도 장벽이 존재한다. ctDNA는 최근에 초기 단계 암을 검출하는데 유망한 분석물로서 평가되었고, 이는 필요한 특이도 및 민감도에서 ctDNA를 검출하는데 상당한 부피의 혈액을 필요로 하는 것으로 밝혀졌다(Aravanis, A. et al., Next-Generation Sequencing of Circulating Tumor DNA for Early Cancer Detection, Cell, 168:571-574). 이와 같이, 단순하고 용이하게 이용 가능한 단일 분석물 시험은 찾기 힘든 상태이다.

암 진단의 분야에서, 머신 러닝 또는 기계 학습(machine learning)은 대규모 통계적 접근법 및 단일 강도의 자동화된 특성화를 가능하게 할 수 있다. 아직 분자 진단 컨텍스트에서 생물학에 적용된 기계 학습은 거의 탐사되지 않은 분야로 남아 있고, 진단 및 정밀 의학의 양상, 예를 들면, 분석물 선별, 검정 선별, 및 종합 최적화에 적용되지 않았다.

따라서 필요한 것은 용이하게 수득되는 생물학적 분석물을 분석하여 암의 위험이 있거나 암을 가진 개체를 계층화하고 초기 단계의 암의 효과적인 특성화를 제공하여 치료 결정을 안내하는 방법이다. 또한 필요한 것은 기계 학습 접근법에 분석물 데이터 세트를 도입하여 개체 집단을 계층화하고 암과 같은 질환을 검출하는데 사용하기 위한 분류기(classifier)를 개발하고 개량하는 방법이다.

본 명세서에는 다양한 응용분야에 있어서 생물학적 샘플에서 하나 이상의 생물학적 분석물과 함께 기계 학습 접근법을 도입하여 개체 집단을 계층화하는 방법 및 시스템이 기재된다. 특정한 예에서, 방법 및 시스템은 질환의 예측, 치료 효과, 및 병에 걸린 개체를 위한 치료 결정 안내에 유용하다.

본 발명의 접근법은 본 발명의 방법이 종양 세포, 미세환경에 의해 유도되거나 숙지된 건강한 비종양 세포, 및 개체에게 존재하는 종양 세포에 의해 숙지되었을 수 있는 순환 면역 세포로부터의 분석물을 포함하는 순환의 비세포성 부분을 특성화하는 접근법에 초점을 둔다는 점에서 다른 방법 및 시스템과 상이하다.

다른 접근법은 면역계의 세포성 부분을 특성화하는 것에 관한 것인 반면, 본 발명의 방법 및 시스템은 순환의 암 숙지된, 비세포성 부분을 질의하여 통지된 생물학적 정보를 제공한 다음, 이를 유용한 응용을 위하여 기계 학습 도구와 조합한다. 액체 생물학적 샘플(예를 들면, 혈장)에서 비세포성 분석물의 연구는 샘플의 디콘볼루션이 개체의 조직의 분자 상태 및 살아있는 세포 상태의 면역 세포를 개괄하는 것을 허용한다. 면역계의 비세포성 부분의 연구는 암 상태의 대리 지표를 제공하고, ctDNA 단독에 의해 스크리닝하는 경우, 암 세포 및 연관된 생물학적 마커를 검출하기 위한 상당한 혈액 부피의 필요성을 대체한다.

제1 양상에 있어서, 개시내용은 하기 단계를 포함하는 개체의 집단을 구별할 수 있는 분류기를 사용하는 방법을 제공한다:

a) 생물학적 샘플에서 분자의 복수의 부류를 검정하는 단계로서, 여기서 검정은 분자의 복수의 부류를 대표하는 측정치의 복수의 세트를 제공하는, 검정하는 단계,

b) 기계 학습 또는 통계적 모델에 입력되는 분자의 복수의 부류의 각각의 성질에 상응하는 특징의 세트를 식별하는 단계,

c) 측정치의 복수의 세트 각각으로부터의 특징값의 특징 벡터를 제조하는 단계로서, 각각의 특징값은 특징들의 세트의 특징에 상응하고 하나 이상의 측정치를 포함하고, 여기서 특징 벡터는 측정치의 복수의 세트의 각각의 세트를 사용하여 수득된 적어도 하나의 특징값을 포함하는, 특징 벡터를 제조하는 단계,

d) 컴퓨터 시스템의 메모리에, 분류기를 포함하는 기계 학습 모델, 생물학적 샘플의 훈련으로부터 수득된 훈련 벡터를 사용하여 훈련된 기계 학습 모델, 특정된 성질을 가진 것으로 식별된 훈련 생물학적 샘플의 제1 하위세트, 및 특정된 성질을 갖지 않는 것으로 식별된 훈련 생물학적 샘플의 제2 하위세트를 로딩하는 단계,

e) 특징 벡터를 기계 학습 모델에 입력하여 생물학적 샘플이 특정된 성질을 갖는지의 여부의 출력 분류를 수득함으로써, 특정된 성질을 가진 개체의 집단을 구별하는 단계.

예로서, 분자의 부류는 핵산, 폴리아미노산, 탄수화물, 또는 대사물질로부터 선택될 수 있다. 추가의 예로서, 분자의 부류는 데옥시리보핵산(DNA), 게놈 DNA, 플라스미드 DNA, 상보적 DNA(cDNA), 무세포(cell-free)(예를 들면, 비캡슐화된) DNA(cfDNA), 순환 종양 DNA(ctDNA), 뉴클레오솜 DNA, 크로마토솜 DNA, 미토콘드리아 DNA(miDNA), 인공 핵산 유사체, 재조합 핵산, 플라스미드, 바이러스 벡터, 및 염색질을 포함하는 핵산을 포함할 수 있다. 일례에서, 샘플은 cfDNA를 포함한다. 일례에서, 샘플은 말초 혈액 단핵구 세포-유도된(PBMC-유도된) 게놈 DNA를 포함한다.

추가의 예로서, 분자의 부류는 리보핵산(RNA), 메신저 RNA(mRNA), 운반 RNA(transfer RNA: tRNA), 마이크로 RNA(mitoRNA), 리보솜 RNA(rRNA), 순환 RNA(circulating RNA: cRNA), 대체 스플라이싱된 mRNA(alternatively spliced mRNA), 소형 핵 RNA(small nuclear RNA: snRNA), 안티센스 RNA, 숏 헤어핀 RNA(short hairpin RNA: shRNA), 또는 소간섭 RNA(small interfering RNA: siRNA)를 포함하는 핵산을 포함할 수 있다.

추가의 예로서, 분자의 부류는 폴리아미노산, 펩타이드, 단백질, 자가항체 또는 이의 단편을 포함하는 폴리아미노산을 포함할 수 있다.

추가의 예로서, 분자의 부류는 당, 지질, 아미노산, 지방산, 페놀성 화합물, 또는 알칼로이드를 포함할 수 있다.

다양한 예에서, 분자의 복수의 부류는 cfDNA 분자, cfRNA 분자, 순환 단백질, 항체, 및 대사물질 중 적어도 둘을 포함한다.

개시내용의 양상에서와 같이, 본 명세서에서 시스템 및 방법에 대한 다양한 예에서, 분자의 복수의 부류는 1) cfDNA, cfRNA, 폴리아미노산, 및 소형 화학 분자, 또는 2) cfDNA 및 cfRNA, 및 폴리아미노산, 3) cfDNA 및 cfRNA 및 소형 화학 분자, 또는 4) cfDNA, 폴리아미노산, 및 소형 화학 분자, 또는 5) cfRNA, 폴리아미노산, 및 소형 화학 분자, 또는 6) cfDNA 및 cfRNA, 또는 7) cfDNA 및 폴리아미노산, 또는 8) cfDNA 및 소형 화학 분자, 또는 9) cfRNA 및 폴리아미노산, 또는 10) cfRNA 및 소형 화학 분자, 또는 11) 폴리아미노산 및 소형 화학 분자로부터 선택될 수 있다.

일례에서, 분자의 복수의 부류는 cfDNA, 단백질 및 자가항체이다.

다양한 예에서, 복수의 검정은 전체 게놈 시퀀싱(whole-genome sequencing: WGS), 전체 게놈 바이설파이트 시퀀싱(whole-genome bisulfite sequencing: WGSB), 소형 RNA 시퀀싱, 정량적 면역검정, 효소 결합 면역 흡착 검정(ELISA), 근접 확장 검정(proximity extension assay: PEA), 단백질 마이크로어레이, 질량 분석, 로우-커버리지 전체 게놈 시퀀싱(low-coverage Whole-Genome Sequencing: lcWGS); 선택적 태깅 5mC 시퀀싱(selective tagging 5mC sequencing)(WO2019/051484), CNV 콜링(CNV calling); 종양 분획(tumor fraction: TF) 추정; 전체 게놈 바이설파이트 시퀀싱(Whole Genome Bisulfite Sequencing); LINE-1 CpG 메틸화; 56 유전자 CpG 메틸화; cf-단백질 이뮤노-퀀트(cf-Protein Immuno-Quant) ELISA, SIMOA; 및 cf-miRNA 시퀀싱, 및 임의의 상기 검정으로부터 유도된 세포 유형 또는 세포 표현형 혼합물 비율 중 적어도 둘을 포함할 수 있다.

일례에서, 전체 게놈 바이설파이트 시퀀싱은 메틸화 분석을 포함한다.

다양한 예에서, 생물학적 샘플의 분류는 선형 판별 분석(linear　discriminant analysis: LDA); 부분 최소 자승법(partial least square: PLS); 랜덤 포레스트(random forest); k-최근접 이웃법(k-nearest neighbor: KNN); 방사 기준 함수 커널에 의한 서포트 벡터 머신(support vector machine: SVM)(SVMRadial); 선형 기준 함수 커널에 의한 SVM(SVM with　linear　basis function kernel: SVMLinear); 다항 기준 함수 커널에 의한 SVM(SVM with polynomial basis function kernel: SVMPoly), 결정 트리(decision tree), 다층 인식자(multilayer perceptron), 전문가망(mixture of expert), 희소 요인 분석(sparse factor analysis), 계층적 분해(hierarchical decomposition) 및 선형 대수 연산과 통계의 조합 중 하나 이상에 따라 훈련되고 건설된 분류기에 의해 수행된다.

다양한 예에서, 특정된 성질은 임상적으로 진단된 질병일 수 있다. 임상적으로 진단된 질병은 암일 수 있다. 예로서, 암은 결장직장암, 간암, 폐암, 췌장암, 또는 유방암으로부터 선택될 수 있다. 일부 예에서, 특정된 성질은 치료에 반응성이다. 일례에서 특정된 성질은 환자 특성 또는 표현형의 연속 측정일 수 있다.

제2 양상에 있어서, 본 개시내용은 하기를 포함하는 생물학적 샘플의 분류를 수행하는 시스템을 제공한다:

a) 복수의 훈련 샘플을 수신하는 수신기로서, 각각의 복수의 훈련 샘플은 분자의 복수의 부류를 갖고, 여기서 각각의 복수의 훈련 샘플은 하나 이상의 공지된 표지를 포함하는, 수신기,

b) 각각의 복수의 훈련 샘플에 대하여 기계 학습 모델에 입력되도록 작동 가능한 검정에 상응하는 특징의 세트를 식별하는 특징 모듈로서, 여기서 특징의 세트는 복수의 훈련 샘플에서 분자의 성질에 상응하는, 특징 모듈,

여기서 각각의 복수의 훈련 샘플에 대하여, 시스템은 훈련 샘플에서 분자의 복수의 부류를 복수의 상이한 검정의 대상이 되도록 작동 가능하여 측정치의 세트를 수득하고, 여기서 측정치의 각각의 세트는 하나의 검정으로부터 훈련 샘플에서 분자의 부류에 적용되고, 여기서 측정치의 복수의 세트는 복수의 훈련 샘플에 대하여 수득되고,

c) 훈련 샘플에 대하여 훈련 벡터를 수득하기 위하여 측정치의 세트를 분석하는 분석 모듈로서, 여기서 훈련 벡터는 상응하는 검정의 특징의 N 세트의 특징값을 포함하고, 각각의 특징값은 특징에 상응하고 하나 이상의 측정치를 포함하고, 여기서 훈련 벡터는 복수의 상이한 검정의 제1 하위세트에 상응하는 특징의 N 세트 중 적어도 둘로부터의 적어도 하나의 특징을 사용하여 형성되는, 분석 모듈,

d) 기계 학습 모델의 파라미터를 사용하여 훈련 벡터 상의 시스템에 정보를 주어 복수의 훈련 샘플을 위한 출력 표지를 수득하는 표지화 모듈,

e) 출력 표지를 훈련 샘플의 공지된 표지에 비교하는 비교기 모듈,

f) 훈련 샘플의 공지된 표지에 대한 출력 표지의 비교를 기반으로 기계 학습 모델을 훈련의 부분으로서 파라미터의 최적 값을 반복하여 검색하는 훈련 모듈, 및

g) 기계 학습 모델의 파라미터 및 기계 학습 모델에 대한 특징의 세트를 제공하는 출력 모듈.

제3 양상에 있어서, 개시내용은 하기를 포함하는 생물학적 샘플 조성물에서 다중 분석물 분석을 기반으로 대상체를 분류하기 위한 시스템을 제공한다: (a) 다중 분석물 분석을 기반으로 대상체를 분류하도록 작동 가능한 분류기를 포함하는 컴퓨터 판독 가능 매체; 및 (b) 컴퓨터 판독 가능한 매체에 저장된 명령을 실행하기 위한 하나 이상의 프로세서.

일례에서, 시스템은 선형 판별 분석(LDA) 분류기, 이차 판별 분석(quadratic discriminant analysis: QDA) 분류기, 서포트 벡터 머신(SVM) 분류기, 랜덤 포레스트(RF) 분류기, 선형 커널 서포트 벡터 머신 분류기(linear　kernel support vector machine classifier), 1차 또는 2차 다항 커널 서포트 벡터 머신 분류기(first or second order polynomial kernel support vector machine classifier), 리지 회귀 분류기(ridge regression classifier), 탄성 그물 알고리즘 분류기(elastic net algorithm classifier), 순차 최소 최적화 알고리즘 분류기(sequential minimal optimization algorithm classifier), 나이브 베이즈 알고리즘 분류기(naive Bayes algorithm classifier), 및 NMF 예측 알고리즘 분류기(NMF predictor algorithm classifier)로부터 선택된 기계 학습 분류기로서 구성되는 분류 회로를 포함한다.

일례에서, 시스템은 임의의 전술한 방법을 수행하기 위한 수단을 포함한다. 일례에서, 시스템은 임의의 전술한 방법을 수행하도록 구성된 하나 이상의 프로세서를 포함한다. 일례에서, 시스템은 임의의 전술한 방법의 단계를 각각 수행하는 모듈을 포함한다.

본 발명의 개시내용의 또 다른 양상은 하나 이상의 컴퓨터 프로세서에 의한 실행하에, 상기 또는 본원의 다른 곳의 임의의 방법을 실시하는 기계 실행 가능 코드를 포함하는 비일시적인 컴퓨터 판독 가능 매체를 제공한다.

본 발명의 개시내용의 또 다른 양상은 하나 이상의 컴퓨터 프로세서 및 이에 연결된 컴퓨터 메모리를 포함하는 시스템을 제공한다. 컴퓨터 메모리는 하나 이상의 컴퓨터 프로세서에 의한 실행하에, 상기 또는 본원의 다른 곳의 임의의 방법을 실시하는 기계 실행 가능 코드를 포함한다.

제4 양상에 있어서, 본 발명의 개시내용은 하기 단계를 포함하는 개체에서 암의 존재를 검출하는 방법을 제공한다:

a) 개체로부터 수득된 생물학적 샘플에서 분자의 복수의 부류를 검정하는 단계로서, 여기서 검정은 분자의 복수의 부류를 대표하는 측정치의 복수의 세트를 제공하는, 검정하는 단계,

b) 기계 학습 모델로 입력되는 분자의 복수의 부류의 각각의 성질에 상응하는 특징의 세트를 식별하는 단계,

c) 측정치의 복수의 세트의 각각으로부터의 특징값의 특징 벡터를 제조하는 단계로서, 각각의 특징값은 특징의 세트의 한 특징에 상응하고 하나 이상의 측정 값을 포함하고, 여기서 특징 벡터는 측정치의 복수의 세트의 각각의 세트를 사용하여 수득된 적어도 하나의 특징값을 포함하는, 특징 벡터를 제조하는 단계,

d) 컴퓨터 시스템의 메모리에, 훈련 생물학적 샘플로부터 수득된 훈련 벡터를 사용하여 훈련되는 기계 학습 모델, 암을 가진 개체로부터 식별된 훈련 생물학적 샘플의 제1 하위세트 및 암을 갖지 않은 개체로부터 식별된 훈련 생물학적 샘플의 제2 하위세트를 로딩하는 단계,

e) 특징 벡터를 기계 학습 모델에 입력하여 생물학적 샘플이 암과 연관되어 있는지의 여부의 출력 분류를 수득함으로써, 개체에서 암의 존재를 검출하는 단계.

일례에서, 방법은 분류기 분석으로부터의 분류 데이터를 조합하여 검출값을 제공하는 것을 포함하고, 여기서 검출값은 개체에서 암의 존재를 나타낸다.

일례에서, 방법은 분류기 분석으로부터의 분류 데이터를 조합하여 검출값을 제공하는 것을 포함하고, 여기서 검출값은 개체에서 암의 단계를 나타낸다.

예로서, 암은 결장직장암, 간암, 폐암, 췌장암 또는 유방암으로부터 선택될 수 있다. 일례에서, 암은 결장직장암이다.

제5 양상에 있어서, 본 발명의 개시내용은 하기 단계를 포함하는 암을 가진 개체의 예후를 결정하는 방법을 제공한다:

b) 기계 학습 모델에 입력되는 분자의 복수의 부류의 성질에 상응하는 특징의 세트를 식별하고, 측정치의 복수의 세트의 각각으로부터의 특징값의 특징 벡터를 제조하는 단계로서, 각각의 특징값은 특징의 세트의 한 특징에 상응하고 하나 이상의 측정치를 포함하고, 여기서 특징 벡터는 측정치의 복수의 세트의 각각의 세트를 사용하여 수득된 적어도 하나의 특징값을 포함하는, 특징 벡터를 제조하는 단계,

c) 컴퓨터 시스템의 메모리에, 훈련 생물학적 샘플로부터 수득된 훈련 벡터를 사용하여 훈련되는 기계 학습 모델, 우수한 암 예후를 가진 개체로부터 식별된 훈련 생물학적 샘플의 제1 하위세트 및 우수한 암 예후를 갖지 않은 개체로부터 식별된 훈련 생물학적 샘플의 제2 하위세트를 로딩하는 단계,

d) 특징 벡터를 기계 학습 모델에 입력하여 생물학적 샘플이 우수한 암 예후와 연관되어 있는지의 여부의 출력 분류를 수득함으로써, 암을 가진 개체의 예후를 결정하는 단계.

예로서, 암은 결장직장암, 간암, 폐암, 췌장암 또는 유방암으로부터 선택될 수 있다.

제6 양상에 있어서, 본 발명의 개시내용은 하기 단계를 포함하는 암 치료에 대한 반응성을 결정하는 방법을 제공한다:

c) 컴퓨터 시스템의 메모리에, 훈련 생물학적 샘플로부터 수득된 훈련 벡터를 사용하여 훈련되는 기계 학습 모델, 치료에 반응하는 개체로부터 식별된 훈련 생물학적 샘플의 제1 하위세트 및 치료에 반응하지 않는 개체로부터 식별된 훈련 생물학적 샘플의 제2 하위세트를 로딩하는 단계,

d) 특징 벡터를 기계 학습 모델에 입력하여 생물학적 샘플이 치료 반응과 연관되어 있는지의 여부의 출력 분류를 수득함으로써, 암 치료에 대한 반응성을 결정하는 단계.

일례에서, 암 치료는 알킬화제, 식물성 알칼로이드, 항종양 항생제, 항대사물질, 토포아이소머라제 저해제, 레티노이드, 관문 저해제 요법, 또는 VEGF 저해제로부터 선택된다.

일례에서, 방법은 분류기 분석으로부터의 분류 데이터를 조합하여 검출값을 제공하는 것을 포함하고, 여기서 검출값은 개체에서 치료에 대한 반응을 나타낸다.

이들 및 다른 예는 하기 상세하게 기재된다. 예를 들면, 다른 예는 본 명세서에 기재된 방법과 연관된 시스템, 장치, 및 컴퓨터 판독 가능 매체에 관한 것이다.

본 발명의 개시내용의 예의 성질 및 이점의 더 우수한 이해는 하기 상세한 설명 및 첨부된 도면을 참조하여 얻을 수 있다.

도 1은 본 명세서에 제공된 방법을 실시하도록 프로그래밍되거나 달리 구성된 예시적인 시스템을 도시한다.
도 2는 생물학적 샘플을 분석하는 방법을 설명하는 흐름도이다.
도 3은 다양한 양상에 따른 전체 체계를 도시한다.
도 4는 다중 분석물 접근법의 개관을 도시한다.
도 5는 다양한 양상에 따른 검정 및 상응하는 기계 학습 모델을 설계하기 위한 반복 공정을 도시한다.
도 6은 실시형태에 따른 생물학적 샘플의 분류를 수행하는 방법을 설명하는 흐름도이다.
도 7A 및 도 7B는 상이한 분석물에 대한 분류 성능을 도시한다.
도 8A 및 도 8B는 cfDNA-seq 데이터를 기반으로 한 높은(>20%) 종양 분획을 가진 개체에 대한 종양 분획 cfDNA 샘플의 분포를 도시한다.
도 9는 LINE-1 부위에서의 CpG 메틸화 분석을 도시한다.
도 10은 cf-miRNA 시퀀싱 분석을 도시한다.
도 11A는 순환 단백질 바이오마커 분포를 도시한다. 도 11B는 일원변량분석(1-way ANOVA) 후, 시닥(Sidak) 다중 비교 시험에 따른 조직 유형에 걸쳐 유의미하게 상이한 수준을 나타내는 단백질을 도시한다.
도 12A는 종양 분획의 함수로서 cfDNA, CpG 메틸화, cf-miRNA 및 단백질 수의 PCA를 도시한다. 도 12B는 환자 진단의 함수로서 cfDNA, CpG 메틸화, cf-miRNA 및 단백질 수의 PCA를 도시한다.
도 13은 cfDNA 샘플을 사용하는 게놈의 영역의 피어슨/스피어만/켄달 상관(Pearson/Spearman/Kendall correlation)을 사용하여 생성된 상관 행렬의 뉘앙스 구조로부터 결정된 염색체 구조 점수의 히트맵을 도시한다.
도 14는 도 13에서와 같이 게놈의 동일한 영역의 Hi-C 시퀀싱으로부터 결정된 염색체 구조 점수의 히트맵을 도시한다.
도 15A는 Hi-C, 다중 cfDNA 샘플로부터의 공간 상관 단편 길이, 및 단일 cfDNA 샘플로부터의 공간 상관 단편 길이 분포로부터 생성된 상관 지도를 도시한다. 도 15B는 Hi-C, 다중 샘플 cfDNA, 및 단일 샘플 cfDNA로부터의 구획 A/B의 게놈 브라우저 트랙을 도시한다. 도 15C는 Hi-C, 다중 샘플 cfDNA(도 15C), 및 단일 샘플 cfDNA(도 15D) 사이의 구획 수준에서 일치의 산점도를 도시한다.
도 16A는 픽셀 수준(500-kb 빈(bin))에서 Hi-C와 cfHi-C 사이의 상관을 도시한다. 도 16B는 구획 수준(500-kb 빈)에서 Hi-C와 cfHi-C 사이의 상관을 도시한다.
도 17A는 G+C%가 chr1 상의 각각의 빈에서 단편 길이로부터 LOWESS에 의해 회귀하기 전의 cfHi-C의 히트맵을 도시한다. 도 17B는 G+C%가 chr1 상의 각각의 빈에서 단편 길이로부터 LOWESS에 의해 회귀한 후의 cfHi-C의 히트맵을 도시한다. 도 17C는 G+C%가 chr1 상의 각각의 빈에서 단편 길이로부터 LOWESS에 의해 회귀하기 전의 gDNA의 히트맵을 도시한다. 도 17D는 G+C%가 chr1 상의 각각의 빈에서 단편 길이로부터 LOWESS에 의해 회귀한 후의 gDNA의 히트맵을 도시한다. 도 17E는 도 17A-17D에 도시된 모든 염색체에 걸친 Hi-C(WBC, rep2)를 가진 픽셀 수준 상관(피어슨 및 스피어만)의 상자 그림을 도시한다.
도 18A는 다중 샘플 cfHi-C로부터의 2차원 공간에서 G+C% 및 맵핑 가능성 편향 분석을 도시한다. 도 18B는 단일 샘플 cfHi-C로부터의 2차원 공간에서 G+C% 및 맵핑 가능성 편향 분석을 도시한다. 도 18C는 다중 샘플 게놈 DNA로부터의 2차원 공간에서 G+C% 및 맵핑 가능성 편향 분석을 도시한다. 도 18D는 단일 샘플 게놈 DNA로부터의 2차원 공간에서 G+C% 및 맵핑 가능성 편향 분석을 도시한다. 도 18E는 다중 샘플 cfHi-C로부터의 2차원 공간에서 G+C% 및 맵핑 가능성 편향 분석을 도시한다. 도 18F는 Hi-C(WBC)로부터의 2차원 공간에서 G+C% 및 맵핑 가능성 편향 분석을 도시한다.
도 19A는 한 쌍의 빈이 임의의 다른 개체(chr14)로부터 무작위로 셔플링된 다중 샘플 cfHi-C의 히트맵을 도시한다. 도 19B는 도 19A(11 샘플; chr14)와 동일한 배취(batch)로부터의 샘플에 대한 다중 샘플 cfHi-C의 히트맵을 도시한다. 도 19C는 도 19B(11 샘플; chr14)와 동일한 샘플 크기를 가진 샘플에 대한 다중 샘플 cfHi-C의 히트맵을 도시한다. 도 19D는 도 19A 내지 도 19C에 나타낸 모든 염색체에 걸친 Hi-C(WBC, rep2)와 픽셀 수준 상관의 상자 그림을 도시한다.
도 20A는 상이한 샘플 크기에서 Hi-C(WBC, rep1)와 다중 샘플 cfHi-C 사이의 피어슨 상관을 도시한다. 도 20B는 상이한 샘플 크기에서 Hi-C(WBC, rep1)와 다중 샘플 cfHi-C 사이의 스피어만 상관을 도시한다. 도 20C는 상이한 샘플 크기에서 Hi-C(WBC, rep2)와 다중 샘플 cfHi-C 사이의 피어슨 상관을 도시한다. 도 20D는 상이한 샘플 크기에서 Hi-C(WBC, rep2)와 다중 샘플 cfHi-C 사이의 스피어만 상관을 도시한다.
도 21A는 상이한 빈 크기에서 Hi-C와 다중 샘플 cfHi-C 사이의 픽셀 수준의 피어슨 상관을 도시한다. 도 21B는 상이한 빈 크기에서 Hi-C와 다중 샘플 cfHi-C 사이의 픽셀 수준의 스피어만 상관을 도시한다. 도 21C는 상이한 빈 크기에서 Hi-C와 단일 샘플 cfHi-C 사이의 픽셀 수준의 피어슨 상관을 도시한다. 도 21D는 상이한 빈 크기에서 Hi-C와 단일 샘플 cfHi-C 사이의 픽셀 수준의 스피어만 상관을 도시한다. 도 21E는 상이한 빈 크기에서 Hi-C와 다중 샘플 cfHi-C 사이의 구획 수준의 피어슨 상관을 도시한다. 도 21F는 상이한 빈 크기에서 Hi-C와 다중 샘플 cfHi-C 사이의 구획 수준의 스피어만 상관을 도시한다. 도 21G는 상이한 빈 크기에서 Hi-C와 단일 샘플 cfHi-C 사이의 구획 수준의 피어슨 상관을 도시한다. 도 21H는 상이한 빈 크기에서 Hi-C와 단일 샘플 cfHi-C 사이의 구획 수준의 스피어만 상관을 도시한다.
도 22A는 다운샘플링 후 상이한 리드 수에서 Hi-C와 단일 샘플 cfHi-C 사이의 픽셀 수준의 피어슨 및 스피어만 상관을 도시한다. 도 22B는 다운샘플링 후 상이한 리드 수에서 Hi-C와 단일 샘플 cfHi-C 사이의 구획 수준의 피어슨 및 스피어만 상관을 도시한다.
도 23A는 건강한 샘플 및 결장암, 폐암, 및 흑색종으로부터의 높은 종양 분획 샘플의 커널 PCA(RBF 커널)을 도시한다. 도 23B 내지 도 23F는 건강한 샘플 및 결장암, 폐암, 및 흑색종으로부터의 높은 종양 분획 샘플의 CCA를 도시한다.
도 24는 동일한 세포 유형(GM12878)으로부터의 Hi-C로부터의 DNA 접근성과 구획-수준 고유치 사이의 상관 지도를 도시한다.
도 25A는 건강한 샘플, 결장직장암, 폐암, 및 흑색종 샘플의 단일 샘플 cfDNA로부터 추론된 세포 조성물의 히트맵을 도시한다. 도 25B는 건강한 샘플, 결장직장암, 폐암, 및 흑색종 샘플의 단일 샘플 cfDNA로부터 추론된 세포 조성물의 원형 도표를 도시한다. 도 25C는 100명의 건강한 개체로부터의 단일 샘플 cfDNA로부터 추론된 백혈구 분획 및 종양 분획의 상자 그림을 도시한다.
도 26은 폐암, 흑색종, 및 결장암에 대한 CNV 변화 없이 오로지 게놈 영역을 사용하는 ichorCNA로부터의 종양 분획과 cfHi-C로부터의 종양 분획 사이의 비교를 도시한다.
도 27A는 훈련 스키마 포크-폴드(fork-fold), k-배취, 균형 k-배취, 및 순차 k-배취를 도시한다. 도 27B는 제도적 다운샘플링 도식을 갖는 k-배취를 도시한다.
도 28A는 암 검출을 위하여 평가된 모든 검증 접근법(예를 들면, k-폴드, k-배취, 균형 k-배취, 및 순차 k-배취)에 대한 수신기 동작 특성(ROC) 곡선의 예를 도시한다. 도 28B는 평가된 모든 검증 접근법에 걸친 CRC 단계에 의한 민감도를 도시한다. 도 28C는 평가된 모든 검증 접근법에 걸친 IchorCNA-추정된 종양 분획에 의한 AUC를 도시한다. 도 28D는 평가된 모든 검증 접근법에 걸친 연령 빈에 의한 AUC를 도시한다. 도 28E는 평가된 모든 검증 접근법에 걸친 성별 빈에 의한 AUC를 도시한다.
도 29A는 유방암에 대한 교차 검증(ROC 곡선)의 분류 성능을 도시한다. 도 29B는 간암에 대한 교차 검증(ROC 곡선)의 분류 성능을 도시한다. 도 29C는 췌장암에 대한 교차 검증(ROC 곡선)의 분류 성능을 도시한다.
도 30은 부류에 의해 추정된 종양 분획(TF)의 분포를 도시한다.
도 31A는 각각의 폴드의 훈련 세트가 샘플의 퍼센트로서 다운샘플링되는 경우, CRC 분류의 AUC 성능을 도시한다. 도 31B는 각각의 폴드의 훈련 세트가 샘플의 퍼센트로서 또는 배취의 퍼센트로서 다운샘플링되는 경우, CRC 분류의 AUC 성능을 도시한다.
도 32는 높은 종양 분획을 가진 건강한 샘플의 예를 도시한다.
도 33A는 k-폴드 모델 훈련 방법 및 교차 검증 과정을 도시한다. 도 33B는 훈련 스키마 포크-폴드, k-배취, 및 균형 k-배취를 도시한다.
도 34A는 50-84세 연령의 환자에서 CRC 단계에 의한 민감도를 도시한다. 도 34B는 50-84세 연령의 환자에서 종양 분획에 의한 민감도를 도시한다. 도 34C는 샘플의 총 수 사이의 CRC 분류의 AUC 성능을 도시한다.
도 35는 염색질 건축 및 전사 상태를 나타내는 cfDNA 포획 단백질-DNA 회합으로부터 유도된 V-플롯의 도식을 도시한다. TF = 전사 인자(보호된 작은 풋프린트 영역), NS = 뉴클레오솜(보호된 큰 영역, DNA의 완전한 묶음)
도 36은 유전자 발현을 예측하는데 사용된 TSS 영역 주변의 cfDNA 유도된 V-플롯을 도시한다.
도 37은 상이한 컷오프를 사용하여 온 및 오프 유전자를 정확하게 범주화하는 단편 길이 및 위치의 제시를 사용하는 분류기를 도시한다.
도 38A 내지 도 38C는 단계 및 추정된 종양 분획에 의한 종양 표적화된 유전자 세트를 사용하는 분류 정확도를 도시한다. IchorCNA-기반 종양 분획 추정치(ITF)는 단계에 따라 증가하지만, 대부분의 단계 I-III CRC은 낮은 추정된 ITF(<1%)를 갖는다(도 38A). 성능은 단계에 의해 증가하고, 단계 IV에서 가장 현저하다(도 38B). 성능은 종양 분획의 경우 가장 강하게 증가한다(도 38C)
도 39A는 종양 분획 추정치 대 44-결장 유전자 평균 P(온)을 도시한다. 도 39B의 평균 커버리지로부터의 배수 변화는 chr8 및 chr9에서 카피 수 교체의 강한 증거를 갖는 건강한 샘플에 대하여 나타난다.

용어

단수 표현의 열거는 구체적으로 반대로 지시되지 않는 한, "하나 이상"을 의미하는 것으로 의도된다. "또는"의 사용은 구체적으로 반대로 지시되지 않는 한, "포함하거나"를 의미하고 "배제하거나"를 의미하지 않는 것으로 의도된다. "제1" 성분에 대한 언급은 반드시 제2 성분이 제공되는 것이 필요하지는 않다. 게다가, "제1" 또는 "제2" 성분에 대한 언급은 명백하게 기재되지 않는 한, 언급된 성분을 특정한 위치로 제한하지 않는다. 용어 "기반으로 한"은 "적어도 부분적으로 기반으로 한"을 의미하는 것으로 의도된다.

용어 "곡선하면적" 또는 "AUC"는 수신기 동작 특성(receiver operating characteristic: ROC) 곡선의 곡선하면적을 지칭한다. AUC는 완전한 데이터 범위에 걸친 분류기의 정확도를 비교하는데 유용하다. 더 큰 AUC를 가진 분류기는 2개의 관심 대상 군(예를 들면, 암 샘플 및 정상 또는 대조군 샘플)으로 정확하게 미지의 것을 분류하는데 더 우수한 능력을 갖는다. ROC 곡선은 2개의 집단(예를 들면, 치료제에 반응하는 개체 및 반응하지 않는 개체)을 구별하는데 특정한 특징(예를 들면, 본 명세서에 기재된 임의의 바이오마커 및/또는 추가의 생의학 정보의 임의의 물품)의 성능을 플롯팅하는데 유용하다. 전형적으로, 전체 집단(예를 들면, 사례 및 대조군)에 걸친 특징 데이터는 단일 특징의 값을 기반으로 오름차순으로 정리된다. 그 다음, 그 특징에 대한 각각의 값에 대하여, 데이터에 대한 참 양성률 및 거짓 양성률이 계산된다. 참 양성률은 그 특징에 대한 값 이상의 사례의 수를 계수한 다음, 사례의 총 수로 나누어 결정된다. 거짓 양성률은 그 특징에 대한 값 이상의 대조군의 수를 계수한 다음, 대조군의 총 수로 나누어 결정된다. 이러한 정의는 특징이 대조군과 비교하여 사례에서 상승되는 시나리오를 지칭함에도 불구하고, 이러한 정의는 또한 특징이 대조군과 비교하여 사례에서 더 낮은 시나리오에도 적용된다(이러한 시나이로에서, 그 특징에 대한 값 미만의 샘플이 계수될 수 있다). ROC 곡선은 단일 특징뿐만 아니라 다른 단일 출력에 대하여 생성될 수 있고, 예를 들면, 둘 이상의 특징의 조합은 수학적으로 조합되어(예를 들면, 더하거나, 차감하거나, 곱하거나 등) 단일 합계 값을 제공할 수 있고, 이러한 단일 합계 값은 ROC 곡선에 플롯팅될 수 있다. 추가로, 조합이 단일 출력 값을 유도하는 다중 특징의 임의의 조합은 ROC 곡선에 플롯팅될 수 있다. 이러한 특징의 조합은 시험을 포함할 수 있다. ROC 곡선은 시험의 거짓 양성률(1-특이도)에 대한 시험의 참 양성률(민감도)의 플롯이다.

용어 "생물학적 샘플"(또는 단지 "샘플")은 대상체로부터 수득된 임의의 성분을 지칭한다. 샘플은 대상체로부터의 분석물, 예를 들면, 본 명세서에 기재된 것들(핵산, 폴리아미노산, 탄수화물, 또는 대사물질)을 함유하거나 함유하는 것으로 추정될 수 있다. 일부 양상에 있어서, 샘플은 생체내에서 수득되거나, 시험관내에서 배양되거나, 동일 반응계에서 처리된 세포 및/또는 무세포 물질뿐만 아니라 혈통 및 계보를 포함한 계통을 포함할 수 있다. 다양한 양상에 있어서, 생물학적 샘플은 대상체로부터의 조직(예를 들면, 고체 조직 또는 액체 조직), 예를 들면, 정상 또는 건강한 조직일 수 있다. 고체 조직의 예는 원발성 종양, 전이성 종양, 폴립, 또는 선종을 포함한다. 액체 샘플(예를 들면, 체액)의 예는 전혈, 혈액으로부터의 연막(림프구를 포함할 수 있음), 소변, 타액, 뇌척수액, 혈장, 혈청, 복수, 가래, 땀, 눈물, 구강 샘플, 공동 린스액, 또는 기관 린스액을 포함한다. 일부 경우에, 액체는 본질적으로 무세포 액체 샘플이거나 무세포 핵산, 예를 들면, 일부 경우에 무세포 DNA를 포함하는 무세포 액체이고, 순환 종양 세포를 포함하는 세포는 액체가 풍부하거나 액체로부터 단리될 수 있다.

용어 "암" 및 "암성"은 전형적으로 조절되지 않은 세포 성장을 특징으로 하는 포유동물에서 생리학적 병태를 지칭하거나 설명한다. 신생물, 악성 종양, 암 및 종양은 종종 상호교환적으로 사용되고, 과도한 세포 분할을 야기하는 조직 또는 세포의 비정상적인 성장을 지칭한다.

용어 "암이 없는"은 그 기관의 암이 진단된 적이 없거나 검출 가능한 암을 갖고 있지 않은 대상체를 지칭한다.

용어 "유전자 변이체"(또는 "변이체")는 하나 이상의 예상된 값으로부터의 편차를 지칭한다. 예는 서열 변이체 또는 구조 변이체를 포함한다. 다양한 예에서, 변이체는 이미 공지된 변이체, 예를 들면, 과학적으로 확인되고 문헌에 보고된 변이체, 생물학적 변화와 연관된 추정 변이체, 문헌에 보고되었지만 아직 생물학적으로 확인되지 않은 추정 변이체, 또는 문헌에 보고된 적이 전혀 없지만 컴퓨터를 사용하는 분석을 기반으로 추론된 추정 변이체를 지칭할 수 있다.

용어 "생식선 변이체"는 천연 또는 정상 변이(예를 들면, 피부색, 모발색, 및 정상 체중)를 유도하는 핵산을 지칭한다. 체세포 돌연변이는 후천적 또는 비정상 변이(예를 들면, 암, 비만, 증상, 질환, 질병 등)을 유도하는 핵산을 지칭한다. 생식선 변이체는 유전되고, 따라서 그 또는 그녀가 정규 인간 게놈와 관련하여 출생한 개체의 유전자 차이에 상응한다. 체세포 변이체는 접합체에서 발생하거나 나중에 세포 분할, 발달, 및 노화 중 임의의 시점에서 발생하는 변이체이다. 일부 예에서, 분석은 생식선 변이체, 예를 들면, 전용 변이체, 및 체세포 돌연변이로 구별될 수 있다.

용어 "입력 특징"(또는 "특징")은 샘플의 출력 분류(표지), 예를 들면, 상태, 서열 내용(예를 들면, 돌연변이), 제시된 데이터 수집 연산, 또는 제시된 치료를 예측하는 모델에 의해 사용되는 변수를 지칭한다. 변수의 값은 샘플에 대하여 결정될 수 있고, 분류를 결정하는데 사용된다. 유전자 데이터의 입력 특징의 예는 서열 데이터(예를 들면, 서열 리드)의 게놈에 대한 정렬에 관한 정렬 변수, 및 비정렬 변수, 예를 들면, 서열 리드의 서열 내용에 관한 것, 단백질 또는 자가항체의 측정, 또는 게놈 영역에서 평균 메틸화 수준을 포함한다.

용어 "기계 학습 모델"(또는 "모델")은 파라미터 및 함수의 수집물을 지칭하고, 여기서 파라미터는 훈련 샘플의 세트에 대하여 훈련된다. 파라미터 및 함수는 선형 대수 연산, 비-선형 대수 연산, 및 텐서 대수 연산의 수집일 수 있다. 파라미터 및 함수는 통계 함수, 시험, 및 확률 모델을 포함할 수 있다. 훈련 샘플은 샘플의 측정된 성질(예를 들면, 게놈 데이터 및 다른 대상체 데이터, 예를 들면, 이미지 또는 건강 기록)뿐만 아니라, 대상체에 대하여 공지된 분류/표지(예를 들면, 표현형 또는 치료)를 가진 샘플에 상응할 수 있다. 모델은 파라미터(및 가능하게는 함수)를 최적화하는 훈련 과정에서 훈련 샘플로부터 학습하여 신규한 샘플을 분류하기 위하여 최적 품질 측정법(예를 들면, 정확도)을 제공할 수 있다. 훈련 함수는 기대 최대화, 최대 가능성, 베이즈 파라미터 추정 방법, 예를 들면, 마르코브 체인 몬테 카를로, 깁스 샘플링, 해밀턴 몬테 카를로, 및 가변적 추론, 또는 경사 기반 방법, 예를 들면, 확률적 경사 하강 및 브로이덴-플레처-골드파브-산노(Broyden-Fletcher-Goldfarb-Shanno: BFGS) 알고리즘을 포함할 수 있다. 예시적인 파라미터는, 예를 들면, 회귀 또는 신경망에서 값을 곱하는 체중(예를 들면, 벡터 또는 행렬 변환), 확률 분포의 패밀리, 또는 점수를 할당하고 모델 훈련을 안내하는 손실, 비용 또는 목적 함수를 포함한다. 예시적인 파라미터는, 예를 들면, 회귀 또는 신경망에서 값을 곱하는 체중을 포함한다. 모델은 다중 하위모델을 포함할 수 있고, 이는 상이한 층의 모델 또는 독립적인 모델일 수 있고, 이는 상이한 구조적 형태, 예를 들면, 신경망 및 서포트 벡터 머신(SVM)의 조합을 가질 수 있다. 기계 학습 모델의 예는 심층 학습 모델, 신경망(예를 들면, 심층 학습 신경망), 커널-기반 회귀, 적응형 기저 회귀 또는 분류, 베이즈 방법, 앙상블 방법, 로지스틱 회귀 및 확장, 가우시안 프로세스, 서포트 벡터 머신(SVM), 확률적 모델, 및 확률적 그래픽 모델을 포함한다. 기계 학습 모델은 특징 처리(예를 들면, 데이터 구조, 예를 들면, 1차원, 2차원, 또는 더 큰 차원 벡터로 특징을 모으는 것) 및 특징 제시(예를 들면, 특징의 데이터 구조를 변형된 특징으로 처리하여 분류의 추론을 위한 훈련에서 사용하는 것)를 추가로 포함할 수 있다.

"마커" 또는 "마커 단백질"은 환자에서 확인된 진단 지표이고, 본 발명의 방법에 의해 직접적으로 또는 간접적으로 검출된다. 간접적인 검출이 바람직하다. 특히, 모든 본 발명의 마커는 암 환자 또는 암 발달 위험이 있는 환자에서 (자가)항원의 생성을 유발하는 것을 보여주었다. 따라서 이들 마커를 검출하는 단순한 방식은 환자로부터의 혈액 또는 혈청 샘플에서 이들 (자가)항체를 검출하는 것이다. 이러한 항체는 검정에서 이들의 각각의 항원에 결합함으로써 검출될 수 있다. 이러한 항원은 특히 마커 단백질 그 자체 또는 이의 항원성 단편이다. 적합한 방법은 이러한 항체-항원 반응을 구체적으로 검출하는데 사용될 수 있고, 본 발명의 개시내용의 시스템 및 방법에 따라 사용될 수 있다. 바람직하게는 샘플의 전체 항체 내용물은 정규화되고(예를 들면, 미리 설정된 농도로 희석되고) 항원에 적용된다. 바람직하게는 IgG, IgM, IgD, IgA 또는 IgE 항체 분획은 독점적으로 사용된다. 바람직한 항체는 IgG이다.

용어 "비-암성 조직"은 악성 신생물이 형성되었지만 신생물의 특성적 병리를 갖지 않는 동일한 기관으로부터의 조직을 지칭한다. 일반적으로, 비암성 조직은 조직학적으로 정상으로 나타난다. 본 명세서에서 사용되는 바와 같은 "정상 조직" 또는 "건강한 조직"은 기관이 암성이 아닌 기관으로부터의 조직을 지칭한다.

용어 "폴리뉴클레오타이드", "뉴클레오타이드", "핵산", 및 "올리고뉴클레오타이드"는 상호교환적으로 사용된다. 이들은 임의의 길이, 길이 1에서 오직 최소로 경계가 있는 뉴클레오타이드의 중합체 형태, 데옥시리보뉴클레오타이드 또는 리보뉴클레오타이드, 또는 이의 유사체를 지칭한다. 일부 예에서, 폴리뉴클레오타이드는 임의의 3차원 구조를 갖고, 임의의 공지되거나 공지되지 않은 기능을 수행할 수 있다. 핵산은 RNA, DNA, 예를 들면, 게놈 DNA, 미토콘드리아 DNA, 바이러스 DNA, 합성 DNA, RNA로부터 역전사된 cDNA, 박테리아 DNA, 바이러스 DNA, 및 염색질을 포함할 수 있다. 폴리뉴클레오타이드의 비제한적인 예는 유전자 또는 유전자 단편의 코딩 또는 비코딩 영역, 연결 분석으로부터 정의된 좌들(좌), 엑손, 인트론, 메신저 RNA(mRNA), 운반 RNA, 리보솜 RNA, 리보자임, cDNA, 재조합 폴리뉴클레오타이드, 분지형 폴리뉴클레오타이드, 플라스미드, 벡터, 임의의 서열의 단리된 DNA, 임의의 서열의 단리된 RNA, 핵산 프로브, 및 프라이머를 포함하고, 또한 뉴클레오타이드의 단일 염기일 수 있다. 일부 예에서, 폴리뉴클레오타이드는 변형된 뉴클레오타이드, 예를 들면, 메틸화된 또는 글리코실화된 뉴클레오타이드 및 뉴클레오타이드 유사체를 포함한다. 존재하는 경우, 뉴클레오타이드 구조에 대한 변형은 중합체의 조립 전 또는 후에 부여될 수 있다. 일부 예에서, 뉴클레오타이드의 서열은 비-뉴클레오타이드 성분에 의해 중단된다. 특정한 예에서, 폴리뉴클레오타이드는 중합 후, 예를 들면, 표지화 성분과의 접합에 의해 추가로 변형된다.

용어 "폴리펩타이드" 또는 "단백질" 또는 "펩타이드"는 구체적으로 천연 발생 단백질뿐만 아니라, 재조합적으로 또는 합성적으로 제조된 것들을 포함하는 것으로 의도된다. 용어 "폴리펩타이드" 또는 "단백질"은 단백질의 천연 발생 변형된 형태, 예를 들면, 글리코실화된 형태를 포함할 수 있다는 것을 주의하여야 한다. 본 명세서에서 사용되는 바와 같은 용어 "폴리펩타이드" 또는 "단백질" 또는 "펩타이드"는 임의의 아미노산 서열을 포함하는 것이 의도되고, 당단백질과 같은 변형된 서열을 포함한다.

용어 "예측"은 환자가 약물 또는 약물 세트에 바람직하게 또는 바람직하지 않게 반응할 것에 대한 가능성, 확률 또는 점수, 및 또한 이들 반응의 정도, 및 질환의 검출을 지칭하기 위하여 본 명세서에서 사용된다. 본 발명의 개시내용의 예시적인 예측 방법은 임의의 특정한 환자에 대한 대부분의 적절한 치료 양식을 선택함으로써 치료 결정을 하기 위하여 임상적으로 사용될 수 있다. 본 발명의 개시내용의 예측 방법은 환자가 치료 계획, 예를 들면, 외과 수술, 주어진 약물 또는 약물 조합에 의한 화학요법, 및/또는 방사선 요법에 바람직하게 반응할 것 같은지의 여부를 예측하는데 가치있는 도구이다.

본 명세서에서 사용되는 바와 같은 용어 "예후"는 특정한 질환 또는 질병에 걸린 대상체에 대한 임상 결과의 가능성을 나타낸다. 암과 관련하여, 예후는 대상이 생존(예를 들면, 1, 2, 3, 4 또는 5년 동안)할 가능성(확률) 및/또는 종양이 전이될 가능성(확률)의 표현이다.

용어 "특이도"(또한 참 음성율로 지칭됨)는 이와 같이 정확하게 식별된 실제 음성의 비율의 측정(예를 들면, 병태를 갖지 않는 것으로 정확하게 식별된 건강한 사람의 퍼센트)를 지칭한다. 특이도는 참 음성 콜(true negative call: TN) 및 거짓 양성 콜(false positive call: FP)의 수의 함수이다. 특이도는 (TN)/(TN + FP)로 측정된다.

용어 "민감도"(또한 참 양성률, 또는 검출의 확률로 지칭됨)는 이와 같이 정확하게 식별된 실제 양성의 비율의 측정(예를 들면, 병태를 가진 것으로 정확하게 식별된 아픈 사람의 퍼센트)를 지칭한다. 민감도는 참 양성 콜(true positive call: TP), 및 거짓 음성 콜(false positive call: FN)의 수의 함수이다. 민감도는 (TP)/(TP + FN)로서 측정된다.

용어 "구조적 변이(structural variation: SV)"는 크기가 대략 50 bp 이상인 참조 게놈과 상이한 DNA의 영역을 지칭한다. SV의 예는 역위, 전좌, 및 카피 수 변이체(copy number variant: CNV), 예를 들면, 삽입, 결실 및 증폭을 포함한다.

용어 "대상체"는 유전자 물질을 함유하는 생물학적 독립체를 지칭한다. 생물학적 독립체의 예는 식물, 동물, 또는 예를 들면, 박테리아, 바이러스, 진균류 및 원생동물을 포함하는 미생물을 포함한다. 일부 예에서, 대상체는 포유동물, 예를 들면, 남성 또는 여성일 수 있는 인간이다. 이러한 인간은 다양한 연령, 예를 들면, 1일 내지 약 1세, 약 1세 내지 약 3세, 약 3세 내지 약 12세, 약 13세 내지 약 19세, 약 20세 내지 약 40세, 약 40세 내지 약 65세 또는 65세 이상일 수 있다. 다양한 예에서, 대상체는 건강하거나 정상, 비정상, 또는 질환의 위험성이 있는 것으로 진단되거나 추정될 수 있다. 다양한 예에서, 질환은 암, 질병, 증상, 증후군, 또는 이의 임의의 조합을 포함한다.

용어 "훈련 샘플"은 분류가 공지될 수 있는 샘플을 지칭한다. 훈련 샘플은 모델을 훈련하는데 사용될 수 있다. 샘플에 대한 특징의 값은 입력 벡터, 예를 들면, 훈련 샘플에 대한 훈련 벡터를 형성할 수 있다. 훈련 벡터(또는 다른 입력 벡터)의 각각의 요소는 하나 이상의 변수를 포함하는 특징에 상응할 수 있다. 예를 들면, 훈련 벡터의 요소는 행렬에 상응할 수 있다. 샘플의 표지의 값은 스트링, 수, 바이트코드, 또는 임의의 크기, 차원, 또는 조합에서 상기 언급된 데이터유형의 임의의 수집물을 형성할 수 있다.

본 명세서에서 사용되는 바와 같은 용어 "종양", "신생물", "악성 종양" 또는 "암"은 일반적으로 악성 또는 양성인 신생물 세포 성장 및 증식, 및 모든 전암성 및 암성 세포 및 조직 및 비정상 및 제어되지 않은 세포 성장의 결과를 지칭한다.

용어 "종양 부담"은 종양의 수, 부피 또는 중량과 같이 측정될 수 있는 개체에서 종양의 양을 지칭한다. 전이되지 않는 종양은 "양성"으로 지칭된다. 주변 조직에 침입하고/하거나 전이될 수 있는 종양은 "악성"으로 지칭된다.

용어 핵산 샘플은 본 명세서에서 사용되는 바와 같이 임의의 적합한 방법에 의해 제조된 핵산 라이브러리를 포함하는 "핵산 라이브러리" 또는 "라이브러리"를 포함한다. 어댑터는 PCR 프라이머를 어닐링하여 PCR에 의한 증폭을 촉진할 수 있거나, 예를 들면, 시퀀싱 테일 어댑터와 같은 범용 프라이머 영역일 수 있다. 어댑터는 범용 시퀀싱 어댑터일 수 있다. 본 명세서에서 사용되는 바와 같이, 용어 "효율"은 시퀀싱 후 이용 가능할 수 있는 서열에 대한 고유한 분자의 수를 1차 샘플에 원래 존재하는 고유한 분자의 수로 나눔으로써 계산된 측정 가능한 행렬을 지칭할 수 있다. 추가로, 용어 "효율"은 또한 필요한 초기 핵산 샘플 물질의 감소, 샘플 제조 시간의 감소, 증폭 공정의 감소 및/또는 핵산 라이브러리 제조의 전체 비용의 감소를 지칭할 수 있다.

본 명세서에서 사용되는 바와 같이, 용어 "바코드"는 폴리뉴클레오타이드 단편을 이로부터 제조되는 입력 폴리뉴클레오타이드 또는 표적 폴리뉴클레오타이드와 연관짓는데 사용되는 공지된 서열일 수 있다. 바코드 서열은 합성 뉴클레오타이드 또는 천연 뉴클레오타이드의 서열일 수 있다. 바코드 서열은 바코드 서열이 시퀀싱 리드에 함유되도록 어댑터 서열 내에 함유될 수 있다. 각각의 바코드 서열은 적어도 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16개, 또는 그 이상의 뉴클레오타이드 길이를 포함할 수 있다. 일부 경우에, 바코드 서열은 충분한 길이일 수 있고, 이들이 연관되는 바코드 서열을 기반으로 한 샘플의 식별을 허용할 정도로 서로 충분히 상이할 수 있다. 일부 경우에, 바코드 서열은 "원래" 핵산 분자(대상체로부터의 샘플에 존재하는 핵산 분자)를 태깅하고 후속적으로 식별하는데 사용된다. 일부 경우에, 바코드 서열, 또는 바코드 서열의 조합은 내인성 서열 정보와 함께 원래 핵산 분자를 식별하는데 사용된다. 예를 들면, 바코드 서열(또는 바코드 서열의 조합)은 바코드에 인접한 내인성 서열(예를 들면, 내인성 서열의 시작과 끝) 및/또는 내인성 서열의 길이와 함께 사용될 수 있다.

일부 예에서, 본 명세서에서 사용되는 핵산 분자는 "태그화" 또는 "결찰" 반응의 대상이 될 수 있다. "태그화"는 단편화 및 결찰 반응을 라이브러리 제조 공정의 단일 단계로 조합한다. 태그화된 폴리뉴클레오타이드 단편은 태그화 동안 트랜스포존 말단 서열로 "태깅"되고, 몇 사이클의 증폭 동안 신장 동안 첨가된 추가의 서열을 추가로 포함할 수 있다. 대안적으로, 생물학적 단편은 핵산 증폭의 수행을 포함할 수 있는 핵산 분자 또는 이의 단편의 가공 동안 직접적으로 "태깅"될 수 있다. 예를 들면, 핵산 증폭 반응의 임의의 유형은 표적 핵산 분자 또는 이의 단편을 증폭하고 증폭된 생성물을 생성하는데 사용될 수 있다.

상세한 설명

생물학적 샘플에서 분석물을 검출하고, 분석물의 다양한 메트릭(metric)을 측정하고, 메트릭을 특징으로서 기계 학습 모델에 입력하여 분류기를 의학적 진단 용도로 훈련하는 방법 및 시스템이 제공된다. 본 명세서에 기재된 방법을 사용하여 제조된 훈련된 분류기는 질환 검출 및 단계 구분, 치료 반응자의 식별, 및 이것이 필요한 환자 집단에 대한 계층화를 포함하는 다중 접근법에 유용하다.

개체 집단을 계층화하는 다양한 응용분야를 위하여 생물학적 샘플에서 기계 학습 접근법에 이상의 생물학적 분석물을 도입하는 방법 및 시스템이 본 명세서에 제공된다. 생물학적 샘플에서 분석물을 검출하고, 분석물의 다양한 메트릭을 측정하고, 메트릭을 특징으로서 기계 학습 모델에 입력하여 분류기를 의학적 진단 용도로 훈련하는 방법 및 시스템이 제공된다. 본 명세서에 기재된 방법을 사용하여 제조된 훈련된 분류기는 질환 검출 및 단계 구분, 치료 반응자의 식별, 및 이것이 필요한 환자 집단에 대한 계층화를 포함하는 다중 접근법에 유용하다. 특정한 예에서, 방법 및 시스템은 질환, 치료 효과를 예측하고 병에 걸린 개체에 대한 치료 결정을 안내하는데 유용하다.

본 발명의 접근법은 본 발명의 방법이 순환 면역계의 비세포성 부분을 특성화하는 접근법에 초점을 맞춘다는 점에서 다른 방법 및 시스템과 상이하지만, 세포성 부분이 또한 사용될 수도 있다. 조혈 전환의 과정은 순환 면역 세포의 자연사 및 용해이다. 혈액의 혈장 분획은 세포가 사멸하고 순환으로 세포내 내용물을 방출하는 시간에 면역계의 단편이 풍부한 샘플을 함유한다. 구체적으로, 혈장은 임상적 증상의 제시 전에 암 세포의 존재에 의해 숙지된 면역 세포의 집단을 반영하는 생물학적 분석물의 정보가 풍부한 샘플을 제공한다. 다른 접근법은 면역계의 세포성 부분을 특성화하는 것에 관한 것인 반면, 본 발명의 방법 및 시스템은 순환의 암 숙지된, 비세포성 부분을 질의하여 생물학적 정보를 제공한 다음, 이를 유용한 응용분야를 위하여 기계 학습 도구와 조합한다. 액체, 예를 들면, 혈장에서 비세포성 분석물의 연구는 샘플의 디콘볼루션이 개체의 조직의 분자 상태 및 살아있는 세포 상태의 면역 세포를 개괄하는 것을 허용한다. 면역계의 비세포성 부분의 연구는 암 상태의 대리 지표를 제공하고, 암 세포 및 연관된 생물학적 마커를 검출하기 위한 상당한 혈액 부피의 필요성을 대체한다.

I. 순환 분석물 및 생물학적 검정과 함께 세포 해체

전체적으로 또는 부분적으로 체액 진단을 기반으로 한 건강 관련 또는 생물학적 예측(예를 들면, 약물 내성/민감도의 예측)을 위하여, 각각의 질문에 대한 비용 효율적 및 품질 검정을 개발하는 것이 중요하다. 높은 성능(정밀함) 예측 모델을 성공적으로 학습하는데 필요한 가장 강한 신호를 보유할 수 있는 상이한 분석물을 대표하는 데이터를 빠르고 효율적으로 생성할 수 있어야 한다.

A. 분석물

다양한 예에서, 생물학적 샘플은 본 명세서에 기재된 모델, 방법 및 시스템에 대한 특징 정보의 공급원을 제공하는 상이한 분석물을 포함한다. 분석물은 종양, 비종양 또는 면역 세포로부터의 아폽토시스, 괴사 및 분비로부터 유도될 수 있다. 분자 바이오마커의 4종의 많은 정보를 주는 부류는 1) DNA 프로파일, 서열 또는 변형의 분석을 기반으로 한 게놈 바이오마커; 2) RNA 발현 프로파일, 서열 또는 변형의 분석을 기반으로 한 전사체 바이오마커; 3) 단백질 프로파일, 서열 또는 변형의 분석을 기반으로 한 단백질체 또는 단백질 바이오마커 및 4) 대사물질 과잉의 분석을 기반으로 한 대사체 바이오마커를 포함한다.

1. DNA

핵산의 예는 데옥시리보핵산(DNA), 게놈 DNA, 플라스미드 DNA, 상보적 DNA(cDNA), 무세포(예를 들면, 비캡슐화된) DNA(cfDNA), 순환 종양 DNA(ctDNA), 뉴클레오솜 DNA, 크로마토솜 DNA, 미토콘드리아 DNA(miDNA), 인공 핵산 유사체, 재조합 핵산, 플라스미드, 바이러스 벡터, 및 염색질을 포함하지만 이들로 한정되지 않는다. 일례에서, 샘플은 cfDNA를 포함한다. 일례에서, 샘플은 PBMC-유도된 게놈 DNA를 포함한다.

2. RNA

다양한 예에서, 생물학적 샘플은 리보핵산(RNA), 메신저 RNA(mRNA), 운반 RNA(tRNA), 마이크로 RNA(miRNA), 리보솜 RNA(rRNA), 순환 RNA(cRNA), 대체 스플라이싱된 mRNA, 소형 핵 RNA(snRNA), 안티센스 RNA, 숏 헤어핀 RNA(shRNA), 소간섭 RNA(siRNA)를 포함하는 코딩 및 비코딩 전사체를 포함한다.

핵산 분자 또는 이의 단편은 단일 가닥을 포함할 수 있거나 이중 가닥일 수 있다. 샘플은 핵산 분자 또는 이의 단편의 하나 이상의 유형을 포함할 수 있다.

핵산 분자 또는 이의 단편은 뉴클레오타이드의 임의의 수를 포함할 수 있다. 예를 들면, 단일 가닥 핵산 분자 또는 이의 단편은 적어도 10개, 적어도 20개, 적어도 30개, 적어도 40개, 적어도 50개, 적어도 60개, 적어도 70개, 적어도 80개, 적어도 90개, 적어도 100개, 적어도 110개, 적어도 120개, 적어도 130개, 적어도 140개, 적어도 150개, 적어도 160개, 적어도 170개, 적어도 180개, 적어도 190개, 적어도 200개, 적어도 220개, 적어도 240개, 적어도 260개, 적어도 280개, 적어도 300개, 적어도 350개, 적어도 400개, 또는 그 이상의 뉴클레오타이드를 포함할 수 있다. 이중 가닥 핵산 분자 또는 이의 단편의 경우, 핵산 분자 또는 이의 단편은 적어도 10개, 적어도 20개, 적어도 30개, 적어도 40개, 적어도 50개, 적어도 60개, 적어도 70개, 적어도 80개, 적어도 90개, 적어도 100개, 적어도 110개, 적어도 120개, 적어도 130개, 적어도 140개, 적어도 150개, 적어도 160개, 적어도 170개, 적어도 180개, 적어도 190개, 적어도 200개, 적어도 220개, 적어도 240개, 적어도 260개, 적어도 280개, 적어도 300개, 적어도 350개, 적어도 400개, 또는 그 이상의 염기쌍(bp), 예를 들면, 뉴클레오타이드의 쌍을 포함할 수 있다. 일부 경우에, 이중 가닥 핵산 분자 또는 이의 단편은 100 내지 200 bp, 예를 들면, 120 내지 180 bp를 포함할 수 있다. 예를 들면, 샘플은 120 내지 180 bp를 포함하는 cfDNA 분자를 포함할 수 있다.

3. 폴리아미노산, 펩타이드, 및 단백질

다양한 예에서, 분석물은 폴리아미노산, 펩타이드, 단백질 또는 이의 단편이다. 본 명세서에서 사용되는 바와 같이 용어 폴리아미노산은 단량체가 아미드 결합을 통해 함께 결합하는 아미노산 잔기인 중합체를 지칭한다. 아미노산이 알파-아미노산인 경우, L-광학 이성질체 또는 D-광학 이성질체가 사용될 수 있고, L-이성질체가 바람직하다. 일례에서, 분석물은 자가항체이다.

암 환자 혈청-항체 프로파일 변화에서, 그 뿐만 아니라 암성 조직에 대한 자가항체가 생성된다. 이들 프로파일 변화는 암의 조기 진단을 위한 마커로서 종양 연관된 항원에 대한 큰 가능성을 제공한다. 항원과 연관된 종양의 면역원성은 돌연변이된 아미노산 서열에 부여되고, 이는 변경된 비-자가-에피토프를 노출한다. 다른 설명은 또한 선택적 스플라이싱, 성인에서의 배아 단백질의 발현(예를 들면, 전위성 발현), 아폽토시스 또는 괴사 과정의 하향조절(예를 들면, 과발현), 비정상 세포 편재화(예를 들면, 핵 단백질의 비)를 포함하여 이러한 면역원성과 연관이 있다. 인트론 서열(예를 들면, 부분적으로 스플라이싱되지 않은 RNA는 번역되었음)에 의해 인코딩된 종양 제한적 항원의 에피토프의 예는 매우 면역원성인 종양 연관된 항원을 만드는 것으로 나타났다.

본 발명의 마커의 예는 종양에서 과발현하는 적합한 단백질 항원이다. 마커는 일반적으로 환자에서 항체 반응을 유발한다. 따라서, 환자에서 이들 마터의 존재를 검출하기 위한 가장 편리한 방법은 환자로부터의 샘플, 특히 체액 샘플, 예를 들면, 혈액, 혈장 또는 혈청에서 이들 마커 단백질에 대한 (자가)항체를 검출하는 것이다.

4. 다른 분석물

다양한 예에서, 생물학적 샘플은 소형 화학 분자, 예를 들면, 이에 한정되지 않지만, 당, 지질, 아미노산, 지방산, 페놀성 화합물, 및 알칼로이드를 포함한다.

일례에서, 분석물은 대사물질이다. 일례에서, 분석물은 탄수화물이다. 일례에서, 분석물은 탄수화물 항원이다. 일례에서, 탄수화물 항원은 O-글리칸에 부착된다. 일례에서, 분석물은 일당류, 이당류, 삼당류 또는 사당류이다. 일례에서, 분석물은 사당류이다. 일례에서, 사당류는 CA19-9이다. 일례에서, 분석물은 뉴클레오솜이다. 일례에서, 분석물은 혈소판-풍부 혈장(PRP)이다. 일례에서, 분석물은 세포 요소, 예를 들면, 림프구(호중구, 호산구, 호염기구, 림프구, PBMC 및 단핵구) 또는 혈소판이다.

일례에서, 분석물은 세포 요소, 예를 들면, 림프구(호중구, 호산구, 호염기구, 림프구, PBMC 및 단핵구) 또는 혈소판이다.

다양한 예에서, 분석물의 조합은 본 명세서에 기재된 방법에 유용한 정보를 수득하기 위하여 검정된다. 다양한 예에서, 검정된 분석물의 조합은 암 유형 또는 분류 필요에 따라 상이하다.

다양한 예에서, 분석물의 조합은 1) cfDNA, cfRNA, 폴리아미노산, 및 소형 화학 분자, 또는 2) cfDNA 및 cfRNA, 및 폴리아미노산, 3) cfDNA 및 cfRNA 및 소형 화학 분자, 또는 4) cfDNA, 폴리아미노산, 및 소형 화학 분자, 또는 5) cfRNA, 폴리아미노산, 및 소형 화학 분자, 또는 6) cfDNA 및 cfRNA, 또는 7) cfDNA 및 폴리아미노산, 또는 8) cfDNA 및 소형 화학 분자, 또는 9) cfRNA 및 폴리아미노산, 또는 10) cfRNA 및 소형 화학 분자, 또는 11) 폴리아미노산 및 소형 화학 분자로부터 선택된다.

II. 샘플 제조

일부 예에서, 샘플은, 예를 들면, 대상체로부터의 조직 또는 체액 또는 둘 다로부터 수득된다. 다양한 예에서, 생물학적 샘플은 액체 샘플, 예를 들면, 혈장, 또는 혈청, 연막, 점액, 소변, 타액, 또는 뇌척수액이다. 일례에서, 액체 샘플은 무세포 액체이다. 다양한 예에서, 샘플은 무세포 핵산(예를 들면, cfDNA 또는 cfRNA)을 포함한다.

하나 이상의 분석물을 포함하는 샘플은 특정한 핵산 분자 또는 이의 단편 또는 이의 수집물을 제공하거나 정제하기 위하여 가공될 수 있다. 예를 들면, 하나 이상의 분석물을 포함하는 샘플은 분석물의 하나의 유형(예를 들면, cfDNA)을 분석물의 다른 유형으로부터 분리하기 위하여 가공될 수 있다. 또 다른 예에서, 샘플은 샘플로부터의 각각의 분취액에서 상이한 분석물의 분석을 위한 분취액으로 분리된다. 일례에서, 상이한 크기(예를 들면, 길이)의 하나 이상의 핵산 분자 또는 이의 단편을 포함하는 샘플은 더 높은 분자량 및/또는 더 긴 핵산 분자 또는 이의 단편 또는 더 낮은 분자량 및/또는 더 짧은 핵산 분자 또는 이의 단편을 제거하기 위하여 가공될 수 있다.

본 명세서에 기재된 방법은 핵산 분자 또는 이의 단편을 가공하거나 변형하는 것을 포함할 수 있다. 예를 들면, 핵산 분자 또는 이의 단편의 뉴클레오타이드는 변형된 핵염기, 당, 및/또는 연결기를 포함하도록 변형될 수 있다. 핵산 분자 또는 이의 단편의 변형은 산화, 환원, 가수분해, 태깅, 바코딩, 메틸화, 탈메틸화, 할로겐화, 탈아민화, 또는 임의의 다른 공정을 포함할 수 있다. 핵산 분자 또는 이의 단편의 변형은 효소, 화학적 반응, 물리적 공정, 및/또는 에너지에 대한 노출을 사용하여 달성될 수 있다. 예를 들면, 비메틸화된 사이토신의 탈아민화는 메틸화 분석을 위한 바이설파이트의 사용을 통해 달성될 수 있다.

샘플 가공은, 예를 들면, 하나 이상의 공정, 예를 들면, 원심분리, 여과, 선택적 침전, 태깅, 바코딩, 및 분할을 포함할 수 있다. 예를 들면, 세포 DNA는 선택적 폴리에틸렌 글리콜 및 비드 기반의 침전 공정, 예를 들면, 원심분리 또는 여과 공정에 의해 cfDNA로부터 분리될 수 있다. 샘플에 포함된 세포는 핵산 분자 또는 이의 단편의 상이한 유형의 분리 전에 용해될 수 있거나 용해되지 않을 수 있다. 일례에서, 샘플은 실질적으로 세포를 함유하지 않는다. 일례에서, 세포 성분은 특징으로서 기계 학습 방법 또는 모델에 입력될 수 있는 측정을 위하여 검정된다. 다양한 예에서, 세포 성분, 예를 들면, PBMC, 림프구는 (예를 들면, 유세포 분석, 질량 분석 또는 이뮤노패닝(immunopanning)에 의해) 검출될 수 있다. 가공된 샘플은, 예를 들면, 적어도 1 펨토그램(fg), 10 fg, 100 fg, 1 피코그램(pg), 10 pg, 100 pg, 1 나노그램(ng), 10 ng, 50 ng, 100 ng, 500 ng, 1 마이크로그램(μg), 또는 그 이상의 특정한 크기 또는 유형의 핵산 분자 또는 이의 단편을 포함할 수 있다.

일부 예에서, 혈액 샘플은 건강한 개체 및 암을 가진 개체, 예를 들면, 단계 I, II, III, 또는 IV 암을 가진 개체로부터 수득된다. 일례에서, 혈액 샘플은 건강한 개체 및 양성 폴립, 진행성 선종(AAs), 및 단계 I-IV 결장직장암(CRC)을 가진 개체로부터 수득된다. 본 명세서에 기재된 시스템 및 방법은 AA 및 CRC의 존재를 검출하고 이의 단계 및 크기로 분화하는데 유용하다. 이러한 분화는 거동의 변화 및/또는 치료 결정을 위하여 집단에서 개체를 계층화하는데 유용하다.

A. 라이브러리 제조 및 시퀀싱

정제된 핵산(예를 들면, cfDNA)은 시퀀싱을 위한 라이브러리를 제조하는데 사용될 수 있다. 라이브러리는 플랫폼-특이적 라이브러리 제조 방법 또는 키트를 사용하여 제조될 수 있다. 방법 또는 키트는 상업적으로 이용 가능할 수 있고, 시퀀서-레디 라이브러리를 생성할 수 있다. 플랫폼-특이적 라이브러리 제조 방법은 핵산 분자의 말단에 공지된 서열을 첨가할 수 있고; 공지된 서열은 어댑터 서열로서 지칭될 수 있다. 선택적으로, 라이브러리 제조 방법은 하나 이상의 분자 바코드를 도입할 수 있다.

대량 병렬 시퀀싱 시스템을 사용하여 이중 가닥 DNA 단편의 집단을 시퀀싱하기 위하여, DNA 단편에는 공지된 어댑터 서열이 측접되어 있어야 한다. 어느 말단에 어댑터가 있는 이러한 DNA 단편의 수집물은 시퀀싱 라이브러리로 불린다. 정제된 DNA로부터의 시퀀싱 라이브러리를 생성하는데 적합한 방법의 2개의 예는 (1) 단편화된 DNA의 어느 말단에 공지된 어댑터의 결찰-기반의 부착, 및 (2) 어댑터 서열의 트랜스포사제-매개된 삽입이다. 임의의 적합한 대량 병렬 시퀀싱 기술이 시퀀싱을 위하여 사용될 수 있다.

메틸화 분석을 위하여, 핵산 분자는 시퀀싱 전에 처리된다. 바이설파이트, 효소적 메틸-seq 또는 하이드록시메틸-seq에 의한 핵산 분자(예를 들면, DNA 분자)는 비메틸화된 사이토신 염기를 탈아민화시키고, 이들을 우라실 염기로 전환시킨다. 이러한 바이설파이트 전환 공정은 5' 위치에서 메틸화되거나 하이드록시메틸화된 사이토신(5mC 또는 5hmC)을 탈아민화시키지 않는다. 시퀀싱 분석과 함께 사용되는 경우, 핵산 분자 또는 이의 단편의 바이설파이트 전환을 포함하는 공정은 바이설파이트 시퀀싱(bisulfite sequencing: BS-seq)으로 지칭될 수 있다. 일부 경우에, 핵산 분자는 바이설파이트 전환을 겪기 전에 산화될 수 있다. 핵산 분자의 산화는 5hmC를 5-폼일사이토신 및 5-카복실사이토신으로 전환시킬 수 있고, 이들 둘 다는 우라실로의 바이설파이트 전환에 민감하다. 시퀀싱 분석과 함께 사용하는 경우, 핵산 분자 또는 이의 단편에 바이설파이트 시퀀싱을 수행하기 전에 핵산 분자 또는 이의 단편의 산화는 산화적 바이설파이트 시퀀싱(oxBS-seq)으로 지칭될 수 있다.

1. 시퀀싱

핵산은 차세대 시퀀싱, 높은 처리량 시퀀싱, 대량 병렬 시퀀싱, 합성에 의한 시퀀싱, 쌍 말단 시퀀싱, 단일-분자 시퀀싱, 나노기공 시퀀싱, 파이로시퀀싱, 반도체 시퀀싱, 결찰에 의한 시퀀싱, 혼성화에 의한 시퀀싱, RNA-Seq, 디지털 유전자 발현, 합성에 의한 단일 분자 시퀀싱(Single Molecule Sequencing by Synthesis: SMSS), 클론 단일 분자 어레이(Solexa), 샷건 시퀀싱(shotgun sequencing), 맥심-길버트(Maxim-Gilbert) 시퀀싱, 프라이머 워킹, 및 생거(Sanger) 시퀀싱과 같은 시퀀싱 방법을 사용하여 시퀀싱될 수 있다.

시퀀싱 방법은 표적화된 시퀀싱, 전체 게놈 시퀀싱(whole-genome sequencing: WGS), 로우패스 시퀀싱, 바이설파이트 시퀀싱, 전체 게놈 바이설파이트 시퀀싱(whole-genome bisulfite sequencing: WGBS), 또는 이들의 조합을 포함할 수 있다. 시퀀싱 방법은 적합한 라이브러리의 제조를 포함할 수 있다. 시퀀싱 방법은 핵산의 증폭(예를 들면, 표적화 또는 범용 증폭, 예를 들면, PCR에 의한)을 포함할 수 있다. 시퀀싱 방법은 원하는 깊이, 예를 들면, 적어도 약 5X, 적어도 약 10X, 적어도 약 15X, 적어도 약 20X, 적어도 약 25X, 적어도 약 30X, 적어도 약 35X, 적어도 약 40X, 적어도 약 45X, 적어도 약 50X, 적어도 약 60X, 적어도 약 70X, 적어도 약 80X, 적어도 약 90X, 적어도 약 100X에서 수행될 수 있다. 표적화된 시퀀싱을 위하여 방법은 원하는 깊이, 예를 들면, 적어도 약 500X, 적어도 약 1000X, 적어도 약 1500X, 적어도 약 2000X, 적어도 약 2500X, 적어도 약 3000X, 적어도 약 3500X, 적어도 약 4000X, 적어도 약 4500X, 적어도 약 5000X, 적어도 약 6000X, 적어도 약 7000X, 적어도 약 8000X, 적어도 약 9000X, 적어도 약 10000X에서 수행될 수 있다.

생물학적 정보는 임의의 유용한 방법을 사용하여 제조될 수 있다. 생물학적 정보는 시퀀싱 정보를 포함할 수 있다. 시퀀싱 정보는, 예를 들면, 프랜스포사제-접근 가능 염색질 사용 시퀀싱(ATAC-seq) 방법, 마이크로코칼 뉴클레아제 시퀀싱(MNase-seq) 방법, 데옥시리보뉴클레아제 과민감 부위 시퀀싱(DNase-seq) 방법, 또는 염색질 면역침전 시퀀싱(ChIP-seq) 방법을 위한 검정을 사용하여 제조될 수 있다.

시퀀싱 리드는, 예를 들면, 전체 게놈 시퀀싱, 전체 엑솜-시퀀싱, 표적화된 시퀀싱, 차세대 시퀀싱, 파이로시퀀싱, 합성에 의한 시퀀싱, 이온 반도체 시퀀싱, 태그 기반의 차세대 시퀀싱 반도체 시퀀싱, 단일-분자 시퀀싱, 나노기공 시퀀싱, 결찰에 의한 시퀀싱, 혼성화에 의한 시퀀싱, 디지털 유전자 발현(DGE), 대량 병렬 시퀀싱, 클론 단일 분자 어레이(Solexa/Illumina), PacBio를 사용하는 시퀀싱, 및 올리고뉴클레오타이드 결찰 및 검출에 의한 시퀀싱(SOLiD)을 포함하는 다양한 공급원으로부터 수득될 수 있다.

일부 예에서, 시퀀싱은, 예를 들면, 핵산 분자 또는 이의 단편에 대한 바코드, 고유한 분자 식별자(UMI), 또는 또 다른 태그의 결찰에 의한 핵산 분자 또는 이의 단편의 변형을 포함한다. 핵산 분자 또는 이의 단편의 하나의 말단에 바코드, UMI, 또는 태그를 결찰하는 것은 핵산 분자 또는 이의 단편의 분석 후 시퀀싱을 촉진할 수 있다. 일부 예에서, 바코드는 고유한 바코드(즉, UMI)이다. 일부 예에서, 바코드는 고유하지 않고, 바코드 서열은 내인성 서열 정보, 예를 들면, 표적 핵산의 시작 및 중단 서열과 함께 사용될 수 있다(예를 들면, 표적 핵산은, 표적 핵산의 시작 및 말단에 서열과 함께 바코드 및 바코드 서열이 측접되어, 고유하게 태깅된 분자를 생성한다).

시퀀싱 리드는 역다중화, 역중복제거(예를 들면, 고유한 분자 식별자, UMI를 사용하여), 어댑터-트리밍, 품질 필터링, GC 보정, 증폭 편향 보정, 배취 효과의 보정, 깊이 정규화, 성 염색체의 제거, 및 불량한 품질 게놈 빈의 제거와 같은 방법을 사용하여 가공될 수 있다.

다양한 예에서, 시퀀싱 리드는 참조 핵산 서열로 정렬될 수 있다. 일례에서, 참조 핵산 서열은 인간 참조 게놈이다. 예로서, 인간 참조 게놈은 hg19, hg38, GrCH38, GrCH37, NA12878, 또는 GM12878일 수 있다.

2. 검정

시스템의 임상적 목표를 고려해볼 때, 어떤 검정을 사용하는지의 선택은 기계 학습 모델의 훈련 결과를 기반으로 통합된다. 본 명세서에서 사용되는 바와 같이 용어 "검정"은 공지된 생물학적 검정을 포함하고, 또한 생물학적 정보를 기계 학습 분석 및 모델링을 위한 입력으로서 유용한 특징으로 변환시키기 위한 컴퓨터를 사용하는 생물학 접근법을 포함할 수 있다. 다양한 전처리 컴퓨터 도구는 본 명세서에 기재된 검정과 함께 포함될 수 있고, 용어 "검정"은 제한되는 것을 의도하지 않는다. 샘플의 다양한 부류, 샘플의 분획, 상이한 부류의 분자를 가진 이러한 분획/샘플의 부분, 및 검정의 유형은 컴퓨터를 사용하는 방법 및 모델에서 사용을 위한 특징 데이터를 생성하여 본 명세서에 기재된 방법에 유용한 분류기에 정보를 주는데 사용될 수 있다. 일례에서, 샘플은 생물학적 검정의 수행을 위하여 분취액으로 분리된다.

다양한 예에서, 생물학적 검정은 부분에서 분석물을 위한 생물학적 검정에 상응하는 데이터 세트를 제공하기 위하여 생물학적 샘플의 상이한 부분들에 대하여 수행된다. 다양한 검정은 당해 분야의 숙련가에게 공지되어 있고, 생물학적 샘플을 질의하는데 유용하다. 이러한 검정의 예는 전체 게놈 시퀀싱(WGS), 전체 게놈 바이설파이트 시퀀싱(WGSB), 소형 RNA 시퀀싱, 정량적 면역검정, 효소 결합 면역 흡착 검정(ELISA), 근접 확장 검정(PEA), 단백질 마이크로어레이, 질량 분석, 로우-커버리지 전체 게놈 시퀀싱(lcWGS); 선택적 태깅 5mC 시퀀싱(WO2019/051484), CNV 콜링; 종양 분획(TF) 추정; 전체 게놈 바이설파이트 시퀀싱; LINE-1 CpG 메틸화; 56 유전자 CpG 메틸화; cf-단백질 이뮤노-퀀트 ELISA, SIMOA; 및 cf-miRNA 시퀀싱, 및 임의의 상기 검정으로부터 유도된 세포 유형 또는 세포 표현형 혼합물 비율을 포함하지만 이들로 한정되지 않는다. 동일한 생물학적 샘플, 또는 이의 분획으로부터 동시에 다중 분석물(예를 들면, 이에 한정되지 않지만, DNA, RNA, 단백질, 자가항체, 대사물질, 또는 이들의 조합)을 분석하는 이러한 능력은 신호 사이의 독립적인 정보를 이용함으로써 이러한 체액 진단 시험의 민감도 및 특이도를 증가시킬 수 있다.

일례에서, 무세포 DNA(cfDNA) 내용물은 로우-커버리지 전체 게놈 시퀀싱(lcWGS) 또는 표적화 시퀀싱, 또는 전체 게놈 바이설파이트 시퀀싱(WGBS) 또는 전체 게놈 효소 메틸 시퀀싱에 의해 평가되고, 무세포 마이크로RNA(cf-miRNA)는 소형 RNA 시퀀싱 또는 PCR(디지털 소적 또는 정량)에 의해 평가되고, 순환 단백질의 수준은 정량적 면역검정에 의해 측정된다. 일례에서, 무세포 DNA(cfDNA) 내용물은 전체 게놈 바이설파이트 시퀀싱(WGBS)에 의해 평가되고, 단백질은 정량적 면역검정(ELISA 또는 근접 확장 검정을 포함함)에 의해 측정되고, 자가항체는 단백질 마이크로어레이에 의해 평가된다.

B. WGS를 사용하는 cf-DNA 검정

다양한 예에서, cfDNA의 특성을 프로파일링하는 검정은 컴퓨터를 사용하는 응용에서 유용한 특징을 생성하는데 사용된다. 일례에서, cf-DNA의 특성은 기계 학습 모델에서 사용되고, 분류기를 생성하여 본 명세서에 기재된 바와 같이 개체를 계층화하거나 질환을 검출한다. 예시적인 특징은 cfDNA 샘플에서 생물학적 정보 관련 유전자 발현, 3D 염색질, 염색질 상태, 카피 수 변이체, 조직 기원 및 세포 조성물을 제공하는 것들을 포함하지만 이들로 한정되지 않는다. 기계 학습 방법 및 모델을 위하여 입력 특징으로 사용될 수 있는 cfDNA 농도의 메트릭은 특정된 크기 범위 내의 dsDNA를 정량하는 방법(예를 들면, Agilent TapeStation, Bioanalyzer, Fragment Analyzer), dsDNA-결합 염료를 사용하는 모든 dsDNA를 정량하는 방법(예를 들면, QuantiFluor, PicoGreen, SYBR Green), 및 특정한 크기(예를 들면, 짧은 단편 qPCR, 긴 단편 qPCR, 및 긴/짧은 qPCR 비)에서 또는 그 미만에서 DNA 단편(dsDNA 또는 ssDNA)을 정량하는 방법을 포함하지만 이들로 한정되지 않는 방법에 의해 수득될 수 있다.

생물학적 정보는 또한 전사 시작 부위에 관한 정보, 전사 인자 결합 부위, 시퀀싱(ATAC-seq) 데이터를 사용하는 프랜스포사제-접근 가능 염색질에 대한 검정, 히스톤 마커 데이터, DNAse 과민감성 부위(DHS), 또는 이들의 조합을 포함할 수 있다.

일례에서, 시퀀싱 정보는 복수의 유전자 특징에 관한 정보, 예를 들면, 이에 한정되지 않지만, 전사 시작 부위, 전사 인자 결합 부위, 염색질 개방 및 폐쇄 상태, 뉴클레오솜 위치화 또는 점유 등에 관한 정보를 포함한다.

1. cfDNA 혈장 농도

cfDNA의 혈장 농도는 다양한 예에서 암의 존재를 나타내는 특징으로서 검정될 수 있다. 다양한 예에서, 순환에서 cfDNA의 총 양 및 cfDNA에 대한 종양-유도된 기여의 추정치(또한 "종양 분획"으로 지칭됨) 둘 다는 예후적 바이오마커, 및 요법에 대한 반응 및 내성의 지표로서 사용된다. 주석이 달린 게놈 영역 내에 정렬된 시퀀싱 단편은 계수되고 시퀀싱 깊이에 대하여 정규화되어 샘플당 30,000-차원 벡터를 제조하고, 각각의 요소는 유전자에 대한 수(예를 들면, 참조 게놈에서 그 유전자에 정렬되는 리드의 수)에 상응한다. 일례에서, 서열 리드 수는 그 영역에 정렬되는 단편의 수를 계수함으로써 이러한 주석이 달린 영역의 각각에 대한 주석이 달린 영역을 갖는 공지된 유전자의 목록에 대하여 결정된다. 유전자에 대한 리드 수는 다양한 방식으로, 예를 들면, 게놈이 활용되는 전체적 예상; 샘플내 정규화; 및 교차 특징 정규화를 사용하여 정규화된다. 교차 특징 정규화는 특정한 값 예를 들면, 0, 상이한 음의 값, 1에 따른 평균을 갖는 이들 특징 중 모든 것을 지칭하거나, 범위는 0 내지 2이다. 교차 특징 정규화를 위하여, 샘플로부터의 총 리드는 변화할 수 있고, 따라서 제조 공정 및 시퀀서 로딩 공정에 따라 좌우될 수 있다. 정규화는 전체적 정규화의 부분으로서 리드의 상수일 수 있다.

샘플내 정규화에 있어서, 특히, GC 편향에 대하여 특징 중 일부 또는 일부 영역의 특성화를 정성함으로써 정규화되는 것이 가능하다. 따라서, 각각의 영역으로 구성된 염기 쌍은 상이할 수 있고 정규화를 위하여 사용될 수 있다. 그리고 일부 경우에, GC의 수는 50%보다 유의미하게 높거나 낮고, 염기가 더 에너지가 있기 때문에 열역학적 영향을 갖고, 공정은 편향된다. 일부 영역은 실험실에서 샘플 제조의 생물학 인공물로 인하여 예상되는 것보다 많은 리드를 제공한다. 따라서, 모델링시 또 다른 종류의 특징/특징 변환/정규화 방법을 적용함으로써 이러한 편향을 보정하는 것이 필요할 수 있다.

일례에서, 소프트웨어 도구 ichorCNA는 희소(~0.1x 커버리지) 내지 심층(~30x 커버리지) 전체 게놈 시퀀싱(WGS)에 의해 검출된 카피 수 변경을 통해 cfDNA의 종양 분획 성분을 식별하는데 사용된다. 또 다른 예에서, 개별적인 대립의 존재의 정량을 통한 종양 내용물의 측정은 이들 대립이 공지된 클론 드라이버인 암에서 요법에 대한 반응 또는 내성을 평가하는데 사용된다.

카피 수 변이(CNV)는 평균 인간 게놈 생존능의 일차 공급원으로서 인식되고 표현형 변이에 유의미하게 기여하는 게놈의 영역에서 증폭되거나 결실될 수 있다. 종양-유도된 cfDNA는 카피 수 변경에 상응하는 게놈 변경을 보유한다. 카피 수 변경은 CRC를 포함하는 많은 암에서 발암에서 역할을 한다. 카피 수 변경의 게놈-방식 검출은 cfDNA에서 특성화될 수 있고, 이는 종양 바이오마커로서 작용한다. 일례에서, 검출은 심층 WGS를 사용한다. 또 다른 예에서, 로우-커버리지 전체 게놈 시퀀싱에 의한 무세포 DNA에서 염색체 불안정성 분석은 cfDNA의 검정으로서 사용될 수 있다. 종양 DNA 단편의 검출에 유용한 cfDNA 검정의 다른 예는 길이 혼합물 모델(LMM), 및 단편 종점 분석을 포함한다.

일례에서, 고(>20%) 종양 분획의 샘플은 대규모 CNV의 수동 검사를 통해 식별된다.

일례에서, 유전자 발현에서의 변화는 또한 혈장 cfDNA 농도 수준에서 반영되고, 방법, 예를 들면, 마이크로어레이 분석은 cfDNA 샘플에서 유전자 발현 수준에서의 변화를 검정하는데 사용될 수 있다. 기계 학습 방법 및 모델에 대한 입력 특징으로서 사용될 수 있는 cfDNA 농도의 메트릭은 테이프 스테이션(Tape Station), 짧은 qPCR, 긴 qPCR, 및 긴/짧은 qPCR 비를 포함하지만 이들로 한정되지 않는다.

2. 체세포 돌연변이 분석

일례에서, 로우-커버리지 전체 게놈 시퀀싱(lcWGS)은 샘플에서 cf-DNA를 시퀀싱한 다음, 특정한 암 유형과 연관된 체세포 돌연변이에 대하여 질의하는데 사용될 수 있다. lcWGS, 심층 WGS, 또는 표적화 시퀀싱(NGS 또는 다른 기술에 의한)으로부터의 체세포 돌연변이의 사용은 본 명세서에 기재된 기계 학습 방법 및 모델로 입력될 수 있는 특징을 생성할 수 있다.

체세포 돌연변이 분석은 매우 복합적인 기술, 예를 들면, 마이크로어레이 및 차세대 시퀀싱(NGS) 또는 대량 병렬 시퀀싱을 포함하여 발달하였다. 이러한 접근법은 단일 시험에서 광범위한 복합 능력을 허용할 수 있다. 이들 유형의 핫-스팟 패널은 단일 검정에서 수개 내지 수백개의 유전자 수를 범위로 할 수 있다. 다른 유형의 유전자 패널은 전체-엑손 또는 전체-유전자 시퀀싱을 포함하고, 특정한 유전자 세트에서 신규한 돌연변이를 식별하는 이점을 제공한다.

3. 전사 인자 프로파일링

cfDNA로부터의 전사 인자 결합의 추론은 암에서 엄청한 진단학적 잠재성을 갖는다. 전사 인자 결합 부위(Transcription Factor Binding Site: TFBS)에서 뉴클레오솜 시그니처에 포함된 구성요소는 검정되어 평가되고 상이한 혈장 샘플에서 전사 인자 결합 부위 접근성을 비교한다. 일례에서, 건강한 공여자 및 전이된 전립선암, 결장암 또는 유방암이 있는 암 환자로부터의 혈장 샘플로부터 수득된 혈액 샘플로부터 수득된 심층 전체 게놈 시퀀싱(WGS) 데이터는 cfDNA가 또한 순환 종양 DNA(ctDNA)를 포함하는 경우에 사용된다. 쉘로우(Shallow) WGS 데이터는 다중 세포 유형으로부터 야기된 cfDNA 신호의 혼합 및 푸리에 변환 및 통계적 요약에 의한 분석을 사용하여 일반적인 조직-특이적 패턴의 확인 대신에 개별 전사 인자를 프로파일링한다. 따라서 본 명세서에 제공된 접근법은 조직 기여 및 생물학적 공정 둘 다의 더 많은 뉘앙스 관점을 제공하고, 이는 조직 기원 및 종양 기원 분석 둘 다에 적합한 계통-특이적 전사 인자의 식별을 허용한다. 일례에서, 암이 있는 환자로부터의 cfDNA에서 전사 인자 결합 부위 가소성은 암 하위유형, 단계 및 치료에 대한 반응을 분류하는데 사용된다.

일례에서, cfDNA 단편화 패턴은 비-조혈 시그니처를 검출하는데 사용된다. cfDNA로부터 맵핑된 전사 인자-뉴클레오솜 상호작용을 식별하기 위하여, 건강한 대조군으로부터의 혈장 샘플에서 조혈 전사 인자-뉴클레오솜 풋프린트는 먼저 식별된다. 공개적으로 접근 가능한 데이터베이스(예를 들면, 유전자 전사 조절 데이터베이스(GTRD))로부터의 전사 인자 결합 부위의 큐레이팅된 목록은 cfDNA로부터의 포괄적인 전사 인자 결합 부위-뉴클레오솜 점유 지도를 생성하는데 사용될 수 있다. 상이한 엄격한 기준은 전사 인자 결합 부위에서 뉴클레오솜 시그니처를 측정하는데 사용되고, 전사 인자 결합 부위 접근성에서 상이한 혈장 샘플의 유의한 변화를 객관적으로 비교하기 위하여 "접근성 점수"로 지칭되는 메트릭, 및 z-점수 통계를 확립한다. 임상 목적을 위하여, 계통-특이적 전사 인자의 세트가 식별될 수 있고, 이는 조직 기원 cfDNA 또는 암 환자에서 종양 기원을 식별하는데 적합하다. 접근성 점수 및 z-점수 통계는 암 환자의 cfDNA로부터의 전사 인자 결합 부위 접근 가능성을 변화시키는 것을 설명하는데 사용된다.

양상에 있어서, 본 발명의 개시내용은 대상체에서 질환을 진단하는 방법으로서, (a) 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터의 서열 리드를 제공하는 단계; (b) 전사 인자에 대한 커버리지 패턴을 생성하는 단계; (c) 커버리지 패턴을 가공하여 신호를 제공하는 단계; (d) 신호를 참조 신호와 비교하는 단계로서, 여기서 신호 및 참조 신호는 상이한 주파수를 갖는, 단계; 및 (e) 신호를 기반으로, 대상체에서 질환을 진단하는 단계를 포함하는 방법이 제공된다.

일부 예에서, (b)는 서열 리드를 참조 서열에 대하여 정렬하여 정렬된 서열 패턴을 제공하는 것, 전사 인자의 결합 부위에 상응하는 정렬된 서열 패턴의 영역을 선택하는 것, 및 영역에서 정렬된 서열 패턴을 정규화하는 것을 포함한다.

일부 예에서, 전사 인자는 GRH-L2, ASH-2, HOX-B13, EVX2, PU.1, Lyl-1, Spi-B, 및 FOXA1로 구성된 군으로부터 선택된다.

일부 예에서, (e)는 전사 인자의 더 높은 접근성의 징후를 식별하는 것을 포함한다. 일부 예에서, 전사 인자는 상피 전사 인자이다. 일부 예에서, 전사 인자는 GRHH-L2이다.

4. 염색체 구조/염색질 상태의 추론

다른 예에서, 검정은 무세포 DNA(cfDNA)를 사용하는 게놈의 3차원 구조를 추론하는데 사용된다. 특히, 본 발명의 개시내용은 질환 또는 병태, 예를 들면, 암과 연관된 염색질 이상을 검출하는 방법 및 시스템을 제공한다. 임의의 특정한 메커니즘과 결부되지 않지만, DNA 단편은 세포로부터, 예를 들면, 혈류로 방출되는 것으로 생각된다. 무세포 DNA(cfDNA)로 공지된 방출된 DNA 단편의 반감기는 일단 세포로부터 방출되면 염색질 리모델링 상태에 따라 좌우될 수 있다. 따라서, 생물학적 샘플에서 cfDNA 단편의 과잉은 cfDNA 단편이 기원한 유전자(cfDNA의 '위치'로 공지됨)의 염색질 상태의 지표가 될 수 있다. 유전자의 염색질 상태에서 변화의 식별은 대상체에서 질환의 존재를 식별하는 방법으로서 역할을 할 수 있다. 유전자의 염색질 상태는 컴퓨터 보조 기술을 사용하여 생물학적 샘플에서 cfDNA 단편의 과잉 및 위치로부터 예측될 수 있다. 염색질 상태는 또한 샘플에서 유전자 발현을 추론하는데 유용할 수 있다. 염색질 상태를 예측하는데 사용될 수 있는 컴퓨터 보조 기술의 비제한적인 예는 확률 그래픽 모델(PGM)이다. PGM은 PGM의 파라미터와 훈련 세트의 맞춤 및 이들 파라미터를 추정하기 위한 통계적 기술에 의해 개방 및 폐쇄 TSS(또는 그 사이의 상태)를 위하여 cfDNA 프로파일을 식별하는 통계적 기술, 예를 들면, 예측 최대화 또는 경사 방법을 사용하여 추정될 수 있다. 훈련 세트는 공지된 개방 및 폐쇄 전사 시작 부위에 대한 cfDNA 프로파일일 수 있다. 일단 훈련되면, PGM은 나이브(이전에 보지 못한) 샘플에서 하나 이상의 유전자의 염색질 상태를 예측할 수 있다. 예측은 분석되고 정량될 수 있다. 건강한 샘플 및 질환 샘플로부터의 하나 이상의 유전자의 염색질 상태에서 예측을 비교하여, 바이오마커 또는 진단 시험을 개발할 수 있다. PGM은 더 정확하게 만들 수 있는 모델에 기여하는 다양한 정보, 측정, 및 수학적 대상을 포함할 수 있다. 이들 대상은 데이터의 생물학적 맥락 및 샘플의 랩 공정 조건과 같은 다른 측정된 공동변수를 포함할 수 있다.

유전자 특징이 염색질 상태인 일례에서, 제1 어레이는 참조로서 복수의 세포 유형의 구성적 개방성의 측정을 제공하고, 제2 어레이는 샘플에서 세포 유형에 대한 상대적인 비율을 제공하고, 제3 어레이는 샘플에서 염색질 상태의 측정을 제공한다.

유전자의 발현은 전사 시작 부위에 세포 기계의 접근에 의해 제어될 수 있다. 전사 시작 부위에 대한 접근은 전사 시작 부위가 위치한 염색질의 상태를 결정할 수 있다. 염색질 상태는 염색질 리모델링을 통해 제어될 수 있고, 이는 밀집된(폐쇄) 또는 느슨한(개방) 전사 시작 부위일 수 있다. 폐쇄 전사 시작 부위는 감소된 유전자 발현을 야기하고, 개방 전사 시작 부위는 증가된 유전자 발현을 야기한다. 또한, cfDNA 단편의 길이는 염색질 상태에 따라 좌우될 수 있다. 염색질 리모델링은 히스톤 및 다른 관련 단백질의 변형을 통해 발생할 수 있다. 염색질의 상태 및 전사 시작 부위를 제어할 수 있는 히스톤 변형의 비제한적인 예는, 예를 들면, 메틸화, 아세틸화, 인산화, 및 유비퀴틴화를 포함한다.

유전자의 발현은 또한 더 원위의 요소, 예를 들면, 인핸서에 의해 제어되고, 이는 물리적 게놈의 3D 공간에서 전사 기계와 상호작용한다. ATAC-seq 및 DNAse-seq는 개방 염색질의 측정을 제공하고, 이는 특정한 유전자와 명백하게 연관되지 않을 수 있는 이들 더 원위의 효소의 결합과 상관이 있다. 예를 들면, ATAC-seq 데이터는 다수의 세포 유형 및 상태에 대하여 수득될 수 있고, 다양한 기저 영역, 예를 들면, 활성 전사 시작 부위 또는 결합된 인핸서 또는 리프레서에 대한 개방된 염색질을 갖는 게놈의 영역을 식별하는데 사용될 수 있다.

세포로부터 일단 방출된 cfDNA의 반감기는 염색질 리모델링 상태에 따라 좌우될 수 있다. 따라서, 생물학적 샘플에서 cfDNA 단편의 과잉은 cfDNA 단편이 기원한 유전자(본 명세서에서 cfDNA의 "위치"로 지칭됨)의 염색질 상태의 지표가 될 수 있다. 유전자의 염색질 상태는 질환에서 변화할 수 있다. 유전자의 염색질 상태에서 변화의 식별은 대상체에서 질환의 존재를 식별하는 방법으로서 역할을 할 수 있다. 발현된 유전자와 발현되지 않은 유전자를 비교라는 경우, 무세포 DNA(cfDNA) 단편의 수 및 위치 분포 둘 다에서 정량적 이동이 존재한다. 더 구체적으로, 전사 시작 부위(TSS) 주변의 대략 1000 내지 3000 bp 영역 내의 리드의 강한 고갈이 존재하고, TSS의 뉴클레오솜 다운스트림은 강하게 위치화된다(위치가 훨씬 더 예측 가능해진다). 본 발명의 개시내용은 역전 관계를 해결하는 방식을 제공한다: cfDNA로부터 시작하여, 유전자의 발현 또는 염색질 개방성이 추론될 수 있다. 일례에서, 이러한 검정은 본 명세서에 기재된 다중 분석물 방법에서 사용된다.

본 발명의 개시내용은 또한 다른 염색질 상태뿐만 아니라, 예를 들면, 억제된 영역에서, 활성 또는 준비된 프로모터 등에 대한 예측을 생성하는 방식을 제공한다. 이들 예측은 상이한 개체(또는 샘플), 예를 들면, 건강한 개체, 결장직장암(CRC) 환자, 또는 다른 질환- 또는 암-진단된 샘플 사이의 차이를 정량할 수 있다.

개방 염색질의 존재가 또한 뉴클레오솜의 부재에 의해 또는 개방 염색질의 내부 영역에 측접하는 강하게 위치한 뉴클레오솜의 존재를 통해 광범위하게 포획되기 때문에, 본 명세서에 기재된 방법은 인핸서, 리프레서, 또는 참조 샘플에서 다른 수단에 의해 식별된 개방 염색질의 영역 위에서 나이브하게 사용될 수 있다.

게놈 내의 cfDNA 서열 리드의 위치는 참조 게놈에 대하여 서열을 "맵핑"함으로써 결정될 수 있다. 맵핑은, 예를 들면, 니들만-분쉬(Needleman-Wunsch) 알고리즘, BLAST 알고리즘, 스미스-워터만(Smith-Waterman) 알고리즘, 버로우즈-휠러(Burrows-wheeler) 정렬, 접미사 트리, 또는 맞춤 개발 알고리즘을 포함하는 컴퓨터 알고리즘의 도움으로 수행될 수 있다.

염색체의 3차원 형태는 핵의 구획화 및 아주 근접하게 공간적으로 분리된 기능적 요소를 결합하는 것에 관여한다. 염색체의 공간 배열의 분석 및 염색체가 폴딩하는 방식의 이해는 염색질 구조, 유전자 활성, 및 세포의 생물학적 상태 사이의 관계에 대한 통찰력을 제공할 수 있다.

DNA 상호작용의 검출 및 3차원 염색질 구조의 모델링은 염색체 형태 기술을 사용하여 달성될 수 있다. 이러한 기술은, 예를 들면, 3C(염색체 형태 포획), 4C(순환된 염색체 형태 포획), 5C(염색체 형태 포획 탄소 카피), Hi-C(높은 처리량 시퀀싱을 가진 3C), ChIP-loop(ChIP-seq를 가진 3C), 및 ChIA-PET(ChIP-seq를 가진 Hi-C)를 포함한다.

Hi-C 시퀀싱은 근접 기반 결찰을 대량 병렬 시퀀싱와 연결하여 전체 게놈의 3차원 구조를 증명하는데 사용된다. Hi-C 시퀀싱은 전체 게놈에 걸친 상호작용을 편향되지 않게 정량화하는 높은 처리량, 차세대 시퀀싱을 이용한다. Hi-C 시퀀싱에서, DNA는 포름알데히드와 가교결합하고, 가교결합된 DNA는 제한 효소에 의해 소화되어 5'-돌출부를 수득하고, 그 다음, 이는 비오티닐화 잔기로 채워지고; 수득된 뭉툭한 말단의 단편은 가교결합된 DNA 단편 사이의 결찰을 선호하는 조건하에 결찰된다. 수득된 DNA 샘플은 연접부에서 비오틴으로 표시된 핵에 공간적으로 아주 근접한 단편으로 구성된 결찰 생성물을 함유한다. Hi-C 라이브러리는 DNA를 공유하고 스트렙타비딘 비드를 가진 비오티닐화된 생성물을 선택함으로써 생성될 수 있다. 라이브러리는 대량 병렬, 쌍 말단 DNA 시퀀싱을 사용하여 분석될 수 있다. 이러한 기술을 사용하여, 게놈에서 모든 쌍별 상호작용을 계산하여 잠재적인 염색체 구조를 추론할 수 있다.

일례에서, cfDNA의 뉴클레오솜 점유는 DNA의 개방성의 지표 및 전사 인자 결합을 추론하는 능력을 제공한다. 특정한 예에서, 뉴클레오솜 점유는 종양 세포 표현형과 연관이 있다.

cfDNA는 전체 게놈 시퀀싱에 의한 뉴클레오솜 점유의 생체내 지도를 생성하는 내인성 생리학적 공정에 의해 생성된 고유한 분석물을 나타낸다. 전사 시작 부위에서 뉴클레오솜 점유는 세포로부터 이의 DNA를 순환으로 방출하는 발현된 유전자를 추론하는데 이용되었다. cfDNA 뉴클레오솜 점유는 전사 인자의 풋프린트를 반영할 수 있다.

다양한 예에서, cfDNA는, 예를 들면, 혈액 또는 혈장 샘플에서 비캡슐화된 DNA를 포함하고, ctDNA 및/또는 cffDNA를 포함할 수 있다. cfDNA는, 예를 들면, 200 염기 쌍(bp) 미만의 길이, 예를 들면, 120 내지 180 bp의 길이일 수 있다. cfDNA 단편 말단을 참조 게놈에 맵핑함으로써 생성된 cfDNA 단편화 패턴은 증가된 리드 깊이(예를 들면, 단편 적층)의 영역을 포함할 수 있다. 증가된 리드 깊이의 이러한 영역은 대략 120-180 bp의 크기일 수 있고, 이는 뉴클레오솜 DNA의 크기를 반영한다. 뉴클레오솜은 약 147 bp의 DNA에 의해 둘러싸인 8개의 히스톤 단백질의 코어이다. 크로마토좀은 뉴클레오솜에 히스톤(예를 들면, 히스톤 H1) 및 뉴클레오솜의 외부에 묶인 약 20 bp의 연관된 DNA를 더하여 포함한다. cfDNA의 증가된 리드 깊이의 영역은 뉴클레오솜 위치화와 상관이 있을 수 있다. 따라서, 본 명세서에 개시된 바와 같이 cfDNA의 분석 방법은 뉴클레오솜의 맵핑을 촉진할 수 있다. cfDNA 리드가 참조 게놈에 맵핑될 때 보이는 단편 적층은 세포 사멸(아폽토시스) 또는 간 및 신장에 의한 순환 cfDNA의 전신 청소의 과정 동안 뉴클레아제로부터 특정한 영역을 보호하는 뉴클레오솜 결합을 반영할 수 있다. 본 명세서에 개시된 바와 같이 cfDNA의 분석 방법은, 예를 들면, MNase에 의한 DNA 또는 염색질의 소화 및 후속적인 시퀀싱(MNase 시퀀싱)에 의해 보완될 수 있다. 이러한 방법은 바람직하게 분해된 중간 영역을 규칙적인 간격으로 갖는 뉴클레오솜 히스톤의 결합, 따라서 뉴클레오솜 위치화의 풋프린트의 반영으로 인하여 MNase 소화로부터 보호된 DNA의 영역을 드러낼 수 있다.

5. 조직 기원 검정

cfDNA 샘플에서 복수의 핵산 분자는 하나 이상의 세포 유형으로부터 유래된다. 다양한 예에서, 검정은 샘플에서 핵산 서열의 조직 기원을 식별하는데 사용된다. 샘플에서 분석물의 세포 유도된 기여의 추론은 생물학적 샘플에서 분석물 정보를 해체하는데 유용하다. 다양한 예에서, 조절 영역의 학습(LRR)과 같은 방법, 및 면역 DHS 시그니처는 생물학적 샘플에서 분석물의 세포 유형 기원 및 세포 유형 기여를 결정하는 방법에서 유용하다. 다양한 예에서, 유전자 특징, 예를 들면, V-플롯 측정, FREE-C, 전사 시작 부위에 대한 cfDNA 측정 및 cfDNA 단편에 대한 DNA 메틸화 수준은 기계 학습 방법 및 모델에 입력 특징으로서 사용된다.

일례에서, 복수의 세포 유형에 대한 복수의 유전자 특징의 상태에 상응하는 값의 제1 어레이가 제조될 수 있다. 일례에서, 복수의 유전자 특징의 상태에 상응하는 값은 참조 집단에 대하여 수득된다. 참조 집단은 복수의 유전자 특징에 대한 구성적 상태의 지표를 제공하는데 사용되는 값을 제공한다.

일례에서, 핵산 샘플의 복수의 핵산 분자에 대한 복수의 유전자 특징에 상응하는 값의 제2 어레이가 또한 제조될 수 있다. 그 다음, 제1 및 제2 어레이는 값의 제3 어레이를 제조하는데 사용될 수 있다.

일례에서, 제1 및 제2 어레이는 행렬이고, 행렬 곱셈 및 파라미터 최적화에 의해 값의 제3 어레이를 제조하는데 사용된다. 일례에서, 값의 제3 어레이는 샘플의 복수의 핵산 분자에 대한 복수의 세포 유형의 추정된 비율에 상응한다. 정보의 참조 집단과 조합으로 샘플로부터의 핵산 데이터는 샘플의 복수의 핵산에 가장 잘 맞는 참조 집단의 혼합물을 추정하는데 사용된다. 이러한 혼합물은 1로 정규화될 수 있고, 샘플에서 이들 참조 집단의 비율 또는 점수를 나타내는데 사용될 수 있다.

이로부터 복수의 핵산 분자가 유도된 하나 이상의 세포 유형의 유형 및 비율은 따라서 결정될 수 있다.

제1 양상에 있어서, 본 발명의 개시내용은 하기 단계를 포함하는 복수의 핵산 분자를 포함하는 샘플을 가공하는 방법을 제공한다:

(a) 복수의 핵산 분자를 포함하는 샘플에 대한 시퀀싱 정보를 제공하는 단계로서, 시퀀싱 정보는 복수의 유전자 특징에 관한 정보를 포함하고, 복수의 핵산 분자가 하나 이상의 세포 유형으로부터 유래된, 시퀀싱 정보를 제공하는 단계;

(b) 복수의 세포 유형에 대한 복수의 유전자 특징의 양상에 상응하는 값의 제1 어레이를 제조하는 단계로서, 복수의 세포 유형은 하나 이상의 세포 유형을 포함하는, 제1 어레이를 제조하는 단계;

(c) 샘플의 복수의 핵산 분자에 대한 복수의 유전자 특징의 양상에 상응하는 값의 제2 어레이를 제조하는 단계; 및

(d) 값의 제1 어레이 및 값의 제2 어레이를 사용하여 샘플의 복수의 핵산 분자에 대한 복수의 세포 유형에 상응하는 값의 제3 어레이를 제조하고, 이로써 이로부터 복수의 핵산 분자가 유도되는 하나 이상의 세포 유형의 유형 및 비율을 결정하는 단계.

C. WGBS를 사용한 메틸화의 cfDNA 검정

1. 메틸화 시퀀싱

검정은 게놈에서 거의 모든 뉴클레오타이드의 DNA 메틸화의 특성화에 의해 최종 분할을 제공할 수 있는 전체 게놈(예를 들면, WGBS를 통한, 효소 메틸 시퀀싱("EMseq"))을 시퀀싱하는데 사용된다. 다른 표적화된 방법은 메틸화 분석, 예를 들면, 높은 처리량 시퀀싱, 파이로시퀀싱, 생거 시퀀싱, qPCR, 또는 ddPCR에 대하여 유용할 수 있다. 메틸기의 DNA에의 첨가를 지칭하는 DNA 메틸화는 중요한 기능적 결과와 함께 가장 널리 특성화된 후생적 변형 중 하나이다. 전형적으로, DNA 메틸화는 핵산 서열의 사이토신 염기에서 발생한다. 효소적 메틸 시퀀싱은 분석을 위한 샘플의 낮은 부피를 필요로 하는 세 단계 전환을 사용하기 때문에 특히 유용하다.

임의의 상기 양상의 일부 예에서, DNA 또는 바코딩된 DNA를 DNA 또는 바코딩된 DNA의 사이토신 핵염기를 우라실 핵염기로 전환하는데 충분한 조건의 대상이 되도록 하는 것은 바이설파이트 전환을 수행하는 것을 포함한다. 일부 예에서, 바이설파이트 전환의 수행은 DNA 또는 바코딩된 DNA의 산화를 포함한다. 일부 예에서, DNA 또는 바코딩된 DNA의 산화는 5-하이드록시메틸사이토신을 5-폼일사이토신 또는 5-카복실사이토신으로 산화시키는 것을 포함한다. 일부 예에서, 바이설파이트 전환은 감소된 표현 바이설파이트 시퀀싱을 포함한다.

다른 예에서, 메틸화 분석에 사용되는 검정은 질량 분석, 메틸화-특이적 PCR(MSP), 감소된 표현 바이설파이트 시퀀싱(RRBS), HELP 검정, GLAD-PCR 검정, ChIP-온-칩 검정, 제한 랜드마크 게놈 스캐닝, 메틸화된 DNA 면역침전(MeDIP), 바이설파이트 처리된 DNA의 파이로시퀀싱, 분자 파괴 광 검정, 메틸 민감성 사우던 블롯팅, 고해상도 용융 분석(HRM 또는 HRMA, 고대 DNA 메틸화 재건, 또는 메틸화 민감성 단일 뉴클레오타이드 프라이머 신장 검정(msSNuPE)으로부터 선택된다.

일례에서, 메틸화 분석에 사용된 검정은 전체 게놈 바이설파이트 시퀀싱(WGBS)이다. 핵산 분자 또는 이의 단편의 변형은 효소 또는 다른 반응을 사용하여 달성될 수 있다. 예를 들면, 사이토신의 탈아민화는 바이설파이트의 사용을 통해 달성될 수 있다. 바이설파이트에 의한 핵산 분자(예를 들면, DNA 분자)의 처리는 메틸화되지 않은 사이토신 염기를 탈아민화시키고, 이들을 우라실 염기로 전환시킨다. 이러한 바이설파이트 전환 공정은 5 위치에서 메틸화되거나 하이드록시메틸화된 사이토신(5mC 또는 5hmC)은 탈아민화시키지 않는다. 시퀀싱 분석과 함께 사용되는 경우, 핵산 분자 또는 이의 단편의 바이설파이트 전환을 포함하는 공정은 바이설파이트 시퀀싱(BS-seq)으로 지칭될 수 있다. 일부 경우에, 핵산 분자는 바이설파이트 전환을 겪기 전에 산화될 수 있다. 핵산 분자의 산화는 5hmC를 5-폼일사이토신 및 5-카복실사이토신으로 전환시킬 수 있고, 이들 둘 다는 우라실로의 바이설파이트 전환에 민감하다. 시퀀싱 분석과 함께 사용하는 경우, 핵산 분자 또는 이의 단편에 바이설파이트 시퀀싱을 수행하기 전에 핵산 분자 또는 이의 단편의 산화는 산화적 바이설파이트 시퀀싱(oxBS-seq)으로 지칭될 수 있다.

CpG 부위에서 사이토신의 메틸화는 측접하는 DNA와 비교하여 뉴클레오솜-스패닝 DNA가 크게 풍부할 수 있다. 따라서, CpG 메틸화 패턴은 또한 기계 학습 접근법을 사용하는 뉴클레오솜 위치화를 추론하는데 사용될 수 있다. 각각 마이크로코칼 뉴클레아제-seq(MNase-seq) 및 WGBS에 의해 생성된 동일한 cfDNA 샘플로부터의 매칭된 뉴클레오솜 위치화 및 5mC 데이터세트는 기계 학습 모델을 훈련하는데 사용될 수 있다. BS-seq 또는 EM-seq 데이터세트는 또한 WGS에 사용되는 동일한 방법에 따라 분석되어 메틸화 전환과 관계없이 기계 학습 방법 및 모델로의 입력을 위한 특징을 생성할 수 있다. 그 다음, 5mC 패턴은 뉴클레오솜 위치화를 예측하는데 사용될 수 있고, 이는 유전자 발현 및/또는 질환 및 암의 분류를 추론하는 것을 도울 수 있다. 또 다른 예에서, 특징은 메틸화 상태와 뉴클레오솜 위치화 정보의 조합으로부터 수득될 수 있다.

메틸화 분석에서 사용되는 메트릭은 M-편향(CpG, CHG, CHH에 대한 염기 방식 메틸화 %), 전환 효율(CHH에 대한 100-평균 메틸화 %), 가상메틸화 블록, 메틸화 수준(CPG, CHH, CHG, chrM, LINE1, ALU에 대한 전체적 평균 메틸화), 다이뉴클레오타이드 커버리지(다이-뉴클레오타이드의 정규화된 커버리지), 커버리지의 균등성(1x 및 10x 평균 게놈 커버리지(S4 수행에 있어서)에 있어서 고유한 CpG 부위), 평균 CpG 커버리지(깊이), CpG 아일랜드, CGI 셸프, CGI 쇼어에서 전체적 및 평균 커버리지를 포함하지만 이들로 한정되지 않는다. 이들 메트릭은 기계 학습 방법 및 모델을 위한 특징 입력으로서 사용될 수 있다.

양상에 있어서, 본 발명의 개시내용은 (a) 대상체로부터의 데옥시리보핵산(DNA)을 포함하는 생물학적 샘플을 제공하는 단계; (b) DNA를 DNA의 메틸화되지 않은 사이토신 핵염기를 우라실 핵염기로 전환시키는데 충분한 조건의 대상이 되도록 하는 단계로서, 여기서 조건은 DNA를 적어도 부분적으로 분해시키는, 단계; (c) DNA를 시퀀싱하고, 이로써 서열 리드를 생성하는 단계; (d) 서열 리드를 컴퓨터 처리하여 (i) 우라실 핵염기의 존재를 기반으로 DNA의 메틸화의 정도를 결정하고, (ii) DNA의 적어도 부분적인 분해를 모델링하여, 이로써 분해 파라미터를 생성하는 단계; 및 (e) 분해 파라미터 및 메틸화의 정도를 사용하여 유전자 서열 특징을 결정하는 단계를 포함하는 방법을 제공한다.

또 다른 양상에 있어서, 본 발명의 개시내용은 (a) 대상체로부터의 데옥시리보핵산(DNA)을 포함하는 생물학적 샘플을 제공하는 단계; (b) DNA를 샘플에서 메틸화된 DNA의 선택적 풍부에 충분한 조건의 대상이 되도록 하는 단계; (c) DNA의 메틸화되지 않은 사이토신 핵염기를 우라실 핵염기로 전환시키는 단계; (d) DNA를 시퀀싱하고, 이로써 서열 리드를 생성하는 단계; (e) 서열 리드를 컴퓨터 처리하여 (i) 우라실 핵염기의 존재를 기반으로 DNA의 메틸화의 정도를 결정하고, (ii) DNA의 적어도 부분적인 분해를 모델링하여, 이로써 분해 파라미터를 생성하는 단계; 및 (f) 분해 파라미터 및 메틸화의 정도를 사용하여 유전자 서열 특징을 결정하는 단계를 포함하는 방법을 제공한다.

일부 예에서, (d)는 전환된 사이토신 핵염기에 대한 전환되지 않은 사이토신 핵염기의 비를 기반으로 DNA의 메틸화 정도를 결정하는 것을 포함한다. 일부 예에서, 전화된 사이토신 핵염기는 우라실 핵염기로서 검출된다. 일부 예에서, 우라실 핵염기는 서열 리드에서 티민 핵염기로서 관찰된다.

일부 예에서, 분해 파라미터의 생성은 베이즈 모델의 사용을 포함한다.

일부 예에서, 베이즈 모델은 가닥 편향 또는 바이설파이트 전환 또는 과전환을 기반으로 한다. 일부 예에서, (e)는 쌍 HMM 또는 나이브 베이즈 모델의 구조하에 분해 파라미터를 사용하는 것을 포함한다.

특정한 예에서, 특이적 유전자 마커의 메틸화는 본 명세서에 기재된 분류기에 정보를 주는데 사용하기 위하여 검정된다. 다양한 예에서, 프로모터, 예를 들면, APC, IGF2, MGMT, RASSF1A, SEPT9, NDRG4 및 BMP3 또는 이들의 조합의 메틸화가 검정된다. 다양한 예에서, 이들 마커 중 2, 3, 4 또는 5개의 메틸화가 검정된다.

2. 상이하게 메틸화된 영역(Differentially Methylated Region: DMR)

일례에서, 메틸화 분석은 상이하게 메틸화된 영역(DMR) 분석이다. DMR은 게놈의 영역에 대한 CpG 메틸화를 정량하는데 사용된다. 영역은 발견에 의해 동력학적으로 할당된다. 상이한 부류로부터의 샘플의 수가 분석될 수 있고, 상이한 분류 사이에서 가장 상이하게 메틸화된 영역이 식별될 수 있다. 하위세트는 상이하게 메틸화되고 분류에 사용되기 위하여 선택될 수 있다. 영역에 포획된 CpGs의 수는 분석을 위하여 사용될 수 있다. 영역은 가변적 크기를 갖는 경향이 있을 수 있다. 일례에서, 사전발견 공정은 영역으로서 함께 CpG 부위의 수를 묶도록 수행된다. 일례에서, DMR은 기계 학습 방법 및 모델을 위한 입력 특징으로서 사용된다.

3. 일배체형 블록

일례에서, 일배체형 블록 검정이 샘플에 적용된다. 메틸화 일배체형 블록의 식별은 불균질 조직 샘플의 디콘볼루션 및 혈장 DNA로부터의 종양 조직 기원 맵핑을 보조한다. 메틸화 일배체형 블록(MHB)으로 공지된 단단하게 연결된 CpG 부위는 WGBS 데이터에서 식별될 수 있다. 메틸화 일배체형 로드(MHL)로 불리는 메트릭은 블록 수준에서 조직-특이적 메틸화 분석을 수행하는데 사용된다. 이러한 방법은 불균질 샘플의 디콘볼루션에 유용한 정보성 블록을 제공한다. 이러한 방법은 종양 로드의 정량적 추정 및 DNA의 순환에서 조직 기원 맵핑에 유용하다. 일례에서, 일배체형 블록은 기계 학습 방법 및 모델을 위한 입력 특징으로 사용된다.

D. cfRNA 검정

다양한 예에서, cfRNA의 검정은 RNA 시퀀싱, 전체 전사체 샷건 시퀀싱, 노던 블롯, 인시츄 혼성화, 혼성화 어레이, 유전자 발현의 연속 분석(SAGE), 역전사 PCR, 실시간 PCR, 실시간 역전사 PCR, 정량적 PCR, 디지털 소적 PCR, 또는 마이크로어레이, 나노스트링, FISH 검정 또는 이들의 조합과 같은 방법을 사용하여 달성될 수 있다.

분석물로서 작은 cfRNA(onc-RNA 및 miRNA 포함)를 사용하는 경우, 측정치는 이들 cfRNA에 대한 과잉에 관한 것이다. 이들 전사체는 특정한 크기를 갖고, 각각의 전사체는 점수화되며, 각각에서 확인된 cfRNA의 수는 계수될 수 있다. RNA 서열은 참조 cfRNA 데이터베이스, 예를 들면, 인간 전사체에서 공지된 cfRNA에 상응하는 서열의 세트에 대하여 정렬될 수 있다. 확인된 각각의 cfRNA는 이의 자체 특징으로서 사용될 수 있고, 모든 샘플에 걸쳐 확인된 복수의 cfRNA는 특징 세트가 될 수 있다. 일례에서, 주석이 달린 cfRNA 게놈 영역에 대하여 정렬된 RNA 단편은 계수되고, 생물학적 샘플을 위한 다중 차원 벡터를 생성하기 위하여 시퀀싱의 깊이에 대하여 정규화된다.

다양한 예에서, 모든 측정 가능한 cfRNA(cfRNA)는 특징으로 사용된다. 일부 샘플은 0인 특징값을 갖고, 여기서 그 cfRNA에 대하여 검출된 발현은 없다.

예에서, 모든 샘플은 수득되고, 리드는 함께 합쳐진다. 샘플에서 확인된 각각의 마이크로RNA에 있어서, 다수의 합쳐진 확인된 리드가 있을 수 있다. 더 많은 절대 변화가 더 신뢰할 만한 신호를 야기할 수 있기 때문에 높은 발현 순위를 가진 그 마이크로 RNA는 더 우수한 마커를 제공할 수 있다는 것을 주목한다.

일례에서, cfRNA는 샘플에서 직접 검출 방법, 예를 들면, 엔카운터 애널리시스 시스템(nCounter Analysis System)®(nanoString, 미국 워싱턴주 사우스 레이크 유니온 소재)으로 분자 "바코드" 및 현미경 이미지를 검출하여 하나의 혼성화 반응에서 수백개의 고유한 전사체를 검출하고 계수할 수 있다.

다양한 예에서, mRNA 수준의 검정은 생물학적 샘플을 하나 이상의 서열의 mRNA에 특이적으로 혼성화할 수 있는 폴리뉴클레오타이드 프로브와 접촉시키고, 이로써 프로브-표적 혼성화 복합체를 형성하는 것을 포함한다. 혼성화 기반의 RNA 검정은 전통적인 "직접 프로브" 방법, 예를 들면, 노던 블롯 또는 인시츄 혼성화를 포함하지만 이들로 한정되지 않는다. 방법은 기판(예를 들면, 막 또는 유리) 결합된 방법 또는 어레이 기반 접근법을 포함하지만 이들로 한정되지 않는 광범위하게 다양한 형식으로 사용될 수 있다. 전형적인 인시츄 혼성화 검정에서, 세포를 고체 지지체, 전형적으로 유리 슬라이드에 고정시킨다. 핵산이 프로빙되는 경우, 세포를 전형적으로 열 또는 알칼리에 의해 변성시킨다. 그 다음, 세포를 혼성화 용액와 온화한 온도에서 접촉시켜 단백질을 인코딩하는 핵산 서열에 특이적인 표지화된 프로브의 어닐링을 허용한다. 그 다음, 표적(예를 들면, 세포)을 전형적으로 미리 결정된 엄격도에서 또는 잡음비에 대한 적절한 신호가 수득될 때까지 엄격도를 증가시켜 세척한다. 프로브를 전형적으로, 예를 들면, 방사성동위원소 또는 형광성 리포터로 표지화한다. 바람직한 프로브는 엄격한 조건하에 표적 핵산(들)과 구체적으로 혼성화하기 위하여 충분히 길다. 일례에서, 크기 범위는 약 200개의 염기 내지 약 1000개의 염기이다. 작은 RNA를 위한 또 다른 예에서, 약 20개의 염기 내지 약 200개의 염기의 크기 범위인 더 짧은 프로브를 사용한다. 본 발명의 방법과 사용하기에 적합한 혼성화 프로토콜은, 예를 들면, 문헌[Albertson (1984) EMBO J. 3: 1227-1234; Pinkel (1988) Proc. Natl. Acad. Sci. USA 85: 9138-9142; EPO Pub. No. 430,402; Methods in Molecular Biology, Vol. 33: In situ Hybridization Protocols, Choo, ed., Humana Press, Totowa, N.J. (1994), Pinkel, et al. (1998) Nature Genetics 20: 207-211, 및/또는 Kallioniemi (1992) Proc. Natl Acad Sci USA 89:5321-5325 (1992)]에 기재된다. 일부 응용에서, 반복 서열의 혼성화 능력을 차단하는 것이 필요하다. 따라서, 일부 예에서, tRNA, 인간 게놈 DNA, 또는 Cot-I DNA는 비특이적 혼성화를 차단하는데 사용된다.

다양한 예에서, mRNA 수준의 검정은 생물학적 샘플을 단일 엑손 유전자(SEG)의 mRNAs를 특이적으로 혼성화할 수 있는 폴리뉴클레오타이드 프라이머와 접촉시키고, 프라이머-주형 혼성화 복합체를 형성하고, PCR 반응을 수행하는 것을 포함한다. 일부 예에서, 폴리뉴클레오타이드 프라이머는 표 1에 열거된 SEG의 서열에 동일하거나(정 프라이머의 경우) 상보적인(역 프라이머의 경우) 약 15 내지 45, 20 내지 40, 또는 25 내지 35 bp 서열을 포함한다. 비제한적인 예로서, STMN1(예를 들면, NM_203401, 호모 사피엔스 스타트민 1(STMN1), 전사 변이체 1, mRNA, 1730 bp)에 대한 폴리뉴클레오타이드 프라이머는 STMN의 말단, bp 1690-1710, 1695-1715, 1700-1720, 1705-1725, 1710-1730까지, STMN1의 bp 1-20, 5-25, 10-30, 15-35, 20-40, 25-45, 30-50 등에 동일하거나(정 프라이머의 경우) 상보적인(역 프라이머의 경우) 서열을 포함할 수 있다. 공간으로 인하여 본 명세서에 독점적으로 열거되지 않고, STMN1 및 표 1에 열거된 다른 SEG에 대한 모든 이들 폴리뉴클레오타이드 프라이머는 본 발명의 개시내용의 시스템 및 방법에서 사용될 수 있다. 다양한 예에서, 폴리뉴클레오타이드 프라이머는 방사성동위원소 또는 형광성 분자에 의해 표지화된다. 표지화된 프라이머가 방사성 또는 형광성 신호를 방출하기 때문에, 표지화된 프라이머를 함유한 PCR 생성물은 다양한 영상화 장치에 의해 검출되고 분석될 수 있다.

"정량적" 증폭의 방법은 다양한 적합한 방법이다. 예를 들면, 정량적 PCR은 동일한 프라이머를 사용하는 대조군 서열의 공지된 정량을 동시에 공동증폭시키는 것을 포함한다. 이는 PCR 반응을 측정하는데 사용될 수 있는 내부 표준을 제공한다. 정량적 PCR에 대한 상세한 프로토콜은 문헌[Innis, et al. (1990) PCR Protocols, A Guide to Methods and Applications, Academic Press, Inc. N.Y.)]에 제공된다. 정량적 PCR 분석을 사용한 현미부수체 좌에서 DNA 카피 수의 측정은 문헌[Ginzonger, et al.(2000) Cancer Research 60:5405-5409]에 기재된다. 유전자에 대한 공지된 핵산 서열은 유전자의 임의의 부분을 증폭시키기 위하여 프라이머를 일상적으로 선택할 수 있게 만드는데 충분하다. 형광성 정량적 PCR은 본 발명의 형광성 정량적 PCR에서, 정량은 형광 신호, 예를 들면, TaqMan 및 SYBR 그린의 양을 기반으로 한다. 다른 적합한 증폭 방법은 리가아제 연쇄 반응 (LCR)(sWu and Wallace (1989) Genomics 4: 560, Landegren, et al. (1988) Science 241:1077, and Barringer et al. (1990) Gene 89: 117), 전사 증폭(Kwoh, et al.(1989) Proc. Natl. Acad. Sci. USA 86: 1173), 자립형 서열 복제(Guatelli, et al.(1990) Proc. Nat. Acad. Sci. USA 87: 1874), 도트 PCR, 및 연결기 어댑터 PCR 등을 포함하지만 이들로 한정되지 않는다.

다양한 예에서, 암과 연관된 RNA 마커는 miR-125b-5p, miR-155, miR-200, miR21-5pm, miR-210, miR-221, miR-222 또는 이들의 조합으로부터 선택된다.

E. 폴리-아미노산 및 자가항체 검정

1. 단백질 및 펩타이드

다양한 예에서, 단백질은 면역검정 또는 질량 분석을 사용하여 검정된다. 예를 들면, 단백질은 액체 크로마토그래피-탠덤 질량 분석(LC-MS/MS)에 의해 측정될 수 있다.

다양한 예에서, 단백질은 친화성 시약 또는 면역검정, 예를 들면, 단백질 어레이, SIMOA(항체; Quanterix), ELISA(Abcam), O-link(DNA-접합 항체; O-링크 단백질체s), 또는 SOMASCAN(압타머; SomaLogic), 루미넥스(Luminex) 및 메소 스케일 디스커버리(Meso Scale Discovery)에 의해 측정된다.

일례에서, 단백질 데이터는 표준 곡선에 의해 정규화된다. 다양한 예에서, 각각의 단백질은 본질적으로 고유한 면역검정으로서 처리되고, 표준 곡선을 가진 각각은 다양한 방식으로 계산될 수 있다. 농도 관계는 전형적으로 비선형이다. 그 다음, 샘플을 수행하고, 일차 샘플에서 예상된 형광 농도를 기반으로 계산할 수 있다.

암 연관 펩타이드 및 단백질 서열의 수는 공지되어 있고, 다양한 예에서 본 명세서에 기재된 시스템 및 방법에서 유용하다.

일례에서, 검정은 마커 중 적어도 2, 3, 4, 5, 6개 또는 그 이상의 검출의 조합을 포함한다.

다양한 예에서, 암 연관 펩타이드 또는 단백질 마커는 종양태아성 항원(예를 들면, CEA, AFP), 당단백질 항원 또는 탄수화물 항원(예를 들면, CA125, CA 19.9, CA 15-3), 효소(예를 들면, PSA, ALP, NSE), 호르몬 수용체(ER, PR), 호르몬(b-hCG, 칼시토닌), 또는 다른 공지된 생체분자(VMA, 5HIAA)로부터 선택된다.

다양한 예에서, 암 연관 펩타이드 또는 단백질 마커는 1p/19q 결실, HIAA, ACTH, AE1,3, ALK(D5F3), AFP, APC, ATRX, BOB-1, BCL-6, BCR-ABL1, 베타-hCG, BF-1, BTAA, BRAF, GCDFP-15, BRCA1, BRCA2, b72.3, c-MET, 칼시토닌, CALR, 칼레티닌(calretinin), CA125, CA27.29, CA 19-9, CEA M, CEA P, CEA, CBFB-MYH11, CALA, c-Kit, 신드리칼-1(syndical-1), CD14, CD15, CD19, CD2, CD20, CD200, CD23, CD3, CD30, CD33, CD4, CD45, CD5, CD56, CD57, CD68, CD7, CD79A, CD8, CDK4, CDK2, 크로모그라닌 A(chromogranin A), 크레아틴 키나제 동종효소, Cox-2, CXCL 13, 사이클린 D, CK 19, CYFRA 21-1, CK 20, CK5,6, CK 7, CAM 5.2, DCC, 데스-감마-카복시 프로트롬빈, E-카드헤린(E-cadherin), EGFR T790M, EML4-ALK, ERBB2, ER, ESR1, FAP, 가스트린(gastrin), 글루카곤, HER-2/neu, SDHB, SDHC, SDHD, HMB45, HNPCC, HVA, 베타-hCG, HE4, FBXW7, IDH1 R132H, IGH-CCND1, IGHV, IMP3, LOH, MUM1/IRF4, JAK 엑손 12, JAK2 V617F, Ki-67, KRAS, MCC, MDM2, MGMT, 멜란 A(melan A), MET, 메타네프린, MSI, MPL 코돈 515, Muc-1, Muckiest-4, MEN2, MYC, MYCN, MPO, myf4, 미오글로빈, 미오신, 납신 A(napsin A), 뉴로필라멘트, NSE P, NMP22, NPM1, NRAS, Oct 2, p16, p21, p53, 췌장 폴리펩타이드, PTH, Pax-5, PAX8, PCA3, PD-L1 28-8, PIK3CA, PTEN, ERCC-1, Ezrin, STK11, PLAP, PML/RARa 전좌(translocation), PR, 프로인슐린, 프로락틴, PSA, PAP, PGP, RAS, ROS1, S-100, S100A2, S100B, SDHB, 세로토닌, SAMD4, MESOMARK, 편평상피세포 암종 항원, SS18 SYT 18q11, 시냅토파이신(synaptophysin), TIA-1, TdT, 티로글로불린(thyroglobulin), TNIK, TP53, TTF-1, TNF-알파, TRAFF2, 우로비시온(urovysion), VEGF, 또는 이들의 조합으로부터 선택된다.

일례에서, 암은 결장직장암이고, CRC 연관된 마커는 APC, BRAF, DPYD, ERBB2, KRAS, NRAS, RET, TP53, UGT1A1 및 이들의 조합으로부터 선택된다.

일례에서, 암은 폐암이고, 폐암 연관된 마커는 ALK, BRAF, EGFR, ERBB2, KRAS, MET, NRAS, RET, ROS1, TP53 및 이들의 조합으로부터 선택된다. 일례에서, 암은 유방암이고, 유방암 연관된 마커는 BRCA1, BRCA2, ERBB2, TP53 및 이들의 조합으로부터 선택된다. 일례에서, 암은 위암이고, 위암 연관된 마커는 APC, ERBB2, KRAS, ROS1, TP53 및 이들의 조합으로부터 선택된다. 일례에서, 암은 신경교종이고, 신경교종 연관된 마커는 APCAPC, BRAF, BRCA2, EGFR, ERBB2, ROS1, TP53 및 이들의 조합으로부터 선택된다. 일례에서, 암은 흑색종이고, 흑색종 연관된 마커는 BRAF, KIT, NRAS 및 이들의 조합으로부터 선택된다. 일례에서, 암은 난소암이고, 난소암 연관된 마커는 BRAF, BRCA1, BRCA2, ERBB2, KRAS, TP53 및 이들의 조합으로부터 선택된다. 일례에서, 암은 갑상선암이고, 갑상선암 연관된 마커는 BRAF, KRAS, NRAS, RET 및 이들의 조합으로부터 선택된다. 일례에서, 암은 췌장암이고, 췌장암 연관된 마커는 APC, BRCA1, BRCA2, KRAS, TP53 및 이들의 조합으로부터 선택된다.

2. 자가항체

또 다른 예에서, 항체(예를 들면, 자가항체)는 샘플에서 검출되고, 초기 종양발생의 마커이다. 자가항체는 종양발생에서 초기에 생성되고, 임상적 증상이 발달하기 수개월 또는 수년 전에 검출될 가능성을 증명하였다. 일례에서, 혈장 샘플은 미니-APS 어레이(ITSI-Biosciences, 미국 펜실베이니아주 존스타운 소재)에 의해 문헌[Somiari RI, et al., A low-density antigen array for detection of disease-associated autoantibodies in human plasma. Cancer Genom Proteom 13: 13-19, 2016]에 기재된 프로토콜을 사용하여 스크리닝된다. 자가항체 마커는 기계 학습 방법 또는 모델에서 입력 특징으로서 사용될 수 있다.

자가항체를 검출하는 검정은 면역흡착 검정, 예를 들면, ELISA 또는 PEA를 포함한다. 자가항체를 검출할 때, 바람직하게는 마커 단백질 또는 이의 단편을 함유하는 적어도 에피토프는 고체 지지체, 예를 들면, 마이크로티터 웰에 결합된다. 샘플의 자가항체는 이러한 항원 또는 단편에 결합된다. 결합된 자가항체는 검출 가능한 표지, 예를 들면, 형광성 표지를 가진 2차 항체에 의해 검출될 수 있다. 그 다음, 표지는 자가항체에 대한 결합에 종속된 신호를 생성하는데 사용된다. 2차 항체는 환자가 인간인 경우 항인간 항체일 수 있거나, 분석되는 환자 샘플에 종속된 임의의 다른 유기체에 관한 것일 수 있다. 키트는 이러한 검정을 위한 수단, 예를 들면, 고체 지지체 및 바람직하게는 또한 2차 항체를 포함할 수 있다. 바람직하게는 2차 항체는 환자의 (자가)항체의 Fc 부분에 결합한다. 또한 버퍼 및 세척액 또는 린스액의 첨가가 가능하다. 고체 지지체는 특정한 결합을 회피하는 차단 화합물로 코팅될 수 있다.

일례에서, 자가항체는 단백질 마이크로어레이, 또는 다른 면역검정에 의해 검정된다.

입력 특징으로서 사용될 수 있는 자가항체 검정을 위한 메트릭은 모든 자가항체에 대한 조절된 변위치 정규화된 z-점수, 바이너리 0/1, 또는 특이적 z-점수 컷오프를 기반으로 한 각각의 자가항체의 부재/존재를 포함하지만 이들로 한정되지 않는다.

다양한 예에서, 자가항체 마커는 암의 상이한 아형 또는 단계와 연관된다. 다양한 예에서, 자가항체 마커는 종양 연관된 항원에 관한 것이거나, 이에 높은 친화성으로 결합될 수 있다. 다양한 예에서, 종양 연관된 항원은 종양태아성 항원/미숙 라미닌 수용체 단백질(OFA/iLRP), 알파페토프로테인(AFP), 암배아 항원(CEA), CA-125, MUC-1, 상피 종양 항원(ETA), 티로시나제, 흑색종 연관된 항원(MAGE), ras의 비정상 생성물, p53의 비정상 생성물, ras의 야생형 형태, p53의 야생형 형태, 또는 이의 단편으로부터 선택된다.

일례에서, ZNF700은 결장직장암에서 자가항체의 검출을 위한 포획 항원으로 나타났다. 다른 아연 집게 단백질을 갖는 패널에서, ZNF-특이적 자가항체 검출은 결장직장암의 검출을 허용하였다(O'Reilly et al., 2015). 일례에서, 항-p53 항체는 이러한 항체가 암의 임상적 진단 수개월 내지 수년 전에 발달할 수 있기 때문에 검정된다.

F. 탄수화물

검정은 생물학적 샘플에서 탄수화물의 측정을 위해 존재한다. 박막 크로마토그래피(TLC), 기체 크로마토그래피(GC) 및 고성능 액체 크로마토그래피(HPLC)는 탄수화물을 분리하고 식별하는데 사용될 수 있다. 탄수화물의 농도는 중량측정(먼슨 및 워커 방법(Munson and Walker method)), 분광측정법 또는 적정(예를 들면, 레인-에이논 방법(Lane-Eynon　method))에 의해 결정될 수 있다. 또한, 탄수화물을 분석하는 열량측정 방법(앤트론 방법, 페놀-황산 방법). 탄수화물을 특성화하는 다른 물리적 방법은 편광측정법, 굴절률, IR, 및 밀도를 포함한다. 일례에서, 탄수화물 검정으로부터의 메트릭은 기계 학습 방법 및 모델을 위한 입력 특징으로서 사용된다.

III. 예시적인 시스템

일부 예에서, 본 발명의 개시내용은 측정 장치(예를 들면, 실험실 기구, 예를 들면, 시퀀싱 기계)에서 실현되는 데이터 분석, 연산 하드웨어 상에서 실행되는 소프트웨어 코드를 포함할 수 있는 시스템, 방법, 또는 키트를 제공한다. 소프트웨어는 메모리에 저장될 수 있고, 하나 이상의 하드웨어 프로세서를 실행할 수 있다. 소프트웨어는 서로 소통할 수 있는 루틴 또는 패키지로 조직화될 수 있다. 모듈은 하나 이상의 장치/컴퓨터, 및 하나 이상의 장치/컴퓨터 상에서 실행되는 가능하게는 하나 이상의 소프트웨어 루틴/패키지를 포함할 수 있다. 예를 들면, 분석 적용 또는 시스템은 적어도 데이터 수신 모듈, 데이터 전처리 모듈, 데이터 분석 모듈(하나 이상의 유형의 게놈 데이터 상에서 작업될 수 있음), 데이터 해석 모듈, 또는 데이터 시각화 모듈을 포함할 수 있다.

데이터 수신 모듈은 실험실 데이터를 처리하는 컴퓨터 시스템을 가진 실험실 하드웨어 또는 기구에 연결될 수 있다. 데이터 전처리 모듈은 분석을 위한 제조에서 데이터 상에 작업을 수행할 수 있다. 전처리 모듈에서 데이터에 적용될 수 있는 작업의 예는 아핀 변환(affine transformation), 잡음제거 작업, 데이터 청소, 재포맷, 또는 서브샘플링을 포함한다. 하나 이상의 게놈 물질로부터의 게놈 데이터를 분석하기 위한 전문화될 수 있는 데이터 분석 모듈은, 예를 들면, 조립된 게놈 서열을 수득할 수 있고, 확률적 및 통계적 분석을 수행하여 질환, 병리, 상태, 위험, 병태, 또는 표현형에 관한 비정상 패턴을 식별할 수 있다. 데이터 해석 모듈은 분석 방법, 예를 들면, 통계학, 수학, 또는 생물학으로부터 나온 분석 방법을 사용하여 식별된 비정상 패턴과 건강한 상태, 기능적 상태, 예후, 또는 위험 사이의 관계를 이해하는 것을 도울 수 있다. 데이터 분석 모듈 및/또는 데이터 해석 모듈은 하나 이상의 기계 학습 모델을 포함할 수 있고, 이는 하드웨어에서 구현될 수 있고, 예를 들면, 기계 학습 모델을 시행하는 소프트웨어를 실행한다. 데이터 시각화 모듈은 수학적 모델링, 컴퓨터 그래픽의 방법을 사용할 수 있거나, 결과의 이해 또는 해석을 촉진할 수 있는 데이터의 시각적 표상을 생성하는 것을 부여할 수 있다. 본 발명의 개시내용은 본 개시내용의 방법을 구현하도록 프로그래밍된 컴퓨터 시스템을 제공한다.

일부 예에서, 본 명세서에 개시된 방법은 개체 또는 복수의 개체로부터의 샘플의 핵산 시퀀싱 데이터에 대한 컴퓨터를 사용하는 분석을 포함할 수 있다. 분석은 서열 데이터로부터 추론된 변이체를 식별하여 확률적 모델링, 통계적 모델링, 수학적 모델링, 네트워크 모델링, 또는 통계적 추론을 기반으로 서열 변이체를 식별할 수 있다. 분석 방법의 비제한적인 예는 주성분 분석, 자동인코더, 단일 값 분해, 푸리에 염기, 웨이블릿, 판별 분석, 회귀, 서포트 벡터 머신, 트리 기반 방법, 네트워크, 행렬 인수분해, 및 클러스팅을 포함한다. 변이체의 비제한적인 예는 생식선 변이 또는 체세포 돌연변이를 포함한다. 일부 예에서, 변이체는 이미 공지된 변이체를 지칭할 수 있다. 이미 공지된 변이체는 과학적으로 확인되거나 문헌에 보고될 수 있다. 일부 예에서, 변이체는 생물학적 변화와 연관된 추정 변이체를 지칭할 수 있다. 생물학적 변화는 공지되거나 공지되지 않을 수 있다. 일부 예에서, 추정 변이체는 문헌에 보고될 수 있지만, 아직 생물학적으로 확인되지 않을 수 있다. 대안적으로, 추정 변이체는 문헌에 보고된 적이 없지만, 본 명세서에 개시된 컴퓨터를 사용하는 분석을 기반으로 추론될 수 있다. 일부 예에서, 생식선 변이체는 천연 또는 정상 변이를 유도하는 핵산을 지칭할 수 있다.

천연 또는 정상 변이는, 예를 들면, 피부색, 모발색, 및 정상 체중을 포함할 수 있다. 일부 예에서, 체세포 돌연변이는 체세포 돌연변이는 후천적 또는 비정상 변이를 유도하는 핵산을 지칭할 수 있다. 후천적 또는 비정상 변이는, 예를 들면, 암, 비만, 병태, 증상, 질환, 및 질병을 포함할 수 있다. 일부 예에서, 분석은 생식선 변이체 사이를 구분하는 것을 포함할 수 있다. 생식선 변이체는, 예를 들면, 전용 변이체 및 체세포 돌연변이를 포함할 수 있다. 일부 예에서, 식별된 변이체는 임상의 또는 다른 건강 전문가에 의해 사용되어 건강 관리 방법론, 진단의 정확성, 및 비용 감소를 개선할 수 있다.

도 1은 본 명세서에 기재된 방법을 수행하도록 프로그래밍되거나 달리 구성된 시스템(100)을 도시한다. 다양한 예로서, 시스템(100)은 샘플을 처리 및/또는 검정하고, 시퀀싱 분석을 수행하고, 분자의 부류를 대표하는 값의 세트를 측정하고, 검정 데이터로부터의 특징 및 특징 벡터의 세트를 식별하고, 기계 학습 모델을 사용하여 특징 벡터를 처리하여 출력 분류를 수득하고, 기계 학습 모델을 훈련할 수 있다(예를 들면, 기계 학습 모델의 파라미터의 최적의 값을 위한 반복 검색). 시스템(100)은 컴퓨터 시스템(101) 및 다양한 분석물을 측정할 수 있는 하나 이상의 측정 장치(151, 152 또는 153)을 포함한다. 도시된 바와 같이, 측정 장치(151 내지 153)는 각각 분석물(1-3)을 측정한다.

컴퓨터 시스템(101)은 본 발명의 개시내용의 샘플 처리 및 검정의 다양한 양상, 예를 들면, 하나의 챔버로부터 다른 챔버로 시약 또는 샘플을 수송하는 밸브 또는 펌프의 활성화 또는 샘플에 대한 열의 적용(예를 들면, 증폭 반응 동안), 샘플의 처리 및/또는 검정의 다른 양상, 시퀀싱 분석의 수행, 분자의 부류를 대표하는 값의 세트의 측정, 검정 데이터로부터의 특징 및 특징 벡터의 세트의 식별, 출력 분류를 수득하기 위하여 기계 학습 모델을 사용하는 특징 벡터의 처리, 및 기계 학습 모델의 훈련(예를 들면, 기계 학습 모델의 파라미터의 최적의 값을 위한 반복 검색)을 조절할 수 있다. 컴퓨터 시스템(101)은 사용자의 전자 장치 또는 전자 장치에 관하여 원격 위치된 컴퓨터 시스템일 수 있다.

컴퓨터 시스템(101)은 단일 코어 또는 멀티 코어 프로세서, 또는 병렬 처리를 위한 복수의 프로세서일 수 있는 중앙 처리 장치(CPU, 또한 본 명세서에서 "프로세서" 및 "컴퓨터 프로세서")(105); 메모리(110)(예를 들면, 캐시, 임의 접근 메모리, 판독 전용 메모리, 플래시 메모리, 또는 다른 메모리); 전자 저장 장치(115)(예를 들면, 하드 디스크), 하나 이상의 다른 시스템과의 통신을 위한 통신 인터페이스(120)(예를 들면, 네트워크 어댑터); 및 주변 장치(125), 예를 들면, 캐시용 어댑터, 닫른 메모리, 데이터 저장 및/또는 전자 디스플레이를 포함한다. 메모리(110), 저장 장치(115), 인터페이스(120) 및 주변 장치(125)는 마더보드와 같은 통신 버스(실선)을 통해 CPU(105)와 통신될 수 있다. 저장 장치(115)는 데이터의 저장을 위한 데이터 저장 장치(또는 데이터 저장소)일 수 있다. 하나 이상의 분석물 특징 입력은 하나 이상의 측정 장치(151, 152 또는 153)로부터 입력될 수 있다. 예시적인 분석물 및 측정 장치는 본 명세서에 기재된다.

컴퓨터 시스템(101)은 통신 인터페이스(120)의 도움으로 컴퓨터 네트워크("네트워크")(130)에 작동적으로 연결될 수 있다. 네트워크(130)는 인터넷, 인터넷 및/또는 엑스트라넷, 또는 인터넷과 소통되는 인트라넷 및/또는 엑스트라넷일 수 있다. 네트워크(130)는 일부 경우에 전기통신 및/또는 데이터 네트워크이다. 네트워크(130)는 하나 이상의 컴퓨터 서버를 포함할 수 있고, 이는 본 발명의 개시내용의 분석, 계산, 및 생성의 다양한 양상, 예를 들면, 하나의 챔버로부터 다른 챔버로 시약 또는 샘플을 수송하는 밸브 또는 펌프의 활성화 또는 샘플에 대한 열의 적용(예를 들면, 증폭 반응 동안), 샘플의 처리 및/또는 검정의 다른 양상, 시퀀싱 분석의 수행, 분자의 부류를 대표하는 값의 세트의 측정, 검정 데이터로부터의 특징 및 특징 벡터의 세트의 식별, 출력 분류를 수득하기 위하여 기계 학습 모델을 사용하는 특징 벡터의 처리, 및 기계 학습 모델의 훈련(예를 들면, 기계 학습 모델의 파라미터의 최적의 값을 위한 반복 검색)을 수행하기 위하여 네트워크(130)("클라우드")에 대한 클라우드 연산과 같은 분산 컴퓨팅을 가능하게 할 수 있다. 이러한 클라우드 컴퓨팅은, 예를 들면, 아마존 웹 서비스(AWS), 마이크로소프트 애저(Microsoft Azure), 구글 클라우드 플랫폼, 및 IBM 클라우드와 같은 클라우드 컴퓨팅 플랫폼에 의해 제공될 수 있다. 네트워크(130)는 컴퓨터 시스템(101)의 도움으로 일부 경우에 피어-투-피어 네트워크를 실시할 수 있고, 이는 컴퓨터 시스템(101)에 커플링된 장치가 클라이언트 또는 서버로서 거동하도록 만들 수 있다.

CPU(105)는 기계 판독 가능한 명령의 서열을 실행할 수 있고, 이는 프로그램 또는 소프트웨어에서 구현될 수 있다. 명령은 메모리 위치, 예를 들면, 메모리(110)에 저장될 수 있다. 명령은 CPU(105)에 전송될 수 있고, 이는 후속적으로 본 발명의 개시내용의 방법을 실시하기 위하여 CPU(105)를 프로그래밍하거나 달리 구성할 수 있다. CPU(105)는 회로, 예를 들면, 집적 회로의 부분일 수 있다. 시스템(101)의 하나 이상의 다른 구성요소가 회로에 포함될 수 있다. 일부 경우에, 회로는 주문형 집적 회로(ASIC)이다.

저장 장치(115)는 파일, 예를 들면, 드라이버, 라이브러리 및 저장된 프로그램을 저장할 수 있다. 저장 장치(115)는 사용자 데이터, 예를 들면, 사용자 선호도 및 사용자 프로그램을 저장할 수 있다. 컴퓨터 시스템(101)은 일부 경우에 인트라넷 또는 인터넷을 통해 컴퓨터 시스템(101)과 통신하는 원격 서버에 위치한 바와 같은 컴퓨터 시스템(101)에 외부에 있는 하나 이상의 추가의 데이터 저장 장치를 포함할 수 있다.

컴퓨터 시스템(101)은 네트워크(130)를 통한 하나 이상의 원격 컴퓨터 시스템과 통신할 수 있다. 예를 들면, 컴퓨터 시스템(101)은 사용자의 원격 컴퓨터 시스템과 통신할 수 있다. 원격 컴퓨터 시스템의 예는 개인용 컴퓨터(예를 들면, 휴대용 PC), 슬레이트 또는 태블릿 PC(예를 들면, 애플(Apple)® 아이패드(iPad), 삼성(Samsung)® 갤럭시 탭(Galaxy Tab)), 휴대폰, 스마트폰(예를 들면, 애플® 아이폰(iPhone), 안드로이드 지원 장치, 블랙베리(Blackberry)®), 또는 개인용 정보 단말기를 포함한다. 사용자는 컴퓨터 시스템(101)에 네트워크(130)를 통해 접근할 수 있다.

본 명세서에 기재된 바와 같은 방법은, 예를 들면, 메모리(110) 또는 전자 저장 장치(115)에 대한 컴퓨터 시스템(101)의 전자 저장 위치 상에 저장된 기계(예를 들면, 컴퓨터 프로세서) 실행 가능한 코드의 방식에 의해 실시될 수 있다. 기계 실행 가능한 또는 기계 판독 가능한 코드는 소프트웨어의 형태로 제공될 수 있다. 사용 동안, 코드는 CPU(105)에 의해 실행될 수 있다. 일부 경우에, 코드는 저장 장치(115)로부터 회수될 수 있고, CPU(105)에 의한 접근을 준비하기 위하여 메모리(110)에 저장될 수 있다. 일부 상황에서, 전자 저장 장치(115)는 배제될 수 있고, 기계 실행 가능 명령은 메모리(110)에 저장된다.

코드는 미리 컴파일되고 코드를 실행하도록 개조된 프로세서를 가진 머신과 함께 사용하도록 구성될 수 있거나, 실행 시간 동안 컴파일될 수 있다. 코드는 미리 컴파일되거나 바로 컴파일된 방식으로 코드가 실행되도록 선택될 수 있는 프로그래밍 언어로 공급될 수 있다.

본 명세서에 제공된 시스템 및 방법의 양상, 예를 들면, 컴퓨터 시스템(101)은 프로그래밍으로 구현될 수 있다. 기술의 다양한 양상은 기계 판독 가능 매체의 한 유형에 보유되거나 구현되는 기계(또는 프로세서) 실행 가능 코드 및/또는 연관 데이터의 형태로 전형적으로 "제품" 또는 "제조품"으로 생각될 수 있다. 기계 실현 가능 코드는 전자 저장 장치, 예를 들면, 메모리(예를 들면, 판독 전용 메모리, 임의 접근 메모리, 플래시 메모리) 또는 하드 디스크에 저장될 수 있다. "저장"형 매체는 컴퓨터, 프로세서 등의 임의의 또는 모든 유형 메모리, 또는 이의 연관된 모듈, 예를 들면, 다양한 반도체 메모리, 테이프 드라이버, 디스크 드라이버 등을 포함할 수 있고, 이는 소프트웨어 프로그래밍에 대하여 임의의 시간에 비일시적인 저장을 제공할 수 있다. 소프트웨어 모두 또는 부분은 때때로 인터넷 또는 다양한 다른 전기통신 네트워크를 통해 통신될 수 있다. 이러한 통신은, 예를 들면, 하나의 컴퓨터 또는 프로세서로부터 다른 것으로, 예를 들면, 관리 서버 또는 호스트 컴퓨터로부터 어플리케이션 서버의 컴퓨터 플랫폼으로 소프트웨어의 로딩을 가능하게 할 수 있다. 따라서, 소프트웨어 요소를 가질 수 있는 다른 유형의 매체는, 예를 들면, 유선 및 광지상선 네트워크 및 다양한 공중 연결을 통해 로컬 장치 간의 물리적 인터페이스에 걸쳐 사용되는 광학, 전기 및 전자파를 포함한다. 이러한 파를 보유한 물리적 요소, 예를 들면, 유선 또는 무선 회선, 광회선 등은 또한 소프트웨어를 보유한 매치로서 간주될 수 있다. 본 명세서에서 사용되는 바와 같이, 비일시적인, 유형 "저장" 매체로 제한되지 않는 한, 컴퓨터 또는 기계 "판독 가능 매체"와 같은 용어는 실행을 위하여 프로세서에 명령을 제공하는데 참여하는 임의의 매체를 지칭한다.

따라서, 기계 판독 가능 매체, 예를 들면, 컴퓨터 실행 가능 코드는 유형 저장 매체, 반송파 매체, 또는 물리 전송 매체를 포함하지만 이들로 한정되지 않는 형태를 가질 수 있다. 비휘발성 저장 매체는, 예를 들면, 광학 또는 자기 디스크, 예를 들면, 임의의 컴퓨터(들)의 임의의 저장 장치 등, 예를 들면, 도면에 도시된 데이터베이스를 실시하는데 사용될 수 있는 것 등을 포함한다. 휘발성 저장 매체는 동적 메모리, 예를 들면, 이러한 컴퓨터 플랫폼의 메인 메모리를 포함한다. 유형 전송 매체는 동축 케이블; 동선 및 광학 섬유를 포함하고, 이는 컴퓨터 시스템 내에 버스를 포함하는 선을 포함한다.

반송파 전송 매체는 전기 또는 전자기 신호, 또는 음향 또는 광파의 형태, 예를 들면, 라디오 주파수(RF) 및 적외선(IR) 데이터 통신 동안 생성된 형태를 가질 수 있다. 따라서 컴퓨터 판독 가능 매체의 흔한 형태는, 예를 들면, 플로피 디스크, 플렉시블 디스크, 하드 디스크, 자기 테이프, 임의의 다른 자기 매체, CD-ROM, DVD 또는 DVD-ROM, 임의의 다른 광학 매체, 펀치 카드 종이 테이프, 구멍 패턴이 있는 임의의 다른 물리적 저장 매체, RAM, ROM, PROM 및 EPROM, FL ASH-EPROM, 임의의 다른 메모리 칩 또는 카트리지, 반송파 전송 데이터 또는 명령, 케이블 또는 회선 전송, 예를 들면, 반송파, 또는 이로부터 컴퓨터가 프로그래밍 코드 및/또는 데이터를 판독할 수 있는 임의의 다른 매체를 포함한다. 이러한 형태의 컴퓨터 판독 가능 매체 중 다수는 실행을 위하여 하나 이상의 명령의 하나 이상의 서열을 프로세서로 수송하는 것에 포함된다.

컴퓨터 시스템(101)은, 예를 들면, 샘플의 처리 또는 검정의 최근 단계(예를 들면, 수행 중인 특정한 단계, 예를 들면, 용해 단계, 또는 시퀀싱 단계)를 제공하기 위하여 사용자 인터페이스(UI)(140)를 포함하는 전자 디스플레이(135)를 포함하거나 이와 통신할 수 있다. 입력은 컴퓨터 시스템에 의해 하나 이상의 측정 장치(151, 152 또는 153)로부터 수신된다. UI의 예는, 제한 없이, 그래픽 사용자 인터페이스(GUI) 및 웹 기반 사용자 인터페이스를 포함한다. 알고리즘은, 예를 들면, 샘플을 처리 및/또는 검정하고, 시퀀싱 분석을 수행하고, 분자의 부류를 대표하는 값의 세트를 측정하고, 검정 데이터로부터의 특징 및 특징 벡터의 세트를 식별하고, 출력 분류를 수득하기 위하여 기계 학습 모델을 사용하는 특징 벡터를 처리하고, 기계 학습 모델을 훈련(예를 들면, 기계 학습 모델의 파라미터의 최적의 값을 위한 반복 검색)할 수 있다.

IV. 기계 학습 도구

실험 시험에서 사용되는 검정의 세트를 결정하기 위하여, 기계 학습 시스템은 주어진 검정 또는 복수의 검정으로부터 생성된 주어진 데이터세트의 효율을 평가하고, 분류의 전체 예측 정확도에 첨가하기 위하여 주어진 분석물에 대하여 수행하기 위하여 활용될 수 있다. 이러한 방식으로, 신규한 생물학적/건강적/진단적 질문은 신규한 검정을 설계하기 위하여 논의될 수 있다.

기계 학습은 모든(1차 샘플/분석물/시험) 조합으로부터 생성된 데이터의 세트를, 예를 들면, 특정한 기준을 충족하는 특징의 최적 예측 세트로 감소시키기 위하여 사용될 수 있다. 다양한 예에서, 통계적 학습, 및/또는 회귀 분석이 적용될 수 있다. 다양한 모델링 추정을 만드는 단순 내지 복잡 및 소형 내지 대형 모델은 교차 검증 패러다임에서 데이터에 적용될 수 있다. 단순 내지 복잡은 특징을 대표하는 선형성 내지 비선형성 및 비계층형 내지 계층형의 고려를 포함한다. 소형 내지 대형 모델은 모델링 과정에 포함된 특징들 사이의 상호작용에 대한 데이터뿐만 아니라 데이터의 수를 예상하기 위하여 기본 벡터 공간의 크기의 고려를 포함한다.

기계 학습 기술은 초기 질문에서 정의된 바와 같은 비용/성능/상업적 도달에 대한 가장 최적인 상업적 시험 양식을 평가하는데 사용될 수 있다. 한계점 확인이 수행될 수 있다: 교차 검증에서 사용되지 않은 저항 데이터세트에 적용되는 방법이 초기 제한을 능가하는 경우, 검정은 잠기고, 생산이 개시된다. 예를 들면, 검정 성능에 대한 한계점은 원하는 최소 정확도, 양성 예측치(positive predictive value: PPV), 음성 예측치(negative predictive value: NPV), 임상적 민감도, 임상적 특이도, 곡선하면적(AUC), 또는 이들의 조합을 포함할 수 있다. 예를 들면, 원하는 최소 정확도, PPV, NPV, 임상적 민감도, 임상적 특이도, 또는 이들의 조합은 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 81%, 적어도 약 82%, 적어도 약 83%, 적어도 약 84%, 적어도 약 85%, 적어도 약 86%, 적어도 약 87%, 적어도 약 88%, 적어도 약 89%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%일 수 있다. 또 다른 예로서, 원하는 최소 AUC는 적어도 약 0.50, 적어도 약 0.55, 적어도 약 0.60, 적어도 약 0.65, 적어도 약 0.70, 적어도 약 0.75, 적어도 약 0.80, 적어도 약 0.81, 적어도 약 0.82, 적어도 약 0.83, 적어도 약 0.84, 적어도 약 0.85, 적어도 약 0.86, 적어도 약 0.87, 적어도 약 0.88, 적어도 약 0.89, 적어도 약 0.90, 적어도 약 0.91, 적어도 약 0.92, 적어도 약 0.93, 적어도 약 0.94, 적어도 약 0.95, 적어도 약 0.96, 적어도 약 0.97, 적어도 약 0.98, 또는 적어도 약 0.99일 수 있다. 검정의 하위세트는 검정의 하위세트를 수행하는 총 비용을 기반으로 주어진 샘플에 대하여 수행되는 검정의 세트로부터 선택될 수 있고, 검정 성능을 위한 한계점, 예를 들면, 원하는 최소 정확도, 양성 예측치(PPV), 음성 예측치(NPV), 임상적 민감도, 임상적 특이도, 곡선하면적(AUC), 및 이들의 조합의 대상이 될 수 있다. 한계점이 충족되지 않는 경우, 검정 조작 과정은 데이터가 수득되는 파라미터를 변화시키기 위하여 가능한 완화를 위한 제한 설정 또는 습식 실험실로 다시 되돌릴 수 있다. 임상적 질문을 고려하여, 생물학적 제한, 예산, 실험실 기계 등은 문제점을 제한할 수 있다.

다양한 예에서, 기계 학습 기술의 컴퓨터 처리는 통계학, 수학, 생물학, 또는 이의 임의의 조합의 방법(들)을 포함할 수 있다. 다양한 예에서, 컴퓨터 처리 방법 중 임의의 하나는 차원 축소 방법, 로지스틱 회귀, 차원 축소, 주성분 분석, 자동인코더, 단일 값 분해, 푸리에 염기, 단일 값 분해, 웨이블릿, 판별 분석, 서포트 벡터 머신, 트리 기반 방법, 랜덤 포레스트, 경사 부스트 트리, 로지스틱 회귀, 행렬 인수분해, 네트워크 클러스팅, 통계적 시험 및 신경망을 포함할 수 있다.

다양한 예에서, 기계 학습 기술의 컴퓨터 처리는 로지스틱 회귀, 다중 선형 회귀(MLR), 차원 축소, 부분 최소 자승법(PLS) 회귀, 주성분 회귀, 자동인코더, 변분 자동인코더, 단일 값 분해, 푸리에 염기, 웨이블릿, 판별 분석, 서포트 벡터 머신, 결정 트리, 분류 및 회귀 트리(CART), 트리 기반 방법, 랜덤 포레스트, 경사 부스트 트리, 로지스틱 회귀, 행렬 인수분해, 다차원 척도법(MDS), 차원 축소 방법, t-분포 스토캐스틱 이웃 임베딩(t-SNE), 다층 인식자(MLP), 네트워크 클러스팅, 뉴로퍼지, 신경망(쉘로우 및 심층), 인공 신경망, 피어슨 적률 상관계수, 스피어만의 순위 상관계수, 켄달 타우 순위 상관계수(Kendall tau rank correlation coefficient), 또는 이의 임의의 조합을 포함할 수 있다.

일부 예에서, 컴퓨터 처리 방법은, 예를 들면, 회귀, 서포트 벡터 머신, 트리 기반 방법, 및 신경망을 포함하는 감독 기계 학습 방법이다. 일부 예에서, 컴퓨터 처리 방법은, 예를 들면, 클러스팅, 네트워크, 주성분 분석, 및 행렬 인수분해를 포함하는 비감독 기계 학습 방법이다.

감독 학습에 있어서, 훈련 샘플(예를 들면, 수천개)은 측정된 데이터(예를 들면, 다양한 분석물의 것) 및 공지된 표지를 포함할 수 있고, 이는 다른 시간-소비 공정, 예를 들면, 대상체의 영상화 및 훈련된 의사 의한 분석을 통해 결정될 수 있다. 예시적인 표지는 대상체의 분류, 예를 들면, 대상체가 암을 갖는지 아닌지의 개별적인 분류, 또는 개별적인 값의 확률(예를 들면, 위험도 또는 점수)을 제공하는 연속 분류를 포함할 수 있다. 학습 모듈은 품질 메트릭(예를 들면, 공지된 표지에 대한 예측의 정확도)이 하나 이상의 특정한 기준과 함께 달성되는 모델의 파라미터를 최적화할 수 있다. 품질 메트릭의 결정은 모든 위험, 손실, 이용성, 및 결정 기능의 세트를 포함하는 임의의 임의 기능에 대하여 실시될 수 있다. 경사는 학습 단계(예를 들면, 모델의 얼마나 많은 파라미터가 최적화 공정의 주어진 시간 단계 동안 업데이트되어야 하는지의 척도)와 함께 사용될 수 있다.

상기 기재된 바와 같이, 예는 다양한 목적으로 사용될 수 있다. 예를 들면, 혈장(또는 다른 샘플)은 병태의 증상이 있는(예를 들면, 병태를 가진 것으로 공지된) 대상체 및 건강한 대상체로부터 수집될 수 있다. 유전자 데이터(예를 들면, cfDNA)는 다양한 상이한 특징을 수득하기 위하여 수득되고 분석될 수 있고, 이는 게놈 방식 분석을 기반으로 한 특징을 포함할 수 있다. 이들 특징은 검색, 확대, 회전, 번역, 및 선형 또는 비선형 변형되어 정확한 기계 학습 모델을 생성하는 특징 공간을 형성할 수 있고, 이는 건강한 대상체와 병태를 가진 대상체를 구분할 수 있다(예를 들면, 대상체의 질환 또는 비질환 상태를 식별). 이러한 데이터 및 모델로부터 유도된 출력(이는 병태의 확률, 병태의 단계(수준), 또는 다른 값을 포함할 수 있음)은 권고된 추가의 과정을 위하여 사용될 수 있는, 예를 들면, 생검이 권고되거나 대상체 병태의 모니터링을 유지하기 위한 또 다른 모델을 생성하는데 사용될 수 있다.

V. 입력 특징의 선택

상기 기재된 바와 같이, 특징의 큰 세트는 이로부터 특징 벡터가 결정될 수 있는 특징 공간을 제공하기 위하여 생성될 수 있다. 그 다음, 훈련 샘플의 각각의 세트로부터의 이러한 특징 벡터는 기계 학습 모델의 현재 버전을 훈련하는데 사용될 수 있다. 사용된 특징의 유형은 사용된 분석물의 유형에 따라 좌우될 수 있다.

특징의 예는 구조적 변이(SV)에 관한 변수, 예를 들면, 카피 수 변이 및 전좌; 융합; 돌연변이(예를 들면, SNP 또는 다른 단일 뉴클레오타이드 변이(SNV), 또는 약간 큰 서열 변이); 텔로미어 소모; 및 뉴클레오솜 점유 및 분포를 포함할 수 있다. 이들 특징은 게놈 방식으로 계산될 수 있다. 특징의 예시적인 부류(유형)는 하기에 제공된다. 유전자 서열 데이터가 적어도 하나의 분석물로부터 수득되는 경우, 예시적인 특징은 정렬된 특징(예를 들면, 하나 이상의 참조 게놈과의 비교) 및 비정렬된 특징을 포함할 수 있다. 정렬된 특징의 예는 서열 변이 및 서열 계수를 게놈 윈도우에서 포함할 수 있다. 비정렬된 특징의 예는 서열 리드로부터의 kmer 및 리드로부터의 생물학적 유도된 정보를 포함할 수 있다.

일부 예에서, 적어도 하나의 특징은 유전자 서열 특징이다. 예로서, 유전자 서열 특징은 DNA의 메틸화 상태, 단일 뉴클레오타이드 다형성, 카피 수 변이, 인델, 및 구조적 변이체로부터 선택될 수 있다. 다양한 예에서, 메틸화 상태는 DNA 또는 바코딩된 DNA의 CpG 아일랜드에서 뉴클레오솜 점유를 결정하고/하거나 메틸화 밀도를 결정하기 위하여 사용될 수 있다.

실제로, 특징 선택은 비변이체 또는 동일한 분류를 갖는 샘플에서 낮은 변이를 갖는 특징을 선택할 수 있지만, 이러한 특징은 상이한 분류를 가진(예를 들면, 특정한 표현형의 동일한 확률 또는 연관된 위험도를 가진) 샘플의 군 중에서 다양하다. 과정은 어느 특징이 특정한 집단에서 대부분 비변이체인 것으로 나타나는지(예를 들면, 분류가 실수인 경우 분류를 공유하거나 유사한 분류를 덜 가진 것)를 식별하기 위하여 실시될 수 있다. 과정은 또한 집단 중에서 다양한 특징을 식별할 수 있다. 예를 들면, 게놈의 다양한 게놈 영역과 부분적으로 또는 전체적으로 겹치는 서열 리드의 리드 수는 이들이 집단 내에서 어떻게 변화하는지를 결정하기 위하여 분석될 수 있고, 이러한 리드 수는 분리된 집단의 것들(예를 들면, 질환 또는 질병을 가진 것으로 공지된 대상체 또는 질환 또는 질병에 대하여 무증상인 대상체)에 대하여 비교될 수 있다.

다양한 통계 메트릭은 분류를 예측할 수 있는 특징을 선택하기 위한 목적으로 집단에 걸친 특징에서 변이를 분석하기 위하여 사용될 수 있고, 따라서 훈련에 대하여 유리할 수 있다. 추가의 예는 또한 특징 공간의 분석을 기반으로 한 모델의 특정한 유형, 및 특징 벡터에서 사용되는 선택된 특징을 선택할 수 있다.

A. 특징 벡터의 생성

특징 벡터는 상응하는 데이터가 훈련 샘플에 걸친 데이터 구조에서 동일한 장소에 나타나도록, 각각의 훈련 샘플에 대하여 재생될 수 있는 임의의 데이터 구조로서 생성될 수 있다. 예를 들면, 특징 벡터는 특정한 값이 각각의 인덱스에 존재하는 인덱스와 연관될 수 있다. 상기 설명된 바와 같이, 행렬은 특징 벡터의 특정한 인덱스에 저장될 수 있고, 행렬 요소는 추가의 하위인덱스를 가질 수 있다. 특징 벡터의 다른 요소는 이러한 행렬의 요약 통계로부터 생성될 수 있다.

또 다른 예로서, 특징 벡터의 단일 요소는 게놈이 윈도우의 세트에 걸친 서열 리드의 세트에 상응할 수 있다. 따라서, 요소 또는 특징 벡터는 그 자체로 벡터일 수 있다. 이러한 리드의 수는 모든 리드 또는 리드의 특정 군(부류), 예를 들면, 특정한 서열 복합성 또는 엔트로피를 가진 리드일 수 있다. 서열 리드의 세트는, 예를 들면, GC 편향 및/또는 맵핑 가능성 편향에 대하여 필터링되거나 정규화될 수 있다.

일부 예에서, 특징 벡터의 요소는 다중 특징의 병합의 결과일 수 있다. 이는 병합 값이 값의 수집물과 반대로 단일 값으로서 처리될 수 있다는 점에서, 요소가 그 자체로 어레이(예를 들면, 벡터 또는 행렬)인 다른 예와 상이할 수 있다. 따라서, 특징은 기계 학습 모델을 위한 조작된 특징 또는 특징 표시로서 사용되기 위하여 병합, 중첩, 및 조합될 수 있다.

특징을 합병하는 다중 조합 및 접근법이 수행될 수 있다. 예를 들면, 상이한 측정이 동일한 윈도우(빈)에서 계수되는 경우, 이들 빈 사이의 비, 예를 들면, 결실에 의해 나눠진 역전은 유용한 특징이 될 수 있다. 추가로, 공간에 근접한 빈의 비 및 이의 합병은 생물학적 정보, 예를 들면, 유전자 체 수로 전사 시작 부위를 나눈 것을 이송하여 또한 유용한 특징을 공급할 수 있다.

특징은 또한, 예를 들면, 파라미터 및 잠복 벡터의 한 세트를 제공하는 모든 특징 벡터의 결합 확률을 최대화하는 다중 임부 비감독 학습 문제를 설정함으로써 조작될 수 있다. 이러한 확률적 과정의 잠복 벡터는 종종 생물학적 서열 데이터로부터 표현형(또는 다른 분류)을 예측하려고 시도할 때 우수한 특징으로서 역할을 한다.

B. 훈련에서 사용되는 가중치

가중치는 특징 벡터에 추가되는 경우 특징에 적용될 수 있다. 이러한 가중치는 특징 벡터 내의 요소, 또는 특징 벡터의 요소 내의 특이적 값을 기반으로 할 수 있다. 예를 들면, 게놈에서 모든 영역(윈도우)은 상이한 가중치를 가질 수 있다. 일부 윈도우는 윈도우가 분류에 기여하지 않는다는 것을 의미하는 0의 가중치를 가질 수 있다. 다른 윈도우는 더 큰 가중치, 예를 들면, 0 내지 1을 가질 수 있다. 따라서, 가중 마스크(weighting mask)는 특징 벡터를 생성하는데 사용되는 특징의 값, 예를 들면, 집단에서 계수, 서열 복합성, 주파수, 서열 유사성 등에 대한 특징에 적용되는 마스크의 상이한 값에 적용될 수 있다.

일부 예에서, 훈련 과정은 적용되는 가중치를 학습할 수 있다. 이러한 방식에서, 훈련 과정 전에 데이터로 임의의 이전 지식 또는 생물학적 통찰력을 알 필요가 없다. 특징에 초기에 적용되는 가중치는 모델의 제1 층의 부분으로서 간주될 수 있다. 일단 모델이 훈련되고 하나 이상의 특정한 기준(예를 들면, 원하는 최소 정확도, 양성 예측치(PPV), 음성 예측치(NPV), 임상적 민감도, 임상적 특이도, 곡선하면적(AUC), 또는 이들의 조합)을 충족시키면, 모델은 신규한 샘플을 분류하기 위하여 생산 운행에서 사용될 수 있다. 이러한 생산 운행에서, 0의 초기 가중치를 가진 임의의 특징은 계산될 필요가 없다. 따라서, 특징 벡터의 크기는 훈련부터 생산까지 감소할 수 있다. 일부 예에서, 주성분 분석(principal component analysis: PCA)은 기계 학습 모델을 훈련하는데 사용될 수 있다. 기계 학습 모델에 있어서, 다양한 예에서, 각각의 주성분은 특징일 수 있거나, 함께 병합된 모든 주성분은 특징일 수 있다. 분석물을 위하여 각각의 이들에 대한 PCA의 출력을 기반으로, 모델은 생성될 수 있다. 모델은 PCA 전 미가공 특징을 기반으로 업데이트될 수 있다(PCA 출력이 필요 없다). 다양한 접근법에서, 미가공 특징은 데이터의 모든 단일 조각이 사용될 수 있거나; 데이터의 각각의 배취의 무작위 선택이 수행되고 이를 통해 운행될 수 있거나; 랜덤 포레스트가 수행될 수 있거나; 다른 트리 또는 무작위 데이터 세트가 생성될 수 있다. 특징은 또한 임의의 차원 축소의 결과와 반대로 측정치 그 자체일 수 있지만 둘 다 또한 사용될 수 있다.

C. 훈련 반복 사이의 특징의 선택

상기 언급된 바와 같이, 훈련 과정은 원하는 기준을 충족시키는 모델을 생성할지 않을 수 있다. 이러한 점에서, 특징 선택은 다시 수행될 수 있다. 특징 공간은 꽤 클 수 있고(예를 들면, 35 또는 100천), 따라서 특징 벡터에서 사용되는 상이한 특징의 상이한 가능한 순열의 수가 막대할 수 있다. 특정한 특징(가능하게는 많음)은 동일한 부류(유형), 예를 들면, 윈도우에서 리드 수, 상이한 영역으로부터의 수의 비, 상이한 부위의 변이체 등에 속할 수 있다. 추가로, 단일 요소로의 특징의 병합은 순열의 수를 추가로 증가시킬 수 있다.

특징의 새로운 세트는 훈련 과정의 이전 반복으로부터의 정보를 기반으로 선택될 수 있다. 예를 들면, 특징과 연관된 가중치가 분석될 수 있다. 이들 가중치는 특징이 유지되거나 제거되어야 하는지의 여부를 결정하는데 사용될 수 있다. 한계점보다 큰 가중치 또는 평균 가중치와 연관된 특징은 유지될 수 있다. 한계점(유지하는 것과 동일하거나 상이함) 미만의 가중치 또는 평균 가중치와 연관된 특징은 제거될 수 있다.

모델의 훈련을 위한 특징의 선택 및 특징 벡터의 생성은 하나 이상의 원하는 기준, 예를 들면, 모델에 대한 적합한 품질 메트릭(예를 들면, 원하는 최소 정확도, 양성 예측치(PPV), 음성 예측치(NPV), 임상적 민감도, 임상적 특이도, 곡선하면적(AUC), 또는 이들의 조합)이 충족될 때까지 반복될 수 있다. 다른 기준은 상이한 특징 벡터와 함께 생성된 모델의 세트의 가장 우수한 품질 메트릭을 가진 모델을 선택하는 것일 수 있다. 따라서, 데이터로부터 표현형을 검출하는 능력에서 가장 우수한 통계적 성능 및 일반화를 가진 모델이 선택될 수 있다. 추가로, 훈련 샘플의 세트는 상이한 목적을 위하여, 예를 들면, 병태의 분류(예를 들면, 암을 갖거나 갖지 않은 개체), 치료(예를 들면, 치료 반응 갖거나 치료 반응을 갖지 않은 개체), 예후(예를 들면, 우수한 예후를 갖거나 우수한 예후를 갖지 않은 개체) 등을 위하여 다양한 모델을 훈련하는데 사용될 수 있다. 우수한 암 예후는 개체가 덜 공격적이고/이거나 더 치료 가능한 질환 형태와 연관된 예후를 본 명세서에서 지칭하는데 사용되는 바와 같이 증상 해결 또는 개선의 가능성을 갖거나 치료 후 회복이 예상될 때(예를 들면, 종양이 수축되거나, 암이 다시 생기는 것이 예상되지 않음)에 상응할 수 있다. 예를 들면, 암의 덜 공격적이고 더 치료 가능한 형태는 더 공격적이고/이거나 덜 치료 가능한 형태보다 더 높은 예상 생존율을 갖는다. 다양한 예에서, 우수한 예후는 치료, 차도 또는 개선된 전체 생존율에 반응하여 동일한 크기를 유지하거나 감소되는 종양을 나타낸다.

유사하게, 본 명세서에서 사용되는 바와 같은 불량한 예후(또는 우수한 예후를 갖지 않은 개체)는 더 공격적이고/이거나 덜 치료 가능한 질환 형태와 연관된 예후를 지칭한다. 예를 들면, 공격적이고 덜 치료 가능한 형태는 덜 공격적이고/이거나 치료 가능한 형태보다 더 불량한 생존율을 갖는다. 다양한 예에서, 불량한 예후는 동일한 크기를 유지하거나 증가하는 종양, 또는 다시 생기거나 감소하지 않는 암을 나타낸다.

VI. 다중 분석물 검정을 위한 기계 학습 모델의 사용

도 2는 실시예에 따라 생물학적 샘플을 분석하기 위한 예시적인 방법(200)을 도시한다. 방법(200)은 본 명세서에 기재된 임의의 시스템에 의해 실시될 수 있다. 일례에서, 방법은 개체의 집단에서 부류 구별이 가능한 기계 학습 모델을 사용한다. 다양한 예에서, 부류 구분이 가능한 이러한 모델(예를 들면, 분류기)은 건강한 집단 및 질환 집단, 치료 반응자/비반응자 및 치료 결정을 안내하는데 유용한 정보를 제공하는 질환의 단계를 구별하는데 사용된다.

블록(210)에서, 시스템은 분자의 복수의 부류를 포함하는 생물학적 샘플을 수신한다. 예시적인 생물학적 샘플은 본 명세서에 기재된 바와 같고, 예를 들면, 혈액, 혈장, 또는 소변이다. 분리된 샘플이 또한 수신될 수 있다. 단일 샘플(예를 들면, 혈액)은 다중 컨테이너, 예를 들면, 바이알 세트에 수집될 수 있다.

블록(220)에서, 시스템은 생물학적 샘플을 복수의 부분으로 분리하고, 각각의 분자의 복수의 부류는 복수의 부분 중 하나이다. 샘플은 이미 더 큰 샘플, 예를 들면, 혈액 샘플로부터 수득된 혈장의 분획일 수 있다. 그리고, 그 다음, 부분을 이러한 분획으로부터 수득할 수 있다. 일부 예에서, 부분은 분자의 다중 부류를 포함할 수 있다. 부분에 대한 검정은 분자의 한 부류만을 시험할 수 있고, 따라서 하나의 부분에서 분자의 한 부류는 측정되지 않을 수 있지만 상이한 부분에서 측정될 수 있다. 예로서, 측정 장치(151, 152 및 153)는 샘플의 상이한 부분에 대하여 각각의 검정을 수행할 수 있다. 컴퓨터 시스템(101)은 다양한 검정으로부터 측정된 데이터를 분석할 수 있다.

블록(230)에서, 각각의 복수의 검정에 있어서, 시스템은 기계 학습 모델에 입력되는 특징의 세트를 식별한다. 특징의 세트는 생물학적 샘플에서 분자의 복수의 부류 중 하나의 성질에 상응할 수 있다. 사용되는 특징의 세트의 정의는 컴퓨터 시스템의 메모리에 저장될 수 있다. 특징의 세트는, 예를 들면, 본 명세서에 기재된 기계 학습 기술을 사용하여 이전에 식별될 수 있다. 특정한 검정이 사용되는 경우, 특징의 상응하는 세트는 메모리로부터 검색될 수 있다. 각각의 검정은, 특징을 생성하는 임의의 특정한 소프트웨어 코드와 함께, 특징의 상응하는 세트를 검색하는데 사용되는 식별자를 가질 수 있다. 이러한 코드는 섹션이 독립적으로 업데이트될 수 있도록 모듈식일 수 있고, 특징의 최종 수집물은 사용된 검정 및 특징의 다양한 세트에 대한 저장된 정의를 기반으로 정의된다.

블록(240)에서, 복수의 부분의 각각의 부분에 있어서, 시스템은 생물학적 샘플에서 분자의 부류의 측정치의 세트를 수득하기 위하여 부분에서 분자의 부류에 대하여 검정을 수행한다. 시스템은 복수의 검정으로부터 생물학적 샘플에 대한 측정치의 복수의 세트를 수득할 수 있다. 어떤 검정이 특정되는지에 따라(예를 들면, 입력 파일 또는 사용자에 의한 측정 구성을 통해), 측정 장치의 특정한 세트는 컴퓨터 시스템에 특정한 측정을 제공하는데 사용될 수 있다.

블록(250)에서, 시스템은 측정치의 복수의 세트로부터의 특징값의 특징 벡터를 형성한다. 각각의 특징값은 특징에 상응할 수 있고, 하나 이상의 측정치를 포함한다. 특징 벡터는 측정치의 복수의 세트의 각각의 세트를 사용하여 형성된 적어도 하나의 특징값을 포함할 수 있다. 따라서, 특징 벡터는 분자의 상이한 부류에 대한 검정의 각각으로부터 측정치를 사용하여 측정될 수 있다. 특징 벡터의 형성 및 특징 벡터의 추출에 대한 다른 세부사항은 다른 섹션에 기재되지만, 특징 벡터의 형성을 위한 모든 경우에 적용된다.

주어진 분석물에 대한 특징은 주성분 분석을 사용하여 결정될 수 있다. 기계 학습 모델에 있어서, 다양한 예에서, 각각의 주성분은 특징일 수 있거나, 함께 연결된 모든 주성분은 특징일 수 있다. 분석물에 대한 각각의 이들에 대한 PCA의 출력을 기반으로, 모델은 생성될 수 있다. 다른 예에서, 모델은 임의의 PCA 전에 미가공 특징을 기반으로 업데이트될 수 있고, 따라서 특징은 임의의 PCA 출력을 필요로 하지 않을 수 있다. 다양한 접근법에서, 미가공 특징은 데이터의 모든 단일 조각이 사용될 수 있거나; 데이터의 각각의 배취의 무작위 선택이 수행되고 이를 통해 운행될 수 있거나; 랜덤 포레스트가 수행될 수 있거나; 다른 트리 또는 무작위 데이터 세트가 생성될 수 있다. 특징은 또한 임의의 차원 축소(예를 들면, PCA)의 결과와 반대로 측정치 그 자체일 수 있지만 둘 다 또한 사용될 수 있다.

블록(260)에서, 시스템은 훈련 생물학적 샘플로부터 수득된 훈련 벡터를 사용하여 훈련되는 컴퓨터 시스템, 기계 학습 모델에 로딩된다. 훈련 샘플은 수행된 동일한 측정을 가질 수 있고, 따라서 동일한 특징 벡터가 생성될 수 있다. 훈련 샘플은 예를 들면, 임상적 질문에 의해 지시되는 바와 같은 원하는 분류를 기반으로 선택될 수 있다. 상이한 하위세트는, 예를 들면, 이들에 할당된 표지에 의해 결정될 수 있는 상이한 성질을 가질 수 있다. 훈련 생물학적 샘플의 제1 하위세트는 특정된 성질을 가질 수 있는 것으로 식별될 수 있고, 훈련 생물학적 샘플의 제2 하위세트는 특정된 성질을 갖지 않는 것으로 식별될 수 있다. 성질의 예는 다양한 질환 또는 질병일 수 있지만, 중간 분류 또는 측정일 수도 있다. 이러한 성질의 예는 암의 존재 또는 암의 단계, 또는 암의 예후, 예를 들면, 암의 치료를 위한 것을 포함한다. 예로서, 암은 결장직장암, 간암, 폐암, 췌장암 또는 유방암일 수 있다.

블록(270)에서, 시스템은 특징 벡터를 기계 학습 모델에 입력하여 생물학적 샘플이 특정된 성질을 갖는지의 여부의 출력 분류를 수득한다. 분류는 다양한 방식으로, 예를 들면, 각각의 하나 이상의 분류에 대한 확률로서 제공될 수 있다. 예를 들면, 암의 존재는 확률 및 출력이 할당될 수 있다. 유사하게, 암의 부재는 확률 및 출력이 할당될 수 있다. 가장 높은 확률을 가진 분류는 예를 들면, 대상체를 하나 이상의 기준, 예를 들면, 두번째로 높은 분류보다 충분히 높은 확률을 가진 분류를 사용할 수 있다. 차이는 한계점 초과일 때 필요할 수 있다. 하나 이상의 기준이 충족하지 않는 경우, 출력 분류는 측정되지 않을 수 있다. 따라서, 출력 분류는 개체에서 암의 존재를 나타내는 검출값(예를 들면, 확률)을 포함할 수 있다. 그리고, 기계 학습 모델은 암을 갖지 않은 생물학적 샘플의 확률을 제공하는 또 다른 분류를 추가로 출력할 수 있다.

이러한 분류 후, 치료는 대상체에 제공될 수 있다. 예시적인 치료 계획은 외과 수술, 주어진 약물 또는 약물 조합에 의한 화학요법, 및/또는 방사선 요법을 포함할 수 있다.

VII. 분류기 생성

본 발명의 개시내용의 방법 및 시스템은 샘플 사이의 부류 구별과 상관된 정보성 특징(예를 들면, 게놈 좌)의 세트를 식별하고, 샘플에서 이들의 존재가 부류 구별과 상관되는 정도에 의해 특징(예를 들면, 유전자)을 구분하는 것을 포함하고, 상기 상관이 기회(chance)에 의해 예상되는 것보다 더 강한지의 여부를 결정하는 것에 관한 것일 수 있다. 기계 학습 기술은 입력 특징 벡터로부터 이러한 정보성 특징을 함축적으로 사용할 수 있다. 일례에서, 부류 구별은 공지된 부류이고, 일례에서 부류 구별은 질환 부류 구별이다. 특히, 질환 부류 구별은 암 부류 구별일 수 있다. 다양한 예에서, 암은 결장직장암, 폐암, 간암 또는 췌장암이다.

본 발명의 개시내용의 일부 예는 또한 적어도 하나의 이전에 공지되지 않은 부류(예를 들면, 질환 부류, 증식성 질환 부류, 암 단계 또는 치료 반응)의 시험되는 적어도 하나의 샘플이 분류되는지 확인하는 것에 관한 것일 수 있고, 여기서 샘플은 개체로부터 수득된다. 양상에 있어서, 개시내용은 개체의 집단 내의 개체를 구분할 수 있는 분류기를 제공한다. 분류기는 기계 학습 모델의 부분일 수 있다. 기계 학습 모델은 생물학적 샘플의 분자의 복수의 부류의 각각의 성질에 상응하는 특징의 세트를 입력으로서 수신할 수 있다. 생물학적 샘플에서 분자의 복수의 부류는 검정되어 분자의 복수의 부류를 대표하는 측정치의 복수의 세트를 수득할 수 있다. 분자의 복수의 부류의 각각의 성질에 상응하는 특징의 세트는 식별될 수 있고, 기계 학습 모델로 입력될 수 있다. 측정치의 복수의 세트의 각각으로부터의 특징값의 특징 벡터는 각각의 특징값이 특징의 세트의 한 특징에 상응하고, 하나 이상의 측정치를 포함하도록 생성될 수 있다. 특징 벡터는 측정치의 복수의 세트의 각각의 세트를 사용하여 수득된 적어도 하나의 특징값을 포함할 수 있다. 분류기를 포함하는 기계 학습 모델은 컴퓨터 메모리에 로딩될 수 있다. 기계 학습 모델은 훈련 생물학적 샘플의 제1 하위세트가 특정된 성질을 갖는 것으로 식별되고, 훈련 생물학적 샘플의 제2 하위세트가 특정된 성질을 갖지 않는 것으로 식별되도록 훈련 생물학적 샘플로부터 수득된 훈련 벡터를 사용하여 훈련될 수 있다. 특징 벡터는 생물학적 샘플이 특정된 성질을 갖는지의 여부의 출력 분류를 수득하고, 따라서 특정된 성질을 가진 개체의 집단을 구분하도록 기계 학습 모델이 입력될 수 있다. 예로서, 특정된 성질은 개체가 암을 갖는지 갖지 않는지의 여부이다.

하나의 양상에 있어서, 개시내용은 (a) 다중 분석물 분석을 기반으로 대상체를 분류하도록 작동 가능한 분류기를 포함하는 컴퓨터 판독 가능 매체; 및 (b) 컴퓨터 판독 가능한 매체에 저장된 명령을 실행하기 위한 하나 이상의 프로세서를 포함하는, 생물학적 샘플의 다중 분석물 분석을 기반으로 대상체를 분류하는 시스템을 제공한다.

일례에서, 시스템은 선형 판별 분석(LDA) 분류기, 이차 판별 분석(QDA) 분류기, 서포트 벡터 머신(SVM) 분류기, 랜덤 포레스트(RF) 분류기, 선형 커널 서포트 벡터 머신 분류기, 1차 또는 2차 다항 커널 서포트 벡터 머신 분류기, 리지 회귀 분류기, 탄성 그물 알고리즘 분류기, 순차 최소 최적화 알고리즘 분류기, 나이브 베이즈 알고리즘 분류기, 및 NMF 예측 알고리즘 분류기로부터 선택된 기계 학습 분류기로 구성되는 분류 회로를 포함한다.

일례에서, 암 샘플(예를 들면, 조직)에서 바이오마커의 정보성 특징(예를 들면, 게놈 좌)은 검정되어 프로파일을 형성한다. 선형 분류기 스케일러 출력의 한계점은 정확도, 양성 예측치(PPV), 음성 예측치(NPV), 임상적 민감도, 임상적 특이도, 곡선하면적(AUC), 또는 이들의 조합, 예를 들면, 데이터세트를 훈련하는데 관찰되는 교차 검증하에 민감도와 특이도의 합을 최대화하도록 최적화된다.

주어진 샘플에 대한 전체 다중 분석물 검정 데이터(예를 들면, 발현 데이터 또는 서열 데이터)는 추출 및 증폭 반응 등의 효율이 다양한 출발 물질의 상이한 양에 대하여 보정하기 위하여 당해 분야의 숙련가에게 공지된 방법을 사용하여 정규화될 수 있다. 정규화된 데이터에 대하여 선형 분류기를 사용하여 진단적 또는 예후적 콜(예를 들면, 치료제에 대한 반응 또는 내성)을 만드는 것은 데이터 공간을 효율적으로 분할하는 것을 의미하고, 예를 들면, 분리 초평면을 사용하여 분류기에서 모든 특징(예를 들면, 유전자)의 발현값의 모든 가능한 조합을 2개의 해체된 절반으로 나눈다. 이러한 분할은, 예를 들면, 치료제에 대하여 반응 또는 내성을 보이는 환자로부터의 훈련 예의 큰 세트에 대하여 경험적으로 유도된다. 일반론을 잃지 않고, 모든 하지만 하나의 바이오마커에 대한 값의 특정한 고정된 세트를 추정할 수 있고, 결정이 변화할 수 있는 이러한 남은 바이오마커, 예를 들면, 치료제에 대한 반응 또는 내성에 대한 한계치를 자동적으로 정의할 수 있다. 그 다음, 이러한 동적 한계점을 초과하는 발현값은 치료제에 대하여 내성(음성 가중치를 가진 바이오마커) 또는 반응성(양성 가중치를 가진 바이오마커)을 나타낼 수 있다. 이러한 한계점의 정확한 값은 분류기 내의 모든 다른 바이오마커의 실제 측정된 발현 프로파일에 따라 좌우되지만, 특정한 바이오마커의 일반적인 지표는 고정된 채로 남아 있고, 예를 들면, 높은 값 또는 "상대적인 과발현"은 항상 반응성(양성 가중치를 가진 유전자) 또는 내성(음성 가중치를 가진 유전자)에 기여한다. 따라서, 전체 유전자 발현 분류기의 맥락에서, 상대적인 발현은 특정한 바이오마커의 상향조절 또는 하향조절이 치료제에 대한 반응 또는 내성을 나타내는지의 여부를 나타낼 수 있다.

일례에서, 환자 생물학적(예를 들면, 조직) 샘플의 바이오마커 프로파일(예를 들면, 발현 프로파일)은 선형 분류기에 의해 평가된다. 본 명세서에서 사용되는 바와 같이, 선형 분류기는 화합물 결정 점수("결정 함수")로의 개별적인 바이오마커 특징의 가중치 합을 나타낸다. 그 다음, 결정 점수는 미리 정의된 컷오프 점수 한계점과 비교되고, 이는 정확도, 양성 예측치(PPV), 음성 예측치(NPV), 임상적 민감도, 임상적 특이도, 곡선하면적(AUC), 또는 이들의 조합의 관점에서 특정한 세트점에 상응하고, 이는 샘플이 점수 한계점 초과(결정 함수 양성) 또는 미만(결정 함수 음성)인 경우를 나타낸다. 효율적으로, 이는 데이터 공간, 예를 들면, 바이오마커 특징값의 모든 가능한 조합의 세트이 상이한 임상적 분류 또는 예측에 상응하는 2개의 상호 배타적인 절반으로, 예를 들면, 치료제에 반응성에 상응하는 것 및 내성인 다른 것으로 분할되는 데이터 공간을 의미한다.

이러한 정량의 해석, 즉, 치료제에 대한 반응 또는 내성의 컷오프 한계점은 공지된 결과를 가진 환자의 세트로부터의 발달 양상("훈련")으로부터 유도된다. 상응하는 가중치 및 결정 점수를 위한 반응성/내성 컷오프 한계점은 당해 분야의 숙련가에게 공지된 방법에 의해 데이터를 훈련하는 것으로부터 연역적으로 고정된다. 일례에서, 부분 최소 자승법 판별 분석(PLS-DA)은 가중치를 결정하는데 사용된다(L. Stale, S. Wold, J. Chemom. 1(1987) 185-196; D. V. Nguyen, D. M. Rocke, Bioinformatics 18(2002) 39-50). 당해 분야에 공지된 분류를 수행하는 다른 방법은 또한 암 분류기의 검정 데이터(예를 들면, 전사체)에 적용되는 경우, 본 명세서에 기재된 방법과 함께 할 수 있다.

상이한 방법은 이들 바이오마커에 대하여 측정된 정량적 검정 데이터를 예후 또는 다른 예측적 용도로 전환시키는데 사용될 수 있다. 이들 방법은 패턴 인식(Duda et al. Pattern Classification, 2.sup.nd ed., John Wiley, New York 2001), 기계 학습(Scholkopf et al. Learning with Kernels, MIT Press, Cambridge 2002, Bishop, Neural Networks for Pattern Recognition, Clarendon Press, Oxford 1995), 통계(Hastie et al. The Elements of Statistical Learning, Springer, New York 2001), 생물정보(Dudoit et al., 2002, J. Am. Statist. Assoc. 97:77-87, Tibshirani et al., 2002, Proc. Natl. Acad. Sci. USA 99:6567-6572) 또는 화학계량(Vandeginste, et al., Handbook of Chemometrics and Qualimetrics, Part B, Elsevier, Amsterdam 1998) 분야로부터의 방법을 포함하지만 이들로 한정되지 않는다.

훈련 단계에서, 내성 경우(예를 들면, 치료에 대한 반응성을 나타내는 환자, 치료에 대한 반응성을 보여주지 않는 환자, 치료에 대하여 내성을 나타내는 환자, 및/또는 치료에 대하여 내성을 보여주지 않는 환자를 포함) 둘 다에 대한 환자 샘플의 세트는 측정되고, 예측 방법은 훈련 세트 또는 미래 샘플 세트를 최적으로 예측하기 위하여 이러한 훈련 데이터로부터 본래의 정보를 사용하여 최적화된다. 이러한 훈련 단계에서, 방법은 훈련되거나 변수화되어 특이적 검정 데이터 프로파일로부터 특이적 예측 세포를 예측한다. 적합한 변형 또는 전처리 단계는 분류(예를 들면, 진단적 또는 예후적) 방법 또는 알고리즘에 대상이 되기 전에 측정된 데이터와 함께 수행될 수 있다.

각각의 검정 데이터(예를 들면, 전사체)에 대한 미리 처리된 특징(예를 들면, 강도) 값의 가중치 합은 형성되고 훈련 세트에 대하여 최적화된 한계치와 비교된다(Duda et al. Pattern Classification, 2^nd ed., John Wiley, New York 2001). 가중치는 다수의 선형 분류 방법에 의해 유도될 수 있고, 이는 부분 최소 자승법(PLS, (Nguyen et al., 2002, Bioinformatics 18(2002) 39-50)) 또는 서포트 벡터 머신(SVM, (Scholkopf et al. Learning with Kernels, MIT Press, Cambridge 2002))을 포함하지만 이들로 한정되지 않는다.

데이터는 상기 기재된 바와 같은 가중치 합산을 적용하기 전에 비선형으로 변형될 수 있다. 이러한 비선형 변형은 데이터의 차원수를 증가시키는 것을 포함할 수 있다. 비선형 변형 및 가중치 합산은 함축적으로, 예를 들면, 커널 함수의 사용을 통해 수행될 수 있다(Scholkopf et al. Learning with Kernels, MIT Press, Cambridge 2002).

또 다른 예에서, 결정 트리(Hastie et al., The Elements of Statistical Learning, Springer, New York 2001) 또는 랜덤 포레스트(Breiman, Random Forests, Machine Learning 45:5 2001)는 검정 데이터(예를 들면, 전사체 세트)에 대한 측정치(예를 들면, 강도 데이터) 또는 이들 생성물로부터 분류(예를 들면, 진단적 또는 예후적 콜)를 만드는데 사용된다.

또 다른 예에서, 신경망(Bishop, Neural Networks for Pattern Recognition, Clarendon Press, Oxford 1995)은 검정 데이터(예를 들면, 전사체 세트)에 대한 측정치(예를 들면, 강도 데이터) 또는 이들 생성물로부터 분류(예를 들면, 진단적 또는 예후적 콜)를 만드는데 사용된다.

또 다른 예에서, 선형, 대각선 선형, 이차 및 로지스틱 판별 분석과 같은 방법을 포함하는 판별 분석(Duda et al., Pattern Classification, 2nd ed., John Wiley, New York 2001)은 검정 데이터(예를 들면, 전사체 세트)에 대한 측정치(예를 들면, 강도 데이터) 또는 이들 생성물로부터 분류(예를 들면, 진단적 또는 예후적 콜)를 만드는데 사용된다.

또 다른 예에서, 마이크로어레이를 위한 예측 분석(Prediction Analysis for Microarrays: PAM, (Tibshirani et al., 2002, Proc. Natl. Acad. Sci. USA 99:6567-6572))은 검정 데이터(예를 들면, 전사체 세트)에 대한 측정치(예를 들면, 강도 데이터) 또는 이들 생성물로부터 분류(예를 들면, 진단적 또는 예후적 콜)를 만드는데 사용된다.

또 다른 예에서, 부류 유사성의 소프트 독립 모델링(Soft Independent Modelling of Class Analogy: SIMCA, (Wold, 1976, Pattern Recogn. 8:127-139))은 전사체 세트를 위하여 측정된 강도 데이터로부터의 예측 콜 또는 이의 생성물을 제조하는데 사용된다.

신호의 다양한 유형은 처리될 수 있고, 분류(예를 들면, 표현형 또는 표현형의 확률)는 기계 학습 모델을 사용하여 추론된다. 하나의 유형의 분류는 대상체의 병태(예를 들면, 질환 및/또는 질환의 단계 또는 중증도)에 상응한다. 따라서, 일부 예에서, 모델은 모델이 훈련되는 병태의 유형을 기반으로 대상체를 분류할 수 있다. 이러한 병태는 훈련 샘플의 표지, 또는 카테고리 변수의 수집물에 상응할 수 있다. 상기 언급된 바와 같이, 이들 표지는 병태의 후기 단계에서 환자의 더 많은 강한 측정을 통해 결정될 수 있고, 이는 병태가 더 초기에 식별되도록 만든다.

처방된 병태를 가진 훈련 샘플을 사용하여 생성된 이러한 모델은 특정한 이점을 제공할 수 있다. 기술의 이점은 (a) 질환 또는 질병(예를 들면, 증상의 개시 또는 대안적인 방법을 통한 신뢰할 만한 검출 전의 노화 관련 질환)의 유리한 스크리닝으로서, 유전자 시그니처, 예를 들면, 체세포 유전자 시그니처를 가질 수 있는 다른 질환을 포함할 수 있지만 이에 한정되지 않는 것; (b) 기존의 진단적 방법(예를 들면, 암 생검/의료 영상화 스캔)에 대한 진단적 확인 또는 보충 증거; 및 (c) 예후 보고를 위한 치료 및 후속치료 모니터링, 치료 반응, 치료 내성, 및 재발 검출을 포함한다.

다양한 예에서, 생물학적 병태는 질환 또는 질병(예를 들면, 노화 관련 질환, 노화 상태, 치료 효과, 약물 효과, 수술 효과, 측정 가능한 특성), 또는 생활방식 변화(예를 들면, 식단 변화, 흡연 변화, 수면 패턴 변화 등) 후 생물학적 상태를 포함할 수 있다. 일부 예에서, 생물학적 병태는 공지되지 않을 수 있고, 여기서 분류는 또 다른 병태의 부재로서 결정될 수 있다. 따라서, 기계 학습 모델은 공지되지 않은 생물학적 병태를 추론하거나 공지되지 않은 생물학적 병태를 해석할 수 있다.

일부 예에서, 분류의 점진적인 변화가 존재할 수 있고, 따라서, 예를 들면, 실수에 상응하는 병태의 분류의 많은 수준이 존재할 수 있다. 따라서, 분류는 병태 또는 다른 생물학적 상태를 가진 대상체를 위한 확률, 위험도, 또는 측정일 수 있다. 이러한 값의 각각은 상이한 분류에 상응할 수 있다.

일부 예에서, 분류는 권고를 포함할 수 있고, 이는 병태의 이전 분류를 기반으로 할 수 있다. 이전 분류는 동일한 데이터를 사용하는(가능하게는 상이한 입력 특징에도 불구하고) 분리된 모델, 또는 다양한 분류를 포함하는 더 큰 모델의 부분으로서 초기 하위모델에 의해 수행될 수 있고, 여기서 하나의 모델의 출력 분류는 또 다른 모델에 대한 입력으로서 사용될 수 있다. 예를 들면, 대상체가 심근 경색의 높은 위험도를 가지는 것으로 분류되는 경우, 모델은 생활방식에서의 변화, 예를 들면, 규칙적으로 운동하고, 건강한 식단을 소비하고, 건강한 체중을 유지하고, 흡연을 중단하고, LDL 콜레스테롤을 낮추도록 권고될 수 있다. 또 다른 예로서, 모델은 분류(예를 들면, 진단적 또는 예후적 콜)를 확인하기 위하여 대상체에 대한 임상 시험이 권고될 수 있다. 이러한 임상 시험은 영상화 시험, 혈액 시험, 컴퓨터 단층 촬영(CT) 스캔, 자기 공명 영상화(MRI) 스캔, 초음파 스캔, 흉부 X선, 양전자 방출 단층 촬영(PET) 스캔, PET-CT 스캔, 또는 이의 임의의 조합을 포함할 수 있다. 이러한 권고된 활동은 본 명세서에 기재된 방법 및 시스템의 부분으로서 수행될 수 있다.

따라서, 예는 각각이 상이한 유형의 분류에 관한 것인 많은 상이한 모델을 제공할 수 있다. 또 다른 예로서, 초기 모델은 대상체가 암인지 아닌지의 여부를 결정할 수 있다. 추가의 모델은 대상체가 특정한 암의 특정한 단계를 갖는지 갖지 않는지의 여부를 결정할 수 있다. 추가의 모델은 대상체가 특정한 암인지 아닌지의 여부를 결정할 수 있다. 추가의 모델은 특정한 수술, 화학요법(예를 들면, 약물), 방사선요법, 면역요법, 또는 다른 유형의 치료에 대한 대상체의 예측된 반응을 분류할 수 있다. 또 다른 예로서, 모델은 초기에 하위모델과 순차적으로 특정한 유전자 변이가 정확한지 아닌지의 여부, 또는 관련이 있는지 없는지의 여부를 결정할 수 있고, 그 다음, 입력 특징을 생성하여 더 큰 하위모델(예를 들면, 나중에 파이프라인에서)로 생성하는데 그 정보를 사용한다.

일부 예에서, 표현형의 분류는 실험자가 환자의 혈액, 혈장, 소변 등에서 관찰할 수 있는 분자의 종류 및 분포에서의 변화를 유도하는 감염 또는 생리학적 스트레스로 인한 세포 전환에서의 변화와 같은 생리학적 과정으로부터 유도된다.

따라서, 몇몇 예는 능동 학습을 포함할 수 있고, 여기서 기계 학습 과정은 분류에서 불확정성을 감소시키는 그 데이터의 확률을 기반으로 수득되는 미래 실험 또는 데이터를 제기할 수 있다. 이러한 문제는 대상체 게놈의 충분한 커버리지, 시간점 해상도의 부족, 불충분한 환자 배경 서열, 또는 다른 이유와 관련될 수 있다. 다양한 예에서, 모델은 하기 중 하나 이상을 포함하는 누락 변수를 기반으로 많은 후속 단계 중 하나를 제시할 수 있다: (i) 재시퀀싱 전체 게놈 시퀀싱(WGS), (ii) 재시퀀싱 전체 염색체 시퀀싱(WES), (iii) 대상체의 게놈의 특정한 영역의 표적화된 시퀀싱, (iv) 특이적 프라이머 또는 기타 접근법, 및 (v) 기타 습식 실험실 접근법. 권고는 (예를 들면, 대상체의 유전자 데이터 또는 비-유전자 데이터로 인하여) 환자 간에 다양할 수 있다. 일부 예에서, 분석은 가장 정확한 분류를 수득하기 위한 가장 우수한 다음 단계를 제시하면서 비용, 위험도, 또는 환자에 대한 사망률과 같은 일부 함수를 최소화하거나, 정확도, 양성 예측치(PPV), 음성 예측치(NPV), 임상적 민감도, 임상적 특이도, 곡선하면적(AUC), 또는 이들의 조합과 같은 분류 성능을 최대화하는 것을 목표로 한다.

VIII. 암 진단 및 검출

본 명세서에 기재된 훈련된 기계 학습 방법, 모델 및 분별 분류기는 암 검출, 진단 및 치료 반응성을 포함하는 다양한 의료 응용에 유용하다. 모델은 개별적인 메타데이터 및 분석물-유도된 특징에 의해 훈련되기 때문에, 응용은 집단에서 개체를 계층화하고 따라서 치료 결정을 안내하도록 재단될 수 있다.

A. 진단

본 명세서에 제공된 방법 및 시스템은 암을 가진 대상체(예를 들면, 결장직장암, CRC)의 진단의 출력을 생성하기 위하여 인공 지능 기반의 접근법을 사용하는 예측 분석을 수행하여 대상체(환자)로부터 수득된 데이터를 분석한다. 예를 들면, 응용은 암을 가진 대상체의 진단을 생성하기 위하여 수득된 데이터에 예측 알고리즘을 적용할 수 있다. 예측 알고리즘은 암을 가진 대상체의 진단을 생성하기 위하여 수득된 데이터를 처리하도록 구성된 인공 지능 기반의 예측, 예를 들면, 기계 학습 기반의 예측을 포함할 수 있다.

기계 학습 예측은 입력으로서 암을 가진 환자의 코호트의 하나 이상의 세트로부터의 데이터세트(예를 들면, 개체의 생물학적 샘플의 다중 분석물 검정을 수행하여 생성된 데이터세트) 및 기계 학습 예측에 대한 출력으로서 대상체의 공지된 진단(예를 들면, 단계 구분 및/또는 종양 분획) 결과를 사용하여 훈련될 수 있다.

훈련 데이터세트(예를 들면, 개체의 생물학적 샘플의 다중 분석물 검정을 수행하여 생성된 데이터세트)는, 예를 들면, 공통 특성(특징) 및 결과(표지)를 가진 대상체의 하나 이상의 세트로부터 생성될 수 있다. 훈련 데이터세트는 진단에 관한 특징에 상응하는 특징 및 표지의 세트를 포함할 수 있다. 특징은, 예를 들면, cfDNA 검정 측정의 특정한 범위 또는 카테고리와 같은 특징, 예를 들면, 참조 게놈의 빈(게놈 윈도우)의 세트의 각각 내에 중첩되거나 속하는 건강한 샘플 및 질환 샘플로부터 수득된 생물학적 샘플의 cfDNA 단편의 수를 포함할 수 있다. 예를 들면, 주어진 시간점에 주어진 대상체로부터 수집된 특징의 세트는 진단적 시그니처로서 집합적으로 제공될 수 있고, 이는 주어진 시간점에서 대상체의 식별된 암의 지표일 수 있다. 특징은 또한, 예를 들면, 하나 이상의 암에 대한 대상체의 진단적 결과의 표지를 포함할 수 있다.

표지는, 예를 들면, 대상체의 공지된 진단(예를 들면, 단계 구분 및/또는 종양 분획) 결과와 같은 결과를 포함할 수 있다. 결과는 대상체에서 암과 연관된 특성을 포함할 수 있다. 예를 들면, 특성은 하나 이상의 암을 가진 대상체의 지표일 수 있다.

휸련 세트(예를 들면, 훈련 데이터세트)는 대상체(예를 들면, 하나 이상의 암을 갖거나 갖지 않은 환자의 후행 및/또는 선행 코호트)의 하나 이상의 세트에 상응하는 데이터의 세트의 무작위 샘플링에 의해 선택될 수 있다. 대안적으로, 훈련 세트(예를 들면, 훈련 데이터세트)는 대상체(예를 들면, 하나 이상의 암을 갖거나 갖지 않은 환자의 후행 및/또는 선행 코호트)의 하나 이상의 세트에 상응하는 데이터 세트의 비례 샘플링에 의해 선택될 수 있다. 훈련 세트는 대상체(예를 들면, 상이한 임상 부위 또는 시험으로부터의 환자)의 하나 이상의 세트에 상응하는 데이터의 세트에 걸쳐 균형이 맞춰질 수 있다. 기계 학습 예측은 진단적 정확도 측정에 상응하는 최대 원하는 값을 갖는 것과 같이 정확도 또는 성능에 대한 특정한 미리 결정된 상태가 충족될 때까지 훈련될 수 있다. 예를 들면, 진단적 정확도는 대상체에서 하나 이상의 암의 진단, 단계 구분, 또는 종양 분획의 예측에 상응할 수 있다.

진단적 정확도 측정의 예는 민감도, 특이도, 양성 예측치(PPV), 음성 예측치(NPV), 정확도, 및 암(예를 들면, 결장직장암)을 검출하거나 예측하는 진단적 정확도에 상응하는 수신기 동작 특성(ROC) 곡선의 곡선하면적(AUC)을 포함할 수 있다.

또 다른 양상에 있어서, 본 발명의 개시내용은 하기 단계를 포함하는 대상체에서 암을 식별하는 방법을 제공한다: (a) 상기 대상체로부터의 무세포 핵산(cfNA) 분자를 포함하는 생물학적 샘플을 제공하는 단계; (b) 상기 대상체로부터의 상기 cfNA 분자를 시퀀싱하여 복수의 cfNA 시퀀싱 리드를 생성하는 단계; (c) 상기 복수의 cfNA 시퀀싱 리드를 참조 게놈에 대하여 정렬하는 단계; (d) 상기 참조 게놈의 각각의 제1 복수의 게놈 영역에서 상기 복수의 cfNA 시퀀싱 리드의 정량적 측정을 생성하여 제1 cfNA 특징 세트를 생성하는 단계로서, 여기서 상기 참조 게놈의 상기 제1 복수의 게놈 영역은 적어도 약 10개의 개별 영역을 포함하고, 상기 적어도 약 10개의 개별 영역의 각각은 표 1에서 유전자로 이루어진 군으로부터 선택된 유전자의 적어도 부분을 포함하는, 단계; 및 (e) 상기 제1 cfNA 특징에 훈련된 알고리즘을 적용하여 상기 암을 가진 상기 대상체의 가능성을 생성하는 단계.

일부 예에서, 상기 적어도 약 10개의 개별 영역은 적어도 약 20개의 개별 영역을 포함하고, 각각의 상기 적어도 약 20개의 개별 영역은 표 1의 그룹으로부터 선택된 유전자의 적어도 부분을 포함한다. 일부 예에서, 상기 적어도 약 10개의 개별 영역은 적어도 약 30개의 개별 영역을 포함하고, 각각의 상기 적어도 약 30개의 개별 영역은 표 1의 그룹으로부터 선택된 유전자의 적어도 부분을 포함한다. 일부 예에서, 상기 적어도 약 10개의 개별 영역은 적어도 약 40개의 개별 영역을 포함하고, 각각의 상기 적어도 약 40개의 개별 영역은 표 1의 그룹으로부터 선택된 유전자의 적어도 부분을 포함한다. 일부 예에서, 상기 적어도 약 10개의 개별 영역은 적어도 약 50개의 개별 영역을 포함하고, 각각의 상기 적어도 약 50개의 개별 영역은 표 1의 그룹으로부터 선택된 유전자의 적어도 부분을 포함한다. 일부 예에서, 상기 적어도 약 10개의 개별 영역은 적어도 약 60개의 개별 영역을 포함하고, 각각의 상기 적어도 약 60개의 개별 영역은 표 1의 그룹으로부터 선택된 유전자의 적어도 부분을 포함한다. 일부 예에서, 상기 적어도 약 10개의 개별 영역은 적어도 약 70개의 개별 영역을 포함하고, 각각의 상기 적어도 약 70개의 개별 영역은 표 1의 그룹으로부터 선택된 유전자의 적어도 부분을 포함한다.

예를 들면, 이러한 미리 결정된 조건은 암(예를 들면, 결장직장암, 유방암, 췌장암, 또는 간암)을 예측하는 민감도가, 예를 들면, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 값을 포함한다는 것일 수 있다.

또 다른 예로서, 이러한 미리 결정된 조건은 암(예를 들면, 결장직장암, 유방암, 췌장암, 또는 간암)을 예측하는 특이도가, 예를 들면, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 값을 포함한다는 것일 수 있다.

또 다른 예로서, 이러한 미리 결정된 조건은 암(예를 들면, 결장직장암, 유방암, 췌장암, 또는 간암)을 예측하는 양성 예측치(PPV)가, 예를 들면, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 값을 포함한다는 것일 수 있다.

또 다른 예로서, 이러한 미리 결정된 조건은 암(예를 들면, 결장직장암, 유방암, 췌장암, 또는 간암)을 예측하는 음성 예측치(NPV)가, 예를 들면, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 값을 포함한다는 것일 수 있다.

또 다른 예로서, 이러한 미리 결정된 조건은 암(예를 들면, 결장직장암, 유방암, 췌장암, 또는 간암)을 예측하는 수신기 동작 특성(ROC) 곡선의 곡선하면적(AUC)이, 예를 들면, 적어도 약 0.50, 적어도 약 0.55, 적어도 약 0.60, 적어도 약 0.65, 적어도 약 0.70, 적어도 약 0.75, 적어도 약 0.80, 적어도 약 0.85, 적어도 약 0.90, 적어도 약 0.95, 적어도 약 0.96, 적어도 약 0.97, 적어도 약 0.98, 또는 적어도 약 0.99의 값을 포함한다는 것일 수 있다.

임의의 상기 양상의 일부 예에서, 방법은 대상체에서 질환의 진행을 모니터링하는 것을 추가로 포함하고, 여기서 모니터링은 유전자 서열 특징에 적어도 부분적으로 기반한다. 일부 예에서, 질환은 암이다.

임의의 상기 양상의 일부 예에서, 방법은 대상체에서 암의 조직 기원을 결정하는 것을 포함하고, 여기서 결정은 유전자 서열 특징에 적어도 부분적으로 기반한다.

임의의 상기 양상의 일부 예에서, 방법은 대상체에서 종양 부담을 추정하는 것을 추가로 포함하고, 여기서 추정은 유전자 서열 특징에 적어도 부분적으로 기반한다.

B. 치료 반응성

본 명세서에 기재된 예측 분류기, 시스템 및 방법은 임상적 응용의 수에 대한 개체의 집단을 분류하는데 유용하다(예를 들면, 개체의 생물학적 샘플의 다중 분석물 검정의 수행을 기반으로). 이러한 임상적 응용의 예는 초기 단계 암의 검출, 암의 진단, 암을 질환의 특정한 단계로 분류, 암의 치료를 위한 치료제에 대한 반응 또는 내성의 결정을 포함한다.

본 명세서에 기재된 방법 및 시스템은 등급 및 단계가 유사한 다양한 암 유형에 적용 가능하고, 마찬가지로, 단일 암 질환 유형으로 제한되지 않는다. 따라서, 분석물 및 검정의 조합은 상이한 조직에서 상이한 암 유형에 걸친 암 치료제의 반응성을 예측하고 치료 반응성을 기반으로 개체를 분류하기 위하여 본 발명의 시스템 및 방법에서 사용될 수 있고, 일례에서, 본 명세서에 기재된 분류기는 치료 반응자 및 비반응자로 개체의 그룹을 계층화할 수 있다.

본 발명의 개시내용은 또한 적어도 하나의 유전자에 대한 유전자 발현의 수준에 대하여 개체로부터 수득된 샘플을 평가하고, 이웃 분석 루틴을 사용하고, 샘플의 분류와 관련된 유전자를 결정하고, 이로써 분류와 관련이 있는 하나 이상의 약물 표적을 확인하는 것을 포함하는, 관심 대상 병태 또는 질환의 약물 표적(예를 들면, 특정한 부류와 관련이 있거나 중요한 유전자)을 결정하는 방법을 제공한다.

본 발명의 개시내용은 또한 질환 부류를 가진 개체로부터 샘플을 수득하고; 샘플에 약물을 적용하고, 약물 노출된 샘플을 적어도 하나의 유전자에 대하여 유전자 발현의 수준에 대하여 평가하고, 가중치 투표 방식(weighted voting scheme)으로 컴퓨터 모델을 사용하고, 약물 노출된 샘플을 모델에 관한 샘플의 상대적인 유전자 발현 수준의 함수로서 질환의 부류로 분류하는 것을 포함하는, 질환 부류를 치료하도록 설계된 약물의 효능을 결정하는 방법을 제공한다.

본 발명의 개시내용은 또한 질환 부류를 가진 개체로부터 샘플을 수득하고; 샘플에 약물을 적용하고, 약물 노출된 샘플을 적어도 하나의 유전자에 대하여 유전자 발현의 수준에 대하여 평가하고, 가중치 투표 방식으로 컴퓨터 모델을 사용하고, 모델의 유전자 발현 수준과 비교하여 샘플의 유전자 발현 수준을 평가하는 것을 포함하여 샘플을 질환의 부류로 분류하는 것을 포함하는, 질환 부류를 치료하도록 설계된 약물의 효능을 결정하는 방법을 제공한다.

또 다른 응용은 개체로부터 샘플을 수득하고, 샘플을 적어도 하나의 유전자에 대하여 유전자 발현의 수준에 대하여 평가하고, 가중치 투표 방식으로 컴퓨터 모델을 사용하고, 모델의 유전자 발현 수준과 비교하여 샘플의 유전자 발현 수준을 평가하는 것을 포함하여 샘플을 질환의 부류로 분류하는 것을 포함하는, 개체가 표현형 부류(예를 들면, 지능, 치료에 대한 반응, 수명, 바이러스 감염의 가능성 또는 비만)에 속하는지의 여부를 결정하는 방법이다.

결장암을 가진 환자의 예후를 예측하는데 유용한 바이오마커를 식별할 필요가 있다. 높은 위험도(불량한 예후) 또는 낮은 위험도(양호한 예후)로서 환자를 분류하는 능력은 이들 환자에 대하여 적절한 요법의 선택이 가능할 수 있다. 예를 들면, 높은 위험도의 환자는 공격적인 요법으로부터 이득을 얻을 가능성이 있는 반면, 요법은 낮은 위험도의 환자에 유의한 이점을 갖지 않을 수 있다. 그러나, 이러한 요구에도 불구하고, 이러한 문제에 대한 해결책은 이용 가능하지 않았다.

치료 결정을 안내할 수 있는 예측 바이오마커는 특이적 암 요법에 "예외적 반응자"일 수 있는 환자, 또는 대안적인 치료 방식으로부터 이득을 얻을 수 있는 개체의 하위세트를 식별한 후 구해졌다.

하나의 양상에 있어서, 치료 반응성을 기반으로 집단을 분류하는 것에 관한 본 명세서에 기재된 시스템 및 방법은 부류 DNA 손상제의 화학요법제, DNA 복구 표적 요법, DNA 손상 신호전달의 저해제, DNA 손상 유도된 세포 주기 정지의 저해제 및 DNA 손상을 간접적으로 야기하는 과정의 저해로 치료되는 암을 나타내지만, 이들 부류로 한정되지 않는다. 이들 화학요법제 각각은 본 명세서에서 사용되는 용어로서 "DNA 손상 치료제"로 간주된다.

환자의 분석물 데이터는 임상적 재발의 높거나 낮은 위험도를 가진 환자와 같은 높은 위험도 및 낮은 위험도의 환자 그룹에서 분류되고, 결과는 치료의 과정을 결정하는데 사용될 수 있다. 예를 들면, 높은 위험도의 환자인 것으로 결정된 환자는 수술 후 보조 화학요법으로 치료될 수 있다. 낮은 위험도인 것으로 보이는 환자에 있어서, 보조 화학요법은 수술 후 제공되지 않을 수 있다. 따라서, 본 발명의 개시내용은 특정한 양상에 있어서 재발 위험도의 지표인 결장암 종양의 유전자 발현 프로파일을 제조하는 방법을 제공한다.

다양한 예에서, 본 명세서에 기재된 분류기는 반응자 및 비반응자 사이의 개체의 집단을 치료를 위하여 계층화할 수 있다.

다양한 예에서, 치료는 알킬화제, 식물성 알칼로이드, 항종양 항생제, 항대사물질, 토포아이소머라제 저해제, 레티노이드, 관문 저해제 요법, 또는 VEGF 저해제로부터 선택된다.

집단이 반응자 및 비반응자로 계층화될 수 있는 치료의 예는 소라펜브, 레고라페닙, 이마티닙, 에리불린, 겜시타민, 카페시타빈, 파조파니, 라파티닙, 다브라페닙, 수티닙 말레이트, 크리조티닙, 에베롤리무스, 토리시롤리무스, 시롤리무스, 악시티닙, 게피티닙, 아나스트롤, 비칼루타마이드, 풀베스트란트, 랄리트렉세드, 페메트렉세드, 고세릴린 아세테이트, 에를로티닙, 베무라페닙, 비시오데깁, 타목시펜 시트레이트, 락클리탁셀, 도세탁셀, 카바지탁셀, 옥살리플라틴, 지브-아플리베르셉트, 베바시주맙, 트라스투주맙, 페르투주맙, 판티우무맙, 탁산, 블레오마이신, 멜팔렌, 플루바긴, 캄프토사르, 마이토신-C, 미톡산트론, SMANCS, 독소루비신, 페길화 독소루비신, 폴포리, 5-플루오로우라실, 테모졸로마이드, 파시레오티드, 테가푸르, 기메라실, 오테라시, 이트라코나졸, 보르테조밉, 레날리도마이드, 이린토테만, 에피루비신, 및 로미뎁신, 레스미노스테이트, 타스퀴니모드, 레파메티닙, 라파티닙, 타이베르브, 아레네기르, 파시레오티드, 시그니포르, 티실리무맙, 트레멜리무맙, 란소프라졸, 프레브온코, ABT-869, 리니파닙, 보로라닙, 티반티닙, 타르세바, 에를로티닙, 스티바르가, 레고라페닙, 플루오로-소라페닙, 브라마닙, 리포소말 독소루비신, 레바티닙, 라무시루맙, 페레티노인, 루키코, 무파르포스타트, 테이수모, 테가푸르, 기메라실, 오테라실, 및 오란티닙을 포함하는 화학치료제; 및 알렘투주맙, 아테졸리주맙, 이필리무맙, 니볼루맙, 오파투무맙, 펨브롤리주맙, 또는 리툭시맙을 포함하는 항체 요법을 포함하지만 이들로 한정되지 않는다.

다른 예에서, 집단은 PD-1 또는 CTLA4에 결합하는 화합물과 같은 관문 저해제 요법에 대한 반응자 및 비반응자로 계층화될 수 있다.

다른 예에서, 집단은 VEGF 경로 표적에 결합하는 항-VEGF에 대한 반응자 및 비반응자로 계층화될 수 있다.

IX. 징후

일부 예에서, 생물학적 상태는 질환을 포함할 수 있다. 일부 예에서, 생물학적 상태는 질환의 단계를 포함할 수 있다. 일부 예에서, 생물학적 상태는 생물학적 상태의 점진적인 변화일 수 있다. 일부 예에서, 생물학적 상태는 치료 효과일 수 있다. 일부 예에서, 생물학적 상태는 약물 효과일 수 있다. 일부 예에서, 생물학적 상태는 수술 효과일 수 있다. 일부 예에서, 생물학적 상태는 생활방식 변형 후 생물학적 상태일 수 있다. 생활방식 변형의 비제한적인 예는 식단 변화, 흡연 변화, 및 수면 패턴 변화를 포함한다.

일부 예에서, 생물학적 상태는 공지되지 않는다. 본 명세서에 기재된 분석은 공지되지 않은 생물학적 상태를 추론하거나 공지되지 않은 생물학적 상태를 해석하는 기계 학습을 포함할 수 있다.

일례에서, 본 발명의 시스템 및 방법은 특히 결장(대장의 가장 긴 부분)의 조직에서 형성되는 암인 결장암에 관한 응용에 유용하다. 대부분의 결장암은 선암종(선 내장을 만들고 샘형 성질을 가진 세포에서 시작하는 암)이다. 암 진행은 신체에서 암의 단계 또는 정도를 특징으로 한다. 단계 구분은 일반적으로 종양의 크기, 림프절이 암을 함유하는지의 여부, 및 암이 원래 부위로부터 신체의 다른 부분으로 퍼졌는지의 여부를 기반으로 한다. 결장암의 단계는 단계 I, 단계 II, 단계 III 및 단계 IV를 포함한다. 달리 특정되지 않는 한, 용어 결장암은 단계 0, 단계 I, 단계 II(단계 IIA 또는 IIB 포함), 단계 III(단계 IIIA, IIIB 또는 IIIC 포함), 또는 단계 IV의 결장암을 지칭한다. 본 명세서에서 일부 예에서, 결장암은 임의의 단계로부터의 것이다. 일례에서 결장암은 단계 I 결장직장암이다. 일례에서 결장암은 단계 II 결장직장암이다. 일례에서 결장암은 단계 III 결장직장암이다. 일례에서 결장암은 단계 IV 결장직장암이다.

개시된 방법에 의해 추론될 수 있는 병태는, 예를 들면, 암, 내장 관련 질환, 면역 매개된 염증성 질환, 신경성 질환, 신장 질환, 태아 질환, 및 대사 질환을 포함한다.

일부 예에서, 본 발명의 개시내용의 방법은 암을 진단하는데 사용될 수 있다.

암의 비제한적인 예는 선종(선종형 폴립), 고정 톱니모양 선종(SSA), 진행성 선종, 결장직장 이형성증, 결장직장 선종, 결장직장암, 결장암, 직장암, 결장직장 암종, 결장직장 선암종, 유암종 종양, 위장관 유암종 종양, 위장관 간질성 종양(GIST), 림프종, 및 육종을 포함한다.

개시된 방법 및 시스템에 의해 추론될 수 이는 암의 비제한적인 예는 급성 림프구성 백혈병(ALL), 급성 골수성 백혈병(AML), 부신피질 암종, 카포시 육종, 항문암, 기저 세포 암종, 담관암, 방광암, 골암, 골육종, 악성 섬유성 조직구종, 뇌간 신경교종, 뇌암, 두개인두종, 뇌실막모세포종. 뇌실막종, 수모세포종, 수질피종, 송과체 실질 종양, 유방암, 기관지 종양, 버킷 림프종, 비호지킨 림프종, 유암종 종양, 자궁경부암, 청색종, 만성 림프구성 백혈병(CLL), 만성 골수성 백혈병(CML), 결장암, 결장직장암, 피부 T-세포 림프종, 관상피내 암종, 자궁내막암, 식도암, 유잉 육종, 안암, 안내 흑색종, 망막아종, 섬유조직구종, 담낭암, 위암, 신경교종, 모발세포 백혈병, 두경부암, 심장암, 간세포(간)암, 호지킨 림프종, 하인두암, 신장암, 후두암, 입술암, 구강암, 폐암, 비소세포 암종, 소세포 암종, 흑색종, 구암, 골수 형성이상 증후군, 다발성 골수종, 수모세포종, 비강암, 부비동암, 신경아세포종, 비인두암, 경구암, 구강인두암, 골육종, 난소암, 췌장암, 유두종증, 부신경교종, 부갑상선암, 음경암, 인두암, 하수체종양, 혈장 세포 신생물, 전립선암, 직장암, 신세포암, 횡문근육종, 타액선암, 세자리 증후군, 피부암, 소장암, 연조직 육종, 편평상피세포 암종, 고환암, 인후암, 흉선종, 갑상선암, 요도암, 자궁암, 자궁 육종, 질암, 외음부암, 발텐스트롬 마크로글로불린혈증, 및 빌름스 종양을 포함한다.

개시된 방법 및 시스템에 의해 추론될 수 있는 내장 연관된 질환의 비제한적인 예는 크론병, 질환, 대장염, 궤양성 대장염(UC), 염증성 장 질환(IBD), 자극성 장 증후군(IBS), 및 복강 질환을 포함한다. 일부 예에서, 질환은 염증성 장 질환, 대장염, 궤양성 대장염, 크론병, 미세 대장염, 교원성 대장염, 림프구성 대장염, 전환 대장염, 베체트병, 및 불확정 대장염이다.

개시된 방법 및 시스템에 의해 추론될 수 있는 면역 매개된 염증성 질환의 비제한적인 예는 건선, 사르코이드증, 류마티즘 관절염, 천식, 비염(고초열), 음식 알레르기, 습진, 루푸스, 다발성 경화증, 섬유근통, 1형 당뇨병, 및 라임병을 포함한다. 개시된 방법 및 시스템에 의해 추론될 수 있는 신경병성 질환의 비제한적인 예는 파킨슨병, 헌팅턴병, 다발성 경화증, 알츠하이머병, 뇌졸증, 간질, 신경변성, 및 신경장애를 포함한다. 개시된 방법 및 시스템에 의해 추론될 수 있는 신장 질환의 비제한적인 예는 간질성 신염, 급성 신부전, 및 신증을 포함한다. 개시된 방법 및 시스템에 의해 추론될 수 있는 태아 질환의 비제한적인 예는 다운 증후군, 이수성, 이분척추, 3염색체성, 에드워드 증후군, 기형종, 천미부 기형종(SCT), 뇌실확장증, 신무형성, 낭포성 섬유증, 및 선천성 태아수종을 포함한다. 개시된 방법 및 시스템에 의해 추론될 수 있는 대사 질환의 비제한적인 예는 시스틴증, 파브리병, 고셰병, 레쉬-니한 증후군, 니만-피크병, 페닐케톤뇨증, 폼페병, 테이-삭스병, 폰기르케병, 비만, 당뇨병, 및 심장 질환을 포함한다.

특정한 예의 구체적인 설명은 본 발명의 개시된 예의 취지 및 범위를 벗어나지 않고 임의의 적합한 방식으로 조합될 수 있다. 그러나, 본 발명의 다른 예는 각각의 개별적인 양상, 또는 각각의 개별적인 양상의 특정한 조합에 관한 특정한 에에 관한 것일 수 있다. 본 명세서에 언급된 모든 특허, 특허 출원, 문헌, 및 설명은 모든 목적을 위하여 그 전문이 참조로서 포함된다.

X. 실시예

본 발명의 상기 설명 및 하기 제공된 실시예는 예시와 설명의 목적으로 제시되었다. 이는 완전하거나 본 발명을 기재된 정확한 형태로 제한하는 것을 의도하지 않고, 다수의 변형 및 변이가 상기 교시의 관점에서 가능하다.

A. 실시예 1: 생물학적 샘플의 다중 분석물 검정의 제조

이 실시예는 신호 사이의 독립적인 정보를 이용하는 다중 분석물 접근법을 제공한다. 공정 다이어그램은 정확한 분류를 수행하기 위하여 상응하는 기계 학습 모델에 의한 검정을 위한 시스템의 상이한 성분에 대하여 하기 기재된다. 사용되는 이러한 검정의 선택은 시스템의 임상적 목표를 고려하여 기계 학습 모델의 훈련 결과를 기반으로 통합될 수 있다. 샘플의 다양한 부류, 샘플의 분획, 분자의 상이한 부류를 가진 이들 분획/샘플의 부분, 및 검정의 유형이 사용될 수 있다.

1. 시스템 다이어그램

도 3은 개시된 시스템 및 방법에 대한 전체 체계(300)를 도시한다. 체계(300)는 대상체를 분류하는 검정 및 특징의 세트, 예를 들면, 진단 또는 예후를 식별하기 위하여 기계 학습과 조합된 대상체에 대한 샘플(습식 실험실(320)) 및 다른 데이터의 측정을 사용할 수 있다. 이러한 예에서, 공정의 단계는 하기와 같을 수 있다.

단계(310)의 블록(311)에서, 임상적, 과학적 및/또는 상업적 관련성이 있는 질문이 질문, 예를 들면, 수행 가능한 후속조치를 위한 초기 결장직장암 검출이 질문된다. 블록(312)에서, 대상체(신규 또는 이전에 시험됨)는 식별된다. 대상체는 나중에 기계 학습에서 사용을 위하여 공지된 분류(표지)를 가질 수 있다. 따라서, 상이한 코호트는 식별될 수 있다. 블록(313)에서, 분석은 채굴될 샘플의 유형을 선택하고(즉, 샘플은 최종 검정에서 최종적으로 종료되지 않을 수 있음), 병태/질병(예를 들면, 초기 단계 결장직장암 악성 종양)의 존재 또는 부재를 평가하기에 충분한 신호를 생성할 수 있는 각각의 샘플(예를 들면, 혈액)에서 생물학적 분자의 수집물을 결정할 수 있다. 제약은 검정/모델에 대하여, 예를 들면, 정확도와 관련하여 부과될 수 있다. 예시적인 제약은 검정의 최소 민감도; 검정의 최소 특이도; 검정의 최대 비용; 검정을 발달시키는데 이용 가능한 시간; 이용 가능한 생물학적 물질 및 예상된 증가율; 이들 생물학적 물질에 대하여 수행될 수 있는 실험의 최대 세트를 결정하는 이전에 발달된 공정의 이용 가능한 세트; 및 다른 생물학적 물질에 수행하여 데이터를 수득할 수 있는 공정의 수를 제한하는 이용 가능한 하드웨어를 포함한다.

환자의 코호트는 임상적 목표(건강함, 다른 결장직장, 진행성 선종, 결장직장암(CRC))를 적절하게 달성하는데 필요한 상이한 분류를 정확하게 나타내도록 설계되고 샘플링될 수 있다. 환자 코호트는 선택될 수 있고, 여기서 선택된 코호트는 시스템에 대한 제약으로서 볼 수 있다. 예시적인 코호트는 100 CRC, 200 진행성 선종, 200 비진행성 선종, 및 200 건강한 대상체이다. 선택된 코호트는 최종 검정에 대하여 의도된 사용 집단에 상응할 수 있고, 코호트는 검정 성능을 계산하는 샘플의 수를 특정할 수 있다.

일단 코호트가 선택되면, 샘플을 수집하여 코호트 디자인을 충족시킬 수 있다. 다양한 샘플, 예를 들면, 혈액, 뇌척수액(CSF), 및 본 명세서에 언급된 다른 것들을 수집할 수 있다. 이러한 분석은 도 3의 블록(313)에서 일어날 수 있다.

단계(320)에서, 습식 실험실 실험은 검정의 초기 상태에 대하여 수행될 수 있다. 예를 들면, 시험의 제약이 없는 세트가 선택될 수 있다(1차 샘플/분석물/시험 조합). 1차 샘플로부터 분석물 단리를 위한 프로토콜 및 양식이 수행될 수 있다. 시험 실행을 위한 프로토콜 및 양식이 생성될 수 있다. 습식 실험실 활성의 성능은 시퀀서, 형광 검출기, 및 원심분리기를 포함하는 하드웨어 장치를 사용하여 수행될 수 있다.

블록(321)에서, 샘플은, 예를 들면, 원심분리에 의해 하위성분(또한 분획 또는 부분으로 지칭됨)으로 분할된다. 예로서, 혈액은 혈장, 연막(백혈구 및 혈소판), 혈청, 적혈구, 및 세포외 소포, 예를 들면, 엑소좀의 분획으로 분할된다. 분획(예를 들면, 혈장)은 분취액으로 분할되어 상이한 분석물을 검정할 수 있다. 예를 들면, 상이한 분취액은 cfDNA 및 cfRNA를 추출하는데 사용된다. 따라서, 분석물은 분획 또는 분획의 분취액으로부터 단리되어 다중분석물 검정을 허용할 수 있다. 분획(예를 들면, 일부 혈장)은 단백질 농도의 측정을 위하여 유지될 수 있다.

블록(323)에서, 실험 과정은 이들의 각각의 분획에서 상기 분자의 특성 및 정량, 예를 들면, (1) 혈장에서 확인된 무세포 DNA 단편의 게놈에 따른 서열 및 귀속 위치, (2) 혈장에서 확인된 cfDNA 단편의 메틸화 패턴, (3) 혈장에서 확인된 마이크로RNA의 양 및 유형, 및 (4) 문헌으로부터의 CRC과 관련된 것으로 공지된 단백질(CRP, CEA, FAP, FRIL 등)의 농도를 측정하기 위하여 실행된다.

임의의 주어진 파이프라인에서 처리되는 각각의 샘플의 QC는 다양할 수 있다. cfDNA QC는 삽입 크기 분포, GC 편향의 상대적인 표시, 스파이크-인의 바코드 서열(샘플 추적성을 위하여 도입됨) 등을 포함한다. 메틸화 QC의 예는 대조군 DNA에 대한 바이설파이트 전환 효율, 삽입 크기 분포, 시퀀싱의 평균 깊이, % 복제율 등을 포함한다. miRNA QC의 예는 삽입 크기 분포, 정규화 스파이크-인의 상대적인 표시 등을 포함한다. 단백질 QC의 예는 표준 곡선, 대조군 샘플 농도 등의 선형성을 포함한다.

그 다음, 샘플은 처리되고, 코호트에서 모든 환자에 대하여 데이터가 수득된다. 미가공 데이터는 환자 메타데이터에 의해 인덱싱된다. 다른 공급원으로부터의 데이터는 데이터베이스에서 수득되고 저장될 수 있다. 데이터는 관련 개방 데이터베이스, 예를 들면, GTEX, TCGA, 및 인코드로부터 큐레이팅될 수 있다. 이는 ChIP-seq, RNA-seq, 및 eQTL을 포함한다.

단계(340)에서, 다른 공급원으로부터의 데이터는, 예를 들면, 착용 가능한 것, 이미지 등으로부터 수득될 수 있다. 이러한 다른 데이터는 생물학적 샘플의 외부에서 결정된 데이터에 상응한다. 이러한 측정은 심박수, 활성 측정, 또는 착용 가능한 장치로부터 이용 가능한 다른 이러한 데이터일 수 있다. 이미지 데이터는 기관의 크기 및 위치와 같은 정보를 제공할 뿐만 아니라 공지되지 않은 덩어리를 식별할 수 있다.

데이터베이스(330)는 데이터를 저장할 수 있다. 데이터는 관련 개방 데이터베이스, 예를 들면, GTEX, TCGA, 및 인코드로부터 큐레이팅될 수 있다. 이는 ChIP-seq, RNA-seq, 및 eQTL을 포함한다. 각각의 대상체에 대한 기록은 대상체의 측정된 데이터 및 표지가 있는 분야, 예를 들면, 병태의 존재 여부, 병태의 중증도(단계) 등을 포함할 수 있다.

블록(350)에서, 건식 실험실 작업이 일어날 수 있다. "건식 실험실" 작업은 예측 임무를 실행하기 위하여 문의로 데이터베이스를 개시하여 관련 데이터 및 메타데이터의 값의 행렬을 생성할 수 있다. 특징은 들어온 데이터를 처리하고 가능하게는 관련 입력의 하위세트를 선택함으로써 생성된다.

블록(351)에서, 기계 학습은 모든(1차 샘플/분석물/시험) 조합으로부터 생성된 데이터의 전체 세트를 블록(352)에서 특징의 가장 예측적인 세트로 감소시키는데 사용될 수 있다. 특징의 상이한 세트의 정확도 메트릭은 특징의 가장 예측적인 세트를 결정하기 위하여 서로 비교될 수 있다. 일부 실시형태에 있어서, 정확도 한계점을 충족시키는 특징/모델의 수집물은 식별될 수 있고, 그 다음, 다른 제약(예를 들면, 시험의 비용 및 수)은 최적 모델/특징 그룹화를 선택하는데 사용될 수 있다.

다양한 상이한 특징 및 모델이 시험될 수 있다. 다양한 모델링 추정을 만드는 단순 내지 복잡 및 소형 내지 대형 모델은 교차 검증 패러다임에서 데이터에 적용될 수 있다. 단순 내지 복잡은 특징을 대표하는 선형성 내지 비선형성 및 비계층형 내지 계층형의 고려를 포함한다. 소형 내지 대형 모델은 모델링 과정에 포함된 특징들 사이의 상호작용에 대한 데이터뿐만 아니라 데이터의 수를 예상하기 위하여 기본 벡터 공간의 크기의 고려를 포함한다.

기계 학습 기술은 초기 질문에서 정의된 바와 같은 비용/성능/상업적 도달에 대한 가장 최적인 상업적 시험 양식을 평가하는데 사용될 수 있다. 한계점 확인이 수행될 수 있다: 교차 검증에서 사용되지 않은 저항 데이터세트에 적용되는 방법이 초기 제한을 능가하는 경우, 검정은 잠기고, 생산이 개시된다. 따라서, 검정은 블록(360)에서 출력될 수 있다.

한계점이 충족되지 않는 경우, 검정 조작 과정은 데이터가 수득되는 파라미터를 변화시키기 위하여 가능한 완화를 위한 제한 설정 또는 습식 실험실로 다시 되돌릴 수 있다.

임상적 질문을 고려하여, 생물학적 제한, 예산, 실험실 기계 등은 문제점을 제한할 수 있다. 그 다음, 코호트 디자인은 임상적 샘플을 기반으로 할 수 있고, 이는 성능 또는 이전 지식 기반; 그것이 수행될 수 있는 통계적, 정보 네스트; 및 샘플 정확률에 대하여 실제로 기반한다.

2. 샘플 및 이의 부분의 계층

일례에서, 다중 분석물은 코호트에서 환자로부터 수득되고, 다중 검정을 통해 다중 분자로 분석된다. 그 다음, 검정 결과는 ML 모델에 의해 분석되고, 유의한 특징 및 분석물 선택 후, 임상적으로, 과학적으로, 또는 상업적으로 중요한 질문에 대한 관련 검정 결과가 출력된다.

도 4는 예시적인 '액체 생검'에 사용하기 위한 다중 분석물 접근법의 계층적 개요를 도시한다. 단계(401)에서, 상이한 샘플이 수집된다. 도시된 바와 같이, 혈액, CSF, 및 타액이 수집된다. 단계(402)에서, 샘플은 분획(부분)으로 분할될 수 있고, 예를 들면, 혈액은 혈장, 혈소판, 및 엑소좀으로 분할되는 것으로 도시한다. 단계(403)에서, 각각의 분획은 분자, 예를 들면, DNA, RNA, 및/또는 단백질의 하나 이상의 부류를 측정하기 위하여 분석될 수 있다. 단계(404)에서, 각각의 분자의 부류는 하나 이상의 검정의 대상이 될 수 있다. 예를 들면, 메틸화 및 전체 게놈 검정은 DNA에 적용될 수 있다. RNA에 있어서, mRNA 또는 짧은 RNA를 검출하는 검정이 적용될 수 있다. 단백질에 있어서, 효소 결합 면역 흡착 검정(ELISA)이 사용될 수 있다.

이러한 실시예에서, 수집된 혈장을 로우 커버리지 전체 게놈 시퀀싱; CNV 콜링; 종양 분획(TF) 추정; 전체 게놈 바이설파이트 시퀀싱; LINE-1 CpG 메틸화; 56 유전자 CpG 메틸화; cf-단백질 이뮤노-퀀트 ELISA, SIMOA; 및 cf-miRNA 시퀀싱을 포함하는 다중 분석물 검정을 사용하여 분석하였다. 전혈을 K3-EDTA 튜브에 수집하고, 이중 스핀으로 혈장을 단리할 수 있다. 혈장을 cfDNA lcWGS, WGS, WGBS, cf-miRNA 시퀀싱, 및 정량적 면역검정(효소 결합 면역 흡착 검정[ELISA] 또는 단일 분자 어레이[SIMOA])을 위하여 분취액으로 분할할 수 있다.

단계(405)에서, 컴퓨터 하드웨어에서 학습 모듈 실행은 측정된 데이터를 다양한 샘플(들)의 다양한 분획(들)의 다양한 검정으로부터 수신할 수 있다. 학습 모듈은 모델/특징의 다양한 그룹화를 위한 메트릭을 제공할 수 있다. 예를 들면, 특징의 다양한 세트는 복수의 모델의 각각에 대하여 식별될 수 있다. 상이한 모델은 상이한 기술, 예를 들면, 신경망 또는 결정 트리를 사용할 수 있다. 단계(406)는 모델/특징 그룹화를 선택하여 사용할 수 있거나, 가능하게는 명령(명령어)를 제공하여 추가의 측정을 수행할 수 있다. 단계(407)는 신규한 샘플을 측정하고 분류를 수행하는데 사용될 것인 전체 검정의 부분으로서 사용되는 샘플, 분획, 및 개별적인 검정을 특정할 수 있다.

3. 모듈 사이의 반복 흐름

도 5는 본 발명의 실시형태에 따른 검정 및 상응하는 기계 학습 모델을 설계하기 위한 반복 공정을 도시한다. 습식 실험실 구성원은 좌측에 도시되고, 컴퓨터 구성원은 우측에 도시된다. 생략된 모듈은 외부 데이터, 이전 구조, 임상적 메타데이터 등을 포함한다. 이들 메타구성원은 습식 및 건식 실험실(컴퓨터) 구성원 둘 다로 흐를 수 있다. 일반적으로, 반복 공정은 다양한 단계를 포함할 수 있고, 이는 개시 단계, 탐험 단계, 정제 단계, 및 검증/확인 단계를 포함한다. 개시 단계는 블록(502 내지 508)을 포함할 수 있다. 탐험 단계는 블록(512 내지 528)을 통한 제1 경로를 포함할 수 있다. 정제 단계는 블록(512 내지 528)뿐만 아니라 블록(530 및 532)을 통한 추가의 경로를 포함할 수 있다. 검증/확인 단계는 블록(524 및 529)을 사용하여 일어날 수 있다. 다양한 블록은 특정한 결과를 제공하기 위하여 선택사항이거나 하드코딩될 수 있고, 예를 들면, 특정한 모델은 항상 모듈(518)에 의해 선택될 수 있다.

블록(502)에서, 임상적 질문은, 예를 들면, 결장직장암(CRC)의 존재에 대하여 스크리닝하기 위하여 수신된다. 이러한 임상적 질문은 또한 필요한 분류의 수를 포함할 수 있다. 예를 들면, 분류이 수는 암의 상이한 단계에 상응할 수 있다.

블록(504)에서, 코호트(들)는 설계된다. 예를 들면, 코호트의 수는 동일한 표지를 가진 코호트에서 대상체와 분류의 수가 동일할 수 있다. 공정의 후기 단계 또는 단계들에서, 추가의 코호트가 추가될 수 있다.

실시형태에 있어서, 임의의 생화학적 시험이 수행되기 전에 샘플 및/또는 시험의 초기선택이 존재한다. 예를 들면, 게놈 방식 시퀀싱은 초기 샘플, 예를 들면, 혈액에 대한 정보를 수득하기 위하여 선택될 수 있다. 이러한 초기 샘플 및 초기 검정은 임상적 질문을 기반으로, 예를 들면, 관련 기관을 기반으로 선택될 수 있다.

블록(506)에서, 초기 샘플을 수득한다. 샘플은 다양한 유형, 예를 들면, 혈액, 소변, 타액, 뇌척수액일 수 있다. 초기 샘플을 획득하는 것의 부분으로서, 샘플을 분획으로(예를 들면, 혈액을 혈장, 연막, 엑소좀 등으로) 분할할 수 있고, 이들 분획은 본 명세서에 기재된 바와 같이 분자의 특정한 부류를 가진 부분으로 추가로 분할될 수 있다.

블록(508)에서, 하나 이상의 초기 검정을 수행한다. 초기 검정은 분자의 개별적인 부류에 대하여 작동할 수 있다. 검정의 초기 세트의 일부 또는 모두는 다양한 임상적 질문에 걸친 디폴트로서 사용될 수 있다. 초기 데이터(510)는 컴퓨터(511)에 전송되어 데이터를 평가하고 기계 학습 모델을 결정하고, 가능하게는 수행되는 추가의 검정을 제시할 수 있다. 컴퓨터(511)는 개시내용의 이러한 섹션 및 다른 섹션에 기재된 작업을 수행할 수 있다.

데이터 필터 모듈(512)은 초기 데이터(510)를 필터링하여 필터링된 데이터의 하나 이상의 세트를 제공할 수 있다. 이러한 필터링은 상이한 검정으로부터의 데이터를 단지 동정할 수 있지만, 더 복잡할 수 있고, 예를 들면, 통계적 분석을 수행하여 미가공 데이터로부터의 측정치를 제공할 수 있고, 여기서 초기 데이터(510)는 미가공 데이터로 간주된다. 필터링은 차원 축소, 예를 들면, 주성분 분석(PCA), 비음성 행렬 인수분해(NMF), 커널 PCA, 그래프 기반 커널 PCA, 선형 판별 분석(LDA), 일반화된 판별 분석(GDA), 또는 자동인코더를 포함할 수 있다. 필터링된 데이터의 다중 세트는 단일 검정의 미가공 데이터로부터 결정될 수 있다. 필터링된 데이터의 상이한 세트는 특징의 상이한 세트를 결정하는데 사용될 수 있다. 일부 실시형태에 있어서, 데이터 필터 모듈(512)은 다운스트림 모듈에 의해 수행되는 처리를 고려할 수 있다. 예를 들면, 기계 학습 모델의 유형은 사용된 차원 축소의 유형에 영향을 줄 수 있다.

특징 추출 모듈(514)은, 예를 들면, 유전자 데이터, 비유전자 데이터, 필터링된 데이터, 및 참조 서열을 사용하여 특징을 추출할 수 있다. 특징 추출은 특징 조작으로도 지칭될 수 있다. 검정으로부터 수득된 데이터에 대한 특징은 그 검정에서 수득된 분자의 부류의 성질에 상응할 것이다. 예로서, 특징(및 이의 상응하는 특징값)은 필터링으로부터 출력된 측정치, 이러한 측정치 중 단지 일부, 이러한 측정치의 추가의 통계적 결과, 또는 서로 첨부된 측정치일 수 있다. 특정한 특징은 특징 중 일부가 대상체의 상이한 그룹 중에서 상이한 값(병태가 있거나 없는 대상체 중에서 상이한 값)을 갖는다는 목표로 추출되고, 이로써 성질, 상태, 또는 특성의 정도의 상이한 그룹 또는 추론 사이의 구별을 허용한다. 특징의 예는 섹션 V에서 제공된다.

비용/손실 선택 모듈(516)은 기계 학습 모델의 훈련에서 최적화를 위하여 특정한 비용 함수(또한 손실 함수로도 지칭됨)를 선택할 수 있다. 비용 함수는 현재 모델의 정확도를 정의하기 위한 다양한 용어를 가질 수 있다. 이 시점에서, 다른 제약은 알고리즘적으로 주입될 수 있다. 예를 들면, 비용 함수는 분류오류(예를 들면, 거짓 양성 및 거짓 음성)의 수를 측정할 수 있고, 분류오류의 상이한 유형의 각각에 대한 계수 인자를 갖고, 이로써 현재 모델이 충족하는지의 여부를 결정하기 위하여 한계점에 비교할 수 있는 점수를 제공한다. 이러한 정확도 시험은 또한 특징의 세트 및 검정의 세트가 충족 모델을 제공할 수 있는지의 여부; 특징 및 검정의 세트가 아닌지의 여부를 결정할 수 있고, 그 다음, 특징의 상이한 세트를 선택할 수 있다.

예에서, 데이터의 분포는 손실 함수의 선택, 예를 들면, 시스템의 기술적 제어를 갖기 위하여 비감독 임무에 대하여 영향을 줄 수 있다. 이 경우, 손실 함수는 들어온 데이터를 일치하는 분포에 상응할 수 있다.

모델 선택 모듈(518)은 어느 모델(들)을 사용할지 선택할 수 있다. 이러한 모델의 예는 로지스틱 회귀, 상이한 커널을 가진 서포트 벡터 머신(예를 들면, 선형 또는 비선형 커널), 신경망(예를 들면, 다층 인식자), 및 다양한 유형의 결정 트리(예를 들면, 랜덤 포레스트, 경사 트리, 또는 경사 부스팅 기술)를 포함한다. 다중 모델이 사용될 수 있고, 예를 들면, 모델은 순차적으로(예를 들면, 또 다른 모델의 입력으로 하나의 모델의 출력) 사용되거나, 평행하게(예를 들면, 최종 분류를 결정하기 위하여 투표를 이용하여) 사용될 수 있다. 하나 이상의 모델이 선택되는 경우, 이들은 하위모델로 지칭될 수 있다.

비용 함수는 모델과 상이하고, 특징과 상이하다. 구조물의 이들 상이한 부분은 서로 유의한 영향을 줄 수 있지만, 이들은 또한 시험 디자인의 다른 구성원 및 이의 상응하는 제약에 의해 정의된다. 예를 들면, 비용 함수는 특징의 분포, 특징의 분수, 표지 분포의 다양성, 표지의 종류, 표지의 복합성, 상이한 오류 유형과 연관된 위험도 등을 포함하는 구성원에 의해 정의될 수 있다. 특징에 대한 특정한 변화는 모델 및 비용 함수를 변화시킬 수 있고 반대로 마찬가지이다.

특징 선택 모듈(520)은 기계 학습 모델을 훈련하는데 현재 반복을 위하여 사용되는 특징의 세트를 선택할 수 있다. 다양한 실시형태에 있어서, 특징 추출 모듈(514)에 의해 추출된 모든 특징이 사용될 수 있거나, 사용될 수 있는 특징의 부분만이 사용될 수 있다. 선택된 특징에 대한 특징값은 결정되고 훈련을 위한 입력으로서 사용될 수 있다. 선택의 부분으로서, 일부 또는 모든 추출된 특징은 변형을 겪을 수 있다. 예를 들면, 가중치는 특정한 특징, 예를 들면, 다른 특징(들)에 상대적으로 특정한 특징(들)의 예상된 중요성(확률)을 기반으로 적용될 수 있다. 다른 예는 차원 축소(예를 들면, 행렬의 것), 분포 분석, 정규화 또는 조직화, 행렬 분해(예를 들면, 커널 기반의 판별 분석 및 비음성 행렬 인수분해)를 포함하고, 이는 행렬에 상응하는 낮은 차원의 다방식을 제공할 수 있다. 또 다른 예는, 예를 들면, 상이한 샘플이 상이한 기구를 사용하여 측정되는 경우, 미가공 데이터 또는 특징을 기구의 하나의 유형으로부터 기구의 또 다른 유형으로 변형하는 것이다.

훈련 모듈(522)은 기계 학습 모델의 파라미터의 최적화를 수행할 수 있고, 이는 하위모델을 포함할 수 있다. 다양한 최적화 기술은, 예를 들면, 경사 하강법을 사용하거나 2차 도함수(헤세(Hessian))를 사용할 수 있다. 다른 실시형태에 있어서, 훈련은 헤세 또는 경사 계산, 예를 들면, 동적 프로그래밍 또는 점진적 알고리즘을 필요로 하지 않는 방법으로 실시될 수 있다.

평가 모듈(524)은 현재 모델(예를 들면, 파라미터의 세트에 의해 정의된 바와 같음)이 출력 제약(들)에 포함된 하나 이상의 기준을 충족시키는지의 여부를 결정할 수 있다. 예를 들면, 품질 메트릭은 표지가 공지된 샘플의 훈련 세트 및/또는 검증 세트에 관하여 모델의 예측 정확도를 측정할 수 있다. 이러한 정확도 메트릭은 민감도 및 특이도를 포함할 수 있다. 품질 메트릭은 정확도와 다른 값, 예를 들면, 검정의 수, 검정의 예측된 비용, 및 검정의 측정을 수행하는 시간을 사용하여 결정될 수 있다. 제약이 충족되는 경우, 최종 검정(529)이 제공될 수 있다. 최종 검정(529)은, 예를 들면, 검정이 디폴트 목록이 아닌 것으로부터 선택되는 경우, 시험 샘플에 대한 검정을 수행하기 위한 특정한 순서를 포함할 수 있다.

출력 제약이 충족되지 않는 경우, 다양한 물품이 업데이트될 수 있다. 예를 들면, 선택된 특징의 세트가 업데이트되거나, 선택된 모델의 세트가 업데이트될 수 있다. 일부 또는 모든 업스트림 모듈은 평가되고, 확인되고, 대안적으로 제시될 수 있다. 따라서, 피드백은 업스트림 파이프라인의 어느 곳에서나 제공될 수 있다. 평가 모듈(524)은 특징 및 모델의 공간이 제약을 충족시키지 않고 충분히 검색되었는지의 여부를 결정하는 경우(예를 들면, 고갈됨), 공정은 수득되는 신규한 검정 및/또는 샘플 유형을 결정하기 위하여 추가의 모듈을 흐르게 할 수 있다. 이러한 결정은 제약에 의해 정의될 수 있다. 예를 들면, 사용자는 많은 검정(및 관련된 시간 및 비용)을 기꺼이 수행하거나, 많은 샘플을 갖거나, 반복 루프(또는 일부 루프들)을 많은 횟수로 수행할 수 있다. 이들 제약은 능가하는 최소 메트릭 대신에 특징, 모델, 및 검정이 현재 세트에 대한 시험 디자인을 중단하는 것에 기여할 수 있다.

검정 식별 모듈(526)은 수행하는 신규한 검정을 식별할 수 있다. 특정한 검정이 유의미하지 않은 것으로 결정되는 경우, 이의 데이터는 제거될 수 있다. 검정 식별 모듈(526)은 특정한 입력 제약을 수신할 수 있고, 이는, 예를 들면, 검정을 수행하는 비용 또는 시간을 기반으로 하나 이상의 검정을 선택하도록 결정할 수 있다.

샘플 식별 모듈(528)은 신규한 샘플 유형(또는 이의 부분)을 사용하도록 결정할 수 있다. 선택은 수행될 신규한 검정(들)에 따라 좌우될 수 있다. 입력 제약은 또한 샘플 식별 모듈(528)에 제공될 수 있다.

검정 식별 모듈(526) 및 샘플 식별 모듈(528)은 검정 및 모델이 출력 제약(예를 들면, 정확도)를 충족시키지 않는다는 평가인 경우 사용될 수 있다. 검정의 제거는 검정 디자인의 다음 수행에서 실시될 수 있고, 여기서 그 검정 또는 샘플 유형은 사용되지 않는다. 신규한 검정 또는 샘플은 이전에 측정된 것일 수 있지만, 이의 데이터는 사용되지 않았다.

블록(530)에서, 신규한 샘플 유형이 수득되거나, 가능하게는 동일한 유형의 더 많은 샘플이 수득되고, 예를 들면, 코호트에서 샘플의 수를 증가시킨다.

블록(532)에서, 신규한 검정은, 예를 들면, 검정 식별 모듈(526)로부터의 제시된 검정을 기반으로 수행될 수 있다.

최종 검정(529)은, 예를 들면, 순서, 데이터 정량, 데이터 품질, 및 세트에서 검정에 대한 데이터 처리량을 충족시킬 수 있다. 검정의 순서는 비용 및 시간을 최적화할 수 있다. 검정의 순서 및 시기는 최적화된 파라미터일 수 있다.

일부 실시형태에 있어서, 컴퓨터 모듈은 습식 실험실 단계의 다른 부분에 통지할 있다. 예를 들면, 일부 컴퓨터 모듈(들)은, 예를 들면, 외부 데이터를 사용하여 습식 실험실 실험에 대한 시작점을 통지하는 경우, 일부 검정 발달 과정에 대한 습식 실험실 단계를 선행할 수 있다. 추가로, 습식 실험실 실험 구성원의 출력은 코호트 디자인 및 임상적 질문과 같은 컴퓨터 구성원으로 공급될 수 있다. 다른 한편으로는, 컴퓨터 결과는 코호트 디자인에 대한 비용 함수 선택의 영향과 같은 습식 실험실로 다시 피드백을 줄 수 있다.

4. 다중 분석물 검정이 설계 방법

도 6은 개시된 방법에 대한 전체 공정 흐름을 도시한다. 이러한 예에서, 공정의 단계는 하기와 같다.

블록(610)에서, 작업 동안, 시스템은 복수의 훈련 샘플을 수신하고, 각각은 분자의 복수의 부류를 포함하고, 여기서 하나 이상의 표지는 각각의 훈련 샘플에 대하여 공지된다. 분석물의 예는 본 명세서에 제공되고, 예를 들면, 무세포 DNA, 무세포 RNA(예를 들면, miRNA 또는 mRNA), 단백질, 탄수화물, 자가항체 또는 대사물질이다. 표지는 특정한 병태(예를 들면, 암의 상이한 분류 또는 특정한 암), 또는 치료 반응성에 대한 것일 수 있다. 블록(610)은 하나 이상의 수신 장치, 예를 들면, 측정 장치, 예를 들면, 도 1에서 측정 장치(151-153)를 포함하는 수신기에 의해 수행될 수 있다. 측정 장치는 상이한 검정을 실시할 수 있다. 측정 장치는 샘플을 사용 가능한 특징(예를 들면, 샘플로부터의 각각의 분석물에 대한 정보의 부피의 라이브러리)으로 전환하고, 따라서 컴퓨터는 특이적 생물학적 샘플을 분류하는 특정한 ML 모델에 필요한 입력 특징의 조합을 선택할 수 있다.

블록(620)에서, 각각의 복수의 상이한 검정에 대하여, 시스템은 각각의 복수의 훈련 샘플에 대한 기계 학습 모델에 입력되도록 작동 가능한 특징의 세트를 식별한다. 특징의 세트는 훈련 샘플에서 분자의 성질에 상응할 수 있다. 예를 들면, 특징은 상이한 영역에서 리드 수, 영역에서 메틸화 퍼센트, 상이한 miRNA의 수, 또는 단백질 세트의 농도일 수 있다. 상이한 검정은 상이한 특징을 가질 수 있다. 블록(620)은 도 5의 특징 선택 모듈(520)에 의해 수행될 수 있다. 도 5에서, 특징 선택은, 예를 들면, 가능한 특징이 수행된 검정의 유형을 기반으로 이미 공지된 경우, 특징 추출 전과 후에 일어날 수 있다. 반복 과정의 부분으로서, 특징의 신규한 세트는, 예를 들면, 평가 모듈(524)로부터의 결과를 기반으로 식별될 수 있다.

블록(630)에서, 각각의 복수의 훈련 샘플에 대하여, 시스템은 훈련 샘플에서 분자의 부류의 그룹을 측정치의 세트를 수득하기 위하여 복수의 상이한 검정에 대상이 되도록 한다. 측정치의 각각의 세트는 하나의 검정으로부터 훈련 샘플에서 분자의 부류에 적용될 수 있다. 측정치의 복수의 세트는 복수의 훈련 샘플에 대하여 수득될 수 있다. 예로서, 상이한 검정은 lcWGS, WGBS, cf-miRNA 시퀀싱, 및 단백질 농도 측정일 수 있다. 일례에서, 하나의 부분은 분자의 하나 이상의 부류를 함유할 뿐만 아니라 검정이 하나의 유형은 부분에 적용된다. 특정된 값은 미가공 데이터(예를 들면, 서열 리드)의 분석으로부터 야기된 값에 상응할 수 있다. 측정치의 예는 게놈의 상이한 게놈 영역, 영역에서 메틸화 퍼센트, 상이한 miRNA의 수, 또는 단백질 세트의 농도와 부분적으로 또는 전체적으로 중첩되는 서열의 리드 수이다. 특징은 다중 측정치, 예를 들면, 측정치의 분포의 통계적 값 또는 서로 첨부된 측정치의 병합으로부터 결정될 수 있다.

블록(640)에서, 시스템은 측정치 세트를 분석하여 훈련 샘플을 위한 훈련 벡터를 수득한다. 훈련 벡터는 상응하는 검정의 특징 세트의 특징값을 포함할 수 있다. 각각의 특징값은 특징에 상응할 수 있고, 하나 이상의 측정치를 포함한다. 훈련 벡터는 복수의 상이한 검정의 제1 하위세트에 상응하는 특징의 N 세트 중 적어도 2개로부터의 적어도 하나의 특징을 사용하여 형성될 수 있고, 여기서 N은 상이한 검정의 수에 상응한다. 훈련 벡터는 각각의 샘플에 대하여 결정될 수 있고, 훈련 벡터는 가능하게는 일부 또는 모든 검정으로부터의 특징, 및 따라서 분자의 모든 부류를 포함한다. 블록(640)은 도 5의 특징 추출 모듈(514)에 의해 수행될 수 있다.

블록(650)에서, 시스템은 기계 학습 모델의 파라미터를 사용하여 훈련 벡터에 작동하여 복수의 훈련 샘플을 위한 출력 표지를 수득한다. 블록(650)은 기계 학습 모델을 실시하는 기계 학습 모듈에 의해 수행될 수 있다.

블록(660)에서, 시스템은 출력 표지를 훈련 샘플의 공지된 표지에 비교한다. 비교기 모듈은 이러한 표지 비교를 수행하여 기계 학습 모델의 현재 상태의 오류 측정을 형성할 수 있다. 비교기 모듈은 도 5의 훈련 모듈(522)의 부분일 수 있다.

복수의 훈련 샘플의 제1 하위세트는 특정된 표지를 갖는 것으로 식별될 수 있고, 복수의 훈련 샘플의 제2 하위세트는 특정된 표지를 갖지 않는 것으로 식별될 수 있다. 일례에서, 특정된 표지는 임상적적으로 진단된 질병, 예를 들면, 결장직장암이다.

블록(670)에서, 시스템은 훈련 샘플의 공지된 표지에 대한 출력 표지의 비교를 기반으로 기계 학습 모델의 훈련의 부분으로서 파라미터의 최적 값에 대하여 반복하여 검색한다. 반복 검색을 수행하기 위한 다양한 기술은 본 명세서에 기재된 바와 같고, 예를 들면, 경사 기술이다. 블록(670)은 도 5의 훈련 모듈(522)에 의해 실시될 수 있다.

기계 학습 모델의 훈련은, 예를 들면, 정제 단계 후, 기계 학습 모델의 제1 버전을 제공할 수 있고, 이는 모듈(512 내지 528)을 통해 하나 이상의 추가의 경로를 포함할 수 있다. 품질 메트릭은 제1 버전에 대하여 결정될 수 있고, 품질 메트릭은 하나 이상의 기준, 예를 들면, 한계점에 비교될 수 있다. 품질 메트릭은 도 4에 기재된 바와 같이 다양한 메트릭, 예를 들면, 정확도 메트릭, 비용 메트릭, 시간 메트릭 등으로 구성될 수 있다. 각각의 이들 메트릭은 한계점에 개별적으로 비교할 수 있거나, 다른 결정은 메트릭이 하나 이상의 기준을 충족시키는지를 결정한다. 비교(들)를 기반으로, 예를 들면, 도 5의 블록(526 및 532)에서 특징의 세트를 결정하기 위한 검정의 신규한 하위세트를 선택할지의 여부가 결정될 수 있다.

검정의 신규한 하위세트는 제1 하위세트가 아닌 적어도 하나의 복수의 상이한 검정을 포함할 수 있고/있거나 가능하게는 검정을 제거한다. 검정의 신규한 하위세트는 제1 하위세트로부터의 적어도 하나의 검정을 포함할 수 있고, 특징의 신규한 세트는 제1 하위세트로부터의 하나의 검정을 위하여 결정될 수 있다. 검정의 신규한 하위세트를 위한 품질 메트릭이 하나 이상의 기준을 충족시키는 경우, 검정의 신규한 하위세트는, 예를 들면, 도 5에서 최종 검정(529)으로서 출력일 수 있다.

신규한 하위세트가 이전에 수행되지 않았던 신규한 검정을 포함하는 경우, 훈련 샘플에서 분자는 복수의 상이한 검정이 아닌 신규한 검정의 대상이 되어 하나 이상의 기준을 충족시키지 않는 검정의 신규한 하위세트에 대한 품질 메트릭을 기반으로 한 측정치의 신규한 세트를 획득할 수 있다. 신규한 검정은 분자의 부류의 그룹이 아닌 분자의 신규한 부류에 대하여 수행될 수 있다.

블록(680)에서, 시스템은 기계 학습 모델의 파라미터 및 기계 학습 모델에 대한 특징의 세트를 제공한다. 기계 학습 모델의 파라미터는 미리 결정된 형식으로 저장되거나, 각각의 파라미터의 수 및 정체를 식별하는 태그와 함께 저장될 수 있다. 특징의 정의는, 예를 들면, 특징 추출 모듈(514) 및 특징 선택 모듈(520)을 통해 현재 반복에 의해 특정되는 특징 추출 및 선택에서 사용되는 설정으로부터 수득될 수 있다. 블록(680)은 출력 모듈에 의해 수행될 수 있다.

5. 암을 식별하는 방법

양상에 있어서, 본 발명의 개시내용은 본 발명의 개시내용은 하기 단계를 포함하는 대상체에서 암을 식별하는 방법을 제공한다: (a) 상기 대상체로부터의 무세포 핵산(cfNA) 분자를 포함하는 생물학적 샘플을 제공하는 단계; (b) 상기 대상체로부터의 상기 cfNA 분자를 시퀀싱하여 복수의 cfNA 시퀀싱 리드를 생성하는 단계; (c) 상기 복수의 cfNA 시퀀싱 리드를 참조 게놈에 대하여 정렬하는 단계; (d) 상기 참조 게놈의 각각의 제1 복수의 게놈 영역에서 상기 복수의 cfNA 시퀀싱 리드의 정량적 측정을 생성하여 제1 cfNA 특징 세트를 생성하는 단계로서, 여기서 상기 참조 게놈의 상기 제1 복수의 게놈 영역은 적어도 약 15000개의 개별 하이포메틸화된 영역을 포함하는, 단계; 및 (e) 상기 제1 cfNA 특징에 훈련된 알고리즘을 적용하여 상기 암을 가진 상기 대상체의 가능성을 생성하는 단계.

일부 예에서, 상기 훈련된 알고리즘은 단일 값 분해에 의해 차원 축소를 수행하는 것을 포함한다. 일부 예에서, 방법은 상기 참조 게놈의 제2 복수의 게놈 영역 각각에서 상기 복수의 cfNA 시퀀싱 리드의 정량적 측정을 생성하여 제2 cfNA 특징 세트를 생성하는 것을 추가로 포함하고, 여기서 상기 참조 게놈의 상기 제2 복수의 게놈 영역은 적어도 약 20000개의 개별 단백질-인코딩 유전자 영역을 포함하고; 상기 훈련된 알고리즘을 상기 제2 cfNA 특징 세트에 적용하여 상기 암을 가진 상기 대상체의 상기 가능성을 생성하는 것을 포함한다. 일부 예에서, 방법은 상기 참조 게놈의 제3 복수의 게놈 영역 각각에서 상기 복수의 cfNA 시퀀싱 리드의 정량적 측정을 생성하여 제3 cfNA 특징 세트를 생성하는 것을 추가로 포함하고, 여기서 상기 참조 게놈의 상기 제3 복수의 게놈 영역은 동일한 크기의 연속 비중첩 게놈 영역을 포함하고; 상기 훈련된 알고리즘을 상기 제3 cfNA 특징 세트에 적용하여 상기 암을 가진 상기 대상체의 상기 가능성을 생성하는 것을 포함한다. 일부 예에서, 상기 참조 게놈의 상기 제3 복수의 비중첩 게놈 영역은 적어도 약 60000개의 개별 게놈 영역을 포함한다. 일부 예에서, 방법은 추가로 상기 암을 가진 상기 대상체의 상기 가능성을 나타내는 정보를 포함하는 리포트를 생성하는 것을 포함한다. 일부 예에서, 방법은 상기 대상체에 대하여 하나 이상의 권고된 단계를 생성하여 상기 암을 가진 상기 대상체의 상기 생성된 가능성을 적어도 부분적으로 기반으로 하여 상기 암을 치료하는 것을 추가로 포함한다. 일부 예에서, 방법은 상기 암을 가진 상기 대상체의 상기 가능성이 미리 결정된 기준을 충족시키는 경우에 상기 암을 가진 상기 대상체를 진단하는 것을 추가로 포함한다. 일부 예에서, 상기 미리 결정된 기준은 상기 가능성이 미리 결정된 한계점보다 큰 것이다. 일부 예에서, 상기 미리 결정된 기준은 상기 진단의 정확도 메트릭을 기반으로 결정된다. 일부 예에서, 상기 정확도 메트릭은 민감도, 특이도, 양성 예측치(PPV), 음성 예측치(NPV), 정확도, 및 곡선하면적(AUC)으로 이루어진 군으로부터 선택된다.

일부 예에서, 컴퓨터 모듈은 습식 실험실 단계의 다른 부분을 통지할 수 있다. 예를 들면, 일부 컴퓨터 모듈(들)은 일부 검정 발달 과정에 있어서, 예를 들면, 외부 데이터가 습식 실험실 실험에 대한 시작점을 통지하는데 사용될 수 있는 경우, 습식 실험실 단계를 선행할 수 있다. 추가로, 습식 실험실 실험 구성원의 출력은 코호트 디자인 및 임상적 질문과 같은 컴퓨터 구성원으로 공급될 수 있다. 다른 한편으로는, 컴퓨터 결과는 코호트 디자인에 대한 비용 함수 선택의 영향과 같은 습식 실험실로 다시 피드백을 줄 수 있다.

6. 결과

표 2는 본 발명의 개시내용의 예에 따른 상이한 분석물 및 상응하는 가장 우수한 수행 모델에 대한 결과를 도시한다.

분석물에 유사하게 걸친 샘플을 사용하였다.

표 2에서, SD는 상이한 분류된 표지 중에서 상이한 유전자에 대한 리드 수를 비교함으로써 결정되는 바와 같은 유의한 차이를 나타낸다. 이는 차원 축소의 부분이다. 이는 2개의 분류 사이에 유의미하게 상이한 이들 특징의 필터링 후, 이들을 분류로 진전시키는 것이다. PCA는 특징의 붕괴된 그룹을 보는 반면, 특정한 방식으로 상관되고, SD는 일반적으로 개별적인 특징을 본다. 가장 높은 SD를 가진 특징(예를 들면, 유전자에 대한 리드 수)은 대상체에 대한 특징 벡터에서 사용될 수 있다. PCA는 먼저 몇몇 구성원을 통해 측정치의 예상에 관한 것이다. 이는, 예를 들면, 더 작은 차원 공간에서 다수의 특징의 밀집된 표시이다.

표는 분석물의 상이한 조합에 대한 상이한 차원 축소(축소 없음 포함)와 함께, 상이한 모델의 결과를 분석함으로써 생성되었다. 표는 가장 우수하게 수행된 모델을 포함한다. 예로서, 단백질을 포함하는 다중 분석물 검정 데이터세트에 대하여, 차원수가 작기 때문에(14) PCA가 필요하지 않을 수 있고, 따라서 단지 로지스틱 회귀(LR)가 사용된다.

모델 중에서, LR은 PCA(상위 5개의 구성원), 및 유의한 차이에 의한 특징 선택(특징의 10% 유지)와 함께 시도되었다. PCA는 분석물에 걸쳐 수행되거나 단지 하나의 분석물에 수행될 수 있다.

특징 컬럼은 분석물의 상이한 조합, 예를 들면, 유전자(무세포 DNA 분석)와 메틸화에 상응한다. 하나 이상의 분석물이 사용되는 경우, 2개의 선택사항은 특징을 특징의 단일 세트로 조합하거나, 2개의 모델을 운행하여 2개의 부류(예를 들면, 분류에 대한 확률)를 출력하고 이를 투표, 예를 들면, 주요 투표 또는 일부 가중 평균 또는 어느 분류가 가장 높은 점수를 갖는지 결정하는 확률을 사용하는 것이었다. 또 다른 예로서, 예측의 평균 또는 방식은 점수를 보는 것에 반대로서 취할 수 있다.

5x 교차 검증을 수행하여 도 7A 및 도 7B에서 수신기 동작 특성 곡선에 대한 AUC 정보를 수득하였다. 샘플은 4개의 데이터 세트에 대한 훈련 및 제5 데이터 세트에 대한 검증과 함께 5개의 상이한 데이터 세트로 파괴될 수 있다. 민감도 및 특이도는 4의 세트에 대하여 결정될 수 있다. 추가로, 세트에 대한 할당은 추가의 데이터를 제공하는 무작위 시드와 함께 업데이트될 수 있다. 민감도 및 특이도를 결정하기 위하여, 4개의 분류는 하나의 분류로서 건강한 및 양성 폴립, 및 다른 분류로서 AA 및 CRC와 함께 4로 축소된다.

도 7A 및 도 7B는 상이한 분석물에 대한 분류 성능을 도시한다.

B. 실시예 2: 생물학적 샘플의 분류에 대한 개별적인 검정의 분석

이 실시예는 건강한 개체, AA 및 CRC의 단계 사이를 구별하는 다중 분석물의 분석 및 다중 검정을 설명한다.

혈액 샘플을 상이한 부분으로 분리하고, 분자의 3개의 부류의 4개의 검정을 조사하였다. 분자의 부류는 무세포 DNA, 무세포 miRNA, 및 순환 단백질이었다. 2개의 검정을 cf DNA에 대하여 수행하였다.

비식별화된 혈액 샘플을 건강한 개체 및 양성 폴립, 진행성 선종(AA), 및 단계 I-IV 결장직장암(CRC)이 있는 개체로부터 수득하였다. 혈장 분리 후, 다중 분석물을 하기와 같이 검정하였다. 제1, 무세포 DNA(cfDNA) 내용물을 로우-커버리지 전체 게놈 시퀀싱(lcWGS) 및 전체 게놈 바이설파이트 시퀀싱(WGBS)에 의해 평가하였다. 그 다음, 무세포 마이크로RNA(cf-miRNA)를 소형 RNA 시퀀싱에 의해 평가하였다. 최종적으로, 순환 단백질이 수준을 정량적 면역검정에 의해 측정하였다.

시퀀싱된 cfDNA, WGBS, 및 cf-miRNA 리드를 인간 참조 게놈(hg38)에 대하여 정렬하고, 하기와 같이 분석하였다. 추가의 세부사항은 물질 및 방법 섹션에 제공된다. cfDNA(lcWGS): 주석이 달린 게놈 영역 내에 정렬된 단편을 계수하고, 시퀀싱의 깊이에 대하여 정규화하여 샘플당 30,000-차원 벡터를 생성하고, 각각의 효소는 유전자에 대한 수(예를 들면, 참조 게놈에서 그 유전자에 대하여 정렬되는 리드의 수)에 상응한다. 높은(>20%) 종양 분획을 가진 샘플은 대규모 CNV의 수동 검사를 통해 식별하였다.

WGBS: 메틸화의 퍼센트는 표적화된 유전자(56개 유전자)에서 LINE-1 CpGs 및 CpG 부위에 걸친 샘플당 계산하였다.

cf-miRNA: 주석이 달린 miRNA 게놈 영역에 대하여 정렬된 단편을 계수하고 시퀀싱의 깊이에 대하여 정규화하여 샘플당 1700-차원 벡터를 생성하였다.

각각의 이들 데이터 세트를 필터링하여 측정치(예를 들면, 상이한 유전자에 대한 리드의 수를 수득하기 위하여 참조 게놈에 대하여 정렬된 리드)를 식별할 수 있다. 측정치는 정규화될 수 있다. 각각의 분석물에 대한 정규화에 대한 추가의 세부사항은 각각의 분석물에 대하여 분리된 하위섹션에 기재된다. PCA 분석을 각각의 분석물에 대하여 수행하였고, 결과를 제공한다. 기계 학습 모델의 적용은 분리된 섹션에 제공된다.

1. cf-DNA 로우 커버리지 전체 게놈 시퀀싱

주석이 달린 영역을 가진 공지된 유전자의 목록에 대하여, 서열 리드 수는 그 영역에 대하여 정렬된 단편의 수를 계수함으로써 이들 주석이 달린 영역 각각에 대하여 결정되었다. 유전자에 대한 리드 수는 다양한 방식으로, 예를 들면, 게놈이 전개되는 전반적인 예상; 샘플내 정규화; 및 교차 특징 정규화를 사용하여 정규화될 수 있다. 교차 특징 정규화는 특정한 값에 대한 이들의 특징 평균 중 모든 것, 예를 들면, 0, 상이한 음성 값, 1을 지칭할 수 있거나, 범위는 0 내지 2이다. 교차 특징 정규화를 위하여, 샘플로부터의 전체 리드는 다양할 수 있고, 따라서 제조 공정 및 시퀀서 로딩 공정에 따라 좌우될 수 있다. 정규화는 전반적인 정규화의 부분으로서 리드의 상수일 수 있다.

도 8A 및 도 8B는 임상적 단계에 걸쳐, CNV에 의해 추론되는 바, 높은 종양 분획 샘플(즉, 20% 초과)의 분포를 보여주고, 이는 건강함과 정상 사이의 차이를 나타낸다. 이러한 예에서, 혈장 cfDNA의 lcWGS는 게놈에 걸친 CNV를 기반으로 높은 종양 분획(>20%)을 가진 CRC 샘플을 식별할 수 있었다. 게다가, 후기 CRC 샘플에서보다 더 빈번한, 높은 종양 분획은 일부 단계 I 및 II 샘플에서 관찰되었다. 높은 종양 분획은 건강한 개체 또는 양성 폴립 또는 AA가 있는 개체로부터의 샘플에서 관찰되지 않았다.

도 8A 및 도 8B는 cfDNA-seq 데이터를 기반으로 한 높은(>20%) 종양 분획을 가진 개체에 대한 CNV 플롯을 도시한다. 도 8A 및 8B에서 각각의 플롯은 자가-리드 DNA 카피 수의 고유한 샘플에 대한 히스토그램에 상응한다는 것을 주목한다. 또한 종양 분획은 CNV로부터 추정되거나 ichor DNA와 같은 개방 공급원 소프트웨어를 사용하여 계산될 수 있다는 것을 주목한다. 표 3은 임상적 단계에 걸친 높은 종양 분획 cfDNA 샘플이 분포를 도시한다.

높은 종양 분획 샘플은 후기 단계로서 임상적으로 분류되는 샘플에 상응할 필요는 없다. 도면에서, 건강한 인간의 총 수는 26명이다. "BP"는 양성 폴립을 나타내고, "AA"는 진행성 선종을 나타내고, "Chr"은 염색체를 나타낸다.

2. 메틸화

상이하게 메틸화된 영역(DMR)은 CpG 부위에 사용된다. 영역은 발견에 의해 동력학적으로 할당될 수 있다. 상이한 부류의 샘플 수를 수득하고, 어느 영역이 상이한 분류 사이에서 가장 상이하게 메틸화되는지를 발견하는 것이 가능하다. 그 다음, 상이하게 메틸화되는 하위세트를 선택하고, 이들을 분류에 대하여 사용한다. 영역에 포획된 CpG의 수가 사용된다. 영역은 가변적인 크기를 갖는 경향이 있을 수 있다. 따라서, 영역으로서 CPG 부위의 수는 함께 ?씬甄? 사전발견 공정을 수행하는 것이 가능하다. 이러한 예에서, 56 유전자 및 LINE1 요소(게놈에 걸쳐 반복된 영역)를 연구하였다. 이들 영역에서 퍼센트 메틸화를 조사하고, 분류를 수행하는 기계 학습 모델을 훈련하기 위하여 특징으로 사용하였다. 이러한 예에서, 분류는 PCA에 대하여 사용되는 본질적으로 57 특징의 사용을 만든다. 특정한 영역은 샘플을 통해 충분한 커버리지를 가진 영역을 기반으로 선택될 수 있다.

도 9는 LINE-1 부위에서 CpG 메틸화 분석을 보여주고, 이는 건강한 샘플 및 정상 샘플 사이의 차이를 나타낸다. 도면은 PCA에 사용되는 모든 57 영역에 대한 메틸화를 도시한다. 정상 샘플에 대하여 도시된 각각의 데이터 점은 상이한 유전자 영역 및 메틸화에 대한 것이다.

이러한 예에서, LINE-1 CpG 좌의 게놈 방식 하이포메틸화는 오직 CRC를 가진 개체에서 관찰되었다. 하이포메틸화는 CRC가 없는 샘플, 예를 들면, 예를 들면, 건강한 개체 또는 양성 폴립 또는 AA가 있는 개체로부터의 샘플에서 관찰되지 않았다. 정상에 대한 각각의 데이터 점은 상이한 유전자 영역 및 메틸화에 대한 것이라는 것을 주목한다. 예에서, 영역을 맵핑하는 모든 리드는 계산될 수 있다. 시스템은 리드가 위치에서 메틸화되었는지의 여부를 결정하고, 메틸화된 CpG(예를 들면, 순차적으로 인접한 C 및 G 염기) 및 메틸화된 CpG의 수를 합하고, 메틸화된 CpG의 수에 대한 메틸화된 CpG의 수의 비를 계산할 수 있다.

이러한 예에서, 유의성은 변수의 일원 분석(ANOVA) 후, 시닥의 다중 비교 시험에 의해 평가하였다. 오직 유의한 조절된 P-값이 도시된다. LINE-1의 CpG 하이포메틸화는 CRC 경우에만 오직 관찰되었다. 폴립(양성 폴립), AA, CRC(단계 I - IV). 5mC, 5-메틸사이토신.

부위에 대하여 정렬되고 메틸화를 가진 DNA 단편의 퍼센트는 관심 대상 전체 영역에서 연구될 수 있다. 예를 들면, 유전자 영역은 모든, 예를 들면, 제1 CpG 부위에 대하여 정렬된 100개의 리드 및 제2 CpG 부위에 대하여 정렬된 90개의 리드에 대하여, 2개의 CpG 부위(예를 들면, C 및 G 염기는 서로 순차적으로 다음이다)를 가질 수 있고, 예를 들면, 총 190개이다. 그 영역을 맵핑하는 모든 리드는 확인되었고, 리드가 메틸화되었는지의 여부가 관찰된다. 그 다음, 메틸화된 CpG의 수를 합하고, 비메틸화된 CpG의 수에 대한 메틸화된 CpG의 수의 비를 계산한다.

3. 마이크로-RNA

이러한 예에서, 본질적으로 측정 가능한 모든 마이크로RNA(miRNA)(이러한 예에서, 대략 1700)를 특징으로서 사용하였다. 측정치는 이들 miRNA를 위한 발현 데이터에 관한 것이다. 이러한 전사체는 특정한 크기의 것이고, 각각의 전사체는 저장되고, 각각에 대하여 확인된 miRNA의 수는 계수될 수 있다. 예를 들면, RNA 서열은 참조 miRNA 서열에 대하여 정렬될 수 있고, 예를 들면, 1700개의 서열의 세트가 인간 전사체에서 공지된 miRNA에 상응한다. 확인된 각각의 miRNA는 이의 자체 특징으로서 사용될 수 있고, 모든 샘플에 걸친 모든 것은 특징 세트가 될 수 있다. 일부 샘플은 그 miRNA에 대하여 발현은 검출되지 않은 0인 특징값을 갖는다.

도 10은 마이크로RNA를 특성화하는 cf-miRNA 시퀀싱 분석을 도시한다. 발현에 의해 순위 매겨진, 모든 샘플로부터의 풀링 리드 후 각각의 miRNA에 대한 리드 맵핑의 수가 도시된다. 리드에 나타난 miRNA는 문헌에서 잠재적인 CRC 바이오마커로서 제시되었다. 어댑터-트리밍된 리드는 맵핑되어 bowtie2를 사용하여 인간 마이크로RNA 서열(miRBase 21)을 성숙시켰다. 1800개 이상의 miRNA가 적어도 1개의 리드를 가진 혈장 샘플에서 검출되었고, 375개의 miRNA가 더 높은 과잉으로 존재하였다(샘플당 ≥10 리드의 평균으로 검출됨).

예에서, 모든 샘플은 수득되고, 리드가 함께 합산된다. 샘플에서 확인된 각각의 마이크로RNA에 있어서, 확인된 리드의 다수의 합산이 있을 수 있다. 이러한 예에서, 약 10,000,000개의 합산 리드를 확인하여 하나의 단일 마이크로 RNA를 맵핑하였고; 합산하여, 300개의 마이크로 RNA는 1,000개의 리드에 걸쳐 확인되었고; 약 600개가 100개의 리드에 걸쳐 확인되었고; 1,200개가 10개의 리드에 의해 확인되었고; 1,800개 등이 오직 단일 비드만 가진다. 높은 발현 순위를 가진 마이크로 RNA는 더 우수한 마커일 수 있다는 것을 주목하고, 이는 더 큰 절대 변화가 더 신뢰할 만한 신호를 야기할 수 있기 때문이다.

CRC이 있는 개체에서 cf-miRNA 프로파일은 건강한 대조군에서의 것들과 조화를 이루지 못했다. 이러한 예에서, miRNA는 문헌에서 잠재적인 CRC 바이오마커로서 다른 miRNA에 대한 더 높은 과잉으로 존재하는 경향이 있는 것을 제시하였다.

4. 단백질

단백질 데이터는 표준 곡선(14개의 단백질)에 의해 정규화된다. 각각의 하나의 14개의 단백질은 본질적으로 고유한 면역검정이고, 따라서 각각은 매우 안정되고 최적화된 버퍼 중의 전형적으로 재조합 단백질을 갖는 이의 자체 표준 곡선을 갖는다. 따라서, 표준 곡선은 생성되고, 이는 다수의 방식으로 계산될 수 있다. 농도 관계는 전형적으로 비선형이다. 그 다음, 샘플을 수행하고, 1차 샘플에서 예상된 형광성 농도를 기반으로 계산된다. 측정치는 3중 측정일 수 있지만, 예를 들면, 평균 또는 더 복잡한 통계 분석에 의해 14개의 개별 값으로 감소될 수 있다.

도 11A 및 11B는 순환 단백질 바이오마커 분포를 도시한다. 도 11A는 모든 검정된 순환 단백질의 수준을 나타내는 상자 그림을 도시한다. 도 11B는 일원변량분석 후, 시닥의 다중 비교 시험에 따른 조직 유형에 걸친 유의미하게 상이한 수준을 나타내는 단백질을 도시한다. 오직 유의미하게 조절된 P 값이 도시된다. SIMOA(Quanterix)를 사용하여 측정된 단백질: ATP-결합 카세트 트랜스포터 A1/G1(A1G1), 아실화 자극 단백질(C3a des Arg), 암 항원 72-4(CA72-4), 암배아 항원(CEA), 사이토케라틴 단편 21-1(CYFRA21-1), FRIL u-PA. ELISA(Abcam)에 의해 측정된 단백질: AACT, 카텝신 D(CATD), CRP, 피부 T-세포 유인 케모카인(CTACK), FAP, 행렬 메탈로프로테이나제-9(MMP9), SAA1.

이러한 예에서, CRC 샘플에서, 알파-1-안티키모트립신(alpha-1-antichymotrypsin: AACT), C-반응성 단백질(C-reactive protein: CRP), 및 혈청 아밀로이드 A(serum amyloid A: SAA) 단백질의 순환 수준이 상승되었고, 우로키나제형 플라스미노겐 활성제(urokinase-type plasminogen activator: u-PA) 수준은 건강한 대조군과 비교하여 낮아졌다. AA 샘플에서, 섬유아세포 활성화 단백질(fibroblast activation protein: FAP) 및 Flt3 수용체-상호작용 렉틴 전구체(Flt3 receptor-interacting lectin precursor: FRIL) 단백질의 순환 수준을 상승하였고, CRP 수준은 CRC 샘플과 비교하여 낮아졌다.

이러한 예에서, 구별은 동일한 ANOVA 플롯 중에서 관찰될 수 있다. 예를 들면, CRP는 예측성으로 나타난다. FAP는 상이한 것에 대하여 다양하다. 따라서, 다중 분석물 시험은 합상되는 경향을 보일 수 있는 반면, 각각은 평가되기 어려울 수 있다.

5. 차원 축소(예를 들면, PCA 또는 유의한 차이)

주성분 분석(PCA)은 분석물당 수행되었다. 예에서, PCA는 단백질, 무세포 DNA, 메틸화, 및 마이크로RNA 데이터에 대하여 수행된다. 따라서, 4개의 PCA는 그 내용물에서 수행될 수 있다.

예에서, 모든 14개의 단백질은 단일 분석물로서 간주될 수 있다. 단백질에 있어서, 14개의 측정이 있고, 따라서 14개의 농도는 개별적인 형광성을 기반으로 한다. 이들은 14로 벡터화된다. PCA의 출력은 변이 31%를 설명하는 성분 1일 수 있고, 변이 17%를 설명하는 성분 2 등일 수 있다. 이는 어느 단백질이 대부분의 변이를 제공하는지 식별할 수 있다.

무세포 DNA에 대한 lcWGS에 있어서, 유전자 수의 통계적 값(예를 들면, 평균, 중앙 등) 사이의 차이는 대부분의 변이를 가진 유전자를 식별하는데 사용된다.

도 12A는 종양 분획의 함수로서 cf-DNA, CpG 메틸화, cf-miRNA 및 단백질 수의 PCA 분석의 출력을 도시한다. 도 12B는 분석물의 함수로서 cf-DNA, CpG 메틸화, cf-miRNA 및 단백질 수를 도시한다. 높은 종양 분획 샘플은 조사된 모든 4개의 분석물에 걸친 일정하게 일탈된 거동을 갖는다.

도 12A의 예에서, PCA는 높은 및 낮은 종양 분획 사이의 거리를 분리하는데 사용된다. 도 12B에서, 이는 상이한 분석물에 대한 샘플 분류(정상, 건강함, 양성 폴립, 및 결장직장암)이다. 개시된 시스템 및 방법은 이러한 부류 사이의 차이를 최대화하는데 사용될 수 있다. 이러한 예에서, 분석물에 걸쳐 일탈된 프로파일은 암 단계보다는 높은 TF(cfDNA CNV로부터 추정됨)의 지표이다. 나타난 각각의 점은 분리된 샘플에 상응하고; PCA는 가장 높은 성분에 대한 값이다.

다양한 구현이 차원 축소에 사용될 수 있다. 차원 축소에 있어서, 예를 들면, 유의한 차이 및 얼마나 많은 한계점 세트를 포함하는데 사용되는 다중 상이한 기준을 계산하는데 사용될 수 있는 다중 상이한 가설 시험이 사용될 수 있다. PCA 또는 SVD(단일 값 분해)는 데이터 그 자체보다는 상관 행렬 또는 공분산 행렬에 대하여 수행될 수 있다. 자가-인코딩 또는 변분 자가-인코딩이 사용될 수 있다. 이러한 필터링은 낮은 변수를 갖는 측정치(예를 들면, 영역에 대한 수)를 필터링할 수 있다.

6. 결론

혈장 cfDNA의 lcWGS는 게놈에 걸친 카피 수 변이(CNV)를 기반으로 높은 종양 분획(>20%)을 가진 CRC 샘플을 식별할 수 있었다. 높은 종양 분획은, 후기 단계 암 샘플에서 더 많은 빈도로, 일부 단계 I 및 II 환자에서 관찰되었다. 3개의 다른 분석물의 각각에서 일탈된 신호, 즉, 건강한 대조군과 조화를 이루지 않는 cf-miRNA 프로파일, LINE1(긴 산재성 핵 효소1) CpG loci에서 게놈 방식 하이포메틸화, 및 순환 암배아 항원(CEA) 및 사이토케라틴 단편 21-1(CYFRA 21-1) 단백질의 상승된 수준은 또한 암 환자에서 관찰되었다. 엄격하게, 다중 분석물에 걸친 일탈된 프로파일은 암 단계보다는 높은 종양 분획(cfDNA CNV으로부터 추정된 바와 같음)의 지표였다.

이들 데이터는 종양 분획이 암 단계와 상관된다는 것을 제시하지만, 심지어 초기 단계 샘플에서 큰 가능성 범위를 갖는다. 암 검출을 위한 혈액 기반 스크린에 대한 이전 문헌은 초기 단계 암을 검출하기 위하여 상이한 단일 분석물의 청구된 능력에서 나타난 불일치를 갖는다. cfDNA CpG 메틸화, cf-miRNA, 및 순환 단백질 수준 중에서 일탈된 프로파일이 후기 단계보다 높은 종양 분획과 더 강하게 연관되었다는 것을 확인한 바와 같이, 종양 분획은 역사적 불일치를 설명할 수 있었다. 이들 발견은 일부 양성 "초기 단계" 검출 결과가 사실 "높은 종양 분획" 검출 결과일 수 있다는 것을 제시한다. 결과는 추가로 단일 샘플로부터의 다중 분석물을 검정하는 것은 낮은 종양 분획에서 신뢰할 만한 분류기의 발달 및 전악성 또는 초기 단계 질환을 검출할 수 있게 한다는 것을 완전히 입증한다. 이러한 다중 분석물 분류기는 하기 기재된 바와 같다.

C. 실시예 3: ACROSS 다중 샘플에 걸친 CFDNA로부터의 2개의 상이한 게놈 영역에서 서열의 공분산을 사용하는 HI-C-유사 구조의 식별

이러한 예는 다중분석물-모델 생성을 위한 특징으로서 세포 유형 기원을 식별하는 단일 샘플에서 cfDNA로부터의 2개의 상이한 게놈 영역에서 Hi-C-유사 구조이 식별 방법을 기재한다.

다중 cfDNA 샘플의 게놈 서열은 다양한 길이의 비중첩 빈(예를 들면, 10-kb, 50-kb, 및 1-Mb 비중첩 빈)으로 단편화되었다. 그 다음, 각각의 빈 내의 고품질 맵핑된 단편의 수는 정량화되었다. 고품질 맵핑된 단편은 품질 한계점을 충족시켰다. 그 다음, 피어슨/켄달/스피어만 상관을 사용하여 동일한 염색체 또는 상이한 염색체 사이의 빈으로부터의 쌍 사이의 상관을 계산하였다. 상관 행렬의 뉘앙스 구조로부터 계산된 구조 점수를 사용하여 도 13에서 히트맵을 생성하였다. 유사한 히트맵을 도 14에 도시된 Hi-C 시퀀싱을 사용하여 결정된 구조 점수를 사용하여 생성하였다. 2개의 히트맵의 유사성은 공분산을 사용하여 결정된 뉘앙스 구조가 Hi-C 시퀀싱에 의해 결정된 구조에 유사하였다는 것을 제시한다. GC 편향, 게놈 DNA, 및 MNase 소화에서 상관 구조에 의해 유발된 잠재적인 기술 편향은 제외하였다.

게놈 영역(더 큰 빈 크기)을 더 작은 빈으로 분할하고, 콜모고로보-스미르노브(Kolmogorov-Smirnov)(KS) 시험을 사용하여 2개의 더 큰 빈 사이의 상관을 계산하였다. KS 시험 점수는 Hi-C-유사 구조에 대한 정보를 제공하였고, 이는 암 및 대조군을 구별하는데 사용될 수 있다.

2차원 세분화(HiCseg)를 cfDNA 및 Hi-C에서 상관 구조에서 단편 및 콜 도메인에 대하여 사용하였다. 2개의 접근법은 도메인의 유사한 수 및 높은 중첩 도메인을 야기하였다.

cfDNA-특이적 공동방출 패턴의 식별. cfDNA에서 공분산 구조는 염색질 구조, 게놈 DNA, MNase 소화, 및 cfDNA의 가능한 공동방출 패턴을 포함하는 다중 공급원으로부터의 혼합된 입력 신호 패턴를 나타냈다. 심층 학습은 다른 공급원으로부터의 신호를 제거하고 오로지 cfDNA의 잠재적인 공동방출 패턴을 훈련하는데 사용되었다.

암 및 비-암 샘플에서 염색질의 3차원 근접은 긴 범위의 공간 상관 단편화 패턴으로부터 추론될 수 있다. 상이한 게놈 영역으로부터의 cfDNA의 단편화 패턴은 균일하지 않고, 게놈의 국소 후생적 시그니처를 반영한다. 긴-범위 후생적 상관 구조와 고차 염색질 조직화 사이의 높은 유사성이 존재한다. 따라서, 긴-범위 공간 상관 단편화 패턴은 염색질의 3차원 근접을 반영할 수 있다. 공동단편화 패턴으로부터 추론된 생체내 고차 염색질 조직화의 게놈 방식 맵은 cfDNA에서 단편 길이 단독을 사용하여 생성되었다. 내인성 생리학적 공정으로부터 생성된 단편은 Hi-C 라이브러리 제조 동안 무작위 결찰, 제한 효소 소화, 및 비오틴 결찰과 연관된 기술적 변이의 가능성을 감소시킬 수 있다. 샘플 수집 및 전처리: 후행 인간 혈장 샘플(>0.27 mL)을 결장암(결장직장암)으로 진단된 45명의 환자, 폐암으로 진단된 49명의 환자, 및 흑색종으로 진단된 19명의 환자로부터 수득하였다. 현재 암 진단을 받지 않은 환자로부터의 100개의 샘플을 수득하였다. 전체적으로, 샘플은 남부 및 북부 유럽, 및 미국으로부터 상업적 바이오뱅크로부터 수집하였다. 모든 샘플을 비식별화하였다. 혈장 샘플을 -80℃에서 저장하고, 사용 전 해동하였다. 무세포 DNA를 제조사의 설명서에 따라 MagMAX 무세포 DNA 단리 키트(Applied Biosystems)를 사용하여 250㎕ 혈장(샘플 추적을 위하여 고유한 합성 dsDNA 단편로 스파이킹함)으로부터 추출하였다. NEBNext Ultra II DNA 라이브러리 프렙 키트(New England Biolabs)를 사용하여 쌍 말단의 시퀀싱 라이브러리를 제조하고, 2x51 염기 쌍에서 다중 S2 또는 S4 유동세포에 걸친 이중 인덱스로 이루미나(Illumina) NovaSeq 6000 시퀀싱 시스템에서 시퀀싱하였다.

전체 게놈 시퀀싱 데이터 처리: 리드를 탈다중화하고, BWA-MEM 0.7.15을 사용하여 인간 게놈(데코이가 있는 GRCh38, alt contigs, 및 HLA contigs)에 대하여 정렬하였다. 고유한 분자 식별자(UMI)를 사용하여 PCR-복제 단편을 제거하였다. 1000개의 게놈(IGSR)에 의해 식별되는 공동 SNP에 대한 모든 가능한 유전형 및 오염 분획에 대하여 소외하여 오염 모델을 사용하여 오염을 평가하였다.

시퀀싱 데이터를 품질에 대하여 확인하고, 임의의 하기 조건이 충족되는 경우, 분석으로부터 생략하였다: AT 드롭아웃 > 10 또는 GC 드롭아웃 > 2(둘 다 2.10.5를 통해 컴퓨팅됨). 예상된 대립형질 분획 < 0.99, 예상되지 않은 유전형 콜, 또는 실패한 음성 대조군이 데이터 세트로 인하여 오염된 것으로 의심되는 임의의 샘플을 데이터 세트에 포함하기 전에 수동으로 조사하였다. 어댑터를 아트로포스(Atropos)로 디폴트 파라미터에 의해 트리밍하였다. 양 말단이 고유하게 맵핑된(60 초과의 맵핑 품질 점수를 가진) 오직 고품질 리드, 적절하게 쌍을 이루고, PCR 복제본이 아닌 것을 모든 다운스트림 분석에 대하여 사용하였다. 오직 오토좀을 모든 다운스트림 분석에서 사용하였다.

Hi-C 라이브러리 제조: 전체 혈액 세포 및 호중구의 인시츄 Hi-C 라이브러리 제조를 아브리마 게노믹스 서비스(Arima genomics service)를 사용하여 수행하였다.

Hi-C 데이터 처리: 미가공 fastq 파일을 주서박스(Juicerbox) 커맨드 라인 도구 v1.5.6를 통해 단일하게 처리하였다. 필터링 리드 후, 30을 초과하는 맵핑 품질 점수를 가진 결과를 사용하여 피어슨 상관 행렬 및 구획 A/B를 생성하였다. 파이톤(Python) 3.5에서 scikit-learn 0.19에서 PCA 함수에 의해 주성분 분석(PCA)을 계산하였다. 제1 주성분을 사용하여 구획을 세분화하였다. 각각의 염색체에 있어서, 구획은 신호를 기반으로 2개의 그룹으로 그룹화하였다. 유전자 밀도에 대한 낮은 평균 값을 가진 구획의 그룹을 구획 B로 정의하였다. 다른 그룹을 구획 A로 정의하였다. 유전자 밀도는 앙상블 v84에 의해 주석이 달린 유전자 수에 의해 결정되었다. 시퀀싱 요약 통계 및 관련 메타데이터 정보는 표 4에 나타낸다.

다중 샘플 cfHi-C: 0.75 미만의 맵핑 가능성을 가진 500-kb 빈을 다운스트림 분석으로부터 제거하였다. 각각의 500-kb 빈을 먼저 50-kb 하위빈으로 나누었다. 각각의 하위빈에서 중앙 단편 길이를 500-kb 빈으로 먼저 요약한 후, 각각의 염색체 및 각각의 샘플의 평균 및 표준 편차에 의해 z-점수 방법으로 정규화하였다. 모든 개체에 걸친 각각의 쌍 빈 사이에서 피어슨 상관을 계산하였다.

단일 샘플 cfHi-C: 0.75 미만의 맵핑 가능성이 있는 500-kb 빈을 다운스트림 분석으로부터 제거하였다. 그 다음, 각각의 500-kb 빈에서 모든 고품질 단편의 단편 길이를 결정하였다. 500-kb 빈의 각각의 쌍에서 단편 길이의 분포 유사성을 2-방향 KS 시험(파이톤 3.6과 SciPy 1.1.0에서 실시된 ks_2samp 함수)에 의해 계산하였다. 그 다음, P 값을 log10 규모로 전환하였다. 그 다음, 특정한 쌍 빈에 대한 피어슨 상관을 계산하였다.

서열 조성물 및 맵핑 가능성 편향 분석: 맵핑 가능성 점수를 51bp의 리드 길이에 대하여 GEM 17에 의해 생성하였다. G+C%를 UCSC 게놈 브라우저로부터 gc5base 트랙으로 계산하였다. 500-kb 빈의 각각의 쌍에 대하여, G+C% 및 맵핑 가능성을 빈1 및 빈2로부터 수득하였다. 그 다음, 경사 부스팅 머신(GBM) 회귀 트리(파이톤 3.6에서 scikit-learn 0.19.1에서 실시된 경사부스팅회귀(GradientBoostingRegressor) 함수)를 적용하여 cfHi-C, gDNA, 및 Hi-C 데이터의 행렬로부터 상관계수 점수의 각각의 픽셀의 G+C% 및 맵핑 가능성으로 회귀하였다. N_추정자는 상이한 모델 복합성에서 깊이 = 5로 다양하였다. 그 다음, 회귀 후 잔존 값을 사용하여 픽셀 수준에서 전체 혈액 세포(WBC) Hi-C 데이터와의 상관을 계산하였다. r2 값을 계산하여 모델의 핏 우수성(goodness-of-fit)을 측정하였다.

cfHi-C에서 조직 기원 분석: cfHi-C 데이터로부터의 조직 기원을 추론하기 위하여, cfHi-C 데이터(cfHi-C에서 상관 행렬 상의 제1 PC)의 구획을 각각의 참조 Hi-C 데이터(cfHi-C에서 상관 행렬 상의 제1 PC) 각각에서 구획의 선형 조합으로서 모델링하였다. 고유치를 재평가하여 구획 A가 양수인지를 확인하였다. 0.75 미만의 맵핑 가능성을 가진 게놈 영역을 필터링하였다. cfHi-C 및 참조 Hi-C 패널에 걸친 고유치를 변위치 정규화에 의해 먼저 변형하였다. 각각의 참조 Hi-C 데이터세트에 있어서, 참조 Hi-C 데이터세트(고유치가 음성일 때 가장 낮음)의 나머지에 대하여 가장 높은 고유치를 보여준 게놈 빈만을 디콘볼루션 분석에 사용하였다. 가중치는 가중치가 cfDNA에 대한 조직 기여로서 해석될 수 있도록 1까지 합하도록 제약되었다. 이차 프로그래밍을 사용하여 제약된 최적화 문제를 해결하였다. 종양 분획을 정의하기 위하여, 암으로부터의 조직 기여 분획을 합하였다.

ichorCNA 분석: 디폴트 파라미터가 있는 ichorCNA v0.1.0를 사용하여, 내부 건강한 샘플의 군으로 정규화 후, 각각의 cfDNA WGS 샘플에서 종양 분획을 계산하였다. 코드 및 데이터 이용 가능성: 모든 분석 코드를 파이톤 3.6 및 R 3.3.3에서 실시하였다. 연구에서 사용된 공개적으로 이용 가능한 데이터는 표 5에 나타낸다. 각각의 cfDNA 샘플의 게놈 빈 수준에서 단편 길이의 상세한 요약 통계.

쌍 말단 전체 게놈 시퀀싱(WGS)을 568명의 상이한 건강한 개체로부터의 cfDNA에 대하여 수행하였다. 각각의 샘플에 있어서, 395명의 쌍 말단 리드를 평균적으로(대략 12.8X 커버리지) 수득하였다. 품질 조절 및 리드 필터링 후, 평균적으로(대략 10X 커버리지) 각각의 샘플에 대하여 310,000,000개의 고품질 쌍 말단 리드를 수득하였다. 오토솜을 500-kb, 비중첩 빈으로 나누고, 정규화된 단편화 점수를 각각의 개별 샘플에 대하여 각각의 빈에서 단편 길이 단독으로부터 계산하였다. 그 다음, 피어슨 상관계수를 모든 개체에 걸친 정규화된 단편화 점수에서 빈의 각각의 쌍 사이에서 계산하였다. 유사한 패턴을 cfDNA의 단편화 상관 지도와 2명의 건강한 개체로부터의 전체 혈액 세포(WBC)로부터의 Hi-C 실험의 구획 사이에서 확인하였다(도 15A 및 도 15B). 도 15A는 Hi-C, 다중 cfDNA 샘플로부터의 공간 상관 단편 길이, 및 단일 cfDNA 샘플로부터의 공간 상관 단편 길이 분포로부터 생성된 상관 지도를 도시한다. 도 15B는 Hi-C(WBC), 다중 샘플 cfDNA, 및 단일 샘플 cfDNA로부터의 구획 A/B의 게놈 브라우저 트랙을 도시한다. 모든 조합은 염색체 14(chr14)로부터의 것이었다.

유사성의 정도를 정량하기 위하여, 피어슨 상관을 Hi-C 및 cfDNA로부터 추론된 염색질 조직화사이의 픽셀 수준에서 계산하였다(게놈 방식 평균 피어슨 r = 0.76, p < 2.2e-16) . Hi-C에 나타난 픽셀 수준 상관계수를 2명의 상이한 건강한 개체로부터의 복제물로부터 계산하였다. cfDNA에 나타난 픽셀 수준 상관계수(다중 샘플 도 15C 및 단일 샘플 도 15D)를 WBC 개체 2와 상관에 의해 계산하였다.

Hi-C 데이터에서 구획 A/B 및 cfDNA로부터 추론된 염색질 조직화를 추가로 콜링하였다. 구획 수준에서 Hi-C와 cfDNA로부터 추론된 염색질 조직화 사이의 더 높은 일치가 있었다(피어슨 r = 0.89, p < 2.2e-16). Hi-C로부터 콜링된 구획 A/B는 cfDNA로부터의 결과와 크게 중첩되었다(초기하 시험 p < 2.2e-16). 이러한 접근법은 cfHi-C로 지칭된다.

cfHi-C의 적용을 단일 샘플 수준으로 확장하기 위하여, 각각의 샘플에서 각각의 500-kb 빈을 더 작은 5-kb 하위빈으로 나누고, 콜모고로보-스미르노브(KS) 시험을 사용하여 각각의 쌍 500-kb 빈 사이의 단편화 점수 분포의 유사성을 측정하였다. KS 시험은 픽셀 및 구획 수준 둘 다에서 Hi-C와 cfHi-C 사이의 높은 상관을 추가로 확인하였다(도 16A 및 도 16B). NovaSeq에서 패턴화된 유세포 기술에 의해 유발된 가능한 내부 라이브러리 제조 편향 및 시퀀싱 편향을 제외하기 위하여, 알고리즘을 HiSeq 2000 플랫폼(BH01)에 의해 생성된 공개적으로 이용 가능한 외부 cfDNA 데이터세트를 사용하여 복제하였다. 건강한 cfDNA 샘플에서 유사한 패턴을 이러한 데이터세트를 사용하여 관찰하였다(도 15B).

서열 조성물에 의해 유발된 가능한 기술적 편향을 제외하기 위하여, 국소 가중 산점도 플롯 평활화(Locally Weighted Scatterplot Smoothing: LOWESS) 방법을 적용하여 평균 G+C% 값을 가진 각각의 빈에서 단편 길이를 정규화시켰다. G+C% 회귀 후, WBC에서 Hi-C와 다중 샘플 cfHi-C 사이의 높은 유사성이 관찰되었다(피어슨 상관 r = 0.57, p < 2.2e-16 도 17A 및 도 17B).

음성 대조군으로서, 120명의 개체로부터 1차 백혈구로부터의 게놈 DNA(gDNA)를 사용하여 동일한 단계를 반복하였다. 다시, G+C% 회귀 전 Hi-C와 gDNA 사이의 상대적으로 높은 유사성이 있었다(피어슨 상관 r = 0.40, p < 2.2e-16; 도 17C 및 도 17D). 그러나, gDNA에서 G+C%에 의한 정규화 후, Hi-C와 gDNA 사이의 낮은 잔존 유사성이 관찰되었고(피어슨 상관 r = 0.15, p < 2.2e-16; 도 17D), Hi-C-유사 블록 구조는 더 이상 관찰되지 않았다. 도 17E는 도 17A 내지 도 17D에 도시된 모든 염색체에 걸친 Hi-C(WBC, rep2)와의 픽셀 수준 상관(피어슨 및 스피어만)의 상자 그림을 도시한다.

2차원 공간에서 G+C% 및 맵핑 가능성의 효과를 설명하기 위하여, GBM 회귀 트리를 cfHi-C에 적용하였다. cfHi-C 행렬에 대한 각각의 픽셀에 있어서, 상호작용된 쌍 빈에서 2개의 G+C% 및 맵핑 가능성 값을 수득한 다음, cfHi-C 행렬의 각각의 픽셀에서 신호로부터의 G+C% 및 맵핑 가능성을 회귀시켰다. G+C%의 편향 및 맵핑 가능성의 회귀 후, WBC에서의 Hi-C와 다중- 샘플(피어슨 상관 r = 0.28, p < 2.2e-16, n_추정자 = 500; 도 18A) 및 단일 샘플 cfHi-C(피어슨 상관 r = 0.36, p < 2.2e-16, n_추정자 = 500; 도 18B) 둘 다 사이의 유의한 잔존 유사성이 관찰되었다.

gDNA를 사용하는 음성 대조군에서, WBC에서 Hi-C와 다중 샘플(피어슨 상관 r=0.009, p=0.0002; 도 18C) 및 단일 샘플 gDNA(피어슨 상관 r = -0.03, p < 2.2e-16; 도 18D) 둘 다 사이의 잔존 유사성은 모델 복합성의 동일한 범위에서 관찰되지 않았다. 추가로, cfDNA에서 각각의 쌍 빈에 있어서, 빈 중 하나를 동일한 G+C% 및 맵핑 가능성이 있는 또 다른 염색체 무작위 빈으로 교체하고, 공동단편화 점수를 재계산하였다. 모의된 cfHi-C 행렬에 대하여 동일한 GBM 회귀 트리 접근법을 사용하여, Hi-C와의 유의미하게 낮은 잔존 유사성이 모델 복합성의 동일한 범위에서 관찰되었다(피어슨 상관 r = 0.13, p < 2.2e-16; 도 18E).

모델이 G+C% 및 맵핑 가능성의 회귀 후 생물학적 신호를 보유하였다는 것을 증명하기 위하여, 동일한 회귀 트리 접근법을 또 다른 개체(rep1)로부터의 WBC Hi-C에 적용하였다. 높은 유사성이 복제물과 함께 여전히 관찰되었다(피어슨 상관 r = 0.53, p < 2.2e-16; 도 18F).

분석에 대한 모델 복합성 효과를 탐색하기 위하여, 회귀 트리를 상이한 모델 복합성과 함께 반복하였다(n_추정자). Hi-C와의 상관은 다중 샘플 cfHi-C, 단일 샘플 cfHi-C, 및 또 다른 개체로부터의 Hi-C를 사용하여 높은 모델 복합성을 가진 경우에 훨씬 제거하기 어려웠다. 현상은 음성 대조군 샘플, 예를 들면, 다중 샘플 gDNA, 단일 샘플 gDNA, 및 순열식 빈이 있는 cfHi-C에서는 일어나지 않았다.

다중 샘플 cfHi-C에서 관찰된 공동단편화 패턴이 시퀀싱 및 라이브러리 제조 동안 배취로 인한 것일 가능성을 제외하기 위하여, cfHi-C에서 각각의 쌍 빈에 대하여 개체에 걸쳐 무작위로 셔플링되었다. 예상되는 바와 같이, Hi-C와의 상관은 관찰되지 않았다(피어슨 상관 r = -0.0002, p = 0.74; 도 19A 및 도 19D). 동일한 배취 내의 샘플(18개의 샘플)로부터의 다중 샘플 cfHi-C 행렬을 생성하였다. 높은 상관은 픽셀 수준(피어슨 상관 r = 0.60, p < 2.2e-16; 도 19B 및 도 19D)에서 Hi-C 및 동일한 크기(피어슨 상관 r = 0.63, p < 2.2e-16; 도 19C 및 도 19D)로 다운샘플링된 샘플에서 관찰되었다.

이러한 접근법의 견고성을 시험하기 위하여, 상이한 샘플 크기에서 데이터를 다중 샘플 cfHi-C에 대하여 무작위 하위샘플링하였다. 10의 샘플 크기로, 픽셀 수준에서 대략 0.55 및 구획 수준에서 0.7의 WBC Hi-C와의 상관계수가 달성되었다. 80 이상의 샘플 크기에 의한 포화가 달성되었다(도 20A 내지 도 20D).

빈 크기의 효과를 이해하기 위하여, 동일한 과정을 상이한 빈 크기에 대하여 반복하였다. 상이한 해상도에서 Hi-C 실험과의 높은 일치가 일관되게 관찰되었다(도 21A 내지 도 21H).

단일 샘플 cfHi-C에서 시퀀싱 깊이의 효과를 설명하기 위하여, 단편 수를 사이한 크기로 다운샘플링하였다. 심지어 ~0.7X 커버리지로, 픽셀 수준에서 대략 0.45 및 구획 수준에서 0.7의 WBC Hi-C와의 상관계수가 여전히 달성되었다(도 22A 및 도 22B).

관찰된 cfHi-C 신호가 상이한 병리 조건에서 다양한지를 결정하기 위하여, 추가의 WGS를 45명의 결장직장암, 48명의 폐암, 및 19명의 흑색종 암 환자로부터 수득된 cfDNA의 유사한 시퀀싱 깊이에서 생성하였다. 모든 cfHi-C 샘플에 걸친 구획 수준에서 고유치를 표준화한 후, 주성분 분석(PCA)을 모든 건강한 샘플 및 높은 종양 분획(종양 분획 >= 0.2, ichorCNA에 의해 추정됨)을 함유한 선택된 암 샘플에 적용하였다. 심지어 500-kb 해상도에서도, 건강한 샘플과 상이한 유형의 암 샘플 사이에서 분리가 관찰되었다(도 23A). 반-감독 차원 축소 방법, 정규 상관 분석(CCA)을 추가로 적용하여, 건강한 샘플과 암 샘플 사이에서 명확한 분리가 관찰되었다(도 23B 내지 도 23F).

cfDNA를 통해 측정된 생체내 염색질 조직화가 건강한 개체 및 암이 있는 환자에서 cfDNA에 기여하는 세포 유형을 추론하는데 사용될 수 있는지의 여부를 결정하기 위하여, Hi-C 데이터에서 관찰된 고유치의 진폭을 염색체에서 개방/폐쇄의 진폭으로 상관하였다. DNase-seq의 신호 강도와 Hi-C 구획에서의 고유치 사이의 유의미하게 높은 상관이 GM12878로부터 500-kb 해상도로 관찰되었다(피어슨 상관 r = 0.8, p < 2.2e-16; 도 24). 이러한 관찰은 구획 수준에서 고유치를 염색체의 개방성을 정량하는데 추가로 사용할 수 있다는 것을 제시하였다.

조직 기원 분석에 대한 참조 Hi-C 패널을 생성하기 위하여, 18개의 상이한 세포 유형으로부터 Hi-C 데이터를 상이한 병리학적 및 건강한 조건으로부터 균일하게 처리하였다. 상관 패턴이 세포-특이적인지의 여부를 결정하기 위하여, 인시츄 Hi-C 데이터를 1,960,000,000개의 쌍 리드 및 1,060,000,000개의 고품질 접촉을 가진 호중구로부터 생성하였다(맵핑 품질 점수 > 30). 참조 Hi-C 패널로부터 식별된 세포 유형 특이적 구획에서 변위치-정규화 고유치를 사용하여, 대략 80% cfDNA를 백혈구의 상이한 유형으로부터 검출되었고, 대부분의 cfDNA는 cfHi-C에서 암 세포로부터 검출되지 않았다(도 25A 내지 도 25C). 건강한 샘플과 대조적으로, 관련 세포 유형으로부터의 암 구성원의 증가된 분획은 cfHi-C를 사용하여 결장직장암, 폐암, 및 흑색종 샘플에서 관찰되었다(도 25A 및 도 25B).

라이브러리 제조 및 시퀀싱 동안 가능한 인공물을 제외하기 위하여, 과정을 건강한 개체, 결장직장 암, 편평상피 세포 폐암, 소세포 폐 선암종, 및 유방암 샘플로부터의 공개적으로 이용 가능한 cfDNA WGS 데이터를 사용하여 복제하였다. 유사한 결과가 관찰되었다(도 25A 및 도 25B).

접근법의 정확도를 정량하기 위하여, cfHi-C에 의해 추정된 종양 분획을 ichorCNA에 의해 추정된 것과 비교하였다. ichorCNA는 cfDNA에서 카피 수 변이(CNV)를 사용하는 커버리지에 의한 종양 분획을 추정하는 직교 방법이다. 유사한 낮은 종양 분획은 건강한 개체에서 관찰되고(종양 분획 중앙 = 0.00, 평균 = 0.02; 도 25C), ichorCNA와의 유의한 높은 일치가 상이한 암 환자에서 관찰되었다(도 26). 후기 암으로부터 교란되는 CNV를 피하기 위하여, 조직 기원 분석에 대하여 임의의 유의한 CNV 신호를 가진 게놈 영역을 배제하였다. 결과는 여전히 후기 암 샘플의 배제 전의 결과와 크게 동일하였다.

긴-범위인 경우, cfDNA에서 관찰된 공간 상관 단편화 패턴은 후생적 풍경에 의해 주로 영향을 받고, 유사한 2차원 Hi-C-유사 패턴은 상이한 후생적 신호와 함께 관찰되었다. 단일 샘플 수준에서 이러한 가설을 시험하기 위하여, 변형된 KS 시험을 사용하여 GM12878로부터의 상이한 후생적 신호에서 쌍 빈 사이의 유사성을 결정하였다. 높은 일치는 DNase-seq, 전체 게놈 바이설파이트 시퀀싱(WGBS)으로부터의 메틸화 수준, H3K4me1 ChIP-seq, 및 H3K4me2 ChIP-seq를 사용하는 동일한 세포 유형으로부터의 Hi-C 실험에서 관찰되었다. 이러한 관찰은 이들 후생적 표시로부터 추론된 "개별 구획"이 뉘앙스 조직 기원 분석을 수행하는데 포괄적인 참조 패널이다라는 것을 제시한다.

결론적으로, 이들 분석은 상이한 임상적 조건에 있어서 생체내 염색질 조직화 및 세포 유형 조성물의 길이 변화를 모니터링하는 바이오마커로서 cfDNA의 사용 가능성을 증명한다.

D. 실시예 4: 결장직장암, 유방암, 췌장암, 또는 간암의 검출

이 실시예는 대상체로부터 수득된 cfDNA 데이터를 분석하여 (암(예를 들면, 결장직장암, 유방암, 간암 또는 췌장암)을 가진 대상체의 진단의 출력을 생성하는) 인공 지능 기반의 접근법을 사용하여 예측 부석을 수행하는 것을 기재한다.

후행 인간 혈장 샘플을 결장직장암(CRC)으로 진단된 937명의 환자, 유방암으로 진단된 116명의 환자, 간암으로 진단된 26명의 환자, 및 췌장암으로 진단된 76명의 환자로부터 수득하였다. 추가로, 605명의 대조군 샘플의 세트를 결장경검사가 음성으로 확인된 127명 중 현재 암 진단이 없는 (하지만 가능하게는 다른 동반질병 또는 진단되지 않은 암을 가진) 환자로부터 수득하였다. 전체적으로, 남부 및 북부 유럽 및 미국으로부터 11개의 기관 및 상업적 바이오뱅크로부터 샘플을 수집하였다. 모든 샘플을 비식별화하였다.

CRC 모델에 대한 대조군 샘플은 간 대조군 샘플을 제외한 모든 샘플을 포함한다(n= 524). 유방암 모델에서 대조군 샘플(n = 123)은 유방암 샘플에 기여하는 동일한 기관으로부터의 샘플을 포함하였다. 간암 샘플은 25개의 매칭된 대조군 샘플을 가진 사례 대조군 연구로부터 기원하고; 대조군 샘플은 실제로 HBV 양성이지만 암에는 음성이다. 췌장암 샘플 및 상응하는 대조군은 66개의 대조군의 단일 기관으로부터 수득하고; 대조군 샘플 중 45개는 췌장염, CBD 결석, 양성 협착, 위낭포 등을 포함하는 일부 비암성 병리를 갖는다.

각각의 환자의 연령, 성별, 및 암 단계(이용 가능한 경우)는 각각의 샘플로부터 수득되었다. 각각의 환자로부터 수집된 혈장 샘플을 -80℃에서 저장하고, 사용 전에 해동하였다.

무세포 DNA를 제조사의 설명서에 따라 MagMAX 무세포 DNA 단리 키트(Applied Biosystems)를 사용하여 250㎕ 혈장(샘플 추적을 위하여 고유한 합성 dsDNA 단편으로 스파이킹함)으로부터 추출하였다. 중합효소 연쇄 반응(PCR) 증폭 및 고유한 분자 식별자(UMI)를 포함하는 NEBNext Ultra II DNA 라이브러리 프렙 키트(New England Biolabs)를 사용하여 쌍 말단의 시퀀싱 라이브러리를 제조하고, 최소 400,000,000개의 리드(중앙 = 636,000,000개의 리드)로 2×51 염기 쌍에서 다중 S2 또는 S4 유동세포에 걸친 이중 인덱스로 이루미나(Illumina) NovaSeq 6000 시퀀싱 시스템에서 시퀀싱하였고, 여기서 최소 4,000,000개의 리드(중앙 = 28,000,000개의 리드)에 시퀀싱된 간암 샘플은 제외되었다.

수득된 시퀀싱 리드를 were 역다중화하고, 어댑터 트리밍하고, 버로우스 휠러(Burrows Wheeler) 정렬기(BWA-MEM 0.7.15)를 사용하여 인간 참조 게놈(GRCh38 with decoys, alt contigs, 및 HLA contigs)에 대하여 정렬하였다. 단편 종점 또는 존재하는 경우, 고유한 분자 식별자(UMI)를 사용하여 PCR 복제본 단편을 제거하였다.

간암 실험을 제외한 모든 샘플에 있어서, 시퀀싱 데이터를 품질에 대하여 확인하고, 임의의 하기 조건을 충족시키는 경우, 추가의 분석으로부터 배제하였다: 약 10 초과의 AT 드롭아웃(픽카드(Piccard) 2.10.5를 통해 컴퓨팅됨), 약 2 초과의 GC 드롭아웃(픽카드 2.10.5를 통해 컴퓨팅됨), 또는 약 10X 미만의 시퀀싱 깊이. 추가로, 주석이 달린 성별과 일치하지 않는 성염색체에서의 상대적인 수가 있는 샘플은 추가의 처리를 위하여 제거하고 삭제하였다. 추가로, 오염된 것으로 의심되는(예를 들면, 약 0.99 미만의 예상된 대립 분획, 예상되지 않은 유전형 콜, 또는 오염된 음성 대조군이 있는 배취로 인하여) 임의의 샘플은 데이터 세트에 포함되기 전에 수동으로 검사하였다. 게놈의 각각의 추정 단백질-코딩 영역에 대하여 정렬된 단편의 수를 계수함으로써 cfDNA "프로파일"을 각각의 샘플에 대하여 생성하였다. 이러한 유형의 데이터 표시는 적어도 2개의 유형의 신호를 포획할 수 있다: (1) 체세포 CNV(여기서 유전자 영역은 임의의 일정한 대규모 증폭 또는 결실의 포획을 가능하게 하는 게놈의 샘플링을 제공함); 및 (2) 커버리지에서 관찰된 변화를 유발하는 가변적 뉴클레오솜 보호에 의한 cfDNA에 나타난 면역계에서 후생적 변화.

단백질-코딩 유전자 영역(인트론과 엑손 둘 다를 포함하는 게놈 배위 범위를 가진)을 추정적으로 포함하는 인간 게놈의 기능적 영역의 세트는 시퀀싱 데이터에 주석이 달려 있다. 단백질-인코딩 유전자 영역("유전자" 영역)에 대한 주석은 종합적인 인간 발현 서열(CHESS) 프로젝트(vl.0)로부터 수득하였다. 특징 세트를 주석이 달린 인간 게놈 영역으로부터 생성하였고, 이는 게놈 영역의 세트에 상응하는 cfDNA 단편의 수의 벡터를 포함한다. 특징 세트는 적어도 하나의 염기에 의해 주석이 달린 유전자 영역 각각과 중첩된 적어도 60의 맵핑 품질을 가진 cfDNA 단편의 수를 계수하고, 이로써 각각의 샘플에 대한 "유전자 특징" 세트(D = 24,152, 1352 Mb를 커버함)를 제조함으로써 수득하였다.

수의 특징화된 벡터를 하기 변형을 통해 전처리하였다. 첫번째로, 성염색체에 상응하는 cfDNA 단편의 수를 제거하였다(오직 오토좀만 유지하였다). 두번째로, 불량한 품질 게놈 빈에 상응하는 cfDNA 단편의 수를 제거하였다. 세번째로, 특징을 이들의 길이에 대하여 정규화하였다. 불량한 품질 게놈 빈은 약 0.75 미만의 빈에 걸친 평균 맵핑 가능성, 약 30% 미만 또는 약 70% 초과의 GC 퍼센트, 또는 약 10% 초과의 참조-게놈 N 내용물 중 임의의 것을 가짐으로써 식별될 수 있다. 네번째로, 길이 정규화를 cfDNA 단편의 수에 대하여 수행하였다. 샘플당 깊이 정규화에 있어서, 트리밍된 평균은 샘플에서 빈에 걸친 수의 평균을 순환시키기 전에 빈의 하위 및 상위 10 퍼센트를 제거함으로써 생성되고, 트리밍된 평균은 계수 인자로서 사용되었다. GC 편향을 해결하는 Loess 회귀 보정을 사용하여 GC 보정을 cIDNA 단편의 수에 적용하였다. 이들 필터링 변환을 위하여, 유전자 특징의 수득된 벡터는 1172 Mb를 커버하는 차원수 17,582의 특징을 가졌다.

교차 검증 과정을 기계 학습 기술의 부분으로서 수행하여 신규한, 보지 못한 데이터를 선행적으로 수집하는 모델 성능의 근사치를 수득하였다. 이러한 근사치는 데이터의 하위세트에 대한 모델을 순차적으로 훈련하고, 훈련 동안 모델에서 보이지 않은 데이터의 보류된 세트에 대하여 이를 시험함으로써 수득하였다. k-폴드 교차 검증 과정을 적용할 수 있고, 이는 k 그룹(또는 폴드)로 모든 데이터를 무작위로 계측화하고, 다른 폴드에 맞춰진 모델에 대하여 각각의 그룹을 시험하기 위하여 콜링된다. 이러한 접근법은 일반화 성능을 추정하는 흔하고 추적 가능한 방식일 수 있다. 그러나, 공지된 공변이 있는 부류 표지의 임의의 교란이 존재하는 경우, 이러한 "k-폴드" 교차 검증 도식은 신규한 데이터세트에 일반화되지 않을 수 있는 과장된 성능 문제를 얻을 수 있다. 기계는 배취 및 연관된 표지 분포를 단순하게 식별하는 것을 학습할 수 있다. 이는 분류기가 부류 표지와 훈련 세트 내의 교란 인자 사이의 잘못된 연관성을 학습하고 시험 세트에 부정확하게 적용되기 때문에, 판독오류 결과 및 불량한 일반화를 야기할 수 있다. 교차 검증 성능은 시험 세트가 동일한 교란인자를 가질 수 있기 때문에 일반과 성능을 과추정될 수 있지만, 교란 인자가 없는 선행 세트는 작동하지 않을 수 있고, 이는 큰 일반화 오류를 야기한다.

이러한 문제는 "k-배취" 검증을 수행함으로써 완화될 수 있고, 이는 시험 세트가 교란 인자의 오직 보이지 않는 요소를 함유하도록 하는 것을 충족시킨다. 이러한 "k-배취" 검증은 상이한 시간점에서 처리되는 데이터의 일반화 성능의 더 견고한 평가를 제공할 수 있다. 이러한 효과는 시험 세트가 교란 인자의 보이지 않는 요소만을 함유하도록 하는 것을 충족시키는 검증을 수행함으로써 완화될 수 있다. 단기간 효과는 동일한 배취(예를 들면, 특이적 GC 편향 프로파일)에 대하여 처리된 샘플과 공동 발생하는 것을 관찰되었기 때문에, 교차 검증은 무작위 계층화 대신에 배취에 의한 계층화를 포함할 수 있다. 즉, 시험 세트에서 임의의 샘플은 훈련에서도 보이는 배취로부터 나오지 않을 수 있다. 이러한 접근법은 "k-배취"로 지칭될 수 잇고, 이러한 방식의 검증은 신규한 배취에 대한 데이터에 대하여 일반화 선능의 더 견고한 평가를 제공할 수 있다.

추가로, 샘플 수집 및/또는 처리 프로토콜은 또한 편향의 공급원을 나타낼 수 있다. 프로토콜에서의 차이는 데이터에서 주요 변이를 야기할 수 있다. 이러한 변이는 샘플이 기원된 기관에 의한 샘플의 그룹화에 의해 거칠게 포획될 수 있다. 이를 k-배취로 해결하기 위하여, 훈련에서 기관으로부터의 모든 샘플의 부류 표지는 균형이 맞춰질 수 있다. 각각의 폴드의 훈련 세트에서 각각의 공급 기관에 있어서, 다운샘플링을 수행하여 그 기관으로부터 기원한 대조군에 대한 사례의 매칭된 비를 달성할 수 있다. 교차 검증은 이러한 다운샘플링이 데이터를 훈련하는데 적용되는 경우에 균형이 잡히는 것으로 보일 수 있고, 이러한 검증 접근법은 "균형 k-배취"로 지칭된다. 추가로, k-배취 교차 검증은 배취 편향 내의 조절을 위하여 잘 작용하지만, 연장된 시간 기간(예를 들면, 수개월, 1년, 2년 등) 동안 샘플이 처리됨에 따라 발생하는 공정 드리프트가 있을 수 있다. 시간 연속 분할과 유사하게, 배취는 시간으로 이들을 구분한 후 나뉠 수 있다. 샘플의 순차는 여전히 배취에 의해 결정되기 때문에, 이러한 검증 접근법은 "순차 k-배취"로 지칭될 수 있다.

특징 세트를 처리한 후, 교차 검증의 모든 4개의 전략을 데이터에 대하여 수행하였다("k-폴드," "k-배취," "균형 k-배취," "순차 k-배취"). 모든 교차 검증 전략을 사용하여 각각의 샘플을 정확하게 1회 시험하는 모델을 훈련한다. 이러한 접근법은 상이한 교차 검증 기술에 의해 훈련된 모델의 세트의 직접적인 비교를 허용한다. 완벽한 데이터세트 및 완벽한 기계를 가진 이상향에서, 교차 검증의 모든 형태는 동일한 결과를 수득할 수 있다.

도 28A는 스키마 포크-폴드, k-배취, 균형 k-배취, 및 순차 k배취의 훈련을 설명한다. 각각의 사각형은 단일 샘플을 나타내고, 채워진 원형은 부류 표지를 나타내고, 테두리 색은 기관과 같은 교란 인자를 나타내고, 수는 배취 처리를 나타낸다. 샘플의 유보된 시험 세트는 점선에 의해 훈련 세트와 분리된다.

예로서, 제도적 다운샘플링 도식이 있는 k-배취를 CRC 분류기 훈련에 적용할 수 있다(도 27A). 훈련 세트는 각각의 기관으로부터 후행 환자의 세트에 걸쳐 균형이 맞춰질 수 있다. 폴드는 상기 논의된 바와 같은 시퀀싱 배취의 관점에서 건설될 수 있고, 여기서 배취의 10%는 시험 세트로부터 무작위로 유보되고, 훈련은 배취의 남은 90%에 대하여 수행된다. 각각의 폴드에서, 전분석 처리 과정에서 잠재적인 차이로부터 생겨난 교란은 입력 훈련 샘플을 다운샘플링함으로써 제거되어 각각의 샘플 공급원에 걸쳐 동일한 부류-균형을 보장할 수 있다. 다시 말해서, 주어진 샘플 공급원에 있어서, 훈련 샘플의 70%가 CRC 샘플인 경우, 이러한 공급 기관으로부터의 CRC 예는 다운샘플링되어 CRC와 대조군 예 사이의 50% 부류 분할을 달성한다.

모델 훈련에 있어서, 일련의 변형은 훈련 데이터에 핏팅되고, 시험 데이터에 적용되었다. 아웃라이어(예를 들면, 특징에 있어서, 훈련 데이터의 99번째 백분위수를 초과하는 임의의 값)는 관찰된 특징값의 99번째 백분위수로 교체하였다. 데이터를 특징에 대하여 차감하고 표준 편차로 나누어 표준화시켰다. 입력 특징 벡터의 차원수를 감소시키는 방법의 표적화된 세트를 비교하였고, 이는 단일 값 분해를 입력 데이터에 대하여 수행하고, 상위 1500개의 구성원으로 절단하거나; 주성분 분석을 수행하거나(예를 들면, 상위 1500개의 구성원으로 절단하는 것과 유사함); 차원 축소 단계를 적용하지 않고 표준화된 특징을 분류기에 직접적으로 통과시키는 것을 포함한다. 변형된 데이터를 분류기의 표적화된 세트로 입력으로서 제공하였고, 이는 로지스틱 회귀 및 서포트 벡터 머신(SVM)을 포함한다. 훈련 데이터의 20%의 내부 검증 세트를 사용하는 무작위 검색을 각각의 폴드에서 분류기 하이퍼파라미터를 최적화시키는데 사용하고, 이는 조직화 상수 및 (방사상 시초 함수 SVM에 있어서) 커널 대역폭을 포함한다.

시험 폴드에 걸친 평균 AUC는 표준 편차와 함께 기록된다. 관찰된 민감도 및 특이도는 그 시험 폴드의 IU 샘플 내의 85% 특이도에 상응하는 각각의 한계점 세트를 가진 시험 폴드에 걸친 평균으로서 보고되었다. 민감도 및 AUC에 대한 신뢰 구간이 재샘플링된 부스트스트랩핑과 함께 수득되었다.

분류에 대한 개별적인 특징의 영향을 이해하기 위하여, 사전 차원 축소 없이 LI 로지스틱 회귀 조직화(LASSO 사용)의 수준에 대하여 스윕을 수행하였다. LI 조직화는 이들의 규모의 절대값에 의해 로지스틱 회귀 모델 내의 가중 계수(weight coefficient)에 페널티를 부과하고, 희박한 특징 세트의 식별을 허용한다. 분류 성능이 가장 우수한 분류 파이프파인 부류의 수행에 의한 성능에 가까운 조직화의 수준을 식별하였다. 중요한 희박한 유전자 특징의 세트는 다중 실험에 걸친 다중 폴드에 대한 공통 유전자를 삽입함으로써 식별하였다. 중요한 희박한 특징의 세트에 있어서, CRC 및 대조군 샘플의 2개의 1차 부류 분포에 걸친 처리된 리드 수의 분포를 시험하고, 각각의 유전자 영역에서 그 단편(IchorCNA로 지칭됨)에서 카피 수의 분포와 비교하였다. 2개의 집단 사이의 카피수의 분포에서 유의한 유전자는 카피 수 변이체(CNV)의 지표일 수 있고, 유의미하지 않은 차이는 다른 생물학적 메커니즘을 나타낼 수 있다.

쌍 말단 전체 게놈 시퀀싱(WGS)을 937명의 대조군 대상체 및 524명의 CRC로 진단된 환자로부터 수득된 혈장 DNA 샘플에 수행하였다. 전체로서 집단을 성별을 대략 동일하게 나누었다(54% 여성, 46% 남성). CRC 환자 집단은 표 6에 나타낸 바와 같이 85% 초기 단계(단계 I 및 단계 II) 샘플을 포함하였다. 모든 보고된 분석에서, 모델은 모든 이용 가능한 샘플에 대하여 훈련되었고, 상업적으로 이용 가능한 CRC 스크리닝 시험에서 시험된 의도된 사용 집단과 일치시키기 위하여 성능 결과는 50 내지 84세 범위의 연령의 환자로부터의 샘플로 제한되었다. 결과 대조군 샘플 집단은 암 샘플 집단(중앙 연령= 67, IQR = 60-74세, p < 0.01, 만-휘트니(Mann-Whitney) U-시험)보다 더 젊게(중앙 연령= 61세, 사분위수 [IQR] = 56-67세) 편향되었다.

모델 성능의 일반화를 평가하기 위하여 k-폴드 교차 검증 과정을 시험하였다. k = 10 폴드의 경우, 하이퍼파라미터의 무작위 검색 후의 상위 방법은 서포트 벡터 머신(SVM)으로의 전체 훈련 세트에 대해서 주성분 분석(PCA)이었다. 다른 방법은 또한 이러한 모델에서 오류 경계 내에 있었고, 대안적인 예에서 사용될 수 있다. 이러한 방법은 표 7에 나타낸 바와 같이 0.87의 평균 곡선하면적(AUC)(폴드에 걸쳐 0.026 표준 편차) 및 IU 샘플의 85% 특이도에서 77%의 평균 민감도(폴드에 걸쳐 0.059 표준 편차)를 달성하였다.

신규한 데이터에 대한 일반화를 평가하기 위하여, 가능한 교란 인자를 탐색하는 다양한 검증 도식이 평가되었고(도 27B에 도시된 바와 같음), 이는 k-배취, 균형 k-배취 및 시간선 k-배취를 포함하고, 이는 각각 가능한 단기, 제도적, 또는 장기 편향에 대한 대조군에 대한 다양한 방식이다. 이러한 검증 형태는 이전에 기재된 k-폴드 실험에서 선택된 동일한 방법으로 수행하였다. 폴드의 수(예를 들면, k=10)는 모든 과정에 걸쳐 일정하다. 먼저, 특히 배취의 수가 낮은 경우, 유의한 교란을 유발할 수 있는 배취 효과를 평가하였다. 동일한 PCA 방법 및 SVM에 대한 무작위 검색으로, k-배취 교차 검증은 0.84의 평균 AUC(폴드에 걸친 표준 편차 0.33)와 85% 특이도에서 70%의 평균 민감도를 달성하였고(표 7), 이는 k-폴드 성능과 유사하다.

상이한 기관으로부터의 후행 샘플은 상이한 사전분석 처리 및 저장 조건의 대상이 될 수 있기 때문에, 균형 k-폴드 검증이 또한 평가되었고, 여기서 기관은 훈련 데이터에서 그 기관에 있어서 비암에 대한 암의 균일한 분포에 대하여 샘플링된다(예를 들면, 기관 A는 훈련 데이터세트에서 암 샘플 및 비암 샘플의 각각의 수를 갖는다). 심지어 훈련 데이터가 이러한 접근법에 의해 유의미하게 감소하였음에도 불구하고(k-폴드 또는 k-배취의 경우 폴드당 1314.9 샘플과 비교하여, 훈련에서 폴드당 평균 654.6 샘플), 이러한 과정은 여전히 0.83의 평균 AUC(폴드에 걸친 표준 편차 0.018)와 85% 특이도에서 66%의 평균 민감도를 달성하였다(표 7).

최종적으로, 더 긴 기간 공정 드리프트를 평가하는 접근법을 시간선 k배취를 사용하여 수행하였고, 이는 공정 데이터에 의한 샘플의 분할 및 동일한 폴드에서 서로 가까운 시간에 처리된 샘플의 그룹화에 의해 수행하였다. 이러한 전략을 사용하여, 훈련 일자의 범위에서 기술적 공정에 대하여 학습된 임의의 정보는 시험 일자에 일반화되지 않을 수 있다. 이러한 기술은 0.81의 평균 AUC(폴드에 걸친 표준 편차 0.10)와 85% 특이도에서 62%의 평균 민감도를 달성하였다(표 7).

수득된 모델을 이해하기 시작하기 위하여, 성능을 각각의 검증 방법에 대하여, 데이터 내의 다양한 집단에 대하여 분석하였다. 도 28A는 암 검출을 위하여 평가된 검증 접근법(예를 들면, k-폴드, k-배취, 균형 k-배취, 및 순차 k-배취)에 대한 수신기 동작 특성(ROC) 곡선의 예를 도시한다. 각각의 검증 방법에서, 일정한 민감도가 단계 I 내지 III(신뢰 구간 내에서)에 걸쳐 달성되었고, 단계 IV 샘플은 정확하게 일정하게 분류되었다(도 28B, 평가된 모든 검증 접근법에 걸친 CRC 단계의 민감도를 보여줌). 이는 후기 암이 관찰된 CNV의 큰 수로 인하여 상대적으로 용이하게 구별될 수 있기 때문에 놀라운 일이 아닐 수 있다. 추가로, 성능은 전체 AUC의 일반 경향에 대한 검증 유형에 대하여 유사하게 관찰되었다. 그 다음, 종양 분획을 임상적 단계 구분으로부터 별개로 분석하였다. 종양 분획을 추정하기 위하여, 종양 분획 및 CNV 세분화를 반복하여 추정하는 숨겨진 마르코브(Markov) 모델(IchorCNA)을 사용하였다. 성능을 종양 분획의 다양한 빈에서 평가하고, 여기서 암 및 대조군 샘플은 약 2% 미만의 추정된 종양 분획과 중접되는 것이 확인되었다(도 28C). 종양 분획 값 단독이 암을 예측하는데 사용되는 경우, 63%의 AUC는 IU 집단에 대하여 달성될 수 있고, 이는 모든 검증 방법보다 낮다. 다시, 일정한 성능은 종양 분획의 범위에 걸쳐 교차 검증 과정에서 관찰되었고(도 28C, 평가된 모든 검증 접근법에 걸친 IchorCNA-추정된 종양 분획에 의한 AUC를 보여줌), 매우 높은 종양 분획(예를 들면, 표지 교체가 가능할 수 있음)을 가진 대조군 샘플이 적은 수가 존재하는 경우, 높은 종양 분획 빈(약 6% 초과)은 제외된다.

연령은 공지된 교란 인자일 수 있고, 부류의 성별 균형은 고르지 않기 때문에(표 6), 데이터가 이용 가능한 샘플 중에서 단지 연령 및 성별에 대하여 분류기의 암을 예측하는 능력이 평가되었고, 결과 성능은 0.75의 평균 AUC이고, 이는 암이 노화 관련 질환이고 우리의 데이터의 집단을 반영한다는 일반적인 개념을 확인해준다. AUC 성능은 더 많은 연령 밴드에서 증가한다(도 28D, 평가된 모든 검증 접근법에 대한 연령 빈에 의한 AUC를 보여줌). 여기서 성능 특성에서 다양성이 관찰되고, 이는 이들 폴드에서 연령 집단의 분포가 매우 상이하다는 것을 제시한다.

성별에 대한 성능은 상이한 검증에 대하여 차이가 적거나 없는 검증 유형과 유사하다(도 28E, 평가된 모든 검증 접근법에 걸친 성별에 의한 AUC를 보여줌). 여성 샘플에 대한 성능은 남성 샘플의 것을 초과하는데, 이러한 관찰은 데이터세트에서 더 많은 여성 샘플의 인공물이 있을 수 있고, 따라서 이는 연령이 성별보다 더 강한 교란 인자라는 것을 제시한다.

어느 입력 특징이 분류기의 암 부류를 예측하는 능력에 기여하는지의 여부를 추정하기 위하여, 포획 희박한 신호를 포획하도록 설계된 모델이 훈련되었다. k-폴드 교차 검증을 사용하여, 조직화 계수에 대한 스윕이 수행되었고, 실험의 초기 세트의 것들과 유사한 성능을 가진 5개의 희박한 모델이 발견되었다. 5개의 모델에 대한 LI 조직화 강도의 역전, C는 0.022 내지 0.071이었고, 5개의 모델에 대한 평균 AUC는 0.80 내지 0.82 범위였다. 특징의 세트는 학습된 분류기의 7개 이상의 폴드에 걸친 0보다 큰 절대값을 가진 계수의 학습된 가중치에 상응하는 것으로 식별되었다. 5개의 실험의 삽입은 표 8에 열거된 29개의 유전자를 수득하였고, 이는 암-검출 분류기에 대한 "매우 중요한 특징"으로 간주될 수 있다.

표 8의 특징 중에서, 거의 모두는 CRC 및 건강한 샘플 사이의 일변량 유의한 차이(p < 0.05, 본페로니(Bonferroni) 상관됨)를 가졌다. 추가로, 카피 수 분포는 암과 대조군 샘플 사이의 이들 유전자 부위 각각에서 비교되었고, 이는 IchorCNA로 불린다. 매우 중요한 특징 중에서, 오직 10개만이 CNV에서 유의한 차이를 가졌고, 일변량 차이를 가진 유의한 특징과 매칭되었다(p < 0.05, 본페로니 상관됨). 더 유의한 CNV p-값은 그 유전자 영역에 대하여 암과 대조군 샘플 사이의 CNV 차이를 나타낼 수 있다. 이들 10개의 부위는 CNV를 매우 개선시킬 수 있고, 다른 부위는 다른 변화를 개선시킬 수 있다. 이들 변화는 IchorCNA에 의해 검출되지 않은 CNV에서의 변화, 또는 다른 생물학적 메커니즘의 결과인 변화일 수 있다. 일부 유전자는 CRC-관련 유전자 너머의 마커의 지표일 수 있고, 이는 면역 유전자가 매우 중요한 특징의 목록에서 나타나기 때문이다.

이러한 매우 중요한 특징을 사용하는 예로서, 분류기는 대상체에서 암(예를 들면, 결장직장암, 유방암, 췌장암, 또는 간암)을 검출하기 위하여 매우 중요한 특징의 그룹의 적어도 약 10개의 개별 영역, 적어도 약 20개의 개별 영역, 적어도 약 30개의 개별 영역, 적어도 약 40개의 개별 영역, 적어도 약 50개의 개별 영역, 적어도 약 60개의 개별 영역, 적어도 약 70개의 개별 영역, 또는 적어도 약 75개의 개별 영역을 포함하는 복수의 게놈 영역 각각에서 대상체의 샘플로부터 수득된 cfNA 시퀀싱 리드의 정량적 측정(예를 들면, 수)을 분석하도록 프래그래밍되거나 구성될 수 있다. CRC 검출을 평가하는 것 이외에, 동일한 시퀀싱 프로토콜을 기관 매칭된 대조군 환자와 함께 췌장암(n = 126), 유방암(n = 116) 및 간암(n = 26)으로 진단된 환자로부터 수득된 혈장 cIDNA 샘플에 대하여 평가되었다(도 29A, 29B, 및 29C, 각각 유방암, 간암, 및 췌장암에 대한 교차 검증(ROC 곡선)에서 분류 성능을 보여줌). 또한 유방암 샘플의 대다수는 초기 단계 암을 향해 편향되었다: 유방암 샘플의 73%는 단계 I 또는 단계 II이었다(1.7% 유방암 샘플은 단계 정보가 부족하였다). 모든 간암 및 췌장암 샘플은 단계 정보가 부족하였다. 폴드 수를 데이터 크기에 맞추는 것을 제외하고 상기 기재된 바와 동일한 분류 체계가 적용되었다(표 9). 결과가 낮음에도 불구하고, 이들은 이들 실험에서 샘플의 주어진 더 적은 수에 대하여 불합리한 것으로 나타난다. 도 30은 부류에 의한 추정된 종양 분획이 분포를 보여주고, 도 31A 및 도 31B는 각각의 폴드의 훈련 세트가 각각 샘플의 퍼센트 또는 배취의 퍼센트로서 다운샘플링되는 경우, CRC 분류의 AUC 성능을 도시한다. 성능에서 유사한 낙하는 데이터가 CRC 실험에서와 유사한 수로 훈련되는 경우에 관찰된다. 도 32는 높은 종양 분획을 가진 건강한 샘플의 예를 도시한다.

결과는 혈액으로부터 초기 단계(예를 들면, 단계 I 및 단계 II) 암 검출의 우수한 성능을 증명한다. 기계 학습 기술은 샘플 공급원의 국제 풀로부터 초기 단계 CRC cfDNA 샘플의 코호트의 큰 수집물에 적용되어 엄밀히 정의된 샘플 평가에서 85%의 특이도에서 약 62-77%의 민감도를 가진, 환자의 cfDNA 프로파일과 암 진단 사이의 관계를 효과적으로 학습하였다. 추가로, 예측 성능의 유사한 수준은 동일한 기계 학습 기술이 유방암, 췌장암, 및 간암을 가진 환자로부터 수득된 cfDNA 샘플의 코호트에 적용된 경우에 달성되었고, 민감도는 85%의 특이도에서 47% 내지 64% 범위이다. 상당히 많은 수의 샘플이 이들 분석에 포함되어 있음에도 불구하고, 분류 성능은 추가의 샘플과 함께 계속하여 증가할 수 있고, 이는 추가의 방법론적 진행 없이, 암 검출 성능이 추가의 샘플 수집물에 의해 개선되는 것이 예상될 수 있다는 것을 제시한다. 결과는 또한 이전 연구와 일치하고, 몇몇 식별된 중요한 특징은 암과 추정 관계를 갖는다.

학습 및 검증 접근법(상기 보여준 바와 같음)을 수행하여 후행 샘플을 사용하여 바이오마커를 수행하는 경우, 이는 교란 인자에 있어서 대조군에서 중요할 수 있다. 일반적으로, 사전분석 처리(예를 들면, 원심분리 속도, 수집 튜브 유형, 냉동-해동 주기의 수)뿐만 아니라 분석 처리(예를 들면, 라이브러리 제조 배취, 시퀀싱 운행)에서의 차이는, 부류 표지에 의해 교란되는 경우, 오도된 일반화 결과를 제공할 수 있다. 예를 들면, 처리 변수가 적절하지 않게 고려되는 경우, 암-대조군 데이터세트에서 예측 성능의 훨씬 더 높은 검증 메트릭을 달성하는 것이 가능하다(예를 들면, 87% AUC의 AUC가 표준 k-폴드 교차 검증 접근법에서 관찰되었고, 이는 균형 k-배취 접근법(또는 일반화 성능을 더 엄격하게 고려하여 도입되는 또 다른 접근법)에서 84%의 AUC와 유사함). 일반적으로, 통계적 접근법은 일반적으로 교란 효과에 면역이 없을 수 있음에도 불구하고, 고차원 게놈 방식 기계 학습 접근법은 적절하게 고려되는 경우에 이러한 교란 효과에 특히 취약할 수 있다.

이러한 처리 효과가 컴퓨팅에 의해 다소 완화될 수 있지만, 견고한 실험 디자인은 부류 표지와 임의의 잠재적인 잡음 유도 변수(예를 들면, 교란의 최소화) 사이의 상호 정보의 최소화와 함께 일반화 가능한 결과를 보장하는 매우 효과적인 방법일 수 있다. 후행 연구에서, 심지어 더 큰 선행 수집 연구에서, 이러한 무작위화는 잠재적인 중요한 변량의 큰 수를 고려할 때 항상 가능하지는 않을 수 있다. 이러한 경우, 기술, 예를 들면, 공지된 교란 변수에 대한 강화 부류 균형, 학습 동안 견고한 교차 검증 계층화, 또는 잠재적인 변량을 정규화하는 컴퓨터를 사용하는 접근법이 적절하게 사용될 수 있다. 기술, 예를 들면, 라이브러리 제조 처리 배취에 의한 샘플 공급원에 의한 부류 균형 및 샘플 중 검증을 보장하는 다운샘플링의 접근법은 신규한 데이터에 대한 방법의 일반화의 더 현실적인 평가를 제공할 수 있다. 입력 cfDNA의 cfDNA 수-프로파일 표시는 혈액에서 이용 가능한 신호의 편향되지 않은 표시로서 역할을 할 수 있다(예를 들면, 돌연변이 기반 또는 메틸화-검정 접근법과 비교하여), 종양(예를 들면, CNV)으로부터의 직접적인 신호뿐만 아니라 비종양 공급원으로부터의 신호 둘 다의 포획은, 예를 들면, 순환 면역계 또는 종양 미세환경으로부터의 면역학적 후생적 세포 상태에서의 변화를 허용한다. 이러한 접근법의 성공은, 초기 단계 암 환자에서 예상된 낮은 종양 분획을 고려할 때, cfDNA가 생리학적 상태에서 변화를 포획하는 유도된 후생적 세포 신호로서 사용될 수 있다는 것을 제시할 수 있다.

대부분의 초기 단계 집단에서, 종양 분획(CNV 콜을 통한 것으로 추정됨)은 임상적 암 단계에 필수적으로 상응하지 않을 수 있다. 수-프로파일 접근법이 매우 중요한 유전자 특징의 세트를 가진 모델에서 다양한 신호를 사용한다는 증거가 존재하고, 이는 공통 CNV 부위를 가진 유전자(예를 들면, 7q32 아암(arm) 상의 IRF5 및 KLF14) 및 CNV에 대하여 유의미하지 않지만 면역 및 결장 시스템에 중요한 유전자(예를 들면, CD4, WNTI 및 STATI)를 포함한다.

추가로, 이러한 신호는 게놈에 걸쳐 분포하고, ctDNA 돌연변이를 검출하는데 극도로 높은 깊이의 표적 시퀀싱(예를 들면, 적어도 약 l,000X, 적어도 약 5,000X, 적어도 약 10,000X, 적어도 약 20,000X, 적어도 약 30,000X, 적어도 약 40,000X, 적어도 약 50,000X, 또는 적어도 약 60,000X 시퀀싱 깊이)와 비교하여 상대적으로 낮은 시퀀싱 깊이를 요구할 수 있기 때문에, cfDNA 접근법은 더욱 실현 가능할 수 있고, 따라서 필요한 샘플 부피의 관점에서 유리할 수 있다.

초기 단계 결장직장암은 인공 지능을 사용하여 인간 혈장 샘플에서 검출되었고, 무세포 DNA 인간 혈장 샘플의 전체 게놈 시퀀싱은 표 10에 나타낸 바와 같이 다양한 단계(예를 들면, 단계 I-IV 및 공지되지 않음)에서 결장직장암(CRC)으로 진단된 797명의 환자로부터 획득하였다. 또한, 456개의 대조군 샘플의 세트는 현재 암 진단을 받지 않은 대상체로부터 획득하였다. 샘플은 대학 의료 센터 및 상업적인 바이오뱅크로부터 수집하였다. 모든 샘플은 비식별화되었다.

무세포 DNA를 250㎕ 혈장으로부터 추출하였다. 쌍 말단 시퀀싱 라이브러리를 제조하고, 일루미나 NovaSeq 6000 시퀀싱 시스템을 사용하여 최소 400,000,000개의 리드(중앙 = 636,000,000개의 리드)에 대하여 시퀀싱하였다.

주석이 달린 단백질-코딩 유전자에 대하여 정렬된 리드를 추출하고, 리드 수를 리드 깊이에서 가변성, 서열-내용물 편향, 및 기술 배취 효과를 고려하여 정규화였다.

기계 학습 모델을 표준 k-폴드, k-배취, 및 균형 k-배취를 포함하는 상이한 교차 검증 기술을 사용하여 훈련하였다(도 34A). 모든 방법은 k-폴드에 대하여 훈련되었고, 가장 우수한 수행 방법을 다른 교차 검증 과정을 위하여 모델을 훈련하기 위하여 선택하였다.

도 34A는 스키마 포크-폴드, k-배취, 및 균형 k-배취의 훈련을 설명한다. 각각의 사각형은 각각의 사각형은 단일 샘플을 나타내고, 채워진 원형은 부류 표지(CRC 또는 비암 대조군)를 나타내고, 테두리 색은 기관 기원을 나타내고, 수는 배취 처리를 나타낸다. 샘플의 유보된 시험 세트(도 33B)는 점선에 의해 훈련 세트와 분리된다.

의도된 사용 연령 범위(50 내지 84)에서 CRC에 대한 분류 성능은 모든 검증 방법에 걸쳐져 있다. 도 34A 및 도 34B는 각각 CRC 단계에 의한 CRC 민감도 또는 종양 분획을 도시한다.

도 34A에서, 민감도에 대한 한계점은 각각의 시험 폴드에서 85% 특이도에서 정의되었다. N은 각각의 단계에 대한 샘플의 수이다. CI=95% 부트스트랩 신뢰 구간. 샘플의 82%는 초기 단계 CRC(단계 I 및 II)를 가진 환자로부터의 것이다. 모든 검증 방법은 신뢰 구간을 기반으로 단계 I 내지 III에 걸친 대략 동등한 민감도를 달성하였다. 단계 IV 암은 항상 정확하게 분류되었다.

도 34B에서, 민감도에 대한 한계점은 각각의 시험 폴드에서 85% 특이도에서 정의되었다. N은 CRC 샘플의 수이다. 종양 분획은 종양 조직으로부터 유도된 cfDNA의 비율(예를 들면, ctDNA/cfDNA)이고, IchorCNA를 사용하여 추정되었다. CI=95% 부트스트랩 신뢰 구간.

도 34C는 각각의 폴드의 훈련 세트가 다운샘플링되는 경우, CRC 분류의 AUC 성능을 도시한다. 분류기 성능은 더 많은 훈련 샘플의 추가와 함께 계속 개선되었다.

표 11은 50 내지 84세 연령의 환자에서 교차 검증(ROC 곡선)에서 분류 성능을 도시한다. 배취-대-배취 기술적 변동성은 k-배취 검증을 사용하여 평가하였다. 집단 또는 샘플 취급에서 기관 특이적 차이는 균형 k-배취 검증을 사용하여 평가하였다. 민감도는 모든 검증 방법에 걸쳐 종양 분획의 증가에 의해 증가하였다. IchorCNA-추정된 종양 분획 단독에 대한 AUC는 0.63이었고, 이는 임의의 교차 검증 도식하에 ML 모델로부터의 결과보다 낮았다.

cfDNA 및 기계 학습을 사용하는 원형 혈액 기반의 CRC 스크리닝 시험은 대부분 초기 단계 CRC 코호트(단계 I 및 II)에서 높은 민감도 및 특이도를 달성하였다. 분류기 성능은 종양 및 비종양(예를 들면, 면역) 유도된 신호 둘 다로부터의 기여를 제시한다. 커버리지의 중간 깊이에서 게놈 방식 cfDNA 프로파일의 평가는 작은 부피의 혈장 샘플의 사용을 가능하게 한다. 교차 검증 방법은 후행(및 선행) 연구를 위하여 유사한 교란 인자 분석의 중요성을 강조하였다.

E. 실시예 5: 어느 유전자가 CFDNA-생성 세포에서 높게 또는 낮게 발현되는지를 예측하기 위한 CFDNA 단편 커버리지 및 길이를 사용하는 유전자 발현 예측 모델

이 실시예는 예를 들면, 하나 이상의 나선형 신경망(CNN)을 사용하여 cfDNA 프로파일을 분석하여 유전자의 발현 또는 염색질 상태를 예측하는 방법을 기재한다. 이러한 방법은 결장직장암(CRC)이 있는 개체 및 없는 개체의 분류를 위하여 다중 분석물 플랫폼에서 유용하다. 유전자의 발현은 전사 시작 부위(TSS)의 세포 기계학의 접근에 의해 조절될 수 있다. TSS에 대한 접근은 TSS가 위치한 염색질의 상태를 결정할 수 있다. 염색질 상태는 염색질 리모델링을 통해 조절될 수 있고, 이는 밀집(폐쇄)되거나 느슨한(개방) TSS일 수 있다. 폐쇄된 TSS는 유전자 발현의 감소를 야기하고, 개방 TSS는 증가된 유전자 발현을 야기한다. 유전자의 염색질 상태에서 변화의 식별은 대상체에서 질환의 존재를 식별하는 방법으로서 역할을 할 수 있다.

결장직장암을 가진 환자(n=532) 및 비암 대조군(n=234)으로부터의 비식별화된 혈장 샘플은 대학 의학 센터 및 상업적으로 바이오뱅크로부터 수득하였다. 혈장 샘플을 하기와 같은 CRC 단계 정보를 기반으로 분리하였다: 단계 I(n=169), 단계 II(n=256), 단계 III(n=97), 단계 IV(n=6) 및 공지되지 않은 단계 정보(n=4). 예측 모델은 유전자가 cfDNA에서 "온" 또는 "오프"인지의 여부를 결정하도록 훈련되었다. 모델은 외주 데이터세트로부터의 안정한 유전자의 평균 발현에 대하여 훈련되었다. 사전 훈련된 모델로부터의 지식을 사용하여 질환 예측 모델을 훈련하였다. 분리된 유전자 세트를 암과 비암 사이의 발현 상태를 그럴듯하게 변화시키기 위하여 이전 모델을 고정하는데 사용되었다.

V-플롯은 cfDNA 포획 단백질-DNA 회합으로부터 유도되고, 이는 염색질 구조물 및 전사 상태를 도시한다. 풋프린팅을 수행하여 cfDNA가 단백질에 의해 보호된 게놈의 영역에 상응한다는 것을 보여주었다. 미가공 시퀀싱 데이터: cfDNA의 쌍 말단 시퀀싱은 단편 길이를 제공하고, DNA의 보호된 단편을 회수한다. 발현된("온") 유전자의 평균 V-플롯: DNA-단백질 결합 위치 및 결합 부위 크기는 시퀀싱된 cfDNA 단편의 단편 길이 및 위치(게놈 위치)로부터 추론될 수 있다. V-플롯에서 각각의 픽셀은 특정한 길이를 가진 단편의 수(Y축)가 이 위치에서 중점(X축)을 갖는 것으로 채색된다. 어두운 색상은 단편의 더 많은 수를 나타낸다(도 35).

입력 V-플롯은 유전자에 대한 TSS 영역에서 cfDNA 단편 위치 및 크기의 풍부하지만 희박한 표시를 도시한다. 웨이브릿 압축 및 평활화는 신호의 주요 부분을 보존하면서 복합성을 감소시키기 위하여 적용된다. 학습된 로지스틱 회귀 계수: 적색 영역은 일반적으로 "온"인 유전자에 대한 증거를 제공하고, 청색 영역은 일반적으로 "오프"인 유전자에 대한 증거를 제공한다. 데이터에 대하여 이들 계수를 적용하여, 더 높은 P("온")에 기여하는 영역은 적색으로 보여지고, 더 낮은 P("온")에 기여하는 영역은 청색으로 보여진다(도 36), 온 및 오프 유전자 발현을 범주화하는 것 이외에, 접근 가능한 염색질의 존재 또는 부재는 혈액의 2개의 세포 집단에서 ATAC-seq에 의해 측정되었고, 하나가 다른 하나보다 훨씬 더 풍부하였다. 이러한 방법은 여전히 cfDNA 영역을 단핵구 특이적 ATAC-seq 피크와 pDC 특이적 피크로 구별할 수 있게 하였다. 이들 피크는 임의의 특정한 함수로 한정되지 않고, TSS뿐만 아니라, 예를 들면, 원위 인핸서의 다른 종류를 포함할 수 있다.

정규화된 TSS 커버리지는 "온" 대 "오프" 유전자에서 오직 정규화된 단편 수를 사용하여 발현을 예측한다. "온" 유전자는 "오프" 유전자보다 더 낮은 커버리지(뉴클레오솜에 의해 덜 보호됨)를 갖는다(1)(도 37). FPKM - 1백만개의 맵핑된 리드당 전사체 킬로베이스당 상대적인 발현 단편의 정규화된 RNA-seq 측정; pDC - 형질 수지상 세포; ROC - 수신기 동작 특성; AUC - 수신기 동작 특성 곡선하면적.

분류 정확도는 단계에 의해 종양 표적화된 유전자 세트를 사용하여 평가되었고, 종양 분획은 추정되었다. 이러한 접근법에 있어서, 우리는 로드맵이 사용되는 측정에서와 같이 혈액 세포가 아닌 결장에서 발현된 44개의 유전자를 사용하였다. 결장 유전자는 결장암뿐만 아니라, 인접한 건강한 결장 조직에서도 발현하는 것을 추정되었고, 이는 건강한 개체에서 cfDNA에 대한 물질의 실질적인 정량에 기여하지 않는다(도 38A 내지 도 38C).

평균 유전자 발현 예측은 CNV 기반의 종양 분획 추정을 증가시키는 것으로 나타났다. 높은 종양 분획 비암 대조군은 44개의 결장 유전자의 발현 P(온)의 낮은 평균 확률을 나타냈고, 이는 높은 종양 분획 CRC 샘플에서와 상이하다(도 39A). 이들 카피 수 변화는 신체에서 생식선, 또는 체세포 및 종양이 아닌 곳에서 기원한 것에서 있을 수 있었지만, 다른 비암 세포에서는 그렇지 않았다(도 39B). 바람직한 예는 본 명세서에 도시되고 기재되지만, 당해 분야의 숙련가에게 이러한 예는 오직 예의 방식으로 제공된다는 것이 자명할 것이다. 다수의 변이, 변화, 및 치환은 본 발명의 벗어나지 않고 당해 분야의 숙련가에게 일어날 것이다. 본 명세서에 기재된 실시예에 대한 다양한 대안이 개시내용을 실시하는데 사용될 수 있다는 것이 이해되어야 한다. 하기 청구항은 범위 및 이들 청구항의 범위 및 이에 의해 포함되는 이들의 등가물 내에 그 방법 및 구조를 정의하는 것을 의도한다.

XI. 컴퓨터 시스템

본 명세서에 언급된 임의의 컴퓨터 시스템 또는 회로는 임의의 적합한 수의 서브시스템을 이용할 수 있다. 서브시스템은 시스템 버스(75)를 통해 연결될 수 있다. 예로서, 서브시스템은 입력/출력(I/O) 장치, 시스템 메모리, 저장 장치(들), 및 컴퓨터 시스템을 다른 장치(예를 들면, 엔진 조절 장치)에 연결하는데 사용될 수 있는 네트워크 어댑터(들)(예를 들면, 이더넷, 와이파이 등)를 포함할 수 있다. 시스템 메모리 및/또는 저장 장치(들)는 컴퓨터 판독 가능 매체를 구현할 수 있다.

컴퓨터 시스템은, 예를 들면, 외부 인터페이스, 내부 인터페이스, 또는 하나의 구성요소를 다른 구성요소에 연결하거나 이로부터 제거할 수 있는 제거 가능한 저장 장치를 통해 함께 연결되는 복수의 동일한 구성원 또는 서브시스템을 포함할 수 있다. 일부 실시형태에 있어서, 컴퓨터 시스템, 서브시스템, 또는 기구는 네트워크 상에서 통신될 수 있다.

실시형태의 양상은 모듈러 또는 집적 방식으로 일반적으로 프로그래밍 가능한 프로세서에 의해 하드웨어 회로(예를 들면, 주문형 집적 회로 또는 필드 프로그래머블 게이트 어레이) 및/또는 컴퓨터 소프트웨어를 사용하여 제어 논리의 형태로 실시될 수 있다. 본 명세서에서 사용되는 바와 같이, 프로세서는 단일-코어 프로세서, 동일 집적 칩 상의 다중-코어 프로세서, 또는 단일 회로 보드 상의 또는 네트워킹된 다중 처리 장치뿐만 아니라 전용 하드웨어를 포함할 수 있다. 본 명세서에 제공된 개시내용 및 기술을 기반으로, 당해 분야의 숙련가는 하드웨어 및 하드웨어와 소프트웨어의 조합을 사용하여 본 발명의 실시형태를 실시하는 다른 방식 및/또는 방법을 알거나 인식할 것이다.

이러한 응용에 기재된 임의의 소프트웨어 구성원 또는 함수는 예를 들면, 통상적인 또는 객체 지향 기술을 사용하여 임의의 적합한 컴퓨터 언어, 예를 들면, 자바, C, C++, C#, 오브젝티브-C(Objective-C), 스위프트(Swift), 또는 스크립팅 언어, 예를 들면, 펄(Perl) 또는 파이톤(Python)을 사용하여 프로세서에 의해 실행되는 소프트웨어 코드로서 실시될 수 있다. 소프트웨어 코드는 저장 및/또는 전송을 위한 컴퓨터 판독 가능 매체에 일련의 명령 또는 명령어로서 저장될 수 있다. 적합한 비일시적인 컴퓨터 판독 가능 매체는 임의 접근 메모리(RAM), 판독 전용 메모리(ROM), 자기 매체, 예를 들면, 하드-드라이브 또는 플로피 디스크, 또는 광학 매체, 예를 들면, 컴팩트 디스크(CD) 또는 DVD(디지털 다목적 디스크), 플래시 메모리 등을 포함할 수 있다. 컴퓨터 판독 가능 매체는 이러한 저장 또는 전송 장치의 임의의 조합일 수 있다.

이러한 프로그램은 또한 인터넷을 포함하여 다양한 프로토콜을 준수하는 유선, 광, 및/또는 무선 네트워크를 통해 전송에 적합한 캐리어 신호를 사용하여 인코딩되거나 전송될 수 있다. 마찬가지로, 컴퓨터 판독 가능 매체는 이러한 프로그램에 의해 인코딩된 데이터 신호를 사용하여 생성된다. 프로그램 코드에 의해 인코딩된 컴퓨터 판독 가능 매체는 호환되는 장치와 함께 포장될 수 있거나, (예를 들면, 인터넷 다운로드를 통해) 다른 장치와 별개로 제공될 수 있다. 임의의 이러한 컴퓨터 판독 가능 매체는 단일 컴퓨터 제품(예를 들면, 하드 드라이브, CD, 또는 전체 컴퓨터 시스템) 상 또는 내에 존재할 수 있고, 시스템 또는 네트워크 내의 상이한 컴퓨터 제품 상 또는 내에 존재할 수 있다. 컴퓨터 시스템은 모니터, 프린터, 또는 본 명세서에 언급된 임의의 결과를 사용자에게 제공하기 위한 다른 적합한 디스플레이를 포함할 수 있다.

본 명세서에 기재된 임의의 방법은 하나 이상의 프로세서를 포함하는 컴퓨터 시스템과 함께 전체적으로 또는 부분적으로 수행될 수 있고, 이는 단계를 수행하도록 구성될 수 있다. 따라서, 실시형태는 가능하게는 각각의 단계 또는 각각의 단계의 그룹을 수행하는 상이한 구성원과 함께 본 명세서에 기재된 임의의 방법의 단계를 수행하도록 구성된 컴퓨터 시스템에 관한 것일 수 있다. 단계가 번호로 표시되었음에도 불구하고, 본 명세서에서 방법의 단계는 동일한 시간에 또는 상이한 시간에 또는 상이한 순서로 수행될 수 있다. 추가로, 이들 단계의 부분은 다른 방법으로부터의 다른 단계의 부분과 함께 사용될 수 있다. 또한 단계의 모두 또는 부분은 임의적일 수 있다. 추가로, 임의의 방법의 임의의 단계는 모듈, 장치, 회로, 또는 이들 단계를 수행하기 위한 시스템의 다른 수단과 함께 수행될 수 있다.

특정한 실시형태의 특정한 세부사항은 본 발명의 실시형태의 취지 및 범위를 벗어나지 않고 임의의 적합한 방식으로 조합될 수 있다. 그러나, 본 발명의 다른 실시형태는 각각의 개별적인 양상에 관한 특정한 실시형태, 또는 개별적인 양상의 특정한 조합에 관한 것일 수 있다.

본 발명의 예시적인 실시형태의 상기 설명은 예시화 및 설명의 목적으로 나타낸 것이었다. 본 발명을 기재된 정확한 형태로 독점적으로 또는 이로 제한하는 것을 의도하지 않고, 많은 변형 및 변이가 상기 교시의 관점에서 가능하다.

단수 표현의 열거는, 구체적으로 반대로 지시되지 않는 한, "하나 이상"을 의미하는 것으로 의도된다. "또는"의 사용은 구체적으로 반대로 지시되지 않는 한, "포함하거나"를 의미하고 "배제하거나"를 의미하지 않는 것으로 의도된다. "제1" 성분에 대한 언급은 반드시 제2 성분이 제공되는 것이 필요하지는 않다. 게다가, "제1" 또는 "제2" 성분에 대한 언급은 명백하게 기재되지 않는 한, 언급된 성분을 특정한 위치로 제한하지 않는다. 용어 "기반으로 한"은 "적어도 부분적으로 기반으로 한"을 의미하는 것으로 의도된다.

본 명세서에 언급된 모든 특허, 특허 출원, 문헌 및 설명은 모든 목적을 위하여 그 전문이 참조로서 포함된다. 어느 것도 선행 기술로 인정되지 않는다.

Claims

개체의 집단을 구별할 수 있는 분류기(classifier)를 사용하는 방법으로서,
a) 생물학적 샘플에서 분자의 복수의 부류를 복수의 검정법을 사용하여 검정하는 단계로서, 상기 검정법은 상기 분자의 복수의 부류를 나타내는 측정치의 복수의 세트를 제공하는, 상기 검정하는 단계;
b) 기계 학습 모델에 입력되는 상기 분자의 복수의 부류 각각의 성질에 상응하는 특징의 세트를 식별하는 단계;
c) 상기 측정치의 복수의 세트로부터의 특징값의 특징 벡터를 제조하는 단계로서, 각각의 특징값은 상기 특징 세트에 상응하고 하나 이상의 측정치를 포함하고, 상기 특징 벡터는 상기 측정치의 복수의 세트의 각각을 사용하여 수득된 적어도 하나의 특징값을 포함하는, 상기 특징 벡터를 제조하는 단계;
d) 컴퓨터 시스템의 메모리에, 상기 분류기를 포함하는 상기 기계 학습 모델, 훈련 생물학적 샘플로부터 수득된 훈련 벡터를 사용하여 훈련된 상기 기계 학습 모델, 특정된 성질을 가진 것으로 식별된 상기 훈련 생물학적 샘플의 제1 하위세트 및 상기 특정된 성질을 갖지 않는 것으로 식별된 상기 훈련 생물학적 샘플의 제2 하위세트를 로딩하는 단계; 및
e) 상기 특징 벡터를 상기 기계 학습 모델에 입력하여 상기 생물학적 샘플이 상기 특정된 성질을 갖는지의 여부의 출력 분류를 수득함으로써, 상기 특정된 성질을 갖는 상기 개체의 집단을 구별하는 단계
를 포함하는, 방법.
제1항에 있어서, 상기 분자의 복수의 부류는 핵산, 폴리아미노산, 탄수화물 또는 대사물질로 이루어진 군으로부터 선택되는, 방법.
제1항에 있어서, 상기 분자의 복수의 부류는 데옥시리보핵산(DNA), 게놈 DNA, 플라스미드 DNA, 상보적 DNA(cDNA), 무세포(cell-free)(예를 들면, 비캡슐화된) DNA(cfDNA), 순환 종양 DNA(ctDNA), 뉴클레오솜 DNA, 크로마토솜 DNA, 미토콘드리아 DNA(miDNA), 인공 핵산 유사체, 재조합 핵산, 플라스미드, 바이러스 벡터, 염색질 및 말초 혈액 단핵구 세포-유도된(PBMC-유도된) 게놈 DNA으로 이루어진 군으로부터 선택되는, 방법.
제1항에 있어서, 상기 분자의 복수의 부류는 리보핵산(RNA), 메신저 RNA(mRNA), 운반 RNA(transfer RNA: tRNA), 마이크로 RNA(mitoRNA), 리보솜 RNA(rRNA), 순환 RNA(circulating RNA: cRNA), 대체 스플라이싱된 mRNA(alternatively spliced mRNA), 소형 핵 RNA(small nuclear RNA: snRNA), 안티센스 RNA, 숏 헤어핀 RNA(short hairpin RNA: shRNA) 또는 소간섭 RNA(small interfering RNA: siRNA)를 포함하는 핵산으로 이루어진 군으로부터 선택되는, 방법.
제1항에 있어서, 상기 분자의 복수의 부류는 폴리아미노산, 펩타이드, 단백질, 자가항체 또는 이의 단편으로 이루어진 군으로부터 선택되는, 방법.
제1항에 있어서, 상기 분자의 부류는 당, 지질, 아미노산, 지방산, 페놀성 화합물 또는 알칼로이드로 이루어진 군으로부터 선택되는, 방법.
제1항에 있어서, 상기 분자의 복수의 부류는 cfDNA 분자, cfRNA 분자, 순환 단백질, 항체 및 대사물질 중 적어도 2개로 이루어진 군으로부터 선택되는, 방법.
제1항에 있어서, 상기 분자의 복수의 부류는 1) cfDNA, cfRNA, 폴리아미노산, 및 소형 화학 분자, 또는 2) cfDNA 및 cfRNA, 및 폴리아미노산, 3) cfDNA 및 cfRNA 및 소형 화학 분자, 또는 4) cfDNA, 폴리아미노산, 및 소형 화학 분자, 또는 5) cfRNA, 폴리아미노산, 및 소형 화학 분자, 또는 6) cfDNA 및 cfRNA, 또는 7) cfDNA 및 폴리아미노산, 또는 8) cfDNA 및 소형 화학 분자, 또는 9) cfRNA 및 폴리아미노산, 또는 10) cfRNA 및 소형 화학 분자, 또는 11) 폴리아미노산 및 소형 화학 분자로 이루어진 군으로부터 선택되는, 방법.
제1항에 있어서, 상기 분자의 복수의 부류는 cfDNA, 단백질 및 자가항체인, 방법.
제1항에 있어서, 상기 복수의 검정은 전체 게놈 시퀀싱(whole-genome sequencing: WGS), 전체 게놈 바이설파이트 시퀀싱(whole-genome bisulfite sequencing: WGSB), EM-seq 시퀀싱, 소형 RNA 시퀀싱, 정량적 면역검정, 효소 결합 면역 흡착 검정(ELISA), 근접 확장 검정(proximity extension assay: PEA), 단백질 마이크로어레이, 질량 분석, 로우-커버리지 전체 게놈 시퀀싱(low-coverage Whole-Genome Sequencing: lcWGS); 선택적 태깅 5mC 시퀀싱(selective tagging 5mC sequencing)(WO2019/051484), CNV 콜링(CNV calling); 종양 분획(tumor fraction: TF) 추정; 전체 게놈 바이설파이트 시퀀싱(Whole Genome Bisulfite Sequencing); LINE-1 CpG 메틸화; 56 유전자 CpG 메틸화; cf-단백질 이뮤노-퀀트(cf-Protein Immuno-Quant) ELISA, SIMOA; 및 cf-miRNA 시퀀싱, 및 임의의 상기 검정으로부터 유도된 세포 유형 또는 세포 표현형 혼합물 비율 중 적어도 2개를 포함할 수 있는, 방법.
제10항에 있어서, 상기 전체 게놈 바이설파이트 또는 EM-seq 시퀀싱이 메틸화 분석을 포함하는, 방법.
제1항에 있어서, 상기 분류기는 선형 판별 분석(linear　discriminant analysis: LDA); 부분 최소 자승법(partial least square: PLS); 랜덤 포레스트(random forest); k-최근접 이웃법(k-nearest neighbor: KNN); 방사 기준 함수 커널에 의한 서포트 벡터 머신(support vector machine: SVM)(SVMRadial); 선형 기준 함수 커널에 의한 SVM(SVM with　linear　basis function kernel: SVMLinear); 다항 기준 함수 커널에 의한 SVM(SVM with polynomial basis function kernel: SVMPoly), 결정 트리(decision tree), 다층 인식자(multilayer perceptron), 전문가망(mixture of expert), 희소 요인 분석(sparse factor analysis), 계층적 분해(hierarchical decomposition) 및 선형 대수법과 통계의 조합 중 하나 이상에 따라 훈련되고 건설되는, 방법.
제1항에 있어서, 상기 특정된 성질은 임상적으로 진단된 질병의 존재인, 방법.
제1항에 있어서, 상기 특정된 성질은 결장직장암, 간암, 폐암, 췌장암, 및 유방암으로 이루어진 군으로부터 선택된 암인, 방법.
제1항에 있어서, 상기 특정된 성질은 치료에 반응성인, 방법.
생물학적 샘플의 분류를 수행하는 시스템으로서,
a) 복수의 훈련 샘플을 수신하는 수신기로서, 분자의 복수의 부류를 갖는 각각의 상기 복수의 훈련 샘플은 상기 복수의 훈련 샘플 각각이 하나 이상의 공지된 표지를 포함하는, 상기 수신기;
b) 각각의 상기 복수의 훈련 샘플에 대하여 기계 학습 모델에 입력되도록 작동하는 각각의 복수의 상이한 검정에 상응하는 특징의 세트를 식별하는 특징 선택 모듈로서, 상기 특징의 세트는 상기 복수의 훈련 샘플에서 분자의 성질에 상응하는, 상기 모듈,
각각의 상기 복수의 훈련 샘플에 있어서, 상기 시스템은 측정치의 세트를 수득하기 위하여 상기 훈련 샘플에서 상기 분자의 복수의 부류에 복수의 상이한 검정을 수행하도록 작동되고, 각각의 측정치의 세트는 하나의 검정으로부터 상기 훈련 샘플에서 분자의 부류에 적용되고, 측정치의 복수의 세트는 상기 복수의 훈련 샘플에 대하여 수득되고;
c) 각각의 상기 복수의 훈련 샘플에 대하여, 상기 측정치의 세트를 분석하여 상기 훈련 샘플에 대한 훈련 벡터를 수득하는 특징 추출 모듈로서, 상기 훈련 벡터는 상기 상응하는 검정의 특징의 세트의 특징값을 포함하고, 각각의 특징값은 특징에 상응하고 하나 이상의 측정치를 포함하고, 상기 훈련 벡터는 상기 복수의 상이한 검정의 제1 하위세트에 상응하는 상기 특징의 세트 중 적어도 2개로부터의 적어도 하나의 특징을 사용하여 형성되는, 모듈;
d) 상기 기계 학습 모델의 파라미터를 사용하여 상기 훈련 벡터에 작동하여 상기 복수의 훈련 샘플에 대한 출력 표지를 수득하는 구성된 기계 학습 모듈;
e) 상기 출력 표지를 상기 훈련 샘플의 상기 공지된 표지에 비교하는 비교기 모듈;
f) 상기 훈련 샘플의 상기 공지된 표지에 대한 상기 출력 표지의 비교를 기반으로 상기 기계 학습 모델이 훈련의 부분으로서 상기 파라미터의 최적 값에 대하여 반복하여 검색하는 훈련 모듈; 및
g) 상기 기계 학습 모델의 파라미터 및 상기 기계 학습 모델의 상기 특징의 세트를 제공하는 출력 모듈
을 포함하는, 생물학적 샘플의 분류를 수행하는 시스템.
제16항에 있어서, 상기 기계 학습 모듈은 선형 판별 분석(LDA) 분류기, 이차 판별 분석(quadratic discriminant analysis: QDA) 분류기, 서포트 벡터 머신(SVM) 분류기, 랜덤 포레스트(RF) 분류기, 선형 커널 서포트 벡터 머신 분류기(linear　kernel support vector machine classifier), 1차 또는 2차 다항 커널 서포트 벡터 머신 분류기(first or second order polynomial kernel support vector machine classifier), 리지 회귀 분류기(ridge regression classifier), 탄성 그물 알고리즘 분류기(elastic net algorithm classifier), 순차 최소 최적화 알고리즘 분류기(sequential minimal optimization algorithm classifier), 나이브 베이즈 알고리즘 분류기(naive Bayes algorithm classifier), 및 NMF 예측 알고리즘 분류기(NMF predictor algorithm classifier)로서 구성되는 분류 회로를 포함하는, 생물학적 샘플의 분류를 수행하는 시스템.
제16항에 있어서, 상기 시스템은 임의의 상기 방법을 수행하기 위한 수단을 포함하는, 생물학적 샘플의 분류를 수행하는 시스템.
생물학적 샘플 조성물에서 다중 분석물 분석을 기반으로 대상체를 분류하는 시스템으로서, (a) 상기 다중 분석물 분석을 기반으로 상기 대상체를 분류하도록 작동 가능한 분류기를 포함하는 컴퓨터 판독 가능 매체; 및 (b) 상기 컴퓨터 판독 가능한 매체에 저장된 명령을 실행하기 위한 하나 이상의 프로세서를 포함하는, 생물학적 샘플 조성물에서 다중 분석물 분석을 기반으로 대상체를 분류하는 시스템.
하나 이상의 컴퓨터 프로세서의 실행하에, 상기 또는 본 명세서에서의 다른 곳의 방법 중 임의의 것을 실시하는 기계 실행 가능 코드를 포함하는 비일시적인 컴퓨터 판독 가능 매체.
하나 이상의 컴퓨터 프로세서 및 상기 프로세서에 연결된 컴퓨터 메모리를 포함하는 시스템으로서, 상기 컴퓨터 메모리는, 상기 하나 이상의 컴퓨터 프로세서의 실행하에, 상기 또는 본 명세서에서의 다른 곳의 방법 중 임의의 것을 실시하는 기계 실행 가능 코드를 포함하는, 시스템.
개체에서 암의 존재를 검출하는 방법으로서,
a) 상기 개체로부터 수득된 생물학적 샘플에서 분자의 복수의 부류를 검정하는 단계로서, 상기 검정은 분자의 복수의 부류를 나타내는 측정치의 복수의 세트를 제공하는, 검정하는 단계,
b) 기계 학습 모델에 입력되는 각각의 상기 분자의 복수의 부류의 성질에 상응하는 특징의 세트를 식별하는 단계,
c) 각각의 상기 측정치의 복수의 세트로부터의 특징값의 특징 벡터를 제조하는 단계로서, 각각의 특징값은 상기 특징의 세트의 한 특징에 상응하고 하나 이상의 측정치를 포함하고, 상기 특징 벡터는 상기 측정치의 복수의 세트의 각각의 세트를 사용하여 수득된 적어도 하나의 특징값을 포함하는, 특징 벡터를 제조하는 단계,
d) 컴퓨터 시스템의 메모리에, 훈련 생물학적 샘플로부터 수득된 훈련 벡터를 사용하여 훈련되는 상기 기계 학습 모델, 암이 있는 개체로부터 식별된 상기 훈련 생물학적 샘플의 제1 하위세트 및 암을 갖지 않은 개체로부터 식별된 상기 훈련 생물학적 샘플의 제2 하위세트를 로딩하는 단계,
e) 상기 특징 벡터를 상기 기계 학습 모델에 입력하여 상기 생물학적 샘플이 상기 암과 연관이 있는지의 여부의 출력 분류를 수득함으로써, 상기 개체에서 상기 암의 존재를 검출하는 단계
를 포함하는, 개체에서 암의 존재를 검출하는 방법.
제22항에 있어서, 상기 출력 분류는 상기 개체에서 상기 암의 존재를 나타내는 검출값을 포함하는, 개체에서 암의 존재를 검출하는 방법.
제22항에 있어서, 상기 기계 학습 모델은 암을 갖지 않은 상기 생물학적 샘플의 확률을 제공하는 또 다른 분류를 추가로 출력하는, 개체에서 암의 존재를 검출하는 방법.
제22항에 있어서, 상기 암은 결장직장암, 간암, 폐암, 췌장암 또는 유방암인, 개체에서 암의 존재를 검출하는 방법.
암을 가진 개체에서 예후를 측정하는 방법으로서,
a) 생물학적 샘플에서 분자의 복수의 부류를 검정하는 단계로서, 상기 검정은 분자의 복수의 부류를 나타내는 측정치의 복수의 세트를 제공하는, 검정하는 단계,
b) 기계 학습 모델에 입력되는 각각의 상기 분자의 복수의 부류의 성질에 상응하는 특징의 세트를 식별하는 단계,
c) 각각의 상기 측정치의 복수의 세트로부터의 특징값의 특징 벡터를 제조하는 단계로서, 각각의 특징값은 상기 특징의 세트의 한 특징에 상응하고 하나 이상의 측정치를 포함하고, 상기 특징 벡터는 상기 측정치의 복수의 세트의 각각의 세트를 사용하여 수득된 적어도 하나의 특징값을 포함하는, 특징 벡터를 제조하는 단계,
d) 컴퓨터 시스템의 메모리에, 훈련 생물학적 샘플로부터 수득된 훈련 벡터를 사용하여 훈련되는 상기 기계 학습 모델, 우수한 암 예후를 가진 개체로부터 식별된 상기 훈련 생물학적 샘플의 제1 하위세트 및 우수한 암 예후를 갖지 않은 개체로부터 식별된 상기 훈련 생물학적 샘플의 제2 하위세트를 로딩하는 단계,
e) 상기 특징 벡터를 상기 기계 학습 모델에 입력하여 상기 생물학적 샘플이 상기 우수한 암 예후와 연관이 있는지의 여부의 출력 분류를 수득함으로써, 상기 개체에서 상기 암을 가진 개체의 예후를 결정하는 단계
를 포함하는, 암을 가진 개체에서 예후를 측정하는 방법.
제26항에 있어서, 상기 암은 결장직장암, 간암, 폐암, 췌장암 또는 유방암으로부터 선택될 수 있는, 암을 가진 개체에서 예후를 측정하는 방법.
암 치료에 대한 개체의 반응성을 결정하는 방법으로서,
a) 생물학적 샘플에서 분자의 복수의 부류를 검정하는 단계로서, 상기 검정은 분자의 복수의 부류를 나타내는 측정치의 복수의 세트를 제공하는, 상기 검정하는 단계,
b) 기계 학습 모델에 입력되는 각각의 상기 분자의 복수의 부류의 성질에 상응하는 특징의 세트를 식별하는 단계,
c) 각각의 상기 측정치의 복수의 세트로부터의 특징값의 특징 벡터를 제조하는 단계로서, 각각의 특징값은 상기 특징의 세트의 한 특징에 상응하고 하나 이상의 측정치를 포함하고, 상기 특징 벡터는 상기 측정치의 복수의 세트의 각각의 세트를 사용하여 수득된 적어도 하나의 특징값을 포함하는, 상기 특징 벡터를 제조하는 단계,
d) 컴퓨터 시스템의 메모리에, 훈련 생물학적 샘플로부터 수득된 훈련 벡터를 사용하여 훈련되는 상기 기계 학습 모델, 암 치료에 대하여 반응하는 개체로부터 식별된 상기 훈련 생물학적 샘플의 제1 하위세트 및 암 치료에 반응하지 않는 개체로부터 식별된 상기 훈련 생물학적 샘플의 제2 하위세트를 로딩하는 단계,
e) 상기 특징 벡터를 상기 기계 학습 모델에 입력하여 상기 생물학적 샘플이 상기 치료 반응 요법과 연관이 있는지의 여부의 출력 분류를 수득함으로써, 상기 암에 대한 반응성을 결정하는 단계
를 포함하는, 암 치료에 대한 개체의 반응성을 결정하는 방법.
제28항에 있어서, 상기 암 치료는 알킬화제, 식물성 알칼로이드, 항종양 항생제, 항대사물질, 토포아이소머라제 저해제, 레티노이드, 관문 저해제 요법, 또는 VEGF 저해제로부터 선택되는, 암 치료에 대한 개체의 반응성을 결정하는 방법.
제28항에 있어서, 상기 출력 분류는 상기 개체에서 상기 암의 존재를 나타내는 검출값을 포함하는, 암 치료에 대한 개체의 반응성을 결정하는 방법.