KR20230134491A - 미생물 핵산 및 체세포 돌연변이를 이용한 택소노미독립적 암 진단 및 분류 - Google Patents

미생물 핵산 및 체세포 돌연변이를 이용한 택소노미독립적 암 진단 및 분류 Download PDF

Info

Publication number
KR20230134491A
KR20230134491A KR1020237024488A KR20237024488A KR20230134491A KR 20230134491 A KR20230134491 A KR 20230134491A KR 1020237024488 A KR1020237024488 A KR 1020237024488A KR 20237024488 A KR20237024488 A KR 20237024488A KR 20230134491 A KR20230134491 A KR 20230134491A
Authority
KR
South Korea
Prior art keywords
cancer
human
subjects
subject
carcinoma
Prior art date
Application number
KR1020237024488A
Other languages
English (en)
Inventor
스티븐 완드로
에디 아담스
산드린 밀러-몽고메리
Original Assignee
마이크로노마, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로노마, 인크. filed Critical 마이크로노마, 인크.
Publication of KR20230134491A publication Critical patent/KR20230134491A/ko

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/689Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/70Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving virus or bacteriophage
    • C12Q1/701Specific hybridization probes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/50Determining the risk of developing a disease
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/70Mechanisms involved in disease identification
    • G01N2800/7023(Hyper)proliferation
    • G01N2800/7028Cancer

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Immunology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Primary Health Care (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Virology (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Abstract

미생물 핵산 및 체세포 돌연변이의 택소노미 독립적 분류에 의한 암의 진단 및 분류를 위한 시스템 및 방법이 제공된다.

Description

미생물 핵산 및 체세포 돌연변이를 이용한 택소노미 독립적 암 진단 및 분류
상호 참조
본 출원은 2020년 12월 22일에 출원된 미국 가특허 출원 번호 63/128,971의 이익을 주장하며, 이는 전체가 참조로 포함된다.
배경기술
대상체에서 암을 검출하기 위한 이상적인 진단 시험은 (i) 암의 조직/신체 부위 위치(들)를 높은 신뢰도로 확인해야 하고; (ii) 암 상태를 설명하거나 이와 밀접한 관련이 있는 체세포 돌연변이의 존재를 확인해야 하며 (iii) 초기 단계 의료 개입이 가능하도록 암의 발생을 초기에 (예컨대, I-II기) 검출해야 하며, (iv) 최소한으로 침습적이어야 하고. (vi) 진단되는 암에 대해 매우 민감하고 특이적이어야 하는(즉, 암이 존재할 때 시험이 양성일 확률이 높고 암이 존재하지 않을 때 시험이 음성일 확률이 높아야 하는) 특징을 가질 것이다. 오늘날, 액체 생검 기반 진단 - 상업화 및 개발 중 - 은 2가지의 광범위하고 겹치지 않는 범주 - 암 관련된 체세포 돌연변이를 검출할 수 있는 범주 및 DNA 메틸화와 같은 조직 특유의 분자 패턴에 기초하여 암의 조직/신체 부위 위치를 검출할 수 있는 범주 - 로 나뉜다. 따라서, 기존 진단의 범주는 의사에게 의료 개입을 집중할 위치 및 어떤 약제를 선택해야 하는지 알려주는 데이터의 완전한 보완을 제공하지 않는다.
따라서, 높은 분석 민감도 및 특이도로 암의 조직/신체 부위 위치(들)를 검출하고 동시에 검출된 암과 관련된 체세포 돌연변이를 결정할 수 있는 초기 단계 암 진단에 대한 당업계의 요구가 남아 있다.
본 발명의 개시내용은 샘플에 존재하는 확인된 인간 체세포 돌연변이와 조합하여 인간 조직 또는 액체 생검 샘플로부터의 비-인간 기원의 핵산을 사용하여 암, 이의 위치를 정확하게 진단하고, 특정 요법에 대한 암의 반응 가능성을 예측하는 방법을 제공한다. 구체적으로, 본 발명은 인간 게놈에서 암 관련된 핵산 서열 돌연변이의 존재 및 풍부도(abundance, 존재량), 존재 및 풍부도에 의해 특정 암에 특징적인 비-인간 핵산 서열의 존재 및 풍부도를 확인하는 방법, 및 먼저 핵산 서열 입력 중 질환 특징 관련성을 확인한 다음 이러한 확인된 질환 특징 관련성에 기초하여 환자의 질환 상태를 진단하기 위한 기계 학습의 사용을 제공한다.
본원에 개시된 본 발명의 방법은 암의 기원의 조직/신체 부위를 진단 및 분류하고 또한 암에 존재하는 체세포 돌연변이에 관한 정보를 제공할 수 있는 진단 모델을 생성한다. 일부 실시양태에서, 특정 체세포 돌연변이의 검출은 상기 암의 치료적 처치에 매우 중요할 수 있다. 예컨대, 이중 맹검 3년 3상 시험의 최근 결과는 표피 성장 인자 수용체(EGFR) 돌연변이 양성 비-소세포 폐 암종을 갖는 환자에서 EGFR 티로신 키나제 억제제(오시메르티닙; PMID: 32955177)를 사용한 치료로 무질환 생존이 상당히 연장되었다는 것을 입증하였다. EGFR 종양형성 돌연변이는 폐암에만 제한되지 않으며(유방암 및 교모세포종에도 존재함), 본원에 개시된 방법은 EGFR 돌연변이의 존재를 검출하는 것에만 제한되지 않고, 폐암에 특징적인 미생물 핵산 시그너처를 검출함으로써, 어떤 조직이 이러한 EGFR 돌연변이를 지닌 세포를 포함하고 있을 가능성이 있는지를 보고하므로 의사의 조사 분야에 초점을 맞춘다.
본원에 개시된 측면은 하기 단계를 포함하는, 진단적 암 모델을 생성하는 방법을 제공한다: (a) 생물학적 샘플의 핵산 조성을 시퀀싱하여 시퀀싱 리드(reads)를 생성하는 단계; (b) 시퀀싱 리드를 단리하여 복수의 필터링된 시퀀싱 리드를 단리하는 단계; (c) 복수의 필터링된 시퀀싱 리드로부터 복수의 k-mer를 생성하는 단계; (d) k-mer의 택소노미 독립적 풍부도를 결정하는 단계; (e) k-mer의 택소노미 독립적 풍부도로 기계 학습 알고리즘을 트레이닝하여 진단 모델을 생성하는 단계. 일부 실시양태에서, 단리는 시퀀싱 리드와 인간 참조 게놈 데이터베이스 간의 정확한 매칭에 의해 수행된다. 일부 실시양태에서, 정확한 매칭은 시퀀싱 리드를 소프트웨어 프로그램 크라켄(Kraken) 또는 크라켄 2로 전산적으로 필터링하는 것을 포함한다. 일부 실시양태에서, 정확한 매칭은 시퀀싱 리드를 소프트웨어 프로그램 보타이(bowtie) 2 또는 이의 임의의 등가물로 전산적으로 필터링하는 것을 포함한다. 일부 실시양태에서, 진단적 암 모델을 생성하는 방법은 복수의 필터링된 시퀀싱 리드의 인실리코 오염제거를 수행하여 복수의 오염제거된 비-인간, 인간 또는 이들의 임의의 조합의 시퀀싱 리드를 생성하는 단계를 추가로 포함한다. 일부 실시양태에서, k-mer의 택소노미 독립적 풍부도를 결정하는 것은 젤리피시(Jellyfish), UCLUST, 게놈툴스(GenomeTools) (탈리머(Tallymer)), KMC2, 게르빌(Gerbil), DSK 또는 이들의 임의의 조합에 의해 수행된다. 일부 실시양태에서, 진단적 암 모델을 생성하는 방법은 복수의 오염제거된 인간 시퀀싱 리드의 인간 서열을 인간 참조 게놈 데이터베이스의 빌드(build)에 매핑하여 복수의 시퀀싱 정렬을 생성하는 단계를 추가로 포함한다. 일부 실시양태에서, 매핑은 보타이 2 서열 정렬 도구 또는 이의 임의의 등가물에 의해 수행된다. 일부 실시양태에서, 매핑은 단대단 정렬, 국부 정렬, 또는 이들의 임의의 조합을 포함한다. 일부 실시양태에서, 진단적 암 모델을 생성하는 방법은 암 돌연변이 데이터베이스를 질의함으로써 복수의 서열 정렬에서 암 돌연변이를 확인하는 단계를 추가로 포함한다. 일부 실시양태에서, 진단적 암 모델을 생성하는 방법은 암 돌연변이에 대한 암 돌연변이 풍부도 표를 생성하는 단계를 추가로 포함한다. 일부 실시양태에서, k-mer의 택소노미 독립적 풍부도는 비-인간 k-mer, 암 돌연변이 풍부도 표, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 실시양태에서, 생물학적 샘플은 조직, 액체 생검 샘플, 또는 이들의 임의의 조합을 포함한다. 일부 실시양태에서, 대상체는 인간 또는 비-인간 포유동물이다. 일부 실시양태에서, 핵산 조성은 DNA, RNA, 무세포 DNA, 무세포 RNA, 엑소좀 DNA, 엑소좀 RNA, 순환 종양 세포 DNA, 순환 종양 세포 RNA, 또는 이들의 임의의 조합의 총 집단을 포함한다. 일부 실시양태에서, 인간 참조 게놈 데이터베이스는 GRCh38이다. 일부 실시양태에서, 기계 학습 알고리즘의 출력은 암의 존재 또는 부재, 암 신체 부위 위치, 암 체세포 돌연변이, 또는 암의 존재 또는 부재와 관련된 이들의 임의의 조합의 진단을 제공한다. 일부 실시양태에서, 트레이닝된 기계 학습 알고리즘의 출력은 암 돌연변이 및 k-mer 풍부도 표의 분석을 포함한다. 일부 실시양태에서, 트레이닝된 기계 학습 알고리즘은 관심 있는 암에서 특징적인 풍부도와 함께 존재하거나 부재하는 것으로 공지된 암 돌연변이 및 k-mer 풍부도의 세트로 트레이닝된다.
일부 실시양태에서, 진단 모델은 박테리아, 고세균, 진균, 및/또는 바이러스의 생물체의 도메인 중 하나 이상의 비-인간 k-mer 풍부도를 포함한다. 일부 실시양태에서, 진단 모델은 암의 범주, 조직 특이적 위치 또는 이들의 임의의 조합을 진단한다. 일부 실시양태에서, 진단 모델은 암에 존재하는 하나 이상의 돌연변이를 진단한다. 일부 실시양태에서, 진단 모델은 대상체에서 하나 이상의 유형의 암을 진단하도록 구성된다. 일부 실시양태에서, 진단 모델은 낮은 단계(I기 또는 II기)의 종양에서 하나 이상의 유형의 암을 진단하도록 구성된다. 일부 실시양태에서, 진단 모델은 대상체에서 하나 이상의 아유형의 암을 진단하도록 구성된다. 일부 실시양태에서, 진단 모델은 대상체에서 암 단계를 예측하거나, 대상체에서 암 예후를 예측하거나, 이들의 임의의 조합에 사용된다. 일부 실시양태에서, 진단 모델은 대상체의 치료 반응을 예측하도록 구성된다. 일부 실시양태에서, 진단 모델은 특정 대상체에 대한 최적의 요법을 선택하도록 구성된다. 일부 실시양태에서, 진단 모델은 요법에 대한 하나 이상의 암의 반응 과정을 종단적으로 모델링하고 이어서 치료 레지먼을 조정하도록 구성된다. 일부 실시양태에서, 진단 모델은 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 식도 암종, 다형성 교아종, 두경부 편평 세포 암종, 혐색소성 신세포암, 투명 세포형 신세포암, 유두상 신세포암, 간세포암, 폐 선암종, 폐 편평 세포 암종, 림프성 신생물 미만성 거대 B-세포 림프종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 크롬 친화 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 흉선종, 갑상선 암종, 자궁 암육종, 자궁 체부 자궁내막 암종, 포도막 흑색종 또는 이들의 임의의 조합을 진단한다. 일부 실시양태에서, 진단 모델은 비-인간 노이즈 오염물 피처를 확인하고 제거하면서 다른 비-인간 신호 피처를 선택적으로 유지한다. 일부 실시양태에서, 생물학적 샘플은 혈장, 혈청, 전혈, 소변, 뇌척수액, 타액, 땀, 눈물, 호기 응축물 또는 이들의 임의의 조합을 포함하는 액체 생검을 포함한다. 일부 실시양태에서, 암 돌연변이 데이터베이스는 암에서의 체세포 돌연변이의 카달로그(Catalogue of Somatic Mutations in Cancer: COSMIC), 암 게놈 프로젝트(Cancer Genome Project: CGP), 암 게놈 아틀라스(Cancer Genome Atlas: TGCA), 국제 암 게놈 컨소시엄(International Cancer Genome Consortium: ICGC) 또는 이들의 임의의 조합으로부터 유래된다.
본원에 개시된 측면은 하기 단계를 포함하는, 대상체에서 암을 진단하는 방법을 제공한다: (a) 대상체로부터의 샘플에서 복수의 체세포 돌연변이를 검출하는 단계; (b) 대상체로부터의 샘플에서 복수의 비-인간 k-mer 서열을 검출하는 단계; (c) (a) 및 (b)의 체세포 돌연변이 및 비-인간 k-mer 서열을 특정 암에 대한 체세포 돌연변이 및 비-인간 k-mer 서열의 풍부도와 비교하는 단계; 및 (d) 특정 암의 진단 확률을 제공함으로써 암을 진단하는 단계. 일부 실시양태에서, 체세포 돌연변이를 검출하는 것은 대상체로부터의 샘플에서 체세포 돌연변이를 계수하는 것을 추가로 포함한다. 일부 실시양태에서, 비-인간 k-mer 서열을 검출하는 것은 대상체로부터의 샘플에서 비-인간 k-mer 서열을 계수하는 것을 포함한다. 일부 실시양태에서, 진단은 암의 범주 또는 위치이다. 일부 실시양태에서, 진단은 대상체에서 하나 이상의 유형의 암이다. 일부 실시양태에서, 진단은 대상체에서 하나 이상의 아유형의 암이다. 일부 실시양태에서, 진단은 대상체에서 암 단계 및/또는 대상체에서 암 예후이다. 일부 실시양태에서, 진단은 낮은 단계(I기 또는 II기) 종양에서 암의 유형이다. 일부 실시양태에서, 진단은 대상체에서 하나 이상의 암의 돌연변이 상태이다. 일부 실시양태에서, 암은 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 식도 암종, 다형성 교아종, 두경부 편평 세포 암종, 혐색소성 신세포암, 투명 세포형 신세포암, 유두상 신세포암, 간세포암, 폐 선암종, 폐 편평 세포 암종, 림프성 신생물 미만성 거대 B-세포 림프종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 크롬 친화 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 흉선종, 갑상선 암종, 자궁 암육종, 자궁 체부 자궁내막 암종, 포도막 흑색종 또는 이들의 임의의 조합을 포함한다. 일부 실시양태에서, 대상체는 비-인간 포유동물이다. 일부 실시양태에서, 대상체는 인간이다. 일부 실시양태에서, 대상체는 포유동물이다. 일부 실시양태에서, k-mer 존재 또는 풍부도는 바이러스, 박테리아, 고세균, 진균 또는 이들의 임의의 조합의 생물체의 비-포유동물 도메인으로부터 수득된다.
일부 실시양태에서, 본원에 제공된 개시내용은 대상체의 암을 진단하는 방법을 기재한다. 일부 실시양태에서, 방법은 (a) 대상체의 샘플의 복수의 체세포 돌연변이 및 비-인간 k-mer 서열을 결정하는 단계; (b) 대상체의 복수의 체세포 돌연변이 및 복수의 비-인간 k-mer 서열을 주어진 암에 대한 복수의 체세포 돌연변이 및 비-인간 k-mer 서열과 비교하는 단계; 및 (c) 주어진 암에 대한 대상체의 복수의 체세포 돌연변이 및 비-인간 k-mer 서열의 비교에 적어도 부분적으로 기초하여 암의 존재 또는 결여(lack)의 확률을 제공함으로써 대상체의 암을 진단하는 단계를 포함한다. 일부 실시양태에서, 복수의 체세포 돌연변이를 결정하는 것은 대상체의 샘플의 체세포 돌연변이를 계수하는 것을 추가로 포함한다. 일부 실시양태에서, 복수의 비-인간 k-mer 서열을 결정하는 것은 대상체의 샘플의 비-인간 k-mer 서열을 계수하는 것을 포함한다. 일부 실시양태에서, 대상체의 암을 진단하는 것은 암의 범주 또는 위치를 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 대상체의 암을 진단하는 것은 하나 이상의 유형의 대상체의 암을 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 대상체의 암을 진단하는 것은 하나 이상의 아유형의 대상체의 암을 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 대상체의 암을 진단하는 것은 대상체의 암 단계, 암 예후, 또는 이들의 임의의 조합을 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 대상체의 암을 진단하는 것은 낮은 단계에서의 암의 유형을 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 낮은 단계에서의 암 유형은 I기 또는 II기 암을 포함한다. 일부 실시양태에서, 대상체의 암을 진단하는 것은 대상체의 암의 돌연변이 상태를 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 대상체의 암을 진단하는 것은 대상체의 암을 치료하기 위한 요법에 대한 대상체의 반응을 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 암은 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 식도 암종, 다형성 교아종, 두경부 편평 세포 암종, 혐색소성 신세포암, 투명 세포형 신세포암, 유두상 신세포암, 간세포암, 폐 선암종, 폐 편평 세포 암종, 림프성 신생물 미만성 거대 B-세포 림프종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 크롬 친화 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 흉선종, 갑상선 암종, 자궁 암육종, 자궁 체부 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합을 포함한다. 일부 실시양태에서, 대상체는 비-인간 포유동물이다. 일부 실시양태에서, 대상체는 인간이다. 일부 실시양태에서, 대상체는 포유동물이다. 일부 실시양태에서, 복수의 비-인간 k-mer 서열은 바이러스, 박테리아, 고세균, 진균, 또는 이들의 임의의 조합의 생물체의 비-포유동물 도메인으로부터 기원한다.
일부 실시양태에서, 본원에 제공된 개시내용은 트레이닝된 예측 모델을 사용하여 대상체의 암을 진단하는 방법을 기재한다. 일부 실시양태에서, 방법은 (a) 제1의 하나 이상의 대상체의 핵산 샘플의 복수의 체세포 돌연변이 및 비-인간 k-mer 핵산 서열을 수신하는 단계; (b) 제1의 대상체의 복수의 체세포 돌연변이 및 비-인간 k-mer 핵산 서열을 트레이닝된 예측 모델에 대한 입력으로서 제공하는 단계로서, 트레이닝된 예측 모델은 제2의 하나 이상의 대상체의 복수의 체세포 돌연변이 핵산 서열, 비-인간 k-mer 핵산 서열, 및 제2의 하나 이상의 대상체의 상응하는 임상 분류로 트레이닝되고, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체는 상이한 대상체인 단계; 및 (c) 트레이닝된 예측 모델의 출력에 적어도 부분적으로 기초하여 제1의 하나 이상의 대상체의 암을 진단하는 단계를 포함한다. 일부 실시양태에서, 복수의 체세포 돌연변이 핵산 서열을 수신하는 것은 제1의 하나 이상의 대상체의 핵산 샘플의 체세포 돌연변이 핵산 서열을 계수하는 것을 추가로 포함한다. 일부 실시양태에서, 복수의 비-인간 k-mer 핵산 서열을 수신하는 것은 제1의 하나 이상의 대상체의 핵산 샘플의 비-인간 k-mer 핵산 서열을 계수하는 것을 추가로 포함한다. 일부 실시양태에서, 제1의 하나 이상의 대상체의 암을 진단하는 것은 제1의 하나 이상의 대상체의 암의 범주 또는 위치를 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 제1의 하나 이상의 대상체의 암을 진단하는 것은 하나 이상의 유형의 제1의 하나 이상의 대상체의 암을 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 제1의 하나 이상의 대상체의 암을 진단하는 것은 하나 이상의 아유형의 제1의 하나 이상의 대상체의 암을 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 제1의 하나 이상의 대상체의 암을 진단하는 것은 제1의 하나 이상의 대상체의 암 단계, 암 예후, 또는 이들의 임의의 조합을 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 제1의 하나 이상의 대상체의 암을 진단하는 것은 낮은 단계에서의 암의 유형을 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 낮은 단계에서의 암 유형은 I기 또는 II기 암을 포함한다. 일부 실시양태에서, 제1의 하나 이상의 대상체의 암을 진단하는 것은 제1의 하나 이상의 대상체 암의 돌연변이 상태를 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 제1의 하나 이상의 대상체의 암을 진단하는 것은 제1의 하나 이상의 대상체의 암을 치료하기 위한 요법에 대한 제1의 하나 이상의 대상체의 반응을 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 암은 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 식도 암종, 다형성 교아종, 두경부 편평 세포 암종, 혐색소성 신세포암, 투명 세포형 신세포암, 유두상 신세포암, 간세포암, 폐 선암종, 폐 편평 세포 암종, 림프성 신생물 미만성 거대 B-세포 림프종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 크롬 친화 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 흉선종, 갑상선 암종, 자궁 암육종, 자궁 체부 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합을 포함한다. 일부 실시양태에서, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체는 비-인간 포유동물이다. 일부 실시양태에서, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체는 인간이다. 일부 실시양태에서, 제1의 하나 이상의 대상체는 포유동물이다. 일부 실시양태에서, 복수의 비-인간 k-mer 서열은 바이러스, 박테리아, 고세균, 진균, 또는 이들의 임의의 조합의 생물체의 비-포유동물 도메인으로부터 기원한다.
일부 실시양태에서, 본원에 제공된 개시내용은 암 예측 모델을 생성하는 방법을 기재한다. 일부 실시양태에서, 방법은 (a) 하나 이상의 대상체의 생물학적 샘플의 하나 이상의 시퀀싱 리드를 생성하는 단계; (b) 하나 이상의 핵산 시퀀싱 리드를 인간 게놈 데이터베이스로 필터링하여 하나 이상의 필터링된 시퀀싱 리드를 생성하는 단계; (c) 하나 이상의 필터링된 시퀀싱 리드로부터 복수의 k-mer를 생성하는 단계; 및 (d) 복수의 k-mer 및 하나 이상의 대상체의 상응하는 임상 분류로 예측 모델을 트레이닝함으로써 암 예측 모델을 생성하는 단계를 포함할 수 있다. 일부 실시양태에서, 트레이닝된 예측 모델은 암 관련된 k-mer 세트를 포함한다. 일부 실시양태에서, 트레이닝된 예측 모델은 비-암 관련된 k-mer 세트를 포함한다. 일부 실시양태에서, 방법은 복수의 k-mer의 풍부도를 결정하는 단계 및 예측 모델을 복수의 k-mer의 풍부도로 트레이닝하는 단계를 추가로 포함한다. 일부 실시양태에서, 필터링은 하나 이상의 핵산 시퀀싱 리드와 인간 참조 게놈 데이터베이스 간의 정확한 매칭에 의해 수행된다. 일부 실시양태에서, 정확한 매칭은 하나 이상의 핵산 시퀀싱 리드를 소프트웨어 프로그램 크라켄 또는 크라켄 2로 전산적으로 필터링하는 것을 포함한다. 일부 실시양태에서, 정확한 매칭은 하나 이상의 핵산 시퀀싱 리드를 소프트웨어 프로그램 보타이 2 또는 이의 임의의 등가물로 전산적으로 필터링하는 것을 포함한다. 일부 실시양태에서, 방법은 하나 이상의 필터링된 시퀀싱 리드의 인실리코 오염제거를 수행함으로써 하나 이상의 오염제거된 시퀀싱 리드를 생성하는 단계를 추가로 포함한다. 일부 실시양태에서, 인실리코 오염제거는, 다른 비-인간 신호 피처를 유지하면서, 비-인간 오염물 피처를 확인하고 제거한다. 일부 실시양태에서, 방법은 하나 이상의 오염제거된 시퀀싱 리드를 인간 참조 게놈 데이터베이스의 빌드에 매핑하여 복수의 돌연변이된 인간 서열 정렬을 생성하는 단계를 추가로 포함한다. 일부 실시양태에서, 인간 참조 게놈 데이터베이스는 GRCh38을 포함한다. 일부 실시양태에서, 매핑은 보타이 2 서열 정렬 도구 또는 이의 임의의 등가물에 의해 수행된다. 일부 실시양태에서, 매핑은 단대단 정렬, 국부 정렬, 또는 이들의 임의의 조합을 포함한다. 일부 실시양태에서, 방법은 암 돌연변이 데이터베이스를 질의함으로써 복수의 돌연변이된 인간 서열 정렬에서 암 돌연변이를 확인하는 단계를 추가로 포함한다. 일부 실시양태에서, 암 돌연변이 데이터베이스는 암에서의 체세포 돌연변이의 카달로그(COSMIC), 암 게놈 프로젝트(CGP), 암 게놈 아틀라스(TGCA), 국제 암 게놈 컨소시엄(ICGC) 또는 이들의 임의의 조합으로부터 유래된다. 일부 실시양태에서, 방법은 암 돌연변이를 갖는 암 돌연변이 풍부도 표를 생성하는 단계를 추가로 포함한다. 일부 실시양태에서, 복수의 k-mer는 비-인간 k-mer, 인간 돌연변이된 k-mer, 비-분류된 DNA k-mer, 또는 이들의 임의의 조합을 포함한다. 일부 실시양태에서, 비-인간 k-mer는 박테리아, 고세균, 진균, 바이러스, 또는 이들의 임의의 조합의 생물체의 도메인으로부터 기원한다. 일부 실시양태에서, 하나 이상의 생물학적 샘플은 조직 샘플, 액체 생검 샘플, 또는 이들의 임의의 조합을 포함한다. 일부 실시양태에서, 액체 생검은 혈장, 혈청, 전혈, 소변, 뇌척수액, 타액, 땀, 눈물, 호기 응축물, 또는 이들의 임의의 조합을 포함한다. 일부 실시양태에서, 하나 이상의 대상체는 인간 또는 비-인간 포유동물이다. 일부 실시양태에서, 하나 이상의 핵산 시퀀싱 리드는 DNA, RNA, 무세포 DNA, 무세포 RNA, 엑소좀 DNA, 엑소좀 RNA, 순환 종양 세포 DNA, 순환 종양 세포 RNA, 또는 이들의 임의의 조합을 포함한다. 일부 실시양태에서, 암 예측 모델의 출력은 암의 존재 또는 부재, 암 신체 부위 위치, 암 체세포 돌연변이, 또는 대상체의 암의 존재 또는 부재와 관련된 이들의 임의의 조합의 진단을 제공한다. 일부 실시양태에서, 암 예측 모델의 출력은 암 체세포 돌연변이, 복수의 k-mer의 풍부도, 또는 이들의 임의의 조합의 분석을 포함한다. 일부 실시양태에서, 트레이닝된 예측 모델은 관심 있는 암에서 특징적인 풍부도와 함께 존재하거나 부재하는 것으로 공지된 암 돌연변이 및 k-mer 풍부도의 세트로 트레이닝된다. 일부 실시양태에서, 암 예측 모델은 대상체의 하나 이상의 유형의 암의 존재 또는 결여를 결정하도록 구성된다. 일부 실시양태에서, 하나 이상의 유형의 암은 낮은 단계에 있다. 일부 실시양태에서, 낮은 단계는 암의 I기, II기, 또는 이들의 임의의 조합의 기를 포함한다. 일부 실시양태에서, 암 예측 모델은 대상체의 하나 이상의 아유형의 암의 존재 또는 결여를 결정하도록 구성된다. 일부 실시양태에서, 암 예측 모델은 암 단계를 예측하거나, 암 예후를 예측하거나, 이들의 임의의 조합이도록 구성된다. 일부 실시양태에서, 암 예측 모델은 대상체의 암을 치료하기 위해 치료 화합물을 투여할 때 대상체의 치료 반응을 예측하도록 구성된다. 일부 실시양태에서, 암 예측 모델은 대상체의 암을 치료하기 위한 최적 요법을 결정하도록 구성된다. 일부 실시양태에서, 암 예측 모델은 요법에 대한 대상체의 하나 이상의 암의 반응 과정을 종단적으로 모델링함으로써 요법에 대한 대상체의 하나 이상의 암의 반응 과정의 종단적 모델을 생성하도록 구성된다. 일부 실시양태에서, 암 예측 모델은 종단적 모델에 적어도 부분적으로 기초하여 대상체의 하나 이상의 암의 치료 과정에 대한 조정을 결정하도록 구성된다. 일부 실시양태에서, 암 예측 모델은 대상체의 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 식도 암종, 다형성 교아종, 두경부 편평 세포 암종, 혐색소성 신세포암, 투명 세포형 신세포암, 유두상 신세포암, 간세포암, 폐 선암종, 폐 편평 세포 암종, 림프성 신생물 미만성 거대 B-세포 림프종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 크롬 친화 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 흉선종, 갑상선 암종, 자궁 암육종, 자궁 체부 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합의 암의 존재 또는 결여를 결정하도록 구성된다. 일부 실시양태에서, 복수의 k-mer의 풍부도를 결정하는 것은 젤리피시, UCLUST, 게놈툴스(탈리머), KMC2, 게르빌, DSK, 또는 이들의 임의의 조합에 의해 수행된다. 일부 실시양태에서, 하나 이상의 대상체의 임상 분류는 건강, 암, 비-암 질환, 또는 이들의 임의의 조합을 포함한다. 일부 실시양태에서, 하나 이상의 필터링된 시퀀싱 리드는 비-인간 시퀀싱 리드, 비-매칭된 비-인간 시퀀싱 리드, 또는 이들의 임의의 조합을 포함한다. 일부 실시양태에서, 비-매칭된 비-인간 시퀀싱 리드는 비-인간 참조 게놈 데이터베이스에 매칭되지 않는 시퀀싱 리드를 포함한다.
일부 실시양태에서, 본원에 제공된 개시내용은 암 예측 모델을 생성하는 방법을 기재한다. 일부 실시양태에서, 방법은 (a) 하나 이상의 대상체의 생물학적 샘플의 핵산 조성을 시퀀싱하여 하나 이상의 시퀀싱 리드를 생성하는 단계; (b) 하나 이상의 핵산 시퀀싱 리드를 인간 게놈 데이터베이스로 필터링하여 하나 이상의 필터링된 시퀀싱 리드를 생성하는 단계; (c) 하나 이상의 필터링된 시퀀싱 리드로부터 복수의 k-mer를 생성하는 단계; 및 (d) 복수의 k-mer 및 하나 이상의 대상체의 상응하는 임상 분류로 예측 모델을 트레이닝함으로써 암 예측 모델을 생성하는 단계를 포함한다. 일부 실시양태에서, 트레이닝된 예측 모델은 암 관련된 k-mer 세트를 포함한다. 일부 실시양태에서, 트레이닝된 예측 모델은 비-암 관련된 k-mer 세트를 포함한다. 일부 실시양태에서, 방법은 복수의 k-mer의 풍부도를 결정하는 단계 및 예측 모델을 복수의 k-mer의 풍부도로 트레이닝하는 단계를 추가로 포함한다. 일부 실시양태에서, 필터링은 하나 이상의 시퀀싱 리드와 인간 참조 게놈 데이터베이스 간의 정확한 매칭에 의해 수행된다. 일부 실시양태에서, 정확한 매칭은 하나 이상의 시퀀싱 리드를 소프트웨어 프로그램 크라켄 또는 크라켄 2로 전산적으로 필터링하는 것을 포함한다. 일부 실시양태에서, 정확한 매칭은 하나 이상의 핵산 시퀀싱 리드를 소프트웨어 프로그램 보타이 2 또는 이의 임의의 등가물로 전산적으로 필터링하는 것을 포함한다. 일부 실시양태에서, 방법은 하나 이상의 필터링된 시퀀싱 리드의 인실리코 오염제거를 수행함으로써 하나 이상의 오염제거된 시퀀싱 리드를 생성하는 단계를 추가로 포함한다. 일부 실시양태에서, 인실리코 오염제거는, 다른 비-인간 신호 피처를 유지하면서, 비-인간 오염물 피처를 확인하고 제거한다. 일부 실시양태에서, 방법은 하나 이상의 오염제거된 시퀀싱 리드를 인간 참조 게놈 데이터베이스의 빌드에 매핑하여 복수의 돌연변이된 인간 서열 정렬을 생성하는 단계를 추가로 포함한다. 일부 실시양태에서, 인간 참조 게놈 데이터베이스는 GRCh38을 포함한다. 일부 실시양태에서, 매핑은 보타이 2 서열 정렬 도구 또는 이의 임의의 등가물에 의해 수행된다. 일부 실시양태에서, 매핑은 단대단 정렬, 국부 정렬, 또는 이들의 임의의 조합을 포함한다. 일부 실시양태에서, 방법은 암 돌연변이 데이터베이스를 질의함으로써 복수의 돌연변이된 인간 서열 정렬에서 암 돌연변이를 확인하는 단계를 추가로 포함한다. 일부 실시양태에서, 암 돌연변이 데이터베이스는 암에서의 체세포 돌연변이의 카달로그(COSMIC), 암 게놈 프로젝트(CGP), 암 게놈 아틀라스(TGCA), 국제 암 게놈 컨소시엄(ICGC) 또는 이들의 임의의 조합으로부터 유래된다. 일부 실시양태에서, 방법은 암 돌연변이를 갖는 암 돌연변이 풍부도 표를 생성하는 단계를 추가로 포함한다. 일부 실시양태에서, 복수의 k-mer는 비-인간 k-mer, 인간 돌연변이된 k-mer, 비-분류된 DNA k-mer, 또는 이들의 임의의 조합을 포함한다. 일부 실시양태에서, 비-인간 k-mer는 박테리아, 고세균, 진균, 바이러스, 또는 이들의 임의의 조합의 생물체의 도메인으로부터 기원한다. 일부 실시양태에서, 하나 이상의 생물학적 샘플은 조직 샘플, 액체 생검 샘플, 또는 이들의 임의의 조합을 포함한다. 일부 실시양태에서, 액체 생검은 혈장, 혈청, 전혈, 소변, 뇌척수액, 타액, 땀, 눈물, 호기 응축물, 또는 이들의 임의의 조합을 포함한다. 일부 실시양태에서, 하나 이상의 대상체는 인간 또는 비-인간 포유동물이다. 일부 실시양태에서, 핵산 조성은 DNA, RNA, 무세포 DNA, 무세포 RNA, 엑소좀 DNA, 엑소좀 RNA, 순환 종양 세포 DNA, 순환 종양 세포 RNA, 또는 이들의 임의의 조합을 포함한다. 일부 실시양태에서, 암 예측 모델의 출력은 암의 존재 또는 부재, 암 신체 부위 위치, 암 체세포 돌연변이, 또는 대상체의 암의 존재 또는 부재와 관련된 이들의 임의의 조합의 진단을 제공한다. 일부 실시양태에서, 암 예측 모델의 출력은 암 체세포 돌연변이, 복수의 k-mer의 풍부도, 또는 이들의 임의의 조합의 분석을 포함한다. 일부 실시양태에서, 트레이닝된 예측 모델은 관심 있는 암에서 특징적인 풍부도와 함께 존재하거나 부재하는 것으로 공지된 암 돌연변이 및 k-mer 풍부도의 세트로 트레이닝된다. 일부 실시양태에서, 암 예측 모델은 대상체의 하나 이상의 유형의 암의 존재 또는 결여를 결정하도록 구성된다. 일부 실시양태에서, 하나 이상의 유형의 암은 낮은 단계에 있다. 일부 실시양태에서, 낮은 단계는 암의 I기, II기, 또는 이들의 임의의 조합의 기를 포함한다. 일부 실시양태에서, 암 예측 모델은 대상체의 하나 이상의 아유형의 암의 존재 또는 결여를 결정하도록 구성된다. 일부 실시양태에서, 암 예측 모델은 대상체의 암 단계를 예측하거나, 암 예후를 예측하거나, 이들의 임의의 조합이도록 구성된다. 일부 실시양태에서, 암 예측 모델은 대상체의 암을 치료하기 위해 치료 화합물을 투여할 때 대상체의 치료 반응을 예측하도록 구성된다. 일부 실시양태에서, 암 예측 모델은 대상체의 암을 치료하기 위한 최적 요법을 결정하도록 구성된다. 일부 실시양태에서, 암 예측 모델은 요법에 대한 대상체의 하나 이상의 암의 반응 과정을 종단적으로 모델링함으로써 요법에 대한 대상체의 하나 이상의 암의 반응 과정의 종단적 모델을 생성하도록 구성된다. 일부 실시양태에서, 암 예측 모델은 종단적 모델에 적어도 부분적으로 기초하여 대상체의 하나 이상의 암의 치료 과정에 대한 조정을 결정하도록 구성된다. 일부 실시양태에서, 암 예측 모델은 대상체의 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 식도 암종, 다형성 교아종, 두경부 편평 세포 암종, 혐색소성 신세포암, 투명 세포형 신세포암, 유두상 신세포암, 간세포암, 폐 선암종, 폐 편평 세포 암종, 림프성 신생물 미만성 거대 B-세포 림프종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 크롬 친화 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 흉선종, 갑상선 암종, 자궁 암육종, 자궁 체부 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합의 암의 존재 또는 결여를 결정하도록 구성된다. 일부 실시양태에서, 복수의 k-mer의 풍부도를 결정하는 것은 젤리피시, UCLUST, 게놈툴스(탈리머), KMC2, 게르빌, DSK, 또는 이들의 임의의 조합에 의해 수행된다. 일부 실시양태에서, 하나 이상의 대상체의 임상 분류는 건강, 암, 비-암 질환, 또는 이들의 임의의 조합의 분류를 포함한다. 일부 실시양태에서, 하나 이상의 필터링된 시퀀싱 리드는 비-인간 시퀀싱 리드, 비-매칭된 비-인간 시퀀싱 리드, 또는 이들의 임의의 조합을 포함한다. 일부 실시양태에서, 하나 이상의 필터링된 시퀀싱 리드는 참조 인간 게놈, 비-인간 시퀀싱 리드, 비-매칭된 비-인간 시퀀싱 리드, 또는 이들의 임의의 조합에 대한 비-정확한 매칭을 포함한다. 일부 실시양태에서, 비-매칭된 비-인간 시퀀싱 리드는 비-인간 참조 게놈 데이터베이스에 매칭되지 않는 시퀀싱 리드를 포함한다.
일부 실시양태에서, 본원에 제공된 개시내용은 하나 이상의 대상체의 암의 존재 또는 결여를 결정하기 위해 트레이닝된 예측 모델을 활용하는 컴퓨터 구현 방법을 기재한다. 일부 실시양태에서, 방법은 (a) 제1의 하나 이상의 대상체의 핵산 샘플의 복수의 체세포 돌연변이 및 비-인간 k-mer 서열을 수신하는 단계; (b) 제1의 하나 이상의 대상체의 복수의 체세포 돌연변이 및 비-인간 k-mer 서열을 트레이닝된 예측 모델에 대한 입력으로서 제공하는 단계로서, 트레이닝된 예측 모델은 제2의 하나 이상의 대상체의 복수의 체세포 돌연변이 서열, 비-인간 k-mer 서열, 및 제2의 하나 이상의 대상체의 상응하는 임상 분류로 트레이닝되고, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체는 상이한 대상체인 단계; 및 (c) 트레이닝된 예측 모델의 출력에 적어도 부분적으로 기초하여 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 단계를 포함한다.
일부 실시양태에서, 복수의 체세포 돌연변이를 수신하는 것은 제1의 하나 이상의 대상체의 핵산 샘플의 체세포 돌연변이를 계수하는 것을 추가로 포함한다. 일부 실시양태에서, 복수의 비-인간 k-mer 서열을 수신하는 것은 제1의 하나 이상의 대상체의 핵산 샘플의 비-인간 k-mer 서열을 계수하는 것을 포함한다. 일부 실시양태에서, 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 것은 제1의 하나 이상의 대상체의 암의 범주 또는 위치를 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 것은 하나 이상의 유형의 제1의 하나 이상의 대상체의 암을 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 것은 하나 이상의 아유형의 제1의 하나 이상의 대상체의 암을 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 것은 암 단계, 암 예후, 또는 이들의 임의의 조합을 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 것은 낮은 단계에서의 암의 유형을 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 낮은 단계에서의 암의 유형은 I기 또는 II기 암을 포함한다. 일부 실시양태에서, 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 것은 제1의 하나 이상의 대상체 암의 돌연변이 상태를 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 돌연변이 상태는 악성, 양성 또는 제자리 암종을 포함한다. 일부 실시양태에서, 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 것은 제1의 하나 이상의 대상체의 암을 치료하기 위한 요법에 대한 제1의 하나 이상의 대상체의 반응을 결정하는 것을 추가로 포함한다.
일부 실시양태에서, 방법에 의해 결정되는 암은 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 식도 암종, 다형성 교아종, 두경부 편평 세포 암종, 혐색소성 신세포암, 투명 세포형 신세포암, 유두상 신세포암, 간세포암, 폐 선암종, 폐 편평 세포 암종, 림프성 신생물 미만성 거대 B-세포 림프종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 크롬 친화 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 흉선종, 갑상선 암종, 자궁 암육종, 자궁 체부 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합을 포함한다.
일부 실시양태에서, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체는 비-인간 포유동물 대상체이다. 일부 실시양태에서, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체는 인간이다. 일부 실시양태에서, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체는 포유동물이다. 일부 실시양태에서, 복수의 비-인간 k-mer 서열은 바이러스, 박테리아, 고세균, 진균, 또는 이들의 임의의 조합의 생물체의 비-포유동물 도메인으로부터 기원한다.
참조에 의한 포함
본 명세서에 언급된 모든 공개문, 특허 및 특허 출원은 각각의 개별 공개문, 특허 또는 특허 출원이 구체적이고 개별적으로 참조로 포함되는 것으로 표시된 것과 동일한 정도로 본원에 참조로 포함된다.
특허 또는 출원 파일은 색상으로 실행된 적어도 하나의 도면을 함유한다. 색상 도면(들)이 있는 이 특허 또는 특허 출원 공개문의 사본은 요청 및 필요한 수수료 지불 시 특허청에 의해 제공된다.
본 발명의 새로운 특색은 특히 첨부된 청구범위에 제시되어 있다. 본 발명의 특색 및 이점에 대한 더 나은 이해는 본 발명의 원리가 활용되는 예시적인 실시양태를 설명하는 하기의 상세한 설명 및 첨부된 도면을 참조함으로써 얻어질 것이다.
도 1a-1c는 건강 및 질환 관련된 미생물 시그니처의 비-인간 k-mer 및 인간 체세포 돌연변이 기반 발견을 가능하게 하는 2개의 분석 파이프라인을 포함하는 예시적인 진단 모델 트레이닝 방식을 나타낸다. 도 1a는 체세포 돌연변이 분석 및 비-인간 k-mer 분석을 위한 차세대 시퀀싱 리드를 준비하기 위해 크라켄을 사용하는 예시적인 전산 파이프라인을 예시한다. 도 1b는 시퀀싱 리드의 전체 풀을 2개의 분석 경로로 분할하는 것을 예시하며, 기계 학습 알고리즘 입력을 포함한 생성된 체세포 돌연변이 및 k-mer 확인 및 풍부도 표를 갖는다. 도 1c는 건강한 대상체 및 암을 갖는 대상체에 고유한 비-인간 k-mer 및 체세포 돌연변이 시그니처를 확인하는 트레이닝된 기계 학습 모델을 생성하기 위해 도 1b로부터의 입력이 어떻게 기계 학습 알고리즘을 트레이닝하는 데 사용되는지를 예시한다.
도 2a - 2b는 진단 모델 트레이닝 방식의 대안적인 실시양태를 나타낸다. 도 2a는 체세포 돌연변이 분석 및 비-인간 k-mer 분석을 위한 차세대 시퀀싱 리드를 준비하기 위해 보타이 2를 사용하는 예시적인 전산 파이프라인을 예시한다. 도 2b는 시퀀싱 리드의 전체 풀을 2개의 분석 경로로 분할하는 것을 예시하며, 기계 학습 알고리즘 입력을 포함한 생성된 체세포 돌연변이 및 k-mer 확인 및 풍부도 표를 갖는다.
도 3은 질환의 진단 및 질환 상태의 분류를 제공하기 위한 트레이닝된 모델의 사용을 예시하며, 트레이닝된 모델에 미지의 질환 상태의 새로운 대상체 데이터가 제공된다.
도 4는 체세포 인간 돌연변이, 공지된 미생물, 미지의 미생물, 미확인된 DNA, 또는 이들의 임의의 조합을 포함하는 무세포 DNA 시퀀싱 리드(cfDNA) 추출된 k-mer로부터 트레이닝된 암 진단 모델을 생성하는 워크플로우를 예시한다.
도 5는 폐 육아종으로부터 폐암을 구별하는 데 있어서 비-매핑된 시퀀싱 리드의 k-mer 풍부도 프로파일에 대해 트레이닝된 예측 모델에 대한 수신자 작동 특징 곡선을 나타낸다.
도 6은 폐 질환으로부터 1기 폐암을 구별하는 데 있어 비-매핑된 시퀀싱 리드의 k-mer 풍부도 프로파일에 대해 트레이닝된 예측 모델에 대한 수신자 작동 특성 곡선을 나타낸다.
도 7은 본원의 일부 실시양태에 기재된 바와 같이 대상체의 암의 존재 또는 결여를 진단하기 위해 트레이닝을 구현하고 트레이닝된 예측 모델을 활용하도록 구성된 컴퓨터 시스템을 나타낸다.
본원에 제공된 개시내용은, 일부 실시양태에서, 하나 이상의 대상체의 하나 이상의 암의 존재 또는 결여, 암 아유형, 및 하나 이상의 암에 대한 요법 반응을 진단 및/또는 결정하기 위한 방법 및 시스템을 기재한다. 하나 이상의 대상체의 하나 이상의 암의 존재 또는 결여의 진단 및/또는 결정은 k-mer 및 인간 체세포 돌연변이 핵산 조성 풍부도의 조합 시그니처를 사용하여 완성될 수 있다. 일부 경우에서, k-mer 핵산 조성은 비-인간 핵산 k-mer, 인간 체세포 돌연변이 핵산 k-mer, 비-인간 비-매핑 가능한 k-mer(즉, 암흑 물질 k-mer), 또는 이들의 임의의 조합의 k-mer를 포함할 수 있다. 일부 예에서, 하나 이상의 대상체의 하나 이상의 암의 존재 또는 결여의 진단 및/또는 결정은 확정된 암 진단을 갖는 대상체의 k-mer 및/또는 체세포 인간 돌연변이 풍부도와 관련된 암의 특정 패턴을 확인함으로써 달성될 수 있다. 일부 예에서, 하나 이상의 예측 모델은 예측 모델 트레이닝을 통해 특정 패턴을 결정, 분석, 추론 및/또는 설명하도록 구성될 수 있다. 일부 예에서, 예측 모델은 하나 이상의 기계 학습 모델 및/또는 알고리즘을 포함할 수 있다. 일부 예에서, 예측 모델은 암 예측 모델을 포함할 수 있다. 일부 경우에서, 예측 모델은 하나 이상의 대상체의 k-mer 및/또는 체세포 인간 돌연변이 풍부도 및 상응하는 대상체의 임상 분류로 트레이닝될 수 있다. 일부 경우에서, 임상 분류는 건강(즉, 확인된 암이 없음), 또는 암(즉, 대상체의 암이 확인된 경우)의 지정을 포함할 수 있다. 일부 경우에서, 예측 모델은 암 임상 분류 대상체의 암 아유형, 암의 기원 신체 부위, 암 단계, 투여된 이전 암 치료 및 상응하는 효능, 또는 이들의 임의의 조합의 암 특정 정보로 추가로 트레이닝될 수 있다. 일부 실시양태에서, 암 분류에 사용될 수 있는 검출된 체세포 인간 돌연변이는, (1) 개체가 암을 갖고/갖거나; (2) 개체가 특정 신체 부위에 암을 갖고/갖거나; (3) 개체가 특정 유형의 암을 갖고/갖거나; (4) 당시에 진단되거나 진단되지 않을 수 있는 암이 특정 암 요법에 대해 높거나 낮은 반응을 갖는 특정 확률을 할당하기 위해, 샘플 내에서 본원의 다른 곳에 기재된 k-mer와 조합하여('조합 시그니처') 종양 억제인자 유전자 또는 종양유전자(이들의 예는 각각 표 1표 2에 제공됨) 및 이들의 존재 또는 풍부도 내에서 발생한다. 일부 실시양태에서, 이러한 방법에 대한 다른 이용은 당업자가 합리적으로 상상할 수 있고 쉽게 구현할 수 있다.
본원에 기재된 시스템 및 방법은 기계 학습 알고리즘의 트레이닝 전에 핵산의 택소노미 할당에 대한 필요조건을 제거함으로써 암 검출을 위한 비-인간 무세포 핵산의 이용을 개선하는 예상치 못한 결과를 제공한다. 암 진단의 관점에서, 일부 실시양태에서, 무세포 핵산 샘플은 택소노미 분류의 관점에서 5개의 주요 핵산 그룹: (1) 종양학적으로 중요한 임의의 돌연변이를 갖지 않는 숙주 포유동물 세포로부터의 핵산; (2) 종양학적으로 중요한 돌연변이를 갖는 숙주 포유동물 세포로부터의 핵산; (3) 공지된 미생물로부터 유래된 미생물 핵산; (4) 미지의 미생물(즉, 주석이 달린 참조 게놈이 아직 존재하지 않는 미생물)로부터 유래된 미생물 핵산; 및 (5) 미확인된 핵산(즉, 임의의 공지된 참조 게놈에 매핑되지 않는 핵산)을 포함할 수 있다. 지금까지, 대상체의 무세포 비-인간 핵산에 기초한 암의 기계 학습 분류는 정의된 미생물 택소노미에 할당될 수 있는 비-인간 시퀀싱 리드를 활용하는 것으로 제한되어 할당되지 않은 서열 리드에 표시된 데이터 콘텐츠는 배제되었다(앞서 언급된 그룹 4 및 5). 예컨대 문헌(Poore et al., Nature. 2020 Mar;579(7800):567-574 및 WO2020093040A1, 전체가 본원에 참조로 포함됨)에서, 샘플에 존재하는 미생물 핵산의 암 특이적 풍부도는 질환의 진단을 형성하는 데 사용된다. 이 방법은 우선적으로 표 3에 나타난 바와 같이 모든 비-인간 시퀀싱 리드의 > 90%가 분석으로부터 폐기되도록 하는 크라켄을 사용하여 미생물 참조 게놈 데이터베이스에 대한 빠른 k-mer 매핑을 통해 비-인간 시퀀싱 리드의 속 수준 택소노미 정체성을 결정하는 데 의존한다. 이러한 데이터 손실은 기존 참조 데이터베이스가 표 3에서 분석된 혈장 샘플과 같은 메타게놈 샘플에 존재하는 전체 미생물의 소분획만을 나타내는 피할 수 없는 결과이다. 데이터 손실을 포착하기 위해, 본원에 기재된 방법 및 시스템은 k-mer 콘텐츠의 무참조 분석을 통해 기계 학습 알고리즘의 트레이닝에 모든 비-인간 시퀀싱 리드를 통합할 수 있다(본원에서, '무참조'는 택소노미 할당을 위해 참조 게놈을 명시적으로 활용하지 않는 핵산 분석 과정을 지칭함).
Figure pct00022
본 발명의 시스템 및 방법은, 일부 실시양태에서, 추가 분석, 예컨대 핵산 k-mer 생성 및/또는 예측 모델 트레이닝 전에 대상체의 핵산 시퀀싱 리드를 참조 매핑 가능한 핵산 시퀀싱 리드 및 비-참조 매핑 가능한 핵산 시퀀싱 리드로 전산적으로 구분 및/또는 분리하는 방법을 포함할 수 있다. 일부 경우에서, 참조 매핑 가능한 시퀀싱 리드는 인간 및/또는 비-인간 참조 게놈 데이터베이스에 매핑되는 인간 및/또는 비-인간 핵산 시퀀싱 리드를 포함할 수 있다. 일부 경우에서, 매핑 가능한 시퀀싱 리드는 비-인간(예컨대, 미생물, 바이러스, 진균, 고세균 등), 인간, 체세포 인간 돌연변이, 또는 이들의 임의의 조합의 핵산 시퀀싱 리드의 핵산 시퀀싱 리드를 포함할 수 있다. 일부 경우에서, 비-참조 매핑 가능한 핵산 시퀀싱 리드는 미생물, 인간 또는 인간 암 게놈 데이터베이스에 매핑되지 않았던 핵산 시퀀싱 리드를 포함할 수 있다. 일부 경우에서, 비-참조 매핑 가능한 시퀀싱은 암흑 물질 리드를 포함할 수 있다.
일부 예에서, 본원의 다른 곳에 기재된 방법은 기계 학습 알고리즘을 위한 입력으로서 k-mer 풍부도를 생성하기 위해 그룹화 및/또는 계수될 수 있는 정의된 k-mer 염기쌍 길이 k의 k-mer의 컬렉션으로 전산적으로 해체된 비-인간, 체세포 인간 돌연변이된, 비-참조 매핑 가능한 또는 이들의 조합의 핵산 시퀀싱 리드를 활용할 수 있다.
일부 실시양태에서, k-mer 염기쌍 길이는 약 20개 염기쌍 내지 약 35개 염기쌍일 수 있다. 일부 실시양태에서, k-mer 염기쌍 길이는 약 20개 염기쌍 내지 약 22개 염기쌍, 약 20개 염기쌍 내지 약 24개 염기쌍, 약 20개 염기쌍 내지 약 26개 염기쌍, 약 20개 염기쌍 내지 약 28개 염기쌍, 약 20개 염기쌍 내지 약 30개 염기쌍, 약 20개 염기쌍 내지 약 32개 염기쌍, 약 20개 염기쌍 내지 약 35개 염기쌍, 약 22개 염기쌍 내지 약 24개 염기쌍, 약 22개 염기쌍 내지 약 26개 염기쌍, 약 22개 염기쌍 내지 약 28개 염기쌍, 약 22개 염기쌍 내지 약 30개 염기쌍, 약 22개 염기쌍 내지 약 32개 염기쌍, 약 22개 염기쌍 내지 약 35개 염기쌍, 약 24개 염기쌍 내지 약 26개 염기쌍, 약 24개 염기쌍 내지 약 28개 염기쌍, 약 24개 염기쌍 내지 약 30개 염기쌍, 약 24개 염기쌍 내지 약 32개 염기쌍, 약 24개 염기쌍 내지 약 35개 염기쌍, 약 26개 염기쌍 내지 약 28개 염기쌍, 약 26개 염기쌍 내지 약 30개 염기쌍, 약 26개 염기쌍 내지 약 32개 염기쌍, 약 26개 염기쌍 내지 약 35개 염기쌍, 약 28개 염기쌍 내지 약 30개 염기쌍, 약 28개 염기쌍 내지 약 32개 염기쌍, 약 28개 염기쌍 내지 약 35개 염기쌍, 약 30개 염기쌍 내지 약 32개 염기쌍, 약 30개 염기쌍 내지 약 35 염기쌍, 또는 약 32개 염기쌍 내지 약 35개 염기쌍일 수 있다. 일부 실시양태에서, k-mer 염기쌍 길이는 약 20개 염기쌍, 약 22개 염기쌍, 약 24개 염기쌍, 약 26개 염기쌍, 약 28개 염기쌍, 약 30개 염기쌍, 약 32개 염기쌍, 또는 약 35개 염기쌍일 수 있다. 일부 실시양태에서, k-mer 염기쌍 길이는 적어도 약 20개 염기쌍, 약 22개 염기쌍, 약 24개 염기쌍, 약 26개 염기쌍, 약 28개 염기쌍, 약 30개 염기쌍, 또는 약 32개 염기쌍일 수 있다. 일부 실시양태에서, k-mer 염기쌍 길이는 최대 약 22개 염기쌍, 약 24개 염기쌍, 약 26개 염기쌍, 약 28개 염기쌍, 약 30개 염기쌍, 약 32개 염기쌍, 또는 약 35개 염기쌍일 수 있다.
일부 실시양태에서, 예측 모델 및/또는 기계 학습 알고리즘에 대한 트레이닝 데이터는 본원의 다른 곳에서 설명된 k-mer의 전부 또는 서브세트를 포함할 수 있다. 예컨대, 150개 염기쌍의 리드 길이 L 및 31개 염기쌍의 길이 k의 k-mer를 가정하면, 각각의 시퀀싱 리드로부터 120개의 고유한 k-mer(L - k + 1)가 생성될 수 있다; 참조 포인트로서 표 3으로부터의 데이터를 사용하여, 개시된 무참조, k-mer 기반 접근법은, 일부 실시양태에서, 할당된 택소노미를 갖는 리드만의 제한된 분석과 비교하여 기계 학습 분석에 이용 가능한, 평균 15배 더 많은 시퀀싱 데이터(> 12.4 x 106 비-인간 k-mer)를 산출할 수 있다. 이와 관련하여, 본 발명의 방법은, 일부 실시양태에서, 암 특이적/특징적 피처를 찾기 위해 분석될 수 있는 핵산 서열의 완전한 표현을 제공할 수 있다.
본원에 제공된 설명은 병태(즉, 암)을 진단하기 위해 비-인간 기원의 핵산을 활용할 수 있는 방법을 개시한다. 일부 실시양태에서, 개시된 발명은 관찰된 조직 구조, 세포 이형성 또는 암을 진단하기 위해 전통적으로 사용되는 다른 주관적 척도 중 하나 이상을 포함할 필요가 없기 때문에 전형적인 병리 보고서와 비교하여 예상보다 더 나은 임상 결과를 제공할 수 있다. 일부 실시양태에서, 개시된 방법은, '정상적인' 인간 공급원의 배경에서는 종종 매우 낮은 빈도로 변형되는 단지 변형된 인간(즉, 암성) 공급원보다 비-인간 리드와 종양학적 중요성의 시퀀싱 리드 둘 다로부터의 데이터를 조합함으로써 대상체의 암을 검출 및/또는 진단하는 고도의 민감도를 제공할 수 있다. 일부 실시양태에서, 본원에 개시된 방법은 고형 조직 또는 액체(예컨대, 혈액, 가래, 소변 등) 생검 샘플에 의해 이러한 결과를 달성할 수 있으며, 후자는 최소 샘플 준비를 필요로 하고 최소로 침습적이다. 일부 실시양태에서, 액체 생검 기반 샘플로부터 개체의 암을 결정하거나 진단할 수 있는 본원의 개시내용의 방법은 종종 비-악성 인간 세포로부터 기원하는 무세포 DNA(cfDNA)로 인한 민감도 문제를 겪는 순환 종양 DNA(ctDNA) 검정에 의해 제기되는 문제를 극복할 수 있다. 일부 실시양태에서, 개시된 방법은 암 유형을 구별할 수 있는 검정을 포함할 수 있으며, ctDNA 검정은 전형적으로 이를 달성할 수 없는데, 이는 대부분의 일반적인 암 게놈 이상이 암 유형(예컨대, TP53 돌연변이, KRAS 돌연변이) 간에 공유되기 때문이다.
일부 실시양태에서, 본원에 개시된 방법은 대상체의 암의 존재 또는 결여를 진단하거나 결정하도록 구성된 예측 모델을 트레이닝하는 방법을 포함할 수 있다. 일부 예에서, 예측 모델은 하나 이상의 기계 학습 알고리즘을 포함할 수 있다. 일부 경우에서, 예측 모델은 본원의 다른 곳에서 기재된 인간 체세포 돌연변이 및 k-mer 핵산 시그너처로 트레이닝될 수 있다. 일부 경우에서, 인간 체세포 돌연변이 및 k-mer 핵산 시그너처는 실시간 시퀀싱 데이터, 후향적 시퀀싱 데이터 또는 이들의 임의의 조합의 시퀀싱 데이터에 의해 제공되는 핵산 서열을 포함할 수 있다. 일부 실시양태에서, 실시간 시퀀싱 데이터는 암의 존재 또는 결여에 대해 전향적으로 수득되고 분석되는 시퀀싱 데이터를 포함할 수 있다. 일부 실시양태에서, 후향적 시퀀싱 데이터는 과거에 수집되었고 후향적으로 분석되는 시퀀싱 데이터를 포함할 수 있다. 일부 실시양태에서, 인간 체세포 돌연변이 및 비-인간 k-mer는 조합 시그니처를 포함할 수 있다.
일부 실시양태에서, 본원에 제공된 개시내용은 대상체의 암의 존재 또는 결여를 진단 및/또는 결정하는 방법을 기재한다. 일부 예에서, 방법은 (a) 일상적인 클리닉 방문 동안 대상체로부터 혈액 샘플을 취하는 단계; (b) 해당 혈액 샘플로부터 혈장 또는 혈청을 준비하고, 그 안에 함유된 핵산을 추출하고, 이전에 트레이닝된 예측 모델을 통해 이전에 결정된 특정 조합 시그니처에 대한 서열을 암 진단에 유용한 피처로 증폭하는 단계; (c) 조합 시그니처의 존재 및/또는 풍부도(예컨대, 인간 체세포 돌연변이 및 k-mer 핵산 우세도(prevalence) 및/또는 풍부도)의 디지털 리드값을 수득하는 단계; (d) 인접한 컴퓨터 또는 클라우드 컴퓨팅 인프라의 존재 및/또는 풍부도 데이터를 정규화하고 이전에 트레이닝된 기계 학습 모델에 입력하는 단계; (e) 이 샘플이 (1) 암의 존재 또는 부재와 관련되거나, (2) 특정 유형 또는 신체 위치의 암과 관련되거나, (3) 다양한 암 요법에 대한 반응의 높은, 중간, 또는 낮은 가능성과 관련될 가능성이 얼마나 있는지에 대한 예측 및 신뢰도를 판독하는 단계; 및 (f) 나중에 사용자가 추가 정보를 입력하면 기계 학습 모델을 계속 트레이닝하기 위해 샘플의 체세포 돌연변이 및 비-인간 k-mer 정보를 사용하는 단계를 포함할 수 있다.
일부 실시양태에서, 본원에 제공된 개시내용은 대상체의 암을 진단하는 방법을 기재한다. 일부 예에서, 방법은 (a) 대상체의 샘플의 복수의 체세포 돌연변이 및 비-인간 k-mer 서열을 결정하는 단계; (b) 대상체의 복수의 체세포 돌연변이 및 복수의 비-인간 k-mer 서열을 주어진 암에 대한 복수의 체세포 돌연변이 및 비-인간 k-mer 서열과 비교하는 단계; 및 (c) 주어진 암에 대한 복수의 체세포 돌연변이 및 비-인간 k-mer 서열의 비교에 적어도 부분적으로 기초하여 암의 존재 또는 결여의 확률을 제공함으로써 대상체의 암을 진단하는 단계를 포함할 수 있다. 일부 경우에서, 복수의 체세포 돌연변이를 결정하는 것은 대상체의 샘플의 체세포 돌연변이를 계수하는 것을 추가로 포함할 수 있다. 일부 예에서, 복수의 비-인간 k-mer 서열을 결정하는 것은 대상체의 샘플의 비-인간 k-mer 서열을 계수하는 것을 포함할 수 있다. 일부 경우에서, 대상체의 암을 진단하는 것은 암의 범주 또는 위치를 결정하는 것을 추가로 포함할 수 있다. 일부 예에서, 대상체의 암을 진단하는 것은 하나 이상의 유형의 대상체의 암을 결정하는 것을 추가로 포함할 수 있다. 일부 경우에서, 대상체의 암을 진단하는 것은 하나 이상의 아유형의 대상체의 암을 결정하는 것을 추가로 포함할 수 있다. 일부 예에서, 대상체의 암을 진단하는 것은 대상체의 암 단계, 암 예후, 또는 이들의 임의의 조합을 결정하는 것을 추가로 포함할 수 있다. 일부 경우에서, 대상체의 암을 진단하는 것은 낮은 단계에서의 암의 유형을 결정하는 것을 추가로 포함할 수 있다. 일부 경우에서, 낮은 단계에서의 암의 유형은 I기 또는 II기 암을 포함할 수 있다. 일부 예에서, 대상체의 암을 진단하는 것은 대상체의 암의 돌연변이 상태를 결정하는 것을 추가로 포함할 수 있다. 일부 경우에서, 대상체의 암을 진단하는 것은 대상체의 암을 치료하기 위한 요법에 대한 대상체의 반응을 결정하는 것을 추가로 포함할 수 있다. 일부 예에서, 암은 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 식도 암종, 다형성 교아종, 두경부 편평 세포 암종, 혐색소성 신세포암, 투명 세포형 신세포암, 유두상 신세포암, 간세포암, 폐 선암종, 폐 편평 세포 암종, 림프성 신생물 미만성 거대 B-세포 림프종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 크롬 친화 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 흉선종, 갑상선 암종, 자궁 암육종, 자궁 체부 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 경우에서, 대상체는 비-인간 포유동물일 수 있다. 일부 경우에서, 대상체는 인간일 수 있다. 일부 경우에서, 대상체는 포유동물일 수 있다. 일부 예에서, 복수의 비-인간 k-mer 서열은 바이러스, 박테리아, 고세균, 진균, 또는 이들의 임의의 조합의 생물체의 비-포유동물 도메인으로부터 기원할 수 있다.
일부 실시양태에서, 본원에 제공된 개시내용은 트레이닝된 예측 모델을 사용하여 대상체의 암을 진단하는 방법을 기재한다. 일부 경우에서, 방법은 (a) 제1의 하나 이상의 대상체의 핵산 샘플의 복수의 체세포 돌연변이 및 비-인간 k-mer 핵산 서열을 수신하는 단계; (b) 제1의 대상체의 복수의 체세포 돌연변이 및 비-인간 k-mer 서열을 트레이닝된 예측 모델에 대한 입력으로서 제공하는 단계로서, 트레이닝된 예측 모델은 제2의 하나 이상의 대상체의 복수의 체세포 돌연변이 서열, 비-인간 k-mer 서열, 및 제2의 하나 이상의 대상체의 상응하는 임상 분류로 트레이닝되고, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체는 상이한 대상체인 단계; 및 (c) 트레이닝된 예측 모델의 출력에 적어도 부분적으로 기초하여 제1의 하나 이상의 대상체의 암을 진단하는 단계를 포함할 수 있다. 일부 경우에서, 복수의 체세포 돌연변이 핵산 서열을 수신하는 것은 제1의 하나 이상의 대상체의 핵산 샘플의 체세포 돌연변이 핵산 서열을 계수하는 것을 추가로 포함할 수 있다. 일부 예에서, 복수의 비-인간 k-mer 핵산 서열을 수신하는 것은 제1의 하나 이상의 대상체의 핵산 샘플의 비-인간 k-mer 핵산 서열을 계수하는 것을 추가로 포함할 수 있다. 일부 경우에서, 제1의 하나 이상의 대상체의 암을 진단하는 것은 제1의 하나 이상의 대상체의 암의 범주 또는 위치를 결정하는 것을 추가로 포함할 수 있다. 일부 경우에서, 제1의 하나 이상의 대상체의 암을 진단하는 것은 하나 이상의 유형의 제1의 하나 이상의 대상체의 암을 결정하는 것을 추가로 포함할 수 있다. 일부 경우에서, 제1의 하나 이상의 대상체의 암을 진단하는 것은 하나 이상의 아유형의 제1의 하나 이상의 대상체의 암을 결정하는 것을 추가로 포함할 수 있다. 일부 예에서, 제1의 하나 이상의 대상체의 암을 진단하는 것은 제1의 하나 이상의 대상체의 암 단계, 암 예후 또는 이들의 임의의 조합을 결정하는 것을 추가로 포함할 수 있다. 일부 경우에서, 제1의 하나 이상의 대상체의 암을 진단하는 것은 낮은 단계에서의 암의 유형을 결정하는 것을 추가로 포함할 수 있다. 일부 경우에서, 낮은 단계에서의 암의 유형은 I기 또는 II기 암을 포함할 수 있다. 일부 예에서, 제1의 하나 이상의 대상체의 암을 진단하는 것은 제1의 하나 이상의 대상체의 암의 돌연변이 상태를 결정하는 것을 추가로 포함할 수 있다. 일부 경우에서, 제1의 하나 이상의 대상체의 암을 진단하는 것은 제1의 하나 이상의 대상체의 암을 치료하기 위한 요법에 대한 제1의 하나 이상의 대상체의 반응을 결정하는 것을 추가로 포함할 수 있다. 일부 예에서, 암은 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 식도 암종, 다형성 교아종, 두경부 편평 세포 암종, 혐색소성 신세포암, 투명 세포형 신세포암, 유두상 신세포암, 간세포암, 폐 선암종, 폐 편평 세포 암종, 림프성 신생물 미만성 거대 B-세포 림프종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 크롬 친화 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 흉선종, 갑상선 암종, 자궁 암육종, 자궁 체부 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 경우에서, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체는 비-인간 포유동물일 수 있다. 일부 예에서, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체는 인간일 수 있다. 일부 경우에서, 제1의 하나 이상의 대상체는 포유동물일 수 있다. 일부 예에서, 복수의 비-인간 k-mer 서열은 바이러스, 박테리아, 고세균, 진균, 또는 이들의 임의의 조합의 생물체의 비-포유동물 도메인으로부터 기원할 수 있다.
일부 실시양태에서, 본원에 제공된 개시내용은 대상체의 암의 존재 또는 결여를 진단 및/또는 결정하도록 구성된 트레이닝된 예측 모델을 생성하는 방법을 기재한다. 일부 경우에서, 방법은 (a) 대상체의 액체 생검 샘플의 핵산 콘텐츠를 시퀀싱하는 단계; 및 (b) 대상체의 시퀀싱된 핵산으로 진단 모델을 트레이닝하여 진단 모델을 생성하는 단계를 포함할 수 있다. 일부 실시양태에서, 시퀀싱 방법은 차세대 시퀀싱, 긴 리드 시퀀싱(예컨대, 나노포어 시퀀싱) 또는 이들의 임의의 조합을 포함할 수 있다. 일부 실시양태에서, 진단 모델(118)은 도 1c에 도시된 바와 같이 트레이닝된 기계 학습 알고리즘(117)을 포함할 수 있다. 일부 실시양태에서, 진단 모델은 정규화된 기계 학습 모델을 포함할 수 있다. 일부 실시양태에서, 트레이닝된 기계 학습 모델 알고리즘은 선형 회귀, 로지스틱 회귀, 결정 트리, 써포트 벡터 머신(SVM), 나이브 베이즈(naive bayes), k-최근접 이웃(kNN), k-평균, 랜덤 포레스트 모델, 또는 이들의 임의의 조합을 포함할 수 있다..
일부 경우에서, 본원에 제공된 개시내용의 방법은 도 1a-1c에 도시된 바와 같이 기계 학습 알고리즘을 트레이닝하는 방법을 기재한다. 일부 예에서, 기계 학습 알고리즘(117)은 복수의 공지된 건강한 대상체(101) 및 복수의 공지된 암 대상체(102)의 핵산으로부터 유래된 핵산 시퀀싱 데이터를 포함하는 차세대 시퀀싱(NGS) 리드(103)로 트레이닝될 수 있다. 예컨대, 기계 학습 알고리즘(117)은 생물정보학 파이프라인을 통해 처리된 핵산 시퀀싱 데이터(103)로 트레이닝될 수 있다. 일부 경우에서, 생물정보학 파이프라인은 (a) 정확한 매칭을 갖는 k-mer 매핑을 사용하여 인간 게놈에 대한 모든 시퀀싱 리드 매핑을 전산적으로 필터링하는 단계(104); (b) 인간 참조 게놈에 대한 모든 정확한 매칭을 폐기하는 단계(105); (c) 나머지 리드를 처리하는 단계(106)로서, 나머지 리드는 참조 게놈에 정확히 매핑되지 않고 종양학적 중요성의 체세포 돌연변이(이하 '체세포 돌연변이')가 풍부할 가능성이 있는 인간 리드, 공지된 미생물로부터의 리드, 미지의 미생물로부터의 리드, 미확인된 리드 또는 이들의 임의의 조합을 포함할 수 있는 단계; (d) 오염제거 파이프라인을 통해 DNA 오염물을 오염제거하여(107) 일반적인 미생물 오염물로부터 유래된 서열을 제거함으로써 인실리코 오염제거된 리드 세트를 생성하는 단계(108); (e) 보타이 2를 통해 인간 참조 게놈에 대한 제2 라운드의 매핑을 수행하여(109) 체세포 인간 돌연변이된 서열(인간 참조 게놈에 대한 부정확한 매칭) (110) 및 비-인간 서열(113)을 수득하는 단계; (f) 체세포 인간 돌연변이된 서열의 컬렉션(110)으로 암 돌연변이 데이터베이스를 질의하여(111) 공지된 암 돌연변이를 확인하는 단계; (g) 체세포 인간 돌연변이된 서열의 풍부도를 생성하는 단계(112); (h) 비-인간 서열 리드(113)를 k-mer의 컬렉션(114)으로 분해하는 단계; (i) k-mer를 분석하여 k-mer 정체성 및 풍부도를 생성하는 단계(115); (j) 체세포 인간 돌연변이 서열 풍부도 데이터(112)와 k-mer 정체성 및 풍부도 데이터(115)를 조합하여 기계 학습 트레이닝 데이터세트를 생성하는 단계(116)를 포함할 수 있다. 일부 실시양태에서, k-mer 분석은 프로그램 젤리피시, UCLUST, 게놈툴스 (탈리머), KMC2, DSK, 게르빌 또는 이의 임의의 등가물로 수행될 수 있다. 일부 경우에서, k-mer 분석은 k-mer를 계수하는 것 및 k-mer를 정체성에 의해 풍부도 표로 구성하는 것을 포함할 수 있다. 일부 경우에서, 인간 참조 게놈은 GRCh38을 포함할 수 있다. 일부 경우에서, 체세포 인간 돌연변이된 서열의 풍부도는 풍부도 표로 구성될 수 있다. 일부 예에서, 정확한 매칭을 갖는 빠른 k-mer 매핑은 GRCh38 인간 게놈 데이터베이스에 대해 크라켄 소프트웨어 패키지를 사용하여 완료될 수 있다.
일부 실시양태에서, 기계 학습 알고리즘(117)은 기계 학습 트레이닝 데이터세트(116)로 트레이닝되어 트레이닝된 진단 모델(118)을 생성할 수 있으며, 트레이닝된 진단 모델은 건강한 대상체와 관련 및/또는 이를 나타내는 핵산 시그니처(119) 및 암을 갖는 대상체와 관련 및/또는 이를 나타내는 핵산 시그너처(120)를 결정할 수 있다.
일부 예에서, 본원에 제공된 개시내용의 방법은 도 2a-2b에 도시된 바와 같이 기계 학습 알고리즘을 트레이닝하는 방법을 포함할 수 있다. 일부 경우에서, 방법은 (a) 공지된 건강한 대상체로부터의 핵산 샘플(101) 및 공지된 암 대상체로부터의 핵산 샘플(102)을 제공하는 단계; (b) 공지된 건강한 대상체 및 공지된 암 대상체의 핵산 샘플을 시퀀싱하여 복수의 시퀀싱 리드를 생성하는 단계(103); (c) 시퀀싱 리드를 인간 게놈 데이터베이스에 매핑함으로써 시퀀싱 리드를 체세포 인간 돌연변이된 시퀀싱 리드(110) 및 비-인간 시퀀싱 리드(202)로 분리하는 단계; (d) 비-인간 시퀀싱 리드를 오염제거하여(107) 복수의 오염제거된 비-인간 시퀀싱 리드를 생성하는 단계(203); (e) 암 돌연변이 데이터베이스(111)에 대해 체세포 인간 돌연변이된 시퀀싱 리드(110)를 질의하여 체세포 인간 돌연변이된 시퀀싱 리드로부터 복수의 암 돌연변이 ID & 풍부도를 생성하는 단계(112); (f) 오염제거된 비-인간 리드(203)로부터 복수의 k-mer(114) 및 관련된 비-인간 k-mer ID 및 풍부도(115)를 생성하는 단계; (g) 비-인간 k-mer ID 및 풍부도 및 복수의 체세포 돌연변이된 서열 ID 및 풍부도를 기계 학습 트레이닝 데이터세트와 조합하는 단계(116); 및 (f) 기계 학습 트레이닝 데이터세트(116)로 기계 학습 알고리즘(117)을 트레이닝하여 트레이닝된 진단 기계 학습 모델을 생성하는 단계(118)를 포함할 수 있다. 일부 예에서, 트레이닝된 진단 기계 학습 모델은 기계 학습 건강한 시그니처(119), 암 시그니처(120), 또는 이들의 임의의 조합 시그니처를 포함할 수 있다. 일부 경우에서, 시퀀싱 리드를 인간 게놈 데이터베이스에 매핑하는 것은 보타이 2를 사용하여 달성될 수 있다. 일부 예에서, 인간 게놈 데이터베이스는 GRCh38을 포함할 수 있다. 일부 경우에서, 비-인간 시퀀싱 리드는 공지된 미생물, 미지의 미생물, 미확인된 DNA, DNA 오염물 또는 이들의 임의의 조합의 시퀀싱 리드를 포함할 수 있다.
일부 실시양태에서, 본원에 제공된 개시내용은 도 4에 도시된 바와 같이 암 예측 모델(400)을 생성하는 방법을 기재한다. 일부 경우에서, 방법은 (a) 하나 이상의 대상체의 생물학적 샘플의 하나 이상의 핵산 시퀀싱 리드를 제공하는 단계(401); (b) 인간 게놈 데이터베이스(403)로 하나 이상의 핵산 시퀀싱 리드를 필터링하여 하나 이상의 필터링된 시퀀싱 리드를 생성하는 단계(404); (c) 하나 이상의 필터링된 시퀀싱 리드로부터 복수의 k-mer를 생성하는 단계(406); 및 (d) 복수의 k-mer 및 하나 이상의 대상체의 상응하는 임상 분류로 예측 모델을 트레이닝함으로써 암 예측 모델을 생성하는 단계(408, 410)를 포함할 수 있다. 일부 경우에서, 트레이닝된 예측 모델은 암 관련된 k-mer 세트(408)를 포함할 수 있다. 일부 경우에서, 하나 이상의 시퀀싱 리드는 인간(412), 인간 체세포 돌연변이(414), 미생물(416), 비-인간 비-참조 매핑 가능(즉, "미지") (418), 또는 이들의 임의의 조합의 시퀀싱 리드를 포함할 수 있다. 일부 경우에서, 트레이닝된 예측 모델은 비-암 관련된 k-mer 세트(410)를 포함할 수 있다. 일부 경우에서, 방법은 복수의 k-mer의 풍부도를 결정하는 단계 및 예측 모델을 복수의 k-mer의 풍부도로 트레이닝하는 단계를 추가로 포함할 수 있다. 일부 경우에서, 필터링은 하나 이상의 핵산 시퀀싱 리드와 인간 참조 게놈 데이터베이스 간의 정확한 매칭에 의해 수행될 수 있다. 일부 예에서, 정확한 매칭은 하나 이상의 핵산 시퀀싱 리드를 소프트웨어 프로그램 크라켄 또는 크라켄 2로 전산적으로 필터링하는 것을 포함할 수 있다. 일부 경우에서, 정확한 매칭은 하나 이상의 핵산 시퀀싱 리드를 소프트웨어 프로그램 보타이 2 또는 이의 임의의 등가물로 전산적으로 필터링하는 것을 포함할 수 있다. 일부 경우에서, 방법은 하나 이상의 필터링된 시퀀싱 리드의 인실리코 오염제거를 수행하여 하나 이상의 오염제거된 시퀀싱 리드를 생성하는 단계를 추가로 포함할 수 있다. 일부 예에서, 인실리코 오염제거는, 다른 비-인간 신호 피처를 유지하면서, 비-인간 오염물 피처를 확인하고 제거할 수 있다. 일부 경우에서, 방법은 하나 이상의 오염제거된 시퀀싱 리드를 인간 참조 게놈 데이터베이스의 빌드에 매핑하여 복수의 돌연변이된 인간 서열 정렬을 생성하는 단계를 추가로 포함할 수 있다. 일부 경우에서, 인간 참조 게놈 데이터베이스는 GRCh38을 포함할 수 있다. 일부 예에서, 매핑은 보타이 2 서열 정렬 도구 또는 이의 임의의 등가물에 의해 수행될 수 있다. 일부 경우에서, 매핑은 단대단 정렬, 국부 정렬, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 예에서, 방법은 암 돌연변이 데이터베이스를 질의함으로써 복수의 돌연변이된 인간 서열 정렬에서 암 돌연변이를 확인하는 단계를 추가로 포함할 수 있다. 일부 예에서, 암 돌연변이 데이터베이스는 암에서의 체세포 돌연변이의 카달로그(COSMIC), 암 게놈 프로젝트(CGP), 암 게놈 아틀라스(TGCA), 국제 암 게놈 컨소시엄(ICGC) 또는 이들의 임의의 조합으로부터 유래될 수 있다. 일부 경우에서, 방법은 암 돌연변이를 갖는 암 돌연변이 풍부도 표를 생성하는 단계를 추가로 포함할 수 있다. 일부 예에서, 복수의 k-mer는 비-인간 k-mer, 인간 돌연변이된 k-mer, 비-분류된 DNA k-mer, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 예에서, 비-인간 k-mer는 박테리아, 고세균, 진균, 바이러스, 또는 이들의 임의의 조합의 생물체의 도메인으로부터 기원할 수 있다. 일부 경우에서, 하나 이상의 생물학적 샘플은 조직 샘플, 액체 생검 샘플, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 경우에서, 액체 생검은 혈장, 혈청, 전혈, 소변, 뇌척수액, 타액, 땀, 눈물, 호기 응축물, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 예에서, 하나 이상의 대상체는 인간 또는 비-인간 포유동물일 수 있다. 일부 경우에서, 하나 이상의 핵산 시퀀싱 리드는 DNA, RNA, 무세포 DNA, 무세포 RNA, 엑소좀 DNA, 엑소좀 RNA, 순환 종양 세포 DNA, 순환 종양 세포 RNA, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 예에서, 암 예측 모델의 출력은 암의 존재 또는 부재, 암 신체 부위 위치, 암 체세포 돌연변이, 또는 대상체의 암의 존재 또는 부재와 관련된 이들의 임의의 조합의 진단을 제공할 수 있다. 일부 경우에서, 암 예측 모델의 출력은 암 체세포 돌연변이, 복수의 k-mer의 풍부도, 또는 이들의 임의의 조합의 분석을 포함할 수 있다. 일부 예에서, 트레이닝된 예측 모델은 관심 있는 암에서 특징적인 풍부도와 함께 존재하거나 부재하는 것으로 공지된 일련의 암 돌연변이 및 k-mer 풍부도의 세트로 트레이닝될 수 있다. 일부 경우에서, 암 예측 모델은 대상체의 하나 이상의 유형의 암의 존재 또는 결여를 결정하도록 구성될 수 있다. 일부 예에서, 하나 이상의 유형의 암은 낮은 단계에 있을 수 있다. 일부 경우에서, 낮은 단계는 암의 I기, II기, 또는 이들의 임의의 조합의 기를 포함할 수 있다. 일부 예에서, 암 예측 모델은 대상체의 하나 이상의 아유형의 암의 존재 또는 결여를 결정하도록 구성될 수 있다. 일부 경우에서, 암 예측 모델은 암 단계를 예측하거나, 암 예후를 예측하거나, 이들의 임의의 조합이도록 구성될 수 있다. 일부 예에서, 암 예측 모델은 대상체의 암을 치료하기 위해 치료 화합물을 투여할 때 대상체의 치료 반응을 예측하도록 구성될 수 있다. 일부 경우에서, 암 예측 모델은 대상체의 암을 치료하기 위한 최적의 요법을 결정하도록 구성될 수 있다. 일부 예에서, 암 예측 모델은 요법에 대한 대상체의 하나 이상의 암의 반응 과정을 종단적으로 모델링하여 요법에 대한 대상체의 하나 이상의 암의 반응 과정의 종단적 모델을 생성하도록 구성될 수 있다. 일부 경우에서, 암 예측 모델은 종단적 모델에 적어도 부분적으로 기초하여 대상체의 하나 이상의 암의 치료 과정에 대한 조정을 결정하도록 구성될 수 있다. 일부 예에서, 암 예측 모델은 대상체의 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 식도 암종, 다형성 교아종, 두경부 편평 세포 암종, 혐색소성 신세포암, 투명 세포형 신세포암, 유두상 신세포암, 간세포암, 폐 선암종, 폐 편평 세포 암종, 림프성 신생물 미만성 거대 B-세포 림프종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 크롬 친화 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 흉선종, 갑상선 암종, 자궁 암육종, 자궁 체부 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합의 암의 존재 또는 결여를 결정하도록 구성될 수 있다. 일부 경우에서, 복수의 k-mer의 풍부도를 결정하는 것은 젤리피시, UCLUST, 게놈툴스 (탈리머), KMC2, 게르빌, DSK, 또는 이들의 임의의 조합에 의해 수행될 수 있다. 일부 예에서, 하나 이상의 대상체의 임상 분류는 건강, 암, 비-암 질환, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 경우에서, 하나 이상의 필터링된 시퀀싱 리드는 비-인간 시퀀싱 리드, 비-매칭된 비-인간 시퀀싱 리드, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 예에서, 비-매칭된 비-인간 시퀀싱 리드는 비-인간 참조 게놈 데이터베이스에 매칭되지 않는 시퀀싱 리드를 포함할 수 있다.
일부 실시양태에서, 본원에 제공된 개시내용은 암 예측 모델을 생성하는 방법을 기재한다. 일부 경우에서, 방법은 (a) 하나 이상의 대상체의 생물학적 샘플의 핵산 조성을 시퀀싱하여 하나 이상의 시퀀싱 리드를 생성하는 단계;(b) 하나 이상의 핵산 시퀀싱 리드를 인간 게놈 데이터베이스로 필터링하여 하나 이상의 필터링된 시퀀싱 리드를 생성하는 단계; (c) 하나 이상의 필터링된 시퀀싱 리드로부터 복수의 k-mer를 생성하는 단계; 및 (d) 복수의 k-mer 및 하나 이상의 대상체의 상응하는 임상 분류로 예측 모델을 트레이닝함으로써 암 예측 모델을 생성하는 단계를 포함할 수 있다. 일부 경우에서, 트레이닝된 예측 모델은 암 관련된 k-mer 세트를 포함할 수 있다. 일부 경우에서, 트레이닝된 예측 모델은 비-암 관련된 k-mer 세트를 포함할 수 있다. 일부 경우에서, 방법은 복수의 k-mer의 풍부도를 결정하는 단계 및 예측 모델을 복수의 k-mer의 풍부도로 트레이닝하는 단계를 추가로 포함할 수 있다. 일부 경우에서, 필터링은 하나 이상의 시퀀싱 리드와 인간 참조 게놈 데이터베이스 간의 정확한 매칭에 의해 수행될 수 있다. 일부 예에서, 정확한 매칭은 하나 이상의 시퀀싱 리드를 소프트웨어 프로그램 크라켄 또는 크라켄 2로 전산적으로 필터링하는 것을 포함할 수 있다. 일부 경우에서, 정확한 매칭은 하나 이상의 시퀀싱 리드를 소프트웨어 프로그램 보타이 2 또는 이의 임의의 등가물로 전산적으로 필터링하는 것을 포함할 수 있다. 일부 경우에서, 방법은 하나 이상의 필터링된 시퀀싱 리드의 인실리코 오염제거를 수행하여 하나 이상의 오염제거된 시퀀싱 리드를 생성하는 단계를 추가로 포함할 수 있다. 일부 예에서, 인실리코 오염제거는, 다른 비-인간 신호 피처를 유지하면서, 비-인간 오염물 피처를 확인하고 제거할 수 있다. 일부 경우에서, 방법은 하나 이상의 오염제거된 시퀀싱 리드를 인간 참조 게놈 데이터베이스의 빌드에 매핑하여 복수의 돌연변이된 인간 서열 정렬을 생성하는 단계를 추가로 포함할 수 있다. 일부 예에서, 인간 참조 게놈 데이터베이스는 GRCh38을 포함할 수 있다. 일부 예에서, 매핑은 보타이 2 서열 정렬 도구 또는 이의 임의의 등가물에 의해 수행될 수 있다. 일부 경우에 매핑은 단대단 정렬, 국부 정렬, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 예에서, 방법은 암 돌연변이 데이터베이스를 질의함으로써 복수의 돌연변이된 인간 서열 정렬에서 암 돌연변이를 확인하는 단계를 추가로 포함할 수 있다. 일부 예에서, 암 돌연변이 데이터베이스는 암에서의 체세포 돌연변이의 카달로그(COSMIC), 암 게놈 프로젝트(CGP), 암 게놈 아틀라스(TGCA), 국제 암 게놈 컨소시엄(ICGC) 또는 이들의 임의의 조합으로부터 유래될 수 있다. 일부 경우에서, 방법은 암 돌연변이를 갖는 암 돌연변이 풍부도 표를 생성하는 단계를 추가로 포함할 수 있다. 일부 예에서, 복수의 k-mer는 비-인간 k-mer, 인간 돌연변이된 k-mer, 비-분류된 DNA k-mer, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 예에서, 비-인간 k-mer는 박테리아, 고세균, 진균, 바이러스 또는 이들의 임의의 조합의 생물체의 도메인으로부터 기원할 수 있다. 일부 경우에서, 하나 이상의 생물학적 샘플은 조직 샘플, 액체 생검 샘플, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 경우에서, 액체 생검은 혈장, 혈청, 전혈, 소변, 뇌척수액, 타액, 땀, 눈물, 호기 응축물, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 경우에서, 하나 이상의 대상체는 인간 또는 비-인간 포유동물일 수 있다. 일부 경우에서, 핵산 조성은 DNA, RNA, 무세포 DNA, 무세포 RNA, 엑소좀 DNA, 엑소좀 RNA, 순환 종양 세포 DNA, 순환 종양 세포 RNA, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 예에서, 암 예측 모델의 출력은 암의 존재 또는 부재, 암 신체 부위 위치, 암 체세포 돌연변이, 또는 대상체의 암의 존재 또는 부재와 관련된 이들의 임의의 조합의 진단을 제공할 수 있다. 일부 경우에서, 암 예측 모델의 출력은 암 체세포 돌연변이, 복수의 k-mer의 풍부도, 또는 이들의 임의의 조합의 분석을 포함할 수 있다. 일부 예에서, 트레이닝된 예측 모델은 관심 있는 암에서 특징적인 풍부도와 함께 존재하거나 부재하는 것으로 공지된 암 돌연변이 및 k-mer 풍부도 세트로 트레이닝될 수 있다. 일부 경우에서, 암 예측 모델은 대상체의 하나 이상의 유형의 암의 존재 또는 결여를 결정하도록 구성될 수 있다. 일부 예에서, 하나 이상의 유형의 암은 낮은 단계에 있을 수 있다. 일부 경우에서, 낮은 단계는 암의 I기, II기, 또는 이들의 임의의 조합의 기를 포함할 수 있다. 일부 경우에서, 암 예측 모델은 대상체의 하나 이상의 아유형의 암의 존재 또는 결여를 결정하도록 구성될 수 있다. 일부 경우에서, 암 예측 모델은 대상체의 암 단계를 예측하거나, 암 예후를 예측하거나, 이들의 임의의 조합이도록 구성될 수 있다. 일부 예에서, 암 예측 모델은 대상체의 암을 치료하기 위해 치료 화합물을 투여할 때 대상체의 치료 반응을 예측하도록 구성될 수 있다. 일부 경우에서, 암 예측 모델은 대상체의 암을 치료하기 위한 최적의 요법을 결정하도록 구성될 수 있다. 일부 예에서, 암 예측 모델은 요법에 대한 대상체의 하나 이상의 암의 반응 과정을 종단적으로 모델링하여 요법에 대한 대상체의 하나 이상의 암의 반응 과정의 종단적 모델을 생성하도록 구성될 수 있다. 일부 경우에서, 암 예측 모델은 종단적 모델에 적어도 부분적으로 기초하여 대상체의 하나 이상의 암의 치료 과정에 대한 조정을 결정하도록 구성될 수 있다. 일부 예에서, 암 예측 모델은 대상체의 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 식도 암종, 다형성 교아종, 두경부 편평 세포 암종, 혐색소성 신세포암, 투명 세포형 신세포암, 유두상 신세포암, 간세포암, 폐 선암종, 폐 편평 세포 암종, 림프성 신생물 미만성 거대 B-세포 림프종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 크롬 친화 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 흉선종, 갑상선 암종, 자궁 암육종, 자궁 체부 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합의 암의 존재 또는 결여를 결정하도록 구성될 수 있다. 일부 경우에서, 복수의 k-mer의 풍부도를 결정하는 것은 젤리피시, UCLUST, 게놈툴스 (탈리머), KMC2, 게르빌, DSK, 또는 이들의 임의의 조합에 의해 수행될 수 있다. 일부 경우에서, 하나 이상의 대상체의 임상 분류는 건강, 암, 비-암 질환, 또는 이들의 임의의 조합의 분류를 포함할 수 있다. 일부 경우에서, 하나 이상의 필터링된 시퀀싱 리드는 비-인간 시퀀싱 리드, 비-매칭된 비-인간 시퀀싱 리드, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 경우에서, 하나 이상의 필터링된 시퀀싱 리드는 참조 인간 게놈에 대한 비-정확한 매칭, 비-인간 시퀀싱 리드, 비-매칭된 비-인간 시퀀싱 리드, 또는 이들의 임의의 조합을 포함할 수 있다. 일부 예에서, 비-매칭된 비-인간 시퀀싱 리드는 비-인간 참조 게놈 데이터베이스에 매칭되지 않는 시퀀싱 리드를 포함할 수 있다.
일부 실시양태에서, 트레이닝된 진단 모델(118)은 도 3에 도시된 바와 같이 미지의 질환 상태의 대상체로부터의 핵산 샘플을 분석(301)하고, 질환의 진단 및 적용 가능한 경우 해당 질환의 상태의 분류를 제공(303)하는 데 사용될 수 있다.
일부 실시양태에서, 기계 학습 알고리즘(117)은 하기 단계를 포함하는 생물정보학 파이프라인을 통해 처리된 핵산 시퀀싱 데이터(103)로 트레이닝될 수 있다: (a) 모든 시퀀싱 리드 매핑을 보타이 2를 사용하여 인간 게놈에 대해 전산적으로 필터링하는 단계(201); (b) 돌연변이된 인간 서열을 포함하는 인간 참조 게놈에 대한 모든 부정확한 매칭을 유지하는 단계(110); (c) 오염제거 파이프라인(107)을 통해 공지된 미생물로부터의 리드, 미지의 미생물로부터의 리드, 미확인된 리드, DNA 오염물 또는 이들의 임의의 조합을 포함하는 나머지 리드(202)를 처리하여 일반적인 미생물 오염물로부터 유래된 서열을 제거함으로써 인실리코 오염제거된 리드 세트를 생성하는 단계(203); (d) 체세포 인간 돌연변이된 서열의 컬렉션(110)으로 암 돌연변이 데이터베이스를 질의하여(111) 공지된 암 돌연변이를 확인하고 상기 돌연변이의 풍부도 표를 생성하는 단계(112); (e) 비-인간 서열 리드(203)를 k-mer의 컬렉션으로 분해하는 단계(114); (g) k-mer를 계수하여 k-mer의 정체성 및 풍부도의 표를 생성하는 단계(115); (h) 체세포 인간 돌연변이 풍부도 데이터(112)와 k-mer 풍부도 데이터(115)를 조합하여 기계 학습 트레이닝 데이터세트를 생성하는 단계(116). 일부 실시양태에서, k-mer 계수는 프로그램 젤리피시, UCLUST, 게놈툴스(탈리머), KMC2, DSK, 게르빌 또는 이의 임의의 등가물로 달성될 수 있다. 이러한 생물정보학 파이프라인 및 데이터베이스의 사용은 제한하려는 것이 아니라 당업자가 체세포 돌연변이 및 k-mer 풍부도 데이터에 도달할 수 있는 전산적 수단의 예시 역할을 하므로 앞서 언급된 생물정보학 방법 및 프로그램에 대한 임의의 실질적인 동가물의 사용을 포함한다.
일부 경우에서, 본원에 제공된 개시내용의 방법은 (a) 트레이닝 데이터 세트로서 (i) 하나 이상의 대상체의 하나 이상의 체세포 돌연변이 및 비-인간 k-mer 풍부도를 제공하는 단계(116); (b) 시험 세트로서 (i) 하나 이상의 대상체의 하나 이상의 체세포 돌연변이 및 비-인간 k-mer 풍부도를 제공하는 단계(116); (c) 각각 트레이닝 샘플 대 검증 샘플의 60 대 40 샘플 비율에 대해 진단 모델을 트레이닝하는 단계; 및 (d) 진단 모델의 진단 정확도를 평가하는 단계를 포함하는, 진단 모델(도 1a-1c)을 트레이닝하는 방법을 기재한다.
일부 실시양태에서, 트레이닝된 진단 모델에 의해 이루어진 진단은 도 1c에 도시된 바와 같이 건강한(즉, 암이 없는) 대상체를 나타내는 기계 학습 시그니처(119), 또는 암 양성 대상체를 나타내는 기계 학습 유도된 시그니처(120)를 포함할 수 있다. 일부 실시양태에서, 트레이닝된 진단 모델은 노이즈로 분류되는 하나 이상의 미생물 또는 비-미생물 핵산을 확인하고 제거하면서 신호로 불리는 다른 하나 이상의 미생물 또는 비-미생물 서열을 선택적으로 유지할 수 있다.
컴퓨터 시스템
도 7은 본원에 기재된 모델 및/또는 예측 모델을 구현 및/또는 트레이닝하기에 적합한 컴퓨터 시스템(701)을 나타낸다. 컴퓨터 시스템(701)은, 예컨대 하나 이상의 대상체의 핵산 조성 시퀀싱 리드와 같은 본 개시내용의 정보의 다양한 측면을 처리할 수 있다. 일부 경우에서, 컴퓨터 시스템은 인간 및/또는 비-인간 게놈에 대한 게놈 서열의 공지된 라이브러리에 대해 시퀀싱 리드를 매핑 및/또는 필터링함으로써 하나 이상의 대상체의 핵산 조성 시퀀싱 리드를 처리할 수 있다. 일부 경우에서, 컴퓨터 시스템은 인간 및/또는 비-인간 게놈으로부터 하나 이상의 k-mer 서열을 생성할 수 있다. 일부 경우에서, 컴퓨터 시스템은 하나 이상의 대상체의 핵산 조성 시퀀싱 리드에 존재하는 주어진 k-mer 서열, 암 돌연변이 또는 이들의 임의의 조합의 풍부도 또는 우세도를 결정하도록 구성될 수 있다. 일부 예에서, 컴퓨터 시스템은 하나 이상의 예측 모델을 트레이닝하는 데 사용되는 k-mer 서열 풍부도, 암 돌연변이 풍부도, 및 상응하는 하나 이상의 대상체의 임상 분류 데이터세트를 준비할 수 있고, 예측 모델은 기계 학습 알고리즘을 포함할 수 있다. 컴퓨터 시스템(701)은 전자 장치일 수 있다. 전자 장치는 모바일 전자 장치일 수 있다.
일부 실시양태에서, 본원에 개시된 시스템은 하나 이상의 예측 모델을 구현할 수 있다. 일부 경우에서, 하나 이상의 예측 모델은 본원의 다른 곳에서 기재된 각각의 k-mer 서열 및/또는 암 돌연변이 서열 풍부도에 기초하여 하나 이상의 대상체의 암의 존재 또는 결여를 결정하도록 구성된 하나 이상의 기계 학습 알고리즘을 포함할 수 있다.
일부 경우에서, 기계 학습 알고리즘은 종래의 통계 기술이 충분하지 않을 수 있기 때문에 피처들 사이의 관계를 추출하고 도출할 필요가 있을 수 있다. 일부 경우에서, 기계 학습 알고리즘을 종래의 통계 기술과 함께 사용될 수 있다. 일부 경우에서, 종래의 통계 기술은 기계 학습 알고리즘에 전처리된 피처를 제공할 수 있다.
일부 실시양태에서, 기계 학습 알고리즘은, 예컨대 무감독 학습 알고리즘, 감독 학습 알고리즘, 또는 이들의 임의의 조합을 포함할 수 있다. 무감독 학습 알고리즘은, 예컨대 클러스터링, 계층적 클러스터링, k-평균, 혼합 모델, DBSCAN, OPTICS 알고리즘, 이상 검출, 로컬 이상치 요인, 신경 네트워크, 오토인코더, 심층 신뢰 네트, 헤비안 학습, 생성적 적대 네트워크, 자기 조직화 맵, 예상 최대화 알고리즘(EM), 모멘트 방법, 블라인드 신호 분리 기술, 주성분 분석, 독립 성분 분석, 비-음수 행렬 분해, 특이값 분해, 또는 이들의 조합일 수 있다. 감독 학습 알고리즘은, 예컨대 써포트 벡터 머신, 선형 회귀, 로지스틱 회귀, 선형 판별 분석, 결정 트리, k-최근접 이웃 알고리즘, 신경 네트워크, 유사성 학습, 또는 이들의 조합일 수 있다. 일부 실시양태에서, 기계 학습 알고리즘은 심층 신경 네트워크(DNN)을 포함할 수 있다. 심층 신경 네트워크는 컨볼루션 신경 네트워크(CNN)을 포함할 수 있다. CNN은, 예컨대 U-Net, ImageNet, LeNet-5, AlexNet, ZFNet, GoogleNet, VGGNet, ResNet18 또는 ResNet 등일 수 있다. 다른 신경 네트워크는, 예컨대 딥 피드 포워드 신경 네트워크, 순환 신경 네트워크, LSTM(장단기 메모리), GRU(게이팅된 반복 유닛), 오토인코더, 변이형 오토인코더, 적대적 오토인코더, 잡음제거 오토인코더, 희소 오토인코더, 볼츠만 머신, RBM(제한된 BM), 심층 신뢰 네트워크, 생성적 적대 네트워크(GAN), 심층 잔여 네트워크, 캡슐 네트워크 또는 어텐션/트랜스포머 네트워크 등일 수 있다.
일부 예에서, 기계 학습 알고리즘은 클러스터링, 스칼라 벡터 머신, 커널 SVM, 선형 판별 분석, 2차 판별 분석, 이웃 컴포넌트 분석, 매니폴드 학습, 컨볼루션 신경 네트워크, 강화 학습, 랜덤 포레스트, 나이브 베이즈, 가우시안 혼합, 히든 마르코프 모델, 몬테 카를로, 제한 볼츠만 머신, 선형 회귀 또는 이들의 임의의 조합을 포함할 수 있다.
일부 경우에서, 기계 학습 알고리즘은 배깅, 부스팅 및 스태킹과 같은 앙상블 학습 알고리즘을 포함할 수 있다. 기계 학습 알고리즘은 복수의 피처에 개별적으로 적용될 수 있다. 일부 실시양태에서, 시스템은 하나 이상의 기계 학습 알고리즘을 적용할 수 있다.
예측 모델은 임의의 수의 기계 학습 알고리즘을 포함할 수 있다. 일부 실시양태에서, 랜덤 포레스트 기계 학습 알고리즘은 배깅된 결정 트리의 앙상블일 수 있다. 앙상블은 적어도 약 1, 2, 3, 4, 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 120, 140, 160, 180, 200, 250, 500, 1000개 또는 그 초과의 배깅된 결정 트리일 수 있다. 앙상블은 최대 약 1000, 500, 250, 200, 180, 160, 140, 120, 100, 90, 80, 70, 60, 50, 40, 30, 20, 10, 5, 4, 3, 2개 또는 그 미만의 배깅된 결정 트리일 수 있다. 앙상블은 약 1 내지 1000개, 1 내지 500개, 1 내지 200개, 1 내지 100개, 또는 1 내지 10개의 배깅된 결정 트리일 수 있다.
일부 실시양태에서, 기계 학습 알고리즘은 다양한 파라미터를 가질 수 있다. 다양한 파라미터는, 예컨대 학습률, 미니배치 크기, 트레이닝할 에포크 수, 모멘텀, 학습 가중치 붕괴, 또는 신경 네트워크 층 등일 수 있다.
일부 실시양태에서, 학습률은 약 0.00001 내지 0.1일 수 있다.
일부 실시양태에서, 미니배치 크기는 약 16 내지 128일 수 있다.
일부 실시양태에서, 신경 네트워크는 신경 네트워크 층을 포함할 수 있다. 신경 네트워크는 적어도 약 2 내지 1000개 이상의 신경 네트워크 층을 가질 수 있다.
일부 실시양태에서, 트레이닝할 에포크 수는 적어도 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 150, 200, 250, 500, 1000, 10000개 또는 그 초과일 수 있다.
일부 실시양태에서, 모멘텀은 적어도 약 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 또는 그 초과일 수 있다. 일부 실시양태에서, 모멘텀은 최대 약 0.9, 0.8, 0.7, 0.6, 0.5, 0.4, 0.3, 0.2, 0.1 또는 그 미만일 수 있다.
일부 실시양태에서, 학습 가중치 붕괴는 적어도 약 0.00001, 0.0001, 0.001, 0.002, 0.003, 0.004, 0.005, 0.006, 0.007, 0.008, 0.009, 0.01, 0.02, 0.03, 0.04, 0.05, 0.06, 0.07, 0.08, 0.09, 0.1 또는 그 초과일 수 있다. 일부 실시양태에서, 학습 가중치 붕괴는 최대 약 0.1, 0.09, 0.08, 0.07, 0.06, 0.05, 0.04, 0.03, 0.02, 0.01, 0.009, 0.008, 0.007, 0.006, 0.005, 0.004, 0.003, 0.002, 0.001, 0.0001, 0.00001 또는 그 미만일 수 있다.
일부 실시양태에서, 기계 학습 알고리즘은 손실 함수를 사용할 수 있다. 손실 함수는, 예컨대 회귀 손실, 평균 절대 오차, 평균 편향 오차, 힌지 손실, 아담 옵티마이저 및/또는 교차 엔트로피일 수 있다.
일부 실시양태에서, 기계 학습 알고리즘의 파라미터는 인간 및/또는 컴퓨터 시스템의 도움으로 조정될 수 있다.
일부 실시양태에서, 기계 학습 알고리즘은 특정 피처에 우선 순위를 부여할 수 있다. 기계 학습 알고리즘은 암을 검출하는 데 더 관련이 있을 수 있는 피처에 우선 순위를 부여할 수 있다. 피처가 암을 결정할 때 또 다른 피처보다 더 자주 분류되는 경우 이 피처는 암 검출에 더 적절할 수 있다. 일부 경우에서, 가중치 시스템을 사용하여 피처에 우선 순위가 부여될 수 있다. 일부 경우에서, 피처는 피처의 발생 빈도 및/또는 양에 기초하여 확률 통계에서 우선 순위가 부여될 수 있다. 기계 학습 알고리즘은 인간 및/또는 컴퓨터 시스템의 도움으로 피처에 우선 순위를 부여할 수 있다.
일부 경우에서, 기계 학습 알고리즘은 계산 비용을 줄이거나, 처리 능력을 절약하거나, 처리 시간을 절약하거나, 신뢰성을 높이거나, 랜덤 액세스 메모리 사용을 줄이기 위해 특정 피처에 우선 순위를 부여할 수 있다.
컴퓨터 시스템(701)은 중앙 처리 유닛(CPU, 본원에서 "프로세서" 및 "컴퓨터 프로세서"라고도 함) (705)를 포함할 수 있으며, 이는 단일 코어 또는 멀티 코어 프로세서, 또는 병렬 처리를 위한 복수의 프로세서일 수 있다. 컴퓨터 시스템(701)은 메모리 또는 메모리 위치(704) (예컨대, 랜덤 액세스 메모리, 리드 전용 메모리, 플래시 메모리), 전자 저장 유닛(706) (예컨대, 하드 디스크), 하나 이상의 다른 장치와 통신하기 위한 통신 인터페이스(708) (예컨대, 네트워크 어댑터), 및 캐시, 다른 메모리, 데이터 저장 및/또는 전자 디스플레이 어댑터와 같은 주변 장치(707)를 추가로 포함할 수 있다. 메모리(704), 저장 유닛(706), 인터페이스(708) 및 주변 장치(707)는 마더보드와 같은 통신 버스(실선)를 통해 CPU(705)와 통신한다. 저장 유닛(706)은 본원의 다른 곳에서 설명된 데이터를 저장하기 위한 데이터 저장 유닛 (또는 데이터 저장소)일 수 있다. 컴퓨터 시스템(701)은 통신 인터페이스(708)의 도움으로 컴퓨터 네트워크("네트워크") (700)에 동작 가능하게 커플링될 수 있다. 네트워크(700)는 인터넷, 인트라넷, 및/또는 인터넷과 통신하는 엑스트라넷일 수 있다. 네트워크(700)는, 일부 경우에서, 전기통신 및/또는 데이터 네트워크일 수 있다. 네트워크(700)는 클라우드 컴퓨팅과 같은 분산 컴퓨팅을 가능하게 할 수 있는 하나 이상의 컴퓨터 서버를 포함할 수 있다. 네트워크(700)는, 일부 경우에서, 컴퓨터 시스템(701)의 도움으로 컴퓨터 시스템(701)에 커플링된 장치가 클라이언트 또는 서버로 작동할 수 있는 피어-투-피어 네트워크를 구현할 수 있다.
CPU(705)는 프로그램 또는 소프트웨어로 구현될 수 있는 일련의 기계 판독 가능한 명령을 실행할 수 있다. 명령은 CPU(705)로 보내질 수 있으며, 이는 본원의 다른 곳에서 설명된 본 발명의 방법을 구현하기 위해 CPU(705)를 후속적으로 프로그래밍하거나 구성할 수 있다. CPU(705)에 의해 수행되는 동작의 예는 페치, 디코딩, 실행 및 라이트백을 포함할 수 있다.
CPU(705)는 집적 회로와 같은 회로의 일부일 수 있다. 시스템(701)의 하나 이상의 다른 구성요소가 회로에 포함될 수 있다. 일부 경우에서, 회로는 주문형 집적 회로(ASIC)이다.
저장 유닛(706)은 드라이버, 라이브러리, 저장된 프로그램과 같은 파일을 저장할 수 있다. 저장 유닛(706)은 추가로 및/또는 대안적으로 하나 이상의 대상체의 생물학적 샘플의 하나 이상의 시퀀싱 리드, 다운스트림 시퀀싱 리드 프로세스 데이터(예컨대, k-mer 서열, 암 돌연변이 풍부도 등), 암이 존재하는 경우 암 유형(예컨대, 암 단계, 암 기원 기관 등), 암을 치료하기 위해 투여되는 치료, 투여된 치료의 치료 효능, 또는 이들의 임의의 조합을 저장할 수 있다. 컴퓨터 시스템(701)은, 일부 경우에서, 인트라넷 또는 인터넷을 통해 컴퓨터 시스템(701)과 통신하는 원격 서버에 위치되는 것과 같이 컴퓨터 시스템(701) 외부에 있는 하나 이상의 추가 데이터 저장 유닛을 포함할 수 있다.
본원에 기재된 방법은, 예컨대 메모리(704) 또는 전자 저장 유닛(706)과 같은 컴퓨터 장치(701)의 전자 저장 위치에 저장된 기계(예컨대, 컴퓨터 프로세서) 실행 가능한 코드를 통해 구현될 수 있다. 기계 실행 가능한 또는 기계 판독 가능한 코드는 소프트웨어의 형태로 제공될 수 있다. 사용 중에 코드는 프로세서(705)에 의해 실행될 수 있다. 일부 예에서, 코드는 저장 유닛(706)으로부터 검색되어 프로세서(705)에 의한 용이한 접근을 위해 메모리(704)에 저장될 수 있다. 일부 예에서, 전자 저장 유닛(706)은 제외될 수 있으며, 기계 실행 가능한 명령은 메모리(704)에 저장된다.
코드는 코드를 실행하도록 적응된 프로세서를 갖는 기계와 함께 사용하기 위해 사전 컴파일링되고 구성될 수 있거나 런타임 동안 컴파일링될 수 있다. 코드는 사전 컴파일링된 방식 또는 컴파일링된 방식으로 코드가 실행될 수 있도록 선택될 수 있는 프로그래밍 언어로 제공될 수 있다.
컴퓨터 시스템(701)과 같이 본원에 제공된 시스템 및 방법의 측면은 프로그래밍으로 구현될 수 있다. 기술의 다양한 측면은 전형적으로 일 유형의 기계 판독 가능한 매체에서 처리되거나 구현되는 기계 (또는 프로세서) 실행 가능한 코드 및/또는 관련된 데이터의 형태인 "제품" 또는 "제조품"으로 생각될 수 있다. 기계 실행 가능한 코드는 메모리(예컨대, 판독 전용 메모리, 랜덤 액세스 메모리, 플래시 메모리) 또는 하드 디스크와 같은 전자 저장 유닛에 저장될 수 있다. "저장" 유형의 매체는 컴퓨터의 유형 메모리, 프로세서 등, 또는 다양한 반도체 메모리, 테이프 드라이브, 디스크 드라이브 등과 같은 이의 관련된 모듈의 일부 또는 전부를 포함할 수 있으며, 이는 소프트웨어 프로그래밍을 위해 언제든지 비-일시적 저장을 제공할 수 있다. 때때로, 소프트웨어의 전체 또는 일부는 인터넷 또는 다른 양한 전기통신 네트워크를 통해 통신될 수 있다. 예컨대, 이러한 통신은 하나의 컴퓨터 또는 프로세서로부터 또 다른 컴퓨터 또는 프로세서로, 예컨대 관리 서버 또는 호스트 컴퓨터로부터 어플리케이션 서버의 컴퓨터 플랫폼으로 소프트웨어를 로딩할 수 있다. 따라서, 소프트웨어 요소를 담을 수 있는 또 다른 유형의 매체는 유선 및 광학 랜선 네트워크를 통해 및 다양한 공중 링크를 통해 로컬 장치 사이의 물리적 인터페이스를 통해 사용되는 것과 같은 광학, 전기 및/또는 전자기파를 포함한다. 유선 또는 무선 링크, 광학 링크 등과 같이 이러한 파동을 전달하는 물리적 요소도 소프트웨어를 담는 매체로 간주될 수 있다. 본원에서 사용되는 바와 같이, 비일-시적, 유형의 "저장" 매체로 제한되지 않는 한, 컴퓨터 또는 기계 "판독 가능한 매체"와 같은 용어는 실행을 위해 프로세서에 명령을 제공하는 데 참여하는 임의의 매체를 지칭한다.
따라서, 컴퓨터 실행 가능한 코드와 같은 기계 판독 가능한 매체는 유형의 저장 매체, 반송파 매체 또는 물리적 전송 매체를 포함하지만 이에 제한되지 않는 다양한 형태를 취할 수 있다. 비-휘발성 저장 매체는, 예컨대 데이터베이스 등을 구현하는 데 사용될 수 있는 임의의 컴퓨터(들) 등에 있는 임의의 저장 장치와 같은 광학 또는 자기 디스크를 포함할 수 있다. 휘발성 저장 매체는 이러한 컴퓨터 플랫폼의 메인 메모리와 같은 동적 메모리를 포함한다. 유형의 전송 매체는 컴퓨터 장치 내의 버스를 포함하는 선을 포함한 동축 케이블; 구리선 및 광섬유를 포함한다. 반송파 전송 매체는 전기 또는 전자기 신호, 또는 무선 주파수(RF) 및 적외선(IR) 데이터 통신 중에 생성되는 것과 같은 음향 또는 광파의 형태를 취할 수 있다. 이를 위한 컴퓨터 판독 가능한 매체의 일반적인 형태는, 예컨대 플로피 디스크, 플렉시블 디스크, 하드 디스크, 자기 테이프, 임의의 다른 자기 매체, CD-ROM, DVD 또는 DVD-ROM, 임의의 다른 광학 매체, 펀치 카드 페이퍼 테이프, 구멍 패턴을 갖는 임의의 다른 물리적 저장 매체, RAM, ROM, PROM 및 EPROM, FLASH-EPROM, 임의의 다른 메모리 칩 또는 카트리지, 데이터 또는 명령을 전송하는 반송파, 이러한 반송파를 전송하는 케이블 또는 링크, 또는 컴퓨터가 프로그래밍 코드 및/또는 데이터를 판독할 수 있는 임의의 다른 매체를 포함한다. 이러한 형태의 컴퓨터 판독 가능한 매체 중 다수는 실행을 위해 하나 이상의 명령의 하나 이상의 서열을 프로세서로 전달하는 데 관여할 수 있다.
컴퓨터 시스템은 하나 이상의 대상체의 k-mer 서열의 풍부도 및 우세도, 암 돌연변이, 트레이닝된 예측 모델에 의해 출력된 제안된 치료적 처치 및/또는 하나 이상의 대상체에 대한 암의 존재 또는 결여에 대한 권고 또는 결정을 보기 위한 사용자 인터페이스(UI) (703)를 포함하는 전자 디스플레이(702)를 포함하거나 이와 통신할 수 있다. UI의 예는 제한 없이 그래픽 사용자 인터페이스(GUI) 및 웹 기반 사용자 인터페이스를 포함한다.
본 개시내용의 방법 및 시스템은 하나 이상의 알고리즘에 의해 본원에 개시된 바와 같은 하나 이상의 프로세서와 함께 제공되는 명령으로 구현될 수 있다. 알고리즘은 중앙 처리 유닛(705)에 의해 실행될 때 소프트웨어를 통해 구현될 수 있다. 알고리즘은, 예컨대 기계 학습 알고리즘, 예컨대 랜덤 포레스트, 서퍼 벡터 머신, 신경 네트워크 및/또는 그래픽 모델일 수 있다.
일부 경우에서, 본원에 제공된 개시내용은 하나 이상의 대상체의 암의 존재 또는 결여를 결정하기 위해 트레이닝된 예측 모델을 활용하는 컴퓨터 구현 방법을 기재한다. 일부 경우에서, 방법은 (a) 제1의 하나 이상의 대상체의 핵산 샘플의 복수의 체세포 돌연변이 및 비-인간 k-mer 서열을 수신하는 단계; (b) 제1의 하나 이상의 대상체의 복수의 체세포 돌연변이 및 비-인간 k-mer 서열을 트레이닝된 예측 모델에 대한 입력으로서 제공하는 단계로서, 트레이닝된 예측 모델은 제2의 하나 이상의 대상체의 복수의 체세포 돌연변이 서열, 비-인간 k-mer 서열, 및 제2의 하나 이상의 대상체의 상응하는 임상 분류로 트레이닝되고, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체는 상이한 대상체인 단계; 및 (c) 트레이닝된 예측 모델의 출력에 적어도 부분적으로 기초하여 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 단계를 포함할 수 있다.
일부 경우에서, 복수의 체세포 돌연변이를 수신하는 것은 제1의 하나 이상의 대상체의 핵산 샘플의 체세포 돌연변이를 계수하는 것을 추가로 포함할 수 있다. 일부 예에서, 복수의 비-인간 k-mer 서열을 수신하는 것은 제1의 하나 이상의 대상체의 핵산 샘플의 비-인간 k-mer 서열을 계수하는 것을 포함할 수 있다. 일부 경우에서, 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 것은 제1의 하나 이상의 대상체의 암의 범주 또는 위치를 결정하는 것을 추가로 포함할 수 있다. 일부 경우에서, 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 것은 하나 이상의 유형의 제1의 하나 이상의 대상체의 암을 결정하는 것을 추가로 포함할 수 있다. 일부 경우에서, 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 것은 하나 이상의 아유형의 제1의 하나 이상의 대상체의 암을 결정하는 것을 추가로 포함할 수 있다. 일부 예에서, 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 것은 암 단계, 암 예후, 또는 이들의 임의의 조합을 결정하는 것을 추가로 포함할 수 있다. 일부 경우에서, 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 것은 낮은 단계에서의 암의 유형을 결정하는 것을 추가로 포함할 수 있다. 일부 예에서, 낮은 단계에서의 암의 유형은 I기 또는 II기 암을 포함할 수 있다. 일부 경우에서, 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 것은 제1의 하나 이상의 대상체의 암의 돌연변이 상태를 결정하는 것을 추가로 포함할 수 있다. 일부 경우에서, 돌연변이 상태는 악성, 양성 또는 제자리 암종을 포함할 수 있다. 일부 예에서, 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 것은 제1의 하나 이상의 대상체의 암을 치료하기 위한 요법에 대한 제1의 하나 이상의 대상체의 반응을 결정하는 것을 추가로 포함할 수 있다.
일부 경우에서, 방법에 의해 결정되는 암은 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 식도 암종, 다형성 교아종, 두경부 편평 세포 암종, 혐색소성 신세포암, 투명 세포형 신세포암, 유두상 신세포암, 간세포암, 폐 선암종, 폐 편평 세포 암종, 림프성 신생물 미만성 거대 B-세포 림프종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 크롬 친화 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 흉선종, 갑상선 암종, 자궁 암육종, 자궁 체부 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합을 포함할 수 있다.
일부 경우에서, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체는 비-인간 포유동물 대상체일 수 있다. 일부 예에서, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체는 인간일 수 있다. 일부 경우에서, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체는 포유동물일 수 있다. 일부 예에서, 복수의 비-인간 k-mer 서열은 바이러스, 박테리아, 고세균, 진균, 또는 이들의 임의의 조합의 생물체의 비-포유동물 도메인으로부터 기원할 수 있다.
상기 단계가 실시양태에 따른 각각의 방법 또는 작업 세트를 나타내지만, 당업자는 본원에 설명된 교시에 기초하여 많은 변형을 인식할 것이다. 단계는 상이한 순서로 완료될 수 있다. 단계를 추가하거나 생략할 수 있다. 일부 단계는 하위 단계를 포함할 수 있다. 여러 단계를 유익한 만큼 자주 반복할 수 있다. 각각의 방법의 단계 또는 작업 세트 중 하나 이상은 본원에 기재된 바와 같은 회로, 예컨대 필드 프로그램 가능한 게이트 어레이를 위한 프로그램 가능한 어레이 로직과 같은 하나 이상의 프로세서 또는 로직 회로로 수행될 수 있다. 회로는 각각의 방법의 단계 또는 작업 세트 중 하나 이상을 제공하도록 프로그래밍될 수 있으며, 프로그램은 컴퓨터 판독 가능한 메모리에 저장된 프로그램 명령 또는 예컨대 프로그래밍 가능한 어레이 로직 또는 필드 프로그래밍 가능한 게이트 어레이와 같은 로직 회로의 프래그래밍된 단계를 포함할 수 있다.
추가의 예시적인 실시양태는 하기 실시예를 참조하여 더 설명될 것이지만; 이러한 예시적인 실시양태는 이러한 예로 제한되지 않는다.
실시예
실시예 1: 초기 단계 폐암과 폐 육아종을 구별하기 위한 예측 모델 트레이닝
예측 모델은 18명의 초기 단계 폐암(II기 3명 및 III기 15명) 및 11명의 폐 육아종 환자의 비-매핑된 무세포 DNA(cfDNA) k-mer로 트레이닝되었고, 비-매핑된 무세포 DNA k-mer에 기반하여 초기 단계 암 또는 폐 질환을 갖는 것으로 환자의 분류를 예측하는 데 활용되었다. 초기 단계 폐암 및 폐 질환 환자의 cfDNA 시퀀싱 리드는 매핑 가능한 인간을 매핑 불가능한 인간 및 비-인간 시퀀싱 리드로부터 분리하기 위해 인간 게놈 참조 라이브러리에 매핑되었다. 다음으로, 폴리머라제 연쇄 반응(PCR)의 인공물로 발생하는 중복 시퀀싱 리드가 제거되었다. 게르빌 소프트웨어 패키지를 사용하여 매핑되지 않은 시퀀싱 리드로부터 k 값이 31인 모든 k-mer의 우세도 및 풍부도를 추출하였다. 이어서, 블랭크 대조군 샘플에서 확인된 k-mer 및 "GGAAT" 및 "CCATT" 반복 서열의 k-mer 서열을 제거하여 k-mer 우세도 및 풍부도를 필터링하였다. 다음으로, 낮은 풍부도 및 낮은 우세도를 갖는 k-mer를 필터링하였다. 샘플당 5개 미만의 인스턴스의 풍부도 및 모든 총 샘플 중 25개 미만 샘플에서 우세도를 갖는 K-mer는 이전에 필터링된 k-mer 세트로부터 제거되었다. 이어서, 랜덤 포레스트 예측 모델은 70:30 트레이닝 시험 데이터 분할에서 10배 교차 검증으로 생성된 필터링된 k-mer 및 환자의 임상 분류(즉, 폐암 또는 폐 질환)로 트레이닝되었다. 생성된 트레이닝된 예측 모델의 정확도는 도 5에 도시된 바와 같이 0.792의 AUC를 나타내는 수신자 작동 특징 곡선 아래 면적(AUC)을 사용하여 분석되었다.
실시예 2: I기 폐암과 폐 질환을 구별하기 위한 예측 모델 트레이닝
예측 모델은 51명의 I기 선암종 폐암 및 60명의 폐 질환(폐렴 7명, 과오종 20명, 간질 섬유증 12명, 기관지 확장증 5명 및 육아종 16명) 환자의 비-매핑된 무세포 DNA(cfDNA) k-mer로 트레이닝되었고, 비-매핑된 무세포 DNA k-mer에 기초하여 I기 선암종 또는 폐 질환을 갖는 것으로 환자의 분류를 예측하는 데 활용되었다. 초기 단계 폐암 및 폐 질환 환자의 cfDNA 시퀀싱 리드는 매핑 불가능한 인간 및 비-인간 시퀀싱 리드로부터 매핑 가능한 인간을 분리하기 위해 인간 게놈 참조 라이브러리에 매핑되었다. 다음으로, 폴리머라제 연쇄 반응(PCR)의 인공물로 발생하는 중복 시퀀싱 리드가 제거되었다. 게르빌 소프트웨어 패키지를 사용하여 매핑되지 않은 시퀀싱 리드로부터 k 값이 31인 모든 k-mer의 우세도 및 풍부도를 추출하였다. 이어서, 블랭크 대조군 샘플에서 확인된 k-mer 및 "GGAAT" 및 "CCATT" 반복 서열의 k-mer 서열을 제거하여 k-mer 우세도 및 풍부도를 필터링하였다. 다음으로, 낮은 풍부도 및 낮은 우세도를 갖는 k-mer를 필터링하였다. 샘플당 5개 미만의 인스턴스의 풍부도 및 모든 총 샘플 중 20개 미만 샘플에서 우세도를 갖는 K-mer는 이전에 필터링된 k-mer 세트로부터 제거되었다. 이어서, 랜덤 포레스트 예측 모델을 70:30 트레이닝 시험 데이터 분할에서 10배 교차 검증으로 생성된 필터링된 k-mer 및 환자의 임상 분류(즉, 폐암 또는 폐 질환)로 트레이닝하였다. 생성된 트레이닝된 예측 모델의 정확도는 도 6에 도시된 바와 같이 0.756의 AUC를 나타내는 수신자 작동 특징 곡선 아래 면적(AUC)을 사용하여 분석되었다.
실시예 3: 미지의 암 진단을 갖는 대상체를 분류하기 위한 예측 모델 트레이닝
예측 모델은 암을 갖는 것으로 의심되는 개체를 건강한 개체로 또는 암을 갖는 개체로 분류하도록 구성된 트레이닝된 예측 모델을 생성하기 위해 공지된 건강체 및 암 환자의 무세포 DNA로 트레이닝될 것이다. 확인된 건강체 및 암 환자의 무세포 DNA(cfDNA)는 생물학적 샘플, 예컨대 가래, 혈액, 타액, 또는 cfDNA를 갖는 임의의 다른 체액으로부터 추출되어 시퀀싱될 것이다. 이어서, 생성된 cfDNA 시퀀싱 리드는 인간 게놈 라이브러리에 매핑되어 정확한 매칭 인간 시퀀싱 리드는 cfDNA 시퀀싱 리드로부터 제거될 것이다. 다음으로, 모든 k-mer의 우세도 및 풍부도가 매핑되지 않은 시퀀싱 리드로부터 추출될 것이다. 이어서, k-mer 서열은 라이브러리 준비 PCR 단계 동안 cfDNA의 증폭 및/또는 복제로 인해 발생할 수 있는 중복 k-mer 서열에 대해 필터링될 것이다. 추가로, 블랭크 대조군 샘플에서 확인된 k-mer 및 "GGAAT" 또는 "CCATT" 반복 서열의 k-mer 서열이 제거될 것이다. 이어서, 예측 모델은 k-mer 및 그들이 기원한 환자의 상응하는 분류(예컨대, 건강 또는 암)로 트레이닝될 것이다. 암을 갖는 것으로 확인된 개체의 상응하는 분류는 암 하위 유형, 단계 및/또는 암의 기원 조직을 포함할 것이다.
이어서, 암을 갖는 것으로 의심되는 환자는 cfDNA를 포함하는 생물학적 샘플을 제공할 것이고, 상기 제공된 바와 같은 cfDNA의 처리에 대한 유사한 워크플로우가 완료될 것이다. 이어서, 생성된 k-mer는 상기 기재된 트레이닝된 예측 모델로 입력으로 제공될 것이다. 이어서, 트레이닝된 예측 모델은 환자가 암을 갖거나 갖지 않을 가능성의 확률을 제공할 것이다. 추가로, 트레이닝된 예측 모델은 임상적 하위 유형, 단계, 및/또는 확인된 암의 기원 조직을 제공할 것이다.
실시예 4: 미지의 암 진단을 갖는 대상체를 분류하기 위해 택소노미로 할당 가능한 '암흑 물질' 리드와 할당 불가능한 '암흑 물질' 리드의 조합으로 예측 모델 트레이닝
예측 모델은 암을 갖는 것으로 의심되는 개체를 건강한 개체로 또는 암을 갖는 개체로 분류하도록 구성된 트레이닝된 예측 모델을 생성하기 위해 공지된 건강체 및 암 환자의 무세포 DNA로 트레이닝될 것이다. 확인된 건강한 암 환자의 무세포 DNA(cfDNA)는 생물학적 샘플, 예컨대 가래, 혈액, 타액, 또는 cfDNA를 갖는 임의의 다른 체액으로부터 추출되고, 폴리머라제 연쇄 반응(PCR)을 통해 증폭되고, 시퀀싱될 것이다. 생성된 시퀀싱된 cfDNA 시퀀싱 리드는 정확한 매칭을 사용하여 인간 게놈 라이브러리에 매핑되어 돌연변이(선택된 참조 게놈 빌드와 관련됨) 및 모든 비-인간 리드를 포함하는 매핑되지 않은 모든 인간 리드의 출력을 얻을 것이다. 생성된 비-인간 리드는 크라켄 또는 보타이 2 또는 이의 등가물을 통해 미생물 참조 게놈에 대한 정렬에 의해 택소노미로 할당되어 택소노미로 할당된 미생물 리드 및 관련된 풍부도의 출력을 생성할 것이다. 나머지 매핑되지 않은 비-인간 리드(흔히 시퀀싱 '암흑 물질'을 포함)는 모두 k-mer 생성에 사용될 것이다. 모든 암흑 물질 k-mer의 우세도 및 풍부도는 암흑 물질 시퀀싱 리드로부터 추출되고 모든 인간 체세포 돌연변이 k-mer의 우세도 및 풍부도는 인간 참조 게놈에 대한 엄격한 정확한 매칭을 통해 필터링된 인간 시퀀싱 리드로부터 추출될 것이다. 다음으로, 블랭크 대조군 샘플에서 확인된 k-mer 및 "GGAAT" 또는 "CCATT" 반복 서열의 k-mer 서열이 암흑 물질 k-mer로부터 제거될 것이다. 이어서, 예측 모델은 인간 체세포 돌연변이 k-mer, 택소노미로 할당된 미생물 리드, 암흑 물질 k-mer, 및 그들이 기원한 환자의 상응하는 분류(예컨대, 건강 또는 암)의 풍부도를 포함하는 조합된 데이터세트로 트레이닝될 것이다. 암을 갖는 것으로 확인된 개체의 상응하는 분류는 암 하위 유형, 단계 및/또는 암의 기원 조직을 포함할 것이다.
암을 갖는 것으로 의심되는 환자는 cfDNA를 포함하는 생물학적 샘플을 제공할 것이며, 인간 체세포 돌연변이, 택소노미로 할당 가능한 미생물, 및 암흑 물질 k-mer를 추출하기 위해 상기 제공된 바와 같은 cfDNA의 처리와 유사한 워크플로우가 완료될 것이다. 생성된 피처 세트는 상기 기재된 트레이닝된 예측 모델로 입력으로 제공될 것이다. 이어서, 트레이닝된 예측 모델은 환자가 암을 갖거나 그렇지 않을 가능성의 확률을 제공할 것이다. 추가로, 트레이닝된 예측 모델은 임상적 하위 유형, 단계, 및/또는 확인된 암의 기원 조직을 제공할 것이다.
실시예 5: 미지의 암 진단을 갖는 대상체를 분류하기 위해 택소노미로 할당 가능한 k-mer 및 암 돌연변이 풍부도를 사용하여 예측 모델 트레이닝
예측 모델은 도 1a-1c에 도시된 바와 같이 암을 갖는 것으로 의심되는 개체를 건강한 개체로 또는 암을 갖는 개체로 분류하도록 구성된 트레이닝된 예측 모델을 생성하기 위해 공지된 건강체 및 암 환자의 무세포 DNA로 트레이닝될 것이다. 확인된 건강체 및 암 환자의 무세포 DNA(cfDNA)는 생물학적 샘플, 예컨대 가래, 혈액, 타액, 또는 cfDNA를 갖는 임의의 다른 체액으로부터 추출되어 시퀀싱될 것이다. 생성된 cfDNA 시퀀싱 리드는 소프트웨어 패키지 크라켄을 사용하여 인간 게놈 라이브러리에 매핑될 것이며, 이로써 정확한 매칭 인간 시퀀싱 리드가 cfDNA 시퀀싱 리드로부터 제거되어 추가 분석을 위한 비-매칭 인간 시퀀싱 리드(즉, 돌연변이된 인간 서열) 및 비-인간 시퀀싱 리드를 남길 수 있다. 다음으로, 소프트웨어 패키지 보타이 2는 나머지 시퀀싱 리드를 비-인간 시퀀싱 리드 및 돌연변이된 인간 시퀀싱 리드에 매핑하는 데 사용될 것이다. 이어서, 돌연변이된 인간 시퀀싱 리드는 암 돌연변이 데이터베이스에 대해 질의되어 암 돌연변이 ID 및 관련된 풍부도의 데이터세트를 생성할 것이다. 다음으로, k-mer는 비-인간 매핑된 시퀀싱 리드로부터 추출될 것이다. 이어서, k-mer 서열은 라이브러리 준비 PCR 단계 동안 cfDNA의 증폭 및/또는 복제로 인해 발생할 수 있는 중복 k-mer 서열에 대해 필터링될 것이다. 추가로, 블랭크 대조군 샘플에서 확인된 k-mer 및 "GGAAT" 또는 "CCATT" 반복 서열의 k-mer 서열이 제거될 것이다. 이어서, 예측 모델은 k-mer, 암 돌연변이 ID 및 관련된 풍부도, 및 그들이 기원하는 환자의 상응하는 분류(예컨대, 건강 또는 암)로 트레이닝될 것이다. 암을 갖는 것으로 확인된 개체의 상응하는 분류는 암 하위 유형, 단계, 및/또는 암의 기원 조직을 포함할 것이다.
이어서, 암을 갖는 것으로 의심되는 환자는 cfDNA를 포함하는 생물학적 샘플을 제공할 것이고, 상기 제공된 바와 같은 cfDNA의 처리에 대한 유사한 워크플로우가 완료될 것이다. 이어서, 생성된 k-mer 및 암 돌연변이 ID 및 풍부도는 상기 기재된 트레이닝된 예측 모델로 입력으로 제공될 것이다. 이어서, 트레이닝된 예측 모델은 환자가 암을 갖거나 갖지 않을 가능성의 확률을 제공할 것이다. 추가로, 트레이닝된 예측 모델은 임상적 하위 유형, 단계 및/또는 확인된 암의 기원 조직을 제공할 것이다.
정의
달리 정의되지 않는 한, 본원에 사용된 모든 기술 용어, 표기법 및 다른 기술 및 과학 용어 또는 전문 용어는 청구 주제가 속하는 기술 분야의 통상의 기술자가 일반적으로 이해하는 것과 동일한 의미를 갖도록 의도된다. 일부 경우에서, 일반적으로 이해되는 의미를 갖는 용어가 명료성 및/또는 용이한 참조를 위해 본원에 정의되며, 본원에 이러한 정의를 포함하는 것이 반드시 당업계에서 일반적으로 이해되는 것과 실질적 차이를 나타내는 것으로 해석되어서는 안 된다.
본 출원 전반에 걸쳐, 다양한 실시양태가 범위 형식으로 제시될 수 있다. 범위 형식의 설명은 단지 편의 및 간결함을 위한 것이며, 본 개시내용의 범위에 대한 융통성 없는 제한으로 해석되어서는 안된다는 것을 이해해야 한다. 따라서, 범위의 설명은 모든 가능한 하위범위 뿐만 아니라 그 범위 내의 개별 수치 값을 구체적으로 개시한 것으로 간주되어야 한다. 예컨대, 1 내지 6과 같은 범위의 설명은 1 내지 3, 1 내지 4, 1 내지 5, 2 내지 4, 2 내지 6, 3 내지 6 등과 같은 구체적으로 개시된 하위범위 뿐만 아니라 그 범위 내의 개별 수치, 예컨대 1, 2, 3, 4, 5, 및 6을 갖는 것으로 간주되어야 한다. 이는 범위의 폭에 관계없이 적용된다.
본 명세서 및 청구범위에서 사용되는 바와 같이, 단수 형태는 문맥상 명백하게 달리 지시하지 않는 한 복수 참조물을 포함한다. 예컨대, 용어 "샘플"은 복수의 샘플 및 이들의 혼합물을 포함한다.
용어 "결정하는", "측정하는", "평가하는", "산정하는", "검정하는" 및 "분석하는"은 종종 측정 형태를 지칭하기 위해 본원에서 상호교환적으로 사용된다. 용어는 요소가 존재하는 지의 여부를 결정하는 것(예컨대, 검출)을 포함한다. 이러한 용어는 정량적, 정성적, 또는 정량적 및 정성적 결정을 포함할 수 있다. 산정은 상대적 또는 절대적일 수 있다. "의 존재를 검출하는"은 문맥에 따라 존재 또는 부재를 결정하는 것 외에도 존재하는 무언가의 양을 결정하는 것을 포함할 수 있다.
용어 "대상체", "개체" 또는 "환자"는 종종 본원에서 상호교환적으로 사용된다. "대상체"는 발현된 유전 물질을 함유하는 생물학적 실체일 수 있다. 생물학적 실체는, 예컨대 박테리아, 바이러스, 진균 및 원생동물을 포함하는 식물, 동물 또는 미생물일 수 있다. 대상체는 조직, 세포 및 생체내에서 수득되거나 시험관내에서 배양된 생물학적 실체의 자손일 수 있다. 대상체는 포유동물일 수 있다. 포유동물은 인간일 수 있다. 대상체는 질환에 대해 고위험에 처한 것으로 진단 또는 의심될 수 있다. 일부 경우에서, 대상체는 반드시 질환에 대해 고위험에 처한 것으로 진단되거나 의심되는 것은 아니다.
용어 'k-mer'는 DNA와 같은 생체분자 내의 특정 영역을 확인하는 데 사용될 수 있는 핵산 또는 아미노산 서열의 특정 n-튜플 또는 n-그램을 설명하는 데 사용된다. 이 실시양태에서, k-mer는 전형적으로 메타게놈 서열 데이터로부터 유래된 20-100개 염기쌍 범위의 길이 "n"의 짧은 DNA 서열이다.
용어 '암흑 물질', '미생물 암흑 물질', '암흑 물질 시퀀싱 리드' 및 '미생물 암흑 물질 시퀀싱 리드'는 공지된 미생물 참조 게놈에 매핑될 수 없는 비-인간 시퀀싱 리드를 설명하는 데 사용되며, 따라서 택소노미로 할당될 수 없는 핵산 서열을 나타낸다.
용어 "생체내"는 대상체의 신체에서 발생하는 사건을 설명하는 데 사용된다.
용어 "생체외"는 대상체의 신체 외부에서 발생하는 사건을 설명하는 데 사용된다. 생체외 검정은 대상체에 대해 수행되지 않는다. 오히려, 대상체에서 분리된 샘플에서 수행된다. 샘플에 대해 수행되는 생체외 검정의 예는 "시험관내" 검정이다.
용어 "시험관내"는 물질이 수득되는 생물학적 공급원으로부터 분리되도록 실험실 시약을 보유하기 위한 용기에 포함된 장소를 이용하는 사건을 설명하기 위해 사용된다. 시험관내 검정은 살아있는 세포 또는 죽은 세포가 사용되는 세포 기반 검정을 포함할 수 있다. 시험관내 검정은 온전한 세포를 사용하지 않는 무세포 검정도 포괄할 수 있다.
본원에서 사용되는 바와 같이, 용어 "약" 숫자는 그 숫자에 10%를 더하거나 뺀 숫자를 지칭한다. 용어 "약" 범위는 그 범위의 가장 낮은 값의 10%를 뺀 값과 그 범위의 가장 큰 값의 10%를 더한 값의 범위를 지칭한다.
절대적 또는 순차적인 용어, 예컨대 "할 것이다", "하지 않을 것이다", "일 것이다", "이지 않을 것이다", "해야 한다", "하지 않아야 한다", "먼저", "처음에", "다음에", "후속적으로", "전에", "후에", "마지막으로" 및 "최종단적으로"의 사용은 본원에 개시된 본 실시양태의 범위를 한정하는 것이 아니라 예시이다.
본원에 기재된 모든 시스템, 방법, 소프트웨어, 조성물, 및 플랫폼은 모듈식이며 순차적인 단계에 제한되지 않는다. 따라서, "제1" 및 "제2"와 같은 용어는 반드시 우위, 중요도 순서, 또는 동작 순서를 의미하지 않는다.
본원에서 사용되는 바와 같이, 용어 "치료" 또는 "치료하는"은 수용자에서 유익한 또는 원하는 결과를 얻기 위한 약제학적 또는 다른 개입 레지먼과 관련하여 사용된다. 유익한 또는 원하는 결과는 치료적 이익 및/또는 예방적 이익을 포함하지만 이에 제한되지 않는다. 치료적 이익은 증상 또는 치료 중인 기저 장애의 근절 또는 개선을 지칭할 수 있다. 또한, 대상체가 여전히 기저 장애를 앓고 있을 수 있음에도 불구하고 대상체에서 개선이 관찰되도록 기저 장애와 관련된 생리학적 증상 중 하나 이상의 근절 또는 개선으로 치료적 이익이 달성될 수 있다. 예방적 효과는 질환 또는 병태의 출현을 지연, 방지 또는 제거하는 것, 질환 또는 병태의 증상의 개시를 지연 또는 제거하는 것, 질환 또는 병태의 진행을 지체, 정지 또는 역전시키는 것, 또는 이들의 조합을 포함한다. 예방적 이익을 위해, 특정 질환이 발병할 위험이 있는 대상체 또는 질환의 하나 이상의 생리학적 증상을 보고하는 대상체는 이 질환이 진단되지 않았더라도 치료를 받을 수 있다.
본원에서 사용된 섹션 제목은 구성 목적만을 위한 것이며 설명된 주제를 제한하는 것으로 해석되어서는 안 된다.
실시양태
1. 하기 단계를 포함하는, 암 예측 모델을 생성하는 방법:
(a) 하나 이상의 대상체의 생물학적 샘플의 핵산 조성을 시퀀싱하여 하나 이상의 시퀀싱 리드를 생성하는 단계;
(b) 하나 이상의 시퀀싱 리드를 인간 게놈 데이터베이스로 필터링하여 하나 이상의 필터링된 시퀀싱 리드를 생성하는 단계;
(c) 하나 이상의 필터링된 시퀀싱 리드로부터 복수의 k-mer를 생성하는 단계; 및
(d) 복수의 k-mer 및 하나 이상의 대상체의 상응하는 임상 분류로 예측 모델을 트레이닝함으로써 암 예측 모델을 생성하는 단계.
2. 실시양태 1에 있어서, 복수의 k-mer의 풍부도를 결정하는 단계 및 예측 모델을 복수의 k-mer의 풍부도로 트레이닝하는 단계를 추가로 포함하는 것인 방법.
3. 실시양태 1에 있어서, 필터링이 하나 이상의 시퀀싱 리드와 인간 참조 게놈 데이터베이스 간의 정확한 매칭에 의해 수행되는 것인 방법.
4. 실시양태 3에 있어서, 정확한 매칭이 하나 이상의 시퀀싱 리드를 소프트웨어 프로그램 크라켄 또는 크라켄 2로 전산적으로 필터링하는 것을 포함하는 것인 방법.
5. 실시양태 3에 있어서, 정확한 매칭이 하나 이상의 시퀀싱 리드를 소프트웨어 프로그램 보타이 2 또는 이의 임의의 등가물로 전산적으로 필터링하는 것을 포함하는 것인 방법.
6. 실시양태 1에 있어서, 하나 이상의 필터링된 시퀀싱 리드의 인실리코 오염제거를 수행하여 하나 이상의 오염제거된 시퀀싱 리드를 생성하는 단계를 추가로 포함하는 것인 방법.
7. 실시양태 6에 있어서, 하나 이상의 오염제거된 시퀀싱 리드를 인간 참조 게놈 데이터베이스의 빌드에 매핑하여 복수의 돌연변이된 인간 서열 정렬을 생성하는 단계를 추가로 포함하는 것인 방법.
8. 실시양태 7에 있어서, 매핑이 보타이 2 서열 정렬 도구 또는 이의 임의의 등가물에 의해 수행되는 것인 방법.
9. 실시양태 7에 있어서, 매핑이 단대단 정렬, 국부 정렬, 또는 이들의 임의의 조합을 포함하는 것인 방법.
10. 실시양태 7에 있어서, 암 돌연변이 데이터베이스를 질의함으로써 복수의 돌연변이된 인간 서열 정렬에서 암 돌연변이를 확인하는 단계를 추가로 포함하는 것인 방법.
11. 실시양태 10에 있어서, 암 돌연변이를 갖는 암 돌연변이 풍부도 표를 생성하는 단계를 추가로 포함하는 것인 방법.
12. 실시양태 1에 있어서, 복수의 k-mer가 비-인간 k-mer, 인간 돌연변이된 k-mer, 비-분류된 DNA k-mer, 또는 이들의 임의의 조합을 포함하는 것인 방법.
13. 실시양태 1에 있어서, 생물학적 샘플이 조직 샘플, 액체 생검 샘플, 또는 이들의 임의의 조합을 포함하는 것인 방법.
14. 실시양태 1에 있어서, 하나 이상의 대상체가 인간 또는 비-인간 포유동물인 방법.
15. 실시양태 1에 있어서, 핵산 조성이 DNA, RNA, 무세포 DNA, 무세포 RNA, 엑소좀 DNA, 엑소좀 RNA, 순환 종양 세포 DNA, 순환 종양 세포 RNA, 또는 이들의 임의의 조합을 포함하는 것인 방법.
16. 실시양태 1에 있어서, 인간 참조 게놈 데이터베이스가 GRCh38인 방법.
17. 실시양태 2에 있어서, 암 예측 모델의 출력이 암의 존재 또는 부재, 암 신체 부위 위치, 암 체세포 돌연변이, 또는 대상체의 암의 존재 또는 부재와 관련된 이들의 임의의 조합의 진단을 제공하는 것인 방법.
18. 실시양태 17에 있어서, 암 예측 모델의 출력이 암 체세포 돌연변이, 복수의 k-mer의 풍부도, 또는 이들의 임의의 조합의 분석을 포함하는 것인 방법.
19. 실시양태 1에 있어서, 트레이닝된 예측 모델이 관심 있는 암에서 특징적인 풍부도와 함께 존재하거나 부재하는 것으로 공지된 암 돌연변이 및 k-mer 풍부도의 세트로 트레이닝되는 것인 방법.
20. 실시양태 12에 있어서, 비-인간 k-mer가 박테리아, 고세균, 진균, 바이러스, 또는 이들의 임의의 조합의 생물체의 도메인으로부터 기원하는 것인 방법.
21. 실시양태 1에 있어서, 암 예측 모델이 대상체의 하나 이상의 유형의 암의 존재 또는 결여를 결정하도록 구성되는 것인 방법.
22. 실시양태 21에 있어서, 하나 이상의 유형의 암이 낮은 단계에 있는 것인 방법.
23. 실시양태 22에 있어서, 낮은 단계가 암의 I기, II기, 또는 이들의 임의의 조합의 기를 포함하는 것인 방법.
24. 실시양태 1에 있어서, 암 예측 모델이 대상체에서 하나 이상의 아유형의 암의 존재 또는 결여를 결정하도록 구성되는 것인 방법.
25. 실시양태 1에 있어서, 암 예측 모델이 대상체의 암 단계, 암 예후, 또는 이들의 임의의 조합을 예측하도록 구성되는 것인 방법.
26. 실시양태 1에 있어서, 암 예측 모델이 암을 치료하기 위해 치료 화합물을 투여할 때 대상체의 치료 반응을 예측하도록 구성되는 것인 방법.
27. 실시양태 1에 있어서, 암 예측 모델이 대상체에 대한 최적의 요법을 결정하도록 구성되는 것인 방법.
28. 실시양태 1에 있어서, 암 예측 모델이 요법에 대한 대상체의 하나 이상의 암의 반응 과정을 종단적으로 모델링함으로써 요법에 대한 대상체의 하나 이상의 암의 반응 과정의 종단적 모델을 생성하도록 구성되는 것인 방법.
29. 실시양태 28에 있어서, 암 예측 모델이 종단적 모델에 적어도 부분적으로 기초하여 대상체의 하나 이상의 암의 치료 과정에 대한 조정을 결정하도록 구성되는 것인 방법.
30. 실시양태 1에 있어서, 암 예측 모델이 대상체의 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 식도 암종, 다형성 교아종, 두경부 편평 세포 암종, 혐색소성 신세포암, 투명 세포형 신세포암, 유두상 신세포암, 간세포암, 폐 선암종, 폐 편평 세포 암종, 림프성 신생물 미만성 거대 B-세포 림프종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 크롬 친화 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 흉선종, 갑상선 암종, 자궁 암육종, 자궁 체부 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합의 암의 존재 또는 결여를 결정하도록 구성되는 것인 방법.
31. 실시양태 6에 있어서, 인실리코 오염제거가, 다른 비-인간 신호 피처를 유지하면서, 비-인간 오염물 피처를 확인하고 제거하는 것인 방법.
32. 실시양태 13에 있어서, 액체 생검이 혈장, 혈청, 전혈, 소변, 뇌척수액, 타액, 땀, 눈물, 호기 응축물, 또는 이들의 임의의 조합을 포함하는 것인 방법.
33. 실시양태 10에 있어서, 암 돌연변이 데이터베이스가 암에서의 체세포 돌연변이의 카달로그(COSMIC), 암 게놈 프로젝트(CGP), 암 게놈 아틀라스(TGCA), 국제 암 게놈 컨소시엄(ICGC) 또는 이들의 임의의 조합으로부터 유래되는 것인 방법.
34. 실시양태 2에 있어서, 복수의 k-mer의 풍부도를 결정하는 것이 젤리피시, UCLUST, 게놈툴스(탈리머), KMC2, 게르빌, DSK 또는 이들의 임의의 조합에 의해 수행되는 것인 방법.
35. 실시양태 1에 있어서, 하나 이상의 대상체의 임상 분류가 건강, 암, 비-암 질환, 또는 이들의 임의의 조합의 분류를 포함하는 것인 방법.
36. 실시양태 1에 있어서, 하나 이상의 필터링된 시퀀싱 리드가 참조 인간 게놈에 대한 비-정확한 매칭, 비-인간 시퀀싱 리드, 비-매칭된 비-인간 시퀀싱 리드, 또는 이들의 임의의 조합을 포함하는 것인 방법.
37. 실시양태 36에 있어서, 비-매칭된 비-인간 시퀀싱 리드가 비-인간 참조 게놈 데이터베이스에 매칭되지 않는 시퀀싱 리드를 포함하는 것인 방법.
38. 하기 단계를 포함하는, 대상체의 암을 진단하는 방법:
(a) 대상체의 샘플의 복수의 체세포 돌연변이 및 비-인간 k-mer 서열을 결정하는 단계;
(b) 대상체의 복수의 체세포 돌연변이 및 복수의 비-인간 k-mer 서열을 주어진 암에 대한 복수의 체세포 돌연변이 및 비-인간 k-mer 서열과 비교하는 단계; 및
(c) 대상체의 복수의 체세포 돌연변이 및 비-인간 k-mer 서열과 주어진 암에 대한 복수의 체세포 돌연변이 및 비-인간 k-mer 서열의 비교에 적어도 부분적으로 기초하여 암의 존재 또는 결여의 확률을 제공함으로써 대상체의 암을 진단하는 단계.
39. 실시양태 38에 있어서, 복수의 체세포 돌연변이를 결정하는 것이 대상체의 샘플의 체세포 돌연변이를 계수하는 것을 추가로 포함하는 것인 방법.
40. 실시양태 38에 있어서, 복수의 비-인간 k-mer 서열을 결정하는 것이 대상체의 샘플의 비-인간 k-mer 서열을 계수하는 것을 포함하는 것인 방법.
41. 실시양태 38에 있어서, 대상체의 암을 진단하는 것이 암의 범주 또는 위치를 결정하는 것을 추가로 포함하는 것인 방법.
42. 실시양태 38에 있어서, 대상체의 암을 진단하는 것이 하나 이상의 유형의 대상체의 암을 결정하는 것을 추가로 포함하는 것인 방법.
43. 실시양태 38에 있어서, 대상체의 암을 진단하는 것이 하나 이상의 아유형의 대상체의 암을 결정하는 것을 추가로 포함하는 것인 방법.
44. 실시양태 38에 있어서, 대상체의 암을 진단하는 것이 대상체의 암 단계, 암 예후, 또는 이들의 임의의 조합을 결정하는 것을 추가로 포함하는 것인 방법.
45. 실시양태 38에 있어서, 대상체의 암을 진단하는 것이 낮은 단계에서의 암의 유형을 결정하는 것을 추가로 포함하는 것인 방법.
46. 실시양태 45에 있어서, 낮은 단계에서의 암의 유형이 I기 또는 II기 암을 포함하는 것인 방법.
47. 실시양태 38에 있어서, 대상체의 암을 진단하는 것이 대상체의 암의 돌연변이 상태를 결정하는 것을 추가로 포함하는 것인 방법.
48. 실시양태 38에 있어서, 대상체의 암을 진단하는 것이 대상체의 암을 치료하기 위한 요법에 대한 대상체의 반응을 결정하는 것을 추가로 포함하는 것인 방법.
49. 실시양태 38에 있어서, 암이 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 식도 암종, 다형성 교아종, 두경부 편평 세포 암종, 혐색소성 신세포암, 투명 세포형 신세포암, 유두상 신세포암, 간세포암, 폐 선암종, 폐 편평 세포 암종, 림프성 신생물 미만성 거대 B-세포 림프종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 크롬 친화 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 흉선종, 갑상선 암종, 자궁 암육종, 자궁 체부 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합을 포함하는 것인 방법.
50. 실시양태 38에 있어서, 대상체가 비-인간 포유동물인 방법.
51. 실시양태 38에 있어서, 대상체가 인간인 방법.
52. 실시양태 38에 있어서, 대상체가 포유동물인 방법.
53. 실시양태 38에 있어서, 복수의 비-인간 k-mer 서열이 바이러스, 박테리아, 고세균, 진균, 또는 이들의 임의의 조합의 생물체의 비-포유동물 도메인으로부터 기원하는 것인 방법.
54. 하기 단계를 포함하는, 암 예측 모델을 생성하는 방법:
(a) 하나 이상의 대상체의 생물학적 샘플의 하나 이상의 핵산 시퀀싱 리드를 제공하는 단계;
(b) 하나 이상의 핵산 시퀀싱 리드를 인간 게놈 데이터베이스로 필터링하여 하나 이상의 필터링된 시퀀싱 리드를 생성하는 단계;
(c) 하나 이상의 필터링된 시퀀싱 리드로부터 복수의 k-mer를 생성하는 단계; 및
(d) 복수의 k-mer 및 하나 이상의 대상체의 상응하는 임상 분류로 예측 모델을 트레이닝함으로써 암 예측 모델을 생성하는 단계.
55. 실시양태 54에 있어서, 복수의 k-mer의 풍부도를 결정하는 단계 및 예측 모델을 복수의 k-mer의 풍부도로 트레이닝하는 단계를 추가로 포함하는 것인 방법.
56. 실시양태 54에 있어서, 필터링이 하나 이상의 핵산 시퀀싱 리드와 인간 참조 게놈 데이터베이스 간의 정확한 매칭에 의해 수행되는 것인 방법.
57. 실시양태 56에 있어서, 정확한 매칭이 하나 이상의 핵산 시퀀싱 리드를 소프트웨어 프로그램 크라켄 또는 크라켄 2로 전산적으로 필터링하는 것을 포함하는 것인 방법.
58. 실시양태 56에 있어서, 정확한 매칭이 하나 이상의 핵산 시퀀싱 리드를 소프트웨어 프로그램 보타이 2 또는 이의 임의의 등가물로 전산적으로 필터링하는 것을 포함하는 것인 방법.
59. 실시양태 54에 있어서, 하나 이상의 필터링된 시퀀싱 리드의 인실리코 오염제거를 수행하여 하나 이상의 오염제거된 시퀀싱 리드를 생성하는 단계를 추가로 포함하는 것인 방법.
60. 실시양태 59에 있어서, 하나 이상의 오염제거된 시퀀싱 리드를 인간 참조 게놈 데이터베이스의 빌드에 매핑하여 복수의 돌연변이된 인간 서열 정렬을 생성하는 단계를 추가로 포함하는 것인 방법.
61. 실시양태 60에 있어서, 매핑이 보타이 2 서열 정렬 도구 또는 이의 임의의 등가물에 의해 수행되는 것인 방법.
62. 실시양태 60에 있어서, 매핑이 단대단 정렬, 국부 정렬, 또는 이들의 임의의 조합을 포함하는 것인 방법.
63. 실시양태 60에 있어서, 암 돌연변이 데이터베이스를 질의함으로써 복수의 돌연변이된 인간 서열 정렬에서 암 돌연변이를 확인하는 단계를 추가로 포함하는 것인 방법.
64. 실시양태 63에 있어서, 암 돌연변이를 갖는 암 돌연변이 풍부도 표를 생성하는 단계를 추가로 포함하는 것인 방법.
65. 실시양태 54에 있어서, 복수의 k-mer가 비-인간 k-mer, 인간 돌연변이된 k-mer, 비-분류된 DNA k-mer, 또는 이들의 임의의 조합을 포함할 수 있는 것인 방법.
66. 실시양태 54에 있어서, 하나 이상의 생물학적 샘플이 조직 샘플, 액체 생검 샘플, 또는 이들의 임의의 조합을 포함하는 것인 방법.
67. 실시양태 54에 있어서, 하나 이상의 대상체가 인간 또는 비-인간 포유동물인 방법.
68. 실시양태 54에 있어서, 하나 이상의 핵산 시퀀싱 리드가 DNA, RNA, 무세포 DNA, 무세포 RNA, 엑소좀 DNA, 엑소좀 RNA, 순환 종양 세포 DNA, 순환 종양 세포 RNA, 또는 이들의 임의의 조합을 포함하는 것인 방법.
69. 실시양태 54에 있어서, 인간 참조 게놈 데이터베이스가 GRCh38인 방법.
70. 실시양태 54에 있어서, 암 예측 모델의 출력이 암의 존재 또는 부재, 암 신체 부위 위치, 암 체세포 돌연변이, 또는 대상체의 암의 존재 또는 부재와 관련된 이들의 임의의 조합의 진단을 제공하는 것인 방법.
71. 실시양태 70에 있어서, 암 예측 모델의 출력이 암 체세포 돌연변이, 복수의 k-mer의 풍부도, 또는 이들의 임의의 조합의 분석을 포함하는 것인 방법.
72. 실시양태 54에 있어서, 트레이닝된 예측 모델이 관심 있는 암에서 특징적인 풍부도와 함께 존재하거나 부재하는 것으로 공지된 암 돌연변이 및 k-mer 풍부도의 세트로 트레이닝되는 것인 방법.
73. 실시양태 65에 있어서, 비-인간 k-mer가 박테리아, 고세균, 진균, 바이러스, 또는 이들의 임의의 조합의 생물체의 도메인으로부터 기원하는 것인 방법.
74. 실시양태 54에 있어서, 암 예측 모델이 대상체의 하나 이상의 유형의 암의 존재 또는 결여를 결정하도록 구성되는 것인 방법.
75. 실시양태 74에 있어서, 하나 이상의 유형의 암이 낮은 단계에 있는 것인 방법.
76. 실시양태 75에 있어서, 낮은 단계가 암의 I기, II기, 또는 이들의 임의의 조합의 기를 포함하는 것인 방법.
77. 실시양태 54에 있어서, 암 예측 모델이 대상체의 하나 이상의 아유형의 암의 존재 또는 결여를 결정하도록 구성되는 것인 방법.
78. 실시양태 54에 있어서, 암 예측 모델이 대상체의 암 단계, 암 예후, 또는 이들의 임의의 조합을 예측하도록 구성되는 것인 방법.
79. 실시양태 54에 있어서, 암 예측 모델이 암을 치료하기 위해 치료 화합물을 투여할 때 대상체의 치료 반응을 예측하도록 구성되는 것인 방법.
80. 실시양태 54에 있어서, 암 예측 모델이 대상체에 대한 최적 요법을 결정하도록 구성되는 것인 방법.
81. 실시양태 54에 있어서, 암 예측 모델이 요법에 대한 대상체의 하나 이상의 암의 반응 과정을 종단적으로 모델링함으로써 요법에 대한 대상체의 하나 이상의 암의 반응 과정의 종단적 모델을 생성하도록 구성되는 것인 방법.
82. 실시양태 81에 있어서, 암 예측 모델이 종단적 모델에 적어도 부분적으로 기초하여 대상체의 하나 이상의 암의 치료 과정에 대한 조정을 결정하도록 구성되는 것인 방법.
83. 실시양태 54에 있어서, 암 예측 모델이 대상체의 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 식도 암종, 다형성 교아종, 두경부 편평 세포 암종, 혐색소성 신세포암, 투명 세포형 신세포암, 유두상 신세포암, 간세포암, 폐 선암종, 폐 편평 세포 암종, 림프성 신생물 미만성 거대 B-세포 림프종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 크롬 친화 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 흉선종, 갑상선 암종, 자궁 암육종, 자궁 체부 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합의 암의 존재 또는 결여를 결정하도록 구성되는 것인 방법.
84. 실시양태 59에 있어서, 인실리코 오염제거가, 다른 비-인간 신호 피처를 유지하면서, 비-인간 오염물 피처를 확인하고 제거하는 것인 방법.
85. 실시양태 66에 있어서, 액체 생검이 혈장, 혈청, 전혈, 소변, 뇌척수액, 타액, 땀, 눈물, 호기 응축물, 또는 이들의 임의의 조합을 포함하는 것인 방법.
86. 실시양태 63에 있어서, 암 돌연변이 데이터베이스가 암에서의 체세포 돌연변이의 카달로그(COSMIC), 암 게놈 프로젝트(CGP), 암 게놈 아틀라스(TGCA), 국제 암 게놈 컨소시엄(ICGC) 또는 이들의 임의의 조합으로부터 유래되는 것인 방법.
87. 실시양태 55에 있어서, 복수의 k-mer의 풍부도를 결정하는 것이 젤리피시, UCLUST, 게놈툴스(탈리머), KMC2, 게르빌, DSK, 또는 이들의 임의의 조합에 의해 수행되는 것인 방법.
88. 실시양태 54에 있어서, 하나 이상의 대상체의 임상 분류가 건강, 암, 비-암 질환, 또는 이들의 임의의 조합을 포함하는 것인 방법.
89. 실시양태 54에 있어서, 하나 이상의 필터링된 시퀀싱 리드가 비-인간 시퀀싱 리드, 비-매칭된 비-인간 시퀀싱 리드, 또는 이들의 임의의 조합을 포함하는 것인 방법.
90. 실시양태 89에 있어서, 비-매칭된 비-인간 시퀀싱 리드가 비-인간 참조 게놈 데이터베이스에 매칭되지 않는 시퀀싱 리드를 포함하는 것인 방법.
91. 하기 단계를 포함하는, 트레이닝된 예측 모델을 사용하여 대상체의 암을 진단하는 방법:
(a) 제1의 하나 이상의 대상체의 핵산 샘플의 복수의 체세포 돌연변이 및 비-인간 k-mer 서열을 수신하는 단계;
(b) 제1의 하나 이상의 대상체의 복수의 체세포 돌연변이 및 비-인간 k-mer 서열을 트레이닝된 예측 모델에 대한 입력으로서 제공하는 단계로서, 트레이닝된 예측 모델은 제2의 하나 이상의 대상체의 복수의 체세포 돌연변이 서열, 비-인간 k-mer 서열, 및 제2의 하나 이상의 대상체의 상응하는 임상 분류로 트레이닝되고, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체는 상이한 대상체인 단계; 및
(c) 트레이닝된 예측 모델의 출력에 적어도 부분적으로 기초하여 제1의 하나 이상의 대상체의 암을 진단하는 단계.
92. 실시양태 91에 있어서, 복수의 체세포 돌연변이를 수신하는 것이 제1의 하나 이상의 대상체의 핵산 샘플의 체세포 돌연변이를 계수하는 것을 추가로 포함하는 것인 방법.
93. 실시양태 91에 있어서, 복수의 비-인간 k-mer 서열을 수신하는 것이 제1의 하나 이상의 대상체의 핵산 샘플의 비-인간 k-mer 서열을 계수하는 것을 포함하는 것인 방법.
94. 실시양태 91에 있어서, 제1의 하나 이상의 대상체의 암을 진단하는 것이 제1의 하나 이상의 대상체의 암의 범주 또는 위치를 결정하는 것을 추가로 포함하는 것인 방법.
95. 실시양태 91에 있어서, 제1의 하나 이상의 대상체의 암을 진단하는 것이 하나 이상의 유형의 제1의 하나 이상의 대상체의 암을 결정하는 것을 추가로 포함하는 것인 방법.
96. 실시양태 91에 있어서, 제1의 하나 이상의 대상체의 암을 진단하는 것이 하나 이상의 아유형의 제1의 하나 이상의 대상체의 암을 결정하는 것을 추가로 포함하는 것인 방법.
97. 실시양태 91에 있어서, 제1의 하나 이상의 대상체의 암을 진단하는 것이 제1의 하나 이상의 대상체의 암 단계, 암 예후, 또는 이들의 임의의 조합을 결정하는 것을 추가로 포함하는 것인 방법.
98. 실시양태 91에 있어서, 제1의 하나 이상의 대상체의 암을 진단하는 것이 낮은 단계에서의 암의 유형을 결정하는 것을 추가로 포함하는 것인 방법.
99. 실시양태 98에 있어서, 낮은 단계에서의 암의 유형이 I기 또는 II기 암을 포함하는 것인 방법.
100. 실시양태 91에 있어서, 제1의 하나 이상의 대상체의 암을 진단하는 것이 제1의 하나 이상의 대상체의 암의 돌연변이 상태를 결정하는 것을 추가로 포함하는 것인 방법.
101. 실시양태 91에 있어서, 제1의 하나 이상의 대상체의 암을 진단하는 것이 제1의 하나 이상의 대상체의 암을 치료하기 위한 요법에 대한 제1의 하나 이상의 대상체의 반응을 결정하는 것을 추가로 포함하는 것인 방법.
102. 실시양태 91에 있어서, 암이 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 식도 암종, 다형성 교아종, 두경부 편평 세포 암종, 혐색소성 신세포암, 투명 세포형 신세포암, 유두상 신세포암, 간세포암, 폐 선암종, 폐 편평 세포 암종, 림프성 신생물 미만성 거대 B-세포 림프종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 크롬 친화 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 흉선종, 갑상선 암종, 자궁 암육종, 자궁 체부 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합을 포함하는 것인 방법.
103. 실시양태 91에 있어서, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체가 비-인간 포유동물인 방법.
104. 실시양태 91에 있어서, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체가 인간인 방법.
105. 실시양태 91에 있어서, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체가 포유동물인 방법.
106. 실시양태 91에 있어서, 복수의 비-인간 k-mer 서열이 바이러스, 박테리아, 고세균, 진균, 또는 이들의 임의의 조합의 생물체의 비-포유동물 도메인으로부터 기원하는 것인 방법.
107. 하기 단계를 포함하는, 하나 이상의 대상체의 암의 존재 또는 결여를 결정하기 위해 트레이닝된 예측 모델을 활용하는 컴퓨터 구현 방법:
(a) 제1의 하나 이상의 대상체의 핵산 샘플의 복수의 체세포 돌연변이 및 비-인간 k-mer 서열을 수신하는 단계;
(b) 제1의 하나 이상의 대상체의 복수의 체세포 돌연변이 및 비-인간 k-mer 서열을 트레이닝된 예측 모델에 대한 입력으로서 제공하는 단계로서, 트레이닝된 예측 모델은 제2의 하나 이상의 대상체의 복수의 체세포 돌연변이 서열, 비-인간 k-mer 서열, 및 제2의 하나 이상의 대상체의 상응하는 임상 분류로 트레이닝되고, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체는 상이한 대상체인 단계; 및
(c) 트레이닝된 예측 모델의 출력에 적어도 부분적으로 기초하여 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 단계.
108. 실시양태 107에 있어서, 복수의 체세포 돌연변이를 수신하는 것이 제1의 하나 이상의 대상체의 핵산 샘플의 체세포 돌연변이를 계수하는 것을 추가로 포함하는 것인 컴퓨터 구현 방법.
109. 실시양태 107에 있어서, 복수의 비-인간 k-mer 서열을 수신하는 것이 제1의 하나 이상의 대상체의 핵산 샘플의 비-인간 k-mer 서열을 계수하는 것을 포함하는 것인 컴퓨터 구현 방법.
110. 실시양태 107에 있어서, 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 것이 제1의 하나 이상의 대상체의 암의 범주 또는 위치를 결정하는 것을 추가로 포함하는 것인 컴퓨터 구현 방법.
111. 실시양태 107에 있어서, 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 것이 하나 이상의 유형의 제1의 하나 이상의 대상체의 암을 결정하는 것을 추가로 포함하는 것인 컴퓨터 구현 방법.
112. 실시양태 107에 있어서, 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 것이 하나 이상의 아유형의 제1의 하나 이상의 대상체의 암을 결정하는 것을 추가로 포함하는 것인 컴퓨터 구현 방법.
113. 실시양태 107에 있어서, 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 것이 암 단계, 암 예후, 또는 이들의 임의의 조합을 결정하는 것을 추가로 포함하는 것인 컴퓨터 구현 방법.
114. 실시양태 107에 있어서, 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 것이 낮은 단계에서의 암의 유형을 결정하는 것을 추가로 포함하는 것인 컴퓨터 구현 방법.
115. 제114항에 있어서, 낮은 단계에서의 암의 유형이 I기 또는 II기 암을 포함하는 것인 컴퓨터 구현 방법.
116. 실시양태 107에 있어서, 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 것이 제1의 하나 이상의 대상체의 암의 돌연변이 상태를 결정하는 것을 추가로 포함하는 것인 컴퓨터 구현 방법.
117. 실시양태 107에 있어서, 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 것이 제1의 하나 이상의 대상체의 암을 치료하기 위한 요법에 대한 제1의 하나 이상의 대상체의 반응을 결정하는 것을 추가로 포함하는 것인 컴퓨터 구현 방법.
118. 실시양태 107에 있어서, 암이 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 식도 암종, 다형성 교아종, 두경부 편평 세포 암종, 혐색소성 신세포암, 투명 세포형 신세포암, 유두상 신세포암, 간세포암, 폐 선암종, 폐 편평 세포 암종, 림프성 신생물 미만성 거대 B-세포 림프종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 크롬 친화 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 흉선종, 갑상선 암종, 자궁 암육종, 자궁 체부 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합을 포함하는 것인 컴퓨터 구현 방법.
119. 실시양태 107에 있어서, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체가 비-인간 포유동물인 컴퓨터 구현 방법.
120. 실시양태 107에 있어서, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체가 인간인 컴퓨터 구현 방법.
121. 실시양태 107에 있어서, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체가 포유동물인 컴퓨터 구현 방법.
122. 실시양태 107에 있어서, 복수의 비-인간 k-mer 서열이 바이러스, 박테리아, 고세균, 진균, 또는 이들의 임의의 조합의 생물체의 비-포유동물 도메인으로부터 기원하는 것인 컴퓨터 구현 방법.

Claims (122)

  1. 암 예측 모델을 생성하는 방법으로서,
    (a) 하나 이상의 대상체의 생물학적 샘플의 핵산 조성을 시퀀싱하여 하나 이상의 시퀀싱 리드를 생성하는 단계;
    (b) 하나 이상의 시퀀싱 리드를 인간 게놈 데이터베이스로 필터링하여 하나 이상의 필터링된 시퀀싱 리드를 생성하는 단계;
    (c) 하나 이상의 필터링된 시퀀싱 리드로부터 복수의 k-mer를 생성하는 단계; 및
    (d) 복수의 k-mer 및 하나 이상의 대상체의 상응하는 임상 분류로 예측 모델을 트레이닝함으로써 암 예측 모델을 생성하는 단계
    를 포함하는, 암 예측 모델을 생성하는 방법.
  2. 제1항에 있어서, 복수의 k-mer의 풍부도를 결정하는 단계 및 예측 모델을 복수의 k-mer의 풍부도로 트레이닝하는 단계를 추가로 포함하는 방법.
  3. 제1항에 있어서, 필터링이 하나 이상의 시퀀싱 리드와 인간 참조 게놈 데이터베이스 간의 정확한 매칭에 의해 수행되는 것인 방법.
  4. 제3항에 있어서, 정확한 매칭이 하나 이상의 시퀀싱 리드를 소프트웨어 프로그램 크라켄(Kraken) 또는 크라켄 2로 전산적으로 필터링하는 것을 포함하는 것인 방법.
  5. 제3항에 있어서, 정확한 매칭이 하나 이상의 시퀀싱 리드를 소프트웨어 프로그램 보타이(bowtie) 2 또는 이의 임의의 등가물로 전산적으로 필터링하는 것을 포함하는 것인 방법.
  6. 제1항에 있어서, 하나 이상의 필터링된 시퀀싱 리드의 인실리코 오염제거를 수행하여 하나 이상의 오염제거된 시퀀싱 리드를 생성하는 단계를 추가로 포함하는 방법.
  7. 제6항에 있어서, 하나 이상의 오염제거된 시퀀싱 리드를 인간 참조 게놈 데이터베이스의 빌드에 매핑하여 복수의 돌연변이된 인간 서열 정렬을 생성하는 단계를 추가로 포함하는 방법.
  8. 제7항에 있어서, 매핑이 보타이 2 서열 정렬 도구 또는 이의 임의의 등가물에 의해 수행되는 것인 방법.
  9. 제7항에 있어서, 매핑이 단대단(end-to-end) 정렬, 국부 정렬, 또는 이들의 임의의 조합을 포함하는 것인 방법.
  10. 제7항에 있어서, 암 돌연변이 데이터베이스를 질의함으로써 복수의 돌연변이된 인간 서열 정렬에서 암 돌연변이를 확인하는 단계를 추가로 포함하는 방법.
  11. 제10항에 있어서, 암 돌연변이를 갖는 암 돌연변이 풍부도 표를 생성하는 단계를 추가로 포함하는 방법.
  12. 제1항에 있어서, 복수의 k-mer가 비-인간 k-mer, 인간 돌연변이된 k-mer, 비-분류된 DNA k-mer, 또는 이들의 임의의 조합을 포함하는 것인 방법.
  13. 제1항에 있어서, 생물학적 샘플이 조직 샘플, 액체 생검 샘플, 또는 이들의 임의의 조합을 포함하는 것인 방법.
  14. 제1항에 있어서, 하나 이상의 대상체가 인간 또는 비-인간 포유동물인 방법.
  15. 제1항에 있어서, 핵산 조성이 DNA, RNA, 무세포 DNA, 무세포 RNA, 엑소좀 DNA, 엑소좀 RNA, 순환 종양 세포 DNA, 순환 종양 세포 RNA, 또는 이들의 임의의 조합을 포함하는 것인 방법.
  16. 제1항에 있어서, 인간 참조 게놈 데이터베이스가 GRCh38인 방법.
  17. 제2항에 있어서, 암 예측 모델의 출력이 암의 존재 또는 부재, 암 신체 부위 위치, 암 체세포 돌연변이, 또는 대상체의 암의 존재 또는 부재와 관련된 이들의 임의의 조합의 진단을 제공하는 것인 방법.
  18. 제17항에 있어서, 암 예측 모델의 출력이 암 체세포 돌연변이, 복수의 k-mer의 풍부도, 또는 이들의 임의의 조합의 분석을 포함하는 것인 방법.
  19. 제1항에 있어서, 트레이닝된 예측 모델이, 관심 있는 암에서 특징적인 풍부도와 함께 존재하거나 부재하는 것으로 공지된 암 돌연변이 및 k-mer 풍부도의 세트로 트레이닝되는 것인 방법.
  20. 제12항에 있어서, 비-인간 k-mer가 박테리아, 고세균, 진균, 바이러스, 또는 이들의 임의의 조합의 생물체의 도메인으로부터 기원하는 것인 방법.
  21. 제1항에 있어서, 암 예측 모델이 대상체의 하나 이상의 유형의 암의 존재 또는 결여를 결정하도록 구성되는 것인 방법.
  22. 제21항에 있어서, 하나 이상의 유형의 암이 낮은 단계에 있는 것인 방법.
  23. 제22항에 있어서, 낮은 단계가 암의 I기, II기, 또는 이들의 임의의 조합의 기를 포함하는 것인 방법.
  24. 제1항에 있어서, 암 예측 모델이 대상체에서 하나 이상의 아유형의 암의 존재 또는 결여를 결정하도록 구성되는 것인 방법.
  25. 제1항에 있어서, 암 예측 모델이 대상체의 암 단계, 암 예후, 또는 이들의 임의의 조합을 예측하도록 구성되는 것인 방법.
  26. 제1항에 있어서, 암 예측 모델이 암을 치료하기 위해 치료 화합물을 투여할 때 대상체의 치료 반응을 예측하도록 구성되는 것인 방법.
  27. 제1항에 있어서, 암 예측 모델이 대상체에 대한 최적의 요법을 결정하도록 구성되는 것인 방법.
  28. 제1항에 있어서, 암 예측 모델이, 요법에 대한 대상체의 하나 이상의 암의 반응 과정을 종단적으로 모델링함으로써 요법에 대한 대상체의 하나 이상의 암의 반응 과정의 종단적 모델을 생성하도록 구성되는 것인 방법.
  29. 제28항에 있어서, 암 예측 모델이, 종단적 모델에 적어도 부분적으로 기초하여 대상체의 하나 이상의 암의 치료 과정에 대한 조정을 결정하도록 구성되는 것인 방법.
  30. 제1항에 있어서, 암 예측 모델이, 대상체의 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 식도 암종, 다형성 교아종, 두경부 편평 세포 암종, 혐색소성 신세포암, 투명 세포형 신세포암, 유두상 신세포암, 간세포암, 폐 선암종, 폐 편평 세포 암종, 림프성 신생물 미만성 거대 B-세포 림프종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 크롬 친화 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 흉선종, 갑상선 암종, 자궁 암육종, 자궁 체부 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합 암의 존재 또는 결여를 결정하도록 구성되는 것인 방법.
  31. 제6항에 있어서, 인실리코 오염제거가, 다른 비-인간 신호 피처를 유지하면서, 비-인간 오염물 피처를 확인하고 제거하는 것인 방법.
  32. 제13항에 있어서, 액체 생검이 혈장, 혈청, 전혈, 소변, 뇌척수액, 타액, 땀, 눈물, 호기 응축물, 또는 이들의 임의의 조합을 포함하는 것인 방법.
  33. 제10항에 있어서, 암 돌연변이 데이터베이스가 암에서의 체세포 돌연변이의 카달로그(COSMIC), 암 게놈 프로젝트(CGP), 암 게놈 아틀라스(TGCA), 국제 암 게놈 컨소시엄(ICGC) 또는 이들의 임의의 조합으로부터 유래되는 것인 방법.
  34. 제2항에 있어서, 복수의 k-mer의 풍부도를 결정하는 것이 젤리피시(Jellyfish), UCLUST, 게놈툴스(GenomeTools)(탈리머(Tallymer)), KMC2, 게르빌(Gerbil), DSK 또는 이들의 임의의 조합에 의해 수행되는 것인 방법.
  35. 제1항에 있어서, 하나 이상의 대상체의 임상 분류가 건강, 암, 비-암 질환, 또는 이들의 임의의 조합의 분류를 포함하는 것인 방법.
  36. 제1항에 있어서, 하나 이상의 필터링된 시퀀싱 리드가 참조 인간 게놈에 대한 비-정확한 매칭, 비-인간 시퀀싱 리드, 비-매칭된 비-인간 시퀀싱 리드, 또는 이들의 임의의 조합을 포함하는 것인 방법.
  37. 제36항에 있어서, 비-매칭된 비-인간 시퀀싱 리드가, 비-인간 참조 게놈 데이터베이스에 매칭되지 않는 시퀀싱 리드를 포함하는 것인 방법.
  38. 대상체의 암을 진단하는 방법으로서,
    (a) 대상체의 샘플의 복수의 체세포 돌연변이 및 비-인간 k-mer 서열을 결정하는 단계;
    (b) 대상체의 복수의 체세포 돌연변이 및 복수의 비-인간 k-mer 서열을 주어진 암에 대한 복수의 체세포 돌연변이 및 비-인간 k-mer 서열과 비교하는 단계; 및
    (c) 대상체의 복수의 체세포 돌연변이 및 비-인간 k-mer 서열과 주어진 암에 대한 복수의 체세포 돌연변이 및 비-인간 k-mer 서열의 비교에 적어도 부분적으로 기초하여 암의 존재 또는 결여의 확률을 제공함으로써 대상체의 암을 진단하는 단계
    를 포함하는, 대상체의 암을 진단하는 방법.
  39. 제38항에 있어서, 복수의 체세포 돌연변이를 결정하는 것이 대상체의 샘플의 체세포 돌연변이를 계수하는 것을 추가로 포함하는 것인 방법.
  40. 제38항에 있어서, 복수의 비-인간 k-mer 서열을 결정하는 것이 대상체의 샘플의 비-인간 k-mer 서열을 계수하는 것을 포함하는 것인 방법.
  41. 제38항에 있어서, 대상체의 암을 진단하는 것이 암의 범주 또는 위치를 결정하는 것을 추가로 포함하는 것인 방법.
  42. 제38항에 있어서, 대상체의 암을 진단하는 것이 하나 이상의 유형의 대상체의 암을 결정하는 것을 추가로 포함하는 것인 방법.
  43. 제38항에 있어서, 대상체의 암을 진단하는 것이 하나 이상의 아유형의 대상체의 암을 결정하는 것을 추가로 포함하는 것인 방법.
  44. 제38항에 있어서, 대상체의 암을 진단하는 것이 대상체의 암 단계, 암 예후, 또는 이들의 임의의 조합을 결정하는 것을 추가로 포함하는 것인 방법.
  45. 제38항에 있어서, 대상체의 암을 진단하는 것이 낮은 단계에서의 암의 유형을 결정하는 것을 추가로 포함하는 것인 방법.
  46. 제45항에 있어서, 낮은 단계에서의 암의 유형이 I기 또는 II기 암을 포함하는 것인 방법.
  47. 제38항에 있어서, 대상체의 암을 진단하는 것이 대상체의 암의 돌연변이 상태를 결정하는 것을 추가로 포함하는 것인 방법.
  48. 제38항에 있어서, 대상체의 암을 진단하는 것이 대상체의 암을 치료하기 위한 요법에 대한 대상체의 반응을 결정하는 것을 추가로 포함하는 것인 방법.
  49. 제38항에 있어서, 암이 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 식도 암종, 다형성 교아종, 두경부 편평 세포 암종, 혐색소성 신세포암, 투명 세포형 신세포암, 유두상 신세포암, 간세포암, 폐 선암종, 폐 편평 세포 암종, 림프성 신생물 미만성 거대 B-세포 림프종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 크롬 친화 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 흉선종, 갑상선 암종, 자궁 암육종, 자궁 체부 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합을 포함하는 것인 방법.
  50. 제38항에 있어서, 대상체가 비-인간 포유동물인 방법.
  51. 제38항에 있어서, 대상체가 인간인 방법.
  52. 제38항에 있어서, 대상체가 포유동물인 방법.
  53. 제38항에 있어서, 복수의 비-인간 k-mer 서열이 바이러스, 박테리아, 고세균, 진균, 또는 이들의 임의의 조합의 생물체의 비-포유동물 도메인으로부터 기원하는 것인 방법.
  54. 암 예측 모델을 생성하는 방법으로서,
    (a) 하나 이상의 대상체의 생물학적 샘플의 하나 이상의 핵산 시퀀싱 리드를 제공하는 단계;
    (b) 하나 이상의 핵산 시퀀싱 리드를 인간 게놈 데이터베이스로 필터링하여 하나 이상의 필터링된 시퀀싱 리드를 생성하는 단계;
    (c) 하나 이상의 필터링된 시퀀싱 리드로부터 복수의 k-mer를 생성하는 단계; 및
    (d) 복수의 k-mer 및 하나 이상의 대상체의 상응하는 임상 분류로 예측 모델을 트레이닝함으로써 암 예측 모델을 생성하는 단계
    를 포함하는, 암 예측 모델을 생성하는 방법.
  55. 제54항에 있어서, 복수의 k-mer의 풍부도를 결정하는 단계 및 예측 모델을 복수의 k-mer의 풍부도로 트레이닝하는 단계를 추가로 포함하는 방법.
  56. 제54항에 있어서, 필터링이 하나 이상의 핵산 시퀀싱 리드와 인간 참조 게놈 데이터베이스 간의 정확한 매칭에 의해 수행되는 것인 방법.
  57. 제56항에 있어서, 정확한 매칭이 하나 이상의 핵산 시퀀싱 리드를 소프트웨어 프로그램 크라켄 또는 크라켄 2로 전산적으로 필터링하는 것을 포함하는 것인 방법.
  58. 제56항에 있어서, 정확한 매칭이 하나 이상의 핵산 시퀀싱 리드를 소프트웨어 프로그램 보타이 2 또는 이의 임의의 등가물로 전산적으로 필터링하는 것을 포함하는 것인 방법.
  59. 제54항에 있어서, 하나 이상의 필터링된 시퀀싱 리드의 인실리코 오염제거를 수행하여 하나 이상의 오염제거된 시퀀싱 리드를 생성하는 단계를 추가로 포함하는 방법.
  60. 제59항에 있어서, 하나 이상의 오염제거된 시퀀싱 리드를 인간 참조 게놈 데이터베이스의 빌드에 매핑하여 복수의 돌연변이된 인간 서열 정렬을 생성하는 단계를 추가로 포함하는 방법.
  61. 제60항에 있어서, 매핑이 보타이 2 서열 정렬 도구 또는 이의 임의의 등가물에 의해 수행되는 것인 방법.
  62. 제60항에 있어서, 매핑이 단대단 정렬, 국부 정렬, 또는 이들의 임의의 조합을 포함하는 것인 방법.
  63. 제60항에 있어서, 암 돌연변이 데이터베이스를 질의함으로써 복수의 돌연변이된 인간 서열 정렬에서 암 돌연변이를 확인하는 단계를 추가로 포함하는 방법.
  64. 제63항에 있어서, 암 돌연변이를 갖는 암 돌연변이 풍부도 표를 생성하는 단계를 추가로 포함하는 방법.
  65. 제54항에 있어서, 복수의 k-mer가 비-인간 k-mer, 인간 돌연변이된 k-mer, 비-분류된 DNA k-mer, 또는 이들의 임의의 조합을 포함할 수 있는 것인 방법.
  66. 제54항에 있어서, 하나 이상의 생물학적 샘플이 조직 샘플, 액체 생검 샘플, 또는 이들의 임의의 조합을 포함하는 것인 방법.
  67. 제54항에 있어서, 하나 이상의 대상체가 인간 또는 비-인간 포유동물인 방법.
  68. 제54항에 있어서, 하나 이상의 핵산 시퀀싱 리드가 DNA, RNA, 무세포 DNA, 무세포 RNA, 엑소좀 DNA, 엑소좀 RNA, 순환 종양 세포 DNA, 순환 종양 세포 RNA, 또는 이들의 임의의 조합을 포함하는 것인 방법.
  69. 제54항에 있어서, 인간 참조 게놈 데이터베이스가 GRCh38인 방법.
  70. 제54항에 있어서, 암 예측 모델의 출력이 암의 존재 또는 부재, 암 신체 부위 위치, 암 체세포 돌연변이, 또는 대상체의 암의 존재 또는 부재와 관련된 이들의 임의의 조합의 진단을 제공하는 것인 방법.
  71. 제70항에 있어서, 암 예측 모델의 출력이 암 체세포 돌연변이, 복수의 k-mer의 풍부도, 또는 이들의 임의의 조합의 분석을 포함하는 것인 방법.
  72. 제54항에 있어서, 트레이닝된 예측 모델이, 관심 있는 암에서 특징적인 풍부도와 함께 존재하거나 부재하는 것으로 공지된 암 돌연변이 및 k-mer 풍부도의 세트로 트레이닝되는 것인 방법.
  73. 제65항에 있어서, 비-인간 k-mer가 박테리아, 고세균, 진균, 바이러스, 또는 이들의 임의의 조합의 생물체의 도메인으로부터 기원하는 것인 방법.
  74. 제54항에 있어서, 암 예측 모델이 대상체의 하나 이상의 유형의 암의 존재 또는 결여를 결정하도록 구성되는 것인 방법.
  75. 제74항에 있어서, 하나 이상의 유형의 암이 낮은 단계에 있는 것인 방법.
  76. 제75항에 있어서, 낮은 단계가 암의 I기, II기, 또는 이들의 임의의 조합의 기를 포함하는 것인 방법.
  77. 제54항에 있어서, 암 예측 모델이 대상체의 하나 이상의 아유형의 암의 존재 또는 결여를 결정하도록 구성되는 것인 방법.
  78. 제54항에 있어서, 암 예측 모델이 대상체의 암 단계, 암 예후, 또는 이들의 임의의 조합을 예측하도록 구성되는 것인 방법.
  79. 제54항에 있어서, 암 예측 모델이 암을 치료하기 위해 치료 화합물을 투여할 때 대상체의 치료 반응을 예측하도록 구성되는 것인 방법.
  80. 제54항에 있어서, 암 예측 모델이 대상체에 대한 최적 요법을 결정하도록 구성되는 것인 방법.
  81. 제54항에 있어서, 암 예측 모델이, 요법에 대한 대상체의 하나 이상의 암의 반응 과정을 종단적으로 모델링함으로써 요법에 대한 대상체의 하나 이상의 암의 반응 과정의 종단적 모델을 생성하도록 구성되는 것인 방법.
  82. 제81항에 있어서, 암 예측 모델이 종단적 모델에 적어도 부분적으로 기초하여 대상체의 하나 이상의 암의 치료 과정에 대한 조정을 결정하도록 구성되는 것인 방법.
  83. 제54항에 있어서, 암 예측 모델이 대상체의 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 식도 암종, 다형성 교아종, 두경부 편평 세포 암종, 혐색소성 신세포암, 투명 세포형 신세포암, 유두상 신세포암, 간세포암, 폐 선암종, 폐 편평 세포 암종, 림프성 신생물 미만성 거대 B-세포 림프종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 크롬 친화 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 흉선종, 갑상선 암종, 자궁 암육종, 자궁 체부 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합 암의 존재 또는 결여를 결정하도록 구성되는 것인 방법.
  84. 제59항에 있어서, 인실리코 오염제거가, 다른 비-인간 신호 피처를 유지하면서, 비-인간 오염물 피처를 확인하고 제거하는 것인 방법.
  85. 제66항에 있어서, 액체 생검이 혈장, 혈청, 전혈, 소변, 뇌척수액, 타액, 땀, 눈물, 호기 응축물, 또는 이들의 임의의 조합을 포함하는 것인 방법.
  86. 제63항에 있어서, 암 돌연변이 데이터베이스가 암에서의 체세포 돌연변이의 카달로그(COSMIC), 암 게놈 프로젝트(CGP), 암 게놈 아틀라스(TGCA), 국제 암 게놈 컨소시엄(ICGC) 또는 이들의 임의의 조합으로부터 유래되는 것인 방법.
  87. 제55항에 있어서, 복수의 k-mer의 풍부도를 결정하는 것이 젤리피시, UCLUST, 게놈툴스(탈리머), KMC2, 게르빌, DSK, 또는 이들의 임의의 조합에 의해 수행되는 것인 방법.
  88. 제54항에 있어서, 하나 이상의 대상체의 임상 분류가 건강, 암, 비-암 질환, 또는 이들의 임의의 조합을 포함하는 것인 방법.
  89. 제54항에 있어서, 하나 이상의 필터링된 시퀀싱 리드가 비-인간 시퀀싱 리드, 비-매칭된 비-인간 시퀀싱 리드, 또는 이들의 임의의 조합을 포함하는 것인 방법.
  90. 제89항에 있어서, 비-매칭된 비-인간 시퀀싱 리드가 비-인간 참조 게놈 데이터베이스에 매칭되지 않는 시퀀싱 리드를 포함하는 것인 방법.
  91. 트레이닝된 예측 모델을 사용하여 대상체의 암을 진단하는 방법으로서,
    (a) 제1의 하나 이상의 대상체의 핵산 샘플의 복수의 체세포 돌연변이 및 비-인간 k-mer 서열을 수신하는 단계;
    (b) 제1의 하나 이상의 대상체의 복수의 체세포 돌연변이 및 비-인간 k-mer 서열을 트레이닝된 예측 모델에 대한 입력으로서 제공하는 단계로서, 트레이닝된 예측 모델은 제2의 하나 이상의 대상체의 복수의 체세포 돌연변이 서열, 비-인간 k-mer 서열, 및 제2의 하나 이상의 대상체의 상응하는 임상 분류로 트레이닝되고, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체는 상이한 대상체인 단계; 및
    (c) 트레이닝된 예측 모델의 출력에 적어도 부분적으로 기초하여 제1의 하나 이상의 대상체의 암을 진단하는 단계
    를 포함하는, 트레이닝된 예측 모델을 사용하여 대상체의 암을 진단하는 방법.
  92. 제91항에 있어서, 복수의 체세포 돌연변이를 수신하는 것이 제1의 하나 이상의 대상체의 핵산 샘플의 체세포 돌연변이를 계수하는 것을 추가로 포함하는 것인 방법.
  93. 제91항에 있어서, 복수의 비-인간 k-mer 서열을 수신하는 것이 제1의 하나 이상의 대상체의 핵산 샘플의 비-인간 k-mer 서열을 계수하는 것을 포함하는 것인 방법.
  94. 제91항에 있어서, 제1의 하나 이상의 대상체의 암을 진단하는 것이 제1의 하나 이상의 대상체의 암의 범주 또는 위치를 결정하는 것을 추가로 포함하는 것인 방법.
  95. 제91항에 있어서, 제1의 하나 이상의 대상체의 암을 진단하는 것이 하나 이상의 유형의 제1의 하나 이상의 대상체의 암을 결정하는 것을 추가로 포함하는 것인 방법.
  96. 제91항에 있어서, 제1의 하나 이상의 대상체의 암을 진단하는 것이 하나 이상의 아유형의 제1의 하나 이상의 대상체의 암을 결정하는 것을 추가로 포함하는 것인 방법.
  97. 제91항에 있어서, 제1의 하나 이상의 대상체의 암을 진단하는 것이 제1의 하나 이상의 대상체의 암 단계, 암 예후, 또는 이들의 임의의 조합을 결정하는 것을 추가로 포함하는 것인 방법.
  98. 제91항에 있어서, 제1의 하나 이상의 대상체의 암을 진단하는 것이 낮은 단계에서의 암의 유형을 결정하는 것을 추가로 포함하는 것인 방법.
  99. 제98항에 있어서, 낮은 단계에서의 암의 유형이 I기 또는 II기 암을 포함하는 것인 방법.
  100. 제91항에 있어서, 제1의 하나 이상의 대상체의 암을 진단하는 것이 제1의 하나 이상의 대상체의 암의 돌연변이 상태를 결정하는 것을 추가로 포함하는 것인 방법.
  101. 제91항에 있어서, 제1의 하나 이상의 대상체의 암을 진단하는 것이 제1의 하나 이상의 대상체의 암을 치료하기 위한 요법에 대한 제1의 하나 이상의 대상체의 반응을 결정하는 것을 추가로 포함하는 것인 방법.
  102. 제91항에 있어서, 암이 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 식도 암종, 다형성 교아종, 두경부 편평 세포 암종, 혐색소성 신세포암, 투명 세포형 신세포암, 유두상 신세포암, 간세포암, 폐 선암종, 폐 편평 세포 암종, 림프성 신생물 미만성 거대 B-세포 림프종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 크롬 친화 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 흉선종, 갑상선 암종, 자궁 암육종, 자궁 체부 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합을 포함하는 것인 방법.
  103. 제91항에 있어서, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체가 비-인간 포유동물인 방법.
  104. 제91항에 있어서, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체가 인간인 방법.
  105. 제91항에 있어서, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체가 포유동물인 방법.
  106. 제91항에 있어서, 복수의 비-인간 k-mer 서열이 바이러스, 박테리아, 고세균, 진균, 또는 이들의 임의의 조합의 생물체의 비-포유동물 도메인으로부터 기원하는 것인 방법.
  107. 하나 이상의 대상체의 암의 존재 또는 결여를 결정하기 위해 트레이닝된 예측 모델을 활용하는 컴퓨터 구현 방법으로서,
    (a) 제1의 하나 이상의 대상체의 핵산 샘플의 복수의 체세포 돌연변이 및 비-인간 k-mer 서열을 수신하는 단계;
    (b) 제1의 하나 이상의 대상체의 복수의 체세포 돌연변이 및 비-인간 k-mer 서열을 트레이닝된 예측 모델에 대한 입력으로서 제공하는 단계로서, 트레이닝된 예측 모델은 제2의 하나 이상의 대상체의 복수의 체세포 돌연변이 서열, 비-인간 k-mer 서열, 및 제2의 하나 이상의 대상체의 상응하는 임상 분류로 트레이닝되고, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체는 상이한 대상체인 단계; 및
    (c) 트레이닝된 예측 모델의 출력에 적어도 부분적으로 기초하여 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 단계
    를 포함하는, 하나 이상의 대상체의 암의 존재 또는 결여를 결정하기 위해 트레이닝된 예측 모델을 활용하는 컴퓨터 구현 방법.
  108. 제107항에 있어서, 복수의 체세포 돌연변이를 수신하는 것이 제1의 하나 이상의 대상체의 핵산 샘플의 체세포 돌연변이를 계수하는 것을 추가로 포함하는 것인 컴퓨터 구현 방법.
  109. 제107항에 있어서, 복수의 비-인간 k-mer 서열을 수신하는 것이 제1의 하나 이상의 대상체의 핵산 샘플의 비-인간 k-mer 서열을 계수하는 것을 포함하는 것인 컴퓨터 구현 방법.
  110. 제107항에 있어서, 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 것이 제1의 하나 이상의 대상체의 암의 범주 또는 위치를 결정하는 것을 추가로 포함하는 것인 컴퓨터 구현 방법.
  111. 제107항에 있어서, 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 것이 하나 이상의 유형의 제1의 하나 이상의 대상체의 암을 결정하는 것을 추가로 포함하는 것인 컴퓨터 구현 방법.
  112. 제107항에 있어서, 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 것이 하나 이상의 아유형의 제1의 하나 이상의 대상체의 암을 결정하는 것을 추가로 포함하는 것인 컴퓨터 구현 방법.
  113. 제107항에 있어서, 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 것이 암 단계, 암 예후, 또는 이들의 임의의 조합을 결정하는 것을 추가로 포함하는 것인 컴퓨터 구현 방법.
  114. 제107항에 있어서, 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 것이 낮은 단계에서의 암의 유형을 결정하는 것을 추가로 포함하는 것인 컴퓨터 구현 방법.
  115. 제114항에 있어서, 낮은 단계에서의 암의 유형이 I기 또는 II기 암을 포함하는 것인 컴퓨터 구현 방법.
  116. 제107항에 있어서, 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 것이 제1의 하나 이상의 대상체의 암의 돌연변이 상태를 결정하는 것을 추가로 포함하는 것인 컴퓨터 구현 방법.
  117. 제107항에 있어서, 제1의 하나 이상의 대상체의 암의 존재 또는 결여를 결정하는 것이 제1의 하나 이상의 대상체의 암을 치료하기 위한 요법에 대한 제1의 하나 이상의 대상체의 반응을 결정하는 것을 추가로 포함하는 것인 컴퓨터 구현 방법.
  118. 제107항에 있어서, 암이 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 식도 암종, 다형성 교아종, 두경부 편평 세포 암종, 혐색소성 신세포암, 투명 세포형 신세포암, 유두상 신세포암, 간세포암, 폐 선암종, 폐 편평 세포 암종, 림프성 신생물 미만성 거대 B-세포 림프종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 크롬 친화 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 흉선종, 갑상선 암종, 자궁 암육종, 자궁 체부 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합을 포함하는 것인 컴퓨터 구현 방법.
  119. 제107항에 있어서, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체가 비-인간 포유동물인 컴퓨터 구현 방법.
  120. 제107항에 있어서, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체가 인간인 컴퓨터 구현 방법.
  121. 제107항에 있어서, 제1의 하나 이상의 대상체 및 제2의 하나 이상의 대상체가 포유동물인 컴퓨터 구현 방법.
  122. 제107항에 있어서, 복수의 비-인간 k-mer 서열이 바이러스, 박테리아, 고세균, 진균, 또는 이들의 임의의 조합의 생물체의 비-포유동물 도메인으로부터 기원하는 것인 컴퓨터 구현 방법.
KR1020237024488A 2020-12-22 2021-12-22 미생물 핵산 및 체세포 돌연변이를 이용한 택소노미독립적 암 진단 및 분류 KR20230134491A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063128971P 2020-12-22 2020-12-22
US63/128,971 2020-12-22
PCT/US2021/064977 WO2022140616A1 (en) 2020-12-22 2021-12-22 Taxonomy-independent cancer diagnostics and classification using microbial nucleic acids and somatic mutations

Publications (1)

Publication Number Publication Date
KR20230134491A true KR20230134491A (ko) 2023-09-21

Family

ID=82158458

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237024488A KR20230134491A (ko) 2020-12-22 2021-12-22 미생물 핵산 및 체세포 돌연변이를 이용한 택소노미독립적 암 진단 및 분류

Country Status (9)

Country Link
US (1) US20240035093A1 (ko)
EP (1) EP4268232A1 (ko)
JP (1) JP2024500881A (ko)
KR (1) KR20230134491A (ko)
CN (1) CN117203705A (ko)
CA (1) CA3202888A1 (ko)
IL (1) IL303849A (ko)
MX (1) MX2023007515A (ko)
WO (1) WO2022140616A1 (ko)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2902099C (en) * 2013-03-08 2020-06-02 F. Hoffmann-La Roche Ag Egfr mutation blood testing
WO2016097251A1 (en) * 2014-12-19 2016-06-23 Danmarks Tekniske Universitet Method for identification of tissue or organ localization of a tumour
US11615864B2 (en) * 2017-02-17 2023-03-28 The Board Of Trustees Of The Leland Stanford Junior University Accurate and sensitive unveiling of chimeric biomolecule sequences and applications thereof
AU2019253112A1 (en) * 2018-04-13 2020-10-29 Grail, Llc Multi-assay prediction model for cancer detection

Also Published As

Publication number Publication date
IL303849A (en) 2023-08-01
CN117203705A (zh) 2023-12-08
MX2023007515A (es) 2023-09-12
WO2022140616A1 (en) 2022-06-30
US20240035093A1 (en) 2024-02-01
CA3202888A1 (en) 2022-06-30
JP2024500881A (ja) 2024-01-10
EP4268232A1 (en) 2023-11-01

Similar Documents

Publication Publication Date Title
JP7368483B2 (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
US11367508B2 (en) Systems and methods for detecting cellular pathway dysregulation in cancer specimens
US20200232046A1 (en) Genomic sequencing classifier
JP2022532897A (ja) マルチラベルがん分類のためのシステムおよび方法
US20210327534A1 (en) Cancer classification using patch convolutional neural networks
US20230114581A1 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
JP2022521791A (ja) 病原体検出のための配列決定データを使用するためのシステムおよび方法
US20200219587A1 (en) Systems and methods for using fragment lengths as a predictor of cancer
US20220367010A1 (en) Molecular response and progression detection from circulating cell free dna
WO2022072537A1 (en) Systems and methods for using a convolutional neural network to detect contamination
Gendoo et al. Personalized diagnosis of medulloblastoma subtypes across patients and model systems
KR20230134491A (ko) 미생물 핵산 및 체세포 돌연변이를 이용한 택소노미독립적 암 진단 및 분류
Balov A categorical network approach for discovering differentially expressed regulations in cancer
WO2022104278A1 (en) Cancer diagnosis and classification by non-human metagenomic pathway analysis
US20240076744A1 (en) METHODS AND SYSTEMS FOR mRNA BOUNDARY ANALYSIS IN NEXT GENERATION SEQUENCING
US20230253070A1 (en) Systems and Methods for Detecting Cellular Pathway Dysregulation in Cancer Specimens
Mohammed et al. An Integrated RNA and DNA Molecular Signature for Colorectal Cancer Classification
Huang et al. Primary tumor type prediction based on US nationwide genomic profiling data in 13,522 patients
WO2024079279A1 (en) Disease characterisation
KR20240107097A (ko) 암 관련 미생물 바이오마커를 식별하는 방법
Phan et al. Emerging translational bioinformatics: knowledge-guided biomarker identification for cancer diagnostics
Johnson Determining Lung Cancer Subtypes, Classifications, and Potential Gene Markers