KR20220157976A - 무세포 핵산의 분석 방법 및 이의 적용 - Google Patents

무세포 핵산의 분석 방법 및 이의 적용 Download PDF

Info

Publication number
KR20220157976A
KR20220157976A KR1020227033217A KR20227033217A KR20220157976A KR 20220157976 A KR20220157976 A KR 20220157976A KR 1020227033217 A KR1020227033217 A KR 1020227033217A KR 20227033217 A KR20227033217 A KR 20227033217A KR 20220157976 A KR20220157976 A KR 20220157976A
Authority
KR
South Korea
Prior art keywords
nucleic acid
cell
derived
neoplasia
free nucleic
Prior art date
Application number
KR1020227033217A
Other languages
English (en)
Inventor
막시밀리언 딘
아라쉬 애쉬 알리자데
제이콥 제이. 차본
데이비드 엠. 커츠
모하마드 샤로크 에스파하니
Original Assignee
더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티
더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티, 더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티 filed Critical 더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티
Publication of KR20220157976A publication Critical patent/KR20220157976A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1082Preparation or screening gene libraries by chromosomal integration of polynucleotide sequences, HR-, site-specific-recombination, transposons, viral vectors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6853Nucleic acid amplification reactions using modified primers or templates
    • C12Q1/6855Ligating adaptors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Medical Informatics (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)

Abstract

생검으로부터의 신생물을 검출하는 프로세스 및 물질이 기재되어 있다. 시퀀싱 라이브러리를 구축하기 위한 프로세스 및 물질이 기재되어 있다. 표적화 시퀀싱을 수행하기 위한 프로세스 및 물질이 기재되어 있다. 교란 공급원을 완화하기 위한 프로세스 및 물질이 기재되어 있다. 무세포 핵산은 시퀀싱될 수 있고 시퀀싱 결과는 신생물로부터 유래된 서열을 검출하는 데 이용될 수 있다.

Description

무세포 핵산의 분석 방법 및 이의 적용
본원은 2020년 2월 24일자로 출원된 "Methods of Analyzing Cell Free Nucleic Acids and Applications Thereof"라는 명칭의 미국 가특허출원 번호 제62/980,972호의 이익을 주장하며, 이는 그 전체가 참고로 본원에 포함된다.
연방 지원 연구에 관한 진술
본 발명은 국립 보건원(National Institutes of Health)이 수여한 계약 CA186569 및 CA188298에 따른 정부 지원으로 이루어졌다. 정부는 본 발명에 대한 특정 권리를 가지고 있다.
발명의 분야
본 개시내용은 일반적으로 무세포 핵산을 분석하는 방법에 관한 것이고, 보다 구체적으로 교란 변수를 제거하는 방법에 관한 것이다.
무세포 핵산(예를 들어, cfDNA 및 cfRNA) 분석을 기반으로 체세포 변경(예를 들어, 돌연변이 핵산)을 검출할 수 있는 비침습적 혈액 검사는 생물학적 견본(예를 들어, 생물학적 유체)을 얻기가 상대적으로 쉽기 때문에 암 스크리닝 적용의 매력적인 후보가 될 수 있다.
현재 임상에서 사용되는 무세포 핵산 검정은 순환 종양 DNA(ctDNA) 수준이 초기 단계의 종양이 있는 환자보다 상당히 높은 진행성 질환 환자의 비침습적 유전형분석을 위한 것일 수 있다. 또한, 무세포 핵산 샘플은 종양 이외의 조직에서 유래한 체세포 변경 및/또는 고유한 후성유전학적 특징을 갖는 무세포 핵산 단편을 함유할 수 있다. 이러한 비-종양 유래 무세포 핵산 단편은 암 검출을 위한 순환 종양 핵산의 사용을 혼란스럽게 할 수 있다.
한 양태에서, 본 개시내용은 하기를 포함하는 DNA 분자를 제공한다: 생물학적 샘플로부터 얻거나 유래된 핵산 세그먼트로서, DNA인 핵산 세그먼트; 결찰 생성물을 생성하기 위해 핵산 세그먼트에 결찰된 오류 수정 고유 식별자의 쌍으로서, 핵산 세그먼트에 측접하고, 각각이 DNA 세그먼트이고, 시퀀싱 판독의 세트에 제시된 다른 핵산 세그먼트에 대한 핵산 세그먼트의 고유 확인을 집합적으로 제공하는, 오류 수정 고유 식별자의 쌍; 및 결찰 생성물에 부착된 오류 수정 이중 인덱스 샘플 바코드의 쌍으로서, 각각이 DNA 세그먼트이고, 시퀀싱 판독의 세트에 제시된 다른 생물학적 샘플에 대한 생물학적 샘플의 고유 확인을 집합적으로 제공하는, 오류 수정 이중 인덱스 샘플 바코드의 쌍.
일부 구현예에서, 핵산 세그먼트는 상보적 DNA(cDNA)이다. 일부 구현예에서, 핵산 절편은 무세포 DNA 샘플로부터 얻거나 유래된다. 일부 구현예에서, 오류 수정 이중 인덱스 샘플 바코드의 쌍은 결찰 생성물에 측접한다.
또 다른 측면에서, 본 개시내용은 복수의 DNA 분자를 포함하는 집합물을 제공한다.
또 다른 측면에서, 본 개시내용은 시퀀싱을 위한 DNA 라이브러리를 제조하는 방법을 제공하며, 이 방법은 다음을 포함한다: 부분 Y-어댑터 쌍이 복수의 핵산 세그먼트에 결찰되어 부분 Y-어댑터 쌍에 의해 복수의 핵산 세그먼트 각각에 측접하여, 복수의 결찰 생성물을 생성하는 단계로서, 복수의 핵산 세그먼트 각각은 DNA이고, 복수의 핵산 세그먼트는 생물학적 샘플로부터 얻거나 유래되고, 부분 Y-어댑터의 쌍 각각은 그라프팅 중합효소 연쇄 반응에서 어닐링할 프라이머에 대한 오류 수정 고유 식별자 및 서열을 포함하고, 그리고 복수의 핵산 세그먼트 각각에 대한 오류 수정 고유 식별자의 쌍은 복수의 핵산 세그먼트 내의 다른 핵산 세그먼트에 대한 핵산 세그먼트의 고유 확인을 집합적으로 제공하는 단계; 및 복수의 결찰 생성물 각각에 오류 수정 이중 인덱스 샘플 바코드의 쌍을 그라프팅하여 오류 수정 이중 인덱스 샘플 바코드에 의해 결찰 생성물에 측접하는 단계로서, 오류 수정 이중 인덱스 샘플 바코드는 생물학적 샘플의 고유 확인을 집합적으로 제공하는, 단계.
일부 구현예에서, 핵산 세그먼트는 상보적 DNA(cDNA)이다. 일부 구현예에서, 생물학적 샘플은 무세포 DNA 샘플을 포함한다. 일부 구현예에서, 오류 수정 이중 인덱스 샘플 바코드는 DNA 라이브러리에 제시된 다른 생물학적 샘플에 대한 생물학적 샘플의 고유 확인을 집합적으로 제공한다.
또 다른 측면에서, 본 개시내용은 개체에서 신생물을 검출하는 방법을 제공하며, 이 방법은 다음을 포함한다: 복수의 무세포 핵산 분자의 무세포 핵산 시퀀싱 판독을 얻거나 얻은 것을 갖는 단계로서, 복수의 무세포 핵산 분자는 개체의 제1 신체 샘플로부터 얻거나 유래되는, 단계; 복수의 세포 유래 핵산 분자의 세포 유래 핵산 시퀀싱 판독을 얻거나 갖는 얻은 것을 갖는 단계로서, 복수의 세포 유래 핵산 분자는 개체의 제2 신체 샘플로부터 얻거나 유래되는, 단계; 무세포 핵산 시퀀싱 판독 및 세포 유래 핵산 시퀀싱 판독 모두에 존재하는 단일 뉴클레오티드 변이체를 확인하거나 확인된 것을 갖는 단계; 제1 계산 모델을 확인된 단일 뉴클레오티드 변이체에 적용하는 것에 적어도 부분적으로 기초하여, 무세포 핵산 시퀀싱 판독이 신생물로부터 유래된 무세포 핵산 분자를 나타내는 뉴클레오티드를 함유하는지 여부를 결정하거나 결정된 것을 갖는 단계로서, 제1 계산 모델은 신생물이 있는 개체의 제1 세트 및 신생물이 없는 대조군 개체의 제2 세트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 이용하여 구축되고, 그리로 제1 계산 모델은 다음 특징: 세포 유래 DNA 베이지안 배경, 무세포 DNA 베이지안 배경, 생식세포계열 깊이, 짧은 단편 점수 1, 짧은 단편 점수 2, 무세포 DNA 분자의 게놈 시작 위치 및 종료 위치, 및 이들의 임의의 조합 중 하나 이상을 통합하는 단계; 및 무세포 핵산 시퀀싱 판독이 신생물로부터 유래된 무세포 핵산 분자를 나타내는 뉴클레오티드를 함유한다는 결정에 적어도 부분적으로 기초하여 개체에서 신생물을 검출하는 단계.
일부 구현예에서, 제1 계산 모델은 전이/전환, 듀플렉스 지지체, 통과 이상값, 매핑 품질, 암 핫스팟, UMI 오류 수정, Phred 품질 점수, 변이체 대립유전자 빈도(VAF %), 평균 바코드 패밀리 크기, 무세포 DNA 분자의 변이체 위치, 다유전자 위험 점수, 뉴클레아제 모티프 및 이들의 조합 중 하나 이상의 기능을 추가로 통합한다. 일부 구현예에서, 제1 신체 샘플 및 제2 신체 샘플은 동일한 혈액 샘플로부터 얻거나 유래되고, 혈액 생검은 무세포 분획 및 세포 분획으로 분리되고, 무세포 핵산 분자는 무세포 분획으로부터 얻거나 유래되고, 세포 유래 핵산 분자는 세포 분획으로부터 얻거나 유래된다. 일부 구현예에서, 확인된 단일 뉴클레오티드 변이체 중 하나 이상은 분석으로부터 제거되고, 제거된 단일 뉴클레오티드 변이체는 클론 조혈 유전자로부터의 변이체를 포함한다. 일부 구현예에서, 확인된 단일 뉴클레오티드 변이체 중 하나 이상은 분석으로부터 제거되고, 제거된 단일 뉴클레오티드 변이체는 세포 유래 핵산 시퀀싱 판독에 존재하는 변이체를 포함한다.
일부 구현예에서, 방법은 무세포 핵산 시퀀싱 판독 및 세포 유래 핵산 시퀀싱 판독 모두에 존재하는 카피 수 변이를 확인하거나 확인된 것을 갖는 단계; 및 제2 계산 모델을 확인된 카피 수 변이에 적용하는 것에 적어도 부분적으로 기초하여, 무세포 핵산 시퀀싱 판독이 신생물로부터 유래된 무세포 핵산 분자를 나타내는 뉴클레오티드를 함유하는지 여부를 결정하거나 결정된 것을 갖는 단계를 추가로 포함하고, 제2 계산 모델은 신생물이 있는 개체의 제3 세트 및 신생물이 없는 대조군 개체의 제4 세트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 이용하여 구축되고, 그리고 제2 계산 모델은 다음의 특징: 다수의 균일하게 분포된 게놈 윈도우 영역, 다수의 GISTIC "핫스팟" 영역, 균일한 윈도우와 비교하여 GISTIC "핫스팟" 영역의 풍부화, 및 이들의 임의의 조합 중 하나 이상의 기능을 통합한다.
일부 구현예에서, 방법은 다음을 추가로 포함한다: 무세포 핵산 시퀀싱 판독 내에서 복수의 고유한 시퀀싱된 무세포 핵산 분자 각각의 제1 뉴클레오티드 및 마지막 뉴클레오티드의 게놈 위치를 확인하거나 확인된 것을 갖는 단계; 복수의 고유한 시퀀싱된 무세포 핵산 분자 각각의 제1 뉴클레오티드 및 마지막 뉴클레오티드의 확인된 게놈 위치의 빈도를 결정하거나 결정된 것을 갖는 단계; 및 제3 계산 모델을 복수의 고유한 시퀀싱된 무세포 핵산 분자 각각의 제1 뉴클레오티드 및 마지막 뉴클레오티드의 확인된 게놈 위치의 빈도에 적용하는 것에 적어도 부분적으로 기초하여, 무세포 핵산 시퀀싱 판독이 신생물로부터 유래된 무세포 핵산 분자를 나타내는 뉴클레오티드를 함유하며, 제3 계산 모델은 신생물이 있는 개체의 제5 세트 및 신생물이 없는 대조군 개체의 제6 세트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 사용하여 구축됨을 결정하거나 결정된 것을 갖는 단계.
일부 구현예에서, 방법은 다음을 추가로 포함한다: 제1 계산 모델, 제2 계산 모델, 및 제3 계산 모델 각각으로부터 신뢰 점수를 생성하는 단계; 및 개체가 신생물을 가지고 있는지 여부를 나타내는 요약된 점수를 생성하기 위해 신뢰 점수를 통합하는 단계. 일부 구현예에서, 방법은 검출된 신생물에 적어도 부분적으로 기초하여 개체에 대해 임상 절차를 수행하는 단계를 추가로 포함한다. 일부 구현예에서, 방법은 검출된 신생물에 적어도 부분적으로 기초하여 개체를 치료하는 것을 추가로 포함한다.
또 다른 측면에서, 본 개시내용은 개체에서 신생물을 검출하는 방법을 제공하며, 방법은 다음을 포함한다: 복수의 무세포 핵산 분자의 무세포 핵산 시퀀싱 판독을 얻거나 얻은 것을 갖는 단계로서, 복수의 무세포 핵산 분자는 개체의 제1 신체 샘플로부터 얻거나 유래되는, 단계; 복수의 세포 유래 핵산 분자의 세포 유래 핵산 시퀀싱 판독을 얻거나 갖는 얻은 것을 갖는 단계로서, 복수의 세포 유래 핵산 분자는 개체의 제2 신체 샘플로부터 얻거나 유래되는, 단계; 무세포 핵산 시퀀싱 판독 및 세포 유래 핵산 시퀀싱 판독 모두에 존재하는 카피 수 변이를 확인하거나 확인된 것을 갖는 단계; 및 계산 모델을 확인된 카피 수 변이에 적용하는 것에 적어도 부분적으로 기초하여, 무세포 핵산 시퀀싱 판독이 신생물로부터 유래된 무세포 핵산 분자를 나타내는 뉴클레오티드를 함유하는지 여부를 결정하거나 결정된 것을 갖는 단계, 계산 모델은 신생물이 있는 개체의 제1 세트 및 신생물이 없는 대조군 개체의 제2 세트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 이용하여 구축되고, 그리고 계산 모델은 다음의 특징: 다수의 균일하게 분포된 게놈 윈도우 영역, 다수의 GISTIC "핫스팟" 영역, 균일한 윈도우와 비교하여 GISTIC "핫스팟" 영역의 풍부화, 및 이들의 임의의 조합 하나 중 이상의 기능을 통합하는 단계; 및 무세포 핵산 시퀀싱 데이터가 신생물로부터 유래된 무세포 핵산 분자를 나타내는 뉴클레오티드를 함유한다는 결정에 적어도 부분적으로 기초하여 개체에서 신생물을 검출하는 단계.
또 다른 측면에서, 본 개시내용은 개체에서 신생물을 검출하는 방법을 제공하며, 이 방법은 다음을 포함한다: 복수의 무세포 핵산 분자의 무세포 핵산 시퀀싱 판독을 얻거나 얻은 것을 갖는 단계로서, 복수의 무세포 핵산 분자는 개체의 신체 샘플로부터 얻거나 유래되는, 단계; 시퀀싱 판독 내에서 복수의 고유한 시퀀싱된 무세포 핵산 분자 각각의 제1 뉴클레오티드 및 마지막 뉴클레오티드의 게놈 위치를 확인하거나 확인된 것을 갖는 단계; 복수의 고유한 시퀀싱된 무세포 핵산 분자 각각의 제1 뉴클레오티드 및 마지막 뉴클레오티드의 확인된 게놈 위치의 빈도를 결정하거나 결정된 것을 갖는 단계; 및 계산 모델을 복수의 고유한 시퀀싱된 무세포 핵산 분자 각각의 제1 뉴클레오티드 및 마지막 뉴클레오티드의 확인된 게놈 위치의 빈도에 적용하는 것에 적어도 부분적으로 기초하여, 무세포 핵산 시퀀싱 판독이 신생물로부터 유래된 무세포 핵산 분자를 나타내는 뉴클레오티드를 함유하며, 계산 모델은 신생물이 있는 개체의 제1 세트 및 신생물이 없는 대조군 개체의 제2 세트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 사용하여 구축되는 지를 결정하거나 결정된 것을 갖는 단계; 및 무세포 핵산 시퀀싱 데이터가 신생물로부터 유래된 무세포 핵산 분자를 나타내는 뉴클레오티드를 함유한다는 결정에 적어도 부분적으로 기초하여 개체에서 신생물을 검출하는 단계.
일부 구현예에서, 방법은 복수의 게놈 위치 각각에서 시작하는 cfDNA 분자의 정량적 측정의 제1 세트 및 복수의 게놈 위치 각각에서 끝나는 cfDNA 분자의 정량적 측정의 제2 세트 중 적어도 하나를 결정하는 단계 및 신생물을 검출하기 위해 정량적 측정의 제1 세트 또는 정량적 측정의 제2 세트 중 적어도 하나를 분석하는 단계를 추가로 포함한다. 일부 구현예에서, 방법은 신생물을 검출하기 위해 훈련된 기계 학습 분류기를 사용하여 정량적 측정의 제1 세트 및 정량적 측정의 제2 세트 중 적어도 하나를 분석하는 단계를 추가로 포함한다. 일부 구현예에서, 방법은 신생물의 종양 변이체 대립유전자 빈도를 결정하기 위해 정량적 측정의 제1 세트 및 정량적 측정의 제2 세트 중 적어도 하나를 분석하는 단계를 추가로 포함한다. 일부 구현예에서, 방법은 신생물의 대사 종양 부피를 결정하기 위해 정량적 측정의 제1 세트 및 정량적 측정의 제2 세트 중 적어도 하나를 분석하는 단계를 추가로 포함한다 일부 구현예에서, 방법은 AUC가 약 0.80 이상인 신생물을 검출하는 단계를 추가로 포함한다.
또 다른 측면에서, 본 개시내용은 개체에서 신생물을 검출하는 방법을 제공하며, 이 방법은 다음을 포함한다: 복수의 무세포 핵산 분자의 무세포 핵산 시퀀싱 판독을 얻거나 얻은 것을 갖는 단계로서, 복수의 무세포 핵산 분자는 개체의 신체 샘플로부터 얻거나 유래되는, 단계; 시퀀싱 판독 내에서 복수의 고유한 시퀀싱된 무세포 핵산 분자 각각의 단편 길이를 확인하거나 확인된 것을 갖는 단계; 서브-모노뉴클레오솜 단편 또는 서브-디소말 단편을 나타내는 단편 길이를 갖는 복수의 고유한 시퀀싱된 무세포 핵산 분자의 무세포 핵산 분자에 상응하는 시퀀싱 판독의 서브세트를 선택하는 단계; 서브-모노뉴클레오솜 단편 또는 서브-디소말 단편을 나타내는 확인된 단편 길이의 빈도를 결정하기 위해 시퀀싱 판독의 서브세트를 분석하는 단계; 및 서브-모노뉴클레오솜 단편 또는 서브-디소말 단편을 나타내는 확인된 단편 길이에 계산 모델을 적용하는 것에 적어도 부분적으로 기초하여, 무세포 핵산 시퀀싱 판독이 신생물로부터 유래된 무세포 핵산 분자를 나타내는 뉴클레오티드를 함유하며, 계산 모델은 신생물이 있는 개체의 제1 세트 및 신생물이 없는 대조군 개체의 제2 세트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 사용하여 구축되는 지를 결정하거나 결정된 것을 갖는 단계; 및 무세포 핵산 시퀀싱 데이터가 신생물로부터 유래된 무세포 핵산 분자를 나타내는 뉴클레오티드를 함유한다는 결정에 적어도 부분적으로 기초하여 개체에서 신생물을 검출하는 단계.
일부 구현예에서, 160 염기쌍(bp) 미만의 단편 길이는 서브-모노뉴클레오솜 단편을 나타낸다. 일부 구현예에서, 230 bp 내지 310 bp의 단편 길이는 서브-디소말 단편을 나타낸다. 일부 구현예에서, 복수의 무세포 핵산 분자는 서브-모노뉴클레오솜 단편 및 서브-디소말 단편 중 적어도 하나를 풍부하게 하기 위해 개체의 신체 샘플의 핵산 분자의 크기 선택을 수행함으로써 적어도 부분적으로 수득된다.
또 다른 측면에서, 본 개시내용은 개체에서 신생물을 검출하는 방법을 제공하며, 이 방법은 다음을 포함한다: 복수의 무세포 핵산 분자의 무세포 핵산 시퀀싱 판독을 얻거나 얻은 것을 갖는 단계로서, 복수의 무세포 핵산 분자는 개체의 신체 샘플로부터 얻거나 유래되는, 단계; 복수의 단일 뉴클레오티드 변이체(SNV)의 변이체 대립유전자 빈도(VAF)를 결정하기 위해 시퀀싱 판독을 분석하는 단계; 및 복수의 SNV의 결정된 VAF에 계산 모델을 적용하는 것에 적어도 부분적으로 기초하여, 무세포 핵산 시퀀싱 판독이 신생물로부터 유래된 무세포 핵산 분자를 나타내는 뉴클레오티드를 함유하며, 계산 모델은 신생물이 있는 개체의 제1 세트 및 신생물이 없는 대조군 개체의 제2 세트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 사용하여 구축되는 지를 결정하거나 결정된 것을 갖는 단계; 및 무세포 핵산 시퀀싱 데이터가 신생물로부터 유래된 무세포 핵산 분자를 나타내는 뉴클레오티드를 함유한다는 결정에 적어도 부분적으로 기초하여 개체에서 신생물을 검출하는 단계.
일부 구현예에서, 방법은 복수의 SNV에 걸쳐 결정된 VAF의 평균 값을 결정하는 단계; 및 결정된 평균 값에 계산 모델을 적용하는 것에 적어도 부분적으로 기초하여, 무세포 핵산 시퀀싱 판독이 신생물로부터 유래된 무세포 핵산 분자를 나타내는 뉴클레오티드를 함유하는지 여부를 결정하거나 결정된 것을 갖는 단계를 추가로 포함한다. 일부 구현예에서, 방법은 무세포 핵산 시퀀싱 판독이 신생물로부터 유래된 무세포 핵산 분자를 나타내는 뉴클레오티드를 함유하는지 여부를 결정하기 위해 복수의 SNV에 걸쳐 결정된 VAF의 결정된 평균 값을 참조 값과 비교하는 단계를 추가로 포함한다. 일부 구현예에서, 방법은 검출된 신생물의 대사 종양 부피를 결정하는 단계를 추가로 포함한다. 일부 구현예에서, 방법은 검출된 신생물의 병기를 결정하는 것을 추가로 포함한다. 일부 구현예에서, 방법은 검출된 신생물의 재발 가능성을 결정하는 것을 추가로 포함한다. 일부 구현예에서, 복수의 무세포 핵산 분자는 포획 미끼 분자의 세트를 사용하여 개체의 신체 샘플로부터 풍부하고, 포획 미끼 분자의 세트는 포획 미끼 분자의 세트의 적어도 하나의 서열에 적어도 부분적으로 상보적인 서열에 선택적으로 혼성화하도록 구성되고, 포획 미끼 분자의 세트는 표 1의 게놈 유전자좌의 군으로부터 선택된 적어도 하나의 게놈 유전자좌에 적어도 부분적으로 상보적인 서열에 선택적으로 혼성화하도록 구성된다. 일부 구현예에서, 신생물은 폐암을 포함한다.
또 다른 측면에서, 본 개시내용은 혼성화 포획을 위한 미끼 세트를 제공하고, 이 미끼 세트는 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1200, 1400, 1600, 1800, 2000, 2200, 2400, 2600, 2800, 3000, 3200, 3400, 3600, 3800, 4000, 4200, 4400, 4600, 4800, 또는 5000개의 상이한 폴리뉴클레오티드 함유 프로브를 포함하고, 폴리뉴클레오타이드 함유 프로브는 집합적으로 표 1에 제시된 게놈 영역의 적어도 5%로부터 유래된 cfDNA에 혼성화하도록 구성된다.
일부 구현예에서, 폴리뉴클레오티드 함유 프로브 각각은 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 120, 140, 160, 180, 200, 220, 240, 260, 280, 또는 300 개 길이의 뉴클레오티드인 핵산 서열을 갖는다. 일부 구현예에서, 폴리뉴클레오티드 함유 프로브 각각은 300, 280, 260, 240, 220, 200, 180, 160, 140, 120, 100, 90, 80, 70, 60, 50, 40, 30, 20, 10, 9, 8, 7, 6, 5, 4, 3, 또는 2개 이하 길이의 뉴클레오티드인 핵산 서열을 갖는다. 일부 구현예에서, 폴리뉴클레오티드 함유 프로브 각각은 친화성 모이어티에 접합된다. 일부 구현예에서, 친화성 모이어티는 비오틴을 포함한다. 일부 구현예에서, 폴리뉴클레오티드 프로브는 집합적으로 표 1에 제시된 게놈 영역의 적어도 10%, 적어도 20%, 적어도 30%, 적어도 40%, 적어도 50%, 적어도 60%, 적어도 70%, 적어도 80%, 적어도 90%, 적어도 95%, 적어도 98%, 적어도 99%, 또는 100%로부터 유래된 cfDNA에 혼성화하도록 구성된다. 일부 구현예에서, 미끼 세트 내의 폴리뉴클레오티드 프로브 전체는 표 1에 제시된 게놈 영역의 적어도 10%, 적어도 20%, 적어도 30%, 적어도 40%, 적어도 50%, 적어도 60%, 적어도 70%, 적어도 80%, 적어도 90%, 적어도 95%, 적어도 98%, 적어도 99%, 또는 100%로부터 유래된 cfDNA 분자에 혼성화하도록 구성된다.
또 다른 측면에서, 본 개시내용은 하기를 포함하는 혼합물을 제공한다: 생물학적 샘플로부터의 DNA; 및 본 개시의 미끼 세트.
또 다른 측면에서, 본 개시내용은 포획 혼성화을 수행하는 방법을 제공하고, 이 방법은 다음을 포함한다: 무세포 DNA 공급원으로부터 유래된 복수의 DNA 분자를 얻는 단계; 및 복수의 DNA 분자의 분획을 포획 미끼 분자의 세트와 혼합하는 단계로서, 포획 미끼 분자의 세트는 포획 미끼 분자의 세트의 적어도 하나의 서열에 적어도 부분적으로 상보적인 DNA 분자에 선택적으로 혼성화하도록 구성되는 단계, 포획 미끼 분자의 세트는 표 1의 게놈 유전자좌의 군으로부터 선택된 게놈 유전자좌의 적어도 일부를 포함하는 서열을 포함하는 DNA 분자에 선택적으로 혼성화하도록 구성되는 단계.
일부 구현예에서, 게놈 유전자좌의 일부는 게놈 유전자좌의 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 120, 140, 160, 180, 200, 220, 240, 260, 280, 또는 300개의 연속 뉴클레오티드를 함유한다. 일부 구현예에서, 분획은 복수의 DNA 분자 의 적어도 약 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 또는 100%이다. 일부 구현예에서, 방법은 복수의 DNA 분자의 분획 및 포획 미끼 분자의 세트의 몰비를 최적화하여 고유 분자의 총수의 최적 회수를 산출하거나 공급된 무세포 DNA 이중 가닥의 두 가닥이 모두 시퀀싱된 듀플렉스화 무세포 DNA 분자의 총수의 최적 회수를 산출하는 단계를 추가로 포함하고, 몰비는 적어도 약 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 또는 100%이다. 일부 구현예에서, 방법은 포획 혼성화의 인실리코 시뮬레이션을 사용하여 포획 미끼 분자의 세트와 혼합되는 복수의 DNA 분자의 분획을 결정하는 단계를 추가로 포함하고, 분획은 약 100%, 95%, 90%, 85%, 80%, 75%, 70%, 65%, 60%, 55%, 50%, 45%, 40%, 35%, 30%, 25%, 20%, 15%, 10%, 또는 5% 이하이다. 일부 구현예에서, 포획 미끼 분자의 세트는 본 개시내용의 미끼 세트를 포함한다.
또 다른 측면에서, 본 개시내용은 하기를 포함하는 DNA 분자를 제공한다: 생물학적 샘플로부터 공급된 핵산 분자로서, DNA 또는 cDNA인, 핵산 분자; 핵산 분자에 측접하는 오류 수정 고유 식별자의 쌍으로서, 오류 수정 고유 식별자는 각각의 DNA 분자이고 오류 수정 고유 식별자의 조합은 시퀀싱 결과에서 핵산 분자의 확인을 제공하는, 오류 수정 고유 식별자의 쌍; 및 오류 수정 이중 인덱스 샘플 바코드의 쌍으로서, 오류 수정 고유 식별자는 각각의 DNA 분자이고 오류 수정 고유 식별자의 조합은 시퀀싱 결과에서 생물학적 샘플의 확인을 제공하는, 오류 수정 이중 인덱스 샘플 바코드의 쌍.
또 다른 측면에서, 본 개시내용은 시퀀싱을 위한 DNA 라이브러리를 제조하는 방법을 제공하고, 이 방법은 다음을 포함한다: 각 핵산 분자가 부분 Y-어댑터의 쌍에 측접되도록 부분 Y-어댑터의 핵산 분자 쌍의 집합 상에 결찰하는 단계, 각각의 핵산 분자는 DNA 또는 cDNA이고 핵산 분자의 집합은 생물학적 샘플로부터 공급되며, 부분 Y-어댑터 각각은 그라프팅 중합효소 연쇄 반응에서 어닐링할 프라이머에 대한 오류 수정 고유 식별자 및 서열을 포함하고, 그리고 각각의 핵산 분자 상의 2개의 오류 수정 고유 식별자의 각각의 측접 조합은 그 핵산 분자에 대한 부분 Y-어댑터의 쌍의 결찰을 확인하는 단계; 및 각각의 결찰 생성물에 오류 수정 이중 인덱스 샘플 바코드의 쌍 및 범용 프라이머의 서열을 그라프팅하여 결찰 생성물이 오류 수정 이중 인덱스 샘플 바코드 및 범용 프라이머의 서열에 측접하도록 하고, 오류 수정 이중 인덱스 샘플 바코드는 핵산 분자의 집합을 확인하는 단계.
또 다른 측면에서, 본 개시내용은 시퀀싱 라이브러리 제조 동안 발생하는 뉴클레오티드 전환을 완화하는 방법을 제공하고, 이 방법은 다음을 포함한다: 반응 혼합물에서 반응성 산소종 스캐빈저 또는 효소로 서열 라이브러리 제조를 수행하는 단계.
일부 구현예에서, 서열 포획 반응이 반응 혼합물에서 반응성 산소종 스캐빈저 하이포타우린으로 수행된다. 일부 구현예에서, 반응성 산소종 스캐빈저는 글루타티온, 하이포타우린 또는 아황산나트륨이고; 효소는 우라실-DNA 글리코실라제 (UDG), 포름아미도피리미딘 [fapy]-DNA 글리코실라제 (FPG), 또는 카탈라제 효소이다.
또 다른 측면에서, 본 개시내용은 개체에 대해 임상 절차를 수행하는 방법을 제공하며, 이 방법은 다음을 포함한다: 무세포 핵산 분자의 집합의 시퀀싱 결과를 얻거나 얻은 것을 갖는 단계로서, 무세포 핵산 분자의 집합은 개체의 제1 생검에서 공급되는, 단계; 세포 유래 핵산 분자의 집합의 시퀀싱 결과를 얻거나 얻은 것을 갖는 단계로서, 세포 유래 핵산 분자의 집합은 개체의 제2 생검에서 공급되는, 단계; 무세포 핵산 시퀀싱 결과 및 세포 유래 핵산 시퀀싱 결과 모두 내에서 단일 뉴클레오티드 변이체를 확인하거나 확인된 것을 갖는 단계; 제1 계산 모델 및 확인된 단일 뉴클레오티드 변이체를 사용하여, 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 뉴클레오티드를 함유하는지 결정하거나 결정된 것을 갖는 단계, 제1 계산 모델은 신생물이 있는 개체의 코호트 및 신생물이 없는 대조군 개체의 코호트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 이용하여 구축되고, 그리고 제1 계산 모델은 다음 특징: 세포 유래 DNA 베이지안 배경, cfDNA 베이지안 배경, 생식세포계열 깊이, 짧은 단편 점수 1, 짧은 단편 점수 2, 또는 cfDNA 분자의 게놈 시작 및 종료 위치 중 하나 이상을 통합하는 단계; 및 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 핵산 서열을 함유한다는 결정에 기초하여 개체에 대해 임상 절차를 수행하는 단계.
일부 구현예에서, 제1 계산 모델은 전이/전환, 듀플렉스 지지체, 통과 이상값, 매핑 품질, 암 핫스팟, UMI 오류 수정, Phred 품질 점수, 변이체 대립유전자 빈도(VAF %), 평균 바코드 패밀리 크기, cfDNA 분자에서의 변이체 위치, 다유전자 위험 점수, 또는 뉴클레아제 모티프 중 하나 이상의 기능을 추가로 통합하한다. 일부 구현예에서, 제1 생검 및 제2 생검은 동일한 혈액 생검이고, 혈액 생검은 무세포 분획 및 세포 분획으로 분리되고, 무세포 분획은 무세포 핵산 분자를 공급하는 데 사용되고, 세포 분획은 세포 유래 핵산 분자를 공급하는 데 사용된다. 일부 구현예에서, 다수의 확인된 변이체는 분석으로부터 제거되고, 제거된 변이체는 다른 비-악성 조직 유형의 클론 조혈 유전자 또는 체세포 돌연변이로부터의 변이체를 포함한다. 일부 구현예에서, 다수의 확인된 변이체는 분석으로부터 제거되고, 제거된 변이체는 세포 유래 핵산 시퀀싱 결과에 존재하는 변이체를 포함한다.
일부 구현예에서, 방법은 무세포 핵산 시퀀싱 결과 및 세포 유래 핵산 시퀀싱 결과 모두 내에서 카피 수 변이를 확인하거나 확인된 것을 갖는 단계; 및 제2 계산 모델 및 확인된 카피 수 변이를 이용하여 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 뉴클레오티드를 함유한다는 것을 결정하거나 결정된 것을 갖는 단계를 추가로 포함하고, 제2 계산 모델은 신생물이 있는 개체의 코호트 및 신생물이 없는 대조군 개체의 코호트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 이용하여 구축되고, 그리고 제2 계산 모델은 다음의 특징: 다수의 균일하게 분포된 게놈 윈도우 영역, 다수의 GISTIC "핫스팟" 영역, 및 균일한 윈도우와 비교하여 GISTIC "핫스팟" 영역의 풍부화 중 하나 이상의 기능을 통합하고; 개체에 대한 임상 절차를 수행하는 것은 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 핵산 서열을 함유한다는 결정에 기초한다.
일부 구현예에서, 방법은 무세포 핵산 시퀀싱 결과 내에서 각각의 고유한 시퀀싱된 무세포 핵산 분자의 제1 및 마지막 뉴클레오티드의 게놈 위치를 확인하거나 확인된 것을 갖는 단계; 각각의 고유한 시퀀싱된 무세포 핵산의 제1 및 마지막 뉴클레오티드의 확인된 게놈 위치의 빈도를 결정하거나 결정된 것을 갖는 단계; 및 제3 계산 모델 및 각각의 고유한 시퀀싱된 무세포 핵산 분자의 제1 및 마지막 뉴클레오티드의 확인된 게놈 위치의 빈도를 이용하여 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 뉴클레오티드를 함유한다는 것을 결정하거나 결정된 것을 갖는 단계로서, 제3 계산 모델은 신생물이 있는 코호트 및 신생물이 없는 대조군 개체 코호트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 이용하여 구축되는 단계를 추가로 포함하고; 개체에 대한 임상 절차를 수행하는 것은 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 핵산 서열을 함유한다는 결정에 기초한다. 일부 구현예에서, 방법은 제1 계산 모델, 제2 계산 모델, 및 제3 계산 모델 각각으로부터 신뢰 점수를 생성하는 단계; 및 개체가 신생물을 가짐을 나타내는 요약된 점수를 생성하기 위해 신뢰 점수를 통합하는 단계를 추가로 포함하고; 개체에 대한 임상 절차를 수행하는 것은 개체가 신생물을 가짐을 나타내는 요약된 점수에 기초한다.
또 다른 측면에서, 본 개시내용은 신생물에 대해 개체를 치료하는 방법을 제공하며, 이 방법은 다음을 포함한다: 무세포 핵산 분자의 집합의 시퀀싱 결과를 얻거나 얻은 것을 갖는 단계로서, 무세포 핵산 분자의 집합은 개체의 제1 생검에서 공급되는, 단계; 세포 유래 핵산 분자의 집합의 시퀀싱 결과를 얻거나 얻은 것을 갖는 단계로서, 세포 유래 핵산 분자의 집합은 개체의 제2 생검에서 공급되는, 단계; 무세포 핵산 시퀀싱 결과 및 세포 유래 핵산 시퀀싱 결과 모두 내에서 단일 뉴클레오티드 변이체를 확인하거나 확인된 것을 갖는 단계; 제1 계산 모델 및 확인된 단일 뉴클레오티드 변이체를 사용하여, 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 뉴클레오티드를 함유하는지 결정하거나 결정된 것을 갖는 단계, 제1 계산 모델은 신생물이 있는 개체의 코호트 및 신생물이 없는 대조군 개체의 코호트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 이용하여 구축되고, 그리고 제1 계산 모델은 다음 특징: 세포 유래 DNA 베이지안 배경, cfDNA 베이지안 배경, 생식세포계열 깊이, 짧은 단편 점수 1, 짧은 단편 점수 2, 또는 cfDNA 분자의 게놈 시작 및 종료 위치 중 하나 이상을 통합하는 단계; 및 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 핵산 서열을 함유한다는 결정에 기초하여 개체를 치료하는 단계.
일부 구현예에서, 제1 계산 모델은 전이/전환, 듀플렉스 지지체, 통과 이상값, 매핑 품질, 암 핫스팟, UMI 오류 수정, Phred 품질 점수, 변이체 대립유전자 빈도(VAF %), 평균 바코드 패밀리 크기, cfDNA 분자에서의 변이체 위치, 다유전자 위험 점수, 또는 뉴클레아제 모티프 중 하나 이상의 기능을 추가로 통합하한다. 일부 구현예에서, 제1 생검 및 제2 생검은 동일한 혈액 생검이고, 혈액 생검은 무세포 분획 및 세포 분획으로 분리되고, 무세포 분획은 무세포 핵산 분자를 공급하는 데 사용되고, 세포 분획은 세포 유래 핵산 분자를 공급하는 데 사용된다. 일부 구현예에서, 다수의 확인된 변이체는 분석으로부터 제거되고, 제거된 변이체는 클론 조혈 유전자로부터의 변이체를 포함한다. 일부 구현예에서, 다수의 확인된 변이체는 분석으로부터 제거되고, 제거된 변이체는 세포 유래 핵산 시퀀싱 결과에 존재하는 변이체를 포함한다.
일부 구현예에서, 방법은 무세포 핵산 시퀀싱 결과 및 세포 유래 핵산 시퀀싱 결과 모두 내에서 카피 수 변이를 확인하거나 확인된 것을 갖는 단계; 제2 계산 모델 및 확인된 카피 수 변이를 이용하여 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 뉴클레오티드를 함유한다는 것을 결정하거나 결정된 것을 갖는 단계를 추가로 포함하고, 제2 계산 모델은 신생물이 있는 개체의 코호트 및 신생물이 없는 대조군 개체의 코호트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 이용하여 구축되고, 그리고 제2 계산 모델은 다음의 특징: 다수의 균일하게 분포된 게놈 윈도우 영역, 다수의 GISTIC "핫스팟" 영역, 및 균일한 윈도우와 비교하여 GISTIC "핫스팟" 영역의 풍부화 중 하나 이상의 기능을 통합하고; 개체를 치료하는 것은 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 핵산 서열을 함유한다는 결정에 기초한다.
일부 구현예에서, 방법은 무세포 핵산 시퀀싱 결과 내에서 각각의 고유한 시퀀싱된 무세포 핵산 분자의 제1 및 마지막 뉴클레오티드의 게놈 위치를 확인하거나 확인된 것을 갖는 단계; 각각의 고유한 시퀀싱된 무세포 핵산의 제1 및 마지막 뉴클레오티드의 확인된 게놈 위치의 빈도를 결정하거나 결정된 것을 갖는 단계; 및 제3 계산 모델 및 각각의 고유한 시퀀싱된 무세포 핵산 분자의 제1 및 마지막 뉴클레오티드의 확인된 게놈 위치의 빈도를 이용하여 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 뉴클레오티드를 함유한다는 것을 결정하거나 결정된 것을 갖는 단계로서, 제3 계산 모델은 신생물이 있는 코호트 및 신생물이 없는 대조군 개체 코호트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 이용하여 구축되는 단계를 추가로 포함하고; 개체를 치료하는 것은 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 핵산 서열을 함유한다는 결정에 기초한다.
일부 구현예에서, 방법은 제1 계산 모델, 제2 계산 모델, 및 제3 계산 모델 각각으로부터 신뢰 점수를 생성하는 단계; 및 개체가 신생물을 가짐을 나타내는 요약된 점수를 생성하기 위해 신뢰 점수를 통합하는 단계를 추가로 포함하고; 개체의 치료는 개체가 신생물을 가짐을 나타내는 요약된 점수에 기초한다.
또 다른 측면에서, 본 개시내용은 시퀀싱 라이브러리 상에서 포획 혼성화를 수생하는 방법을 제공하고 이 방법은 다음을 포함한다: 무세포 DNA 공급원으로부터 유래된 복수의 고유한 시퀀싱 분자를 포함하는 시퀀싱 라이브러리를 얻는 단계; 시퀀싱 라이브러리의 분획을 포획 미끼 분자와 혼합하여 포획 미끼에 의해 인식되는 특정 서열을 혼성화하고 풀다운하는 단계로서, 시퀀싱 라이브러리의 분획은 적어도 10%, 25%, 또는 50%인, 단계.
일부 구현예에서, 시퀀싱 라이브러리의 분획과 포획 미끼의 몰비는 전체 고유 분자의 최적 회수를 산출하거나 전체 듀플렉스화 무세포 DNA 분자의 최적 회수를 산출하도록 최적화되며, 공급된 무세포 DNA 듀플렉스의 가닥 둘 모두가 시퀀싱된다. 일부 구현예에서, 포획 혼성화의 인실리코 시뮬레이션은 포획 미끼와 혼합되는 시퀀싱 라이브러리의 분획을 결정하기 위해 이용된다.
또 다른 측면에서, 본 [0001] 개시내용은 신생물에 대해 개체를 치료하는 방법을 제공하며, 이 방법은 다음을 포함한다: 무세포 핵산 분자의 집합의 시퀀싱 결과를 얻거나 얻은 것을 갖는 단계로서, 무세포 핵산 분자의 집합은 개체의 제1 생검에서 공급되는, 단계; 세포 유래 핵산 분자의 집합의 시퀀싱 결과를 얻거나 얻은 것을 갖는 단계로서, 세포 유래 핵산 분자의 집합은 개체의 제2 생검에서 공급되는, 단계; 무세포 핵산 시퀀싱 결과 및 세포 유래 핵산 시퀀싱 결과 모두 내에서 카피 수 변이를 확인하거나 확인된 것을 갖는 단계; 계산 모델 및 확인된 카피 수 변이를 이용하여 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 뉴클레오티드를 함유한다는 것을 결정하거나 결정된 것을 갖는 단계, 제2 계산 모델은 신생물이 있는 개체의 코호트 및 신생물이 없는 대조군 개체의 코호트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 이용하여 구축되고, 그리고 제2 계산 모델은 다음의 특징: 다수의 균일하게 분포된 게놈 윈도우 영역, 다수의 GISTIC "핫스팟" 영역, 및 균일한 윈도우와 비교하여 GISTIC "핫스팟" 영역의 풍부화 중 하나 이상의 기능을 통합하고; 및 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 핵산 서열을 함유한다는 결정에 기초하여 개체를 치료하는 단계.
또 다른 측면에서, 본 개시내용은 신생물에 대해 개체를 치료하는 방법을 제공하며, 이 방법은 다음을 포함한다: 무세포 핵산 분자의 집합의 시퀀싱 결과를 얻거나 얻은 것을 갖는 단계로서, 무세포 핵산 분자의 집합은 개체의 생검에서 공급되는, 단계; 무세포 핵산 시퀀싱 결과 내에서 각각의 고유한 시퀀싱된 무세포 핵산 분자의 제1 및 마지막 뉴클레오티드의 게놈 위치를 확인하거나 확인된 것을 갖는 단계; 각각의 고유한 시퀀싱된 무세포 핵산의 제1 및 마지막 뉴클레오티드의 확인된 게놈 위치의 빈도를 결정하거나 결정된 것을 갖는 단계; 및 제3 계산 모델 및 각각의 고유한 시퀀싱된 무세포 핵산 분자의 제1 및 마지막 뉴클레오티드의 확인된 게놈 위치의 빈도를 이용하여 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 뉴클레오티드를 함유한다는 것을 결정하거나 결정된 것을 갖는 단계로서, 제3 계산 모델은 신생물이 있는 코호트 및 신생물이 없는 대조군 개체 코호트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 이용하여 구축되는 단계; 및 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 핵산 서열을 함유한다는 결정에 기초하여 개체를 치료하는 단계.
설명 및 청구범위는 본 발명의 예시적인 구현예로서 제시되고 본 발명의 범위의 완전한 인용으로 해석되어서는 안 되는 하기 도면 및 데이터 그래프를 참조하여 보다 완전하게 이해될 것이다.
도 1은 시퀀싱 결과에서 순환 종양 핵산 서열의 검출에 기초하여 개체에 대한 임상 개입을 수행하는 프로세스의 흐름도를 제공한다.
도 2a는 동일한 시작 및 종료 위치를 가진 cfDNA 분자에서 1 bp만큼 다른 분자 바코드 (즉, 고유 식별자 또는 UID)의 과잉이 UID의 시퀀싱 오류가 잘못된 UID 패밀리를 생성할 수 있음을 보여준다. 탠덤 어댑터의 세트를 사용하여 시퀀싱된 바코드 중복 제거(즉, 고유) cfDNA 분자의 상이한 그룹에서 UID를 비교할 때 바코드 해밍 편집 거리(UID 편집 거리)의 예상 및 관찰된 분포가 표시된다. 탠덤 어댑터는 랜덤 4-mer UID를 이용하여 오류를 수정할 수 없는 256개의 뚜렷한 UID를 생성할 수 있다. 256개의 모든 UID에 대한 UID 편집 거리의 이론적 분포(즉, 1, 2, 3 및 4 bp만큼 서로 다른 UID의 분획)는 1, 5, 9, 및 13번째 막대(예를 들어, 4개 막대의 각 그룹 내 1번째 막대)로 표시된다. 다른 막대는 탠덤 어댑터(n = 24명의 개체)로 시퀀싱된 건강한 대조군 cfDNA 샘플에서 관찰된 UID 편집 거리의 분포를 나타낸다. 무작위로 샘플링된 UID는 2번째, 6번째, 10번째 및 14번째 막대(예를 들어, 4개 막대의 각 그룹 내 2번째 막대)로 표시된다. 게놈 시작 및 종료 위치가 다른 cfDNA 분자로부터의 UID는 3번째, 7번째, 11번째 및 15번째 막대(예를 들어, 4개 막대의 각 그룹 내에서 3번째 막대)로 표시된다. 동일한 시작 및 종료 위치를 공유하는 cfDNA 분자는 4번째, 8번째, 12번째 및 16번째 막대(예를 들어, 4개 막대의 각 그룹 내 4번째 막대)로 표시된다. 하나의 염기만 다른 UID는 동일한 시작 및 종료 위치(4개의 막대의 각 그룹 내 4번째 막대)를 가진 cfDNA 분자를 다른 UID 분포 각각과 비교할 때 상당히 과도하게 표시되어 1 bp 오류가 새로운 UID 패밀리를 잘못 생성하고 있음을 나타낸다. 그룹 비교는 쌍을 이루지 않은 양측 t-테스트가 사용된 이론적 분포와 비교할 때를 제외하고 쌍 형성된 양측 t-테스트로 수행되었다 (P < 1 Х 10-8). 막대는 평균을 나타내고 오차 막대는 평균의 표준 오차를 나타낸다. 
도 2b는 시퀀싱 라이브러리를 구축하는 프로세스의 개략도를 제공한다.
도 3은 시퀀싱 어댑터의 개략도를 제공한다.
도 4a는 다양한 화학적 또는 효소적 생성물로 처리된 샘플에서 오류율 (및 발생하는 오류의 해당 유형)을 확인하는 차트를 제공한다.
도 4b는 활성 산소종이 어떻게 전환을 일으킬 수 있는지, 그리고 어떻게 반응성 산소종 스캐빈저가 이러한 전환을 방지할 수 있는지를 보여주는 개략도를 제공한다.
도 5는 시퀀싱 결과에서 순환 종양 핵산 서열을 검출하기 위한 도식적 흐름 선도를 제공한다.
도 6은 시퀀싱 결과에서 순환 종양 핵산 서열을 검출하기 위한 모델에서 이용되는 특징 및 이들의 중요성을 나타내는 차트를 제공한다.
도 7은 대립유전자 수준의 검출을 위한 민감성을 개선하기 위해 고유하고 성공적으로 시퀀싱된 cfDNA 분자의 수율을 최대화하는 동시에 연관된 시퀀싱 오류 프로파일을 최소화하기 위해 몇 가지 방법론이 개발되고 테스트되었음을 보여준다.
도 8은 각 작업흐름 단계에서 시퀀싱 데이터 및 고유 분자의 백분율(%)을 생성하기 위해 cfDNA 입력, 사전 포획, 포획 및 사후 포획의 작업흐름 단계를 포함하는 CAPP-Seq 방법의 분자 생물학 시뮬레이션을 보여준다.
도 9는 CAPP-Seq 분자 생물학 작업흐름의 각 단계에서 원래 고유(원이 있는 상단 실선) 및 듀플렉스(원이 있는 하단 실선) cfDNA 분자(고유 깊이, 오른쪽 축) 및 PCR 복제물을 포함하는 총 분자(중복 제거되지 않은 깊이, 왼쪽 축)의 분획이 CAPP-Seq 분자 생물학 작업흐름은 랜덤 이항 샘플링을 기반으로 하는 인실리코 모델을 사용하여 추적되었음을 보여준다. 이 모델에서는 원래 DNA 듀플렉스의 두 개별 DNA 가닥이 모두 추적된 온-표적(on-target) 분자만 고려된다. 표적 풍부화를 위한 혼성화 반응에 입력된 증폭 시퀀싱 라이브러리의 8.3%(상단) 및 100%(하단)의 두 가지 시뮬레이션이 표시된다.
도 10은 시뮬레이션 모델의 경험적 검증을 보여주고; 이는 하이브리드 포획 반응에 시퀀싱 라이브러리의 상이한 부분을 입력한 후 시퀀싱에 의해 회수된 중앙 고유 중복 제거(즉, '중복 제거')(왼쪽) 및 듀플렉스(오른쪽) 깊이의 비교를 포함한다. 4명의 건강한 성인 각각의 총 32 ng의 cfDNA가 각 조건의 입력으로 사용되었으며 비교를 용이하게 하기 위해 바코드 중복 제거 전에 각 샘플을 1억 개의 시퀀싱 판독으로 다운샘플링하였다. 쌍 형성된 양측 t-테스트로 비교를 수행하였다.
도 11은 시퀀싱 라이브러리의 8.3% 또는 100%가 하이브리드 포획 반응에 입력될 때 실험적으로 관찰된 것과 모델에 의해 예측된 중복 제거(상단) 및 듀플렉스(하단) 시퀀싱 깊이의 비교를 보여준다. 시뮬레이션에서는 다양한 포획 효율(7.5-75% 하이브리드 포획 효율)이 고려되었으며, 신뢰 범위는 모델 예측의 결과 범위를 나타낸다. 도 10에 도시된 실험 데이터(포획 조건당 n = 4 cfDNA 샘플)는 바코드 중복 제거 전에 다운샘플링되어 다양한 시퀀싱 판독 수율(x 축)에서 비교할 수 있다. 점은 중앙값을 나타내고 오차 막대는 최소값과 최대값을 나타낸다.
도 12는 하이브리드 포획 반응에 대한 각 시퀀싱 라이브러리의 좌크같기호25%(n = 145 cfDNA 샘플)와 비교하여 8.3%(n = 138 cfDNA 샘플)를 입력한 후 달성된 중복 제거(왼쪽) 및 듀플렉스(오른쪽) 시퀀싱 깊이의 비교를 보여준다. 모든 샘플에는 라이브러리 제조에 대한 입력으로 32 ng의 cfDNA가 있었고, 비교를 용이하게 하기 위해 바코드 중복 제거 전에 2,500만 판독으로 다운샘플링되었다. 상자 플록에서, 중심선은 중앙값을 나타내고 상자는 사분위간 범위를 포함하며 위스커는 상자 가장자리에서 1.5 곱하기기호 IQR 이하인 극값을 나타낸다(터키(Tukey) 스타일).
도 13은 하이포타우린이 있거나 없이 포획된 12명의 건강한 성인의 cfDNA 샘플의 오류 프로파일을 비교했을 때 ROS 스캐빈저로 포획된 샘플이 상당히 낮은 배경 오류율과 더 적은 G>T 오류를 가짐을 밝혔음을 보여준다.
도 14는 G>T 오류(모든 오류의 16% 대 57%, 윌콕슨(Wilcoxon) 순위 합 테스트, P < 1x10-8) 및 배경 오류율(약 50% 감소, 윌콕슨 순위 합 테스트, P < 0.0001)는 하이포타우린 없이 포획된 69개의 대조군 cfDNA 샘플과 비교하여 ROS 스캐빈저로 포획된 104개의 건강한 대조군 cfDNA 샘플에서 관찰되었다.
도 15는 종양-정보에 기반한 접근법을 사용하여 초기 병기 종양이 있는 환자에서 ctDNA 검출률이 결정되었음을 나타낸다. 이 전략은 CAPP-Seq 기반 종양 나이브 스크리닝 접근법에 대한 최대 민감성을 확립한다.
도 16은 종양 조직, 치료 전 혈장 cfDNA 및 백혈구 DNA가 355 킬로베이스(kb) CAPP-Seq 패널을 사용하여 폐암에서 반복적으로 돌연변이된 255개 유전자의 표적화 심화 시퀀싱을 통해 I-III기 NSCLC가 있는 85명의 환자로부터 유전자형이 지정되었음을 보여준다.
도 17은 '집단 기반' 접근법(예를 들어, 환자 특이적 분자 생물학 맞춤화가 필요하지 않음)인 도 16의 패널을 사용하여 종양 견본에서 환자당 4개의 돌연변이 중앙값이 확인되고(범위 0- 35), ctDNA는 95% 특이도에서 NSCLC 환자의 49%(42/85)에서 검출되었음을 보여준다. 모니터링되는 종양 돌연변이의 수가 증가할수록 검출 민감도가 유의하게 더 높았다.
도 18은 더 많은 돌연변이를 추적하면 전체 ctDNA 검출률이 향상된다는 관찰을 경험적으로 테스트하기 위해, 집단 기반 폐암 패널을 사용하여 ctDNA를 초기에 검출할 수 없었던 17명의 환자에 대한 종양 엑솜 시퀀싱 데이터를 기반으로 맞춤형 포획 패널을 설계했음을 보여준다. 이 맞춤형 접근법은 모니터링에 사용할 수 있는 돌연변이 수를 중앙값 4개에서 68개로 증가하였다(쌍 형성된 양측 t-테스트, P < 0.01). 이러한 맞춤형 검정을 사용하여, ctDNA는 17/17(65%)의 환자에서 0.0019%의 중앙 VAF 및 106개 분자 중 1.5만큼 낮은 수준에서 검출되었다.
도 19는 집단 기반(n = 68) 및 맞춤형(n = 17) 종양-정보에 기반한 전략의 결과를 조합하여 ctDNA가 I, II 및 III 질환 환자의 각각 52%, 67% 및 88%에서를 포함하는 초기 NSCLC 환자의 대다수(53/85 또는 62%)에서 검출되었음을 보여준다.
도 20은 종양-네이브 스크리닝을 알릴 수 있는 ctDNA 분자의 특성이 확인되었음을 보여준다. 모든 종양 세포에 균일하게 존재하는 것으로 추정되는 변이체로 정의되는 클론성 종양 돌연변이는 혈장에서 더 자주 검출되었고 서브클론 대응물보다 더 높은 대립유전자 빈도에서 관찰되었다(피셔 정확 테스트 P < 0.05, 윌콕슨 순위-합 테스트 P < 0.001).
도 21은 cfDNA 단편의 크기 분포가 종양 유래 cfDNA 분자(예를 들어, ctDNA)를 강화하는 잠재적 수단으로도 고려되었음을 보여준다. 일치된 종양 샘플에 존재하는 돌연변이를 보유하는 cfDNA 분자는 돌연변이가 아닌 대응물보다 상당히 짧은 것으로 밝혀졌다(윌콕슨 순위-합 테스트 P < 1x10-8).
도 22는 돌연변이체 cfDNA 분자가 서브-모노뉴클레오솜 단편(<160 bp) 및 서브-디소말 단편(230-310 bp, 도 21)에서 풍부함을 보여준다. <160 bp 및 230 내지 310 bp의 분자만을 고려할 때, 종양 유래 돌연변이의 VAF에서 2.17배 중앙값 풍부함이 관찰되었다(범위 0 내지 9.2, 도 21). 돌연변이 분자의 53.6%가 비-돌연변이체 분자의 24.7%에 비해 이 영역에 속하는 것으로 밝혀졌으며(도 21), 이는 이러한 윈도우에서 분자의 크기 선택이 유용할 수 있음을 나타낸다. 그러나 대다수의 돌연변이(74%, 271/366)가 이러한 크기 윈도우에서 풍부했지만, VAF는 돌연변이의 26%(95/366)에 대한 크기 선택 후 감소했으며 이러한 돌연변이의 78%(75/95)는 검출할 수 없다.
도 23은 크기 선택이 맞춤형 패널을 통해 추적된 많은 돌연변이를 갖는 환자에서 ctDNA 검출의 전반적인 민감성을 개선한 반면, 임의의 짧은 cfDNA 분자에 제시되지 않는 종양 돌연변이의 상실로 인해 집단 기반 폐암 패널로 모니터링된 환자에서 민감성이 저하되었음을 보여준다.
도 24는 대다수의 초기 NSCLC 환자에서 검출가능한 ctDNA를 관찰한 후, 이들 환자에서 ctDNA 수준의 임상적 및 병리학적 상관관계를 확인하기 위해 추구되었음을 보여준다. ctDNA 수준은 진행 병기와 강하게 연관되어 있는 것으로 밝혀졌으며, VAF 중앙값은 I기에서 0.015%, II기에서 0.14%, III기 질환에서 0.52%였다(윌콕슨 순위-합 테스트, P < 0.0001).
도 25도 26은 [18F] FDG PET/CT(스피어만(Spearman) r = 0.40, P = 0.004)에 의해 측정된 바와 같이 ctDNA 수준과 대사 종양 부피(MTV) 사이의 유의한 연관성이 발견되었음을 보여준다.
도 27은 비-선암종 조직학(윌콕슨 순위 합 테스트, P < 0.01)으로 측정시 ctDNA 수준과 대사성 종양 부피(MTV) 사이의 유의한 연관성이 발견되었음을 보여준다. 병기, MTV 및 비-선암종 조직학은 다변수 분석에서 ctDNA 부담과 각각 독립적으로 연관되어, ctDNA 수준이 다중 생물학적 파라미터의 함수임을 나타낸다.
도 28은 주요 젖빛유리 성분(좌크같기호 25% GGO)을 가진 환자에서, ctDNA가 < 25% GGO(피셔 정확 테스트 P < 0.05, 윌콕슨 순위-합 테스트 P < 0.05)를 가진 환자보다 더 적은 빈도로 더 낮은 농도로 검출되었음을 보여준다.
도 29는 ctDNA 수준이 선암종 조직학적 하위유형에 걸쳐 비교되었을 때, 고형 및 유두상 종양이 있는 환자가 세엽 또는 배엽 종양이 있는 환자보다 더 높은 ctDNA 수준을 가졌음에도 불구하고 이 관계가 통계적 유의성에 도달하지 않았음을 보여준다.
도 30은 종양이 괴사의 증거가 있거나 중심 기도 또는 동맥에 접촉된 환자에서 ctDNA가 더 자주 검출가능함을 나타낸다.
도 31은 ctDNA 쉐딩(shedding)과 질환 공격성과 연관된 것으로 알려진 영상화 파라미터 사이의 상관관계가 주어지면 전처리 ctDNA 수준과 임상 결과의 연관성이 조사되었음을 보여준다. ctDNA 수준이 중앙값보다 높은 환자는 재발이 없는 비율이 유의하게 낮았다(위험 비율 = 3.88, P = 0.0009).
도 32는 ctDNA 쉐딩(shedding)과 질환 공격성과 연관된 것으로 알려진 영상화 파라미터 사이의 상관관계가 주어지면 전처리 ctDNA 수준과 임상 결과의 연관성이 조사되었음을 보여준다. ctDNA 수치가 중앙값보다 높은 환자는 무재발 생존율이 유의하게 낮았다(위험 비율 = 3.51, P = 0.001).
도 33도 34는 전처리 ctDNA 수준이 I기 질환(n = 48)이 있는 환자만을 고려할 때 유사하게 예후되었음을 보여준다.
도 35는 MTV 및 병기를 모두 포함하는 다변수 분석에서 ctDNA만이 결과와 유의하게 연관되었음을 보여준다.
도 36도 37은 국소 NSCLC의 치료 후 원격 전이가 암 연관 사망의 주요 원인이기 때문에 전처리 ctDNA 수준과 향후 전이와의 연관성도 조사되었음을 보여준다. 더 높은 ctDNA 농도는 단변수 및 다변수 분석 모두에서 원격 전이로부터의 열등한 자유도와 유의하게 연관되었다.
38는 전처리 ctDNA 농도가 미세전이성 질환이 있는 환자를 확인할 수 있는 국소 NSCLC에서 예후 인자임을 보여준다.
도 39는 평균적으로 NSCLC 환자가 위험 일치된 대조군 및 저위험 대조군 둘 다보다 cfDNA에서 유의하게 더 많은 비-동의 돌연변이를 갖고 있음을 보여준다(윌콕슨 순위-합 테스트, P < 0.01 및 P < 0.0001).
도 40은 cfDNA에서 가장 높은 VAF에서 관찰된 돌연변이가 환자의 76% 및 대조군의 91%에서 일치된 WBC에도 존재했음을 보여준다.
도 41은 WBC+ cfDNA 돌연변이의 48%가 정규적으로 CH와 연관된 가장 반복적으로 돌연변이된 유전자 12개 외에 다른 유전자에 있음을 보여준다. 또한, WBC+ cfDNA 돌연변이의 94.8%가 개인의 것이었으며, 이는 cfDNA 돌연변이가 CH 유래인지 여부를 확실하게 결정하기 위해 유전자형분석 일치된 백혈구의 중요성을 강조한다.
도 42는 WBC 또는 cfDNA로부터 직접 돌연변이를 확인하든, 유사한 비율의 CH 변이체는 NSCLC 환자 및 대조군에서 관찰되었음을 보여준다. 세포 및 무세포 구획 모두에서 관찰된 돌연변이의 대립유전자 분획은 유의하게 상관관계가 있었다(피어슨(Pearson) r = 0.83, P < 1x10-8).
도 43은 대부분의 CH 변이체는 사적이고 코호트 전체에 걸쳐 낮은 대립유전자 분획을 갖는 경향과 달리, 좌크같기호 2% VAF에서 발생하는 WBC의 변이체의 77%(20/26)가 가장 일반적으로 영향을 받은 DNMT3A , TET2 TP53와 함께 정규 CH 유전자에 영향을 미쳤음을 보여준다.
도 44도 45는 CHIP 발병률이 연령에 따라 증가하는 것으로 알려져 있기 때문에, 연령과 연관된 WBC+ cfDNA 돌연변이의 수가 조사되었음을 보여준다. WBC+ cfDNA 돌연변이의 수는(WBC- cfDNA 돌연변이는 제외) 연령과 유의한 상관관계가 있었다(피어슨 r = 0.43, P < 1 x 10-8).
도 46은 이들 돌연변이가 CH 이벤트를 구성한다는 개념과 일치하여, WBC+ 돌연변이를 가장 빈번하게 함유하는 유전자가 DNMT3A , TET2 , TP53, SF3B1PPM1D를 포함하는 정규 CH 유전자임을 보여준다.
도 47은 WBC+ cfDNA 돌연변이의 시간적 변화를 조사하기 위해 2개의 시점에서 혈장 샘플을 추출한 코호트의 서브세트가 고려되었음을 보여준다(8명의 NSCLC 환자, 채혈 사이의 중앙값 간격 = 12일; 5명의 위험 일치된 대조군, 중앙값 간격 = 19개월). 제1 채혈 시점에서 검출된 WBC+ cfDNA 돌연변이 중에서, 73%(41/56)가 두 번째 시점에서도 검출되었으며 VAF와 높은 상관관계를 보였다(환자의 경우 피어슨 r = 0.99, P < 0.0001; 대조군의 경우 피어슨 r = 0.74, P = 0.02).
도 48도 49는 종양 유래 돌연변이와 구별하는 데 유용할 수 있는 CH 돌연변이의 특성을 확인하기 위해, WBC+ 및 WBC- cfDNA 돌연변이의 돌연변이 시그니처는 물론 CH 및 폐암 문헌에서 이전에 공개된 돌연변이 데이터세트와 비교 및 대조되었다. 사례 및 대조군에 걸쳐 cfDNA에서 검출된 WBC+ 돌연변이는 노화 관련 돌연변이 시그니처(시그니처 1)에 의해 지배되었다.
도 50은 WBC+ 및 WBC- cfDNA 돌연변이의 분포가 TP53 단백질에 걸쳐 유사했으며, 돌연변이 부류 모두 주로 그의 DNA 결합 도메인에 영향을 미친다는 것을 보여준다.
도 51은 전반적인 시그니처 분석의 결과와 일치하게, WBC- TP53 cfDNA 돌연변이가 WBC+ 대응물보다 흡연 시그니처의 상당히 더 강한 증거를 나타냄을 보여준다(윌콕슨 순위-합 테스트, P < 0.01).
도 52는 SNV 모델이 배경 빈도, cfDNA 단편 크기, 흡연 시그니처 기여, NSCLC에서 빈번하게 돌연변이되는 유전자의 존재, 및 CH 가능성을 포함하는 각각의 개별 변이체에 특이적인 주요 생물학적 및 기술적 특징을 이용함을 보여준다.
도 53은 수신자-작동자 특성 곡선 형상이 폐-CLiP가 표적 임상 적용에 따라 원하는 특이도로 쉽게 조정될 수 있음을 나타내었음을 보여준다.
도 54는 80% 특이도에서, 1기 환자에서 63%, II기 환자에서 69%, 및 III기 환자에서 75%의 민감도가 관찰되었음을 나타내고; 또한 98%의 특이도에서 1기 환자에서 41%, II기 환자에서 54%, 및 III기 환자에서 67%의 민감도가 관찰되었음을 보여준다.
도 55는 환자 cfDNA에서 돌연변이가 반복적으로 확인된 유전자가 TP53, KRAS, 및 EGFR과 같은 예상되는 NSCLC 드라이버를 포함한다는 것을 보여준다. 환자 분류에 가장 큰 영향을 미치는 분류기 특징에는 SNV VAF 수준, cfDNA 단편 크기, 검출된 SNV 수, 검출된 CNV 수 및 이전에 폐암에서 변경이 관찰되었는지 여부가 포함되었다.
도 56은 폐-CLiP 점수가 종양-정보에 기반한 ctDNA 수준 및 임상병리학적 특징과 비교되었음을 보여준다. 중요하게도, 98% 특이성에서의 민감성은 종양-정보에 기반한 ctDNA 분석을 사용하여 관찰된 것과 크게 다르지 않았으며, 이는 폐-CLiP가 종양-정보에 기반한 ctDNA 검출과 유사한 민감성을 달성함을 보여준다. 또한, 종양 나이브 폐-CLiP 점수는 종양-정보에 기반한 ctDNA 수준과 유의하게 상관관계가 있는 것으로 밝혀졌다(스피머만(Spearman) r = 0.59, P < 0.0001).
도 57은 폐-CLiP에 의해 양성으로 분류된 NSCLC 환자로부터의 종양이 음성으로 분류된 것보다 유의하게 더 크며(윌콕슨 순위-합 테스트, P < 0.01), 유사하게 비-선암종 조직학을 갖는 환자가 더 빈번하게 검출됨을 나타낸다(피셔 정확 테스트, P < 0.01).
도 58은 46명의 NSCLC 환자(n = I기 32명; n = II기 9명; n = III기 5명)의 독립적인 코호트 및 다른 기관에 전향적으로 등록된 음성 LDCT 스캔이 있는 48명의 위험 일치된 대조군에서 폐-CLiP 검정의 성능이 검증되었음을 보여준다.
도 59는 검증 코호트에서 모델의 병기 일치된 성능이 AUC 및 민감도 메트릭에 의한 훈련에서 관찰된 것과 통계적으로 유사했으며, 검증 코호트에서 IA기 대 IB기 사례의 더 많은 부분에 기인하는 I기 성능의 수치적 차이가 있다.
도 60은 훈련 코호트에 설정된 특이성 역치가 검증 코호트의 대조군에 적용될 때 유사하게 수행되었음을 나타내며, 이는 폐-CLiP 점수가 잘 보정되었음을 보여준다.
도 61은 조합된 훈련 및 검증 코호트에 대해 여러 탐색적 분석이 수행되었음을 보여준다. 민감도에 대한 시퀀싱 깊이 또는 관련 메트릭스의 영향을 조사하였다. cfDNA 입력, 혈장 부피 입력 및 고유한 시퀀싱 깊이는 폐-CLiP의 김감도와 유의하게 연관되지 않은 것으로 밝혀졌다.
도 62는 이용 가능한 MTV 데이터(n = 103)가 있는 모든 NSCLC 환자를 고려할 때, MTV와 폐-CLiP의 민감도 사이에 강한 상관관계가 관찰되었으며 대략적인 민감도는 1mL 종양, 10mL 종양, 및 > 100mL 종양 각각에 대해 16% (95% CI: 4%-24%), 52% (95% CI: 32%-72%) 및 80% (95% CI: 60%-96%)이다.
도 63 내지 도 65는 3명의 건강한 공여자 각각으로부터 2개의 Streck 튜브와 2개의 K2EDTA 튜브로 혈액을 채취하여 본 연구에 사용된 프로토콜을 사용하여 처리한 것을 보여준다. cfDNA 추출 및 라이브러리 제조는 각 샘플에 대해 25 ng의 cfDNA 입력을 사용하여 본원에 기재된 대로 수행되었다. 시퀀싱 및 데이터 처리는 본원에 기재된 대로 수행되었으며, 비교를 용이하게 하기 위해 바코드 중복 제거 전에 각 샘플을 8천만 판독으로 다운샘플링하였다. 
도 63은 폐-CLiP 모델이 훈련 코호트에서 104명의 NSCLC 환자 및 56명의 위험 일치된 대조군에 대해 훈련되었고 Streck 및 K2EDTA 튜브로 끌어들인 혈장에서 추출된 cfDNA 샘플에 적용되었음을 보여준다. 훈련 데이터에 정의된 98%(1번째 및 3번째 막대) 및 80%(2번째 및 4번째 막대) 특이성 역치에서 폐-CLiP에 의해 음성으로 분류된 공여자의 비율이 표시된다. 2개의 튜브 유형으로 끌여들인 혈장에서 추출한 cfDNA 샘플에서 중앙값 cfDNA 단편 크기, cfDNA 농도(ng ml-1), 중복 제거 깊이, 듀플렉스 깊이 및 오류 메트릭스 비교. 동일한 공여자로부터의 cfDNA 샘플을 파선으로 연결하고 쌍 형성된 양측 t-테스트를 사용하여 비교를 수행하였다.
도 64는 2개의 튜브 유형으로 추출된 cfDNA 샘플의 단편 크기 분포의 비교를 보여준다.
 도 65는 3명의 공여자로부터 2개의 튜브 유형으로 끌여들인 혈장에서 추출한 cfDNA 샘플에 대해 본원에 기재된 바와 같이 유전자형분석이 수행되었음을 보여준다. 공여자 1과 공여자 3은 각각 cfDNA에서 확인된 하나의 돌연변이를 가지고 있었는데, 이는 두 튜브 유형으로 끌여들인 혈장에서 추출한 샘플에 존재하고 일치된 WBC(WBC+)에도 존재하였다. 공여자 2는 두 종류의 튜브로 끌여들인 혈장에서 추출한 cfDNA 샘플에서 돌연변이가 확인되지 않았다.
도 66a는, 환자 및 대조군의 서브세트에서 관찰된 15개의 WBC+ cfDNA 돌연변이의 직교 검증이 액적 디지털 PCR(ddPCR)을 사용하여 수행되었음을 보여준다. Bio-Rad에서 얻은 시약, 프라이머 및 프로브를 사용하여 Bio-Rad QX200 기기에서 ddPCR을 수행하였다. 4개의 개인 돌연변이뿐만 아니라 11개의 cfDNA 샘플에서 관찰된 DNMT3A 및 JAK2에서 2개의 재발 핫스팟 돌연변이가 검증되었다. cfDNA 및 WBC gDNA 구획 모두에서 ddPCR에 의해 검증된 테스트 돌연변이의 100%(15/15) 및 CAPP-Seq 및 ddPCR에 의해 정량화된 VAF가 유의한 상관관계가 있는 것으로 밝혀졌다.
도 66b는 상이한 SNV VAF 조정 전략으로 cfDNA에서 관찰된 개별 돌연변이(n = 323)의 (좌측) VAF를 보여준다. 쌍 형성된 양측 t-테스트를 사용하여 비교를 수행하였고; (중간) 돌연변이에 대한 평균 cfDNA VAF는 상이한 조정 전략을 사용하여 검출 가능한 ctDNA(n = 48)가 있는 환자에서 추적되었다. 쌍 형성된 양측 t-테스트를 사용하여 비교를 수행하였고; (오른쪽) m과 동일한 데이터를 병기별로 구분한다. 상자 플록에서, 중심선은 중앙값을 나타내고 상자는 사분위간 범위를 포함하며 위스커는 상자 가장자리에서 1.5 곱하기기호 X IQR 이하인 극값을 나타낸다(터키(Tukey) 스타일). 카피 수 및 클론형성능 조정을 본원에 기재된 바와 같이 수행하였다.
도 67은 단편 시작 위치의 현저하게 정형화된 특성이 시퀀싱 패널 전체에 걸쳐 관찰되었음을 보여준다.
도 68은 모든 8,192개의 정보 위치에 대한 시작 CPM이 합산되어 비-암 대조군으로부터 폐암 환자를 분류하는 데 사용되는 '시작 점수'를 생성한다는 것을 보여준다. 중요하게도, 시작 점수는 ctDNA 종양 대립유전자 분획 및 대사 종양 부피를 포함한 질환 부담의 생물학적 측정과 상관관계가 이었다.
도 69는 시작 점수와 폐-CLiP 간의 상관관계도 평가되었음을 보여준다. 흥미롭게도, 시작 점수는 훈련 코호트에서 폐-CLiP 점수와 유의하게 상관관계가 있었지만, 이는 검증 세트에서는 상관관계가 감소하여 단편 시작 위치가 독립적인 분류 유용성을 사용하는 SNV 및 SCNA에 생물학적으로 직교하는 특징을 나타낸다.
도 70은 훈련 코호트 및 2개의 독립적인 검증 코호트를 포함하는 3개의 개별 코호트에서 폐암 환자를 비-암 대조군과 구별하기 위한 시작 점수의 유용성이 평가되었음을 보여준다. 시작 점수는 테스트한 각 코호트의 대조군보다 폐암 환자에서 더 높았다.
도 71 및 도 72는 대조군과 폐암 환자를 구별하기 위한 시작 점수의 성능이 훈련 및 검증 코호트에서 유사했음을 보여준다(훈련에서 AUC = 0.82, 검증 세트 1에서 AUC = 0.86, 검증 세트 2에서 0.80).
도 73은 NSCLC 환자 및 대조군에서 정규 클론 조혈 유전자에 영향을 미치는 WBC+ 및 WBC- cfDNA 돌연변이의 분획을 도시하는 흐름도를 보여준다. 일치된 백혈구에서 좌크같기호1% VAF에 존재하는 WBC+ cfDNA 돌연변이는 1% 미만 수준에 존재하는 것보다 더 자주 정규 클론 조혈 유전자에 영향을 미친다(일치된 백혈구에서 좌크같기호1% 대 <1% VAF에 존재하는 51/64 대 223/460 WBC+ cfDNA 돌연변이는 각각 정규 CH 유전자에 영향을 미친다; P = 1.9 곱하기기호 10-6, 피셔 정확 테스트). 일치된 백혈구의 존재를 확실하게 평가할 수 있는 cfDNA에서 새로 확인된 돌연변이만 고려된다.
도 74는 환자 및 대조군(모든 환자 및 대조군이 고려됨)의 정규 클론 조혈 유전자에 영향을 미치는 < 2% 및 좌크같기호 2%의 VAF에서 WBC DNA로부터 새롭게 유전형이 지정된 돌연변이의 백분율을 보여준다. 비교는 피셔 정확 테스트에 의해 수행되었다.
도 75는 WBC+ cfDNA 돌연변이를 가장 빈번하게 함유하는 10개 유전자에서 하나 이상의 돌연변이가 있는 NSCLC 환자(오른쪽) 및 대조군(왼쪽)의 백분율을 보여준다. 유전자에 WBC+ 돌연변이만, WBC- 돌연변이만, 또는 WBC+ 및 WBC- 돌연변이 둘 모두가 있는 대조군 및 NSCLC가 있는 환자는 각각 적색, 회색 및 분홍색으로 표시된다. 각 막대 옆의 숫자는 NSCLC 환자(오른쪽) 또는 대조군(왼쪽)에서 WBC+인 해당 유전자의 모든 cfDNA 돌연변이 백분율을 나타낸다. NSCLC 환자는 대조군보다 TP53에서 WBC-cfDNA 돌연변이가 훨씬 더 많았다(환자와 대조군에서 각각 19/32 및 0/4. *P = 0.04, 피셔 정확 테스트). 
도 76은 모든 NSCLC 환자(n = 104) 및 대조군(n = 98)에서 관찰된 WBC+ cfDNA 돌연변이에 대한 유전자별 돌연변이 빈도를 보여준다. y 축은 특정 유전자에 영향을 미치는 WBC+ cfDNA 돌연변이가 있는 조합된 코호트의 백분율을 도시한다. 조합된 코호트에서 4명 이상의 개체에 돌연변이가 있는 모든 유전자가 표시된다. 
도 77은 NSCLC 환자(왼쪽 패널, n = 54개의 돌연변이, n = 8명의 개체) 및 대조군(오른쪽 패널, n = 12개의 돌연변이, n = 6명의 개체)에서 여러 시점에 걸쳐 WBC+ cfDNA 돌연변이의 VAF를 비교하는 산점도를 보여준다. 통계적 비교는 두 시점 모두에서 검출된 돌연변이에 대한 피어슨 상관관계에 의해 수행되었다.
도 78은 시퀀싱 패널에서 다루는 주어진 유전자의 분획을 설명하기 위한 수정을 갖는 dNdScv R 패키지를 사용하여 NSCLC 환자 및 대조군에서 관찰된 모든 동의 및 비동의 WBC+(n = 693개의 돌연변이, 적색) 및 WBC-(n = 526개의 돌연변이, 회색) cfDNA 돌연변이에 대해 양성 선택 분석이 수행되었음을 보여준다. x 축은 모든 대체 유형에 대한 dNdScv 조정 P 값(Q 값)을 나타낸다. Q 값이 0.05 미만이면 유전자를 양성 선택으로 간주하였다. 이 역치을 충족하는 모든 유전자가 표시된다.
도 79는 NSCLC 환자 및 대조군에서 p53 단백질에 걸친 WBC+ 및 WBC- cfDNA 돌연변이의 분포를 보여준다.
도 80은 NSCLC 환자 및 대조군에서 WBC+ 및 WBC- cfDNA 돌연변이의 짧은 단편 풍부화를 나타내며, 이는 도 21에서 ctDNA가 풍부한 것으로 밝혀진 cfDNA 단편 크기에 대한 인실리코 크기 선택 후 주어진 돌연변이에 대한 VAF의 배수 변화로 정의된다. 중심선은 중앙값을 나타내고 상자는 사분위간 범위를 함유하며 위스커는 10번째 및 90번째 백분위수 값을 나타낸다.
도 81은 전용 로지스틱 회귀 'SNV 모델'에서 특징으로 사용된 각 개별 변이체에 특이적인 생물학적 및 기술적 파라미터를 보여준다. 특징 명칭은 y 축에 도시되며, NSCLC(n = 104명의 개체로부터의 n = 574개의 돌연변이)가 있는 환자의 모든 필터링 후 SNV를 훈련 세트의 일변량 선형 모델에서 위험 일치된 대조군(n = 56명의 개체으로부터 n = 64 돌연변이)과 비교하는 것으로부터 유래된 P 값의 음성 log10x 축 상에 보여진다. P 값이 0.01 미만인 모든 특징이 보여지며 P 값은 쌍을 이루지 않은 양측 t-테스트를 사용하여 계산되었다. 본원에는 각 특징에 대한 추가 정보가 제공된다. 
도 82는 훈련 세트에서 종양 단계에 의해 계층화된 성능을 묘사하는 폐-CLiP 모델에 대한 ROC(수신자 작동 특성) 곡선을 보여준다 (n = 104명의 NSCLC 환자 및 n = 56명의 위험 일치된 대조군). 
도 83은 전향적으로 등록된 독립적인 검증 코호트에서 연간 폐암 스크리닝을 받는 46명의 초기 NSCLC 환자 및 48명의 위험 일치된 대조군에 걸쳐 관찰된 임상병리학적 상관관계 및 선택된 특징의 스펙트럼을 보여준다. 
도 84는 검증 세트에서 종양 단계에 의해 계층화된 성능을 묘사하는 폐-CLiP 모델에 대한 ROC(수신자 작동 특성) 곡선을 보여준다 (n = 46명의 NSCLC 환자 및 n = 48명의 위험 일치된 대조군). 
도 85는 훈련 코호트에 정의된 상이한 역치에서 검증 코호트에서 관찰된 특이성의 비교를 보여준다. 점은 1,000개의 부트스트랩 재샘플링에 대한 중앙 특이성을 나타내고 오차 막대는 사분위간 범위를 도시한다. 부트스트랩되지 않은 데이터에 대해 Pearson 상관관계에 의해 통계적 비교를 수행하였다. 
도 86a 내지 도 86d는 잘못 분류된 환자(음성)에 대한 98% 특이성(양성)로 정확하게 분류된 NSCLC 환자에서 대사 종양 부피(도 86a), 라이브러리 제조에 대한 cfDNA 입력(도 86b), 사용된 혈장 부피(도 86c) 및 고유한 시퀀싱 깊이(도 86d)의 비교를 보여준다. 훈련 및 검증 코호트에서 모든 NSCLC 환자가 고려되었다(도 86a에서 대사 종양 부피 측정이 있는 n = 103명의 환자 및 도 86b 내지 도 86d에서 n = 150명의 환자). 상자 플록에서, 중심선은 중앙값을 나타내고 상자는 사분위간 범위를 포함하며 위스커는 상자 가장자리에서 1.5 곱하기기호 IQR 이하인 극값을 나타낸다(터키(Tukey) 스타일).
이제 도면 및 데이터로 돌아가서, 무세포 핵산 시퀀싱 및 암의 검출과 관련된 구현예가 제공된다. 일부 구현예에서, 무세포 핵산(cfDNA 또는 cfRNA)은 액체 생검으로부터 추출되고 시퀀싱을 위해 준비된다. 많은 구현예에서, 무세포 핵산의 시퀀싱 결과는 순환 종양 핵산(ctDNA 또는 ctRNA) 서열(예를 들어, 신생물로부터 유래된 핵산의 서열)을 검출하기 위해 계산 모델에 의해 분석된다. 따라서, 다양한 구현예에서, 개체로부터 액체 생검을 추출하고 순환 종양 핵산 서열을 검출하기 위해 그 액체 생검으로부터 유래된 무세포 핵산을 시퀀싱함으로써 개체에서 신생물(암 포함)이 검출될 수 있고, 순환 종양 핵산 서열의 존재는 개체에게 신생물이 있음을 나타낸다. 일부 구현예에서, 신생물의 검출에 기초하여 개체에 대해 임상 개입이 수행된다.
도 1은 개체의 생물학적 샘플에서 순환 종양 핵산의 검출에 기초하여 임상 개입을 수행하는 프로세스를 제공한다. 일부 구현예에서, 순환 종양 핵산의 검출은 신생물(예를 들어, 암)이 존재함을 나타내며, 따라서 적절한 임상 개입이 수행될 수 있다.
프로세스(100)은 비-침습적 생검(예를 들어, 액체 또는 폐기물 생검)으로부터 수득된 무세포 핵산을 수득, 제조 및 시퀀싱하는 단계(101)를 포함할 수 있다. 일부 구현예에서, cfDNA 및/또는 cfRNA는 혈장, 혈액, 림프, 타액, 소변, 대변 및/또는 기타 적절한 체액으로부터 추출된다. 일부 구현예에서, 암의 임의의 징후 이전에 생검을 추출한다. 일부 구현예에서, 신생물(예를 들어, 암)을 검출하기 위해 조기 스크리닝을 제공하기 위해 생검이 추출된다. 일부 구현예에서, 치료 후에 잔류 신생물(예를 들어, 암)이 존재하는지 검출하기 위해 생검이 추출된다. 임의의 특정 암에 대한 스크리닝을 수행할 수 있다. 개입을 위해 검출할 수 있는 암의 예에 대한 세부사항은 "임상 개입" 섹션을 참조한다.
일부 구현예에서, 생검은 장애의 가족력이 있거나 알려진 위험 인자(예를 들어, 담배 흡연자)가 있는 사람과 같은 암 발병 위험이 알려진 개체로부터 추출된다. 많은 구현예에서, 생검은 일반 집단 내의 임의의 개체으로부터 추출된다. 일부 구현예에서, 생검은 50세 이상의 노화 개체와 같이 암 위험이 더 높은 특정 연령 그룹 내의 개체로부터 추출된다.
많은 구현예에서, 추출된 무세포 핵산은 시퀀싱을 위해 준비된다. 따라서 무세포 핵산은 시퀀싱을 위한 분자 라이브러리로 전환된다. 일부 구현예에서, 어댑터 및 프라이머는 시퀀싱을 용이하게 하기 위해 무세포 핵산 상에 부착된다. 일부 구현예에서, 특정 게놈 유전자좌의 표적화된 시퀀싱이 수행되어야 하고, 따라서 특정 유전자좌에 상응하는 특정 서열은 시퀀싱 전에 혼성화를 통해 포획된다. 일부 구현예에서, 다양한 시약이 라이브러리 및/또는 포획 작업 동안 포함되어 교란 인자를 완화한다. 일부 구현예에서, 항산화제는 뉴클레오티드 전환을 초래하는 다양한 뉴클레오티드의 산화를 방지하기 위해 하나 이상의 시퀀싱 준비 작업 동안 포함된다. 일부 구현예에서, 항산화제 하이포타우린은 다양한 시퀀싱 준비 작업에 이용된다.
일부 구현예에서, 순환 종양 핵산을 나타내는 서열 변이를 검출할 수 있는 임의의 적절한 시퀀싱 기술이 이용될 수 있다. 시퀀싱 기술에는 454 시퀀싱, Illumina 시퀀싱, SOLiD 시퀀싱, Ion Torrent 시퀀싱, 단일 판독 시퀀싱, 페어드 엔드(paired-end) 시퀀싱 등이 포함되지만 이에 국한되지 않는다.
프로세스(100)는 순환 종양 핵산 서열을 검출하기 위해 무세포 핵산 시퀀싱 결과를 분석(103)한다. 신생물(특히 전이성 종양)이 활발하게 성장하고 확장되기 때문에 신생물 세포는 종종 생체분자(특히 핵산)를 혈관계, 림프계 및/또는 폐기물 시스템으로 방출한다. 또한, 구소 환경의 생물물리학적 제약으로 인해 신생물 세포는 종종 파열되어 내부 세포 내용물을 혈관계, 림프계 및/또는 폐기물 시스템으로 방출한다. 따라서, 액체 또는 폐기물 생검에서 원위 원발성 종양 및/또는 전이를 검출하는 것이 가능하다.
다수의 구현예에서, 무세포 핵산 시퀀싱 결과는 체세포 단일 뉴클레오티드 변이체 (SNVs), 카피 수 변이 (CNVs), 게놈 위치 특징, 및/또는 생식세포계열 SNV가 무세포 핵산 샘플 내에 존재하는지 여부를 검출하기 위해 분석된다. 일부 구현예에서, 특정 체세포 SNV, CNV, 게놈 위치 특징 및/또는 생식세포계열 SNV의 존재는 순환 종양 핵산 서열을 나타내는 것이다(따라서 종양이 존재하는 것을 나타내는 것이다). 다양한 구현예에서, 계산 모델은 검출된 체세포 SNV, CNV, 게놈 위치 특징, 및/또는 생식세포계열 SNV를 분석하여 이들 검출된 분자 요소가 순환 종양 핵산을 나타내는지 여부를 결정하는데 이용된다. 일부 구현예에서, 계산 모델은 특정 샘플이 순환 종양 핵산을 함유하는지 여부에 대한 상대적 표시(예를 들어, 수치적 신뢰 점수)를 제공한다. 일부 구현예에서, 계산 모델은 환자 및 일치 대조군에서 검출된 체세포 SNV, CNV, 게놈 위치 특징, 및/또는 생식세포계열 SNV에 대해 훈련된다.
일부 구현예에서, 교란 인자는 무세포 핵산 시퀀싱 결과로부터 제거된다. 이제 클론 조혈(CH)이 무세포 핵산 샘플 내에서 체세포 SNV 및 CNV의 교란 공급원이라는 것이 이해된다. 따라서, 다양한 구현예에서, CH와 관련된 체세포 SNV 및 CNV는 추가 분석에서 제거된다. 일부 구현예에서, CH로부터 유래된 체세포 SNV 및 CNV는 분석된 각각의 특정 개체에 대해 결정된다. CH에서 유래한 개체의 특정 체세포 SNV 및 CNV를 검출하기 위해, 개체의 백혈구(leukocyte) 또는 백혈구(WBC) 또는 조혈 세포를 수집하고 이들의 핵산을 추출 및 시퀀싱하여 세포로부터 유래된 체세포 SNV 및 CNV를 검출한다. 일부 구현예에서, WBC에서 검출된 체세포 SNV 및 CNV는 무세포 핵산 시퀀싱 결과의 분석 동안 제거된다.
순환 종양 핵산 서열의 검출은 신생물이 검사되는 개체에 존재함을 나타낸다. 따라서, 순환 종양 핵산의 검출에 기초하여 임상 개입이 수행될 수 있다(105). 일부 구현예에서, (예를 들어) 혈액 검사, 의료 영상, 신체 검사, 종양 생검, 또는 이들의 임의의 조합과 같은 임상 절차가 수행된다. 일부 구현예에서, 진단은 암의 특정 병기를 결정하기 위해 수행된다. 일부 구현예에서, (예를 들어) 화학요법, 방사선요법, 면역요법, 호르몬 요법, 표적화 약물 요법, 의료 감시, 또는 이들의 임의의 조합과 같은 치료가 수행된다. 일부 구현예에서, 개체는 의사, 간호사, 영양사 또는 이와 유사한 것과 같은 의료 전문가에 의해 평가 및/또는 치료된다.
무세포 핵산을 분자적으로 분석하고 임상 개입을 수행하기 위한 프로세스의 특정 예가 위에서 설명되었지만 프로세스의 일부 작업은 상이한 순서로 수행될 수 있으며 특정 작업은 선택 사항일 수 있다. 따라서 프로세스의 일부 작업은 특정 적용의 요건에 적절하게 사용될 수 있다. 또한, 주어진 적용의 요건에 적합한 무세포 핵산을 분자적으로 분석하기 위한 다양한 프로세스 중 임의의 것이 이용될 수 있다.
시퀀싱 라이브러리 제조
일부 구현예는 시퀀싱을 위해 무세포 DNA(cfDNA) 및/또는 무세포 RNA(cfRNA)를 포함하는 핵산의 무세포 샘플을 준비하는 것에 관한 것이다. 따라서, 구현예는 세포외 핵산을 갖는 생물학적 샘플로부터 핵산을 추출하는 것을 포함한다. 생물학적 샘플에는 혈액, 혈장, 림프액, 뇌척수액, 타액, 소변, 대변 등이 포함되지만 이에 국한되지 않는다. 무세포 핵산은 당업계에 공지된 임의의 적절한 수단에 의해 단리 및 정제될 수 있다. 일부 구현예에서, 컬럼 정제가 이용된다(예를 들어, Qiagen, Hilden, Germany의 QIAamp Circulating Nucleic Acid Kit). 일부 구현예에서, 단리된 RNA 단편은 추가 다운스트림 분석을 위해 상보적 DNA로 전환될 수 있다.
일부 구현예는 시퀀싱을 위한 세포 유래 핵산 샘플을 제조하는 것에 관한 것이다. 따라서, 일부 구현예는 분석할 세포 및/또는 조직(예를 들어, 종양 세포, 신생물 세포, 혈액 세포)을 단리한다. 세포 및 조직은 당업계에서 이해되는 바와 같이 추출 및 단리될 수 있다. 일부 구현예에서, 혈액 세포(예를 들어, 백혈구)는 원심분리를 통해 혈장으로부터 단리된다. 또한, 세포 및 조직으로부터의 핵산은 당업계에 공지된 임의의 적절한 수단에 의해 단리 및 정제될 수 있다. 일부 구현예에서, 컬럼 정제가 이용된다(예를 들어, Qiagen, Hilden, Germany의 DNeasy Blood 및 Tissue Kit). 핵산은 적절한 수단(예를 들어, 초음파 처리)을 통해 라이브러리 제조를 위해 더 작은 조각(예를 들어, 50 내지 450bp)으로 나눌 수 있다.
일부 구현예에서, 단리된 핵산 단편은 시퀀싱 라이브러리로 제조될 수 있다. 많은 구현예에서, 각각 최적화된 GC 함량 및 서열 다양성을 갖는 고유 식별자(UID) 및 이중 인덱스 샘플 바코드를 갖는 어댑터를 이용하여 라이브러리를 구축한다. 이들 구현예의 다수에서, UID 및 이중 인덱스 바코드는 분리된다(예를 들어, 각각은 별개의 바코드임). 일부 구현예에서, UID는 오류 수정 이점을 제공하기 위해 미리 정의된(예를 들어, 무작위가 아닌) 서열이다. UID 또는 샘플 바코드의 오류는 종종 라이브러리 제조 중에 도입되어, 시퀀싱으로 관찰된 고유 분자의 부정확한 열거로 이어질 수 있다. 이러한 오류를 수정하기 위해, 일부 구현예는 오류 수정에 이용될 수 있는 쌍별 해밍(Hamming) 편집 거리를 갖는 미리 정의된 서열을 이용한다. 예를 들어, 6bp UID 서열가 이용되는 경우, 서열은 쌍별 해밍 편집 거리 좌크같기호 3으로 설계되어 1bp 오류를 수정하고 2bp 오류를 검출할 수 있다. 마찬가지로, 8 bp 샘플 바코드 서열을 이용하는 경우, 1 또는 2 bp 오류를 수정하고 3 bp 오류를 검출할 수 있는 쌍별 해밍 편집 거리 좌크같기호5로 서열을 설계할 수 있다.
다수의 구현예에서, UID 및 샘플 바코드의 GC 함량은 약 50% GC 함량으로 최적화되며, 이는 어닐링에 유익할 수 있고 서열 다양성을 개선할 수 있다. 일부 구현예는 또한 서열 다양성을 갖는 UID 및 바코드를 개발하는 것에 관한 것이다. 이러한 구현예에서, UID 및 샘플 바코드 서열, 뿐만 아니라 어댑터 내의 추가 서열은 각 염기 위치에서 거의 동일한 뉴클레오티드 선택을 갖도록 설계된다. 예를 들어, 어댑터 집합은 UID, 샘플 바코드 및 주위 어댑터 서열 내의 각 염기 위치에 대략 25% A 뉴클레오티드, 25% C 뉴클레오티드, 25% T 뉴클레오티드, 및 25% G 뉴클레오티드를 가질 수 있다. 서열 다양성은 시퀀서의 광학 기능을 향상시켜 적절하게 보정할 수 있다. 증가된 서열 다양성을 어댑터에 엔지니어링함으로써, PhiX를 서열화할 필요성이 제거되어 시퀀싱 판독 수율이 증가한다. 많은 구현예에서, 이중 인덱스는 일반적으로 서열 판독의 양면에 추가되는 2개의 샘플 바코드를 이용하는 어댑터를 지칭한다.
일부 구현예는 시퀀싱 반응에 사용되는 라이브러리 분자에 관한 것이다. 일부 구현예에서, 핵산은 DNA이므로 라이브러리 제조에 직접 사용할 수 있다. 일부 구현예에서, 핵산은 RNA이고, 따라서 라이브러리 제조 전에 cDNA로의 전환이 필요하다. 많은 실시예에서, 한 쌍의 오류 수정 UID가 DNA (또는 cDNA) 단편에 부착되어, DNA(또는 cDNA)가 UID에 의해 양쪽에 측접하게 된다. 한 쌍의 측접 UID는 생물학적 공급원로부터 유래된 특정 핵산 분자의 표시를 제공하여, 원래 고유 분자를 보다 정확하게 열거할 수 있다(예를 들어, 각 UID 쌍은 이전에 발생하는 해당 핵산 분자의 결찰 이벤트를 나타내므로 증폭 작업으로 인해 발생하는 중복 분자를 확인할 수 있음). 일부 구현예에서, 한 쌍의 인덱스 샘플 바코드가 DNA(또는 cDNA) 단편에 부착되어, DNA(또는 cDNA)는 각 면에서 샘플 공급원을 나타내는 인덱스 샘플 바코드 옆에 있다(예를 들어, 샘플로부터 유래된 모든 분자는 한 쌍의 인덱스 샘플 바코드에 측접함). 일부 구현예에서, 이중 인덱스 샘플 바코드의 사용은 두 인덱스 바코드가 적절하게 측접함으로써 결정된 바와 같이 시퀀싱 생성물이 실제로 샘플 공급원으로부터의 진정한 생성물임을 더 잘 보장한다. 일부 구현예에서, 측접 UID 및 측접 샘플 바코드를 포함하는 단리된 샘플 DNA (또는 cDNA) 단편은 PCR 및/또는 시퀀싱을 위한 범용 프라이머에 대한 어닐링 부위를 추가로 포함한다.
도 2a는 동일한 시작 및 종료 위치를 가진 cfDNA 분자에서 1 bp만큼 다른 분자 바코드 (즉, 고유 식별자 또는 UID)의 과잉이 UID의 시퀀싱 오류가 잘못된 UID 패밀리를 생성할 수 있음을 보여준다. 탠덤 어댑터를 사용하여 시퀀싱된 바코드 중복 제거(즉, 고유) cfDNA 분자의 상이한 그룹에서 UID를 비교할 때 바코드 해밍 편집 거리(UID 편집 거리)의 예상 및 관찰된 분포가 표시된다.
인덱스 어댑터를 사용하면 오류가 크게 억제될 수 있지만; 모 이중 가닥 '듀플렉스' 분자는 재구성되지 않을 수 있으므로 단일 가닥 분자의 정보만 고려할 수 있다. 원래 이중에서 쌍 형성된 단일 가닥을 확인할 수 있으면 오류를 추가로 억제할 수 있다. 따라서 이중 가닥 오류 억제를 위한 전용 바코드와 함께 단일 가닥 오류 억제를 위한 인덱스 바코드라는 두 개의 외인성 바코드: 인덱스를 포함할 수 있는 "탠덤 어댑터"가 설계되었다. 후자는 어댑터의 이중 가닥 부분에 2-염기 바코드로 통합되었으며 각 주요 시퀀싱 판독('삽입' 바코드라고 부를 수 있음)의 시작 부분에서 판독되었다. 인서트 바코드가 주요 판독으로 시퀀싱되었기 때문에, 각 DNA 단편의 각 끝에서 디뉴클레오티드 인서트 바코드를 얻었고 게놈 시작/종료 위치당 최대 256개 분자의 다양성과 4개 염기 인서트 바코드를 생성하였다. 일부 구현예에서, 인덱스 및/또는 인서트 바코드는 다른 어댑터 위치에 배치되거나 더 높거나 더 낮은 분자 다양성을 수용하기 위해 상이한 길이로 합성될 수 있다.
탠덤 어댑터는 랜덤 4-mer UID를 이용하여 오류를 수정할 수 없는 256개의 뚜렷한 UID를 생성할 수 있다. 256개의 모든 UID에 대한 UID 편집 거리의 이론적 분포(즉, 1, 2, 3 및 4 bp만큼 서로 다른 UID의 분획)는 1, 5, 9, 및 13번째 막대(예를 들어, 4개 막대의 각 그룹 내 1번째 막대)로 표시된다. 다른 막대는 탠덤 어댑터(n = 24명 개체)로 시퀀싱된 건강한 대조군 cfDNA 샘플에서 관찰된 UID 편집 거리의 분포를 나타낸다. 무작위로 샘플링된 UID는 2번째, 6번째, 10번째 및 14번째 막대(예를 들어, 4개 막대의 각 그룹 내 2번째 막대)로 표시된다. 게놈 시작 및 종료 위치가 다른 cfDNA 분자로부터의 UID는 3번째, 7번째, 11번째 및 15번째 막대(예를 들어, 4개 막대의 각 그룹 내에서 3번째 막대)로 표시된다. 동일한 시작 및 종료 위치를 공유하는 cfDNA 분자는 4번째, 8번째, 12번째 및 16번째 막대(예를 들어, 4개 막대의 각 그룹 내 4번째 막대)로 표시된다. 하나의 염기만 다른 UID는 동일한 시작 및 종료 위치(4개의 막대의 각 그룹 내 4번째 막대)를 가진 cfDNA 분자를 다른 UID 분포 각각과 비교할 때 상당히 과도하게 표시되어 1 bp 오류가 새로운 UID 패밀리를 잘못 생성하고 있음을 나타낸다. 그룹 비교는 쌍을 이루지 않은 양측 t-테스트가 사용된 이론적 분포와 비교할 때를 제외하고 쌍 형성된 양측 t-테스트로 수행되었다 (P < 1 Х 10-8). 막대는 평균을 나타내고 오차 막대는 평균의 표준 오차를 나타낸다.
이중 가닥 DNA (또는 cDNA) 분자를 입력으로 사용하여 라이브러리를 제조하는 프로세스의 구현예가 도 2b에 제공된다. 나타낸 바와 같이, Y자 모양의 부분 어댑터가 DNA(또는 cDNA) 분자에 결찰된다. 각 Y자 모양의 부분 어댑터에는 증폭 전에 특정 DNA (또는 cDNA) 분자를 확인하기 위해 분자 바코드를 나타내는 오류 수정 고유 식별자(UID)가 함유되어 있다. 일반적으로 길이는 적어도 3 bp인 임의의 적절한 오류 수정 UID 분자 바코드를 사용할 수 있다. 일부 구현예에서, 오류 수정 UID 분자 바코드는 3 bp, 4 bp, 5 bp, 6 bp, 7 bp 또는 8 bp이다. 일부 구현예에서, UID와 샘플 바코드의 분리는 UID 다양성 및 샘플 다중화 용량의 독립적인 맞춤화를 허용한다.
도 3에 제공되는 것은 Y자 모양의 부분 어댑터의 예이다. 알 수 있는 바와 같이, 어댑터에는 1 bp 오프셋 서열 및 0-3 bp 스태거 서열에 의해 측접된 6 bp UID가 있다. 많은 구현예에서, 1bp 오프셋 서열 및/또는 0-3bp 스태거는 각 염기 위치에서 동일한 뉴클레오티드 선택이 있도록 서열 다양성을 갖는다. 어닐링 염기 T 이전에 스태거를 갖는 것은 서열 다양성을 증가시켜 잠재적으로 시퀀서의 광학 기능에 도움이 된다. 1bp는 UID의 정확한 판독을 보장하는 데 도움이 될 수 있는 것은, 오류가 시퀀싱된 제1 염기에서 가장 자주 발생하기 때문이다. 또한, Y자 모양의 부분 어댑터에는 PCR 그라프팅을 위한 프로모터에 대한 어닐링 서열이 있다(P5 및 P7 참조).
Y자 모양의 부분 어댑터를 결찰한 후, 결찰 생성물을 사용하여 시퀀싱할 샘플(예를 들어, 생물학적 소스)을 나타내는 오류 수정 이중 인덱스 바코드를 그라프팅한다. 따라서, 많은 구체예에서, 그래프팅 PCR은 각 샘플에 대한 그래프팅 프라이머의 특정 세트로 수행된다. 그레이팅 PCR을 수행하기 위해, 일부 구현예에서, 샘플 특이적 오류 수정 바코드를 결찰 생성물에 그라프팅하기 위해 그라프팅 PCR 프라이머가 이용된다(작업 3 및 4 참조). 많은 구현예에서, 그라프팅 PCR은 샘플 특이적 오류 수정 바코드, 그라프트 프라이머 서열, 및 범용 프라이머에 대한 어닐링 서열 중 하나 이상을 포함한다. 따라서, 일부 구현예에서, 그라프팅 PCR은 DNA 분자의 라이브러리를 생성한다. 일부 구현예에서, 라이브러리 내의 각각의 DNA 분자는 단리된 샘플 DNA 단편의 서열 및 하기 중 하나 이상을 갖는다: 오류 수정 UID의 측접 쌍, 오류 수정 이중 인덱스 샘플 바코드의 측접 쌍, 및 시퀀싱 전에 범용 PCR을 수행하기 위해 범용 프라이머를 어닐링하기 위한 서열.
일부 구현예에서, 시퀀싱을 수행하기 위해 조합될 수 있는 다수의 샘플에 대해 라이브러리가 제조된다. 따라서, 이들 구현예의 다수에서, 각각의 샘플은 그라프팅 PCR로부터 유래될 수 있는 고유한 샘플 특이적 오류 수정 바코드를 갖는다. 또한, 일부 구현예에서, 각각의 샘플 라이브러리는 동일한 범용 PCR 프라이머 어닐링 서열(들)을 공유하여, 조합된 샘플은 시퀀싱 전에 동일한 반응에서 증폭되도록 한다. 그리고 일부 구현예에서, 조합된 샘플은 동일한 반응에서 시퀀싱된다.
일부 구현예에서, 라이브러리는 (예를 들어) 단일 뉴클레오티드 변이체(SNV), 특히 게놈의 유전자좌와 같은 특정 분자 요소의 검출을 돕기 위해 향상된다. 특히 분자 요소가 희귀 및/또는 체세포 SNV인 경우 검출 한계 이상의 분자 요소를 검출할 수 있으려면 개선이 필요할 수 있다. 따라서, 일부 구현예에서, 표적화된 시퀀싱은 제조된 라이브러리에 대해 수행된다. 많은 구현예에서, 포획 혼성화를 이용하여 특정 서열(예를 들어, 관심 게놈 유전자좌의 서열)을 갖는 라이브러리 분자를 선택적으로 풀다운한다. 일부 구현예에서, 포획된 혼성화는 시퀀싱을 통해 유전자좌에서 분자 특징을 검출하기 위해 특정 게놈 유전자좌를 갖는 DNA 분자를 풀다운하기 위해 라이브러리에서 수행된다. 일부 구현예에서, 포획된 혼성화는 암 및/또는 종양원성 병리와 관련된 SNV를 보유하는 것으로 알려진 게놈 유전자좌에서 희귀 및/또는 체세포 SNV를 검출하기 위해 라이브러리에서 수행된다. 일부 구현예에서, 포획된 종양 샘플의 이전 시퀀싱 결과에서 검출된 바와 같이 SNV를 보유하는 것으로 알려진 게놈 유전자좌에서 희귀 및/또는 체세포 SNV를 검출하기 위해 라이브러리에서 수행된다.
포획 혼성화
일부 구현예는 표적화된 시퀀싱을 수행하기 위해 포획 혼성화 기술을 이용한다. 무세포 핵산에 대한 시퀀싱을 수행할 때, 특정 게놈 유전자좌에 대한 분해능을 향상시키기 위해 시퀀싱 전에 혼성화를 통해 라이브러리 생성물을 포획할 수 있다. 포획 혼성화는 특정 게놈 유전자좌에서 샘플로부터 체세포 변이체 및/또는 생식세포계열 변이체를 검출하려고 할 때 특히 유용할 수 있다. 일부 상황에서 체세포 변이체의 검출은 종양 또는 기타 신생물 공급원로부터 유래된 핵산을 포함하는 핵산의 공급원을 나타낸다. 일부 상황에서 신생물 병인과 연관된 특정 생식세포계열 변이체의 확인은 신생물이 존재한다는 지지를 제공할 수 있다. 따라서, 포획 혼성화는 무세포 핵산 내에서 순환 종양 핵산의 검출을 향상시킬 수 있는 도구이다.
다른 측면에서, 본 개시내용은 혼성화 포획을 위한 미끼 세트를 제공하고, 이 미끼 세트는 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1200, 1400, 1600, 1800, 2000, 2200, 2400, 2600, 2800, 3000, 3200, 3400, 3600, 3800, 4000, 4200, 4400, 4600, 4800, 또는 5000개의 상이한 폴리뉴클레오티드 함유 프로브를 포함하고, 폴리뉴클레오타이드 함유 프로브는 집합적으로 표 1에 제시된 게놈 영역의 적어도 5%로부터 유래된 cfDNA에 혼성화하도록 구성된다.
표 1. 폐- CliP 게놈 유전자좌 (인간 게놈, 빌드 hg19 ( GRCh37 )).
Figure pct00001
Figure pct00002
Figure pct00003
Figure pct00004
Figure pct00005
Figure pct00006
Figure pct00007
Figure pct00008
Figure pct00009
Figure pct00010
Figure pct00011
Figure pct00012
Figure pct00013
Figure pct00014
Figure pct00015
일부 구현예에서, 폴리뉴클레오티드 함유 프로브는 폴리뉴클레오티드 함유 프로브의 적어도 일부에 적어도 부분적으로 상보적인 DNA 분자에 선택적으로 혼성화하도록 구성된다. 일부 구현예에서, 부분은 폴리뉴클레오티드 함유 프로브의 적어도 10%, 적어도 20%, 적어도 30%, 적어도 40%, 적어도 50%, 적어도 60%, 적어도 70%, 적어도 80%, 적어도 90%, 적어도 95%, 적어도 98%, 또는 적어도 99%이다. 일부 구현예에서, 부분은 뉴클레오티드 함유 프로브의 적어도 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 또는 100개의 연속 뉴클레오티드.
일부 구현예에서, 폴리뉴클레오티드 함유 프로브는 주어진 표적 서열 (예를 들어, 게놈 영역)의 적어도 10%, 적어도 20%, 적어도 30%, 적어도 40%, 적어도 50%, 적어도 60%, 적어도 70%, 적어도 80%, 적어도 90%, 적어도 95%, 적어도 98%, 또는 적어도 99%로 혼성화되도록 구성된다. 일부 구현예에서, 폴리뉴클레오티드 함유 프로브는 전체 표적 서열(예를 들어, 게놈 영역)에 혼성화하도록 구성된다.
일부 구현예에서, 폴리뉴클레오티드 함유 프로브 각각은 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 120, 140, 160, 180, 200, 220, 240, 260, 280, 또는 300 개 길이의 뉴클레오티드인 핵산 서열을 갖는다. 일부 구현예에서, 폴리뉴클레오티드 함유 프로브 각각은 300, 280, 260, 240, 220, 200, 180, 160, 140, 120, 100, 90, 80, 70, 60, 50, 40, 30, 20, 10, 9, 8, 7, 6, 5, 4, 3, 또는 2개 이하 길이의 뉴클레오티드인 핵산 서열을 갖는다. 일부 구현예에서, 폴리뉴클레오티드 함유 프로브 각각은 친화성 모이어티에 접합된다. 일부 구현예에서, 친화성 모이어티는 비오틴을 포함한다.
일부 구현예에서, 폴리뉴클레오티드 프로브는 집합적으로 표 1에 제시된 게놈 영역의 적어도 10%, 적어도 20%, 적어도 30%, 적어도 40%, 적어도 50%, 적어도 60%, 적어도 70%, 적어도 80%, 적어도 90%, 적어도 95%, 적어도 98%, 적어도 99%, 또는 100%로부터 유래된 cfDNA에 혼성화하도록 구성된다. 일부 구현예에서, 미끼 세트 내의 폴리뉴클레오티드 프로브 전체는 표 1에 제시된 게놈 영역의 적어도 30%, 적어도 40%, 적어도 50%, 적어도 60%, 적어도 70%, 적어도 80%, 적어도 90%, 적어도 95%, 또는 100%로부터 유래된 cfDNA 분자에 혼성화하도록 구성된다.
한 측면에서, 포획 혼성화를 수행하는 방법은 무세포 DNA 공급원으로부터 유래된 복수의 DNA 분자를 수득하는 단계; 및 복수의 DNA 분자의 분획을 포획 미끼 분자의 세트와 혼합하는 단계를 포함할 수 있다. 일부 구현예에서 포획 미끼 분자의 세트는 표 1의 게놈 유전자좌의 군으로부터 선택된 게놈 유전자좌의 적어도 일부를 포함하는 서열을 포함하는 DNA 분자에 선택적으로 혼성화하도록 구성된다.
일부 구현예에서, 게놈 유전자좌의 일부는 게놈 유전자좌의 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 120, 140, 160, 180, 200, 220, 240, 260, 280, 또는 300개의 연속 뉴클레오티드를 함유한다. 일부 구현예에서, 분획은 복수의 DNA 분자 의 적어도 약 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 또는 100%이다.
일부 구현예에서, 방법은 복수의 DNA 분자의 분획 및 포획 미끼 분자의 세트의 몰비를 최적화하여 고유 분자의 총수의 최적 회수를 산출하거나 공급된 무세포 DNA 이중 가닥의 두 가닥이 모두 시퀀싱된 듀플렉스화 무세포 DNA 분자의 총수의 최적 회수를 산출하는 단계를 추가로 포함하고, 몰비는 적어도 약 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 또는 100%이다.
일부 구현예에서, 방법은 포획 혼성화의 인실리코 시뮬레이션을 사용하여 포획 미끼 분자의 세트와 혼합되는 복수의 DNA 분자의 분획을 결정하는 단계를 추가로 포함하고, 분획은 약 100%, 95%, 90%, 85%, 80%, 75%, 70%, 65%, 60%, 55%, 50%, 45%, 40%, 35%, 30%, 25%, 20%, 15%, 10%, 또는 5% 이하이다.
인실리코 분석을 통해, 포획 기반 시퀀싱 방법에서 관찰되는 가장 일반적인 시퀀싱 인공물은 하이브리드 포획 단계 동안에 발생하는 구아닌(G)의 산화로 인해 구아닌이 8-옥소구아닌으로 변형되는 것으로 나타났다. 이 의도하지 않은 시험관 내 산화 결과는 G>T 전환을 초래할 수 있으며, 이는 특히 샘플에서 다형성 변이체를 검색할 때 시퀀싱 결과를 혼동할 수 있다. G>T 전환은 생체 내, 특히 신생물 또는 암에서 발생하는 일반적인 돌연변이유발 이벤트라는 점에 추가로 주목한다. 일부 환경 물질(예를 들어, UV 방사선, 담배 연기, 자유 라디칼)는 구아닌(G)을 산화시켜 G>T 전환을 유발하므로, G>T 전환은 추출 전에 생물학적 공급원 내에서 이미 발생했을 수 있다(도 4a 및 도 4b). 따라서, 교란되는 시험관내 돌연변이유발을 완화하기 위해, 효소 및/또는 항산화제가 하이브리드 포획 동안 발생하는 산화를 방지할 수 있다는 가설이 세워졌다. 이 가설을 테스트하기 위해 효소 및/또는 반응성 산소종(ROS) 스캐빈저를 이용하여 포획 혼성화 동안 8-옥소구아닌의 시험관내 형성을 방지할 수 있는 스캐빈저를 확인하였다. 테스트한 효소에는 우라실-DNA 글리코실라제 (UDG), 포름아미도피리미딘 [fapy]-DNA 글리코실라제 (FPG), 및 카탈라제 효소가 포함된다. 테스트된 항산화제에는 글루타티온, 하이포타우린 및 아황산나트륨이 포함되었다. 이들 효소 및 화합물, 특히 하이포타우린은 포획 혼성화 동안 8-옥소구아닌의 형성을 완화시키는 것으로 밝혀졌다(도 4a 및 도 4b).
일부 구현예에서, 항산화제 및/또는 효소는 하이브리드 포획 검정 동안 포함된다. 이들 구체예 중 일부에서, 항산화제는 하이포타우린이다. 다양한 구현예는 하이포타우린이 혼성화 반응 혼합물에 첨가되는 포획 혼성화 방법에 관한 것이다. 이들 구현예 중 다수에서, 시퀀싱 준비 동안 발생하는 시퀀싱 결과에서 시험관내 G>T 전환의 검출을 완화하기 위해 시퀀싱 프로토콜 내에서 하이포타우린이 이용된다. 따라서, 일부 구현예에서, 하이포타우린은 이후 시퀀싱 반응에 사용되는 특정 DNA 분자를 포획하는 데 이용된다.
무세포 핵산으로부터 순환 종양 핵산 검출
일부 구현예는 무세포 핵산 샘플이 순환 종양 핵산을 포함하는지 여부를 결정하기 위한 계산 모델의 이용에 관한 것이다. 일부 구현예에서, 무세포 핵산 샘플의 시퀀싱 결과 내의 SNV 및/또는 CNV는 SNV 및/또는 CNV가 순환 종양 핵산으로부터 유래되었는지 여부를 결정하기 위해 계산 모델을 통해 분석된다. 일부 구현예에서, 계산 모델은 암 환자 및 병이 없는 개체로부터 유래된 핵산 샘플에 대해 훈련된다.
일부 구현예에서, 무세포 핵산 시퀀싱 결과로부터 유래된 시퀀싱 판독 내의 SNV에 기초하여 순환 종양 핵산을 검출하기 위해 계산 모델이 이용된다. 많은 구현예에서, 무세포 핵산 시퀀싱 결과로부터 유래된 시퀀싱 판독에 기초하여 CNV를 기반으로 하는 순환 종양 핵산을 검출하기 위해 계산 모델이 이용된다. 일부 구현예에서, 계산 모델은 시퀀싱 판독의 게놈 위치를 고려한다. 일부 구현예에서, 계산 모델은 시퀀싱 결과로부터 유래된 다유전자 위험 점수(PRS)를 고려한다. 다양한 구현예에서, 계산 모델은 무세포 핵산 시퀀싱 결과가 순환 종양 핵산 서열을 포함할 가능성을 나타내는 신뢰 점수를 산출한다. 일부 구현예에서, 순환 종양 핵산을 함유할 가능성에 기초하여 무세포 핵산 시퀀싱 결과를 분류하기 위해 다양한 계산 모듈의 신뢰 점수를 조합하는 분류기가 이용된다. 일부 구현예에서, 계산 모듈은 조합, 계층화, 중첩, 순차적으로 이용, 탠덤으로 이용, 또는 이들의 임의의 조합으로 구성된다.
다양한 구체예에서, 계산 모델은 진정한 긍적적인 결과를 확인하는데 이용될 수 있는 암 세포(예를 들어, 환자 종양)로부터 직접 추출된 핵산의 시퀀싱 결과를 이용하여 훈련된다. 일부 구현예에서, 거짓 긍정 결과를 확인하기 위해 이용될 수 있는 다른 숙주 공급원(예를 들어, 조혈 세포)으로부터 추출된 핵산의 시퀀싱 결과를 이용하여 계산 모델을 훈련시킨다. 일부 구현예에서, 조혈 세포로부터 추출된 핵산의 시퀀싱 결과는 클론 조혈(CH)로부터 발생하는 변이체와 같은 무세포 핵산에 종종 존재하는 교란 변이체를 제거하는 데 이용된다. 일부 구현예에서, 종양 유래 돌연변이를 보유하는 cfDNA 분자가 비-종양 유래 돌연변이를 보유하는 분자와 비교하여 별개의 단편 크기 분포를 갖는 것으로 밝혀졌기 때문에, 무세포 핵산 단편 길이는 특징으로서 이용된다.
많은 구현예에서, 순환 종양 핵산을 검출하기 위한 계산 모델은 특정 암 유형의 검출을 위해 구체적으로 이용된다. 일부 경우에, 암 특이적 탐지 모델이 더 나은 예측을 제공할 수 있는 특정 암에 특정한 기능을 이용할 수 있다. 예를 들어, 특정 암에서 발생하는 것으로 알려진 게놈 유전자좌 "핫스팟" 내에서 발생하는 SNV 및/또는 CNV를 모델 내에서 이용할 수 있다. 일부 경우에 "핫스팟"이 종양원성 드라이버 유전자이다. 다른 예에서, 담배 흡연 돌연변이 시그니처와 일치하는 SNV 및/또는 CNV는 폐암의 검출을 위해 이용될 수 있다. 모델은 급성 림프모구성 백혈병 (ALL), 급성 골수성 백혈병 (AML), 항문암, 성상세포종, 기저 세포 암종, 담도암, 방광암, 유방암, 자궁경부암, 만성 림프구성 백혈병 (CLL) 만성 골수형성 백혈병 (CML), 만성 골수증식성 신생물, 결장직장암, 자궁내막 암, 뇌실막세포종, 식도암, 비강신경교세포종, 유잉 육종, 나팔관 암, 담낭암, 위암, 위장 유암종, 모발 세포 백혈병, 간세포 암, 호지킨 림프종, 하인두 암, 카포시 육종, 신장암, 랑게르한스 세포 조직구증, 후두 암, 백혈병, 간암, 폐암, 림프종, 흑색종, 머켈 세포 암, 중피종, 입 암, 신경교세포종, 비-호지킨 림프종, 비-소세포 폐암, 골육종, 난소암, 췌장암, 췌장 신경내분비 종양, 인두 암, 뇌하수체 종양, 전립선암, 직장암, 신장 세포 암, 망막모세포종, 피부암, 소세포 폐암, 소장 암, 편평상피 목 암, T-세포 림프종, 고환암, 흉선종, 갑상선암, 자궁암, 질암, 및 혈관 종양을 포함하지만 (이에 국한되지 않는) 일부 암에 대해 구축될 수 있다. 그러나 범암(pan-cancer) 분석을 위해 순환 종양 핵산을 검출하기 위해 계산 모델을 구축할 수 있다는 점에 유의해야 한다(예를 들어, 특정 하위 유형이 아닌 일반적으로 암을 검출).
도 5에 제공되는 것은 시퀀싱 결과를 이용하여 무세포 핵산 내에서 순환 종양 핵산 분자를 검출하기 위한 계산 모델을 구축하고 이용하는 프로세스이다. 프로세스(500)는 무세포 핵산의 시퀀싱 결과를 획득(501)함으로써 시작할 수 있다. 적절한 시퀀싱 결과를 이용할 수 있다. 일부 구현예에서, 액체 또는 폐기물 생검이 개체로부터 추출되고, 그 생검 내의 무세포 핵산이 처리된 다음 시퀀싱된다. 일부 구현예에서, 특히 모델 훈련을 위해 암 세포(예를 들어, 종양) 및/또는 교란 공급원(예를 들어, 조혈 세포)로부터 유래된 시퀀싱 결과가 또한 이용된다.
프로세스(500)는 선택적으로 체세포 단일 뉴클레오티드 변이체 모듈을 이용하여(503) 무세포 핵산 시퀀싱 결과 내의 변이가 순환 종양 핵산으로부터 유래되었는지 여부를 결정한다. 체세포 SNV는 신생물 세포에서 유래한 핵산에서 매우 흔하므로 순환 종양 핵산에서 흔하다. 따라서, 무세포 핵산 시퀀싱 결과에서 체세포 SNV의 검출은 SNV의 공급원이 신생물 조직에서 유래한다는 표시를 제공한다.
체세포 SNV는 종종 신생물 조직에서 유래하지만 검출된 체세포 SNV는 자연 노화, 클론 조혈 및 기타 무해한 공급원을 포함하지만 (이에 국한되지 않는) 신생물 성장 이외의 이유로 인해 종종 발생할 수 있다. 따라서 검출된 SNV가 신생물 공급원에서 유래하는지 여부를 정확하게 예측할 수 있는 시스템을 이용하는 것이 유익하다. 일부 구현예에서, 무세포 핵산 시퀀싱 결과에서 검출된 SNV가 순환 종양 핵산 분자로부터 진정으로 유래되었는지 여부의 표시를 제공하기 위해 계산 모델이 이용된다.
일부 구현예는 변이체의 계산 분석 전에 수행될 수 있는 순환 종양 핵산 분자로부터 유래된 변이체 호출 및 필터링에 관한 것이다. 일부 구현예에서, 생식세포계열 변이체는 제거되고, 이는 또 다른 숙주 공급원(예를 들어, 조혈 세포)의 시퀀싱 결과를 이용하여 확인될 수 있다. 일부 구현예에서, 낮은 깊이 위치의 변이체(예를 들어, 중앙 깊이의 < 50%) 및 반복, 인트론, 유전자간 또는 유사유전자 영역의 변이체는 제거된다. 일부 구현예에서, 고유성 또는 맵핑성이 불량한 영역에 속하는 변이체는 제거된다. 일부 구현예에서, 적절한 데이터베이스(예를 들어, gnomAD 데이터베이스)에 의해 확인된 바와 같이 집단 대립유전자 빈도가 >0.1%인 변이가 제거된다. 일부 구현예에서, 반복적인 배경 인공물이 제거된다. 일부 구현예에서, 일치된 숙주 공급원(예를 들어, 조혈 세포)에 존재하는 진정한 변이체(예를 들어, 검출 인덱스 P-값 < 0.10을 갖는 변이체)가 제거된다. 일부 구현예에서, 클론 조혈(CH)과 정규적으로 연관된 유전자의 변이체는 제거된다. CH 유전자에는 DNMT3A , TET2 , ASXL1 , PPM1D , GNB1 , CBL , JAK2 , STAT3 , GNAS , MYD88SF3B1이 포함되지만 이에 국한되지 않는다. 일부 구현예에서, 제거된 변이체는 암과 관련된 것으로 관찰된 경우 구제된다. 일부 구현예에서, 제거된 변이체는 암과 관련된 것으로 관찰된 유전자 내에 존재하는 경우 구제된다.
일부 구현예에서, 종양 판정된 변이체를 판정되지 않은 변이체와 구별하기 위해 계산 모델이 이용된다(예를 들어, 변이체는 암 조직으로부터 유래하는지 여부를 검출한다). 다양한 구현예에서, 계산 모델은 무세포 핵산 시퀀싱 결과 및 일치된 종양 시퀀싱 결과를 포함하는 환자 데이터의 사용을 포함할 수 있는 감독, 반 감독 또는 비감독 훈련을 이용한다. 많은 구현예에서, 회귀 모델은 비-판정된 변이체로부터 종양-판정된 변이체를 구별하기 위해 이용된다. 선형 회귀, 탄성 순 회귀, 로지스틱 회귀, 다항식 회귀, 단계적 회귀, 능형 회귀, LASSO 회귀 및 임의의 결합 회귀 모델을 포함하지만 이에 국한되지 않는 임의의 적절한 회귀 모델을 사용할 수 있다. 일부 구현예에서, 반 감독된 탄성 순 로지스틱 회귀 모델은 일치된 종양 샘플이 없는 샘플에서 종양-판정된 변이체를 비-판정된 변이체와 구별하도록 훈련된다. 일부 구현예에서, SNV가 신생물 공급원으로부터 유래되었다는 신뢰를 나타내는 점수가 각각의 검출된 SNV에 할당된다. 일부 구현예에서, 훈련 모델에 대한 특징은 환자가 분석된 무세포 핵산 및 일치된 종양 유래 핵산(예를 들어, 종양 생검으로부터 직접 유래됨) 둘 모두를 갖는 종양-정보에 기반한 분석을 이용하여 확인 및 정의될 수 있다. 이들 구현예 중 일부에서, 학습 모델은 신생물 세포로부터 유래된 변이체 특징을 학습하고 이러한 특징을 사용하여 변이체가 신생물 세포로부터 유래된다는 라벨 및 신뢰 점수를 할당하는 데 사용된다. 일부 구현예에서, 샘플 내의 신뢰 점수는 조합, 합산, 평균화, 가중되거나 그렇지 않으면 요약되어 샘플에 대한 요약 점수를 제공하고, 이는 샘플이 순환 종양 핵산 분자를 함유할 가능성을 나타낸다.
일부 구현예에서, 순환 종양 핵산 분자로부터 유래된 SNV를 확인하기 위한 모델은 변이체의 배경 빈도, 무세포 핵산 분자의 단편 크기, 특정 공급원에 공통적인 변이 시그니처, 암 (또는 특히 암 유형)에서 자주 돌연변이되는 게놈 유전자좌(예를 들어, 종양원성 유전자)의 존재, 변이체가 CH에서 유래될 가능성, 및 돌연변이의 존재가 cfDNA의 변이체의 VAF 및 조혈 세포의 위치 깊이에 비해 숙주 조혈 세포에서 자신 있게 평가될 수 있는지 여부를 포함하지만 (이에 국한되지 않는) 각 개별 변이체에 특이적인 생물학적 및 기술적 특징을 통합한다. 특정 SNV가 순환 종양 핵산 분자 및 모델에 대한 기여로부터 유래되었는지 여부를 결정하는 데 사용되는 모델 특징의 예시적인 세트가 도 6에 제공된다. 특징의 이러한 예시적인 세트는 WBC 베이지안 배경, cfDNA 베이지안 배경, 변이체 대립유전자 빈도 (VAF %), 생식세포계열 깊이, 평균 바코드 패밀리 크기, 짧은 단편 점수 1, 짧은 단편 점수 2, 전이/전환, 듀플렉스 지지체, 통과 이상치, 맵핑 품질, 암 핫스팟, UMI 오류 수정, Phred 품질, 및 판독에서의 변이체 위치를 포함한다. 이러한 특징에 대한 세부사항은 예시적인 구현예 섹션을 참조한다. 특징의 이러한 예시적인 세트가 비-소세포 폐암(NSCLC)에서 ctDNA를 확인하기 위해 특별히 개발되었지만, 동일 및/또는 유사한 특징 세트는 범암 또는 기타 특정 암에 대한 모델에서도 사용될 수 있다. 따라서, 다양한 구현예는 하기 특징 중 하나 이상을 통합하는 SNV의 확인을 기반으로 순환 종양 핵산을 검출하기 위한 모델을 이용한다: 세포 유래 DNA 베이지안 배경, cfDNA 베이지안 배경, 변이체 대립유전자 빈도 (VAF %), 생식세포계열 깊이, 평균 바코드 패밀리 크기, 짧은 단편 점수 1, 짧은 단편 점수 2, 전이/전환, 듀플렉스 지지체, 통과 이상치, 맵핑 품질, 암 핫스팟, UMI 오류 수정, Phred 품질, 및 판독에서의 변이체 위치. 일부 구현예에서, 모델은 이들 특징 중 2개 이상을 통합한다. 일부 구현예에서, 모델은 이들 특징 중 3개 이상을 통합한다. 일부 구현예에서, 모델은 이들 특징 중 4개 이상을 통합한다. 일부 구현예에서, 모델은 이들 특징 중 5개 이상을 통합한다. 일부 구현예에서, 모델은 이들 특징 중 6개 이상을 통합한다. 일부 구현예에서, 모델은 이들 특징 중 7개 이상을 통합한다. 일부 구현예에서, 모델은 이들 특징 중 8개 이상을 통합한다. 일부 구현예에서, 모델은 이들 특징 중 9개 이상을 통합한다. 일부 구현예에서, 모델은 이들 특징 중 10개 이상을 통합한다. 일부 구현예에서, 모델은 이들 특징 중 11개 이상을 통합한다. 일부 구현예에서, 모델은 이들 특징 중 12개 이상을 통합한다. 일부 구현예에서, 모델은 이들 특징 중 13개 이상을 통합한다. 일부 구현예에서, 모델은 이들 특징 중 14개 이상을 통합한다. 일부 구현예에서, 모델은 이들 특징 중 15가지 모두를 통합한다.
다시 도 5로 돌아가면, 프로세스(500)는 선택적으로 카피 변이 모듈을 이용하여(505), 무세포 핵산 시퀀싱 결과 내의 카피 수 변이(CNV)가 순환 종양 핵산 분자로부터 유래하는지 여부를 결정한다. 체세포 CNV는 신생물 세포에서 매우 흔하므로 순환 종양 핵산을 검출하는 데 사용할 수 있다. 따라서, 무세포 핵산 시퀀싱 결과에서 체세포 CNV의 검출은 CNV의 공급원이 신생물 조직에서 유래한다는 표시를 제공한다. 체세포 CNV는 종종 신생물 조직에서 유래하지만 검출된 체세포 CNV는 자연 노화, 클론 조혈 및 기타 무해한 공급원을 포함하지만 (이에 국한되지 않는) 신생물 성장 이외의 이유로 인해 종종 발생할 수 있다. 따라서 검출된 CNV가 신생물 공급원에서 유래하는지 여부를 정확하게 예측할 수 있는 시스템을 이용하는 것이 유익하다. 일부 구현예에서, 무세포 핵산 시퀀싱 결과에서 검출된 CNV가 순환 종양 핵산 분자로부터 진정으로 유래되었는지 여부의 표시를 제공하기 위해 계산 모델이 이용된다.
일부 구현예에서, CNV는 표적화된 시퀀싱 결과(예를 들어, 전체 게놈 또는 엑솜 커버리지가 결여된 시퀀싱 결과)로부터 검출될 수 있다. 많은 구현예에서, 게놈에 걸쳐 균일하게 분포된 윈도우(예를 들어, 5MB 윈도우)의 세트에서 카피 수를 검사한다. 많은 구현예에서, 카피 수는 암에서 카피 수 변경을 갖는 것으로 공지된 게놈 유전자좌 "핫스팟"의 세트에서 검사된다. 일부 구현에에서, GISTIC2.0은 게놈 유전자좌 "핫스팟"을 확인하는 데 사용된다(GISTIC2.0에 대한 세부사항은 C. H. Mermel, et al., Genome Biol. 12, 1-14 (2011) 참조, 이는 본원에 참조로 포함됨). 일부 구현예에서, 배경 노이즈(noise)을 제거하기 위해 필터가 적용된다. 일부 구현예에서, 필터가 구조적 또는 CH 유래된 카피 수 이벤트를 제거하기 위해 적용된다.
다양한 구현예에서, 균일하게 분포된 윈도우 영역 및 GISTIC "핫스팟" 영역의 수는 균일한 윈도우와 비교하여 암(예를 들어, GISTIC)에서 반복적으로 변경된 카피 수로 알려진 영역에 대한 풍부화가 있는지 여부를 포착하는 제3 특징과 함께 카피 수 모델의 특징으로서 사용된다. 일부 구현예에서, 계산 모델은 체세포 CNV의 검출에 기초하여 무세포 핵산 시퀀싱 결과가 순환 종양 핵산 서열을 포함한다는 신뢰 점수를 산출한다.
프로세스(500)는 또한 선택적으로 게놈 위치 판독 모듈을 이용하여(507) 무세포 핵산 시퀀싱 결과로부터 특정 게놈 위치를 갖는 시퀀싱 판독이 순환 종양 핵산 분자에서 유래하는지 여부를 결정한다. 현재 순환 종양 DNA의 처음 2개 및 마지막 2개 뉴클레오티드의 게놈 위치가 비-종양 무세포 DNA의 게놈 위치와 다르다는 것으로 이해된다. 다양한 구현예에서, 무세포 DNA 분자의 게놈 위치는 순환 종양 핵산을 비-종양 무세포 DNA와 구별하는데 이용될 수 있다. 일부 구현예에서, 무세포 DNA 분자의 처음 및 마지막 뉴클레오티드의 게놈 위치는 순환 종양 핵산을 비-종양 무세포 DNA와 구별하는데 이용될 수 있다. 일부 구현예에서, 순환 종양 DNA의 게놈 위치는 단일 염기쌍 분해능에서 비-종양 무세포 DNA의 게놈 위치로부터 분화된다. 일부 구현예에서, 시퀀싱 판독의 처음 및/또는 마지막 염기의 게놈 위치가 결정되고 정량화되어 특정 게놈 위치를 갖는 판독의 카운트가 드러난다. 일부 구현예에서, 판독의 카운트는 정규화된다(예를 들어, 백만 판독당 카운트).
일부 구현예에서, 시퀀싱 판독의 게놈 위치는 시퀀싱 결과가 순환 종양 DNA로부터 유래된 판독를 함유하는지 여부를 결정하기 위해 분류기 또는 다른 계산 모델 내에서 이용된다. 이들 구현예 중 다수에서, 분류기 또는 다른 계산 모델은 암 환자 및 대조군의 무세포 핵산 시퀀싱 결과를 사용하여 훈련된다. 순환 종양 핵산을 확인하기 위한 무세포 분자의 게놈 위치 이용에 대한 세부사항은 예시적인 구현예 섹션 내의 실시예 2를 참조한다.
프로세스(500)는 또한 선택적으로 시퀀싱 결과 내의 생식세포계열 변이체가 개체의 암 위험을 의미하는지 여부를 결정하기 위해 다유전자 위험 점수(PRS) 모듈을 이용한다(509). 다양한 연구에서 일부 생식세포계열 변이체가 다양한 암에서 더 일반적임을 결합하였다 (J. Dai, et al., Lancet Respir. Med. 7, 881-891 (2019); J. L. Weissfeld, et al., J Thorac. Oncol. 10, 1538-1545 (2015) 및 D.C. Qian, et al., Cancer Epidemiol. Biomarkers Prev. 25, 1208-1215 (2016), 각각은 본원에 참고로 포함됨). 시퀀싱 결과 내에서 특정 변이체의 확인은 개체가 암에 걸릴 가능성을 제공하는 PRS를 계산하는 데 이용될 수 있다. 따라서, PRS는 순환 종양 핵산의 확인을 추가로 지원하기 위해 무세포 핵산 시퀀싱 분석과 함께 이용될 수 있다. 다시 말해서, PRS는 순환 종양 핵산을 검출하기 위해 계산 모델과 공조하여, 함께 또는 내에서 이용될 수 있다. PRS를 계산하는 방법에 대한 자세한 내용은 J. Dai, et al. (2019), J. L. Weissfeld, et al. (2015) 및 D.C. Qian, et al. (2016)를 참조하고, 상기에서 인용된다.
무세포 핵산 시퀀싱, 전체 게놈 시퀀싱, 엑솜 시퀀싱, 표적화 시퀀싱 및 RNA 시퀀싱을 포함하지만 (이에 국한되지 않는) 임의의 적절한 시퀀싱 결과를 이용하여 PRS를 결정할 수 있다. 표적화 시퀀싱을 수행하기 위해, PRS를 계산하는 데 이용되는 변이체의 위치를 포괄하는 유전자좌를 구체적으로 표적화하는 프로브를 이용할 수 있다. 일부 구현예에서, 표적화된 시퀀싱은 PRS를 결정하기 위해 무세포 핵산 분자에 대해 수행된다.
프로세스(500)는 또한 선택적으로 모듈을 이용하여(511) 무세포 핵산 분자의 시작 및/또는 끝에서 뉴클레아제 모티프를 확인한다. 이제 일반적으로 cfDNA 분자의 처음 및/또는 마지막 1-4 bp 서열이지만 반드시 그렇지는 않은 cfDNA 분자의 시작 및/또는 끝에 있는 서열을 사용하여 어떤 특정 뉴클레아제가 cfDNA 단편을 소화했는지 알려주는 데 사용할 수 있다. 확인된 서열은 cfDNA 분자로부터 절단된 임의의 서열을 포함하여 전체 뉴클레아제 인식 부위를 추론하는데 이용될 수 있음을 이해해야 한다. 일부 구현예에서, cfDNA 분자의 게놈 시작 및/또는 종료 위치로부터 추론될 수 있는 모티프의 절단된 부분(예를 들어, 게놈적으로 인접한 1-4 bp 서열)은 어떤 특정 뉴클레아제가 cfDNA 단편을 소화했는지 알려주는 데 사용될 수 있다. 또한, 많은 경우에 다양한 뉴클레아제가 특정 세포 및/또는 조직과 고정관념적으로 연관되어 있다. (L. Serpas, et al., Proc . Natl . Acad . Sci. U.S.A. 116, 641-649 (2019); 및 D. S. C. Han, et al., Am. J. Hum. Genet. 106, 202-214 (2020); 이들 각각은 참조로 본원에 포함됨). 따라서, 일부 구현예에서, 뉴클레아제 인식 부위(예를 들어, 모티프)는 cfDNA 분자의 세포 및/또는 조직 기원(예를 들어, 폐 세포 기원 또는 종양 기원을 나타내는 모티프)의 표시를 제공하는 데 사용된다. 많은 구현예에서, cfDNA 모티프 빈도는 시퀀싱 결과로부터 결정될 수 있으며, 이는 차례로 개체가 암에 걸릴 가능성을 계산하는 데 이용될 수 있다. 따라서, 모티프 빈도는 순환 종양 핵산의 확인을 추가로 지원하기 위해 무세포 핵산 시퀀싱 분석과 함께 이용될 수 있다. 뉴클레아제 모티프 빈도는 순환 종양 핵산을 검출하기 위해 계산 모델과 공조하여, 함께 또는 내에서 이용될 수 있음을 이해해야 한다.
프로세스(500)는 무세포 핵산 시퀀싱 결과를 분류하는 분류기 내에서 하나 이상의 모듈의 결과를 통합한다(513). 따라서, 일부 구현예에서 무세포 핵산 시퀀싱 결과가 순환 종양 핵산 서열을 포함한다는 전반적인 신뢰 점수를 생성하기 위해 다양한 모듈로부터 유도된 신뢰 점수를 통합하는 분류기가 있다. 많은 구현예에서, 사용된 분류기는 다음 중 하나이다: 5-최근접 이웃(5NN), 3NN, 나이브 Bayes, 로지스틱 회귀, 결정 트리 또는 이들의 조합. 일부 구현예에서, 2개 이상의 분류기가 이용되는 앙상블 분류기가 이용된다. 일부 구현예에서, 3개 이상의 분류기가 이용되는 앙상블 분류기가 이용된다. 일부 구현예에서, 4개 이상의 분류기가 이용되는 앙상블 분류기가 이용된다. 일부 구현예에서, 5개 이상의 분류기가 이용되는 앙상블 분류기가 이용된다. 많은 실시예에서, 샘플 배깅은 샘플을 부트스트래핑함으로써 수행된다. 일부 구현예에서, 이용되는 각각의 분류는 배깅 단계의 변화에 따라 벌점을 받는다. 그리고 일부 구현예에서, 분류기의 요약된 점수가 생성된다. 점수는 합산되거나 평균화되거나 적절한 방식으로 조합될 수 있다. 최종 점수에 기초하여, 무세포 핵산 샘플은 순환 종양 핵산 서열을 함유하는 것에 대해 양성으로 분류될 수 있다.
다양한 구현예에서, 계산 모델은 홀드아웃(holdout), K-폴드(K-fold) 또는 리브-원-아웃(leave-one-out) 교차 검증을 이용하여 검증될 수 있다. 일부 구현예에서, 검증 코호트는 계산 모델을 검증하기 위해 이용된다.
일부 구현예에서, 민감도, 특이성, 및 곡선 아래 면적(AUC) 메트릭스는 원하는 성능을 달성하도록 수정될 수 있다. 일부 경우에, 순환 종양 핵산의 강력한 검출을 보장하기 위해 더 높은 특이성이 요구될 수 있다. 일부 경우에, 검출 한계가 더 낮아서 누락된 참(true) 긍정적인 결과의 수가 감소하도록 더 높은 민감성이 요구된다. 따라서, 다양한 구체예에서, 특이성은 다음 중 하나로 설정된다: 70%, 75%, 80%, 85%, 90%, 95%, 98%, 100% 또는 그 사이.
단일 뉴클레오티드 변이체 모델, 카피 수 변이체 모델, 게놈 위치 판독 모델, PRS 및 통합 분류기를 구축하기 위한 프로세스의 특정 예가 위에 설명되어 있지만 프로세스의 다양한 작업은 다른 순서로 수행될 수 있으며 특정 작업은 선택 사항일 수 있다. 예를 들어, 다양한 SNV, CNV 또는 게놈 위치 판독 모듈을 자체적으로 이용하여 무세포 핵산 샘플이 순환 종양 핵산 서열을 함유하는지 여부를 결정할 수 있다. 따라서 프로세스의 다양한 작업은 특정 적용의 요건에 적절하게 사용될 수 있다. 또한, 단일 뉴클레오티드 변이체 모델, 카피 수 변이체 모델, 게놈 위치 판독 모델, PRS 및 주어진 적용의 요건에 적합한 통합 분류기를 구축하기 위한 다양한 프로세스를 이용할 수 있다. 개체에서 암을 검출하기 위한 다른 분류 시스템은 본원에 기재된 임의의 모델에 추가로 조합되거나 사용될 수 있다.
일부 구현예는 개체가 암에 걸렸는지 여부를 결정하기 위한 계산 모델의 이용에 관한 것이다. 많은 구체예에서, 개체가 암에 걸렸는지 여부를 결정하는 방법은 다음과 같다:
(a) 개체로부터 액체 또는 폐기물 생검을 추출함
(b) 무세포 핵산 및 다른 숙주 공급원(예를 들어, WBC)을 시퀀싱함
(c) 무세포 핵산 시퀀싱 결과 내에서 순환 종양 핵산 서열을 검출하기 위해 하나 이상의 계산 모델에서 시퀀싱 결과를 이용함
본원에 기재된 바와 같은 임의의 계산 모델이 단독으로 또는 조합하여 이용될 수 있음을 이해해야 한다. 따라서, 일부 구현예에서, SNV 모델은 개체가 암을 갖고 있는지 여부의 표시를 제공하기 위해 이용된다. 일부 구현예에서, CNV 모델은 개체가 암을 갖고 있는지 여부의 표시를 제공하기 위해 이용된다. 일부 구현예에서, 게놈 위치 판독 모델은 개체가 암을 앓고 있는지 여부의 표시를 제공하기 위해 이용된다. 일부 구현예에서, 다양한 SNV, CNV, 및/또는 게놈 위치 판독 모델은 개체를 암에 걸린 것으로 분류하기 위해 분류기 내에 통합된다.
다양한 구현예에서, 암의 조기 검출을 제공하기 위해 계산 모델이 이용된다. 일부 구현예에서, 계산 모델은 I기, II기 또는 III기 암을 갖는 개체에서 암을 검출할 수 있다. 일부 구현예에서, 암 치료 후 개체에서 잔류 암을 검출하기 위해 계산 모델이 이용된다.
임상 개입
다양한 구현예는 임상 개입을 수행하기 위해 암의 검출을 이용하는 것에 관한 것이다. 일부 구현예에서, 개체는 개체가 암에 걸렸고 따라서 개입이 수행되어야 함을 나타내기 위해 본원에 기재된 방법에 의해 스크리닝 및 처리된 액체 또는 폐기물 생검을 갖는다. 임상 개입에는 임상 절차 및 치료가 포함된다. 임상 절차에는 혈액 검사, 의료 영상, 신체 검사 및 종양 생검이 포함되지만 이에 국한되지 않는다. 치료에는 화학 요법, 방사선 요법, 면역 요법, 호르몬 요법, 표적 약물 요법 및 의료 감시가 포함되지만 이에 국한되지 않는다. 일부 구현예에서, 진단은 암의 특정 병기를 결정하기 위해 수행된다. 일부 구현예에서, 개체는 의사, 간호사, 영양사 또는 이와 유사한 것과 같은 의료 전문가에 의해 평가 및/또는 치료된다.
임상 개입을 위한 암의 검출
본원에 기재된 일부 구현예에서, 암은 혈액, 혈청, 뇌척수액, 림프액, 소변 또는 대변으로부터 유래된 무세포 핵산의 시퀀싱 결과를 이용하여 검출될 수 있다. 일부 구현예에서, 무세포 핵산의 시퀀싱 결과가 순환 종양 핵산의 서열을 포함하는지 여부에 대한 보다 강력한 결정을 제공하기 위해 또 다른 숙주 공급원이 시퀀싱된다(예를 들어, 조혈 세포). 시퀀싱에 조혈 세포를 사용하면 자연 노화, 클론 조혈 및 기타 무해한 소스로부터 유래된 체세포 SNV 및 CNV와 같은 교란 신호를 확인하고 제거하는 데 도움이 될 수 있다. 다양한 구현예는 표적화된 시퀀싱을 수행하는 구현예에서 하이브리드 포획 동안 항산화제(예를 들어, 하이포타우린)를 이용한다. 또한, 일부 구현예는 계산 모델에 의해 제공된 신뢰 점수에 기초하여 무세포 핵산의 시퀀싱 결과가 순환 종양 핵산의 서열을 포함하는지 여부를 결정하기 위해 본원에 기재된 것을 비롯한 계산 모델을 이용한다. 따라서, 일부 구현예에서, 무세포 핵산을 추출, 처리 및 시퀀싱하고, 시퀀싱 결과를 분석하여 암을 검출한다. 이 프로세스는 진단 스캔을 제공하는 임상 환경에서 특히 유용하다.
개체의 진단 스캔을 위한 예시적인 절차는 다음과 같다:
(a) 개체로부터 액체 또는 폐기물 생검을 추출함
(b) 무세포 핵산 및 숙주 공급원(예를 들어, WBC)을 준비하고 시퀀싱함
(c) 무세포 핵산 시퀀싱 결과 내에서 순환 종양 핵산 서열을 검출하기 위해 하나 이상의 계산 모델에서 시퀀싱 결과를 이용함
(d) 순환 종양 핵산 서열의 검출을 기반으로 임상 개입 수행함
다양한 구현예에서, 진단 스캔은 급성 림프모구성 백혈병 (ALL), 급성 골수성 백혈병 (AML), 항문암, 성상세포종, 기저 세포 암종, 담도암, 방광암, 유방암, 자궁경부암, 만성 림프구성 백혈병 (CLL) 만성 골수형성 백혈병 (CML), 만성 골수증식성 신생물, 결장직장암, 자궁내막 암, 뇌실막세포종, 식도암, 비강신경교세포종, 유잉 육종, 나팔관 암, 담낭암, 위암, 위장 유암종, 모발 세포 백혈병, 간세포 암, 호지킨 림프종, 하인두 암, 카포시 육종, 신장암, 랑게르한스 세포 조직구증, 후두 암, 백혈병, 간암, 폐암, 림프종, 흑색종, 머켈 세포 암, 중피종, 입 암, 신경교세포종, 비-호지킨 림프종, 비-소세포 폐암, 골육종, 난소암, 췌장암, 췌장 신경내분비 종양, 인두 암, 뇌하수체 종양, 전립선암, 직장암, 신장 세포 암, 망막모세포종, 피부암, 소세포 폐암, 소장 암, 편평상피 목 암, T-세포 림프종, 고환암, 흉선종, 갑상선암, 자궁암, 질암, 및 혈관 종양을 포함하지만 (이에 국한되지 않는) 임의의 신생물 유형에 대해 수행될 수 있다.
일부 구현예에서, 진단 스캔은 암의 조기 검출을 제공하기 위해 이용된다. 일부 구현예에서, 진단 스캔은 I기, II기 또는 III기 암을 갖는 개체에서 암을 검출할 수 있다. 일부 구현예에서, 진단 스캔을 사용하여 암 치료 후 개체에서 잔류 암을 검출한다.
암 진단 및 치료
일부 구현예는 개체의 무세포 핵산에 대한 진단 스캔을 수행한 다음, 암을 나타내는 스캔 결과에 기초하여 추가 임상 절차를 수행하고/하거나 개체를 치료하는 것에 관한 것이다.
일부 구현예에서, 급성 림프모구성 백혈병 (ALL), 급성 골수성 백혈병 (AML), 항문암, 성상세포종, 기저 세포 암종, 담도암, 방광암, 유방암, 자궁경부암, 만성 림프구성 백혈병 (CLL) 만성 골수형성 백혈병 (CML), 만성 골수증식성 신생물, 결장직장암, 자궁내막 암, 뇌실막세포종, 식도암, 비강신경교세포종, 유잉 육종, 나팔관 암, 담낭암, 위암, 위장 유암종, 모발 세포 백혈병, 간세포 암, 호지킨 림프종, 하인두 암, 카포시 육종, 신장암, 랑게르한스 세포 조직구증, 후두 암, 백혈병, 간암, 폐암, 림프종, 흑색종, 머켈 세포 암, 중피종, 입 암, 신경교세포종, 비-호지킨 림프종, 비-소세포 폐암, 골육종, 난소암, 췌장암, 췌장 신경내분비 종양, 인두 암, 뇌하수체 종양, 전립선암, 직장암, 신장 세포 암, 망막모세포종, 피부암, 소세포 폐암, 소장 암, 편평상피 목 암, T-세포 림프종, 고환암, 흉선종, 갑상선암, 자궁암, 질암, 및 혈관 종양을 포함하지만 (이에 국한되지 않는) 수많은 유형의 신생물이 검출될 수 있다.
일부 구현예에서, 일단 신생물 성장의 진단이 표시되면, 신체 검사, 의료 영상, 유방 조영술, 내시경, 대변 샘플링, pap 테스트, 알파-태아단백 혈액 검사, CA-125 테스트, 전립선-특이적 항원 (PSA) 테스트, 생검 추출, 골수 흡인, 및 종양 마커 검출 테스트를 포함하지만 (이에 국한되지 않는) 일부 후속 진단 절차가 수행될 수 있다. 의료 영상에는 X-선, 자기 공명 영상 (MRI), 컴퓨터 단층촬영 (CT), 초음파, 및 양전자 방출 단층촬영 (PET)이 포함되지만 이에 국한되지 않는다. 내시경검사에는 기관지경검사, 결장경검사, 질경검사, 방광경검사, 식도카피, 위경검사, 복강경검사, 신경경검사, 직장경검사, 및 S자형 내시경검사이 포함되지만 이에 국한되지는 않는다.
일부 구현예에서, 신생물 성장의 진단이 표시되면, 수술, 화학요법, 방사선 요법, 면역요법, 표적 요법, 호르몬 요법, 줄기 세포 이식, 및 수혈을 포함하지만 (이에 국한되지 않는) 일부 치료가 수행될 수 있다. 일부 구현예에서, 알킬화제, 백금 제제, 탁산, 빈카 제제, 항-에스트로겐 약물, 아로마타제 억제제, 난소 억제 제제, 내분비/호르몬제, 비스포포네이트 요법제 및 표적화 생물학적 요법제를 포함하지만 (이에 국한되지 않는) 항암제 및/또는 화학요법제가 투여된다. 약물은 사이클로포스파미드, 플루오로우라실 (또는 5-플루오로우라실 또는 5-FU), 메토트렉세이트, 티오테파, 카보플라틴, 시스플라틴, 탁산, 파클리탁셀, 단백질 결합 파클리탁셀, 도세탁셀, 비노렐빈, 타목시펜, 랄록시펜, 토레미펜, 풀베스트란트, 젬시타빈, 이리노테칸, 익사베필론, 메모졸미드, 포토테칸, 빈크리스틴, 빈블라스틴, 에리불린, 뮤타마이신, 카페시타빈, 카페시타빈, 아나스트로졸, 엑세메스탄, 레트로졸, 류프롤라이드, 아바렐릭스, 부세를린, 고세렐린, 메게스트롤 아세테이트, 리센드로네이트, 파미드로네이트, 이반드로네이트, 알렌드로네이트, 졸레드로네이트, 타이커브, 다우노루비신, 독소루비신, 에피루비신, 이다루비신, 발루비신 미톡산트론, 베바시주맙, 세툭시맙, 이필리무맙, 아도-트라스투주맙 엠탄신, 아파티닙, 알데스류킨, 알렉티닙, 알렘투주맙, 아테졸리주맙, 아벨루맙, 악스티닙, 벨리무맙, 벨리노스타트, 베바시주맙, 블리나투모맙, 보르테조밉, 보수티닙, 브렌툭시맙 베도틴, 브리아티닙, 카보잔티닙, 카나키누맙, 카르필조밉, 세리티닙, 세툭시맙, 코비메트닙, 크리조티닙, 다브라페닙, 다라투무맙, 다사티닙, 데노수맙, 디누툭시맙, 더발루맙, 엘로투주맙, 에나시데닙, 에를로티닙, 에버롤리무스, 게피티닙, 이브리투모맙 티욱세탄, 이브루티닙, 이델랄리십, 이마티닙, 이필리무맙, 익사조밉, 라파티닙, 렌바티닙, 미도스타우린, 네시투무맙, 네라티닙, 닐로티닙, 니라파립, 니볼루맙, 오비누투주맙, 오파투무맙, 올라파립, 올랄라투맙, 오시머티닙, 팔보시클립, 파니투무맙, 파노비노스타트, 펨브롤리주맙, 페르투주맙, 포나티닙, 라무시루맙, 레오라페닙, 리보시클립, 리툭시맙, 로미뎁신, 루카파립, 룩솔리티닙, 실툭시맙, 시푸류셀-T, 소니데깁, 소라페닙, 템시롤리무스, 토실리주맙, 토파시티닙, 토시투모맙, 트라메티닙, 트라스투주맙, 반데타닙, 베무라페닙, 베네토클락스, 비스모데깁, 보리노스타트, 및 ziv-아플리베르셉트를 포함하지만 이에 국한되지 않는다. 일부 구현예에서, 개체는 본원에 기재된 단일 약물 또는 약물의 조합으로 치료될 수 있다. 일반적인 치료 조합은 사이클로포스파미드, 메토트렉세이트 및 5-플루오로우라실(CMF)이다.
많은 구현예는 개체의 암 치료 동안 수행되는 진단 또는 동반 진단 스캔에 관한 것이다. 치료 중 진단 스캔을 수행할 때 신생물 성장을 치료하는 제제의 능력을 모니터링할 수 있다. 대부분의 항암 치료제는 신생물 세포의 사멸 및 괴사를 초래하며, 이는 이들 세포에서 테스트되는 샘플로 더 많은 양의 핵산을 방출할 수 있다. 따라서, 순환 종양 핵산의 수준은 치료 동안 증가할 수 있고 신생물 세포의 수가 감소함에 따라 감소하기 시작할 수 있기 때문에 시간이 지남에 따라 모니터링될 수 있다. 일부 구현예에서, 치료는 신생물 세포에 대한 치료 효과에 기초하여 조정된다. 예를 들어, 치료가 신생물 세포에 대한 세포독성이 아닌 경우, 투여량을 증가시키거나 세포독성이 더 높은 제제를 투여할 수 있다. 대안으로, 신생물 세포의 세포독성은 양호하나 원치 않는 부작용이 많은 경우에는 투여량을 줄이거나 부작용이 적은 제제를 투여할 수 있다.
다양한 구현예는 또한 잔류 질환 및/또는 신생물 성장의 재발을 검출하기 위해 개체의 치료 후에 수행된 진단 스캔에 관한 것이다. 진단 스캔이 신생물 성장의 잔류 및/또는 재발을 나타내는 경우, 추가 진단 테스트 및/또는 치료가 본원에 기재된 대로 수행될 수 있다. 신생물 성장 및/또는 개체가 재발하기 쉬운 경우, 진단 스캔을 자주 수행하여 잠재적인 재발을 모니터링할 수 있다.
실시예
본 개시의 구현예는 본원에 제공된 여러 실시예를 통해 더 잘 이해될 수 있다. 무세포 핵산 시퀀싱 툴 및 방법의 많은 예시적인 결과가 기술된다. 또한, 특히 비-소세포 폐암(NLCLC)에 대한 진단의 설명이 제공된다.
실시예 1: 비침습성 조기 폐암 검출을 위한 게놈 특징들의 통합
폐암은 암 사망의 주요 원인이며, 대부분의 환자는 일반적으로 치료할 수 없는 전이성 질환으로 진단된다. 그럼에도 불구하고, 국소 질환(I기 내지 III기)을 갖는 환자의 상당한 부분이 치유될 수 있으며, 이는 조기 검출의 유용성을 예시한다. 실제로, 저선량 컴퓨터 단층촬영(LDCT) 스캔을 통한 고위험 성인의 스크리닝은 폐암-관련 사망률을 감소시키며, 결과적으로 고위험 집단에 대해 연례 방사선학적 스크리닝이 권장될 수 있다. 이의 효능에도 불구하고, LDCT 스크리닝의 임상적 유용성은 높은 허위 발견률(>90%) 및 낮은 순응도로 인해 복잡하며, 현재 미국에서 적격한 개인의 5% 미만이 스크리닝을 받고 있다. 자격을 갖춘 방사선 센터에 대한 제한된 접근 및 환자 불편을 포함하여 다양한 요인이 이러한 낮은 채택률에 기여한다. 따라서, 고위험 개인에서 초기 단계의 절제 가능한 폐암의 조기 검출을 개선하기 위한 새로운 접근법에 대한 충족되지 않은 요구가 존재한다.
cfDNA의 분석에 기반하여 종양-유래 체세포 변형을 검출할 수 있는 비침습적 혈액 시험은 혈액 시편을 얻는 것이 상대적으로 용이하기 때문에 암 스크리닝 적용을 위한 매력적인 후보이다. 그러나, 현재 임상에서 사용되는 cfDNA 검정은 ctDNA 수준이 초기 단계 종양을 갖는 환자보다 유의하게 더 높은 진행성 질환을 갖는 환자의 비침습적 유전자형 분석을 위한 것이다. 별도로, 국소 비-소세포 폐암(NSCLC) 환자에서 ctDNA를 조사하는 일부 연구는 종양 조직을 먼저 유전자형 분석해야 하는 종양-정보에 기반한 접근법을 사용할 수 있다. 이러한 접근법은 민감도를 최대화하지만, 스크리닝에는 유용하지 않을 수 있다. 마지막으로, 비-악성 조혈 전구체에서 체세포 변경의 획득을 포함하고 돌연변이 무세포 DNA 단편을 생성하는 클론 조혈(CH)은 조기 암 검출을 위한 ctDNA의 사용을 복잡하게 한다.
이러한 실시예에는 초기 단계 암에서 ctDNA의 검출 또는 치료 후 잔여 암의 검출을 용이하게 하는 딥 시퀀싱(CAPP-Seq)에 의한 암 개인화된 프로파일링(Cancer Personalized Profiling)에 대한 방법론적 향상이 기술되어 있다(CAPP-Seq에 대해 문헌[A. M. Newman Nat. Biotechnol. 34, 547-555 (2016)] 참조, 이러한 문헌은 본원에 참조로서 포함됨). 개선된 방법을 초기 단계 NSCLC를 갖는 환자로부터의 혈장 및 종양 샘플에 적용하였고, 초기에는 종양이 검출 가능한 ctDNA를 방출하는 환자의 분율을 결정하기 위해 종양-정보 기반 전략을 사용하였다. 본 방법은 폐암 환자 및 폐암 고위험 대조군으로부터의 혈장 샘플을 스크리닝하기 위해 종양-나이브(tumor-naive) 접근법을 사용한 조기 검출로 확장되었다. 둘 사례 모두 및 대조군으로부터의 cfDNA는 순환하는 체세포 변이체를 보유하는 것으로 밝혀졌으며, 이들의 대부분은 CH에 기인할 수 있다. 중요하게는, CH 변이체를 종양-유래 돌연변이와 구별하는 돌연변이 특징(mutational signature) 및 단편 길이 프로파일을 포함하는, 주요 분자 특징을 동정하였다. 마지막으로, 이러한 발견은 비침습성 조기 폐암 검출을 위한 혈장 중 폐암 가능성(폐-CLiP) 검정을 개발하고 독립적으로 검증하는 데 활용되었다.
매우 희귀한 순환 변이체의 검출 개선
국소 폐암에서 ctDNA 수준이 낮으며, I기 질환을 갖는 환자의 대부분은 약 0.1% 미만의 순환 변이 대립유전자 빈도(VAF) 수준을 갖는 것으로 입증되었다. 이러한 낮은 대립유전자 수준의 검출을 위한 민감도를 개선하기 위해, 고유하고 성공적으로 시퀀싱된 cfDNA 분자의 수율을 최대화하는 동시에 이들의 관련 시퀀싱 오류 프로파일을 최소화하기 위한 몇 가지 방법론이 개발되고 시험되었다(도 7).
샘플 교차 오염을 방지하는 이중-인덱싱된 오류-정정 샘플 바코드를 독특한 cfDNA 분자의 보다 정확한 열거를 가능하게 하는 오류-정정 이중 분자 바코드(예를 들어, 고유 식별자 또는 'UID')와 조합함으로써 라이브러리 제조를 위한 새로운 어댑터 스키마(adapter schema)가 개발되었다. 또한, UID와 샘플 바코드의 디커플링은 애플리케이션에 기반한 UID 다양성 및 다중화 용량의 독립적인 맞춤을 가능하게 한다(도 2 및 도 3).
이러한 맞춤형 어댑터를 사용하여, 본 발명자들은 고유한 cfDNA 분자의 가장 큰 손실과 관련된 주요 작업을 확인하고자 하였다. 이렇게 하기 위해, cfDNA 단편의 개별 가닥을 라이브러리 제조의 시작부터 CAPP-Seq 분자 생물학 워크플로우의 인 실리코(in silico) 시뮬레이션 내에서 이들의 궁극적인 시퀀싱까지 추적하였다(도 8 및 도 9). 시뮬레이션은 가장 큰 손실이 하이브리드 포획 작업에서 발생하고 표적 농축을 위한 하이브리드화 반응으로의 단지 작은 분획의 각각의 증폭된 시퀀싱 라이브러리의 통상적인 투입으로 인한 것이라고 예측하였다. 이러한 효과는 PCR 후 원래 분자의 불균등한 표현으로 인해 발생한다. 많은 하이브리드 캡처 시퀀싱 방법은 캡처 작업에서 샘플을 다중화하고(예를 들어, 단일 반응에서 많은 샘플을 함께 포획함), 이는 포획되는 각 라이브러리의 총량의 작은 부분을 초래할 수 있다. 예를 들어, 하나가 2,000 ng의 각 시퀀싱 라이브러리를 가지고 20개의 샘플을 단일 1,000 ng 포획 반응으로 다중화하는 경우, 각각의 개별 시퀀싱 라이브러리의 단지 2.5%(50 ng)만이 포획 반응에 투입된다. 반응에 투입되는 라이브러리의 분획을 증가시키면 분자 회수가 개선된다. 예를 들어, 라이브러리 입력의 분획을 8.3%에서 100%로 증가시키면 총 고유 분자 및 두 가닥 모두가 시퀀싱된 소싱된(sourced) cfDNA 듀플렉스의 분획 둘 모두의 회수가 유의하게 개선되었다(도 10 내지 도 12). 특히, 시퀀싱 라이브러리의 입력 백분율을 8.3%에서 25%로 증가시키면 독특한 분자 회수에서 가능한 대부분의 이득을 달성하며, 50% 이상을 입력하면 두 가닥 모두가 시퀀싱된 원래 cfDNA 듀플렉스의 분율이 개선되었다. 또한, 포획 베이트(capture bait)(예를 들어, 관심 게놈 영역을 풍부하게 하기 위해 사용되는 비오티닐화된 올리고뉴클레오타이드)에 대한 시퀀싱 라이브러리 입력의 비율은 또한 포획 반응 후 분자 회수에 영향을 미친다.
CAPP-Seq의 기술적 오류 프로파일을 추가로 개선하기 위해 추가로 모색되었다. CAPP-Seq 및 다른 하이브리드 포획-기반 시퀀싱 방법에서 관찰되는 가장 일반적인 시퀀싱 아티팩트(artifact)는 하이브리드 포획 반응 동안 발생하고 8-옥소구아닌의 생성을 초래하는 산화 손상으로 인해 발생하는 G>T 전환이다(문헌[A. M. Newman, et al., Nat. Biotechnol. (2016), 상기 인용됨; 및 M. Costelleo, et al., Nucleic Acids Res. 41, 1-12 (2013)] 참조, 이러한 문헌은 본원에 참고로 포함됨). 흥미롭게도, G>T 전환은 또한 폐암에서 가장 흔한 염기 치환이며, 이는 담배 연기에서 발암 물질에 노출된 결과로 생체내에서 발생한다(도 4a 및 도 4b). 따라서, 하이브리드 포획 동안 시험관내 산화로부터의 G>T 전환은 진정한 폐암-유래 돌연변이의 검출을 모방하고 교란시킬 수 있다. 반응성 산소 종(ROS)의 스캐빈저의 첨가는 산화 손상-유래 G>T 아티팩트를 감소시킬 것으로 가정되었다(도 4a 및 도 4b). 여러 항산화제 및 자유-라디칼 스캐빈저를 시험한 후, 설핀산인 하이포타우린이 유리한 후보로 확인되었다. 하이포타우린은 시스테인-대-타우린 경로의 자연 발생 중간체이고, ROS에 대한 비효소적 보호 효과를 갖는다. 하이포타우린이 있거나 없는 12명의 건강한 성인으로부터의 cfDNA 샘플의 오류 프로파일을 비교할 때, ROS 스캐빈저로 포획된 샘플은 유의하게 더 낮은 배경 오류율 및 더 적은 G>T 오류를 갖는 것으로 밝혀졌다(윌콕슨 순위-합 검정 P < 0.001, 도 13). G>T 오류(모든 오류의 16% 대 57%, 윌콕슨 순위-합 검정, P < 1×10-8) 및 배경 오류율(약 50% 감소, 윌콕슨 순위-합 검정, P < 0.0001)의 유사한 상대적 감소는 하이포타우린 없이 포획된 69개의 대조군 cfDNA 샘플과 비교하여 ROS 스캐빈저로 포획된 104개의 건강한 대조군 cfDNA 샘플에서 관찰되었다(도 14).
종양-정보에 기반한 ctDNA 검출
NSCLC 스크리닝을 위한 비침습적 검정을 개발하기 위한 단계로서, 종양-정보에 기반한 접근법을 사용하여 초기 단계 종양을 갖는 환자에서 ctDNA 검출율을 결정하였다. 이러한 전략은 CAPP-Seq-기반 종양-나이브 스크리닝 접근법에 대한 최대 민감도를 확립한다(도 15). 종양 조직, 치료 전 혈장 cfDNA, 및 백혈구 DNA를, 355 킬로염기(kb) CAPP-Seq 패널을 사용하여 폐암에서 반복적으로 돌연변이된 255개 유전자의 표적화된 딥 시퀀싱(deep sequencing)을 통해 I기 내지 III기 NSCLC를 갖는 85명의 환자로부터 유전자형을 분석하였다(도 16, 표 1). '집단-기반' 접근법(예를 들어, 환자-특이적 분자 생물학 맞춤화를 필요로 하지 않음)인 이러한 패널을 사용하여, 종양 시편에서 환자 당 4개의 돌연변이의 중앙값이 확인되었으며(범위 0 내지 35), ctDNA가 95% 특이성으로 NSCLC 환자의 49%(42/85)에서 검출되었다. 검출 민감도는 모니터링된 종양 돌연변이의 수가 증가함에 따라 유의하게 더 높았다(도 17). 더 많은 돌연변이를 추적하면 전체 ctDNA 검출율이 개선된다는 관찰을 경험적으로 시험하기 위해, 집단-기반 폐암 패널을 사용하여 ctDNA가 초기에 검출될 수 없었던 17명의 환자에 대한 종양 엑솜 시퀀싱 데이터에 기반하여 맞춤형 포획 패널을 설계하였다. 이러한 맞춤화된 접근법은 모니터링에 이용 가능한 돌연변이의 수를 중앙값 4에서 68로 증가시켰다(페어드 양면 t-검정, P < 0.01). 이러한 맞춤형 검정을 사용하여, ctDNA는 106개 분자에서 0.0019%의 중간 VAF 및 1.5만큼 낮은 수준으로 17명 중 11명(65%)의 환자에서 검출되었다(도 18).
집단-기반(n = 68) 및 맞춤형(n = 17) 종양-정보 기반 전략의 결과를 조합하여, ctDNA는 I, II, 및 III 질환을 갖는 환자의 각각 52%, 67% 및 88%를 포함하여 초기 단계 NSCLC를 갖는 대부분의 환자(53/85 또는 62%)에서 검출되었다(도 19). 종양-정보 기반 접근법에서, 환자-특이적 분석 검출 한계(LOD)는 추적된 돌연변이의 수 및 시퀀싱된 cfDNA 분자의 수로부터 결정될 수 있다. LOD는 ctDNA가 검출될 수 없는 환자에서 유의하게 열등하였으며(윌콕슨 순위-합 시험, P < 0.001, 도 19), 이는 검출 가능한 ctDNA의 전체 비율이 돌연변이의 수 또는 독특한 분자 깊이를 증가시킴으로써 개선될 수 있음을 나타낸다. 실제로, 적어도 0.01%의 LOD가 달성 가능한 환자(n = 43)만을 고려할 때, 민감도는 I, II, 및 III기 종양에 대해 각각 73%, 82%, 및 100%까지 증가하였다(도 19). 놀랍게도, I, II, 및 III기 환자의 48%, 38% 및 7%는 각각 0.01% 미만의 ctDNA 수준을 가졌다(도 19). 따라서, 국소화된 NSCLC의 대부분은 ctDNA를 방출하지만, 많은 I기 내지 III기 경우에 대한 ctDNA 수준은 비교적 낮다.
종양-나이브 스크리닝으로 알아낼 수 있는 ctDNA 분자의 특성을 확인하였다. 모든 종양 세포에 균일하게 존재하는 것으로 추정되는 그러한 변이체로서 정의된 클론 종양 돌연변이는 혈장에서 더 빈번하게 검출되었고 이들의 서브클론 대응물보다 더 높은 대립유전자 빈도에서 관찰되었다(피셔 정확 검정 P < 0.05, 윌콕슨 순위-합 검정 P < 0.001, 도 20).
cfDNA 단편의 크기 분포는 또한 종양-유래 cfDNA 분자(예를 들어, ctDNA)를 농축시키는 잠재적 수단으로서 고려되었다. 매칭된 종양 샘플에 존재하는 돌연변이를 보유하는 cfDNA 분자는 이들의 비-돌연변이 대응물보다 유의하게 짧은 것으로 밝혀졌다(윌콕슨 순위-합 시험 P < 1×10-8, 도 21). 돌연변이 cfDNA 분자는 서브-모노뉴클레오솜 단편(<160 bp) 및 서브-디솜 단편(230 내지 310 bp, 도 21)에서 농축되었다. <160 bp 및 230 내지 310 bp 사이의 분자만을 고려할 때, 종양-유래 돌연변이의 VAF에서 2.17배 중앙 농축이 관찰되었다(범위 0 내지 9.2, 도 21). 비돌연변이 분자의 24.7%와 비교하여 돌연변이 분자의 53.6%가 이러한 영역에 속하는 것으로 밝혀졌는데(도 21), 이는 이러한 윈도우에서 분자의 크기 선택이 유용할 수 있음을 나타낸다. 그러나, 대부분의 돌연변이(74%, 271/366)가 이러한 크기 윈도우에서 풍부하였지만, VAF는 돌연변이의 26%(95/366)에 대해 크기 선택 후 감소하였으며, 이러한 돌연변이의 78%(75/95)는 감지할 수 없다(도 22). 또한, 크기 선택에 의한 ctDNA 농축은 더 높은 사전-농축 VAF를 갖는 변이체를 불균형적으로 선호하였다(도 22). 흥미롭게도, 크기 선택은 맞춤형 패널을 통해 추적된 많은 돌연변이를 갖는 환자에서 ctDNA 검출의 전반적인 민감도를 개선한 반면, 임의의 짧은 cfDNA 분자에 나타내지 않은 종양 돌연변이의 손실로 인해 본 발명의 집단-기반 폐암 패널로 모니터링된 환자에서 민감도가 저하되었다(도 23). 이는 NSCLC-유래된 cfDNA 분자가 비-돌연변이 cfDNA 분자보다 짧은 경향이 있지만, 많은 돌연변이가 고려되지 않는 한 크기 선택이 낮은 VAF에서 ctDNA 검출을 방해할 수 있음을 나타낸다.
실제 측정된 ctDNA 단편 크기는 방법 시퀀싱 제조 및/또는 분석 데이터에 의존할 수 있다는 점은 주목할 가치가 있다. 본원에(예를 들어, 이러한 실시예 내에서) 기술된 방법을 이용하여, 서브-모노뉴클레오솜 ctDNA 단편은 160 bp 미만인 것으로 확인되었으며, 서브-디솜(sub-disomal) ctDNA 단편은 230 bp 내지 310 bp인 것으로 확인되었다(도 21 참조). 일반적으로, ctDNA 단편은 비-종양성 cfDNA 단편보다 비교적 짧은 크기가 풍부하며, 본원에 명시된 영역은 ctDNA가 풍부한 유일한 크기 윈도우로서 해석되어서는 안 된다. 예를 들어, 150 bp 미만의 분자는 또한 ctDNA가 풍부하다. 추가적으로, 분석 방법의 가변성은 ctDNA가 풍부한 것으로 밝혀진 특정 영역에 영향을 미칠 수 있다. ctDNA가 풍부한 것으로 밝혀진 cfDNA 분자의 특정 크기에 영향을 미칠 수 있는 요인은 1) 사용된 맵핑 알고리즘, 2) PCR 복제물이 데이터로부터 제거되는 방식, 3) 어댑터 리드-스루(adapter read-through)에 의해 시퀀싱 리드의 3' 단부로부터 트리밍되는 방식, 4) 시퀀싱 데이터의 양이 고려됨(예를 들어, 두 시퀀싱 리드 모두가 적절한 쌍으로 맵핑되는 cfDNA 분자만을 고려함), 5) 맵핑 품질 또는 시퀀싱 데이터와 관련된 다른 품질 메트릭은 고려되는 cfDNA 분자를 결정하는 데 사용될 수 있음을 포함한다(그러나, 이로 제한되지 않음).
ctDNA 검출의 임상 상관관계
대부분의 초기 단계 NSCLC 환자에서 검출 가능한 ctDNA를 관찰한 후, 다음으로 이들 환자에서 ctDNA 수준의 임상적 및 병리학적 상관관계를 확인하는 것이 추구되었다. ctDNA 수준은 진행 단계와 강하게 관련되는 것으로 밝혀졌으며, I기에서 중간 VAF는 0.015%, II기에서 0.14%, 및 III기 질환에서 0.52%이다(윌콕슨 순위-합 시험, P < 0.0001, 도 24). [18F] FDG PET/CT(스피어만 r = 0.40, P = 0.004, 도 25 및 26)에 의해 측정된 바와 같이, 및 비-선암종 조직학(윌콕슨 순위 합계 시험, P < 0.01, 도 27)과 관련하여, ctDNA 수준과 대사 종양 부피(MTV) 사이의 유의한 연관성이 발견되었다. 단계, MTV, 및 비-선암종 조직학은 다변수 분석에서 ctDNA 부하와 각각 독립적으로 관련이 있었으며(도 27), 이는 ctDNA 수준이 다수의 생물학적 파라미터의 함수임을 나타낸다.
폐 선암종은 순수 결정성 간유리 음영(pure ground glass opacity; GGO)에서 고형 병변에 이르는 방사선학적 외관의 차이와 관련된 전-침습성에서 진성 침습성 상피 증식(frankly invasive epithelial proliferation)에 이르기까지의 스펙트럼에 존재한다. GGO-우세 폐암이 성장이 느리고 종종 임상적으로 무통성이기 때문에, 이들은 고형 종양보다 ctDNA를 덜 배출될 것으로 가정되었다. 주요 결정성-간유리 성분(≥25% GGO)을 갖는 환자 중에서, ctDNA는 < 25% GGO를 갖는 환자에서보다 덜 빈번하고 더 낮은 농도로 검출되었다(피셔 정확 검정 P < 0.05, 윌콕슨 순위-합 시험 P < 0.05, 도 28). 유사하게, ctDNA 수준이 선암종 조직학적 서브타입들에 걸쳐 비교될 때, 고형 및 유두 종양을 갖는 환자는 소엽(acinar) 또는 배엽(lepidic) 종양을 갖는 환자보다 더 높은 ctDNA 수준을 가졌으나, 이러한 관계는 통계적 유의성에 도달하지 않았다(도 29). 별도로, ctDNA는 종양이 괴사의 증거가 있거나 중심 기도 또는 동맥에 접촉된 환자에서 더 빈번하게 검출 가능하였다(도 30). 따라서, NSCLC의 해부학적 및 방사선학적 특성은 ctDNA 배출과 관련이 있고, 비침습적 분석에 가장 적합한 환자를 식별하는 데 도움이 될 수 있다.
질환 공격성과 관련된 것으로 알려진 ctDNA 배출과 영상화 파라미터 사이의 이러한 상관관계를 고려할 때, 치료 전 ctDNA 수준과 임상 결과의 연관성을 조사하였다. 중앙값 ctDNA 수준보다 높은 환자는 재발 없는 비율(위험비 = 3.88, P = 0.0009, 도 31) 및 무재발 생존(위험비 = 3.51, P = 0.001, 도 32) 둘 모두에서 유의하게 낮은 비율을 가졌다. 치료 전 ctDNA 수준은 I기 질환을 갖는 환자만을 고려할 때 유사한 예후를 나타내었다(n = 48, 도 33 및 도 34). 중요하게는, MTV 및 단계 둘 모두를 포함하는 다변수 분석에서, ctDNA만이 결과와 유의하게 관련이 있었다(도 35). 원격 전이가 국소 NSCLC의 치료 후 암-관련 사망률의 주요 원인이기 때문에, 치료 전 ctDNA 수준과 미래 전이의 연관성을 또한 조사하였다. 더 높은 ctDNA 농도는 단변수 및 다변수 분석 둘 모두에서 원격 전이로부터의 열등한 자유도와 유의하게 관련이 있었다(도 35 내지 도 37). 따라서, 치료 전 ctDNA 농도는 미세전이 질환을 보유하는 환자를 식별할 수 있는 국소 NSCLC에서 예후 인자이다(도 38).
cfDNA 체세포 변이체의 공급원
클론 조혈(CH)은 비-악성 조혈 전구체의 체세포 변화로부터 발생하고, 노화와 관련된 일반적인 생물학적 현상이다. 조혈 세포는 cfDNA의 주요 공급원이고 cfDNA 풀에 대한 체세포 CH 변이체에 기여하며, CH는 CH-유래 돌연변이를 이들의 종양-유래 대응물과 구별하기 위한 잠재적인 접근법을 확인하기 위해 국소화된 NSCLC를 갖는 환자 및 비-암 대조군에서 특성화되었다.
cfDNA에서 원래 발견된 변이체를 조사하여 이들이 NSCLC 환자(n = 104) 및 대조군 대상체(n = 98)의 매칭되는 백혈구(WBC) DNA에서도 검출되었는 지의 여부를 결정하였다. 2개의 개별 대조군을 사용하였다: (1) 연간 LDCT 스크리닝을 받는 연령, 성별 및 흡연 상태가 매칭된 성인("위험 매칭된 대조군"), 및 (2) 매칭되지 않은 성인 혈액 공여자("저-위험 대조군", 도 16). 평균적으로, NSCLC 환자는 위험-매칭된 대조군 및 저-위험 대조군 둘 모두보다 cfDNA에서 유의하게 더 많은 비-동일 돌연변이를 보유하였다(윌콕슨 순위-합 검정, P < 0.01 & P < 0.0001, 도 39). 유사하게, 폐암 환자로부터의 cfDNA는 두 대조군 모두보다 매칭된 백혈구(예를 들어, "WBC-")에 없는 더 많은 변이체를 보유하였다. 흥미롭게도, NSCLC 환자와 유사하게, 위험-매칭된 대조군은 저-위험 대조군보다 더 많은 총 cfDNA 돌연변이 및 더 많은 CH 변이체(예를 들어, "WBC+") 둘 모두를 갖는다(윌콕슨 순위-합 시험, P < 0.0001). 이러한 관찰은 cfDNA-기반 조기 검출 연구에서 위험-매칭 사례 및 대조군의 중요성을 강조한다. 현저하게, cfDNA에서 검출된 변이체의 대부분은 폐암 환자(58%), 위험-매칭된 대조군(93%), 및 저-위험 대조군(77%)에서 CH에 기인할 수 있었다. 또한, cfDNA에서 가장 높은 VAF에서 관찰된 돌연변이는 또한 환자의 76% 및 대조군의 91%에서 매칭되는 WBC에 존재하였다(도 40). WBC+ cfDNA 돌연변이의 48%는 CH와 기본적으로 관련된 12개의 가장 반복적으로 돌연변이된 유전자 외에 다른 유전자에 있었다(도 41). 또한, WBC+ cfDNA 돌연변이의 94.8%는 사적이었는데(도 41), 이는 cfDNA 돌연변이가 CH-유래되었는 지의 여부를 신뢰성 있게 결정하기 위해 매칭된 백혈구의 유전자형 분석하는 것의 중요성을 강조하는 것이다.
WBC 또는 cfDNA로부터 직접적으로 돌연변이를 식별하는 지의 여부에 관계없이, 유사한 비율의 CH 변이체가 NSCLC 환자 및 대조군에서 관찰되었다(도 42). 세포 및 무세포 구획 둘 모두에서 관찰된 돌연변이의 대립유전자 분획은 유의하게 상관되었다(피어슨 r = 0.83, P < 1×10-8, 도 42). cfDNA 또는 WBC에서 원래 식별된 1,017개의 돌연변이 중, 57%는 두 구획 모두에서 발견된 반면, 25%는 cfDNA에서만 관찰되었으며, 18%는 WBC에서만 관찰되었다. 중요하게는, WBC+ cfDNA 변이체의 73%는 백혈구에서 1% 미만의 VAF를 가지며, 이는 cfDNA 돌연변이가 CH 유래인 지의 여부를 결정하기 위해 백혈구 DNA 및 cfDNA를 동등한 깊이로 시퀀싱하는 것의 중요성을 강조한다.
혈액 신생물이 없고 WBC DNA에서 VAF ≥ 2%에서 발생하는 개체에서 백혈병과 관련된 유전자에서 CH 돌연변이의 검출은 일반적으로 CHIP(clonal hematopoiesis of indeterminate potential)로 지칭된다. 하나 이상의 이러한 돌연변이는 폐암 사례의 13.5%(14/104), 위험 매칭된 대조군의 7.1%(4/56)의 WBC에서 관찰되었지만, 저위험 대조군(0/42)에서 관찰되지 않았다. 예상되는 바와 같이, CHIP를 갖는 개체는 CHIP의 증거가 없는 개체보다 유의하게 더 나이가 많았다(윌콕슨 순위-합 검정, P = 0.011). 흥미롭게도, 대부분의 CH 변이체가 본 발명의 코호트에 걸쳐 사적이고 낮은 대립유전자 분획을 갖는 경향과 달리, ≥ 2% VAF에서 발생하는 WBC의 변이체의 77%(20/26)는 정규 CH 유전자에 영향을 미쳤으며, DNMT3A, TET2TP53에 가장 일반적으로 영향을 미쳤다(도 43).
CHIP 발생률은 연령에 따라 증가하는 것으로 알려져 있기 때문에, 연령과 관련된 WBC+ cfDNA 돌연변이의 수를 조사하였다. WBC- cfDNA 돌연변이가 아닌 WBC+ cfDNA 돌연변이의 수는 연령과 유의하게 상관관계가 있었다(피어슨 r = 0.43, P < 1×10-8, 도 44 및 도 45). 이러한 돌연변이가 CH 이벤트를 구성한다는 개념과 일치하여, WBC+ 돌연변이를 가장 빈번하게 함유하는 유전자는 DNMT3A, TET2, TP53, SF3B1PPM1D를 포함하는 정규 CH 유전자였다(도 46).
WBC+ cfDNA 돌연변이의 시간적 변화를 조사하기 위해, 2개의 시점에 혈장 샘플을 추출한 코호트의 서브세트를 고려하였다(8명의 NSCLC 환자, 채혈 사이의 중간 간격 = 12일; 위험-매칭된 대조군 5명, 중간 간격 = 19개월). 첫 번째 혈액 수집 시점에서 검출된 WBC+ cfDNA 돌연변이 중에서, 73%(41/56)는 두 번째 시점에서도 검출되었고, 높은 상관관계가 있는 VAF를 가졌다(환자의 경우 피어슨 r = 0.99, P < 0.0001; 대조군의 경우 피어슨 r = 0.74, P = 0.02, 도 47). 유사하게, 모든 환자 및 대조군에 걸쳐 모든 WBC+ cfDNA 돌연변이를 고려할 때, 정규 CH 유전자는 동의 변이체보다 더 높은 비율의 비-동의 돌연변이를 보유하였으며(도 46), 이는 양성 선택 하에 있는 이들 돌연변이와 일치한다. 이러한 관찰은 시간 경과에 따라 WBC에서 이들의 대립유전자 수준을 연구할 때 CH 클론의 상대적 안정성과 일치한다.
이들을 종양-유래 돌연변이와 구별하는 데 유용할 수 있는 CH 돌연변이의 특성을 확인하기 위해, WBC+ 및 WBC- cfDNA 돌연변이의 돌연변이 특징뿐만 아니라 CH 및 폐암 문헌으로부터의 이전에 공개된 돌연변이 데이터세트를 비교하고 대조하였다. 사례 및 대조군에 걸쳐 cfDNA에서 검출된 WBC+ 돌연변이는 노화-관련 돌연변이 특징에 의해 지배되었다(특징 1, 도 48 및 도 49). 참고로, 담배 흡연과 관련이 있고 NSCLC 종양 게놈의 우세한 돌연변이 특징인 특징 4는 NSCLC 환자에서 WBC- cfDNA 돌연변이에서 관찰되었지만 WBC+ cfDNA 돌연변이에서는 관찰되지 않았고(P < 0.001), 흡연 이력이 있거나 없는 대조군 중 어느 한 구획에서 관찰되지 않았다(P < 0.001). 이는 상이한 발암성 제제에 대한 노출의 결과로서 DNA 병변의 별개의 패턴이 발생한다는 이전의 관찰과 일치하고, 매칭하는 WBC를 시퀀싱하는 것 외에도, cfDNA 변이체의 염기 치환 스펙트럼이 CH-유래 돌연변이와 암종-유래 돌연변이를 구별하는 데 유용할 수 있음을 나타낸다.
TP53은 인간 암에서 가장 빈번하게 돌연변이된 유전자이지만; TP53에서의 돌연변이는 또한 CH에서 흔히 볼 수 있다. 따라서, 암종-유래 돌연변이 및 CH-유래 TP53 돌연변이 사이의 구별은 cfDNA-기반 암 스크리닝 접근법에 대한 중요한 고려사항이다. 특히, 폐암 사례(40.6%; 32개 중 13개) 또는 모든 대조군(100%; 4개 중 4개, 피셔 정확 검정 P < 0.05, 도 46)을 고려하든지 간에, cfDNA에서 발견된 TP53 변이체의 많은 부분이 또한, WBC에서 검출 가능하다. WBC+ 및 WBC- cfDNA 돌연변이의 분포는 TP53 단백질에 걸쳐 유사하였으며, 두 부류의 돌연변이 모두는 주로 이의 DNA-결합 도메인에 영향을 미쳤다(도 50). 전체 특징 분석의 결과와 일치하게, WBC-TP53 cfDNA 돌연변이는 이들의 WBC+ 대응물보다 흡연 특징의 유의하게 더 강한 증거를 나타내었다(윌콕슨 순위-합 시험, P < 0.01, 도 51).
매칭된 WBC 또는 매칭된 종양 생검에 존재하는 변이체를 보유하는 cfDNA 분자의 단편 크기 분포를 조사하였다. WBC+ 돌연변이(예를 들어, "CH 돌연변이")를 보유하는 cfDNA 분자는 동일한 게놈 위치에 걸쳐 있는 비-돌연변이 cfDNA 분자와 거의 동일한 크기 분포를 나타내는 것으로 밝혀졌다(도 51). 대조적으로, 매칭된 종양 생검 시편에 존재하는 돌연변이(예를 들어, "종양-판정된 돌연변이")를 갖는 cfDNA 분자는 이동된 크기 분포를 나타내었으며, 종양-판정된 변이체는 유의하게 더 짧다(윌콕슨 순위-합 시험, P < 1×10-8, 도 51). 따라서, 본 발명자들의 종양-정보 분석(<160 bp 또는 230 내지 310 bp, 도 21)에서 ctDNA-풍부한 것으로 밝혀진 단편 크기에 대한 인 실리코 선택은 NSCLC 환자 또는 대조군의 cfDNA에서 WBC+ CH 변이체의 VAF를 증가시키지 않았다(환자 및 대조군에서 각각 0.94 및 0.91의 농축 중간값, 도 51). 대조적으로, 대조군이 아닌 NSCLC 환자에서 WBC-돌연변이의 VAF는 크기 선택이 유의하게 풍부하였다(윌콕슨 순위-합 검정 P < 0.001, 환자 및 대조군에서 각각 1.99 및 0.51의 농축 중간값). 이는 염기 치환의 유형 이외에, cfDNA 단편 크기가 또한 암종-유래된 돌연변이를 CH-유래된 돌연변이와 구별하는 데 유용할 수 있음을 나타낸다.
혈장에서 폐암 가능성을 추정하기 위한 방법
종양- 및 CH-유래 cfDNA 단편을 구별하는 특성을 확인하여, 혈장 중 폐암 가능성(폐-CLiP) 검정을 개발하였다. 종양 변이체에 대한 사전 지식을 사용하지 않고 혈장 샘플이 종양-유래된 cfDNA를 함유할 가능성을 추정하기 위해 확률론적 접근법을 이용하였다. 이러한 접근법은 혈장 cfDNA 및 매칭된 백혈구의 딥 시퀀싱을 포함하고, SNV 및 게놈-전체 카피 수 분석 둘 모두를 통합한다. 폐-CLiP 검정은 4개의 암 센터에서 폐암에 대한 연례 방사선학적 스크리닝을 받는 104명의 폐암 환자 및 56명의 고위험 대조군의 발견 코호트로부터의 샘플을 사용하여 훈련되었다(도 35, 표 4). 검정을 개발하기 위해, 제공된 cfDNA SNV가 종양-유래될 확률을 추정하기 위해 모델을 먼저 훈련시키는 다층 기계 학습 접근법을 사용하였다. SNV 모델은 배경 빈도, cfDNA 단편 크기, 흡연 특징 기여도, NSCLC에서 빈번하게 돌연변이되는 유전자의 존재, 및 CH 가능성을 포함하는 각 개별 변이체에 특이적인 주요 생물학적 및 기술적 특징을 활용한다(도 52, 모델 특징에 대해서는 도 6 참조). 추가적으로, 카피 수 변이체(CNV)를 확인하기 위해, 게놈을 5 메가베이스(MB) 영역으로 비닝하고 CAPP-Seq로부터의 온- 및 오프-표적 시퀀싱 리드 둘 모두를 사용하여 게놈-전체 카피 수 변경을 확인하였다. SNV 모델의 결과는 제공된 혈액 샘플이 폐암 유래 cfDNA를 함유할 가능성(예를 들어, "CLiP 점수")(표 4)을 추정하는 최종 환자-수준 확률적 분류기 내에서 게놈-전체 카피 수 변경(온-표적 및 표적-외 시퀀싱 리드 둘 모두의 분석을 통해 생성됨)과 통합되었다.
수용자-작동자 특성 곡선 형상은 폐-CLiP가 표적 임상 적용에 따라 원하는 특이성으로 쉽게 조정될 수 있음을 보여주었다(도 53). 예를 들어, 독립형 스크리닝 시험으로서, 위양성을 최소화하기 위해 높은 특이성이 바람직할 것이다. 98%의 특이성에서, 폐-CLiP 민감도는 I기에서 41%, II기에서 54%, III기 환자에서 67%였다(도 54). 대안적으로, 접근 제한 또는 다른 장애로 인해 현재 LDCT를 겪고 있지 않은 위험에 처한 개인의 약 95%에 검정이 적용되는 경우 더 낮은 특이성이 허용될 수 있다. 이러한 맥락에서, 양성 시험에 대한 반사 시험은 LDCT일 것이기 때문에 더 낮은 특이성(예를 들어, NLST 시험에서 LDCT의 것과 유사한 80%)으로 검정을 조정하는 것이 합리적일 것이다. 80%의 특이성에서, 본 발명자들은 I기에서 63%, II기에서 69%, 및 III기 환자에서 75%의 민감도를 관찰하였다(도 54). 환자 cfDNA에서 돌연변이가 반복적으로 확인된 유전자는 TP53, KRAS, 및 EGFR과 같은 예상되는 NSCLC 드라이버를 포함하였다(도 55). 환자 분류에 가장 큰 영향을 미치는 분류기 특징은 SNV VAF 수준, cfDNA 단편 크기, 검출된 SNV의 수, 검출된 CNV의 수, 및 변경이 폐암에서 이전에 관찰되었는 지의 여부를 포함하였다(도 55).
폐-CLiP 점수를 종양-정보에 기반한 ctDNA 수준 및 임상병리학적 특징과 비교하였다. 중요하게는, 98% 특이성에서의 민감도는 종양-정보에 기반한 ctDNA 분석을 사용하여 관찰된 민감도와 유의하게 다르지 않았으며(도 56), 폐-CLiP가 종양-정보에 기반한 ctDNA 검출과 유사한 민감도를 달성함을 나타낸다. 또한, 종양-나이브 폐-CLiP 점수는 종양-정보에 기반한 ctDNA 수준과 유의하게 상관관계가 있는 것으로 밝혀졌다(스피어만 r = 0.59, P < 0.0001, 도 56). 예상대로, 폐-CLiP에 의해 양성으로 분류된 NSCLC 환자로부터의 종양은 음성으로 분류된 것보다 유의하게 더 크며(윌콕슨 순위-합 시험, P < 0.01, 도 57), 유사하게, 비선암종 조직학을 갖는 환자가 더 빈번하게 검출되었다(피셔 정확 검정, P < 0.01, 도 57). 종합하면, 이러한 데이터는 폐-CLiP 점수가 전체 ctDNA 부하와 관련된 생물학적으로 의미 있는 인자를 포착한다는 것을 나타낸다.
마지막으로, 폐-CLiP 검정의 성능은 46명의 NSCLC 환자(n = 32명 I기; n = 9명 II기; n = 5명 III기)의 독립적인 코호트 및 다른 기관에 전향적으로 등록된 음성 LDCT 스캔을 갖는 48명의 위험 일치 대조군에서 검증되었다(도 35 및 도 58; 표 4). 독립적인 임상 장소에서 검증 코호트의 전향적 등록은 연구 설계의 주요 양태인데, 이는 검정의 엄격한 시험을 나타내고 지나치게 낙관적인 결과를 보고할 위험을 감소시키기 때문이다. 검증 코호트에서 모델의 단계-일치된 성능은 AUC(도 53 및 도 59) 및 민감도 메트릭(도 59)에 의한 훈련에서 관찰된 것과 통계적으로 유사하였으며, I기 성능의 수치적 차이는 검증 코호트에서 더 큰 분율의 IA기 대 IB기 사례에 기인한 것이다. 또한, 훈련 코호트에서 설정된 특이성 임계값은 검증 코호트의 대조군에 적용될 때 유사하게 수행되었으며, 이는 폐-CLiP 점수가 잘 보정되었음을 나타낸다(도 60).
마지막으로, 조합된 훈련 및 검증 코호트에 대해 여러 탐색적 분석을 수행하였다. 먼저, 민감도에 대한 시퀀싱 깊이 또는 관련 메트릭의 영향을 조사하였다. cfDNA 입력, 혈장 부피 입력 및 고유한 시퀀싱 깊이는 폐-CLiP의 민감도와 유의하게 관련이 없는 것으로 밝혀졌다(도 61). 그러나, 이용 가능한 MTV 데이터를 갖는 모든 NSCLC 환자(n = 103)를 고려하면, MTV와 폐-CLiP의 민감도 사이에 강한 상관관계가 관찰되었으며, 대략적인 민감도는 1mL 종양, 10mL 종양, 및 > 100mL 종양에 대해 각각 16%(95% CI: 4% 내지 24%), 52%(95% CI: 32% 내지 72%) 및 80%(95% CI: 60% 내지 96%)이다(도 62).
연구 설계 및 환자
이러한 연구에서 분석된 모든 생체 시편은 스탠포드 대학교, MD 앤더슨 암센터, 메이요 클리릭, 밴더필트 대학 의학 센터, 및 메사추세츠 종합 병원을 포함하는 각각의 센터에서 기관 검토 위원회-승인된 프로토콜에 등록된 대상체로부터 사전 동의 하에 수집되었다. 모든 환자는 신원이 확인되지 않았고 AJCC v7 I기 내지 III기 NSCLC를 갖고 수술 또는 방사선요법으로 치유-의도 치료를 받았다.
이러한 연구는 2개의 코호트, 발견 코호트 및 검증 코호트로 구성되었다. 둘 모두의 코호트에서 환자의 임상 특징은 도 35에 제공된다. 발견 코호트는 (1) 종양-정보에 기반한 NSCLC 환자 (및 (2) 폐-CLiP 훈련 NSCLC 사례)의 2개 그룹의 환자로 구성되었다. 이러한 2개의 그룹은 2009년 11월과 2018년 7월 사이에 스탠포드 대학교(n=80), 밴더필트 대학교(n=21), 메이요 클리닉(n=14) 및 MD 앤더슨 암 센터(n=7)에 등록된 폐암 환자로 구성되었다. 종양-정보에 기반한 NSCLC 사례는 이용 가능한 매칭된 종양 조직을 갖는 85명의 환자로 구성되었으며, 이들 중 대부분(67/85)은 도 7에 기재된 개선된 CAPP-Seq 워크플로우의 모든 양태로 분석되었다. 폐-CLiP 훈련 그룹은 개선된 워크플로우(n=104)로 분석된 환자에게만 제한되었고, 폐-CLiP 분류기에 대한 훈련 그룹의 역할을 하는 종양-나이브 분석을 위해 연구되었다. 104명의 폐-CLiP 훈련 NSCLC 사례 중에서, 67명은 종양-정보 기반 그룹의 85명의 환자와 중첩된다. 비침습적 분류기의 초기 훈련 후, 독립적인 검증 코호트(46명의 폐암 사례)의 NSCLC 환자는 2018년 1월과 12월 사이에 메사추세츠 종합 병원(MGH)에 전향적으로 등록되었다.
발견 코호트는 2개의 개별 대조군으로 구성되었다(도 35). 첫 번째 그룹은 위험에 대해 매칭되지 않는 42명의 성인 혈액 공여자로 구성되었다("저위험 대조군"). 두 번째 그룹은 스탠포드 대학교에서 폐암에 대한 음성 저선량 컴퓨터 단층촬영(LDCT) 스크리닝 스캔을 하고 폐-CLiP 분류기에 대한 훈련 그룹으로 역할을 한 56명의 연령, 성별 및 흡연 상태가 매칭된 성인("위험 일치 대조군")으로 구성되었다. 검증 코호트에는 2018년 1월과 12월 사이에 전향적으로 등록된 메사추세츠 종합 병원에서 LDCT 스크리닝을 받는 48명의 위험 매칭된 성인으로 구성된 세 번째 대조군이 포함되었다. 이러한 대조군은 폐-CLiP 모델의 검증을 위해서만 고려되었다.
혈액 수집 및 처리
K2EDTA 튜브에 수집된 전혈을 즉시 또는 4℃에서 저장 후 4시간 이내에 처리하였다. 무세포 DNA BCT(STRECK) 튜브에 수집된 전혈을 72시간 이내에 처리하였다. K2EDTA 튜브를 1,800×g에서 10분 동안 1회 원심분리하고, STRECK 튜브를 실온에서 1,600×g에서 10분 동안 2회 원심분리하였다. 원심분리 후, cfDNA가 분리될 때까지 혈장을 -80℃에서 1.8 ml 분취량으로 저장하였다. 백혈구로부터 DNA 분리를 위해 혈장-고갈된 전혈을 -80℃에서 저장하였다.
무세포 DNA를 제조업체의 지침에 따라 QIAamp 순환 핵산 키트(Qiagen)를 사용하여 2 내지 16 mL의 혈장(3.6 mL의 중앙값)으로부터 추출하였다. 단리 후, cfDNA를 Qubit dsDNA 고민감도 키트(Thermo Fisher Scientific) 및 고민감도 NGS 단편 분석기(Agilent)를 사용하여 정량화하였다. 매칭된 혈장-고갈된 전혈(예를 들어, "WBC" 또는 "백혈구")로부터의 게놈 DNA(gDNA)를 Qiagen DNeasy 혈액 및 조직 키트를 사용하여 추출하고, Qubit dsDNA 고민감도 키트를 사용하여 정량화하고, Covaris S2 초음파 분쇄기를 사용하여 170 bp의 표적 크기로 단편화하였다. 초음파처리 후, 단편화된 gDNA를 QIAquick PCR 정제 키트(Qiagen)를 사용하여 정제하였다. cfDNA의 경우, 중앙값 38 ng(8 내지 85 ng)을 라이브러리 제조물에 입력하였다. 이용 가능한 경우 단편 분석기 데이터에 기초하여 50 내지 450 bp 크기 범위의 40 ng의 cfDNA의 입력을 표적화하여, DNA 투입을 조절하여 고분자량 DNA 오염을 조절하였다. 백혈구로부터의 gDNA의 경우, ≤100 ng의 단편화된 gDNA를 라이브러리 제조물에 투입하였다.
검증 코호트의 전향적 수집과 관련된 물류 고려사항은 STRECK 혈액 수집 튜브의 사용을 필요로 하는 반면, K2EDTA 수집 튜브는 훈련 코호트에 사용되었다. 연구 설계는 검증 코호트(예를 들어, 사례 및 대조군) 내의 모든 샘플이 STRECK 튜브에서 수집되었기 때문에 사례 대 대조군의 분류를 유도하는 이러한 사전-분석 변수에 대해 보호한다. 그럼에도 불구하고, 수집 튜브의 유형이 혼동되지 않는다는 것을 확인하기 위해, 폐-CLiP 모델 혈액을 K2EDTA 및 STRECK 튜브에서 3명의 건강한 공여자로부터 수집하고, 폐-CLiP 분류, cfDNA 돌연변이 일치성, 단편 크기, cfDNA 농도, 분자 회복 및 오류 프로파일을 분석하고 이들 중 어느 것도 사용된 수집 튜브의 유형에 의해 유의하게 영향을 받지 않았다는 것을 발견하였다(도 63 내지 도 65).
종양 조직 수집 및 가공
종양 DNA를 Qiagen DNeasy 혈액 및 조직 키트를 사용하여 동결된 생검 샘플로부터 또는 제조업체의 지침에 따라 Qiagen AllPrep DNA/RNA FFPE 키트를 사용하여 FFPE 생검 샘플로부터 추출하였다. 추출 후, 혈장 고갈된 전혈로부터의 gDNA와 동일한 방식으로 DNA를 정량화하고 단편화하고, ≤100 ng의 전단된 DNA를 라이브러리 제조물에 투입하였다.
라이브러리 제조 및 시퀀싱
샘플 바코드를 함유하는 부분으로부터 듀플렉스 분자 바코드(예를 들어, 고유 식별자 또는 "UID")를 함유하는 어댑터의 부분을 분리하는 새로운 어댑터 스키마인 FLEX 어댑터(FLexible Error-correcting dupleX adapter)가 개발되었다(도 2 및 도 3). FLEX 어댑터는 최적화된 GC 함량 및 서열 다양성을 갖는 이중 인덱스 8 bp 샘플 바코드(쌍별 편집 거리 ≥ 5) 및 6 bp 오류 수정 UID(쌍별 편집 거리 ≥ 3)를 이용한다. 단부 복구, A-테일링, 및 어댑터 결찰은 4℃에서 밤새 수행된 결찰과 함께 KAPA Hyper Prep Kit 제조업체의 지침에 따라 수행된다. 어댑터 결찰은 6 bp UID 및 결찰에 필요한 T 오버행을 함유하는 부분 Y 어댑터를 사용하여 수행된다(도 3). 결찰 후, SPRIselect 자기 비드(Beckman Coulter)를 사용하여 비드 클린업을 수행한다. 다음으로, 이중-지수 8 bp 샘플 바코드 및 기능성 Illumina 시퀀싱 라이브러리를 만드는 데 필요한 나머지 어댑터 서열을 첨가하기 위해 "그라프팅 PCR"이 수행된다. 또 다른 SPRI 비드 클린업 후, 범용 PCR이 수행된다.
FLEX 어댑터에 대한 이론적 근거: DNA 고처리량 시퀀싱을 위한 분자 생물학 및 생물정보학 워크플로우에서 유연성 및 효율성을 허용하고, 시퀀싱 동안 관찰된 두 가지 주요 오류 소스에 대해 동시에 보호하는 전략이 요망되었다. 이러한 2개의 출처는 (1) 주어진 샘플 내에서 독특한 DNA 분자의 오식을 초래하는 시퀀싱 오류, 및 (2) 샘플 사이의 잠재적인 교차 오염을 포함한다. 무세포 DNA 분석의 경우와 같이 DNA 입력이 제한되고/거나 낮은 대립유전자 분획 이벤트의 식별이 요망되는 경우 시퀀싱에 의해 관찰된 고유 분자의 정확한 열거가 중요하다. 고심도 표적화 시퀀싱에서 관찰된 독특한 분자를 계수할 때 중요한 고려사항은 주어진 독특한 분자를 한 번 이상 계수하지 않도록 PCR 중복을 제거하는 것이다. PCR 복제물은 일반적으로 어댑터 결찰 동안 분자의 각 면에 부착된 분자 및 분자 바코드(예를 들어, 고유 식별자 또는 "UID")의 게놈 시작 및 종료 위치를 사용하여 cfDNA 시퀀싱 동안 확인된다. 동일한 시작 위치, 종료 위치, 및 UID를 갖는 분자는 PCR 복제물로 간주되고 "바코드 중복 제거"로 알려진 공정을 통해 하나의 대표적인 "고유 분자"로 붕괴된다. 라이브러리 제조 중에 도입된 UID의 오류는 시퀀싱 깊이의 인위적인 증가로 이어질 수 있습니다. 이는 이전에 관찰된 분자의 PCR 복제물의 UID에서의 오류(들)로 인해 분자가 별도의 바코드 패밀리에 속하는 것으로 오분류되어, 바코드 중복 제거 동안 분자가 제거되지 않게 되는 경우에 발생한다. 게놈 팽창이 시퀀싱된 독특한 cfDNA 분자의 부정확한 열거를 초래하는 지의 여부를 조사하였다. 이러한 팽창을 평가하기 위해, cfDNA 분자의 UID "편집 거리"를 우연히 예상되는 이론적 분포 및 상이한 시작/종료 위치를 갖는 분자의 분포와 동일한 시작/종료 위치와 비교하였다. 측정된 편집 거리는 PCR 및/또는 시퀀싱 오류에 의해 발생할 수 있는 바와 같이, 하나의 UID를 다른 UID로 변경하는 데 필요한 염기 변화의 수를 나타낸다. 게놈 팽창이 존재하는 경우, 단지 1개의 염기에 의해 분리된 더 많은 수의 UID(즉, 1의 편집 거리)가 동일한 시작/말단을 갖는 분자에서 보일 것으로 가정되었다. 실제로, 1 bp만큼 상이한 UID는 동일한 시작/종료 위치를 갖는 cfDNA 분자를 각각의 다른 UID 분포와 비교할 때 유의하게 과도하게 표현된 것으로 밝혀졌다. 이는 이전 세대의 어댑터를 사용할 때 1 bp 오류가 새로운 UID 패밀리를 잘못 생성할 수 있음을 강력하게 나타내며, 따라서 새로운 FLEX 어댑터 내의 오류-수정 체계가 이를 억제하도록 동기를 부여한다.
더 높은 고유 깊이로 서열화됨에 따라, 동일한 시작/종료 위치를 갖는 별개의 모 분자가 동일한 외인성 UID를 받을 가능성이 증가한다. 이러한 바코드 충돌을 완화하는 한 가지 방법은 사용되는 UID의 수를 증가시키는 것이다. 추가적으로, 고처리량 시퀀싱 기술이 향상됨에 따라, 많은 샘플을 병렬로 시퀀싱하는 능력(샘플 다중화)이 점점 더 중요해지고 있다.
이러한 새로운 방식은 (i) 다중화 용량의 보다 경제적인 규모화; (ii) 이중-지수 샘플 바코드를 사용한 샘플 교차 오염에 대한 보다 효율적인 보호; (iii) 오류-정정 샘플 바코드를 사용하여 증가된 역다중화된 시퀀싱 리드 수율; (iv) UID 다양성을 1,024 UID로 증가시킴으로써 바코드 충돌을 방지하기 위한 PCR 복제물의 보다 정확한 제거(이전 스키마의 256개와 비교); 및 (v) 오류-정정 듀플렉스 UID의 사용은 UID의 오류로 인해 PCR 복제물이 고유한 분자로 오분류될 때 발생하는 잘못된 깊이 팽창을 방지한다.
라이브러리 제조 후, 하이브리드 포획(SeqCap EZ Choice, NimbleGen)을 수행한다. 이러한 연구에서, 폐암에서 반복적으로 돌연변이된 255개의 유전자 및 클론 조혈과 정규적으로 관련된 11개의 유전자를 표적화하는 맞춤 355 kb NSCLC-집중 패널을 이용하였다(표 3). 제조업체의 프로토콜에 따라 하이브리드 포획을 수행하였고, 모든 47℃ 작업은 열 순환기에서 수행되었다. 농축 후, 라이브러리를 2x150 bp 페어드-엔드 리드로 Illumina HiSeq4000에서 시퀀싱하였다.
시퀀싱 데이터 분석 및 변이체 호출
Fastq 파일은 8 bp 샘플 바코드 및 6 bp UID 둘 모두가 오류-정정 후 예상된 서열과 일치하는 경우에만 리드 쌍이 고려되는 맞춤형 파이프라인을 사용하여 역다중화되었다. 역다중화 후, UID를 제거하고 짧은 단편을 보존하기 위해 AfterQC를 사용하여 리드의 3' 단부로부터 어댑터 리드-스루를 트리밍하였다. 리드를 BWA ALN을 사용하여 인간 참조 게놈(hg19, GRCh37)에 정렬하였다.
오류 억제 및 변이체 호출: 분자 바코드-매개 오류 억제 및 배경 폴리싱을 전술한 바와 같이 수행하였다(A. M. Newman, Nat. Biotechnol. (2016), 상기 인용). ROS 스캐빈저 하이포타우린으로 샘플을 포획함으로써 제공되는 개선된 오류 프로파일을 활용하기 위해, 하이포타우린으로 포획된 12개의 보류된 건강한 대조군 혈장 샘플로부터 구축된 배경 데이터베이스를 배경 폴리싱에 사용하였다. 오류 억제 후, 딥 시퀀싱 데이터로부터 낮은 대립유전자 빈도 변이체의 검출에 최적화된 맞춤 변이체 호출 알고리즘을 사용하여 이전에 기재된 바와 같이 선택기-전체 단일 뉴클레오타이드 변이체(SNV) 호출을 수행하였다(A. M. Newman, Nat. Biotechnol. (2016), 상기 인용). "적응 변이체 호출"로 지칭되는 이러한 접근법은 각 샘플 내의 위치-특이적 변이체 호출 임계값을 결정하기 위해 배경 오류율의 국소 및 전역 변동을 고려한다. 이후, 적응형 변이체 호출을 하기와 같이 추가로 여과하였다: (I) > 25% VAF에서 연구에서 임의의 개인으로부터의 WBC gDNA에서 확인된 생식계열 변이체를 제거하였다, (II) 낮은 깊이 위치(중간 깊이의 < 50%)에서 변이체를 제거하였고, 반복, 인트론, 유전자간, 또는 슈도유전자 영역의 것들을 제거하였다, (III) 불량한 독특성 또는 지도화 가능성을 갖는 영역에 속하는 변이체를 제거하였고, (IV) gnomAD 데이터베이스에서 >0.1%의 집단 대립유전자 빈도를 갖는 변이체를 제거하였고, (V) 430개의 WBC gDNA 샘플의 데이터베이스로부터 유래된 본 발명자들의 표적화된 시퀀싱 공간에 특이적인 블랙리스트를 사용하여 재발성 배경 아티팩트를 제거하였다. 변이체 호출 및 필터링 후, 조직 구획 및 수행되는 분석에 따라 추가 필터를 적용하였다(하기 기술됨).
종양 유전형 분석
종양 조직에서 체세포 변이체 호출은 하기 요건을 제외하고는 이전 섹션에 기재된 바와 같이 수행되었다: (1) 5%의 최소 대립유전자 빈도 임계치, (2) 변이체가 매칭된 WBC에 존재하지 않을 수 있음, 및 (3) 변이체 표준 클론에서 TP53 이외의 조혈 유전자는 제거됨.
종양-정보에 기반한 ctDNA 검출
매칭된 종양 조직에서 확인된 돌연변이를 사용하여 ctDNA의 존재에 대해 혈장을 질의하기 위해, 몬테카를로-기반 ctDNA 검출 지수를 이용하였다(A. M. Newman, et al., Nat. Biotechnol. (2016), 상기 인용). ctDNA 검출 지수 임계값은 동일한 선택기를 사용하여 분석된 음성 LDCT 스캔을 갖는 환자로부터의 56개의 보류된 대조군 cfDNA 샘플에서 ≥95% 특이성을 달성하도록 설정되었다. 검출 가능한 ctDNA를 갖는 샘플에서, 돌연변이의 혈장 VAF를 종양의 카피 수 상태에 기초하여 조정하였다. 이어서, 모니터링에 사용된 모든 종양 변이체(샘플에서 0개의 돌연변이 리드를 갖는 변이체 포함)의 VAF를 평균화함으로써 각 샘플에 대한 ctDNA VAF를 계산하였다.
환자-특이적 분석 검출 한계(LOD)는 이전에 기술된 바와 같이 결정되었다(A. M. Newman, et al., Nat. Biotechnol. (2016), 상기 인용). 간략하게, LOD는 이항 분포, 추적된 돌연변이의 수, 및 독특한 분자 깊이에 기반하여 95% 신뢰도로 3개 이상의 돌연변이-함유 cfDNA 분자를 생성할 것으로 예상되는 가장 낮은 종양 분획으로 정의되었다.
종양 DNA 및 매칭된 백혈구 DNA의 전체-엑솜 시퀀싱을 제조업체의 프로토콜에 따라 SeqCap EZ 엑솜 버전 3.0 포획 시약(NimbleGen)을 사용하여 17명의 환자에 대해 수행하였다. 시퀀싱 데이터를 상기 기술된 바와 같이 역다중화하고 맵핑하고 'samtools rmdup'을 사용하여 중복 리드를 제거하였다. VarScan2, Mutect, 및 Strelka를 사용하여 단일-뉴클레오타이드 변이체를 호출하였다(VarScan, Mutect, 및 Strelka에 대한 자세한 내용은 문헌[D.C. Kobo, et al., Genome Res. 22, 568-576 (2012); K. Cibulskis, et al., Nat. Biotechnol. 31, 213-219 (2013); 및 C. T. Saunders, et al., Bioinformatics 28, 1811-1817 (2012)] 참조; 이들 각각은 본원에 참조로서 포함됨). 이후, ≥ 2명의 호출자에 의해 호출된 변이체를 추가로 여과하였다: (i) VAF ≥ 5%, (ii) 종양 및 생식계열 둘 모두에서 ≥ 30X 위치 깊이, (iii) 0개의 생식계열 리드, (iv) 집단 대립유전자 빈도 ≤ 0.1% gnomAD 데이터베이스에서, 반복, 인트론, 유전자간, 또는 유사유전자 영역에 있는 변이체를 제거하는 단계(gnomAD 데이터베이스에 대한 추가 정보는 K. J. Karczewski, et al., bioRxiv 531210 (2019), 이는 본원에 참조로서 포함됨). 이후, 맞춤형 포획 패널(SeqCap EZ Choice, NimbleGen)을 설계하였고, 각각은 5 내지 7명의 환자로부터의 돌연변이의 결합을 표적화하고 크기 범위는 212 내지 487 kb이다. 각 환자로부터의 종양 및 매칭된 백혈구 시퀀싱 라이브러리를 이러한 맞춤형 패널을 사용하여 재포획하고, 표준 CAPP-Seq 파이프라인을 사용하여 표적화된 시퀀싱 데이터로부터 종양 변이체를 호출하였다. 이후, 환자 당 68개 돌연변이의 중앙값(범위 7 내지 543)을 표적화하는 이러한 최종 변이체 목록을 ctDNA 검출에 사용하였다.
맞춤형 CAPP-Seq 패널을 사용하여 ctDNA의 존재를 질의하기 위해, 표준 CAPP-Seq 종양-정보 기반 검출에 사용된 동일한 몬테카를로-기반 샘플링 접근법을 분자의 2개의 상이한 서브세트에 적용하였다: (i) 둘 모두의 가닥에 대한 cfDNA 분자 원래의 cfDNA 듀플렉스의 양이 관찰되었고, (ii) 크기가 <160 bp 또는 230 내지 310 bp인 cfDNA 분자. 그런 다음 피셔의 방법을 사용하여 이러한 2개의 P-값을 결합하였다. 이후, ctDNA 검출 지수 임계값은 동일한 시퀀싱 패널을 사용하여 분석된 24개의 건강한 대조군 cfDNA 샘플에서 ≥95% 특이성을 달성하도록 설정되었다.
암 세포 분획 분석
종양 샘플에서 확인된 돌연변이의 클론성을 결정하기 위해, ABSOLUTE를 각각의 체세포 돌연변이를 보유하는 종양 세포의 분획(예를 들어, 암 세포 분획, CCF)을 추정하기 위해 이전에 기재된 바와 같이 사용하였다(ABSOLUTE에 대한 추가 정보는 S. L. Carter, et al., Nat. Biotechnol. 30, 413-421 (2012), 이는 본원에 참조로서 포함됨). 게놈-전체 세그먼트화된 카피 수 호출 및 점 돌연변이의 위치 및 VAF를 입력으로 사용하였다. 클론 돌연변이는 CCF 신뢰 구간의 상한이 >0.95인 것으로 정의된 반면, 이 임계치 미만의 CCF 추정치를 갖는 돌연변이는 서브클로날로서 정의되었다. 종양 샘플에서 단지 1개의 돌연변이가 확인된 경우, 이 돌연변이는 CCF 추정치를 얻을 수 없었기 때문에 클론인 것으로 간주되었다.
ctDNA 단편 크기 분석
종양-유래 및 비-돌연변이 cfDNA 분자의 크기 분포를 비교하기 위해, 매칭되는 종양 샘플에서 확인된 돌연변이의 게놈 위치와 중첩되는 cfDNA 분자에 대해 혈장을 질의하였다. 종양-유래 돌연변이(예를 들어, "돌연변이 분자" 또는 "ctDNA")를 함유하는 각 분자의 cfDNA 단편 크기(SAM Spec v1.6의 TLEN 필드) 및 동일한 개체에서 동일한 게놈 유전자좌에 걸쳐 있는 모든 비돌연변이 분자 추출되었다. 도시된 단편 크기 분포를 생성하기 위해 모든 위치에 걸친 돌연변이 및 비-돌연변이 단편 길이를 풀링하였다. 동일한 방법을 "CH" 및 "종양-판정된" 돌연변이 단편 크기 분포를 생성하기 위해 종양-나이브 변이체 호출 후 확인된 cfDNA 돌연변이에 적용하였다.
어떤 단편 크기 윈도우가 ctDNA에 대해 농축되었는지를 결정하기 위해, 5 bp 슬라이딩 윈도우에 속하는 모든 돌연변이 및 비-돌연변이 분자의 분획을 R(동물원 패키지)의 롤적용 기능을 사용하여 계산하였다. 돌연변이 대 비돌연변이 분자의 상대적 농축(예를 들어, "ctDNA 농축")은 50 내지 500 bp 사이의 모든 cfDNA 단편 크기에 대해 계산되었다.
ctDNA 검출의 임상 상관관계
대사 종양 부피를 전신[18F] FDG 양전자 방출 단층촬영(PET)-CT 스캔을 사용하여 결정하였다. 퍼센트 결정성 간유리 음영(GGO), 괴사의 존재, 및 종양 위치는 흉부 방사선 전문의에 의한 흉부 컴퓨터 단층촬영(CT)을 이용한 전처리 영상화를 사용하여 결정되었다. GGO는 기관지 및 혈관 변연의 보존과 함께 폐의 흐릿하고 증가된 혼탁의 존재에 의해 정의되었다. 전체 종양에서 퍼센트 GOO를 이용하여 축, 시상, 및 관상 재구성에서 병변의 전체 부피를 조사함으로써 퍼센트 GGO를 결정하고 가장 가까운 사분위수로 반올림하였다. 선암종 조직학적 서브타입은 포르말린-고정된 파라핀-엠베딩 종양 조직이 분석에 이용 가능한 환자의 서브세트에서 병리학자에 의해 평가되었다(선암종 환자 48/63). 단변수 및 다변수 분석을 위해, 단계, MTV, 및 비선암종 조직학을 평균 ctDNA VAF(연속 종속 변수로서)와 연관시키기 위해 로지스틱 회귀를 수행하였다. MTV 및 평균 ctDNA VAF를 로그 형질전환시켜 정규 분포된 데이터를 생성하였다.
하기 생존 종점을 고려하였다: (1) 재발이 없음(방사선사진 또는 생검에서 재발이 입증됨), (2) 전이가 없음(방사선사진 또는 생검에서 먼 장기 또는 반대쪽 폐로의 전이가 입증됨), (3) 무재발 생존( 방사선사진 또는 생검에서 임의의 원인으로 인한 재발 또는 사망이 입증됨), (4) 무전이 생존(방사선사진 또는 생검에서 먼 장기 또는 반대쪽 폐로의 전이 또는 임의의 원인으로 인한 사망이 입증됨), (5) 전체 생존(임의의 원인으로 인한 사망). 사건이 없는 환자는 마지막 방사선학적 추적조사에서 중도절단되었다. 생존 확률은 카플란-마이어(Kaplan-Meier) 방법을 사용하여 추정되었고 그룹의 생존은 로그-순위 검정을 사용하여 비교되었다. 회귀 분석은 Cox 비례 위험 모델링에 의해 수행되었고, P-값은 로그-우도 시험을 사용하여 평가되었고, 모든 P-값은 양측이었다. 회귀 분석을 위해, 로그-변환된 평균 VAF 및 종양 부피 측정을 사용하였다; 정규 분포 데이터를 생성하기 위해 로그 변환이 수행되었다. 모든 변수는 Cox 모델을 사용하여 위험 비율 및 95% 신뢰 구간의 비교를 가능하게 하도록 표준화되었다.
cfDNA 및 WBC에서 클론 조혈의 특성화
cfDNA 및 WBC 구획에서 클론 조혈(CH)을 특성화하기 위해 변이체를 본원에 기재된 "오류 억제 및 변이체 호출" 섹션에 기재된 바와 같이 하기 추가 필터로 명명하였다: (1) 필요한 돌연변이는 양성 선택 분석 동의 돌연변이가 또한 고려된 돌연변이 특징 분석을 제외하고 비동의임, (2) 돌연변이가 CH와 기본적으로 관련된 다음 12개 유전자에 있는 경우 블랙리스팅(blacklisting)으로부터 돌연변이를 구제함: ASXL1, PPM1D, DNMT3A, TET2, GNB1, CBL, JAK2, STAT3, GNAS , MYD88, SF3B1, TP53, 및 (3) 정규 폐암 드라이버 유전자의 돌연변이는 ≥10개의 COSMIC 폐암 사례에서 관찰된 경우 블랙리스팅에서 구제됨(CosmicGenomeScreens v85).
매칭된 백혈구(WBC) 시퀀싱을 사용하여, cfDNA에서 확인된 돌연변이를 다음과 같이 WBC-, WBC+, 또는 WBC-미결정으로 표지하였다:
(i) 돌연변이는 종양-정보에 기반한 ctDNA 검출에 사용된 동일한 몬테카를로 접근법을 사용하여 평가되고 검출 지수 P-값 < 0.05를 필요로 하는 매칭된 WBC에서 배경 초과인 경우 WBC+로 간주되었다.
(ii) 매칭된 WBC DNA에 0개의 지지 리드가 있고 혈장에서 관찰된 VAF가 주어지면 돌연변이를 확인하기에 충분한 깊이가 매칭된 WBC DNA에 있는 경우 돌연변이는 WBC-로 간주되었다. 구체적으로, 돌연변이는 WBC에서 ε1 지지 리드를 관찰할 확률이 cfDNA에서 변이체의 VAF 및 WBC에서의 위치 깊이를 고려할 때 > 95%인 경우에만 WBC-로 표지되었다.
(iii) 돌연변이는 WBC에 > 0개의 지지 리드가 있었지만 검출 지수 P-값이 ≥ 0.05인 경우(예를 들어, 돌연변이가 WBC에서 배경을 유의하게 초과하지 않은 경우) 또는 0개의 지지 리드가 있지만 매칭된 WBC에서 돌연변이를 관찰하는 것은 cfDNA에서 변이체의 VAF 및 WBC에서 위치 깊이를 고려할 때 ≤ 95%였다.
일치된 WBC에서의 존재가 확실하게 평가될 수 있는 cfDNA에서 새롭게 확인된 돌연변이(WBC- 또는 WBC+로 표지됨)만이 하기 예외를 제외하고 모든 분석에 대해 고려되었다:
(i) 도 42 및 도 45의 경우, WBC로부터 새롭게 확인된 돌연변이가 또한 고려되었다.
(ii) cfDNA 및 WBC에서 발견된 돌연변이의 VAF를 비교하는 분석을 위해, 상기 기재된 바와 같이, 변경의 존재 또는 부재가 둘 모두의 조직 구획에서 확실하게 평가될 수 있는 한, 어느 하나의 구획(cfDNA 또는 WBC)에서 데노보(de novo)로 불리는 돌연변이가 고려되었다. 따라서, WBC에서 새롭게 확인된 돌연변이는 WBC 지지체가 cfDNA 돌연변이에 대해 결정된 것과 동일한 방식으로 cfDNA-, cfDNA+, 또는 cfDNA-미결정으로 표지되었다(상기 참조).
시퀀싱 패널에 의해 덮인 주어진 유전자의 분획을 설명하기 위해 변형된 dNdScv R 패키지를 사용하여 모든 동의 및 비-동의 WBC+ 및 WBC- cfDNA 돌연변이에 대해 양성 선택 분석을 수행하였다(dNdScv R 패키지에 대한 자세한 내용은 문헌[I. Martincorena Cell 171, 1029-1041.e21 (2017)] 참조, 이는 본원에 참조로서 포함됨). 모든 치환 유형에 대한 dNdScv-보고된 Q-값이 < 0.05인 경우 유전자를 비-동의 돌연변이에 대한 양성 선택하에 고려하였다.
본 발명자들이 cfDNA에서 관찰한 돌연변이에 대한 공지된 돌연변이 과정의 기여는 COSMIC 특징 세트(v2)를 사용하여 deconstructSigs R 패키지로 평가되었다(deconstructSigs R 패키지에 대한 자세한 내용은 문헌[R. Rosenthal, et al., Genome Biol. 17, 1-11 (2016)] 참조, 이는 본원에 참조로서 포함됨). 개인당 돌연변이의 제한된 수로 인해, 제공된 비교(예를 들어, 환자 대 대조군, 흡연자 대 비흡연자)를 위해 WBC+ 및 WBC- 구획에 존재하는 돌연변이 특징을 평가하기 위해 돌연변이를 개체에 걸쳐 풀링하였다. 상이한 돌연변이 세트에 대한 특징 4(흡연)의 기여도의 차이의 통계적 유의성을 평가하기 위해, 관심 비교당 1,000개의 순열을 수행하였다(환자 WBC+ 대 WBC-, 환자 WBC- 대 대조군 WBC-, 흡연자 WBC+ 대 WBC-, 및 흡연자 WBC- 대 비흡연자 WBC-)(여기서, 돌연변이 표지는 스크램블되고 돌연변이 서명 기여도는 deconstructSig로 재계산되었다). 각 순열에 대해, 2개의 돌연변이 그룹 사이의 특징 4 기여도의 차이를 계산하여 영 분포(null distribution)를 생성하고, 실제 돌연변이 그룹 사이의 특징 4에서 관찰된 차이를 영 분포와 비교함으로써 실험적 P-값을 결정하였다. 코호트 크기의 차이(예를 들어, 비교되는 그룹에서 상이한 수의 돌연변이)로 인해 불균형된 표지 수를 갖는 돌연변이 세트를 교정하기 위해, 돌연변이의 수를, 돌연변이 서명 기여도를 재계산하기 전에 각 반복에서 덜 대표되는 표지의 총계로 다운샘플링하였다.
흡연-관련 돌연변이 과정으로부터 야기된 가능성을 반영하는 점수를 각각의 돌연변이에 할당하기 위해, 돌연변이에 대한 트리뉴클레오타이드 컨텍스트 및 염기 치환을 고려한 다음, 해당 컨텍스트에 대한 중량을 deconstructSigs에 의해 제공되는 바와 같이 COSMIC 특징 4 벡터로부터 추출하였다.
폐-CLiP 모델
폐-CLiP 모델은 5개의 상이한 분류 규칙, 5-최근접 이웃(5NN), 3NN, 나이브 베이즈, 로지스틱 회귀 및 결정 트리를 사용하여 2개의 구성요소 SNV 및 CNV 모델의 출력을 통합하는 앙상블 분류 프레임워크이다. SNV 모델의 경우, 환자에서 관찰된 cfDNA 돌연변이를 대조군에서 관찰된 돌연변이와 구별하기 위해 통계적 모델을 개발하였다. 이러한 모델 내에서, 엘라스틱 네트 로지스틱 회귀 모델(elastic net logistic regression model)이 매칭된 종양을 갖는 환자의 서브세트에서 종양-판정된 변이체를 비-결정된 변이체('종양-판정된 모델')와 구별하기 위해 훈련되는 반-지도 학습 프레임워크가 활용되었다. 이러한 종양-판정된 모델은 일치하는 종양 샘플이 없는 환자로부터의 변이체를 표지하는 데 사용된다. SNV 모델은 이후 반-감독된 종양-평가 모델에 의해 할당된 표지를 사용하여 환자 및 대조군의 모든 변이체에 점수를 할당하는 데 사용된다. 변이체 점수가 할당된 후, "환자 SNV 특징화"를 수행하여 각 샘플에서 변이체 점수를 요약하였다. 이러한 요약 점수는 이후 환자를 대조군과 구별하도록 훈련된 최종 엘라스틱 네트 로지스틱 회귀 모델에 사용된다. 이러한 모든 작업은 중첩된 환자 수준의 리브-원-아웃(leave-one-out) 프레임워크에서 수행된다.
CNV 모델은 2개의 주석 목록을 사용하여 변경된 게놈 영역을 열거한다: (1) 게놈에 걸쳐 균일하게 분포된 5 MB 윈도우의 세트, 및 (2) 1,017개의 TCGA NSCLC 사례(예를 들어, "핫스팟 지역")에 대해 GISTIC2.0을 수행함으로써 확인된 반복적으로 변경된 영역(GISTIC2.0에 대한 자세한 내용은 문헌[C. H. Mermel, et al., Genome Biol. (2011)], 상기 인용). 5 MB 영역 및 GISTIC "핫스팟" 영역의 수는 균일한 빈과는 대조적으로 NSCLC(예를 들어, GISTIC)에서 반복적으로 변경된 카피 수인 것으로 알려진 영역에 대한 농축이 있는 지의 여부를 포착하는 제3의 특징과 함께 카피 수 모델에서 특징으로서 사용된다.
근거: 혈장 중 폐암 가능성(폐-CLiP) 방법은 종양 변이체에 대한 사전 지식을 사용하지 않고 혈장 샘플이 종양-유래된 cfDNA를 함유할 확률을 추정하기 위한 확률론적 접근법으로 개발되었다. 이러한 접근법은 각 구획에서 체세포 변이체의 유전자형 분석을 위한 혈장 cfDNA 및 매칭된 백혈구의 딥 시퀀싱, 이어서 SNV의 통합 및 게놈-전체 카피 수 변경을 포함한다. 폐-CLiP를 사용한 주어진 혈액 샘플의 분류는 서브-분류 층이 제공된 cfDNA SNV가 종양-유래될 확률을 초기에 추정하는 다층 기계 학습 프레임워크를 적용함으로써 달성된다. 하기에 상세히 기술되는 바와 같이, 이러한 SNV 모델(하기 기술됨)은 배경 빈도, cfDNA 단편 크기, 흡연 특징 기여도, NSCLC에서 빈번하게 돌연변이되는 유전자의 존재, 및 CH 가능성을 포함하는 각각의 개별 변이체에 특이적인 주요 생물학적 및 기술적 특징을 통합한다. 제2 CNV 모델(하기 기술됨)은 CH-유래 및 구성적 카피 수 변경을 적절히 고려하여 cfDNA 및 백혈구 둘 모두에서 체세포 카피 수 변경을 열거한다. 이후, 최종 환자-수준 확률적 앙상블 분류기는 SNV 및 CNV 모델의 출력을 통합하여 제공된 혈액 샘플이 폐암 유래된 cfDNA를 함유할 가능성(예를 들어, "CLiP 점수")을 추정한다.
사례: 254명의 대상체로부터의 시편을 사용하는 대조군 설계 및 훈련 및 독립적인 검증 프레임워크가 이용되었고, 사례는 국소 NSCLC를 갖는 환자를 포함하고 대조군은 LDCT에 의해 폐암에 대한 연례 방사선학적 스크리닝을 받는 위험-매칭된 성인을 포함하였다. 폐-CLiP 분류기는 5개 참여 암 센터 중 4개(상기 기재된 바와 같이 Stanford, MDACC, Mayo, 및 Vanderbilt)에서 폐암 환자 및 고위험 대조군을 포함하는 160명의 대상체의 발견 코호트로부터의 샘플을 사용하여 먼저 훈련되었으며; 분석에 이용 가능한 종양 조직을 갖는 18명의 NSCLC 환자의 추가 세트를 또한 발견 코호트에서 이용하였으며, 종양-정보 기반 분석에서 ctDNA 특징의 확인을 알리는 역할을 하였다. 모델 훈련은 발견 코호트에서 리브-원-아웃 교차-검증 프레임워크에서 수행되었고, 훈련 샘플에서 98% 및 80% 특이성을 달성하는 폐-CLiP 점수 임계값을 독립적인 검증 코호트에 적용하였다. 상기 기술된 바와 같이, 이러한 독립적인 검증 코호트는 별도의 기관(MGH/Harvard)으로부터 전향적으로 등록된 음성 LDCT 스캔을 갖는 NSCLC 환자(n = 46) 및 위험-매칭된 대조군(n = 48)을 포함하는 94명의 대상체를 포함하였다. 이어서, 검증 코호트에서 모델의 성능을 민감도, AUC, 및 특이성 메트릭을 포함하는 훈련에서 관찰된 측정치와 비교하였다.
SNV 모델
변이체를 하기 추가 필터로 본원에 기술된 "오류 억제 및 변이체 호출" 섹션에 기술된 바와 같이 유전자형 분석하고 여과하였다: (1) 검출 지수 P-값이 < 0.10인 매칭된 WBC에 존재하는 제거된 돌연변이, (2) 정규 CH 유전자 DNMT3A, TET2, ASXL1, PPM1D, GNB1, CBL, JAK2, STAT3, GNAS, MYD88, SF3B1, (3) COSMIC(CosmicGenomeScreens v85)에서 하나 이상의 폐암에서 관찰된 경우 블랙리스팅으로부터 하기 폐암 종양유전자에서의 구출된 돌연변이: EGFR, KRAS, PIK3CA, BRAF, MET, U2AF1, NFE2L2, TERT, ERBB2, HRAS, NRAS, TERT, RAF1.
15개의 특징이 SNV 모델에서 사용되었으며 특징 중요도의 순서로 여기에 상세히 설명되어 있다:
(1) WBC 베이지안 배경: 이러한 메트릭은 430개의 WBC 샘플의 배경 분포와 비교하여 변이체의 VAF 사이의 차이의 유의성을 측정한다.
모든 변이체
Figure pct00016
(게놈 위치(p) 및 염기 변경(
Figure pct00017
에 대한 배경 분포를 모델링하기 위해, WBC 샘플의 코호트에서 배경 분포를 먼저 0-평창된 베타 분포를 통해
Figure pct00018
(단순하게 하기 위해, 위첨자 p 및 bc는 하기와 같이 내려감)로서 o-팽창된 베타 분포를 통해 모델링하였다. 모든 파라미터는 "배경 코호트"(B)로부터 추정된다. 이러한 모델에서, π1은 세트 B에서 샘플의 분율로서 추정되며, 그러한 위치는 bc로서 변경되어,
Figure pct00019
로 이어진다. Bp,bc로 표시된, 세트 B는 이후에 이들의 위치(p)가 bc로서 변경된 샘플로 제한된다. 이후에, 배경 세트에서 각 샘플에 대해, i∈Bp,bc, 20 랜덤 수는 베타 분포,
Figure pct00020
로부터 발생되며(0 및 1로 제한됨),
Figure pct00021
, 여기서,
Figure pct00022
은 위치 p를 bc에서와 같이 비-참조 대립유전자로 덮혀지는 샘플 i에서 지지 리드의 수이며,
Figure pct00023
는 위치 p에서 샘플 i에서 전체 깊이이다. 조합된 "인 실리코 배경 VAF 벡터"는 아래와 같이 정의된다:
Figure pct00024
다음으로, 이러한 위치에서 전체 베타 분포 파라미터를 하기와 같이 추정하였다: pB의 평균 및 표준 편차를 계산한 다음, αp,bc 및 βp,bc를 추론하기 위한 "모멘트 방법"을 사용하였다. 이러한 베타 분포는 관심 위치의 배경 샘플 중에서 확률론적 노이즈 인자를 효과적으로 포착할 것이다. 더욱 중요하게는, 배경 세트의 각각의 샘플은 칭량할 동일한 기회를 가질 것이다(상기 개별 샘플-변이체 작업으로부터의 20개의 무작위 추출로 인해).
nalt 지지 돌연변이 리드 및 n 전체 깊이(n=nref.+nalt)를 갖는 관찰된 변이체에 대해, "배경 코호트"로부터 추론된 것으로, 베이지안 유의성 값은
Figure pct00025
로서 계산되었다.
(2) cfDNA 베이지안 배경: 이러한 메트릭은 51개의 보류된 대조군 cfDNA 샘플(폐-CLiP 코호트로부터 완전히 보류된 "저위험 대조군")의 배경 분포와 비교하여 변이체의 VAF 사이의 차이의 유의성을 측정한다. 여기서, 세트 B로서 보류된 대조군 cfDNA 샘플을 사용하면서 상기 기재된 바와 동일한 방법을 사용하였다.
(3) 변이체 대립유전자 빈도(VAF %): 관심 변이체의 변이체 대립유전자 빈도.
(4) 생식계열 깊이: cfDNA에서 변이체의 VAF 및 WBC에서 변이체의 위치 깊이가 주어지면 매칭된 WBC에서 ≥ 2 지지 리드를 관찰할 확률.
(5) 평균 바코드 패밀리 크기: 관심 변이체를 지지하는 바코드-중복 제거된 cfDNA 분자의 평균 바코드 패밀리 크기(예를 들어, 각각의 독특한 cfDNA 분자를 지지하는 PCR 복제물의 평균 수).
(6) 짧은 단편 점수 1: ctDNA 풍부 단편 크기(< 160 bp 또는 230 내지 310 bp)에 대한 인 실리코 크기 선택 전 및 후에 변이체의 위치를 중첩시키는 돌연변이 및 비-돌연변이 리드 카운트를 비교하기 위해 피셔의 정확 시험을 수행함으로써 계산된 P-값. 참조 및 비-참조 카운트는 인실리코 크기 선택 전 및 후에 각각
Figure pct00026
,
Figure pct00027
,
Figure pct00028
Figure pct00029
로 표시되었다. 이어서, 이러한 카운트 및 염기 변화 상태 사이의 임의의 공동-연관의 p-값으로 분할표를 생성하였으며(ref. 대 alt.), cfDNA 단편 크기를 계산하였다. 최종 특징은 다음과 같이 정의된다:
Figure pct00030
(7) 짧은 단편 점수 2: 변이체를 지지하는 각각의 cfDNA 분자에는 이의 단편 크기에 기반한 농축 값이 할당된다. 단편 크기 가능성 비율(FSLR), 모든 단편 크기에 대한 λ(s), s ∈ [30,400]이 먼저 하기와 같이 정의되었다:
Figure pct00031
경험적 데이터를 사용하여, 이러한 양을 먼저 추정하고, 플러그인 접근법을 통해 FSLR을 다음과 같이 추정하였다:
Figure pct00032
여기서,
Figure pct00033
는 l=s 및 종양-판명된 변이체를 갖는 단편의 수를 나타내며,
Figure pct00034
는 돌연변이된 위치에서 야생형 대립유전자와 함께 길이 l=s를 갖는 단편의 수를 나타낸다. 이러한 정의에서, nmut 및 nwt는 각각 돌연변이 및 야생형 대립유전자(돌연변이 단편과 동일한 위치에 있음)를 갖는 단편의 총 수를 나타낸다. 다음으로, 제공된 변이체, 지지(야생형 및 돌연변이) 단편 {f1,f2,…,fm}을 갖는 vi에 대해, 상응하는 단편 크기 {s1, s2,…, sm}가 확인되었으며, 이후에, 점수는 하기와 같이 계산되었다:
Figure pct00035
(8) 전이/전환: 변이체의 염기 치환이 전이 또는 전환인 경우를 나타내는 이진 변수.
(9) 듀플렉스 지지체: 관심 변이체를 지지하는 듀플렉스 cfDNA 분자의 수.
(10) 이상치 컷오프 통과: 관심 변이체의 VAF가 추정되는 낮은 VAF 이상치 돌연변이를 확인하도록 설계된 각 샘플 내에 정의된 VAF 임계값 초과인 지의 여부를 나타내는 이진 변수.
(11) 맵핑 품질: 관심 변이체를 지원하는 리드의 평균 맵핑 품질.
(12) 폐암 핫스팟: COSMIC(CosmicGenomeScreens v85)에서 > 20개의 관찰을 갖는 폐암 드라이버 유전자의 돌연변이 및 EGFR, KRAS, NRAS 및 BRAF에서 표준 활성화 돌연변이를 나타내는 이진 특징.
(13) 보정된 UMI 오류: 변이체를 지원하는 모든 cfDNA 분자에 걸쳐 UID에서 수정된 평균 오류 수.
(14) Phred 품질: 변이체를 지원하는 모든 염기에 걸친 평균 Phred 품질 점수.
(15) 리드에서의 변이체 위치: 변이체를 지원하는 모든 시퀀싱 리드에 걸친 변이체의 평균 표준화된 위치.
각 변이체 SNVi,j가 p 특징으로 구성된 대조군에서 관찰된 것으로부터 환자에서 관찰된 cfDNA 돌연변이를 구별하기 위해 리브-원-아웃 교차 검증 프레임워크에서 모델을 훈련시켰다(상기 섹션, "SNV 모델 특징"에 기술됨). 이러한 모델 내에 중첩되어, 매칭된 종양과 폴딩된 훈련에서 환자의 서브세트에서 종양-판정된 변이체('종양-판정된 모델')와 비-판정된 변이체('종양-판정된 모델')를 구별하기 위해 엘라스틱 네트 로지스틱 회귀 모델을 훈련시킨 반-지도 학습 프레임워크를 이용하였다. 이후, 이러한 모델을 사용하여 표 2에 도시된 바와 같이 일치하는 종양 샘플이 없는 환자로부터의 변이체를 표지하였다.
표 2. 매칭되는 종양 샘플이 있거나 없는 환자로부터의 변이체의 표지.
Figure pct00036
표지가 할당되면, 환자 및 대조군의 모든 변이체를 조합함으로써, 완전한 특징 매트릭스 x를 생성하였다. y로 표시되는 반응 벡터는 "강한 표지"(예를 들어, 종양-판정된), "중간 표지"(예를 들어, 자가-학습 모델을 통해 표지된 종양이 없는 환자로부터의 변이체) 및 "약한 표지"(예를 들어, 매칭된 종양을 갖는 환자의 판정되지 않은 변이체 및 대조군의 변이체)의 조합이다. 이러한 소프트-표지를 도입하기 위해, 샘플을 하기와 같이 칭량하였다: "강한 표지"는 1의 가중치를 갖는 1의 표지를 가지며, "중간 표지"는 자가-훈련 모델(0 또는 1)로부터 할당된 이들의 표지를 가지며, 이들의 가중치(0 내지 1)는 이들을 표지하는데 있어서 모델의 신뢰도에 의해 결정되며, "약한 표지"는 1의 가중치를 갖는 0의 표지를 가질 수 있다. SNV 특징 매트릭스 및 상응하는 표지 및 가중치는 이후 정규화 파라미터에 대한 교차-검증과 함께 l1-정규화된 로지스틱 회귀(예를 들어, "이항" 패밀리를 갖는 라쏘(lasso)) 내에서 사용된다. 최소 교차 검증에 해당하는 정규화 파라미터는 이후 최종 모델에 사용된다. 이어서, 훈련된 모델을 사용하여 보류된 폴드의 모든 변이체(예를 들어, 보류된 대상체로부터의 변이체)를 스코어링하였다. 중요하게는, 내재 교차-검증을 사용하여 보류된 샘플에서 변이체가 변이체 점수(하기 설명됨)를 사용하여 감독된 환자 분류 전에 보이지 않음을 보장하였다.
내재 리브-원-아웃 프레임워크 내에서, 변이체 점수가 훈련의 모든 변이체에 할당되고 접힌 후, "환자 SNV 특징화"를 수행하여 각 샘플에서 다음과 같이 변이체 점수를 요약하였다:
각각의 샘플 j에 대해, 점수의 벡터를 발생하였으며, 각각의 SNV에 대해 하나씩,
Figure pct00037
, 여기서, nj는 분류 체계를 거치는 샘플에서 변이체의 총 수를 나타내는 음이 아닌 숫자이다. 각 샘플 벡터를 13개의 특징의 세트로 변환하기 위한 변환은 다음과 같이 정의되었다: f: s j → x j ∈ Rp, 여기서, p는 환자 분류에 사용될 수 있는 특징의 수이다. 입력 벡터의 차원은 샘플마다 다르기 때문에(예를 들어, 각 샘플에서 관찰된 SNV의 수는 상이함), 함수 f로서 요약 통계의 세트를 이용하였다. 이러한 특징은 하기에 요약되어 있다:
Figure pct00038
여기서, |.|는 세트의 카디널리티(cardinality)를 나타내며,
Figure pct00039
는 평균을 나타내며, sj,(1)는 가장 큰 차수 통계를 나타내고, sj,(2)는 두 번째로 큰 차수 통계를 나타낸다. 변이가 0인 경우, 0은 각 요약 통계에 대한 값으로 사용되었다. 하나의 변이를 갖는 경우에, sj,(2)에 대한 값으로 0이 사용되었다. 이러한 요약 통계에 추가하여, 변이체를 열거하는 3개의 추가 특징이 정의되었다: (1) 흡연 돌연변이 특징와 주로 관련된 염기 변화 치환(특징 4; C>A/G>T), (2) 노화 돌연변이 특징과 관련된 염기 변화 치환(특징 1; C>T/G>A), 및 (3) 각각
Figure pct00040
,
Figure pct00041
Figure pct00042
로 표시되는 이러한 특징을 갖는 폐암 핫스팟 돌연변이의 환자 수준 수.
이후, 13개의 변이체 요약 특징을 사용하여 각 개인의 점수를 매기기 위해 엘라스틱 네트(α=0.5를 가짐)를 사용하였다. 샘플 부트스트래핑(sample bootstrapping)(예를 들어, 훈련 샘플의 배깅(bagging))으로 엘라스틱 네트를 30회 실행하고, 평균 점수를 최종 점수로 취하였다. 엘라스틱 네트의 각 실행에서, CV-glmnet을 수행하여 최상의 정규화 파라미터를 수득하였다. 이러한 모델은 샘플 i에 대해
Figure pct00043
로 표시되는 SNV-기반 환자 분류 점수로 이어진다.
CNV 모델
카피 수 모델의 경우, 2개의 주석 목록을 사용하였다: (1) 게놈에 걸쳐 균일하게 분포된 5 MB 윈도우의 세트, 및 (2) 1,017개의 TCGA NSCLC 사례(예를 들어, "핫스팟 영역")에 대해 GISTIC2.0을 수행함으로써 확인된 반복적으로 변경된 영역. 이후에, "표적화된 시퀀싱으로부터 게놈-전체 카피 수 변이의 검출" 섹션에 기재된 바와 같이 이러한 영역에서 카피 수 변경을 호출하고, 배경 노이즈 및 구조적 또는 CH-유래 카피 수 이벤트를 제거하기 위해 하기 필터를 적용하였다(Z-점수 기반 필터에 대해, 본 발명자는 변경의 방향성을 고려함을 주목함):
I. Z-점수가 > 2.58인 카피 수의 절댁밧을 필요함
II. 절대 Z-점수 > 2.58로 보류된 대조군 cfDNA 샘플(n = 42)의 > 20%에서 관찰된 변경 제거
III. Z-점수가 > 2.58인 매칭된 WBC에서 관찰된 변경 제거
IV. cfDNA와 생식계열 Z-점수 사이에 > 0.5의 절대 차이를 필요함
V. 생식계열 배경 p-값 < 0.05를 필요함
VI. 대조군 배경 p-값 < 0.05를 필요함
VII. 염색체 19의 임의의 변경을 제거함.
이러한 임계값을 통과하는 5 MB 영역 및 GISTIC "핫스팟" 영역의 수는 카피 수 모델에서 특징으로서 사용된다. 이러한 카운트에 추가하여, 균일한 빈과 대조적으로 NSCLC에서 반복적으로 카피 수 변경된 것으로 알려진 영역(예를 들어, "핫스팟")에 대한 농축이 있는 지의 여부를 포착하는 세 번째 특징이 정의되었다. 이러한 특징은 변경된 5 MB 빈(총 500 빈)의 수를 변경된 GISTIC 빈(총 85 빈)의 수와 비교하기 위한 피셔 정확 검정으로부터 유래된 로그-확률의 10배 농축에 의해 서명된 P-값으로 정의된다. 이러한 3개의 변수가 사용되었다: (1) 필터링된 5 MB CNV 수 (2) 필터링된 GISTIC CNV 수 및 (3) 일반화된 선형 모델(예를 들어, "CNV 모델")에서의 특징으로서 피셔의 P-값. 이러한 모델은 최종 폐-CLIP 모델에서 각 샘플 i에 대해
Figure pct00044
로 표현된 점수로 이어진다.
통합된 폐-CLiP 분류기
마지막으로, 상기 2개의 모델(SNV 및 CNV 모델)을 조합하여 제공된 혈장 샘플이 폐암 ctDNA를 함유할 가능성을 생성하는 혈장 내 폐암 가능성(폐-CLiP) 분류 모델을 구축하였다. 여기서, 본 발명자는 SNV 모델 및 CNV 모델로부터 유래된 5개의 변수를 사용하며, 여기서,
Figure pct00045
Figure pct00046
는 샘플 i에 대한 SNV- 및 CNV-기반 환자 분류 점수를 나타내며, abs(.)는 절대값을 나타내며,
Figure pct00047
는 세트의 카디널리티를 나타내며, 각 샘플은 하기 식에 의해 인코딩된다:
Figure pct00048
이후 앙상블 분류기를 사용하여 각 개인에게 하기와 같이 최종 폐-CLiP 점수를 할당하였다. 5개의 상이한 분류 규칙을 사용하는 앙상블 분류기가 개발되었다: 5-최근접 이웃(5NN), 3NN, 나이브 베이즈, 로지스틱 회귀 및 결정 트리. 분류 규칙에 추가하여, 샘플을 부트스트래핑함으로써 샘플 배깅을 또한 수행하였다. 이후, 각 분류 규칙은 배깅 단계의 변형에 따라 벌점을 받는다. 모든 벌점 점수는 이러한 분류기에 대해 선형으로 결합되었다.
표적화된 시퀀싱으로부터 게놈-전체 카피 수 변이의 검출
카피 수 변이체(CNV)를 확인하기 위해, CAPP-Seq로부터의 온- 및 오프-표적 리드를 이용하였다. 간단히 말해서, CAPP-Seq 워크플로우의 각 라이브러리는 일반적으로 약 3천만 내지 6천만 개의 페어드-엔드(paired-end) 리드를 수신한다. 이러한 리드는 인간 게놈(빌드 hg19, GRCh37)에 맵핑되며, 리드의 약 60% 내지 80%는 표적화된 게놈 좌표에 속한다("온-표적 리드"). 리드의 나머지 약 20% 내지 40%는 주로 인간 게놈의 나머지에 맵핑되는 리드로 구성된다("오프-표적 리드"). 표적화된 시퀀싱 공간의 심도 데이터를 오프-표적 공간의 저역 통과 데이터와 조합하기 위해, 이러한 리드 세트 각각을 별도로 처리한 다음, 통계적 통합을 수행하였다.
표적화된 시퀀싱 공간에서 CNV를 검출하기 위해, 표준화된 위치-수준 깊이의 벡터를 다음과 같이 생성하였다. 바코드-중복 제거된 BAM 파일로부터 시작하여, 다음을 수행하였다: (1) 'bedtools genomcov'를 사용하여 선택기의 각 위치에서 깊이의 벡터를 생성하는 단계; 약 355kb 선택자의 경우, 이는 355,000 × 1 벡터를 생성하고; (2) 이러한 벡터를 중간 값으로 표준화하고; (3) GC 보정을 수행한다. GC 보정은 다음과 같이 수행되었다: 먼저, 선택기의 모든 위치에 게놈에서의 위치를 둘러싸는 201-bp 윈도우에 기반하여 GC-함량 값이 할당되었다. 이어서, 깊이 대 GC-함량을 플롯팅함으로써 깊이의 LOESS 적합을 수행하였다; 이러한 LOESS-피트를 사용하여 GC-바이어스를 제거하였다. GC 보정 후, 각 샘플을 (4) 12개의 보류된 대조군 cfDNA 샘플로부터 유래된 중간 깊이 벡터로 표준화하였다. 마지막으로, 각 시퀀싱 레인에서 관찰된 배치 효과를 제거하기 위해, (5) 시퀀싱 레인에서 각 샘플의 LOESS 적합을 시퀀싱 실행에서 나머지 모든 샘플의 중앙값 깊이에 대해 수행하였다. 이후에, 이러한 값의 log2를 계산하였다; 이러한 값, 즉, 카피 수 비율(L2CNR)의 log2는 온-타겟 공간의 각 위치에서 각 샘플의 표준화된 카피 수 상태를 반영하였다.
온-타겟 L2CNR 벡터는 0을 중심으로 하고, - 및 + 무한대에 의해 경계가 지정되며, 분산은 σ2이다. 모든 위치의 카피-수 변경 상태의 통계적 신뢰 수준을 얻기 위해, σ를 추정할 필요가 있다. 미지의 CN 프로파일을 갖는 M 온-표적 위치를 갖는 새로운 샘플을 고려하여, 벡터가 계산된다:
Figure pct00049
여기서, 각 위치에서, i ∈ {1, …, M}은 표준 편차 σi와 함께 μi(진정한 log2 카피 수-비율)를 중심으로 하는 정규 분포로부터 도출되는 것으로 기술될 수 있는 L2CNR을 갖는다. 모든 σi는 동일한 것으로 가정되었다, 즉, σi = σj =
Figure pct00050
. 샘플-수준 표준 편차 σ를 추정하기 위해, 서브벡터
Figure pct00051
에서, κ의 작은 값에 대해
Figure pct00052
인 것으로 가정되었다. 즉, 2개의 위치에 대한 진정한 L2CNR은 게놈 공간의 작은 영역에 걸쳐 동일할 것이다. 따라서, 서브벡터
Figure pct00053
에 걸친 표준 편차 σ는 샘플-전체 표준 편차의 추정치를 나타낸다. 선택기-공간에서 κ=5,000 연속 위치의 서브벡터를 사용하여 표준 편차를 추정하였다; 10,000개의 이러한 서브샘플링에 대한 중앙값을 주어진 샘플에 대한 표준 편차의 최종 추정치로 취함. 마지막으로, 각각의 샘플에서 위치 수준 z-점수, zL2CNR을 얻었다:
Figure pct00054
따라서, zL2CNRi는 표준 편차 1, 즉, 표준 정규 분포를 갖는 0을 중심으로 하는 각 위치의 카피-수 상태의 추정치를 제공한다. z-점수의 이러한 생산은 샘플이 상이한 시퀀싱 깊이에 걸쳐 비교될 수 있게 한다. 유사한 절차를 통해 z-점수가 임의의 크기의 온-표적 공간의 영역에 할당될 수 있다.
오프-표적 공간에서 CNV를 확인하기 위해, samtools-중복 제거된 BAM 파일('samtools rmdup')로부터 시작하여, 다음을 수행하였다: (1) 게놈을 100 kb 윈도우로 분할하고; (2) 각 윈도우에 속하는 오프-표적 리드의 수를 카운트하고 샘플에서 시퀀싱 리드의 총 수에 대해 표준화한다. 이후, 윈도우 당 표준화된 리드 카운트는 (3) LOESS 회귀에 의해 GC-함량에 대해 보정되고, 12개의 보류된 대조군 cfDNA 샘플의 코호트로부터 예상된 리드 카운트로 표준화된다. (4) 표적화된 시퀀싱 패널의 좌표를 포함하거나 12개의 보류된 대조군 cfDNA 샘플의 코호트 중에서 높은 분산을 나타내는 윈도우는 이후 제외된다. 윈도우 당 표준화된 리드 카운트의 이러한 벡터는 정상 이배체 대조군 샘플에 대한 log2 카피 수 비율(L2CNR)로 표현된다. 온-타겟 CNV 치료와 유사하게, 각각의 100 kb 빈은 이제 0을 중심으로 하고 - 및 + 무한대로 경계를 이루는 L2CNR 값을 포함하며, 분산은 σ2이다. 여기서, 각각의 빈은 표적-시퀀싱 공간에서의 위치와 유사하게 처리되었고, 게놈에 걸쳐 100개의 인접한 빈의 서브샘플링된 벡터(즉, κ=100)를 취하고 표준 편차를 취함으로써 샘플-수준 분산이 발견되었다. 이러한 서브샘플링은 10,000회 수행되었으며, 중앙값은 샘플 전체 분산의 추정치를 나타낸다. L2CNR의 100 kb 빈 벡터를 이러한 추정치 σ로 나누는 것은 0을 중심으로 하는 빈-수준 zL2CNR을 제공하였고, 표준 편차는 1이었다.
온 및 오프-표적 데이터로부터의 카피-수 상태의 추정치를 조합하기 위해, 게놈을 먼저 5 MB 영역으로 비닝하였다. 이어서, 5 MB 영역 내에 함유된 표적-상염기 및 그 5 MB 영역 내에 함유된 오프-표적 100 kb 빈으로부터 카피 수 상태에 대해 z-점수를 계산하였다. 이후, 이러한 2개의 z-점수 추정치를 Stouffer의 방법을 통해 조합하여, 주어진 5 MB 영역의 카피 수 상태에 대한 단일의 통합 z-점수를 제공하였다.
종양-정보에 기반한 ctDNA 검출을 위한 카피 수 상태 조정
종양-정보에 기반한 ctDNA 검출을 수행할 때, 1) 서브클로날 돌연변이 및 2) 유의한 카피 수 변경을 갖는 종양의 영역과 겹치는 돌연변이의 혈장 변이체 대립유전자 빈도(VAF)를 조정하였다. 종양 샘플에서 확인된 돌연변이의 클론성을 결정하기 위해, ABSOLUTE를 사용하여 각각의 체세포 돌연변이를 보유하는 종양 세포의 분획(즉, 암 세포 분획, CCF)을 추정하였다. CCF 신뢰 구간의 상한이 < 0.95인 돌연변이는 서브클로날인 것으로 간주되었고, 이러한 돌연변이의 혈장 VAF에 1/CCF를 곱하였다(여기서, CCF는 돌연변이의 암 세포 분획임).
또한, 종양의 영역과 중첩하는 돌연변이의 혈장 VAF는 상당한 카피 수 변경으로 조정되었다. 이러한 조정은 종양 돌연변이가 혈장에서 관찰되었고 돌연변이가 절대 값 Z 점수 >2.58(즉, CNV 검출에 대한 이론적 1% 위양성률) 및 절대 log2 카피 수 비율(L2CNR) > 0.25(이들 메트릭에 대한 세부사항은 "표적화된 시퀀싱으로부터 게놈-전체 카피 수 변이의 검출"에 제공됨)를 갖는 카피를 갖는 종양의 카피 수-변경 영역과 중첩된 경우에만 수행되었다. 이러한 영역에 속하는 돌연변이의 VAF는 다음과 같이 조정되었다:
I. 샘플의 종양 순도는 카피 중성 영역에 속하는 모든 돌연변이의 평균 VAF의 2배로 계산되었다. 카피 중성 영역에 돌연변이가 존재하지 않는 경우, ABSOLUTE를 사용하여 게놈-전체 세그먼트화된 카피 번호 호출 및 입력으로 사용된 점 돌연변이의 위치 및 VAF를 사용하여 이전에 기재된 바와 같이7 종양 순도를 추정하였다.
II. 다음이 가정되었다:
a. 결실된 영역의 돌연변이는 결실된 대립유전자에 없었다(그렇지 않으면 관찰되지 않았을 것이다).
b. 증폭된 영역에서의 돌연변이는 돌연변이의 2배 VAF가 종양 순도보다 큰 경우 증폭된 대립유전자 상에 있는 것으로 가정되었다.
c. 증폭된 영역에서의 돌연변이는 돌연변이의 2배 VAF가 종양 순도 미만인 경우(WT 대립유전자가 증폭된 경우) 증폭된 대립유전자에 없는 것으로 가정되었다.
III. 이후에, 종양에서 카피 수-변경된 대립유전자의 카피 수 상태(CNS)를 사용하여 다음과 같이 혈장에서 관찰된 돌연변이의 VAF를 조정하는 데 사용된 조정 인자를 계산하였다:
a. CNS는 다음과 같이 정의된다:
i. NS = (2^L2CNR) * 2 - 1
b. 돌연변이가 종양의 결실된 영역에 속하는 경우:
i. 조정 인자 = 돌연변이체 VAF*CNS
c. 돌연변이가 증폭된 대립유전자 상의 종양의 증폭된 영역에 속하는 경우:
i. 조정 인자 = 돌연변이 VAF/CNS
d. 돌연변이가 비-증폭 대립유전자 상의 종양의 증폭된 영역에 속하는 경우
i. 조정 인자 = 돌연변이체 VAF*CNS
종양의 카피 수 상태에 기반한 이러한 조정 후, 모니터링에 사용된 모든 종양 변이체의 대립유전자 분획을 평균화함으로써 각 샘플에 대한 ctDNA 대립유전자 분획을 계산하였다.
CAPP-seq 분자 생물학 워크플로우의 인 실리코 시뮬레이션
CAPP-Seq로부터 게놈 등가 회복을 최적화하기 위해, 혈장 무세포 DNA 분자에서 시작하여 시퀀싱 리드로 끝나는 분자 생물학 워크플로우의 이상화된 시뮬레이션이 개발되었다. 확률적 이항 샘플링에 기반한 이 모델은 상이한 분자 생물학 조건의 시뮬레이션을 가능하게 하고 각 단계에서 시퀀싱에 의해 관찰된 독특한 분자의 수를 추정하였다. 이러한 모델의 목적을 위해, 인간 게놈의 200 kb 부분을 표적화하는 일반 CAPP-Seq 선택자가 고려되었다. 인간 게놈으로부터 무작위로 추출된 32 ng의 cfDNA(반수체 보체의 크기가 3×109 bp인 것으로 추정됨)의 총 입력 질량 및 170 bp의 평균 cfDNA 분자 크기를 가정하면, 총 하기를 갖는 것으로 예상되었다:
Figure pct00055
인 실리코 모델에서, 이러한 cfDNA 분자 각각은 독립적으로 고려되었다. 또한, 각각의 cfDNA 분자는 독립적으로 고려되는 상부 및 하부 가닥(즉, 'Watson' 및 'Crick' 가닥)을 갖는 것으로 가정되었다. 특정 분자가 듀플렉스로서 회수되지 않을 수 있다는 관찰(즉, 과잉-시퀀싱에도 불구하고 Watson 및 Crick 둘 모두가 회수될 수 없음)을 설명하기 위해, 30% 단일-가닥 '닉율(nick rate)'이 모델에 포함되었다. 하기 작업이 모델에서 고려되며, 효율은 도시되어 있다:
Figure pct00056
여기서, '효율'은 분자가 워크플로우 단계를 성공적으로 통과할 확률로 정의되었다. 예를 들어, 어댑터 결찰에 대한 0.8의 효율은 각각의 개별 분자가 어댑터를 성공적으로 결찰할 확률이 80%임을 의미한다. 증폭 작업의 경우, 효율 1.5는 PCR의 각 라운드가 평균적으로 DNA의 50% 증가를 초래한다는 것을 의미하며, 따라서 각 분자는 각 사이클에서 50%의 증폭 기회를 갖는다. 여기서, 각 작업의 효율은 CAPP-Seq 워크플로우의 사전 지식 및 예상되는 DNA 농도로부터 추정되었다. 특히, 하이브리드 포집의 효율에 대한 신뢰할 수 있는 추정치가 없었으므로, 다양한 포집 효율이 고려되었다. '시퀀싱'은 최종 분자의 풀을 고정된 수의 분자로 다운샘플링함으로써 모델링된다.
이러한 인실리코 모델에서, 원래의 듀플렉스 DNA 분자로부터의 각각의 원래 DNA 가닥(예를 들어, 각각의 '왓슨(Watson)' 및 '크릭(Crick)' 가닥)은 독립적으로 고려되었다. 워크플로우의 각 작업을 통해, 이항 샘플링을 위한 MATLAB 'binornd' 기능에 의해 수행되는 증폭 및 다운샘플링과 함께, DNA의 각각의 원래 Watson 및 Crick 가닥의 PCR 복제물의 수가 추적된다.
캡처에 들어가는 사전-포획 라이브러리의 양을 8.3%에서 100%로 다양하게 하여 다중 모델 시뮬레이션을 수행하였다. 각 모델 실행으로부터 예상되는 고유한 분자 깊이 및 듀플렉스 깊이를 결정하기 위해, 200 kb 선택자에 걸쳐 170 bp 분자의 균일한 적용 범위를 가정하였다. 따라서, 추정된 고유 분자 깊이는 다음과 같이 계산되었다:
Figure pct00057
그리고 듀플렉스 깊이는 다음과 같이 추정되었다:
Figure pct00058
액적 디지털 PCR
환자 및 대조군의 서브세트에서 관찰된 15개의 WBC+ cfDNA 돌연변이의 직교 검증을 액적 디지털 PCR(ddPCR)을 사용하여 수행하였다. Bio-Rad로부터 입수한 시약, 프라이머, 및 프로브를 사용하여 Bio-Rad QX200 기기에서 ddPCR을 수행하였다. 4개의 개인 돌연변이 뿐만 아니라 11개의 cfDNA 샘플에서 관찰된 DNMT3A 및 JAK2에서의 2개의 재발성 핫스팟 돌연변이가 검증되었다. cfDNA 및 WBC gDNA 구획 둘 모두에서 ddPCR에 의해 검증된 시험된 돌연변이의 100%(15/15)가 CAPP-Seq 및 ddPCR에 의해 정량화된 VAF가 유의하게 상관관계가 있는 것으로 밝혀졌다(도 66a).
통계 데이터 분석
R(버전 3.4.0 및 3.5.2) 및 MATLAB(R2018a) 및 GraphPadPrism7(버전 8.3.0)에서 통계 분석을 수행하였다. 폐-CLiP 분류 프레임워크는 R 패키지 glmnet, caret, ETC, pROC, survival, optparse 및 MASS를 사용한다. 전체에 걸쳐 사용된 통계적 시험은 윌콕슨 순위-합 검정(양측), 쌍별 t-검정(양측), 피셔 정확 검정, 피어슨 상관관계, 스피어만 상관관계 및 Cox 비례 위험 모델을 포함한다. 피어슨 또는 스피어만 상관관계에 의해 일치도를 평가할 때, 통계적 유의성은 F-검정에 의해 평가되었다. 생존 확률은 카플란-마이어(Kaplan-Meier) 방법을 사용하여 추정되었고, ctDNA 수준에 기반한 환자 그룹의 생존은 로그-순위 검정을 사용하여 비교되었다. ctDNA 수준의 임상 상관관계의 다변수 분석을 로지스틱 회귀에 의해 수행하였다. 민감도 및 AUC 추정치에 대한 신뢰 구간은 훈련 및 검증 코호트에서 폐-CLiP 분류 점수의 1,000 부트스트랩 재샘플링에 의해 생성되었다. 폐-CLiP 검증 코호트에 대한 적절한 크기를 결정하기 위해 전력 분석을 수행하였다. 훈련 코호트에서 결정된 바와 같이 특이성이 98%라고 가정하면, 48명의 대조군은 진정한 특이성이 >= 90%임을 검출하기 위해 80% 검정력을 가질 것으로 계산되었다(단측 알파를 갖는 1개 암 이항 검정 = 0.05). 종양-정보에 기반한 ctDNA 검출에 대한 통계적 유의성을 몬테카를로-기반 ctDNA 검출 지수로 결정하였다. 선택된 돌연변이 세트에 대한 흡연 돌연변이 특징 기여의 통계적 유의성은 SNV 표지를 치환함으로써 수행되었다.
표 3. NSCLC-초점 CAPP-Seq 선택기 요약.
Figure pct00059
Figure pct00060
표 4. 훈련 및 검증 코호트에서 NSCLC 환자 및 위험 일치 대조군에 대한 폐 CLiP 점수.
Figure pct00061
Figure pct00062
Figure pct00063
Figure pct00064
Figure pct00065
Figure pct00066
Figure pct00067
실시예 2: 시작 점수: 순환하는 종양 DNA를 검출하기 위한 시퀀싱 리드의 게놈 위치 분석
무세포 DNA(cfDNA)의 분석은 암 검출, 요법 모니터링 및 돌연변이 유전자형에 대한 적용과 함께 종양학에서 중요한 기술이다. 여기서, 표적화된 cfDNA 시퀀싱 데이터를 사용하여, 폐암 환자와 비-암 대조군을 비교할 때 cfDNA 단편 시작 및 끝 게놈 위치에서 스테레오타입화된 차이가 존재하는 것으로 밝혀졌다. 따라서, cfDNA의 시작 및 종료 게놈 위치는 개인에서 폐암 진단을 돕기 위해 이용될 수 있다. 예를 들어, 개인의 생물학적 샘플의 cfDNA 분자 세트의 시작 및 종료 게놈 위치는 개인의 폐암을 진단하기 위해 훈련된 기계 학습 분류기를 사용하여 분석될 입력 특징의 세트로서 사용될 수 있다.
방법
cfDNA를 CAPP-Seq를 통해 하기에 기재된 훈련 및 검증 코호트에서 폐암 환자 및 비암 대조군으로부터 사례의 경우 23,570x/5,012x(명목/고유)의 깊이 및 19,534x/4,075x의 깊이로 시퀀싱하였다. 위험-매칭된 제어를 위해. 샘플을 시퀀싱하고, 시퀀싱 데이터를 하기와 같이 처리하였다: 시퀀싱 전에, 폐암에서 반복적으로 돌연변이된 255개의 유전자 및 클론 조혈과 정규적으로 관련된 11개의 유전자를 표적화하는 맞춤형 355 kb NSCLC-집중 패널을 사용하여 하이브리드 포획 농축을 수행하였다. 시퀀싱 리드를 인간 게놈(hg19, GRCh37)에 맵핑한 다음, 바코드-매개 PCR 중복 제거를 수행하여 각 게놈 위치에서 고유한 단편의 수의 정확한 카운트를 얻었다. 중복제거 후, 각 샘플의 각 위치에서 시작하고 끝나는 단편의 수를 훈련 사례 및 대조군에 걸쳐 평가하였고, 총 단편 수 * 1,000,000(예를 들어, 백만 당 카운트(CPM))으로 표준화하였다. 다시 말해, 시작 CPM의 정량적 측정의 세트는 총 단편 수 * 1,000,000으로 표준화된 훈련 사례 및 대조군에 걸쳐 각 샘플의 각 위치에서 시작하는 단편의 수에 의해 결정되었다. 유사하게, 최종 CPM의 정량적 측정의 세트는 총 단편 수 * 1,000,000으로 표준화된 훈련 사례 및 대조군에 걸쳐 각 샘플의 각 위치에서 끝나는 단편의 수에 의해 결정되었다.
cfDNA 시퀀싱 데이터는 먼저 실시예 1에 기재된 혈장(폐-CLiP) 모델에서 폐암 가능성을 확립하는 데 사용된 104명의 폐암 환자 및 56명의 위험-매칭된 대조군의 훈련 코호트로부터 분석되었다. 각각의 샘플에 대해, 시퀀싱을 위해 표적화된 각각의 게놈 좌표에서 시작하는 cfDNA 단편의 수 및 끝나는 수를 염기쌍 분해능에서 평가하였다. 이후, 폐암 사례 및 위험-매칭된 대조군을 비교하여 제공된 시작 또는 종료 위치를 갖는 단편의 빈도의 정량적 차이를 평가하였다(상기 기재된 바와 같이 CPM으로 정량화됨). 마지막으로, 폐암 환자에서 단편 시작 또는 단편 종료 위치가 풍부한 게놈 위치를 확인한 후, 훈련 코호트에서 폐암 환자를 위험-매칭된 대조군과 구별하기 위해 분류기를 구축하였다. 분류기는 2개의 독립적인 검증 코호트에 적용되었으며, 첫 번째는 46명의 폐암 환자 및 48명의 위험-매칭된 대조군(폐-CLiP 연구에서 고려된 동일한 검증 코호트) 뿐만 아니라 제2의 독립적인 검증 코호트(새로운 코호트가 아닌 폐-CLiP 연구에서 고려됨) 24명의 폐암 환자 및 54명의 저위험 대조군(나이 및 흡연 이력에 기초하여 위험이 일치하지 않는 대조군)을 포함한다.
결과
단편 시작 위치의 현저하게 스테레오타입화된 특성이 시퀀싱 패널 전반에 걸쳐 관찰되었다(도 67). 특정 게놈 위치는 단일 염기-쌍 분해능에서 위험-매칭된 대조군으로부터 사례(예를 들어, 폐암 환자)를 구별할 수 있었다. 각 위치에서 시작 위치 CPM에 대해 3개의 개별 통계 시험을 수행하였다. 먼저, 사례와 대조군 사이의 시작 CPM 분포에 대해 t-검정을 수행하였다. 둘째, 이용 가능한 종양 조직을 갖는 환자의 서브세트에서 종양-정보를 기반한 SNV에 의해 평가된 바와 같이, 시작 CPM의 상관관계를 순환 종양 DNA(ctDNA) 변이체 대립유전자 빈도에 대해 평가하였다. 마지막으로, 대사 종양 부피(MTV)에 대한 개시 CPM의 상관관계를 평가하였다. 이러한 통계적 시험으로부터의 3개의 p-값을 피셔의 방법을 통해 조합하였다. 명목상 통계적으로 유의한 P-값(즉, < 0.05)을 갖는 위치는 이후 대조군으로부터 사례를 분리하기 위해 유익한 것으로 선택되었다. 총 8,192개의 이러한 위치가 시퀀싱 결과에 걸쳐 확인되었다.
모든 8,192개의 정보 위치에 걸쳐 백만 당 시작 카운트(CPM)의 정량적 측정치의 세트를 합하여 주어진 샘플에 대한 '시작 점수'를 생성하였고, 이는 폐암 환자를 비-암 대조군으로부터 분류하거나 구별하는데 사용될 수 있다. 중요하게는, 시작 점수는 ctDNA 종양 대립유전자 분획 및 대사성 종양 부피를 포함하는 질병 부담의 생물학적 측정과 상관관계가 있었다(도 68). 따라서, 시작 점수는 신생물(예를 들어, 폐암)의 ctDNA 종양 대립유전자 분획 및/또는 대사 종양 부피를 결정하기 위해 분석될 수 있다.
시작 점수와 폐-CLiP 사이의 상관관계를 또한 평가하였다. 흥미롭게도, 시작 점수는 훈련 코호트에서 폐-CLiP 점수와 유의하게 상관관계가 있었지만, 검증 세트에서는 상관관계가 감소하였고, 이는 단편 시작 포지셔닝이 독립적인 분류 유용성을 갖는 SNV 및 SCNA에 생물학적으로 직교하는 특징을 나타낸다는 것을 나타낸다(도 69).
훈련 코호트 및 2개의 독립적인 검증 코호트를 포함하는 3개의 개별 코호트에서 폐암 환자를 비-암 대조군과 구별하기 위한 스타트업 점수의 유용성을 평가하였다. 스타트업 점수는 시험된 각 코호트에서 대조군보다 폐암 환자에서 더 높았다(도 70). 중요하게는, 대조군과 폐암 환자를 구별하기 위한 시작 점수의 성능은 훈련 및 검증 코호트에서 유사하였다(훈련에서 AUC = 0.82, 검증 세트 1에서 AUC = 0.86, 검증 세트 2에서 0.80)(도 71 및 도 72).
등가의 교리
상기 설명은 많은 특정 구현예를 포함하지만, 이들은 본 발명의 범위를 제한하는 것으로 해석되어서는 안 되며, 오히려 이의 한 구현예의 예로서 해석되어야한다. 따라서, 본 발명의 범위는 예시된 구현예가 아니라 첨부된 청구범위 및 이들의 균등물에 의해 결정되어야 한다.

Claims (78)

  1. DNA 분자로서,
    생물학적 샘플로부터 얻거나 유래된 핵산 세그먼트로서, DNA인 핵산 세그먼트;
    결찰 생성물을 생성하기 위해 상기 핵산 세그먼트에 결찰된 오류 수정 고유 식별자의 쌍 - 상기 핵산 세그먼트에 측접하고, 각각이 DNA 세그먼트이고, 시퀀싱 판독의 세트에 제시된 다른 핵산 세그먼트에 대한 상기 핵산 세그먼트의 고유 확인을 집합적으로 제공하는 -; 및
    결찰 생성물에 부착된 오류 수정 이중 인덱스 샘플 바코드의 쌍 - 각각이 DNA 세그먼트이고, 시퀀싱 판독의 세트에 제시된 다른 생물학적 샘플에 대한 생물학적 샘플의 고유 확인을 집합적으로 제공하는 - 을 포함하는, DNA 분자.
  2. 제1항에 있어서,
    상기 핵산 세그먼트는 상보적 DNA(cDNA)인, DNA 분자.
  3. 제1항 또는 제2항에 있어서,
    상기 핵산 세그먼트는 무세포 DNA 샘플로부터 얻거나 유래된 것인, DNA 분자.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 오류 수정 이중 인덱스 샘플 바코드의 쌍은 결찰 생성물에 측접하는, DNA 분자.
  5. 제1항 내지 제4항 중 어느 한 항에 따른 복수의 DNA 분자를 포함하는, 집합물.
  6. 시퀀싱을 위한 DNA 라이브러리를 제조하는 방법으로서,
    부분 Y-어댑터의 쌍이 복수의 핵산 세그먼트에 결찰되어 부분 Y-어댑터의 쌍에 의해 복수의 핵산 세그먼트 각각에 측접하여, 복수의 결찰 생성물을 생성하는 단계
    - 상기 복수의 핵산 세그먼트 각각은 DNA이고, 상기 복수의 핵산 세그먼트는 생물학적 샘플로부터 얻거나 유래되고,
    상기 부분 Y-어댑터의 쌍 각각은 그라프팅 중합효소 연쇄 반응에서 어닐링할 프라이머에 대한 오류 수정 고유 식별자 및 서열을 포함하고, 그리고
    상기 복수의 핵산 세그먼트 각각에 대한 오류 수정 고유 식별자의 쌍은 상기 복수의 핵산 세그먼트 내의 다른 핵산 세그먼트에 대한 상기 핵산 세그먼트의 고유 확인을 집합적으로 제공하는 - 를 포함하고,
    상기 복수의 결찰 생성물 각각에 오류 수정 이중 인덱스 샘플 바코드의 쌍을 그라프팅하여 상기 오류 수정 이중 인덱스 샘플 바코드에 의해 상기 결찰 생성물에 측접하는 - 상기 오류 수정 이중 인덱스 샘플 바코드는 생물학적 샘플의 고유 확인을 집합적으로 제공하는 -, 방법.
  7. 제6항에 있어서,
    상기 핵산 세그먼트는 상보적 DNA(cDNA)인, 방법.
  8. 제6항 또는 제7항에 있어서,
    상기 생물학적 샘플은 무세포 DNA 샘플을 포함하는, 방법.
  9. 제6항 내지 제8항 중 어느 한 항에 있어서,
    상기 오류 수정 이중 인덱스 샘플 바코드는 DNA 라이브러리에 제시된 다른 생물학적 샘플에 대한 상기 생물학적 샘플의 고유 확인을 집합적으로 제공하는, 방법.
  10. 개체에서 신생물을 검출하는 방법으로서,
    복수의 무세포 핵산 분자의 무세포 핵산 시퀀싱 판독을 얻거나 얻은 것을 갖는 단계 - 상기 복수의 무세포 핵산 분자는 상기 개체의 제1 신체 샘플로부터 얻거나 유래되는 -;
    복수의 세포 유래 핵산 분자의 세포 유래 핵산 시퀀싱 판독을 얻거나 갖는 얻은 것을 갖는 단계 - 상기 복수의 세포 유래 핵산 분자는 상기 개체의 제2 신체 샘플로부터 얻거나 유래되는 -;
    상기 무세포 핵산 시퀀싱 판독 및 상기 세포 유래 핵산 시퀀싱 판독 모두에 존재하는 단일 뉴클레오티드 변이체를 확인하거나 확인된 것을 갖는 단계;
    제1 계산 모델을 확인된 단일 뉴클레오티드 변이체에 적용하는 것에 적어도 부분적으로 기초하여, 상기 무세포 핵산 시퀀싱 판독이 신생물로부터 유래된 무세포 핵산 분자를 나타내는 뉴클레오티드를 함유하는지 여부를 결정하거나 결정된 것을 갖는 단계
    - 상기 제1 계산 모델은 신생물이 있는 개체의 제1 세트 및 신생물이 없는 대조군 개체의 제2 세트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 이용하여 구축되고,
    상기 제1 계산 모델은 다음 특징: 세포 유래 DNA 베이지안 배경, 무세포 DNA 베이지안 배경, 생식세포계열 깊이, 짧은 단편 점수 1, 짧은 단편 점수 2, 무세포 DNA 분자의 게놈 시작 위치 및 종료 위치, 및 이들의 임의의 조합 중 하나 이상을 통합하는 -; 를 포함하고,
    상기 무세포 핵산 시퀀싱 판독이 신생물로부터 유래된 무세포 핵산 분자를 나타내는 상기 뉴클레오티드를 함유한다는 결정에 적어도 부분적으로 기초하여 개체에서 신생물을 검출하는, 방법.
  11. 제10항에 있어서,
    상기 제1 계산 모델은 전이/전환, 듀플렉스 지지체, 통과 이상값, 매핑 품질, 암 핫스팟, UMI 오류 수정, Phred 품질 점수, 변이체 대립유전자 빈도(VAF %), 평균 바코드 패밀리 크기, 무세포 DNA 분자의 변이체 위치, 다유전자 위험 점수, 뉴클레아제 모티프 및 이들의 조합 중 하나 이상의 기능을 추가로 통합하는, 방법.
  12. 제10항 또는 제11항에 있어서,
    상기 제1 신체 샘플 및 상기 제2 신체 샘플은 동일한 혈액 샘플로부터 얻거나 유래되고, 혈액 생검은 무세포 분획 및 세포 분획으로 분리되고, 상기 무세포 핵산 분자는 상기 무세포 분획으로부터 얻거나 유래되고, 상기 세포 유래 핵산 분자는 상기 세포 분획으로부터 얻거나 유래되는, 방법.
  13. 제10항 내지 제12항 중 어느 한 항에 있어서,
    상기 확인된 단일 뉴클레오티드 변이체 중 하나 이상은 분석으로부터 제거되고, 상기 제거된 단일 뉴클레오티드 변이체는 클론 조혈 유전자로부터의 변이체를 포함하는, 방법.
  14. 제10항 내지 제13항 중 어느 한 항에 있어서,
    상기 확인된 단일 뉴클레오티드 변이체 중 하나 이상은 분석으로부터 제거되고, 상기 제거된 단일 뉴클레오티드 변이체는 상기 세포 유래 핵산 시퀀싱 판독에 존재하는 변이체를 포함하는, 방법.
  15. 제10항 내지 제14항 중 어느 한 항에 있어서,
    상기 무세포 핵산 시퀀싱 판독 및 상기 세포 유래 핵산 시퀀싱 판독 모두에 존재하는 카피 수 변이를 확인하거나 확인된 것을 갖는 단계; 및
    제2 계산 모델을 상기 확인된 카피 수 변이에 적용하는 것에 적어도 부분적으로 기초하여, 상기 무세포 핵산 시퀀싱 판독이 신생물로부터 유래된 무세포 핵산 분자를 나타내는 뉴클레오티드를 함유하는지 여부를 결정하거나 결정된 것을 갖는 단계
    - 상기 제2 계산 모델은 신생물이 있는 개체의 제3 세트 및 신생물이 없는 대조군 개체의 제4 세트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 이용하여 구축되고,
    상기 제2 계산 모델은 다음의 특징: 다수의 균일하게 분포된 게놈 윈도우 영역, 다수의 GISTIC "핫스팟" 영역, 균일한 윈도우와 비교하여 GISTIC "핫스팟" 영역의 풍부화, 및 이들의 임의의 조합 중 하나 이상의 기능을 통합하는 - 를 추가로 포함하는, 방법.
  16. 제10항 내지 제15항 중 어느 한 항에 있어서,
    상기 무세포 핵산 시퀀싱 판독 내에서 복수의 고유한 시퀀싱된 무세포 핵산 분자 각각의 제1 뉴클레오티드 및 마지막 뉴클레오티드의 게놈 위치를 확인하거나 확인된 것을 갖는 단계;
    상기 복수의 고유한 시퀀싱된 무세포 핵산 분자 각각의 제1 뉴클레오티드 및 마지막 뉴클레오티드의 확인된 게놈 위치의 빈도를 결정하거나 결정된 것을 갖는 단계; 및
    제3 계산 모델을 상기 복수의 고유한 시퀀싱된 무세포 핵산 분자 각각의 제1 뉴클레오티드 및 마지막 뉴클레오티드의 상기 확인된 게놈 위치의 빈도에 적용하는 것에 적어도 부분적으로 기초하여, 상기 무세포 핵산 시퀀싱 판독이 신생물로부터 유래된 무세포 핵산 분자를 나타내는 뉴클레오티드를 함유하며, 상기 제3 계산 모델은 신생물이 있는 개체의 제5 세트 및 신생물이 없는 대조군 개체의 제6 세트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 사용하여 구축됨을 결정하거나 결정된 것을 갖는 단계를 추가로 포함하는, 방법.
  17. 제16항에 있어서,
    상기 제1 계산 모델, 상기 제2 계산 모델, 및 상기 제3 계산 모델 각각으로부터 신뢰 점수를 생성하는 단계; 및
    상기 개체가 신생물을 가지고 있는지 여부를 나타내는 요약된 점수를 생성하기 위해 상기 신뢰 점수를 통합하는 단계를 추가로 포함하는, 방법.
  18. 제10항 내지 제17항 중 어느 한 항에 있어서,
    검출된 신생물에 적어도 부분적으로 기초하여 상기 개체에 대해 임상 절차를 수행하는 단계를 추가로 포함하는, 방법.
  19. 제10항 내지 제18항 중 어느 한 항에 있어서,
    상기 검출된 신생물에 적어도 부분적으로 기초하여 상기 개체를 치료하는 단계를 추가로 포함하는, 방법.
  20. 개체에서 신생물을 검출하는 방법으로서,
    복수의 무세포 핵산 분자의 무세포 핵산 시퀀싱 판독을 얻거나 얻은 것을 갖는 단계 - 상기 복수의 무세포 핵산 분자는 개체의 제1 신체 샘플로부터 얻거나 유래되는 -;
    복수의 세포 유래 핵산 분자의 세포 유래 핵산 시퀀싱 판독을 얻거나 갖는 얻은 것을 갖는 단계 - 상기 복수의 세포 유래 핵산 분자는 상기 개체의 제2 신체 샘플로부터 얻거나 유래되는 -;
    상기 무세포 핵산 시퀀싱 판독 및 상기 세포 유래 핵산 시퀀싱 판독 모두에 존재하는 카피 수 변이를 확인하거나 확인된 것을 갖는 단계; 및
    계산 모델을 확인된 카피 수 변이에 적용하는 것에 적어도 부분적으로 기초하여, 상기 무세포 핵산 시퀀싱 판독이 신생물로부터 유래된 무세포 핵산 분자를 나타내는 뉴클레오티드를 함유하는지 여부를 결정하거나 결정된 것을 갖는 단계
    - 상기 계산 모델은 신생물이 있는 개체의 제1 세트 및 신생물이 없는 대조군 개체의 제2 세트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 이용하여 구축되고, 그리고
    상기 계산 모델은 다음의 특징: 다수의 균일하게 분포된 게놈 윈도우 영역, 다수의 GISTIC "핫스팟" 영역, 균일한 윈도우와 비교하여 GISTIC "핫스팟" 영역의 풍부화, 및 이들의 임의의 조합 하나 중 이상의 기능을 통합하는 - 를 포함하고,
    상기 무세포 핵산 시퀀싱 데이터가 신생물로부터 유래된 무세포 핵산 분자를 나타내는 상기 뉴클레오티드를 함유한다는 결정에 적어도 부분적으로 기초하여 상기 개체에서 상기 신생물을 검출하는, 방법.
  21. 개체에서 신생물을 검출하는 방법으로서,
    복수의 무세포 핵산 분자의 무세포 핵산 시퀀싱 판독을 얻거나 얻은 것을 갖는 단계 - 상기 복수의 무세포 핵산 분자는 개체의 신체 샘플로부터 얻거나 유래되는 -;
    상기 시퀀싱 판독 내에서 복수의 고유한 시퀀싱된 무세포 핵산 분자 각각의 제1 뉴클레오티드 및 마지막 뉴클레오티드의 게놈 위치를 확인하거나 확인된 것을 갖는 단계;
    상기 복수의 고유한 시퀀싱된 무세포 핵산 분자 각각의 상기 제1 뉴클레오티드 및 상기 마지막 뉴클레오티드의 상기 확인된 게놈 위치의 빈도를 결정하거나 결정된 것을 갖는 단계; 및
    계산 모델을 복수의 고유한 시퀀싱된 무세포 핵산 분자 각각의 제1 뉴클레오티드 및 마지막 뉴클레오티드의 상기 확인된 게놈 위치의 빈도에 적용하는 것에 적어도 부분적으로 기초하여, 상기 무세포 핵산 시퀀싱 판독이 신생물로부터 유래된 무세포 핵산 분자를 나타내는 뉴클레오티드를 함유하며, 상기 계산 모델은 신생물이 있는 개체의 제1 세트 및 신생물이 없는 대조군 개체의 제2 세트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 사용하여 구축되는 지를 결정하거나 결정된 것을 갖는 단계를 포함하고,
    상기 무세포 핵산 시퀀싱 데이터가 신생물로부터 유래된 무세포 핵산 분자를 나타내는 상기 뉴클레오티드를 함유한다는 결정에 적어도 부분적으로 기초하여 상기 개체에서 상기 신생물을 검출하는, 방법.
  22. 제10항 내지 제21항 중 어느 한 항에 있어서,
    복수의 게놈 위치 각각에서 시작하는 cfDNA 분자의 정량적 측정의 제1 세트 및 복수의 게놈 위치 각각에서 끝나는 cfDNA 분자의 정량적 측정의 제2 세트 중 적어도 하나를 결정하는 단계; 및
    상기 신생물을 검출하기 위해 상기 정량적 측정의 제1 세트 또는 상기 정량적 측정의 제2 세트 중 적어도 하나를 분석하는 단계를 추가로 포함하는, 방법.
  23. 제22항에 있어서,
    상기 신생물을 검출하기 위해 훈련된 기계 학습 분류기를 사용하여 상기 정량적 측정의 제1 세트 및 상기 정량적 측정의 제2 세트 중 적어도 하나를 분석하는 단계를 추가로 포함하는, 방법.
  24. 제22항 또는 제23항에 있어서,
    상기 신생물의 종양 변이체 대립유전자 빈도를 결정하기 위해 상기 정량적 측정의 제1 세트 및 상기 정량적 측정의 제2 세트 중 적어도 하나를 분석하는 단계를 추가로 포함하는, 방법.
  25. 제22항 내지 제24항 중 어느 한 항에 있어서,
    상기 신생물의 대사 종양 부피를 결정하기 위해 상기 정량적 측정의 제1 세트 및 상기 정량적 측정의 제2 세트 중 적어도 하나를 분석하는 단계를 추가로 포함하는, 방법.
  26. 제22항 내지 제25항 중 어느 한 항에 있어서,
    AUC가 약 0.80 이상인 상기 신생물을 검출하는 단계를 추가로 포함하는, 방법.
  27. 개체에서 신생물을 검출하는 방법으로서,
    복수의 무세포 핵산 분자의 무세포 핵산 시퀀싱 판독을 얻거나 얻은 것을 갖는 단계 - 상기 복수의 무세포 핵산 분자는 상기 개체의 신체 샘플로부터 얻거나 유래되는 -;
    상기 시퀀싱 판독 내에서 복수의 고유한 시퀀싱된 무세포 핵산 분자 각각의 단편 길이를 확인하거나 확인된 것을 갖는 단계;
    서브-모노뉴클레오솜 단편 또는 서브-디소말 단편을 나타내는 단편 길이를 갖는 상기 복수의 고유한 시퀀싱된 무세포 핵산 분자의 무세포 핵산 분자에 상응하는 상기 시퀀싱 판독의 서브세트를 선택하는 단계;
    상기 서브-모노뉴클레오솜 단편 또는 상기 서브-디소말 단편을 나타내는 상기 확인된 단편 길이의 빈도를 결정하기 위해 상기 시퀀싱 판독의 서브세트를 분석하는 단계; 및
    상기 서브-모노뉴클레오솜 단편 또는 상기 서브-디소말 단편을 나타내는 확인된 단편 길이에 계산 모델을 적용하는 것에 적어도 부분적으로 기초하여, 상기 무세포 핵산 시퀀싱 판독이 신생물로부터 유래된 무세포 핵산 분자를 나타내는 뉴클레오티드를 함유하며, 상기 계산 모델은 신생물이 있는 개체의 제1 세트 및 신생물이 없는 대조군 개체의 제2 세트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 사용하여 구축되는 지를 결정하거나 결정된 것을 갖는 단계를 포함하고,
    상기 무세포 핵산 시퀀싱 데이터가 신생물로부터 유래된 무세포 핵산 분자를 나타내는 상기 뉴클레오티드를 함유한다는 결정에 적어도 부분적으로 기초하여 상기 개체에서 상기 신생물을 검출하는, 방법.
  28. 제27항에 있어서,
    160 염기쌍(bp) 미만의 단편 길이는 상기 서브-모노뉴클레오솜 단편을 나타내는, 방법.
  29. 제27항 또는 제28항에 있어서,
    230 bp 내지 310 bp의 단편 길이는 상기 서브-디소말 단편을 나타내는, 방법.
  30. 제27항 내지 제29항 중 어느 한 항에 있어서,
    상기 복수의 무세포 핵산 분자는 상기 서브-모노뉴클레오솜 단편 및 상기 서브-디소말 단편 중 적어도 하나를 풍부하게 하기 위해 상기 개체의 신체 샘플의 핵산 분자의 크기 선택을 수행함으로써 적어도 부분적으로 수득되는, 방법.
  31. 개체에서 신생물을 검출하는 방법으로서,
    복수의 무세포 핵산 분자의 무세포 핵산 시퀀싱 판독을 얻거나 얻은 것을 갖는 단계 - 상기 복수의 무세포 핵산 분자는 상기 개체의 신체 샘플로부터 얻거나 유래되는 -;
    복수의 단일 뉴클레오티드 변이체(SNV)의 변이체 대립유전자 빈도(VAF)를 결정하기 위해 상기 시퀀싱 판독을 분석하는 단계; 및
    상기 복수의 SNV의 결정된 VAF에 계산 모델을 적용하는 것에 적어도 부분적으로 기초하여, 상기 무세포 핵산 시퀀싱 판독이 신생물로부터 유래된 무세포 핵산 분자를 나타내는 뉴클레오티드를 함유하며, 상기 계산 모델은 신생물이 있는 개체의 제1 세트 및 신생물이 없는 대조군 개체의 제2 세트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 사용하여 구축되는 지를 결정하거나 결정된 것을 갖는 단계를 포함하고,
    상기 무세포 핵산 시퀀싱 데이터가 신생물로부터 유래된 무세포 핵산 분자를 나타내는 상기 뉴클레오티드를 함유한다는 결정에 적어도 부분적으로 기초하여 상기 개체에서 상기 신생물을 검출하는, 방법.
  32. 제31항에 있어서,
    상기 복수의 SNV에 걸쳐 결정된 VAF의 평균 값을 결정하는 단계; 및
    상기 결정된 평균 값에 상기 계산 모델을 적용하는 것에 적어도 부분적으로 기초하여, 상기 무세포 핵산 시퀀싱 판독이 신생물로부터 유래된 무세포 핵산 분자를 나타내는 뉴클레오티드를 함유하는지 여부를 결정하거나 결정된 것을 갖는 단계를 추가로 포함하는, 방법.
  33. 제31항 또는 제32항에 있어서,
    상기 무세포 핵산 시퀀싱 판독이 신생물로부터 유래된 무세포 핵산 분자를 나타내는 뉴클레오티드를 함유하는지 여부를 결정하기 위해 상기 복수의 SNV에 걸쳐 결정된 VAF의 상기 결정된 평균 값을 참조 값과 비교하는 단계를 추가로 포함하는, 방법.
  34. 제31항 내지 제33항 중 어느 한 항에 있어서,
    상기 검출된 신생물의 대사 종양 부피를 결정하는 단계를 추가로 포함하는, 방법.
  35. 제31항 내지 제34항 중 어느 한 항에 있어서, 검출된 신생물의 병기를 결정하는 단계를 추가로 포함하는, 방법.
  36. 제31항 내지 제35항 중 어느 한 항에 있어서,
    상기 검출된 신생물의 재발 가능성을 결정하는 단계를 추가로 포함하는, 방법.
  37. 제10항 내지 제36항 중 어느 한 항에 있어서,
    상기 복수의 무세포 핵산 분자는 포획 미끼 분자의 세트를 사용하여 상기 개체의 신체 샘플로부터 풍부하고,
    상기 포획 미끼 분자의 세트는 상기 포획 미끼 분자의 세트의 적어도 하나의 서열에 적어도 부분적으로 상보적인 서열에 선택적으로 혼성화하도록 구성되고,
    상기 포획 미끼 분자의 세트는 표 1의 게놈 유전자좌의 군으로부터 선택된 적어도 하나의 게놈 유전자좌에 적어도 부분적으로 상보적인 서열에 선택적으로 혼성화하도록 구성되는, 방법.
  38. 제10항 내지 제37항 중 어느 한 항에 있어서,
    상기 신생물은 폐암을 포함하는, 방법.
  39. 혼성화 포획을 위한 미끼 세트로서,
    적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1200, 1400, 1600, 1800, 2000, 2200, 2400, 2600, 2800, 3000, 3200, 3400, 3600, 3800, 4000, 4200, 4400, 4600, 4800, 또는 5000개의 상이한 폴리뉴클레오티드 함유 프로브를 포함하고, 상기 폴리뉴클레오타이드 함유 프로브는 집합적으로 표 1에 제시된 게놈 영역의 적어도 5%로부터 유래된 cfDNA에 혼성화하도록 구성되는, 미끼 세트.
  40. 제39항에 있어서,
    상기 폴리뉴클레오티드 함유 프로브 각각은 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 120, 140, 160, 180, 200, 220, 240, 260, 280, 또는 300 개 길이의 뉴클레오티드인 핵산 서열을 갖는, 미끼 세트.
  41. 제39항 또는 제40항에 있어서,
    상기 폴리뉴클레오티드 함유 프로브 각각은 300, 280, 260, 240, 220, 200, 180, 160, 140, 120, 100, 90, 80, 70, 60, 50, 40, 30, 20, 10, 9, 8, 7, 6, 5, 4, 3, 또는 2개 이하 길이의 뉴클레오티드인 핵산 서열을 갖는, 미끼 세트.
  42. 제39항 내지 제41항 중 어느 한 항에 있어서,
    상기 폴리뉴클레오티드 함유 프로브 각각은 친화성 모이어티(moiety)에 접합된, 미끼 세트.
  43. 제42항에 있어서,
    상기 친화성 모이어티는 비오틴(biotin)을 포함하는, 미끼 세트.
  44. 제39항 내지 제43항 중 어느 한 항에 있어서,
    상기 폴리뉴클레오티드 프로브는 집합적으로 표 1에 제시된 게놈 영역의 적어도 10%, 적어도 20%, 적어도 30%, 적어도 40%, 적어도 50%, 적어도 60%, 적어도 70%, 적어도 80%, 적어도 90%, 적어도 95%, 적어도 98%, 적어도 99%, 또는 100%로부터 유래된 cfDNA에 혼성화하도록 구성되는, 미끼 세트.
  45. 제39항 내지 제44항 중 어느 한 항에 있어서,
    미끼 세트 내의 폴리뉴클레오티드 프로브 전체는 표 1에 제시된 게놈 영역의 적어도 10%, 적어도 20%, 적어도 30%, 적어도 40%, 적어도 50%, 적어도 60%, 적어도 70%, 적어도 80%, 적어도 90%, 적어도 95%, 적어도 98%, 적어도 99%, 또는 100%로부터 유래된 cfDNA 분자에 혼성화하도록 구성되는, 미끼 세트.
  46. 혼합물로서,
    생물학적 샘플로부터의 DNA; 및
    제39항 내지 제45항 중 어느 한 항의 상기 미끼 세트를 포함하는, 혼합물.
  47. 포획 혼성화를 수행하는 방법으로서,
    무세포 DNA 공급원으로부터 유래된 복수의 DNA 분자를 얻는 단계; 및
    상기 복수의 DNA 분자의 분획을 포획 미끼 분자의 세트와 혼합하는 단계로서, 상기 포획 미끼 분자의 세트는 상기 포획 미끼 분자의 세트의 적어도 하나의 서열에 적어도 부분적으로 상보적인 DNA 분자에 선택적으로 혼성화하도록 구성되는 단계를 포함하고,
    포획 미끼 분자의 세트는 표 1의 상기 게놈 유전자좌의 군으로부터 선택된 게놈 유전자좌의 적어도 일부를 포함하는 서열을 포함하는 DNA 분자에 선택적으로 혼성화하도록 구성되는, 방법.
  48. 제47항에 있어서,
    상기 게놈 유전자좌의 일부는 상기 게놈 유전자좌의 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 120, 140, 160, 180, 200, 220, 240, 260, 280, 또는 300개의 연속 뉴클레오티드를 함유하는, 방법.
  49. 제47항 또는 제48항에 있어서,
    상기 분획은 상기 복수의 DNA 분자의 적어도 약 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 또는 100%인, 방법.
  50. 제47항에 있어서,
    상기 복수의 DNA 분자의 분획 및 상기 포획 미끼 분자의 세트의 몰비를 최적화하여 고유 분자의 총수의 최적 회수를 산출하거나 공급된 무세포 DNA 이중 가닥의 두 가닥이 모두 시퀀싱된 듀플렉스화 무세포 DNA 분자의 총수의 최적 회수를 산출하는 단계를 추가로 포함하고,
    상기 몰비는 적어도 약 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 또는 100%인, 방법.
  51. 제47항에 있어서,
    포획 혼성화의 인실리코 시뮬레이션을 사용하여 상기 포획 미끼 분자의 세트와 혼합되는 상기 복수의 DNA 분자의 분획을 결정하는 단계를 추가로 포함하고, 상기 분획은 약 100%, 95%, 90%, 85%, 80%, 75%, 70%, 65%, 60%, 55%, 50%, 45%, 40%, 35%, 30%, 25%, 20%, 15%, 10%, 또는 5% 이하인, 방법.
  52. 제47항 내지 제51항 중 어느 한 항에 있어서,
    상기 포획 미끼 분자의 세트는 제39항 내지 제45항 중 어느 한 항의 상기 미끼 세트를 포함하는, 방법.
  53. DNA 분자로서,
    생물학적 샘플로부터 공급된 핵산 분자로서, DNA 또는 cDNA인, 핵산 분자;
    상기 핵산 분자에 측접하는 오류 수정 고유 식별자의 쌍 - 상기 오류 수정 고유 식별자는 각각의 DNA 분자이고 상기 오류 수정 고유 식별자의 조합은 시퀀싱 결과에서 상기 핵산 분자의 확인을 제공하는 -; 및
    오류 수정 이중 인덱스 샘플 바코드의 쌍 - 상기 오류 수정 고유 식별자는 각각의 DNA 분자이고 상기 오류 수정 고유 식별자의 조합은 시퀀싱 결과에서 상기 생물학적 샘플의 확인을 제공하는 -을 포함하는, DNA 분자.
  54. 시퀀싱용 DNA 라이브러리를 제조하는 방법으로서,
    각 핵산 분자가 부분 Y-어댑터의 쌍에 측접되도록 부분 Y-어댑터의 핵산 분자 쌍의 집합 상에 결찰하는 단계
    - 각각의 핵산 분자는 DNA 또는 cDNA이고 핵산 분자의 집합은 생물학적 샘플로부터 공급되며,
    부분 Y-어댑터 각각은 그라프팅 중합효소 연쇄 반응에서 어닐링할 프라이머에 대한 오류 수정 고유 식별자 및 서열을 포함하고, 그리고
    각각의 핵산 분자 상의 상기 2개의 오류 수정 고유 식별자의 각각의 측접 조합은 그 핵산 분자에 대한 상기 부분 Y-어댑터의 쌍의 결찰을 확인하는 -; 를 포함하고,
    각각의 결찰 생성물에 오류 수정 이중 인덱스 샘플 바코드의 쌍 및 범용 프라이머의 서열을 그라프팅하여 상기 결찰 생성물이 상기 오류 수정 이중 인덱스 샘플 바코드 및 상기 범용 프라이머의 서열에 측접하도록 하고, 오류 수정 이중 인덱스 샘플 바코드의 조합은 핵산 분자의 집합을 확인하는, 방법.
  55. 시퀀싱 라이브러리 제조 동안 발생하는 뉴클레오티드 전환을 완화하는 방법으로서,
    반응 혼합물에서 반응성 산소종 스캐빈저(scavenger) 또는 효소로 서열 라이브러리 제조를 수행하는 단계를 포함하는, 방법
  56. 제55항에 있어서,
    서열 포획 반응이 상기 반응 혼합물에서 상기 반응성 산소종 스캐빈저 하이포타우린(hypotaurine)으로 수행되는, 방법.
  57. 제55항 또는 제56항에 있어서,
    상기 반응성 산소종 스캐빈저는 글루타티온, 하이포타우린 또는 아황산나트륨이고; 상기 효소는 우라실-DNA 글리코실라제 (UDG), 포름아미도피리미딘 [fapy]-DNA 글리코실라제 (FPG), 또는 카탈라제 효소인, 방법.
  58. 개체에 대한 임상 절차를 수행하는 방법으로서,
    무세포 핵산 분자의 집합의 시퀀싱 결과를 얻거나 얻은 것을 갖는 단계 - 상기 무세포 핵산 분자의 집합은 개체의 제1 생검에서 공급되는 -;
    세포 유래 핵산 분자의 집합의 시퀀싱 결과를 얻거나 얻은 것을 갖는 단계 - 상기 세포 유래 핵산 분자의 집합은 상기 개체의 제2 생검에서 공급되는 -;
    상기 무세포 핵산 시퀀싱 결과 및 상기 세포 유래 핵산 시퀀싱 결과 모두 내에서 단일 뉴클레오티드 변이체를 확인하거나 확인된 것을 갖는 단계;
    제1 계산 모델 및 확인된 단일 뉴클레오티드 변이체를 사용하여, 상기 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 뉴클레오티드를 함유하는지 결정하거나 결정된 것을 갖는 단계
    - 상기 제1 계산 모델은 신생물이 있는 개체의 코호트(cohort) 및 신생물이 없는 대조군 개체의 코호트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 이용하여 구축되고, 그리고
    상기 제1 계산 모델은 다음 특징: 세포 유래 DNA 베이지안 배경, cfDNA 베이지안 배경, 생식세포계열 깊이, 짧은 단편 점수 1, 짧은 단편 점수 2, 또는 cfDNA 분자의 게놈 시작 및 종료 위치 중 하나 이상을 통합하는 -;를 포함하고,
    상기 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 핵산 서열을 함유한다는 결정에 기초하여 상기 개체에 대해 임상 절차를 수행하는, 방법.
  59. 제58항에 있어서,
    상기 제1 계산 모델은 전이/전환, 듀플렉스 지지체, 통과 이상값, 매핑 품질, 암 핫스팟, UMI 오류 수정, Phred 품질 점수, 변이체 대립유전자 빈도(VAF %), 평균 바코드 패밀리 크기, cfDNA 분자에서의 변이체 위치, 다유전자 위험 점수, 또는 뉴클레아제 모티프 중 하나 이상의 기능을 추가로 통합하는, 방법.
  60. 제58항 또는 제59항에 있어서,
    상기 제1 생검 및 상기 제2 생검은 동일한 혈액 생검이고, 상기 혈액 생검은 무세포 분획 및 세포 분획으로 분리되고, 상기 무세포 분획은 무세포 핵산 분자를 공급하는 데 사용되고, 상기 세포 분획은 세포 유래 핵산 분자를 공급하는 데 사용되는, 방법.
  61. 제58항 내지 제60항 중 어느 한 항에 있어서,
    다수의 확인된 변이체는 분석으로부터 제거되고, 상기 제거된 변이체는 다른 비-악성 조직 유형의 클론 조혈 유전자 또는 체세포 돌연변이로부터의 변이체를 포함하는, 방법.
  62. 제58항 내지 제61항 중 어느 한 항에 있어서,
    다수의 확인된 변이체는 분석으로부터 제거되고, 상기 제거된 변이체는 상기 세포 유래 핵산 시퀀싱 결과에 존재하는 변이체를 포함하는, 방법.
  63. 제58항 내지 제62항 중 어느 한 항에 있어서,
    상기 무세포 핵산 시퀀싱 결과 및 상기 세포 유래 핵산 시퀀싱 결과 모두 내에서 카피 수 변이를 확인하거나 확인된 것을 갖는 단계; 및
    제2 계산 모델 및 상기 확인된 카피 수 변이를 이용하여 상기 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 뉴클레오티드를 함유한다는 것을 결정하거나 결정된 것을 갖는 단계
    - 상기 제2 계산 모델은 신생물이 있는 개체의 코호트 및 신생물이 없는 대조군 개체의 코호트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 이용하여 구축되고, 그리고
    상기 제2 계산 모델은 다음의 특징: 다수의 균일하게 분포된 게놈 윈도우 영역, 다수의 GISTIC "핫스팟" 영역, 및 균일한 윈도우와 비교하여 GISTIC "핫스팟" 영역의 풍부화 중 하나 이상의 기능을 통합하는 -;를 추가로 포함하고,
    상기 개체에 대한 임상 절차를 수행하는 것은 상기 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 핵산 서열을 함유한다는 결정에 기초하는, 방법.
  64. 제58항 내지 제63항 중 어느 한 항에 있어서,
    상기 무세포 핵산 시퀀싱 결과 내에서 각각의 고유한 시퀀싱된 무세포 핵산 분자의 상기 제1 및 마지막 뉴클레오티드의 게놈 위치를 확인하거나 확인된 것을 갖는 단계;
    각각의 고유한 시퀀싱된 무세포 핵산의 상기 제1 및 마지막 뉴클레오티드의 확인된 게놈 위치의 빈도를 결정하거나 결정된 것을 갖는 단계; 및
    제3 계산 모델 및 각각의 고유한 시퀀싱된 무세포 핵산 분자의 상기 제1 및 마지막 뉴클레오티드의 확인된 게놈 위치의 빈도를 이용하여 상기 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 뉴클레오티드를 함유한다는 것을 결정하거나 결정된 것을 갖는 단계로서, 상기 제3 계산 모델은 신생물이 있는 코호트 및 신생물이 없는 대조군 개체 코호트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 이용하여 구축되는 단계;를 추가로 포함하고,
    상기 개체에 대한 임상 절차를 수행하는 것은 상기 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 핵산 서열을 함유한다는 결정에 기초하는, 방법.
  65. 제64항에 있어서,
    상기 제1 계산 모델, 상기 제2 계산 모델, 및 상기 제3 계산 모델 각각으로부터 신뢰 점수를 생성하는 단계; 및
    상기 개체가 신생물을 가짐을 나타내는 요약된 점수를 생성하기 위해 상기 신뢰 점수를 통합하는 단계;를 추가로 포함하고,
    상기 개체에 대한 임상 절차를 수행하는 것은 상기 개체가 신생물을 가짐을 나타내는 상기 요약된 점수에 기초하는, 방법.
  66. 신생물에 대한 개체를 치료하는 방법으로서,
    무세포 핵산 분자의 집합의 시퀀싱 결과를 얻거나 얻은 것을 갖는 단계 - 상기 무세포 핵산 분자의 집합은 개체의 제1 생검에서 공급되는 -;
    세포 유래 핵산 분자의 집합의 시퀀싱 결과를 얻거나 얻은 것을 갖는 단계 - 상기 세포 유래 핵산 분자의 집합은 상기 개체의 제2 생검에서 공급되는 -;
    상기 무세포 핵산 시퀀싱 결과 및 상기 세포 유래 핵산 시퀀싱 결과 모두 내에서 단일 뉴클레오티드 변이체를 확인하거나 확인된 것을 갖는 단계;
    제1 계산 모델 및 확인된 단일 뉴클레오티드 변이체를 사용하여, 상기 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 뉴클레오티드를 함유하는지 결정하거나 결정된 것을 갖는 단계
    - 상기 제1 계산 모델은 신생물이 있는 개체의 코호트 및 신생물이 없는 대조군 개체의 코호트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 이용하여 구축되고, 그리고
    상기 제1 계산 모델은 다음 특징: 세포 유래 DNA 베이지안 배경, cfDNA 베이지안 배경, 생식세포계열 깊이, 짧은 단편 점수 1, 짧은 단편 점수 2, 또는 cfDNA 분자의 게놈 시작 및 종료 위치 중 하나 이상을 통합하는 -; 및
    상기 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 핵산 서열을 함유한다는 결정에 기초하여 개체를 치료하는 단계를 포함하는, 방법.
  67. 제66항에 있어서,
    상기 제1 계산 모델은 전이/전환, 듀플렉스 지지체, 통과 이상값, 매핑 품질, 암 핫스팟, UMI 오류 수정, Phred 품질 점수, 변이체 대립유전자 빈도(VAF %), 평균 바코드 패밀리 크기, cfDNA 분자에서의 변이체 위치, 다유전자 위험 점수, 또는 뉴클레아제 모티프 중 하나 이상의 기능을 추가로 통합하는, 방법.
  68. 제66항 또는 제67항에 있어서,
    상기 제1 생검 및 상기 제2 생검은 동일한 혈액 생검이고, 상기 혈액 생검은 무세포 분획 및 세포 분획으로 분리되고, 상기 무세포 분획은 무세포 핵산 분자를 공급하는 데 사용되고, 상기 세포 분획은 세포 유래 핵산 분자를 공급하는 데 사용되는, 방법.
  69. 제66항 내지 제68항 중 어느 한 항에 있어서,
    다수의 확인된 변이체는 분석으로부터 제거되고, 제거된 변이체는 클론 조혈 유전자로부터의 변이체를 포함하는, 방법.
  70. 제66항 내지 제69항 중 어느 한 항에 있어서,
    다수의 확인된 변이체는 분석으로부터 제거되고, 상기 제거된 변이체는 상기 세포 유래 핵산 시퀀싱 결과에 존재하는 변이체를 포함하는, 방법.
  71. 제66항 내지 제70항 중 어느 한 항에 있어서,
    상기 무세포 핵산 시퀀싱 결과 및 상기 세포 유래 핵산 시퀀싱 결과 모두 내에서 카피 수 변이를 확인하거나 확인된 것을 갖는 단계;
    제2 계산 모델 및 상기 확인된 카피 수 변이를 이용하여 상기 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 뉴클레오티드를 함유한다는 것을 결정하거나 결정된 것을 갖는 단계
    - 상기 제2 계산 모델은 신생물이 있는 개체의 코호트 및 신생물이 없는 대조군 개체의 코호트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 이용하여 구축되고, 그리고
    상기 제2 계산 모델은 다음의 특징: 다수의 균일하게 분포된 게놈 윈도우 영역, 다수의 GISTIC "핫스팟" 영역, 및 균일한 윈도우와 비교하여 GISTIC "핫스팟" 영역의 풍부화 중 하나 이상의 기능을 통합하는 -;를 추가로 포함하고,
    상기 개체를 치료하는 것은 상기 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 핵산 서열을 함유한다는 결정에 기초하는, 방법.
  72. 제66항 내지 제71항 중 어느 한 항에 있어서,
    상기 무세포 핵산 시퀀싱 결과 내에서 각각의 고유한 시퀀싱된 무세포 핵산 분자의 상기 제1 및 마지막 뉴클레오티드의 게놈 위치를 확인하거나 확인된 것을 갖는 단계;
    각각의 고유한 시퀀싱된 무세포 핵산의 상기 제1 및 마지막 뉴클레오티드의 확인된 게놈 위치의 빈도를 결정하거나 결정된 것을 갖는 단계; 및
    제3 계산 모델 및 각각의 고유한 시퀀싱된 무세포 핵산 분자의 상기 제1 및 마지막 뉴클레오티드의 확인된 게놈 위치의 빈도를 이용하여 상기 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 뉴클레오티드를 함유한다는 것을 결정하거나 결정된 것을 갖는 단계 - 상기 제3 계산 모델은 신생물이 있는 코호트 및 신생물이 없는 대조군 개체 코호트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 이용하여 구축되는 -;를 추가로 포함하고,
    상기 개체를 치료하는 것은 상기 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 핵산 서열을 함유한다는 결정에 기초하는, 방법.
  73. 제72항에 있어서,
    상기 제1 계산 모델, 상기 제2 계산 모델, 및 상기 제3 계산 모델 각각으로부터 신뢰 점수를 생성하는 단계; 및
    개체가 신생물을 가짐을 나타내는 요약된 점수를 생성하기 위해 신뢰 점수를 통합하는 단계를 추가로 포함하고;
    상기 개체의 치료는 상기 개체가 신생물을 가짐을 나타내는 요약된 점수에 기초하는, 방법.
  74. 시퀀싱 라이브러리에서 포획 혼성화를 수행하는 방법으로서,
    무세포 DNA 공급원으로부터 유래된 복수의 고유한 시퀀싱 분자를 포함하는 시퀀싱 라이브러리를 얻는 단계;
    상기 시퀀싱 라이브러리의 분획을 포획 미끼 분자와 혼합하여 상기 포획 미끼에 의해 인식되는 특정 서열을 혼성화하고 풀다운하는 단계 - 상기 시퀀싱 라이브러리의 분획은 적어도 10%, 25%, 또는 50%인 - 를 포함하는, 방법.
  75. 제74항에 있어서,
    상기 시퀀싱 라이브러리의 분획과 상기 포획 미끼의 몰비는 전체 고유 분자의 최적 회수를 산출하거나 전체 듀플렉스화 무세포 DNA 분자의 최적 회수를 산출하도록 최적화되며, 공급된 무세포 DNA 듀플렉스의 가닥 둘 모두가 시퀀싱되는, 방법.
  76. 제74항 또는 제75항에 있어서,
    상기 포획 혼성화의 인실리코 시뮬레이션은 포획 미끼와 혼합되는 상기 시퀀싱 라이브러리의 분획을 결정하기 위해 이용되는, 방법.
  77. 신생물에 대한 개체를 치료하는 방법으로서,
    무세포 핵산 분자의 집합의 시퀀싱 결과를 얻거나 얻은 것을 갖는 단계 - 상기 무세포 핵산 분자의 집합은 개체의 제1 생검에서 공급되는 -;
    세포 유래 핵산 분자의 집합의 시퀀싱 결과를 얻거나 얻은 것을 갖는 단계 - 상기 세포 유래 핵산 분자의 집합은 상기 개체의 제2 생검에서 공급되는 -;
    상기 무세포 핵산 시퀀싱 결과 및 상기 세포 유래 핵산 시퀀싱 결과 모두 내에서 카피 수 변이를 확인하거나 확인된 것을 갖는 단계;
    계산 모델 및 상기 확인된 카피 수 변이를 이용하여 상기 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 뉴클레오티드를 함유한다는 것을 결정하거나 결정된 것을 갖는 단계
    - 상기 제2 계산 모델은 신생물이 있는 개체의 코호트 및 신생물이 없는 대조군 개체의 코호트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 이용하여 구축되고, 그리고
    상기 제2 계산 모델은 다음의 특징: 다수의 균일하게 분포된 게놈 윈도우 영역, 다수의 GISTIC "핫스팟" 영역, 및 균일한 윈도우와 비교하여 GISTIC "핫스팟" 영역의 풍부화 중 하나 이상의 기능을 통합하는 -; 및
    상기 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 핵산 서열을 함유한다는 결정에 기초하여 상기 개체를 치료하는 단계를 포함하는, 방법.
  78. 신생물에 대한 개체를 치료하는 방법으로서,
    무세포 핵산 분자의 집합의 시퀀싱 결과를 얻거나 얻은 것을 갖는 단계 - 상기 무세포 핵산 분자의 집합은 상기 개체의 생검에서 공급되는 -;
    상기 무세포 핵산 시퀀싱 결과 내에서 각각의 고유한 시퀀싱된 무세포 핵산 분자의 상기 제1 및 마지막 뉴클레오티드의 게놈 위치를 확인하거나 확인된 것을 갖는 단계;
    각각의 고유한 시퀀싱된 무세포 핵산의 상기 제1 및 마지막 뉴클레오티드의 확인된 게놈 위치의 빈도를 결정하거나 결정된 것을 갖는 단계;
    계산 모델 및 각각의 고유한 시퀀싱된 무세포 핵산 분자의 상기 제1 및 마지막 뉴클레오티드의 확인된 게놈 위치의 빈도를 이용하여 상기 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 뉴클레오티드를 함유한다는 것을 결정하거나 결정된 것을 갖는 단계 - 상기 제3 계산 모델은 신생물이 있는 코호트 및 신생물이 없는 대조군 개체 코호트로부터의 무세포 핵산 시퀀싱 데이터 및 세포 유래 핵산 시퀀싱 데이터를 이용하여 구축되는 -; 및
    상기 무세포 핵산 시퀀싱 결과가 신생물로부터 유래된 핵산 서열을 함유한다는 결정에 기초하여 상기 개체를 치료하는 단계를 포함하는, 방법.
KR1020227033217A 2020-02-24 2021-02-24 무세포 핵산의 분석 방법 및 이의 적용 KR20220157976A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202062980972P 2020-02-24 2020-02-24
US62/980,972 2020-02-24
PCT/US2021/019478 WO2021173722A2 (en) 2020-02-24 2021-02-24 Methods of analyzing cell free nucleic acids and applications thereof

Publications (1)

Publication Number Publication Date
KR20220157976A true KR20220157976A (ko) 2022-11-29

Family

ID=77490525

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020227033309A KR20220145891A (ko) 2020-02-24 2021-02-24 핵산 분자를 보호하기 위한 시스템 및 방법
KR1020227033217A KR20220157976A (ko) 2020-02-24 2021-02-24 무세포 핵산의 분석 방법 및 이의 적용

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020227033309A KR20220145891A (ko) 2020-02-24 2021-02-24 핵산 분자를 보호하기 위한 시스템 및 방법

Country Status (7)

Country Link
US (1) US20230242980A1 (ko)
EP (2) EP4110397A4 (ko)
KR (2) KR20220145891A (ko)
CN (2) CN115443341A (ko)
AU (2) AU2021227229A1 (ko)
CA (2) CA3172670A1 (ko)
WO (2) WO2021173722A2 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11783912B2 (en) 2021-05-05 2023-10-10 The Board Of Trustees Of The Leland Stanford Junior University Methods and systems for analyzing nucleic acid molecules
US11851716B2 (en) 2019-11-06 2023-12-26 The Board Of Trustees Of The Leland Stanford Junior University Methods and systems for analyzing nucleic acid molecules

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11728007B2 (en) * 2017-11-30 2023-08-15 Grail, Llc Methods and systems for analyzing nucleic acid sequences using mappability analysis and de novo sequence assembly
CA3229899A1 (en) * 2021-09-13 2023-03-16 Regeneron Pharmaceuticals, Inc. Methods of treating clonal hematopoiesis of indeterminate potential (chip) with lymphocyte antigen 75 (ly75), cluster of differentiation 164 (cd164), or poly(adp-ribose) polymeras e 1 (parp1) inhibitors
WO2023091517A2 (en) * 2021-11-17 2023-05-25 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for gene expression and tissue of origin inference from cell-free dna
WO2024097217A1 (en) * 2022-11-01 2024-05-10 Petdx, Inc. Detection of non-cancer somatic mutations

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6171856B1 (en) * 1997-07-30 2001-01-09 Board Of Regents, The University Of Texas System Methods and compositions relating to no-mediated cytotoxicity
CA2410879A1 (en) * 2000-06-07 2001-12-13 Baylor College Of Medicine Novel compositions and methods for array-based nucleic acid hybridization
DE10032165A1 (de) * 2000-07-01 2002-01-10 Beiersdorf Ag Verwendung von physiologisch verträglichen Sulfinsäuren als Antioxidans oder Radikalfänger in kosmetischen oder dermatologischen Zubereitungen
WO2010096323A1 (en) * 2009-02-18 2010-08-26 Streck, Inc. Preservation of cell-free nucleic acids
EP3191628B1 (en) * 2014-09-12 2022-05-25 The Board of Trustees of the Leland Stanford Junior University Identification and use of circulating nucleic acids
CN110072989A (zh) * 2016-10-24 2019-07-30 生物马特里卡公司 核酸在纸上的稳定化
JP7256748B2 (ja) * 2017-03-23 2023-04-12 ユニヴァーシティ オブ ワシントン エラーが訂正された核酸配列決定への適用を伴う標的化核酸配列濃縮のための方法
WO2018183942A1 (en) * 2017-03-31 2018-10-04 Grail, Inc. Improved library preparation and use thereof for sequencing-based error correction and/or variant identification
US11542540B2 (en) * 2017-06-16 2023-01-03 Life Technologies Corporation Control nucleic acids, and compositions, kits, and uses thereof
US11447818B2 (en) * 2017-09-15 2022-09-20 Illumina, Inc. Universal short adapters with variable length non-random unique molecular identifiers

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11851716B2 (en) 2019-11-06 2023-12-26 The Board Of Trustees Of The Leland Stanford Junior University Methods and systems for analyzing nucleic acid molecules
US11965215B2 (en) 2019-11-06 2024-04-23 The Board Of Trustees Of The Leland Stanford Junior University Methods and systems for analyzing nucleic acid molecules
US11783912B2 (en) 2021-05-05 2023-10-10 The Board Of Trustees Of The Leland Stanford Junior University Methods and systems for analyzing nucleic acid molecules

Also Published As

Publication number Publication date
CN116113436A (zh) 2023-05-12
EP4110957A2 (en) 2023-01-04
CN115443341A (zh) 2022-12-06
CA3172675A1 (en) 2021-09-02
EP4110957A4 (en) 2024-03-06
WO2021173724A1 (en) 2021-09-02
EP4110397A1 (en) 2023-01-04
WO2021173722A3 (en) 2021-10-07
CA3172670A1 (en) 2021-09-02
AU2021227229A1 (en) 2022-10-13
AU2021225854A1 (en) 2022-10-13
US20230242980A1 (en) 2023-08-03
WO2021173722A2 (en) 2021-09-02
EP4110397A4 (en) 2024-05-01
KR20220145891A (ko) 2022-10-31

Similar Documents

Publication Publication Date Title
US20220325343A1 (en) Cell-free dna for assessing and/or treating cancer
KR20220157976A (ko) 무세포 핵산의 분석 방법 및 이의 적용
EP3766986B1 (en) Detection and treatment of disease exhibiting disease cell heterogeneity and systems and methods for communicating test results
US20210065842A1 (en) Systems and methods for determining tumor fraction
US11581062B2 (en) Systems and methods for classifying patients with respect to multiple cancer classes
US20200340064A1 (en) Systems and methods for tumor fraction estimation from small variants
US20210358626A1 (en) Systems and methods for cancer condition determination using autoencoders
EP3973080A1 (en) Systems and methods for determining whether a subject has a cancer condition using transfer learning
US20220228221A1 (en) Diagnostics and Treatments Based Upon Molecular Characterization of Colorectal Cancer
Kalady et al. Gene signature is associated with early stage rectal cancer recurrence
KR20220060493A (ko) 비기능성 전사체를 이용한 parp 저해제 또는 dna 손상 약물 감수성 판정방법
WO2023220192A1 (en) Methods and systems for predicting an origin of an alteration in a sample using a statistical model
US20210295948A1 (en) Systems and methods for estimating cell source fractions using methylation information
Nordentoft et al. Whole genome mutational analysis for tumor-informed ctDNA based MRD surveillance, treatment monitoring and biological characterization of urothelial carcinoma
WO2024038396A1 (en) Method of detecting cancer dna in a sample
Pei et al. Classification of multiple primary lung cancer in patients with multifocal lung cancer: assessment of a machine learning approach using multidimensional genomic data
WO2023164713A1 (en) Probe sets for a liquid biopsy assay
WO2024112946A1 (en) Cell-free dna methylation test for breast cancer
WO2024077041A2 (en) Methods and systems for identifying copy number signatures
WO2024020343A1 (en) Methods and systems for determining a diagnostic gene status
WO2024026275A1 (en) Methods and systems for identifying hla-i loss of heterozygosity
Springer Development of cancer biomarker assays from dna in various bodily fluids

Legal Events

Date Code Title Description
A201 Request for examination