KR20210014111A - 세포-무함유 혼합물의 특성을 측정하기 위한 크기-태깅된 바람직한 말단 및 배향-인지 분석 - Google Patents

세포-무함유 혼합물의 특성을 측정하기 위한 크기-태깅된 바람직한 말단 및 배향-인지 분석 Download PDF

Info

Publication number
KR20210014111A
KR20210014111A KR1020207034742A KR20207034742A KR20210014111A KR 20210014111 A KR20210014111 A KR 20210014111A KR 1020207034742 A KR1020207034742 A KR 1020207034742A KR 20207034742 A KR20207034742 A KR 20207034742A KR 20210014111 A KR20210014111 A KR 20210014111A
Authority
KR
South Korea
Prior art keywords
cell
free dna
dna molecules
dna
tissue
Prior art date
Application number
KR1020207034742A
Other languages
English (en)
Inventor
육밍 데니스 로
로사 와이쿤 치우
콴치 찬
페이용 지앙
쿤 쑨
Original Assignee
더 차이니즈 유니버시티 오브 홍콩
그레일, 인코포레이티드.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 더 차이니즈 유니버시티 오브 홍콩, 그레일, 인코포레이티드. filed Critical 더 차이니즈 유니버시티 오브 홍콩
Publication of KR20210014111A publication Critical patent/KR20210014111A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6881Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for tissue or cell typing, e.g. human leukocyte antigen [HLA] probes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models

Abstract

다양한 적용은 세포-무함유 DNA, 예를 들어, 혈장 DNA 및 혈청 DNA와 관련된 단편화 패턴을 사용할 수 있다. 예를 들어, DNA 단편의 말단 위치는 다양한 적용에 사용될 수 있다. 짧은(short) DNA 분자 및 긴(long) DNA 분자의 단편화 패턴은 크기-태깅된(tagged) 바람직한 말단으로 지칭되는 상이한 바람직한 DNA 말단 위치와 관련이 있을 수 있다. 또 다른 예에서, 조직-특이적 개방 염색질 영역(open chromatin region)과 관련된 단편화 패턴이 분석되었다. 특정 조직 유형의 비례 기여도(proportional contribution)의 분류는 상이한 조직 유형으로부터의 세포-무함유 DNA의 혼합물에서 결정될 수 있다. 부가적으로, 특정 조직 유형의 특성, 예를 들어, 조직 유형에 대한 특정 영역에서 서열 불균형이 존재하는지의 여부 또는 조직 유형에 대해 병태가 존재하는지의 여부가 결정될 수 있다.

Description

세포-무함유 혼합물의 특성을 측정하기 위한 크기-태깅된 바람직한 말단 및 배향-인지 분석
관련 출원의 교차 참조
본 출원은 2018년 9월 17일에 출원된 발명의 명칭이 "Size-Tagged Preferred Ends And Orientation-Aware Analysis For Measuring Properties Of Cell-Free Mixtures"인 미국 임시 출원 제62/732,509호 및 2018년 5월 3일에 출원된 발명의 명칭이 "Size-Tagged Preferred Ends For Measuring Properties Of Cell-Free Mixtures"인 미국 임시 출원 제62/666,574호로부터 우선권을 주장하고, 이들의 PCT 출원이며, 이들의 전체 내용은 모든 목적을 위해 참조에 의해 본원에 포함된다.
인간 혈장에서 순환형 세포-무함유 DNA(cfDNA)의 존재는 Mandel 및 Metais(86)에 의해 최초로 보고되었다. 그 이후로, 임신 여성의 혈장에서의 태아-유래 DNA(82), 이식 환자에서 공여자-유래 DNA(83) 및 암 환자에서 종양-유래 DNA(100)의 발견은 혈장 DNA-기초 비침습적 산전 검사(108), 이식 모니터링(97) 및 암 액체 생검(57, 91, 61)의 문을 열어 주었다. 그러므로, cfDNA는 세계적으로 적극적으로 연구되는 바이오마커 클래스(class)가 되었다.
분자 진단 및 모니터링을 위해 인간 혈장에서 순환형 세포-무함유 DNA 분석을 채택하는 데 있어 세계적인 관심이 있다. 임신 여성의 혈장에서의 태아 DNA(1), 기관-이식 환자에서 공여자-특이적 DNA(2) 및 암 환자에서 종양-유래 DNA(3)의 발견은 비침습적 산전 검사, 암 액체 생검, 이식 모니터링, 및 기관 손상 평가(4 내지 8)을 위한 기술을 가능하게 하였다. 많은 임상적 적용에도 불구하고, 혈장 DNA의 생물학적 특징은 충분한 연구 관심을 끌지 못하였다.
다양한 구현예는 세포-무함유 DNA, 예를 들어, 혈장 DNA 및 혈청 DNA와 관련된 단편화 패턴의 분석의 적용(예를 들어, 진단적 적용)에 관한 것이다. 예를 들어, DNA 단편(분자)의 말단 위치는 다양한 적용에 사용될 수 있다. 일부 구현예는 상이한 조직 유형으로부터의 세포-무함유 DNA의 혼합물에서 특정 조직 유형의 비례 기여도(proportional contribution)의 분류를 결정할 수 있다. 예를 들어, 특정 백분율, 백분율의 범위, 또는 비례 기여도가 명시된 백분율을 초과하는지의 여부는 분류로서 결정될 수 있다. 다른 구현예에서, 특정 조직 유형의 특성, 예를 들어, 조직 유형에 대한 특정 영역에서 서열 불균형이 존재하는지의 여부 또는 조직 유형에 대해 병태가 존재하는지의 여부가 결정될 수 있다.
일례에서, 상이한 크기의 세포-무함유 DNA 분자의 단편화 패턴이 분석된다. 짧은(short) DNA 분자 및 긴(long) DNA 분자는 크기-태깅된(tagged) 바람직한 말단으로 지칭되는 상이한 바람직한 DNA 말단 위치와 관련이 있을 수 있다. 짧은 바람직한 DNA 말단 위치는 소정의 조직 유형(예를 들어, 태아, 종양, 또는 이식물 조직)과 상관관계가 있다. 짧은(그리고 잠재적으로 긴) DNA 분자에 바람직한 종결 위치가 식별되고, 이러한 위치에서 종결되는 DNA 분자는 다양한 적용에 사용될 수 있다.
일부 구현예에서, 짧은 DNA 분자에 대한 바람직한 종결 위치에서 종결되는 세포-무함유 DNA 분자의 상대 기여도는 예를 들어, 비례 기여도가 알려져 있는 보정 시료에서 유사한 측정과 비교함으로써 시험 혼합물에서 제1 조직 유형의 비례 기여도를 결정하는 데 사용될 수 있다.
다른 구현예에서, 짧은 DNA 분자에 대한 바람직한 종결 위치에서 종결되는 세포-무함유 DNA 분자의 그룹 및 특정 염색체 영역에서의 위치는 상기 그룹의 값(예를 들어, 카운트, 크기 분포의 통계값, 또는 메틸화 수준)을 결정하기 위해 분석될 수 있다. 상기 값은 서열 불균형(예를 들어, 예컨대 이수성(aneuploidy), 결실, 또는 증폭과 같은 카피 수 이상, 및 유전자형의 차이)을 검출하는 데 사용될 수 있다. 서열 불균형이 염색체 영역에 존재하는 경우, 그 값은 기준값으로부터 통계학적으로 유의한 편차를 보여줄 것이다.
또 다른 예에서, 조직-특이적 개방 염색질 영역(open chromatin region)과 관련된 단편화 패턴이 분석되었다. 제1 조직 유형에 대한 조직-특이적 개방 염색질 영역의 중심에 비한 게놈 위치의 세트가 사용될 수 있다. 특히, DNA 단편이 (예를 들어, 특정 조직 유형의 개방 염색질 영역의 중심에 비해) 게놈 위치의 이러한 세트에서 업스트림 말단 또는 다운스트림 말단을 갖는지의 여부의 지식은 정량적 분석에 사용될 수 있다. 예를 들어, 업스트림 말단 및 다운스트림 말단을 갖는 DNA 분자의 각각의 수에서 분리(예를 들어, 차이 또는 비)가 사용될 수 있다.
일부 구현예에서, 분리값은 예를 들어, 비례 기여도가 알려져 있는 보정 시료에서 유사한 측정과 비교함으로써 시험 혼합물에서 제1 조직 유형의 비례 기여도를 결정하는 데 사용될 수 있다. 다른 구현예에서, 분리값은 예를 들어, 기준값으로부터 통계학적으로 유의한 편차가 존재하는 경우, 분리값은 제1 조직 유형에서 병태의 지표(indicator)로서 사용될 수 있다. 이러한 병태의 예는 제1 조직 유형으로부터의 세포-무함유 DNA의 비정상적으로 높은 분획 농도(fractional concentration)를 포함하고, 상기 제1 조직 유형의 이식된 기관의 거부, 또는 암이다.
본 발명의 이들 및 다른 구현예는 하기에서 상세히 기재된다. 예를 들어, 다른 구현예는 본원에 기재된 방법과 관련된 시스템, 장치, 및 컴퓨터 판독 가능 매체에 관한 것이다.
본 개시내용의 구현예의 성질 및 이점은 하기의 상세한 설명 및 첨부된 도면을 참조하여 보다 양호하게 이해될 수 있다.
도 1은 본 개시내용의 구현예에 따른 혈장 DNA 단편에 대한 단편 말단 부위의 분석을 도시한다.
도 2는 24개의 모체(maternal) 혈장 시료에서 세트 S 바람직한 말단 부위를 커버하는 혈장 DNA 판독물(read)(적색) 대 세트 L 바람직한 말단 부위를 커버하는 혈장 DNA 판독물(청색)의 크기 분포를 도시한다.
도 3은 본 개시내용의 구현예에 따른 하나의 모체 혈장 시료에서 세트 S 및 세트 L 바람직한 말단 부위를 커버하는 혈장 DNA 판독물의 크기 분포를 도시한다.
도 4a는 26개의 모체 혈장 시료에서 크기-태깅된 바람직한 말단 부위를 갖는 혈장 DNA 분자의 상대 존재비(S/L 비)와 태아 DNA 분율 사이의 상관관계를 도시한다. 도 4b는 26개의 모체 혈장 시료에 대한 크기 비(긴 판독물에 대한 짧은 판독물의 수)와 태아 DNA 분율 사이의 상관관계를 도시한다.
도 5a는 본 개시내용의 구현예에 따른 대조군 사례와 3염색체성(trisomy) 21 사례 사이의 chr21 판독물의 상대 존재비의 비교를 도시한다. 도 5b는 본 개시내용의 구현예에 따른 세트 S 바람직한 말단 부위를 커버하는 판독물과 3염색체성 21 검사에 대한 판독물 사이의 ROC 비교를 도시한다.
도 6은 24명의 건강한 대상체에서 세트 S 바람직한 말단 부위를 커버하는 혈장 DNA 판독물 대 세트 L 바람직한 말단 부위를 커버하는 혈장 DNA 판독물의 크기 분포를 도시한다.
도 7a는 본 개시내용의 구현예에 따른 건강한 대상체에서 세트 S 및 세트 L 바람직한 말단 부위를 커버하는 혈장 DNA 판독물의 크기 분포를 도시한다. 도 7b는 본 개시내용의 구현예에 따른 임신 여성 및 건강한 대상체에서 세트 S 및 세트 L 바람직한 말단 부위를 갖는 혈장 DNA 판독물의 상대 존재비(S/L 비)의 비교를 도시한다.
도 8은 본 개시내용의 구현예에 따른 간세포암종(HCC) 환자에서 세트 S 및 세트 L 바람직한 말단 부위를 커버하는 혈장 DNA 판독물의 크기 분포를 도시한다.
도 9는 24명의 간세포암종 환자의 대표적인 세트에서 세트 S 바람직한 말단 부위를 커버하는 혈장 DNA 판독물 대 세트 L 바람직한 말단 부위를 커버하는 혈장 DNA 판독물의 크기 분포를 도시한다.
도 10은 본 개시내용의 구현예에 따른 혈장에서 1% 초과의 종양 DNA 분율을 갖는 72명의 간세포암종 환자에서 크기-태깅된 바람직한 말단 부위를 갖는 혈장 DNA 분자의 상대 존재비(S/L 비)와 종양 DNA 분율 사이의 상관관계를 도시한다.
도 11은 건강한 대상체 및 간세포암종 환자 중에서 크기-태깅된 바람직한 말단 부위를 갖는 혈장 DNA 분자의 상대 존재비(S/L 비)를 도시한다.
도 12는 건강한 대상체, 간경변이 없거나 있는 HBV 보균자, 및 본 개시내용의 구현예에 따른 HCC 환자 중에서 chr1p 상에서 세트 S 말단을 커버하는 정규화된 판독물 카운트를 도시한다.
도 13은 건강한 대상체, 간경변이 없거나 있는 HBV 보균자, 및 본 개시내용의 구현예에 따른 HCC 환자 중에서 chr1q 상에서 세트 S 말단을 커버하는 정규화된 판독물 카운트를 도시한다.
도 14는 건강한 대상체, 간경변이 없거나 있는 HBV 보균자, 및 본 개시내용의 구현예에 따른 HCC 환자 중에서 chr8p 상에서 세트 S 말단을 커버하는 정규화된 판독물 카운트를 도시한다.
도 15는 건강한 대상체, 간경변이 없거나 있는 HBV 보균자, 및 본 개시내용의 구현예에 따른 HCC 환자 중에서 chr8q 상에서 세트 S 말단을 커버하는 정규화된 판독물 카운트를 도시한다.
도 16은 본 개시내용의 구현예에 따른 세트 S 및 세트 L 바람직한 말단 부위에서 임의의 2개의 가장 근접한 바람직한 말단 부위 사이의 거리의 분포를 도시한다.
도 17a는 본 개시내용의 구현예에 따른 혈장 DNA 커버리지, 세트 S 및 세트 L 바람직한 말단 부위의 스냅샷을 도시한다. 도 17b는 본 개시내용의 구현예에 따른 태반 조직 및 T-세포에 의해 공유되는 보편적인 개방 염색질 영역을 둘러싸는 바람직한 말단 부위의 분포를 도시한다.
도 18a는 본 개시내용의 구현예에 따른 뉴클레오솜 구조에 비한 임신 혈장 DNA에서 크기-태깅된 바람직한 부위의 분포를 도시한다. 도 18b는 본 개시내용의 구현예에 따른 Straver 등(23)에 의해 예측된 뉴클레오솜 구조에 비한 크기-태깅된 바람직한 부위의 분포를 도시한다.
도 19는 본 개시내용의 구현예에 따른 건강한 비-임신 대상체에서 뉴클레오솜 구조에 비한 짧은 DNA 및 긴 DNA 분자에 대한 상염색체 단편 말단의 분포를 도시한다.
도 20a는 뉴클레오솜 구조의 예시를 도시한다. 도 20b는 뉴클레오솜 구조에서 태아-특이적 바람직한 말단 부위 및 모체-특이적 바람직한 말단 부위의 분포를 도시한다. 도 20c는 뉴클레오솜 구조에서 임신 사례 및 건강한 남성 대상체의 chrY 단편 말단의 분포를 도시한다. 도 20d는 임신 사례에서 뉴클레오솜 구조에서 짧은 DNA 및 긴 DNA의 chrY 단편 말단의 분포를 도시한다. 도 20e는 건강한 대상체에서 뉴클레오솜 구조에서 짧은 DNA 및 긴 DNA의 chrY 단편 말단의 분포를 도시한다.
도 21a 및 도 21b는 (a) 연막 시료 및 (b) 태반 조직의 ATAC-seq 데이터로부터의 단편 크기 분포를 도시한다.
도 22는 짧은-태깅된 종결 위치에서 종결되는 세포-무함유 DNA 분자의 상대 존재비와 조직 A로부터의 알려진 비례 농도의 DNA를 이용한 2개 이상의 보정 시료의 분석에 의해 결정된 혼합물에서 DNA에 대한 조직 A의 비례 기여도 사이의 관계를 도시한다.
도 23은 본 개시내용의 구현예에 따른, 생물학적 시료를 분석하여, 혼합물 내 제1 조직 유형의 비례 기여도의 분류를 결정하는 방법의 순서도이다.
도 24는 본 개시내용의 구현예에 따른, 생물학적 시료를 분석하여, 제1 조직 유형이 세포-무함유 DNA 분자의 혼합물 내 염색체 영역에서 서열 불균형을 나타내는지의 여부를 결정하는 방법의 순서도이다.
도 25a 내지 도 25f는 본 개시내용의 구현예에 따른 세포-무함유 DNA(cfDNA) 단편화 분석의 개념적 프레임워크를 도시한다. 도 25a는 랩핑된(wrapped) DNA(황색 라인), 링커(갈색 라인), 및 활성 조절 요소(녹색 라인)를 갖는 뉴클레오솜의 예시이다. 도 25b는 세포자멸사 DNA 단편화로부터 생성된 cfDNA의 예시를 도시한다. 도 25c는 2개의 말단의 시퀀싱된 판독물 및 추출의 예시이다. 적색 및 청색은 U(업스트림) 및 D(다운스트림) 혈장 DNA 말단을 각각 나타낸다. 도 25d는 게놈 커버리지를 도시한다. 도 25e는 게놈 좌표에 비한 cfDNA의 U 및 D 단편 말단 프로파일을 도시한다. 도 25f는 평활화된 혈장 DNA 말단 신호 및 추정된 뉴클레오솜 위치화를 도시한다.
도 26a 및 도 26b는 본 개시내용의 구현예에 따른 풀링된 건강한 비-임신 대상체에서 chr12p11.1 영역에서 혈장 DNA 단편화 패턴을 도시한다. 도 26a는 원(raw) 신호를 도시한다. 도 26b는 평활화된 신호 및 추측된 뉴클레오솜 위치화를 도시한다. 도 26c는 하우스키핑 유전자의 활성 프로모터 주변의 혈장 DNA 커버리지 및 말단 신호를 도시한다. 도 26d는 불활성 프로모터 주변의 혈장 DNA 커버리지 및 말단 신호를 도시한다.
도 27a, 도 27b 및 도 27c는 본 개시내용의 구현예에 따른 풀링된 건강한 비-임신 대상체에서 혈장 DNA 단편화 패턴을 도시한다. 도 27a는 T-세포 및 간세포에 의해 공유된 보편적인 개방 염색질 영역에서의 패턴을 도시한다(추측된 뉴클레오솜 위치화 또한, 플롯화되었음). 도 27b는 배아 줄기세포(ESC)-특이적 개방 염색질 영역에서의 패턴을 도시한다. 도 27c는 OCF(배향-인지 cfDNA 단편화(Orientation-aware cfDNA fragmentation)) 값의 개념의 예시이다.
도 28a 내지 도 28g는 본 발명의 구현예에 따른 건강한 대상체에서 조직-특이적 개방 염색질 영역에서 혈장 DNA 단편화 패턴을 도시한다. 각각의 도면은 하나의 조직 유형: 도 28a T-세포; 도 28b 태반; 도 28c 간; 도 28d 폐; 도 28e 난소; 도 28f 유방; 도 28g 창자에 상응하는 조직-특이적 개방 염색질 영역으로부터의 결과를 도시한다.
도 29a는 본 개시내용의 구현예에 따른 1명의 CRC 환자에서 창자-특이적 개방 염색질 영역에서 혈장 DNA 단편화 패턴을 도시한다.
도 29b는 본 개시내용의 구현예에 따른 1명의 폐암 환자에서 폐-특이적 개방 염색질 영역에서 혈장 DNA 단편화 패턴을 도시한다.
도 30은 본 개시내용의 구현예에 따른 건강한 비-임신 대상체 코호트에서 다양한 조직 중 혈장 DNA 단편화 패턴(OCF 값)의 정량화를 도시한다.
도 31은 본 개시내용의 구현예에 따른 건강한 개체에서 조직 유형에 대한 OCF 값의 표를 도시한다.
도 32a 내지 도 32d는 본 개시내용의 구현예에 따른 비침습적 산전 검사에서 혈장 DNA 단편화 패턴 분석의 적용을 도시한다. 도 32a는 하나의 임신 사례에서 태반-특이적 개방 염색질 영역에서 혈장 DNA 단편화 패턴을 도시한다. 도 32b는 건강한 비-임신 대상체와 임신 여성 사이에서 T-세포에 대한 OCF 값의 비교를 도시한다. 도 32c는 건강한 비-임신 대상체와 임신 여성 사이에서 태반에 대한 OCF 값의 비교를 도시한다. 도 32d는 26명의 임신 여성의 코호트에서 태반 및 태아 DNA 분율에 대한 OCF 값 사이의 상관관계를 도시한다.
도 33은 본 개시내용의 구현예에 따른 임신 대상체에서 OCF 값 조직 유형의 표를 도시한다.
도 34는 본 개시내용의 구현예에 따른 간 이식 환자에서 OCF 값 조직 유형의 표를 도시한다.
도 35a, 도 35b 및 도 35c는 본 개시내용의 구현예에 따른 간 이식 및 HCC 환자에서 혈장 DNA 단편화 패턴 분석의 적용을 도시한다. 도 35a는 간 이식 환자에서 간 및 공여자 DNA 분율에 대한 OCF 값 사이에서의 상관관계를 도시한다. 도 35b는 HCC 사례에서 종양 DNA 분율을 도시한다. 도 35c는 건강한 대상체와 HCC 환자 중에서 T-세포에 대한 OCF 값의 비교를 도시한다(혈장 내 종양 DNA 부하에 기초하여 2개 그룹으로 분리됨). 도 35d는 건강한 대상체와 HCC 환자 중에서 간에 대한 OCF 값의 비교를 도시한다(혈장 내 종양 DNA 부하에 기초하여 2개 그룹으로 분리됨).
도 36a 내지 도 36d는 본 개시내용의 구현예에 따른 간세포암종 환자에서 OCF 값 조직 유형의 표를 도시한다.
도 37a 내지 도 37e는 본 개시내용의 구현예에 따른 CRC 및 폐암 환자에서 혈장 DNA 단편화 패턴 분석의 적용을 도시한다. 도 37a는 건강한 대상체와 CRC 환자 사이에서 T-세포에 대한 OCF 값의 비교를 도시한다. 도 37b는 건강한 대상체와 CRC 환자 사이에서 창자에 대한 OCF 값의 비교를 도시한다. 도 37c는 CRC 환자에서 창자 및 결장 DNA 분율(혈장 DNA 조직 맵핑 방법에 의해 추론됨)에 대한 OCF 값 사이의 상관관계를 도시한다. 도 37d는 건강한 대상체와 폐암 환자 사이에서 T-세포에 대한 OCF 값의 비교를 도시한다. 도 37e는 건강한 대상체와 폐암 환자 사이에서 폐에 대한 OCF 값의 비교를 도시한다.
도 38은 본 개시내용의 구현예에 따른 폐암 환자에서 OCF 값 조직 유형의 표를 도시한다.
도 39는 본 개시내용의 구현예에 따른 결장직장암 환자에서 OCF 값 조직 유형의 표를 도시한다.
도 40은 본 개시내용의 구현예에 따른, 생물학적 시료를 분석하여, 혼합물 내 제1 조직 유형의 비례 기여도의 분류를 결정하는 방법의 순서도이다.
도 41은 본 개시내용의 구현예에 따른, 생물학적 시료를 분석하여, 혼합물 내 제1 조직 유형에 병태가 존재하는지의 여부의 분류를 결정하는 방법의 순서도이다.
도 42는 본 개시내용의 구현예에 따른 측정 시스템을 예시한다.
도 43은 본 개시내용의 구현예에 따른 시스템 및 방법으로 사용 가능한 일례의 컴퓨터 시스템의 블록 다이어그램을 도시한다.
용어
"조직"은 기능적 단위로서 함께 그룹화되는 세포 그룹에 상응한다. 1개 초과의 유형의 세포가 단일 조직에서 발견될 수 있다. 상이한 유형의 조직은 상이한 유형의 세포(예를 들어, 간세포, 폐포 세포 또는 혈액 세포)로 구성될 수 있을 뿐만 아니라, 상이한 유기체들(모친(mother) 대 태아)로부터의 조직 또는 건강한 세포 대 종양 세포에 상응할 수 있다. "기준 조직"은 조직-특이적 메틸화 수준을 결정하는 데 사용되는 조직에 상응할 수 있다. 상이한 개체로부터의 동일한 조직 유형의 다수의 시료는 해당 조직 유형의 조직-특이적 메틸화 수준을 결정하는 데 사용될 수 있다.
"생물학적 시료"는 대상체(예를 들어, 인간, 예컨대 임신한 여성, 암을 가진 사람, 또는 암을 갖고 있는 것으로 의심되는 사람, 기관 이식 수혜자, 또는 기관을 수반한 질환 과정(예를 들어, 심근 경색에서 심장, 뇌졸중에서 뇌, 또는 빈혈에서 조혈계)을 갖고 있는 것으로 의심되는 대상체)로부터 채취되고 하나 이상의 관심 핵산 분자(들)를 함유하는 임의의 시료를 지칭한다. 생물학적 시료는 체액, 예컨대 혈액, 혈장, 혈청, 소변, 질액, 수류(예를 들어, 고환의)로부터의 유체, 질 플러싱 유체(vaginal flushing fluid), 흉수(pleural fluid), 복수(ascitic fluid), 뇌척수액, 침, 땀, 눈물, 가래, 기관지폐포 세척액, 유두로부터의 배출액, 신체(예를 들어, 갑상선, 유방)의 상이한 부분들로부터의 흡인액 등일 수 있다. 대변 시료가 또한 사용될 수 있다. 다양한 구현예에서, 세포-무함유 DNA에 대해 농화되었던 생물학적 시료(예를 들어, 원심분리 프로토콜을 통해 수득된 혈장 시료) 내의 대부분의 DNA는 세포-무함유일 수 있으며, 예를 들어, 50%, 60%, 70%, 80%, 90%, 95% 또는 99% 초과의 DNA가 세포-무함유일 수 있다. 원심분리 프로토콜은 예를 들어, 3,000 g x 10분, 유체 부분을 수득하고 잔여 세포를 제거하기 위해 예를 들어, 30,000 g에서 또 다른 10분 동안 재-원심분리할 수 있다.
본원에 사용된 바와 같이, 용어 "반수체형"은 동일한 염색체 또는 염색체 영역 상에서 함께 이송되는 다수의 좌위에서 대립유전자들의 조합을 지칭한다. 반수체형은 불과 한쌍의 좌위 또는 염색체 영역, 또는 전체 염색체를 지칭할 수 있다. 용어 "대립유전자"는 상이한 표현형 속성을 초래할 수 있거나 초래하지 않을 수 있는, 동일한 물리적 게놈 좌위에서의 대안적인 DNA 서열을 지칭한다. 임의의 특정 이배수체 유기체에서, 각각의 염색체의 2개 카피와 함께(남성 인간 대상체에서 성염색체 제외), 각각의 유전자에 대한 유전자형은 해당 좌위에 존재하는 대립유전자의 쌍을 포함하고, 이들은 동형접합체에서는 동일하고 이형접합체에서는 상이하다. 유기체의 집단 또는 종은 전형적으로, 다양한 개체 중에서 각각의 좌위에서 다수의 대립유전자를 포함한다. 1개 초과의 대립유전자가 집단에서 발견되는 게놈 좌위는 다형체성 부위라고 한다. 좌위에서 대립유전자성 변이는 존재하는 대립유전자의 수(즉, 다형성의 정도) 또는 집단 내 이형접합체의 비율(즉, 이형접합성율)로서 측정 가능하다.
본원에 사용된 바와 같이, 용어 "단편"(예를 들어, DNA 단편)은 적어도 3개의 연속 뉴클레오타이드를 포함하는 폴리뉴클레오타이드 또는 폴리펩타이드 서열의 일부를 지칭할 수 있다. 핵산 단편은 부모 폴리펩타이드의 생물학적 활성 및/또는 일부 특징을 보유할 수 있다. 핵산 단편은 이중 가닥 또는 단일 가닥이거나, 메틸화 또는 비메틸화되거나, 온전하거나 또는 닉킹되거나(nicked), 다른 거대분자, 예를 들어, 지질 입자, 단백질과 복합체화될 수 있거나 복합체화되지 않을 수 있다. 단편은 특정 조직 유형, 예를 들어, 태아, 종양, 이식된 기관 등으로부터 유래될 수 있다.
용어 "검정법"은 일반적으로, 핵산의 특성을 결정하는 기술을 지칭한다. 검정법(예를 들어, 제1 검정법 또는 제2 검정법)은 일반적으로, 시료 내 핵산의 양, 시료 내 핵산의 유전적 동일성, 시료 내 핵산의 복제수 변동(복제수 변동), 시료 내 핵산의 메틸화 상태, 시료 내 핵산의 단편 크기 분포, 시료 내 핵산의 돌연변이 상태, 또는 시료 내 핵산의 단편화 패턴을 결정하는 기술을 지칭한다. 당업자에게 알려진 임의의 검정법이 본원에서 언급된 핵산의 임의의 특성을 검출하는 데 사용될 수 있다. 핵산의 특성은 핵산의 서열, 양, 유전적 동일성, 복제수, 하나 이상의 뉴클레오타이드 위치에서의 메틸화 상태, 크기, 하나 이상의 뉴클레오타이드 위치에서 핵산 내 돌연변이, 및 핵산의 단편화 패턴(예를 들어, 핵산이 단편화하는 뉴클레오타이드 위치(들))을 포함한다. 용어 "검정법"은 용어 "방법"과 상호교환적으로 사용될 수 있다. 검정법 또는 방법은 특정 민감도 및/또는 특이도를 가질 수 있고, 진단 툴로서의 이들의 상대적인 유용성은 ROC-AUC 통계를 사용하여 측정될 수 있다.
"서열 판독"은 핵산 분자 중 임의의 부분 또는 모두로부터 시퀀싱된 뉴클레오타이드 열(string)을 지칭한다. 예를 들어, 서열 판독은 생물학적 시료에 존재하는 전체 핵산 단편일 수 있다. 또한 예로서, 서열 판독은 생물학적 시료에 존재하는 핵산 단편으로부터 시퀀싱된 뉴클레오타이드(예를 들어, 20 내지 150개 염기)의 짧은 열, 핵산 단편 중 하나의 말단 또는 두 말단 모두에서 뉴클레오타이드의 짧은 열, 또는 전체 핵산 단편의 시퀀싱일 수 있다. 짝형성된(paired) 서열 판독은 기준 게놈에 정렬될 수 있으며, 이는 단편의 길이를 제공할 수 있다. 서열 판독은 여러 가지 방식으로, 예를 들어, 혼성화 프로브 또는 포착 프로브에서 시퀀싱 기술을 사용하거나 프로브를 사용하여, 또는 증폭 기술, 예컨대 중합효소 연쇄 반응(PCR) 또는 단일 프라이머를 사용하는 선형 증폭 또는 등온 증폭에서, 또는 생물물리학적 측정, 예컨대 질량 분광분석법을 기초로 하여 수득될 수 있다. 서열 판독은 단일-분자 시퀀싱으로부터 수득될 수 있다. "단일-분자 시퀀싱"은 주형 DNA 분자의 클론 복사체로부터 염기 서열 정보를 해석할 필요 없이, 단일 주형 DNA 분자를 시퀀싱하여 서열 판독을 수득하는 것을 지칭한다. 단일-분자 시퀀싱은 전체 분자 또는 DNA 분자의 단지 일부를 시퀀싱할 수 있다. 대부분의 DNA 분자, 예를 들어, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95% 또는 99% 초과가 시퀀싱될 수 있다.
"임상적-관련(clinically-relevant)" DNA의 예는 모체 혈장 내 태아 DNA 및 환자의 혈장 내 종양 DNA를 포함한다. 또 다른 예는 이식 환자의 혈장 내 이식-연관 DNA의 양의 측정을 포함한다. 추가의 예는 대상체의 혈장 내 조혈모 DNA 및 비-조혈모 DNA의 상대량의 측정을 포함한다. 이러한 후자의 구현예는 조혈모 및 비-조혈모 조직을 수반하는 병리학적 과정 또는 손상을 검출하거나 모니터링하거나 예후화하는 데 사용될 수 있다.
"종결 위치" 또는 "말단 위치"(또는 단순히 "말단")는 세포-무함유 DNA 분자, 예를 들어, 혈장 DNA 분자의 최외곽 염기, 즉, 단부(extremity)에서 게놈 좌표 또는 게놈 동일성 또는 뉴클레오타이드 동일성을 지칭할 수 있다. 말단 위치는 DNA 분자의 어느 말단에 상응할 수 있다. 이러한 방식으로, 당업자가 DNA 분자의 시작 및 말단을 지칭하는 경우, 시작과 말단 둘 다 종결 위치에 상응할 것이다. 사실상, 하나의 말단 위치는 분석 방법, 예컨대 비제한적으로 대량 병렬 시퀀싱 또는 차세대 시퀀싱, 단일 분자 시퀀싱, 이중-가닥 또는 단일-가닥 DNA 시퀀싱 라이브러리 제조 프로토콜, 중합효소 연쇄 반응(PCR), 또는 마이크로어레이에 의해 검출되거나 결정되는 세포-무함유 DNA 분자의 하나의 단부 상의 최외곽 염기의 게놈 좌표 또는 뉴클레오타이드 동일성이다. 이러한 시험관내 기법은 세포-무함유 DNA 분자의 참(true) 생체내 물리적 말단(들)을 변경시킬 수 있다. 그러므로, 각각의 검출 가능한 말단은 생물학적으로 참인 말단을 나타낼 수 있거나, 상기 말단은 클레노브 단편(Klenow fragment)에 의해 비-블런트-말단 이중 가닥 DNA 분자의 5' 블런팅 및 3' 필링과 같이 분자의 원래 말단 쪽으로의 하나 이상의 뉴클레오타이드 또는 원래 말단으로부터 연장된 하나 이상의 뉴클레오타이드이다. 말단 위치의 게놈 동일성 또는 게놈 좌표는 기준 게놈, 예를 들어, hg19 또는 다른 인간 기준 게놈에 대한 서열 판독물의 정렬의 결과로부터 유래될 수 있을 것이다. 이는 인간 게놈의 원래 좌표를 나타내는 지수 또는 코드의 카탈로그로부터 유래될 수 있을 것이다. 이는 비제한적으로 표적-특이적 프로브, 미니-시퀀싱, DNA 증폭에 의해 판독되는 세포-무함유 DNA 분자 상의 위치 또는 뉴클레오타이드 동일성을 지칭할 수 있을 것이다.
"바람직한 말단"(또는 "반복성 종결 위치(recurrent ending position)")은 예를 들어, 치료 전 또는 치료 후에, 생리학적(예를 들어, 임신) 또는 병리학적(질환) 상태(예를 들어, 암)를 갖는 생물학적 시료에서, 이러한 상태를 갖지 않는 생물학적 시료보다 또는 동일한 병리학적 또는 생리학적 상태의 상이한 시점 또는 병기에서보다 더 고도로 표시되거나 우세한(예를 들어, 비율에 의해 측정되는 바와 같이) 말단을 지칭한다. 따라서, 바람직한 말단은 다른 상태에 비해 관련 생리학적 또는 병리학적 상태에서 검출되기 위한 증가된 공산 또는 확률을 가진다. 증가된 확률은 예를 들어, 암을 갖고 있는 환자 및 암을 갖고 있지 않은 환자에서 병리학적 상태와 비-병리학적 상태 사이에서 비교되고, 공산비 또는 상대 확률로서 정량화될 수 있다. 공산비는 시험 시료에서 바람직한 말단의 적어도 역치 수를 검출하는 확률에 기초하거나, 이러한 질병을 갖지 않는 환자보다 이러한 질병을 갖는 환자에서 바람직한 말단을 검출하는 확률에 기초하여 결정될 수 있다. 공산비의 역치에 대한 예는 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.8, 2.0, 2.5, 3.0, 3.5, 4.0, 4.5, 5, 6, 8, 10, 20, 40, 60, 80 및 100을 포함하지만 이들로 제한되는 것은 아니다. 이러한 공산비는 관련 상태를 갖는 시료와 갖지 않는 시료의 상대 존재비 값을 비교함으로써 측정될 수 있다. 관련 생리학적 또는 질환 상태에서 바람직한 말단을 검출하는 확률이 더 높기 때문에, 이러한 바람직한 종결 위치는 해당되는 동일한 병리학적 또는 질환 상태를 갖는 1명 초과의 개체에서 관찰될 것이다. 증가된 확률로, 1개 초과의 세포-무함유 DNA 분자는, 심지어 분석되는 세포-무함유 DNA 분자의 수가 게놈의 크기보다 훨씬 더 작은 경우에도, 동일한 바람직한 종결 위치에서 종결되는 것으로 검출될 수 있다. 그러므로, 바람직한 또는 반복성 종결 위치 또한, "빈번한 종결 위치"로서 지칭된다. 일부 구현예에서, 정량적 역치는 바람직한 말단으로서 간주될 동일한 시료 또는 동일한 시료 분취물 내에서 말단이 적어도 다수의 시간(예를 들어, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20 또는 50)에서 검출되는 것을 필요로 하는 데 사용될 수 있다. 관련 생리학적 상태는, 사람이 건강하거나, 질환이 없거나, 관심 질환이 없는 경우의 상태를 포함할 수 있다. 유사하게는, "바람직한 종결 윈도우(preferred ending window)"는 바람직한 종결 위치의 인접한 세트에 상응한다.
위치에서 종결되는 DNA 분자의 "비율"은, DNA 분자가 상기 위치에서 얼마나 빈번하게 종결되는지에 관한 것이다. 상기 비율은 분석되는 DNA 분자의 수에 대해 정규화된 위치에서 종결되는 DNA 분자의 수에 기초할 수 있다. 이에, 상기 비율은 얼마나 많은 DNA 분자가 위치에서 종결되는지의 빈도에 상응하고, 상기 위치에서 종결되는 DNA 분자의 수에서 국소 최대를 갖는 위치의 주기성에 관한 것이 아니다.
"보정 시료"는, 조직-특이적 DNA 분획이 알려져 있거나 예를 들어, 조직에 특이적인 대립유전자를 사용하여 보정 방법을 통해 결정되는 생물학적 시료에 상응할 수 있다. 또 다른 예로서, 보정 시료는, 바람직한 종결 위치가 결정될 수 있는 시료에 상응할 수 있다. 보정 시료는 두 목적 모두를 위해 사용될 수 있다.
"보정 데이터 포인트"는 관심 DNA(즉, 특정 조직 유형의 DNA)의 "보정값" 및 측정되거나 알려진 비례 기여도를 포함한다. 보정값은 보정 시료에 대해 결정된 바와 같은 상대 존재비일 수 있으며, 이에 대한 조직 유형의 비례 기여도는 알려져 있다. 보정 데이터 포인트는 조직 유형의 보정값(예를 들어, 크기-태깅된 종결 위치 또는 배향-인지 단편화를 사용하여 측정됨) 및 알려진(측정된) 비례 기여도를 포함할 수 있다. 보정 데이터 포인트는 여러 가지 방식에서, 예를 들어, 별개의 포인트로서 또는 보정 함수(보정 곡선 또는 보정 표면이라고도 함)로서 정의될 수 있다. 보정 함수는 보정 데이터 포인트의 부가적인 수학적 변환으로부터 유래될 수 있을 것이다. 보정 함수는 선형 또는 비-선형일 수 있다.
"부위"("게놈 부위"로도 지칭됨)는 단일 부위에 상응하며, 이는 단일 염기 위치 또는 상관(correlated) 염기 위치의 그룹, 예를 들어, 상관 염기 위치의 크기-바람직한 부위, CpG 부위 또는 더 큰 그룹일 수 있다. "좌위"는 다수의 부위들을 포함하는 영역에 상응할 수 있다. 좌위는 단지 하나의 부위를 포함할 수 있으며, 이는 상기 좌위를 해당 맥락에서 부위에 동등하게 만들 것이다.
포유류 게놈에서 "DNA 메틸화"는 전형적으로, CpG 디뉴클레오타이드 중에서 시토신 잔기의 5' 탄소에 메틸기의 첨가(즉, 5-메틸시토신)를 지칭한다. DNA 메틸화는 다른 맥락, 예를 들어, CHG 및 CHH의 시토신에서 발생할 수 있으며, 이때 H는 아데닌, 시토신 또는 티민이다. 시토신 메틸화는 또한, 5-하이드록시메틸시토신의 형태일 수 있다. 비-시토신 메틸화, 예컨대 N6-메틸아데닌이 또한, 보고되었다.
각각의 게놈 부위(예를 들어, CpG 부위)에 대한 "메틸화 지수"는 (예를 들어, 시퀀스 판독 또는 프로브로부터 결정된 바와 같은) DNA 단편의 비율을 지칭할 수 있으며, 부위를 커버하는 판독의 총 수에 걸쳐 해당 부위에서의 메틸화를 보여준다. "판독"은 DNA 단편으로부터 수득된 정보(예를 들어, 부위에서의 메틸화 상태)에 상응할 수 있다. 판독은 특정 메틸화 상태의 DNA 단편에 우선적으로 혼성화하는 시약(예를 들어, 프라이머 또는 프로브)을 사용하여 수득될 수 있다. 전형적으로, 이러한 시약은 DNA 분자의 메틸화 상태에 따라 이들 분자를 차별적으로 변형시키거나 차별적으로 인지하는 과정, 예를 들어, 비설파이트 전환, 또는 메틸화-민감성 제한 효소, 메틸화 결합 단백질, 또는 항-메틸시토신 항체로 처리한 후 적용된다. 또 다른 구현예에서, 메틸시토신 및 하이드록시메틸시토신을 인지하는 단일 분자 시퀀싱 기술은 메틸화 상태를 명시하고 메틸화 지수를 결정하는 데 사용될 수 있다.
영역의 "메틸화 밀도"는 영역 내의 부위를 커버하는 판독의 총 수로 나눈, 메틸화를 보여주는 영역 내의 부위에서의 판독의 수를 지칭할 수 있다. 상기 부위는 특이적인 특징, 예를 들어, CpG 부위라는 특징을 가질 수 있다. 따라서, 영역의 "CpG 메틸화 밀도"는 영역(예를 들어, 특정 CpG 부위, CpG 섬(island) 내의 CpG 부위, 또는 더 큰 영역) 내의 CpG 부위를 커버하는 판독의 총 수로 나눈, CpG 메틸화를 보여주는 판독의 수를 지칭할 수 있다. 예를 들어, 인간 게놈에서 각각의 100-kb 빈(bin)에 대한 메틸화 밀도는, 100-kb 영역으로 맵핑된(mapped) 시퀀스 판독에 의해 커버된 모든 CpG 부위의 비율로서 CpG 부위에서 비설파이트 처리(메틸화된 시토신에 상응함) 후 전환되지 않은 시토신의 총 수로부터 결정될 수 있다. 이 분석은 다른 빈 크기, 예를 들어, 500 bp, 5 kb, 10 kb, 50-kb 또는 1-Mb 등에 대해서도 수행될 수 있다. 영역은 전체 게놈 또는 염색체 또는 염색체의 일부(예를 들어, 염색체 아암(arm))일 수 있을 것이다. CpG 부위의 메틸화 지수는, 영역이 해당 CpG 부위만 포함할 때, 상기 영역에 대한 메틸화 밀도와 동일하다. "메틸화된 시토신의 비율"은 영역 내의 분석된 시토신 잔기, 즉, CpG 맥락 외부의 시토신을 포함하여 이들의 총 수에 걸쳐, 메틸화된(예를 들어, 비설파이트 전환 후 전환되지 않는) 것으로 보이는 시토신 부위, "C"의 수를 지칭할 수 있다. 메틸화된 시토신의 메틸화 지수, 메틸화 밀도 및 비율은, "메틸화 수준"의 예이며, 이는 부위에서 메틸화된 판독의 카운트를 수반하는 다른 비를 포함할 수 있다. 비설파이트 전환 외에도, 비제한적으로 메틸화 상태에 민감한 효소(예를 들어, 메틸화-민감성 제한 효소), 메틸화 결합 단백질, 메틸화 상태에 민감한 플랫폼을 사용하는 단일 분자 시퀀싱(예를 들어, 나노포어 시퀀싱(문헌[Schreiber 등. Proc Natl Acad Sci 2013; 110: 18910-18915]) 및 Pacific Biosciences 단일 분자 실시간 분석(문헌[Flusberg 등 Nat Methods 2010; 7: 461-465]))을 포함하여 당업자에게 알려진 다른 과정이 DNA 분자의 메틸화 상태에 대한 정보를 얻는 데 사용될 수 있다.
"메틸화-인식 시퀀싱"은 비제한적으로 비설파이트 시퀀싱, 또는 메틸화-민감성 제한 효소 절단에 뒤이은 시퀀싱, 항-메틸시토신 항체 또는 메틸화 결합 단백질을 사용한 면역침전, 또는 메틸화 상태의 명시(elucidation)를 가능하게 하는 단일 분자 시퀀싱을 포함하여 당업자가 시퀀싱 과정 동안 DNA 분자의 메틸화 상태를 확인할 수 있게 하는 임의의 시퀀싱 방법을 지칭한다. "메틸화-인식 검정법" 또는 "메틸화-민감성 검정법"은 시퀀싱 기초 방법과 비-시퀀싱 기초 방법 둘 모두, 예컨대 MSP, 프로브 기초 조사(interrogation), 혼성화, 제한 효소 절단 및 뒤이은 밀도 측정, 항-메틸시토신 면역검정법, 메틸화된 시토신 또는 하이드록시메틸시토신의 비율의 질량 분광분석법 조사, 시퀀싱이 후속하지 않는 면역침전 등을 포함할 수 있다.
용어 "시퀀싱 깊이"는 좌위가 그 좌위에 정렬된 서열 판독물에 의해서 포함되는 횟수를 지칭한다. 좌위는 뉴클레오타이드만큼 작거나, 염색체 아암만큼 크거나, 전체 게놈만큼 클 수 있다. 시퀀싱 깊이는 50x, 100x 등으로서 표현될 수 있고, 여기서 "x"는 좌위가 서열 판독물로 포함되는 횟수를 지칭한다. 시퀀싱 깊이는 다수의 좌위 또는 전체 게놈에 또한 적용될 수 있고, 이 경우 x는 좌위 또는 반수체 게놈, 또는 전체 게놈 각각이 시퀀싱되는 평균 횟수를 지칭할 수 있다. 울트라-딥(ultra-deep) 시퀀싱은 시퀀싱 깊이가 적어도 100x인 것을 지칭할 수 있다.
"분리 값"(또는, 상대 존재비(relative abundance))은 2개의 값, 예를 들어, DNA 분자의 2개 양, 2개의 분획 기여도(fractional contribution), 또는 2개의 메틸화 수준, 예컨대 시료(혼합물) 메틸화 수준 및 기준 메틸화 수준을 수반하는 차이 또는 비에 상응한다. 분리 값은 단순한 차이 또는 비일 수 있을 것이다. 예로서, x/y의 정비(direct ratio)는 x/(x+y)와 같이 분리 값이다. 분리 값은 다른 인자, 예를 들어, 곱셈 인자(multiplicative factor)를 포함할 수 있다. 다른 예로서, 값들의 함수의 차이 또는 비, 예를 들어, 2개 값의 자연 로그(ln)의 차이 또는 비가 사용될 수 있다. 분리 값은 차이 및/또는 비를 포함할 수 있다.
"상대 존재비"는 게놈 위치의 또 다른 윈도우 내에서 종결되는 세포-무함유 DNA 분자의 양(다른 값)에 대한 게놈 위치의 하나의 윈도우 내에서 종결되는 세포-무함유 DNA 분자의 양(하나의 값)에 관한 분리값의 유형이다. 2개의 윈도우는 중첩될 수 있지만, 상이한 크기일 것이다. 다른 실시에서, 2개의 윈도우는 중첩되지 않을 것이다. 나아가, 상기 윈도우는 하나의 뉴클레오타이드의 폭일 수 있으며, 따라서, 하나의 게놈 위치에 동등할 수 있다. "분리값" 및 "상대 존재비"는 상이한 분류(상태) 사이에서 달라지는 시료의 척도를 제공하는 매개변수(메트릭(metric)이라고도 함)의 2개의 예이므로, 상이한 분류를 결정하는 데 사용될 수 있다.
본원에 사용된 바와 같이 용어 "분류"는 시료의 특정 특성과 연관된 임의의 수(들) 또는 다른 특징(들)을 지칭한다. 예를 들어, "+" 부호(또는 단어 "양성")는, 시료가 결실 또는 증폭을 갖고 있는 것으로 분류됨을 의미할 수 있을 것이다. 분류는 2진(binary)(예를 들어, 양성 또는 음성)일 수 있거나, 더 많은 수준의 분류(예를 들어, 1 내지 10, 또는 0 내지 1의 규모)를 가질 수 있다.
용어 "컷오프" 및 "역치"는 작동(operation) 시 사용되는 미리 결정된 수를 지칭한다. 예를 들어, 컷오프 크기는 이것을 초과하는 크기의 단편이 배제되는 크기를 지칭할 수 있다. 역치값은, 이 값의 초과 또는 미만에서 특정 분류, 예를 들어, 질환의 분류, 예컨대 대상체가 질환을 갖고 있는지의 여부 또는 질환의 중증도가 적용되는 값일 수 있다. 컷오프 또는 역치는 "기준값"일 수 있거나, 2개 이상의 분류 사이에서 특정 분류를 나타내거나 구별하는 기준값으로부터 유래될 수 있다. 이러한 기준값은 예를 들어, 당업자에 의해 이해될 바와 같이, 시험 데이터의 출력 후 그리고 이에 기초하여 다양한 방식으로 결정될 수 있다. 예를 들어, 메트릭은 상이한 기지의 분류를 갖는 대상체의 2개의 상이한 코호트에 대해 결정될 수 있고, 기준값은 하나의 분류의 대표(예를 들어, 평균) 또는 메트릭의 2개의 클러스터 사이에 존재하는 값으로서 선택될 수 있다. 이에, 하나 이상의 질환의 기지의 분류 및 측정된 특징적인 값(예를 들어, 메틸화 수준, 통계학적 크기 값, 또는 카운트(count))을 갖는 기준 대상체는 상이한 질환들 및/또는 질환의 분류(예를 들어, 대상체가 질환을 갖고 있는지 여부)를 분간하기 위해 기준 수준을 결정하는 데 사용될 수 있다. 또 다른 예로서, 기준값은 시료의 통계학적 시뮬레이션에 기초하여 결정될 수 있다. 이들 용어 중 임의의 용어는 이들 맥락 중 임의의 맥락에서 사용될 수 있다. 당업자가 이해하는 바와 같이, 컷오프는 요망되는 민감도 및 특이도를 달성하도록 선택될 수 있다.
본원에 사용된 바와 같이, 용어 "염색체 이수성"은 2배체 게놈으로부터 염색체의 정량적 양의 변동을 의미한다. 상기 변동은 획득(gain) 또는 소실(loss)일 수 있다. 상기 변동은 하나의 염색체의 전체 또는 염색체의 영역을 수반할 수 있다. 염색체 영역은 하나의 염색체 전체, 염색체 아암, 또는 더 작은 영역, 예를 들어, 50 kb, 500 kb, 1 Mb, 2 Mb, 5 Mb 또는 10 Mb에 상응할 수 있다.
본원에 사용된 바와 같이, 용어 "서열 불균형" 또는 "이상"은 기준 양으로부터 임상적으로 관련된 염색체 영역(즉, 시험될 것)의 양에서 적어도 하나의 컷오프(cutoff) 값에 의해 정의되는 바와 같은 임의의 유의한 편차를 의미한다. 서열 불균형은 염색체 투여량 불균형, 대립유전자 불균형, 돌연변이 용량 불균형, 복제수 불균형, 반수체 투약량 불균형, 및 다른 유사한 불균형을 포함할 수 있다. 일례로, 대립유전자 불균형은, 종양이 결실된 유전자의 하나의 대립유전자 또는 증폭된 유전자의 하나의 대립유전자, 또는 이의 게놈에서 2개 대립유전자의 차별적인 증폭을 가짐으로써 시료 내 특정 좌위에서 불균형을 생성할 때 발생할 수 있다. 또 다른 예로서, 환자는 종양 억제자 유전자에서 유전받은(inherited) 돌연변이를 가질 수 있을 것이다. 그 후에, 상기 환자는 종양 억제자 유전자의 비-돌연변이화된 대립유전자가 결실되는 종양을 발병시키게 될 수 있을 것이다. 따라서, 종양 내에서, 돌연변이 투여량 불균형이 존재한다. 종양이 이의 DNA를 환자의 혈장 내로 방출할 때, 종양 DNA는 혈장 내 환자의 (정상 세포로부터의) 구성적(constitutional) DNA와 혼합될 것이다. 본원에 기재된 방법의 사용을 통해, 혈장에서 이러한 DNA 혼합물의 돌연변이 투여량 불균형이 검출될 수 있다. 이상은 염색체 영역의 결실 또는 증폭을 포함할 수 있다.
용어 "암의 수준"(또는 보다 일반적으로 "질환의 수준", "병태의 수준" 또는 "질병의 수준")은, 암이 존재하는지의 여부(즉, 존재 또는 부재), 암의 병기, 종양의 크기, 전이가 존재하는지의 여부, 신체의 총 종양 부담, 치료에 대한 암의 반응, 및/또는 암의 중증도의 다른 측정치(예를 들어, 암의 재발)를 지칭할 수 있다. 암의 수준은 수치(예를 들어, 확률) 또는 다른 지표, 예컨대 부호, 알파벳 글자 및 색상일 수 있다. 수준은 제로(0)일 수 있다. 암의 수준은 또한, 전악성(premalignant) 또는 전암성(precancerous) 질환(상태)을 포함한다. 암의 수준은 다양한 방식으로 사용될 수 있다. 예를 들어, 스크리닝은, 암을 갖고 있는 것으로 이전에는 알려지지 않은 개체에 암이 존재하는지 체크할 수 있다. 평가는 암을 진단받은 개체를 조사하여, 시간 경과에 따른 암의 진전을 모니터링하거나, 치료법의 효능을 연구하거나, 예후를 결정할 수 있다. 일 구현예에서, 예후는 환자가 암으로 사망할 가능성, 특정한 기간 또는 시간 후에 암이 진전되는 가능성, 또는 암이 전이될 가능성으로서 표현될 수 있다. 검출은 '스크리닝'을 의미할 수 있거나, 암의 제안적인 특색(예를 들어, 증상 또는 다른 양성 시험)을 갖는 개체가 암을 갖고 있는지 체크하는 것을 의미할 수 있다. 다양한 구현예는 간암, 폐암, 췌장암, 뇌암, 결장직장암, 비인두암, 난소암, 위암, 및 혈액암에 대한 암의 수준을 결정할 수 있다.
용어 "대조군", "대조군 시료", "기준", "기준 시료", "정상" 및 "정상 시료"는 일반적으로 특정 질환을 갖고 있지 않는, 또는 그렇지 않다면 건강한 시료를 설명하기 위해 상호교환적으로 사용될 수 있다. 일례에서, 본원에 개시된 바와 같은 방법은 종양을 갖고 있는 대상체 상에서 수행될 수 있으며, 이때, 기준 시료는 대상체의 건강한 조직으로부터 가져온 시료이다. 또 다른 예에서, 기준 시료는 질병, 예를 들어, 암 또는 특정 병기(stage)의 암을 갖는 대상체로부터 가져온 시료이다. 기준 시료는 대상체로부터, 또는 데이터베이스로부터 수득될 수 있다. 기준은 일반적으로, 대상체로부터 시료를 시퀀싱함으로써 수득되는 시퀀스 판독을 맵핑하는 데 사용되는 기준 게놈을 지칭한다. 기준 게놈은 일반적으로, 생물학적 시료 및 구성적 시료로부터의 시퀀스 판독이 정렬되고 비교될 수 있는 반수체 또는 2배체 게놈을 지칭한다. 반수체 게놈의 경우, 각각의 좌위에 오직 1개의 뉴클레오타이드가 존재한다. 2배체 게놈의 경우, 이형접합체성(heterozygous) 좌위가 식별될 수 있으며, 이때, 이러한 좌위는 2개의 대립유전자를 가지며, 여기서 대립유전자는 상기 좌위로의 정렬을 위한 매치를 가능하게 할 수 있다.
본원에 사용된 바와 같이 어구 "건강한"은 일반적으로, 양호한 건강을 소유한 대상체를 지칭한다. 이러한 대상체는 임의의 악성 또는 비-악성 질병의 부재를 실증한다. "건강한 개체"는 검정되는 질환과 관련이 없는 다른 질병 또는 질환을 갖고 있을 수 있으며, 통상적으로 "건강한" 것으로 여겨지지 않을 수 있다.
용어 "암" 또는 "종양"은 상호교환적으로 사용될 수 있고, 일반적으로, 조직의 비정상적인 덩어리(mass)를 지칭하며, 상기 덩어리의 성장은 정상 조직의 성장을 능가하고 이와 조화되지 않는다. 암 또는 종양은 하기 특징: 형태 및 기능성을 포함하여 세포 분화의 정도, 성장 속도, 국소 침습, 및 전이에 따라 "양성" 또는 "악성"으로서 정의될 수 있다. "양성" 종양은 일반적으로 잘 분화되어 있으며, 악성 종양보다 특징적으로 더 느린 성장을 갖고, 기원 부위로 국소화된 채로 남아 있다. 또한, 양성 종양은 원위부로 침윤하거나, 침습하거나 전이하는 능력을 갖지 않는다. "악성" 종양은 일반적으로 불량하게 분화되어 있으며(퇴화(anaplasia)), 주변 조직의 점진적인 침윤, 침습 및 파괴가 동반되는 특징적으로 신속한 성장을 가진다. 더욱이, 악성 종양은 원위부로 전이하는 능력을 가진다. "병기"는, 악성 종양이 얼마나 진행되어 있는지 설명하는 데 사용될 수 있다. 초기 암 또는 악성물은 말기 악성물보다 신체에서 더 적은 종양 부담(burden), 일반적으로 더 적은 증상, 더 양호한 예후, 및 더 양호한 치료 결과와 연관이 있다. 말기 또는 진행 병기(advanced stage) 암 또는 악성물은 종종, 원위부 전이 및/또는 림프 확산(lymphatic spread)과 연관이 있다.
용어 "위양성"(FP)은 질환을 갖지 않는 대상체를 지칭할 수 있다. 위양성은 일반적으로, 종양, 암, 전암성 질환(예를 들어, 전암성 병변), 국소화된 또는 전이된 암, 비-악성 질병을 갖지 않거나 그렇지 않다면 건강한 대상체를 지칭한다. 용어 위양성은 일반적으로, 질환을 갖지 않지만 본 개시내용의 검정법 또는 방법에 의해 상기 질환을 갖는 것으로 식별되는 대상체를 지칭한다.
용어 "민감도" 또는 "진양성률"(TPR: true positive rate)은 진양성 및 위음성의 수의 합계로 나눈, 진양성의 수를 지칭할 수 있다. 민감도는 실제로 질환을 갖고 있는 집단의 비율을 올바르게 식별하는 검정법 또는 방법의 능력을 특징화할 수 있다. 예를 들어, 민감도는 암을 갖고 있는 집단 내의 대상체의 수를 올바르게 식별하는 방법의 능력을 특징화할 수 있다. 또 다른 예에서, 민감도는 암을 시사하는 하나 이상의 마커를 올바르게 식별하는 방법의 능력을 특징화할 수 있다.
용어 "특이도" 또는 "진음성률"(TNR: true negative rate)은 진음성 및 위양성의 수의 합계로 나눈 진음성의 수를 지칭할 수 있다. 특이도는 실제로 질환을 갖고 있지 않는 집단의 비율을 올바르게 식별하는 검정법 또는 방법의 능력을 특징화할 수 있다. 예를 들어, 특이도는 암을 갖고 있지 않는 집단 내의 대상체의 수를 올바르게 식별하는 방법의 능력을 특징화할 수 있다. 또 다른 예에서, 특이도는 암을 시사하는 하나 이상의 마커를 올바르게 식별하는 방법의 능력을 특징화할 수 있다.
용어 "ROC" 또는 "ROC 곡선"은 수신자 조작자 특성 곡선(receiver operator characteristic curve)을 지칭할 수 있다. ROC 곡선은 2진 분류기 시스템의 성능의 그래프 표현일 수 있다. 임의의 주어진 방법에 대해, ROC 곡선은 다양한 역치 설정에서 민감도를 특이도에 대해 도시함으로써 발생될 수 있다. 대상체에서 종양의 존재를 검출하는 방법의 민감도 및 특이도는 상기 대상체의 혈장 시료 내 다양한 농도의 종양-유래 핵산에서 결정될 수 있다. 더욱이, 3개 매개변수(예를 들어, 민감도, 특이도, 및 역치 설정) 중 적어도 하나를 고려하면, ROC 곡선은 임의의 미지의 매개변수에 대한 값 또는 예상 값을 결정할 수 있다. 미지의 매개변수는 ROC 곡선에 피팅된(fitted) 곡선을 사용하여 결정될 수 있다. 용어 "AUC" 또는 "ROC-AUC"는 일반적으로, 수신자 조작자 특성 곡선 아래 면적을 지칭한다. 이러한 계측(metric)은 방법의 민감도와 특이도 둘 모두를 고려하여, 상기 방법의 진단 유용성의 측정치를 제공할 수 있다. 일반적으로, ROC-AUC는 0.5 내지 1.0의 범위이며, 이때, 0.5에 더 근접한 값은 상기 방법이 제한된 진단 유용성(예를 들어, 더 낮은 민감도 및/또는 특이도)을 가짐을 시사하고, 1.0에 더 근접한 값은 더 큰 진단 유용성(예를 들어, 더 높은 민감도 및/또는 특이도)을 가짐을 시사한다. 예를 들어, 문헌[Pepe 등, " Limitations of the Odds Ratio in Gauging the Performance of a Diagnostic, Prognostic, or Screening Marker," Am. J. Epidemiol 2004, 159 (9): 882-890]을 참조하고, 이는 참조에 의해 본 명세서에 포함된다. 확률 함수, 교차비(odds ratio), 정보 이론, 예측 값, 보정(적합도(goodness-of-fit)를 포함함), 및 재분류 측정을 사용하여 진단 유용성을 특징화하는 또 다른 접근법은 문헌[Cook, "Use and Misuse of the Receiver Operating Characteristic Curve in Risk Prediction," Circulation 2007, 115: 928-935]에 따라 요약되어 있으며, 이는 참조에 의해 본 명세서에 포함된다.
용어 "약" 또는 "대략"은 당업자에 의해 결정된 바와 같은 특정 값에 대한 허용 가능한 오차 범위 내를 의미할 수 있으며, 이는 부분적으로는 값이 어떻게 측정되거나 결정되는가, 즉, 측정 시스템의 한계에 의존할 수 있다. 예를 들어, "약"은 당업의 관행에 따라, 1 이내 또는 1 초과의 표준 편차를 의미할 수 있다. 대안적으로, "약"은 주어진 값의 20% 이하, 10% 이하, 5% 이하, 또는 1% 이하의 범위를 의미할 수 있다. 대안적으로, 특히 생물학적 시스템 또는 과정에 관하여, 용어 "약" 또는 "대략"은 값의 승수(order of magnitude) 이내, 5-배 이내, 보다 바람직하게는 2-배 이내를 의미할 수 있다. 특정 값이 출원 및 청구항에 기재되어 있는 경우, 다르게 언급되지 않는 한, 특정 값에 대한 허용 가능한 오차 범위 내를 의미하는 용어 "약"이 추정되어야 한다. 용어 "약"은 당업자에 의해 보편적으로 이해되는 바와 같은 의미를 가질 수 있다. 용어 "약"은 ±10%를 지칭할 수 있다. 용어 "약"은 ±5%를 지칭할 수 있다.
상세한 설명
인간 혈장에서 세포-무함유 DNA는 비-무작위로 단편화되고, 게놈-와이드 뉴클레오솜 구조를 반영한다. 특히, cfDNA 분자는 이들의 조직 기원에 관한 정보를 갖는다. 특정 조직으로부터의 세포의 사멸을 유발하는 병태는 유병 기관(affected organ)으로부터의 DNA의 상대 기여도에서 동요(perturbation)를 초래한다. 이러한 기원-조직 분석은 특히, 암에 대한 액체 생검, 산전 검사, 및 이식 모니터링의 개발에 유용하다. 따라서, 혈장 DNA 풀에 기여하는 조직의 상대 기여도를 동시적인 방식으로 정확하게 결정하는 것이 중요하다.
비-무작위 단편화의 다양한 신규 양태는 실제 적용, 예컨대 생물학적 측정에 결정되고 사용될 수 있다. 예를 들어, DNA 단편의 크기에 대한, DNA 단편의 말단에서 바람직한 위치를 포함한 단편화의 관계가 측정되었다. 이러한 관계는 특정 조직 유형(예를 들어, 태아, 종양 또는 이식 조직)의 비례 기여도를 측정하고 특정 조직 유형의 염색체 영역에서 서열 불균형을 검출하는 것과 같은 실제 적용에 이용될 수 있다. 또 다른 예로서, 단편화, 및 DNA 단편의 말단(업스트림 또는 다운스트림)이 조직-특이적 개방 염색질 영역 부근에 배치되는지를 포함한 조직-특이적 개방 염색질 영역의 관계가 측정되었다. 다운스트림 말단에 비한 업스트림 말단의 정량적 패턴은 특정 조직 유형의 비례 기여도를 측정하고 특정 조직 유형에서 병태를 검출하는 것과 같은 실제 적용에 사용될 수 있다.
크기 분석을 위해, 본 발명자들은 단편화 기전이 혈장 DNA의 크기 프로파일과 관련이 있는지 알아보기 위해 혈장 DNA의 단편화 패턴에 대한 심도 있는 조사를 수행하였다. 이에, 본 발명자들은 이러한 바람직한 말단 부위가 혈장 DNA의 단편 길이와 임의의 관계를 갖는지 연구하였다. 본 발명자들은 이러한 말단 부위를 '크기-태깅된 바람직한 말단'이라고 하였다. 본 발명자들은 긴 혈장 DNA 분자 및 짧은 혈장 DNA 분자와 바람직하게 관련이 있는 바람직한 말단 부위를 식별하였다. 짧은 DNA 분자 및 긴 DNA 분자는 일반적으로, 상이한 바람직한 DNA 말단 위치와 관련이 있었다. 본 발명자들은, '크기-태깅된' 말단이 태아 DNA 분율 추정(비례 기여도)에서 향상된 정확도를 보여주었고, 비침습적 태아 3염색체성 21(서열 불균형)을 증강시켰음을 밝혀내었고, 임신한 여성의 혈장이 바람직한 말단 부위와 함께 비-무작위 단편화를 나타내기 때문이다. 이러한 '크기-태깅된' 말단은 다른 조직 유형(예를 들어, 종양 또는 이식물)에 사용되어, 특정 조직 유형의 비례 기여도를 추정하거나 서열 불균형을 검출할 수 있다.
추가의 분석은, 태아 및 모체의 바람직한 말단이 뉴클레오솜 구조 내의 상이한 위치로부터 생성되었음을 드러내었다. 태아 DNA는 뉴클레오솜 코어 내에서 빈번하게 절단된 한편, 모체 DNA는 링커 영역 내에서 대체로 절단되었다. 본 발명자들은 추가로, 태반 세포에서 뉴클레오솜 접근성이 백혈구 세포에 대한 것보다 더 높았음을 실증하고, 이는 절단 위치의 차이 및 모체 혈장에서 태아 DNA의 부족을 설명한다. 흥미롭게는, 짧은 판독물로부터 도출된(mined) 바람직한 말단을 커버하는 혈장 DNA 분자는 일반적으로, 심지어 임신하지 않은 건강한 대상체에서도 긴 판독물로부터 수득된 바람직한 말단을 커버하는 것들보다 더 짧았다. 이들 후자의 시료가 태아 DNA를 함유하지 않았기 때문에, 데이터는, 바람직한 DNA 말단, 염색질 접근성 및 혈장 DNA 크기 프로파일의 연관성은 일반적인 것인 경향이 있으며 임신의 맥락을 지나 확장됨을 시사하였다. 혈장 DNA 단편 말단 패턴은 생성 기전에 비추었으며, 혈장 DNA-기초 비침습적 분자 진단에서의 향후 개발에서 유용성을 보여준다.
본 발명자들은 또한, 뉴클레오솜 구조에 대한 관계에서 DNA 분절의 위치를 조사하였다. 개방 염색질 영역에서, cfDNA 분자는 시퀀싱 커버리지 불균형 및 상이하게 위상화된 단편 말단 신호에 의해 반영된 특징적인 단편화 패턴을 보여주었다. 후자는 기준 게놈과의 관계에서 cfDNA 분자의 업스트림 및 다운스트림 말단의 배향에 상응하는 서열의 판독물 밀도의 차이를 지칭한다. 이러한 cfDNA 단편화 패턴은 바람직하게는, 상응하는 조직이 DNA를 혈장에 기여하는 조직-특이적 개방 염색질 영역에서 발생하였다. 이러한 신호의 정량적 분석은, 혈장 DNA 풀에 대한 다양한 조직의 상대 기여도, 뿐만 아니라 특정 조직 유형에서 병태의 검출을 측정할 수 있게 하였다. 이들 발견은, 임신한 여성, 기관 이식 수혜자, 및 암 환자로부터 수득된 혈장 DNA 시퀀싱 데이터에 의해 확증되었다. 따라서, 배향-인지 혈장 DNA 단편화 분석은 비침습적 산전 검사, 기관 이식 모니터링, 및 암 액체 생검에서 진단 적용을 가진다.
I. 단편화 및 기법의 개요
혈장 DNA는 무작위로 단편화되지 않는 것으로 실증되었다. 고해상 혈장 DNA 크기 프로파일링은 166 bp에서 우세한 피크 및 150 bp 미만에서 10-bp 주기성(9)을 드러내었다. 이 크기 프로파일은 뉴클레오솜 구조(9)와 밀접한 관계가 있는 것으로 제안되었다. 이러한 측면에서, 뉴클레오솜은 4개의 코어 히스톤 단백질의 8량체(약 10 bp 나선형 반복부와 함께 147 bp의 DNA에 의해 랩핑된 "뉴클레오솜 코어"를 형성함), 링커 히스톤, 및 링커 DNA(평균 크기 약 20 bp)(10)로 이루어진다. 더욱이, 모체 혈장 내 태아 DNA(태반 조직(11)으로부터 대체로 기원함)는 모체 DNA(조혈계(12-14)로부터 대체로 기원함)보다 더 짧은 것으로 밝혀졌다. 태아 DNA 분자와 모체 DNA 분자에서 크기 차이는 비침습적 산전 검사에서 이용되었고, 태아 DNA 분율 추정, 태아 염색체 이수성 검출, 및 태아 메틸롬 분석(15-19)을 가능하게 하였다. 그러나, 순환형 태아 DNA의 이러한 상대적인 짧아짐에 대한 기계론적인 근거는 여전히 불량하게 이해된다(9, 14, 20).
최근 연구는 혈장 DNA의 종결 패턴을 추가로 조사하였다. 임신한 여성에서 혈장 DNA의 울트라-딥 시퀀싱은 태아-특이적 및 모체-특이적 바람직한 말단 부위(21)의 존재를 드러내었다. 이들 바람직한 말단 부위가 비침습적 산전 검사에 대한 잠재성을 실증하긴 하였지만, 이들의 존재에 대한 분자적 기반은 대체로 알려져 있지 않다. 게다가, 혈장 DNA는 세포자멸사 세포(22)로부터 방출되는 것으로 여겨지며, 이는 단편화 패턴이 뉴클레오솜 구조 및 염색질 상태와 상관관계가 있음을 시사한다(23-25).
본 개시내용에서, 본 발명자들은 세포-무함유 DNA의 비-무작위적인 단편화 과정이 존재함을 보여준다. 비-무작위적인 단편화 과정은, 세포-무함유 DNA를 함유하는 다양한 유형의 생물학적 시료, 예를 들어, 혈장, 혈청, 소변, 침, 뇌척수액, 흉수, 양수, 복막액, 및 복수에서 어느 정도까지 수행된다. 나아가, 비-무작위적인 단편화는 상이한 크기의 DNA 단편에 대해 발생한다. 세포-무함유 DNA는 자연스럽게, 짧은 단편의 형태로 발생한다. 세포-무함유 DNA 단편화는, 세포-무함유 DNA 분자가 생성되거나 방출되는 경우 고분자량 DNA(예컨대 세포 핵 내의 DNA)가 짧은 단편으로 절단되거나, 파손되거나 분해되는 과정을 지칭한다.
모든 세포-무함유 DNA 분자가 동일한 길이인 것은 아니다. 일부 분자는 다른 분자보다 짧다. 혈장 DNA와 같은 세포-무함유 DNA는 일반적으로, 전사 시작 부위 주변을 포함하여 개방 염색질 도메인 내에서 그리고 뉴클레오솜 코어 사이의 위치에서, 예컨대 링커 위치에서 더 짧고 덜 온전하며, 다시 말해 불량한 온전한 확률, 또는 더 불량한 온전성을 갖는 것으로 제시되었다(문헌[Straver 등 Prenat Diagn 2016, 36:614-621]). 각각의 상이한 조직은 다시 말해, 염색질 구조 및 뉴클레오솜 위치화를 포함한 수단에 의해 조절되는 이의 특징적인 유전자 발현을 가진다. 그러므로, 소정의 게놈 위치에서 온전한 확률 또는 온전성의 세포-무함유 DNA 패턴, 예컨대 혈장 DNA의 패턴은 이들 DNA 분자의 조직 기원의 시그니처 또는 특질이다. 유사하게는, 질환 진행, 예를 들어, 암이 세포의 유전자 발현 프로파일 및 게놈의 기능을 변경시키는 경우, 질환을 갖는 세포로부터 유래된 세포-무함유 DNA 온전한 확률 프로파일은 이들 세포를 반영할 것이다. 그러므로, 세포-무함유 DNA 프로파일은 질환의 존재에 대한 증거를 제공하거나, 이의 특질이다.
일부 구현예는 세포-무함유 DNA 단편화의 프로파일을 연구하기 위한 분해능을 추가로 증강시킨다. 더 높거나 더 낮은 온전한 확률 또는 온전성을 갖는 영역을 식별하기 위해 뉴클레오타이드 신전부(stretch)에 걸쳐 판독물을 단순히 합계하는 대신에, 본 발명자들은 개별적인 세포-무함유 DNA 분자, 특히 혈장 DNA 분자의 실제 종결 위치 또는 종결부를 연구하였다. 현저하게도, 본 발명자들의 데이터는, 세포-무함유 DNA 분자가 절단되는 특정 위치가 비-무작위임을 드러낸다. 시험관내에서 전단되거나 초음파처리되는 고분자량 게놈 조직 DNA는 게놈에 걸쳐 무작위로 산란되는 종결 위치를 갖는 DNA 분자를 보여준다. 그러나, 시료, 예컨대 혈장 내에서 고도로 표시되는 세포-무함유 DNA 분자의 소정의 종결 위치가 존재한다. 이러한 종결 위치의 발생 또는 표시의 수는 단지 우연히 예상되는 것보다 통계학적으로 유의하게 더 높다. 이들 데이터는 본 발명자들이 온전성의 지엽적인 변이를 능가하여 세포-무함유 DNA 단편화 1 단계를 이해하게 한다(문헌[Snyder 등 Cell 2016, 164: 57-68]). 본원에서, 본 발명자들은 세포-무함유 DNA 단편화의 과정은 심지어 단절(cutting) 또는 절단의 특정 뉴클레오타이드 위치까지 하향 조직화됨을 보여준다. 본 발명자들은 세포-무함유 DNA 종결 위치의 비-무작위 위치를 바람직한 종결 위치 또는 바람직한 말단으로서 명명하였다.
본 개시내용에서, 본 발명자들은 개체의 상이한 생리학적 상태 또는 질환 상태에 걸쳐 보편적으로 발생하고 소정의 크기의 단편에 대해 발생하는 세포-무함유 DNA 종결 위치가 존재함을 보여준다. 예를 들어, 짧은 DNA 단편(예를 들어, 60 내지 155개 염기), 긴 DNA 단편(예를 들어, 170 내지 250개 염기), 임신한 개체와 임신하지 않은 개체에 의해 공유되며, 임신한 환자 및 암 환자에 의해 공유되고, 암을 가진 개체 및 암을 갖지 않은 개체와 공유되는 보편적인 바람직한 말단이 존재한다. 다른 한편으로, 짧은 DNA 단편에서만, 긴 DNA 단편에서, 임신한 여성에서, 암 환자에서만, 또는 암을 갖지 않는 임신하지 않은 개체에서만 대체로 발생하는 바람직한 말단이 존재한다. 흥미롭게는, 이들 임신-특이적 또는 암-특이적 또는 질환-특이적 말단은 또한, 유사한 생리학적 또는 질환 상태를 갖는 다른 개체에서 고도로 표시된다. 예를 들어, 1명의 임신한 여성의 혈장에서 식별된 바람직한 말단은 다른 임신한 여성의 혈장에서 검출 가능하다.
이러한 바람직한 말단(예를 들어, 짧은 단편에 대해)의 비율의 양은 다른 임신한 여성의 혈장 내 태아 DNA 분율과 상관관계가 있었다. 이러한 바람직한 말단은, 임신하지 않은 혈장 시료에서 이들 말단의 양이 실질적으로 감소되기 때문에 임신 또는 태아와 사실상 관련이 있다. 유사하게는, 암에서, 1명의 암 환자의 혈장에서 식별된 바람직한 말단은 또 다른 암 환자의 혈장에서 검출 가능하다. 더욱이, 이러한 바람직한 말단(예를 들어, 짧은 단편에 대해)의 비율의 양은 다른 암 환자의 혈장 내 종양 DNA 분율과 상관관계가 있을 수 있다. 이러한 바람직한 말단은, 암 치료, 예를 들어, 수술적 절제 후 이들 말단의 양이 감소되기 때문에 암과 관련이 있다.
세포-무함유 DNA 크기-바람직한(크기-태깅된) 말단의 분석을 위한 많은 적용 또는 유용성이 존재한다. 이들은 임신 시 태아 DNA 분율, 따라서 태아의 건강에 대한 정보를 제공할 수 있을 것이다. 예를 들어, 많은 임신-관련 장애(예를 들어, 자간전증(preeclampsia), 조기 산통, 자궁내 성장 제한(IUGR: intrauterine growth restriction), 태아 염색체 이수성 및 기타)는 임신 연령 매칭 대조군 임신과 비교하여, 태아 DNA의 분획 농도(태아 DNA 분율, 태아 분율, 또는 태아 조직으로부터의 비례 기여도로도 지칭됨)와 관련이 있는 것으로 보고되어 왔다. 이에, 태아 DNA의 분획 농도에 대한 역치는 이러한 대조군 임신으로부터 결정될 수 있다. 새로운 시료 내 태아 DNA의 측정된 분획 농도는 역치와 비교되어, 임신-관련 장애의 분류를 결정할 수 있다. 그러므로, 크기-바람직한 말단을 사용한 태아 DNA 분율의 측정은 이러한 임신-관련 장애에 대한 유용성을 가진다.
짧은 DNA 단편과 관련된 세포-무함유 혈장 DNA 바람직한 말단은 혈장 시료에서 종양 DNA 분율 또는 분획 농도를 드러낼 수 있다. 종양 DNA 분율을 아는 것은, 암의 병기, 진단에 대한 정보를 제공하고, 치료 효능 또는 암 재발에 대해 모니터링하는 데 일조한다.
특정 생리학적 상태 또는 병리학적 상태와 관련된(또는 상이한 크기의 단편과 관련된) 바람직한 말단의 카탈로그는, 상이한 생리학적 또는 병리학적 상태를 가진(또는 상이한 크기의 단편과 관련된) 개체 중에서 바람직한 말단의 세포-무함유 DNA 프로파일을 비교함으로써, 예를 들어, 비-임신 시료를 임신 시료와 비교하거나, 암 시료를 비-암 시료와 비교하거나, 암을 갖지 않은 임신한 여성의 프로파일을 임신하지 않은 암 환자의 프로파일과 비교함으로써 식별될 수 있다. 또 다른 접근법은 생리학적(예를 들어, 임신) 또는 병리학적(예를 들어, 암) 과정의 상이한 시기에서 바람직한 말단의 세포-무함유 DNA 프로파일을 비교하는 것이다. 이러한 시점의 예는 임신 전과 후, 태아 출산 전과 후, 임신 동안 상이한 임신 연령에 걸쳐 수집된 시료, 암 치료(예를 들어 표적화된 치료법, 면역 치료법, 화학 치료법, 수술) 전과 후, 암 진단 후의 상이한 시점, 암 진행 전과 후, 전이의 발생 전과 후, 질환의 증가된 중증도의 전과 후, 또는 합병증의 발병 전과 후를 포함한다.
바람직한 말단은, 이것이 생리학적 또는 병리학적 상태에서 검출되기 위해 높은 공산 또는 확률(비율)을 갖는 경우, 해당 생리학적 또는 병리학적 상태(또는 소정의 크기의 단편)와 관련이 있는 것으로 간주될 수 있다. 다른 구현예에서, 바람직한 말단은 다른 상태에서보다 관련된 생리학적 또는 병리학적 상태에서 검출될 가능성이 더 큰 소정의 확률을 가진다. 관련 생리학적 또는 질환 상태에서 바람직한 말단을 검출하는 확률이 더 높기 때문에, 이러한 바람직한 또는 반복성 말단(또는 종결 위치)는 해당되는 동일한 병리학적 또는 질환 상태를 갖는 1명 초과의 개체에서 관찰될 것이다. 높은 확률은 또한, 이러한 바람직한 또는 반복성 말단이 동일한 세포-무함유 DNA 시료 또는 동일한 개체의 분취물 내에서 여러번 검출 가능하게 할 것이다. 일부 구현예에서, 정량적 역치는 바람직한 말단으로서 간주될 동일한 시료 또는 동일한 시료 분취물 내에서 적어도 명시된 횟수(예를 들어, 5, 10, 15, 20 등)로 검출되는 말단의 포함을 제한하도록 설정될 수 있다.
세포-무함유 DNA 말단의 카탈로그가 임의의 생리학적 또는 병리학적 상태에 대해(또는 상이한 크기에 대해) 구축된 후, 태깅된 또는 비-태깅된 방법은 세포-무함유 DNA 시료, 예를 들어, 혈장, 또는 다른 개체에서 이들 말단의 존재를 검출하는 데 사용되어, 유사한 건강, 생리학적 또는 질환 상태를 갖는 다른 시험된 유기체의 분류를 결정할 수 있다. 세포-무함유 DNA 바람직한 말단은 무작위 비-표적화된 시퀀싱에 의해 검출될 수 있을 것이다. 시퀀싱 깊이는, 관련된 바람직한 말단 모두 또는 일부를 식별하는 합리적인 확률이 달성될 수 있도록 간주될 필요가 있을 것이다. 대안적으로, 고밀도의 바람직한 말단을 갖는 좌위의 혼성화 포착은 세포-무함유 DNA 시료 상에서 수행되어, 비제한적으로 시퀀싱, 마이크로어레이 또는 PCR에 의한 검출 후 이러한 바람직한 말단을 갖는 세포-무함유 DNA 분자를 갖는 시료를 농화시킬 수 있을 것이다. 또한 대안적으로, 증폭-기초 접근법, 예를 들어, 인버스 PCR, 롤링 서클 증폭은 바람직한 말단을 갖는 세포-무함유 DNA 분자를 특이적으로 증폭시키고 농화시키는 데 사용될 수 있을 것이다. 증폭 생성물은 당업자에게 알려진 시퀀싱, 마이크로어레이, 형광 프로브, 겔 전기영동 및 다른 표준 접근법에 의해 식별될 수 있을 것이다.
사실상, 하나의 말단 위치는 분석 방법, 예컨대 비제한적으로 대량 병렬 시퀀싱 또는 차세대 시퀀싱, 단일 분자 시퀀싱, 이중-가닥 또는 단일-가닥 DNA 시퀀싱 라이브러리 제조 프로토콜, PCR, DNA 증폭을 위한 다른 효소적 방법(예를 들어, 등온 증폭) 또는 마이크로어레이에 의해 검출되거나 결정되는 세포-무함유 DNA 분자의 하나의 단부 상의 최외곽 염기의 게놈 좌표 또는 뉴클레오타이드 동일성일 수 있다. 이러한 시험관내 기법은 세포-무함유 DNA 분자의 참(true) 생체내 물리적 말단(들)을 변경시킬 수 있다. 그러므로, 각각의 검출 가능한 말단은 생물학적으로 참인 말단을 나타낼 수 있거나, 상기 말단은 분자의 원래 말단 쪽으로의 하나 이상의 뉴클레오타이드 또는 원래 말단으로부터 연장된 하나 이상의 뉴클레오타이드이다. 예를 들어, 클레노브 단편은 DNA 시퀀싱 라이브러리 작제 동안 5' 오버행의 블런팅 및 3' 오버행의 필링에 의해 블런트-말단 이중-가닥 DNA 분자를 생성하는 데 사용된다. 생물학적 말단과 동일하지 않은 세포-무함유 DNA 말단 위치를 이러한 절차가 드러낼 수 있긴 하지만, 임상적 관련성이 여전히 확립될 수 있을 것이다. 이는, 특정 생리학적 또는 병리학적 상태와 관련있거나 연관 있는 바람직한 것의 식별이 보정 시료(들) 및 시험 시료(들) 둘 다에서 세포-무함유 DNA 말단에 대해 일관되고 재현 가능한 변경을 초래할 동일한 실험실 프로토콜 또는 방법론적 원리에 기초할 수 있을 것이기 때문이다. 많은 DNA 시퀀싱 프로토콜은 단일-가닥 DNA 라이브러리를 사용한다(문헌[Snyder 등 Cell 2016, 164: 57-68]). 단일-가닥 라이브러리의 서열 판독물의 말단은 이중-가닥 DNA 라이브러리의 말단보다 더 안쪽으로 향하거나 더 연장될 수 있다.
말단 위치의 게놈 동일성 또는 게놈 좌표는 예를 들어, 대상체에 대한 기준 게놈, 예를 들어, hg19 또는 다른 인간 기준 게놈에 대한 서열 판독물의 정렬의 결과로부터 유래될 수 있을 것이다. 이는 인간 게놈의 원래 좌표를 나타내는 지수 또는 코드의 카탈로그로부터 유래될 수 있을 것이다. 말단이 세포-무함유 DNA 분자의 하나의 또는 두 단부 모두에서 뉴클레오타이드인 경우, 상기 말단의 검출은 혈장 DNA 분자 상의 다른 뉴클레오타이드 또는 뉴클레오타이드의 다른 신전부의 인지를 통해 수행될 수 있을 것이다. 예를 들어, 바람직한 말단을 갖는 혈장 DNA 분자의 양성 증폭은 앰플리콘의 중간 염기에 결합하는 형광 프로브를 통해 검출된다. 예를 들어, 말단은 혈장 DNA 분자의 중간부 상의 일부 염기에 결합하는 형광 프로브의 양성 혼성화에 의해 식별될 수 있을 것이며, 이때 단편 크기는 알려져 있다. 이러한 방식으로, 당업자는, 얼마나 많은 염기가 기지의 서열 및 게놈 동일성을 갖는 형광 프로브에 대해 외부에 있는지 알아봄으로써 말단의 동일성 또는 말단의 게놈 좌표를 결정할 수 있을 것이다. 다시 말해, 말단은 동일한 혈장 DNA 분자 상의 다른 염기의 검출을 통해 식별되거나 검출될 수 있을 것이다. 말단은 비제한적으로 표적-특이적 프로브, 미니-시퀀싱, 및 DNA 증폭에 의해 판독되는 세포-무함유 DNA 분자 상의 위치 또는 뉴클레오타이드 동일성일 수 있을 것이다. 추가의 세부사항은 PCT 공보 제WO2017/012592호에서 찾을 수 있으며, 이는 모든 목적을 위해 참조에 의해 포함된다.
II. 짧은 단편 및 긴 단편의 단편화
혈장 DNA 크기 및 바람직한 DNA 말단 부위의 통합 분석이 수행되었다. 짧은 DNA 단편의 종결 위치와 긴 DNA 단편의 종결 위치 사이의 차이가 관찰되어, 크기-태깅된 바람직한 말단을 예시한다. 짧은 DNA 단편 및 긴 DNA 단편의 다양한 정의가 사용될 수 있으며, 예를 들어, 다양한 길이 범위가 사용될 수 있다. 예를 들어, 짧은 DNA 단편은 긴 DNA 단편에 대한 범위의 최소 및/또는 최대보다 작은 최소 및/또는 최대를 갖는 범위에 상응한다. 예가 혈장으로 사용될 수 있긴 하지만, 다른 세포-무함유 시료가 사용될 수 있으므로, 시료 내 세포-무함유 DNA는 또한, 천연 단편화 과정을 초래한다.
A. 크기-태깅된 바람직한 말단 부위.
태아-유래 DNA 분자는 일반적으로, 모체 혈장 내 모체-유래 DNA 분자보다 더 짧다(9, 14). 모체 혈장 내 DNA 분자의 크기 프로파일링은 기준 게놈과의 짝-말단 시퀀싱 및 정렬을 사용하여 수행되었지만, 전체 DNA 단편의 시퀀싱이 수행될 수 있다. 본 발명자들은 2개의 모체 혈장 시료(20)의 이전에 공개된 혈장 DNA 짝-말단 사퀀싱 데이터를 함께 풀링하여, 총 약 470-배의 인간 반수체형 게놈 커버리지를 달성하였다. 본 발명자들은 본원에 기재된 바와 같이, 혈장 DNA 판독물을 짧은 범주 및 긴 범주로 분리하였다. 그 후에, 본 발명자들은 하기 기재된 바와 같이 포아송 분포-기초 통계학적 모델을 사용하여 인간 게놈 내 소정의 위치가 짧은 범주 및/또는 긴 범주에서 혈장 DNA 분자의 말단에 존재할 유의하게 증가된 확률을 가질 것인지 결정하였다. 다른 분포, 예를 들어, 이항 분포(binomial distribution), 음의 이항 분포, 정규 분포, 및 감마 분포가 사용될 수 있다.
도 1은 본 개시내용의 구현예에 따른 혈장 DNA 단편에 대한 단편 말단 부위의 분석을 도시한다. 세트 S 및 세트 L은 짧은 혈장 DNA 분자 및 긴 혈장 DNA 분자에 대한 바람직한 말단 부위를 각각 포함한다. 중간의 중첩 세트(110)는 짧은 혈장 DNA 분자와 긴 혈장 DNA 분자 둘 다에 대한 바람직한 말단 부위를 포함한다. 하기에서 보다 상세히 기재되는 바와 같이, 세트 S에 상응하는 종결 위치를 갖는 세포-무함유 DNA 분자의 정량적 측정은 특정 조직 유형을 특징화하기 위해, 예를 들어, 조직 유형의 비례 기여도 또는 조직 유형에 대한 서열 불균형을 결정하기 위해 사용될 수 있다.
본 발명자들은 짧은 범주 및 긴 범주 각각에 대해 8,832,009개 및 12,889,647개의 바람직한 말단을 수득하였다. 이들 바람직한 말단 중에서, 1,649,575개의 말단은 2개의 범주에 의해 공유되는 것으로 밝혀졌다. 그 후에, 본 발명자들은 짧은 범주(n = 7,182,434) 또는 긴 범주(n = 11,240,072)에서만 나타나는 게놈에 걸쳐 바람직한 말단을 수합하고, 이들을 각각 세트 S 및 세트 L로서 정의하였다. 이들 2개 세트는 크기-태깅된 바람직한 말단 부위를 함유하였다. 세트 S 및/또는 세트 L의 서브세트가 사용될 수 있다.
유사한 과정은 다른 클래스의 대상체, 예를 들어, 암을 갖는 대상체 또는 건강한 조직으로부터의 DNA 단편보다 일반적으로 더 짧은 조직 유형(예를 들어, 종양 또는 이식물)을 갖는 이식된 기관을 갖는 대상체에 대해 수행될 수 있다. 그러나, 크기-바람직한 종결 부위는 대상체의 클래스에 걸쳐 재사용될 수 있다. 짧은 것 및 긴 것에 대한 상이한 정의는 대상체의 상이한 클래스에 사용될 수 있을 것이다.
B. 바람직한 종결 부위의 식별
태아 분석을 위해, 본 발명자들은 2명의 임신한 여성(21)의 이전에 공개된 혈장 DNA 사퀀싱 데이터를 함께 풀링하여, 총 약 470-배의 인간 반수체형 게놈 커버리지를 달성하였다. 그 후에, 본 발명자들은 DNA 분자 크기에 기초하여 2개의 범주: 60 bp 내지 155 bp의 크기 범위 내의 판독물에 대한 하나의 범주(짧은 범주로 지칭됨) 및 170 bp 내지 250 bp의 크기 범위 내의 판독물에 대한 다른 범주(긴 범주로 지칭됨)로 서열 판독물을 분리하였다. 크기 범위 설정의 정확한 선택은 2개의 범주에서 분명한 태아 DNA 분율의 차이와 2개 범주 모두에 대한 데이터의 시퀀싱 깊이 사이의 트레이드-오프(trade-off)를 수반할 수 있다. 그 결과, 약 140-배 및 165-배의 인간 반수체 게놈 커버리지에 반응한, 풀링된 데이터 중 약 30% 및 약 35%의 판독물은 각각 짧은 범주 및 긴 범주에 속하였다. 이들 판독물은 하기 분석에서 수집되고 사용되었다.
짧은 DNA 분자의 다른 예는 70-145 bp, 80-145 bp, 90-145 bp, 80-135 bp, 90-135 bp 등을 포함한다. 긴 DNA 분자의 다른 예는 160-210 bp, 160-220 bp, 160-230 bp, 160-240 bp, 180-260 bp, 160-260 bp 등을 포함한다. 나아가, 범위는 중첩될 수 있으며, 예를 들어, 짧은 것이 60-155 bp이고 긴 것이 150-230 bp이거나, 짧은 것이 90-185 bp이고 긴 것이 170-250 bp이다. 이러한 중첩 상황에서, 제1 범위의 크기는, 제1 범위의 크기의 제1 최대가 제2 범위의 크기의 제2 최대보다 작다는 점에서 상기 제2 범위의 크기보다 여전히 작다. 보다 다른 예로서, 긴 단편은 모든 단편 길이일 수 있을 것이다.
각각의 크기 범주에서의 판독물에 대해, 본 발명자들은 모든 뉴클레오타이드 위치를 게놈와이드 방식으로 스크리닝하여, 혈장 DNA 분자의 말단인 유의한 과다표현을 보여주는 좌위를 검색하였다. 각각의 뉴클레오타이드 위치에 대해, 본 발명자들은 혈장 DNA 말단의 발생률을 카운팅하였고, 예를 들어, 1,000 bp의 윈도우를 사용하여 그 결과를 해당 위치 주변의 위치로부터의 것과 비교하였지만, 다른 윈도우 크기, 예컨대 500 bp 이상이 사용될 수 있다. 상기 윈도우는 분석되는 위치에서 중심을 가질 수 있다.
P-값에 기초한 포아송(Poisson) 분포는 특정 위치가 판독물에 대한 말단, 즉 바람직한 말단 부위에 대한 유의하게 증가된 확률을 갖는지 결정하기 위해 계산될 것이며:
P 값 = 포아송(N실제, N예측)
여기서, 포아송()은 포아송 확률 함수이며, N실제는 특정 뉴클레오타이드(게놈 위치)에서 종결되는 분자의 실제 수이고, N예측은 인접한 1,000-bp 윈도우(예를 들어, 특정 뉴클레오타이드 주변으로 몰린) 내의 판독물의 총 수를 해당 윈도우의 DNA 단편의 평균 단편 크기(또는 일반적으로 시료 내의 DNA 단편의 평균 크기)로 나눈 것이다. 다양한 예에서, 판독물은, 전체 단편이 윈도우 내에 있는 경우 또는 단순히 단편이 윈도우 내에 부분적으로 있는 경우 상기 윈도우 내에 있는 것으로 정의될 수 있다. 다른 구현에서, 게놈 위치에 대한 N예측은 평균 또는 예상된 단편 크기로 나눈 위치를 커버하는 판독물의 수일 수 있다. 이에, 구현은 전반적인 매개변수를 결정하고, 모든 부위를 국지 윈도우 대신에 전반적인 매개변수와 비교할 수 있다. N예측은, 위치 상에서 종결되는 짧은(또는 긴) DNA 분자의 비율이 역치를 초과하는지의 여부를 결정하기 위한(예를 들어, 기준값으로부터 통계적으로 유의한 차이가 존재하는지의 여부를 결정하기 위한) 기준값(기준 비율)의 일례이다. 이러한 예는, 기준값이 세포-무함유 DNA 분자의 평균 크기로 나눈 특정 게놈 위치 주변에 중심을 둔 윈도우에서 종결되는 DNA 단편의 수를 사용하여 결정됨을 예시한다.
p-값은 벤자미니 방법을 사용하여 추가로 조정될 수 있다. 0.01 미만의 p-값은 통계학적으로 유의한 말단 부위를 나타내는 데 사용되었다. 이러한 p-값은, 위치에서 종결되는 세포-무함유 DNA 분자의 비율이 바람직한 말단인 것으로 간주되기에 충분히 높은지 결정하는 데 사용되는 역치의 일례이다.
다른 예에서, 위치에서 종결되는 짧은 DNA 분자의 상대량은 추적될 수 있고, 분포 내의 피크는 예를 들어, 이후의 도면에서 도시된 바와 같이 결정될 수 있다. 피크의 추적은, 위치에서 종결되는 짧은 DNA 분자의 수를 기준값으로서 작용하는 다른 위치에서 종결되는 수에 비해 효과적으로 비교한다.
본원의 상기 예 및 다른 예에 따라, 기준값(기준 비율로도 지칭됨)은 특정 게놈 위치(또는 해당 위치 주변의 작은 윈도우)를 벗어난 게놈 위치에서 종결되는 제2 복수의 세포-무함유 DNA 분자의 수로부터 결정될 수 있다. 이러한 방식으로, 더 많은 DNA 단편은 다른 위치 주변(예를 들어, 특정 위치 주변)보다 해당하는 특정 위치에서 통계적으로 유의한 양만큼 종결되는지 결정될 수 있다. 이는, 특정 게놈 위치 주변의 윈도우 내의 게놈 위치에서 종결되는 DNA 단편의 수에 비해 피크에서 특정 게놈 위치를 식별하는 단계를 포함할 것이다.
이에, 다양한 예에서, 소정의 크기(예를 들어, 짧은)의 세포-무함유 DNA 분자의 말단이 역치 초과의 비율로 발생하는 게놈 위치의 제1 세트는 하기 방식으로 식별될 수 있다. 제1 조직 유형은 짧은 DNA 단편과 관련이 있을 수 있으므로, 짧은 DNA 단편에 대한 바람직한 종결 위치와도 관련이 있을 수 있다. 보정 시료는 시험 시료와 유사한 방식으로 분석될 수 있으며, 이때, 동일한 유형의 2개의 시료(예를 들어, 혈장, 혈청, 소변 등) 및 보정 시료는 제1 조직 유형(예를 들어, 임신한 여성의 시료로부터의 태아 조직 또는 HCC 환자에 대한 간의 종양 조직)을 포함하는 것으로 알려져 있다. 게놈 윈도우에서 종결되는 세포-무함유 DNA 분자의 수(예를 들어, 하나 이상의 폭)는 종결 위치의 비율이 해당 위치에 대한 역치를 초과하는지의 여부를 결정하기 위해 기준값과 비교될 수 있다. 일부 구현예에서, 비율이 기준값을 초과하는 경우, 제1 게놈 윈도우 내의 각각의 게놈 위치는 상응하는 수가 기준값을 초과하는 경우 역치를 초과하는 비율을 갖는 것으로 식별될 수 있다. 이러한 과정은 바람직한 종결 위치를 포함하는 바람직한 종결 윈도우를 식별할 수 있다.
기준값은, 단지 상부 N 게놈 윈도우만 역치를 초과하는 비율을 갖는 값일 수 있다. 예를 들어, 게놈 위치의 제1 세트는 상응하는 수에 대해 최고 N 값을 가질 수 있다. 예로서, N은 적어도 10,000; 50,000; 100,000, 500,000; 1,000,000; 또는 5,000,000일 수 있다.
또 다른 예로서, 기준값은 상기 기재된 것과 유사한 방식으로, 시료에서 세포-무함유 DNA 분자의 확률 분포 및 평균 길이에 따라 게놈 윈도우 내에서 종결되는 세포-무함유 DNA 분자의 예상된 수일 수 있다. P-값은 상응하는 수 및 예상되는 수를 사용하여 결정될 수 있으며, 여기서, 역치는 컷오프 p-값(예를 들어, 0.01)에 상응한다. 컷오프 p-값보다 작은 p-값은 상기 비율이 역치를 초과함을 나타낸다. 보다 다른 예로서, 기준값은 감소된 양의 제1 조직 유형을 갖는 것으로 식별된 시료로부터 게놈 윈도우 내에서 종결되는 세포-무함유 DNA 분자의 측정된 수를 포함할 수 있다.
III. 크기-태깅된 바람직한 말단 부위의 태아기 용도
바람직한 종결 부위는 건강한 DNA보다 상이한 단편화 패턴을 갖는 임상적-관련 DNA, 예를 들어, 태아 DNA, 종양 DNA, 또는 공여자 DNA를 측정하기 위해 사용될 수 있다. 바람직한 종결 부위는 임상적-관련 시료로부터 유래된 조직학적 데이터세트로부터 도출될 수 있을 것이다. 후속적인 시료 또는 표본 상에서 기술의 시행은 각각의 시험 시료에서 존재 또는 부재에 대한 검색 또는 이들 바람직한 종결 부위의 정량화에 기초할 수 있을 것이다. 이 섹션은 비침습적 산전 검사에서 크기-태깅된 바람직한 말단 부위의 적용을 기재한다.
비침습적 산전 검사를 위한 크기-태깅된 바람직한 말단 부위의 잠재적인 적용을 조사하기 위해, 본 발명자들은, 본 발명자들이 26명의 제1-삼분기 임신 여성(21)으로부터 이전에 생성되었던 모체 혈장 DNA 시퀀싱 데이터세트를 재분석하였다. 각각의 사례에 대해, 본 발명자들은 세트 S 및 세트 L 바람직한 말단 각각에서 종결된 판독물을 검사하였다.
도 2는 24개의 모체 혈장 시료에서 세트 S 바람직한 말단 부위를 커버하는 혈장 DNA 판독물(적색) 대 세트 L 바람직한 말단 부위를 커버하는 혈장 DNA 판독물(청색)의 크기 분포를 도시한다. X-축은 단편 크기(bp)를 나타내고, Y-축은 빈도(%)를 나타낸다. 본 발명자들은 모든 이들 사례에 대해, 세트 S 바람직한 말단 부위를 커버하는 혈장 DNA 판독물이 세트 L 바람직한 말단 부위를 커버하는 혈장 DNA 판독물보다 더 짧았음을 관찰하였다.
도 3은 본 개시내용의 구현예에 따른 하나의 모체 혈장 시료에서 세트 S 및 세트 L 바람직한 말단 부위를 커버하는 혈장 DNA 판독물의 크기 분포를 도시한다. 도 2에서와 같이, X-축은 단편 크기(bp)를 나타내고, Y-축은 빈도(%)를 나타낸다. 세트 S 말단 부위를 커버하는 판독물의 크기 분포는 약 80 bp 내지 약 150 bp 사이의 크기에 대한 피크 사이에서 피크 및 밸리(valley)와 함께 잘-정의된 주기성을 가진다. 각각의 피크는 약 10 bp마다이다.
A. 태아 분율의 결정
도 4a는 26개의 모체 혈장 시료에서 크기-태깅된 바람직한 말단 부위를 갖는 혈장 DNA 분자의 상대 존재비(S/L 비)와 태아 DNA 분율 사이의 상관관계를 도시한다. 상대 존재비는 세트 S 부위 중 하나에서 종결되는 세포-무함유 DNA 분자의 제1 수를 카운팅하고 세트 L 부위 중 하나에서 종결되는 세포-무함유 DNA 분자의 제2 수를 나누어서 결정될 수 있다. 각각의 보정 데이터 포인트(405)는 상대 존재비 및 태아 DNA 분율이 결정된 차이 시료에 상응한다. 태아 DNA 분율은 태아-특이적 마커, 예를 들어, 부계-특이적 대립유전자, Y-염색체 마커, 또는 태아-특이적 후생적 마커, 예컨대 메틸화를 사용하여 결정될 수 있다.
세트 S 대 세트 L 바람직한 말단 부위를 갖는 혈장 DNA의 상대 존재비와 태아 DNA 분율 사이에서 양의 상관관계가 관찰되었다(R = 0.79, P < 0.001, 피어슨 상관관계). 상대 존재비에 대한 다른 값, 예를 들어, 제1 수와 제2 수의 합계로 나눈 제1 수, 또는 모든 판독물로 나눈 제1 수가 사용될 수 있다. 분리값의 다른 예가 또한, 예를 들어, 상기 용어 섹션에 정의된 바와 같이 사용될 수 있다.
새로운 시료에 대한 태아 DNA 분율을 결정하기 위해, 시스템은 다른 세포-무함유 DNA 분자(예를 들어, 긴-바람직한 말단 위치 세트에서 종결되는 것)와 비교하여 짧은-바람직한 말단 위치 세트에서 종결되는 세포-무함유 DNA 분자의 상대 존재비를 결정할 수 있다. 그 후에, 새로 측정된 상대 존재비는 하나 이상의 보정 데이터 포인트(405)와 비교될 수 있다. 예를 들어, 보정 함수(410)는 보정 데이터 포인트(405)에 적합화될 수 있으며, 이때, 새로 측정된 상대 존재비는 보정 함수(410)에 대한 입력으로서 사용될 수 있으며, 이는 태아 DNA 분율의 출력을 제공한다. 다른 조직 유형에 대한 비례 기여도가 유사한 방식으로 측정될 수 있다.
주목할 만하게는, 이러한 R 값은 SNP-기초 접근법을 사용하여 도출된 바람직한 말단 부위에 의해 수득된 R 값(0.66이었음)(21)보다 더 높았다. 주목할 만하게는, 크기-태깅된 바람직한 말단 부위의 도출은 태아모체 유전적 다형성에 대한 지식을 필요로 하지 않았다. 다른 한편, 본 발명자들의 그룹은, 크기 정보 단독은 혈장 DNA 내 태아 DNA 분율을 나타낼 수 있음(17)을 이전에 실증하였었다. 따라서, 본 발명자들은 특정 말단을 갖는 분자에 대한 선택 없이 모체 혈장 DNA의 크기 비를 계산하고, 이것과 태아 DNA 분율의 관계를 평가하였다.
도 4b는 26개의 모체 혈장 시료에 대한 크기 비(긴 판독물에 대한 짧은 판독물의 수)와 태아 DNA 분율 사이의 상관관계를 도시한다. 크기 비는 태아 DNA 분율과 양의 상관관계에 있었다(R = 0.67, P < 0.001, 피어슨 상관관계). R 값이 이전의 연구(17)와 유사한 한편, 이는 크기-태깅된 바람직한 말단에 기초한 상관관계보다 더 낮다. 종합하자면, 그 결과는, 크기-태깅된 바람직한 말단이 혈장 DNA에서 향상된 태아 DNA 분율 추정을 가능하게 하였음을 실증하였다.
이에, 짧은 DNA 분자에 바람직한 말단 위치의 사용은, 상기 상대 존재비를 태아 조직의 비례 기여도가 알려져 있는 하나 이상의 보정 시료로부터 결정된 하나 이상의 보정값과 비교함으로써 태아 조직 유형의 비례 기여도의 분류를 제공할 수 있다. 본원에 사용된 바와 같이, 분류는 특정 백분율 또는 백분율의 범위일 수 있다. 다른 조직 유형, 예컨대 종양 조직의 경우, 분류는, 임의의 종양 조직이 측정되는지의 여부, 또는 적어도 인지 가능한 양(예를 들어, 검출을 위한 최소 역치를 초과하는 양)일 수 있다.
일부 구현예에서, 크기-태깅된 바람직한 종결 위치는 이웃 뉴클레오타이드를 포함하도록 연장될 수 있다. 그러므로, 짧은-바람직한 종결 위치 세트는 종결 세트의 확장된 세트 S를 포함할 수 있다. 어느 경우든지, 짧은-바람직한 위치에서 종결되는 DNA 단편의 수(세트 S 또는 확장된 세트 S)는 제2 수의 DNA 단편을 사용하여 상대 존재비를 수득하기 위해 정규화될 수 있으며, 이들 중 적어도 일부는 짧은-바람직한 세트를 벗어난 위치에서 종결된다. 제2 수는 짧은-바람직한 세트에 대한 제1 수를 포함할 수 있다. 일례에서, 윈도우-기초 상대 존재비(예를 들어, 비)는 윈도우 A(더 작음) 내에서 종결되는 단편의 수와 윈도우를 벗어나 종결되거나 짧은-바람직한 종결 위치 주변의 더 큰 윈도우 B 내에서 종결되는 것들 사이에서 취해질 수 있으며, 따라서, 일부 비-바람직한 위치를 포함한다. 윈도우 A 및 윈도우 B의 크기는 요망되는 성능을 달성하도록 조정될 수 있다. 차이 윈도우 크기의 성능은 실험적으로 수득될 수 있다. 윈도우 A의 크기는 예를 들어 비제한적으로 2 bp, 3 bp, 4 bp, 5 bp, 6 bp, 7 bp, 8 bp, 9 bp, 10 bp, 15 bp, 20 bp, 25 bp 및 30 bp로 설정될 수 있다. 윈도우 B의 크기는 윈도우 A의 크기보다 더 클 것이고, 예를 들어 비제한적으로 20 bp, 25 bp, 30 bp, 40 bp, 50 bp, 60 bp, 70 bp, 80 bp, 100 bp, 120 bp, 140 bp, 160 bp, 180 bp 및 200 bp로 설정될 수 있다.
B. 태아 이수성 검출
게다가, 본 발명자들은 크기-태깅된 바람직한 말단 부위가 염색체 영역에 대한 태아 조직에서 서열 불균형을 검출하기 위해, 예를 들어, 카피 수 이상을 검출하기 위해 사용될 수 있는지의 여부를 조사하였다. 크기-태깅된 바람직한 말단 부위에서 종결되는 DNA 분자는 임의의 DNA 단편을 무작위로 선택하는 것보다는 태아로부터의 것일 더 높은 확률을 가질 것이다. 태아 DNA의 이러한 농화(enrichment)는 비침습적 산전 검사를 수행하기 위한 기법의 정확도를 증가시킬 수 있다. 예로서, 이러한 기법은 짧은-바람직한 말단 부위에서 종결되는 세포-무함유 DNA 분자의 양, 뿐만 아니라 이러한 세포-무함유 DNA 분자의 크기 분포 또는 메틸화 수준의 통계값을 사용할 수 있으며, 이는 그 후에 기준값과 비교될 수 있다.
이러한 목적을 위해, 본 발명자들은 크기-태깅된 바람직한 말단 부위가 3염색체성 21의 비침습적 산전 검사를 향상시킬 수 있을지의 여부를 조사하였다. 이를 수행하기 위해, 본 발명자들은 36개의 3염색체성 21 사례 및 108개의 대조군 사례(17)를 함유한 본 발명자들의 이전의 연구로부터 데이터세트를 수집하였다. 본 발명자들은 이 분석을 위해 세트 S 바람직한 말단을 커버하는 판독물을 이용하였다. 주목할 만하게는, 이들 시료에서 세트 S 바람직한 말단을 갖는 판독물의 중앙값 수는 133,702였다(범위: 52,072 내지 353,260).
일부 구현은 모든 상염색체에 맵핑된 세트 S 바람직한 말단을 갖는 판독물의 제2 수에 의해 chr21로 맵핑된 이러한 판독물의 제1 수를 Z-점수-기초 방법(26)을 사용하여 정규화하여, 2개의 분류 사이에서 구별되는 기준값과 비교될 수 있는 매개변수 값을 수득할 수 있다. 이러한 사례에서, 기준값은 정배수성 사례로부터 3의 표준 편차 또는 다른 적합한 편차로 결정될 수 있다. 그러므로, 기준값은 대조군 시료로부터 결정될 수 있다. 상이한 수의 DNA 분자가 분석될 수 있으므로, 정규화는 시료, 예를 들어, 시험 시료 및 대조군 시료의 크기의 차이를 고려할 수 있다. 임의의 적합한 정규화 기법은 예를 들어 시료에 걸쳐 동일한 수의 서열 판독물을 분석함으로써 임의의 조직 유형에 대한 임의의 적용에 사용될 수 있다.
카운트-기초 기법에 대한 다른 매개변수 값은 하나 이상의 기준 영역에 대한 제2 수(예를 들어, S/L 비)로 나눈 제1 수, 예컨대 영역에 대한 S/L 비를 수반하는 다양한 비를 포함할 수 있다. 하나 이상의 기준 범위는 서열 불균형을 갖지 않는 것으로 예상되는(예를 들어, 2개의 염색체 카피를 갖는) 적어도 하나의 다른 영역을 포함할 수 있다. 짧은 바람직한 말단에서 종결되는 단지 DNA 단편의 사용은 태아 DNA를 농화시키므로, 예를 들어, 태아 DNA가 시료의 더 큰 백분율일 것이고 기준값으로부터의 더 큰 백분율 편차가 발생할 것이기 때문에, 더 큰 정확도를 수득하는 방식이다.
도 5a는 본 개시내용의 구현예에 따른 대조군 사례와 3염색체성 21 사례 사이의 chr21 판독물의 상대 존재비의 비교를 도시한다. 세트 S 바람직한 말단 부위를 커버하는 판독물(중앙값 판독물 수: 133,702)만 이 분석에서 고려되었다. 도 5a에 도시된 바와 같이, 3염색체성 21 사례는 대조군 사례보다 세트 S 바람직한 말단을 갖는 유의하게 상승된 정규화된 chr21 판독물을 보여주었다(P < 0.001, 만-휘트니 순위합 검정).
도 5b는 본 개시내용의 구현예에 따른 세트 S 바람직한 말단 부위를 커버하는 판독물과 3염색체성 21 검사에 대한 판독물 사이의 ROC 비교를 도시한다. 무작위 판독물 분석은 단지, 바람직한 말단 부위에 대한 여과와 대조적으로 임의의 판독물을 사용한다. 수신자 조작 특성(ROC) 곡선 분석을 사용하여, 본 발명자들은 0.97의 곡선 아래 면적(AUC)을 수득하였다. 판독물 수에 관하여 정당한 비교를 달성하기 위해, 본 발명자들은, 세트 S 바람직한 말단 부위를 커버하는 것들로서 동일한 수의 판독물을 무작위로 선택함으로써 각각의 시료에 대한 시퀀싱 데이터를 다운-시료화하고, 다운-시료화된 데이터세트에서 정규화된 chr21 판독물 수를 재계산하였다. 그 결과, 무작위 판독물은 세트 S 바람직한 말단 부위(P = 0.033, 드롱 검정(DeLong test)(27); 도 5b)를 커버하는 판독물과 비교하여 3염색체성 21 검출에서 더 낮은 AUC 값(0.93)을 보여주었다. 이들 결과는, 세트 S 바람직한 말단 부위는 이들의 특징을 조사하도록 디자인된 검정법에서 3염색체성 21 시험을 잠재적으로 증강시킬 수 있을 것임을 시사하였다(논의 참조).
염색체 카피의 결실 또는 증폭에 의해 유발된 태아 이수성 외에도, 다른 카피 수 이상, 예를 들어, 특정 영역에 대한 증폭 또는 결실이 검출될 수 있다. 예를 들어, 몇몇 Mb의 마이크로결실 또는 마이크로증폭이 검출될 수 있다. 이러한 서열 불균형은 2개의 반수체형 사이에서 발생하며, 예를 들어, 중복된 반수체형은 이것이 과다표현되게 유발하거나 반수체형에서의 결실은 이것이 과소표현되게 유발한다.
C. 태아 유전자형의 결정
짧은-바람직한 말단 위치가 특정 조직 유형과 상관관계가 있을 수 있음을 고려하면, 이러한 바람직한 종결 위치에서 세포-무함유 DNA 분자는 해당 조직(예를 들어, 태아, 암 또는 이식물)으로부터 유래되는 높은 공산을 갖는다. 일부 상황에서, 세포-무함유 DNA 혼합물 내 특정 조직 유형은 다른 조직 유형에 비해 특정 게놈 위치에서 상이한 유전자형을 가질 수 있다. 예를 들어, 태아 조직 또는 종양 조직은 상이한 유전자형을 가질 수 있다. 짧은-바람직한 부위에서 종결되는 세포-무함유 DNA 분자가 관심 조직 유형으로부터 유래되는 높은 공산을 갖기 때문에, 이러한 위치에서 종결되는 세포-무함유 DNA 분자는 해당 위치에서 조직 유형의 유전자형을 결정하기 위해 분석될 수 있다. 이러한 방식으로, 크기-바람직한 종결 위치는 조직 유형으로부터 DNA를 식별하기 위한 필터로서 사용될 수 있다.
세포-무함유 DNA 단편(예를 들어, 혈장으로부터 시퀀싱됨)의 크기-바람직한 종결 위치에 관한 정보는, 어떤 모체 대립유전자가 임신한 여성으로부터 태아에 의해 유전되었는지 결정하는 데 사용될 수 있다. 본원에서, 본 발명자들은 이러한 방법의 원리를 예시하기 위해서 가설적인 예를 사용한다. 본 발명자들은, 모친, 부친 및 태아의 유전자형이 각각 AT, TT 및 TT임을 가정한다. 태아 유전자형을 결정하기 위해, 본 발명자들은 태아가 모친으로부터 A 또는 T 대립유전자를 유전받았는지 결정할 필요가 있다. 본 발명자들은 상대 돌연변이 용량(RMD: relative mutation dosage) 분석이라고 하는 방법을 이전에 기재하였다(문헌[Lun 등 Proc Natl Acad Sci USA 2008;105:19920-5]). 이 방법에서, 모체 혈장 내 2개의 모체 대립유전자의 투약이 비교될 것이다. 태아가 모체 T 대립유전자를 유전받은 경우, 상기 태아는 상기 T 대립유전자에 대해 동형접합성일 것이다. 이러한 시나리오에서, T 대립유전자는 A 대립유전자와 비교하여 모체 혈장에서 과다표현될 것이다. 다른 한편으로, 태아가 모친으로부터 A 대립유전자를 유전받은 경우, 태아의 유전자형은 AT일 것이다. 이러한 시나리오에서, A 및 T 대립유전자는, 모친과 태아 둘 다 AT에 대해 이형접합성일 것이기 때문에 모친 혈장에서 대략 동일한 용량으로 존재할 것이다. 그러므로, RMD 분석에서, 모체 혈장 내 2개의 모체 대립유전자의 상대 용량이 비교될 것이다.
판독물의 종결 위치는 RMD 접근법의 정확도를 향상시키기 위해 분석될 수 있다. 예를 들어, 판독물은 짧은-바람직한 부위에서 종결되는 것들만 포함하고 유전자형분석되는 위치를 커버하는 것들만 포함하도록 여과될 수 있다.
예시적인 예에서, 짧은-바람직한 종결 위치에서 종결되는 2개의 분자는 T 대립유전자를 운반한다(예를 들어, 2개의 상응하는 판독물에 의해 커버되는 바람직한 종결 위치에서 또는 부근의 위치에서). 일 구현예에서, 짧은-바람직한 종결 위치에서 종결되는 단지 2개의 분자가 다운스트림 분석에 사용되는 경우, 태아 유전자형은 TT로서 추측될 것이다. 그러므로, 단지 T-관련 판독물의 서열 불균형(또는 높은 백분율, 예를 들어, 70% 초과)은 균질한 유전자형을 나타낼 수 있다. 서열 불균형(예를 들어, 어느 대립유전자에 대해서도 60% 미만)은 이형접합성 유전자형을 나타낼 수 있다.
또 다른 구현예에서, T 대립유전자를 운반하는 2개의 태아-유래 분자는 이들 2개의 분자가 짧은-바람직한 종결 위치에서 종결되었기 때문에 RMD 분석에서 더 높은 중량이 주어질 것이다. 상이한 중량은 짧은-바람직한 종결 위치에서 종결되는 분자, 예를 들어 비제한적으로 1.1, 1.2, 1.3, 1.4, 1.5, 2, 2.5, 3 및 3.5가 주어질 수 있다.
예로서, 좌위가 이형접합성인지를 결정하는 기준은 좌위에 대해 정렬된 판독물의 적어도 미리 결정된 백분율(예를 들어, 30% 또는 40%)에서 각각 나타나는 2개의 대립유전자의 역치일 수 있다. 하나의 뉴클레오타이드가 충분한 백분율(예를 들어, 70% 이상)로 나타나는 경우, 좌위는 특정 조직에서 동형접합성인 것으로 결정될 수 있다.
유사한 기법은 종양을 가진 대상체에 대해 수행될 수 있다. 짧은-바람직한 종결 위치 상에서 종결되는 세포-무함유 DNA 분자가 식별되고 분석될 수 있다. 이 위치(또는 DNA 단편에 의해 커버되는 부근의 시험 위치)에 상응하는(예를 들어, 정렬되는) 염기는 이 세트의 각각의 세포-무함유 DNA 분자에 대해 결정될 수 있으며, 총 염기의 백분율은 각각의 염기에 대해 계산될 수 있다. 예를 들어, 세포-무함유 DNA 분자 상에서 관찰되는 시험 위치에서의 C의 백분율이 결정될 수 있다. C가 대상체의 건강한 조직에서 관찰되지 않는 경우, C는 충분한 수의, 예를 들어, 역치 수를 초과하는 C가 식별되는 경우 돌연변이로서 식별될 수 있으며, 이는 시료에서 측정된 종양 DNA 분율에 따라 다를 수 있다.
D. 건강한 대상체 대 임신 대상체에서 크기-태깅된 바람직한 말단
상기 분석은, 세트 S 바람직한 말단 부위가 사실상 태아-유래 DNA의 단편화 패턴을 반영함을 시사하였다. 그러나, 이들 말단 부위는 태아 DNA 분자와 모체 DNA 분자의 혼합물로부터 도출되었다. 그러므로, 이들 바람직한 말단 부위가 태아-특이적 단편화 패턴을 반영하는지의 여부를 시험하기 위해, 본 발명자들은 본 발명자들의 그룹(28)으로부터의 이전의 연구로부터 32명의 건강한(비-임신) 대상체를 함유하는 데이터세트를 검색하였고, 이들 시료에서 세트 S 바람직한 말단 부위를 운반하는 혈장 DNA 판독물을 찾았다. 흥미롭게는, 세트 S 바람직한 말단 부위를 갖는 일부 혈장 DNA는 사실상 건강한 대상체의 혈장에 존재하였고, 이러한 혈장 DNA 분자는 또한, 세트 L 바람직한 말단 부위를 커버하는 것들보다 더 짧았다.
도 6은 24명의 건강한 대상체에서 세트 S 바람직한 말단 부위를 커버하는 혈장 DNA 판독물 대 세트 L 바람직한 말단 부위를 커버하는 혈장 DNA 판독물의 크기 분포를 도시한다. 적색 및 청색 라인은 각각 세트 S 및 세트 L 바람직한 말단 부위를 커버하는 판독물이었다. X-축은 단편 크기(bp)를 나타내고, Y-축은 빈도(%)를 나타낸다. 세트 S 바람직한 말단 부위에서 종결되는 세포-무함유 DNA 분자는 세트 L에서 종결되는 것들보다 평균적으로 더 짧았다.
도 7a는 본 개시내용의 구현예에 따른 건강한 대상체에서 세트 S 및 세트 L 바람직한 말단 부위를 커버하는 혈장 DNA 판독물의 크기 분포를 도시한다. 도 7a는 전형적인 크기 분포를 갖는 사례를 도시한다.
도 7b는 본 개시내용의 구현예에 따른 임신 여성 및 건강한 대상체에서 세트 S 및 세트 L 바람직한 말단 부위를 갖는 혈장 DNA 판독물의 상대 존재비(S/L 비)의 비교를 도시한다. 이들 건강한 대상체는 임신 여성과 비교하여 더 낮은 S/L 비를 보여주었다. 그러므로, 세트 S에서 종결되는 판독물은 다른 세트의 종결 위치, 예를 들어, 세트 L 또는 전체 게놈에 비해 태아 DNA를 증가된 비율로 갖는다.
이는, 예를 들어, 하나 이상의 기준 영역에 대한 S/L로 정규화된 경우, S/L이 서열 불균형의 검출에서 증가된 정확도에 대한 매개변수 값에 사용하기에 실행 가능함을 보여준다. 더욱 일반적으로, 종결 위치의 세트 S는 단지 소정의 식별된 DNA 분자를 사용하기 위한 필터로서 사용되어, 태아 DNA의 농화를 초래할 수 있다. 영역 내에서 (태아 DNA에 대해 농화된) 세트 S에서 종결되는 DNA 분자는, 태아 DNA에 대한 서열 불균형이 존재하는지 검출하는 데 사용될 수 있다. 예로서, 매개변수 값은 시험 영역의 S/L 비 및 하나 이상의 기준 영역의 S/L 비, 또는 단지 시험 영역에서 짧은-바람직한 말단에서 종결되는 DNA 분자의 제1 수 및 하나 이상의 기준 영역에서 짧은-바람직한 말단에서 종결되는 DNA 분자의 제2 수의 비를 포함할 수 있다.
그러므로, 데이터는, 크기-태깅된 바람직한 말단 부위가 이들의 기원과 무관하게(예를 들어, 태아 대 모체) 혈장에서 짧은 DNA 분자 및 긴 DNA 분자의 일반적인 풋프린트였음을 시사하였다. 더욱이, 태아 DNA 분자는 모체 DNA와 비교하여 세트 S 바람직한 말단 부위를 커버하는 분자를 더 높은 비율로 보여주었다. 이에, 시험 영역 및 하나 이상의 기준 영역에 대한 S/L 값의 비는, 서열 불균형의 분류 사이를 구별하기 위해 기준값과 비교되는 매개변수 값으로서 사용될 수 있다.
IV. 크기-태깅된 바람직한 말단 부위의 종양 용도
하기 데이터에 의해 제시된 바와 같이, 종양 DNA를 포함하는 시료에 대해 유사한 측정이 수행될 수 있다. 예를 들어, 세포-무함유 시료에서 종양 DNA의 비례 기여도가 결정될 수 있거나, 서열 불균형이 결정될 수 있다.
A. 종양 DNA의 단편화
도 8은 본 개시내용의 구현예에 따른 간세포암종(HCC) 환자에서 세트 S 및 세트 L 바람직한 말단 부위를 커버하는 혈장 DNA 판독물의 크기 분포를 도시한다. X-축은 단편 크기(bp)를 나타내고, Y-축은 빈도(%)를 나타낸다. 도 8은 전형적인 크기 분포를 갖는 사례를 도시한다. HCC가 시험 사례로서 사용되기는 하지만, 다른 암 또한, 짧은 세포-무함유 DNA 단편을 나타내므로, 이 기법은 다른 유형의 암에도 동등하게 적용 가능하다.
도 9는 24명의 간세포암종 환자의 대표적인 세트에서 세트 S 바람직한 말단 부위를 커버하는 혈장 DNA 판독물 대 세트 L 바람직한 말단 부위를 커버하는 혈장 DNA 판독물의 크기 분포를 도시한다. 적색 및 청색 라인은 각각 세트 S 및 세트 L 바람직한 말단 부위를 커버하는 판독물이었다. X-축은 단편 크기(bp)를 나타내고, Y-축은 빈도(%)를 나타낸다. 전반적으로, 90명의 HCC 환자가 분석되었으며, 이때 90명의 환자는 도 9에 도시된 바와 같이 유사한 크기 분포를 가졌다.
B. 종양 분율의 결정
도 10은 본 개시내용의 구현예에 따른 혈장에서 1% 초과의 종양 DNA 분율을 갖는 72명의 간세포암종 환자에서 크기-태깅된 바람직한 말단 부위를 갖는 혈장 DNA 분자의 상대 존재비(S/L 비)와 종양 DNA 분율 사이의 상관관계를 도시한다. 도 1과 동일한 세트 S 및 세트 L 부위가 사용된다. 세트 S 대 세트 L 바람직한 말단 부위를 갖는 혈장 DNA의 상대 존재비와 종양 DNA 분율 사이에서 양의 상관관계가 관찰되었다(R = 0.58, P < 0.001, 피어슨 상관관계).
도 10은 도 4a와 유사한 거동을 보여준다. 예를 들어, 상대 존재비는 세트 S 부위 중 하나에서 종결되는 세포-무함유 DNA 분자의 제1 수를 카운팅하고 세트 L 부위 중 하나에서 종결되는 세포-무함유 DNA 분자의 제2 수를 나누어서 결정될 수 있다. 각각의 보정 데이터 포인트(1005)는 상대 존재비 및 종양 DNA 분율이 결정된 차이 시료에 상응한다. 종양 DNA 분율은 종양-특이적 마커, 예를 들어, 종양-특이적 대립유전자, 예컨대 이형접합성 손실(LOH: loss of heterozygosity)을 사용하여 결정될 수 있다.
태아 측정으로, 새로운 시료에 대한 종양 DNA 분율을 결정하기 위해, 시스템은 다른 세포-무함유 DNA 분자(예를 들어, 긴-바람직한 말단 위치 세트에서 종결되는 것)와 비교하여 짧은-바람직한 말단 위치 세트에서 종결되는 세포-무함유 DNA 분자의 상대 존재비를 결정할 수 있다. 그 후에, 새로 측정된 상대 존재비는 하나 이상의 보정 데이터 포인트(1005)와 비교될 수 있다. 예를 들어, 보정 함수(1010)는 보정 데이터 포인트(1005)에 적합화될 수 있으며, 이때, 새로 측정된 상대 존재비는 보정 함수(1010)에 대한 입력으로서 사용될 수 있으며, 이는 종양 DNA 분율의 출력을 제공한다.
조직 유형(예를 들어, 종양 조직)의 비례 기여도의 분류는 백분율 또는 백분율 범위 이외의 값에 상응할 수 있다. 예를 들어, 상기 분류는 암의 검출, 보다 특히 종양 부하에 상응할 수 있다.
도 11은 건강한 대상체 및 간세포암종 환자 중에서 크기-태깅된 바람직한 말단 부위를 갖는 혈장 DNA 분자의 상대 존재비(S/L 비)를 도시한다. 간세포암종 환자는 혈장 내 종양 DNA 분율에 기초하여 4개의 그룹으로 분할된다. S/L 비가 높을수록 종양 부하가 높아진다. 4개의 그룹은 종양 DNA 분율의 상이한 백분율 범위에 상응한다. 1 미만의 하락을 갖는 그룹은, 주변 괴사 조직에서의 더 긴 DNA가 종양으로부터의 짧은 DNA를 능가하는 점에서 작은 종양으로 인한 것이다.
이에, 분류는 임의의 종양 조직이 측정되는지의 여부, 또는 적어도 인지 가능한 양(예를 들어, 검출을 위한 최소 역치를 초과하는 양)일 수 있다. 그러므로, 비례 기여도의 분류는 암이 검출된다는 것일 수 있다. 민감도 또는 특이도에 따라, 구현예는 약 0.5, 0.51, 0.52, 또는 0.53의 검출 역치를 예로서 사용할 수 있을 것이다.
상대 존재비에 대한 다른 값(비 S/L 비 외에도)은 예를 들어, 태아 분율을 결정하기 위해 상기에서 기재되는 바와 같이 사용될 수 있다. 예를 들어, 정규화는 수득된 판독물의 총 수를 사용할 수 있으며, 이는 임의의 짧은-바람직한 윈도우를 벗어난 위치에서 종결되는 판독물을 포함할 것이다. 이러한 총 수는, 짧은-바람직한 위치에서 종결되지 않는 판독물을 포함하는 판독물의 제2 수의 일례이다. 하나의 시료로부터 또 다른 시료에 대한 동일한 수의 판독물을 분석하는 것은, 판독물의 총 수 또는 다른 제2 수에 의해 정규화하는 것과 동일한 결과를 제공하므로, 이러한 정규화에 의해 포함된다.
C. 종양으로 인한 서열 불균형의 검출
서열 불균형은 또한, 종양 조직의 염색체 영역에서 검출될 수 있다. 예를 들어, 증폭 및 결실은 전형적으로, 종양 조직에서 발생한다. 그러므로, 서열 불균형이 발생하고, 하나의 반수체형이 또 다른 반수체형에 비해 과다표현되도록 유발할 것이다. 이러한 카피 수 이상은 상이한 크기의 영역, 예컨대 염색체 아암에서 복수의 영역(예를 들어, 모든 동일한 크기, 예컨대 1 Mb)에서 시험될 수 있다.
하기 예에서, 종양을 가진 대상체로부터의 세포-무함유 시료에서 서열 불균형의 검출을 위해, 염색체 영역 1p, 1q, 8p 및 8q는 이들이 HCC에서 CNA를 빈번하게 앓고 있는 것으로 알려져 있으므로 조사된다. 이들 영역 중 하나에서 짧은-바람직한 위치에서 종결되는 세포-무함유 DNA 분자의 제1 수는 상기 영역에서 서열 불균형을 검출하기 위한 매개변수 값으로서 사용될 수 있다. 하나 이상의 기준 영역에서 짧은-바람직한 위치에서 종결되는 세포-무함유 DNA 분자의 제2 수는 제1 수를 정규화하는 데 사용될 수 있어서, 예를 들어, 시료의 크기가 고려될 수 있다. 하나 이상의 제2 영역은 서열 불균형을 갖지 않는 것으로 알려져 있거나 가정될 수 있다.
하기 예에서, 하나 이상의 기준 영역은 모든 상염색체를 포함하므로, 상기 상염색체 내 짧은 -바람직한 부위에서 종결되는 모든 DNA 단편을 포함한다. 이에, 모든 상염색체는 조합되어, 세트 S 위치 중 하나에서 종결되는 판독물의 카운트를 정규화하기 위해 대조군으로서 역할을 한다. 위치의 특정 세트(예를 들어, 세트 S)에서 종결되는 DNA 분자의 정규화된 카운트는 기준값(예를 들어, 서열 불균형이 존재하지 않는 경우 예상된 값)과 비교될 수 있으며, 이는 통계적으로 유의한 편차가 기준값으로부터 존재하는지 결정하기 위해 컷오프 값과 비교하는 단계를 포함할 수 있다.
도 12는 건강한 대상체, 간경변이 있거나 없는 HBV 보균자, 및 본 개시내용의 구현예에 따른 HCC 환자 중에서 chr1p 상에서 세트 S 말단을 커버하는 정규화된 판독물 카운트를 도시한다. 도 12는 각각의 클래스의 대상체에 대한 박스 플롯을 도시하며, 이때 중앙값은 막대로서 도시되고 상위 사분위 및 하위 사분위는 세선(whisker)으로서 도시된다. 각각의 데이터 포인트는 주어진 시료에 대한 chr1p 영역에 대한 정규화된 판독물 카운트에 상응하며, 이때 상기 시료는 4개의 클래스 중 하나에 있다. 정규화된 판독물 카운트는, 세트 S 말단 중 하나에 말단 위치를 갖는 판독물의 총 수로 나눈 chr1p 영역 내 세트 S 말단 중 하나에 말단 위치를 갖는 판독물의 수로서 결정될 수 있다.
카피 수 이상 정보 또한, 포함되므로, 소정의 시료는 획득(증폭), 손실(결실)을 나타내거나 정상으로서 표시된다. 일반적으로, 당업자는 비-암 대상체에서 상대적으로 소수의 이상을 예상하지만, HCC의 전구체일 수 있는 간경변을 갖는 HBV 대상체에서 소수 존재한다. 제시된 바와 같이, 카피 수 손실을 갖는 영역은 일반적으로, 중앙값보다 더 낮은 값을 가진다. 중앙값으로부터의 충분한 편차 또는 특정 백분율 값 이격(away)은 서열 불균형이 영역에 존재하는지 결정하기 위해 역치 또는 기준값으로서 사용될 수 있다. 상기 영역에 대한 획득 및 손실의 결정은 (28)을 사용하여 결정된다.
도 13은 건강한 대상체, 간경변이 있거나 없는 HBV 보균자, 및 본 개시내용의 구현예에 따른 HCC 환자 중에서 chr1q 상에서 세트 S 말단을 커버하는 정규화된 판독물 카운트를 도시한다. 카피 수 이상 정보(획득, 손실 또는 정상) 또한, 포함된다. 도 13은 도 12와 유사한 플롯을 도시하지만, 카피 수 획득은 chr1p에 대해 우세한 손실과 대조적으로 chr1q에 대한 우세한 이상이다.
도 14는 건강한 대상체, 간경변이 있거나 없는 HBV 보균자, 및 본 개시내용의 구현예에 따른 HCC 환자 중에서 chr8p 상에서 세트 S 말단을 커버하는 정규화된 판독물 카운트를 도시한다. 카피 수 이상 정보 또한, 포함된다. 도 14는 도 12와 유사한 플롯을 도시하지만, 카피 수 손실은 chr8p에 대해 우세한 이상이다.
도 15는 건강한 대상체, 간경변이 있거나 없는 HBV 보균자, 및 본 개시내용의 구현예에 따른 HCC 환자 중에서 chr8q 상에서 세트 S 말단을 커버하는 정규화된 판독물 카운트를 도시한다. 카피 수 이상 정보 또한, 포함된다. 도 15는 도 12와 유사한 플롯을 도시하지만, 카피 수 획득은 chr1p에 대해 우세한 손실과 대조적으로 chr8q에 대한 우세한 이상이다.
섹션 III.C에서 기재된 바와 같이, 서열 불균형은 조직의 유전자형을 결정하는 단계를 수반할 수 있다. 짧은-바람직한 부위에서 종결되는 DNA 분자 그룹은 예를 들어, 일반적으로 종양 DNA 단편에 상응하는 것으로서 식별될 수 있다. 식별된 그룹의 DNA 단편에 의해 커버되는 주어진 좌위에서의 대립유전자는 상기 좌위에서 유전자형을 결정하기 위해 분석될 수 있다. 예를 들어, 차이 또는 비는, 제1 대립유전자를 갖는 그룹에서 DNA 단편의 제1 수와 제2 대립유전자를 갖는 그룹에서 DNA 단편의 제2 수 사이에서 결정될 수 있다. 차이 또는 비는 세포-무함유 DNA 분자의 식별된 그룹의 값의 예이다. 그 값은 참조값과 비교되어, 서열 불균형이 존재하는지의 여부를 결정할 수 있으며, 예를 들어, 서열 불균형이 존재하지 않는 경우 유전자형은 종양 조직에서 2개의 대립유전자에 대해 이형접합성이고, 서열 불균형이 존재하는 경우 유전자형은 우세한 대립유전자(가능하게는 그룹 내 유일한 대립유전자)에 대해 동형접합성이다.
V. 염색질에서 종결 부위의 위치
A. 크기-태깅된 바람직한 말단 부위의 게놈 주석
크기-태깅된 바람직한 말단 부위가 게놈에서 어떻게 생성되었는지 알아보기 위해, 본 발명자들은 세트 S 및 세트 L 각각 내의 임의의 2개의 가장 근접한 바람직한 말단 부위 사이의 분리(bp)를 조사하였다.
도 16은 본 개시내용의 구현예에 따른 세트 S 및 세트 L 바람직한 말단 부위에서 임의의 2개의 가장 근접한 바람직한 말단 부위 사이의 거리의 분포를 도시한다. 세트 S 데이터에 대한 가장 근접한 S 부위 사이에 거리가 존재하고, 세트 L 데이터에 대한 가장 근접한 세트 L 부위 사이에 거리가 존재한다. 세트 S 바람직한 말단 부위에 대해, 대략 150 bp 이하에서 강한 10-bp 주기성이 존재하였다. 다른 한편으로는, 세트 L 바람직한 말단 부위에 대해, 약 170 bp에서 하나의 피크가 존재하는 한편, 10-bp 주기성은 관찰되지 않았다. 그러므로, 이러한 분리 패턴은 혈장 DNA의 크기 특징 및 뉴클레오솜 구조와 고도로 일관되었으며, 이는 세트 S 바람직한 말단 부위가 뉴클레오솜 코어 내에 위치할 것인 한편, 세트 L 바람직한 말단은 링커 영역에 위치할 것임을 시사하였다.
이러한 가설을 탐구하기 위해, 본 발명자들은 잘-배치된 뉴클레오솜을 갖는 영역 주변에서 크기-태깅된 바람직한 말단 부위의 분포를 조사하였다. 구체적으로, 본 발명자들은 대체로 모든 조직 유형(29, 30)에서 잘-배치된 뉴클레오솜을 갖는 것으로 알려진 영역이 chr12p11.1에서 바람직한 말단 프로파일을 조사하였다.
도 17a는 본 개시내용의 구현예에 따른 혈장 DNA 커버리지, 세트 S 및 세트 L 바람직한 말단 부위의 스냅샷을 도시한다. chr12p11.1 영역 상에서의 뉴클레오솜 어레이의 예시가 도시된다. 뉴클레오솜 어레이(1720)는 뉴클레오솜 코어(1705) 및 링커 영역(1710)과 함께 제시된다. DNA 커버리지(1730)는 각각의 게놈 위치를 커버하는 판독물의 수를 보여주고, 이때 수평축은 게놈 위치에 상응한다. 도 17a에 도시된 바와 같이, 세트 L 바람직한 말단은 대체로 링커 영역(1710)에 위치한 한편, 세트 S 바람직한 말단은 심지어 코어의 모서리 상이라도 대체로 뉴클레오솜 코어(1705) 내에 위치하였다.
게다가, 개방 염색질 영역(예를 들어, 프로모터 및 인핸서) 부근의 뉴클레오솜이 또한 잘-배치된 것으로 알려져 있기 때문에(30), 본 발명자들은 개방 염색질 영역 부근의 바람직한 말단 부위의 국지화를 조사하였다. 모체 혈장에서 태아 DNA 분자 및 모체 DNA 분자는 태반 조직 및 조혈계 각각(12, 31)으로부터 대체로 기원한 것으로 알려져 있다. 이러한 목적을 위해, 본 발명자들은 RoadMap 후생학 프로젝트(32)로부터 태반 및 선택된 조혈 조직에 대한 DNaseI 과민감도 프로파일을 다운로드하였다. 주목할 만하게는, 호중구에 대한 DNaseI 프로파일은 입수 가능하지 않다. 몇몇 조혈 세포 계통(즉, T-세포, B-세포, 자연 살해 세포, 단핵구, 호중구 및 조혈 줄기세포)(32) 사이에서 후생학적 프로파일이 유사하였음을 RoadMap 프로젝트가 드러내었기 때문에, 본 발명자들은 T-세포 프로파일을 다른 조혈 세포를 대표하는 것으로서 사용하였다. 본 발명자들은 태반 및 T-세포에 의해 공유된 개방 염색질 영역 주변의 크기-태깅된 바람직한 말단 부위를 결정하고, 이들을 보편적인 개방 염색질 영역으로서 명명하였다.
도 17b는 본 개시내용의 구현예에 따른 태반 조직 및 T-세포에 의해 공유되는 보편적인 개방 염색질 영역을 둘러싸는 바람직한 말단 부위의 분포를 도시한다. 뉴클레오솜 위치의 예시가 도시된다. 데이터가 모든 보편적인 개방 염색질 영역에 대한 것이므로, 바람직한 종결 부위의 수는 도 17a보다 훨씬 더 많고, 분포 패턴이 관찰될 수 있다.
X-축 상에서 플롯화된 정렬된 뉴클레오솜 위치는 영역(1770)으로서 표시된 보편적인 개방 염색질 영역의 중심과 연관이 있다. 긴-바람직한 부위에 대한 정규화된 말단 카운트는 (1750)으로서 제시되고 짧은-바람직한 말단 부위에 대한 정규화된 말단 카운트는 (1760)으로서 제시된다. 도 17b에서, 위치에서의 말단 카운트는 보편적인 개방 염색질 영역 내에서, 즉, 도 17b에 도시된 게놈 좌표 내에서 존재하는 짧은 바람직한 부위와 긴 바람직한 부위의 총 수에 의해 정규화된다. 그러므로, 2개의 데이터세트(1750 및 1760)는 동일한 방식으로 정규화된다.
도 17b에 도시된 바와 같이, 약 190 bp의 주기성 패턴은 어느 데이터세트의 피크 사이에서 관찰될 수 있었으며, 이는 뉴클레오솜 위상 패턴과 일관되었고 뉴클레오솜 사이의 거리를 나타내었다(29). 더욱이, 바람직한 말단 부위는 개방 염색질 영역의 중심에서 덜 풍부하였다. 개방 염색질 영역(33)에서 전사 인자 결합의 빈번한 점유가 존재하므로 DNA 절단을 방지할 수 있는 것으로 보고되었다. 게다가, 세트 S 및 세트 L 바람직한 말단 부위에 대한 피크는 동일한 위치에 배치되지 않았다. 이들 피크는 대략 링커 영역의 크기인 약 25 bp에 의해 분리되었다. 종합하자면, 이들 데이터는, 크기-태깅된 바람직한 말단 부위의 위치가 뉴클레오솜 구조와 밀접한 관계가 있음을 시사하였다. 그러므로, 혈장 DNA 말단 부위의 위치는 뉴클레오솜 구조와 관계가 있었다. 개방 염색질 영역 다음의 제1 뉴클레오솜 바로 다음의 높은 피크는 부근의 것보다 더욱 엄격하게 잘-위상화된 개방 염색질 영역을 둘러싼 2개의 뉴클레오솜으로 인한 것이며, 이는 바람직한 말단을 이들의 링커에서 더욱 예측 가능하게 만든다(즉, 피크가 더 높음).
크기-태깅된 바람직한 말단 부위 및 뉴클레오솜 구조의 관계를 게놈와이드 방식으로 추가로 확증하기 위해, 본 발명자들은 Snyder 등(24)으로부터 주석화된 "뉴클레오솜 트랙"을 다운로드하였으며, 이는 모든 조직에 대해 컴퓨터적 접근법을 사용하여 추론된 약 13 M 뉴클레오솜 중심의 위치(즉, 최대 뉴클레오솜 보호를 갖는 좌위)를 함유하였다. 세트 S 바람직한 말단 부위와 세트 L 바람직한 말단 부위 둘 다에 대해, 본 발명자들은 각각의 바람직한 말단 부위를 이의 가장 가까운 뉴클레오솜 중심과 상관관계를 맺었다. 그 후에, 본 발명자들은 뉴클레오솜 중심에 대한 바람직한 말단 부위의 거리의 분포를 프로파일링하였다.
도 18a는 본 개시내용의 구현예에 따른 뉴클레오솜 구조에 비한 임신 혈장 DNA에서 크기-태깅된 바람직한 부위의 분포를 도시한다. 수평축은 뉴클레오솜 중심에 비한 게놈 위치이고, 수직축은 크기-태깅된 바람직한 말단의 2개 범주의 정규화된 말단 카운트이며, 이때, 각각의 세트의 값은 이들의 각각의 크기-바람직한 종결 부위의 총 수를 사용하여 별도로 정규화된다.
적색 시저(1805) 및 청색 시저(1810)는 각각 세트 S 및 세트 L 바람직한 말단 부위를 생성시킬 절단 사건을 나타낸다. 도 18a에 도시된 바와 같이, 세트 S 및 세트 L 바람직한 말단 부위는 ±73 bp 및 ±95 bp 각각에서 주요 피크를 제시하였으며, 이는 뉴클레오솜 코어를 감싸고 있는 DNA의 크기 및 게놈에서의 뉴클레오솜 간격 패턴을 적합화시켰다. Straver 등(23)에 의한 또 다른 컴퓨터로 추측된 뉴클레오솜 트랙을 사용한 주석은 유사한 결과를 제시하였다.
도 18b는 본 개시내용의 구현예에 따른 Straver 등(23)에 의해 예측된 뉴클레오솜 구조에 비한 크기-태깅된 바람직한 부위의 분포를 도시한다. X-축 상에서 플롯화된 정렬된 뉴클레오솜 위치는 뉴클레오솜 중심과 연관이 있다. 데이터는 도 16과 일관되었고, 세트 S 바람직한 말단 부위가 뉴클레오솜 코어 내에 위치한 것인 한편, 세트 L 바람직한 말단 부위는 링커 영역에 위치하였음을 시사하였다. 도 18b는, 독립적인 그룹으로부터의 또 다른 뉴클레오솜 위치가 도 18a의 결과의 확인에 사용되었다는 점에서 도 18a와 상이하다.
게다가, 본 발명자들은 또한, 건강한 대상체에서 모든 상염색체에 대한 단편 말단을 연구하였다.
도 19는 본 개시내용의 구현예에 따른 건강한 비-임신 대상체에서 뉴클레오솜 구조에 비한 짧은 DNA 및 긴 DNA 분자에 대한 상염색체 단편 말단의 분포를 도시한다. 적색(1905) 시저 및 청색(1910) 시저는 짧은 단편 및 긴 단편을 각각 생성할 절단 사건을 나타낸다. X-축 상에서 플롯화된 정렬된 뉴클레오솜 위치는 뉴클레오솜 중심과 연관이 있다(23).
정규화된 말단 카운트는 특정 위치에서 종결되는 DNA 단편의 수, 예를 들어, 상응하는 크기 범주의 전체 판독물 수로 나눈 짧은 DNA 단편(1920)의 수 및 긴 DNA 단편(1930)의 수이다. 각각, 짧은 DNA에 대한 피크는 ±73 bp에서 발생하였고, 긴 DNA에 대한 피크는 ±95 bp에서 발생하였다. 짧은 DNA 단편은 60 내지 155개 염기에 상응하였고, 긴 DNA 단편은 170 내지 250개 염기에 상응하였다.
도 19에 도시된 바와 같이, 짧은 DNA 분자는 세트 S 바람직한 말단에 대한 유사한 분포를 제시하였고, 긴 DNA 분자는 세트 L 바람직한 말단에 대한 유사한 분포를 제시하였다. 그러므로, 데이터는, 건강한 대상체에서, 짧은 DNA 분자가 뉴클레오솜 코어 내에서 대체로 절단된 한편, 긴 DNA 분자가 링커 영역 내에서 대체로 절단되었음을 시사하였다.
B. 태아-특이적 말단 부위 및 모체-특이적 말단 부위의 특징
세트 S 바람직한 말단 부위와 세트 L 바람직한 말단 부위 둘 다가 태아 DNA와 모체 DNA의 혼합물로부터 도출되었음을 고려하여, 본 발명자들은 본 발명자들의 이전의 연구(21)로부터 태아-특이적 및 모체-특이적 바람직한 말단 부위의 뉴클레오솜 국지화를 추가로 조사하였다. 이들 바람직한 말단 부위는 태아-특이적 및 모체-특이적 SNP 대립유전자를 운반하는 모체 혈장에서의 DNA 분자로부터 도출되었다. 그러므로, 태아-특이적, 모체-특이적 혈장 DNA 말단 부위 및 chrY 단편 말단 부위의 분석을 수행하였다.
도 20a는 뉴클레오솜 구조의 예시를 도시한다. 도 20b는 뉴클레오솜 구조에서 태아-특이적 바람직한 말단 부위 및 모체-특이적 바람직한 말단 부위의 분포를 도시한다. 도 20c는 뉴클레오솜 구조에서 임신 사례 및 건강한 남성 대상체의 chrY 단편 말단의 분포를 도시한다. 도 20d는 임신 사례에서 뉴클레오솜 구조에서 짧은 DNA 및 긴 DNA의 chrY 단편 말단의 분포를 도시한다. 도 20e는 건강한 대상체에서 뉴클레오솜 구조에서 짧은 DNA 및 긴 DNA의 chrY 단편 말단의 분포를 도시한다.
X-축 상에서 플롯화된 정렬된 뉴클레오솜 위치는 뉴클레오솜 중심과 연관이 있다(23). 수직축은 정규화된 말단 카운트이다. 각각의 플롯은 데이터의 2개 세트를 보여주며, 이때 정규화된 말단 또는 판독물 카운트가 각각의 데이터세트에 제공된다.
도 20b에 도시된 바와 같이, 태아-특이적 바람직한 말단 부위는 뉴클레오솜 코어 내에 대체로 위치한 것인 한편, 모체-특이적 말단 부위는 링커 영역에 대체로 위치하였다. 이들 태아-특이적 및 모체-특이적 바람직한 말단은 태아-특이적 및 모체-특이적 SNP 부위(55)를 사용하여 이전의 연구에서 도출되었다. 이는 뉴클레오솜 코어(도 18a에 도시된 바와 같음) 내에 위치한 짧은-바람직한 말단 부위 및 링커 영역에 위치한 긴-바람직한 말단 부위와 유사하다. 정규화된 말단 카운트는 주어진 그룹에 대한 총 수로 나눈 위치의 수에 상응한다. 그러므로, 2개의 그룹(태아-바람직한 및 모체-바람직한)은 별도로 정규화된다.
남자 태아를 임신한 임신 여성의 혈장에서, chrY 판독물은 태아-기원의 것이었다. 다른 한편, 건강한 남성 대상체에서, chrY 판독물은 주로 조혈계로부터 기원되었다. 남자 태아를 임신한 임신 여성의 혈장에서 그리고 건강한 남성의 혈장에서, 모든 chrY 판독물에 대한 말단 부위를 연구하였다.
도 20c는 전반적인 말단 부위 분포를 도시한다. 정규화된 말단 카운트는 뉴클레오솜 중심에 비한 위치에서 종결되는 시료에서 세포-무함유 DNA 단편의 수에 상응하며, 이때 정규화는 시료에서 분석된 DNA의 총수에 기초한다. 도 20b로부터 유래된 관찰과 유사하게, 임신한 시료에서 chrY 분자는 뉴클레오솜 부위 내에 더 많은 말단 부위가 위치하고 있음을 나타낸 한편, 건강한 남성 대상체의 혈장에서 chrY 분자는 뉴클레오솜 코어를 지나 더 많은 말단 부위를 나타내었다.
본 발명자들은 임신한 여성과 건강한 남성 대상체 둘 다에서의 chrY 판독물을 짧은 범주 및 긴 범주로 추가로 분할하였다.
도 20d 및 도 20e는 임신한 사례 및 건강한 대상체 각각에서 말단 부위의 분포를 도시한다. 흥미롭게는, 임신 시료와 비-임신 시료 둘 다에서 짧은 DNA 분자는 이들의 말단 부위에 대해 유사한 뉴클레오솜 국지화를 보여주었다. 이러한 관찰은, 유사한 기전의 확률이 이러한 짧은 DNA 분자의 생성에 작동적임을 시사하였다. 유사하게는, 임신 시료와 비-임신 시료 둘 다에서 긴 DNA 분자는 이들의 말단 부위에 대해 유사한 뉴클레오솜 국지화를 또한 보여주었으므로, 아마도 이들의 생성에서 유사한 기전을 공유하였다. 다른 한편, 짧은 DNA 분자 및 긴 DNA 분자를 생성하는 데 있어서의 선호도는 태아-유래 DNA 및 모체-유래 DNA에서 상이한 것으로 보였다.
요약하자면, 임신의 맥락에서, 태아 DNA는 뉴클레오솜 코어(즉, 세트 S 바람직한 말단 부위) 내에서 빈번하게 절단된 한편, 모체 DNA는 링커 영역(즉, 세트 L 바람직한 말단 부위) 내에서 대체로 절단되었다.
C. 태반 세포 및 조혈 세포에서 뉴클레오솜 접근성
본 발명자들은 태아 DNA가 뉴클레오솜 코어 내에서 빈번하게 절단되는 이유를 궁금해하였다. 체세포 조직에서, 뉴클레오솜 코어 내의 DNA가 히스톤에 의해 결합되었으므로(34) 엔도뉴클레아제 효소가 링커 영역보다는 뉴클레오솜 코어 내에서 DNA를 절단하는 것이 더욱 어려웠다. 따라서, 본 발명자들은, 뉴클레오솜 코어 내의 DNA가 더욱 접근 가능하고 따라서 더욱 쉽게 절단될 수 있었다는 점에서 태반 세포가 체세포 조직과 상이하였다고 가정하였다.
뉴클레오솜 접근성(36)을 알아보기 위해 사용되어 왔던 이러한 가설을 시험하기 위해, ATAC-seq(시퀀싱 동안 트랜스포자제-접근성 염색질에 대한 검정법) 실험(35)을 2개의 태반 조직 시료(하나의 합포체영양세포 시료 및 하나의 세포영양막 시료) 및 2개의 모체 연막 시료 상에서 수행하였다. ATAC-seq 실험은 개방 염색질 영역 및 그 주변의 뉴클레오솜 위치화를 연구하기 위해 뉴클레오솜-무함유 DNA를 절단하는 트랜스포자제 효소를 이용한다(35). 체세포 조직 상에서 이전에 수행된 ATAC-seq 실험(35, 37, 38)에서 DNA 삽입물 크기 패턴은 대략 200 bp의 강한 주기성 패턴을 보여주었다. 이러한 패턴은, 개방 염색질 영역이 200-bp 영역에 의해 분리되고 온전한 뉴클레오솜(35)에 의해 결합되는 경향이 있었음을 시사하였다. 본 발명자들의 ATAC-seq 실험에 대한 삽입물 크기 분포는 도 21a 및 도 21b에 도시되어 있다.
도 21a 및 도 21b는 (a) 연막 시료 및 (b) 태반 조직의 ATAC-seq 데이터로부터의 단편 크기 분포를 도시한다. 트랜스포자제 절단으로부터 생성된 DNA 단편의 크기가 측정된 다음, 빈도 히스토그램이 결정된다. 염색질 구조의 상이한 섹션은 도 21a 및 도 21b 각각에 대해 표지된다.
연막 시료에서, 트랜스포자제 효소는 비-뉴클레오솜 결합 DNA(예를 들어, 링커 영역)을 대체로 절단한다. 대조로서, 트랜스포자제 효소는 태반 조직에서 뉴클레오솜 내에서 절단할 수 있었으며, 이는 태반 조직에서의 뉴클레오솜 포장이 연막 시료에서만큼 밀착하지 않았음을 나타낸다. 청색 시저 및 적색 시저는 연막 시료 및 태반 조직 각각에서 가능한 절단 사건을 나타내었다.
연막 시료(도 21a)에 대한 삽입물 크기는 이전의 연구(35, 37, 38)에서 관찰된 것과 유사하였다. 크기 프로파일에서 약 200 bp 및 약 400 bp에서의 피크는 정수 배수(integer multiples)의 뉴클레오솜(37)에 의해 보호되는 DNA이며, 이는 트랜스포자제 효소가 연막 시료에서 비-뉴클레오솜 결합 DNA(예를 들어, 링커 영역)를 대체로 절단함을 시사한다. 다른 한편으로, 태반 조직 시료는 200 bp 부근의 피크가 부재하였다는 점에서 과감하게 변경된 크기 분포를 보여주었다(도 21b). 대신에, 태반 시료에 대한 ATAC-seq 삽입물 분포는 훨씬 더 짧은 DNA 분포를 보여주었으며, 이는 트랜스포자제 효소가 뉴클레오솜 내에서 절단할 수 있었음을 시사하므로 태반 조직에서의 뉴클레오솜 포장이 연막 시료에서만큼 밀착하지 않았음을 나타낸다. 그 결과, 데이터는, 태반 DNA가 연막 DNA보다 더 접근 가능한 염색질과 관련이 있었음을 보여주었다.
VI. 크기-태깅된 종결 위치를 사용하는 기법
상기 기재된 바와 같이, 다양한 구현예는 짧은 세포-무함유 DNA 단편과 관련된 특정 조직 유형(예를 들어, 종양, 이식물 또는 태아 조직)으로부터 DNA 분율의 비례 기여도를 결정하기 위해 짧은-바람직한 종결 위치를 사용할 수 있다. 다양한 구현예는 또한, 서열 불균형이 제1 조직 유형에 존재하는지의 여부를 결정할 수 있다. 제1 조직 유형(예를 들어, 종양, 이식물, 또는 태아 조직)은 특정 대상체에 기초하여 식별될 수 있다. 예를 들어, 대상체가 이전에 간암을 가진 경우, 간암이 복귀되었는지의 여부를 체크하기 위해 스크리닝이 수행될 수 있으며, 이는 종양 조직으로부터의 비례 기여도의 증가를 초래할 것이다. 또 다른 예로서, 대상체가 임신한 여성인 경우, 제1 조직 유형은 태아 조직일 수 있다. 이러한 선별 기준은 본원에 기재된 다른 방법에 적용된다.
A. 크기-태깅된 바람직한 말단에 대한 실시예 결과의 요약
본 발명자들은 혈장 DNA에서 크기 프로파일링 및 바람직한 DNA 말단 부위의 통합 분석을 수행하였다. 태아-특이적 및 모체-특이적 바람직한 말단 부위를 추론하기 위해 유전자형 정보를 사용하는 대신에, 본원에 기재된 크기-태깅된 접근법은 본 발명자들이 혈장 DNA에서 태아 DNA 분율의 향상된 추정을 가능하게 한 크기-바람직한 말단 부위를 도출할 수 있게 하였다. 태아 DNA 분율을 추정하기 위해, 이러한 크기-태깅된 바람직한 말단 부위는 또한, 도 4a 및 도 4b에서 도시된 바와 같이, 크기 프로파일링 단독(17)을 사용하기 보다는 더 양호한 성능을 보여주었다. 더욱이, 본 발명자들은, 크기-태깅된 바람직한 말단 부위를 커버하는 판독물이 무작위 판독물을 사용하는 것을 능가하여 3염색체성 21의 비침습적 산전 검사에서 향상된 성능을 제공하였음을 보여주었다(도 5b). 이들 데이터는 크기-태깅된 바람직한 말단 부위를 갖는 혈장 DNA 분자에 대해 특이적으로 농화되는 표적화된 접근법을 개발할 확률을 열어주었다. 이러한 농화 접근법은 비침습적 태아 이수성 검출에 대한 시퀀싱 깊이 요건을 잠재적으로 감소시킬 것이다.
게다가, 본 발명자들은 예를 들어, 도 17a에 도시된 바와 같이, 뉴클레오솜 구조의 맥락에서 크기-태깅된 바람직한 말단 부위의 위치와 상관관계가 있었다. 본 발명자들은, 세트 S 바람직한 말단 부위가 뉴클레오솜 코어 내에 위치한 것인 한편, 세트 L 바람직한 말단 부위는 링커 영역에 위치하였음을 밝혀내었다. 흥미롭게는, 본 발명자들은 도 2, 3, 6 및 7a에 도시된 바와 같이, 조사된 모든 임신한 여성 및 건강한 비-임신 대상체에 대해, 세트 S 바람직한 말단 부위를 커버하는 판독물이 세트 L 바람직한 말단 부위를 커버하는 판독물보다 더 짧았음을 밝혀내었다. 이러한 관찰은, 세트 S 및 세트 L 바람직한 말단 부위가 이들의 조직 기원과 무관하게, 짧은 혈장 DNA 분자 및 긴 혈장 DNA 분자와 관련이 있었으며 이러한 관련이 건강한 비-임신 대상체에서 존재하였기 때문임을 시사하였다.
임신한 여성의 혈장으로부터의 chrY 판독물의 추가의 분석은 일관된 결과를 보여주었다. 모체 혈장에서 태아 DNA의 상대적 부족(relative shortness)은 2004년에 처음 보고되긴 하였지만(14), 이 현상에 대한 기계론적 설명은 여전히 해결되지 않았다. 본원에서, 본 발명자들은, 태반 조직에서 뉴클레오솜 접근성이 모체 체세포 조직(예를 들어, 혈액 세포)보다 더 높아서, 세포 사멸 과정(예를 들어, 세포자멸사) 동안 엔도뉴클레아제 효소가 뉴클레오솜 코어 내에서 절단할 수 있게 한다는 이론을 제안하였다. 본 발명자들의 ATAC-seq 실험은, 도 21a 및 도 21b에 도시된 바와 같이, 뉴클레오솜 코어가 혈액 세포와 비교하여 태반 세포에서 트랜스포자제 효소에 의해 더욱 쉽게 접근되었음을 보여주었다. 이러한 접근성의 분자 기초는 여전히 명확하지 않은 한편, 본 발명자들은 DNA 메틸화가 하나의 기여 인자일 수 있을 것임을 제안한다. 인간 게놈에서, DNA 메틸화 프로파일은 뉴클레오솜-결합 DNA에 걸쳐 10-bp 주기성을 보여주며, 이는 혈장 DNA의 크기 패턴과 일치한다(39).
사실상, 본 발명자들 및 다른 당업자들은, 혈장 DNA의 단편 크기가 DNA 메틸화 수준과 양의 상관관계가 있었음을 실증하였었다(40, 41). 게다가, 임신 동안, 태반 게놈의 DNA 메틸화는 접근성을 증가시키고, 모체 혈장에서 태아 유래 DNA의 단편 크기는 임신 연령에 따라 증가한다(42). 모든 이들 연구는, DNA 메틸화가 아마도 염색질 접근성을 변경시킴으로써 단편화 과정에 영향을 줄 수 있음을 시사하였다. 체세포 조직과 비교하여, 태반 조직은 게놈와이드 과소메틸화(43)를 나타내는 것으로 알려져 있다. 이전의 연구는, DNA 메틸화가 수반된 히스톤(44) 주변에서 DNA의 더 밀착된 랩핑을 유도하고 뉴클레오솜 압착성, 강성 및 안정성(45, 46)을 증가시킬 수 있었음을 실증하였다. 더욱이, DNA 메틸화는 또한, 히스톤 변형뿐만 아니라 헤테로염색질 형성(47, 48)을 조절할 수 있었으며, 이는 뉴클레오솜 언랩핑, 해체 및 안정성(49)과 상관관계가 있었다. 모든 이들 연구는, 태반 조직에서 더 높은 뉴클레오솜 접근성이 이의 과소메틸화와 연관이 있을 것임을 시사하였다.
본 발명자들이 태아 DNA 단편화에 대한 기계론적 고찰을 얻기 위해 순환형 세포-무함유 태아 DNA 및 태반 조직으로부터의 DNA를 사용하긴 하였지만, 이러한 개념은 비-태아 기원의 세포-무함유 DNA에 적용 가능하다. 비-임신 개체의 혈장에서 짧은 DNA 분자 및 긴 DNA 분자에서 바람직한 말단 부위는 예를 들어, 도 20d 및 도 20e에 도시된 바와 같이, 뉴클레오솜 구조에 관하여 동일한 국지화 패턴을 실증하였다. 이들 데이터는, 유사한 세트의 기전이 짧은 DNA 분자 또는 긴 DNA 분자를 임신한 개체 및 임신하지 않은 개체의 혈장 내로 유리하는 데 기여할 것임을 시사한다. 그러나, 긴 DNA 분자에 대한 짧은 DNA 분자의 비는 도 7b에 도시된 바와 같이, 임신하지 않은 개체로부터의 혈장에서보다 임신한 시료에서 더 높다. 더욱이, 암 환자와 임신한 여성의 혈장 DNA 프로파일 사이에 주목할 만한 유사성이 존재한다. 그러므로, 혈장 내 종양-유래 DNA 분자는 더 짧고(28), 종양성 게놈은 또한 게놈와이드 과소메틸화(50, 51)를 나타낸다. 따라서, 본 발명자들은, 종양-유래 DNA의 부족이 유사한 기전(52)으로 인한 것일 수 있다고 생각한다. 그러므로, 크기-태깅된 말단 부위는 본원에 기재된 바와 같이 비침습적 암 검사에 유용할 것이다.
본 발명자들은 세포-무함유 DNA에서 바람직한 말단 부위를 채굴하는 데 있어서 크기 특징을 포함시켰고, 비침습적 산전 및 암 검사에서 이러한 크기-태깅된 부위의 유용성을 실증하였다. 본 발명자들은, 바람직한 말단이 뉴클레오솜 구조와 고도로 상관관계가 있어서, 모체 혈장에서 세포-무함유 DNA의 생성 기전 및 태아 DNA의 상대적 부족에 대해 기계론적 고찰을 도출하였음을 추가로 보여주었다.
나아가, 본 발명자들은 짧은 크기 및 단편 말단 특징을 사용하여, 임상적으로 관련된 DNA 분자를 농화시킨다. 본원에서, 구현예는 관련있는 세포-무함유 DNA 분자의 서브세트를 식별하기 위해 이들 특징을 사용한다. 넓고 깊은 시퀀싱은 시험 시료에 필요하지 않으며, 넓고 깊은 시퀀싱은 단지 조직학적 시료로부터 이들 특징을 식별하는 데 필요할 수 있다. 임상적으로-관련된 DNA(예를 들어, 태아, 종양 및 이식물)에 대한 이러한 농화된 시료는 서열 불균형을 더 높은 정확도로 검출하는 데 사용될 수 있다.
B. 특정 조직 유형으로부터의 DNA 분율의 결정
도 22는 짧은-태깅된 종결 위치(예를 들어, 짧음/김)에서 종결되는 세포-무함유 DNA 분자의 상대 존재비와 조직 A로부터의 알려진 비례 농도의 DNA를 이용한 2개 이상의 보정 시료의 분석에 의해 결정된 혼합물에서 DNA에 대한 조직 A의 비례 기여도 사이의 관계를 도시한다. 제시된 실시예에서, x1 및 x2의 조직 A의 비례 기여도를 갖는 2개의 시료가 분석된다. 2개의 시료의 상대 존재비 값은 y1 및 y2로서 각각 결정되었다. A의 상대 존재비와 비례 기여도 사이의 관계는 x1, x2, y1 및 y2 값에 기초하여 결정될 수 있다. 짧은-태깅된 종결 위치에서 종결되는 세포-무함유 DNA 분자의 상대 존재비의 다양한 예가 본원에 기재된다.
y1 및 y2 값은 보정값의 예이다. 데이터 포인트(x1,y1) 및 (x2,y2)는 보정 데이터 포인트의 예이다. 보정 데이터 포인트는 선형일 수 있는 보정 곡선(예를 들어, 1010)을 수득하기 위해 함수에 적합화될 수 있다. 새로운 상대 존재비가 새로운 시료에 대해 측정되는 경우, 새로운 상대 존재비는 적어도 하나의 보정값과 비교되어, 새로운 시료의 비례 기여도의 분류를 결정할 수 있다. 보정값에 대한 비교는 다양한 방식으로 수행될 수 있다. 예를 들어, 보정 곡선은 새로운 상대 존재비에 상응하는 비례 기여도 x를 찾는 데 사용될 수 있다. 또 다른 예로서, 새로운 상대 존재비는 제1 보정 데이터 포인트의 보정값 y1과 비교되어, 새로운 시료의 비례 기여도가 x1보다 더 크거나 더 작은지의 여부를 결정할 수 있다.
다른 구현예에서, 2개 초과의 유형의 조직을 함유하는 혼합물은, 다른 조직의 상대 기여도가 상대적으로 일정한 한, 조직 A의 비례 기여도에 대해 유사하게 분석될 수 있다. 이러한 방법은 비제한적으로, 암 검출, 이식물 모니터링, 외상 모니터링, 감염, 및 산전 진단과 같은 상이한 임상 시나리오의 분석에 실제로 유용하다.
태아 분석의 경우, 목표는 비례 기여도에 대한 정량적 값을 제공하거나 최소 백분율의 태아 DNA가 존재하는지 확인하는 것일 수 있다. 예를 들어, 방법은 모체 혈장에서 태아 DNA 농도의 결정에 사용될 수 있다. 모체 혈장에서, 태아 유전자형을 운반하는 DNA 분자는 일반적으로 태반으로부터 유래된다.
암의 경우, 다른 분류가 바람직할 수 있다. 예를 들어, 짧은-바람직한 위치에서의 상대 존재비가 결정되고 정상적인 건강한 대상체와 비교될 수 있다. 도 22와 유사한 보정 곡선과의 비교를 통해, 특정 조직(예를 들어, 태아, 종양 또는 이식물)의 기여도가 결정될 수 있다. 시험되는 사례의 상대 존재비의 값은 건강한 대상체에서 간의 기여도의 범위와 비교될 수 있다.
유사하게는, 기관 이식을 받은 환자에서 이식된 기관의 기여도는 이 방법에 의해 결정될 수 있다. 이전의 연구에서, 거부를 갖는 환자는 이식된 기관으로부터 DNA의 증가된 방출을 초래하여, 혈장 내 이식된 기관으로부터의 DNA의 상승된 농도를 초래할 것으로 제시되었다. 이식된 기관의 상대 존재비의 분석은 기관 거부의 검출 및 모니터링을 위한 유용한 방식일 것이다. 이러한 분석에 사용되는 영역은 어떤 기관이 이식되는지에 따라 달라질 수 있다.
도 23은 본 개시내용의 구현예에 따른, 생물학적 시료를 분석하여, 혼합물 내 제1 조직 유형의 비례 기여도의 분류를 결정하는 방법(2300)의 순서도이다. 생물학적 시료는 제1 조직 유형을 포함하는 복수의 조직 유형으로부터의 세포-무함유 DNA 분자의 혼합물을 포함한다. 본원에 기재된 다른 방법과 같이, 방법(2300)은 컴퓨터 시스템을 사용할 수 있다. 제1 조직 유형의 예는 태아 조직, 이식 조직, 및 종양 조직을 포함한다.
블록(2310)에서, 짧은 세포-무함유 DNA 분자의 말단이 제1 조직 유형을 함유하는 시료에 대한 제1 역치 초과의 제1 비율에서 발생하는 게놈 위치의 제1 세트가 식별된다. 짧은 세포-무함유 DNA는 명시된 제1 크기, 예를 들어, 60 내지 155개 염기, 본원에 기재된 다른 범위, 또는 긴 세포-무함유 DNA 단편보다 더 짧은 다른 범위를 가질 수 있다. 범위는 연속적, 예를 들어, 60 내지 120, 및 125 내지 155일 필요는 없다. 일례로, 긴 DNA 단편은 170개 내지 250개 염기 및 본원에 기재된 다른 범위일 수 있다. 더 높은 비율은 적어도 하나의 부가적인 시료(예를 들어, 보정 시료)에서 결정될 수 있다. 블록(2310)에 대한 추가의 세부사항은 본 개시내용의 상기 섹션 II.B 및 다른 어디에서나 찾을 수 있다.
일부 구현예에서, 게놈 위치의 제1 세트의 식별은 적어도 하나의 부가적인 시료로부터의 제2 복수의 세포-무함유 DNA 분자를 분석하여, 제2 복수의 세포-무함유 DNA 분자의 종결 위치를 식별하는 단계를 포함할 수 있다. 적어도 하나의 부가적인 시료는 제1 조직 유형을 포함하고 생물학적 시료와 동일한 시료 유형인 것으로 알려져 있을 수 있다. 예를 들어, 부가적인 시료는 임신한 여성, 이식된 기관을 갖는 대상체, 또는 종양을 가진 대상체로부터의 것일 수 있다. 복수의 게놈 윈도우 중 각각의 게놈 윈도우에 대해, 상기 게놈 윈도우에서 종결되는 제2 복수의 세포-무함유 분자의 상응하는 수는 계산되고 기준값과 비교되어, 상기 게놈 윈도우 내의 하나 이상의 게놈 위치 상에서 종결되는 세포-무함유 DNA 분자의 비율이 역치를 초과하는지의 여부를 결정할 수 있다.
블록(2320)에서, 대상체의 생물학적 시료로부터 제1 복수의 세포-무함유 DNA 분자가 분석된다. 세포-무함유 DNA 분자의 분석은 상기 세포-무함유 DNA 분자의 적어도 하나의 말단에 상응하는 기준 게놈에서 게놈 위치(종결 위치)를 결정하는 단계를 포함할 수 있다. 그러므로, 2개의 종결 위치가 결정될 수 있거나, 세포-무함유 DNA 분자의 단지 하나의 종결 위치만 결정될 수 있다.
일부 구현예에서, 제1 복수의 세포-무함유 DNA 분자의 분석은 제1 복수의 세포-무함유 DNA 분자를 시퀀싱하여 시퀀스 판독물을 수득하고, 상기 서열 판독물을 기준 게놈에 정렬시켜 제1 복수의 세포-무함유 DNA 분자의 게놈 부위를 결정하는 단계를 포함할 수 있다. 다른 구현예에서, 제1 복수의 세포-무함유 DNA 분자의 분석은 게놈 위치의 제1 세트에서 제1 복수의 세포-무함유 DNA 분자의 혼성화 포착 또는 증폭 단계를 포함할 수 있다.
종결 위치는 본원에 기재된 바와 같이 다양한 방식으로 결정될 수 있다. 예를 들어, 세포-무함유 DNA 분자는 서열 판독물을 수득하기 위해 시퀀싱될 수 있고, 서열 판독물은 기준 게놈에 맵핑(정렬)될 수 있다. 유기체가 인간인 경우, 기준 게놈은 잠재적으로는 특정 서브집단으로부터의 기준 인간 게놈일 것이다. 또 다른 예로서, 세포-무함유 DNA 분자는 (예를 들어, PCR 또는 다른 증폭 후) 상이한 프로브로 분석될 수 있으며, 이때 각각의 프로브는 게놈 위치에 상응하고, 이는 적어도 하나의 게놈 영역을 커버할 수 있다.
통계적으로 유의한 수의 세포-무함유 DNA 분자가 분석되어, 제1 조직 유형으로부터 비례 기여도의 정확한 결정을 제공할 수 있다. 일부 구현예에서, 적어도 1,000개의 세포-무함유 DNA 분자가 분석된다. 다른 구현예에서, 적어도 10,000개 또는 50,000개 또는 100,000개 또는 500,000개 또는 1,000,000개 또는 5,000,000개 이상의 세포-무함유 DNA 분자가 분석될 수 있다. 추가의 예로서, 적어도 10,000개 또는 50,000개 또는 100,000개 또는 500,000개 또는 1,000,000개 또는 5,000,000개의 서열 판독물이 생성될 수 있다.
블록(2330)에서, 제1 복수의 세포-무함유 DNA 분자의 제1 수는 복수의 윈도우 중 하나의 윈도우 내에서 종결되는 것으로 결정된다. 상기 결정은 블록(2320)에서 제1 복수의 세포-무함유 DNA 분자의 분석에 기초하여 수행될 수 있다. 예를 들어, 세포-무함유 DNA 분자의 말단(들)의 게놈 위치는 분석(예를 들어, 특정 프로브의 정렬 또는 사용)으로부터 알려질 수 있다. 각각의 윈도우는 게놈 위치의 제1 세트 중 적어도 하나를 포함한다. 섹션 II.A에 기재된 바와 같이, 게놈 위치의 제1 세트는 초기 세트로부터 식별된 다음, 상기 초기 세트 주변의 윈도우를 포함하도록 확장될 수 있다. 그러므로, 짧은-바람직한 종결 위치 세트는 종결 세트의 확장된 세트 S를 포함할 수 있다. 예로서, 윈도우의 폭은 1 bp, 2 bp, 3 bp, 4 bp, 5 bp, 6 bp, 7 bp, 8 bp, 9 bp, 10 bp, 15 bp, 20 bp, 25 bp 및 30 bp일 수 있다. 상기 윈도우는 모두 동일한 폭을 가질 수 있거나 가질 수 없다. Bp 및 염기에 대한 지칭은 폭 또는 길이에 대한 동등한 단위로서 고려될 수 있다.
블록(2340)에서, 복수의 윈도우 중 하나의 윈도우 내에서 종결되는 제1 복수의 세포-무함유 DNA 분자의 상대 존재비가 계산된다. 상대 존재비는 세포-무함유 DNA 분자의 제2 수를 사용하여 제1 복수의 세포-무함유 DNA 분자의 제1 수를 정규화함으로써 결정될 수 있다. 세포-무함유 DNA 분자의 제2 수는 게놈 위치의 제1 세트를 포함하는 복수의 윈도우 밖의 게놈 위치의 제2 세트에서 종결되는 세포-무함유 DNA 분자를 포함할 수 있다. 일례로, 상대 존재비는 제1 수와 제2 수의 비를 포함할 수 있다.
다양한 구현예에서, 게놈 위치의 제2 세트는 긴 세포-무함유 DNA 단편에 바람직한 종결 위치 또는 생물학적 시료에서 결정되는 임의의 종결 위치일 수 있다. 게놈 위치의 제2 세트는, 긴 세포-무함유 DNA 분자의 말단이 적어도 하나의 부가적인 시료에서 역치를 초과하는 제2 비율로 발생하는 것일 수 있다. 긴 세포-무함유 DNA는 제1 크기보다 큰 제2 크기를 가질 것이다. 제1 크기는 제1 범위의 크기를 가질 수 있고, 제2 크기는 제2 범위의 크기를 가질 수 있다. 제1 범위의 크기는, 제1 범위의 크기의 제1 최대가 제2 범위의 크기의 제2 최대보다 작다는 점에서 상기 제2 범위의 크기보다 여전히 작을 수 있다. 본원에 기재된 바와 같이, 제1 범위의 크기는 제2 범위의 크기와 중첩될 수 있다. 또 다른 실시에서, 게놈 위치의 제2 세트는 제1 복수의 세포-무함유 DNA 분자 중 적어도 하나의 말단에 상응하는 모든 게놈 위치를 포함하여, 무작위 방식으로 잠재적으로 시료화된 다양한 게놈 위치를 포함할 수 있다.
상대 존재비 값의 또 다른 예는 예를 들어, 바람직한 종결 위치에서 종결되는 시퀀싱된 DNA 단편의 비율로서 측정되는, 게놈 윈도우에서 종결되는 세포-무함유 DNA 분자의 비율이다. 그러므로, 게놈 위치의 제2 세트는 제1 복수의 세포-무함유 DNA 분자 중 적어도 하나의 말단에 상응하는 모든 게놈 위치를 포함할 수 있다. 또 다른 예에서, 게놈 위치의 제2 세트는 게놈 위치의 제1 세트를 정의하는 데 사용되는 윈도우보다 더 큰 윈도우에 상응할 수 있어서, 제1 세트에서가 아닌 첨가 게놈 위치를 포함할 수 있다. 2개 세트의 윈도우의 폭은 요망되는 성능을 달성하도록 조정될 수 있다. 예로서, 제2 세트의 윈도우의 폭은 20 bp, 25 bp, 30 bp, 40 bp, 50 bp, 60 bp, 70 bp, 80 bp, 100 bp, 120 bp, 140 bp, 160 bp, 180 bp 및 200 bp일 수 있다.
블록(2350)에서, 상대 존재비를 제1 조직 유형의 비례 기여도가 알려져 있는 하나 이상의 보정 시료로부터 결정된 하나 이상의 보정값과 비교함으로써 제1 조직 유형의 비례 기여도의 분류가 결정된다. 예는 도 4a 및 도 4b에서 제1 조직 유형인 태아 조직에 대해 제시되어 있고, 도 10 및 도 11에서 종양 DNA에 대해 제시되어 있다. 일례로, 비례 기여도의 분류는 명시된 백분율을 초과하는 범위에 상응할 수 있다. 또 다른 예로서, 분류는 명시된 정확도 범위 또는 명시된 정밀도 내에서 특정 백분율에 상응할 수 있다. 추가의 예로서, 분류는 저, 중 및 고와 같은 범위에 상응하는 원문 분류(textual classification)일 수 있다.
상기 기재된 바와 같이, 보정값과의 비교는 보정 시료에서 측정된 보정 데이터 포인트를 사용하여 결정되어 온 보정 함수를 통해 수행될 수 있으며, 이의 비례 기여도는 다른 조직에 비해 특정 조직의 특정 부위에서 다른 기법을 통해, 예를 들어, 조직-특이적 마커(예를 들어, 태아, 이식물 또는 종양 조직에 대한), 예컨대 조직-특이적 대립유전자 또는 조직-특이적 후생적 마커, 예컨대 과소메틸화 또는 과다메틸화를 사용하여 측정된다. 이에, 상대 존재비를 하나 이상의 보정값과 비교하는 것은, 복수의 보정 시료에서 측정된 제1 조직 유형의 비례 기여도 및 복수의 보정 시료에서 결정된 각각의 상대 존재비를 포함하는 보정점에 대한 보정 함수 적합(calibration function fit)을 사용할 수 있다.
제1 조직 유형이 종양인 경우, 상기 분류는 대상체 내 종양 조직의 양, 대상체 내 종양의 크기, 대상체 내 종양의 병기, 대상체 내 종양 부하, 및 대상체 내 종양 전이의 존재로 이루어진 군으로부터 선택될 수 있다.
암의 경우, 비례 기여도가 높다면, 추가의 행위, 예컨대 치료적 개입 또는 대상체의 이미지화(예를 들어, 제1 조직 유형이 종양에 상응하는 경우)가 수행될 수 있다. 예를 들어, 조사는 이미지화 양상을 사용할 수 있으며, 예를 들어, 대상체(대상체의 전체 또는 신체의 특정 일부(예를 들어, 흉부 또는 복부), 또는 구체적으로는 후보 기관)의 컴퓨터 단층촬영(CT) 스캔 또는 자기 공명 영상(MRI)이 대상체에서 종양의 존재를 확인하거나 배제하기 위해 수행될 수 있다. 종양의 존재가 확인되는 경우, 치료, 예를 들어, 수술(나이프에 의해 또는 방사선에 의해) 또는 화학치료법이 수행될 수 있다.
치료는 암의 결정된 수준, 식별된 돌연변이, 및/또는 기원 조직에 따라 제공될 수 있다. 예를 들어, 식별된 돌연변이(예를 들어, 다형체성 실시의 경우)는 특정 약물 또는 화학치료법으로 표적화될 수 있다. 기원 조직은 수술 또는 임의의 다른 형태의 치료를 안내하기 위해 사용될 수 있다. 그리고, 암의 수준은 임의의 유형의 치료에 얼마나 공격적인지를 결정하는 데 사용될 수 있고, 이 또한 암의 수준에 기초하여 결정될 수 있다.
C. 서열 불균형의 결정
도 24는 본 개시내용의 구현예에 따른, 생물학적 시료를 분석하여, 제1 조직 유형이 세포-무함유 DNA 분자의 혼합물 내 염색체 영역에서 서열 불균형을 나타내는지의 여부를 결정하는 방법(2400)의 순서도이다. 상기 서열 불균형은 상기 염색체 영역에서의 다양한 측정, 예를 들어, 이수성, 증폭/결실, 또는 상기 영역 내 좌위에서의 제1 조직 유형의 유전자형 분석에 관한 것일 수 있다. 예를 들어, 제1 조직은 복수의 조직 유형 중 다른 조직 유형과 상이한 유전자형을 가질 수 있다. 염색체 영역은 전체 염색체일 수 있다. 제1 조직 유형의 예는 태아 조직 및 종양 조직을 포함한다.
블록(2410)에서, 짧은 세포-무함유 DNA 분자의 말단이 제1 조직 유형을 함유하는 시료에 대한 제1 역치 초과의 제1 비율에서 발생하는 게놈 위치의 제1 세트가 식별된다. 짧은 세포-무함유 DNA는 하나 이상의 범위일 수 있는 제1 크기를 가질 수 있다. 블록(2410)은 도 23의 블록(2310)과 유사한 방식으로 수행될 수 있다.
블록(2420)에서, 대상체의 생물학적 시료로부터 제1 복수의 세포-무함유 DNA 분자가 분석된다. 세포-무함유 DNA 분자의 분석은 상기 세포-무함유 DNA 분자의 적어도 하나의 말단에 상응하는 기준 게놈에서 게놈 위치를 결정하는 단계를 포함한다. 블록(2420)은 도 23의 블록(2320)과 유사한 방식으로 수행될 수 있다.
블록(2430)에서, 제1 복수의 세포-무함유 DNA 분자의 분석에 기초하여, 복수의 윈도우 중 하나의 윈도우 내에서 종결되는 세포-무함유 DNA 분자의 그룹이 식별된다. 각각의 윈도우는 게놈 위치의 세트 중 적어도 하나를 포함하고, 염색체 영역에 위치한다. 짧은 DNA 단편에 의해 선호되는 게놈 위치의 이 세트에서 종결되는 특정 세포-무함유 DNA 분자를 선택함으로써, 이러한 세포-무함유 DNA 분자 그룹은 제1 조직 유형, 예를 들어, 종양 DNA 또는 태아 DNA에 대해 효과적으로 농화될 수 있다. 나아가, 상기 게놈 위치 세트를 커버하거나 종결되는 세포-무함유 혼합물에서 DNA 단편은 추가의 농화를 제공하기 위해 증폭되거나 포착될 수 있을 것이다.
블록(2430)은 예를 들어, 게놈 위치 세트 중 하나에서 종결되는 DNA 분자의 식별과 관련하여 도 23의 블록(2330)과 유사한 방식으로 수행될 수 있다. 염색체 영역 내에서 윈도우를 가짐으로써, 세포-무함유 DNA 분자의 그룹은 해당 염색체 영역에 대한 대표적인 세트로서 작용할 수 있다. 그러므로, 세포-무함유 DNA 분자의 이러한 그룹(제1 조직 유형에 대해 농화됨)은 비침습적 분석을 위해 기존의 기법을 사용하여 분석될 수 있다.
다양한 구현예에서, 그룹은 특정 반수체형에 대해 선택될 수 있다. 복수의 윈도우 중 하나 내에서 종결되는 세포-무함유 DNA 분자의 또 다른 그룹은 다른 반수체형에 상응할 수 있다. 또는, 상기 그룹의 서브그룹은 하나의 반수체형에 상응할 수 있고, 상기 그룹의 또 다른 서브그룹은 다른 반수체형에 상응할 수 있다. 반수체형에 상응하는 DNA 분자는 특정 반수체형의 특정 대립유전자에 매칭되는 DNA 분자의 대립유전자(예를 들어, 시퀀싱 또는 프로브에 의해 결정됨)에 기초하여 결정될 수 있다. 방법(2400)의 이후의 블록은 2개의 그룹을 분석하여, 2개의 반수체형의 특성을 비교하며, 예를 들어, 서열 불균형을 결정할 수 있다.
블록(2440)에서, 세포-무함유 DNA 분자의 그룹의 값이 결정된다. 상기 값은 다양한 방식으로 결정될 수 있다. 예를 들어, 그룹 내의 많은 세포-무함유 DNA 분자는 예를 들어, 미국 특허 공보 제2009/0087847호, 제2009/0029377호, 제2011/0105353호, 제2013/0040824호 및 제2016/0201142호에 기재된 바와 같이 결정될 수 있다. 또 다른 예로서, 값은 예를 들어, 미국 특허 공보 제2011/0276277호, 제2013/0040824호 및 제2016/0201142호에 기재된 바와 같이 세포-무함유 DNA 분자의 그룹의 크기 분포의 통계값일 수 있을 것이며, 본원에서 이들 문헌은 모두 그 전체가 참조에 의해 포함된다. 또 다른 예로서, 값은 예를 들어, 세포-무함유 DNA 분자에 의해 커버되는 CpG 부위에서 이들 세포-무함유 DNA 분자의 그룹의 메틸화 밀도일 수 있을 것이다. 이에, 다양한 구현예에서, 세포-무함유 DNA 분자의 그룹의 값은 세포-무함유 DNA 분자의 그룹의 양, 세포-무함유 DNA 분자의 그룹의 크기 분포의 통계값, 또는 세포-무함유 DNA 분자의 그룹의 메틸화 수준일 수 있다. 서열 불균형을 검출하기 위해 메틸화를 사용하는 것에 대한 추가의 세부사항은 PCT 공보 WO 2017/012544에서 찾을 수 있다.
세포-무함유 DNA 분자의 그룹의 그룹 값은 예를 들어, 상이한 시료에서 상이한 수의 DNA 분자를 고려하기 위해 정규화될 수 있다. 예를 들어, 그룹 값은 하나 이상의 기준 영역의 또 다른 그룹 세포-무함유 DNA 분자로부터의 값 또는 시료 내의 세포-무함유 DNA 분자의 총 수에 의해 정규화될(예를 들어, 총 수에 의해 나눠질) 수 있다. 또 다른 예로서, 동일한 수의 세포-무함유 DNA 분자가 분석될 수 있으며, 이는 시료 내 세포-무함유 DNA 분자의 총 수에 의한 정규화의 유형이다.
블록(2450)에서, 대상체의 염색체 영역에서 제1 조직 유형에 서열 불균형이 존재하는지의 여부의 분류는 상기 값과 기준값의 비교에 기초하여 결정된다. 기준값은 예를 들어, 건강한 대상체로부터, 암을 갖거나 임신한 대상체로부터, 불균형을 갖지 않는 시료 내 다른 영역으로부터 결정된 하나 이상의 값으로부터, 또는 염색체 영역(예를 들어, 유전자형이 어떤 것인지 결정하기 위해) 내 또 다른 반수체형으로부터 다양한 방식으로 결정될 수 있다. 유전자형은 예를 들어, 섹션 III.C에 대해 기재된 바와 같이, 하나의 좌위에서 상이한 대립유전자에 대해 또는 반수체형에 대해 판독물에서 불균형을 분석함으로써 결정될 수 있다. 비교는 상기 값이 기준값보다 통계적으로 상이한지의 여부(예를 들어, 컷오프 값, 예컨대 집단으로부터 결정된 바와 같이, 표준 편차의 구체적인 수를 초과하는지의 여부)의 결정을 수반할 수 있다.
일례로, 제1 염색체 영역(시험될 임상적-관련 영역)에서 제1 윈도우 중 하나에서 종결되는 세포-무함유 DNA 분자의 제1 수는 하나 이상의 기준 염색체 영역에서 제2 윈도우 중 하나에서 종결되는 세포-무함유 DNA 분자의 제2 수와 비교될 수 있으며, 이때, 상기 제1 윈도우 및 상기 제2 윈도우는 게놈 위치 세트 중 적어도 하나를 포함한다. 이러한 비교는 제1 수 및 제2 수를 사용하여 분리값(예를 들어, 차이 또는 비)을 결정하는 단계를 포함할 수 있으며, 이때, 상기 분리값은 기준값과 비교되어 서열 불균형을 검출할 수 있다. 유사하게는, 제1 수 및 제2 수는 제1 반수체형 및 제2 반수체형에 대해 결정될 수 있다.
또 다른 예로서, 크기 분포는 세포-무함유 DNA 분자의 그룹의 값에 대해 결정될 수 있다. 통계값은 크기 분포, 예를 들어, 평균 또는 중앙값 크기, 또는 긴 DNA 분자에 대한 짧은 DNA 분자의 양으로 결정될 수 있다. 분리값은 염색체 영역의 제1 통계값과 하나 이상의 기준 염색체 영역의 크기 분포의 제2 통계값 사이에서 결정될 수 있으며, 이때, 상기 분리값은 기준값과 비교되어 서열 불균형을 검출할 수 있다. 유사하게는, 제1 통계값 및 제2 통계값은 제1 반수체형 및 제2 반수체형에 대해 결정될 수 있다.
보다 다른 예로서, 메틸화 수준은 세포-무함유 DNA 분자의 그룹에 의해 커버되는 복수의 부위에서 메틸화 상태(메틸화된 또는 메틸화되지 않은)를 사용하여 결정될 수 있다. 그룹에 대한 메틸화 수준은 하나 이상의 기준 염색체 영역에 상응하는 또 다른 그룹에 대한 또 다른 메틸화 수준과 비교될 수 있다. 분리값은 2개의 메틸화 수준 사이에서 결정될 수 있으며, 이때, 상기 분리값은 기준값과 비교되어 서열 불균형을 검출할 수 있다. 유사하게는, 2개의 메틸화 수준은 제1 반수체형 및 제2 반수체형에 대해 결정될 수 있다. 또 다른 예에서, 다수의 메틸화 수준은 영역 내의 상이한 부위에 대해 결정될 수 있고, 분율 기여도는 WO 2017/012544에서와 같은 디컨볼루션(deconvolution) 기법을 사용하여 결정될 수 있다. 분율 기여도는 블록(2440)에서 결정된 그룹의 값의 일례일 것이다.
이에, 반수체형 분석에 대해, 그룹의 값은 제1 반수체형에 상응하는 제1 서브그룹 및 염색체 영역에서 제2 반수체형에 상응하는 제2 서브그룹을 사용하여 결정될 수 있다. 제1 반수체형 값과 제2 반수체형 값 사이의 분리값(예는 상기에 제공됨)은 결정되고 기준값과 비교될 수 있다.
영역 중에서의 비교(상기 기재된 바와 같음)를 위해, 기준값은 복수의 기준 윈도우 중 하나의 기준 윈도우 내에서 종결되고 하나 이상의 기준 염색체 영역에 위치하는 세포-무함유 DNA 분자의 기준 그룹을 식별하되, 각각의 기준 윈도우는 게놈 위치의 세트 중 적어도 하나를 포함하는 단계에 의해 결정될 수 있으며, 상기 기준 염색체 영역은 서열 불균형(예를 들어, 증폭 또는 결실)을 갖지 않는 것으로 알려져 있거나 가정될 수 있다. 그 후에, 기준값은 세포-무함유 DNA 분자의 기준 그룹으로부터 결정될 수 있다. 기준값은 상기 값(예를 들어, 양, 통계학적 크기 값, 또는 메틸화 수준)과 동일한 유형의 값일 수 있다. 그 후에, 상기 값과 기준값 사이의 분리값은 예를 들어, 도 5a에 도시된 바와 같이, 서열 불균형 존재(existing)와 서열 불균형 부존재(no existing)의 분류를 분리하는 컷오프값에 비교될 수 있다.
예를 들어, 서열 불균형이 다른 조직 유형(예를 들어, 섹션 III.C에 대해 기재된 바와 같이)으로부터의 제1 조직 유형의 상이한 유전자형의 결과인 경우, 세포-무함유 DNA 분자의 그룹의 값은 상기 좌위에 제1 대립유전자를 갖는 그룹의 세포-무함유 DNA 분자의 제1 수와 상기 좌위에 제2 대립유전자를 갖는 세포-무함유 DNA 분자의 제2 수 사이의 상대 존재비일 수 있다. 다른 조직 유형이 염색체 영역 내 좌위에서 이형접합성인 경우, 서열 불균형의 분류는 제1 대립유전자의 과다존재비(overabundance)여서 제1 조직 유형이 상기 제1 대립유전자에 대해 동형접합성임을 나타낼 수 있다. 다른 조직 유형이 염색체 영역 내 좌위에서 이형접합성인 경우, 분류는 상기 불균형이 없다는 것이어서 제1 조직 유형이 상기 제1 대립유전자 및 상기 제2 대립유전자에 대해 이형접합성임을 나타낼 수 있다.
서열 불균형(증폭 또는 결실)이 암과 관련이 있는 경우, 암의 수준은 (예를 들어, 서열 불균형을 갖는 영역의 수에 기초하여) 결정될 수 있다. 그 후에, 치료는 예를 들어, 본원에 기재된 바와 같이, 예컨대 방법(2300)에 대해 제공될 수 있다.
VII. 개방 염색질 영역에서 배향-인지 혈장-무함유 dna 단편화 분석
최근의 연구는 민감한 암 스크리닝(56, 57, 61)을 위한 cfDNA 분석의 임상적 실현성을 실증하였었다. 이 분야의 향후 개발을 위해, 양성 액체 생검 시험 후 종양 부위를 국지화하기 위한 강력한 접근법을 개발하는 것이 유익할 것이다. 조직 사이에서 DNA 메틸화의 차이를 이용하여, 본 발명자들은 이전에, 모체 혈장 내 순환형 태아-유래 DNA가 주로 태반으로부터 기원하였음(58)을 실증하였다. 이러한 작업은 모체 혈장(58)에서의 태반 마커로서 비메틸화된 SERPINB5 서열의 검출에 기초하였다. 더욱 최근에는, 접근법은 뇌(78), 적혈구 계통의 세포(75), 심장(109) 및 간(64, 77)으로부터 유래된 cfDNA의 검출에 적용되어 왔다.
본 발명자들은, 본 발명자들이 "혈장 DNA 조직 맵핑"(102)이라고 명명한 방법인, cfDNA 풀에 대한 다수의 조직 유형의 기여도를 결정하기 위해 일반적인 DNA 메틸화-기초 접근법을 추가로 개발하였다. 이 원리는 또한, 다른 연구자에 의해 종양의 조직-기원을 예측하기 위해 이용되어 왔다(72, 79). 이들 공개된 접근법은 전체 게놈 비설파이트 시퀀싱(BS-seq)을 사용하였다(80, 54, 85). 그러나, BS-seq는, 비설파이트 전환이 투입 DNA(65)의 분해와 관련이 있고 시퀀싱 데이터(89)에서 편향을 야기할 수 있는 GC 함량 변화를 도입하기도 하는 단점을 갖는다.
DNA 메틸화 외에도, 최근의 연구는, cfDNA 분자가 이의 뉴클레오솜 기원의 시그니처를 보유하였음을 실증하였었고, 이는 166 bp에서 지배적인 피크 및 약 10 bp 주기성을 갖는 크기 분포를 보여준다(81). CfDNA는 게놈에 걸쳐 후생적 조절에 대한 윈도우를 제공하는 단편화의 무-작위한 패턴을 운반하는 것으로 제시되었다(67). 게놈에 걸쳐 뉴클레오솜 위치화가 세포 동일성(92)과 고도로 관련이 있음을 고려하면, 이러한 단편화 패턴은 cfDNA 분자의 조직-기원을 역추적하는 잠재성을 갖는다. Snyder 등은, 혈장 DNA 분자가 뉴클레오솜 풋프린트를 운반하였음을 보여주었다(98). 저자들은 "뉴클레오솜 트랙"을 추가로 작제하였고, 뉴클레오솜 간격 패턴이 cfDNA의 조직 기원을 추론하는 데 사용될 수 있음을 밝혀내었다. 이들은 또한, 암 환자에서 종양 기원을 예측하는 데 있어서 이러한 접근법의 잠재성을 실증하였다. 또 다른 연구에서, Ulz 등은, 프로모터에서 혈장 DNA 커버리지가 유전자의 발현을 예측하는 데 사용될 수 있음을 보고하였다(106). 본 발명자들의 그룹은, 모체 혈장(55)에서 태아 DNA 분율을 예측하는 데 있어서 임상적 유용성을 보여준 cfDNA에서 조직-특이적 바람직한 종결 부위의 존재를 실증하였었다.
이러한 개시내용에서, 본 발명자들은 특히 cfDNA 분자의 조직 기원을 추적하는 데 있어서 단편화 패턴의 임상적 잠재성을 추가로 활용한다. 본 발명자들은 처음에, 기지의 잘-배치된 뉴클레오솜 어레이 및 개방 염색질 영역 주변에서 커버리지 및 cfDNA 단편 말단 시그니처를 프로파일링하였다. 분석 동안, 본 발명자들은 혈장 DNA 단편 말단을 2개 그룹으로 분리하였으며, 이때 배향 정보가 고려되었고, 즉, 기준 게놈과 관련하여 혈장 DNA 단편의 업스트림 또는 다운스트림 면 상에서의 말단이 고려되었다. 본 발명자들은 이들 영역에서, 혈장 DNA가 업스트림 단편 말단 신호와 다운스트림 단편 말단 신호 사이에 시퀀싱 커버리지 불균형 및 차이를 포함하여 특징적인 단편화 패턴을 나타내었음을 보여주었다. 그 후에, 본 발명자들은 다양한 조직-특이적 개방 염색질 영역에서 혈장 DNA 단편화 패턴을 분석하였고, 다양한 임상적 시나리오에서 단편화 패턴을 추가로 정량화하여, 암 환자에서 종양 위치를 예측하는 것을 포함하여 cfDNA의 조직-기원을 추론하는 데 있어서의 실현성을 조사하였다.
A. 개념적 프레임워크 및 명명법
도 25a 내지 도 25f는 본 발명자들의 접근법의 개념적 프레임워크를 도시한다. 도 25a는 게놈에서 뉴클레오솜 위치화의 예시를 도시한다. 뉴클레오솜(2505)은 DNA(2510)(황색 라인)로 랩핑된다. DNA의 다른 부분: 링커 DNA(2512)(갈색 라인), 및 활성 조절 요소(2514)(녹색 라인)이 또한 제시되며, 이들은 개방 염색질 영역에 있다. 세포자멸사 동안 뉴클레오솜 위치화의 관념 및 절단 사건(시저)의 예시가 또한 제시된다.
진핵 염색질에서, 뉴클레오솜은 DNA 포장을 위한 기본적인 단위이며, 이는 히스톤 단백질 주변으로 랩핑된 DNA 분절로 구성된다. 뉴클레오솜이 퇴거되고 부근의 뉴클레오솜이 DNA의 훨씬 더 긴 신전부에 의해 연결될 활성 조절 요소(예를 들어, 개방 염색질 영역)를 제외하고는, 뉴클레오솜은 일반적으로, 상대적으로 짧은 링커 DNA에 의해 서로 연결된다. 유의한 비율의 cfDNA 분자는 세포 자멸사 후에 방출되는 것으로 여겨진다(68, 81). 세포자멸사적 DNA 단편화 동안, 엔도뉴클레아제 효소는 뉴클레오솜간 DNA의 절단을 선호하는 것으로 제안된다(94, 103).
도 25b는 세포자멸사 DNA 단편화로부터 생성된 cfDNA의 예시를 도시한다. 뉴클레오솜 주변으로 랩핑된 DNA 부분(2520)은 보존되는 한편, 링커 및 개방 염색질 영역 내의 매우 작은 DNA 조각(2522)은 이러한 작은 조각(회색 라인)으로 절단되어 효율적으로 시퀀싱될 수 없다. 그 결과, cfDNA가 시퀀싱을 받는 경우, 히스톤 상에서 랩핑된 DNA 부분(2520)은 보존된다. 다른 한편, 링커 및 활성 조절 요소로부터 기원하는 DNA는 이들이 상대적으로 비보호되어 있기 때문에, 작은 DNA 조각(2522)(회색 라인)으로 절단될 것이고 효율적으로 시퀀싱되지 않을 수 있다(도 25c)(69, 98, 106).
도 25c는 2개의 말단의 시퀀싱된 판독물 및 추출의 예시이다. 적색 말단(2530) 및 청색 말단(2532)은 U(업스트림) 및 D(다운스트림) 혈장 DNA 말단을 각각 나타낸다. DNA 조각(2522)은 이들이 시퀀싱되지 않으므로 제시되지 않는다. 따라서, cfDNA의 게놈 커버리지는 뉴클레오솜에서 높을 것이며, 링커 및 개방 염색질 영역에서는 낮을 것이다(도 25d).
도 25d는 게놈 커버리지를 도시한다. 수평축은 게놈 좌표에 상응한다. 수직축은 각각의 좌표(위치)를 커버하는 판독물의 수에 상응한다. 이러한 이상적인 도시에서, 커버리지는 링커 및 개방 염색질 영역에서 제로(0)(또는 거의 제로)이지만, 뉴클레오솜 영역에서는 실질적이고 균일하다.
도 25e는 게놈 좌표에 비한 cfDNA의 U 및 D 단편 말단 프로파일을 도시한다. 본 발명자들은 cfDNA 단편 말단의 배향 정보를 이용하였으며, 기준 게놈과의 정렬에 기초하여 이들 cfDNA 단편 말단을 정의하였다. 업스트림(U) 말단(2530)은 게놈 좌표에서 더 낮은 값을 가진 것을 나타낸 한편, 다운스트림(D) 말단(2532)은 게놈 좌표에서 더 높은 값을 가진 것을 나타내었다. 그러므로, 뉴클레오솜 상에서 랩핑된 DNA는 뉴클레오솜의 업스트림 및 다운스트림 경계 각각에서 U 말단과 D 말단의 쌍을 초래할 것이다.
DNA의 업스트림 말단(2530) 및 다운스트림 말단(2532)의 예시적인 위치는 도 25e에 도시된다. 업스트림 U 신호(2550)는 업스트림 말단(2530)의 종결 위치에 위치한다. 다운스트림 D 신호(2552)는 다운스트림 말단(2532)의 종결 위치에 위치한다. U 신호(2550) 및 D 신호(2552)는, 모든 단편이 동일한 위치에서 절단되지는 않을 것이므로, 함께 다발로 되어, 일부 추계학적 과정을 보여준다. 이러한 위치의 윈도우는 크기-바람직한 말단 부위에 대해 상기에서 기재된 윈도우에 상응할 수 있다.
링커 및 개방 염색질 영역은 U 신호(2550) 및 D 신호(2552)를 기반으로 식별될 수 있다. 링커 또는 개방 염색질 영역에 대해, 이들의 업스트림 경계의 측면에 D 말단, 그리고 이들의 다운스트림 경계의 측면에 U 말단이 있을 것이다. 이러한 측면에서, U 말단 신호 및 D 말단 신호는 뉴클레오솜, 링커, 및 개방 염색질 영역의 위치화를 추론하는 데 사용될 수 있을 것이다(도 25f).
도 25f는 평활화된 혈장 DNA 말단 신호 및 추측된 뉴클레오솜 위치화를 도시한다. 이러한 평활화된 말단 신호는, DNA 단편의 말단이 DNA의 절단에 관여하는 추계학적 과정으로 인한 분포를 보여줄 것이므로 현실적인 데이터를 예시한다. 업스트림 분포(2560)는 도 25e에서 U 신호(2550) 주변에 집중되어 있다. 다운스트림 분포(2562)는 도 25e에서 D 신호(2552) 주변에 집중되어 있다.
상이한 영역은 평활화된 혈장 DNA 말단 신호 하에 식별된다.
보라색 라인(2575)은 뉴클레오솜을 나타낸다. 갈색 라인(2572)은 링커 영역을 나타낸다. 녹색 라인(2574)은 개방 염색질 영역을 나타낸다.
B. 상이한 위상을 보여주는 결과
개념적 프레임워크로부터의 가설은 게놈의 다양한 부분, 예를 들어, 하우스키핑 유전자의 활성 프로모터, 불활성 프로모터, 및 조직-특이적 개방 염색질 영역을 분석함으로써 시험되었다.
1. 뉴클레오솜 어레이에서 상이하게 위상화된 혈장 DNA 단편 말단
인간 게놈 영역에서 상기 개념을 예시하기 위해, 본 발명자들은 처음에, 대체로 모든 조직 유형(107, 63, 98)에서 잘-배치된 뉴클레오솜을 갖는 것으로 알려진 영역인 chr12p11.1을 검사하였다. 이를 수행하기 위해, 본 발명자들은 본 발명자들의 이전의 연구(70)로부터 32명의 건강한 비-임신 대상체로부터 혈장 DNA 데이터를 풀링하고, 이 영역에서 커버리지 및 단편 말단을 프로파일링하였다.
도 26a 및 도 26b는 본 발명의 구현예에 따른 풀링된 건강한 비-임신 대상체에서 chr12p11.1 영역에서 혈장 DNA 단편화 패턴을 도시한다. 도 26a는 게놈 커버리지(2605), 업스트림 U 종결 위치(2607), 및 다운스트림 D 종결 위치(2609)에 대한 원 신호를 도시한다. X-축은 게놈 좌표이다. Y-축은 게놈 커버리지에 대한 정규화된 밀도여서, 임의의 좌표에서의 평균값은 1이다. 게놈 커버리지(2605)는 각각의 게놈에 정렬된 판독물의 수에 상응한다. 업스트림 종결 위치(2607) 및 다운스트림 종결 위치(2609)에 대한 데이터는 이들 위치에서 종결되는 DNA 단편의 수에 대한 정규화된 카운트이다. 본 발명자들이 상이한 위치에 걸쳐 말단의 상대적 카운트에만 관심을 두기 때문에, 원 카운트는 이 도면에서 Y-축을 적합화시키는 방식으로 정규화된다.
도 26a에 도시된 바와 같이, 혈장 DNA 커버리지(2605)는 약 190 bp의 강한 주기성 패턴을 도시하였고, 더 높은 커버리지 및 더 낮은 커버리지를 갖는 영역은 뉴클레오솜 및 링커 각각에 상응하였다(98). U 종결 위치(2607) 및 D 종결 위치(2609)는 유사한 주기성 패턴을 보여주었고, 둘 다 링커에서 농화되었으며, 즉, 뉴클레오솜보다는 링커 영역에 더 많은 U 말단 및 D 말단이 존재하였다. 커버리지 신호는, 원 신호를 이 영역에서의 평균 신호로 나눔으로써 정규화되었으며; 말단 신호는 도면에 적합화되기 위해 선형으로 조정되었다. 도 26a, 26b, 26c 및 26d에서 커버리지와 말단 신호 사이에서의 이들 비-보편적인 정규화 절차는 단편화 패턴 목적만 예시하기 위한 것이었다.
도 26b는 평활화된 신호 및 추측된 뉴클레오솜 위치화를 도시한다. 그 후에, U 말단 신호 및 D 말단 신호는 추가의 분석을 위해 LOWESS(국소 가중 산점도 플롯 평활화: locally weighted scatterplot smoothing) 알고리즘(60)을 사용하여 평활화되었다. 도 26b에 도시된 바와 같이, 임의의 D 말단 피크(예를 들어, 2610)와 이의 가장 가까운 업스트림 U 말단 피크(예를 들어, 2620) 사이의 거리는 약 170 bp였으며, 이는 대략 뉴클레오솜(101)의 크기였다. 가까운 D 말단 피크(예를 들어, 2610)와 이의 가장 가까운 다운스트림 U 말단 피크(예를 들어, 2630) 사이의 거리는 약 20 bp였으며, 이는 대략 링커(101)의 크기였다. 플롯 아래에, 뉴클레오솜(2640) 및 링커(2650)는 상기 플롯에서 데이터에 상응하는 위치에 제시된다.
그러므로, 데이터는 본 발명자들의 개념적인 프레임워크(도 25a 내지 도 25f)와 고도로 일치하였고, 상이하게 위상화된 혈장 DNA 단편 말단은 사실상 이 영역에서 뉴클레오솜 위치화를 반영하였음을 보여주었다. 주목할 만하게는, U 말단과 D 말단의 분리로, 본 발명자들은 뉴클레오솜과 링커 둘 다의 위치화를 분해할 수 있었으며, 이는 뉴클레오솜 중심의 위치(즉, 최대 뉴클레오솜 보호를 갖는 좌위)(63, 90, 98)를 예측하는 데 대체로 초점을 둔 이전의 연구를 능가하는 이점을 제시한다.
chr12p11.1 영역 외에도, 활성 프로모터 주변의 뉴클레오솜은 또한, 양호하게 배치되는 것으로 알려져 있다(69). 활성 프로모터 주변의 단편화 패턴을 알아보기 위해, 인간 하우스키핑 유전자의 목록이 문헌(62)으로부터 입수되었다.
도 26c는 하우스키핑 유전자의 활성 프로모터 주변의 혈장 DNA 커버리지 및 말단 신호를 도시한다. 왓슨 가닥 상에 위치한 하우스키핑 유전자에 대한 혈장 DNA 커버리지(2660), U 종결 신호(2662), 및 D 종결 신호(2664)가 제시된다. X-축은 하우스키핑 유전자의 전사 시작 부위(TSS)에 비한 게놈 좌표이다. Y-축은 혈장 DNA 커버리지(2660), U 종결 신호(2662), 및 D 종결 신호(2664)의 정규화된 밀도이다. TSS는 뉴클레오솜 어레이의 2개 세트 사이에 존재하는 개방 염색질 영역(2670)의 중심에서 제시된다.
크릭 가닥 상에 위치한 하우스키핑 유전자는 거의 동일하게 반영된 패턴을 보여주었다. 혈장 DNA 커버리지(2660)는 프로모터 주변에서 "V" 모양 패턴을 보여주었다. 그러나, 말단 프로파일(2662 및 2664)은 U 말단과 D 말단 사이에서 강한 주기성 및 위상화된 거리를 보여주었으며, 이는 전사 시작 부위(TSS) 주변의 뉴클레오솜-결실 영역 및 부근의 잘-배치된 뉴클레오솜 어레이와 일치하였다. 게다가, TSS와 +1 뉴클레오솜(2680)(즉, TSS의 제1 뉴클레오솜 다운스트림) 사이의 약 60 bp 거리가 관찰될 수 있었으며, 이는 인간(69)에서 캐노니컬(canonical) 유전자 구조와 일치하였다.
더욱이, 본 발명자들은 또한, 이러한 뉴클레오솜-결실 패턴이 없는 불활성 프로모터 주변에서 단편화 패턴을 조사하기 위해 발현 아틀라스(73)로부터 주요 인간 체세포 조직에서 발현되지 않은 유전자의 목록을 도출하였다.
도 26d는 불활성 프로모터 주변의 혈장 DNA 커버리지 및 말단 신호를 도시한다. 불활성 프로모터 주변에서, 혈장 DNA 말단은 고르게 분포되는 것으로 밝혀졌고, 이들 비발현된 유전자의 프로모터 주변에서 임의의 특이적인 뉴클레오솜 위치화 패턴을 보여주지 않았다. 이에, 특정 유형의 세포의 비-발현된 유전자의 프로모터는 불활성이고, 개방 염색질 영역을 나타내는 구조를 갖지 않는다. 이들 결과는, 미구균(micrococcal) 뉴클레아제 또는 트랜스포자제 분해 후 DNA 단편 말단이 연구된 뉴클레오솜 위치화에 대한 이전의 연구와 일치하였다(96, 95). 종합하자면, 본 발명자들의 결과는, 상이하게 위상화된 혈장 DNA 단편 말단이 활성 프로모터에서 뉴클레오솜 위치화 패턴을 사실상 알려줄 수 있을 것임을 시사하였다.
2. 조직-특이적 개방 염색질 영역에서 상이하게 위상화된 혈장 DNA 단편 말단
개방 염색질 영역은 부족한 뉴클레오솜을 중심에 갖는 것으로 알려져 있고 잘-위상화된 뉴클레오솜 어레이(63, 95)의 측면에 존재하는 조절 요소이다. 따라서, 본 발명자들은, 이러한 영역으로부터 유래된 cfDNA가 또한, 상이하게 위상화된 단편 말단 신호를 나타낼 것임을 가정하였다. 그러므로, 본 발명자들은 우선, T-세포 및 간에 의해 공유된 보편적인 개방 염색질 영역을 조사하였으며, 이들 조직은 다양한 임상 시나리오에서 혈장 DNA 풀에 대한 중요한 기여인자임을 고려한다. 그러므로, T-세포로부터 유래된 DNA는 건강한 개체(84)에서 혈장 DNA의 주요 공급원인 조혈계(103)로부터 방출된 혈장 DNA의 일례이다. 간은 건강한 개체, 간 이식 수혜자 및 간암 환자에서 혈장 DNA의 또 다른 주요 공급원이다(83, 64, 77).
본 발명자들은 RoadMap Epigenomics 프로젝트(93) 및 ENCODE 프로젝트(104)(재료 및 방법 참조)로부터 T-세포 및 간에 대한 개방 염색질 데이터를 입수하였다. 본 발명자들은 T-세포 및 간에 의해 공유된 개방 염색질 영역을 보편적인 개방 염색질 영역으로서 식별하였다. 본 발명자들은 풀링된 혈장 DNA 데이터에서 이들 영역 상에서 단편화 분석을 수행하였다.
도 27a, 도 27b 및 도 27c는 본 발명의 구현예에 따른 풀링된 건강한 비-임신 대상체에서 혈장 DNA 단편화 패턴을 도시한다. 게놈 커버리지와 함께 업스트림 및 다운스트림 종결 신호를 사용하여, 개방 염색질 영역에서 그리고 그 부근에서의 DNA 단편화를 분석하였다.
도 27a는 T-세포 및 간세포에 의해 공유된 보편적인 개방 염색질 영역에서의 패턴을 도시한다(추측된 뉴클레오솜 위치화 또한, 플롯화되었음). X-축은 보편적인 개방 염색질 영역의 중심에 대한 상대 위치이다. Y-축은 게놈 커버리지(2705), 업스트림 종결 신호(2707), 및 다운스트림 종결 신호(2709)의 정규화된 밀도이다. 개방 염색질 영역(2710)은 어느 쪽 면 상에서 2개의 뉴클레오솜과 함께 상기에서 제시된다. 커버리지와 말단 신호는 둘 다 이들의 상응하는 총 신호로 나누어서 정규화된 다음, 1000의 상수 숫자 인자(constant numeric factor)에 의해 증폭되어, 커버리지 및 말단 신호의 평균값은 5로 균일하게 조정되었다. 이러한 정규화는 개방 염색질 영역(즉, 도 27 내지 29) 주변의 커버리지 및 말단 신호를 보여주는 모든 도면에 적용되었다.
다운스트림 피크는 뉴클레오솜의 다운스트림 말단과 일치하고, 업스트림 피크는 뉴클레오솜의 업스트림 말단과 일치한다. 2개 피크 사이의 차이의 정도는, 2개의 뉴클레오솜 사이에 링커가 존재하는지 또는 개방 염색질 영역이 존재하는지의 여부를 나타낸다.
도 27a에 도시된 바와 같이, 커버리지 불균형 및 상이하게 위상화된 단편 말단을 포함하는 혈장 DNA의 특징적인 단편화 패턴이 관찰될 수 있었다. 커버리지 불균형은 좌표 0, 즉, 보편적인 개방 염색질 영역의 중심에서 커버리지 딥에 의해 예시된다. 상이하게 위상화된 단편 말단은 링커 영역(2716)에 대한 피크 사이에서 작은 분리(예를 들어, 2712), 및 개방 염색질 영역(2710)에 대한 더 큰 분리(예를 들어, 2714)로서 제시된다. 이들 결과는 개방 염색질 영역의 중심에서 뉴클레오솜-결실 영역 및 이웃하는 잘-위상화된 뉴클레오솜의 존재이다. 이들 결과는, 상이하게 위상화된 혈장 DNA 단편 말단이 개방 염색질 영역에서 뉴클레오솜 위치화 패턴을 알려줄 수 있을 것임을 보여주었다.
도 27b는 배아 줄기세포(ESC)-특이적 개방 염색질 영역에서의 패턴을 도시한다. 음성 대조군으로서, 본 발명자들은 배아 줄기세포(ESC)에 특이적인 개방 염색질 영역 주변의 혈장 DNA 단편화 패턴을 분석하기 위해 동일한 데이터세트를 사용하였다. 본 발명자들은 어떠한 혈장 DNA도 건강한 성인에서 ESC로부터 나오지 않을 것임을 추론하였다. 사실상, 본 발명자들은, 뉴클레오솜 위치화 패턴(예를 들어, 개방 염색질 영역의 중심에서 뉴클레오솜-결실)은 ESC-특이적인 개방 염색질 영역에서 관찰될 수 없었음을 밝혀내었다.
본 발명자들은 추가로, cfDNA가, 상응하는 조직이 DNA를 혈장에 기여하는 개방 염색질 영역에서 단편화 패턴을 단지 보여줄 것임을 가정하였다. 이러한 가설을 시험하기 위해, T-세포 및 간 외에도, 본 발명자들은 5개의 부가적인 주요 인간 조직(즉, 태반, 폐, 난소, 유방 및 소장; 하기 재료 및 방법 섹션 참조)에 대한 조직-특이적 개방 염색질 영역을 도출하였다. 이들 조직의 선택은, 이들이 선택된 임상 시나리오에서 DNA를 혈장에 기여할 것이라는 데이터 이용성 및 이전의 지식에 기초하였다. 이전의 연구에서, 연구자들은, 태반-유래, 폐-유래, 난소-유래, 및 유방-유래 DNA가 임신한 여성, 폐암 환자, 난소암 환자 및 유방암 환자의 혈장 각각에서 발견될 수 있을 것임을 보여주었다(82, 58, 59, 66, 88). 게다가, 결장 DNA는 결장직장암 환자의 혈장에서 발견될 수 있었다(99). 결장 조직에 대해서는 공개적으로 접근 가능한 개방 염색질 데이터가 없으므로, 본 발명자들은 본 연구에서 소장으로부터의 데이터를 사용하여 위장계를 나타내었고 소장-특이적 개방 염색질 영역을 결장에 대한 대리물로서 간주하였다. 이들 개방 염색질 영역은 이후에 "창자-특이적"으로서 언급되었다. 본 발명자들은, 본 발명자들의 결정이 소장 및 결장의 후생학적 프로파일이 많은 유사성을 공유하기 때문에 정당화되었다(93).
종합하여, 약 26,000개의 조직-특이적 개방 염색질 영역이 각각의 조직 유형(범위: 7,540 내지 55,537)에 대해 수득되었다. 조직-특이적 개방 염색질 영역은 이후의 섹션에 기재된 바와 같이 식별될 수 있다. 그 후에, 본 발명자들은 건강한 개체의 혈장에서 이들 조직-특이적 개방 염색질 영역에서 혈장 DNA 단편화 패턴을 조사하였다.
도 28a 내지 도 28f는 본 발명의 구현예에 따른 건강한 대상체에서 조직-특이적 개방 염색질 영역에서 혈장 DNA 단편화 패턴을 도시한다. 각각의 도면은 하나의 조직 유형: 도 28a T-세포; 도 28b 간; 도 28c 태반; 도 28d 폐; 도 28e 난소; 도 28f 유방; 도 28g 창자에 상응하는 조직-특이적 개방 염색질 영역으로부터의 결과를 도시한다. X-축은 개방 염색질 영역의 상응하는 중심에 비한 위치를 보여준다. Y-축은 게놈 커버리지, U 말단 및 D 말단에 대한 정규화된 밀도이다.
예상된 바와 같이, 혈장 DNA는 다른 조직-특이적 개방 염색질 영역에서가 아니라 T-세포-특이적 및 간-특이적 개방 염색질 영역에서 뉴클레오솜-결실 및 양호하게-위상화된 뉴클레오솜 어레이를 보여주었다. 양호하게-위상화된 뉴클레오솜 어레이는, 상기 뉴클레오솜의 위치가 동일한 조직 유형의 거의 모든 세포에서 매우 재현 가능하고 예측 가능한 게놈에서의 영역을 지칭할 수 있다. 이들 결과는, 조혈계 및 간이 건강한 대상체에서 혈장 DNA의 주요 기여인자라는 사실과 일관되었다(84, 102, 78).
C. 혈장 DNA 단편화 패턴의 정량화
개방 염색질 영역 주변에서의 혈장 DNA 단편화 패턴의 정량화가 조사되었다. 조직-특이적 개방 염색질 영역 주변에서 혈장 DNA 단편화 패턴을 정량화하기 위해, 본 발명자들은 중심에서의 뉴클레오솜-결실 신호가 이 패턴의 주요 특징 중 하나였기 때문에 상기 신호에 초점을 맞추었다(69). 이러한 뉴클레오솜-결실 신호에서, 업스트림(U) 및 다운스트림(D) 말단은 개방 염색질 영역(도 27c)의 중심으로부터 멀리 상이한 방향에서 오프셋(예를 들어, 60 bp)에서의 최고 판독물 밀도를 나타내었다.
도 27c는 OCF(배향-인지 cfDNA 단편화) 값의 개념의 예시이다. X-축은 개방 염색질 영역의 중심에 대한 상대 위치이다. Y-축은 업스트림 종결 신호(2727) 및 다운스트림 종결 신호(2729)에 대한 정규화된 밀도를 보여준다. 이러한 분석은 개방 염색질 영역의 중심에서 U 말단 및 D 말단에 초점을 두고, 조직-특이적 개방 염색질 영역에서의 OCF 값으로서 음영 영역(2737 및 2739)에서의 U 신호와 D 신호(2727 및 2729) 사이의 분리값(예를 들어, 차이 또는 비)을 측정한다.
당업자가 알 수 있듯이, D 말단 피크는 좌측면에 있는 한편, U 말단 피크는 우측면에 있다. 도 28a 내지 도 28g 및 다른 것들에서 알 수 있듯이, 조직 유형의 존재는 업스트림 신호와 다운스트림 신호 사이의 위상차와 관련이 있다. 이러한 위상차는 피크의 위치의 차이에 대한 정보를 사용하여 측정될 수 있으며, 이는 U 말단 및 D 말단을 측정하기 위해 특정 게놈 위치를 제공할 수 있다. 이러한 위치 차이는 다운스트림 위치보다 하나의 위치 또는 위치 윈도우(예를 들어, 영역(2737))에서 발생하는 더 많은 업스트림 말단을 초래할 것이다. 예를 들어, 영역(2737)에서, 업스트림 피크(2747)는 D 말단 신호(2757)보다 해당 영역에서 더 많은 U 말단에 상응한다. 유사하게는, 영역(2739)에서, 업스트림 피크(2749)는 D 말단 신호(2759)보다 해당 영역에서 더 많은 D 말단에 상응한다. 대부분의 조직-특이적 개방 염색질 영역이 대략 유사한 크기라는 점을 고려하여, 상기 영역은 다양한 조직에 대한 중심에 비해 대칭적인 위치에서 선택될 수 있다.
일부 예에서, 위상차는 하기와 같이 피크 주변의 2개의 윈도우(예를 들어, 20 bp)에서 U 말단 및 D 말단의 판독물 밀도 차이에 의해 정량화된다:
Figure pct00001
피크는 개방 염색질 영역의 중심으로부터의 거리이고, 빈은 해당 영역의 폭이다. 도 27c에 도시된 바와 같이, 피크는 중심으로부터 60개 염기이고, 폭은 약 10개 염기이다.
이 클래스의 매개변수는 OCF (배향-인지 cfDNA 단편화) 값으로 지칭된다. 다양한 구현예에서, 하나 또는 둘 모두의 용어가 제시될 수 있고, 피크 오프셋에 대한 상이한 값이 사용될 수 있다. 일부 실시에서, 본 발명자들은 (비제한적으로) 60 bp를 피크로서 그리고 10 bp를 정량화를 위한 빈 크기(bin size)로서 사용하였다. 피크 오프셋에 대한 다른 예시적인 값은 40, 45, 50, 55, 65, 70, 및 75 bp이다. 윈도우에 대한 다른 예시적인 값은 2, 3, 4, 5, 6, 7, 8, 9, 15, 20, 25, 및 30 bp이다. 하나의 피크는 다운스트림 피크로서 식별될 수 있으며, 이때 더 많은 다운스트림 종결 위치가 예상된다. 또 다른 피크는 업스트림 피크로서 식별될 수 있으며, 이때 더 많은 업스트림 종결 위치가 예상된다. 각각의 사례에 대해, OCF 값은 이 연구에서 조사된 7개의 조직 유형에 대해 이들의 조직-특이적 개방 염색질 영역을 별도로 사용하여 계산되었다.
D. 적용
이들 상기 결과는, 상이하게 위상화된 혈장 DNA 단편 말단이 cfDNA의 조직 기원을 추론하는 데 사용될 수 있음을 보여준다. 그리고, 이러한 결과는, cfDNA 단편화 프로파일이 개방 염색질 영역에서 뉴클레오솜 위치화와 관계를 가짐을 보여준다. 추가의 결과는, 특정 조직-특이적 개방 염색질 영역에 대한 상이하게 위상화된 혈장 DNA 단편 말단이 조직 유형에서 병태를 검출하는 데 사용될 수 있음을 보여준다. 혈장 이외의 다른 세포-무함유 시료가 또한 사용될 수 있다.
1. 상이하게 위상화된 혈장 DNA 단편 말단의 정량화
혈장 DNA 풀에서 다양한 조직의 상대 기여도를 추론하는 데 있어서의 잠재성을 알아보기 위해, 본 발명자들은 조직-특이적 개방 염색질 영역에서 업스트림(U) 단편 말단 및 다운스트림(D) 단편 말단의 위상차를 측정하기 위한 신규 접근법을 개발하였다. 본 발명자들은 일반적으로, 이러한 전략을 배향-인지 cfDNA 단편화(OCF) 분석으로 지칭하며, 이때, 다양한 OCF 값이 사용될 수 있다. OCF 값은 관련 개방 염색질 영역의 중심에 비해 오프셋 위치에서 U 말단 신호 및 D 말단 신호의 차이에 기초할 수 있으며, 이는 관심 조직에서 발생한다. 관심 조직으로부터 더 많은 DNA가 있을수록, 예를 들어, 하나 이상의 오프셋 영역에서 다운스트림 피크(2749)와 U 말단 신호(2759) 사이의 차이와 같은 차이가 커질 것이다.
도 27a에 도시된 바와 같이, DNA를 혈장 내로 기여한 조직에 대해, 당업자는 상응하는 조직-특이적 개방 염색질 영역의 중심에서 뉴클레오솜-결실 영역에서 많은 혈장 DNA 단편화가 발생하였음을 예상할 것이다. 이러한 영역에서, U 말단 및 D 말단은 우측면 및 좌측면 각각에 위치한 U 말단 및 D 말단에 대한 피크와 함께 중심으로부터 약 60 bp에서 최고 판독물 밀도(즉, 피크)를 나타내었다. 일부 예에서, 본 발명자들은 상응하는 조직에 대한 OCF 값으로서 조직-특이적 개방 염색질 영역에서 피크(예를 들어, 도 27c의 음영 영역) 주변의 20 bp 윈도우에서 U 말단 신호와 D 말단 신호의 차이를 측정하였다. 대조적으로, 이러한 패턴은, 상응하는 조직이 DNA를 혈장에 기여하지 않은 조직-특이적 개방 염색질 영역에 대해서는 예상되지 않을 것이다(예를 들어, 도 27b의 ESC).
그 결과, DNA를 혈장 내로 기여한 조직에 대해, 상응하는 조직-특이적 개방 염색질 영역에 대한 양성 OCF 값이 예상될 것이다. 그렇지 않다면, OCF 값은 제로(0) 또는 음이어야 한다. 당연하게도, OCF 값의 상이한 정의는 반대의 관계를 가질 수 있다(즉, 시험된 조직이 존재하는 경우 음성값이 예상됨). 지표인 양성값을 이용한 정의를 사용하여, 음성값은 노이즈인 말단 신호로 인한 것일 수 있으며, 이는 시퀀싱 편향(예를 들어, GC 편향)과 관련이 있어서, 이들이 개방 염색질 구조를 갖지 않는 경우 이들 영역에서 약간 더 많은 DNA를 초래할 수 있다.
도 30은 본 발명의 구현예에 따른 건강한 비-임신 대상체 코호트에서 다양한 조직 중 혈장 DNA 단편화 패턴(OCF 값)의 정량화를 도시한다. 도 31은 본 발명의 구현예에 따른 건강한 개체에서 조직 유형에 대한 OCF 값의 표를 도시한다.
32명의 건강한 개체에서 7개의 조직 유형에 대한 OCF 값은 도 30 및 도 31에 도시된다. 모든 대상체는 T-세포 및 간에 대해 양의 OCF 값을 보여주었으며; 게다가, T-세포에 대한 OCF 값은 모든 사례에서 간에 대한 OCF 값보다 더 높았다(P<0.001, 윌콕슨 부호-순위 검정(Wilcoxon signed-rank test)). 다른 조직 유형에 대한 OCF 값은 훨씬 더 낮았고, 0에 근접하거나 0 미만이었다. 이들 결과는, 건강한 개체에서 대부분의 혈장 DNA가 조혈계 및 간으로부터 기원하였으며 이때 조혈계가 가장 우세한 공급원임을 보여준 이전의 데이터와 일관되었다(84, 102). 그러므로, 본 발명자들의 결과는 cfDNA 풀로의 상이한 조직의 상대 기여도를 측정하는 데 있어서 OCF 값의 유용성을 보여주었다.
2. 비침습적 산전 검사에서의 적용
비침습적 산전 검사에서 본 발명자들의 접근법의 유용성을 실증하기 위해, 본 발명자들은 이전의 연구(55)로부터 모체 혈장 DNA 시퀀싱 데이터를 검색하였다. 이전에 논의된 바와 같이, 임신 여성의 혈장 내 순환형 태아 DNA는 대부분 태반으로부터 기원하였다(58). 도 32a 내지 도 32d는 본 발명의 구현예에 따른 비침습적 산전 검사에서 혈장 DNA 단편화 패턴 분석의 적용을 도시한다. 도 33은 본 발명의 구현예에 따른 임신 대상체에서 OCF 값 조직 유형의 표를 도시한다.
도 32a는 제3-삼분기 임신 사례에서 태반-특이적 개방 염색질 영역에서 혈장 DNA 단편화 패턴을 도시한다. 축은 유사한 플롯과 유사하다. 건강한 비-임신 개체(도 27a)에서의 보편적인 개방 염색질 영역과 유사한 강한 뉴클레오솜-위치화 패턴이 관찰될 수 있었다. 이들 관찰은, 혈장 DNA 단편화 패턴 분석이 모체 혈장에서 태반 DNA의 존재를 사실상 검출할 수 있었음을 시사하였다.
나아가, 본 발명자들은 26개의 제1-삼분기(first-trimester) 임신 사례(55)의 코호트로부터의 이미 공개된 데이터를 사용하여 혈장 DNA 단편화 패턴을 조사하였다. 이 코호트에서 각각의 사례는 남자 태아를 임신하고 있었다. 그러므로, 혈장 DNA에서 태아 DNA 분율은 Y 염색체에 정렬된 판독물을 분석함으로써 결정될 수 있었다. 본 발명자들은 태반(임신 사례의 경우 더 높음) 및 T-세포에 대한 혈장 DNA 단편화를 분석하였으며, 이는 모친으로부터의 백분율이 저하됨에 따라 임신에서 감소해야 한다.
도 32b는 건강한 비-임신 대상체와 임신 여성 사이에서 T-세포에 대한 OCF 값의 비교를 도시한다. 도 32c는 건강한 비-임신 대상체와 임신 여성 사이에서 태반에 대한 OCF 값의 비교를 도시한다. 총 25,223개의 개방 염색질 영역이 T-세포에 사용되고, 55,537개가 태반에 사용되었다. 임신하지 않은 건강한 개체로부터의 결과와 비교하는 경우, T-세포에 대한 OCF 값은 임신 시료에서 약간 저하되었고, 태반에 대한 OCF 값만 유의한 상승을 보여주었다(도 32b 및 도 32c; P<0.001, 만-휘트니 순위합 검정; 도 33). 태반에 대한 OCF 값만 유의한 상승을 보여주었다(도 32c; P<0.001, 만-휘트니 순위합 검정). 그러므로, OCF 값과 태반 DNA 사이의 상관관계는, OCF 값이 세포-무함유 시료에서 태아 DNA 분율을 측정하는 데 사용될 수 있음을 나타낸다.
도 32d는 26명의 임신 여성의 코호트에서 태반 및 태아 DNA 분율에 대한 OCF 값 사이의 상관관계를 도시한다. 태반 및 태아 DNA 분율에 대한 OCF 값 사이에서 강한 양의 상관관계가 관찰되었다(도 32d; R=0.77, P<0.001, 피어슨 상관관계). 주목할 만하게는, 이러한 R 값은 본 발명자들의 이전의 태아-특이적 바람직한 말단 부위 접근법에 의해 수득된 것(0.66이었음)(55)보다 더 높았다. 태아 DNA 분율은 비침습적 산전 검사의 성능을 지배하는 가장 중요한 매개변수 중 하나이다. 그러므로, 이들 결과는, 비침습적 산전 검사에서 상이하게 위상화된 혈장 DNA 단편 말단의 잠재적인 유용성을 실증하였다.
3. 간 이식 및 간세포암종 환자에서의 적용
간 조직의 기여도를 예측하는 데 있어서 혈장 DNA 단편화 패턴 분석의 성능을 조사하기 위해, 이전에 보고된 14명의 간 이식 환자 코호트로부터의 혈장 DNA 시퀀싱 결과가 검색되었다(64). 각각의 사례에 대해, 공여자와 수혜자 둘 다, 공여자-특이적 정보 SNP 부위가 식별되어 혈장에서 공여자-DNA 분율을 추론할 수 있도록 유전자형 분석되었다(64). 공여자-특이적인 정보적 SNP 부위는 수혜자에서가 아니라 공여자에게 특이적인 대립유전자를 가진다. 도 34는 본 발명의 구현예에 따른 간 이식 환자에서 OCF 값 조직 유형의 표를 도시한다. 마지막 컬럼은 공여자-특이적인 정보적 SNP 부위를 사용하여 결정된 바와 같이 공여자 DNA 분율을 보여준다. 간 및 공여자 DNA 분율에 대한 OCF 값 사이에서 상관관계가 존재한다.
도 35a는 간 이식 환자에서 간 및 공여자 DNA 분율에 대한 OCF 값 사이에서의 상관관계를 도시한다. 혈장 DNA 단편화 패턴 분석이 이 데이터세트에서 수행된 경우, 간 및 공여자-DNA 분획에 대한 OCF 값 사이에서 양의 상관관계가 관찰될 수 있었다(; R=0.74, P=0.0022, 피어슨 상관관계).
게다가, 본 발명자들은 또한, 이전에 공개된 간세포암종(HCC) 환자(70) 코호트로부터의 혈장 DNA 시퀀싱 데이터를 검색하였다. 이들 HCC 환자에 대해, 카피 수 이상 분석(70)에 의해 혈장 DNA 내 종양 DNA 분율을 추정하였지만, 다른 기법, 예컨대 종양 특이적 대립유전자가 사용될 수 있었다. 이러한 분석을 통해, 74개의 HCC 혈장 시료는 혈장에서 종양 DNA의 존재의 증거를 보여주었다. 주목할 만하게는, 이들 HCC 환자에서, 종양-유래 cfDNA 분자는 이들 환자가 단지 간에서 종양을 가졌기 때문에(102, 64) 간으로부터 기원한 것으로 간주되었다.
도 35b는 HCC 사례에서 종양 DNA 분율을 도시한다. 도 36a 내지 도 36d는 본 발명의 구현예에 따른 간세포암종 환자에서 OCF 값 조직 유형의 표를 도시한다. 간 및 종양 DNA 분율에 대한 OCF 값 사이에서 양의 상관관계가 관찰되었다(; R=0.36, P=0.0017, 피어슨 상관관계).
더욱이, 본 발명자들은 종양 DNA 분율에 기초하여 HCC 환자를 2개의 서브그룹: 10% 미만의 종양 DNA 부하를 갖는 것들을 함유하는 "저 종양 DNA 부하" 그룹 및 나머지 사례에 대해 "고 종양 DNA 부하" 그룹으로 분리하였다. 이러한 분리는, 간이 건강한 대상체에서 약 10%의 혈장 DNA를 이룬다는 지식에 기초하였다(102).
도 35c는 건강한 대상체와 HCC 환자 중에서 T-세포에 대한 OCF 값의 비교를 도시한다(혈장 내 종양 DNA 부하에 기초하여 2개 그룹으로 분리됨). 도 35c에 도시된 바와 같이, 건강한 대싱체와 비교한 경우, T-세포에 대한 OCF 값은 두 HCC 환자 그룹에 대해 유의하게 저하되었다(저 종양 DNA 부하 그룹 및 고 종양 DNA 부하 그룹 각각에 대해 P=0.0035 및 P<0.001, 만-휘트니 순위합 검정). 본원에 설명된 바와 같이, T-세포에 의한 기여도는, 기여도에서 유의한 변화가 다른 조직; 이 사례에서는 간으로부터 발생하는 경우 낮아질 것이다.
도 35d는 건강한 대상체와 HCC 환자 중에서 간에 대한 OCF 값의 비교를 도시한다(혈장 내 종양 DNA 부하에 기초하여 2개 그룹으로 분리됨). 도 35d에서 간에 대한 OCF 값은 저 종양 DNA 부하 그룹 환자에서 통계학적 차이를 나타내지 않은 한편(P=0.080, 만-휘트니 순위합 검정), 고 종양 DNA 부하 그룹 환자에서 유의하게 상승되었다(P<0.001, 만-휘트니 순위합 검정). 종합하자면, 이들 결과는, 본 기법이 간 이식 모니터링 및 암 검사에서 적용됨을 보여준다.
4. 결장직장암 환자 및 폐암 환자에서의 적용
11명의 결장직장암(CRC) 환자의 코호트를 이 연구에 새로 동원하였다. 각각의 사례에 대해, 혈장 DNA는 비설파이트 시퀀싱되어(재료 및 방법 섹션 참조), 결장 기여도는 혈장 DNA 조직 맵핑 접근법(102)을 사용하여 결정될 것이다. 이들 결과는 본 발명자들이 BS-seq 데이터에서 cfDNA 단편화 패턴 분석의 사용을 조사할 수 있게 하였다. 이러한 개체의 혈장 DNA에서, 본 발명자들은 창자-특이적 개방 염색질 영역에서 특징적인 단편화 패턴을 관찰하였으며, 이는 중심에서의 뉴클레오솜-결실 및 그 부근에서의 잘-위상화된 뉴클레오솜 어레이에 상응하였다.
도 29a는 본 발명의 구현예에 따른 1명의 CRC 환자에서 창자-특이적 개방 염색질 영역에서 혈장 DNA 단편화 패턴을 도시한다. 게놈 커버리지(2905)는, 시험된 개방 염색질 영역을 갖는 조직이 존재하는 경우, 도 27a, 도 28a 및 도 28b에서와 유사한 방식으로 개방 염색질 영역의 중심에서 딥(dip)을 보여준다. 나아가, U 종결 신호(2907) 및 D 종결 신호(2909)는 양성 OCF 값을 초래할 위상차(phasing difference)를 보여준다.
도 37a는 건강한 대상체와 CRC 환자 사이에서 T-세포에 대한 OCF 값의 비교를 도시한다. 도 37b는 건강한 대상체와 CRC 환자 사이에서 창자에 대한 OCF 값의 비교를 도시한다. 도 39는 본 발명의 구현예에 따른 결장직장암 환자에서 OCF 값 조직 유형의 표를 도시한다. 결장 DNA 기여도 또한, 도 39에 제공된다.
T-세포에 대한 OCF 값은 CRC 환자에 대해 감소되는데, 또 다른 조직으로부터의 기여도 증가가 존재하는 경우 예상될 바와 같다. 도 37b는 창자 개방 염색질 영역(28,456개가 사용되었음)에 대한 OCF 값에서 상응하는 증가를 도시한다. 이에, 건강한 대상체와 비교한 경우, T-세포에 대한 OCF 값은 유의하게 저하된 한편, 창자에 대한 OCF 값은 CRC 환자에서 유의하게 상승되었다(도 37a 및 도 37b; 둘 다 P<0.001, 만-휘트니 순위합 검정).
도 37c는 CRC 환자에서 창자 및 결장 DNA 분율(혈장 DNA 조직 맵핑 방법에 의해 추론됨)에 대한 OCF 값 사이의 상관관계를 도시한다. 결장 기여도는 혈장 DNA 조직 맵핑 접근법(102)을 사용하여 결정되었다. 차장 및 결장 기여도에 대한 OCF 값 사이의 양의 상관관계(혈장 DNA 조직 맵핑 접근법(102)을 사용하여 측정된 바와 같음)가 관찰될 수 있었다(도 37c; R=0.89, P<0.001, 피어슨 상관관계).
게다가, 9명의 폐암 환자에 대한 혈장 DNA 시퀀싱 데이터는 Snyder 등(98)에 의해 생성된 데이터세트로부터 검색되었다. 본 발명자들은, 혈장 DNA가 이들 환자에서 폐-특이적 개방 염색질 영역에서 잘-위상화된 뉴클레오솜 어레이의 측면에 존재하는, 특징적인 단편화, 즉, 중심 뉴클레오솜-결실 영역의 상이하게 위상화된 말단 시그니처를 보여주었음을 밝혀내었다.
도 29b는 본 발명의 구현예에 따른 1명의 폐암 환자에서 폐-특이적 개방 염색질 영역에서 혈장 DNA 단편화 패턴을 도시한다. 게놈 커버리지(2955)는, 시험된 개방 염색질 영역을 갖는 조직이 존재하는 경우, 도 27a, 도 28a 및 도 28b에서와 유사한 방식으로 개방 염색질 영역의 중심에서 딥(dip)을 보여준다. 나아가, U 종결 신호(2957) 및 D 종결 신호(2959)는 양성 OCF 값을 초래할 위상차(phasing difference)를 보여준다.
도 37d는 건강한 대상체와 폐암 환자 사이에서 T-세포에 대한 OCF 값의 비교를 도시한다. 도 37e는 건강한 대상체와 폐암 환자 사이에서 폐에 대한 OCF 값의 비교를 도시한다. 도 38은 본 발명의 구현예에 따른 폐암 환자에서 OCF 값 조직 유형의 표를 도시한다.
T-세포에 대한 OCF 값은 폐암 환자에 대해 감소되는데, 또 다른 조직으로부터의 기여도 증가가 존재하는 경우 예상될 바와 같다. 도 37e는 폐 개방 염색질 영역(19,701개가 사용되었음)에 대한 OCF 값에서 상응하는 증가를 도시한다. 이에, T-세포에 대한 OCF 값은 저하된 한편, 폐에 대한 OCF 값은 건강한 개체와 비교하여 상승되었다(T-세포 및 폐 각각에 대해 P<0.001 및 0.025, 만-휘트니 순위합 검정).
E. 배향-인지 기법
상기 기재된 바와 같이, 개방 염색질 영역의 배향-인지 분석을 사용한 뉴클레오솜 위치화 프로파일링 기법이 제공되며, 뿐만 아니라 이러한 단편화 패턴 분석에 의한 혈장 DNA 내에서의 다양한 조직의 상대 기여도의 정량적 결정이 제공된다. 본 발명자들은 또한, 비침습적 산전 검사, 기관 이식 모니터링, 뿐만 아니라 암 검사에서 조직-특이적 개방 염색질 영역(들)의 배향-인지 분석을 사용하는 진단 능력을 실증하였다. 본 발명자들은, 혈장 DNA 단편화 패턴 분석이 뉴클레오솜-결실 영역에서 특징적인 프로파일 및 개방 염색질 영역 주변에서 잘-위상화된 뉴클레오솜 어레이를 가졌음을 보여주었다.
1. 배향-인지 분석의 실시예 결과의 요약
CfDNA의 조직-기원을 추적하는 능력은 액체 생검에서, 특히 암 환자에서 종양-기원을 예측하는 데 있어서 큰 관심을 갖는다. 본 발명자들은, 암 환자에서 혈장 DNA 단편화 패턴을 정량화함으로써, T-세포에 대한 OCF 값이 저하될 것인 한편 종양의 조직-기원에 대한 OCF 값이 증가할 것임을 보여주었다(예를 들어, 도 32b, 도 32c, 도 35c, 도 35d, 도 37a, 도 37b, 도 37d 및 도 37e). 이들 관찰은, 이들 환자에서, 종양 조직(및 종양-주변 조직)이 DNA를 혈장 내로 방출시키며, 이는, (i) 암의 해당 기원 조직으로부터의 기여도를 증가시킬 것이고, (ii) 조혈계의 기여도를 희석시킬 것이라는 사실과 일치하였다. 게다가, CRC 사례(도 37c)에서의 결과는, 본 발명자들의 접근법이 혈장 DNA 조직 맵핑 방법(102)과 고도로 일치하였음을 보여주었다.
혈장 DNA 단편화 패턴이 비설파이트-전환 DNA 중에서 보존되었음을 주지하는 것이 흥미롭다. 이는, 비설파이트 처리(85) 전에 시퀀싱 어댑터가 먼저 혈장 DNA 분자에 연결되는 본 발명자들의 라이브러리 제조 프로토콜과 부분적으로 관련이 있는 경향이 있다. 일부 구현예는 조직-기원 분석의 성능을 증강시키기 위해 OCF 측정과 메틸화-기초 조직 맵핑 둘 다를 상승작용적 방식으로 사용함으로써 상가값(additive value)을 제공할 수 있다. 본원에서, 본 발명자들은, OCF 분석이 메틸화 분석의 의존 없이 조직-기원 정보를 제공하는 접근법임을 실증하였다. 이는 비용 감축을 제공할 수 있다. 비설파이트 시퀀싱(BS-seq)과 비교하여, 표준 DNA 시퀀싱 실험은 더 저렴하고 더 단순한 프로토콜을 수반한다.
추가의 효율 향상에 관하여, Ulz 등은, 유전자의 발현을 추론하는 데 있어서 혈장 DNA 커버리지 패턴 분석의 잠재성을 실증하였었으며, 암 환자에서 종양의 종양-기원을 드러내었다(105). 그러나, 저자들은, 혈장 내 75% 종양 DNA 분율이 이러한 목적(105)에 필요할 것이라고 추정하였으며, 이는 대부분의 임상 사례에서 달성하기 어려웠다. 대조적으로, 본 기법은 관심 조직으로부터 훨씬 더 낮은 DNA 분율을 갖는 사례에서 작업할 수 있다. 예를 들어, CRC 사례에서, 건강한 개체에서보다 창자에 대한 더 높은 OCF 값은, 도 37a, 도 37b 및 도 39에서 알 수 있듯이 결장 기여도가 단지 5%인 경우 이미 명백하였다. 그러므로, 이들 결과는, 혈장 내 종양 DNA 부하가 높지 않을 상대적으로 초기 암 사례에서 이들 기법이 작동될 수 있음을 시사한다.
구현예는 혈장 DNA를 분석하기 위해 표적 대량 병행 시퀀싱 기법(87)을 이용하여 통합될 수 있을 것이다. 조직-특이적 개방 염색질 영역이 인간 게놈의 매우 작은 비율만 처리하였기 때문에, 이들 영역을 포착하기 위한 혼성화 프로브를 디자인함으로써, 비용이 대체로 감축될 수 있을 것이다.
구현예는 환자에서 질환 또는 질병의 수준을 결정한 후 상기 환자에서 질환 또는 질병을 치료하는 단계를 포함할 수 있다. 치료는 본원에서 언급된 참조문헌에 기재된 임의의 치료를 비롯하여 임의의 적합한 치료법, 약물, 화학치료법, 방사선 또는 수술을 포함할 수 있다. 참조문헌에서의 치료에 대한 정보는 참조에 의해 본원에 포함된다.
2. 조직 유형의 비례 기여도의 결정
도 40은 본 개시내용의 구현예에 따른, 생물학적 시료를 분석하여, 혼합물 내 제1 조직 유형의 비례 기여도의 분류를 결정하는 방법(4000)의 순서도이다. 생물학적 시료는 제1 조직 유형을 포함하는 복수의 조직 유형으로부터의 세포-무함유 DNA 분자의 혼합물을 포함한다. 본원에 기재된 다른 방법과 같이, 방법(4000)은 컴퓨터 시스템을 사용할 수 있다. 제1 조직 유형의 예는 태아 조직, 종양 조직, 및 이식된 기관으로부터의 조직을 포함한다. 방법(4000)의 양태는 방법(2300 및 2400)과 유사한 방식으로 수행될 수 있다.
블록(4010)에서, 제1 조직 유형에 상응하는 하나 이상의 조직-특이적 개방 염색질 영역의 중심으로부터 명시된 거리를 갖는 게놈 위치의 제1 세트가 식별된다. 조직-특이적 개방 염색질 영역은 예를 들어, 간, T-세포, 결장, 난소, 유방 등의 제1 조직 유형의 조직 시료를 분석함으로써 식별될 수 있다. 게놈 위치 세트는 거리의 범위로서 명시될 수 있다. 예로서, 조직-특이적 개방 염색질 영역의 수는 적어도 500, 1000, 2000, 5000, 10,000, 20,000, 30,000, 40,000, 50,000 이상일 수 있다.
예로서, 명시된 거리는 본원에 기재된 바와 같이, 값의 범위(윈도우)를 포함하여 중심으로부터의 +/- 염기쌍일 수 있다. 이에, 명시된 거리는 중심 전의 제1 범위의 거리를 포함하고 중심 후의 제2 범위의 거리를 포함할 수 있다. 이러한 세트는 중심으로부터의 오프셋, 및 상기 오프셋 주변의 윈도우에 의해 정의될 수 있다. 오프셋에 대한 예시적인 값은 40, 45, 50, 55, 60, 65, 70, 및 75 bp이다. 윈도우에 대한 다른 예시적인 값은 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 및 30 bp이다. 범위는 비대칭 또는 대칭일 수 있다.
블록(4020)에서, 대상체의 생물학적 시료로부터 제1 복수의 세포-무함유 DNA 분자가 분석된다. 세포-무함유 DNA 분자의 분석은 상기 세포-무함유 DNA 분자의 두 말단 모두에 상응하는 기준 게놈에서 게놈 위치(종결 위치)를 결정하는 단계를 포함할 수 있다. 상기 분석은 또한, 예를 들어, 기준 게놈에 정의된 바와 같이, 어떤 말단이 게놈 위치에 대한 더 낮은 값을 갖는지에 기초하여 하나의 말단을 업스트림으로서 그리고 다른 말단을 다운스트림으로서 분류하는 단계를 포함할 수 있다. 다양한 정렬/맵핑 절차가 사용되어, 말단의 게놈 위치를 결정할 수 있다. 블록(4020)의 양태는 방법(2300)의 블록(2320)과 유사한 방식으로 수행될 수 있다.
블록(4030)에서, 제1 복수의 세포-무함유 DNA 분자의 제1 수가 게놈 위치의 제1 세트 중 하나에 업스트림 말단을 갖는지 결정된다. 상기 결정은 제1 복수의 세포-무함유 DNA 분자의 분석에 기초하여 수행된다. 제1 세트의 위치가 기준 게놈에서 특정 게놈 좌표로서 정의될 수 있음을 고려하여, 일단 DNA 단편의 서열 판독물(들)이 정렬되면, 업스트림 말단 위치는 상기 제1 세트와 비교되어, 해당 말단 위치가 상기 제1 세트 내에 속하는지의 여부를 결정할 수 있다.
블록(4040)에서, 제1 복수의 세포-무함유 DNA 분자의 제2 수가 게놈 위치의 제1 세트 중 하나에 다운스트림 말단을 갖는지 결정된다. 상기 결정은 제1 복수의 세포-무함유 DNA 분자의 분석에 기초하여 수행된다. 제1 세트의 위치가 기준 게놈에서 특정 게놈 좌표로서 정의될 수 있음을 고려하여, 일단 DNA 단편의 서열 판독물(들)이 정렬되면, 다운스트림 말단 위치는 상기 제1 세트와 비교되어, 해당 말단 위치가 상기 제1 세트 내에 속하는지의 여부를 결정할 수 있다.
블록(4050)에서, 분리값은 제1 수 및 제2 수를 사용하여 계산된다. 분리 값은 각종 방식으로 결정될 수 있고, 비 및/또는 차이를 포함할 수 있다. 분리값은 다수의 기여도로 이루어질 수 있다. 2개의 범위가 사용되는 구현예에서(예를 들어, 제1 조직 유형에 상응하는 조직-특이적 개방 염색질 영역의 중심의 어느쪽 면에서), 분리값은 제1 범위에 대해 제1 방식(예를 들어, 제1 식)으로 결정된 분리값에 대한 제1 기여도, 및 제2 범위에 대해 제2 방식(예를 들어, 제2 식)으로 결정된 분리값에 대한 제2 기여도를 가질 수 있다.
일례에서, 분리값은 예를 들어,
Figure pct00002
에 의해 정의된 바와 같이 OCF 값일 수 있으며, 이때, D는 다운스트림 수이고, U는 업스트림 수이다. 피크 위치는 중심으로부터의 오프셋에 상응할 수 있고, 빈값(bin value)은 피크 위치 주변의 윈도우 크기에 상응한다. 이러한 합계는 각각의 위치에 걸쳐 수행될 수 있다. 이러한 합계는 임의의 순서로, 예를 들어, 하나의 피크에 대한 전체 D 및 해당 피크에 대한 전체 U를 결정하여 수행될 수 있다. 기여도는 각각의 중심에 대해 1개 또는 2개의 피크에 대해 결정될 수 있다. 하나의 피크는 다운스트림 피크로서 식별될 수 있으며, 이때 더 많은 다운스트림 종결 위치가 예상된다. 또 다른 피크는 업스트림 피크로서 식별될 수 있으며, 이때 더 많은 업스트림 종결 위치가 예상된다. 2개의 피크가 사용되는 경우, 2개의 다운스트림 숫자 및 2개의 업스트림 숫자가 예를 들어, 상기 식에서와 같이 결정되고 사용될 수 있다. 추가의 예로서, 분리값은 각각의 위치에 대해, 해당 위치에 사용된 명시된 화학식을 이용하여 예를 들어, 위치가 어떤 피크와 관련이 있느냐에 따라 결정될 수 있으며, 상이한 화학식이 해당 위치에 사용될 수 있다. 그러므로, 제1 세트의 각각의 위치는, 해당 위치에서 업스트림 말단을 갖는 세포-무함유 DNA 단편의 제1 수 및 해당 위치에서 다운스트림 말단을 갖는 세포-무함유 DNA 단편의 제2 수를 포함하는 화학식에 의해 정의되는 기여도를 가질 수 있다.
특정 구현예에서, 제1 범위는 중심보다 50개 내지 70개 염기 미만이고, 제2 범위는 50개 내지 70개 염기이며, 여기서, 분리값은,
Figure pct00003
를 포함하며, 이때, U는 제1 수이고, D는 제2 수이다.
제1 수는 제1 세트 내 위치 중 하나(예를 들어, 제1 범위 또는 제2 범위 내의 특정 위치)에서 값 U일 수 있고, 제2 수는 동일한 위치에서 값 D일 수 있다. 또 다른 예로서, 제1 수는 제1 범위에서 업스트림 말단(예를 들어, 업스트림 또는 다운스트림 피크에 상응함)을 갖는 세포-무함유 DNA의 합계일 수 있고, 제2 수는 동일한 제1 범위에서 세포-무함유 DNA의 수의 합계일 수 있다. 분리값은 각각의 범위로부터 숫자의 쌍을 사용하여 결정될 수 있다. 예를 들어, 제2 범위(예를 들어, 상기 OCF 식에서 제2 가중 기여도(sumamtion contribution)) 내의 위치에서 업스트림 말단을 갖는 세포-무함유 DNA의 제3 수가 결정될 수 있고, 제2 범위 내의 위치에서 다운스트림 말단을 갖는 세포-무함유 DNA의 제4 수가 결정될 수 있다. 분리값에 대한 제2 기여도는 예를 들어, 상기 제공된 바와 같이 제3 수 및 제4 수를 사용하여 결정될 수 있다.
다른 예의 분리값은 차이 대신에 합계의 비를 포함할 수 있다. 예를 들어, 피크 영역에 대한 U 말단의 합계로 나눈 상기 피크 영역 내 D 말단의 합계, 또는 2개의 숫자의 다른 비, 예컨대 분자 또는 분모는 상기 피크 영역에서 어느쪽 말단을 갖는 판독물의 총량이다. 예를 들어, 분리값은 제1 수와 제2 수의 비(ratio)를 포함할 수 있다. 하나 초과의 피크가 사용되는 경우, 비(또는 다른 함수)는 각각의 피크에 대해 상이하게 결정될 수 있다.
블록(4060)에서, 상기 분리값을 제1 조직 유형의 비례 기여도가 알려져 있는 하나 이상의 보정 시료로부터 결정된 하나 이상의 보정값과 비교함으로써 제1 조직 유형의 비례 기여도의 분류가 결정된다. 예는 도 32d에서 제1 조직 유형인 태아 조직에 대해, 도 35a에서 이식된 간 기관으로부터의 공여자 DNA에 대해, 그리고 도 35b에서 제1 조직 유형인 간으로부터의 종양 DNA에 제시된다. 일례로, 비례 기여도의 분류는 명시된 백분율을 초과하는 범위에 상응할 수 있다. 또 다른 예는 암의 존재에 상응할 수 있을 뿐만 아니라 예를 들어 블록(2350)에 대해 다른 예, 뿐만 아니라 본원에 기재된 바와 같이 치료와 같은 다른 작업이 본원에 제공된다. 블록(4060)의 양태는 예를 들어, 분류 및 보정값과의 비교, 뿐만 아니라 이후의 치료 단계를 위한 값에 관하여 블록(2350)과 유사한 방식으로 수행될 수 있다.
3. 병태의 결정
도 41은 본 개시내용의 구현예에 따른, 생물학적 시료를 분석하여, 혼합물 내 제1 조직 유형에 병태가 존재하는지의 여부의 분류를 결정하는 방법(4100)의 순서도이다. 생물학적 시료는 제1 조직 유형을 포함하는 복수의 조직 유형으로부터의 세포-무함유 DNA 분자의 혼합물을 포함한다. 본원에 기재된 다른 방법과 같이, 방법(4100)은 컴퓨터 시스템을 사용할 수 있다. 제1 조직 유형의 예는 종양 조직, 및 이식된 기관으로부터의 조직을 포함한다. 방법(4100)의 양태는 방법(2300, 2400 및 4100)과 유사한 방식으로 수행될 수 있다.
블록(4110)에서, 제1 조직 유형에 상응하는 하나 이상의 조직-특이적 개방 염색질 영역의 중심으로부터 명시된 거리를 갖는 게놈 위치의 제1 세트가 식별된다. 블록(4110)은 도 40의 블록(4010)과 유사한 방식으로 수행될 수 있다.
블록(4120)에서, 대상체의 생물학적 시료로부터 제1 복수의 세포-무함유 DNA 분자가 분석된다. 세포-무함유 DNA 분자의 분석은 상기 세포-무함유 DNA 분자의 두 말단 모두에 상응하는 기준 게놈에서 게놈 위치(종결 위치)를 결정하는 단계를 포함할 수 있다. 상기 분석은 또한, 예를 들어, 기준 게놈에 정의된 바와 같이, 어떤 말단이 게놈 위치에 대한 더 낮은 값을 갖는지에 기초하여 하나의 말단을 업스트림으로서 그리고 다른 말단을 다운스트림으로서 분류하는 단계를 포함할 수 있다. 블록(4120)은 도 40의 블록(4020)과 유사한 방식으로 수행될 수 있다.
블록(4130)에서, 제1 복수의 세포-무함유 DNA 분자의 제1 수가 게놈 위치의 제1 세트 중 하나에 업스트림 말단을 갖는지 결정된다. 블록(4130)은 도 40의 블록(4030)과 유사한 방식으로 수행될 수 있다.
블록(4140)에서, 제1 복수의 세포-무함유 DNA 분자의 제2 수가 게놈 위치의 제1 세트 중 하나에 다운스트림 말단을 갖는지 결정된다. 블록(4140)은 도 40의 블록(4040)과 유사한 방식으로 수행될 수 있다.
블록(4150)에서, 분리값은 제1 수 및 제2 수를 사용하여 계산된다. 블록(4150)은 도 40의 블록(4050)과 유사한 방식으로 수행될 수 있다.
블록(4160)에서, 분리값과 기준값의 비교에 기초하여 병태가 대상체의 제1 조직 유형에 존재하는지의 여부의 분류가 결정된다. 예로서, 블록(4160)은 기지의 분류를 갖는 훈련 시료를 사용하여 결정된 기준값을 사용할 수 있으며, 이의 분리값(예를 들어, OCF)이 측정되었다. 도 37b 및 도 37e는 훈련 시료의 예시적인 세트를 제공하며, 이때, 병태는 특정 조직, 즉 폐로부터의 암이다. 그러므로, 병태는 제1 조직 유형의 암일 수 있다. 암의 수준 또한, 예를 들어, 도 35c 또는 도 35d에 도시된 바와 같이 더욱 구체적으로 결정될 수 있다.
이에, 기준값은 병태를 갖지 않는 하나 이상의 대조군 시료로부터, 및/또는 병태를 갖는 하나 이상의 대조군 시료로부터 결정될 수 있다.
병태의 또 다른 예는 이식된 기관의 거부이다. 이식된 기관이 거부되는 경우, 해당 기관으로부터의 DNA의 분획 농도는 비정상적인 수준까지 증가할 것이다. 병태의 또 다른 예는 제1 조직 유형으로부터의 세포-무함유 DNA의 비정상적으로 높은 분획 농도이다. 다른 예시적인 병태는 자가면역 공격(예를 들어, 신장을 손상시키는 홍반성 신염), 염증성 질환(예를 들어, 간염), 및 허혈성 조직 손상(예를 들어, 심근 경색)을 포함할 수 있다. 대상체의 건강한 상태는 병태가 없음의 분류로 간주될 수 있다.
VIII. 재료 및 방법
A. 시료 가공.
말초 혈액을 EDTA-함유 튜브에 수집하고, 4℃에서 1,600 x g에서 10분 동안 원심분리하였다. 혈장 부분을 4℃에서 16,000 x g에서 10분 동안 재원심분리하여, 세포-무함유 혈장을 수득하고, -80℃에서 저장하였다. 백혈구 및 적혈구 세포 부분을 1:10 비의 ACK 용해 완충제(Gibco)로 실온에서 5분 동안 처리하여, 적혈구 세포를 제거하였다. 혼합물을 4℃에서 300 x g에서 10분 동안 원심분리하였다. 용해된 적혈구 세포를 갖는 상층액을 버리고, 백혈구 세포 펠렛을 포스페이트 완충 식염수(Gibco)로 세척하였다. 백혈구 세포 부분을 4℃에서 300 x g에서 10분 동안 재원심분리하여, 잔여 적혈구 세포를 제거하였다. 대략 50,000개의 세포를 다운스트림 ATAC-seq 라이브러리 제조에 사용하였다.
태반으로부터의 조직을 수집하고, 포스페이트 완충 식염수(Gibco)로 세척한 다음, Medimachine(BD Biosciences)에 의해 단일 세포 용액으로 분해하였다. 태반 조직으로부터의 합포체영양세포(syncytiotrophoblast) 및 세포영양막(cytotrophoblast)의 양성 선택을 CD105에 대한 항체(Miltenyi Biotec) 및 HAI-I에 대한 항체(Abcam) 각각을 이용하여 가공하였다. 균질화된 태반 세포를, MACS BSA 스탁 용액(Miltenyi Biotec)을 포스페이트 완충 식염수(Gibco)로 희석시킴으로써 80 μL의 0.5% 소 혈청 알부민 완충제에 재현탁시켰다. 합포체영양세포를 단리하기 위해, 20 μL의 CD105 MicroBeads(Miltenyi Biotec)를 첨가하고, 4℃에서 15분 동안 인큐베이션하였다. 합포체영양세포를 항체-코팅된 비드 상에 결합시킨 후, 본 발명자들은 2 mL의 완충제를 첨가함으로써 세포를 세척하고, 200 x g에서 10분 동안 원심분리하였다. 단리 단계를 위한 500 μL의 완충제에 표지된 세포를 재현탁시켰다. 세포영양막을 단리하기 위해, 20 μL의 HAI-I 항체(Abcam) 및 80 μL의 완충제를 첨가하여, 태반 조직을 균질화시키고, 4℃에서 15분 동안 인큐베이션하였다. 인큐베이션 후, 2 mL의 완충제를 첨가하여, 200 x g에서 10분 동안 원심분리함으로써 과량의 1차 항체를 세척해내었다. 세포를 80 μL의 완충제에 재현탁시키고, 20 μL의 2차 항-마우스 IgG MicroBeads(Miltenyi Biotec)를 첨가하고, 4℃에서 15분 동안 인큐베이션하였다. 제1 항체와 유사하게, 2 mL의 완충제를 첨가하여, 200 x g에서 10분 동안 원심분리함으로써 과량의 1차 항체를 세척해내었다. 단리 단계를 위한 500 μL의 완충제에 표지된 세포를 재현탁시켰다. 각각의 세포 유형에 대한 각각의 시료는 하나의 MS 컬럼(Miltenyi Biotec)을 사용하였다. 본 발명자들은 컬럼을 500 μL의 완충제로 헹군 후, 본 발명자들은 표지된 세포를 적용하였다. 세포를 컬럼 내로 적용함으로써, 표지된 세포를 컬럼 내의 자기 비드 상에 부착시키고, 비표지된 세포를 플로우-스루(flow-through)에 놔두었다. 본 발명자들은 컬럼을 매회 500 μL 완충제로 3회 세척하였다. 소팅된 합포체영양세포 및 세포영양막을 1 mL의 완충제에서 용출시키고, 혈구계에 의해 카운팅하여 ATAC-seq용 시료 당 50,000개 세포를 분취하였다.
B. ATAC-seq 라이브러리 제조 및 시퀀싱.
ATAC-seq를 기재된 바와 같이(35) 수행하였다. 간략하게는, 50,000개 세포를 4℃에서 5분 동안 500 x g에서 회전시키고, 뒤이어 냉각 용해 완충제(10 mM Tris-HCl, pH 7.4(Ambion), 10 mM NaCl(Ambion), 3 mM MgCl2(Ambion) 및 0.1% IGEPAL CA-630(Sigma))를 사용하여 세포를 용해시켰다. 혼합물을 4℃에서 500 x g에서 10분 동안 즉시 원심분리하였다. 핵을, 25 μL 2x TD 완충제, Nextera DNA 라이브러리 제조 키트(Illumina)로부터의 2.5 μL 트랜스포자제 및 22.5 μL 뉴클레아제-무함유 물을 함유하는 트랜스포자제 반응 혼합물에 재현탁시켰다. 트랜스포지션 및 태그화를 37℃에서 30분 동안 수행하였다. 트랜스포지션 직후, 시료를 Qiagen MinElute 키트(Qiagen)를 이용하여 제조업체의 설명에 따라 정제하였다. 정제된 DNA 단편을 1x NEBnext PCR 마스터 믹스(New England BioLabs) 및 PCR 증폭용 1.25 μM의 Nextera PCR 프라이머 1과 2(IDT)와 하기 조건을 사용하여 혼합하였다: 72℃에서 5분; 98℃에서 30초; 98℃에서 10초 동안, 63℃에서 30초 동안 그리고 72℃에서 1분 동안 15 사이클을 위한 서모사이클링. 라이브러리를 Qiagen PCR 클린업 키트(Qiagen)로 정제하였다. 상기 라이브러리를 2100 Bioanalyzer(Agilent)에 의해 분석하고, 시퀀싱 전에 KAPA 라이브러리 정량화 키트(Kapa Biosystems)에 의해 정량화하였다. 2 x 75 짝-말단 시퀀싱을 Hi-Seq 2500(Illumina) 상에서 수행하였다.
C. 시퀀싱 데이터의 정렬.
실시예에서, 짝-말단 판독물을 짝-말단 방식으로 SOAP2 정렬기(53)를 사용하여 기준 인간 게놈(NCBI37/hg19)에 맵핑하여, 각각의 말단에 대한 정렬을 위한 2개의 미스매치를 정렬시켰다. 600 bp 이하의 삽입물 크기를 스패닝하는 올바른 배향을 갖는 동일한 염색체에 정렬된 두 말단 모두를 갖는 짝-말단 판독물만 다운스트림 분석에 사용하였다. 다른 정렬 기법(소프트웨어), 예컨대 BLAST, BLAT, BWA, Bowtie, STAR 등이 사용될 수 있다. 전체 DNA 단편이 시퀀싱되는 경우, 짝-말단 방식은 필요하지 않다. 나아가, 미스매치의 수는 요망되는 정확도에 따라 달라질 수 있다.
D. 혈장 DNA 데이터 수집 및 이용 가능성
건강한 개체, HCC 환자 및 임신 사례에 대한 혈장 데이터는 European Genome-Phenome Archive(EGA; 기탁 번호. EGAS00001001024 및 EGAS00001001882)(70, 55)로부터 검색되었다. 본 발명자들의 이전의 연구(64)에 기재된 바와 같이 간 이식 환자에 대한 혈장 DNA 시퀀싱 데이터는 EGA(기탁 번호. EGAS00001003116)에 기탁되었었다. 폐암에 대한 혈장 DNA 시퀀싱 데이터를 Gene Expression Omnibus(GEO; 기탁 번호. GSE71378)(98)로부터 입수하였다.
결장직장암 환자를 이 연구에 새로 동원하였다. 말초 혈액 시료를 EDTA-함유 튜브에 수집하였다. 혈액 시료를 4℃에서 1,600 x g에서 10분 동안 원심분리하였다. 혈장 부분을 수집하고, 4℃에서 16,000 x g에서 10분 동안 재원심분리하여, 혈액 세포를 제거하였다. 비설파이트 전환을 이전에 기재된 바와 같이(85) 수행하였다. DNA 라이브러리는 KAPA HTP 라이브러리 제조 키트(Kapa Biosystems)를 제조업체의 설명(56)에 따라 사용하여 제조되고, TruSeq SBS Kit v3(Illumina)으로 75 × 2(짝-말단 방식) 사이클에서 HiSeq 2000 시스템(Illumina) 상에서 시퀀싱되었다. 품질 관리, 서열 정렬, 메틸화 상태 결정 및 결장 기여도 간섭을 포함한 BS-seq 데이터의 분석을 이전에 기재된 바와 같이(71, 102) 수행하였다. 중앙값 시퀀싱 깊이는 이들 시료에 대해 3.2x(범위: 0.6-6.4x; 도 39) 반수체 인간 게놈 커버리지였다.
E. 조직-특이적 개방 염색질 영역
개방 염색질 영역은 게놈에서 중요한 조절 요소이고, 고도로 조직-특이적이다. 활성 프로모터는 하나의 유형의 개방 염색질 영역이다. 다른 유형은 인핸서 및 인설레이터(insulator)를 포함한다. 개방 염색질 영역은 관심 조직에 대한 공개적인 Dnase-seq 데이터를 사용하여 결정될 수 있다. Dnase-seq는, 세포성 게놈 DNA를 처리하기 위해 DNaseI 엔도뉴클레아제 효소를 사용하는 실험 절차이며, 이는 비-뉴클레오솜 결합 DNA를 절단하는 것을 선호한다. 그 결과, 개방 염색질 영역 내 DNA는 시퀀싱을 위해 절단되고 수합된다. 따라서, 본 발명자들은 예를 들어, 도 25d에 제시된 바와 같이, 이들 DNA 좌표를 개방 염색질 영역으로서 식별할 수 있을 것이다. 각각의 영역에 대해, 이의 시작 및 말단에 대한 게놈 좌표가 수득되고, 중간 좌표(즉, (시작 +말단)/2)가 중심으로서 사용될 수 있다.
각각의 조직 유형에 대한 Dnase-seq 데이터로부터 개방 염색질 영역을 수득한 후, 개방 염색질 영역은 서로 비교될 수 있고, 하나의 조직 유형에 독특한 것들만 유지되고 본원에 기재된 바와 같이 추가의 분석을 위한 "조직-특이적인" 것으로서 정의될 수 있다. 이들 조직-특이적 개방 염색질 영역의 경우, 뉴클레오솜은 상응하는 조직 유형에서만 잘-위치하여, 혈장 DNA 내 비례 기여도의 결정을 가능하게 한다. Dnase-seq 외에도, 개방 염색질 영역을 식별하기 위한 다른 예시적인 방법은 CTCF 전사 인자 상에서의 FAIRE-seq, ATAC-seq, MNASE-seq, 및 ChIP-seq를 포함한다.
일부 구현예에서, 본 발명자들은 개방 염색질 영역을 도출하기 위해 공개적으로 입수 가능한 DNase-seq(DNase I 고민감성 부위 시퀀싱) 데이터를 사용하였다. T-세포, 태반, 폐, 난소, 유방 및 소장에 대한 DNase-seq 데이터는 RoadMap Epigenomics 프로젝트(93)로부터 수득되었다. 간 및 ESC에 대한 DNase-seq 데이터는 ENCODE 프로젝트(104)로부터 수득되었다. 각각의 조직 유형에 대해, 원 시퀀싱 데이터를 다운로드하고, 보타이(bowtie) 정렬 소프트웨어(버전 1.1.1)(76)를 사용하여 기준 인간 게놈(UCSC hg19)에 정렬하였다. 그 후에, MACS(ChIP-Seq용 모델-기초 분석) 소프트웨어(버전 2.0.9)(110, 74)를 사용하여 개방 염색질 영역을 결정하였다. 다른 기준 게놈 및 정렬 소프트웨어를 사용할 수 있다.
이러한 분석에 대해, ChIP-seq(염색질 면역침전, 뒤이어 대량 병렬 DNA 시퀀싱) 입력 데이터를 음성 대조군으로서 사용하고, 0.01의 Q-값(즉, 허위발견율(false discovery rate)을 반영하는 조정된 P-값)을 역치로서 사용하여 피크를 나타내었다. 폐의 경우, IMR90(인간 태아 폐) 및 HLF(인간 폐 섬유아세포) 세포주에 대한 DNase-seq 데이터 둘 다 분석하고, 두 시료 모두에 존재하는 피크만 식별하였다. 그 후에, 각각의 조직 유형에 대해, 본 발명자들은 이의 피크를 모든 다른 조직과 비교하고, 이 조직 유형에 독특하고 50 내지 200 bp의 크기 범위 내에 있는 것들만 최종 조직-특이적 개방 염색질 영역으로서 유지시켰다.
IX. 예시적인 시스템
도 42는 본 개시내용의 구현예에 따른 측정 시스템(4200)을 예시한다. 도시된 바와 같은 시스템은 시료(4205), 예컨대 시료 홀더(4210) 내의 세포-무함유 DNA 분자를 포함하며, 상기 시료(4205)는 검정물(4208)과 접촉되어, 물리적 특징(4215)의 신호를 제공할 수 있다. 시료 홀더의 일례는, 검정물의 프로브 및/또는 프라이머 또는 튜브를 포함하는 유동 세포일 수 있으며, 상기 튜브를 통해 액적이 이동한다(이때 상기 액적은 검정물을 포함함). 시료로부터의 물리적 특징(4215)(예를 들어, 형광 강도, 전압 또는 전류)은 검출기(4220)에 의해 검출된다. 검출기는 간격(예를 들어, 주기적 간격)을 둔 측정을 행하여, 데이터 신호를 이루는 데이터 포인트를 수득할 수 있다. 일 구현예에서, 아날로그-디지털 전환기는 검출기로부터의 아날로그 신호를 복수의 시점에서 디지털 형태로 전환시킨다. 시료 홀더(4210) 및 검출기(4220)는 검정 장치, 예를 들어, 본원에 기재된 구현예에 따른 시퀀싱을 수행하는 시퀀싱 장치를 형성할 수 있다. 데이터 신호(4225)는 검출기(4220)로부터 로직 시스템(4230)으로 전송된다. 데이터 신호(4225)는 로컬 메모리(4235), 외장 메모리(4240) 또는 저장 장치(4245)에 저장될 수 있다.
로직 시스템(4230)은 컴퓨터 시스템, ASIC, 마이크로프로세서 등일 수 있거나 이들을 포함할 수 있다. 상기 시스템은 또한, 디스플레이(예를 들어, 모니터, LED 디스플레이 등) 및 사용자 입력 장치(예를 들어, 마우스, 키보드, 버튼 등)를 포함하거나 이들과 커플링될 수 있다. 로직 시스템(4230) 및 다른 구성요소는 독립형 또는 네트워크 연결 컴퓨터 시스템의 일부일 수 있거나, 이들은 검출기(4220) 및/또는 시료 홀더(4210)를 포함하는 장치(예를 들어, 시퀀싱 장치)에 직접적으로 부착되거나 상기 장치에 통합될 수 있다. 로직 시스템(4230)은 또한, 프로세서(4250)에서 실행하는 소프트웨어를 포함할 수 있다. 로직 시스템(4230)은 본원에 기재된 임의의 방법을 수행하도록 시스템(4200)을 제어하는 명령을 저장하는 컴퓨터 판독 가능 매체를 포함할 수 있다. 예를 들어, 로직 시스템(4230)은, 시퀀싱 또는 다른 물리적 작동이 수행되도록, 시료 홀더(4210)를 포함하는 시스템에 명령을 제공할 수 있다. 이러한 물리적 작동은 특정 순서로 수행될 수 있으며, 예를 들어, 시약이 특정 순서로 첨가되고 제거된다. 이러한 물리적 작동은 시료를 수득하고 검정을 수행하는 데 사용될 수 있는 바와 같이 예를 들어, 로보틱 아암을 포함하는 로보틱스 시스템에 의해 수행될 수 있다.
본원에 언급된 임의의 컴퓨터 시스템(예를 들어, 로직 시스템(4230))은 임의의 적합한 수의 서브시스템을 이용할 수 있다. 이러한 서브시스템의 예는 도 43에서 컴퓨터 시스템(10)으로 도시된다. 일부 구현예에서, 컴퓨터 시스템은 단일 컴퓨터 장치를 포함하며, 여기서 서브시스템은 컴퓨터 장치의 구성요소일 수 있다. 다른 구현예에서, 컴퓨터 시스템은 내부 구성요소와 함께, 각각 서브시스템인, 다수의 컴퓨터 장치를 포함할 수 있다. 컴퓨터 시스템은 데스크탑 및 랩탑 컴퓨터, 태블렛, 이동 전화 및 다른 모바일 장치를 포함할 수 있다.
도 43에 도시된 서브시스템은 시스템 버스(시스템 버스)(75)를 통해서 서로 연결되어 있다. 디스플레이 어댑터(82)에 커플링된, 프린터(74), 키보드(78), 저장 장치(들)(79), 모니터(76)와 같은 추가의 서브시스템, 및 다른 것이 나타나 있다. 입력/출력(I/O) 컨트롤러(71)에 커플링된, 주변 및 입력/출력(I/O) 장치는 입력/출력(I/O) 포트(77)와 같이, 관련 기술 분야에 공지된 임의의 수의 수단(예를 들어, USB, FireWire®)에 의해 컴퓨터 시스템에 연결될 수 있다. 예를 들어, I/O 포트(77) 또는 외부 인터페이스(81)(예를 들어, 이더넷, Wi-Fi 등)을 사용하여 컴퓨터 시스템(10)을 인터넷, 마우스 입력 장치, 또는 스캐너와 같은 광범위 네트워크에 연결시킬 수 있다. 시스템 버스(75)를 통한 상호연결은 중앙 처리 장치(73)가 각각의 서브시스템과 통신하도록 하고 시스템 기억장치(72) 또는 저장 장치(들)(79)(예를 들어, 고정 디스크, 예컨대 하드 드라이브, 또는 광 디스크)로부터의 복수의 명령어의 실행, 및 또한 서브시스템들 사이의 정보의 교환을 제어할 수 있도록 한다. 시스템 기억장치(72) 및/또는 저장 장치(들)(79)는 컴퓨터 판독 가능한 매체를 구현할 수 있다. 또 다른 서브시스템은 데이터 수집 장치(85), 예컨대 카메라, 마이크로폰, 가속도계 등이다. 본 명세서에 언급된 데이터 중 임의의 것이 하나의 성분으로부터 또 다른 성분으로 출력될 수 있고, 사용자에게 출력될 수 있다.
컴퓨터 시스템은, 예를 들어 외부 인터페이스(81)에 의해, 내부 인터페이스에 의해, 또는 하나의 구성요소로부터 다른 구성요소로 연결되거나 제거될 수 있는 착탈식 저장 장치를 통해 함께 연결되는, 복수의 동일한 구성요소 또는 서브시스템을 포함할 수 있다. 일부 구현예에서, 컴퓨터 시스템, 서브시스템 또는 장치는 네트워크를 통해 통신할 수 있다. 이러한 예에서, 하나의 컴퓨터는 클라이언트로 간주될 수 있고 또 다른 컴퓨터는 서버로 간주될 수 있으며, 여기서 각각은 동일한 컴퓨터 시스템의 부분일 수 있다. 클라이언트 및 서버는 각각 다중 시스템, 서브시스템 또는 구성요소를 포함할 수 있다.
구현예의 양태는 하드웨어 회로(예: 주문형 반도체 또는 필드 프로그램 가능 게이트 어레이)를 사용하여 및/또는 모듈러 또는 집적 방식으로 일반적으로 프로그램 가능한 처리 장치를 포함하는 컴퓨터 소프트웨어를 사용하여 제어 로직의 형태로 구현될 수 있다. 본 명세서에서 사용될 때, 처리 장치는 전용 하드웨어뿐만 아니라, 단일-코어 처리 장치, 동일한 집적 칩 상의 멀티-코어 처리 장치, 또는 단일 회로 기판 상의 또는 네트워크화된 다수의 프로세싱 유닛을 포함할 수 있다. 본 명세서에 제공된 개시내용 및 교시를 기초로, 당업자는 하드웨어 및 하드웨어와 소프트웨어의 조합을 사용하여 본 개시내용의 구현예를 구현하는 다른 방식 및/또는 방법을 알고 인지할 것이다.
본 출원에 기술된 소프트웨어 구성요소 또는 기능 중 임의의 것은 예를 들어, 종래의 또는 객체 지향 기술을 사용하여, 예를 들어, 자바, C, C++, C#, 오브젝티브(Objective)-C, 스위프트(Swift), 또는 펄(Perl)이나 파이썬(Python)과 같은 스크립팅 언어와 같은 임의의 적합한 컴퓨터 언어를 사용하여 프로세서에 의해 실행될 소프트웨어 코드로서 구현될 수 있다. 소프트웨어 코드는 저장 및/또는 전송을 위해 컴퓨터 판독 가능 매체 상에 일련의 명령 또는 지령으로서 저장될 수 있다. 적합한 비일시성(non-transitory) 컴퓨터 판독 가능 매체는, 랜덤 액세스 메모리(RAM), 판독 전용 기억장치(ROM), 하드-드라이브 또는 플로피 디스크와 같은 자기 매체, 또는 컴팩트 디스크(CD) 또는 DVD(디지털 다기능 디스크), 플래쉬 메모리 등과 같은 광학 매체를 포함할 수 있다. 컴퓨터 판독 가능 매체는 이러한 저장 또는 전송 장치의 임의의 조합일 수 있다.
이러한 프로그램은 또한 인터넷을 비롯한, 각종 프로토콜에 따른 유선, 광학 및/또는 무선 네트워크를 통한 전송을 위해 채택된 캐리어 신호를 사용하여 인코딩되고 전송될 수 있다. 이와 같이, 컴퓨터 판독 가능 매체는 이러한 프로그램으로 인코딩된 데이터 신호를 사용하여 생성될 수 있다. 프로그램 코드로 인코딩된 컴퓨터 판독 가능 매체는 호환 장치와 함께 패키징될 수 있거나 (예를 들어, 인터넷 다운로드를 통해) 다른 장치로부터 별도로 제공될 수 있다. 임의의 이러한 컴퓨터 판독 가능 매체는 단일 컴퓨터 제품(예를 들어, 하드 드라이브, CD, 또는 전체 컴퓨터 시스템) 상에 또는 그 내에 상주할 수 있고, 시스템 또는 네트워크 내의 상이한 컴퓨터 제품 상에 또는 그 내에 존재할 수 있다. 컴퓨터 시스템은 모니터, 프린터, 또는 본원에 언급된 결과 중 임의의 결과를 사용자에게 제공하기에 적합한 다른 디스플레이를 포함할 수 있다.
본원에 기재된 방법 중 임의의 방법은, 단계를 수행하도록 구성될 수 있는, 하나 이상의 프로세서를 포함하는 컴퓨터 시스템에 의해 전체적으로 또는 부분적으로 수행될 수 있다. 그러므로, 구현예는, 잠재적으로는 각각의 단계 또는 각각의 단계의 그룹을 수행하는 상이한 구성요소와 함께, 본원에 기재된 방법 중 임의의 방법의 단계를 수행하도록 구성된 컴퓨터 시스템에 관한 것일 수 있다. 번호 매긴 단계로서 제시되더라도, 본원의 방법의 단계는 동시에 또는 상이한 시간에 또는 상이한 순서로 수행될 수 있다. 부가적으로, 이들 단계의 일부는 다른 방법으로부터의 다른 단계의 일부와 함께 사용될 수 있다. 또한, 단계의 전부 또는 일부는 선택적일 수 있다. 부가적으로, 임의의 방법 중 임의의 단계는 이들 단계를 수행하기 위한 시스템의 모듈, 유닛, 회로, 또는 다른 수단에 의해 수행될 수 있다.
특정 구현예의 구체적인 세부사항은 본 발명의 구현예의 사상 및 범주 내에서 임의의 적합한 방식으로 조합될 수 있다. 그러나, 본 발명의 다른 구현예는 각각의 개별적인 양태, 또는 이들 개별적인 양태의 특정 조합에 관한 특정 구현예에 관한 것일 수 있다.
본 발명의 예시적인 구현예의 상기 설명은 예시 및 설명의 목적으로 제시되었다. 그것은 철저하거나 본 발명을 설명된 정확한 형태로 제한하도록 의도되지 않으며, 상기의 교시에 비추어 많은 수정 및 변형이 가능하다.
단수형의 인용은 구체적으로 반대로 나타내지 않은 한, "하나 이상"을 의미하는 것으로 의도된다. "또는"의 사용은 "포함하거나 또는"을 의미하고, 구체적으로 다르게 나타내지 않는 한 "배제하거나 또는"을 의미하도록 의도되지 않는다. "제1" 구성요소에 대한 언급은 반드시 제2 구성요소가 제공되어야 함을 요구하지는 않는다. 더욱이, "제1" 또는 "제2" 구성요소에 대한 언급은 명시적으로 언급되지 않는 한 참조된 구성요소를 특정 위치로 제한하지 않는다. "기초하여(based on)"라는 용어는 "적어도 부분적으로 기초하여"를 의미하는 것으로 의도된다.
본원에서 언급된 모든 특허, 특허 출원, 공개공보, 및 설명은 모든 목적을 위해서 그 전체 내용이 참조로 포함된다. 어느 것도 선행 기술로서 인정하는 것은 아니다.
X. 참고문헌
1. Lo YMD, et al. (1997) Presence of fetal DNA in maternal plasma and serum. Lancet 350(9076):485-487.
2. Lo YMD, et al. (1998) Presence of donor-specific DNA in plasma of kidney and liver-transplant recipients. Lancet 351(9112):1329-1330.
3. Ulz P, Heitzer E, Geigl JB, & Speicher MR (2017) Patient monitoring through liquid biopsies using circulating tumor DNA. Int J Cancer 141(5):887-896.
4. Cohen JD, et al. (2018) Detection and localization of surgically resectable cancers with a multi-analyte blood test. Science 359(6378):926-930.
5. Schutz E, et al. (2017) Graft-derived cell-free DNA, a noninvasive early rejection and graft damage marker in liver transplantation: A prospective, observational, multicenter cohort study. PLoS Med 14(4):e1002286.
6. Chan KCA, et al. (2017) Analysis of plasma Epstein-Barr virus DNA to screen for nasopharyngeal cancer. N Engl J Med 377(6):513-522.
7. Lehmann-Werman R, et al. (2016) Identification of tissue-specific cell death using methylation patterns of circulating DNA. Proc Natl Acad Sci U S A 113(13):E1826-1834.
8. van Opstal D, et al. (2017) Origin and clinical relevance of chromosomal aberrations other than the common trisomies detected by genome-wide NIPS: results of the TRIDENT study. Genet Med Oct 2. doi: 10.1038/gim.2017.132.
9. Lo YMD, et al. (2010) Maternal plasma DNA sequencing reveals the genome-wide genetic and mutational profile of the fetus. Sci Transl Med 2(61):61ra91.
10. Struhl K & Segal E (2013) Determinants of nucleosome positioning. Nat Struct Mol Biol 20(3):267-273.
11. Chim SSC, et al. (2005) Detection of the placental epigenetic signature of the maspin gene in maternal plasma. Proc Natl Acad Sci U S A 102(41):14753-14758.
12. Sun K, et al. (2015) Plasma DNA tissue mapping by genome-wide methylation sequencing for noninvasive prenatal, cancer, and transplantation assessments. Proc Natl Acad Sci U S A 112(40):E5503-5512.
13. Lui YYN, et al. (2002) Predominant hematopoietic origin of cell-free DNA in plasma and serum after sex-mismatched bone marrow transplantation. Clin Chem 48(3):421-427.
14. Chan KCA, et al. (2004) Size distributions of maternal and fetal DNA in maternal plasma. Clin Chem 50(1):88-92.
15. Sun K, et al. (2018) Noninvasive reconstruction of placental methylome from maternal plasma DNA: potential for prenatal testing and monitoring. Prenat Diagn 38(3):196-203.
16. Sun K, et al. (2017) COFFEE: control-free noninvasive fetal chromosomal examination using maternal plasma DNA. Prenat Diagn 37(4):336-340.
17. Yu SCY, et al. (2014) Size-based molecular diagnostics using plasma DNA for noninvasive prenatal testing. Proc Natl Acad Sci U S A 111(23):8583-8588.
18. Cirigliano V, Ordonez E, Rueda L, Syngelaki A, & Nicolaides KH (2017) Performance of the neoBona test: a new paired-end massively parallel shotgun sequencing approach for cell-free DNA-based aneuploidy screening. Ultrasound Obstet Gynecol 49(4):460-464.
19. Zhang L, Zhu Q, Wang H, & Liu S (2017) Count-based size-correction analysis of maternal plasma DNA for improved noninvasive prenatal detection of fetal trisomies 13, 18, and 21. Am J Transl Res 9(7):3469-3473.
20. Yu SCY, et al. (2013) High-resolution profiling of fetal DNA clearance from maternal plasma by massively parallel sequencing. Clin Chem 59(8):1228-1237.
21. Chan KCA, et al. (2016) Second generation noninvasive fetal genome analysis reveals de novo mutations, single-base parental inheritance, and preferred DNA ends. Proc Natl Acad Sci U S A 113(50):E8159-E8168.
22. Jahr S, et al. (2001) DNA fragments in the blood plasma of cancer patients: quantitations and evidence for their origin from apoptotic and necrotic cells. Cancer Res 61(4):1659-1665.
23. Straver R, Oudejans CB, Sistermans EA, & Reinders MJ (2016) Calculating the fetal fraction for noninvasive prenatal testing based on genome-wide nucleosome profiles. Prenat Diagn 36(7):614-621.
24. Snyder MW, Kircher M, Hill AJ, Daza RM, & Shendure J (2016) Cell-free DNA comprises an in vivo nucleosome footprint that informs its tissues-of-origin. Cell 164(1-2):57-68.
25. Ivanov M, Baranova A, Butler T, Spellman P, & Mileyko V (2015) Non-random fragmentation patterns in circulating cell-free DNA reflect epigenetic regulation. BMC Genomics 16 Suppl 13:S1.
26. Chiu RWK, et al. (2008) Noninvasive prenatal diagnosis of fetal chromosomal aneuploidy by massively parallel genomic sequencing of DNA in maternal plasma. Proc Natl Acad Sci U S A 105(51):20458-20463.
27. DeLong ER, DeLong DM, & Clarke-Pearson DL (1988) Comparing the areas under two or more correlated receiver operating characteristic curves: a nonparametric approach. Biometrics 44(3):837-845.
28. Jiang P, et al. (2015) Lengthening and shortening of plasma DNA in hepatocellular carcinoma patients. Proc Natl Acad Sci U S A 112(11):E1317-1325.
29. Valouev A, et al. (2011) Determinants of nucleosome organization in primary human cells. Nature 474(7352):516-520.
30. Gaffney DJ, et al. (2012) Controls of nucleosome positioning in the human genome. PLoS Genet 8(11):e1003036.
31. Lam WKJ, et al. (2017) DNA of erythroid origin is present in human plasma and informs the types of anemia. Clin Chem 63(10):1614-1623.
32. Roadmap Epigenomics Consortium, et al. (2015) Integrative analysis of 111 reference human epigenomes. Nature 518(7539):317-330.
33. Jiang C & Pugh BF (2009) Nucleosome positioning and gene regulation: advances through genomics. Nat Rev Genet 10(3):161-172.
34. Horlbeck MA, et al. (2016) Nucleosomes impede Cas9 access to DNA in vivo and in vitro. Elife 5:e12677.
35. Buenrostro JD, Giresi PG, Zaba LC, Chang HY, & Greenleaf WJ (2013) Transposition of native chromatin for fast and sensitive epigenomic profiling of open chromatin, DNA-binding proteins and nucleosome position. Nat Methods 10(12):1213-1218.
36. Mueller B, et al. (2017) Widespread changes in nucleosome accessibility without changes in nucleosome occupancy during a rapid transcriptional induction. Genes Dev 31(5):451-462.
37. Buenrostro JD, Wu B, Chang HY, & Greenleaf WJ (2015) ATAC-seq: a method for assaying chromatin accessibility genome-wide. Curr Protoc Mol Biol 109:21.29.1-9.
38. Schep AN, et al. (2015) Structured nucleosome fingerprints enable high-resolution mapping of chromatin architecture within regulatory regions. Genome Res 25(11):1757-1770.
39. Chodavarapu RK, et al. (2010) Relationship between nucleosome positioning and DNA methylation. Nature 466(7304):388-392.
40. Jensen TJ, et al. (2015) Whole genome bisulfite sequencing of cell-free DNA and its cellular contributors uncovers placenta hypomethylated domains. Genome Biol 16:78.
41. Lun FMF, et al. (2013) Noninvasive prenatal methylomic analysis by genomewide bisulfite sequencing of maternal plasma DNA. Clin Chem 59(11):1583-1594.
42. Jiang P, et al. (2017) Gestational age assessment by methylation and size profiling of maternal plasma DNA: a feasibility study. Clin Chem 63(2):606-608.
43. Schroeder DI, et al. (2013) The human placenta methylome. Proc Natl Acad Sci U S A 110(15):6037-6042.
44. Lee JY & Lee TH (2012) Effects of DNA methylation on the structure of nucleosomes. J Am Chem Soc 134(1):173-175.
45. Choy JS, et al. (2010) DNA methylation increases nucleosome compaction and rigidity. J Am Chem Soc 132(6):1782-1783.
46. Collings CK, Waddell PJ, & Anderson JN (2013) Effects of DNA methylation on nucleosome stability. Nucleic Acids Res 41(5):2918-2931.
47. Rose NR & Klose RJ (2014) Understanding the relationship between DNA methylation and histone lysine methylation. Biochim Biophys Acta 1839(12):1362-1372.
48. Soppe WJ, et al. (2002) DNA methylation controls histone H3 lysine 9 methylation and heterochromatin assembly in Arabidopsis. EMBO J 21(23):6549-6559.
49. Simon M, et al. (2011) Histone fold modifications control nucleosome unwrapping and disassembly. Proc Natl Acad Sci U S A 108(31):12711-12716.
50. Ehrlich M (2009) DNA hypomethylation in cancer cells. Epigenomics 1(2):239-259.
51. Chan KCA, et al. (2013) Noninvasive detection of cancer-associated genome-wide hypomethylation and copy number aberrations by plasma DNA bisulfite sequencing. Proc Natl Acad Sci U S A 110(47):18761-18768.
52. Holtan SG, Creedon DJ, Haluska P, & Markovic SN (2009) Cancer and pregnancy: parallels in growth, invasion, and immune modulation and implications for cancer therapeutic agents. Mayo Clin Proc 84(11):985-1000.
53. Li R, et al. (2009) SOAP2: an improved ultrafast tool for short read alignment. Bioinformatics 25(15):1966-1967.
54. Chan KCA, Jiang P, Chan CW, Sun K, Wong J, Hui EP, Chan SL, Chan WC, Hui DS, Ng SS et al. 2013a. Noninvasive detection of cancer-associated genome-wide hypomethylation and copy number aberrations by plasma DNA bisulfite sequencing. Proc Natl Acad Sci U S A 110(47): 18761-18768.
55. Chan KCA, Jiang P, Sun K, Cheng YK, Tong YK, Cheng SH, Wong AI, Hudecova I, Leung TY, Chiu RWK et al. 2016. Second generation noninvasive fetal genome analysis reveals de novo mutations, single-base parental inheritance, and preferred DNA ends. Proc Natl Acad Sci U S A 113(50): E8159-E8168.
56. Chan KCA, Jiang P, Zheng YW, Liao GJ, Sun H, Wong J, Siu SS, Chan WC, Chan SL, Chan AT et al. 2013b. Cancer genome scanning in plasma: detection of tumor-associated copy number aberrations, single-nucleotide variants, and tumoral heterogeneity by massively parallel sequencing. Clin Chem 59(1): 211-224.
57. Chan KCA, Woo JKS, King A, Zee BCY, Lam WKJ, Chan SL, Chu SWI, Mak C, Tse IOL, Leung SYM et al. 2017. Analysis of plasma Epstein-Barr virus DNA to screen for nasopharyngeal cancer. N Engl J Med 377(6): 513-522.
58. Chim SSC, Tong YK, Chiu RW, Lau TK, Leung TN, Chan LY, Oudejans CB, Ding C, Lo YM. 2005. Detection of the placental epigenetic signature of the maspin gene in maternal plasma. Proc Natl Acad Sci U S A 102(41): 14753-14758.
59. Christie EL, Fereday S, Doig K, Pattnaik S, Dawson SJ, Bowtell DDL. 2017. Reversion of BRCA1/2 germline mutations detected in circulating tumor DNA from patients with high-grade serous ovarian cancer. J Clin Oncol 35(12): 1274-1280.
60. Cleveland WS. 1979. Robust locally weighted regression and smoothing scatterplots. Journal of the American Statistical Association 74(368): 829-836.
61. Cohen JD, Li L, Wang Y, Thoburn C, Afsari B, Danilova L, Douville C, Javed AA, Wong F, Mattox A et al. 2018. Detection and localization of surgically resectable cancers with a multi-analyte blood test. Science 359(6378): 926-930.
62. Eisenberg E, Levanon EY. 2013. Human housekeeping genes, revisited. Trends Genet 29(10): 569-574.
63. Gaffney DJ, McVicker G, Pai AA, Fondufe-Mittendorf YN, Lewellen N, Michelini K, Widom J, Gilad Y, Pritchard JK. 2012. Controls of nucleosome positioning in the human genome. PLoS Genet 8(11): e1003036.
64. Gai W, Ji L, Lam WKJ, Sun K, Jiang P, Chan AWH, Wong J, Lai PBS, Ng SSM, Ma BBY et al. 2018. Liver- and colon-specific DNA methylation markers in plasma for investigation of colorectal cancers with or without liver metastases. Clin Chem (doi: 10.1373/clinchem.2018.290304).
65. Grunau C, Clark SJ, Rosenthal A. 2001. Bisulfite genomic sequencing: systematic investigation of critical experimental parameters. Nucleic Acids Res 29(13): E65-65.
66. Hulbert A, Jusue-Torres I, Stark A, Chen C, Rodgers K, Lee B, Griffin C, Yang A, Huang P, Wrangle J et al. 2017. Early detection of lung cancer using DNA promoter hypermethylation in plasma and sputum. Clin Cancer Res 23(8): 1998-2005.
67. Ivanov M, Baranova A, Butler T, Spellman P, Mileyko V. 2015. Non-random fragmentation patterns in circulating cell-free DNA reflect epigenetic regulation. BMC Genomics 16 Suppl 13: S1.
68. Jahr S, Hentze H, Englisch S, Hardt D, Fackelmayer FO, Hesch RD, Knippers R. 2001. DNA fragments in the blood plasma of cancer patients: quantitations and evidence for their origin from apoptotic and necrotic cells. Cancer Res 61(4): 1659-1665.
69. Jiang C, Pugh BF. 2009. Nucleosome positioning and gene regulation: advances through genomics. Nat Rev Genet 10(3): 161-172.
70. Jiang P, Chan CW, Chan KC, Cheng SH, Wong J, Wong VW, Wong GL, Chan SL, Mok TS, Chan HL et al. 2015. Lengthening and shortening of plasma DNA in hepatocellular carcinoma patients. Proc Natl Acad Sci U S A 112(11): E1317-1325.
71. Jiang P, Sun K, Lun FMF, Guo AM, Wang H, Chan KCA, Chiu RWK, Lo YMD, Sun H. 2014. Methy-pipe: an integrated bioinformatics pipeline for whole genome bisulfite sequencing data analysis. PLoS One 9(6): e100360.
72. Kang S, Li Q, Chen Q, Zhou Y, Park S, Lee G, Grimes B, Krysan K, Yu M, Wang W et al. 2017. CancerLocator: non-invasive cancer diagnosis and tissue-of-origin prediction using methylation profiles of cell-free DNA. Genome Biol 18(1): 53.
73. Kapushesky M, Emam I, Holloway E, Kurnosov P, Zorin A, Malone J, Rustici G, Williams E, Parkinson H, Brazma A. 2010. Gene expression atlas at the European bioinformatics institute. Nucleic Acids Res 38(Database issue): D690-698.
74. Koohy H, Down TA, Spivakov M, Hubbard T. 2014. A comparison of peak callers used for DNase-Seq data. PLoS One 9(5): e96303.
75. Lam WKJ, Gai W, Sun K, Wong RSM, Chan RWY, Jiang P, Chan NPH, Hui WWI, Chan AWH, Szeto CC et al. 2017. DNA of erythroid origin is present in human plasma and informs the types of anemia. Clin Chem 63(10): 1614-1623.
76. Langmead B, Trapnell C, Pop M, Salzberg SL. 2009. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biol 10(3): R25.
77. Lehmann-Werman R, Magenheim J, Moss J, Neiman D, Abraham O, Piyanzin S, Zemmour H, Fox I, Dor T, Grompe M et al. 2018. Monitoring liver damage using hepatocyte-specific methylation markers in cell-free circulating DNA. JCI Insight 3(12).
78. Lehmann-Werman R, Neiman D, Zemmour H, Moss J, Magenheim J, Vaknin-Dembinsky A, Rubertsson S, Nellgard B, Blennow K, Zetterberg H et al. 2016. Identification of tissue-specific cell death using methylation patterns of circulating DNA. Proc Natl Acad Sci U S A 113(13): E1826-1834.
79. Li W, Li Q, Kang S, Same M, Zhou Y, Sun C, Liu CC, Matsuoka L, Sher L, Wong WH et al. 2018. CancerDetector: ultrasensitive and non-invasive cancer detection at the resolution of individual reads using cell-free DNA methylation sequencing data. Nucleic Acids Res (doi: 10.1093/nar/gky423).
80. Lister R, O'Malley RC, Tonti-Filippini J, Gregory BD, Berry CC, Millar AH, Ecker JR. 2008. Highly integrated single-base resolution maps of the epigenome in Arabidopsis. Cell 133(3): 523-536.
81. Lo YMD, Chan KCA, Sun H, Chen EZ, Jiang P, Lun FM, Zheng YW, Leung TY, Lau TK, Cantor CR et al. 2010. Maternal plasma DNA sequencing reveals the genome-wide genetic and mutational profile of the fetus. Sci Transl Med 2(61): 61ra91.
82. Lo YMD, Corbetta N, Chamberlain PF, Rai V, Sargent IL, Redman CW, Wainscoat JS. 1997. Presence of fetal DNA in maternal plasma and serum. Lancet 350(9076): 485-487.
83. Lo YMD, Tein MS, Pang CC, Yeung CK, Tong KL, Hjelm NM. 1998. Presence of donor-specific DNA in plasma of kidney and liver-transplant recipients. Lancet 351(9112): 1329-1330.
84. Lui YYN, Chik KW, Chiu RW, Ho CY, Lam CW, Lo YM. 2002. Predominant hematopoietic origin of cell-free DNA in plasma and serum after sex-mismatched bone marrow transplantation. Clin Chem 48(3): 421-427.
85. Lun FMF, Chiu RWK, Sun K, Leung TY, Jiang P, Chan KC, Sun H, Lo YM. 2013. Noninvasive prenatal methylomic analysis by genomewide bisulfite sequencing of maternal plasma DNA. Clin Chem 59(11): 1583-1594.
86. Mandel P, Metais P. 1948. Les acides nucleiques du plasma sanguin chez l'homme. C R Seances Soc Biol Fil 142(3-4): 241-243.
87. Mertes F, Elsharawy A, Sauer S, van Helvoort JM, van der Zaag PJ, Franke A, Nilsson M, Lehrach H, Brookes AJ. 2011. Targeted enrichment of genomic DNA regions for next-generation sequencing. Brief Funct Genomics 10(6): 374-386.
88. O'Leary B, Hrebien S, Morden JP, Beaney M, Fribbens C, Huang X, Liu Y, Bartlett CH, Koehler M, Cristofanilli M et al. 2018. Early circulating tumor DNA dynamics and clonal selection with palbociclib and fulvestrant for breast cancer. Nat Commun 9(1): 896.
89. Olova N, Krueger F, Andrews S, Oxley D, Berrens RV, Branco MR, Reik W. 2018. Comparison of whole-genome bisulfite sequencing library preparation strategies identifies sources of biases affecting DNA methylation data. Genome Biol 19(1): 33.
90. Pedersen JS, Valen E, Velazquez AM, Parker BJ, Rasmussen M, Lindgreen S, Lilje B, Tobin DJ, Kelly TK, Vang S et al. 2014. Genome-wide nucleosome map and cytosine methylation levels of an ancient human genome. Genome Res 24(3): 454-466.
91. Phallen J, Sausen M, Adleff V, Leal A, Hruban C, White J, Anagnostou V, Fiksel J, Cristiano S, Papp E et al. 2017. Direct detection of early-stage cancers using circulating tumor DNA. Sci Transl Med 9(403).
92. Radman-Livaja M, Rando OJ. 2010. Nucleosome positioning: how is it established, and why does it matter? Dev Biol 339(2): 258-266.
93. Roadmap Epigenomics Consortium, Kundaje A, Meuleman W, Ernst J, Bilenky M, Yen A, Heravi-Moussavi A, Kheradpour P, Zhang Z, Wang J et al. 2015. Integrative analysis of 111 reference human epigenomes. Nature 518(7539): 317-330.
94. Samejima K, Earnshaw WC. 2005. Trashing the genome: the role of nucleases during apoptosis. Nat Rev Mol Cell Biol 6(9): 677-688.
95. Schep AN, Buenrostro JD, Denny SK, Schwartz K, Sherlock G, Greenleaf WJ. 2015. Structured nucleosome fingerprints enable high-resolution mapping of chromatin architecture within regulatory regions. Genome Res 25(11): 1757-1770.
96. Schones DE, Cui K, Cuddapah S, Roh TY, Barski A, Wang Z, Wei G, Zhao K. 2008. Dynamic regulation of nucleosome positioning in the human genome. Cell 132(5): 887-898.
97. Schutz E, Fischer A, Beck J, Harden M, Koch M, Wuensch T, Stockmann M, Nashan B, Kollmar O, Matthaei J et al. 2017. Graft-derived cell-free DNA, a noninvasive early rejection and graft damage marker in liver transplantation: A prospective, observational, multicenter cohort study. PLoS Med 14(4): e1002286.
98. Snyder MW, Kircher M, Hill AJ, Daza RM, Shendure J. 2016. Cell-free DNA comprises an in vivo nucleosome footprint that informs its tissues-of-origin. Cell 164(1-2): 57-68.
99. Strickler JH, Loree JM, Ahronian LG, Parikh AR, Niedzwiecki D, Pereira AAL, McKinney M, Korn WM, Atreya CE, Banks KC et al. 2018. Genomic landscape of cell-free DNA in patients with colorectal cancer. Cancer Discov 8(2): 164-173.
100. Stroun M, Anker P, Maurice P, Lyautey J, Lederrey C, Beljanski M. 1989. Neoplastic characteristics of the DNA found in the plasma of cancer patients. Oncology 46(5): 318-322.
101. Struhl K, Segal E. 2013. Determinants of nucleosome positioning. Nat Struct Mol Biol 20(3): 267-273.
102. Sun K, Jiang P, Chan KCA, Wong J, Cheng YK, Liang RH, Chan WK, Ma ES, Chan SL, Cheng SH et al. 2015. Plasma DNA tissue mapping by genome-wide methylation sequencing for noninvasive prenatal, cancer, and transplantation assessments. Proc Natl Acad Sci U S A 112(40): E5503-5512.
103. Sun K, Jiang P, Wong AIC, Cheng YKY, Cheng SH, Zhang H, Chan KCA, Leung TY, Chiu RWK, Lo YMD. 2018. Size-tagged preferred ends in maternal plasma DNA shed light on the production mechanism and show utility in noninvasive prenatal testing. Proc Natl Acad Sci U S A 115(22): E5106-E5114.
104. The ENCODE Project Consortium. 2012. An integrated encyclopedia of DNA elements in the human genome. Nature 489(7414): 57-74.
105. Ulz P, Heitzer E, Geigl JB, Speicher MR. 2017. Patient monitoring through liquid biopsies using circulating tumor DNA. Int J Cancer 141(5): 887-896.
106. Ulz P, Thallinger GG, Auer M, Graf R, Kashofer K, Jahn SW, Abete L, Pristauz G, Petru E, Geigl JB et al. 2016. Inferring expressed genes by whole-genome sequencing of plasma DNA. Nat Genet 48(10): 1273-1278.
107. Valouev A, Johnson SM, Boyd SD, Smith CL, Fire AZ, Sidow A. 2011. Determinants of nucleosome organization in primary human cells. Nature 474(7352): 516-520.
108. van Opstal D, van Maarle MC, Lichtenbelt K, Weiss MM, Schuring-Blom H, Bhola SL, Hoffer MJV, Huijsdens-van Amsterdam K, Macville MV, Kooper AJA et al. 2017. Origin and clinical relevance of chromosomal aberrations other than the common trisomies detected by genome-wide NIPS: results of the TRIDENT study. Genet Med 20(5): 480-485.
109. Zemmour H, Planer D, Magenheim J, Moss J, Neiman D, Gilon D, Korach A, Glaser B, Shemer R, Landesberg G et al. 2018. Non-invasive detection of human cardiomyocyte death using methylation patterns of circulating DNA. Nat Commun 9(1): 1443.
110. Zhang Y, Liu T, Meyer CA, Eeckhoute J, Johnson DS, Bernstein BE, Nusbaum C, Myers RM, Brown M, Li W et al. 2008. Model-based analysis of ChIP-Seq (MACS). Genome Biol 9(9): R137.

Claims (56)

  1. 제1 조직 유형을 포함하는 복수의 조직 유형으로부터 세포-무함유 DNA 분자의 혼합물을 포함하는 생물학적 시료를 분석하여, 상기 혼합물 내 상기 제1 조직 유형의 비례 기여도(proportional contribution)의 분류를 결정하는 방법으로서, 상기 방법은,
    짧은(short) 세포-무함유 DNA 분자의 말단이 제1 조직 유형을 함유하는 시료에 대한 제1 역치 초과의 제1 비율에서 발생하는 게놈 위치의 제1 세트를 식별하는 단계로서, 여기서, 상기 짧은 세포-무함유 DNA는 제1 크기를 갖는, 단계;
    대상체의 생물학적 시료로부터 제1 복수의 세포-무함유 DNA 분자를 분석하는 단계이되, 상기 세포-무함유 DNA 분자를 분석하는 단계는,
    상기 세포-무함유 DNA 분자의 적어도 하나의 말단에 상응하는 기준 게놈에서 게놈 위치를 결정하는 단계를 포함하고;
    상기 제1 복수의 세포-무함유 DNA 분자의 분석에 기초하여, 복수의 윈도우(window) 중 하나의 윈도우 내에서 제1 복수의 세포-무함유 DNA 분자 말단의 제1 수를 결정하는 단계이되, 각각의 윈도우는 게놈 위치의 제1 세트 중 적어도 하나를 포함하는 단계;
    세포-무함유 DNA 분자의 제2 수를 사용하여 제1 복수의 세포-무함유 DNA 분자의 제1 수를 정규화함으로써 복수의 윈도우 중 하나의 윈도우 내에서 종결되는 제1 복수의 세포-무함유 DNA 분자의 상대 존재비(relative abundance)를 계산하되, 상기 세포-무함유 DNA 분자의 제2 수는 게놈 위치의 제1 세트를 포함하는 복수의 윈도우 밖의 게놈 위치의 제2 세트에서 종결되는 세포-무함유 DNA 분자를 포함하는, 단계; 및
    상기 상대 존재비를 제1 조직 유형의 비례 기여도가 알려져 있는 하나 이상의 보정 시료로부터 결정된 하나 이상의 보정값과 비교함으로써 제1 조직 유형의 비례 기여도의 분류를 결정하는 단계를 포함하는, 방법.
  2. 제1항에 있어서, 상기 복수의 윈도우는 1 bp의 폭을 갖는, 방법.
  3. 제1항에 있어서, 상기 상대 존재비는 제1 수와 제2 수의 비(ratio)를 포함하는, 방법.
  4. 제1항에 있어서, 상기 비례 기여도의 분류는 명시된 백분율을 초과하는 범위(range)에 상응하는, 방법.
  5. 제1항에 있어서, 상기 제1 조직 유형은 종양이고, 상기 분류는 대상체 내 종양 조직의 양, 대상체 내 종양의 크기, 대상체 내 종양의 병기(stage), 대상체 내 종양 부하(load), 및 대상체 내 종양 전이의 존재로 이루어진 군으로부터 선택되는, 방법.
  6. 제1항에 있어서, 게놈 위치의 제1 세트를 식별하는 단계는,
    적어도 하나의 부가적인 시료로부터의 제2 복수의 세포-무함유 DNA 분자를 컴퓨터 시스템에 의해 분석하여, 제2 복수의 세포-무함유 DNA 분자의 종결 위치를 식별하는 단계이되, 상기 적어도 하나의 부가적인 시료는 제1 조직 유형을 포함하는 것으로 알려져 있고 생물학적 시료와 동일한 시료 유형의 것인, 단계; 및
    복수의 게놈 윈도우의 각각의 게놈 윈도우에 대해:
    상기 게놈 윈도우 상에서 종결되는 제2 복수의 세포-무함유 DNA 분자의 상응하는 수를 계산하는 단계; 및
    상기 상응하는 수를 기준값과 비교하여, 상기 게놈 윈도우 내의 하나 이상의 게놈 위치 상에서 종결되는 세포-무함유 DNA 분자의 비율이 제1 역치를 초과하는지의 여부를 결정하는 단계를 포함하는, 방법.
  7. 제6항에 있어서, 상기 기준값은 상기 게놈 윈도우를 벗어난 게놈 위치에서 종결되는 제2 복수의 세포-무함유 DNA 분자의 수로부터 결정되는, 방법.
  8. 제7항에 있어서, 특정 게놈 위치가 상기 특정 게놈 위치 주변의 윈도우 내의 게놈 위치에서 종결되는 제2 복수의 세포-무함유 DNA 분자의 수에 비해 피크에 있는 경우, 특정 게놈 위치는 게놈 위치의 제1 세트에 있는 것으로 식별되는, 방법.
  9. 제6항에 있어서, 상기 기준값은 세포-무함유 DNA 분자의 평균 크기로 나눈 게놈 윈도우의 특정 게놈 위치 주변에 중심을 둔 윈도우에서 종결되는 상기 제2 복수의 세포-무함유 DNA 분자의 수를 사용하여 결정되는, 방법.
  10. 제6항에 있어서, 상기 기준값은 적어도 하나의 부가적인 시료에서 세포-무함유 DNA 분자의 확률 분포 및 평균 길이에 따라 게놈 윈도우 내에서 종결되는 세포-무함유 DNA 분자의 예상된 수인, 방법.
  11. 제6항에 있어서, 상기 적어도 하나의 부가적인 시료는 하나 이상의 보정 시료인, 방법.
  12. 제1항에 있어서,
    긴(long) 세포-무함유 DNA 분자의 말단이 제2 역치 초과의 제2 비율에서 발생하는 게놈 위치의 제2 세트를 식별하는 단계를 추가로 포함하며, 상기 긴 세포-무함유 DNA 분자는 제1 크기보다 더 큰 제2 크기를 갖는, 방법.
  13. 제12항에 있어서, 상기 제1 크기는 제1 범위의 크기이고, 상기 제2 크기는 제2 범위의 크기인, 방법.
  14. 제13항에 있어서, 상기 제1 범위의 크기는 제2 범위의 크기의 제2 최대보다 작은 제1 범위의 크기의 제1 최대에 의해 상기 제2 범위의 크기보다 작은, 방법.
  15. 제14항에 있어서, 상기 제1 범위의 크기는 상기 제2 범위의 크기와 중첩되는, 방법.
  16. 제1항에 있어서, 게놈 위치의 제2 세트는 제1 복수의 세포-무함유 DNA 분자 중 적어도 하나의 말단에 상응하는 모든 게놈 위치를 포함하는, 방법.
  17. 제1항에 있어서, 상대 존재비를 하나 이상의 보정값과 비교하는 것은, 복수의 보정 시료에서 측정된 제1 조직 유형의 비례 기여도 및 복수의 보정 시료에서 결정된 각각의 상대 존재비를 포함하는 보정점에 대한 보정 함수 적합(calibration function fit)을 사용하는, 방법.
  18. 제1 조직 유형을 포함하는 복수의 조직 유형으로부터 세포-무함유 DNA 분자의 혼합물을 포함하는 대상체의 생물학적 시료를 분석하여, 상기 제1 조직 유형이 세포-무함유 DNA 분자의 혼합물 내 염색체 영역에서 서열 불균형을 나타내는지의 여부를 결정하는 방법으로서, 상기 방법은,
    짧은 세포-무함유 DNA 분자의 말단이 제1 조직 유형을 함유하는 시료에 대한 제1 역치 초과의 제1 비율에서 발생하는 게놈 위치의 세트를 식별하는 단계이되, 상기 짧은 세포-무함유 DNA는 제1 크기를 갖는, 단계;
    생물학적 시료로부터 제1 복수의 세포-무함유 DNA 분자를 컴퓨터 시스템에 의해 분석하는 단계이되, 상기 세포-무함유 DNA 분자를 분석하는 단계는,
    상기 세포-무함유 DNA 분자의 적어도 하나의 말단에 상응하는 기준 게놈에서 게놈 위치를 결정하는 단계를 포함하고;
    상기 제1 복수의 세포-무함유 DNA 분자의 분석에 기초하여, 복수의 윈도우 중 하나의 윈도우 내에서 종결되고 염색체 영역에 위치하는 세포-무함유 DNA 분자의 그룹을 식별하는 단계이되, 각각의 윈도우는 게놈 위치의 세트 중 적어도 하나를 포함하는 단계;
    상기 세포-무함유 DNA 분자의 그룹의 값을 결정하는 단계; 및
    세포-무함유 DNA 분자의 그룹의 값과 기준값의 비교에 기초하여 대상체의 염색체 영역 내 제1 조직 유형에 상기 서열 불균형이 존재하는지의 여부의 분류를 결정하는 단계를 포함하는, 방법.
  19. 제18항에 있어서, 상기 기준값은 서열 불균형을 갖지 않는 하나 이상의 대조군 시료로부터 결정되는, 방법.
  20. 제18항에 있어서, 게놈 위치의 세트를 식별하는 단계는,
    적어도 하나의 부가적인 시료로부터의 제2 복수의 세포-무함유 DNA 분자를 컴퓨터 시스템에 의해 분석하여, 제2 복수의 세포-무함유 DNA 분자의 종결 위치를 식별하는 단계이되, 상기 적어도 하나의 부가적인 시료는 제1 조직 유형을 포함하는 것으로 알려져 있고 생물학적 시료와 동일한 시료 유형의 것인, 단계; 및
    복수의 게놈 윈도우의 각각의 게놈 윈도우에 대해:
    상기 게놈 윈도우 상에서 종결되는 제2 복수의 세포-무함유 DNA 분자의 상응하는 수를 계산하는 단계; 및
    상기 상응하는 수를 기준 비율과 비교하여, 상기 게놈 윈도우 내의 하나 이상의 게놈 위치 상에서 종결되는 세포-무함유 DNA 분자의 비율이 제1 역치를 초과하는지의 여부를 결정하는 단계를 포함하는, 방법.
  21. 제18항에 있어서, 세포-무함유 DNA 분자의 그룹의 값은 제1 복수의 세포-무함유 DNA 분자의 총 수를 사용하여 정규화되는, 방법.
  22. 제18항에 있어서, 세포-무함유 DNA 분자의 그룹의 값은 하나 이상의 기준 영역의 세포-무함유 DNA 분자의 또 다른 그룹의 값을 사용하여 정규화되는, 방법.
  23. 제18항에 있어서, 상기 서열 불균형은 이수성(aneuploidy), 증폭/결실, 또는 상기 염색체 영역의 좌위에서 복수의 조직 유형 중 다른 조직 유형으로부터의 제1 조직 유형의 상이한 유전자형의 결과인, 방법.
  24. 제23항에 있어서, 상기 서열 불균형은 복수의 조직 유형 중 다른 조직 유형으로부터의 제1 조직 유형의 상이한 유전자형의 결과이고, 세포-무함유 DNA 분자의 그룹의 값은 상기 좌위에 제1 대립유전자를 갖는 그룹의 세포-무함유 DNA 분자의 제1 수와 상기 좌위에 제2 대립유전자를 갖는 세포-무함유 DNA 분자의 제2 수 사이의 상대 존재비인, 방법.
  25. 제24항에 있어서, 다른 조직 유형은 염색체 영역 내 좌위에서 이형접합성이고, 상기 서열 불균형의 분류는 제1 대립유전자의 과다존재비(overabundance)여서 제1 조직 유형이 상기 제1 대립유전자에 대해 동형접합성임을 나타내는, 방법.
  26. 제24항에 있어서, 다른 조직 유형은 염색체 영역 내 좌위에서 이형접합성이고, 상기 분류는 상기 불균형이 없다는 것이어서 제1 조직 유형이 상기 제1 대립유전자 및 상기 제2 대립유전자에 대해 이형접합성임을 나타내는, 방법.
  27. 제18항에 있어서, 세포-무함유 DNA 분자의 그룹의 값은 세포-무함유 DNA 분자의 그룹의 양, 세포-무함유 DNA 분자의 그룹의 크기 분포의 통계값, 또는 세포-무함유 DNA 분자의 그룹의 메틸화 수준인, 방법.
  28. 제27항에 있어서, 세포-무함유 DNA 분자의 그룹의 값을 결정하는 단계는,
    복수의 윈도우 중 하나 내에서 종결되는 세포-무함유 DNA 분자의 그룹의 제1 서브그룹을 식별하되, 상기 제1 서브그룹은 염색체 영역 내 제1 반수체형에 상응하는 단계;
    상기 세포-무함유 DNA 분자의 제1 서브그룹의 제1 반수체형 값을 결정하는 단계;
    복수의 윈도우 중 하나 내에서 종결되는 세포-무함유 DNA 분자의 그룹의 제2 서브그룹을 식별하되, 상기 제2 서브그룹은 염색체 영역 내 제2 반수체형에 상응하는 단계;
    상기 세포-무함유 DNA 분자의 제2 서브그룹의 제2 반수체형 값을 결정하는 단계; 및
    상기 제1 반수체형 값 및 상기 제2 반수체형 값을 사용하여 분리값을 결정하되, 상기 분리값은 세포-무함유 DNA 분자의 그룹의 값인, 단계를 포함하는, 방법.
  29. 제27항에 있어서,
    기준값을 결정하되,
    복수의 기준 윈도우 중 하나의 기준 윈도우 내에서 종결되고 하나 이상의 기준 염색체 영역에 위치하는 세포-무함유 DNA 분자의 기준 그룹을 식별하되, 각각의 기준 윈도우는 게놈 위치의 세트 중 적어도 하나를 포함하는 단계; 및
    세포-무함유 DNA 분자의 기준 그룹의 기준값을 결정하되, 상기 기준값은 세포-무함유 DNA 분자의 기준 그룹의 양, 세포-무함유 DNA 분자의 기준 그룹의 크기 분포의 통계값, 또는 세포-무함유 DNA 분자의 기준 그룹의 메틸화 수준인, 단계에 의해 결정하는 단계를 추가로 포함하는, 방법.
  30. 제29항에 있어서, 값과 상기 기준값의 비교는,
    세포-무함유 DNA 분자의 그룹의 값 및 세포-무함유 DNA 분자의 기준 그룹의 기준값을 사용하여 분리값을 결정하는 단계; 및
    상기 분리값을, 서열 불균형 존재(existing)와 서열 불균형 부존재(no existing)의 분류를 분리하는 컷오프값과 비교하는 단계를 포함하는, 방법.
  31. 제18항에 있어서, 상기 염색체 영역은 염색체인, 방법.
  32. 제1 조직 유형을 포함하는 복수의 조직 유형으로부터 세포-무함유 DNA 분자의 혼합물을 포함하는 생물학적 시료를 분석하여, 상기 혼합물 내 상기 제1 조직 유형의 비례 기여도의 분류를 결정하는 방법으로서, 상기 방법은,
    제1 조직 유형에 상응하는 하나 이상의 조직-특이적 개방 염색질 영역(open chromatin region)의 중심으로부터 명시된 거리를 갖는 게놈 위치의 제1 세트를 식별하는 단계;
    대상체의 생물학적 시료로부터 제1 복수의 세포-무함유 DNA 분자를 분석하는 단계이되, 상기 세포-무함유 DNA 분자를 분석하는 단계는,
    상기 세포-무함유 DNA 분자의 두 말단 모두에 상응하는 기준 게놈에서 게놈 위치를 결정하는 단계; 및
    어떤 말단이 게놈 위치에 대한 더 낮은 값을 갖는지에 기초하여 하나의 말단을 업스트림 말단으로서 그리고 다른 말단을 다운스트림 말단으로서 분류하는 단계를 포함하고;
    제1 복수의 세포-무함유 DNA 분자의 제1 수가 게놈 위치의 제1 세트 중 하나에 업스트림 말단을 갖는지 결정하는 단계;
    제1 복수의 세포-무함유 DNA 분자의 제2 수가 게놈 위치의 제1 세트 중 하나에 다운스트림 말단을 갖는지 결정하는 단계;
    상기 제1 수와 상기 제2 수 사이의 분리값을 계산하는 단계; 및
    상기 분리값을 제1 조직 유형의 비례 기여도가 알려져 있는 하나 이상의 보정 시료로부터 결정된 하나 이상의 보정값과 비교함으로써 제1 조직 유형의 비례 기여도의 분류를 결정하는 단계를 포함하는, 방법.
  33. 제32항에 있어서, 상기 분리값을 하나 이상의 보정값과 비교하는 것은, 복수의 보정 시료에서 측정된 제1 조직 유형의 비례 기여도 및 복수의 보정 시료에서 결정된 각각의 상대 존재비를 포함하는 보정점에 대한 보정 함수 적합을 사용하는, 방법.
  34. 제1항, 제18항 또는 제32항 중 어느 한 항에 있어서, 상기 제1 조직 유형은 태아 조직인, 방법.
  35. 제1 조직 유형을 포함하는 복수의 조직 유형으로부터 세포-무함유 DNA 분자의 혼합물을 포함하는 생물학적 시료를 분석하여, 병태가 상기 혼합물 내 상기 제1 조직 유형에 존재하는지의 여부의 분류를 결정하는 방법으로서, 상기 방법은,
    제1 조직 유형에 상응하는 하나 이상의 조직-특이적 개방 염색질 영역의 중심으로부터 명시된 거리를 갖는 게놈 위치의 제1 세트를 식별하는 단계;
    대상체의 생물학적 시료로부터 제1 복수의 세포-무함유 DNA 분자를 분석하는 단계이되, 상기 세포-무함유 DNA 분자를 분석하는 단계는,
    상기 세포-무함유 DNA 분자의 두 말단 모두에 상응하는 기준 게놈에서 게놈 위치를 결정하는 단계; 및
    어떤 말단이 게놈 위치에 대한 더 낮은 값을 갖는지에 기초하여 하나의 말단을 업스트림 말단으로서 그리고 다른 말단을 다운스트림 말단으로서 분류하는 단계를 포함하고;
    제1 복수의 세포-무함유 DNA 분자의 제1 수가 게놈 위치의 제1 세트 중 하나에 업스트림 말단을 갖는지 결정하는 단계;
    제1 복수의 세포-무함유 DNA 분자의 제2 수가 게놈 위치의 제1 세트 중 하나에 다운스트림 말단을 갖는지 결정하는 단계;
    상기 제1 수 및 상기 제2 수를 사용하여 분리값을 계산하는 단계; 및
    상기 분리값과 기준값의 비교에 기초하여 병태가 대상체의 제1 조직 유형에 존재하는지의 여부의 분류를 결정하는 단계를 포함하는, 방법.
  36. 제32항 또는 제35항에 있어서, 상기 하나 이상의 조직-특이적 개방 염색질 영역은 상기 제1 조직 유형에 상응하는 적어도 500개의 조직-특이적 개방 염색질 영역을 포함하는, 방법.
  37. 제32항 또는 제35항에 있어서, 상기 분리값은 비(ratio) 및/또는 차이를 포함하는, 방법.
  38. 제32항 또는 제35항에 있어서, 상기 명시된 거리는 거리 범위를 포함하는, 방법.
  39. 제38항에 있어서, 상기 명시된 거리는 중심 전의 제1 범위의 거리를 포함하고 중심 후의 제2 범위의 거리를 포함하는, 방법.
  40. 제39항에 있어서, 상기 분리값에 대한 제1 기여도는 제1 범위에 대해 제1 방식으로 결정되고, 상기 분리값에 대한 제2 기여도는 제2 범위에 대해 제2 방식으로 결정되는, 방법.
  41. 제40항에 있어서, 상기 분리값은,
    Figure pct00004
    로서 결정되며, 피크 위치는 중심으로부터의 오프셋에 상응하고, 빈값(bin value)은 피크 위치 주변의 윈도우 크기에 상응하며, 제1 값은 제1 세트의 게놈 위치 중 하나에서의 값 U이고, 제2 수는 제1 세트의 게놈 위치 중 하나에서의 값 D인, 방법.
  42. 제35항에 있어서, 상기 기준값은 병태를 갖지 않는 하나 이상의 대조군 시료로부터 결정되는, 방법.
  43. 제35항에 있어서, 상기 기준값은 병태를 갖는 하나 이상의 대조군 시료로부터 결정되는, 방법.
  44. 제35항에 있어서, 상기 병태는 제1 조직 유형으로부터의 세포-무함유 DNA의 비정상적으로 높은 분획 농도(fractional concentration)인, 방법.
  45. 제35항에 있어서, 상기 병태는 이식된 기관의 거부인, 방법.
  46. 제35항에 있어서, 상기 병태는 제1 조직 유형의 암인, 방법.
  47. 제46항에 있어서, 상기 암은 간암, 결장암 또는 폐암인, 방법.
  48. 제1항, 제18항, 제32항 또는 제35항 중 어느 한 항에 있어서, 상기 제1 조직 유형은 종양인, 방법.
  49. 제1항, 제18항, 제32항 또는 제35항 중 어느 한 항에 있어서, 상기 제1 조직 유형은 이식 조직인, 방법.
  50. 제1항, 제18항, 제32항 또는 제35항 중 어느 한 항에 있어서, 제1 복수의 세포-무함유 DNA 분자를 분석하는 단계는,
    상기 제1 복수의 세포-무함유 DNA 분자를 시퀀싱하여, 시퀀스 판독값을 수득하는 단계; 및
    서열 판독물을 기준 게놈에 정렬시켜, 제1 복수의 세포-무함유 DNA 분자의 게놈 위치를 결정하는 단계를 포함하는, 방법.
  51. 제1항, 제18항, 제32항 또는 제35항 중 어느 한 항에 있어서, 제1 복수의 세포-무함유 DNA 분자를 분석하는 단계는,
    게놈 위치의 제1 세트에서 제1 복수의 세포-무함유 DNA 분자의 혼성화 포착 또는 증폭 단계를 포함하는, 방법.
  52. 상기 방법 중 임의의 방법의 작동을 수행하도록 컴퓨터 시스템을 제어하기 위한 복수의 명령(instruction)을 저장하는 컴퓨터 판독 가능 매체를 포함하는 컴퓨터 제품.
  53. 시스템으로서,
    제52항의 컴퓨터 제품; 및
    컴퓨터 판독 가능 매체 상에 저장된 명령을 실행하기 위한 하나 이상의 프로세서를 포함하는, 시스템.
  54. 제1항 내지 제51항 중 어느 한 항의 방법을 수행하기 위한 수단을 포함하는 시스템.
  55. 제1항 내지 제51항 중 어느 한 항의 방법을 수행하도록 구성된 하나 이상의 프로세서를 포함하는 시스템.
  56. 제1항 내지 제51항 중 어느 한 항의 방법의 단계를 각각 수행하는 모듈을 포함하는 시스템.
KR1020207034742A 2018-05-03 2019-05-03 세포-무함유 혼합물의 특성을 측정하기 위한 크기-태깅된 바람직한 말단 및 배향-인지 분석 KR20210014111A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862666574P 2018-05-03 2018-05-03
US62/666,574 2018-05-03
US201862732509P 2018-09-17 2018-09-17
US62/732,509 2018-09-17
PCT/CN2019/085426 WO2019210873A1 (en) 2018-05-03 2019-05-03 Size-tagged preferred ends and orientation-aware analysis for measuring properties of cell-free mixtures

Publications (1)

Publication Number Publication Date
KR20210014111A true KR20210014111A (ko) 2021-02-08

Family

ID=68385476

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207034742A KR20210014111A (ko) 2018-05-03 2019-05-03 세포-무함유 혼합물의 특성을 측정하기 위한 크기-태깅된 바람직한 말단 및 배향-인지 분석

Country Status (8)

Country Link
US (1) US20190341127A1 (ko)
EP (1) EP3788172A4 (ko)
KR (1) KR20210014111A (ko)
CN (1) CN112292458A (ko)
AU (1) AU2019263869A1 (ko)
CA (1) CA3105349A1 (ko)
TW (1) TW202012636A (ko)
WO (1) WO2019210873A1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11061026B2 (en) * 2017-02-17 2021-07-13 MFB Fertility, Inc. System of evaluating corpus luteum function by recurrently evaluating progesterone non-serum bodily fluids on multiple days
WO2020125709A1 (en) 2018-12-19 2020-06-25 The Chinese University Of Hong Kong Cell-free dna end characteristics
CA3162089A1 (en) * 2020-01-08 2021-07-15 Yuk-Ming Dennis Lo Biterminal dna fragment types in cell-free samples and uses thereof
IL298811B2 (en) 2020-02-05 2023-11-01 Univ Hong Kong Chinese Molecular tests using long cell-free sections in pregnancy
CN111724860B (zh) * 2020-06-18 2021-03-16 深圳吉因加医学检验实验室 一种基于测序数据识别染色质开放区域的方法及装置
CN111833967B (zh) * 2020-07-10 2022-05-20 华中农业大学 基于k-tree优化贝叶斯网络的上位性位点挖掘方法
GB202205710D0 (en) 2022-04-19 2022-06-01 Univ Of Essex Enterprises Limited Cell-free DNA-based methods
US20240011105A1 (en) * 2022-07-08 2024-01-11 The Chinese University Of Hong Kong Analysis of microbial fragments in plasma
CN115439473B (zh) * 2022-11-04 2023-04-07 北京精诊医疗科技有限公司 一种基于交互分组注意机制的多期相占位分类方法
CN116312774B (zh) * 2023-05-22 2024-03-15 臻和(北京)生物科技有限公司 基于cfDNA的癌症预测模型及其构建方法和应用

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090029377A1 (en) 2007-07-23 2009-01-29 The Chinese University Of Hong Kong Diagnosing fetal chromosomal aneuploidy using massively parallel genomic sequencing
FI3783110T3 (fi) * 2009-11-05 2023-03-02 Fetaalisen genomin analyysi maternaalisesta biologisesta näytteestä
BR112012010708A2 (pt) 2009-11-06 2016-03-29 Univ Hong Kong Chinese método para realizar diagnóstico pré-natal, e, produto de programa de computador
CN105243295B (zh) 2010-11-30 2018-08-17 香港中文大学 与癌症相关的遗传或分子畸变的检测
EP2728014B1 (en) * 2012-10-31 2015-10-07 Genesupport SA Non-invasive method for detecting a fetal chromosomal aneuploidy
US10364467B2 (en) 2015-01-13 2019-07-30 The Chinese University Of Hong Kong Using size and number aberrations in plasma DNA for detecting cancer
EP3739061B1 (en) 2015-07-20 2022-03-23 The Chinese University Of Hong Kong Methylation pattern analysis of haplotypes in tissues in dna mixture
IL305462A (en) * 2015-07-23 2023-10-01 Univ Hong Kong Chinese DNA fragmentation pattern analysis suitable clean

Also Published As

Publication number Publication date
EP3788172A1 (en) 2021-03-10
CA3105349A1 (en) 2019-11-07
AU2019263869A1 (en) 2020-11-26
WO2019210873A1 (en) 2019-11-07
CN112292458A (zh) 2021-01-29
TW202012636A (zh) 2020-04-01
EP3788172A4 (en) 2022-01-19
US20190341127A1 (en) 2019-11-07

Similar Documents

Publication Publication Date Title
JP6683752B2 (ja) 血漿による胎児または腫瘍のメチロームの非侵襲的決定
Sun et al. Orientation-aware plasma cell-free DNA fragmentation analysis in open chromatin regions informs tissue of origin
KR20210014111A (ko) 세포-무함유 혼합물의 특성을 측정하기 위한 크기-태깅된 바람직한 말단 및 배향-인지 분석
EP3543356B1 (en) Methylation pattern analysis of tissues in dna mixture
EP2771483A1 (en) Method for diagnosing a disease based on plasma-dna distribution
BR122021021820B1 (pt) Método para determinar um perfil de metilação de uma amostra biológica de um organismo e meio de armazenamento legível por computador

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant