KR20140050032A - 샘플 중 상이한 이수성의 존재 또는 부재를 결정하는 방법 - Google Patents

샘플 중 상이한 이수성의 존재 또는 부재를 결정하는 방법 Download PDF

Info

Publication number
KR20140050032A
KR20140050032A KR1020147002820A KR20147002820A KR20140050032A KR 20140050032 A KR20140050032 A KR 20140050032A KR 1020147002820 A KR1020147002820 A KR 1020147002820A KR 20147002820 A KR20147002820 A KR 20147002820A KR 20140050032 A KR20140050032 A KR 20140050032A
Authority
KR
South Korea
Prior art keywords
chromosome
chromosomes
sequence
interest
sample
Prior art date
Application number
KR1020147002820A
Other languages
English (en)
Other versions
KR101974492B1 (ko
Inventor
리차드 피. 라바
데이비드 에이. 콤스톡
브라이언 케이. 리스
Original Assignee
베리나타 헬스, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베리나타 헬스, 인코포레이티드 filed Critical 베리나타 헬스, 인코포레이티드
Publication of KR20140050032A publication Critical patent/KR20140050032A/ko
Application granted granted Critical
Publication of KR101974492B1 publication Critical patent/KR101974492B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6872Methods for sequencing involving mass spectrometry
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B10/00ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass

Abstract

본 발명은 하나 이상의 관심 서열의 양에 있어서 상이하다고 알려져 있거나 상이할 것으로 여겨지는 핵산의 혼합물을 포함하는 시험 샘플 중 관심 서열의 복사체 수 변이 (CNV)를 결정하는 방법을 제공한다. 상기 방법은 과정-관련된, 염색체간 및 시퀀싱간 가변성으로부터 발생한 가변성 스테밍을 설명하는 통계적 접근법을 포함한다. 상기 방법은 어떠한 태아 이수성의 CNV, 및 다양한 의학적 질환과 관련된 것으로 알려져 있거나 관련될 것으로 여겨지는 CNV를 결정하는데 이용될 수 있다. 본 발명의 방법에 따라 결정될 수 있는 CNV는 시험 샘플의 핵산을 단 1회 시퀀싱함에 의해 검출될 수 있는, 염색체 1-22, X 및 Y 중 임의의 하나 이상의 삼염색체 및 홑염색체, 그 밖의 염색체의 뭇염색체, 및 염색체 중 임의의 하나 이상의 세그먼트의 결실 및/또는 중복을 포함한다. 임의의 이수성은 시험 샘플의 핵산을 단 1회 시퀀싱함에 의해 수득되는 시퀀싱 정보로부터 결정될 수 있다.

Description

샘플 중 상이한 이수성의 존재 또는 부재를 결정하는 방법{METHOD FOR DETERMINING THE PRESENCE OR ABSENCE OF DIFFERENT ANEUPLOIDIES IN A SAMPLE}
본 발명은 일반적으로 진단 분야에 관한 것이고, 상이한 유전체로부터 유래된 핵산의 혼합물 중 핵산 서열의 양에 있어서의 변이를 결정하는 방법을 제공한다. 특히, 상기 방법은 비침습성 출생전 진단의 실시, 및 암 환자에서 전이 진행의 진단 및 모니터에 이용될 수 있다.
인간 의학 연구에서 중요한 노력 중 하나는 불리한 건강상 결과의 중심에 있는 유전적 기형의 발견에 있다. 많은 경우에, 이상 복사체 수로 존재하는 유전체의 부분에서 특수한 유전자 및/또는 결정적인 진단 마커가 확인되어 왔다. 예를 들어, 출생전 진단에서, 전체 염색체의 여분 또는 분실 복사체는 빈번하게 발생하는 유전자 병변이다. 암에서, 전체 염색체 또는 염색체 세그먼트의 복사체의 결실 또는 증가, 및 유전체의 특수한 영역의 높은 수준의 증폭이 일반적으로 발생한다.
복사체 수 변이에 대한 대부분의 정보는 구조적 이상의 인지를 허락한 세포유전학 분석에 의해 제공되었다. 유전자 스크리닝 및 생물학적 방사선량측정을 위한 통상적인 절차는 핵형의 분석을 위한 세포를 얻기 위해 양수검사와 같은 침습적 절차를 이용하였다. 복사체 수 변이의 분석을 위한 분자-세포유전학 방법으로서, 세포 배양, 동일계내 형광 하이브리드화 (FISH), 정량적 형광 PCT (QF-PCR) 및 어레이-비교 유전체 하이브리드화 (어레이-CGH)를 필요로 하지 않는 보다 신속한 시험 방법에 대한 요구가 인지되었다.
비교적 단시간에 전체 유전체를 시퀀싱할 수 있는 기법의 출현, 및 순환하는 무세포 DNA (cfDNA)의 발견은 침습적 샘플링 방법과 관련된 위험 없이 또 다른 것에 비해 한 염색체에서 비롯된 유전적 물질을 비교하는 기회를 제공하였다. 그러나, 제한적인 수준의 cfDNA로부터 불충분한 민감성 스테밍(stemming), 및 유전체 정보의 고유한 특징으로부터 기법 스테밍의 시퀀싱 바이어스를 포함하는 현존하는 방법의 한계들은 다양한 임상 환경에서 복사체 수 변화를 신뢰성 있게 진단하기 위해 특이성, 민감성, 및 이용가능성의 어느 하나 또는 전부를 제공할 비침습적 방법에 대한 지속적인 요구의 기초가 된다.
본 발명은 상기 요구 중 일부를 충족시키며, 특히, 적어도 비침습적 출생전 진단의 실시, 및 암 환자에서 전이 진행의 진단 및 모니터에 이용될 수 있는 신뢰할 만한 방법을 제공하는데 있어서 이점을 제공한다.
발명의 개요
본 발명은 하나 이상의 관심 서열의 양에 있어서 상이하다고 알려져 있거나 상이할 것으로 여겨지는 핵산의 혼합물을 포함하는 시험 샘플 중 관심 서열의 복사체 수 변이 (CNV)를 결정하는 방법을 제공한다. 상기 방법은 과정-관련된, 염색체간(interchromosomal) 및 시퀀싱간(inter-sequencing) 가변성으로부터 발생한 가변성 스테밍(variability stemming)을 설명하는 통계적 접근법을 포함한다. 상기 방법은 어떠한 태아 이수성의 CNV, 및 다양한 의학적 질환과 관련된 것으로 알려져 있거나 관련될 것으로 여겨지는 CNV를 결정하는데 이용될 수 있다. 본 발명의 방법에 따라 결정될 수 있는 CNV는 시험 샘플의 핵산을 단 1회 시퀀싱함에 의해 검출될 수 있는, 염색체 1-22, X 및 Y 중 임의의 하나 이상의 삼염색체 및 홑염색체, 그 밖의 염색체의 뭇염색체, 및 염색체 중 임의의 하나 이상의 세그먼트의 결실 및/또는 중복을 포함한다. 임의의 이수성은 시험 샘플의 핵산을 단 1회 시퀀싱함에 의해 수득되는 시퀀싱 정보로부터 결정될 수 있다.
한 구체예에서, 태아 및 모체 핵산 분자를 포함하는 모체 시험 샘플에서 어떠한 네 개 이상의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재를 결정하는 방법이 제공된다. 상기 방법의 단계는 (a) 모체 시험 샘플 중 태아 및 모체 핵산에 대한 서열 정보를 수득하고; (b) 상기 서열 정보를 이용하여 염색체 1-22, X 및 Y로부터 선택된 어떠한 네 개 이상의 관심 염색체 각각에 대해 다수의 서열 태그(tag)를 확인하고 어떠한 네 개 이상의 관심 염색체 각각에 대한 표준화 염색체 서열에 대해 다수의 서열 태그를 확인하며; (c) 어떠한 네 개 이상의 관심 염색체 각각에 대해 확인된 서열 태그의 수 및 각각의 표준화 염색체에 대해 확인된 서열 태그의 수를 이용하여 어떠한 네 개 이상의 관심 염색체 각각에 대한 단일 염색체 용량을 계산하고; (d) 어떠한 네 개 이상의 관심 염색체 각각에 대한 단일 염색체 용량 각각을 네 개 이상의 관심 염색체 각각에 대한 역치와 비교함으로써, 모체 시험 샘플 중 어떠한 네 개 이상의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재를 결정하는 것을 포함한다. 단계 (a)는 시험 샘플의 핵산 분자의 적어도 일부를 시퀀싱하여 시험 샘플의 태아 및 모체 핵산 분자에 대한 상기 서열 정보를 수득하는 것을 포함할 수 있다. 일부 구체예에서, 단계 (c)는 관심 염색체 각각에 대한 단일 염색체 용량을 관심 염색체 각각에 대해 확인된 서열 태그의 수 및 관심 염색체 각각에 대한 표준화 염색체 서열에 대해 확인된 서열 태그의 수의 비로서 계산하는 것을 포함한다. 그 밖의 일부 구체예에서, 단계 (c)는 (i) 단계 (b)에서 관심 염색체 각각에 대해 확인된 서열 태그의 수를 관심 염색체 각각의 길이와 관련시킴에 의해, 관심 염색체 각각에 대한 서열 태그 밀도 비를 계산하고; (ii) 단계 (b)에서 서열에 대해 확인된 서열 태그의 수를 각각의 표준화 염색체의 길이와 관련시켜 각각의 표준화 염색체 서열에 대한 서열 태그 밀도 비를 계산하고; (iii) 상기 단계 (i) 및 (ii)에서 계산된 서열 태그 밀도 비를 이용하여 관심 염색체 각각에 대한 단일 염색체 용량을 계산하는 것을 포함하고, 상기 염색체 용량은 관심 염색체 각각에 대한 서열 태그 밀도 비 및 관심 염색체 각각에 대한 표준화 염색체 서열에 대한 서열 태그 밀도 비의 비율로서 계산된다.
또 다른 구체예에서, 태아 및 모체 핵산 분자를 포함하는 모체 시험 샘플에서 어떠한 네 개 이상의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재를 결정하는 방법이 제공된다. 상기 방법의 단계는 (a) 모체 시험 샘플 중 태아 및 모체 핵산에 대한 서열 정보를 수득하고; (b) 상기 서열 정보를 이용하여 염색체 1-22, X 및 Y로부터 선택된 어떠한 네 개 이상의 관심 염색체 각각에 대해 다수의 서열 태그를 확인하고 어떠한 네 개 이상의 관심 염색체 각각에 대한 표준화 염색체 서열에 대해 다수의 서열 태그를 확인하며; (c) 어떠한 네 개 이상의 관심 염색체 각각에 대해 확인된 서열 태그의 수 및 각각의 표준화 염색체에 대해 확인된 서열 태그의 수를 이용하여 어떠한 네 개 이상의 관심 염색체 각각에 대한 단일 염색체 용량을 계산하고; (d) 어떠한 네 개 이상의 관심 염색체 각각에 대한 단일 염색체 용량 각각을 네 개 이상의 관심 염색체 각각에 대한 역치와 비교함으로써, 모체 시험 샘플 중 어떠한 네 개 이상의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재를 결정하는 것을 포함하고, 여기서 염색체 1-22, X, 및 Y로부터 선택된 어떠한 네 개 이상의 관심 염색체는 염색체 1-22, X, 및 Y로부터 선택된 적어도 20개의 염색체를 포함하고, 적어도 20개의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재가 결정된다. 단계 (a)는 시험 샘플의 핵산 분자의 적어도 일부를 시퀀싱하여 시험 샘플의 태아 및 모체 핵산 분자에 대한 상기 서열 정보를 수득하는 것을 포함할 수 있다. 일부 구체예에서, 단계 (c)는 관심 염색체 각각에 대한 단일 염색체 용량을 관심 염색체 각각에 대해 확인된 서열 태그의 수 및 관심 염색체 각각에 대한 표준화 염색체 서열에 대해 확인된 서열 태그의 수의 비로서 계산하는 것을 포함한다. 그 밖의 일부 구체예에서, 단계 (c)는 (i) 단계 (b)에서 관심 염색체 각각에 대해 확인된 서열 태그의 수를 관심 염색체 각각의 길이와 관련시킴에 의해, 관심 염색체 각각에 대한 서열 태그 밀도 비를 계산하고; (ii) 단계 (b)에서 표준화 염색체 서열에 대해 확인된 서열 태그의 수를 각각의 표준화 염색체의 길이와 관련시켜 각각의 표준화 염색체 서열에 대한 서열 태그 밀도 비를 계산하고; (iii) 상기 단계 (i) 및 (ii)에서 계산된 서열 태그 밀도 비를 이용하여 관심 염색체 각각에 대한 단일 염색체 용량을 계산하는 것을 포함하고, 상기 염색체 용량은 관심 염색체 각각에 대한 서열 태그 밀도 비 및 관심 염색체 각각에 대한 표준화 염색체 서열에 대한 서열 태그 밀도 비의 비율로서 계산된다.
또 다른 구체예에서, 태아 및 모체 핵산 분자를 포함하는 모체 시험 샘플에서 어떠한 네 개 이상의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재를 결정하는 방법이 제공된다. 상기 방법의 단계는 (a) 모체 시험 샘플 중 태아 및 모체 핵산에 대한 서열 정보를 수득하고; (b) 상기 서열 정보를 이용하여 염색체 1-22, X 및 Y로부터 선택된 어떠한 네 개 이상의 관심 염색체 각각에 대해 다수의 서열 태그를 확인하고 어떠한 네 개 이상의 관심 염색체 각각에 대한 표준화 염색체 서열에 대해 다수의 서열 태그를 확인하며; (c) 어떠한 네 개 이상의 관심 염색체 각각에 대해 확인된 서열 태그의 수 및 각각의 표준화 염색체에 대해 확인된 서열 태그의 수를 이용하여 어떠한 네 개 이상의 관심 염색체 각각에 대한 단일 염색체 용량을 계산하고; (d) 어떠한 네 개 이상의 관심 염색체 각각에 대한 단일 염색체 용량 각각을 네 개 이상의 관심 염색체 각각에 대한 역치와 비교함으로써, 모체 시험 샘플 중 어떠한 네 개 이상의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재를 결정하는 것을 포함하고, 여기서 염색체 1-22, X, 및 Y로부터 선택된 어떠한 네 개 이상의 관심 염색체는 모든 염색체 1-22, X, 및 Y이고, 모든 염색체 1-22, X, 및 Y의 완전한 태아 염색체 이수성의 존재 또는 부재가 결정된다. 단계 (a)는 시험 샘플의 핵산 분자의 적어도 일부를 시퀀싱하여 시험 샘플의 태아 및 모체 핵산 분자에 대한 상기 서열 정보를 수득하는 것을 포함할 수 있다. 일부 구체예에서, 단계 (c)는 관심 염색체 각각에 대한 단일 염색체 용량을 관심 염색체 각각에 대해 확인된 서열 태그의 수 및 관심 염색체 각각에 대한 표준화 염색체 서열에 대해 확인된 서열 태그의 수의 비로서 계산하는 것을 포함한다. 그 밖의 일부 구체예에서, 단계 (c)는 (i) 단계 (b)에서 관심 염색체 각각에 대해 확인된 서열 태그의 수를 관심 염색체 각각의 길이와 관련시킴에 의해, 관심 염색체 각각에 대한 서열 태그 밀도 비를 계산하고; (ii) 단계 (b)에서 표준화 염색체 서열에 대해 확인된 서열 태그의 수를 각각의 표준화 염색체의 길이와 관련시켜 각각의 표준화 염색체 서열에 대한 서열 태그 밀도 비를 계산하고; (iii) 상기 단계 (i) 및 (ii)에서 계산된 서열 태그 밀도 비를 이용하여 관심 염색체 각각에 대한 단일 염색체 용량을 계산하는 것을 포함하고, 상기 염색체 용량은 관심 염색체 각각에 대한 서열 태그 밀도 비 및 관심 염색체 각각에 대한 표준화 염색체 서열에 대한 서열 태그 밀도 비의 비율로서 계산된다.
상기 임의의 구체예에서, 표준화 염색체 서열은 염색체 1-22, X, 및 Y로부터 선택된 단일 염색체일 수 있다. 대안적으로, 표준화 염색체 서열은 염색체 1-22, X, 및 Y로부터 선택된 염색체의 그룹일 수 있다.
또 다른 구체예에서, 태아 및 모체 핵산을 포함하는 모체 시험 샘플에서 어떠한 하나 이상의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재를 결정하는 방법이 제공된다. 상기 방법의 단계는 (a) 샘플 중 태아 및 모체 핵산의 서열 정보를 수득하고; (b) 상기 서열 정보를 이용하여 염색체 1-22, X 및 Y로부터 선택된 어떠한 하나 이상의 관심 염색체 각각에 대해 다수의 서열 태그를 확인하고 어떠한 하나 이상의 관심 염색체 각각에 대한 표준화 세그먼트 서열에 대해 다수의 서열 태그를 확인하며; (c) 어떠한 하나 이상의 관심 염색체 각각에 대해 확인된 서열 태그의 수 및 표준화 세그먼트 서열에 대해 확인된 서열 태그의 수를 이용하여 어떠한 하나 이상의 관심 염색체 각각에 대한 단일 염색체 용량을 계산하고; (d) 어떠한 하나 이상의 관심 염색체 각각에 대한 단일 염색체 용량 각각을 하나 이상의 관심 염색체 각각에 대한 역치와 비교함으로써, 샘플 중 어떠한 하나 이상의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재를 결정하는 것을 포함한다. 단계 (a)는 시험 샘플의 핵산 분자의 적어도 일부를 시퀀싱하여 시험 샘플의 태아 및 모체 핵산 분자에 대한 상기 서열 정보를 수득하는 것을 포함할 수 있다.
일부 구체예에서, 단계 (c)는 관심 염색체 각각에 대한 단일 염색체 용량을 관심 염색체 각각에 대해 확인된 서열 태그의 수 및 관심 염색체 각각에 대한 표준화 세그먼트 서열에 대해 확인된 서열 태그의 수의 비로서 계산하는 것을 포함한다. 그 밖의 일부 구체예에서, 단계 (c)는 (i) 단계 (b)에서 관심 염색체 각각에 대해 확인된 서열 태그의 수를 관심 염색체 각각의 길이와 관련시킴에 의해, 관심 염색체 각각에 대한 서열 태그 밀도 비를 계산하고; (ii) 단계 (b)에서 표준화 세그먼트 서열에 대해 확인된 서열 태그의 수를 각각의 표준화 염색체의 길이와 관련시켜 각각의 표준화 세그먼트 서열에 대한 서열 태그 밀도 비를 계산하고; (iii) 상기 단계 (i) 및 (ii)에서 계산된 서열 태그 밀도 비를 이용하여 상기 관심 염색체 각각에 대한 단일 염색체 용량을 계산하는 것을 포함하고, 상기 염색체 용량은 관심 염색체 각각에 대한 서열 태그 밀도 비 및 관심 염색체 각각에 대한 표준화 세그먼트 서열에 대한 서열 태그 밀도 비의 비율로서 계산된다.
또 다른 구체예에서, 태아 및 모체 핵산을 포함하는 모체 시험 샘플에서 어떠한 하나 이상의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재를 결정하는 방법이 제공된다. 상기 방법의 단계는 (a) 샘플 중 태아 및 모체 핵산에 대한 서열 정보를 수득하고; (b) 상기 서열 정보를 이용하여 염색체 1-22, X 및 Y로부터 선택된 어떠한 하나 이상의 관심 염색체 각각에 대해 다수의 서열 태그를 확인하고 어떠한 하나 이상의 관심 염색체 각각에 대한 표준화 세그먼트 서열에 대해 다수의 서열 태그를 확인하며; (c) 어떠한 하나 이상의 관심 염색체 각각에 대해 확인된 서열 태그의 수 및 표준화 세그먼트 서열에 대해 확인된 서열 태그의 수를 이용하여 어떠한 하나 이상의 관심 염색체 각각에 대한 단일 염색체 용량을 계산하고; (d) 어떠한 하나 이상의 관심 염색체 각각에 대한 단일 염색체 용량 각각을 하나 이상의 관심 염색체 각각에 대한 역치와 비교함으로써, 샘플 중 하나 이상의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재를 결정하는 것을 포함하고, 여기서 염색체 1-22, X, 및 Y로부터 선택된 어떠한 하나 이상의 관심 염색체는 염색체 1-22, X, 및 Y로부터 선택된 적어도 20개의 염색체를 포함하고, 적어도 20개의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재가 결정된다. 단계 (a)는 시험 샘플의 핵산 분자의 적어도 일부를 시퀀싱하여 시험 샘플의 태아 및 모체 핵산 분자에 대한 상기 서열 정보를 수득하는 것을 포함할 수 있다. 일부 구체예에서, 단계 (c)는 관심 염색체 각각에 대한 단일 염색체 용량을 관심 염색체 각각에 대해 확인된 서열 태그의 수 및 관심 염색체 각각에 대한 표준화 세그먼트 서열에 대해 확인된 서열 태그의 수의 비로서 계산하는 것을 포함한다. 그 밖의 일부 구체예에서, 단계 (c)는 (i) 단계 (b)에서 관심 염색체 각각에 대해 확인된 서열 태그의 수를 관심 염색체 각각의 길이와 관련시킴에 의해, 관심 염색체 각각에 대한 서열 태그 밀도 비를 계산하고; (ii) 단계 (b)에서 표준화 세그먼트 서열에 대해 확인된 서열 태그의 수를 각각의 표준화 염색체의 길이와 관련시켜 각각의 표준화 세그먼트 서열에 대한 서열 태그 밀도 비를 계산하고; (iii) 상기 단계 (i) 및 (ii)에서 계산된 서열 태그 밀도 비를 이용하여 상기 관심 염색체 각각에 대한 단일 염색체 용량을 계산하는 것을 포함하고, 상기 염색체 용량은 관심 염색체 각각에 대한 서열 태그 밀도 비 및 관심 염색체 각각에 대한 표준화 세그먼트 서열에 대한 서열 태그 밀도 비의 비율로서 계산된다.
또 다른 구체예에서, 태아 및 모체 핵산을 포함하는 모체 시험 샘플에서 어떠한 하나 이상의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재를 결정하는 방법이 제공된다. 상기 방법의 단계는 (a) 샘플 중 태아 및 모체 핵산의 서열 정보를 수득하고; (b) 상기 서열 정보를 이용하여 염색체 1-22, X 및 Y로부터 선택된 어떠한 하나 이상의 관심 염색체 각각에 대해 다수의 서열 태그를 확인하고 어떠한 하나 이상의 관심 염색체 각각에 대한 표준화 세그먼트 서열에 대해 다수의 서열 태그를 확인하며; (c) 어떠한 하나 이상의 관심 염색체 각각에 대해 확인된 서열 태그의 수 및 표준화 세그먼트 서열에 대해 확인된 서열 태그의 수를 이용하여 어떠한 하나 이상의 관심 염색체 각각에 대한 단일 염색체 용량을 계산하고; (d) 어떠한 하나 이상의 관심 염색체 각각에 대한 단일 염색체 용량 각각을 하나 이상의 관심 염색체 각각에 대한 역치와 비교함으로써, 샘플 중 하나 이상의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재를 결정하는 것을 포함하고, 여기서 염색체 1-22, X, 및 Y로부터 선택된 어떠한 하나 이상의 관심 염색체는 모든 염색체 1-22, X, 및 Y이고, 모든 염색체 1-22, X, 및 Y의 완전한 태아 염색체 이수성의 존재 또는 부재가 결정된다. 단계 (a)는 시험 샘플의 핵산 분자의 적어도 일부를 시퀀싱하여 시험 샘플의 태아 및 모체 핵산 분자에 대한 상기 서열 정보를 수득하는 것을 포함할 수 있다. 일부 구체예에서, 단계 (c)는 관심 염색체 각각에 대한 단일 염색체 용량을 관심 염색체 각각에 대해 확인된 서열 태그의 수 및 관심 염색체 각각에 대한 표준화 세그먼트 서열에 대해 확인된 서열 태그의 수의 비로서 계산하는 것을 포함한다. 그 밖의 일부 구체예에서, 단계 (c)는 (i) 단계 (b)에서 관심 염색체 각각에 대해 확인된 서열 태그의 수를 관심 염색체 각각의 길이와 관련시킴에 의해, 관심 염색체 각각에 대한 서열 태그 밀도 비를 계산하고; (ii) 단계 (b)에서 표준화 세그먼트 서열에 대해 확인된 서열 태그의 수를 각각의 표준화 염색체의 길이와 관련시켜 각각의 표준화 세그먼트 서열에 대한 서열 태그 밀도 비를 계산하고; (iii) 상기 단계 (i) 및 (ii)에서 계산된 서열 태그 밀도 비를 이용하여 상기 관심 염색체 각각에 대한 단일 염색체 용량을 계산하는 것을 포함하고, 상기 염색체 용량은 관심 염색체 각각에 대한 서열 태그 밀도 비 및 관심 염색체 각각에 대한 표준화 세그먼트 서열에 대한 서열 태그 밀도 비의 비율로서 계산된다.
상기 임의의 한 구체예에서, 상이한 완전한 염색체 이수성은 완전한 염색체의 삼염색체, 완전한 염색체의 홑염색체 및 완전한 염색체의 뭇염색체로부터 선택된다. 상이한 완전한 염색체 이수성은 염색체 1-22, X, 및 Y 중 어느 하나의 완전한 이수성으로부터 선택된다. 예를 들어, 상기 상이한 완전한 태아 염색체 이수성은 2번 삼염색체증, 8번 삼염색체증, 9번 삼염색체증, 21번 삼염색체증, 13번 삼염색체증, 16번 삼염색체증, 18번 삼염색체증, 22번 삼염색체증, 47,XXY, 47,XXX, 47,XYY, 및 X 홑염색체로부터 선택된다.
상기 임의의 한 구체예에서, 단계 (a)-(d)는 상이한 모체 피검체로부터의 시험 샘플에 대해 반복되고, 상기 방법은 각각의 시험 샘플 중 어떠한 네 개 이상의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재를 결정하는 것을 포함한다.
상기 임의의 한 구체예에서, 상기 방법은 표준화 염색체 값 (NCV)을 계산하는 것을 추가로 포함할 수 있고, NCV는 적격 샘플의 세트에서 하기와 같이 염색체 용량을 상응하는 염색체 용량의 평균에 관련시킨다:
Figure pct00001
상기 식에서,
Figure pct00002
Figure pct00003
는 적격 샘플의 세트에서 j번째 염색체 용량에 대한 각기 추정 평균 및 표준 편차이고,
Figure pct00004
는 시험 샘플 i에 대해 관찰된 j번째 염색체 용량이다.
또 다른 구체예에서, 태아 및 모체 핵산을 포함하는 모체 시험 샘플에서 상이한 부분적인 태아 염색체 이수성의 존재 또는 부재를 결정하는 방법이 제공된다. 상기 방법의 단계는 (a) 샘플 중 태아 및 모체 핵산에 대한 서열 정보를 수득하고; (b) 상기 서열 정보를 이용하여 염색체 1-22, X 및 Y로부터 선택된 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대해 다수의 서열 태그를 확인하고 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대해 표준화 세그먼트 서열에 대한 다수의 서열 태그를 확인하며; (c) 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대해 확인된 서열 태그의 수 및 표준화 세그먼트 서열에 대해 확인된 상기 서열 태그의 수를 이용하여 어떠한 하나 이상의 관심 염색체의 상기 임의의 하나 이상의 세그먼트 각각에 대한 단일 세그먼트 용량을 계산하고; (d) 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대한 단일 세그먼트 용량 각각을 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 염색체 세그먼트 각각에 대한 역치와 비교함으로써, 샘플 중 하나 이상의 상이한 부분적인 태아 염색체 이수성의 존재 또는 부재를 결정하는 것을 포함한다. 단계 (a)는 시험 샘플의 핵산 분자의 적어도 일부를 시퀀싱하여 시험 샘플의 태아 및 모체 핵산 분자에 대한 상기 서열 정보를 수득하는 것을 포함할 수 있다.
일부 구체예에서, 단계 (c)는 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대한 단일 세그먼트 용량을 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대해 확인된 서열 태그의 수 및 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대한 표준화 세그먼트 서열에 대해 확인된 서열 태그의 수의 비로서 계산하는 것을 포함한다. 그 밖의 일부 구체예에서, 단계 (c)는 (i) 단계 (b)에서 관심 세그먼트 각각에 대해 확인된 서열 태그의 수를 관심 세그먼트 각각의 길이와 관련시킴에 의해, 관심 세그먼트 각각에 대한 서열 태그 밀도 비를 계산하고; (ii) 단계 (b)에서 표준화 세그먼트 서열에 대해 확인된 서열 태그의 수를 각각의 표준화 세그먼트 서열의 길이와 관련시켜 각각의 표준화 세그먼트 서열에 대한 서열 태그 밀도 비를 계산하고; (iii) 상기 단계 (i) 및 (ii)에서 계산된 서열 태그 밀도 비를 이용하여 관심 세그먼트 각각에 대한 단일 세그먼트 용량을 계산하는 것을 포함하고, 상기 세그먼트 용량은 관심 세그먼트 각각에 대한 서열 태그 밀도 비 및 관심 세그먼트 각각에 대한 표준화 세그먼트 서열에 대한 서열 태그 밀도 비의 비율로서 계산된다. 상기 방법은 표준화 세그먼트 값 (NSV)을 계산하는 것을 추가로 포함할 수 있고, NSV는 적격 샘플의 세트에서 하기와 같이 상기 세그먼트 용량을 상응하는 세그먼트 용량의 평균에 관련시킨다:
Figure pct00005
상기 식에서,
Figure pct00006
Figure pct00007
는 적격 샘플의 세트에서 j번째 세그먼트 용량에 대한 각기 추정 평균 및 표준 편차이고,
Figure pct00008
는 시험 샘플 i에 대해 관찰된 j번째 세그먼트 용량이다.
염색체 용량 또는 세그먼트 용량이 표준화 세그먼트 서열을 이용하여 결정된다고 기재된 방법의 구체예에서, 표준화 세그먼트 서열은 염색체 1-22, X, 및 Y 중 임의의 하나 이상의 단일 세그먼트일 수 있다. 대안적으로, 표준화 세그먼트 서열은 염색체 1-22, X, 및 Y 중 임의의 하나 이상의 세그먼트의 그룹일 수 있다.
부분적인 태아 염색체 이수성의 존재 또는 부재를 결정하기 위한 방법의 단계 (a)-(d)는 상이한 모체 피검체로부터의 시험 샘플에 대해 반복되고, 상기 방법은 각각의 상기 샘플 중 상이한 부분적인 태아 염색체 이수성의 존재 또는 부재를 결정하는 것을 포함한다. 본 방법에 따라 결정될 수 있는 부분적인 태아 염색체 이수성은 어떠한 염색체의 임의의 세그먼트의 부분적인 이수성을 포함한다. 부분적인 이수성은 부분적인 중복, 부분적인 증가, 부분적인 삽입 및 부분적인 결실로부터 선택될 수 있다. 본 방법에 따라 결정될 수 있는 부분적인 이수성의 예는 염색체 1의 부분적인 홑염색체, 염색체 4의 부분적인 홑염색체, 염색체 5의 부분적인 홑염색체, 염색체 7의 부분적인 홑염색체, 염색체 11의 부분적인 홑염색체, 염색체 15의 부분적인 홑염색체, 염색체 17의 부분적인 홑염색체, 염색체 18의 부분적인 홑염색체, 및 염색체 22의 부분적인 홑염색체를 포함한다.
상기 기재된 어느 하나의 구체예에서, 시험 샘플은 혈액, 혈장, 혈청, 소변 및 타액 샘플로부터 선택된 모체 샘플일 수 있다. 어느 하나의 구체예에서, 시험 샘플은 혈장 샘플일 수 있다. 모체 샘플의 핵산 분자는 태아 및 모체 세포가 없는 DNA 분자의 혼합물이다. 핵산의 시퀀싱은 차세대 시퀀싱 (NGS)을 이용하여 수행될 수 있다. 일부 구체예에서, 시퀀싱은 가역적 염료 종결자에 의한 합성을 통한 시퀀싱(sequencing-by-synthesis)을 이용한 대량 병렬 시퀀싱이다. 다른 구체예에서, 시퀀싱은 라이게이션을 통한 시퀀싱(sequencing-by-ligation)이다. 또한 다른 구체예에서, 시퀀싱은 단일 분자 시퀀싱이다. 임의로, 증폭 단계는 시퀀싱 이전에 수행된다.
또 다른 구체예에서, 태아 및 모체 세포가 없는 DNA 분자의 혼합물을 포함하는 모체 혈장 시험 샘플에서 어떠한 20개 이상의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재를 결정하는 방법이 제공된다. 상기 방법의 단계는 (a) 무세포 DNA 분자의 적어도 일부를 시퀀싱하여 샘플 중 태아 및 모체 세포가 없는 DNA 분자에 대한 서열 정보를 수득하고; (b) 상기 서열 정보를 이용하여 염색체 1-22, X, 및 Y로부터 선택된 어떠한 20개 이상의 관심 염색체 각각에 대해 다수의 서열 태그를 확인하고 상기 20개 이상의 관심 염색체 각각에 대한 표준화 염색체에 대해 다수의 서열 태그를 확인하며; (c) 20개 이상의 관심 염색체 각각에 대해 확인된 서열 태그의 수 및 각각의 표준화 염색체에 대해 확인된 서열 태그의 수를 이용하여 20개 이상의 관심 염색체 각각에 대한 단일 염색체 용량을 계산하고; (d) 20개 이상의 관심 염색체 각각에 대한 단일 염색체 용량 각각을 20개 이상의 관심 염색체 각각에 대한 역치와 비교함으로써, 샘플 중 어떠한 20개 이상의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재를 결정하는 것을 포함한다.
또 다른 구체예에서, 본 발명은 시험 샘플에서 관심 서열, 예컨대 임상적으로 관련된 서열의 복사체 수 변이 (CNV)를 확인하는 방법을 제공하고, 상기 방법은 (a) 시험 샘플 및 복수의 적격 샘플을 수득하는 단계로서, 상기 시험 샘플이 시험 핵산 분자를 포함하고 상기 복수의 적격 샘플이 적격 핵산 분자를 포함하는 단계; (b) 상기 샘플에서 상기 태아 및 모체 핵산에 대한 서열 정보를 수득하는 단계; (c) 상기 적격 핵산 분자의 상기 시퀀싱에 기반하여, 상기 복수의 적격 샘플 각각에서 상기 관심 적격 서열에 대한 적격 서열 용량을 계산하는 단계로서, 적격 서열 용량의 상기 계산이 상기 관심 적격 서열 및 하나 이상의 적격 표준화 서열에 대한 파라메터를 결정하는 것을 포함하는 단계; (d) 상기 적격 서열 용량에 기반하여, 하나 이상의 적격 표준화 서열을 확인하는 단계로서, 상기 하나 이상의 적격 표준화 서열이 상기 복수의 적격 샘플 중 서열 용량에 있어서 가장 작은 가변성 및/또는 가장 큰 차별성(differentiability)을 지니는 단계; (e) 상기 시험 샘플 중 상기 핵산 분자의 상기 시퀀싱에 기반하여, 상기 관심 시험 서열에 대해 시험 서열 용량을 계산하는 단계로서, 시험 서열 용량의 상기 계산이 상기 관심 시험 서열 및 하나 이상의 표준화 시험 서열에 대한 파라메터를 결정하는 것을 포함하고, 상기 하나 이상의 표준화 시험 서열이 상기 하나 이상의 적격 표준화 서열에 상응하는 단계; (f) 상기 시험 서열 용량을 하나 이상의 역치와 비교하는 단계; 및 (g) 상기 단계 (f)의 결과에 기반하여 상기 시험 샘플에서 상기 관심 서열의 상기 복사체 수 변이를 평가하는 단계를 포함한다. 한 구체예에서, 상기 관심 적격 서열 및 하나 이상의 적격 표준화 서열에 대한 파라메터는 상기 적격 표준화 서열에 대해 맵핑된 태그의 수에 대한 상기 관심 적격 서열에 대해 맵핑된 서열 태그의 수에 관한 것이고, 상기 관심 시험 서열 및 하나 이상의 표준화 시험 서열에 대한 상기 파라메터는 상기 표준화 시험 서열에 대해 맵핑된 태그의 수에 대한 상기 관심 시험 서열에 대해 맵핑된 서열 태그의 수에 관한 것이다. 일부 구체예에서, 단계 (b)는 적격 및 시험 핵산 분자의 적어도 일부를 시퀀싱하는 것을 포함하고, 시퀀싱은 시험 및 관심 적격 서열, 그리고 하나 이상의 시험 및 하나 이상의 적격 표준화 서열에 대한 복수의 맵핑된 서열 태그를 제공하는 것을 포함하고; 시험 샘플의 상기 핵산 분자의 적어도 일부를 시퀀싱시켜 시험 샘플의 태아 및 모체 핵산 분자에 대한 서열 정보를 수득한다. 일부 구체예에서, 시퀀싱 단계는 차세대 시퀀싱 방법을 이용하여 수행된다. 일부 구체예에서, 시퀀싱 방법은 가역적 염료 종결자에 의한 합성을 통한 시퀀싱을 이용하는 대량 병렬 시퀀싱 방법일 수 있다. 다른 구체예에서, 시퀀싱 방법은 라이게이션을 통한 시퀀싱이다. 일부 구체예에서, 시퀀싱은 증폭을 포함한다. 다른 구체예에서, 시퀀싱은 단일 분자 시퀀싱이다. 관심 서열의 CNV는 이수성이며, 염색체의 이수성 또는 부분적인 이수성일 수 있다. 일부 구체예에서, 염색체 이수성은 2번 삼염색체증, 8번 삼염색체증, 9번 삼염색체증, 16번 삼염색체증, 21번 삼염색체증, 13번 삼염색체증, 18번 삼염색체증, 22번 삼염색체증, 47,XXY, 47,XXX, 47,XYY, 및 X 홑염색체로부터 선택된다. 그 밖의 구체예에서, 부분적인 이수성은 부분적인 염색체의 결실 또는 부분적인 염색체의 삽입이다. 일부 구체예에서, 본 방법에 의해 확인된 CNV는 암과 관련된 염색체의 이수성 또는 부분적인 이수성이다. 일부 구체예에서, 시험 및 적격 샘플은 임신한 인간 피검체와 같은 임신한 피검체로부터 수득된 생물학적 유체 샘플, 예컨대 혈장 샘플이다. 다른 구체예에서, 시험 및 적격 생물학적 유체 샘플, 예컨대 혈장 샘플은 암을 지녔다고 알려져 있거나 여겨지는 피검체로부터 수득된다.
비록 본원의 실시예가 인간에 관한 것이고 언어가 주로 인간을 관심사로 하고 있으나, 본 발명의 개념은 임의의 식물 또는 동물로부터의 유전체에 이용될 수 있다.
참고문헌의 포함
본원에서 언급된 참고문헌 내에 기재된 모든 서열을 포함하는 모든 특허, 특허 출원, 및 그 밖의 간행물은 각각의 개별적인 간행물, 특허 또는 특허 출원이 구체적으로 그리고 개별적으로 참조로서 포함된다고 지시된 것과 동일한 한도로 명백하게 참조로서 포함된다. 인용된 모든 문서는 적절한 부분에서 본원에 참조로서 포함된다. 그러나, 어떠한 문서의 인용은 그것이 본 발명에 관한 종래 기술임을 용인하는 것으로 해석되어서는 안 된다.
본 발명의 신규한 특징은 첨부된 청구범위에 독자적으로 개시된다. 본 발명의 특징 및 이점은 본 발명의 원리를 활용한 예시적인 구체예에 개시된 하기 상세한 설명 및 다음과 같은 첨부된 도면을 참조로 하여 더 잘 이해될 것이다:
도 1은 핵산의 혼합물을 포함하는 시험 샘플에서 복사체 수 변이의 존재 또는 부재를 결정하기 위한 방법의 흐름도(100)이다.
도 2는 남아 또는 여아를 각각 임신한 인간 피검체로부터 수득된 48개 혈액 샘플의 세트로부터 추출된 cfDNA를 시퀀싱시켜 결정된 염색체 21에 대한 염색체 용량의 분포를 도시한다. 염색체 21에 대한 적격, 즉 정상(○), 및 21번 삼염색체증(△) 시험 샘플에 대한 염색체 21 용량을 염색체 1-12 및 X (도 2a), 및 염색체 1-22 및 X (도 2b)에 대해 도시한다.
도 3은 남아 또는 여아를 각각 임신한 인간 피검체로부터 수득된 48개 혈액 샘플의 세트로부터 추출된 cfDNA를 시퀀싱시켜 결정된 염색체 18에 대한 염색체 용량의 분포를 도시한다. 염색체 18에 대한 적격, 즉 정상(○), 및 18번 삼염색체증(△) 시험 샘플에 대한 염색체 18 용량을 염색체 1-12 및 X (도 3a), 및 염색체 1-22 및 X (도 3b)에 대해 도시한다.
도 4는 남아 또는 여아를 각각 임신한 인간 피검체로부터 수득된 48개 혈액 샘플의 세트로부터 추출된 cfDNA를 시퀀싱시켜 결정된 염색체 13에 대한 염색체 용량의 분포를 도시한다. 염색체 13에 대한 적격, 즉 정상(○), 및 13번 삼염색체증(△) 시험 샘플에 대한 염색체 13 용량을 염색체 1-12 및 X (도 4a), 및 염색체 1-22 및 X (도 4b)에 대해 도시한다.
도 5는 남아 또는 여아를 각각 임신한 인간 피검체로부터 수득된 48개 시험 혈액 샘플의 세트로부터 추출된 cfDNA를 시퀀싱시켜 결정된 염색체 X에 대한 염색체 용량의 분포를 도시한다. 남아 (46,XY; (○)), 여아 (46,XX; (△)); X 홑염색체 (45,X; (+)), 및 복잡한 핵형 (Cplx (×)) 샘플에 대한 염색체 X 용량을 염색체 1-12 및 X (도 5a), 및 염색체 1-22 및 X (도 5b)에 대해 도시한다.
도 6은 남아 또는 여아를 각각 임신한 인간 피검체로부터 수득된 48개 시험 혈액 샘플의 세트로부터 추출된 cfDNA를 시퀀싱시켜 결정된 염색체 Y에 대한 염색체 용량의 분포를 도시한다. 남아 (46,XY; (○)), 여아 (46,XX; (△)); X 홑염색체 (45,X; (+)), 및 복잡한 핵형 (Cplx (×)) 샘플에 대한 염색체 Y 용량을 염색체 1-12 (도 6a), 및 염색체 1-22 (도 6b)에 대해 도시한다.
도 7은 도 2, 3, 및 4에 각각 도시된 용량으로부터 결정된 염색체 21 (■), 18 (●) 및 13 (▲)에 대한 변이 계수 (CV)를 도시한다.
도 8은 도 5 및 6에 각각 도시된 용량으로부터 결정된 염색체 X (■) 및 Y (●)에 대한 변이 계수 (CV)를 도시한다.
도 9는 인간 염색체에 의한 GC 분획의 누적 분포를 도시한다. 수직축은 수평축 상에 도시된 값 아래의 CG 함량을 지닌 염색체의 빈도를 나타낸다.
도 10은 수득된 7개의 적격 샘플의 세트(○) 및 임신한 인간 피검체로부터의 1개의 시험 샘플(◆)로부터 추출된 cfDNA를 시퀀싱시켜 결정된 염색체 11의 세그먼트(81000082-103000103bp)에 대한 서열 용량 (Y-축)을 예시한다. 염색체 11의 부분적인 이수성을 지닌 태아를 품고 있는 피검체로부터의 샘플(◆)이 확인되었다.
도 11은 변질되지 않은 샘플에서의 상응하는 염색체에 대한 평균의 표준 편차 (Y-축)에 비해 염색체 21 (A), 염색체 18 (B), 염색체 13 (C), 염색체 X (D) 및 염색체 Y (E)에 대한 표준화 염색체 용량의 분포를 예시한다.
도 12는 실시예 6에 기재된 표준화 염색체를 이용하여 트레이닝 세트 1로부터의 샘플에서 결정된 염색체 21(○), 18(△), 및 13 (□)에 대한 표준화 염색체 값을 도시한다.
도 13은 실시예 6에 기재된 표준화 염색체를 이용하여 시험 세트 1로부터의 샘플에서 결정된 염색체 21(○), 18(△), 및 13 (□)에 대한 표준화 염색체 값을 도시한다.
도 14는 Chiu 등의 표준화 방법을 이용하여 시험 세트 1로부터의 샘플에서 결정된 염색체 21(○) 및 18(△)에 대한 표준화 염색체 값을 도시한다 (관심 염색체에 대해 확인된 서열 태그의 수를 샘플에 남아 있는 염색체에 대해 수득된 서열 태그의 수로 표준화시킨다; 본원의 다른 곳에서 실시예 7을 참조하라).
도 15는 체계적으로 결정된 표준화 염색체를 이용하여 트레이닝 세트 1로부터의 샘플에서 결정된 염색체 21(○), 18(△), 및 13 (□)에 대한 표준화 염색체 값을 도시한다 (실시예 7에 기재된 대로).
도 16은 체계적으로 결정된 표준화 염색체를 이용하여 시험 세트 1로부터의 샘플에서 결정된 염색체 21(○), 18(△), 및 13 (□)에 대한 표준화 염색체 값을 도시한다 (실시예 7에 기재된 대로).
도 17은 체계적으로 결정된 표준화 염색체를 이용하여 시험 세트 1로부터의 샘플에서 결정된 염색체 9(○)에 대한 표준화 염색체 값을 도시한다 (실시예 7에 기재된 대로).
도 18은 염색체 X (X-축) 및 Y (Y-축)에 대한 표준화 염색체 값을 도시한다. 화살표는 실시예 7에 기재된 대로, 각기, 트레이닝 및 시험 세트에서 확인된 5개 (도 18a) 및 3개 (도 18b) X 홑염색체 샘플을 나타낸다.
도 19는 체계적으로 결정된 표준화 염색체를 이용하여 시험 세트 1로부터의 샘플에서 결정된 염색체 1-22에 대한 표준화 염색체 값을 도시한다 (실시예 7에 기재된 대로).
본 발명은 하나 이상의 관심 서열의 양에 있어서 상이한 것으로 알려져 있거나 상이할 것으로 여겨지는 핵산의 혼합물을 포함하는 시험 샘플에서 관심 서열의 복사체 수 변이 (CNV)를 결정하는 방법을 제공한다. 관심 서열은 유전적 또는 질환 병태와 관련된 것으로 알려져 있거나 여겨지는 전체 염색체에 대해 킬로베이스 (kb) 내지 메가베이스 (Mb) 범위의 유전체 서열을 포함한다. 관심 서열의 예는 잘 알려진 이수성, 예컨대 21번 삼염색체증과 연관된 염색체, 및 암과 같은 질환에서 증가되는 염색체, 예컨대 급성 골수성 백혈병에서 부분적인 8번 삼염색체증의 세그먼트를 포함한다. 본 방법에 따라 결정될 수 있는 CNV는 보통염색체 1-22, 및 성 염색체 X 및 Y 중 임의의 하나 이상의 홑염색체 및 삼염색체, 예컨대 45,X, 47,XXX, 47,XXY 및 47,XYY, 그 밖의 염색체의 뭇염색체, 즉 이로 제한되는 것은 아니지만 XXXX, XXXXX, XXXXY 및 XYYYY를 포함하는 사염색체 및 오염색체, 및 염색체 중 임의의 하나 이상의 세그먼트의 결실 및/또는 중복을 포함한다.
상기 방법은 과정-관련된, 염색체간(진행-내) 및 시퀀싱간(진행-간) 가변성으로부터 발생한 가변성 스테밍을 설명하는 통계적 접근법을 포함한다. 상기 방법은 어떠한 태아 이수성의 CNV, 및 다양한 의학적 질환과 관련된 것으로 알려져 있거나 관련될 것으로 여겨지는 CNV를 결정하는데 이용될 수 있다.
달리 지시되지 않는 한, 본 발명의 실시는 당 분야의 기술 내에 있는 분자 생물학, 미생물학, 단백질 정제, 단백질 공학, 단백질 및 DNA 시퀀싱, 및 재조합 DNA 분야에서 일반적으로 이용되는 통상적인 기법을 포함한다. 상기 기법은 당업자에게 공지되어 있고 다수의 문헌 및 참고 문서에 기재되어 있다 (예컨대, Sambrook et al., "Molecular Cloning: A Laboratory Manual", Third Edition (Cold Spring Harbor), [2001]); and Ausubel et al., "Current Protocols in Molecular Biology" [1987]를 참조하라).
수치 범위는 그 범위를 규정하고 있는 숫자를 포함한다. 본 명세서를 통틀어 제공된 모든 최대 수치적 제한은 모든 아래쪽 수치 제한이 본원에 명백히 쓰여진 것처럼, 그러한 아래쪽 수치 제한을 포함하고자 한다. 본 명세서를 통틀어 제공된 모든 최소 수치적 제한은 모든 위쪽 수치 제한이 본원에 명백히 쓰여진 것처럼, 그러한 위쪽 수치 제한을 포함할 것이다. 본 명세서를 통틀어 제공된 모든 수치 범위는 모든 더 좁은 수치 범위가 모두 본원에 명백히 쓰여진 것처럼, 더 넓은 수치 범위 내에 있는 그러한 더 좁은 수치 범위를 포함할 것이다.
본원에 제공된 제목은 본 명세서와 관련하여 총괄하여 지닐 수 있는 본 발명의 다양한 양태 또는 구체예를 제한하는 것이 아니다. 따라서, 상기 지시된 대로, 바로 아래에 정의된 용어는 총괄적으로 본 명세서와 관련하여 더욱 충분히 정의된다.
본원에서 달리 정의되지 않는 한, 본원에서 사용된 모든 기술적 및 과학적 용어는 본 발명이 속하는 분야의 당업자가 일빈적으로 이해하는 것과 동일한 의미를 지닌다. 본원에 포함된 용어를 포함하는 다양한 과학 사전은 잘 알려져 있고 당업자가 이용가능하다. 비록 본원에 기재된 것과 유사하거나 동등한 임의의 방법 및 물질이 본 발명의 실시 또는 시험에 이용되지만, 일부 바람직한 방법 및 물질이 기재되어 있다. 따라서, 바로 아래에 정의된 용어는 총괄적으로 본 명세서와 관련하여 더욱 충분히 기재된다. 본 발명은, 방법, 프로토콜 및 시약이 당업자에 의해 이용되는 상황에 따라 다양할 수 있으므로, 기재된 특정 방법, 프로토콜 및 시약으로 제한되지 않는다.
정의
본원에서 사용된 단수 용어는 문맥에서 달리 명확하게 지시되지 않는 한 복수의 언급을 포함한다. 달리 지시되지 않는 한, 각각, 핵산은 5'에서 3' 배향으로 왼쪽에서 오른쪽으로 쓰여지며 아미노산 서열은 아미노에서 카르복시 배향으로 왼쪽에서 오른쪽으로 쓰여진다.
본원에서 용어 "평가하는"이란 "정상", "변질된(affected)" 및 "노-콜(no-call)"의 세 가지 유형의 콜 중 하나에 의해 염색체 이수성의 상태를 특성화하는 것을 언급한다. 예를 들어, 삼염색체성의 존재하에 "정상" 콜은 사용자-정의된 확실성의 역치 아래에 있는 파라메터의 값, 예컨대 시험 염색체 용량에 의해 결정되고, "변질된" 콜은 사용자-정의된 확실성의 역치 위에 있는 파라메터, 예컨대 시험 염색체 용량에 의해 결정되며, "노-콜" 결과는 "정상" 또는 "변질된" 콜이 되게 하는 사용자-정의된 확실성의 역치 사이에 놓인 파라메터, 예컨대 시험 염색체 용량에 의해 결정된다.
본원의 용어 "복사체 수 변이"는 적격 샘플에 존재하는 핵산 서열의 복사체 수에 비해 시험 샘플에 존재하는 1 kb 또는 그 초과인 핵산 서열의 복사체 수에서의 변이를 언급한다. "복사체 수 변이체"는 복사체-수 차이가 시험 샘플에서의 관심 서열을 적격 샘플에 존재하는 서열과 비교함에 의해 발견되는 핵산의 1 kb 또는 그 초과의 서열을 언급한다. 복사체 수 변이체/변이는 미세결실을 포함하는 결실, 미세삽입을 포함하는 삽입, 중복, 증가, 역전, 전위 및 복잡한 다중-부위 변이체를 포함한다. CNV는 염색체 이수성 및 부분적인 이수성을 포함한다.
본원의 용어 "이수성"은 전체 염색체, 또는 염색체 일부의 손실 또는 획득에 의해 발생하는 유전적 물질의 불균형을 의미한다.
본원의 용어 "염색체 이수성" 및 "완전한 염색체 이수성"은 전체 염색체의 손실 또는 획득에 의해 발생하는 유전적 물질의 불균형을 의미하고, 생식세포(germline) 이수성 및 모자이크 이수성을 포함한다.
본원의 용어 "부분적인 이수성" 및 "부분적인 염색체 이수성"은 염색체의 손실 또는 획득에 의해 발생하는 유전적 물질의 불균형, 예컨대 부분적인 홑염색체 및 부분적인 삼염색체를 의미하고, 전위, 결실 및 삽입으로부터 초래된 불균형을 포함한다.
본원의 용어 "이수성 샘플"은 정배수성이 아닌 염색체 내용물을 갖는 피검체를 나타내는 샘플을 의미하고, 즉 샘플은 비정상적인 염색체의 복사체 수를 갖는 피검체를 나타낸다.
본원의 용어 "이수성 염색체"는 비정상적인 복사체 수로 샘플에 존재하는 것이 알려져 있거나 그렇게 결정된 염색체를 의미한다.
용어 "복수"는 본 발명의 방법을 이용하여 시험 샘플과 적격 샘플에서 복사체 수 변이 (예컨대, 염색체 용량)에서의 유의한 차이를 확인하기에 충분한 다수의 핵산 분자 또는 서열 태그에 관해 본원에서 이용된다. 일부 구체예에서, 20 내지 40bp 리드(read)를 포함하는 적어도 약 3 x 106개 서열 태그, 적어도 약 5 x 106개 서열 태그, 적어도 약 8 x 106개 서열 태그, 적어도 약 10 x 106개 서열 태그, 적어도 약 15 x 106개 서열 태그, 적어도 약 20 x 106개 서열 태그, 적어도 약 30 x 106개 서열 태그, 적어도 약 40 x 106개 서열 태그, 또는 적어도 약 50 x 106개 서열 태그가 각각의 시험 샘플에 대해 수득된다.
용어 "폴리뉴클레오티드", "핵산" 및 "핵산 분자"는 상호교환적으로 이용되고, 한 뉴클레오티드의 펜토스의 3' 위치가 다음 뉴클레오티드의 펜토스의 5' 위치에 포스포다이에스테르기에 의해 연결되어 있는 뉴클레오티드(즉, RNA의 경우 리보뉴클레오티드 및 DNA의 경우 데옥시리보뉴클레오티드)의 공유 연결된 서열을 의미하며, 이로 제한되는 것은 아니지만 RNA, DNA 및 cfDNA 분자를 포함하는 핵산의 임의의 형태의 서열을 포함한다. 용어 "폴리뉴클레오티드"는 비제한적으로 단일- 및 이중-가닥 폴리뉴클레오티드를 포함한다.
용어 "일부"는 생물학적 샘플에서 요컨대 <1 인간 유전체의 서열 정보보다 적은 양의 태아 및 모체 핵산 분자의 서열 정보의 양에 관해 본원에서 이용된다.
본원의 용어 "시험 샘플"은 변이를 겪은 것으로 여겨지는 복사체 수를 갖는 하나 이상의 핵산 서열을 포함하는 핵산의 혼합물을 포함하는 샘플을 의미한다. 시험 샘플에 존재하는 핵산은 "시험 핵산"으로서 언급된다.
본원의 용어 "적격 샘플"은 시험 샘플 중의 핵산이 비교되는 공지된 복사체 수로 존재하는 핵산의 혼합물을 포함하는 샘플을 의미하고, 이것은 관심 서열에 대해 정상인, 즉 이수성이 아닌 샘플이며, 예컨대 염색체 21에 대한 표준화 염색체를 확인하기 위해 이용된 적격 샘플은 21번 삼염색체증 샘플이 아닌 샘플이다.
본원의 용어 "트레이닝 세트"는 변질된 샘플 및 변질되지 않은 샘플을 포함할 수 있는 샘플의 세트를 의미한다. 트레이닝 세트에서 변질되지 않은 샘플을 표준화 서열, 예컨대 표준화 염색체를 확인하기 위한 적격 샘플로서 이용하고, 변질되지 않은 샘플의 염색체 용량은 관심 서열, 예컨대 염색체 각각에 대한 역치를 설정하는데 이용한다. 트레이닝 세트 중 변질된 샘플은 변질된 시험 샘플을 변질되지 않은 샘플로부터 용이하게 구별할 수 있음을 증명하기 위해 이용될 수 있다.
용어 "적격 핵산"은 "적격 서열"과 상호교환적으로 이용되며 시험 서열 또는 시험 핵산의 양이 비교되는 서열이다. 적격 서열은 바람직하게는 공지된 묘사(representation)로 생물학적 샘플에 존재하는, 즉 적격 서열의 양이 알려져 있는 서열이다. "관심 적격 서열"은 적격 샘플 중의 양이 공지되어 있는 적격 서열이고, 의학적 질환을 지닌 개체에서 서열 묘사의 차이와 연관된 서열이다.
본원의 용어 "관심 서열"은 건강한 개체 대 질병에 걸린 개체에서 서열 묘사의 차이와 연관된 핵산 서열을 의미한다. 관심 서열은 질환 또는 유전적 병태에서 잘못 묘사되는, 즉 과잉- 또는 과소-묘사되는 염색체에 대한 서열일 수 있다. 관심 서열은 또한 염색체의 일부, 즉 염색체 세그먼트이거나 염색체일 수 있다. 예를 들어, 관심 서열은 이수성 병태에서 과잉-묘사되는 염색체, 또는 암에서 과소-묘사되는 종양-억제제를 엔코딩하는 유전자일 수 있다. 관심 서열은 총 집단, 또는 피검체의 세포의 하위집단에서 과잉- 또는 과소-묘사되는 서열을 포함한다. "관심 적격 서열"은 적격 샘플에서의 관심 서열이다. "관심 시험 서열"은 시험 샘플에서의 관심 서열이다.
본원의 용어 "표준화 서열"은 표준화 파라메터로서 이용되는 관심 서열의 것과 가장 비슷하고, 하나 이상의 변질되지 않은 샘플로부터 변질된 샘플을 가장 잘 구별할 수 있는, 샘플 및 시퀀싱 진행 중에서 이에 대해 맵핑되는 서열 태그의 수에서 가변성을 나타내는 서열을 의미한다. "표준화 염색체" 또는 "표준화 염색체 서열"은 "표준화 서열"의 예이다. "표준화 염색체 서열"은 단일 염색체 또는 염색체의 그룹으로 구성될 수 있다. "표준화 세그먼트"는 "표준화 서열"의 또 다른 예이다. "표준화 세그먼트 서열"은 염색체의 단일 세그먼트로 구성될 수 있거나, 동일하거나 상이한 염색체의 2개 이상의 세그먼트로 구성될 수 있다.
본원의 용어 "차별성"은 하나 이상의 변질된, 즉, 이수성 샘플로부터 하나 이상의 변질되지 않은, 즉 정상 샘플을 구별할 수 있게 하는 표준화 염색체의 특징을 의미한다.
본원의 용어 "서열 용량"은 관심 서열의 서열 태그 밀도를 표준화 서열의 태그 밀도와 관련시키는 파라메터를 의미한다. "시험 서열 용량"은 염색체 21과 같은 관심 서열의 서열 태그 밀도를 시험 샘플에서 결정된 염색체 9와 같은 표준화 서열의 서열 태그 밀도와 관련시키는 파라메터이다. 유사하게, "적격 서열 용량"은 관심 서열의 서열 태그 밀도를 적격 샘플에서 결정된 표준화 서열의 서열 태그 밀도와 관련시키는 파라메터이다.
본원의 용어 "서열 태그 밀도"는 참조 유전체 서열에 대해 맵핑되는 서열 리드의 수를 의미하며, 예컨대 염색체 21에 대한 서열 태그 밀도는 참조 유전체의 염색체 21에 대해 맵핑되는 시퀀싱 방법에 의해 발생한 서열 리드의 수이다. 본원의 용어 "서열 태그 밀도 비"는 참조 유전체 염색체 21의 길이에 대한 염색체 21과 같은 참조 유전체의 염색체에 대해 맵핑된 서열 태그의 수의 비를 의미한다.
본원의 용어 "차세대 시퀀싱 (NGS)"은 클론에 의해 증폭된 핵산 분자 및 단일 핵산 분자의 대량 병렬 시퀀싱을 가능하게 하는 시퀀싱 방법을 의미한다. NGS의 비제한적인 예는 가역적 염료 종결자를 이용한 합성을 통한 시퀀싱, 및 라이게이션을 통한 시퀀싱을 포함한다.
본원의 용어 "파라메터"는 정량적인 데이터 세트 및/또는 정량적인 데이터 세트간의 수치적 상관관계를 특성화하는 수치 값을 의미한다. 예를 들어, 염색체에 대해 맵핑되는 서열 태그의 수 및 태그가 맵핑된 염색체의 길이간의 비 (또는 비율의 함수)가 파라메터이다.
본원의 용어 "역치" 및 "적격 역치"는 적격 데이터 세트를 이용하여 계산되고 유기체에서 복사체 수 변이, 예컨대 이수성의 진단의 한계치로서 기능하는 임의의 수를 의미한다. 본 발명을 실시하여 수득된 결과가 역치를 초과하는 경우, 피검체는 복사체 수 변이, 예컨대 21번 삼염색체증을 갖는 것으로 진단될 수 있다. 본원에 기재된 방법에 대한 적절한 역치는 샘플의 트레이닝 세트에 대해 계산된 표준화 값 (예컨대, 염색체 용량, NCV 또는 NSV)을 분석함에 의해 확인될 수 있다. 역치는 적격 (즉, 변질되지 않은) 샘플 및 변질된 샘플 둘 모두를 포함하는 트레이닝 세트에서 적격 (즉, 변질되지 않은) 샘플을 이용하여 확인될 수 있다. 염색체 이수성 (즉, 변질된 샘플)을 갖는 것으로 공지된 트레이닝 세트의 샘플을 이용하여 선택된 역치가 시험 세트에서 변질되지 않은 샘플로부터 변질된 샘플을 구별하는데 유용함을 확인할 수 있다 (본원의 실시예를 참조하라). 역치의 선택은 사용자가 분류를 수행해야 한다고 생각하는 확신의 정도에 의존적이다. 일부 구체예에서, 적절한 역치를 확인하는데 사용된 트레이닝 세트는 적어도 10개, 적어도 20개, 적어도 30개, 적어도 40개, 적어도 50개, 적어도 60개, 적어도 70개, 적어도 80개, 적어도 90개, 적어도 100개, 적어도 200개, 적어도 300개, 적어도 400개, 적어도 500개, 적어도 600개, 적어도 700개, 적어도 800개, 적어도 900개, 적어도 1000개, 적어도 2000개, 적어도 3000개, 적어도 4000개, 또는 그 초과의 적격 샘플을 포함한다. 역치의 진단 유용성을 향상시키기 위해 더 큰 적격 샘플의 세트를 이용하는 것이 바람직할 수 있다.
본원의 용어 "표준화 값"은 관심 서열 (예컨대, 염색체 또는 염색체 세그먼트)에 대해 확인된 서열 태그의 수를 표준화 서열 (예컨대, 표준화 염색체 또는 표준화 염색체 세그먼트)에 대해 확인된 서열 태그의 수와 관련시키는 숫자 값을 의미한다. 예를 들어, "표준화 값"은 본원에 달리 기재된 대로 염색체 용량일 수 있거나, 본원에 달리 기재된 대로 NCV (표준화 염색체 값)일 수 있거나, 본원에 달리 기재된 대로 NSV (표준화 세그먼트 값)일 수 있다.
용어 "리드(read)"는 더 큰 서열 또는 영역을 확인하는데 이용될 수 있는, 예컨대 정렬되고 염색체 또는 유전체 영역 또는 유전자로 특이적으로 지정될 수 있는 충분한 길이 (예컨대, 적어도 약 30 bp)의 DNA 서열을 의미한다.
용어 "서열 태그"는 정렬에 의해 참조 유전체와 같은 더 큰 서열에 대해 특이적으로 지정된, 즉 맵핑된 서열 리드를 의미하기 위해 "맵핑된 서열 태그"라는 용어와 상호교환적으로 본원에서 이용된다. 맵핑된 서열 태그는 참조 유전체에 대해 유일하게 맵핑되며, 즉, 이들은 참조 유전체에 대해 단일 위치에 지정된다. 참조 유전체 상에서 하나를 초과하는 위치에 맵핑될 수 있는 태그, 즉 유일하게 맵핑되지 않는 태그는 분석에 포함되지 않는다.
본원에서 사용된 대로, 용어 "정렬된", "정렬" 또는 "정렬하는"은 하나 이상의 서열이 참조 유전체로부터의 공지된 서열에 대해 그 핵산 분자의 순서에 따른 일치로서 확인되는 것을 의미한다. 그러한 정렬은 수동으로 또는 컴퓨터 알고리듬에 의해 수행될 수 있고, 그 예는 Illumina Genomics Analysis 파이프라인의 일부로서 배급된 뉴클레오티드 Data (ELAND) 컴퓨터 프로그램의 Efficient Local Alignment을 포함한다. 정렬시에 서열 리드의 매칭은 100% 서열 일치 또는 100% 미만 (완전하지 않은 일치)의 서열 일치일 수 있다.
본원에서 사용된 대로, 용어 "참조 유전체"는 부분적이든 완전하든 간에, 피검체로부터 참조 확인되는 서열에 이용될 수 있는 임의의 유기체 또는 바이러스의 어떠한 특정한 공지된 유전체 서열을 의미한다. 예를 들어, 인간 피검체뿐 아니라 수많은 다른 유기체에 이용되는 참조 유전체는 National Center for Biotechnology Information의 www.ncbi.nlm.nih.gov에서 발견된다. "유전체"는 핵산 서열에서 발현되는, 유기체 또는 바이러스의 완전한 유전적 정보를 의미한다.
본원의 용어 "임상적으로-관련된 서열"은 유전적 또는 질환 병태와 연관되거나 관련된 것으로 알려져 있거나 여겨지는 핵산 서열을 의미한다. 임상적으로-관련된 서열의 부재 또는 존재를 결정하는 것은 의학적 질환의 진단을 결정하거나 진단을 확인하거나, 질환의 발생에 대한 예후를 제공하는데 유용할 수 있다.
핵산 또는 핵산의 혼합물에 관해 이용된 용어 "유래된"은 본원에서 핵산(들)의 근원이 되는 공급원으로부터 이들이 수득되는 수단을 의미한다. 예를 들어, 한 구체예에서, 두 개의 상이한 유전체로부터 유래되는 핵산의 혼합물은 핵산, 예컨대 cfDNA가 괴사 또는 아폽토시스와 같은 자연 발생 과정을 통해 세포에 의해 자연적으로 방출되었음을 의미한다. 또 다른 구체예에서, 두 개의 상이한 유전체로부터 유래되는 핵산의 혼합물은 핵산이 피검체로부터의 두 상이한 유형의 세포로부터 추출되었음을 의미한다.
본원의 용어 "혼합 샘플"은 상이한 유전체로부터 유래되는 핵산의 혼합물을 함유하는 샘플을 의미한다.
본원의 용어 "모체 샘플"은 임신한 피검체, 예컨대 여성으로부터 수득된 생물학적 샘플을 의미한다.
본원의 용어 "생물학적 유체"는 생물학적 공급원으로부터 수득된 액체를 의미하고, 예를 들어 혈액, 혈청, 혈장, 가래, 세척액, 뇌척수액, 소변, 정액, 땀, 눈물, 타액 등을 포함한다. 본원에서 사용된 대로, 용어 "혈액," "혈장" 및 "혈청"은 이의 분획 또는 가공된 부분을 명백하게 포함한다. 유사하게, 샘플은 생검, 면봉표본, 도말표본 등으로부터 취해지고, "샘플"은 생검, 면봉표본, 도말표본 등으로부터 유래된 가공된 분획 또는 부분을 명백하게 포함한다.
본원의 용어 "모체 핵산" 및 "태아 핵산"은 각각 임신한 여성 피검체의 핵산 및 임신한 여성이 품고 있는 태아의 핵산을 의미한다.
본원에서 사용된 대로, "에 상응하는"이라는 용어는 상이한 피검체의 유전체에 존재하고, 모든 유전체에서 반드시 동일한 서열을 가질 필요는 없지만 유전자 또는 염색체와 같은 관심 서열의 유전적 정보보다는 오히려 아이덴티티(identity)를 제공하도록 기능하는 핵산 서열, 예컨대 유전자 또는 염색체를 의미한다.
본원에서 사용된 대로, 용어 "실질적으로 세포가 없는"은 요망되는 샘플과 자연적으로 연관된 구성요소가 제거된 상기 샘플의 제조물을 포함한다. 예를 들어, 혈장 샘플은 이것과 자연적으로 연관된 혈액 세포, 예컨대 적혈구를 제거함에 의해 본질적으로 세포가 없게 된다. 일부 구체예에서, 실질적인 유리(free) 샘플은 CNV에 대해 시험되어야 하는 요망되는 유전적 물질에 달리 기여할 세포를 제거하도록 프로세싱된다.
본원에서 사용된 대로 용어 "태아 분획"은 태아 및 모체 핵산을 포함하는 샘플에 존재하는 태아 핵산의 분획을 의미한다.
본원에서 사용된 용어 "염색체"는 염색질로부터 유래되고 DNA 및 단백질 구성요소 (특히 히스톤)를 포함하는 살아 있는 세포의 유전-함유 유전자 캐리어를 의미한다. 국제적으로 인지되는 통상적인 개별 인간 유전체 염색체 넘버링 시스템이 본원에서 이용된다.
본원에서 사용된 용어 "폴리뉴클레오티드 길이"는 서열 또는 참조 유전체의 영역에서 핵산 분자 (뉴클레오티드)의 절대 개수를 의미한다. 용어 "염색체 길이"는, 예컨대 월드 와이드 웹 genome.ucsc.edu/cgi-bin/hgTracks?hgsid=167155613&chromInfoPage=에서 발견되는 인간 염색체의 NCBI36/hg18 어셈블리에 제공되는 염기 쌍으로 제공된 염색체의 공지된 길이를 의미한다.
본원의 용어 "피검체"는 포유동물, 무척추동물, 척추동물, 진균, 효모, 박테리아 및 바이러스와 같은 인간 피검체뿐 아니라 인간이 아닌 피검체를 의미한다. 비록 본원의 실시예가 인간에 관한 것이고 언어가 주로 인간을 관심사로 하고 있으나, 본 발명의 개념은 임의의 식물 또는 동물로부터의 유전체에 이용될 수 있고, 수의학, 축산학, 연구소 등의 분야에서 유용하다.
본원의 용어 "질환"은 모든 질환 및 질병을 포함하는 넓은 용어로서 "의학적 질환"을 의미하고, 사람의 건강에 영향을 줄 수 있거나, 의학적 도움으로부터 이익을 얻을 수 있거나, 의학적 치료에 관련이 있을 수 있는 [손상] 및 임신과 같은 정상적인 건강 상태를 포함할 수 있다.
용어 "완전한"은 전체 염색체의 획득 또는 손실을 나타내기 위해 염색체 이수성에 관해 본원에서 이용된다.
본원에서 염색체 이수성에 관해 이용되는 용어 "부분적인"은 염색체 일부의 획득 또는 손실을 의미한다.
본원의 용어 "모자이크"는 단일 수정란에서 발생한 한 개체에서 상이한 핵형을 갖는 두 집단의 세포의 존재를 나타내기 위해 언급된다. 모자이크 현상은 성체 세포의 서브세트로만 번식되는 발생 동안 돌연변이로부터 초래될 수 있다.
본원의 용어 "비-모자이크"는 한 핵형의 세포로 구성된 유기체, 예컨대 인간 태아를 의미한다.
염색체 용량을 결정하는 것에 관해 이용되는 용어 "염색체를 이용하여"는 본원에서 염색체에 대해 수득된 서열 정보, 즉 염색체에 대해 수득된 서열 태그의 수를 이용하는 것을 의미한다.
본원에서 사용된 용어 "민감성"은 실제 양성 및 위 음성의 합계로 나눈 실제 양성의 수와 동일하다.
본원에서 사용된 용어 "특이성"은 실제 음성 및 위 양성의 합계로 나눈 실제 음성의 수와 동일하다.
본원에서 용어 "환자 샘플"은 환자, 즉 의학적 주의, 간호 또는 치료의 수용체로부터 수득된 생물학적 샘플을 의미한다. 환자 샘플은 본원에 기재된 어떠한 샘플일 수 있다. 바람직하게는, 환자 샘플은 비침습성 절차에 의해 수득되고, 예컨대 말초혈 샘플 또는 대변 샘플이다.
본원의 용어 "저이배체"는 종에 특징적인 염색체의 정상적인 일배수보다 하나 이상 낮은 염색체 수를 의미한다.
설명
본 발명은 하나 이상의 관심 서열의 양에 있어서 상이하다고 알려져 있거나 상이할 것으로 여겨지는 두 상이한 유전체로부터 유래된 핵산의 혼합물을 포함하는 시험 샘플 중 상이한 관심 서열의 복사체 수 변이 (CNV)를 결정하는 방법을 제공한다. 본 발명의 방법에 의해 결정된 복사체 수 변이는 전체 염색체의 획득 또는 손실, 현미경으로 볼 수 있는 매우 큰 염색체 세그먼트를 포함하는 변경, 및 킬로베이스 (kb) 내지 메가베이스 (Mb) 크기 범위의 DNA 세그먼트의 초현미경적 복사체 수 변이의 풍부도를 포함한다. 상기 방법은 과정-관련된, 염색체간 및 시퀀싱간 가변성으로부터 발생한 가변성 스테밍을 설명하는 통계적 접근법을 포함한다. 상기 방법은 어떠한 태아 이수성의 CNV, 및 다양한 의학적 질환과 관련된 것으로 알려져 있거나 관련될 것으로 여겨지는 CNV를 결정하는데 이용될 수 있다. 본 발명의 방법에 따라 결정될 수 있는 CNV는 시험 샘플의 핵산을 단 1회 시퀀싱함에 의해 검출될 수 있는, 염색체 1-22, X 및 Y 중 임의의 하나 이상의 삼염색체 및 홑염색체, 그 밖의 염색체의 뭇염색체, 및 염색체 중 임의의 하나 이상의 세그먼트의 결실 및/또는 중복을 포함한다. 임의의 이수성은 시험 샘플의 핵산을 단 1회 시퀀싱함에 의해 수득되는 시퀀싱 정보로부터 결정될 수 있다.
인간 유전체의 CNV는 질환에 대한 인간 다양성 및 소인에 현저한 영향을 미친다 (Redon et al., Nature 23:444-454 [2006], Shaikh et al. Genome Res 19:1682-1690 [2009]). CNV는 상이한 메커니즘을 통해 유전적 질환에 기여하여, 대개의 병증에서 유전자량 또는 유전자 붕괴의 불균형을 야기하는 것으로 알려져 있다. 유전적 질환과의 CNV의 직접적인 관련성 외에, CNV는 해로울 수 있는 표현형 변화를 매개하는 것으로 알려져 있다. 최근에, 여러 연구는 자폐증(Autism), ADHD, 및 정신분열병(schizophrenia)과 같은 복합 장애에서 정상 대조군에 비해 드물거나 새로운 CNV의 증가된 부하를 보고하면서, 드물거나 독특한 CNV의 잠재적인 병원성을 강조하였다 (Sebat et al., 316:445-449 [2007]; Walsh et al., Science 320:539-543 [2008]). CNV는 주로 결실, 중복, 삽입, 및 불균형 전위 사건으로 인한 유전체 재배열로부터 발생한다.
본원에 기재된 방법은 클론에 의해 증폭된 DNA 주형 또는 단일 DNA 분자가 유동 세포에서 대량 병렬 방식으로 시퀀싱되는 차세대 시퀀싱 기법 (NGS)을 이용한다 (예컨대, 문헌[Volkerding et al. Clin Chem 55:641-658 [2009]; Metzker M Nature Rev 11:31-46 [2010]]에 기재된 대로). 고-처리량 서열 정보 외에, NGS는 정량적 정보를 제공하는데, 여기서 각각의 서열 리드는 개별적인 클로날 DNA 주형 또는 단일 DNA 분자를 나타내는 계수가능한 "서열 태그"이다. NGS의 시퀀싱 기법은 피로시퀀싱(pyrosequencing), 가역적 염료 종결자를 이용한 합성을 통한 시퀀싱, 올리고뉴클레오티드 프로브 라이게이션에 의한 시퀀싱 및 이온 반도체 시퀀싱을 포함한다. 개개의 샘플로부터의 DNA는 개별적으로 시퀀싱될 수 있거나 (즉, 싱글플렉스(singleplex) 시퀀싱) 다중 샘플로부터의 DNA는 풀링되고 단일 시퀀싱 진행 상에서 지수화 유전체 분자로서 시퀀싱되어 (즉, 멀티플렉스(multiplex) 시퀀싱), DNA 서열의 수 억개 리드를 생성할 수 있다. 본 방법에 따른 서열 정보를 수득하는데 이용될 수 있는 시퀀싱 기법의 예는 하기에 기재되어 있다.
시퀀싱 방법
시퀀싱 기법 중 일부는 시판되며, 예컨대 하기 기재된 바와 같이, Affymetrix Inc. (Sunnyvale, CA)로부터의 시퀀싱-바이-하이브리다이제이션 플랫폼 및 454 Life Sciences (Bradford, CT), Illumina/Solexa (Hayward, CA) 및 Helicos Biosciences (Cambridge, MA)로부터의 시퀀싱-바이-신세시스, 및 Applied Biosystems (Foster City, CA)로부터의 시퀀싱-바이-라이게이션 플랫폼이 있다. Helicos Biosciences의 시퀀싱-바이-신세시스를 이용하여 수행된 단일 분자 시퀀싱 외에, 그 밖의 단일 분자 시퀀싱 기법은 Pacific Biosciences의 SMRT™ 기법, Ion Torrent™ 기법, 및 예를 들어 Oxford Nanopore Technologies에 의해 개발된 나노포어 시퀀싱을 포함한다. 자동화 Sanger 방법은 "1세대" 기법으로서 고려되는 한편, 자동화 Sanger 시퀀싱을 포함하는 Sanger 시퀀싱이 또한 본 발명의 방법에 이용될 수 있다. 추가의 시퀀싱 방법은 핵산 이미징 기법, 예컨대 원자력 현미경 (AFM) 또는 투과 전자 현미경 (TEM)이다. 예시적인 시퀀싱 기법이 하기에 기재되어 있다.
한 구체예에서, 본 방법은 Helicos True Single Molecule Sequencing (tSMS) 기법의 단일 분자 시퀀싱 기법을 이용하여, 시험 샘플의 핵산, 예컨대 모체 샘플의 cfDNA에 대한 서열 정보를 수득하는 것을 포함한다 (예컨대, 문헌[Harris T.D. et al., Science 320:106-109 [2008]]에 기재된 대로). tSMS 기법에서, DNA 샘플은 약 100 내지 200개 뉴클레오티드의 가닥으로 절단되고, polyA 서열은 각 DNA 가닥의 3' 말단에 첨가된다. 각각의 가닥은 형광 표지된 아데노신 뉴클레오티드의 첨가에 의해 표지된다. 그 후 DNA 가닥은 유동 세포 표면에 고정된 수 백만개의 올리고-T 포획 부위를 함유하는 유동 세포에 하이브리드화된다. 주형은 약 1억개 주형/cm2의 밀도일 수 있다. 이어서 유동 세포를 HeliScope™ 시퀀서와 같은 기계에 로딩시키고, 레이저를 유동 세포의 표면에 비추어 각 주형의 위치를 드러낸다. CCD 카메라는 유동 세포 표면 위에서 주형의 위치를 맵핑할 수 있다. 그 후 주형 형광 표지를 절단하고 세척한다. 시퀀싱 반응은 DNA 중합효소 및 형광 표지된 뉴클레오티드를 도입시킴에 의해 개시된다. 올리고-T 핵산은 프라이머로서 기능한다. 중합효소는 표지된 뉴클레오티드를 주형 유도된 방식으로 프라이머에 혼입시킨다. 중합효소 및 혼입되지 않은 뉴클레오티드를 제거한다. 형광 표지된 뉴클레오티드의 혼입을 유도한 주형은 유동 세포 표면을 이미징함에 의해 식별된다. 이미징 후에, 절단 단계는 형광 표지를 제거하고, 요망되는 리드 길이가 달성될 때까지 다른 형광 표지된 뉴클레오티드로 상기 과정을 반복한다. 각각의 뉴클레오티드 첨가 단계를 이용하여 서열 정보를 수집한다. 단일 분자 시퀀싱 기법에 의한 완전한 유전체 시퀀싱은 시퀀싱 라이브러리의 제조에서 PCR-기반 증폭을 배제시키고, 샘플 제조의 직접성은 그 샘플의 복사체의 측정이 아닌 샘플의 직접 측정을 가능하게 한다.
또 다른 구체예에서, 본 방법은 454 시퀀싱 (Roche)을 이용하여 시험 샘플의 핵산, 예컨대 모체 시험 샘플의 cfDNA에 대한 서열 정보를 수득하는 것을 포함한다 (예컨대, 문헌[Margulies, M. et al. Nature 437:376-380 [2005]]에 기재된 대로). 454 시퀀싱은 두 단계를 포함한다. 첫 번째 단계에서, DNA는 약 300-800개 염기쌍의 단편으로 쉬어링되고(shear), 단편은 평활(blunt)-말단화된다. 그 후 올리고뉴클레오티드 어댑터를 단편의 말단에 라이게이션한다. 어댑터는 단편의 증폭 및 시퀀싱을 위한 프라이머로서 기능한다. 단편은 5'-바이오틴 태그를 함유하는, 예컨대 어댑터 B를 이용하여 스트렙타비딘-코팅된 비드와 같은 DNA 포획 비드에 부착될 수 있다. 비드에 부착된 단편은 오일-워터 에멀젼의 점적 내에서 PCR 증폭된다. 결과는 각각의 비드에서 클론에 의해 증폭되는 DNA 단편의 다수의 복사체이다. 두 번째 단계에서, 비드는 웰에 포획된다 (피코-리터 크기). 피로시퀀싱은 각각의 DAN 단편에 대해 동시에 수행된다. 하나 이상의 뉴클레오티드의 첨가는 시퀀싱 기계에서 CCD 카메라에 의해 기록되는 광 신호를 발생시킨다. 신호 강도는 혼입되는 뉴클레오티드의 수에 비례한다. 피로시퀀싱은 뉴클레오티드 첨가시에 방출되는 피로포스페이트(PPi)를 이용한다. PPi는 아데노신 5' 포스포설페이트의 존재하에 ATP 설푸릴라제에 의해 ATP로 전환된다. 루시페라제는 루시페린을 옥시루시페린으로 전환하기 위해 ATP를 이용하고, 이러한 반응은 측정 및 분석되는 광을 발생시킨다.
또 다른 구체예에서, 본 방법은 SOLiD™ 기법 (Applied Biosystems)을 이용하여 시험 샘플의 핵산, 예컨대 모체 시험 샘플의 cfDNA에 대한 서열 정보를 수득하는 것을 포함한다. 라이게이션을 통한 SOLiD™ 시퀀싱에서, 유전체 DNA는 단편으로 쉬어링되고, 어댑터는 단편의 5' 및 3' 말단에 부착되어 단편 라이브러리를 생성한다. 대안적으로, 내부 어댑터는 어댑터를 단편의 5' 및 3' 말단에 라이게이션시키고, 단편을 고리화하고, 고리화된 단편을 분해시켜 내부 어댑터를 생성하고, 어댑터를 생성된 단편의 5' 및 3' 말단에 부착시켜 메이트-페어링된 라이브러리를 생성함에 의해 혼입될 수 있다. 다음으로, 클로날 비드 집단을 비드, 프라이머, 주형, 및 PCR 구성요소를 함유하는 마이크로반응기에서 제조한다. PCR 이후에, 주형은 변성되고 비드는 연장된 주형을 갖는 비드를 분리하기 위해 풍부하게 된다. 선택된 비드 상의 주형은 유리 슬라이드에 대한 결합을 허용하는 3' 변형을 겪는다. 서열은 특수한 형광단에 의해 확인된 중심 결정 염기 (또는 염기의 쌍)를 갖는 부분적으로 임의의 올리고뉴클레오티드의 순차적 하이드리브화 및 라이게이션에 의해 결정될 수 있다. 컬러를 기록한 후에, 라이게이션된 올리고뉴클레오티드를 전달 및 제거한 후 과정을 반복한다.
또 다른 구체예에서, 본 방법은 Pacific Biosciences의 단일 분자, 실시간 (SMRT™) 시퀀싱 기법을 이용하여 시험 샘플의 핵산, 예컨대 모체 시험 샘플의 cfDNA에 대한 서열 정보를 수득하는 것을 포함한다. SMRT 시퀀싱에서, 염료-표지된 뉴클레오티드의 지속적 혼입은 DNA 합성 동안 이미지화된다. 단일 DNA 중합효소 분자를 서열 정보를 수득하는 개개의 제로-모드 파장 검출기 (ZMW 검출기)의 바닥 표면에 부착시키면서 인연결된 뉴클레오티드를 커지는 프라이머 가닥에 혼입시킨다. ZMW는 ZMW 밖으로 신속하게 확산되는 (마이크로초 후에) 형광 뉴클레오티드의 배경에 대해 DNA 중합효소에 의한 단일 뉴클레오티드의 혼입을 관찰할 수 있게 하는 구속 구조체이다. 뉴클레오티드가 커지는 가닥에 혼입되는 데에는 수 밀리초가 걸린다. 이러한 시간 동안, 형광 표지는 흥분되어 형광 신호를 발생시키고, 형광 태그는 절단된다. 염료의 상응하는 형광성의 측정은 염기가 혼입되었음을 나타낸다. 상기 과정을 반복한다.
또 다른 구체예에서, 본 방법은 나노포어 시퀀싱을 이용하여 시험 샘플의 핵산, 예컨대 모체 시험 샘플의 cfDNA에 대한 서열 정보를 수득하는 것을 포함한다 (예컨대, 문헌[Soni GV and Meller A. Clin Chem 53: 1996-2001 [2007]]에 기재된 대로). 나노포어 시퀀싱 DNA 분석 기법은 Oxford Nanopore Technologies (Oxford, United Kingdom)를 포함하는 많은 회사에 의해 산업적으로 개발되고 있다. 나노포어 시퀀싱은 DNA의 단일 분자가 나노포어를 통해 지나간 직후 이것이 시퀀싱되는 단일-분자 시퀀싱 기법이다. 나노포어는 직경이 약 1 나노미터인 작은 구멍이다. 도전성 유체에 나노포어의 액침 및 이를 가로지르는 포텐셜(전압)의 적용은 나노포어를 통한 이온의 전도로 인해 약간의 전류를 발생시킨다. 흐르는 전류의 양은 나노포어의 크기 및 형상에 민감하다. DNA 분자가 나노포어를 통해 지나가기 때문에, DNA 분자상의 각각의 뉴클레오티드는 상이한 정도로 나노포어를 방해하여, 나노포어를 통한 전류의 크기를 다양한 정도로 변화시킨다. 따라서, DNA 분자가 나노포어를 통해 지나가기 때문에 생긴 전류에서의 이러한 변화는 DNA 서열의 판독을 나타낸다.
또 다른 구체예에서, 본 방법은 화학-민감성 전계 효과 트랜지스터 (chemFET) 어레이를 이용하여 시험 샘플의 핵산, 예컨대 모체 시험 샘플의 cfDNA에 대한 서열 정보를 수득하는 것을 포함한다 (예컨대, 미국 특허 출원 공개 20090026082호에 기재된 대로). 기법의 한 예에서, DNA 분자를 반응 쳄버에 정위시킬 수 있고, 주형 분자를 중합효소에 결합된 시퀀싱 프라이머에 하이브리드화할 수 있다. 시퀀싱 프라이머의 3' 말단에서 신규한 핵산 가닥으로의 하나 이상의 트리포스페이트의 혼입은 chemFET에 의한 전류에서의 변화에 의해 식별될 수 있다. 어레이는 다수의 chemFET 센서를 지닐 수 있다. 또 다른 예에서, 단일 핵산은 비드에 부착될 수 있고, 핵산은 비드 상에서 증폭될 수 있으며, 개별적인 비드는 chemFET 센서를 지니는 각각의 쳄버를 이용하여, chemFET 어레이 상에서 개개의 반응 쳄버로 옮겨질 수 있고, 핵산은 시퀀싱될 수 있다.
또 다른 구체예에서, 본 방법은 투과 전자 현미경 (TEM)을 이용하는 Halcyon 분자 기법을 이용하여 시험 샘플의 핵산, 예컨대 모체 시험 샘플의 cfDNA에 대한 서열 정보를 수득하는 것을 포함한다. Individual Molecule Placement Rapid Nano Transfer (IMPRNT)로 명명된 방법은 중원자 마커로 선택적으로 표지된 고분자량 (150kb 또는 그 초과) DNA의 단일 원자 분해능 투과 전자 현미경 이미징을 활용하고 이러한 분자를 일관된 염기-대-염기 간격을 갖는 초-밀집 (3nm 가닥-대-가닥) 평행 어레이에서 초박막 상에 배열하는 것을 포함한다. 전자 현미경을 이용하여 필름 상에 분자를 이미지화함으로써 중원자 마커의 위치를 결정하고 DNA로부터 염기 서열 정보를 추출한다. 상기 방법은 PCT 특허 공개 WO 2009/046445호에 추가로 기재되어 있다. 상기 방법은 10분 이내에 완전한 인간 유전체의 시퀀싱을 가능하게 한다.
또 다른 구체예에서, DNA 시퀀싱 기법은 반도체 기법과 단순한 시퀀싱 화학을 한 쌍으로 하여 화학적으로 엔코딩된 정보(A, C, G, T)를 반도체 칩 상에서 디지탈 정보(0, 1)로 직접 번역하는 Ion Torrent 단일 분자 시퀀싱이다. 사실상, 뉴클레오티드가 중합효소에 의해 DNA의 가닥에 혼입될 때, 수소 이온이 부산물로서 방출된다. Ion Torrent는 대량 병렬 방식에서 이러한 생화학적 과정을 수행하기 위해 마이크로-기계 웰의 고밀도 어레이를 이용한다. 각각의 웰은 상이한 DNA 분자를 보유한다. 웰 아래는 이온-민감성 층이고 그 아래는 이온 센서이다. 뉴클레오티드, 예를 들어 C가 DNA 주형에 첨가된 후 DNA의 가닥으로 혼입될 때, 수소 이온이 방출될 것이다. 그 이온으로부터의 전하는 용액의 pH를 바꿀 것이고, 이는 Ion Torrent의 이온 센서에 의해 검출될 수 있다. 시퀀서-본질적으로 세계에서 가장 작은 고체상 pH 미터-는 화학 정보로부터 디지털 정보로 직접 이동하면서 염기를 호출한다. 그 후 이온 퍼스날 유전체 기계 (PGM™) 시퀀서는 순차적으로 칩을 다른 하나 이후에 한 뉴클레오티드로 침수시킨다. 칩을 침수시키는 다음 뉴클레오티드가 매칭되지 않으면, 어떠한 전압 변화도 기록되지 않을 것이고 어떠한 염기도 호출되지 않을 것이다. DNA 가닥 상에 두 동일한 염기가 존재하는 경우, 전압은 두 배가 될 것이고, 칩은 호출된 2개의 동일한 염기를 기록할 것이다. 직접 검출로 몇 초후에 뉴클레오티드 혼입의 기록이 가능하다.
또 다른 구체예에서, 본 방법은 하이브리드화에 의한 시퀀싱을 이용하여 시험 샘플의 핵산, 예컨대 모체 시험 샘플의 cfDNA에 대한 서열 정보를 수득하는 것을 포함한다. 하이브리드화를 통한 시퀀싱은 복수의 폴리뉴클레오티드 서열을 복수의 폴리뉴클레오티드 프로브와 접촉시키는 것을 포함하고, 여기서 복수의 폴리뉴클레오티드 프로브 각각은 기판에 묶이거나 묶이지 않을 수 있다. 기판은 공지된 뉴클레오티드 서열의 어레이를 포함하는 편평한 표면일 수 있다. 어레이에 대한 하이브리드화 패턴을 이용하여 샘플에 존재하는 폴리뉴클레오티드 서열을 결정할 수 있다. 그 밖의 구체예에서, 각각의 프로브는 비드, 예컨대 자기 비드 등에 묶인다. 비드에 대한 하이브리드화를 측정할 수 있고 이를 이용하여 샘플 내에서 복수의 폴리뉴클레오티드 서열을 확인할 수 있다.
또 다른 구체예에서, 본 방법은 합성을 통한 Illumina 시퀀싱 및 가역적인 종결자-기반 시퀀싱 화학을 이용한 수 백만개 DNA 단편의 대량 병렬 시퀀싱에 의해 시험 샘플의 핵산, 예컨대 모체 시험 샘플의 cfDNA에 대한 서열 정보를 수득하는 것을 포함한다 (에컨대, 문헌[Bentley et al., Nature 6:53-59 [2009]]에 기재된 대로). 주형 DNA는 유전체 DNA, 예컨대 cfDNA일 수 있다. 일부 구체예에서, 분리된 세포로부터의 유전체 DNA를 주형으로서 이용하고, 이것은 수 백개 염기쌍의 길이로 단편화된다. 그 밖의 구체예에서, cfDNA를 주형으로서 이용하며, cfDNA가 짧은 단편으로서 존재하므로 단편화는 불필요하다. 예를 들어, 태아 cfDNA는 혈류에서 약 170개 염기쌍 (bp) 길이의 단편으로서 순환하며 (Fan et al., Clin Chem 56:1279-1286 [2010]), DNA의 어떠한 단편도 시퀀싱 전에 요구되지 않는다. Illumina 시퀀싱 기법은 올리고뉴클레오티드 앵커가 결합된 평면상의 광학적으로 투명한 표면에 단편화된 유전체 DNA를 부착시키는 것에 의존적이다. 주형 DNA는 말단-리페어링되어 5'-인산화된 평활 말단을 생성하고, Klenow 단편의 중합효소 활성을 이용하여 단일 A 염기를 평활 인산화된 DNA 단편의 3' 말단에 첨가한다. 이러한 첨가는 올리고뉴클레오티드 어댑터로의 라이게이션을 위한 DNA 단편을 제조하는데, 이는 라이게이션 효율을 증가시키기 위해 그 3' 말단에 단일 T 염기의 과잉충전(overhang)을 갖는다. 어댑터 올리고뉴클레오티드는 유동 세포 앵커에 상보적이다. 제한적인 희석 조건하에, 어댑터-변형된 단일 가닥 주형 DNA를 유동 세포에 첨가하고 앵커로의 하이브리드화에 의해 고정시킨다. 부착된 DNA 단편을 연장시키고 브릿지를 증폭시켜 각각이 동일한 주형의 ~1,000개 복사체를 함유하는 몇 억개의 클러스터를 지닌 초-고밀도 시퀀싱 유동 세포를 생성한다. 한 구체예에서, 임의로 단편화된 유전체 DNA, 예컨대 cfDNA를 PCR을 이용하여 증촉시킨 후 클러스터 증폭시킨다. 대안적으로, 증폭이 없는(amplification-free) 유전체 라이브러리 제법을 이용하며, 임의로 단편화된 유전체 DNA, 예컨대 cfDNA는 클러스터 증폭만을 이용하여 풍부해진다 (Kozarewa et al., Nature Methods 6:291-295 [2009]). 제거할 수 있는 형광 염료를 지닌 가역적인 종결자를 이용한 확고한 4-컬러 DNA 시퀀싱-바이-신세시스 기법을 이용하여 주형을 시퀀싱한다. 레이저 여기 및 내부 전반사 옵틱을 이용하여 고민감성 형광 검출을 달성한다. 약 20-40개 bp, 예컨대 36개 bp의 짧은 서열 리드를 반복-마스킹된 참조 유전체에 대해 정렬시키고 참조 유전체에 대한 짧은 서열 리드의 유일한 맵핑을 특별히 개발된 데이터 분석 파이프라인 소프트웨어를 이용하여 확인한다. 반복-마스킹되지 않은 참조 유전체도 이용할 수 있다. 반복-마스킹되거나 반복-마스킹되지 않은 참조 유전체를 이용하든 간에, 참조 유전체에 대해 유일하게 맵핑되는 리드만을 계수한다. 첫 번째 판독의 완료 후에, 주형을 동일계내에서(in situ) 재생시켜 두 번째 판독이 단편의 반대쪽 말단으로부터 가능하도록 할 수 있다. 따라서, DNA 단편의 단일-말단 또는 페어링된 말단 시퀀싱을 이용할 수 있다. 샘플에 존재하는 DNA 단편의 부분적인 시퀀싱을 수행하고, 소정의 길이, 예컨대 36개 bp의 리드를 포함하는 서열 태그를 공지된 참조 유전체에 대해 맵핑하고 계수한다. 한 구체예에서, 참조 유전체 서열은 NCBI36/hg18 서열이고, 이는 월드 와이드 웹의 genome.ucsc.edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105)에서 이용가능하다. 대안적으로, 참조 유전체 서열은 GRCh37/hg19이고, 이는 월드 와이드 웹의 genome.ucsc.edu/cgi-bin/hgGateway에서 이용가능하다. 공개 서열 정보의 그 밖의 출처는 GenBank, dbEST, dbSTS, EMBL (the European Molecular Biology Laboratory), 및 DDBJ (the DNA Databank of Japan)를 포함한다. 서열을 정렬하기 위한 다수의 컴퓨터 알고리듬이 이용가능하며, 비제한적으로 BLAST (Altschul et al., 1990), BLITZ (MPsrch) (Sturrock & Collins, 1993), FASTA (Person & Lipman, 1988), BOWTIE (Langmead et al., Genome Biology 10:R25.1-R25.10 [2009]), 또는 ELAND (Illumina, Inc., San Diego, CA, USA)를 포함한다. 한 구체예에서, 혈장 cfDNA 분자의 클론에 의해 증식된 복사체의 한 말단을 시퀀싱하고 Nucleotide Databases (ELAND) 소프트웨어의 Efficient Large-Scale Alignment을 이용한, Illumina 유전체 분석기에 대한 바이오인포머틱 정렬 분석에 의해 프로세싱한다.
본원에 기재된 방법의 일부 구체예에서, 맵핑된 서열 태그는 약 20bp, 약 25bp, 약 30bp, 약 35bp, 약 40bp, 약 45bp, 약 50bp, 약 55bp, 약 60bp, 약 65bp, 약 70bp, 약 75bp, 약 80bp, 약 85bp, 약 90bp, 약 95bp, 약 100bp, 약 110bp, 약 120bp, 약 130bp, 약 140bp, 약 150bp, 약 200bp, 약 250bp, 약 300bp, 약 350bp, 약 400bp, 약 450bp, 또는 약 500bp의 서열 리드를 포함한다. 기술의 진보는 페어링된 말단 리드가 생성될 때 약 1000bp 초과의 리드를 가능하게 하는 500bp 초과의 단일-말단 리드를 가능하게 할 것으로 예상된다. 한 구체예에서, 맵핑된 서열 태그는 36bp인 서열 리드를 포함한다. 서열 태그의 맵핑은 태그의 서열을 참조의 서열과 비교하여 시퀀싱된 핵산 (예컨대, cfDNA) 분자의 염색체 기원을 결정함에 의해 달성되고, 특수한 유전적 서열 정보는 필요하지 않다. 참조 유전체와 혼합된 샘플의 유전체 사이에 존재할 수 있는 소수의 다형성으로 인한 적은 정도의 미스매치 (서열 태그 당 0-2개 미스매치)는 허용될 수 있다.
복수의 서열 태그는 샘플에 대해 수득된다. 일부 구체예에서, 20 내지 40bp 리드, 예컨대 36bp를 포함하는 적어도 약 3 x 106개 서열 태그, 적어도 약 5 x 106개 서열 태그, 적어도 약 8 x 106개 서열 태그, 적어도 약 10 x 106개 서열 태그, 적어도 약 15 x 106개 서열 태그, 적어도 약 20 x 106개 서열 태그, 적어도 약 30 x 106개 서열 태그, 적어도 약 40 x 106개 서열 태그, 또는 적어도 약 50 x 106개 서열 태그는 샘플 당 참조 유전체에 대해 리드를 맵핑하여 수득된다. 한 구체예에서, 모든 서열 리드가 참조 유전체의 모든 영역에 대해 맵핑된다. 한 구체예에서, 참조 유전체의 모든 영역, 예컨대 모든 염색체에 대해 맵핑된 태그를 계수하고, 혼합된 DNA 샘플에서 관심 서열, 예컨대 이의 염색체 또는 부분의 CNV, 즉 과잉- 또는 과소-묘사를 결정한다. 상기 방법은 두 유전체의 구별을 요구하지 않는다.
샘플에 CNV, 예컨대 이수성이 존재하는지 또는 부재하는지를 정확하기 결정하는데 요구되는 정확도는 시퀀싱 진행 내에 있는 샘플 중에서 참조 유전체에 대해 맵핑되는 서열 태그의 수의 변이 (염색체간 가변성), 및 상이한 시퀀싱 진행에서 참조 유전체에 대해 맵핑되는 서열 태그의 수의 변이 (시퀀싱간 가변성)에 대해 예측된다. 예를 들어, 변이는 GC-풍부 또는 GC-부족 참조 서열에 대해 맵핑되는 태그에 대해 특히 표시될 수 있다. 그 밖의 변이는 핵산의 추출 및 정제를 위한 상이한 프로토콜, 시퀀싱 라이브러리의 제조, 및 상이한 시퀀싱 플랫폼의 사용으로부터 초래될 수 있다. 본 방법은 본질적으로 염색체간 (진행내), 및 시퀀싱간 (진행간)에서 생긴 가변성 스테밍 및 플랫폼-의존적인 가변성으로 인한, 표준화 서열 (표준화 염색체 서열 또는 표준화 세그먼트 서열)의 지식에 기반한 서열 용량 (염색체 용량, 또는 세그먼트 용량)을 이용한다. 염색체 용량은 단일 염색체, 또는 염색체 1-22, X, 및 Y로부터 선택된 2개 이상의 염색체로 구성될 수 있는 표준화 염색체 서열의 지식에 기반한다. 대안적으로, 표준화 염색체 서열은 단일 염색체 세그먼트, 또는 한 염색체 또는 2개 이상의 염색체의 2개 이상의 세그먼트로 구성될 수 있다. 세그먼트 용량은 임의의 한 염색체의 단일 세그먼트, 또는 염색체 1-22, X, 및 Y 중 임의의 둘 이상의 2개 이상의 세그먼트로 구성될 수 있는 표준화 세그먼트 서열의 지식에 기반한다.
적격 샘플에서 표준화 서열의 결정: 표준화 염색체 서열 및 표준화 세그먼트 서열
표준화 서열은 어떠한 한 관심 서열, 예컨대 이의 염색체 또는 세그먼트에 대해 보통의 복사체 수를 갖는 세포를 포함한다고 알려진 피검체로부터 수득된 적격 샘플의 세트로부터의 서열 정보를 이용하여 확인된다. 표준화 서열의 결정은 도 1에 묘사된 방법의 구체예의 단계 100, 120, 130, 140, 및 145에 요약되어 있다. 적격 샘플로부터 수득된 서열 정보는 또한 시험 샘플에서 염색체 이수성의 통계적으로 의미 있는 확인을 결정하는데 이용된다 (단계 155 도 1, 및 실시예).
도 1은 생물학적 샘플에서 관심 서열, 예컨대 이의 염색체 또는 세그먼트의 CNV를 결정하기 위한 본 발명의 방법의 구체예의 흐름도(100)를 제공한다. 일부 구체예에서, 생물학적 샘플은 피검체로부터 수득되고 상이한 유전체에 의해 제공된 핵산의 혼합물을 포함한다. 상이한 유전체는 두 개체에 의한 샘플에 제공될 수 있고, 예컨대 상이한 유전체는 태아 및 태아를 품고 있는 모체에 의해 제공된다. 대안적으로, 유전체는 암 환자로부터의 혈장 샘플과 같이 동일한 피검체로부터의 이수성 암성 세포 및 정상 정배수 세포에 의한 샘플에 제공된다.
적격 샘플의 세트가 적격 표준화 서열을 확인하고 시험 샘플에서 CNV의 통계적으로 의미 있는 확인을 결정하는데 이용되는 분산 값을 제공하기 위해 수득된다. 단계 110에서, 복수의 생물학적 적격 샘플을 어떠한 한 관심 서열에 대해 정상적인 복사체 수를 갖는 세포를 포함한다고 알려진 복수의 피검체로부터 수득한다. 한 구체예에서, 적격 샘플은 세포유전학 수단을 이용하여 염색체의 정상적인 복사체 수를 갖는 것이 확인된 태아를 지닌 임신한 모체로부터 수득된다. 생물학적 적격 샘플은 생물학적 유체, 예컨대 혈장, 또는 하기 기재된 임의의 적합한 샘플일 수 있다. 일부 구체예에서, 적격 샘플은 핵산 분자, 예컨대 cfDNA 분자의 혼합물을 함유한다. 일부 구체예에서, 적격 샘플은 태아 및 모체 cfDNA 분자의 혼합물을 함유하는 모체 혈장 샘플이다. 표준화 염색체 및/또는 이의 세그먼트에 대한 서열 정보는 임의의 공지된 시퀀싱 방법을 이용하여 태아 및 모체 핵산과 같은 핵산의 적어도 일부를 시퀀싱함에 의해 수득된다. 바람직하게는, 본원에 달리 기재된 차세대 시퀀싱 (NGS) 방법 중 어느 하나를 이용하여 단일 또는 클론에 의해 증폭된 분자로서 태아 및 모체 핵산을 시퀀싱한다.
단계 120에서, 적격 샘플에 함유된 모든 적격 핵산의 각각의 적어도 일부는 시퀀싱되어 hg18과 같은 참조 유전체에 대해 정렬된 36bp 리드와 같은 수 백만개의 서열 리드를 생성한다. 일부 구체예에서, 서열 리드는 약 20bp, 약 25bp, 약 30bp, 약 35bp, 약 40bp, 약 45bp, 약 50bp, 약 55bp, 약 60bp, 약 65bp, 약 70bp, 약 75bp, 약 80bp, 약 85bp, 약 90bp, 약 95bp, 약 100bp, 약 110bp, 약 120bp, 약 130bp, 약 140bp, 약 150bp, 약 200bp, 약 250bp, 약 300bp, 약 350bp, 약 400bp, 약 450bp, 또는 약 500bp를 포함한다. 기술의 진보는 페어링된 말단 리드가 생성될 때 약 1000bp 초과의 리드를 가능하게 하는 500bp 초과의 단일-말단 리드를 가능하게 할 것으로 예상된다. 한 구체예에서, 맵핑된 서열 리드는 36bp를 포함한다. 서열 리드는 참조 유전체에 대해 정렬되며, 참조 유전체에 대해 유일하게 맵핑된 리드는 서열 태그로서 알려져 있다. 한 구체예에서, 20 내지 40bp 리드를 포함하는 적어도 약 3 x 106개 적격 서열 태그, 적어도 약 5 x 106개 적격 서열 태그, 적어도 약 8 x 106개 적격 서열 태그, 적어도 약 10 x 106개 적격 서열 태그, 적어도 약 15 x 106개 적격 서열 태그, 적어도 약 20 x 106개 적격 서열 태그, 적어도 약 30 x 106개 적격 서열 태그, 적어도 약 40 x 106개 적격 서열 태그, 또는 적어도 약 50 x 106개 적격 서열 태그가 참조 유전체에 대해 유일하게 맵핑된 리드로부터 수득된다.
단계 130에서, 적격 샘플의 핵산을 시퀀싱하여 수득된 모든 태그를 계수하여 적격 서열 태그 밀도를 결정한다. 한 구체예에서, 서열 태그 밀도는 참조 유전체 상에서 관심 서열에 대해 맵핑된 적격 서열 태그의 수로서 결정된다. 또 다른 구체예에서, 적격 서열 태그 밀도는 이들이 맵핑된 관심 적격 서열의 길이에 대해 표준화된 관심 서열에 대해 맵핑된 적격 서열 태그의 수로서 결정된다. 관심 서열의 길이에 대한 태그 밀도의 비로서 결정된 서열 태그 밀도는 본원에서 태그 밀도 비로서 언급된다. 관심 서열의 길이로의 표준화는 불필요하며, 이는 수에서 숫자의 개수를 감소시켜 인간 해석에서 이를 단순화시키기 위한 단계로서 포함될 수 있다. 모든 적격 서열 태그가 맵핑되고 각각의 적격 샘플에서 계수되므로, 적격 샘플 중 관심 서열, 예컨대 임상적으로-관련된 서열에 대한 서열 태그 밀도가 결정되는데, 이는 이후 표준화 서열이 확인되는 추가 서열에 대한 서열 태그 밀도와 같다.
일부 구체예에서, 관심 서열은 염색체 21과 같은 완전한 염색체 이수성과 관련된 염색체이고, 적격 표준화 서열은 염색체 이수성과 관련이 없고 서열 태그 밀도에서의 변이가 염색체 21과 같은 관심 서열(즉, 염색체)의 변이와 가장 비슷한 완전한 염색체이다. 염색체 1-22, X, 및 Y 중 임의의 하나 이상은 관심 서열일 수 있고, 하나 이상의 염색체는 적격 샘플 중 임의의 하나의 염색체 1-22, X 및 Y 각각에 대한 표준화 서열로서 확인될 수 있다. 표준화 염색체는 개별적인 염색체일 수 있거나, 본원에 달리 기재된 바와 같이 염색체의 그룹일 수 있다.
또 다른 구체예에서, 관심 서열은 염색체 결실 또는 삽입, 또는 불균형 염색체 전위와 같은 부분적인 이수성과 연관된 염색체의 세그먼트이고, 표준화 서열은 부분적인 이수성과 관련이 없고 서열 태그 밀도에서의 변이가 부분적인 이수성과 연관된 염색체 세그먼트의 변이와 가장 비슷한 염색체 세그먼트이다. 어떠한 하나 이상의 염색체 1-22, X, 및 Y의 임의의 하나 이상의 세그먼트가 관심 서열일 수 있다.
모든 구체예에서, 단일 서열 또는 서열의 그룹이 어떠한 하나 이상의 관심 서열에 대한 표준화 서열로서 적격 샘플에서 확인되든지 간에, 적격 표준화 서열은 적격 샘플에서 결정된 관심 서열의 서열 태그 밀도에서의 변이와 가장 비슷한 변이를 갖는다. 예를 들어, 적격 표준화 서열은 가장 작은 가변성을 갖는 서열이고, 즉 표준화 서열의 가변성은 관심 서열의 가변성에 가장 가깝다.
일부 구체예에서, 표준화 서열은 하나 이상의 변질된 샘플로부터 하나 이상의 적격 샘플을 가장 잘 구별하는 서열이고, 이는 표준화 서열이 가장 큰 차별성을 갖는 서열이고, 즉 표준화 서열의 차별성은 변질된 시험 샘플을 그 밖의 변질되지 않은 샘플로부터 용이하기 구별하기 위해 변질된 시험 샘플에서 관심 서열에 대한 최적의 식별을 제공함을 내포한다. 그 밖의 구체예에서, 표준화 서열은 가장 작은 가변성과 가장 큰 차별성을 갖는 서열이다. 차별성의 수준은 하기 기재되고 실시예에 도시된 대로 적격 샘플의 집단에서 염색체 용량 또는 세그먼트 용량과 같은 서열 용량 및 하나 이상의 시험 샘플에서의 염색체 용량(들)간 통계적 차이로서 결정될 수 있다. 예를 들어, 차별성은 T-시험 값으로서 수치적으로 표시될 수 있는데, 이는 적격 샘플의 집단에서의 염색체 용량 및 하나 이상의 시험 샘플에서의 염색체 용량(들)간 통계적 차이를 나타낸다. 대안적으로, 차별성은 표준화 염색체 값 (NCV)으로서 수치적으로 표시될 수 있는데, 이는 NCV에 대한 분포가 정상적인 한 염색체 용량에 대한 z-점수이다. 유사하게, 차별성은 T-시험 값으로서 수치적으로 표시될 수 있는데, 이는 적격 샘플의 집단에서의 세그먼트 용량 및 하나 이상의 시험 샘플에서의 세그먼트 용량(들)간 통계적 차이를 나타낸다. 대안적으로, 세그먼트 용량의 차별성은 표준화 세그먼트 값 (NSV)으로서 수치적으로 표시될 수 있는데, 이는 NSV에 대한 분포가 정상적인 한 염색체 용량에 대한 z-점수이다. z-점수를 결정함에 있어서, 적격 샘플의 세트에서 염색체 또는 세그먼트 용량의 평균 및 표준 편차를 이용할 수 있다. 대안적으로, 적격 샘플 및 변질된 샘플을 포함하는 트레이닝 세트에서 염색체 또는 세그먼트 용량의 평균 및 표준 편차를 이용할 수 있다. 그 밖의 구체예에서, 표준화 서열은 가장 작은 가변성과 가장 큰 차별성을 갖는 서열이다.
상기 방법은 선천적으로 유사한 특징을 지니고 샘플 및 시퀀싱 진행 사이에 유사한 변이의 경향이 있으며, 시험 샘플에서 서열 용량을 결정하는데 유용한 서열을 확인한다.
적격 샘플에서 서열 용량 (즉, 염색체 용량 또는 세그먼트 용량)의 결정
단계 140에서, 계산된 적격 태그 밀도에 기반하여, 관심 서열에 대한 적격 서열 용량, 즉 염색체 용량 또는 세그먼트 용량을 관심 서열에 대한 서열 태그 밀도 및, 후속하여 표준화 서열이 단계 145에서 확인되는, 추가 서열에 대한 적격 서열 태그 밀도의 비로서 결정한다. 그 후 확인된 표준화 서열을 이용하여 시험 샘플에서 서열 용량을 결정한다.
한 구체예에서, 적격 샘플의 서열 용량은 관심 염색체에 대한 서열 태그의 수 및 적격 샘플에서 표준화 염색체 서열에 대한 서열 태그의 수의 비로서 계산된 염색체 용량이다. 표준화 염색체 서열은 단일 염색체, 염색체의 그룹, 한 염색체의 세그먼트, 또는 상이한 염색체로부터의 세그먼트의 그룹일 수 있다. 따라서, 관심 염색체에 대한 염색체 용량은 적격 샘플에서 (i) 관심 염색체에 대한 태그의 수 및 단일 염색체로 구성된 표준화 염색체 서열에 대한 태그의 수의 비, (ii) 관심 염색체에 대한 태그의 수 및 둘 이상의 염색체로 구성된 표준화 염색체 서열에 대한 태그의 수의 비, 또는 (iii) 관심 염색체에 대한 태그의 수 및 염색체의 단일 세그먼트로 구성된 표준화 세그먼트 서열에 대한 태그의 수의 비, (iv) 관심 염색체에 대한 태그의 수 및 한 염색체로부터의 둘 이상의 세그먼트로 구성된 표준화 세그먼트 서열에 대한 태그의 수의 비, 또는 (v) 관심 염색체에 대한 태그의 수 및 둘 이상의 염색체의 둘 이상의 세그먼트로 구성된 표준화 세그먼트 서열에 대한 태그의 수의 비로서 결정된다. (i)-(v)에 따라 관심 염색체 21에 대해 염색체 용량을 결정하는 예는 하기와 같다: 관심 염색체, 예컨대 염색체 21에 대한 염색체 용량을 염색체 21의 서열 태그 밀도 및 남아 있는 모든 염색체, 즉 염색체 1-20, 염색체 22, 염색체 X, 및 염색체 Y 각각에 대한 서열 태그 밀도의 비로서 측정하고 (i); 관심 염색체, 예컨대 염색체 21에 대한 염색체 용량을 염색체 21의 서열 태그 밀도 및 둘 이상의 남아 있는 염색체의 가능한 모든 조합에 대한 서열 태그 밀도의 비로서 측정하고 (ii); 관심 염색체, 예컨대 염색체 21에 대한 염색체 용량을 염색체 21의 서열 태그 밀도 및 염색체 9와 같은 또 다른 염색체의 세그먼트에 대한 서열 태그 밀도의 비로서 측정하고 (iii); 관심 염색체, 예컨대 염색체 21에 대한 염색체 용량을 염색체 21의 서열 태그 밀도 및 또 다른 한 염색체의 두 세그먼트, 예컨대 염색체 9의 두 세그먼트에 대한 서열 태그 밀도의 비로서 측정하고 (iv); 관심 염색체, 예컨대 염색체 21에 대한 염색체 용량을 염색체 21의 서열 태그 밀도 및 두 상이한 염색체의 두 세그먼트, 예컨대 염색체 9의 세그먼트 및 염색체 14의 세그먼트의 서열 태그 밀도의 비로서 측정한다.
또 다른 구체예에서, 적격 샘플의 서열 용량은 관심 세그먼트에 대한 서열 태그의 수 및 적격 샘플에서 표준화 세그먼트 서열에 대한 서열 태그의 수의 비로서 계산된 세그먼트 용량이다. 표준화 세그먼트 서열은 한 염색체의 세그먼트, 또는 상이한 염색체로부터의 세그먼트의 그룹일 수 있다. 따라서, 관심 세그먼트에 대한 세그먼트 용량은 적격 샘플에서 (i) 관심 세그먼트에 대한 태그의 수 및 염색체의 단일 세그먼트로 구성된 표준화 세그먼트 서열에 대한 태그의 수의 비, (ii) 관심 세그먼트에 대한 태그의 수 및 한 염색체의 둘 이상의 세그먼트로 구성된 표준화 세그먼트 서열에 대한 태그의 수의 비, 또는 (iii) 관심 세그먼트에 대한 태그의 수 및 둘 이상의 상이한 염색체의 둘 이상의 세그먼트로 구성된 표준화 세그먼트 서열에 대한 태그의 수의 비로서 측정된다.
하나 이상의 관심 염색체에 대한 염색체 용량은 모든 적격 샘플에서 결정되고, 표준화 염색체 서열은 단계 145에서 확인된다. 유사하게, 하나 이상의 관심 세그먼트에 대한 세그먼트 용량은 모든 적격 샘플에서 결정되고, 표준화 세그먼트 서열은 단계 145에서 확인된다.
적격 서열 용량으로부터 표준화 서열의 확인
단계 145에서, 표준화 서열은 계산된 서열 용량에 기반한 서열, 즉 모든 적격 샘플에 걸쳐 관심 서열에 대해 서열 용량에 있어서 가장 작은 가변성을 초래하는 서열로서 관심 서열에 대해 확인된다. 상기 방법은 선천적으로 유사한 특징을 지니고 샘플 및 시퀀싱 진행 사이에 유사한 변이의 경향이 있으며, 시험 샘플에서 서열 용량을 결정하는데 유용한 서열을 확인한다.
하나 이상의 관심 서열에 대한 표준화 서열은 적격 샘플의 세트에서 확인될 수 있고, 적격 샘플에서 확인된 서열은 후속하여 각각의 시험 샘플에서 이수성의 존재 또는 부재를 결정하기 위해 각각의 시험 샘플에서 하나 이상의 관심 서열에 대한 서열 용량을 계산하는데 이용된다 (단계 150). 관심 염색체 또는 세그먼트에 대해 확인된 표준화 서열은 상이한 시퀀싱 플랫폼이 이용되고/되거나 시퀀싱되어야 하는 핵산의 정제 및/또는 시퀀싱 라이브러리의 제조에 있어서 차이가 존재할 때 달라질 수 있다. 본 발명의 방법에 따른 표준화 서열의 이용은 이용된 샘플 제조 및/또는 시퀀싱 플랫폼에 관계없이 염색체 또는 이의 세그먼트의 복사체 수에서의 변이에 대한 특이적이고 민감한 척도를 제공한다.
일부 구체예에서, 하나를 초과하는 표준화 서열이 확인되며, 즉 다양한 표준화 서열이 한 관심 서열에 대해 결정될 수 있고, 다수의 서열 용량이 한 관심 서열에 대해 결정될 수 있다. 예를 들어, 관심 염색체 21에 대한 염색체 용량에서 변이 계수와 같은 변이는 염색체 14의 서열 태그 밀도가 이용될 때 최소이다. 그러나, 2, 3, 4, 5, 6, 7, 8 또는 그 초과의 표준화 서열을 시험 샘플에서 관심 서열에 대한 서열 용량을 결정하는데 이용하기 위해 확인할 수 있다. 예로서, 어느 한 시험 샘플에서 염색체 21에 대한 두 번째 용량은 염색체 7, 염색체 9, 염색체 11 또는 염색체 12를 표준화 염색체 서열로서 이용하여 결정될 수 있는데, 그 이유는 이러한 염색체 모두가 염색체 14에 대한 CV에 가까운 CV를 지니기 때문이다 (실시예 2, 표 2를 참조하라). 바람직하게는, 단일 염색체가 관심 염색체에 대한 표준화 염색체 서열로서 선택될 때, 표준화 염색체 서열은 적격 샘플과 같은 시험된 모든 샘플에 걸쳐 가장 작은 가변성을 갖는 관심 염색체에 대한 염색체 용량을 발생시키는 염색체일 것이다.
염색체(들)에 대한 표준화 서열로서의 표준화 염색체 서열
그 밖의 구체예에서, 표준화 염색체 서열은 단일 서열일 수 있거나, 이것은 서열의 그룹일 수 있다. 예를 들어, 일부 구체예에서, 표준화 서열은 염색체 1-22, X 및 Y 중 어느 하나 이상에 대한 표준화 서열로서 확인된 서열의 그룹, 예컨대 염색체의 그룹이다. 관심 염색체에 대한 표준화 서열, 즉 표준화 염색체 서열을 포함하는 염색체의 그룹은 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21 또는 22개 염색체의 그룹일 수 있고, 염색체 X 및 Y 중 하나 또는 둘 모두를 포함하거나 배제한다. 표준화 염색체 서열로서 확인된 염색체의 그룹은 적격 샘플과 같은 시험된 모든 샘플에 걸쳐 가장 작은 가변성을 갖는 관심 염색체에 대한 염색체 용량을 발생시키는 염색체의 그룹이다. 바람직하게는, 개개 염색체 및 염색체의 그룹은 표준화 염색체 서열로서 선택되는 관심 서열의 거동을 가장 잘 모방하는 이들의 능력에 대해 함께 시험된다.
한 구체예에서, 염색체 21에 대한 표준화 서열은 염색체 9, 염색체 1, 염색체 2, 염색체 3, 염색체 4, 염색체 5, 염색체 6, 염색체 7, 염색체 8, 염색체 10, 염색체 11, 염색체 12, 염색체 13, 염색체 14, 염색체 15, 염색체 16, 및 염색체 17로부터 선택된다. 또 다른 구체예에서, 염색체 21에 대한 표준화 서열은 염색체 9, 염색체 1, 염색체 2, 염색체 11, 염색체 12, 및 염색체 14로부터 선택된다. 대안적으로, 염색체 21에 대한 표준화 서열은 염색체 9, 염색체 1, 염색체 2, 염색체 3, 염색체 4, 염색체 5, 염색체 6, 염색체 7, 염색체 8, 염색체 10, 염색체 11, 염색체 12, 염색체 13, 염색체 14, 염색체 15, 염색체 16, 및 염색체 17로부터 선택된 염색체의 그룹이다. 또 다른 구체예에서, 염색체의 그룹은 염색체 9, 염색체 1, 염색체 2, 염색체 11, 염색체 12, 및 염색체 14로부터 선택된 그룹이다.
일부 구체예에서, 상기 방법은 개별적으로 각각의 염색체를 이용하여 그리고 모든 남아있는 염색체를 이용한 모든 가능한 조합으로 모든 염색체 용량의 체계적인 계산에 의해 결정된 표준화 서열을 이용하여 추가로 개선된다 (실시예 7을 참조하라). 예를 들어, 체계적으로 결정된 표준화 염색체는 단일 염색체 또는 염색체의 그룹이 적격 샘플의 세트에 걸쳐 관심 염색체에 대한 최소의 염색체 용량의 가변성을 발생시키는 표준화 염색체임을 결정하기 위해 염색체 1-22, X, 및 Y 중 임의의 하나, 및 염색체 1-22, X, 및 Y 중 둘 이상의 조합을 이용하여 모든 가능한 염색체 용량을 체계적으로 계산함에 의해 각각의 관심 염색체에 대해 결정될 수 있다 (실시예 7을 참조하라). 따라서, 한 구체예에서, 염색체 21에 대해 체계적으로 계산된 표준화 염색체 서열은 염색체 4, 염색체 14, 염색체 16, 염색체 20, 및 염색체 22로 구성된 염색체의 그룹이다. 단일 염색체 또는 염색체의 그룹은 유전체에서 모든 염색체에 대해 결정될 수 있다.
한 구체예에서, 염색체 18에 대한 표준화 서열은 염색체 8, 염색체 2, 염색체 3, 염색체 4, 염색체 5, 염색체 6, 염색체 7, 염색체 9, 염색체 10, 염색체 11, 염색체 12, 염색체 13, 및 염색체 14로부터 선택된다. 바람직하게는, 염색체 18에 대한 표준화 서열은 염색체 8, 염색체 2, 염색체 3, 염색체 5, 염색체 6, 염색체 12, 및 염색체 14로부터 선택된다. 대안적으로, 염색체 18에 대한 표준화 서열은 염색체 8, 염색체 2, 염색체 3, 염색체 4, 염색체 5, 염색체 6, 염색체 7, 염색체 9, 염색체 10, 염색체 11, 염색체 12, 염색체 13, 및 염색체 14로부터 선택된 염색체의 그룹이다. 바람직하게는, 염색체의 그룹은 염색체 8, 염색체 2, 염색체 3, 염색체 5, 염색체 6, 염색체 12, 및 염색체 14로부터 선택된 그룹이다.
또 다른 구체예에서, 염색체 18에 대한 표준화 서열은 각각의 가능한 표준화 염색체를 개별적으로 이용하고 표준화 염색체의 모든 가능한 조합을 이용하여 모든 가능한 염색체 용량의 체계적인 계산에 의해 결정된다 (본원에 달리 설명된 대로). 따라서, 한 구체예에서, 염색체 18에 대한 표준화 서열은 염색체 2, 염색체 3, 염색체 5, 및 염색체 7로 구성된 염색체의 그룹으로 구성된 표준화 염색체이다.
한 구체예에서, 염색체 X에 대한 표준화 서열은 염색체 1, 염색체 2, 염색체 3, 염색체 4, 염색체 5, 염색체 6, 염색체 7, 염색체 8, 염색체 9, 염색체 10, 염색체 11, 염색체 12, 염색체 13, 염색체 14, 염색체 15, 및 염색체 16으로부터 선택된다. 바람직하게는, 염색체 X에 대한 표준화 서열은 염색체 2, 염색체 3, 염색체 4, 염색체 5, 염색체 6 및 염색체 8로부터 선택된다. 대안적으로, 염색체 X에 대한 표준화 서열은 염색체 1, 염색체 2, 염색체 3, 염색체 4, 염색체 5, 염색체 6, 염색체 7, 염색체 8, 염색체 9, 염색체 10, 염색체 11, 염색체 12, 염색체 13, 염색체 14, 염색체 15, 및 염색체 16으로부터 선택된 염색체의 그룹이다. 바람직하게는, 염색체의 그룹은 염색체 2, 염색체 3, 염색체 4, 염색체 5, 염색체 6, 및 염색체 8로부터 선택된 그룹이다.
또 다른 구체예에서, 염색체 X에 대한 표준화 서열은 각각의 가능한 표준화 염색체를 개별적으로 이용하고 표준화 염색체의 모든 가능한 조합을 이용하여 모든 가능한 염색체 용량의 체계적인 계산에 의해 결정된다 (본원에 달리 설명된 대로). 따라서, 한 구체예에서, 염색체 X에 대한 표준화 서열은 염색체 4 및 염색체 8의 그룹으로 구성된 표준화 염색체이다.
한 구체예에서, 염색체 13에 대한 표준화 서열은 염색체 2, 염색체 3, 염색체 4, 염색체 5, 염색체 6, 염색체 7, 염색체 8, 염색체 9, 염색체 10, 염색체 11, 염색체 12, 염색체 14, 염색체 18, 및 염색체 21로부터 선택된 염색체이다. 바람직하게는, 염색체 13에 대한 표준화 서열은 염색체 2, 염색체 3, 염색체 4, 염색체 5, 염색체 6, 및 염색체 8로부터 선택된 염색체이다. 또 다른 구체예에서, 염색체 13에 대한 표준화 서열은 염색체 2, 염색체 3, 염색체 4, 염색체 5, 염색체 6, 염색체 7, 염색체 8, 염색체 9, 염색체 10, 염색체 11, 염색체 12, 염색체 14, 염색체 18, 및 염색체 21로부터 선택된 염색체의 그룹이다. 바람직하게는, 염색체의 그룹은 염색체 2, 염색체 3, 염색체 4, 염색체 5, 염색체 6, 및 염색체 8로부터 선택된 그룹이다.
또 다른 구체예에서, 염색체 13에 대한 표준화 서열은 각각의 가능한 표준화 염색체를 개별적으로 이용하고 표준화 염색체의 모든 가능한 조합을 이용하여 모든 가능한 염색체 용량의 체계적인 계산에 의해 결정된다 (본원에 달리 설명된 대로). 따라서, 한 구체예에서, 염색체 13에 대한 표준화 서열은 염색체 4 및 염색체 5의 그룹을 포함하는 표준화 염색체이다. 또 다른 구체예에서, 염색체 13에 대한 표준화 서열은 염색체 4 및 염색체 5의 그룹으로 구성된 표준화 염색체이다.
염색체 Y에 대한 염색체 용량에서의 변이는 표준화 염색체가 염색체 Y 용량을 결정하는데 이용되는 것과 별개로 30을 초과한다. 따라서, 어느 한 염색체, 또는 염색체 1-22 및 염색체 X로부터 선택된 둘 이상의 염색체의 그룹을 염색체 Y에 대한 표준화 서열로서 이용할 수 있다. 한 구체예에서, 하나 이상의 표준화 염색체는 염색체 1-22, 및 염색체 X로 구성된 염색체의 그룹이다. 또 다른 구체예에서, 염색체의 그룹은 염색체 2, 염색체 3, 염색체 4, 염색체 5, 및 염색체 6으로 구성된다.
또 다른 구체예에서, 염색체 Y에 대한 표준화 서열은 각각의 가능한 표준화 염색체를 개별적으로 이용하고 표준화 염색체의 모든 가능한 조합을 이용하여 모든 가능한 염색체 용량의 체계적인 계산에 의해 결정된다 (본원에 달리 설명된 대로). 따라서, 한 구체예에서, 염색체 Y에 대한 표준화 서열은 염색체 4 및 염색체 6으로 구성된 염색체의 그룹을 포함하는 표준화 염색체이다. 또 다른 구체예에서, 염색체 Y에 대한 표준화 서열은 염색체 4 및 염색체 6으로 구성된 염색체의 그룹으로 구성된 표준화 염색체이다.
상이한 관심 염색체, 또는 상이한 관심 세그먼트의 용량을 계산하기 위해 이용된 표준화 서열은 동일할 수 있거나, 이것은 상이한 관심 염색체 또는 세그먼트에 대해 각기 상이한 표준화 서열일 수 있다. 예를 들어, 관심 염색체 A에 대한 표준화 서열, 예컨대 표준화 염색체 (하나 또는 그룹)는 동일할 수 있거나 이것은 관심 염색체 B에 대한 표준화 서열, 예컨대 표준화 염색체 (하나 또는 그룹)와 상이할 수 있다.
완전한 염색체에 대한 표준화 서열은 완전한 염색체이거나 완전한 염색체의 그룹일 수 있거나, 이것은 염색체의 세그먼트 또는 하나 이상의 염색체의 세그먼트의 그룹일 수 있다.
염색체(들)에 대한 표준화 서열로서 표준화 세그먼트 서열
또 다른 구체예에서, 염색체에 대한 표준화 서열은 표준화 세그먼트 서열일 수 있다. 표준화 세그먼트 서열은 단일 세그먼트일 수 있거나, 이것은 한 염색체의 세그먼트의 그룹일 수 있거나, 이들은 둘 이상의 상이한 염색체로부터의 세그먼트일 수 있다. 표준화 세그먼트 서열은 유전체에서 세그먼트 서열의 모든 조합의 체계적인 계산에 의해 결정될 수 있다. 예를 들어, 염색체 21에 대한 표준화 세그먼트 서열은 염색체 2의 크기보다 크거나 작은 단일 세그먼트일 수 있는데, 이는 염색체 9로부터 대략 47Mbp (백만 개 염기쌍)이고, 이는 대략 140 Mbp이다. 대안적으로, 염색체 21에 대한 표준화 서열은 염색체 1로부터의 서열 및 염색체 12로부터의 서열의 조합일 수 있다.
한 구체예에서, 염색체 21에 대한 표준화 서열은 염색체 1-20, 22, X, 및 Y중 한 세그먼트 또는 둘 이상의 세그먼트의 그룹의 표준화 세그먼트 서열이다. 또 다른 구체예에서, 염색체 18에 대한 표준화 서열은 염색체 1-17, 19-22, X, 및 Y의 세그먼트 또는 세그먼트의 그룹이다. 또 다른 구체예에서, 염색체 13에 대한 표준화 서열은 염색체 1-12, 14-22, X, 및 Y의 세그먼트 또는 세그먼트의 그룹이다. 또 다른 구체예에서, 염색체 X에 대한 표준화 서열은 염색체 1-22, 및 Y의 세그먼트 또는 세그먼트의 그룹이다. 또 다른 구체예에서, 염색체 Y에 대한 표준화 서열은 염색체 1-22, 및 X의 세그먼트 또는 세그먼트의 그룹이다. 단일 또는 세그먼트의 그룹의 표준화 세그먼트 서열은 유전체에서 모든 염색체에 대해 결정될 수 있다. 표준화 세그먼트 서열의 둘 이상의 세그먼트는 한 염색체로부터의 세그먼트일 수 있거나, 둘 이상의 세그먼트는 둘 이상의 상이한 염색체의 세그먼트일 수 있다. 표준화 염색체 서열에 대해 기재된 대로, 표준화 세그먼트 서열은 둘 이상의 상이한 염색체에 대해 동일할 수 있다.
염색체 세그먼트(들)에 대한 표준화 서열로서 표준화 세그먼트 서열
관심 서열의 CNV의 존재 또는 부재는 관심 서열이 염색체의 세그먼트일 때 결정될 수 있다. 염색체 세그먼트의 복사체 수에서의 변이는 부분적인 염색체 이수성의 존재 또는 부재를 결정할 수 있게 한다. 다양한 태아 이상 및 질환 병태와 연관된 부분적인 염색체 이수성의 예가 하기에 기재된다. 염색체의 세그먼트는 임의의 길이를 지닐 수 있다. 예를 들어, 이것은 킬로베이스 내지 수 백 메가베이스의 범위일 수 있다. 인간 유전체는 단지 30억 개가 넘는 DNA 염기를 차지하며, 이는 복사체 수가 본 방법에 따라 결정될 수 있는 수십 개, 수천 개, 수 십만 개 및 수 백만개의 상이한 크기의 세그먼트로 나뉠 수 있다. 염색체의 세그먼트에 대한 표준화 서열은 염색체 1-22, X 및 Y 중 어느 하나로부터의 단일 세그먼트일 수 있는 표준화 세그먼트 서열이거나, 이것은 염색체 1-22, X, 및 Y 중 어느 하나 이상으로부터의 세그먼트의 그룹일 수 있다.
관심 세그먼트에 대한 표준화 서열은 염색체 및 샘플에 걸쳐 관심 세그먼트의 가변성과 가장 가까운 가변성을 갖는 서열이다. 표준화 서열의 결정은 표준화 서열이 염색체 1-22, X 및 Y 중 어떠한 하나 이상의 세그먼트의 그룹인 경우에 관심 염색체에 대한 표준화 서열을 결정하기 위해 기재된 대로 수행될 수 있다. 한 세그먼트 또는 세그먼트의 그룹의 표준화 세그먼트 서열은 하나의 세그먼트, 및 적격 샘플, 즉 관심 세그먼트에 대해 이배체인 것으로 알려진 샘플의 세트의 각각의 샘플에서 관심 세그먼트에 대한 표준화 서열로서 둘 이상의 세그먼트의 모든 가능한 조합을 이용하여 세그먼트 용량을 산출함에 의해 확인될 수 있고, 표준화 서열은, 표준화 염색체 서열에 대해 상기 기재된 대로, 모든 적격 샘플에 걸쳐 관심 세그먼트에 대해 가장 작은 가변성을 지니는 세그먼트 용량을 제공하는 것으로 결정된다.
예를 들어, 1Mb (메가베이스)인 관심 세그먼트의 경우, 약 3Gb 인간 유전체중 남아 있는 30억 세그먼트 (마이너스 1 mg의 관심 세그먼트)를 개별적으로 이용하거나 서로 조합하여 이용하여, 샘플의 적격 세트 중 관심 세그먼트에 대한 세그먼트 용량을 산출함으로써 한 세그먼트 또는 세그먼트의 그룹이 적격 및 시험 샘플에 대해 표준화 세그먼트 서열로서 기능할 지를 결정할 수 있다. 관심 세그먼트는 약 1000개 염기로부터 수 십개의 메가베이스까지 다양할 수 있다. 표준화 세그먼트 서열은 관심 서열의 것과 동일한 크기의 하나 이상의 세그먼트로 구성될 수 있다. 다른 구체예에서, 표준화 세그먼트 서열은 관심 서열의 것과 상이하고/하거나 서로 상이한 세그먼트로 구성될 수 있다. 예를 들어, 10,0000개 염기 길이의 서열에 대한 표준화 세그먼트 서열은 20,000개 염기 길이일 수 있고, 상이한 길이의 서열의 조합, 예컨대 7,000+8,000+5,000개 염기를 포함할 수 있다. 표준화 염색체 서열에 관해 본원의 다른 곳에 기재된 대로, 표준화 세그먼트 서열은 각각의 가능한 표준화 염색체 세그먼트를 개별적으로 이용하고 모든 가능한 표준화 세그먼트의 조합을 이용하여 모든 가능한 염색체 및/또는 세그먼트 용량의 체계적 산출에 의해 결정될 수 있다 (본원의 다른 곳에 설명된 대로). 단일 세그먼트 또는 세그먼트의 그룹이 유전체의 모든 세그먼트 및/또는 염색체에 대해 결정될 수 있다.
상이한 관심 염색체 세그먼트의 용량을 산출하는데 이용된 표준화 서열은 동일할 수 있거나, 이것은 상이한 관심 염색체 세그먼트에 대해 상이한 표준화 서열일 수 있다. 예를 들어, 관심 염색체 세그먼트 A에 대한 표준화 서열, 예컨대 표준화 세그먼트 (하나 또는 그룹)는 동일할 수 있거나, 관심 염색체 세그먼트 B에 대한 표준화 서열, 예컨대 표준화 세그먼트 (하나 또는 그룹)와 상이할 수 있다.
시험 샘플에서 이수성의 결정
적격 샘플에서 표준화 서열(들)의 확인에 기반하여, 서열 용량은 하나 이상의 관심 서열에 있어서 상이한 유전체로부터 유래된 핵산의 혼합물을 포함하는 시험 샘플에서 관심 서열에 대해 결정된다.
단계 115에서, 시험 샘플은 관심 서열의 임상적으로-관련된 CNV를 지닌다고 알려졌거나 여겨지는 피검체로부터 수득된다. 시험 샘플은 생물학적 유체, 예컨대 혈장, 또는 하기 기재되는 임의의 적합한 샘플일 수 있다. 일부 구체예에서, 시험 샘플은 cfDNA 분자와 같은 핵산 분자의 혼합물을 함유한다. 일부 구체예에서, 시험 샘플은 태아 및 모체 cfDNA 분자의 혼합물을 함유하는 모체 혈장 샘플이다.
단계 125에서, 시험 샘플에서 시험 핵산의 적어도 일부를 적격 샘플에 대해 기재된 대로 시퀀싱하여 36bp 리드와 같은 수 백만 개의 서열 리드를 생성한다. 단계 120에서와 같이, 시험 샘플에서 핵산을 시퀀싱시켜 생성한 리드는 참조 유전체에 대해 유일하게 맵핑된다. 단계 120에서 기재된 대로, 20 내지 40bp 리드를 포함하는 적어도 약 3 x 106개 적격 서열 태그, 적어도 약 5 x 106개 적격 서열 태그, 적어도 약 8 x 106개 적격 서열 태그, 적어도 약 10 x 106개 적격 서열 태그, 적어도 약 15 x 106개 적격 서열 태그, 적어도 약 20 x 106개 적격 서열 태그, 적어도 약 30 x 106개 적격 서열 태그, 적어도 약 40 x 106개 적격 서열 태그, 또는 적어도 약 50 x 106개 적격 서열 태그가 참조 유전체에 대해 유일하게 맵핑된 리드로부터 수득된다.
단계 135에서, 시험 샘플에서 핵산을 시퀀싱시켜 수득된 모든 태그를 계수하여 시험 서열 태그 밀도를 결정한다. 한 구체예에서, 관심 서열에 대해 맵핑된 시험 서열 태그의 수를 이들이 맵핑된 관심 서열의 공지된 길이로 표준화시켜 시험 서열 태그 밀도 비를 제공한다. 적격 샘플에 대해 기재된 대로, 관심 서열의 공지된 길이로의 표준화는 필요치 않으며, 이는 수에서 숫자의 개수를 감소시켜 인간 해석에서 이를 단순화시키기 위한 단계로서 포함될 수 있다. 맵핑된 모든 시험 서열 태그가 시험 샘플에서 계수되므로, 시험 샘플의 관심 서열, 예컨대 임상적으로-관련된 서열에 대한 서열 태그 밀도가 결정되는데, 이는 적격 샘플에서 확인된 하나 이상의 표준화 서열에 상응하는 추가 서열에 대한 서열 태그 밀도와 같다.
단계 150에서, 적격 샘플에서 하나 이상의 표준화 서열의 아이덴티티에 기반하여, 시험 샘플의 관심 서열에 대해 시험 서열 용량이 결정된다. 본원의 다른 곳에 기재된 대로, 하나 이상의 표준화 서열은 단일 서열이거나 서열의 그룹일 수 있다. 시험 샘플의 관심 서열에 대한 서열 용량은 시험 샘플에서 관심 서열에 대해 결정된 서열 태그 밀도 및 시험 샘플에서 결정된 하나 이상의 표준화 서열의 서열 태그 밀도의 비이고, 여기서 시험 샘플의 표준화 서열은 특정 관심 서열에 대해 적격 샘플에서 확인된 표준화 서열에 해당한다. 예를 들어, 적격 샘플에서 염색체 21에 대해 확인된 표준화 서열이 염색체, 예컨대 염색체 14인 것으로 결정되는 경우, 염색체 21 (관심 서열)에 대한 시험 서열 용량은 시험 샘플에서 각각 결정된 염색체 21에 대한 서열 태그 밀도 및 염색체 14에 대한 서열 태그 밀도의 비로서 결정된다. 유사하게, 염색체 이수성과 관련된 염색체 13, 18, X, Y, 및 그 밖의 염색체에 대한 염색체 용량이 결정된다. 관심 염색체에 대한 표준화 서열은 하나의 염색체 또는 염색체의 그룹, 또는 하나의 염색체 세그먼트 또는 염색체 세그먼트의 그룹일 수 있다. 앞서 기재한 대로, 관심 서열은 염색체, 예컨대 염색체 세그먼트의 일부일 수 있다. 따라서, 염색체 세그먼트에 대한 용량은 시험 샘플에서 세그먼트에 대해 결정된 서열 태그 밀도 및 시험 샘플에서 표준화 염색체 세그먼트에 대한 서열 태그 밀도의 비로서 결정될 수 있고, 여기서 시험 샘플의 표준화 세그먼트는 특정 관심 세그먼트에 대해 적격 샘플에서 확인된 표준화 세그먼트(단일 세그먼트 또는 세그먼트의 그룹)에 해당한다. 염색체 세그먼트는 크기가 킬로베이스 (kb) 내지 메가베이스 (Mb)의 범위일 수 있다.
단계 155에서, 역치는 복수의 적격 샘플에서 결정된 적격 서열 용량 및 관심 서열에 대해 이수성인 것으로 알려진 샘플에 대해 결정된 서열 용량에 대해 확립된 표준 편차값으로부터 유래된다. 정확한 분류는 상이한 부류, 즉 이수성 유형에 대한 가능성 분포들간의 차이에 의존적이다. 바람직하게는, 역치는 각 유형의 이수성, 예컨대 21번 삼염색체증에 대한 경험적 분포로부터 선택된다. 가능한 역치는 태아 및 모체 핵산을 포함하는 모체 샘플로부터 추출된 cfDNA를 시퀀싱시켜 염색체 이수성을 결정하는 방법의 이용을 기재하고 있는, 실시예에 기재된 대로 13번 삼염색체증, 18번 삼염색체증, 21번 삼염색체증, 및 X 홑염색체 이수성을 분류하기 위해 확립되었다. 염색체의 이수성에 대해 변질된 샘플을 구별하기 위해 결정된 역치는 상이한 이수성에 대해 변질된 샘플을 구별하기 위해 결정된 역치와 동일하거나 상이할 수 있다. 실시예에 제시된 대로, 각각의 관심 염색체에 대한 역치는 샘플 및 시퀀싱 진행에 걸쳐 관심 염색체의 용량에서의 가변성으로부터 결정된다. 임의의 관심 염색체에 대해 염색체 용량이 덜 가변적일수록, 변질되지 않은 샘플 전부에 걸쳐 관심 염색체에 대한 용량에서의 다양성은 더 좁은데, 이를 이용하여 상이한 이수성을 결정하기 위한 역치를 설정한다.
단계 160에서, 관심 서열의 복사체 수 변이는 관심 서열에 대한 시험 서열 용량을 적격 서열 용량으로부터 확립된 하나 이상의 역치와 비교함에 의해 시험 샘플에서 결정된다.
단계 165에서, 시험 관심 서열에 대한 산출된 용량을 사용자-정의된 확실성의 역치에 따라 선택된 역치로서 설정된 것과 비교하여 샘플을 "정상", "변질됨" 또는 "노 콜"로서 분류한다. "노 콜" 샘플은 신뢰할만한 결정적인 진단이 이루어질 수 없는 샘플이다.
본 발명의 또 다른 구체예는 태아 및 모체 핵산 분자를 포함하는 생물학적 샘플에서 태아 염색체 이수성의 출생전 진단을 제공하는 방법을 제공한다. 상기 진단은 모체 혈장 샘플과 같은 생물학적 시험 샘플로부터 유래된 태아 및 모체 핵산 분자의 혼합물의 적어도 일부를 시퀀싱시켜 서열 정보를 수득하고, 시퀀싱 데이터로부터 하나 이상의 관심 염색체에 대한 표준화 염색체 용량 및/또는 하나 이상의 관심 세그먼트에 대한 표준화 세그먼트 용량을 계산하고, 시험 샘플에서, 각기, 관심 염색체에 대한 염색체 용량 및/또는 관심 세그먼트에 대한 세그먼트 용량 및 복수의 적격(정상) 샘플에서 확립된 역치간 통계적으로 유의한 차이를 결정하고, 통계적 유의성에 기반하여 출생전 진단을 제공하는 것에 기반하여 이루어진다. 상기 방법의 단계 165에 기재된 대로, 정상 또는 변질됨의 진단이 이루어진다. "노 콜"은 정상 또는 변질됨에 대한 진단이 신뢰성 있게 수행될 수 없는 사건에 제공된다.
샘플
CNV, 예컨대 염색체의 이수성 및 부분적인 이수성을 결정하는데 사용된 샘플은 세포에 존재하거나 "무세포"인 핵산을 포함한다. 본 발명의 일부 구체예에서, 무세포 핵산, 예컨대 무세포 DNA (cfDNA)를 수득하는 것이 유리하다. 무세포 DNA를 포함하는 무세포 핵산은 이로 제한되는 것은 아니나 혈장 및 혈청을 포함하는 생물학적 샘플로부터 당 분야에 공지된 다양한 방법에 의해 수득될 수 있다 (Chen et al., Nature Med. 2: 1033-1035 [1996]; Lo et al., Lancet 350: 485-487 [1997]). 세포로부터 무세포 DNA를 분리하기 위해, 분획화, 원심분리 (예컨대, 밀도 구배 원심분리), DNA-특이적 침전, 또는 고처리량 세포 분류 및/또는 분리 방법을 이용할 수 있다.
본원에 기재된 방법이 이용되는 핵산의 혼합물을 포함하는 샘플은 생물학적 샘플, 예컨대 조직 샘플, 생물학적 유체 샘플, 또는 세포 샘플이다. 일부 구체예에서, 핵산의 혼합물은 공지된 방법 중 어느 하나에 의해 생물학적 샘플로부터 정제되거나 분리된다. 샘플은 정제되거나 분리된 폴리뉴클레오티드로 구성될 수 있거나, 조직 샘플, 생물학적 유체 샘플, 또는 세포 샘플과 같은 생물학적 샘플을 포함할 수 있다. 생물학적 유체는 비제한적인 예로서 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 가래, 귀 유출액(ear flow), 림프액, 타액, 뇌척수액, 래비지(ravages), 골수 현탁액, 질 유출액(vaginal flow), 자궁경부내 세척액(transcervical lavage), 뇌 액(brain fluid), 복수, 모유, 호흡관, 장관, 및 비뇨생식관의 분비액, 양수 및 류코포레시스(leukophoresis) 샘플을 포함한다. 일부 구체예에서, 샘플은 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 가래, 귀 유출액, 타액 또는 대변과 같은 비침습성 절차에 의해 용이하게 수득될 수 있는 샘플이다. 바람직하게는, 생물학적 샘플은 말초혈 샘플, 또는 혈장 및 혈청 분획이다. 그 밖의 구체예에서, 생물학적 샘플은 면봉표본 또는 도말표본, 생검 견본, 또는 세포 배양액이다. 또 다른 구체예에서, 샘플은 2개 이상의 생물학적 샘플의 혼합물이고, 예컨대 생물학적 샘플은 생물학적 유체 샘플, 조직 샘플, 및 세포 배양 샘플 중 2개 이상을 포함할 수 있다. 본원에서 사용된, 용어 "혈액", "혈장" 및 "혈청"은 명백히 이의 분획 또는 가공된 부분을 포함한다. 유사하게, 샘플이 생검, 면봉표본, 도말표본 등으로부터 취해진 경우, "샘플"은 명백히 가공된 분획 또는 생검, 면봉표본, 도말표본 등으로부터 유래된 부분을 포함한다.
일부 구체예에서, 샘플은 이로 제한되는 것은 아니지만 상이한 개체, 동일하거나 상이한 개체의 상이한 발달 단계, 상이한 질환에 걸린 개체 (예컨대, 암을 지니거나 유전적 질병을 지닌다고 여겨지는 개체), 정상 개체로부터의 샘플, 개체에서 질환의 상이한 단계에서 수득된 샘플, 질병에 대해 상이한 치료를 받은 개체로부터 수득된 샘플, 상이한 환경 요인에 노출된 개체, 또는 병리학에 대한 소인이 있는 개체, 또는 감염성 질환 작용제 (예컨대, HIV)에 노출된 개체로부터의 샘플을 포함하는 공급원으로부터 수득될 수 있다.
한 구체예에서, 샘플은 임신한 암컷, 예를 들어 임신한 여성으로부터 수득된 모체 샘플이다. 이러한 예에서, 샘플은 태아에서 잠재적인 염색체 이상의 출생전 진단을 제공하기 위해 본원에 기재된 방법을 이용하여 분석될 수 있다. 모체 샘플은 조직 샘플, 생물학적 유체 샘플, 또는 세포 샘플일 수 있다. 생물학적 유체는 비제한적인 예로서 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 가래, 귀 유출액, 림프액, 타액, 뇌척수액, 래비지, 골수 현탁액, 질 유출액, 자궁경부내 세척액, 뇌 액, 복수, 모유, 호흡관, 장관, 및 비뇨생식관의 분비액, 및 류코포레시스 샘플을 포함한다. 또 다른 구체예에서, 모체 샘플은 2개 이상의 생물학적 샘플의 혼합물이고, 예컨대 생물학적 샘플은 생물학적 유체 샘플, 조직 샘플, 및 세포 배양 샘플 중 2개 이상을 포함할 수 있다. 일부 구체예에서, 샘플은 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 가래, 귀 유출액, 타액 또는 대변과 같은 비침습성 절차에 의해 용이하게 수득될 수 있는 샘플이다. 일부 구체예에서, 생물학적 샘플은 말초혈 샘플, 또는 혈장 및 혈청 분획이다. 다른 구체예에서, 생물학적 샘플은 면봉표본 또는 도말표본, 생검 견본, 또는 세포 배양액이다. 상기 논의된 대로, 용어 "혈액", "혈장" 및 "혈청"은 명백히 이의 분획 또는 가공된 부분을 포함한다. 유사하게, 샘플이 생검, 면봉표본, 도말표본 등으로부터 취해진 경우, "샘플"은 명백히 가공된 분획 또는 생검, 면봉표본, 도말표본 등으로부터 유래된 부분을 포함한다.
샘플은 시험관내 배양된 조직, 세포, 또는 그 밖의 폴리뉴클레오티드-함유 공급원으로부터 수득될 수도 있다. 배양된 샘플은 이로 제한되는 것은 아니지만 상이한 배지 및 조건 (예컨대, pH, 압력, 또는 온도)에서 유지된 배양액 (예컨대, 조직 또는 세포), 상이한 기간 동안 유지된 배양액 (예컨대, 조직 또는 세포), 상이한 인자 또는 시약 (예컨대, 약물 후보, 또는 조절인자)으로 처리된 배양액 (예컨대, 조직 또는 세포), 또는 상이한 유형의 조직 또는 세포의 배양액을 포함하는 공급원으로부터 취해질 수 있다.
생물학적 공급원으로부터 핵산을 분리시키는 방법은 잘 알려져 있고 공급원의 특성에 따라 상이할 것이다. 당업자는 본원에 기재된 방법에 요구되는 대로 공급원으로부터 핵산을 용이하게 분리시킬 수 있다. 일부 예에서, 핵산 샘플의 핵산 분자를 단편화하는 것이 유리할 수 있다. 단편화는 무작위일 수 있거나, 예를 들어, 제한 엔도누클레아제 분해를 이용하여 달성된 바와 같이 특이적일 수 있다. 무작위 단편화 방법은 당 분야에 잘 알려져 있고, 예를 들어, 제한적인 DNAse 분해, 알칼리 처리 및 물리적 쉬어링(physical shearing)을 포함한다. 한 구체예에서, 샘플 핵산은 단편화되지 않은 cfDNA로서 수득된다. 그 밖의 구체예에서, 샘플 핵산은 약 500개 이상의 염기쌍의 단편들로 단편화되고 NGS 방법이 용이하게 이용될 수 있는 유전체 DNA로서 수득된다.
출생전 진단을 위한 CNV 의 결정
임신 관리를 위해 그리고 생식 의사-결정을 돕기 위해, 증가된 수의 유전적 질환의 조기 비침습성 출생전 진단 (NIPD)에 모체 혈액에서 무세포 태아 DNA 및 RNA 순환을 이용할 수 있다. 혈류에서 순환하는 무세포 DNA의 존재는 50년 넘게 알려져 왔다. 보다 최근에, 순환하는 소량의 태아 DNA의 존재가 임신 동안 모체 혈류에서 발견되었다 (Lo et al., Lancet 350:485-487 [1997]). 무세포 태아 DNA (cfDNA)가 사멸 중인 태반 세포에서 비롯되었다고 고려할 때, 상기 DNA는 전형적으로 길이가 200 bp보다 적은 짧은 단편으로 구성된 것으로 밝혀졌는데 (Chan et al., Clin Chem 50:88-92 [2004]), 이는 일찌감치 임신 4주에 구별될 수 있고 (Illanes et al., Early Human Dev 83:563-566 [2007]), 전달 시간 내에 모체 혈관으로부터 제거되는 것으로 알려져 있다 (Lo et al., Am J Hum Genet 64:218-224 [1999]). cfDNA에 추가하여, 무세포 태아 RNA (cfRNA)의 단편은 또한 태아 또는 태반에서 전사된 유전자에서 비롯되며, 모체 혈류에서 구별될 수 있다. 모체 혈액 샘플로부터 이러한 태아 유전적 엘리먼트의 추출 및 후속 분석은 NIPD에 새로운 기회를 부여한다.
본 방법은 NIPD에 사용하기 위한 다형성-독립적인 방법이며 태아 이수성을 결정할 수 있도록 하기 위해 태아 cfDNA를 모체 cfDNA로부터 구별할 필요가 없다. 일부 구체예에서, 이수성은 완전한 염색체 삼염색체 또는 홑염색체, 또는 부분적인 삼염색체 또는 홑염색체이다. 부분적인 이수성은 염색체 일부의 손실 또는 획득에 의해 야기되며, 불균형 전위, 불균형 역전, 결실 및 삽입에서 초래된 염색체 불균형을 포함한다. 단연, 생존과 양립하는 가장 일반적인 공지된 이수성은 21번 삼염색체증, 즉 염색체 21의 일부 또는 전부의 존재에 의해 야기되는 다운 증후군 (DS)이다. 드물게, DS는 염색체 21의 전부 또는 일부의 여분의 복사체가 또 다른 염색체 (보통 염색체 14)에 부착되어 단일 비정상 염색체를 형성함에 의한 유전된 결함 또는 산발적 결함에 의해 야기될 수 있다. DS는 지적 장애, 심각한 학습 장애 및 심장병과 같은 장기간 건강상 문제에 의해 야기되는 초과 사망률과 관련된다. 공지된 임상적 의의를 갖는 그 밖의 이수성은 에드워드 증후군 (18번 삼염색체증) 및 파타우 증후군 (13번 삼염색체증)을 포함하는데, 이들은 종종 생존의 처음 수 개월 내에 치명적이다. 성 염색체의 수와 관련된 이상이 또한 알려져 있고 X 홑염색체, 예컨대 터너 증후군 (XO), 및 여아 출생시 삼중 X 증후군 (XXX) 및 남아 출생시 클라인펠터 증후군(Kleinefelter syndrome) (XXY) 및 XYY 증후군을 포함하며, 이들은 모두 불임 및 지적 기능의 감소를 포함하는 다양한 표현형과 관련된다. 본 발명의 방법을 이용하여 이러한 그리고 그 밖의 염색체 이상을 출생 전에 진단할 수 있다.
본 발명의 일부 구체예에 따르면, 본 발명에 의해 결정된 삼염색체증은 비제한적으로 21번 삼염색체증 (T21; 다운 증후군), 18번 삼염색체증 (T18; 에드워드 증후군), 16번 삼염색체증 (T16), 22번 삼염색체증 (T22; 묘안 증후군), 15번 삼염색체증 (T15; 프레더 윌리 증후군), 13번 삼염색체증 (T13; 파타우 증후군), 8번 삼염색체증 (T8; 와카니 증후군(Warkany Syndrome)) 및 XXY (클라인펠터 증후군), XYY, 또는 XXX 삼염색체를 포함한다. 다양한 그 밖의 완전한 삼염색체 및 부분적인 삼염색체를 본 발명의 교시에 따라 태아 cfDNA에서 결정할 수 있음이 이해될 것이다. 부분적인 삼염색체의 예는, 이로 제한되는 것은 아니지만 부분적인 삼염색체 1q32-44, 삼염색체를 갖는 9p 삼염색체증, 4번 삼염색체증 모자이크 현상, 17p 삼염색체증, 부분적인 삼염색체 4q26-qter, 9번 삼염색체증, 부분적인 2p 삼염색체증, 부분적인 1q 삼염색체증, 및/또는 부분적인 6p 삼염색체/6q 홑염색체를 포함한다.
본 발명의 방법은 또한 임신 유산에 관여하는 것으로 알려진, 염색체의 X 홑염색체, 및 부분적인 홑염색체, 예컨대 홑염색체 13, 홑염색체 15, 홑염색체 16, 홑염색체 21, 및 홑염색체 22를 결정하는데 이용될 수 있다. 완전한 이수성에 전형적으로 수반되는 염색체의 부분적인 홑염색체가 또한 본 발병의 방법에 의해 결정될 수 있다. 홑염색체 18p는 염색체 18의 단완(p)의 전부 또는 일부가 결실된 (홑염색체) 희귀한 염색체 질병이다. 상기 질병은 전형적으로 작은 키, 다양한 정도의 정신 지체, 언어 지연, 머리 및 얼굴 (두개안면) 영역의 기형, 및/또는 추가의 신체적 이상을 특징으로 한다. 관련된 두개안면 결함은 병증마다 범위 및 중증도에 있어서 매우 다양할 수 있다. 염색체 15의 구조 또는 복사체의 수에서의 변화에 의해 야기되는 질환은 염색체 15의 동일한 부분, 15q11-q13 영역에서 유전자 활성의 손실을 수반하는 안젤만 증후군 및 프레더 윌리 증후군을 포함한다. 여러 전위 및 미세결실이 보유 부모에서는 무증상일 수 있으나, 자손에서 주요 유전적 질환을 일으킬 수 있음이 이해될 것이다. 예를 들어, 15q11-q13 미세결실을 지니는 건강한 모체는 심각한 신경퇴행 질병인 안젤만 증후군을 지닌 아이를 출산할 수 있다. 따라서, 태아에서 그러한 부분적인 결실 및 그 밖의 결실을 확인하는데 본 발명을 이용할 수 있다. 부분적인 홑염색체 13q는 염색체 13의 장완(q)의 조각이 없을 때 (홑염색체) 초래되는 희귀한 염색체 질병이다. 부분적인 홑염색체 13q를 지니고 태어난 아기는 낮은 출생 체중, 머리 및 얼굴 (두개안면 영역)의 기형, 골격 이상 (특히 손과 발), 및 그 밖의 신체적 이상을 나타낼 수 있다. 정신 지체가 이러한 질환의 특징이다. 이러한 질병을 갖고 태어난 개체 중에서 유년기 동안의 사망률이 높다. 부분적인 홑염색체 13q의 거의 모든 병증은 명백한 이유 없이 (산발적) 무작위로 발생한다. 디죠오지 증후군으로도 알려진 22q11.2 결실 증후군은 염색체 22의 작은 조각의 결실에 의해 야기되는 증후군이다. 결실 (22 q11.2)은 염색체 쌍 중 하나의 장완 상에서 염색체의 중간에 가깝게 일어난다. 이러한 증후군의 특징은 동일한 가족의 구성원 사이에서조차 광범하게 다양하고, 신체의 많은 부분에 영향을 미친다. 특징적인 징후 및 증상은 선천성 심장병, 폐쇄에 관한 신경근 문제와 가장 흔히 관련되는 구개에서의 결함 (연인두폐쇄 부전(velo-pharyngeal insufficiency)), 학습 장애, 얼굴 특징에서의 가벼운 차이, 및 재발성 감염과 같은 선천성 결함을 포함할 수 있다. 염색체 영역 22q11.2의 미세결실은 정신분열병의 20 내지 30배 증가된 위험성과 관련된다. 한 구체예에서, 본 발명의 방법을 이용하여 이로 제한되는 것은 아니지만 홑염색체 18p, 염색체 15의 부분적인 홑염색체 (15q11-q13), 부분적인 홑염색체 13q를 포함하는 부분적인 홑염색체를 결정하며, 염색체 22의 부분적인 홑염색체도 상기 방법을 이용하여 결정될 수 있다.
본 발명의 방법을 또한 이용하여, 부모 중 한 명이 상기 비정상의 공지된 보유자인 경우, 임의의 이수성을 결정할 수 있다. 이는 소형의 과다 마커 염색체 (SMC); t(11;14)(p15;p13) 전위; 불균형 전위 t(8;11)(p23.2;p15.5); 11q23 미세결실; 스미스-마제니스 증후군 17p11.2 결실; 22q13.3 결실; Xp22.3 미세결실; 10p14 결실; 20p 미세결실, 디죠오지 증후군 [del(22)(q11.2q11.23)], 윌리엄스 증후군 (7q11.23 및 7q36 결실); 1p36 결실; 2p 미세결실; 신경섬유종증 유형 1 (17q11.2 미세결실), Yq 결실; 울프-허쉬호른 증후군 (WHS, 4p16.3 미세결실); 1p36.2 미세결실; 11q14 결실; 19q13.2 미세결실; 루빈스타인-테이비 (16 p13.3 미세결실); 7p21 미세결실; 밀러-디커 증후군 (17p13.3), 17p11.2 결실; 및 2q37 미세결실에 대한 모자이크를 포함하나 이로 제한되는 것은 아니다.
완전한 태아 염색체 이수성의 결정
한 구체예에서, 본 발명은 태아 및 모체 핵산 분자를 포함하는 모체 시험 샘플에서 어떠한 하나 이상의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재를 결정하는 방법을 제공한다. 바람직하게는, 상기 방법은 어떠한 네 개 이상의 상이한 완전한 염색체 이수성의 존재 또는 부재를 결정한다. 상기 방법의 단계는 (a) 모체 시험 샘플에서 태아 및 모체 핵산에 대한 서열 정보를 수득하고; (b) 상기 서열 정보를 이용하여 염색체 1-22, X 및 Y로부터 선택된 어떠한 하나 이상의 관심 염색체 각각에 대한 다수의 서열 태그를 확인하고 어떠한 하나 이상의 관심 염색체 각각에 대한 표준화 염색체 서열에 대해 다수의 서열 태그를 확인하는 것을 포함한다. 표준화 염색체 서열은 단일 염색체일 수 있거나, 염색체 1-22, X, 및 Y로부터 선택되는 염색체의 그룹일 수 있다. 상기 방법은 단계 (c)에서 어떠한 하나 이상의 관심 염색체 각각에 대한 단일 염색체 용량을 계산하기 위해 어떠한 하나 이상의 관심 염색체 각각에 대해 확인된 서열 태그의 수 및 각각의 표준화 세그먼트 서열에 대해 확인된 서열 태그의 수를 추가로 이용하고; (d) 어떠한 하나 이상의 관심 염색체 각각에 대한 단일 염색체 용량 각각을 하나 이상의 관심 염색체 각각에 대한 역치와 비교함으로써, 모체 시험 샘플 중 어떠한 하나 이상의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재를 결정한다.
일부 구체예에서, 단계 (c)는 관심 염색체 각각에 대한 단일 염색체 용량을 관심 염색체 각각에 대해 확인된 서열 태그의 수 및 관심 염색체 각각에 대한 표준화 염색체에 대해 확인된 서열 태그의 수의 비로서 계산하는 것을 포함한다.
그 밖의 구체예에서, 단계 (c)는 관심 염색체 각각에 대한 단일 염색체 용량을 관심 염색체 각각에 대해 확인된 서열 태그의 수 및 관심 염색체 각각에 대한 표준화 염색체에 대해 확인된 서열 태그의 수의 비로서 계산하는 것을 포함한다. 그 밖의 구체예에서, 단계 (c)는 관심 염색체에 대해 수득된 서열 태그의 수를 관심 염색체의 길이와 관련시키고, 관심 염색체에 대해 상응하는 표준화 염색체 서열에 대한 태그의 수를 표준화 염색체 서열의 길이와 관련시킴에 의해 관심 염색체에 대한 서열 태그 비를 계산하고, 관심 염색체에 대한 염색체 용량을 관심 염색체의 서열 태그 밀도 및 표준화 서열에 대한 서열 태그 밀도의 비로서 계산하는 것을 포함한다. 이러한 계산은 모든 관심 염색체 각각에 대해 반복된다. 단계 (a)-(d)는 상이한 모체 피검체로부터의 시험 샘플에 대해 반복될 수 있다.
네 개 이상의 완전한 태아 염색체 이수성을 태아 및 모체 세포가 없는 DNA 분자의 혼합물을 포함하는 모체 시험 샘플에서 결정하는 구체예의 예는 (a) 무세포 DNA 분자의 적어도 일부를 시퀀싱시켜 시험 샘플에서 태아 및 모체 세포가 없는 DNA 분자에 대한 서열 정보를 수득하고; (b) 상기 서열 정보를 이용하여 염색체 1-22, X 및 Y로부터 선택된 어떠한 20개 이상의 관심 염색체 각각에 대해 다수의 서열 태그를 확인하고 20개 이상의 관심 염색체 각각에 대한 표준화 염색체에 대해 다수의 서열 태그를 확인하며; (c) 20개 이상의 관심 염색체 각각에 대해 확인된 서열 태그의 수 및 각각의 표준화 염색체에 대해 확인된 서열 태그의 수를 이용하여 20개 이상의 관심 염색체 각각에 대한 단일 염색체 용량을 계산하고; (d) 20개 이상의 관심 염색체 각각에 대한 단일 염색체 용량 각각을 20개 이상의 관심 염색체 각각에 대한 역치와 비교함으로써, 시험 샘플 중 어떠한 20개 이상의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재를 결정하는 것을 포함한다.
또 다른 구체예에서, 상기 기재된 대로 모체 시험 샘플에서 어떠한 하나 이상의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재를 결정하는 방법은 관심 염색체의 용량을 결정하기 위해 표준화 세그먼트 서열을 이용한다. 이러한 예에서, 상기 방법은 (a) 상기 샘플 중 상기 태아 및 모체 핵산에 대해 서열 정보를 수득하고; (b) 상기 서열 정보를 이용하여 염색체 1-22, X 및 Y로부터 선택된 어떠한 하나 이상의 관심 염색체 각각에 대해 다수의 서열 태그를 확인하고 상기 어떠한 하나 이상의 관심 염색체 각각에 대한 표준화 세그먼트 서열에 대해 다수의 서열 태그를 확인하는 것을 포함한다. 표준화 세그먼트 서열은 염색체의 단일 세그먼트일 수 있거나 하나 이상의 상이한 염색체로부터의 세그먼트의 그룹일 수 있다. 상기 방법은 단계 (c)에서 상기 어떠한 하나 이상의 관심 염색체 각각에 대한 단일 염색체 용량을 계산하기 위해 상기 어떠한 하나 이상의 관심 염색체 각각에 대해 확인된 서열 태그의 수 및 상기 표준화 세그먼트 서열에 대해 확인된 상기 서열 태그의 수를 추가로 이용하고; (d) 상기 어떠한 하나 이상의 관심 염색체 각각에 대한 상기 단일 염색체 용량 각각을 상기 하나 이상의 관심 염색체 각각에 대한 역치와 비교하여, 상기 샘플 중 하나 이상의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재를 결정한다.
일부 구체예에서, 단계 (c)는 상기 관심 염색체 각각에 대한 단일 염색체 용량을 상기 관심 염색체 각각에 대해 확인된 서열 태그의 수 및 상기 관심 염색체 각각에 대한 상기 표준화 세그먼트 서열에 대해 확인된 서열 태그의 수의 비로서 계산하는 것을 포함한다.
그 밖의 구체예에서, 단계 (c)는 관심 염색체에 대해 수득된 서열 태그의 수를 관심 염색체의 길이와 관련시키고, 관심 염색체에 대해 상응하는 표준화 세그먼트 서열에 대한 태그의 수를 표준화 세그먼트 서열의 길이와 관련시킴에 의해 관심 염색체에 대한 서열 태그 비를 계산하고, 관심 염색체에 대한 염색체 용량을 관심 염색체의 서열 태그 밀도 및 표준화 세그먼트 서열에 대한 서열 태그 밀도의 비로서 계산하는 것을 포함한다. 상기 계산은 모든 관심 염색체 각각에 대해 반복된다. 단계 (a)-(d)는 상이한 모체 피검체로부터의 시험 샘플에 대해 반복될 수 있다.
상이한 샘플 세트의 염색체 용량을 비교하기 위한 수단은 시험 샘플 중 염색체 용량을 적격 샘플의 세트에서 상응하는 염색체 용량의 평균에 관련시키는 표준화 염색체 값 (NCV)을 결정함에 의해 제공된다:
Figure pct00009
상기 식에서,
Figure pct00010
Figure pct00011
는 적격 샘플의 세트에서 j번째 염색체 용량에 대한 각기 추정 평균 및 표준 편차이고,
Figure pct00012
는 시험 샘플 i에 대해 관찰된 j번째 염색체 용량이다.
일부 구체예에서, 하나 이상의 완전한 태아 염색체 이수성의 존재 또는 부재가 결정된다. 그 밖의 구체예에서, 적어도 2개, 적어도 3개, 적어도 4개, 적어도 5개. 적어도 6개, 적어도 7개, 적어도 8개, 적어도 9개, 적어도 10개, 적어도 11개, 적어도 12개, 적어도 13개, 적어도 14개, 적어도 15개, 적어도 16개, 적어도 17개, 적어도 18개, 적어도 19개, 적어도 20개, 적어도 21개, 적어도 22개, 적어도 23개, 또는 24개의 완전한 태아 염색체 이수성의 존재 또는 부재가 샘플에서 결정되는데, 22개의 완전한 태아 염색체 이수성은 어떠한 하나 이상의 보통염색체의 완전한 염색체 이수성에 상응하고; 23개 및 24개의 염색체 이수성은 염색체 X 및 Y의 완전한 태아 염색체 이수성에 상응한다. 성 염색체의 이수성이 삼염색체증, 오염색체증, 및 그 밖의 뭇염색체증을 포함할 수 있으므로, 본 발명에 따라 결정될 수 있는 상이한 완전한 염색체 이수성의 수는 적어도 24개, 적어도 25개, 적어도 26개, 적어도 27개, 적어도 28개, 적어도 29개, 또는 적어도 30개의 완전한 염색체 이수성일 수 있다. 따라서, 결정되는 상이한 완전한 태아 염색체 이수성의 수는 분석을 위해 선택된 관심 염색체의 수와 관련된다.
한 구체예에서, 상기 기재된 대로 모체 시험 샘플 중 어떠한 하나 이상의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재를 결정하는 것은 염색체 1-22, X, 및 Y로부터 선택되는 하나의 관심 염색체에 대한 표준화 세그먼트 서열을 이용한다. 그 밖의 구체예에서, 2개 이상의 관심 염색체는 염색체 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16,17, 18, 19, 20, 21, 22, X, 또는 Y 중 어떠한 2개 이상으로부터 선택된다. 한 구체예에서, 어떠한 하나 이상의 관심 염색체는 염색체 1-22, X, 및 Y로부터 선택되고 염색체 1-22, X, 및 Y로부터 선택되는 20개 이상의 염색체를 포함하며, 여기서 20개 이상의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재가 결정된다. 그 밖의 구체예에서, 염색체 1-22, X, 및 Y로부터 선택되는 어떠한 하나 이상의 관심 염색체는 모든 염색체 1-22, X, 및 Y이고, 모든 염색체 1-22, X, 및 Y의 완전한 태아 염색체 이수성의 존재 또는 부재가 결정된다. 결정될 수 있는 완전한 상이한 태아 염색체 이수성은 완전한 염색체의 삼염색체, 완전한 염색체의 홑염색체 및 완전한 염색체의 뭇염색체를 포함한다. 완전한 태아 염색체 이수성의 예는 비제한적으로 어떠한 하나 이상의 보통염색체의 삼염색체, 예컨대 2번 삼염색체증, 8번 삼염색체증, 9번 삼염색체증, 21번 삼염색체증, 13번 삼염색체증, 16번 삼염색체증, 18번 삼염색체증, 22번 삼염색체증; 성 염색체의 삼염색체, 예컨대 47,XXY, 47 XXX, 및 47 XYY; 성 염색체의 사염색체, 예컨대 48,XXYY, 48,XXXY, 48XXXX, 및 48,XYYY; 성 염색체의 오염색체, 예컨대 49,XXXYY 49,XXXXY, 49,XXXXX, 49,XYYYY; 및 X 홑염색체를 포함한다. 본 발명에 따라 결정될 수 있는 그 밖의 완전한 태아 염색체 이수성이 하기에 기재된다.
부분적인 태아 염색체 이수성의 결정
또 다른 구체예에서, 본 발명은 태아 및 모체 핵산 분자를 포함하는 모체 시험 샘플에서 어떠한 하나 이상의 상이한 부분적인 태아 염색체 이수성의 존재 또는 부재를 결정하는 방법을 제공한다. 상기 방법의 단계는 상기 샘플에서 태아 및 모체 핵산에 대한 서열 정보를 수득하고; (b) 상기 서열 정보를 이용하여 염색체 1-22, X, 및 Y로부터 선택된 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대한 다수의 서열 태그를 확인하고 어떠한 하나 이상의 관심 염색체의 상기 임의의 하나 이상의 세그먼트 각각에 대해 표준화 세그먼트 서열에 대한 다수의 서열 태그를 확인하는 것을 포함한다. 표준화 세그먼트 서열은 염색체의 단일 세그먼트일 수 있거나 하나 이상의 상이한 염색체로부터의 세그먼트의 그룹일 수 있다. 상기 방법은 단계 (c)에서 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대한 단일 세그먼트 용량을 계산하기 위해 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대해 확인된 서열 태그의 수 및 표준화 세그먼트 서열에 대해 확인된 서열 태그의 수를 추가로 이용하고; (d) 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대한 단일 염색체 용량 각각을 상기 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 염색체 세그먼트 각각에 대한 역치와 비교하여, 상기 샘플 중 하나 이상의 상이한 부분적인 태아 염색체 이수성의 존재 또는 부재를 결정한다.
일부 구체예에서, 단계 (c)는 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대한 단일 염색체 용량을 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대해 확인된 서열 태그의 수 및 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대한 표준화 세그먼트 서열에 대해 확인된 서열 태그의 수의 비로서 계산하는 것을 포함한다.
그 밖의 구체예에서, 단계 (c)는 관심 세그먼트에 대해 수득된 서열 태그의 수를 관심 세그먼트의 길이와 관련시키고, 관심 세그먼트에 상응하는 표준화 세그먼트 서열에 대한 태그의 수를 표준화 세그먼트 서열의 길이와 관련시킴에 의해 관심 세그먼트에 대한 서열 태그 비를 계산하고, 관심 세그먼트에 대한 세그먼트 용량을 관심 세그먼트의 서열 태그 밀도 및 표준화 세그먼트 서열에 대한 서열 태그 밀도의 비로서 계산하는 것을 포함한다. 상기 계산은 모든 관심 염색체 각각에 대해 반복된다. 단계 (a)-(d)는 상이한 모체 피검체로부터의 시험 샘플에 대해 반복될 수 있다.
상이한 샘플 세트의 세그먼트 용량을 비교하기 위한 수단은 시험 샘플 중 세그먼트 용량을 적격 샘플의 세트에서 상응하는 세그먼트 용량의 평균에 관련시키는 표준화 세그먼트 값 (NSV)을 결정함에 의해 제공된다. NSV는 다음과 같이 계산된다:
Figure pct00013
상기 식에서,
Figure pct00014
Figure pct00015
는 적격 샘플의 세트에서 j번째 세그먼트 용량에 대한 각기 추정 평균 및 표준 편차이고,
Figure pct00016
는 시험 샘플 i에 대해 관찰된 j번째 세그먼트 용량이다.
일부 구체예에서, 한 부분적인 태아 염색체 이수성의 존재 또는 부재가 결정된다. 그 밖의 구체예에서, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15. 20. 25 또는 그 초과의 부분적인 태아 염색체 이수성의 존재 또는 부재가 샘플에서 결정된다. 한 구체예에서, 염색체 1-22, X, 및 Y 중 어느 하나로부터 선택된 한 관심 세그먼트는 염색체 1-22, X, 및 Y로부터 선택된다. 또 다른 구체예에서, 염색체 1-22, X, 및 Y로부터 선택된 2개 이상의 관심 세그먼트는 염색체 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, X, 또는 Y 중 임의의 2개 이상으로부터 선택된다. 한 구체예에서, 어떠한 하나 이상의 관심 세그먼트는 염색체 1-22, X, 및 Y로부터 선택되고 염색체 1-22, X, 및 Y로부터 선택되는 적어도 1개, 5개, 10개, 15개, 20개, 25개 또는 그 초과의 세그먼트를 포함하며, 여기서 적어도 1개, 5개, 10개, 15개, 20개, 25개의 상이한 부분적인 태아 염색체 이수성의 존재 또는 부재가 결정된다. 결정될 수 있는 상이한 부분적인 태아 염색체 이수성은 부분적인 중복, 부분적인 증가, 부분적인 삽입 및 부분적인 결실을 포함한다. 부분적인 태아 염색체 이수성의 예는 보통염색체의 부분적인 홑염색체 및 부분적인 삼염색체를 포함한다. 보통염색체의 부분적인 홑염색체는 염색체 1의 부분적인 홑염색체, 염색체 4의 부분적인 홑염색체, 염색체 5의 부분적인 홑염색체, 염색체 7의 부분적인 홑염색체, 염색체 11의 부분적인 홑염색체, 염색체 15의 부분적인 홑염색체, 염색체 17의 부분적인 홑염색체, 염색체 18의 부분적인 홑염색체, 및 염색체 22의 부분적인 홑염색체를 포함한다. 본 발명에 따라 결정될 수 있는 그 밖의 부분적인 태아 염색체 이수성이 하기에 기재된다.
상기 기재된 구체예 중 어느 하나에서, 시험 샘플은 혈액, 혈장, 혈청, 소변 및 타액 샘플로부터 선택되는 모체 샘플이다. 일부 구체예에서, 모체 시험 샘플은 혈장 샘플이다. 모체 샘플의 핵산 분자는 태아 및 모체 세포가 없는 DNA 분자의 혼합물이다. 핵산의 시퀀싱은 본원에 달리 기재된 차세대 시퀀싱 (NGS)을 이용하여 수행될 수 있다. 일부 구체예에서, 시퀀싱은 가역적 염료 종결자에 의한 합성을 통한 시퀀싱을 이용한 대량 병렬 시퀀싱이다. 다른 구체예에서, 시퀀싱은 라이게이션을 통한 시퀀싱이다. 또한 다른 구체예에서, 시퀀싱은 단일 분자 시퀀싱이다. 임의로, 증폭 단계는 시퀀싱 이전에 수행된다.
임상적 질병의 CNV 의 결정
본원에 기재된 방법은 선천성 결함의 조기 결정 외에, 유전체 내에서 유전자 서열의 묘사에서의 어떠한 이상을 결정하는데 이용될 수 있다.
암 환자로부터의 혈액 혈장 및 혈청 DNA는 회수되어 종양 DNA의 대용원으로서 이용될 수 있는 측정가능한 양의 종양 DNA를 포함하고, 종양은 이수성, 또는 부적절한 수의 유전자 서열 또는 심지어 전체 염색체를 특징으로 하는 것으로 나타났다. 따라서 개체로부터의 샘플 중 주어진 서열, 즉 관심 서열의 양에서의 차이의 결정은 의학적 질환의 진단에 이용될 수 있다. 일부 구체예에서, 상기 방법은 암에 걸린 것으로 의심되거나 알려진 환자에서 염색체 이수성의 존재 또는 부재를 결정하는데 이용될 수 있다. 상기 방법은 또한 질환 상태의 존재 또는 부재를 결정하고; 바이러스와 같은 병원체의 핵산의 존재 또는 부재를 결정하고; 이식편대 숙주 질환 (GVHD)과 관련된 염색체 이상을 결정하고, 법의학 분석에서 개체의 공헌을 결정하는데 이용될 수 있다.
본 발명의 구체예는 2개의 상이한 유전체로부터 유래된 핵산의 혼합물을 포함하고 하나 이상의 관심 서열의 양에 있어서 상이하다고 알려져 있거나 여겨지는, 시험 샘플 중 관심 서열, 예컨대 임상적으로-관련된 서열의 복사체 수 변이를 평가하는 방법을 제공한다. 핵산의 혼합물은 2개 이상의 유형의 세포로부터 유래된다. 한 구체예에서, 핵산의 혼합물은 정상 세포 및 암과 같은 의학적 질환에 걸린 피검체로부터 유래된 암성 세포로부터 유래된다.
암의 발생은 종종 전체 염색체의 수에서의 변경, 즉 완전한 염색체 이수성 및/또는 염색체 불안정성 (CIN)으로 알려진 과정에 의해 야기된, 염색체의 세그먼트의 수에서의 변경, 즉 부분적인 이수성에 의해 확립된다 (Thoma et al., Swiss Med Weekly 2011:141:w13170). 유방암과 같은 다수의 고형 종양은 여러 유전적 이상의 누적을 통해 개시에서 전이까지 진행되는 것으로 여겨진다 [Sato et al., Cancer Res., 50: 7184-7189 [1990]; Jongsma et al., J Clin Pathol: Mol Path 55:305-309 [2002])]. 그러한 유전적 이상은 누적에 따라 증식 이점, 유전적 불안정성 및 수반되는 능력을 수여할 수 있어서 신속한 내약성, 및 증강된 혈관형성, 단백질분해 및 전이를 전개시킬 수 있다. 유전적 이상은 열성 "종양 억제 유전자" 또는 지배적으로 작용하는 종양유전자에 영향을 줄 수 있다. 이형접합성 (LOH)의 손실을 야기하는 결실 및 재조합은 돌연변이된 종양 억제 대립유전자를 노출시킴에 의해 종양 진행에서 주요 임무를 수행하는 것으로 여겨진다.
cfDNA는 이로 제한되는 것은 아니지만 폐암 (Pathak et al. Clin Chem 52:1833-1842 [2006]), 전립선암 (Schwartzenbach et al. Clin Cancer Res 15:1032-8 [2009]), 및 유방암 (Schwartzenbach et al. available online at breast-cancer-research.com/content/11/5/R71 [2009])을 포함하는 신생물을 지닌 것으로 진단된 환자의 순환에서 발견되었다. 암 환자에서 순환 중인 cfDNA에서 결정될 수 있는 암과 관련된 유전체 불안정성의 확인은 잠재적인 진단 및 예후 툴이다. 한 구체예에서, 본 발명의 방법은 암종, 육종, 림프종, 백혈병, 생식 세포 종양 및 모세포종과 같은 암을 지니는 것으로 여겨지거나 지닌 것으로 알려진 피검체로부터 유래되는 핵산의 혼합물을 포함하는 샘플 중 관심 서열의 CNV를 평가한다. 한 구체예에서, 샘플은 말초혈로부터 유래되고 (처리되고) 정상 및 암성 세포로부터 유래된 cfDNA의 혼합물을 포함하는 혈장 샘플이다. 또 다른 구체예에서, CNV가 존재하는지 여부를 결정할 것이 요구되는 생물학적 샘플은 이로 제한되는 것은 아니지만 혈청, 땀, 눈물, 가래, 소변, 가래, 귀 유출액, 림프액, 타액, 뇌척수액, 래비지, 골수 현탁액, 질 유출액, 자궁경부내 세척액, 뇌 액, 복수, 모유, 호흡관, 장관 및 비뇨생식관의 분비액, 및 류코포레시스 샘플을 포함하는 그 밖의 생물학적 유체, 또는 조직 생검, 면봉표본, 또는 도말표본으로부터의 암성 및 비암성 세포의 혼합물로부터 유래된다. 그 밖의 구체예에서, 생물학적 샘플은 대변 (배설물) 샘플이다.
관심 서열은 암의 발생 및/또는 진행에서 역할을 담당하는 것으로 알려져 있거나 여겨지는 핵산 서열이다. 관심 서열의 예는 하기에 기재된 대로 암성 세포에서 증폭되거나 결실되는 핵산 서열, 즉 완전한 염색체 및/또는 염색체의 세그먼트를 포함한다.
한 구체예에서, 본 방법을 이용하여 염색체 증폭의 존재 또는 부재를 결정할 수 있다. 일부 구체예에서, 염색체 증폭은 하나 이상의 전체 염색체의 획득이다. 그 밖의 구체예에서, 염색체 증폭은 염색체의 하나 이상의 세그먼트의 획득이다. 또한 다른 구체예에서, 염색체 증폭은 2개 이상의 염색체의 2개 이상의 세그먼트의 획득이다. 염색체 증폭은 하나 이상의 종양유전자의 획득을 포함할 수 있다.
인간 고형 종양과 관련된 지배적으로 작용하는 유전자는 과발현 또는 변경된 발현에 의해 전형적으로 그 효과를 발휘한다. 유전자 증폭은 유전자 발현의 상향조절을 초래하는 일반적인 메카니즘이다. 세포유전학 연구로부터의 증거는 현저한 증폭이 50%가 넘는 인간 유방암에서 발생함을 나타낸다. 가장 현저하게는, 염색체 17 상(17(17q21-q22))에 존재하는 프로토-종양유전자 인간 표피 성장 인자 수용체 2 (HER2)의 증폭이 유방암 및 그 밖의 신생물에서 과도한 그리고 이상조절된 신호전달을 야기하는 세포 표면 상에서의 HER2 수용체의 과발현을 발생시킨다 (Park et al., Clinical Breast Cancer 8:392-401 [2008]). 다양한 종양유전자가 그 밖의 인간 신생물에서 증폭되는 것으로 밝혀졌다. 인간 종양에서 세포 종양유전자의 증폭의 예는 전골수세포 백혈병 세포주 HL60, 및 소세포 폐암종 세포주에서 c-myc, 원발성 신경모세포종 (III기 및 IV기), 신경모세포종 세포주, 망막모세포종 세포주 및 원발성 종양에서 N-myc, 및 소세포 폐암종 주 및 종양, 소세포 폐암종 세포주 및 종양에서 L-myc, 급성 골수성 백혈병 및 결장 암종 세포주에서 c-myb, 표피모양 암종 세포, 및 원발성 신경아교종에서 c-erbb, 폐, 결장, 방광 및 직장의 원발성 암종에서 c-K-ras-2, 유선 암종 세포주에서 N-ras의 증폭을 포함한다 (Varmus H., Ann Rev Genetics 18: 553-612 (1984) [cited in Watson et al., Molecular Biology of the Gene (4th ed.; Benjamin/Cummings Publishing Co. 1987)].
한 구체예에서, 본 방법은 염색체 결실의 존재 또는 부재를 결정하는데 이용될 수 있다. 일부 구체예에서, 염색체 결실은 하나 이상의 전체 염색체의 손실이다. 그 밖의 구체예에서, 염색체 결실은 염색체의 하나 이상의 세그먼트의 손실이다. 또한 다른 구체예에서, 염색체 결실은 2개 이상의 염색체의 2개 이상의 세그먼트의 손실이다. 염색체 결실은 하나 이상의 종양 억제 유전자의 손실을 포함할 수 있다.
종양 억제 유전자를 포함하는 염색체 결실은 고형 종양의 발생 및 진행에 있어서 중요한 역할을 수행할 수 있다. 염색체 13q14에 위치한 망막모세포종 종양 억제 유전자 (Rb-1)는 가장 광범하게 특징적인 종양 억제 유전자이다. Rb-1 유전자 생성물인 105 kDa의 핵 인단백질은 세포 주기 조절에서 명백히 중요한 역할을 담당한다 (Howe et al., Proc Natl Acad Sci (USA) 87:5883-5887 [1990]). Rb 단백질의 변경되거나 손실된 발현은 점 돌연변이 또는 염색체 결실을 통한 둘 모두의 유전자 대립유전자의 불활성화에 의해 야기된다. Rb-i 유전자 변경은 망막모세포종뿐 아니라 골육종, 소세포 폐암 (Rygaard et al., Cancer Res 50: 5312-5317 [1990)]) 및 유방암과 같은 그 밖의 신생물에도 존재하는 것으로 밝혀졌다. 제한 단편 길이 다형성 (RFLP) 연구는 그러한 종양 유형이 종종 13q에서 이형접합성을 잃었다고 지적하였는데, 이는 Rb-1 유전자 대립유전자 중 하나가 총체의 염색체 결실로 인해 손실되었음을 시사한다 (Bowcock et al., Am J Hum Genet, 46: 12 [1990]). 중복, 결실, 및 염색체 6 및 다른 파트너 염색체를 수반한 불균형 전위를 포함하는 염색체 1 이상은 염색체 1의 영역, 특히 1q21-1q32 및 1p11-13이 발병기전에 있어 골수증식성 신생물의 만성 및 진행기 둘 모두와 관련이 있는 종양유전자 또는 종양 억제 유전자를 제공할 수 있었음을 나타낸다 (Caramazza et al., Eur J Hematol84:191-200 [2010]). 골수증식성 신생물은 또한 염색체 5의 결실과 관련된다. 염색체 5의 완전한 손실 또는 사이질 결실은 골수형성 이상증후군 (MDS)에서 가장 일반적인 핵형 이상이다. 분리된 del(5q)/5q- MDS 환자는 골수증식성 신생물 (MPN) 및 급성 골수성 백혈병을 발생시키는 경향이 있는, 추가의 핵형 결함을 지닌 환자보다 더욱 유리한 예후를 지닌다. 불균형 염색체 5 결실의 빈도는 5q가 조혈 줄기/전구 세포 (HSC/HPC)의 성장 조절에서 근본적인 역할을 하는 하나 이상의 종양-억제 유전자를 지니고 있다는 견해를 도출하였다. 5q31 및 5q32 상에 중심이 있는 일반적으로 결실된 영역(CDR)의 세포유전학 맵핑으로 리보솜 서브유닛 RPS14, 전사 인자 Egr1/Krox20 및 세포골격 리모델링 단백질, 알파-카테닌을 포함하는 후보 종양-억제 유전자를 확인하였다 (Eisenmann et al., Oncogene 28:3429-3441 [2009]). 새로운 종양 및 종양 세포주의 세포유전학 및 대립유전자형 연구는, 3p25, 3p21-22, 3p21.3, 3p12-13 및 3p14를 포함하는 염색체 3p 상에서 여러 별개의 영역으로부터의 대립유전자 손실이 폐, 유방, 신장, 두경부, 난소, 자궁경부, 결장, 췌장, 식도, 방광 및 그 밖의 기관의 주요 상피암의 광범한 스펙트럼에 수반되는 가장 빠르고 가장 빈번한 유전체 이상임을 밝혀 내었다. 여러 종양 억제 유전자가 염색체 3p 영역에 대해 맵핑되었고, 사이질 결실 또는 프로모터 과메틸화가 암종의 발생에서 3p 또는 전체 염색체 3의 손실에 선행하는 것으로 여겨진다 (Angeloni D., Briefings Functional Genomics 6:19-39 [2007]).
다운 증후군 (DS)을 갖는 신생아 및 아동은 종종 선천성 급성 백혈병을 나타내고 급성 골수성 백혈병 및 급성 림프모구 백혈병의 증가된 위험성을 갖는다. 약 300개의 유전자를 지니는 염색체 21은 백혈병, 림프종, 및 고형 종양에서 전위, 결실, 및 증폭과 같은 다수의 구조적 이상을 수반할 수 있다. 더욱이, 염색체 21 상에 위치한 유전자는 종양형성에서 중요한 역할을 수행하는 것이 확인되었다. 신체 수치뿐 아니라 구조적 염색체 21 이상은 백혈병과 관련되며, 21q에 위치하는 RUNX1, TMPRSS2, 및 TFF를 포함하는 특수한 유전자는 종양형성에서 임무를 수행한다 (Fonatsch C Gene Chromosomes Cancer 49:497-508 [2010]).
한 구체예에서, 상기 방법은 유전자 증폭과 종양 진화의 정도간 관련성을 평가하기 위한 수단을 제공한다. 증폭 및/또는 결실 및 암의 단계 또는 등급간 상호관계는 예후에 있어서 중요할 수 있는데, 그 이유는 이러한 정보가 가장 나쁜 예후를 갖는 더욱 진행된 종양을 지닌 질환의 앞으로의 진행을 더 잘 예측할 유전자에 기반한 종양 등급의 정의에 기여할 수 있기 때문이다. 또한, 조기 증폭 및/또는 결실 사건에 대한 정보는 후속하는 질환 진행의 예측인자로서 그러한 사건을 연관시키는데 유용할 수 있다. 상기 방법에 의해 확인된 유전자 증폭 및 결실은 종양 등급, 병력, Brd/Urd 표지 지수, 호르몬 상태, 결절 관여, 종양 크기, 생존 지속기간 및 역학적 및 생물통계학적 연구로부터 이용가능한 그 밖의 종양 특성과 같은 그 밖의 공지된 파라메터와 관련될 수 있다. 예를 들어, 상기 방법에 의해 시험될 종양 DNA는 비정형적 과다형성, 유관 상피내암종(ductal carcinoma in situ), I-III기 암 및 전이성 림프절을 포함할 수 있어서 증폭 및 결실 및 단계간 관련성을 확인할 수 있었다. 형성된 관련성은 효과적인 치료적 중재를 가능하게 할 수 있다. 예를 들어, 일관되게 증폭되는 영역은 과발현된 유전자를 함유할 수 있는데, 이의 생성물은 치료적 공격을 받을 수 있다 (예를 들어, 성장 인자 수용체 티로신 키나제, p185HER2).
상기 방법을 이용하여 다른 부위로 전이된 세포에 비해 원발성 암으로부터의 핵산 서열의 복사체 수 변이를 결정함에 의해 내약성과 연관된 증폭 및/또는 결실 사건을 확인할 수 있다. 유전자 증폭 및/또는 결실이 내약성의 신속한 발생을 허용하는 핵형 불안정성의 징후라면, 화학민감성 환자의 종양에서보다 화학내성 환자로부터의 원발성 종양에서 더 많은 증폭 및/또는 결실이 예상될 것이다. 예를 들어, 특수한 유전자의 증폭이 내약성 발생의 원인이라면, 이러한 유전자를 둘러싼 영역은 원발성 종양에서가 아니라 화학내성 환자의 흉수로부터의 종양 세포에서 일관되게 증폭할 것이 예상될 것이다. 유전자 증폭 및/또는 결실 및 내약성의 발생간 관련성의 발견은 애쥬번트 요법으로 이익을 얻거나 이익을 얻지 못할 환자를 확인하게 할 수 있다.
모체 샘플에서 완전한 및/또는 부분적인 태아 염색체 이수성의 존재 또는 부재를 결정하기 위해 기재된 것과 유사한 방식으로, 본 발명의 방법을 이용하여 핵산, 예컨대 DNA 또는 cfDNA를 포함하는 임의의 환자 샘플 (모체 샘플이 아닌 환자 샘플 포함)에서 완전한 및/또는 부분적인 염색체 이수성의 존재 또는 부재를 결정할 수 있다. 환자 샘플은 본원에 달리 기재된 임의의 생물학적 샘플 유형일 수 있다. 바람직하게는, 샘플은 비침습성 절차에 의해 수득된다. 예를 들어, 샘플은 혈액 샘플, 또는 이의 혈청 및 혈장 분획일 수 있다. 대안적으로, 샘플은 소변 샘플 또는 대변 샘플일 수 있다. 또한 다른 구체예에서, 샘플은 조직 생검 샘플이다. 모든 경우에, 샘플은 정제되고, 앞서 기재된 임의의 NGS 시퀀싱 방법을 이용하여 시퀀싱된 핵산, 예컨대 cfDNA 또는 유전체 DNA를 포함한다.
암의 형성 및 진행과 관련된 완전한 그리고 부분적인 염색체 이수성 둘 모두는 본 발명에 따라 결정될 수 있다.
환자 샘플에서 완전한 염색체 이수성의 결정
한 구체예에서, 본 발명은 핵산 분자를 포함하는 환자 시험 샘플에서 어떠한 하나 이상의 상이한 완전한 염색체 이수성의 존재 또는 부재를 결정하는 방법을 제공한다. 일부 구체예에서, 상기 방법은 어떠한 하나 이상의 상이한 완전한 염색체 이수성의 존재 또는 부재를 결정한다. 상기 방법의 단계는 (a) 환자 시험 샘플에서 환자 핵산에 대한 서열 정보를 수득하고; (b) 상기 서열 정보를 이용하여 염색체 1-22, X 및 Y로부터 선택된 어떠한 하나 이상의 관심 염색체 각각에 대한 다수의 서열 태그를 확인하고 어떠한 하나 이상의 관심 염색체 각각에 대해 표준화 염색체 서열에 대한 다수의 서열 태그를 확인하는 것을 포함한다. 표준화 염색체 서열은 단일 염색체일 수 있거나, 염색체 1-22, X, 및 Y로부터 선택되는 염색체의 그룹일 수 있다. 상기 방법은 단계 (c)에서 어떠한 하나 이상의 관심 염색체 각각에 대한 단일 염색체 용량을 계산하기 위해 어떠한 하나 이상의 관심 염색체 각각에 대해 확인된 서열 태그의 수 및 표준화 염색체 서열 각각에 대해 확인된 서열 태그의 수를 추가로 이용하고; (d) 어떠한 하나 이상의 관심 염색체 각각에 대한 단일 염색체 용량 각각을 하나 이상의 관심 염색체 각각에 대한 역치와 비교함으로써, 환자 시험 샘플 중 어떠한 하나 이상의 상이한 완전한 환자 염색체 이수성의 존재 또는 부재를 결정한다.
일부 구체예에서, 단계 (c)는 관심 염색체 각각에 대한 단일 염색체 용량을 관심 염색체 각각에 대해 확인된 서열 태그의 수 및 관심 염색체 각각에 대한 표준화 염색체 서열에 대해 확인된 서열 태그의 수의 비로서 계산하는 것을 포함한다.
그 밖의 구체예에서, 단계 (c)는 관심 염색체 각각에 대한 단일 염색체 용량을 관심 염색체 각각에 대해 확인된 서열 태그의 수 및 관심 염색체 각각에 대한 표준화 염색체에 대해 확인된 서열 태그의 수의 비로서 계산하는 것을 포함한다. 그 밖의 구체예에서, 단계 (c)는 관심 염색체에 대해 수득된 서열 태그의 수를 관심 염색체의 길이와 관련시키고, 관심 염색체에 대해 상응하는 표준화 염색체 서열에 대한 태그의 수를 표준화 염색체 서열의 길이와 관련시킴에 의해 관심 염색체에 대한 서열 태그 비를 계산하고, 관심 염색체에 대한 염색체 용량을 관심 염색체의 서열 태그 밀도 및 표준화 서열에 대한 서열 태그 밀도의 비로서 계산하는 것을 포함한다. 이러한 계산은 모든 관심 염색체 각각에 대해 반복된다. 단계 (a)-(d)는 상이한 환자로부터의 시험 샘플에 대해 반복될 수 있다.
하나 이상의 완전한 염색체 이수성을 무세포 DNA 분자를 포함하는 암 환자 시험 샘플에서 결정하는 구체예의 예는 (a) 무세포 DNA 분자의 적어도 일부를 시퀀싱시켜 시험 샘플에서 환자 무세포 DNA 분자에 대한 서열 정보를 수득하고; (b) 상기 서열 정보를 이용하여 염색체 1-22, X 및 Y로부터 선택된 어떠한 20개 이상의 관심 염색체 각각에 대해 다수의 서열 태그를 확인하고 20개 이상의 관심 염색체 각각에 대한 표준화 염색체 서열에 대해 다수의 서열 태그를 확인하며; (c) 20개 이상의 관심 염색체 각각에 대해 확인된 서열 태그의 수 및 각각의 표준화 염색체에 대해 확인된 서열 태그의 수를 이용하여 20개 이상의 관심 염색체 각각에 대한 단일 염색체 용량을 계산하고; (d) 20개 이상의 관심 염색체 각각에 대한 단일 염색체 용량 각각을 20개 이상의 관심 염색체 각각에 대한 역치와 비교함으로써, 환자 시험 샘플 중 어떠한 20개 이상의 상이한 완전한 염색체 이수성의 존재 또는 부재를 결정하는 것을 포함한다.
또 다른 구체예에서, 상기 기재된 대로 환자 시험 샘플에서 어떠한 하나 이상의 상이한 완전한 염색체 이수성의 존재 또는 부재를 결정하는 방법은 관심 염색체의 용량을 결정하기 위해 표준화 세그먼트 서열을 이용한다. 이러한 예에서, 상기 방법은 (a) 샘플 중 핵산에 대한 서열 정보를 수득하고; (b) 상기 서열 정보를 이용하여 염색체 1-22, X 및 Y로부터 선택된 어떠한 하나 이상의 관심 염색체 각각에 대해 다수의 서열 태그를 확인하고 어떠한 하나 이상의 관심 염색체 각각에 대한 표준화 세그먼트 서열에 대해 다수의 서열 태그를 확인하는 것을 포함한다. 표준화 세그먼트 서열은 염색체의 단일 세그먼트일 수 있거나 하나 이상의 상이한 염색체로부터의 세그먼트의 그룹일 수 있다. 상기 방법은 단계 (c)에서 상기 어떠한 하나 이상의 관심 염색체 각각에 대한 단일 염색체 용량을 계산하기 위해 상기 어떠한 하나 이상의 관심 염색체 각각에 대해 확인된 서열 태그의 수 및 상기 표준화 세그먼트 서열에 대해 확인된 상기 서열 태그의 수를 추가로 이용하고; (d) 상기 어떠한 하나 이상의 관심 염색체 각각에 대한 상기 단일 염색체 용량 각각을 상기 하나 이상의 관심 염색체 각각에 대한 역치와 비교하여, 환자 샘플 중 하나 이상의 상이한 완전한 염색체 이수성의 존재 또는 부재를 결정한다.
일부 구체예에서, 단계 (c)는 상기 관심 염색체 각각에 대한 단일 염색체 용량을 상기 관심 염색체 각각에 대해 확인된 서열 태그의 수 및 상기 관심 염색체 각각에 대한 상기 표준화 세그먼트 서열에 대해 확인된 서열 태그의 수의 비로서 계산하는 것을 포함한다.
그 밖의 구체예에서, 단계 (c)는 관심 염색체에 대해 수득된 서열 태그의 수를 관심 염색체의 길이와 관련시키고, 상응하는 표준화 세그먼트 서열에 대한 태그의 수를 표준화 세그먼트 서열의 길이와 관련시킴에 의해 관심 염색체에 대한 서열 태그 비를 계산하고, 관심 염색체에 대한 염색체 용량을 관심 염색체의 서열 태그 밀도 및 표준화 세그먼트 서열에 대한 서열 태그 밀도의 비로서 계산하는 것을 포함한다. 상기 계산은 모든 관심 염색체 각각에 대해 반복된다. 단계 (a)-(d)는 상이한 환자로부터의 시험 샘플에 대해 반복될 수 있다.
상이한 샘플 세트의 염색체 용량을 비교하기 위한 수단은 시험 샘플 중 염색체 용량을 적격 샘플의 세트에서 상응하는 염색체 용량의 평균에 관련시키는 표준화 염색체 값 (NCV)을 결정함에 의해 제공된다:
Figure pct00017
상기 식에서,
Figure pct00018
Figure pct00019
는 적격 샘플의 세트에서 j번째 염색체 용량에 대한 각기 추정 평균 및 표준 편차이고,
Figure pct00020
는 시험 샘플 i에 대해 관찰된 j번째 염색체 용량이다.
일부 구체예에서, 하나의 완전한 염색체 이수성의 존재 또는 부재가 결정된다. 그 밖의 구체예에서, 2개, 3개, 4개, 5개. 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 또는 24개의 완전한 염색체 이수성의 존재 또는 부재가 샘플에서 결정되는데, 22개의 완전한 염색체 이수성은 어떠한 하나 이상의 보통염색체의 완전한 염색체 이수성에 상응하고; 23개 및 24개의 염색체 이수성은 염색체 X 및 Y의 완전한 염색체 이수성에 상응한다. 이수성은 삼염색체증, 사염색체증, 오염색체증, 및 그 밖의 뭇염색체증을 포함할 수 있고 완전한 염색체 이수성의 수는 다양한 질환 및 동일한 질환의 상이한 단계에서 변화되므로, 본 발명에 따라 결정될 수 있는 완전한 염색체 이수성의 수는 적어도 24개, 적어도 25개, 적어도 26개, 적어도 27개, 적어도 28개, 적어도 29개, 적어도 30개, 적어도 40개, 적어도 50개, 적어도 60개, 적어도 70개, 적어도 80개, 적어도 90개, 적어도 100개 또는 그 초과의 염색체 이수성이다. 종양의 체계적인 핵형은 암 세포의 염색체 수가 저이배체 (현저하게는 46개보다 적은 염색체)에서 네배수체 및 과네배수체 (200개 이하의 염색체)의 범위까지 고도로 변화됨을 나타내었다 (Storchova and Kuffer J Cell Sci 121:3859-3866 [2008]). 일부 구체예에서, 상기 방법은 결장암과 같은 암에 걸렸다고 여겨지거나 알려진 환자로부터의 샘플에서 200 이상의 수 이하의 염색체 이수성의 존재 또는 부재를 결정하는 것을 포함한다. 염색체 이수성은 하나 이상의 완전한 염색체의 손실 (저이배체), 삼염색체, 사염색체, 오염색체, 및 그 밖의 뭇염색체를 포함하는 완전한 염색체의 획득을 포함한다. 염색체의 세그먼트의 획득 및/또는 손실은 또한 본원에 달리 기재된 대로 결정될 수 있다. 상기 방법은 본원에 달리 기재된 대로 어떠한 암에 걸렸다고 여겨지거나 알려진 환자로부터의 샘플에서 상이한 이수성의 존재 또는 부재를 결정하기 위해 이용될 수 있다.
일부 구체예에서, 염색체 1-22, X 및 Y 중 어느 하나는 상기 기재된 대로 환자 시험 샘플 중 어떠한 하나 이상의 상이한 완전한 염색체 이수성의 존재 또는 부재를 결정하는데 있어서 관심 염색체일 수 있다. 그 밖의 구체예에서, 2개 이상의 관심 염색체는 염색체 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, X, 또는 Y 중 임의의 2개 이상으로부터 선택된다. 한 구체예에서, 어떠한 하나 이상의 관심 염색체는 염색체 1-22, X, 및 Y로부터 선택되고 염색체 1-22, X, 및 Y로부터 선택되는 20개 이상의 염색체를 포함하며, 여기서 20개 이상의 상이한 완전한 염색체 이수성의 존재 또는 부재가 결정된다. 그 밖의 구체예에서, 염색체 1-22, X, 및 Y로부터 선택되는 어떠한 하나 이상의 관심 염색체는 모든 염색체 1-22, X, 및 Y이고, 모든 염색체 1-22, X, 및 Y의 완전한 태아 염색체 이수성의 존재 또는 부재가 결정된다. 결정될 수 있는 완전한 상이한 염색체 이수성은 염색체 1-22, X 및 Y 중 어느 하나 이상의 완전한 염색체 홑염색체; 염색체 1-22, X 및 Y 중 어느 하나 이상의 완전한 염색체 삼염색체; 염색체 1-22, X 및 Y 중 어느 하나 이상의 완전한 염색체 사염색체; 염색체 1-22, X 및 Y 중 어느 하나의 완전한 염색체 오염색체; 및 염색체 1-22, X 및 Y 중 어느 하나 이상의 그 밖의 완전한 염색체 뭇염색체를 포함한다.
환자 샘플에서 부분적인 염색체 이수성의 결정
또 다른 구체예에서, 본 발명은 핵산 분자를 포함하는 환자 시험 샘플에서 어떠한 하나 이상의 상이한 부분적인 염색체 이수성의 존재 또는 부재를 결정하는 방법을 제공한다. 상기 방법의 단계는 (a) 샘플에서 환자 핵산에 대한 서열 정보를 수득하고; (b) 상기 서열 정보를 이용하여 염색체 1-22, X, 및 Y로부터 선택된 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대한 다수의 서열 태그를 확인하고 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대해 표준화 세그먼트 서열에 대한 다수의 서열 태그를 확인하는 것을 포함한다. 표준화 세그먼트 서열은 염색체의 단일 세그먼트일 수 있거나 하나 이상의 상이한 염색체로부터의 세그먼트의 그룹일 수 있다. 상기 방법은 단계 (c)에서 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대한 단일 세그먼트 용량을 계산하기 위해 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대해 확인된 서열 태그의 수 및 표준화 세그먼트 서열에 대해 확인된 서열 태그의 수를 추가로 이용하고; (d) 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대한 단일 염색체 용량 각각을 상기 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 염색체 세그먼트 각각에 대한 역치와 비교하여, 상기 샘플 중 하나 이상의 상이한 부분적인 염색체 이수성의 존재 또는 부재를 결정한다.
일부 구체예에서, 단계 (c)는 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대한 단일 염색체 용량을 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대해 확인된 서열 태그의 수 및 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대한 표준화 세그먼트 서열에 대해 확인된 서열 태그의 수의 비로서 계산하는 것을 포함한다.
그 밖의 구체예에서, 단계 (c)는 관심 세그먼트에 대해 수득된 서열 태그의 수를 관심 세그먼트의 길이와 관련시키고, 관심 세그먼트에 상응하는 표준화 세그먼트 서열에 대한 태그의 수를 표준화 세그먼트 서열의 길이와 관련시킴에 의해 관심 세그먼트에 대한 서열 태그 비를 계산하고, 관심 세그먼트에 대한 세그먼트 용량을 관심 세그먼트의 서열 태그 밀도 및 표준화 세그먼트 서열에 대한 서열 태그 밀도의 비로서 계산하는 것을 포함한다. 상기 계산은 모든 관심 염색체 각각에 대해 반복된다. 단계 (a)-(d)는 상이한 환자로부터의 시험 샘플에 대해 반복될 수 있다.
상이한 샘플 세트의 세그먼트 용량을 비교하기 위한 수단은 시험 샘플 중 세그먼트 용량을 적격 샘플의 세트에서 상응하는 세그먼트 용량의 평균에 관련시키는 표준화 세그먼트 값 (NSV)을 결정함에 의해 제공된다. NSV는 다음과 같이 계산된다:
Figure pct00021
상기 식에서,
Figure pct00022
Figure pct00023
는 적격 샘플의 세트에서 j번째 세그먼트 용량에 대한 각기 추정 평균 및 표준 편차이고,
Figure pct00024
는 시험 샘플 i에 대해 관찰된 j번째 세그먼트 용량이다.
일부 구체예에서, 한 부분적인 염색체 이수성의 존재 또는 부재가 결정된다. 그 밖의 구체예에서, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15. 20. 25 또는 그 초과의 부분적인 염색체 이수성의 존재 또는 부재가 샘플에서 결정된다. 한 구체예에서, 염색체 1-22, X, 및 Y 중 어느 하나로부터 선택된 한 관심 세그먼트는 염색체 1-22, X, 및 Y로부터 선택된다. 또 다른 구체예에서, 염색체 1-22, X, 및 Y로부터 선택된 2개 이상의 관심 세그먼트는 염색체 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, X, 또는 Y 중 임의의 2개 이상으로부터 선택된다. 한 구체예에서, 어떠한 하나 이상의 관심 세그먼트는 염색체 1-22, X, 및 Y로부터 선택되고 염색체 1-22, X, 및 Y로부터 선택되는 적어도 1개, 5개, 10개, 15개, 20개, 25개, 50개, 75개, 100개 또는 그 초과의 세그먼트를 포함하며, 여기서 적어도 1개, 5개, 10개, 15개, 20개, 25개, 50개, 75개, 100개 또는 그 초과의 상이한 부분적인 염색체 이수성의 존재 또는 부재가 결정된다. 결정될 수 있는 상이한 부분적인 염색체 이수성은 부분적인 중복, 부분적인 증가, 부분적인 삽입 및 부분적인 결실을 포함하는 염색체 이수성을 포함한다.
환자에서 염색체 이수성 (부분적 또는 완전)의 존재 또는 부재를 결정하는데 이용될 수 있는 샘플은 본원에 달리 기재된 임의의 생물학적 샘플일 수 있다. 환자에서 이수성의 결정에 이용될 수 있는 샘플 또는 샘플의 유형은 환자가 걸렸다고 알려져 있거나 여겨지는 질환의 유형에 의존적일 것이다. 예를 들어, 대변 샘플은 결장직장암과 관련된 이수성의 존재 또는 부재를 결정하기 위한 DNA원으로서 선택될 수 있다. 상기 방법은 본원에 기재된 조직 샘플에도 이용될 수 있다. 바람직하게는, 샘플은 혈장 샘플과 같은 비침습성 수단에 의해 수득된 생물학적 샘플이다. 본원에 달리 기재된 대로, 환자 샘플에서 핵산의 시퀀싱은 본원에 달리 기재된 차세대 시퀀싱 (NGS)을 이용하여 수행될 수 있다. 일부 구체예에서, 시퀀싱은 가역적 염료 종결자에 의한 합성을 통한 시퀀싱을 이용한 대량 병렬 시퀀싱이다. 그 밖의 구체예에서, 시퀀싱은 라이게이션을 통한 시퀀싱이다. 또한 다른 구체예에서, 시퀀싱은 단일 분자 시퀀싱이다. 임의로, 증폭 단계는 시퀀싱 이전에 수행된다.
일부 구체예에서, 이수성의 존재 또는 부재는 폐암, 유방암, 신장암, 두경부암, 난소암, 자궁경부암, 결장암, 췌장암, 식도암, 방광암 및 그 밖의 기관의 암, 및 혈액암과 같이 본원에 달리 기재된 암에 걸렸다고 여겨지는 환자에서 결정된다. 혈액암은 골수, 혈액, 및 림프절, 림프관, 편도, 흉선, 비장, 및 소화관 림프조직을 포함하는 림프계통의 암을 포함한다. 골수에서 시작된 백혈병 및 골수종, 및 림프계통에서 시작된 림프종은 가장 흔한 유형의 혈액암이다.
환자 샘플에서 하나 이상의 염색체 이수성의 존재 또는 부재의 결정은 비제한적으로 특정 암에 대한 환자의 소인을 결정하기 위해, 대상 암에 대해 소인이 있는 것으로 알려진 환자 및 알려지지 않은 환자에서 통상적인 스크린의 일부로서 암의 존재 또는 부재를 결정하기 위해, 질환에 대한 예후를 제공하기 위해, 애쥬번트 요법에 대한 필요를 평가하기 위해, 그리고 질환의 진행 또는 회귀를 결정하기 위해 이루어질 수 있다.
CNV 를 결정하기 위한 장치 및 시스템
시퀀싱 데이터의 분석 및 그로부터 유래된 진단은 전형적으로 다양한 컴퓨터 알고리듬 및 프로그램을 이용하여 수행된다. 한 구체예에서, 본 발명은 시험 샘플에서 태아 이수성의 존재 또는 부재를 나타내는 아웃풋을 생성하는 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 제품은 모체 생물학적 샘플로부터의 핵산 분자의 적어도 일부로부터 시퀀싱 데이터를 받기 위한 수신 절차로서, 상기 시퀀싱 데이터가 계산된 염색체를 포함하고 있는 수신 절차; 상기 수신 데이터로부터 태아 이수성을 분석하기 위한 컴퓨터 지원 로직(logic); 및 상기 태아 이수성의 존재, 부재 또는 종류를 나타내는 아웃풋을 생성하는 출력 절차를 포함하는, 태아 이수성을 진단하기 위한 프로세서를 가능하게 하는 컴퓨터 실행 가능한 로직이 거기에 기록되어 있는 컴퓨터 판독가능한 매체를 포함한다.
본 발명의 방법은 임의의 CNV, 예컨대 염색체의 이수성 또는 부분적인 이수성을 확인하는 방법을 수행하기 위해 컴퓨터 판독가능한 설명서가 거기에 저장되어 있는 컴퓨터 판독가능한 매체를 이용하여 수행될 수 있다. 따라서, 한 구체예에서, 본 발명은 태아 이수성과 같은 완전한 그리고 부분적인 염색체 이수성을 확인하는 방법을 수행하기 위해 컴퓨터 판독가능한 설명서가 거기에 저장되어 있는 컴퓨터 판독가능한 매체를 제공한다.
본 발명의 방법은 또한 임의의 CNV, 예컨대 염색체의 이수성 또는 부분적인 이수성을 확인하는 방법을 수행하도록 구성되거나 설정된 컴퓨터 프로세싱 시스템을 이용하여 수행될 수 있다. 따라서, 한 구체예에서, 본 발명은 본원에 기재된 방법을 수행하도록 구성되거나 설정된 컴퓨터 프로세싱 시스템을 제공한다. 한 구체예에서, 장치는 본원에 달리 기재된 서열 정보의 유형을 수득하기 위해 샘플 중 핵산 분자의 적어도 일부를 시퀀싱하도록 구성되거나 설정된 시퀀싱 장치를 포함한다.
본 발명은 하기 실시예에서 더욱 상세히 기재되며, 이러한 실시예는 어떠한 방식으로든 청구된 본 발명의 범위를 제한하려는 것이 아니다. 첨부된 도면은 본 발명의 명세서 및 설명의 일체부로서 고려될 것이 의도된다. 하기 실시예는 청구된 발명을 제한하지 않고 설명하기 위해 제공된다.
실험
실시예 1
샘플 프로세싱 및 DNA 추출
임신의 초기 또는 중기 삼분기에 있고 태아 이수성의 위험이 있는 것으로 여겨지는 임신한 여성으로부터 말초혈 샘플을 수집하였다. 채혈 전에 각 참가자로부터 사전 동의를 얻었다. 양수검사 또는 융모막 융모 샘플링 전에 혈액을 수집하였다. 태아 핵형을 확인하기 위해 융모막 융모 또는 양수검사 샘플을 이용하여 핵형 분석을 수행하였다.
각 피검체로부터 채혈된 말초혈을 ACD 튜브에 수집하였다. 한 튜브의 혈액 샘플 (약 6-9 mL/튜브)을 하나의 15-mL 저속 원심분리 튜브로 옮겼다. 혈액을 Beckman Allegra 6 R 원심분리기 및 로터 모델 GA 3.8을 이용하여 2640 rpm에서 4℃에서 10분 동안 원심분리시켰다.
무세포 혈장 추출을 위해, 상부 혈장층을 15-ml의 고속 원심분리 튜브로 옮기고 Beckman Coulter Avanti J-E 원심분리기, 및 JA-14 로터를 이용하여 16000 x g에서 4℃에서 10분 동안 원심분리시켰다. 혈액 추출 후 72시간 내에 두 번의 원심분리 단계를 수행하였다. 무세포 혈장을 -80℃에서 저장하고 DNA 추출 전에 단 1회 해동시켰다.
무세포 DNA를 제조사의 지시에 따라 QIAamp DNA 혈액 미니 키트 (Qiagen)를 이용함에 의해 무세포 혈장으로부터 추출하였다. 5 밀리리터의 완충제 AL 및 500 ㎕의 Qiagen 프로테아제를 4.5 ml-5 ml의 무세포 혈장에 첨가하였다. 부피를 포스페이트 완충된 염수(PBS)를 이용하여 10ml로 조정하고, 혼합물을 56℃에서 12분 동안 인큐베이션하였다. 다중 컬럼을 이용하여 Beckman 마이크로원심분리기에서 8,000 RPM으로 원심분리시킴에 의해 용액으로부터 침전된 cfDNA를 분리시켰다. 컬럼을 AW1 및 AW2 완충제로 세척하고, cfDNA를 55 ㎕의 누클레아제 비함유 수로 용리시켰다. 약 3.5-7 ng의 cfDNA를 혈장 샘플로부터 추출하였다.
모든 시퀀싱 라이브러리를 모체 혈장으로부터 추출된 약 2 ng의 정제된 cfDNA로부터 제조하였다. 라이브러리 제조는 Illumina®에 대한 NEBNext™ DNA 샘플 Prep DNA 시약 세트 1 (Part No. E6000L; New England Biolabs, Ipswich, MA)의 시약을 이용하여 다음과 같이 수행되었다. 무세포 혈장 DNA가 사실상 단편화되므로, 혈장 DNA 샘플에 대해 네뷸라이제이션 또는 음파처리에 의한 추가 단편화는 수행되지 않았다. 40㎕에 함유된 약 2 ng의 정제된 cfDNA 단편의 과잉충전물을, NEBNext™ DNA 샘플 Prep DNA 시약 세트 1에 제공된 5㎕의 10X 인산화 완충제, 2㎕의 데옥시뉴클레오티드 용액 믹스 (10 mM 각각 dNTP), 1㎕의 DNA 중합효소 I의 1:5 희석액, 1㎕의 T4 DNA 중합효소 및 1㎕의 T4 폴리뉴클레오티드 키나제와 함께 cfDNA를 1.5ml 마이크로퓨즈 튜브에서 15분 동안 20℃에서 인큐베이션시킴에 의해 NEBNext® End Repair Module에 따라 인산화된 평활 말단으로 전환시켰다. 그 후 반응 혼합물을 75℃에서 5분 동안 인큐베이션시킴에 의해 효소를 열 불활성화시켰다. 혼합물을 4℃로 냉각시키고, 평활-말단화 DNA의 DA 테일링을 Klenow 단편 (3' 내지 5' 엑소 마이너스) (NEBNext™ DNA 샘플 Prep DNA 시약 세트 1)을 함유하는 10㎕의 da-테일링 마스터 믹스를 이용하여 15분 동안 37℃에서 인큐베이션시킴에 의해 달성하였다. 후속하여, 반응 혼합물을 75℃에서 5분 동안 인큐베이션시킴에 의해 Klenow 단편을 열 불활성화시켰다. Klenow 단편의 불활성화 이후, 1㎕의 Illumina 유전체 어댑터 올리고 믹스 (Part No. 1000521; Illumina Inc., Hayward, CA)의 1:5 희석액을 이용하여 Illumina 어댑터 (Non-Index Y-어댑터)를, 반응 혼합물을 15분 동안 25℃에서 인큐베이션시킴에 의해, NEBNext™ DNA 샘플 Prep DNA 시약 세트 1에 제공된 4㎕의 T4 DNA 리가제를 이용하여 dA-테일링된 DNA에 라이게이션시켰다. 혼합물을 4℃로 냉각시키고, 어댑터-라이게이션된 cfDNA를 Agencourt AMPure XP PCR 정제 시스템 (Part No. A63881; Beckman Coulter Genomics, Danvers, MA)에 제공된 자기 비드를 이용하여 라이게이션되지 않은 어댑터, 어댑터 이량체, 및 그 밖의 시약으로부터 정제시켰다. Phusion® High-Fidelity 마스터 믹스 (Finnzymes, Woburn, MA) 및 어댑터에 상보적인 Illumina's PCR 프라이머 (Part No. 1000537 및 1000537)를 이용하여 어댑터-라이게이션된 cfDNA를 선택적으로 풍부하게 하기 위해 18 사이클의 PCR을 수행하였다. NEBNext™ DNA 샘플 Prep DNA 시약 세트 1에 제공된 Illumina 유전체 PCR 프라이머 (Part Nos. 100537 및 1000538) 및 Phusion HF PCR 마스터 믹스를 이용하여, 제조사의 지시에 따라 어댑터-라이게이션된 DNA을 PCR (30초간 98℃; 10초간 98℃, 30초간 65℃, 및 30초간 72℃의 18 사이클; 72℃에서 5분간 최종 연장, 및 4℃에서 유지) 처리하였다. 증폭된 생성물을 www.beckmangenomics.com/products/AMPureXPProtocol_000387v001.pdf.에서 이용가능한 제조사의 지시에 따라 Agencourt AMPure XP PCR 정제 시스템 (Agencourt Bioscience Corporation, Beverly, MA)을 이용하여 정제시켰다. 정제되고 증폭된 생성물을 40㎕의 Qiagen EB 완충제에서 용리시키고, 증폭된 라이브러리의 농도 및 크기 분포를 2100 바이오분석기용 Agilent DNA 1000 키트 (Agilent technologies Inc., Santa Clara, CA)를 이용하여 분석하였다.
증폭된 DNA를 Illumina's 유전체 분석기 II를 이용하여 시퀀싱하여 36bp의 단일-말단 리드를 수득하였다. 특수한 인간 염색체에 속하는 서열을 확인하기 위해서는 단지 약 30 bp의 랜덤 서열 정보만이 필요하다. 더 긴 서열은 보다 특정 표적을 독특하게 확인할 수 있다. 본 경우에, 유전체의 대략 10%를 포함하는 다수의 36 bp 리드가 수득되었다. 샘플의 시퀀싱의 완료시에, Illumina "시퀀서 제어 소프트웨어"는 이미지 및 염기 콜 파일을 Illumina "유전체 분석기 파이프라인" 소프트웨어 버젼 1.51을 실행시키는 Unix 서버로 옮겼다. Illumina "Gerald" 프로그램을 실행시켜 National Center for Biotechnology Information (NCBI36/hg18, 월드 와이드 웹 http://genome.ucsc.edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105 상에서 이용가능)에 의해 제공된 hg18 유전체로부터 유래되는 참조 인간 유전체에 대해 서열을 정렬시켰다. 유전체에 대해 유일하게 정렬되는 상기 절차로부터 생성된 서열 데이터를 컴퓨터 실행되는 Linnux 운영 체제상에서 프로그램 (c2c.pl) 실행에 의해 Gerald 아웃풋 (export.txt files)으로부터 판독하였다. 염기 미스매치를 지닌 서열 정렬이 허용되었고, 이들이 유전체에 대해 유일하게 정렬된 경우에만 정렬 계수에 포함시켰다. 동일한 출발 및 종료 좌표를 갖는 서열 정렬(중복)을 배제시켰다.
2 또는 그 미만의 미스매치를 갖는 약 5백만 내지 15백만 개의 36 bp 태그를 인간 유전체에 대해 유일하게 맵핑시켰다. 맵핑된 모든 태그를 계수하고, 시험 및 적격 샘플 둘 모두에서 염색체 용량의 계산에 포함시켰다. 남아 또는 여아로부터 유래된 태그가 Y-염색체의 염기 0 내지 염기 2 x 106, 염기 10 x 106 내지 염기 13 x 106, 및 염기 23 x 106에서 말단까지 연장된 영역을 맵핑할 수 있으므로, 이러한 영역은 분석에서 특별히 제외되었다.
샘플에 걸쳐 개별적인 염색체에 대해 맵핑된 서열 태그의 총 수에 있어서의 일부 변이가 동일한 진행에서 시퀀싱되었음이 인지되었으나 (염색체간 변이), 실질적으로 더 큰 변이가 상이한 시퀀싱 진행 중에 발생하였음이 인지되었다 (시퀀싱 진행간 변이).
실시예 2
염색체 13, 18, 21, X, 및 Y의 용량 및 변량
모든 염색체에 대해 맵핑된 서열 태그의 수에 있어서 염색체간 및 시퀀싱간 변이의 정도를 조사하기 위해, 48명의 지원자 임신 피검체의 말초혈로부터 수득된 혈장 cfDNA를 추출하고 실시예 1에 기재된 대로 시퀀싱하고, 다음과 같이 분석하였다.
각각의 염색체에 대해 맵핑된 서열 태그의 총 수 (서열 태그 밀도)를 측정하였다. 대안적으로, 맵핑된 서열 태그의 수를 염색체의 길이에 대해 표준화시켜 서열 태그 밀도 비를 생성할 수 있다. 염색체 길이에 대한 표준화는 필요 단계가 아니며, 수에서의 숫자의 개수를 감소시켜 인간 해석을 위해 이를 단순화시키기 위해 단독으로 수행될 수 있다. 서열 태그 계수를 표준화시키는데 이용될 수 있는 염색체 길이는 월드 와이드 웹 상의 genome.ucsc.edu/goldenPath/stats.html#hg18에서 제공되는 길이일 수 있다.
각각의 염색체에 대해 생성된 서열 태그 밀도를 남아 있는 염색체 각각의 서열 태그 밀도와 관련시켜, 염색체 21과 같은 관심 염색체에 대한 서열 태그 밀도 및 남아 있는 염색체, 즉 염색체 1-20, 22 및 X 각각에 대한 서열 태그 밀도의 비로서 산출되는 적격 염색체 용량을 유도하였다. 표 1은 적격 샘플 중 하나에서 결정된 관심 염색체 13, 18, 21, X, 및 Y에 대해 산출된 적격 염색체 용량의 예를 제공한다. 염색체 용량은 모든 샘플에 있는 모든 염색체에 대해 결정되며, 적격 샘플 중 관심 염색체 13, 18, 21, X 및 Y에 대한 평균 용량은 표 2 및 3에 제공되고, 도 2-6에 묘사된다. 도 2-6은 또한 시험 샘플에 대한 염색체 용량을 도시한다. 적격 샘플 중 관심 염색체 각각에 대한 염색체 용량은 남아 있는 염색체 각각에 대해 맵핑된 서열 태그에 비해 각각의 관심 염색체에 대해 맵핑된 서열 태그의 총 수에 있어서 변이의 척도를 제공한다. 따라서, 적격 염색체 용량은 샘플 중에서 관심 염색체의 변이에 가장 가까운 변이를 갖고 추가의 통계적 평가를 위해 표준화 값에 대해 이상적인 서열로서 제공될 염색체 또는 염색체의 그룹, 즉 표준화 염색체를 확인할 수 있다. 도 7 및 8은 염색체 13, 18, 및 21, 및 염색체 X 및 Y에 대한 적격 샘플의 집단에서 결정된 산출된 평균 염색체 용량을 도시한다.
일부 예에서, 최선의 표준화 염색체는 가장 작은 변이를 지니는 것은 아닐 수 있으나, 시험 샘플 또는 적격 샘플로부터의 샘플을 가장 잘 구별하는 적격 용량의 분포를 지닐 수 있고, 즉 최선의 표준화 염색체는 가장 작은 변이를 지니는 것은 아닐 수 있지만, 가장 큰 차별성을 지닐 수 있다. 따라서, 차별성은 염색체 용량에서의 변이 및 적격 샘플에서 용량의 분포를 설명한다.
표 2 및 3은 가변성의 척도로서 변이 계수, 및 염색체 18, 21, X 및 Y에 대한 차별성의 척도로서 스튜던트 t-시험 값을 제공하는데, T-시험 값이 작을수록 차별성은 커진다. 염색체 13에 대한 차별성은 적격 샘플 중 평균 염색체 용량 및 오로지 T13 시험 샘플에서 염색체 13에 대한 용량간 차이의 비, 및 적격 용량의 평균의 표준 편차로서 결정되었다.
적격 염색체 용량은 또한 하기에 기재된 대로 시험 샘플에서 이수성을 확인할 때 역치를 결정하기 위한 기준으로서 기능한다.
표 1
염색체 13, 18, 21, X 및 Y에 대한 적격 염색체 용량 (n=1; 샘플 #11342, 46 XY )
Figure pct00025
표 2
염색체 21, 18 및 13에 대한 적격 염색체 용량, 변량 및 차별성
Figure pct00026
표 3
염색체 13, X, 및 Y에 대한 적격 염색체 용량, 변량 및 차별성
Figure pct00027
Figure pct00028
각각의 관심 염색체에 대한 표준화 염색체, 염색체 용량 및 차별성을 이용하여 수득된 T21, T13, T18 및 터너 증후군의 병증의 진단 예를 실시예 3에서 기재한다.
실시예 3
표준화 염색체를 이용한 태아 이수성의 진단
생물학적 시험 샘플에서 이수성을 평가하기 위해 염색체 용량의 이용을 적용시키기 위해, 모체 혈액 시험 샘플을 임신한 지원자로부터 수득하였고, 실시예 1 및 2에 기재된 대로 cfDNA를 제조하고, 시퀀싱하고, 분석하였다.
21번 삼염색체증
표 4는 예시적인 시험 샘플 (#11403)에서 염색체 21에 대해 산출된 용량을 제공한다. T21 이수성의 양성 진단에 대해 산출되는 역치는 적격 (정상) 샘플의 평균에서 > 2 표준 편차에 설정되었다. T21에 대한 진단은 설정된 역치보다 큰 시험 샘플에서 염색체 용량에 기반하여 제공되었다. 가장 작은 가변성을 갖는 염색체, 예컨대 염색체 14, 또는 가장 큰 차별성을 갖는 염색체, 예컨대 염색체 15가 이수성을 확인하기 위해 이용될 수 있음을 나타내기 위해 분리된 계산에서 염색체 14 및 15를 표준화 염색체로서 이용하였다. 산출된 염색체 용량을 이용하여 13개의 T21 샘플이 확인되었고, 이수성 샘플은 핵형에 의해 T21임이 확인되었다.
표 4
T21 이수성에 대한 염색체 용량 (샘플 #11403, 47 XY +21)
Figure pct00029
18번 삼염색체증
표 5는 시험 샘플 (#11390)에서 염색체 18에 대해 산출된 용량을 제공한다. T18 이수성의 양성 진단에 대해 산출되는 역치는 적격 (정상) 샘플의 평균에서 2 표준 편차에 설정되었다. T18에 대한 진단은 설정된 역치보다 큰 시험 샘플에서 염색체 용량에 기반하여 제공되었다. 염색체 8을 표준화 염색체로서 이용하였다. 이러한 예에서, 염색체 8은 가장 작은 가변성과 가장 큰 차별성을 지녔다. 염색체 용량을 이용하여 8개의 T18 샘플이 확인되었고, 핵형에 의해 T18임이 확인되었다.
이러한 데이터는 표준화 염색체가 가장 작은 가변성 및 가장 큰 차별성 둘 모두를 지닐 수 있음을 나타낸다.
표 5
T18 이수성에 대한 염색체 용량 (샘플 #11390, 47 XY +18)
Figure pct00030
13번 삼염색체증
표 6은 시험 샘플 (#51236)에서 염색체 13에 대해 산출된 용량을 제공한다. T13 이수성의 양성 진단에 대해 산출되는 역치는 적격 (정상) 샘플의 평균에서 2 표준 편차에 설정되었다. T13에 대한 진단은 설정된 역치보다 큰 시험 샘플에서 염색체 용량에 기반하여 제공되었다. 염색체 13에 대한 염색체 용량을 표준화 염색체로서 염색체 5 또는 염색체 3, 4, 5, 및 6의 그룹을 이용하여 산출하였다. 하나의 T13 샘플을 확인하였다.
표 6
T13 이수성에 대한 염색체 용량 (샘플 #51236, 47 XY +13)
Figure pct00031
염색체 3-6에 대한 서열 태그 밀도는 염색체 3-6에 대한 평균 태그 계수이다.
상기 데이터는 염색체 3, 4, 5 및 6의 조합이 염색체 5의 가변성보다 작은 가변성 및 임의의 그 밖의 염색체의 차별성보다 가장 큰 차별성을 제공함을 나타낸다.
따라서, 염색체의 그룹을 염색체 용량을 결정하고 이수성을 확인하기 위한 표준화 염색체로서 이용할 수 있다.
터너 증후군 (X 홑염색체 )
표 7은 시험 샘플 (#51238)에서 염색체 X 및 Y에 대해 산출된 용량을 제공한다. 터너 증후군 (X 홑염색체)의 양성 진단에 대해 산출되는 역치는 X 염색체에 대해 평균으로부터 < -2 표준 편차에 설정되었고 Y 염색체의 부재하에 적격 (정상) 샘플에 대한 평균에서 < - 2 표준 편차에 설정되었다.
표 7
터너 ( XO ) 이수성에 대한 염색체 용량 (샘플 #51238, 45 X)
Figure pct00032
설정 역치보다 낮은 X 염색체 용량을 갖는 샘플은 하나 미만의 X 염색체를 갖는 것으로 확인되었다. 동일한 샘플은 설정 역치보다 낮은 Y 염색체 용량을 갖는 것으로 결정되었는데, 이는 샘플이 Y 염색체를 지니지 않았음을 나타낸다. 따라서, X 및 Y에 대한 염색체 용량의 조합을 이용하여 터너 증후군 (X 홑염색체) 샘플을 확인하였다.
따라서, 제공된 방법은 염색체의 CNV의 결정을 가능하게 한다. 특히, 상기 방법은 모체 혈장 cfDNA의 대량 병렬 시퀀싱에 의한 과잉- 또는 과소-묘사 염색체 이수성의 결정 및 시퀀싱 데이터의 통계적 분석을 위한 표준화 염색체의 확인을 가능하게 한다. 상기 방법의 민감성 및 확실성은 정밀한 초기 및 중기 삼분기 이수성 시험을 허락한다.
실시예 4
부분적인 이수성의 측정
서열 용량의 이용은 혈액 혈장으로부터 제조되고, 실시예 1에 기재된 대로 시퀀싱된 cfDNA의 생물학적 시험 샘플에서 부분적인 이수성을 평가하기 위해 적용되었다. 샘플은 핵형화에 의해 염색체 11이 부분적으로 결실된 피검체로부터 유래되었음이 확인되었다.
부분적인 이수성 (염색체 11, 즉 q21-q23의 부분적인 결실)에 대한 시퀀싱 데이터의 분석을 이전의 실시예에서 염색체 이수성에 대해 기재된 대로 수행하였다. 시험 샘플에서 서열 태그를 염색체 11에 대해 맵핑하여 적격 샘플에서 염색체 11에 대해 상응하는 서열에 대해 수득된 태그 계수에 비해 (도시되지 않음) 염색체의 q 아암에서 염기쌍 81000082-103000103 사이에서의 태그 계수의 두드러진 손실을 나타내었다. 각각의 적격 샘플에서 염색체 11에 대하여 관심 서열 (810000082-103000103bp)에 대해 맵핑된 서열 태그, 및 적격 샘플의 전체 유전체에서 모든 20 메가베이스 세그먼트에 대해 맵핑된 서열 태그, 즉 적격 서열 태그 밀도를 이용하여 모든 적격 샘플에서 태그 밀도의 비로서 적격 서열 용량을 결정하였다. 평균 서열 용량, 표준 편차, 및 변이 계수를 전체 유전체에서 모든 20 메가베이스 세그먼트에 대해 산출하였고, 가장 작은 가변성을 갖는 20-메가베이스 서열이 염색체 5에 대해 확인된 표준화 서열이었으며 (13000014-33000033bp) (표 8을 참조하라), 이를 이용하여 시험 샘플에서 관심 서열에 대한 용량을 계산하였다 (표 9를 참조하라). 표 8은 관심 서열에 대해 맵핑된 서열 태그 및 확인된 표준화 서열에 대해 맵핑된 서열 태그의 비로서 산출되는 시험 샘플에서 염색체 11에 대한 관심 서열 (810000082-103000103bp)에 대한 서열 용량을 제공한다. 도 10은 7개의 적격 샘플에서 관심 서열에 대한 서열 용량(○) 및 시험 샘플에서 상응하는 서열의 서열 용량(◇)을 나타낸다. 평균을 실선으로 표시하고, 평균으로부터 5 표준 편차에 설정된 부분적인 이수성의 양성 진단에 대한 계산된 역치는 점선으로 표시한다. 부분적인 이수성에 대한 진단은 설정된 역치보다 낮은 시험 샘플에서의 서열 용량에 기반하였다. 시험 샘플은 핵형화에 의해 염색체 11 상에 결실 q21-q23을 지니는 것으로 확인되었다.
따라서, 염색체 이수성을 확인하는 것 외에, 본 발명의 방법은 부분적인 이수성을 확인하는데 이용될 수 있다.
표 8
서열 Chr11 에 대한 적격 표준화 서열, 용량 및 변량: 81000082-103000103 (적격 샘플 n=7)
Figure pct00033
표 9
염색체 11 상의 관심 서열 (81000082-103000103)에 대한 서열 용량 (시험 샘플 11206)
Figure pct00034
실시예 5
이수성의 검출의 입증
실시예 2 및 3에 기재되고 도 2-6에 도시된 샘플에 대해 수득된 시퀀싱 데이터를 추가로 분석하여 모체 샘플에서 이수성을 성공적으로 확인함에 있어서 방법의 민감성을 설명하였다. 염색체 21, 18, 13 X 및 Y에 대한 표준화 염색체 용량을 평균의 표준 편차 (Y-축)에 대한 분포로서 분석하고 도 11에 도시하였다. 사용된 표준화 염색체는 분모 (X-축)로서 도시된다.
도 11a는 염색체 14를 염색체 21에 대한 표준화 염색체로서 이용하는 경우 변질되지 않은 샘플 (○) 및 21번 삼염색체증 샘플 (T21; △)에서 염색체 21 용량에 대한 평균으로부터의 표준 편차에 대한 염색체 용량의 분포를 도시한다. 도 11b는 염색체 8을 염색체 18에 대한 표준화 염색체로서 이용하는 경우 변질되지 않은 샘플 (○) 및 18번 삼염색체증 샘플 (T18; △)에서 염색체 18 용량에 대한 평균으로부터의 표준 편차에 대한 염색체 용량의 분포를 도시한다. 도 11c는 염색체 13에 대한 염색체 용량을 결정하기 위해 표준화 염색체로서 염색체 3, 4, 5, 및 6의 그룹의 평균 서열 태그 밀도를 이용하여, 변질되지 않은 샘플 (○) 및 13번 삼염색체증 샘플 (T13; △)에서 염색체 13 용량에 대한 평균으로부터의 표준 편차에 대한 염색체 용량의 분포를 도시한다. 도 11d는 염색체 4를 염색체 X에 대한 표준화 염색체로서 이용하는 경우 변질되지 않은 여성 샘플 (○), 변질되지 않은 남성 샘플 (△), 및 X 홑염색체 샘플 (XO; +)에서 염색체 X 용량에 대한 평균으로부터의 표준 편차에 대한 염색체 용량의 분포를 도시한다. 도 11e는 염색체 Y에 대한 염색체 용량을 결정하기 위해 표준화 염색체로서 염색체 1-22 및 X의 그룹의 평균 서열 태그 밀도를 이용하는 경우, 변질되지 않은 남성 샘플 (○), 변질되지 않은 여성 샘플 (△), 및 X 홑염색체 샘플 (+)에서 염색체 Y 용량에 대한 평균으로부터의 표준 편차에 대한 염색체 용량의 분포를 도시한다.
이러한 데이터는 21번 삼염색체증, 18번 삼염색체증, 13번 삼염색체증이 변질되지 않은 (정상) 샘플에서 명확하게 구별될 수 있었음을 나타낸다. X 홑염색체 샘플은 변질되지 않은 여성 샘플의 염색체 X 용량보다 명백하게 낮은 염색체 X 용량을 지니고 (도 11d), 변질되지 않은 남성 샘플의 염색체 Y 용량보다 명백하게 낮은 염색체 Y 용량을 지님이 (도 11e) 용이하게 확인될 수 있다.
따라서, 제공된 방법은 모체 혈액 샘플에서 염색체 이수성의 존재 또는 부재를 결정하는데 있어서 민감하고 특이적이다.
실시예 6
모체 혈액으로부터의 무세포 태아 DNA 의 대량 병렬 DNA 시퀀싱을 이용한 태아 염색체 이상의 결정: 트레이닝 세트 1와 무관한 시험 세트 1
상기 연구는 각 기관의 기관 감사 위원회(IRB)에 의해 승인된 인간 피검체 프로토콜하에 2009년 4월부터 2010년 7월 사이에 13개의 US 임상 장소에서 적합한 지역 임상 연구 위원에 의해 수행되었다. 연구 참여 이전에 각 피검체로부터 서면 사전 동의를 받았다. 프로토콜은 비침습성 출생전 유전적 진단 방법의 개발을 지지하기 위해 혈액 샘플 및 임상 데이터를 제공하도록 설계되었다. 연령이 18세 이상인 임신 여성이 포함에 적격일 수 있었다. 임상적으로 지시된 CVS 또는 양수검사를 받은 환자에 대해, 절차의 수행 이전에 혈액을 수집하였고, 태아 핵형의 결과를 또한 수집하였다. 말초혈 샘플 (2개의 튜브 또는 총 ~20 mL)을 산 시트레이트 덱스트로스 (ACD) 튜브 (Becton Dickinson)에서 모든 피검체에 대해 채혈하였다. 모든 샘플의 출처를 확인할 수 없게 하였고(de-identified) 익명의 환자 ID 번호를 지정하였다. 혈액 샘플을 연구에 제공된 온도 제어되는 수송 컨테이너에서 실험실로 밤새 운송하였다. 채혈 및 샘플 수령 사이에 경과된 시간을 샘플 인수의 일부로서 기록하였다.
지역 연구 진행자는 환자의 현재 임신 및 병력과 관련된 임상 데이터를 익명의 환자 ID 번호를 이용하여 연구 증례 기록지 (CRF)에 입력하였다. 침습성 출생전 절차 샘플로부터의 태아 핵형의 세포유전학 연구를 지역 실험실마다 수행하였고 그 결과를 또한 연구 CRF에 기록하였다. CRF 상에 수득된 모든 데이터를 실험실의 임상 데이터베이스에 넣었다. 정맥천자의 샘플의 24-48시간 이내 2-단계 원심분리 과정을 활용하여 개별적인 혈액 튜브로부터 무세포 혈장을 수득하였다. 단일 혈액 튜브로부터의 혈장은 시퀀싱 분석에 충분하였다. 무세포 DNA를 제조사의 지시에 따라 QIAamp DNA 혈액 미니 키트 (Qiagen)를 이용하여 무세포 혈장으로부터 추출하였다. 무세포 DNA 단편의 길이가 약 170개 염기쌍 (bp)인 것으로 알려져 있으므로 (Fan et al., Clin Chem 56:1279-1286 [2010]), 시퀀싱 전에 DNA의 단편화는 필요하지 않았다.
트레이닝 세트 샘플의 경우, cfDNA를 Illumina 유전체 분석기 IIx 기계를 지닌 표준 제조사 프로토콜을 이용하여 (http://www.illumina.com/) 시퀀싱 라이브러리 제조 (cfDNA 평활 말단화 및 만능 어댑터에 라이게이션됨) 및 시퀀싱을 위해 Prognosys Biosciences, Inc. (La Jolla, CA)로 보냈다. 36개 염기쌍의 단일-말단 리드를 수득하였다. 시퀀싱의 완료시에, 모든 염기 콜 파일을 수집하고 분석하였다. 시험 세트 샘플의 경우, 시퀀싱 라이브러리를 제조하고, 시퀀싱을 Illumina 유전체 분석기 IIx 기계 상에서 수행하였다. 시퀀싱 라이브러리 제조를 다음과 같이 수행하였다. 기재된 전-길이 프로토콜은 본질적으로 Illumina에 의해 제공된 표준 프로토콜이며, 증폭된 라이브러리의 정제만이 Illumina 프로토콜과 상이하다: Illumina 프로토콜은 증폭된 라이브러리를 겔 전기영동을 이용하여 정제할 것을 지시하는 한편, 본원에 기재된 프로토콜은 동일한 정제 단계에 자기 비드를 이용한다. 본질적으로 제조사의 지시에 따라 Illumina®에 대한 NEBNext™ DNA 샘플 Prep DNA 시약 세트 1 (Part No. E6000L; New England Biolabs, Ipswich, MA)을 이용하여 일차 시퀀싱 라이브러리를 제조하기 위해 모체 혈장으로부터 추출된 약 2 ng의 정제된 cfDNA를 이용하였다. 정제 컬럼 대신 Agencourt 자기 비드 및 시약을 이용하여 수행된, 어댑터-라이게이션된 생성물의 최종 정제를 제외한 모든 단계는 Illumina® GAII를 이용하여 시퀀싱된 유전체 DNA 라이브러리에 대한 샘플 제조용 NEBNext™ 시약을 수반한 프로토콜에 따라 수행되었다. NEBNext™ 프로토콜은 본질적으로 grcf.jhml.edu/hts/protocols/11257047_ChIP_Sample_Prep.pdf.에서 이용가능한 Illumina에서 제공된 바에 따랐다.
40㎕에 함유된 약 2 ng의 정제된 cfDNA 단편의 과잉충전물을, NEBNext™ DNA 샘플 Prep DNA 시약 세트 1에 제공된 5㎕의 10X 인산화 완충제, 2㎕의 데옥시뉴클레오티드 용액 믹스 (10 mM 각각 dNTP), 1㎕의 DNA 중합효소 I의 1:5 희석액, 1㎕의 T4 DNA 중합효소 및 1㎕의 T4 폴리뉴클레오티드 키나제와 함께 40㎕의 cfDNA를 200㎕의 마이크로퓨즈 튜브에서 열 순환기에서 30분 동안 20℃에서 인큐베이션시킴에 의해 NEBNext® End Repair Module에 따라 인산화된 평활 말단으로 전환시켰다. 샘플을 4℃로 냉각시키고, QIAQuick PCR 정제 키트 (QIAGEN Inc., Valencia, CA)에 제공된 QIAQuick 컬럼을 이용하여 다음과 같이 정제시켰다. 50㎕의 반응물을 1.5ml 마이크로퓨즈 튜브로 옮기고 250㎕의 Qiagen 완충제 PB를 첨가하였다. 생성된 300㎕를 QIAquick 컬럼으로 옮기고, 이것을 마이크로퓨즈에서 13,000RPM에서 1분 동안 원심분리시켰다. 컬럼을 750㎕의 Qiagen 완충제 PE로 세척하고 재원심분리시켰다. 잔류하는 에탄올을 13,000RPM에서 5분 동안 추가 원심분리에 의해 제거하였다. DNA를 39㎕의 Qiagen 완충제 EB에서 원심분리에 의해 용리시켰다. 34㎕의 평활-말단화 DNA의 dA 테일링을 Klenow 단편 (3' 내지 5' 엑소 마이너스) (NEBNext™ DNA 샘플 Prep DNA 시약 세트 1)을 함유하는 16㎕의 dA-테일링 마스터 믹스를 이용하여 제조사의 NEBNext® dA-테일링 모듈에 따라 30분 동안 37℃에서 인큐베이션시킴에 의해 달성하였다. 샘플을 4℃로 냉각하고, MinElute PCR 정제 키트 (QIAGEN Inc., Valencia, CA) 상에 제공된 컬럼을 이용하여 다음과 같이 정제하였다. 50㎕의 반응물을 1.5ml 마이크로퓨즈 튜브로 옮기고 250㎕의 Qiagen 완충제 PB를 첨가하였다. 300㎕를 MinElute 컬럼으로 옮기고, 이것을 마이크로퓨즈에서 13,000RPM에서 1분 동안 원심분리시켰다. 컬럼을 750㎕의 Qiagen 완충제 PE로 세척하고 재원심분리시켰다. 잔류하는 에탄올을 13,000RPM에서 5분 동안 추가 원심분리에 의해 제거하였다. DNA를 원심분리에 의해 15㎕의 Qiagen 완충제 EB에서 용리시켰다. 10 마이크로리터의 DNA 용리물을 1㎕의 Illumina 유전체 어댑터 올리고 믹스 (Part No. 1000521)의 1:5 희석액, 15㎕의 2X Quick 라이게이션 반응 완충제, 및 4㎕의 Quick T4 DNA 리가제와 함께 25℃에서 15분 동안 NEBNext™ Quick 라이게이션 모듈에 따라 인큐베이션시켰다. 샘플을 4℃로 냉각시키고, MinElute 컬럼을 이용하여 다음과 같이 정제시켰다. 150 마이크로리터의 Qiagen 완충제 PE를 30㎕의 반응물에 첨가하였고, 전체 용적을 MinElute 컬럼으로 옮겨서, 마이크로퓨즈에서 13,000RPM에서 1분 동안 원심분리시켰다. 컬럼을 750㎕의 Qiagen 완충제 PE로 세척하고, 재원심분리시켰다. 잔류하는 에탄올을 13,000RPM에서 5분 동안 추가 원심분리에 의해 제거하였다. DNA를 원심분리에 의해 28㎕의 Qiagen 완충제 EB에서 용리시켰다. 23 마이크로리터의 어댑터-라이게이션된 DNA 용리물을 NEBNext™ DNA 샘플 Prep DNA 시약 세트 1에 제공된 Illumina 유전체 PCR 프라이머 (Part Nos. 100537 및 1000538) 및 Phusion HF PCR 마스터 믹스를 이용하여, 제조사의 지시에 따라 PCR의 18회 사이클 (30초간 98℃; 10초간 98℃, 30초간 65℃, 및 30초간 72℃의 18회 사이클; 72℃에서 5분간 최종 연장, 및 4℃에서 유지)로 처리하였다. 증폭된 생성물을 www.beckmangenomics.com/products/AMPureXPProtocol_000387v001.pdf.에서 이용가능한 제조사의 지시에 따라 Agencourt AMPure XP PCR 정제 시스템 (Agencourt Bioscience Corporation, Beverly, MA)을 이용하여 정제시켰다. Agencourt AMPure XP PCR 정제 시스템은 혼입되지 않은 dNTP, 프라이머, 프라이머 이량체, 염 및 그 밖의 오염물질을 제거하고, 100bp보다 큰 앰플리콘을 회수한다. 정제되고 증폭된 생성물을 40㎕의 Qiagen EB 완충제에서 Agencourt 비드로부터 용리시키고, 라이브러리의 크기 분포를 2100 바이오분석기용 Agilent DNA 1000 키트 (Agilent technologies Inc., Santa Clara, CA)를 이용하여 분석하였다. 트레이닝 및 시험 샘플 세트 둘 모두에 대해, 36개 염기쌍의 단일-말단 리드가 시퀀싱되었다.
데이터 분석 및 샘플 분류
길이가 36개 염기인 서열 리드를 UCSC 데이터베이스 (http://hgdownload.cse.ucsc.edu/goldenPath/hg18/bigZips/)로부터 수득된 인간 유전체 어셈블리 hg18에 대해 정렬시켰다. 정렬은 정렬 동안 2개까지의 염기 미스매치를 허용하는 (Langmead et al., Genome Biol 10:R25 [2009]) Bowtie 짧은 리드 정렬기(version 0.12.5)를 활용하여 수행되었다. 단일 유전체 위치로 분명하게 맵핑된 리드만이 포함되었다. 리드가 맵핑된 유전체 부위를 계수하고 염색체 용량의 산출에 포함시켰다 (하기 참조). 남아 및 여아로부터의 서열 태그가 어떠한 구별 없이 맵핑된 Y 염색체 상의 영역을 분석으로부터 제외시켰다 (특히, 염기 0 내지 염기 2 x 106; 염기 10 x 106 내지 염기 13 x 106; 및 염기 23 x 106 내지 염색체 Y의 말단).
서열 리드의 염색체 분포에 있어서 진행내 및 진행간 시퀀싱 변이는 맵핑된 서열 부위의 분포에 대한 태아 이수성의 효과를 가릴 수 있다. 이러한 변이를 바로잡기 위해, 염색체 용량을 소정의 표준화 염색체 서열 상에서 관찰된 계수로 표준화된 주어진 관심 염색체에 대해 맵핑된 부위의 계수로서 산출하였다. 앞서 기재한 대로, 표준화 염색체 서열은 단일 염색체 또는 염색체의 그룹으로 구성될 수 있다. 각각의 보통염색체를 본 발명자들의 관심 염색체를 이용한 계수의 비에서의 잠재적인 분모로서 고려하여, 표준화 염색체 서열은 먼저 관심 염색체 21, 18, 13 및 X에 대한 이배체 핵형을 갖는 변질되지 않은 샘플, 즉 적격 샘플인 샘플의 트레이닝 세트에 있는 샘플의 서브세트에서 확인되었다. 시퀀싱 진행 내에서 그리고 시퀀싱 진행간 염색체 용량의 변이를 최소화한 분모 염색체, 즉 표준화 염색체 서열을 선택하였다. 각각의 관심 염색체는 별개의 표준화 염색체 서열 (분모)을 갖는 것으로 결정되었다 (표 10). 어떠한 단일 염색체도 염색체 13에 대한 표준화 염색체 서열로서 확인될 수 없었는데, 그 이유는 샘플에 걸쳐 염색체 13의 용량의 가변성을 감소시키는 한 염색체가 결정되지 않았기 때문이며, 즉 염색체 13에 대한 NCV 값의 다양성이 T13 이수성의 올바른 확인을 허용하기에 충분할 정도로 감소되지 않았기 때문이다. 염색체 2-6은 임의로 선택되었고 염색체 13의 거동을 모방하는 그룹으로서의 이들의 능력에 대해 시험되었다. 염색체 2-6의 그룹은 트레이닝 샘플에서 염색체 13에 대한 용량의 가변성을 실질적으로 감소시키는 것으로 나타났고, 따라서 염색체 13에 대한 표준화 염색체 서열로서 선택되었다. 상기 기재된 대로, 염색체 Y에 대한 염색체 용량의 가변성은 염색체 Y 용량을 결정하는데 어떠한 단일 염색체가 표준화 염색체 서열로서 사용되는 지와 무관하게 30보다 크다. 염색체 2-6의 그룹은 트레이닝 샘플에서 염색체 Y에 대한 용량의 가변성을 실질적으로 감소시키는 것으로 나타났으므로 염색체 Y에 대한 표준화 염색체 서열로서 선택되었다.
적격 샘플에서 관심 염색체 각각에 대한 염색체 용량은 남아 있는 염색체 각각에 대한 것에 비해 각각의 관심 염색체에 대해 맵핑된 서열 태그의 총 수에서의 변이의 척도를 제공한다. 따라서, 적격 염색체 용량은 샘플 중에서 관심 염색체의 변이에 가장 가까운 변이를 갖고, 추가의 통계적 평가를 위한 표준화 값에 대해 이상적인 서열로서 기능할 염색체 또는 염색체의 그룹, 즉 표준화 염색체 서열을 확인할 수 있다.
트레이닝 세트의 모든 샘플, 즉 적격 및 변질된 샘플의 염색체 용량은 또한 하기 기재된 대로 시험 샘플에서 이수성을 확인할 때 역치를 결정하기 위한 기준으로서 기능한다.
표 10
염색체 용량을 결정하기 위한 표준화 염색체 서열
Figure pct00035
시험 세트의 각각의 샘플의 각각의 관심 염색체에 대해, 표준화 값을 결정하고 이수성의 존재 또는 부재를 결정하는데 이용하였다. 표준화 값을 표준화 염색체 값(NCV)을 제공하기 위해 추가로 계산될 수 있는 염색체 용량으로서 산출하였다.
염색체 용량
시험 세트에 대해, 염색체 용량을 모든 샘플에 대해 각각의 관심 염색체, 21, 18, 13, X 및 Y에 대해 산출하였다. 상기 표 10에 제공된 대로, 염색체 21에 대한 염색체 용량을 시험 샘플에서 염색체 21에 대해 맵핑된 시험 샘플 중 태그의 수, 및 염색체 9에 대해 맵핑된 시험 샘플 중 태그의 수의 비로서 산출하였고; 염색체 18에 대한 염색체 용량을 시험 샘플에서 염색체 18에 대해 맵핑된 시험 샘플 중 태그의 수, 및 염색체 8에 대해 맵핑된 시험 샘플 중 태그의 수의 비로서 산출하였으며; 염색체 13에 대한 염색체 용량을 시험 샘플에서 염색체 13에 대해 맵핑된 시험 샘플 중 태그의 수, 및 염색체 2-6으로 맵핑된 시험 샘플 중 태그의 수의 비로서 산출하였고; 염색체 X에 대한 염색체 용량을 시험 샘플에서 염색체 X에 대해 맵핑된 시험 샘플 중 태그의 수, 및 염색체 6에 대해 맵핑된 시험 샘플 중 태그의 수의 비로서 산출하였으며; 염색체 Y에 대한 염색체 용량을 시험 샘플에서 염색체 Y에 대해 맵핑된 시험 샘플 중 태그의 수, 및 염색체 2-6에 대해 맵핑된 시험 샘플 중 태그의 수의 비로서 산출하였다.
표준화 염색체 값
각각의 시험 샘플에서 각각의 관심 염색체에 대한 염색체 용량, 및 트레이닝 세트의 적격 샘플에서 결정된 상응하는 염색체 용량의 평균을 이용하여, 표준화 염색체 값 (NCV)을 하기 방정식을 이용하여 산출하였다:
Figure pct00036
상기 식에서,
Figure pct00037
Figure pct00038
는 j번째 염색체 용량에 대한 각기 추정 트레이닝 세트 평균 및 표준 편차이고,
Figure pct00039
는 시험 샘플 i에 대해 관찰된 j번째 염색체 용량이다. 염색체 용량이 정상적으로 분포된 경우, NCV는 용량에 대한 통계적 z-점수와 같다. 변질되지 않은 샘플로부터의 NCV의 분위-분위 플롯에서 선형성으로부터 어떠한 유의한 이탈도 관찰되지 않는다. 추가로, NCV에 대한 정규성의 표준 시험은 정규성의 귀무 가설을 거부하지 못했다.
시험 세트의 경우, NCV는 모든 샘플에 대해 각각의 관심 염색체, 21, 18, 13, X 및 Y에 대해 산출되었다. 안전하고 유효한 분류 계획을 확보하기 위해, 보존 경계를 이수성 분류를 위해 선택하였다. 보통염색체의 이수성 상태를 분류하기 위해, 변질된 염색체 (즉, 그 염색체에 대해 이수성)를 분류하기 위해서는 NCV > 4.0이 요구되었고 변질되지 않은 염색체를 분류하기 위해서는 NCV < 2.5가 요구되었다. NCV가 2.5 내지 4.0인 보통염색체를 지닌 샘플은 "노 콜"로서 분류되었다.
시험에서 성 염색체 분류는 하기와 같이 X 및 Y 둘 모두에 대한 NCV의 순차적 이용에 의해 수행되었다:
1. NCV Y가 남성 샘플의 평균으로부터 > -2.0 표준 편차인 경우, 그 샘플은 남성 (XY)으로서 분류되었다.
2. NCV Y가 남성 샘플의 평균으로부터 < -2.0 표준 편차이고, NCV X가 여성 샘플의 평균으로부터 > -2.0 표준 편차인 경우, 그 샘플은 여성 (XX)으로서 분류되었다.
3. NCV Y가 남성 샘플의 평균으로부터 < -2.0 표준 편차이고, NCV X가 여성 샘플의 평균으로부터 < -3.0 표준 편차인 경우, 그 샘플은 X 홑염색체, 즉 터너 증후군으로서 분류되었다.
4. NCV가 상기 기준 중 어느 것에도 맞지 않는 경우, 그 샘플은 성에 대해 "노 콜"로서 분류되었다.
결과
연구 집단 데모그래픽
총 1,014명의 환자를 2009년 4월에서 2010년 7월 사이에 등록하였다. 환자 데모그래픽, 침습성 절차 유형 및 핵형 결과를 표 11에 요약한다. 연구 참가자의 평균 연령은 35.6세였고 (17세 내지 47세 범위) 재태 기간은 6주 1일 내지 38주 1일의 범위였다 (평균 15주 4일). 비정상 태아 염색체 핵형의 전체 발생률은 6.8%였고 T21 발생률은 2.5%였다. 단태 임신 및 핵형을 갖는 946명 피검체 중에서 906 (96%)명은 출생전 절차 전에 태아 이수성에 대한 적어도 하나의 임상적으로 인지된 위험 요소를 나타내었다. 심지어 유일한 징후로서의 고령의 모체 연령을 제거하고서도, 상기 데이터는 현행 스크리닝 검사에 대해 매우 높은 위양성율을 나타낸다. 증가된 태아 목둘레 검사의 초음파 소견, 낭림프관종, 또는 초음파에 의한 그 밖의 구조적 선천 이상은 이러한 코호트에서 비정상적인 핵형을 가장 잘 예측한다.
표 11
환자 데모그래픽
Figure pct00040
Figure pct00041
*다태 임신으로부터의 태아의 결과 포함, **임상의에 의해 평가되고 기록됨
약어: AMA = 고령의 모체 연령, NT = 태아 목둘레 검사
이러한 연구 집단에 묘사된 다양한 인종 배경의 분포를 또한 표 11에 제시한다. 전체적으로, 본 연구에서 환자의 63%는 백인이었고, 17%는 히스패닉, 6% 아시아인, 5%는 다인종, 및 4%는 흑인이었다. 인종 다양성은 지역마다 현저하게 상이하였음이 인지되었다. 예를 들어, 한 지역은 60%의 히스패닉과 26%의 백인 피검체가 등록되었으나, 모두 동일한 주에 위치한 세 곳의 클리닉에는 히스패닉 피검체가 등록되지 않았다. 예상한 대로, 상이한 인종에 대한 본 발명자들의 결과에서 관찰되는 구분가능한 차이점이 없었다.
트레이닝 데이터 세트 1
트레이닝 세트 연구는 2009년 4월에서 2009년 12월 사이에 수집된 435개 샘플의 초기 순차적 누적으로부터 71개 샘플을 선택하였다. 이러한 첫 번째 시리즈의 피검체에서 변질된 태아 (비정상 핵형)를 지닌 모든 피검체를 시퀀싱 및 적절한 샘플 및 데이터를 지닌 변질되지 않은 피검체의 임의 선택 및 개수에 포함시켰다. 트레이닝 세트 환자의 임상적 특징은 표 11에 제시된 전체적인 연구 데모그래픽과 일치하였다. 트레이닝 세트에 있는 샘플의 재태 기간의 범위는 10주 0일부터 23주 1일까지였다. 38명은 CVS를 받았고, 32명은 양수검사를 받았으며 1명의 환자는 명시된 침습성 절차를 받지 않았다 (변질되지 않은 핵형 46, XY). 환자의 70%는 백인이었고, 8.5%는 히스패닉, 8.5%는 아시아인, 및 8.5%는 다인종이었다. 6개의 시퀀싱된 샘플을 트레이닝의 목적으로 상기 세트에서 제거하였다: 쌍태 임신한 피검체로부터의 4개 샘플 (하기에 추가로 논의됨), 제조 동안 오염된 T18을 지닌 1개 샘플, 및 태아 핵형 69, XXX를 지닌 1개 샘플, 트레이닝 세트용으로 65개 샘플 남김.
유일한 서열 부위의 수 (즉, 유전체에서 유일한 부위를 지닌 것으로 확인된 태그)는 시간 경과에 따른 시퀀싱 기법의 개선으로 인해 트레이닝 세트 연구의 초기 상에서 2.2M으로부터 후기 상에서 13.7M으로 변화되었다. 유일한 부위에서 이러한 6배 범위를 초과하는 염색체 용량에서의 어떠한 잠재적인 변화를 모니터하기 위해, 상이한 변질되지 않은 샘플을 연구의 시작과 끝에 진행시켰다. 처음 15개의 변질되지 않은 샘플 진행 동안, 유일한 부위의 평균 수는 3.8M이었고 염색체 21 및 염색체 18에 대한 평균 염색체 용량은 각각 0.314 및 0.528이었다. 마지막 15개의 변질되지 않은 샘플 진행 동안, 유일한 부위의 평균 수는 10.7M이었고 염색체 21 및 염색체 18에 대한 평균 염색체 용량은 각각 0.316 및 0.529였다. 트레이닝 세트 연구의 시간 경과에 따라 염색체 21 및 염색체 18에 대한 염색체 용량간에 통계적 차이는 없었다.
염색체 21, 18 및 13에 대한 트레이닝 세트 NCV를 도 12에 도시한다. 도 12에 도시된 결과는 이배체 NCV의 대략 99%가 평균의 +2.5 표준 편차 내에 있을 것이라는 점에서 정규성의 가정과 일치한다. 65개 샘플의 이러한 세트 중에서, 임상적 핵형을 지닌 8개 샘플은 T21이 6 내지 20 범위의 NCV를 지녔음을 나타낸다. 태아 T18을 나타내는 임상적 핵형을 지닌 4개 샘플은 3.3 내지 12 범위의 NCV를 지녔고, 태아 13번 삼염색체증 (T13)을 나타내는 핵형을 지닌 2개의 샘플은 2.6 내지 4의 NCV를 지녔다. 변질된 샘플에서 NCV의 다양성은 개개의 샘플에서 태아 cfDNA의 백분율에 대한 이들의 의존성 때문이다.
보통염색체와 유사하게, 성 염색체에 대한 평균 및 표준 편차를 트레이닝 세트에서 확립하였다. 성 염색체 역치는 트레이닝 세트에서 남아 및 여아의 100% 확인을 가능하게 하였다.
시험 데이터 세트 1
트레이닝 세트로부터 염색체 용량 평균 및 표준 편차를 확립한 후, 48개 샘플의 시험 세트를 2010년 1월부터 2010년 6월까지 수집된 샘플로서 총 575개의 샘플로부터 선택하였다. 시험 세트에 47개 샘플을 남기며 쌍태 임신으로부터의 샘플 중 하나를 최종 분석에서 제거하였다. 장비를 시퀀싱하고 작동시키기 위한 개인 제조 샘플은 임상적 핵형 정보에 대해서는 공개되지 않았다. 재태 기간 범위는 트레이닝 세트에서 나타난 것과 유사하였다 (표 11). 침습성 절차의 58%는 CVS였고, 이는 전반적인 절차상 데모그래픽의 것보다 높았으나, 역시 트레이닝 세트와 유사하였다. 피검체의 50%는 백인이었고, 27%는 히스패닉, 10.4%는 아시아인 및 6.3%는 흑인이었다.
시험 세트에서, 유일한 서열 태그의 수는 약 13M에서 26M까지 변화되었다. 변질되지 않은 샘플의 경우, 염색체 21 및 염색체 18에 대한 염색체 용량은 각각 0.313 및 0.527이었다. 염색체 21, 염색체 18 및 염색체 13에 대한 시험 세트 NCV를 도 13에 도시하고 분류를 표 12에 제공한다.
표 12
시험 세트 분류 데이터
Figure pct00042
*MX는 Y 염색체의 증거 없이 X 염색체의 홑염색체이다
시험 세트에서, 태아 T21을 나타내는 임상적 핵형을 갖는 13/13 피검체는 5 내지 14 범위의 NCV를 갖는 것이 정확히 확인되었다. 태아 T18을 나타내는 핵형을 갖는 8/8 피검체는 8.5 내지 22 범위의 NCV를 갖는 것이 정확히 확인되었다. 이러한 시험 세트에서 T13으로 분류된 핵형을 갖는 단일 샘플을 NCV가 약 3인 노 콜로서 분류하였다.
시험 데이터 세트의 경우, 모든 남성 샘플은 복잡한 핵형, 46,XY + 마커 염색체 (세포유전학에 의해 확인할 수 없음)를 지닌 샘플을 포함하는 것이 정확히 확인되었다 (표 3). 20개의 여성 샘플 중 19개는 정확하게 확인되었고, 하나의 여성 샘플은 노 콜로서 분류되었다. 45,X의 핵형을 지닌 시험 세트에서의 3개 샘플의 경우, 3개 중 2개는 X 홑염색체로서 정확히 확인되었고 하나는 노 콜로서 분류되었다 (표 12).
쌍둥이
트레이닝 세트를 위해 초기에 선택된 샘플 중 4개 및 시험 세트의 샘플 중 하나는 쌍태 임신에서 얻은 것이었다. 여기에 이용된 역치는 쌍태 임신의 환경에서 예상되는 cfDNA의 상이한 양에 의해 혼동될 수 있었다. 트레이닝 세트에서, 쌍둥이 샘플 중 하나로부터의 핵형은 단융모막성 47,XY+21이었다. 두 번째 쌍둥이 샘플은 이란성이었고 태아에 대해 개별적으로 양수검사를 수행하였다. 이러한 쌍태 임신에서, 태아 중 한 명은 47,XY+21의 핵형을 지닌 반면, 다른 한 명은 정상 핵형인 46,XX를 지녔다. 이러한 경우 둘 모두에서, 상기 논의된 방법에 기반한 무세포 분류는 샘플을 T21로서 분류하였다. 트레이닝 세트에서의 그 밖의 두 쌍태 임신은 T21에 대해 변질되지 않은 것으로 정확히 분류되었다 (모든 쌍둥이는 염색체 21에 대해 이배체 핵형을 나타내었다). 시험 세트에서 쌍태 임신 샘플의 경우, 핵형은 쌍둥이 B (46,XX)에 대해서만 확립되었고, 알고리듬은 T21에 대해 변질되지 않은 것으로 정확히 분류하였다.
결론
상기 데이터는 대량 병렬 시퀀싱이 임신한 여성의 혈액으로부터 복수의 비정상 태아 핵형을 결정하기 위해 이용될 수 있음을 나타낸다. 이러한 데이터는 21번 삼염색체증 및 18번 삼염색체증을 지닌 샘플의 100% 정확한 분류가 독립적인 시험 세트 데이터를 이용하여 확인될 수 있음을 입증한다. 비정상적인 성 염색체 핵형을 지닌 태아의 경우에도, 샘플 중 어떤 것도 상기 방법의 알고리듬으로 부정확하게 분류되지 않았다. 중요한 점은, 알고리듬이 또한 변질된 한 명 이상의 태아를 지닌 쌍둥이 임신의 두 세트에서 T21의 존재를 결정하는데 있어서 잘 수행되었다는 점인데, 이는 종래에는 결코 제시된 바 없었다. 더욱이, 이러한 연구는 상업적인 임상 환경에서 목격할 것 같은 비정상적인 핵형의 범위를 나타낼 뿐 아니라 오늘날 출생전 스크리닝에 남아 있는 용납하기 어려운 높은 위양성율을 해결하기 위해 보통의 삼염색체에 의해 변질되지 않은 임신을 정확하게 분류하는 유의성을 나타내는 여러 센터로부터의 다양한 일련의 샘플을 조사하였다. 상기 데이터는 미래에 이러한 방법을 이용할 광대한 가능성에 가치있는 통찰력을 제공한다. 유일한 유전체 부위의 서브세트의 분석은 변량 일관된 Poisson 계수 통계에서 증가를 나타내었다.
대량 병렬 시퀀싱을 이용하여 모체 혈장으로부터 태아 이수성의 비침습성 출생전 결정의 민감성을 입증한 Fan 및 Quake의 발견에 기초한 데이터는 계수 통계로만 제한된다 (Fan and Quake, PLos One 5, e10439 [2010]). 시퀀싱 정보를 전체 유전체에 걸쳐 수집하였기 때문에, 상기 방법은 삽입 및 결실을 포함하는 임의의 이수성 또는 그 밖의 복사체 수 변이를 결정할 수 있다. 샘플 중 하나로부터의 핵형은, 시퀀싱 데이터가 500 kbase 빈스(bins)에서 분석되었을 때 q21에서 시작하는 25 Mb 영역에서 태그의 상대적인 수에서의 ~10%의 감소로서 관찰되는 q21 및 q23 사이에 있는 염색체 11의 작은 결실을 지녔다. 추가로, 트레이닝 세트에서, 샘플 중 3개는 세포유전학 분석에서의 모자이크 현상으로 인해 복잡한 성 핵혁을 지녔다. 이러한 핵형은 i) 47,XXX[9]/45,X[6], ii) 45,X [3]/46, XY[17], 및 iii) 47,XXX[13]/45,X[7]이었다. 일부 XY-함유 세포를 나타낸 샘플 ii는 XY로서 정확하게 분류되었다. 두 샘플 모두가 세포유전학 분석에 의해 XXX 및 X 세포의 혼합물을 나타낸 (모자이크 터너 증후군과 일치함) 샘플 i (CVS 절차로부터) 및 iii (양수검사로부터)은 각각 노 콜 및 X 홑염색체로서 분류되었다.
알고리듬의 시험에서, 또 다른 흥미로운 데이터 포인트는 시험 세트로부터의 한 샘플의 경우 염색체 21에 대해 -5 내지 -6의 NCV를 갖는 것으로 관찰되었다 (도 13). 비록 이러한 샘플이 세포유전학에 의해 염색체 21에서 이배체였으나, 핵형은 염색체 9; 47, XX + 9 [9]/46, XX [6]에 대해 부분적인 삼배성을 지닌 모자이크 현상을 나타내었다. 염색체 9가 염색체 21에 대한 염색체 용량을 결정하기 위한 분모에 사용되므로 (표 10), 이것은 전체 NCV 값을 낮춘다. 이러한 샘플에서 태아 9번 삼염색체증을 결정하기 위한 표준화 염색체 이용의 능력은 하기 실시예 7에 제공된 결과에 의해 입증된다.
이러한 방법의 민감성에 관한 Fan 등의 결론은 사용된 알고리듬이 시퀀싱 방법에 의해 도입된 어떠한 임의의 또는 고의의 바이어스를 설명할 수 있는 경우에만 옳다는 것이다. 시퀀싱 데이터가 적절하게 표준화되지 않은 경우, 결과로 초래된 분석은 계수 통계에 미치지 못할 것이다. Chiu 등은 이들의 최근 논문에서 대량 병렬 시퀀싱 방법을 이용한 염색체 18 및 13의 측정이 불명확함을 인지하였고, 상기 방법을 T18 및 T13 결정에 이용하려면 더 많은 연구가 필요하다고 결론지었다 (Chiu et al., BMJ 342:c7401 [2011]). Chiu 등의 논문에 이용된 방법은 간단히 관심 염색체, 이 경우 시퀀싱 진행에서 태그의 총 수에 의해 표준화된 염색체 2에 대한 서열 태그의 수를 이용한다. 이러한 접근법의 과제는 각각의 염색체에 대한 태그의 분포가 시퀀싱 진행간에 변화될 수 있으므로, 이수성 결정 메트릭의 전체 변이를 증가시킨다는 것이다. Chiu 알고리듬의 결과를 본 실시예에 이용된 염색체 용량과 비교하기 위해, 염색체 21 및 18에 대한 시험 데이터를 도 14에 도시된 대로 Chiu 등에 의해 권고된 방법을 이용하여 재분석하였다. 전반적으로, 염색체 21 및 18 각각에 대한 NCV의 범위에서의 축소가 관찰되었을 뿐 아니라 10/13 T21 및 5/8 T18 샘플에 대해 결정률에서의 감소가 이수성 분류를 위해 4.0의 NCV 역치를 활용한 본 발명자들의 시험 세트로부터 정확하게 확인되었다.
Ehrich 등은 또한 T21에만 초점을 맞추어 Chiu 등과 동일한 알고리듬을 이용하였다 (Ehrich et al., Am J Obstet Gynecol 204:205 e1-e11 [2011]). 또한, 외부 참조 데이터, 즉 트레이닝 세트로부터 이들의 시험 세트 z-점수 메트릭의 변화를 관찰한 후에, 이들은 시험 세트에 대해 재트레이닝되어 분류 경계를 확립하였다. 이러한 접근법은 원칙적으로는 실현 가능하지만, 실제로 얼마나 많은 샘플이 트레이닝에 요구되는지 그리고 분류 경계가 정확한 지를 확인하기 위해 얼마나 자주 리트레이닝이 필요한 지를 결정해야 하는 과제가 부과될 것이다. 이러한 문제를 가라앉히는 한 가지 방법은 기준선을 측정하고 정량적 거동에 대한 눈금을 조정하는 제어를 매 시퀀싱 진행마다 포함시키는 것이다.
본 방법을 이용하여 얻어진 데이터는 염색체 계수 데이터를 표준화하기 위한 알고리듬이 최적화될 때 대량 병렬 시퀀싱이 임신한 여성의 혈장으로부터 다수의 태아 염색체 이상을 결정할 수 있음을 나타낸다. 정량을 위한 본 방법은 시퀀싱 진행간 임의의 그리고 고의의 변이를 최소화할 뿐 아니라 전체 유전체, 가장 현저하게는 T21 및 T18에 걸쳐 이수성의 효과적인 분류를 가능하게 한다. T13 결정을 위한 알고리듬을 시험하기 위해 더 큰 샘플 수집물이 요구된다. 이를 위해, 본 방법의 진단 정확도를 추가로 입증하기 위한 전향적, 비공개, 다지역 임상 연구가 수행되고 있다.
실시예 7
개개 시험 샘플의 모든 염색체에서 5개 이상의 상이한 염색체 이수성의 존재 또는 부재의 결정
모체 시험 샘플의 세트 각각에서 임의의 염색체 이수성의 존재 또는 부재를 결정하기 위한 방법의 가능성을 입증하기 위해 (시험 세트 1; 실시예 6), 체계적으로 결정된 표준화 염색체 서열을 트레이닝 세트의 변질되지 않은 샘플에서 확인하였고 (트레이닝 세트 1; 실시예 6), 이를 이용하여 각각의 시험 샘플에서 모든 염색체에 대한 염색체 용량을 산출하였다. 각각의 시험 및 트레이닝 세트 샘플에서 임의의 하나 이상의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재의 결정은 각각의 개별적인 샘플에 대한 단일 시퀀싱 진행으로부터 수득된 시퀀싱 정보로부터 확립되었다.
염색체 밀도, 즉 실시예 6에 기재된 트레이닝 세트의 각각의 샘플 중 각각의 염색체에 대해 확인된 서열 태그의 수를 이용하여, 염색체 1-22, X 및 Y 각각에 대한 단일 염색체 용량을 산출함에 의해 단일 염색체 또는 염색체의 그룹으로 구성된 체계적으로 결정된 표준화 염색체 서열을 결정하였다. 각각의 염색체 1-22, X, 및 Y에 대해 체계적으로 결정된 표준화 염색체 서열은 염색체의 모든 가능한 조합을 분자로서 이용하여 각각의 염색체에 대한 염색체 용량을 체계적으로 산출함에 의해 결정되었다. 예를 들어, 관심 염색체로서 염색체 21의 경우, 염색체 용량은 (i) 염색체 21(관심 염색체)에 대해 수득된 서열 태그의 수 및 (ii) 남아 있는 염색체 각각에 대해 수득된 서열 태그의 수의 비로서 산출되었고, 태그 수의 합계는, 모든 염색체 1-20, 22, X 및 Y의 모든 가능한 조합이 트레이닝 세트의 적격 (이수성) 샘플 각각에서 각각의 관심 염색체에 대해 모든 가능한 염색체 용량을 결정하기 위한 표준화 염색체 서열 (분자)로서 이용되도록, 남아 있는 염색체 (염색체 21 제외)의 모든 가능한 조합, 즉 1, 2, 3, 4, 5, 등에서 20까지, 21, 22, X, 및 Y; 1+2, 1+3, 1+4, 1+5 등에서 1+20까지, 1+22, 1+X, 및 1+Y;, 1+2+3, 1+2+4, 1+2+5 등에서 1+2+20까지, 1+2+22, 1+2+X, 및 1+2+Y; 1+3+4, 1+3+5, 1+3+6 등에서 1+3+20까지, 1+3+22, 1+3+X, 및 1+3+Y; 1+2+3+4, 1+2+3+5, 1+2+3+6 등에서 1+2+3+20까지, 1+2+3+22, 1+2+3+X, 및 1+2+3+Y 등에 대해 수득되었다. 염색체 용량은 모든 트레이닝 샘플에서 염색체 21과 동일한 방식으로 결정되었고, 염색체 21에 대해 체계적으로 결정된 표준화 염색체 서열은 단일 염색체 또는 염색체의 그룹으로서 결정되어 모든 트레이닝 샘플에 걸쳐 가장 작은 가변성을 갖는 염색체 21에 대한 용량을 생성하였다. 염색체 13, 18, X 및 Y를 포함하는 남아 있는 염색체 각각에 대해 체계적으로 결정된 표준화 염색체 서열로서 기능할 단일 염색체 또는 염색체의 조합을 결정하기 위해 동일한 분석을 반복하였고, 즉 염색체의 모든 가능한 조합이 모든 트레이닝 샘플에서 모든 그밖의 관심 염색체 1-12, 14-17, 19-20, 22, X 및 Y에 대한 표준화 서열을 결정하기 위해 이용되었다 (단일 염색체 또는 염색체의 그룹). 따라서, 모든 염색체는 관심 염색체로서 처리되었고, 체계적으로 결정된 표준화 서열은 트레이닝 세트에 있는 변질되지 않은 샘플 각각에서 모든 염색체 각각에 대해 결정되었다. 표 13은 관심 염색체 1-22, X, 및 Y 각각에 대해 체계적으로 결정된 표준화 서열로서 확인된 단일 염색체 또는 염색체의 그룹을 제공한다. 표 13에서 강조된 대로, 일부 관심 염색체의 경우, 체계적으로 결정된 표준화 염색체 서열은 단일 염색체인 것으로 결정되었고 (예컨대, 염색체 4가 관심 염색체일 때), 다른 관심 염색체의 경우, 체계적으로 결정된 표준화 염색체 서열은 염색체의 그룹인 것으로 결정되었다 (예컨대, 염색체 21이 관심 염색체일 때).
표 13
모든 염색체에 대해 체계적으로 결정된 표준화 염색체 서열
Figure pct00043
모든 염색체 각각에 대해 결정된 체계적으로 결정된 표준화 염색체 서열에 대한 평균, 표준 편차 (SD) 및 변이 계수 (CV)를 표 14에 제공한다.
표 14
모든 체계적으로 결정된 표준화 염색체 서열에 대한 평균, 표준 편차 및 변이 계수
Figure pct00044
a삼염색체 제외
b여아
CV의 값에 의해 반영된 모든 트레이닝 샘플에 걸쳐 염색체 용량에서의 변이는 큰 신호-대-잡음 비 및 다이나믹 레인지(dynamic range)를 제공하기 위한 체계적으로 결정된 표준화 염색체 서열의 용도를 입증하는데, 이는 하기에 제시된 대로, 이수성의 결정이 높은 민감성과 높은 특이성을 지니며 수행되게 한다.
상기 방법의 민감성 및 특이성을 입증하기 위해, 모든 관심 염색체 1-22, X 및 Y에 대한 염색체 용량을 트레이닝 세트의 각각의 샘플에서 결정하였고, 상기 표 13에 제공된 상응하는 체계적으로 결정된 표준화 염색체 서열을 이용하여 실시예 5에 기재된 시험 세트의 모든 샘플 각각에서 결정하였다.
각각의 관심 염색체에 대한 체계적으로 결정된 표준화 염색체 서열을 이용하여, 어떠한 염색체 이수성의 존재 또는 부재를 트레이닝 세트의 각각의 샘플 및 시험 샘플 각각에서 결정하였고, 즉 각각의 샘플이 염색체 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, X, 및 Y의 완전한 태아 염색체 이수성을 함유하는 지를 결정하였다. 서열 정보, 즉 서열 태그의 수를 트레이닝 세트의 각각의 샘플, 및 각각의 시험 샘플에 있는 모든 염색체에 대해 수득하였고, 각각의 트레이닝 및 시험 샘플에서 염색체 각각에 대한 단일 염색체 용량을 트레이닝 세트에서 결정된 것에 상응하는 체계적으로 결정된 표준화 염색체 서열에 대해 수득된 서열 태그의 수를 이용하여 상기 기재된 대로 산출하였다 (표 13). 체계적으로 결정된 표준화 염색체 서열에 대해 각각의 트레이닝 샘플에서 수득된 서열 태그의 수를 이용하여 각각의 트레이닝 샘플에 있는 각각의 염색체에 대한 염색체 용량을 결정하였고, 체계적으로 결정된 표준화 염색체 서열에 대해 각각의 시험 샘플에서 수득된 서열 태그의 수를 이용하여 각각의 시험 샘플에 대해 각각의 염색체에 대한 염색체 용량을 결정하였다. 이수성의 안전하고 효과적인 분류를 확보하기 위해, 실시예 6에 기재된 대로 동일한 보존 경계를 선택하였다.
트레이닝 세트 결과
체계적으로 결정된 표준화 염색체 서열을 이용한 샘플의 트레이닝 세트에서 염색체 21, 18 및 13에 대한 염색체 용량의 플롯을 도 15에 제공한다. 체계적으로 결정된 표준화 염색체 서열, 즉 염색체 4+14+16+20+22의 그룹을 이용할 때, T21을 나타내는 임상적 핵형을 지닌 8개 샘플은 5.4 내지 21.5의 NCV를 지녔다. 체계적으로 결정된 표준화 염색체 서열, 즉 염색체 2+3+5+7의 그룹을 이용할 때, T18을 나타내는 임상적 핵형을 지닌 4개 샘플은 3.3 내지 15.3의 NCV를 지녔다. 체계적으로 결정된 표준화 염색체 서열, 즉 염색체 4+5의 그룹을 이용할 때, T13을 나타내는 임상적 핵형을 지닌 2개 샘플은 8.0 내지 12.4의 NCV를 지녔다. 트레이닝 세트의 T21 샘플은 염색체 21 데이터 (○)의 마지막 8개 샘플로서 표시되고; 트레이닝 세트의 T18 샘플은 염색체 18 데이터 (△)의 마지막 4개 샘플로서 표시되며; 트레이닝 세트의 T13 샘플은 염색체 13 데이터 (□)의 마지막 2개 샘플로서 표시된다.
이러한 데이터는 표준화 염색체 서열이 상이한 완전한 태아 염색체 이수성을 큰 신뢰도로 결정하고 정확하게 분류하는데 이용될 수 있음을 나타낸다. 변질된 핵형을 지닌 모든 샘플이 3보다 큰 NCV를 지녔으므로, 이러한 샘플이 변질되지 않은 분포의 일부일 가능성은 약 0.1%보다 낮다.
보통염색체와 유사하게, 체계적으로 결정된 표준화 염색체 서열 (즉, 염색체 4+8의 그룹)을 염색체 X에 대해 이용하고, 체계적으로 결정된 표준화 염색체 서열 (즉, 염색체 4+6의 그룹)을 염색체 Y에 대해 이용하는 경우, 트레이닝 세트에 있는 모든 남아 및 여아가 정확하게 확인되었다. 추가로, X 홑염색체 샘플의 5개 모두가 확인되었다. 도 18a는 트레이닝 세트의 샘플 각각에 대해 X 염색체에 대해 결정된 NCV (X-축) 및 Y 염색체에 대해 결정된 NCV (Y-축)의 플롯을 도시한다. 핵형이 X 홑염색체인 모든 샘플은 -4.83 미만의 NCV 값을 지닌다. 45,X 핵형 (완전 또는 모자이크)에 일치하는 핵형을 지닌 X 홑염색체 샘플은 예상한 대로 0에 가까운 Y NCV 값을 지닌다. 여성 샘플은 X 및 Y 두 경우 모두에 NCV = 0 주위에 밀집된다.
시험 세트 결과
체계적으로 결정된 관련 표준화 염색체 서열을 이용한 시험 샘플에서 염색체 21, 18 및 13에 대한 염색체 용량의 플롯을 도 16에 제공한다. 체계적으로 결정된 표준화 염색체 서열 (즉 염색체 4+14+16+20+22의 그룹)을 이용할 때, T21을 나타내는 임상적 핵형을 지닌 13개 샘플 중 13개는 7.2 내지 16.3의 NCV를 지니는 것이 정확하게 확인되었다. 체계적으로 결정된 표준화 염색체 서열 (즉 염색체 2+3+5+7의 그룹)을 이용할 때, T18을 나타내는 임상적 핵형을 지닌 8개 샘플 모두는 12.7 내지 30.7의 NCV를 지니는 것으로 확인되었다. 체계적으로 결정된 표준화 염색체 서열 (즉 염색체 4+5의 그룹)을 이용할 때, T13을 나타내는 임상적 핵형을 지닌 단 하나의 샘플은 8.6의 NCV를 지니는 것이 정확하게 확인되었다. 시험 세트의 T21 샘플은 염색체 21 데이터 (○)의 마지막 13개 샘플로서 표시되고; 시험 세트의 T18 샘플은 염색체 18 데이터 (△)의 마지막 8개 샘플로서 표시되며; 시험 세트의 T13 샘플은 염색체 13 데이터 (□)의 마지막 샘플로서 표시된다.
이러한 데이터는 체계적으로 결정된 표준화 염색체 서열이 상이한 완전한 태아 염색체 이수성을 큰 신뢰도로 결정하고 정확하게 분류하는데 이용될 수 있음을 나타낸다. 트레이닝 세트와 유사하게, 변질된 핵형을 지닌 모든 샘플은 7보다 큰 NCV를 지녔는데, 이는 이러한 샘플이 변질되지 않은 분포의 일부일 가능성이 극히 적음을 나타낸다 (도 16).
보통염색체와 유사하게, 체계적으로 결정된 표준화 염색체 서열 (즉, 염색체 4+8의 그룹)을 염색체 X에 대해 이용하고, 체계적으로 결정된 표준화 염색체 서열 (즉, 염색체 4+6의 그룹)을 염색체 Y에 대해 이용하는 경우, 트레이닝 세트에 있는 모든 남아 및 여아가 정확하게 확인되었다. 추가로, X 홑염색체 샘플의 3개 모두가 확인되었다. 도 18b는 시험 세트의 샘플 각각에 대해 X 염색체에 대해 결정된 NCV (X-축) 및 Y 염색체에 대해 결정된 NCV (Y-축)의 플롯을 도시한다.
상기 기재된 대로, 본 방법은 각각의 샘플에서 염색체 1-22, X, 및 Y 각각의 완전한 또는 부분적인 염색체 이수성의 존재 또는 부재를 결정할 수 있게 한다. 완전한 염색체 이수성 T13, T18, T21, 및 X 홑염색체를 결정하는 것에 추가하여, 상기 방법은 시험 샘플 중 하나에서 염색체 9의 삼염색체증의 존재를 결정하였다. 관심 염색체 9에 대해, 체계적으로 결정된 표준화 염색체 서열 (즉, 염색체 3+4+8+10+17+19+20+22의 그룹)을 이용하여, NCV가 14.4인 샘플을 확인하였다 (도 17). 이러한 샘플은 염색체 21에 대한 비정상적으로 낮은 용량의 계산 후에 염색체 9에 대해 이수성일 것으로 여겨졌던 실시예 6의 시험 샘플에 해당하였다 (이를 위해 염색체 9는 실시예 6에서 표준화 염색체 서열로서 이용되었다).
상기 데이터는 T21, T13 T18, T9 및 X 홑염색체를 나타내는 임상적 핵형을 갖는 샘플의 100%가 정확하게 확인되었음을 나타낸다. 도 19는 47개의 시험 샘플 각각에서 염색체 1-22 각각에 대한 NCV의 플롯을 도시한다. NCV의 중간값을 0으로 표준화하였다. 상기 데이터는 본 발명의 방법이 (체계적으로 결정된 표준화 염색체 서열의 이용 포함) 이러한 시험 세트에 존재하는 5개 유형 모두의 염색체 이수성을 100%의 민감성 및 100%의 특이성으로 결정하였음을 나타내며, 상기 방법이 임의의 샘플에서 염색체 1-22, X, 및 Y 중 어느 하나에 대한 임의의 완전한 염색체 이수성을 확인할 수 있음을 명확하게 나타낸다.
실시예 8
부분적인 태아 염색체 이수성의 존재 또는 부재의 결정: 묘안 증후군( Cat eye syndrome )의 결정
염색체 22의 결함에 의해 야기되는 질병인 디죠오지 증후군(DiGeorge syndrome)(22q11.2 결실 증후군)은 여러 신체 시스템의 불충분한 발달을 발생시킨다. 디죠오지 증후군과 보통 관련되는 의학적 문제는 심장 결함, 불충분한 면역계 기능, 구개열, 부갑상샘의 불충분한 기능 및 행동 장애를 포함한다. 디죠오지 증후군과 관련된 문제의 수 및 중증도는 대단히 다양하다. 디죠오지 증후군을 지닌 거의 모든 사람은 다양한 분야에 있는 전문가의 치료가 필요하다.
태아 염색체 22의 부분적인 결실의 존재 또는 부재를 결정하기 위해, 혈액 샘플을 모체에 대한 정맥천자에 의해 수득하고, 상기 실시예에 기재된 대로 cfDNA를 제조한다. 정제된 cfDNA를 어댑터에 라이게이션시키고 Illumina cBot 클러스터 스테이션을 이용하여 클러스터 증폭시켰다. 가역적 염료 종결자를 이용한 대량 병렬 시퀀싱을 수행하여 수 백만개의 36bp 리드를 생성한다. 서열 리드를 인간 hg19 참조 유전체에 대해 정렬시키고, 참조 유전체에 대해 유일하게 맵핑된 리드를 태그로서 계수한다.
염색체 22에 대해 이배체인 것으로 모두 알려져 있고, 즉 염색체 22 또는 이의 임의의 부분이 이배체 상태로만 존재한다고 알려진 적격 샘플의 세트를 먼저 시퀀싱하고, 분석하여 3 메가베이스 (Mb)의 1000개 세그먼트 각각에 대해 다수의 서열 태그를 수득하였다 (영역 22q11.2 제외). 인간 유전체가 약 30억 개의 염기 (3Gb)를 포함한다고 가정하면, 3 Mb의 1000개 세그먼트는 각각 대략적으로 유전체의 나머지로 구성된다. 1000개의 세그먼트 각각은 개별적으로 또는 관심 세그먼트, 즉 22q11.2의 3Mb 영역에 대한 표준화 세그먼트 서열을 결정하기 위해 이용된 세그먼트 서열의 그룹으로 기능할 수 있다. 모든 단일 1000bp 세그먼트에 대해 맵핑된 서열 태그의 수를 개별적으로 이용하여 22q11.2의 3Mb 영역에 대한 세그먼트 용량을 계산한다. 추가로, 2개 이상의 세그먼트의 모든 가능한 조합을 이용하여 모든 적격 샘플에서 관심 세그먼트에 대한 세그먼트 용량을 결정한다. 샘플에 걸쳐 가장 작은 가변성을 지닌 세그먼트 용량을 발생시키는 단일 3Mb 세그먼트 또는 2개 이상의 3Mb 세그먼트의 조합을 표준화 세그먼트 서열로서 선택한다.
각각의 적격 샘플에서 관심 세그먼트에 대해 맵핑된 서열 태그의 수를 이용하여 적격 샘플 각각에서 세그먼트 용량을 결정한다. 모든 적격 샘플에서 세그먼트 용량의 평균 및 표준 편차를 산출하고, 이를 이용하여 시험 샘플에서 결정된 세그먼트 용량이 비교될 수 있는 역치를 설정한다. 바람직하게는, 표준화 세그먼트 값 (NSV)을 모든 적격 샘플에서 모든 관심 세그먼트에 대해 산출하고, 이를 이용하여 역치를 설정한다.
후속하여, 상응하는 시험 샘플에서 표준화 세그먼트 서열에 대해 맵핑된 태그의 수를 이용하여 시험 샘플에서 관심 세그먼트의 용량을 결정한다. 표준화 세그먼트 값 (NSV)을 앞서 기재한 대로 시험 샘플에서의 세그먼트에 대해 산출하고, 시험 샘플의 관심 세그먼트의 NCV를 적격 샘플을 이용하여 결정된 역치와 비교하여 시험 샘플에서 22q11.2의 결실의 존재 또는 부재를 결정한다.
시험 NCV < -3이라는 것은 관심 세그먼트에서의 손실, 즉 염색체 22의 부분적인 결실 (22q11.2)이 시험 샘플에 존재함을 나타낸다.
실시예 9
II 기 결장직장암 환자에 대해 결과를 예측하기 위한 대변 DNA 시험
모든 II기 결장암 환자의 약 30%는 재발할 것이고 그 질병으로 인해 사망할 것이다. 질병이 재발한 II기 결장암 환자는 염색체 4, 5, 15q, 17q 및 18q에 대한 현저하게 많은 손실을 나타내었다. 특히, II기 결장암 환자에서 4q22.1-4q35.2에 대한 손실은 보다 악화된 결과와 관련된 것으로 나타났다. 이러한 유전체 변경의 존재 또는 부재의 결정은 애쥬번트 요법을 위해 환자를 선택하는데 도움이 될 수 있다 (Brosens et al., Analytical Cellular Pathology/Cellular Oncology 33: 95?104 [2010]).
II기 결장직장암을 지닌 환자에서 4q22.1 내지 4q35.2 영역에서의 하나 이상의 염색체 결실의 존재 또는 부재를 결정하기 위해, 대변 및/또는 혈장 샘플을 환자(들)로부터 수득한다. 대변 DNA를 문헌[Chen et al., J Natl Cancer Inst 97:1124-1132 [2005]]에 기재된 방법에 따라 제조하고; 혈장 DNA를 상기 실시예에 기재된 방법에 따라 제조한다. DNA를 본원에 기재된 NGS 방법에 따라 시퀀싱하고, 환자(들) 샘플(들)에 대한 서열 정보를 이용하여 4q22.1 내지 4q35.2 영역에 걸쳐 있는 하나 이상의 세그먼트에 대한 세그먼트 용량을 산출한다. 세그먼트 용량은 각각 적격 대변 및/또는 혈장 샘플의 세트에서 선험적으로 결정된 표준화 세그먼트 서열을 이용하여 결정된다. 시험 샘플 (환자 샘플)에서 세그먼트 용량을 산출하고, 관심 세그먼트 각각에 대한 NSV를 적격 샘플의 세트에서 NSV로부터의 역치 세트와 비교함에 의해 4q22.1 내지 4q35.2 영역 내에서 하나 이상의 부분적인 염색체 결실의 존재 또는 부재를 결정한다.
본 발명의 바람직한 구체예가 본원에 제시되고 기재되었으나, 이러한 구체예는 단지 예로서 제공된 것임이 당업자에게 명백할 것이다. 다수의 변형, 변화, 및 치환이 이제 본 발명을 벗어나지 않으며 당업자에게 일어날 것이다. 본원에 기재된 본 발명의 구체예에 대한 다양한 대안이 본 발명의 실시에 이용될 수 있음을 이해하여야 한다. 하기 청구범위는 본 발명의 범위를 정의하고 이러한 청구범위 및 그 동등물의 범위에 있는 방법 및 구조는 거기에 포함될 것이 의도된다.

Claims (32)

  1. 태아 및 모체 핵산을 포함하는 모체 시험 샘플에서 어떠한 네 개 이상의 상이한 완전한 태아 염색체 이수성(aneuploidy)의 존재 또는 부재를 결정하는 방법으로서, 상기 방법이,
    (a) 상기 샘플 중 상기 태아 및 모체 핵산에 대한 서열 정보를 수득하고;
    (b) 상기 서열 정보를 이용하여 염색체 1-22, X 및 Y로부터 선택된 어떠한 네 개 이상의 관심 염색체 각각에 대해 다수의 서열 태그(tag)를 확인하고 상기 어떠한 네 개 이상의 관심 염색체 각각에 대한 표준화 염색체 서열에 대해 다수의 서열 태그를 확인하며;
    (c) 상기 어떠한 네 개 이상의 관심 염색체 각각에 대해 확인된 상기 서열 태그의 수 및 각각의 상기 표준화 염색체 서열에 대해 확인된 상기 서열 태그의 수를 이용하여 상기 어떠한 네 개 이상의 관심 염색체 각각에 대한 단일 염색체 용량을 계산하고;
    (d) 상기 어떠한 네 개 이상의 관심 염색체 각각에 대한 상기 단일 염색체 용량 각각을 상기 네 개 이상의 관심 염색체 각각에 대한 역치와 비교함으로써, 상기 샘플 중 어떠한 네 개 이상의 완전한 상이한 태아 염색체 이수성의 존재 또는 부재를 결정하는 것을 포함하는 방법.
  2. 제 1항에 있어서, 단계 (c)가 상기 관심 염색체 각각에 대한 단일 염색체 용량을 상기 관심 염색체 각각에 대해 확인된 서열 태그의 수 및 상기 관심 염색체 각각에 대한 상기 표준화 염색체 서열에 대해 확인된 서열 태그의 수의 비로서 계산하는 것을 포함하는 방법.
  3. 제 1항 또는 제 2항에 있어서, 단계 (c)가,
    (i) 상기 단계 (b)에서 상기 관심 염색체 각각에 대해 확인된 서열 태그의 수를 상기 관심 염색체 각각의 길이와 관련시킴에 의해, 상기 관심 염색체 각각에 대한 서열 태그 밀도 비를 계산하고;
    (ii) 상기 단계 (b)에서 상기 표준화 염색체 서열에 대해 확인된 서열 태그의 수를 각각의 상기 표준화 염색체의 길이와 관련시켜 각각의 상기 표준화 염색체에 대한 서열 태그 밀도 비를 계산하고; (iii) 상기 단계 (i) 및 (ii)에서 계산된 서열 태그 밀도 비를 이용하여 상기 관심 염색체 각각에 대한 단일 염색체 용량을 계산하는 것을 포함하고, 상기 염색체 용량이 상기 관심 염색체 각각에 대한 서열 태그 밀도 비 및 상기 관심 염색체 각각에 대한 상기 표준화 염색체 서열에 대한 서열 태그 밀도 비의 비율로서 계산되는 방법.
  4. 제 1항 내지 제 3항 중 어느 한 항에 있어서, 염색체 1-22, X, 및 Y로부터 선택된 상기 어떠한 네 개 이상의 관심 염색체가 염색체 1-22, X, 및 Y로부터 선택된 적어도 20개의 염색체를 포함하고, 적어도 20개의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재가 결정되는 방법.
  5. 제 1항 내지 제 3항 중 어느 한 항에 있어서, 염색체 1-22, X, 및 Y로부터 선택된 상기 어떠한 네 개 이상의 관심 염색체가 모든 염색체 1-22, X, 및 Y이고, 모든 염색체 1-22, X, 및 Y의 완전한 태아 염색체 이수성의 존재 또는 부재가 결정되는 방법.
  6. 제 1항 내지 제 5항 중 어느 한 항에 있어서, 상기 표준화 염색체 서열이 염색체 1-22, X, 및 Y로부터 선택된 단일 염색체인 방법.
  7. 제 1항 내지 제 5항 중 어느 한 항에 있어서, 상기 표준화 염색체 서열이 염색체 1-22, X, 및 Y로부터 선택된 염색체의 그룹인 방법.
  8. 태아 및 모체 핵산을 포함하는 모체 시험 샘플에서 어떠한 하나 이상의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재를 결정하는 방법으로서, 상기 방법이,
    (a) 상기 샘플 중 상기 태아 및 모체 핵산에 대한 서열 정보를 수득하고;
    (b) 상기 서열 정보를 이용하여 염색체 1-22, X 및 Y로부터 선택된 어떠한 하나 이상의 관심 염색체 각각에 대해 다수의 서열 태그를 확인하고 상기 어떠한 하나 이상의 관심 염색체 각각에 대한 표준화 세그먼트 서열에 대해 다수의 서열 태그를 확인하며;
    (c) 상기 어떠한 하나 이상의 관심 염색체 각각에 대해 확인된 상기 서열 태그의 수 및 상기 표준화 세그먼트 서열에 대해 확인된 상기 서열 태그의 수를 이용하여 상기 어떠한 하나 이상의 관심 염색체 각각에 대한 단일 염색체 용량을 계산하고;
    (d) 상기 어떠한 하나 이상의 관심 염색체 각각에 대한 상기 단일 염색체 용량 각각을 상기 하나 이상의 관심 염색체 각각에 대한 역치와 비교함으로써, 상기 샘플 중 하나 이상의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재를 결정하는 것을 포함하는, 방법.
  9. 제 8항에 있어서, 단계 (c)가 상기 관심 염색체 각각에 대한 단일 염색체 용량을 상기 관심 염색체 각각에 대해 확인된 서열 태그의 수 및 상기 관심 염색체 각각에 대한 상기 표준화 세그먼트 서열에 대해 확인된 서열 태그의 수의 비로서 계산하는 것을 포함하는 방법.
  10. 제 8항 또는 제 9항에 있어서, 염색체 1-22, X, 및 Y로부터 선택된 상기 어떠한 하나 이상의 관심 염색체가 염색체 1-22, X, 및 Y로부터 선택된 적어도 20개의 염색체를 포함하고, 적어도 20개의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재가 결정되는 방법.
  11. 제 8항 또는 제 9항에 있어서, 염색체 1-22, X, 및 Y로부터 선택된 상기 어떠한 하나 이상의 관심 염색체가 모든 염색체 1-22, X, 및 Y이고, 모든 염색체 1-22, X, 및 Y의 완전한 태아 염색체 이수성의 존재 또는 부재가 결정되는 방법.
  12. 제 1항 내지 제 11항 중 어느 한 항에 있어서, 상기 상이한 완전한 염색체 이수성이 완전한 염색체의 삼염색체, 완전한 염색체의 홑염색체 및 완전한 염색체의 뭇염색체로부터 선택되는 방법.
  13. 제 1항 내지 제 12항 중 어느 한 항에 있어서, 상기 상이한 완전한 태아 염색체 이수성이 2번 삼염색체증, 8번 삼염색체증, 9번 삼염색체증, 21번 삼염색체증, 13번 삼염색체증, 16번 삼염색체증, 18번 삼염색체증, 22번 삼염색체증, 47,XXY, 47,XXX, 47,XYY, 및 X 홑염색체로부터 선택되는 방법.
  14. 제 1항 내지 제 13항 중 어느 한 항에 있어서, 단계 (a)-(d)가 상이한 모체 피검체로부터의 시험 샘플에 대해 반복되고, 상기 방법이 상기 샘플 각각에서 어떠한 네 개 이상의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재를 결정하는 것을 포함하는 방법.
  15. 제 1항 내지 제 14항 중 어느 한 항에 있어서, 표준화 염색체 값 (NCV)을 계산하는 것을 추가로 포함하고, 상기 NCV가 하기와 같이 상기 염색체 용량을 적격 샘플의 세트에서 상응하는 염색체 용량의 평균에 관련시키는 방법:
    Figure pct00045

    상기 식에서,
    Figure pct00046
    Figure pct00047
    는 적격 샘플의 세트에서 j번째 염색체 용량에 대한 각기 추정 평균 및 표준 편차이고,
    Figure pct00048
    는 시험 샘플 i에 대해 관찰된 j번째 염색체 용량이다.
  16. 태아 및 모체 핵산을 포함하는 모체 시험 샘플에서 상이한 부분적인 태아 염색체 이수성의 존재 또는 부재를 결정하는 방법으로서, 상기 방법이,
    (a) 상기 샘플 중 상기 태아 및 모체 핵산에 대한 서열 정보를 수득하고;
    (b) 상기 서열 정보를 이용하여 염색체 1-22, X 및 Y로부터 선택된 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대해 다수의 서열 태그를 확인하고 상기 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대한 표준화 세그먼트 서열에 대해 다수의 서열 태그를 확인하며;
    (c) 상기 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대해 확인된 상기 서열 태그의 수 및 상기 표준화 세그먼트 서열에 대해 확인된 상기 서열 태그의 수를 이용하여 상기 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대한 단일 세그먼트 용량을 계산하고;
    (d) 상기 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대한 상기 단일 세그먼트 용량 각각을 상기 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 염색체 세그먼트 각각에 대한 역치와 비교함으로써, 상기 샘플 중 하나 이상의 상이한 부분적인 태아 염색체 이수성의 존재 또는 부재를 결정하는 것을 포함하는 방법.
  17. 제 16항에 있어서, 단계 (c)가 상기 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대한 단일 세그먼트 용량을 상기 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대해 확인된 서열 태그의 수 및 상기 어떠한 하나 이상의 관심 염색체의 임의의 하나 이상의 세그먼트 각각에 대한 상기 표준화 세그먼트 서열에 대해 확인된 서열 태그의 수의 비로서 계산하는 것을 포함하는 방법.
  18. 제 16항 또는 제 17항에 있어서, 표준화 세그먼트 값 (NSV)을 계산하는 것을 추가로 포함하고, 상기 NSV가 하기와 같이 상기 세그먼트 용량을 적격 샘플의 세트에서 상응하는 세그먼트 용량의 평균에 관련시키는 방법:
    Figure pct00049

    상기 식에서,
    Figure pct00050
    Figure pct00051
    는 적격 샘플의 세트에서 j번째 세그먼트 용량에 대한 각기 추정 평균 및 표준 편차이고,
    Figure pct00052
    는 시험 샘플 i에 대해 관찰된 j번째 세그먼트 용량이다.
  19. 제 8항 내지 제 18항 중 어느 한 항에 있어서, 상기 표준화 세그먼트 서열이 염색체 1-22, X, 및 Y 중 어느 하나 이상의 단일 세그먼트인 방법.
  20. 제 8항 내지 제 18항 중 어느 한 항에 있어서, 상기 표준화 세그먼트 서열이 염색체 1-22, X, 및 Y 중 어느 하나 이상의 세그먼트의 그룹인 방법.
  21. 제 16항 내지 제 20항 중 어느 한 항에 있어서, 상기 상이한 부분적인 태아 염색체 이수성이 부분적인 중복, 부분적인 증가, 부분적인 삽입 및 부분적인 결실로부터 선택되는 방법.
  22. 제 16항 내지 제 21항 중 어느 한 항에 있어서, 상기 부분적인 태아 이수성이 염색체 1의 부분적인 홑염색체, 염색체 4의 부분적인 홑염색체, 염색체 5의 부분적인 홑염색체, 염색체 7의 부분적인 홑염색체, 염색체 11의 부분적인 홑염색체, 염색체 15의 부분적인 홑염색체, 염색체 17의 부분적인 홑염색체, 염색체 18의 부분적인 홑염색체, 및 염색체 22의 부분적인 홑염색체로부터 선택되는 방법.
  23. 제 16항 내지 제 22항 중 어느 한 항에 있어서, 단계 (a)-(d)가 상이한 모체 피검체로부터의 시험 샘플에 대해 반복되고, 상기 방법이 상기 샘플 각각에서 상이한 부분적인 태아 염색체 이수성의 존재 또는 부재를 결정하는 것을 포함하는 방법.
  24. 제 1항 내지 제 23항 중 어느 한 항에 있어서, 단계 (a)가 상기 시험 샘플 중 상기 핵산 분자의 적어도 일부를 시퀀싱하여 상기 시험 샘플의 상기 태아 및 모체 핵산 분자에 대한 상기 서열 정보를 수득하는 것을 포함하는 방법.
  25. 제 1항 내지 제 24항 중 어느 한 항에 있어서, 상기 시험 샘플이 혈액, 혈장, 혈청, 소변 및 타액 샘플로부터 선택되는 모체 샘플인 방법.
  26. 제 1항 내지 제 25항 중 어느 한 항에 있어서, 상기 핵산 분자가 태아 및 모체 세포가 없는 DNA 분자의 혼합물인 방법.
  27. 제 1항 내지 제 26항 중 어느 한 항에 있어서, 상기 시퀀싱이 차세대 시퀀싱 (NGS)인 방법.
  28. 제 1항 내지 제 27항 중 어느 한 항에 있어서, 상기 시퀀싱이 가역적 염료 종결자에 의한 합성을 통한 시퀀싱 (sequencing-by-synthesis)을 이용한 대량 병렬 시퀀싱인 방법.
  29. 제 1항 내지 제 28항 중 어느 한 항에 있어서, 상기 시퀀싱이 라이게이션을 통한 시퀀싱(sequencing-by-ligation)인 방법.
  30. 제 1항 내지 제 29항 중 어느 한 항에 있어서, 상기 시퀀싱이 증폭을 포함하는 방법.
  31. 제 1항 내지 제 30항 중 어느 한 항에 있어서, 상기 시퀀싱이 단일 분자 시퀀싱인 방법.
  32. 태아 및 모체 세포가 없는 DNA 분자의 혼합물을 포함하는 모체 혈장 시험 샘플에서 어떠한 20개 이상의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재를 결정하는 방법으로서, 상기 방법이,
    (a) 상기 무세포 DNA 분자의 적어도 일부를 시퀀싱하여 상기 샘플 중 상기 태아 및 모체 세포가 없는 DNA 분자에 대한 서열 정보를 수득하고;
    (b) 상기 서열 정보를 이용하여 염색체 1-22, X, 및 Y로부터 선택된 어떠한 20개 이상의 관심 염색체 각각에 대해 다수의 서열 태그를 확인하고 상기 20개 이상의 관심 염색체 각각에 대한 표준화 염색체에 대해 다수의 서열 태그를 확인하며;
    (c) 상기 20개 이상의 관심 염색체 각각에 대해 확인된 상기 서열 태그의 수 및 각각의 상기 표준화 염색체에 대해 확인된 상기 서열 태그의 수를 이용하여 상기 20개 이상의 관심 염색체 각각에 대한 단일 염색체 용량을 계산하고;
    (d) 상기 20개 이상의 관심 염색체 각각에 대한 상기 단일 염색체 용량 각각을 상기 20개 이상의 관심 염색체 각각에 대한 역치와 비교함으로써, 상기 샘플 중 어떠한 20개 이상의 상이한 완전한 태아 염색체 이수성의 존재 또는 부재를 결정하는 것을 포함하는 방법.
KR1020147002820A 2011-07-26 2011-07-26 샘플 중 상이한 이수성의 존재 또는 부재를 결정하는 방법 KR101974492B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2011/045412 WO2013015793A1 (en) 2011-07-26 2011-07-26 Method for determining the presence or absence of different aneuploidies in a sample

Publications (2)

Publication Number Publication Date
KR20140050032A true KR20140050032A (ko) 2014-04-28
KR101974492B1 KR101974492B1 (ko) 2019-05-02

Family

ID=44838718

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147002820A KR101974492B1 (ko) 2011-07-26 2011-07-26 샘플 중 상이한 이수성의 존재 또는 부재를 결정하는 방법

Country Status (9)

Country Link
EP (1) EP2563937A1 (ko)
JP (1) JP6161607B2 (ko)
KR (1) KR101974492B1 (ko)
CN (1) CN103003447B (ko)
AU (1) AU2011373694A1 (ko)
CA (1) CA2840418C (ko)
GB (1) GB2485635B (ko)
HK (1) HK1174063A1 (ko)
WO (1) WO2013015793A1 (ko)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100112590A1 (en) 2007-07-23 2010-05-06 The Chinese University Of Hong Kong Diagnosing Fetal Chromosomal Aneuploidy Using Genomic Sequencing With Enrichment
US9260745B2 (en) 2010-01-19 2016-02-16 Verinata Health, Inc. Detecting and classifying copy number variation
CA2786565C (en) 2010-01-19 2017-04-25 Verinata Health, Inc. Partition defined detection methods
WO2011090556A1 (en) 2010-01-19 2011-07-28 Verinata Health, Inc. Methods for determining fraction of fetal nucleic acid in maternal samples
US20120100548A1 (en) 2010-10-26 2012-04-26 Verinata Health, Inc. Method for determining copy number variations
US9323888B2 (en) 2010-01-19 2016-04-26 Verinata Health, Inc. Detecting and classifying copy number variation
EP2366031B1 (en) 2010-01-19 2015-01-21 Verinata Health, Inc Sequencing methods in prenatal diagnoses
US10662474B2 (en) 2010-01-19 2020-05-26 Verinata Health, Inc. Identification of polymorphic sequences in mixtures of genomic DNA by whole genome sequencing
US10388403B2 (en) 2010-01-19 2019-08-20 Verinata Health, Inc. Analyzing copy number variation in the detection of cancer
LT3078752T (lt) 2011-04-12 2018-11-26 Verinata Health, Inc. Genomo frakcijų skaidymas, panaudojant polimorfizmo skaičiavimus
WO2014014498A1 (en) * 2012-07-20 2014-01-23 Verinata Health, Inc. Detecting and classifying copy number variation in a fetal genome
US9411937B2 (en) * 2011-04-15 2016-08-09 Verinata Health, Inc. Detecting and classifying copy number variation
US11261494B2 (en) * 2012-06-21 2022-03-01 The Chinese University Of Hong Kong Method of measuring a fractional concentration of tumor DNA
AU2013204536A1 (en) * 2012-07-20 2014-02-06 Verinata Health, Inc. Detecting and classifying copy number variation in a cancer genome
AU2019200162B2 (en) * 2012-07-20 2021-10-07 Verinata Health, Inc. Detecting and classifying copy number variation
EP4001426A1 (en) 2012-08-13 2022-05-25 The Regents of The University of California Methods and systems for detecting biological components
GB201215449D0 (en) * 2012-08-30 2012-10-17 Zoragen Biotechnologies Llp Method of detecting chromosonal abnormalities
EP3663414B1 (en) * 2013-06-13 2023-11-22 Roche Diagnostics GmbH Statistical analysis for non-invasive y chromosome aneuploidy determination
CN105722994B (zh) * 2013-06-17 2020-12-18 维里纳塔健康公司 用于确定性染色体中的拷贝数变异的方法
US20160154931A1 (en) * 2013-07-17 2016-06-02 Bgi Genomics Co., Limited Method and device for detecting chromosomal aneuploidy
WO2015051163A2 (en) * 2013-10-04 2015-04-09 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10741269B2 (en) 2013-10-21 2020-08-11 Verinata Health, Inc. Method for improving the sensitivity of detection in determining copy number variations
WO2015089726A1 (zh) * 2013-12-17 2015-06-25 深圳华大基因科技有限公司 一种染色体非整倍性检测方法及装置
AU2015266665C1 (en) * 2014-05-30 2021-12-23 Verinata Health, Inc. Detecting fetal sub-chromosomal aneuploidies and copy number variations
EP3160654A4 (en) 2014-06-27 2017-11-15 The Regents of The University of California Pcr-activated sorting (pas)
CN106795551B (zh) * 2014-09-26 2020-11-20 深圳华大基因股份有限公司 单细胞染色体的cnv分析方法和检测装置
US10434507B2 (en) 2014-10-22 2019-10-08 The Regents Of The University Of California High definition microdroplet printer
CA2970501C (en) * 2014-12-12 2020-09-15 Verinata Health, Inc. Using cell-free dna fragment size to determine copy number variations
WO2016109452A1 (en) * 2014-12-31 2016-07-07 Guardant Health , Inc. Detection and treatment of disease exhibiting disease cell heterogeneity and systems and methods for communicating test results
US10319463B2 (en) * 2015-01-23 2019-06-11 The Chinese University Of Hong Kong Combined size- and count-based analysis of maternal plasma for detection of fetal subchromosomal aberrations
CN115011670A (zh) 2015-02-04 2022-09-06 加利福尼亚大学董事会 通过在离散实体中条形码化对核酸进行测序
PT3256605T (pt) 2015-02-10 2022-03-17 Univ Hong Kong Chinese Deteção de mutações para rastreio de cancro e análise fetal
CN104745718B (zh) * 2015-04-23 2018-02-16 北京中仪康卫医疗器械有限公司 一种检测人类胚胎染色体微缺失和微重复的方法
US10844428B2 (en) * 2015-04-28 2020-11-24 Illumina, Inc. Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS)
CN108350488A (zh) * 2015-08-17 2018-07-31 加利福尼亚大学董事会 基于微滴的多重置换扩增(mda)方法及相关组合物
CN108603190B (zh) 2015-09-08 2023-05-23 美国冷泉港实验室 使用经破碎的核苷酸的高通量多重测序确定基因拷贝数
EP3374903A4 (en) * 2015-11-12 2019-08-14 Samuel Williams RAPID SEQUENCING OF SHORT DNA FRAGMENTS USING NANOPORA TECHNOLOGY
CN108475301A (zh) * 2015-12-04 2018-08-31 绿十字基因组公司 用于确定包含核酸的混合物的样品中的拷贝数变异的方法
US10095831B2 (en) 2016-02-03 2018-10-09 Verinata Health, Inc. Using cell-free DNA fragment size to determine copy number variations
EP4322168A2 (en) * 2016-07-06 2024-02-14 Guardant Health, Inc. Methods for fragmentome profiling of cell-free nucleic acids
CN110088290A (zh) 2016-08-10 2019-08-02 加利福尼亚大学董事会 在乳液微滴中结合多重置换扩增和pcr
TWI603082B (zh) * 2016-09-30 2017-10-21 有勁生物科技股份有限公司 非侵入式胎兒性徵異常檢測系統及其方法與非侵入式胎兒性徵檢測系統及其方法
EP3571308A4 (en) 2016-12-21 2020-08-19 The Regents of The University of California GENOMIC SEQUENCING OF SINGLE CELLS USING HYDROGEL-BASED DROPS
SG11201906397UA (en) 2017-01-25 2019-08-27 Univ Hong Kong Chinese Diagnostic applications using nucleic acid fragments
US11342047B2 (en) 2017-04-21 2022-05-24 Illumina, Inc. Using cell-free DNA fragment size to detect tumor-associated variant
JP2018183095A (ja) * 2017-04-26 2018-11-22 株式会社エンプラス 胎児由来造血前駆細胞の単離方法、および胎児の染色体異常の可能性を試験する方法
US10501739B2 (en) 2017-10-18 2019-12-10 Mission Bio, Inc. Method, systems and apparatus for single cell analysis
CA3135026A1 (en) * 2019-03-28 2020-10-01 Phase Genomics, Inc. Systems and methods for karyotyping by sequencing

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010033578A2 (en) * 2008-09-20 2010-03-25 The Board Of Trustees Of The Leland Stanford Junior University Noninvasive diagnosis of fetal aneuploidy by sequencing
US20100112590A1 (en) * 2007-07-23 2010-05-06 The Chinese University Of Hong Kong Diagnosing Fetal Chromosomal Aneuploidy Using Genomic Sequencing With Enrichment
KR20100058503A (ko) * 2007-07-23 2010-06-03 더 차이니즈 유니버시티 오브 홍콩 대규모 병렬 게놈 서열분석을 이용한 태아 염색체 이수성의 진단 방법
WO2011051283A1 (en) * 2009-10-26 2011-05-05 Lifecodexx Ag Means and methods for non-invasive diagnosis of chromosomal aneuploidy
US20110177517A1 (en) * 2010-01-19 2011-07-21 Artemis Health, Inc. Partition defined detection methods

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SI2351858T1 (sl) * 2006-02-28 2015-06-30 University Of Louisville Research Foundation Med Center Three, Zaznavanje fetalnih kromosomskih nenormalnosti z uporabo tandema polimorfizmov posameznih nukleotidov
US20080050739A1 (en) * 2006-06-14 2008-02-28 Roland Stoughton Diagnosis of fetal abnormalities using polymorphisms including short tandem repeats
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
CN101889074A (zh) 2007-10-04 2010-11-17 哈尔西恩莫尔丘勒公司 采用电子显微镜对核酸聚合物测序
EP2366031B1 (en) * 2010-01-19 2015-01-21 Verinata Health, Inc Sequencing methods in prenatal diagnoses
US10662474B2 (en) * 2010-01-19 2020-05-26 Verinata Health, Inc. Identification of polymorphic sequences in mixtures of genomic DNA by whole genome sequencing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100112590A1 (en) * 2007-07-23 2010-05-06 The Chinese University Of Hong Kong Diagnosing Fetal Chromosomal Aneuploidy Using Genomic Sequencing With Enrichment
KR20100058503A (ko) * 2007-07-23 2010-06-03 더 차이니즈 유니버시티 오브 홍콩 대규모 병렬 게놈 서열분석을 이용한 태아 염색체 이수성의 진단 방법
WO2010033578A2 (en) * 2008-09-20 2010-03-25 The Board Of Trustees Of The Leland Stanford Junior University Noninvasive diagnosis of fetal aneuploidy by sequencing
WO2011051283A1 (en) * 2009-10-26 2011-05-05 Lifecodexx Ag Means and methods for non-invasive diagnosis of chromosomal aneuploidy
US20110177517A1 (en) * 2010-01-19 2011-07-21 Artemis Health, Inc. Partition defined detection methods

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Bioinformatics, 25(10):1244-1250 (2009) *
Clinical Chemistry, 54(4):461-466 (2008) *
PNAS, 105(42):16266-16271 (2008) *

Also Published As

Publication number Publication date
GB201114713D0 (en) 2011-10-12
CN103003447A (zh) 2013-03-27
JP6161607B2 (ja) 2017-07-12
GB2485635A (en) 2012-05-23
GB2485635B (en) 2012-11-28
CA2840418C (en) 2019-10-29
JP2014521334A (ja) 2014-08-28
AU2011373694A1 (en) 2013-05-02
WO2013015793A1 (en) 2013-01-31
HK1174063A1 (en) 2013-05-31
CN103003447B (zh) 2020-08-25
CA2840418A1 (en) 2013-01-31
KR101974492B1 (ko) 2019-05-02
EP2563937A1 (en) 2013-03-06

Similar Documents

Publication Publication Date Title
KR101974492B1 (ko) 샘플 중 상이한 이수성의 존재 또는 부재를 결정하는 방법
US20220228197A1 (en) Method for determining copy number variations
US20220106639A1 (en) Method for determining copy number variations
US20210082538A1 (en) Normalizing chromosomes for the determination and verification of common and rare chromosomal aneuploidies
EP3543354B1 (en) Method for generating a masked reference sequence of the y chromosome
CN108485940B (zh) 拷贝数变异的检测和分类
US10388403B2 (en) Analyzing copy number variation in the detection of cancer
US20120237928A1 (en) Method for determining copy number variations
WO2014015319A1 (en) System for determining a copy number variation
WO2012141712A1 (en) Normalizing chromosomes for the determination and verification of common and rare chromosomal aneuploidies
AU2018201992A1 (en) Sequencing methods and compositions for prenatal diagnoses
AU2016262641A1 (en) Detecting and classifying copy number variation
AU2015204302B2 (en) Method for determining copy number variations

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant