TWI661049B - 使用不含細胞之dna片段大小以測定複製數變異之方法 - Google Patents

使用不含細胞之dna片段大小以測定複製數變異之方法 Download PDF

Info

Publication number
TWI661049B
TWI661049B TW105142299A TW105142299A TWI661049B TW I661049 B TWI661049 B TW I661049B TW 105142299 A TW105142299 A TW 105142299A TW 105142299 A TW105142299 A TW 105142299A TW I661049 B TWI661049 B TW I661049B
Authority
TW
Taiwan
Prior art keywords
sequence
interval
coverage
chromosome
nucleic acid
Prior art date
Application number
TW105142299A
Other languages
English (en)
Other versions
TW201805429A (zh
Inventor
絲汎 朵安沃
Sven Duenwald
大衛 康史塔克
David A. COMSTOCK
卡特琳 巴柏修魯
Catalin Barbacioru
達雅 屈多娃
Darya I. Chudova
理查 拉瓦
Richard P. Rava
凱西 瓊斯
Keith W. Jones
陳更新
Gengxin Chen
迪密契 司寇索
Dimitri Skvortsov
Original Assignee
美商維利納塔健康公司
Verinata Health, Inc.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商維利納塔健康公司, Verinata Health, Inc. filed Critical 美商維利納塔健康公司
Publication of TW201805429A publication Critical patent/TW201805429A/zh
Application granted granted Critical
Publication of TWI661049B publication Critical patent/TWI661049B/zh

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/16Assays for determining copy number or wherein the copy number is of special importance
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/165Mathematical modelling, e.g. logarithm, ratio
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients

Abstract

本發明揭示用於測定已知或懷疑與多種醫療症狀相關聯的複製數變異(CNV)之方法。在一些實施態樣中,本發明提供使用包含不含母體和胎兒細胞之DNA的母體樣品以測定胎兒之複製數變異之方法。在一些實施態樣中,本發明提供用於測定已知或懷疑與多種醫療症狀相關聯的CNV之方法。本發明所揭示的一些實施態樣提供藉由導出片段大小參數以改進序列數據分析的靈敏度及/或特異性之方法。在一些執行中,使用來自不同大小片段之信息以評估複製數變異。在一些執行中,使用自關注序列之覆蓋率(coverage)信息所獲得的一或多個t檢驗統計值以評估複製數變異。在一些執行中,將一或多個胎兒級分評估值與一或多個t檢驗統計值組合以測定複製數變異。

Description

使用不含細胞之DNA片段大小以測定複製數變異之方法
本發明關於使用不含細胞之DNA片段大小以測定複製數變異之方法。
在人類醫療研究中的關鍵努力之一為發現產生不利的健康後果之基因異常。在許多情況下,已在一部分有異常的複製數存在的基因組中鑑定出特定的基因及/或關鍵診斷標記。例如,在產前診斷中,完整染色體的額外複製或複製遺失經常發生基因病變。完整染色體或染色體片段的複製缺失或倍增,以及基因組之特異性區域的較高程度擴增常見於癌症中。
有關複製數變異(CNV)的大多數信息已藉由允許辨識結構異常之細胞遺傳學分辨率來提供。用於基因篩選及生物劑量測定的常規程序已利用侵入性程序,例如羊膜穿刺術、臍帶引流術或絨毛膜取樣(CVS),以獲得用於核型分析的細胞。意識到對不需要細胞培養的更快速測試 方法之需求而開發出螢光原位雜交(FISH)、定量螢光PCR(QF-PCR)及陣列比較基因組雜交(array-CGH)作為分析複製數變異之分子細胞-遺傳學方法。
在人類醫療研究中的關鍵努力之一為發現產生不利的健康後果之基因異常。在許多情況下,已在一部分有異常的複製數存在的基因組中鑑定出特定的基因及/或關鍵診斷標記。例如,在產前診斷中,完整染色體的額外複製或複製遺失經常發生基因病變。完整染色體或染色體片段的複製缺失或倍增,以及基因組之特異性區域的較高程度擴增常見於癌症中。
有關複製數變異(CNV)的大多數信息已藉由允許辨識結構異常之細胞遺傳學分辨率來提供。用於基因篩選及生物劑量測定的常規程序已利用侵入性程序,例如羊膜穿刺術、臍帶引流術或絨毛膜取樣(CVS),以獲得用於核型分析的細胞。意識到對不需要細胞培養的更快速測試方法之需求而開發出螢光原位雜交(FISH)、定量螢光PCR(QF-PCR)及陣列比較基因組雜交(array-CGH)作為分析複製數變異之分子細胞-遺傳學方法。
容許在相對短的時間內定序整個基因組之技術的出現及循環不含細胞之DNA(cfDNA)的發現提供源自一個欲比較之染色體的基因物質與另一非侵入性取樣方法相關聯之風險的基因物質比較之機會,其提供診斷各種關注之基因序列的複製數變異之工具。
以非侵入性產前診斷之現有方法的限制(包括 由有限的cfDNA含量而造成不足的靈敏度及由基因組信息的固有性質而造成的技術之定序偏差)成為對可提供任何或所有特異性、靈敏度及適用性之非侵入性方法有持續需求的基礎,可信賴地診斷在多種臨床環境中的複製數變化。已顯示在孕婦之血漿中的胎兒cfDNA片段之平均長度比母體cfDNA片段之平均長度短。在本文的執行中利用母體與胎兒cfDNA之間的此差別來測定CNV及/或胎兒級分。本文所揭示之實施態樣滿足一些上述需求。一些實施態樣可以與雙端DNA定序結合的不含PCR之文庫製備(library preparation)來執行。一些實施態樣對非侵入性產前診斷及多種疾病之診斷提供高的靈敏度及特異性。
在一些實施態樣中,提供測定任何胎兒非整倍體(aneuploidy)之複製數變異(CNV)及已知或懷疑與多種醫療症狀相關聯的CNV之方法。可根據本發明之方法測定之CNV包括1至22號、X和Y染色體、其他染色體多倍體(polysomy)中之任一或多者之三倍體(trisomy)及單倍體(monosomy),及染色體中之任一或多者之片段缺失及/或複製。在一些實施態樣中,該方法包含鑑定在測試樣品中關注之核酸序列的CNV,例如臨床相關序列。該方法評定特定的關注序列之複製數變異。
在一些實施態樣中,該方法係以包括一或多個處理器及系統記憶體之電腦系統上執行,以評估在包含 一或多個基因組的核酸之測試樣品中關注之核酸序列的複製數。
本發明的一個態樣關於在包括源自二或多個基因組的不含細胞之核酸片段的測試樣品中關注之核酸序列的複製數變異(CNV)之方法。該方法包括:(a)接收藉由定序測試樣品中不含細胞之核酸片段所獲得的序列讀序;(b)將不含細胞之核酸片段的序列讀序或含有序列讀序之片段與包括關注序列之參考基因組的區間並列,因而提供測試序列標籤,其中參考基因組被區分為複數個區間;(c)測定測試樣品中存在的至少一些不含細胞之核酸片段的片段大小;(d)計算序列標籤對參考基因組之區間的覆蓋率,該計算係藉由對各區間:(i)測定與區間並列之序列標籤的數量,及(ii)藉由計數因複製數變異以外之因子的區間對區間區間對區間(bin-to-bin)變異而使與區間並列之序列標籤數量標準化;(e)使用關注序列中區間之覆蓋率及關注序列之參考區中區間之覆蓋率以測定關注序列之t檢驗統計值(t-statistic);及(f)使用自t檢驗統計值及有關不含細胞之核酸片段大小的信息所計算之概度比以測定關注序列中複製數變異。
在一些執行中,該方法包括進行兩次(d)和(e),以第一大小結構域的片段進行一次且再以第二大小結構域的片段進行一次。在一些執行中,第一大小結構域包括在樣品中實質上所有大小的不含細胞之核酸片段,且第二大小結構域僅包括比限定之大小更小的不含細胞之核酸 片段。在一些執行中,第二大小結構域僅包括比約150bp更小的不含細胞之核酸片段。在一些執行中,使用對第一大小範圍內的片段之序列標籤自關注序列之第一t檢驗統計值及使用對第二大小範圍內的片段之序列標籤自關注序列之第二t檢驗統計值計算概度比。
在一些執行中,概度比經計算為測試樣品為非整倍體樣品之第一概度與測試樣品為整倍體樣品之第二概度的比。
在一些執行中,除了自t檢驗統計值及有關不含細胞之核酸片段大小的信息以外,自一或多個胎兒級分值計算概度比。
在一些執行中,一或多個胎兒級分值包括使用有關不含細胞之核酸片段大小的信息所計算之胎兒級分值。在一些執行中,胎兒級分值係藉由下述計算:獲得片段大小的頻率分布;及將頻率分布應用於胎兒級分與片段大小頻率相關的模式以獲得胎兒級分值。在一些執行中,胎兒級分與片段大小頻率相關的模式包括具有複數個片段大小的複數個條件及係數的一般線性模式。
在一些執行中,一或多個胎兒級分值包括使用參考基因組的區間之覆蓋率信息所計算之胎兒級分值。在一些執行中,胎兒級分值係藉由下述計算:將複數個區間之覆蓋率應用於胎兒級分與區間之覆蓋率相關的模式以獲得胎兒級分值。在一些執行中,胎兒級分與區間覆蓋率相關的模式包括具有複數個區間的複數個條件及係數的一 般線性模式。在一些執行中,複數個區間在訓練樣品的胎兒級分與覆蓋率之間具有高相關性。
在一些執行中,一或多個胎兒級分值包括使用讀序中發現的複數個8-mers頻率所計算之胎兒級分值。在一些執行中,胎兒級分值係藉由下述計算:將複數個8-mers頻率應用於胎兒級分與8-mers頻率相關的模式以獲得胎兒級分值。在一些執行中,胎兒級分與8-mers頻率相關的模式包括具有複數個8-mers的複數個條件及係數的一般線性模式。在一些執行中,複數個8-mers在胎兒級分與8-mers頻率之間具有高相關性。
在一些執行中,一或多個胎兒級分值包括使用性染色體的區間之覆蓋率信息所計算之胎兒級分值。
在一些執行中,自胎兒級分、短片段之t檢驗統計值及所有片段之t檢驗統計值計算概度比,其中短片段為比標準大小更小的第一大小範圍內不含細胞之核酸片段,且所有片段為包括短片段及比標準大小更長的片段之不含細胞之核酸片段。在一些執行中,概度比係以下式計算:
其中p1代表數據來自代表3複製或1複製模式之多變數常態分布的概度,p0代表數據來自代表2複製模式之多變數常態分布的概度,Tshort、Tall為自短片段及所有片段所產生的染色體覆蓋率所計算之T計分,且q(ff total )為該胎兒級分之密度分布。
在一些執行中,除了自t檢驗統計值及有關不含細胞之核酸片段大小的信息以外,自一或多個胎兒級分值計算概度比。
在一些執行中,對X染色體單倍體症(monosomy X)、X染色體三倍體症(trisomy X)、13號染色體三倍體症(trisomy 13)、18號染色體三倍體症(trisomy 18)或21號染色體三倍體症(trisomy 21)計算概度比。
在一些執行中,序列標籤數量標準化包括:使樣品的GC含量標準化、使訓練集(training set)變異之全體波形輪廓(global wave profile)標準化及/或使自主要成分分析所獲得的一或多個成分標準化。
在一些執行中,關注之序列為選自由下列所組成之群組的人類染色體:13號染色體、18號染色體、21號染色體、X染色體和Y染色體Y。
在一些執行中,參考區為所有健全的染色體、不包括關注序列之健全的染色體、至少一個位於關注序列外的染色體及/或選自健全的染色體之染色體亞群。 在一些執行中,參考區包括健全的染色體,其已經測定以提供訓練樣品集最好的信號檢測能力。
在一些執行中,該方法另包括計算區間之大小參數值,該計算係藉由對各區間:(i)測定來自區間內不含細胞之核酸片段大小之大小參數值,及(ii)藉由計數因複製數變異以外之因子的區間對區間變異而使大小參數值標準化。該方法亦包括使用關注序列中區間之大小參數值 及關注序列之參考區中區間之大小參數值以測定關注序列的基於大小之t檢驗統計值。在一些執行中,(f)之概度比係自t檢驗統計值及基於大小之t檢驗統計值計算。在一些執行中,(f)之概度比係自基於大小之t檢驗統計值及胎兒級分計算。
在一些執行中,該方法另包括比較概度比與判讀標準(call criterion)以測定關注序列中複製數變異。在一些執行中,概度比係在與判讀標準比較之前轉換成對數概度比。在一些執行中,判讀標準係藉由將不同的標準應用於訓練樣品之訓練集,且選擇提供限定之靈敏度及限定之選擇性的標準而獲得。
在一些執行中,該方法另包括獲得複數個概度比且使複數個概度比應用於決策樹以測定樣品的倍數性(ploidy)。
在一些執行中,該方法另包括獲得複數個概度比及關注序列之一或多個覆蓋率值,且使複數個概度比及關注序列之一或多個覆蓋率值應用於決策樹以測定樣品的倍數性。
本發明的另一態樣關於測定在包括源自二或多個基因組的不含細胞之核酸片段的測試樣品中關注之核酸序列的複製數變異(CNV)之方法。該方法包括:(a)接收藉由定序測試樣品中不含細胞之核酸片段所獲得的序列讀序;(b)將不含細胞之核酸片段的序列讀序或含有序列讀序之片段與包括關注序列之參考基因組的區間並列,因而 提供測試序列標籤,其中參考基因組被區分為複數個區間;(c)計算序列標籤對參考基因組之區間的覆蓋率,該計算係藉由對各區間:(i)測定與區間並列之序列標籤的數量,及(ii)藉由計數因複製數變異以外之因子的區間對區間變異而使與區間並列之序列標籤數量標準化。該方法亦包括:(d)使用關注序列中區間之覆蓋率及關注序列之參考區中區間之覆蓋率以測定關注序列之t檢驗統計值;(e)評估測試樣品中不含細胞之核酸片段的一或多個胎兒級分值;及(f)使用t檢驗統計值及一或多個胎兒級分值以測定關注序列中複製數變異。
在一些執行中,(f)包括自t檢驗統計值及一或多個胎兒級分值計算概度比。在一些執行中,概度比係以X染色體單倍體症、X染色體三倍體症、13號染色體三倍體症、18號染色體三倍體症或21號染色體三倍體症計算。
在一些執行中,使序列標籤數量標準化包含:使樣品的GC含量標準化、使訓練集變異之全體波形輪廓標準化及/或使自主要成分分析所獲得的一或多個成分標準化。
在一些執行中,關注序列為選自由下列所組成之群組的人類染色體:13號染色體、18號染色體、21號染色體、X染色體和Y染色體。
本發明的另一態樣關於測定在包括源自二或多個基因組的不含細胞之核酸片段的測試樣品中關注之核 酸序列的複製數變異(CNV)之方法。該方法包括:(a)接收藉由定序測試樣品中不含細胞之核酸片段所獲得的序列讀序;(b)將不含細胞之核酸片段的序列讀序或含有序列讀序之片段與包括關注序列之參考基因組的區間並列,因而提供測試序列標籤,其中參考基因組被區分為複數個區間;(c)測定測試樣品中存在的不含細胞之核酸片段之片段大小;(d)使用具有第一大小結構域之大小的不含細胞之核酸片段的序列標籤以計算序列標籤對參考基因組之區間的覆蓋率;(e)使用具有第二大小結構域之大小的不含細胞之核酸片段的序列標籤以計算序列標籤對參考基因組之區間的覆蓋率;(f)使用(c)所測定之片段大小以計算參考基因組之區間的大小特徵;及(g)使用(d)和(e)所計算之覆蓋率及(f)所計算之大小特徵以測定關注序列中複製數變異。
在一些執行中,第一大小結構域包括在樣品中實質上所有大小的不含細胞之核酸片段,且第二大小結構域僅包括比限定之大小更小的不含細胞之核酸片段。在一些執行中,第二大小結構域僅包括比約150bp更小的不含細胞之核酸片段。
在一些執行中,關注序列為選自由下列所組成之群組的人類染色體:13號染色體、18號染色體、21號染色體、X染色體和Y染色體。
在一些執行中,(g)包括使用(d)及/或(e)所計算之關注序列中區間之覆蓋率以計算關注序列之t檢驗統計值。在一些執行中,其中計算關注序列之t檢驗統計值 包括使用關注序列中區間之覆蓋率及關注序列之參考區中區間之覆蓋率。
在一些執行中,(g)包括使用(f)所計算之關注序列中區間之大小特徵以計算關注序列之t檢驗統計值。在一些執行中,計算關注序列之t檢驗統計值包括使用關注序列中區間之大小特徵及關注序列之參考區中區間之大小特徵。
在一些執行中,區間大小特徵包括在區間內的大小比限定值小的片段對總片段之比。
在一些執行中,(g)包括自t檢驗統計值計算概度比。
在一些執行中,(g)包括使用(d)所計算之覆蓋率的關注序列之第一t檢驗統計值及使用(e)所計算之覆蓋率的關注序列之第二t檢驗統計值以計算概度比。
在一些執行中,(g)包括自使用(d)所計算之覆蓋率的關注序列之第一t檢驗統計值、使用(e)所計算之覆蓋率的關注序列之第二t檢驗統計值及使用(f)所計算之覆蓋率的關注序列之第三t檢驗統計值以計算概度比。
在一些執行中,除了自至少第一及第二t檢驗統計值以外,自一或多個胎兒級分值計算概度比。在一些執行中,該方法另包括使用有關不含細胞之核酸片段大小的信息以計算一或多個胎兒級分值。
在一些執行中,該方法另包括使用參考基因組的區間之覆蓋率信息計算一或多個胎兒級分值。在一些 執行中,一或多個胎兒級分值包括使用性染色體的區間之覆蓋率信息所計算之胎兒級分值。在一些執行中,以X染色體單倍體症、X染色體三倍體症、13號染色體三倍體症、18號染色體三倍體症或21號染色體三倍體症計算概度比。
在一些執行中,(d)及/或(e)包括:(i)測定與區間並列之序列標籤的數量,及(ii)藉由計數因複製數變異以外之因子的區間對區間變異而使與區間並列之序列標籤數量標準化。在一些執行中,使序列標籤數量標準化包括:使樣品的GC含量標準化、使訓練集變異之全體波形輪廓標準化及/或使自主要成分分析所獲得的一或多個成分標準化。
在一些執行中,(f)包括計算區間之大小參數值,該計算係藉由對各區間:(i)測定來自區間內不含細胞之核酸片段大小之大小參數值,及(ii)藉由計數因複製數變異以外之因子的區間對區間變異而使大小參數值標準化。
本發明的另一態樣關於評估測試樣品中關注之核酸序列的複製數,該系統包括:接收來自測試樣品之核酸片段且提供測試樣品之核酸序列信息的序列分析儀;處理器;及一或多個電腦可讀取的儲存媒體,其已儲存用於執行該處理器之指令。指令包括對下述之指令:(a)接收藉由定序測試樣品中不含細胞之核酸片段所獲得的序列讀序;(b)將不含細胞之核酸片段的序列讀序或含有序列讀 序之片段與包括關注序列之參考基因組的區間並列,因而提供測試序列標籤,其中參考基因組被區分為複數個區間;(c)測定測試樣品中存在的至少一些不含細胞之核酸片段的片段大小;及(d)計算序列標籤對參考基因組之區間的覆蓋率,該計算係藉由對各區間:(i)測定與區間並列之序列標籤的數量,及(ii)藉由計數因複製數變異以外之因子的區間對區間變異而使與區間並列之序列標籤數量標準化。該方法亦包括:(e)使用關注序列中區間之覆蓋率及關注序列之參考區中區間之覆蓋率以測定關注序列之t檢驗統計值;及(f、)使用自t檢驗統計值及有關不含細胞之核酸片段大小的信息所計算之概度比以測定關注序列中複製數變異。
在一些執行中,該系統經配置以進行上述方法中之任一者。
本發明額外的態樣關於電腦程式產品,其包括一或多個電腦可讀取的非暫存儲存媒體,其已儲存電腦可執行的指令,當以電腦系統的一或多個處理器執行時,該指令導致電腦系統執行上述方法中之任一者。
雖然本文的實例涉及人類且語言主要針對人類考量,但是本文所述之概念適用於來自任何植物或動物之基因組。本發明的那些和其他目的和特徵係從下列說明及所附專利申請範圍而變得更完全明顯,或可藉由實踐下文闡述之揭示內容而習得。
併入以供參考
將本文所述及之所有專利,專利申請案及其他出版物(包括在該等參考文獻內所揭示之所有序列)明確地併入本文以供參考,其程度如同每一個別的出版物、專利或專利申請案經具體地且個別地指示經併入以供參考。所引述之所有文件在相關部分中係出於在本文引用之其上下文中所表明之目的而以其完整內容併入本文以供參考。然而,任何文件的引述不應被解釋為承認其是關於本發明的先前技術。
圖1為測定複製數變異存在或不存在於包含核酸混合物的測試樣品中之方法100的流程圖。
圖2A主要例證可如何使用雙端定序測定片段大小及序列覆蓋率二者。
圖2B顯示使用基於大小之覆蓋率測定測試樣品中關注之核酸序列的複製數變異之方法的流程圖。
圖2C描述測定用於評估複製數的關注之核酸序列的片段大小參數之方法的流程圖。
圖2D顯示兩個重疊路線之工作流程的流程圖。
圖2E顯評估複製數之三路線(three-pass)方法的流程圖。
圖2F顯示t檢驗統計值應用至複製數分析的 執行以改進分析準確性。
圖2G顯示自根據本發明的一些執行之覆蓋率信息測定胎兒級分之實例方法。
圖2H顯示自根據一些執行的大小分布信息測定胎兒級分之方法。
圖2I顯示自根據本發明的一些執行之8-mers頻率信息測定胎兒級分之實例方法。
圖2J顯示處理序列讀序信息的工作流程,使用其獲得胎兒級分估計值。
圖3A顯示用於減少來自測試樣品之序列數據中雜訊之方法實例的流程圖。
圖3B-3K呈示圖3A所描述之方法的各種階段所獲得的數據之分析。
圖4A顯示創立用於減少序列數據之雜訊的序列遮蔽之方法的流程圖。
圖4B顯示MapQ計分與標準化覆蓋率量之CV具有強的單調相關性。
圖5為處理測試樣品及最終進行診斷之分散系統的區塊圖。
圖6係以示意圖例證可如何分組處理測試樣品之不同操作,由系統的不同元件處置。
圖7A和7B顯示根據實施例1a所述之簡化方案(圖7A)及實施例1b所述之方案(圖7B)製備之cfDNA定序文庫的電泳圖。
圖8顯示與標準的實驗室工作流程相比之新型NIPT的整體工作流程及時間表。
圖9顯示以輸入提取之cfDNA為函數的定序文庫產量,表明文庫濃度與具有高轉換效率的輸入濃度有強的線性相關性。
圖10顯示如自324個懷男胎兒的樣品所測量之cfDNA片段大小分布。
圖11顯示與來自雙端讀序的少於150bp之計數相比的來自映射之雙端讀序的總計數之相對胎兒級分。
圖12顯示檢測21號染色體三倍體症樣品的組合之t檢驗統計值非整倍體計分:以(A)所有片段之計數;(B)僅短片段(<150bp)之計數;(C)短片段之級分(介於80與150bp之間的計數/計數<250bp);(D)來自(B)與(C)的組合之t檢驗統計值;及(E)使用Illumina Redwood City CLIA實驗室方法以平均16M計數/樣品所獲得的相同樣品之結果。
圖13顯示自選擇之區間所評估之胎兒級分相對於那些標準化X-染色體的染色體值所測量之胎兒級分(REF)。使用set 1校準胎兒級分值及獨立的set 2測試相關性。
定義
除非另有其他指示,否則本文所揭示之方法 及系統的實施包含在分子生物學、微生物學,蛋白質純化,蛋白質工程,蛋白質和DNA定序以及重組DNA領域中常用的習知技術及設備,該等係在本技術領域範圍內。此等技術及設備為那些熟習本技術領域者已知且說明於許多文章中參考文獻中(參見例如Sambrook等人之“Molecular Cloning:A Laboratory Manual,”Third Edition (Cold Spring Harbor),[2001]);及Ausubel等人之“Current Protocols in Molecular Biology”[1987])。
數值範圍包括限定範圍的數量。意欲使整個本說明書中所給出之每一最大數值限度包括每一較低的數值限度,如同此等較低的數值限度在本文中明確寫出。在整個本說明書中所給出之每一最小的數值限度包括每一較高的數值限度,如同此等較高的數值限度在本文中明確寫出。在整個本說明書中所給出之每一數值範圍包括落在此等較寬的數值範圍內之每一個較窄的數值範圍,如同此等較窄的數值範圍在本文中明確寫出。
本文所提供之標題不意欲限制揭示內容。
除非在本文另有其他指示,本文使用的所有技術和科學術語具有如一般熟習本技術領域者共同瞭解的相同意義。納入本文所包括的各種科學詞典為那些本技術領域者所熟知且可取得的。儘管類似或等同於那些本文所述之任何方法和材料經發現用於本文所揭示之實施態樣的實施或測試,但仍說明一些方法和材料。
下文即將定義之術語係藉由參考整個說明書 而更完整地說明。應當理解本揭示內容不限於所述之特定方法學、方案和試劑,因為該等可取決於那些熟習本技術領域者所使用之上下文而改變。如本文所使用的單數術語〝a〞、〝an〞和〝the〞包括複數參照,除非上下文另有其他明確的指示。
除非另有其他指示,分別使核酸以5'至3'方向由左向右書寫及使胺基酸序列以胺基至羧基方向從左至右書寫。
如本文所使用的術語〝參數〞代表物理特性,其值或其他特徵對相關條件有影響,諸如複製數變異。在一些例子中,術語參數係參考影響數學關係或模式輸出之變數而使用,該變數可為自變數(亦即對模式的輸入)或基於一或多個自變數的中間變數。一種模式的輸出可取決於模式的範圍而成為另一模式的輸入,因而成為另一模式的參數。
如本文所使用的術語〝片段大小參數〞係指關於片段或片段集合(如核酸片段)的大小或長度之參數,例如自體液獲得的cfDNA片段。當:1)有利地加權於片段大小或大小範圍的參數時,例如當與該大小或大小範圍的片段相關聯時,則比其他的大小或範圍更重地加權計數;或2)參數係自有利地加權於片段大小或大小範圍之值獲得時,例如當與該大小或大小範圍的片段相關聯時自更重地加權之計數所獲得的比,則如本文所使用之參數〝對片段大小或大小範圍產生偏差〞。當基因組產生相對於來 自另一基因組或相同基因組之另一部分的核酸片段而富含或具有較高濃度的大小或大小範圍之核酸片段時,則片段大小或大小範圍可為基因組或其部分的特徵。
術語〝加權〞係指修飾量,諸如使用一或多個值或函數之參數或變數,其被視為〝權重〞。在特定的實施態樣中,將參數或變變乘以權重。在其他的實施態樣中,將參數或變數經指數形式修飾。在一些實施態樣中,函數可為線性或非線性函數。可應用的非線性函數的實例包括但不限於希柏塞德階梯(Heaviside step)函數、方箱(box-car)函數、階梯(stair-case)函數或S形(sigmoidal)函數。加權原始參數或變變可系統性地增加或減少經加權之變數的值。在各種實施態樣中,加權可得到正質、非負值或負值。
術語〝複製數變異〞在此係指測試樣品中存在的核酸序列之複製數與參考樣品中存在的核酸序列之複製數相比的變異。在特定的實施態樣中,核酸序列為1kb或更大。在一些例子中,核酸序列為完整染色體或其相當大的部分。〝複製數變體〞係指其中複製數差異係藉由比較在測試樣品中關注之核酸序列與關注之核酸序列的預期含量而發現的核酸序列。例如,將測試樣品中關注之核酸序列含量與合格樣品中存在的該含量比較。複製數變異(variant)/變異(variation)包括缺失(包括微缺失)、插入(包括微插入)、複製、倍增和易位。CNV包含染色體非整倍體及部分非整倍體。
術語〝非整倍體〞在此係由完整染色體或部分染色體的丟失或獲取所引起的基因物質失衡。
術語〝染色體非整倍體〞及〝完全的染色體非整倍體〞在此係指由完整染色體的丟失或獲取所引起的基因物質失衡,且包括生殖細胞系非整倍體及嵌合(mosaic)非整倍體。
術語〝部分非整倍體〞及〝部分染色體非整倍體〞在此係指由部分染色體(例如部分單倍體和部分三倍體)的丟失或獲取所引起的基因物質失衡,且包含起因於易位、缺失及插入的失衡。
術語〝複數個〞係指超過一個組元。例如,該術語在本文的使用係關於許多核酸分子或序列標籤,其使用本文所揭示之方法足以鑑定在測試樣品與合格樣品中顯著差別的複製數變異。在一些實施態樣中,每一測試樣品獲得至少約3×106個介於約20與40bp之間的序列標籤。在一些實施態樣中,每一測試樣品提供至少約5×106、8×106、10×106、15×106、20×106、30×106、40×106或50×106個序列標籤的數據,各序列標籤包含介於約20與40bp之間。
術語〝雙端讀序〞係指自核酸片段的每一端獲得一個讀序的雙端定序之讀序。雙端定序可包含將多核苷酸鏈分段成稱為插入物的端序列。分段對短的多核苷酸(諸如不含細胞之DNA分子)為選項或沒必要。
T術語〝多核苷酸〞、〝核酸〞及〝核酸分 子〞可交換使用且係指共價連結之核苷酸序列(亦即RNA之核糖核苷酸及DNA之去氧核糖核苷酸),其中一個核苷酸的戊糖之3’位置以磷酸二酯基團連結至下一核苷酸的戊糖之5’位置。核苷酸包括任何形式的核酸之序列,包括但不限於RNA及DNA分子,諸如cfDNA分子。如本文所使用的術語〝多核苷酸〞包括而不限於單鏈和雙鏈多核苷酸。
如本文所使用的術語〝測試樣品〞在此係指衍生自生物流體、細胞、組織、器官或生物體之樣品,其包含核酸或核酸混合,該核酸包含至少一種欲進行複製數變異篩選之核酸序列。在特定的實施態樣中,樣品包含至少一種核酸序列,懷疑其複製數已經歷變異。此等樣品包括但不限於痰/口水、羊水、血液、血液部分或細針生檢樣品(例如手術生檢,細針生檢等等)、尿、腹膜液、胸膜液及類似者。儘管樣品時常自人類受試者(例如患者)取得,但是檢定法可用於來自任何哺乳動物之樣品中的樣本數變異(CNV),包括但不限於狗、貓、馬、山羊、綿羊、牛、豬等等。樣品可以自生物來源獲得的樣子直接使用,或在預處理以修飾樣品的性質之後使用。例如,此等預處理可包括從血液製備血漿、稀釋黏性液體等等。預處理之方法亦可包含但不限於過濾、沉澱、稀釋、蒸餾、混合、離心、冷凍、冷凍乾燥、濃縮、擴增、核酸分段、干擾成分之失活、添加試劑、溶解等等。如果對樣品使用此等預處理方法,則此等預處理方法通常使得關注之核酸仍維持
在測試樣品中,有時濃度與未經處理之測試樣品(亦即未進行任何此等預處理方法的樣品)中濃度成比例。此等〝經處理(treated或processed)〞之樣品仍被視為關於本文所述之方法的生物〝測試〞樣品。
術語〝合格樣品〞或〝未受影響樣品〞在此係指包含欲與測試樣品的核酸相比而以已知的複製數存在之核酸混合物的樣品,且其對關注之核酸序列為正常的樣品,亦即不為非整倍體。在一些實施態樣中,合格樣品被用作為訓練集的未受影響之訓練樣品,以導出序列遮蔽或序列輪廓。在特定的實施態樣中,合格樣品被用於鑑定一個或多個標準化染色體或考慮的染色體片段。例如,合格樣品可用於鑑定21號染色體的標準化染色體。在此等例子中,合格樣品為不是21號染色體三倍體症樣品的樣品。另一實例包含僅使用女性作為染色體X的合格樣品。合格樣品亦可用於其他目的,諸如測定稱為受影響的樣品之閾值、鑑定用於限定在參考樣品上的遮蔽區之閾值、測定不同的基因組區域之預期的覆蓋率量及類似者。
術語〝訓練集〞在此係指一組訓練樣品,其可包含受影響樣品及/或未受影響樣品且用於發展分析測試樣品之模式。在一些實施態樣中,訓練集包括未受影響樣品。在該等實施態樣中,用於測定CNV之閾值係使用關注之複製數變異未受影響的樣品之訓練集建立。在訓練集中的未受影響樣品可被用作為鑑定標準化序列(例如標準化染色體)之合格樣品,且未受影響樣品之染色體劑量 被用於設定每一關注序列(例如染色體)之閾值。在一些實施態樣中,訓練集包括受影響樣品。在訓練集中的受影響樣品可用於驗證受影響之測試樣品可輕易地與未受影響樣品區別。
訓練集亦為關注之群體的統計樣品,該統計樣品不與生物樣品混淆。統計樣品時常包含多數個體,個體的數據被用於測定一或多個可歸因於群體的關注量值。統計樣品為關注之群體中的個體子集。個體可為人、動物、組織、細胞、其他生物樣品(亦即統計樣品可包括多種生物樣品)及提供統計分析之數據點的其他個別實體。
訓練集經常與驗證集聯合使用。所使用的術語〝驗證集〞係指在統計樣品中的一組個體。個體數據被用於驗證或評估使用訓練集所測定之關注量值。在一些實施態樣中,例如訓練集提供用於計算參考序列之遮蔽之數據,而驗證集提供評估遮蔽的正確性或有效性之數據。
在本文使用〝複製數評估〞關於與序列之複製數相關的基因序列之狀態的統計評估。例如,在一些實施態樣中,評估包含測定基因序列的存在或不存在。在一些實施態樣中,評估包含測定基因序列之部分或完全非整倍體。在其他的實施態樣中,評估包含基於基因序列之複製數以辨別二或多個樣品。在一些實施態樣中,評估包含基於基因序列之複製數的統計分析,例如標準化及比較。
術語〝合格核酸〞與〝合格序列〞可交換使用,其為針對與關注序列或核酸量相比的序列。合格序列 為一種較佳地以已知的表達(亦即已知的合格序列量)存在於生物樣品中的序列。合格序列通常為存在於〝合格樣品〞中的序列。〝關注之合格序列〞為已知在合格樣品中的量之合格序列,且為與在對照受試者與具有醫療症狀的個體之間的關注序列之差別相關聯的序列。
術語〝關注之序列〞或〝關注之核酸序列〞在此係指與在健康與有病的個體之間的序列表達之差別相關聯的核酸序列。關注之序列可為在疾病或遺傳性症狀中表現錯誤(亦即表現過度或不足)的染色體上的序列。關注之序列可為染色體的一部分(亦即染色體片段)或完整染色體。例如,關注之序列可為在非整倍體症狀中過度表達之染色體或編碼在癌症中表現不足的腫瘤抑制因子之基因。關注之序列包括在受試者細胞的總群體或亞群體中表現過度或不足之序列。〝關注之合格序列〞為合格樣品中的關注序列。〝關注之測試序列〞為測試樣品中關注序列。
術語〝標準化序列〞在此係指用於使映射至與標準化序列相關聯的關注序列之序列標籤數量標準化之序列。在一些實施態樣中,標準化序列包含健全的染色體。〝健全的染色體〞為一種不可能為非整倍體之染色體。在一些涉及人類染色體的例子中,健全的染色體為除了X染色體、Y染色體、13號染色體、18號染色體及21號染色體以外的任何染色體。在一些實施態樣中,標準化序列顯現接近於用作為標準化參數的關注序列變異性的樣品及定序運作中映射之序列標籤數量變異性。標準化序列 可區分受影響樣品與一或多個未受影響樣品。在一些執行中,當與其他可能的標準化序列(諸如其他的染色體)相比時,標準化序列最好地或有效地區分受影響樣品與一或多個未受影響樣品。在一些實施態樣中,標準化序列變異性經計算為用於整個樣品及定序運作之關注序列的染色體劑量變異性。在一些實施態樣中,標準化序列係以一組未受影響樣品鑑定。
〝標準化染色體〞、〝標準化起源染色體〞或〝標準化染色體序列〞為〝標準化序列〞的實例。〝標準化染色體序列〞可由單一染色體或一組染色體所組成。在一些實施態樣中,標準化序列包含二或多個健全的染色體。在特定的實施態樣中,健全的染色體為除了X、Y、13號、18號和21號染色體以外的所有體染色體。〝標準化片段〞為〝標準化序列〞的另一實例。〝標準化片段序列〞可由染色體的單一片段所組成或其可由相同或不同的染色體的二或多個片段所組成。在特定的實施態樣中,標準化序列意欲使變異性標準化,諸如過程相關之染色體間(運作內(intra-run))及定序間(運作間(inter-run))變異性。
術語〝可區分性〞在此係指標準化染色體的特徵,其能使一或多個未受影響(亦即正常)樣品與一或多個受影響(亦即非整倍體)樣品區別。顯現最大的〝可區分性〞之標準化染色體為在染色體劑量對合格樣品集的關注之染色體分布與染色體劑量對一或多個受影響樣品中的對應染色體之相同的關注之染色體分布之間提供最大的統計 差別之染色體或染色體組。
術語〝變異性〞在此係指標準化染色體的另一特徵,其能使一或多個未受影響(亦即正常)樣品與一或多個受影響(亦即非整倍體)樣品區別。在合格樣品集所測量的標準化染色體變異性係指接近於映射至適合作為標準化參數的關注染色體之序列標籤數量變異性的映射之序列標籤數量變異性。
術語〝序列標籤密度〞在此係指映射至參考基因組序列的序列讀序數量,例如21號染色體之序列標籤密度為以定序方法所產生之映射至參考基因組之21號染色體的序列讀序數量。
術語〝序列標籤密度比〞在此係指映射至參考基因組之染色體(例如21號染色體)的序列標籤數量對參考基因組染色體的長度之比。
術語〝序列劑量〞在此係指關於序列標籤數量之參數或以關注序列所鑑定之另一參數,及序列標籤數量之參數或以標準化序列所鑑定之其他參數。在一些例子中,序列劑量為序列標籤覆蓋率或關注序列的其他參數對序列標籤覆蓋率或標準化序列的其他參數之比。在一些例子中,序列劑量係指關於關注序列的序列標籤密度對標準化序列的序列標籤密度之參數。〝測試序列劑量〞為測試樣品中所測定之關於序列標籤密度之參數或關注序列(例如21號染色體)的其他參數對標準化序列(例如第9號染色體)的其他參數。同樣地,〝合格序列劑量〞為合個樣 品中所測定之關於序列標籤密度之參數或關注序列的其他參數對標準化序列的其他參數。
術語〝覆蓋率〞係指映射至限定序列之序列標籤的豐度。覆蓋率可以序列標籤密度(或序列標籤計數)、序列標籤密度比、標準化覆蓋率量、調整之覆蓋率值等等定量地表示。
如本文所使用的術語〝覆蓋率量〞係指原始覆蓋率之修飾且時常代表在基因組區域(諸如區間)中的序列標籤(有時稱為計數)之相對量。覆蓋率量可藉由標準化、調整及/或校準原始覆蓋率或因組區域之計數而獲得。例如,區域之標準化覆蓋率量係藉由映射至區域的序列標籤計數除以映射至整個基因組的序列標籤總數量而獲得。標準化覆蓋率量容許比較整個不同樣品具有不同的定序深度的區間之覆蓋率。序列劑量的不同在於後者通常係藉由除以映射至整個基因組子集的標籤計數而獲得。子集為一或多個標準化片段或染色體。不論標準化覆蓋率量是否可對從基因組的區域至區域的全體輪廓變異、G-C級分變異、在健全的染色體中的離群值等等進行校準。
術語〝下一代定序(NGS)〞在此係指容許選殖擴增之分子及單一核酸分子以大規模平行定序之定序方法。NGS的非限制性實例包括使用可逆式染料終止子之合成定序及以接合定序。
術語〝參數〞在此係指使系統性質特徵化之數值。參數時常使定量數據數集及/或定量數據集之間的 數值關係以數值特徵化。例如,在映射至染色體之序列標籤數量與映射標籤之染色體的長度之間的比(或比的函數)為參數。
術語〝閾值〞及〝合格閾值〞在此係指被用作截止點而使樣品(諸如含有來自懷疑具有醫學症狀之有機體的核酸之測試樣品)特徵化之任何數量。閾值可與參數值比較以確定引起此等參數值的樣品是否示意有機體具有醫學症狀。在特定的實施態樣中,合格閾值係使用合格的數據集以計算且適合作為在有機體中診斷複製數變異(例如非整倍體)之限度。若自本文所揭示之方法獲得的結果超過閾值,則可診斷受試者具有複製數變異,例如21號染色體三倍體症。適合於本文所述之方法的閾值可藉由分析以樣品訓練集所計算之標準化值(例如染色體劑量、NCV或NSV)鑑定。閾值可使用在包含合格(亦即未受影響)樣品及受影響樣品二者之訓練集中的合格(亦即未受影響)樣品鑑定。可使用在訓練集中已知具有染色體非整倍體之樣品(亦即受影響樣品)確認所選擇之閾值有用於區分在測試集中的受影響樣品及未受影響樣品(參見本文實施例)。閾值的選擇取決於使用者希望必須分類的可信度而定。在一些實施態樣中,用於鑑定適當的閾值之訓練集包含至少10、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少200、至少300、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少2000、至少3000、 至少4000或多個合格樣品。可能有利於使用更大的合格樣品集以改進閾值之診斷利用性。
術語〝區間〞係指序列之片段或基因組之片段。在一些實施態樣中,區間在基因組或染色體內彼此鄰接。每一區間可限定在參考基因組中的核苷酸序列。區間的大小可取決於特殊應用所需之分析及序列標籤密度而為1kb、100kb、1Mb等等。除了彼等在參考序列內的位置以外,區間可具有其他的特徵,諸如樣品覆蓋率及序列結構特徵,諸如GC級分。
本文所使用的術語〝遮蔽閾值〞係指針對與基於序列區間中的序列標籤數量之值比較的數值,其中將具有超過遮蔽閾值之值的區間遮蔽。在一些實施態樣中,遮蔽閾值可為百分位數等級、絕對計數、映射質量計分或其他適合的值。在一些實施態樣中,遮蔽閾值可經定義為整個多重未受影響樣品之變異係數的百分位數等級。在其他的實施態樣中,遮蔽閾值可經定義為映射質量計分,例如MapQ計分,其關於序列讀序與參考基因組並列的可靠性。應注意遮蔽閾值與複製數變異(CNV)閾值不同,後者為截止點而使含有來自懷疑具有與CNV相關的醫療症狀之有機體的核酸之樣品特徵化。在一些實施態樣中,CNV閾值係相對於本文別處所述之標準化染色體值(NCV)或標準化片段值(NSV)定義。
術語〝標準化值〞在此係指關於以關注序列(例如染色體或染色體片段)鑑定之序列標籤數量對以標準 化序列(例如標準化染色體或標準化染色體片段)鑑定之序列標籤數量的數值。例如,〝標準化值〞可為如本文別處所述之染色體劑量,或其可為NCV,或其可為如本文別處所述之NSV。
術語〝讀序〞係指自核酸樣品的一部分獲得的序列。儘管非必要,但是讀序通常代表在樣品中連續的鹼基對之短序列。讀序可以樣品部分的鹼基對序列(在A、T、C或G中)象徵性地呈示。可將其儲存在記憶裝置中且在適當時處理,以確定其是否匹配參考序列或滿足其他標準。讀序可直接自定序設備或間接自關於樣品的儲存之序列信息獲得。在一些例子中,讀序為足夠長的DNA序列(例如至少約25個bp),其可用於鑑定更大的序列或區域,例如可將其並列且特異性地分配至染色體或基因組區域或基因。
本文所使用的術語〝基因組讀序〞關於在個體的整個基因組中任何片段之讀序。
術語〝序列標籤〞在此可與術語〝映射之序列標籤〞交換使用,其係指以並列而特異性地分配(亦即映射)至較大的序列(例如參考基因組)之序列讀序。經映射之序列標籤可單一地映射至參考基因組,亦即彼等分配至參考基因組的單一位置。除非另有其他指定,將映射至參考序列上的相同位置之標籤計數一次。標籤可以數據結構或數據的其他組合提供。在特定的實施態樣中,標籤含有讀序序列及該讀序的相關聯信息,諸如在基因組中的序列 位置,例如在染色體上的位置。在特定的實施態樣中,指定正鏈取向的位置。可限定標籤以容許與參考基因組之有限量的並列錯配。在一些實施態樣中,可映射至參考基因組的一個位置以上之標籤,亦即不單一地映射之標籤可不納入分析中。
術語〝非多餘性序列標籤〞係指不映射至相同位點之序列標籤,其在一些實施態樣中以測定染色體值(NCV)之目的計數。有時將多種序列讀序並列在參考基因組上的相同位置,得到多餘或重複的序列標籤。在一些實施態樣中,將映射至相同位置之重複的序列標籤以測定NCV之目的而省略或以一個〝非多餘性序列標籤〞計數。在一些實施態樣中,計數與未排除之位點並列的非多餘性序列標籤,得到用於測定NCV之〝未排除之位點計數〞(NES計數)。
術語〝位點〞係指在參考基因組上的單一位置(亦即染色體ID、染色體位置和取向)。在一些實施態樣中,位點可提供殘基、序列標籤或片段在序列上的位置。
〝排除之位點〞為以計數序列標籤之目的而排除之參考基因組區域中所發現的位點。在一些實施態樣中,排除之位點係在含有重複序列之染色體區域中(例如著絲點和端點)及一個以上的染色體共有的染色體區域(例如存在於Y染色體上且亦存在於X染色體上的區域)中發現。
〝未排除之位點〞(NES)為以計數序列標籤之 目的而不排除在參考基因組中的位點。
〝未排除之位點計數〞(NES計數)為映射至參考基因組上的NES之序列標籤數量。在一些實施態樣中,NES計數為映射至NES之非多餘性序列標籤數量。在一些實施態樣中,覆蓋率及相關參數(諸如標準化覆蓋率量、去除覆蓋率量之全體輪廓及染色體劑量)係基於NES計數。在一個實例中,染色體劑量經計算為關注之染色體的NES計數對標準化染色體的計數之比。
標準化染色體值(NCV)關於測試樣品之覆蓋率對訓練/合格樣品集之覆蓋率。在一些實施態樣中,NCV係基於染色體劑量。在一些實施態樣中,NCV關於測試樣品中關注之染色體的染色體劑量與合格樣品集中對應之染色體劑量平均值之間的差別,如: 其中分別為合格樣品集中的j號染色體之估計平均值及標準偏差,且x ij 為對測試樣品i觀察之j號染色體比(劑量)。
在一些實施態樣中,NCV可藉由測試樣品中關注之染色體的染色體劑量與在相同的流動槽上定序之多樣化(multiplexed)樣品中對應的染色體劑量之中位數的關係而〝即時(on the fly)〞計算,如: 其中M j 為在相同的流動槽上定序之多樣化樣品集中的j號染色體劑量之估計中位數;為在一或多個流動槽上定序之一或多個多樣化樣品集中的j號染色體劑量之標準偏差,且x ij 為測試樣品i的經觀察之j號染色體劑量。在此實施態樣中,測試樣品i為在測定M j 之相同的流動槽上定序之多樣化樣品之一。
例如,關於在經定序為一個流動槽上的64個多樣化樣品之一的測試樣品A中關注之21號染色體,在測試樣品A中21號染色體之NCV經計算為樣品A中21號染色體劑量減去64個多樣化樣品中所測定之21號染色體的劑量中位數除以在流動槽1或額外的流動槽上64個多樣化樣品所測定之21號染色體劑量的標準偏差。
如本文所使用的術語〝並列(aligned)〞、〝並列(alignment)〞或〝並列(aligning)”係指比較讀序或標籤與參考序列且因而測定參考序列是否含有讀序序列之方法。若參考序列含有讀序,則讀序可映射至參考序列,或在特定的實施態樣中映射至參考序列中的特定位置。在一些例子中,並列簡單地識別讀序是否為特定的參考序列之一員(亦即讀序是否存在或不存在於參考序列中)。例如,讀序與人類13號染色體之參考序列並列將告知讀序是否存在於13號染色體之參考序列中。提供此信息的工具可稱為集員測試儀(set membership tester)。在一些例子中, 並列另外表明讀序或標籤映射至參考序列之位置。例如,若參考序列為完整人類基因組序列,則並列可表明讀序存在於13號染色體上,且可另外表明讀序係在13號染色體特別的鏈及/或位點上。
並列之讀序或標籤為一或多個序列,其經鑑定為就彼等的核酸分子順序而言匹配於來自參考基因組之已知序列。並列可以人為進行,儘管其通常係由電腦演算法執行,因為不可能在執行本文所揭示之方法的合理時期內並列讀序。來自並列序列之演算法的一個實例為分配成Illumina Genomics Analysis流程的一部分之有效局部並列核苷酸數據(Efficient Local Alignment of Nucleotide Data)(ELAND)電腦程式。另一選擇地,可使用Bloom篩選(filter)或類似的集員測試儀使讀序與參考基因組並列。參見2011年10月27日申請之美國專利申請案號61/552,374,將其完整內容併入本文以供參考。以並列匹配之序列讀序可為100%之序列匹配或少於100%(非完美匹配)。
本文所使用的術語〝映射”係指將序列讀序藉由並列而特異地分配至較大的序列,例如參考基因組。
如本文所使用的術語〝參考基因組〞或〝參考序列〞係指可用於參考來自受試者的經鑑定之序列的任何有機體或病毒的任何特定已知的基因組序列,無論是部分或完全的。例如,用於人類受試者以及許多其他有機體的參考基因組係存在於National Center for Biotechnology Information at ncbi.nlm.nih.gov。〝基因組〞係指表現在核酸序列中的有機體或病毒之完全基因信息。
在各種實施態樣中,參考序列顯著地大於與其並列的讀序。例如,其可大至少約100倍,或大至少約1000倍,或大至少約10,000倍,或大至少約105倍,或大至少約106倍,或大至少約107倍。
在一個實例中,參考序列為全長人類基因組之序列。此等序列可稱為基因組參考序列。在另一實例中,將參考序列限制成特定的人類染色體,諸如13號染色體。在一些實施態樣中,參考Y染色體為來自人類基因組型hg19之Y染色體序列。此等序列可稱為染色體參考序列。參考序列的其他實例包括其他物種的基因組,以及任何物種的染色體、亞染色體區域(諸如鏈)等等。
在各種實施態樣中,參考序列為一致序列或自多個個體衍生之其他組合。然而,在特定的應用中,參考序列可取自特別的個體。
術語〝臨床相關序列〞在此係指已知或懷疑與基因或疾病症狀相關聯或涉及的核酸序列。測定臨床相關序列的不存在或存在可用於測定診斷或確認醫學症狀的診斷,或提供疾病發的預後。
當用於核酸或核酸混合物的上下文時,術語〝經衍生之〞在此係指因而使核酸自來源獲得的方式,核酸係源自於該來源。例如,在一個實施態樣中,衍生自兩種不同的基因組之核酸混合物意指核酸(例如cfDNA)係由 細胞通過自然存在過程(諸如壞死或凋亡)而自然釋出。在另一實施態樣中,衍生自兩種不同的基因組之核酸混合物意指核酸係自兩種來自受試者的細胞類型提取。
當用於獲得特定量值的上下文時,術語〝基於〞在本文係指使用另一量值作為輸入以計算特定的量值作為輸出。
術語〝患者樣品〞在此係指自醫療照顧、護理或治療之患者(亦即受試者)獲得的生物樣品。患者樣品可為本文所述之樣品中之任一者。在特定的實施態樣中,患者樣品係藉由非侵入性程序獲得,例如末梢血液樣品或糞便樣品。本文所述之方法不必限於人類。因此,涵蓋各種獸醫應用,在此例子中,患者樣品可為來自非人哺乳動物(例如貓、豬、馬、牛及類似者)的樣品。
術語〝混合樣品〞在此係指含有衍生自不同的基因組之核酸混合物的樣品。
術語〝母體樣品〞在此係指自懷孕的受試者(例如婦女)所獲得的生物樣品。
術語〝生物流體〞在此係指取自從生物來源的液體且包括例如血液、血清、血漿、痰液、灌洗液、腦脊液、尿液、精液、汗液、眼淚、唾液及類似者。如本文所使用的術語〝血液〞、〝血漿〞和〝血清〞明確地包含其部分或處理部分。同樣地,在樣品取自生檢,拭子,塗片等等時,〝樣品〞明確地包含衍生自生檢,拭子,塗片等等的處理部分或部位。
術語〝母體核酸〞和〝胎兒核酸〞在此分別係指孕婦受試者之核酸和由孕婦懷著的胎兒之核酸。
如本文所使用的術語〝對應於”有時係指在不同的受試者之基因組中存在的核酸序列,例如基因或染色體,且不一定於所有的基因組中具有相同的序列,但是用於提供除了基因信息以外的關注序列之同一性,例如基因或染色體。
如本文所使用的術語〝胎兒級分〞係指在包含胎兒及母體核酸之樣品中存在的胎兒核酸級分。胎兒級分常用於使母親血液中的cfDNA特徵化。
如本文所使用的術語〝染色體〞係指活細胞之攜遺傳性之基因載體,其衍生自包含DNA及蛋白質成分(尤其為組蛋白)之染色質鏈。在本文使用慣例的國際公認之個體人類基因組染色體編號系統。
如本文所使用的術語〝多核苷酸長度〞係指參考基因組之序列中或區域中的核苷酸之絕對數量。術語〝染色體長度〞係指以鹼基對給出的染色體之已知長度,例如提供在|genome|.|ucsc|.|edu/cgi-bin/hgTracks?hgsid=167155613&chromInfoPage=全球資訊網中發現的人類染色體之NCBI36/hg18組裝中。
術語〝受試者〞在此係指人類受試者以及非人類受試者,諸如哺乳動物、無脊椎動物、脊椎動物、真菌、酵母、細菌和病毒。儘管本文的實例涉及人類且語言主要針對人類考量,但是本文所揭示的概念可適用於任何 植物或動物的基因組,且可用於獸醫學、動物科學、研究實驗室等領域。
術語〝症狀〞在此係指作為廣義術語的〝醫療症狀〞,其包括所有的疾病和病症,但是可包括受傷及正常的健康情況,諸如懷孕,其可能影響人類健康、自醫療援助獲利或具有醫療治療的含意。
關於染色體非整倍體使用時,術語〝完全〞在本文係指整個染色體的獲取或丟失。
關於染色體非整倍體使用時,術語〝部分〞在本文係指染色體部分(亦即片段)的獲取或丟失。
術語〝嵌合〞在此係指代表在一個自單一受精卵發育之個體中存在具有不同的核型之兩種細胞群。嵌合可自發育期間的突變引起,其僅傳播至成年細胞的一個子集。
術語〝非嵌合〞在此係指由一種核型的細胞組成之有機體,例如人類胎兒。
如本文所使用的術語〝靈敏度〞係指當關注之症狀存在時,測試結果為陽性的機率。其可經計算為自真陽性除以真陽性與假陰性之總和的數量。
如本文所使用的術語〝特異性”係指當關注之症狀不存在時,測試結果為陰性的機率。其可經計算為真陰性除以真陰性與假陽性之總和的數量。
術語〝富集〞在此係指擴增在母體樣品一部分中所含的多型標靶核酸且將擴增之產物與去除該部分的 母體樣品的其餘部分組合之方法。例如,母親樣品的其餘部分可為原始母體樣品。
術語〝原始母體樣品〞在此係指從懷孕受試者(例如婦女)獲得的非富集之生物樣品,其適合作為去除部分以擴增多型標靶核酸的來源。〝原始樣品〞可為自懷孕受試者獲得的任何樣品及其處理部分,例如自母體血漿樣品中提取的經純化之cfDNA樣品。
如本文所使用的術語〝引子〞在此係指經分離之寡核苷酸,當放置在誘發延伸產物合成的條件下時(例如條件包括核苷酸、誘發劑(諸如DNA聚合酶)及適合的溫度和pH),其能夠勝任為合成的起始點。引子較佳為用於最大擴增效率之單鏈,但另外可為雙鏈。若為雙鏈,則在用於製備延伸產物前先處理引子,使其分離成單鏈。引子較佳為寡去氧核糖核苷酸。引子必須足夠長以起動在誘發劑存在下的延伸產物合成。引子的實際長度係取決於許多因素而定,包括溫度、引子來源、使用方法及用於引子設計之參數。
引言及背景
在人類基因組中的CNV顯著地影響對疾病的人類多樣性及易感性(Redon等人之Nature 23:444-454[2006],Shaikh等人之Genome Res 19:1682-1690[2009])。此等疾病包括但不限於癌症、感染性和自體免疫性疾病、神經系統疾病、代謝及/心血管疾病及類似者。
已知CNV通過不同的機制促成遺傳性病症,在大部分的例子中導致基因劑量失衡或基因破壞。除了該等與遺傳性病症的直接相關性以外,已知CNV調介可能有害的表現型變化。最近很多研究報導與正常的對照組相比而在複雜的疾病中增加了罕見或重新的CNV負荷,諸如Autism、ADHD和精神分裂症,突顯罕見或獨特的CNV之可能的致病性(Sebat等人之316:445-449[2007];Walsh等人之Science 320:539-543[2008])。CNV係由基因組重排而引起,主要由於缺失、複製、插入及失衡易位事件。
已證明胎兒來源的cfDNA片段平均比母體來源的那些片段短。已成功地執行基於NGS數據的NIPT(非侵入性產前測試)。目前的方法包含使用短讀序(25bp-36bp)定序母體樣品、與基因組並列、使亞染色體覆蓋率電腦化和標準化、且最後與正常的雙倍體基因組相關聯的預期之標準化覆蓋率相比以評估標靶染色體(13/18/21/X/Y)的過度表達。因此,傳統的NIPT檢定及分析係依賴於計數或覆蓋率以評估胎兒非整倍體之概度。
因為母體血漿樣品代表母體與胎兒cfDNA之混合物,所以任何給出之NIPT方法的成功係取決於其檢測在低胎兒級分樣品中複製數變化之靈敏度。基於計數之方法的其靈敏度係由(a)定序深度及(b)數據標準化以降低技術變異的能力決定。本發明提供用於NIPT及其他應用的分析方法,其係藉由自例如雙端讀序導出片段大小信息 且於分析流程中使用此信息。改進之分析靈敏度提供在降低的覆蓋率(例如降低定序深度)下應用NIPT方法,能使用該技術進行平均風險懷孕的低成本測試。
本發明揭示在包含衍生自二或多種不同的基因組之核酸混合物且已知或懷疑一或多個關注序列的量不同之測試樣品中測定不同的關注序列之複製數及複製數變異(CNV)之方法、設備及系統。以本文所揭示之方法及設備所測定之複製數變異包括整個染色體的獲取或丟失、包含以顯微鏡可見的非常大的染色體片段之改變及從單核苷酸、至千鹼基對(kb)、至百萬鹼基對(Mb)大小的DNA片段之亞微觀複製數變異的豐度。
在一些實施態樣中,提供使用不含母體及胎兒細胞之DNA的母體樣品測定胎兒的複製數變異(CNV)之方法。一些執行係使用cfDNA之片段長度(或片段大小)以改進對來自母體血漿中的cfDNA之胎兒非整倍體檢測的靈敏度及特異性。一些實施態樣係以與雙端DNA定序結合的不含PCR之文庫製備執行。在一些實施態樣中,利用片段大小及覆蓋率二者提高胎兒非整倍體檢測。在一些實施態樣中,該方法包含組合在整個基因組之區間中較短片段之獨立計數與較短片段之相對級分。
本文所揭示的一些實施態樣提供藉由去除樣品內GC含量偏差以改進序列數據分析的靈敏度及/或特異性之方法。在一些實施態樣中,去除樣品內GC含量偏差係基於對整個未受影響之訓練樣品共同的系統變異所校準 之序列數據。
所揭示的一些實施態樣提供自不含細胞之核酸片段導出具有高的信號對雜訊比的參數之方法,用於測定與複製數及CNV相關的各種遺傳性症狀,具有相對於慣用方法而改進之靈敏度、選擇性及/或效率。參數包括但不限於覆蓋率、經片段大小加權之覆蓋率、在限定範圍內的片段級分或比、片段之甲基化水平、自覆蓋率獲得的t檢驗統計值、自覆蓋率信息獲得的胎兒級分估計值等等。已發現所描述之方法在改進具有來自考慮下的基因組(例如胎兒的基因組)之相對低的DNA級分之樣品中的信號特別有效。此等樣品的實例為懷有雙胞胎、三胞胎等等的個體之母體血液樣品,其中該方法評定在胎兒之一的基因組中複製數變異。
在一些實施態樣中,高分析靈敏度及特異性可使用不需要PCR擴增之非常低的cfDNA輸入以簡單的文庫製備達成。不含PCR之方法簡化工作流程、改進整備時間及消除PCR方法的固有偏差。在一些實施態樣中,來自母體血漿之胎兒非整倍體的檢測可比慣用的方法更健全且有效,需要更少的獨特cfDNA片段。組合改進之分析靈敏度及特異性係在明顯更少的cfDNA片段數量下以非常快速的整備時間達成。這可能容許NIPT在明顯更低的成本下進行,促成應用於一般的產科群體。
在各種執行中,不含PCR之文庫製備於所揭示之方法是可行的。一些執行消除PCR方法的固有偏 差、降定檢定複雜性、降低所需之定序深度(降低2.5X)、提供更快的整備時間(例如在一天內整備)、能於過程中測量胎兒級分(FF)、使用片段大小信息促成母體與胎兒/胎盤cfDNA之間的辨別。
評估CNV 測定CNV之方法
使用本文所揭示之方法提供的序列覆蓋率值、片段大小參數及/或甲基化水平可測定與序列、染色體或染色體片段之複製數及CNV相關的各種遺傳性症狀,相對於以慣用方法所獲得的序列覆蓋率值而具有改進之靈敏度、選擇性及/或效率。例如,在一些實施態樣中,使用經遮蔽之參考序列測定在包含胎兒與母體核酸分子之母體測試樣品中任何二或多個不同的完全胎兒染色體非整倍體存在或不存在。下文提供的例示性方法使讀序與參考序列(包括參考基因組)並列。並列可在未經遮蔽或經遮蔽之參考序列上進行,因而得到映射至參考序列之序列標籤。在一些實施態樣中,僅考慮落在參考序列的未經遮蔽之片段上的序列標籤測定複製數變異。
在一些實施態樣中,評定CNV之核酸樣品包含以三種判讀類型之一使染色體或片段非整倍體的狀態特徵化:〝正常〞或〝未受影響〞、〝受影響〞及〝不判讀(no-call)〞。通常設定用於判讀正常及受影響之閾值。在樣品中測量與非整倍體或其他的複製數變異相關的參數且 將測量值與與閾值相比。關於複製型非整倍體,若染色體或片段劑量(或序列內容的其他測量值)大於受影響樣品的限定閾值設定,則成為受影響的判讀。關於此等非整倍體,若染色體或片段劑量低於正常樣品的閾值設定,則成為正常的判讀。比對缺失型非整倍體,若染色體或片段劑量低於受影響樣品的限定閾值,則成為受影響的判讀,且若染色體或片段劑量大於正常樣品的閾值設定,則成為正常的判讀。例如,在三倍體的存在下,〝正常〞的判讀係由低於使用者限定之可信賴閾值的參數值決定,例如測試染色體劑量,且〝未影響〞係由大於使用者限定之可信賴閾值的參數決定,例如測試染色體劑量。〝不判讀〞結果係由落在介於成於〝正常〞或〝受影響〞的判讀之閾值之間的參數決定,例如測試染色體劑量。如本文所使用的術語〝不判讀〞與〝未分類〞可交換使用。
可用於測定CNV之參數包括但不限於覆蓋率、經片段大小偏差/加權之覆蓋率、在限定之大小範圍內的片段級分或比及片段之甲基化水平。如本文所討論,覆蓋率係自與參考基因組區域並列的讀序計數而獲得且隨意地標準化以產生序列標籤計數。在一些實施態樣中,序列標籤計算可藉由片段大小加權。
在一些實施態樣中,片段大小參數對基因組之一的片段大小特徵產生偏差。片段大小參數為關於片段大小的參數。當:1)有利地加權於片段大小的參數時,例如對該大小比其他的大小更重地加權計數;或2)參數係自 有利地加權於片段大小之值獲得時,例如自更重地加權於該大小之計數獲得的比,則參數對片段大小產生偏差。當基因組相對於另一個基因組或相同基因組的另一部分而具有富集或較高濃度的核酸大小時,則大小為基因組的特徵。
在一些實施態樣中,用於測定在母體測試樣品中任何完全胎兒染色體非整倍體存在或不存在之方法包含(a)獲得在母體測試樣品中的胎兒及母體核酸之序列信息;(b)使用序列信息及本文所述之方法鑑定每一選自第1至22號、X和Y染色體的關注之染色體的序列標籤數量、序列覆蓋率數量、片段大小參數或另一參數及鑑定一或多個標準化染色體序列的序列標籤數量或另一參數;(c)使用對每一關注之染色體鑑定之序列標籤數量或其他參數及對每一標準化染色體鑑定之序列標籤數量或其他參數計算每一關注之染色體的單一染色體劑量;及(d)將各染色體劑量與閾值比較,且因而測定母體測試樣品中任何完全胎兒染色體非整倍體存在或不存在。
在一些實施態樣中,上述步驟(a)可包含定序測試樣品之至少一部分的核酸分子,以獲得測試樣品之胎兒與母體核酸分子的該序列信息。在一些實施態樣中,步驟(c)包含將每一關注之染色體的單一染色體劑量計算成對每一關注之染色體鑑定之序列標籤數量或其他參數及對標準化染色體序列鑑定之序列標籤數量或其他參數之比。在一些其他的實施態樣中,染色體劑量係基於自序列標籤數 量或另一參數導出的經處理之序列覆蓋率數量。在一些實施態樣中,僅使用獨特的非多餘性序列標籤計算經處理之序列覆蓋率數量或另一參數。在一些實施態樣中,經處理之序列覆蓋率數量為序列標籤密度比,其為以序列長度標準化之序列標籤數量。在一些實施態樣中,經處理之序列覆蓋率數量或其他參數為標準化序列標籤或另一標準化參數,其係以關注序列之序列標籤數量或其他參數除以全部或實質上一部分基因組之序列標籤數量或其他參數。在一些實施態樣中,經處理之序列覆蓋率數量或其他參數(諸如片段大小參數)係根據關注序列之全體輪廓調整。在一些實施態樣中,經處理之序列覆蓋率數量或其他參數係根據欲測試之樣品的GC含量與序列覆蓋率之間的樣品內相關性調整。在一些實施態樣中,經處理之序列覆蓋率數量或其他參數起因於在本文別處進一步說明的該等處理之組合。
在一些實施態樣中,染色體劑量係以每一關注之染色體的經處理之序列覆蓋率或其他參數及標準化染色體序列的經處理之序列覆蓋率或其他參數之比計算。
在上文實施態樣之任一者中,完全染色體非整倍體係選自完全染色體三倍體、完全染色體單倍體和完全染色體多倍體。完全染色體非整倍體係選自第1至22號、X和Y染色體之任一者中的完全非整倍體。例如,該不同的完全胎兒染色體非整倍體係選自2號染色體三倍體症、8號染色體三倍體症、9號染色體三倍體症、20號染 色體三倍體症、21號染色體三倍體症、13號染色體三倍體症、16號染色體三倍體症、18號染色體三倍體症、22號染色體三倍體症、47,XXX、47,XYY和X染色體單倍體症。
在上文實施態樣之任一者中,對來自不同的母體受試者重複步驟(a)至(d),且該方法包含測定在每一測試樣品中任何二或多個不同的完全胎兒染色體非整倍體存在或不存在。
在上文實施態樣之任一者中,該方法可另包含計算標準化染色體值(NCV),其中NCV使染色體劑量與對應於合格樣品集中的染色體劑量平均值相關,如: 其中分別為合格樣品集中的j號染色體之估計平均值及標準偏差,且x ij 為測試樣品i的經觀察之j號染色體劑量。
在一些實施態樣中,NCV可藉由測試樣品中關注之染色體的染色體劑量與在相同的流動槽上定序之多樣化樣品中的對應染色體劑量之中位數的關係而〝即時〞計算,如: 其中M j 為在相同的流動槽上定序之多樣化樣品集中的j號染色體劑量之估計中位數;為在一或多個流動槽上定序之一或多個多樣化樣品集中的j號染色體劑量之標準偏差,且x i 為測試樣品i的經觀察之j號染色體劑量。在此實施態樣中,測試樣品i為在測定M j 之相同的流動槽上定序之多樣化樣品之一。
在一些實施態樣中,提供用於測定包含胎兒及母體核酸的母體測試樣品中不同的部分胎兒染色體非整倍體存在或不存在之方法。該方法包含類似於上文概述之檢測完全非整倍體之程序。然而,以分析染色體片取代分析完全染色體。參見美國專利申請公開案第2013/0029852號,將其併入以供參考。
圖1顯示依照一些實施態樣用於測定複製數變異存在之方法。在圖1中例證之方法100使用基於序列標籤數量(亦即序列標籤計數)之序列標籤覆蓋率以測定CNV。然而,類似於計算NCV之上文說明,可使用其他的變數或參數(諸如大小、大小比及甲基化水平)取代覆蓋率。在一些執行中,將二或多個變數組合以測定CNV。此外,覆蓋率及其他參數可基於導出標籤之片段的大小加權。為了容易閱讀,僅於圖1中例證之方法100中稱為覆蓋率,但是應注意可使用其他參數代替覆蓋率,諸如大小、大小比及甲基化水平、以大小加權之計數等等。
在操作130和135中測定合格的序列標籤覆 蓋率(或另一參數值)及測試序列標籤覆蓋率(或另一參數值)。本發明提供測定覆蓋率量之方法,其相對於慣用的方法而提供了改進之靈敏度及選擇性。操作130和135係以星號標記且以粗線框強調,表示該等操作促成超越先前技術的改進。在一些實施態樣中,序列標籤覆蓋率量經標準化、調整、修整及其他方式處理以改進分析的靈敏度及選擇性。該等方法於本文別處進一步說明。
從橫觀的角度來看,該方法係利用合格的訓練樣品之標準化序列以測定測試樣品之CNV。在一些實施態樣中,合格的訓練樣品不受影響且具有正常的複製數。標準化序列提供使運作內和運作間變異性之量測標準化之機制。標準化序列係使用來自已知包含就任何一種關注序列(例如染色體或其片段)具有正常的複製數之細胞的受試者所獲得的合格樣品集之序列信息鑑定。標準化序列之測定係於圖1所描述之方法的實施態樣之步驟110、120、130、145和146中概述。在一些實施態樣中,使用標準化序列計算測試序列之序列劑量。參見步驟150。在一些實施態樣中,亦使用標準化序列計算用於比較測試序列之序列劑量的閾值。參見步驟150。使用自標準化序列及測試序列所獲得的序列信息測定在測試樣品中染色體非整倍體之統計學上有意義的鑑定(步驟160)。
轉到根據一些實施態樣用於測定複製數變異存在之方法的細節,圖1提供用於測定在生物樣品中的關注序列(例如染色體或其片段)之CNV的實施態樣之流程 圖100。在一些實施態樣中,生物樣品係自受試者獲得且包含由不同的基因組貢獻的核酸之混合物。不同的基因組樣品可由兩個個體貢獻,例如不同的基因組係由胎兒及懷胎兒的母體貢獻。不同的基因組樣品亦可由三或多個個體貢獻,例如不同的基因組係由二或多個胎兒及懷胎兒的母體貢獻。另一選擇地,基因組樣品係由來自相同的受試者(例如來自癌症患者的血漿樣品)的非整倍體癌性細胞及正常的整倍體細胞貢獻。
除了分析患者的測試樣品以外,選擇一或多個標準化染色體或一或多個標準化染色體片段用於每一可能的關注之染色體。標準化染色體或片段不同步地自患者樣品的正常測試鑑定,這可能發生在臨床環境中。換言之,標準化染色體或片段係在測試患者樣品之前鑑定。標準化染色體或片段及關注之染色體或片段之間的關聯經儲存而於測試期間使用。如下文所解釋,此等關聯通常維持在一段延伸至許多樣品測試的時期。下列的討論關於選擇標準化染色體或染色體片段用於關注之個別染色體或片段的實施態樣。
獲得合格樣品集以鑑定合格的標準化序列且提供用於測定在測試樣品中於統計學上有意義的CNV鑑定之變異值。在步驟110中,複數個生物合格樣品係自複數個已知包含就任何一種關注序列具有正常的複製數之細胞的受試者獲得。在一個實施態樣中,合格樣品係自懷有已使用細胞遺傳學方式確認具有正常的染色體複製數之胎 兒的母親獲得。生物樣品合格可為生物流體(例如血漿)或如下文所述之任何適合的樣品。在一些實施態樣中,合格樣品含有核酸分子(例如cfDNA分子)之混合物。在一些實施態樣中,合格樣品為含有胎兒與母體cfDNA分子之混合物母體血漿樣品。標準化染色體及/或其片段之序列信息係藉由使用任何已知的定序方法定序至少一部分的核酸(例如胎兒及母體核酸)而獲得。較佳地使用本文所處所述之下一代定序(NGS)方法中之任一者定序胎兒及母體核酸作為單一或選殖擴增之分子。在各種實施態樣中,合格樣品係在定序之前及期間如下文所述處理。彼等可使用如本文所述之設備、系統及套組處理。
在步驟120中,內含在合格樣品中的至少一部份的每一所有合格核酸經定序以產生數百萬的序列讀序,例如36bp讀序,其與參考基因組並列,例如hg18。在一些實施態樣中,序列讀序包含約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp或約500bp。當產生雙端讀序時,則預期技術的進步能使大於500bp之單端讀序能用於大於約1000bp之讀序。在一個實施態樣中,經映射之序列讀序包含36bp。在另一實施態樣中,經映射之序列讀序包含25bp。
序列讀序對穩參考基因組且獨特地映射至參考基因組之讀序已知為序列標籤。落在經遮蔽之參考序列的經遮蔽之片段上的序列標籤不於CNV分析中計數。
在一個實施態樣中,包含介於20與40bp讀序之間的至少約3×106個合格序列標籤、至少約5×106個合格序列標籤、至少約8×106個合格序列標籤、至少約10×106個合格序列標籤、至少約15×106個合格序列標籤、至少約20×106個合格序列標籤、至少約30×106個合格序列標籤、至少約40×106個合格序列標籤或至少約50×106個合格序列標籤係自獨特地映射至參考基因組之讀序獲得。
在步驟130中,將自定序合格樣品中的核酸所獲得的所有標籤計數以獲得合格的序列標籤覆蓋率。同樣地,在操作135中,將自測試樣品所獲得的所有標籤計數以獲得測試序列標籤覆蓋率。本發明提供確定覆蓋率之方法,其相對於慣用的方法而提供了改進之靈敏度及選擇性。操作130和135係以星號標記且以粗線框強調,表示該等操作促成超越先前技術的改進。在一些實施態樣中,序列標籤覆蓋率量經標準化、調整、修整及其他方式處理以改進分析的靈敏度及選擇性。該等方法於本文別處進一步說明。
當映射且計數每一合格樣品中之所有合格的序列標籤時,則測定在合格樣品中的關注序列(例如臨床相關序列)之序列標籤覆蓋率,作為對額外序列之序列標 籤覆蓋率,來自該額外序列之標準化序列於後續鑑定。
在一些實施態樣中,關注之列為與完全染色體非整倍體相關聯的染色體,例如21號染色體,且合格的標準化序列為與染色體非整倍體無關聯的完全染色體且其在序列標籤覆蓋率的變異近似於關注序列(亦即染色體)(例如21號染色體)之變異。所選擇之標準化染色體可為最近似於關注序列之序列標籤覆蓋率變異的一個或一組染色體。1至22號、X和Y染色體中之任一或多者可為關注之序列,且一或多個染色體可經鑑定為合格樣品中的每一任何一個第1至22號、X和Y染色體之標準化序列。標準化染色體可為個別染色體或為如本文別處所述之一組染色體。
在另一實施態樣中,關注之序列為與部分非整倍體(例如染色體缺失或插入或失衡之染色體易位)相關聯的染色體片段,且標準化序列為與部分非倍體無關聯的染色體片段(或一組片段)且其在序列標籤覆蓋率的變異近似於與部分非整倍體相關聯的染色體片段之變異。所選擇之標準化染色體片段可為最近似於關注序列之序列標籤覆蓋率變異的一或多個片段。任何一或多個1至22號、X和Y染色體的任何一或多個片段可為關注之序列。
在其他的實施態樣中,關注之序列為與部分非整倍體相關聯的染色體片段且標準化序列為完整染色體或染色體類。在又其他的實施態樣中,關注之序列為與非整倍體相關聯的完整染色體且標準化序列為與非整倍體無 關聯的染色體片段或片段類。
無論是單一序列或一組序列經鑑定為合格樣品中的任何一或多個關注序列之標準化序列,可選擇之合格的標準化序列具有最好或有效地近似於如合格樣品中所測定的關注序列之序列標籤覆蓋率或片段大小參數變異。例如,合格的標準化序列為用於使關注序列標準化時於整個合格樣品中產生最小的變異性之序列,亦即標準化序列之變異性最接近於整個合格樣品中所測定的關注序列之變異性。換言之,合格的標準化序列為經選擇以產生於合格樣品中最小的序列劑量(對關注之序列)變異之序列。因此,該方法選擇在用作為標準化染色體時預期對關注之序列產生最小的批次運作(run-to-run)染色體劑量變異性之序列。
在合格樣品中對任何一或多個關注序列鑑定之標準化序列仍選擇標準化序列用於測定經數天、數週、數月及可能數年於測試樣品中存在或不存在的非整倍體,先決條件為產生定序文庫且定序樣品的程序基本上不隨時間改變。如上文所述,用於測定非整倍體存在的標準化序列之選擇係因(可能亦有其他原因)映射於樣品之間(例如不同的樣品)的序列標籤數量或片段大小參數值變異性及定序運作,例如發生在同一天及/或不同天的定序運作,最好近似於用作為標準化參數的關注序列之變異性。在該等程序中的實質改變將影響映射至所有序列的標籤數量,依此以其測定哪一個或哪一組序列在同一天或不同天以相同 及/或不同的定序運作而於整個樣品具有變異性,其最近似於關注序列之變異性,可能需要重新測定標準化序列集。實質的程序改變包括改變用於製備定序文庫之實驗室方案,其包括與製備用於多樣定序而非單樣(單樣)定序之樣品相關的改變,及在定序平台的改變,其包括用於定序的化學改變。
在一些實施態樣中,經選擇使特定的關注序列標準化之標準化序列為最好使一或多個合格樣品與一或多個受影響樣品區別之序列,其意味著標準化序列為具有最大的可區分性之序列,亦即以標準化序列的可區分性使得其提供最優化區別受影響的測試樣品中之關注序列,容易地區別受影響的測試樣品與其他未受影響的樣品。在其他的實施態樣中,標準化序列為具有最小變異性與最大可微分的組合之序列。
可區分性水平可經測定為在合格樣品群體中的序列劑量(例如染色體劑量或片段劑量)與一或多個如下文所述且於實施例中所示之測試樣品中的染色體劑量之間的統計差別。例如,可區分性可以數字表示為t測試值,其代表在合格樣品群體中的染色體劑量與在一個或多個測試樣品中染色體劑量之間的統計差別。同樣地,可區分性可基於片段劑量,而不是染色體劑量。另一選擇地,可區分性可以數字表示為標準化染色體值(NCV),其為染色體劑量的z-計分,只要NCV之分配為正常的。同樣地,在其中染色體片段為關注之序列的例子中,片段劑量的可區 分性可以數字表示為標準化片段值(NCV),其為染色體劑量的z-計分,只要NCV之分配為正常的。在測定Z-計分時,可使用在合格樣品集中的染色體或片段劑量之平均值及標準偏差。另一選擇地,可使用在包含合格樣品及受影響樣品之訓練集中的染色體或片段劑量之平均值及標準偏差。在其他的實施態樣中,標準化序列為具有最小的變異性及最大的可區分性或小的變異性與大的可微性之最優化組合之序列。
該方法鑑定固有地具有類似的特徵且在樣品與定序運作中傾向類似的變異之序列,且其有用於測定測試樣品中的序列劑量。
序列劑量之測定
在一些實施態樣中,一或多個關注之染色體或片段的染色體或片段劑量係如圖1所示之步驟146所述於所有的合格樣品中測定,且標準化染色體或片段序列係於步驟145中鑑定。一些標準化序列係在計算序列劑量之前提供。接著一或多個標準化序列係根據如下文進一步說明之各種標準鑑定,參見步驟145。在一些實施態樣中,例如經鑑定之標準化序列導致對整個所有合格樣品之關注序列最小的序列劑量變異性。
在步驟146中,基於經計算之合格標籤密度而使關注序列之合格序列劑量(亦即染色體劑量或片段劑量)經測定為關注序列之序列標籤覆蓋率及額外序列之合 格序列標籤覆蓋率之比,接著以該比於步驟145中鑑定標準化序列。接著使用經鑑定之標準化序列測定測試樣品中的序列劑量。
在一個實施態樣中,在合格樣品中的序列劑量為染色體劑量,其經計算為合格樣品中的關注之染色體的序列標籤數量或片段大小參數及標準化染色體之序列標籤數量之比。標準化染色體序列可為單一染色體、一組染色體、一個染色體之片段或一組來自不同的染色體之片段。據此,關注之染色體的染色體劑量係於合格樣品中經測定為以關注之染色體的標籤數量及以下列者的標籤數量之比:(i)由單一染色體所組成的標準化染色體序列,(ii)由二或多個染色體所組成的標準化染色體,(iii)由染色體的單一片段所組成的標準化片段序列,(iv)由一個染色體的二或多個片段所組成的標準化片段序列,或(v)由二或多個染色體的二或多個片段所組成的標準化片段序列。根據(i)至(v)測定關注之21號染色體的染色體劑量之實例係如下:關注之染色體(例如21號染色體)的染色體劑量經測定為21號染色體之序列標籤覆蓋及下列的序列標籤覆蓋率中之一者之比:(i)每一所有剩餘的染色體,亦即1至20號染色體、22號染色體、X染色體和Y染色體;(ii)二或多個剩餘染色體的所有可能組合;(iii)另一染色體的片段,例如9號染色體;(iv)一個其他染色體的兩個片段,例如9號染色體的兩個片段;(v)兩個不同的染色體的兩個片段,例如9號染色體的片段和14號染色體的片段。
在另一實施態樣中,在合格樣品中的序列劑量為相對於染色體劑量之片段劑量,該片段劑量經計算為關注片段(其為不完整染色體)的序列標籤數量及合格樣品中標準化片段序列的序列標籤數量之比。標準化片段序列可為上文討論之標準化染色體或片段序列中之任一者。
標準化序列之鑑定
在步驟145中,鑑定關注序列之標準化序列。在一些實施態樣中,例如標準化序列為基於經計算之序列劑量的序列,例如其導致整個所有合格的訓練樣品之關注序列最小的序列劑量變異性。該方法鑑定固有地具有類似的特徵及在樣品與定序運作中傾向類似變異之序列,且有用於測定測試樣品中的序列劑量。
可鑑定在合格樣品集中之一或多個關注序列之標準化序列,且在合格樣品中鑑定之序列接著可用於計算每一測試樣品中之一或多個關注序列之序列劑量(步驟150),以測定在每一測試樣品中非整倍體的存在或不存在。當使用不同的定序平台時及/或當欲定序之核酸及/或製備定序文庫的純化有差別時,則對關注之染色體或片段鑑定之標準化序列可能不同。根據本文所述之方法使用標準化序列提供染色體或其片段的複製數變異之特異且靈敏的測量,不考慮所使用的樣品製備及/或定序平台。
在一些實施態樣中,鑑定一個以上的標準化序列,亦即可對一個關注序列測定不同的標準化序列。例 如,當使用14號染色體之序列標籤覆蓋率時,則對關注之21號染色體的染色體劑量變異(例如變異係數(CV=標準偏差/平均值))最小。然而,可鑑定二、三、四、五、六、七、八或多個標準化序列用於測定在測試樣品中關注序列之序列劑量。作為一實例,當該等染色體全部具有接近於14號染色體之CV時,則在任何一個測試樣品中的21號染色體之第二劑量可使用7號染色體、9號染色體、11號染色體或12號染色體作為標準化染色體序列測定。
在一些實施態樣中,當選擇單一染色體作為關注染色體的標準化染色體時,則標準化染色體序列為導致關注染色體的染色體劑量之染色體,其於所測試的整個所有樣品(例如合格樣品)具有最小的變異性。在一些情況下,最好的標準化染色體可能不具有最小的變異,但是具有最好地區別測試樣品或樣品類與合格樣品之合格劑量分配,亦即最好的標準化染色體可能不具有最低的變異,但可能具有最大的可區分性。
在一些實施態樣中,標準化序列包括一個或多個健全的體染色體序列或其片段。在一些實施態樣中,健全的體染色體包括除了關注之染色體以外的所有體染色體。在一些實施態樣中,健全的體染色體包括除了X、Y、13號、18號和21號染色體以外的體染色體。在一些實施態樣中,健全的體染色體包括除了那些偏離正常的雙倍體狀態之樣品所測定者以外的所有體染色體,其可用於測定相對於正常的雙倍體基因組而具有不正常的複製數之 癌基因組。
在測試樣品中非整倍體之測定
在包含自一或多個關注序列的不同基因組所衍生之核酸的混合物之測試樣品中關注序列之序列劑量係基於合格樣品中的標準化序列之鑑定測定。
在步驟115中,測試樣品係自懷疑或已知攜有關注序列之臨床相關的CNV之受試者獲得。測試樣品可為生物流體,例如血漿或如下文所述之適合的樣品。如所解釋,樣品可使用非侵入性程序(諸如簡單的抽血)而獲得。在一些實施態樣中,測試樣品含有核酸分子混合物,例如cfDNA分子。在一些實施態樣中,測試樣品為含有胎兒與母體cfDNA分子之混合物的母體血漿樣品。
在步驟125中,在測試樣品中至少一部分的測試核酸係如合格樣品所述定序,以產生數百萬的序列讀序,例如36bp讀序。在各種實施態樣中,以2x36bp雙端讀序用於雙端定序。如步驟120,自定序測試樣品中核酸所產生之讀序獨特地與參考基因組映射或並列以產生標籤。如步驟120所述,包含介於20與40bp讀序之間至少約3×106個合格的序列標籤、至少約5×106個合格的序列標籤、至少約8×106個合格的序列標籤、至少約10×106個合格的序列標籤、至少約15×106個合格的序列標籤、至少約20×106個合格的序列標籤、至少約30×106個合格的序列標籤、至少約40×106個合格的序列標籤或至少約 50×106個合格的序列標籤係自獨特地映射至參考基因組之讀序獲得。在特定的實施態樣中,由定序設備所產生的讀序係以電子格式提供。並列係使用下文討論的計算設備實現。將個別的讀序與時常為龐大(數百萬個鹼基對)的參考基因組相比以鑑定使讀序獨特地符合於參考基因組之位點。在一些實施態樣中,並列程序允許在讀序與參考基因組之間有限的錯配。在一些例子中,允許讀序中1、2或3個鹼基對錯配在參考基因組中對應的鹼基對,且仍進行映射。
在步驟135中,使用如下文所述之計算設備計數自定序測試樣品中核酸所獲得的全部或大部分標籤,以測定測試序列標籤覆蓋率。在一些實施態樣中,各讀序與參考基因組之特定區域(在大部分例子中的染色體或片段)並列且讀序係藉由附加位點信息至讀序而轉換成標籤。當此方法展開時,計算設備可維持標籤數量的運作計數/讀序映射至參考基因組的各區域(在大部分例子中的染色體或片段)。儲存各關注染色體或片段及各對應之標準化染色體或片段的計數。
在特定的實施態樣中,參考基因組具有一或多個排除區域,其為真正的生物基因組的一部分,但不包括在參考基因組中。不計數可能與該等排除區域並列之讀序。排除區域的實例包括長的重複序列區域、在X與Y染色體等之間的相似性區域等等。使用上文所述之遮蔽技術所獲得的經遮蔽之參考序列,僅考慮在參考序列的未遮 蔽之片段上的標籤用於CNV分析。
在一些實施態樣中,當多個讀序與參考基因組或序列上相同的位點並列時,該方法測定是否計數標籤不止一次。可能有當兩個標籤具有相同的序列且因此與參考序列上的相同位點並列時之場合。用來計數標籤之方法可在特定情況下排除自相同的定序樣品導出之計數相同的標記。若不成比例的標籤數量在給出之樣品中相同,示意在程序中有強的偏差或其他缺陷。因此,依照特定的實施態樣,計數方法不計數來自給出之樣品的標籤,其與來自先前計數之樣品的標籤相同。
當忽視來自單一樣品的相同標籤時,可設定各種用於選擇的標準。在特定的實施態樣中,經計數之標籤的限定百分比必須為獨特的。若超過此閾值的更多標籤非獨特的,則忽略該等標籤。例如,若限定百分比要求至少50%為獨特的,則不計數相同標記,直到樣品的獨特標籤百分比超過50%為止。在其他的實施態樣中,獨特標籤之閾值數量為至少約60%。在其他的實施態樣中,獨特標籤之閾值數量為至少約75%、或至少約90%、或至少約95%、或至少約98%、或至少約99%。閾值可就21號染色體而設定在90%。若30M標籤與21號染色體並列,則標籤中之至少27M必須為獨特的。如果3M計數之標籤不為獨特且3千萬及第一標籤不為獨特的,則不計數。當不計數另外相同的標籤時,可使用適當的統計分析選擇用於測定的特定閾值或其他標準的選擇。影響此閾值或其他 標準的一個因素為經定序之樣品對可與標籤並列的基因組之大小的相對量。其他的因素包括讀序大小及類似的考慮。
在一個實施態樣中,將映射至關注序列之測試序列標籤數量標準化至彼等映射之關注序列的已知長度,以提供測試序列標籤密度比。如以合格樣品所述,標準化至關注序列的已知長度是沒必要的,且可包括作為步驟以減少數字中的數位量,使其簡化供人解讀。因為計數測試樣品中所有映射之測試序列標籤,所以測定序列標籤對測試樣品中關注序列(例如臨床相關序列)之覆蓋率,作為對應於合格樣品中所鑑定之至少一種標準化序列的額外序列之序列標籤覆蓋率。
在步驟150中,基於合格樣品中至少一種標準化序列之同一性以測定在測試樣品中關注序列之測試序列劑量。在各種實施態樣中,測試序列劑量係使用如本文所述的關注序列之序列標籤覆蓋率及對應之標準化序列而經電腦計算測定。負責此任務的計算設備係經電子存取在關注序列與其相關聯的標準化序列之間的關聯,其可儲存在資料庫、表、圖形或以代碼包括在程序指令中。
如本文別處所述,至少一種標準化序列可為單一序列或一組序列。在測試樣品中關注序列之序列劑量為對測試樣品中關注序列所測定之序列標籤覆蓋率及在測試樣品中所測定之至少一種標準化序列的序列標籤覆蓋率之比,其中測試樣品中標準化序列對應於合格樣品中對特 定的關注序列鑑定之標準化序列。例如,若對合格樣品中21號染色體鑑定之標準化序列經測定為染色體,例如14號染色體,則接著21號染色體(關注序列)之測試序列劑量經測定為分別對測試樣品中所測定之21號染色體的序列標籤覆蓋率及對14號染色體的序列標籤覆蓋率之比。同樣地測定13號、18號、X、Y染色體及與染色體非整倍體相關聯的其他染色體之染色體劑量。關注之染色體的標準化序列可為一個或一組染色體或一個或一組染色體片段。如先前所述,關注之序列可為染色體的一部分,例如染色體片段。據此,染色體片段劑量可經測定為對測試樣品中的片段所測定之序列標籤覆蓋率及對測試樣品中的標準化染色體片段所測定之序列標籤覆蓋率之比,其中在測試樣品中的標準化片段對應於合格樣品中對特定的關注之片段所測定之標準化片段(單一或一組片段)。染色體片段的大小範圍可從數間個鹼基對(kb)至數百萬個鹼基對(Mb)(例如約1kb至10kb,或約10kb至100kb,或約100kb至1Mb)。
在步驟155中,閾值係自對複數個合格樣品中所測定之合格序列劑量及對已知為關注序列之非整倍體的樣品所測定之序列劑量確立的標準偏差所導出。應注意此操作通常與分析患者測試樣品不同步地進行。其可例如與自合格樣品選擇標準化序列同時進行。精確的分類係取決於不同類別的概率分配之間的差異,亦即非整倍體的類型。在一些實例中,閾值係選自對非整倍體的各類型之經 驗分布,例如21號染色體三倍體症。確立用於分類如實例所述之13號染色體三倍體症、18號染色體三倍體症、21號染色體三倍體症及X染色體單倍體症非整倍體之可能的閾值,其說明藉由定序自包含胎兒及母體核酸之混合物的母體樣品所提取之cfDNA以測定染色體非整倍體之方法的用途。經測定以染色體非整倍體區別受影響樣品之閾值與不同的非整倍體之閾值可相同或可不同。如實施例所示,各關注之染色體的閾值係自整個樣品及定序運作的關注染色體之劑量變異性測定。任何關注之染色體的染色體劑量變化越小,則整個所有未受影響樣品的關注之染色體劑量的擴散越窄,其被用於設定用於測定不同的非整倍體之閾值。
返回與分類患者測試樣品相關聯的處理流程,在步驟160中,在測試樣品中關注序列之複製數變異係藉由比較關注序列之測試序列劑量與至少一個自合格序列劑量所確立之閾值測定。此操作可以用於測量序列標籤覆蓋及/或計算片段劑量的相同計算設備執行。
在步驟160中,將關注之測試序列的計算劑量與根據使用者限定之〝可靠性閾值〞選擇之閾值的設定比較,以分類樣品為〝正常〞、〝受影響〞或〝不判讀〞。〝不判讀〞的樣品為不可達到可靠性的決定性診斷之樣品。各類型的受影響樣品(例如21號染色體三倍體症、部分21號染色體三倍體症、X染色體單倍體症)具有其本身的閾值,一個用於判讀正常(未受影響)樣品及另一 個用於判讀受影響樣品(儘管在一些例子中的兩個閾值一致)。如本文別處所述,在一些情況下,若測試樣品中核酸之胎兒級分足夠高,可將不判讀轉換成判讀(受影響或正常)。測試序列的分類可以此處理流程的其他操作中所使用的計算設備報告。在一些例子中,分類係以電子格式報告且可向有興趣的人員顯示、寄送、發送等等。
在一些實施態樣中,CNV之測定包含計算使染色體或片段劑量與對應於合格樣品集中的染色體或片段劑量平均值相關的NCV或NSV,於如上文所述。接著可藉由比較NCV/NSV與預定之複製數評估閾值比較以測定CNV。
可選擇複製數評估閾值使假陽性率及假陰性率最優化。複製數評估閾值越高,則假陽性越不可能出現。同樣地,閾值越低,則假陰性越不可能出現。因此,權衡存在於第一理想閾值(僅以高於該閾值分類成真陽性)與第二理想閾值(僅以低於該閾值分類成真陰性)之間。
閾值的設定主要取決於特定的關注染色體之染色體劑量變異性而定,如在未受影響樣品集中所測定。變異性係取決於許多因素而定,包括在樣品中存在的胎兒cDNA級分。變異性(CV)係以整個未受影響樣品群體的染色體劑量之平均值或中位數及標準偏差測定。因此,分類非整倍體的閾值係根據下式使用NCV: (其中分別為合格樣品集中的j號染色體劑量之估計 平均值及標準偏差,且 x ij 為測試樣品i的經觀察之j號染色體。)
具有相關的胎兒級分如下:
因此,對關注之染色體的每個NCV,與給出之NCV值相關聯的預期之胎兒級分可基於整個未受影響樣品群體的關注染色體之染色體比的平均值及標準偏差而自CV計算。
接著可基於胎兒級分與NCV值之間的關係選擇判定邊界,大於該邊界之樣品係基於常態分配分位數(normal distribution quantile)而測定為陽性(受影響)。如上文所述,在一些實施態樣中,設定閾值而使真陽性檢測與假陰性結果率之間最優化。亦即選擇閾值而使真陽性與真陰性之總和達到最大或使假陽性與假陰性之總和達到最小。
特定的實施態樣提供在包含胎兒與母體核酸分子之生物樣品中提供胎兒染色體非整倍體的產前診斷之方法。該診斷係基於下述進行:自生物測試樣品(例如母體血漿樣品)所衍生之胎兒與母體核酸分子混合物之至少一部分獲得序列信息、自定序數據電腦計算一或多個關注染色體之標準化染色體劑量及/或一或多個關注片段之標準化片段劑量,且測定在測試樣品中分別的關注染色體之染色體劑量及/或關注片段之片段劑量與在複數個合格(正常)樣品中確立的閾值之間的統計顯著差別,且提供基於 統計差別的產前診斷。如方法的步驟160所述,進行正常或受影響的診斷。在對正常或受影響的樣品不可達到可靠的診斷之事件中提供〝不判讀〞。
在一些實施態樣中,選擇兩個閾值。選擇第一閾值使假陽性率達到最小,將大於該閾值的樣品分類成〝受影響〞,及選擇第二閾值,其使假陰性率達到最小,將低於該閾值的樣品分類成〝不受影響〞。具有大於第二閾值,但低於第一閾值之NCV的樣品可分類成〝非整倍體懷疑〞或〝不判讀〞樣品,非整倍體的存在或不存在可以獨立方式確認。在第一與第二閾值之間的區域可稱為〝不判讀〞區域。
在一些實施態樣中,經懷疑及不判讀閾值顯示於表1中。可如所見,NCV之閾值在不同的染色體上改變。在一些實施態樣中,閾值係根據樣品的FF改變,如上文所解釋。在本文所應用之閾值技術在一些實施態樣中促成改進之靈敏度及選擇性。
片段大小及序列覆蓋率分析
如上文所述,片段大小參數以及覆蓋率可用 於評估CNV。不含細胞之核酸片段(例如cfDNA片段)的片段大小可藉由雙端定序、電泳(例如基於微晶片之毛細管電泳)及本技術中已知的其他方法獲得。圖2A主要例證如何可使用雙端定序以測定片段大小及序列覆蓋率二者。
圖2A的上半部顯示不含胎兒細胞之DNA片段及不含母體細胞之DNA片段的圖形,其提供雙端定序方法之模板。照慣例將長的核酸序列在雙端定序方法中分段成欲讀取的較短序列。此等片段亦稱為插入物。不含細胞之DNA沒必要分段,因為彼等已存在於大多數少於300鹼基對之片段中。已證明在母體血漿中的不含胎兒細胞之DNA片段比不含母體細胞之DNA片段更長。如在圖2A的上半部所示,源於胎兒的不含細胞之DNA具有約167個鹼基對之平均長度,而母體起源的不含細胞之DNA具有約175個鹼基對之平均長度。在特定平台上的雙端定序中,諸如以下文進一步說明之合成平台的Illumina定序,將轉接子序列、索引序列及/或原型序列接合至片段的兩端(未於圖2A中顯示)。先讀取一個方向的片段,從片段的一端提供讀序1。接著第二讀序係從片段的另一端開始,提供讀序2序列。在讀序1與讀序2之間的對應性可藉由彼等在流動槽中的坐標鑑定。接著將讀序1及讀序2映射至參考序列成為彼此接近的一對標籤,如圖2A的下半部所示。在一些實施態樣中,若讀序足夠長,則兩個讀序可在插入物中間部分重疊。在一對標籤與參考序列並列之後,可從兩個讀序的位置測定在兩個讀序之間的相對 距離及片段長度。因為雙端讀序提供兩倍與相同的讀序長度之單端讀序一樣多的鹼基對,彼等有助於改進並列質量,尤其對於具有許多重複序列或非獨特序列的序列。在許多實施態樣中,將參考序列分成區間,諸如100K鹼基對區間。在雙端讀序與參考序列並列之後,可測定與區間並列之讀序數量。亦可測定區間之插入物(例如cfDNA片段)的數量以及長度。在一些實施態樣中,若插入物橫跨兩個區間,則插入物的一半可歸屬於各區間。
圖2B顯示提供使用基於大小之覆蓋率以測定在包括源自二或多個基因組的不含細胞之核酸片段的測試樣品中關注之核酸序列的複製數變異之方法220的實施態樣。當:1)有利地加權於片段大小或大小範圍的參數時,例如當與該大小或大小範圍的片段相關聯時,則比其他的大小或範圍更重地加權計數;或2)參數係自有利地加權於片段大小或大小範圍之值獲得時,例如當與該大小或大小範圍的片段相關聯時自更重地加權之計數所獲得的比,則如本文所揭示之參數〝對片段大小或大小範圍產生偏差〞。當基因組產生相對於來自另一基因組或相同基因組之另一部分的核酸片段而富含或具有較高濃度的大小或大小範圍之核酸片段時,則片段大小或大小範圍可為基因組或其部分的特徵。
方法220係藉由接收以定序測試樣品中不含細胞之核酸片段所獲得的序列讀序開始。參見區塊圖222。在測試樣品中二或多個基因組可為懷孕母親之基因 組及懷孕母親懷著的胎兒之基因組。在其他的應用中,測試樣品包括來自腫瘤細胞及不受影響細胞的不含細胞之DNA。在一些實施態樣中,因為經大小偏差之覆蓋率所提供的高信號對雜訊比,所以不含細胞之核酸片段的定序不必使用PCR以擴增核酸片段。方法200另提供將不含細胞之核酸片段的序列讀序與包括關注序列且區分為複數個區間的參考基因組並列。成功的並列得到測試序列標籤,其包括序列及其在參考序列上的位置。參見區塊圖224。接著方法220繼續測定存在於測試樣品中的不含細胞之核酸片段。應用雙端定序的一些實施態樣提供與序列標籤相關聯的插入物長度。參見區塊圖226。術語〝大小〞及〝長度〞在彼此係就核酸序列或片段而使用時可交換使用。在本文例證的實施態樣中,方法220另包含基於不含細胞之核酸片段的大小以加權測試序列標籤,標籤係自該不含細胞之核酸片段獲得。參見區塊圖228。如本文所使用的〝加權〞係指使用一或多個變數或函數修飾量。一或多個變數或函數被視為〝權重〞。在許多實施態樣中,將變數乘以權重。在其他的實施態樣中,將變數經指數形式或其他方式修飾。在一些實施態樣中,加權測試序列標籤係藉由使覆蓋率對測試序列標籤產生偏差進行,該測試序列標籤係自測試樣品中的一個基因組之大小或大小範圍特徵的不含細胞之核酸片段獲得。如本文所揭示,當基因組相對於另一個基因組或相同基因組的另一部分而具有富集或較高濃度的核酸大小時,則大小為基因組的特徵。
在一些實施態樣中,加權函數可為線性或非線性函數。可應用的非線性函數的實例包括但不限於希柏塞德階梯函數、方箱函數、階梯函數或S形函數。在一些實施態樣中,使用希柏塞德函數或方箱函數,使得在特定範圍內的標籤乘以1之權重,而在此範圍以外的標籤乘以0之權重。在一些實施態樣中,介於80與150個鹼基對之間的片段給出1之權重,在此範圍以外的片段給出權重0。在該等實例中,加權為慎重的,其係取決於所有值之參數是否落在特定的範圍以內或以外而為0或1。另一選擇地,權重經計算為片段大小的連續函數或相關聯的參數值之其他態樣。
在一些實施態樣中,在一個大小範圍內的片段權重為負的及那些在其他範圍內的權重為正的。這可用於在兩個基因組之間差別方向具有相反的符號時有助於增強信號。例如,讀序計數對80-150個鹼基對插入物具有1之權重及對160-200個鹼基對插入物具有-1之權重。
可對計數以及其他參數給出權重。例如,加權亦可應用於使用片段大小的級分或比參數。例如,該比可給出比片段及其他大小區間更大權重之特定子範圍內的片段。
接著基於加權之測試序列標籤計算區間的覆蓋率。參見區塊圖230。認為此等覆蓋率係經尺寸偏差。如上文所解釋,有利地加權於片段大小或大小範圍的參數時,則值對片段大小或大小範圍產生偏差。方法200另包 含自計算之覆蓋率鑑定關注序列中複製數變異。參見區塊圖232。在一些實施態樣中,如下文結合圖2C、3A-3K和4的進一步解釋,可調整或校準覆蓋率以去除數據之雜訊,因而增加信號對雜訊比。在一些應用中,基於方法220中所獲得的加權之標籤的覆蓋率與測定複製數變異時未加權之覆蓋率相比而更高的靈敏度及/或更高的選擇性。在一些應用中,下文提供之工作流程實例可進一步改進CNV分析之靈敏度及選擇性。
用於分析片段大小及/或序列覆蓋率之工作流程實例
所揭示之一些實施態樣提供具有低雜訊及/或高信號的序列覆蓋率數量之方法,提供測定與複製數及CNV相關的各種遺傳性症狀之數據,具有相對於慣用方法而改進之靈敏度、選擇性及/或效率。在特定的實施態樣中,處理來自測試樣品之序列而獲得序列覆蓋率數量。
該方法係利用取自其他來源的特定信息。在一些執行中,所有的此信息係自已知未受影響之樣品(例如不為非整倍體)的訓練集。在其他的實施態樣中,一些或所有的信息其他的測試樣品獲得,當許多樣品以相同的方法分析時可提供〝即時〞信息。
在特定的實施態樣中,使用序列遮蔽以減少數據雜訊。在一些實施態樣中,將關注之序列及其標準化序列二者遮蔽。在一些實施態樣中,當考慮不同的關注染色體或片段時,可使用不同的遮蔽。例如,當13號染色 體為關注之染色體時可使用一種遮蔽(或一組遮蔽)及當21號染色體為關注之染色體時可使用不同的遮蔽(或一組遮蔽)。在特定的實施態樣中,遮蔽係以區間分辨率限定。因此,在一個實例中,遮蔽分辨率為100kb。在一些實施態樣中,可將不同的遮蔽應用於Y染色體。可提供Y染色體的經遮蔽之排除區域比其他關注之染色體更細的分辨率(1kb),如在2013年6月17日申請的美國臨時專利申請案號61/836,057[代理人檔案號ARTEP008P]所述。遮蔽係以鑑定排除之基因組區域的檔案形式提供。
在特定的實施態樣中,該方法係利用標準化覆蓋率之預期值去除關注序列輪廓中的區間對區間變異,該變化對測定測試樣品的CNV沒有訊息。該方法係根據對整個基因組的各區間之標準化覆蓋率的預期值或至少在參考基因組中健全的染色體之區間(用於下文操作317中)以調整標準化覆蓋率量。除了覆蓋率以外的參數亦可以此方法改進。預期值可自未受影響樣品的訓練集測定。作為一實例,預期值可為整個訓練集樣品的中位數值。樣品的預期覆蓋率值可經測定為與區間並列之獨特的非多餘性標籤數量除以與參考基因組之健全的染色體中所有區間並列之獨特的非多餘性標籤總數量。
圖2C描述用於測定關注序列的片段大小參數之方法200的流程圖,在區塊圖214中,使用該參數評估測試樣品中關注序列之複製數。此方法去除整個未受影響之訓練樣品共同的系統變異,該變異增加用於CNV評估 之分析中的雜訊。其亦去除對測試樣品特異的GC偏差,因而增加數據分析中的信號對雜訊比。值得注意的是方法200亦可應用於覆蓋率,無關於覆蓋率是否以大小產生偏差。同樣地,圖2D、3和4的方法同樣可應用於覆蓋率、經片段大小加權之覆蓋率、片段大小、在限定之大小範圍內的片段級分或比、片段之甲基化水平等等。
方法200係藉由提供測試樣品之序列讀序開始,如區塊圖202中所表明。在一些實施態樣中,序列讀序係藉由定序自包括母親及胎兒之cfDNA的孕婦所獲得的DNA片段。該方法繼續使序列讀序與包括關注序列之參考基因組並列,以提供測試序列標籤。區塊圖204。在一些實施態樣中,排除與超過一個位點並列的讀序。在一些實施態樣中,排除與相同位點並列的數個讀序或減少至單一讀序計數。在一些實施態樣中,亦排除與經排除之位點並列的讀序。因此,在一些實施態樣中,僅計數與未排除之位點並列的獨特地並列之非多餘性標籤(NES計數),用於測定各區間的覆蓋率或其他參數。
方法200提供存在於測試樣品中不含細胞之核酸片段的大小。在使用雙端定序的一些實施態樣中,插入物大小/長度可自插入物端點的一對讀序之位置獲得。可使用其他的技術測定片段大小。參見區塊圖205。接著方法200測定在參考基因組之區間(包括在關注序列中的區間)中對基因組之一的片段大小特徵產生偏差之片段大小參數值。術語〝片段大小參數〞係指關於核酸片段的片 段或片段集合的大小或長度之參數,例如自體液獲得的cfDNA片段。當:1)有利地加權於片段大小或大小範圍的參數時,例如當與該大小或大小範圍的片段相關聯時,則比其他的大小或範圍更重地加權計數;或2)參數係自有利地加權於片段大小或大小範圍之值獲得時,例如當與該大小或大小範圍的片段相關聯時自更重地加權之計數所獲得的比,則如本文所使用之參數〝對片段大小或大小範圍產生偏差〞。當基因組產生相對於來自另一基因組或相同基因組之另一部分的核酸片段而富含或具有較高濃度的大小或大小範圍之核酸片段時,則片段大小或大小範圍可為基因組或其部分的特徵。
在一些實施態樣中,片段大小參數係經大小加權計數。在一些實施態樣中,在範圍內的片段加權1及在範圍外的片段加權0。在其他的實施態樣中,片段大小參數為在大小範圍內的片段級分或比。參見區塊圖206。在一些實施態樣中,將各區間之片段大小參數值(或如上文註明之覆蓋率)除以在相同樣品中的標準化序列之參數值,提供標準化參數。
接著方法200提供關注序列之全體輪廓。全體輪廓包含在自未受影響之訓練樣品的訓練集所獲得的各區間中的預期參數值。區塊圖208。方法200係藉由根據預期參數值以調整測試序列標籤之標準化參數值而去除在訓練樣品中共同的變異,以獲得關注序列的全體輪廓校準之參數值。區塊圖210。在一些實施態樣中,自區塊圖 208中所提供的訓練集所獲得的參數預期值為整個訓練樣品的中位數。在一些實施態樣中,操作2010係藉由調整自參數標準化值減去參數預期值以調整參數標準化值。在其他的實施態樣中,操作210係以參數標準化值除以各區間參數預期值,得到全體輪廓校準之參數值。
除了或取代全體輪廓校準,方法200係藉由調整參數值以去除對測試樣品特異之GC偏差。如區塊圖212中所示,該方法係基於存在於測試樣品中的GC含量水平與經全體輪廓校準之覆蓋率之間的關係以調整全體輪廓校準之參數值,因而獲得經樣品GC校準之片段大小參數值。在調整未受影響之訓練樣品及受試者GC偏差內共同的系統變異之後,該方法提供經全體輪廓及/或GC變異校準之片段大小值,使用該值評估樣品的CNV,具有改進之靈敏度及特異性。在一些執行中,片段大小值可使用主要成分分析方法調整,以去除與關注序列之複製數變異無關的變異之成分,如關於圖2F的區塊圖719之進一步說明。在一些執行中,片段大小值可藉由去除樣品內的離群值區間而策展,如關於圖3A的區塊圖321所述。
使用多重參數的複製數測定之多路線方法
如上文所強調,本文所揭示之方法適合於使用多重參數測定CNV,包括但不限於覆蓋率、經片段大小加權之覆蓋率、片段大小、在限定大小範圍內的片段級分或比、片段之甲基化水平等等。每一該等參數可單獨處 理,個別地促成最終的複製數變異測定。
在一些實施態樣中,類似的方法可應用於經大小加權之覆蓋率分析及片段大小分析,二者為片段大小參數。圖2D顯示兩個重疊路線之工作流程600的流程圖,經大小加權之覆蓋率分析之路線1及用於片段大小分析之路線2。在未於此顯示的另一實施態樣中,甲基化水平可於另一路線中處理。該兩個路線可包括可相比的操作以獲得經調整之覆蓋率信息,以此為基礎測定CNV。
該方法的初始單一路線部分係藉由接收定序數據開始,參見區塊圖602,且通過電腦計數繼續,如上述所述,參見區塊圖612。在此點之後,將所描述之方法分成兩個如上文所述之路線。返回該方法的初始部分,工作流程轉換定序數據成為序列讀序。當定序數據導自多樣定序時,亦將序列讀序去多樣化以鑑定數據來源。參見區塊圖604。接著將序列讀序與參考序列並列,其中提供並列之序列讀序作為序列標籤。參見區塊圖606。接著篩選序列標籤以獲得未排除之位點(NESs),其為經明確地映射、非複製之序列標籤。將序列標籤組織成特異性序列長度之區間,諸如1kb、100kb或1Mb。參見區塊圖610。在包含綜合特異性區域的一些實施態樣中,區間為100kb。在一些實施態樣中,展現高變異性之區間可使用自複數個未受影響樣品所獲得的序列遮蔽進行遮蔽,如圖3A所述之方式,區塊圖313。接著計數NES中的標籤,以提供欲標準化且調整之覆蓋率,用於CNV分析。參見 區塊圖612。
在所描述之實施態樣中,操作604、606、610和612係進行一次,而大部分其餘的操作係進行兩次,一次用於經大小加權之覆蓋率分析(路線1)及一次用於片段大小分析(路線2)。在其他的實施態樣中,以兩個路線進行的所示之操作中之一或多者僅進行一次且結果為兩個方法共有。此等共有之操作的實例包括操作614、616和618。
在所描述之實施態樣中,所獲得的NES之覆蓋率(經大小權重之計數)或片段大小參數(大小級分或比)係藉由例如將區間之值NES除以基因組或標準化染色體集之總NES而標準化。在一些實施態樣中,僅將覆蓋率標準化,而沒必要將片段大小參數標準化,因為其不與覆蓋率相同的方式受定序深度的影響。參見區塊圖614。在一些實施態樣中,接著去除包括未受影響樣品之訓練集共同的變異,該變異與關注之CNV無關。在所描述之實施態樣中,共同的變異係以自未受影響樣品以類似於上述之全體波形輪廓的方式獲得的全體波形輪廓代表。在如圖6所例證的一些實施態樣中,用於獲得全體波形輪廓的未受影響樣品包括來自相同的流動槽或處理批組之樣品。參見區塊圖616。流動槽特異性全體波形的計算於下文進一步解釋。在所描述之實施態樣中,在去除全體波形輪廓之後,覆蓋率係基於樣品特異性而以GC水平校準。參見區塊圖616。用於GC校準的一些演算法在下文與圖3A,區 塊圖319相關的內文中更詳細說明。
在所描述之實施態樣中,在用於加權之覆蓋率分析之路線1及用於片段大小分析之路線2二者中,可針對個別樣品特異性之雜訊而進一步篩選數據,例如,具有與其他區間非常不同的覆蓋率之離群值區間的數據可自分析去除,其差異不可歸屬於關注之複製數變異。參見區塊圖622。此樣品內篩選操作可對應於圖3A中的區塊圖321。
在一些實施態樣中,在單一樣品篩選之後,路線1的經加權之覆蓋率值及路線2的片段大小參數皆富集於超過參考值的標靶信號。參見區塊圖624和628。接著染色體的覆蓋率及片段大小參數分別用於計算染色體劑量及標準化染色體值(NCV),如上文所述。接著可將NCV與測定表示CNV之機率的計分之標準比較。參見區塊圖626和630。接著可將來自兩個路線的計分組合以提供複合的最終計分,其測定是否應判讀非整倍體。在一些實施態樣中,626和630的計分為t測試統計量或Z值。在一些實施態樣中,最終計分為卡方值(chi square vale)。在其他的實施態樣中,最終計分為兩個t值或z計分的均方根。可使用其他方式組合來自兩個路線的兩個計分,以改進CNV檢測中的總體靈敏度及選擇性。另一選擇地,一種方式可藉由邏輯運算以組合來自兩個路線的兩個計分,例如AND運算或OR運算。例如,當高靈敏度對確保低的假陰性較佳時,則來自路線1或路線2的計分滿足判讀 標準時可進行CNV判讀。另一方面,若要求高選擇性以確保低的假陽性,則僅在來自路線1和路線2二者的計分滿足判讀標準時可進行CNV判讀。
應注意在使用此等上述邏輯運算的靈敏度與選擇性之間有權衡。在一些實施態樣中,應用兩步驟定序方法以克服如下文進一步說明的權衡。簡言之,將樣品的初始計分與經設計以增加靈敏度之相對低的第一閾值比較,且若樣品計分高於第一閾值,則經歷比第一輪更深的第二輪定序。接著將此樣品在類似於上述工作流程中重新處理且分析。接著將所得計分與經設計以改進靈敏度之相對高的第二閾值比較。在一些實施態樣中,經歷第二輪定序的樣品計分相對低於那些計分高於第一閾值之樣品,因而減少需要重新定序之樣品數量。
在一些實施態樣中,可利用使用第三參數的第三路線。此第三路線的一個實例為甲基化。甲基化可通過測量來自樣品的核酸之甲基化而直接測定或作為不含細胞之核酸的片段大小相互關聯的參數間接測定。
在一些實施態樣中,此第三參數為第二覆蓋率或基於計數之參數,其中計數係基於在基於第一計數之參數所使用的主要片段大小以外的片段大小。當使用介於80與150個鹼基對之間的片段以產生計數或覆蓋率參數時,則排除來自定序的約70%之讀序。在該等排除之讀序仍然具有一些潛在有用的信號之程度時,可將該等用於第三參數,該第三參數包括排除之讀序或在第一參數中所 使用的基於大小之級分以外或與其重疊的基於大小之級分的讀序。關於此點,可對自排除之片段獲取的讀序及相關聯的覆蓋率值給出較低的權重。換言之,使用該等讀序所計算之複製數變異參數在進行最終複製數變異判讀時可歸屬於不太重要。另一選擇地,如上文所述,當兩個基因組在兩個大小範圍內具有相反的特徵時,則在第一參數的大小範圍以外的標籤可呈現負值。
在各種執行中,在方法200、220和600中的覆蓋率對來自在片段大小譜之較短的端點之片段的標籤產生偏差。在一些實施態樣中,覆蓋率對來自大小比特定值更短的片段之標籤產生偏差。在一些實施態樣中,覆蓋率對來自片段大小範圍內的片段之標籤產生偏差且範圍的上限為約150個鹼基對或更少。
在方法200、220和600的各種執行中,序列讀序係藉由定序不含細胞之核酸片段而獲得,先不使用PCR擴增不含細胞之核酸片段的核酸。在各種實施態樣中,定序讀序係藉由定序不含細胞之核酸片段至每一樣品深度不大於約6M片段而獲得。在一些實施態樣中,每一樣品的定序深度不大於約1M片段。在一些實施態樣中,定序讀序係藉由多樣定序而獲得,且經多樣定序之樣品的數量為至少約24個。
在方法200、220和600的各種執行中,測試樣品包含來自個體的血漿。在一些實施態樣中,該方法另包含自測試樣品獲得不含細胞之核酸。在一些實施態樣 中,該方法另包含定序源自二或多個基因組的不含細胞之核酸片段。
在方法200、220和600的各種執行中,二或多個基因組包含來自母親及胎兒之基因組。在一些執行中,在關注序列中複製數變異包含在胎兒基因組中的非整倍體。
在方法200、220和600的一些執行中,二或多個基因組包含來自癌症及體細胞之基因組。在一些執行中,該方法包含使用在癌基因組中的複製數變異以診斷癌症、監控癌症進度及/或決定癌症的治療。在一些執行中,複製數變異引起基因異常。
在方法200、220和600的一些執行中,覆蓋率對來自在片段大小譜之較長的端點之片段的標籤產生偏差。在一些執行中,覆蓋率對來自大小比特定值更長的片段之標籤產生偏差。在一些執行中,覆蓋率對來自片段大小範圍內的片段之標籤產生偏差且其中範圍的下限為約150個鹼基對或更多。
在方法200、220和600的一些執行中,該方法另包含:在參考基因組(包括關注序列)之區間中測定在該區間內不含細胞之核酸片段的甲基化水平,且使用除了或取代經計算之覆蓋率或片段大小參數值的甲基化水平以鑑定複製數變異。在一些執行中,使用甲基化水平以鑑定複製數變異包含提供關注序列之區間的全體甲基化輪廓。全體甲基化輪廓包括在關注序列之至少區間中的預期之甲 基化水平。在一些執行中,預期之甲基化水平係自與測試樣品之核酸片段相同的方式定序及並列之包含核酸的未受影響之訓練樣品的訓練集中的不含細胞之核酸片段的長度獲得,預期之甲基化水平展現從區間至區間之變異。在一些執行中,該方法包含使用在至少關注序列之區間中的預期之甲基化水平調整甲基化水平值,因而獲得關注序列的全體輪廓校準之甲基化水平值。該方法另包含使用全體輪廓校準之覆蓋率及全體輪廓校準之甲基化水平以鑑定複製數變異。在一些執行中,使用全體輪廓校準之覆蓋率及全體輪廓校準之甲基化水平以鑑定複製數變異另包含:基於GC含量水平調整全體輪廓校準之覆蓋率及全體輪廓校準之甲基化水平,因而獲得關注序列的經GC校準之覆蓋率及經GC校準之甲基化水平值;及使用經GC校準之覆蓋率及經GC校準之甲基化水平鑑定複製數變異。
在方法200、220和600的一些執行中,片段大小參數包含包括具有比閾值更短或更長的片段大小之測試樣品中的不含細胞之核酸片段的一部份之級分或比。在一些執行中,片段大小參數包括下列級分:包括(i)在包括110個鹼基對之第一大小範圍內的測試樣品中一些片段,(ii)在包含該第一大小範圍及該第一大小範圍以外的大小之第二大小範圍內的測試樣品中一些片段。
三路線方法、概度比、t檢驗統計值及/或胎兒級分的複製數測定
圖2E顯示評估複製數之三路線方法的流程圖。其包括工作流程700的三個重疊路線,其包括與所有大小片段相關聯的讀序之覆蓋率的路線1(或713A)分析、與較短片段相關聯的讀序之覆蓋率的路線2(或713B)分析、及相對於所有讀序的較短讀序之相對頻率的路線3(或713C)分析。
方法700在其整體組織上類似於方法600。以區塊圖702、704、706、710、712指示的操作可與以區塊圖602、604、606、610和612指示的操作相同或類似的方式進行。在獲得讀序計數之後,覆蓋率在路線713A中使用來自所有大小片段之讀序測定。覆蓋率在路線713B中使用來自較短片段之讀序測定。來自相對於所有讀序的較短片段之讀序的頻率係在路線713C中測定。相對頻率亦於本文別處稱為大小比或大小級分。其為片段大小特徵的實例。在一些執行中,短片段為比約150個鹼基對短的片段。在各種執行中,短片段可在約50-150、80-150或110-150個鹼基對之大小範圍內。在一些執行中,第三路線或路線713C為選項。
三個路線713A、713B和713C的數據全部經歷標準化操作714、716、718、719和722,以去除與關注序列之複製數無關的變異。該等標準化操作框在區塊圖723中。操作714包含藉由將經分析之量除以參考序列量的總值而使經分析之關注序列量標準化。此標準化步驟係使用自測試樣品所獲得的值。同樣地,操作718和722係 使用自測試樣品所獲得的值而使經分析之量標準化。操作716和719係使用自未受影響樣品之訓練集所獲得的值。
操作716去除未受影響樣品之訓練集的全體波形之變異,其使用與關於區塊圖616所述者相同或類似的方法。操作718係使用與關於區塊圖618所述者相同或類似的方法去除個別特異性GC變異之變異。
操作719係使用主要成分分析(PCA)方法進一步去除變異。以PCA方法去除之變異係由於與關注序列之複製數無關的因素。在各區間的經分析之量(覆蓋率、片段大小比等等)提供用於PCA之自變數,且未受影響之訓練集的樣品供給用於該等自變數之值。訓練集樣品全部皆包括具有相同的關注序列之複製數的樣品,例如兩種體細胞染色體複製物、一種X染色體複製物(當使用男性樣品作為未受影響樣品時)或兩種X染色體複製物(當使用女性樣品作為未受影響樣品時)。因此,在樣品中的變異不起因於非整倍體或其他的複製數差別。訓練集之PCA得出與關注序列之複製數無關的主要成分。主要成分接著可用於去除測試樣品中與關注序列之複製數無關的變異。
在特定的實施態樣中,主要成分中之一或多者的變異係使用自關注序列以外的區域之未受影響樣品的數據估計之係數去除測試樣品的數據。在一些執行中,該區域代表所有健全的染色體。例如,PCA係以正常訓練樣品的標準化區間覆蓋率數據進行,因而提供對應於尺寸之主要成分,其可捕獲大部分的數據變異。因此捕獲之變異 與關注序列之複製數變異無關。在自正常訓練樣品獲得主要成分之後,將彼等應用於測試數據。以關注序列以外的整個區間產生以測試樣品作為反應變數及主要成分作為自變數之線性回歸模式。使用所得回歸係數減去以估計之回歸係數限定之主要成分的線性組合使關注區域之區間覆蓋率標準化。此去除與關注序列之CNV無關的變異。參見區塊圖719。使用剩餘數據於下游分析。另外,操作722係使用關於區塊圖622所述之方法去除離群值數據點。
在經歷區塊圖723中的標準化操作之後,已將所有區間之覆蓋率值〝標準化〞以去除除了非整倍體或其他複製數變異以外的變異來源。在某種義意上,出於複製數變異檢測之目的,相對於其他區間而富集或改變關注序列之區間。參見區塊圖724,其沒有操作,但是代表所得覆蓋率值。在大的區塊圖723中的標準化操作可增加分析之量的信號及/或減少雜訊。同樣地,將對區間之短片段的覆蓋率值標準化以去除除了非整倍體或其他複製數變異以外的變異來源,如區塊圖728中所示,且已使區間之短片段的相對頻率(或大小比)類似地標準化以去除除了非整倍體或其他複製數變異以外的變異來源,如區塊圖732中所示。與區塊圖724一樣,區塊圖728和732沒有操作,但是代表在處理大的區塊圖723之後的覆蓋率及相對頻率值。應瞭解可修飾、重排或移除在大的區塊圖723中的操作。例如,在一些實施態樣中,不進行PCA操作719。在其他的實施態樣中,不進行校準GC操作718。 在其他的實施態樣中,改變操作順序;例如PCA操作719係在校準GC操作718之前進行。
使用在區塊圖724中所示之標準化及變異去除之後的所有片段之覆蓋率在區塊圖726中獲得t檢驗統計值。同樣地,使用在區塊圖728中所示之標準化及變異去除之後的短片段之覆蓋率在區塊圖730中獲得t檢驗統計值,且使用在區塊圖732中所示之標準化及變異去除之後的短片段之相對頻率在區塊圖734中獲得t檢驗統計值。
圖2F證明為什麼以t檢驗統計值應用於複製數分析可助於改進分析之準確性。圖2F在各小組中顯示關注序列及參考序列的標準化區間覆蓋率之頻率分布,以關注序列分布重疊且遮掩參考序列分布。具有較高覆蓋率的樣品之區間覆蓋率顯示於上方小組中,具有超過6百萬個讀序;具有較低覆蓋率的樣品之區間覆蓋率顯示於下方小組中,具有少於2百萬個讀序。水平軸表示相對於參考序列的平均覆蓋率標準化之覆蓋率。垂直軸表示與具有平均覆蓋率值之區間數量相關的相對機率密度。圖2F因此為直方圖型式。關注之序列的分布顯示於前面及參考序列的分布顯示於後面。關注之序列的分布平均值低於參考序列的分布平均值,表示在樣品中降低之複製數。在關注序列與參考序列之間的平均值差別類似於上方小組中的高覆蓋率樣品及下方小組中的低覆蓋率樣品。因此,在一些執行中使用平均值差別鑑定在關注序列中複製數變異。應注 意覆蓋率樣品的分布具有比低覆蓋率樣品的分布更小的變異。僅使用平均值區別兩種分布並未捕獲在兩個分布以及使用兩個平均值及變異之間的差別。t檢驗統計值可反映分布的平均值及變異二者。
在一些執行中,操作726如下計算t檢驗統計值:
其中x1為關注序列之區間覆蓋率,x2為參考區/序列的區間覆蓋率,s1為關注序列之覆蓋率的標準偏差,s2為參考區的覆蓋率之標準偏差,n1為關注序列之區間數量;及n2為參考區的區間數量。
在一些執行中,參考區包括所有健全的染色體(例如除了那些最有可能擁有(harbor)非整倍體以外的染色體)。在一些執行中,參考區包括至少一個在關注序列以外的染色體。在一些模擬中,參考區包括健全的染色體,其不包括關注之序列。在其他的執行中,參考區包括染色體集(例如選自健全的染色體之染色體亞群),其已經測定以提供訓練樣品集最好的信號檢測能力。在一些實施態樣中,信號檢測能力係基於參考區辨別擁有複製數變異之區間與不擁有複製數變異之區間的能力。在一些實施態樣中,參考區係以類似於如以〝標準化序列之鑑定〞為標題的章節所述之用於測定〝標準化序列”或〝標準化染色體〞之方式鑑定。
返回圖2E,一或多個胎兒級分估計值(區塊圖735)可與區塊圖726、730和734中的t檢驗統計值中之任一者組合以獲得倍數性之概度估計值。參見區塊圖736。在一些執行中,區塊圖740之一或多個胎兒級分係藉由圖2G中的方法800、圖2H中的方法900或圖2I中的方法1000中之任一者獲得。該等方法可使用如圖2J中的工作流程1100之工作流程並行執行。
圖2G顯示根據本發明的一些執行自覆蓋率信息測定胎兒級分之實例方法800。方法800係藉由自訓練集的訓練樣品獲得覆蓋率信息(例如序列劑量值)開始。參見區塊圖802。訓練集的各樣品係自已知懷有男胎兒之孕婦獲得。亦即樣品含有男胎兒之cfDNA。在一些執行中,操作802可獲得以不同於如本文所述之序列劑量的方式標準化之序列覆蓋率或其可獲得其他的覆蓋率值。
方法800於是包含計算訓練樣品之胎兒級分。在一些執行中,胎兒級分可自序列劑量值計算:
其中 Rx j 為男性樣品之序列劑量,中位數( Rx i )為女性樣品之序列劑量的中位數。在其他的執行中,可使用平均值或其他的集中趨勢測量(central tendency measure)。在一些執行中,FF可以其他方法獲得,諸如X和Y染色體之相對頻率。參見區塊圖804。
方法800另包含將參考序列區分為多個子序列區間。在一些執行中,參考序列為完全基因組。在一些 執行中,區間為100kb區間。在一些執行中,將基因組區分為約25,000個區間。該方法接著獲得區間之覆蓋率。參見區塊圖806。在一些執行中,區塊圖806中所使用的覆蓋率係在經歷圖2J的區塊圖1123中所示之標準化操作之後獲得。在其他的執行中,可使用來自不同的大小範圍之覆蓋率。
各區間係與訓練集中的樣品之覆蓋率相關聯。因此,可獲得各區間在樣品的覆蓋率與樣品的胎兒級分之間的相關性。方法800包含獲得胎兒級分與對所有區間的覆蓋率之間的相關性。參見區塊圖808。接著該方法選擇具有相關值大於閾值之區間。參見區塊圖810。在一些執行中,選擇具有6000的最高相關值之區間。目的在於鑑定在訓練樣品中覆蓋率與胎兒級分之間展示高相關性的區間。接著可使用區間預測測試樣品中的胎兒級分。儘管訓練樣品為男性樣品,但是在胎兒級分與覆蓋率之間的相關性可概括至男性及女性測試樣品。
該方法係使用經選擇具有高相關值之區間獲得胎兒級分與覆蓋率相關的線性模式。參見區塊圖812。經選擇之各區間提供自變數至線性模式。因此,所獲得的線性模式亦包括用於各區間的參數或權重。調整區間之權重而使模式擬合數據。在獲得線性模式之後,方法800包含將測試樣品的覆蓋率數據應用至模式以測定測試樣品之胎兒級分。參見區塊圖814。測試樣品的覆蓋率數據適用於胎兒級分與覆蓋率之間具有高相關性的區間。
圖2J顯示用於處理序列讀序信息之工作流程1100,可使用該信息獲得胎兒級分估計值。工作流程1100分享與圖2D之工作流程600類似的處理步驟。區塊圖1102、1104、1106、1110、1112、1123、1114、1116、1118和1122分別對應於區塊圖602、604、606、610、612、623、614、616、618和622。在一些執行中,在123區塊圖中的一或多個標準化操作為選項的。路線1提供覆蓋率信息,其可用於圖2G中所示之方法800的區塊圖806中。方法800接著可於圖2中得出胎兒級分估計值1150。
在一些執行中,可將複數個胎兒級分估計值(例如在圖2J中的1150和1152)組合以提供複合的胎兒級分估計值(例如1154)。可使用各種方法獲得胎兒級分估計值。例如,胎兒級分可自覆蓋率信息獲得。參見圖2J的區塊圖1150及圖2G的方法800。在一些執行中,胎兒級分亦可自片段之大小分布估計。參見圖2J的區塊圖1152及圖2H的方法900。在一些執行中,胎兒級分亦可自8-mers頻率分布估計。參見圖2J的區塊圖1152及圖2I的方法1000。
在包括男胎兒之cfDNA的測試樣品中,胎兒級分亦可自Y染色體及/或X染色體之覆蓋率估計。在一些執行中,推測的男胎兒之胎兒級分的複合估計值(參見例如區塊圖1155)係藉由使用選自由下列所組成之群組的信息獲得:自區間的覆蓋率信息獲得的胎兒級分、自片段 大小信息獲得的胎兒級分、自Y染色體之覆蓋率獲得的胎兒級分、自X染色體獲得的胎兒級分及彼等之任何組合。在一些執行中,推測的胎兒性別可藉由使用Y染色體之覆蓋率獲得。可將二或多個胎兒級分(例如1150和1152)以各種方式組合以提供胎兒級分之複合估計值(例如1155)。例如,可在一些執行中使用平均方法或經加權之平均方法,其中加權可基於胎兒級分估計值之統計可信度。
在一些執行中,推測的女胎兒之胎兒級分的複合估計值係藉由使用選自由下列所組成之群組的信息獲得:自區間的覆蓋率信息獲得的胎兒級分、自片段大小信息獲得的胎兒級分及彼等之任何組合。
圖2H顯示根據一些執行自大小分布信息測定胎兒級分之方法。方法900係藉由自訓練集的男性訓練樣品獲得覆蓋率信息(例如序列劑量值)開始。參見區塊圖902。方法900於是包含使用關於區塊圖804的上述方法計算訓練樣品之胎兒級分。參見區塊圖904。
方法900繼續將大小範圍區分為複數個區間以提供基於片段大小之區間且測定基於片段大小之區間的讀序頻率。參見區塊圖906。在一些執行中,獲得基於片段大小之區間的頻率而未以區塊圖1123中所示之因素標準化。參見圖2J之途徑1124。在一些執行中,基於片段大小之區間的頻率係在隨意地經歷圖2J的區塊圖1123中所示之標準化操作之後獲得。在一些執行中,將大小範圍區分為40個區間。在一些執行中,在低端的區間包括小 於約55個鹼基對的大小之片段。在一些執行中,在低端的區間包括在約50至55個鹼基對之範圍內的大小之片段,其排除比50bp短的讀序之信息。在一些執行中,在高端的區間包括大於約245個鹼基對的大小之片段。在一些執行中,在高端的區間包括在約245至250個鹼基對之範圍內的大小之片段,其排除比250bp長的讀序之信息。
方法900係藉由使用訓練樣品的數據獲得胎兒級分與基於片段大小之區間的讀序頻率相關的線性模式而繼續進行。參見區塊圖908。所獲得的線性模式包括基於大小之區間的讀序頻率之自變數。該模式亦包括各基於大小之區間的參數或權重。調整區間之權重而使模式擬合數據。在獲得線性模式之後,方法900包含將測試樣品的頻率數據應用至模式以測定測試樣品之胎兒級分。參見區塊圖910。
在一些執行中,可使用8-mers頻率計算胎兒級分。圖2I顯示根據本發明的一些執行自8-mers頻率信息測定胎兒級分之實例方法1000。方法1000係藉由自訓練集的男性訓練樣品獲得覆蓋率信息(例如序列劑量值)開始。參見區塊圖1002。方法1000於是包含使用區塊圖804所述之方法中之任一者計算訓練樣品之胎兒級分。參見區塊圖1004。
方法1000另包含各訓練樣品之讀序獲得8-mers頻率(例如4個核苷酸在8個位置上的所有可能的排 列)。參見區塊圖1006。在一些執行中,獲得至多或接近65,536的許多8-mers及彼等的頻率。在一些執行中,獲得8-mers頻率而未以區塊圖1123中所示之因素標準化。參見圖2J之途徑1124。在一些執行中,8-mers頻率係在隨意地經歷圖2J的區塊圖1123中所示之標準化操作之後獲得。
各8-mers係與訓練集中的樣品之頻率相關聯。因此,可獲得各8-mers在樣品的8-mers頻率與樣品的胎兒級分之間的相關性。方法1000包含獲得所有8-mers的胎兒級分與8-mers頻率之間的相關性。參見區塊圖1008。接著該方法選擇具有相關值大於閾值之8-mers。參見區塊圖1010。目的在於鑑定在訓練樣品中的8-mers頻率與胎兒級分之間展示高相關性的8-mers。接著可使用區間預測測試樣品中的胎兒級分。儘管訓練樣品為男性樣品,但是在胎兒級分與8-mers頻率之間的相關性可概括至男性及女性測試樣品。
該方法係使用經選擇具有高相關值之8-mers獲得胎兒級分與8-mers頻率相關的線性模式。參見區塊圖1012。經選擇之各區間提供自變數至線性模式。因此,所獲得的線性模式亦包括用於各區間的參數或權重。在獲得線性模式之後,方法1000包含將測試樣品的8-mers頻率數據應用至模式以測定測試樣品之胎兒級分。參見區塊圖1014。
返回圖2E,在一些執行中,方法700包含使 用基於以操作726所提供的所有片段之覆蓋率的t檢驗統計值、以操作726所提供的胎兒級分估計值及基於以操作730所提供的短片段之覆蓋率的t檢驗統計值在操作736獲得最終倍數性概度。該等執行係使用多變數常態模式(multivariate normal model)組合路線1與路線2的結果。在評估CNV的一些執行中,倍數性概度為非整倍體概度,其為具有非整倍體假設(例如三倍體或單倍體)之模式的概度減去具有整倍體假設之模式的概度,其中模式使用基於所有片段之覆蓋率的t檢驗統計值、胎兒級分估計值及基於短片段之覆蓋率的t檢驗統計值作為輸入及提供概度作為輸出。
在一些執行中,倍數性概度係以概度比表示。在一些執行中,概度比經模式化如下:
其中p1代表來自代表3複製或1複製模式之多變數常態分布的數據之概度,p0代表來自代表2複製模式之多變數常態分布的數據之概度,Tshort、Tall為自短片段及所有片段所產生的染色體覆蓋率計算之T計分,而 q(ff total )為考慮與胎兒級分估計相關聯的誤差之胎兒級分(自訓練數據估計)的密度分布。該模式組合自短片段所產生的覆蓋率與以所有片段所產生的覆蓋率,其有助於改進受影響與未受影響樣品的覆蓋率計分之間的間隔。在所描述的實施態樣中,該模式亦利用胎兒級分,因而進一步改進辨別受影響與未受影響樣品的能力。在此,概度比係使 用基於所有片段(726)之覆蓋率的t檢驗統計值、基於短片段(730)之覆蓋率的t檢驗統計值及由如上文所述之方法800(或區塊圖726)、900或1000所提供的胎兒級分估計值計算。在一些執行中,使用此概度比分析13號、18號和21號染色體。
在一些執行中,由操作736所獲得的倍數性概度僅使用基於由路線3的操作734所提供的短片段之相對頻率所獲得的t檢驗統計值及由操作726、方法800、900或1000所提供的胎兒級分估計值。概度比可根據下列公式計管:
其中p1代表來自代表3複製或1複製模式之多變數常態分布的數據之概度,p0代表來自代表2複製模式之多變數常態分布的數據之概度,Tshort-freq為自短片段的相對頻率所計算之T計分,而 q(ff total )為考慮與胎兒級分估計相關聯的誤差之胎兒級分(自訓練數據估計)的密度分布。在此,概度比係使用基於短片段(734)之相對頻率的t檢驗統計值及由如上文所述之方法800(或區塊圖726)、900或1000所提供的胎兒級分估計值計算。在一些執行中,使用此概度比分析X染色體。
在一些執行中,概度比係使用基於所有片段(726)之覆蓋率的t檢驗統計值、基於短片段(730)之覆蓋率的t檢驗統計值及短片段(734)之相對頻率計算。而且,如上文所述而獲得的胎兒級分可與t檢驗統計值組合以計 算概度比n。藉由組合三個路線713A、713B和713C中之一者的信息可改進倍數性評估之辨別能力。參見例如實施例和圖12。在一些執行中,可使用不同的組合獲得染色體之概比度,例如來自全部三個路線的t檢驗統計值、來自第一與第二路線的t檢驗統計值、胎兒級分與三個t檢驗統計值、胎兒級分與一個t檢驗統計值等等。接著可基於模式性能選擇最優組合。
在用於評估體染色體的一些執行中,模式化概度比代表自三倍體或單倍體樣品所獲得的模式化數據之概度相對於自雙倍體樣品所獲得的模式化數據之概度。可在一些執行中使用此等概度比測定體染色體之三倍體或單倍體。
在用於評估性染色體的一些執行中,評估X染色體單倍體症之概度比及X染色體三倍體症之概度比。而且,亦評估對X染色體之染色體覆蓋率測量(例如CNV或覆蓋率z計分)及對Y染色體之染色體覆蓋率測量。在一些執行中,使用決策樹評估四個值以測定性染色體之複製數。在一些執行中,決策樹容許測定XX、XY、X、XXY、XXX或XYY之倍數性。
在一些執行中,將概度比轉變成對數概度比,且用於判讀非整倍體或複製數變異之標準或閾值可憑經驗設定以獲得特別的靈敏度及選擇性。例如,當應用於訓練集時,可基於模式的靈敏度及選擇性而設定1.5之對數概度比用於判讀13號染色體三倍體症或18號染色體三 倍體症。而且,例如可在一些應用中對21號染色體三倍體症設定3之判讀標準值。
測定序列覆蓋率之例示性方法的細節
圖3A代表用於減少序列數據中來自測試樣品的雜訊之方法301的實例。圖3B-3J代表在方法的各種階段之數據分析。這提供一個可用於多路線方法(諸如圖2D所描述)之方法流程的實例。
圖3A所例證之方法301使用基於序列標籤數量之序列標籤覆蓋率以評估複製數。然而,類似於關於圖1用於測定CNV之關於方法100的上述說明,可使用其他變數或參數(諸如大小、大小比及甲基化水平)取代方法400之覆蓋率。在一些執行中,二或多個變數可分開經歷相同的方法以導出CNV的兩個機率計分指標,如上文關於圖2D所示。接著可將兩個計分組合以測定CNV。此外,覆蓋率及其他參數可基於片段大小加權,因而導出標籤。為了容易閱讀,僅在方法300中稱為覆蓋率,但是應注意可使用其他參數代替覆蓋率,諸如大小、大小比及甲基化水平、以大小加權之計數等等。
如圖3A中所示,所描述之方法係以自一或多個樣品提取cfDNA開始。參見區塊圖303。適合的提取方法及設備於本文所處說明。在一些實施態樣中,在2013年3月15日申請之美國專利申請案號61/801,126(以其完整內容併入本文以供參考)所述之方法提取cfDNA。在一 些執行中,該設備處理來自多個樣品的,一起提供多樣化文庫及序列數據。參見圖3A的區塊圖305和307。在一些實施態樣中,該設備平行處理來自八或多個測試樣品之cfDNA。如本文別處所述,定序系統可處理經提取之cfDNA以得到經編碼(例如條形碼)之cfDNA片段的文庫。序列分析儀定序cfDNA之文庫,得到非常大量的序列讀序。每一樣品編碼容許在多樣化樣品中讀序去多樣化。八或多個樣品中之每一者可具有幾十萬或幾億個讀序。該方法可在圖3A的額外操作之前篩選讀序。在一些實施態樣中,讀序篩選為能以序列分析儀中執行的軟體程式進行的質量篩選法,以篩除錯誤及低質量讀序。例如,Illumina定序控制軟體(SCS)和序列及變異之共識評定(Consensus Assessment of Sequence and Variation)軟體程式篩除錯誤及低質量讀序,其係藉由將以定序反應所產生的原始影像數據轉換成強度計分、鹼基判讀、經質量計分並列及額外格式,以提供下游分析的生物相關信息。
在序列分析儀或其他設備產生樣品的讀序之後,系統元件係以電腦計算方式使讀序與參考基因組並列。參見區塊圖309。並列於本文別處說明。並列產生標籤,其含有指定在參考基因組上獨特位置的註釋之位置訊息的讀序序列。在特定的執行中,系統進行第一次並列,不考慮重複讀序-具有相同序列的二或多個讀序-且接著去除重複之讀序或重複讀序計數而成為單一讀序,得到未重複之序列標籤。在其他的執行中,系統不去除重複之讀 序。在一些實施態樣中,該方法考慮去除與基因組上的多個位置並列之讀序,得到獨特並列之標籤。在一些實施態樣中,將映射至不排除之位點(NES)的獨特並列之非多餘性序列標籤算入,得到未排除位點之計數(NES計數),其提供估計覆蓋率之數據。
如別處所解釋,排除之位點為在出於計數序列標籤之目的而排除之參考基因組區域中發現的位點。在一些實施態樣中,排除之位點經發現在含有重複序列的染色體區域中,例如著絲點和端粒,及在一個以上的染色體共有的染色體區域中,例如存在於Y-染色體上區域亦存在於X染色體上。未排除之位點(NES)為出於計數序列標籤之目的而未排除於參考基因組中的位點。
接下來,系統區分並列之標籤為參考基因組上的區間。參見區塊圖311。區間係沿著參考基因組的長度隔開。在一些實施態樣中,將整個參考基因組區分為鄰近區間,其可具有限定的相同大小(例如100kb)。另一選擇地,區間可具有經動態測定之長度,可能以每一樣品為基準。定序深度衝擊最優的區間大小選擇。以動態分級之區間可具有以文庫大小決定的彼之大小。例如,區間大小可經決定為平均容納1000個標籤所需之序列長度。
各區間具有許多來自考慮下的樣品之標籤數量。反映並列之序列的〝覆蓋率〞的此標籤數量適合作為篩選及以其他方式清理樣品數據之起始點,可靠地測定樣品中的複製數變異。圖3A顯示在區塊圖313至321之清 理操作。
在圖3A所描述之實施態樣中,該方法對參考基因組之區間施加遮蔽。參見區塊圖313。該系統可在一些或全部下列的方法操作中排除考慮的經遮蔽之區間的覆蓋率。在許多情況下,在圖3A中的其餘操作中之任一者不考慮來自經遮蔽之區間的覆蓋率值。
在各種執行中,施加一個或多個遮蔽以去除經發現從樣品至樣品展現高變異性之基因組的區域。對關注之染色體(例如13號、18號和21號染色體)及其他染色體二者提供此等遮蔽。如別處所解釋,關注之染色體為在考慮下成為可能擁有複製數變異或其他畸變之染色體。
在一些執行中,使用下列方法以合格樣品的訓練集鑑定遮蔽。最初,根據圖3A中的操作315至319處理且篩選各訓練集樣品。接著註明各區間的標準化且校準之覆蓋率值,且計算各區間的統計值,諸如標準偏差、中位數絕對偏差及/或變異係數。可評估用於各關注染色體的各種篩選組合。篩選組合對關注染色體之區間提供一種篩選及對所有其他染色體的區間提供不同的篩選。
在一些執行中,在獲得遮蔽(例如藉由選擇關注之染色體的截止點,如上文所述)之後,重新考慮標準化染色體(或一組染色體)的選擇。在施加序列遮蔽之後,可進行選擇標準化染色體或染色體之方法,如本文別處所述。例如,評估所有可能的染色體組合作為標準化染色體,且根據彼等辨別受影響及未受影響樣品的能力評級。 此方法可能(或不可能)發現不同的最優標準化染色體或染色體組。在其他的實施態樣中,標準化染色體為那些導致整個所有合格樣品之關注序列最小的序列劑量變異性之染色體。若鑑定不同的標準化染色體或染色體組,則該方法隨意地執行篩選區間的上述鑑定。新的標準化染色體有可能導致不同的截止點。
在特定的實施態樣中,對Y染色體施加不同的遮蔽。適合的Y染色體遮蔽的實例說明於2013年6月17日申請之美國臨時專利申請案號61/836,057[代理人檔案號ARTEP008P],其係出於所有目的而併入本文以供參考。
在系統以電腦計算方式遮蔽區間之後,其以電腦計算方式使不以遮蔽排除之區間標準化。參見區塊圖315。在特定的實施態樣中,系統使各區間中的測試樣品覆蓋率值(例如每一區間的NES計數)針對在參考基因組或其一部分中的大部分或全部覆蓋率(例如參考基因組之健全的染色體之覆蓋率)標準化。在一些例子中,系統係藉由在考慮下的區間之計數除以與參考基因組中所有健全的染色體並列之所有未排除位點的總數量而使測試樣品覆蓋率值(每一區間)標準化。在一些實施態樣中,系統係藉由進行線性回歸而使測試樣品覆蓋率值(每一區間)標準化。例如,系統先計算在健全的染色體中之區間子集的覆蓋率為ya=載距+斜率*gwpa,其中ya為對區間之覆蓋率及gwpa為相同區間之全體輪廓。該系統接著計算標準化覆蓋 率為zb,其為:zb=yb/(載距+斜率*gwpb)-1。
如上文所揭示,健全的染色體是不可能為非整倍體之染色體。在特定的實施態樣中,健全的染色體為除了13號、18號和21號染色體以外的所有體染色體。在一些實施態樣中,健全的染色體為經測定自正常雙倍體基因組偏離之染色體以外的所有體染色體。
區間的經轉變之計數值或覆蓋率撐為〝標準化覆蓋率量〞供進一步處理。標準化係使用對各樣品獨特的信息進行。通常不使用來自訓練集之信息。標準化容許平等地處理來自具有不同的文庫大小(及因此不同的讀序及標籤數量)之樣品的覆蓋率量。一些後續的方法操作使用導自訓練樣品之覆蓋率量,該樣品係自比用於考慮下的測試樣品之文庫更大或更小的文庫定序。不基於與整個參考基因組(或至少健全的染色體)並列之讀序的數量標準化,使使用導自訓練集之參數處理在一些執行中可能不可靠或不可概化。
圖3B例證整個21號、13號和18號染色體對許多樣品的覆蓋率。一些樣品彼此經不同地處理。因此,可看到在任給出之基因組位置上寬廣的樣品對樣品變異。標準化去除一些樣品對樣品變異。圖3C的左區描述整個基因組的標準化覆蓋率量。
在圖3A的實施態樣中,系統去除或降低操作315中所得到的標準化覆蓋率量之〝全體輪廓〞。參見區塊圖317。此操作去除在標準化覆蓋率量中由基因組結 構、文庫產生方法及定序方法所引起的系統偏差。另外,此操作經設計以校準來自任何給出之樣品中的預期輪廓之任何系統線性偏離。
在一些執行中,全體輪廓去除包含將各區間的標準化覆蓋率量除以各區間之對應預期值。在其他的實施態樣中,全體輪廓去除包含自各區間的標準化覆蓋率量減去各區間之預期值。預期值可自未受影響樣品之訓練集(或X染色體的未受影響之女性樣品)獲得。未受影響樣品為來自已知不具有關注之染色體的非整倍體之個體的樣品。在一些執行中,全體輪廓去除包含自各區間的標準化覆蓋率量減去(自訓練集獲得的)各區間之預期值。在一些實施態樣中,該方法係使用如利用訓練集所測定之各區間的標準化覆蓋率量之中位數值。換言之,中位數值為預期值。
在一些實施態樣中,全體輪廓去除係使用樣品覆蓋率對全體輪廓的依賴性之線性校準執行。如指示,全體輪廓為如自訓練集所測定各區間的預期值(例如各區間的中位數值)。該等實施態樣可使用針對各區間所獲得的全體中位數輪廓擬合之測試樣品的標準化覆蓋率量所獲得之健全的線性模式。在一些實施態樣中,線性模式係藉由針對全體中位數(或其他的預期值)輪廓回歸樣品的經觀察之標準化覆蓋率量而獲得。
線性模式係基於樣品覆蓋率量與全體輪廓值之線性關係的假設,應使健全的染色體/區域及關注之序 列二者保持該線性關係。參見圖3D。在此例子中,樣品標準化覆蓋率量對全體輪廓的預期之覆蓋率量的回歸得到具有斜率及載距之直線。在特定的實施態樣中,使用此直線的斜率及載距計算來自區間的全體輪廓值之〝預期的〞覆蓋率量。在一些執行中,全體輪廓校準包含藉由對區間之預期的覆蓋率量而使各區間的標準化覆蓋率量模式化。在一些執行中,測試序列標籤之覆蓋率係藉由下列者調整:(i)獲得在一或多個健全的染色體或區域中的測試序列標籤之覆蓋率相對於複數個區間之預期的覆蓋率量之間的數學關係;及(ii)將數學關係應用至關注序列之區間。在一些執行中,使用來自未受影響之訓練樣品之預期的覆蓋率值與在基因組之健全的染色體或其他健全的區域中的測試樣品之覆蓋率值之間的線性關係校準測試樣品中的覆蓋率變異。調整導致經全體輪廓校準之覆蓋率。在一些例子中,調整包含如下獲得在健全的染色體或區域中區間子集的測試樣品之覆蓋率:ya=載距+斜率*gwpa其中ya為在一或多個健全的染色體或區域中的測試樣品之區間的覆蓋率,及gwpa為未受影響之訓練樣品的區間之全體輪廓。接著該方法如下計算對關注序列或區域的經全體輪廓校準之覆蓋率zb:zb=yb/(載距+斜率*gwpb)-1其中yb為對關注序列中測試樣品之區間b(其可駐留在健全的染色體或區域外)的經觀察之覆蓋率,及gwpb為未受 影響之訓練樣品的區間b之全體輪廓。分母(載距+斜率*gwpb)為基於基因組之健全區域所估計之關係而預測未受影響之測試樣品中所觀察的區間b之覆蓋率。在擁有複製數變異之關注序列的例子中,經觀察的區間b之覆蓋率及因而而全體輪廓校準之覆蓋率值顯著地偏離未受影響樣品之覆蓋率。例如,在受影響之染色體上的區間之三倍體症樣品的例子中,經校準之覆蓋率zb可與胎兒級分成比例。此方法係藉計算在健全的染色體上之載距及斜率而於樣品內標準化,且接著評估關注之基因組區域如何偏離對相同樣品內之健全的染色體保持的關係(如以斜率及載距所述)。
斜率及載距係自圖3D中所示之直線獲得。全體輪廓去除的實例描述於圖3C中。左區顯示遍及許多樣品的標準化覆蓋率量的高區間對區間變異。右區顯示在如上述的全體輪廓去除之後相同的標準化覆蓋率量。
在系統於區塊圖317去除或降低全體輪廓變異之後,其校準樣品內GC(鳥嘌呤-半胱胺酸)含量變異。參見區塊圖319。每個區間本身具有來自GC之級分分配。級分係藉由以區間中的G與C核苷酸的數量除以區間中的核苷酸總量(例如100,000)來測定。一些區間具有比其他區間大的GC級分。如圖3E和3F中所示,不同的樣品展現不同的GC偏差。該等差別及彼等的校準將於下文進一步解釋。圖3E至G顯示以GC級分(每一區間)為函數的經全體輪廓校準之標準化覆蓋率量(每一區間)。驚 訝地,不同的樣品展現不同的GC依賴性。一些樣品顯示單調地降低依賴性(如圖3E),而其他樣品展現出逗號形狀的依賴性(如圖3F和3G)。因為該等輪廓對各樣品為獨特的,所以在此步驟所述之校準對各樣品分開且單獨地進行。
在一些實施態樣中,系統係基為GC級分而以電腦計算方式排列區間,如圖3E至G所例證。接著使用來自具有類似的GC含量之其他區間的信息校準區間的經全體輪廓校準之標準化覆蓋率量。此校準應用於未遮蔽之各區間。
在一些方法中,各區間係以下列方式以GC含量校準。該系統係以電腦計算方式選擇具有類似於那些考慮下的區間之GC含量的區間且接著以選擇之區間中的信息測定校準參數。在一些實施態樣中,那些具有類似的GC級分之區間係使用任意限定之類似性截止值選擇。在一個實例中,選擇2%之所有區間。該等區間為具有最類似於考慮下的區間之GC含量區間的2%區間。例如,選擇具有略多的GC含量之1%區間及具有略少的GC含量之1%區間。
系統係以電腦計算方式使用選擇之區間測定校準參數。在一個實例中,校準參數為選擇之區間中的標準化覆蓋率量(在全體輪廓移除之後)的代表值。此等代表值的實例包括選擇之區間中的標準化覆蓋率量之中位數或平均值。該系統將經計算之考慮下的區間之校準參數應用 至考慮下的區間之標準化覆蓋率量(在全體輪廓移除之後)。在一些執行中,自考慮下的區間之標準化覆蓋率量減去代表值(例如中位數值)。在一些實施態樣中,僅使用健全的體染色體(除了13號、18號和21號染色體以外的所有體染色體)之覆蓋率量選擇標準化覆蓋率量之中位數值(或其他代表值)。
在一個使用例如100kb區間的實例中,各區間具有獨特的GC級分,且區間係基於彼等的GC級分含量區分為組。例如,將區間區分為50組,其中組的邊界對應於%GC分布之(0、2、4、6、...和100)分位數。自映射至相同的GC組(在樣品中)之健全的體染色體計算區間之各組的中位數標準化覆蓋率量,且接著自標準化覆蓋率量(在相同的GC組中遍及整個基因組的所有區間)減去中位數值。將來自任何給出之樣品內健全的染色體估計之GC校準應用至相同的樣品內可能受影響之染色體。例如,可將健全的染色體上具有GC含量介於0.338660與0.344720之間的所有區間分組在一起,計匴此組的中位數且自此GC組內的區間之標準化覆蓋率減去中位數,可在基因組上(排除13號、18號、21號和X染色體)的任何地方發現該區間。在特定的實施態樣中,此GC校準方法排除Y染色體。
圖3G顯示使用如剛才所述之中位數標準化覆蓋率量作為校準參數的GC校準之應用。左區顯示未經校準之覆蓋率量相對於GC級分輪廓。如所示,輪廓具有非 線性形狀。右區顯示經校準之覆蓋率量。圖3H顯示許多樣品在GC級分校準之前(左區)及GC級分校準之後(右區)的標準化覆蓋率。圖3I顯示許多測試樣品在GC級分校準之前(紅色)及GC級分校準之後(綠色)的標準化覆蓋率之變異係數(CV),其中GC校準導致實質上更小的標準化覆蓋率變異。
上述方法為GC校準之相對簡單的執行。校準GC偏差之替代方法係使用弧線(spline)或其他非線性擬合技術,可將其應用於連續的GC空間中且不涉及以GC含量分區(binning)覆蓋率量。適合的技術包括連續loess校準及平滑的弧線校準。擬合函數可自考慮下的樣品之逐個區間(bin-by-bin)標準化覆蓋率量相對於GC含量導出。各區間的校準係藉由以考慮下的區間之GC含量應用至擬合函數計算。例如,標準化覆蓋率量可藉由減去考慮下的區間之GC含量下的弧線之預期的覆蓋率值調整。另一選擇地,調整可藉由根據弧線擬合以分成預期的覆蓋率值而達成。
在操作319中校準GC依賴性之後,該系統係以電腦計算方式去除考慮下的樣品中的離群值區間-參見區塊圖321。此操作單一樣品篩選或修整。圖3J顯示即使在GC校準之後,覆蓋率仍在小區域內具有樣品特異性變異。參見例如在12號染色體上的位置1.1e8之覆態率,其中非預期的高偏離起因於預期值。有可能使此偏離起因於物質基因組中的小複製數變異。另一選擇地,這可能由 於與複製數變異無關的定序中之技術原因。此操作通常僅應用於健全的染色體。
作為一實例的該系統係以電腦計算方式篩選在擁有用於篩選之考慮下的區間之染色體中整個所有區間之任何區間,該區間具有超過3個與經GC校準之標準化覆蓋率量的中位數之中位數絕對偏離的經GC校準之標準化覆蓋率量。在一個實例中,截止值經定義為經調整與標準偏差一致的3個中位數絕對偏離,所以實際上截止值為1.4826*與中位數之中位數絕對偏離。在特定的實施態樣中,此操作應用於樣品中的所有染色體,包括健全的染色體及懷疑為非整倍體之染色體二者。
在特定的執行中,可進行以質量控制為特徵的額外操作。參見區塊圖323。在一些實施態樣中,質量控制度量包含檢測任何可能的起源染色體(亦即〝標準化染色體〞或〝健全的染色體〞)受否為非整倍體或在其他方面不適合測定測試樣品是否在關注之序列中具有複製數變異。當該方法測定健全的染色體是不適合的,則該方法可忽視測試樣品且不判讀。另一選擇地,此QC度量的不足可觸發以替代的標準化染色體集用於判讀。在一個實例中,質量控制方法比較健全的染色體之實際的標準化覆蓋率值與健全的體染色體之預期值。預期值可藉由下列方式獲得:以多變數常態模式擬合未受影響之訓練樣品的標準化輪廓、根據數據的概度或Bayesian標準選擇最好的模式結構(例如使用Akaike信息標準或可能使用Bayesian信 息標準選擇模式)及固定在QC中使用的最好模式。健全的染色體之正常模式可藉由例如使用叢聚技術獲得,該技術鑑定具有用於正常樣品中的染色體覆蓋率之平均值及標準偏差的機率函數。當燃,可使用其他的模式形式。該方法評估在給出固定的模式參數之任何進入的測試樣品中的經觀察之標準化覆蓋率的概度。這可藉由以模式評分各進入的測試樣品以獲得概度且因而鑑定相對於正常的樣品集之離群值而做到。測試樣品與訓練樣品之概度偏離可示意不正常的標準化染色體或樣品處置/檢定處理之人為因素,其可導致不正確的樣品分類。可使用此QC度量減少與該等樣品人為因素之任一者相關聯的分類誤差。圖3K的左區顯示在x軸上的染色體數量及y軸顯示基於與如上述獲得的QC模式相比的標準化染色體覆蓋率。圖顯示對2號染色體具有過度覆蓋率的一個實例及對20號染色體具有過度覆蓋率的其他實例。該等實例可使用本文所述之QC度量消除或轉向使用替代的標準化染色體集。圖3K的左區顯示染色體的NCV相對於概度。
圖3A所描述之序列可用於基因組中的所有染色體之所有區間。在特定的實施態樣中,將不同的方法應用於Y染色體。為了計算染色體或片段劑量、NCV及/或NSV,使用來自用於劑量、NCV及/或NSV表現的染色體或片段中之區間的經校準之標準化覆蓋率量(如圖3A中所測定)。參見區塊圖325。在特定的實施態樣中,自關注之染色體、標準化染色體、關注之片段及/或標準化片段中 所有的區間計算標準化覆蓋率量之平均值,使用該平均值計算序列劑量、NCV及/或NSV,如本文別處所述。
在特定的實施態樣中,Y染色體經不同的處理。其可藉由遮蔽對Y染色體獨特的區間集篩選。在一些實施態樣中,根據先前併入以供參考的美國臨時專利申請案號61/836,057之方法測定Y染色體篩選。在一些實施態樣中,篩選遮蔽比那些在其他染色體篩選中更小的區間。例如,Y染色體遮蔽可以1kb水平篩選,而其他的染色體遮蔽可以100kb水平遮蔽。不過Y染色體可在與其他染色體(例如100kb)相同的區間大小標準化。
在特定的實施態樣中,經篩選之Y染色體如上文所述於圖3A之操作315中標準化。然而,除此以外不進行校準Y染色體。因此,Y染色體區間不進行全體輪廓去除。同樣地,Y染色體區間不進行GC校準或隨後進行的其他篩選步驟。這是因為當處理樣品時,該方法不知道樣品是否為男性或女性。女性樣品應該沒有與Y參考染色體並列之讀序。
創立序列遮蔽
本文所揭示的一些實施態樣係使用序列遮蔽篩除(或不遮蔽)關注序列上未辨別的序列讀序之策略,其導致在用於CNV評估之覆蓋率值中相對於以慣用方法所計算之值而更高的信號及更低的雜訊。此等遮蔽可以各種技術鑑定。在一個實施態樣中,遮蔽係使用圖4A-4B所例 證的技術鑑定,如下文進一步的細節中所解釋。
在一些執行中,遮蔽係使用已知具有正常的關注序列之複製數的代表實例之訓練集鑑定。遮蔽可使用下列技術鑑定:先使訓練集樣品標準化,接著校準整個序列範圍(例如輪廓)之系統變異及接著將彼等以GC變異性校準,如下文所述。標準化及校準係在來自訓練集上不在測試樣品上進行。對遮蔽進行一次鑑定且接著應用於許多測試樣品。
圖4A顯示建立此等序列遮蔽之方法400的流程圖,其可應用於一或多個測試樣品以除去在複製數評估中考慮的關注序列之區間。在圖4中例證的方法400使用基於序列標籤數量的序列標籤覆蓋率以獲得序列遮蔽。然而,類似於上文關於用於測定關於圖1的CNV之方法100的說明,可使用除了方法400之覆蓋率以外或代替該覆蓋率的其他變數或參數,諸如大小、大小比及甲基化水平。在一些執行中,對二或多個參數中之每一者產生一個遮蔽。此外,覆蓋率及其他參數可基於導出標籤的片段大小加權。為了容易閱讀,僅在方法400中稱為覆蓋率,但是應注意可使用其他參數代替覆蓋率,諸如大小、大小比及甲基化水平、以大小加權之計數等等。
方法400係藉由提供來自複數個未受影響之訓練樣品的包括序列讀序之訓練集開始。區塊圖402。該方法接著使訓練集之序列讀序與包含關注序列之參考基因組並列,因而提供訓練樣品之訓練序列標籤。區塊圖 404。在一些實施態樣中,以僅映射至未排除之位點的經獨特地並列之非多餘性標籤用於進一步分析。該方法包含參考基因組被區分為複數個區間且對各未受影響之訓練樣品測定在各訓練樣品的各區間中的訓練序列標籤之覆蓋率。區塊圖406。該方法亦對各區間測定整個所有訓練樣品的訓練序列標籤之覆蓋率。區塊圖408。在一些實施態樣中,各區間之預期的覆蓋率為整個訓練樣品之中位數或平均值。預期的覆蓋率構成全體輪廓。該方法接著藉由去除全體輪廓變異以調整在各訓練樣品之各區間中的訓練序列標籤之覆蓋率,因而獲得各訓練樣品之各區間中的訓練序列標籤經全體輪廓校準之覆蓋率。該方法接著創立包含整個參考基因組的經遮蔽及未經遮蔽之區間的序列遮蔽。各經遮蔽之區間具有超過遮蔽閾值之分布特徵。提供整個訓練樣品之區間中的訓練序列標籤的經調整之覆蓋率的分布特徵。在一些執行中,遮蔽閾值可與整個訓練樣品之區間內的經觀察之標準化覆蓋率變異有關。在整個樣品具有標準化覆蓋率的高變異係數或中位數絕對偏離之區間可基於個別度量之經驗分布鑑定。在一些替代的執行中,遮蔽閾值可與整個訓練樣品之區間內的經觀察之標準化覆蓋率變異有關。在整個樣品具有標準化覆蓋率的高變異或中位數絕對偏離係數之區間可基於個別度量之經驗分布遮蔽。
在一些執行中,鑑定經遮蔽之區間的單獨截止點(亦即遮蔽閾值)限定於關注之染色體所有其他的染色體。再者,單獨的遮蔽閾值可單獨地限定於各關注之染色 體,且單一遮蔽閾值限定於所有未受影響之染色體集。作為一實例的基於特定的遮蔽閾值之遮蔽限定於13號染色體及使用另一遮蔽閾值限定用於其他染色體之遮蔽。未受影響之染色體亦可具有每一染色體限定之彼等的遮蔽閾值。
評估用於每一關注之染色體的各種遮蔽閾值組合。遮蔽閾值組合提供一種用於關注之染色體的區間之遮蔽及用於所有其他染色體的區間之不同遮蔽。
在一個方法中,樣品分布截止點之變異係數(CV)或測量的值範圍經定義為區間CV值之經驗分布的百分位數(例如95、96、97、98、99),且該等截止值應用於排除關注之染色體的所有體染色體。再者,CV之百分位點截止值範圍限定於憑經驗的CV分布且該等截止值應用於關注之染色體(例如chr 21)。在一些實施態樣中,關注之染色體為X染色體及13號、18號和21號染色體。當然,可考慮其他的方法;例如可對各染色體進行單獨最優化。平行的最優化範圍一起(例如用於考慮下的關注之染色體的一個範圍及用於所有其他染色體的範圍)限定CV截止值組合的網格。參見圖4B。跨兩個截止點評估系統對訓練集的性能(一個用於標準化染色體(或除了關注之染色體以外的體染色體)及一個用於關注之染色體)且選擇最好的執行性能用於最後組態。此組合對每一關注之染色體可能不同。在特定的實施態樣中,對驗證集而非對訓練集評估性能,亦即使用交叉驗證評估性能。
在一些實施態樣中,用於測定截止範圍的最優化性能為染色體劑量之變異係數(基於標準化染色體之試驗性選擇)。該方法係使用目前經選擇之標準化染色體(或染色體類)選擇使關注之染色體的染色體劑量(例如比)之CV減至最低的截止點組合。在一個方法中,該方法如下測試在網格中的各截止點組合之性能:(1)應用截止點組合限定用於所有染色體之遮蔽且應用該等遮蔽篩選訓練集標籤;(2)藉由將圖3A之方法應用至經篩選之標籤以計算整個未受影響樣品之訓練集的標準化覆蓋率;(3)藉由例如加總對考慮下的染色體之區間的標準化覆蓋率以測定每一染色體的代表性標準化覆蓋率;(4)使用目前的標準化染色體計算染色體劑量,及(5)測定染色體劑量之CV。該方法可藉由將經選擇之篩選應用至自訓練集之原始部分分離之測試樣品集以評定該篩選之性能。亦即該方法將原始訓練集分成訓練子集及測試子集。使用訓練子集限定遮蔽截止點,如上文所述。
在替代的實施態樣中,可藉由自區間內整個訓練樣品之校準結果分布映射質量計分限定遮蔽,而不基於覆蓋率之CV限定遮蔽。映射質量計分反映出讀序映射至參考基因組之獨特性。換言之,映射質量計分定量讀序錯準之機率。低的映射質量計分與低的獨特性相關聯(高的錯準機率)。獨特性負責在讀序序列(當以序列分析儀產生時)中的一或多個錯誤。映射質量計分的詳細說明呈現於Li H,Ruan J,Durbin R.(2008)Mapping short DNA sequencing reads and calling variants using mapping quality scores.Genome Research 18:1851-8中,將其完整內容併入本文以供參考。在一些執行中,映射質量計分在本文稱為MapQ計分。圖4B顯示MapQ計分與經處理之覆蓋率的CV具有強的單調相關性。例如,具有CV高於之區間幾乎完全叢聚在圖4B中的圖左邊,具有低於約4之MapQ計分。因此,具有小的MapQ之遮蔽區間可得到非常類似於具有高CV之遮蔽區間限定之遮蔽。
樣品及樣品處理 樣品
用於測定CNV(例如染色體非整倍體、部分非整倍體及類似者)之樣品可包括自任何細胞、組織或器官取得的樣品,其中欲測定一或多個關注序列之複製數變異。樣品希望含有存在於細胞中的核酸及/或〝不含細胞〞之核酸(例如cfDNA)。
在一些實施態樣,有利於獲得不含細胞之核酸,例如不含細胞之DNA(cfDNA)。不含細胞之核酸(包括不含細胞之DNA)可以本技術中已知的各種方法自生物樣品獲得,包括但不限於血漿、血清和尿(參見例如Fan等人之Proc Natl Acad Sci 105:16266-16271[2008];Koide等人之Prenatal Diagnosis 25:604-607[2005];Chen等人之Nature Med.2:1033-1035[1996];Lo等人之Lancet 350:485-487[1997];Botezatu等人之Clin Chem. 46:1078-1084,2000;及Su等人之J Mol.Diagn.6:101-107[2004])。為了分離樣品中的不含細胞之DNA與細胞,可使用各種方法,包括但不限於分餾、離心(例如密度梯度離心)、DNA特異性沉澱或高通量細胞分選(high-throughput cell sorting)及/或其他分離方法。市場上可取得用於手動或自動分離cfDNA之套組可適用(Roche Diagnostics,Indianapolis,IN,Qiagen,Valencia,CA,Macherey-Nagel,Duren,DE)。已將包含cfDNA之生物樣品用於測定染色體異常存在或不存在(例如21號染色體三倍體症)之檢定中,其係藉由可檢測染色體非整倍體及/或各種多型態的定序檢定。
在各種實施態樣中,在使用之前(例如在製備定序文庫之前),可特異性地或非特異性地富集存在的樣品中的cfDNA。樣品DNA的非特異性富集係指樣品的基因組DNA片段之完整基因組擴增,可用於製備cfDNA定序文庫之前增加樣品DNA含量。非特異性富集可為存在於樣品中的兩種基因組中之一的選擇性富集,該樣品包含一種以上的基因組。例如,非特異性富集可以選擇母體樣品中的胎兒基因組,其可藉由已知增加樣品中的胎兒對母體DNA的相對比例之方法獲得。另一選擇地,非特異性富集可為存在於樣品中的兩種基因組之非特異性擴增。例如,非特異性擴增可為在包含來自胎兒及母體基因組之DNA的混合物之樣品中的胎兒及母體DNA擴增。用於完整基因組擴增之方法為本技術中已知。退化性寡核苷酸引 發(Degenerate oligonucleotide-primed)(DOP)之PCR、引子延伸PCR技術(PEP)及多重取代擴增(MDA)為完整基因組擴增方法的實例。在一些實施態樣中,包含來自不同的基因組之cfDNA的混合物之樣品不富集存在於混合物中基因組之cfDNA。在其他的實施態樣中,包含來自不同的基因組之cfDNA的混合物之樣品非特異性富集存在於樣品中基因組中之任一者。
包含應用於本文所述之方法的核酸之樣品通常包含生物樣品(〝測試樣品〞),例如上文所述。在一些實施態樣中,欲篩選一或多個CNV之核酸係藉由許多熟知方法中之任一者純化或分離。
據此,在特定的實施態樣中,樣品包含經純化或分離之多核苷酸或由該等所組成,或其可包含下列樣品:諸如組織樣品、生物流體樣品、細胞樣品及類似者。適合的生物流體樣品包括但不限於血液、血漿、血清、汗液、淚液、痰、尿、痰、耳流、淋巴液、唾液、腦脊液、灌洗液、骨髓懸浮液、陰道流、子宮頸灌洗液、腦漿、腹水、乳汁、呼吸道分泌物、腸道分泌物、泌尿生殖道分泌物、羊水、乳汁和白血球分離術樣品。在一些實施態樣中,樣品為以非侵入性程序可容易地獲得的樣品,例如血液、血漿、血清、汗液、淚液、痰、尿、痰、耳流、唾液或糞便。在特定的實施態樣中,樣品為末稍血液樣品或末稍血液樣品之血漿及/或血清部分。在其他的實施態樣中,生物樣品為拭子或塗片、生檢樣本或細胞培養液。在 另一實施態樣中,樣品為二或多種生物樣品之混合物,例如生物樣品可包含生物流體樣品、組織樣品和細胞培養樣品中之二或多種。如本文所使用的術語〝血液〞、〝血漿〞及〝血清〞明確地包含其部分或其處理部分。同樣地,在樣品取自生檢、拭子、塗片等等時,〝樣品〞明確地包含經處理之部分或衍生自生檢、拭子、塗片等等之部分。
在特定的實施態樣中,樣品可自下列來源獲得:包括但不限於來自不同個體的樣品、來自相同或不同個體的不同發育階段的樣品、來自不同的患病個體的樣品(例如患有癌症或懷疑患有遺傳性病症的個體)、正常的個體、在個體中於不同的疾病階段所獲得的樣品,自接受不同疾病治療之個體所獲得的樣品,來自承受不同的環境因素之個體的樣品、來自具有易染病體質之個體的樣品,具有暴露於傳染病劑(例如HIV)之個體的樣品及類似者。
在一個例證性但非限制性實施態樣中,樣品為自孕婦(例如孕婦)所獲得的母體樣品。在一些情況下,樣品可使用本文所述之方法分析以提供在胎兒中潛在的染色體異常之產前診斷。母體樣品可為組織樣品、生物流體樣品或細胞樣品。生物流體包括下列者作為非限制性實例:血液、血漿、血清、汗液、淚液、痰、尿、痰、耳流、淋巴液、唾液、腦脊液、灌洗液、骨髓懸浮液、陰道流、子宮頸灌洗液、腦漿、腹水、乳汁、呼吸道分泌物、腸道分泌物、泌尿生殖道分泌物和白血球分離術樣品。
在另一例證性但非限制性實施態樣中,母體樣品為二或多種生物樣品之混合物,例如生物樣品可包含生物流體樣品、組織樣品及細胞培養物樣品中之二或多種。在一些實施態樣中,樣品為以非侵入性程序可容易地獲得的樣品,例如血液、血漿、血清、汗液、淚液、痰、尿、乳汁、痰、耳流、唾液和糞便。在一些實施態樣中,生物樣品為末稍血液樣品及/或其血漿和血清部分。在其他的實施態樣中,生物樣品為拭子或塗片、生檢樣本或細胞培養液樣品。如本文所揭示之術語〝血液〞、〝血漿〞及〝血清〞明確地包含其部分或其處理部分。同樣地,在樣品取自生檢、拭子、塗片等等時,〝樣品〞明確地包含經處理之部分或衍生自生檢、拭子、塗片等等之部分。
在特定的實施態樣中,樣品亦可自試管內培養組織、細胞或其他含多核苷酸的來源獲得。培養樣品可自下列來源獲得:包括但不限於維持在不同的培養基和條件中(例如pH、壓力或溫度)之培養物(例如組織或細胞)、維持不同的長度時期之培養物(例如組織或細胞)、以不同因子或試劑(例如候選藥物或調配劑)處理之培養物(例如組織或細胞)、或不同類型的組織及/或細胞之培養物。
自生物來源分離核酸之方法為熟知的方法且取決於來源本性而不同。熟習本技術領域者可輕易地自如本文所述之方法需要的來源分離核酸。在一些情況下,可有利於分段在核酸樣品中的核酸分子。分段可為隨機的或其可為特異的,如例如使用限制性核酸內切酶消化所達成 的分段。用於隨機分段之方法為本技術中所熟知且包括例如DNAse消化、鹼處理及物理剪切。在一個實施態樣中,樣品核酸係自不承受分段之cfDNA獲得。
定序文庫製備
在一個實施態樣中,本文所述之方法可利用下一代定序技術(NGS),其容許多重樣品個別地定序成基因組分子(亦即單樣定序)或包含在單一定序運作上的索引基因組分子(例如多樣定序)之儲集樣品。該等方法可產生至多幾億個DNA許序列讀序。在各種實施態樣中,基因組核酸序列及/或索引基因組核酸序列可使用例如本文所述之下一代定序技術(NGS)測定。在各種實施態樣中,使用NGS所獲得的大量序列數據的分析可使用如本文所述之一或多個處理器進行。
在各種實施態樣中,此等定序技術的使用不包含製備定序文庫。
然而,在特定的實施態樣中,本文涵蓋之定序方法包含製備定序文庫。在一個例證性方法中,定序文庫製備包含得到隨意收集之已準備好定序的經轉接子修飾之DNA片段(例如多核苷酸)。多核苷酸之定序文庫可自DNA或RNA製備,包括DNA或cDNA之等效物、類似物,例如藉由反轉錄作用而自RNA模板所產生的互補或複製DNA之DNA或cDNA。多核苷酸可源於雙鏈形式(例如dsDNA,諸如基因組DNA片段、cDNA、PCR擴增產 物及類似者),或在特定的實施態樣中,多核苷酸可源於單鏈形式(例如ssDNA、RNA等等)且已轉換成dsDNA形式。以例證方式說明,在特定的實施態樣中,單鏈mRNA分子可複製成適合用於製備定序文庫之雙鏈cDNA。主要的多核苷酸分子之精確序列通常對定序文庫製備方法不重要且可能已知或未知。在一個實施態樣中,多核苷酸分子為DNA分子。更特定言之,在特定的實施態樣中,多核苷酸分子代表有機體的整個基因互補或實質地代表有機體的基因互補,且為基因組DNA分子(例如細胞之DNA、不含細胞之DNA(cfDNA)等等),其通常包括包括內含子序列及外顯子序列(編碼序列)二者,以及未編碼調節序列,諸如啟動子和增強子序列。在特定的實施態樣中,主要的多核苷酸分子包含人類基因組DNA分子,例如存在於懷孕受試者之末稍血液中的cfDNA分子。
一些NGS定序平台的定序文庫製備係藉由使用包含特定的片段大小範圍之多核苷酸促成。此等定序文庫之製備通常包含分段大的多核苷酸(例如細胞之基因組DNA)以獲得所欲大小範圍的多核苷酸。
分段可以那些熟習本技術領域者已知的許多方法中之任一者達成。例如,分段可以機械分式達成,包括但不限於包括但不限於噴霧,音波處理和液壓剪。然而,機械分段通常在C-O、P-O和C-C鍵切割DNA骨架,導致平端及3’-和5’-突出端與斷裂的C-O、P-O及/C-C鍵之不均勻混合(參見例如Alnemri and Liwack,J Biol.Chem 265:17323-17333[1990];Richards and Boyer,J Mol Biol 11:327-240[1965]),該等可能必須被修復,因為可能缺乏用於後續酵素反應必要的5'-磷酸酯,例如定序轉接子接合,其為製備用於定序之DNA所必要的。
相對之下,cfDNA通常以少於約300個鹼基對之片段存在且因此使用cfDNA樣品產生定序通常沒必要分段。
不論多核苷酸是否經強迫分段(例如於試管內分段)或自然以片段存在,通常將該等轉換成具有5’-磷酸酯及3’-羥基之平端DNA。標準的方案(例如使用例如如本文別處所述之Illumina平台定序之的方案)指示使用者末端修復樣品DNA、在尾端加dA之前純化經末端修復之產物及在文庫製備的轉接子接合步驟之前純化尾端加dA之產物。
本文所述之序列文庫製備之方法的各種實施態樣消除進行一或多個通常由標準方案授權之步驟的必要性,以獲得可以NGS定序的經修飾之DNA產物。簡化法(ABB方法)、1步驟法和2步驟法為製備定序文庫之方法的實例,其可於2012年7月20日申請之專利申請案號13/555,037中發現,將其完整內容併入以供參考。
用於追蹤及驗證樣品完整性之標記核酸
在各種實施態樣中,樣品類及追蹤之完整性 的驗證可藉由定序樣品基因組核酸(例如cfDNA)之混合物且伴隨已在例如處理之前引入樣品中的標記核酸而實現。
標記核酸可與測試樣品(例如生物來源樣品)組合且承受包括例如下列步驟中之一或多者之方法:將生物來源樣品分餾,例如自全血樣品獲得基本上不含細胞之血漿部分,自例如分餾之血漿或未分餾之生物來源樣品(例如組織樣品)純化核酸,且定序。在一些實施態樣中,定序包含製備定序文庫。與來源樣品組合之標記分子序列或標記分子序列之組合經選擇對來源樣品為獨特的。在一些實施態樣中,在樣品中獨特的標記分子全部具有相同的序列。在其他的實施態樣中,在樣品中獨特的標記分子為複數個序列,例如二、三、四、五、六、七、八、九、十、十五、二十或多個不同的序列之組合。
在一個實施態樣中,樣品的完整性可使用具有相同序列的複數個標記核酸分子驗證。另一選擇地,樣品的同一性可使用具有至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少16、至少17、至少18、至少19、至少20、至少25、至少30、至少35、至少40、至少50或多個不同序列的複數個標記核酸分子驗證。複數個生物樣品(亦即二或多個生物樣品)的完整性驗證需要二或多個樣品中之每一者以具有對欲標記之複數個測試樣品之每一者獨特的序列之標記核酸標記。例如,第一樣品可以具有序列A之標記核酸標記及第二樣品 可以具有序列B之標記核酸標記。另一選擇地,第一樣品可以全部皆具有序列A之標記核酸標記及第二樣品可以序列B與C之混合物標記,其中序列A、B和C為具有不同序列之標記分子。
標記核酸可在文庫製備(若欲建構文庫)及定序之前發生的樣品製備之任何階段添加至樣品中。在一個實施態樣中,標記分子可與未經處理之來源樣品組合。例如,標記核酸可提供在用於收集血液樣品的收集管中。另一選擇地,可將標記核酸添加至抽血之後的血液樣品中。在一個實施態樣中,將標記核酸添加至用於收集生物流體樣品之容器中,例如將標記核酸添加至用於收集血液樣品之血液收集管中。在另一實施態樣中,將標記核酸添加至生物流體樣品的部分中。例如,將標記核酸添加至血液樣品之血漿及/或血清部分中,例如母體血漿樣品。在又另一實施態樣中,將標記分子添加至經純化之樣品中,例如已自生物樣品純化之核酸樣品。例如,將標記核酸添加至經純化之母體及胎兒cfDNA的樣品中。同樣地,可將標記核酸添加至處理樣本之前的生檢樣本中。在一些實施態樣中,標記核酸可與輸送標記分子至生物樣品之細胞的載體組合。細胞輸送載體包括pH敏感性且陽離子脂質體。
在各種實施態樣中,標記分子具有抗基因組序列,其為不存在生物來源樣品之基因組中的序列。在例示性實施態樣中,用於驗證人類生物來源樣品完整性之標記分子具有不存在於人類基因組中的序列。在替代的實施 態樣中,標記分子具有不存在於來源樣品及任何一或多個其他已知基因組中的序列。例如,用於驗證人類生物來源樣品完整性之標記分子具有不存在於人類基因組及小鼠基因組中的序列。替代物容許驗證包含二或多個基因組之測試樣品的完整性。例如,自受病原體(例如細菌)影響之受試者所獲得的不含人類細胞之DNA樣品的完整性可使用具有不存在於人類基因組及影響細菌之基因組二者中的序列之標記分子驗證。許多病原體(例如細菌、病毒、酵母、真菌、原生動物等等)之基因組序列係在全球資訊網ncbi.nlm.nih.gov/基因組上公開取得。在另一實施態樣中,標記分子為具有不存在於任何已知基因組中的序列之核酸。標記分子的序列可以對數任意產生。
在各種實施態樣中,標記分子可為天然存在之去氧核糖核酸(DNA)、核糖核酸或人工核酸類似物(核酸模擬物),包括肽核酸(PNA)、嗎啉代核酸,鎖定核酸,乙二醇核酸和蘇糖核酸,其係藉由改變不具有磷酸二酯骨架之分子或DNA模擬物的骨架而與天然存在之DNA或RNA區別。去氧核糖核可來自天然存在之基因組或可通過使用酵素或固相化學合成而於實驗室產生。化學方法亦可用於產生未於自然界中發現的DNA模擬物。可取得的其中磷酸二酯鍵已被取代,但其中去氧核糖被保留之DNA衍生物包括但不限於具有藉由硫甲縮醛或甲醯胺鍵所形成之骨架的DNA模擬物,已顯示其為良好結構的DNA模擬物。其他DNA模擬物包括嗎啉代衍生物和肽核 酸(PNA,其含有基於N-(2-胺乙基)甘胺酸之假肽骨架(Ann Rev Biophys Biomol Struct 24:167-183[1995])。PNA為極好的DNA(或核糖核酸[RNA])之結構模擬物,且PNA寡聚物能夠與Watson-Crick互補DNA和RNA(或PNA)寡聚物形成非常穩定的雙顯體結構,且彼等亦可藉由螺旋入侵而與雙顯體DNA中的標靶結合(Mol Biotechnol 26:233-248[2004])。可用作為標記分子之DNA類似物的另一良好的結構模擬物/類似物物為硫代磷酸酯DNA,其中非橋連氧之一經硫取代。此修飾降低內切和外切核酸酶2(包括5'至3'和3'至5 'DNA POL 1外切核酸酶)、核酸酶S1和P1、RNase、血清核酸酶及蛇毒磷酸二酯酶的作用。
標記分子的長度可與樣品核酸的長度不同或不明確亦即標記分子的長度可類似於樣品基因組分子的長度,或其可比樣品基因組分子的度長或短。標記分子的長度係以構成標記分子之核苷酸或核苷酸類似物鹼基的數量測量。具有長度不同於樣品基因組分子的長度之標記分子可使用本技術中已知的分離方法與來源核酸區別。例如,標記與樣品核酸分子的長度差別可以電泳分離法測定,例如毛細管電泳。大小區別可有利於定量及評定標記及樣品核酸的質量。標記核酸較佳地比基因組核酸短,且足夠的長度以排除彼等映射至樣品的基因組。例如,需要30個鹼基人類序列使其獨特地映射至人類基因組。據此,在特定的實施態樣中,人類樣品的定序生物檢定中所使用的標記分子應該具有至少30bp長度。
標記分子的長度選擇主要以用於驗證來源樣品的完整性之定序技術測定。亦可考慮定序之樣品基因組核酸的長度。例如,一些定序技術係使用多核苷酸之選殖擴增,其可要求欲經選殖擴增之基因組多核苷酸具有最小的長度。例如,使用Illumina GAII序列分析儀之定序包括具有110bp之最小長度的多核苷酸之橋式PCR的試管內選殖擴增(亦稱為叢聚擴增),與轉接子接合以提供至少200bp及少於600bp之核酸,其可經選殖擴增且定序。在一些實施態樣中,經轉接子接合之標記分子的長度係介於約200bp與約600bp之間,介於約250bp與550bp之間,介於約300bp與500bp之間,或介於約350與450bp之間。在其他的實施態樣中,經轉接子接合之標記分子的長度為約200bp。例如,當定序存在於母體樣品中的胎兒cfDNA時,可選擇標記分子的長度類似於胎兒cfDNA分子的長度。因此,在一個實施態樣中,在包含大規模平行定序母體樣品中的cfDNA以測定胎兒染色體非整倍體的存在或不存在之檢定中所使用的標記分子的長度可為約150bp、約160bp、170bp、約180bp、約190bp或約200bp;標記分子較佳為約170pp。其他的定序方法(例如SOLiD定序、Polony定序和454定序)係使用乳化PCR以選殖擴增用於定序之DNA分子,且各技術指規欲擴增之分子的最小及最大長度。欲定序成經選殖擴增之核酸的標記分子的長度可為至多約600bp。在一些實施態樣中,欲定序之標記分子的長度可大於600bp。
不使用分子之選殖擴增且能夠定序非常寬廣範圍的模板長度之單一分子定序在大部分的情況下不需要使欲定序之分子具有任何特定的長度。然而,每單位質量的序列產量係取決於3’端羥基的數量,且因此以相對短的模板比長模板更有效用於定序。若以大於1000nt之核酸開始,則通常可建議剪切核酸至100至200nt之平均長度,使得更多的序列信息可自相同質量的核酸產生。因此,標記分子的長度可在從數十個鹼基至數千個鹼基之範圍內。用於單一分子定序之標記分子的長度可為至多約25bp、至多約50bp、至多約75bp、至多約100bp、至多約200bp、至多約300bp、至多約400bp、至多約500bp、至多約600bp、至多約700bp、至多約800bp、至多約900bp、至多約1000bp或更長的長度。
經選擇之標記分子的長度以由正定序之基因組核酸的長度決定。例如,cfDNA係作為細胞基因組DNA之基因組片段於人類血流中循環。在孕婦的血漿中發現之胎兒cfDNA分子通常比母體cfDNA分子短(Chan等人之Clin Chem 50:8892[2004])。循環胎兒DNA之大小分級確認循環胎兒DNA片段的平均長度為<300bp,而母體DNA經估計在介於約0.5與1Kb之間(Li等人之Clin Chem,50:1002-1011[2004])。該等發現與Fan等人使用NGS測定出胎兒cfDNA很少>340bp的發現一致(Fan等人之Clin Chem 56:1279-1286[2010])。以基於二氧化矽之標準方法而自尿分離之DNA係由兩個部分所組成:源 自於脫落細胞(shed cell)的高分子量DNA及跨腎(transrenal)DNA(Tr-DNA)的低分子量(150-250個鹼基對)部分(Botezatu等人之Clin Chem.46:1078-1084,2000;及Su等人之J Mol.Diagn.6:101-107,2004)。自體液分離不含細胞之核酸的最新發展之技術應用至跨腎核酸之分離揭露存在於尿中的DNA及RNA片段遠少於150個鹼基對(美國專利發表案號20080139801)。在其中cfDNA為經定序之基因組核酸的實施態樣中,經選擇之標記分子的長度可為至多約cfDNA的長度。例如,母體cfDNA樣品所使用之欲定序成單一核酸分子或經選殖擴增之核酸的標記分子的長度可介於約100bp與600bp之間。在其他的實施態樣中,樣品基因組核酸為較大分子的片段。例如,經定序之樣品基因組核酸為分段細胞DNA。在實施態樣中,當定序分段細胞DNA時,則標記分子的長度可至多為DNA片段的長度。在一些實施態樣中,標記分子的長度至少為使序列讀序獨特定映射至適當的參考基因組所需之最小長度。在其他的實施態樣中,標記分子的長度為排除標記分子映射至樣品參考基因組所需之最小長度。
另外,可使用標記分子驗證不以核酸定序檢定,而以除了定序以外的一般生物技術(例如即使PCR)驗證之樣品。
樣品對照物(例如用於定序及/或分析的過程中正對照物(in process positive control))
在各種實施態樣中,引入樣品中的標記序列(例如上文所述)可具有作為正對照物的功能,以驗證定序及後續的處理及分析之準確性及效率。
據此,提供用於提供在樣品中用於定序的過程中正對照物(IPC)之組成物及方法。在特定的實施態樣中,提供正對照物用於定序在包含基因組之混合物的樣品中的之cfDNA。可使用與自不同的樣品集(例如以不同的定序運作在不同的時間定序之樣品)所獲得的序列信息之基線移位相關的IPC。因此,例如IPC可使以母體測試樣品所獲得的序列信息與自不同的時間定序之合格樣品集所獲得的序列信息相關。
同樣地,在片段分析的例子中,IPC可使自受試者所獲得的特別片段之序列信息與自不同的時間定序之(類似序列)合格樣品集所獲得的序列相關。在特定的實施態樣中,IPC可使自受試者所獲得的特別的癌症相關之基因座的序列信息與自合格樣品集(例如自已知的擴增/缺失及類似者)所獲得的序列信息相關。
另外,IPC可用作為通過定序方法追蹤樣品之標記。IPC亦可對關注之染色體的一或多個非整倍體(例如NCV,例如21號染色體三倍體症、13號染色體三倍體症、18號染色體三倍體症)提供定性正序列劑量值,以提供適當的解釋且確保數據的可依賴性及準確性。在特定的實施態樣中,可創立包含來自男性及女性基因組之核酸的IPC,對母體樣品中的X和Y染色體提供劑量以測定胎兒 是否為男性。
過程中對照物的類型及數量係取決於所需之測試的類型或本性。例如,用於要求來自包含基因組之混合物的樣品之DNA定序以測定染色體非整倍體是否存在之測試的過程中對照物可包含自正測試之已知包含相同的染色體非整倍體之樣品所獲得的DNA。在一些實施態樣中,IPC包括來自已知包含關注之染色體的非整倍體之樣品的DNA。例如,用於測定胎兒三倍體(例如21號染色體三倍體症)存在或不存在於母體樣品中的測試之IPC包含自具有21號染色體三倍體症之個體所獲得的DNA。在一些實施態樣中,IPC包含自二或多個具有不同的非整倍體之個體所獲得的DNA之混合物。例如,用於測定13號染色體三倍體症、18號染色體三倍體症、21號染色體三倍體症和X染色體單倍體症存在或不存在的測試之IPC包含自分別具有測試的三倍體中之一者的懷胎兒之孕婦所獲得的DNA之組合。除了完全的染色體非整倍體以外,可創立IPC以提供用於測定部分非整倍體存在或不存在之試驗的正對照物。
適合作為檢測單一非整倍體之對照物的IPC可使用自兩種受試者(一種為非整倍體基因組的貢獻者)所獲得的細胞基因組DNA之混合物創立。例如,經創立作為測定胎兒三倍體(例如21號染色體三倍體症)之測試的對照物之IPC可藉由將來自攜有三倍體症染色體的男性或女性受試者之基因組DNA與已知不攜有三倍體症染色體 的女性受試者之基因組DNA組合而建立。基因組DNA可自兩種受試者的細胞提取且剪切以提供介於約100-400bp之間,介於約150-350bp之間或介於約200-300bp之間的片段,以模擬在母體樣品中的循環cfDNA片段。選擇自攜有非整倍體(例如21號染色體三倍體症)的受試者之分段DNA的比例以模擬在母體樣品中發現的循環胎兒cfDNA,以提供包含分段DNA之混合物的IPC,該混合物包含約5%、約10%、約15%、約20%、約25%、約30%之來自攜有非整倍體的受試者之DNA。IPC可包含來自分別攜有不同的非整倍體之不同的受試者之DNA。例如,IPC可包含約80%之未受影響的女性DNA及剩餘20%可為來自分別攜有三倍體症21號染色體、三倍體症13號染色體和三倍體症染色體18之三種不同的受試者之DNA。製備用於定序的分段DNA之混合物。處理分段DNA之混合物可包含製備定序文庫,其可使用任何大規模平行方法以單樣或多樣方式定序。可將基因組IPC的儲備溶液儲存且用於多重診斷試驗中。
另一選擇地,IPC可使用自已知具有已知的染色體非整倍體之懷胎兒的母親所獲得的cfDNA創立。例如,cfDNA可自具有21號染色體三倍體症之懷胎兒的孕婦獲得。cfDNA係自母體樣品提取,且選殖成細菌載體及在細菌中生長以提供持續的IPC來源。DNA可使用限制性核酸內切酶而自細菌載體提取。另一選擇地,經選殖之cfDNA可以例如PCR擴增。可與來自欲分析染色體非整 倍體存在或不存在的測試樣品之cfDNA相同運作中定序處理IPC DNA。
雖然於上文關於三倍體來說明IPC之創立,但是應理解可創立IPC以反映其他的部分非整倍體,包括例如各種片段擴增及/或缺失。因此,例如在已知各種癌症與特定的擴增相關聯時(例如與20Q13相關聯的乳癌),可創立併入那些已知的擴增之IPC。
定序方法
如上文所指示,將製備之樣品(例如定序文庫)定序,作為鑑定複製數變異之程序的一部分。可利用許多定序技術中之任一者。
一些定序技術可於市場上取得,諸如以來自Affymetrix Inc.(Sunnyvale,CA)之以雜交平台定序、及來自454 Life Sciences(Bradford,CT)、Illumina/Solexa(Hayward,CA)和Helicos Biosciences(Cambridge,MA)之以合成平台定序、及來自Applied Biosystems(Foster City,CA)以接合平台定序,如下文所述。除了使用Helicos Biosciences之以合成定序所進行的單一分子定序以外,其他的單一分子定序技術包括但不限於Pacific Biosciences之SMRTTM技術、ION TORRENTTM技術及例如由Oxford奈米孔Technologies所發展的奈米孔定序。
雖然考慮自動化Sanger方法作為〝第一代〞技術,但是包括自動化Sanger定序之Sanger定序亦可用 於本文所述之方法中。另外適合的定序方法包括但不限於核酸成像技術,例如原子力顯微鏡(AFM)或穿透式電子顯微鏡(TEM)。例證性定序技術於下文更詳細說明。
在一個例證性但非限制性實施態樣中,本文所述之方法包含使用Illumina之以合成定序及基於可逆性終止子之定序化學(例如在Bentley等人之Nature 6:53-59[2009]所述)在測試樣品中(例如在母體樣品中的cfDNA、在癌症篩選之受試者中的cfDNA或細胞DNA及類似者)獲得核酸之序列信息。模板DNA可為基因組DNA,例如細胞DNA或cfDNA。在一些實施態樣中,使用來自分離之細胞的基因組DNA作為模板,且分段成數百個鹼基對的長度。在其他的實施態樣中,使用cfDNA作為模板,且當cfDNA以短片段存在時,則不需要分段。例如,胎兒cfDNA係以約170個鹼基對(bp)長度於血流中循環(Fan等人之Clin Chem 56:1279-1286[2010]),且DNA在定序前不需要分段。Illumina之定序技術依賴分段基因組DNA附著至其上結合寡核苷酸錨定之平面、隨意的透明表面。模板DNA經末端修復以產生5’-磷酸化平端,且使用Klenow片段之聚合酶活性添加單一A鹼基至平端磷酸化DNA片段之3’端。此添加製備用於接合至寡核苷酸轉接子之DNA片段,該轉接子具有在彼之3’端的單一T鹼基突出端,以增加接合效率。轉接子寡核苷酸係與流動槽錨寡核苷酸互補(不與重複擴展分析中的錨定物/錨定讀序混淆)。在限制稀釋的條件下,將經轉接子修飾之單鏈模板 DNA添加至流動槽中且以雜交固定至錨寡核苷酸。附著之DNA片段延伸且經橋擴增以創立具有幾億個叢聚體的超高密度定序之流動槽,各細胞含有約1,000個複製的相同模板。在一個實施態樣中,任意分段之基因組DNA係在承受叢聚擴增之前使用PCR擴增。另一選擇地,使用未擴增(例如不經PCR)之基因組文庫製備,且使用單獨的叢聚擴增而富集任意分段之基因組DNA(Kozarewa等人之Nature方法6:291-295[2009])。模板係使用以合成之健全的四色DNA定序技術定序,其使用具有可移除的螢光染料之可逆性終止子。高靈敏度螢光檢測係使用雷射激發及全內反射光學達成。約幾十至數百個鹼基對之短序列讀序與參考基因組並列,且短序列讀序獨特地映射至參考基因組係使用特別發展之數據分析流程軟體鑑定。在完成第一讀序之後,模板可原位再生而能從片段的相反端完成第二讀序。因此,可使用單端或雙端定序DNA片段。
本發明的各種實施態樣可使用容許雙端定序之合成定序。在一些實施態樣中,以Illumina的合成平台定序包含叢聚片段。叢聚為其中使各片段分子等溫擴增之方法。在一些實施態樣中,作為本文所述之實例:片段具有附著至片段的兩端之不同的轉接子,轉接子容許片段與在流動槽巷道表面上的兩個不同的寡核苷酸雜交。片段另包括或連接至片段之兩端上的兩個索引序列,該索引序列提供標籤以鑑定在多樣定序中不同的樣品。在一些定序平台中,欲定序之片段亦稱為插入物。
在一些執行中,叢聚在Illumina平台之流動槽為具有巷道的載玻片。各巷道為以兩種類型的寡核苷酸坪塗佈之玻璃通道。能以兩種類型之寡核苷酸中之第一者在表面上雜交。此寡核苷酸係與片段之一端上的第一轉接子互補。聚合酶創立雜交片段之互補鏈。雙鏈分子變性且洗去原始模板鏈。剩餘鏈係與許多其他的剩餘鏈並行通過橋式應用而經選殖擴增。
在橋式擴增(bridge amplification)中,將鏈折疊,且在鏈的第二端上的第二轉接子區域與第二類型寡核苷酸在流動槽表面上雜交。聚合酶產生互補鏈,形成雙鏈橋分子。此雙鏈分子變性,導致兩個單鏈分子通過兩個不同的寡核苷酸而繫於流動槽。接著一再重復該方法且同時出現數百萬個叢聚體,導致所有片段的選殖隆擴。在橋式擴增之後,將反向鏈切割和洗出,只留下正向鏈。3'端經阻斷以防止不希望的引發。
在叢聚之後,定序係以延伸第一定序引子開始,以產生第一讀序。經螢光標籤化之核苷酸於各週期競爭添加至增長鏈中。僅一個基於模板序列而併入。在添加各核苷酸之後,將叢聚體以光源激發且發射特徵性螢光信號。循環數目決定讀序長度。發射波長及信號強度決定鹼基判讀。同時讀取給出之叢聚體的所有相同的鏈。幾億個叢聚體以大規模平行方式定序。在完成第一讀序時洗出讀序產物。
在包含兩個索引引子之方案的下一步驟中, 將索引1之引子引入模板上的索引1區域中且雜交。索引區域提供片段鑑定,其有用於多樣定序方法中的去多樣化樣品。產生類似於第一讀序之索引1讀序。在完成索引1讀序之後,洗去讀序產物且使鏈的3'端去保護。接著將模板鏈折疊且與流動槽上的第二寡核苷酸結合。與索引1相同的方式讀取索引2序列。接著在步驟完成時洗出索引2讀序產物。
在讀取兩個索引之後,讀序2係使用聚合酶引發,以延伸第二流動槽寡核苷酸,形成雙鏈橋。此雙鏈DNA變性且阻斷3’端。將原始正向鏈切割且洗出,留下反向鏈。讀序2係以引入讀序2定序引子開始。與讀序1一樣,重複定序步驟,直到達成所欲長度。洗出讀序2產物。此整個步驟產生數百萬讀序,代表所有的片段。來自儲集樣品文庫之序列係基於樣品製備期間引入之獨特的索引而分離。局部叢聚各樣品類似延伸之鹼基判讀的讀序。使正向及反向讀序成對以創立鄰近序列。該等鄰近序列與用於變異鑑定之參考基因組並列。
上文所述之以合成定序實例包含雙端讀序,其用於所揭示之方法的許多實施態樣中。雙端定序包含來自片段兩端的2個讀序。對一對讀序映射至參考序列時,可測定在兩個讀序之間的鹼基對距離,接著可使用該距離測定獲得讀序之片段的長度。在一些情況下,跨越兩個區間之片段可具有與一個區間並列的其鹼基對讀序中之一者,且另一者與相鄰的區間並列。當得到越長的區間或得 到越短的讀序,則此情況越罕見。可使用各種方法說明該等片段的區間成員數。例如,該等可在測定區間之片段大小頻率時被忽略;彼等可以相鄰的區間二者計數;彼等可分配至包含兩個區間的較多數之鹼基對的區間;或彼等可分配至具有相對於各區間中的鹼基對部分之權重的兩個區間。
雙端讀序可使用不同長度的插入物(亦即欲定序不同的片段大小)。作為本發明的默認意義,使用雙端讀序述及自各種插入物長度所獲得的讀序。在一些情況下,為了區別短的插入物雙端讀序與長的插入物雙端讀序,將後者亦稱為配對讀序。在包含配對讀序的一些實施態樣中,兩個生物素接合轉接子先附著至相對長的插入物(例如幾個kb)之兩端。生物素接合轉接子接著連接插入物的兩端以形成環狀分子。包含生物素接合轉接子之子片段接著可藉由進一步分段環狀分子而獲得。以相反的序列順序包括原始片段的兩端之子片段接著可與上述用於短的插入物雙端定序之相同程序定序。使用Illumina平台之配對定序的更多細節顯示於下列URL的線上發表,併入其完整內容以供參考:res|.|illumina|.|com/documents/products/technotes/technote_nextera_matepair_data_processing。關於雙端定序的額外資訊可見於美國專利案號7601499和美國專利公開案號2012/0,053,063中,併入關於雙端定序方法及設備之資料以供參考。
在DNA片段定序之後,將預定長度之序列讀序(例如100bp)映射至參考基因組或與參考基因組並列。經映射或並列之讀序及彼等在參考序列上的對應位置亦稱為標籤。在一個實施態樣中,參考基因組序列為NCBI36/hg18序列,其係取自全球資訊網上的genome dot ucsc dot edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105)。另一選擇地,參考基因組序列為GRCh37/hg19,其係取自全球資訊網上的genome dot ucsc dot edu/cgi-bin/hgGateway。公開的序列資訊的其他來源包括GenBank、dbEST、dbSTS、EMBL(歐洲分子生物實驗室)和DDBJ(日本DNA數據庫)。許多電腦演算法可用於並列序列,包括而不限於BLAST(Altschul等人於1990年)、BLITZ(MPsrch)(Sturrock & Collins於1993年)、FASTA(Person & Lipman於1988年)、BOWTIE(Langmead等人之Genome Biology 10:R25.1-R25.10[2009])或ELAND(Illumina,Inc.,San Diego,CA,USA)。在一個實施態樣中,血漿cfDNA分子的經選殖擴展之複製物的一端係以Illumina基因組分析儀的生物信息學並列分析以定序及處理,其使用有效的大規模並列之核苷酸數據庫(ELAND)軟體。
在一個例證性但非限制性實施態樣中,本文所述之方法包含獲得在測試樣品中核酸之序列信息,例如在母體樣品中的cfDNA、在進行癌症篩選之受試者中的cfDNA或細胞DNA及類似者,該方法係使用Helicos True Single Molecule Sequencing(tSMS)技術之單一分子定序技術(例如在Harris T.D.等人之Science 320:106-109[2008]所述)。在tSMS技術中,將DNA樣品切割成約100至200個核苷酸之鏈且將polyA序列添加至各DNA鏈之3’端。將各鏈以添加的經螢光標記之腺苷核苷酸標記。接著將DNA鏈與含有固定至流動槽表面的數百萬個寡T捕獲位點之流動槽雜交。在特定的實施態樣中,模板可呈約1億個模板/平方公分之密度。接著將流動槽裝載於儀器中,例如HeliScopeTM序列分析儀,且以雷射照射流動槽表面,顯露各模板的位置。CCD相機可映射模板在流動槽表面上的位置。接著將模板螢光標記切割且洗出。定序反應係藉由引入DNA聚合酶及經螢光標記之核苷酸開始。寡T核酸適合作為引子。聚合酶係以模板引導方式併入經標記之核苷酸至引子中。移除聚合酶及未併入之核苷酸。藉由使流動槽表面成像以識別引導經螢光標記之核苷酸併入之模板。在成像之後,以切割步驟去除螢光標記且以其他經螢光標記之核苷酸重複該方法,直到達成所欲讀序長度為止。隨各核苷酸添加步驟收集序列信息。以單一分子定序技術定序之完整基因組排除或通常消除在製備定序文庫中基於PCR之擴增,且該方法容許直接測量樣品,而不是測量該樣品的複製物。
在另一例證性但非限制性實施態樣中,本文所述之方法包含獲得在測試樣品中核酸之序列信息,例如在母體測試樣品中的cfDNA、在進行癌症篩選之受試者中 的cfDNA或細胞DNA及類似者,該方法係使用454定序(Roche)(例如在Margulies,M.等人之Nature 437:376-380[2005]所述)。454定序通常包含兩個步驟。在第一步驟中,將DNA剪切成約300至800個鹼基對之片段且使片段成平端。接著將寡核苷酸轉接子接合至片段的末端。轉接子適合作為片段擴增及定序之引子。片段可使用例如含有5’-生物素標籤之轉接子B附著至DNA捕獲珠粒,例如經鏈黴親和素塗佈之珠粒。附著至珠粒的片段在油-水乳液的液滴內經PCR擴增。結果是經選殖擴增之DNA片段在珠粒上的多重複製物。在第二步驟中,將珠粒捕獲在槽孔中(例如皮升大小之槽孔)。對各DNA片段並行進行焦磷酸定序。以添加一個或多個核苷酸產生光信號,以定序儀器中的CCD相機記錄。信號強度係與引入的核苷酸數量成比例。焦磷酸定序係利用在核苷酸添加時釋放的焦磷酸鹽(Ppi)。PPi係在腺苷5'磷酸硫酸鹽的存在下藉由ATP硫酸化酶(sulfurylase)轉化為ATP。螢光素酶係使用ATP而使螢光素轉化成氧螢光素(oxyluciferin),且此反應產生進行測量及分析的光。
在另一例證性但非限制性實施態樣中,本文所述之方法包含獲得在測試樣品中核酸之序列信息,例如在母體測試樣品中的cfDNA、在進行癌症篩選之受試者中的cfDNA或細胞DNA及類似者,該方法係使用SOLiDTM技術(Applied Biosystems)。在以接合之SOLiDTM定序中,將基因組DNA剪切成片段且將轉接子附著至片段的5’和 3’端,以產生片段文庫。另一選擇地,可引入內部轉接子,其係藉由將轉接子接合至片段的5’和3’端、使片段成環狀、消化環狀片段以產生內部轉接子且將轉接子附著至所得片段的5’和3’端,以產生配對文庫。接下來,在含有珠粒、引子、模板及PCR組件之微反應器中製備選殖珠粒群體。在PCR之後,模板變性且富集珠粒,以延伸之模板分離珠粒。在經選擇之珠粒上的模板承受3’修飾,其允許與玻璃片鍵結。序列可藉由部分隨機的寡核苷酸與以特定的螢光團鑑定之中心確定鹼基(或鹼基對)相繼雜交及接合測定。在記錄顏色之後,將接合之寡核苷酸切割且去除,且接著重複該方法。
在另一例證性但非限制性實施態樣中,本文所述之方法包含獲得在測試樣品中核酸之序列信息,例如在母體測試樣品中的cfDNA、在進行癌症篩選之受試者中的cfDNA或細胞DNA及類似者,該方法係使用Pacific Biosciences之單一分子即時(SMRTTM)定序技術。在SMRT定序中,在DNA合成期間使連續併入的經染料標記之核苷酸成像。將單一DNA聚合酶分子附著至個別零模式波長檢測器(ZMW檢測器)的底部表面,其獲得序列信息,同時使磷酸連結之核苷酸併入生長引子鏈中。ZMW檢測器包含限制結構,其能夠針對於快速在ZMW當中擴散(例如以微秒)之螢光核苷酸的背景觀察以DNA聚合酶併入之單一核苷酸。通常需要幾毫秒使核苷酸摻入生長鏈中。在此期間,將螢光標記激發且產生螢光信號,且切除螢光標 記。染料的對應螢光之測量表明加入哪種鹼。重複該方法以提供序列。
在另一例證性但非限制性實施態樣中,本文所述之方法包含獲得在測試樣品中核酸之序列信息,例如在母體測試樣品中的cfDNA、在進行癌症篩選之受試者中的cfDNA或細胞DNA及類似者,該方法係使用奈米孔定序(例如在Soni GV和Meller A.之Clin Chem 53:1996-2001[2007]所述)。由許多公司發展奈米孔定序DNA分析技術,包括例如Oxford Nanopore Technologies(Oxford,United Kingdom)、Sequenom、NABsys及類似者。奈米孔定序為單一分子定序技術,從而使DNA分子在通過奈米孔時直接定序。奈米孔為通常為1奈米直徑的小孔。以奈米孔浸入導電流體及施加跨越其之電位(電壓),由於通過奈米孔的離子傳導而導致微小電流。流動的電流量對奈米孔的大小尺寸和形狀敏感。當DNA分子通過奈米孔時,在DNA分子上的各核苷酸阻塞奈米孔至不同程度,以不同程度改變通過奈米孔的電流大小。因此,當DNA分子通過奈米孔時,此改變的電流提供DNA序列的讀序。
在另一例證性但非限制性實施態樣中,本文所述之方法包含獲得在測試樣品中核酸之序列信息,例如在母體測試樣品中的cfDNA、在進行癌症篩選之受試者中的cfDNA或細胞DNA及類似者,該方法係使用化學敏感性場效電晶體(chemical-sensitive field effect transistor)(chemFET)陣列(例如在美國直專利申請公開案號 2009/0026082所述)。在此技術的一個實例中,可將DNA分子放置於反應室中且可將模板分子與結合至聚合酶之定序引子雜交。併入在定序引子之3’端上的新核酸鏈上之一或多個三磷酸酯可由chemFET之電流變化識別。陣列可具有多個chemFET感測器。在另一實例中,可將單一核酸附著至珠粒,且核酸可在珠粒上擴增,且可將個別珠粒轉移至chemFET陣列上的個別反應室,各室具有chemFET感測器,且可將核酸定序。
在另一實施態樣中,本發明方法包含使用穿透式電子顯微鏡(TEM)獲得在測試樣品中核酸之序列信息,例如在母體測試樣品中的cfDNA。稱為個別分子置換快速奈米轉移(EVIPRNT)之方法包含利用以重原子標記物選擇性標記之高分子量(150kb或更大)DNA之單一原子解析穿透式電子顯微鏡成像且將該等分子以具有一致的基底間距的超緻密(3奈米之鏈-鏈)平行陣列排列在超薄膜上。使用電子顯微鏡使分子在薄膜上成像,以測定重原子標記物的位置且自DNA提取鹼基序列信息。該方法進一步說明於PCT專利公開案WO 2009/046445中。該方法容許以少於10分鐘定序完全人類基因組。
在另一實施態樣中,DNA定序技術為離子傾注單一分子定序,其將半導體技術與簡單的定序化學物質配對,在半導體晶片上直接轉譯經化學編碼之信息(A、C、G、T)成數字信息(0、1)。在本質上,當核苷酸以聚合酶併入DNA鏈時,則釋放出成為副產物的氫離子。離子 傾注係使用微機械化槽孔的高密度陣列而以大規模平行方式進行此生化方法。每個槽孔都有不同的DNA分子。槽孔下方為一個離子敏感層,在該敏敢層下方為感測器。當核苷酸(例如C)添加至DNA模板中且接著併入DNA鏈時,則釋放出氫離子。來自該離子的電荷改變溶液的pH值,其可由離子傾注之離子感測器檢測。序列分析儀-基本上是世界上最小的固態pH計-判讀鹼基,直接從化學信息至數字信息。Ion personal Genome Machine(PGMTM)序列分析儀接著相繼湧進一個接一個的核苷酸。若湧進晶片的下一個核苷酸不匹配。不記錄電壓變化且不判讀鹼基。若在DNA鏈上有兩個相同的鹼基,則電壓為兩倍且晶片記錄兩個經判讀相同的鹼基。直接檢測容許在幾秒內記錄核苷酸的併入。
在另一實施態樣中,本發明方法包含使用以雜交定序獲得在測試樣品中核酸之序列信息,例如在母體測試樣品中的cfDNA。以雜交定序包含將複數個多核苷酸序列與複數個多核苷酸探針接觸,其中每一複數個多核苷酸探針可隨意地繫於基板。基板可為包含已知的核苷酸序列之陣列的平坦表面。可使用與陣列雜交之圖案以測定存在於樣品中的多核苷酸序列。在其他的實施態樣中,將各探針繫於珠粒,例如磁珠粒或類似者。可測定且使用與珠粒之雜交以鑑定樣品內複數個多核苷酸序列。
在本文所述之方法的一些實施態樣,經映射之序列標籤包含約20bp、約25bp、約30bp、約35bp、約 40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp或約500bp個序列讀序。預期技術的進步能使單端讀序大於500bp,當產生雙端讀序時能使讀序大於約1000bp。在一個實施態樣中,經映射之序列標籤包括36bp之序列讀序。序列標籤之映射係藉由比較標籤序列與參考序列以測定經定序之核酸(例如cfDNA)分子的染色體來源而達成,且不需要特異性基因序列信息。可容許低程度的錯配(每一序列標籤為0-2個錯配)以說明可存在於混合樣品中的參考基因組與基因組類之間的少量多型態。
通常每一樣品獲得複數個序列標籤。在一些實施態樣中,包含介於20與40bp之讀序(例如36bp)的至少約3×106個序列標籤、至少約5×106個序列標籤、至少約8×106個序列標籤、至少約10×106個序列標籤、至少約15×106個序列標籤、至少約20×106個序列標籤、至少約30×106個序列標籤、至少約40×106個序列標籤或至少約50×106個序列標籤係自映射每一樣品之讀序至參考基因組而獲得。在一個實施態樣中,將所有的序列讀序映射至參考基因組的所有區域。在一個實施態樣中,將映射至參考基因組的所有區域(例如所有的染色體)之標籤計數且測定在混合之DNA樣品中的CNV,亦即過度表達或表達 不足的關注序列,例如染色體或其部分。該方法不需要在兩個基因組之間進行區別。
正確地測定CNV(例如非整倍體)是否存在或不存在於樣品中所需之準確性係針對定序運作內之樣品中參考基因組之序列標籤數量進行預測(染色體間變異性)及針對映射至不同的定序運作中的參考基因組之序列標籤數量進行預測(定序間變異性)。例如,可以對映射至富GC或貧GC之參考序列的標籤之變異特別顯著。其他的變異可起因於使用不同方案提取及純化核酸、製備定序文庫及使用不同的定序平台。本發明之方法係基於標準化序列的知識(標準化染色體序列或標準化片段序列)以使用序列劑量(染色體劑量或片段劑量),從本質上說明由染色體間(運作內)和定序間(運作間)及平台依賴性變異性造成的累積變異性。染色體劑量係基於可由單一染色體或二或多個自1至22號、X和Y染色體之染色體所組成之標準化染色體序列的知識。另一選擇地,標準化染色體序列可由單一染色體片段或一個染色體或二或多個染色體的二或多個片段所組成。片段劑量係基於可由任何一個染色體的單一片段或1至22號、X和Y染色體中之任二或多者的二或多個片段所組成之標準化片段序列的知識。
CNV及產前診斷
在母體血液中循環的不含細胞之胎兒DNA及RNA可用於越來越多的遺傳性症狀之早期非侵入性產前 診斷(NIPD),用於懷孕管理及輔助生殖決策的制定。已超過50年已知不含細胞之DNA循環存在於血流中。更於最近發現少量的循環胎兒DNA存在於懷孕期間的母體血液中(Lo等人之Lancet 350:485-487[1997])。源自死亡的胎盤細胞之想法已顯示不含細胞之胎兒DNA(cfDNA)係由長度通常少於200bp的短片段所組成(Chan等人之Clin Chem 50:88-92[2004]),其可在早至妊娠4週時識別(Illanes等人之Early Human Dev 83:563-566[2007])且已知在分娩後幾小時內自母體循環而清除(Lo等人之Am J Hum Genet 64:218-224[1999])。除了cfDNA以外,亦可於母體血液中識別出不含細胞之胎兒RNA(cfRNA)的片段,其源自於胎兒或胎盤中轉錄的基因。自母體血液樣品中提取且隨後分析之該等胎兒基因元素對NIPD提供了新的機會。
本發明方法為多態性獨立方法,其用於NIPD且不需要區別母體cfDNA及胎兒cfDNA而能夠測定胎兒非整倍體。在一些實施態樣中,非整倍體為完全染色體三倍體或單倍體或部分三倍體或單倍體。部分非整倍體係由染色體部分的丟失或獲取而引起,且包括起因於失衡易位、失衡反轉、缺失及插入的染色體失衡。到目前為止,與生命可相容的最常見的已知非整倍體21號染色體三倍體症,亦即由部分或全部的21號染色體的存在而引起的唐氏症候群(DS)。DS罕見地可由遺傳或突發性缺點引起,因而使全部或部分的21號染色體之額外複製物附著 至另一染色體(通常為14號染色體)以形成單一異常的染色體。DS係與智力損傷、嚴重的學習困難度和長期健康問題(諸如心髒病)所引起的過高死亡率相關聯。具有已知的臨床意義之其他非整倍體包括愛德華氏(Edward)症候群(18號染色體三倍體症)及巴陶氏(Patau)症候群(13號染色體三倍體症),其常於生命的全幾個月內致命。亦已知與性染色體數量相關聯的異常,且其包括包括在女性出生中的X染色體單倍體症,例如透納氏(Turner)症候群(XO)和三倍X染色體症候群(XXX),及在男性出生中的柯林菲特氏(Kleinefelter)症候群(XXY)和XYY染色體症候群,全部皆與各種表現型相關聯,包括包括不育和智力技能的降低。單倍體症[45,X]為早期流產的常見原因,佔自然流產的約7%。根據45,X(亦稱為透納氏症候群)的1-2/10,000之活產頻率,估計1%之45,X胚胎存活下去。約30%之透納氏症候群患者嵌合45,X細胞系與46,XX細胞系二者或含有重排X染色體(Hook和Warburton,1983)。就高胚胎致死率而言,以活產嬰兒的表型相對溫和,且假設可能所有具有透納氏症候群的活產女性皆攜帶含有兩種性染色體的細胞系。X染色體單倍體症可以45,X或45,X/46XX出現在女性中及以45,X/46XY出現在男性中。人類體染色體單倍體通常示意與生命不相容;然而,有相當多的細胞遺傳學報告說明在活產兒童中的一個21號染色體之完全單倍體(Vosranova I等人之Molecular Cytogen.1:13[2008];Joosten等人之Prenatal Diagn.17:271-5[1997])。可使用 本文所述之方法於產前診斷該等及其他的染色體異常。
根據一些實施態樣,本文所揭示之方法可測定第1至22號、X和Y染色體中之任一者的染色體三倍體存在或不存在。根據本發明之方法檢測之染色體三倍體的實例包括而不限於21號染色體三倍體症(T21;唐氏症候群)、18號染色體三倍體症(T18;愛德華氏症候群)、16號染色體三倍體症(T16)、20號染色體三倍體症(T20)、22號染色體三倍體症(T22;貓眼症候群)、三倍體15(T15;小胖威利(Prader Willi)症候群)、13號染色體三倍體症(T13;巴陶氏症候群)、8號染色體三倍體症(T8;沃卡尼氏(Warkany)症候群)、9號染色體三倍體症和XXY(柯林菲特氏症候群)、XYY或XXX三倍體。以非嵌合狀態存在的其他體染色體之完全三倍體是致命的,但以嵌合狀態存在時可與生命相容。應理解各種完全三倍體(不論是否以嵌合或非嵌合狀態存在)及部分三倍體可根據本文所提供之指導於胎兒cfDNA中測定。
可以本發明之方法測定的部分三倍體的非限制性實例包括但不限於部分三倍體1q32-44、三倍體症9p、三倍體4嵌合體、三倍體17p、部分三倍體4q26-qter、部分2p三倍體、部分三倍體1q及/或部分三倍體6p/單倍體6q。
亦可使用本文所揭示之方法測定X染色體染色體單倍體症、21號染色體單倍體和部分單倍體,諸如單倍體13、單倍體15、單倍體16、單倍體21和單倍體 22,已知其涉入流產。通常涉入完全非整倍體的染色體之部分單倍體亦可以本文所述之方法測定。可根據本發明之方法測定的缺失症候群的非限制性實例包括由部分缺失的染色體所引起的症候群。可根據本發明之方法測定的部分缺失的實例包括而不限於部分缺失的1、4、5、7、11、18、15、13、17、22和10號染色體,該等於下文說明。
1q21.1缺失症候群或1q21.1(復發)微缺失為罕見的1號染色體畸變。除了缺失症候群以外,亦有1q21.1複製症候群。雖然在特定點上隨著缺失症候群而有一部分DNA遺失,但是在相同的點上隨著複製症候群而有兩個或三個複製物。文獻述及缺失及複製二者作1q21.1複製數變異(CNV)。1q21.1缺失可與TAR症候群(血小板缺乏合併橈骨缺失症)相關聯。
沃夫-賀許宏氏(Wolf-Hirschhorn)症候群(WHS)(OMIN #194190)為與染色體4p16.3之半合子缺失相關聯的鄰近基因缺失症候群。沃夫-賀許宏氏症候群為先天性畸形症候群,其特徵在於產前和產後生長不足、多變程度的發育障礙,特徵性顱面特徵(〝希臘戰士頭盔〞鼻子外觀、高前額、突出的眉間、眼距過寬、高拱形眉毛、突眼、眼內貲贅皮、短鼻子、獨特的下垂嘴角和小頜畸形)及癲癇發作障礙。
亦稱為5p-或5p減且稱為貓叫(Cris du Chat)症候群(OMIN#123450)之5號染色體的部分缺失係由5號染色體的短臂缺失所引起的(5p15.3-p15.2)。具有此症狀 之嬰兒常具有聽起來像貓的嚎啕哭聲。此病症的特徵在於嬰兒期中的智力障礙和延遲發育、小頭(小頭症)]、低出生體重和弱的肌張力(低血壓)、獨特的面部特徵和可能的心臟缺陷。
亦稱為染色體7q11.23缺失症候群(OMIN 194050)的威廉氏(Williams-Beuren)症候群為鄰近基因缺失症候群,其導致由在含有約28個基因的染色體7q1.23上的1.5至1.8Mb之半合子缺失所引起的多系統病症。
亦稱為11q缺失病症之雅各森(Jacobsen)症候群為由包括帶11qq1.1的11號染色體之末端區域缺失所引起的罕見先天性病症。其可引起智力障礙,獨特的面部外觀及各種身體問題,包括心臟缺陷和出血性病症。
亦稱為單倍體18p之18號染色體的部分單倍體為罕見的染色體病症,其中18號染色體的全部或部分短臂(p)缺失(單倍體)。該病症典型的特徵在於身材矮小、多變程度的智力遲鈍、說話延遲,顱骨和面部(顱面)區域畸形及/或額外的身體異常。相關的顱面缺陷可能在範圍上及嚴重程度上於各例子間有很大的變化。
由15號染色體的結構或複製數變化所引起的症狀包括安奇曼氏(Angelman)症候群和小胖威利症候群,其涉及15號染色體的相同部分(15q11-1q13區域)之基因活性喪失。應理解數種易位和微缺失可為在帶因者中無症狀,但可能在後代中引起主要的遺傳性疾病。例如,攜有15q11-q13微缺失的健康母親可產出具有安奇曼氏症候群 (嚴重神經退行性病症)的兒童。因此,本文所述之方法、設備及系統可用於鑑定胎兒中的此等部分缺失和其他缺失。
部分單倍體13q為罕見的染色體病症,其係在13號染色體的一片長臂(q)遺失(單倍體)時所引起的。具有部分單倍體13q之出生嬰兒可展現低出生體重,頭和臉畸形(顱面區域)、骨骼異常(特別為手和腳)及其他的身體異常。智力遲鈍為此症狀的特徵。嬰兒期的死亡率高於具有此病症之出生個體。幾乎所有的部分單倍體13q的例子皆隨機出現,沒有明顯的原因(突發性)。
史密斯-馬吉利氏(Smith-Magenis)症候群(SMS-OMIM #182290)係由17號染色體之一個複製物上的基因物質缺失或丟失所引起。此眾所周知的症候群與發育遲緩、智力遲鈍、先天性異常(諸如心臟和腎臟缺陷)及神經行為異常(諸如嚴重的睡眠障礙和自我傷害行為)。史密斯-馬吉利氏症候群(SMS)在大部分例子中(90%)係染色體17p11中的3.7-Mb間質缺失所引起。
亦稱為狄喬治(DiGeorge)症候群之22q11.2缺失症候群為由22號染色體的少量缺失所引起的症候群。缺失(22 q11.2)發生在染色體對之一的長臂上的染色體中間附近。此症候群的特徵變化很大,甚至在相同家庭的成員之間,且影響身體的許多部分。特徵性體徵和徵候可包括出生缺陷,諸如先天性心髒疾病、顎裂缺陷(最常與閉合有關的神經肌肉問題(咽喉功能不全))、學習障礙、面部 特徵輕微差異和復發性感染。在染色體區域22q11.2的微缺失與增加20至30倍精神分裂症的風險相關聯。
10號染色體的短臂缺失係與狄喬治症候群相關聯,如表現型。染色體10p的部分單倍體為罕見的,但是已在一部分顯示狄喬治症候群的特徵之患者中觀察到。
在一個實施態樣中,使用本文所述之方法、設備及系統測定部分單倍體,包括但不限於1、4、5、7、11、18、15、13、17、22和10號染色體之部分單倍體,例如部分單倍體1q21.11、部分單倍體4p16.3、部分單倍體5p15.3-p15.2、部分單倍體7q11.23、部分單倍體11q24.1、部分單倍體18p、15號染色體之部分單倍體(15q11-q13)、部分單倍體13q、部分單倍體17p11.2、22號染色體之部分單倍體(22q11.2),且亦可使用該方法測定部分單倍體10p。
可根據本文所述之方法測定的其他部分單倍體包括失衡易位t(8;11)(p23.2;p15.5);11q23微缺失;17p11.2缺失;22q13.3缺失;Xp22.3微缺失;10p14缺失;20p微缺失[del(22)(q11.2q11.23)]、7q11.23和7q36缺失;1p36缺失;2p微缺失;1型神經纖維瘤(17q11.2微缺失)、Yq缺失;4p16.3微缺失;1p36.2微缺失;11q14缺失;19q13.2微缺失;魯賓斯坦-泰必(Rubinstein-Taybi)(16 p13.3微缺失);7p21微缺失;米勒-狄克(Miller-Dieker)症候群(17p13.3);及2q37微缺失。部分缺失可為染色體部分的小缺失或彼等可為其中可出現單一基 因的缺失之染色體微缺失。
已鑑定出由染色體臂部分的複製所引起的數種複製症候群(參見OMIN[Online Mendelian Inheritance in Man viewed online at ncbi.nlm.nih.gov/omim])。在一個實施態樣中,可使用本發明之方法測定第1至22號、X和Y染色體中之任一者的片段之複製及/或倍增存在或不存在。可根據本發明之方法測定的複製症候群的非限制性實例包括8、15、12和17號染色體部分的複製,該等於下文說明。
8p23.1複製症候群為由人類8號染色體的區域複製所引起的罕見遺傳性病症。此複製症候群具有64,000個生出中有1個的預估盛行率且對應於8p23.1缺失症候群。8p23.1複製係與可變的表現型相關聯,包括下列中之一或多者:說話遲緩、發育遲緩、具有前額突出和彎眉的輕度畸形及先天性心臟疾病(CHD)。
染色體15q複製症候群(Dup15q)為臨床上可鑑定的症候群,其起因於染色體15q11-13.1之複製。具有Dup15q之嬰兒通常患有張力減退(差的肌張力)、生長遲鈍;他們天生有唇裂及/或顎裂或心臟、腎臟或其他器官的畸形;他們顯示出某種程度的認知遲緩表現出一定程度的認知遲緩/障礙(智力遲鈍)、說化和語言遲緩及感覺處理障礙。
帕里斯特基利安(Pallister Killian)症候群為額外的#12號染色體物質的結果。通常有細胞之混合物(嵌合 體),一些具有額外的#12物質,且一些為正常的(46條染色體沒有額外的#12物質)。具有此症後群的嬰兒有許多問題,包括嚴重的智力遲鈍、差的肌張力、〝粗(coarse)〞的面部特徵和前額突出。他們傾向具有非常薄的上唇與較厚的下唇及短鼻。其他的健康問題包括癲癇、進食不良、關節僵硬、在成年後白內障、聽力下降和心臟缺陷。具有帕里斯特基利安的人有縮短的壽命期。
具有稱為dup(17)(p11.2p11.2)或dup 17p之遺傳性症狀的個體在17號染色體短臂上攜有額外的基因信息(被稱為複製)。染色體17p11.2之複製構成波托茨基-陸斯奇(Potocki-Lupski)症候群(PTLS),其為新認定的遺傳性病症,在醫療文獻中僅報導幾十個例子。具有此複製的患者常具有低的肌張力、進食不良及在嬰兒期無法茁壯成長,且亦出現遲緩發展的運動和聆聽階段。具有PTLS的許多個體具有發音和語言處理的困難。另外,患者可能具有類似於在具有自閉症或自閉症譜系障礙的人中所看到的行為特徵。具有PTLS的個體可能有心臟缺陷和睡眠呼吸暫停。已知在包括基因PMP22之染色體17p12中的大區域複製引起恰克-馬利-杜斯(Charcot-Marie Tooth)疾病。
CNV與死胎相關聯。然而,由於習知的細胞遺傳學之固有限制,使CNV對死胎的貢獻被認為代表性不足(Harris等人之Prenatal Diagn 31:932-944[2011])。如實施例中所示及本文別處所述,本發明之方法能夠測定部分非整倍體的存在,例如染色體片段的缺失及倍增,且可 用於鑑定及測定與死胎相關聯的CNV存在或不存在。
臨床病症之CNV測定
除了早期測定的出生缺陷,本文所述之方法可應用於基因組內的基因序列表達的任何異常之測定。在基因組內的基因序列表達的許多異常已與多種病理相關聯。此等病理包括但不限於癌症,感染性和自身免疫性疾病,神經系統疾病,代謝及/或心血管疾病及類似者。
據此,在各種實施態樣中涵蓋本文所述之方法在診斷及/或監控及/或治療此等病理之用途。例如,該方法可應用於測定疾病的存在或不存在、監控疾病的進展及/或治療方案的效率或測定病原體(例如病毒)之核酸的存在或不存在;測定與接枝對宿主疾病(GVHD)相關聯的染色體異常及測定各體在法醫分析中的貢獻。
在癌症中的CNV
已顯示來自癌症患者血液的血漿及血清DNA含有腫瘤DNA的可測得量,可恢復且用作為腫瘤DNA的替代來源,且腫瘤係以非整倍體或基因序列或甚至整個染色體的不當數量為特徵。測定在來自個體之樣品中的給出序列(亦即關注序列)之量的差別因此可用於醫療症狀的預後或診斷。在一些實施態樣中,本發明之方法可用於測定在懷疑或已知受癌症所苦之患者中染色體非整倍體的存在或不存在。
本文的一些執行提供基於循環cfDNA樣品用於檢測癌症、追蹤治療反應及最少的殘留疾病之方法,其係使用以雙端方法的樣品淺定序及使用可取自雙端讀序的片段大小信息,在正常細胞背景下鑑定來自癌細胞的經區分之甲基化凋亡之DNA。已顯示在一些癌症中的經腫瘤衍生之cfDNA比經非腫瘤衍生之cfDNA更短。因此,本文所述的基於大小之方法可用於測定CNV,包括與該等癌症相關聯的非整倍體,其能夠(a)在篩選或診斷設定中檢測存在的腫瘤;(b)監控治療的反應;(c)監控最少的殘留疾病。
在特定的實施態樣中,非整倍體為受試者之基因組的特徵且導致普遍增加對癌症的易感性。在特定的實施態樣中,非整倍體為是或具有增加對贅瘤的易感性之特定細胞(例如腫瘤細胞、原腫瘤贅生細胞等等)的特徵。特別的非整倍體係與下文所述之特別的癌症或對特別的癌症之易感性相關聯。在一些實施態樣中,可使用非常淺的雙端定序方法以成本有效方式檢測/監控存在的癌症。
據此,本文所述之方法的各種實施例提供測定在來自受試者的測試樣品中之關注序列(例如臨床相關序列)之複製數變異,其中特定的複製數變異提供癌存在及/或對癌易感性之指標。在特定的實施態樣中,樣品包含衍生自二或多種類型之細胞的核酸之混合物。在一個實施態樣中,核酸之混合物係衍生自正常細胞及自受醫療症狀(例如癌症)所苦之受試者所衍生之癌性細胞。
癌症發展常伴隨由已知為染色體不穩定(CIN)之過程所引起的完整染色體數量的改變(亦即完全染色體非整倍體)及/或染色體片段數量的改變(亦即非整倍體)(Thoma等人之Swiss Med Weekly 2011:141:w13170)。咸信許多實體腫瘤(諸如乳癌)係通過數種基因畸變之聚積而從初始進展至轉移[Sato等人之Cancer Res.,50:7184-7189[1990];Jongsma等人之J Clin Pathol:Mol Path 55:305-309[2002])]。當此等基因畸變聚積,其可賦予增生優勢、基因不穩定及伴隨快速發展耐藥性的能力,且增強血管生成,蛋白水解和轉移。基因畸變可影響隱性〝腫瘤抑制基因〞或顯性作用之致癌基因。咸信導致異質性丟失(loss of heterozygosity)(LOH)的缺失及重組係藉由發現突變之腫瘤抑制等位基因而在腫瘤進展中扮演主要角色。
cfDNA已於經診斷有惡性腫瘤之病患循環中發現,包括但不限於肺癌(Pathak等人之Clin Chem 52:1833-1842[2006])、攝護腺癌(Schwartzenbach等人之Clin Cancer Res 15:1032-8[2009])及乳癌(Schwartzenbach等人之available online at breast-cancer-research.com/content/11/5/R71[2009])。與可在癌症患者的循環cfDNA中測定之癌症相關聯的基因組不穩定性之鑑定為潛在的診斷及預後工具。在一個實施態樣中,使用本文所述之方法測定在樣品中的一或多個關注序列之CNV,例如包含自懷疑或已知患有癌症(例如惡性腫瘤、肉瘤、淋巴瘤、白血病、生殖細胞腫瘤和胚細胞瘤)之受 試者所衍生的核酸之混合物的樣品。在一個實施態樣中,樣品為自末稍血液所衍生(處理)之血漿樣品,其可包含自正常細胞及癌性細胞所衍生的cfDNA之混合物。在另一實施態樣中,需要測定CNV是否存在的生物樣品係衍生自包含癌性細胞(若有癌存在)與來自其他生物組織的非癌性細胞之混合物的細胞,該其他生物組織包括但不限於生物流體,諸如血清、汗液、淚液、痰、尿、痰、耳流、淋巴液、唾液、腦脊液、灌洗液、骨髓懸浮液、陰道流、子宮頸灌洗液、腦漿、腹水、乳汁、呼吸道分泌物、腸道分泌物、泌尿生殖道分泌物和白血球分離術樣品,或在組織生檢、拭子或塗片中。在其他的實施態樣中,生物樣品為糞便(排泄物)樣品。
本文所述之方法不限於分析cfDNA。應理解類似的方析可於細胞DNA樣品上進行。
在各種實施態樣中,關注之序列包含已知或懷疑在癌症發展及/或進展中扮演一角色之核酸序列。關注之序列的實例包括在如下文所述之癌性細胞中擴增或缺失之核酸序列,例如完全染色體及/或染色體片段。
癌症之CNV總數及風險
常見的癌症SNP-及類推的常見癌症CNV可分別賦予僅輕微增加的疾病風險。然而,該等可共同地引起實質上升高的癌症風險。關於此點,應注意大的DNA片段之生殖細胞系獲取及丟失經報導為使個體易感神經胚 細胞瘤、攝護腺癌和結腸直腸癌、乳癌及BRCA1相關之卵巢癌的因子(參見例如Krepischi等人之Breast Cancer Res.,14:R24[2012];Diskin等人之Nature 2009,459:987-991;Liu等人之Cancer Res 2009,69:2176-2179;Lucito等人之Cancer Biol Ther 2007,6:1592-1599;Thean等人之Genes Chromosomes Cancer 2010,49:99-106;Venkatachalam等人之Int J Cancer 2011,129:1635-1642;及Yoshihara等人之Genes Chromosomes Cancer 2011,50:167-177)。應注意在健康的群體中常發現的CNV(常見的CNV)咸信在癌症病因學中具有一角色(參見例如Shlien和Malkin(2009)Genome Medicine,1(6):62)。在一個測試常見的CNV與惡性腫瘤相關聯的假設之研究中(Shlien等人之Proc Natl Acad Sci USA 2008,105:11264-11269),創立每一已知的CNV之圖譜,其位置與真實癌症相關之基因的位置重合(如以Higgins等人之Nucleic Acids Res 2007,35:D721-726所編錄)。該等被稱為〝癌CNV〞。在最初的分析中(Shlien等人之Proc Natl Acad Sci USA 2008,105:11264-11269),使用Affymetrix 500K陣列集評估700個健康的基因組,其具有5.8kb之平均探針間距離。當通常認為CNV在基因區域被耗盡時(Redon等人之(2006)Nature 2006,444:444-454),驚訝地發現49個癌基因直接被大的參考群體中超過一個人以上的CNV包圍或重疊。在前10個基因中,可於四位或更多的人中發現癌CNV。
因此,咸信CNV頻率可用作為癌症風險的測量(參見例如美國專利公開案號:2010/0261183 A1)。CNV頻率可簡單地藉由有機體的結構基因組測定或其可代表自若存在的一或多個腫瘤(贅瘤細胞)所導出之級分。
在特定的實施態樣中,在測試樣品(例如包含組成(生殖細胞系)核酸之樣品)或核酸之混合物(例如自贅瘤細胞所衍生之生殖細胞系核酸及核酸類)中的許多CNV係使用本文所述用於複製數變異之方法測定。在測試樣品中增加的CNV數量(例如與參考值比較)之鑑定為受試者中的癌症風險或易感性之指標。應理解參考值可隨著給出之群體而改變。亦應理解CNV頻率增加的絕對值將取決於測定CNV頻率及其他參數所使用的方法之分辨率而定。通常以增加至少約1.2倍參考值之CNV頻率決定為癌症風險之指標(參見例如美國專利公開案號:2010/0261183 A1),例如以增加至少或約1.5倍參考值或更大(諸如12至4倍)之CNV頻率為癌症風險增加之指標(例如與正常的健康參考群體相比)。
亦咸信與參考值相比之哺乳動物的基因組結構變異之測定亦為癌症風險之指標。在此上下文中,在一個實施態樣中,術語〝結構變異〞可經定義為哺乳動物中的CNV頻率乘以哺乳動物中的平均CNV大小(以bp計)。因此,高的結構變異計分係由於增加之CNV頻率而得到及/或由於出現大的基因組核酸缺失或複製而得到。據此,在特定的實施態樣中,在測試樣品(例如包含組成(生 殖細胞系)核酸)中的許多CNV係使用本文所述用於測定大小及複製數變異數量之方法測定。在特定的實施態樣中,在基因組DNA內大於約1個百萬鹼基,或大於約1.1個百萬鹼基,或大於約1.2個百萬鹼基,或大於約1.3個百萬鹼基,或大於約1.4個百萬鹼基,或大於約1.5個百萬鹼基,或大於約1.8個百萬鹼基,或大於約2個百萬鹼基之DNA的總結構變異計分為癌症風險之指標。
咸信該等方法提供任何癌症風險的測量,包括但不限於急性和慢性白血病、淋巴瘤;間質或上皮組織、腦、乳腺、肝、胃、結腸癌的許多實體瘤;B細胞淋巴瘤、肺癌、支氣管癌、結腸直腸癌、前列腺癌、乳癌、胰臟癌、胃癌、卵巢癌、膀胱癌、腦或中樞神經系統癌症、末稍神經系統癌、食道癌、子宮頸癌、黑色素瘤、子宮癌或子宮內膜癌、口腔或咽癌癌、肝癌、腎癌、膽道癌、小腸或闌尾癌、唾液腺癌、甲狀腺癌、腎上腺癌、骨肉瘤、軟骨肉瘤、脂肪肉瘤、睾丸癌和惡性纖維組織細胞瘤及其他癌症。
完全染色體非整倍體
如上文所指示,高頻率的非整倍體存在於癌症中。在檢查癌症的體細胞複製數改變(SCNA)之盛行率的特定研究中,已發現典型的癌細胞之基因組的四分之一受到非整倍體的完整臂SCNA或全整染色體SCNA的影響(參見例如Beroukhim等人之Nature 463:899-905 [2010])。在許多癌類型中反復地觀察到完整染色體改變。例如,在10至20%之急性骨髓性白血病(AML)的例子,以及一些實體腫瘤中看到8號染色體的獲取,包括尤文(Ewing)氏肉瘤和硬纖維腫瘤(參見例如Barnard等人之Leukemia 10:5-12[1996];Maurici等人之Cancer Genet.Cytogenet.100:106-110[1998];Qi等人之Cancer Genet.Cytogenet.92:147-149[1996];Barnard,D.R.等人之Blood 100:427-434[2002]);及類似者。將人類癌症中的染色體獲取及丟失之例證性但非限制性列表顯示於表2中。
在各種實施態樣中,可使用本文所述之方法檢測及/或定量與概括的癌症相關聯及/或與特別的癌症相關聯的完整染色體非整倍體。因此,例如在特定的實施態樣中,其涵蓋以表2中所示之獲取或丟失為特徵之完整染色體非整倍體的檢測及/或定量。
臂水平(arm level)染色體片段複製數變異
許多研究報導整個大量癌症樣本之臂水平複製數變異的型樣(Lin等人之Cancer Res 68,664-673(2008);George等人之PLoS ONE 2,e255(2007);Demichelis等人之Genes Chromosomes Cancer 48:366-380(2009);Beroukhim等人之Nature.463(7283):899-905[2010])。另外觀察到臂水平複製數變異頻率隨染色體臂長度減少。以此趨勢調整之大部分的染色體臂展現整個多重癌譜系的優先獲取或丟失之強力證據,但是都很少(參見例如Beroukhim等人之Nature.463(7283):899-905[2010])。
據此,在一個實施態樣中,使用本文所述之方法測定樣品中的臂水平CNV(包含一個染色體臂或實質上一個染色體臂之CNS)。可測定CNV,在包含組成(生殖細胞系)核酸之測試樣品中的CNS且可鑑定在那些組成核酸中的臂水平CNV。在特定的實施態樣中,鑑定在包含核酸之混合物(例如自正常細胞所衍生之核酸及自贅瘤細胞所衍生之核酸)的樣品中的臂水平CNV。在特定的實施 態樣中,樣品係衍生自懷疑或已知具有癌症之受試者,例如惡性腫瘤、肉瘤、淋巴瘤、白血病、生殖細胞腫瘤、胚細胞瘤及類似者。在一個實施態樣中,樣品為自末稍血液所衍生(處理)之血漿樣品,其可包含自正常細胞及癌性細胞所衍生的cfDNA之混合物。在另一實施態樣中,用於測定CNV是否存在的生物樣品係衍生自包含癌性細胞(若有癌存在)與來自其他生物組織的非癌性細胞之混合物的細胞,該其他生物組織包括但不限於生物流體,諸如血清、汗液、淚液、痰、尿、痰、耳流、淋巴液、唾液、腦脊液、灌洗液、骨髓懸浮液、陰道流、子宮頸灌洗液、腦漿、腹水、乳汁、呼吸道分泌物、腸道分泌物、泌尿生殖道分泌物和白血球分離術樣品,或在組織生檢、拭子或塗片中。在其他的實施態樣中,生物樣品為糞便(排泄物)樣品。
在各種實施態樣中,經鑑定為癌存在或癌風險增加之指標的CNV包括但不限於在表3中所列示之臂水平CNV。如表3所例證,包含顯著的臂水平獲取的特定CNV為癌存在或特定的癌風險增加之指標。因此,例如以1q計之獲取為急性淋巴性白血病(ALL)、乳癌、GIST、HCC、非小細胞肺癌、髓母細胞瘤、黑色素瘤、MPD、卵巢癌及/或攝護腺癌存在或風險增加之指標。以3q計之獲取為食管鱗癌、肺鱗狀細胞癌及/或MPD存在或風險增加之指標。以7q計之獲取為結腸直腸癌、膠質瘤、HCC、非小細胞肺癌、髓母細胞瘤、黑色素瘤、攝護 腺癌及/或腎癌存在或風險增加之指標。以7p計之獲取為乳癌、結腸直腸癌、食道腺癌、膠質瘤、HCC、非小細胞肺癌、髓母細胞瘤、黑色素瘤及/或腎癌存在或風險增加之指標。以20q計之獲取為乳癌、結腸直腸癌、去分化脂肪肉瘤、食道腺癌、食管鱗癌、膠質瘤、HCC、非小細胞肺癌、黑色素瘤、卵巢癌及/或腎癌存在或風險增加之指標,諸如此類。
同樣地,如表3所例證,包含顯著的臂水平丟失之特定的CNV為特定的癌存在及/或風險增加之指標。因此,例如以1p計之丟失為胃腸道基質瘤存在或風險增加之指標。以4q計之丟失為結腸直腸癌、食道腺癌、肺鱗狀細胞癌、黑色素瘤、卵巢癌及/或腎癌存在或風險增加之指標。以17p計之丟失為乳癌、結腸直腸癌、食道腺癌、HCC、非小細胞肺癌、肺鱗狀細胞癌及/或卵巢癌存在或風險增加之指標,及類似者。
在臂水平複製數變異之間的關聯性實例意欲為例證而非限制。其他的臂水平複製數變異及彼等的癌症關聯性為那些熟習本技術領域者已知。
更小(例如聚焦)的複製數變異
如上文所指示,在特定的實施態樣中,可使用本文所述之方法測定染色體擴增的存在或不存在。在一些實施態樣中,染色體擴增為一或多個整體染色體之獲取。在其他的實施態樣中,染色體擴增為染色體片段的一或多個之獲取。在又其他的實施態樣中,染色體擴增為二或多個染色體的一或多個片段之獲取。在各種實施態樣中,染色體擴增可包含一或多個致癌基因之獲取。
與人類實體瘤相關聯的顯性作用之基因通常係藉由過度表現或經改變之表現而發揮其效應。基因擴增為造成基因表現向上調節的常見機制。來自細胞遺傳學研究的證據表明顯著的擴增發生在超過50%之人類乳癌中。最值得注意的是位於17號染色體(17(17q21-q22))上的原致癌基因人表皮生長因子受體2(HER2)的擴增導致HER2受體在細胞表面上過度表現,造成在乳癌及其他惡性腫瘤中的過度和調節異常之傳訊(Park等人之Clinical Breast Cancer 8:392-401[2008])。已發現多種致癌基因於其他人類惡性腫瘤中擴增。在人類腫瘤中的細胞致癌基因擴增的實例包括下列擴增:在前骨髓細胞白血病細胞系HL60中和在小細胞肺惡性腫瘤細胞系中的c-myc,在原 發性神經胚細胞瘤(第III和IV期)、神經胚細胞瘤細胞系、視網膜胚細胞瘤細胞系和原發性腫瘤、及小細胞肺惡性腫瘤系和腫瘤中的N-myc,在小細胞肺惡性腫瘤細胞系和腫瘤中的L-myc,在急性骨髓性白血病中和在結腸惡性腫瘤細胞系中的c-myb,在表皮惡性腫瘤細胞和原發性膠質瘤中的c-erbb,在肺、結腸、膀胱和直腸之原發性惡性腫瘤中的c-K-ras-2,在哺乳動物惡性腫瘤細胞系中的N-ras(Varmus H.,Ann Rev Genetics 18:553-612(1984)[引述於Watson等人之Molecular Biology of the Gene(第4版;Benjamin/Cummings Publishing Co.1987)中]。
致癌基因之複製為許多類型之癌症中常見的原因,如在P70-S6激酶1擴增及乳癌的例子中。在此等例子中,基因複製發生在體細胞中且僅影響癌症細胞本身的基因組,而不是整個有機體,更不用說任何隨後的後代。在人類癌症中擴增之致癌基因的其他實例包括在乳癌中的MYC、ERBB2(EFGR)、CCND1(Cyclin D1)、FGFR1和FGFR2,在子宮頸癌中的MYC和ERBB2,在結腸直腸癌中的HRAS、KRAS和MYB,在食道癌中的MYC、CCND1和MDM2,在胃癌中的CCNE、KRAS和MET,在膠質胚細胞瘤中的ERBB1和CDK4,在頭和頸癌中的CCND1、ERBB1和MYC,在肝細胞癌中的CCND1,在神經胚細胞瘤中的MYCB,在卵巢癌中的MYC、ERBB2和AKT2,在肉瘤中的MDM2和CDK4,及在小細胞肺癌中的MYC。在一個實施態樣中,可使用本發明之方法測定 與癌症相關聯的致癌基因擴增的存在或不存在。在一些實施態樣中,擴增之致癌基因係與乳癌、子宮頸癌、結腸直腸癌、食道癌、胃癌、膠質胚細胞瘤、頭和頸癌、肝細胞癌、神經胚細胞瘤、卵巢癌、肉瘤和小細胞肺癌相關聯。
在一個實施態樣中,可使用本發明之方法測定染色體缺失的存在或不存在。在一些實施態樣中,染色體缺失為一或多個整個染色體之丟失。在其他的實施態樣中,染色體缺失為染色體的一或多個片段之丟失。在又其他的實施態樣,染色體缺失為二或多個染色體的二或多個片段之丟失。染色體缺失可包含一或多個腫瘤抑制基因之丟失。
咸信涉及腫瘤抑制基因之染色體缺失在實體腫瘤的發展及進展中扮演重要的角色。位於13號染色體q14之視網膜胚細胞瘤腫瘤抑制基因(Rb-1)為最廣泛特徵化之腫瘤抑制基因。RB-1基因產物(105kDa核磷蛋白)顯然在細胞週期調節中扮演重要的角色(Howe等人之Proc Natl Acad Sci(USA)87:5883-5887[1990])。Rb蛋白質的表現改變或丟失係由等位基因的兩個基因通過點突變或染色體缺失之失活而引起。已發現Rb-i基因改變不僅存在於視網膜胚細胞瘤,且亦存在於其他的惡性腫瘤中,諸如骨肉瘤、小細胞肺癌(Rygaard等人之Cancer Res 50:5312-5317[1990)])和乳癌。限制片段長度多型態(RFLP)研究表明此等腫瘤類型時常在13q丟失異質性,示意Rb-1基因等位基因中之一者已由於大量染色體缺失而丟失 (Bowcock等人之Am J Hum Genet,46:12[1990])。涉及6號染色體及其他同伴染色體之1號染色體異常(包括複製、缺失和失衡易位)表明1號染色體區域(特別為1q21-1q32和1p11-13)可能擁有在病原體上與慢性及晚期骨髓增生性贅瘤二者有關有關的致癌基因或腫瘤抑制基因(Caramazza等人之Eur J Hematol 84:191-200[2010])。骨髓增生性贅瘤亦與5號染色體缺失相關聯。5號染色體的完全丟失或中間缺失為骨髓造血不良症候群(MDS)中最常見的染色體核型異常。隔離del(5q)/5q-MDS之患者具有比那些具有額外的染色體核型缺陷而傾向發展骨髓增生性贅瘤(MPN)及急性骨髓性白血病之患者更有利的預後。失衡之5號染色體缺失的頻率引出5q擁有一或多個在造血幹細胞/先驅細胞(HSC/HPC)之生長控制中扮演基本角色的腫瘤抑制基因之想法。共同缺失區(CDRs)之細胞遺傳學圖譜集中在5q31和5q32上,經鑑定之候選腫瘤抑制因子,包括核糖體亞單元RPS14、轉錄因子Egr1/Krox20和細胞骨架重構蛋白質、α-連環蛋白(Eisenmann等人之Oncogene 28:3429-3441[2009])。新鮮腫瘤和腫瘤細胞系之細胞遺傳學及等位基因型別(allelotyping)研究顯示自染色體3p上的許多不同區域(包括3p25、3p21-22、3p21.3、3p12-13和3p14)之等位基因丟失為涉入範圍廣泛的肺、乳房、腎、頭和頸、卵巢、子宮頸、結腸、胰臟、食道、膀胱及其他器官的主要上皮癌之最早且最頻繁的基因組異常。數種腫瘤抑制基因已映射至染色體3p區域, 且被認為中間缺失或啟動子甲基化在惡性腫瘤的發展中先於3p或整個染色體3的丟失(Angeloni D.,Briefings Functional Genomics 6:19-39[2007])。
具有唐氏症候群(DS)的新生兒及兒童通常出現先天暫時性白血病且具有風險增加之急性骨髓性白血病和急性淋巴性白血病。擁有約300個基因的21號染色體可能涉入白血病、淋巴瘤和實體腫瘤中的許多結構畸變,例如易位、缺失及擴增。而且,已鑑定位於21號染色體上的基因在腫瘤生成中扮演重要的角色。21號染色體的體染色體數量以及結構畸變係與白血病相關聯,且位於21q中的包括RUNX1、TMPRSS2和TFF之特異性基因在腫瘤生成中扮演一角色(Fonatsch C Gene Chromosomes Cancer 49:497-508[2010])。
鑑於前述,在各種實施態樣中,可使用本文所述之方法測定已知包含一或多個致癌基因或腫瘤抑制基因及/或已知與癌症或癌症風險增加相關聯的片段CNV。在特定的實施態樣中,CNV可於包含組成(生殖細胞系)核酸之測試樣品中測定且可鑑定在該等組成核酸中的片段。在特定的實施態樣中,片段CNV(若存在)係包含核酸之混合物(例如衍生自正常細胞之核酸及衍生自贅瘤細胞之核酸)的樣品中鑑定。在特定的實施態樣中,樣品係衍生自懷疑或已知患有下列癌症之受試者:例如惡性腫瘤、肉瘤、淋巴瘤、白血病、生殖細胞腫瘤、胚細胞瘤及類似者。在一個實施態樣中,樣品為自末稍血液所衍生(處理) 之血漿樣品,其可包含自正常細胞及癌性細胞所衍生的cfDNA之混合物。在另一實施態樣中,用於測定CNV是否存在的生物樣品係衍生自包含癌性細胞(若有癌存在)與來自其他生物組織的非癌性細胞之混合物的細胞,該其他生物組織包括但不限於生物流體,諸如血清、汗液、淚液、痰、尿、痰、耳流、淋巴液、唾液、腦脊液、灌洗液、骨髓懸浮液、陰道流、子宮頸灌洗液、腦漿、腹水、乳汁、呼吸道分泌物、腸道分泌物、泌尿生殖道分泌物和白血球分離術樣品,或在組織生檢、拭子或塗片中。在其他的實施態樣中,生物樣品為糞便(排泄物)樣品。
用於測定癌存在及/或癌風險增加之CNV可包含擴增或缺失。
在各種實施態樣中,經鑑定為癌存在或癌風險增加之指標的CNV包括在表4中所示的擴增中之一或多者。
在與上文(本文)所述之擴增組合或單獨的特定實施態樣中,經鑑定為癌存在或癌風險增加之指標的CNV包括在表5中所示的缺失中之一或多者。
經鑑定為多種癌症之非整倍體(例如在表4和5中所鑑定之非整倍體)可含有已知涉及癌症病因學之基因(例如腫瘤抑制基因、癌基因等等)。該等非整倍體亦可經探測以鑑定相關性,但先前未知的基因。
例如,前述Beroukhim等人使用GRAIL(在涉及之Loci20之間的基因關係),搜索基因組區域之間的功能關係之演算法評定複製數改變之潛在的致癌基因。GRAIL係以基因組區域收集中的各基因就其與其他區域中的基因之〝相關性(relatedness)〞評分,其係基於所有引述基因之論文以一些靶基因以共同路徑起作用之概念的發表摘要之間的文本相似性。該等方法容許於先前未與討論中的特別癌症相關聯的基因之鑑定/特徵化。表6例證已知在經鑑定之擴增片段內之標靶基因及預測之基因,及表7。例證已知在經鑑定之缺失片段內之標靶基因及預測之基因。
在各種實施態樣中,涵蓋使用本文所鑑定之方法鑑定包含在表6中所鑑定之擴增區域或基因及/或使用本文所鑑定之方法鑑定包含在表7中所鑑定之缺失區域或基因。
在一個實施態樣中,本文所述之方法提供在基因擴增與腫瘤進展程度之間的關聯性之措施。在癌症的擴增及/或缺失與階段或等級之間的相關性可在預後上具有重要性,因為此等信息可能有助於限定以基因為主之腫瘤等級,其能更好地預測具有最差的預後之更晚期腫瘤的疾病之未來過程。另外,關於早期擴增及/或缺失事件的信息可在相關聯的那些事件中用作為隨後疾病進展之預測。
如本方法所鑑定之基因擴增及缺失可與其他已知的參數相關聯,諸如腫瘤等級、組織學、Brd/Urd標記索引、激素狀態、淋巴結參與、腫瘤大小、生存期及取 自流行病學和生物統計學研究的其他腫瘤性質。例如,欲以本方法測試之腫瘤DNA可包括非典型增生、原位導管癌、I-III期癌症和淋巴結轉移,以允許鑑定在擴增和缺失與階段之間的關聯性。所提出之關聯性有可能成為有效的治療干預。例如,不斷地擴增之區域可含有過度表現的基因,其中可使產物能夠經治療攻擊(例如生長因子受體酪胺酸激酶,p185HER2)。
在各種實施態樣中,可使用本文所述之方法鑑定與耐藥性相關聯的擴增及/或缺失事件,其係藉由測定原發性癌的核酸序列對那些已轉移至其他位點之細胞的核酸序列之複製數變異。若基因擴增及/或缺失為染色體核型不穩定的表現,其容許迅速發展出耐藥性,預期在來自耐化學性患者之原發性腫瘤中的擴增及/或缺失比在化學敏感性患者中之腫瘤更多。例如,若特異性基因之擴增成為耐藥性發展的原因,則可預期圍繞該等基因的區域自耐化學性患者的胸膜積液不斷地在腫瘤細胞中擴增,但不在原發性腫瘤中。發現在基因擴增及/或缺失與耐藥性的發展之間的關聯性可容許鑑定患者會或不會自輔助性療法獲利。
在類似於所述用於測定母體樣品中完全及/或部分胎兒染色體非整倍體存在或不存在之方式中,可使用本文所述之方法、設備及系統測定在任何包含核酸(例如DNA或cfDNA)的患者樣品(包括不為母體樣品的患者樣品)中完全及/或部分染色體非整倍體的存在或不存在。患 者樣品可為如本文別處所述之任何生物樣品類型。樣品較佳地以非侵入性程序獲得。例如,樣品可為血液樣品或其血清和血漿部分。另一選擇地,樣品可為尿樣品或排泄物樣品樣品。在又其他的實施態樣,樣品為組織生檢樣品。在所有的例子中,樣品包含核酸,例如cfDNA或基因組DNA,其係使用先前所述之NGS定序方法中之任一者純化及定序。
與癌症形成及進展相關聯的完全及部分染色體非整倍體二者可根據本發明之方法測定。
在各種實施態樣中,當使用本文所述之方法測定癌存在及/或風險增加時,可使關於測定CNV之染色體的數據標準化。在特定的實施態樣中,可使關於測定CNV之染色體臂的數據標準化。在特定的實施態樣中,可使關於測定CNV之特定片段的數據標準化。
除了CNV在癌中的角色以外,CNV已與數量成長之常見的複雜疾病相關聯,包括人類免疫缺陷病毒(HIV)、自身免疫性疾病和廣泛的神經精神性障礙。
在感染性和自身免疫性疾病中的CNV
迄今,許多研究報導在涉入發炎和免疫反應及HIV、氣喘、克隆(Crohn)氏病及其他自身免疫性病症之基因中的CNV之間的關聯性(Fanciulli等人之Clin Genet 77:201-213[2010])。例如,在CCL3L1中的CNV已涉及HIV/AIDS易感染性(CCL3L1,17q11.2缺失)、類 風濕性關節炎(CCL3L1,17q11.2缺失)和川崎(Kawasaki)病(CCL3L1,17q11.2複製);曾報導在HBD-2中的CNV易染上結腸克隆氏病(HDB-2,8p23.1缺失)和牛皮癬(HDB-2,8p23.1缺失);已顯示在FCGR3B中的CNV易染上全身性紅斑狼瘡中的腎小球腎炎(FCGR3B,1q23缺失,1q23複製)、抗嗜中性球細胞質抗體(ANCA)相關之血管炎(FCGR3B,1q23缺失)和增加發展類風濕性關節炎之風險。已顯示有至少兩種發炎性或自身免疫性疾病與不同的基因座之CNV相關聯。例如,克隆氏病係HDB-2上的低複製數相關聯,並亦與編碼許多p47免疫相關性GTPase家族成員的IGRM基因之共同缺失多型態上游相關聯。除了與FCGR3B複製數的關聯性以外,亦曾報導SLE易感染性在具有較低的複製數之補體成分C4的受試者中顯著地增加。
曾在許多獨立的研究中報導在GSTM1(GSTM1,1q23缺失)及GSTT1(GSTT1,22q11.2缺失)基因座上的基因組缺失與增加的異位性氣喘風險之間的關聯性。在一些實施態樣中,可使用本文所述之方法測定與發炎性及/或自身免疫性疾病相關聯的CNV存在或不存在。例如,可使用該方法測定在懷疑受HIV、氣喘、或克隆氏病所苦之患者中存在的CNV。與此等疾病相關聯的CNV之實例包括而不限於在17q11.2、8p23.1、1q23和22q11.2上的缺失及在17q11.2和1q23上的複製。在一些實施態樣中,可使用本發明之方法測定在基因中存在的CNV, 包括但不限於CCL3L1、HBD-2、FCGR3B、GSTM、GSTT1、C4和IRGM。
神經系統的CNV疾病
曾報導在氣喘、精神分裂症和癲癇症及一些神經退化性疾病的例子(諸如帕金森(Parkinson)氏病、肌萎縮性側索硬化症(ALS)和體染色體顯性阿耳滋海默(Alzheimer)氏症)中的新生及遺傳性CNV與數種常見的神經性及精神性疾病之間的關聯性(Fanciulli等人之Clin Genet 77:201-213[2010])。已在具有在15q11-q13上複製之自閉症及泛自閉症障礙(autism spectrum disorder)(ASD)的患者中觀察到細胞遺傳學異常。根據自閉症基因組計畫協會,在與史密斯-馬吉利氏症候群相關聯的區域中,在染色體15q11-q13上或在包括染色體2p16、1q21和17p12之新基因組位置上的包括數種復發的CNV之154個CNV與ASD重疊。在染色體16p11.2上復發的微缺失或微複製強調在已知用於調節突觸分化及調節麩胺酸能神經傳導釋放之基因之基因座(諸如SHANK3(22q13.3缺失)、突觸前外膜蛋白1(NRXN1,2p16.3缺失)及neuroglins(NLGN4,Xp22.33缺失))上檢測重新的CNV之觀察。精神分裂症亦與多種重新的CNV相關聯。與相關聯的微缺失及複製含有屬於神經發展及麩胺酸能路徑之基因的過度表達,示意景響該等基因的多種CNV可直接促成精神分裂症之病原性,例如ERBB4,2q34缺失、SLC1A3, 5p13.3缺失;RAPEGF4,2q31.1缺失;CIT,12.24缺失;及具有重新的CNV之多種基因。CNV亦與其他的神經性病症相關聯,包括癲癇症(CHRNA7,15q13.3缺失)、帕金森氏病(SNCA 4q22複製)和ALS(SMN1,5q12.2.-q13.3缺失;及SMN2缺失)。在一些實施態樣中,可使用本文所述之方法測定與神經系統疾病相關聯的CNV存在或不存在。例如,可使用該方法測定在懷疑受自閉症精神分裂症、癲癇症、神經退化性疾病(諸如帕金森氏病、肌萎縮性側索硬化症(ALS)或體染色體顯性阿耳滋海默氏症)所苦之患者中存在的CNV。可使用該方法測定與神經系統疾病相關聯的基因之CNV,包括而不限於泛自閉症障礙(ASD)、精神分裂症自閉症中之任一者,及與神經退化性病症(諸如帕金森氏病)相關聯的基因之CNV。與此等疾病相關聯的CNV之實例包括而不限於在15q11-q13、2p16、1q21、17p12、16p11.2和4q22上的複製,及在22q13.3、2p16.3、Xp22.33、2q34、5p13.3、2q31.1、12.24、15q13.3和5q12.2上的缺失。在一些實施態樣中,可使用該方法測定基因中存在的CNV,包括但不限於SHANK3、NLGN4、NRXN1、ERBB4、SLC1A3、RAPGEF4、CIT、CHRNA7、SNCA、SMN1和SMN2。
代謝性或心血管疾病之CNV
已在許多研究中報導在代謝及心血管特性(如家族性高膽固醇血症(FH)、動脈粥樣硬化和冠狀動脈疾 病)與CNV之間的關聯性(Fanciulli等人之Clin Genet 77:201-213[2010])。例如,在不攜有其他LDLR突變的一些FH患者中的LDLR基因(LDLR,19p13.2缺失/複製)上觀察到生殖細胞系重排(主要為缺失)。另一實例為編碼載脂蛋白(a)(apo(a))之LPA基因,其血漿濃度與冠狀動脈疾病、心肌梗塞(MI)和中風的風險相關聯。含有脂蛋白Lp(a)之apo(a)的血漿濃度在個體之間超過1000倍的變化,且此變異性的90%係在具有血漿濃度及Lp(a)異型體大小與〝鏈回環結構域(kringle)4〞重複序列的高可變數(範圍5-50)成比例的LPA位置上以基因學測定。該等數據表明在至少兩種基因中CNV可與心血管風險相關聯。可在大量的研究中使用本文所述之方法具體搜尋CNV與心血管病症的關聯性。在一些實施態樣中,可使用本發明之方法測定與代謝性或心血管疾病相關聯的CNV存在或不存在。例如,可使用本發明之方法測定在懷疑受家族性高膽固醇血症所苦之患者中存在的CNV。可使用本文所述之方法測定與代謝性或心血管疾病(例如高膽固醇血症)相關聯的基因之CNV。與此等疾病相關聯的CNV之實例包括而不限於LDLR基因之19p13.2缺失/複製及在KPA基因中的倍增。
測定CNV之設備及系統
定序數據及自其導出之診斷的分析通常係使用執行演算及程式的各種電腦進行。因此,特定的實施態 樣使用包含數據儲存或通過一或多個電腦系統或其他處理系統轉移的方法。本文所揭示之實施態樣亦關於進行該等操作之設備。此設備可針對所需目的而特別建構,或其可為以電腦程式及/或儲存於電腦中的數據結構選擇性活化或重新配置的通用目的之電腦(或一組電腦)。在一些實施態樣中,一組處理器合作進行一些或全部所引述之分析操作(例如經由網絡或雲端計算)及/或平行操作。用於進行本文所述之方法的處理器或一組處理器可具有各種類型,包括微控制器和微處理器,諸如可編程裝置(例如CPLD和FPGA)及非可編程裝置,諸如匣陣列ASIC或通用目的微處理器。
另外,特定的實施態樣關於有形及/或非暫態電腦可讀取媒體或電腦程式產品,包括用於進行各種電腦執行之操作的程式指令及/或數據(包括數據結構)。電腦可讀取媒體的實例包括但不限於半導體記憶裝置、磁介質(諸如磁盤驅動器)、磁帶、光學介質(諸如光盤)、磁光介質及特別配置以儲存和進行程式指令的硬體裝置,諸如唯讀記憶體裝置(ROM)和隨機存取存記憶體(RAM)。電腦可讀取媒體可由最終使用者直接控制或該媒體可由最終使用者間接控制。直接控制之媒體的實例包括位於使用者設施上的媒體及/或不與其他實體共享的媒體。間接控制之媒體的實例包括經由外部網絡及/或經由提供共享資源之服務(諸如〝雲端〞)而間接由使用者存取之媒體。程式指令的實例包括機器代碼(諸如由編譯器產生)及含有可由使用 解釋器之電腦執行的更高級代碼之檔案。
在各種實施態樣中,在所揭示之方法及設備中所使用的數據或信息係以電子格式提供。此等數據或信息可包括意核酸樣品所導出之讀序及標籤、與參考序列的特定區域並列(例如與染色體或染色體片段並列)的此等標籤之計數或密度、參考序列(包括單獨或主要提供多型態之參考序列)、染色體和片段劑量、判讀(諸如非整倍體判讀、標準化染色體和片段值)、成對染色體或片段及對應之標準化染色體或片段、諮詢建議、診斷及類似者。如本文所使用,以電子格式提供之數據或其他信息可有效於機器上儲存及在機器之間傳送。以電子格式的數據照慣例地係以數字提供且可以各種數據結構、列表、數據庫等等的位元(bit)及/或位元組(byte)儲存。數據可以電子、光學方式等等具體化。
一個實施態樣提供用於產生輸出之電腦程式產品,該輸出表明非整倍體(例如胎兒非整倍體或癌症)存在或不存在於測試樣品中。電腦產品可含有進行上述方法中之任一或多者的指令以測定染色體異常。如所解釋,電腦產品可包括非暫態及/或有形的電腦可讀取媒體,該媒體具有記錄在其上的電腦可執行或可編譯邏輯(例如指令),能使處理器測定染色體劑量及在例子中測定胎兒非整倍體是否存在或不存在。在一個實例中,電腦產品包含電腦可讀取媒體,該媒體具有記錄在其上的電腦可執行或可編譯邏輯(例如指令),能使處理器診斷胎兒非整倍體, 該診斷包含:接收程序,用於接收來自母體生物樣品之至少一部分核酸的定序數據,其中該定序數據包含經計算之染色體及/或片段劑量;自該接收之數據分析胎兒非整倍體之電腦輔助邏輯;及用於產生輸出之輸出程序,以表明該胎兒非整倍體存在、不存在或種類。
來自考慮下的樣品之序列信息可映射至染色體參考序列以鑑定任何一或多個關注之染色體的每一者之序列標籤數量及鑑定該任何一或多個關注之染色體的每一者之標準化片段序列的序列標籤數量。在各種實施態樣中,參考序列係儲存數據庫中,諸如例如關係數據庫或對象數據庫。
應瞭解以無外援的人進行本文所揭示之方法的計算在大部分的情況下不切實際或甚至不可能。例如,映射來自樣品的單一30bp讀序至人類染色體中之任一者不以計算設備可能需要努力數年。當然,問題會加重,因為可信賴的非整倍體判體通常需要映射數千個(例如至少約10,000個)或術百萬個讀序至一或多個染色體。
本文所揭示之方法可使用評估測試樣品中關注之基因序列的複製數之系統進行。該系統包含:(a)用於接收來自測試樣品之核酸的序列分析儀,提供來自樣品的核酸序列信息;(b)處理器;及(c)一或多個電腦可讀取的儲存媒體,其已儲存用於執行該處理器之指令,以完成鑑定任何CNV之方法,例如染色體或部分非整倍體。
在一些實施態樣中,該方法接受電腦可讀取媒體的指 令,該媒體上儲存電腦可讀取指令以完成鑑定任何CNV之方法,例如染色體或部分非整倍體。因此,一個實施態樣提供電腦程式產品,其包含一或多個其已儲存電腦可執行指令之電腦可讀取的非暫態存儲存媒體,當以電腦系統的一或多個處理器執行時,其引起電腦系統執行用於評估在包含胎兒及母體的不含細胞之核酸的測試樣品中關注序列之複製數的方法。該方法包括:(a)接收藉由定序測試樣品中不含細胞之核酸片段所獲得的序列讀序;(b)將不含細胞之核酸片段的序列讀序與包含關注序列之參考基因組並列,因而提供測試序列標籤,其中參考基因組被區分為複數個區間;(c)測定測試樣品中存在的不含細胞之核酸片段的大小;(d)基於不含細胞之核酸片段的大小加權測試序列標籤,因而獲得標籤;(e)基於(d)之加權標籤計算對區間的覆蓋率;及(f)自計算之覆蓋率鑑定關注序列中複製數變異。在一些執行中,加權測試序列標籤包含使覆蓋率對自測試樣品的一個基因組之大小或大小範圍特徵的不含細胞之核酸片段所獲得的測試序列標籤產生偏差。在一些執行中,加權測試序列標籤包含分配值1至自大小或大小範圍的不含細胞之核酸片段所獲得的標籤及分配值0至其他標籤。在一些執行中,該方法另包含測定在參考基因組(包括關注序列)之區間中的片段大小參數值,包括具有片段大小比閾值更短或更長的測試樣品中不含細胞之核酸片段量。在此,鑑定關注序列之複製數變異包含使用片段大小參數值以及(e)所計算之覆蓋率值。在一些執行中,系統 經配置以評估使用上文所討論的各種方法及過程之測試樣品中的複製數。
在一些實施態樣中,指令可另包括自動記錄與該方法有關的信息,諸如在提供母體測試樣品之人類受試者的患者醫療記錄中的染色體劑量及胎兒染色體非整倍體的存在或不存在。患者醫療記錄可由例如實驗室、醫生辦公室、醫院、健康維護機構、保險公司或個人醫療記錄網站維護。再者,該方法可基於處理器執行分析的結果而另包含對取得母體測試樣品的人類受試者的規定、初始及/或改變治療。這可包含對自受試者取得的額外樣品進行一或多個附加試驗或分析。
所揭示之方法亦可使用電腦處理系統進行,該系統適合或經配置以進行鑑定任何CNV之方法,例如染色體或部分非整倍體。一個實施態樣提供適合或經配置以進行本文所述之方法的電腦處理系統。在一個實施態樣中,設備包含適合或經配置用於定序樣品中至少一部分的核酸分子之定序裝置,以獲得本文別處所述之序列信息類型。該設備亦可包括處理樣品的組件。此等組件於本文所處說明。
可將序列或其他數據可以直接或間接輸入電腦中或儲存於電腦可讀取媒體上。在一個實施態樣中,電腦系統直接耦接至讀取及/或分析來自樣品的核酸序列之定序裝置。經由電腦系統的界面提供來自此等工具的序列或其他信息。另一選擇地,自序列儲存來源(諸如數據庫 或其他儲存庫)提供以系統處理之序列。一旦可用於處理裝置,記憶體裝置或大量儲存裝置至少暫時儲存核酸序列。另外,記憶體裝置可儲存各種染色體或基因組等等的標籤計數。記憶體亦可儲存用於分析呈示序列或映射數據的各種例程及/或程序。此等程序/例程可包括用於進行統計分析的程序等等。
在一個實例中,使用者提供樣品至定序設備中。以與電腦連接的定序設備收集及/或分析數據。電腦上的軟體容許數據收集及/或分析。可將數據儲存、展現(經由螢幕或其他類似裝置)及/或發送至另一位置。電腦可連接至網際網路,使用其傳送數據至由遠端使用者(例如醫生、科學家或分析師)利用的手持裝置。應瞭解數據可在傳送前儲存及/或分析。在一些實施態樣中,收集且發送原始數據至分析及/或儲存數據的遠端使用者或設備。傳送可經由網際網路發生,但亦可經由衛星或其他連接發生。另一選擇地,數據可儲存在電腦可讀取媒體上且媒體可運送至最終使用者(例如經由郵件)。遠端使用者可在相同或不同的地理位置,包括但不限於建築物、城市、州、鄉或國家。
在一些實施態樣中,該方法亦包括收集關於複數個多核苷酸序列的數據(例如讀序、標籤及/或參考染色體序列)及發送數據至電腦或其他計算系統。例如,電腦可連接至實驗室設備,例如樣品收集設備、核苷酸擴增設備、核苷酸定序設備或雜交設備。電腦接著可收集以實 驗裝置聚集的可應用數據。數據接著在任何步驟儲存在電腦上,例如在即時收集的同時、在發送之前,在發送期間或結合發送、或在發送之後。數據可儲存在可自電腦提取的電腦可讀取媒體上。收集或儲存之數據可自電腦傳送至遠端位置,例如經由區域網路或廣域網路,諸如網際網路。可在遠端位置對傳送的數據進行各種操作,如下文所述。
可以本文所揭示之系統、設備及方法儲存、傳送、分析及/或操縱之電子格式化數據的類型如下:
藉由定序測試樣品中核酸所獲得的讀序
藉由讀序與參考基因組或其他參考序列或序列類並列所獲得的標籤
參考基因組或序列
序列標籤密度-對參考基因組或其他參考序列的二或多個區域(通常為染色體或染色體片段)中之每一者的標籤計數或數量
標準化染色體或染色體片段對特別的關注染色體或染色體片段之同一性
自關注之染色體或片段及對應之標準化染色體或片段所獲得的染色體或染色體片段(或其他區域)之劑量
用於判讀染色體劑量為受影響、未受影響或不判讀的閾值
染色體劑量的實際判讀
診斷(與判讀相關聯的臨床症狀)
對自判讀及/或診斷所導出之更多測試的建議
自判讀及/或診斷所導出之治療及/或監控計劃
可使用不同的設備在一或多個地點獲得、儲存傳送、分析及/或操縱該等各種類型的數據。處理選項橫跨廣效範圍。在廣效範圍的一端,所有或大部分的此信息係在處理測試樣品的地點儲存及使用,例如醫生辦公室或其他臨床環境。在另一個極端情況下,在一個地點獲得樣品,其在不同的地點處理及隨意地定序,在一或多個不同的地點並列讀序且進行判讀,並在又另一地點(其可為獲得樣品的地點)籌備診斷、建議及/或計劃。
在各種實施態樣中,定序設備產生讀序且接著傳送至遠端站點,在此處理以產生非整倍體判讀。作為一實例,在遠端地點使讀序與參考序列並列以產生標籤,將其計數且分配至關注之染色體或片段。亦在遠端地點使用標準化染色體或片段使計數轉換成劑量。又再者,在遠端地點使用劑量產生非整倍體判讀。
可在不同的地點使用的處理操作係如下:
樣品收集
預備定序之樣品處理
定序
分析序列數據且導出非整倍體判讀
診斷
對患者或健康護理提供者報告診斷及/或判讀
制定進一步治療、測試及/或監控之計劃
執行計劃
諮詢
該等操作中之任一或多者可自動化,如本文別處所述。定序及分析序列數據及導出非整倍體判讀係以電腦方式進行。其他操作可以手動及自動進行。
可進行樣品收集之地點的實例包括保健從業者辦公室、診所、患者的家(於此提供樣品收集工具或套組)和移動式保健護理車輛。可進行在定序前的樣品處理之地點的實例包括保健從業者辦公室、診所、患者的家(於此提供樣品處理設備或套組)、移動式保健護理車輛和非整倍體分析提供者場所。可進行定序之地點的實例包括保健從業者辦公室、診所、患者的家(於此提供樣品定序設備及/套組)、移動式保健護理車輛和非整倍體提供者場所。發生定序之定點可具備有致力於以電子格式傳送序列數據(通常為讀序)之網絡連接。此等連接可為有線或無線,且具有及可經配置以發送數據至傳送至處理站點之前可處理及/或彙整數據的站點。數據彙整器可由保健組織(諸如保健維護組織(HMO))維護。
分析及/或導出操作可在前述地點中之任一者或另一選擇地在致力於分析核酸序列數據之電腦及/或服務的另一遠端站點。此等地點包括例如叢集站(諸如通用目的之伺服器群(server farm))、非整倍體分析服務商業場所及類似者。在一些實施態樣中,租賃或租借用於進行分析的計算設備。計算資源可為處理器的網際網路存取收集 的一部分,諸如以口語稱為雲端的處理資源。在一些例子中,電腦計算係以彼此附屬或不附屬的平行或大規模平行的處理器組進行。處理可使用分佈式處理實現,諸如叢集計算、網格計算及類似者。在此等實施態樣中,計算資源的叢集或網格集體形成由多個一起作用的處理器或電腦所組成的超級虛擬電腦以進行本文所述之分析及/或導出。可使用該等技術以及更慣例的超級電腦處理如本文所述之序列數據。各者為依賴處理器或電腦的平行電腦計算形式。在網格電腦計算的例子中,該等處理器(常為整個電腦)係以網路(私有、公共或網際網路)、以慣例的網路方案(諸如網際網路)連接。相對之下,超級電腦具有許多以局部高速電腦匯流排連接的處理器。
在特定的實施態樣中,診斷(例如胎兒具有唐氏症候群或患者具有特定的癌症類型)係在作為分析操作的相同地點產生。在其他的實施態樣中,其在不同的地點進行。在一些實例中,診斷報告係在取得樣品的地點進行,儘管這不是此情況所必要的。可產生及/或報告診斷及/或進行制定計劃之地點的實例包括保健從業者辦公室、診所、以電腦和手持裝置(諸如手機、平板電腦、智能電話等等)可存取的網際網路站點,以有線或無線連接至網路。進行諮詢之地點的實例包括保健從業者辦公室、診所、以電腦和手持裝置可存取的網際網路站點等等。
在一些實施態樣中,樣品收集、樣品處理及定序操作係在第一地點進行,而分析及導出操作係在第二 地點進行。然而,在一些例子中,樣品係在一個地點收集(例如保健從業者辦公室或診所),而樣品處理及定序係在不同的地點進行,其隨意為與發生分析及導出相同的地點。
在各種實施態樣中,上文列示之操作順序可由使用者或實體觸發,開始收集樣品、處理樣品及/或定序。在一個或多個該等操作已開始執行之後,其他的操作可以自然地隨著發生。例如定序操作可引起自動收集且發送讀序至處理設備,接著時常自動且可能沒有進一步的使用者干預而進行序列分析及導出非整倍體的操作。在一些執行中,此處理操作的結果接著可能以重新的診斷格式自動輸送至系統組件或實體,其處理給保健專業人員及/或患者的報告信息。如所解釋,亦可自動處理此等信息以提出治療、測試及/或監控計劃,可能連同諮詢信息。因此,開始早期階段操作可觸發頭尾相連的順序,對保健專業人員、患者或其他有關部分提供有用於身體狀況的診斷、計劃、諮詢及/或其他信息。這實現了操作,即使整體系統的部分完全分開且可能遠離例如樣品和順序設備的地點。
圖5顯示自測試樣品得到判讀或診斷之分散系統的一種執行。使用樣品收集地點01自患者(諸如孕婦或推定的癌症患者)獲得測試樣品。接著提供樣品至處理及定序地點03,在此處理及定序測試樣品,如上文所述。地點03包括用於處理樣品的設備以及用於定序處理 之樣品的設備。如本文別處所述之定序的結果為收集通常以電子格式提供且提供至網路(諸如網際網路)之讀序取集合,其於圖5中以參考號05表示。
將序列數據提供至遠端地點07,在此進行分析及得出判讀。此地點可包括一或多個有力的計算裝置,諸如電腦或處理器。在地點07的計算資源完成其分析且自接收之序列信息得出判讀之後,判讀經中繼返回網絡05。在一些執行中,在地點07不僅得出判讀,且亦得出相關聯的診斷。判讀及/或診斷接著通過網絡傳送且返回樣品收集地點01,如圖5所例證。如所解釋,這僅僅是與得出判讀或診斷相關聯的各種操作如何可區分在各種地點的許多變化之一。一個常見的變型包括在單一地點提供樣品收集及處理且定序。另一變型包含在與分析及得出判讀相同的地點提供處理且定序。
圖6詳述在不同地點進行各種操作的選項。在圖6所描述之最精細的意義上,下列操作中之各者係在單獨的地點進行:樣品收集、樣品處理、定序、讀序並列、判讀、診斷和報告及/或計劃制定。
在一個彙整一些該等操作的實施態樣中,樣品處理及定序係在一個地點進行,而讀序並列、判讀及診斷係在單獨的地點進行。參見圖6以參考符號A識別的部分。在以參考符號B識別的另一執行中,樣品收集、樣品處理及定序皆在相同地點進行。在此執行中,讀序並列及判讀係在第二地點進行。最後,診斷和報告及/或計劃制 定係在第三地點進行。在圖6以參考符號C所描述的執行中,樣品收集係在第一地點進行,樣品處理、定序、讀序並列、判讀和診斷一起在第二地點進行,且報告及/或計劃制定係在第三地點進行。最後,在圖6以參考符號D的執行中,樣品收集係在第一地點進行,樣品處理、定序、讀序並列和判讀全部皆在第二地點進行,且診斷和報告及/或計劃管理係在第三地點進行。
一個實施態樣提供用於測定任何一個或多個不同的完全胎兒染色體非整倍體的存在或不存化於包含胎兒及母體核酸之母體測試樣品中的系統,該系統包括接收核酸樣品且提供來自樣品的胎兒及母體核酸序列信息之序列分析儀;處理器;及包含在該處理器上執行的指令之機器可讀取的儲存媒體,該指令包含:(a)獲得樣品中該胎兒及母體核酸之序列信息的代碼;(b)使用該序列信息以電腦計算方式對選自1至22號、X和Y染色體的任何一或多個關注染色體的各者鑑定來自胎兒及母體核酸之序列標籤數量且對該任何一或多個關注染色體的各者之至少一個標準化染色體序列或標準化染色體片段序列鑑定序列標籤數量的代碼;(c)使用對該任何一或多個關注染色體的各者所鑑定之該序列標籤數量及對各標準化染色體序列或標準化染色體片段序列所鑑定之該序列標籤數量計算對任何一或多個關注染色體的各者之單一染色體劑量的代碼;及 (d)比較對任何一或多個關注染色體的各者之單一染色體劑量的各者與一或多個關注染色體的各者之對應閾值,且由此測定任何一或多個不同的完全胎兒染色體非整倍體存在或不存在於樣品中的代碼。
在一些實施態樣中,對任何一或多個關注染色體的各者計算單一染色體劑量的代碼包含將對所選擇的關注染色體中之一者的染色體劑量經計算為對所選擇的關注染色體鑑定之序列標籤數量及對所選擇的關注染色體之對應的至少一個標準化染色體序列或標準化染色體片段序列鑑定之序列標籤數量之比的代碼。
在一些實施態樣中,該系統另包含對任何一或多個關注染色體的任何一或多個片段之任何剩餘染色體片段的各者重複計算染色體劑量的代碼。
在一些實施態樣中,一或多個選自1至22號、X和Y染色體的關注染色體包含至少20個選自1至22號、X和Y染色體之染色體,且其中指令包含測定至少20個不同的完全胎兒染色體非整倍體存在或不存在的指令。
在一些實施態樣中,至少一個標準化染色體序列為選自1至22號、X和Y染色體之染色體組。在其他的實施態樣中,至少一個標準化染色體序列為選自1至22號、X和Y染色體之單一染色體。
另一實施態樣提供用於測定在包含胎兒及母體核酸之母體測試樣品中任何一或多個不同的部分胎兒染 色體非整倍體存在或不存在之系統,該系統包含:接收核酸樣品且提供來自樣品的胎兒及母體核酸序列信息之序列分析儀;處理器;及包含在該處理器上執行的指令之機器可讀取的儲存媒體,該指令包含:(a)獲得該樣品中該胎兒及母體核酸之序列信息的代碼;(b)使用該序列信息以電腦計算方式對選自1至22號、X和Y染色體的任何一或多個關注染色體的任何一或多個片段的各者鑑定來自胎兒及母體核酸之序列標籤數量且對任何一或多個關注染色體的該任何一或多個片段的各者之至少一個標準化片段序列鑑定序列標籤數量的代碼;(c)使用對該任何一或多個關注染色體的該任何一或多個片段的各者所鑑定之該序列標籤數量及對該標準化染色體片段序列所鑑定之該序列標籤數量計算對任何一或多個關注染色體的該任何一或多個片段的各者之單一染色體片段劑量的代碼;及(d)比較對任何一或多個關注染色體的該任何一或多個片段各者之該單一染色體片段劑量的各者與任何一或多個關注染色體的該任何一或多個染色體片段的各者之對應閾值,且由此測定在該樣品中一或多個不同的部分胎兒染色體非整倍體存在或不存在的代碼。
在一些實施態樣中,計算單一染色體片段劑量的代碼包含將所選擇的染色體片段中之一者的染色體片段劑量經計算為對所選擇的染色體片段所鑑定之序列標籤 數量及對所選擇的染色體片段之對應的標準化片段序列所鑑定之序列標籤數量之比的代碼。
在一些實施態樣中,該系統另包含對任何一或多個關注染色體的任何一或多個片段之任何剩餘染色體片段的各者重複計算染色體劑量的代碼。
在一些實施態樣中,該系統另包含(i)對來自不同的母體受試者之測試樣品重複(a)-(d)的代碼,及(ii)測定在每一該樣品中任何一或多個不同的部分胎兒染色體非整倍體存在或不存在的代碼。
在本文所提供的系統中之任一者的其他實施態樣中,代碼另包含將如(d)所測定之胎兒染色體非整倍體存在或不存在自動記錄在提供母體測試樣品之人類受試者的病患醫療劑記錄中,其中記錄係使用處理器進行。
在本文所提供的系統中之任一者的一些實施態樣中,序列分析儀經配置以進行下一代定序(NGS)。在一些實施態樣中,序列分析儀經配置以使用可逆式染料終止子之合成定序進行大規模平行定序。在其他的實施態樣中,序列分析儀經配置以進行以接合定序。在又其他的實施態樣,序列分析儀經配置以進行單一分子定序。
實驗 實施例1 初級及富集定序文庫之製備及定序 a.定序文庫之製備-簡化方案(ABB)
所有的定序文庫(亦即初級及富集文庫)係自母體血漿所提取的約2毫微克純化之cfDNA製備。文庫製備係使用如下用於Illumina®之NEBNextTM DNA Sample Prep DNA試劑組1(品號E6000L;New England Biolabs,Ipswich,MA)的試劑進行。因為不含細胞之血漿DNA自然分段,所以對血漿DNA樣品不進行以噴霧或音波處理的進一步分段。內含在40微升中的約2毫微克純化之cfDNA片段的突出端係根據NEBNext®末端修復模式轉換成磷酸化平端,該轉換係藉由將cfDNA在1.5毫升微量離心管中以NEBNextTM DNA Sample Prep DNA試劑組1中所提供的5微升10X磷酸鹽緩衝液、2微升去氧核苷酸溶液混合物(各10mM dNTP)、1微升1:5稀釋之DNA聚合酶I、1微升T4 DNA聚合酶及1微升T4多核苷酸激酶於20℃下培育15分鐘。接著藉由將反應混合物在75℃下培育5分鐘而使酵素經熱失活。將混合物冷卻至4℃且使用10微升含有Klenow片段(3’至5’exo minus)之尾端加dA的master mix(NEBNextTM DNA Sample Prep DNA試劑組1)及在37℃下培育15分鐘而實現平端DNA之尾端加dA。接著藉由將反應混合物在75℃培育5分鐘而使Klenow片段經熱失活。在片段熱失活之後,使用1微升1:5稀釋之Illumina基因組轉接子Oligo Mix(品號1000521;Illumina Inc.,Hayward,CA)使Illumina轉接子(Non-Index Y-Adaptors)使用在NEBNextTM DNA Sample Prep DNA試劑組1中所提供的4微升T4 DNA接合酶接 合至尾端加dA之DNA,該接合係藉由將反應混合物在25℃下培育15分鐘。將混合物冷卻至4℃,且使用在Agencourt AMPure XP PCR純化系統(品號A63881;Beckman Coulter Genomics,Danvers,MA)中所提供的磁珠粒自未接合之轉接子、轉接子二聚物及其他試劑純化經轉接子接合之cfDNA。使用Phusion® High-Fidelity Master Mix(25微升,Finnzymes,Woburn,MA)及與轉接子互補的Illumina之PCR引子(各0.5μM)(品號1000537)進行18次PCR循環,以選擇性地富集經轉接子接合之cfDNA(25微升)。將經轉接子接合之DNA使用在NEBNextTM DNA Sample Prep DNA試劑組1中所提供的Illumina基因組PCR引子(品號100537和1000538)及Phusion HF PCR Master Mix根據製造商指示進行PCR(98℃經30秒;98℃經10秒的18次循環,65℃經30秒,及72℃經30秒;最後在72℃延伸5分鐘且固定在4℃)。擴增之產品使用Agencourt AMPure XP PCR純化系統(Agencourt Bioscience Corporation,Beverly,MA)根據在www.beckmangenomics.com/products/AMPureXPProtocol_000387v001.pdf取得的製造商指示純化。將經純化之擴增產物溶析在40微升Qiagen EB緩衝液中且使用2100生物分析儀用之Agilent DNA 1000套組(Agilent technologies Inc.,Santa Clara,CA)分析擴增之文庫的濃度及大小分布。
b.定序文庫之建構-全長方案
本文所述之全長方案基本上為Illumina所提供的標準方案,且僅在純化擴增之文庫與Illumina方案不同。Illumina方案指示經擴增之文庫係使用凝膠電泳純化,而本文所述之方案係以珠粒用於相同的純化步驟。使用自母體血漿所提取的2毫微克純化之cfDNA以用於Illumina®之NEBNextTM DNA Sample Prep DNA試劑組1(品號E6000L;New England Biolabs,Ipswich,MA)基本上根據製造商的指示製備定序文庫。除了使用磁珠粒及代替純化管柱的試劑進行經轉接子接合之產物的最終純化以外,所有的步驟係根據用於基因組DNA文庫之樣品製備的NEBNextTM試劑所附之方案進行,該方案係使用Illumina® GAII定序。基本上遵循由Illumina提供的NEBNextTM方案,其可取自grcf.jhml.edu/hts/protocols/11257047_ChIP_Sample_Prep.pdf。
內含在40微升中的約2毫微克純化之cfDNA片段的突出端係根據NEBNext®末端修復模式轉換成磷酸化平端,該轉換係藉由將40微升cfDNA在熱循環器中於200微升微量離心管中以NEBNextTM DNA Sample Prep DNA試劑組1中所提供的5微升10X磷酸鹽緩衝液、2微升去氧核苷酸溶液混合物(各10mM dNTP)、1微升1:5稀釋之DNA聚合酶I、1微升T4 DNA聚合酶及1微升T4多核苷酸激酶於20℃下培育30分鐘。將樣品冷卻至4℃且如下使用在QIAQuick PCR純化套組(QIAGEN Inc., Valencia,CA)中所提供的QIAQuick管柱純化。將50微升反應轉移至1.5毫升微量離心管中且添加250微升Qiagen緩衝液PB。將所得300微升轉移至QIAquick管柱,將其在微量離心管中以13,000RPM離心1分鐘。將管註以750微升Qiagen緩衝液PE清洗且再離心。在13,000RPM下另外離心5分鐘以移除殘餘乙醇。DNA以離心溶析於39微升Qiagen緩衝液EB中。根據製造商的NEBNext®之尾端加dA模式,使用16微升含有Klenow片段(3’至5’exo minus)之尾端加dA的master mix(NEBNextTM DNA Sample Prep DNA試劑組1)及在37℃下培育15分鐘而實現34微升平端DNA之尾端加dA。將樣品冷卻至4℃,且如下使用MinElute PCR純化套組中所提供的管柱(QIAGEN Inc.,Valencia,CA)純化。將50微升反應轉移至1.5毫升微量離心管中且添加250微升Qiagen緩衝液PB。將300微升轉移至MinElute管柱,將其在微量離心管中以13,000RPM離心1分鐘。將管柱以750微升Qiagen緩衝液PE清洗且在離心。在13,000RPM下另外離心5分鐘以移除殘餘乙醇。將DNA以離心溶析於15微升Qiagen緩衝液EB中。將10微升DNA溶析液以1微升1:5稀釋之Illumina基因組轉接子Oligo Mix(品號1000521)、15微升2X Quick Ligation Reaction Buffer及4微升Quick T4 DNA Ligase根據NEBNext® Quick Ligation模式在25℃下培育15分鐘。將樣品冷卻至4℃且如下文使用MinElute管柱純化。將150微升Qiagen緩衝液PE 添加至30微升反應中且將整個體積轉移至MinElute管柱,將其在微量離心管中以13,000RPM離心1分鐘。將管柱以750微升Qiagen緩衝液PE清洗且再離心。在13,000RPM下另外離心5分鐘以移除殘餘乙醇。將DNA以離心溶析於28微升Qiagen緩衝液EB中。將23微升經轉接子接合之DNA溶析液使用在NEBNextTM DNA Sample Prep DNA試劑組1中所提供的Illumina基因組PCR引子(品號100537和1000538)及Phusion HF PCR Master Mix根據製造商指示進行18次PCR循環(98℃經30秒;98℃經10秒的18次循環,65℃經30秒,及72℃經30秒;最後在72℃延伸5分鐘且固定在4℃)。將擴增之產物使用Agencourt AMPure XP PCR純化系統(Agencourt Bioscience Corporation,Beverly,MA)根據在www.beckmangenomics.com/products/AMPureXProtocol_000387v001.pdf取得的製造商指示純化。Agencourt AMPure XP PCR純化系統去除未併入之dNTP、引子、引子二聚物、鹽及其他的污染物,且回收大於100bp之擴增子。將經純化之擴增產物自Agencourt珠粒溶析在40微升Qiagen EB緩衝液溶液中且使用2100生物分析儀用之Agilent DNA 1000套組(Agilent technologies Inc.,Santa Clara,CA)分析文庫的大小分布。
c.根據簡化(a)及全長(b)方案所製備之定序文庫的分析
以生化分析儀所產生的電泳圖顯示於圖7A和 7B中。圖7A顯示使用(a)所述之簡化方案自血漿樣品M24228純化之cfDNA所製備之文庫DNA的電泳圖,及圖7B顯示使用(b)所述之全長方案自血漿樣品M24228純化之cfDNA所製備之文庫DNA的電泳圖。在兩個圖中,峰1和4分別代表15bp之下標記及1,500bp之上標記;峰上的數字表明文庫片段之遷移時間;及水平線表明積分之設定閾值。在圖7A中電泳圖顯示187bp之片段的小峰及263bp之片段的主峰,而在圖7B中的電泳圖顯示僅一個在265bp之峰。峰面積的積分對圖7A的187bp之峰的DNA得到0.40毫微克/微升之計算濃度,對圖7A的263bp之峰的DNA得到7.34毫微克/微升之濃度,及對圖7B的265bp之峰的DNA得到14.72毫微克/微升之濃度。接合至cfDNA之Illumina轉接子已知為92bp,自265bp減去時表明cfDNA之峰大小為173bp。在187bp之小峰有可能代表兩個以端至端接合之引子的片段。當使用簡化方案時,自最終的文庫產物排除線性的兩個引子片段。簡化方案亦排除小於187bp之其他較小的片段。在此實施例中,經純化之轉接子接合之cfDNA的濃度為使用全長方案所得到的該轉接子接合之cfDNA的濃度兩倍。應注意經轉接子接合之cfDNA片段的濃度總是大於以全長方案所得到的該農度大(未顯示數據)。
因此,使用簡化方案製備定序文庫的優點在於所獲得的文庫始終包含僅一個在262-267bp範圍內的主峰,而使用全長方案所製備之文庫質量改變,如以代表 cfDNA以外的峰數量及遷移所反映。非cfDNA產物可能佔據在流動槽上的空間且縮減叢集擴增之質量及定序反應之後續成像,其為非整倍體狀態的總體分配的基礎。顯示簡化方案不影響文庫之定序。
使用簡化方案製備定序文庫的另一優點在於平端化、尾端加dA及轉接子接合的三個酵素步驟於1小時內完成,以支持快速的非整倍體診斷服務的驗證及執行。
另一優點在於平端化、尾端加dA及轉接子接合的三個酵素步驟係在相同的反應試管中進行,因此避免多次樣品轉移,該轉移可能造成物質損失且更重地造成可能的樣品混合及樣品污染。
實施例2 使用片段大小的非侵入性產前測試 介紹
自從在2011年末及2012年初開始介紹,在母體血漿中不含細胞之DNA(cfDNA)的非侵入性產前測試(NIPT)快速成為篩選高風險孕婦的胎兒非整倍體之選擇方法。該方法主要基於分離及定序孕婦血漿中的cfDNA,且計數與參考人類基因組之特定區域並列的cfDNA片段數量(參考Fan等人、Lo等人的文獻)。該等DNA定序及分子計數方法高精確測定整個基因組之每一染色體的相對複製數。對21、18和13號染色體三倍體症檢測之高靈敏度 及特異性已在多個臨床研究中可再現地達成(參考:引述Gil/Nicolaides meta-analysis)。
最近,另外的臨床研究顯示此方法可延伸至一般的產科群體。在高風險與平均風險群體之間沒有可檢測的胎兒級分差別(參考文獻)。臨床研究結果證明使用以cfDNA定序之分子計數的NIPT等效地於兩種群體中進行。已證明陽性預測值(PPV)大於標準血清篩選之統計上顯著的改進(參考文獻)。與血清生物化學及頸後透明帶測量法相比而較低的假陽性測試結果已顯著地降低對侵入性診斷程序的需求(參見來自Abuhamad’s group的LARION等人之參考文獻)。
鑑於一般產科群體良好的NIPT性能,工作流程的簡化及成本現已成為在一般產科群體中執行用於完整染色體非整倍體檢測之cfDNA定序的主要考量(參考:ISPD Debate 1,Brisbane)。大部分的NIPT實驗室方法係在文庫製備及單端定序之後利用聚合酶鏈反應(PCR)擴增步驟,其需要10-20百萬個獨特的cfDNA片段以達成檢測非整倍體之合理的靈敏度。基於PCR之工作流程的複雜性及更深的定序要求限制了NIPT檢定的潛力且造成成本增加。
在此證明,高分析靈敏度及特異性可使用不需要PCR擴增之非常低的cfDNA輸入以簡單的文庫製備達成。不含PCR之方法簡化工作流程、改進整備時間及消除PCR方法的固有偏差。不含擴增之工作流程可與雙 端定序結合以容許測定各樣品中各標籤的片段長度及總胎兒級分。因為胎兒cfDNA片段比母體片段更短[參考Quake 2010,亦應引述Lo’s Science Clin Translation article],所以來自母體血漿之胎兒非整倍體的檢測可以更健全且有效達成,需要更少的獨特cfDNA片段。組合改進之分析靈敏度及特異性係在明顯更少的cfDNA片段數量下以非常快速的整備時間達成。這可能容許NIPT在明顯更低的成本下進行,促成應用於一般的產科群體。
方法
將末稍血液樣品抽取至BCT管(Streck,Omaha,NE,USA)中且運送至紅木市(Redwood City)的Illumina CLIA實驗室用於商業上NIPT測試。簽署之患者同意表格准許第二等分血漿去識別化且供臨床研究使用,除了來自從紐約州送出的患者樣品。經選擇用於此工作的血漿樣品包括具有cfDNA濃度及胎兒級分範圍的未受影響及非整倍體胎兒。
文庫處理之簡化
cfDNA係使用略微修飾以容納較大的溶解物輸入之NucleoSpin 96槽孔血液純化套組(Macherey-Nagel,Düren,Germany)而自900微升母體血漿提取。分離之cfDNA直接進入定序文庫過程而沒有任何標準化的cfDNA輸入。定序文庫係以具有用於樣品鑑定之條形碼cfDNA 片段的雙索引之TruSeq PCR Free DNA文庫套組(Illumina,San Diego,CA,USA)製備。使用下列對文庫方案的修飾以改進文庫製備與低濃度的輸入cfDNA之相容性。模板輸入體積增加,而末端修復、尾端加A、接合master mix及轉接子濃度降低。另外,在末端修復之後,引入熱殺死步驟使酵素失活,去除後端修復SPRI(供應商)珠粒純化步驟,且在後接合SPRI珠粒純化步驟期間的溶析係利用HT1緩衝液(Illumina)。
使用裝配有96個通道頭及8個1毫升滴量通道的單一MICROLAB® STAR(Hamilton,Reno,NV,USA)液體處置器於同時分批處理96個血漿樣品。液體處置器係通過DNA提取、定序文庫製備及定量以處理每一個別血漿樣品。個別樣品文庫係以AccuClear(Biotium,Hayward,CA,USA)定量且48個樣品池係以標準化輸入製備,得到用於定序的32pM之最終濃度。
雙端定序
DNA定序係以Illumina NextSeq 500儀器進行,其係利用2x36bp雙端定序外加16個用於定序樣品條形碼的循環。總共364個樣品跨8個獨立的定序批組運作。
成對之DNA序列係使用bcl2fastq(Illumina)去多樣化且使用bowtie2 aligner演算法映射至參考人類基因組(hg19)[參考Landmead]。成對讀序必須匹配欲計數 的正向及反向鏈。將超過10之映射質量計分(Ruan等人)的所有計數之映射對與全體獨特的第一讀序分配至大小100kb之未重疊的連續固定寬度之基因組區間。約2%的基因組顯示整個獨立的NIPT樣品集的高可變覆蓋率且自進一步的分析排除。
使用自定序之cfDNA片段兩端之各者的映射位置取得的基因組位置信息及片段大小可對各100kb窗口導出兩個變數:(a)長度少於150個鹼基對的短片段之總計數,及(b)在少於250個鹼基對的所有片段集內介於80與150個鹼基對之間的片段級分。限制片段大小至少於150個鹼基對富集於源自胎盤之片段,該胎盤為胎兒DNA的代理者。短片段的級分使血漿混合物中的相對胎兒cfDNA量特徵化。可預期來自三倍體症胎兒之cfDNA具有映射至三倍體症染色體之短讀序級分與二倍體染色體的整倍體胎兒之該級分相比而更高。
短片段計數及級分係利用圖2D所示之方法獨立地標準化以去除歸因於基因組鳥嘌呤半胱胺酸(GC)含量之有系統的檢定偏差及樣品特異性變異。藉由去除自超過3個健全的標準偏差測量值之完整染色體中位數偏離之區間以修整標準化值。最後,與標靶染色體相關聯的經修整之兩個變數中之各者的標準化值與標準化參考染色體的那些標準化值比較,以建構t檢驗統計值。
來自各雙端定序運作之數據隨後進行四個用於分析的步驟:1)讀序轉換,2)在100kb分辨率之特性分 區,3)在100kb分辨率的各特徵(計數和級分)標準化,及4)用於非整倍體檢測之組合特性及計分。在步驟1中,樣品數據自個別條形碼去多樣化,與基因組並列且就序列質量進行篩選。在步驟2中,測定各區間在長度少於150個鹼基對的短片段之總計數及在少於250個鹼基對的所有片段集內介於80與150個鹼基對之間的片段級分。在步驟3去除檢定偏差及樣品特異性變異。最後,對每一計數及級分使用t檢驗測定及計分超過參考值之富集,且組合對非整倍體檢測之總計分。
胎兒完整染色體非整倍體之檢測
吾等測試計數及級分數據是否可組合以提高檢測胎兒21號染色體三倍體症的能力。16個來自具有核型確認之21號染色體三倍體症的懷胎兒之孕婦的血漿樣品及294個來自未受影響的懷孕之樣品隨機分布於整個處理批組,得到9個用於定序之流動槽。單獨檢查各演算法步驟以測定各步驟及步驟之組合檢測非整倍體的能力。在組合例子中胎兒非整倍體檢測的最終計分經定義為兩個個別的t檢驗統計值的平方總和之平方根,且應用單一閾值產生〝經檢測之非整倍體〞相對〝未經檢測之非整倍體〞之判讀。
胎兒級分之計算
各樣品的胎兒級分係使用在基因組100kb區 間之子集內的大小[111,136bp]之片段的總數量對大小[165,175bp]之片段的總數量之比估計。使用來自懷著已知男胎兒的婦女樣品測定與導自X染色體之複製數的胎兒級分具有最高相關性的前10%之基因組區間[參考Rava]。在基於片段大小之胎兒級分估計值與導自已知的男胎兒中X染色體的那些估計值之間的相關性係使用單個抽出交叉驗證(leave-one-out cross validation)[REF]分析經電腦計算,該分析包括區間選擇及回歸模式參數估計二者。接著使用線性回歸模式自片段大小比導出估計之胎兒級分。
結果 文庫處理之簡化
圖8顯示與標準的實驗室工作流程相比之此新型NIPT的整體工作流程及時間表。用於電漿分離、cfDNA提取、文庫建立、定量及匯集之整個96樣品製備工作流程能夠在單一Hamilton STAR上以少於6小時總製備時間處理樣品。這係與在CLIA實驗室中所使用的基於PCR之方法的9小時及兩個Hamilton STAR相比。每一樣品所提取之cfDNA的量平均60皮克/公升,且定序文庫輸出之產率係與cfDNA輸入呈線性關係(R2=0.94),如圖9所示。平均回收率大於70%(加成範圍),表明cfDNA在SPRI珠粒純化之後非常高效率回收。各定序運作係使用48個多樣化樣品的標準化量且以約14小時完成。獨特地映射之成對讀序的中位數為XXX M,具有95%之樣品大 於YYY。
雙端定序
每48樣品批組NextSeq 500上的總定序時間少於14小時。這係與在HiSeq 2500上以實驗室方法的40小時(1個流動槽,96個樣品)或50小時(2個流動槽,192個樣品)相比。cfDNA片段的兩端之映射基因組位置提供cfDNA片段大小信息。圖10顯示自懷男胎兒的324個樣品所測量之cfDNA片段大小分布。映射至已知為整倍體之體染色體且主要代表母體染色體之片段的大小係以細曲線代表。插入物之平均大小為175bp,在100bp與200bp之間測得XX%之片段。粗曲線代表只由僅代表胎兒cfDNA片段之Y染色體產生的片段大小。來自Y染色體特異性序列的大小分布較小,平均167bp,在較短的片段大小具有10個鹼基週期性。
因為較短的cfDNA片段富集於胎兒DNA,所以僅使用較短片段的選擇性分析可由於優先選擇胎兒讀序而預期使相對的胎兒表達增加。圖11顯示來自映射之雙端讀序的總計數與來自少於150bp之雙端讀序的計數相比之相對胎兒級分。總體而言,中位數胎兒級分與總計數相比而增加2倍,儘管有一些變異增加。發現150bp之大小截止點提供相對於計數變異而具有增加胎兒表達之計數的最優協調。
胎兒完整染色體非整倍體之檢測
測試每一可用之度量、總計數、少於150bp之計數、富集胎兒cfDNA之計數級分(介於80與150bp之間的計數/<250bp之計數)及較短片段計數與級分之組合區分21號染色體三倍體症樣品與21號染色體中那些整倍體樣品之能力。圖12顯示每一該等度量的結果。總計數具有XX計數之中位數,而少於150bp之計數具有YY計數之中位數。還可如圖4A和4B中所見,較小的計數顯示在21號染色體三倍體症與整倍體之間更好的分離,主要因為此度量富集胎兒cfDNA。單獨的級分對區別非整倍體與總計數幾乎一樣有效(圖4C),但是與短片段計數組合使用時(圖4D)提供超越單獨的短片段計數之改進的區別。這表明級分提供獨立的信息以提高21號染色體三倍體症之檢測。當與目前使用具有PCR擴增及16M計數/樣品之中位數的文庫製備的CLIA實驗室工作流程相比時,不含PCR之雙端定序工作流程係以顯著較少的計數/樣品(例如6M計數/樣品或更少)及更簡單、更短的樣品製備工作流程顯示同等的性能。
胎兒級分之計算
使用來自懷男胎兒的孕婦之X染色體結果,可利用標準化染色體值測定用於計數之胎兒級分(參考ClinChem)且比較不同的cfDNA片段大小。使用導自X染色體之胎兒級分校準140個樣品集之比,且使用單個抽出 交叉驗證估計性能。圖13顯示交叉驗證之胎兒級分預測結果且證明在兩個數據集之間的相關性,表明一旦已測量校準集,胎兒級分估計值可自任何樣品獲得,包括一個來自懷女胎兒的孕婦。
討論
已證明來自母體血漿中cfDNA的胎兒非整倍體檢測之高分析靈敏度及特異性可以與雙端DNA定序結合的不含PCR之文庫製備達成。該方法簡化工作流程、改進整備時間(圖8)且應消除PCR方法固有的一些偏差。與目前執行的商業方法相比,雙端定序容許測定片段長度大小及胎兒級分,可利用該等提高在顯著較低的標籤計數下的非整倍體檢測。不含PCR之雙端執行的性能似乎類似於利用至多3倍的標籤數量之單端定序方法。
文庫處理之簡化
不含PCR之工作流程對臨床實驗室具有許多優點。因為文庫製備的高產率及線性表現,所以用於定序之樣品的標準化池可直接自個別樣品文庫之濃度製得。由此消除文庫製備之PCR擴增固有的偏差。另外,沒有必要分離用於PCR活性前及後之單獨的液體處置器;這降低實驗室的資本負擔。此簡化之工作流程容許樣品批組於臨床實驗室的單一值班內製備,且接著經隔夜定序及分析。總體而言,降低資本開支,減少〝手作(hand on)〞時 間及快速周轉容許NIPT的成本可能顯著下降及總體健全性。
雙端定序
使用在NextSeq 500系統上的雙端定序對計數cfDNA片段具有許多優點。首先,具有雙索引條形碼的樣品可以高程度多樣化,容許批次運作變異以高統計可信度標準化及校準。另外,因為48個樣品於每一運作經多樣化且用於叢聚所需之流動槽的數量有限,所以顯著降低每一樣品的輸入需求,容許利用不含PCR之文庫工作流程。研究人員以每一樣品約5毫微克之彼等典型的cfDNA產率能夠以每一樣品得到2-3個定序運行,即使沒有PCR擴增。這與需要大量來自多個血液試管的血漿輸入以得到足夠用於非整倍體測定(REF)之cfDNA的其他方法成對比。最後,雙端定序容許測定cfDNA片段大小及分析富集的胎兒cfDNA。
胎兒完整染色體非整倍體之檢定
吾等的結果證明低於150bp之cfDNA片段計數能夠比總計數更好地區分非整倍體與整倍體染色體。此觀察與Fan等人之結果成對比,Fan等人示意使用較短的片段可降低計數統計的準確性(Fan等人),因為減少可用的計數數量。短片段級分亦對21號染色體三倍體症檢測提供一些區別,如以Yu等人所暗示,儘管以比計數更少 的動態範圍。然而,計數與級分度量的組合導致21號染色體三倍體症樣品與整倍體的最佳分離,且意味著該兩種度量為染色體表達法的互補量測。其他的生物度量(例如甲基化)亦可能提供正交信息,其可能提高非整倍體檢測之信號對雜訊比。
胎兒級分之計算
在此所呈示之方法亦容許估計各樣品中胎兒級分,不創立額外的實驗室工作。可以各流動槽上的許多樣品(約一半為男性)獲得所有樣品精確的胎兒級分估計值,其係藉由自男性樣品所測量之片段大小信息校準胎兒級分測量。在商業環境中,研究人員的臨床經驗顯示使用大量的單端標籤之標準計數方法導致非常低的假陰性率,即使在沒有特異性胎兒級分測量(REF)的存在下。鑑於在此所觀察之類似的檢測限度而預期等效的測試性能。
結論
已證明來自母體血漿中cfDNA的胎兒非整倍體檢測之高分析靈敏度及特異性可以與雙端DNA定序結合的不含PCR之文庫製備達成。此簡化之工作流程具有非常快速的整備時間、可能容許NIPT以顯著較低的成本用於一般產科群體。另外,雙端定序技術具有測量其他生物現象以及提供其他臨床應用的潛力。例如,來自基因組或CpG島的甲基化特異性區域之大小信息可提供用於提 高整個基因組之複製數變異檢測之另一正交度量。
本發明可以其他特定形式具體化而不違背其精神或基本特徵。所述之實施態樣在所有方面應被認為僅是說明而非限制。本發明的範圍因此係由所附之專利申請範圍而不是由先前說明指出。達到申請專利範圍的等效意義及範圍內的所有改變都包含在其範圍內。

Claims (33)

  1. 一種使用包含一或多個處理器和系統記憶體之電腦系統以執行用於測定在包含源自二或多個基因組的不含細胞之核酸片段的測試樣品中關注之核酸序列的複製數變異(CNV)之方法,該方法包含:(a)藉由該電腦系統接收藉由定序該測試樣品中該不含細胞之核酸片段所獲得的序列讀序;(b)藉由該一或多個處理器將該不含細胞之核酸片段的序列讀序並列或含有該序列讀序之片段與包含該關注序列之參考基因組的區間並列,因而提供測試序列標籤,其中該參考基因組被區分為複數個區間;(c)測定該測試樣品中存在的至少一些該不含細胞之核酸片段的片段大小;(d)對經測定為於第一大小結構域的不含細胞之核酸片段,藉由該一或多個處理器計算該序列標籤對該參考基因組之區間的第一覆蓋率,該計算係藉由對各區間:(i)測定與該區間並列之序列標籤的數量,及(ii)藉由計數因複製數變異以外之因子的區間對區間(bin-to-bin)變異而使與該區間並列之序列標籤的數量標準化;(e)對經測定為於第二大小結構域的不含細胞之核酸片段,藉由該一或多個處理器計算該序列標籤對該參考基因組之區間的第二覆蓋率,該計算係藉由對各區間:(i)測定與該區間並列之序列標籤的數量,及(ii)藉由計數因複製數變異以外之因子的區間對區間變異而使與該區間並列之序列標籤的數量標準化;及(f)使用自該第一覆蓋率和該第二覆蓋率計算之概度比以測定該關注序列中複製數變異。
  2. 根據申請專利範圍第1項之方法,其中自該第一覆蓋率之t檢驗統計值和該第二覆蓋率之t檢驗統計值計算該概度比,其中使用該關注序列中區間之覆蓋率和該關注序列的參考區中區間之覆蓋率以計算該t檢驗統計值。
  3. 根據申請專利範圍第1項之方法,其中該第一大小結構域包含該測試樣品中實質上所有大小的不含細胞之核酸片段,且該第二大小結構域僅包含比限定之大小更小的不含細胞之核酸片段。
  4. 根據申請專利範圍第1項之方法,其中該第二大小結構域僅包含比約150bp更小的不含細胞之核酸片段。
  5. 根據申請專利範圍第1項之方法,其中該概度比經計算為該測試樣品為非整倍體樣品之第一概度與該測試樣品為整倍體樣品之第二概度的比。
  6. 根據申請專利範圍第1項之方法,其中除了自該第一覆蓋率和該第二覆蓋率以外,自一或多個胎兒級分值計算該概度比。
  7. 根據申請專利範圍第6項之方法,其中該一或多個胎兒級分值包含使用有關不含細胞之核酸片段大小的信息所計算之胎兒級分值。
  8. 根據申請專利範圍第7項之方法,其中該胎兒級分值係藉由下述計算:獲得該不含細胞之核酸片段大小的頻率分布;及將該頻率分布應用於胎兒級分與片段大小頻率相關的模式以獲得該胎兒級分值。
  9. 根據申請專利範圍第6項之方法,其中該一或多個胎兒級分值包含使用該參考基因組的區間之覆蓋率信息所計算之胎兒級分值。
  10. 根據申請專利範圍第9項之方法,其中該胎兒級分值係藉由下述計算:將複數個區間之覆蓋率值應用於胎兒級分與區間之覆蓋率相關的模式以獲得該胎兒級分值。
  11. 根據申請專利範圍第6項之方法,其中該一或多個胎兒級分值包含使用性染色體的區間之覆蓋率信息所計算之胎兒級分值。
  12. 根據申請專利範圍第6項之方法,其中自胎兒級分、短片段之t檢驗統計值及所有片段之t檢驗統計值計算該概度比,其中該短片段為比標準大小更小的第一大小範圍內不含細胞之核酸片段,且該所有片段為包括該短片段及比標準大小更長的片段之不含細胞之核酸片段。
  13. 根據申請專利範圍第12項之方法,其中該概度比係以下式計算:
    Figure TWI661049B_C0001
    其中p1代表數據來自代表3複製或1複製模式之多變異常態分布的概度,p0代表數據來自代表2複製模式之多變異常態分布的概度,Tshort和Tall為自短片段及所有片段所產生的染色體覆蓋率所計算之T分數,且q(ff total )為該胎兒級分之密度分布。
  14. 根據申請專利範圍第1項之方法,其中對X染色體單倍體症(monosomy X)、X染色體三倍體症(trisomy X)、13號染色體三倍體症(trisomy 13)、18號染色體三倍體症(trisomy 18)或21號染色體三倍體症(trisomy 21)計算該概度比。
  15. 根據申請專利範圍第1項之方法,其中該序列標籤數量標準化包含:使該測試樣品的GC含量標準化、使訓練集(training set)變異之全體波形輪廓(global wave profile)標準化及/或使自主要成分分析所獲得的一或多個成分標準化。
  16. 根據申請專利範圍第2項之方法,其中該參考區係選自由下列所組成之群組:所有健全的染色體、不包括該關注序列之健全的染色體、至少一個位於該關注序列外的染色體及選自該健全的染色體之染色體亞群,其中該健全的染色體係非染色體13、18及21之體染色體。
  17. 根據申請專利範圍第16項之方法,其中該參考區包含健全的染色體,該健全的染色體已經測定以提供一組訓練樣品最好的信號檢測能力。
  18. 根據申請專利範圍第2項之方法,其另包含:計算該區間之大小參數值,該計算係藉由對各區間:(i)測定來自該區間內不含細胞之核酸片段大小之大小參數值,及(ii)藉由計數因複製數變異以外之因子的區間對區間變異而使該大小參數值標準化;及使用該關注序列中區間之該大小參數值及該關注序列之該參考區中區間之該大小參數值以測定該關注序列的基於大小之t檢驗統計值。
  19. 根據申請專利範圍第18項之方法,其中(f)之該概度比係自該第一t檢驗統計值、該第二t檢驗統計值及該基於大小之t檢驗統計值計算。
  20. 根據申請專利範圍第18項之方法,其中(f)之該概度比係自該基於大小之t檢驗統計值及胎兒級分計算。
  21. 根據申請專利範圍第1項之方法,其另包含比較該概度比與判定標準(call criterion)以測定該關注序列中複製數變異。
  22. 根據申請專利範圍第1項之方法,其另包含獲得複數個概度比且使該複數個概度比應用於決策樹以測定該測試樣品的倍數性(ploidy)。
  23. 一種評估測試樣品中關注之核酸序列的複製數之系統,該系統包含:接收來自該測試樣品之不含細胞之核酸片段且提供該測試樣品之核酸序列信息的序列分析儀;處理器;及一或多個電腦可讀取的儲存媒體,其已儲存用於執行該處理器之指令:(a)接收藉由定序該測試樣品中該不含細胞之核酸片段所獲得的序列讀序;(b)將該不含細胞之核酸片段的序列讀序並列或將含有該序列讀序之片段與包含該關注序列之參考基因組的區間並列,因而提供測試序列標籤,其中該參考基因組被區分為複數個區間;(c)測定該測試樣品中存在的至少一些該不含細胞之核酸片段的片段大小;(d)對經測定為於第一大小結構域的不含細胞之核酸片段,計算該序列標籤對該參考基因組之區間的第一覆蓋率,該計算係藉由對各區間:(i)測定與該區間並列之序列標籤的數量,及(ii)藉由計數因複製數變異以外之因子的區間對區間變異而使與該區間並列之序列標籤的數量標準化;(e)對經測定為於第二大小結構域的不含細胞之核酸片段,計算該序列標籤對該參考基因組之區間的第二覆蓋率,該計算係藉由對各區間:(i)測定與該區間並列之序列標籤的數量,及(ii)藉由計數因複製數變異以外之因子的區間對區間變異而使與該區間並列之序列標籤的數量標準化;及(f)使用自該第一覆蓋率和該第二覆蓋率計算之概度比以測定該關注序列中複製數變異。
  24. 一種用於測定在包含源自二或多個基因組的不含細胞之核酸片段的測試樣品中關注之核酸序列的複製數變異(CNV)之方法,該方法包含:(a)接收藉由定序該測試樣品中該不含細胞之核酸片段所獲得的序列讀序;(b)將該不含細胞之核酸片段的序列讀序並列或將含有該序列讀序之片段與包含該關注序列之參考基因組的區間並列,因而提供測試序列標籤,其中該參考基因組被區分為複數個區間;(c)測定存在於該測試樣品中該不含細胞之核酸片段的片段大小;(d)使用具有第一大小結構域之大小的該不含細胞之核酸片段的序列標籤以計算該序列標籤對該參考基因組之區間的覆蓋率;(e)使用具有第二大小結構域之大小的該不含細胞之核酸片段的序列標籤以計算該序列標籤對該參考基因組之區間的覆蓋率,其中該第二大小結構域不同於該第一大小結構域;(f)使用(c)所測定之該片段大小以計算該參考基因組之區間的大小特徵;及(g)使用(d)和(e)所計算之該覆蓋率及(f)所計算之該大小特徵以測定該關注序列中複製數變異。
  25. 根據申請專利範圍第24項之方法,其中(g)包含使用(f)所計算之該關注序列中區間之該大小特徵以計算該關注序列之t檢驗統計值。
  26. 根據申請專利範圍第2項之方法,其中該t檢驗統計值係以下式計算:
    Figure TWI661049B_C0002
    其中x1為關注序列之區間覆蓋率,x2為參考區之區間覆蓋率,s1為關注序列之區間覆蓋率的標準偏差,s2為參考區之區間覆蓋率的標準偏差,n1為關注序列之區間數量且n2為參考區之區間數量。
  27. 根據申請專利範圍第1項之方法,其另包含於(a)之前:提取該測試樣品中該不含細胞之核酸片段,該測試樣品來自懷有胎兒之懷孕雌性體的血漿樣品,其中該測試樣品中該不含細胞之核酸片段包含源自該胎兒之核酸和源自該懷孕雌性體之核酸;和,定序該不含細胞之核酸片段以獲得序列讀序。
  28. 根據申請專利範圍第27項之方法,其另包含:測定該胎兒受到與該關注序列中複製數變異有關的基因異常之影響。
  29. 根據申請專利範圍第28項之方法,其另包含:規定、初始及/或改變治療配方,其中該治療配方係經設計以治療影響該胎兒之基因異常。
  30. 根據申請專利範圍第1項之方法,其另包含於(a)之前:提取來自個體的該測試樣品中該不含細胞之核酸片段,其中該不含細胞之核酸片段包含源自癌細胞之核酸;和,定序該不含細胞之核酸片段以獲得序列讀序。
  31. 根據申請專利範圍第30項之方法,其另包含:測定該個體受到與該關注序列中複製數變異有關的癌症之影響。
  32. 根據申請專利範圍第31項之方法,其另包含:規定、初始及/或改變治療配方,其中該治療配方係經設計以治療影響該個體之該癌症。
  33. 根據申請專利範圍第30項之方法,其中該測試樣品中該不含細胞之核酸片段係自該個體之血漿樣品提取。
TW105142299A 2016-02-03 2016-12-20 使用不含細胞之dna片段大小以測定複製數變異之方法 TWI661049B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201662290891P 2016-02-03 2016-02-03
US62/290,891 2016-02-03

Publications (2)

Publication Number Publication Date
TW201805429A TW201805429A (zh) 2018-02-16
TWI661049B true TWI661049B (zh) 2019-06-01

Family

ID=57583028

Family Applications (2)

Application Number Title Priority Date Filing Date
TW105142299A TWI661049B (zh) 2016-02-03 2016-12-20 使用不含細胞之dna片段大小以測定複製數變異之方法
TW108113871A TWI708848B (zh) 2016-02-03 2016-12-20 使用不含細胞之dna片段大小以測定複製數變異之方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
TW108113871A TWI708848B (zh) 2016-02-03 2016-12-20 使用不含細胞之dna片段大小以測定複製數變異之方法

Country Status (19)

Country Link
US (3) US10095831B2 (zh)
EP (2) EP3517626B1 (zh)
KR (2) KR102184868B1 (zh)
CN (1) CN108884491B (zh)
AR (1) AR107192A1 (zh)
AU (2) AU2016391100B2 (zh)
BR (1) BR112018015913B1 (zh)
CA (1) CA3013572C (zh)
CY (1) CY1121741T1 (zh)
DK (1) DK3202915T3 (zh)
EA (2) EA035148B1 (zh)
IL (2) IL260938B (zh)
MA (2) MA44822A (zh)
NZ (1) NZ745637A (zh)
SG (1) SG11201806595UA (zh)
TW (2) TWI661049B (zh)
UA (1) UA126898C2 (zh)
WO (1) WO2017136059A1 (zh)
ZA (1) ZA201805753B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI708848B (zh) * 2016-02-03 2020-11-01 美商維利納塔健康公司 使用不含細胞之dna片段大小以測定複製數變異之方法
US11342047B2 (en) 2017-04-21 2022-05-24 Illumina, Inc. Using cell-free DNA fragment size to detect tumor-associated variant

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10741269B2 (en) 2013-10-21 2020-08-11 Verinata Health, Inc. Method for improving the sensitivity of detection in determining copy number variations
AU2015266665C1 (en) 2014-05-30 2021-12-23 Verinata Health, Inc. Detecting fetal sub-chromosomal aneuploidies and copy number variations
CA2970501C (en) 2014-12-12 2020-09-15 Verinata Health, Inc. Using cell-free dna fragment size to determine copy number variations
KR20180113973A (ko) 2015-11-11 2018-10-17 레졸루션 바이오사이언스, 인크. Dna 라이브러리의 고효율 작제
US11514289B1 (en) * 2016-03-09 2022-11-29 Freenome Holdings, Inc. Generating machine learning models using genetic data
EP3497241B1 (en) * 2016-08-10 2024-01-10 New York Genome Center, Inc. Ultra-low coverage genome sequencing and uses thereof
KR20230035431A (ko) 2016-08-25 2023-03-13 레졸루션 바이오사이언스, 인크. Dna 샘플 중 게놈 카피 변화의 검출을 위한 방법
SG11201906397UA (en) * 2017-01-25 2019-08-27 Univ Hong Kong Chinese Diagnostic applications using nucleic acid fragments
AR113802A1 (es) 2017-10-27 2020-06-10 Juno Diagnostics Inc Dispositivos, sistemas y métodos para la biopsia líquida de un volumen ultra bajo
GB201718620D0 (en) * 2017-11-10 2017-12-27 Premaitha Ltd Method of detecting a fetal chromosomal abnormality
EP3759237A4 (en) * 2018-02-27 2022-06-01 Cornell University ULTRASENSITIVE DETECTION OF CIRCULATING TUMOR DNA BY GENOME-WIDE INTEGRATION
CN112005306A (zh) * 2018-03-13 2020-11-27 格里尔公司 选择、管理和分析高维数据的方法和系统
US20190295684A1 (en) * 2018-03-22 2019-09-26 The Regents Of The University Of Michigan Method and apparatus for analysis of chromatin interaction data
CN112203648A (zh) * 2018-03-30 2021-01-08 朱诺诊断学公司 用于产前检查的基于深度学习的方法、设备和系统
US20190367909A1 (en) 2018-04-02 2019-12-05 Illumina, Inc. Compositions and methods for making controls for sequence-based genetic testing
US20190316209A1 (en) * 2018-04-13 2019-10-17 Grail, Inc. Multi-Assay Prediction Model for Cancer Detection
AU2019277698A1 (en) 2018-06-01 2020-11-19 Grail, Llc Convolutional neural network systems and methods for data classification
US11574706B2 (en) * 2018-06-28 2023-02-07 10X Genomics, Inc. Systems and methods for visualization of single-cell resolution characteristics
JP6891150B2 (ja) * 2018-08-31 2021-06-18 シスメックス株式会社 解析方法、情報処理装置、遺伝子解析システム、プログラム、記録媒体
US11610150B2 (en) 2018-10-09 2023-03-21 Ferrum Health, Inc. Method for computing performance in multiple machine learning classifiers
US11488716B2 (en) * 2018-10-09 2022-11-01 Ferrum Health, Inc. Method for configuring multiple machine learning classifiers
US11581062B2 (en) 2018-12-10 2023-02-14 Grail, Llc Systems and methods for classifying patients with respect to multiple cancer classes
JP2022514010A (ja) * 2018-12-20 2022-02-09 ガーダント ヘルス, インコーポレイテッド 核酸分子の回収率を改善するための方法、組成物、およびシステム
JP7332695B2 (ja) * 2018-12-21 2023-08-23 エフ. ホフマン-ラ ロシュ アーゲー 循環核酸からの全ゲノム配列データにおける包括的配列特徴の同定
KR102287096B1 (ko) * 2019-01-04 2021-08-09 테라젠지놈케어 주식회사 모체 시료 중 태아 분획을 결정하는 방법
KR20220013349A (ko) * 2019-06-03 2022-02-04 일루미나, 인코포레이티드 검출 한계 기반 품질 제어 메트릭
CN110373477B (zh) * 2019-07-23 2021-05-07 华中农业大学 克隆自cnv片段的与猪耳形性状相关的分子标记
CN110570902B (zh) * 2019-08-27 2023-05-23 深圳百诺精准医疗科技有限公司 一种拷贝数变异分析方法、系统及计算机可读存储介质
US20210102262A1 (en) * 2019-09-23 2021-04-08 Grail, Inc. Systems and methods for diagnosing a disease condition using on-target and off-target sequencing data
CN115298324A (zh) * 2019-12-18 2022-11-04 香港中文大学 游离dna断裂和核酸酶
CN111028890B (zh) * 2019-12-31 2020-09-11 东莞博奥木华基因科技有限公司 一种基于run间矫正的CNV检测方法
CN111210873B (zh) * 2020-01-14 2023-03-28 西安交通大学 基于外显子测序数据的拷贝数变异检测方法及系统、终端和存储介质
CA3164433A1 (en) * 2020-02-05 2021-08-12 Yuk-Ming Dennis Lo Molecular analyses using long cell-free fragments in pregnancy
CN111477275B (zh) * 2020-04-02 2020-12-25 上海之江生物科技股份有限公司 微生物目标片段中多拷贝区域的识别方法、装置及应用
CN111411144B (zh) * 2020-04-21 2023-12-22 深圳华大因源医药科技有限公司 一种用于血流感染病原诊断的血浆游离dna标志物
EP4144745A4 (en) * 2020-04-30 2024-02-21 Genemind Biosciences Co Ltd SEQUENCING METHOD, ANALYSIS METHOD AND ANALYSIS SYSTEM, COMPUTER READABLE STORAGE MEDIUM AND ELECTRONIC DEVICE
JP2023552015A (ja) * 2020-12-02 2023-12-14 イルミナ ソフトウェア, インコーポレイテッド 遺伝子変異を検出するためのシステム及び方法
CN112766428B (zh) * 2021-04-08 2021-07-02 臻和(北京)生物科技有限公司 肿瘤分子分型方法及装置、终端设备及可读存储介质
CN113270138B (zh) * 2021-04-13 2023-09-22 杭州博圣医学检验实验室有限公司 基于生物信息学富集胎儿游离dna用于拷贝数变异的分析方法
CN113889187B (zh) * 2021-09-24 2022-12-06 上海仁东医学检验所有限公司 单样本等位基因拷贝数变异检测方法、探针组和试剂盒
WO2023060236A1 (en) * 2021-10-08 2023-04-13 Foundation Medicine, Inc. Methods and systems for automated calling of copy number alterations
KR20230114952A (ko) * 2022-01-26 2023-08-02 권창혁 암 판별 장치 및 암 판별 방법
US20230326549A1 (en) * 2022-03-31 2023-10-12 Illumina, Inc. Copy number variant calling for lpa kiv-2 repeat
WO2024044749A1 (en) * 2022-08-26 2024-02-29 Fred Hutchinson Cancer Center Cell-free dna sequence data analysis techniques for estimating fetal fraction and predicting preeclampsia
CN116597893B (zh) * 2023-06-14 2023-12-15 北京金匙医学检验实验室有限公司 预测耐药基因-病原微生物归属的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110319272A1 (en) * 2008-09-20 2011-12-29 The Board Of Trustees Of The Leland Stanford Junior University Noninvasive Diagnosis of Fetal Aneuploidy by Sequencing
US20140180594A1 (en) * 2012-12-20 2014-06-26 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2015184404A1 (en) * 2014-05-30 2015-12-03 Verinata Health, Inc. Detecting fetal sub-chromosomal aneuploidies and copy number variations

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100216153A1 (en) 2004-02-27 2010-08-26 Helicos Biosciences Corporation Methods for detecting fetal nucleic acids and diagnosing fetal abnormalities
WO2007145612A1 (en) 2005-06-06 2007-12-21 454 Life Sciences Corporation Paired end sequencing
CA2668818C (en) 2006-10-10 2018-06-26 Xenomics, Inc. Compositions, methods and kits for isolating nucleic acids from body fluids using anion exchange media
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
EP2527471B1 (en) 2007-07-23 2020-03-04 The Chinese University of Hong Kong Diagnosing cancer using genomic sequencing
US9218449B2 (en) 2007-07-23 2015-12-22 The Chinese University Of Hong Kong Methods for analyzing massively parallel sequencing data for noninvasive prenatal diagnosis
CN101889074A (zh) 2007-10-04 2010-11-17 哈尔西恩莫尔丘勒公司 采用电子显微镜对核酸聚合物测序
WO2009051842A2 (en) 2007-10-18 2009-04-23 The Johns Hopkins University Detection of cancer by measuring genomic copy number and strand length in cell-free dna
WO2009055926A1 (en) 2007-11-01 2009-05-07 The Hospital For Sick Children Method of determining risk for cancer
BR112012010708A2 (pt) 2009-11-06 2016-03-29 Univ Hong Kong Chinese método para realizar diagnóstico pré-natal, e, produto de programa de computador
CA2786565C (en) 2010-01-19 2017-04-25 Verinata Health, Inc. Partition defined detection methods
US9323888B2 (en) * 2010-01-19 2016-04-26 Verinata Health, Inc. Detecting and classifying copy number variation
US9260745B2 (en) 2010-01-19 2016-02-16 Verinata Health, Inc. Detecting and classifying copy number variation
WO2012006291A2 (en) 2010-07-06 2012-01-12 Life Technologies Corporation Systems and methods to detect copy number variation
US9029103B2 (en) 2010-08-27 2015-05-12 Illumina Cambridge Limited Methods for sequencing polynucleotides
US8725422B2 (en) * 2010-10-13 2014-05-13 Complete Genomics, Inc. Methods for estimating genome-wide copy number variations
MY169852A (en) 2010-11-30 2019-05-17 Univ Hong Kong Chinese Detection of genetic or molecular aberrations associated with cancer
WO2014014498A1 (en) 2012-07-20 2014-01-23 Verinata Health, Inc. Detecting and classifying copy number variation in a fetal genome
US9411937B2 (en) 2011-04-15 2016-08-09 Verinata Health, Inc. Detecting and classifying copy number variation
HUE031239T2 (en) 2011-05-31 2017-07-28 Berry Genomics Co Ltd Device for determining the copy number of fetal chromosomes or tumor cell chromosomes
JP5659319B2 (ja) 2011-06-29 2015-01-28 ビージーアイ ヘルス サービス カンパニー リミテッド 胎児の遺伝的異常の非侵襲的検出
CA2840418C (en) 2011-07-26 2019-10-29 Verinata Health, Inc. Method for determining the presence or absence of different aneuploidies in a sample
CA2850781C (en) 2011-10-06 2020-09-01 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9367663B2 (en) 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
DK2772549T3 (da) 2011-12-31 2019-08-19 Bgi Genomics Co Ltd Fremgangsmåde til detektering af genetisk variation
EP4148739A1 (en) 2012-01-20 2023-03-15 Sequenom, Inc. Diagnostic processes that factor experimental conditions
US9892230B2 (en) 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma
CN108485940B (zh) 2012-04-12 2022-01-28 维里纳塔健康公司 拷贝数变异的检测和分类
US9920361B2 (en) 2012-05-21 2018-03-20 Sequenom, Inc. Methods and compositions for analyzing nucleic acid
US11261494B2 (en) 2012-06-21 2022-03-01 The Chinese University Of Hong Kong Method of measuring a fractional concentration of tumor DNA
WO2014149134A2 (en) 2013-03-15 2014-09-25 Guardant Health Inc. Systems and methods to detect rare mutations and copy number variation
KR102393608B1 (ko) 2012-09-04 2022-05-03 가던트 헬쓰, 인크. 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법
WO2014052855A1 (en) 2012-09-27 2014-04-03 Population Diagnostics, Inc. Methods and compositions for screening and treating developmental disorders
CN105722994B (zh) * 2013-06-17 2020-12-18 维里纳塔健康公司 用于确定性染色体中的拷贝数变异的方法
US10622094B2 (en) 2013-06-21 2020-04-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10741269B2 (en) 2013-10-21 2020-08-11 Verinata Health, Inc. Method for improving the sensitivity of detection in determining copy number variations
US10415083B2 (en) 2013-10-28 2019-09-17 The Translational Genomics Research Institute Long insert-based whole genome sequencing
CA2970501C (en) 2014-12-12 2020-09-15 Verinata Health, Inc. Using cell-free dna fragment size to determine copy number variations
US10364467B2 (en) 2015-01-13 2019-07-30 The Chinese University Of Hong Kong Using size and number aberrations in plasma DNA for detecting cancer
WO2016134452A1 (en) 2015-02-26 2016-09-01 Titan Medical Inc. Method and apparatus for providing access for a surgical procedure
US10095831B2 (en) 2016-02-03 2018-10-09 Verinata Health, Inc. Using cell-free DNA fragment size to determine copy number variations
US11342047B2 (en) 2017-04-21 2022-05-24 Illumina, Inc. Using cell-free DNA fragment size to detect tumor-associated variant

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110319272A1 (en) * 2008-09-20 2011-12-29 The Board Of Trustees Of The Leland Stanford Junior University Noninvasive Diagnosis of Fetal Aneuploidy by Sequencing
US20140180594A1 (en) * 2012-12-20 2014-06-26 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2015184404A1 (en) * 2014-05-30 2015-12-03 Verinata Health, Inc. Detecting fetal sub-chromosomal aneuploidies and copy number variations

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI708848B (zh) * 2016-02-03 2020-11-01 美商維利納塔健康公司 使用不含細胞之dna片段大小以測定複製數變異之方法
US11430541B2 (en) 2016-02-03 2022-08-30 Verinata Health, Inc. Using cell-free DNA fragment size to determine copy number variations
US11342047B2 (en) 2017-04-21 2022-05-24 Illumina, Inc. Using cell-free DNA fragment size to detect tumor-associated variant

Also Published As

Publication number Publication date
KR20190132558A (ko) 2019-11-27
KR102049191B1 (ko) 2019-11-26
EA202090277A3 (ru) 2020-10-30
KR20180123020A (ko) 2018-11-14
US20170220735A1 (en) 2017-08-03
EP3517626C0 (en) 2024-02-07
ZA201805753B (en) 2019-04-24
AU2019203491B2 (en) 2021-05-27
AU2019203491A1 (en) 2019-06-06
BR112018015913A2 (pt) 2019-01-22
TW201805429A (zh) 2018-02-16
EA202090277A2 (ru) 2020-07-31
EP3517626B1 (en) 2024-02-07
CA3013572A1 (en) 2017-08-10
AR107192A1 (es) 2018-03-28
NZ752319A (en) 2021-01-29
CA3013572C (en) 2023-01-17
IL272710B (en) 2021-05-31
AU2016391100B2 (en) 2019-03-07
WO2017136059A1 (en) 2017-08-10
DK3202915T3 (da) 2019-06-24
EA201891580A1 (ru) 2019-01-31
AU2016391100A1 (en) 2018-09-27
MA44822A (fr) 2017-08-09
BR112018015913B1 (pt) 2019-12-03
CY1121741T1 (el) 2020-07-31
EP3517626A1 (en) 2019-07-31
EA035148B1 (ru) 2020-05-06
IL272710A (en) 2020-04-30
US10095831B2 (en) 2018-10-09
US20230044849A1 (en) 2023-02-09
SG11201806595UA (en) 2018-09-27
TWI708848B (zh) 2020-11-01
EP3202915B1 (en) 2019-03-20
TW201930598A (zh) 2019-08-01
CN113096726A (zh) 2021-07-09
MA52131A (fr) 2019-07-31
CN108884491B (zh) 2021-04-27
IL260938B (en) 2020-03-31
US11430541B2 (en) 2022-08-30
UA126898C2 (uk) 2023-02-22
CN108884491A (zh) 2018-11-23
KR102184868B1 (ko) 2020-12-02
US20190065676A1 (en) 2019-02-28
NZ745637A (en) 2019-05-31
EP3202915A1 (en) 2017-08-09

Similar Documents

Publication Publication Date Title
TWI661049B (zh) 使用不含細胞之dna片段大小以測定複製數變異之方法
US20210371907A1 (en) Using cell-free dna fragment size to determine copy number variations
JP6659672B2 (ja) 胎児染色体部分異数性およびコピー数変動の検出
CN113096726B (zh) 使用无细胞dna片段尺寸以确定拷贝数变异
EA045158B1 (ru) Применение размера фрагмента бесклеточной днк для определения вариаций числа копий
NZ752319B2 (en) Using cell-free dna fragment size to determine copy number variations