交叉參考本申請案主張於2016年10月24日提出申請之美國臨時專利申請案第62/411,929號、於2017年1月25日提出申請之美國臨時專利申請案第62/450,541號及於2017年5月16日提出申請之美國臨時專利申請案第62/507,154號的權益,該等申請案各自係全文以引用方式併入本文中。本申請案與於2016年7月25日提出申請之美國申請案第15/218,497號相關,該美國申請案第15/218,497號主張來自於2015年7月23日提出申請之美國臨時申請案第62/196,250號及於2016年2月12日提出申請之第62/294,948號以及來自於2016年2月14日提出申請之PCT申請案第PCT/CN2016/073753號的優先權,該等申請案各自係全文以引用方式併入本文中。
定義如本發明中所用之術語「真陽性」 (TP)係指個體患有病況。「真陽性」係指個體患有腫瘤、癌症、癌前病況(例如,癌前病灶)、局部或轉移性癌症或非惡性疾病。「真陽性」係指個體患有病況,且藉由本發明之分析或方法鑑別為患有該病況。
如本發明中所用之術語「真陰性」 (TN)係指個體未患病況或未患可檢測到之病況。真陰性係指個體未患疾病或可檢測到之疾病,例如腫瘤、癌症、癌前病況(例如,癌前病灶)、局部或轉移性癌症、非惡性疾病,或個體原本係健康的。真陰性係指個體未患病況或未患可檢測到之病況,或藉由本發明之分析或方法鑑別為未患該病況。
如本發明中所用之術語「偽陽性」 (FP)係指個體未患病況。偽陽性係指個體未患腫瘤、癌症、癌前病況(例如,癌前病灶)、局部或轉移性癌症、非惡性疾病,或原本係健康的。術語偽陽性係指個體未患病況,但藉由本發明之分析或方法鑑別為患有該病況。
如本發明中所用之術語「偽陰性」 (FN)係指個體患有病況。偽陰性係指個體患有腫瘤、癌症、癌前病況(例如,癌前病灶)、局部或轉移性癌症或非惡性疾病。術語偽陰性係指個體患有病況,但藉由本發明之分析或方法鑑別為未患該病況。
如本發明中所用之術語「靈敏度」或「真陽性率」 (TPR)係指真陽性之數量除以真陽性及偽陰性數量之和。靈敏度可表徵分析或方法正確地鑑別出真正患有病況之群體之比例的能力。舉例而言,靈敏度可表徵方法正確地鑑別出患有癌症之群體內之個體數量的能力。在另一實例中,靈敏度可表徵方法正確地鑑別出一或多種指示癌症之標記物之能力。
如本發明中所用之術語「特異性」或「真陰性率」 (TNR)係指真陰性之數量除以真陰性及偽陽性數量之和。特異性可表徵分析或方法正確地鑑別出真正未患病況之群體之比例的能力。舉例而言,特異性可表徵方法正確地鑑別出未患癌症之群體內之個體數量的能力。在另一實例中,特異性可表徵方法正確地鑑別出一或多種指示癌症之標記物之能力。
如本發明中所用之術語「ROC」或「ROC曲線」係指接受者操作特徵曲線。ROC曲線可為二元分類系統之性能之圖形表示。對於任一給定方法,ROC曲線可藉由繪製不同臨限值設定下之靈敏度對特異性來產生。用於檢測個體中之腫瘤存在之方法之靈敏度及特異性可在個體之血漿樣品中之不同腫瘤源DNA濃度下測定。此外,提供三個參數(例如,靈敏度、特異性及臨限值設定)中之至少一者,ROC曲線可測定任一未知參數之值或預期值。未知參數可使用擬合至ROC曲線之曲線來測定。舉例而言,提供樣品中腫瘤源DNA之濃度,可測定測試之預期靈敏度及/或特異性。術語「AUC」或「ROC-AUC」係指接受者操作特徵曲線下之面積。此度量可提供方法之診斷效用之量度,將該方法之靈敏度及特異性二者考慮在內。
A ROC-AUC可介於0.5至1.0範圍內,其中靠近0.5之值係指示方法具有有限的診斷效用(例如,較低靈敏度及/或特異性)且靠近1.0之值指示該方法具有較大診斷效用(例如,較高靈敏度及/或特異性)。例如,參見Pepe等人,「Limitations of the Odds Ratio in Gauging the Performance of a
Diagnostic, Prognostic, or Screening Marker」, Am. J. Epidemiol 2004, 159 (9): 882-890,其全文以引用方式併入本文中。用於表徵診斷效用之其他方法包括使用概率函數、勝算比、資訊理論、預測值、校正(包括擬合優度)及重分類量測。方法之實例概述於例如Cook, 「Use and Misuse of the Receiver Operating Characteristic Curve in Risk Prediction」,
Circulation2007, 115: 928-935中,其全文以引用方式併入本文中。
「陰性預測值」或「NPV」可藉由TN/(TN+FN)或所有陰性測試結果之真陰性分數來計算。陰性預測值可固有地受群體中之病況盛行率及意欲測試之群體之測試前機率的影響。「陽性預測值」或「PPV」可藉由TP/(TP+FP)或所有陽性測試結果之真陽性分數來計算。PPV可固有地受群體中之病況盛行率及意欲測試之群體之測試前機率的影響。例如,參見O'Marcaigh A S, Jacobson R M, 「Estimating The
Predictive
Value
Of A
Diagnostic
Test, How To Prevent Misleading Or Confusing Results」, Clin. Ped. 1993, 32(8): 485-491,其全文以引用方式併入本文中。
「局部極大值」係指與相鄰位置相比獲得所關注參數之最大值之基因體位置(例如,核苷酸),或係指在此一基因體位置之所關注參數值。作為實例,相鄰位置可介於50 bp至2000 bp範圍內。所關注參數之實例包括(但不限於)末端落在基因體位置上之片段之數量、與該位置重疊之片段之數量或大於臨限值大小之覆蓋該基因體位置之片段之比例。許多局部極大值可出現在所關注參數具有週期性結構時。全域極大值係特定局部極大值。類似地,「局部極小值」係指與相鄰位置相比獲得所關注參數之最小值之基因體位置,或係指在此一基因體位置之所關注參數值。
如本文所用之術語「突變」係指一或多個細胞之遺傳物質之可檢測到之變化。在具體實例中,一或多個突變可發現於癌細胞中且可鑑別該等癌細胞(例如,驅動及乘客突變)。突變可自親代細胞傳遞至子代細胞。熟習此項技術者將瞭解,親代細胞中之遺傳突變(例如,驅動突變)可引起子代細胞中之其他不同突變(例如,乘客突變)。突變通常發生在核酸中。在具體實例中,突變可為一或多個去氧核糖核酸或其片段之可檢測到之變化。突變通常係指添加、缺失、取代、倒位或轉置至核酸中之新位置之核苷酸。突變可為自發突變或實驗誘導之突變。
特定組織之序列中之突變係「組織特異性等位基因」之實例。舉例而言,腫瘤可具有在正常細胞中不會出現之基因座處產生等位基因之突變。「組織特異性等位基因」之另一實例係在胎兒組織中出現、但不在母體組織中出現之胎兒特異性等位基因。
術語「對照」、「對照樣品」、「參照」、「參照樣品」、「正常」及「正常樣品」可用於闡述來自未患特定病況或原本健康之個體之樣品。在實例中,可對患有腫瘤之個體實施如本文所揭示之方法,其中參照樣品係取自個體之健康組織之樣品。參照樣品可自個體或自數據庫獲得。參照可為例如用於映射自對個體之樣品定序獲得之序列讀段之參照基因體。參照基因體係指可與生物樣品及組成性樣品之序列讀段對準並比較之單倍體或二倍體基因體。組成性樣品之實例可為自個體獲得之白血球之DNA。對於單倍體基因體,在每一基因座處僅可存在一個核苷酸。對於二倍體基因體,可鑑別出異型接合基因座;每一異型接合基因座可具有兩個等位基因,其中任一等位基因可容許匹配物與該基因座對準。
如本文所用之片語「健康的」係指具有良好健康狀況之個體。健康個體可展示不存在任一惡性或非惡性疾病。「健康個體」可患有與所分析之病況無關之其他疾病或病況,其通常可不視為「健康的」。
術語「樣品」、「生物樣品」或「患者樣品」可包括源自活或死個體之任何組織或材料。生物樣品可為無細胞樣品。生物樣品可包含核酸(例如,DNA或RNA)或其片段。術語「核酸」係指去氧核糖核酸(DNA)、核糖核酸(RNA)或任何雜合體或其片段。樣品中之核酸可為無細胞核酸。樣品可為液體樣品或固體樣品(例如,細胞或組織樣品)。生物樣品可為體液,例如血液、血漿、血清、尿液、陰道液、來自(例如,睪丸之)陰囊積液、陰道洗液、胸腔積液、腹水、腦脊髓液、唾液、汗液、淚液、痰、支氣管肺泡灌洗液、乳頭溢液、來自身體不同部分(例如,甲狀腺、乳房)之吸液等。樣品可為糞便樣品。在各個實施例中,已富集無細胞DNA之生物樣品(例如,經由離心方案獲得之血漿樣品)中之大部分DNA可為無細胞的(例如,大於50%、60%、70%、80%、90%、95%或99%之DNA可為無細胞的)。生物樣品可經處理以在物理上破壞組織或細胞結構(例如,離心及/或細胞溶解),由此使細胞內組分釋放至溶液中,該溶液可進一步含有可用於製備分析用樣品之酶、緩衝劑、鹽、清潔劑及諸如此類。
如本文所用之術語「片段」 (例如,DNA片段)係指多核苷酸或多肽序列之包含至少3個連續核苷酸之部分。核酸片段可保留親代多核苷酸之生物活性及/或一些特徵。在實例中,鼻咽癌細胞可將艾司坦-巴爾病毒(EBV) DNA之片段沈積至個體(例如,患者)之血流中。該等片段可包含一或多個BamHI-W序列片段,其可用於檢測血漿中腫瘤源DNA之含量。BamHI-W序列片段對應於可使用Bam-HI限制酶識別及/或消化之序列。BamHI-W序列係指序列5’-GGATCC-3’。
術語「癌症」或「腫瘤」係指異常組織團塊,其中團塊之生長超過正常組織之生長且與其不協調。癌症或腫瘤可定義為「良性」或「惡性」,此端視以下特徵而定:細胞分化(包括形態及功能)之程度、生長速率、局部侵入及轉移。「良性」腫瘤可充分分化,具有特徵性慢於惡性腫瘤之生長並保持定位至起始位點。另外,在一些情形下,良性腫瘤不具浸潤、侵入或轉移至遠端位點之能力。「惡性」腫瘤可為分化不良的(退行發育),具有藉由進行性浸潤、侵入並破壞周圍組織實現之特徵性快速生長。此外,惡性腫瘤可具有轉移至遠端位點之能力。
術語「癌症等級」係指癌症是否存在(即,存在或不存在)、癌症時期、腫瘤大小、存在或不存在轉移、身體之總腫瘤負荷及/或癌症嚴重程度之其他量度(例如,癌症復發)。癌症等級可為數字或其他標記,例如符號、字母及色彩。該等級可為零。癌症等級亦可包括與突變或突變數量相關之癌前(premalignant)或癌前(precancerous)病況(狀態)。癌症等級可以多種方式使用。舉例而言,篩選可檢查癌症是否存在於先前未知患有癌症之某人中。評價可研究經診斷患有癌症之某人以監測癌症隨時間之進展,研究療法之有效性或確定預後。在一個實施例中,預後可表示為患者死於癌症之機會或癌症在具體持續時間或時間後進展之機會或癌症轉移之機會。檢測可包含「篩選」或可包含檢查具有示意性癌症特徵(例如,症狀或其他陽性測試)之某人是否患有癌症。「病理學等級」係指與病原體相關之病理學等級,其中該等級可如上文針對癌症所述。當癌症與病原體相關時,癌症等級可為病理學等級之類型。
術語「分析」係指用於測定物質(例如,核酸、蛋白質、細胞、組織或器官)之性質之技術。分析(例如,第一分析或第二分析)可包含用於測定樣品中核酸之拷貝數變化、樣品中核酸之甲基化狀況、樣品中核酸之片段大小分佈、樣品中核酸之突變狀況或樣品中核酸之片段化模式的技術。可使用熟習此項技術者已知之任何分析來檢測本文所提及核酸之任一性質。核酸之性質可包括序列、基因體身份、拷貝數、一或多個核苷酸位置之甲基化狀態、核酸大小、在核酸中在一或多個核苷酸位置存在或不存在突變及核酸之片段化模式(例如,核酸片段化之核苷酸位置)。分析或方法可具有特定靈敏度及/或特異性,且可使用ROC-AUC統計學量測其作為診斷工具之相對有用性。
「癌症相關變化」或「癌症特異性變化」可包括癌症源突變(包括單核苷酸突變、核苷酸之缺失或插入、遺傳或染色體區段之缺失、易位、倒位)、基因擴增、病毒相關序列(例如,病毒游離基因體、病毒插入物、感染至細胞中且隨後由細胞釋放之病毒DNA及循環或無細胞病毒DNA)、異常甲基化概況或腫瘤特異性甲基化特徵、異常無細胞核酸(例如,DNA)大小概況、異常組織蛋白修飾標記及其他後生修飾以及癌症相關或癌症特異性無細胞DNA片段之末端之位置。
如本文所用之術語「隨機定序」係指其中經定序核酸片段在定序程序之前尚未經特異性鑑別或預測定之定序。靶向特定基因座之序列特異性引子並非必需的。在一些實施例中,將接頭添加至核酸片段之末端,且將用於定序之引子附接(例如,雜交)至接頭。因此,可使用例如附接至同一通用接頭之同一引子對任一片段進行定序,且因此定序可為隨機的。大規模平行定序可包括使用隨機定序。
「序列讀段」 (或「定序讀段」)係指對應於核酸分子(例如,核苷酸串)之序列資訊。舉例而言,序列讀段可對應於來自核酸片段之一部分之核苷酸串(例如,約20至約150),可對應於核酸片段之一或兩個末端之核苷酸串,或可對應於整個核酸片段之核苷酸。序列讀段可以多種方式獲得,例如使用定序技術或使用探針(例如,在雜交陣列中或捕獲探針)或擴增技術(例如聚合酶鏈反應(PCR)或使用單一引子之線性擴增或等溫擴增)。
術語「定序深度」係指基因座經與該基因座對準之序列讀段覆蓋之次數。基因座可小至核苷酸或大至染色體臂或大至整個基因體。定序深度可表示為「Y×」,例如50×、100×等,其中「Y」係指基因座經序列讀段覆蓋之次數。定序深度亦可適用於多個基因座或全基因體,在該情形下Y係指分別對基因座或單倍體基因體或全基因體定序之平均次數。當引用平均深度時,包括在數據集中之不同基因座之實際深度可橫跨一系列值。超深度定序係指基因座處之定序深度為至少100×。
術語「定序寬度」係指已分析特定參照基因體(例如,人類參照基因體)或基因體之一部分的分數。該分數之分母可為重複經遮蔽之基因體,且因此100%可對應於所有參照基因體減去經遮蔽部分。重複經遮蔽之基因體係指其中序列重複經遮蔽之基因體(例如,序列讀段對準基因體之未遮蔽部分)。可遮蔽基因體之任何部分,且因此可集中在參照基因體之任一特定部分。廣泛定序係指定序及分析至少0.1%之基因體。
「甲基化體(methylome)」可為基因體中之複數個位點或基因座之DNA甲基化量之量度。甲基化體可對應於所有基因體、大部分基因體或相對較小部分之基因體。「腫瘤甲基化體」可為個體(例如,人類)之腫瘤之甲基化體。腫瘤甲基化體可使用腫瘤組織或血漿中之無細胞腫瘤DNA來測定。腫瘤甲基化體可為所關注甲基化體之一個實例。所關注甲基化體可為可將核酸(例如,DNA)貢獻至體液中之器官之甲基化體(例如,腦細胞、骨、肺、心臟、肌肉、腎等之甲基化體)。器官可為移植器官。
「血漿甲基化體」可為自動物(例如,人類)之血漿或血清測定之甲基化體。血漿甲基化體可為無細胞甲基化體之實例,此乃因血漿及血清可包括無細胞DNA。血漿甲基化體可為混合甲基化體之實例,此乃因其可為腫瘤/患者甲基化體之混合物。「細胞甲基化體」可為自個體(例如,患者)之細胞(例如,血球或腫瘤細胞)測定之甲基化體。血球之甲基化體可稱為血球甲基化體(或血液甲基化體)。
每一基因體位點(例如,CpG位點)之「甲基化指數」係指在覆蓋該位點之讀段總數內在該位點顯示甲基化之序列讀段之比例。區域之「甲基化密度」可為在區域內之位點顯示甲基化之讀段數除以覆蓋該區域中之位點之讀段總數。該等位點可具有特異性特徵(例如,位點可為CpG位點)。區域之「CpG甲基化密度」可為顯示CpG甲基化之讀段數除以覆蓋該區域中之CpG位點(例如,特定CpG位點、CpG島內之CpG位點或較大區域)之讀段總數。舉例而言,人類基因體中每一100 kb倉之甲基化密度可根據CpG位點之未轉化胞嘧啶(其可對應於甲基化胞嘧啶)之總數測定作為由映射至100 kb區域之序列讀段覆蓋之所有CpG位點之比例。此分析亦可針對其他倉大小(例如,50 kb或1 Mb等)來實施。區域可為整個基因體或染色體或染色體之一部分(例如,染色體臂)。當區域僅包括CpG位點時,該CpG位點之甲基化指數可與該區域之甲基化密度相同。「甲基化胞嘧啶之比例」係指在該區域中在所分析胞嘧啶殘基之總數(即包括CpG背景外之胞嘧啶)內顯示甲基化(例如在亞硫酸氫鹽轉化後未經轉化)之胞嘧啶位點「C'」之數量。甲基化指數、甲基化密度及甲基化胞嘧啶之比例係「甲基化程度」之實例。
「甲基化概況」 (亦稱為甲基化狀況)可包括與區域之DNA甲基化相關之資訊。與DNA甲基化相關之資訊可包括CpG位點之甲基化指數、區域中CpG位點之甲基化密度、CpG位點在鄰接區域內之分佈、含有一個以上CpG位點之區域內每一個別CpG位點之甲基化模式或等級及非CpG甲基化。大部分基因體之甲基化概況可視為等效於甲基化體。哺乳動物基因體之「DNA甲基化」係指將甲基添加至CpG二核苷酸中之胞嘧啶雜環之5位(即,以產生5-甲基胞嘧啶) 。胞嘧啶之甲基化可發生在其他序列背景(例如5’-CHG-3’及5’-CHH-3’)下之胞嘧啶中,其中H係腺嘌呤、胞嘧啶或胸腺嘧啶。胞嘧啶甲基化亦可呈5-羥基甲基胞嘧啶形式。DNA之甲基化可包括非胞嘧啶核苷酸(例如N6-甲基腺嘌呤)之甲基化。
術語「大小概況」及「大小分佈」係指生物樣品中DNA片段之大小。大小概況可為直方圖,其提供多個大小之DNA片段之量的分佈。多個統計學參數(亦稱為大小參數或合理參數)可區分一種大小概況與另一種大小概況。一個參數可為特定大小或大小範圍之DNA片段相對於所有DNA片段或相對於另一大小或範圍之DNA片段之百分比。
術語「約」或「大約」可意指在如熟習此項技術者所測定之特定值的可接受誤差範圍內,其部分地取決於量測或測定該值方式,即量測系統之限制。舉例而言,根據業內之實踐,「約」可意指在1個或大於1個標準偏差內。「約」可意指給定值±20%、±10%、±5%或±1%之範圍。術語「約」或「大約」可意指在值之數量級內、在5倍內或在2倍內。當在本申請案及申請專利範圍中闡述特定值時,除非另有說明,否則應假設術語「約」意指在特定值之可接受誤差範圍內。術語「約」可具有如熟習此項技術者通常理解之含義。術語「約」係指±10%。術語「約」係指±5%。
「資訊性癌症DNA片段」或「資訊性DNA片段」可對應於帶有或攜帶癌症相關或癌症特異性變化或突變中之任一者或多者或特定末端基序(例如,具有特定序列之DNA片段之每一末端之多個核苷酸)的DNA片段。
「端點位置」或「末端位置」 (或僅稱「末端」)係指無細胞DNA分子(例如,血漿DNA分子)之最外側鹼基(即在極端)之基因體坐標或基因體身份或核苷酸身份。末端位置可對應於DNA分子之任一個末端。以此方式,若一個末端係指DNA分子之起點及末端,則二者可對應於端點位置。在一些情形下,一個末端位置係可藉由分析型方法檢測或測定之無細胞DNA分子之一個極端上之最外側鹼基之基因體坐標或核苷酸身份,該分析型方法係例如大規模平行定序或下一代定序、單分子定序、雙鏈或單鏈DNA定序文庫製備方案、聚合酶鏈反應(PCR)或微陣列。在一些情形下,該等活體外技術可改變無細胞DNA分子之真正活體內物理末端。因此,每一可檢測末端可代表生物真末端或該末端係一或多個自分子之原始末端向內之核苷酸或一或多個自其延伸之核苷酸(例如,藉由Klenow片段使雙鏈DNA分子之5’鈍化及3’填補非鈍端之懸突)。末端位置之基因體身份或基因體坐標可源自將序列讀段對準人類參照基因體(例如,hg19)之結果。其可源自表示人類基因體之原始坐標之指示物或代碼之目錄。其係指藉由(但不限於)靶特異性探針、微定序、DNA擴增讀取之無細胞DNA分子上之位置或核苷酸身份。術語「基因體位置」係指多核苷酸(例如,基因、質體、核酸片段、病毒DNA片段)中之核苷酸位置。術語「基因體位置」並不限於基因體(例如,配子或微生物中或多細胞生物體之每一細胞中之染色體之單倍體集合)內之核苷酸位置。
「優先端點」 (或「反複出現的端點位置」)係指在具有生理或病理(疾病)狀態(例如,癌症)之生物樣品中比不具此一狀態之生物樣品或比同一病理或生理狀態之不同時間點或時期(例如治療之前或之後)更具高代表性或普遍(例如,如藉由比率所量測)之末端。相對於其他狀態,在相關生理或病理狀態下檢測到之優先端點可具有增加的概率或機率。可比較例如患及未患癌症之患者中之病理狀態與非病理狀態之間增加的機率,且量化為概率比或相對機率。概率比可基於在測試樣品中檢測到至少臨限數量之優先端點之機率或基於與未患此一病況之患者相比在患有此一病況之患者中檢測到優先端點的機率來確定。概率比之臨限值之實例包括(但不限於) 1.1、1.2、1.3、1.4、1.5、1.6、1.8、2.0、2.5、3.0、3.5、4.0、4.5、5、6、8、10、20、40、60、80及100。該等概率比可藉由比較具及不具相關狀態之樣品之相對豐度值來量測。由於在相關生理或疾病狀態下檢測到優先端點之機率可能較高,故該等優先端點位置可見於一個以上之具有該相同生理或疾病狀態之個體中。利用增加的機率,可檢測到一個以上之無細胞DNA分子末端落在同一優先端點位置上,甚至在所分析無細胞DNA分子之數量遠小於基因體大小時亦如此。因此,優先或反複出現的端點位置亦可稱為「頻繁端點位置」。定量臨限值通常需要在同一樣品或同一樣品等份內將末端至少檢測多次(例如,3次、4次、5次、6次、7次、8次、9次、10次、15次、20次或50次)以視為優先端點。相關生理狀態可包括個人係健康、無疾病或無所關注疾病時之狀態。類似地,「優先端點窗口」係對應於一組連續優先端點位置。
「相對豐度」係指具有特定特徵(例如,指定長度、末端落在一或多個指定坐標/端點位置或對準基因體之特定區域)之核酸片段的第一量對具有特定特徵(例如,指定長度、末端落在一或多個指定坐標/端點位置或對準基因體之特定區域)之核酸片段的第二量之比率。在一實例中,相對豐度係指末端落在第一組基因體位置之DNA片段的數量對末端落在第二組基因體位置之DNA片段的數量之比率。在一些態樣中,「相對豐度」可為一類分離值,其建立起末端落在一個基因體位置窗口內之無細胞DNA分子的量(一個值)與末端落在另一基因體位置窗口內之無細胞DNA分子的量(另一值)的相關性。兩個窗口可重疊,但可具有不同大小。在其他實施方案中,兩個窗口可不重疊。此外,該等窗口可具有一個核苷酸寬度,且因此等效於一個基因體位置。
末端落在位置上之核酸分子(例如,DNA或RNA)之「比率」係指核酸分子末端落在該位置上之頻率。該比率係基於正規化成所分析核酸分子數之末端落在該位置上之核酸分子數。該比率基於正規化成末端落在不同位置上之核酸分子數之末端落在該位置上之核酸分子數。該比率基於正規化成來自第二樣品(例如,參照樣品)之末端落在該位置上之核酸分子數的來自第一樣品之末端落在該位置上之核酸分子數。該比率基於正規化成自第二樣品(例如,參照樣品)之末端落在第二組位置上之核酸分子數的來自第一樣品之末端落在第一組位置(例如,基因體位置)上之核酸分子數。因此,該比率對應於末端落在一位置上之核酸分子數之頻率,且在一些情形下並不與具有末端落在該位置上之核酸分子數之局部極大值之位置的週期性相關。
「校正樣品」對應於生物樣品,其組織特異性核酸分數係經由校正方法例如使用特異性針對該組織之等位基因獲知或測定。作為另一實例,校正樣品可對應於可自其確定優先端點位置之樣品。校正樣品可用於兩個目的。
「校正數據點」可包括「校正值」及所關注核酸(即,特定組織類型之DNA)之經量測或已知比例分佈。校正值可為如針對校正樣品測定之相對豐度,由此可知組織類型之比例分佈。校正數據點可以多種方式定義為例如離散點或校正函數(亦稱為校正曲線或校正表面)。校正函數可源自校正數據點之其他數學轉變。
術語「分類」係指與樣品之特定性質相關之任何數量或其他特徵。舉例而言,符號「+」(或詞語「陽性」)表示樣品分類為具有缺失或擴增。在另一實例中,術語「分類」係指個體及/或樣品中腫瘤組織之量、個體及/或樣品中腫瘤之大小、個體中腫瘤之時期、個體及/或樣品中之腫瘤負荷及個體中腫瘤轉移之存在。分類可為二元的(例如,陽性或陰性)或具有更多個分類等級(例如,標度1至10或0至1)。術語「截止值」及「臨限值」係指用於操作中之預先測定數值。舉例而言,截止大小係指排除高於其之片段之大小。臨限值可為高於或低於其適用特定分類之值。該等術語中之任一者可用於該等情況中之任一者中。
「組織」可對應於一起分組為功能單元之一組細胞。在單一組織中可發現一種以上之細胞類型。不同類型之組織可由不同類型之細胞(例如,肝細胞、肺泡細胞或血球)組成,但亦可對應於來自不同生物體(母親對胎兒)之組織或對應於健康細胞對腫瘤細胞。術語「組織」通常係指在人類體內發現之任一組細胞(例如,心臟組織、肺組織、腎組織、鼻咽組織、口咽組織)。在一些態樣中,術語「組織」或「組織類型」可用於指無細胞核酸所起源之組織。在一實例中,病毒核酸片段可源自血液組織。在另一實例中,病毒核酸片段可源自腫瘤組織。
本文所用之術語係出於僅闡述特定情形之目的且不欲進行限制。如本文所用,除非上下文另有明確指示,否則單數形式「一(a、an)」及「該」意欲亦包括複數形式。此外,就術語「包括(including)」、「包括(includes)」、「具有(having)」、「具有(has)」、「具有(with)」或其變體用於詳細描述及/或申請專利範圍中而言,該等術語意欲以類似於術語「包含」之方式具有包涵性。
下文參考用於說明之實例應用來闡述若干態樣。應理解,陳述眾多具體細節、關係及方法以提供對本文所述特徵之完全理解。然而,熟習相關技術者將容易地認識到,可在不使用該等具體細節中之一或多者或使用其他方法之情況下來實踐本文所述之特徵。本文所述之特徵並不受限於動作或事件之說明順序,此乃因某些動作可以不同順序發生及/或與其他動作或事件同時發生。此外,根據本文所述特徵實施方法無需所有說明動作或事件。
概述循環無細胞DNA之分析可為篩選癌症、進行癌症診斷、癌症之預後確定及提供癌症治療之指導的非侵入性並易於可及之方式。然而,無細胞腫瘤源DNA可難以檢測,此乃因其可具有血液中之低濃度。高靈敏度測試在其結果為陰性時可用於評價疾病,此乃因誤診患有該疾病之彼等之機率相對較低。然而,具有高靈敏度之測試之陽性結果不必可用於裁定疾病,此乃因靈敏度並不考慮偽陽性,其中可存在許多偽陽性。類似地,高特異性測試在其結果為陽性時可用於評價疾病,此乃因誤診未患該疾病之彼等之機率較低。然而,分析之特異性增加可引起偽陰性增加(例如,將實際上患有疾病之個體不正確地鑑別為未患該疾病)。
本發明提供增加陽性預測值(例如,精密度)以針對病況(例如,癌症)篩選個體並減小偽陽性率之方法。陽性預測值對應於實際上對病況呈陽性之個體(真陽性)對鑑別為患有該病況之個體(真陽性 + 偽陽性)的比率。具體而言,本發明之方法包括實施具有高靈敏度及低陽性預測值之第一分析,然後對在第一分析中呈陽性之彼等樣品實施第二高特異性分析,藉此增加總體篩選之陽性預測值。舉例而言,第一分析之陽性預測值(PPV)可小於4%,但方法之總PPV在實施第二分析後可增加至11% (例如,2倍與3倍之間)。增加癌症篩選之陽性預測值可幫助正確地鑑別出患有癌症之個體,且可減少經受其他昂貴及/或侵入性分析之個體群。
在一些實施例中,第一分析可包含可相對廉價之分析,例如基於定量聚合酶鏈反應(qPCR)之分析,以檢測來自個體之生物樣品(例如血漿)中無細胞腫瘤源核酸(例如DNA,例如艾司坦-巴爾病毒(EBV) DNA)之存在及/或量及/或拷貝數。在一些實施例中,第二分析可包含大規模平行定序分析(或基於下一代定序(NGS)之分析),例如以分析來自個體之生物樣品(例如,血漿)之無細胞腫瘤源核酸(例如,DNA)之EBV核酸量(例如,與EBV參照基因體對準之序列讀段之百分比)及/或EBV核酸片段的大小概況(例如,給定大小範圍(例如,80 bp-110 bp)內之EBV核酸片段之比例對給定大小範圍之體染色體核酸分子之比例的大小比率)。用於第一分析及第二分析中之樣品可為相同樣品(例如,血漿樣品);在一些情形下,將樣品之一部分存庫,例如直至已知第一分析之結果,且然後將樣品之存庫部分用於第二分析。以下揭示內容提供針對來自生物樣品(例如,血漿)之無細胞核酸(例如,DNA)之分析之方法及類型之實例,其可用作第一分析及/或第二分析(及/或第三、第四、第五等分析),以評價(例如,篩選、檢測、診斷或預後)癌症。圖22圖解說明本文所提供方法之實施例。
本發明之方法概言之係關於檢測個體之癌症或腫瘤。個體可為任一人類患者,例如癌症患者、具有癌症風險之患者或具有家族或個人癌症病史之患者。在一些情形下,個體處於癌症治療之特定時期。在一些情形下,個體可患有或懷疑患有癌症。在一些情形下,個體係無癌症症狀的。在一些情形下,未知個體是否患有癌症。
個體當在本文描述中相關時,個體可患有任一類型之癌症或腫瘤。在實例中,個體可患有鼻咽癌或鼻腔癌症。在另一實例中,個體可患有口咽癌或口腔癌症。癌症之非限制性實例可包括腎上腺癌、肛門癌、基底細胞癌、膽管癌、膀胱癌、血液癌、骨癌、腦瘤、乳癌、支氣管癌症、心血管系統癌症、子宮頸癌、結腸癌、結腸直腸癌、消化系統癌症、內分泌系統癌症、子宮內膜癌、食管癌、眼癌、膽囊癌、胃腸腫瘤、肝細胞癌、腎癌、造血惡性病、喉癌症、白血病、肝癌、肺癌、淋巴瘤、黑色素瘤、間皮瘤、肌肉系統癌症、骨髓發育不良症候群(MDS)、骨髓瘤、鼻腔癌症、鼻咽癌、神經系統癌症、淋巴系統癌症、口腔癌、口咽癌、骨肉瘤、卵巢癌、胰臟癌、陰莖癌、垂體瘤、前列腺癌、直腸癌、腎盂癌、生殖系統癌症、呼吸系統癌症、肉瘤、唾液腺癌、骨骼系統癌症、皮膚癌、小腸癌、胃癌、睪丸癌、喉癌、胸腺癌、甲狀腺癌、腫瘤、泌尿系統癌症、子宮癌、陰道癌或外陰癌。術語「淋巴瘤」係指任一類型之淋巴瘤,包括B細胞淋巴瘤(例如,瀰漫性大B細胞淋巴瘤、濾泡性淋巴瘤、小淋巴球性淋巴瘤、外套細胞淋巴瘤、邊緣帶B細胞淋巴瘤、柏基特淋巴瘤(Burkitt lymphoma)、淋巴漿細胞淋巴瘤、毛細胞白血病或原發性中樞神經系統淋巴瘤)或T細胞淋巴瘤(例如,前體T淋巴母細胞性淋巴瘤或外周T細胞淋巴瘤)。術語「白血病」係指任一類型之白血病,包括急性白血病或慢性白血病。白血病之類型包括急性骨髓性白血病、慢性骨髓性白血病、急性淋巴球性白血病、急性未分化性白血病或慢性淋巴球性白血病。在一些情形下,癌症患者未患特定類型之癌症。舉例而言,在一些情況下,患者可患有不為乳癌之癌症。
癌症之實例包括產生實體腫瘤之癌症以及不產生實體腫瘤之癌症。此外,本文所提及癌症中之任一者可為原發性癌症(例如,在其第一次開始生長之身體部分後命名之癌症)或繼發性或轉移性癌症(例如,源自身體之另一部分之癌症)。
具有癌症風險之個體可因特定病況(例如癌前病況)而具有風險。癌前病況包括(但不限於)日光性角化症、巴瑞特食管症(Barrett's esophagus)、萎縮性胃炎、導管原位癌、先天性角化不良症、缺鐵性吞嚥困難、扁平苔蘚、口腔黏膜下纖維化、日光性彈性纖維變性、子宮頸發育不良、白斑病及黏膜紅斑)。在一些情形下,患者可因細胞或組織發育不良(例如,細胞數之異常變化、細胞形狀之異常變化、細胞大小之異常變化或細胞色素沉著之異常變化)而具有癌症風險。具有癌症風險之個體可為暴露於致癌劑之患者。該等患者可包括暴露於已知或可能致癌物(例如,乙醯乙醛、石棉或煙草產品)之患者或暴露於電離輻射(例如,γ輻射、β輻射、X輻射或紫外輻射)之患者。在一些情形下,具有癌症風險之患者因家族癌症病史而具有風險。
在一些實施例中,本發明之方法可檢測個體之腫瘤或癌症,其中該腫瘤或癌症具有疾病之地理模式。在實例中,個體可患有EBV相關癌症(例如,鼻咽癌),其可普遍存在於華南(例如,香港SAR)。在另一實例中,個體可患有HPV相關癌症(例如,口咽癌),其可普遍存在於美國及西歐。在另一實例中,個體可患有人類T親淋巴性病毒-1 (HTLV-1)相關癌症(例如,成人T細胞白血病/淋巴瘤),其可普遍存在於日本南部、加勒比海、中非、南美洲之部分及美國東南部之一些移民群中。
已顯示DNA及RNA病毒二者能夠引起人類之癌症。在一些實施例中,個體可患有由病毒(例如,致癌病毒)引起之癌症。在一些實施例中,個體可患有癌症,且該癌症可使用病毒DNA來檢測。在一些實施例中,個體可患有癌症,且該癌症可使用腫瘤源病毒DNA來檢測。在一些實施例中,個體可患有癌症,且該癌症可使用自個體獲得之無細胞樣品(例如,血液樣品、血漿樣品或血清樣品)中之腫瘤源病毒DNA或其片段來檢測。熟習此項技術者將瞭解,病毒可具有多種病毒株(例如,其遺傳組成可不同之相關病毒)。舉例而言,個體可患有因感染人類乳頭瘤病毒(HPV)引起(或與其相關)之口腔癌、口咽癌、子宮頸癌、陰莖癌、肛門癌、陰道癌或外陰癌,該人類乳頭瘤病毒可包括150種以上之病毒。感染艾司坦-巴爾病毒(EBV)亦可增加個體罹患鼻癌、鼻咽癌、淋巴瘤(例如,柏基特淋巴瘤或霍奇金氏淋巴瘤(Hodgkin lymphoma))或胃癌之風險。在另一實例中,感染B型肝炎病毒(HBV)或C型肝炎病毒可引起慢性感染,此可增加個體罹患肝癌之機會。可引起個體之癌症或與其相關之病毒之非限制性實例包括HPV、EBV、HBV、HCV、人類免疫缺失病毒(例如,與卡波西肉瘤(Kaposi sarcoma)、子宮頸癌、非霍奇金氏淋巴瘤、肛門癌、霍奇金氏病、肺癌、口腔癌、口咽癌、皮膚癌及肝癌相關)、人類皰疹病毒8 (例如,與卡波西肉瘤、血液癌症、原發性積液淋巴瘤及卡斯特雷曼氏病(Castleman disease)相關)、人類T親淋巴性病毒-1 (例如,與淋巴球性白血病、非霍奇金氏淋巴瘤及成人T細胞白血病/淋巴瘤相關)及默克細胞(Merkel cell)多瘤病毒(例如,與諸如默克細胞癌等皮膚癌相關)。在一些實施例中,非人類個體(例如,靈長類動物)可患有癌症,且該癌症可使用腫瘤源病毒DNA來檢測。舉例而言,感染猿猴病毒40 (SV40)可增加個體罹患間皮瘤、腦瘤、骨癌及淋巴瘤之風險。
樣品取自其或藉由本文所述之任一方法或組合物治療之個體可具有任一年齡且可為成人、嬰兒或兒童。在一些情形下,個體(例如,患者)為0歲、1歲、2歲、3歲、4歲、5歲、6歲、7歲、8歲、9歲、10歲、11歲、12歲、13歲、14歲、15歲、16歲、17歲、18歲、19歲、20歲、21歲、22歲、23歲、24歲、25歲、26歲、27歲、28歲、29歲、30歲、31歲、32歲、33歲、34歲、35歲、36歲、37歲、38歲、39歲、40歲、41歲、42歲、43歲、44歲、45歲、46歲、47歲、48歲、49歲、50歲、51歲、52歲、53歲、54歲、55歲、56歲、57歲、58歲、59歲、60歲、61歲、62歲、63歲、64歲、65歲、66歲、67歲、68歲、69歲、70歲、71歲、72歲、73歲、74歲、75歲、76歲、77歲、78歲、79歲、80歲、81歲、82歲、83歲、84歲、85歲、86歲、87歲、88歲、89歲、90歲、91歲、92歲、93歲、94歲、95歲、96歲、97歲、98歲或99歲或在其中之範圍內(例如,約2歲與約20歲之間、約20歲與約40歲之間或約40歲與約90歲之間)。可受益於本發明方法之特定類別之個體(例如,患者)係40歲以上之個體(例如,患者)。可受益於本發明方法之另一特定類別之個體(例如,患者)係小兒患者,其可具有較高慢性心臟症狀之風險。此外,樣品取自其或藉由本文所述之任一方法或組合物治療之個體(例如,患者)可為男性或女性。
亦可對非人類個體(例如實驗室或農場動物)或源自本文所揭示生物體之細胞樣品實施本文所揭示之任一方法。非人類個體之非限制性實例包括狗、山羊、天竺鼠、倉鼠、小鼠、豬、非人類靈長類動物(例如,大猩猩、猿、猩猩、狐猴或狒狒)、大鼠、綿羊、牛或斑馬魚。樣品可以侵入性(例如,手術方式)或非侵入性方式(例如,抽血、拭子或收集排出樣品)自個體獲得。
性能度量在一些實施例中,本發明之方法包含實施兩種分析或更多種分析(例如,第一分析及第二分析)。第二分析可經實施以改良第一分析之靈敏度、特異性、陰性預測值及/或陽性預測值或總體方法。在一些實施例中,本發明之方法包含實施具有針對指示腫瘤之標記物或標記物組之靈敏度及/或特異性的分析(例如,第一分析及/或第二分析)。分析之靈敏度係指真陽性之數量除以真陽性及偽陰性數量之和。靈敏度可表徵分析或方法正確地鑑別出真正患有病況之群體之比例的能力。在一些實施例中,分析可具有至少或至少約1%、2%、3%、4%、5%、6%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%之針對指示腫瘤之標記物組的靈敏度。
舉例而言,本發明之方法可包含第一分析,且該第一分析可具有至少約80%之針對指示腫瘤之第一組標記物之靈敏度。在一些實施例中,分析之靈敏度可在一定範圍內(例如,介於約75%與約85%之間、介於約65%與約95%之間、介於約60%與約100%之間、介於約10%與約25%之間、介於約90%與約100%之間)。
或者,第一分析可具有低於總體測試(例如,涉及使用一種以上之分析者)之靈敏度或PPV。
在一實例中,方法中之第一分析具有高達3%、4%、5%、6%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%之靈敏度。
在一些實施例中,本發明之方法可包含一或多個分析,且該方法可具有至少或至少約1%、2%、3%、4%、5%、6%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%之靈敏度(例如,用於檢測個體之腫瘤)。因此,兩種或更多種分析之合併靈敏度可產生上述靈敏度中之任一者。
舉例而言,用於篩選癌症之方法可涉及實施第一分析以篩選患有癌症之個體,即真陽性(TP)。篩選可捕獲多於原本期望之偽陽性(FP) (未患癌症之個體)。此可產生低陽性預測值(PPV)。然而,對來自TP及FP個體之相同或新樣品實施之具有較低偽陽性率之第二分析可增加總體測試之PPV。
分析之特異性係指真陰性之數量除以真陰性及偽陽性數量之和。特異性可表徵分析或方法正確地鑑別出真正未患病況之群體之比例的能力。
在一些實施例中,分析可具有至少或至少約1%、2%、3%、4%、5%、6%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%之針對指示腫瘤之標記物組之特異性。
舉例而言,本發明之方法可包含第一分析,且該第一分析可具有至少約80%之針對指示腫瘤之標記物或第一組標記物之特異性。在一些實施例中,分析之特異性可在一定範圍內(例如,介於約75%與約85%之間、介於約65%與約95%之間、介於約60%與約100%之間、介於約10%與約25%之間、介於約90%與約100%之間)。
在一實例中,方法中之第一分析具有高達4%、5%、6%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%之特異性。
在一些實施例中,本發明之方法可包含一或多個分析,且該方法可具有至少或至少約1%、2%、3%、4%、5%、6%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%之特異性(例如,用於檢測個體未患腫瘤)。因此,兩種或更多種分析之合併靈敏度可產生上述靈敏度中之任一者。
分析之陰性預測值係指利用陰性篩選測試個體真正未患疾病之機率,且可固有地受群體中之病況盛行率之影響。
在一些實施例中,分析可具有至少或至少約1%、2%、3%、4%、5%、6%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%之陰性預測值。
在具體實例中,本發明之方法可包含第二分析,且該第二分析可具有至少約70%之陰性預測值。在一些實施例中,分析之陰性預測值可在一定範圍內(例如,介於約65%與約75%之間、介於約55%與約65%之間、介於約60%與約100%之間、介於約10%與約25%之間、介於約90%與約100%之間)。
在一實例中,分析(例如第一分析)具有高達3%、4%、5%、6%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%之陰性預測值。
在一些實施例中,本發明之方法可包含一或多個分析,且該方法可具有至少或至少約1%、2%、3%、4%、5%、6%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%之陰性預測值(例如,用於檢測個體未患腫瘤)。
在一些實施例中,方法之陰性預測值可在一定範圍內(例如,介於約80%與約90%之間、介於約90%與約100%之間、介於約70%與約80%之間、介於約10%與約25%之間、介於約25%與約50%之間)。
分析之陽性預測值係指利用陽性篩選測試個體真正患有疾病之機率,且其可固有地受群體中之病況盛行率之影響。
在一些實施例中,分析可具有至少或至少約1%、2%、3%、4%、5%、6%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%之陽性預測值。
在具體實例中,本發明之方法可包含第二分析,且該第二分析可具有至少約70%之陽性預測值。
在一些實施例中,分析(例如,第一分析)可具有至多約1%、2%、3%、4%、5%、6%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%之陽性預測值。在實施第一分析後,可對陽性(真陽性及偽陽性)實施一或多個額外分析以增加測試之總體陽性預測值。PPV之增加較佳為至少2倍、3倍、4倍、5倍、7.5倍、10倍或20倍。PPV之增加可為約4倍至約10倍、約5倍至約10倍、或約5倍至約15倍或約5倍至約20倍。
舉例而言,第一分析可具有至多約4%之陽性預測值,而第二分析可具有至少約11%之陽性預測值。在一些實施例中,分析之陽性預測值可在一定範圍內(例如,介於約65%與約75%之間、介於約90%與約100%之間、介於約70%與約80%之間、介於約10%與約25%之間、介於約25%與約50%之間)。舉例而言,第一分析可具有介於約3%與5%之間之陽性預測值,而第二分析可具有介於約10%與15%之間之陽性預測值。
在一些實施例中,本發明之方法可包含一或多個分析,且總體方法可具有至少約1%、2%、3%、4%、5%、6%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%之陽性預測值(例如,用於檢測個體未患腫瘤)。
在一些實施例中,總體方法之陽性預測值可在一定範圍內(例如,介於約15%與約30%之間、約20%與約40%之間、約20%與約50%之間、約30%與約50%之間、約50%與約70%之間、約60%與約70%之間、約80%與約90%之間、介於約90%與約100%之間、介於約70%與約80%之間、介於約10%與約25%之間、介於約25%與約50%之間)。
當該方法包含第一分析及第二分析時,第二分析之陽性預測值可比第一分析之陽性預測值大至少或至少約1.1倍、1.2倍、1.3倍、1.4倍、1.5倍、2倍、2.5倍、3倍、3.5倍、4倍、4.5倍、5倍、6倍、7倍、8倍、9倍、10倍、15倍、20倍、25倍、30倍、35倍、40倍、45倍、50倍、75倍、100倍或100倍以上。或者或另外,總體方法(例如,兩種或更多種分析)之陽性預測值可比第一分析或該方法之單獨單一分析之陽性預測值大至少1.1倍、1.2倍、1.3倍、1.4倍、1.5倍、2倍、2.5倍、3倍、3.5倍、4倍、4.5倍、5倍、6倍、7倍、7.5倍、8倍、9倍、10倍、15倍、20倍、25倍、30倍、35倍、40倍、45倍、50倍、75倍、100倍。
舉例而言,第二分析之陽性預測值可比第一分析之陽性預測值大4倍。在一些實施例中,第二分析之陽性預測值可大於第一分析之陽性預測值,且陽性預測值之倍數變化值可在一定範圍內。舉例而言,第二分析之陽性預測值可比第一分析之陽性預測值大約2倍至6倍。在另一實例中,第二分析之陽性預測值可比第一分析之陽性預測值大約3.8倍至約4.2倍。
篩選或分析可具有偽陽性率,其可為約或小於0.1%、0.25%、0.5%、0.75%、1%、2%、3%、4%、5%、6%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%。實施一或多個額外分析可使總體篩選或方法之偽陽性率減小約或至少1.1倍、1.2倍、1.3倍、1.4倍、1.5倍、2倍、2.5倍、3倍、3.5倍、4倍、4.5倍、5倍、6倍、7倍、7.5倍、8倍、9倍、10倍、13倍、15倍、20倍、25倍、30倍、35倍、40倍、45倍、50倍、75倍或100倍。涉及兩種或以上分析(例如,2種、3種、4種、5種、6種、7種、8種、9種或10種分析)之總體篩選或方法之偽陽性率可為約或小於0.1%、0.2%、0.25%、0.3%、0.4%、0.5%、0.6%、0.7%、0.75%、0.8%、0.9%、1%、2%、3%、4%、5%、6%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%。
陽性及陰性概率比(分別為LR+及LR-)可量化測試結果所賦予之「診斷」確定性之變化。更特定而言,概率比可將給定(陽性或陰性)診斷之
測試前幾率轉變成
測試後幾率。高陽性概率比及/或低陰性概率比可闡述本發明之分析或方法具有預測個體之真正疾病狀況之極佳能力。完全非資訊性分析可具有等於1之陽性及陰性概率比(即,實質上未轉變測試前幾率)。在一些情況下,10或更大之陽性概率比及0.1或更小之陰性概率比可表示資訊性測試。在一些實施例中,本發明分析或方法之陽性概率比可為至少約0.1、0.5、1、2、3、4、5、6、7、8、9或10。在一些實施例中,分析或方法之陽性概率比可在一定範圍內(例如,介於約5與約8之間)。在一些實施例中,本發明分析或方法之陰性概率比可為至多約10、9、8、7、6、5、4、3、2、1、0.5或0.1。在一些實施例中,分析或方法之陰性概率比可在一定範圍內(例如,介於約0.1與約0.5之間)。
時間在一些實施例中,本文所提供之方法可包含兩種或更多種分析(例如,第一分析及第二分析)。在具體實例中,針對第一標記物或第一組標記物之第一分析具有指示腫瘤之靈敏度,且針對第二標記物或第二組標記物之第二分析具有指示腫瘤之特異性。第一標記物與第二標記物可相同或不同。第一組標記物與第二組標記物可相同或不同。第一分析與第二分析可相同或不同。
第二分析可在第一分析後數小時、數天或數週實施。在一個實施例中,第二分析可在第一分析後立即實施。在其他實施例中,第二分析可在第一分析後1天、2天、3天、4天、5天、6天、1週、2週、3週、4週、5週、6週、7週、8週、3個月、4個月、5個月、6個月、1年或大於1年內實施。在具體實例中,第二分析可在第一樣品之2週內實施。通常,第二分析可用於改良可檢測到患者之腫瘤之特異性。實施第一分析與第二分析之間之時間可以實驗方式確定。在一些實施例中,該方法可包含2種或更多種分析,且兩種分析使用同一樣品(例如,在實施第一分析之前自個體(例如,患者)獲得單一樣品,且保存一段時間直至實施第二分析)。舉例而言,可自個體同時獲得兩管血液。第一管可用於第一分析。第二管可僅在個體之第一分析之結果為陽性時使用。樣品可使用熟習此項技術者已知之任一方法(例如,低溫)來保存。此保存可在某些情況下(例如其中個體可接受陽性測試結果(例如,第一分析指示癌症),且患者可不願等待直至實施第二分析、而是選擇尋求第二意見)有益。
獲得樣品與實施分析之間之時間可經最佳化以改良分析或方法之靈敏度及/或特異性。在一些實施例中,樣品可在實施分析之前不久獲得(例如,在實施第一分析之前獲得第一樣品,且在實施第一分析之後但在實施第二分析之前獲得第二樣品)。在一些實施例中,樣品可在實施分析之前獲得且儲存一段時間(例如,數小時、數天或數週)。在一些實施例中,可在自個體獲得樣品後1天、2天、3天、4天、5天、6天、1週、2週、3週、4週、5週、6週、7週、8週、3個月、4個月、5個月、6個月、1年或大於1年內對樣品實施分析。
實施分析(例如,第一分析或第二分析)與確定樣品是否包括指示腫瘤之標記物或標記物組之間的時間可發生變化。在一些情況下,該時間可經最佳化以改良分析或方法之靈敏度及/或特異性。在一些實施例中,確定樣品是否包括指示腫瘤之標記物或標記物組可在實施分析之至多0.1小時、0.5小時、1小時、2小時、4小時、8小時、12小時、24小時、2天、3天、4天、5天、6天、1週、2週、3週或1個月內進行。
分析下文說明可用於本發明方法中之多個分析。可使用以下分析中之任一者作為第一分析、第二分析、第三分析等或上述任一者之組合。舉例而言,第一分析可為qPCR分析且第二分析可為NGS分析(例如,實施下一代定序分析之任一分析)。NGS分析之實例包括片段化分析及突變分析。在其他實例中,第一分析係單標記物分析(例如,存在EBV基因座)且第二分析係多標記物分析。
1. EBV 檢測分析 在一些實施例中,第一分析或第二分析可包含qPCR分析以量測樣品中腫瘤相關DNA之量。儘管本文已提供實例及實施例,但與例如拷貝數及NPC相關之其他技術及實施例可參見於2011年11月30日提出申請之PCT AU/2011/001562,其全文以引用方式併入本文中。NPC與EBV感染密切相關。在華南,EBV基因體可發現於幾乎所有NPC患者之腫瘤組織中。源自NPC組織之血漿EBV DNA已經研發作為NPC之腫瘤標記物(Lo等人,Cancer Res 1999; 59: 1188-1191)。具體而言,可將即時定量PCR分析用於靶向EBV基因體之
BamHI-W片段之血漿EBV DNA分析。在每一EBV基因體5中可存在
BamHI-W片段之約6至12個重複且在每一NPC腫瘤細胞中可存在大約50個EBV基因體(Longnecker等人,Fields Virology,第5版,第61章「Epstein-Barr virus」;Tierney等人,J Virol. 2011; 85: 12362-12375)。換言之,在每一NPC腫瘤細胞中可存在約300-600個(例如,約500個)PCR靶拷貝。每個腫瘤細胞之此高靶數可解釋血漿EBV DNA係檢測早期NPC之高度敏感之標記物的原因。
如
圖 1中所顯示,NPC細胞可將EBV DNA之片段沈積至個體之血流中。此腫瘤標記物可用於NPC之監測(Lo等人,Cancer Res 1999; 59: 5452-5455)及預測 (Lo等人,Cancer Res 2000; 60: 6878-6881)。如
圖 2中所顯示,在96% (57個中之55個)之鼻咽癌(NPC)患者(中值濃度,21058拷貝/ml)及7% (43個中之3個)之對照(中值濃度,0拷貝/ml)的血漿中可檢測到無細胞EBV DNA。此外,如
圖 3中所顯示,晚期NPC病例中之此測試無漿細胞EBV DNA含量(中值,47,047拷貝/ml;四分位距,17,314-133,766拷貝/ml)顯著高於早期NPC病例中之彼等(中值,5,918拷貝/ml;四分位距,279-20,452拷貝/ml;曼恩-惠尼秩和測試(Mann-Whitney rank-sum test),P
< 0.001)。最新研究已顯示,使用即時PCR之血漿EBV DNA分析可用於檢測無症狀個體之早期NPC且可用於篩選NPC (Chan等人,
Cancer2013;119:1838-1844)。在具有1,318個參與者之群體研究中,量測血漿EBV DNA含量以研究EBV DNA拷貝數是否可用於NPC監督。69個參與者(5.2%)具有可檢測到之血漿EBV DNA含量,其中3個參與者利用鼻內視鏡檢法及磁共振成像最終經臨床診斷為患有NPC。因此,在此研究中單一血漿EBV DNA測試之陽性預測值為約4%,計算為真正患有NPC之患者數量(n=3)除以真正患有NPC之患者數量及鑑別為未患NPC之患者數量之和(n=66)。實施具有約20,174個患者之更大群體研究。此研究之結果顯示於
圖 4中,其繪示在使用第一分析及第二分析之NPC研究中20,174個患者之結果。基於研究參數,若個體在第一分析中經測試呈陽性,則可在隨後2-6週之間對同一個體實施第二分析。將在第二分析中經測試呈陽性之個體送至鼻內視鏡檢法或MRI評價。
圖 5繪示在入選研究時最終診斷為患有NPC之參與者(NPC; n=34)及未患NPC之參與者(無NPC; n=20,140)中EBV DNA之血漿濃度的小提琴圖。該等結果顯示,在NPC患者中與未患NPC之患者相比,在入選時之血漿EBV DNA濃度顯著較高(P<0.001,司徒頓t-測試(Student t-test))。
圖 6A繪示顯示基於此較大群體研究之血漿EBV DNA之不同截止值使用即時qPCR之血漿EBV DNA分析對NPC之靈敏度及特異性的表。
圖 6B.繪示對應於
圖 6A中所提供之值之ROC曲線,且AUC為0.987。ROC-AUC可提供方法之診斷效用之量度,將該方法之靈敏度及特異性二者考慮在內。通常,ROC-AUC介於0.5至1.0範圍內,其中靠近0.5之值指示該方法具有有限的診斷效用(例如,較低靈敏度及/或特異性)且靠近1.0之值指示該方法具有較大診斷效用(例如,較高靈敏度及/或特異性)。儘管該測試展現跨越寬範圍之EBV DNA濃度截止值之相對較高之靈敏度及特異性,由於群體中NPC之盛行率較低,故單一EBV測試具有低陽性預測值,由此限制診斷效用。
圖 9繪示單一分析測試及兩種分析測試之測試靈敏度、特異性及PPV值之變化。可在隨後2-6週後再測試在第一EBV分析中呈陽性之個體。在第一分析中具有可檢測到之血漿EBV DNA含量之參與者(n=1078)中,約300個參與者展現持續升高之血漿EBV DNA含量(例如,在第二分析中再測試呈陽性之參與者)。
圖 7繪示在最終診斷為患有鼻咽癌(NPC)之個體及在第二分析中對鼻咽癌呈測試偽陽性之個體(無NPC)的血漿中EBV DNA片段之拷貝數(例如,拷貝/mL血漿)。包含第一分析及第二分析之方法之陽性預測值為約11%,計算為真正患有NPC之患者數量(n=34)除以真正患有NPC之患者數量及鑑別為未患NPC之患者數量之和(例如,約266個參與者)。換言之,第二分析之陽性預測值比第一分析之陽性預測值大約4倍。尤其對於患有在群體中具有低發病率之癌症之患者,陽性預測值之改良之重要之處可在於,經改良之PPV因偽陽性結果可直接降低患者負擔(例如,隨訪成本及心理負擔)。在34個NPC個體與EBV分析陽性個體之間實施EBV DNA之其他分析以進一步減小在第二測試中呈陽性之300個體組。
圖 8A繪示顯示基於血漿EBV DNA之不同截止值使用即時qPCR之血漿EBV DNA分析對NPC之靈敏度及特異性的表。
圖 8B.繪示對應於
圖 8A中所提供之值之ROC曲線,且AUC為0.797。此分析指示,可不存在可用於改良特異性且無實質靈敏度損失之EBV DNA含量。因此,在2-6週內僅對同一個體實施第二EBV分析可減少可送往鼻內視鏡檢法或MRI評價之個體數量(例如,自1078個個體減少至300個個體)。使用第一與第二EBV分析之間之間隔的分析來評價其是否可用於特異性改良。如
圖 10中所顯示,在第一分析後以不同間隔使用即時qPCR之隨訪(例如,第二分析)血漿EBV DNA分析顯示隨時間相對恆定之偽陽性率,此表明隨訪測試可早在第一分析後1至2週實施,且可使用具有高於血漿EBV DNA測試之特異性之第二分析來改良陽性預測值。
圖 11繪示實施第一分析(例如,入選時)及第二分析(例如,在第一分析後4週時或早在第一分析後1-2週)之實例性時間線。在一些實施例中,本發明之方法亦可包含鼻內視鏡檢法或MRI評價以確認第一分析及/或第二分析之結果。
本發明之方法尤其可用於癌症之早期檢測及/或癌症之降期。在一些情況下,降期可指使用疾病之早期檢測之方法篩選癌症之任一過程。
圖 12 及 13分別繪示NPC患者在不同癌症時期之總存活率及在香港NPC之時期分佈。在一些實施例中,本發明之方法可用於減少到達較高癌症時期之患者數量,藉此增加其總存活機率。
在一些實施例中,第一分析可包含血漿EBV DNA分析(例如,使用即時PCR)。在一些實施例中,確定生物樣品是否包括指示癌症之第一組標記物需要產生腫瘤源DNA之第一量與至少一個第一校正值之比較。在一些實施例中,校正值可為0拷貝/mL (例如,EBV DNA之拷貝)。在一些實施例中,校正值可高達10,000,000拷貝/mL血漿。在一些實施例中,校正值可為約1拷貝/mL、5拷貝/mL、10拷貝/mL、50拷貝/mL、100拷貝/mL、1000拷貝/mL、10000拷貝/mL、100000拷貝/mL、500000拷貝/mL、1M拷貝/mL或10M拷貝/mL。在實例中,第一分析(例如,血漿EBV DNA分析)之校正值可介於0與1M拷貝/mL增加。在另一實例中,第一分析(例如,血漿EBV DNA分析)之校正值可介於0與4000拷貝/mL之間。在另一實例中,第一分析(例如,血漿EBV DNA分析)之校正值可介於20000拷貝/mL與50000拷貝/mL之間。在一些實施例中,校正值可用於確定個體是否患有病況(例如,NPC)。在另一實施例中,校正值可用於確定個體係患有早期NPC抑或晚期NPC。
在一些實施例中,分析(例如,第一分析或第二分析)可包含實施下一代定序(NGS)或大規模平行定序以量測樣品中無細胞DNA之性質。並非許多癌症具有用於鑑別癌症存在或極可能存在於個體中之清楚的突變或其他標記物。且即使該等標記物確實存在,通常有極少的為特定癌症唯一之該等已知標記物。因此,在含有無細胞DNA之血漿或其他該樣品中可能難以檢測到癌症,其中該等突變標記物可不以高濃度存在。在癌症特異性標記物不存在之該等樣品中,可使用替代性方法來測定腫瘤源DNA之血漿濃度或拷貝數。舉例而言,在獲得樣品後,可對含於生物樣品中之複數個核酸分子之至少一部分進行定序。經定序部分可代表人類基因體之一部分。在一個實施例中,核酸分子係各別染色體之片段。可對一個末端(例如,35鹼基對(bp))、兩個末端或整個片段進行定序。可對樣品中之所有核酸分子進行定序,或可僅對子集進行定序。
在一個實施例中,定序係使用大規模平行定序來進行。例如可在454平臺(Roche) (例如,參見Margulies, M.等人,2005
Nature437, 376-380)、Illumina基因體分析儀(或Solexa平臺)或SOLiD系統(Applied Biosystems)或Helicos True單分子DNA定序技術(例如,參見Harris T D等人,2008 Science, 320, 106-109)、Pacific Biosciences之單分子即時(SMRT™)技術及奈米孔定序(例如,參見Soni G V及Meller A. 2007 Clin Chem 53: 1996-2001)上達成之大規模平行定序可容許以並行方式以高階多工對自樣本分離之許多核酸分子進行定序(例如,參見Dear
Brief Funct Genomic Proteomic2003; 1: 397-416)。該等平臺中之每一者可對核酸片段之以選殖方式擴大或甚至非擴增單分子進行定序。
由於自每一運行中之每一樣品產生大量定序讀段,為幾十萬至數百萬或甚至可能幾億或幾十億(例如,100,000、1,000,000 (1M)、10M、100M、1000M或更多個讀段),所得經定序讀段可形成原始樣本中核酸種類之混合物之代表性概況。由於對每一樣本之序列進行大取樣,例如以幾倍覆蓋率或高冗餘度自核酸彙集物之定序產生之一致序列數亦可為原始樣品中之特定核酸種類或基因座計數之良好定量表示。
基於定序(例如,來自定序之數據),可確定染色體、DNA片段或核酸(例如,臨床上相關之核酸)之量。在實例中,該量可根據鑑別為源自染色體之序列確定。然後可使用生物資訊學程序將該等DNA序列中之每一者定位至人類基因體。可自後續分析摒棄一定比例之該等序列,此乃因其存在於人類基因體之重複區域中或經受個體間變化(例如,拷貝數變化)之區域中。由此可確定所關注染色體及一或多個其他染色體之量。存在多種測定染色體量之方式,包括(但不限於)計數經定序標籤之數量、經定序核苷酸(鹼基對)之數量或源自特定染色體或染色體區域之經定序核苷酸(鹼基對)之累積長度。
2. HPV 檢測分析 qPCR分析可以與本文針對EBV所述類似之方式使用來量測樣品中腫瘤相關HPV DNA之量。該分析尤其可用於篩選子宮頸癌(CC)及頭頸部鱗狀細胞癌(HNSCC)。在一實例中,qPCR分析靶向HPV基因體之多型性L1區內之區域(例如,200個核苷酸)。更特定而言,本文涵蓋使用qPCR引子與編碼L1區中之一或多個表面超變環之序列選擇性雜交。
或者,可使用定序技術來檢測及量化HPV序列。舉例而言,cfDNA片段可經定序且與HPV基因體對準並量化。
下表1圖解說明可藉由定序檢測血漿中之HPV DNA。
組 | 樣品 ID | 映射至 HPV 基因體之片段 | 映射至 HPV 基因體之片段之百分比 (%) |
健康對照
| EN086
| 0
| 0
|
GC038
| 0
| 0
|
ER022
| 0
| 0
|
BP065
| 0
| 0
|
FF159
| 0
| 0
|
鼻咽癌(NPC)患者
| TBR1358
| 0
| 0
|
TBR1390
| 0
| 0
|
TBR1379
| 0
| 0
|
TBR1378
| 0
| 0
|
慢性B型肝炎病毒(HBV)攜帶者
| GM2192F
| 0
| 0
|
GM2910F
| 0
| 0
|
GM6421F
| 0
| 0
|
肝細胞癌(HCC)患者
| TBR_ 1330
| 0
| 0
|
TBR_ 1386
| 0
| 0
|
TBR_ 1428
| 0
| 0
|
子宮頸癌(CC)患者
| C-819
| 1489
| 0.00731
|
C-822
| 1720
| 0.0132
|
C-877
| 6773
| 0.03177
|
C-788
| 7992
| 0.06083
|
C-801
| 2127
| 0.04563
|
C-803
| 1316
| 0.01504
|
頭頸部鱗狀細胞癌(HNSCC)患者
| TBR_ 1067
| 53
| 0.00009
|
TBR_ 1019
| 3287
| 0.00642
|
藉由靶向定序使用如表2中所顯示之捕獲探針設計分析23個未患癌症(健康對照或慢性HBV攜帶者)或患有多種癌症(NPC、HCC、CC、HNSCC)之個體之血漿樣品。使序列讀段與HPV基因體對準並計數。數據顯示,在患有HPV相關CC或HNSCC之患者之血漿中可檢測到源自HPV之血漿DNA片段,但在其他患者組中之任一者中未檢測到。血漿HPV DNA片段之量可根據所實施定序之量檢測到之絕對數量表示或表示為對其他非HPV源序列讀段之量的比例。第一,存在血漿HPV DNA序列之量大於自健康個體或患有HPV相關癌症之個體確立之臨限值可為HPV相關癌症之存在提供證據。在此分析中,CC及HNSCC係HPV相關癌症,而NPC及HCC係非HPV相關癌症。在此分析中,使用截止值> 0之映射至HPV之片段或> 0%之映射至HPV之讀段。可使用其他方法基於未患HPV相關癌症之個體之數據來確立參照值或截止值,該等方法包括例如ROC分析、> 第90百分位數、> 第99百分位數、高於平均值> 2個標準偏差或> 3個標準偏差。第二,樣品中血漿HPV DNA序列之豐度範圍之差異可反映HPV相關癌症之時期。第三,血漿HPV DNA序列之數量級之差異可反映不同組織起源之癌症。舉例而言,表1顯示,與HNSCC患者之樣品相比,血漿HPV DNA序列之量通常在CC患者之樣品中較高。第四,如
圖 94 及圖 95中所顯示,血漿HPV DNA序列之大小概況及片段化模式可分別容許區分患有HPV相關癌症之彼等及未患癌症但因其他良性病況所致含有可檢測血漿HPV DNA之個體。血漿HPV DNA序列之大小概況及片段化模式可進一步容許區分不同組織起源之HPV相關癌症,例如CC及HNSCC (圖86)。第五,血漿HPV DNA序列之序列變體可容許確定HPV之血清型或基因型且進一步為癌症診斷之高概率提供證據。舉例而言,CC通常與16型HPV及18型HPV相關。
3. 甲基化檢測分析 在另一實施例中,分析(例如,第一分析或第二分析)可包含對無細胞核酸分子實施甲基化感知定序或定序以確定一或多個基因體位置之甲基化狀況。儘管本文提供實例及實施例,但與例如確定甲基化狀況相關之其他技術及實施例可參見於2013年9月20日提出申請之PCT AU/2013/001088,其全文以引用方式併入本文中。血漿甲基化體數據可反映甲基化概況之定性變化。如
圖 19中所顯示,例如,源自僅在癌細胞中高甲基化之基因之血漿DNA分子與源自相同基因但在健康對照之樣品中之血漿DNA分子相比可顯示癌症患者之血漿中之高甲基化。由於異常甲基化發生在大多數癌症中,本文所述之方法可適用於檢測具有異常甲基化之惡性病之所有形式,例如(但不限於)肺、乳房、結腸直腸、前列腺、鼻咽、胃、睪丸、皮膚、神經系統、骨、卵巢、肝、造血組織、胰臟、子宮、腎、淋巴組織等之惡性病。惡性病可具有多種組織學亞型,例如癌瘤、腺癌、肉瘤、纖維腺癌、神經內分泌、未分化。
可區分腫瘤源DNA分子與背景非腫瘤源DNA分子,此乃因對於源自具有腫瘤相關異常低甲基化之基因座之DNA分子而言腫瘤源DNA之總體短大小概況可加劇,該異常低甲基化對DNA分子之大小可具有額外效應。另外,可使用多個與腫瘤DNA相關之特徵性特徵區分腫瘤源血漿DNA分子與背景非腫瘤源血漿DNA分子,該等特徵包括(但不限於)單核苷酸變體、拷貝數增加及損失、易位、倒位、異常高或低甲基化及大小剖析。由於所有該等變化可獨立發生,組合使用該等特徵可為血漿中癌症DNA之靈敏及特異性檢測提供加和優點。
手術前血漿DNA之甲基化密度可低於癌症患者中非惡性組織之彼等。此可因存在來自腫瘤組織之低甲基化DNA而產生。此較低血漿DNA甲基化密度可用作檢測及監測癌症之生物標記物。對於癌症監測,若癌症正在進展,則可存在隨時間增加之血漿中癌症源DNA之量。在此實例中,血漿中增加的循環癌症源DNA量可進一步減小全基因體層級上之血漿DNA甲基化密度。
相反,若癌症對治療有反應,則血漿中癌症源DNA之量可隨時間減少。在此實例中,血漿中癌症源DNA之量減少可使血漿DNA甲基化密度增加。舉例而言,若具有表皮生長因子受體突變之肺癌患者已經靶向療法(例如,酪胺酸激酶抑制)治療,則血漿DNA甲基化密度之增加可表示反應。隨後,出現對酪胺酸激酶抑制有抗性之腫瘤純系可與指示復發之血漿DNA甲基化密度之增加相關。
可連續實施血漿甲基化密度量測且可計算該等量測之變化率並將其用於預測或關聯臨床進展或消退或預後。對於在癌症組織中高甲基化但在正常組織中低甲基化之所選基因體基因座(例如,多個腫瘤抑制基因之啟動子區域),癌症進展與治療之有利反應之間之關係可與本文所述之模式相反。
血漿甲基化密度值超過(例如低於)基於參照值定義之截止值可用於評價個體之血漿是否具有腫瘤DNA。為檢測低甲基化循環腫瘤DNA之存在,截止值可定義為低於對照群體之值之5%或1%,或基於低於對照之平均甲基化密度值之標準偏差數(例如2個或3個標準偏差(SD)),或基於測定中倍數(MoM)。對於高甲基化腫瘤DNA,截止值可定義為高於對照群體之值之95%或99%,或基於高於對照之平均甲基化密度值之標準偏差數(例如2個或3個SD),或基於測定中倍數(MoM)。在一個實施例中,對照群體之年齡可與測試個體相匹配。年齡匹配無需精確且可以年齡段(例如,對於35歲之測試個體,30至40歲)實施。
為評價所測試個體是否患有癌症,可比較所測試個體之結果與參照組之值。在一個實施例中,參照組可包含多個健康個體。在另一實施例中,參照組可包含患有非惡性病況(例如慢性B型肝炎感染或硬化)之個體。然後可量化所測試個體與參照組之間之甲基化密度差異。
在一個實施例中,參照範圍可源自對照組之值。然後可使用所測試個體之結果與參照組上限或下限之偏差來確定個體是否患有腫瘤。此量可受血漿中腫瘤源DNA之分數濃度及惡性與非惡性組織之間之甲基化程度差異的影響。血漿中腫瘤源DNA之較高分數濃度可產生測試血漿樣品與對照之間之較大甲基化密度差異。惡性及非惡性組織之甲基化程度之較大差異度亦可與測試血漿樣品與對照之間之較大甲基化密度差異相關。在另一實施例中,對不同年齡範圍之測試個體選擇不同參照組。
在一個實施例中,可針對每一1 Mb倉計算四個對照個體之甲基化密度之平均值及SD。然後對於相應的倉,可計算HCC患者之甲基化密度與對照個體之平均值之間的差。在一個實施例中,然後可用此差除以相應倉之SD來確定z得分。換言之,z得分代表測試與對照血漿樣品之間之甲基化密度差異,表示為與對照個體之平均值之SD數。倉之z得分>3指示在該倉中HCC患者之血漿DNA之高甲基化比對照個體多3個以上之SD,而倉之z得分< -3指示在該倉中HCC患者之血漿DNA之低甲基化比對照個體多3個以上之SD。
倉數量之截止值可使用統計學方法測定。舉例而言,基於正態分佈可預期大約0.15%之倉具有<-3之z得分。因此,倉之截止數可為所分析倉之總數之0.15%。換言之,若個體之血漿樣品顯示0.15%以上之倉具有<-3之z得分,則可存在血漿中低甲基化DNA之來源,即癌症。
在另一實施例中,截止數可藉由接受者操作特徵(ROC)曲線分析藉由分析癌症患者及未患癌症之個體之數量來確定。為進一步驗證此方法之特異性,分析尋求非惡性病況(C06)之醫學會診之患者之血漿樣品。1.1%之倉具有<-3之z得分。在一個實施例中,可使用不同臨限值對疾病狀況之不同等級進行分類。可使用較低百分比臨限值來區分健康狀況與良性病況,且使用較高百分比臨限值來區分良性病況與惡性病。
在其他實施例中,可使用其他方法來檢查血漿DNA之甲基化程度。舉例而言,可使用質譜(例如,參見M.L. Chen等人,2013
Clin Chem; doi: 10.1373/clinchem.2012.193938)或大規模平行定序測定甲基化胞嘧啶殘基佔胞嘧啶殘基之總含量之比例。然而,由於大多數胞嘧啶殘基可不在CpG二核苷酸背景下,故與在CpG二核苷酸背景下估計之甲基化程度相比,總胞嘧啶殘餘物中甲基化胞嘧啶之比例可相對較小。可測定自HCC患者獲得之組織及血漿樣品以及自健康對照獲得之四個血漿樣品之甲基化程度。甲基化程度可在CpG、任何胞嘧啶背景下、在5’-CHG-3’及5’-CHH-3’背景下使用全基因體大規模平行定序數據來量測。H係指腺嘌呤、胸腺嘧啶或胞嘧啶殘基。
在其他實施例中,血漿DNA之甲基化狀況可藉由使用針對甲基化胞嘧啶之抗體之方法(例如甲基化DNA免疫沈澱(MeDIP))來測定。在另一實施例中,可測定血漿DNA中5-羥基甲基胞嘧啶之含量。就此而言,5-羥基甲基胞嘧啶之含量之降低可為某一癌症(例如,黑色素瘤)之表觀特徵(例如,參見C.G. Lian等人,2012
Cell; 150: 1135-1146)。
在另一實施例中,此方法可適用於其他類型之癌症。可分析2個肺腺癌患者(CL1及CL2)、2個鼻咽癌患者(NPC1及NPC2)、2個結腸直腸癌患者(CRC1及CRC2)、1個轉移性神經內分泌腫瘤患者(NE1)及1個轉移性平滑肌肉瘤患者(SMS1)之血漿樣品。可使用針對在一個末端50 bp之Illumina HiSeq2000平臺對該等個體之血漿DNA進行亞硫酸氫鹽轉化及定序。可使用四個健康對照個體作為分析該8個患者之參照組。可使用在一個末端50 bp之序列讀段。全基因體可分成1 Mb個倉。可使用參照組之數據計算每一倉之甲基化密度之平均值及SD。然後8個癌症患者之結果可表示為z得分,其代表與參照組之平均值之SD數。陽性值係指示測試病例之甲基化密度低於參照組之平均值,且反之亦然。
4. 片段分析 在另一實施例中,分析(例如,第一分析或第二分析)可包含實施分析,例如下一代定序分析,以分析核酸片段,例如EBV DNA之片段。
闡述影響無細胞DNA (例如,血漿DNA)之片段化模式及無細胞DNA片段化模式之分析之應用(包括分子診斷中之彼等)的因素。多個應用可利用片段化模式之性質來測定特定組織類型之比例貢獻,確定特定組織類型(例如,母體樣品中之胎兒組織或癌症患者樣品中之腫瘤組織)之基因型,及/或鑑別特定組織類型之優先端點位置,其可隨後用於測定特定組織類型之比例貢獻。在一些實施例中,亦可使用特定組織之優先端點位置來量測樣品中特定組織類型之絕對貢獻,例如以每單位體積(例如每毫升)之基因體數量表示。
比例貢獻之分類之實例包括特定百分比、百分比範圍或比例貢獻是否大於指定百分比可確定為分類。為確定比例貢獻之分類,一些實施例可鑑別出對應於特定組織類型(例如,胎兒組織或腫瘤組織)之優先端點位置。該等優先端點位置可以多種方式來確定,例如藉由分析無細胞DNA分子末端落在基因體位置上之比率、比較該等比率與其他樣品(例如,未患相關病況)及比較在病況中不同之具有不同組織及/或不同樣品之無細胞DNA分子之末端之高出現率的組基因體位置。可比較末端落在優先端點位置之無細胞DNA分子相對於末端落在其他基因體位置之無細胞DNA分子之相對豐度與自已知特定組織類型之比例貢獻之一或多個校正生物樣品測定之一或多個校正值。本文所提供之數據顯示相對豐度之不同量度與樣品中不同組織之比例貢獻之間的正相關。
為確定比例貢獻之分類,一些實施例可利用片段化模式之波幅(例如,末端落在基因體位置之無細胞DNA分子之數量)。舉例而言,可藉由分析末端落在複數個基因體位置之無細胞DNA分子之數量鑑別出一或多個局部極小值及一或多個局部極大值。顯示在一或多個局部極大值下無細胞DNA分子之第一數量與在一或多個局部極小值下無細胞DNA分子之第二數量的分離值(例如,比率)與特定組織類型之比例貢獻呈正相關。
在一些實施例中,可針對無細胞DNA樣品之體積或重量量測所關注組織之濃度。舉例而言,可使用定量PCR來量測在單位體積或單位重量之所提取無細胞DNA樣品中末端落在一或多個優先端點之無細胞DNA分子之數量。可對校正樣品進行類似量測,且因此比例貢獻可測定為比例貢獻,此乃因該貢獻係每單位體積或單位重量之濃度。
為確定來自不同組織類型之無細胞DNA之混合物中特定組織類型(例如,胎兒組織或腫瘤組織)之基因型,一些實施例可鑑別出特定組織類型之優先端點位置。對於末端落在優先端點位置上之無細胞DNA分子集合之每一無細胞DNA分子,可確定在優先端點位置或片段之其餘部分內出現之相應鹼基。可使用相應鹼基例如基於所見不同鹼基之百分比來確定優先端點位置之基因型。在多個實施方案中,僅一個鹼基之高百分比(例如,大於90%)係指示基因型對於該鹼基係同型接合的,而兩個具有相似百分比(例如,30%-70%之間)之鹼基可確定異型接合之基因型。
為鑑別出優先端點位置,一些實施例可比較無細胞DNA分子之左末端之局部極大值與無細胞DNA分子之右末端之局部極大值。當相應局部極大值充分分離時,可鑑別出優先端點位置。此外,可比較末端落在左/右末端之局部極大值之無細胞DNA分子之量與具有低分離之局部極大值之無細胞DNA分子的量以測定組織類型之比例貢獻。
在下文描述中,首先闡述片段化及技術之綜述,然後闡述片段化模式及其量化實例之細節,且其他描述係關於測定比例貢獻、鑑別優先端點位置及確定基因型。
I. 片段化及技術之綜述在本發明中,吾人證明存在著無細胞DNA之非隨機片段化過程。非隨機片段化過程在一定程度上發生於多種類型之含有無細胞DNA之生物樣品中,例如血漿、血清、尿液、唾液、腦脊髓液、胸腔積液、羊水、腹膜液及腹水。無細胞DNA自然地係呈短片段形式。無細胞DNA片段化係指當產生或釋放無細胞DNA分子時,高分子量DNA (例如細胞核中之DNA)被裂解、破裂或消化成短片段之過程。
並非所有無細胞DNA分子皆具有相同長度。一些分子短於另一些。業經顯示,無細胞DNA (例如血漿DNA)與細胞DNA相比通常較短且不夠完整。無細胞DNA在開放染色質結構域內(包括轉錄起始位點周圍及核小體核心之間之位置(例如連接體位置))亦具有較差完整機率或較差完整性(Straver等人,Prenat Diagn 2016, 36:614-621)。每一不同組織可能具有其特徵性基因表現概況,其進而被多種方式(包括染色質結構及核小體定位)所調控。因此,某些基因體位置之完整機率或完整性之無細胞DNA模式(例如血漿DNA之無細胞DNA模式)係彼等DNA分子之組織起源之特徵或標誌。類似地,當疾病過程(例如癌症)改變細胞基因體之基因表現概況及功能時,源自患病細胞之無細胞DNA完整機率概況將反映彼等細胞。因此,無細胞DNA概況將為疾病存在提供證據或係疾病存在之標誌。
一些實施例進一步增強了研究無細胞DNA片段化之概況之決心。吾人研究個體無細胞DNA分子(尤其血漿DNA分子)之實際端點位置或末端,而非僅匯總一段核苷酸內之讀段,以鑑別出具有較高或較低完整機率或完整性之區域。顯著地,我們的數據揭露出,切割無細胞DNA分子之具體位置並非隨機的。在活體外所剪切或超音波處理之高分子量基因體組織DNA顯示是端點位置隨機性地散佈在整個基因體中之DNA分子。然而,無細胞DNA分子之在樣品(例如血漿)內存在具有高代表性之某些端點位置。該等端點位置之出現或代表之數量在統計學上顯著高於純偶然預期。該等數據使得對無細胞DNA片段化之理解超出對完整性之區域變化之理解(Snyder等人,Cell 2016, 164: 57-68)。在此處顯示,無細胞DNA片段化之過程甚至編排成切割或裂解之具體核苷酸位置。吾人將無細胞DNA端點位置之該等非隨機位置稱為優先端點位置或優先端點。
在本發明中顯示,吾人證明,存在通常出現在不同生理狀態或疾病狀態之個體中之無細胞DNA端點位置。舉例而言,存在懷孕及非懷孕個體所共有、懷孕及癌症患者所共有、罹患及未罹患癌症之個體所共有之共同優先端點。另一方面,存在幾乎僅出現在懷孕女性中、僅出現在癌症患者中或僅出現在未患癌症之非懷孕個體中之優先端點。有趣的是,該等懷孕特異性或癌症特異性或疾病特異性末端亦在具有相當生理或疾病狀態之其他個體中具有高代表性。舉例而言,在一個懷孕女性之血漿中鑑別出之優先端點在其他懷孕女性之血漿中可檢測到。此外,該等優先端點之比例之量與其他懷孕女性之血漿中之胎兒DNA分數相關聯。該等優先端點實際上與懷孕或胎兒相關,此乃因其量在分娩後母體血漿樣品中實質上減少。類似地,在癌症中,在一個癌症患者之血漿中鑑別出之優先端點在另一癌症患者之血漿中可檢測到。此外,該等優先端點之比例之量與其他癌症患者之血漿中之腫瘤DNA分數相關聯。該等優先端點與癌症相關,此乃因其量在癌症治療(例如手術切除)後減少。
有一些用於分析無細胞DNA優先端點之多種應用或效用。其可提供關於懷孕中之胎兒DNA分數且因此胎兒之健康狀況之資訊。舉例而言,業內已報導多種懷孕相關病症(例如子癇前症、未足月產、子宮內生長受限(IUGR)、胎兒染色體非整倍性及其他病症)與妊娠年齡匹配之對照懷孕相比與胎兒DNA之分數濃度(亦即胎兒DNA分數或胎兒分數)之擾動相關。與癌症相關之無細胞血漿DNA優先端點揭露血漿樣品中之腫瘤DNA分數或分數濃度。已知腫瘤DNA分數可提供關於癌症時期、預後及幫助監測治療效能或癌症復發之資訊。無細胞DNA優先端點之概況亦將揭露將DNA貢獻至含有無細胞DNA之生物樣品(例如血漿)中之組織之組成。因此能夠鑑別出癌症或其他病理學(例如腦血管意外(即中風)、全身性紅斑狼瘡之器官表現)之組織起源。
藉由比較具有不同生理或病理狀態之個體中優先端點之無細胞DNA概況(例如非懷孕與懷孕樣品相比、癌症與非癌症樣品相比或未患癌症之懷孕女性之概況與非懷孕癌症患者之概況相比),可鑑別出與特定生理狀態或病理狀態相關之優先端點之目錄。另一方法係比較在生理(例如懷孕)或病理(例如癌症)過程之不同時間優先端點之無細胞DNA概況。該等時間點之實例包括懷孕之前及之後、胎兒分娩之前及之後、在懷孕期間之不同妊娠年齡收集之樣品、癌症治療(例如靶向療法、免疫療法、化學療法、手術)之前及之後、癌症診斷後之不同時間點、癌症進展之前及之後、發生轉移之前及之後、增加的疾病嚴重程度之前及之後或罹患併發症之前及之後。
另外,優先端點可使用與特定組織相關之遺傳標記物來鑑別。舉例而言,含有胎兒特異性SNP等位基因之無細胞DNA分子可用於鑑別樣品(例如母體血漿)中之胎兒特異性優先端點。反之,含有母體特異性SNP等位基因之血漿DNA分子可用於鑑別母體血漿中之母體特異性優先端點。可使用含有腫瘤特異性突變之血漿DNA分子來鑑別與癌症相關之優先端點。在器官移植背景下含有供體或接受體特異性SNP等位基因之血漿DNA分子可用於鑑別移植或非移植器官之優先端點。舉例而言,特異性針對供體之SNP等位基因可用於鑑別代表移植器官之優先端點。
優先端點在其具有在生理或病理狀態下檢測到之高概率或機率時可視為與該生理或疾病狀態相關。在其他實施例中,優先端點具有與在其他狀態下相比更可能在相關生理或病理狀態下檢測到之某一機率。由於在相關生理或疾病狀態下檢測到優先端點之機率較高,故該等優先或重複出現的末端(或端點位置)將可見於一個以上之具有該生理或疾病狀態之個體中。高機率亦將使得該等優先或重複出現的末端可在同一個體之相同無細胞DNA樣品或等份中檢測到多次。在一些實施例中,定量臨限值可經設定以,限制在相同樣品或相同樣品等份內檢測到至少指定次數(例如,5次、10次、15次、20次等)之視為優先端點之末端的納入。
在確立針對任一生理或病理狀態之無細胞DNA優先端點之目錄後,可使用靶向或非靶向方法來檢測其在無細胞DNA樣品(例如血漿)或其他個體中之存在,以確定具有相似健康狀況、生理或疾病狀態之其他所測試個體之分類。無細胞DNA優先端點可藉由隨機非靶向定序來檢測。需要考慮定序深度,以使得可達成鑑別出相關優先端點之全部或一部分之合理機率。
舉例而言,捕獲探針可經設計以覆蓋整個EBV基因體、整個B型肝炎病毒(HBV)基因體、整個人類乳頭瘤病毒(HPV)基因體及/或人類基因體中之多個基因體區域(包括chr1、chr2、chr3、chr5、chr8、chr15及chr22上之區域)。為自血漿有效地捕獲病毒DNA片段,可使用多於所關注人類體染色體區域之探針與病毒基因體雜交。在一個實施例中,對於整個病毒基因體,平均100個雜交探針覆蓋大小約200 bp之每一區域(例如,100×覆瓦式(tiling)捕獲探針)。對於人類基因體之所關注區域,設計平均2個雜交探針覆蓋大小約200 bp之每一區域(例如,2×覆瓦式捕獲探針)。捕獲探針可根據表2來設計。
或者,可對無細胞DNA樣品實施具有高密度之優先端點之基因座之雜交捕獲,以在藉由(但不限於)定序、微陣列或PCR檢測後富集具有該等優先端點之無細胞DNA分子之樣品。再或者,可使用基於擴增之方法特異性擴增並富集具有優先端點之無細胞DNA分子,例如反向PCR、滾環式擴增。擴增產物可藉由定序、微陣列、螢光探針、凝膠電泳及熟習此項技術者已知之其他標準方法來鑑別。
表 2 :用於靶向定序之捕獲探針之設計 | | 長度 (bp) | 靶向捕獲設計 |
體染色體 | chr1
| 29,382,851
| 2×覆瓦式捕獲探針
|
chr2
| 819,161
|
chr3
| 25,981,149
|
chr5
| 2,339,138
|
chr8
| 21,438,698
|
chr15
| 767,847
|
chr22
| 327,728
|
病毒靶 | EBV
| 170,771
| 100×覆瓦式捕獲探針
|
HBV
| 3,216
|
HPV16
| 7,855
|
HPV18
| 7,789
|
HPV31
| 7,791
|
HPV33
| 7,744
|
HPV35
| 7,813
|
HPV39
| 7,734
|
HPV45
| 7,784
|
HPV51
| 7,674
|
HPV52
| 7,820
|
HPV56
| 7,814
|
HPV58
| 7,705
|
HPV66
| 7,806
|
HPV68
| 7,751
|
HPV70
| 7,884
|
實際上,一個末端位置可為藉由分析型方法檢測或測定之無細胞DNA分子之一個極端上之最外側鹼基之基因體坐標或核苷酸身份,該分析型方法係例如(但不限於)大規模平行定序或下一代定序、單分子定序、雙鏈或單鏈DNA定序文庫製備方案、PCR、用於DNA擴增(例如等溫擴增)之其他酶方法或微陣列。該等活體外技術可改變無細胞DNA分子之真正活體內物理末端。因此,每一可檢測末端可代表生物真末端或該末端係一或多個向內核苷酸或一或多個自分子之原始末端延伸之核苷酸。舉例而言,在DNA定序文庫構築期間,使用Klenow片段藉由鈍化5’懸突及填充3’懸突產生以產生鈍端末端之雙鏈DNA分子。儘管該等程序可揭露與生物末端不一致之無細胞DNA末端位置,仍可確立臨床相關性。此乃因鑑別與特定生理或病理狀態相關聯或相關之優先末端位置可基於相同實驗室方案或方法原理,其將產生與校正樣品及測試樣品二者中之無細胞DNA末端一致且可再現之變化。多個DNA定序方案使用單鏈DNA文庫(Snyder等人,Cell 2016, 164: 57-68)。與雙鏈DNA文庫之末端相比,單鏈文庫之序列讀段之末端可更向內或進一步延伸。
末端位置之基因體身份或基因體坐標可源自序列讀段與人類參照基因體(例如hg19)對準之結果。其可源自表示人類基因體之原始坐標之指示物或代碼之目錄。儘管末端係無細胞DNA分子之一或兩個極端之核苷酸,但該末端之檢測可經由識別血漿DNA分子上之其他核苷酸或其他核苷酸段來進行。舉例而言,經由結合至擴增子之中間鹼基之螢光探針檢測具有優先端點之血漿DNA分子之陽性擴增。例如,末端可藉由結合至血漿DNA分子之中間部分上之一些鹼基之螢光探針之陽性雜交來鑑別,其中已知片段大小。以此方式,藉由檢查具有已知序列及基因體身份之螢光探針外部之鹼基數可確定末端之基因體身份或基因體坐標。換言之,可經由檢測同一血漿DNA分子上之其他鹼基來鑑別或檢測末端。末端可為藉由(但不限於)靶特異性探針、微定序及DNA擴增讀取之無細胞DNA分子上之位置或核苷酸身份。
II. 血漿 DNA 之片段化模式對於母體血漿DNA之片段化模式之分析,對自婦產科(Department of Obstetrics and Gynaecology)招募之12週妊娠年齡之懷孕女性之血漿DNA進行定序(Lo等人,Sci Transl Med 2010; 2(61):61ra91)。使用Illumina基因體分析儀平臺使自母親獲得之血漿DNA經受大規模平行定序。可使用其他大量平行或單分子定序儀。實施血漿DNA分子之末端配對定序。對每一分子之每一個末端50 bp進行定序,由此總共100 bp/分子。使用SOAP2程式使每一序列之兩個末端與參照人類基因體(Hg18 NCBI.36)對準(Li R等人,Bioinformatics 2009, 25:1966-7)。亦自父親及母親之膚色血球層樣品及CVS樣品提取DNA。使用Affymetrix全基因體人類SNP陣列6.0系統對該等DNA樣品進行基因分型。
A. 片段化之實例量化為反映片段化模式,可基於母體血漿DNA之定序結果確定基因體之每一核苷酸之完整機率(P
I),
其中N
z係覆蓋靶核苷酸之兩側(5’及3’)上之至少z個核苷酸(nt)之全長經定序讀段的數量;且N
T係覆蓋靶核苷酸之經定序讀段之總數。
P
I之值可反映具有以長度為z值之兩倍加1 (2z+1)之特定位置為中心之完整DNA分子之機率。完整機率(P
I)之值越高,血漿DNA在特定核苷酸位置片段化之可能性越低。為進一步說明此,在
圖 23中圖解說明完整機率之定義。
圖 23顯示完整機率(P
I)之定義之說明性實例。T係所計算PI之靶核苷酸之位置。A及B分別係T上游(5’) z個核苷酸(nt)及下游(3’) z nt之兩個位置。自a至j標記之黑線代表母體血漿之經定序血漿DNA片段。片段a至d覆蓋所有三個位置A、B及T。因此,覆蓋靶核苷酸之兩側(5’及3’)上之至少z nt (N
z)之片段的數量為4。另外,片段e、f及g亦覆蓋位置T,但其並不覆蓋兩個位置A及B。因此,存在總共7個覆蓋位置T之片段(N
T=7)。片段h及j覆蓋A或B但不覆蓋T。該等片段不以N
z或N
T計數。因此,PI在此特定實例中為4/7 (57%)。
在一個實施例中,PI可使用25作為z值來計算。因此,完整血漿DNA片段將定義為覆蓋靶位置上游至少25 nt至靶位置下游25 nt之片段。在其他實施例中,可使用其他z值,例如(但不限於) 10、15、20、30、35、40、45、50、55、60、65、70、75及80。
PI係末端落在基因體位置之窗口內之無細胞DNA分子之相對豐度的實例。可使用其他度量,例如PI之倒數,其與具有完整DNA分子之機率具有相反關係。PI倒數之較高值係指示為末端落在端點位置或窗口之較高機率。其他實例係端點DNA片段之經測數相對端點DNA片段之期望數之p值、末點落在所有對準DNA片段外之DNA片段的比例或末端落於優先端點終止比率(PETR)之比例,其皆更詳細闡述於下文中。相對豐度之所有該等度量量測末端落在例如寬度為2z+1之窗口內之無細胞DNA片段之比率,其中z可為0,由此使該窗口等效於基因體位置。
B. 片段化模式之週期性在特定組織中基因體之某些區域容易具有較高比率(頻率)之染色體區域斷裂,且因此具有較高比率之末端落在該區域中之窗口內之無細胞DNA片段。相對豐度之圖顯示片段化模式,其可具有週期性結構。週期性結構顯示極大端點位置(高裂解)之位置及極小端點位置(低裂解)之位置。在使用PI時,極大值對應於低裂解之窗口,此乃因PI量測與裂解機率(端點位置機率)相反之完整機率,其彼此具有相反關係。
圖 24A及
24B顯示根據本發明實施例使用25作為z值跨越染色體6上之區段之PI變化。在
圖 24A中,PI變化係以不同強度之灰色來呈現,如左側圖解中所顯示。在
圖 24B中,在較短區段中可見PI變化。x軸係基因體坐標(以核苷酸(nt)表示)且y軸係P
I。P
I之變化具有約180 bp之表觀週期性。
C. 母體血漿中之母體及胎兒 DNA 之 P
I 之同步變化儘管P
I在整個基因體中以大約180 bp之週期性變化,進一步研究胎兒及母體源血漿DNA分子之P
I變化是否同步。同步變化意指PI之峰值(極大值)及谷值(極小值)出現在整個基因體或足夠高比例之基因體之相同相對核苷酸位置。可針對具體應用調整用於定義足夠高比例之臨限值,例如(但不限於) >20%、>25%、>30%、>35%、>40%、>45%、>50%、>55%、>60%、>65%、>70%、>75%、>80%、>85%、>90%及>95%。以下兩圖(
圖 25及
圖 26)顯示母體血漿中之母體及胎兒源DNA之P
I變化之間之兩種可能關係。
圖 25顯示母體血漿中之母體及胎兒源DNA之P
I之同步變化的圖解說明。PI之峰值及谷值出現在整個基因體或大部分基因體中之母體及胎兒DNA之相同相對位置。若在區域中存在同步變化,則胎兒源DNA及母體源DNA將具有相同片段化模式,藉此阻礙利用該區域中片段化模式之週期性作為一種組織類型之特徵。
圖 26顯示母體血漿中之母體及胎兒源DNA之PI之同步變化的圖解說明。母體及胎兒DNA之PI之峰值及谷值在整個基因體中不具恆定相對關係。在區域I中,母體DNA之PI之峰值與胎兒DNA之峰值一致。在區域II中,母體DNA之PI之峰值與胎兒DNA之谷值一致。在區域III及IV中,母體DNA之PI之峰值介於胎兒DNA之峰值與谷值之間。若變化不同步,則胎兒及母體片段化模式之此一差異可用作鑑別可能來自胎兒或母親之DNA之特徵。此外,此一差異可用於測定胎兒或母體組織之比例貢獻,如下文更詳細闡述。舉例而言,末端落在區域II中之一個峰值處之DNA片段更可能係胎兒DNA,且與其他基因體位置相比,末端落在此一峰值處之DNA片段之相對豐度將隨胎兒DNA分數增加而增加。
圖 27係顯示關於母體及胎兒DNA分子之PI變化是否同步之分析500之流程圖。分析500研究PI變化在母體血漿中之母體與胎兒源DNA之間是否同步。分析500可使用電腦系統。儘管分析500係使用定序來實施,如上文所述,但可使用其他技術,例如如本文所述。
在方塊510處,分析500鑑別其中懷孕女性係同型接合(AA)且胎兒係異型接合(AB)之SNP。該等SNP稱為資訊性SNP。B等位基因係胎兒特異性等位基因。該等資訊性SNP可藉由分析僅或主要為母體起源之母體樣品來鑑別。舉例而言,可使用血液樣品之膚色血球層,此乃因白血球將主要來自母親。僅出現一個核苷酸(或高百分比之一個核苷酸,例如大於80%,其可取決於胎兒DNA分數)之基因體位置可鑑別為在母親中係同型接合的。可分析血漿以鑑別出在母親中同型接合之位置,其中鑑別出足夠百分比之DNA片段以鑑別出另一等位基因。
在方塊520處,鑑別出具有胎兒特異性等位基因B之血漿DNA分子。該等DNA分子可鑑別為對應於胎兒組織作為鑑別出等位基因B之結果。
在方塊530處,測定母體血漿中之無細胞DNA之PI值。該等PI值包括胎兒及母體DNA。給定基因體位置之PI值係藉由分析與參照基因體之該基因體位置對準之序列讀段來獲得。
在方塊540處,藉由分析方塊530之輸出確定PI之峰值。峰值可以多種方式鑑別,且每一峰值可限於僅一個基因體位置或容許對應於一個以上之基因體位置。觀察到母體血漿中之幾乎母體源DNA之PI以竇狀模式及大約180 bp之週期性在整個基因體中變化。
在方塊550處,測定總母體血漿之資訊性SNP與最靠近PI (方塊540)之間之距離。鑑別出相對於主要源自懷孕女性自身之總血漿DNA之PI變化之最近峰值的SNP位置。
在方塊560處,聚集所有胎兒源DNA片段。聚集所有檢測到之攜帶胎兒特異性等位基因之血漿DNA片段用於計算胎兒源DNA之PI。然後參考總母體血漿DNA之最近PI峰值之位置計算所聚集胎兒源DNA片段之PI。以與總母體血漿DNA之PI計算類似之方式實施胎兒源DNA之PI之計算。
在方塊570處,確定相對於總母體血漿DNA之PI峰值之胎兒源DNA片段之PI變化。變化顯示於
圖 28中。
圖 28顯示兩個母體血漿樣品(S24及S26)之母體血漿樣品中之胎兒源(紅色/灰色)及總(藍色/黑色) DNA片段之PI變化之分析。垂直軸顯示PI,以百分比表示。水平軸顯示資訊性SNP與PI之最靠近峰值之間之鹼基對(bp)的距離。
總值包括胎兒及母體DNA之貢獻。總值跨越所有峰值PI聚集。如可見,SNP越靠近峰值PI,PI值越高。實際上,對於胎兒源DNA片段,峰值PI位於約位置0處。因此,母體及胎兒源DNA片段之PI之峰值在約相同位置處。根據該等數據推斷出母體及胎兒源DNA之PI變化係同步的。
儘管片段化模式似乎係同步的,但下文描述顯示,可利用除週期性外之其他性質來區分片段化模式,藉此容許確定特定組織類型之特徵。舉例而言,已發現某些基因體區域之峰值及谷值之波幅差異,由此容許使用彼等區域內之某些位置來確定組織特異性片段化模式。
D. 影響血漿 DNA 之片段化模式之變化之因素在先前研究中顯示,血漿DNA之片段化並不隨機靠近TSS (Fan等人,PNAS 2008;105:16266-71)。任何血漿DNA末端落在特定核苷酸上之機率將隨與TSS之距離而變化且具有大約核小體大小之週期性。通常認為此片段化模式係DNA之細胞凋亡降解之結果。因此,血漿DNA之大小通常類似於與組織蛋白複合物締合之DNA之大小。
在先前研究中亦顯示,血漿DNA之大小通常類似於與核小體締合之DNA之大小(Lo等人,Sci Transl Med 2010; 2(61):61ra91)。人們認為血漿DNA係經由細胞DNA (核DNA及粒線體DNA)之細胞凋亡降解來產生。此觀點進一步由在呈粒線體DNA形式之循環粒線體DNA中缺少此核小體模式並不與細胞中之組織蛋白相關支持。儘管顯示血漿DNA片段末端之核苷酸位置並非隨機靠近轉錄起始位點(Fan等人,PNAS 2008;105:16266-71),但仍不清楚管控血漿DNA之片段化模式之確切機制。
最近,已進一步顯示,血漿DNA之大小在具有不同序列背景之區域中將有所不同(Chandrananda等人,BMC Med Genomics 2015;8:29)。後者數據亦支持無細胞DNA片段更可能在核小體連接體區域上而非核小體核心處開始及結束之先前假說。該等發現與如先前部分中所述之完整機率之核苷酸至核苷酸變化一致。在此處,進一步假設完整機率變化之波幅將跨越不同基因體區域而變化。在任何先前研究中尚未充分探究或量化片段化可變性之此區域至區域變化。下圖圖解說明PI之局部及區域變化之概念。
圖 29顯示PI之變化波幅之圖解說明。在先前部分中,已展示在短DNA段上存在PI變化之竇狀模式。在此處,進一步分析較大基因體區域中之變化波幅。變化波幅係指在具有指定大小之特定區域PI之最高峰值與谷值變化之間之PI差異。在一個實施例中,特定區域之大小可為1000 bp。在其他實施例中,可使用其他大小,例如(但不限於) 600 bp、800 bp、1500 bp、2000 bp、3000 bp、5000 bp及10000 bp。
如
圖 29中所顯示,區域1之波幅高於區域2之波幅。此性態可見於下文數據中。若高波幅之該等出現出現在不同組織之不同基因體區域,則在分析組織類型之間之波幅不同之區域時,可利用波幅之量測來確定組織類型之比例貢獻。舉例而言,若不同組織類型之波幅不同,則比例貢獻將隨特定組織類型(例如,胎兒組織或腫瘤組織)之增加之DNA量而成比例變化。因此,波幅之量測將對應於特定比例貢獻。實施例可使用其中比例貢獻係經由另一技術(例如,藉由分析等位基因、甲基化特徵、擴增/缺失程度)量測之樣品之校正數據,如美國專利公開案第2009/0087847號、第2011/0276277號、第2011/0105353號、第2013/0237431號及第2014/0100121號中所述,其各自係全文以引用方式併入本文中。
在定序數據中,觀察到PI之變化波幅跨越不同基因體區域而變化。假設PI之變化波幅與染色質對細胞凋亡期間之降解之可及性相關。因此,研究變化波幅與基因體中之DNase超敏感位點之間之可能關係。在先前研究中,觀察到血漿DNA之片段化模式受其與TSS之相對位置的影響。在分析中,研究TSS及DNase超敏感位點對血漿DNA之片段化模式之效應之相對重要性。可使用波幅對應於所測試組織之其他位點。此一類型位點之一個實例係使用利用高通量定序之轉位酶可及染色質分析(ATAC-Seq)鑑別出之位點(Buenrostro等人,Nat Methods 2013; 10: 1213-1218)。此一類型位點之另一實例係使用微球菌核酸酶(MNase)鑑別出之位點。
比較兩種類型之基因體區域中P
I變化之波幅:
i. 為TSS而非DNase超敏感位點之區域;及
ii. 為DNase超敏感位點而非TSS之區域。
自ENCODE數據庫(genome.ucsc.edu/ENCODE/downloads.html)檢索TSS及DNase超敏感位點之坐標。
使用以下方法剖析TSS及DNase I位點周圍之P
I模式。
1) 檢索靶向參照位點周圍上游及下游2 kb區域。
2) 然後根據與參照位點之距離再按比例繪製絕對基因體坐標。舉例而言,若大小為60 bp之特定窗口距上游方向上之參照位點50 bp,則其將標記為-50。否則若大小為60 bp之特定窗口距下游方向上之參照位點50 bp,則其將標記為+50。
3) 使用與特定窗口重疊之完整片段及所有片段之計數再計算具有相同的再按比例繪製之新坐標之該窗口之P
I值。
圖 30A顯示在為DNase超敏感位點而非TSS之區域P
I變化之模式。
圖 30B顯示在為TSS而非DNase超敏感位點之區域P
I變化之模式。如所顯示,變化波幅在為DNase超敏感位點而非TSS之區域中遠高於為TSS而非DNase超敏感位點之彼等。該等觀察結果表明,影響血漿DNA之片段化模式之一個因素係經受片段化之區域與DNase超敏感位點之相對位置。
III. 使用峰值及谷值來確定組織之比例鑒於已展示與DNase超敏感位點之相對位置係管控血漿DNA之片段化模式之重要因素,研究此觀察結果是否可轉化至臨床應用中。已觀察到,DNase超敏感位點之概況在不同類型之組織中有所不同。該等概況對應於位點之基因體位置;不同組織之DNase超敏感位點之位置有所不同。因此,推論出自不同類型之組織釋放之血漿DNA將展現組織特異性片段化模式。以類似方式,可使用區域之波幅自組織至組織變化之其他區域。
A. DNase 超敏感位點之實例 圖 31顯示用於量測自不同組織釋放之DNA之比例之原理的圖解說明。源自組織A之血漿DNA在具有高PI (峰值,由P表示)之核苷酸位置具有較低片段化機率。因此,源自組織A之血漿DNA之末端具有位於該等核苷酸位置之較低機率。相比之下,源自組織A之血漿DNA之末端具有位於具有低PI (谷值,由T表示)之核苷酸位置之較高機率。另一方面,由於此位點並非組織B之DNase超敏感位點,故源自組織B之血漿DNA之PI變化之波幅較低。因此,至少相對於對組織A可見之變化量,來自組織B之血漿DNA末端落在位置P及位置T之機率將相似。
為組織A之DNase超敏感位點之區域之片段末端比率(FR
A)定義如下:
其中N
T係末端落在P
I谷值之核苷酸位置上之血漿DNA片段的數量,且N
P係末端落在P
I峰值之核苷酸位置上之血漿DNA片段的數量。FR
A係分離值之實例,且更具體而言係末端落在谷值相對於末端落在峰值之DNA片段的相對豐度之實例。在其他實施例中,可確定相鄰谷值(局部極小值)與峰值(局部極大值)之分離比,且可確定分離比之平均值。
對於組織A,FR
A將大於1,此乃因N
T將大於N
P。對於組織B,FR
A將為約1,此乃因NT及NP將相似。因此,在含有源自組織A及B二者之血漿DNA之混合物中,FR
A之值將與組織A之比例貢獻具有正相關。實際上,組織B之FR
A無需為1。只要組織B之FR
A不同於組織A之FR
A,即可根據FR
A確定兩種類型組織之比例貢獻。
在該等區域中,DNA片段末端落在谷值之概率高變化使得末端落在該等位置之DNA片段數量高於末端落在峰值之DNA片段數量(注意,對於不同的所定義相對豐度值,針對峰值可出現較高概率)。當更多DNA片段係來自組織類型A時,末端落在谷值及峰值之DNA片段之數量之差異將更大。因此,隨著組織A之比例貢獻增加,末端落在谷值之DNA片段數量與末端落在峰值之DNA片段數量之間的分離會更大。此分離值對應於組織A之
圖 31中所顯示之概率函數之高波幅。
B. 相對豐度與比例貢獻之間之關係 圖 32顯示FR
A與組織A對混合物中DNA之比例貢獻之間的關係,其係藉由分析兩種或更多種具有已知比例濃度之來自組織A之DNA的校正樣品來確定。在所顯示實例中,分析組織A之比例貢獻為x
1及x
2之兩種樣品。兩種樣品之FR
A值分別測定為y
1及y
2。FR
A與A之比例貢獻之間之關係可基於x
1、x
2、y
1及y
2之值來確定。
值y1及y2係校正值之實例。數據點(x1,y1)及(x2,y2)係校正數據點之實例。校正數據點可擬合至函數以獲得校正曲線1010,其可為線性的。當對新樣品量測新FR
A(或其他相對豐度值)時,可比較新FR
A與至少一個校正值以確定新樣品之比例貢獻之分類。與校正值比較可以多種方式進行。舉例而言,可使用校正曲線來發現對應於新FR
A之比例貢獻x。作為另一實例,可比較新FR
A與第一校正數據點之校正值y1以確定新樣品係具有大於抑或小於x1之比例貢獻。
在其他實施例中,可以與針對組織A之比例貢獻類似之方式分析含有兩種以上類型之組織之混合物,只要其他組織之FR
A相對恆定即可。該等方法實際上可用於分析不同的臨床情形,例如(但不限於)癌症檢測、移植監測、創傷監測、感染及出生前診斷。
在一個實施例中,可測定癌症患者之血漿中受侵襲組織之分數濃度。舉例而言,在患有肝癌之患者中,可經由分析肝特異性開放染色質區域(例如,DNase超敏感位點)來確定肝DNA之分數貢獻。在一個實施例中,此可使用DNase-Seq來進行(Boyle等人,Cell 2008; 132: 311-322;Madrigal等人,Front Genet 2012; 16: 123-131)。在另一實施例中,此可藉由甲醛輔助調控元件分離(FAIRE)-Seq來實施(Giresi等人,Genome Res 2007; 17: 877-885)。在另一實施例中,此可藉由ATAC-Seq來實施(Buenrostro等人,Nat Methods 2013; 10: 1213-1218)。可確定該等位點之FR
肝且與正常健康個體比較。在肝特異性DNase超敏感位點,峰值與谷值區域之間之PI變化主要將貢獻自肝。經由與類似於
圖 32之校正曲線比較,可確定肝之貢獻。可比較所測試病例之FR
肝之值與健康個體中肝之一系列貢獻。可使用在混合物之不同組織中具有末端落在基因體位置之DNA片段之概率函數中波幅高變化之其他區域。該等其他區域之實例更詳細闡述於以下部分中。
類似地,可藉由此方法測定在已接受器官移植之患者中移植器官之貢獻。在先前研究中顯示,具有排斥之患者會增加移植器官DNA之釋放,從而產生血漿中升高的移植器官DNA濃度。分析移植器官之FR係可用於檢測及監測器官排斥之方式。用於該分析之區域端視所移植器官而變化。
在另一實施例中,此方法可用於測定母體血漿中之胎兒DNA濃度。在母體血漿中,攜帶胎兒基因型之DNA分子實際上源自胎盤。因此,若關注特異性針對胎盤但不存在於血球中之DNase超敏感位點,則將能夠經由分析FR
胎盤確定胎盤對血漿DNA之比例貢獻。
圖33顯示本發明實施例之FR
胎盤與母體血漿中之胎兒DNA百分比之間之關聯根據。垂直軸對應於FR
胎盤,如使用位於一或多個DNase超敏感位點中之一或多個局部極大值及局部極小值所確定。水平軸係使用單獨量測技術量測之胎兒DNA分數。如可見,FR
胎盤之值與胎兒DNA分數相關聯。在此實例中,胎兒DNA分數係基於在母親為同型接合且胎兒為異型接合之SNP下胎兒特異性等位基因之比例來確定。因此,胎兒DNA百分比可使用FR
胎盤基於母體血漿DNA之定序結果來估計。
或者,由於母體血漿中之兩種主要組分係胎盤源DNA及源自血球(不同組織類型)之DNA,故推論出FR
血液將與血漿中胎兒DNA之分數濃度呈負相關。由此,鑑別出特異性針對血球之DNase超敏感位點且確定FR
血液。
圖34顯示FR
血液與母體血漿中之胎兒DNA濃度之間之關聯。垂直軸對應於FR
血液,如使用位於一或多個DNase超敏感位點中之一或多個局部極大值及局部極小值所確定。水平軸係基於母體血漿中胎兒特異性等位基因之比例量測之胎兒DNA分數。在FR
血液與胎兒DNA百分比之間可觀察到負相關。因此,胎兒DNA百分比可使用FR
血液基於母體血漿DNA之定序結果來估計。因此,基因體區域可具有特異性針對多種組織類型之片段化模式,例如對一(些)組織呈正相關且對另一(些)組織呈負相關。
C. 使用極大值及極小值之方法 圖 35係根據本發明實施例分析生物樣品以確定第一組織類型之比例貢獻之分類的方法1300之流程圖。生物樣品包括來自包括第一組織類型之複數個組織類型之無細胞DNA分子之混合物。與本文所述之其他方法一樣,方法1300可使用電腦系統。第一組織類型(例如,肝組織或胎兒組織)可基於具體個體來選擇。舉例而言,若個體先前患有肝癌,則可實施篩選以檢查肝癌是否恢復,此將增加肝組織之比例貢獻。此一選擇準則適用於本文所述之其他方法。
在方塊1310處,鑑別出至少一個具有特異性針對第一組織類型之片段化模式之基因體區域。作為實例,至少一個基因體區域可包括一或多個DNase超敏感位點。至少一個具有特異性針對第一組織類型之片段化模式之基因體區域中之每一者可包括至少一個額外樣品中的一或多個第一組織特異性等位基因,例如將如部分VI中所述。作為另一實例,至少一個基因體區域可包括一或多個ATAC-seq或微球菌核酸酶位點。第一組織類型可對應於特定器官或甚至對應於器官之特定癌症。
在方塊1320處,分析來自生物樣品之複數個無細胞DNA分子。無細胞DNA分子之分析包括確定參照基因體中對應於無細胞DNA分子之至少一個末端之基因體位置(端點位置)。因此,可確定無細胞DNA分子之兩個端點位置或僅一個端點位置。
端點位置可以多種方式確定,如本文所述。舉例而言,可對無細胞DNA分子進行定序以獲得序列讀段,且可將該等序列讀段映射(對準)至參照基因體。若生物體係人類,則參照基因體將為可能來自特定亞群之參照人類基因體。作為另一實例,可用不同探針分析無細胞DNA分子(例如,在PCR或其他擴增後),其中每一探針對應於可覆蓋至少一個基因體區域之基因體位置。
可分析統計學上顯著數量之無細胞DNA分子以提供第一組織類型之比例貢獻之準確測定。在一些實施例中,分析至少1,000個無細胞DNA分子。在其他實施例中,可分析至少10,000或50,000或100,000或500,000或1,000,000或5,000,000個無細胞DNA分子或更多。
在方塊1330處,鑑別出第一基因體位置之第一集合。具有無細胞DNA分子末端之局部極小值之每一第一基因體位置對應於第一基因體位置。多個相鄰基因體位置可定義為局部極值(極大值或極小值),且因此局部極大值並不限於僅一個位置。
在一些實施例中,可測定複數個基因體位置中之每一者之比率。可測定末端落在基因體位置且延伸至少指定數量之核苷酸至基因體位置兩側之無細胞DNA分子的第一量,例如如針對
圖 23所述。位於基因體位置之無細胞DNA分子之第二量可與第一量一起使用來確定比率。可以比率鑑別複數個局部極小值及複數個局部極大值,例如藉由步進穿過比率值,以鑑別出一或多個在每一極值(極大值或極小值)處出現之連續基因體位置。
在方塊1340處,鑑別出第二基因體位置之第二集合。具有無細胞DNA分子末端之局部極大值之每一第二基因體位置對應於第二基因體位置。第二集合可以與第一集合類似之方式鑑別。
在方塊1350處,測定末端落在至少一個基因體區域中之任一者中之任一第一基因體位置上之無細胞DNA分子之第一數量。第一數量可以多種方式測定為例如跨越所有第一基因體位置之和。作為另一實例,可測定每一基因體位置之分離量。因此,測定無細胞DNA分子之第一數量可包括測定末端落在每一第一基因體位置上之無細胞DNA分子的第一量,藉此確定複數個第一量。
在方塊1360處,測定末端落在至少一個基因體區域中之任一者中之任一第二基因體位置上之無細胞DNA分子之第二數量。第二數量可以與第一數量類似之方式測定。因此,測定無細胞DNA分子之第二數量可包括測定末端落在每一第二基因體位置上之無細胞DNA分子的第二量,藉此測定複數個第二量。
在方塊1370處,使用第一數量及第二數量計算分離值。分離值可以多種方式(例如藉由第一數量與第二數量之比率)計算,如部分III.A中所述。在另一實施方案中使用多個極大值及極小值,可測定每一該基因體位置之量。計算分離值可包括確定複數個分離比,即複數個第一量中之一者與複數個第二量中之一者之每一分離比。分離值可使用複數個分離比(例如,分離比之平均值或中值)來確定。
在方塊1380處,藉由比較分離值與自一或多個已知第一組織類型之比例貢獻之校正樣品測定之一或多個校正值來確定第一組織類型之比例貢獻之分類。
D. 無擴增分析方塊1310中無細胞DNA分子之分析可為無擴增分析。當使用PCR時,定序深度(即末端落在參照基因體中覆蓋特定核苷酸或在特定核苷酸上之序列讀段之數量)並不直接反映分析覆蓋該特定核苷酸之血漿DNA分子之數量。此乃因一個血漿DNA分子在PCR過程期間可產生多個重複,且多個序列讀段可源自單一血漿DNA分子。此複製問題將因以下各項而變得更重要:i) 較高數量之擴增定序文庫之PCR週期;ii) 增加的定序深度,及iii) 原始血漿樣品(例如較小血漿體積)中較小數量之DNA分子。
另外,PCR操作引入其他誤差(Kinde等人,Proc Natl Acad Sci USA 2011; 108: 9530-9535),此乃因DNA聚合酶之保真度並非100%,且偶然地,錯誤核苷酸將納入PCR子鏈中。若此PCR誤差出現在早期PCR週期期間,則將產生顯示相同誤差之子代分子之純系。錯誤鹼基之分數濃度在來自同一基因座之其他DNA分子中可達到如此高之比例以致於該誤差將誤釋為例如胎兒源或腫瘤源突變。無PCR方案之實例包括:Berry Genomics (investor.illumina.com/mobile.view?c=121127&v=203&d=1&id=1949110);Illumina (www.illumina.com/products/truseq-dna-pcr-free-sample-prep-kits.html)及多種單分子定序技術。無擴增分析之其他細節可參見PCT申請案第PCT/CN2016/073753號。
因此,一些實施例可包括自欲分析之生物樣品獲得模板DNA分子;使用模板DNA分子製備可分析DNA分子之定序文庫;製備可分析DNA分子之定序文庫,不包括模板DNA分子之DNA擴增之操作;對可分析DNA分子之定序文庫進行定序以獲得對應於第一複數個無細胞DNA分子之複數個序列讀段。分析第一複數個無細胞DNA分子可包括在電腦系統上接收複數個序列讀段及藉由電腦系統將複數個序列讀段與參照基因體對準以確定複數個序列讀段之基因體位置。
IV. 左側及右側核苷酸之相對豐度 圖 36顯示腫瘤或胎兒源DNA之循環DNA斷片不同之原理的圖解說明。在先前研究中已顯示,循環DNA之大小非常類似於核小體DNA之大小。在血漿DNA之大小分佈中166 bp之主峰表示與組織蛋白複合物之核心締合之DNA及連接兩個連續組織蛋白複合物之連接體DNA。
亦已觀察到,在癌症患者及懷孕女性之血漿中,胎兒及腫瘤源DNA分子之大小分佈短於非腫瘤及非胎兒源DNA之彼等(Lo等人,Sci Transl Med 2010; 2(61):61ra91及Jiang等人,Proc Natl Acad Sci U S A 2015;112:E1317-25。)。對於血漿中腫瘤及胎兒源DNA之大小分佈,166 bp之峰值減少且144 bp之峰值更佔優勢。144 bp峰值可能歸因於連接兩個連續組織蛋白複合物之約20 bp連接體DNA之降解。
為說明此方法之原理,使用癌症患者之情形作為實例。然後可將相同原理應用於其他情形,包括懷孕母體血漿中之循環胎兒DNA之分析及已接受移植之患者血漿之分析。實施例可分析血漿DNA分子之末端,在
圖 36中表示為左及右末端。
當將非惡性組織之DNA片段化且釋放至血漿中時,兩個分子之連接末端將皆位於核苷酸位置A處。換言之,對於右側之分子,左最外側核苷酸緊鄰核苷酸位置A。對於左側之分子,右最外側核苷酸亦緊鄰核苷酸位置A。當針對核苷酸坐標繪製末端落在特定核苷酸處之分子之相對豐度時,映射至此區域之左及右最外側核苷酸之末端之峰值豐度將處於位置A。對於源自腫瘤細胞之DNA分子,在片段化過程後將自該等分子移除20 bp片段。
因此,在右側分子之左側與左側分子之右側之間將存在20 bp之空隙。當針對核苷酸坐標繪製末端落在特定核苷酸處之分子之相對豐度時,右最外側核苷酸之峰值(位於B處)及左最外側核苷酸之峰值(位於C處)將間隔20 bp。因此,末端落在核苷酸位置B及C上之分子的豐度與末端落在位置A上之分子的豐度之間之比率將代表血漿樣品中腫瘤源DNA之分數濃度。
相同原理可適用於具有差異大小分佈之DNA物質之量化,例如(但不限於)懷孕女性血漿中之胎兒DNA之量測及來自移植器官之DNA之量測。
圖 37係分析來自包括第一組織類型之複數個組織類型之包括無細胞DNA分子之混合物的生物樣品的方法1500之流程圖。可使用方法1500之各部分來實施方塊1310及鑑別優先端點位置之其他方塊。
在方塊1510處,分析無細胞DNA分子以確定參照基因體中之左側及右側端點位置。方塊1510可以與方塊1320類似之方式實施。在方塊1510中,可分析來自個體之生物樣品之第一複數個無細胞DNA分子,其中第一複數個無細胞DNA分子中之每一者皆具有左末端及右末端。參照基因體中對應於無細胞DNA分子左末端之左側端點位置可例如藉由使DNA片段之序列讀段對準(映射至)參照基因體或經由已知參照基因體中之位置之探針來確定。左末端係指任一個末端,此端視用於定義參照基因體所選之坐標系統而定。類似地,可確定參照基因體中對應於無細胞DNA分子右末端之右側端點位置。例如若兩個末端具有單獨序列讀段,則可在兩個單獨對準操作中確定兩個端點位置。
在方塊1520處,鑑別出左側基因體位置之左集合。左集合之每一基因體位置具有對應於左側基因體位置左集合中之一者之第一複數個無細胞DNA分子左末端之局部極大值。左集合可以與針對方法1300之極大值所述類似之方式確定。
在方塊1530處,鑑別出右側基因體位置之右集合。右集合之每一基因體位置具有對應於基因體位置右集合中之一者之第一複數個無細胞DNA分子右末端之局部極大值。右集合可以與針對方法1300之極大值所述類似之方式確定。
在方塊1540處,第一組基因體位置鑑別為特異性針對第一組織類型。可比較左集合之左側基因體位置之全部或一部分與右集合之右側基因體位置的全部或一部分,以鑑別出左側基因體位置至最近右側基因體位置之距離大於參照基因體中基因體位置(例如,核苷酸)之第一臨限距離的第一組基因體位置。第一臨限距離之實例為5個、6個、7個、8個、9個、10個、15個及20個核苷酸。
在方塊1550處,鑑別出第二組基因體位置。可比較左集合之左側基因體位置之全部或一部分與右集合之右側基因體位置的全部或一部分,以鑑別出左側基因體位置至最近右側基因體位置之距離小於參照基因體中基因體位置之第二臨限距離的第二組基因體位置。第二臨限距離之實例為2個、3個、4個及5個基因體位置(例如,核苷酸)。
在方塊1560處,使用末端落在基因體位置左集合中之一者之第一複數個無細胞DNA分子的第一數量及末端落在基因體位置右集合中之一者之第一複數個無細胞DNA分子的第二數量來確定分離值。可確定第一數量與第二數量之間之分離值(例如,相對豐度值)。
在一個實施例中,鑑別出第一組基因體位置及第二組基因體位置配對。該等配對可具有彼此最靠近之位置。對於一或多個對中之每一者,可確定末端落在第一基因體位置之無細胞DNA分子之第一量,且可確定末端落在第一基因體位置之無細胞DNA分子之第二量。無細胞DNA分子之第一量對應於複數個無細胞DNA分子之第一數量且無細胞DNA分子之第二量對應於複數個無細胞DNA分子之第二數量。舉例而言,第一量之和可為第一數量且第二量之和可為第二數量,且可根據第一數量及第二數量直接確定分離值。作為另一實例,可根據複數個比率確定分離值,每一比率包括一對之第一量及第二量。在多個實施方案中,可使用比率之平均值或中值作為分離值。各對之各別第一及第二量可以其他方式使用來確定用於確定總分離值之個別分離值。
在方塊1570處,藉由比較分離值與自一或多個已知第一組織類型之比例貢獻之校正樣品測定之一或多個校正值來確定第一組織類型的比例貢獻之分類。方塊1570可以與比例貢獻之其他測定類似之方式實施。
在各個實施例中,左集合及右集合皆可用作第一組基因體位置;僅可使用左集合;僅可使用右集合;或可使用左集合中之一些及右集合中之一些。對於整個左側位置集合,存在左側位置之子集,其相應位置右集合與左側位置之子集間隔臨限數量之核苷酸。因此,可使用左側位置之子集或右側位置之相應子集進行計算。
V. 組織特異性端點位置之用途源自癌細胞、胎盤細胞及各細胞類型之循環DNA之片段化模式可不同。可使用循環DNA片段之一或兩個末端之末端核苷酸之坐標來預測攜帶推定突變之DNA片段實際上是否源自腫瘤。可鑑別出血漿DNA片段中之癌症特異性及懷孕特異性端點位置。
A. 使用肝細胞癌 (HCC) 之癌症實例為說明此方法之可行性,分析肝細胞癌(HCC)患者及懷孕女性之血漿DNA之定序數據。出於說明之目的,分析集中在染色體8。相同方法可適用於全基因體或任何其他染色體。
確定每一經定序血漿DNA片段之兩個末端之末端核苷酸之坐標。然後,對末端落在染色體8上之每一核苷酸上之片段數進行計數。測定HCC病例及懷孕女性之具有末端落在核苷酸上之DNA片段之最高數量的前1百萬核苷酸。前1百萬可視為大於臨限值。
圖 38係文氏圖,其顯示特異性針對HCC病例、特異性針對懷孕女性及兩種病例共有之頻繁端點位點之數量。為特異性針對HCC病例之最頻繁端點位置之536,772個核苷酸之坐標顯示於附錄A中。為特異性針對懷孕女性之最頻繁端點位置之536,772個核苷酸之坐標列示於附錄B中。省略為兩種病例共有之最頻繁端點位置之463,228個核苷酸之坐標。
推論出具有末端恰好落在536,772個HCC特異性端點位置之末端核苷酸之血漿DNA片段將更可能源自腫瘤。基於此假設,末端落在HCC特異性端點位置上之經定序血漿DNA片段之數量可用於指示具有相同血漿DNA片段化模式之HCC或其他癌症之存在或不存在。在另一實施例中,此參數亦可用於反映癌症等級,例如(但不限於)腫瘤之大小、癌症之時期、腫瘤負荷及轉移之存在。
在另一實施例中,對於具有已知的血漿中之腫瘤DNA分數之樣品,末端落在HCC特異性端點位置上之片段數可與血漿中癌症源DNA之分數濃度相關聯。血漿中之腫瘤DNA分數可藉由例如(但不限於)量化血漿中之癌症突變或血漿DNA中之拷貝數畸變量值來確定(Chan等人,Clin Chem 2013;59:211-24)。此關聯可用作校正曲線(
圖 23)。對於具有未知血漿中之腫瘤DNA分數之患者,可測定末端落在HCC特異性端點位置上之DNA片段之量。然後,可基於校正曲線及末端落在HCC特異性端點位置上之DNA片段之量來確定血漿中之腫瘤DNA分數。在一實施方案中,可將末端落在HCC特異性端點位置上之DNA片段之量正規化成經定序DNA片段之總數、可對準讀段之總數或與某些染色體區域對準之DNA片段之數量。因此,可使用末端落在癌症特異性位置上之經定序DNA片段之比例作為參數。
圖 39顯示校正曲線,其顯示對於具有已知血漿中之腫瘤DNA分數之癌症患者,末端落在癌症特異性端點位置上之經定序DNA片段之比例與血漿中之腫瘤DNA分數之間的關係。此示意圖顯示校正曲線之腫瘤DNA分數與末端落在癌症特異性端點位置上之經定序DNA片段之比例之間的關係。校正曲線可藉由擬合自腫瘤DNA分數係經由其他技術測定之校正樣品測定之數據點來確定。
在本發明之另一實施例中,可確定患有不同類型癌症之患者之血漿DNA片段化模式。該等癌症患者之重疊末端可視為癌症特異性末端,而個別癌症類型之端點位置可視為特異性針對特定癌症類型。對於懷疑患有癌症之任一個體,首先可比較經定序血漿DNA片段與癌症特異性端點位置以確定個體患有癌症之概率。若個體可能患有癌症,則可分析經定序片段之癌症類型特異性端點位置以確定個體最可能患有之癌症。
在本發明之另一實施例中,可確定源自不同器官之DNA之端點位置且可用於確定血漿中來自不同器官之DNA之相對貢獻(或其他比例貢獻)。
B. 胎兒實例在另一實施例中,此方法可用於測定母體血漿樣品中之胎兒DNA分數。可藉由首先測定末端落在懷孕特異性端點位置上之經定序血漿DNA片段之比例與具有已知胎兒DNA分數之多個母體血漿樣品之胎兒DNA分數的關聯來建立校正曲線。胎兒DNA分數可藉由多種方法來測定,該等方法係例如(但不限於)測定樣品中之胎兒特異性等位基因、對於男性懷孕量化染色體Y上之靶及分析胎兒特異性甲基化標記物。對於具有未知胎兒DNA分數之懷孕血漿樣品,可測定末端落在懷孕特異性端點位置上之經定序血漿DNA片段之比例。使用此資訊,可基於校正曲線確定所測試血漿DNA樣品中之胎兒DNA分數。
C. 使用優先端點位置之套組在一些實施例中,提供用於分析含有複數個組織類型之無細胞DNA分子之混合物的生物樣品中之DNA之套組。該套組可包含一或多個與附錄A及B中所列示之基因體區域之至少一部分特異性雜交之寡核苷酸。在一個實施例中,該套組包括一或多個與附錄A中所列示之用於測試個體之HCC之基因體區域的至少一部分特異性雜交之寡核苷酸。在另一實施例中,該套組包括一或多個與附錄B中所列示之用於測試懷孕女性之基因體區域的至少一部分特異性雜交之寡核苷酸,例如以測定來自懷孕女性之母體生物樣品中之胎兒DNA分數。
VI. 使用多型性之端點位置分析在一些實施例中,可使用組織特異性等位基因來鑑別具有組織特異性片段化模式之區域。舉例而言,可藉由分析母體血漿樣品並比較所檢測等位基因與在僅母體樣品中檢測到之等位基因來鑑別胎兒特異性等位基因,如本文所述。相對於展現共有等位基因(即,胎兒及母親所共有)之組織之比率,具有高比率之末端落在其上之胎兒DNA分子的基因體位置可鑑別為具有胎兒組織特異性片段化模式。該等胎兒優先端點位置可為或可不為DNase超敏感位點,由此顯示多個基因體區域可具有針對片段化模式之組織特異性波幅,且實施例並不限於DNase超敏感位點。可對經腫瘤篩選之個體之樣品進行類似分析。
A. 胎兒實例可藉由分析懷孕女性之血漿DNA獲得優先端點位置。可經由基於多型性之方法區分胎兒源與母體源血漿DNA片段。可使用攜帶胎兒及母體特異性等位基因之片段來確定胎兒源及母體源DNA之優先端點位置。
對於此研究在知情同意下,自婦產科(Department of Obstetrics and Gynecology), Prince of Wales Hospital, Hong Kong招募妊娠38週之具有男性單胎懷孕之懷孕女性。將血液樣品在4℃下在1,600 g下離心10 min。收穫血漿部分且在4℃下在16,000 g下再離心10 min以移除血球。將血球部分在2,500 g下再離心,且移除任何殘餘血漿。利用QIAamp DNA血液微套組及QIAamp DSP DNA血液微套組(Qiagen)之血液及體液方案分別提取血球之DNA及母體血漿之DNA。根據製造商之組織方案利用QIAamp DNA微套組(Qiagen)自胎盤提取DNA。使用Illumina TruSeq無PCR文庫製備方案對定序文庫進行定序。使用短寡核苷酸比對程式2 (SOAP2)以末端配對模式分析末端配對定序數據(Li等人,Bioinformatics 2009;25:1966-1967)。使末端配對讀段與非重複遮蔽之參照人類基因體(Hg19)對準。對於每一末端之對準容許至多2個核苷酸錯配。然後分析針對2端之該等潛在對準之基因體坐標以確定任一組合是否將容許2端與具有正確定向、橫跨≤600 bp之插入物大小且映射至參照人類基因體中之單一位置之同一染色體對準。母體血漿樣品經定序至270×單倍體人類基因體覆蓋率之深度。使用相同定序方案,母體血球、父系血球及臍帶血細胞分別經定序至40×、45×及50×單倍體人類基因體覆蓋率。
為此,分析母體血漿DNA中重複出現的末端序列。
1. 胎兒特異性端點位置之鑑別利用母體血漿DNA樣品之極高定序深度之性能使用未經PCR擴增之文庫,研究在母體及胎兒基因體中是否可能存在在血漿DNA產生中將優先裂解之位點。為證實此效應,鑑別出母親為同型接合(基因型表示為AA)且胎兒為異型接合(基因型表示為AB)之資訊性SNP基因座。在此說明性實例中,B等位基因將具有胎兒特異性且A等位基因將由母親及胎兒所共有。代表性實例顯示於
圖 40中。作為對照,顯示自血球獲得且使用超音波處理人工片段化之DNA樣品之定序結果。
在血漿DNA中觀察到非隨機片段化模式。對於為DNA片段之末端之機率之圖,對攜帶胎兒特異性等位基因及母親共有之等位基因之兩組片段中之每一者觀察到三個峰值。該等峰值分別代表母體血漿中之胎兒及母體源DNA之末端位置之熱點。峰值之位置在該兩組之間極大地重疊。相比之下,經超音波處理之DNA之片段化模式似乎係隨機的且片段末端機率在整個區域中相似。
圖 40顯示攜帶胎兒特異性等位基因及母親及胎兒所共有之等位基因之血漿DNA之非隨機片段化模式的說明性實例。在圖之上部分,每一水平線代表一個經定序DNA片段。DNA片段之末端代表經定序讀段之端點位置。根據左最外側核苷酸之坐標(最小基因體坐標)來分選該等片段。在圖之下部分,顯示末端落在特定位置上之片段之百分比。X軸表示基因體坐標且SNP位於由虛線指示之中心處。
進一步探索具有增加的為血漿DNA片段之端點位置之機率的坐標。基於片段覆蓋資訊性SNP集中探索,以使得可單獨評估攜帶胎兒特異性等位基因及母親及胎兒所共有之等位基因之片段。使用帕松機率函數確定人類基因體內之某些位置是否具有為血漿DNA片段之端點位置之顯著增加的機率。對於母親為同型接合(基因型AA)且胎兒為異型接合(基因型AB)之SNP之分析,A等位基因將為「共有等位基因」且B等位基因將為胎兒特異性等位基因。對攜帶共有等位基因及胎兒特異性等位基因之經定序讀段之數量進行計數。在血漿DNA之大小分佈中,對於胎兒源及母體源DNA二者將在166 bp下觀察到峰值。若血漿DNA之片段化係隨機的,則兩個末端將均勻分佈於資訊性SNP上游166 bp及下游166之區域中。
p值可基於帕松機率函數來計算以確定特定位置是否具有為攜帶共有等位基因或胎兒特異性等位基因之讀段之末端之顯著增加的機率。
p值=帕松(N
實際, N
預測)
其中帕松()係帕松機率函數;N
實際係末端落在特定核苷酸之讀段之實際數量;且N
預測係讀段之總數除以166。使用<0.01之p值作為定義攜帶胎兒特異性等位基因或共有等位基因之讀段之優先端點位置之截止值。確定獨立地攜帶共有等位基因及胎兒特異性等位基因之DNA片段之統計學上顯著之端點位置(
圖 41)。可使用其他機率分佈,例如二項式分佈、負二項式分佈及正態分佈。
圖 41顯示在具有資訊性SNP之區域中基因體坐標為母體血漿DNA片段之端點位置之機率的圖。具有為攜帶共有等位基因及胎兒特異性等位基因之血漿DNA片段末端之顯著增加的機率之核苷酸位置之結果分別以紅色/灰色(大於0)及藍色/黑色(小於0)顯示。X軸代表基因體坐標且突變位於由虛線指示之中心處。如所顯示,存在具有高出現比率之僅針對胎兒特異性等位基因、僅針對共有等位基因之端點位置之坐標,且一些為二者所共有。
鑑別出總共4,131個(集合A)及10,021個(集合B)核苷酸位置,該等位置具有為分別攜帶胎兒特異性等位基因及共有等位基因之血漿DNA片段之末端之顯著增加的機會。集合C係重疊集合且含有4,258個核苷酸位置(
圖 25)。該等端點位置係自橫跨總共1.42 Mb且覆蓋4,303 SNP之區域獲得。因此,胎兒特異性片段之優先端點位置佔所分析區域之0.29%。存在24,500個、22,942個及31,925個末端分別落在集合A、集合B及集合C位置上之攜帶胎兒特異性等位基因之血漿DNA片段。存在27,295個、158,632個及87,804個末端分別落在集合A、集合B及集合C位置上之攜帶共有等位基因之血漿DNA片段。預期優先端點位置之數量或盛行率高的多及且出現在其他基因體坐標處。
如本文所述之基於多型性之方法僅鑑別與此胎兒-母體對之資訊性SNP相關之優先端點位置。因此,鑑別為優先端點係代表基因體中該等末端之子集。吾人已研發出非基於多型性來鑑別優先端點之方法。實際上,使用基於非多型性之方法可鑑別出更多優先端點方法。請參見下文所述之其他實驗。
圖 42顯示在母親中為同型接合且在胎兒中為異型接合之SNP中之血漿DNA片段之端點位置的分析。集合A包括攜帶胎兒特異性等位基因之片段之優先端點位置。集合B包括攜帶共有等位基因之片段之優先端點位置。集合C包括兩種類型之血漿DNA片段之優先端點位置。
使用相同原理進一步分析在母親中為異型接合(基因型AB)且在胎兒中為同型接合(基因型AA)之SNP中之母體源DNA片段的端點位置。鑑別出總共7,527個(集合X)及18,829個(集合Y)核苷酸位置,該等位置具有為分別攜帶胎兒特異性等位基因及共有等位基因之血漿DNA片段之端點位置之顯著增加的機會。集合Z係重疊集合且含有10,534個位置(
圖 26)。該等端點位置係自橫跨總共3.1 Mb且覆蓋9,489 SNP之區域獲得。因此,母體特異性片段之優先端點位置佔此對母親及胎兒之所分析區域之0.24%。存在69,136個、82,413個及121,607個末端分別落在集合X、集合Y及集合Z位置上之攜帶母體特異性等位基因之血漿DNA片段。存在46,554個、245,037個及181,709個末端分別落在集合X、集合Y及集合Z位置上之攜帶共有等位基因之血漿DNA片段。另外,此分析集中在覆蓋至少一個資訊性SNP之血漿DNA分子,鑑別出之優先端點僅代表整個基因體中該等非隨機末端之子集。
圖 43顯示在胎兒中為同型接合且在母親中為異型接合之SNP中之血漿DNA片段之端點位置的分析。集合X包括攜帶母體特異性等位基因之片段之優先端點位置。集合Y包括攜帶共有等位基因之片段之優先端點位置。集合Z包括兩種類型之血漿DNA片段之優先端點位置。
2. 使用重複出現的端點位置來推斷胎兒 DNA 分數鑑別出源自母親及胎兒之血漿DNA片段之重複出現的端點位置後,推論出末端落在該等核苷酸位置集合上之血漿DNA之相對豐度將反映胎兒DNA分數。為確認此,對26個各自攜帶男性胎兒之早期懷孕(10~13週)女性之血漿DNA進行定序。中值映射之讀段計數為16百萬(範圍:12-22百萬)。使用與染色體Y對準之經定序讀段之比例來計算每一血漿樣品中之實際胎兒DNA分數。在具有重複出現的末端之胎兒(集合A)及母體(集合X)之血漿DNA之相對豐度(表示為F/M比率)與胎兒DNA分數之間可觀察到正相關(R=0.63, P = 0.0004,皮爾森關聯(Pearson correlation),
圖 44)。有趣的是,儘管基於一對胎兒及母親之資訊性SNP鑑別出優先端點位置且僅代表基因體中該等末端之子集,但所鑑別出之末端亦與其他懷孕相關且甚至僅利用此優先端點子集即可達成與胎兒分數之關聯。
圖 44顯示具有重複出現末端之胎兒(集合A)及母體(集合X)之血漿DNA分子之相對豐度(比率(F/M))與胎兒DNA分數之間之關聯。每一數據點可對應於各別校正樣品,且因此視為校正數據點。擬合校正數據點之線係校正函數之實例。
可使用除集合A及集合X外之其他子集。舉例而言,可獲取集合A相對於集合C及集合A相對於集合B之比率(或其他相對豐度或比率函數)。作為另一實例,可獲取集合X與集合Z之比率或集合X與集合Y之間之比率,此將提供母體DNA分數,其可假設為胎兒DNA分數之倒數。在此一實例中,母體組織可為其比例貢獻經確定(即使係暗含地)之第一組織類型。
3. 大小之用途末端落在胎兒特異性端點位置上之血漿DNA片段之大小分佈提供位置具有胎兒特異性之其他證據。為進一步支持集合A及集合X位置分別係胎兒源及母體源DNA片段之優先末端位點,比較末端落在該兩個位置集合上之血漿DNA之大小分佈。對於該等位置所源自之樣品,末端落在集合A位置上之片段之大小分佈短於末端落在集合X位置上之彼等(
圖 45A)。
圖 45A顯示末端落在胎兒優先端點位置(集合A)上之片段(以藍色/黑色表示)及末端落在母體優先端點位置(集合X)上之片段(以紅色/灰色表示)的血漿DNA大小分佈。對末端落在集合A位置上之片段觀察到與末端落在集合X位置上之彼等相比較短之大小分佈。
圖 45B顯示兩個片段集合之大小分佈之累積圖。
圖 45C顯示兩個片段集合之累積頻率之差異(ΔS)對片段大小。
圖 45D顯示ΔS對集合A及集合X末端位置至具有較大基因體坐標之位置移位0至5 bp之大小。
圖 45E顯示ΔS對集合A及集合X端點位置在相反方向上移位0至5 bp (具有較小基因體坐標之位置)之大小。
為進一步量化大小分佈之差異,繪製兩條曲線之累積頻率(
圖 45B)。兩條曲線之差異(由ΔS表示)繪製於
圖 45C中。觀察到在166 bp下觀察到極大差異。此與可在166 bp下觀察到胎兒與母體源DNA之間之極大差異的先前報導一致(Yu等人,Proc Natl Acad Sci U S A. 2014;111:8583-8)。本發現表明,末端落在胎兒優先端點位置(集合A)上之片段與末端落在母體優先端點位置(集合X)上之彼等相比存在胎兒源DNA富集。
藉由使集合A及集合X端點位置在基因體上游或下遊移位1至5 bp來進一步研究該等端點位置之特異性。針對集合A及集合X端點位置在兩個方向上移位之大小繪製ΔS值(
圖 45D及
45E)。位移為正數表示移位至具有較大基因體坐標之位置(
圖 45D)且位移為負數表示移位至具有較小基因體坐標之位置(
圖 45E)。即使胎兒及母體優先位置移位1 bp仍將顯著減小末端落在該兩個位置集合上之DNA片段之間的大小差異(ΔS)。移位5 bp幾乎完全消除大小差異。該等結果表明,末端落在彼等替代位置之讀段之胎兒或母體特異性不如在藉由算法鑑別出之末端落在彼等優先端點位置之讀段。該等數據進一步支持血漿無細胞DNA分子極其精確地在彼等優先端點位置斷片或裂解的解釋。換言之,非隨機無細胞DNA片段化過程精確至具體核苷酸含量。
然後,分析自26個用於胎兒DNA分數分析之早期血漿樣品彙集之經定序讀段。對末端落在集合A位置上之片段觀察到與末端落在集合X位置上之彼等相比較短之大小分佈(圖24A)。
圖 46A顯示在自26個早期懷孕女性彙集之血漿DNA樣品中末端落在胎兒優先端點位置(集合A)上之片段(以藍色/黑色表示)及末端落在母體優先端點位置(集合X)上之片段(以紅色/灰色表示)的血漿DNA大小分佈。對末端落在集合A位置上之片段觀察到與末端落在集合X位置上之彼等相比較短之大小分佈。
圖 46B顯示兩個片段集合之大小分佈之累積圖。
圖 46C顯示兩個片段集合之累積頻率之差異(ΔS)對片段大小。
圖 46D顯示ΔS對集合A及集合X位置移位0至5 bp (較大基因體坐標)之大小。
圖 46E顯示ΔS對集合A及集合X位置在相反方向上移位0至5 bp (較小基因體坐標)之大小。末端落在兩個位置集合上之血漿DNA片段之間之大小差異(ΔS)隨該等位置之移位而減小,此指示該等位置將精確至單核苷酸含量。
B. 癌症實例相同策略亦可適用於分析癌症源片段之優先端點位置。在此實例中,對患有肝細胞癌(HCC)之患者之血漿(220×覆蓋率)、膚色血球層(48×)及腫瘤組織(45×)進行定序。藉由比較腫瘤組織與膚色血球層之基因型獲得患者之突變概況。為確定癌症源血漿DNA片段之優先端點位置,分析攜帶癌症突變之血漿DNA片段。如
圖 46A-46E中所顯示,HCC患者中血漿DNA之片段化模式並非隨機的。某些核苷酸位置具有為血漿DNA片段末端之增加的機率。
1. 癌症特異性端點位置之鑑別 圖 47顯示HCC患者之血漿DNA之非隨機片段化模式之說明性實例。在圖之上部分,每一水平線代表一個經定序DNA片段。紅線/灰線及藍線/黑線分別代表攜帶野生型及突變體等位基因之DNA片段。DNA片段之末端代表經定序讀段之端點位置。根據左最外側核苷酸之坐標(最小基因體坐標)來分選該等片段。在圖之下部分,顯示末端落在特定位置上之片段之百分比。X軸代表基因體坐標且突變位於由虛線指示之中心處。
如先前所述使用帕松機率分佈函數鑑別出具有為攜帶突變體等位基因及野生型等位基因之血漿DNA片段末端之增加的機率之基因體位置。使用0.01之p值作為臨限值。反之亦然,如PCT申請案第PCT/CN2016/073753號中所述,即當鑑別出具有特定末端之血漿DNA分子時,該分子上之SNP等位基因或突變更可能為癌症源、疾病相關或懷孕相關的,此端視在血漿DNA數據解釋中所用之末端集合而定。
圖 48係基因體坐標為具有突變位點之區域中之血漿DNA片段之端點位置的機率之圖。具有為攜帶野生型等位基因及突變體等位基因之血漿DNA片段末端之顯著增加的機率之核苷酸位置之結果分別以紅色/灰色及藍色/黑色顯示。X軸代表基因體坐標且突變位於由虛線指示之中心處。如所顯示,存在具有高出現比率之僅針對突變體特異性等位基因、僅針對野生型等位基因之端點位置之坐標,且一些為二者所共有。
圖 49A顯示跨越其中突變存在於腫瘤組織中之基因體位置之血漿DNA片段之端點位置的分析。集合E包括攜帶突變體等位基因之片段之優先端點位置。集合F包括攜帶野生型等位基因之片段之優先端點位置。集合G包括兩種類型之血漿DNA片段之優先端點位置。
2. 使用重複出現的端點位置來推斷腫瘤 DNA 分數由於集合E位置係癌症源DNA之優先端點位點且集合F位置係主要源自非腫瘤組織之背景DNA之優先端點位點,故假設末端落在該兩個位置集合上之片段之間的比率將與源自腫瘤之DNA相關聯。因此,分析血漿含有至少1%之腫瘤源DNA之71個HCC患者之血漿。先前分析該等患者之血漿DNA之拷貝數畸變且根據拷貝數畸變之量值估計腫瘤DNA分數。(Jiang等人,Proc Natl Acad Sci U S A. 2015;112:E1317-25)。末端落在該兩個位置集合上之片段之間之比率(比率
M/WT)定義為:
圖 49B顯示比率
M/WT與71個HCC患者之血漿中之腫瘤DNA分數之間的關聯。觀察到比率
M/WT與血漿中之腫瘤DNA分數之間之正相關(r = 0.53, p < 0.001,皮爾森關聯)。該等結果表明,末端落在該等癌症優先端點位置上之片段之數量將可用於預測癌症患者血漿中腫瘤源DNA之量。
一些實施例可增加可及資訊性癌症DNA片段之數量,其係藉由組合檢測多種癌症特異性或癌症相關變化(例如單核苷酸突變)與癌症特異性或癌症相關DNA甲基化特徵(例如5-甲基胞嘧啶及羥基甲基化之位置)、癌症特異性或癌症相關短血漿DNA分子、癌症特異性或癌症相關組織蛋白修飾標記及癌症特異性或癌症相關血漿DNA末端位置之組合來實施。可使用某些癌症特異性或癌症相關變化作為鑑別突變之篩選準則。
VII. 多型性獨立性末端位置分析在其他實施例中,優先端點位置可藉由以下方式來獲得:(A) 比較不同個體之血漿DNA片段之端點位置或(B) 比較在不同時間點獲取之一個個體之樣品之血漿DNA片段的端點位置。
A. 比較患有不同病理及生理病況之個體之優先端點位置 1. 使用大於臨限值之排斥集基於帕松分佈機率函數,已鑑別出具有為先前部分中所述之懷孕女性及HCC患者之血漿片段之端點位置之增加的機率之基因體位置。在此分析中,虛無假設為所有血漿DNA片段將隨機片段化以使得每一基因體位置將具有為血漿DNA片段末端之相等機率。假設血漿DNA片段之大小平均為166 bp。p值計算為
p值= 帕松(N
實際, N
預測)
其中帕松()係帕松機率函數;N
實際係末端落在特定核苷酸之讀段之實際數量;及
,分母中之3 × 10
9代表基因體中之核苷酸數量。
使用Benjamini及Hochberg校正來調整p值(Bejamini等人,Journal of the Royal Statistical Society, 1995;57:289-300),以達成<1%之預期偽發現率(FDR)。
圖 50A顯示懷孕女性及HCC患者之血漿DNA之優先端點位置之數量。集合P含有2千9百萬個在懷孕女性中優先之端點位置。集合Q含有6百萬個在HCC患者中優先端點位置。集合S係重疊集合且含有1千5百萬個端點位置。
假設末端落在HCC優先端點位置(集合Q)上之片段與末端落在懷孕優先端點位置(集合P)上之彼等片段相比將富集癌症源DNA。因此,將比率
HCC/Preg計算為
且使此比率與上文所提及71個HCC患者之腫瘤DNA分數相關聯。
圖 50B顯示對71個HCC患者觀察到比率
HCC/Preg與血漿中之腫瘤DNA分數之間之正相關。該等結果表明,在特定病況之優先端點位點上之端之片段之數量或比例可用於檢測該病況或量化自患病器官釋放之DNA量。
2. 使用具有較高端點率之組基因體位置在另一實施例中,優先端點位點可藉由確定末端落在此一位置上之片段數量與覆蓋該位置但末端不落在其上之片段數量之間的比率來鑑別。
圖 51A圖解說明優先端點終止比率(PETR)之計算。
圖 51A顯示PETR概念之圖解說明。每一線代表一個血漿DNA片段。該等片段標記為a至g。片段a、b、c及d在所關注核苷酸上終止。片段e、f及g覆蓋所關注核苷酸但末端不落在該位置上。在此說明性實例中,PETR等於4/3,即1.33。在其他實施例中,分母可為覆蓋核苷酸之DNA片段之數量,無論DNA片段末端是否落在該位置上。
PETR之計算可用於鑑別患有不同疾病病況之個體中優先端點之核苷酸位置。以下實例展示PETR之使用。比較先前提及之HCC患者與患有慢性B型肝炎病毒(HBV)感染但未患癌症之個體(HBV攜帶者)之血漿樣品。將HBV攜帶者之血漿DNA樣品定序至215×單倍體基因體覆蓋率。計算每一個體之每一基因體位置之PETR。7,350,067個基因體位置(集合H)鑑別為與HBV攜帶者相比在HCC患者中具有高至少4倍之PETR。與HBV攜帶者相比在HCC患者中該等位置具有為血漿DNA片段末端之至少4倍增加的機會。可使用其他倍數差異,例如1.5倍、2倍及3倍。
對11個獨立HCC患者之血漿樣品進一步定序至更低定序深度。自該11個血漿樣品獲得平均28百萬個經定序讀段。計算該11個HCC患者中之每一者之在7,350,067個集合H位置之平均PETR且與血漿中之腫瘤DNA分數相關聯。如先前所述基於血漿中拷貝數畸變之量值計算血漿中之腫瘤DNA分數(Chan等人,Proc Natl Acad Sci U S A. 2015;112:E1317-25)。
圖 51B顯示在11個HCC患者中血漿中之腫瘤DNA分數與集合H位置之PETR之間的關聯。可觀察到兩個參數之間之正相關,此表明HCC優先(集合H)位置之平均PETR將可用於指示血漿中腫瘤DNA之量。
3. 確認肝相關端點位置為顯示存在於HCC血漿DNA樣品或HBV血漿DNA樣品中之優先端點位置為肝相關的,探索其在手術移除HCC之前及之後自患者收集之血漿樣品中之存在。數據顯示於表3中。將手術前及手術後樣品分別定序至17×及20×單倍體基因體覆蓋率。
表3.
| HCC 優先 端點 位點 | HBV 優先 端點 位點 |
HCC 1中手術前優先端點位點
| 92
| 16
|
HCC 1中手術後優先端點位點
| 5
| 4
|
表3顯示在手術之前及之後收集之血漿樣品中之HCC優先端點位置及HBV優先端點位置以移除HCC患者中之肝腫瘤。
如表3中可見,HCC及HBV優先端點位置二者之數量有所減少。HBV數據表明,大多數優先端點位置為肝源且其減少歸因於手術後肝細胞質量之減小。因此釋放至血漿中之肝源無細胞DNA分子有所減少。有趣的是注意到在手術前樣品中存在5倍以上多的HCC優先端點位置,其在手術後消失。顯示手術後消失之一些優先端點為肝源。鑒於在同一手術前樣品中檢測到遠多於HBV優先端點之HCC優先端點之觀察結果,表明彼等末端中之大多數具有HCC特異性且在屬類上不僅僅為肝相關。
存在可源自該等數據之多個應用。數據指示,無細胞DNA或血漿DNA優先端點之檢測可用於癌症治療監測。舉例而言,優先端點之手術後減少係指示HCC之手術移除之成功。若該腫瘤未完全或成功移除,則血漿DNA優先端點之量或數量在手術後不會顯示實質性減少。此乃因剩餘腫瘤或轉移性病灶會持續釋放具有HCC優先端點位置之無細胞DNA或血漿DNA之來源。數據顯示,在相對較淺之定序深度下基於無細胞DNA優先端點之分析可達成治療監測。
數據亦顯示,可使用組織相關或癌症相關血漿DNA優先端點位置來鑑別病理學之組織,包括患有癌症之組織。舉例而言,可使用源自不同器官之多個無細胞DNA優先端點集合。然後能夠確定源自不同組織之無細胞DNA之相對量。因此,此可用作無細胞DNA組織解捲積之方法。藉由此方法顯示與自對照樣品確立之參照值具有最大偏差(顯著增加或顯著減少)之組織將為患有病理學(例如恰如慢性B型肝炎病毒攜帶者之發炎或病毒感染)或癌症之器官或組織。
鑒於支持血漿DNA HCC優先端點具有癌症或HCC特異性之另一條證據,研究顯示HCC或HBV優先端點之血漿DNA分子之大小概況(
圖 52)。
圖 52顯示末端帶有HCC優先端點、HBV優先端點或共有端點之血漿DNA分子中檢測到之短DNA (< 150 bp)之比例。
圖 52顯示展現HCC優先端點之血漿DNA分子通常遠遠短(較高比例之短DNA)於顯示HBV優先端點之彼等。Jiang等人(Jiang等人,Proc Natl Acad Sci U S A. 2015;112:E1317-25)先前使用另一方法顯示腫瘤源血漿DNA分子短於背景非腫瘤DNA。由於具有HCC優先端點之血漿DNA分子較短,故其更可能為腫瘤源。因此,可藉由例如使樣品富集短DNA來改良在甚至較低定序深度下檢測到具有HCC優先端點之血漿DNA分子之機會。
4. 基於窗口之端點率在另一實施例中,HCC優先位置可延伸至包括相鄰核苷酸。
圖 53A圖解說明此方法。將確定末端落在窗口A內之片段數量與末端落在窗口B內之片段數量之間的基於窗口之PETR (w-PETR)比率。可調整窗口A及窗口B之大小以達成期望性能。可以實驗方式獲得不同窗口大小之性能。窗口A之大小可設定為例如(但不限於) 5 bp、6 bp、7 bp、8 bp、9 bp、10 bp、15 bp、20 bp、25 bp及30 bp。窗口B之大小將大於窗口A之大小且可設定為例如(但不限於) 20 bp、25 bp、30 bp、40 bp、50 bp、60 bp、70 bp、80 bp、100 bp、120 bp、140 bp、160 bp、180 bp及200 bp。在以下說明性實例中,窗口A及窗口B之大小分別設定為20 bp及150 bp。
圖 53A顯示w-PETR之原理之圖解說明。w-PETR之值計算為末端落在窗口A及窗口B內之DNA片段數量之間的比率。當實施標準PETR時,窗口A較大且可具有寬度1。顯示窗口B較大。兩個窗口顯示為在優先端點位置之中心,但可使用窗口之其他定位。在一些實施例中,窗口A可對應於優先端點窗口。
圖 53B顯示在11個HCC患者中腫瘤DNA分數與w-PETR值之間之關聯。該等結果表明,w-PETR將可用於測定癌症患者血漿中之腫瘤源DNA之量。
5. 使用每個樣品之最高端點位置比較懷孕女性、一個慢性B型肝炎病毒攜帶者(HBV)、一個肺癌患者及兩個HCC患者之數據之間的前1百萬個具有最頻繁代表性之無細胞DNA端點位置。對於HCC患者,使用無PCR方案製備一個病例(HCC)之定序文庫,且使用基於PCR之方案製備其他樣品(HCC (PCR)。使用無PCR方案製備所有其他樣品。
圖 54顯示與臍帶血血漿樣品(210×單倍體基因體覆蓋率)相比,在每一所研究樣品之血漿樣品中檢測到之通常共有之優先端點位置之比例。
圖 54顯示與臍帶血血漿樣品(210×單倍體基因體覆蓋率)相比,在每一所研究樣品之血漿樣品中檢測到之通常共有之優先端點位置之比例。顯示使用PCR檢測到之懷孕、HCC、HBV、肺癌及HCC中之每一者之體染色體的百分比。
高共同度亦支持血漿DNA片段化並非隨機過程之概念。HCC及HCC(PCR)數據顯示,可使用具或不具PCR之文庫製備方案實施優先端點位置分析。有趣的是注意到,仍存在一定比例之未顯示共同端點之血漿DNA分子。該等非共同端點係代表樣品之生理狀態(例如懷孕、胎兒或胎盤)或疾病狀況(例如癌症)之優先端點。血漿DNA優先端點之更詳細比較顯示於
圖 55中。
圖 55顯示文氏圖,其顯示通常在兩種或更多種樣品中觀察到之優先端點位置之數量以及僅在任一樣品中觀察到之優先端點位置之數量。以175×單倍體基因體覆蓋率對肺癌患者之血漿DNA進行定序。
根據
圖 55值得注意的是,在所有三種樣品中有115,305個優先端點係共有的。該等端點可能源自背景血漿DNA之主要來源,例如血球。分析亦顯示在HCC患者及肺癌患者之血漿樣品中觀察到61,035個優先端點位置。該等優先端點可為多種癌症所共有。因此,其為癌症源。而在HCC患者(479,766個端點)或肺癌患者(749,237個端點)而非二者之血漿DNA分子中僅檢測到端點。因此,該等優先端點顯示較高程度之特異性。其具有針對特定癌症組織類型之特異性。基於同一原理,能夠使用相似的勘探策略來鑑別特異性針對特定器官及特定組織學類型之癌症的端點。可將展現不同類別端店之血漿DNA分子用於多種應用。舉例而言,可旨在檢測HCC或肺癌特異性端點以直接檢測或篩選特定癌症類型。通常可使用HCC及肺癌樣品共有之端點來檢測或篩選癌症。可使用最屬性共同端點作為分母來正規化所檢測到之疾病相關優先端點之量。亦可出於篩選任一疾病體徵(例如一般健康狀況篩選)之目的檢測屬性共同端點。此一測試之陽性發現可用作訪視開業醫師以更詳細研究之警報。
B. 比較自樣品個體但在不同時間點收集之樣品之間的優先端點位置亦可藉由比較在不同時間點收集之樣品之片段末端獲得特定病況之優先端點位置。舉例而言,在癌症患者中,可在診斷時收集一個血漿樣品且可在治療後(例如在手術切除腫瘤後)收集其他樣品。端點位置之差異可潛在地反映後者中癌症源DNA之貢獻或對癌症之身體反應之不存在。在另一實例中,可比較在胎兒分娩之前及之後自懷孕女性收集之血漿樣品。
在以下實例中,分析自8個懷孕女性收集之血漿樣品。對於每一懷孕女性,在分娩之前收集血漿樣品。在8個女性中之6個中,在分娩時收集另一血漿樣品。在分娩後6小時及之後自8個懷孕女性收集多個樣品且收集總共28個分娩後血漿樣品。將血漿DNA樣品定序至6.49×單倍體基因體覆蓋率之平均深度。將在分娩前及分娩時收集之樣品之經定序讀段彙集在一起用於PETR分析且該等讀段將稱為「分娩前讀段」。彙集在分娩後6小時或之後收集之樣品之經定序讀段用於PETR分析且該等讀段將稱為「分娩後」讀段。為鑑別出為懷孕優先端點之核苷酸位置,檢索與「分娩後」讀段相比在「分娩前」讀段中具有至少高4倍之PETR之位置。鑑別出總共45,281個位點。
招募8個各自攜帶男性胎兒之早期懷孕女性之獨立同類群組且對其血漿DNA進行定序。自該等血漿DNA樣品獲得20百萬個經定序讀段之中值。確定8個懷孕女性中之每一者之45,281個位點之平均PETR值且使該等值與根據與Y染色體對準之讀段之比例估計的血漿中之胎兒DNA分數相關聯(Chiu等人,BMJ 2011;342:c7401)。
圖 56A顯示血漿中之胎兒DNA分數與經由比較「分娩前」與「分娩後」血漿DNA樣品鑑別出之位置集合上之平均PETR之間的關聯。該等結果表明,所鑑別出之位置集合將為胎兒源DNA優先的且PETR分析將可用於量化母體血漿中之胎兒DNA。
與先前所述之方法類似,已將w-PETR分析應用於此懷孕優先位置集合。窗口A及窗口B之大小分別設定為20 bp及150 bp。在其他實施例中,可使用其他窗口大小。
圖 56B顯示血漿中之胎兒DNA分數與經由比較「分娩前」與「分娩後」血漿DNA樣品鑑別出之位置集合上之平均w-PETR之間的關聯。該等結果表明,該等懷孕優先位置上之w-PETR分析將可用於量化母體血漿中之胎兒DNA。
C. 相同病況中之共同終點比較兩個懷孕女性之血漿中之前1百萬個最頻繁觀察到之優先端點位置(
圖 57A)。
圖 57A顯示妊娠18週(懷孕個體1)及38週(懷孕個體2)之兩個懷孕女性中之前1百萬個最頻繁觀察到之血漿DNA優先端點位置。數據顯示該等女性共有217,947個優先端點。鑒於兩個女性皆懷孕,該等末端係源自胎兒、胎盤或在懷孕期間具有增加的細胞死亡(產生血漿DNA)之器官。因此,該等標記物最可用於監測懷孕或胎兒之幸福感。
計算此樣品集合之PETR值。有趣的是,觀察到兩個母體血漿樣品中血漿DNA分子之PETR值之間的關聯(皮爾森’r = 0.52,p值< 0.0001) (
圖 57B)。
圖 57B顯示兩個懷孕女性之血漿中前1百萬個最頻繁觀察到之優先端點位置之PETR值之比較。高關聯度再次指示血漿DNA片段化係高度協調的。一些端點位點更「優先」於其他位點。有趣的是,甚至在前1百萬個「最優先」位點中,仍存在PETR之相對較寬之動態範圍。若欲選擇若干或優先端點之子集用於靶向檢測例如以測試疾病,則應選擇所關注疾病群中通常共有、理想地在未患疾病之對照組中未觀察到或較不普遍之彼等及尤其具有極高PETR之彼等端點位置。
VIII. 使用組織特異性端點位置之方法 圖 58係根據本發明實施例分析生物樣品以確定混合物中第一組織類型之比例貢獻之分類的方法3600之流程圖。生物樣品包括來自包括第一組織類型之複數個組織類型之無細胞DNA分子之混合物。
在方塊3610處,鑑別出第一組織類型之無細胞DNA分子之末端以大於臨限值之比率出現之第一組基因體位置。進一步詳述部分X.B中之方塊3610以及實施優先端點位置鑑別之其他方塊。其他方法之其他方塊之細節亦可參見部分X。
在方塊3620處,分析個體之生物樣品之第一複數個無細胞DNA分子。分析無細胞DNA分子包括確定參照基因體中對應於無細胞DNA分子之至少一個末端之基因體位置。方塊3620可以與用於分析無細胞DNA分子之其他方塊(例如,方塊1320)類似之方式實施。
在方塊3630處,確定第一數量之第一複數個無細胞DNA分子末端落在複數個窗口中之一者內。該確定係基於分析第一複數個無細胞DNA分子來實施。每一窗口包括第一組基因體位置中之至少一者。
在方塊3640處,計算末端落在複數個窗口中之一者內之第一複數個無細胞DNA分子之相對豐度。相對豐度可藉由使用無細胞DNA分子之第二數量正規化第一複數個無細胞DNA分子之第一數量來確定。第二數量之無細胞DNA分子包括末端落在第二組基因體位置之無細胞DNA分子。在一些態樣中,第二組基因體位置可在包括第一組基因體位置之複數個窗口外。
如針對
圖 49A所述,第二組基因體位置可使得第二組織類型之無細胞DNA分子之末端以大於臨限值之比率存在於至少一個額外樣品中,其中在至少一個額外樣品中第二組織類型具有複數個第二組織特異性等位基因。第二組基因體位置可使用最少一個額外樣品之包括複數個第二組織特異性等位基因中之至少一者之無細胞DNA分子來確定。由於集合G可自用於測定
圖 49B之兩個集合排除,故在第一組織類型與第二組織類型之間具有共有等位基因之無細胞DNA分子之末端以大於臨限值之第二比率出現之基因體位置可自第一組基因體位置排除且自第二組基因體位置排除。在一些態樣中,第二組基因體位置可使用參照樣品(例如,來自健康個體之樣品)確定。在一些態樣中,第二組基因體位置可使用參照樣品之無細胞DNA分子之端點位置之相對豐度來確定。在一實例中,第一組基因體位置可自懷疑患有NPC之個體之生物樣品使用EBV DNA片段端點位置之相對豐度來確定,且第二組基因體位置可自參照(例如,對照)樣品使用EBV DNA片段端點位置之相對豐度來確定。在一些實施例中,生物樣品及參照樣品中之每一者之EBV DNA可源自相同組織類型或不同組織類型。
在方塊3650處,藉由比較相對豐度與自一或多個已知第一組織類型之比例貢獻之校正樣品測定之一或多個校正值來確定第一組織類型的比例貢獻之分類。
若比例貢獻較高,則可實施其他動作,例如治療介入或使個體成像(例如,若第一組織類型對應於腫瘤)。舉例而言,研究可使用成像模式,例如可實施個體(整個個體或身體之特定部分(例如胸部或腹部)或具體而言候選者器官之特定部分)之電腦斷層攝影(CT)掃描或磁共振成像(MRI)以確認或排除個體腫瘤之存在。若確認存在腫瘤,則可實施治療,例如手術(藉由手術刀或藉由輻射)或化學療法。
治療可根據所確定之癌症等級、鑑別出之突變及/或起源組織來提供。舉例而言,可用特定藥物或化學療法靶向鑑別出之突變(例如,對於多型性實施方案)。可使用起源組織來指導手術或任何其他治療形式。且可利用癌症等級來確定使用任一類型之治療之攻擊性,其亦可基於癌症等級來確定。
IX. 血漿中之病毒 DNA 之分子特徵病毒感染在多個病理病況中有所涉及。舉例而言,EBV感染與NPC及天然殺手(NK) T細胞淋巴瘤及傳染性單核白血球增多症密切相關。HBV感染及C型肝炎病毒(HCV)感染與罹患HCC之增加的風險相關。在一些態樣中,本發明提供藉由分析循環病毒DNA之含量及分子特徵來檢測及區分與病毒感染相關之不同病況之方法。在一些情形下甚至在個體未展示給定病理病況時,此可有利地提供使用來自個體之無細胞樣品檢測或篩選多種病理病況之。在一些情形下在治療期間或之後,此亦可使得能夠監測給定病理病況隨時間之進展或消退。作為實例,在樣品(例如,血漿或血清)中發現之病原體之核酸可為:(1) 自腫瘤組織釋放;(2) 自非癌細胞(例如攜帶EBV之休眠B細胞)釋放;及(3) 含於病毒粒子中。
A. EBV 之濃度 / 比例及與 NPC 之相關性之分析NPC之發病機制與EBV感染密切相關。在NPC之病區(例如華南),幾乎所有NPC腫瘤組織具有EBV基因體。就此而言,血漿EBV DNA已確立為NPC之生物標記物(Lo等人,Cancer Res 1999; 59:1188-91)。已顯示,血漿EBV DNA可用於在以治癒為目的治療後檢測NPC個體之殘存疾病(Lo等人,Cancer Res 1999; 59:5452-5及Chan等人,J Natl Cancer Inst 2002;94:1614-9)。已顯示NPC個體中之血漿EBV DNA為小於200 bp之短DNA片段且因此不太可能源自完整病毒粒子(Chan等人,Cancer Res 2003, 63:2028-32)。
為研究血漿EBV DNA是否可用於篩選無症狀個體中之早期NPC,已使用血漿EBV DNA分析篩選20,174個無NPC症狀之個體。在大約4週後利用隨訪血漿EBV DNA分析再測試具有可檢測血漿EBV DNA之個體。利用鼻咽之鼻內視鏡檢查及磁共振成像(MRI)進一步研究對兩個連續分析具有持續陽性結果之個體。在20,174個所招募個體中,1,112個在入選時對血漿EBV DNA呈陽性。其中309個在隨訪測試時呈持續陽性。在對血漿中之EBV DNA呈持續陽性之個體之同類群組內,隨後在用鼻內視鏡檢查及MRI研究後確認34個患有NPC。該等結果顯示,再測試具有初始陽性血漿EBV DNA結果之個體可區分NPC個體與具有短暫陽性結果之彼等,且實質上減小需要更多侵入性及成本研究(即內視鏡檢法及MRI)之個體之比例。然而,連續測試血漿EBV DNA需要自具有初始陽性結果之個體收集另一血液樣品,此可呈現後勤挑戰。在本申請案中闡述基於血漿EBV DNA片段化模式之分析區分NPC個體與具有可檢測血漿EBV DNA之非NPC個體之方法。此方法亦可適用於分析其他類型之與病毒感染相關之癌症。
為分析血漿中之無細胞病毒DNA,使用利用經特異性設計之捕獲探針捕獲富集之靶向定序。該等捕獲探針覆蓋整個EBV基因體、整個HBV基因體、整個HPV基因體及人類基因體中之多個基因體區域(包括chr1、chr2、chr3、chr5、chr8、chr15及chr22上之區域)。對於每一血漿樣品分析,使用QIAamp DSP DNA血液微套組自4 mL血漿提取DNA。對於每一情形,使用KAPA文庫製備套組使用所有所提取DNA來製備定序文庫。使用KAPA PCR擴增套組對定序文庫實施12個PCR擴增週期。使用SEQCAP-EZ套組(Nimblegen)使用覆蓋上述病毒及人類基因體區域之常規設計之探針捕獲擴增產物。在靶捕獲後,實施14個PCR擴增週期且使用Illumina NextSeq平臺對產物進行定序。對於每一定序運行,使用末端配對模式對4至6個具有唯一樣品條碼之樣品進行定序。每一DNA片段自兩個末端中之每一者將定序75個核苷酸。定序後,使經定序讀段映射至人工組合之參照序列,其係由整個人類基因體(hg19)、整個EBV基因體、整個HBV基因體及整個HPV基因體組成。將映射至組合基因體序列中之唯一位置之經定序讀段用於下游分析。唯一映射讀段之中值數為53百萬(範圍:15 ~ 141百萬)。
表4
樣品類型
| 樣品數量
|
在入選研究時具有可檢測血漿EBV DNA但在大約4週後具有不可檢測血漿EBV DNA之非NPC個體。對於該等個體,分析在入選時收集之樣品。該等個體表示為「短暫陽性」。
| 5
|
在入選時及大約4週後具有持續可檢測血漿EBV DNA之非NPC個體。對於該等個體,分析在入選時收集之樣品。該等個體表示為「持續陽性」。
| 9
|
NPC個體
| 6
|
EBV陽性淋巴瘤個體(兩個患有NK T細胞淋巴瘤且一個患有霍奇金氏淋巴瘤)
| 3
|
患有傳染性單核白血球增多症之個體
| 1
|
表4顯示所分析不同類型之樣品之數量。在初始分析(同類群組1)中,自耳鼻喉(ENT)診療所招募6個呈現與NPC相容之症狀(包括頸部腫塊、聽力損失及流鼻血)之個體。同類群組1中之NPC個體患有晚期疾病。確定藉由即時PCR及大規模平行定序測定之血漿EBV DNA之濃度是否將可用於區分NPC個體與具有偽陽性血漿EBV DNA但未患癌症之彼等。
圖 59A顯示不同個體組之藉由即時PCR量測之血漿EBV DNA濃度。如
圖 59A中所顯示,與具有可檢測血漿EBV DNA但無任何可觀察到病理學之個體相比,血漿EBV DNA濃度在患有NPC、淋巴瘤及傳染性單核白血球增多症之個體中較高。如
圖 59B中所顯示,對於在入選時具有可檢測血漿EBV DNA但無任何可觀察到病理學之彼等個體,與在隨訪測試中變成陰性(即具有短暫可檢測之血漿EBV DNA) (p=0.002,曼恩-惠尼測試)之個體相比,在入選時量測之血漿EBV DNA濃度在具有持續陽性結果之個體中較高。
圖 60A及
60B顯示不同個體組之血漿中映射至EBV基因體之經定序血漿DNA片段之比例。如
圖 60A中所顯示,在靶捕獲後使用大規模平行定序,與在入選時具有可檢測血漿EBV DNA但無任何可觀察到病理學之個體相比,唯一映射至EBV基因體之讀段之比例在患有NPC、淋巴瘤及傳染性單核白血球增多症之個體中較高。如
圖 60B中所顯示,對於在入選時具有可檢測血漿EBV DNA但無任何可觀察到病理學之彼等個體,與在隨訪測試中變成陰性(即具有短暫可檢測血漿EBV DNA) (p = 0.002,曼恩-惠尼測試)之個體相比,在入選時量測之映射至EBV基因體之讀段的比例在具有持續陽性結果之個體中較高。使用唯一映射至EBV基因體之讀段之比例之量測與使用即時PCR量測之血漿EBV DNA之濃度相比,具有短暫及持續陽性結果之個體之間之差異較大(19.3倍對1.7倍)。
升高的血漿EBV DNA與NPC相關。先前研究比較NPC病例與對血漿EBV DNA幾乎呈陰性之健康對照。
圖 59A、
59B、
60A及
60B提供NPC病例與對血漿EBV DNA呈偽陽性之非NPC病例之間之定量比較。下文所述之技術容許增加區別患有病理學之個體與未患病理學之彼等方面之準確度,藉此減少偽陽性。在EBV DNA之情況下,術語「偽陽性」可意指個體具有可檢測之血漿EBV DNA,但個體未患鼻咽癌(與病原體相關之病理學之實例)。血漿EBV DNA之存在為真,但相關病理學(例如,NPC)之鑑別可為假。
B. EBV DNA 片段之大小分析 圖 61顯示在正常個體及6個患有NPC之個體(TBR1344、TBR1358、TBR1360、TBR1378、TBR1379及TBR1390)中EBV DNA片段之大小分佈。使用末端配對定序,基於經定序EBV DNA片段之兩個末端中之每一者上之最外側核苷酸之坐標推斷每一血漿EBV DNA片段之大小。顯示NPC個體及不具可觀察到病理學之彼等之血漿EBV DNA片段之大小概況。將來自此組所有病例之經定序EBV DNA片段彙集在一起以繪製該等個體之聚集的大小概況。無任何可觀察到病理學之個體之血漿EBV DNA大小分佈在NPC個體之大小分佈圖之左側,此指示與NPC個體相比,經定序血漿EBV DNA片段之大小分佈在無任何可觀察到病理學之個體中較短。該等結果表明,可使用如藉由大規模平行定序分析量測之血漿EBV DNA片段之大小概況來區分患有NPC之個體與具有偽陽性血漿EBV DNA結果之個體。在先前研究中已顯示,血漿EBV DNA在NPC個體中係短片段(Chan等人,Cancer Res. 2003;63:2028-32)。然而,在該先前研究中,未提供關於患有NPC之個體與具有偽陽性血漿EBV DNA結果之彼等之間血漿EBV DNA片段之大小分佈之差異的資訊。
圖 62顯示在6個患有NPC之個體(TBR1344、TBR1358、TBR1360、TBR1378、TBR1379及TBR1390)中映射至EBV基因體及人類基因體之經定序血漿DNA片段之大小分佈。對於每一個體,血漿EBV DNA片段之大小分佈短於映射至人類基因體之片段之大小分佈。此觀察結果與源自腫瘤細胞之血漿DNA之大小分佈短於源自非腫瘤細胞之DNA片段的先前報導之發現(Jiang等人,Proc Natl Acad Sci U S A. 2015; 112:E1317-25)一致,此乃因NPC個體中之血漿EBV DNA片段係源自腫瘤細胞(Chan等人,Clin Chem. 2005; 51:2192-5)且映射至人類基因體之血漿DNA片段係源自腫瘤及非腫瘤細胞二者。
圖 63顯示在3個患有淋巴瘤之個體(TBR1332、TBR1333及TBR1551)中映射至EBV基因體及人類基因體之經定序血漿DNA片段之大小分佈。對於三個淋巴瘤個體中之每一者,血漿EBV DNA片段之大小分佈短於映射至人類基因體之片段之大小分佈。
圖 64顯示在6個對照個體(AP080、BP065、EN086、BH035、FF159及GC038)中映射至EBV基因體及人類基因體之經定序血漿DNA片段之大小分佈。對於14個具有偽陽性血漿EBV DNA但無可觀察到病理學之個體,經定序血漿EBV DNA之大小分佈短於映射至人類基因體之片段。此觀察結果令人驚奇之原因在於,通常認為非癌症個體中之EBV DNA片段與病毒顆粒相關且預期高分子量片段存在於血漿中。未觀察到彼等高分子量EBV DNA片段之一個可能解釋係其無法使用大規模平行定序方案檢測到。在實驗中,使用Illumina平臺實施大規模平行定序。由於此方法需要將定序銜接子連接至欲定序DNA片段之末端,將不對>1kb之高分子量DNA進行擴增及定序。然而,有趣的是發現在此組個體中存在短EBV DNA片段。
圖 65顯示低於150 bp之經定序血漿EBV DNA片段之百分比。與具有短暫陽性或持續可檢測血漿EBV DNA但無可觀察到病理學之個體相比,低於150 bp之EBV DNA片段之比例在患有NPC、淋巴瘤及傳染性單核白血球增多症之個體中較低。該等結果表明,可使用經定序血漿EBV DNA片段之大小之分析來區分患有癌症之個體與無任何可觀察到病理學之彼等。
應理解,大小臨限值(例如,在
圖 65中為150 bp)可為任一值。大小臨限值可為至少約10 bp、20 bp、30 bp、40 bp、50 bp、60 bp、70 bp、80 bp、90 bp、100 bp、110 bp、120 bp、130 bp、140 bp、150 bp、160 bp、170 bp、180 bp、190 bp、200 bp、210 bp、220 bp、230 bp、240 bp、250 bp或大於250 bp。舉例而言,大小臨限值可為150 bp。在另一實例中,大小臨限值可為180 bp。在一些實施例中,可使用上及下大小臨限值(例如,值之範圍)。在一些實施例中,可使用上及下大小臨限值來選擇長度介於上與下截止值之間之核酸片段。在一些實施例中,可使用上及下截止值來選擇長度大於上截止值且小於下大小臨限值之核酸片段。
1. 多個統計值可測定核酸片段之大小分佈之多個統計值。舉例而言,可使用大小分佈之平均數、模式、中值或平均值。可使用其他統計值,例如給定大小之累積頻率或不同大小之核酸片段量之多個比率。累積頻率可對應於具有給定大小或小於或大於給定大小之DNA片段之比例(例如,百分比)。統計值提供關於核酸片段大小之分佈之資訊用於與一或多個截止值比較以確定源自病原體之病理學等級。截止值可使用健康個體、已知患有一或多種病理學之個體、對與病原體相關之病理學呈偽陽性之個體及本文所提及之其他個體之同類群組。熟習此項技術者將得知基於本文描述例如參考
圖 65中所繪示之數據確定該等截止值之方法。
為實施基於大小之分析,實施例可計算位於病原體之參照基因體中之核酸分子之大小之第一統計值(例如,藉由使序列讀段與參照基因體對準或使用探針)。在一個實施例中,第一統計值可自位於一或多個特定區域(例如,與優先端點位置相關之區域)或僅整個參照基因體中之核酸分子來確定。可比較第一統計值與截止值以確定病理學等級。
在一些實施例中,可比較病原體片段之大小之第一統計值與人類基因體之大小之參照統計值。舉例而言,可測定第一統計值與例如自病原體參照基因體之其他區域測定或自人類核酸測定之參照統計值之間之分離值(例如差異或比率)。分離值亦可自其他值確定。舉例而言,參照值可自多個區域之統計值確定。可比較分離值與大小臨限值以獲得大小分類(例如,無論DNA片段係短於、長於抑或等於正常區域)。
一些實施例可使用以下等式計算參數(分離值),其可定義為參照病原體基因體與參照人類基因體之間之短DNA片段之比例之差異:
其中
表示源自測試區域且大小≤ 150 bp之經定序片段之比例,且
表示源自參照區域且大小≤ 150 bp之經定序片段之比例。在其他實施例中,可使用其他大小臨限值,例如(但不限於) 100 bp、110 bp、120 bp、130 bp、140 bp、160 bp及166 bp。在其他實施例中,大小臨限值可以鹼基或核苷酸或其他單位來表示。
可使用對照個體之
之平均值及SD值來計算基於大小之z得分。
在一些實施例中,基於大小之z得分> 3指示針對病原體之短片段之比例增加,而基於大小之z得分< -3指示針對病原體之短片段之比例減小。可使用其他大小臨限值。基於大小之方法之其他細節可參見美國專利第8,620,593號及第8,741,811號以及美國專利公開案2013/0237431,其皆係全文以引用方式併入本文中。
為確定核酸片段之大小,至少一些實施例可利用其中可分析分子之染色體起源及長度之任一單分子分析平臺來工作,該平臺係例如電泳、光學方法(例如光學映射及其變化形式,en.wikipedia.org/wiki/Optical_mapping#cite_note-Nanocoding-3及Jo等人,Proc Natl Acad Sci USA 2007; 104: 2673-2678)、基於螢光之方法、基於探針之方法、數位PCR (基於微流體或基於乳液,例如BEAMing (Dressman等人,Proc Natl Acad Sci USA 2003; 100: 8817-8822)、RainDance (www.raindancetech.com/technology/pcr-genomics-research.asp))、滾環式擴增、質譜、熔融分析(或熔融曲線分析)、分子篩等。作為質譜之實例,較長分子將具有較大質量(大小值之實例)。
在一實例中,可使用末端配對定序方案對核酸分子進行隨機定序。兩個末端之兩個讀段可映射(對準)至參照基因體,其可重複經遮蔽(例如,當與人類基因體對準時)。可自兩個讀段所映射之基因體位置之間之距離來確定DNA分子之大小。
2. 方法根據一實施例,方法分析包括無細胞核酸分子之混合物之生物樣品,以確定自其獲得生物樣品之個體之病理學等級。該混合物包括來自個體之核酸分子及可能地來自病原體之核酸分子。該方法之各部分可藉由電腦系統來實施。
在方塊1處,量測生物樣品中複數個核酸分子之大小。該大小可經由任一適宜方法(例如上文所述之方法)來量測。
在方塊2處,確定核酸分子是否係來自對應於病原體之參照基因體。作為實例,可藉由定序及對準或使用對應於參照基因體之探針來確定參照基因體中核酸分子之位置。
在方塊3處,確定來自參照基因體之複數個核酸分子之大小分佈之統計值。小於大小臨限值之片段之累積頻率係統計值之實例。統計值可提供總體大小分佈(例如,小片段之量相對於大片段之量)之量度。在另一實施例中,統計值可為以下二者之比率:(1) 生物樣品中來自參照基因體之在第一大小範圍內之複數個核酸分子的第一量;及(2) 生物樣品中來自參照基因體之在不同於第一大小範圍之第二大小範圍內之複數個核酸分子的第二量。舉例而言,第一範圍可為低於第一大小臨限值之片段且第二大小範圍可為高於第二大小臨限值之片段。例如當第二大小範圍為所有大小時,兩個範圍可重疊。
在方塊4處,藉由處理統計值對一或多個截止值確定個體之病理學等級。舉例而言,可比較低於大小臨限值(例如,150)之片段之百分比與截止值以確定比率是否低於截止值。在
圖 65中,截止值可為約45以區別對EBV呈持續陽性但無病理學(或甚至短暫陽性)之個體與患有NPC、淋巴瘤或傳染性單核白血球增多症之個體。
C. EBV DNA 片段之端點位置之頻率圖66顯示在4個具有持續偽陽性血漿EBV DNA且無可觀察到病理學之個體及6個NPC個體之EBV基因體中末端落在每一核苷酸上之血漿EBV DNA片段之頻率。由於血漿EBV DNA片段之數量在具有短暫可檢測血漿EBV DNA之個體中極少,故其在此處不顯示為實例。y軸係末端落在特定核苷酸上之血漿EBV DNA片段之數量且x軸係EBV基因體中之基因體坐標。
觀察到端點位置之分佈在具有偽陽性結果但無可觀察到病理學之個體與NPC個體之間有所不同。舉例而言,在無任一病理學之個體中更多血漿EBV DNA片段末端落在位於區域A內之位置上,而在NPC個體中更多血漿EBV DNA片段末端落在位於區域B內之位置上。在EBV基因體中具有重複元件之區域中,經定序血漿EBV DNA片段無法映射至EBV基因體中之唯一位置。因此,在EBV基因體中不存在末端落在具有重複之區域內之唯一可對準經定序讀段。
該等結果表明,可使用EBV基因體上之血漿EBV DNA片段之端點位置之分析來區分具有偽陽性結果但無病理學之個體與NPC個體。端點位置之分析可藉由(但不限於)非靶向大規模平行定序或單分子定序、靶富集後之大規模平行定序或單分子定序、擴增子定序、即時PCR、數位PCR、反向PCR及錨定PCR來實施。對於擴增子定序、即時PCR及數位PCR,一個實施例係使引子或探針覆蓋特定端點位置。
該分析可在具或不具擴增下實施。對於基於擴增之方法,可使用與特定端點位置互補之寡核苷酸來富集資訊性末端(例如,具有特定端點基序之核酸片段)。陽性擴增可解釋為指示該等資訊性末端之存在。或者,擴增產物之後可為用於鑑別或確認資訊性末端之存在之其他步驟。用於檢測或確認資訊性末端之存在之方法可包括諸如以下(但不限於)雜交方法中之任一者:寡核苷酸探針、抗體探針、微定序、直接定序、大規模平行定序、單分子定序、質譜、基於連接之分析。該等檢測或確認方法可適用於基於非擴增之方法。用於檢測資訊性末端之基於擴增及非擴增之方法二者之前或之後可為基於雜交之方法以富集具有病毒DNA序列之樣品。基於擴增之方法可用於富集具有病毒DNA序列之樣品。
為證實端點位置與疾病病況之相關性,隨機挑選一個具有持續可檢測血漿EBV DNA但無病理學之個體及一個NPC個體來勘探頻繁端點位置。對於兩種病例對EBV基因體在遞減數量之末端落在其上之血漿EBV DNA片段中之坐標進行分級。對於此一分析,具有最大數量之末端落在其上之片段之EBV基因體坐標將分級為1級。
出於說明之目的,對兩種病例中之每一者選擇前400之坐標分級。在其他實施例中,可選擇不同數量之高分級坐標用於分析。舉例而言,可選擇分級為前100、前200、前300、前500、前600、前800及前1000之坐標。在另一實施例中,可選擇具有相同疾病狀況之個體(例如患有NPC之個體)所共有之高分級坐標。在另一實施例中,可使用在某些疾病狀況中具有為血漿EBV DNA之端點位置之顯著較高機率之坐標之機率。p值之臨限值之實例包括(但不限於) 0.1、0.05、0.01、0.005、0.001及0.0001。在一個實施例中,可使用由顯著比例之具有相同疾病狀況之個體共有之高分級位置。在另一實施例中,可將具有相同疾病狀況之不同個體之高分級位置拉在一起。在另一實施例中,可給予較大比例之個體所共有之高分級位置較大權重且可給予較小比例之個體所共有之彼等較小權重,以使得可計算加權得分。
圖67顯示文氏圖,其繪示(A) 特異性針對未患可觀察到病理學之個體之優先端點位置之數量(例如,383),(B) 特異性針對患有NPC之個體之優先端點位置之數量(例如,383),及(C) 兩組個體共有之優先端點位置(例如,17)。在NPC個體中具有偽陽性EBV DNA但無高分級之個體之前500分級內之坐標表示為集合A位置。在具有偽陽性血漿EBV DNA結果之個體中無高分級之NPC個體之前500分級內之坐標表示為集合B位置。在兩種病例中分級在前400內之坐標表示為集合C位置。僅4.25%之共同端點位置為兩種病例所共有。
為證實具有相同疾病狀況(例如患有NPC)之個體是否將共有EBV基因體中之相同優先端點位置,計算8個具有持續可檢測血漿EBV DNA但無病理學之個體及5個NPC個體之末端落在集合A及集合B坐標上之片段之百分比。自其確定該等坐標之兩個個體不包括在此分析中。
圖68顯示熱圖,其繪示未患可觀察到病理學之個體及NPC個體之末端落在集合A位置或集合B位置上之片段的百分比。熱圖係針對8個未患可觀察到病理學之個體(左側8行;C1-C8)及5個NPC個體(右側5行;NPC1-NPC5)進行繪示。NPC個體中末端落在集合A端點位置上之核酸片段相對不如NPC個體中末端落在集合B端點位置上之核酸片段豐富。每一行代表特定位置且每一行代表一個個體。深色(藍色)指示末端落在特定位置之EBV DNA片段之較高百分比。與無病理學之個體相比,5個NPC個體具有末端落在集合B位置(另一NPC個體之頻繁端點位置)上之血漿EBV DNA片段之較高百分比。相比之下,與NPC個體相比,無病理學之個體具有末端落在集合A位置(具有可檢測血漿EBV DNA但無可觀察到病理學之另一個體之頻繁端點位置)上之血漿EBV DNA片段之較高百分比。該等結果表明,高分級端點位置為具有相同疾病狀況之個體所共有。
由於高分級端點位置為具有相同疾病狀況之個體所共有,故研究可使用具有可檢測血漿EBV DNA之個體中血漿EBV DNA之端點位置來指示疾病狀況,例如以區分NPC個體與無可觀察到病理學之個體。
為證實此方法之可行性,首先測定末端落在集合A及集合B位置上之經定序血漿EBV DNA片段之數量。然後將B/A比率計算為:
對於5個具有短暫陽性血漿EBV DNA但無可觀察到病理學之個體,與EBV基因體唯一對準之可映射血漿DNA片段之數量極小。該等樣品可與自NPC個體、淋巴瘤個體及患有傳染性單核白血球增多症之個體收集之樣品完全區分開。對於所有5個個體,經定序血漿EBV DNA片段末端不落在任一集合A及集合B位置上。
圖69顯示不同個體組之末端落在集合B位置上之片段數量除以末端落在集合A位置上之片段數量之比率(例如,B/A比率)。對於具有持續可檢測血漿EBV DNA之個體,無病理學之個體之B/A比率顯著低於NPC個體(P < 0.001,曼恩-惠尼測試)及淋巴瘤個體(P < 0.01,曼恩-惠尼測試)。患有傳染性單核白血球增多症之個體之B/A比率高於具有持續可檢測血漿EBV DNA但無病理學之所有個體。該等結果表明,末端落在不同疾病優先位置上之血漿EBV DNA片段之比例可用於鑑別所測試個體之疾病狀況。
在一些實施例中,當集合(例如,集合A或集合B)具有高於預期之隨機片段化機率時,可鑑別出其端點位置。在其他實施例中,可針對集合B鑑別出真正病理學患者(例如,NPC)之病原體基因體(例如,EBV DNA)中之最常見端點位置,且偽陽性患者(或其他無病理學個體)之最常見端點位置可鑑別為集合A。可使用各別組之非重疊集合。端點位置集合處之片段量可以多種方式使用或不使用正規化來量化。
1. 方法根據一實施例,方法分析包括無細胞核酸分子之混合物之生物樣品,以確定自其獲得生物樣品之個體之病理學等級。該混合物包括來自個體之核酸分子及可能地來自病原體之核酸分子。該方法之各部分可藉由電腦系統來實施。
在方塊11處,分析來自個體之生物樣品之第一複數個無細胞核酸分子。該分析可包含確定參照基因體中對應於第一複數個無細胞核酸分子之至少一個末端之基因體位置,其中參照基因體對應於病原體。
在方塊12處,測定末端屋落在第一窗口其中之一內之第一複數個無細胞核酸分子之第一量。第一窗口各者包含第一組基因體位置中之至少一者,其中無細胞核酸分子之末端係以大於第一臨限值之比率存在於患有與病原體相關之病理學之個體中。
在方塊13處,藉由使用來自生物樣品之第一複數個無細胞核酸分子之第二量正規化第一量來計算末端落在一個第一窗口內之第一複數個無細胞核酸分子的相對豐度。第二量之無細胞核酸分子可包括末端落在包括第一組基因體位置之第一窗口以外之第二組基因體位置之無細胞核酸分子。
作為實例,相對豐度可為B/A比率。
在方塊14處,藉由和一或多個截止值作對照處理相對豐度來確定個體之病理學等級。舉例而言,可比較B/A比率與截止值以確定該比率是否大於截止值。在圖69中,截止值可為約1.7以區別對EBV呈持續陽性但無病理學之個體與患有NPC、淋巴瘤或傳染性單核白血球增多症之個體。
D. 多種技術之預測值之比較圖70顯示(左側)對血漿EBV DNA呈持續陽性但未患可觀察到病理學之個體及(右側) NPC個體之藉由即時PCR量測之血漿EBV DNA濃度。在證實經定序血漿EBV DNA片段之大小及B/A比率可用於區分NPC個體與具有偽陽性血漿EBV DNA之彼等後,利用獨立同類群組(同類群組2)進一步驗證該等結果。經由篩選20,174個無症狀個體鑑別出之34個NPC個體中之5個包括在此驗證分析中。該5個體在其加入研究時無症狀。其血漿樣品對EBV DNA呈持續陽性且隨後藉由內視鏡檢法及MRI確認NPC。該5個無症狀NPC病例處於早期,與同類群組1中之在ENT診療呈現症狀且經診斷患有晚期NPC之6個NPC個體不同。如上文所述在靶富集後對血漿樣品進行定序。對於同類群組2中之5個NPC個體,儘管其血漿樣品對EBV DNA呈持續陽性,但基於即時PCR分析與9個具有偽陽性血漿EBV DNA結果之個體相比,EBV DNA濃度並不顯示顯著差異(P=0.7,曼恩-惠尼測試)。已知血漿EBV DNA濃度與NPC時期相關聯。因此,早期NPC個體具有較低血漿EBV DNA含量並不意外。
圖71顯示(左側)對血漿EBV DNA呈持續陽性但未患可觀察到病理學之個體及(右側) NPC個體之血漿中映射至EBV基因體之讀段的比例。映射至EBV基因體之經定序血漿DNA讀段之比例在偽陽性病例及同類群組2 NPC病例之間並無顯著不同。該等數據顯示,圖70及71中所顯示之方法在區分偽陽性與早期NPC方面並不十分有效。
圖72顯示(左側)對血漿EBV DNA呈持續陽性但未患可觀察到病理學之個體及(右側) NPC個體之血漿中低於150個鹼基對(bp)之EBV DNA片段的百分比。儘管映射至EBV基因體之經定序血漿DNA讀段之比例在偽陽性病例與同類群組2 NPC病例之間並無顯著不同,但同類群組2 NPC個體顯示顯著低於具有偽陽性結果之個體之短血漿EBV DNA片段比例(P = 0.02,曼恩-惠尼測試)。該等結果支持,可使用可定序血漿EBV DNA之大小之分析來區分NPC個體與具有偽陽性血漿EBV DNA結果之個體,即使當兩組之血漿EBV DNA之濃度相似時。
圖73顯示(左側)對血漿EBV DNA呈持續陽性但未患可觀察到病理學之個體及(右側) NPC個體之B/A比率。兩組之B/A比率亦顯著不同(P = 0.001,曼恩-惠尼測試)。由於集合B中之優先端點位置係使用獨立NPC個體組測定,故該等結果表明優先端點位置為不同NPC個體所共有而與血漿EBV DNA濃度無關。
圖74顯示(閉環)對血漿EBV DNA呈持續陽性但未患可觀察到病理學之個體及(開環) NPC個體之B/A比率對血漿中低於150 bp之EBV DNA片段之百分比的散佈圖。基於<150 bp之經定序血漿EBV DNA片段之百分比及B/A比率,可區分NPC個體與具有偽陽性血漿EBV DNA結果之彼等。使用該兩個參數僅一個具有偽陽性結果之個體與NPC個體分群在一起。
圖75顯示對血漿EBV DNA呈短暫陽性(n=803)或持續陽性(n=275) (分別為左側或中間)但未患可觀察到病理學之個體及鑑別為患有NPC之個體(n=34)的血漿之EBV DNA片段之濃度(拷貝/毫升)的盒鬚圖。EBV DNA片段之濃度(拷貝/毫升)係藉由即時PCR分析來量測。
圖76A顯示在對血漿EBV DNA呈短暫陽性或持續陽性(分別為左側或中間)但未患可觀察到病理學之個體及鑑別為患有NPC之個體中藉由即時PCR量測之血漿EBV DNA濃度(拷貝/毫升)。在72個個體之此同類群組中,在不同個體組中藉由即時PCR量測之血漿EBV DNA濃度無統計學上顯著之差異(
p值= 0.19;克-瓦二氏測試(Kruskal-Wallis test))。在一些情形下,用於在初始分析(例如,qPCR分析)後篩選病況(例如腫瘤,例如NPC)之分析可包含使用大規模平行定序來評價樣品之映射至EBV參照基因體之序列讀段之比例。圖76B顯示在對血漿EBV DNA呈短暫陽性或持續陽性(分別為左側或中間)但未患可觀察到病理學之個體及鑑別為患有NPC之個體中映射至EBV基因體之血漿DNA片段之比例。在靶向捕獲及DNA片段定序後使用大規模平行定序,如根據在所有經定序讀段中唯一映射至EBV基因體之讀段之比例推斷出的EBV量存在統計學上顯著之差異(
p值= 0.01;克-瓦二氏測試)。在一個實施例中,映射至EBV基因體之血漿DNA片段之比例的截止值可測定為低於所分析NPC患者之最低比例的任一值。在圖76B中,可設定0.0009%之截止值以捕獲所有NPC患者。在其他實施例中,截止值可藉由例如(但不限於) NPC患者之平均比例減去一個標準偏差(SD)、平均值減去2個SD及平均值減去3個SD來確定。在其他實施例中,截止值可在對數轉變映射至EBV基因體之血漿DNA片段之比例後確定,例如(但不限於)在對數轉變NPC患者之值後平均值減去SD、平均值減去2個SD、平均值減去3個SD。在其他實施例中,截止值可使用接受者操作特徵(ROC)曲線或藉由非參數方法來確定,例如(但不限於)包括約100%、約95%、約90%、約85%或約80%之所分析NPC患者。藉由將0.0009%之截止值應用於所有經定序讀段中血漿EBV DNA片段之比例,能夠區分患有NPC及具有持續陽性血漿EBV DNA之個體與大多數具有短暫陽性血漿EBV DNA結果之個體。血漿中EBV讀段之比例在患有NPC之個體組中最高。與將在隨訪測試中變成陰性(即具有短暫可檢測血漿EBV DNA)之個體相比,在入選時量測之血漿EBV DNA片段之比例在具有持續陽性結果之個體中較高。在一些實施例中,在所有經定序讀段中血漿EBV DNA讀段之比例之截止值可大於0.00001%、大於0.00005%、大於0.0001%、大於0.0002%、大於0.0003%、大於0.0004%、大於0.0005%、大於0.0006%、大於0.0007%、大於0.0008%、大於0.0009%、大於0.001%、大於0.002%、大於0.003%、大於0.004%、大於0.005%、大於0.01%、大於0.1%或大於1%。
在一些情形下,用於在初始分析(例如,qPCR分析)後篩選病況(例如腫瘤,例如NPC)之分析可包含使用大規模平行定序來評價樣品中無細胞EBV核酸之大小。圖77顯示在患有NPC之個體(左圖)及對血漿EBV DNA呈持續陽性之個體(右圖)中映射至EBV基因體及人類基因體之經定序血漿DNA片段之大小概況。觀察到與EBV基因體對準之血漿EBV DNA片段及與體染色體基因體對準之彼等(例如,參照)之大小概況模式的差異;使用彼等差異來區分患有NPC之個體與具有偽陽性血漿EBV DNA結果之個體。該等片段之大規模平行定序引起靶捕獲及PCR效率之變化。該等變化引起經定序血漿DNA之大小概況模式之個體間變化。為比較個體中在某一大小範圍(例如,80與110個鹼基對之間)內之血漿EBV DNA讀段之比例,使血漿EBV DNA片段之量正規化成同一大小範圍內之體染色體DNA片段之量。此度量表示為大小比率。大小比率可藉由在某一大小範圍內之血漿EBV DNA片段之比例除以在相應大小範圍內之體染色體(例如,體染色體DNA片段)的比例來定義。舉例而言,介於80與110個鹼基對之間之片段的大小比率將為:
圖78顯示在對血漿EBV DNA呈短暫陽性或持續陽性(分別為左側或中間)但未患可觀察到病理學之個體及鑑別為患有NPC之個體中長度介於80與110個鹼基對之間之血漿EBV DNA片段對長度介於80與110個鹼基對之間之體染色體DNA片段的大小比率。藉由確定介於80與110個鹼基對之間之片段的大小比率(例如在某一大小範圍內之血漿EBV DNA片段之比例除以在相應大小範圍內之體染色體DNA片段的比例),可觀察到患有NPC之個體與具有偽陽性血漿EBV DNA結果之個體之間統計學上顯著之差異(
p值< 0.0001;曼恩-惠尼U測試)。患有NPC之個體具有在80至110bp之大小範圍內低於具有偽陽性血漿EBV DNA結果之個體的大小比率。因此,與具有短暫陽性或持續陽性血漿EBV結果之個體相比,患有NPC之患者具有在所有經定序EBV讀段中在80 - 110bp之大小範圍內之血漿EBV讀段之較低比例。可使用任一核酸片段大小或大小範圍來確定大小比率。在一實例中,大小比率可為長度大小在50-75個鹼基對內之EBV DNA片段的比例對長度大小在50-75個鹼基對內之體染色體DNA片段的比例之比率。在另一實例中,大小比率可為長度大小在60-90個鹼基對內之EBV DNA片段的比例對長度大小在60-90個鹼基對內之體染色體DNA片段的比例之比率。在另一實例中,大小比率可為長度大小在70-100個鹼基對內之EBV DNA片段的比例對長度大小在70-100個鹼基對內之體染色體DNA片段的比例之比率。在另一實例中,大小比率可為長度大小在90-120個鹼基對內之EBV DNA片段的比例對長度大小在90-120個鹼基對內之體染色體DNA片段的比例之比率。在另一實例中,大小比率可為長度大小在120-150個鹼基對內之EBV DNA片段的比例對長度大小在120-150個鹼基對內之體染色體DNA片段的比例之比率。在另一實例中,大小比率可為長度大小在150-180個鹼基對內之EBV DNA片段的比例對長度大小在150-180個鹼基對內之體染色體DNA片段的比例之比率。在另一實例中,大小比率可為長度大小在180-210個鹼基對內之EBV DNA片段的比例對長度大小在180-210個鹼基對內之體染色體DNA片段的比例之比率。在另一實例中,大小比率可為長度大小為約95個鹼基對之EBV DNA片段的比例對長度大小為約95個鹼基對之體染色體DNA片段的比例之比率。在一些實施例中,用於確定大小比率之EBV DNA片段之大小範圍及體染色體DNA片段之大小範圍可不同。舉例而言,大小比率可為長度大小為約80-110個鹼基對之EBV DNA片段的比例對長度大小為約120-150個鹼基對之體染色體DNA片段的比例之比率。在另一實例中,大小比率可為長度大小在80-110個鹼基對內之EBV DNA片段的比例對長度大小為約105個鹼基對之體染色體DNA片段的比例之比率。在一些實施例中,用於確定大小比率之DNA片段大小之截止值可為5個鹼基對、10個鹼基對、15個鹼基對、20個鹼基對、25個鹼基對、30個鹼基對、35個鹼基對、40個鹼基對、45個鹼基對、50個鹼基對、55個鹼基對、60個鹼基對、65個鹼基對、70個鹼基對、75個鹼基對、80個鹼基對、85個鹼基對、90個鹼基對、95個鹼基對、100個鹼基對、105個鹼基對、110個鹼基對、115個鹼基對、120個鹼基對、125個鹼基對、130個鹼基對、135個鹼基對、140個鹼基對、145個鹼基對、150個鹼基對、155個鹼基對、160個鹼基對、165個鹼基對、170個鹼基對、175個鹼基對、180個鹼基對、185個鹼基對、190個鹼基對、195個鹼基對、200個鹼基對、210個鹼基對、220個鹼基對、230個鹼基對、240個鹼基對、250個鹼基對或其任兩個大小內之大小範圍。在一些實施例中,可使用大小比率之截止值來確定個體是患有病況(例如,NPC)、是對病況呈偽陽性抑或未患病況。舉例而言,患有NPC之個體具有在80至110bp之大小範圍內低於具有偽陽性血漿EBV DNA結果之個體之大小比率。在一些實施例中,大小比率之截止值可為約0.1、約0.5、約1、約2、約3、約4、約5、約6、約7、約8、約9、約10、約11、約12、約13、約14、約15、約16、約17、約18、約19、約20、約25、約50、約100或大於約100。在一些實施例中,等於及/或低於截止值之大小比率係指示患有病況(例如,NPC)。在一些實施例中,等於及/或高於截止值之大小比率係指示患有病況(例如,NPC)。
圖79顯示對血漿EBV DNA呈短暫陽性或持續陽性(分別為左側或中間)但未患可觀察到病理學之個體及鑑別為患有NPC之個體之大小指數(例如,大小比率之倒數)。大小指數可定義為大小比率之倒數,且大小比率定義為在某一大小範圍內之血漿EBV DNA片段之比例除以在相應大小範圍內之體染色體DNA片段的比例。基於血漿EBV DNA讀段之大小概況之差異來區分患有NPC之個體與具有持續陽性血漿EBV DNA之個體。使用大小比率7 (例如,大小指數大於0.14)之截止值,區分患有NPC之個體與大多數具有持續陽性血漿EBV DNA之個體。灰點表示在所有經定序讀段中血漿EBV DNA讀段之比例大於0.0009%之病例(例如,參見圖76B)。8個具有短暫陽性血漿EBV DNA之個體中之3個具有大於0.14之大小指數。13個具有持續陽性血漿EBV DNA之個體中之2個具有大於0.14之大小指數。所有NPC患者皆具有大於0.14之大小指數。在一些實施例中,可使用大小指數之截止值來確定個體是患有病況(例如,NPC)、是對病況呈偽陽性抑或未患病況。在一些實施例中,大小指數之截止值可為約或最小10、約或最小2、約或最小1、約或最小0.5、約或最小0.333、約或最小0.25、約或最小0.2、約或最小0.167、約或最小0.143、約或最小0.125、約或最小0.111、約或最小0.1、約或最小0.091、約或最小0.083、約或最小0.077、約或最小0.071、約或最小0.067、約或最小0.063、約或最小0.059、約或最小0.056、約或最小0.053、約或最小0.05、約或最小0.04、約或最小0.02、約或最小0.001或小於約0.001。在一些實施例中,等於及/或低於截止值之大小指數係指示患有病況(例如,NPC)。在一些實施例中,等於及/或高於截止值之大小指數係指示患有病況(例如,NPC)。
圖80顯示對血漿EBV DNA呈持續陽性(左側)但未患可觀察到病理學之個體及鑑別為患有NPC之個體之末端比率(例如,末端落在集合B位置上之經定序血漿EBV DNA片段的數量與末端落在集合A位置上之經定序血漿EBV DNA片段的數量之比率)。對於具有持續可檢測血漿EBV DNA之個體,無病理學個體之末端比率顯著低於患有NPC之個體之末端比率(p = 0.001;曼恩-惠尼測試)。預期末端比率可用作區分患有NPC之個體與具有持續陽性血漿EBV DNA但無可觀察到病理學之個體的參數。
圖81顯示在使用映射至EBV基因體之經定序血漿DNA片段之比例(例如,大於或等於0.0009%)之第一分析及使用大小比率(例如,小於或等於7%)之後續第二分析後,鑑別為對血漿EBV DNA呈短暫陽性或持續陽性但未患可觀察到病理學之個體及鑑別為患有NPC之個體的數量。使用血漿EBV量分析(例如,所有經定序讀段中EBV DNA讀段之比例)及大小比率之組合,可計算72個個體之同類群組之NPC檢測率、偽陽性率及陽性預測值。NPC檢測率為100%。偽陽性率為13.5%且陽性預測值為86.5%。相比之下,僅使用即時PCR分析來篩選患有NPC之個體,偽陽性率為30.4%且陽性預測值為69.6%。因此,使用來自靶向捕獲定序之EBV DNA量及大小分析之組合分析可觀察到偽陽性率之幾乎3倍減小。
圖82A及82B顯示用於確定各個參數之最佳截止值以區別對血漿EBV DNA呈短暫陽性或持續陽性但未患可觀察到病理學之個體或鑑別為患有NPC之個體的分類及迴歸樹(CART)分析之結果。熟習此項技術者將瞭解,可使用多種方法來確定用於區別同類群組或群體內之不同組之截止值。此一方法之非限制性實例係CART分析。在CART分析中,目標係發現參數之最佳截止值以達成不同組之最大分離(或每一組之最高檢測率)。CART分析產生大小比率截止值= 4.837及log (EBV計數)截止值= -2.655。使用該等截止值,NPC檢測率為90.6%且陽性預測值為90.6%。
在其他實施例中,端點位置之分析可藉由在特定病況之優先位置端點片段之數量來確定。舉例而言,可使用末端落在集合B位置之片段之數量可來確定所測試個體患有NPC之概率。在另一實施例中,末端落在該等位置之片段之數量可基於經定序片段之總數或映射至EBV基因體之經定序片段之數量或映射至EBV基因體之一或多個區域之經定序片段之數量正規化。當使用血漿EBV DNA分析針對NPC篩選個體且顯示陽性結果時,基於已實施研究中所用之配置,將在約4週內收集另一血液樣品且確定血漿EBV DNA是否呈持續陽性。基於所顯示之結果,一個替代性配置係使用B/A比率分析末端落在NPC優先端點位置之血漿EBV DNA片段之大小及百分比。對於具有片段<150 bp之高百分比及低B/A比率之彼等病例,其可視為具有低NPC風險,而可對具有片段<150 bp之低百分比及高B/A比率之彼等進行進一步研究。此配置可改良測試之後勤且無需要求個體返回進行進一步血液收集。
除NPC外,亦可使用血漿中病毒DNA片段之大小及其端點位置之分析來檢測與病毒感染相關之其他癌症。就此而言,分析3個HCC個體及3個患有慢性B型肝炎感染但未患HCC之個體。在中國及東南亞,大比例之HCC與HBV感染相關。在使用上文所述之方案靶富集後對該等個體之血漿DNA樣品進行定序。
E. HCC 個體之 EBV DNA 之分析圖83顯示HCC個體中映射至EBV基因體及人類基因體之經定序血漿DNA片段之大小分佈。與NPC個體之模式相似,與HBV基因體對準之血漿DNA片段之大小分佈短於與人類基因體對準之片段之大小分佈。
圖84顯示在(左側)患有慢性B型肝炎之個體及(右側) HCC個體中血漿中低於150 bp之HBV DNA片段之百分比的條形圖。與HCC個體相比,<150 bp之經定序血漿HBV DNA係平均百分比在慢性HBV攜帶者中較高。此觀察結果與NPC個體與具有偽陽性血漿EBV DNA結果之彼等之間的大小差異一致。
隨機選擇一個HCC個體進行優先端點位置分析。以此特定HCC個體中末端落在該等位置上之血漿DNA片段之數量的遞降順序對HBV基因體之坐標分級。出於說明之目的,鑑別出前800個位置。該等位置表示為HCC優先位置。在其他實施例中,可使用其他位置數,例如(但不限於) 100、200、400、600、1000或1500。出於說明之目的,隨機選擇另2000個位置以正規化與HBV基因體對準之血漿DNA片段之數量。可將其他數量用於此正規化過程,例如(但不限於) 200、400、600、800、1000、1500及2500。在其他實施例中,可使用血漿樣品中之總DNA或經定序讀段之總數或與HBV基因體對準之讀段之總數正規化。
圖85顯示在(左側)患有慢性B型肝炎之個體及(右側) HCC個體中,末端落在HCC優先端點位置之血漿HBV DNA片段之數量正規化成末端落在其他位置之片段的盒鬚圖。與患有慢性HBV感染但未患HCC之個體相比,末端落在HCC優先位置之血漿HBV DNA片段之數量在HCC個體中較高。該等結果表明,可使用末端落在HCC優先位置之片段之數量來區別HCC個體與未患HCC之慢性HBV攜帶者。
應理解,當將末端落在優先端點位置之血漿DNA片段之數量正規化成末端落在「其他位置」之片段時,「其他位置」可為基因或基因體之任何其他位置中之一或多者。儘管「其他位置」可對應於優先端點位置(例如,與參照基因體對準之核酸片段之優先端點位置),但「其他位置」不必為優先端點位置。在一個實施例中,「其他位置」可對應於複數個核酸之最不優先端點位置。在另一實施例中,「其他位置」可對應於隨機位置集合。
對於HBV及HPV (下文)工作,一些實施例分別鑑別出HCC或子宮頸癌病例中之最常見(例如前1,000個)末端,且鑑別出相同病例中之最不頻繁末端(例如後1,000個),其中將後者用於正規化。圖85中所顯示之數據顯示最頻繁HCC末端之量化,表現為其他末端(例如,最不頻繁或任何隨機末端)之比率。
F. HPV 實例血漿中病毒DNA之片段化模式之分析可推廣至與病毒感染相關之其他癌症。作為說明性實例,分析患有頭頸部鱗狀細胞癌之個體之血漿。此癌症與HPV感染密切相關。在如上文所述之靶富集後對血漿DNA進行定序。分析與HPV唯一對準之血漿DNA片段。
圖86顯示末端落在HPV基因體之不同位置之血漿HPV DNA片段之數量。與在NPC個體及HCC個體中觀察到之模式相似,在HPV基因體中存在更可能為頭頸部鱗狀細胞癌個體之血漿DNA之端點位置之位置。該等位置可適用於檢測此類型之癌症。數據亦表明,可使用類似方法來檢測與HPV感染相關之子宮頸癌。在一個實施例中,可確定子宮頸癌之優先端點位置。然後,若陽性血漿HPV DNA末端落在子宮頸癌優先端點位置上,則可測試具有陽性血漿HPV DNA結果之任何個體。具有末端落在該等位置上之血漿HPV DNA之彼等個體更可能患有子宮頸癌,而具有末端落在其他位置上之血漿HPV DNA之彼等更可能具有偽陽性結果。
G. EBV DNA 片段之用途在NPC個體中,具有末端恰好落在一或多個NPC特異性端點位置上之末端核苷酸之血漿EBV DNA片段將更可能源自腫瘤。基於此假設,可使用末端落在NPC特異性端點位置上之經定序血漿EBV DNA片段之數量來指示NPC或具有相似血漿DNA片段化模式之其他癌症之存在或不存在。在另一實施例中,此參數亦可用於反映癌症等級,例如(但不限於)腫瘤之大小、癌症之時期、腫瘤負荷及轉移之存在。有趣的是,在對照個體中,EBV DNA片段具有末端落在一組端點位置(例如,對照特異性端點位置)之末端核苷酸,該組端點位置係對照個體之唯一或至少不同於NPC特異性端點位置。由於健康個體未患腫瘤,故血漿EBV DNA片段並不源自腫瘤。預期對照個體與NPC個體之EBV DNA之片段化模式之差異與DNA片段之具體機制相關。預期NPC特異性片段化模式可歸因於腫瘤細胞細胞凋亡誘導之DNA片段化。另外,預期對照特異性片段化模式可歸因於EBV DNA複製誘導之DNA片段化。
NPC個體及參照個體(例如,健康個體或對疾病(例如腫瘤)呈偽陽性之個體)二者皆可在其血液中具有EBV DNA。然而,每一群體可具有唯一EBV DNA片段化模式。藉由用核酸之第二量(例如,其可對應於來自健康個體之參照樣品之末端落在健康或偽陽性特異性優先端點位置之EBV DNA片段的數量)正規化第一量(例如,其可對應於來自個體之生物樣品之末端落在NPC特異性優先端點位置之EBV DNA片段的數量),本發明之方法可較佳區別對病況呈真陽性之個體與呈偽陽性或原本健康之個體。
對照個體(例如,未患可觀察到病理學之個體)及腫瘤個體之唯一DNA片段化模式之鑑別及應用可具有巨大實踐價值。舉例而言,在對照個體及腫瘤個體中,末端落在腫瘤特異性端點位置上之核酸片段之豐度無顯著不同。在另一實例中,與其中EBV DNA豐度較高且更容易檢測之對照個體相比,在具有低腫瘤負荷之腫瘤個體中,EBV DNA豐度可較低且更難以檢測。在一些實施例中,給定個體(例如,健康個體或腫瘤個體)之優先端點位置可具有高度特異性(例如,對照個體之極少優先端點位置亦為腫瘤個體之優先端點位置)。
在一些實施例中,可使用末端比率(例如,末端落在第一組基因體位置上之核酸分子的第一量對末端落在第二組基因體位置上之核酸分子的第二量之比率)來確定組織類型之比例貢獻之分類。在一實例中,可使用末端落在對照特異性端點位置上之EBV DNA片段之數量正規化末端落在NPC特異性端點位置上之EBV DNA片段之數量。在一些實施例中,可使用度量之組合(例如,末端比率、拷貝數及核酸片段大小中之至少兩者)檢測個體之病況(例如,腫瘤)。舉例而言,如上文所論述,與對照個體相比,NPC個體可展現較高的EBV DNA片段數量、較高B/A比率及長度小於150個鹼基對之讀段之較低比例。
X. 確定基因型鑒於可針對特定組織類型確定優先端點位置,末端落在該等優先端點位置之無細胞DNA分子具有來自該組織之高概率。在一些情況下,無細胞DNA混合物中之特定組織類型相對於其他組織類型在特定基因體位置可具有不同基因型。舉例而言,胎兒組織或腫瘤組織可具有不同基因型。由於無細胞DNA分子具有來自所關注組織類型之高概率,故可分析末端落在此一位置之無細胞DNA分子以確定該組織類型在該位置之基因型。以此方式,優先端點位置可作為鑑別組織類型之DNA之篩選器。
A. 胎兒基因型可使用關於經定序血漿DNA片段之端點位置之資訊來確定懷孕女性之胎兒已遺傳之母體等位基因。在此處,吾人使用假設實例來說明此方法之原理。假設母親、父親及胎兒之基因型分別為AT、TT及TT。為確定胎兒基因型,需要確定胎兒是否已遺傳母親之A或T等位基因。先前已闡述稱為相對突變劑量(RMD)分析之方法(Lun等人,Proc Natl Acad Sci USA 2008;105:19920-5)。在此方法中,將比較母體血漿中兩個母體等位基因之劑量。若胎兒已遺傳母體T等位基因,則胎兒將為T等位基因同型接合的。在此情形下,與A等位基因相比,T等位基因在母體血漿中將過量呈現。另一方面,若胎兒已遺傳母親之A等位基因,則胎兒之基因型將為AT。在此情形下,A及T等位基因將以大約相同之劑量存在於母體血漿中,此乃因母親及胎兒二者將為AT異型接合的。因此,在RMD分析中,將比較母體血漿中兩個母體等位基因之相對劑量。可分析經定序讀段之端點位置以改良RMD方法之準確度。
圖87顯示與胎兒特異性端點位置附近之參照基因體對準之攜帶不同等位基因之母體血漿DNA分子。以實線表示之分子係源自母親且以虛線表示之分子係源自胎兒。胎兒DNA分子末端更可能落在懷孕特異性端點位置上。在一個實施例中,可給予在RMD分析中末端落在懷孕特異性端點位置上之分子較大權重。在另一實施例中,僅將末端落在懷孕特異性位置上之血漿DNA片段用於下游分析。此選擇可潛在地富集胎兒源血漿DNA片段用於下游分析。
圖87顯示基因型為AT之懷孕女性中的血漿DNA分子。源自母體組織之DNA片段以實線表示且源自胎兒之DNA片段以虛線表示。胎兒DNA分子末端更可能落在懷孕特異性端點位置上。
在此說明性實例中,末端落在懷孕特異性端點位置上之兩個分子皆攜帶T等位基因。在一個實施例中,末端落在懷孕特異性端點位置上之兩個分子才用於下游分析且胎兒基因型將推斷為TT。在另一實施例中,在RMD分析中將給予兩個攜帶T等位基因之胎兒源分子較高權重,此乃因該兩個分子末端落在懷孕特異性端點位置上。可給予末端落在懷孕特異性端點位置上之分子不同的權重,例如(但不限於) 1.1、1.2、1.3、1.4、1.5、2、2.5、3及3.5。
作為實例,用於確定基因座是否為異型接合之準則可為兩個各自以與基因座對準之讀段之至少預先確定百分比(例如,30%或40%)出現之等位基因之臨限值。若一個核苷酸以足夠百分比(例如,70%或更大)出現,則可確定基因座為CG同型接合的。
B. 癌症基因型可對癌症特異性端點位置實施類似技術。舉例而言,癌症優先端點位置可如上文所述來鑑別。可鑑別及分析末端落在癌症優先端點位置上之無細胞DNA分子。可確定此集合之每一無細胞DNA分子之對應於(例如,對準)此位置之鹼基,且可計算每一鹼基佔總鹼基之百分比。舉例而言,可測定端點落在該位置之無細胞DNA分子上可見之C之百分比。若在個體之健康組織中未見C,若鑑別出足夠數量之C (例如大於臨限數量),則C可鑑別為突變,此可端視樣品中之所量測腫瘤DNA分數而定。
C. 篩選技術除了利用端點位置之外,可使用其他用來篩選來自腫瘤組織之無細胞DNA分子之準則。對於胎兒情形亦可使用其他準則。
可藉由將篩選準則應用於其中一或多個具有突變之序列讀段已對準之基因座來改良鑑別癌症基因型(例如,包括癌症特異性突變)及使用該等基因型之任何測試(例如,使用突變負荷確定癌症等級)的特異性。以癌症為實例,只有當與癌症係高信賴度相關時,遺傳或基因體特徵評定為陽性者才可以說是高特異性。此可藉由以下達到:最小化定序之次數及可能錯誤鑑別成突變之對準誤差(例如藉由與健康對照組之基因體概況比較),及/或可藉由與個人之自身組成性DNA比較及/或可藉由與個人之早期基因體概況比較。
多個準則可作為篩選準則應用,以評價無細胞DNA片段源自腫瘤及因此有資格成為資訊性癌症DNA片段之可能性。每一篩選準則可個別地、獨立地、與相等加權或不同加權共同使用或以指定順序連續使用或端視先前篩選操作之結果條件化使用。對於條件化使用,可使用基於貝氏(Bayesian)之方法以及基於分類或決策樹之方法。準則之個別使用可意指僅使用一個準則。獨立使用可涉及一個以上之篩選準則,但每一篩選準則並不依賴於另一篩選準則之應用(例如,可實施平行應用),此與以指定順序連續應用不同。作為使用加權之集體使用之實例,可使用機器學習技術。舉例而言,監督學習可使用具有已知分類之樣品之經量測突變負荷來訓練任何模型。可使用大量個體(例如數百、數千或數百萬)之定序數據來訓練模型。在較簡單形式中,可使用該等已知樣品來測定來測定根據篩選準則確定之一或多個得分之臨限值以確定突變是否有效。
若DNA片段顯示一個以上之癌症特異性變化,則可給予該DNA片段資訊性或癌症特異性之較高加權。舉例而言,許多癌症總體上為低甲基化,尤其在非啟動子區域。已顯示在血漿中癌症DNA短於非癌症DNA。腫瘤源血漿DNA片段往往在一些特定位置片段化。因此,大小較短(例如< 150 bp) (Jiang等人,Proc Natl Acad Sci USA 2015; 112: E1317-1325)且一或兩個末端處於癌症相關末端位置上、顯示單核苷酸突變且定位至非啟動子區域並具有低甲基化CpG位點之血漿DNA片段將視為更可能與癌症相關。可利用亞硫酸氫鹽DNA轉化或可區別甲基-胞嘧啶與非甲基-胞嘧啶之直接單分子定序來達成低甲基化DNA之檢測。在本申請案中,闡述用於增加鑑別資訊性癌症DNA片段之特異性之過程、方案及操作。舉例而言,可使用一或多個篩選準則來增加特異性。舉例而言,可使用一或多個篩選準則使特異性增加至例如約至少80%、90%、95%或99%之特異性。
1. 血漿 DNA 末端位置之用途如上文所述,可基於末端核苷酸(端點位置)之坐標來實施潛在癌症特異性或癌症相關或胎兒突變之篩選。如上文所述,已鑑別出DNA片段之不隨機且基於起源組織變化之末端位置。因此,可使用末端位置來確定具有推定突變之序列讀段實際上來自胎兒組織或腫瘤組織之概率。
最近已顯示,血漿DNA之片段化模式並非隨機的(Snyder等人,Cell 2016; 164: 57-68及PCT WO 2016/015058 A2)。血漿DNA片段化模式受核小體定位、轉錄因子結合位點、DNase切割或超敏感位點、表現概況(Snyder等人,Cell 2016; 164: 57-68及PCT WO 2016/015058;Ivanov等人,BMC Genomics 2015; 16增刊13:S1)及已貢獻血漿DNA分子之細胞之基因體的DNA甲基化概況(Lun等人,Clin Chem 2013; 59: 1583-1594)之影響。因此,不同組織起源之細胞之片段化模式有所不同。儘管存在顯示較頻繁片段之基因體區域,但該區域內之實際血漿DNA切割位點仍可為隨機的。
假設不同組織與具有不同切割位點或末端位置之血漿DNA片段之釋放相關。換言之,甚至特異性切割位點亦非隨機的。實際上,顯示癌症患者中血漿DNA分子之子集顯示不同於未患癌症之患者之末端位置。一些實施例可使用具有該等癌症相關末端位置之血漿DNA分子作為資訊性癌症DNA片段,或使用該末端位置資訊例如與一或多個其他篩選準則一起作為篩選準則。因此,藉由鑑別出該等癌症相關血漿DNA末端位置,可將血漿DNA片段評定為資訊性癌症DNA片段或基於此一片段之末端位置之性質歸於逐差加權。該等準則可用於評價該等片段源自癌症、某些器官或某些器官癌症之概率。該加權可用於改變特定DNA片段之特定鹼基對在該位置可見之特定鹼基的總百分比之貢獻。
因此,若血漿DNA片段顯示推定的突變及/或癌症相關甲基化變化以及與癌症相關之末端位置,則該血漿DNA片段係資訊性癌症DNA片段之機會將高得多。多個實施例亦可將此一片段之狀況及其長度或該等及其他參數之任一組合考慮在內。對於具有兩個末端(或可能地高達四個末端,如下文部分中所述)之血漿DNA片段,可進一步改變將其鑑別為癌症源片段之加權,其係藉由考慮其末端中之一或兩者是否與癌症相關或來自與癌症相關之組織類型來實施。在一個實施例中,亦可使用基於末端位置之類似方法來檢測與其他病理學或生物過程相關之突變(例如因老化過程所致之突變或因環境誘變因子所致之突變)。
亦可使用類似方法藉由對攜帶胎兒之懷孕女性之血漿中之DNA定序來鑑別胎兒之從頭突變。因此,在鑑別出特異性或相對特異性針對胎盤之末端位置後,若母體血漿中之此一DNA片段亦攜帶胎盤特異性或胎盤富集之末端位置,可將較高加權歸於為真的推定的胎兒從頭突變。由於血漿DNA片段具有兩個末端,故可進一步改變將其鑑別為胎兒源片段之加權,其係藉由考慮其末端中之一或兩者是否與胎盤相關來實施。
如圖38中所顯示,具有末端恰好落在536,772個HCC特異性端點位置之末端核苷酸之血漿DNA片段更可能源自腫瘤。相比之下,具有末端恰好落在懷孕特異性端點位置或兩個病例所共有之位置之末端核苷酸之血漿DNA片段不太可能源自腫瘤,且在使用權重之任一實施例中懷孕特異性端點位置潛在地不太可能且給予較低加權。
因此,可使用特異性針對HCC病例之頂部端點位置之列表來選擇癌症相關突變,且可使用特異性針對懷孕病例或兩個病例所共有之頂部端點位置之列表來篩選掉偽陽性突變。針對非侵入性產前測試,可使用類似程序來鑑別胎兒突變並篩選掉偽陽性突變。
一般而言,為鑑別出該等生物相關血漿DNA端點位置,可比較有不同疾病或流行病學背景或生理概況之個體組之血漿DNA樣品與無該等疾病或背景或概況之另一個體組之樣品。在一個實施例中,可對該等樣品中之每一者進行深度定序,以使得可鑑別出每一樣品內血漿DNA片段之共同端點位置。在另一實施例中,可將具有互補概況之個人組之序列數據彙集在一起來鑑別代表疾病或生理概況之共同端點位置。
個別地檢查樣品中每一血漿DNA片段且基於端點位置分配給與概率得分。某一端點位置之概率得分可取決於靶個體(例如,癌症)之末端落在端點位置之序列讀段量(例如,藉由樣品之定序深度正規化之序列讀段之百分比或其他值)相對於對照組之序列讀段端點量的分離。較大分離會產生較高特異性,且因此可採用較高概率得分。因此,可將具有特異性端點位置之血漿DNA片段分類成可能與疾病相關或不與疾病相關、胎兒或母體等。
或者,可共同解釋源自相同區域之血漿DNA片段,即可藉由正規化成定序深度計算末端落在特定核苷酸之比率。以此方式,某些核苷酸可鑑別為相對於基因體中之其他位置之共同端點位置,例如僅基於特定類型之一個樣品之分析,但可使用更多樣品。因此,可將具有特異性末端位置之血漿DNA片段分類成可能與疾病相關或不與疾病相關、胎兒或母體等。對於顯示具有該等生物相關血漿DNA末端位置之血漿DNA片段之高頻率之位置,可確定該等基因座富集有生物相關DNA且因此以與癌症相關或胎兒特異性或與其他疾病或生物過程相關之高概率之一組血漿DNA片段納入。以與在不同組之間比較類似之方式,概率度可基於給定核苷酸相對於其他核苷酸之比率有多高,如上文所述。
2. 結果為說明此方法之效能,直接根據HCC患者之血漿DNA定序數據鑑別出潛在癌症相關突變。存在於至少兩個血漿DNA片段之序列讀段中之單核苷酸變化視為潛在癌症相關突變。亦對腫瘤組織進行定序且存在於腫瘤組織中之突變視為真正癌症相關突變。
在染色體8上,在未使用動態截止值分析下根據HCC患者之血漿DNA定序數據鑑別出總共20,065個潛在突變。若序列變體存在於至少兩個經定序DNA片段中,則該序列變體將視為潛在突變。根據腫瘤組織之定序結果鑑別出884個真體細胞突變。20,065個推定的突變包括884個真實突變中之802個(91%)。因此,僅4%推定的突變係給出4% PPV之腫瘤組織中之真體細胞突變。
為增強檢測體細胞突變之準確度由此產生癌症基因型,基於攜帶推定的突變之序列讀段之末端核苷酸位置使用以下篩選算法。(1). 對於任一推定的突變,若存在至少一個攜帶突變且末端落在HCC特異性端點位置上之序列讀段,則該突變有資格用於下游突變分析。
(2). 將移除攜帶推定的突變但末端落在任何懷孕特異性端點位置或兩個病例所共有之位置上之序列讀段。突變將僅在基於此算法移除讀段後存在兩個或更多個顯示相同突變之序列讀段時有資格用於下游突變分析。
應用上述1及2篩選算法二者,獲得表4中之結果。基於攜帶推定的突變之DNA片段之末端核苷酸之位置或末端位置應用不同篩選算法之效應。
| 無篩選器
| 納入具有HCC特異性末端之突變
(篩選器1)
| 移除具有共有或懷孕特異性末端之讀段
(篩選器2)
| 應用兩種篩選算法
|
鑑別出之推定的突變數
| 20,065
| 1,526
| 2,823
| 484
|
檢測到之真突變之百分比
| 91%
| 29%
| 88%
| 40%
|
PPV
| 4%
| 17%
| 28%
| 71%
|
表 4藉由採取要求末端位置具有HCC特異性之三種算法中之任一者或篩選掉懷孕特異性或共有位置之算法可實質性改良PPV。藉由應用兩種算法,PPV增加至71%。
可鑑別出每一染色體或實際上另一基因體區域或實際上整個基因體之HCC及懷孕相關末端位置之其他數量,例如(但不限於) 0.5百萬、2百萬、3百萬、4百萬、5百萬、6百萬、7百萬、8百萬、9百萬或10百萬。在各個實施例中,可在癌症患者之一或多個同類群組中確定血漿DNA分子中之最常見末端位置,每一同類群組具有一種癌症類型。另外,可確定未患癌症之個體之血漿DNA分子中之最頻繁末端位置。在一個實施例中,該等患有癌症之患者及未患癌症之個體可進一步細分至具有不同臨床參數(例如性別、吸煙狀況、先前健康狀況(例如肝炎狀況、糖尿病、體重)等)之組中。
作為使用該等篩選準則之一部分,可使用統計分析來鑑別具有為不同生理及病理病況之循環DNA之末端核苷酸或末端位置的較高機率之位置。統計分析之實例包括(但不限於)司徒頓t-測試、卡方測試(Chi-square test)及基於二項式分佈或帕松分佈之測試。對於該等統計分析,可使用不同p值截止值,例如(但不限於) 0.05、0.01、0.005、0.001及0.0001。亦可調整p值截止值用於多重比較。
D. 確定基因型之方法圖88係根據本發明實施例分析生物樣品以確定第一組織類型之基因型的方法5800之流程圖。生物樣品包括來自包括第一組織類型之複數個組織類型之無細胞DNA分子之混合物。第一組織類型可能具有不同於複數個組織類型之其他組織類型之基因型。可確定多個基因體位置之基因型。
在方塊5810處,鑑別出第一組織類型之無細胞DNA分子之末端以大於臨限值之比率出現之第一基因體位置。方塊5810可以與方塊3610類似之方式實施。部分X.B提供實施方塊5810之其他實例。
在方塊5820處,分析來自個體之生物樣品之第一複數個無細胞DNA分子。分析無細胞DNA分子包括確定參照基因體中對應於無細胞DNA分子之至少一個末端之基因體位置。方塊3620可以與用於分析無細胞DNA分子之其他方塊類似之方式實施。
在方塊5830,基於分析第一複數個無細胞DNA分子鑑別出末端落在第一基因體位置之無細胞DNA分子集合。作為實例,該集合可使用所檢測探針之具有已知端點位置之序列讀段之對準來鑑別。本文提供其他實例。
在一些實施例中,可實施進一步篩選,例如如上文所述。舉例而言,可需要無細胞DNA分子之大小小於指定量,例如此乃因胎兒組織及腫瘤組織通常短於健康細胞之DNA片段。在一實施方案中,可篩選無細胞DNA分子之集合以排除或改變末端落在第一基因體位置之至少一個無細胞DNA分子之加權。可使用無細胞DNA分子之經篩選集合來確定基因型。
在各個實施例中,篩選可使用以下中之至少一者:無細胞DNA分子之大小、無細胞DNA分子在一或多個位置之甲基化狀況(例如,CpG位點係甲基化抑或非甲基化)及無細胞DNA分子是否覆蓋第一組織類型之無細胞DNA分子之末端以大於臨限值之比率出現之一或多個其他基因體位置。甲基化狀況可提供第一組織類型之特徵,如上文所述。
在方塊5840處,對於無細胞DNA分子集合之每一無細胞DNA分子,確定在第一基因體位置出現之相應鹼基(核苷酸)。可測定具有每一鹼基之分子之總數且可計算每一鹼基之百分比。
在方塊5850處,使用在無細胞DNA分子集合之第一基因體位置出現之相應鹼基確定在第一基因體位置之第一組織類型之基因型。在多個實施方案中,僅一個鹼基之高百分比(例如,大於80%、85%或90%)係指示基因型為該鹼基同型接合的,而具有相似百分比(例如,介於30%-70%之間)之兩個鹼基可確定異型接合之基因型。因此,可比較每一鹼基之百分比與基因型之截止值。在一些實施例中,截止值可基於第一組織類型對樣品之比例貢獻來確定。
因此,在一些實施例中,確定在第一基因體位置之第一組織類型之基因型可包括確定複數個鹼基中之每一者之百分比貢獻及比較每一百分比貢獻與一或多個截止值。在一實例中,當第一鹼基之百分比貢獻大於第一截止值時,第一截止值可對應於第一鹼基之同型接合基因型。在另一實例中,當第一鹼基及第二鹼基之百分比貢獻大於第一截止值且小於第二截止值時,第一截止值及第二截止值可對應於第一鹼基及第二鹼基之異型接合基因型。
在一些實施例中,可對在方塊5830中鑑別出之集合中之每一無細胞DNA分子實施加權。舉例而言,若無細胞DNA分子係來自第一組織類型之概率為80%,則可加權0.8。可對特定鹼基之所有加權之總貢獻求和以確定每一鹼基之各別量。可使用各別量來確定每一鹼基之百分比貢獻,其中該等百分比可用於確定基因型。
因此,篩選可將權重分配至對應於無細胞DNA分子係來自第一組織類型之概率之無細胞DNA分子。可確定複數個鹼基中之每一者之加權和(例如,僅所檢測到之彼等,其可為2、3或4)。若僅檢測到一個鹼基,則可確定該一個鹼基之同型接合基因型。可使用加權和確定複數個鹼基中之每一者之百分比貢獻,其中基因型係使用百分比貢獻來確定。
XI. 其他細節上文所述之多個實施例鑑別出特定組織之優先端點位置,其中一些優先端點位置可為連續的,藉此形成優先端點窗口。可使用不同度量來鑑別無細胞DNA分子在基因體窗口(例如,最小窗口之基因體位置)之出現率關於該等操作之其他細節以及關於確定參照基因體中無細胞DNA分子之端點位置之細節提供於下文中。該等特定技術可用於上文所述之實施例。
A. 端點位置之確定在對無細胞DNA分子進行定序時,DNA片段之端點模式存在多個可能性。血漿DNA之末端通常存在四種構形:(A) 具有兩個平整末端之雙鏈DNA分子;(B) 具有一個平整末端及一個非平整末端之雙鏈DNA分子(顯示兩種情形中之每一者,此乃因兩個鏈中之任一者可突出);(C) 具有兩個非平整末端及突出末端之不同組合之雙鏈DNA分子;及(D) 單鏈DNA分子。
對於具有非平整末端之構形,存在不同模式,此端視係DNA分子之5’抑或3’末端突出而定。對於(B),雙鏈DNA分子具有一個平整末端及一個非平整末端。在實例B1中5’末端係突出的,且在實例B2中3’末端係突出的。對於(C),當兩個末端為非平整時,存在三種可能模式。在(C1)中,5’末端在兩側突出。在(C2)中,3’末端在兩側突出。在(C3)中,5’末端在一側突出且3’末端在另一側突出。
對於定序,末端配對定序方案通常對每一鏈之一個末端進行定序。因此,將其視為雙鏈DNA定序方案。當兩個末端不平整時,各方案可切割掉核苷酸或將核苷酸添加至該末端以使其平整。Klenow片段係可實施該等操作之酶。該領域中之其他方案使用單鏈DNA定序方案。
無論所用之具體技術(包括使用探針)如何,只要端點位置係可重複的且顯示關聯,如在此處所顯示,在定序中是否獲得DNA片段之真末端並不影響結果,此乃因任一偏移係可重複的,且因此互相抵消。此外,可使用某些技術來鑑別端點位置,如術語部分中所述。
B. 組織特異性端點位置之鑑別如上文所述,在特定組織類型中,與其他區域相比,某些基因體區域具有無細胞DNA分子末端落在特定位置上之概率的較大變化。舉例而言,肝組織具有為DNase超敏感位點之區域,但其他組織不具作為DNase超敏感位點之該區域。因此,相對於其他位置,此一區域內之某些位置將具有末端落在彼等位置上之無細胞DNA分子之較大數量。作為實例,該等位置可鑑別為已知具有特定組織之大量裂解(因此在概率函數中具有高波幅)之區域之無細胞DNA分子之比率的極大值,例如如部分III中所述。在其他實例中,可鑑別出左峰值與右峰值充分分離之基因體位置,例如如部分IV中所述。
在其他實例中,可使用患有及未患病況(例如,懷孕或癌症,可能具有特定類型)之樣品之高比率端點位置集合(例如,比率大於臨限值)的差異來鑑別與該病況相關之特定組織類型之優先端點位點,例如如利用部分V、VI及VII中之文氏圖所述。作為其他實例,患有病況之一個樣品中顯著高於未患該病況之另一樣品之比率可提供特定組織類型之優先端點位點。在各個實施例中,該等實例技術中之一些或全部可一起使用。比率可藉由相對豐度之任一度量來量測。
在上述方法之一些實施例中,第一組織類型之無細胞DNA分子之末端以大於臨限值之比率出現之第一組基因體位置可以下列方式來鑑別。可以與測試樣品類似之方式分析校正樣品,其中已知兩種相同類型之樣品(例如,血漿、血清、尿液等)及校正樣品包括第一組織類型(例如,兩種懷孕女性樣品之胎兒組織或HCC患者之肝腫瘤組織)。可比較末端落在基因體窗口(例如,具有寬度1或更大)中之無細胞DNA分子的數量與參照值以確定端點位置之比率是否大於該位置之臨限值。在一些實施例中,若比率超過參照值,則當相應數超過參照值時,第一基因體窗口內之每一基因體位置可鑑別為具有大於臨限值之比率。此一過程可鑑別出包括優先端點位置之優先端點窗口。
參照值可使得僅前N個基因體窗口具有大於臨限值之比率。舉例而言,第一組基因體位置可具有針對相應數之最高N個值。作為實例,N可為至少10、至少100、至少1,000、至少2,500、至少5,000、至少10,000、至少50,000、至少100,000、至少500,000、至少1,000,000或至少5,000,000。
作為另一實例,根據樣品中無細胞DNA分子之機率分佈及平均長度,參照值可為末端落在基因體窗口內之無細胞DNA分子的期望數,例如如部分VI.A.1中所述。可使用相應數及期望數來確定p值,其中臨限值對應於截止p值(例如,0.01)。p值小於截止p值指示比率大於臨限值。作為另一實例,參照值可包括來自鑑別為具有減少量之第一組織類型之樣品之末端落在基因體窗口內之無細胞DNA分子的經測數,例如如針對圖51A及51B所述。
不必將滿足比率臨限值之基因體位置添加至第一組基因體位置。可添加其他篩選準則。該等篩選準則之實例指定於部分VI.A.3及IX.C中。對於大小之篩選準則,可量測無細胞DNA分子之大小(例如,長度或質量),例如如美國專利公開案2011/0276277、2013/0040824及2013/0237431中所述,其各自係全文以引用方式併入本文中。第一統計值可確定末端落在經測定具有大於臨限值之比率之第一基因體窗口內(例如,當窗口具有寬度1時在基因體位置上)之無細胞DNA分子的大小分佈。當第一統計值不超過大小臨限值時,例如與所有無細胞DNA分子或較大範圍內之彼等相比,平均大小不夠小或不存在足夠數量之小DNA片段(例如,低於指定大小),第一基因體窗口之基因體位置可自第一組基因體位置排除。
可比較經測定不具大於臨限值之比率之無細胞DNA分子之大小分佈之第一統計值與第二統計值。若兩個值相似(例如,對於胎兒或腫瘤組織其將無法預期),則第一基因體窗口可自優先端點位置集合排除。比較相應數與參照值可包括計算相應數與覆蓋一個樣品之基因體窗口之任一部分且視情況末端不落在該基因體窗口中之無細胞DNA分子的數量之第一比率(例如,PETR),如部分VII.A.2中所述。參照值可包括末端落在基因體窗口內之讀段之經測數與覆蓋該基因體窗口且末端不落在另一樣品之基因體窗口內之無細胞DNA分子之數量的參照比率。第一比率可需要大於乘法因子(例如,4)乘以參照比率。
另一篩選準則可為第一組基因體位置之每一基因體位置可需要具有至少指定數量之末端落在基因體位置上之無細胞DNA分子。使用該等技術中之任一者,第一組基因體位置可包含600與10,000個之間之基因體位置。
在獲取集合之間之差異(例如,使用文氏圖)之實施例中,比率(例如,如根據基因體窗口確定)大於臨限值之基因體位置構成第一超集合,例如如圖50A中所顯示為集合P及集合S。可分析具有減少量之第一組織類型(例如,較少或無胎兒組織或HCC組織,如圖50A中所繪示)之至少一個第二額外樣品之第三複數個無細胞DNA分子以鑑別出第二超集合,例如集合Q及集合S。第一組基因體位置可包括在第一超集合中且不在第二超集合(例如,集合P或集合S)中之基因體位置,此端視所分析之組織類型而定。
如部分VI中所述,第一組織類型可具有第一組織特異性等位基因。可對末端落在基因體位置上且包括複數個第一組織特異性等位基因中之至少一者之無細胞DNA分子進行計數。可比較無細胞DNA分子之此計數(數量)與參照值。
C. 相對豐度本文提供相對豐度值之多個實例,例如完整機率(P
I)、部分VI.A.1中所述之p值及使用基因體窗口或基因體位置(當窗口之寬度為1時)確定之PETR值。對於基因體位置(具有寬度1之窗口)之PETR,可計算針對第一組基因體位置之每一基因體位置之末端落在基因體位置上之第一複數個無細胞DNA分子之相應數。此可作為確定第一數量(例如,分子(numerator))之第一複數個無細胞DNA分子(molecule)末端落在第一組基因體位置中之任一者上之一部分來進行。可計算覆蓋基因體位置且末端不落在基因體位置上之無細胞DNA分子之第三數量(例如,分母)作為測定無細胞DNA分子之第二數量之一部分。可確定相應數與第三數量之第一比率,且使用第一比率之平均值作為相對豐度。
對於w-PETR,可計算針對第一組基因體位置之每一基因體位置之末端落在包括基因體位置之第一窗口(例如,圖55A中之窗口A)內之無細胞DNA分子的相應數。可計算末端落在包括基因體位置之第二窗口(例如,圖55A中之窗口B)內之無細胞DNA分子的第三數量。在一些情形下,可使用相應數與第三數量之第一比率作為相對豐度。
相對豐度值之另一實例係末端落在基因體窗口上之無細胞DNA分子之比例,例如量測為末端落在優先端點位置上之經定序DNA片段之比例。因此,第二組基因體位置可包括對應於第一複數個無細胞DNA分子中之至少一者之末端的所有基因體位置。
D. 校正值在各個實施例中,校正值可對應於自校正樣品測定之校正數據點之校正值或自例如近似於校正數據點之校正函數測定之任何校正值。一或多個校正樣品可或可不包括用於確定優先端點位點之任何額外樣品。
對於一或多個校正樣品中之每一者,可例如使用組織特異性等位基因來量測第一組織類型之相應比例貢獻。可使用末端落在對應於第一組基因體位置之複數個窗口內之無細胞DNA分子之相應數來確定相應相對豐度。所量測比例貢獻及相對豐度可提供校正數據點。一或多個校正數據點可為形成近似於複數個校正數據點之校正函數之複數個校正數據點。校正值之使用之其他細節可參見美國專利公開案2013/0237431,其全文以引用方式併入本文中。
E. 比例貢獻之分類在一些實施例中,亦可使用特定組織之優先端點位置來量測樣品中特定組織類型之絕對貢獻,例如以每單位體積(例如每毫升)之基因體數量表示。舉例而言,可量測所關注組織之相對於無細胞DNA樣品之體積或重量之濃度。在一實施方案中,可使用定量PCR來量測在單位體積或單位重量之所提取無細胞DNA樣品中末端落在一或多個優先端點之無細胞DNA分子之數量。可對校正樣品進行類似量測,且因此該比例貢獻可確定為比例貢獻,此乃因貢獻係每單位體積或單位重量之濃度。
在各個實施例中,當第一組織類型對應於腫瘤組織時,分類可選自由以下組成之群:個體中腫瘤組織之量、個體中腫瘤之大小、個體中腫瘤之時期、個體之腫瘤負荷及個體中腫瘤轉移之存在。
在另一實施例中,第一分析或第二分析可包含實施定序以確定樣品中無細胞核酸分子之大小分佈,及比較大小分佈與參照值以確定樣品中無細胞核酸分子之大小分佈是否指示癌症。
儘管本文已提供實例及實施例,但與例如片段大小分佈相關之其他技術及實施例可參見例如於2013年3月8日提出申請之PCT IB/2013/00312,其全文以引用方式併入本文中。如
圖 20中所顯示,在癌症患者之血漿中,腫瘤源DNA可短於非癌症源DNA (例如,參見Diehl F等人,
Proc Natl Acad Sci USA2005;102:16368-16373)。如
圖 21中所顯示,DNA片段之大小可與分數濃度(亦稱為百分比)相關聯;因此,實施例可利用此關聯來確定樣品中特定類型之DNA (例如,來自腫瘤之DNA)之分數濃度。因此,本發明之方法可包含能夠基於所量測DNA片段之大小估計生物樣品中臨床相關DNA之分數濃度的分析。
在實例中,可自懷疑患有腫瘤之患者獲得包含腫瘤源DNA及在一些情形下其他DNA (例如,來自健康組織之DNA)之生物樣品。在一個實施方案中,可在機器(例如定序機)上接收生物樣品,該機器輸出可用於確定DNA片段之大小之量測數據(例如,序列讀段)。
量測對應於不同大小之DNA片段之量。對於複數個大小之每一大小,可量測來自生物樣品之對應於該大小之複數個DNA片段之量。例如,可量測長度小於180個鹼基之DNA片段之數量。在具體實例中,在患有NPC之個體中,可使用約180個鹼基對之DNA片段長度之截止值來分離腫瘤源片段(例如,非病毒粒子源EBV DNA片段)與非腫瘤源片段(例如,病毒粒子源EBV DNA片段或來自健康組織之DNA)。量可保存為直方圖。在一個實施例中,量測來自生物樣品之複數個核酸中之每一者之大小,此可基於個體(例如,藉由單分子定序)或基於組(例如,經由電泳)來進行。大小可對應於範圍。因此,量可針對具有特定範圍內之大小之DNA片段。
複數個DNA片段可隨機選擇或優先選自基因體之一或多個預先測定區域。舉例而言,可實施靶向富集,如上文所述。在另一實施例中,可對DNA片段進行隨機定序(例如,使用隨機定序),且可使所得序列讀段與對應於個體之基因體(例如,參照人類基因體)對準。然後,可僅使用序列讀段與一或多個預先測定區域對準之DNA片段來確定大小。
在各個實施例中,大小可為質量、長度或其他適宜大小量度。可以多種方式實施量測,如本文所述。舉例而言,可實施DNA片段之末端配對定序及對準,或可使用電泳。可量測統計學上顯著數量之DNA片段以提供生物樣品之準確大小概況。DNA片段之統計學上顯著之數量之實例包括大於100,000、1,000,000、2,000,000或其他適宜值,此可端視所需精密度而定。
在一個實施例中,可在電腦上接收自物理量測(例如末端配對定序或電泳)獲得之數據且分析以實現DNA片段之大小之量測。例如,可分析(例如,藉由對準)來自末端配對定序之序列讀段以確定大小。作為另一實例,可分析源自電泳之電泳圖以確定大小。在一實施方案中,DNA片段之分析包括定序或使DNA片段經歷電泳之實際過程,而其他實施方案可僅實施所得數據之分析。
可基於多個大小之DNA片段之量計算第一參數之第一值。在一態樣中,第一參數提供生物樣品中DNA片段之大小概況之統計量度(例如,直方圖)。該參數可稱為大小參數,此乃因其可根據複數個DNA片段之大小確定。
第一參數可具有多種形式。此一參數可為特定大小之DNA片段之數量除以片段之總數,其可自直方圖(提供特定大小之片段之絕對或相對計數之任一數據結構)獲得。作為另一實例,參數可為特定大小或特定範圍內之片段之數量除以另一大小或範圍之片段的數量。該除法可用作計算不同樣品之所分析DNA片段之不同數量之正規化。正規化可藉由分析每一樣品之相同數量之DNA片段來實施,其可有效地提供與除以所分析片段之總數相同之結果。參數之其他實例闡述於本文中。
可獲得一或多個第一校正數據點。每一第一校正數據點係指定對應於第一參數之具體值(校正值)之臨床相關DNA之分數濃度。分數濃度係指定為特定濃度或濃度範圍。校正值可對應於如自複數個校正樣品確定之第一參數(即,特定大小參數)之值。校正數據點可自具有已知分數濃度之校正樣品確定,該等分數濃度可經由本文所述之多種技術來量測。至少一些校正樣品可具有不同分數濃度,但一些校正樣品可具有相同分數濃度。
在各個實施例中,一或多個校正點可定義為一個離散點、離散點集合、函數、一個離散點及函數或值之離散或連續集合之任何其他組合。作為實例,校正數據點可自具有特定分數濃度之樣品之大小參數(例如,在特定大小或大小範圍內之片段數量)之一個校正值確定。可使用複數個直方圖,且不同直方圖用於每一校正樣品,其中一些校正樣品可具有相同分數濃度。
在一個實施例中,可組合來自相同分數濃度之多個樣品之同一大小參數之所量測以確定特定分數濃度之校正數據點。舉例而言,可自相同分數濃度之樣品之大小數據獲得大小參數之平均值以確定特定校正數據點(或提供對應於校正數據點之範圍)。在另一實施例中,可使用具有同一校正值之多個數據點來確定平均分數濃度。
在一實施方案中,量測許多校正樣品之DNA片段之大小。可確定每一校正樣品之同一大小參數之校正值,其中大小參數可針對樣品之已知分數濃度來繪製。然後函數可擬合至圖之數據點,其中函數擬合定義欲用於測定新樣品之分數濃度之校正數據點。
然後可比較第一值與至少一個校正數據點之校正值。該比較可以多種方式來實施。舉例而言,比較可為第一值是高於抑或低於校正值。比較可涉及與校正曲線(由校正數據點構成)比較,且因此該比較可鑑別出具有第一參數之第一值之曲線之點。舉例而言,可使用第一參數之所計算值X (如根據新樣品中DNA之所量測大小所確定)作為輸入至函數F(X)中,其中F係校正函數(曲線)。F(X)之輸出係分數濃度。可提供誤差範圍,其針對每一X值可不同,由此提供值之範圍作為F(X)之輸出。
然後基於比較估計生物樣品中臨床相關DNA之分數濃度。在一個實施例中,可確定第一參數之第一值係大於抑或小於臨限值校正值,且藉此確定本發明樣品之所估計分數濃度係大於抑或小於對應於臨限值校正值之分數濃度。舉例而言,若生物品之所計算第一值Xi大於校正值Xc,則生物樣品之分數濃度FC1可確定為大於對應於Xc之分數濃度FCc。此大於及小於關係可端視定義該參數之方式而定。在此一實施例中,可需要僅一個校正數據點。
在另一實施例中,比較係藉由將第一值輸入至校正函數中來實現。校正函數可藉由鑑別曲線上對應於第一值之點有效地比較第一值與校正值。然後提供所估計分數濃度作為校正函數之輸出值。
在一個實施例中,可測定生物樣品之一個以上參數之值。舉例而言,可測定第二參數之第二值,其對應於生物樣品中DNA片段之大小概況之不同統計量度。第二值可使用DNA片段之相同大小量測或不同大小量測來確定。每一參數可對應於不同校正曲線。在一實施方案中,可獨立地比較不同值與不同校正曲線以獲得複數個估計的分數濃度,然後可將其平均化或用於提供範圍作為輸出。
在另一實施方案中,可使用多維校正曲線,其中各參數之不同值可有效地輸入至單一校正函數以輸出分數濃度。單一校正函數可源自自校正樣品獲得之所有數據點之函數擬合。因此,在一個實施例中,第一校正數據點及第二校正數據點可為多維曲線上之點,其中比較包括鑑別具有對應於第一值及一或多個第二值之坐標之多維點。
可例如(但不限於)使用即時PCR、電泳及質譜分析測定血漿DNA之大小分佈。在各個實施例中,所量測大小係長度、分子質量或與長度或質量成比例之所量測參數,例如電泳圖中之遷移率及在電泳或質譜儀中行進固定距離所需之時間。參數可使用所分析所有DNA片段或僅一部分之大小來確定。在一個實施例中,參數提供短及長DNA片段之相對豐度,其中短及長DNA可對應於特定大小或大小範圍。
參數之其他實例係直方圖之頻率計數器。在一個實施例中,可使用多個參數。舉例而言,每一參數之值可給出差異百分比且然後可確定平均百分比。在另一實施例中,每一參數對應於多維校正函數之不同維度,其中用於新樣品之參數之值對應於相應多維表面上之坐標。
在另一實施例中,第一分析或第二分析可包含實施定序以確定樣品中無細胞核酸分子之片段化模式,及比較該片段化模式與參照值以確定樣品中無細胞核酸分子之片段化模式是否指示癌症。儘管本文已提供實例及實施例,與例如確定片段化模式相關之其他技術及實施例可參見例如於2016年7月25日提出申請之美國申請案15/218,497,其全文以引用方式併入本文中。可存在無細胞DNA之非隨機片段化過程。非隨機片段化過程可在一定程度上發生於各種類型之含有無細胞DNA之生物樣品,例如血漿、血清、尿液、唾液、腦脊髓液、胸腔積液、羊水、腹膜液及腹水。無細胞DNA可通常以短片段形式出現。無細胞DNA片段化係指其中當產生或釋放無細胞DNA分子時,高分子量DNA (例如細胞核中之DNA)裂解、破裂或消化成短片段。
切割無細胞DNA分子之具體位置可為非隨機的。在活體外剪切或超音波處理之高分子量基因體組織DNA可顯示具有隨機散佈在整個基因體中之端點位置之DNA分子。然而,可存在無細胞DNA分子之在樣品(例如血漿)內具有高代表性之某些端點位置。該等端點位置之出現或代表數可在統計學上顯著高於純偶然預期。無細胞DNA片段化之過程甚至可協調至切割或裂解之具體核苷酸位置。
為反映片段化模式,可基於母體血漿DNA之定序結果測定基因體之每一核苷酸之完整機率(PI),
其中Nz係覆蓋靶核苷酸之兩側(5’及3’)上之至少z個核苷酸(nt)之全長經定序讀段的數量;且NT係覆蓋靶核苷酸之經定序讀段之總數。
PI之值可反映具有以長度為z值之兩倍加1 (2z+1)之特定位置為中心之完整DNA分子之機率。完整機率(PI)之值越高,血漿DNA在特定核苷酸位置片段化之可能性越低。
在一個實施例中,P
I可使用25作為z值來計算。因此,完整血漿DNA片段可定義為覆蓋靶位置上游至少25 nt至靶位置下游25 nt之片段。在其他實施例中,可使用其他z值,例如(但不限於) 10、15、20、30、35、40、45、50、55、60、65、70、75及80。
P
I係末端落在基因體位置之窗口內之無細胞DNA分子之相對豐度之實例。可使用其他度量,例如P
I之倒數,其與具有完整DNA分子之機率可具有相反關係。P
I倒數之較高值係指示為端點位置或末端窗口之較高機率。其他實例係末端DNA片段之經測數對末端DNA片段之期望數之p值、末端落在所有對準DNA片段外之DNA片段的比例或優先端點終止比率(PETR)之比例,其皆更詳細闡述於下文中。相對豐度之所有該等度量可量測末端落在例如寬度為2z+1之窗口內之無細胞DNA片段之比率,其中z可為0,由此使該窗口等效於基因體位置。
在特定組織中基因體之某些區域可容易具有較高比率(頻率)之染色體區域斷裂,且因此具有較高比率之末端落在該區域中之窗口內之無細胞DNA片段。相對豐度之圖可顯示可具有週期性結構之片段化模式。週期性結構可顯示極大端點位置(高裂解)之位置及極小端點位置(低裂解)之位置。在使用P
I時,極大值對應於低裂解之窗口,此乃因P
I可量測與裂解機率(端點位置機率)相反之完整機率,其彼此可具有相反關係。
在一些情形下,血漿DNA之片段化並不隨機靠近轉錄起始位點(TSS) (例如,參見Fan等人,PNAS 2008;105:16266-71)。任何血漿DNA末端落在特定核苷酸上之機率將隨與TSS之距離而變化且具有大約核小體大小之週期性。此片段化模式可為DNA之細胞凋亡降解之結果。血漿DNA之大小可類似於與組織蛋白複合物締合之DNA之大小。
血漿DNA之大小可類似於與核小體締合之DNA之大小(例如,參見Lo等人,Sci Transl Med 2010; 2(61):61ra91)。血漿DNA可經由細胞DNA (核DNA及粒線體DNA)之細胞凋亡降解來產生。在一些情形下,在循環粒線體DNA中缺少此核小體模式,此乃因在一些情形下,粒線體DNA並不與細胞中之組織蛋白締合。在一些情形下,血漿DNA片段末端之核苷酸位置並非隨機靠近轉錄起始位點(例如,參見Fan等人,PNAS 2008;105:16266-71)。
血漿DNA之大小在具有不同序列背景之區域中可有所不同(例如,參見Chandrananda等人,BMC Med Genomics 2015;8:29)。無細胞DNA片段可更可能在核小體連接體區域上而非核小體核心處起始及結束。完整機率可存在核苷酸至核苷酸變化。完整機率變化之波幅可跨越不同基因體區域而變化。
P
I之變化波幅可跨越不同基因體區域而變化。P
I之變化波幅可與染色質對細胞凋亡期間之降解之可及性相關。血漿DNA之片段化模式受其與TSS之相對位置的影響。可使用波幅對應於所測試組織之其他位點。此一類型位點之一個實例係使用利用高通量定序之轉位酶可及染色質分析(ATAC-Seq)鑑別出之位點(例如,參見Buenrostro等人,Nat Methods 2013; 10: 1213-1218)。此一類型位點之另一實例係使用微球菌核酸酶(MNase)鑑別出之位點。
可比較兩種類型之基因體區域中P
I變化之波幅:
i. 為TSS而非DNase超敏感位點之區域;及
ii. 為DNase超敏感位點而非TSS之區域。
自ENCODE數據庫(genome.ucsc.edu/ENCODE/downloads.html)檢索TSS及DNase超敏感位點之坐標。
可使用以下方法剖析TSS及DNase I位點周圍之P
I模式。
1. 可檢索靶向參照位點周圍上游及下游2 kb區域。
2. 然後根據與參照位點之距離再按比例繪製絕對基因體坐標。舉例而言,若大小為60 bp之特定窗口距上游方向上之參照位點50 bp,則其將標記為-50。否則若大小為60 bp之特定窗口距下游方向上之參照位點50 bp,則其將標記為+50。
3. 可使用與該窗口重疊之完整片段及所有片段之計數再計算具有相同的再按比例繪製之新坐標之特定窗口之P
I值。
與DNase超敏感位點之相對位置可為管控血漿DNA之片段化模式之重要因素。DNase超敏感位點之概況在不同類型之組織中可有所不同。該等概況可對應於位點之基因體位置;不同組織之DNase超敏感位點之位置可有所不同。因此,推論出自不同類型之組織釋放之血漿DNA可展現組織特異性片段化模式。以類似方式,可使用區域之波幅自組織至組織變化之其他區域。
源自組織A之血漿DNA在具有高P
I(峰值,由P表示)之核苷酸位置可具有較低片段化機率。因此,源自組織A之血漿DNA之末端可具有位於該等核苷酸位置之較低機率。相比之下,源自組織A之血漿DNA之末端可具有位於具有低P
I(谷值,由T表示)之核苷酸位置之較高機率。另一方面,由於此位點並非組織B之DNase超敏感位點,故源自組織B之血漿DNA之P
I變化之波幅可較低。因此,至少相對於對組織A可見之變化量,來自組織B之血漿DNA末端落在位置P及位置T之機率可相似。
為組織A之DNase超敏感位點之區域之片段末端比率(FR
A)可定義如下:
其中N
T係末端落在P
I谷值之核苷酸位置上之血漿DNA片段的數量且N
P係末端落在P
I峰值之核苷酸位置上之血漿DNA片段的數量。FR
A係分離值之實例,且更具體而言係末端落在谷值相對於末端落在峰值之DNA片段的相對豐度之實例。在其他實施例中,可確定相鄰谷值(局部極小值)與峰值(局部極大值)之分離比,且可確定分離比之平均值。
對於組織A,FR
A可大於1,此乃因N
T可大於N
P。對於組織B,FR
A可大約1,此乃因N
T與N
P可相似。因此,在含有源自組織A及B二者之血漿DNA之混合物中,FR
A可之值與組織A之比例貢獻具有正相關。實際上,組織B之FR
A無需為1。只要組織B之FR
A不同於組織A之FR
A,即可根據FR
A確定兩種類型組織之比例貢獻。
在該等區域中,DNA片段末端落在谷值之概率之高變化可使得末端落在該等位置之DNA片段數量高於末端落在峰值之DNA片段數量(注意,對於不同的所定義相對豐度值,針對峰值可出現較高概率)。當更多DNA片段係來自組織類型A時,末端落在谷值及峰值之DNA片段之數量之差異將更大。因此,隨著組織A之比例貢獻增加,末端落在谷值之DNA片段的數量與末端落在峰值之DNA片段的數量之間的分離更大。此分離值對應於概率函數之高波幅。
可以與針對組織A之比例貢獻類似之方式分析含有兩種以上類型組織之混合物,只要其他組織之FR
A相對恆定即可。該等方法實際上可用於分析不同臨床情形,例如(但不限於)癌症檢測、移植監測、創傷監測、感染及出生前診斷。
在一個實施例中,可測定癌症患者之血漿中受侵襲組織之分數濃度。舉例而言,在患有肝癌之患者中,可經由分析肝特異性開放染色質區域(例如,DNase超敏感位點)來確定肝DNA之分數貢獻。在一個實施例中,此可使用DNase-Seq來進行(例如,參見Boyle等人,Cell 2008; 132: 311-322;Madrigal等人,Front Genet 2012; 16: 123-131)。在另一實施例中,此可藉由甲醛輔助調控元件分離(FAIRE)-Seq來實施(例如,參見Giresi等人,Genome Res 2007; 17: 877-885)。在另一實施例中,此可藉由ATAC-Seq來實施(例如,參見Buenrostro等人,Nat Methods 2013; 10: 1213-1218)。可確定該等位點之FR
肝且與正常健康個體比較。在肝特異性DNase超敏感位點,峰值與谷值區域之間之P
I變化主要可貢獻自肝。經由與校正曲線比較,可確定肝之貢獻。可比較所測試病例之FR
肝之值與健康個體中肝之一系列貢獻。可使用在混合物之不同組織中具有末端落在基因體位置之DNA片段之概率函數的波幅之高變化之其他區域。該等其他區域之實例更詳細闡述於以下部分中。
類似地,可藉由此方法測定在已接受器官移植之患者中移植器官之貢獻。具有排斥之患者可增加移植器官DNA之釋放,從而產生血漿中升高的移植器官DNA濃度。分析移植器官之FR可為可用於檢測及監測器官排斥之方式。用於該分析之區域可端視所移植器官而變化。
本發明之一些實施例可包含分析生物樣品以確定如本文所述第一組織類型之比例貢獻之分類。生物樣品可包括來自包括第一組織類型之複數個組織類型之無細胞DNA分子之混合物。第一組織類型(例如,肝組織)可基於具體個體來選擇。舉例而言,若個體先前患有肝癌,則可實施篩選以檢查肝癌是否恢復,此可增加肝組織之比例貢獻。此一選擇準則可適用於本文所述之其他方法。
在一些實施例中,可鑑別出至少一個具有特異性針對第一組織類型之片段化模式之基因體區域。作為實例,至少一個基因體區域可包括一或多個DNase超敏感位點。具有特異性針對第一組織類型之片段化模式之至少一個基因體區域中之每一者可包括至少一個額外樣品中的一或多個第一組織特異性等位基因。作為另一實例,至少一個基因體區域可包括一或多個ATAC-seq或微球菌核酸酶位點。第一組織類型可對應於特定器官或甚至對應於器官之特定癌症。
在一些實施例中,可分析來自生物樣品之複數個無細胞DNA分子。無細胞DNA分子之分析可包括確定參照基因體中對應於無細胞DNA分子之至少一個末端之基因體位置(端點位置)。因此,可確定無細胞DNA分子之兩個端點位置或僅一個端點位置。
在一些實施例中,端點位置可以多種方式確定,如本文所述。舉例而言,可對無細胞DNA分子進行定序以獲得序列讀段,且可使該等序列讀段映射(對準)至參照基因體。若生物體係人類,則參照基因體可為在一些情形下來自特定亞群之參照人類基因體。作為另一實例,可用不同探針分析無細胞DNA分子(例如,在PCR或其他擴增後),其中每一探針對應於可覆蓋至少一個基因體區域之基因體位置。
在一些實施例中,可分析統計學上顯著數量之無細胞DNA分子以提供第一組織類型之比例貢獻之準確測定。在一些實施例中,分析至少1,000個無細胞DNA分子。在其他實施例中,可分析至少10,000或50,000或100,000或500,000或1,000,000或5,000,000個無細胞DNA分子或更多。
在一些實施例中,可鑑別出第一基因體位置之第一集合。具有無細胞DNA分子末端之局部極小值之每一第一基因體位置對應於第一基因體位置。多個相鄰基因體位置可定義為局部極值(極大值或極小值),且因此局部極大值並不限於僅一個位置。
在一些實施例中,可確定複數個基因體位置中之每一者之比率。可測定末端落在基因體位置且延伸至少指定數量之核苷酸至基因體位置兩側之無細胞DNA分子的第一量。位於基因體位置之無細胞DNA分子之第二量可與第一量一起使用來確定比率。可以比率鑑別複數個局部極小值及複數個局部極大值,例如藉由步進穿過比率值,以鑑別出一或多個在每一極值(極大值或極小值)處出現之連續基因體位置。
在一些實施例中,可鑑別出第二基因體位置之第二集合。具有無細胞DNA分子末端之局部極大值之每一第二基因體位置對應於第二基因體位置。第二集合可以與第一集合類似之方式鑑別。
在一些實施例中,可測定末端落在至少一個基因體區域中之任一者中之任一第一基因體位置上之無細胞DNA分子的第一數量。第一數量可以多種方式測定為例如跨越所有第一基因體位置之和。作為另一實例,可測定每一基因體位置之分離量。因此,測定無細胞DNA分子之第一數量可包括測定末端落在每一第一基因體位置上之無細胞DNA分子的第一量,藉此確定複數個第一量。
在一些實施例中,可測定末端落在至少一個基因體區域中之任一者中之任一第二基因體位置上之無細胞DNA分子的第二數量。第二數量可以與第一數量類似之方式測定。因此,測定無細胞DNA分子之第二數量包括測定末端落在每一第二基因體位置上之無細胞DNA分子之第二量,藉此測定複數個第二量。
在一些實施例中,使用第一數量及第二數量計算分離值。分離值可以多種方式(例如藉由第一數量與第二數量之比率)計算。在另一實施方案中使用多個極大值及極小值,可測定每一該基因體位置之量。計算分離值可包括確定複數個分離比,即複數個第一量中之一者與複數個第二量中之一者之每一分離比。分離值可使用複數個分離比(例如,分離比之平均值或中值)來確定。
在一些實施例中,可藉由比較分離值與自一或多個已知第一組織類型之比例貢獻之校正樣品測定之一或多個校正值來確定第一組織類型之比例貢獻之分類。
本發明之任一實施例可包含分析,其中分析生物樣品之無細胞DNA片段係無擴增的。當使用PCR時,定序深度(即,末端落在參照基因體中覆蓋特定核苷酸或在核苷酸上之序列讀段之數量)可不直接反映分析覆蓋該特定核苷酸之血漿DNA分子之數量。此可因一個血漿DNA分子在PCR過程期間可產生多個重複,且多個序列讀段可源自單一血漿DNA分子。此複製問題可因以下各項而變得更重要:i) 較高數量之擴增定序文庫之PCR週期;ii) 增加的定序深度,及iii) 原始血漿樣品(例如較小血漿體積)中較小數量之DNA分子。
另外,PCR步驟可引入其他誤差(例如,Kinde等人,Proc Natl Acad Sci USA 2011; 108: 9530-9535),此乃因在一些情形下,DNA聚合酶之保真度並非100%,且偶然地,錯誤核苷酸將納入PCR子鏈中。若此PCR誤差出現在早期PCR週期期間,則可產生顯示相同誤差之子代分子之純系。錯誤鹼基之分數濃度在來自同一基因座之其他DNA分子中可達到如此高之比例以致於該誤差可誤釋為例如腫瘤源突變。無PCR方案之實例包括:Berry基因體(例如,參見investor.illumina.com/mobile.view?c=121127&v=203&d=1&id=1949110);Illumina (例如,參見www.illumina.com/products/truseq-dna-pcr-free-sample-prep-kits.html)及多種單分子定序技術。無擴增分析之其他細節可參見PCT申請案第PCT/CN2016/073753號,其係全文以引用方式併入本文中。
因此,一些實施例可包括自欲分析之生物樣品獲得模板DNA分子;使用模板DNA分子製備可分析DNA分子之定序文庫;製備可分析DNA分子之定序文庫,不包括模板DNA分子之DNA擴增之步驟;對可分析DNA分子之定序文庫進行定序以獲得對應於第一複數個無細胞DNA分子之複數個序列讀段。分析第一複數個無細胞DNA分子可包括在電腦系統上接收複數個序列讀段及藉由電腦系統將複數個序列讀段與參照基因體對準以確定複數個序列讀段之基因體位置。
在一些實施例中,可使用組織特異性等位基因鑑別出具有組織特異性片段化模式之區域。可對患有肝細胞癌(HCC)之患者之血漿(220×覆蓋率)、膚色血球層(48×)及腫瘤組織(45×)進行定序。可藉由比較腫瘤組織與膚色血球層之基因型獲得患者之突變概況。為確定癌症源血漿DNA片段之優先端點位置,分析攜帶癌症突變之血漿DNA片段。
圖 14顯示HCC患者之血漿DNA之非隨機片段化模式之說明性實例。在圖之上部分,每一水平線代表一個經定序DNA片段。淺灰色及深灰色線分別代表攜帶野生型及突變體等位基因之DNA片段。DNA片段之末端代表經定序讀段之端點位置。根據左最外側核苷酸之坐標(最小基因體坐標)來分選該等片段。在圖之下部分,顯示末端落在特定位置上之片段之百分比。X軸代表基因體坐標且突變位於由虛線指示之中心處。
可使用帕松機率分佈函數鑑別出具有為攜帶突變體等位基因及野生型等位基因之血漿DNA片段末端之增加的機率之基因體位置。可使0.01之用p值作為臨限值。反之亦然,如PCT申請案第PCT/CN2016/073753號中所述,即當鑑別出具有特定末端之血漿DNA分子時,該分子上之SNP等位基因或突變可更可能為癌症源或疾病相關的,此端視在血漿DNA數據解釋中所用之末端集合而定。
圖 15係基因體坐標為具有突變位點之區域中之血漿DNA片段之端點位置的機率之圖。具有為攜帶野生型等位基因及突變體等位基因之血漿DNA片段末端之顯著增加的機率之核苷酸位置之結果分別以淺灰色及深灰色顯示。X軸代表基因體坐標且突變位於由虛線指示之中心處。如所顯示,存在具有高出現比率之僅針對突變體特異性等位基因、僅針對野生型等位基因之端點位置之坐標,且一些為二者所共有。
圖 16顯示跨越其中突變存在於腫瘤組織中之基因體位置之血漿DNA片段之端點位置的分析。集合E包括攜帶突變體等位基因之片段之優先端點位置。集合F包括攜帶野生型等位基因之片段之優先端點位置。集合G包括兩種類型之血漿DNA片段之優先端點位置。
由於集合E位置係癌症源DNA之優先端點位點且集合F位置係主要源自非腫瘤組織之背景DNA之優先端點位點,故末端落在該兩個位置集合上之片段之間的比率可與源自腫瘤之DNA相關聯。可分析血漿含有至少1%之腫瘤源DNA之71個HCC患者之血漿。可先前分析該等患者之血漿DNA之拷貝數畸變且可根據拷貝數畸變之量值估計腫瘤DNA分數。(例如參見Jiang等人,
Proc Natl Acad Sci U S A. 2015;112:E1317-25)。末端落在該兩個位置集合上之片段之間的比率(比率
M/WT)可定義為:
觀察到比率
M/WT與血漿中之腫瘤DNA分數之間之正相關(r = 0.53, p < 0.001,皮爾森關聯)。該等結果表明,末端落在該等癌症優先端點位置上之片段之數量可用於預測癌症患者血漿中腫瘤源DNA之量。
一些實施例可增加可及資訊性癌症DNA片段之數量,其係藉由組合檢測多種癌症特異性或癌症相關變化(例如單核苷酸突變)與癌症特異性或癌症相關DNA甲基化特徵(例如5-甲基胞嘧啶及羥基甲基化之位置)、癌症特異性或癌症相關短血漿DNA分子、癌症特異性或癌症相關組織蛋白修飾標記及癌症特異性或癌症相關血漿DNA末端位置之組合來實施。可使用某些癌症特異性或癌症相關變化作為鑑別突變之篩選準則。
在其他實施例中,優先端點位置可藉由以下方式來獲得:(A) 比較不同個體之血漿DNA片段之端點位置或(B) 比較在不同時間點獲取之一個個體之樣品之血漿DNA片段的端點位置。
在另一實施例中,優先端點位點可藉由確定末端落在此一位置上之片段數量與覆蓋該位置但末端不落在其上之片段數量之間的比率來鑑別。
圖 17顯示PETR之概念之圖解說明。每一線代表一個血漿DNA片段。該等片段標記為a至g。片段a、b、c及d在所關注核苷酸上終止。片段e、f及g覆蓋所關注核苷酸但末端不落在該位置上。在此說明性實例中,PETR等於4/3,即1.33。在其他實施例中,分母可為覆蓋核苷酸之DNA片段之數量,無論DNA片段末端是否落在該位置上。
PETR之計算可用於鑑別患有不同疾病病況之個體中優先端點之核苷酸位置。以下實例展示PETR之使用。比較先前提及之HCC患者與患有慢性B型肝炎病毒(HBV)感染但未患癌症之個體(HBV攜帶者)之血漿樣品。將HBV攜帶者之血漿DNA樣品定序至215×單倍體基因體覆蓋率。計算每一個體之每一基因體位置之PETR。7,350,067個基因體位置(集合H)鑑別為與HBV攜帶者相比在HCC患者中具有高至少4倍之PETR。與HBV攜帶者相比在HCC患者中該等位置具有為血漿DNA片段末端之至少4倍增加的機會。可使用其他倍數差異,例如1.5倍、2倍及3倍。
對11個獨立HCC患者之血漿樣品進一步定序至更低定序深度。自該11個血漿樣品獲得平均28百萬個經定序讀段。計算該11個HCC患者中之每一者之在7,350,067個集合H位置之平均PETR且與血漿中之腫瘤DNA分數相關聯。如先前所述基於血漿中拷貝數畸變之量值計算血漿中之腫瘤DNA分數(Chan等人,Proc Natl Acad Sci U S A. 2015;112:E1317-25)。
圖 18顯示在11個HCC患者中在集合H位置處血漿中之腫瘤DNA分數與PETR之間的關聯。可觀察到兩個參數之間之正相關,此表明HCC優先(集合H)位置之平均PETR可用於指示血漿中腫瘤DNA之量。
為顯示存在於HCC血漿DNA樣品或HBV血漿DNA樣品中之優先端點位置為肝相關的,探索其在手術移除HCC之前及之後自患者收集之血漿樣品中之存在。數據顯示於表5中。將手術前及手術後樣品分別定序至17×及20×單倍體基因體覆蓋率。
表5.
| HCC 優先 端點 位點 | HBV 優先 端點 位點 |
HCC 1中手術前優先端點位點
| 92
| 16
|
HCC 1中手術後優先端點位點
| 5
| 4
|
表5顯示在手術之前及之後收集之血漿樣品中之HCC優先端點位置及HBV優先端點位置以移除HCC患者中之肝腫瘤。
如表5中所顯示,HCC及HBV優先端點位置二者之數量存在減少。HBV數據表明,大多數優先端點位置為肝源且其減少歸因於手術後肝細胞質量之減小。因此釋放至血漿中之肝源無細胞DNA分子有所減少。有趣的是注意到在手術前樣品中存在5倍以上多的HCC優先端點位置,其在手術後消失。顯示手術後消失之一些優先端點為肝源。鑒於在同一手術前樣品中檢測到遠多於HBV優先端點之HCC優先端點之觀察結果,表明彼等端點中大多數具有HCC特異性且在屬類上不僅僅為肝相關。
存在可源自該等數據之應用。數據指示,無細胞DNA或血漿DNA優先端點之檢測可用於癌症治療監測。舉例而言,優先端點在手術後減少係指示HCC之手術移除之成功。若該腫瘤未完全或成功移除,則血漿DNA優先端點之量或數量在手術後不會顯示實質性減少。此乃因剩餘腫瘤或轉移性病灶會持續釋放具有HCC優先端點位置之無細胞DNA或血漿DNA之來源。數據顯示,在相對較淺之定序深度下基於無細胞DNA優先端點之分析可達成治療監測。
數據亦顯示,可使用組織相關或癌症相關血漿DNA優先端點位置來鑑別病理學之組織,包括患有癌症之組織。舉例而言,可使用源自不同器官之多個無細胞DNA優先端點集合。然後可能夠確定源自不同組織之無細胞DNA之相對量。因此,此可用作無細胞DNA組織解捲積之方法。藉由此方法顯示與自對照樣品確立之參照值具有最大偏差(顯著增加或顯著減少)之組織可為患有病理學(例如恰如慢性B型肝炎病毒攜帶者之發炎或病毒感染)或癌症之器官或組織。
鑒於支持血漿DNA HCC優先端點具有癌症或HCC特異性之另一條證據,HCC或HBV優先端點之血漿DNA分子之大小概況研究顯示,在末端帶有HCC優先端點、HBV優先端點或共有端點之血漿DNA分子中檢測到之短DNA (< 150 bp)之比例。展現HCC優先端點之血漿DNA分子通常遠遠短(較高比例之短DNA)於顯示HBV優先端點之彼等。Jiang等人(Jiang等人,Proc Natl Acad Sci U S A. 2015;112:E1317-25)先前使用另一方法顯示腫瘤源血漿DNA分子短於背景非腫瘤DNA。由於具有HCC優先端點之血漿DNA分子較短,故其更可能為腫瘤源。因此,可改良在甚至較低定序深度下檢測到具有HCC優先端點之血漿DNA分子之機會,可富集具有短DNA之樣品。
在另一實施例中,HCC優先位置可延伸至包括相鄰核苷酸。確定末端落在窗口A內之片段數量與末端落在窗口B內之片段數量之間的基於窗口之PETR (w-PETR)比率。可調整窗口A及窗口B之大小以達成期望性能。可以實驗方式獲得不同窗口大小之性能。窗口A之大小可設定為例如(但不限於)至少約5個鹼基對(bp)、6 bp、7 bp、8 bp、9 bp、10 bp、15 bp、20 bp、25 bp、30 bp、40 bp、50 bp或100 bp。窗口B之大小可大於窗口A之大小且可設定為例如(但不限於)至少約20 bp、25 bp、30 bp、40 bp、50 bp、60 bp、70 bp、80 bp、100 bp、120 bp、140 bp、160 bp、180 bp或200 bp。在以下說明性實例中,窗口A及窗口B之大小分別設定為20 bp及150 bp。
亦可藉由比較在不同時間點收集之樣品之片段末端獲得特定病況之優先端點位置。舉例而言,在癌症患者中,可在診斷時收集一個血漿樣品且可在治療後(例如在手術切除腫瘤後)收集其他樣品。端點位置之差異可反映後者中癌症源DNA之貢獻或對癌症之身體反應之不存在。
鑒於可針對特定組織類型確定優先端點位置,末端落在該等優先端點位置之無細胞DNA分子可具有來自該組織之高概率。在一些情況下,無細胞DNA混合物中之特定組織類型相對於其他組織類型在特定基因體位置可具有不同基因型。舉例而言,腫瘤組織可具有不同基因型。由於無細胞DNA分子可具有來自所關注組織類型之高概率,故可分析末端落在此一位置之無細胞DNA分子以確定該組織類型在該位置之基因型。以此方式,可使用優先端點位置作為鑑別組織類型之DNA之篩選器。舉例而言,癌症優先端點位置可如上文所述來鑑別。可鑑別及分析末端落在癌症優先端點位置上之無細胞DNA分子。可確定此集合之每一無細胞DNA分子之對應於(例如,對準)此位置之鹼基,且可計算每一鹼基佔總鹼基之百分比。舉例而言,可測定末端落在該位置之無細胞DNA分子上可見之C之百分比。若在個體之健康組織中未見C,若鑑別出足夠數量之C (例如大於臨限數量),則C可鑑別為突變,此可端視樣品中之所量測腫瘤DNA分數而定。
例如除使用端點位置外,可使用其他準則來篩選來自腫瘤組織之無細胞DNA分子。
可藉由將篩選準則應用於其中一或多個具有突變之序列讀段已對準之基因座來改良鑑別癌症基因型(例如,包括癌症特異性突變)及使用該等基因型之任何測試(例如,使用突變負荷確定癌症等級)的特異性。作為癌症之實例,僅有存在與癌症相關之高信賴度時,遺傳或基因體特徵評定為陽性者才可以說是高特異性。此可藉由最小化定序之次數及可能錯誤鑑別為突變之對準誤差、例如藉由與健康對照組之基因體概況比較來達成,及/或可藉由與個人之自身組成性DNA比較來達成及/或可藉由與個人之早期基因體概況比較來達成。
多個準則可作為篩選準則應用於評價無細胞DNA片段源自腫瘤且因此有資格成為資訊性癌症DNA片段之概率。每一篩選準則可個別地、獨立地、與相等加權或不同加權共同使用或以指定順序連續使用或端視先前篩選步驟之結果條件化使用。對於條件化使用,可使用基於貝氏之方法以及基於分類或決策樹之方法。個別地使用準則可意指僅使用一個準則。獨立使用可涉及一個以上之篩選準則,但每一篩選準則並不依賴於另一篩選準則之應用(例如,可實施平行應用),此與以指定順序連續應用不同。作為使用加權之集體使用之實例,可使用機器學習技術。舉例而言,監督學習可使用具有已知分類之樣品之經量測突變負荷來訓練任何模型。可使用大量個體(例如數百、數千或數百萬)之定序數據來訓練模型。在較簡單形式中,可使用該等已知樣品來測定來測定根據篩選準則確定之一或多個得分之臨限值以確定突變是否有效。
若DNA片段顯示一個以上之癌症特異性變化,則可給予該DNA片段資訊性或癌症特異性之較高加權。舉例而言,許多癌症可包含尤其在非啟動子區域總體低甲基化之核酸。在血漿中癌症DNA可短於非癌症DNA。腫瘤源血漿DNA片段往往可在一些特定位置片段化。因此,大小較短(例如< 150 bp) (例如,參見Jiang等人,Proc Natl Acad Sci USA 2015; 112: E1317-1325)且一或兩個末端處於癌症相關末端位置上之血漿DNA片段可顯示單核苷酸突變,且可定位至非啟動子區域,並可具有可視為更可能與癌症相關之低甲基化CpG位點。可利用亞硫酸氫鹽DNA轉化或可區別甲基-胞嘧啶與非甲基-胞嘧啶之直接單分子定序來達成低甲基化DNA之檢測。用於增加鑑別資訊性癌症DNA片段之特異性之過程、方案及步驟闡述於本文中。舉例而言,可使用一或多個篩選準則來增加特異性。舉例而言,可使用一或多個篩選準則使特異性增加至例如至少80%、90%、95%或99%之特異性。
如上文所述,可基於末端核苷酸(端點位置)之坐標來實施潛在癌症特異性或癌症相關突變之篩選。如上文所述,可鑑別出DNA片段之不隨機且基於起源組織變化之末端位置。因此,可使用末端位置來確定具有推定突變之序列讀段實際上來自腫瘤組織之概率。
血漿DNA之片段化模式可為非隨機的(例如,參見Snyder等人,
Cell2016; 164: 57-68及PCT WO 2016/015058 A2)。血漿DNA片段化模式可受核小體定位、轉錄因子結合位點、DNase切割或超敏感位點、表現概況(例如,參見Snyder等人,Cell 2016; 164: 57-68及PCT WO 2016/015058;Ivanov等人,BMC Genomics 2015; 16增刊13:S1)及已貢獻血漿DNA分子之細胞之基因體的DNA甲基化概況(例如,參見Lun等人,Clin Chem 2013; 59: 1583-1594)的影響。因此,不同組織起源之細胞之片段化模式可有所不同。儘管存在顯示較頻繁片段之基因體區域,但該區域內之實際血漿DNA切割位點仍可為隨機的。
不同組織可與具有不同切割位點或末端位置之血漿DNA片段之釋放相關。換言之,甚至特異性切割位點亦非隨機的。癌症患者中血漿DNA分子之子集可顯示不同於未患癌症之患者之末端位置。一些實施例可使用具有該等癌症相關末端位置之血漿DNA分子作為資訊性癌症DNA片段,或使用該末端位置資訊例如與一或多個其他篩選準則一起作為篩選準則。因此,藉由鑑別出該等癌症相關血漿DNA末端位置,可將血漿DNA片段評定為資訊性癌症DNA片段或基於此一片段之末端位置之性質歸於逐差加權。該等準則可用於評價該等片段源自癌症、某些器官或某些器官癌症之概率。該加權可用於改變特定DNA片段之特定鹼基對在該位置可見之特定鹼基的總百分比之貢獻。
因此,若血漿DNA片段顯示推定的突變及/或癌症相關甲基化變化以及與癌症相關之末端位置,則該血漿DNA片段係資訊性癌症DNA片段之機會可高得多。多個實施例亦可將此一片段之狀況及其長度或該等及其他參數之任一組合考慮在內。對於具有兩個末端(或高達四個末端,如下文部分中所述)之血漿DNA片段,可進一步改變將其鑑別為癌症源片段之加權,其係藉由考慮其末端中之一或兩者是否與癌症相關或來自與癌症相關之組織類型來實施。在一個實施例中,亦可使用基於末端位置之類似方法來檢測與其他病理學或生物過程相關之突變(例如因老化過程所致之突變或因環境誘變因子所致之突變)。
一般而言,為鑑別出生物相關血漿DNA末端位置,可比較有不同疾病或流行病學背景或生理概況之個體組之血漿DNA樣品與無該等疾病或背景或概況之另一個體組之樣品。在一個實施例中,可對該等樣品中之每一者進行深度定序,以使得可鑑別出每一樣品內血漿DNA片段之共同端點位置。在另一實施例中,可將具有互補概況之個人組之序列數據彙集在一起來鑑別代表疾病或生理概況之共同端點位置。
可個別地訊問樣品中之每一血漿DNA片段且可基於末端位置分配概率得分。某一末端位置之概率得分可取決於靶個體(例如,癌症)之末端落在末端位置之序列讀段量(例如,藉由樣品之定序深度正規化之序列讀段之百分比或其他值)相對於對照組之序列讀段端點量的分離。較大分離可產生較高特異性,且因此可應用較高概率得分。因此,可將具有特異性末端位置之血漿DNA片段分類成可能與疾病相關或不與疾病相關。
或者,可共同解釋源自相同區域之血漿DNA片段,即可藉由正規化成定序深度計算末端落在特定核苷酸之比率。以此方式,某些核苷酸可鑑別為相對於基因體中之其他位置之共同端點位置,例如僅基於特定類型之一個樣品之分析,但可使用更多樣品。因此,可將具有特異性末端位置之血漿DNA片段分類成可能與疾病相關或不與疾病相關。對於顯示具有該等生物相關血漿DNA末端位置之血漿DNA片段之高頻率之位置,可確定該等基因座富集有生物相關DNA且因此以與癌症相關或與其他疾病或生物過程相關之高概率之一組血漿DNA片段納入。以與在不同組之間比較類似之方式,概率度可基於給定核苷酸相對於其他核苷酸之比率有多高,如上文所述。
5. 突變狀況分析 本發明之一些實施例可包含用於檢測患者中生物樣品之突變狀況之分析。突變狀況通常係指樣品中之癌症特異性變化或突變或突變負荷。儘管本文已提供實例及實施例,但其他技術及實施例(例如,篩選技術、定序方法、截止值、確定癌症等級、突變分析)可參見例如於2013年6月14日提出申請之PCT/IB2013/054898及於2016年2月14日提出申請之PCT/CN2016/073753,其各自係全文以引用方式併入本文中。為鑑別癌症突變且測定個體之突變負荷,實施例可分析具有循環無細胞DNA之樣品。已知腫瘤、癌症及惡性病將其DNA內容物釋放至循環中(例如,參見Bettegowda等人,Sci Transl Med 2014; 6: 224ra24)。因此,可在血漿及血清中檢測到與腫瘤、癌症及惡性病相關之突變。該等突變亦可在其他體液中檢測到,其他體液係例如(但不限於)尿液、其他泌尿生殖液、宮頸灌洗液、乳頭溢液、唾液、胸腔積液、腹水及腦脊髓液(例如,參見Togneri等人,Eur J Hum Genet 2016; doi: 10.1038/ejhg.2015.281;De Mattos-Arruda等人,Nat Commun 2015; doi: 10.1038/ncomms9839;Liu等人,J Clin Pathol 2013; 66 :1065-1069。)。
可在該等體液中檢測到突變之原因在於,細胞或無細胞DNA直接脫落至彼等器官之液體中從而與液體直接接觸,例如自泌尿道(例如,自腎或膀胱)或生殖道(例如,自前列腺)至尿液、經腎自血漿至尿液中、自腦至腦脊髓液、自胰臟至胰液中、自膽囊至膽汁中、自口咽至唾液、自乳房細胞至乳頭溢液、自腹部器官至腹水或自肺至胸腔積液。另外,可在體液中檢測到突變之原因在於其部分源自血漿之篩選。因此,可在體液中檢測到血漿中之內容物,包括來自更遠離液體位點之其他器官之腫瘤源突變。
檢測血漿、血清及其他體液中無細胞核酸之突變可對癌症篩選測試之研發具有吸引力,此乃因其可以相對非侵入之方式且代替腫瘤生檢之直接評價提供對腫瘤相關遺傳及基因體變化之可及性。另外,在無細胞核酸群體中可檢測到與腫瘤、癌症或惡性病相關之遺傳及基因體變化之幾乎所有形式。癌症相關變化或癌症特異性變化之實例提供於本文中。癌症特異性係指變化可來自癌細胞,且癌症相關係指變化可因解剖學靠近、生理相關、發育相關或對癌症存在之反應所致來自癌細胞或癌前病灶或其他組織。由於對腫瘤相關遺傳及基因體概況(尤其自血漿及血清無細胞核酸測定)之非侵入可及性,若用作篩選測試,則可在較短間隔(例如,數天或數週)內重複量測腫瘤相關概況以「納入」或「排除」疾病或在較長間隔(例如每兩年、每年或每半年)內重複量測。
血漿DNA分子通常可以短DNA片段形式存在(例如,參見Yu等人,Proc Natl Acad Sci USA 2014; 111: 8583-8588)。其長度可為< 200 bp,且可在某些癌症相關位置片段化,如本文更詳細論述。人類血漿中之大多數DNA分子可源自造血細胞。當個人罹患非造血惡性病時,尤其在早期期間,腫瘤源DNA可代表與非腫瘤源造血DNA之背景混合之血漿中之最小部分。血漿樣品中腫瘤源DNA之量可表示為總DNA之分數或癌細胞之基因體當量或細胞當量數。在造血惡性病之情形下,可預期血漿中惡性病相關DNA之分數高於非造血惡性病中DNA之分數且可使用與本申請案中所述相同之實施例來檢測。
在本發明中,闡述一般可適用於檢測任一癌症之方案,只要腫瘤將DNA貢獻至體液即可(例如,參見Bettegowda等人,Sci Transl Med 2014; 6: 224ra24)。在一些情形下,本文所述之實施例並不依賴於僅某一癌症類型典型之生物標記物之檢測。用於區分患及未患癌症之個體之分類方案可基於一般亦可適用於檢測任一癌症目的之突變負荷評價。為研發出具有高臨床靈敏度及特異性之篩選其他癌症之測試,可需要檢測寬範圍及大量突變之能力。存在若干原因證明此測試需求。與EBV與NPC之相關性不同,一些其他癌症並不與可相對容易地區別非癌症人類DNA之非人類遺傳標記物相關。因此,為研發出用於非EBV相關癌症之篩選測試,該測試可需要檢測其他多種癌症相關變化。
寬度癌症可為高度異質的。突變概況在不同器官之癌症之間極大地變化,在患有相同器官之癌症之不同個體之間或甚至在同一個體之同一器官之不同腫瘤病灶之間極大地變化(Gerlinger等人,N Engl J Med 2012; 366: 883-892)。因此,任一腫瘤相關突變可僅在任一癌症個體之小子集中呈陽性。舉例而言,癌症體細胞突變目錄(COSMIC)數據庫記載可在腫瘤組織中檢測到之遺傳突變之範圍(例如,參見cancer.sanger.ac.uk/cosmic)。在一些情形下,僅一定比例之每一腫瘤類型可展現癌症中最常鑑別出之突變中之任一者。在一些情形下,較大比例之腫瘤之特徵並不在於COSMIC數據庫中所列示之任一頂部突變。換言之,若基於頂部突變之排除性檢測設計癌症篩選測試,則在一些情形下,許多腫瘤可因該等突變不存在而無法檢測到。該等數據可表明,如藉由本申請案中之實施例所展示,對檢測大量體細胞突變之需要可對實現可對不同腫瘤具有一般性且可在較大比例之癌症群體中獲得陽性發現之篩選測試至關重要。
為研發出用於癌症檢測或初步篩選之血漿DNA測試,可經由基因體內之較寬探索空間探測以收集足夠突變(例如,相對於參照基因體(例如組成性基因體或親代基因體)之拷貝數畸變及序列變體)或其他癌症特異性或癌症相關變化(例如,甲基化變化)以補足總共500個癌症特異性血漿DNA片段/癌細胞。假設任一經充分記載之癌症相關突變在任一腫瘤中出現之機會係1%,則測試可需要靶向50,000個推定的突變位點之檢測以檢測到至少500個突變/腫瘤(基於帕松機率分佈)。可需要測試500,000個推定的突變或癌症相關變化以獲得至少5,000個代表任一腫瘤之突變或癌症相關變化。另一方面,若任一經充分記載之癌症相關突變或變化在任一腫瘤中出現之機會係0.1%,則可需要測試50,000個突變或變化以獲得至少50個代表任一腫瘤之突變或變化。
因此,為最大化癌症篩選測試之癌症檢測率或臨床靈敏度,測試可能需要達成樣品中血漿DNA片段之較寬檢查,以鑑別出帶有任一類型之癌症相關變化或突變之足夠片段。檢查之寬度可利用全基因體方法或覆蓋基因體之較大分數、例如足以覆蓋至少50,000個靶之靶向方法來達成。
深度檢查之深度亦可至關重要。端視每個腫瘤所檢測到突變之數量,可需要檢測生出該突變之多個血漿DNA片段以達到指定臨限值,例如對於每一基因體當量之癌細胞500個資訊性癌症DNA片段。舉例而言,若在特定腫瘤中鑑別出僅一個突變,則可需要500個血漿DNA片段覆蓋該突變。另一方面,若平均50個不同突變存在於腫瘤中,則可需要檢測到覆蓋彼等50個突變中之每一者之至少10個資訊性癌症DNA片段。
腫瘤DNA可代表血漿中之最小DNA群體。此外,一些癌症相關變化可具有異型接合性質(即,每個二倍體基因體具有一個變化)。因此,為檢測10個資訊性癌症DNA片段(即,攜帶至少一個癌症相關變化之血漿DNA片段)拷貝/基因座,可需要分析具有20%腫瘤DNA分數之血漿樣品中至少100個來自基因座之分子。因此,檢測覆蓋任一單突變位點之多個血漿DNA片段之能力可端視所檢查血漿樣品之深度而定。然而,在血漿樣品中可僅存在有限數量之癌細胞基因體,其可影響血漿DNA分析之所需深度及寬度二者。
為說明早期癌症之檢測,假設旨在研發出可檢測到樣品中1%之腫瘤分數之測試或方案。鑒於在每毫升血漿中可存在1,000基因體當量之DNA,在具有1%腫瘤DNA分數之1毫升樣品中可存在10癌細胞當量之DNA。即使在樣品中可檢測到每個單一癌症特異性DNA片段,但僅可存在可用於檢測之10基因體當量之任一癌症相關變化之極大值。因此,即使具有特定突變存在於腫瘤中之先前知識,其靶向檢測可僅在最佳病例情形下提供10基因體當量之信號,此可缺少對1%分數濃度之癌症之穩健檢測之分析靈敏度。若欲檢測之突變為異型接合的,則可僅存在5個顯示此突變之血漿DNA片段。
在具有1%腫瘤DNA分數之最佳病例情形下,在此突變位點之分析深度可需要覆蓋至少1,000×以能夠檢測10基因體當量之具有該突變之血漿DNA。在此情況中,可需要分析之寬度以補償每突變位點所檢測到之相對較低拷貝數。少數或甚至僅幾百個突變位點之選擇性檢測不太可能達成用於檢測早期癌症之篩選測試所需之靈敏度。
為達成高PPV或高NPV,癌症篩選測試可需要顯示高特異性概況。可達成多個程度之高特異性。欲檢測突變及任何癌症相關變化之特異性可需要針對癌症之儘可能大的特異性。此(但不限於)僅在存在與癌症相關之高信賴度時,遺傳或基因體特徵評定為陽性者才可以說具有高特異性。此可藉由納入先前已在其他癌症中報導之特徵來達成。舉例而言,例如基於個體之人口統計概況,可尤其集中在可在個體易患之癌症類型中較為普遍之特徵。或,可尤其關注可與個體已暴露之誘變性暴露相關之突變特徵(例如,參見Alexandrov等人,Nature 2013; 500: 415-421)。此亦可藉由最小化定序之次數及可錯誤鑑別為突變之對準誤差來達成。此可藉由與健康對照組之基因體概況比較來達成,及/或可藉由與個人之自身組成性DNA比較來達成。
該等準則可作為篩選準則應用於評價血漿DNA片段源自腫瘤且因此有資格成為資訊性癌症DNA片段之概率。每一篩選準則可個別地、獨立地、與相等加權或不同加權共同使用或以指定順序連續使用或端視先前篩選步驟之結果條件化使用。對於條件化使用,可使用基於貝氏之方法以及基於分類或決策樹之方法。獨立使用可涉及一個以上之篩選準則,但在一些情形下每一篩選準則並不依賴於另一篩選準則之應用(例如,可實施平行應用),此與以指定順序連續應用不同。作為使用加權之集體使用之實例,可使用機器學習技術。舉例而言,監督學習可使用具有已知分類之樣品之經量測突變負荷來訓練任何模型。
可使用大量個體(例如數百、數千或數百萬)之定序數據來訓練模型。在較簡單形式中,可使用該等已知樣品來測定來測定根據篩選準則確定之一或多個得分之臨限值以確定突變是否有效。
在一個實施例中,若血漿DNA片段符合一些或所有準則,則可將其視為資訊性癌症DNA片段,而不符合一些或所有準則之其他血漿DNA片段可視為非資訊性血漿DNA片段。在另一實施例中,可給予每一血漿DNA片段為資訊性癌症DNA片段之資訊性加權,此端視其符合準則列表之程度而定。在一些情形下,片段為腫瘤源之信賴度越高,加權越高。在一個實施例中,加權可基於測試個體之臨床概況(例如,性別、族群、癌症風險因子,例如吸煙或肝炎狀況等)來調整。
另一方面,癌症篩選測試之特異性可藉由評價可在癌症患者之血漿中檢測到之癌症相關變化之量(例如,數量)是否反映與針對癌症所預期相當之突變負荷來達成。在一個實施例中,例如在測定相對於參照基因體之突變負荷時,可比較血漿中之突變負荷與在組成性DNA中量測之突變負荷。在其他實施例中,可比較血漿中之突變負荷與在該個體不同時間或具有已知預後(良好或較差)或癌症時期之癌症患者或健康無癌症群體之血漿中觀察到之突變負荷。參照群體可為年齡或性別或族群匹配的,此乃因身體或組織中之突變負荷即使在不顯示患有癌症之個人中亦可隨年齡增加(例如,參見Slebos等人,Br J Cancer 2008; 98: 619-626)。可實施較寬及較深血漿DNA分析來捕獲足夠突變負荷以增強癌症個體與健康群體之間之分化。在一些情形下,例如若樣品具有足夠突變資訊,則無需檢測血漿樣品中之所有DNA片段來達成癌症檢測。
在一個實施例中,所觀察到突變負荷是否暗示癌症可基於癌症特異性參照範圍。不同器官之癌症可具有突變負荷之預期範圍。數量可介於1,000至若干10,000範圍內(例如,參見Lawrence等人,Nature 2013; 499: 214-218)。因此,若血漿DNA癌症篩選測試顯示個人突變負荷係任一癌症組範圍內之近似值之證據,則可進行高風險癌症之分類。在另一實施例中,若個人血漿中之突變負荷顯著高於自無癌症之健康群體確立之參照範圍,則可進行癌症之分類。
顯著較高突變負荷之證據可基於統計分佈,例如與對照參照數據之平均值三個以上之標準偏差、或對照參照數據之中值之若干倍、或大於對照參照數據之特定百分位數(例如第99百分位數)、或比對照參照數據之平均值、中值或第99百分位數大至少1或2或3個數量級。可使用多種統計方法來鑑別統計學上顯著增加之突變負荷。在另一實施例中,分類可將已顯示影響癌症篩選測試之靈敏度及特異性概況之變量考慮在內,該等變量係例如樣品之所量測或假定或推斷之腫瘤DNA分數、定序深度、定序寬度及定序誤差率。
突變負荷可以多種方式來測定。突變負荷可表示為所檢測到之突變數。突變數可正規化成所獲得定序數據之量,例如表示為經定序核苷酸之百分比或針對所實施定序之量檢測到之突變之密度。突變數亦可正規化成人類基因體之大小,例如表示為基因體之比例或基因體內每個區域之密度。當突變負荷評價實施或可隨時間積分時,可報導每一情況之突變數,例如與先前評價相比之絕對變化、百分比變化或倍數變化。突變負荷可正規化成所分析樣品之量(例如,血漿體積)、自樣品獲得之DNA之量或可分析或可定序DNA之量。在一個實施例中,突變負荷可正規化成所測試個體之生物計量參數,例如體重、身高或身體質量指數。
可使用超深度及廣泛定序來達成癌症篩選測試之性能概況。用於達成超深度及廣泛定序之多個實施例闡述於本文中。該等實施例包括(但不限於)徹底定序、總模板定序、無PCR定序、單分子定序(一種無PCR定序類型)及靶向定序。可使用方法之組合來達成所需深度及廣度。此一組合可作為整體用於篩選程式或用於篩選特定個體或個體組。
出於癌症篩選之目的,為自血漿DNA定序檢測癌症相關突變,定序深度可因定序誤差所致影響區分真癌症突變與偽陽性之能力。當血漿中之腫瘤DNA分數較低時,可需要較高定序深度。使用動態截止分析,當腫瘤DNA分數係2%時,200倍之定序深度可能夠檢測5.3%之癌症相關突變。所檢測到之突變數可高於預期偽陽性數,假設隨機定序誤差以0.3%之頻率出現。欲探索基因體之部分可端視腫瘤組織中之預期突變數而定。
欲探索基因體之部分可需要足夠大至獲得欲檢測之足夠突變數。此寬度參數可端視檢測腫瘤DNA分數之期望下限及欲篩選之癌症類型而定。舉例而言,在黑色素瘤中,突變之中值頻率可為約10/1 Mb。換言之,在基因體中可存在大約30,000個突變。假設腫瘤DNA分數係2%且探索1/10之基因體,則可預期可藉由200×下之血漿DNA定序檢測到大約159個突變。另一方面,若橫紋肌樣瘤係欲篩選之靶,則突變之中值頻率可僅為0.2/1 Mb。因此,當腫瘤DNA分數係2%時,探索1/10之基因體可產生大約3個癌症突變。在一些情形下,此數值不足以與定序誤差相區分。
在一些情形下,出於癌症篩選之目的,不必鑑別出100%之癌症相關突變。在一個實施例中,僅必須顯示特定個體具有在血漿(或其他生物樣品)中檢測到之高於無癌症參照對照群體中之突變數。然而,為使此策略高度準確,在一些情形下,藉由突變負荷評價方案檢測到之真突變之比例可需要儘可能地高(或偽陽性之比例可需要儘可能地低),以使得藉由該評價檢測到之高變體數反映癌症之存在。若可無法達成此,則在樣品中檢測到之高推定突變數可僅反映高偽陽性變體數,且因此在一些情形下可不容許區別患有癌症之個體及未患癌症之彼等。本申請案中之實施例闡述減少偽陽性檢測之方法及增加真突變檢測之方法以達成有效的突變負荷評價。
超深度及廣泛定序可藉由徹底定序或其他技術(例如,多個靶向定序面板之輕(非徹底)定序)來達成。輕定序可用於最小化PCR複本,因此可獲得所需深度。多個靶向定序面板可用於提供整個基因體之較寬覆蓋率。
可使用多個篩選準則來確定生物樣品之突變狀況(例如,鑑別癌症相關體細胞突變)。篩選準則之非限制性實例包括與參照基因體再對準、基於大小之分析、組織蛋白修飾分析、突變體分數、甲基化分析、血漿DNA末端位置及單鏈定序。
再對準可分析鑑別為具有體細胞突變之第一候選基因座集合中之每一者。可在再對準程序中進一步分析使用第一對準程序與候選基因座對準且具有序列變體之每一序列讀段。其可確定序列讀段使用第二對準程序是否與候選基因座對準,該第二對準程序使用不同於第一對準程序所用之匹配算法。當序列讀段使用第二對準程序與候選基因座再對準時,可測定第二對準程序之再對準之映射品質。
當確定第二對準之映射品質時,可立即比較該映射品質與品質臨限值,以確定序列讀段是否為低品質的。然後可基於比較映射品質與品質臨限值確定是否摒棄序列讀段。該確定可為可摒棄低於臨限值之讀段。在其他實施例中,可基於比較確定得分(例如,權重),其中可與多個品質臨限值(例如對應於不同再對準得分之每一臨限值)比較以確定得分。然後可將該得分與一或多個其他篩選準則之得分以集體方式使用以確定是否摒棄讀段。無論具體方式(及上文所提供實例之納入)如何,映射品質小於品質臨限值提供高於映射品質大於品質臨限值之摒棄序列讀段的概率。
作為此篩選過程之一部分,可獲得剩餘序列讀段之數量。可比較剩餘序列讀段之數量與候選臨限值,其可為最初用於鑑別候選基因座之同一臨限值。在與針對序列讀段相似之概率分析中,可基於比較剩餘序列讀段之數量與候選臨限值確定是否摒棄候選基因座。該分析基於與臨限值之比較可較為嚴格或使用如上文所提及之評定(加權)系統。然而,剩餘序列讀段之數量小於候選臨限值可提供高於剩餘序列讀段之數量大於候選臨限值之摒棄候選基因座的概率。使用剩餘候選基因座,經篩選之基因座集合可鑑別為具有體細胞突變。
大小可分析候選基因座集合中之每一者。可測定具有序列變體之第一組DNA片段與具有野生型等位基因之第二組DNA片段之間之大小差異。該等大小分析已闡述於本文中。大小差異可在兩組之大小分佈之任一統計值之間。舉例而言,可使用第一組DNA片段與第二組DNA片段之中值大小之差異。另一實例可為根據第一組與第二組之間之大小的累積頻率之極大值。任一大小值可如例如美國專利公開案2011/0276277及2013/0237431中所述。
可比較大小差異與大小臨限值,其可自已知患有癌症或所分類其他狀況之樣品測定。然後可基於比較確定是否摒棄呈突變形式之候選基因座。關於其他篩選準則,可嚴格或作為得分使用比較。然而,大小差異小於大小臨限值可提供高於大小差異大於大小臨限值之摒棄候選基因座的概率。在人類個體中使用剩餘候選基因座經篩選基因座集合可鑑別為具有體細胞突變。
組織蛋白 修飾可鑑別出已知與癌症相關之組織蛋白修飾相關之一組區域。可藉由基於候選基因座是否處於該組區域中之一者中確定是否摒棄候選基因座來分析候選基因座集合中之每一者。關於其他篩選準則,可嚴格或作為得分使用比較。然而,不在該組區域中之一者中之候選基因座可提供高於候選基因座處於該組區域中之一者中時摒棄候選基因座的概率。在人類個體中使用剩餘候選基因座經篩選基因座集合可鑑別為具有體細胞突變。
突變體分數可分析候選基因座集合中之每一者。可測定具有序列變體之序列讀段之分數,且然後與分數臨限值比較。然後可基於比較例如使用得分或嚴格截止值確定是否摒棄呈突變形式之候選基因座。不管怎樣,分數小於分數臨限值提供高於分數大於分數臨限值之摒棄候選基因座的概率(例如,5%、10%、20%或30%)。在人類個體中使用剩餘候選基因座經篩選基因座集合可鑑別為具有體細胞突變。
在一些實施例中,分數臨限值可基於生物樣品中腫瘤DNA之所量測分數濃度來確定。可量測複數個區域中之每一者之生物樣品中腫瘤DNA之分數濃度(例如,使用相似技術但特異性針對區域中之一或多個基因座之數據)。用於候選基因座之分數臨限值可為針對候選基因座所駐留之區域量測之分數濃度。
在另一實施例中,可使用異常區域來測定分數臨限值。可鑑別出一或多個具有拷貝數畸變之異常區域。用於異常區域中之候選基因座之分數臨限值可取決於異常區域係展現拷貝數增加抑或拷貝數損失。可將較高臨限值用於增加,且將較低臨限值用於損失。
一或多個具有拷貝數畸變之異常區域亦可用作確定是否摒棄序列讀段來測定相對於經篩選基因座集合中之每一者之組成性基因體具有序列變體的序列讀段之數量之一部分。來自展現拷貝數增加之第一異常區域之第一序列讀段可比來自展現拷貝數損失之第二異常區域的第二序列讀段更可能具有體細胞突變。
藉由分析候選基因座集合可鑑別出一或多個異常區域。可計算相對於組成性基因體之序列變體之表觀突變體分數。可測定複數個區域中之每一者之異常區域中之候選基因座的表觀突變體分數之變化。可比較該變化與變化臨限值,其中展現拷貝數增加之異常區域具有大於臨限值之變化。
甲基化狀況定序可為甲基化感知定序。甲基化感知定序係指其中測定多個基因體位置之甲基化狀況之任一定序方法(例如,亞硫酸氫鹽定序)。可分析候選基因座集合中之每一者,其中分析與候選基因座對準且具有序列變體之每一序列讀段。對於序列讀段,可測定相應可分析DNA分子在一或多個位點(例如,CpG位點)之甲基化狀況。可基於甲基化狀況確定是否摒棄序列讀段。關於其他篩選準則,可嚴格或作為得分使用比較。然而,甲基化狀況不為甲基化可提供高於甲基化狀況為甲基化之摒棄序列讀段的概率。
可比較剩餘序列讀段之數量與候選臨限值,其可與鑑別候選基因座所用相同(對於用於其他篩選準則之候選臨限值之其他使用亦如此)。在與針對序列讀段相似之概率分析中,可基於比較剩餘序列讀段之數量與候選臨限值確定是否摒棄候選基因座。該分析基於與臨限值比較可為嚴格的,或使用如上文所提及之評定(加權)系統。然而,剩餘序列讀段之數量小於候選臨限值提供高於剩餘序列讀段之數量大於候選臨限值之摒棄候選基因座的概率。使用剩餘候選基因座,經篩選基因座集合可鑑別為具有體細胞突變。
血漿 DNA 末端位置對於血漿DNA末端位置,可分析候選基因座集合中之每一者,其中分析與候選基因座對準且具有序列變體之每一序列讀段。對於序列讀段,可確定對應於序列讀段之末端所對準之處之末端位置。可比較該末端位置與複數個癌症特異性或癌症相關末端位置。可基於比較確定是否摒棄序列讀段。末端位置不為癌症特異性或癌症相關末端位置可提供高於末端位置為癌症特異性或癌症相關末端位置之摒棄序列讀段的概率。可使用序列讀段之剩餘數量來確定是否摒棄候選基因座。
單鏈定序可使用單鏈定序文庫製備製程實施定序,該製備製程可提供後續定序步驟以產生每一模板DNA分子之雙鏈讀段。單鏈定序文庫製備製程之一個實例闡述於Snyder等人,Cell 2016; 164: 57-68中。可分析候選基因座集合中之每一者,且分析與候選基因座對準之每一對鏈讀段。可確定兩個鏈是否具有序列變體。然後可基於兩個鏈是否具有序列變體確定是否摒棄序列讀段。兩個鏈不具序列變體提供高於僅一個鏈讀段具有序列變體之摒棄鏈讀段的概率。可使用序列讀段之剩餘數量來確定是否摒棄候選基因座。
定序在一些實施例中,本發明之方法可包含對核酸(例如,DNA片段)進行定序。可使用業內已知之任一方法對核酸進行定序。在一些實施例中,定序可包括下一代定序。在一些實施例中,對核酸之定序可使用以下方法來實施:鏈終止定序、雜交定序、Illumina定序、ion torrent半導體定序、質譜定序、大量平行信號定序(MPSS)、馬克薩姆-吉爾伯特定序(Maxam-Gilbert sequencing)、奈米孔定序、聚合酶選殖定序、焦磷酸定序、散彈槍定序、單分子即時(SMRT)定序、固體定序、通用定序或其任一組合。在一些實施例中,定序可包含數位PCR。儘管本文已提供實例及實施例,但與例如數位PCR及隨機定序相關之其他技術及實施例可參見於2010年10月28日提出申請之美國專利8,722,334、於2007年7月23日提出申請之美國臨時申請案60/951,438及於2013年7月8日提出申請之美國專利9,121,069,其各自係全文以引用方式併入本文中。
在定序過程期間讀取核酸內之特定核苷酸之次數或平均次數(例如,定序深度)可比經定序核酸之長度大幾倍。在一些情況下,當定序深度足夠大於核酸之長度時(例如,大至少5倍),定序可稱為「深度定序」。在本文所揭示之任一實施例中,對DNA片段定序可包含深度定序。舉例而言,可對DNA片段定序使得定序深度比核酸之長度大約20倍。在一些情況下,當定序深度比核酸之長度大至少約100倍時,定序可稱為「超深度定序」。在本文所揭示之任一實施例中,分析核酸可包含超深度定序。在一些實施例中,定序深度可比經定序核酸之長度大平均至少約5倍、至少約10倍、至少約20倍、至少約30倍、至少約40倍、至少約50倍、至少約60倍、至少約70倍、至少約80倍、至少約90倍、至少約100倍。
在一些實施例中,可使樣品富集特定分析物(例如,核酸片段或癌症特異性核酸片段)。在此一富集後定序產生較高比例的與確定所關注區域之序列相關之所得序列數據,此乃因例如藉由單分子定序自所關注區域產生較高百分比之序列讀段。相對於原始樣品中靶區域之濃度,可達成所關注靶區域之至少10倍、25倍、100倍、200倍、300倍、500倍、700倍、1000倍、10,000倍或更大之莫耳濃度富集。在一些實施例中,可使用下拉分析來富集核酸。下拉分析可用於自樣品選擇性提取核酸。在一些實施例中,下拉分析可包含經高親和力標籤(例如,生物素)標記之DNA探針,該標籤容許回收或固定探針。在一些實施例中,DNA探針可結合至所關注核酸片段(例如,癌症特異性DNA片段)。在回收探針後,可使核酸、DNA探針及/或高親和力探針解離並分離以純化所關注核酸。
電腦系統本文所提及之任一電腦系統可利用任何適宜數量之子系統。在一些實施例中,電腦系統包括單一電腦裝置,其中子系統可為電腦裝置之組件。在其他實施例中,電腦系統可包括多個電腦裝置,其各自為子系統,具有內部組件。電腦系統可包括桌上型及膝上型電腦、平板電腦、移動電話及其他移動器件。
子系統可經由系統匯流排互連。其他子系統包括印表機、鍵盤、儲存器件及耦聯至顯示配接器之監視器。可藉由任一數量之業內已知連接(例如輸入/輸出(I/O)埠(例如,USB、FireWire
®)將耦聯至I/O控制器之外周及輸入/輸出(I/O)器件連接至電腦系統。舉例而言,可使用I/O埠或外部介面(例如乙太網路(Ethernet)、Wi-Fi等)將電腦系統連接至廣域網路(例如網際網路)、滑鼠輸入器件或掃描儀。經由系統匯流排互連容許中央處理器與每一子系統通信並控制來自系統記憶體或儲存器件(例如,固定磁碟,例如硬驅動器或光碟)之複數個指令的執行以及子系統之間資訊之交換。系統記憶體及/或儲存器件可體現電腦可讀媒體。另一子系統係數據收集器件,例如照相機、麥克風、加速計及諸如此類。本文所提及之任一數據可自一個組件輸出至另一組件且可輸出至使用者。
電腦系統可包括複數個例如藉由外部介面或藉由內部介面連接在一起之相同組件或子系統。在一些實施例中,電腦系統、子系統或裝置可在網路中通信。在該等情況下,可將一台電腦視為客戶端並將另一台電腦視為伺服器,其中每一者可為同一電腦系統之一部分。客戶端及伺服器可各自包括多個系統、子系統或組件。
實施例之方面可以控制邏輯形式使用硬體(例如,應用專用積體電路或場效可程式化閘陣列)及/或使用具有通常可程式化處理器之電腦軟體以模組或積體方式實施。如本文所用,處理器包括同一積體晶片上之單核心處理器、多核心處理器,或單一電路板上之或網路化之多個處理單元。基於本文所提供之揭示內容及教示,熟習此項技術者將得知並瞭解使用硬體及硬體與軟體之組合來實施本文所述實施例之其他方式及/或方法。
本申請案中所述之軟體組件或功能中之任一者皆可作為欲使用任一適合電腦語言(例如Java、C、C++、C#、Objective-C、Swift或腳本語言(例如Perl或Python))使用例如習用或物件導向技術藉由處理器執行之軟體代碼來實施。軟體代碼可儲存為用於儲存及/或傳輸之電腦可讀媒體上之一系列指令或命令。適宜非暫時性電腦可讀媒體可包括隨機存取記憶體(RAM)、唯讀記憶體(ROM)、磁介質(例如硬驅動器或軟碟)或光學介質(例如光碟(CD)或DVD (數位通用磁碟))、快閃記憶體及諸如此類。電腦可讀媒體可為該等儲存或傳輸器件之任何組合。
該等程式亦可使用適於經由符合多種協定之有線、光學及/或無線網路(包括網際網路)傳輸之載波信號編碼並傳輸。因此,電腦可讀媒體可使用經該等程式編碼之數據信號來產生。經該程式代碼編碼之電腦可讀媒體可用相容器件包裝或與其他器件分開提供(例如,經由網際網路下載)。任何該電腦可讀媒體可駐留於單一電腦產品(例如硬驅動器、CD或整個電腦系統)上或其內,且可存在於系統或網路內之不同電腦產品上或其內。電腦系統可包括監視器、印表機或用於將本文所提及之任一結果提供至使用者之其他適宜顯示器。
本文所述之任一方法可完全或部分用包括一或多個處理器之電腦系統來實施,該電腦系統可經構形以實施各步驟。因此,實施例可係關於電腦系統,其經構形以實施本文所述之任一方法之步驟,且不同組件實施各別步驟或各別組步驟。儘管呈現為經編號步驟,但本文方法之步驟可同時或以不同順序來實施。另外,該等步驟之部分可與其他方法之其他步驟之部分一起使用。同樣,步驟之全部或部分可為可選的。另外,任一方法之任一步驟可用模組、單元、電路或用於實施該等步驟之其他構件來實施。
其他實施例在一些態樣中,本發明闡述確定個體之生物樣品中組織類型或病原體之比例貢獻之分類的方法。在一些實施例中,該方法包含藉由電腦系統分析來自個體之生物樣品之第一複數個無細胞核酸分子,其中該分析包含確定參照基因體中對應於第一複數個無細胞核酸分子之至少一個末端之基因體位置。在一些實施例中,該方法包含測定末端落在複數個窗口中之一者內之第一複數個無細胞核酸分子的第一量,每一窗口包含組織類型或病原體之無細胞核酸分子之末端以大於第一臨限值之比率存在之第一組基因體位置中的至少一者。與組織類型相關之技術亦可用於病原體之貢獻。
在一些實施例中,該方法包含計算末端落在複數個窗口中之一者內之第一複數個無細胞核酸分子之相對豐度,其係藉由使用來自生物樣品之第二複數個無細胞核酸分子之第二量正規化第一複數個無細胞核酸分子之第一量來實施,其中第二量之無細胞核酸分子包含末端落在第二組基因體位置之第二複數個無細胞核酸分子,其中第二組基因體位置使得來自參照樣品之無細胞核酸分子之末端以大於第二臨限值之比率存在,且其中來自參照樣品之無細胞核酸分子之序列對應於第一複數個無細胞核酸分子之序列。在一些實施例中,該方法包含確定組織類型之比例貢獻之分類,其係藉由針對自一或多個已知組織類型之比例貢獻之校正樣品測定之一或多個校正值處理相對豐度來實施。
在一些實施例中,來自生物樣品之第一複數個無細胞核酸分子包含艾司坦-巴爾病毒(EBV) DNA、人類乳頭瘤病毒(HPV) DNA或其片段。可鑑別出第一組織類型之無細胞DNA分子之末端以大於第一臨限值之比率出現之第一組基因體位置。在一些實施例中,鑑別第一組基因體位置包含藉由電腦系統分析來自至少一個第一額外樣品之第三複數個無細胞核酸分子以鑑別出第三複數個無細胞核酸分子之端點位置,其中已知至少一個第一額外樣品包括該組織類型且具有與生物樣品相同之樣品類型。
在一些實施例中,鑑別第一組基因體位置包含,對於複數個基因體窗口之每一基因體窗口,計算末端落在基因體窗口之第三複數個無細胞核酸分子之相應數。在一些實施例中,鑑別第一組基因體位置包含,對於複數個基因體窗口之每一基因體窗口,比較相應數與參照值以確定末端落在基因體窗口內之一或多個基因體位置上之無細胞核酸分子之比率是否大於第一臨限值。在一些實施例中,複數個基因體窗口之第一基因體窗口具有至少一個基因體位置之寬度,且其中當相應數超過參照值時,第一基因體窗口內之每一基因體位置鑑別為具有大於第一臨限值之末端落在基因體位置上之無細胞核酸分子之比率。在一些實施例中,第一組基因體位置具有針對相應數之最高N個值,其中N為至少10,000。
在一些實施例中,該方法進一步包含測定第三複數個無細胞核酸分子中之每一者之大小,其中鑑別第一組基因體位置進一步包含確定末端落在經測定具有大於第一臨限值之比率之第一基因體窗口內之第三複數個無細胞核酸分子之無細胞核酸分子的大小分佈之第一統計值。在一些實施例中,該方法進一步包含測定第三複數個無細胞核酸分子中之每一者之大小,其中鑑別第一組基因體位置進一步包含比較第一統計值與大小臨限值。在一些實施例中,該方法進一步包含測定第三複數個無細胞核酸分子中之每一者之大小,其中鑑別第一組基因體位置進一步包含當第一統計值不超過大小臨限值時,自第一組基因體位置排除第一基因體窗口。
在一些實施例中,一或多個校正樣品包括至少一個第一額外樣品。在一些實施例中,該方法進一步包含,對於一或多個校正樣品中之每一者,量測組織類型之相應比例貢獻。在一些實施例中,該方法進一步包含,對於一或多個校正樣品中之每一者,使用末端落在對應於第一組基因體位置之複數個窗口內之第三複數個無細胞核酸分子之相應數確定相應相對豐度,藉此獲得校正數據點,其中每一校正數據點指定其他生物樣品之組織類型之所量測比例貢獻及相應相對豐度。在一些實施例中,一或多個校正數據點係形成近似於複數個校正數據點之校正函數之複數個校正數據點。
在一些實施例中,第一組基因體位置之每一基因體位置具有至少指定數量之末端落在基因體位置上之第三複數個無細胞核酸分子的無細胞核酸分子。在一些實施例中,根據至少一個第一額外樣品中無細胞核酸分子之機率分佈及平均長度,參照值係末端落在基因體窗口內之無細胞核酸分子之期望數。在一些實施例中,機率分佈係帕松分佈,且其中確定末端落在基因體窗口內之一或多個基因體位置上之無細胞核酸分子之比率是否大於第一臨限值包含使用相應數及期望數確定相應p值,其中第一臨限值對應於截止p值,相應p值小於截止p值指示末端落在基因體窗口內之無細胞核酸分子之比率大於第一臨限值。
在一些實施例中,末端落在基因體位置上之第三複數個無細胞核酸分子之比率大於第一臨限值的基因體位置構成第一超集合,且其中鑑別第一組基因體位置進一步包含藉由電腦系統分析鑑別為具有減少量之組織類型之至少一個第二額外樣品之第三複數個無細胞核酸分子以鑑別出末端落在基因體位置上之第三複數個無細胞核酸分子之第二超集合大於第一臨限值。在一些實施例中,末端落在基因體位置上之第三複數個無細胞核酸分子之比率大於第一臨限值的基因體位置構成第一超集合,且其中鑑別第一組基因體位置進一步包含將第一組基因體位置鑑別為包含在第一超集合中且不在第二超集合中之基因體位置。在一些實施例中,參照值包含末端落在基因體窗口內之無細胞核酸分子之經測數,經測數係自鑑別為不具該組織類型之至少一個第二額外樣品之第三複數個無細胞核酸分子測定。
在一些實施例中,該方法進一步包含測定第三複數個無細胞核酸分子中之每一者之大小,其中鑑別第一組基因體位置進一步包含確定末端落在經測定具有大於第一臨限值之比率之第一基因體位置上之第三複數個無細胞核酸分子的無細胞核酸分子之第一大小分佈之第一統計值。在一些實施例中,該方法進一步包含測定第三複數個無細胞核酸分子中之每一者之大小,其中鑑別第一組基因體位置進一步包含確定末端落在經測定具有大於第一臨限值之比率之一或多個第二基因體位置上之第三複數個無細胞核酸分子的無細胞核酸分子之第二大小分佈之第二統計值。在一些實施例中,該方法進一步包含測定第三複數個無細胞核酸分子中之每一者之大小,其中鑑別第一組基因體位置進一步包含比較第一統計值與第二統計值。在一些實施例中,該方法進一步包含測定第三複數個無細胞核酸分子中之每一者之大小,其中鑑別第一組基因體位置進一步包含當第一統計值不超過第二統計值至少指定量以指示第一大小分佈小於第二大小分佈時,自第一組基因體位置排除第一基因體位置。
在一些實施例中,比較相應數與參照值包含計算相應數與覆蓋基因體窗口之第三複數個無細胞核酸分子之第三數量的第一比率。在一些實施例中,比較相應數與參照值包含比較第一比率與參照值,參照值包含末端落在基因體窗口內之讀段之經測數與覆蓋基因體窗口且末端不落在基因體窗口內之第三複數個無細胞核酸分子的第四數量之參照比率。在一些實施例中,第三數量之第三複數個無細胞核酸分子末端不落在基因體窗口內。在一些實施例中,確定末端落在基因體窗口內之無細胞核酸分子之比率是否大於第一臨限值包含確定第一比率是否大於乘法因子乘以參照比率。在一些實施例中,生物樣品及至少一個第一額外樣品之樣品類型選自由血漿、血清、腦脊髓液及尿液組成之群。
在一些實施例中,基因體窗口係基因體位置,且其中組織類型具有複數個組織特異性等位基因,且其中計算末端落在基因體位置上之第三複數個無細胞核酸分子之相應數包含鑑別末端落在基因體位置上之無細胞核酸分子是否包含複數個組織特異性等位基因中之至少一者。在一些實施例中,基因體窗口係基因體位置,且其中組織類型具有複數個組織特異性等位基因,且其中當無細胞核酸分子包含組織特異性等位基因時,計算末端落在基因體位置上之第三複數個無細胞核酸分子之相應數包含在相應數中包含無細胞核酸分子。在一些實施例中,基因體窗口係基因體位置,且其中組織類型具有複數個組織特異性等位基因,且其中當無細胞核酸分子不包括組織特異性等位基因時,計算末端落在基因體位置上之第三複數個無細胞核酸分子之相應數包含在相應數中不包含無細胞核酸分子。
在一些實施例中,組織類型具有至少一個額外樣品中之複數個組織特異性等位基因,且其中使用至少一個額外樣品之包括複數個組織特異性等位基因中之至少一者之無細胞核酸分子來確定第一組基因體位置。在一些實施例中,該方法進一步包含鑑別第二組基因體位置,其中鑑別包含藉由電腦系統分析來自參照個體之參照樣品之無細胞核酸分子,其中分析複數個無細胞核酸分子中之每一者包含確定參照基因體中對應於無細胞核酸分子之至少一個末端的基因體位置。在一些實施例中,參照個體係健康個體。在一些實施例中,參照樣品之無細胞核酸分子包含EBV DNA、HPV DNA或其片段。在一些實施例中,相對豐度包含第一量與第二量之比率。
在一些實施例中,複數個窗口具有一個基因體位置(例如,一個鹼基)之寬度,且其中相對豐度係藉由以下方式計算:對於第一組基因體位置之每一基因體位置,計算末端落在基因體位置上之第一複數個無細胞核酸分子之相應數,作為確定第一量之第一複數個無細胞核酸分子末端落在第一組基因體位置中之任一者上的一部分。在一些實施例中,複數個窗口具有一個基因體位置之寬度,且其中相對豐度係藉由以下方式計算:對於第一組基因體位置之每一基因體位置,計算覆蓋基因體位置且末端不落在基因體位置上之第一複數個無細胞核酸分子之第三數量,作為測定無細胞核酸分子之第二量的一部分。在一些實施例中,複數個窗口具有一個基因體位置之寬度,且其中相對豐度係藉由以下方式計算:對於第一組基因體位置之每一基因體位置,計算相應數與第三數量之第一比率。在一些實施例中,複數個窗口具有一個基因體位置之寬度,且其中相對豐度係藉由以下方式計算:對於第一組基因體位置之每一基因體位置,計算第一比率之平均值作為相對豐度。
在一些實施例中,相對豐度係藉由以下方式計算:對於第一組基因體位置之每一基因體位置,計算末端落在包含該基因體位置之第一窗口內之第一複數個無細胞核酸分子之相應數,作為確定第一量之第一複數個無細胞核酸分子末端落在複數個窗口中之一者內的一部分。在一些實施例中,相對豐度係藉由以下方式計算:對於第一組基因體位置之每一基因體位置,計算末端落在包含該基因體位置之第二窗口內之第一複數個無細胞核酸分子之第三數量,第二窗口大於第一窗口。在一些實施例中,相對豐度係藉由以下方式計算:對於第一組基因體位置之每一基因體位置,計算相應數與第三數量之第一比率。在一些實施例中,相對豐度係藉由以下方式計算:對於第一組基因體位置之每一基因體位置,計算第一比率之平均值作為相對豐度。在一些實施例中,第二組基因體位置與第一組基因體位置並不重疊。在一些實施例中,第二組基因體位置包含對應於第一複數個無細胞核酸分子中之至少一者之末端的所有基因體位置。
在一些實施例中,分析一或多個無細胞核酸分子包含確定對應於無細胞核酸分子之兩個末端之兩個基因體位置。在一些實施例中,比例貢獻之分類對應於大於指定百分比之比率。在一些實施例中,組織類型係腫瘤,且腫瘤選自由以下組成之群:膀胱癌、骨癌、腦瘤、乳癌、子宮頸癌、食管癌、胃腸癌(例如結腸直腸癌)、造血惡性病、白血病、肺癌、淋巴瘤、骨髓瘤、鼻癌、鼻咽癌(NPC)、口腔癌、口咽癌、卵巢癌、前列腺癌、肉瘤、胃癌或甲狀腺癌。在一些實施例中,分類選自由以下組成之群:個體中腫瘤組織之量、個體中腫瘤之大小、個體中腫瘤之時期、個體之腫瘤負荷及個體中腫瘤轉移之存在。在一些實施例中,一或多個額外生物樣品係來自個體且係在與生物樣品不同之時間獲得。在一些實施例中,該方法進一步包含自欲分析之生物樣品獲得模板DNA分子。
在一些實施例中,該方法進一步包含使用模板DNA分子製備可分析DNA分子之定序文庫,可分析DNA分子之定序文庫之製備可或可不包含模板DNA分子之DNA擴增之操作。在一些實施例中,該方法進一步包含對可分析DNA分子之定序文庫進行定序以獲得對應於第一複數個無細胞核酸分子之複數個序列讀段,其中分析第一複數個無細胞核酸分子包含在電腦系統上接收複數個序列讀段。在一些實施例中,該方法進一步包含對可分析DNA分子之定序文庫進行定序以獲得對應於第一複數個無細胞核酸分子之複數個序列讀段,其中分析第一複數個無細胞核酸分子包含藉由電腦系統將複數個序列讀段與參照基因體對準以確定複數個序列讀段之基因體位置。在一些實施例中,該方法進一步包含基於分類提供治療介入或基於分類實施個體成像。在一些實施例中,第一組基因體位置或第二組基因體位置包含600與10,000個之間之基因體位置。在一些實施例中,無細胞核酸分子係去氧核糖核酸(DNA)分子。
實例系統
圖89圖解說明本發明實施例之系統5900。該系統如所顯示包括樣品5905,例如樣品架5910內之無細胞DNA分子,其中樣品5905可與分析5908接觸以提供物理特徵5915之信號。樣品架之實例可為流動槽,其包括分析之探針及/或引子或液滴移動穿過之管(其中液滴包括分析)。樣品之物理特徵5915 (例如螢光強度值)可藉由檢測器5920來檢測。檢測器可以間隔(例如,週期性間隔)進行量測以獲得構成數據信號之數據點。在一個實施例中,數位轉換器之類似物將檢測器之類似物信號轉換成複數個時間下之數位形式。數據信號5925可自檢測器5920發送至邏輯系統5930。數據信號5925可儲存在局部記憶體5935、外部記憶體5940或儲存器件5945中。
邏輯系統5930可為或可包括電腦系統、ASIC、微處理器等。其亦可包括或與顯示器(例如,監視器、LED顯示器等)及使用者輸入器件(例如,滑鼠、鍵盤、按鈕等)耦聯。邏輯系統5930及其他組件可為獨立或網路連接電腦系統之一部分,或其可直接附接至或納入熱循環器件中。邏輯系統5930亦可包括在處理器5950中執行之最佳化軟體。
本文所提及之任一電腦系統可利用任何適宜數量之子系統。該等子系統之實例顯示於圖90之電腦裝置10中。在一些實施例中,電腦系統包括單一電腦裝置,其中該等子系統可為電腦裝置之組件。在其他實施例中,電腦系統可包括多個電腦裝置,其各自為子系統,具有內部組件。電腦系統可包括桌上型及膝上型電腦、平板電腦、移動電話及其他移動器件。
圖90中所顯示之子系統經由系統匯流排75互連。顯示其他子系統,例如印表機74、鍵盤78、儲存器件79、耦聯至顯示配接器82之監視器76及其他各項。可藉由任一數量之業內已知連接(例如輸入/輸出(I/O)埠77 (例如,USB、FireWire
®)將耦聯至I/O控制器71之外周及輸入/輸出(I/O)器件連接至電腦系統。舉例而言,可使用I/O埠77或外部介面81 (例如乙太網路、Wi-Fi等)將電腦系統10連接至廣域網路(例如網際網路)、滑鼠輸入器件或掃描儀。經由系統匯流排75互連容許中央處理器73與每一子系統通信並控制來自系統記憶體72或儲存器件79 (例如固定磁碟,例如硬驅動器或光碟)之複數個指令的執行以及子系統之間資訊之交換。系統記憶體72及/或儲存器件79可體現電腦可讀媒體。另一子系統係數據收集器件85,例如照相機、麥克風、加速計及諸如此類。本文所提及之任一數據可自一個組件輸出至另一組件且可輸出至使用者。
電腦系統可包括複數個例如藉由外部介面81或藉由內部介面連接在一起之相同組件或子系統。在一些實施例中,電腦系統、子系統或裝置可在網路中通信。在該等情況下,可將一台電腦視為客戶端並將另一台電腦視為伺服器,其中每一者可為同一電腦系統中之一部分。客戶端及伺服器可各自包括多個系統、子系統或組件。
實施例之方面可以控制邏輯形式使用硬體(例如,應用專用積體電路或場效可程式化閘陣列)及/或使用具有通常可程式化處理器之電腦軟體以模組或積體方式實施。如本文所用,處理器包括同一積體晶片上之單核心處理器、多核心處理器,或單一電路板上之或網路化之多個處理單元。基於本文所提供之揭示內容及教示,熟習此項技術者將得知並瞭解使用硬體及硬體與軟體之組合來實施本發明實施例之其他方式及/或方法。
本申請案中所述之軟體組件或功能中之任一者皆可作為欲使用任一適合電腦語言(例如Java、C、C++、C#、Objective-C、Swift或腳本語言(例如Perl或Python))使用例如習用或物件導向技術藉由處理器執行之軟體代碼來實施。軟體代碼可儲存為用於儲存及/或傳輸之電腦可讀媒體上之一系列指令或命令。適宜非暫時性電腦可讀媒體可包括隨機存取記憶體(RAM)、唯讀記憶體(ROM)、磁介質(例如硬驅動器或軟碟)或光學介質(例如光碟(CD)或DVD (數位通用磁碟))、快閃記憶體及諸如此類。電腦可讀媒體可為該等儲存或傳輸器件之任何組合。
該等程式亦可使用適於經由符合多種協定之有線、光學及/或無線網路(包括網際網路)傳輸之載波信號編碼並傳輸。因此,電腦可讀媒體可使用經該等程式編碼之數據信號來產生。經該程式代碼編碼之電腦可讀媒體可用相容器件包裝或與其他器件分開提供(例如,經由網際網路下載)。任何該電腦可讀媒體可駐留於單一電腦產品(例如硬驅動器、CD或整個電腦系統)上或其內,且可存在於系統或網路內之不同電腦產品上或其內。電腦系統可包括監視器、印表機或用於將本文所提及之任一結果提供至使用者之其他適宜顯示器。
本文所述之任一方法可完全或部分用包括一或多個處理器之電腦系統來實施,該電腦系統可經構形以實施各操作。因此,實施例可係關於電腦系統,其經構形以實施本文所述之任一方法之操作,潛在地不同組件實施各別操作或各別組操作。儘管呈現為經編號操作,但本文方法之操作可同時或以不同順序來實施。另外,該等操作之部分可與其他方法之其他操作之部分一起使用。同樣,操作之全部或部分可為可選的。另外,任一方法之任一操作可用模組、單元、電路或用於實施該等操作之其他構件來實施。
實例 實例 1. 使用 qPCR 及下一代定序篩選鼻咽癌如
圖 22中所顯示,使用單獨血液收集管獲得兩個血液樣品
2201。藉由實施2次連續離心自含有無細胞DNA (cfDNA)之血漿移除細胞
2202。在2,000 × g下離心10分鐘以自血漿樣品清除血小板及細胞。將來自所收集兩個血液樣品中之一者之大約0.8毫升血漿用於qPCR分析以檢測樣品中腫瘤源DNA之拷貝數
2203。對血漿樣品實施cfDNA提取
2204以使血漿樣品富集cfDNA,且製備樣品用於qPCR分析。確定qPCR分析之變性、退火及延伸溫度
2205(例如,基於所用引子之長度/GC含量及/或樣品中總cfDNA之濃度),且實施qPCR分析
2206以檢測樣品中腫瘤源cfDNA之量。為檢測EBV DNA,使用側接基因體之BamHI序列之引子。若檢測到EBV DNA之量低於臨限值
2207,則提供陰性結果且不實施第二分析。若檢測到cfDNA之量等於或大於臨限值
2208,則使用所收集第二血液樣品之血漿實施第二分析。將大約4毫升血漿用於下一代定序
2209以確定樣品中cfDNA之大小概況。對第二血漿樣品實施cfDNA提取
2210以使血漿樣品富集cfDNA,且製備樣品用於下一代定序分析。實施文庫製備
2211以使接頭寡核苷酸連接至樣品中之cfDNA片段以進行定序。將cfDNA片段化至用於下游平臺之最佳長度。由於DNA片段化不會產生以鈍端為末端之均質片段,則需要末端修復以確保每一分子不含懸突,且含有5′磷酸及3′羥基。可視需要將非模板去氧腺苷5′-單磷酸(dAMP)併入鈍化DNA片段之3′末端上,該過程稱為dA-曳尾。實施EBV DNA之靶向富集
2212;EBV DNA之靶向富集使得能夠對所關注特定區域定序替代整個基因體,藉此達成更靈敏之拷貝數檢測。對所富集樣品實施下一代定序
2213。獲得所富集血漿樣品中對應於經定序cfDNA之序列讀段,且視情況與參照基因體對準。實施分析,例如評價EBV量且在所產生
2214A報告中輸出EBV DNA片段之大小概況,此指示自其獲得樣品之個體是否患有鼻咽癌
2215。
實例 2. 藉由對初始血液樣品實施下一代定序分析改良 NPC 檢測之偽陽性率及陽性預測值為研究血漿EBV DNA是否可用於篩選無症狀個體之早期NPC,使用血漿EBV DNA分析篩選20,174個無NPC症狀之個體。在大約4週後利用隨訪血漿EBV DNA分析再測試具有可檢測血漿EBV DNA之個體。利用鼻咽之鼻內視鏡檢查及磁共振成像(MRI)進一步研究對兩個連續分析具有持續陽性結果之個體。在20,174個所招募個體中,1,112個在入選時對血漿EBV DNA呈陽性。其中309個在隨訪測試時呈持續陽性。在對血漿中之EBV DNA呈持續陽性之個體之同類群組內,隨後在用鼻內視鏡檢查及MRI研究後確認34個患有NPC。該等結果顯示,再測試具有初始陽性血漿EBV DNA結果之個體可區分NPC個體與具有短暫陽性結果之彼等,且實質上減小需要更多侵入性及成本研究(即內視鏡檢法及MRI)之個體之比例。然而,連續測試血漿EBV DNA可需要自具有初始陽性結果之個體收集另一血液樣品,此可呈現後勤挑戰。
基於血漿EBV DNA片段化模式之分析實施用於區分NPC個體與具有可檢測血漿EBV DNA之非NPC個體的方法。對初始(第一)血液樣品實施下一代定序分析。基於下一代定序之分析分析初始(第一)血液樣品中EBV DNA之片段化模式及/或大小概況。
設計研究以分析生物庫中之初始(第一)血液樣品;使用4 ml血液樣品。確立訓練同類群組及驗證同類群組。訓練集合包括15個短暫陽性樣品;20個持續陽性樣品及10個來自經確認患有NPC之個體之樣品;訓練同類群組之所有樣品皆來自20,174個個體之同類群組。驗證集合包括56個短暫陽性樣品;44個持續陽性樣品及29個來自經確認患有NPC之個體之樣品;所有短暫陽性樣品及持續陽性樣品及22個來自經確認患有NPC之個體的樣品來自20,174個個體之同類群組,且7個來自經確認NPC個體之樣品係來自獨立同類群組。實施下一代定序以評價EBV DNA片段之EBV量及大小概況。
對於訓練集合,
圖 91A顯示在對血漿EBV DNA呈短暫陽性或持續陽性(分別為左側或中間)但未患可觀察到病理學之個體及鑑別為患有NPC之個體(右側)中映射至EBV基因體之血漿DNA片段之比例。在DNA片段之靶向捕獲及定序後使用大規模平行定序,EBV量存在統計學上顯著之差異,如根據所有經定序讀段中唯一映射至EBV基因體之讀段之比例所推斷(
p值< 0.0001;克-瓦二氏測試)。在一個實施例中,映射至EBV基因體之血漿DNA片段之比例之截止值可確定為低於所分析NPC患者之最低比例之任一值。在本實例中,可設定0.0009%之截止值以捕獲所有NPC患者。在其他實施例中,截止值可藉由例如(但不限於) NPC患者之平均比例減去一個標準偏差(SD)、平均值減去2個SD及平均值減去3個SD來確定。在其他實施例中,截止值可在對數轉變映射至EBV基因體之血漿DNA片段之比例後確定,例如(但不限於)在對數轉變NPC患者之值後平均值減去SD、平均值減去2個SD、平均值減去3個SD。在其他實施例中,截止值可使用接受者操作特徵(ROC)曲線或藉由非參數方法來確定,例如(但不限於)包括約100%、約95%、約90%、約85%或約80%之所分析NPC患者。藉由將0.0009%之截止值應用於所有經定序讀段中血漿EBV DNA片段之比例,能夠區分患有NPC及具有持續陽性血漿EBV DNA之個體與大多數具有短暫陽性血漿EBV DNA結果之個體。血漿中EBV讀段之比例在患有NPC之個體組中最高。與具有短暫可檢測血漿EBV DNA之個體相比,血漿EBV DNA片段之比例在具有持續陽性結果之個體中較高。評估具有大於0.0009%截止值之值之彼等樣品(5個短暫陽性樣品、13個持續陽性樣品及10個NPC樣品)之大小指數。
在一些實施例中,可使用經設計以結合至176個EBV基因體之任一部分之捕獲探針來實施靶向捕獲。在一些實施例中,可將捕獲探針生物素化,且在文庫製備後使用磁珠(例如,鏈黴抗生物素蛋白包覆之珠)拉下或富集與核酸靶(例如,EBV基因體片段)雜交之捕獲探針。在一些實施例中,所用捕獲探針面板亦可靶向人類基因體之一部分。舉例而言,捕獲探針可經設計以與一或多個染色體之至少一部分(例如,染色體1、8及/或13之任一拷貝)雜交。在一些實施例中,使用面板中之捕獲探針靶向至少約1mb、至少5mb、至少10mb、至少20mb、至少30mb、至少40mb、至少50mb、至少60mb、至少70mb、至少80mb、至少90mb或至少100mb之人類基因體。在一些實施例中,捕獲探針面板可拉下約285個對應於EBV之序列讀段。在一些實施例中,捕獲探針面板可拉下約40百萬個對應於人類基因體之序列讀段。
對於訓練集合,
圖 91B顯示對血漿EBV DNA呈短暫陽性或持續陽性(分別為左側或中間)但未患可觀察到病理學之個體及鑑別為患有NPC之個體(右側)之大小指數(例如,大小比率之倒數)。大小指數可定義為大小比率之倒數,且大小比率可定義為在某一大小範圍內之血漿EBV DNA片段之比例除以在相應大小範圍內之體染色體DNA片段的比例。基於血漿EBV DNA讀段之大小概況之差異來區分患有NPC之個體與具有持續陽性血漿EBV DNA之個體。在一個實施例中,大小指數之截止值可確定為低於所分析NPC患者之最低比例之任一值。在本實例中,可設定大於0.143%之截止值(即大小比率小於7)以捕獲所有NPC患者。在其他實施例中,截止值可藉由例如(但不限於) NPC患者之平均大小指數減去一個標準偏差(SD)、平均值減去2個SD及平均值減去三個SD來確定。在其他實施例中,截止值可在對數轉變映射至EBV基因體之血漿DNA片段之比例後確定,例如(但不限於)在對數轉變NPC患者之值後平均值減去1個SD、平均值減去2個SD、平均值減去3個SD。在其他實施例中,截止值可使用接受者操作特徵(ROC)曲線或藉由非參數方法來確定,例如(但不限於)包括100%、95%、90%、85%、80%之所分析NPC患者。使用大於0.143之大小指數之截止值,區分患有NPC之個體與大多數具有持續陽性血漿EBV DNA之個體。所有NPC患者皆具有大於0.143之大小指數。
對於驗證集合,
圖 92A顯示在對血漿EBV DNA呈短暫陽性或持續陽性(分別為左側或中間)但未患可觀察到病理學之個體及鑑別為患有NPC之個體(右側)中映射至EBV基因體之血漿DNA片段之比例。在DNA片段之靶向捕獲及定序後使用大規模平行定序,EBV量存在統計學上顯著之差異,如根據所有經定序讀段中唯一映射至EBV基因體之讀段之比例所推斷(
p值< 0.0001;克-瓦二氏測試)。藉由將0.0009%之截止值應用於所有經定序讀段中血漿EBV DNA片段之比例,能夠區分患有NPC及具有持續陽性血漿EBV DNA之個體與大多數具有短暫陽性血漿EBV DNA結果之個體。血漿中EBV讀段之比例在患有NPC之個體組中最高。與具有短暫可檢測血漿EBV DNA之個體相比,血漿EBV DNA片段之比例在具有持續陽性結果之個體中較高。評估大於截止值之值之樣品(18個短暫陽性樣品、35個持續陽性樣品及29個NPC樣品)之大小指數。
對於驗證集合,
圖 92B顯示對血漿EBV DNA呈短暫陽性或持續陽性(分別為左側或中間)但未患可觀察到病理學之個體及鑑別為患有NPC之個體(右側)之大小指數(例如,大小比率之倒數)。大小指數可定義為大小比率之倒數,且大小比率定義為在某一大小範圍內之血漿EBV DNA片段之比例除以在相應大小範圍內之體染色體DNA片段的比例。基於血漿EBV DNA讀段之大小概況之差異區分患有NPC之個體與具有持續陽性血漿EBV DNA之個體。使用大於0.143之大小指數之截止值,區分患有NPC之個體與大多數具有持續陽性血漿EBV DNA之個體。所有NPC患者皆具有大於0.143之大小指數。
圖 93顯示驗證集合之分析之綜述。該分析以包括56個短暫陽性樣品、44個持續陽性樣品及29個經確認NPC樣品之驗證集合開始。將個體中映射至EBV基因體之血漿DNA片段之比例之截止值設定為0.0009%,18個短暫陽性樣品大於臨限值;35個持續陽性樣品大於臨限值;且29個NPC樣品大於臨限值。使用大於0.143之大小指數截止值,4個短暫陽性大於截止值,4個持續陽性大於截止值,且29個NPC大於截止值。
以多於20,000個體之同類群組開始,1,112個個體對血漿EBV DNA呈陽性。彼等個體中之34個患有NPC;1078個為偽陽性。將基於下一代定序之分析用於EBV量及大小概況分析,估計偽陽性數減少至82 (803個短暫陽性樣品× (4/56) + 275個持續陽性× (4/44)給出82個偽陽性估計值)。初始分析之偽陽性率為5.4% (1078/(20174-34)*100%)。將下一代定序分析用於EBV量及大小概況分析可使偽陽性率減小至0.4% (82個偽陽性/(20,174-34)總數*100%)。初始分析之陽性預測值為3.1% (34/1112*100%)。將下一代定序分析用於EBV量及大小概況分析可使陽性預測值增加至29.3%。(34個真陽性/(34個真陽性+82個偽陽性)*100% = 29.3%)。提供經改良偽陽性及陽性預測值,不包含靈敏度,其皆基於初始血液樣品。
實例 3. 使用核酸拷貝數及大小分析檢測個體之鼻咽癌42歲無症狀男性呈現鼻咽癌之常規每年兩次評估。抽取外周血以評估個體血漿中細胞外(例如,無細胞)腫瘤源艾司坦-巴爾(EBV) DNA之存在。藉由使用冷凍離心機在2,000 × g下離心5分鐘自含有EBV DNA之血漿移除細胞。在2,000 × g下離心15分鐘清除血漿樣品中之血小板。離心後,使用Pasteur吸量管將血漿樣品立即轉移至乾淨聚丙烯管中。在處置的同時將樣品維持在2-8℃下。
在個體在診療所等待結果之同時實施包括定量PCR(qPCR)之第一分析。qPCR分析係使用對EBV DNA內之BamHI識別序列(5’-GGATCC-3’)敏感(例如,結合至側接序列)之引子集合來實施。在確定EBV DNA之拷貝數/毫升個體血液(拷貝/mL)之值後,比較該值與100拷貝/ mL之截止臨限值。
若個體之EBV DNA之血液含量超過臨限值,則實施包括血漿樣品中無細胞DNA片段之大小分析之第二分析。首先實施末端配對定序以獲得對應於樣品中無細胞DNA片段之每一末端之序列讀段。將序列讀段與參照基因體對準以確定參照基因體中每一對序列讀段之位置,且根據每一序列讀段之外末端之間之距離確定無細胞DNA片段之大小。對樣品中之每一無細胞DNA片段實施定序及對準以獲得對應於無細胞DNA片段之大小之分佈。若個體樣品中長度低於150個鹼基對之無細胞DNA片段之比例經測定大於10%截止值,則認為在個體中檢測到鼻咽癌。
實例 4. 實施靶向富集以改良檢測個體鼻咽癌之特異性檢測腫瘤源核酸之特異性可與樣品中腫瘤源核酸之濃度成比例。因此,可使用靶特異性富集來增加樣品中腫瘤源核酸之濃度。
將自人類患者獲得之血液樣品離心以分離血漿與剩餘血液組分(例如,紅血球、白血球及血小板)。藉由使用冷凍離心機在1,000 × g下離心10分鐘自血漿移除細胞。在2,000 × g下離心15分鐘清除血漿樣品中之血小板。離心後,使用Pasteur吸量管立即將血漿樣品轉移至乾淨聚丙烯管中。在處置的同時將樣品維持在2-8℃下。使用具有與EBV DNA中之BamHI序列(5’-GGATCC-3’)互補且能夠結合該序列之序列的DNA探針來實施樣品中EBV DNA片段之靶向富集。亦用高親和力標籤(例如,生物素)標記DNA探針,該標籤容許回收靶結合探針。回收靶結合探針後,使EBV DNA自探針解離並分離。隨後,根據實例1中所述之方法(例如,第一分析及第二分析)分析富集之樣品。
實例 5. 使用核酸拷貝數及序列分析檢測個體之口咽癌54歲女性吸煙者呈現口腔出血、耳痛及吞嚥困難。抽取外周血以評估個體血漿中細胞外(例如,無細胞)腫瘤源人類乳頭瘤病毒(HPV) DNA之存在。藉由使用冷凍離心機在1,500 × g下離心8分鐘自含有HPV DNA之血漿移除細胞。在2,000 × g下離心15分鐘清除血漿樣品中之血小板。離心後,使用Pasteur吸量管立即將血漿樣品轉移至乾淨聚丙烯管中。在處置的同時將樣品維持在2-8℃下。在個體在診療所等待結果的同時實施包括定量PCR之第一分析。確定HPV DNA之拷貝數/毫升個體血液(拷貝/mL)之值後,比較該值與80拷貝/ mL之截止臨限值。
若個體之HPV DNA之血液含量超過臨限值,則實施包括血漿樣品中無細胞DNA片段之大小分析之第二分析。實施大規模平行定序以獲得對應於樣品中之每一無細胞DNA片段之序列讀段。使序列讀段與參照基因體對準以確定參照基因體中序列讀段之位置,且測定具有至少一個序列突變之無細胞DNA片段之數量。若具有序列突變之無細胞DNA片段之比例經測定大於3%之截止值,則在個體中檢測到口咽癌。
實例 6. 使用大小分析來檢測癌症之存在及使用甲基化分析來檢測起源組織21歲無症狀女性呈現癌症之常規每年評估。抽取外周血以評估個體血漿中短(例如,長度小於150個鹼基對)細胞外(例如,無細胞) DNA片段之存在。藉由使用冷凍離心機在2,000 × g下離心5分鐘自含有無細胞DNA之血漿移除細胞。在2,000 × g下離心15分鐘清除血漿樣品中之血小板。離心後,使用Pasteur吸量管立即將血漿樣品轉移至乾淨聚丙烯管中。在處置的同時將樣品維持在2-8℃下。實施包括血漿樣品中無細胞DNA片段之大小分析之第一分析。實施末端配對定序以獲得對應於樣品中無細胞DNA片段之每一末端之序列讀段。使序列讀段與參照基因體對準以確定參照基因體中每一對序列讀段之位置,且根據每一序列讀段之外末端之間之距離確定無細胞DNA片段之大小。對樣品中之每一無細胞DNA片段實施定序及對準以獲得對應於無細胞DNA片段之大小之分佈。確定個體樣品中長度低於150個鹼基對之無細胞DNA片段之比例,且比較該比例與15%之臨限值。
若個體之無細胞DNA短片段之血液含量超過臨限值,則實施包括血漿樣品中無細胞DNA片段之甲基化分析之第二分析。首先實施甲基化敏感定序以獲得對應於樣品中無細胞DNA片段之每一末端之序列讀段。使序列讀段與參照基因體對準以確定每一序列讀段之位置以及多個基因體位置之甲基化狀況。對樣品中之每一無細胞DNA片段實施定序及對準以獲得對應於無細胞DNA片段之甲基化之甲基化模式(例如,多個基因體位置之甲基化量及/或甲基化狀況)。比較該甲基化模式與自MethHC數據庫獲得之參照以確定衍生出癌症源無細胞DNA片段之起源組織。
本文所用之部分標題僅出於組織目的且不應理解為限制所述標的物。
應理解,本文所述之方法並不限於本文所述之具體方法、方案、個體及定序技術且因此可有所變化。亦應理解,本文所用之術語僅出於闡述特定實施例之目的,且並不欲限制本文所述方法及組合物之範圍,該範圍將僅受限於隨附申請專利範圍。儘管本文中已顯示並闡述了本發明之一些實施例,但熟習此項技術者應明瞭,該等實施例僅以實例方式提供。熟習此項技術者現將在不背離本發明下構想出許多變化、改變及替代。應理解,可在實踐本發明中採用本文所述之本發明實施例之各種替代。以下申請專利範圍意欲定義本發明之範圍且意欲由此涵蓋該等申請專利範圍及其等效形式之範圍內之方法及結構。
參照實例應用闡述一些態樣用於說明。除非另外指示,否則任一實施例可與任一其他實施例組合。應理解,陳述眾多具體細節、關係及方法以提供對本文所述特徵之完全理解。然而,熟習此項技術者將容易地意識到,本文所述之特徵可不與一或多個具體細節一起實踐或與其他方法一起實踐。本文所述之特徵並不受限於動作或事件之說明順序,此乃因一些動作可以不同順序發生及/或與其他動作或事件同時發生。此外,根據本文所述特徵實施方法無需所有說明動作或事件。
儘管本文中已顯示並闡述了一些實施例,但熟習此項技術者應明瞭,該等實施例僅以實例方式提供。本發明不欲受限於本說明書內提供之具體實例。儘管已參照上文所提及說明書闡述了本發明,但對本文實施例之描述及說明並不欲理解為具有限制意義。熟習此項技術者現將在不背離本發明下構想出多種變化、改變及取代。
此外,應理解,本發明之所有態樣皆不限於本文所述之具體繪示、構形或相對比例,該等繪示、構形或相對比例依賴於多種條件及變量。應理解,可在實踐本發明時採用本文所述之本發明實施例之各種替代方案。因此預計本發明亦應覆蓋任何該等替代、修改、變化或等效形式。以下申請專利範圍意欲界定本發明之範圍並由此覆蓋該等申請專利範圍及其等效形式範圍內之方法及結構。
本文所提及之所有專利、專利申請案、公開案及描述出於所有目的皆係全文以引用方式併入。其皆未被承認為先前技術。