TW201923092A

TW201923092A - 提高在癌症患者中準確度的綜合基因組轉錄組的腫瘤-正常基因群組分析

Info

Publication number: TW201923092A
Application number: TW107135665A
Authority: TW
Inventors: 瑞比茲德蕭赫入兹; 加納查德
Original assignee: 美商南托米克斯公司
Priority date: 2017-10-10
Filing date: 2018-10-09
Publication date: 2019-06-16
Also published as: SG11202002758YA; CN111201572A; WO2019074933A2; CA3077384A1; AU2018348074A1; US20200265922A1; WO2019074933A3; JP2021514604A; EP3695407A4; KR20200044123A; EP3695407A2

Abstract

使用來自一腫瘤樣品以及一配對的正常樣品的DNA定序資料進行具有改善的準確性的基於SNV的基因測試以確定SNVs，而且來自該腫瘤樣品的RNA定序資料被用於確定如此鑑定的SNVs的表現。

Description

提高在癌症患者中準確度的綜合基因組轉錄組的腫瘤-正常基因群組分析

本發明之領域為與癌症有關的組學資料的概況分析，特別是因為其關於減少基因組腫瘤分析中針對各種癌症的多態性之偽陽性結果。

背景描述包括可用於理解本發明之資訊。這並非承認本文提供的任何資訊為現有技術或與當前主張保護的發明相關，或者具體或隱含地引用的任何出版物為現有技術。

本文中的所有出版物及專利申請均透過引用併入，其程度如同每個單獨的出版物或專利申請被具體並單獨地指出透過引用併入。如果併入的參考文獻中術語之定義或用法與本文提供的術語之定義不一致或相反，則適用該術語之定義，且該術語在該參考文獻中的定義不適用。

基於DNA定序的商業上可獲得之臨床等級基因群組測試被廣泛用於臨床實務中。基於僅使用腫瘤的分析的這些基於群組的測試是目前用於臨床決策支持的腫瘤學基因組測試中最常見之方法。基於定序的方法尋求鑑定驅動腫瘤生長的體細胞衍生的基因組變異，並尋求精確地區分這些遺傳變異與在腫瘤基因組中不可避免地佔主導地位的遺傳種系基因組變異的大背景。

2016年，醫療保險和醫療補助服務中心(Centers for Medicare and Medicaid Services, CMS)授權覆蓋僅使用腫瘤的DNA定序的35種基因測試，這些基因目的在於為肺癌治療提供資訊。目前CMS核准的測試為基於一目標基因群組的僅用於腫瘤的分析，具體排除了將這種分析與患者的正常種系組織進行比較。相反地，目前核准的測試利用參考基因組以及過濾技術來從正常多態性或遺傳的種系變體中區分“真正的”體細胞變體。該測試 (MolDX：L36194)被定義為“僅使用腫瘤組織的單一測試 (亦即，不將腫瘤與正常組織進行配對)，其不區分體細胞以及種系改變”。然而，其他人已經報導了這種僅使用腫瘤的方法，以增加將種系突變錯誤識別為體細胞衍生的遺傳變化與潛在的癌症驅動突變 (“偽陽性”)的風險。雖然最近顯示，與僅使用腫瘤定序相關的偽陽性率至少在一定程度上可以透過分子病理學家對所有推定的體細胞變體的評價來降低，但這種個體評價通常是耗時且仍然容易出錯的。

因此，仍然需要分析來自癌症患者的組學資料的改進方法，尤其是在可能存在偽陽性測試結果的情況下。

本發明之主題涉及使用來自一患者之腫瘤DNA、種系DNA，以及腫瘤RNA的基因組學與轉錄組學資料分析及/或鑑定腫瘤相關單核苷酸變體 (single nucleotide variants, SNVs)的各種方法，其意外地提高了準確性，並因此提高有效治療的機會。

因此，於本發明主題之一方面，本案發明人考慮了一種以更高的準確度執行一基於SNV的癌症測試之方法。該方法包括從一腫瘤樣品及一配對的正常樣品 (亦即，同一患者的非腫瘤樣品)獲得DNA定序資料之步驟，以及從該腫瘤樣品獲得RNA定序資料的進一步步驟。然後該方法還包括確定相對於該配對的正常樣品，在該腫瘤樣品中DNA單核苷酸變體的存在之步驟，以及使用該RNA定序資料確定該DNA單核苷酸變體之表現的步驟。於一些具體實施例中，使用來自該腫瘤樣品與該配對的正常樣品的DNA定序資料的位置引導同步比對進行該確定該DNA單核苷酸變體的存在之步驟。較佳地，該方法還包括基於該單核苷酸變體的存在及表現，將至少一種DNA單核苷酸變體鑑定為與該患者的癌症狀態相關之步驟。

最典型地，該DNA定序資料為全基因組DNA定序資料。較佳地，該腫瘤組織的DNA定序資料具有一至少50x的讀值深度，及/或該配對的正常組織的DNA定序資料具有一至少30x的讀值深度。於一些具體實施例中，該方法還包括使用該DNA單核苷酸變體的等位基因頻率過濾該DNA單核苷酸變體的步驟。

於本發明主題之另一方面，本案發明人考慮了一種以更高的準確度識別一患者的治療選擇之方法。該方法包括確定相對於該患者的該配對正常樣品在該腫瘤樣品中DNA單核苷酸變體的存在之步驟，以及使用該RNA定序資料確定該DNA單核苷酸變體之表現的步驟。然後，該方法還包括鑑定以具有至少一種表現為RNA的一DNA單核苷酸變體的一基因為標靶的治療選擇之步驟。

較佳地，使用來自該腫瘤樣品及該配對的正常樣品的DNA定序資料的位置引導同步比對來進行確定該DNA單核苷酸變體存在之步驟。於一些具體實施例中，使用具有複數個腫瘤相關基因的參考序列的電腦模擬基因群組進行確定該DNA單核苷酸變體的存在之步驟。於這樣的具體實施例中，較佳為，該電腦模擬基因群組為癌症類型特異性的，及/或該腫瘤相關基因係選自由以下所組成之群組：ABL1、EGFR、GNAS、KRAS、PTPN11、AKT1、ERBB2、GNAQ、MET、RB1、ALK、ERBB4、HNF1A、MLH1、RET、APC、EZH2、HRAS、MPL、SMAD4、ATM、FBXW7、IDH1、NOTCH1、SMARCB1、BRAF、FGFR1、JAK2、NPM1、SMO、CDH1、FGFR2、JAK3、NRAS、SRC、CDKN2A、FGFR3、IDH2、PDGFRA、STK11、CSF1R、FLT3、KDR、PIK3CA、TP53、CTNNB1、GNA11、KIT、PTEN、VHL。

於一些具體實施例中，該方法還包括使用該DNA單核苷酸變體的等位基因頻率過濾該DNA單核苷酸變體之步驟。

於一些具體實施例中，確定該DNA單核苷酸變體表現的步驟包括測量該DNA單核苷酸變體的RNA表現量並與一預定閾值比較。於這樣的具體實施例中，預期該方法可以進一步包括基於該RNA表現量以對該DNA單核苷酸變體進行分級之步驟，及/或基於與該預定閾值的比較以將該DNA單核苷酸變體分類為一“表現組”或一“非表現組”之步驟。

於本發明主題之又一方面，本案發明人考慮了一種測試一患者樣品之方法，該方法包括從該患者的腫瘤及配對的正常組織產生或獲得DNA組學資料之步驟，以及從該患者的腫瘤組織產生或獲得RNA組學資料之另一步驟。在又一步驟中，使用該配對的正常組織的該DNA組學資料在該腫瘤的該DNA組學資料中鑑定腫瘤及患者特異性SNVs，並且使用來自該腫瘤組織的該RNA組學資料以確認該SNV的存在及表現量。

較佳地，該DNA及/或RNA組學資料為BAM格式，並且使用增量同步比對來執行該識別腫瘤及患者特異性SNVs之步驟 (例如，使用BAMBAM，其可以使用該DNA組學資料以及該RNA組學資料)。最典型，但非必要地，該RNA組學資料為RNAseq資料，及/或該腫瘤的該DNA組學資料中的該SNVs為在一癌症驅動基因中或在一遺傳性癌症風險基因中。例如，合適的癌症驅動基因包括ACT1、ACT2、ACT3、APC、ATM、BRAF、BRCA1、BRCA2、CHEK1、CHEK2、EGFR、ERBB2、ERBB3、ERBB4、FGFR1、FGFR2、FGFR3、HRAS、JAK3、KIT、KRAS、MET、NOTCH1、NRAS、PALB2、PDGFRA、PIC3CA、PTEN、SMO、SRC，以及TP53，且合適的遺傳性癌症風險基因包括APC、ATM、AXIN2、BMPR1ACHD1、CHEK2、EPCAM、GREM1、MLH1、MSH2、MSH6、MUTYH、PMS2、POLD1、POLE、PTEN、SMAD4、STK11，以及TP53。

於本發明主題之又一方面，本案發明人考慮了一種提高鑑定在一患有腫瘤的患者中一真正的體細胞單核苷酸的準確度之方法。該方法包括從一患者的一腫瘤樣品以及一配對的正常樣品獲得DNA定序資料之步驟，且進一步從該腫瘤樣品獲得RNA定序資料，確定相對於該配對的正常樣品，在該腫瘤樣品中DNA單核苷酸變體的存在，確定相對於該配對的正常樣品，在該腫瘤樣品中DNA單核苷酸變體的存在，以及基於該單核苷酸變體的存在及表現，將至少一種DNA單核苷酸變體鑑定為與該患者的癌症狀態相關。

最典型地，該DNA定序資料為全基因組DNA定序資料。於一些具體實施例中，該腫瘤組織的該DNA定序資料具有一至少50x的讀值深度，及/或該配對的正常組織的該DNA定序資料具有一至少30x的讀值深度。

於一些具體實施例中，使用來自該腫瘤樣品及該配對的正常樣品的DNA定序資料的位置引導同步比對以進行確定該DNA單核苷酸變體的存在之步驟。於其他具體實施例中，該方法可進一步包括使用該DNA單核苷酸變體的等位基因頻率過濾該DNA單核苷酸變體之步驟。

於一些具體實施例中，使用一具有複數個腫瘤相關基因的參考序列的電腦模擬基因群組進行確定該DNA單核苷酸變體的存在之步驟。在這樣的具體實施例中，較佳為，該電腦模擬基因群組為癌症類型特異性的，及/或該腫瘤相關基因係選自由以下所組成之群組：ABL1、EGFR、GNAS、KRAS、PTPN11、AKT1、ERBB2、GNAQ、MET、RB1、ALK、ERBB4、HNF1A、MLH1、RET、APC、EZH2、HRAS、MPL、SMAD4、ATM、FBXW7、IDH1、NOTCH1、SMARCB1、BRAF、FGFR1、JAK2、NPM1、SMO、CDH1、FGFR2、JAK3、NRAS、SRC、CDKN2A、FGFR3、IDH2、PDGFRA、STK11、CSF1R、FLT3、KDR、PIK3CA、TP53、CTNNB1、GNA11、KIT、PTEN、VHL。

於一些具體實施例中，確定該DNA單核苷酸變體的表現之步驟包括測量該DNA單核苷酸變體的RNA表現量並與一預定閾值比較。在這樣的具體實施例中，還預期該方法可進一步包括基於該RNA表現量以對該DNA單核苷酸變體進行分級，及/或基於與該預定閾值的比較以將該DNA單核苷酸變體分類為一“表現組”或一“非表現組”。

從以下較佳實施例的詳細描述以及附圖中，本發明主題的各種目的、特徵、方面，以及優點將變得更加明顯。

本案發明人意外地發現，透過常規腫瘤DNA分析鑑定的單核苷酸變體 (single nucleotide variants, SNVs)具有包括偽陽性及/或偽陰性SNVs的高風險，因為鑑定的大多數此類SNVs為種系來源的變體。本案發明人進一步發現許多被鑑定的體細胞SNVs並不表現為RNA，因此鑑定這種不表現的體細胞SNVs作為腫瘤治療的分子標靶會導致無效的癌症治療。從不同的角度來看，本案發明人現已發現，透過同時生物資訊學分析腫瘤基因組DNA相對於配對的正常基因組DNA以識別體細胞SNVs與腫瘤RNA表現以識別表現或不表現的體細胞SNVs，可以顯著提高基於單核苷酸變體的癌症測試的準確性。因此，本案發明人考慮在腫瘤中表現的這種被鑑定的體細胞SNVs可以與癌症狀態相關，並且進一步被鑑定為腫瘤治療的有效標的。

如本文所用，術語“腫瘤”係指，並且可與一種或多種癌細胞、癌組織、惡性腫瘤細胞，或惡性腫瘤組織互換使用，其可在一人體內的一或多個解剖位置中被放置或發現。應當注意的是，本文所用之術語“患者”包括被診斷患有一病症 (例如，癌症)的個體以及為了檢測或鑑定一病症而進行檢查及/或測試之個體。因此，一患有一腫瘤的患者係指被診斷患有一癌症的個體以及懷疑患有一癌症的個體。如本文所用，術語“提供(動詞)”或“提供(動名詞)”係指並包括製造、生成、放置、使其能使用、轉移，或準備使用之任何行為。

因此，於本發明主題之一特別較佳之方面，本案發明人考慮透過從一患者的一腫瘤樣品及/或一配對的正常樣品中獲得DNA及RNA資料，可以顯著提高基於一單核苷酸變體的癌症測試之準確性，因此確定相對於該配對的正常樣品，在該腫瘤樣品中的DNA單核苷酸變體，並確定該DNA單核苷酸變體的表現。預期表現為RNA的DNA單核苷酸變體可以高度準確地與該患者的癌症狀態相關聯。
獲取組學資料

考慮了從患者 (或來自一患者或一健康個體的健康組織作為對照比較)獲得一腫瘤樣品 (腫瘤細胞或腫瘤組織)的任何合適方法。最典型地，可以透過一活組織檢查 (包括液體活檢，或透過手術期間的組織切除或獨立的活組織檢查程序獲得)從該患者獲得一腫瘤樣品，其可為新鮮的或加工的 (例如，冷凍等) 直到從該組織獲得組學資料的進一步過程。例如，該腫瘤細胞或腫瘤組織可為新鮮的或冷凍的。對於其他實施例，該腫瘤細胞或腫瘤組織可為細胞/組織萃取物的形式。於一些具體實施例中，該腫瘤樣品可以從單個或多個不同組織或解剖區域獲得。例如，一轉移性乳腺癌組織可從該患者的乳房以及轉移的乳腺癌組織的其他器官 (例如，肝、腦、淋巴結、血液、肺等)獲得。較佳地，可以獲得該患者的一健康組織或配對的正常組織 (例如，患者的非癌性乳房組織)，或者也可以透過一類似的方式獲得來自一健康個體 (除患者之外)的一健康組織作為比較。

於某些具體實施例中，可以在多個時間點從該患者獲得腫瘤樣品，以確定該些腫瘤樣品在一相關時間段內的任何變化。例如，可以在該些樣品被確定或診斷為癌症之前及之後獲得腫瘤樣品 (或疑似腫瘤樣品)。於另一實施例中，腫瘤樣品 (或疑似腫瘤樣品)可以在一次或一系列抗腫瘤治療 (例如，放射療法、化學療法、免疫療法等)之前、期間，及/或之後 (例如，在完成時等)獲得。於又一實施例中，該腫瘤樣品 (或疑似腫瘤樣品)可在腫瘤進展期間在鑑定一新的轉移組織或細胞時獲得。

從獲得的腫瘤細胞或腫瘤組織，可以分離DNA (例如，基因組DNA、染色體外DNA等)、RNA (例如，mRNA、miRNA、siRNA、shRNA等)及/或蛋白質 (例如，膜蛋白、細胞質蛋白質、核酸蛋白質等)，並進一步分析以獲得組學資料。替代地及/或另外地，獲得組學資料的步驟可以包括從存儲一或多個患者及/或健康個體的組學資訊的資料庫接收組學資料。例如，可以從該患者腫瘤組織分離的DNA、RNA，及/或蛋白質獲得該患者腫瘤的組學資料，並且可以將獲得的組學資料存儲在一資料庫 (例如，雲端資料庫、伺服器等)，該資料庫具有相同類型腫瘤或不同類型腫瘤的其他患者的其他組學資料集。從健康個體或患者的配對的正常組織 (或健康組織)獲得的組學資料也可以存儲在該資料庫中，而可以在分析時從資料庫中檢索相關資料集。同樣地，在獲得蛋白質資料的情況下，這些資料還可以包括蛋白質活性，特別是在蛋白質具有酶活性的情況下 (例如，聚合酶、激酶、水解酶、裂解酶、連接酶、氧化還原酶等)。

如本文所用，組學資料包括但不限於與基因組學、蛋白質組學，以及轉錄組學相關的資訊，以及特定基因表現或轉錄物分析，以及一細胞的其他特徵及生物學功能。關於基因組學資料，合適的基因組學資料包括DNA序列分析資訊，其可透過腫瘤及配對的正常樣品的全基因組定序及/或外顯子組定序 (通常在至少10x，更通常至少20x的覆蓋深度)所獲得。或者，也可從一先前序列確定的已建立的序列記錄 (例如，SAM、BAM、FASTA、FASTQ或VCF檔案)提供DNA資料。因此，資料集可以包括未處理或處理的資料集，且示例性資料集包括具有BAM格式、SAM格式、FASTQ格式，或FASTA格式的資料集。然而，特別較佳的是，該資料集以BAM格式或作為BAMBAM差異對象 (例如，美國專利申請案公開號US 2012/0059670A1以及US 2012/0066001A1)提供。組學資料可來自全基因組定序、外顯子組定序、轉錄組定序 (例如，RNA-seq)，或來自基因特異性分析 (例如，PCR、qPCR、雜交、LCR等)。同樣地，可以多種方式執行序列資料的計算分析。然而，在最佳的方法中，透過位置引導的腫瘤與正常樣品的同步比對在電腦模擬中進行分析，例如，在美國專利申請案公開號US 2012/0059670A1以及US 2012/0066001A1中公開的使用BAM檔案以及BAM伺服器。這種分析有利地減少了偽陽性新表位並顯著降低了對記憶體及計算資源的需求。

應當注意的是，應該讀值針對電腦的任何語言以包括任何合適的電腦設備組合，包括伺服器、介面、系統、資料庫、代理、同級、引擎、控制器，或單獨或共同操作的其他類型的電腦設備。應當理解的是，該電腦設備包括一處理器，該處理器被配置為執行儲存在一有形、非暫時性電腦可讀存儲媒體 (例如，硬碟驅動器、固態驅動器、RAM、快閃、ROM等)上的軟體指令。軟體指令較佳地配置該電腦設備以提供角色、職責，或其他功能，如下面關於所公開的裝置所討論的。此外，所公開的技術可以體現為電腦程式產品，其包括儲存該軟體指令的非暫時性電腦可讀媒體，該軟體指令使一處理器執行與基於電腦的演算法、過程、方法或其他指令的實現相關聯的所公開的步驟。在特別較佳的具體實施例中，各種伺服器、系統、資料庫，或介面使用標準化協議或演算法交換資料，可能基於HTTP、HTTPS、AES、公鑰 - 私鑰交換、網路服務API、已知金融交易協定，或其他電子資訊交換方法。設備之間的資料交換可以通過分組交換網絡、網際網路、LAN、WAN、VPN，或其他類型的分組交換網絡進行；一電路交換網絡；單元交換網絡；或其他類型的網絡。
腫瘤樣品中的 DNA 單核苷酸變體相對於配對的正常樣品

預期透過比較從一患者的腫瘤組織與配對的正常組織獲得的基因組DNA序列，可以從種系SNVs區分及鑑定體細胞SNVs (例如，一患者的非腫瘤組織，包括非腫瘤血液樣品的液體活組織檢查)。關於一患者的腫瘤及配對的正常組織的分析，許多方式被認為適用於本文，只要這些方法能夠產生差異序列對像或腫瘤與配對的正常序列之間的位置特異性差異的其他識別。示例性的方法包括針對一外部參考序列 (例如，hg18或hg19)的序列比較或針對一內部參考序列(例如，配對的正常序列) 的序列比較，以及針對已知的常見突變模式 (例如，SNVs)的序列處理。因此，用於檢測腫瘤與配對的正常組織，腫瘤及液體活組織檢查之間的突變，以及配對的正常組織及液體活檢的預期方法及程序包括iCallSV (URL：github.com/rhshah/iCallSV)、VarScan (URL：varscan.sourceforge.net) 、MuTect (URL：github.com/broadinstitute/mutect)、Strelka (URL：github.com/Illumina/strelka)、Somatic Sniper (URL：gmt.genome.wustl.edu/somatic-sniper/)，以及BAMBAM (US 2012/0059670)。

然而，於本發明主題之特別較佳的方面，該序列分析透過該第一序列資料 (腫瘤樣品)與該第二序列資料 (配對的正常組織)的增量同步比對來進行，例如，使用一演算法，例如，在文獻期刊Cancer Res 2013 Oct 1; 73(19):6036-45、美國專利申請公開號US 2012/0059670與US 2012/0066001所描述的，以產生該患者及腫瘤特異性突變資料。如將容易理解的，該序列分析也可以在這樣的方法中進行，比較來自腫瘤樣品的組學資料以及配對的正常組學資料，從而得到分析，該分析不僅可以告知一使用者在一患者體內對腫瘤的真實突變，也告訴使用者在治療期間新出現的突變 (例如，透過比較配對的正常組織以及配對的正常組織/腫瘤，或透過腫瘤的比較)。另外，使用這樣的演算法 (尤其是BAMBAM)，可以容易地確定特定突變的等位基因頻率及/或選殖群，這可以有利地提供關於特定腫瘤細胞部分或群體的治療成功的指示。因此，組學資料分析可能揭示錯義及無義突變、複製數目的變化、雜合性的缺失、缺失、插入、倒位、易位、微衛星的變化等。

此外，應該注意的是，資料集較佳地反映同一患者的一腫瘤以及一配對的正常樣品，以便獲得患者及腫瘤特異性資訊。因此，可以排除不產生腫瘤的遺傳種系改變 (例如，沉默突變，SNP等)。當然，應該認識到該腫瘤樣品可以來自初始腫瘤，來自治療開始時的腫瘤，來自複發性腫瘤或轉移部位等。在大多數情況下，該患者的配對的正常樣品可為血液，或來自與該腫瘤相同的組織類型的非患病組織。

於一些具體實施例中，其中將腫瘤及配對的正常的全基因組或外顯子組定序資料與外部參考序列進行比較，預期外部參考序列被組織為電腦模擬基因群組。較佳地，該電腦模擬基因群組包括複數個腫瘤相關基因，包括腫瘤驅動基因或癌症驅動基因 (例如，EGFR、KRAS、TP53、APC等)及/或藥物-敏感性或代謝相關基因。預期該電腦模擬基因群組中基因的數量及類型可以根據該患者可能具有或被診斷的癌症類型 (例如，電腦模擬基因群組中的癌症類型特異性)而變化，並且較佳地包括至少20 基因、至少30個基因、至少40個基因，或至少50個基因。例如，該電腦模擬基因群組可以包括ABL1、EGFR、GNAS、KRAS、PTPN11、AKT1、ERBB2、GNAQ、MET、RB1、ALK、ERBB4、HNF1A、MLH1、RET、APC、EZH2、HRAS、MPL、SMAD4、ATM、FBXW7、IDH1、NOTCH1、SMARCB1、BRAF、FGFR1、JAK2、NPM1、SMO、CDH1、FGFR2、JAK3、NRAS、SRC、CDKN2A、FGFR3、IDH2、PDGFRA、STK11、CSF1R、FLT3、KDR、PIK3CA、TP53、CTNNB1、GNA11、KIT、PTEN、VHL的全基因組序列及/或整個外顯子組序列。

另外，還考慮使用DNA等位基因頻率進一步過濾這種鑑定的DNA單核苷酸變體 (例如，使用具有報告的群體等位基因頻率的公共資料庫)。於一些具體實施例中，可以以預定的頻率閾值過濾該DNA單核苷酸變體，例如，報告的等位基因頻率 ≥ 0.01 (1%)，較佳 ≥ 0.005 (0.5%)，或更佳 ≥ 0.001 (0.1%)。

其中r為觀察到的參考等位基因，α為正常污染的分數，以及序列串1及2的基因型分別由Gt=(t₁ , t₂ )以及Gg=(g₁ , g₂ )定義，其中t₁ , t₂ , g₁ , g₂ ε{A, T, C, G}。序列串1及2的序列資料被分別定義為一組讀值D_t ={d_t ¹ , d_t ² , . . . , d_t ^m }以及D_g ={d_g ¹ , d_g ² , . . . , d_g ^m }，具有觀察到的鹼基d_t ⁱ , d_g ⁱ ε{A, T, C, G}。該模型中使用的所有資料都必須超過使用者定義的基準及基因圖譜品質閾值。

給定該種系基因型的種系等位基因的機率被建立模型為四個核苷酸上的多項式：

其中n為該位置的種系讀值的總數，且n_A 、n_G 、n_C 、n_T 為支持每個觀察到的等位基因的讀值。鹼基機率P(d_g ⁱ |G_g )被假定為獨立的，來自由基因型G_g 表示的兩個親本等位基因中的任一個，同時還結合了定序儀的近似鹼基錯誤率。序列串1基因型的先驗在參考基礎上由以下做為條件：
P (G_g |r=a)={μ_aa ,μ_ab ,μ_bb }

其中μ_aa 為該位置為純合子參考的機率，μ_ab 為雜合子參考，μ_bb 為純合子的非參考。此時，序列串1先前不包含關於已知的遺傳SNPs的任何資訊。

序列2讀值集的機率再次被定義為多項式

其中m為該位置的種系讀值總數，m_A 、m_G 、m_C 、m_T 為支持序列2資料集中每個觀察到的等位基因的讀值，每個序列2讀值的機率為源自序列2及序列1基因型的鹼基機率的混合，其由正常污染分數α控制，如
P (d _t ⁱ |G _t ,G _g α)=αP (d _t ⁱ |G _t )+ (1−α)P (d _t ⁱ |G _g )

且該序列2基因型的機率由來自該序列1基因型的簡單突變模型定義
P (G _t |G _g )=max[P (t ₁ |g ₁ )P (t ₂ |g ₂ ),P (t ₁ |g ₂ )P (t ₂ |g ₁ )],

其中無突變機率 (例如，t1 = g1)是最大的，轉換機率 (即A→G、T→C)為換置(即A→T，T→ G) 的可能性的四倍。多項分佈的所有模型參數α、μaa、μab、μbb，以及鹼基機率，P(di|G)，都是使用者可定義的。

選擇的序列2及1基因型、Gt max、Gg maxi是最大化的 (1)的那些，且後驗機率定義為

可用於評估一對推斷的基因型的置信度。如果序列2及序列1基因型不同，將報告序列2中的突變及其各自的置信度。

將序列1及2基因型中的一個或兩個的可能性最大化有助於提高兩者推斷的基因型的準確性，尤其是在一個或兩個序列資料集具有特定基因組位置的低覆蓋度的情況下。分析單個定序資料集的其他突變辨認算法，如MAQ及SNVMix，在非參考或突變等位基因具有低支持時更容易出錯 (Li, H., 等人(2008年) Mapping short DNA sequencing reads and calling variants using mapping quality scores, Genome Research, 11, 1851-1858；Goya, R.等人(2010年) SNVMix: predicting single nucleotide variants from next-generation sequencing of tumors, Bioinformatics, 26, 730-736)。

除了從一給定基因組位置的所有讀值中收集等位基因支持外，還收集有關讀值的資訊 (例如，哪條鏈、正向或反向、讀值圖譜、讀值內等位基因的位置、等位基因的平均性質等)並用於選擇性地過濾掉錯誤陽性辨識。我們預期所有支持變體的等位基因的鏈及等位基因位置的隨機分佈，而且如果該分佈從該隨機分佈顯著偏離 (即，在一讀值的尾端附近發現所有變體等位基因)，則建議該變種辨認是可疑的。

還預期辨認序列改變的變體也可以由其他分析工具執行，包括，但不限於，MuTect (Nat Biotechnol. 2013 Mar;31(3):213-9)、MuTect2、 HaploTypeCaller、Strelka2 (Bioinformatics, Volume 28, Issue 14, 15 July 2012, Pages 1811–1817)，或其他基因組人工因素檢測工具。
DNA 單核苷酸變體之表現

此外，腫瘤及/或配對的正常的組學資料包括轉錄組資料集，其包括從患者獲得的RNA (較佳為細胞mRNA)的序列資訊及表現量 (包括表現譜或剪接變體分析)。本領域已知有許多轉錄組學分析方法，且所有已知的方法都被認為適用於本文 (例如RNAseq、RNA雜交陣列，qPCR等)。因此，較佳的材料包括mRNA以及初級轉錄物 (hnRNA)，且RNA序列資訊可以從反轉錄的polyA⁺ -RNA獲得，其又從同一患者的一腫瘤樣品以及一配對的正常(健康)樣品獲得。同樣地，應當注意的是，雖然polyA⁺ -RNA通常較佳作為轉錄組的代表，但其他形式的RNA (hn-RNA、非多腺苷酸化RNA、siRNA、miRNA等)也被認為適用於本文。較佳的方法包括定量RNA (hnRNA或mRNA)分析及/或定量蛋白質組學分析，尤其包括RNAseq。在其他方面，使用基於RNA-seq、qPCR及/或rtPCR的方法進行RNA定量及定序，儘管各種替代方法 (例如，基於固相雜交的方法)也被認為是合適的。從另一個角度來看，轉錄組學分析可能是合適的 (單獨或與基因組分析組合)以鑑定及定量具有癌症及患者特異性突變的基因。

較佳地，該轉錄組學資料集包括等位基因特異性序列資訊已給複製數目資訊。在此類具體實施例中，該轉錄組學資料集包括一基因的至少一部分的所有讀值資訊，較佳至少10x、至少20x，或至少30x。等位基因特異性複製數目，更具體而言，多數及少數複製數目，使用動態窗口方法計算，該方法根據種系資料中的覆蓋擴展及收縮窗口的基因組寬度，如美國專利號US 9824181中詳細描述的，其透過引用方式併入本文。如本文所用，多數等位基因為具有多數複製數目的等位基因 (＞總複製數目的50% (讀值支持)或大多數複製數目)，而少數等位基因為具有少數複製數目的等位基因 (＜總複製數目的50% (讀值支持)或最少複製數目)。

本案發明人考慮於一些具體實施例中，可以透過RNA定序資料 (例如RNAseq)確定具有一個或多個單核苷酸變體的基因 (或基因的一部分)的表現。在此類具體實施例中，可以將一種或多種單核苷酸變體的表現評估為表現的RNA中一種或多種單核苷酸變體的出現或缺乏 (或存在或不存在)。因此，基於該RNA定序資料，該單核苷酸變體可以分組為“表現組”或“非表現組”。在其他具體實施例中，可以透過組合RNAseq資料以及RNA定量資料 (例如，使用qPCR及/或rtPCR)來確定具有一個或多個單核苷酸變體的基因 (或基因的一部分)的表現。在此類具體實施例中，透過與一預定閾值比較，可以將一種或多種單核苷酸變體的表現量評估為出現或缺乏 (或存在或不存在)。預期該預定閾值可以根據基因而變化。例如，該預定閾值可為健康個體的相同或相似類型組織(例如，肝、肺等)中基因的平均RNA表現量的10%、5%，或1%，或是該患者的匹配的正常組織中基因的RNA表現量。或者，該預定閾值可以根據給定反應中的qPCR及/或rtPCR雜訊量而變化。例如，該預定閾值可以在qPCR及/或rtPCR反應的雜訊量的20%以內、10%以內、5%以內。因此，基於該RNA表現量，該單核苷酸變體可以被分組為表現量在或高於該預定閾值的“表現組”，或表現量低於該預定閾值的“非表現組”。

不希望受任何具體理論的束縛，本案發明人考慮基因組學資料以及轉錄組學資料的組合以鑑定表現的DNA單核苷酸變體顯著降低偽陽性率 (錯誤地將種系突變鑑定為體細胞衍生的癌症驅動突變，及/或鑑定不表現為有效突變的體細胞衍生的癌症驅動突變等)及/或偽陰性率 (例如，排除真正的腫瘤體細胞SNVs等)。在鑑定腫瘤相關基因中的DNA單核苷酸變體時，偽陽性及/或偽陰性率的降低進一步顯著提高了鑑定與腫瘤及/或癌症相關的基因的效率與準確性，並且還用於鑑定任何有效的治療方案，且該方案具有降低不要的副作用或毒性，因為在分析或應用的相對早期階段，待分析及作為標靶的與腫瘤或癌症相關的表現的DNA單核苷酸變體的數量可以顯著降低。

因此，本案發明人進一步考慮基於單核苷酸變體的存在/不存在及其表現，可以將這種單核苷酸變體鑑定為癌症相關變體 (或突變)，其可以進一步與該患者的癌症狀態相關。如本文所用，術語“癌症狀態”係指癌症或腫瘤的任何分子、生理、病理狀況。因此，該癌症狀態可包括解剖類型的癌症 (例如，胃腸癌、肺癌、腦腫瘤等)、腫瘤的轉移狀態 (例如，轉移、轉移的高趨勢、非轉移等)、腫瘤的同源叢生性、腫瘤組織的免疫狀態 (例如，免疫抑制、免疫活化、免疫休眠等)、腫瘤預後 (例如，腫瘤的階段、腫瘤分級包括該腫瘤的形態發生等)。此外，該癌症狀態可包括腫瘤對腫瘤治療的敏感性或抗性 (例如，對施用檢查點抑制劑的抗性、對細胞激素治療的敏感性等)、化學治療藥物的毒性 (例如，由於突變/在CYP2D6酶調節途徑的一元素中的單核苷酸變體等)。

於一些具體實施例中，可以透過提供顯著性評分來量化表現的DNA單核苷酸變體與腫瘤或癌症狀態的關聯。例如，該顯著性評分可以透過DNA單核苷酸變體的數量 (每一種核酸變化1分)、DNA單核苷酸變體的類型 (例如，無義突變，錯義突變等) 、DNA單核苷酸變體的位置 (例如，編碼功能性結合域的基因的外顯子3等)，以及生理影響 (訊息傳遞途徑B的顯性負性因子)的次評分組合來確定。此外，該顯著性評分可透過包括該DNA單核苷酸變體的基因的表現來確定 (例如，對於每個非表現的DNA單核苷酸變體為-1，對於每個表現的DNA單核苷酸變體為+1，或基於基因表現量的各種增量評分，包括DNA單核苷酸變體，例如每10%增加1%的基因表現，包括DNA單核苷酸變體等)。因此，在此類具體實施例中，可以基於表現 (RNA中存在或不存在)或表現量 (與正常組織或健康個體相比RNA表現量的增加或減少)對DNA單核苷酸變體的顯著性進行排序。或者及/或另外，包括DNA單核苷酸變體的基因的顯著性評分可用於進一步對該些基因或DNA單核苷酸變體進行排序。

本案發明人進一步考慮了這種鑑定及/或排序的DNA單核苷酸變體及/或包括DNA單核苷酸變體的基因可以進一步用於鑑定治療患者的癌症或腫瘤的治療選擇。例如，在確認RNA中的DNA單核苷酸變體 (透過腫瘤配對 - 正常定序鑑定)並確認RNA表現後 (例如，與配對的正常組織相比至少25%、與配對的正常組織相比至少50%，與配對的正常組織相比至少75%，與配對的正常組織相比至少100%，與配對的正常組織相比至少125%，或與配對的正常組織相比至少150%)在具有一種或多種DNA單核苷酸變體的相關基因中，以該腫瘤相關基因為標靶的藥物以有效治療腫瘤的劑量及方案給予患者。如本文所用，以該腫瘤相關基因為標靶的藥物可包括調節基因表現的藥物 (轉錄量或轉譯量)、調節基因產物 (蛋白質)轉譯後修飾的藥物、調節基因產物 (蛋白質)活性的藥物，或調節基因產物 (蛋白質)降解的藥物。

如本文所用，術語“施用”一藥物或癌症治療係指該藥物的直接及間接施用或癌症治療。該藥物或癌症治療的直接給藥通常由醫療保健專業人員 (例如，醫生、護士等)進行，且其中間接給藥包括向醫療保健專業人員提供或提供藥物或癌症治療以直接給藥(例如，透過注射、口服、局部應用等)的步驟。
實施例 1

目前核准的肺癌測試為一種基於目標基因群組的僅使用腫瘤的分析，具體排除了患者的正常種系組織。然而，如下面更詳細地顯示的，僅使用腫瘤的方法顯著增加了錯誤地將種系突變識別為體細胞衍生的癌症驅動突變 (即偽陽性)的風險，並且進一步未能告知醫生潛在可作為藥物標靶的位置甚至在腫瘤中以有意義的量存在。

更具體而言，本案發明人發現，在目前核准的，針對肺癌患者的基因群組僅使用腫瘤的分析中發現的所有變體中的94%確實是偽陽性多態性，並且48%在嚴格過濾後仍然是偽陽性。在該群組的直接可以藥物治療子集中鑑定的真實體細胞突變中，約18%未表現，從而加劇了不準確的治療決定以及治療無效的風險。在這種診斷失敗的背景下，顯然需要改進對真實腫瘤體細胞變體的鑑定。如下面更詳細描述的，透過對腫瘤DNA、種系DNA，以及腫瘤RNA的協同分析完成了這種改進的分析。

基於對僅使用腫瘤基因群組分析的偽陽性的考量，本案發明人試圖證明透過同時定序及分析腫瘤與種系提供的提高的準確度，並且改善了可以將突變鑑定為疾病的潛在驅動因素的置信度。如下面更詳細討論的，本案發明人進行了一項研究以證明 i) 用於治療決策支持的腫瘤的分子特徵可透過以下方式更加精確，其係透過使用患者的正常組織作為對照的生物資訊學分析，即腫瘤-正常DNA定序，以及當與RNA定序結合時，如此鑑定的真實體細胞變體的準確度進一步增強，ii) 來自僅使用腫瘤序列分析的多態性的生物資訊學過濾與腫瘤-正常基因組分析的準確度不配對，iii) 確認任何真正的體細胞突變在mRNA中表現提供了關鍵的第二線證據，即檢測到的體細胞腫瘤突變可能具有致癌驅動因子的作用。

於該實施例中，使用來自45名肺癌患者以及621名患有33種癌症類型的癌症患者的CMS授權覆蓋的含有35個基因的該基因群組的腫瘤及正常種系基因組的DNA定序，以量化源自於使用該僅使用腫瘤定序方法的偽陽性腫瘤體細胞變體的比率。還評估了透過RNA定序對這35個基因的改變的表現分析的準確度的潛在增加。

患者及定序資料：在該實施例中，本案發明人著重於35個基因中的突變分析，這些基因先前已被CMS授權用於醫療保險，以使臨床醫生能夠更好地定義肺癌患者的治療。只有當通過僅使用腫瘤DNA定序及分析 (亦即，不配對的腫瘤以及正常組織)鑑定基因組變體時，CMS才核准使用該基因群組。該方法不直接區分體細胞與種系的改變。該群組包括25個涉及作為體細胞腫瘤驅動因子 (腫瘤驅動基因群組)的基因以及10個已知會影響遺傳性癌症風險的基因 (遺傳風險基因群組)。該腫瘤驅動基因群組包括：ALK、BRAF、CDKN2A、CEBPA、DNMT3A、EGFR、ERBB2、EZH2、FLT3、IDH1、IDH2、JAK2、KIT、KMT2A、KRAS、MET、NOTCH1、NPM1、NRAS、PDGFRA、PDGFRB、PGR、PIK3CA、PTEN、RET。該遺傳風險基因群組包括：APC、BMPR1A、EPCAM、MLH1、MSH2、MSH6、PMS2、POLD1、POLE、STK11。

分析來自621名癌症患者的腫瘤DNA、腫瘤RNA，以及正常DNA的全基因組定序資料，以鑑定可能有助於癌症生長及擴增的體細胞衍生的單核苷酸變體。本實施例包括45名肺癌患者。所有患者都提供了使用本研究中描述的資料的知情同意書。從保存的組織中萃取DNA及RNA，並使用Illumina平台在NantOmics臨床實驗室改進修正 (Clinical Laboratory Improvement Amendments, CLIA)以及認證授權專業 (Certified Authorization Profession, CAP)認證的定序實驗室中進行定序。所用測試的性能特徵包括＞ 95%的靈敏度以及＞ 99%的特異性，以檢測轉錄及表現為RNA的SNVs。對正常種系及腫瘤基因組進行定序以分別讀取約30×及60×的深度。每個腫瘤產生大約3億個RNA定序讀值。

資料分析： DNA定序資料透過BWA與GRCh37 (www.ncbi.nlm.nih.gov/assembly/2758/)比對，透過samblaster進行重複標記，並透過GATK v2.3進行indel重新排列以及鹼基品質重新校準。RNA定序資料透過RSEM預估的蝴蝶結及RNA轉錄物表現進行比對。使用NantOmics Contraster分析管道進行腫瘤與配對正常變異分析以確定體細胞及種系SNVs，插入及缺失，並鑑定該腫瘤基因組的高度擴增區域。

以基礎PhastCons保守評分，來自dbSNP (Build 142)的群體等位基因頻率，以及它們對從RefSeq資料庫下載的基因轉錄物的預測影響 (例如，DNA序列以及蛋白質的變化)註釋小變體。

腫瘤體細胞單核苷酸變異體 (SNVs) 的鑑定： 45個肺癌患者的腫瘤及正常(種系)基因組的全基因組DNA定序導致在與肺癌病因學相關的35個基因的群組中鑑定出802錯義或無義蛋白質-改變的SNVs。該群組包括25個被認為是體細胞腫瘤驅動因子(腫瘤驅動基因群組)的基因，以及已知影響遺傳性癌症風險的10個基因 (遺傳風險基因群組；表 1 )。在該45名肺癌患者中，802個SNVs的總數發生在147個獨特的SNVs位點。所有802變體都存在於該腫瘤基因組中。腫瘤及正常種系DNA序列的生物資訊學分析顯示，746個SNVs中的701個 (94%)源自於該種系，其餘45個SNVs (6%)源自於體細胞組織。將相同的基因群組用於分析具有33種癌症類型的621名癌症患者，腫瘤-正常定序分析導致鑑定出10,704個錯義或無義蛋白質-改變的SNVs。有919個獨特的SNVs位點確定為該10,704個SNVs作出了貢獻。對每個患者的腫瘤及正常種系基因組的分析確定該SNVs的10,149 個(95%)是源自於種系的，而其餘的555個(5%) SNVs是源自於體細胞的。
表 1

針對肺癌患者，僅有7%及3%的SNVs分別來自在腫瘤驅動基因群組及遺傳風險基因群組中的體細胞來源。在所有癌症患者中，針對在腫瘤驅動基因組以及遺傳風險基因組中的基因，代表體細胞變化的SNVs的百分比分別為6%以及3%。預期在已知具有體細胞癌驅動突變的25個基因中觀察到更大百分比的體細胞變體。每個基因中觀察到的SNVs數量存在顯著差異。獨特的SNVs位點的數目與基因蛋白編碼序列的大小強烈相關 (針對所有癌症類型，p-值＜ 10-9，R2 = 0.70)。然而，種系數目、體細胞數目，或總變異數與基因大小之間沒有相關性 (所有p值＞ 0.40)。每個基因與癌症結果之間的關聯程度可能是基因之間觀察到的SNVs計數變化以及每個基因中存在的天然群體遺傳變異的決定因素。此外，患者中富集了特定的癌症驅動因子SNVs。

與總變體相比，少量的獨特變體說明了在癌症患者的研究群體中的許多基因組中觀察到的常見SNVs的存在。在621名癌症患者的樣品中有21個變異，其等位基因頻率＞ 0.02，其中17個為常見的種系SNPs，其中4個為常見的體細胞驅動突變 (2個在KRAS，2個在PIK3CA)。所有21個常見的變異體都存檔於遺傳多態性的單核苷酸多態性資料庫 (dbSNP)中。在所有患者中，919個獨特變異體中的645個 (70%)僅被觀察到一次。三個SNVs均為種系與體細胞來源。

肺癌患者的單獨的腫瘤基因組定序 (不與正常種系基因組比較)將鑑定746個錯義及無義蛋白質-改變的SNVs (表1)。在腫瘤分子譜分析的背景下，歸類為體細胞來源的任何種系來源的SNVs構成偽陽性結果。在沒有對推定的種系變體進行任何過濾的情況下，因為表1中給出的資料，預計偽陽性率約為94%。圖 1 顯示了該45名肺癌患者中可能出現的偽陽性結果的數量，圖 2 顯示了具有三種不同SNVs過濾標準的每個基因的所有621名癌症患者的相同結果，該過濾標準分別為：1) 去除在該dbSNP資料庫中發現的所有SNVs；2) 去除報告的群體等位基因頻率≥0.01 (1%)的所有SNVs；3) 去除報告的群體等位基因頻率 ≥ 0.001 (0.1%)的所有SNVs。 (不具有報告的群體等位基因頻率但為癌症患者中的常見種系SNVs且其存在於dbSNP中的另外三個SNVs也被除去)。使用0.01的等位基因頻率閾值發生最大數量的偽陽性結果。透過將等位基因頻率濾波閾值降低到0.001，大多數基因中的偽陽性數量可以減少一半。大多數公開可用的群體等位基因頻率估計的準確度不超過0.0001，因此群體等位基因頻率閾值的進一步降低對偽陽性SNVs的數量具有名義上的影響。

排除在dbSNP資料庫中存在的所有SNPs導致最低數量的偽陽性SNVs。然而，改善的偽陽性率是以增加的偽陰性率為代價的，因為排除了許多真正的腫瘤體細胞SNVs。排除在dbSNP中存在的所有SNVs導致在45名肺癌患者中觀察到的45個真實腫瘤體細胞變異中的17個偽陰性 (38%)，以及在肺癌患者中555個真實體細胞變體中的245個偽陰性 (44%)。使用0.001等位基因頻率閾值過濾，在肺癌患者中有41個偽陽性結果 (觀察到746個總SNVs中的5%以及過濾後剩餘的86個SNVs中的48%)以及零偽陰性結果。相同的過濾閾值導致554個偽陽性結果 (在過濾後觀察到的10,704個總SNVs中的5%以及在過濾後剩餘的1,107個SNVs中的50%)，且在所有621個癌症患者中的偽陰性結果為零。

僅使用腫瘤定序方法的後果：在過濾以去除群體等位基因頻率≥ 0.001的所有SNVs後，45名肺癌患者中的37名以及621名所有癌症患者中的472名在35個基因的群組中具有至少一個錯義或無義蛋白質-改變的SNVs。過濾後沒有SNVs的7名肺癌患者以及149名患者沒有任何真實的體細胞變異，表示群體等位基因頻率過濾器沒有產生偽陰性結果。圖 3 顯示了肺癌的真陽性 (即腫瘤體細胞SNVs的數目)以及偽陽性SNVs (即遺傳的種系SNVs的數目)之數目，圖 4 顯示了在過濾後剩餘至少一個SNV的所有患者的相同結果。對於肺癌以及所有癌症患者，SNVs的平均數分別為1.91以及1.84。出於呈現之目的，將具有39個體細胞SNVs的一名患者從圖2b中排除。在肺癌患者中，45名患者中的29名 (65%)具有至少一種偽陽性SNVs，且15名患者僅具有偽陽性SNVs (33%)，沒有任何真正的陽性結果。雖然在過濾掉群體等位基因頻率為0.001 (在發現的802個總SNVs中41個偽陽性)之後，在肺癌患者中發現的總SNVs中僅有5%是偽陽性，但SNVs分佈在65%的患者中。發現的該802個SNVs的大多數是由過濾排除掉的常見變體。這些結果突顯出了罕見的種系突變對偽陽性發現率的影響。在完整的研究群體中，621名患者中有365名 (59%)至少有一個偽陽性SNV，得到每名患者平均具有0.91個偽陽性。在621名患者中的193名 (31%)中僅存在偽陽性SNVs，而沒有真正的陽性結果。

偽陽性SNVs可能對患者護理產生直接的不利影響。表 2 顯示了12種可使用藥物的基因，當它們被體細胞突變時以每種基因作為標靶的特異性藥物，以及在每種基因中觀察到具有至少1種偽陽性SNV的患者數量。此外，顯示與每種藥物相關的成本以及可能對健康不利的影響，以說明基於偽陽性結果處方藥物的財務以及臨床意義。僅使用腫瘤序列分析可使患者處於嚴重藥物不良反應的不必要風險，以及處方可能無效的藥物治療的負面影響。
表 2
AF =群體等位基因頻率；全部=患有所有30種癌症類型的患者；LC =僅肺癌患者；ILD =間質性肺病；EFT =胚胎毒性；RVO =視網膜靜脈阻塞；RPED =視網膜色素上皮營養不良；CVA =腦血管意外；MAHA =微血管病性溶血性貧血；GI =胃腸道；LVEF =左心室射出率；MI =心肌梗塞；RPLS =可逆性後部白質腦病症候群；PRES =後部可逆性腦病症候群；HTN =高血壓 (包括高血壓危象)；
a 除非另有說明，否則為30天的平均批發價格。
b 藥物不連續給藥。
c 基於體表面積2.02的單個週期。
d 計劃在21天及7天之後減少。
e 基於14天及14天的時間表。

體細胞單核苷酸變體的表現：可以從26名肺癌患者以及378名所有患者獲得允許評估腫瘤體細胞SNVs表現的RNA定序資料。表 3 顯示了評估的體細胞SNVs的總數，未表現的體細胞SNVs的數量，以及未表現的體細胞SNVs的患者數。顯著百分比的SNVs未表現：肺癌患者中18% (39個SNVs中的7個)以及所有癌症患者中15% (517個SNVs中的75個)。基因之間表現的腫瘤體細胞變體的百分比存在顯著差異。FLT3、PDGFRA、PGR，以及RET中幾乎80%或更多的SNVs在所有癌症患者中均未表現。在研究群體中，9%的肺癌患者 (26名腫瘤RNA定序資料中的6名)以及13%的癌症患者 (378名癌症患者中有51名具有腫瘤RNA定序資料)至少有一名真正的腫瘤體細胞SNVs未在信使RNA中表現。在4個肺癌患者中存在4個腫瘤體細胞SNVs，其在表2中所示的特定藥物的標靶的12個基因中不表現。所有患有腫瘤體細胞SNVs的癌症患者中有33例未在RNA中表現。因此，單獨基於DNA分析的治療決定可能導致無效治療的給藥。
表 3

目前，有兩種基於定序的方法可用於鑑定患者的腫瘤體細胞變異。在第一種方法中，對代表一標靶基因群組、外顯子組，或全基因組的腫瘤DNA進行定序，並根據參考基因組以及在該腫瘤中發現的各個基因組變體的特徵過濾推定的種系變異 (稱為只有腫瘤的分析)。在可觀的等位基因頻率下鑑定群體遺傳資料庫中的基因組變體是用於確定變體是否具有遺傳種系來源的常見過濾標準。如本文所示的第二種且更精確的方法則是使用患者自身的種系基因組作為精確對照 (而非用於過濾的參考基因組)，用於區分遺傳的種系變體與體細胞衍生的變體 (稱為腫瘤-正常分析)。目前CMS核准的用於通知肺癌治療的測試是基於前一種方法，並且特別排除了在確定體細胞變體中使用正常組織 (種系資訊)。

與這兩種方法形成對比，本案發明人分析了來自45個肺癌以及621個總癌症患者的腫瘤及正常DNA定序資料相對於經核准用於CMS覆蓋的僅使用腫瘤基因群組。本研究表明，當以僅使用腫瘤定序以鑑定體細胞變異時，偽陽性率為94% (所有癌症為95%)。即使在利用多種方法從假定的體細胞突變中生物資訊學過濾多態性後，偽陽性率仍然在38%-94%之間。根據所使用的方法，過度嚴格的過濾會導致潛在的漏報。當關注由FDA核准的藥物標靶的12個基因的子集時，鑑定體細胞突變可以為治療決策提供資訊，受偽陽性辨認影響的肺癌患者的百分比範圍為29%-51%，取決於所用的多態性過濾的方法。偽陽性結果的進一步風險源自於鑑定從體細胞組織鑑定的變體，亦即在例如BRCA1、BRCA2，以及ATM的基因中錯誤鑑定為有害 (遺傳)種系變體的真實體細胞突變。在與家族性疾病的種系風險相關的10個基因 (遺傳風險基因群組)中，當以僅使用腫瘤的定序方法時，在10名肺癌患者(11個變體)以及101名總患者 (118個變體)中發現了種系基因的真實體細胞突變。

來自患者的正常種系基因組以及腫瘤基因組的資料的定序及分析消除了與單獨分析腫瘤基因組序列資料相關的偽陽性結果。腫瘤體細胞SNVs有效地告知患者治療的可能性取決於DNA變體作為信使RNA的表現，然後轉譯為蛋白質。腫瘤的RNA定序提供關於癌症驅動基因的相對表現量的有價值資訊，以及特定腫瘤體細胞變體的基因表現。本研究中的RNA表現分析顯示，從肺癌患者的腫瘤/正常定序中鑑定出18%的真實體細胞突變，以及所有癌症患者有15%的真實體細胞突變，皆未表現到信使RNA含量。在該研究群體中，這些結果可能影響9%的肺癌患者以及13%的癌症患者的臨床決策。本文提供的結果進一步證明了與來自腫瘤/正常DNA定序加上RNA定序的藥物標靶的分子分析的提高準確度相關的優點。

鑑於上述情況，因此應當理解的是，正常種系基因組與腫瘤基因組兩者的DNA的同時定序及生物資訊學分析對於準確鑑定癌症治療的分子標靶是必需的。僅分析腫瘤基因組導致SNV鑑定中的高偽陽性率。透過同時進行腫瘤-正常DNA及RNA定序分析，可以獲得更高的準確度。基於僅使用腫瘤的DNA分析或在沒有RNA分析的情況下的治療決定可能導致無效治療的施用，同時還增加了與藥物相關的負面副作用的風險。當用於指導臨床決策時，僅使用腫瘤基因群組分析的方法可能增加患者承擔的風險，導致潛在的長期負面健康後果，並增加醫療成本。
實施例 2

在本實施例中，本案發明人含括了具有11種胃腸 (gastrointestinal, GI)癌症類型的204名癌症患者，其具有腫瘤及正常基因組的全基因組定序。如下所示，在具有45個基因的一基因群組中測量錯義及無義單核苷酸變體 (SNVs)的真陽性(真實體細胞變體)以及偽陽性(真實種系變體預估為體細胞變體)比率。該45個基因的群組包括26個已知的體細胞驅動基因，14個遺傳的癌症風險基因，其中5個基因可以作為體細胞腫瘤驅動因子以及遺傳風險基因。204名患者中有139名可獲得RNA定序。使用公認且公開的生物資訊學方法進行序列比對以及SNV變體辨認。在較佳的方法中，BAMBAM使用DNA及RNA序列以同步及遞增地比對並鑑定SNV。

結果：從僅定序腫瘤基因組中鑑定的92%的SNVs具有種系來源及潛在的偽陽性而非真正的體細胞變體 (體細胞 =真正的體細胞變體；種系=真正的種系變體)。參閱圖 5A 及 5B 。值得注意的是，使用具有報告的群體等位基因頻率≥0.001的公共資料庫過濾所有SNVs仍然導致41%的偽陽性率 (體細胞 =真正的體細胞變體；種系=真正的種系變體)。參閱圖 6A 及 6B 。在過濾等位基因頻率 (體細胞=真體細胞變體；種系=真種系變體)後，71%的GI患者具有至少一個偽陽性SNV (種系)，如圖 7 所示。此外，RNA分析顯示10%的真實體細胞變體未表現，且17%的患者具有至少一種未表現但可從圖 8 中獲得的真實的體細胞變體。

因此應當理解的是，對腫瘤基因組進行定序鑑定了遺傳種系來源以及腫瘤體細胞來源的所有SNVs，其中大部分為種系來源的。雖然群體等位基因頻率以及其他參數可用於過濾SNV資料並預估體細胞對上種系來源，但這種過濾對於臨床使用而言不夠準確。此外，應當理解的是，正常種系基因組以及腫瘤基因組的DNA的同時定序及生物資訊學分析對於準確鑑定分子標靶是必需的。僅對腫瘤基因組的分析導致偽陽性結果。透過同時腫瘤-正常DNA及腫瘤RNA定序分析達成更高的準確度。基於僅使用腫瘤的DNA分析或缺乏RNA資訊的治療決定可能導致無效治療的施用，同時也增加了與藥物相關的負面副作用的風險。
實施例 3

在本實施例中，本案發明人目的在於以一種具有50個基因的常用的熱點群組比較腫瘤體細胞辨認的準確性及精確度，並分析單獨的腫瘤組織對上同時分析腫瘤DNA與正常種系DNA及腫瘤RNA。具體而言，在本實施例中，獲得來自具有42種癌症類型的1879名癌症患者的腫瘤樣品及配對的正常樣品，並產生這些組織的全基因組定序資料或全外顯子組定序資料。群組的人口統計概述如以下表 4 所示，而由不同癌症類型定序的分析物的數量則如圖 9 所示 (針對DNA及/或RNA定序的樣品的數量)。表4中N＜10的癌症 (或圖9中的其他癌症類型)包括皮膚(非黑色素瘤)、間皮瘤、睾丸、膽管 (肝外)、肛門、vater氏管的壺腹、白血病、陰道、骨髓瘤、小腸、外陰、陰莖、尿道癌。
表 4

根據腫瘤組織的基因組定序資料，本案發明人確定所有患者具有至少一種種系單核苷酸變體(共30955個單核苷酸變體)。然後，本案發明人量化了從比較該腫瘤及配對的正常組織的基因組定序資料所鑑定的所有單核苷酸變體(包括種系來源以及腫瘤體細胞來源的那些變體)的數量。在1879名患者中有1127名 (65%)具有至少1種體細胞單核苷酸變體 (共308721個)。1135名患者的分析物用來分析配對的DNA/RNA，其中的741名 (65%)具有至少1種體細胞單核苷酸變體 (共198844個)，在配對的DNA/RNA分析的患者中產生了1775種獨特的單核苷酸變異。如圖 10 所示，從單獨定序腫瘤基因組中鑑定的92%的單核苷酸變體具有種系來源，表示從單獨定序腫瘤基因組鑑定的大多數單核苷酸變體可能是偽陽性而非真正的體細胞變體。

本案發明人使用群體等位基因頻率以及其他參數 (例如，已知的種系變體，gnomAD)進一步過濾來自僅定序腫瘤基因組的鑑定的單核苷酸變體，以確定單核苷酸變體(種系來源與腫瘤體細胞來源)的比率。如圖 11 所示，使用gnomAD過濾從僅定序腫瘤基因組鑑定的所有單核苷酸變體，且報告的等位基因頻率≥0.001。本案發明人發現過濾後的偽陽性率降低至34%。然而，本案發明人認為這種偽陽性率對於這種資料的任何臨床使用都不夠準確。

此外，本案發明人發現並非所有腫瘤體細胞來源的單核苷酸變體都在RNA中表現，表示使用RNA表現分析進一步過濾對於獲得所有鑑定的單核苷酸變體中的真實體細胞單核苷酸變體是必需的。如圖 12 及圖 13 所示，15%的錯義/無義體細胞單核苷酸變體 (如圖12中所示)以及17%的所有體細胞單核苷酸變體 (錯義/無義/同義)皆未表現。此外，本案發明人發現在本實施例中23%的癌症患者具有至少一種未表現的體細胞單核苷酸變體 (無義/錯義)。根據這些資料，本案發明人認為對正常種系基因組以及腫瘤基因組的DNA進行同時定序及生物資訊學分析對於準確鑑定分子標靶是必需的，因為僅對腫瘤基因組的分析導致高偽陽性體細胞變體辨認，且在使用鑑定的單核苷酸變體或具有單核苷酸變體的基因作為分子標靶時，缺乏RNA表現的貢獻可能小於臨床益處。從不同的角度來看，透過正常種系基因組以及腫瘤基因組兩者的DNA的同時定序及生物資訊學分析，可以在基因之間鑑定腫瘤治療及/或可以藥物治療的標靶時達到更高的準確度及/或改進的腫瘤狀態測試演算法。

如本文的描述及隨後的申請專利範圍中所使用的，“一”、“一個”以及“該”的含義包括複數指示物，除非上下文另有明確說明。此外，如在本文的描述中所使用的，除非上下文另有明確規定，否則“在...中”的含義包括“在…中”以及“在…上”。除非上下文指示相反，否則本文所述之所有範圍應解釋為包括其端點，且開放式範圍應解釋為包括商業實用數值。同樣地，除非上下文指出相反之情況，否則應將所有數值列表視為包含中間值。

此外，除非本文另有說明或上下文明顯矛盾，否則本文所述之所有方法均可以任何合適的順序進行。關於本文的某些實施例提供的任何及所有實施例或示例性語言 (例如“諸如”)的使用目的僅在於更好地說明本發明，而非對要求保護的本發明之範圍構成限制。說明書中的任何語言都不應被解釋為表示對於實施本發明為必要的任何未要求保護的元件。

本文公開之本發明的替代元件或具體實施例之群組不應解釋為限制。每個群組成員可以單獨地或與該群組中的其他成員或本文中找到的其他元件任意組合地被提及以及被要求保護。出於方便及/或可專利性之原因，可以將一群組的一或多個成員包括在一群組中或從一群組中刪除。當發生任何這樣的包含或刪除時，本說明書在此被認為包含經修改的群組，從而實現所附申請專利範圍中使用的所有馬庫西群組之書面描述。

對於本領域技術人員顯而易見的是，在不脫離本文的發明構思之情況下，除了已經描述的那些以外的更多修改是可能的。因此，除了所附之申請專利範圍的範圍之外，本發明的主題不受限制。此外，在解釋說明書及申請專利範圍時，所有術語應以與上下文一致的最廣泛之方式解釋。特別是，術語“包括”以及“包含”應被解釋為以非排他的方式指代元件、組件或步驟，指示所引用的元件、組件或步驟可以存在，或者被利用，或者與未明確引用的其他元件、組件或步驟組合。如本文的描述及隨後的申請專利範圍中所使用的，“一”、“一個”以及“該”的含義包括複數指示物，除非上下文另有明確說明。此外，如在本文的描述中所使用的，除非上下文另有明確規定，否則“在...中”的含義包括“在…中”以及“在…上”。當說明書申請專利範圍涉及選自由A、B、C…以及N所組成之群組中的至少一種時，該文字應解釋為只需要該群組中的一個元件，而非A加N，或B加N等。

圖 1 為描繪在實施例1中測試的45名肺癌患者中本將發生的偽陽性結果之數量的圖。

圖 2 為描繪在實施例1中測試的所有癌症患者中本將發生的偽陽性結果之數量的圖。

圖 3 為描繪在實施例1中測試的45名肺癌患者的真陽性及偽陽性SNVs之數量的圖。

圖 4 為描繪在實施例1中測試的所有癌症患者的真陽性及偽陽性SNVs之數量的圖。

圖 5A-5B 為描繪在實施例2中由胃腸癌患者鑑定的SNVs的體細胞及種系來源之數量的圖。

圖 6A-6B 為描繪在實施例2中由基因以等位基因頻率過濾的真陽性及偽陽性SNVs之數量的圖。

圖 7 為描繪在實施例2中由患者以等位基因頻率過濾的真陽性及偽陽性SNVs之數量的圖。

圖 8 為描繪在實施例2中由RNA表現分析鑑定的胃腸癌患者中的真陽性及偽陽性SNVs之數量的圖。

圖 9 為描繪在實施例3中由腫瘤類型分析基因組學及/或轉錄組學資料的腫瘤樣品之數量的圖。

圖 10 為描繪在實施例3中在各種類型的癌症患者中鑑定的SNVs的體細胞及種系來源的圖。

圖 11 為描繪在實施例3中以等位基因頻率過濾的真陽性及偽陽性SNVs的圖。

圖 12 為描繪在實施例3中表現或不表現的錯義/無義SNVs之數量的圖。

圖 13 為描繪在實施例3中表現或不表現的體細胞SNVs之數量的圖。

Claims

一種提高鑑定患有一腫瘤的一患者體內一真實體細胞單核苷酸的準確度之方法，包括：從一腫瘤樣品與一患者的一配對的正常樣品中獲得DNA定序資料，並進一步從該腫瘤樣品中獲得RNA定序資料；確定相對於該配對的正常樣品，在該腫瘤樣品中DNA單核苷酸變體的存在；使用該RNA定序資料確定該DNA單核苷酸變體之表現；以及基於該單核苷酸變體的存在及表現，將至少一種DNA單核苷酸變體鑑定為與該患者的癌症狀態相關。
如申請專利範圍第1項之方法，其中該DNA定序資料為全基因組DNA定序資料。
如申請專利範圍第1項之方法，其中該腫瘤組織的該DNA定序資料具有一至少50x的讀值深度。
如申請專利範圍第1項之方法，其中該配對的正常組織的該DNA定序資料具有一至少30x的讀值深度。
如申請專利範圍第1項之方法，其中該確定該DNA單核苷酸變體的存在的步驟係使用來自該腫瘤樣品與該配對的正常樣品的該DNA定序資料的位置引導同步比對所進行的。
如申請專利範圍第1項之方法，進一步包括使用該DNA單核苷酸變體的等位基因頻率過濾該DNA單核苷酸變體。
如申請專利範圍第1項之方法，其中該確定該DNA單核苷酸變體的存在係使用具有多個腫瘤相關基因的參考序列的電腦模擬基因群組所進行的。
如申請專利範圍第7項之方法，其中該電腦模擬基因群組為癌症類型特異性的。
如申請專利範圍第8項之方法，其中該腫瘤相關基因係選自由以下所組成之群組：ABL1、EGFR、GNAS、KRAS、PTPN11、AKT1、ERBB2、GNAQ、MET、RB1、ALK、ERBB4、HNF1A、MLH1、RET、APC、EZH2、HRAS、MPL、SMAD4、ATM、FBXW7、IDH1、NOTCH1、SMARCB1、BRAF、FGFR1、JAK2、NPM1、SMO、CDH1、FGFR2、JAK3、NRAS、SRC、CDKN2A、FGFR3、IDH2、PDGFRA、STK11、CSF1R、FLT3、KDR、PIK3CA、TP53、CTNNB1、GNA11、KIT、PTEN、VHL。
如申請專利範圍第1項之方法，其中該確定該DNA單核苷酸變體的表現包括測量該DNA單核苷酸變體的RNA表現量並且與一預定閾值比較。
如申請專利範圍第10項之方法，進一步包括基於該RNA表現量以對該DNA單核苷酸變體進行分級。
如申請專利範圍第10項之方法，進一步包括基於與該預定閾值的比較以將該DNA單核苷酸變體分類為一“表現組”或一“非表現組”。