TW201928797A

TW201928797A - 針對標靶定序的定點雜訊模型

Info

Publication number: TW201928797A
Application number: TW107135454A
Authority: TW
Inventors: 亞歷山大Ｗ布洛克; 艾爾胡貝爾
Original assignee: 美商格瑞爾公司
Priority date: 2017-10-06
Filing date: 2018-10-08
Publication date: 2019-07-16
Also published as: TWI781230B; CN111164701A; EP3676846A1; US20190108311A1; WO2019071219A1

Abstract

一種處理系統，其使用基於貝氏推論(Bayesian inference)之針對標靶定序或變體辨認的模型。在一個實施例中，該處理系統確定第一序列片段之第一深度及第一交替深度，該第一序列片段來自受試者之無細胞核酸樣本。該處理系統確定第二序列片段之第二深度及第二交替深度，該第二序列片段來自該受試者之基因核酸樣本。該處理系統確定該無細胞核酸樣本及該基因核酸樣本之真交替頻率的可能性。使用該第一可能性、該第二可能性及一或多個參數，該處理系統確定以下之可能性：該無細胞核酸樣本之該真交替頻率大於該基因核酸樣本之該真交替頻率的函數。

Description

針對標靶定序的定點雜訊模型

此揭示內容大體關於基於貝氏推論(Bayesian inference)之針對標靶定序的模型，且關於該模型在變體辨認及品質控制中之使用。

計算技術可用於DNA定序資料以識別DNA中可能與各種類型之癌症或其他疾病對應的變異或變體。因此，癌症診斷或預測可能藉由分析諸如組織生檢或取自受試者之血液的生物樣本而進行。難以檢測源於血液樣本之腫瘤細胞的DNA，此係因為相對於取自血液之無細胞DNA (cfDNA)中之其他分子，循環腫瘤DNA (ctDNA)通常以低含量存在。現存方法無法自信號雜訊識別真陽性(例如，指示受試者中之癌症)，削弱已知系統及未來系統區分真陽性與雜訊源產生之偽陽性的能力，其可導致變體辨認或其他類型之分析的不可靠結果。

本文揭示用於訓練及應用定點雜訊模型(本文亦稱為「貝氏階層式模型」、「雜訊模型」或「模型」)以確定標靶定序中真陽性之可能性的方法。真陽性可能包括鹼對之單核苷酸變體、插入或缺失。特定而言，模型可能使用貝氏推論以確定雜訊比或雜訊級，例如，指示核酸序列之每個位置的某些變異之預計可能性。此外，模型可能係造成共變量(例如，三核苷酸背景、作圖性或區段式複製)及各種類型之參數(例如，序列片段之混合組分或深度)的階層式模型。模型可能藉由取樣自健康受試者之序列片段的馬可夫鏈蒙地卡羅(Markov chain Monte Carlo)加以訓練。因此，併入模型之總管線可以較高敏感度識別真陽性且濾除假陽性。

在各種實施例中，用於處理核酸樣本之定序資料的方法包括識別複數個序列片段之候選變體。方法進一步包括存取複數個參數，包括針對候選變體之分散度參數r 及平均率參數m ，其中r 及m 係使用模型導出。方法進一步包括將複數個序列片段之片段資訊輸入至由複數個參數參數化之函數中。方法進一步包括使用基於輸入片段資訊之函數的輸出結果確定候選變體之分數。

在一或多個實施例中，複數個參數代表γ分佈之平均及形狀參數，且函數係基於複數個序列片段及複數個參數之負二項。

在一或多個實施例中，複數個參數代表分佈之參數，該分佈關於序列片段之給定位置而編碼不確定水平之核苷酸變異。

在一或多個實施例中，γ分佈係分佈之混合物的一個組分。

在一或多個實施例中，從來自複數個健康個體之序列片段的訓練樣本中導出複數個參數。

在一或多個實施例中，訓練樣本不包括一小組來自基於篩選標準之複數個健康個體的序列片段。

在一或多個實施例中，篩選標準表示不包括具有以下之序列片段：(i)小於閾值之深度或(ii)大於臨界頻率之等位基因頻率。

在一或多個實施例中，篩選標準基於候選變體在基因組中之位置而改變。

在一或多個實施例中，使用貝氏階層式模型導出複數個參數。

在一或多個實施例中，貝氏階層式模型包括多項分佈，其將序列片段之位置分組至潛在類別中。

在一或多個實施例中，貝氏階層式模型包括與來自健康個體之訓練樣本無關的固定共變量。

在一或多個實施例中，共變量係基於複數個鄰近序列片段之給定位置的核苷酸。

在一或多個實施例中，共變量係基於與基因組之標靶區相關之給定序列片段的獨特程度。

在一或多個實施例中，共變量係基於給定序列片段是否為區段式複製。

在一或多個實施例中，使用馬可夫鏈蒙地卡羅方法評估貝氏階層式模型。

在一或多個實施例中，馬可夫鏈蒙地卡羅方法使用梅特羅波利斯-黑斯廷斯算法(Metropolis-Hastings algorithm)。

在一或多個實施例中，馬可夫鏈蒙地卡羅方法使用吉布斯取樣算法(Gibbs sampling algorithm)。

在一或多個實施例中，馬可夫鏈蒙地卡羅方法使用哈密頓力學(Hamiltonian mechanics)。

在一或多個實施例中，片段資訊包括複數個序列片段之深度d、由m ·d 參數化之函數。

在一或多個實施例中，分數係弗雷德定級可能性(Phred-scaled likelihood)。

在一或多個實施例中，自獲自個體之無細胞核苷酸樣本獲得複數個序列片段。

在一或多個實施例中，方法進一步包括自個體之血液樣本收集或已收集無細胞核苷酸樣本，且在無細胞核苷酸樣本上進行濃化以生成複數個序列片段。

在一或多個實施例中，複數個序列片段係獲自個體之血液、全血、血漿、血清、尿液、腦脊髓液、糞便、唾液、淚液、組織生檢、胸膜液體、心包膜液或腹膜液體之樣本。

在一或多個實施例中，自獲自腫瘤生檢之腫瘤細胞獲得複數個序列片段。

在一或多個實施例中，複數個序列片段係定序自血液之細胞分離物，細胞分離物包括至少膚色血球層白血球或CD4+細胞。

在一或多個實施例中，方法進一步包括確定候選變體係偽陽性變異，其對分數與閾值之比較作出回應。

在一或多個實施例中，候選變體係單核苷酸變體。

在一或多個實施例中，針對A、T、C及G之一個鹼基向其他三個鹼基之各者的變異，該模型編碼核苷酸變異之雜訊等級。

在一或多個實施例中，候選變體係至少一個核苷酸之插入或缺失。

在一或多個實施例中，模型包括插入或缺失之長度分佈。

在一或多個實施例中，模型區分用於確定交替等位基因之可能性的推論與用於使用長度分佈確定交替等位基因之長度的推論。

在一或多個實施例中，長度分佈係具有狄利克雷先驗(Dirichlet prior)之多項式。

在一或多個實施例中，長度之多項分佈上的狄利克雷先驗係藉由基因組之錨位的共變量而確定。

在一或多個實施例中，模型包括基於共變量而確定之分佈ω 。

在一或多個實施例中，模型包括基於基因組之共變量及錨位而確定之分佈ϕ 。

在一或多個實施例中，模型包括多項分佈，其將序列片段之錨位處的插入或缺失的長度分組至潛在類別中。

在一或多個實施例中，給定錨位處之插入或缺失的預計平均總數係藉由基於基因組之共變量及錨位的分佈而建模。

I.定義

術語「個體」指代人類個體。術語「健康個體」指代預計不患有癌症或疾病之個體。術語「受試者」指代已知患有或潛在患有癌症或疾病之個體。

術語「序列片段」指代獲自個體之樣本的核苷酸序列片段。序列片段可藉由本領域中已知的各種方法獲得。

術語「片段(read segment/read)指代任何包括以下之核苷酸序列：獲自個體之序列片段及/或衍生自獲自個體之樣本的初始序列片段之核苷酸序列。舉例而言，片段可指代對齊之序列片段、分裂之序列片段或縫合之片段。此外，片段可指代單獨核苷酸鹼基，諸如單一核苷酸變體。

術語「單一核苷酸變體」或「SNV」指代在核苷酸序列(例如，來自個體之序列片段)之位置(例如，位點)處將一個核苷酸取取代為不同核苷酸。自第一核鹼基X向第二核鹼基Y之取代可能稱為「X＞Y」。舉例而言，胞嘧啶向胸腺嘧啶SNV可能稱為「C＞T」。

術語「插入或缺失」指代序列片段中具有長度及位置(其亦可稱為錨位)之一或多個鹼基對的任何插入或缺失。插入相對於正長度，而缺失相對於負長度。

術語「變異」指代一或多個SNV或插入或缺失。

術語「候選變體」、「辨認之變體」或「推定變體」指代一或多個例如在絕對變異之基因組(亦即，候選SNV)中之位置處偵測之核苷酸序列的核苷酸變體，或一或多個鹼基處之插入或缺失(亦即，候選插入或缺失)。大體而言，核苷酸鹼基視為辨認之變體，其基於序列片段或分裂之片段上替代等位基因的存在，其中核苷酸鹼基位於不同於參考基因組中之核苷酸鹼基的位置處。此外，候選變體可稱為真陽性或偽陽性。

術語「真陽性」指代表示真實生物學之變異，例如個體中存在潛在癌症、疾病或生殖系列變異。真陽性並非可能模仿真實生物學之人為現象。舉例而言，健康個體中之頻發明顯變體可能係技術人為現象而非生物學現象，且各種處理錯誤可導致虛假變體。

術語「偽陽性」指代未正確確定為真陽性之變異。大體而言，偽陽性可能更傾向於在處理與更高平均雜訊率或雜訊率中更高不確定性相關之序列片段時出現。

術語「無細胞核酸」或「cfNA」指代可發現於細胞外部之核酸分子，其發現於諸如血液、汗液、尿液或唾液之體液中。無細胞核酸可與循環核酸互換使用。

術語「無細胞DNA」或「cfDNA」指代循環於諸如血液、汗液、尿液或唾液之體液中且源自一或多個健康細胞及/或源自一或多個癌症細胞之核酸片段。

術語「循環腫瘤DNA」或「ctDNA」指代源自腫瘤細胞或其他類型之癌症細胞的去氧核糖核酸片段，其可能釋放至諸如血液、汗液、尿液或唾液之個體體液中，該等片段源自諸如死亡細胞之細胞凋亡或壞死之生物過程或由可存活之腫瘤細胞主動釋放。

術語「循環腫瘤RNA」或「ctRNA」指代源自腫瘤細胞或其他類型之癌症細胞的核糖核酸，其可能釋放至諸如血液、汗液、尿液或唾液之個體體液中，該等片段源自諸如死亡細胞之細胞凋亡或壞死之生物過程或由可存活之腫瘤細胞主動釋放。

術語「替代等位基因」或「ALT」指代相對於參考等位基因、例如對應於已知基因，具有一或多個變異之等位基因。

術語「定序深度」或「深度」指代在給定位置、區域或位點處，獲自個體之樣本的片段總數。在一些實施例中，深度指代基因組中或標靶定序板中之平均定序深度。

術語「交替深度」或「AD」指代支持ALT之樣本(例如，包括ALT之變異)中之許多片段。

術語「交替頻率」或「AF」指代給定ALT之頻率。AF可能藉由使樣本之相應AD除以給定ALT之樣本的深度而確定。
II.例示性分析協議

圖1係方法100之流程圖，該方法用於根據一個實施例製備用於定序之核酸樣本。方法100包括(但不限於)以下步驟。舉例而言，方法100之任何步驟可能包含用於品質控制或本領域中之一名技術者已知的其他實驗室分析程序之定量子步驟。

在步驟110中，自受試者獲得包含複數個核酸分子(DNA或RNA)之測試樣本，且自測試樣本提取及/或純化核酸。在本揭示內容中，除非另外指示，否則DNA與RNA可能互換使用。亦即，針對在變體辨認及品質控制中使用錯誤源資訊之以下實施例可能同時適用於核酸序列之DNA及RNA類型。然而，出於清晰及解釋目的，本文所述之實例可能集中於DNA。提取之樣本中之核酸可能包含完整人類基因組，或人類基因組之任何子集，包括全外顯子。或者，樣本可能係人類轉錄組之任何子集，包括全轉錄組。可能自已知患有或疑似患有癌症之受試者獲得測試樣本。在一些實施例中，測試樣本可能包括血液、血漿、血清、尿液、糞便、唾液、其他類型之體液或其任何組合。或者，測試樣本可能包含選自由以下組成之組的樣本：全血、血液部分、組織生檢、胸膜液體、心包膜液、腦脊髓液體及腹膜液體。在一些實施例中，用於提取血液樣本之方法(例如，注射器或手指刺破)的侵入性可能比用於獲得組織生檢之程序更小，該等程序可能需要手術。提取之樣本可能包含cfDNA及/或ctDNA。對於健康個體，人體可能自然清除cfDNA及其他細胞殘渣。大體而言，本領域中之任何已知方法可用於自測試樣本提取且純化無細胞核酸。舉例而言，可使用一或多種已知的市售協議或套組、諸如QIAamp循環核酸套組(Qiagen)提取且純化無細胞核酸。若受試者患有癌症或疾病，提取之樣本中的ctDNA可能以診斷可偵測之量存在。

在步驟120中，製備定序庫。在庫製備期間，例如藉由轉接體連接(使用T4或T7 DNA連接酶)或本領域中已知的其他方式將包含獨特分子識別物(UMI)之定序轉接體添加至核酸分子(例如，DNA分子)。UMI係短核酸序列(例如，4-10個鹼基對)，其添加至DNA片段之端部且用作獨特標記，該等標記可用於識別源自特定DNA片段之核酸(或序列片段)。在添加轉接體後，例如使用聚合酶鏈反應(PCR)擴增轉接體-核酸建構。在PCR擴增期間，UMI與相連DNA片段一同複製，其在下游分析中提供識別來自相同原始片段之序列片段的方式。可選擇地，如本領域中所熟知，定序轉接體可能進一步包含通用引物、樣本特異性條碼(用於多工)及/或一或多個用於後續成簇及/或定序(例如，已知P5及P7序列，用於藉由合成之定序(SBS) (Illumina, San Diego, CA))之定序寡核苷酸。

在步驟130中，自該庫使標靶DNA序列濃化。根據一個實施例，在標靶濃化期間，雜交探針(本文亦稱為「探針」)用於標靶且拉下已知或可能指示癌症(或疾病)之存在或不存在、癌症狀態或癌症類別(例如，癌症類型或原始組織)之核酸片段。對於給定工作流，可能設計探針用以退火(或雜交)為標靶(互補)DNA或RNA股。標靶股可能係「陽性」股(例如，轉錄為mRNA且隨後轉譯為蛋白質之股)或互補「陰性」股。探針範圍可能係10個、100個或1000個鹼基對之長度。在一個實施例中，基於基因板設計探針以分析(例如，人類或其他有機體之)基因組的特定變異或標靶區，該等變異或標靶區疑似對應於特定癌症或其他類型之疾病。此外，探針可能覆蓋標靶區之重疊部分。如本領域中之技術者之一將易於理解，本領域中之任何已知方式均可用於標靶濃化。舉例而言，在一個實施例中，探針可能係生物素化且包覆有鏈親和素之磁性小珠，其用於濃化探針捕獲之標靶核酸。參見例如Duncavage等人, J Mol Diagn. 13(3): 325-333 (2011)；及Newman等人, Nat Med. 20(5): 548-554 (2014)。藉由使用標靶基因板而非定序全基因組(「全基因組定序」)、基因組之所有表現基因(「全外顯子定序」或「全轉錄組定序」)，方法100可能用於增加標靶區之定序深度，其中深度指代已定序之樣本內給定標靶序列之次數的計數。定序深度增加允許偵測樣本中之罕見序列變體，且/或增加定序製程之通量。在雜交步驟後，捕獲雜交之核酸片段，且亦可使用PCR使其擴增。

在步驟140中，序列片段產生自濃化核酸分子(例如，DNA分子)。定序資料或序列片段可能藉由本領域中已知的方式獲自濃化核酸分子。舉例而言，方法100可能包括次世代定序(NGS)技術，其包括合成技術(Illumina)、焦磷酸根定序法(454 Life Sciences)、離子半導體技術(Ion Torrent sequencing)、單分子實時定序(Pacific Biosciences)、接合性定序(SOLiD sequencing)、奈米孔定序(Oxford Nanopore Technologies)或雙端定序。在一些實施例中，使用具有可逆染料終止物之合成定序進行大規模並行定序。

在各種實施例中，向定序器145提供濃化核酸樣本115用以定序。如圖1中所示，定序器145可包括：圖形用戶界面150，其使用戶能夠與特定任務互動(例如，開始定序或終止定序)；以及再一個裝載盤155，其用於提供濃化片段樣本及/或必要緩衝劑以進行定序分析。因此，一旦用戶已向定序器145之裝載盤155提供必要試劑及濃化片段樣本，用戶可藉由與定序器145之圖形用戶界面150互動而開始定序。在步驟140中，定序器145進行定序且輸出來自核酸樣本115之濃化片段的序列片段。

在一些實施例中，定序器145與一或多個計算裝置160通信耦合。各計算裝置160可處理序列片段用以各種應用，諸如變體辨認或品質控制。定序器145可能向計算裝置160提供呈BAM檔案格式之序列片段。各計算裝置160可為以下中之一者：個人電腦(PC)、桌上型電腦、膝上型電腦、筆記型電腦、平板PC或移動裝置。計算裝置160可藉由無線、有線或無線與有線通信技術之結合而與定序器145通信耦合。大體而言，計算裝置160配置有處理器及記憶體，該記憶體儲存電腦指令，當處理器執行該等指令時，導致處理器處理序列片段或進行本文揭示之方法或製程之任一者的一或多個步驟。

在一些實施例中，序列片段可能使用本領域中之已知方法與參考基因組比對以確定比對位置資訊。舉例而言，在一個實施例中，序列片段與人類參考基因組hg19比對。人類參考基因組hg19之序列可以參考數GRCh37/hg19獲自Genome Reference Consortium，且亦可獲自由Santa Cruz Genomics Institute提供之Genome Browser。比對位置資訊可能表示參考基因組中之區域的開始位置及結束位置，該等位置對應於給定序列片段之開始核苷酸鹼基及結束核苷酸鹼基。比對位置資訊亦可包括序列片段長度，其可由開始位置及結束位置確定。參考基因組中之區域可能與基因或基因之片段相關。

在各種實施例中，例如在使用末端配對定序製程時，序列片段係由指示為及之片段對構成。舉例而言，第一片段可能定序自雙股DNA (dsDNA)分子之第一末端，而第二片段可能定序自雙股DNA (dsDNA)之第二末端。因此，第一片段及第二片段之核苷酸鹼基對可能與參考基因組之核苷酸鹼基比對一致(例如，反向)。衍生自片段對及之比對位置資訊可能包括：參考基因組中之開始位置，其對應於第一片段(例如，)之末端；及參考基因組中之結束位置，其對應於第二片段(例如，)之末端。換言之，參考基因組中之開始位置及結束位置表示核酸片段所對應之參考基因組中的可能位置。可能產生具有SAM (序列比對圖)格式或BAM (二進制)格式之輸出文檔，且輸出結果用於諸如變體辨認之進一步分析，如下文關於圖2所描述。
III.例示性處理系統

圖2係處理系統200之方塊圖，該系統用於根據一個實施例處理序列片段。處理系統200包括序列處理器205、序列資料庫210、模型資料庫215、機器學習引擎220、模型225 (例如，「貝氏階層式模型」)、參數資料庫230、評分引擎235及變體辨認器240。圖3係方法300之流程圖，該方法用於根據一個實施例確定序列片段之變體。在一些實施例中，處理系統200執行方法300以基於輸入定序資料而進行變體辨認(例如，針對SNV及/或插入或缺失)。此外，處理系統300可能自與使用上述方法100製備之核酸樣本相關之輸出文檔獲得輸入定序資料。方法300包括(但不限於)以下步驟，其關於處理系統200之組分進行描述。在其他實施例中，方法300之一或多個步驟可能由用於產生變體辨認之不同製程的步驟替換，例如，使用變體辨認格式(VCF)，諸如HaplotypeCaller、VarScan、Strelka或SomaticSniper。

在步驟300中，序列處理器205視情況破壞輸入定序資料之比對序列片段。在一個實施例中，分裂序列片段包括使用UMI及視情況來自輸出文檔(例如，來自圖1中所示方法100)之定序資料的比對位置資訊以識別多個序列片段(亦即，衍生自相同初始核酸分子)且將其分裂成一致序列。根據此步驟，一致序列係確定自衍生自相同初始核酸分子或其部分之多個序列片段，該初始核酸分子代表初始分子之最相似的核酸序列。因為UMI序列藉由定序庫之PCR擴增得以複製，故而序列處理器205可確定特定序列片段源自核酸樣本中之相同分子。在一些實施例中，分裂具有相同或相似比對位置資訊(例如，閾值偏移內之開始及結束位置)且包括共有UMI之序列片段，且序列處理器205產生分裂序列(本文中亦稱為一致片段)以表示核酸片段。在一些實施例中，若序列片段(亦即，及)或分裂之序列片段之相應對具有共有UMI，則序列處理器205將一致片段指定為「雙螺旋」，其表示已捕獲初始核酸分子之正鏈及負鏈；否則，分裂之片段指定為「非雙螺旋」。在一些實施例中，作為分裂之序列片段的替代性做法或除此以外，序列處理器205可能在序列片段上進行其他類型之錯誤更正。

在步驟305中，基於相應比對位置資訊將兩個序列片段合併為單個片段，序列處理器205可能視情況縫合序列片段或分裂之序列片段。在一些實施例中，序列處理器205比較第一序列片段與第二序列片段(或分裂之序列片段)之間的比對位置資訊，從而確定第一與第二片段之核苷酸鹼基對是否在參考基因組中部分重疊。在一個使用情況中，作為確定第一與第二片段之間的重疊(例如，給定數目之核苷酸鹼基)大於臨界長度(例如，核苷酸鹼基之臨界數目)之回應，序列處理器205將第一及第二片段指定為「縫合的」；否則，分裂之片段指定為「未縫合的」。在一些實施例中，若重疊大於臨界長度且若重疊並非係移動重疊，則第一及第二片段係縫合的。舉例而言，移動重疊可能包括均聚物段(例如，單個重複核苷酸鹼基)、二核苷酸段(例如，雙核苷酸重複鹼基序列)或三核苷酸段(例如，三核苷酸重複鹼基序列)，其中均聚物段、二核苷酸段或三核苷酸段具有至少臨界長度之鹼基對。

在步驟310中，序列處理器205可能視情況將兩個或更多個片段組裝為合併序列片段(或覆蓋標靶區之路徑)。在一些實施例中，序列處理器205組裝片段以生成標靶區(例如，基因)之有向圖，例如德布魯因圖(de Bruijn graph)。有向圖之單向邊緣代表標靶區中之k核苷酸鹼基的序列(本文中亦稱為「k-mer」)，且藉由頂點(或節點)連接邊緣。序列處理器205比對分裂之片段與有向圖，從而任何分裂之片段可能藉由一小組邊緣及對應頂點按順序表示。

在一些實施例中，序列處理器205確定多組描述有向圖及製程有向圖之參數。此外，該組參數可能包括自分裂之片段至有向圖中由節點或邊緣表示之k-mer的成功比對之k-mer的計數。序列處理器205將有向圖及對應組之參數儲存於例如序列資料庫210中，可能重新獲取有向圖及對應組之參數以更新圖或產生新圖。舉例而言，序列處理器205可能基於改組參數產生壓縮版本之有向圖(例如，或修改現有圖)。在一個使用情況中，為了濾除具有較低等級之重要性的有向圖資料，序列處理器205移除(例如，「剪除」或「修剪」)計數小於閾值之節點或邊緣，且保留計數大於或等於閾值之節點或邊緣。

在步驟315中，變體辨認器240自序列片段、分裂之序列片段或由序列處理器205組裝之合併序列片段產生候選變體。在一個實施例中，變體辨認器240藉由比較序列片段、分裂之序列片段或合併之序列片段(其可能已藉由在步驟310中修剪邊緣或節點而壓縮)與參考基因組(例如，人類參考基因組hg19)之標靶區的參考序列而產生候選變體。變體辨認器240可能使序列片段、分裂之序列片段或合併之序列片段的邊緣與參考序列對齊，且將不匹配邊緣及與邊緣相鄰之不匹配核苷酸鹼基的基因位置記錄為候選變體之位置。此外，變體辨認器240可能基於標靶區之定序深度而產生候選變體。特定而言，變體辨認器240可能更有信心在具有更大定序深度之標靶區中識別變體，例如因為更多數目之序列片段幫助解決(例如，使用冗餘)序列之間的不匹配或其他鹼基對變異。

在一個實施例中，變體辨認器240使用模型225產生候選變體以確定針對來自受試者(例如，來自健康受試者)之序列片段的預計雜訊率。模型225可能係貝氏階層式模型，但在一些實施例中，處理系統100使用一或多個不同類型之模型。此外，貝氏階層式模型可能係許多可能模型架構之一者，該等模型架構可能用於產生候選變體且互相關聯，因此其均使針對位置的雜訊資訊建模，從而改善變體辨認之敏感度或特異性。更特定而言，機器學習引擎220使用來自健康個體之樣本訓練模型225，從而使序列片段之每個位置的預計雜訊率建模。

此外，多個不同模型可能儲存於模型資料庫215中或重新獲取以用於訓練後應用。舉例而言，訓練第一模型以使SNV雜訊率建模，且訓練第二模型以使插入或缺失雜訊率建模。此外，評分引擎235可能使用模型225之參數以確定序列片段中一或多個真陽性之可能性。評分引擎235可能基於可能性確定品質分數(例如，以對數標度)。舉例而言，品質分數係弗雷德品質分數，其中P係錯誤候選變體辨認(例如，偽陽性)之可能性。

在步驟320中，評分引擎235基於模型225或對應真陽性之可能性或品質分數而對候選變體進行評分。模型225之訓練及應用更詳細地描述於下文中。

在步驟325中，處理系統200輸出候選變體。在一些實施例中，處理系統200輸出一些或全部確定之候選變體以及對應分數。例如處理系統200外部或處理系統200之其他組分的下游系統可能使用候選變體，且針對各種應用進行評分，應用包括(但不限於)預測存在癌症、疾病或生殖系列變異。

圖1-3例示針對產生定序片段資料及識別候選變體或罕見變異辨認之可能實施例。然而，如本領域中之一名技術者將輕易理解，可在本發明之實踐中使用本領域中用於獲得諸如序列片段或一致序列片段之定序資料且由此識別候選變體或罕見變異辨認的其他已知方式(參見例如，美國專利公開案第2012/0065081號、美國專利公開案第2014/0227705號、美國專利公開案第2015/0044687號及美國專利公開案第2017/0058332號)。
IV.實例模型

圖4係根據一個實施例應用貝氏階層式模型225之圖表。出於解釋之目的，變異A及變異B顯示為實例。在圖4之實施例中，變異A及變異B表示為SNV，但在其他實施例中，以下描述亦適用於插入或缺失或其他類型之變異。變異A係來自第一樣本之第一參考等位基因之位置4處的C＞T變異。第一樣本之第一AD係10，且第一總深度係1000。變異B係來自第二樣本之第二參考等位基因之位置3處的T＞G變異。第二樣本之第二AD係1，且第二總深度係1200。僅基於AD (或AF)，變異A似乎係真陽性，而變異B似乎係偽陽性，此係因為前者之AD (或AF)大於後者之AD (或AF)。然而，變異A及變異B可能每等位基因及/或每等位基因位置具有不同相對水平之雜訊率。實際上，一旦此等不同位置之相對雜訊水平得到證明，則變異A可能係偽陽性且變異B可能係真陽性。本文所述之模型225使此雜訊建模用以相應地恰當識別真陽性。

圖4中闡釋之機率質量函數(PMF)表示來自受試者之樣本在一位置處具有給定AD計數之機率(或可能性)。使用來自健康個體之樣本的定序資料(例如，儲存於序列資料庫210中)，處理系統100訓練模型225，針對健康樣本之PMF可能衍生自該模型。特定而言，PMF係基於，其使(例如，健康個體之)正常組織中每位置每等位基因之預計平均AD計數建模，及，其使此AD計數中之預計變異(例如，分散度)建模。換言之，及/或表示基於每等位基因之每個位置，正常組織之定序資料中的雜訊之基線水平。

使用圖4之實例進一步闡釋，來自健康個體之樣本表示一小組由建模之人類群體，其中i 係訓練組中健康個體之指數。假設出於例示考慮，模型225已受到訓練，由模型225產生之PMF直觀闡釋各變異之所量測AD的可能性，且因此指示何為真陽性且何為偽陽性。圖4左側關於變異A之例示性PMF表示針對位置4處之變異AD計數係10之第一樣本的可能性大約係20%。此外，右側關於變異B之例示性PMF表示針對位置3處之變異AD計數係1之第二樣本的可能性大約係1% (注：圖4之PMF並非完全按比例繪製)。因此，對應於此等PMF機率之雜訊率表示，儘管變異B具有較低AD及AF，但變異A較之變異B更容易發生。因此，在此實施例中，變異B可能係真陽性，且變異A可能係偽陽性。相應地，處理系統100可能藉由使用模型225進行改良之變體辨認，從而以更精確之比率區分真陽性與偽陽性，且進一步關於此等可能性提供數值信心。

圖5A顯示貝氏階層式模型225之參數與子模型之間的相依性，該模型用於根據一個實施例確定真單一核苷酸變體。模型之參數可能儲存於參數資料庫230中。在圖5A所示之實例中，表示指定給各混合組分之加權向量。向量呈現K維度中之單純形內的值，且可能在訓練期間經由較後取樣學習或更新。其可能獲得該單純形上之一致先驗用於該訓練。位置p 所屬之混合組分可能藉由潛在變量使用一或多個不同多項分佈而建模：

潛在變量、混合組分、及之向量共同允許之模型，其係貝氏階層式模型225之子模型，從而具有「集中」關於雜訊之知識的參數，亦即其表示多個位置中雜訊特徵中之相似性。因此，序列片段之位置可能藉由模型集中或分組至潛在類別中。亦有利地，任何此等「集中之」位置的樣本可幫助訓練此等共有參數。此現象之優點在於，即使幾乎沒有或沒有直接證據表明先前已針對給定位置觀測到交替等位基因(例如，在用於訓練模型之健康組織樣本中)，但處理系統100仍可能確定健康樣本中之雜訊模型。

共變量(例如，預測因子)編碼關於位置p 之已知的上下文資訊，其可能包括(但不限於)諸如以下之資訊：三核苷酸背景、區段式複製、與重複段最近之距離、作圖性、獨特性、k-mer獨特性、針對序列之表現不佳區域的警示或與序列片段相關之其他資訊。三核苷酸背景可能係基於參考等位基因且可能指定為數值(例如，整數)表示。舉例而言，「AAA」指定為1，「ACA」指定為2，「AGA」指定為3等。作圖性表示一個片段與基因組之特定標靶區之比對的獨特性水平。舉例而言，作圖性計算為序列片段將獨特作圖之位置數目的倒數。區段式複製對應於長核酸序列(例如，具有大於約1000個鹼基對之長度)，其幾乎相同(例如，大於90%匹配度)且因天然複製行為(例如，與癌症或疾病無關)而出現於基因組中之多個位置中。

位置p 處之SNV的預計平均AD計數係藉由參數而建模。出於此描述之清晰性考慮，術語及指代貝氏階層式模型225之位置特異性子模型。在一個實施例中，建模為γ分佈之隨機變量，其具有形狀參數及平均參數：

在其他實施例中，其他函數可用於表示，其實例包括(但不限於)：具有log-平均及log-標準偏差之log-正常分佈、威布爾分佈(Weibull distribution)、冪定律、按指數調試之冪定律或前述內容之混合。

在圖5A中所示之實例中，形狀參數及平均參數各自依賴於共變量及潛在變量，但在其他實施例中，相依性可能基於訓練期間各種程度之信息集中而有所不同。舉例而言，可能交替建構模型，因而依賴於潛在變量而非共變量。(健康個體之)人類群體樣本i 中位置p 處之SNV的AD計數分佈係藉由隨機變量而建模。在一個實施例中，該分佈係帕松分佈(Poisson distribution)，其在以下位置處獲得樣本之深度：

在其他實施例中，其他函數可能用於表示，其實例包括(但不限於)：負二項、康氏-馬克士威-帕松分佈(Conway-Maxwell-Poisson distribution)、ζ分佈(zeta distribution)及零膨脹帕松(zero-inflated Poisson)。

圖5B顯示貝氏階層式模型之參數與子模型之間的相依性，該模型用於根據一個實施例確定真插入或缺失。與圖5A中所示之SNV模型相反，針對圖5B中所示插入或缺失之模型包括不同水平之層級。共變量編碼位置p 處之已知特徵，且可能包括例如與均聚物之距離、與RepeatMasker重複段之距離或與先前觀測之序列片段相關之其他資訊。潛在變量可能藉由狄利克雷分佈(Dirichlet distribution)基於向量之參數而建模，該等參數表示一個位置處之插入或缺失長度分佈且可能基於共變量。在一些實施例中，亦在分享相同共變量值的位置()中共享。因此舉例而言，潛在變量可能表示諸如以下之資訊：均聚物插入或缺失出現於自錨位之位置1、2、3等鹼基對處，而三核苷酸插入或缺失出現於自錨位之位置3、6、9等處。

位置p 處之預計平均總插入或缺失計數係藉由分佈建模。在一些實施例中，分佈係基於共變量且具有γ分佈，其具有形狀參數及平均參數：

在其他實施例中，其他函數可能用於表示，其實例包括(但不限於)：負二項、康氏-馬克士威-帕松分佈、ζ分佈及零膨脹帕松。

(健康個體之)人類群體樣本i 中位置p 處之觀測到的插入或缺失係藉由分佈而建模。與圖5A中之實例類似，在一些實施例中，插入或缺失密度之分佈係帕松分佈，其在以下位置處獲得樣本之深度：

在其他實施例中，其他函數可用於表示，其實例包括(但不限於)：負二項、康氏-馬克士威-帕松分佈、ζ分佈及零膨脹帕松。

因為插入或缺失可能具有不同長度之事實，其他長度參數存在於插入或缺失模型中，其並非存在於針對SNV之模型中。因此，圖5B中所示例示性模型具有其他層級(例如，另一子模型)，其同樣不存在於上文論述之SNV模型中。樣本i 中位置p 處所觀測之長度l (例如，多達100或更多鹼基對之插入或缺失)的插入或缺失計數係藉由隨機變量而建模，其表示雜訊下以參數為條件之插入或缺失分佈。該分佈可能係多項式，其具有樣本之插入或缺失密度及以下位置處插入或缺失長度之分佈：

在其他實施例中，狄利克雷多項式函數或其他類型之模型可能用於表示。

藉由以此方式建構模型，機器學習引擎220可能使學習插入或缺失密度(亦即，雜訊率)與學習插入或缺失長度分佈分離。獨立確定針對預計插入或缺失是否將出現於健康樣本中及預計一個位置處之插入或缺失長度的推論可能改善模型之敏感度。舉例而言，相對於基因組中許多位置或區域處之插入或缺失密度，長度分佈可能更穩定，或反之亦然。

圖6A-B繪示根據一個實施例與貝氏階層式模型225相關之圖表。圖6A中所示圖表描繪雜訊率之分佈，亦即如藉由模型而表徵，針對給定位置之SNV或插入或缺失的可能性(或密度)。連續分佈表示預計之非癌症或非疾病變異(例如，天然出現於健康組織中之變異)的AF，其係基於來自健康個體之所觀測健康樣本(例如，重新獲取自序列資料庫210)之訓練資料。儘管未顯示於圖6A中，但在一些實施例中，之形狀及平均參數可能基於諸如共變量或潛在變量之其他變量。圖6B中所示圖表描繪針對受試者之樣本給定位置處之AD分佈，其具有樣本之參數，諸如給定位置處之定序深度。基於預測之人類群體真平均AD計數，確定圖像之離散機率，該計數係基於預計平均分佈。

圖7A係根據一個實施例藉由擬合貝氏階層式模型225而確定參數之例示性製程的圖表。為了訓練模型，機器學習引擎220迭代取樣自針對一組位置之各位置的預計雜訊率之較後分佈(例如，圖6B中所示之圖表)。在其他取樣演算法中，機器學習引擎220可能使用馬可夫鏈蒙地卡羅(MCMC)方法取樣，例如梅特羅波利斯-黑斯廷斯(MH)算法(Metropolis-Hastings algorithm)、定製MH算法、吉布斯取樣算法(Gibbs sampling algorithm)、基於哈密頓力學之取樣(Hamiltonian mechanics-based sampling)、隨機取樣。在貝氏推論訓練期間，自共同較後分佈獲取參數以迭代更新所有(或一些)參數及模型之潛在變量(例如，、、、、等)。

在一個實施例中，機器學習引擎220藉由將圖像、每個位置及每個樣本之預計平均AF計數儲存於參數資料庫230中而進行模型擬合。如先前描述，模型係藉由較後取樣而訓練或擬合。在一實施例中，圖像儲存於矩陣資料結構中，該結構在一組取樣之位置的每個位置處具有一列，且在來自共同較後資料(例如，以觀測之資料為條件之所有參數)之每個圖像具有一欄。列R之數目可能大於6百萬，且樣本之N迭代之欄數目可能係數千。在其他實施例中，列及欄稱號與圖7A中所示之實施例不同，例如，各列表示來自較後樣本之圖像，且各欄表示取樣之位置(例如，圖7A中所示矩陣實例的移位)。

圖7B係根據一個實施例使用來自貝氏階層式模型225之參數確定偽陽性之可能性的圖表。機器學習引擎220可能將圖7A中所示之R列:N欄矩陣減小為圖7B中繪示之R列:2欄矩陣。在一個實施例中，機器學習引擎220確定較後樣品中每個位置之分散度參數(例如，形狀參數)及平均參數(其亦可稱為平均比率參數)。分散度參數可能確定為，其中及分別係位置p 處取樣值的平均值及變化幅度。本領域中之彼等技術者應理解，亦可使用用於確定之其他函數，諸如最大可能性評估。

考慮到平均參數，機器學習引擎220亦可在減小之矩陣中進行分散度參數之分散度重新評估。在一個實施例中，在貝氏訓練及較後估算之後，機器學習引擎220基於每個位置之負二項最大可能性評估器藉由針對分散度參數再訓練而進行分散度再評估。平均參數在再訓練期間可能保持不變。在一個實施例中，機器學習引擎220針對訓練資料之原始AD計數(例如，基於健康樣本之及)而在各位置處確定分散度參數。機器學習引擎220確定，且將儲存於減小之矩陣中。本領域中之彼等技術者應理解，亦可使用用於確定之其他函數，諸如矩估計方法、後驗方式或後驗模式。

在訓練之模型應用期間，處理系統100可能存取分散度(例如，形狀)參數及平均參數以確定由及參數化之函數。函數可能用於確定用於受試者之新樣本的較後預測性機率質量函數(或機率密度函數)。基於給定位置處特定AD計數之預測機率，在偵測來自樣本之真陽性時，處理系統100可能解釋序列片段之每個位置的位點特異性雜訊率。回頭提及使用關於圖4描述之情況的實例，針對變異A及變異B顯示之PMF可能使用來自圖7B之減小矩陣的參數而確定。較後預測性機率質量函數可能用於確定在特定位置處具有AD計數之變異A或變異B的機率。
V. 例示性製程流程

圖8係方法800之流程圖，該方法用於根據一個實施例訓練貝氏階層式模型225。在步驟810中，機器學習引擎220自序列片段之資料庫(例如，序列資料庫210)中收集樣本，例如訓練資料。在步驟820中，機器學習引擎220使用馬可夫鏈蒙地卡羅方法使用樣本訓練貝氏階層式模型225。在訓練期間，模型225可能以訓練資料為條件保留或拒絕序列片段。機器學習引擎220可能不包括健康個體之序列片段，其深度小於臨界深度值或AF大於臨界頻率，從而移除不表示序列片段中之標靶序列的可能生殖系列變異。在其他實施例中，機器學習引擎220可能確定可能含有生殖系列變體之位置且使用如上文之閾值選擇性地排除該等位置。在一個實施例中，機器學習引擎220可能將該等位置識別為自生殖系列頻率具有較小平均AF絕對差值(例如，0、½及1)。

貝氏階層式模型225可能同時針對模型中所包括之多個(或全部)位置更新參數。此外，可能訓練模型225以針對各ALT對預計雜訊進行建模。舉例而言，針對A、T、C及G鹼基之各者向其他三個鹼基之各者的變異，用於SNV之模型可能進行訓練製程四次或更多次以更新參數(例如，一對一取代)。在步驟830中，機器學習引擎220儲存貝氏階層式模型225之參數(例如，藉由馬可夫鏈蒙地卡羅之全體參數輸出結果)。在步驟840中，機器學習引擎220基於參數估算每個位置之雜訊分佈(例如，由分散度參數及平均參數表示)。在步驟850中，機器學習引擎220使用來自用於訓練貝氏階層式模型225之樣本(例如，訓練資料)的原始AD計數進行分散度再評估(例如，最大可能性評估)。

圖9係方法900之流程圖，該方法用於根據一個實施例確定偽陽性之可能性。在步驟910中，處理系統100例如在來自一組序列片段之序列片段的位置p 處識別候選變體，該等片段可能定序自獲自個體之cfDNA樣本。在步驟920中，處理系統100分別存取例如分散度及平均率參數及之針對候選變體的參數，其可能基於候選變體之位置p 。可能使用模型導出參數，例如貝氏階層式模型225，其表示具有給定序列片段之觀測深度及位置p 處之平均參數作為輸入之較後預測性分佈。在一實施例中，平均參數係關於訓練樣本之位置p 編碼核苷酸變異之雜訊等級的γ分佈。

在步驟930中，處理系統100將一組序列片段之片段資訊(例如，AD或AF)輸入至由例如及之參數參數化之函數中(例如，基於負二項)。在步驟940中，處理系統100 (例如，評分引擎235)使用基於輸入片段資訊之函數的輸出結果確定候選變體之分數(例如，在位置p 處)。分數可能表示見到給定樣本(例如，來自受試者)之等位基因計數的可能性，其大於或等於候選變體之確定的等位基因計數(例如，由模型及函數之輸出結果確定)。處理系統100可能將可能性轉化為弗雷德定級之分數。在一些實施例中，處理系統100使用可能性確定偽陽性變異，其對確定可能性小於閾值作出回應。在一些實施例中，處理系統100使用函數確定，對應於來自個體之腫瘤生檢之序列片段中所發現的基因，序列片段之樣本至少包括等位基因之臨界計數。回應於此確定結果，處理系統100可能基於變體辨認而預測個體中之癌細胞的存在。在一些實施例中，處理系統100可能基於品質分數進行加權、將候選變體及品質分數用於發現錯誤之方法、使用品質分數標註公認辨認數或供給後續系統。在各種實施例中，上文關於圖8及圖9描述之方法係在電腦上進行，諸如圖1中所示之計算裝置160。
VI.實例

下圖中所示之例示性結果係使用一或多個訓練之貝氏階層式模型225藉由處理系統100所確定。SNV及插入或缺失之貝氏階層式(BH)模型225可能分別稱為「SNV BH模型」及「插入或缺失BH模型」。出於比較目的，在不使用模型225之情況下確定一些例示性結果且稱為「無模型」實例。在各種實施例中，如圖中所指示，使用標靶定序分析生成結果，該分析使用GRAIL (GRAIL, Inc., Menlo Park, CA)之專屬508癌症基因板評估變體且自獲自研究「A」及研究「B」兩個研究之一中的受試者之循環無細胞DNA (cfDNA)樣本的標靶定序資料辨認變體。研究A包括來自血漿樣本之定序資料，該樣本獲自50名健康受試者(未診斷出癌症)及50名各來自患有轉移前乳癌及轉移前非小細胞肺癌之受試者的樣本。研究B包括來自血漿樣本之可評估定序資料，該樣本獲自124名癌症患者(39名受試者患有轉移性乳癌(MBC)，41名受試者患有非小細胞肺癌(NSCLC)，且44名受試者患有抗閹割前列腺癌(CRCP))。

將來自健康個體及癌症患者之全血引入STRECK血液收集管(BCT®)中，將其分成血漿及膚色血球層，且儲存於-80℃下。使用修改之QIAmp循環核酸套組(Qiagen, Germantown, MD)自血漿提取無細胞DNA (cfDNA)，且使用片段分析器高敏感度NGS套組(Advanced Analytical Technologies, Akneny IA)進行量化。使用修改之Illumina TruSeq DNA奈米協議(ILLUMINA®; San Diego, CA)自提取之cfDNA製備定序庫。庫製備協議包括定序轉接體之轉接體連接，該等轉接體包含用於如上述之錯誤更正之獨特分子識別物(UMI)。使用片段分析器標準敏感度NGS套組對定序庫進行PCR擴增及量化。

使用GRAIL之專屬研究板標靶508癌症相關基因(GRAIL, Inc., Menlo Park, CA)對量化之DNA庫進行基於雜交之捕獲。首先使用生物素化單股DNA雜交探針捕獲標靶DNA分子，且隨後使用鏈親和素磁珠濃化。使用序列清洗步驟移除非標靶分子。在HiSex X上使用HiSeq X試劑套組v2.5 (ILLUMINA®; San Diego, CA)以60,000X之較小原始標靶覆蓋度對濃化之庫進行定序。每流動細胞收集四個庫，且包括雙檢索引物混合物以獲得雙樣本檢索片段。分別針對片段1、片段2、檢索片段1及檢索片段2分別設定150、150、8及8之片段長度。片段1及片段2中之起始6個鹼基片段係UMI序列。
VI. A.例示性變異率

圖10係根據一個實施例之針對變異的雜訊率之圖表。圖10中所示之例示性結果係獲自來自研究B之使用標靶定序資料的健康樣本。訓練之SNV BH模型可能學習到，特定類型之SNV在健康樣本中具有更高基線雜訊等級。在圖10中所示之例示性圖示中，相較於圖示中所包括之其他類型的取代，C＞T及G＞A取代變異之可能性更高。
VI. B.基於三核苷酸背景之例示性變異率

圖11係根據一個實施例基於參考等位基因及三核苷酸背景之雜訊率的圖表。圖11中所示之例示性結果係使用來自研究B之標靶定序資料獲自一組基線個體中之健康個體。訓練之SNV BH模型可能學習到，SNV之基線雜訊等級的平均值及變化幅度可能基於三核苷酸背景而變化。針對AD係3且深度係3000之健康樣本獲得圖11中所示之例示性結果。此外，雜訊等級(例如，基於三核苷酸背景之給定SNV的可能性)係轉化為弗雷德定級之品質分數，其中。舉例而言，20之弗雷德品質分數表示P = 1/100機率之錯誤變體辨認，且60之弗雷德品質分數表示P = 1/1,000,000機率之錯誤變體辨認。因此，更高弗雷德品質分數對應於偵測變異之更高信心，例如自序列片段之雜訊區分真陽性與偽陽性。
VI. C.例示性品質分數

圖12係根據一個實施例依照參考等位基因之品質分數偏差的分佈圖表。使用獲自AD係3且深度係3000之健康樣本之來自研究B的標靶定序資料獲得圖12中所示之例示性結果。此外，結果顯示，SNV BH模型可能使用混合組分藉由雜訊行為識別獨特子集之位置，其對應於圖中所見之各種模式。長尾可能表示，模型學習抑制頻發變異(例如，非真陽性)。x軸包括負值，此係因為圖中偏差表示一個位置處之弗雷德品質分數與類似位置之中值弗雷德品質分數之間的差值。模型學習到，相對於其他位置，特定位置可能具有更高或更低中值弗雷德品質分數。
VI. D.例示性品質分數

圖13A-B顯示之圖表繪示根據一個實施例依照參考等位基因自中值品質分數之偏差。圖13A-B中所示例示性結果係獲自從來自研究B之健康樣本獲得之標靶定序資料。圖13A之例示性結果表示，SNV BH模型可能學習到，健康樣本中多數位置處之雜訊等級係典型的。舉例而言，位置可能普遍至少呈現一些低等級之連續雜訊，但一小組位置呈現極高等級之雜訊。舉例而言，在對應於參考等位基因A、C、G及T之四個圖的各者中，僅針對1個位置(於x軸上)，比類似位置之中值雜訊等級高10⁵ 倍(於y軸上)。此外，對於一些變異類型，超過100個位置(於x軸上)具有比類似位置之中值雜訊等級高100倍之(於y軸上)，其可能有助於偵測偽陽性。

圖13B之例示性結果表示，SNV BH模型確定對應於健康樣本中病理性位置之位置的低弗雷德品質分數。因此，模型可能使用品質分數自具有更高平均品質分數之真陽性濾除人為現象。此外，即使當一些共變量或預測因子未知時，仍可能藉由模型移除頻發變異。
VI. E.例示性品質分數

圖14係根據一個實施例於低交替深度處依照參考等位基因之品質分數的圖表。使用來自AD係2且深度係3000之健康樣本之來自研究B的標靶定序資料獲得圖14中所示之例示性結果。此外，結果之曲線1400顯示，諸如C＞G變異之一些SNV具有高弗雷德品質分數(例如，基因組之特定部分敏感度提高)，因此允許包括位置特異性雜訊建模之SNV BH模型更好地辨認特定位置處之彼變異類型的變體。
VI. F.例示性平均辨認

圖15係根據一個實施例在樣本標靶定序分析中使用SNV BH模型、插入或缺失BH模型或不使用模型之每個樣本之平均辨認數的圖表。圖15中所示SNV及插入或缺失型變異之例示性結果均獲自來自健康受試者及癌症患者(患有乳癌、肺癌或前列腺癌)之標靶定序資料。此外，如指示，使用來自研究A及研究B之標靶定序資料獲得例示性結果。在一些實施例中，「無模型」方法使用手動調試之過濾器設置閾值，例如用於篩選AD大於或等於3且AF大於或等於0.1之變體。相對於不使用模型之基線結果，使用BH模型確定之結果顯示改良之敏感度。舉例而言，在針對SNV模型之研究A中的乳癌樣本中，「無模型1」及「無模型2」之每個樣本的平均辨認基線數目分別係179及16。然而，「BH_gDNA」及「BH_nonsyn」之每個樣本的平均辨認數目更低，分別係9.5及5.1。因此，該模型提供針對偽陽性之更佳控制力。
VI. G.例示性陽性百分比一致性

圖16係根據一個實施例針對來自cfDNA樣本（「cfDNA」）及來自匹配腫瘤生檢樣本(「腫瘤」)之序列資料、使用SNV BH模型、插入或缺失BH模型或不使用模型之陽性百分比一致性(PPA)結果之圖表。使用一種基於雜交捕獲之次世代定序分析MSK-IMPACT獲得來自匹配之腫瘤生檢樣本的定序資料，如先前描述，其分析癌症相關之基因的所有蛋白質編碼外顯子410 (Cheng等人, J. Molecular Diagnostics, 第17卷, 第3號, 第251-264頁 (2015))。

圖16中所示針對SNV及插入或缺失類型變異(不包括超變體)之例示性結果係獲自患有乳癌、肺癌或前列腺癌之受試者的cfDNA及匹配腫瘤生檢樣本。使用以下方程計算cfDNA及匹配腫瘤生檢樣本之PPA值，其中「腫瘤」表示來自腫瘤樣本之變體辨認的數目，且「cfDNA 」表示來自相應cfDNA樣本之變體辨認的數目：

如藉由例示性結果所示，BH模型保留對應變異，且在若干情況中，其改良對應變異之敏感度(例如，更大PPA)。舉例而言，在針對插入或缺失之乳癌cfNDA樣本中，基線PPA係0.1，且「無模型1」及「無模型2」分別係0.1及0.26。然而，針對「BH_gDNA」及「BH_nonsyn」，PPA分別提高至0.37及0.42。
VI. H.例示性陽性百分比一致性

圖17係根據一個實施例針對序列資料、使用SNV BH模型、插入或缺失BH模型或不使用模型之陽性百分比一致性結果之另一圖表。圖17中所示針對SNV及插入或缺失型變異之例示性結果係獲自患有乳癌、肺癌或前列腺癌之受試者樣本且使用腫瘤(組織)及cfDNA (血漿)作為參考。與圖16中所示之PPA例示性結果類似，圖17之例示性結果亦表示，BH模型保留對應變異，且在若干情況中，其改良對應變異之敏感度(例如，更大PPA)。圖17中所示之陽性百分比一致性結果包括超變異，其可能包括單一生檢中未發現之其他變體。
VI. I.所偵測之例示性基因

圖18之圖表描繪許多變異，其根據一個實施例偵測於來自患有肺癌之受試者的標靶定序資料之特定基因中。圖19之圖表描繪許多變異，其根據一個實施例偵測於來自患有前列腺癌之受試者的標靶定序資料之特定基因中。圖20之圖表描繪許多變異，其根據一個實施例偵測於來自患有乳癌之受試者的標靶定序資料之特定基因中。使用來自研究B之標靶定序資料且使用患有指示之各別類型之癌症的受試者樣本獲得圖18-20中所示之例示性結果。使用SNV BH模型獲得圖18中所示之例示性結果，且使用SNV插入或缺失模型獲得圖19-20中所示之例示性結果。

「腫瘤定序」結果表示，由基於腫瘤之「GRAIL」及基於cfDNA之「腫瘤」分析所偵測之標靶癌症基因大致匹配。不使用BH模型獲得之基線「GRAIL定序PASS」結果表示，「GRAIL」分析偵測基因中與標靶癌症基因或由「腫瘤」分析偵測之基因均不匹配之變異。然而，使用BH模型獲得之「GRAIL定序BH」結果表示，「GRAIL」分析偵測與一些標靶癌症基因或一些由「腫瘤」分析偵測之基因匹配之基因。舉例而言，在圖18中，基因EGFR及STK11均出現於「腫瘤定序」及「GRAIL定序BH」結果之頂部。在圖19中，基因TP53及ZFHX3均出現於「腫瘤定序」及「GRAIL定序BH」結果之頂部。在圖20中，基因TP53、TBX3、CDH1、MAP3K1及ERBB2各自出現於「腫瘤定序」及「GRAIL定序BH」結果之頂部。
VI. J.篩選之例示性變異

圖21係根據一個實施例使用插入或缺失BH模型自健康樣本篩選頻發突變之圖表。如指示，自患有乳癌、肺癌或前列腺癌之受試者樣本且使用來自研究A及研究B之標靶定序資料獲得圖21中所示之例示性結果。結果顯示，使用該模型之「BH_gDNA」分析濾除健康樣本中發現之頻發變異，而基線「無模型1」及「無模型2」分析之結果保留許多彼等頻發變異。
VI. K.保留之例示性變異

圖22係根據一個實施例使用插入或缺失BH模型自癌症樣本篩選頻發突變之圖表。自患有乳癌、肺癌或前列腺癌之受試者樣本且使用來自研究B之標靶定序資料獲得圖22中所示之例示性結果。結果顯示，使用該模型之「BH_gDNA」保留癌症樣本中發現之頻發變異，基線「無模型1」及「無模型2」分析之結果相同。
VI. L.例示性插入或缺失雜訊

圖23係根據一個實施例針對使用插入或缺失BH模型確定之插入或缺失的雜訊率的圖表。使用來自針對深度係3000之健康樣本之研究B的標靶定序資料獲得圖23中所示之例示性結果。此外，結果顯示，短插入或缺失(例如，長度-2、-1或1)支配平均預計AD，而較長插入或缺失之典型雜訊率較低。
VI. M.例示性插入或缺失雜訊

圖24係根據一個實施例針對使用插入或缺失BH模型確定之插入或缺失的雜訊率的另一圖表。使用來自針對深度係3000之均聚物(頂部)、五核苷酸(中部)及三核苷酸(底部)健康樣本之研究B的標靶定序資料獲得圖24中所示之例示性結果。結果顯示，雜訊區可能具有預計AD分佈之複雜結構。舉例而言，相對於更長插入或缺失，長度-1及1之插入或缺失在均聚物樣本中係雜訊。相對於更長插入或缺失，長度-5、-10及-15之插入或缺失在五核苷酸樣本中係雜訊。相對於更長插入或缺失，長度9、6、3、-3、-6、-9、-12、-15及-18之插入或缺失在三核苷酸樣本中係雜訊。
VII.其他考慮

本發明之實施例的先前描述已出於闡釋目的而呈現；其不意欲具有全面性或將本發明限制為所揭示之精確形式。相關領域中之技術人員可理解，鑒於上述揭示內容，許多修改及變體係可能的。

此描述之一些部分就演算法及資訊上操作之符號表示而描述本發明之實施例。此等演算法描述及表示係由資料處理領域中之彼等技術者所廣泛使用，以將其工作之內容有效傳達至本領域中之其他技術者。當此等操作以功能方式、計算方式或邏輯方式描述時，其理解為藉由電腦程式或等效電路、微碼或類似方式實施。此外，亦已時常證明方便的是，在不損失一般性之情況下，將此等操作之佈局稱為模組。所述操作及其相關模組可能體現於軟體、韌體、硬體或其任何組合中。

本文所述之任何步驟、操作或製程可能使用一或多種硬體或軟體模組單獨或與其他裝置組合進行或實施。在一個實施例中，軟體模組使用電腦程式產品實施，該產品包括電腦可讀非暫時性媒體，該媒體含有電腦程式碼，該程式碼可由電腦處理器執行用以進行任何或全部所述步驟、操作或製程。

本發明之實施例亦可關於一種產品，其係由本文所述之計算製程產生。該產品可能包括產生自計算製程之資訊，其中資訊儲存於非暫時性、有形電腦可讀儲存媒體上，且可能包括電腦程式產品之任何實施例或其他本文所述之資料組合。

最終，本說明書中所用之語言已主要針對可讀性及指示性目的而選擇，且其可能不會經選擇以描述或限制本發明之標的物。因此，希望本發明之範疇不會受限於此詳細描述，而是受限於基於此之申請案上所發佈之任何請求。相應地，本發明之實施例的揭示內容意欲具有闡釋性，但不限制本發明之範疇，該範疇列舉於以下申請專利範圍中。

100‧‧‧方法

110‧‧‧步驟

115‧‧‧核酸樣本

120‧‧‧步驟

130‧‧‧步驟

140‧‧‧步驟

145‧‧‧定序器

150‧‧‧圖形用戶界面

155‧‧‧裝載盤

160‧‧‧計算裝置

200‧‧‧處理系統

205‧‧‧序列處理器

210‧‧‧序列資料庫

215‧‧‧模型資料庫

220‧‧‧機器學習引擎

225‧‧‧模型

230‧‧‧參數資料庫

235‧‧‧評分引擎

240‧‧‧變體辨認器

300‧‧‧方法

305‧‧‧步驟

310‧‧‧步驟

315‧‧‧步驟

320‧‧‧步驟

325‧‧‧步驟

800‧‧‧方法

810‧‧‧步驟

820‧‧‧步驟

830‧‧‧步驟

840‧‧‧步驟

850‧‧‧步驟

900‧‧‧方法

910‧‧‧步驟

920‧‧‧步驟

930‧‧‧步驟

940‧‧‧步驟

圖(Figure/FIG.) 1係方法之流程圖，該方法用於根據一個實施例製備用於定序之核酸樣本。

圖2係處理系統之方塊圖，該系統用於根據一個實施例處理序列片段。

圖3係方法之流程圖，該方法用於根據一個實施例確定序列片段之變體。

圖4係根據一個實施例應用貝氏階層式模型之圖表。

圖5A顯示貝氏階層式模型(Bayesian hierarchical model)之參數與子模型之間的相依性，該模型用於根據一個實施例確定真單一核苷酸變體。

圖5B顯示貝氏階層式模型之參數與子模型之間的相依性，該模型用於根據一個實施例確定真插入或缺失。

圖6A-B繪示根據一個實施例與貝氏階層式模型相關之圖表。

圖7A係根據一個實施例藉由擬合貝氏階層式模型而確定參數之圖表。

圖7B係根據一個實施例使用來自貝氏階層式模型之參數確定偽陽性之可能性的圖表。

圖8係方法之流程圖，該方法用於根據一個實施例訓練貝氏階層式模型。

圖9係方法之流程圖，該方法用於根據一個實施例確定偽陽性之可能性。

圖10係根據一個實施例之針對變異的雜訊率之圖表。

圖11係根據一個實施例基於參考等位基因及三核苷酸背景之雜訊率的圖表。

圖12係根據一個實施例依照參考等位基因之品質分數偏差的分佈圖表。

圖13A-B顯示之圖表繪示根據一個實施例依照參考等位基因自中值品質分數之偏差。

圖14係根據一個實施例於低交替深度處依照參考等位基因之品質分數的圖表。

圖15係根據一個實施例在樣本標靶定序分析中使用模型之每個樣本之平均辨認數的圖表。

圖16係根據一個實施例針對來自cfDNA樣本及來自匹配腫瘤生檢樣本之序列資料的陽性百分比一致性(PPA)結果之圖表。

圖17係根據一個實施例針對使用模型之序列資料的陽性百分比一致性結果的另一圖表。

圖18之圖表描繪許多變異，其根據一個實施例偵測於來自患有肺癌之受試者的標靶定序資料之特定基因中。

圖19之圖表描繪許多變異，其根據一個實施例偵測於來自患有前列腺癌之受試者的標靶定序資料之特定基因中。

圖20之圖表描繪許多變異，其根據一個實施例偵測於來自患有乳癌之受試者的標靶定序資料之特定基因中。

圖21係根據一個實施例使用模型自健康樣本篩選頻發突變之圖表。

圖22係根據一個實施例使用模型自癌症樣本篩選頻發突變之圖表。

圖23係根據一個實施例針對使用模型確定之插入或缺失的雜訊率的圖表。

圖24係根據一個實施例針對使用模型確定之插入或缺失的雜訊率的另一圖表。

圖表僅出於闡釋目的描繪本發明之實施例。本領域中之一名技術者將輕易自以下論述明白，可在不背離本文所述之發明的原則之情況下使用本文闡釋之結構及方法的替代性實施例。

Claims

一種用於處理核酸樣本之定序資料的方法，該方法包含：識別複數個序列片段之候選變體；存取複數個參數，包括針對該候選變體之分散度參數r 及平均率參數m ，已使用模型導出該r 及m ；將該等複數個序列片段之片段資訊輸入至由該等複數個參數參數化之函數中；且使用基於該輸入片段資訊之該函數的輸出結果確定該候選變體之分數。
如請求項1之方法，其中該等複數個參數代表γ分佈之平均及形狀參數，且其中該函數係基於該等複數個序列片段及該等複數個參數之負二項。
如請求項1或請求項2之方法，其中該等複數個參數代表分佈之參數，該分佈關於序列片段之給定位置而編碼不確定水平之核苷酸變異。
如請求項3之方法，其中γ分佈係該分佈之混合物的一個組分。
如請求項1至4中任一項之方法，其中從來自複數個健康個體之序列片段的訓練樣本中導出該等複數個參數。
如請求項5之方法，其中該訓練樣本不包括一小組來自基於篩選標準之該等複數個健康個體的該等序列片段。
如請求項6之方法，其中該篩選標準表示不包括具有以下之序列片段：(i)小於閾值之深度或(ii)大於臨界頻率之等位基因頻率。
如請求項6之方法，其中該篩選標準基於候選變體在基因組中之位置而改變。
如請求項1至8中任一項之方法，其中使用貝氏階層式模型(Bayesian Hierarchical model)導出該等複數個參數。
如請求項9之方法，其中該貝氏階層式模型包括多項分佈，其將序列片段之位置分組至潛在類別中。
如請求項9之方法，其中該貝氏階層式模型包括與來自健康個體之訓練樣本無關的固定共變量。
如請求項11之方法，其中該等共變量係基於複數個鄰近序列片段之給定位置的核苷酸。
如請求項11之方法，其中該等共變量係基於與基因組之標靶區相關之給定序列片段的獨特程度。
如請求項11之方法，其中該等共變量係基於給定序列片段是否為區段式複製。
如請求項9之方法，其中使用馬可夫鏈蒙地卡羅方法(Markov chain Monte Carlo method)評估該貝氏階層式模型。
如請求項15之方法，其中該馬可夫鏈蒙地卡羅方法使用梅特羅波利斯-黑斯廷斯算法(Metropolis-Hastings algorithm)。
如請求項15之方法，其中該馬可夫鏈蒙地卡羅方法使用吉布斯取樣算法(Gibbs sampling algorithm)。
如請求項15之方法，其中該馬可夫鏈蒙地卡羅方法使用哈密頓力學(Hamiltonian mechanics)。
如請求項1至18中任一項之方法，其中該片段資訊包括該等複數個序列片段之深度d 、由m ·d 參數化之函數。
如請求項1至19中任一項之方法，其中該分數係弗雷德定級可能性(Phred-scaled likelihood)。
如請求項1至20中任一項之方法，其中該等複數個序列片段係定序自獲自個體之無細胞核苷酸樣本。
如請求項21之方法，其進一步包含：自該個體之血液樣本收集或已收集該無細胞核苷酸樣本；且在該無細胞核苷酸樣本上進行濃化以生成該等複數個序列片段。
如請求項1至20中任一項之方法，其中該等複數個序列片段係定序自個體之血液、全血、血漿、血清、尿液、腦脊髓液、糞便、唾液、淚液、組織生檢、胸膜液體、心包膜液或腹膜液體之樣本。
如請求項1至20中任一項之方法，其中該等複數個序列片段係定序自腫瘤生檢。
如請求項1至20中任一項之方法，其中該等複數個序列片段係定序自血液之細胞分離物，該細胞分離物包括至少膚色血球層白血球或CD4+細胞。
如請求項1至25中任一項之方法，其進一步包含：確定該候選變體係偽陽性變異，其對該分數與閾值之比較作出回應。
如請求項1至26中任一項之方法，其中該候選變體係單核苷酸變體。
如請求項27之方法，其中針對A、T、C及G之一個鹼基向該等其他三個鹼基之各者的變異，該模型編碼核苷酸變異之雜訊等級。
如請求項1至26中任一項之方法，其中該候選變體係至少一個核苷酸之插入或缺失。
如請求項29之方法，其中該模型包括插入或缺失之長度分佈。
如請求項29之方法，其中該模型區分用於確定交替等位基因之可能性的推論與用於使用該長度分佈確定該交替等位基因之長度的推論。
如請求項29之方法，其中該長度分佈係具有狄利克雷先驗(Dirichlet prior)之多項式。
如請求項32之方法，其中該長度之多項分佈上的該狄利克雷先驗係藉由基因組之錨位的共變量而確定。
如請求項29之方法，其中該模型包括基於共變量而確定之分佈ω 。
如請求項29之方法，其中該模型包括基於基因組之共變量及錨位而確定之分佈ϕ 。
如請求項29之方法，其中該模型包括多項分佈，其將序列片段之錨位處的插入或缺失的長度分組至潛在類別中。
如請求項29之方法，其中給定錨位處之插入或缺失的預計平均總數係藉由基於基因組之共變量及錨位的分佈而建模。
一種系統，其包含電腦處理器及記憶體，該記憶體儲存電腦程式指令，當該電腦處理器執行該等指令時，導致該處理器執行包含以下步驟之步驟：識別複數個序列片段之候選變體；存取複數個參數，包括針對該候選變體之分散度參數r 及平均率參數m ，已使用模型導出該r 及m ；將該等複數個序列片段之片段資訊輸入至由該等複數個參數參數化之函數中；且使用基於該輸入片段資訊之該函數的輸出結果確定該候選變體之分數。
如請求項38之系統，其中該等複數個參數代表γ分佈之平均及形狀參數，且其中該函數係基於該等複數個序列片段及該等複數個參數之負二項。
如請求項38或請求項39之系統，其中該等複數個參數代表分佈之參數，該分佈關於序列片段之給定位置而編碼不確定水平之核苷酸變異。
如請求項40之系統，其中γ分佈係該分佈之混合物的一個組分。
如請求項38至41中任一項之系統，其中從來自複數個健康個體之序列片段的訓練樣本中導出該等複數個參數。
如請求項42之系統，其中該訓練樣本不包括一小組來自基於篩選標準之該等複數個健康個體的該等序列片段。
如請求項43之系統，其中該篩選標準表示不包括具有以下之序列片段：(i)小於閾值之深度或(ii)大於臨界頻率之等位基因頻率。
如請求項43之系統，其中該篩選標準基於候選變體在基因組中之位置而改變。
如請求項38至45中任一項之系統，其中使用貝氏階層式模型導出該等複數個參數。
如請求項46之系統，其中該貝氏階層式模型包括多項分佈，其將序列片段之位置分組至潛在類別中。
如請求項46之系統，其中該貝氏階層式模型包括與來自健康個體之訓練樣本無關的固定共變量。
如請求項48之系統，其中該等共變量係基於複數個鄰近序列片段之給定位置的核苷酸。
如請求項48之系統，其中該等共變量係基於與基因組之標靶區相關之給定序列片段的獨特程度。
如請求項48之系統，其中該等共變量係基於給定序列片段是否為區段式複製。
如請求項46之系統，其中使用馬可夫鏈蒙地卡羅方法評估該貝氏階層式模型。
如請求項52之系統，其中該馬可夫鏈蒙地卡羅方法使用梅特羅波利斯-黑斯廷斯算法。
如請求項52之系統，其中該馬可夫鏈蒙地卡羅方法使用吉布斯取樣算法。
如請求項52之系統，其中該馬可夫鏈蒙地卡羅方法使用哈密頓力學。
如請求項38至55中任一項之系統，其中該片段資訊包括該等複數個序列片段之深度d 、由m ·d 參數化之函數。
如請求項38至56中任一項之系統，其中該分數係弗雷德定級可能性。
如請求項38至57中任一項之系統，其中該等複數個序列片段係定序自獲自個體之無細胞核苷酸樣本。
如請求項58之系統，其中該無細胞核苷酸樣本係收集自該個體之血液樣本，該無細胞核苷酸樣本經濃化用以生成該等複數個序列片段。
如請求項38至57中任一項之系統，其中該等複數個序列片段係定序自個體之血液、全血、血漿、血清、尿液、腦脊髓液、糞便、唾液、淚液、組織生檢、胸膜液體、心包膜液或腹膜液體之樣本。
如請求項38至57中任一項之系統，其中該等複數個序列片段係定序自腫瘤生檢。
如請求項38至57中任一項之系統，其中該等複數個序列片段係定序自血液之細胞分離物，該細胞分離物包括至少膚色血球層白血球或CD4+細胞。
如請求項38至62中任一項之系統，該記憶體儲存其他電腦程式指令，當該電腦處理器執行該等指令時，導致該處理器執行包含以下之步驟：確定該候選變體係偽陽性變異，其對該分數與閾值之比較作出回應。
如請求項38至63中任一項之系統，其中該候選變體係單核苷酸變體。
如請求項64之系統，其中針對A、T、C及G之一個鹼基向該等其他三個鹼基之各者的變異，該模型編碼核苷酸變異之雜訊等級。
如請求項38至63中任一項之系統，其中該候選變體係至少一個核苷酸之插入或缺失。
如請求項66之系統，其中該模型包括插入或缺失之長度分佈。
如請求項66之系統，其中該模型區分用於確定交替等位基因之可能性的推論與用於使用該長度分佈確定該交替等位基因之長度的推論。
如請求項66之系統，其中該長度分佈係具有狄利克雷先驗之多項式。
如請求項69之系統，其中該長度之多項分佈上的該狄利克雷先驗係藉由基因組之錨位的共變量而確定。
如請求項66之系統，其中該模型包括基於共變量而確定之分佈ω 。
如請求項66之系統，其中該模型包括基於基因組之共變量及錨位而確定之分佈ϕ 。
如請求項66之系統，其中該模型包括多項分佈，其將序列片段之錨位處的插入或缺失的長度分組至潛在類別中。
如請求項66之系統，其中給定錨位處之插入或缺失的預計平均總數係藉由基於基因組之共變量及錨位的分佈而建模。
一種電腦產品，其包含儲存複數個指令之電腦可讀媒體，該等指令用於控制電腦系統以執行如請求項1至37之方法中任一項的操作。