TWI814753B - 用於標靶定序之模型 - Google Patents

用於標靶定序之模型 Download PDF

Info

Publication number
TWI814753B
TWI814753B TW107142461A TW107142461A TWI814753B TW I814753 B TWI814753 B TW I814753B TW 107142461 A TW107142461 A TW 107142461A TW 107142461 A TW107142461 A TW 107142461A TW I814753 B TWI814753 B TW I814753B
Authority
TW
Taiwan
Prior art keywords
nucleic acid
variant
variants
sequence reads
acid sample
Prior art date
Application number
TW107142461A
Other languages
English (en)
Other versions
TW201926095A (zh
Inventor
亞歷山大 W 布洛克
艾爾 胡貝爾
奧立維 C 維恩
劉勤文
Original Assignee
美商格瑞爾有限責任公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商格瑞爾有限責任公司 filed Critical 美商格瑞爾有限責任公司
Publication of TW201926095A publication Critical patent/TW201926095A/zh
Application granted granted Critical
Publication of TWI814753B publication Critical patent/TWI814753B/zh

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Bioethics (AREA)
  • Physiology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)

Abstract

本發明提供一種處理系統,其使用基於貝氏推論(Bayesian inference)之模型進行標靶定序或變體識別(variant calling)。在一實施例中,該處理系統產生無細胞核酸樣本之候選變體。該處理系統確定該無細胞核酸樣本中及相應基因組核酸樣本中該等候選變體中之每一者的真實替代頻率之似然度。該處理系統藉由該模型,至少使用真實替代頻率之該等似然度,對該等候選變體進行篩選或評分。該處理系統輸出經篩選之該等候選變體,其可用於產生用於預測癌症或疾病模型之特徵。

Description

用於標靶定序之模型
本發明大體上關於用於標靶定序之模型、在變體識別及品質控制中利用該等模型及對測試樣本進行之物理分析之結果的統計分析。
可對DNA定序資料使用計算技術以鑑定DNA中可能對應於各種類型之癌症或其他疾病的突變或變體。因此,可以藉由分析來自受試者之生物樣本,諸如組織切片或所抽取的血液,以進行癌症診斷或預測。偵測源自於來自血液樣本之腫瘤細胞的DNA係困難的,因為相對於從血液中提取之無細胞DNA (cell-free DNA,cfDNA)中之其他分子,循環腫瘤DNA (circulating tumor DNA,ctDNA)通常以低含量存在。現有方法無法從信號雜訊中鑑定真陽性(例如,指示受試者中之癌症),這削弱了已知的及未來的系統區分真陽性與由雜訊源引起之假陽性的能力,從而導致變體識別或其他類型之分析產生不可靠的結果。相比於傳統的腫瘤切片檢查方法,分析cfDNA可能是有利的;然而,鑑定腫瘤衍生之cfDNA中之癌症指示性信號將面臨不同的挑戰,尤其是出於諸如在癌症指示性信號尚不顯著之情況下及早偵測癌症的目的。作為一個實例,可能難以達成腫瘤衍生之片段之必需定序深度。作為另一實例,在樣本製備及定序期間引入的誤差會使得罕見變體之準確鑑定變得困難。此等各種挑戰之組合會妨礙經由使用從受試者獲得之cfDNA以足夠的靈敏度及特異性準確預測受試者中之癌症之特性。
已開發出多種不同方法用於偵測定序資料中之變體,諸如單核苷酸變體(single nucleotide variant,SNV)。大部分習知方法經開發用於從獲自組織樣本之DNA定序資料識別變體。此等方法可能不適合從獲自無細胞核酸樣本之深度定序資料識別變體。
對於癌症之非侵入式診斷及監測,無細胞核苷酸之標靶定序資料用作重要的生物資料來源。然而,偵測深度定序資料組中之變體引起了不同的挑戰:經定序片段之數目往往大若干個數量級(例如,定序深度可為2,000×或更大),使得大部分現有變體識別器(variant caller)在計算-時間及記憶體使用量方面變弱。
準確偵測變體之主要挑戰為在處理期間可能發生經定序片段損壞。經定序片段損壞的實例可為天然發生的或歸因於分析處理步驟的核苷酸取代。舉例而言,損壞可能由於核苷酸鹼基之自發性脫胺或由於末端修復誤差而發生。因為損壞發生在處理期間,所以現有變體識別器會將此等核苷酸鹼基改變鑑定為基因組中之變體。換言之,此損壞會造成系統誤差且會造成突變被錯誤地鑑定為例如假陽性。
處理系統使用模型用於各種應用,包括標靶定序、變體識別、品質控制及物理分析之統計分析。處理系統使用從樣本獲得之序列讀段產生候選變體,該樣本可以包括血液、腫瘤切片或其他體液或物質。候選變體可以包括單核苷酸變體、鹼基對之插入或缺失。處理系統可以確定無細胞核酸樣本或基因組核酸樣本中之候選變體之真實替代頻率(true alternate frequency)的似然度。在一些使用情況中,基因組核酸樣本來自白血球。處理系統可以使用真實替代頻率之似然度對候選變體進行評分或篩選。處理系統輸出經評分或經篩選之候選變體,其可用於變體識別或品質控制,例如藉由基於所估計的雜訊等級(noise level)篩選出潛在的假陽性。另外,處理系統可以從序列讀段產生特徵,其中該等特徵為預測癌症或疾病模型之輸入。
處理系統可以訓練及應用位點特異性雜訊模型,在本文中亦稱為「貝氏階層式模型(Bayesian hierarchical model)」、「雜訊模型」或「模型」,用於確定標靶定序中之真陽性之似然度。該模型可以使用貝氏推論確定雜訊之比率或等級,例如指示核酸序列之每個位置某些突變之期望似然度。此外,該模型可為階層式模型,其考慮共變數(例如,三核苷酸情況、可比對性(mappability)或區段性複製(segmental duplication))及各種類型之參數(例如,混合分量或序列讀段深度)。該模型可藉由馬可夫鏈蒙地卡羅法(Markov chain Monte Carlo),從健康受試者之序列讀段抽樣來訓練。因此,併入該模型之整體管線可以較高的靈敏度鑑定真陽性且篩選出假陽性。除了雜訊模型之外,處理系統亦可以訓練及應用基於從個體獲得之測試樣本來對個體之癌症或其他類型之疾病進行分類或預測的模型。
處理系統可以使用篩選方法來鑑定及移除在樣本處理期間出現的經識別變體。假影可能源自在cfDNA處理期間出現的各種來源,諸如自發性胞嘧啶脫胺及末端修復誤差。此等假影可由各種術語來提及,包括邊緣變體(edge variant)及假影變體(artifact variant)。作為此等假影過程之結果偵測到之經識別變體不反映受試者基因組中所存在的實際突變。在各種實施例中,本文中所揭示之篩選方法組合至少兩種分析。一種分析發生於樣本水準且分析在整個樣本中觀察到之經識別變體的分佈。另一分析發生於變體水準且考慮各經識別變體以判定經識別變體是否可能為假影過程之結果。組合此等分析允許個別經識別變體之樣本特異性篩選。作為示例場景,在樣本中鑑定之經識別變體可以歸類為邊緣變體(例如,由假影過程產生),而在不同樣本中鑑定之相同經識別變體可以歸類為非邊緣變體(例如,並非由假影過程產生)。
在各種實施例中,方法包含產生無細胞核酸樣本之複數個候選變體。該方法進一步包含確定該無細胞核酸樣本中及相應基因組核酸樣本中該等候選變體中之每一者的真實替代頻率之似然度。該方法進一步包含至少藉由模型,使用真實替代頻率之似然度,來篩選該等候選變體。在一些使用情況中,除了篩選之外或作為篩選之替代方案,該方法亦可包括對該等候選變體進行評分。該方法進一步包含輸出經篩選之候選變體。
在一或多個實施例中,該方法進一步包括藉由移除至少一個與同義突變有關之候選變體來篩選候選變體。
在一或多個實施例中,對於候選變體中之至少一者,確定真實替代頻率之似然度進一步包括確定來自受試者之無細胞核酸樣本之第一序列讀段的第一深度及第一替代深度。該方法進一步包括確定來自該受試者之基因組核酸樣本之第二序列讀段之第二深度及第二替代深度。該方法進一步包括藉由使用經無細胞核酸樣本之第一深度及真實替代頻率參數化的第一函數模型化第一替代深度來確定無細胞核酸樣本之真實替代頻率之第一似然度。該方法進一步包括藉由使用經基因組核酸樣本之第二深度及真實替代頻率參數化的第二函數模型化第二替代深度來確定基因組核酸樣本之真實替代頻率之第二似然度。該模型至少藉由使用該第一似然度、該第二似然度及一或多個參數來確定該無細胞核酸樣本之真實替代頻率大於該基因組核酸樣本之真實替代頻率之函數的機率,從而篩選該等候選變體。
在一或多個實施例中,第一函數為經無細胞核酸樣本之第一深度中之一者與真實替代頻率之乘積參數化的卜瓦松分佈(Poisson distribution)函數。第二函數為經基因組核酸樣本之第二深度中之一者與真實替代頻率之另一乘積參數化的另一卜瓦松分佈函數。
在一或多個實施例中,機率表示在來自受試者之基因組核酸樣本之第二序列讀段中未發現來自無細胞核酸樣本之第一序列讀段之(例如,核苷酸)突變的信賴等級(confidence level)。
在一或多個實施例中,該方法進一步包括:響應於確定該機率大於一或多個參數中之一者,確定在來自受試者之基因組核酸樣本之第二序列讀段中未發現來自無細胞核酸樣本之第一序列讀段的至少一些(例如,核苷酸)突變。
在一或多個實施例中,確定該機率包括確定無細胞核酸樣本之真實替代頻率比基因組核酸樣本之真實替代頻率乘以一或多個參數中之一者大的機率。
在一或多個實施例中,確定該機率包括確定第一似然度及第二似然度之聯合似然度(joint likelihood),其中第一似然度及第二似然度條件獨立地給予第一序列讀段及第二序列讀段。
在一或多個實施例中,確定該機率包含藉由確定第一及第二似然度中之一者之累積和及確定第一及第二似然度中之另一者之積分而對第一似然度及第二似然度之聯合似然度進行數值近似。
在一或多個實施例中,一或多個參數包括使用第三函數,採用健康基因組核酸樣本之替代頻率作為輸入而確定的第一參數。
在一或多個實施例中,第三函數係由用於防止序列讀段中之雜合性缺失(loss of heterozygosity)事件之準則定義。
在一或多個實施例中,第三函數為非線性函數。
在一或多個實施例中,該準則指示第一參數之值為3且健康基因組核酸樣本之替代頻率之下臨限值為1/3。
在一或多個實施例中,該一或多個參數包括第二參數。第一及第二參數係藉由用複數個個體之多組無細胞核酸樣本及基因組核酸樣本交叉驗證,憑經驗確定。
在一或多個實施例中,第一參數具有介於1與5之間且包括端值的值,且第二參數具有另一個介於0.5與1之間的值。
在一或多個實施例中,交叉驗證包括應用使用與複數種類型之疾病有關之樣本得到的候選參數值以測試與不同類型之疾病有關之另一樣本。
在一或多個實施例中,該方法進一步包括使用經第一參數參數化的第三函數確定相對於健康無細胞核酸樣本之(例如,核苷酸)突變之第一雜訊等級,其中使用該第一雜訊等級進一步確定受試者之無細胞核酸之真實替代頻率之第一似然度。該方法進一步包括使用經第二參數參數化的第四函數確定相對於健康基因組核酸樣本之(例如,核苷酸)突變之第二雜訊等級,其中使用該第二雜訊等級進一步確定受試者之基因組核酸之真實替代頻率之第二似然度。
在一或多個實施例中,模型化第一替代深度包括向第一函數之輸出中添加第一雜訊等級,且模型化第二替代深度包括向第二函數之另一輸出中添加第二雜訊等級。
在一或多個實施例中,第一及第二參數表示編碼關於序列讀段之指定位置之(例如,核苷酸)突變的雜訊等級的分佈之參數。
在一或多個實施例中,第三及第四函數各自為經平均比率及離勢參數(dispersion parameter)參數化的負二項函數(negative binomial function)。
在一或多個實施例中,第三及第四函數為相同類型之函數且經相同類型之參數參數化。
在一或多個實施例中,第一參數係使用第一模型得到,該第一模型係使用一組無細胞核酸樣本訓練,且第二參數係使用第二模型得到,該第二模型係使用一組基因組核酸樣本訓練。
在一或多個實施例中,該組基因組核酸樣本來自白血球。
在一或多個實施例中,第一及第二模型為貝氏階層式模型。
在一或多個實施例中,第一及第二模型為相同類型之模型。
在一或多個實施例中,該方法進一步包括從受試者之血液樣本收集或已收集無細胞核酸樣本。該方法進一步包括對無細胞核酸樣本進行富集以產生第一序列讀段。
在一或多個實施例中,第一序列讀段係從該受試者之以下樣本獲得:血液、全血、血漿、血清、尿液、腦脊髓液、糞便、唾液、淚液、組織切片、胸膜液、心包液或腹膜液。
在一或多個實施例中,第一序列讀段係從來自受試者之包括至少CD4+細胞之血液的細胞分離物獲得。
在一或多個實施例中,第二序列讀段係從獲自受試者之腫瘤切片的腫瘤細胞獲得。
在一或多個實施例中,第二序列讀段係從受試者之白血球獲得。
在一或多個實施例中,該方法進一步包括:響應於以下確定來自無細胞核酸樣本之第一序列讀段之候選變體與基因組核酸樣本之核苷酸突變有關:確定該機率小於臨限機率,及確定來自基因組核酸樣本之第二序列讀段之第二替代深度中之一者大於零。
在一或多個實施例中,臨限機率等於0.8。
在一或多個實施例中,該方法進一步包括:對於來自無細胞核酸樣本之第一序列讀段之候選變體,響應於(i)確定該機率小於臨限機率及(ii)確定來自與候選變體有關之基因組核酸樣本之第二序列讀段之第二替代深度中之一者等於零:使用第一深度、第一替代深度、第二深度及第二替代深度確定比率,及響應於至少確定該比率小於臨限比率,確定候選變體可能與基因組核酸樣本之(例如,核苷酸)突變有關。
在一或多個實施例中,基於確定候選變體可能與基因組核酸樣本之(例如,核苷酸)突變有關,確定候選變體之一或多個參數中之至少一者。
在一或多個實施例中,該方法進一步包括確定對應於候選變體之第一組之一或多個參數。該方法進一步包括使用第一組之一或多個參數對候選變體應用第一篩選。該方法進一步包括:響應於確定另一候選變體不可能與基因組核酸樣本之另一(例如,核苷酸)突變有關,確定對應於另一候選變體之第二組之一或多個參數。該方法進一步包括使用第二組之一或多個參數對另一候選變體應用第二篩選,第二篩選具有比第一篩選之篩選準則更嚴格的篩選準則。
在一或多個實施例中,該方法進一步包括使用第二序列讀段之第二替代深度確定gDNA深度品質評分。其中確定候選變體可能與(例如,核苷酸)突變有關進一步響應於確定gDNA深度品質評分大於或等於臨限評分。
在一或多個實施例中,臨限評分為1。
在一或多個實施例中,該方法進一步包括:藉由確定第一序列讀段滿足複數個準則中之至少一者,確定篩選來自無細胞核酸樣本之第一序列讀段之候選變體。
在一或多個實施例中,確定第一序列讀段是否滿足複數個準則中之至少一者包括確定候選變體為邊緣變體假影。
在一或多個實施例中,確定第一序列讀段是否滿足複數個準則中之至少一者包括確定第一序列讀段之第一深度中之一者小於臨限深度。
在一或多個實施例中,確定第一序列讀段是否滿足複數個準則中之至少一者包括確定第一序列中類似於一或多個生殖系突變之(例如,核苷酸)突變之頻率大於臨限頻率,及確定(例如,核苷酸)突變位於與生殖系突變有關之位置。
在一或多個實施例中,該方法進一步包含使用經篩選之序列讀段產生一或多個特徵之值。該方法進一步包含將一或多個特徵之值輸入預測癌症模型中以產生對受試者之癌症預測,該預測癌症模型經由包含學習權數(learned weight)之函數將一或多個特徵之值轉換為對受試者之癌症預測。該方法進一步包含提供對受試者之癌症預測。
在一或多個實施例中,一或多個特徵包含以下中之一或多者:體細胞變體之總數目、非同義變體之總數目、同義變體之總數目、一組基因中體細胞變體/基因之存在或不存在、已知與癌症有關之特定基因之體細胞變體之存在或不存在、一組基因中體細胞變體/基因之對偶基因頻率、根據體細胞變體之AF的秩順序(ranked order)及體細胞變體/類別之對偶基因頻率。
在一或多個實施例中,對於複數個候選變體之候選變體,藉由模型篩選候選變體包括:確定無細胞核酸樣本中之候選變體之真實替代頻率大於相應基因組核酸樣本中之候選變體之真實替代頻率之函數的機率。該篩選進一步包括確定該機率小於臨限機率。該篩選進一步包括確定基因組核酸樣本中之候選變體之替代深度大於臨限深度。該篩選進一步包括使用無細胞核酸樣本之深度及替代深度及基因組核酸樣本之另一深度及替代深度來確定比率。該篩選進一步包括使用基因組核酸樣本之替代深度確定gDNA深度品質評分。該篩選進一步包括:響應於以下確定候選變體可能與基因組核酸樣本之(例如,核苷酸)突變有關:確定該比率小於臨限比率,及確定gDNA深度品質評分大於或等於臨限評分。
在各種實施例中,方法包含確定來自受試者之無細胞核酸樣本之第一序列讀段之第一深度及第一替代深度。該方法進一步包含確定來自受試者之基因組核酸樣本之第二序列讀段之第二深度及第二替代深度。該方法進一步包含藉由使用經無細胞核酸樣本之第一深度及真實替代頻率參數化的第一函數模型化第一替代深度來確定無細胞核酸樣本之真實替代頻率之第一似然度。該方法進一步包含藉由使用經基因組核酸樣本之第二深度及真實替代頻率參數化的第二函數模型化第二替代深度來確定基因組核酸樣本之真實替代頻率之第二似然度。該方法進一步包含至少藉由使用第一似然度、第二似然度及一或多個參數確定無細胞核酸樣本之真實替代頻率大於基因組核酸樣本之真實替代頻率之函數的機率來篩選受試者之候選變體。該方法進一步包含輸出經篩選之候選變體。
處理系統可以鑒於使用從先驗樣本(例如,訓練樣本)獲得之先前歸類之邊緣變體及先前歸類之非邊緣變體產生的分佈而進行樣本特異性分析或變體特異性分析。舉例而言,第一分佈描述先前歸類之邊緣變體之特徵的分佈,而第二分佈描述先前歸類之非邊緣變體之特徵的分佈。特徵可能與邊緣變體或非邊緣變體之序列讀段內突變的核苷酸鹼基之位置相關。舉例而言,一個特定特徵可為距離在序列讀段內偵測到突變的核苷酸鹼基之序列讀段之邊緣的中值距離。
在各種實施例中,樣本特異性分析採用確定樣本中之假影之預測比率的樣本特異性比率預測模型。舉例而言,樣本特異性分析可以包括進行似然度估計以確定樣本中之邊緣變體之預測比率。此處,預測比率可以鑒於第一分佈及第二分佈而最佳地解釋在樣本內所觀察到之經識別變體之分佈。高預測比率指示樣本內所觀察到之經識別變體之分佈較類似於描述已知邊緣變體之特徵的第一分佈。換言之,在樣本內觀察到之大比例的經識別變體可能係歸因於假影過程。類似於此的實例結果表明使用侵入性較大的篩選方法來鑑定及消除樣本中之邊緣變體。另一方面,低預測比率指示在樣本內觀察到之經識別變體的分佈較類似於描述已知非邊緣變體之特徵的第二分佈。換言之,在樣本內觀察到之小比例的經識別變體可能係歸因於假影過程。類似於此的實例結果表明使用侵入性較小的篩選方法來鑑定及消除樣本中之邊緣變體。
在各種實施例中,變體特異性分析採用邊緣變體預測模型,其鑒於第一及第二分佈來分析特定經識別變體之特徵。邊緣變體預測模型輸出假影評分以及非假影評分,假影評分表示經識別變體為處理假影之結果的似然度,非假影評分表示經識別變體為非邊緣變體之似然度。對於各經識別變體,將樣本特異性預測比率與經識別變體之假影評分及非假影評分組合。因此,藉由考慮樣本特異性分析及變體特異性分析,將經識別變體鑑定為邊緣變體或非邊緣變體。邊緣變體可被篩選出,而非邊緣變體則被保留。
在各種實施例中,方法包含產生無細胞核酸樣本之複數個候選變體。該方法進一步包含確定該無細胞核酸樣本中及相應基因組核酸樣本中該等候選變體中之每一者的真實替代頻率之似然度。該方法進一步包含至少藉由模型,使用真實替代頻率之似然度,來篩選該等候選變體。該方法進一步包含藉由確定候選變體中之每一者之邊緣變體機率來篩選候選變體,邊緣變體機率指示候選變體為邊緣變體之機率。該方法進一步包含輸出經篩選之候選變體。
在各種實施例中,篩選候選變體包括接收位於序列讀段上之替代性對偶基因,該等序列讀段係從基因組中之複數個位置獲得。該方法進一步包括基於所接收之替代性對偶基因來確定無細胞核酸樣本之邊緣變體的預測比率。對於複數個位置之子集中之每一者,該方法進一步包括:從獲自該位置之序列讀段提取特徵;將所提取之特徵作為輸入應用於經訓練模型以獲得該位置之假影評分及該位置之非假影評分,假影評分反映位於從該位置獲得之序列讀段上之替代性對偶基因為處理假影之結果的似然度,非假影評分反映位於從該位置獲得之序列讀段上之替代性對偶基因不是處理假影之結果的似然度;藉由組合該位置之假影評分、該位置之非假影評分及無細胞核酸樣本之假影的預測比率,產生該位置之邊緣變體機率;及基於邊緣變體機率,將該位置之候選變體中之一者報告為邊緣變體。
在一或多個實施例中,無細胞核酸樣本之邊緣變體係歸因於序列讀段中之一或多者之部分的自發性脫胺。
在一或多個實施例中,確定無細胞核酸樣本之邊緣變體的預測比率包括鑒於所接收之替代性對偶基因進行基於似然度之估計以產生估計量,及基於最大似然估計量(maximum likelihood estimator)選擇邊緣變體之預測比率。
在一或多個實施例中,基於似然度之估計進一步鑒於由歸類為假影類別之序列讀段產生之第一分佈來進行。
在一或多個實施例中,基於似然度之估計進一步鑒於由歸類為非假影類別之序列讀段產生之第二分佈來進行。
在一或多個實施例中,從該位置之序列讀段中提取之特徵中之一者為替代性對偶基因在定序讀段之子集上之位置與定序讀段之子集之邊緣之間的中值距離。
在一或多個實施例中,從該位置之序列讀段提取之特徵中之一者為顯著性評分,其表示以下兩者之間的差值:1)替代性對偶基因在定序讀段之第一子集上之位置與第一子集中定序讀段之邊緣之間的第一中值距離,及2)參考對偶基因在定序讀段之第二子集上之位置與第二子集中定序讀段之邊緣之間的第二中值距離。
在一或多個實施例中,從該位置之序列讀段提取之特徵中之一者為對偶基因分率,其表示含有交叉一位置之替代性對偶基因之序列讀段的分率。
在一或多個實施例中,基於邊緣變體機率將經識別變體報告為邊緣變體包括:將邊緣變體機率與臨限值進行比較,及基於該比較,將經識別變體報告為邊緣變體。
在一或多個實施例中,對於複數個位置中之各位置,基因組中包括在複數個位置之子集中之位置係藉由以下確定:鑑定對應於該位置之經識別變體的突變類型;及確定該經識別變體之突變類型是否為胞嘧啶至胸腺嘧啶或鳥嘌呤至腺嘌呤鹼基取代中之一者。
在一或多個實施例中,經訓練模型藉由以下訓練:接收訓練資料,其包含位於訓練序列讀段上之替代性對偶基因,該等訓練序列讀段從基因組中之複數個位置獲得;基於位於該訓練序列讀段上之該替代性對偶基因之特性,將該等訓練序列讀段中之每一者歸類為兩個或更多個類別;對於訓練變體之該兩個或更多個類別中之每一者,從歸類為該類別中之訓練序列讀段提取特徵,及基於所提取之特徵產生分佈。
在一或多個實施例中,訓練序列讀段之特性包含替代讀段之核苷酸鹼基突變之類型,且其中將該等訓練序列讀段中之每一者歸類為兩個或更多個類別包含:基於該訓練序列讀段上之該替代性對偶基因之核苷酸鹼基突變之類型,將各訓練序列讀段歸類為假影類別或非假影類別中之一者。
在一或多個實施例中,歸類為假影類別之訓練序列讀段各自包括替代讀段,其為胞嘧啶至胸腺嘧啶突變或鳥嘌呤至腺嘌呤突變。
在一或多個實施例中,歸類為假影類別之訓練序列讀段各自包括位於與訓練定序讀段之邊緣距離臨限距離內之替代性對偶基因。
在一或多個實施例中,歸類為非假影類別之訓練序列讀段各自包括替代性對偶基因,其位於與訓練定序讀段之邊緣距離臨限距離之外或為除胞嘧啶至胸腺嘧啶突變或鳥嘌呤至腺嘌呤突變外之鹼基取代。
本文中所揭示之實施例描述一種用於偵測受試者中之癌症之存在的方法,該方法包含:獲得由來自受試者之測試樣本中之複數個無細胞核酸產生之定序資料,其中定序資料包含從複數個無細胞核酸確定的複數個序列讀段;使用適合程式化電腦分析該複數個序列讀段以鑑定一或多個基於定序之特徵;基於一或多個特徵之分析,偵測癌症之存在,其中癌症之存在係以至少約95%之特異性及至少約30%靈敏度之靈敏度偵測。
在一些實施例中,癌症之存在係以至少約95%之特異性及至少約50%靈敏度之靈敏度偵測。在一些實施例中,癌症之存在係以至少約95%之特異性及至少約60%靈敏度之靈敏度偵測。在一些實施例中,癌症之存在係以至少約95%之特異性及至少約70%靈敏度之靈敏度偵測。在一些實施例中,癌症之存在係以至少約95%之特異性及至少約80%靈敏度之靈敏度偵測。在一些實施例中,癌症之存在係以至少約95%之特異性及至少約90%靈敏度之靈敏度偵測。在一些實施例中,癌症之存在係以至少約95%之特異性及至少約95%靈敏度之靈敏度偵測。在一些實施例中,癌症之存在係以至少約99%之特異性及至少約35%靈敏度之靈敏度偵測。在一些實施例中,癌症之存在係以至少約95%之特異性及至少約40%靈敏度之靈敏度偵測。在一些實施例中,癌症之存在係以至少約95%之特異性及至少約45%靈敏度之靈敏度偵測。在一些實施例中,癌症之存在係以至少約96%、97%、98%、99%、99.5%、99.8%或99.9%之特異性偵測。在一些實施例中,癌症之存在係以至少約55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%或95%之特異性偵測。
本文中所揭示之實施例進一步描述一種用於偵測無症狀受試者中之癌症之存在的方法,該方法包含:獲得由來自無症狀受試者之測試樣本中之複數個無細胞核酸產生之定序資料;使用適合程式化電腦分析定序資料以鑑定一或多個基於定序之特徵;基於一或多個特徵之分析偵測癌症之存在,其中有關癌症之存在的接收者操作特性(receiver operating characteristic,ROC)之曲線下面積(area under the curve,AUC)大於0.60。在一些實施例中,AUC大於0.65、0.70、0.75、0.80、0.85、0.90、0.95、0.97、0.98或0.99。
本文中所揭示之實施例進一步描述一種用於偵測無症狀受試者中之癌症之存在的方法,該方法包含:獲得由來自無症狀受試者之測試樣本中之複數個無細胞核酸產生之定序資料;使用適合程式化電腦分析定序資料以鑑定一或多個基於定序之特徵;基於一或多個特徵之分析偵測癌症之存在,其中癌症之存在係以至少約30%之陽性預測估計值偵測。
在一些實施例中,癌症之存在係以至少35%、40%、45%、50%、55%、60%、65%、70%或75%之陽性預測估計值偵測。在一些實施例中,該方法偵測兩種或更多種不同類型的癌症。在一些實施例中,該方法偵測三種或更多種不同類型的癌症。在一些實施例中,該方法偵測五種或更多種不同類型的癌症。在一些實施例中,該方法偵測十種或更多種不同類型的癌症。在一些實施例中,該方法偵測二十種或更多種不同類型的癌症。在一些實施例中,兩種或更多種不同類型的癌症係選自乳癌、肺癌、前列腺癌、結腸直腸癌、腎癌、子宮癌、胰臟癌、食道癌、淋巴瘤、頭頸癌、卵巢癌、肝膽癌、黑素瘤、子宮頸癌、多發性骨髓瘤、白血病、甲狀腺癌、膀胱癌、胃癌、肛門直腸癌及其任何組合。
在一些實施例中,受試者無症狀。在一些實施例中,無細胞核酸包含無細胞DNA (cfDNA)。在一些實施例中,序列讀段由次世代定序(next generation sequencing,NGS)程序產生。在一些實施例中,序列讀段由大規模平行定序程序,使用合成定序產生。
在一些實施例中,一或多個特徵至少係從對測試樣本中之複數個無細胞核酸之小變體定序分析得到。
在一些實施例中,小變體定序分析為標靶定序分析,且其中序列資料係從一組標靶基因得到。在一些實施例中,該組標靶基因包含介於2個與10,000個之間的基因。在一些實施例中,基於從小變體定序分析確定的一或多個特徵之分析偵測癌症之存在。在一些實施例中,小變體定序分析特徵包含以下中之一或多者:體細胞變體之總數目、非同義變體之總數目、同義變體之總數目、體細胞變體/基因之存在/不存在、已知與癌症有關之特定基因之體細胞變體之存在/不存在、體細胞變體/基因之對偶基因頻率、根據體細胞變體之AF的順序統計量及已知與癌症有關之體細胞變體之基於其對偶基因頻率的分類。在一些實施例中,該方法進一步包含從受試者之一或多個白血球獲得基因組DNA之序列資料,其中定序資料包含從基因組DNA確定的複數個序列讀段且其中該分析包含將來自受試者之無細胞核酸之序列資料與來自受試者之一或多個白血球之DNA的序列資料進行比較,以鑑定一或多個腫瘤衍生之小變體定序分析特徵。
在一些實施例中,所偵測之癌症為I期癌症。在一些實施例中,所偵測之癌症為II期癌症。在一些實施例中,所偵測之癌症為III期癌症。在一些實施例中,所偵測之癌症為IV期癌症。在一些實施例中,所偵測之癌症為乳癌、肺癌、結腸直腸癌、卵巢癌、子宮癌、黑素瘤、腎癌、胰臟癌、甲狀腺癌、胃癌、肝膽癌、食道癌、前列腺癌、淋巴瘤、多發性骨髓瘤、頭頸癌、膀胱癌、子宮頸癌或其任何組合。在一些實施例中,該方法進一步包含基於對來自測試樣本之序列讀段之分析而將乳癌分類為HR陽性、HER2過度表現、HER2擴增或三陰性。
在一些實施例中,該分析進一步包含偵測測試樣本中一或多個病毒衍生之核酸之存在且其中癌症之偵測部分地基於一或多個病毒核酸之偵測。舉例而言,在一個實施例中,一或多個特徵可以包括病毒衍生之核酸之存在/不存在或從病毒衍生之核酸確定的病毒負荷。在一些實施例中,一或多個病毒衍生之核酸係選自由以下組成之群:人類乳突狀瘤病毒、埃-巴二氏病毒(Epstein-Barr virus)、B型肝炎、C型肝炎及其任何組合。
在一些實施例中,測試樣本為血液、血漿、血清、尿液、腦脊髓液、糞便物質、唾液、胸膜液、心包液、子宮頸拭子、唾液或腹膜液樣本。
相關申請案之交叉參考
本申請案主張以下各者之優先權權益:2018年6月1日申請之美國臨時申請案第62/679,347號;2018年3月13日申請之美國臨時申請案第62/642,301號;2017年12月27日申請之美國臨時申請案第62/610,917號;及2017年11月28日申請之美國臨時申請案第62/591,637號,其均出於所有目的以全文引用之方式併入本文中。
現將詳細參考若干實施例,其實例說明於附圖中。應注意,在可行的情況下,可以在圖中使用類似或相似的圖式元件符號,且該等類似或相似的圖式元件符號可以指示類似或相似的功能。舉例而言,圖式元件符號後之字母,諸如「序列讀段180A」,指示本文特指具有該特定圖式元件符號的元件。本文中沒有後續字母之圖式元件符號,諸如「序列讀段180」,係指圖中攜帶該圖式元件符號的任何或所有元件(例如,本文中之「序列讀段180」係指圖中之圖式元件符號「序列讀段180A」及/或「序列讀段180B」)。 I. 定義
術語「個體」係指人類個體。術語「健康個體」係指假定沒有癌症或疾病之個體。術語「受試者」係指已知具有或可能具有癌症或疾病之個體。
術語「序列讀段」係指來自從個體獲得之樣本的核苷酸序列讀段。序列讀段可以經由此項技術中已知之各種方法獲得。
術語「讀段區段」或「讀段」係指從個體獲得之任何核苷酸序列,包括序列讀段,及/或源自從個體獲得之樣本之初始序列讀段的核苷酸序列。舉例而言,讀段區段可以指對準的序列讀段、摺疊的序列讀段或拼接的讀段。此外,讀段區段可以指個別核苷酸鹼基,諸如單核苷酸變體。
術語「單核苷酸變體」或「SNV」係指在核苷酸序列,例如來自個體之序列讀段之位置(例如,位點),將一個核苷酸取代為不同核苷酸。從第一核鹼基X至第二核鹼基Y之取代可表示為「X>Y」。舉例而言,胞嘧啶至胸腺嘧啶SNV可表示為「C>T」。
術語「插入或缺失(indel)」係指在序列讀段中一或多個具有長度及位置(其亦可稱為錨定位置)之鹼基的任何插入或缺失。插入對應於正長度,而缺失對應於負長度。
術語「突變」係指一或多個SNV或插入或缺失。
術語「候選變體」、「經識別變體」或「假定變體」係指核苷酸序列之一或多個所偵測之核苷酸變體,例如,在基因組中確定發生突變的位置(亦即,候選SNV)或在一或多個鹼基處之插入或缺失(亦即,候選插入或缺失)。一般而言,基於在序列讀段或摺疊讀段上存在替代性對偶基因而認為核苷酸鹼基為經識別變體,其中在該(等)位置之核苷酸鹼基不同於在參考基因組中之核苷酸鹼基。另外,候選變體可被識別為真陽性或假陽性。
術語「真陽性」係指指示真實生物學之突變,例如在個體中存在潛在癌症、疾病或生殖系突變。真陽性不是由健康個體中天然產生之突變(例如,頻發突變)或其他假影來源引起的,其他假影來源諸如在核酸樣本之分析製備期間的過程誤差。
術語「假陽性」係指錯誤地判定為真陽性的突變。一般而言,假陽性較可能在處理與較大的平均雜訊率或雜訊率之較大的不確定性有關之序列讀段時出現。
術語「無細胞核酸」或「cfNA」係指可以在細胞外、在諸如血液、汗液、尿液或唾液之體液中發現的核酸分子。無細胞核酸可互換地用作循環核酸。
術語「無細胞核酸」、「無細胞DNA」或「cfDNA」係指在諸如血液、汗液、尿液或唾液之體液中循環且源自一或多個健康細胞及/或源自一或多個癌細胞的去氧核糖核酸片段。
術語「循環腫瘤DNA」或「ctDNA」係指源自腫瘤細胞或其他類型之癌細胞的去氧核糖核酸片段,其可作為垂死細胞之諸如細胞凋亡或壞死之生物過程的結果而被釋放至個體之體液中,體液諸如血液、汗液、尿液或唾液,或由活的腫瘤細胞主動釋放。
術語「循環腫瘤RNA」或「ctRNA」係指源自腫瘤細胞或其他類型之癌細胞的核糖核酸片段,其可作為垂死細胞之諸如細胞凋亡或壞死之生物過程的結果而被釋放至個體之體液中,體液諸如血液、汗液、尿液或唾液,或由活的腫瘤細胞主動釋放。
術語「基因組核酸」、「基因組DNA」或「gDNA」係指源自一或多個健康細胞之核酸,包括染色體DNA。
術語「替代性對偶基因」或「ALT」係指相對於參考對偶基因具有一或多個突變的對偶基因,例如對應於已知基因。
術語「定序深度」或「深度」係指來自從個體之指定位置、區域或基因座獲得的樣本之讀段區段的總數目。在一些實施例中,深度係指基因組內或一組標靶定序內的平均定序深度。
術語「替代深度」或「AD」係指樣本中支撐ALT,例如包括ALT之突變的讀段區段之數目。
術語「參考深度」係指樣本中在候選變體位置包括參考對偶基因之讀段區段的數目。
術語「替代頻率」或「AF」係指指定ALT之頻率。AF可藉由樣本之相應AD除以指定ALT之樣本深度來確定。
術語「變體」或「真變體」係指基因組中在某一位置之突變的核苷酸鹼基。此類變體會引起癌症在個體中之發展及/或進展。
術語「邊緣變體」係指位於序列讀段之邊緣附近,例如與序列讀段之邊緣的核苷酸鹼基在臨限距離內的突變。
術語「非邊緣變體」係指例如使用本文中所述之邊緣變體篩選方法確定不是由假影過程產生的候選變體。在一些情況下,非邊緣變體可能不是真變體(例如,基因組中之突變),因為非邊緣變體可能因為不同原因而出現,與一或多個假影過程相反。 II. 實例分析方案
圖1A為根據一個實施例用於製備定序用核酸樣本之方法100的流程圖。方法100包括(但不限於)以下步驟。舉例而言,方法100之任何步驟可以包含針對熟習此項技術者已知的品質控制或其他實驗室分析程序的定量子步驟。
在步驟110,從受試者獲得包含複數個核酸分子(DNA或RNA)之測試樣本,且從測試樣本提取及/或純化核酸。在本發明中,除非另有指示,否則DNA及RNA可互換使用。亦即,在變體識別及品質控制中使用誤差源資訊的以下實施例可適用於DNA及RNA類型之核酸序列。然而,為了清楚及解釋的目的,本文中所述之實例可以聚焦於DNA。所提取樣本中之核酸可以包含整個人類基因組,或人類基因組之任何子集,包括整個外顯子組。或者,該樣本可為人類轉錄組之任何子集,包括整個轉錄組。測試樣本可以從已知具有或疑似具有癌症之受試者獲得。在一些實施例中,測試樣本可以包括血液、血漿、血清、尿液、糞便、唾液、其他類型之體液或其任何組合。或者,測試樣本可以包含選自由以下組成之群的樣本:全血、血液分離物、組織切片、胸膜液、心包液、腦脊髓液及腹膜液。在一些實施例中,抽取血液樣本之方法(例如,注射器或手指刺破)的侵入性可低於用於獲得組織切片之程序,該程序可能需要手術。所提取樣本可以包含cfDNA及/或ctDNA。對於健康個體,人體能夠自然清除cfDNA及其他細胞碎片。一般而言,可使用此項技術中之任何已知方法從測試樣本提取及純化無細胞核酸。舉例而言,可以使用一或多種已知市售方案或套組,諸如QIAamp循環核酸套組(QIAGEN®),提取及純化無細胞核酸。若受試者具有癌症或疾病,則所提取樣本中之ctDNA可以可偵測含量存在以便診斷。
在步驟120,製備定序庫。在庫製備期間,例如經由轉接子(adapter)連接(使用T4或T7 DNA連接酶)或此項技術中之其他已知方法,向核酸分子(例如,DNA分子)中添加包含獨特分子標識符(unique molecular identifiers,UMI)之定序轉接子。UMI為短核酸序列(例如,4-10個鹼基對),其被添加至DNA片段之末端且用作可用於鑑定源自特異性DNA片段之核酸(或序列讀段)的獨特標記。在轉接子添加之後,例如使用聚合酶鏈反應(polymerase chain reaction,PCR),擴增轉接子-核酸構築體。在PCR擴增期間,將UMI連同所連接的DNA片段一起複製,其提供一種用於在下游分析中鑑定來自同一個原始片段之序列讀段的方法。視情況,如此項技術中所熟知,定序轉接子可進一步包含通用引子、樣本特異性條碼(用於多工處理)及/或一或多個用於後續簇產生及/或定序之定序寡核苷酸(例如,用於合成定序(sequencing by synthesis,SBS)中之已知P5及P7序列(ILLUMINA®, San Diego, CA))。
在步驟130,從庫中富集標靶DNA序列。根據一個實施例,在標靶富集期間,使用雜交探針(在本文中亦稱為「探針」)來靶向及下拉已知能或可能能提供關於癌症(或疾病)之存在或不存在、癌症狀態或癌症分類(例如,癌症類型或源組織)的資訊的核酸片段。對於指定工作流程,可將探針設計成黏接(或雜交)至DNA或RNA之目標(互補)股。目標股可為「正」股(例如,轉錄成mRNA且隨後轉譯成蛋白質之股)或互補「負」股。探針長度可在10s、100s或1000s個鹼基對之範圍內。在一個實施例中,基於一組基因設計探針以分析(例如,人類或另一生物體之)基因組之疑似對應於某些癌症或其他類型之疾病的特定突變或目標區域。此外,探針可以覆蓋目標區域之重疊部分。如熟習此項技術者將容易地瞭解,可以使用此項技術中之任何已知方法進行標靶富集。舉例而言,在一個實施例中,探針可經生物素標記且使用經抗生蛋白鏈菌素塗佈之磁珠來富集由探針捕捉之目標核酸。參見例如Duncavage等人, J Mol Diagn. 13(3): 325-333 (2011);及Newman等人, Nat Med. 20(5): 548-554 (2014)。藉由使用一組標靶基因而非定序全基因組(「全基因組定序」)--基因組之所有表現基因(「全外顯子組定序」或「全轉錄組定序」),方法100可用於增加目標區域之定序深度,其中深度係指樣本內之指定目標序列之已定序次數的計數。增加定序深度允許偵測樣本中之罕見的序列變體及/或增加定序方法之處理量。在雜交步驟之後,捕捉已雜交核酸片段且亦可使用PCR對其進行擴增。
圖1B為根據一個實施例之用於獲得序列讀段之方法的圖形表示。圖1B描繪來自樣本之核酸區段160之一個實例。此處,核酸區段160可為單股核酸區段,諸如單股DNA或單股RNA區段。在一些實施例中,核酸區段160為雙股cfDNA區段。所示實例描繪核酸區段160之可被不同探針靶向的三個區域165A、165B及165C。具體而言,三個區域165A、165B及165C中之每一者包括在核酸區段160上之重疊位置。實例重疊位置在圖1B中被描繪為胞嘧啶(「C」)核苷酸鹼基162。胞嘧啶核苷酸鹼基162位於區域165A之第一邊緣附近、區域165B之中心及區域165C之第二邊緣附近。
在一些實施例中,基於一組基因設計探針中之一或多者(或全部)以分析(例如,人類或另一生物體之)基因組之疑似對應於某些癌症或其他類型之疾病的特定突變或目標區域。藉由使用一組標靶基因而非定序基因組之所有表現基因,亦稱為「全外顯子組定序」,方法100可用於增加目標區域之定序深度,其中深度係指樣本內之指定目標序列之已定序次數的計數。增加定序深度可降低核酸樣本之所需要的輸入量。
使用一或多個探針雜交核酸樣本160以獲得對目標序列170之理解。如圖1B中所示,目標序列170為由雜交探針所靶向之區域165的核苷酸鹼基序列。目標序列170亦可以稱作經雜交之核酸片段。舉例而言,目標序列170A對應於由第一雜交探針靶向之區域165A,目標序列170B對應於由第二雜交探針靶向之區域165B,且目標序列170C對應於由第三雜交探針靶向之區域165C。鑒於胞嘧啶核苷酸鹼基162位於由雜交探針靶向之各區域165A-C內之不同位置,各目標序列170包括對應於目標序列170上之特定位置處之胞嘧啶核苷酸鹼基162的核苷酸鹼基。
在圖1B之實例中,目標序列170A及目標序列170C各自具有位於目標序列170A及170C之邊緣附近的核苷酸鹼基(顯示為胸腺嘧啶「T」)。此處,胸腺嘧啶核苷酸鹼基(例如,與胞嘧啶鹼基相對)可為隨機胞嘧啶脫胺過程之結果,其引起胞嘧啶鹼基隨後在定序過程期間被識別為胸腺嘧啶核苷酸鹼基。因此,可以認為目標序列170A及170C之C>T SNV為邊緣變體,因為突變位於目標序列170A及170C之邊緣。胞嘧啶脫胺過程會導致下游定序假影,其阻止核酸區段160中之實際核苷酸鹼基對之準確捕捉。另外,目標序列170B具有位於目標序列170B之中心的胞嘧啶鹼基。此處,位於中心之胞嘧啶鹼基對胞嘧啶脫胺不太敏感。
在雜交步驟之後,捕捉已雜交核酸片段且亦可使用PCR對其進行擴增。舉例而言,可以富集目標序列170以獲得經富集序列180,隨後可以對其進行定序。在一些實施例中,各經富集序列180係從目標序列170複製。分別從目標序列170A及170C擴增之經富集序列180A及180C亦包括位於各序列讀段180A或180C之邊緣附近的胸腺嘧啶核苷酸鹼基。如下文所使用,經富集序列180中相對於參考對偶基因(例如,胞嘧啶核苷酸鹼基162)突變的突變核苷酸鹼基(例如,胸腺嘧啶核苷酸鹼基)視為替代性對偶基因。另外,從目標序列170B擴增之各經富集序列180B包括位於各經富集序列180B之附近或中心的胞嘧啶核苷酸鹼基。
在步驟140,由經富集核酸分子(例如,DNA分子)產生序列讀段。定序資料或序列讀段可以藉由此項技術中已知之方法從經富集核酸分子獲得。舉例而言,方法100可以包括次世代定序(NGS)技術,包括合成技術(ILLUMINA®)、焦磷酸定序(454 LIFE SCIENCES)、離子半導體技術(Ion Torrent定序)、單分子即時定序(PACIFIC BIOSCIENCES®)、接合性定序(sequencing by ligation) (SOLiD定序)、奈米孔定序(OXFORD NANOPORE TECHNOLOGIES)或配對末端定序(paired-end sequencing)。在一些實施例中,使用合成定序,以可逆染料終止子進行大規模平行定序。
在各種實施例中,向定序器145提供經富集核酸樣本115用於定序。如圖1A中所示,定序器145可以包括允許使用者與特定任務交互(例如,起始定序或終止定序)之圖形使用者介面150以及一或多個用於提供經富集片段樣本及/或必需的緩衝劑以進行定序分析的裝載托盤155。因此,一旦使用者已向定序器145之裝載托盤155提供必需試劑及經富集片段樣本,使用者可以藉由與定序器145之圖形使用者介面150交互而起始定序。在步驟140,定序器145進行定序並輸出來自核酸樣本115之經富集片段之序列讀段。
在一些實施例中,定序器145與一或多個計算裝置160通信耦合。各計算裝置160可以處理序列讀段以用於各種應用,諸如變體識別或品質控制。定序器145可以BAM檔案格式向計算裝置160提供序列讀段。各計算裝置160可為個人電腦(personal computer,PC)、桌上型電腦、膝上型電腦、筆記型電腦、平板PC或移動裝置中之一者。計算裝置160可以經由無線、有線或無線及有線通信技術之組合而通信耦合至定序器145。一般而言,計算裝置160經組態而具有處理器及記憶體,該記憶體儲存電腦指令,該等電腦指令在由處理器執行時引起處理器處理序列讀段或進行本文中所揭示之方法或過程中之任一者之一或多個步驟。
在一些實施例中,可使用此項技術中已知之方法使序列讀段與參考基因組對準以確定對準位置資訊。舉例而言,在一個實施例中,使序列讀段與人類參考基因組hg19對準。人類參考基因組hg19之序列可以參考號GRCh37/hg19從基因組參考聯盟(Genome Reference Consortium)得到,且亦可從由聖克魯茲基因組學研究所(Santa Cruz Genomics Institute)提供之基因組瀏覽器得到。對準位置資訊可以指示參考基因組區域之對應於指定序列讀段之開始核苷酸鹼基及結束核苷酸鹼基的開始位置及結束位置。對準位置資訊亦可包括序列讀段長度,其可以從開始位置及結束位置確定。參考基因組中之區域可能與基因或基因區段有關。
在各種實施例中,例如,當使用配對末端定序法時,序列讀段包含一對讀段,其表示為。舉例而言,第一讀段可以從雙股DNA (double-stranded DNA,dsDNA)分子之第一末端定序,而第二讀段可以從雙股DNA (dsDNA)之第二末端定序。因此,第一讀段及第二讀段之核苷酸鹼基對可以始終(例如,以相反取向)與參考基因組之核苷酸鹼基對準。從該對讀段獲得之對準位置資訊可以包括參考基因組中對應於第一讀段(例如,)之末端的開始位置及參考基因組中對應於第二讀段(例如,)之末端的結束位置。換言之,參考基因組中之開始位置及結束位置表示參考基因組內核酸片段所對應的可能位置。可產生並輸出具有SAM (序列對準圖譜)格式或BAM (二進制)格式之輸出檔案以便進一步分析,諸如如下文關於圖2所描述之變體識別。 III. 實例處理系統
圖2為根據一個實施例之用於處理序列讀段之處理系統200的方塊圖。處理系統200包括序列處理器205、序列資料庫210、模型資料庫215、機器學習引擎220、模型225 (例如包括「貝氏階層式模型」或「預測癌症模型」)、參數資料庫230、評分引擎235、變體識別器240、邊緣篩選器250及非同義篩選器260。圖3為根據一個實施例之用於確定序列讀段之變體之方法300的流程圖。在一些實施例中,處理系統200基於輸入定序資料進行方法300以進行變體識別(例如,針對SNV及/或插入或缺失)。此外,處理系統200可以從與使用上述方法100製備之核酸樣本有關的輸出檔案獲得輸入定序資料。方法300包括(但不限於)以下步驟,該等步驟係關於處理系統200之組件來描述。在其他實施例中,方法300之一或多個步驟可用產生變體識別之不同方法的步驟替換,例如使用變體識別格式(Variant Call Format,VCF),諸如HaplotypeCaller、VarScan、Strelka或SomaticSniper。
在步驟300,視情況,序列處理器205摺疊輸入定序資料之對準的序列讀段。在一個實施例中,摺疊序列讀段包括使用UMI,且視情況使用來自輸出檔案之定序資料之對準位置資訊(例如,來自圖1A中所示之方法100)以鑑定多個序列讀段(亦即,源自同一個原始核酸分子)且將其摺疊成共同序列。根據此步驟,從源自同一個原始核酸分子之多個序列讀段確定共同序列,其表示原始分子之最可能的核酸序列或其部分。因為UMI序列係經由定序庫之PCR擴增而複製,所以序列處理器205可以確定核酸樣本中源自同一個分子之某些序列讀段。在一些實施例中,摺疊具有相同或類似對準位置資訊(例如,臨限偏移內之開始及結束位置)且包括共同UMI的序列讀段,且序列處理器205產生經摺疊讀段(在本文中亦稱為共同讀段)以表示核酸片段。在一些實施例中,若相應的一對序列讀段(亦即,)或經摺疊之序列讀段具有共同UMI,其指示起始核酸分子之正股及負股均已被捕捉,則序列處理器205指定共同讀段為「雙螺旋體」;否則,將經摺疊讀段指定為「非雙螺旋體」。在一些實施例中,序列處理器205可以對序列讀段進行其他類型之誤差校正,作為摺疊序列讀段之替代方案或補充。
在步驟305,視情況,序列處理器205可以基於相應的對準位置資訊拼接序列讀段或摺疊序列讀段,將兩個序列讀段合併在一起形成單個讀段區段。在一些實施例中,序列處理器205比較第一序列讀段與第二序列讀段(或摺疊的序列讀段)之間的對準位置資訊以判定在參考基因組中第一及第二讀段之核苷酸鹼基對是否部分重疊。在一種使用情況中,響應於確定第一及第二讀段之間的(例如,核苷酸鹼基之指定數目之)重疊大於臨限長度(例如,核苷酸鹼基之臨限數目),序列處理器205指定第一及第二讀段為「拼接的」;否則,指定摺疊的讀段為「未拼接的」。在一些實施例中,若重疊大於臨限長度且若重疊不是滑動重疊,則第一及第二讀段係拼接的。舉例而言,滑動重疊可以包括均聚物連串(例如,單個重複核苷酸鹼基)、二核苷酸連串(例如,兩個核苷酸重複鹼基序列)或三核苷酸連串(例如,三個核苷酸重複鹼基序列),其中均聚物連串、二核苷酸連串或三核苷酸連串具有至少數個鹼基對之臨限長度。
在步驟310,序列處理器205可視情況將兩個或更多個讀段或讀段區段組裝成經合併序列讀段(或覆蓋標靶區域之路徑)。在一些實施例中,序列處理器205組裝讀段以產生針對目標區域(例如,基因)之有向圖,例如德布魯因圖(de Bruijn graph)。有向圖之單向邊緣表示目標區域中之k個核苷酸鹼基(在本文中亦稱為「k-員(k-mer)」)之序列,且邊緣由頂點(或節點)連接。序列處理器205將摺疊的讀段與有向圖對準,使得摺疊的讀段中之任一者可以按順序由邊緣及相應頂點之子集表示。
在一些實施例中,序列處理器205確定描述有向圖之參數集且處理有向圖。另外,該參數集可以包括從摺疊的讀段至由有向圖中之節點或邊緣表示之k-員成功對準的k-員之計數。序列處理器205將有向圖及相應的參數集儲存於例如序列資料庫210中,可以擷取該等有向圖及相應的參數集來更新圖或產生新圖。舉例而言,序列處理器205可以基於該參數集產生有向圖之經壓縮版本(例如,或修改現有的圖)。在一種使用情況中,為了篩選出具有較低重要性級別之有向圖資料,序列處理器205移除(例如,「修整(trim)」或「修剪(prune)」)具有小於臨限值之計數的節點或邊緣,且維持具有大於或等於臨限值之計數的節點或邊緣。
在步驟315,變體識別器240從序列讀段、摺疊的序列讀段或藉由序列處理器205組裝之合併的序列讀段產生候選變體。在一個實施例中,變體識別器240藉由將序列讀段、摺疊的序列讀段或合併的序列讀段(其已藉由在步驟310修剪邊緣或節點而壓縮)與參考基因組(例如,人類參考基因組hg19)之目標區域之參考序列進行比較來產生候選變體。變體識別器240可以將序列讀段、摺疊的序列讀段或合併的序列讀段之邊緣與參考序列對準,且記錄錯配邊緣及靠近邊緣之錯配核苷酸鹼基之基因組位置為候選變體之位置。在一些實施例中,記錄左側及右側邊緣之錯配核苷酸鹼基之基因組位置為經識別變體之位置。另外,變體識別器240可以基於目標區域之定序深度產生候選變體。特定言之,變體識別器240可以較高的信賴度鑑定目標區域中具有較大定序深度之變體,舉例而言,因為較大數目之序列讀段幫助解決(例如,使用冗餘)序列之間的錯配或其他鹼基對變異。
在一個實施例中,變體識別器240使用模型225確定來自受試者(例如,來自健康受試者)之序列讀段的期望雜訊率而產生候選變體。模型225可為貝氏階層式模型,但是在一些實施例中,處理系統200使用一或多個不同類型之模型。此外,貝氏階層式模型可為諸多可能的模型架構中之一者,該等模型架構可用於產生候選變體且彼此之間的關聯在於其皆模型化位置特異性雜訊資訊以改善變體識別之靈敏度或特異性。更特定言之,機器學習引擎220使用來自健康個體之樣本模型化序列讀段每個位置之期望雜訊率,以訓練模型225。
此外,可將多個不同模型儲存於模型資料庫215中或經擷取用於應用後訓練。舉例而言,訓練第一模型以模型化SNV雜訊率且訓練第二模型以模型化插入或缺失雜訊率。此外,評分引擎235可以使用模型225之參數來確定序列讀段中之一或多個真陽性之似然度。評分引擎235可以基於似然度確定品質評分(例如,按對數比例)。舉例而言,品質評分為Phred品質評分 ,其中P為不正確候選變體識別(例如,假陽性)之似然度。
在步驟320,評分引擎235基於模型225或真陽性之相應似然度或品質評分而對候選變體進行評分。模型225之訓練及應用更詳細地描述於下文中。在一些實施例中,處理系統200可以使用一或多個準則篩選候選變體。舉例而言,處理系統200篩選具有至少(或小於)臨限評分之候選變體。
在步驟325,處理系統200輸出候選變體。在一些實施例中,處理系統200輸出所確定的候選變體中之一些或全部以及相應評分。下游系統,例如在處理系統200外部或處理系統200之其他組件,可以使用候選變體及評分用於各種應用,包括(但不限於)預測癌症、疾病或生殖系突變之存在。
圖1至圖3舉例說明用於產生定序讀段資料及鑑定候選變體或罕見的突變識別的可能的實施例。然而,如熟習此項技術者將容易瞭解,此項技術中用於獲得諸如序列讀段或共同序列讀段之定序資料及鑑定候選變體或由此產生之罕見的突變識別的其他已知方法,可以用於實踐本發明之實施例(參見例如美國專利公開案第2012/0065081號、美國專利公開案第2014/0227705號、美國專利公開案第2015/0044687號及美國專利公開案第2017/0058332號)。 IV. 實例雜訊模型
圖4為根據一個實施例之貝氏階層式模型225之應用的圖。出於解釋的目的,顯示突變A及突變B作為實例。在圖4之實施例中,突變A及B表示為SNV,但是在其他實施例中,以下描述亦適用於插入或缺失或其他類型之突變。突變A為在來自第一樣本之第一參考對偶基因之位置4處的C>T突變。第一樣本所具有之第一AD為10且所具有之第一總深度為1000。突變B為在來自第二樣本之第二參考對偶基因之位置3處的T>G突變。第二樣本所具有之第二AD為1且所具有之第二總深度為1200。僅基於AD (或AF),突變A似乎為真陽性,而突變B似乎為假陽性,因為前者之AD (或AF)大於後者之AD (或AF)。然而,每個對偶基因及/或對偶基因之每個位置,突變A及B可以具有不同的相對等級的雜訊率。事實上,一旦考慮此等不同位置之相對雜訊等級,突變A可能為假陽性且突變B可能為真陽性。因此,本文中所述之模型225模型化此雜訊以便恰當鑑定真陽性。
圖4中所展示之機率質量函數(probability mass function,PMF)指示來自受試者之樣本在某一位置具有指定AD計數的機率(或似然度)。使用來自健康個體之樣本的定序資料(例如,儲存於序列資料庫210中),處理系統200訓練模型225,從該模型,可以得到健康樣本之PMF。特定言之,PMF係基於,其模型化(例如,健康個體之)正常組織中之每個位置每個對偶基因的期望平均AD計數,及,其模型化此AD計數中之期望變異(例如,離勢)。換言之,及/或表示正常組織之定序資料中以每個位置每個對偶基因計之基線雜訊等級。
使用圖4之實例進一步說明,來自健康個體之樣本表示藉由模型化之人類群體之子集,其中i 為訓練集中之健康個體之指數。假定為了實例,模型225已經過訓練,藉由模型225產生之PMF目測展示各突變之所量測的AD之似然度,且因此提供哪些為真陽性且哪些為假陽性之指示。圖4左側與突變A有關之實例PMF指示對於在位置4處之突變所具有之AD計數為10的第一樣本的機率為大約20%。另外,右側與突變B有關之實例PMF指示對於在位置3處之突變所具有之AD計數為1的第二樣本之機率為大約1% (注意:圖4之PMF不完全按照比例)。因此,對應於PMF之此等機率之雜訊率指示相比於突變B,突變A較可能出現,儘管突變B具有較低的AD及AF。因此,在本實例中,突變B可為真陽性且突變A可為假陽性。因此,處理系統200可以藉由使用模型225以更準確的比率區分真陽性與假陽性而進行改善的變體識別,且進一步提供關於此等似然度之數值信賴度。
圖5A顯示根據一個實施例之用於確定真單核苷酸變體之貝氏階層式模型225的參數與子模型之間的相依性。模型參數可儲存於參數資料庫230中。在圖5A中所示之實例中,表示分配給各混合分量之權數的向量。向量採用單體內在K維度上的值且可在訓練期間經由後驗抽樣來學習或更新。對於該訓練,可以對該單體給予均一的先驗。位置p 所屬之混合分量可使用一或多個不同的多項分佈藉由潛在變數模型化:
潛在變數、混合分量之向量一起允許之模型,亦即,貝氏階層式模型225之子模型,具有「合併」關於雜訊之知識的參數,亦即其表示多個位置的雜訊特性之相似度。因此,序列讀段之位置可以藉由模型合併或分組為潛在類別。亦有利地,此等「經合併」位置中之任一者之樣本可以幫助訓練此等共用參數。此舉之益處在於處理系統200可以確定健康樣本中之雜訊模型,即使先前針對指定位置(例如,在用於訓練模型之健康組織樣本中)已經觀察到替代對偶基因之直接證據很少乃至沒有。
共變數(例如,預測子)編碼關於位置p 之已知情境資訊,其可以包括(但不限於)諸如以下之資訊:三核苷酸情況、可比對性、區段性複製、最接近重複之距離、唯一性、k-員唯一性、對序列之不良表現區域之警告或與序列讀段有關之其他資訊。三核苷酸情況可基於參考對偶基因且可分配數值(例如,整數)表示。舉例而言,「AAA」賦值1,「ACA」賦值2,「AGA」賦值3,等等。可比對性表示讀段與基因組之特定目標區域之對準的唯一性程度。舉例而言,按序列讀段將唯一地比對之位置的數目之倒數來計算可比對性。區段性複製對應於長核酸序列(例如,具有大於大約1000個鹼基對之長度),其幾乎相同(例如,大於90%匹配)且作為天然複製事件(例如,與癌症或疾病無關)之結果而出現在基因組中之多個位置。
在位置p 處之SNV的期望平均AD計數藉由參數模型化。在本說明書中出於清楚起見,術語係指貝氏階層式模型225之位置特異性子模型。在一個實施例中,經模型化為伽瑪分佈隨機變數(Gamma-distributed random variable),其具有形狀參數及平均參數 在其他實施例中,可使用其他函數來表示,其實例包括(但不限於):具有對數平均值及對數標準差之對數常態分佈、韋伯分佈(Weibull distribution)、冪律(power law)、指數調變冪律(exponentially-modulated power law)或以上各者之混合。
在圖5A中所示之實例中,形狀參數及平均參數各自視共變數及潛在變數而定,但是在其他實施例中,基於在訓練期間的各種資訊合併度,相依性可以不同。舉例而言,或者可以使模型結構化,使得視潛在變數而非共變數而定。(健康個體之)人類群體樣本i 中在位置p 處之SNV之AD計數的分佈藉由隨機變數模型化。在一個實施例中,鑒於該樣本在該位置之深度,該分佈為卜瓦松分佈: 在其他實施例中,可使用其他函數來表示,其實例包括(但不限於):負二項式、康威-馬克士威-卜瓦松分佈(Conway-Maxwell-Poisson distribution)、ζ分佈及零膨脹卜瓦松(zero-inflated Poisson)。
圖5B顯示根據一個實施例之用於確定真插入或缺失之貝氏階層式模型的參數與子模型之間的相依性。相比於圖5A中所示之SNV模型,圖5B中所示之插入或缺失模型包括不同級別的層級。共變數編碼在位置p 處之已知特徵且可包括例如至均聚物之距離、至RepeatMasker重複之距離或與先前所觀察到之序列讀段有關之其他資訊。潛在變數可基於向量之參數藉由狄瑞西雷分佈(Dirichlet distribution)模型化,其表示在某一位置之插入或缺失長度分佈且可基於共變數。在一些實施例中,亦在共用相同共變數值之位置()之間共用。因此舉例而言,潛在變數可表示諸如以下之資訊:均聚物插入或缺失出現於距離錨定位置1、2、3等鹼基對之位置,而三核苷酸插入或缺失出現於距離錨定位置3、6、9等之位置。
在位置p 處之期望平均總插入或缺失計數藉由分佈模型化。在一些實施例中,該分佈係基於共變數且具有伽瑪分佈,其具有形狀參數及平均參數 在其他實施例中,可以使用其他函數來表示,其實例包括(但不限於):負二項式、康威-馬克士威-卜瓦松分佈、ζ分佈及零膨脹卜瓦松。
在(健康個體之)人類群體樣本i 中在位置p 處所觀察到之插入或缺失藉由分佈模型化。類似於圖5A中之實例,在一些實施例中,鑒於該樣本在該位置之深度,插入或缺失強度之分佈為卜瓦松分佈: 在其他實施例中,可以使用其他函數來表示,其實例包括(但不限於):負二項式、康威-馬克士威-卜瓦松分佈、ζ分佈及零膨脹卜瓦松。
因為插入或缺失可能具有不同長度這個事實,所以在插入或缺失模型中存在額外的長度參數,該參數不存在於SNV模型中。因此,圖5B中所示之實例模型具有額外的層次等級(例如,另一子模型),其同樣不存在於上文所論述之SNV模型中。在樣本i 中在位置p 處之長度l 之插入或缺失(例如,多達100個或更多個鹼基對之插入或缺失)的所觀察到之計數藉由隨機變數模型化,其表示在以參數為條件之雜訊下的插入或缺失分佈。鑒於該樣本之插入或缺失強度及在該位置之插入或缺失長度之分佈,該分佈可為多項式: 在其他實施例中,可使用狄瑞西雷多項式函數或其他類型之模型來表示
藉由以此方式構建模型,機器學習引擎220可以將插入或缺失強度(亦即,雜訊率)之學習與插入或缺失長度分佈之學習解耦。獨立地確定關於插入或缺失是否將出現於健康樣本中之期望值及關於某一位置之插入或缺失之長度的期望值的推論可以改善模型之靈敏度。舉例而言,相對於基因組中多個位置或區域之插入或缺失強度,長度分佈可能更穩定,或反之亦然。
圖6A-B展示與根據一個實施例之貝氏階層式模型225有關的圖。圖6A中所示之圖描繪雜訊率之分佈,亦即如藉由模型表徵之針對指定位置之SNV或插入或缺失的似然度(或強度)。連續分佈基於來自健康個體之所觀察到的健康樣本之訓練資料(例如,從序列資料庫210擷取),表示非癌症或非疾病突變(例如,在健康組織中天然產生之突變)之期望AF。儘管圖6A中未顯示,但是在一些實施例中,之形狀參數及平均參數可基於其他變數,諸如共變數或潛在變數。圖6B中所示之圖描繪鑒於樣本參數,諸如在指定位置之定序深度,受試者樣本在指定位置之AD分佈。之圖的離散機率係基於期望平均分佈基於人類群體之所預測的真平均AD計數來確定。
圖7A為根據一個實施例藉由擬合貝氏階層式模型225來確定參數之實例程序的圖。為了訓練模型,機器學習引擎220針對一組位置之各位置從期望雜訊率之後驗分佈(例如,圖6B中所示之圖)迭代地抽樣。機器學習引擎220可以使用馬可夫鏈蒙地卡羅(MCMC)法進行抽樣,例如梅特羅波利斯-黑斯廷斯(Metropolis-Hastings,MH)演算法、定製MH演算法、吉布斯抽樣演算法(Gibbs sampling algorithm)、基於漢米頓力學之抽樣(Hamiltonian mechanics-based sampling)、隨機抽樣以及其他抽樣演算法。在貝氏推論訓練期間,從聯合後驗分佈中抽取參數以迭代地更新模型之所有(或一些)參數及潛在變數(例如, 等)。
在一個實施例中,機器學習引擎220藉由將之圖、每個位置及每個樣本之AF的期望平均計數儲存於參數資料庫230中來進行模型擬合。如先前所描述,經由後驗抽樣訓練或擬合模型。在一實施例中,將之圖儲存於矩陣資料結構中,該矩陣資料結構具有:該組抽樣位置之每個位置一列且來自(例如,以所觀察到之資料為條件的所有參數之)聯合後驗的每個圖一行。列數R可大於600萬且N次迭代樣本之行數可為數千。在其他實施例中,列及行名稱不同於圖7A中所示之實施例,例如各列表示來自後驗樣本之圖,且各行表示抽樣位置(例如,在圖7A中所示矩陣實例之轉置)。
圖7B為根據一個實施例之使用來自貝氏階層式模型225之參數確定假陽性之似然度的圖。機器學習引擎220可以將圖7A中所示之R列×N行矩陣簡化成圖7B中所展示之R列×2行矩陣。在一個實施例中,機器學習引擎220確定後驗樣本中每個位置之離勢參數(例如,形狀參數)及平均參數(其亦可稱為平均比率參數)。離勢參數可根據確定,其中分別為在該位置之抽樣值之平均值及方差。熟習此項技術者將瞭解,亦可使用其他函數來確定,諸如最大似然估計。
機器學習引擎220亦可鑒於平均參數對簡化矩陣中之離勢參數進行離勢再估計。在一個實施例中,在貝氏訓練及後驗近似之後,機器學習引擎220基於每個位置之負二項式最大似然估計量,藉由再訓練離勢參數來進行離勢再估計。在再訓練期間,平均參數可以保持不變。在一個實施例中,機器學習引擎220針對訓練資料之原始AD計數確定各位置之離勢參數(例如,基於健康樣本)。機器學習引擎220確定 ,且將儲存於簡化矩陣中。熟習此項技術者將瞭解,亦可使用其他函數來確定,諸如動差估計量法、後驗平均值或後驗模式。
在訓練模型之應用期間,處理系統200可以存取離勢(例如,形狀)參數及平均參數以確定經參數化之函數。該函數可用於確定新的受試者樣本之後驗預測機率質量函數(或機率密度函數)。基於某些AD計數在指定位置之預測機率,處理系統200可以解釋當從樣本偵測真陽性時序列讀段之每個位置的位點特異性雜訊率。返回參考關於圖4所描述之實例使用情況,關於突變A及B所示之PMF可使用來自圖7B之簡化矩陣之參數確定。後驗預測機率質量函數可用於確定針對在某些位置具有AD計數之突變A或B的樣本機率。 V. 雜訊模型之實例處理流程
圖8為根據一個實施例之用於訓練貝氏階層式模型225之方法800的流程圖。在步驟810,機器學習引擎220從序列讀段之資料庫(例如,序列資料庫210)收集樣本,例如訓練資料。在步驟820,機器學習引擎220使用該等樣本使用馬可夫鏈蒙地卡羅法訓練貝氏階層式模型225。在訓練期間,模型225可以保留或拒絕以訓練資料為條件之序列讀段。為了移除不指示序列讀段中之目標雜訊之疑似生殖系突變,機器學習引擎220可以排除健康個體之具有小於臨限深度值或具有大於臨限頻率之AF的序列讀段。在其他實施例中,機器學習引擎220可以確定哪些位置可能含有生殖系變體且使用如上述臨限值選擇性排除此類位置。在一個實施例中,機器學習引擎220可以將此類位置鑑定為具有AF與生殖系頻率(例如,0、½及1)之小的平均絕對偏差。
貝氏階層式模型225可以同時更新該模型中所包括之多個(或所有)位置的參數。另外,可訓練模型225以模型化各ALT之期望雜訊。舉例而言,針對A、T、C及G鹼基中之每一者至其他三個鹼基中之每一者的突變,SNV之模型可以進行四次或更多次訓練處理以更新參數(例如,一對一取代)。在步驟830,機器學習引擎220儲存貝氏階層式模型225之參數(例如,藉由馬可夫鏈蒙地卡羅法輸出之實現體參數)。在步驟840,機器學習引擎220基於該等參數對每個位置之雜訊分佈(例如,由離勢參數及平均參數表示)進行近似。在步驟850,機器學習引擎220使用來自用於訓練貝氏階層式模型225之樣本(例如,訓練資料)的原始AD計數進行離勢再估計(例如,最大似然估計)。
圖9為根據一個實施例之用於確定假陽性之似然度之方法900的流程圖。在步驟910,處理系統200從一組序列讀段鑑定候選變體,例如在序列讀段之位置p ,該組序列讀段可從獲自個體之cfDNA樣本獲得。在步驟920,處理系統200存取候選變體特異性參數,分別例如離勢參數及平均比率參數,其可基於候選變體之位置p 。該等參數可以使用模型,例如貝氏階層式模型225得到,該模型表示後驗預測分佈,其採用指定序列讀段之所觀察到之深度及在位置p 之平均參數作為輸入。在一實施例中,平均參數為伽瑪分佈,其編碼關於訓練樣本之位置p 的核苷酸突變之雜訊等級。
在步驟930,處理系統200輸入該組序列讀段之讀段資訊(例如,AD或AF)至經參數參數化的函數(例如,基於負二項式)中,該等參數例如。在步驟940,處理系統200 (例如,評分引擎235)基於輸入讀段資訊,使用函數之輸出而確定候選變體(例如,在位置p )之評分。評分可以指示發現指定樣本(例如,來自受試者)之對偶基因計數大於或等於候選變體之所確定的對偶基因計數(例如,藉由該模型及函數之輸出來確定)的似然度。處理系統200可以將似然度轉換成Phred比例評分。在一些實施例中,處理系統200使用該似然度,響應於確定該似然度小於臨限值來確定假陽性突變。在一些實施例中,處理系統200使用該函數來確定序列讀段之樣本至少包括對應於來自個體之腫瘤切片之序列讀段中所發現之基因的對偶基因之臨限計數。響應於此確定,處理系統200可以基於變體識別預測個體中之癌細胞之存在。在一些實施例中,處理系統200可以基於品質評分進行加權,將候選變體及品質評分用於偽發現法,給假定的識別註釋品質評分,或提供給後續系統。
處理系統200可以使用編碼關於用於下游分析之指定訓練樣本之核苷酸突變的雜訊等級的函數。在一些實施例中,處理系統200使用經離勢參數及平均比率參數參數化的前述負二項函數來確定例如cfDNA或gDNA之樣本內特定核酸位置之期望雜訊。此外,處理系統200可以藉由使用與特定核酸樣本有關之訓練資料來訓練貝氏階層式模型225而得到該等參數。下文實施例描述另一類型之模型,本文中稱為聯合模型225,其可以使用貝氏階層式模型225之輸出。 VI. 實例聯合模型
圖10為根據一個實施例之使用聯合模型225來處理無細胞核酸(例如,cfDNA)樣本及基因組核酸(例如,gDNA)樣本之方法1000的流程圖。聯合模型225可以與cfDNA及gDNA之核酸位置無關。方法1000可以結合圖8至圖9中所示之方法800及/或900進行。舉例而言,進行方法800及900以確定關於來自健康樣本之訓練資料之cfDNA及gDNA樣本的核苷酸突變雜訊。圖11為根據一個實施例之聯合模型之應用的圖。下文參考圖11描述方法1000之步驟。
在步驟1010,序列處理器205確定來自從受試者之cfDNA樣本獲得之序列讀段的核酸之各個位置的深度及AD。cfDNA樣本可以從來自受試者之血漿的樣本收集。步驟1010可以包括圖1A中所示之方法100之先前所描述之步驟。
在步驟1020,序列處理器205確定來自從同一個受試者之gDNA獲得之序列讀段的核酸之各個位置的深度及AD。gDNA可以從來自受試者之白血球或腫瘤切片收集。步驟1020可以包括圖1A中所示之方法100之先前所描述之步驟。 VI. A. 聯合模型之實例信號
在步驟1030,聯合模型225藉由模型化cfDNA之所觀察到之AD,確定受試者之cfDNA樣本之「真」AF的似然度。在一個實施例中,聯合模型225使用經從cfDNA之序列讀段觀察到之深度及cfDNA樣本之真AF參數化的卜瓦松分佈函數來模型化在受試者之cfDNA中觀察到指定AD的機率(亦顯示於圖11中)。深度與真AF之乘積可為卜瓦松分佈函數之比率參數,其表示cfDNA之平均期望AF。 雜訊分量進一步描述於下文部分VI. B. 聯合模型之實例雜訊中。在其他實施例中,可以使用其他函數來表示,其實例包括(但不限於):負二項式、康威-馬克士威-卜瓦松分佈、ζ分佈及零膨脹卜瓦松。
在步驟1040,聯合模型225藉由模型化gDNA之所觀察到之AD,確定受試者之gDNA樣本之「真」AF的似然度。在一個實施例中,聯合模型225使用經從gDNA之序列讀段觀察到之深度及gDNA樣本之真AF參數化的卜瓦松分佈函數來模型化在受試者之gDNA中觀察到指定AD的機率(亦顯示於圖11中)。聯合模型225可以使用相同的函數來模型化gDNA及cfDNA之真AF之似然度,但是基於從受試者之相應樣本觀察到之值,參數值不同。 雜訊分量進一步描述於下文部分VI. B. 聯合模型之實例雜訊中。在其他實施例中,可以使用其他函數來表示,其實例包括(但不限於):負二項式、康威-馬克士威-卜瓦松分佈、ζ分佈及零膨脹卜瓦松。
因為cfDNA之真AF以及gDNA之真AF為特定受試者之固有的生物學性質,所以從任一來源確定真AF之精確值可能未必切實可行。此外,各種來源之雜訊亦在真AF之估計值中引入了不確定性。因此,聯合模型225使用數值近似來確定以從受試者所觀察到之資料(例如,深度及AD)及相應雜訊參數為條件的真AF之後驗分佈: 聯合模型225使用貝氏定理(Bayes' theorem)利用先驗(例如均勻分佈)確定後驗分佈。用於cfDNA及gDNA之先驗可以相同(例如,0至1範圍內之均勻分佈)且彼此獨立。
在一實施例中,聯合模型225使用似然函數,藉由改變參數、cfDNA之真AF、指定固定的一組從cfDNA樣本所觀察到之資料,確定cfDNA之真AF之後驗分佈。另外,聯合模型225使用另一似然函數,藉由改變參數、gDNA之真AF、指定固定的一組從gDNA樣本觀察到之資料,確定gDNA之真AF之後驗分佈。對於cfDNA及gDNA二者,聯合模型225藉由擬合負二項式(NB)而對輸出後驗分佈進行數值近似:
在一實施例中,聯合模型225將以下參數用於負二項式來進行數值近似,該負二項式可以改善計算速度: 其中: 因為在cfDNA與gDNA之間觀察到之資料不同,所以關於cfDNA之負二項式所確定之參數將在關於gDNA之負二項式所確定之參數的範圍內變化。
在步驟1050,變體識別器240使用似然度確定cfDNA樣本之真AF大於gDNA樣本之真AF之函數的機率。函數可以包括一或多個參數,例如儲存於參數資料庫230中且參考圖12至圖13額外詳述描述的憑經驗確定之kp 值。機率表示未在參考組織之序列讀段中發現至少一些來自cfDNA之序列讀段之核苷酸突變的信賴等級。變體識別器240可以向其他用於下游分析之方法提供此資訊。舉例而言,高機率指示相對於受試者之cfDNA序列讀段且未在gDNA之序列讀段中發現的核苷酸突變可能源自受試者內之腫瘤或其他癌症來源。相比之下,低機率指示在cfDNA中觀察到之核苷酸突變可能不是源自受試者之潛在癌細胞或其他病變細胞。相反,核苷酸突變可以歸因於健康個體中之天然產生之突變,歸因於以下因素:尤其諸如生殖系突變、純系血細胞生成(形成血球DNA之亞群的獨特突變)、嵌合、化學療法或誘變治療、技術假影。
在一實施例中,變體識別器240基於一或多個參數(例如,下文所描述之kp )確定後驗機率滿足所選準則。鑒於cfDNA及gDNA之序列,變體之分佈係條件獨立的。亦即,變體識別器240假定存在於cfDNA或gDNA樣本中之一者中的ALT及雜訊不受其他樣本之ALT及雜訊影響,且反之亦然。因此,鑒於從兩個來源觀察到之資料及雜訊參數,變體識別器240將AD之期望分佈之機率視為確定觀察到cfDNA之某個真AF及gDNA之某個真AF的機率的獨立事件:.
在圖11中之實例3D圖中,將機率繪製為多對值之3D等高線。沿著軸之3D等高線圖之實例2D薄片展示,相對於值,等高線圖之體積朝向較大的值偏斜。在其他實施例中,等高線圖可以不同地偏斜或具有不同於圖11中所示實例的形式。為了對聯合似然度進行數值近似,序列處理器205可以計算由之3D等高線及由圖11之圖中所示之點線展示的邊界線限定之體積。序列處理器205根據k 參數值確定邊界線之斜率,且邊界線與原點相交。k 參數值可以解釋所確定的真AF之誤差邊際。特定言之,誤差邊際可以涵蓋健康個體中之天然產生之突變,諸如生殖系突變、純系血細胞生成、雜合性缺失(下文參考圖13進一步描述)及如上所述之其他來源。因為3D等高線被邊界線分開,所以從cfDNA樣本所偵測到之變體之至少一部分可能係歸因於從gDNA樣本偵測到之變體,而變體之另一部分可能係歸因於腫瘤或其他癌症源。
在一實施例中,序列處理器205藉由確定滿足指定準則之聯合似然度之一部分而確定後驗機率滿足指定準則。指定準則可基於kp 參數,其中p 表示比較之臨限機率。舉例而言,序列處理器205確定cfDNA之真AF大於或等於gDNA之真AF乘以k 的後驗機率,且判定後驗機率是否大於p,其中 如上述方程式中所示,序列處理器205確定cfDNA之真AF之似然度之累積和。此外,序列處理器205對gDNA之真AF之似然函數進行積分。在另一實施例中,序列處理器205可以確定gDNA之真AF之似然度的累積和,且對cfDNA之真AF之似然函數進行積分。藉由計算兩個似然度中之一者之累積和(例如,建立累積分佈函數),而非計算對cfDNA及gDNA之似然度的二重積分,序列處理器205減少了判定聯合似然度是否滿足準則所需的計算資源(以計算時間或其他類似度量標準來表示)且亦可提高後驗機率之計算精確度。 VI. B. 聯合模型之實例雜訊
為了解釋在cfDNA及gDNA樣本中由雜訊引入之真AF之估計值之雜訊,聯合模型225可以使用先前關於圖4至圖9所描述的處理系統200之其他模型。在一實施例中,關於之上述方程式中所示的雜訊分量係使用貝氏階層式模型225確定,該模型可以對候選變體(例如,SNV或插入或缺失)具有特異性。此外,貝氏階層式模型225可以涵蓋在核苷酸突變之特定位置或插入或缺失長度之範圍內的候選變體。
在一個實例中,聯合模型225使用經cfDNA特異性參數參數化的函數來確定cfDNA之真AF的雜訊等級。cfDNA特異性參數可以使用經例如來自健康個體之一組cfDNA樣本訓練的貝氏階層式模型225得到。此外,聯合模型225使用經gDNA特異性參數參數化的另一函數來確定gDNA之真AF之雜訊等級。gDNA特異性參數可以使用經例如來自相同的健康個體之一組gDNA樣本訓練的另一貝氏階層式模型225得到。在一實施例中,函數為具有平均參數m 及離勢參數之負二項函數,且亦可視來自訓練樣本之序列讀段之所觀察到之深度而定: 在其他實施例中,序列處理器225可以使用不同類型之函數及不同類型之參數用於cfDNA及/或gDNA。因為cfDNA特異性參數及gDNA特異性參數係使用不同的訓練資料集得到的,所以參數可以彼此不同且特別針對於核酸樣本之相應類型。舉例而言,cfDNA樣本可以具有比gDNA樣本更大的AF變異,且因此可大於。在各種實施例中,在電腦上,諸如在圖1A中所示之計算裝置160上進行上文關於圖8、圖9及圖10所描述之方法。 VII. 聯合模型之實例
下圖中所示之實例結果係藉由處理系統100使用一或多個經訓練之聯合模型225確定的。在各種實施例中,在如圖中所指示之研究「A」及研究「B」這兩個研究中之一者中,使用標靶定序分析,利用GRAIL (GRAIL, Inc., Menlo Park, CA)之專用508癌症基因套組(gene panel),從來自從個體獲得之循環無細胞DNA (cfDNA)樣本之標靶定序資料評估及識別變體,產生該等結果。研究A包括來自從50個健康個體(未診斷出癌症)獲得之血漿樣本及50個各自來自具有轉移前乳癌及轉移前非小細胞肺癌之受試者之樣本的定序資料。研究B包括來自從124名癌症患者(39名具有轉移性乳癌(metastatic breast cancer ,MBC)之受試者、41名具有非小細胞肺癌(non-small cell lung cancer,NSCLC)之受試者及44名具有去勢抗性前列腺癌(castration-resistant prostate cancer,CRCP)之受試者)獲得之血漿樣本的可評估定序資料。
從健康個體及癌症患者抽全血至STRECK血液收集管(BCT®)中,將其分成血漿及膚色血球層,且儲存於-80℃下。使用經修改之QIAmp循環核酸套組(QIAGEN®, Germantown, MD)從血漿中提取無細胞DNA (cfDNA),且使用片段分析儀高靈敏度NGS套組(ADVANCED ANALYTICAL TECHNOLOGIES®, Akneny IA)對其進行定量。採用經修改之Illumina TruSeq DNA奈米方案(ILLUMINA®;San Diego, CA),由所提取之cfDNA製備定序庫。庫製備方案包括定序轉接子之轉接子連接,定序轉接子包含用於如上所述之誤差校正的獨特分子標識符(UMI)。使用片段分析儀標準靈敏度NGS套組對定序庫進行PCR擴增及定量。
採用GRAIL之靶向508癌症相關基因之專用研究套組(GRAIL, Inc., Menlo Park, CA),使經定量之DNA庫經歷基於雜交之捕捉。首先使用經生物素化之單股DNA雜交探針捕捉目標DNA分子,且隨後使用磁性抗生蛋白鏈菌素珠粒對其進行富集。使用後續洗滌步驟移除非目標分子。在HiSex X上使用HiSeq X試劑套組v2.5 (ILLUMINA®;San Diego, CA),在60,000×之標稱原始目標覆蓋率下,對經富集庫進行定序。每個流槽合併四個庫且包括雙索引引子混合物以實現雙樣本索引讀段。將讀段1、讀段2、索引讀段1及索引讀段2之讀段長度分別設為150、150、8及8。讀段1及讀段2中之前6個鹼基讀段為UMI序列。 VII. A. 聯合模型之實例參數
圖12為根據一個實施例之來自健康個體之樣本中之變體之所觀察到之計數的圖表。各資料點對應於個體中指定的那一個的位置(在一系列核酸位置內)。聯合模型225關於聯合似然度計算所用之參數kp 可以藉由用多組來自健康個體之cfDNA及gDNA樣本及/或已知具有癌症之樣本交叉驗證,憑經驗選擇(例如,用以調整靈敏度臨限值)。圖12中所示之實例結果係以研究B獲得且使用血漿樣本用於cfDNA及白血球樣本用於gDNA。對於k (如圖12中所示之「k0」)及p 之指定參數值,該圖表繪製變體之平均數目,其表示相應樣本之假陽性的所計算之上信賴界(upper confidence bound,UCB)。該圖表指示,假陽性之數目隨著p 值增加而減小。此外,對於較低的k 值,例如較接近於1.0,所繪製之曲線具有較大數目之假陽性。點線指示一個變體之目標,儘管經驗結果顯示,對於介於1.0與5.0之間的k 值及介於0.5與1.0之間的p 值,假陽性之平均數目主要落入1-5個變體之範圍內。
參數之選擇可能涉及目標靈敏度(例如,使用kp 調整)與目標誤差(例如,上信賴界)之間的取捨。對於指定的各對kp 值,相應的假陽性平均數目之值可能類似,但靈敏度值可以展現較大的變異數。在一些實施例中,靈敏度係使用腫瘤之陽性一致性百分比(percent positive agreement,PPA)值來量測,對比cfDNA之PPA,其可用於量測特異性: 在上述方程式中,「腫瘤 」表示使用參數集從ctDNA樣本得到的平均變體識別數目,且「cfDNA 」表示使用相同的參數集從相應cfDNA樣本得到之平均變體識別數目。
在一實施例中,進行交叉驗證以估計聯合模型225與序列讀段(針對指定類型之組織)之期望擬合,該等序列讀段不同於用於訓練聯合模型225之序列讀段。舉例而言,該等序列讀段可以從具有肺癌、前列腺癌及乳癌等之組織獲得。為了避免聯合模型225對任何指定類型之癌症組織的過度擬合或降低其程度,使用一組類型之癌症組織之樣本得到的參數值被用來評定已知具有不同類型之癌症組織之其他樣本的統計結果。舉例而言,對具有乳癌組織之樣本應用肺癌及前列腺癌組織之參數值。在一些實施例中,選擇將一或多個來自使靈敏度最大化之肺癌及前列腺癌組織資料之最低k 值應用於乳癌樣本。亦可使用其他限制條件來選擇參數值,其他限制條件諸如與假陽性之目標平均數目之臨限偏差,或每個樣本95% UCB至多為3。處理系統200可以經由多個類型之組織循環以交叉驗證癌症特異性參數集。
圖13為根據一個實施例之聯合模型225之實例參數的圖表。k 之參數值可以確定為gDNA樣本中所觀察到之AF之函數,且可基於特定類型之癌症組織而不同,特定類型之癌症組織例如如所展示的乳房、肺或前列腺。曲線1310表示乳癌及前列腺癌組織之參數值,且曲線1320表示肺癌組織之參數值。雖然該等實例迄今為止主要描述kp 且關於此等參數不變之實施方案,但是實際上kp 可以作為gDNA樣本中所觀察到之AF的任何函數而不同。在圖13中所示之實例中,函數為鉸鏈損失函數(hinge loss function),其具有鉸鏈值(或較低臨限值),例如三分之一。具體而言,該函數規定,對於大於或等於鉸鏈值之值,k 等於預定上臨限值,例如3。對於小於鉸鏈值之值,相應的k 值用調整。圖13之實例具體展示,對於小於三分之一之值,k 值可以與根據係數(例如,在線性關係的情況下為斜率)成比例,該係數在各癌症組織類型之間可以不同。在其他實施例中,聯合模型225可以使用另一類型之損失函數,諸如平方損失、邏輯損失、交叉熵損失等。
聯合模型225可以根據鉸鏈損失函數或另一函數改變k 以防止非腫瘤或疾病相關效應,其中固定的k 值將不能準確地捕捉及歸類彼等事件。鉸鏈損失函數實例特別針對於處理雜合性缺失(loss of heterozygosity,LOH)事件。LOH事件為當從個體親本中之一者損失基因複本時出現的生殖系突變。LOH事件促成了gDNA樣本之所觀察到之AF的顯著部分。藉由將k 值之上限定為鉸鏈損失函數之預定上臨限值,聯合模型225可以針對偵測大部分序列讀段中之真陽性同時亦控制假陽性之數目達成較大的靈敏度,假陽性原本會因為LOH之存在而被標記為真陽性。在其他實施例中,kp 可基於對感興趣的指定應用具有特異性的訓練資料來選擇,例如具有目標群體或定序分析。
在一些實施例中,聯合模型225考慮gDNA樣本之AF及gDNA樣本之品質評分以防止低估低AF候選變體。如先前參考圖3、圖4及圖9所描述,藉由評分引擎235對雜訊模型產生之品質評分可以用以按Phred比例估計誤差機率。另外,聯合模型225可以對鉸鏈函數使用經修改之分段函數。舉例而言,分段函數包括兩個或更多個加性分量。一個分量為基於gDNA樣本之AF的線性函數,且另一分量為基於gDNA樣本之品質評分的指數函數。鑒於品質評分臨限及最大AF比例因子,聯合模型225使用分段函數之指數分量確定: 在上述計算中,為gDNA樣本之對偶基因不是誤差的機率,為gDNA樣本之對偶基因是誤差的機率,且為最小誤差機率。誤差率之最小臨限可以憑經驗確定為gDNA樣本之對偶基因之可能的體細胞及可能的生殖系候選變體之間的品質評分密度的交叉點。 VII. B. 聯合模型之實例變體識別
圖14A-B為根據一個實施例之藉由聯合模型確定之變體識別的圖表。圖14A中所示之實例結果係使用研究A及已知受早期癌症侵襲之樣本獲得。圖14B中所示之實例結果係使用研究B及已知受晚期癌症侵襲之樣本獲得。圖14A-B中之圖共用共同的x軸,其表示gDNA之所觀察到的AF。此外,該等圖指示,cfDNA及gDNA樣本之所觀察到之AF之比率的變異數就晚期癌症而言大於早期癌症。變體識別器240確定數對資料點之後驗機率,其中該等圖之梯度表示機率範圍。各資料點表示個體中之候選cfDNA變體(例如,針對指定核酸位置),且該等圖包括資料集中之多個個體之資料點。在所展示之實施例中,對於大於8.00之比率及小於0.00391之值,後驗機率較接近於1.0,而對於接近0.25之比率,後驗機率較接近於0.0。
圖15為根據一個實施例之藉由聯合模型225確定之機率密度之圖表。圖15中所示之實例結果係使用來自乳房、肺及前列腺組織樣本之序列讀段確定,其中gDNA之所觀察到之AF等於0。圖15展示關於聯合模型225之一些一般點,與具體實施方案無關。在未觀察到ALT ()或在gDNA中觀察到低數目ALT的情況下,處理系統200可以關於在相應的cfDNA樣本中觀察到之ALT來源具有低信賴等級。此等情況可能係由於gDNA樣本之背景雜訊或低深度而出現。因為序列處理器205可能未必偵測gDNA樣本之所有ALT,所以即使在所觀察到之時,cfDNA之序列讀段可能仍然包括假陽性。另外,聯合模型225將模型化為雜訊分佈,因此可將真模型化為似然度之非零值的分佈。因此,在此等條件中,變體識別器240可以篩選出在cfDNA樣本中由於ALT來源之低信賴度而觀察到之ALT,例如,在不確定所觀察到之ALT係源自gDNA還是源自癌症或病變細胞的情況下。在一實施例中,變體識別器240篩選出具有小於臨限機率之機率的資料點,如圖15中由點線所展示。 VII. C. 聯合模型之實例陽性一致性百分比
圖16為根據一個實施例之聯合模型225之靈敏度及特異性之圖表。變體識別器240確定研究A及B中之靈敏度(例如,PPA 腫瘤 )及特異性(例如,PPAcfDNA )量測結果且採用健康樣本,以及已知具有乳癌、肺癌及前列腺癌之樣本。相比於使用經驗臨限獲得之實例結果,使用聯合模型225獲得之實例結果顯示靈敏度略微降低,例如對於使用肺組織樣本之研究A之PPA 腫瘤 ,由0.14降低至0.12。然而,聯合模型225結果顯示特異性之較大增加,例如對於使用肺組織樣本之研究A之PPAcfDNA ,由0.12增加至0.22。 VII. D. 使用聯合模型的實例經偵測基因
圖17為根據一個實施例之使用聯合模型225從標靶定序分析偵測之一組基因之圖表。該組包括通常在純系血細胞生成期間突變的基因。序列處理器205確定研究A及B中之結果及已知具有乳癌、肺癌及前列腺癌之樣本。測試「臨限值X」及「聯合模型X」不包括非同義突變,而測試「臨限值Y」及「聯合模型Y」包括非同義突變。相比於使用經驗臨限值所偵測到之計數,使用聯合模型225獲得之實例結果降低了從各種類型之組織之樣本所偵測到之生殖系突變之計數(表示為x軸上之「n」,如圖17至圖19中所示)。舉例而言,如關於肺癌之研究B的圖所展示,「臨限值X」及「臨限值Y」分別產生計數為5及6的所偵測到之TET2基因。「聯合模型X」及「聯合模型Y」分別產生計數為2及3之所偵測到之TET2基因,其指示聯合模型225提供改善的靈敏度。
圖18為圖17中所示之根據一個實施例之使用聯合模型225從標靶定序分析偵測之基因組的長度分佈的圖表。一般而言,源自腫瘤或病變細胞之核酸片段具有比源自參考對偶基因之核酸片段短的(例如,核苷酸之)長度。如採用乳癌樣本之研究B之盒狀圖結果中所示,對於「臨限值X」及「臨限值Y」,TET2基因的所偵測到之ALT與參考對偶基因之間的中值長度差異大約為零。相比之下,對於「聯合模型X」及「聯合模型Y」,TET2基因的所偵測到之ALT與參考對偶基因之間的中值長度差異大約為-5。因此,變體識別器240可以較大的信賴度確定所偵測到之ALT可能源自腫瘤或病變細胞,而非參考對偶基因。此外,實例結果指示,聯合模型225可以進行具有不同雜訊等級之樣本中之序列讀段之短片段的變體識別。
圖19為根據一個實施例之使用聯合模型225從標靶定序分析偵測之另一組基因之圖表。實例結果指示,聯合模型225之偵測驅動基因之靈敏度與不使用模型之篩選器之靈敏度相當。亦即,相對於使用經驗臨限值獲得之結果,聯合模型225沒有顯著更好地篩選所偵測之驅動基因。 VIII. 聯合模型之實例調整
圖20為根據一個實施例之用於調整聯合模型225來處理無細胞核酸(例如,cfDNA)樣本及基因組核酸(例如,gDNA)樣本之方法2000的流程圖。方法2000可以結合圖8至圖10中所示之方法800、900及/或1000或另一類似方法進行。舉例而言,使用聯合模型255進行方法1000以確定方法2000之步驟2010之機率。關於圖20至圖22所描述之實例提及受試者之血液(例如,白血球)為gDNA樣本之來源,但應注意,在其他實施例中,gDNA可以來自不同類型之生物樣本。處理系統200可以決策樹形式實施方法2000之至少一部分以篩選或處理cfDNA樣本中之候選變體。舉例而言,處理系統200判定候選變體是否可能與gDNA樣本相關,或關聯是否為不確定的。關聯可以指示,變體可以藉由gDNA樣本中之突變來解釋(例如,由於諸如以下之因素:生殖系突變、純系血細胞生成、假影、邊緣變體、諸如HLA-A之人類白血球抗原等)且因此可能不是腫瘤衍生的且不指示癌症或疾病。方法2000可以包括不同於或額外於在一些實施例中結合圖20所描述之步驟的步驟,或以不同於結合圖20所描述之順序的順序進行步驟。 VIII. A. 聯合模型之實例品質評分及比率
在步驟2010,序列處理器205確定cfDNA樣本之真實替代頻率大於gDNA樣本之真實替代頻率之函數的機率。步驟2010可以對應於圖10中所示之方法1000的先前所描述之步驟1050。
在步驟2020,序列處理器205判定機率是否小於臨限機率。舉例而言,臨限機率可為0.8,然而實際上,臨限機率可為0.5與0.999之間的任何值(例如,基於所要篩選嚴格度而確定),靜態或動態的,根據基因變化及/或由位置或其他宏觀因素等設定。響應於確定機率大於或等於臨限機率,序列處理器205確定候選變體可能與gDNA樣本無關,gDNA樣本諸如所抽取之包括受試者之白血球的血液,亦即不是血液衍生的。舉例而言,候選變體通常不存在於健康個體之gDNA樣本的序列讀段中。因此,變體識別器240可以將候選變體識別為真陽性,其可能與癌症或疾病有關,例如可能腫瘤衍生的。
在步驟2030,序列處理器205判定gDNA樣本之替代深度是否顯著地與零相同或不同。舉例而言,序列處理器205使用藉由評分引擎235確定的候選變體之品質評分,使用雜訊模型225來進行評定,如先前參考圖3、圖4及圖9所描述。序列處理器205亦可比較替代深度與臨限深度,例如判定替代深度是否小於或等於臨限深度。舉例而言,臨限深度可為0或1個讀段。響應於確定gDNA樣本之替代深度顯著不同於零,序列處理器205確定存在肯定的證據表明候選變體與不是由癌症或疾病引起之核苷酸突變有關。舉例而言,基於可能通常出現於健康白血球之序列讀段中之突變,候選變體係血液衍生的。
響應於確定gDNA樣本之替代深度不是顯著地非零,序列處理器205確定候選變體可能與gDNA樣本有關,但是在沒有如下文所描述藉由評分引擎235進一步檢查之情況下無法確定候選變體之來源。換言之,關於候選變體係血液衍生的還是腫瘤衍生的,序列處理器205係不確定的。在一些實施例中,序列處理器205可以選擇多個臨限深度中之一者來與替代深度比較。該選擇可基於經處理樣本之類型、雜訊等級、信賴等級或其他因素。
在步驟2040,評分引擎235確定gDNA樣本之序列讀段之gDNA深度品質評分。在一實施例中,評分引擎235使用gDNA樣本之替代深度來計算gDNA深度品質評分,其中C 為用以使用弱先驗來平滑gDNA深度品質評分之預定常數(例如,2),弱先驗避免除以零(divide-by-zero)計算:
在步驟2050,評分引擎235確定gDNA樣本之序列讀段之比率。該比率可表示經處理樣本中所觀察到之cfDNA頻率及所觀察到之gDNA頻率。在一實施例中,評分引擎235使用cfDNA樣本及gDNA樣本之深度及替代深度來計算該比率: 評分引擎235可以使用預定常數C1 C2 C3 C4 藉由弱先驗來平滑該比率。作為實例,該等常數可為:C1 = 2,C2 = 4,C3 = 2,且C4 = 4。因此,若該比率分母中之深度或替代深度中之一者等於零,則評分引擎235可以避免除以零計算。因此,評分引擎235可以使用預定常數來將該比率引導到某個值,例如1或0.5。
在步驟2060,序列處理器205判定gDNA深度品質評分是否大於或等於臨限評分(例如,1)及該比率是否小於臨限比率(例如,6)。響應於確定gDNA深度品質評分小於臨限評分或該比率大於或等於臨限比率,序列處理器205確定存在關於候選變體與gDNA樣本之關聯的不確定證據。換言之,序列處理器205關於候選變體係血液衍生的還是腫瘤衍生的係不確定的,因為候選變體似乎是「血液樣(bloodish)」,但是不存在在健康血細胞中發現相應突變的確定證據。
在步驟2070,響應於確定gDNA深度品質評分大於或等於臨限評分且該比率小於臨限比率,序列處理器205確定候選變體可能與gDNA樣本之核苷酸突變有關。換言之,序列處理器205確定,雖然不存在在健康血細胞中發現相應突變的確定證據,但是相比於正常的,候選變體似乎「更具血性(bloodier)」。
因此,序列處理器205可以使用該比率及gDNA深度品質評分來調整聯合模型225以在判定某些候選變體是否應該作為以下而被篩選出方面提供較大詳盡性:假陽性(例如,最初預測為腫瘤衍生的,但是實際上血液衍生的)、真陽性或由於對分類為任一類別之證據或信賴度不足而不確定。舉例而言,基於方法2000之結果,序列處理器205可以針對聯合模型225之鉸鏈損失函數修改參數中之一或多者(例如,k 參數)。在一些實施例中,序列處理器205使用方法2000之一或多個步驟以將候選變體分配至不同類別,舉例而言,與gDNA之「確定」、「可能」或「不確定」關聯(例如,如圖21A-B中所示)。 VIII. B. 實例決策樹
在各種實施例中,除了關於圖20中所示之方法2000之流程圖所描述的步驟之外,處理系統200亦使用一或多個篩選器處理候選變體。序列處理器205可以在序列中實施篩選器作為決策樹之一部分,其中序列處理器205繼續檢查篩選器之準則直至指定候選變體「退出」決策樹,例如因為指定候選變體在滿足準則中之至少一者時被篩選。經篩選之候選變體可以指示,該候選變體可以由健康個體中天然產生之突變之來源或原因(例如,與白血球gDNA有關)來解釋或歸因於過程誤差。
在一些實施例中,序列處理器205響應於確定不存在序列讀段之品質評分而篩選cfDNA樣本之序列讀段之候選變體。評分引擎235可以使用雜訊模型225確定候選變體之品質評分,如先前參考圖3、圖4及圖9所描述。評分引擎235無需鹼基對準即可確定品質評分。在一些實施例中,由於缺乏聯合模型225之訓練資料或訓練資料較差,未能產生對指定候選變體有用的參數,所以一些樣本或候選變體可能丟失品質評分。舉例而言,序列讀段中之高雜訊等級會導致有用的訓練資料變得無用。評分引擎235可以基於是否處理單個變體或序列處理器205是否正在控制目標面板來調整聯合模型225之特異性及選擇性。作為其他實例,序列處理器205響應於確定候選變體為邊緣變體假影、具有小於臨限cfDNA深度(例如,200個序列讀段)、具有小於臨限cfDNA品質評分(例如,60)或對應於人類白血球抗原(human leukocyte antigen,HLA),例如HLA-A,從而篩選候選變體。因為與HLA-A有關之序列可能難以對準,所以序列處理器205可以針對此等區域中之序列進行定製篩選或變體識別方法。
在一些實施例中,序列處理器205篩選確定與生殖系突變有關之候選變體。序列處理器205可以藉由確定候選變體以對應於指定生殖系突變事件之恰當頻率發生且存在於已知與生殖系事件有關之特定的一或多個位置(例如,在核苷酸序列中),從而確定候選變體為生殖系。另外,序列處理器205可以確定gDNA頻率之點估計,其中C 為常數(例如,0.5): 序列處理器205可以響應於確定大於臨限點估計臨限值(例如,0.3)而確定候選變體為生殖系。在一些實施例中,序列處理器205響應於確定與局部序列重複有關之變體之數目大於臨限值而篩選候選變體。舉例而言,「AAAAAA」或「ATATATAT」局部序列重複可為聚合酶滑動之結果,聚合酶滑動引起局部誤差率增加。 VIII. C. 經調整聯合模型之實例
圖21A為根據一個實施例之cfDNA樣本之候選變體之實例計數表。圖21A-B及圖22中之實例資料係使用從下文參考圖33A-C所描述之無細胞基因組研究之個體之樣本集獲得的序列讀段產生。cfDNA樣本包括來自已知具有癌症或另一類型之疾病的個體的樣本。在圖21A中所示之實例中,處理系統200使用圖20之方法2000確定23805個候選變體「確定」與gDNA有關(例如,由生殖系突變或血液中之純系血細胞生成來解釋)且1360個候選變體「可能」與gDNA有關(例如,「更具血性」或大於臨限信賴等級)。因此,處理系統200可以從聯合模型225或另一管線篩選出此等候選變體,例如使得此等候選變體分類為血液衍生的。處理系統200可以確定既不將計數為2607之「不確定的」(例如,「血液樣」)候選變體歸類為腫瘤衍生的,亦不將其分類為血液衍生的。因此,藉由調整聯合模型225,例如使用來自方法2000之gDNA比率及gDNA深度品質評分,處理系統200改善對候選變體來源分類之詳盡性(例如,不同等級之信賴度)。圖21B為根據一實施例之來自健康個體之cfDNA樣本之候選變體之實例計數表。圖21A-B中所示之實例計數藉由處理系統200使用以下各者確定:臨限深度200個讀段、臨限品質評分60 (例如,按Phred比例)、在與生殖系突變頻率臨限值具有均方偏差之對應位置的品質評分0.005、gDNA頻率之臨限點估計0.3、臨限假影複現率0.05、臨限局部序列重複計數7、臨限機率(例如,cfDNA樣本之真實替代頻率大於gDNA樣本之真實替代頻率之函數) 0.8、臨限gDNA深度0、臨限gDNA深度品質評分1及臨限gDNA樣本比率6。此外,處理系統200篩選出沒有品質評分之候選變體、體細胞變體及HLA-A區域。
圖22為根據一個實施例之基於cfDNA及gDNA之比率繪製的候選變體之圖。對於受試者之多個所繪製的候選變體中之每一者,x軸值表示在gDNA樣本中所觀察到之AF且y軸表示在受試者之相應cfDNA樣本中所觀察到之AF。圖22中所示實例包括使用鉸鏈函數,諸如圖13中所展示之曲線1310或曲線1320,通過聯合模型225的候選變體。對於此實例資料及上文所敍述之參數,處理系統200確定,被描繪為朝向圖左側之交叉標記之候選變體簇,其具有相對較高的AFcfDNA :AFgDNA 比率,可能與白血球中天然產生之核苷酸突變無關,且因此被預測為腫瘤衍生的。點線2220為表示1:1 AFcfDNA :AFgDNA 比率的參考線。鉸鏈函數由帶點圖形2210表示,其可能未必是線(例如,可以包括在一或多個鉸鏈處連接的多個區段)。被描繪為圓圈之候選變體簇具有相對較低的AFcfDNA :AFgDNA 比率,但是當使用由2210表示之鉸鏈函數時,仍然通過聯合模型225 (例如,因為若干候選變體被繪製於2210上方)。然而,此等候選變體中之一些可能實際上與gDNA相關,例如血液衍生的,且應該被篩選出來而非被識別為腫瘤衍生的。點線2200為對交叉標記中所描繪之資料點簇使用穩固擬合回歸所確定的回歸線。藉由使用回歸線2200調整鉸鏈函數,聯合模型225可以篩選出更多實際上為血液衍生的候選變體。在一些實施例中,2200、2210及2220各自與原點(0, 0)相交。處理系統200確定,關於被描繪為三角形(主要位於交叉標記簇與圓圈型候選變體之間)的候選變體簇係血液衍生的還是腫瘤衍生的,存在不確定證據。
為了改善捕捉此等候選變體之準確性,處理系統200可以使用如上文參考圖20所述之篩選器。此外,處理系統200可以藉由在某些條件下對鉸鏈函數使用更積極的參數來調整聯合模型225。舉例而言,處理系統200響應於確定gDNA樣本之AD大於臨限深度(例如,0),其為健康樣本血液中之核苷酸突變之支持性證據,使用較大的機率臨限值(例如,針對圖20中所示之方法2000之步驟2020)。在一些實施例中,處理系統200使用較大的機率臨限值確定經修改之鉸鏈函數(或另一類型之用於分類真陽性及假陽性之函數)。舉例而言,經修改之函數可以具有更尖銳的截止值(例如,相對於圖13之曲線1310及1320),其將沿著圖22中成對角線的點線篩選出該簇之至少一些候選變體。處理系統200亦可使用如分別在方法2000之步驟2040及2050中所確定的gDNA樣本品質評分或比率來調整經修改之函數。 IX. 實例邊緣篩選 IX. A. 來自假影及非邊緣變體之特徵的實例訓練分佈
圖23A描繪一種根據一個實施例之使用訓練變體產生假影分佈及非假影分佈之方法。邊緣篩選器250在訓練過程2300期間使用來自前述樣本(例如,訓練樣本)之訓練資料2305產生假影分佈2340及非假影分佈2345。一旦產生,假影分佈2340及非假影分佈2345可各自儲存(例如,於模型資料庫215中)以便後續在所需要之時間擷取。
訓練資料2305包括各種序列讀段,諸如從經富集序列180 (參見圖1B)獲得之序列讀段。訓練資料2305中之序列讀段可以對應於基因組上之各個位置。在各種實施例中,訓練資料2305中之序列讀段係從超過一個訓練樣本獲得。
邊緣篩選器250將訓練資料2305中之序列讀段歸類為假影訓練資料2310A類別、參考對偶基因訓練資料2330類別或非假影訓練資料2310B類別中之一者。在各種實施例中,響應於確定序列讀段不滿足假影訓練資料2310A類別、參考對偶基因訓練資料2330類別或非假影訓練資料2310B類別中之任一者所要求的準則,訓練資料2305中之序列讀段亦可以歸類為「無結果」或「無分類」類別。
如圖23A中所示,可存在多組假影訓練資料2310A、多組參考對偶基因訓練資料2330及多組非假影訓練資料2310B。一般而言,一組中之序列讀段交叉(重疊)基因組中之共同位置。在各種實施例中,一組中之序列讀段來源於單一訓練樣本(例如,從單一個體獲得之訓練樣本)且交叉基因組中之共同位置。舉例而言,鑒於來自從M個不同個體獲得之M個不同訓練樣本的指定序列讀段,可存在M個不同的組,其各自包括來自M個不同訓練樣本中之一者的序列讀段。雖然後續描述係指交叉基因組上之共同位置的序列讀段組,但是該描述可以進一步擴展至交叉基因組上之其他位置的其他序列讀段組。
對應於基因組上之共同位置的序列讀段包括:1)包括在不同於參考對偶基因(例如,ALT)之位置的核苷酸鹼基的定序讀段及2)包括在匹配參考對偶基因之位置的核苷酸鹼基的定序讀段。再次參考圖1B,序列讀段可以從經富集序列180獲得,其包括ALT (例如,經富集序列180A或180C中之胸腺嘧啶),或可以包括參考對偶基因(例如,經富集序列180B中之胞嘧啶)。
邊緣篩選器250將包括ALT之序列讀段歸類為假影訓練資料2310A或非假影訓練資料2310B中之一者。具體而言,將滿足一或多個準則之序列讀段歸類為假影訓練資料2310A。該準則可為ALT之突變類型及ALT在序列讀段上之位置的組合。在提及突變類型之實例時,歸類為假影訓練資料之序列讀段包括替代性對偶基因,其為胞嘧啶至胸腺嘧啶(C>T)核苷酸鹼基取代或鳥嘌呤至腺嘌呤(G>A)核苷酸鹼基取代。在提及替代性對偶基因之位置之實例時,替代性對偶基因與序列讀段邊緣距離小於臨限數目個鹼基對。在一個實施方案中,鹼基對之臨限數目為25個核苷酸鹼基對,然而,該臨限數目可以隨實施方案而不同。
圖23B描繪根據一個實施例歸類為假影訓練資料2310A類別之序列讀段。另外,該等序列讀段中之每一者滿足一或多個準則。舉例而言,各序列讀段包括替代性對偶基因2375A,其為C>T核苷酸鹼基取代。另外,各序列讀段上之替代性對偶基因2375A係位於小於臨限邊緣距離2360之邊緣距離2350A處。
含有被歸類為非假影訓練資料2310B類別之替代性對偶基因的序列讀段為含有不滿足被歸類為假影訓練資料2310A之準則的替代性對偶基因的所有其他序列讀段。舉例而言,包括不是C>T或G>A核苷酸鹼基取代中之一者的替代性對偶基因的任何序列讀段被歸類為非邊緣訓練變體。作為另一實例,無論核苷酸突變類型如何,包括位於與序列讀段之邊緣距離大於臨限數目個鹼基對處之替代性對偶基因的任何序列讀段被歸類為非假影訓練資料2310B。在一個實施方案中,鹼基對之臨限數目為25個核苷酸鹼基對,然而,該臨限數目可以隨實施方案而不同。
圖23C描繪根據一個實施例歸類為非假影訓練資料2310B類別之序列讀段。此處,該等序列讀段中之每一者包括不滿足兩個準則之替代性對偶基因2375B。舉例而言,各替代性對偶基因2375B可為非C>T或非G>A核苷酸鹼基取代,無論替代性對偶基因2375B之位置如何。作為另一實例,各替代性對偶基因2375B為C>T或G>A核苷酸鹼基取代,但是以大於臨限邊緣距離2360之邊緣距離2350B定位。
現在參考參考對偶基因訓練資料2330類別,將包括參考對偶基因之序列讀段歸類為參考對偶基因訓練資料2330類別。圖23D描繪根據一個實施例對應於基因組中相同位置之序列讀段,其被歸類為參考對偶基因訓練資料2330類別。舉例而言,圖23D中所示之序列讀段各自包括參考對偶基因2380 (其匹配圖1B中所示之胞嘧啶核苷酸鹼基162)。另外,包括參考對偶基因2380之此等序列讀段被歸類為參考對偶基因訓練資料2330,無論參考對偶基因與序列讀段邊緣之間的邊緣距離2350C如何。
返回圖23A,邊緣篩選器250從被歸類為假影訓練資料2310A、非假影訓練資料2310B及參考對偶基因訓練資料2330中之每一者的各組定序讀段中提取特徵。各組定序讀段對應於基因組中之相同位置。具體而言,從假影訓練資料2310A、非假影訓練資料2310B及參考對偶基因訓練資料2330中之一者、兩者或所有三者中之序列讀段中提取假影特徵2320及非假影特徵2325。假影特徵2320及非假影特徵2325之實例包括與邊緣特徵之統計距離、顯著性評分特徵及對偶基因分率特徵。此等特徵中之每一者下文關於圖23E至圖23G進一步詳述描述。
圖23E為根據一個實施例用於提取與邊緣特徵之統計距離之方法的實例繪圖。此處,邊緣篩選器250提取分別與來自假影訓練資料2310A中之一組序列讀段及非假影訓練資料2310B中之一組序列讀段的邊緣2322A及2322B特徵的假影及非假影統計距離。與邊緣2322A及2322B特徵之各統計距離可以表示序列讀段上之替代性對偶基因2375與序列讀段之相應邊緣之間的距離(例如,核苷酸鹼基對之數目)之平均值、中值或眾數中之一者。更特定言之,與邊緣2322A之假影統計距離表示一組假影訓練資料2310A中之各序列讀段之邊緣距離2350A的組合(參見圖23B)。類似地,與邊緣2322B之非假影統計距離表示一組假影訓練資料2310B中之各序列讀段之邊緣距離2350B的組合(參見圖23C)。
圖23F為根據一個實施例用於提取顯著性評分特徵之方法的實例繪圖。邊緣篩選器250從假影訓練資料2310A中之一組序列讀段與參考對偶基因訓練資料2330中之一組序列讀段之組合提取假影顯著性評分2323A特徵。類似地,邊緣篩選器250從非假影訓練資料2310B中之一組序列讀段與參考對偶基因訓練資料2330中之一組序列讀段之組合提取非假影顯著性評分2323B特徵。一般而言,來自假影訓練資料2310A、非假影訓練資料2310B及參考對偶基因訓練資料2330之各組序列讀段對應於基因組上之共同位置。因此,對於各位置,可存在針對該位置之假影顯著性評分2323A及非假影顯著性評分2323B。雖然後續描述係指提取假影顯著性評分2323A之方法,但是相同描述適用於提取非假影顯著性評分2323B之方法。
假影顯著性評分2323A特徵表示假影訓練資料2310A中之一組序列讀段上之替代性對偶基因2375A之位置(例如,關於與序列讀段之邊緣的距離或另一量度)與參考對偶基因訓練資料2330中之一組定序讀段上之參考對偶基因2380之位置是否足夠不同達到統計顯著程度。具體而言,假影顯著性評分2323A為假影訓練資料2310A中之替代性對偶基因2375A之邊緣距離2350A (參見圖23B)與參考對偶基因訓練資料2330中之參考對偶基因2380之邊緣距離2350C (參見圖23D)之間的比較。
在各種實施例中,為了邊緣距離之間的比較,邊緣篩選器250進行統計顯著性檢定。作為一個實例,統計顯著性檢定為威爾卡森秩和檢定(Wilcoxon rank-sum test)。此處,邊緣篩選器250分別視各邊緣距離2350A及2350C之量值而定,給假影訓練資料2310A中之各序列讀段及參考對偶基因訓練資料2330中之各序列讀段分配秩。舉例而言,可以給具有最大邊緣距離2350A或2350C之序列讀段分配最高秩(例如,秩 = 1),可以給具有第二大邊緣距離2350A或2350C之序列讀段分配第二高秩(例如,秩 = 2),依此類推。邊緣篩選器250將假影訓練資料2310A中之序列讀段之中值秩與參考對偶基因訓練資料2330中之序列讀段之中值秩相比較以判定假影訓練資料2310A中之替代性對偶基因2375之位置是否顯著地不同於參考對偶基因訓練資料2330A中之參考對偶基因2380之位置。舉例而言,該等中值秩之間的比較可以產生p值,其表示關於中值秩是否顯著地不同的統計顯著性評分。在各種實施例中,假影顯著性評分2223A由Phred評分表示,其可以表示為: 其中P為p值評分。總而言之,低假影顯著性評分2323A表示中值秩之差異不是統計顯著的,而高假影顯著性評分2323A表示中值秩之差異為統計顯著的。
圖23G為根據一個實施例用於提取對偶基因分率特徵之方法的實例繪圖。對偶基因分率特徵係指替代性對偶基因2375A或2375B之對偶基因分率。具體而言,假影對偶基因分率2324A係指替代性對偶基因2375A之對偶基因分率(參見圖23B),而非假影對偶基因分率2324B係指替代性對偶基因2375B之對偶基因分率(參見圖23C)。對偶基因分率表示對應於包括替代性對偶基因之基因組中之位置的序列讀段之分率。舉例而言,在假影訓練資料2310A中可存在X 個包括替代性對偶基因2375A之總序列讀段。在非假影訓練資料2310B中亦可存在Y 個包括替代性對偶基因2375B之總序列讀段。另外,在參考對偶基因訓練資料2330中可存在Z 個具有參考對偶基因之總序列讀段。因此,替代性對偶基因2375A之假影對偶基因分率2324A可以表示為。另外,替代性對偶基因2375B之非假影對偶基因分率2324B可以表示為
返回圖23A,邊緣篩選器250編譯從基因組之各個位置之各組序列讀段提取的假影特徵2320以產生假影分佈2340。另外,邊緣篩選器250編譯從基因組之各個位置之各組序列讀段提取的非假影特徵2325以產生非假影分佈2345圖23A描繪一個特定實施例,其中使用三個不同特徵2320A來產生假影分佈2340且使用三個不同特徵2320B來產生非假影分佈2345。在其他實施例中,使用更少或更多的各類型特徵2320A或2320B來產生假影分佈2340或非假影分佈2345。
圖23H及圖23I描繪根據各個實施例之用於鑑定邊緣變體之實例分佈。具體而言,圖23H描繪由一種類型之假影特徵2320或非假影特徵2325產生的分佈2340或2345。雖然圖23G為了說明起見描繪常態分佈,但是實際上,分佈2340及2345將視特徵2320或2325之值而變化。
在另一實施例中,邊緣篩選器250可以使用多個假影特徵2320或非假影特徵2325來產生單一分佈2340或2345。舉例而言,圖23I描繪由兩種類型之假影特徵2320或兩種類型之非假影特徵2325產生的分佈2340或2345。此處,分佈2340或2345描述第一特徵與第二特徵之間的關係。在其他實施例中,分佈2340或2345可以表示三種或更多種類型之假影特徵2320或非假影特徵2325之間的關係。 IX. B. 用於鑑定邊緣變體之樣本特異性比率之實例確定
圖24A描繪根據一個實施例之用於確定樣本特異性預測比率之方塊圖流動法2400。一般而言,邊緣篩選器250進行樣本2405中之經識別變體之全樣本分析(sample-wide analysis)以確定對樣本2405具有特異性的預測比率2420。換言之,圖24A中所示之方法2400可以對於各樣本2405進行一次。
從樣本2405獲得經識別變體2410之序列讀段。如上文關於圖1A及圖3所描述,用於從樣本2405鑑定經識別變體之步驟可以包括方法100或300之一或多個步驟。一般而言,經識別變體2410之序列讀段係指交叉基因組中經識別變體所對應之位置的一組序列讀段。
對於各經識別變體,邊緣篩選器250從經識別變體2410之序列讀段提取特徵2412。從經識別變體2410之序列讀段提取的各特徵2412可為距離序列讀段中之替代性對偶基因之邊緣的統計距離、替代性對偶基因之對偶基因分率、顯著性評分、另一類型之特徵或其某一組合。邊緣篩選器250將對樣本2405之各經識別變體所提取的特徵2412作為輸入應用於樣本特異性比率預測模型2415 (例如,圖2中所示之模型225中之一者),該模型確定樣本2405之預測比率2420。樣本2405之預測比率2420係指經識別變體為邊緣變體之估計比例。在各種實施例中,預測比率2420為介於0與1之間的值,例如包括端值。
如圖24A中所示,樣本特異性比率預測模型2415使用先前產生之假影分佈2340及非假影分佈2345。鑒於假影分佈2340及非假影分佈2345,樣本特異性比率預測模型2415藉由分析從樣本2405中之經識別變體之序列讀段提取之特徵2412來確定預測比率2420。舉例而言,鑒於假影分佈2340及非假影分佈2345,樣本特異性比率預測模型2415進行一定優度之擬合以確定可解釋所觀察到之特徵2412的預測比率2420。在一個實施方案中,鑒於假影分佈2340及非假影分佈2345,樣本特異性比率預測模型2415進行最大似然估計以估計使觀察特徵2412之似然度最大化的預測比率2420。然而,其他實施方案可以使用其他方法。
在一個實施例中,用於估計之似然度方程式可以表述為:(1) 其中w為預測比率2420,x表示特徵2412,表示假影分佈2340,且表示非假影分佈2345。換言之,方程式1為鑒於假影分佈2340觀察特徵2412之似然度與鑒於非假影分佈2345觀察特徵2412之似然度的加權和。因此,最大似然估計確定鑒於特定的一組條件使此整體似然度最大化的預測比率2420 (例如,比率w )。
如圖24A中所示,邊緣篩選器250可以從經識別變體310之序列讀段提取多個特徵2412且向比率預測模型2415提供特徵2412。舉例而言,可存在三種類型之特徵(例如,距離序列讀段中之替代性對偶基因之邊緣的統計距離、替代性對偶基因之對偶基因分率或顯著性評分)。進一步概括,假定向比率預測模型2415提供n 個不同類型之特徵2412 (例如,),方程式1可以表述為:(2)
總而言之,響應於確定從樣本2405中之經識別變體之序列讀段提取的特徵2412之分佈相比於非假影分佈2345更類似於假影分佈2340,比率預測模型2415確定高預測比率2420,其指示高估計比例之經識別變體可能為邊緣變體。或者,響應於從樣本2405中之變體之序列讀段提取的特徵2412之分佈相比於假影分佈2340更類似於非假影分佈2345,比率預測模型2415確定低預測比率2420,其指示低估計比例之經識別變體可能為邊緣變體。如下文所論述,預測比率2420可用於控制在樣本中鑑定邊緣變體之情況下的「積極性(aggressiveness)」之程度。因此,分配高預測比率2420之樣本可經過積極地篩選(例如,使用較寬準則以篩選出較大數目之可能邊緣變體),而分配低預測比率2420之樣本可經過不太積極地篩選。 IX. C. 用於鑑定邊緣變體之實例變體特異性分析
圖24B描繪根據一個實施例用於鑑定邊緣變體之邊緣變體預測模型2435之應用。在變體特異性分析2450中,邊緣篩選器250分析經識別變體2410之序列讀段以判定經識別變體是否為邊緣變體。圖24B中所描繪之方法可以對單一樣本2405所偵測到之各經識別變體或經識別變體之子集進行。
在一個實施例中,邊緣篩選器250基於經識別變體之突變類型來篩選經識別變體。此處,不屬於C>T或G>A突變類型之經識別變體可以自動表徵為非邊緣變體。或者,在下文所描述之後續步驟中進一步分析屬於C>T或G>A之任何經識別變體。
如圖24B中所示,邊緣篩選器250從經識別變體2410之序列讀段提取特徵2412。經識別變體2410之序列讀段之所提取特徵2412可以與從經識別變體2410之序列讀段提取的特徵2412相同,如圖24A中所示。亦即,特徵2412可為以下各者中之一或多者:距離序列讀段中之替代性對偶基因之邊緣的統計距離、替代性對偶基因之對偶基因分率或顯著性評分以及其他類型之特徵。
邊緣篩選器250向邊緣變體預測模型2435 (例如,圖2中所示之模型225中之一者)提供所提取特徵2412作為輸入。如圖24B中所示,邊緣變體預測模型2435使用先前產生之假影分佈2340及非假影分佈2345。邊緣變體預測模型2435產生多個評分,諸如表示經識別變體為邊緣變體之似然度的假影評分2455,以及表示經識別變體為非邊緣變體之似然度的非假影評分2460。
具體而言,邊緣變體預測模型2435鑒於假影分佈2340及非假影分佈2345確定觀察到經識別變體2410之序列讀段之特徵2412的機率。在一個實施例中,邊緣變體預測模型2435鑒於假影分佈2340藉由分析特徵2412確定假影評分2455且鑒於非假影分佈2345藉由分析特徵2412確定非假影評分2460。
作為可見實例,返回參考圖23H中所示之實例分佈,邊緣變體預測模型2435基於特徵2412沿著x軸所落之處來鑑定機率。在本實例中,經鑑定機率可為評分,諸如假影評分2455或非假影評分2460,由邊緣變體預測模型2435輸出。
如圖24B中所示,邊緣篩選器250將假影評分2455及非假影評分2460與樣本特異性預測比率2420 (如圖24A中所述)組合。該組合產生邊緣變體機率2470,其表示經識別變體為處理假影之結果的似然度。
在一個實施例中,邊緣變體機率2470可以表述為,鑒於從經識別變體2410之序列讀段提取之特徵2412,經識別變體為邊緣變體的後驗機率。假影評分2455、非假影評分2460及樣本特異性預測比率2420之組合可以表述為:
邊緣篩選器250可以將邊緣變體機率2470與臨限值相比較。響應於確定邊緣變體機率2470大於臨限值,邊緣篩選器250確定經識別變體為邊緣變體。響應於確定邊緣變體機率2470小於臨限值,邊緣篩選器250確定經識別變體為非邊緣變體。 IX. D. 用於鑑定邊緣變體之實例變體特異性分析
圖25描繪根據一個實施例之鑑定及報告從樣本偵測之邊緣變體之流動法2500。方法2500之一或多個步驟可以藉由處理系統200之組件進行,例如邊緣篩選器250,或模型225中之一者。從樣本接收2505來自各種定序讀段之經識別變體。基於來自樣本之經識別變體之定序讀段,確定2510該樣本之樣本特異性預測比率。作為一個實例,藉由進行最大似然估計確定預測比率。此處,預測比率為鑒於先前產生之分佈,使觀察到經識別變體之序列讀段之特徵2412的似然度最大化(例如,指定的某些條件)的參數值。
對於各經識別變體,從變體之序列讀段提取2515一或多個特徵2412。將所提取特徵2412作為輸入應用2520於經訓練模型225以獲得假影評分2455。假影評分2455表示經識別變體為邊緣變體(例如,處理假影之結果)的似然度。經訓練模型225進一步輸出非假影評分2460,其表示經識別變體為非邊緣變體(例如,不是處理假影之結果)的似然度。
對於各經識別變體,藉由組合經識別變體之假影評分2455、經識別變體之非假影評分2460及樣本特異性預測比率2420,產生2525邊緣變體機率2470。基於邊緣變體機率2470,可以將經識別變體報告2530為邊緣變體(例如,作為處理假影之結果而識別的變體)。 IX. E. 邊緣篩選之實例
提出以下實例以便進一步提供一般技術者如何製造且使用所揭示實施例之完整的揭示內容及描述,且並不意欲限制本發明之範疇。已努力確保關於所用數字(例如量、溫度、濃度等)之準確性,但一些實驗誤差及偏差應該是允許的。熟習此項技術者應瞭解,根據本發明,可以在不脫離本發明之預期範疇之情況下在舉例說明之特定實施例中作出許多修改及改變。 IX. E. I. 對假影及清潔訓練樣本進行歸類
圖26A、圖26B及圖26C各自描繪根據各個實施例歸類為假影或非假影類別中之一者的實例訓練變體之特徵。圖26A、圖26B及圖26C中所示之實例包括使用圖23A中所示之方法2300確定的假影分佈及非假影分佈。經由抽血從具有乳癌、肺癌或前列腺癌中之一者的受試者獲得無細胞DNA樣本。樣本集針對各類型癌症(乳癌、肺癌及前列腺癌)包括至少50名受試者。對於所有參與受試者,在六周切片檢查(之前或之後)之內同時抽取血液。
根據圖1A及/或圖3中所示之方法工作流程之一或多個步驟分析cfDNA樣本之變體以在步驟130之後獲得經篩選經識別變體。對於經識別變體中之每一者,分析引起經識別變體之鑑定的序列讀段。舉例而言,邊緣篩選器250將包括基因組上之特定位點之替代性對偶基因的序列讀段歸類為假影組及非假影組,如下文所描述。另外,包括基因組上之特定位點之參考對偶基因的序列讀段作為參考對偶基因資料被包括以隨後用於確定序列讀段之特徵。
邊緣篩選器250基於兩個準則將包括替代性對偶基因之序列讀段歸類為假影或非假影類別。第一準則包括25個核苷酸鹼基對之臨限距離。因此,歸類為假影類別之序列讀段包括與序列讀段之邊緣在25個核苷酸鹼基對內的替代性對偶基因。第二準則為核苷酸鹼基突變之類型。具體而言,歸類為假影類別之序列讀段包括作為C>T或G>A突變中之一者的替代性對偶基因。邊緣篩選器250將包括不滿足這兩個準則之替代性對偶基因的序列讀段歸類為非假影類別。
邊緣篩選器250從經識別變體之序列讀段提取特徵,該等序列讀段包括:包括替代性對偶基因之序列讀段以及包括參考對偶基因之序列讀段。此處,三種類型之所提取特徵包括:1)替代性對偶基因與序列讀段之邊緣的中值距離,2)替代性對偶基因之對偶基因分率,及3)顯著性評分。三種類型之所提取特徵經編譯且用於產生圖26A-C中所示之假影分佈及非假影分佈。
圖26A-C各自顯示假影分佈(左)及非假影分佈(右)。各分佈描繪從歸類為假影訓練資料或非假影訓練資料之定序讀段提取的兩個特徵之間的關係。具體而言,圖26A描繪顯著性評分與距離邊緣之中值距離之間的關係。圖26B描繪對偶基因分率之分佈與距離邊緣之中值距離之間的關係。圖26C描繪對偶基因分率之分佈與顯著性評分之間的關係。
在圖26A-C中所示之假影分佈及非假影分佈中觀察到若干趨勢。值得注意的是,假影類別中之邊緣變體往往具有高顯著性評分(例如,在顯著性評分100下高濃度之邊緣變體,如圖26A及圖26C中所示),而非假影類別中之非邊緣變體往往具有低得多的顯著性評分。另外,距離邊緣之較低的中值距離與較高濃度之邊緣變體相關。舉例而言,圖26A及圖26B描繪較高濃度之邊緣變體,其在與邊緣距離零個核苷酸鹼基之中值距離處或附近具有替代性對偶基因,與距離邊緣25個核苷酸鹼基之中值距離相對。值得注意的是,大量非邊緣變體亦包括與定序讀段之邊緣距離25個核苷酸鹼基內之替代性對偶基因(參見圖26A及圖26B)。此指示,存在經鑑定為經識別變體的非C>T及非G>A核苷酸鹼基取代群體。 IX. E. II. 偵測人類MSK-VP-0058中之邊緣變體
圖27A、圖27B及圖27C各自描繪根據各個實施例從受試者獲得之實例癌症樣本中之邊緣及非邊緣變體之偵測。如上文關於圖26A-C中所示實例所描述,處理樣本(MSK-VP-0058)。簡言之,根據圖1A及/或圖3中所示之方法工作流程之一或多個步驟分析來自受試者之cfDNA樣本的變體。序列讀段從cfDNA樣本獲得且藉由邊緣篩選器250歸類為各組,使得一組中之序列讀段各自交叉基因組中之共同位置。邊緣篩選器250從各組序列讀段提取特徵。
使用從樣本之序列讀段提取的所觀察到之特徵進行樣本特異性分析以確定樣本之預測比率。具體而言,鑒於圖26A-C中所示之假影分佈及非假影分佈分析從所有經識別變體(例如,樣本中所偵測到之所有117個經識別變體)中之各組序列讀段提取的特徵。使用方程式(1)進行最大似然估計,其鑑定預測比率。此處,因為預測比率值高(例如,在0至1之範圍內接近1),且因此,邊緣篩選器250積極地篩選經篩選之此樣本以移除邊緣變體。
為了鑑定邊緣變體,單獨分析各經識別變體。邊緣篩選器250將作為非C>T及非G>A核苷酸鹼基突變之經識別變體自動歸類為非邊緣變體。如圖27A-C中所示,此等為標記為「假的(FALSE)」之非邊緣變體(例如,用「X」描繪之經識別變體)。進一步分析作為C>T或G>A核苷酸鹼基突變之經識別變體。對於各經識別變體,邊緣篩選器250從經識別變體之序列讀段提取特徵。邊緣篩選器250將所提取特徵作為輸入應用於邊緣變體預測模型,該模型鑒於假影分佈及非假影分佈分析特徵。該模型輸出假影評分及非假影評分,其分別表示經識別變體為邊緣變體及非邊緣變體的似然度。邊緣篩選器250根據方程式(3)計算經識別變體之邊緣變體機率,該方程式使用假影評分、非假影評分及樣本特異性預測比率。邊緣篩選器250將各經識別變體之邊緣變體機率與1%之臨限機率相比較。
邊緣篩選器250將具有大於1%之邊緣變體機率的經識別變體歸類為邊緣變體(例如,圖27A-C中所示之左圖)。邊緣篩選器250將具有小於1%之邊緣變體機率的經識別變體歸類為非邊緣變體(例如,圖27A-C中所示之右圖)。一般而言,歸類為邊緣變體的經識別變體展現高顯著性評分(參見圖27A及圖27C)、距離邊緣之低中值距離(參見圖27A及圖27B)及低對偶基因頻率(參見圖27B及圖27C)。 IX. E. III. 偵測人類MSK-VB-0023中之邊緣變體
圖28A、圖28B及圖28C各自描繪根據各個實施例從受試者獲得之另一實例癌症樣本中之邊緣及非邊緣變體之偵測。如上文關於圖26A-C及圖27A-C中所示之實例所描述,處理樣本(MSK-VB-0023)。
在本實例中,進行樣本特異性分析以確定樣本之預測比率。具體而言,鑒於圖26A-C中所示之假影分佈及非假影分佈,分析由邊緣篩選器250從經識別變體之序列讀段提取的特徵,該等經識別變體係從樣本識別(例如,樣本中所偵測到之所有1611個經識別變體)。邊緣篩選器250使用方程式(1)進行最大似然估計,其得到預測比率。此處,低預測比率值指示樣本中所偵測到之大量經識別變體不同於先前所觀察到之邊緣變體的似然度。因此,邊緣篩選器250使用低預測比率來進行邊緣變體之不太積極的篩選。
分析各經識別變體以判定該經識別變體為邊緣變體還是非邊緣變體。邊緣篩選器250將作為非C>T及非G>A核苷酸鹼基突變之經識別變體自動歸類為非邊緣變體。此等非邊緣變體顯示於圖28A-C中且經標記為「假的」(例如,用「X」描繪之經識別變體)。進一步分析作為C>T或G>A核苷酸鹼基突變之經識別變體。對於各經識別變體,邊緣篩選器250從經識別變體之序列讀段提取特徵。邊緣篩選器250將所提取特徵作為輸入應用於邊緣變體預測模型,該模型鑒於假影分佈及非假影分佈分析特徵。該模型輸出假影評分及非假影評分,其分別表示經識別變體為邊緣變體及非邊緣變體的似然度。邊緣篩選器250計算經識別變體之邊緣變體機率,其係根據方程式(3)計算,該方程式使用假影評分、非假影評分及樣本特異性預測比率。邊緣篩選器250將各經識別變體之邊緣變體機率與1%之臨限機率相比較。
邊緣篩選器250將具有大於1%之邊緣變體機率的經識別變體歸類為邊緣變體(例如,圖28A-C中所示之左圖)。邊緣篩選器250將具有小於1%之邊緣變體機率的經識別變體歸類為非邊緣變體(例如,圖28A-C中所示之右圖)。
在本實例中,邊緣篩選器250確定大量經識別變體為非邊緣變體。進一步的研究揭示,此受試者展現超突變體(hypermutator)特性。具體而言,該受試者展現脂蛋白元B mRNA編輯酶催化多肽家族(APOBEC)突變特徵,其體現為大量C>T突變。因此,鑒於此等經識別變體不是邊緣變體,邊緣篩選器250將此等經識別變體歸類為非邊緣變體。
此實例表明,邊緣篩選器250基於在特定樣本中所觀察到之變體的分佈適應篩選過程的能力。因為大量此等變體可能係因為該受試者可能包括超突變體這個事實而出現的,所以藉由邊緣篩選器250進行之篩選過程在鑑定及移除邊緣變體方面可能不太積極。 IX. E. IV. 用於偵測邊緣變體之樣本特異性適應
圖29描繪根據一個實施例在各種受試者樣本中之邊緣變體之鑑定。圖29包括來自上文參考圖26A-C及圖27A-C所描述之受試者樣本MSK-VP-0058及MSK-VB-0023以及諸多其他受試者樣本的資料。圖29中所示之實例結果可以使用圖1A或圖3中所示之工作流程方法之一或多個步驟確定。舉例而言,在方法300之步驟320確定的各樣本之邊緣變體及非邊緣變體用以產生圖29中所示之結果。
具體而言,圖29描繪受試者樣本之所鑑定的邊緣變體及非邊緣變體之分佈(y軸)隨距離定序讀段之邊緣的中值距離(x軸)的變化。
圖29表明,對於各受試者樣本,邊緣篩選器250之篩選方法可以不同地鑑定邊緣變體及非邊緣變體。舉例而言,MSK-VP-0082 (例如,上數第五個樣本)包括大量邊緣變體,其展現介於10個與25個核苷酸鹼基對之間的距離邊緣之中值距離。此外,MSK-VP-VL-0081 (例如,上數第六個樣本)包括顯著大量的非邊緣變體,其展現介於10個與25個核苷酸鹼基對之間的距離邊緣之中值距離。相比於對所有樣本採用相同篩選方法的篩選,此樣本特異性篩選能夠更準確地鑑定及移除邊緣變體。非樣本特異性篩選之實例可以基於諸如對偶基因頻率之特徵而採用固定截止值,使得若替代性對偶基因之對偶基因頻率大於固定臨限量,則將對應於替代性對偶基因之經識別變體歸類為邊緣變體。 IX. E. V. 邊緣變體篩選方法之靈敏度及特異性
圖30描繪根據一個實施例,在使用不同的邊緣篩選器移除邊緣變體之後,在實體腫瘤中及cfDNA中所識別的協調變體,呈cfDNA中所識別之變體的分率形式。圖31描繪根據一個實施例,在使用不同的邊緣篩選器移除邊緣變體之後,在實體腫瘤中及cfDNA中所識別的協調變體,呈實體腫瘤中所識別之變體的分率形式。特定言之,圖30及圖31均描繪一致性數字,其視所應用之邊緣變體篩選器(例如,無邊緣變體篩選器、簡單邊緣變體篩選器或樣本特異性邊緣變體篩選器)而變化。
對於圖30及圖31中所示之資料集,樣本係從受試者獲得且使用上文關於圖26A-C之實例所描述之分析方法處理以在圖3中之步驟320之後獲得初始的一組經識別變體。包括在該初始組中之此等經識別變體不經歷進一步篩選以移除邊緣變體。
在兩種各別情況中,初始組中之此等經識別變體藉由邊緣篩選器250進一步篩選以鑑定及移除邊緣變體。第一種情況包括應用第一篩選器,以下稱為簡單邊緣變體篩選器。簡單邊緣變體篩選器移除展現降至低於臨限距離之距離序列讀段邊緣之中值距離的經識別變體。此處,臨限距離係基於歸類為假影訓練資料類別之訓練序列讀段中之邊緣變體之位置而確定。具體而言,臨限距離表述為邊緣變體距離序列讀段邊緣之中值距離與邊緣變體距離序列讀段邊緣之中值距離之中值絕對偏差的求和。簡單邊緣變體篩選器為簡單的無差別篩選器,其移除所有滿足此臨限距離準則之變體。第二篩選係指關於圖26A-C、圖27A-C、圖28A-C及圖29之實例所描述且進一步在下文參考圖32所描述的邊緣篩選方法。此處,樣本特異性邊緣變體篩選器鑑定邊緣變體,同時考慮該樣本所觀察到之經識別變體的分佈。
相比於習知方法,保留在使用簡單邊緣變體篩選器或樣本特異性邊緣變體篩選器移除邊緣變體之後依然存在的非邊緣變體用於分析。如下文所提及,習知方法係指使用習知方法從實體腫瘤樣本鑑定基因組變異,尤其是紀念斯隆凱特琳-可行癌症目標之整合突變譜分析(Memorial Sloan Kettering Integrated Mutation Profiling of Actionable Cancer Targets,MSK-IMPACT)管線(Cheng, D.等人,Memorial Sloan Kettering - Integrated Mutation Profiling of Actionable Cancer Targets ( MSK - IMPACT ), A Hybridization Capture - Based Next - Generation Sequencing Clinical Assay for Solid Tumor Molecular Oncology , Journal of Molecular Diagnostics, 17(3), 第251-264頁)。
此處,將作為非邊緣變體且由習知方法偵測之經識別變體稱為協調變體。
圖30描繪在應用邊緣篩選器(或不應用邊緣篩選器)之後在cfDNA樣本中所偵測到之協調變體及在實體腫瘤組織中所偵測到之經識別變體,呈在cfDNA中所偵測到之非邊緣變體之分率形式。此比例可以表述為:
圖31描繪在應用邊緣篩選器(或不應用邊緣篩選器)之後在cfDNA樣本中所偵測到之協調變體及在實體腫瘤組織中所偵測到之經識別變體,呈在實體腫瘤組織中所偵測到之經識別變體之分率形式。此比例可以表述為:
圖30及圖31中所示之協調變體之百分比描繪若干感興趣的趨勢。相比於圖30中所描繪之協調變體之百分比,圖31中所示之協調變體之百分比顯著更大。舉例而言,在乳癌中所偵測到之呈僅在cfDNA中所偵測到之經識別變體之分率形式的協調變體百分比為9.8%,其顯著地低於在乳癌中所偵測到之呈在實體腫瘤組織中所偵測到之經識別變體之分率形式的73%協調變體。此指示,cfDNA樣本中非邊緣變體之鑑定(無論癌症類型如何)相比於識別實體腫瘤組織中之變體的習知方法達成更高的靈敏度。
在提及圖30中之簡單邊緣變體篩選器時,簡單邊緣變體篩選器之應用可增加經識別變體之特異性。舉例而言,相比於無邊緣變體篩選器,應用簡單邊緣變體篩選器可增加在乳癌中(例如,9.5%至11%)、在肺癌中(例如,45%至49%)及在前列腺癌中(例如,22%至27%)所偵測到之經識別變體之特異性。然而,這種特異性增加係以靈敏度為代價的,如圖31中所示。相比於無邊緣變體篩選器,應用簡單邊緣變體篩選器會降低在乳癌中(例如,73%至69%)、在肺癌中(例如,73%至70%)及在前列腺癌中(例如,76%至71%)所偵測到之經識別變體之靈敏度。
相對較而言,應用樣本特異性邊緣變體篩選器可改善特異性而不犧牲靈敏度。如圖30中所示,相比於無邊緣變體篩選器,應用樣本特異性邊緣變體篩選器可增加在乳癌中(例如,9.5%至9.8%)、在肺癌中(例如,45%至47%)及在前列腺癌中(例如,22%至27%)所偵測到之經識別變體之特異性。另外,如圖31中所示,相比於無邊緣變體篩選器,應用樣本特異性邊緣變體篩選器可維持在乳癌中(例如,維持在73%)、在肺癌中(例如,維持在73%)及在前列腺癌中(例如,維持在76%)所偵測到之經識別變體之靈敏度。 X. 實例變體識別器 X. A. 不同篩選器及評分之實例組合
圖32為根據一個實施例使用不同類型之篩選器及模型225處理候選變體之方法3200的流程圖。方法3200之一或多個步驟可以結合本文中所述之其他方法或另一方法進行。舉例而言,方法3200可以作為圖3中所示之方法300之一部分進行以鑑定及移除任何假陽性,例如在識別變體之前。方法3200可以包括不同於、額外於或少於在一些實施例中結合圖32所描述之步驟的步驟,或以不同於結合圖32所描述之順序的順序進行步驟。舉例而言,方法3200可以使用聯合模型篩選,但不採用邊緣篩選。作為不同實例,方法3200可以在使用聯合模型篩選之前進行邊緣篩選。在一些實施例中,可以組合一或多個步驟,例如方法3200包括在同一個步驟中使用聯合模型及邊緣篩選進行篩選。
在步驟3210,處理系統200使用至少一個模型225來模型化核酸樣本(例如cfDNA樣本)之序列讀段之雜訊。模型225可為如先前參考圖4至圖9所描述之貝氏階層式模型,其近似序列讀段之每個位置之期望雜訊分佈。在步驟3220,處理系統200使用聯合模型225從序列讀段篩選候選變體,例如如先前參考圖10至圖19所描述。在一些實施例中,處理系統200使用聯合模型225來判定在cfDNA樣本中觀察到之指定候選變體是否可能與相應gDNA樣本(例如,來自白血球)之核苷酸突變有關。
在步驟3230,在一些實施例中,處理系統200使用邊緣篩選來篩選候選變體。特定言之,邊緣篩選器250可以使用樣本特異性比率預測模型2415 (參見圖24A)及邊緣變體預測模型2435 (參見圖24B)來確定如何積極地篩選樣本以移除邊緣變體,例如如先前參考圖23A至圖31所描述。在一些實施例中,評分引擎235使用該等模型進行邊緣篩選以分析及分配支持評分給各候選變體(或經識別變體),其中支持評分表示候選變體為非邊緣變體之信賴度等級。邊緣篩選器250保留與大於臨限評分之支持評分有關的候選變體,而邊緣篩選器250篩選出與小於(或等於)臨限評分之支持評分有關的候選變體。在一些實施例中,評分引擎235基於關於候選變體之先驗知識及/或在一組健康樣本中針對該染色體/位置觀察到之系統誤差而產生候選變體之支持評分。在一些情況中,支持評分可以基於包括候選變體之目標區域的定序深度而確定,且臨限評分可基於一組先前定序樣本(例如,參考資料)中目標區域之平均定序深度。
如上文關於邊緣篩選器250所述,從樣本獲得之序列讀段可以包括:包括替代性對偶基因之序列讀段以及包括參考對偶基因之序列讀段。具體而言,鑒於樣本之候選變體集合,邊緣篩選器250可以進行似然度估計以確定樣本中之邊緣變體之預測比率。鑒於該樣本之某些條件,預測比率可以鑒於兩個分佈最佳地解釋針對該樣本所觀察到之候選變體集合。一個分佈描述已知邊緣變體之特徵,而另一經訓練分佈描述已知非邊緣變體之特徵。預測比率為樣本特異性參數,其控制如何積極地分析樣本以從樣本鑑定及篩選邊緣。篩選及移除樣本之邊緣變體,出於後續考慮因素(例如,用於確定癌症之存在/不存在或癌症或其他疾病之似然度)留下非邊緣變體。
在步驟3240,在一些實施例中,非同義篩選器260可視情況基於非同義突變篩選候選變體。相比於同義突變,核酸序列之非同義突變引起與核酸序列有關之蛋白質胺基酸序列中之改變。舉例而言,非同義突變可以改變個體之一或多個表型或導致(或使更脆弱)個體發展出癌症、癌細胞或其他類型之疾病。在一些實施例中,非同義篩選器260藉由確定對三核苷酸之一或多個核鹼基之修飾將引起基於經修飾之三核苷酸產生不同的胺基酸,從而確定候選變體應該產生非同義突變。在一些實施例中,非同義篩選器260保留與非同義突變有關之候選變體且篩選出與同義突變有關之其他候選變體,因為前一組候選變體較可能對個體造成功能影響。 X. B. 經組合之篩選及評分的實例
下圖34A-H中之實例資料係使用從無細胞基因組研究之個體之樣本集獲得的序列讀段產生且使用本文所述之方法(例如,雜訊模型化、聯合模型化、邊緣篩選、非同義篩選等)中之一或多者處理。樣本集包括健康個體,從該等健康個體獲得血液樣本(例如,cfDNA)。另外,樣本集包括已知具有至少一種類型之癌症的個體,從該等個體獲得血液樣本及組織樣本(例如,腫瘤或gDNA)。從美國及加拿大約140個中心之個體收集資料。圖33A-C顯示關於樣本集之其他細節。
圖33A為描述用於根據一個實施例之無細胞基因組研究之樣本集的個體的表格。樣本集包括已知具有至少乳癌、肺癌、前列腺癌、結腸直腸癌及其他類型之癌症的樣本。個體之人口統計資料(例如,年齡、性別及族群)亦顯示於圖33A中。圖33B為指示與根據一個實施例用於圖33A之無細胞基因組研究之樣本集有關之癌症類型的圖表。圖33C為另一個描述根據一個實施例用於圖33A之無細胞基因組研究之樣本集的表格。特定言之,該表顯示基於癌症之臨床階段,已知具有癌症組織之樣本的計數。
圖34A顯示根據一個實施例使用一或多種類型之篩選器及模型確定的經識別變體之實例計數之圖表。該等圖表中之每一者包括在x軸及y軸上繪製的樣本集之資料點,x軸表示相應個體之年齡,y軸表示在藉由處理系統200處理之後經識別變體之數目。圖表3410包括使用雜訊模型化處理樣本集之序列讀段的結果。圖表3420包括除了雜訊模型化之外亦使用聯合模型化及邊緣篩選處理樣本集之序列讀段的結果。圖表3430包括除了聯合模型化、邊緣篩選及雜訊模型化之外亦使用非同義篩選處理樣本集之序列讀段的結果。此外,圖34B-H中所示之實例結果亦係除了聯合模型化、邊緣篩選及雜訊模型化之外亦使用非同義篩選產生。
如藉由圖表之進展所說明,經識別變體之數目總體上隨著篩選程度增加而降低。因此,該等實例表明,藉由處理系統200達成之非同義篩選、聯合模型化、邊緣篩選及雜訊模型化可以成功地鑑定及移除顯著的量的假陽性。因此,處理系統200提供更準確的變體識別器,其減輕來自雜訊或假影之各種來源的影響。使用所揭示之方法分析來自血液樣本之cfDNA的標靶分析能夠捕捉腫瘤相關生物學。可以在該等圖表中在經識別變體之計數與個體年齡之間觀察到輕微的比例相關性(例如,在圖表3410中更明顯)。此外,正如所預期的,癌症樣本比非癌症樣本存在更大計數之經識別變體。
圖34B為根據一個實施例之已知具有乳癌之樣本之實例品質評分之圖表。圖34C為另一個根據一個實施例已知具有乳癌之樣本之實例品質評分之圖表。圖34D為根據一個實施例已知具有肺癌之樣本之實例品質評分之圖表。品質評分可藉由評分引擎235使用雜訊模型225確定,如先前參考圖3、圖4及圖9所描述。特定言之,圖34B、圖34C及圖34D分別顯示來自典型PIK3CA、TP53功能損失型(LoF)及典型表皮生長因子受體(epidermal growth factor receptor,EGFR)基因的序列讀段之候選變體的品質評分。x軸表示在指定的一組(例如,癌症階段)中具有某些典型突變之個體的比例。圖34B-D指示品質評分往往會隨著癌症階段從第I組增加至第IV組而增加的趨勢。
圖34E為根據一個實施例已知具有各種類型之癌症且處於癌症之不同階段的樣本之經識別變體之實例計數表。類似於圖34B-D,圖34E亦顯示經識別變體之數目往往會隨著癌症階段從第I組增加至第IV組而增加的趨勢。
圖34F為根據一個實施例已知具有各種類型之癌症且處於癌症之不同階段的樣本之經識別變體之實例計數的圖表。如藉由針對已知具有乳癌、結腸直腸癌、肺癌或前列腺癌之樣本的盒狀圖所示,經識別變體之中值數目往往會隨著癌症階段從I增加至IV而增加,且非癌症樣本之數目與癌症樣本之數目相比相對較低。
圖34G為根據一個實施例已知具有早期或晚期癌症之樣本之經識別變體之實例計數的圖表。圖34H為另一個根據一個實施例已知具有早期或晚期癌症之樣本之經識別變體之實例計數的圖表。特定言之,圖34G及圖34H分別顯示來自與乳癌(例如,HER2+、HR+|HER2-、TNBC)及肺癌(例如,腺癌、小細胞肺癌及鱗狀細胞癌)有關之cdstg1lh分組基因的序列讀段之經識別變體。圖34G-H顯示經識別變體之數目往往會隨著癌症從早期進展至晚期而增加的趨勢。實例資料指示處理系統200可以偵測基因中之序列之不同亞型或變體。另外,非癌症樣本之數目與癌症樣本之數目相比相對較低。 XI. 用於癌症模型之實例特徵 XI. A. 實例小變體特徵
如下文所使用,小變體定序分析係指通常經由可用於確定小變體之標靶基因定序套組產生序列讀段的物理分析,小變體之實例包括單核苷酸變體(SNV)及插入或缺失。或者,如熟習此項技術者將瞭解,亦可使用全基因組定序方法或全外顯子組定序方法進行小變體之評定。實例小變體定序分析先前參考圖1A來描述。
在一些實施例中,使用計算分析處理由應用小變體定序分析產生之序列讀段,該計算分析輸出一或多個小變體特徵。計算分析(亦稱為小變體計算分析)可以包括來自本文所描述之任一方法的步驟,例如,如圖1A、圖3、圖8至圖10、圖20、圖25或圖32中所示。舉例而言,使用在圖3之方法300的步驟324輸出之候選變體產生小變體特徵。此外,計算分析可以涉及任何數目之本文中所述實施例之經訓練模型(「貝氏階層式模型」、「聯合模型」等)或篩選器。實例小變體特徵包括體細胞變體之總數目、非同義變體之總數目、同義變體之總數目、體細胞變體/基因之存在或不存在、已知與至少一種類型之癌症有關之特定基因的體細胞變體之存在或不存在、體細胞變體/基因之對偶基因頻率、根據體細胞變體之AF的順序統計量、已知與至少一種類型之癌症有關之基於其對偶基因頻率的體細胞變體的分類、一組基因中體細胞變體/基因之對偶基因頻率(AF)、如藉由公開可用的資料庫(諸如OncoKB)指定的體細胞變體/類別之AF及根據體細胞變體之AF的體細胞變體之秩順序。
表示體細胞變體/基因(例如,在一組標靶基因中)之AF的特徵係指與特定基因有關之序列讀段中之體細胞變體之頻率的量度。一般而言,此特徵係由一組基因之每個基因或該基因組之每個基因一個特徵值來表示。此特徵之值可為該基因之體細胞變體之AF的統計值。用於規定該特徵之值的準確量測方式可以隨實施例不同。在一個實施例中,確定此特徵之值為該基因中之所有體細胞變體/位置的最大AF(例如,在基因組中)。在另一實施例中,確定此特徵之值為該基因之所有體細胞變體/位置之平均AF。因此,對於500個基因的一組實例標靶基因,存在500個表示體細胞變體/基因之AF的特徵值。亦可使用除最大AF或平均AF外的量度。
表示體細胞變體/類別之AF的特徵可以藉由存取公開可用的資料庫來確定,諸如OncoKB. Chakravarty等人, JCO PO 2017。舉例而言,OncoKB將基因之臨床資訊歸類為四個不同類別中之一者,諸如FDA批准、標準照護、新興臨床證據及生物證據。各此類類別可為其自身的特徵,具有其自身相應的值。關於確定特徵可以存取的其他公開可用的資料庫包括得到國家癌症研究院之基因組資料共享(Genomic Data Commons,GDC)支持的癌症中體細胞突變目錄(Catalogue Of Somatic Mutations In Cancer,COSMIC)及癌症基因組圖譜(Cancer Genome Atlas,TCGA)。Forbes等人 COSMIC: somatic cancer genetics at high-resolution, Nucleic Acids Research, 第45卷, 第D1期, 2017年1月4日, 第D777-D783頁。在一個實施例中,確定體細胞變體/類別特徵之AF之值為該類別中該基因之體細胞變體之最大AF。在另一實施例中,確定體細胞變體/類別特徵之AF之值為該類別中該基因之體細胞變體之平均AF。亦可使用除最大AF/類別及平均AF/類別外的量度。
一般而言,基於可以指示個體中之癌症的體細胞變體之準確鑑定來預測小變體特徵之特徵值。小變體計算分析鑑定候選變體且從該等候選變體中,在可能存在於個體基因組中之體細胞變體與不可能預測個體中之癌症的假陽性變體之間加以區分。更特定言之,小變體計算分析鑑定鑒於干擾信號(諸如雜訊)存在於cfDNA中可能源自體細胞來源的候選變體及/或可能歸因於基因組來源(例如,來自gDNA或WBC DNA)的變體。另外,候選變體可以經篩選以移除可能由於假影而出現且因此不指示個體中之癌症的假陽性變體。舉例而言,假陽性變體可為在序列讀段之邊緣或邊緣附近所偵測到之變體,其係由於自發性胞嘧啶脫胺及末端修復誤差而出現的。因此,在篩選出假陽性變體之後保留的體細胞變體及其特徵可用於確定小變體特徵。
對於體細胞變體之總數目之特徵,小變體計算分析合計該基因組或該組基因中所鑑定之體細胞變體。因此,對於從個體獲得之cfDNA樣本,體細胞變體之總數目之特徵表示為在樣本之cfDNA中鑑定之體細胞變體之總數目的單個數值。
對於非同義變體之總數目之特徵,小變體計算分析可以進一步篩選經鑑定體細胞變體以鑑定出作為非同義變體的體細胞變體。如此項技術中所熟知,核酸序列之非同義變體引起與核酸序列有關之蛋白質胺基酸序列中之改變。舉例而言,非同義變體可以改變個體之一或多個表型或導致(或使更脆弱)個體發展出癌症、癌細胞或其他類型之疾病。因此,小變體計算分析藉由確定對三核苷酸之一或多個核鹼基之修飾將引起基於經修飾之三核苷酸產生不同的胺基酸,從而確定候選變體將產生非同義變體。非同義變體之總數目的特徵值係藉由對該基因組中之經鑑定非同義變體求和來確定。因此,對於從個體獲得之cfDNA樣本,非同義變體之總數目的特徵表示為單一數值。
對於同義變體之總數目的特徵,同義變體表示不被歸類為非同義變體的其他體細胞變體。換言之,小變體計算分析可以進行經鑑定體細胞變體之篩選,如關於非同義變體所描述,且鑑定該基因組或該組基因中之同義變體。因此,對於從個體獲得之cfDNA樣本,同義變體之總數目的特徵表示為單一數值。
關於體細胞變體/基因之存在/不存在的特徵可能涉及cfDNA樣本之多個特徵值。舉例而言,一組標靶基因可以在該組中包括500個基因,且因此小變體計算分析可以產生500個特徵值,各特徵值表示該組中之基因之體細胞變體的存在或不存在。舉例而言,若在該基因中存在體細胞變體,則該特徵之值為1。反之,若在該基因中不存在體細胞變體,則該特徵之值為0。一般而言,可以使用任何大小之一組基因。舉例而言,該組基因可以在該基因組中包含100、200、500、1000、2000、10,000或更多個基因目標。在其他實施例中,該組基因可以包含約50至約10,000個基因目標、約100至約2,000個基因目標、或約200至約1,000個基因目標。
對於已知與癌症有關之特定基因的體細胞變體之存在/不存在的特徵,已知與癌症有關之特定基因可以從諸如OncoKB之公共資料庫存取。已知與癌症有關之基因的實例包括p53、LRP1B及KRAS。已知與癌症有關的各基因可以與特徵值相關聯,諸如1 (指示在基因中存在體細胞變體)或0 (指示在基因中不存在體細胞變體)。
體細胞變體/基因之AF(例如,在一組基因中)係指序列讀段中之一或多個體細胞變體之頻率。一般而言,此特徵係由一組基因之每個基因或該基因組之每個基因一個特徵值來表示。此特徵之值可為該基因之體細胞變體之AF的統計值。在各種實施例中,此特徵係指該基因中具有最大AF的一個體細胞變體。在一些實施例中,此特徵係指該基因之體細胞變體之平均AF。因此,對於500個基因的一組標靶基因,存在500個特徵值,其表示體細胞變體/基因之AF (例如,在一組基因中)。
體細胞變體/類別之AF如藉由諸如OncoKB之公開可用的資料庫指定。舉例而言,OncoKB將基因歸類為四個不同類別中之一者。在一個實施例中,體細胞變體/類別之AF為該類別中該基因中之體細胞變體之最大AF。在一個實施例中,體細胞變體/類別之AF為該類別中該基因中之體細胞變體之平均AF。
根據體細胞變體之AF的體細胞變體之秩順序係指體細胞變體之前N個對偶基因頻率。一般而言,變體對偶基因頻率之值可以在0至1之間,其中變體對偶基因頻率0指示沒有序列讀段在該位置具有替代對偶基因且其中變體對偶基因頻率1指示所有序列讀段在該位置均具有替代對偶基因。在其他實施例中,可以使用變體對偶基因頻率之其他範圍及/或值。在各種實施例中,秩順序特徵與體細胞變體本身無關,且反而僅由前N個變體對偶基因頻率之值表示。針對前五個對偶基因頻率之秩順序特徵的實例可以表示為:,其指示五個最高對偶基因頻率在0.02至0.1之範圍內,與體細胞變體無關。 XI. B. 實例預測癌症模型
可以將小變體特徵作為輸入用於一或多種類型之模型,諸如預測癌症模型。預測癌症模型可以產生與癌症有關之預測,例如預測指定個體具有或可能患上至少一種特定類型的癌症或疾病的似然度。預測癌症模型可以用於預測I期、II期、III期及IV期癌症中之一或多者的偵測。癌症之實例類型包括乳癌、肺癌、結腸直腸癌、卵巢癌、子宮癌、黑素瘤、腎癌、胰臟癌、甲狀腺癌、胃癌、肝膽癌、食道癌、前列腺癌、淋巴瘤、多發性骨髓瘤、頭頸癌、膀胱癌、子宮頸癌或其任何組合。在一些實施例中,預測癌症模型用於基於對來自測試樣本之序列讀段的分析,將乳癌分類為HR陽性、HER2過度表現、HER2擴增或三陰性。
在一些實施例中,使用預測癌症模型之分析包括偵測測試樣本中之一或多個病毒衍生的核酸之存在。癌症之偵測可以部分地基於一或多個病毒核酸之偵測。在一些實施例中,一或多個病毒衍生之核酸係選自由以下組成之群:人類乳突狀瘤病毒、埃-巴二氏病毒、B型肝炎、C型肝炎及其任何組合。
圖35A為根據一個實施例基於源自從個體獲得之cfDNA樣本之特徵而產生癌症預測之方法3500的流程圖。在其他實施例中,方法3500可以用於產生一或多種類型之疾病(例如,遺傳性疾病或心血管疾病)、其他健康相關病狀(例如,未定潛能純系血細胞生成(clonal hematopoiesis of indeterminate potential,ChIP))、其他分類或其他度量標準的預測。在步驟3502,從個體獲得測試樣本。一般而言,樣本可以來自健康受試者、已知具有或疑似具有癌症之受試者或無先驗資訊已知的受試者(例如,無症狀受試者)。測試樣本可為選自由血液、血漿、血清、尿液、糞便及唾液樣本組成之群的樣本。或者,測試樣本可以包含選自由以下組成之群的樣本:全血、血液分離物、組織切片、胸膜液、心包液、腦脊髓液及腹膜液。測試樣本可以包括cfDNA。在各種實施例中,測試樣本可以包括基因組DNA (gDNA),例如來自白血球(white blood cell,WBC) DNA。
在步驟3504,進行一或多個物理過程分析,至少一個物理過程分析包括針對cfDNA之基於定序之分析以產生序列讀段。在步驟3506,作為進行基於定序之分析之結果而產生的序列讀段經處理以確定特徵值。一般而言,特徵為可自可用於預測個體中之癌症的物理分析及/或計算分析獲得的資訊類型。一般而言,用於鑑定個體中之癌症的任何指定預測模型包括一或多個特徵作為該模型之組成分量。對於任何指定患者或樣本,特徵將具有從物理及/或計算分析確定的值。將此等值輸入預測模型中以產生模型之輸出。
藉由應用計算分析來處理序列讀段。一般而言,各計算分析表示可由電腦之處理器,以下稱為處理系統執行的演算法。因此,各計算分析分析序列讀段且基於序列讀段輸出值特徵。各計算分析對指定的基於定序之分析具有特異性,且因此各計算分析輸出對基於定序之分析具有特異性的特定類型之特徵。由應用小變體定序分析產生之序列讀段係使用計算分析處理,另外稱為小變體計算分析。該計算分析輸出小變體特徵。
在步驟3508,對特徵應用預測癌症模型以產生個體之癌症預測。癌症預測之實例包括癌症之存在或不存在、癌症之源組織、嚴重程度、階段、癌症級別、癌症亞型、治療決策及對治療之反應的似然度。在各種實施例中,藉由預測癌症模型輸出之癌症預測為評分,諸如指示以下各者中之一或多者的似然度或機率:癌症之存在或不存在、癌症之源組織、嚴重程度、階段、癌症級別、癌症亞型、治療決策及對治療之反應的似然度。
一般而言,任何此類評分可為單數的,諸如癌症之存在不存在,一般而言,特定類型之癌症的存在/不存在。或者,此類評分可為複數的,使得預測癌症模型之輸出可為例如表示多個類型之癌症中之每一者的存在/不存在的評分、表示多個類型之癌症中之每一者的嚴重程度/級別的評分、表示源於多個類型之組織中之每一者的特定cfDNA的似然度的評分等等。為了描述清楚起見,預測癌症模型之輸出主要稱為一組評分,該組包含一或多個視預測癌症模型經組態以確定之內容而定的評分。
在各種實施例中,預測癌症模型可為以下中之一者:決策樹、實現體(例如,自助重抽總合法(bagging)、推升法(boosting)、隨機森林(random forest))、梯度提昇機(gradient boosting machine)、線性回歸、質樸貝葉斯(Naïve Bayes)、神經網路或邏輯式回歸(logistic regression)。各預測癌症模型包括在訓練期間調整的針對特徵之學習權數。術語權數此處一般用於表示與模型之任何指定特徵有關的學習數量,與使用哪種特定機器學習技術無關。
在訓練期間,處理訓練資料以產生特徵值,該等值用於訓練預測癌症模型之權數。舉例而言,訓練資料可以包括從訓練樣本獲得之cfDNA及/或WBC DNA,以及輸出標籤。舉例而言,輸出標籤可為關於已知個體為癌性的還是已知個體沒有癌症(例如,健康的)的指示、源癌症組織之指示或癌症嚴重程度之指示。視特定實施例而定,預測癌症模型接收從一或多個與待訓練模型有關的物理分析及計算分析獲得之特徵中之一或多者的值。視由訓練中之模型輸出的評分與訓練資料之輸出標籤之間的差異而定,預測癌症模型之權數經最佳化以使得預測癌症模型能夠作出更準確的預測。在各種實施例中,預測癌症模型可為非參數模型(例如,k最近相鄰法(k-nearest neighbors)),且因此預測癌症模型可經訓練以更準確地作出預測,而不必使參數最佳化。經訓練之預測癌症模型可以經儲存且隨後在需要時擷取,例如在圖35A之步驟3508展開期間。 XI. C. 實例特徵調整
在各種實施例中,在從小變體定序分析製備序列讀段期間或在計算分析期間,可以進行一或多個步驟以改善、調整或最佳化輸出特徵。舉例而言,作為經調整特徵之結果,預測癌症模型可以較大的靈敏度(例如,真陽性偵測比率)或特異性(例如,假陽性偵測比率)產生預測。
處理系統200可以確定小變體可能屬於一或多個特定生物類別。生物類別指示例如基因;基因之內含子或外顯子;基因之特定區域,諸如5'非轉譯區(5' UTR)、3'非轉譯區(3' UTR)或強化子區域、或蛋白質編碼區,以及其他適合的類別。響應於該確定,處理系統200可以相應生物類別之註釋標記該小變體。在一些實施例中,處理系統200確定小變體屬於某一類別之似然度且響應於確定該似然度大於臨限值而註釋該小變體。
處理系統200可以使用採用實現體變體效應預測子(Variant Effect Predictor,VEP)工具提取的資訊進行註釋。基於小變體之輸入位置(例如,在基因組中)及相應突變類型(例如,SNV或插入或缺失),VEP可以確定變體對一或多個基因(例如,基因之典型表示或結構)或由其產生的任何下游產物的影響,該等下游產物諸如轉錄物、蛋白質序列及調節區域。藉由評估此等作用,處理系統200可以判定是否分配特定生物類別給小變體。除了確定使用哪種生物類別(例如,剪接位點、UTR、同義或非同義位點)之外,處理系統200亦可以確定為了確定特徵而使用的基因表示(例如,典型轉錄物或其他同功異型物)。在一個實施例中,處理系統200包括在基因名稱之字串表示中具有短劃線字符(-)的基因作為用於註釋的潛在的生物類別。舉例而言,處理系統200處理NKX2-1及NKX3-1基因中之小變體。NKX2-1可以用作肺或甲狀腺腫瘤之生物標記物,且NKX3-1已知為前列腺腫瘤抑制基因。
註釋意欲標記影響由標靶基因定序組所涵蓋的該組編碼基因的小變體。除了標記非同義小變體(例如,影響基因之相應胺基酸)之外,處理系統200亦可以標記另外可能影響基因轉錄或表現之小變體。舉例而言,TERT (端粒酶逆轉錄酶)啟動子可能影響端粒長度或轉錄機制。因為TERT啟動子突變可為腫瘤發生之生物標記物,所以處理系統200可經組態以系統地註釋此等區域中之小變體。作為另一實例,剪接位點突變亦可影響轉錄或蛋白質轉譯,即使剪接位點突變可能未必位於編碼區中。因為剪接位點位於外顯子或內含子邊界附近,所以剪接位點突變可以引起一或多個外顯子在轉錄期間掉落或添加。因此,剪接位點突變可以影響所得蛋白質結構,而不在中間步驟修飾胺基酸。
在一個實施例中,處理系統200使用註釋資訊來幫助確定輸入於用於癌症預測之預測癌症模型的小變體特徵。在相同或不同的實施例中,註釋本身可為特徵,其中特徵值為分配給每個位置之各基因的特定註釋(例如,在基因組中)。舉例而言,基於該註釋,預測癌症模型可以判定特定TERT啟動子或剪接位點區域中突變之存在或不存在。
處理系統200亦可在計算分析期間使用該註釋而對較大數目之生物類別產生額外的特徵。舉例而言,處理系統200確定指示特定TERT啟動子或剪接位點區域中之最大AF的特徵。另一額外特徵可為一組之一或多個TERT啟動子或剪接位點區域中之小變體之總數目。此概念可延伸至具有相同或不同量度(例如,最大AF或平均AF)的其他特徵,集中於與其他基因組病狀有關之變體的存在或不存在。 XI. D. 使用小變體特徵之實例預測
圖35B描繪根據一個實施例使用第一組小變體特徵預測癌症之存在的預測癌症模型之特異性及靈敏度之接收者操作特性(ROC)曲線。具體而言,預測癌症模型輸出評分,以下稱為「A_評分」,其指示癌症之存在或不存在。ROC曲線之總的曲線下面積(AUC)為0.697。鑒於目標為在所設定的特異性(例如,95%或99%特異性)的情況下達成靈敏度,圖35B描繪預測癌症模型在85%-100%特異性範圍中之效能。在本實例中,提供給預測癌症模型之第一組小變體特徵包括:體細胞變體之總數目及非同義變體之總數目。ROC曲線指示在95%特異性下35%靈敏度及在99%特異性下約19%靈敏度。從99%特異性前進至95%特異性,ROC曲線非線性地增加,從而指示在此靈敏度/特異性取捨中可能偵測到真陽性。
在一實施例中,小變體預測癌症模型在95%特異性下使用非同義變體之總數目作為特徵且輸出「A_評分」。預測癌症模型對於偵測具有大於25% 5年死亡率之I/II/III期癌症具有47%之平均靈敏度。預測癌症模型對於偵測具有大於25% 5年死亡率之IV期癌症具有80%之平均靈敏度。預測癌症模型對於偵測具有小於25% 5年死亡率之I/II/III期癌症具有8%之平均靈敏度。預測癌症模型對於偵測具有小於25% 5年死亡率之IV期癌症具有50%之平均靈敏度。
圖35C描繪根據一個實施例使用第二組小變體特徵預測癌症之存在的預測癌症模型之特異性及靈敏度之ROC曲線。具體而言,預測癌症模型輸出評分,以下稱為變體基因評分,其指示癌症之存在或不存在。ROC曲線之總AUC為0.664。圖35C描繪預測癌症模型在85%-100%特異性範圍中之效能。在本實例中,提供給預測癌症模型之第二組小變體特徵包括體細胞變體/基因之AF。此處,體細胞變體/基因之AF表示各基因中體細胞變體之最大AF。因此,提供總共500個體細胞變體/基因之最大AF值(對應於500個基因)作為預測癌症模型之特徵值。ROC曲線指示在95%特異性下約38%靈敏度及在99%特異性下約31%靈敏度。此表示相比於圖35B中所示之預測癌症模型之結果的改善。
圖35D描繪根據一個實施例使用第三組小變體特徵預測癌症之存在的預測癌症模型之特異性及靈敏度之ROC曲線。具體而言,預測癌症模型輸出評分,以下稱為順序評分,其指示癌症之存在或不存在。ROC曲線之總AUC為0.672。圖35D描繪預測癌症模型在85%-100%特異性範圍中之效能。在本實例中,預測癌症模型之小變體特徵包括根據體細胞變體之AF的前6個秩順序。ROC曲線指示在95%特異性下約37%靈敏度及在99%特異性下約30%靈敏度。同樣,此表示相比於圖35B中所示之預測癌症模型之結果的改善。 XII. 額外考慮因素
本發明實施例之前述描述出於說明的目的而呈現;其並不意欲為窮盡性的或將本發明限於所揭示之精確形式。熟習相關技術者可以瞭解,根據以上揭示內容,諸多修改及變化係可能的。
本說明書之一些部分關於資訊操作之演算法及符號表示來描述本發明實施例。資料處理領域的熟習此項技術者通常使用此等演算法描述及表示來將其工作的主旨有效地傳達給其他在該領域的熟習此項技術者。此等操作雖然在功能上、計算上或邏輯上描述,但是應理解為係藉由電腦程式或等效電路、微碼或類似者來實施。此外,在不失一般性的情況下,將此等操作配置稱為模組,有時亦證明為方便的。所述操作及其相關模組可以在軟體、韌體、硬體或其任何組合中實施。
本文中所述之步驟、操作或方法中之任一者可以藉由一或多個硬體或軟體模組,單獨或與其他裝置組合來進行或實施。在一個實施例中,軟體模組藉由電腦程式產品實施,電腦程式產品包括含有電腦程式碼之電腦可讀非暫時性媒體,其可以藉由電腦處理器執行以進行所描述之任何或所有的步驟、操作或方法。
本發明之實施例亦可關於藉由本文中所述之計算方法產生的產品。此類產品可以包括由計算方法產生之資訊,其中該資訊儲存於非暫時性有形電腦可讀儲存媒體上且可包括本文中所述之電腦程式產品或其他資料組合的任何實施例。
最後,用於本說明書中之語言主要出於可讀性及指導性之目的而加以選擇,且並非經選擇來描繪或限制本發明主題。因此,本發明之範疇不欲受此實施方式限制,而是由在此處所基於之應用程式上發佈的任何請求項限制。因此,本發明之實施例的揭示內容意欲說明但不限制在以下申請專利範圍中闡述的本發明之範疇。
100‧‧‧方法 110‧‧‧步驟 115‧‧‧經富集核酸樣本 120‧‧‧步驟 130‧‧‧步驟 140‧‧‧步驟 145‧‧‧定序器 150‧‧‧圖形使用者介面 155‧‧‧裝載托盤 160‧‧‧核酸區段/核酸樣本/計算裝置 162‧‧‧胞嘧啶核苷酸鹼基 165A‧‧‧區域 165B‧‧‧區域 165C‧‧‧區域 170‧‧‧目標序列 170A‧‧‧目標序列 170B‧‧‧目標序列 170C‧‧‧目標序列 180‧‧‧經富集序列 180A‧‧‧經富集序列/序列讀段 180B‧‧‧經富集序列 180C‧‧‧經富集序列/序列讀段 200‧‧‧處理系統 205‧‧‧序列處理器 210‧‧‧序列資料庫 215‧‧‧模型資料庫 220‧‧‧機器學習引擎 225‧‧‧模型/貝氏階層式模型/聯合模型 230‧‧‧參數資料庫 235‧‧‧評分引擎 240‧‧‧變體識別器 250‧‧‧邊緣篩選器 260‧‧‧非同義篩選器 300‧‧‧方法/步驟 305‧‧‧步驟 310‧‧‧步驟 315‧‧‧步驟 320‧‧‧步驟 325‧‧‧步驟 800‧‧‧方法 810‧‧‧步驟 820‧‧‧步驟 830‧‧‧步驟 840‧‧‧步驟 850‧‧‧步驟 900‧‧‧方法 910‧‧‧步驟 920‧‧‧步驟 930‧‧‧步驟 940‧‧‧步驟 1000‧‧‧方法 1010‧‧‧步驟 1020‧‧‧步驟 1030‧‧‧步驟 1040‧‧‧步驟 1050‧‧‧步驟 1310‧‧‧曲線 1320‧‧‧曲線 2000‧‧‧方法 2010‧‧‧步驟 2020‧‧‧步驟 2030‧‧‧步驟 2040‧‧‧步驟 2050‧‧‧步驟 2060‧‧‧步驟 2070‧‧‧步驟 2200‧‧‧回歸線 2210‧‧‧帶點圖形 2220‧‧‧點線 2300‧‧‧訓練過程 2305‧‧‧訓練資料 2310A‧‧‧假影訓練資料 2310B‧‧‧非假影訓練資料 2320‧‧‧假影特徵 2322A‧‧‧邊緣 2322B‧‧‧邊緣 2323A‧‧‧假影顯著性評分 2323B‧‧‧非假影顯著性評分 2324A‧‧‧假影對偶基因分率 2324B‧‧‧非假影對偶基因分率 2325‧‧‧非假影特徵 2330‧‧‧參考對偶基因訓練資料 2340‧‧‧假影分佈/分佈 2345‧‧‧非假影分佈/分佈 2350A‧‧‧邊緣距離 2350B‧‧‧邊緣距離 2350C‧‧‧邊緣距離 2360‧‧‧臨限邊緣距離 2375A‧‧‧替代性對偶基因 2375B‧‧‧替代性對偶基因 2380‧‧‧參考對偶基因 2400‧‧‧方法 2405‧‧‧樣本 2410‧‧‧經識別變體 2412‧‧‧特徵 2415‧‧‧樣本特異性比率預測模型 2420‧‧‧預測比率 2435‧‧‧邊緣變體預測模型 2450‧‧‧變體特異性分析 2455‧‧‧假影評分 2460‧‧‧非假影評分 2470‧‧‧邊緣變體機率 2500‧‧‧方法 2505‧‧‧步驟 2510‧‧‧步驟 2515‧‧‧步驟 2520‧‧‧步驟 2525‧‧‧步驟 2530‧‧‧步驟 3200‧‧‧方法 3210‧‧‧步驟 3220‧‧‧步驟 3230‧‧‧步驟 3240‧‧‧步驟 3410‧‧‧圖表 3420‧‧‧圖表 3430‧‧‧圖表 3500‧‧‧方法 3502‧‧‧步驟 3504‧‧‧步驟 3506‧‧‧步驟 3508‧‧‧步驟 C‧‧‧胞嘧啶 T‧‧‧胸腺嘧啶
圖1A為根據一個實施例之用於製備定序用核酸樣本之方法的流程圖。
圖1B為根據一個實施例之用於獲得序列讀段之方法的圖形表示。
圖2為根據一個實施例之用於處理序列讀段之處理系統的方塊圖。
圖3為根據一個實施例之用於確定序列讀段之變體之方法的流程圖。
圖4為根據一個實施例之貝氏階層式模型之應用的圖。
圖5A顯示根據一個實施例之用於確定真單核苷酸變體之貝氏階層式模型的參數與子模型之間的相依性。
圖5B顯示根據一個實施例之用於確定真插入或缺失之貝氏階層式模型的參數與子模型之間的相依性。
圖6A-B展示與根據一個實施例之貝氏階層式模型有關的圖。
圖7A為藉由擬合根據一個實施例之貝氏階層式模型來確定參數之圖。
圖7B為根據一個實施例之使用來自貝氏階層式模型之參數確定假陽性之似然度的圖。
圖8為根據一個實施例之用於訓練貝氏階層式模型之方法的流程圖。
圖9為根據一個實施例之用於對指定核苷酸突變之候選變體進行評分的方法的流程圖。
圖10為根據一個實施例之使用聯合模型來處理無細胞核酸樣本及基因組核酸樣本之方法的流程圖。
圖11為根據一個實施例之聯合模型之應用的圖。
圖12為根據一個實施例之來自健康個體之樣本中之變體之所觀察到之計數的圖表。
圖13為根據一個實施例之聯合模型之實例參數的圖表。
圖14A-B為根據一個實施例之藉由聯合模型確定之變體識別的圖表。
圖15為根據一個實施例之藉由聯合模型確定之機率密度之圖表。
圖16為根據一個實施例之聯合模型之靈敏度及特異性之圖表。
圖17為根據一個實施例之使用聯合模型從標靶定序分析偵測之一組基因之圖表。
圖18為圖17中所示之根據一個實施例之使用聯合模型從標靶定序分析偵測之該組基因的長度分佈的圖表。
圖19為根據一個實施例之使用聯合模型從標靶定序分析偵測之另一組基因之圖表。
圖20為根據一個實施例之用於調整聯合模型以處理無細胞核酸樣本及基因組核酸樣本之方法的流程圖。
圖21A為根據一實施例之cfDNA樣本之候選變體之實例計數表。
圖21B為根據一個實施例之來自健康個體之cfDNA樣本之候選變體之實例計數表。
圖22為根據一個實施例之基於cfDNA及gDNA之比率繪製的候選變體之圖。
圖23A描繪一種根據一個實施例之使用訓練變體產生假影分佈及非假影分佈之方法。
圖23B描繪根據一個實施例歸類為假影訓練資料類別之序列讀段。
圖23C描繪根據一個實施例歸類為非假影訓練資料類別之序列讀段。
圖23D描繪根據一個實施例歸類為參考對偶基因訓練資料類別之序列讀段。
圖23E為根據一個實施例用於提取與邊緣特徵之統計距離之方法的實例繪圖。
圖23F為根據一個實施例用於提取顯著性評分特徵之方法的實例繪圖。
圖23G為根據一個實施例用於提取對偶基因分率特徵之方法的實例繪圖。
圖23H及圖23I描繪根據各個實施例之用於鑑定邊緣變體之實例分佈。
圖24A描繪根據一個實施例之用於確定樣本特異性預測比率之方塊圖流動法。
圖24B描繪根據一個實施例用於鑑定邊緣變體之邊緣變體預測模型之應用。
圖25描繪根據一個實施例之鑑定及報告從樣本偵測之邊緣變體之流動法。
圖26A、圖26B及圖26C各自描繪根據各個實施例歸類為假影或非假影類別中之一者的實例訓練變體之特徵。
圖27A、圖27B及圖27C各自描繪根據各個實施例從受試者獲得之實例癌症樣本中之邊緣及非邊緣變體之偵測。
圖28A、圖28B及圖28C各自描繪根據各個實施例從受試者獲得之另一實例癌症樣本中之邊緣及非邊緣變體之偵測。
圖29描繪根據一個實施例在各種受試者樣本中之邊緣變體之鑑定。
圖30描繪根據一個實施例,在使用不同的邊緣篩選器(edge filter)移除邊緣變體之後,在實體腫瘤中及cfDNA中所識別的協調變體(concordant variant),呈cfDNA中所識別之變體的分率形式。
圖31描繪根據一個實施例,在使用不同的邊緣篩選器移除邊緣變體之後,在實體腫瘤中及cfDNA中所識別的協調變體,呈實體腫瘤中所識別之變體的分率形式。
圖32為根據一個實施例使用不同類型之篩選器及模型處理候選變體之方法的流程圖。
圖33A為描述用於根據一個實施例之無細胞基因組研究之樣本集的個體的表格。
圖33B為指示與根據一個實施例用於圖33A之無細胞基因組研究之樣本集有關之癌症類型的圖表。
圖33C為另一個描述根據一個實施例用於圖33A之無細胞基因組研究之樣本集的表格。
圖34A顯示根據一個實施例使用一或多種類型之篩選器及模型確定的經識別變體之實例計數之圖表。
圖34B為根據一個實施例之已知具有乳癌之樣本之實例品質評分之圖表。
圖34C為另一個根據一個實施例已知具有乳癌之樣本之實例品質評分之圖表。
圖34D為根據一個實施例已知具有肺癌之樣本之實例品質評分之圖表。
圖34E為根據一個實施例已知具有各種類型之癌症且處於癌症之不同階段的樣本之經識別變體之實例計數表。
圖34F為根據一個實施例已知具有各種類型之癌症且處於癌症之不同階段的樣本之經識別變體之實例計數的圖表。
圖34G為根據一個實施例已知具有早期或晚期癌症之樣本之經識別變體之實例計數的圖表。
圖34H為另一個根據一個實施例已知具有早期或晚期癌症之樣本之經識別變體之實例計數的圖表。
圖35A為根據一個實施例基於源自從個體獲得之cfDNA樣本之特徵而產生癌症預測之方法的流程圖。
圖35B描繪根據一個實施例使用第一組小變體特徵預測癌症之存在的預測癌症模型之特異性及靈敏度之接收者操作特性(ROC)曲線。
圖35C描繪根據一個實施例使用第二組小變體特徵預測癌症之存在的預測癌症模型之特異性及靈敏度之ROC曲線。
圖35D描繪根據一個實施例使用第三組小變體特徵預測癌症之存在的預測癌症模型之特異性及靈敏度之ROC曲線。
該等圖式僅出於說明的目的描繪本發明之實施例。熟習此項技術者將自以下論述容易認識到可在不偏離本文中所描述之本發明原則的情況下採用本文中所說明之結構及方法之替代實施例。
100‧‧‧方法
110‧‧‧步驟
115‧‧‧經富集核酸樣本
120‧‧‧步驟
130‧‧‧步驟
140‧‧‧步驟
145‧‧‧定序器
150‧‧‧圖形使用者介面
155‧‧‧裝載托盤
160‧‧‧計算裝置

Claims (62)

  1. 一種用於篩選候選變體之方法,其包含:產生無細胞核酸樣本之複數個候選變體,該複數個候選變體係已突變的核苷酸序列之經偵測核苷酸變體;確定該無細胞核酸樣本中及相應基因組核酸樣本中該等候選變體中之每一者的真實替代頻率之似然度,其中該真實替代頻率為具有一或多個相對於參考對偶基因之突變的給定對偶基因之頻率,該一或多個突變指示存在潛在癌症、疾病或生殖系突變;至少藉由使用真實替代頻率之該等似然度之模型篩選該等候選變體,該模型係藉由基於核苷酸鹼基突變之類型或突變自訓練定序讀段之邊緣的距離將訓練序列讀段歸類而訓練;及輸出經篩選之該等候選變體。
  2. 如請求項1之方法,其進一步包含:藉由確定該等候選變體中之每一者的邊緣變體(edge variant)機率來篩選該等候選變體,該邊緣變體機率指示該候選變體為邊緣變體之機率,該邊緣變體代表位於核苷酸鹼基自序列讀段之邊緣的臨限距離內之突變。
  3. 如請求項2之方法,其中篩選該等候選變體包含:接收位於序列讀段上之替代性對偶基因,該等序列讀段從基因組中之複數個位置獲得;基於所接收之該等替代性對偶基因確定該無細胞核酸樣本之邊緣變 體之預測比率;對於該複數個位置之子集中之每一者:從自該位置獲得之序列讀段提取特徵;將所提取之該等特徵作為輸入應用於經訓練模型以獲得該位置之假影評分及該位置之非假影評分,該假影評分反映位於自該位置獲得之序列讀段上之替代性對偶基因是處理假影之結果的似然度,該非假影評分反映位於自該位置獲得之序列讀段上之替代性對偶基因不是處理假影之結果的似然度;藉由組合該位置之該假影評分、該位置之該非假影評分及該無細胞核酸樣本之假影的該預測比率,產生該位置之該邊緣變體機率;及基於該邊緣變體機率,將該位置之該等候選變體中之一者報告為邊緣變體。
  4. 如請求項3之方法,其中該無細胞核酸樣本之該等邊緣變體係歸因於該等序列讀段中之一或多者之部分的自發性脫胺。
  5. 如請求項3之方法,其中確定該無細胞核酸樣本之邊緣變體之該預測比率包含:鑒於所接收之該等替代性對偶基因進行基於似然度之估計以產生估計量;及基於最大似然估計量選擇邊緣變體之該預測比率。
  6. 如請求項5之方法,其中該基於似然度之估計進一步鑒於由歸類為假影類別之序列讀段產生之第一分佈來進行。
  7. 如請求項5或6之方法,其中該基於似然度之估計進一步鑒於由歸類為非假影類別之序列讀段產生之第二分佈來進行。
  8. 如請求項3至6中任一項之方法,其中從該位置之該等序列讀段提取之該等特徵中之一者為替代性對偶基因在該等定序讀段之子集上之位置與該等定序讀段之該子集之邊緣之間的中值距離。
  9. 如請求項3至6中任一項之方法,其中從該位置之該等序列讀段提取之該等特徵中之一者為顯著性評分,其表示以下兩者之間的差值:1)替代性對偶基因在該等定序讀段之第一子集上之位置與該第一子集中該等定序讀段之邊緣之間的第一中值距離,及2)參考對偶基因在該等定序讀段之第二子集上之位置與該第二子集中該等定序讀段之邊緣之間的第二中值距離。
  10. 如請求項3至6中任一項之方法,其中從該位置之該等序列讀段提取之該等特徵中之一者為對偶基因分率,其表示含有交叉一位置之替代性對偶基因之序列讀段的分率。
  11. 如請求項3至6中任一項之方法,其中基於該邊緣變體機率將經識別變體報告為該邊緣變體包含: 將該邊緣變體機率與臨限值進行比較;及基於該比較,將該經識別變體報告為該邊緣變體。
  12. 如請求項3至6中任一項之方法,其中該基因組中之包括在該複數個位置之該子集中之位置係藉由以下確定:對於該複數個位置中之各位置:鑑定對應於該位置之經識別變體的突變類型;及確定該經識別變體之該突變類型是否為胞嘧啶至胸腺嘧啶或鳥嘌呤至腺嘌呤鹼基取代中之一者。
  13. 如請求項3至6中任一項之方法,其中該經訓練模型係藉由以下訓練:接收訓練資料,其包含位於該等訓練序列讀段上之替代性對偶基因,該等訓練序列讀段從基因組中之複數個位置獲得;基於位於該訓練序列讀段上之該替代性對偶基因之特性,將該等訓練序列讀段中之每一者歸類為兩個或更多個類別;對於訓練變體之該兩個或更多個類別中之每一者:從歸類為該類別中之訓練序列讀段提取特徵;及基於所提取之該等特徵產生分佈。
  14. 如請求項13之方法,其中該訓練序列讀段之該等特性包含替代讀段之鹼基突變之類型,其中將該等訓練序列讀段中之每一者歸類為兩個或更多個類別包 含:基於該訓練序列讀段上之該替代性對偶基因之鹼基突變之該類型,將各訓練序列讀段歸類為假影類別或非假影類別中之一者。
  15. 如請求項13之方法,其中歸類為該假影類別之訓練序列讀段各自包括替代讀段,其為胞嘧啶至胸腺嘧啶突變或鳥嘌呤至腺嘌呤突變。
  16. 如請求項13之方法,其中歸類為該假影類別之訓練序列讀段各自包括位於核苷酸鹼基自該訓練定序讀段之邊緣的該臨限距離內之替代性對偶基因。
  17. 如請求項13之方法,其中歸類為該非假影類別之訓練序列讀段各自包括替代性對偶基因,其位於核苷酸鹼基自該訓練定序讀段之邊緣的該臨限距離之外或為除胞嘧啶至胸腺嘧啶突變或鳥嘌呤至腺嘌呤突變外之鹼基取代。
  18. 如請求項1或2之方法,其進一步包含:藉由移除至少一個與同義突變有關之候選變體來篩選該等候選變體。
  19. 如請求項1至3中任一項之方法,其中對於該等候選變體中之至少一者,確定真實替代頻率之該等似然度進一步包含:從受試者之該無細胞核酸樣本確定第一序列讀段之第一深度及第一替代深度; 從該受試者之基因組核酸樣本確定第二序列讀段之第二深度及第二替代深度;藉由使用經該無細胞核酸樣本之該等第一深度及該真實替代頻率參數化的第一函數模型化該等第一替代深度,確定該無細胞核酸樣本之真實替代頻率之第一似然度;藉由使用經該基因組核酸樣本之該等第二深度及該真實替代頻率參數化的第二函數模型化該等第二替代深度,確定該基因組核酸樣本之真實替代頻率之第二似然度;及其中該模型至少藉由使用該第一似然度、該第二似然度及一或多個參數來確定該無細胞核酸樣本之該真實替代頻率大於該基因組核酸樣本之該真實替代頻率之函數的機率,從而篩選該等候選變體。
  20. 如請求項19之方法,其中該第一函數為經該無細胞核酸樣本之該等第一深度中之一者與該真實替代頻率之乘積參數化的卜瓦松分佈(Poisson distribution)函數,且其中該第二函數為經該基因組核酸樣本之該等第二深度中之一者與該真實替代頻率之另一乘積參數化的另一卜瓦松分佈函數。
  21. 如請求項19之方法,其中該機率表示在來自該受試者之該基因組核酸樣本之該等第二序列讀段中未發現來自該無細胞核酸樣本之該等第一序列讀段之突變的信賴等級。
  22. 如請求項19之方法,其進一步包含: 響應於確定該機率大於該一或多個參數中之一者,確定在來自該受試者之該基因組核酸樣本之該等第二序列讀段中未發現來自該無細胞核酸樣本之該等第一序列讀段的至少一些突變。
  23. 如請求項19之方法,其中確定該機率進一步包含:確定該無細胞核酸樣本之該真實替代頻率比該基因組核酸樣本之該真實替代頻率乘以該一或多個參數中之一者大的機率。
  24. 如請求項19之方法,其中確定該機率包含:確定該第一似然度及該第二似然度之聯合似然度,該第一似然度及該第二似然度係條件獨立地給予該等第一序列讀段及該等第二序列讀段。
  25. 如請求項19之方法,其中確定該機率包含藉由以下對該第一似然度及該第二似然度之聯合似然度進行數值近似:確定該第一似然度及該第二似然度中之一者的累積和;及確定該第一似然度及該第二似然度中之另一者的積分。
  26. 如請求項19之方法,其中該一或多個參數包括使用第三函數,採用健康基因組核酸樣本之替代頻率作為輸入而確定的第一參數。
  27. 如請求項26之方法,其中該第三函數係由用於防止序列讀段中之雜合性缺失事件之準則定義。
  28. 如請求項27之方法,其中該第三函數為非線性函數。
  29. 如請求項27之方法,其中該準則指示該第一參數之值為3且該等健康基因組核酸樣本之該替代頻率之下臨限值為1/3。
  30. 如請求項19之方法,其中該一或多個參數包括使用第三函數確定的第一參數,其採用以下作為輸入:(i)來自該基因組核酸樣本之該等第二序列讀段之該等第二替代深度中之一者,(ii)該基因組核酸樣本之參考深度,及(iii)相對於健康基因組核酸樣本之突變的雜訊等級之模型。
  31. 如請求項19之方法,其中該一或多個參數包括第二參數,該第一參數及該第二參數係藉由用複數個個體之多組無細胞核酸樣本及基因組核酸樣本交叉驗證,憑經驗確定。
  32. 如請求項31之方法,其中該第一參數具有介於1與5之間且包括端值的值,且其中該第二參數具有另一個介於0.5與1之間的值。
  33. 如請求項31之方法,其中該交叉驗證包括應用使用與複數種類型之疾病有關之樣本得到的候選參數值以測試與不同類型之疾病有關之另一樣本。
  34. 如請求項19之方法,其進一步包含:使用經第一參數參數化的第三函數確定相對於健康無細胞核酸樣本 之突變的第一雜訊等級,其中進一步使用該第一雜訊等級確定該無細胞核酸樣本之真實替代頻率之該第一似然度;及使用經第二參數參數化的第四函數確定相對於健康基因組核酸樣本之突變的第二雜訊等級,其中進一步使用該第二雜訊等級確定該基因組核酸樣本之真實替代頻率之該第二似然度。
  35. 如請求項34之方法,其中模型化該等第一替代深度包括向該第一函數之輸出中添加該第一雜訊等級,且其中模型化該等第二替代深度包括向該第二函數之另一輸出中添加該第二雜訊等級。
  36. 如請求項34之方法,其中該第一參數及該第二參數表示編碼關於序列讀段之指定位置之核酸突變的雜訊等級的分佈之參數。
  37. 如請求項34之方法,其中該第三函數及該第四函數各自為經平均比率及離勢參數參數化的負二項函數。
  38. 如請求項34之方法,其中該第三函數及該第四函數為相同類型之函數且經相同類型之參數參數化。
  39. 如請求項34之方法,其中該等第一參數係使用第一模型得到,該第一模型係使用一組無細胞核酸樣本訓練,且該等第二參數係使用第二模型得到,該第二模型係使用一組基因組核酸樣本訓練。
  40. 如請求項39之方法,其中該組基因組核酸樣本係來自白血球。
  41. 如請求項39之方法,其中該第一模型及該第二模型為貝氏階層式模型(Bayesian Hierarchical model)。
  42. 如請求項39之方法,其中該第一模型及該第二模型為相同類型之模型。
  43. 如請求項19之方法,其進一步包含:從該受試者之血液樣本收集或已收集到該無細胞核酸樣本;及對該無細胞核酸樣本進行富集以產生該等第一序列讀段。
  44. 如請求項19之方法,其中該等第一序列讀段係從該受試者之以下樣本獲得:血液、全血、血漿、血清、尿液、腦脊髓液、糞便、唾液、淚液、組織切片、胸膜液、心包液或腹膜液。
  45. 如請求項19之方法,其中該等第一序列讀段係從來自該受試者之包括至少CD4+細胞的血液之細胞分離物獲得。
  46. 如請求項19之方法,其中該等第二序列讀段係從該受試者之腫瘤切片之腫瘤細胞獲得。
  47. 如請求項19之方法,其中該等第二序列讀段係從該受試者之白血球 獲得。
  48. 如請求項19之方法,其進一步包含:響應於以下而確定來自該無細胞核酸樣本之該等第一序列讀段之候選變體與該基因組核酸樣本之核苷酸突變有關:確定該機率小於臨限機率;及確定來自該基因組核酸樣本之該等第二序列讀段之該等第二替代深度中之一者大於零。
  49. 如請求項48之方法,其中該臨限機率等於0.8。
  50. 如請求項19之方法,其進一步包含:對於來自該無細胞核酸樣本之該等第一序列讀段之候選變體,響應於(i)確定該機率小於臨限機率及(ii)確定來自與該候選變體有關的該基因組核酸樣本之該等第二序列讀段之該等第二替代深度中之一者等於零:使用該等第一深度、該等第一替代深度、該等第二深度及該等第二替代深度確定比率;及響應於至少確定該比率小於臨限比率,確定該候選變體可能與該基因組核酸樣本之突變有關。
  51. 如請求項50之方法,其中該候選變體之該一或多個參數中之至少一者係基於確定該候選變體可能與該基因組核酸樣本之該突變有關而確定。
  52. 如請求項50之方法,其進一步包含:確定對應於該候選變體之第一組之一或多個參數;使用該第一組之一或多個參數對該候選變體應用第一篩選;響應於確定另一候選變體不可能與該基因組核酸樣本之另一突變有關,確定對應於該另一候選變體之第二組之一或多個參數;及使用該第二組之一或多個參數對該另一候選變體應用第二篩選,該第二篩選具有比該第一篩選之篩選準則更嚴格的篩選準則。
  53. 如請求項50之方法,其進一步包含:使用該等第二序列讀段之該等第二替代深度確定gDNA深度品質評分;其中確定該候選變體可能與該突變有關係進一步響應於確定該gDNA深度品質評分大於或等於臨限評分。
  54. 如請求項53之方法,其中該臨限評分為1。
  55. 如請求項19之方法,其進一步包含:藉由確定該等第一序列讀段滿足複數個準則中之至少一者而確定篩選來自該無細胞核酸樣本之該等第一序列讀段之候選變體。
  56. 如請求項55之方法,其中確定該等第一序列讀段是否滿足該複數個準則中之至少一者包含:確定該候選變體為邊緣變體假影。
  57. 如請求項55之方法,其中確定該等第一序列讀段是否滿足該複數個準則中之至少一者包含:確定該等第一序列讀段之該等第一深度中之一者小於臨限深度。
  58. 如請求項55之方法,其中確定該等第一序列讀段是否滿足該複數個準則中之至少一者包含:確定該第一序列中類似於一或多個生殖系突變之突變的頻率大於臨限頻率;及確定該等突變位於與生殖系突變有關之位置。
  59. 如請求項1至6中任一項之方法,其中對於該複數個候選變體之候選變體,藉由該模型篩選該等候選變體包含:確定該無細胞核酸樣本中之該候選變體之真實替代頻率大於該相應基因組核酸樣本中之該候選變體之真實替代頻率之函數的機率;確定該機率小於臨限機率;確定該基因組核酸樣本中之該候選變體之替代深度大於臨限深度;使用該無細胞核酸樣本之深度及替代深度及該基因組核酸樣本之另一深度及替代深度確定比率;使用該基因組核酸樣本之該替代深度確定gDNA深度品質評分;響應於以下而確定該候選變體可能與該基因組核酸樣本之突變有關:確定該比率小於臨限比率;及 確定該gDNA深度品質評分大於或等於臨限評分。
  60. 如請求項1至6中任一項之方法,其進一步包含:使用經篩選之該等候選變體產生一或多個特徵之值;將該一或多個特徵之該等值輸入預測癌症模型中以產生對該受試者之癌症預測,該預測癌症模型經由包含學習權數之函數將該一或多個特徵之該等值轉換為對該受試者之該癌症預測;及提供對該受試者之該癌症預測。
  61. 一種系統,其包含電腦處理器及記憶體,該記憶體儲存電腦程式指令,該等電腦程式指令在由該電腦處理器執行時引起該處理器進行步驟,包含如請求項1至60之方法中之任一者的步驟。
  62. 一種電腦產品,其包含電腦可讀取媒體,該電腦可讀取媒體儲存複數個用於控制電腦系統進行如請求項1至60之方法中之任一者的操作的指令。
TW107142461A 2017-11-28 2018-11-28 用於標靶定序之模型 TWI814753B (zh)

Applications Claiming Priority (13)

Application Number Priority Date Filing Date Title
US201762591637P 2017-11-28 2017-11-28
US62/591,637 2017-11-28
US201762610917P 2017-12-27 2017-12-27
US62/610,917 2017-12-27
US201862642301P 2018-03-13 2018-03-13
US62/642,301 2018-03-13
US201862679347P 2018-06-01 2018-06-01
US62/679,347 2018-06-01
US16/201,912 2018-11-27
??PCT/US2018/062666 2018-11-27
US16/201,912 US11961589B2 (en) 2017-11-28 2018-11-27 Models for targeted sequencing
WOPCT/US2018/062666 2018-11-27
PCT/US2018/062666 WO2019108555A1 (en) 2017-11-28 2018-11-27 Models for targeted sequencing

Publications (2)

Publication Number Publication Date
TW201926095A TW201926095A (zh) 2019-07-01
TWI814753B true TWI814753B (zh) 2023-09-11

Family

ID=64734136

Family Applications (2)

Application Number Title Priority Date Filing Date
TW112138608A TW202426659A (zh) 2017-11-28 2018-11-28 用於標靶定序之模型
TW107142461A TWI814753B (zh) 2017-11-28 2018-11-28 用於標靶定序之模型

Family Applications Before (1)

Application Number Title Priority Date Filing Date
TW112138608A TW202426659A (zh) 2017-11-28 2018-11-28 用於標靶定序之模型

Country Status (8)

Country Link
US (2) US11961589B2 (zh)
EP (1) EP3717662A1 (zh)
JP (2) JP2021503922A (zh)
CN (2) CN118773295A (zh)
AU (1) AU2018375302A1 (zh)
CA (1) CA3080170A1 (zh)
TW (2) TW202426659A (zh)
WO (1) WO2019108555A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11728007B2 (en) * 2017-11-30 2023-08-15 Grail, Llc Methods and systems for analyzing nucleic acid sequences using mappability analysis and de novo sequence assembly
TW202410055A (zh) 2018-06-01 2024-03-01 美商格瑞爾有限責任公司 用於資料分類之卷積神經網路系統及方法
US11581062B2 (en) 2018-12-10 2023-02-14 Grail, Llc Systems and methods for classifying patients with respect to multiple cancer classes
EP3899955A1 (en) 2018-12-19 2021-10-27 Grail, Inc. Cancer tissue source of origin prediction with multi-tier analysis of small variants in cell-free dna samples
US20210065842A1 (en) 2019-07-23 2021-03-04 Grail, Inc. Systems and methods for determining tumor fraction
EP4018003A1 (en) * 2019-08-28 2022-06-29 Grail, LLC Systems and methods for predicting and monitoring treatment response from cell-free nucleic acids
GB201914064D0 (en) * 2019-09-30 2019-11-13 Longas Tech Pty Ltd Method for determining a measure correlated to the probability that two mutated sequence reads derive from the same sequence comprising mutations
CN112133277B (zh) * 2020-11-20 2021-02-26 北京猿力未来科技有限公司 样本生成方法及装置
CN112927755B (zh) * 2021-02-09 2022-03-25 北京博奥医学检验所有限公司 一种鉴定cfDNA变异来源的方法和系统
CN114220480B (zh) * 2022-02-17 2022-05-10 武汉宏韧生物医药股份有限公司 一种药物成分分析方法及系统
CN116246705B (zh) * 2023-05-10 2023-07-14 国家食品安全风险评估中心 全基因组测序数据的分析方法和装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9085798B2 (en) 2009-04-30 2015-07-21 Prognosys Biosciences, Inc. Nucleic acid constructs and methods of use
WO2011161186A1 (en) * 2010-06-23 2011-12-29 Biocrates Life Sciences Ag Method for in vitro diagnosing sepsis utilizing biomarker composed of more than two different types of endogenous biomolecules
CN110016499B (zh) 2011-04-15 2023-11-14 约翰·霍普金斯大学 安全测序系统
HUE051845T2 (hu) 2012-03-20 2021-03-29 Univ Washington Through Its Center For Commercialization Módszerek a tömegesen párhuzamos DNS-szekvenálás hibaarányának csökkentésére duplex konszenzus szekvenálással
WO2014036167A1 (en) 2012-08-28 2014-03-06 The Broad Institute, Inc. Detecting variants in sequencing data and benchmarking
US20140066317A1 (en) * 2012-09-04 2014-03-06 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
WO2014039556A1 (en) * 2012-09-04 2014-03-13 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
CN105408496A (zh) * 2013-03-15 2016-03-16 夸登特健康公司 检测稀有突变和拷贝数变异的系统和方法
EP3087204B1 (en) * 2013-12-28 2018-02-14 Guardant Health, Inc. Methods and systems for detecting genetic variants
WO2015173222A1 (en) * 2014-05-12 2015-11-19 Roche Diagnostics Gmbh Rare variant calls in ultra-deep sequencing
EP3766986B1 (en) * 2014-12-31 2022-06-01 Guardant Health, Inc. Detection and treatment of disease exhibiting disease cell heterogeneity and systems and methods for communicating test results
US9984201B2 (en) 2015-01-18 2018-05-29 Youhealth Biotech, Limited Method and system for determining cancer status
US20170058332A1 (en) 2015-09-02 2017-03-02 Guardant Health, Inc. Identification of somatic mutations versus germline variants for cell-free dna variant calling applications
WO2017127741A1 (en) * 2016-01-22 2017-07-27 Grail, Inc. Methods and systems for high fidelity sequencing
US10982286B2 (en) * 2016-01-22 2021-04-20 Mayo Foundation For Medical Education And Research Algorithmic approach for determining the plasma genome abnormality PGA and the urine genome abnormality UGA scores based on cell free cfDNA copy number variations in plasma and urine
EP3443066B1 (en) * 2016-04-14 2024-10-02 Guardant Health, Inc. Methods for early detection of cancer
EP3589371A4 (en) 2017-03-02 2020-11-25 Youhealth Oncotech, Limited METHYLATION MARKERS FOR THE DIAGNOSIS OF HEPER CELL CARCINOMA AND LUNG CANCER
US20210125683A1 (en) * 2017-09-15 2021-04-29 The Regents Of The University Of California Detecting somatic single nucleotide variants from cell-free nucleic acid with application to minimal residual disease monitoring
WO2019060640A1 (en) * 2017-09-20 2019-03-28 Guardant Health, Inc. METHODS AND SYSTEMS FOR DIFFERENTIATING SOMATIC VARIANTS AND GERMINAL LINE VARIANTS
US20200105375A1 (en) * 2018-09-28 2020-04-02 Grail, Inc. Models for targeted sequencing of rna

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
期刊 Kirkizlar et al., "Detection of Clonal and Subclonal Copy-Number Variants in Cell-Free DNA from Patients with Breast Cancer Using a Massively Multiplexed PCR Methodology", Translational Oncology, 8, 2015, pp 407-416.

Also Published As

Publication number Publication date
JP2021503922A (ja) 2021-02-15
US11961589B2 (en) 2024-04-16
TW202426659A (zh) 2024-07-01
WO2019108555A1 (en) 2019-06-06
JP2023156402A (ja) 2023-10-24
CN111742059B (zh) 2024-07-09
EP3717662A1 (en) 2020-10-07
WO2019108555A8 (en) 2019-08-08
CA3080170A1 (en) 2019-06-06
CN118773295A (zh) 2024-10-15
US20240321389A1 (en) 2024-09-26
US20190164627A1 (en) 2019-05-30
AU2018375302A1 (en) 2020-06-11
TW201926095A (zh) 2019-07-01
CN111742059A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
TWI814753B (zh) 用於標靶定序之模型
US20210017609A1 (en) Methylation markers and targeted methylation probe panel
US20190316209A1 (en) Multi-Assay Prediction Model for Cancer Detection
US11869661B2 (en) Systems and methods for determining whether a subject has a cancer condition using transfer learning
US20210102262A1 (en) Systems and methods for diagnosing a disease condition using on-target and off-target sequencing data
WO2021216477A1 (en) Generating cancer detection panels according to a performance metric
US20200203016A1 (en) Cancer tissue source of origin prediction with multi-tier analysis of small variants in cell-free dna samples
US20220090211A1 (en) Sample Validation for Cancer Classification
EP4118653B1 (en) Methods for classifying genetic mutations detected in cell-free nucleic acids as tumor or non-tumor origin
US20230090925A1 (en) Methylation fragment probabilistic noise model with noisy region filtration
US20190108311A1 (en) Site-specific noise model for targeted sequencing
US20240312561A1 (en) Optimization of sequencing panel assignments
WO2024192121A1 (en) White blood cell contamination detection
WO2024192076A1 (en) Sample barcode in multiplex sample sequencing