TWI839151B

TWI839151B - 核酸定序辨識偽陽性變異體之方法

Info

Publication number: TWI839151B
Application number: TW112108813A
Authority: TW
Inventors: 盧漢城; 金洙延; 金晃必; 文成太; 金泰裕
Original assignee: 南韓商愛仁血液診斷有限公司
Priority date: 2022-03-21
Filing date: 2023-03-10
Publication date: 2024-04-11
Also published as: KR102529553B1; CN117157413A; TW202338099A; US20240296905A1; WO2023182586A1

Abstract

本發明是有關於一種在核酸定序期間辨識偽陽性變異體的方法。根據本發明的一個實施例，可利用自經擴增核酸片段獲得的高品質唯一序列的關聯脈絡錯誤率來有效地辨識及移除偽陽性變異體。

Description

核酸定序辨識偽陽性變異體之方法

本發明是有關於一種在核酸定序期間辨識偽陽性變異體的方法。

自大量定序資料偵測體細胞變異體（somatic variant）對基因組研究至關重要。在近來的定序技術中，對體細胞變異體的偵測（例如對低頻率體細胞變異體的偵測或對樣本中的遺傳亞克隆（genetic subclone）的辨識）的準確度已顯著提高。該些技術進步增加了高效率的下一代定序（next-generation sequencing，NGS）在診斷難以藉由一般臨床試驗來偵測的遺傳疾病方面或在根據液體活檢來診斷癌症方面的臨床應用機會。

近年來，存在於血液中的細胞游離脫氧核糖核酸（deoxyribonucleic acid，DNA）（cell-free DNA，cfDNA）或循環腫瘤DNA（circulating tumor DNA，ctDNA）已被用於偵測癌症。在健康個體中，大部分DNA是自造血細胞而釋放，但在癌症患者中，cfDNA包含自垂死的腫瘤細胞釋放至血液中的ctDNA。此種ctDNA包含與癌症相關的基因突變（genetic mutation），且對該些基因突變的監測使得能夠在病變發生之前早期偵測癌症、分析對特定癌症治療的應答（response）、發現產生對抗癌藥物的抗性的機制、偵測殘留癌症的存在以及發揮類似作用。

同時，與源於造血細胞的DNA混合的cfDNA存在於血液中，但由於cfDNA的分率在諸多情形中少於總量的1%，因此在分析過程中仍會出現顯著水準的偽陽性或偽陰性。作為解決此種問題的技術，已報道了例如分子條碼技術（molecular barcoding technique）、數位錯誤抑制方法（digital error suppression method）及基於注解的過濾技術（annotation-based filtering technique）等技術，但該些技術尚未被商業化來用於臨床診斷。

因此，本發明旨在提出一種能夠基於自經擴增核酸片段獲得的高品質唯一序列（high-quality unique sequence，HQS）的關聯脈絡錯誤率資訊（context error rate information）來以高準確度辨識及移除偽陽性變異體的技術。

技術問題

本發明的一個態樣的目的是提供一種在核酸定序中辨識偽陽性變異體之方法，所述方法包括以下步驟：a）自目標樣本提取包含候選變異體的核酸片段；b）將唯一分子辨識符（unique molecular identifier，UMI）添加至所提取的核酸片段的末端；c）藉由擴增已添加有UMI的核酸片段來生成高品質唯一序列（HQS）；d）藉由應用與HQS對應的錯誤率來獲得關聯脈絡對數似然比值（log likelihood ratio value for context，LLRc）值；以及e）根據LLRc值來判斷偽陽性變異體的存在與否。 技術解決方案

本發明的一個態樣提供一種在核酸定序中移除偽陽性變異體的方法，所述方法包括以下步驟：

a）自目標樣本提取包含候選變異體的核酸片段；

b）將唯一分子辨識符（UMI）添加至所提取的核酸片段的末端；

c）藉由擴增已添加有UMI的核酸片段來生成高品質唯一序列（HQS）；

d）藉由應用與HQS對應的錯誤率而根據以下方程式I來獲得LLRc值；以及

e）根據LLRc值來確定偽陽性變異體的存在與否：

[方程式I]

其中 r表示序列標籤（read）， N表示序列標籤總數， S表示家族大小（family size）， f表示變異體等位基因頻率（variant allele frequency），且 e表示錯誤率（error rate）。

在本發明的一個實施例中，候選變異體可為選自由單核苷酸變異（single-nucleotide variation，SNV）、核苷酸插入（nucleotide insertion）及核苷酸缺失（nucleotide deletion）組成的群組的至少一者。

在本發明的一個實施例中，步驟c）中的HQS可為單股共有序列（single-strand consensus sequence，SSCS）或雙鏈共有序列（duplex consensus sequence，DCS）。

在本發明的一個實施例中，家族大小可為2至30。

在本發明的一個實施例中，錯誤率可包括特定家族大小下的關聯脈絡錯誤率、在錯誤修正過程中計算出的核苷酸錯誤率及在比對（mapping）過程中計算出的讀取錯誤率中的所有者。

在本發明的一個實施例中，判斷偽陽性變異體的存在與否的步驟e）可包括：藉由計算SSCS的對數似然比（log likelihood ratio，LLR）值及DCS的LLR值來獲得加權LLR值；以及當根據加權LLR值使用精度-召回率曲線（precision-recall curve）而設定的截止值（cut-off value）為50或大於50時，確定出包含候選變異體的核酸片段中的變異體為偽陽性。 有利效果

根據本發明的一個實施例，可利用關聯脈絡錯誤率相對於自經擴增核酸片段獲得的核酸片段家族的大小的關係來有效地辨識及移除偽陽性變異體。

本發明的一個態樣提供一種在核酸定序中辨識偽陽性變異體之方法，所述方法包括以下步驟：

a）自目標樣本提取包含候選變異體的核酸片段；

e）根據LLRc值來判斷偽陽性變異體的存在與否：

[方程式I]

其中 r表示序列標籤， N表示序列標籤總數， S表示家族大小， f表示變異體等位基因頻率，且 e表示錯誤率。

已知在癌症患者的血液中，源於原發性癌症的循環腫瘤DNA（ctDNA）與和源於造血細胞的DNA混合的細胞游離DNA（cfDNA）一起循環。特別是，已知癌症患者中的DNA量大於健康個體中的DNA量，且在化療前後有所不同，且當治療後癌症復發時，ctDNA的量增加。本發明者已在根據液體活檢來診斷癌症的過程中對cfDNA實行了體細胞變異體分析，並進行了研究來以高準確度及靈敏度辨識在分析過程期間所產生的偽陽性變異體。作為結果，本發明者已發現可利用關聯脈絡錯誤率相對於經擴增核酸片段的家族大小的關係來有效地辨識偽陽性變異體，藉此完成本發明。

在下文中，將詳細闡述根據本發明的在核酸定序中辨識偽陽性變異體之方法。

首先，在本發明的方法中，實行自目標樣本提取包含候選變異體的核酸片段的步驟a）。

本文中所使用的用語「樣本」意欲包括但不限於例如組織、細胞、全血、血清、血漿、唾液、痰、腦脊液或尿液等可自其獲得用於目標定序的材料以分析核苷酸序列中的變異體的樣本。較佳地，樣本可為血清或血漿。

在步驟a）中，核酸可為基因組或其片段。本文中所使用的用語「基因組」是指包括染色體、染色質或基因在內的整體。基因組或其片段可為分離的DNA，例如細胞游離核酸（cfDNA）。自目標樣本提取或分離核酸的方法可藉由熟習此項技術者已知的方法實行。

核酸片段被解釋為包括對所提取核酸的片段化的概念。片段化是指基因組在血液中循環的同時自然降解，或者藉由物理方式、化學方式或酶催方式而人工裂解的過程。藉由此過程，可生成在其兩個末端處具有各種不同長度及序列標籤的核酸片段。本文中所使用的用語「序列標籤（read）」是指自核酸定序產生的一或多個核酸片段的序列資訊，且核酸片段的長度可使用核酸片段的兩個末端處的序列標籤來計算。核酸片段的長度可為約10個鹼基對（base pair，bp）至約2,000個鹼基對，較佳為約50個鹼基對至約500個鹼基對。

根據本發明的一個實施例，候選變異體可較佳為體細胞變異體、定序序列標籤中的單核苷酸變異（SNV）、核苷酸插入或核苷酸缺失，但並非僅限於此。

在單核苷酸變異中，四個核苷酸中的每一者可變成三個不同的核苷酸，且因此總共存在12種單核苷酸變異。因此，由於各種原因（例如生物學原因以及在自核酸提取起的整個實驗過程中及在定序過程中出現的機械錯誤），可觀察到錯誤率。

接下來，實行將唯一分子辨識符添加至所提取的核酸片段的末端的步驟b）。

本文中所使用的用語「唯一分子辨識符（UMI）」是指由4鹼基對DNA至10鹼基對DNA組成的序列，所述序列為結合至核酸片段的末端並對所述核酸片段進行標記的條碼序列。

利用所述唯一分子辨識符，當藉由聚合酶鏈式反應（polymerase chain reaction，PCR）擴增來複製核酸片段時，可區分不同的核酸片段，且利用此種效果，可藉由將PCR複本（duplicate）彼此進行比較來修正錯誤。

舉例而言，當具有不同序列的UMI被添加至核酸片段的兩個方向時，可辨識雙股中的哪一股是PCR擴增產物（雙鏈定序）。

接下來，實行藉由擴增已添加有UMI的核酸片段來產生HQS的步驟c）。

對添加有UMI的核酸片段的擴增是指下一代定序（NGS）過程中所涉及的聚合酶鏈式反應（PCR），且在PCR過程期間可能會以某種頻率出現隨機定序錯誤（random sequencing error）。

本文中所使用的用語「家族」是指當在PCR過程中已添加有UMI的核酸片段被擴增時生成的複本，且用語「家族大小」是指家族成員的數目。

圖1示出添加有UMI的核酸片段可能因PCR擴增而引起錯誤（紅點），且示出由對核酸片段的擴增造成的家族大小的實例。

根據本發明的一個實施例，HQS可為單股共有序列（SSCS）或雙鏈共有序列（DCS）。

在生成單股共有序列（SSCS）的過程中，將在一個方向上自DNA股產生的PCR複本彼此進行比較以修正有錯誤的核苷酸，但存在的限制在於：在PCR之前的初始階段中產生的錯誤會在PCR過程期間不斷累積。

在生成雙鏈共有序列（DSC）的過程中，將兩個方向上的SSCS彼此進行比較以獲得共有序列，且因此對在PCR之前的初始階段中因物理原因及化學原因產生的錯誤進行比較，且具有差異者被視為存在錯誤並被移除。

然後，實行藉由應用與HQS對應的錯誤率而根據以下方程式I來獲得LLRc值的步驟d）。

[方程式I]

本文中所使用的用語「錯誤率」是指家族大小對於特定核苷酸的錯誤機率而言的乘數。舉例而言，假定特定核苷酸的錯誤機率為x且家族大小為n，則錯誤率可為x^n。因此，隨著家族大小的增大，可獲得更準確的共有序列。

根據本發明的一個實施例，家族大小可為2至30，較佳為2至15，更佳為2至10，最佳為2至7。

根據本發明的一個實施例，錯誤率可包括特定家族大小下的關聯脈絡錯誤率、在錯誤修正過程中計算出的核苷酸錯誤率及在比對過程中計算出的讀取錯誤率中的所有者。

本文中所使用的用語「關聯脈絡（context）」可與用語「三核苷酸關聯脈絡（trinucleotide context）」互換使用，用語「三核苷酸關聯脈絡」意欲包括發生SNV的基因座（locus）之前及之後的1鹼基對核苷酸。眾所習知，端視關聯脈絡而定，相同的SNV亦具有不同的錯誤率，且一種類型的SNV被分類成16種關聯脈絡錯誤。舉例而言，如圖2中所示，在A＞T變異體的情形中，端視參考等位基因A之前及之後的核苷酸的類型而定，可能出現總共192種錯誤（4×12×4），且每一錯誤率在各變異體之間有所差異。

最後，實行根據在步驟d）中獲得的LLRc值來判斷偽陽性變異體的存在與否的步驟e）。

根據本發明的一個實施例，判斷偽陽性變異體的存在與否的步驟e）可包括：藉由計算SSCS的LLR值及DCS的LLR值來獲得加權LLR值；以及當根據加權LLR值使用精度-召回率曲線而設定的截止值為50或大於50時，確定出包含候選變異體的核酸片段中的變異體為偽陽性。 發明方式

在下文中，將參照實例來更詳細地闡述一或多個實施例。然而，該些實例是用於詳細闡釋一或多個實施例，且本發明的範圍並非僅限於該些實例。

實例 1 ：檢驗錯誤率相對於家族大小的關係

對三份健康人cfDNA樣本（總共120個吉鹼基對（Gbp）），四份源於肺癌患者的cfDNA樣本（總共350個吉鹼基對）、cfDNA混合物1（由5位結腸癌患者構成；4個複製體（replicate）；總共221個吉鹼基對）、cfDNA混合物2（由5位結腸癌患者構成；4個複製體；總共216個吉鹼基對）及cfDNA混合物3（由4位胃癌患者及3位結腸癌患者構成；26個複製體；總共836個吉鹼基對）進行了隨機子取樣，以獲得420份健康人cfDNA子樣本（總共8,400個吉鹼基對）、380份源於肺癌患者的cfDNA子樣本（總共10,050個吉鹼基對）、253份cfDNA混合物1子樣本（總共5,090個吉鹼基對）、253份cfDNA混合物2子樣本（總共5,090個吉鹼基對）及1,380份cfDNA混合物3子樣本（總共21,900個吉鹼基對），該些樣本隨後被用於錯誤率計算。此實例中所使用的樣本類型及降取樣條件（downsampling condition）示出於表1中。

[表1]

樣品標籤	複製體數	子樣本數目（按資料大小）	總子樣本計數	總子樣本資料大小（Gbp）
5 Gbp	10 Gbp	15 Gbp	20 Gbp	25 Gbp	30 Gbp	35 Gbp	40 Gbp	45 Gbp	50 Gbp	總計數	總資料大小（Gbp）
健康人cfDNA 1	#1	20	20	20	20	20	20	20	-	-	-	140	2800	420	8,400
健康人cfDNA 2	#1	20	20	20	20	20	20	20	-	-	-	140	2800
健康人cfDNA 3	#1	20	20	20	20	20	20	20	-	-	-	140	2800
肺癌cfDNA 1	#1	10	10	10	10	10	10	10	10	10	10	100	2750	380	10,050
肺癌cfDNA 2	#1	10	10	10	10	10	10	10	10	10	10	100	2750
肺癌cfDNA 3	#1	10	10	10	10	10	10	10	10	10	10	100	2750
肺癌cfDNA 4	#1	10	10	10	10	10	10	10	10	-	-	80	1800
患者cfDNA混合物1（5位結腸癌患者）	#1	10	10	10	10	10	1	-	-	-	-	51	780	253	5,090
#2	10	10	10	10	10	1	-	-	-	-	51	780
#3	10	10	10	10	10	1	-	-	-	-	51	780
#4	10	10	10	10	10	10	10	10	10	10	100	2750
患者cfDNA混合物2（5位結腸癌患者）	#1	10	10	10	10	10	1	-	-	-	-	51	780	253	5,090
#2	10	10	10	10	10	1	-	-	-	-	51	780
#3	10	10	10	10	10	1	-	-	-	-	51	780
#4	10	10	10	10	10	10	10	10	10	10	100	2750
患者cfDNA混合物3（4位胃癌患者+ 3位結腸癌患者）	#1	10	10	10	10	10	1	-	-	-	-	51	780	1,380	21,900
#2	10	10	10	10	10	1	-	-	-	-	51	780
#3	10	10	10	10	10	1	-	-	-	-	51	780
#4	10	10	10	10	10	1	-	-	-	-	51	780
#5	10	10	10	10	10	1	-	-	-	-	51	780
#6	10	10	10	10	10	1	-	-	-	-	51	780
#7	10	10	10	10	10	1	-	-	-	-	51	780
#8	10	10	10	10	10	1	-	-	-	-	51	780
#9	10	10	10	10	10	1	-	-	-	-	51	780
#10	10	10	10	10	10	1	-	-	-	-	51	780
#11	10	10	10	10	10	1	-	-	-	-	51	780
#12	10	10	10	10	10	1	-	-	-	-	51	780
#13	10	10	10	10	10	1	-	-	-	-	51	780
#14	10	10	10	10	10	1	-	-	-	-	51	780
#15	10	10	10	10	10	1	-	-	-	-	51	780
#16	10	10	10	10	10	1	-	-	-	-	51	780
#17	10	10	10	10	10	1	-	-	-	-	51	780
#18	10	10	10	10	10	1	-	-	-	-	51	780
#19	10	10	10	10	10	1	-	-	-	-	51	780
#20	10	10	10	10	10	1	-	-	-	-	51	780
#21	10	10	10	10	10	10	-	-	-	-	60	1050
#22	10	10	10	10	10	10	-	-	-	-	60	1050
#23	10	10	10	10	10	10	-	-	-	-	60	1050
#24	10	10	10	10	10	10	-	-	-	-	60	1050
#25	10	10	10	10	10	10	-	-	-	-	60	1050
#26	10	10	10	10	10	10	-	-	-	-	60	1050

使用fastp程式自藉由子取樣而創建的fastq檔案移除了銜接子序列（adapter sequence），且使用bwa MEM程式將結果比對至人類參考基因組GRCh38，並以bam格式記錄。然後，使用fgbio程式創建了SSCS bam檔案及DCS bam檔案，並根據指示家族大小的共有深度（consensus depth，cD）標誌值而按家族大小來劃分所述bam檔案。在以上過程中，在為每一家族大小創建的bam檔案中發現了不同於參考基因組的部分，並辨識出了對應位置的關聯脈絡類型，並對每一關聯脈絡的錯誤數進行了計數。此時，對於整個測試區（106個基因，365,175個鹼基對），在生殖細胞變異體及體細胞變異體的除了先前已知位置以外的其餘位置處不同於參考基因組序列的部分被確定為錯誤，且藉由對每一關聯脈絡類型的總頻率進行計數並將所述計數除以錯誤數而計算出了錯誤率。

圖3針對每種類型的關聯脈絡而在與為2至30的家族大小對應的總共29個不同行中用顏色示出錯誤率。作為結果，可確認出隨著家族大小的增大，錯誤率趨於逐漸降低。另外，如圖4中所示，作為檢查SSCS及DCS中的每一者的關聯脈絡錯誤率的結果，確認出DCS中的錯誤率低於SSCS中的錯誤率。綜合該些結果，可看出錯誤率隨著家族大小的增大而降低。

另外，藉由將針對每一家族大小觀察到的錯誤率的中位值（median value）擬合至指數分佈（exponential distribution）而創建了機率密度函數（probability density function），並由此計算出了錯誤率相對於家族大小的關係。另外，由於其中幾乎未觀察到錯誤的具有大的家族大小的組及關聯脈絡具有非常低的錯誤率（此可能導致不準確的量測及統計偏差），因此所述值以1e- ¹⁰封頂。作為結果，如圖5中所示，可確認出在錯誤率高的GCG＞T關聯脈絡的情形中，為2的家族大小下的錯誤率在SSCS的情形中為2.54e ^-4且在DCS的情形中為8.13e ^-5，該些錯誤率隨著家族大小的增大而降低，且為7的家族大小下的錯誤率在SSCS的情形中為1.06e ^-4且在DCS的情形中為2.84e ^-5，此表明隨著家族大小的增大，錯誤率趨於逐漸降低。

實例 2 ：針對每一家族大小檢驗錯誤率相依於插入缺失（ indel ）關聯脈絡類型的變化

插入與缺失具有不同的長度，且依據變異體出現的位置，插入與缺失可能存在無限組合。在此實例中，對於插入缺失關聯脈絡，藉由將參考物及變異體分別劃分成75個類別及113個類別而準備了總共8,745個關聯脈絡，並將該些關聯脈絡用於檢驗錯誤率相依於家族大小的變化。

參考物類別關聯脈絡按以下方式表示：

[單元]:[單元長度]:[重複序列計數]

舉例而言，若參考物是AA[TTTTT]AA，則關聯脈絡被表示為T:1:5。

變異體類別關聯脈絡按以下方式表示：

[單元長度]:[變異體類型]:[單元]:[重複序列計數]

舉例而言，若參考物是AA[TTTTT]AA且變異體是AA[TTT--]AA，則關聯脈絡被表示為1:Del:T:2。

以上關聯脈絡及說明中所使用的用語及其實例示出於以下表2中。

[表2]

項	說明	值	實例
單元	表示重複單元。 R：無論核苷酸如何，均包含為2 bp或長於2 bp的重複序列。 M：微同源 N：參考序列的核苷酸未知的情形	N、A、T、G、C、R、M	若GC或AT是重複單元，則皆包含於R類別中
單元長度	重複單元的長度	1至6	GC為2，且GCC為3
重複序列計數	重複序列的數目	1至6	GCGCGC對應於三個GC重複序列
變異體類型	變異體的類型	Ins、Del

以下表3及表4示出根據此實例中所使用的定義的75個參考物類別關聯脈絡及113個變異體類別關聯脈絡。

[表3]

參考物類別
N:1:0	A:1:1	T:1:1	G:1:1	C:1:1	R:2:1	R:3:1	R:4:1	R:5:1	R:6:1N:2:0	A:1:2
	T:1:2	G:1:2	C:1:2	R:2:2	R:3:2	R:4:2	R:5:2	R:6:2
N:3:0	A:1:3	T:1:3	G:1:3	C:1:3	R:2:3	R:3:3	R:4:3	R:5:3	R:6:3
N:4:0	A:1:4	T:1:4	G:1:4	C:1:4	R:2:4	R:3:4	R:4:4	R:5:4	R:6:4
N:5:0	A:1:5	T:1:5	G:1:5	C:1:5	R:2:5	R:3:5	R:4:5	R:5:5	R:6:5
N:6:0	A:1:6	T:1:6	G:1:6	C:1:6	R:2:6	R:3:6	R:4:6	R:5:6	R:6:6

M:2:1	M:3:1	M:4:1	M:5:1	M:6:1
	M:3:2	M:4:2	M:5:2	M:6:2
	M:4:3	M:5:3	M:6:3
		M:5:4	M:6:4
				M:6:5

[表4]

變異體類別

1:Ins:A:1 1:Ins:T:1 1:Ins:G:1 1:Ins:C:1 1:Del:A:1 1:Del:T:1 1:Del:G:1 1:Del:C:1 1:Ins:A:2 1:Ins:T:2 1:Ins:G:2 1:Ins:C:2 1:Del:A:2 1:Del:T:2 1:Del:G:2 1:Del:C:2 1:Ins:A:3 1:Ins:T:3 1:Ins:G:3 1:Ins:C:3 1:Del:A:3 1:Del:T:3 1:Del:G:3 1:Del:C:3 1:Ins:A:4 1:Ins:T:4 1:Ins:G:4 1:Ins:C:4 1:Del:A:4 1:Del:T:4 1:Del:G:4 1:Del:C:4 1:Ins:A:5 1:Ins:T:5 1:Ins:G:5 1:Ins:C:5 1:Del:A:5 1:Del:T:5 1:Del:G:5 1:Del:C:5 1:Ins:A:6 1:Ins:T:6 1:Ins:G:6 1:Ins:C:6 1:Del:A:6 1:Del:T:6 1:Del:G:6 1:Del:C:6 2:Ins:R:1 2:Ins:R:2 2:Ins:R:3 2:Ins:R:4 2:Ins:R:5 2:Ins:R:6 3:Ins:R:1 3:Ins:R:2 3:Ins:R:3 3:Ins:R:4 3:Ins:R:5 3:Ins:R:6 4:Ins:R:1 4:Ins:R:2 4:Ins:R:3 4:Ins:R:4 4:Ins:R:5 4:Ins:R:6 5:Ins:R:1 5:Ins:R:2 5:Ins:R:3 5:Ins:R:4 5:Ins:R:5 5:Ins:R:6 6:Ins:R:1 6:Ins:R:2 6:Ins:R:3 6:Ins:R:4 6:Ins:R:5 6:Ins:R:6 2:Del:R:1 2:Del:R:2 2:Del:R:3 2:Del:R:4 2:Del:R:5 2:Del:R:6 2:Del:M:0 3:Del:R:1 3:Del:R:2 3:Del:R:3 3:Del:R:4 3:Del:R:5 3:Del:R:6 3:Del:M:0 4:Del:R:1 4:Del:R:2 4:Del:R:3 4:Del:R:4 4:Del:R:5 4:Del:R:6 4:Del:M:0 5:Del:R:1 5:Del:R:2 5:Del:R:3 5:Del:R:4 5:Del:R:5 5:Del:R:6 5:Del:M:0 6:Del:R:1 6:Del:R:2 6:Del:R:3 6:Del:R:4 6:Del:R:5 6:Del:R:6 6:Del:M:0

*在上表中，微同源（micro homology）（M）不是對不同於其他類別的重複單元的重複的量測，且因此計數被表示為0。

如可在圖6及圖7中看出，可確認出在缺失變異體及插入變異體的情形中，隨著家族大小的增大，錯誤率顯著降低。具體而言，在缺失變異體及插入變異體的情形中，隨著變異體長度的減小，錯誤率增大，且如圖6中所示，當缺失長度變長時，亦存在罕少出現的關聯脈絡。另外，如圖7中所示，可確認出在具有較長重複序列的關聯脈絡中，錯誤率較高。

實例 3 ：計算變異體得分

使用對數似然比（LLR）計算出了用於確定偽陽性的變異體分數（variant score）。根據以下方程式I計算出了關聯脈絡LLR值（LLRc）。

[方程式I]

藉由綜合考量以下三種錯誤率而計算出了最終變異體分數：

1）特定家族大小下的關聯脈絡錯誤率；

2）在錯誤修正過程中計算出的核苷酸錯誤率；以及

3）在比對過程中計算出的讀取錯誤率。

藉由將以上三種錯誤率代入方程式I中而獲得的每一LLR值如下。

1）CXT_LLR _DCS：在所有家族大小下藉由DCS關聯脈絡錯誤率而計算出的LLR值之和；

2）CXT_LLR _SSCS：在所有家族大小下藉由SSCS關聯脈絡錯誤率而計算出的LLR值之和；

3）BQ_LLR _DCS：在所有家族大小下藉由在DCS錯誤修正過程中計算出的核苷酸錯誤率而計算出的LLR值之和；

4）BQ_LLR _SSCS：在所有家族大小下藉由在SSCS錯誤修正過程中計算出的核苷酸錯誤率而計算出的LLR值之和；

5）MQ_LLR _DCS：在所有家族大小下藉由在DCS比對過程中計算出的讀取錯誤率而計算出的LLR值之和；以及

6）MQ_LLR _SSCS：在所有家族大小下藉由在SSCS比對過程中計算出的讀取錯誤率而計算出的LLR值之和。

LLR可總結如下：

LLR _DCS= CXT_LLR _DCS+ BQ_LLR _DCS+ MQ_LLR _DCS

LLR _SSCS= CXT_LLR _SSCS+ BQ_LLR _SSCS+ MQ_LLR _SSCS

用於計算最終變異體得分的加權LLR值（wLLR）計算如下。

wLLR = (2×LLR _DCS+ LLR _SSCS)/3

使用精度-召回率曲線設定了用於確定偽陽性的得分的截止值。

在NGS測試中，偽陽性可藉由其他量測標準來進一步移除，而消除偽陰性會導致更差的結果，且因此截止值被設定為：精度為0.25且召回率為0.7至0.8。在錯誤修正步驟中，根據錯誤處理強度（s2及s3）設定了兩種類型的參數，且在兩種資料量條件（20吉鹼基對及30吉鹼基對）下實行了分析。作為結果，如圖8中所示，可確認出在SNV的情形中，效能在為s3及30吉鹼基對的條件下為最佳，而在插入變異體的情形中，效能不受條件的顯著影響，而在缺失變異體的情形中，效能在為s2及30吉鹼基對的條件下為極佳。

到目前為止，已參照較佳實施例闡述了本發明。熟習此項技術者應理解，在不背離本發明的本質特徵的條件下，可以經修改形式來實施本發明。因此，所揭露實施例應被視為僅為說明性的，而非用於限制目的。因此，本發明的範圍並非由本發明的詳細說明來界定，而是由隨附申請專利範圍來界定，且與隨附申請專利範圍的範圍等效的範圍內的所有差異皆應被理解為包含於本發明中。

無

圖1是示出因對添加有UMI的核酸片段的PCR擴增而導致出現錯誤以及由對核酸片段的擴增造成的家族大小的圖。圖2示出關聯脈絡錯誤類型以及每種錯誤類型的錯誤率。圖3示出針對每一家族大小的關聯脈絡錯誤率。圖4繪示SSCS及DCS中針對每一家族大小的關聯脈絡錯誤率的彩色編碼圖。圖5繪示SSCS及DCS在為2至15的家族大小下的錯誤率的曲線圖。圖6繪示在缺失關聯脈絡中錯誤率相對於家族大小的關係的曲線圖。圖7繪示在插入關聯脈絡中錯誤率相對於家族大小的關係的曲線圖。圖8繪示在SNV關聯脈絡、插入關聯脈絡及缺失關聯脈絡中使用精度-召回率曲線圖來設定變異體分數截止值的結果的曲線圖。

Claims

一種在核酸定序中移除偽陽性變異體的方法，所述方法包括以下步驟： a）自目標樣本提取包含候選變異體的核酸片段； b）將唯一分子辨識符（unique molecular identifier，UMI）添加至所提取的所述核酸片段的末端； c）藉由擴增已添加有所述唯一分子辨識符的所述核酸片段來生成高品質唯一序列（high-quality unique sequence，HQS）； d）藉由應用與所述高品質唯一序列對應的錯誤率而根據以下方程式I來獲得關聯脈絡對數似然比值（log likelihood ratio value for context，LLRc）值；以及 e）根據所述LLRc值來判斷偽陽性變異體的存在與否： [方程式I] 其中 r表示序列標籤， N表示序列標籤總數， S表示家族大小， f表示變異體等位基因頻率，且 e表示錯誤率。
如請求項1所述的方法，其中所述候選變異體是選自由單核苷酸變異、核苷酸插入及核苷酸缺失組成的群組的至少一者。
如請求項1所述的方法，其中步驟c）中的所述高品質唯一序列是單股共有序列（single-strand consensus sequence，SSCS）或雙鏈共有序列（duplex consensus sequence，DCS）。
如請求項1所述的方法，其中所述家族大小為2至30。
如請求項1所述的方法，其中所述錯誤率包括特定家族大小下的關聯脈絡錯誤率、在錯誤修正過程中計算出的核苷酸錯誤率及在比對過程中計算出的讀取錯誤率中的所有者。
如請求項1所述的方法，其中判斷所述偽陽性變異體的存在與否的步驟e）包括：藉由計算單股共有序列的對數似然比值及雙鏈共有序列的對數似然比值來獲得加權對數似然比值；以及當根據所述加權對數似然比值使用精度-召回率曲線而設定的截止值為50或大於50時，確定出包含所述候選變異體的所述核酸片段中的變異體為偽陽性。