WO2019010776A1

WO2019010776A1 - 组合标签、接头及确定含有低频突变核酸序列的方法

Info

Publication number: WO2019010776A1
Application number: PCT/CN2017/100425
Authority: WO
Inventors: 高晓峘; 曾晓静; 张印新; 韩颖鑫; 何哲; 王佳伟; 夏伟成; 李胜
Original assignee: 广州精科医学检验所有限公司
Priority date: 2017-07-14
Filing date: 2017-09-04
Publication date: 2019-01-17
Also published as: CN107354209B; CN107354209A

Abstract

本发明提供了组合标签、含有该组合标签的接头及其组合物以及一种确定待测样本目标区域含有低频突变核酸序列的方法。其中所述组合标签包括分子标签和文库标签，所述分子标签的碱基与所述文库标签的碱基交叉排列。

Description

组合标签、接头及确定含有低频突变核酸序列的方法

技术领域

本发明涉及核酸测序技术领域，具体的，本发明涉及组合标签、含有该组合标签的接头及其组合物、确定待测样本目标区域含有低频突变核酸序列的方法。

背景技术

高通量测序是目前应用范围最广的测序技术，然而其在测序中仍不可避免的存在一些测序错误，发生率为0.1％-0.2％或者更高，并且PCR过程使用的DNA聚合酶也有错误率，错误率为10-7-10-5，特别是随着PCR循环数的增加错误率也有所增加。

为了检测低于0.1％的碱基突变(低频突变)或测序错误，学者发明了分子标签的方法，分子标签是在PCR之前给每个测序模板的一端或者两端加入一段特殊的序列。分子标签的每个位置可以是A、T、C、G 4种碱基中的1种，分子标签的长度根据实际的实验需要选择，根据分子标签的长度及4种碱基的变化，分子标签可以有4的n次方种类。如果原始模板的分子标签是完全随机分布的，那分子标签的多样性能够保证每个原始模板在原始文库中连上分子标签后是独一无二的，在之后的PCR过程中，每个原始模板会作为初始模板形成一簇“分子簇”，如果没有测序错误和PCR错误，这各簇中的分子序列都是初始模板正链和负链的无错误“复制链”。

理论上，分子标签的每个位置的碱基序列是完全随机分布的。然而，在引物合成过程中，合成某一碱基时，会加入等量的A、T、 C、G四种碱基，由于这四种碱基合成所需的能量或者合成效率不一样，使得每个位置上A、T、C、G四种碱基的出现频率并不是完全相等的。可能会出现多个连续一样的碱基，例如8个A、8个G等，从而导致实际上得到的随机分子标签种类并没有理论上那么多。

多个连续一样的碱基不仅会增加测序错误的可能性，也会增加优势分子序列的比例。当序列十分相似的不同分子序列连上同一种标签序列的情况下，技术人员无法区别判断其属于正常存在、测序错误导致或低频突变的分子。更进一步的，当低频突变和正常丰度的序列连上一样的分子克隆时会导致将低频突变当成测序错误或PCR错误从而漏检。因此分子标签的不随机性会降低其效用，甚至限制了其应用。为了解决这个问题，有学者在分子标签中加入碱基U，比如NNNUUUNNNUUUNNN，以避免出现多个连续相同的碱基，导致分子标签的检测效用低下，而此种方法将增加分子标签的长度，且U碱基在分析过程并不具有区分不同分子的作用，即不具备分子标签的效用，因此此种方法不仅添加了无效的分子标签长度，且浪费测序长度，影响测序成本。

发明内容

本发明的目的在于提供能够有效控制标签的碱基数目减少测序数据浪费的标签组合物及检测方法。

本发明一方面提供一种组合标签，包括分子标签和文库标签，所述分子标签的碱基与所述文库标签的碱基交叉排列。

本发明另一方面还提供一种接头，所述接头含有上述组合标签，且所述组合标签位于所述接头除突出端“T”和非突出端末端20bp碱基以外的任意位置。

本发明另一方面还提供一种确定待测样本目标区域含有低频突变核酸序列的方法，包括如下步骤：

S1、利用如上所述的接头，对待测样本目标区域核酸进行加接头反应，对加接头后的待测样本目标区域核酸进行PCR扩增，获得扩增产物，所述扩增产物构成所述待测样本的目标区域核酸测序文库；

S2、对所述待测样本的目标区域核酸测序文库进行测序，获得测序后核酸序列；

S3、将所述测序后核酸序列按照所述接头中含有的分子标签进行分类，将携带有相同分子标签的所述测序后的核酸序列归类为同一核酸序列集；

S4、将所述核酸序列集内的测序后核酸序列进行相互比较，统计所述核酸序列集中每个碱基位置的碱基种类及其频率；

S5、根据所述核酸序列集中每个碱基位置的碱基种类及其频率，通过数据分析，得到所述核酸序列集中含有正确的碱基排列位置的核酸序列；

S6、将所述含有正确的碱基排列位置的核酸序列与所述核酸序列集中的其余的核酸序列或平行的核酸序列集中的核酸序列进行比较，得到含有低频突变的核酸序列。

本发明将文库标签和随机分子标签结合在一起，利用识别不同样本的文库标签的确定的碱基序列，将分子标签随机隔开，这样既能达到控制连续一样的碱基数目，不会降低特定分子标签种类，并且又不会额外增加两种标签的长度的目的，不会浪费测序数据。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中

图1为本发明实施例中确定待测样本目标区域含有低频突变核酸序列的方法流程图。

图2为本发明实施例中完全互补双链接头中分子标签结构示意图。

图3为本发明实施例中一端互补一端开放的Y型接头中分子标签位于互补端的结构示意图。

图4为本发明实施例中一端互补一端开放的Y型接头中分子标签位于开放端的结构示意图。

图5为本发明实施例中分子标签不位于接头上，但可通过PCR引入接头的Y型结构的示意图。

具体实施方式

下面详细描述本发明的实施例。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

需要说明的是，在本发明的描述中，除非另有说明“多个”的含义是两个或两个以上。

本发明提供一种组合标签，包括分子标签和文库标签，所述文库标签的碱基与所述分子标签交叉排列。

所述文库标签是指，用来识别测序中不同样本文库的标签序列，以达到多个文库一起测序的目的。例如当测序平台是proton，使用的文库标签为barcode。当测序平台是illumina时，使用的文库标签为index。

根据本发明的具体实施例，所述文库标签的每1-2个碱基与所述分子标签的每个1-3碱基交叉排列。详细描述如下；

一、所述文库标签的每1个碱基与所述分子标签的每1个碱基交叉排列，并且所述组合标签最多有2个连续相同的碱基。参考以下具体示例：

1、当组合标签为AN₂TN₄GN₆CN₈……AN_n-6TN_n-4GN_n-2CN_n时，从左到右，第1、3、5、7、9、...n-3、n-1位置是所述文库标签

(ATGC…ATGC)，第2、4、6、8、10、...n-2、n位置是所述分子标签(N₂N₄N₆N₈…N_n-6N_n-4N_n-2N_n)。

所述分子标签的碱基与其相邻的前一位的文库标签的碱基不同，例如AN₂TN₄GN₆CN₈……中，N₂不为A，可以是T、C、G中任一个，N₄不为T，可以是A、C、G中任一个。

在1个确定的文库标签的情况下，所述分子标签的组合数是3n/2。例如，当n＝16时，文库标签的长度为8bp，所述分子标签的长度为8bp，分子标签序列组合数为38＝6561。

2、当组合标签为N₁AN₃TN₅GN₇……CN_n-7AN_n-5TN_n-3GN_n-1C，从左到右，第2、4、6、8、10、...、n位置是所述文库标签，第1、3、5、7、9、...n-3、n-1位置是所述分子标签。

所述分子标签的碱基与其相邻的后一位的文库标签的碱基不同，例如N₁AN₃TN₅GN₇……中，N₁不为A，可以是T、C、G中任一个，N₃不为T，可以是A、C、G中任一个。

在1个确定的文库标签的情况下，所述分子标签的组合数是3n/2。例如，当n＝16时，文库标签的长度为8bp，所述分子标签的长度为8bp，分子标签序列组合数38＝6561。

3、当组合标签为AN₂TN₄GN₆CN₈……AN_n-7TN_n-5GN_n-3CN_n-1A，从左到右，第1、3、5、7、9、...n-2、n位置是所述文库标签，第2、 4、6、8、10、...n-1位置是所述分子标签。

在1个确定的文库标签的情况下，所述分子标签的组合数是3(n-1)/2。例如，当n＝17时，文库标签的长度为9bp，所述分子标签的长度为8bp，分子标签序列组合数38＝6561。

4、当组合标签为N₁AN₃TN₅GN₇……CN_n-8AN_n-6TN_n-4GN_n-2CN_n，从左到右，第2、4、6、8、10、...n-1位置是所述文库标签，第1、3、5、7、9、...n-2、n位置是所述分子标签。

在1个确定的文库标签的情况下，所述分子标签的组合数是3(n+1)/2。例如，当n＝17时，文库标签的长度为8bp，所述分子标签的长度为9bp，分子标签序列组合39＝19683。

二、所述文库标签的每1-2个碱基与所述分子标签的每1-2个碱基交叉排列，并且所述组合标签最多有3个连续相同的碱基。

进一步的，所述文库标签的每1-2个碱基与所述分子标签的每1个碱基交叉排列，并且所述组合标签最多有3个连续相同的碱基。参考以下具体示例：

5、当组合标签为ATN₃GCN₆……ACN_n-3TCN_n,从左到右，第1、2、4、5、7、8、...(n-2)、(n-1)位置是所述文库标签，第3、6、9、12、15、18、...(n-3)、n位置是所述分子标签。

所述分子标签的碱基与其相邻的任一个文库标签的碱基不同。

在1个确定的文库标签的情况下，所述分子标签的组合数是4n/3。当n＝18时，所述文库标签的长度为12bp，所述分子标签的长度为6bp，分子标签序列组合数46＝4069。

6、当组合标签为N₁ATN₄GC……N_n-6ACN_n-3TGN_n，从左到右，第2、3、5、6、8、9、...(n-2)、(n-1)位置是所述文库标签，第1、4、7、10、13、16、19、...(n-6)、(n-3)、n位置是所述分子标签。

在1个确定的文库标签的情况下，所述分子标签的组合数是4(n+2)/3。当n＝19时，文库标签的长度为12bp，文库内分子间的分子标签序列的长度为7bp，分子标签序列组合数47＝16384。

7、当组合标签为ATN₃GCN₆……ACN_n-4TGN_n-1C，从左到右，第1、2、4、5、7、8、...(n-2)、n位置是文库标签，第3、6、9、12、15、18、...(n-4)、(n-1)位置是所述分子标签。

在1个确定的文库标签的情况下，所述分子标签的组合数是4(n-1)/3。当n＝19时，文库标签的长度为13bp，文库内分子间的分子标签序列的长度为6bp，分子标签序列组合数46＝4069。

8、当组合标签为TN₂GCN₅ACN₈……TGN_n-2CT，从左到右，从左到右，第1、3、4、6、7、...(n-4)、(n-3)、(n-1)、n位置是文库标签，第2、5、8、12、15、18、...(n-2)位置是所述分子标签。

在1个确定的文库标签的情况下，所述分子标签的组合数是4(n-1)/3。当n＝13时，文库标签的长度为9bp，文库内分子间的分子标签序列的长度为4bp，分子标签序列组合数44＝256。

进一步的，所述文库标签的每1个碱基与所述分子标签的每1-2个碱基交叉排列，并且所述组合标签最多有3个连续相同的碱基。参考以下具体示例：

9、当组合标签为AN₂N₃TN₅N₆……CN_n-4N_n-3GN_n-1N_n，从左到右，第1、4、7、...n-5、n-2位置是所述文库标签，第2、3、5、6、...n-4、n-3、n-1、n位置是所述分子标签。

所述分子标签的碱基可以为四种碱基中的任一种。

在1个确定的文库标签的情况下，所述分子标签的组合数是42n/3。当n＝24时，所述文库标签的长度为8bp，所述分子标签的长度为16bp，分子标签序列组合数416＝4294967296。

10、当组合标签为AN₂N₃TN₅N₆……CN_n-5N_n-4GN_n-2N_n-1T，从左到右，第1、4、7、...n-6、n-3、n位置是所述文库标签，第2、3、5、6、...n-5、n-4、n-2、n-1位置是所述分子标签。

所述分子标签的碱基可以为四种碱基中的任一种。

在1个确定的文库标签的情况下，所述分子标签的组合数是42(n-1)/3。当n＝25时，所述文库标签的长度为8bp，所述分子标签的长度为16bp，分子标签序列组合数416＝4294967296。

11、当组合标签为N₁N₂TN₄N₅A……CN_n-5N_n-4GN_n-2N_n-1T，从左到右，第3、6、9、...n-6、n-3、n位置是所述文库标签，第1、2、4、5、7、...n-5、n-4、n-2、n-1位置是所述分子标签。

所述分子标签的碱基可以为四种碱基中的任一种。

12、当组合标签为N₁N₂TN₄N₅A……CN_n-4N_n-3GN_n-1N_n，从左到右，第3、6、9、...n-5、n-2位置是所述文库标签，第1、2、4、5、7、...n-4、n-3、n-1、n位置是所述分子标签。

所述分子标签的碱基可以为四种碱基中的任一种，例如N₁N₂TN₄N₅A…………中，N可以是A、T、C、G中任一个。

在1个确定的文库标签的情况下，所述分子标签的组合数是42(n+1)/3。当n＝26时，所述文库标签的长度为8bp，所述分子标签的长度为18bp，分子标签序列组合数418＝68719476736。

13、当组合标签为AN₂TN₄N₅GN₇CN₉N₁₀……GN_n-3CN_n-1N_n，从左到右，第1、3、6、8、...n-4、n-2位置是所述文库标签，第2、4、5、7、9、...n-3、n-1、n位置是所述分子标签。

所述分子标签的碱基可以为四种碱基中的任一种。

在1个确定的文库标签的情况下，所述分子标签的组合数是44n/7。当n＝21时，所述文库标签的长度为9bp，所述分子标签的长度为12bp，分子标签序列组合数412＝16777216。

14、当组合标签为AN₂N₃TN₅GN₇N₈CN₁₀……GN_n-3N_n-2CN_n，从左到右，第1、4、6、9、...n-4、n-1位置是所述文库标签，第2、3、5、7、8、...n-3、n-2、n位置是所述分子标签。

所述分子标签的碱基可以为四种碱基中的任一种。

15、当组合标签为AN₂N₃TN₅GN₇N₈CN₁₀……GN_n-4N_n-3CN_n-1T，从左到右，第1、4、6、9、...n-5、n-2、n位置是所述文库标签，第2、3、5、7、8、...n-4、n-3、n-1位置是所述分子标签。

所述分子标签的碱基可以为四种碱基中的任一种。

在1个确定的文库标签的情况下，所述分子标签的组合数是44(n-1)/7。当n＝22时，所述文库标签的长度为10bp，所述分子标签的长度为12bp，分子标签序列组合数412＝16777216。

进一步的，所述文库标签的每1-2个碱基与所述分子标签的每1-2个碱基交叉排列，并且所述组合标签最多有3个连续相同的碱基。参考以下具体示例：

16、当组合标签为AN₂N₃TGN₆CN₈N₉ATN₁₂……GN_n-4N_n-3CAN_n，从左到右，第1、4、5、7、10、11、...n-5、n-2、n-1位置是所述文库标签，第2、3、6、8、9、12、...n-4、n-3、n位置是所述分子标签。

所述分子标签的碱基可以为四种碱基中的任一种。

在1个确定的文库标签的情况下，所述分子标签的组合数是4n/2。当n＝16时，所述文库标签的长度为8bp，所述分子标签的长度为8bp，分子标签序列组合数48＝65536。

17、当组合标签为ATN₃N₄GN₆CTN₉N₁₀AN₁₂……GCN_n-3N_n-2AN_n，从左到右，第1、2、5、7、8、11、...n-5、n-4、n-1位置是所述文库标签，第3、4、6、9、10、12、...n-3、n-2、n位置是所述分子标签。

所述分子标签的碱基可以为四种碱基中的任一种。

三、所述文库标签的每1-2个碱基与所述分子标签的每2-3个碱基交叉排列，并且所述组合标签最多有4个连续相同的碱基。参考以下具体示例：

18、当组合标签为AN₂N₃N₄TGN₇N₈CN₁₀N₁₁N₁₂AT……AN_n-6N_n-5N_n-4TGN_n-1N_n，从左到右，第1、5、6、9、13、14、...n-7、n-3、n-2位置是所述文库标签，第2、3、4、7、8、10、11、12、...n-6、n-5、n-4、n-1、n位置是所述分子标签。

所述分子标签的碱基可以为四种碱基中的任一种。

在1个确定的文库标签的情况下，所述分子标签的组合数是45n/8。当n＝24时，所述文库标签的长度为9bp，所述分子标签的长度为15bp，分子标签序列组合数415＝1073741824。

19、当组合标签为ATN₃N₄N₅GCN₈N₉N₁₀ATN₁₃N₁₄N₁₅……GCN_n-7N_n-6N_n-5ATN_n-2N_n-1N_n，从左到右，第1、2、6、7、11、12、...n-9、n-8、n-4、n-3位置是所述文库标签，第3、4、5、8、9、10、13、14、15、...n-7、n-6、n-5、n-2、n-1、n位置是所述分子标签。

所述分子标签的碱基可以为四种碱基中的任一种。

在1个确定的文库标签的情况下，所述分子标签的组合数是43n/5。当n＝20时，所述文库标签的长度为8bp，所述分子标签的长度为12bp，分子标签序列组合数412＝16777216。

四、所述文库标签的每1-2个碱基与所述分子标签的每1-3个碱基交叉排列，并且所述组合标签最多有4个连续相同的碱基。参考以下具体示例：

20、当组合标签为 AN₂N₃N₄TGN₇N₈CN₁₀……AN_n-8N_n-7N_n-6TGN_n-3N_n-2CN_n，从左到右，第1、5、6、9、...n-9、n-5、n-4、n-1位置是所述文库标签，第2、3、4、7、8、10、...n-8、n-7、n-6、n-3、n-2、n位置是所述分子标签。

所述分子标签的碱基可以为四种碱基中的任一种。

在1个确定的文库标签的情况下，所述分子标签的组合数是46n/10。当n＝20时，所述文库标签的长度为8bp，所述分子标签的长度为12bp，分子标签序列组合数412＝16777216。

21、当组合标签为ATN₃N₄N₅GN₇ATN₁₀N₁₁N₁₂GN₁₄……ATN_n-4N_n-3N_n-2GN_n,从左到右，第1、2、6、8、9、13、......n-6、n-5、n-1是所述文库标签，第3、4、5、7、10、11、12、14、...n-7、n-6、n-5、n-2、n-1、n位置是所述分子标签。

所述分子标签的碱基可以为四种碱基中的任一种。

本发明解决了现有技术中为了避免分子标签中出现多个连续一样的碱基，而在分子标签内部加入U碱基来隔开分子标签(NNNUUUNNNUUUNNN)的问题。首次将文库标签和随机分子标签结合在一起，能在保证不加入无效长度的前提下，通过增加有效分子标签长度，能保证有足够长度的文库标签和分子标签，满足具体方案的需求。

根据本发明的具体实施例，所述分子标签的长度为6-18bp，所述文库标签的长度为8-12bp。

本发明还提供一种接头，所述接头含有如上所述的组合标签，且所述组合标签位于所述接头除突出端“T”和非突出端末端20bp碱基以外的任意位置。

根据本发明的具体实施例，所述接头还含有识别性特征序列，所述识别性特征序列为4个不重复的碱基，所述识别性特征序列与所组合标签的3’端或5’端相连。

本发明还提供一种确定待测样本目标区域含有低频突变核酸序列的方法，如图1所述包括如下步骤：

下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解，下面示例仅用于解释本发明，而不能理解为对本发明的限制。除另有交待，以下实施例中涉及的未特别交待的试剂、序列(接头、标签和引物)、软件及仪器，都是常规市售产品或者开源的。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

实施例1确定待测样本目标区域含有低频突变核酸序列的方法

1、设计组合标签及含有该组合标签的接头。

按照文库标签和分子标签以单个碱基交叉排列方式设计组合标签，所述组合标签上最多含有2个连续相同的碱基。按照实验需要，设计一组组合标签16种。如表1所示，16种组合标签：

表1

SEQ ID NO:	分子标签	SEQ ID NO:	分子标签
1	ATGTCATAGCTGCTGC	9	ACGTCATCGCTACTGC
2	AGGACGTTGCTACAGC	10	AGGACGTAGCTACTGC
3	ATGACGTCGTTGCAGC	11	ACGACATCGTTGCAGC

4	AGGTCGTTGGTGCAGC	12	ACGTCGTAGGTGCAGC
5	ACGACGTTGCTACTGC	13	ATGACCTAGCTACTGC
6	ACGTCTTCGATGCTGC	14	ACGACGTAGCTACTGC
7	AGGTCGTCGATGCAGC	15	ATGACGTCGATGCTGC
8	ATGACGTCGATGCAGC	16	ATGTCGTAGCTGCAGC

其中，有下划线的碱基是分子标签序列，无下划线的碱基是文库标签序列。

将上述设计的组合标签设计成一组接头，其中组合标签可位于接头除突出端“T”和非突出端末端20bp碱基以外的任意位置。如图2、图3、图4、图5所示，NNN...NNN代表组合标签，接头的种类可以是，完全互补的双链结构、一端互补一端开放的Y型结构，或者可通过PCR将组合标签引入接头的Y型结构。组合标签可以仅位于接头的任意一端或中间，也可以分布于2个或者2个以上的位置，N的个数代表组合标签的碱基数目，需要的组合标签种类多就增加该位置的碱基个数，比如采用8bp、12bp、16bp、24bp或者更多的碱基个数。

如表2所示，16种含有不同组合标签的接头：

表2

当接头如图1和图2及其类似的结构，需要同时设计含有组合标签反向互补的结构，如需要同时设计表2中的F向序列和R向序列，图3、图4及其类似的结构则只需要设计单链组合标签，如表2中的F向序列而不需要设计组合标签反向互补序列。

根据实验的需要，还可以在组合标签的3’或5’端添加识别性特征序列和/或文库标签。例如，使用Ion Torrent平台测序时，可以将识别不同样本的Barcode序列加入其中。

2、合成含有组合标签的接头

根据所设计的接头序列，将设计出来的组合标签或及其对应的反向互补序列及其3'端、5'端的序列进行合成，得到含有组合标签的接头。本领域人员可以理解的，合成方法可采用本领域熟知的方法，也可委托给引物合成公司合成。

3、将得到的接头稀释成工作液，待用。

4、提取样本DNA

抽取病人外周EDTA抗凝血10ml，并新鲜离心分离血浆，按照本领域技术人员熟知的方法提取血浆DNA。

5、DNA末端修复

将提取得到的DNA溶液和末端修复的试剂混合液混合，按照本领域技术人员熟知的末端修复的方法进行反应，反应结束后进行分离纯化。

5.1按如下反应体系在1.5mlEP管中配制：

试剂	体
DNA	50
10×PNK缓冲液	5
dNTP溶液(10mM)	2
T4DNA聚合酶	1
T4PNK	1
KLENOW片段(稀	1
总体积/ul	50

室温混匀，轻微离心后，反应体系置于PCR仪中，20℃反应30分钟，反应结束后，使用AMpure XP磁珠纯化。

5.2在50ul体系反应产物中加入90ul磁珠，进行AMpure XP磁珠纯化后，反复用500ul 75％乙醇洗涤两次，弃上清液。37℃烘干，至磁珠干燥。加入23ul水，混匀磁珠，待澄清，吸取22ul上清液。

6、加接头反应

将末端修复后的DNA溶液和前述第3步中得到的含有组合标签的接头的工作液、连接反应试剂混合液混合，按照本领域技术人员熟知的加接头的方法进行反应，反应结束后进行分离纯化。

6.1将5中得到的溶液按照以下体系配制反应液：

试剂

体积ul

DNA	22
10×快速连接酶缓冲液	5
ATP(10mM)	3.5
T4DNA连接酶	3
接头A(12.5pmol/ul稀释4倍)	1
接头P1(12.5pmol/ul稀释4倍)	1
H₂O	14.5
总体积/ul	50

6.2采用如5.2所示的方法进行磁珠纯化，其区别在于50ul体系反应产物中加入75ul磁珠，反复用500ul 75％乙醇洗涤两次，弃上清液。37℃烘干，至磁珠干燥。加入36ul水，混匀磁珠，待澄清，吸取34.5ul上清液。

7、PCR富集，构建测序文库

将加接头后的DNA和PCR反应试剂混合液混均，按照本领域技术人员熟知的方法进行PCR反应，反应结束后进行分离纯化，到此文库构建结束，对文库进行QC检测，检测合格后等待测序。

7.1在1个新的PCR管中按照以下体系配制反应液：

试剂	体积/ul
DNA	34.5
10×Pfx扩增缓冲液	5
dNTP溶液(10mM)	5
MgSO4(50mM)	2
PCR引物PE1(10pmol/ul)	4

PCR引物PE2(10pmol/ul)	4
Pfx DNA聚合酶	1
总体积/ul	50

室温混匀，轻微离心后，反应体系置于PCR仪中，按照以下条件进行反应：

反应结束后，使用AMpure XP磁珠纯化。

7.2采用如5.2所示的方法进行磁珠纯化，其区别在于50ul体系反应产物中加入50ul磁珠。文库构建结束。

8、文库质检

对文库进行QPCR和Agilent 2100检测，质检合格文库安排上机。

9、对文库进行DNA测序

可使用Ion Torrent Proton、Ion Torrent PGM等二代测序仪对文库进行测序。

10、分析测序结果

将测序后得到的DNA的测序结果进行分析，按照组合标签将得到的DNA序列进行分类，将携带有相同的组合标签的序列作为1个“分子簇”，这个分子簇是初始1个DNA分子通过PCR形成的1类DNA，即原始DNA分子的正链和负链的“复制链”。

统计“分子簇”内部每个碱基位置的碱基种类及其出现的频数。

根据数据分析，找出由于PCR和测序带入的错误并纠正。

从而得到原始DNA的正确序列，并通过分子簇内部和平行比较，找出真正的突变序列。

实施例2

本实施例确定待测样本目标区域含有低频突变核酸序列的方法与实施例1基本相同，其不同之处在于，步骤1中按照文库标签2个碱基与分子标签1个碱基交叉排列。

如下表3所示：

接头P1序列5’-3’:

SEQ ID NO 46:CCTCTCTATGGGCAGTCGGTGAT。

实施例3

本实施例确定待测样本目标区域含有低频突变核酸序列的方法与实施例1基本相同，其不同之处在于，步骤1中按照文库标签1-2个碱基与分子标签1-2个碱基交叉排列。

如下表4所示：

接头P1序列5’-3’:

SEQ ID NO 59:CCTCTCTATGGGCAGTCGGTGAT。

实施例4

本实施例确定待测样本目标区域含有低频突变核酸序列的方法与实施例1基本相同，其不同之处在于，步骤1中按照文库标签1-2个碱基与分子标签2-3个碱基交叉排列。

如下表5所示：

接头P1序列5’-3’:

SEQ ID NO 72:CCTCTCTATGGGCAGTCGGTGAT。

以上实施方式仅用以说明本发明的技术方案而非限制，尽管参照以上较佳实施方式对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换都不应脱离本发明技术方案的精神和范围。

Claims

一种组合标签，其特征在于，包括分子标签和文库标签，所述分子标签的碱基与所述文库标签的碱基交叉排列。
根据权利要求1所述的组合标签，其特征在于，所述文库标签的每1-2个碱基与所述分子标签的每个1-3碱基交叉排列。
根据权利要求2所述的组合标签，其特征在于，所述文库标签的每1个碱基与所述分子标签的每1个碱基交叉排列，并且所述组合标签最多有2个连续相同的碱基。
根据权利要求2所述的组合标签，其特征在于，所述文库标签的每1-2个碱基与所述分子标签的每1-2个碱基交叉排列，并且所述组合标签最多有3个连续相同的碱基。
根据权利要求2所述的组合标签，其特征在于，所述文库标签的每1-2个碱基与所述分子标签的每2-3个碱基交叉排列，并且所述组合标签最多有4个连续相同的碱基。
根据权利要求2所述的组合标签，其特征在于，所述文库标签的每1-2个碱基与所述分子标签的每1-3个碱基交叉排列，并且所述组合标签最多有4个连续相同的碱基。
根据权利要求1所述的组合标签，其特征在于，所述分子标签的长度为6-18bp，所述文库标签的长度为8-12bp。
一种接头，其特征在于，所述接头含有如权利要求1-6任一项所述的组合标签，且所述组合标签位于所述接头除突出端“T”和非突出端末端20bp碱基以外的任意位置。
如权利要求8所述的接头，其特征在于，所述接头还含有识别性特征序列，所述识别性特征序列为4个不重复的碱基，所述识别性特征序列与所组合标签的3’端或5’端相连。
一种确定待测样本目标区域含有低频突变核酸序列的方法，包括如下步骤：

S1、利用如权利要求8所述的接头，对待测样本目标区域核酸进行加接头反应，对加接头后的待测样本目标区域核酸进行PCR扩增，获得扩增产物，所述扩增产物构成所述待测样本的目标区域核酸测序文库；

S2、对所述待测样本的目标区域核酸测序文库进行测序，获得测序后核酸序列；

S3、将所述测序后核酸序列按照所述接头中含有的分子标签进行分类，将携带有相同分子标签的所述测序后的核酸序列归类为同一核酸序列集；

S4、将所述核酸序列集内的测序后核酸序列进行相互比较，统计所述核酸序列集中每个碱基位置的碱基种类及其频率；

S5、根据所述核酸序列集中每个碱基位置的碱基种类及其频率，通过数据分析，得到所述核酸序列集中含有正确的碱基排列位置的核酸序列；

S6、将所述含有正确的碱基排列位置的核酸序列与所述核酸序列集中的其余的核酸序列或平行的核酸序列集中的核酸序列进行比较，得到含有低频突变的核酸序列。