WO2018041062A1

WO2018041062A1 - 一种用于检测基因突变的多定位双标签接头组及其制备方法和应用

Info

Publication number: WO2018041062A1
Application number: PCT/CN2017/099255
Authority: WO
Inventors: 金保雷; 李旭超; 林清华; 施伟杰; 葛会娟; 阮力
Original assignee: 厦门艾德生物医药科技股份有限公司
Priority date: 2016-08-29
Filing date: 2017-08-28
Publication date: 2018-03-08
Also published as: US11286524B2; CN106367485B; EP3505640A1; JP2019523638A; JP6830496B2; CN106367485A; US20200010892A1; EP3505640A4

Abstract

一种用于检测基因突变的多定位双标签接头组及其制备方法和应用，该多定位双标签接头组包括双标签接头A、双标签接头B和双标签接头C，双标签接头A、双标签接头B和双标签接头C分别由接头引物P5分别与5'端均修饰有生物素的接头引物P7-A、接头引物P7-B和接头引物P7-C合成而得到。利用该多定位双标签接头组，可以准确检测1×10 ^-5基因突变率，有效提高基因突变检测的灵敏度，结合高通量测序的通量，一次测序可以检测多个基因的多个突变位点。

Description

一种用于检测基因突变的多定位双标签接头组及其制备方法和应用

技术领域

本发明涉及核酸测序技术领域，具体涉及一种用于检测基因突变的多定位双标签接头组及其制备方法和应用。

背景技术

目前的二代测序由于样品制备(文库制备)和仪器系统本身的原因(DNA本身的氧化损伤或脱氨基损伤等、建库过程中PCR酶复制时本身引入的突变、测序时仪器读取碱基时引入的错误等)，测序得到的每个碱基出现错误的概率在1/1000-1/100之间，即每1000个碱基就会出现1到10个错误碱基。

在germline mutation(生殖系细胞突变)检测中由于产生突变位点在样本中占的比率只有0％，50％和100％3种情况，因此系统性的碱基读取错误可以通过数据分析中同一区域的overlap reads来校正，从而达到很高的测序准确度；

而对于肿瘤细胞突变等体细胞突变(somatic mutation)等突变位点细胞之间具有很大的异质性(每个细胞的突变位点都可能不同)，这类突变在样本中占的比例很低(低于1％)，这类突变无法使用传统的生物信息学方法区分(系统碱基错误率作为噪音和肿瘤突变位点的信号之间信噪比过低)，因此肿瘤位点突变用常规的测序方法无法准确检测。

后来发展出来的分子标签(UMI unique molecule identifier)可以有效地解决这一问题。通过在样本原始的DNA分子上引入随机序列标签，给每一个分子都做上独特的标记，然后每个分子在建库过程中得到扩增并最后测序，通过生物信息学分析，可以去除掉大部分建库和测序过程中产生的突变(错误)，使测序的碱基错误率降低到1×10^-5，假设肿瘤突变检测需要10倍的信噪比，此种方法可以准确检测1×10^-4的突变率。

如何提高肿瘤突变率检测的灵敏度，是一个迫切需要解决的问题。

发明内容

本发明的目的在于提供一种用于检测基因突变的多定位双标签接头组。

本发明的另一目的在于提供上述多定位双标签接头组的制备方法。

本发明的再一目的在于提供上述多定位双标签接头组的具体应用。

一种用于检测基因突变的多定位双标签接头组，包括双标签接头A、双标签接头B 和双标签接头C，双标签接头A、双标签接头B和双标签接头C分别由接头引物P5分别与5’端均修饰有生物素的接头引物P7-A、接头引物P7-B和接头引物P7-C合成而得到，其中：

接头引物P5为SEQ ID NO：01通过I5index序列连接SEQ ID NO：02所示序列所得，

接头引物P7-A为FFFFFEEEEEJJJJJNNNNNNNNNNNN依次连接在SEQ ID NO：03的5’端，SEQ ID NO：03再通过I7index序列连接SEQ ID NO：04所示序列所得；

接头引物P7-B为FFFFFEEEEEKKKKKNNNNNNNNNNNN依次连接在SEQ ID NO：03的5’端，SEQ ID NO：03再通过I7index序列连接SEQ ID NO：04所示序列所得；

接头引物P7-C为FFFFFEEEEELLLLLNNNNNNNNNNNN依次连接在SEQ ID NO：03的5’端，SEQ ID NO：03再通过I7index序列连接SEQ ID NO：04所示序列所得；

所述FFFFF为酶切位点保护碱基，EEEEE为酶切位点，JJJJJ、KKKKK和LLLLL为定位标签序列且JJJJJ、KKKKK和LLLLL各不相同，NNNNNNNNNNNN为随机分子标签序列；FFFFF、JJJJJ、KKKKK、LLLLL和EEEEE包括但不限于5个相同碱基，I7index序列为6～8个碱基；NNNNNNNNNNNN为4到12个随机碱基，且没有四个连续相同的碱基。

在本发明的一个优选实施方案中，所述NNNNNNNNNNNN表示为BDHVBDHV，其中B表示该位置是除A外的碱基，D位置表示该位置是除C外的碱基，H表示该位置是除G外的碱基，V表示该位置是除T外的碱基。

在本发明的一个优选实施方案中，所述I5index序列选自SEQ ID NO：05～12；所述I7index序列选自SEQ ID NO：13～23；所述JJJJJ、KKKKK和LLLLL的序列可以和所述EEEEE的序列部分重叠或完全重叠，当部分或完全重叠的时候，重叠部分的碱基只出现一次。

一种上述用于检测基因突变的多定位双标签接头组的制备方法，包括如下步骤：

(1)退火：将接头引物P5、接头引物P7-A、接头引物P7-B、接头引物P7-C及缓冲液和适量去离子水混合后，进行退火处理得到退火接头A、退火接头B和退火接头C；

(2)延伸退火接头：对所得退火接头A、退火接头B和退火接头C进行聚合酶延伸得到延伸接头A、延伸接头B和延伸接头C；

(3)第一次沉淀：对所得延伸接头A、延伸接头B和延伸接头C分别进行乙醇或异丙醇沉淀纯化得到纯化后的延伸接头A、延伸接头B和延伸接头C；

(4)酶切：对纯化后的延伸接头A、延伸接头B和延伸接头C分别加入能够产生3’T突出末端的限制性内切酶进行酶切得到酶切接头A、酶切接头B和酶切接头C；

(5)第二次沉淀：将所得酶切接头A、酶切接头B和酶切接头C进行乙醇或异丙醇沉淀纯化后即得到双标签接头A、双标签接头B和双标签接头C；

(6)生物素纯化：将步骤(5)所得的双标签接头A、双标签接头B和双标签接头C进行生物素亲和纯化；

(7)第三次沉淀：将步骤(6)所得的产物进行乙醇或异丙醇沉淀纯化后即得到所述多定位双标签接头组。

上述多定位双标签接头组的具体应用如下：

一种文库构建方法，包括：将10ng-1ug的待检测DNA打断成200-500bp的DNA片段后，DNA片段加入末端修复酶进行末端修复，加A尾，加入上述多定位双标签接头组进行连接，连接完成后使用Ampure磁珠或切胶进行340-660bp的片段选择。

一种测序方法，包括如下步骤：

(1)用上述文库构建方法构建文库；

(2)对所述测序文库进行测序。

一种确定核酸序列的方法，包括如下步骤：

(1)用上述文库构建方法构建文库；

(2)对所述测序文库进行测序；

(3)根据测序结果进行结果判定；

所述结果判定的方法包括如下步骤：

a、根据设置的参数选取比对后的碱基Q值大于30的测序唯一匹配序列；

b、根据随机标签序列进行Duplication判定，从而进行碱基的重新校正；

c、使用SNP calling软件进行SNP位点检测，统计SNP位点信息，最终得到的SNP位点及对应的MAF信息；

d、对检测到的SNP位点及MAF信息和对照组的突变位点以及群体基因组变异信息库进行比较，过滤掉相同的突变位点，最终留下的突变位点信息即为最终检测到的突变位点信息。

表1和表2中列举了一部分I5index序列，I7index序列和EEEEE序列；但不限于此。

表1 部分I5index序列和I7index序列表

I5 index序列代号	I5 index序列	I7 index序列代号	I7 index序列
I501(SEQ ID NO：05)	TATAGCCT	I701(SEQ ID NO：12)	ATTACTCG
I502(SEQ ID NO：06)	ATAGAGGC	I702(SEQ ID NO：13)	TCCGGAGA
I503(SEQ ID NO：07)	CCTATCCT	I703(SEQ ID NO：14)	CGCTCATT
I504(SEQ ID NO：08)	GGCTCTGA	I704(SEQ ID NO：15)	GAGATTCC
I505(SEQ ID NO：09)	AGGCGAAG	I705(SEQ ID NO：16)	ATTCAGAA
I506(SEQ ID NO：10)	TAATCTTA	I706(SEQ ID NO：17)	GAATTCGT
I507(SEQ ID NO：11)	CAGGACGT	I707(SEQ ID NO：18)	CTGAAGCT
I508(SEQ ID NO：12)	GTACTGAC	I708(SEQ ID NO：19)	TAATGCGC
		I709(SEQ ID NO：20)	CGGCTATG
		I710(SEQ ID NO：21)	TCCGCGAA
		I711(SEQ ID NO：22)	TCTCGCGC
		I712(SEQ ID NO：23)	AGCGATAG

表2 可用的限制性内切酶及酶切位点表(部分)

本发明使用的双标签文库测序，通过在DNA双链上同时引入两个不同的UMI，利用DNA的双链特性，使用两条链相互校正测序得到的信息，可以使测序的碱基错误率降低到2.4×10^-6，因此可以准确检测1×10^-5的基因突变率，有效提高基因突变检测的灵敏度，结合高通量测序的通量，一次测序可以检测多个基因的多个突变位点。

1.测序结果先会进行格式转换，通过接头尾部的定位碱基对测序序列的测序质量进行评估，如果无法找到定位碱基，则一对测序序列全部丢弃。同时，将一对测序序列前端的随机碱基序列切除并合并到序列ID当中去。

2.过滤后的序列会和参考基因组进行比对(Hg19，GRCh37等)，根据设置的参数过滤掉不合格的测序序列(reads)(mapping quality过低，多位点匹配，Read1和Read2序列不匹配等)，最后得到可以用于分析的高质量唯一匹配序列(unique mapping reads)。

3.通过使用第1步中添加到ID位置的随机标签序列进行Duplication判定，比对到同一位置且具有相同标签的序列被认为来源一同一个起始DNA模板，将会被归为一簇进行碱基的重新校正。

4.使用SNP calling软件进行SNP位点检测，统计SNP位点信息，最终得到的SNP位点及相关的MAF信息。

对检测到的基因突变信息和对照组(同一病人来源的健康组织DNA)的突变位点以及群体基因组变异信息库进行比较，过滤掉相同的突变位点，最终留下的突变位点信息即为最终检测到的基因突变位点信息。

本发明的有益效果：

1、使用双Index接头，增加了一次上机测序的样本数量(降低测序成本)，同时，双端Index可以更有效地区分不同样本，这一点在基因的低频突变检测中非常重要，因为一般情况下检测的基因突变位点的突变率是千分之一到百分之一左右，如果具有不同突变位点的不同样本出现了交叉污染，那么在最终突变位点判定时就容易出问题。

2、使用的接头为长接头，即接头上带有测序时和测序仪上flowcell结合的相关序列(P5、P7)，PCR连接之后不需要再进行PCR扩增引入P5、P7序列，可以完成PCR-free建库，避免了文库构建过程中PCR引入的碱基错误(突变)和扩增的片段偏好性，以及PCR产生的非天然的嵌合体序列。

本发明的接头的结构如图1所示，左侧的Y型结构(不包括分子标签和定位标签)和Illumina测序平台的标准接头相同；其中，Y型接头平行部分碱基互补配对，开叉部分碱基无配对序列；其中P5和P7(P7-A、P7-B和P7-C)反向互补需要用于和Illumina测序仪的测序芯片上的探针进行杂交，后续进行桥式扩增放大信号；I5index序列和I7index序列作为构建的不同测序文库的标签，用来区分不同样本构建的文库，；Read1测序序列和Read2测序序列用来和测序引物进行结合进行边合成边测序；分子标签即为NNNNNNNNNNNN随机标签序列，用来给高通量测序的DNA文库模板加上不同的标记；因为分子标签序列随机，因此需要在后面加入固定序列的定位碱基用来在数据分析时判断分子标签的位置及序列。

本发明利用双标签接头上的随机标签序列，在高通量测序文库构建过程中的加接头步骤中，给每一个DNA模板加上不同的序列标签，然后在后续的PCR富集过程中每一个原始模板连同其标签序列被多次复制，产生多个拷贝(duplications)；对这些拷贝进行高通量测序，通过序列标签识别测序片段来源(用来区分建库过程中产生的重复序列——duplication，以便数据分析时对测序结果进行校正)，再利用模板的拷贝进行序列校正(扩增错误以及测序仪碱基识别错误)，第一次校正后再利用DNA的两条链反向互补的结构，通过标签序列的两两反向互补配对，再次对序列进行校正(DNA建库前及建库过程中产生的脱氨基、氧化等损伤)。

3、双标签接头的定位标签用于确定分子标签序列的位置，对分子标签的识别至关重要，其序列通常使用固定的序列，如ACT、GACT、TGACT等。Illumina测序平台(包括Nextseq500，CN500，Miseq，Nextseq)在测序的起始阶段会根据前25个循环的碱基测序情况来计算模板簇的PF值(最终保留的高质量的模板簇占总模板簇的比例)，由于测序芯片的簇密度有限，PF值决定了测序中有效数据的产量。

双标签接头的定位标签位于测序起始的约9-15个循环内，若使用单一的序列，测序时该位置由于碱基多样性过低(4种碱基的比例)，会导致PF值严重下降，最终影响数据产量。

本发明在退火步骤中，接头引物P7-A、接头引物P7-B和接头引物P7-C分别使用3种不同序列的定位标签序列JJJJJ、KKKKK和LLLLL，保证定位碱基从3’到5’方向的每位碱基均不相同，增加了接头定位标签的碱基多样性，有效地提高了测序的PF值，从而显著提高了测序有效数据的产量。

4、在接头的制作过程中，由于酶促反应很难反应彻底，因此在酶切过程中会有部分延伸产物未被酶切掉，最终残留一部分带有酶切位点保护碱基(约8bp)的平末端接头，平末端接头P5序列的3’末端和P7序列的5’末端端各有一个OH基团。在接头的连接过程中(图2)，这部分平末端接头会通过P5序列的3’端OH基和DNA双链模板的5’端磷酸基团连接(另一条链因为都是OH基无法连接)。(1)如果双链DNA模板的两端都加上平末端接头，则由于模板两端的接头连接处各有一个缺口而无法进行后续的PCR扩增，导致部分DNA模板的损失；(2)如果DNA模板一端连上平末端接头，而另一端连上正常接头，则平末端接头P5序列-DNA模板单链-正常接头P7端序列模板会作为有效PCR模板而扩增，DNA模板的另外一条链因为两侧接头连接处有缺口而无法扩增，因而丢失。(1)和(2)都会造成样本DNA模板的损失，另外(2)的情况下，DNA双链中一条链的丢失会导致双链随机标签校正时模板DNA找不到互补链，从而影响双链校正的性能；平末端接头P5链3’端保护碱基的残留会污染模板序列，造成测序结果Read1序列部分数据的浪费和测序信息的丢失。

本发明在P7接头引物的5’端引入生物素修饰，P5、P7接头引物经退火和延伸后均在P7链的5’端带有生物素标记；经酶切后正常的接头生物素标记丢失，而未被酶切的平末端接头(即接头延伸产物残留)仍然带有生物素标记，酶切接头经亲和素磁珠纯化，即可去除残留的平末端接头，进而有效去除了酶切不彻底导致的接头保护碱基序列残留，其示意图如图1所示。

附图说明

图1是本发明实施例1制备的单定位双标签接头的结构示意图；

图2是本发明中平末端接头(延伸接头残留)对测序文库的影响示意图；

图3为本发明中通过PCR引入Index的双标签接头示意图；

图4为本发明实施例2中的单定位双标签接头文库构建流程图；

图5为本发明实施例3中单定位双标签接头鉴别细胞突变的流程示意图。

图6为本发明实施例4中多定位双标签接头组制备过程示意图。

具体实施方式

以下通过具体实施方式结合附图对本发明的技术方案进行进一步的说明和描述。

实施例1：单定位双标签接头的制备

将接头引物P5，接头引物P7两个引物(接头引物P5为SEQ ID NO：1通过I5index序列连接SEQ ID NO：2所得序列所示；接头引物P7为SEQ ID NO：3通过I7index序列连接SEQ ID NO：4所得序列所示；其中FFFFFEEEEEDDDDDNNNNNNNNNNNN依次连接在SEQ ID NO：3的5’端；合成厂家：生工生物工程(上海)股份有限公司)用ddH₂O(或TE缓冲液)稀释至100μM；

其中FFFFF为酶切位点保护碱基，EEEEE为酶切位点，DDDDD为定位标签序列，NNNNNNNNNNNN为随机分子标签序列，所述I5index序列选自SEQ ID NO:5-12；所述I7index序列选自SEQ ID NO:12-23。

同时FFFFF/DDDDD/EEEEE/包括但不限于5个相同碱基；NNNNNNNNNNNN为4到12个随机碱基，且没有四个连续相同的碱基。

单定位双标签接头的制备方法的步骤如下(如图3所示)：

(1)退火：在0.2mL EP管中配制以下体系：接头引物P5：10μL，接头引物P7：10μL，NEB buffer2:3μL，ddH2O：7μL；共30μL。将此体系在PCR仪上进行退火反应：95℃，5min；95℃-24℃0.2-0.5℃/s梯度降温；24℃维持；

(2)扩增退火片段：在原PCR管中加入：10×NEB buffer：2μL，10mM dNTP mix：5μL，ddH2O：8μL，Klenow exo-(5U/μL)：5μL，共50μL，混匀后，37℃放置1h。

(3)第一次沉淀：向步骤(2)所得产物中加入1/10体积的NaAC(3M)和2.5倍体积的无水乙醇，混匀后置于-20℃2h；13000g离心30min；去上清，加入600μL 70％乙醇漂洗沉淀，4℃，13000g离心30min；去上清，室温晾干DNA 5-10min，用30μL ddH2O 重悬DNA。

(4)酶解(以HpyCH4III内切酶为例，酶切位点：ACNGT，相应的接头引物P7序列EEEEE则为ACAGT)：取步骤(3)所得产物30μL，加入10×NEB CutSmart buffer：5μL，ddH2O：10μL，HpyCH4III(5U/μL)：5μL，共50μL，混匀后，37℃酶解16h。

(5)第二次沉淀：向步骤(4)所得产物中加入1/10体积的NaAC(3M)和2.5倍体积的无水乙醇，混匀后置于-20℃2h；4℃，13000g离心30min；去上清，加入600μL 70％乙醇漂洗沉淀，4℃，13000g离心30min；去上清，室温晾干DNA 5-10min，用26μL TE low buffer重悬DNA，即为最终单定位双标签接头(25μM，结构如图2所示)，5μL分装，-80℃冻存备用。

实施例2：单定位双标签接头血浆DNA突变率检测

本实施例中：使用实施例1制备的单定位双标签接头，其保护碱基为TCTTCT；酶切位点序列为

(方框内为定位碱基，酶切位点和定位碱基部分重叠)；分子标签为BDHVBDHV。

I5index序列和I7index序列的组合可以是：I501-I701，I502-I702，I503-I703，I504-I704，I505-I705，I506-I706，I507-I707，I508-I708，I501-I707，I502-I708，I503-I709，I504-I710。(序号所对应的碱基序列见表1)

样本的选取和质控：取5份肺癌病人血浆样本，使用QIAGEN血浆DNA提取试剂盒提取血浆DNA，使用分光光度计测定DNA样品纯度(要求A260/280在1.8-20之间)；然后使用Qubit2.0测定DNA浓度(总量在5-15ng之间)，使用D1000 chip(安捷伦)检测DNA样本片段分布(160-200bp左右)，使用数字PCR(Bio-rad)测定肿瘤样本EGFR基因T790M位点突变率(1.9％，0.8％，0.18％，0.12％和1.44％)。

文库构建：使用KAPA DNA建库试剂盒建库，所有DNA样本全部用来建库。

KAPA HTP Library Preparation Kit

platforms，以下试验所用的末端修复酶，末端修复buffer等均来自于该试剂盒。

DNA样本末端修复(加入7μL 10×末端修复buffer，5μL末端修复酶，20℃，30min)，产物纯化后用A-taling酶加A尾(5μL 10×末端修复buffer，3μL末端修复酶30℃，30min)，产物纯化后均分成两份，在加接头步骤中分别使用实施例2制备的单定位双标签接头(按照10:1的摩尔比向加A尾的片段中加入单定位双标签接头)建库(如图4所示)或普通的建库接头(其序列如SEQ ID N：24和25所示)，加入10μL 5×连接buffer+5μL T4 DNA连接酶，20℃，20min连接)，连接产物经两步1×Ampure磁珠纯化，纯化产物使用KAPA高保真酶mix(25μL)及上下游扩增引物(25μM)各1μL进行扩增；

其中加入普通的建库接头，作为对照。实验组为加入实施例2制备的单定位双标签接头；对照与实验组的步骤相同，只是用的接头序列不同。

普通的建库接头样品组使用的上下游扩增引物组合为通用引物(SEQ ID NO:5)和Index引物(SEQ ID NO:6)，实施例2制备的单定位双标签接头样品组使用的上下游引物组合为PCR-P5引物+PCR-P7引物；

普通的建库接头序列信息：

普通的建库接头对应的上下游引物序列：

通用引物：

(-s-表示硫代，以下均同此)SEQ ID NO:26

Index引物：SEQ ID NO：27通过I7index序列连接SEQ ID NO：28所得序列所示，

其中I7Index序列选自SEQ ID NO:12～23。

实施例1制备的单定位双标签接头对应的P5引物和P7引物序列：当使用实施例1制备的单定位双标签接头加完接头后进行PCR，则用以下引物序列：

捕获：按照Roche SeqCap EZ custom kit(250k)进行文库靶向捕获，捕获文库质检合格后(安捷伦2100/2200判断文库片段大小分布，如建库时插入片段(模板)大小为200-350bp，加上两端接头即P5，P7后增加140bp，文库大小分布应该在340bp-490bp；QPCR判断捕获效果——平均富集倍数小于10时说明捕获失败，需要重新捕获)进行测序。

结果：每个样本的测序深度为20000×，测序后得到的样品raw data为8.20G，clean data Q20为94.25％，Q30为0,3％，mapping rate为99.9％，coverage为99.89％；检出结果方面，普通接头样本组可以准确检测出1.9％，1.44％两个样本的突变位点，而所述单定位双标签接头样本组可以检测出1.9％，0.8％，0.18％，0.12％和1.44％所有样本突变位点(根据建库前的样本数字PCR检测到的突变位点及突变率信息，高通量测序的数据通过软件分析(FastQC，samtools，BWA/bowtie2，GATK，Freebayes/picard等)分析这些位点是否有突变及突变率，与数字PCR的结果进行比较，确定检出率)，检出率为100％(跟数字PCR的检测结果比较，假如数字PCR在这5个样本中检测到10个低频突变位点，如果高通量测序可以检测到全部10个位点，那么检出率就是100％，如果检测到5个位点，那么检出率就是50％)。

实施例3：单定位双标签接头细胞系突变率检测

选择NCI-H1650和HCT两个细胞系DNA做为实验材料，NCI-H1650细胞DNA分别按照10％，1％，0.1％的质量比例掺入到HCT细胞DNA中，另外NCI-H1650和HCT细胞100％DNA分别做为两个样本，分别对应记为10％，1％，0.1％，NCI-H1650和HCT组。(NCI-H1650和HCT组只是为了确定用来混比例的细胞系DNA的遗传背景——即等位基因位点信息，如杂合纯合等，通过这两个样本的测序信息，找出一些纯合碱基位点，然后挑出同一位点碱基不同的位点做为其它样本组的分析统计位点)。

DNA样本充分混匀后各取2ug进行DNA文库制备(KAPA DNA建库试剂盒)，其中片段加A尾步骤之后10％，1％，0.1％样本各均分为两份后分为两组，分别在加接头步骤中添加普通接头(如SEQ ID NO:3和SEQ ID NO:4所示序列)和实施例1制备的单定位双标签接头(如图5所示)，然后进行后续的文库制备步骤和捕获步骤，捕获使用Roche SeqCap EZ custom kit(250k)，最后进行上机测序，测序深度为20000×，测序结果以过滤的Q30unique mapping reads进行SNP检出。

其中单定位双标签接头中FFFFF为TCTTCT，EEEEE为ACAGT；DDDDD为AGT；与上述的EEEEE序列重叠。

NNNNNNNNNNNN为BDHVBDHV所示序列，其中B表示该位置是除A外的碱基，D位置表示该位置是除C外的碱基，H表示该位置是除G外的碱基，V表示该位置是除T外的碱基。

结果：首先分析NCI-H1650和HCT两个样本的数据，根据SNP检出信息找到在 Roche捕获芯片250K bp捕获区域中的碱基MAF(次要等位碱基频率)，筛选出MAF为0％的碱基位点(SNP纯合阴性)及100％的碱基位点(SNP纯合阳性)(实际判断标准为规定一个阈值，如0.1％，如果某个位点的MAF值低于0.1％即认为该位点为0％碱基位点，即SNP纯合阴性位点；100％位点依次类推)；筛选出两个细胞系中对应的位点(基因组中同一位置)一个为纯合阳性，另一个为纯合阴性的位点，这些位点做为后续的其它样本组的分析位点分样本统计检出率及假阳性、假阴性等信息。

NCI-H1650和HCT组(100％)总共检测出178个纯合等位SNP位点(即每个位点在一个细胞系中为纯合阴性，在另一个细胞系中为纯合阳性)，然后不同接头的10％，1％，0.1％样本分别分析这178个位点，178个位点在不同比例样本中的突变率(杂合比例)分别为10％，1％和0.1％，结果显示普通接头在10％样本组的阳性检出率为100％，在1％组的检出率为98.86％，在0.1％组的检出率为81.29％；实施例1制备的单定位双标签接头在10％，1％和0.1％组的检出率均为100％；假阳性率：在1％的灵敏度下，普通接头的假阳性率为0.01％，在0.1％灵敏度下，普通接头的假阳性率在5％以上；而实施例1制备的单定位双标签接头的假阳性率在0.1％灵敏度下则为0.001％(灵敏度值超过某个阈值的碱基变异频率的位点即认为是检出的突变位点，例如1％灵敏度是指碱基变异频率阈值为1％，大于1％的位点认为就是检测出的突变位点)。

实施例4：多定位双标签接头组制备：

将接头引物P5、5’端均修饰有生物素的接头引物P7-A、接头引物P7-B和接头引物P7-C(合成厂家：生工生物工程(上海)股份有限公司)分别用ddH₂O稀释至100μM；

优选的，所述NNNNNNNNNNNN表示为BDHVBDHV，其中B表示该位置是除A外的碱基，D位置表示该位置是除C外的碱基，H表示该位置是除G外的碱基，V表示该位置是除T外的碱基。所述I5index序列选自SEQ ID NO：05～12；所述I7index序列选自SEQ ID NO：13～23。

任选的，所述JJJJJ、KKKKK和LLLLL的序列可以和所述EEEEE的序列部分重叠，也可以完全重叠，当部分或者完全重叠的时候，重叠部分的碱基只出现一次。

该多定位双标签接头组的制备方法的步骤如下(图6)：

(1)退火：将接头引物P5、接头引物P7-A、接头引物P7-B、接头引物P7-C及缓冲液和适量去离子水混合后，进行退火处理得到退火接头A、退火接头B和退火接头C，具体的：在15mL离心管中配制以下体系：接头引物P5：1mL，接头引物P7-A：334μL，接头引物P7-B：334μL，接头引物P7-C：334μL,NEB buffer2:300μL，ddH₂O：700μL；共3mL。将此体系混匀后进行如下反应：水浴锅中95℃，5min；然后立刻放入装有95℃热水的烧杯中，室温条件下缓慢降温至24-27℃；

(2)延伸退火接头：对所得退火接头A、退火接头B和退火接头C进行聚合酶延伸得到延伸接头A、延伸接头B和延伸接头C，具体的：在原15mL离心管中加入：10×NEB buffer：200μL，25mM dNTP mix：200μL，500mM DTT：6μL，Klenow exo-(5U/μL)：100μL，用ddH₂O补足体积至5mL，混匀后，37℃恒温箱中旋转混匀，孵育1h；

(3)第一次沉淀：对所得延伸接头A、延伸接头B和延伸接头C分别进行乙醇或异丙醇沉淀纯化得到纯化后的延伸接头A、延伸接头B和延伸接头C，具体的：向步骤(2)所得产物中加入1/10体积的NaAC(3M)和2.5倍体积的无水乙醇，混匀后置于-20℃2h；13000g离心30min；去上清，加入5mL 70体积％乙醇漂洗沉淀，4℃，13000g离心30min；去上清，室温晾干DNA 20-30min，用3mL ddH2O重悬DNA，并用Quantus测浓度；

(4)酶切：对纯化后的延伸接头A、延伸接头B和延伸接头C分别加入能够产生3’T突出末端的限制性内切酶进行酶切得到酶切接头A、酶切接头B和酶切接头C，具体的：(以HpyCH4III内切酶为例，酶切位点：ACNGT，相应的接头引物P7序列EEEEE改为 ACAGT)：取上述步骤(3)所得产物，根据其质量x(ug)加入10×NEB CutSmart buffer：2xμL，HpyCH4III(5U/μL)：2xμL，用ddH2O补足体积至20xμL，混匀后，37℃恒温箱中旋转孵育，酶解16h；

(5)第二次沉淀：将所得酶切接头A、酶切接头B和酶切接头C进行乙醇或异丙醇沉淀纯化后即得到双标签接头A、双标签接头B和双标签接头C，具体的：向步骤(4)所得的产物中加入1/10体积的NaAC和2.5倍体积的无水乙醇，混匀后置于-20℃，2h；4℃，13000g离心30min；去上清，加入10mL 70％乙醇漂洗沉淀，4℃，13000g离心30min；去上清，室温晾干DNA 20-30min，用2mL ddH2O重悬；

(6)生物素纯化：将步骤(5)所得的双标签接头A、双标签接头B和双标签接头C进行生物素亲和纯化，具体的：取2mL Dynabeads MyOne Streptavidin C1磁珠，使用1×B&W buffer磁珠漂洗后用2mL 2×B&W buffer重悬磁珠，将2mL步骤(5)所得产物加入到磁珠中，4℃孵育30min，磁力架上静置，取上清至一新的50mL离心管中；

(7)第三次沉淀：将步骤(6)所得的产物进行乙醇或异丙醇沉淀纯化后即得到所述多定位双标签接头组，具体的：向步骤(6)所得的产物中加入1/10体积的NaAC和2.5倍体积的无水乙醇，混匀后置于-20℃2h；4℃，13000g离心30min；去上清，加入10mL70％乙醇漂洗沉淀，4℃，13000g离心30min；去上清，室温晾干DNA 20-30min，用1.5mL TE low buffer重悬，即为所述多定位双标签接头组，所述多定位双标签接头组经质控合格后进行分装，-20℃冻存备用。

实施例5：所述多定位双标签接头组测序PF值改善情况

以30ng打断后白细胞DNA(平均长度220bp)起始建库，实验分两组，一组使用实施例1制备的单定位双标签接头进行文库构建，另一组使用经实施例4制备的多定位双标签接头组建库。建库试剂盒使用NEBNext Ultra II DNA Library Prep Kit,文库构建步骤如下：

(1)取30ng打断DNA加入7μL NEBNext Ultra II End Prep Reaction Buffer和3μL NEBNext Ultra II End Prep Enzyme Mix，用去离子水补足体积至60μL，PCR仪上20℃，30min→65℃，30min→4℃维持；

(2)上述体系加入1μL接头(上述单定位双标签接头或上述多定位双标签接头组)，然后加入30μL NEBNext Ultra II Ligation Master Mix和1μL NEBNext Ligation Enhancer，混匀后20℃反应15min。连接产物使用0.9×Ampure磁珠进行纯化，纯化后使用23μL纯化水洗脱；

(3)PCR管中加入23μL上述连接产物，I5、I7index引物各1μL(25μM)，和25μL NEBNext Ultra IIQ5 Master Mix，混匀后PCR仪上进行如下反应：

98℃，30s；

98℃，10s→65℃，75s(8个循环)；

65℃，5min；

4℃维持

PCR完成后使用0.9×磁珠进行纯化，然后使用Qubit2.0(或Quantus)和Agilent 2100bioanalyzer(或Agilent 2200TapeStation)进行质控；

构建的文库质控合格后使用NextSeq500平台进行测序，测序试剂为Mid Output kit(300cycles)，Phix掺入比例为1％，每个文库单独进行上机测序。实验重复3次，并分别上机测序，测序平台为NextSeq500，测序试剂为Mid Output kit(300cycles)，Phix掺入比例为1％，测序结果质控如下：

实验组	上机簇密度	Phix比例(％)	PF值	Q30
单定位双标签接头文库-1	190K/mm²	1.2％	33.80％	90.4％
单定位双标签接头文库-2	186K/mm²	0.8％	31.50％	85.8％
单定位双标签接头文库-3	200K/mm²	1.5％	33.20％	82.0％
多定位双标签接头组文库-1	200K/mm²	0.9％	87％	88.6％
多定位双标签接头组文库-2	181K/mm²	1.2％	90％	87.3％
多定位双标签接头组文库-3	210K/mm²	1.3％	91％	90.1％

实施例6：生物素纯化后接头建库接头序列残余：

以30ng打断后白细胞DNA(平均长度220bp)起始建库，实验分两组，一组使用实施例1制备的单定位双标签接头进行文库构建，另一组使用经实施例4制备的多定位双标签接头组建库，建库试剂盒使用NEBNext Ultra II DNA Library Prep Kit,文库构建步骤如下：

98℃，30s；

98℃，10s→65℃，75s(8个循环)；

65℃，5min；

4℃维持

PCR完成后使用0.9×磁珠进行纯化，然后使用Qubit2.0(或Quantus)和Agilent 2100 bioanalyzer(或Agilent 2200 TapeStation)进行质控；

构建的文库质控合格后使用NextSeq500平台进行测序，测序试剂为Mid Output kit(300cycles)，Phix掺入比例为1％，每个文库数据量为1Gb，测序结果如下：

以上所述，仅为本发明的较佳实施例而已，故不能依此限定本发明实施的范围，即依本发明专利范围及说明书内容所作的等效变化与修饰，皆应仍属本发明涵盖的范围内。

工业实用性

本发明本发明提供一种用于检测基因突变的多定位双标签接头组及其制备方法与具体应用。可以准确检测1×10^-5基因突变率，有效提高基因突变检测的灵敏度，结合高通量测序的通量，一次测序可以检测多个基因的多个突变位点。

Claims

一种用于检测基因突变的多定位双标签接头组，其特征在于：包括双标签接头A、双标签接头B和双标签接头C，双标签接头A、双标签接头B和双标签接头C分别由接头引物P5分别与5’端均修饰有生物素的接头引物P7-A、接头引物P7-B和接头引物P7-C合成而得到，其中：

接头引物P5为SEQ ID NO：01通过I5index序列连接SEQ ID NO：02所示序列所得，

接头引物P7-A为FFFFFEEEEEJJJJJNNNNNNNNNNNN依次连接在SEQ ID NO：03的5’端，SEQ ID NO：03再通过I7index序列连接SEQ ID NO：04所示序列所得；

接头引物P7-B为FFFFFEEEEEKKKKKNNNNNNNNNNNN依次连接在SEQ ID NO：03的5’端，SEQ ID NO：03再通过I7index序列连接SEQ ID NO：04所示序列所得；

接头引物P7-C为FFFFFEEEEELLLLLNNNNNNNNNNNN依次连接在SEQ ID NO：03的5’端，SEQ ID NO：03再通过I7index序列连接SEQ ID NO：04所示序列所得；

所述FFFFF为酶切位点保护碱基，EEEEE为酶切位点，JJJJJ、KKKKK和LLLLL为定位标签序列且JJJJJ、KKKKK和LLLLL各不相同，NNNNNNNNNNNN为随机分子标签序列；FFFFF、JJJJJ、KKKKK、LLLLL和EEEEE包括但不限于5个相同碱基，I7index序列为6～8个碱基；NNNNNNNNNNNN为4到12个随机碱基，且没有四个连续相同的碱基。
如权利要求1所述用于检测基因突变的多定位双标签接头组，其特征在于：所述NNNNNNNNNNNN表示为BDHVBDHV，其中B表示该位置是除A外的碱基，D位置表示该位置是除C外的碱基，H表示该位置是除G外的碱基，V表示该位置是除T外的碱基。
如权利要求1所述用于检测基因突变的多定位双标签接头组，其特征在于：所述I5index序列选自SEQ ID NO：05～12；所述I7index序列选自SEQ ID NO：13～23；所述JJJJJ、KKKKK和LLLLL的序列可以和所述EEEEE的序列部分重叠或完全重叠，当部分或完全重叠的时候，重叠部分的碱基只出现一次。
一种权利要求1至3中任一项权利要求所述的用于检测基因突变的多定位双标签接头组的制备方法，其特征在于：包括如下步骤：

(1)退火：将接头引物P5、接头引物P7-A、接头引物P7-B、接头引物P7-C及缓冲液和适量去离子水混合后，进行退火处理得到退火接头A、退火接头B和退火接头C；

(2)延伸退火接头：对所得退火接头A、退火接头B和退火接头C进行聚合酶延伸得到延伸接头A、延伸接头B和延伸接头C；

(3)第一次沉淀：对所得延伸接头A、延伸接头B和延伸接头C分别进行乙醇或异丙醇沉淀纯化得到纯化后的延伸接头A、延伸接头B和延伸接头C；

(4)酶切：对纯化后的延伸接头A、延伸接头B和延伸接头C分别加入能够产生3’T突出末端的限制性内切酶进行酶切得到酶切接头A、酶切接头B和酶切接头C；

(5)第二次沉淀：将所得酶切接头A、酶切接头B和酶切接头C进行乙醇或异丙醇沉淀纯化后即得到双标签接头A、双标签接头B和双标签接头C；

(6)生物素纯化：将步骤(5)所得的双标签接头A、双标签接头B和双标签接头C进行生物素亲和纯化；

(7)第三次沉淀：将步骤(6)所得的产物进行乙醇或异丙醇沉淀纯化后即得到所述多定位双标签接头组。
一种文库构建方法，其特征在于：包括：将10ng-1ug的待检测DNA打断成200-500bp的DNA片段后，DNA片段加入末端修复酶进行末端修复，加A尾，加入权利要求1至3中任一项权利要求所述的多定位双标签接头组进行连接，连接完成后使用Ampure磁珠或切胶进行340-660bp的片段选择。
一种测序方法，其特征在于：包括如下步骤：

(1)用如权利要求5所述的文库构建方法构建文库；

(2)对所述测序文库进行测序。
一种确定核酸序列的方法，其特征在于：包括如下步骤：

(1)用如权利要求5所述的文库构建方法构建文库；

(2)对所述测序文库进行测序；

(3)根据测序结果进行结果判定；

所述结果判定的方法包括如下步骤：

a、根据设置的参数选取比对后的碱基Q值大于30的测序唯一匹配序列；

b、根据随机标签序列进行Duplication判定，从而进行碱基的重新校正；

c、使用SNP calling软件进行SNP位点检测，统计SNP位点信息，最终得到的SNP位点及对应的MAF信息；

d、对检测到的SNP位点及MAF信息和对照组的突变位点以及群体基因组变异信息库进行比较，过滤掉相同的突变位点，最终留下的突变位点信息即为最终检测到的突变位点信息。