一种测序文库构建试剂盒及其使用方法和应用
技术领域
本发明涉及基因检测领域,具体涉及一种测序文库构建试剂盒及其使用方法和应用。
背景技术
拷贝数变异(Copy number variation,CNV)是指基因组片段发生了拷贝数的增加或减少,涉及的基因组序列大小从1kb到多个Mb不等,主要是由于基因组发生重组而导致。CNV是一种广泛存在于动物基因组中的遗传多态性现象,它的突变频率远高于SNP。有些CNV不引起表型变化,而另一些CNV则会影响基因的表达与功能,最终导致人类疾病的发生,因此CNV的研究具有重大的科研和临床意义。
目前检测CNV的技术主要有:高分辨率核型分析技术,免疫荧光原位杂交技术(Fluorescent In Situ Hybridization,FISH),染色体微阵列分析技术(Chromosome Microarray Analysis,CMA),多重连接探针扩增技术(multiplex ligation-dependent probe amplification,MLPA)以及二代测序技术(Next-generation Sequencing,NGS)。
高分辨率核型分析技术是检测染色体异常的金标准,但是其分辨率较低(约5Mb),无法检出染色体小片段的拷贝数变异。免疫荧光原位杂交技术利用荧光标记探针和染色体进行原位杂交,根据特定的同位素荧光信号在分子水平上检测染色体数目和结构异常。相对于核型分析技术,FISH检测周期更短,精度更高,但是由于探针的设计受到目标区域的限制,只能得到有限的染色体信息。染色体微阵列分析技术(CMA)是一种高通量检测基因组拷贝数变异的分子核型技术,包括比较基因组杂交(aCGH)技术和单核苷酸多态性基因芯片(SNP array)技术。相比于FISH,CMA具有更高的分辨率和灵敏度,全基因组覆盖,不过均一性不好,容易漏检,且检测成本较高,限制了在临床的应用。MLPA是一项基于PCR的检测CNV变化的技术,可以检测出DNA特异性序列间的拷贝数差别。 MLPA可以对一个样本的几十上百个位点进行同时检测,不过操作过程繁琐,位点依然有限,容易造成PCR产物的污染。
发明内容
针对现有技术中存在的不足,本发明所提供的技术方案是:
一种测序文库构建试剂盒,具体包括:限制性内切酶及限制性内切酶反应的缓冲液,DNA连接酶及连接酶缓冲液,末端修复试剂,测序接头,PCR引物以及PCR扩增体系;
所述末端修复试剂包括T4多聚核苷酸激酶,T4DNA聚合酶,Klenow DNA聚合酶,dNTPs和修复缓冲液。
所述限制性内切酶试剂包括AseI,CviQI,NdeI,AciⅠ,AluⅠ,BfaⅠ,HaeⅢ,HhaⅠ,MseⅠ,AsiSI,CviAII,PacI,PvuI,PvuI-HF,HpyCH4IV或HpySE526I中的一种或几种。
所述DNA连接酶试剂包括DNA ligase、T4DNA ligase、taq DNA ligase或ligase-65的一种。
所述PCR引物包括上游引物和下游引物。
所述PCR扩增体系包括DNA聚合酶,dNTPs,扩增缓冲液。
本发明还包括一种测序文库构建试剂盒的使用方法,具体包括以下步骤:
将样本基因组DNA进行片段化处理,获得第一DNA片段组;
在所述第一DNA片段组加入末端修复试剂,置于PCR仪上进行反应获得末端修复的第二DNA片段组;
将所述第二DNA片段组与DNA连接酶,测序接头,连接酶缓冲液,无核酸酶去离子水混合,置于PCR仪上反应获得接头连接DNA片段组,并对所述接头连接DNA片段组进行纯化;
将所述纯化后的接头连接DNA片段组加入PCR引物和PCR扩增体系,在预定的扩增程序下进行扩增获得扩增基因组,并对所述扩增基因组进行纯化;
将所述纯化后的扩增基因组进行检测,获得测序文库。
所述将样本基因组DNA进行片段化处理,获得第一DNA片段组的方法,具体包括以下步骤:
将样品基因组DNA与限制性内切酶,限制性内切酶缓冲液混合置于PCR仪上反应获得第一酶切DNA片段组;
将所述第一酶切DNA片段组与DNA连接酶,连接酶缓冲液,无核酸酶去离子水混合置于PCR仪上反应获得第一连接DNA片段组,并采用磁珠纯化;
将所述纯化后的第一连接DNA片段组采用物理法或者酶解法打断获得第一DNA片段组。
本发明还提供了另一种将样本基因组DNA进行片段化处理,获得第一DNA片段组的方法,具体包括以下步骤:
将样品基因组DNA采用物理法打断,并加入限制性内切酶和限制性
内切酶缓冲液混合均与,置于PCR仪上反应获得第二酶切DNA片段组;
将第二酶切DNA片段组与DNA连接酶,连接酶缓冲液,无核酸酶去离子水混合置于PCR仪上反应获得第二连接DNA片段组,并进行纯化;
所述纯化后的第二连接DNA片段组为第一连接DNA片段组。
所述预定的扩增程序包括以下步骤:
95℃预变性3分钟;
循环反应,95℃变性20秒,60℃退火15秒,72℃延伸30秒,共循环4-8次;
72℃延伸5分钟。
有益效果:
利用本发明的测序文库构建试剂盒,将基因组DNA进行片段化出里,末端修复,接头连接、纯化等步骤构建测序文库,在进行拷贝数变异测序时,双端测序的read1和read2的序列很大程度上来自于基因组上的不同位置(间隔>500bp以上),使得用来分析基因组拷贝数变异时,read1和read2都能得以利用,提高原有数据的利用效率150%以上。
附图说明
图1为本发明实施例二提供的一种测序文库构建方法的原理图;
图2为本发明实施例二第一酶切DNA片段组和第一连接DNA片段组的琼脂糖凝胶电泳图;
图3为本发明实施例三提供的一种测序文库构建方法的原理图;
图4为本发明实施例三中的第二酶切DNA片段组的琼脂糖凝胶电泳图;
图5为本发明实施例三中的第二连接DNA片段组的琼脂糖凝胶电泳图;
具体实施方式
为了更加清楚阐述本发明的技术内容,在此结合具体实施例予以详细说明,显然,所列举的实施例只是本技术方案的优选实施方案,本领域的技术人员可以根据所公开的技术内容显而易见地得出的其他技术方案仍属于本发明的保护范围。
原理解释:
利用二代高通量测序数据进行CNV分析的一个主要思路是根据一定大小的滑动窗口(Window,比如1Mb)内读段深度(用Cluster提供的坐标信息的个数来表示)来指示拷贝数增加(Duplication)与缺失(Deletion),这种分析原则得以成立的前提是测序文库中的DNA片段在基因组上的分布符合泊松分布现象,二代高通量测序中每条DNA序列信号来源的起点叫做Cluster,每个Cluster的信息通常由Read1和Read2组成,Read1和Read2通过将呈现出来的序列信息与参考基因组进行比对,就能获得Read1和Read2在参考基因组上的坐标信息。
实施例1:
本发明提供了一种用于测序文库构建的试剂盒,具体包括限制性内切酶,限制性内切酶缓冲液,末端修复试剂,DNA连接酶试剂组,连接酶缓冲液,测序接头(01-96),PCR引物组,PCR反应体系。
其中限制性内切酶为AseI,CviQI,NdeI,Aci Ⅰ,Alu Ⅰ,Bfa Ⅰ,HaeⅢ,Hha Ⅰ, Mse Ⅰ,AsiSI,CviAII,PacI,PvuI,PvuI-HF,HpyCH4IV,HpySE526I中的一种或几种的组合,应当理解的是可以根据测序文库针对的对象选择不同的限制性内切酶,可以包括但不限于上述所列出的限制性内切酶。
其中末端修复试剂组包括T4 PNK(T4 Polynucleotide Kinase,T4多聚核苷酸激酶),T4 DNA Polymerase(T4 DNA聚合酶),Klenow DNA Polymerase(Klenow DNA聚合酶),dNTPs,修复缓冲液。
其中DNA连接酶试剂组中连接酶可以是DNA ligase、T4DNA ligase、taq DNA ligase或ligase-65。
其中测序接头为人工合成的寡核苷酸DNA片段,共包括测序接头01-96共96种,购自南京诺唯赞生物科技有限公司。
PCR引物(南京诺唯赞生物科技有限公司)包括上游引物P5,是文库P5端接头特异性引物序列,下游引物P7,是文库P7端接头特异性引物序列。P5核酸序列为:5'-AATGATACGGCGACCACCGAGA-3';P7核酸序列为:P7:5'-CAAGCAGAAGACGGCATACGA-3'。
其中PCR反应体系为HIFI扩增混合物,包括DNA聚合酶,dNTPs,扩增缓冲液。
实施例2
附图1示出了一种测序文库构建方法的原理图,详述如下:
原理步骤1-1:样本基因组不同染色体被限制性内切酶试剂组切割后,形成大小不一的片段,这些片段都具有可供再次连接的5'-磷酸基团和3'-羟基基团;
原理步骤1-2:在DNA连接酶试剂组存在的情况下,不同的DNA片段随机连接,再次成为长片段;
原理步骤1-3:利用超声打断等随机打断方式,将重新形成的长片段再次随机打断,得到含有来自不同区域的片段;
原理步骤1-4:与测序接头进行连接后,形成完整的可供扩增的文库DNA片段;
原理步骤1-5:在测序时,同一个测序簇Cluster中,至少会有两种不同的情况,比如 测序簇Cluster1中,Read1的信息来自Chr2-3,部分来自Chr17-4,read2的信息来自Chr6-2,部分来自Chr17-4,在CNV分析中,该Read1和Read2的信息一共能提供三个有效物理位置信息,而在测序簇Cluster2中,Read1和Read2都来自Chr17-2,实际上只为CNV提供了一个有效物理位置信息;传统的建库方式的每个Cluster只为CNV分析提供一个有效物理位置信息,而本专利提供的建库方式的同一个Cluster有能力为CNV分析提供更多有效物理位置信息,因此,本发明所提供的建库方式提高了测序信息的利用效率,使得能在相同的测序数据量情况下,为CNV分析提供更多有效物理位置信息。
具体实施方式如下:
首先提取基因组DNA本血液抽提试剂盒购自天根生化科技有限公司,提取方法包括:
取200μL血液样本到2.0mL的离心管中。若提取小于200μL血液样品时,可加入缓冲液GS补足体积至200μL,再进行下一步实验。
加入200μL Buffer GB和20μL蛋白酶K溶液至上述样品中,充分振荡混匀。
在56℃孵育10min,期间颠倒混匀数次,溶液应变清亮(若溶液未彻底变清亮,请延长裂解时间至溶液清亮为止)。
室温放置2-5min后加入350μL Buffer BD,充分颠倒混匀,短暂离心将反应液收集至管底。
将所有溶液分转移到离心柱中(离心柱放入收集管中),12000rpm(~13400×g)离心30sec,弃废液,将离心柱放回收集管中。
加入500μL Buffer GDB,12000rpm(~13400×g)离心30sec,弃废液,将离心柱放回收集管中。
加入600μL Buffer PWB,12000rpm(~13400×g)离心30sec,弃废液,将离心柱放回收集管中。
重复上一步骤。
12000rpm(~13400×g)离心2min,将离心柱转入一个新的1.5mL离心管中,开盖室温放置5min,以彻底风干吸附膜上的残余的缓冲液。
向离心柱的吸附膜中心悬空加入50μL洗脱液TE,室温放置2min,12000rpm(~13400×g)离心2min,将洗脱液收集到离心管中。
用Nanodrop测定DNA浓度和A260/A280的比值。
在抽提合格的DNA 34μL(共500ng)溶液中加入4μL剪切酶缓冲液,1μL Mse I(NEB),1μL Bfa I(NEB)置于PCR管中混合均匀,置于PCR仪上37℃反应1小时,之后65℃反应10分钟,获得第一酶切DNA片段组。
取5μL上述产物进行电泳检测,电泳图详见图2.
在第一酶切DNA片段组中加入5μL连接酶缓冲液,2μL DNA连接酶以及8μL无核酸酶去离子水,混合均匀后,置于PCR仪上20℃反应2小时获得第一连接DNA片段组。
取5μL上述产物进行电泳检测。
用1倍体积AMPure XP Beads(核酸纯化试剂盒)对余下第一连接DNA片段组进行纯化并用51μL无核酸酶去离子水进行洗脱。
电泳图如图2所示。其中泳道1泳道为1500bp Marker,片段长度由上而下依次为1500bp,1000bp,900bp,800bp,700bp,600bp,500bp,400bp,300bp,200bp,100bp;2-4泳道为基因组DNA经限制性内切酶酶切后的产物,泳道5-6为限制性内切酶酶切的产物经过DNA连接酶连接后的产物。
利用Covaris S220对纯化后的第一连接DNA片段组进行片段化处理,将Covaris S220仪器的水槽内注入去离子水,至水位达到12,依次打开Covaris S220仪器,变压器以及制冷循环系统的开关,打开软件,当前视图显示制冷循环为OFF,点击Enter,此时屏幕显示当前水温,制冷循环系统开始工作,水槽开始排气,取第一连接DNA片段组缓慢加入至干净的Covaris microTUBE中,短暂离心,小心地将Covaris microTUBE放入S220的支撑架,确保TUBE保存竖直方向。根据表1的条件设置对DNA进行超声打断。
表1
Duty Factor |
10% |
Cycles per Burst |
200 |
Temperature(℃) |
7 |
Treatment Time(s) |
60 |
从Covaris microTUBE中将片段化后获得第一DNA片段组转移到一个新的PCR管中。
往第一DNA片段组中加入15μL末端修复试剂组,混合均匀后,置于PCR仪上20℃反应15分钟,之后65℃反应15分钟。
往末端修复产物中加入10μL连接酶缓冲液,4μL DNA连接酶,测序接头5μL和16μL无核酸酶去离子水,混合均匀后,置于PCR仪上20℃反应15分钟获得接头连接DNA片段组。
用0.6倍体积AMPure XP Beads对接头连接DNA片段组进行纯化,并用21μL无核酸酶去离子水进行洗脱。
取纯化产物20μL于PCR管中,加入PCR引物组5μL和HiFi扩增体系混合物25μL,混合均匀后,置于PCR仪进行下述反应:95℃预变性3分钟,接着进入循环反应,95℃变性20秒,60℃退火15秒,72℃延伸30秒,共4个循环后,继续72℃延伸5分钟。
用0.9倍体积AMPure XP Beads对扩增产物进行纯化,并用21μL无核酸酶去离子水进行洗脱。然后用基于双链DNA荧光染料的方法或基于qPCR绝对定量的方法对文库浓度进行检测,所得文库即为最终上机文库。
数据分析:
测试利用上述试剂盒构建的测序文库中的四个样本,测序获得3.36-4.08M Clusters,并对其进行每个Cluster含有参考基因组不同坐标位置的可能性和比例的分析,例如LC19样本,测序总共获得4,078,359个Clusters,其中能产生1、2、3、4和>4个有效物理位置信息的Clusters占比分别是32.287%,43.265%,17.715%,4.448%,0.804%,总体数据有效提升159.825%,相当于原来只能利用4,078,359个有效物理位置信息,经过本实施例的建库方案和分析之后,有效物理位置信息总数增加到6,518,221个。具体数据如表2。
表2
由表2可知,利用本实施例的测序文库构建方法构建测试文库,用于CNV分析时,能够产生多个有效物理位置,使得有效物理位置总数大大增加,有效数据提升可达159%以上,使得测序效率大大增加。
实施例3
附图3示出了一种测序文库构建方法的原理图,详述如下:
原理步骤2-1:样本基因组DNA先被超声打断,形成末端需要修复、不易连接的大小不一的片段;
原理步骤2-2:加入限制性酶切试剂组,含有内切酶识别位点的DNA片段会被切断, 形成具有5'-磷酸基团和3'-羟基基团的可以被连接的端口;
原理步骤2-3:在DNA连接酶试剂组存在的情况下,不同的具有可以被连接端口的DNA片段随机连接,形成一个新的杂合片段;不含内切酶识别位点、没有被限制性内切酶切断的片段,不会发生连接;
原理步骤1-4:经过末端修复和与测序接头进行连接后,形成完整的可供扩增的文库DNA片段;
原理步骤1-5:在测序时,同一个测序簇Cluster中,至少会有两种不同的情况,比如测序簇Cluster3中,read1的信息来自Chr5-4,read2的信息来自Chr8-4,在CNV分析中,该read1和read2的信息各自提供了一个有效物理位置信息,而在测序簇Cluster2中,read1和read2都来自Chr12-2,实际上只为CNV分析提供了一个有效物理位置信息;传统的建库方式的每个测序簇只能为CNV分析提供一个有效物理位置信息,而本实例提供的建库方式的同一个Cluster有能力为CNV分析提供更多的有效物理位置信息,因此,本实例所提供的建库方式提高了测序信息的利用效率,使得能在相同的测序数据量情况下,为CNV分析提供更多的有效物理位置信息。
具体实施方式如下:
按照实施例2的提取方法获得基因组DNA。
将Covaris S220仪器的水槽内注入去离子水,至水位达到12,依次打开Covaris S220仪器,变压器以及制冷循环系统的开关,打开软件,当前视图显示制冷循环为OFF,点击Enter,此时屏幕显示当前水温,制冷循环系统开始工作,水槽开始排气。
取基因组DNA缓慢加入至干净的Covaris microTUBE中,短暂离心,小心地将Covaris microTUBE放入S220的支撑架,确保TUBE保存竖直方向根据表3的条件设置对DNA进行超声打断。
表3
Duty Factor |
10% |
Cycles per Burst |
200 |
Temperature(℃) |
7 |
Treatment Time(s) |
60 |
从Covaris microTUBE中将片段化后的基因组DNA转移到一个新的PCR管中。
取上述采用超声片段化后的基因组DNA 34μL,加入4μL剪切酶缓冲液,1μL Mse I(NEB)和1μL Hha I(NEB)于PCR管中混合均匀,置于PCR仪上37℃反应1小时,之后65℃反应10分钟获得第二酶切DNA片段组,取5μL第二酶切DNA片段组进行电泳检测。详见图4,其中泳道4泳道为1500bp Marker,片段长度由上而下依次为1500bp,1000bp,900bp,800bp,700bp,600bp,500bp,400bp,300bp,200bp,100bp;1-3泳道为片段化的基因组DNA经限制性内切酶酶切后的产物。
在剩余的第二酶切DNA片段组加入5μL连接酶缓冲液,2μL DNA连接酶以及8μL无核酸酶去离子水,混合均匀后,置于PCR仪上20℃反应2小时获得第二连接DNA片段组。取5μL上述第二连接DNA片段组进行电泳检测。详见图5,其中泳道1泳道为1500bp Marker,片段长度由上而下依次为1500bp,1000bp,900bp,800bp,700bp,600bp,500bp,400bp,300bp,200bp,100bp;2-4泳道为限制性内切酶酶切的产物经过DNA连接酶连接后的产物。
用1倍体积AMPure XP Beads对第二连接DNA片段组进行纯化并用16μL无核酸酶去离子水进行洗脱。
向纯化后的第二连接DNA片段组中加入15μL末端修复试剂,混合均匀后,置于PCR仪上20℃反应15分钟,之后65℃反应15分钟获得末端修复的第二DNA片段组。
往末端修复的第二DNA片段组中加入10μL Ligation Buffer,4μL DNA ligase,测序接头5μL和16μL Nuclease Free Water,混合均匀后,置于PCR仪上20℃反应15分钟获得接头连接DNA片段组。用0.6倍体积AMPure XP Beads对接头连接DNA片段组进行纯化,并用21μL无核酸酶去离子水进行洗脱。
取纯化后的接头连接的DNA片段组20μL于PCR管中,加入PCR引物组5μL和HiFi反应体系混合物25μL,混合均匀后,置于PCR仪进行下述反应:95℃预变性3分钟,接着进入循环反应,95℃变性20秒,60℃退火15秒,72℃延伸30秒,共4个循环后,继续72℃延伸5分钟。
用0.9倍体积AMPure XP Beads对扩增产物进行纯化,并用21μL无核酸酶去离子水进行洗脱。然后用基于双链DNA荧光染料的方法或基于qPCR绝对定量的方法对文库浓度进行检测,所得文库即为最终上机文库。
数据分析
测试利用上述试剂盒构建的测序文库中的四个样本,获得了3.06~9.12M Clusters数据,并对其进行每个Cluster含有参考基因组不同坐标位置的可能性和比例的分析,例如A2435样本,测序总共获得5,178,126个Clusters,其中能产生1、2、3、4和>4个有效物理位置信息的Clusters占比分别是31.692%,40.334%,20.555%,5.635%,0.907%,总体有效数据提升163.486%,相当于原来只能利用5,178,126个有效物理位置信息,经过本实施例的建库方案和分析之后,有效物理位置信息总数增加到8,465,497个。详见表4。
由表4可知,利用本实施例的测序文库构建方法构建测试文库,用于CNV分析时,能够产生多个有效物理位置,使得有效物理位置总数大大增加,有效数据提升可达161%以上,使得测序效率大大增加。
表4
样本号 |
A2435 |
A2436 |
A2437 |
A2438 |
Mapping Quality>10的测序cluster数目 |
5,178,126 |
9,118,400 |
8,061,361 |
3,063,044 |
比对到同一个位置的cluster数目 |
2,682,869 |
3,989,388 |
3,698,919 |
1,625,127 |
比对到同一个位置的cluster数目(%) |
31.692 |
25.016 |
26.818 |
32.921 |
比对到2个不同位置的cluster数目 |
1,707,246 |
3,399,936 |
2,924,916 |
1,001,314 |
比对到2个不同位置的cluster数目(%) |
40.334 |
42.640 |
42.412 |
40.568 |
比对到3个不同位置的cluster数目 |
580,025 |
1,263,986 |
1,046,884 |
325,285 |
比对到3个不同位置的cluster数目(%) |
20.555 |
23.778 |
22.770 |
19.768 |
比对到4个不同位置的cluster数目 |
119,265 |
262,705 |
208,171 |
64,097 |
比对到4个不同位置的cluster数目(%) |
5.635 |
6.589 |
6.037 |
5.194 |
比对到大于4个不同位置的cluster数目 |
15,363 |
27,890 |
21,820 |
7,235 |
比对到大于4个不同位置的cluster数目(%) |
0.907 |
0.874 |
0.791 |
0.733 |
有效物理位置信息总数 |
8,465,497 |
15,947,127 |
13,792,709 |
4,936,475 |
有效数据提升(%) |
163.486 |
174.890 |
171.097 |
161.162 |
随着测序数据量的增加,只能给一个有效物理位置信息的Cluster的比例下降,比如3-5M Clusters的样本(包括实施例2中的4个样本),只能提供一个有效物理位置信息的Clusters比例在31~33%之间,而8~9M Clusters的样本(本实施例汇总的A2436和A2437),只能提供一个有效物理位置信息的Clusters比例减低到25~27%之间,其他类型的Clusters比例都有所提升,总体有效数据提升大于170%。
根据上述说明书的揭示和教导,本发明所属领域的技术人员还可以对上述实施方式进行适当的变更和修改。因此,本发明并不局限于上面揭示和描述的具体实施方式,对本发明的一些修改和变更也应当落入本发明的权利要求的保护范围内。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。