WO2020052101A1

WO2020052101A1 - 基于ngs读段搜索实现序列延伸的虚拟pcr方法

Info

Publication number: WO2020052101A1
Application number: PCT/CN2018/118584
Authority: WO
Inventors: 段乃彬; 王效睦; 丁汉凤; 马玉敏; 宫永超; 谢坤; 白静; 杨永义
Original assignee: 山东省农作物种质资源中心
Priority date: 2018-09-12
Filing date: 2019-01-31
Publication date: 2020-03-19
Also published as: CN109097458A

Abstract

本发明公开了一种基于NGS读段搜索实现序列延伸的虚拟PCR方法。该方法首先基于NGS测序技术对试验样品全基因组进行一次深度较高的高通量测序，获得覆盖全基因组的海量测序读段(reads)；再结合生物信息学方法，搜索测序读段，根据搜索结果在程序中实现序列延伸，从而建立序列片段重叠群(contig)，继而实现目的基因在虚拟程序中的扩增。

Description

基于NGS读段搜索实现序列延伸的虚拟PCR方法

技术领域

本发明涉及生物信息学或分子生物学领域，具体涉及一种基于NGS读段搜索实现序列延伸的虚拟PCR方法的方法。

背景技术

聚合酶链式反应(PCR)是一种用于放大扩增特定的DNA片段的分子生物学技术，它可看作是生物体外的特殊DNA复制。PCR技术的基本原理类似于DNA的天然的半保留复制过程，其特异性依赖于与靶序列两端互补的寡核苷酸引物。PCR由变性--退火--延伸三个基本反应步骤构成，不断重复循环变性--退火--延伸三过程就可将待扩增的目的基因扩增放大几百万倍。

测序读段(reads)是通过NGS测序又称二代测序获得的。目前高通量测序的主要平台代表有罗氏公司(Roche)的454测序仪(Roch GS FLX sequencer)，Illumina公司的Solexa基因组分析仪(Illumina Genome Analyzer)和ABI的SOLiD测序仪(ABI SOLiD sequencer)。不同的NGS平台均可并行地对数百万个小DNA片段进行测序，而获得海量测序数据即测序读段(reads)。这些读段组合在一起可进行基因组的组装，也可将每个读段映射到参考基因组而进行基因组比对。NGS不仅用于整个基因组测序也可对特定的感兴趣区域，包括所有编码基因(整个外显子组)或少量个体基因。

对目的基因的扩增通常是利用Wet Lab的PCR技术实现；通过凝胶电泳法可以检测是否扩增成功；再利用Sanger一代测序的方法获得该序列详细信息，完成这样一个完整的PCR扩增-测序一个试验周期需要几天甚至一周时间，实验效率较低。实验者为提高实验效率通常会累积多个序列进行批量扩增，进行批量测序；即便这样同时实际的PCR流程，其实验材料的准备过程复杂，试剂成本也较高。因此Wet lab的PCR操作不能满足分子生物学快速高效的需要。

发明内容

为了克服上述现有技术的不足，本发明提供了一种基于NGS读段搜索实现序列延伸的虚拟PCR方法。本发明首先基于NGS测序技术对试验样品全基因组进行一次深度较高的高通量测序，从而获得覆盖全基因组的海量测序读段(reads)。再结合生物信息学方法，开发了一种基于搜索测序读段建立序列片段重叠群(contig)从而实现虚拟PCR的方法。该方法可对任何感兴趣的基因片段进行虚拟扩增实验，其扩增片段长，扩增周期短，显著提高实验效率。

基于NGS读段搜索实现序列延伸的虚拟PCR方法，利用对测序读段的搜索来建立序列片段重叠群从而在不进行实际的PCR仪器操作的情况下，在程序中实现模拟PCR扩增目的基因的过程。

上述方法，包括如下步骤：

1)对实验材料的全基因NGC测序：选择所需的实验材料利用全基因组DNA提取试剂盒提取长片段DNA，将长片段DNA样品打断后加载到基因芯片中，使用测序仪进行边合成边测序，获得样品的短片段90-150bp成对的测序读段数据；

其中，所述的NGS测序的覆盖度不低于50X；

2)测序读段数据的预处理：将步骤1)中获得的测序读段数据去除测序重复，去除测序接头、Barcode及低质量数据；

3)虚拟PCR过程：在不进行实际的PCR仪器操作的情况下，在程序中模拟PCR扩增目的基因的过程(如图1所示)，从而获得目的基因的扩增序列。

上述步骤3)中所述虚拟PCR过程，包括以下步骤：

a)引物设计：利用目的片段S1的两端侧翼分别设计3’及5’端长度为30-40bp的虚拟引物一对，这两个引物分别称为seed_L与seed_R；

b)3’端的延伸：在程序起始设定预期延伸长度，并输入初始引物及全部的测序读段数据，在测序读段数据中搜索seed_L引物序列，并按照seed_L在测序读段数据中从左到右位置的顺序对搜索击中的测序读段进行排序，选择排列第一位的测序读段，截取其上seed_L右侧的序列进行延伸，同时以该被截取的序列最右侧30-40bp序列作为新的seed_L，继续搜索-延伸，如此循环直至向右延伸到设定的长度形成Contig_L1，同理以seed_L的反向互补序列seed_L_reverse作为引物向左延伸到设定的长度(seed_L_reverse向左延伸等同于seed_L向右延伸)，形成Contig_L_reverse，将Contig_L_reverse做反向互补形成Contig_L2，将Contig_L2与Contig_L1取并集，进而得到3’延伸的产物Contig_L；

c)5’端的延伸：在程序起始设定预期延伸长度，并输入初始引物及全部的测序读段数据，在测序读段数据中搜索seed_R引物序列，并按照seed_R在测序读段数据中从右到左位置的顺序对搜索击中的测序读段进行排序，选择排列第一位的测序读段，截取其上seed_R左侧的序列进行延伸，同时以该被截取的序列最左侧30-40bp序列作为新的seed_R，继续搜索-延伸，如此循环直至向左延伸到设定的长度形成Contig_R1，同理以seed_R的反向互补序列seed_R_reverse作为引物向右延伸到设定的长度(seed_R_reverse向右延伸等同于seed_R向左延伸)，形成Contig_R_reverse，将Contig_R_reverse做反向互补形成Contig_R2，将Contig_R1与Contig_R1取并集，进而得到3’延伸的产物Contig_R；

d)获得扩增序列：两侧延伸的序列Contig_L与Contig_R，依据重叠关系，合并取并集得到所设定长度的序列片段重叠群(contig)，进而得到完整的扩增序列S2，至此虚拟PCR完成。

其中，如果步骤3)所述虚拟PCR过程出现阻断，程序会出现报警并提示更换初始引物seed，如此循环到第一步(即步骤a))，重新进行虚拟PCR过程。

上述步骤3)所述阻断为第一位击中测序读段其上所截取的引物序列不符合设定要求等。

上述步骤3)所述更换新引物为重新设计初始引物seed。

本发明的有益效果：

本发明可以提供一种基于NGS读段搜索实现序列延伸的虚拟PCR方法，该方法相对于现有技术有如下优势：1其扩增片段更长，经实践验证可延长的最大片段为20K，远远高于Wet Lab PCR中酶与反应体系的限制；2其扩增周期更短，在小型机上完成一轮虚拟PCR，通常只需要两小时即可完成5k碱基的延伸；3无需实际的操作PCR实验，在程序中即可获得目的基因的序列信息，实验成本低，效率高；4可一次性扩增几十甚至于几百条序列(受限于计算服务器的配置)，一台40核cpu，128g内存的小型机可以在半天完成50条序列的延伸。

附图说明

图1虚拟PCR过程流程图(搜索延伸中的反向互补情况未在本图说明)。

具体实施方式

实施例

1)对萝卜的全基因测序：取10g萝卜植株春梢幼嫩叶片，洗净后直接置于液氮中冷冻，再利用植物全基因组DNA提取试剂盒以提取长片段DNA，长片段DNA样品打断后再经双末端PE125策略建库并加载到测序芯片Flowcell，再依照标准流程在Illumina Hiseq 2500测序仪(Illumina,San Diego,CA)上进行边合成边测序，从而得到各样品的短片段125bp成对的测序读段数据；

2)测序读段数据的预处理：测序下机的Rawdata文件为fastq格式，原始数据下机后先经由个性设计的Perl脚本过滤去除PCR重复，再由Trimmomatic 3.0去除测序接头、Barcode及低质量数据后，用Fastqc进行数据质量检测；

所述步骤2中测序覆盖度以萝卜基因组500Mb计算，当reads读长为125bp时，reads数目合计应不少于S＝(50×500×10 ⁶)/125＝2.0×10 ⁸条reads；

3)虚拟PCR的过程：利用本自主研发的脚本from_seed_to_contigs，步骤如下：

a)引物设计：利用目的片段S1的两端侧翼分别设计3’及5’端长度为35bp的虚拟引物一对，这两个引物分别称为seed_L与seed_R；

b)3’端的延伸：在程序起始设定预期延伸长度为5k，并输入初始引物及全部的测序读段数据，在测序读段数据中搜索seed_L引物序列，并按照seed_L在测序读段数据中从左到右位置顺序对搜索击中的测序读段进行排序；选择排列第一位的测序读段，截取其上seed_L右侧的序列进行延伸，同时以该被截取的序列最右侧35bp序列作为新的seed_L，继续搜索-延伸，如此循环直至向右延伸到设定的长度形成Contig_L1，同理以seed_L的反向互补序列seed_L_reverse作为引物向左延伸到设定的长度(seed_L_reverse向左延伸等同于seed_L向右延伸)，形成Contig_L_reverse，将Contig_L_reverse做反向互补形成Contig_L2，将Contig_L2与Contig_L1取并集，进而得到3’延伸的产物Contig_L；

c)5’端的延伸：在程序起始设定预期延伸长度为5k，并输入初始引物及全部的测序读段数据，在测序读段数据中搜索seed_R引物序列，并按照seed_R在测序读段数据中从右到左位置的顺序对搜索击中的测序读段进行排序；选择排列第一位的测序读段，截取其上seed_R左侧的序列进行延伸，同时以该被截取的序列最左侧35bp序列作为新的seed_R，继续搜索-延伸，如此循环直至向左延伸到设定的长度形成Contig_R1，同理以seed_R的反向互补序列seed_R_reverse作为引物向右延伸到设定的长度(seed_R_reverse向右延伸等同于seed_R向左延伸)，形成Contig_R_reverse，将Contig_R_reverse做反向互补形成Contig_R2，将Contig_R1与Contig_R1取并集，进而得到5’延伸的产物Contig_R；

d)获得萝卜基因S1的扩增序列S2：两侧延伸的序列Contig_L与Contig_R，依据重叠关系，合并取并集得到5k长度的序列片段重叠群(contig)，而得到完整的扩增序列S2，至此虚拟PCR完成；

e)在步骤b)和步骤c)中，若延伸长度未能达到设定长度5k，则截取排序第一位的击中测序读段的3’引物的最右侧(或5’引物的最左侧)35bp的序列作为新引物，继续进行搜索引物-延伸的循环；

f)若在步骤b)和步骤c)中第一位的击中测序读段不能成功截取35bp序列作为引物，则返回步骤a)；重新设计初始引物，而进入步骤b)和步骤c)开始虚拟PCR过程。

Claims

基于NGS读段搜索实现序列延伸的虚拟PCR方法，其特征在于，利用对测序读段的搜索来建立序列片段重叠群从而在不进行实际的PCR仪器操作的情况下，在程序中实现模拟PCR扩增目的基因的过程。
如权利要求1所述的虚拟PCR方法，其特征在于，包括如下步骤：

1)对实验材料的全基因NGC测序：选择所需的实验材料提取长片段DNA，将长片段DNA打断后加载到基因芯片中，使用测序仪进行边合成边测序，获得样品的短片段90-150bp成对的测序读段数据；

2)测序读段数据的预处理：将步骤1)中获得的测序读段数据去除测序重复，去除测序接头、Barcode及低质量数据；

3)虚拟PCR过程：在不进行实际的PCR仪器操作的情况下，在程序中模拟PCR扩增目的基因的过程，从而获得目的基因的扩增序列。
如权利要求2所述的虚拟PCR方法，其特征在于，所述的NGC测序的覆盖度不低于50X。
如权利要求2或3所述的虚拟PCR方法，其特征在于，所述的步骤3)的虚拟PCR过程，包括以下步骤：

a)引物设计：利用目的片段S1的两端侧翼分别设计3’及5’端长度为30-40bp的虚拟引物一对，这两个引物分别称为seed_L与seed_R；

b)3’端的延伸：在程序起始设定预期延伸长度，并输入初始引物及全部的测序读段数据，在测序读段数据中搜索seed_L引物序列，并按照seed_L在测序读段数据中从左到右位置的顺序对搜索击中的测序读段进行排序，选择排列第一位的测序读段，截取其上seed_L右侧的序列进行延伸，同时以该被截取的序列最右侧30-40bp序列作为新的seed_L，继续搜索-延伸，如此循环直至向右延伸到设定的长度形成Contig_L1，同理以seed_L的反向互补序列seed_L_reverse作为引物向左延伸到设定的长度，形成Contig_L_reverse，将Contig_L_reverse做反向互补形成Contig_L2，将Contig_L2与Contig_L1取并集，进而得到3’延伸的产物Contig_L；

c)5’端的延伸：在程序起始设定预期延伸长度，并输入初始引物及全部的测序读段数据，在测序读段数据中搜索seed_R引物序列，并按照seed_R在测序读段数据中从右到左位置的顺序对搜索击中的测序读段进行排序，选择排列第一位的测序读段，截取其上seed_R左侧的序列进行延伸，同时以该被截取的序列最左侧30-40bp序列作为新的seed_R，继续搜索-延伸，如此循环直至向左延伸到设定的长度形成Contig_R1，同理以seed_R的反向互补序列seed_R_reverse作为引物向右延伸到设定的长度，形成Contig_R_reverse，将Contig_R_reverse做反向互补形成Contig_R2，将Contig_R1与Contig_R1取并集，进而得到3’延伸的产物Contig_R；

d)获得扩增序列：两侧延伸的序列Contig_L与Contig_R，依据重叠关系，合并取并集得到所设定长度的序列片段重叠群，进而得到完整的扩增序列S2，至此虚拟PCR完成。
如权利要求4所述的虚拟PCR过程，其特征在于，若在其扩增目的基因的过程中出现阻断，则程序会出现报警并提示更换新引物seed，如此循环到第一步，重新进行虚拟PCR过程。
如权利要求5所述的虚拟PCR过程，其特征在于，所述的阻断是第一位击中测序读段其上所截取的引物的序列不符合设定要求。
如权利要求5所述的虚拟PCR过程，其特征在于，所述更换新引物为重新设计初始引物seed。