WO2021088189A1

WO2021088189A1 - 一种应用于dna数据存储的寡核苷酸库恒温扩增方法

Info

Publication number: WO2021088189A1
Application number: PCT/CN2019/123916
Authority: WO
Inventors: 齐浩; 郜艳敏
Original assignee: 天津大学
Priority date: 2019-11-08
Filing date: 2019-12-09
Publication date: 2021-05-14
Also published as: CN110699433A; CN110699433B

Abstract

一种将寡核苷酸库中不同种类的寡核苷酸的浓度均一化并在常温下将其扩增的方法，可运用于DNA数据存储。该方法可以将不同种类的寡核苷酸的浓度均一化，还可以提高寡核苷酸片段的纯度。同时结合链置换扩增技术可在恒温下进行寡核苷酸库扩增，且其扩增产物为带有磷酸基团的ssDNA，这对随后的二代测序中文库制备提供了较大的便利。同时，SDA反应中所需要的缺口酶(Nickase)有较长的识别序列，使得数据的编码更为简单。并且，上述扩增方法是一种线性扩增-以最原始的模板进行扩增的方式，所以相比于PCR其突变不会放大，且可以多轮扩增。

Description

一种应用于DNA数据存储的寡核苷酸库恒温扩增方法

本申请要求于2019年11月08日提交中国专利局、申请号为201911086860.0、发明名称为“一种应用于DNA数据存储的寡核苷酸库恒温扩增方法”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及生物技术领域，更具体的说是涉及一种应用于DNA数据存储的寡核苷酸库恒温扩增方法。

背景技术

Oligo pool是基因组学、生物物理学、仿生生物和生物技术应用中的重要反应物；oligo pool可以作为引物和探针应用在生物核酸的扩增、富集、检测和测序过程中。研究者利用Oligo pool来实现基因组装合成；利用其作为探针来进行SNP基因分型；随着科学家发现DNA可以作为存储介质来大规模存储信息，研究者利用芯片合成Oligo pool与DNA数据存储结合将各种信息存储在DNA中。

目前，人们正在以指数增长的速率产生数据，其增长速度已超过存储硬盘的增大速度，使得人类对存储设备有了更高的需求，以保证更加有效的数据存储。而DNA是一种优良的数据存储介质，由于其较高的存储密度，文献报道每克DNA可以存储PB级数据信息；高耐久性；同时各种已成熟的DNA扩增技术可以高保真的复制存储的信息。

在读取储存在DNA序列中的信息时，需要将oligo文库中的部分DNA进行扩增，然后将扩增的DNA序列进行二代测序，最后将测序结果解码得到原始信息。

目前，复制存储在DNA序列中的信息全部采用聚合酶链式反应(Polymerase Chain Reaction，PCR)技术。众所周知，PCR技术是一种非常重要的体外的DNA扩增方法，通过两条引物、dNTPs、目的DNA序列和聚合酶在体外复制得到大量的目标序列。它有3个步骤：变性、退火、延伸，需要通过控制温度来实现这3个步骤的完成。其为DNA在体外扩增提供了革命性地变革，目前仍广泛应用于生物学相关的各个领域。

但该技术有如下几种缺点：1)需要精准的温度和循环控制，该过程势必有热量的放出，该过程对未来DNA数据存储的应用有了一定的限制(因为热量也是影响CPU性能的一个重要因素)；2)需要可以精准控制温度和循环的设备-PCR仪，这就相对增加了成本；3)PCR过程的温度相对较高，温度高会使DNA的衰减速度加快，降低了DNA数据存储的时间；4)PCR过程有一定序列的偏好性，会造成部分数据的丢失；5)PCR产物是双链产物，其5’末端没有磷酸基团。在后续的二代测序文库构建时首先要进行磷酸化修饰，然后加adaptor进行接下来的实验；6)PCR过程产生的突变会保留下去，而后的循环会以突变的错误的序列为模板，进而放大错误信号。

同时，利用合成的oligo pool可以高通量进行基因组装，进行SNP基因分型以及DNA信息存储等等。但是由于在合成oligo pool的过程中，合成的oligos浓度不均匀，在对合成的oligos进行扩增过程中，还会产生部分oligo不能够扩增导致oligo pool中各个oligo的浓度不均匀，产生偏差等等。导致部分基因不能合成，基因组装失败。

此外，传统上寡核苷酸的纯化依赖于基于迁移率的分离方法，例如高效液相色谱(HPLC)和聚丙烯酰胺电泳(PAGE)，然而，与这些基于移动性的纯化方法相关的成本主导了整体寡核苷酸合成成本，使得这些方法不适合高通量使用。由于长度和序列变异，库中的寡核苷酸将具有不同的迁移速率，因此将HPLC或PAGE应用于寡核苷酸库不能达到所需的纯化效果。而且，即使对于单一寡核苷酸纯化，HPLC和PAGE也难以完全除去与预期序列仅仅相差一个碱基的寡核苷酸杂质。虽然已经提出基于聚合的替代纯化技术、错配识别酶或相标记的方法，并且也被用于同时纯化寡核苷酸库，但这些技术在HPLC和PAGE上通常没有显示出更好的纯度，并且没有在单分子水平上系统地分析产品序列来表征真正的纯度。Zhang，DY等介绍的化学计量寡核苷酸库纯化的方法(SNOP)虽然可以实现同时纯化，但是前期设计以及化学修饰较为复杂。

发明内容

有鉴于此，本发明的目的在于提供一种应用于DNA数据存储的寡核苷酸库恒温扩增方法，使得所述恒温扩增方法能够在室温下恒温扩增，从而降低DNA衰减速度，延长DNA数据存储时间；同时扩增产物是5’末端带有磷酸基团的DNA，可直接加adaptor进行二代测序，并且扩增过程一直是以原始DNA oligo为模板进行的扩增，避免扩增过程中产生的突变不断复制下去，进而将错误的信号放大；以及可以进行多轮扩增；

本发明的另外一个目的在于提供一种应用于DNA数据存储的寡核苷酸库恒温扩增方法，使得所述恒温扩增方法能够使寡核苷酸库各核苷酸浓度(或分子数)更均一化地进行上述恒温扩增过程；

本发明的另外一个目的在于提供一种应用于DNA数据存储的寡核苷酸库恒温扩增方法，可使寡核苷酸库在实现数量庞大的寡核苷酸纯化基础上进行上述恒温扩增过程，且方法简便，纯化效果优于单独的HLPC和PAGE纯化方法。

为实现上述发明目的，本发明提供如下技术方案：

一种应用于DNA数据存储的寡核苷酸库恒温扩增方法，包括：

步骤A、提供双链寡核苷酸库(若为单链寡核苷酸库，则可先用反向引物扩增为双链寡核苷酸库)；其中，所述双链寡核苷酸库的每一双链核苷酸上的其中一条链上设置有缺口酶识别序列和位于缺口酶识别序列下游的用于储存信息的可变序列区，以及位于链两端的引物1区域和引物2区域；

步骤B、步骤A中的双链寡核苷酸库与缺口酶或缺口酶+反向引物进行SDA扩增，获得单链寡核苷酸扩增产物或双链寡核苷酸扩增产物。

本发明基于链置换扩增(Strand Displacement Amplification，SDA)技术，通过寡核苷酸库中的寡核苷酸上的缺口酶识别序列进行链置换扩增，缺口酶(Nickase)识别特定的序列位点并切割以及外切核酸酶缺陷的DNA聚合酶在切口位点启动复制并置换下游非模板链。由于缺口酶重复切口、链置换，DNA以较高的效率进行扩增。它无需引物来启动扩增反应；更重要的是不需要能够精准地控制温度的升降温设备。并且，可通过生物素修饰的反向引物将DNA寡核苷酸库扩增为双链(如不添加反向引物，则扩增产物为单链寡核苷酸库)，后将其固定在修饰有链霉亲和素的磁珠上，扩增产物直接从上清液中吸出用于测序，原始的DNA寡核苷酸库留在磁珠上，可进行后面的多次扩增，且之后的扩增无需引物的加入。由于原始的DNA寡核苷酸库留在磁珠上，本发明恒温扩增方法是一种线性扩增-以最原始的模板进行扩增的方式，所以相比于PCR其突变不会放大。

本发明恒温扩增方法的流程示意图见图1和图2，其中图1为扩增产物为单链寡核苷酸库(ssDNA)的示意图，图2为扩增产物为双链寡核苷酸库(dsDNA)的示意图，两者的区别在于SDA过程中是否加入反向引物。

在本发明具体实施方式中，本发明所述缺口酶Nb.BbvCI、Nb.BsmI、Nb.BsrDI、Nb.BssSI、Nb.BtsI、Nt.AlwI、Nt.BbvCI、Nt.BsmAI、Nt.BspQI、Nt.BstNBI、Nt.CviPII、Hum I、Anil I或NrS-1，其中NrS-1是2017年Zhu，B.et al发现的一种DNA聚合酶，该酶可以识别特定的序列并且在没有引物的情况下引发聚合反应，而且该酶还具有链置换DNA合成能力，故该聚合酶也可以进行类似恒温扩增反应，充当缺口酶，当使用该酶时不必再使用聚合酶，而其他缺口酶在使用时仍需要配合聚合酶进行恒温扩增反应；所述聚合酶可使用本领域常规的聚合酶，如Vent(exo-)DNA polymerase、Klenow Fragment(exo-)、Bsu DNA polymerase、Large Fragment、Bst DNA polymerase、Large fragment、Phi29 DNA polymerase、NrS-1等。

在本发明具体实施方式中，所述缺口酶可选择使用Nt.BbvCI、Hum I或Anil I，所对应的识别序列分别为Nt.BbvCI：CCTCAGC；Hum I：GTGGGAATTGCTGAGCGTTAGGCTCATTACT，SEQ ID NO：1所示；Anil I：TAACAGAGTAACCTCCTCA，SEQ ID NO：2所示；因后两者有较长的识别序列，故可使得数据的编码更为简单(因较长的序列使得其出现在具有实际信息的编码序列中的概率更小)。

在本发明具体实施方式中，所述双链寡核苷酸库由一种或两种以上的双链寡核苷酸构成：所述可变序列区域根据信息储存需要确定该区域核苷酸序列；所述引物1区域和引物2区域为通用引物序列区域。

若为单链寡核苷酸库，则单链寡核苷酸库由一种或两种以上的单链寡核苷酸构成：所述单链寡核苷酸包括位于两端的引物1区域和引物2区域，以及位于中间的缺口酶识别序列和可变序列区域。其中，所述可变序列区域根据信息储存需要确定该区域核苷酸序列；所述引物1区域和引物2区域为通用引物序列区域。

此外，本发明所述扩增方法还包括在步骤A之前对寡核苷酸库进行均一化操作，包括：

步骤1、将初始单链寡核苷酸库以及DNA标准品进行凝胶电泳，依据电泳结果，通过灰度分析DNA标准品与寡核苷酸库，计算出初始单链寡核苷酸库的平均分子数；或

将初始双链寡核苷酸库采用正、反向引物对双链寡核苷酸库进行PCR扩增，其中正向或反向引物5’末端带有磷酸基团；PCR扩增后，lambda外切酶识别带有磷酸基团的一条链并进行降解，得到总量放大的单链寡核苷酸库；将所述总量放大的单链寡核苷酸库以及DNA标准品进行凝胶电泳，依据电泳结果，通过灰度分析DNA标准品与所述总量放大的单链寡核苷酸库，计算出所述总量放大的单链寡核苷酸库的平均分子数；

步骤2、按平均分子数加入单链寡核苷酸库中每种单链寡核苷酸的捕获探针，经过杂交，高于平均分子数的单链寡核苷酸没有被捕获会处于游离状态，而低于平均分子数的单链寡核苷酸会全部被捕获，多余的捕获探针处于游离状态；捕获完成之后，经聚合酶聚合，然后将游离的单链寡核苷酸以及捕获探针经外切酶I降解，使各单链寡核苷酸分子数都趋于平均数，拉近各单链寡核苷酸的浓度，得到浓度相对均一的双链寡核苷酸文库；其中，所述捕获探针根据每种单链寡核苷酸序列设计，且5’末端带有磷酸基团；

步骤3、重复步骤1至步骤2零次或一次以上。

在本发明具体实施方式中，所述单链寡核苷酸库由一种或两种以上的单链寡核苷酸构成：所述单链寡核苷酸包括位于两端的引物1区域和引物 2区域，以及位于中间的缺口酶识别序列、可变序列区域和特异条形码区域；更为具体地，所述单链寡核苷酸由引物1区域、缺口酶识别序列、可变序列区域、特异条形码区域以及引物2区域依次连接而成(5’→3’)；

在本发明具体实施方式中，所述初始双链寡核苷酸库由一种或两种以上的双链寡核苷酸构成：所述双链寡核苷酸的一条链包括位于两端的引物1区域和引物2区域，以及位于中间的缺口酶识别序列、可变序列区域和特异条形码区域；更为具体地，所述双链寡核苷酸的一条链由引物1区域、缺口酶识别序列、可变序列区域、特异条形码区域以及引物2区域依次连接而成(5’→3’)；其中，所述可变序列区域根据实际需要确定该区域核苷酸序列，例如在信息存储应用中，可变序列区域即为所存储的信息的对应序列；所述引物1区域和引物2区域的序列可按照常规引物设计原则设计，在每种寡核苷酸中两个区域的序列可以保持相同，也可以不同；

所述特异条形码区域用于区分每种寡核苷酸，其核苷酸序列由交替的强和弱核苷酸组成，所述强核苷酸为C或G，所述弱核苷酸为A或T，例如CACACA、GTGTGT、CAGTCT等，以这种方式设计条形码序列可以最小化与其互补序列杂交的标准自由能的变化；特异条形码区域的碱基长度依据寡核苷酸库中寡核苷酸的种类数而定，其参照公式2 ^L＝m计算，L表示特异条形码区域至少达到的碱基长度(或称个数)，m表示寡核苷酸库中寡核苷酸的种类数。此外，用不同引物区别每种氨基酸，由于引物设计原则的限制，会将寡核苷酸库的寡核苷酸种类数量限制在14000条以内，而且在有大量引物的情况下，每条引物的结合效率会有差异。而本发明使用特异条形码，则避免寡核苷酸库数量的限制，同时本发明针对引物2+条形码区域的结构进行扩增，特别是在每种寡核苷酸引物2区域序列相同的前提下，较大程度上会减少结合效率的差异。

此外，引物2区域的序列在每种寡核苷酸中也可以不同，彼此不同的引物2区域的序列与特异条形码相结合，会进一步提高寡核苷酸库的寡核苷酸种类数量。

在上述均一化过程中，在单链寡核苷酸库的基础上，本发明所述捕获探针序列为与特异条形码区和引物2区互补的序列。

本发明所述浓度相对均一的双链寡核苷酸文库可通过试剂盒纯化回收，为了能够更加高效、简便的纯化双链寡核苷酸库，本发明在最后一次重复中采用5’端修饰有生物素的捕获探针，在此基础上，本发明所述均一化方法还包括步骤4：

双链寡核苷酸文库和带有链霉亲和素的磁珠混合，通过生物素和链霉亲和素将双链寡核苷酸与磁珠结合，然后磁铁吸附，从而将浓度相对均一的双链寡核苷酸文库纯化。

在本发明具体实施方式中，所述步骤1中计算平均分子数具体为：

取已知上样体积的单链寡核苷酸库测试样品以及已知质量的DNA标准品进行聚丙烯酰胺凝胶电泳，通过灰度分析获得单链寡核苷酸库以及DNA标准品的电泳条带灰度值，按照下式计算出寡核苷酸库的平均分子数d：

m2＝m1*N2/N1；

ρ＝m2/v2；

M2＝(L/m)*325；

n2＝(ρ/M2)*N _A；

d＝n2/m；

其中，m1表示DNA标准品的质量，m2表示测试样品的质量；N1表示DNA标准品的灰度值，N2表示测试样品的灰度值；v2表示测试样品的上样体积；ρ表示单链寡核苷酸库的浓度；M2表示单链寡核苷酸库的相对分子量，L表示单链寡核苷酸库所有种类寡核苷酸的总长度，m表示单链寡核苷酸库中寡核苷酸的种类数；n2表示单链寡核苷酸库的分子数，N _A为阿伏伽德罗常数，325表示4种碱基的平均分子量。在实际的建库过程中，每种寡核苷酸的长度优选为长度一致，便于计算相对分子量M2。

针对现有寡核苷酸合成成本较高的问题，本发明均一化方法在步骤1凝胶电泳之前还包括对初始寡核苷酸库(初始时为单链寡核苷酸库，重复时为双链寡核苷酸库，此时与初始双链寡核苷酸库的步骤保持一致)进行PCR扩增进行总量放大的环节，该环节也参与重复：

采用正、反向引物对寡核苷酸库进行PCR扩增，其中正向或反向引物5’末端带有磷酸基团；

PCR扩增后，lambda外切酶识别带有磷酸基团的一条链并进行降解，得到总量放大的单链寡核苷酸库。

在本发明均一化具体实施方式中，反向引物5’末端带有磷酸基团；所述正向引物为引物1区域的序列，所述反向引物为5’末端带有磷酸基团修饰的与引物2区域互补的序列。本发明均一化方法的流程示意图见图3(以初始单链寡核苷酸库为例说明，初始双链寡核苷酸库的流程原理相同)。

在本发明均一化过程中，本发明可先将寡核苷酸库通过PCR的方式进行总量的放大，降低寡核苷酸合成成本；同时采用平均分子数加入等量的捕获探针，使各寡核苷酸分子数都趋于平均数，拉近各单链寡核苷酸的浓度，整个过程可以进行多次循环，达到理论上各寡核苷酸的绝对化均一；此外，配合磁珠吸附技术，可高效、简便的纯化寡核苷酸库，相比HLPC和PAGE纯化方法更加优异。

在本发明相关验证试验中，本发明扩增方法不仅能够实现寡核苷酸库的均一化，并且扩增方法能够在室温下恒温扩增，从而降低DNA衰减速度，延长DNA数据存储时间；同时扩增产物是5’末端带有磷酸基团的DNA，可直接加adaptor进行二代测序用于DNA信息储存和解码中，并且扩增过程一直是以原始DNA oligo为模板进行的扩增，避免扩增过程中产生的突变不断复制下去，进而将错误的信号放大；以及可以进行多轮扩增。

由以上技术方案可知，本发明开发了一种将寡核苷酸库中不同种类的寡核苷酸的浓度的均一化并在常温下将其扩增的方法，可运用于DNA数据存储。该方法可以将不同种类的寡核苷酸的浓度均一化，还可以提高寡核苷酸片段的纯度。同时结合链置换扩增技术可在恒温下进行寡核苷酸库扩增，且其扩增产物为带有磷酸基团的ssDNA，这对随后的二代测序中文库制备提供了较大的便利。同时，SDA反应中所需要的缺口酶(Nickase)有较长的识别序列，使得数据的编码更为简单。并且，本发明扩增方法是一种线性扩增-以最原始的模板进行扩增的方式，所以相比于PCR其突变不会放大，且可以多轮扩增。

附图说明

图1所示为本发明扩增方法的流程示意图(扩增产物为ssDNA)；

图2所示为本发明扩增方法的流程示意图(扩增产物为dsDNA)；

图3所示为本发明所述均一化方法的流程示意图；

图4所示为聚丙烯酰胺凝胶电泳结果；其中，孔道1：已知质量的DNA标准品片段；孔道2：PCR产物；孔道3：PCR产物经Lambda exonuclease降解之后的ssDNA产物；孔道4：20bp DNA ladder；

图5所示为双链寡核苷酸库的二代测序有效数据中的一百万条序列的覆盖度结果；

图6所示为小容量寡核苷酸浓度均一化进行荧光验证的结果；其中，泳带1表示只有mix1；泳带2表示mix1+mix4聚合后的产物；泳带3表示mix1+mix4聚合和外切酶降解后产物；泳带4表示只有mix2；泳带5表示mix2+mix4聚合后产物；泳带6表示mix2+mix4聚合和外切酶降解后产物；泳带7表示只有mix3；泳带8表示mix3+mix4聚合后产物；泳带9表示mix3+mix4聚合和外切酶降解后产物；

图7所示为本发明扩增方法验证的聚丙烯酰胺凝胶电泳结果；泳带1表示单独加入SDA模板(即PCR产物)；泳带2表示加入SDA模板+缺口酶(Nt.BbvCI)+聚合酶(Klenow Fragment(exo-))，即产生单链SDA产物(箭头所指)；泳带3表示加入SDA模板+缺口酶(Nt.BbvCI)+聚合酶(Klenow Fragment(exo-))+R4，即产生双链SDA产物(箭头所指)；

图8所示为ssDNA的5’磷酸化的验证原理图；

图9所示为ssDNA的5’磷酸化的验证的凝胶图；其中，A和B是同一块凝胶，区别是A是凝胶成像仪的RGB孔道拍摄(电泳结束后直接成像)，B是UV孔道拍摄(经SYBR Gold染色后成像)；泳道1表示L4；泳道2表示带有荧光基团的F2；泳道3表示SDA模板+缺口酶+聚合酶产生SDA product即ssDNA；泳道4表示ssDNA+L4+F2一起退火后加入 T4DNA ligase所得产物(白色箭头所指即连接产物)；泳道M表示20bp DNA Ladder(Dye Plus)(TaKaRa)；

图10所示为dsDNA的5’磷酸化的验证原理图；

图11所示为dsDNA的5’磷酸化的验证的凝胶图；其中，A和B是同一块凝胶，区别是A是凝胶成像仪的RGB孔道拍摄(电泳结束后直接成像)，B是UV孔道拍摄(经SYBR Gold染色后成像)；泳道M表示20bp DNA Ladder(Dye Plus)(TaKaRa)；泳道1是荧光探针Probe 2；泳道2：SDA反应产生的dsDNA产物；泳道3：probe 2+dsDNA+T4 DNA ligase温育一段时间后所得产物(白色箭头所指即连接产物)；

图12所示为本发明SDA反应中模板循环的验证结果；其中，泳道1：带有生物素的双链DNA；泳道2：第1轮反应的dsDNA产物；泳道3：第2轮反应的dsDNA产物；泳道4-泳道11：第3-10轮反应的dsDNA产物。

具体实施方式

本发明公开了一种应用于DNA数据存储的寡核苷酸库恒温扩增方法，本领域技术人员可以借鉴本文内容，适当改进工艺参数实现。特别需要指出的是，所有类似的替换和改动对本领域技术人员来说是显而易见的，它们都被视为包括在本发明。本发明所述恒温扩增方法已经通过较佳实施例进行了描述，相关人员明显能在不脱离本发明内容、精神和范围内对本文所述的恒温扩增方法进行改动或适当变更与组合，来实现和应用本发明技术。

在本发明具体实施例中，所用实验试剂如下表1：

表1

试剂名称	生产公司
Lambda Exonuclease	New England Biolabs
Q5 DNA Polymerase	New England Biolabs
Nt.BbvCI	New England Biolabs
T4 Gene 32 Protein	New England Biolabs
Streptavidin Magnetic Beads	New England Biolabs

Exonuclease I	New England Biolabs
Klenow fragment exo ^-	南京诺唯赞生物技术有限公司
EasyTaq DNA Polymerase	北京全式金生物技术有限公司
Proteinase K	北京全式金生物技术有限公司
Bovine Serum Albumin(BSA)	TaKaRa
DNase/RNase-free H ₂O	北京索莱宝科技有限公司
agarose	Genview
Eastep Gel and PCR Cleanup Kit	Shanghai Promega Biological Products LTD.
乙二胺四乙酸(EDTA)	MDBio Inc.
TEMED	Sigma
40％丙烯酰胺(19∶1)	北京索莱宝科技有限公司
Tris-base	天津市为科生物技术有限公司
硼酸	天津市元立化工有限公司
过硫酸铵	天津市江天化工技术有限公司
1x TE buffer	上海生工生物工程股份有限公司

所涉及的相关序列见表2：

表2

各缓冲溶液的配制如下：

50xTAE缓冲液：242g/L Tris-base，37.2g/L Na ₂EDTA·2H ₂O，57.1mL/L冰乙酸；

10xTBE缓冲液：108g/L Tris-base，55g/L硼酸，40mL EDTA(pH8.0)；

漂洗结合缓冲液：20mM Tris-HCl(pH7.5)，0.5M NaCl，1mM EDTA(pH8.0)；

12％聚丙烯酰胺凝胶：1mL 10x TBE，3mL 40％丙烯酰胺(19∶1)，6.7μL TEMED，17.6μL 30％APS，补水至10mL。

在本发明具体实施例中，寡核苷酸上引物1区域的序列和引物2区域的序列为通用引物序列，可按照引物设计原则随意设计，例如：

引物1区域的序列为SEQ ID NO：3所示序列；

引物2区域的序列：TGTTGGCTTAAAGCGCT，SEQ ID NO：4所示；或TGTCCGGCGTCCGCGAT，SEQ ID NO：17所示；

上述引物1区域的序列以及引物2区域的序列仅是为了更具体地说明本发明均一化方案，其他参照引物设计原则设计的通用引物均可以。

本发明均一化具体实施例中以一个包含256种单链寡核苷酸(每种单链寡核苷酸的长度为180nt)的库为例对本发明所述方法进行描述，该单链寡核苷酸库所对应的256条探针序列均类似于SEQ ID NO：18所示序列

区别在于与核苷酸特异条形码区序列互补的序列不同(斜体部分碱基)。在此基础上，本发明在此举例说明本发明特异条形码区域的碱基长度，依照前述公式2 ^L＝256，则L＝8，即在容量为256种单链寡核苷酸库中，特异条形码区域的碱基长度(个数)至少为8。

在实际扩增中，为了更好地消除聚合酶识别3’末端的差异，可将每个探针上的特异条形码区域互补序列最后一个碱基设置为相同碱基；此外，由于探针需要修饰磷酸基团或生物素，为了更好地消除这些修饰带来的空间位阻效应，在探针的上游位置可以添加1个或多个碱基A、C、T或G，这些操作并不限制本发明的技术方案，在SEQ ID NO：18所示序列的探针中，本发明在探针上游添加了5个碱基A来消除空间位阻，将每个探针上的特异条形码区域互补序列最后一个碱基设置为相同的碱基C；

下面结合实施例，进一步阐述本发明。

实施例1：将oligo pool进行PCR扩增以增大oligo pool的总分子数

①PCR体系和程序

表3

Component	50μL	Final Conc.
H ₂O	21.5
5xQ5 Reaction buffer	10	1x

dNTPs(2.5mM)	4	0.2mM
F1(100μM)	2	4μM
R1(100μM)	2	4μM
Oligo pool(0.044ng/μL)	10	0.44ng/50μL
Q5	0.5

F1为在SEQ ID NO：3所示序列基础上对5’端的1-5个碱基进行硫代修饰的序列，例如C*T*A*CTCCCACTCGTCTATCT；(Lambda外切酶对5’非磷酸化修饰的寡核苷酸有特别微弱的切割能力，为了防止其降解，本发明优选对F1的序列的5’端的碱基进行硫代修饰，*表示修饰碱基)；

R1为在SEQ ID NO：5所示序列基础上对5’端修饰磷酸基团的序列，例如：PO ₄-AGCGCTTTAAGCCAACA；

②按照Eastep Gel and PCR Cleanup Kit说明书的操作步骤将PCR产物过柱纯化回收。

③40μL DNase/RNase-free H ₂O溶解。

④Nano-100测得DNA浓度。

实施例2：Lambda Exonuclease降解恢复为单链DNA oligo pool

(1)反应体系

表4

Component	30μL	Final Conc.
H ₂O	15.5	-
10xLambda exonuclease reaction buffer	3	1x
PCR product(above)(69ng/μL)	10	23ng/μL
Lambda Exonuclease(5U/μL)	1.5	0.25U/μL

37℃温育3h，然后加入EDTA使其终浓度至10mM以终止反应。

(2)按照Eastep Gel and PCR Cleanup Kit说明书的操作步骤将产物过柱纯化回收。

(3)40μL DNase/RNase-free H2O溶解。

(4)12％聚丙烯酰胺凝胶电泳验证ssDNA(SYBR Gold染色20min)，同时通过加入已知量的标准DNA并通过灰度分析测得ssDNA的浓度，聚丙烯酰胺凝胶电泳结果见图4。

(5)灰度分析过程：通过Azure进行各条带进行量化。得到孔道1和孔道3的灰度分别是415881和178776，已知孔道1的质量为m1＝29.3ng，那么孔道3的ssDNA的质量为415881/178776＝29.3/m2，计算得到孔道3的为m2＝12.6ng。已知孔道3上样量为v2＝4μL，则ssDNA的浓度为ρ＝m2/v2＝3.15ng/μL。

(6)已知每种ssDNA的长度为180nt，共有m＝256种分子。那么其相对分子质量为M2＝(L/m)*325＝180*325＝58500，1μL中共有分子数n2＝(ρ/M2)*N _A＝(3.15*10 ^-9/58500)*6.02*10 ²³＝3.24*10 ¹⁰，则寡核苷酸库平均分子数d＝n2/m＝3.24*10 ¹⁰/256＝1.26*10 ⁸。

实施例3：捕获探针捕获ssDNA

取对应的捕获探针(与引物2区和特异条形码区序列互补)的分子数为实施例2计算得出平均分子数(该捕获探针的分子数由厂家提供一定的浓度换算而来的，N＝c*v*N _A，c为捕获探针的浓度，v是要加入捕获探针的体积)捕获ssDNA，高于平均分子数的ssDNA没有被捕获会处于游离状态，而低于捕获探针的ssDNA会全部被捕获，多余的相应的捕获探针处于游离状态。捕获完成之后，经聚合酶聚合，然后将游离的ssDNA以及捕获探针经外切酶I降解。这样会使得文库中各种类的DNA分子数都趋于平均数，拉近各种类的DNA的浓度，使得其均一化。

(1)捕获

使用了一个含有256条不同序列的DNA oligo pool，相对应的有256条捕获探针。

表5

Component 1	50μL	Final Conc.
Hybridization Buffer	24.7	1x
ssDNA pool(3.15ng/μL)	20	2.5x10 ⁹/条

Capture probe(780pM)

5.3

2.5x10 ⁹/条

95℃温育3min，然后以0.1℃/s的速率降至60℃。最后60℃温育2h。

(2)延伸

表6

Component 2	15μL	Final Conc.
H ₂O	2.3
10xEasyTaq Reaction buffer	6.5	1x
dNTPs(2.5mM)	5.2	0.2mM
EasyTaq	1

首先将表6体系温育至60℃，然后将该体系与表5体系(捕获时的混合物)混合。60℃温育15min。

(3)外切酶I降解

表7

Component 3	10μL	Final Conc.
H ₂O	1.7
10xExo I Reaction buffer	7.5	1x
Exo I	0.8

将表7体系与上面延伸之后产物混合进行游离的ssDNA降解。37℃温育3h，然后80℃20min灭活外切酶I。

(4)PCR产物纯化得到均一化后的DNApool

将上述产物用试剂盒进行PCR产物纯化。

(5)重复前述各实施例步骤

原则上实施例1-3是可以无限次重复的，直至将DNA pool绝对的均一化。

实施例4：纯化环节

在最后一次重复时，捕获探针5’端改修饰为生物素而不修饰磷酸基团，可以直接和带有链霉亲和素的磁珠混合，磁铁吸附，从而将均一化的DNApool纯化。

(1)首先，将7μL Streptavidin Magnetic Beads(4mg/mL)用100μL漂洗结合缓冲液漂洗，震荡混匀，置于磁场处吸附30s，弃上清。

(2)重复步骤(1)一次。

(3)将实施例3得到的产物，150μL漂洗结合缓冲液以及2μL 20mg/mL的BSA加入磁珠中，混匀，置于37℃摇床温育30min。

(4)置于磁场处吸附30s，弃上清。

(5)用100μL漂洗结合缓冲液漂洗，震荡混匀，置于磁场处吸附30s，弃上清。

(6)重复步骤(5)一次。

(7)10μL 0.5x TE溶解得到Stre-Bio DNA Pool。

实施例5：二代测序验证

将实施例4获得的双链寡核苷酸库进行恒温链置换扩增反应，以达到二代测序所要求的量，恒温扩增反应体系如下表8；

表8

Component	50uL	Final Conc.
H ₂O	20.3	-
10xNEBuffer2	5	lx
dNTPs(2.5mM)	5	0.2mM
R2(10μM，反向引物)	3	4μM
Stre-Bio DNA pool	10	4μM
Nt.BbvCI(1U/μL)	4	0.08U/μL
KF(exo-)(5U/μL)	1.6	0.16U/μL
BSA(20mg/mL)	0.5	0.2mg/mL
SSB(10mg/mL)	0.6	0.12mg/mL

37℃温育30min，置于磁场放置2min，吸取上清至一个新的PCR管中。然后加0.5μL Proteinase K，37℃温育30min。

按照Eastep Gel and PCR Cleanup Kit说明书的操作步骤将PCR产物过柱纯化回收，送至试剂公司进行二代测序。

从测序的有效数据中取一百万的序列，经blast之后，可以看到经均一化之后覆盖度的分布更加集中。且从峰值和均值之间的差异上看，均一化之后的峰值(峰值是通过覆盖度和频率的图用高斯函数拟合得到)更加靠近均值，说明本发明的均一化是有一定效果的。内置小图是将未均一化，均一化以及均值做的柱形图，使其差异更加直观(见图5)。

实施例6：寡核苷酸浓度均一化验证

该实施例拟通过人工合成小容量单链寡核苷酸库对均一化进行简单验证(不进行PCR扩增和lambda外切酶的降解)，按照本发明步骤1和步骤2方法进行一次捕获；试验在合成的单链寡核苷酸5’端带FAM基团(用于后续电泳观测的需要)的情况下进行SNOP可行性验证。首先合成不同长度的单链DNA片段L1(90bp)，L2(73bp)，L3(60bp)及对应的捕获探针R3，R4，R5，并且分别进行不同比例的混合组分如表9/10所示，mix1：L1/L2/L3＝1∶1∶1；mix2：L1/L2/L3＝1∶5∶25；mix3：L1/L2/L3＝5/25/1；mix4：R3/R4/R5＝1∶1∶1。

将mix4分别与mix1/mix2/mix3混合在一起，组分如表11所示，其反应条件为：95℃加热3min，然后以0.1℃/s的速度降至60℃，最后60℃下温育2h。

接着进行聚合酶的延伸，组分如表12所示，其反应条件为：60℃温育10min。

最后外切酶降解剩余的单链寡核苷酸，组分如表13所示，其反应条件为：37℃温育3h。

反应结束后进行聚丙烯酰胺凝胶电泳，如附图6所示；从胶图中可以看出尽管初始加入的DNA片段比例不同，但通多加入相同比例的引物，最终得到比例相同的DNA片段，实现了浓度的均一化，条带的亮度一致(图中方框所示)；而加入了Exo I的处理能够将未捕获的游离单链寡核苷酸以及捕获探针降解，电泳结果上显示不出现额外的条带，泳道5和6对比以及泳道8和9对比可以看出；而泳道2由于本身三种寡核苷酸的浓度是一致的，故没有出现额外的条带。

表9

表10

Component2	mix4
R3	2.5(1μM)
R4	2.5(1μM)
R5	2.5(1μM)
H ₂O	2.5

表11

Component3	10(μL)	Final Conc.
Hybridization Buffer	8	-
mix1/2/3	1	-
mix4	1	25nM

表12

Component4	20(μL)	Final Conc.
H ₂O	6.1
10x Easy Taq Reaction buffer	2	1x
dNTPs(2.5mM)	1.6	0.2mM
Miture(表10)	10
Taq DNA Pol.	0.3

表13

Component5	25(μL)	Final Conc.
H ₂O	1.5
10x Exo I Reaction Buffer	2.5	1x
Exo I(5U/μL)	1
Mixture(表11)	20

实施例7：本发明扩增方法的验证

为了验证本发明扩增方法反应原理的可行性，本实施例首先在无链霉亲和素-生物素系统的情况下设计一条双链寡核苷酸SDA28作为模板进行SDA扩增，组分如表14所示，均为常规SDA扩增组分，反应条件为：37℃温育3h。通过聚丙烯酰胺凝胶电泳对产物验证，如附图7所示。

表14

注：泳带1体系中的反向引物R7为了做空白对照，由于没有加入缺口酶和聚合酶，R7在该体系中没有作用；

由图7可知，采用本发明SDA扩增方法可以使寡核苷酸正常产生单链、双链产物。

实施例8：5’磷酸化的验证

在证明本发明SDA反应的可行性之后，本实施例为了使实验结果的表征更具有说服力和更具有实用性，同时，本发明研究了5’磷酸化基团的验证。反应原理如附图8所示，本实施例设计了另外两条寡核苷酸序列用于验证，一是5’端带有FAM荧光基团的probe 1(F2)(其提供3’端-OH基团)；二是与probe 1的3’端互补且与SDA产物(SDA product)5’端互补的L4。若SDA产物的5’端带有磷酸基团，当它们一起退火后，再经T4 DNA 连接酶连接后，probe 1与SDA产物会连接在一起，致使荧光条带上移；若SDA产物的5’端没有磷酸基团，则probe 1与SDA product不会连接在一起。组分如表15，反应条件为37℃3h。结果如附图9(附图9是7M 15％Urea-PAGE)所示，该附图包含A、B两张结果图，但图A和图B是同一块凝胶，区别是A图是凝胶成像仪的RGB孔道拍摄(电泳结束后直接成像)，B图是UV孔道拍摄(经SYBR Gold染色后成像)。没有荧光基团的DNA在RGB成像的模式下是没有条带的，但经过SYBRGold染色后，所有的DNA条带在UV成像模式下均可看到。泳道1表示L4；泳道2表示带有荧光基团的F2；泳道3表示SDA模板+缺口酶+聚合酶产生SDA product即ssDNA；泳道4表示ssDNA+L4+F2一起退火后加入T4 DNA ligase所得产物(白色箭头所指即连接产物)；泳道M表示20bp DNA Ladder(Dye Plus)(TaKaRa)。从附图9B中可以看出泳道4中的产物比泳道3中的ssDNA上移了一些，同时从附图9A中也可以看出泳道4上面的位置出现了荧光条带，即说明了ssDNA确实和F2连接在一起了，进一步说明SDA产生的ssDNA带有5’磷酸基团。

为了进一步验证其带有5’磷酸基团的特性，本实施例又做了双链平滑末端的连接，反应原理可参考附图10。因为该步骤是二代测序过程中必不可少的一步，所以这对于二代测序来讲使具有重要意义。组分如表16(该体系用于制备扩增Probe 2)和表17(双链平滑末端连接的体系)，反应条件为：37℃3h。结果如附图11：该凝胶电泳图是12％Native-PAGE。该附图也包含A、B两张结果图。处理方法与附图9一致。泳道M表示20bp DNA Ladder(Dye Plus)(TaKaRa)；泳道1是荧光探针Probe 2(probe 2是有F2与其反向互补序列R6退火后形成的双链DNA probe)；泳道2：SDA反应产生的dsDNA产物；泳道3：probe 2+dsDNA+T4 DNA ligase温育一段时间后所得产物(白色箭头所指即连接产物)。从附图11B中可以看出泳道3中的产物比泳道2中的ssDNA上移了一些，同时从附图11A中也可以看出泳道3上面的位置出现了荧光条带，进一步说明SDA产生的dsDNA带有5’磷酸基团。

表15

Component	20μL	20μL	20μL	20μL	Final Conc.

H ₂O	16.5	16.5	13.5	11.5	-
10x T4 DNA ligase buffer	2	2	2	2	1x
Probe(10μM)	-	1	-	1	0.5μM
L4(10μM)	1	-	-	1	0.5μM
SDA product(9ng/μL)	-	-	4	4	1.8ng/μL
T4 DNA ligase(50U/μL)	0.5	0.5	0.5	0.5	1.25U/μL

注：SDA product为将前述SDA28进行扩增产生单链产物，将其产物纯化回收得到；

表16

Component	20μL	Final Conc.
H ₂O	14
10xTE buffer	2	1x
F2(100μM)	2	10μM
R6(100μM)	2	10μM

表17

Component	20μL	20μL	20μL	Final Conc.
H ₂O	17.5	13.5	12.5	-
10x T4 DNA ligase buffer	2	2	2	1x
Probe 2(10μM)	-	-	1	0.5μM
SDAdsDNA product(20ng/μL)	-	4	4	4ng/μL
T4 DNA ligase(50U/μL)	0.5	0.5	0.5	1.25U/μL

注：SDA dsDNA以前述SDA28为模板进行扩增产生的双链SDA产物，经纯化回收得到；Probe 2与Probe 1序列相同，区别在于Probe 2为双链；

实施例9：SDA反应中模板循环的验证

首先，将带有生物素的SDA28吸附到磁珠上(将200ng的DNA吸附到10μL的磁珠上，采用吸附在磁珠上的SDA28寡核苷酸作为模板)，然后放入SDA反应体系中进行扩增，这样可以得到大量的ssDNA产物。若此时反应体系中含有反向引物，则会产生大量的dsDNA产物。反应组分如表14(将SDA28替换为磁珠吸附的SDA28)，反应条件为37℃30min。然后利用磁铁进行吸附，吸取上清，即得到ssDNA和dsDNA产物，产物可通过凝胶电泳进行验证；但SDA反应的模板还留在磁珠上，再次加入SDA的反应组份进行下一轮扩增。如此循环下去，可以实现多轮反应，可参考附图2。随后按照该过程进行了10轮反应，结果如附图12。泳道M：20bp DNA Ladder(Dye Plus)；泳道1：带有生物素的双链DNA；泳道2：第1轮反应的dsDNA产物；泳道3：第2轮反应的dsDNA产物；依次下去，泳道11：第10轮反应的dsDNA产物。从结果中可以看出，每轮反应dsDNA的产量并没有减少，说明本发明扩增方法进行多轮扩增是可行的。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

一种应用于DNA数据存储的寡核苷酸库恒温扩增方法，其特征在于，包括：

步骤A、提供双链寡核苷酸库；其中，所述双链寡核苷酸库的每一双链核苷酸上的其中一条链上设置有缺口酶识别序列和位于缺口酶识别序列下游的用于储存信息的可变序列区，以及位于链两端的引物1区域和引物2区域；

步骤B、步骤A中的双链寡核苷酸库与缺口酶或缺口酶+反向引物进行SDA扩增，获得单链寡核苷酸扩增产物或双链寡核苷酸扩增产物。
根据权利要求1所述恒温扩增方法，其特征在于，所述缺口酶为Nb.BbvCI、Nb.BsmI、Nb.BsrDI、Nb.BssSI、Nb.BtsI、Nt.AlwI、Nt.BbvCI、Nt.BsmAI、Nt.BspQI、Nt.BstNBI、Nt.CviPII、Hum I、Anil I或NrS-1。
根据权利要求1所述恒温扩增方法，其特征在于，所述双链寡核苷酸库由一种或两种以上的双链寡核苷酸构成：所述可变序列区域根据信息储存需要确定该区域核苷酸序列；所述引物1区域和引物2区域为通用引物序列区域。
根据权利要求1-3任意一项所述恒温扩增方法，其特征在于，还包括在步骤A之前对寡核苷酸库进行均一化操作：

步骤1、将初始单链寡核苷酸库以及DNA标准品进行凝胶电泳，依据电泳结果，通过灰度分析DNA标准品与寡核苷酸库，计算出初始单链寡核苷酸库的平均分子数；或

将初始双链寡核苷酸库采用正、反向引物对双链寡核苷酸库进行PCR扩增，其中正向或反向引物5’末端带有磷酸基团；PCR扩增后，lambda外切酶识别带有磷酸基团的一条链并进行降解，得到总量放大的单链寡核苷酸库；将所述总量放大的单链寡核苷酸库以及DNA标准品进行凝胶电泳，依据电泳结果，通过灰度分析DNA标准品与所述总量放大的单链寡核苷酸库，计算出所述总量放大的单链寡核苷酸库的平均分子数；

步骤2、按平均分子数加入单链寡核苷酸库中每种单链寡核苷酸的捕获探针，经过杂交，高于平均分子数的单链寡核苷酸没有被捕获会处于游离状态，而低于平均分子数的单链寡核苷酸会全部被捕获，多余的捕获探针处于游离状态；捕获完成之后，经聚合酶聚合，然后将游离的单链寡核苷酸以及捕获探针经外切酶I降解，使各单链寡核苷酸分子数都趋于平均数，拉近各单链寡核苷酸的浓度，得到浓度相对均一的双链寡核苷酸文库；其中，所述捕获探针根据每种单链寡核苷酸序列设计，且5’末端带有磷酸基团；

步骤3、重复步骤1至步骤2零次或一次以上。
根据权利要求4所述恒温扩增方法，其特征在于，最后一次重复中所述捕获探针的5’端修饰有生物素。
根据权利要求5所述恒温扩增方法，其特征在于，还包括步骤4：

双链寡核苷酸文库和带有链霉亲和素的磁珠混合，通过生物素和链霉亲和素将双链寡核苷酸与磁珠结合，然后磁铁吸附，从而将浓度相对均一的双链寡核苷酸文库纯化。
根据权利要求4所述恒温扩增方法，其特征在于，所述初始单链寡核苷酸库由一种或两种以上的单链寡核苷酸构成：所述单链寡核苷酸包括位于两端的引物1区域和引物2区域，以及位于中间的缺口酶识别序列、可变序列区域和特异条形码区域；

其中，所述可变序列区域根据实际需要确定该区域核苷酸序列；所述特异条形码区域用于区分每种单链寡核苷酸，其核苷酸序列由交替的强和弱核苷酸组成，所述强核苷酸为C或G，所述弱核苷酸为A或T。
根据权利要求7所述恒温扩增方法，其特征在于，所述单链寡核苷酸由引物1区域、缺口酶识别序列、可变序列区域、特异条形码区域以及引物2区域依次连接而成。
根据权利要求4所述恒温扩增方法，其特征在于，所述初始双链寡核苷酸库由一种或两种以上的双链寡核苷酸构成：所述双链寡核苷酸的一条链包括位于两端的引物1区域和引物2区域，以及位于中间的缺口酶识别序列、可变序列区域和特异条形码区域；

其中，所述可变序列区域根据实际需要确定该区域核苷酸序列；所述特异条形码区域用于区分每种单链寡核苷酸，其核苷酸序列由交替的强和弱核苷酸组成，所述强核苷酸为C或G，所述弱核苷酸为A或T。
根据权利要求9所述恒温扩增方法，其特征在于，所述双链寡核苷酸的一条链由引物1区域、缺口酶识别序列、可变序列区域、特异条形码区域以及引物2区域依次连接而成。
根据权利要求4所述恒温扩增方法，其特征在于，所述步骤1中计算平均分子数具体为：

取已知上样体积的单链寡核苷酸库测试样品以及已知质量的DNA标准品进行聚丙烯酰胺凝胶电泳，通过灰度分析获得单链寡核苷酸库以及DNA标准品的电泳条带灰度值，按照下式计算出寡核苷酸库的平均分子数d：

m2＝m1*N2/N1；

ρ＝m2/v2；

M2＝(L/m)*325；

n2＝(ρ/M2)*N _A；

d＝n2/m；

其中，m1表示DNA标准品的质量，m2表示测试样品的质量；N1表示DNA标准品的灰度值，N2表示测试样品的灰度值；v2表示测试样品的上样体积；ρ表示单链寡核苷酸库的浓度；M2表示单链寡核苷酸库的相对分子量，L表示单链寡核苷酸库所有种类寡核苷酸的总长度，m表示单链寡核苷酸库中寡核苷酸的种类数；n2表示单链寡核苷酸库的分子数，N _A为阿伏伽德罗常数，325表示4种碱基的平均分子量。
根据权利要求4所述恒温扩增方法，其特征在于，在步骤1凝胶电泳之前还包括对初始寡核苷酸库进行PCR扩增进行总量放大的环节：

采用正、反向引物对初始寡核苷酸库进行PCR扩增，其中正向或反向引物5’末端带有磷酸基团；

PCR扩增后，lambda外切酶识别带有磷酸基团的一条链并进行降解，得到总量放大的单链寡核苷酸库。