WO2012037878A1

WO2012037878A1 - 核酸标签及其应用

Info

Publication number: WO2012037878A1
Application number: PCT/CN2011/079900
Authority: WO
Inventors: 孙继华; 闫淑静; 王君文; 罗慧娟; 王俊
Original assignee: 深圳华大基因科技有限公司; 深圳华大基因研究院
Priority date: 2010-09-21
Filing date: 2011-09-20
Publication date: 2012-03-29
Also published as: HK1168393A1; CN102409408B; CN102409408A

Abstract

公开了分离的核酸标签、分离的寡核苷酸、PCR引物、构建全基因组甲基化高通量测序文库的方法、全基因组甲基化高通量测序文库、确定基因组样品的甲基化位点的方法、以及用于构建全基因组甲基化高通量测序文库的试剂盒。其中，根据本发明的一个实施例的分离的核酸标签的核酸序列为AACCAA。

Description

核酸标签及其应用优先权信息

本申请请求 2010 年 9 月 21 日向中国国家知识产权局提交的、专利申请号为 2010102993 15.2的专利申请的优先权和权益，并且通过参照将其全文并入此处。技术领域

本发明涉及生物技术领域。具体地，涉及全基因组曱基化高通量测序技术，特别是微量 DNA全基因组曱基化高通量测序技术领域。更具体地，涉及一种分离的核酸标签、一种分离的寡核苷酸、一组 PCR引物、一种构建全基因组曱基化高通量测序文库的方法、一种全基因组曱基化高通量测序文库、一种确定基因组样品的曱基化位点的方法、以及一种用于构建全基因组曱基化高通量测序文库的试剂盒。

背景技术

DNA 曱基化是研究最为深入的表观遗传学机制， DNA 曱基化在维持正常细胞功能、抑制寄生 DNA成分对基因组完整性的损害、染色质结构修饰、 X染色体失活、基因组印迹、胚胎发育以及人类肿瘤发生中起着重要作用，是目前新的研究热点之一。

然而，目前对样本中 DNA曱基化的研究仍有待改进。

发明内容

本发明是基于发明人的下列发现完成的： Illumina GA 是当今应用最为普遍的新一代高通量测序仪器，现已经成功应用于全基因组曱基化测序研究。该方法的主要主要缺陷或问题是： 1、不能混合多个样品进行曱基化文库构建； 2、 PCR扩增效率不高，需要多个循环（ 16 个循环以上)扩增后方可得到足够量的文库进行高通量测序； 3、文库构建起始需要基因组 DNA 5- 10μ§以上，不适宜量 DNA样品建库。

本发明旨在至少解决现有技术中存在的技术问题之一。

为此，根据本发明的第一方面，本发明提出了一种分离的核酸标签。根据本发明的实施例，该分离的核酸标签的核酸序列为 AACCAA。利用该核酸标签，通过在文库的构建过程中，将核酸标签引入到构建的测序文库中，由此，可以提高测序的效率。

根据本发明的第二方面，本发明提供了一种分离的寡核苷酸。根据本发明的实施例，寡核苷酸具有第一链和第二链，其中，所述第一链的序列为 ACACTCTTTCCCTACACGACGCTCTTCCGATCTAACCAAT ( SEQ ID NO: 1 ) ；所述第

ID NO: ) 其中，所述第一链和所述第二链中的胞嘧啶 C均被曱基化修饰。借助该寡 ^ 苷酸，能够通过连接反应，方便有效地将核酸标签引入到构建的测序文库（在本文中，有时也称为全基因组曱基化高通量测序文库）中。

根据本发明的第三方面，本发明提出了一组 PCR引物。根据本发明的实施例，该组 PCR 引物包括第一 PCR 引物和第二 PCR 引物，其中，所述第一 PCR 引物的序列为

AACCAA ( SEQ ID NO: 3 ) ；以及所述第二 PCR 引物的序列为 TTCCGATCTAACCAA ( SEQ ID NO: 4 )。在该组 PCR引物中，含有核酸标签，可以有效地提高 PCR扩增的效率。

根据本发明的第四方面，提出了一种构建全基因组曱基化高通量测序文库的方法。根据本发明的实施例，该构建全基因组曱基化高通量测序文库的方法包括以下步骤：将基因组 DNA片段化，以便获得 DNA片段；将所述 DNA片段进行末端修复，以便获得经过末端修复的 DNA片段； ^所述经过末端修复的 DNA片段的末端添加碱基 A , 以便获得具有粘性末端 A的 DNA片段；将所述具有粘性末端 A的 DNA片段与权利要求 2 所述的分离的寡核苷酸相连，以便获得具有标签接头的连接严物；利用重亚硫酸盐对所述具有标签接头的连接产物进行处理，以便将所述具有标签接头的连接产物中非曱基化的胞嘧啶转换为尿嘧啶，获得经过转换的连接产物；利用权利要求 3所述的一组 PCR引物，对所述经过转换的连接产物进行扩增，以便获得扩增产物；以及分离所述扩增产物，所述扩增产物构成所述全基因组曱基化高通量测序文库。通过该方法，能够有效地构建全基因组曱基化高通量测序文库，另外，根据本发明的实施例的方法，不需要进行片段大小选择，在重亚硫酸盐处理后直接进行 PCR扩增的条件。克服了常规曱基化测序中不能混合样品， PCR 扩增效率低及不能对量 DNA样品进行研究的缺点。

根据本发明的第五方面，提出了一种全基因组曱基化高通量测序文库。根据本发明的实施例，全基因组曱基化高通量测序文库是根据前面所述的方法构建的。

根据本发明的第六方面，提出了一种确定基因组样品的曱基化位点的方法。根据本发明的实施例，该方法包括以下步骤:根据前面所述的方法构建所述基因组样品的全基因组曱基化高通量测序文库；以及对所述全基因组曱基化高通量测序文库进行测序，以便确定所述基因组样品的曱基化位点。由此，可以有效地确定基因组样品中的曱基化位点。

根据本发明的第七方面，本发明提出了一种用于构建全基因组曱基化高通量测序文库的试剂盒。根据本发明的实施例，该试剂盒包括：一种分离的寡核苷酸，所述寡核苷酸具有第一链和第二链，其中，所述第一链的序列为 ACACTCTTTCCCTACACGACGCTCTTCCGATCTAACCAAT ( SEQ ID NO: 1 ) ；所述第

ID NO: ) 其中，所述第一链和所述第二链中的胞嘧啶 C均被曱基化修饰；一组 PCR引物，其包括第一 PCR 引物和第二 PCR 引物，其中，所述第一 PCR 引物的序列为

CTCTTCCGATCT

AACCAA ( SEQ ID NO ： 3 ) ；以及所述第二 PCR 的序列为

AGACGTGTGCTC

TTCCGATCTAACCAA ( SEQ ID NO: 4 )。

前面所涉及的序列总结在下表 1中。

表 1 基于 Illumina G A的微量 DNA全基因组曱基化高通量测序相关序列（ ;'->3' )

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。附图说明本发明的上述和 /或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图 1 : 根据本发明一个实施例的微量 DNA全基因组曱基化高通量测序文库构建流程图。

图 2: 根据本发明一个实施例的微量 DNA全基因组曱基化高通量测序文库构建原理示意图。

图 3: 按照根据本发明实施例的方法，利用 lOOng 微量 DNA起始微量建库，并且利用安捷伦 2100对 PCR扩增产物进行检测的结果。

图 4: 按照根据本发明实施例的方法，利用 30ng 微量 DNA起始微量建库，并且利用安捷伦 2100对 PCR扩增产物进行检测的结果。

图 5 : 利用 lOOng起始基因组 DNA, 釆用常规 Illumina 接头，按照本发明方法建库所得 PCR扩增产物的安捷伦 2100检测结果。

图 6: 根据本发明实施例的^:量建库（ lOOng DNA ) 与常规建库（ 5 g DNA ) 测序数据对整个基因组各染色体测序深度比较结果。

图 7: 根据本发明实施例的^:量建库（ lOOng DNA )与常规建库（ 5 g DNA )测序数据对染色体覆盖度比较结果。

图 8: 根据本发明实施例的^:量建库（ lOOng D NA ) 与常规建库（ 5 g DNA ) 测序数据曱基化模式比较。

图 9: 根据本发明实施例的^:量建库（ lOOng DNA ) 与常规建库（ 5 g DNA ) 测序数据曱基化相关性的比较分析。其中 Methylation rate of YH_3.5G表示 YH_3.5G的曱基化率， Methylation rate of lOOng表示 1 OOng DNA微量建库 ^曱基化率。发明详细描述

一下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

需要说明的是，术语 "第一" 、 "第二" 仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有 "第一"、 "第二" 的特征可以明示或者隐含地包括一个或者更多个该特征。进一步地，在本发明的描述中，除非另有说明， "多个" 的含义是两个或两个以上。

本发明是基于发明人的下列发现完成的： Illumina GA 是当今应用最为普遍的新一代高通量测序仪器，现已经成功应用于全基因组曱基化测序研究。该方法的主要主要缺陷或问题是： 1、不能混合多个样品进行曱基化文库构建； 2、 PCR扩增效率不高，需要多个循环（ 16 个循环以上)扩增后方可得到足够量的文库进行高通量测序； 3、文库构建起始需要基因组 DNA 5-10μ§以上，不适宜微量 DNA样品建库。

为了能够将根据本发明实施例的标签引入到测序文库中，根据本发明的第二方面，本发明提供了一种分离的寡核苷酸。根据本发明的实施例，寡核苷酸具有第一链和第二链，

ID NO ： 1 ) ；第二链的序列为其中，第一链和第二链中的胞嘧啶 C均被曱基化修饰。基于该寡核苷酸具 ¾粘性末端 T, 因而，通过在 DNA片段上形成粘性末端 A, 即可以方便地利用该寡核苷酸将标签序列引入到测序文库中。因而，借助根据本发明实施例的寡核苷酸，能够通过连接反应，方便有效地将核酸标签引入到构建的测序文库（在本文中，有时也称为全基因组曱基化高通量测序文库）中，进而可以有效地确定基因组 DNA中的曱基化位点。

根据本发明的第三方面，本发明还提出了一组 PCR引物。根据本发明的实施例，该组 PCR 引物包括第一 PCR 引物和第二 PCR 引物，其中，第一 PCR 引物的序列为

AACCAA ( SEQ ID NO ： 3 ) ；第二 PCR 引物的序歹' J 为

TTCCGATCTAACCAA ( SEQ ID NO: 4 )。在该组 PCR引物中，含有核酸标签，可以通过

PCR反应高效地对连接有核酸标签的 DNA 片段进行扩增。另外，发明人发现，利用该组 PCR引物可以显著地提高 PCR扩增的效率。

根据本发明的第四方面，提出了一种构建全基因组曱基化高通量测序文库的方法。参考图 1 , 根据本发明的实施例，该构建全基因组曱基化高通量测序文库的方法包括以下步骤：

首先，将基因组 DNA片段化，以便获得 DNA片段。根据本发明的实施例，作为起始材料的基因组 DNA的来源并不受特别限制。本发明的发明人惊奇地发现，根据本发明实施例的构建全基因组曱基化高通量测序文库的方法可以适用于微量基因组 DNA, 例如根据本发明的一个实施例，可以釆用的基因组 DNA的量为 30 - 100ng。另外，基因组 DNA不受特别限制，可以为来源于哺乳动物、植物、和微生物的至少一种，例如哺乳动物为人和小鼠的至少一种，植物为拟南芥。发明人发现，根据本发明实施例的方法特别适于构建这些生物基因组 DNA的文库，用于高效地分析这些生物全基因组的曱基化位点。根据本发明的实施例，可以釆用的对基因组 DNA进行片段化的方法和设备，不受特别限制。根据本发明的一些示例，可以通过雾化、超声片段化、 HydroShear和酶切处理的至少一种进行 DNA片段化。优选通过超声片段化进行将基因组 DNA片段化。由此，可以容易控制所得到的片段的大小，从而提高构建文库的效率。根据本发明的实施例，所得到的 DNA片段的大小不受特别限制。根据本发明的具体示例，可以釆用的 DNA片段的长度为 100-200bp。发明人发现，当釆用 100-200bp的 DNA片段时，可以显著地提高后续连接、扩增等处理的效率，从而提高构建文库的效率，和分析曱基化的效率。

接下来，将所得到的 DNA片段进行末端修复，以便获得经过末端修复的 DNA片段。通过将 DNA片段进行修复，获得平端的 DNA片段，因而可以方便地通过后续处理连接具有核酸标签的街头。根据本发明的实施例，对 DNA片段进行末端修复的方法和手段不受特别限制，根据本发明的一些实施例，可以通过 Klenow、 T4聚合酶和 T4 多聚核苷酸激酶对 DNA片段进行末端修复。由此，可以提高末端修复处理的效率，并进而提高构建文库的效率。

接下来，在经过末端修复的 DNA片段的末端添加碱基 A, 以便获得具有粘性末端

A的 DNA片段。根据本发明的一个具体示例，利用 Klenow Frgment (3'-5' exo-)聚合酶进行在经过末端修复的 DNA片段的末端添加碱基 A。发明人发现，利用该聚合酶添加碱基 A能够显著提高构建文库的效率。

接下来，将所得到的具有粘性末端 A的 DNA片段与前面所述的分离的寡核苷酸相连，以便获得具有标签接头的连接产物。因为前面所述的分离的寡核苷酸具有第一链和第

ID NO: 1 ) , 并且第二链的序列为其中，第一链和第二链中的胞嘧啶 c均被曱基化修饰。因而，该寡核苷酸？标签接头）具有粘性末端 Τ, 因而，可以有效地将核酸标签通过连接反应，引入到在末端具有粘性末端 A 的 DNA片段中，从而显著提高构建文库的效率。接下来，利用重亚硫酸盐对所制备的具有标签接头的连接产物进行处理，从而可以将具有标签接头的连接产物中非曱基化的胞嘧啶转换为尿嘧啶，获得经过转换的连接产物。根据本发明的一些示例，可以釆用任何已知的方法完成利用重亚硫酸盐的转换。根据本发明的实施例，可以釆用商业化的试剂盒来进行，例如 ZYMO EZ DNA Methylation-Gold Kit™。根据本发明的实施例，可以在利用重亚硫酸盐对具有标签接头的连接产物进行处理的过程中，添加片段化的拟南芥基因组 DNA。发明人发现，通过添加外源 DNA进行重亚硫酸盐高效共处理，对目标 DNA片段能够起到保护作用，最大限度地降低重亚硫酸盐对微量 DNA 的破坏，可以进一步提高检测精度，使得纳克级别（30-100ng )基因组整体水平高精度的曱基化检测成为现实。根据本发明的实施例，可以添加的片段化的拟南芥基因组 DNA的量不受特别限制，根据具体的示例，优选片段化的拟南芥基因组 DNA的量为 100-500ng, 更优选为 200ng。本领域技术人员能够理解，可以通过任意方法制备这些拟南芥基因组 DNA, 例如可以随同前面的 DNA片段化处理一起进行制备。

在获得连接产物之后，利用前面所述的一组 PCR引物，对经过转换的连接产物进行扩增，以便获得扩增产物。根据本发明的实施例，可以釆用的进行 PCR反应的聚合酶的类型不受特别限制，根据具体的示例，可以使用热启动 taq聚合酶，优选热启动 taq聚合酶为 r-taq 聚合酶。

最后，分离所得到的扩增产物，这些扩增产物构成了全基因组曱基化高通量测序文库。本领域技术人员能够理解，可以釆用任何已知的方法，对扩增产物进行分离。例如优选通过利用 2%琼脂糖凝胶进行电泳并进行纯化，从而实现高效地分离扩增产物，并最终获得全基因组曱基化高通量测序文库。

通过根据本发明的方法，能够有效地构建全基因组曱基化高通量测序文库，另外，根据本发明的实施例的方法，不需要进行片段大小选择，在重亚硫酸盐处理后直接进行 PCR扩增的条件。克服了常规曱基化测序中不能混合样品， PCR 扩增效率低及不能对微量 DNA样品进行研究的缺点。另外，根据本发明实施例的方法，在重亚硫酸盐处理之前不需要经过片段大小选择，然后再进行 PCR 扩增的流程，可以在重亚硫酸盐处理后直接进行 PCR扩增的条件。克服了常规曱基化测序中不能混合样品， PCR 扩增效率低及不能对微量 DNA样品进行研究的缺点。

由此，根据本发明的第五方面，提出了一种全基因组曱基化高通量测序文库。根据本发明的实施例，全基因组曱基化高通量测序文库是根据前面所述的方法构建的。利用该全基因组曱基化高通量测序文库，能够有效地对微量 DNA样品进行测序，并进一步分析曱基化位点。根据本发明的实施例，可以优选釆用利用第二代测序平台进行测序。由此，可以实现全基因组曱基化的高通量测序。另外，发明人发现，根据本发明实施例的构建测序文库的方法构建的测序文库，特别适合 Illumina GA测序仪器进行测序。因而，根据本发明的实施例，特别优选釆用 Illumina GA进行测序。

进而，根据本发明的第六方面，提出了一种确定基因组样品的曱基化位点的方法。根据本发明的实施例，该方法包括以下步骤:首先，针对所提取的基因组样品，根据前面所述的方法构建所述基因组样品的全基因组曱基化高通量测序文库；接下来，对所制备的全基因组曱基化高通量测序文库进行测序，以便确定基因组样品的曱基化位点。由此，可以有效地确定基因组样品中的曱基化位点。根据本发明的实施例，可以优选釆用利用第二代测序平台进行测序。由此，可以实现全基因组曱基化的高通量测序。另夕卜，发明人发现，根据本发明实施例的构建测序文库的方法构建的测序文库，特别适合 Illumina GA测序仪器进行测序。因而，根据本发明的实施例，特别优选釆用 Illumina GA 进行测序。

根据本发明的第七方面，本发明提出了一种用于构建全基因组曱基化高通量测序文库的试剂盒。根据本发明的实施例，该试剂盒包括：一种分离的寡核苷酸，该寡核苷酸具有第一链和第二链，其中，第一链的序列为 ACACTCTTTCCCTACACGACGCTCTTCCGATCTAACCAAT ( SEQ ID NO: 1 ) ；第二链

NO: 2 ) , 其中，第一链和第二链中的胞嘧啶 C均被曱基化修饰；一组 PCR引物，其。包括第一 PCR 引物和第二 PCR 引物，其中，第一 PCR 引物的序列为

AACCAA ( SEQ ID NO ： 3 ) ；以及第二 PCR 引物的序歹' J 为

TTCCGATCTAACCAA ( SEQ ID NO: 4 ) 。利用该试剂盒，能够有效地构建基因组样品的全基因组曱基化高通量测序文库，从而可以有效地对微量基因组 DNA进行曱基化分析。

因而，根据本发明的实施例，本发明提供了全基因组曱基化高通量测序的方法，其包括如下步骤：

步骤 A 目的基因组 DNA及外源基因组 DNA的片段化

起始目的研究材料和作为外源基因组 DNA的材料可以为任意物种（例如人，植物，昆虫）的基因组 DNA, 片段化常用的方法包括雾化、超声片段化、 HydroShear或酶切处理，将基因组 DNA打断为大小 100-200bp的片段。上述众多常用方法中优选地釆用超声片段化法，外源基因组 DNA优选地选择拟南芥基因组 DNA。

步骤 B 基因组 DNA的末端修饰

片段化的 DNA 需要进行末端修饰，首先利用聚合酶如 Klenow、 T4聚合酶和 T4 多聚核苷酸激酶以及 dNTP补平末端，以产生平端化的 DNA。然后利用 Klenow Frgment (3'-5' exo-)聚合酶及 dATP在补平的序列的 3'末端加上 "A" 碱基。

步骤 C 微量建库接头连接及重亚硫酸盐处理

3'末端加上 "A" 碱基的序列在 T4连接酶的作用下与特殊设计且曱基化修饰的微量建库接头（C 位点曱基化修饰）进行连接。然后在两端加了接头的片段中加入 200ng 片段化了的拟南芥基因组 DNA, 然后一起用重亚硫酸盐处理，从而使非曱基化胞嘧啶转换为尿嘧啶。

步骤 D PCR扩增及文库切胶纯化

以重亚硫酸盐转换后的 DNA 为模板，加入针对微量建库接头序列特别别设计的 PCR引物序列，用针对重亚硫酸盐转换后的 DNA的热启动 taq酶进行 PCR扩增（可用常规的 r-taq或其它聚合酶扩增），扩增产物使用 2%的琼脂糖进行电泳并将目的条带切下纯化后，即为待测序的文库。 PCR 扩增优选地使用热启动 taq酶。

本发明与现有曱基化高通量测序技术相比的优点有： 1、使用 PCR 扩增效率更高的特殊的针对微量 DNA 曱基化建库的接头（Minim—adapter )替代了常规文库使用的接头，与常规接头相比改变了部分序列，序列长度增加了 8bp的碱基（可作为标签序列用于混合多个样品的测序），对于重亚硫酸盐处理完的 DNA增加了后续 PCR扩增效率及产物量，相同材料等量起始建库，相同 PCR条件下产物浓度由 1.67ng l 提高到了 20.04 ng/μΐ (见实施例结果部分图 6 - 8 ) ； 2、在使用微量基因组 DNA 进行曱基化文库构建时，创新性的添加外源载体 DNA与目的 DNA—起进行重亚硫酸盐高效共处理。在高温和重亚硫酸盐（高盐及低 pH值环境）双重作用下变性的单链 DNA 极易破坏和降解，加入外源 DNA对这种破坏作用起到一定的緩冲作用，能够最大限度的降低重亚硫酸盐对微量 DNA的破坏，另外也因为 DNA量的增多使得后续纯化效率提高，使得纳克级别（ 30-100ng )基因组整体水平高精度的曱基化检测成为现实。 3、改变了 Illumina 曱基化常规测序在重亚硫酸盐处理之前和之后需要经过片段大小选择然后再进行 PCR 扩增的流程，摸索出了一个不需要进行片段大小选择，在重亚硫酸盐处理后直接进行 PCR扩增的条件，具体见实施例详细参数，主要改变了末端修复酶的用量和接头链接步骤接头的加入量（减少至常规建库用量的 1/10 )。本发明的方法克服了常规曱基化测序中不能混合样品， PCR扩增效率低及不能对微量 DNA样品进行研究的缺点。对于低样本量的样品也可进行全基因组曱基化精确研究。

根据本发明的实施例，提供了构建全基因组曱基化高通量测序文库的方法，所述方法用于微量基因组 DNA, 优选的是纳克级别的基因组，更优选的是 30 - lOOng的基因组。

在本发明的一个实施例中，所述方法包括如下步骤：

步骤 A 目的基因组 DNA及外源基因组 DNA的片段化

目的基因组 DNA和作为外源基因组 DNA的材料可以为任意物种，其中包括各种植物、动物、微生物，例如人，植物特别是拟南芥，昆虫，特别是哺乳动物包括人、小鼠的基因组 DNA; 进行片段化的方法包括雾化、超声片段化、 HydroShear或酶切处理，从而将基因组 DNA打断为大小优选地为 100-200bp的片段；片段化方法中优选地釆用超声片段化法，外源基因组 DNA优选地选择拟南芥基因组 DNA;

步骤 B 基因组 DNA的末端修饰

对于经片段化的 DNA, 首先利用聚合酶包括但不限于 Klenow、 T4聚合酶和 T4 多聚核苷酸激酶以及 dNTP补平末端，以产生平端化的 DNA; 然后优选地利用 Klenow Frgment (3 '-5， exo-)聚合酶及 dATP在补平的序列的 3'末端加上 "A" 碱基。

步骤 C 微量建库接头连接及重亚硫酸盐处理

将所得到的 3'末端加上 "A" 碱基的 DNA序列在连接酶包括但不限于 T4连接酶的作用下与经曱基化修饰，优选地 C位点曱基化修饰的微量建库接头进行连接，优选地在序列两端都连接上微量建库接头；然后在两端加了接头的片段中加入 100-500ng, 优选的 200ng步骤 A中片段化了的拟南芥基因组 DNA, 然后一起用重亚硫酸盐处理，优选地处理 2小时，从而使非曱基化胞嘧啶转换为尿嘧啶；

步骤 D PCR扩增及文库切胶纯化

以所得到的重亚硫酸盐转换后的 DNA为模板，加入针对微量建库接头序列的 PCR 引物序列，进行 PCR扩增； PCR 扩增优选地使用热启动 taq酶，所述热启动 taq酶包括但不限于常规的 r-taq或其它聚合酶，扩增产物使用优选地 2%的琼脂糖进行电泳并将目的条带切下纯化后，即为待测序的文库。

在本发明的一个实施例中，所述方法步骤 C中使用的微量建库接头是表 1中所示的 Minim adapter 1和 Minim adapter 2。

在本发明的一个实施例所述方法步骤 D中使用的 PCR引物是表 1 中所示的 Minim— PCR primer 1.1和 Minim_ PCR primer 2.1。

^发明另一方面提供了通 £上文所述的方法构建的测序文库，优选地是^:量 DNA 全基因组曱基化高通量测序文库。

本发明另一方面进一步提供了通过上文所述的方法构建的测序文库，优选地是微量 DNA全基因组曱基化高通量测序文库用于进行测序的用途，其中所述测序可通过第二代测序平台进行。

本发明另一方面提供了用于微量测序文库，特别是微量 DNA全基因组曱基化高通量测序文库的接头，其是表 1中所示的 Minim adapter 1和 Minim—adapter 2。

在本发明的一个实施例中，所述的接头用构建微量测序文库，特别是微量 DNA 全基因组曱基化高通量测序文库的用途。

在本发明的一个实施例中，使用上文所述的接头构建的微量测序文库，特别是微量 DNA全基因组曱基化高通量测序文库。

本发明另一方面还提供了用于微量测序文库，特别是微量 DNA全基因组曱基化高通量测序文库的 PCR引物，其是表 1中所示的 Minim_ PCR primer 1.1和 Minim_ PCR primer 2.1。

在本发明的一个实施例中，所述的 PCR引物用于构建微量测序文库，特别是微量

DNA全基因组曱基化高通量测序文库的用途。在本发明的一个实施例中，使用上文所述的 PCR引物构建的微量测序文库，特别是微量 DNA全基因组曱基化高通量测序文库。下面将结合实施例对本发明的实施方案进行详细描述，但是本领域技术人员将会理解，下列实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体技术或条件的，按照本领域内的文献所描述的技术或条件（例如参考 J.萨姆布鲁克等著，黄培堂等译的《分子克隆实验指南》，第三版，科学出版社）或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品。

使用本发明的方法，以 30ng和 lOOng人外周血全基因组 DNA (—个中国成年男子血液提取的基因组 DNA )作为为起始原料，构建了 2个微量全基因组曱基化高通量测序文库，釆用 Sanger测序方法检测了 2个文库的质量，并对其中 lOOng文库进行了高通量全基因组测序（Illumina GA )。同时比较了以 l OOng人外周血全基因组 DNA (— 个中国成年男子血液提取的基因组 DNA ) 为起始材料使用本发明的微量建库方法，接头分别釆用常规建库接头【商业化的 Illumina adapterl和 Illumina adapter2, 参见 Illumina 公司的操作规程， Multiplexing Sample Preparation Guide. ( Illumina part # 1005361 ) , 在 ofc 通过参照并入本文】和微量接头（ Minim—adapterl和 Minim _adapter2 )后的 PCR扩增效率的差异。 ― ―

1.1 DNA 片段化

使用超声仪（ covaris S2 ) 将人全血基因组 DNA ( 30ng和 lOOng ) 及拟南芥基因组 DNA ( 5 g ) 按下表参数设置打断成主带（琼脂糖凝胶电泳中显示的主要条带）在 100-200bp左右的片段。超声仪（ covaris S2 ) 的参数（下表中适当标注中文）设置：

将打断后的 DNA直接进行下一步操作。

1.2 末端修复

按照下列的配比准备反应混合物：

打断后的 DNA片段 100 μL

10x 多核苷酸激酶緩冲液 15 μ

dNTP溶液组合 6 μ

T4 DNA 聚合酶 7.5 μ

Klenow DNA 聚合酶 1 μ

H₂0 l3μ

T4 多核苷酸激酶 7.5 μ

总体积 100 μ

将 Thermomixer(Eppendrf)调至 20 °C , 反应 30 min , 然后用 QIAquick PCR Purification Kit ( Qiagen ) 进行纯化，最后将样品溶于 32 L洗脱緩冲液（ EB ) 。 1.3 DNA片段 3'末端加碱基 "A"

按照下列的配比准备反应混合物：

末端修复后的 DNA 32

10x blue buffer 5

dATP(lmM) 10

Klenow exo-(3' to 5' exo-) 3 μL

总体积 50 μΐ

将 Thermomixer(Eppendrf)调至 37 °C ,反应 30min,然后用 MiniElute PCR Purification Kit ( Qiagen ) 进行纯化，最后将样品溶于 10 洗脱緩冲液。

1.4 Minim adapter 连接

将合成好的 Ι ΟΟμΜ 的 Minim—adapter 1 和 Minim—adapter 2 分别取 ΙΟμΙ^进行混合， 94 °C , 5分钟， 65 °C水浴放置 15分钟后自然冷却，得到 5 ΟμΜ Minim—adapter产物，将 5 ΟμΜ Minim—adapter产物稀释 10 倍为 5μΜ Minim—adapter工作液。

Minim _adapter 接按照下列的配比准备反应混合物：

上述步骤中得到的 DNA 10 μL

T4 DNA ligase buffer 25 μΐ

Minim adapter ( 5μΜ ) 1

DNA ligase 5 μL

dd¾0 9μ

总体积 50 μΐ

将 Thermomixer(Eppendrf)调至 20 °C ,反应 15 min,然后用 QIAquick PCR Purification

Kit ( Qiagen ) 进行纯化，最后将样品溶于 30 μL EB。

1.5 连接产物加入外源 DNA重亚硫酸盐共处理

连接产物中加入 200ng片段化的外源拟南芥基因组 DNA , 然后加入重亚硫酸盐处理 2h。重亚硫酸盐处理釆用 ZYMO EZ DNA Methylation-Gold Kit™, 具体步骤如下： A ) CT Conversion Reagent的制备：从试剂盒试剂盒取出 CT Conversion Reagent (固体混合物），然后添加 900 μΐ的水、 50 μΐ的 M-Dissolving Buffer和 300 μΐ的 M-Dilution Buffer 到一管的 CT Conversion Reagent中。在室温下溶解并且震荡 10分钟或在摇床上摇动 10分钟.

B ) M-WASH BUFFER的制备：添加 24ml 100%的乙醇到 M-Wash Buffer中来制备最终可以使用的 M-Wash Buffer。

C ) 将待转换的 DNA按照分装到 PCR管中，补水至 20μ1。

D ) PCR管中添加 130 μΐ的 CT Conversion Reagent, 通过轻弹试管或移液器操作来混合样品。

E ) 将样品管放到 PCR仪上按以下步骤操作：

98 °C放置 10分钟

64 °C放置 2.5小时

立刻进行下一步操作或者在 4 °C下存储 (最多 20小时).

F ) 添力口 600 μΐ的 M-Binding Buffer到 Zymo-Spin IC^TM Column 中，并^¹柱放 ¾口试剂盒所提供的 Collection Tube中。

G )装填样品到 Zymo-Spin lC™ Column含有 M-Binding Buffer。盖上盖将柱颠倒数次来混合样品。 H ) 全速（>10，000 x g)离心 30秒，去除流出液。

I ) 添加 200 μΐ的 M-Wash Buffer到柱中，全速离心 30秒。

J ) 添加 200 μΐ的 M-Desulphonation Buffer到柱中并且在室温（20 °C - 30 °C )下放置 15分钟，在培养后，全速离心 30秒。

K ) 添加 200 μΐ的 M- Wash Buffer到柱中，全速离心 30秒；再添加 200 μΐ的 M-Wash Buffer并且离心 30秒。

L ) 直接添加 ΙΟμΙ的 M-Elution Buffer到柱基质中。将柱放置在 1.5 ml的管中，全速离心来洗脱 DNA。

1.6 PCR扩增及文库大小选择

下列的反应体系准备反应混合物，将试剂放置于水上。

重亚 υ酸盐处理的 DNA 20μ1

Minim PCR primer 1.1 Ιμΐ

Minim PCR primer 2.1 Ιμΐ

dNTP Solution Set 4μ1

10X PCR Buffer 5μ1

Jump Start™ Taq DNA Polymerase 0.5 μΐ

dd¾0 18.5μ1

总体积 50μ1

PCR反应条件

98 °C 30s

(注： 30ng 12个循环， lOOng 10个循环）

72 °C 2min

4 °C 保存

用 PCR Purification Kit(Qiagen)对扩增产物进行纯化，然后用 2%的琼脂糖胶进行电泳，然后对目的大小文库进行切胶择，釆用 MiniElute PCR Purification Kit (Qiagen)进行胶纯化回收，最后将文库溶于 20μ1 ΕΒ中。

1.7 文库检测

1 ) 使用安捷伦 2100 Bioanalyzer检测文库产量。

2 ) 使用 QPCR定量检测文库产量。

关于上述检测方法的详细描述，可以参见 Bemd Buehler, Holly H. Hogrefe， Graham Scott， et a/. (2010) Rapid quantification of DNA libraries for next-generation sequencing. Methods. 50:S15-S18 , 在此通过参照并入本文。

2、结果部分：

2.1 PCR产物的安捷伦 2100 Bioanalyzer检测结果

图 3 和图 4 的 PCR产物安捷伦 2100 Bioanalyzer检测结果表明从起始基因组 DNA 30ng和 l OOng即可构建利用高通量新一代测序仪器进行高通量测序的曱基化文库，结合下文所述实际测序数据分析结果表明该发明方法切实可行，可应用与实际研究中。图 5是釆用常规 Illumina接头按照本发明的微量建库方法，所得 PCR扩增产物的安捷伦 2100 Bioanalyzer检测结果。与图 3和图 4相比，图 5中 PCR产物虽有目的条带，但条带不明显，浓度达不到高通量测序要求。比较可以看出本发明方法确实显著提高了 PCR 扩增效率，提高了后续测序的效率。

2.2 文库质量检测结果（ Sanger测序法）

30ng DNA 与 lOOng DNA微量建库文库质量检测结果

从所构建的 2 个文库中，分别挑选 76和 78个克隆进行质量检测，结果转换效率都在 99%以上，说明重亚硫酸盐处理实现了高效的转换。 lOOng文库比对率（也称为 map rate ) 高于 30ng, 说明起始量对建库结果有较大影响，但 30ng起始比对率在 40%以上，考虑到起始的 DNA量，这样的结果在可接受范围。另外从序列重复率来看，都没有重复序列，说明 PCR扩增随机性很好，没有产生偏向性。

3、测序（ Illumina GA ) 结果信息高级分析部分

取上述构建的 lOOng 文库上机进行高通量测序并与常规建库（常规建库方法：使用 5ug与上述实施例中相同的人的全血基因组相同的 DNA , 使用常规曱基化测序文库制备流程进行文库制备，方法参见 Illumina GA的产品说明书 Multiplexing Sample Preparation Guide. ( Illumina part # 1005361 ) , 在此通过参照并入本文）的测序结果进行高级比对分析，将 100ng文库测序数据 2.52G的原始数据和正常全基因组测序 1.99G 数据比较，常规建库数据以 YH_3.4G表示。

3.1 与全基因组比对率比较

表 3 微量建库（ lOOng DNA ) 与常规建库（ 5 g DNA ) 测序数据结果基本比对结果

3.2 对全基因组覆盖度比较

表 4 微量建库（ lOOng DNA ) 与常规建库（ 5ug DNA ) 测序数据对全基因组覆盖度比较

3.3 对每条染色体的覆盖度比较（参加以下表 5 和图 6 )

表 5 微量建库（ lOOng DNA ) 与常规建库（5 g DNA ) 测序数据在每条染色体上的覆盖度比较结果染色体， (Cf/G ¾ —盖車

tOOng YH 3.5G

chr1 19.60168427 16.1619485

chr2 20.00241441 17.20107308

chr3 20.06349049 17.60313435

chr4 19孺 16616 18.08138198

chr5 19.83523319 ： 17.39148265

chr6 19 971 19982 17.49325394

chr7 19.58081576 16.45269166

chr8 19.94313856 17.25455946

chr9 18.67547381 15,38194398

chr10 19.55473041 16.15250015

c rl 1 19.83785702 16.34877778

chrl 2 19.77910108 16.78161507

chr13 20.1 1 494007 18.09266384

chrl 4 19.84617042 16.86771249

c r15 19,46989798 15.81779536

chr16 19.32717248 14.51504302

chr17 19.08767065 13.94369765

chrl 8 20.16828038 17.66067029

chr19 18—42482697 12.06363746

chr20 20.0232219 15.56875261

chr21 20.50133724 ! 16.97730179

chr22 18.63886918 ！ 12.72283029

chrM 95.77388232 88.81641527

chrX 10.62848597 ： 9.Q29724418

chrY 9-3352標 88 7 262010172

比较结果来看微量建库和常规建库数据在每条染色体上的覆盖度趋势基本一致。

3.4 全基因组甲基化模式比例比较（参见表 6、表 7 和图 8、图 9 )

表 6 微量建库（ l OOng DNA ) 与常规建库（ 5u_g DNA ) 测序数据甲基化模式整体分析比较结果

表 7 微量建库（ lOOng DNA ) 与常规建库（ 5μ_δ DNA )测序数据曱基化模式在每条染色体上的分析比较结果染色体 ¾ ^YH-³-^5G

^ C CG CHG CHH C CG CHH

化模式分布上基本一致。

3.5 数据相关性比较

lOOng文库测序数据和正常建库相应测序数据进行甲基化相关性的比较分析，结果来看相关性很好 (相关系数 0.9258572 )。

通过将 lOOng 文库上机测序数据与常规文库测序相应数据进行高级信息分析比较，可以得出以下结论：从比对效率、覆盖度、每条染色体的甲基化率及相关性来看， lOOng测序数据比对情况更理想，各方面覆盖率都相对好一些，但从甲基化变化趋势上仍是很一致的，在甲基化率上，也有很好的一致性，这些都说明了采用微量 DNA进行甲基化全基因组高通量测序研究是切实可行的，为曱基化研究样品少，不易获得的瓶颈提供了很好的解决方案。

工业实用性

利用根据本发明实施例的技术方案，能够有效地对微量 DNA进行曱基化分析。尽管本发明的具体实施方式已经得到详细的描迷，本领域技术人员将会理解。根据已经公开的所有教导，可以对那些细节进行各种修改和替换，这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。

在本说明书的描述中，参考术语 "一个实施例"、 "一些实施例" 、 "示意性实施例" 、 "示例" 、 "具体示例" 、或 "一些示例" 等的描迷意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说

13 （ 26 ) 明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

权利要求书

1、一种分离的核酸标签，其核酸序列为 AACCAA。

2、一种分离的寡核苷酸，所述寡核苷酸具有第一链和第二链，

其中，

所述第一链的序列为 ACACTCTTTCCCTACACGACGCTCTTCCGATCTAACCAAT ( SEQ ID NO: 1 ) ；

所述第二链的序列为其中，所述第一链和所述第二链中的胞嘧啶 C均被甲基化修饰。

3、一组 PCR引物，其包括第一 PCR引物和第二 PCR引物，

其巾，

所述第一 PCR引物的序列为 AACCAA ( SEQ ID NO: 3 ) ；以及

所述第二 PCR引物的序列为

TTCCGATCTAACCAA ( SEQ ID NO: 4 ) 。

4、一种构建全基因组甲基化高通量测序文库的方法，其特征在于，包括以下步骤：将基因组 DNA片段化，以便获得 DNA片段；

将所述 DNA片段进行末端修复，以便获得经过末端修复的 DNA片段；

在所述经过末端修复的 DNA片段的末端添加碱基 A, 以便获得具有粘性末端 A的 DNA片段；

将所述具有粘性末端 A的 DNA片段与权利要求 2所述的分离的寡核苷酸相连，以便获得具有标签接头的连接产物；

利用重亚硫酸盐对所述具有标签接头的连接产物进行处理，以便将所述具有标签接头的连接产物中非甲基化的胞嘧啶转换为尿嘧啶，获得经过转换的连接产物；

利用权利要求 3所述的一组 PCR引物，对所述经过转换的连接产物进行扩增，以便获得扩增产物；以及

分离所述扩增产物，所述扩增产物构成所述全基因组甲基化高通量测序文库。

5、根据权利要求 4所述的方法，其特征在于，所述基因组 DNA的量为 30 - 100ng。

6、根据权利要求 4所述的方法，其特征在于，所述基因组 DNA来源于哺乳动物、植物、和微生物的至少一种。

7、根据权利要求 6所述的方法，其特征在于，所述哺乳动物为人和小鼠的至少一种，所述植物为拟南芥。

8、根据权利要求 4所述的方法，其特征在于，所述将基因组 DNA片段化是通过雾化、超声片段化、 HydroShear和酶切处理的至少一种进行的。

9、根据权利要求 8所述的方法，其特征在于，所述将基因组 DNA片段化是通过超声片段化进行的。

10、根据权利要求 4所述的方法，其特征在于，所述 DNA片段的长度为 100-200bp。

11、根据权利要求 4所述的方法，其特征在于，所述将所述 DNA片段进行末端修复是通过 Klenow、 T4聚合酶和 T4多聚核苷酸激酶进行的。

12、根据权利要求 4所述的方法，其特征在于，所述在所述经过末端修复的 DNA 片段的末端添加碱基是利用 Klenow Frgment (3'-5' exo-)聚合酶进行的。

13、根据权利要求 4所述的方法，其特征在于，在利用重亚硫酸盐对所述具有标签接头的连接产物进行处理的过程中，添加片段化的拟南芥基因组 DNA。

14、根据权利要求 4所述的方法，其特征在于，所述片段化的拟南芥基因组 DNA的量为 100-500ng。

15、根据权利要求 15所述的方法，其特征在于，所述片段化的拟南芥基因组 DNA的量为 200ng。

16、根据权利要求 4所述的方法，其特征在于，所述 PCR反应使用热启动 taq聚合酶。

17、根据权利要求 16所述的方法，其特征在于，所述热启动 taq聚合酶为 r-taq聚合酶。

18、根据权利要求 4所述的方法，其特征在于，所述分离扩增产物是通过利用 2%琼脂糖凝胶进行电泳并进行纯化进行的。

19、一种全基因组甲基化高通量测序文库，其是根据权利要求 4-19任一项所述的方法构建的。

20、一种确定基因组样品的甲基化位点的方法，其特征在于，包括以下步骤：根据权利要求 4- 19任一项所述的方法构建所述基因组样品的全基因组甲基化高通量测序文库；以及

对所述全基因组甲基化高通量测序文库进行测序，以便确定所述基因组样品的甲基化位点。

21、根据权利要求 20所述的方法，其特征在于，所述测序是利用第二代测序平台进行的。

22、一种用于构建全基因组甲基化高通量测序文库的试剂盒，其特征在于，包括：一种分离的寡核苷酸，所述寡核苷酸具有第一链和第二链，

其巾，

所述第二链的序列为其中，所述第一链和所述第二链中的胞嘧啶 C均被甲基化修饰；

一组 PCR引物，其包括第一 PCR引物和第二 PCR引物，

其巾，

所述第一 PCR引物的序列为

AACCAA ( SEQ ID NO: 3 ) ；以及

所述第二 PCR引物的序列为

GCTCTTCCGATCTAACCAA ( SEQ ID NO: 4 )