WO2013075629A1

WO2013075629A1 - 一种检测核酸羟甲基化修饰的方法及其应用

Info

Publication number: WO2013075629A1
Application number: PCT/CN2012/084964
Authority: WO
Inventors: 高飞; 王君文; 张秀清; 杨焕明
Original assignee: 深圳华大基因科技有限公司; 深圳华大基因研究院
Priority date: 2011-11-24
Filing date: 2012-11-21
Publication date: 2013-05-30
Also published as: CN103131754A; US20150031552A1; CN103131754B; US9567633B2

Abstract

本发明提供了一种检测核酸羟甲基化修饰的方法，具体地，包括步骤：对核酸进行糖基化修饰和MspI酶切，将酶切后的片段两端都连接生物素标记接头，进行NlaIII酶切；再通过链亲和霉素磁珠捕获，所有捕获到的一端连接生物素接头，另一端突出CATG四个碱基的序列均可表示出其临近的CCGG位点的修饰状态信息；通过在CATG粘性末端连接一个含有MmeI或Ecop15I酶切位点的接头并用相应的酶进行切割，则产生的短序列片段可表示出其临近CCGG位点的修饰信息；进行序列对比，即可获得甲基化修饰和羟甲基化修饰信息。本发明还提供了所述方法的应用。

Description

一种检测核酸羟甲基化修饰的方法及其应用技术领域

本发明属于基因工程技术领域，具体地涉及一种检测核酸羟甲基化修饰的方法及其应用。背景技术

5-羟甲基胞嘧啶（5hmC)最早于 1952年发现存在于噬菌体中胞嘧啶中，最近在哺乳动物基因组（如小鼠的神经元和胚胎干细胞）中也发现该修饰方式。目前大量的研究集中于揭示 5hmC在基因组组织以及干细胞分化中可能承担的角色，并且证明 TET蛋白酶家族可以通过氧化作用将 5mC转换为 5hmC。

然而，尽管 5hmC修饰碱基发现较早，但目前几乎没有一种有效的酶或化学的方法可以特异性识别 5hmC残基并分辨其在基因组中的具体分布。例如甲基化依赖性内切酶 MspJI家族或 McrBC均不能分辨 5mC和 5hmC，而甲基化敏感类内切酶如 Mspl或 Hpall等，在大多情况下， 5mC和 5hmC对其有相同的影响。之前认为是检测甲基化金标准的重亚硫酸盐处理分析同样不能有效地分辨是 5mC修饰还是 5hmC修饰。此外，随着 5hmC特异性抗体的出现，依赖于免疫学检测 5hmC的技术如斑点印迹分析技术、细胞免疫荧光或免疫组化分析技术等已被广泛应用于羟甲基化相关的科学研究之中，但这些技术基本上都只限于检测 5hmC在组织或细胞内的存在与否或表达量的高低，而不能定位其在基因组上的分布。目前，在全基因组范围内检测 5hmC分布的技术主要集中在富集捕获结合测序分析的策略，如： hMeDIP, anti-CMS、 JBP-pull down等，但所有这些富集捕获的实验方法均不足以达到单碱基精确分辨 5hmC在 DNA序列内精确分布的程度，且依赖于抗体或蛋白捕获的该类技术大多受到非特异性捕获以及捕获偏好性的限制。

由此可见，本领域尚缺乏能够检测 5hmC在 DNA中精确分布的大规模检测技术，因此亟待需要建立一种能精确检测羟甲基化修饰的方法，为进一步研究 5-羟甲基胞嘧啶在基因组内的分布及其相关的表观调控机制提供有力的工具，也为进一步探索其对相关疾病的发生发展或在个体发育过程中所承担角色的实现提供前提条件。

发明内容

本发明的目的是提供一种检测核酸羟甲基化修饰的方法。

本发明的另一目的是提供所述方法的应用。在本发明的第一方面，提供了一种检测核酸羟甲基化修饰的方法，所述方法包括步骤： ( 1 )对所述核酸进行糖基化处理，获得羟甲基化碱基转化为糖基羟甲基化碱基的糖基化核酸；

(2)对未作糖基化处理的对照组核酸和步骤（1 ) 获得的糖基化核酸，分别进行第一限制性内切酶酶切反应，分别获得第一对照核酸片段和样本核酸片段；对所述对照组核酸或糖基化核酸进行第二限制性内切酶酶切反应，获得第二对照核酸片段；

(3 )对步骤（2) 获得的第一对照核酸片段、样本核酸片段和第二对照核酸片段，分别连接生物素标记的接头，获得具有生物素接头的第一对照连接产物、样本连接产物和第二对照连接产物；

(4)对步骤（3) 获得的具有生物素接头的第一对照连接产物、样本连接产物和第二对照连接产物，分别进行 Malll限制性内切酶酶切反应，产生第一对照 Malll酶切产物、样本 Nlalll酶切产物和第二对照 Malll酶切产物，且所述三种产物均为一端为生物素标记接头，另一端为粘性末端；

(5)对步骤（4)获得的第一对照 Malll酶切产物、样本 Malll酶切产物和第二对照 Malll 酶切产物，分别进行第二接头连接，所述第二接头序列中具有特定限制性内切酶的识别位点；获得第一对照二次接头连接产物、样本二次接头连接产物和第二对照二次接头连接产物；

(6)对步骤（5) 获得的第一对照二次接头连接产物、样本二次接头连接产物和第二对照二次接头连接产物进行特定限制性内切酶酶切反应，获得一端具有第二接头，另一端具有粘性末端的第一对照最终酶切产物、样本最终酶切产物和第二对照最终酶切产物；

(7)对步骤（6) 获得的第一对照最终酶切产物、样本最终酶切产物和第二对照最终酶切产物，与测序接头连接，扩增测序接头连接产物，获得第一对照测序文库、样本测序文库和第二对照测序文库；

(8)对步骤（7) 获得的测序文库进行测序，分析比较序列信息，获得核酸羟甲基化修饰的信息。

在另一优选例中，步骤 ( 1 )所述的核酸为基因组 DNA。

在另一优选例中，步骤（1 ) 所述的核酸来源于动物、植物、细菌、真菌、病毒，或其组合。

在另一优选例中，步骤（1 )所述的糖基化处理为：核酸在 T4-BGT酶的作用下，以尿嘧啶二磷酸葡萄糖为底物，将葡萄糖单元转移至核酸的 5-羟甲基胞嘧啶（5-hmC) 上，形成 β- 葡糖基 -5-羟甲基胞嘧啶（5gmC)。

在另一优选例中，步骤 (2)所述的第一限制性内切酶为 Μ /。

在另一优选例中，步骤 (2)所述的第二限制性内切酶为 H/¾J/。

在另一优选例中，步骤（3 )所述生物素标记接头的序列如 SEQ ID NO:l和 SEQ ID NO:2 所示。

在另一优选例中，步骤（4)还包括：利用链亲和霉素磁珠捕获 Malll酶切后产生的片段获得所述第一对照 Malll酶切产物、样本 Malll酶切产物和第二对照 Malll酶切产物，获得一端具有生物素标记接头，一端具有粘性末端的核酸片段。

在另一优选例中，步骤（5) 所述的第二接头由两条寡核苷酸链配对而成，所述两条寡核苷酸链序列分别为 SEQ ID NO: 3和 SEQ ID NO: 4；或所述两条寡核苷酸链分别为 SEQ ID NO: 5和 SEQ ID NO: 6；或所述两条寡核苷酸链分别为 SEQ ID NO: 7和 SEQ ID NO: 8。

在另一优选例中，步骤 (6) 中所述的特定限制性内切酶为 Mmel或 Ecop5I。

在另一优选例中，步骤 (6) 中用 Mmel酶切，获得 20bp长度的一端具有第二接头，另 —端具有粘性末端的片段。

或在另一优选例中，步骤（6)中用 Ecopl5I酶切，获得 25bp长度的一端具有第二接头，另一端具有粘性末端的片段。

在另一优选例中，步骤（7) 所述的测序接头由两条寡核苷酸链配对而成，所述两条寡核苷酸链序列分别为 SEQ ID NO:9禾口 SEQ ID NO: 10。

在另一优选例中，步骤 ( 8 )所述的测序选自下组任一测序平台进行：

Illumina Solaxa Roche 454、 ABI SOLID Helicos TRUE单分子测序、 PacBio单分子实时测序、 Oxford Nanopore纳米孔单分子测序。

在另一优选例中，步骤 ( 8 )所述的分析比较序列信息包括下述步骤：

(i)将测序后获得的各文库原始的读段进行过滤，获得高质量文库片段；将参考序列进行酶切模拟，获得由理论酶切片段构成的虚拟文库；

(ii)将步骤 ©获得高质量文库片段和虚拟文库进行比对，对比对统计数据进行归一化，得到三个文库的测序深度归一化数据；

(iii)根据步骤 (ii)获得的归一化数据计算每个 CCGG位点甲基化和羟基化水平；

(iv)根据步骤 (iii)获得的每个 CCGG位点甲基化和羟基化水平统计样本整体甲基化和羟基化水平和甲基化和羟基化修饰在染色质上的水平。在本发明的第二方面，提供了一种用于精确检测基因组羟甲基化修饰的试剂盒，包括组分：

(1)第一容器以及位于容器内的用于进行糖基化修饰的试剂；

(2)第二容器以及位于容器内的限制性内切酶反应试剂；

在另一优选例中，所述限制性内切酶包括 Mspl、 HpaII、 Mmel和 Main;

在另一优选例中，所述限制性内切酶包括 Mspl、 HpaII、 Ecopl5I和 Main;

(3)第三容器以及位于容器内的生物素标记接头，所述生物素标记接头优选由两条寡核苷酸链配对组成，例如所述两条寡核苷酸链序列分别为 SEQ ID NO: 1和 SEQ ID NO: 2；

(4)第四容器以及位于容器内的第二接头，所述第二接头为两条寡核苷酸链配对组成，优选地，所述两条寡核苷酸链序列为 SEQ ID NO: 3和 SEQ ID NO: 4；或所述两条寡核苷酸链序列为 SEQ ID NO: 5和 SEQ ID NO: 6；或所述两条寡核苷酸链序列为 SEQ ID NO: 7和 SEQ ID NO: 8；

(5)第四容器以及位于容器内的测序接头，所述测序接头优选由两条寡核苷酸链配对组成，例如所述两条寡核苷酸链序列为 SEQ ID NO: 9和 SEQ ID NO: 10。

在另一优选例中，所述试剂盒还包括：用于进行磁珠捕获所需的试剂、用于核酸纯化的试剂，或其组合。

应理解，在本发明范围内中，本发明的上述各技术特征和在下文 (如实施例)中具体描述的各技术特征之间都可以互相组合，从而构成新的或优选的技术方案。限于篇幅，在此不再累述。

附图说明

下列附图用于说明本发明的具体实施方案，而不用于限定由权利要求书所界定的本发明范围。

图 1显示了本发明一个优选例中，检测羟甲基化修饰的方法。

图 2显示不同文库经检测，最终连接 linker N和 P7接头的三种不同文库分别经过 PCR 扩增后，其片段大小均为 96bp，与理论大小相符；图 2(a)为干细胞 h9基因组经 T4-BGT糖基化修饰后， Mspl酶切文库片段分布范围；图 2 (b)为干细胞 h9基因组直接经过 Mspl酶切文库片段分布范围；图 2 (c)为干细胞 h9基因组直接经过 Hpall酶切文库片段分布范围。

图 3显示样品各 CCGG位点的甲基化和羟甲基化修饰水平的整体分布趋势，横坐标为修饰水平，纵坐标为相应修饰水平下，该修饰水平的 CCGG位点数目在总位点数中的密度。

图 4显示检测到的 CCGG位点在每一条染色质上的甲基化修饰和羟甲基化修饰水平。图 5显示甲基化和羟甲基化修饰数据与重亚硫酸盐分析数据一致性比较结果。

具体实施方式

本发明人经过广泛而深入的研究，首次建立了一种对核酸中的甲基化修饰和羟甲基化修饰的检测方法，具体地，包括步骤：对核酸进行糖基化修饰和 Mspl酶切，将酶切后的片段两端都连接生物素标记接头，进行 Malll酶切；再通过链亲和霉素磁珠捕获，所有捕获到的一端连接生物素接头，另一端突出 CATG四个碱基的序列均可表示出其临近的 CCGG位点的修饰状态信息；通过在 CATG粘性末端连接一个含有 Mmel或 Ecopl5I酶切位点的接头并用相应的酶进行切割，贝 lj产生的短序列片段可表示出其临近 CCGG位点的修饰信息；进行序列对比，即可获得甲基化修饰和羟甲基化修饰信息。术语

如本文所用，术语"含有"包括"具有 (comprise)"、 "基本上由...构成"和"由...构成"。如本文所用，术语"以上"和"以下"包括本数，例如" 80%以上"指≥80%,"2%以下"指≤2%。

5-羟甲基胞嘧啶（5-hydroxymethylcytosine， 5hmC)

5-羟甲基跑嘧啶是一种修饰的確基，是 TET家族酶通过氧化 5-甲基胞嘧锭 (5-ffiC)产生的，其紫夕卜光吸收和色谱表现与胞嘧啶类 ί以。 5- 甲基胞嘧啶可以以低水平存在于喃乳动物的多种细胞类型中。

5hmC在全基因组或不同细胞或组织中含量也不同。免疫测定发现 5hmC在脑、肝、肾和结肠直肠组织中的百分含量比较高，为 0.40-0.65%; 而在肺组织中含量相对较低，为 0.18%; 在心脏，乳房和胎盘中的含量极低，仅为 0.05-0.06%，相对正常结肠直肠组织 0.46-0.57%的百分含量，癌变的结肠直肠组织中其含量仅为 0.02-0.06%。 5hmC主要集中在外显子和转录起始位点附近，尤其集中在启动子含有组蛋白 H3赖氨酸 27三甲基化 (H3K27me3 )和组蛋白 H3 赖氨酸 4三甲基化 (H3K4me3 )这两个标记的基因起始位点。研究表明， 5-羟甲基胞嘧啶可能在转录调控中发挥作用。

T4噬菌体 β-葡糖基转移酶（T4-BGT)

Τ4噬菌体 β-葡糖基转移酶 (T4-BGT)可以高效地将尿嘧啶二磷酸葡萄糖 (UDP-Glucose) 的葡萄糖单元转移至双链 DNA的 5-羟甲基胞嘧啶残基上，形成 β-葡糖基 -5-羟甲基胞嘧啶 ( 5gmC)，而 5gmC不能被 Mspl切开。这样基因组经过 T4-BGT糖基化修饰后，对于特定单个 CCGG位点的羟甲基化修饰，可以经过 PCR半定量或经过 Q-PCR进行定量检测。引物

如本文所用，术语 "引物"指的是能与模板互补配对，在 DNA聚合酶的作用合成与模板互补的 DNA链的寡聚核苷酸的总称。引物可以是天然的 RNA、 DNA, 可以含有任何形式的天然核苷酸，引物甚至可以含有非天然的核苷酸如 LNA或 ZNA等。引物"大致上 "(或 "基本上")与模板上一条链上的一个特殊的序列互补。引物必须与模板上的一条链充分互补才能开始延伸，但引物的序列不必与模板的序列完全互补。比如，在一个 3'端与模板互补的引物的 5'端加上一段与模板不互补的序列，这样的引物仍大致上与模板互补。只要有足够长的引物能与模板充分的结合，非完全互补的引物也可以与模板形成引物-模板复合物，从而进行扩增。高通量测序

基因组的"再测序"使得人类能够尽早地发现与疾病相关基因的异常变化，有助于对个体疾病的诊断和治疗进行深入的研究。本领域技术人员通常可以采用多种第二代测序平台进行高通量测序： 454 FLX(Roche 公司)、 Solexa Genome Analyzer(Illumina 公司)禾口 Applied Biosystems公司的 SOLID等。这些平台共同的特点是极高的测序通量，相对于传统测序的 96道毛细管测序，高通量测序一次实验可以读取 40万到 400万条序列，根据平台的不同，读取长度从 25bp到 450bp不等，因此不同的测序平台在一次实验中，可以读取 1G到 14G不等的碱基数。其中， Solexa高通量测序包括 DNA簇形成和上机测序两个步骤： PCR扩增产物的混合物与固相载体上固定的测序探针进行杂交，并进行固相桥式 PCR扩增，形成测序簇；对所述测序簇用"边合成 -边测序法"进行测序，从而得到样本中疾病相关核酸分子的核苷酸序列。

DNA簇的形成是使用表面连有一层单链引物 (primer)的测序芯片 (flow cell),单链状态的 DNA片段通过接头序列与芯片表面的弓 I物通过碱基互补配对的原理被固定在芯片的表面，通过扩增反应，固定的单链 DNA变为双链 DNA，双链再次变性成为单链，其一端锚定在测序芯片上，另一端随机和附近的另一个引物互补从而被锚定，形成"桥"；在测序芯片上同时有上千万个 DNA单分子发生以上的反应；形成的单链桥，以周围的引物为扩增引物，在扩增芯片的表面再次扩增，形成双链，双链经变性成单链，再次成为桥，称为下一轮扩增的模板继续扩增；反复进行了 30轮扩增后，每个单分子得到 1000倍扩增，称为单克隆的 DNA簇。

DNA簇在 Solexa测序仪上进行边合成边测序，测序反应中，四种碱基分别标记不同的荧光，每个碱基末端被保护碱基封闭，单次反应只能加入一个碱基，经过扫描，读取该次反应的颜色后，该保护集团被除去，下一个反应可以继续进行，如此反复，即得到碱基的精确序列。在 Solexa多重测序 (Multiplexed Sequencing)过程中会使用 IndexC标签 or barcode)来区分样品，并在常规测序完成后，针对 Index部分额外进行 7个循环的测序，通过 Index的识别，最多可以在 1条测序甬道中区分 12种不同的样品。检测方法

本发明提供了一种精确检测羟甲基修饰位点的方法，在本发明的一个优选例中，所述方法包括以下步骤（见图 1 ):

1. 对基因组 DNA中的 5hmC进行糖基化修饰：取没有蛋白、 RNA等污染的完整基因组

DNA与 T4 β-葡萄糖基转移酶（T4-BGT) 反应；同时，取等量相同的基因组 DNA不进行糖基化修饰，作为对照组。

糖基化修饰组的 DNA在 T4-BGT酶的作用下，以尿嘧啶二磷酸葡萄糖（UDP-Glucose) 为底物，将葡萄糖单元转移至双链 DNA的 5-羟甲基胞嘧啶残基上，形成 β-葡糖基 -5-羟甲基胞嘧啶（5gmC)。该反应不依赖于 DNA序列，所以所有的 5-hmC都能被糖基化修饰，而没有修饰的胞嘧啶残基和甲基化修饰的 5-mC残基则不会被糖基化;对照组没有加入 T4-BGT, 不会进行糖基化修饰。

在本发明中，所述基因组 DNA可以来源于动物组织提取的基因组 DNA、细胞基因组 DNA等，只要基因组序列中的 CCGG位点存在 C^hCGG羟甲基化修饰，均可运用该技术进行检测。

2. 限制性内切酶的消化反应：将糖基化修饰以及对照组的 DNA分别平行进行 Mspl酶切反应，同时取没有蛋白、 RNA等污染的完整基因组 DNA用 Hpall酶进行酶切反应。

Mspl和 Hpall对甲基化的敏感性存在差异： Hpall只能识别并切割未被修饰的 CCGG位点； Mspl可以识别并切割各种修饰的 CCGG位点（CCGG、 C^mCGG禾 P C^hCGG; 在本申请的 DNA序列中上标 m表示甲基化，上标 h表示羟甲基化），但不能和切割 C^gCGG位点。因此，每组酶切的 DNA片段末端分别含有不同的修饰信息：经糖基化修饰和 Mspl酶切的 DNA片段末端包含了基因组中 CCGG和 C^mCGG的信息，直接经过 Hpall酶切的 DNA片段末端只包含基因组中 CCGG的信息，而直接经过 Mspl酶切的对照组的 DNA片段末端包含基因组中 CCGG、 C^mCGG和 C^hCGG所有的信息。

3. 连接 Biotin-linker (生物素标记的接头）：在 DNA连接酶的作用下，在不同处理和酶切的 DNA片段的两端分别连接生物素标记的接头 Biotin-linker。

4. Malll酶切：分别运用 Malll限制性内切酶切割经不同处理的、已连接生物素标记的 DNA片段，将两端均连接生物素标记接头的 DNA片段在序列内的" CATG"特定位点处切割，产生一端连接生物素标记接头，另一端突出 4个碱基 (CATG)粘性末端的序列和一些两端均为粘性末端的序列。

5. 链亲和霉素磁珠捕获:运用 M-280链亲和霉素偶联的磁珠捕获一端连接生物素标记接头，另一端突出 4个碱基 (CATG)粘性末端的 DNA片段，洗涤去除两端均为粘性末端的 DNA序列，舍弃这些序列对后续分析没有影响。

6. 连接 Linker N: 在 DNA连接酶的作用下，将捕获在链亲和霉素偶联磁珠上的 DNA 片段与连接末端含有 Mmel限制性内切酶识别位点的接头（Linker N)进行连接，产生的 DNA 片段一端通过生物素和链亲和霉素的亲和作用结合在磁珠上，而另一端则连接有一个含有 Mmel酶切位点的 Link N。 Mmel的识别位点为 5' TCCRAC3', 其中 R为碱基或0。在另一优选例中， Linker N中的 Mmel酶切位点变形为 Ecop5I酶切位点也同样可行。

7. Mmel或 Ecop5I酶切：用 Linker N中所含酶切位点的限制性内切酶 Mmel进行酶切，产生一个 20bp的插入片段，该插入片段的一端连有 Linker N，而另一端为突出两个任意碱基的粘性末端，同时产生一个相应的结合在磁珠上的碎片，产生的每一个连接有 Linker N的片段均可代表其相邻的 CCGG位点上的修饰信息。在另一优选例中，用 LinkerN中所含酶切位点的限制性内切酶 Ecop5I进行酶切，产生一个 25bp (Ecopl5I) 的插入片段，该插入片段的 —端连有 Linker N, 而另一端为突出两个任意碱基的粘性末端，同时产生一个相应的结合在磁珠上的碎片，产生的每一个连接有 LinkerN的片段均可代表其相邻的 CCGG位点上的修饰信息。

8. 连接 P7接头：纯化 Mmel或 Ecopl5I酶切产物中的上清 (含有连接有 Linker N的 DNA 片段)，纯化后在 DNA连接酶的作用下连接 P7接头，纯化连接产物。

9. PCR扩增及纯化：以 LinkerN和 P7接头序列为通用弓 I物进行 PCR扩增，扩增产物用

6%的非变性 PAGE胶回收纯化，回收产物经 Agilent 2100片段大小检测和 Q-PCR定量检测后在 Hiseq2000测序仪上进行序列分析。

10. 上机测序及数据分析：文库检测合格后将按照单末端 50个碱基的读长在 Hiseq2000 测序仪上进行序列分析。测序数据归一化后，比较不同文库中每个 CCGG位点对应的 20bp 的短序列的测序数量，获得每个位点的甲基化和羟甲基化修饰水平信息。

在一个优选例中，序列信息的分析比较是用包括下述步骤的方法获得的：（i)将测序后获得的各文库原始的读段进行过滤，获得高质量片段信息；将参考序列进行酶切模拟，获得由理论酶切片段构成的虚拟文库；（ii)将步骤 ©获得高质量片段信息的和虚拟文库进行比对，对比对统计数据进行归一化，得到三个文库的测序深度归一化数据；根据步骤 (ii)获得的归一化数据计算每个 CCGG位点甲基化和羟基化水平；根据步骤 (iii)获得的每个 CCGG位点甲基化和羟基化水平统计样本整体甲基化和羟基化水平和甲基化和羟基化修饰在染色质上的水平。

过滤条件包括：原始的文库序列信息减去接头序列信息；原始的文库序列信息减去 N碱基数超过总碱基数的 10%的序列信息；原始的文库序列信息减去碱基质量值低于 20的碱基数超过总碱基数的 10%的序列信息。

归一化包括步骤：根据 CCGG位点的深度对每个文库进行排序，每一个 CCGG位点获得在每一个文库中的排序值；获得每个 CCGG位点在每一列中的排序值，计算每个位点的三个排序值的方差， n次循环去除方差较大的点，最后剩余 m个位点作为归一化的基准线， m、 n为正整数；在另一优选例中， m取值范围为 5000-15000， n>4_; 根据这 m个排序稳定的点的总测序深度在文库间的比例关系，对文库进行归一化。试剂盒

本发明还提供了一种用于精确检测基因组羟甲基化修饰的试剂盒，所述试剂盒包括：

(1)第一容器以及位于容器内的用于进行糖基化修饰的试剂；

(2)第二容器以及位于容器内的限制性内切酶反应试剂；

在一个优选例中，限制性内切酶包括 Mspl、 HpalK Mmel禾 P Main; 或者包括 Mspl， Hpall, Ecopl5I和 Malll;

(4)第四容器以及位于容器内的第二接头，所述第二接头优选为两条寡核苷酸链配对组成，例如所述两条寡核苷酸链序列为 SEQ ID NO: 3和 SEQ ID NO: 4；或所述两条寡核苷酸链序列为 SEQ ID NO: 5和 SEQ ID NO: 6；或所述两条寡核苷酸链序列为 SEQ ID NO: 7和 SEQ ID NO: 8；

(5)第四容器以及位于容器内的测序接头，所述测序接头优选由两条寡核苷酸链配对组成，例如所述两条寡核苷酸链序列为 SEQ ID NO: 9和 SEQ ID NO: 10；

在本发明的一个优选例中，所述试剂盒还包括：用于进行磁珠捕获所需的试剂、用于核酸纯化的试剂，或其组合。本发明的主要优点包括: (1)本发明方法是在全基因组范围内，结合高通量测序的方法，单碱基分辨检测羟甲基修饰的技术，并且可以同时单碱基分辨的检测某一CCGG位点上的甲基化修饰状态；

(2)本发明方法检测位点的数量远远高于现有技术，覆盖率高；

(3)本发明采用的技术是以序列标签间接反映每一个位点的修饰状态，只需一端测序，序数据量极大减少，成本大大降低。下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法，通常按照常规条件如 Sambrook等人，分子克隆：实验室手册 (New York: Cold Spring Harbor Laboratory Press, 1989) 中所述的条件，或按照制造厂商所建议的条件。主要仪器和试剂

实施例中用到的主要仪器列于表 1。仪器名称型号厂家热循环仪（PCR仪） Veriti Thermal Cycler ABI

安捷伦 2100 2100 Bioanalyzer Agilent

NanoDrop 1000 (DNA浓度检测仪

Spectrophotometer Thermo Fisher Scientific 器）

凝胶成像系统 Tanon 上海天能科技有限公司

DarkReader Transilluminator (切胶仪

D195M Clare Chemical Reasearch 器）

Thermomixer (加热混匀仪器） Thermomixer comfort Eppendorf

低温离心机 5417R Eppendorf 台式离心机 5418 Eppendorf 台式离心机 SVC-75004334 Heraeus

垂直混合仪 HS3

mini PROTEAN Tetra

小型垂直电泳槽

Cel

Thermomixer comfort5355

震荡混匀器 QL-901

磁力架 123-21D Invitrogen

电子分析天平 BS 124S Sartorius 实施例中用到的主要试剂列于表 2。

表 2

实施例中用到的主要引物序列及名称列于表 3。

表 3

SEQ ID NO:3禾 P SEQ ID NO:4为带有 Mmel识别位点的 Linker N序列；

SEQ ID N0 5和 SEQ ID NO:6, 以及 SEQ ID NO:7和 SEQ ID NO: 8为带有 Ecopl5I识别位点的 Linker N序列。实施例 1 基因组 DNA糖基化修饰

材料： h9细胞系。

分别取 1μ_§的 h9细胞系基因组 DNA进行糖基化修饰以及对照组反应：分别在 1.5 ml的离心管中配置如表 4所示的反应体系。

¾4

组分糖基化处理组第一对照组 h9基因组 DNA l g

25 UDP-Glucose 4μ1 4μ1

ΙΟχΝΕΒ buffer4 ΙΟμΙ ΙΟμΙ T4-BGT 30单位 30单位（酶失活处理）无 RNA酶的水至 ΙΟΟμΙ 至 ΙΟΟμΙ 混匀、离心后， 37°C进行水浴 16h，反应后用乙醇沉淀回收，回收产物溶于 30μ1的 EB中。实施例 ² 限制性内切酶 Mspl酶切消化

将糖基化处理以及对照组 DNA分别进行 Mspl酶切。

分别在 1.5 ml的离心管中配置如表 5所示应体系。

组分糖基化处理组第一对照组回收 DNA 30μ1 30μ1

ΙΟχΝΕΒ buffer4 ΙΟμΙ ΙΟμΙ

Mspl 500单位 500单位

无 RNA酶的水至 50μ1 至 50μ1

37 V水浴反应 16- 19h，反应完后将产物 80 V灭活 20min。实施例 ³ 限制性内切酶 Hpall酶切消化另取 1μ_§的 h9基因组 DNA直接进行 Hpall酶切，在 1.5 ml的离心管中配置如表 6所示的酶切反应体系。

表 6

组分 Hpall酶切组 h9基因组 DNA

ΙΟχΝΕΒ buffer4 ΙΟμΙ

Hpall 500单位

无 RNA酶的水至 50 μΐ

37 °C水浴反应 16- 19h，反应完后将产物 80 °C灭活 20min。实施例 4 酶切产物连接 biotin-linker

将酶切得到的 DNA在 1.5 ml的离心管中配制反应体系，反应体系如表 7所示。

表 7 酶切后 DNA ΙΟΟμΙ

Biotin-linker ( 1 ΟμΜ) 3 μΐ

ATP (lOmM) 12μ1

Τ4 DNA连接酶（NEB) 2μ1 将反应体系放到 16°C条件下反应 5h。反应后用乙醇沉淀回收纯化连接产物，最后将样品溶于 172μ1的 LoTE (3 mmol/L Tris-HCl pH7.5 , 0.12 mmol/L EDTA) 中。实施例 5 Nlam (NEB)酶切

将上一步得到连接 biotin-linker的产物分别按表 8配制反应体系:

表 8

DNA 172μ1

lOOxBSA 2μ1

ΙΟχΝΕΒ buffer4 20μ1

Main 6μ1 总计 200μ1 将反应物置于 37°C条件下反应 lh。反应后在反应体系中加入 400μ1的 Wash buffer D (Invitrogen) 。实施例 6 链亲和霉素磁珠捕获连接 biotin-linker的序列

1. 准备链亲和霉素偶联磁珠

1 )重悬 M-280链亲和霉素偶联磁珠，吸取 200μ1至 1.5ml的不粘管中，将 EP管置于磁力架上 lmin，小心去除上清；

2)在 EP管中加入 400μ1的 Wash buffer D重悬磁珠，将 EP管置于磁力架上 2min，小心去除上清。

2. 链亲和霉素偶联磁珠捕获 Malll酶切后链接 biotin-linker的序列

1 )将 Malll酶切后得到的 200μ1 DNA反应液和 400μ1的 Wash buffer D混合液加入到准备好的磁珠中，重悬，室温孵育 20min。每隔 5min轻弹磁珠，防止沉淀；

2)反应后，分别将 EP管放于磁力架上静止 2min，弃上清；再用 600 μΐ Wash buffer D洗两次； 3)分别向每管加入 300μ1的 lxligation buffer (Invitrogen),重悬，置于磁力架上 1分钟，弃上清。实施例 7 Linker N的连接

1)在磁珠捕获产物里依次加入如表 9所示的试剂。

¾9

Linker N (50um) 2.5μ1

LoTE缓冲液 27μ1 5Χ ligation buffer 8μ1

2) 重悬后，置于 50°C水浴中反应 2min，之后室温放置 lOmin;

3)分别加入 2.5μ1的 T4HCDNAligase (Invitrogen, 型号 15224-041)，重悬混匀，置于调至 16°C的 Thermomixer (Eppendorf)上反应 2h，每 5min重悬混匀一次；

4)反应后，加入 600μ1的 WashbufferD重悬混匀，将 EP管置于磁力架上 l-2min，去上清；

5)用 600μ1 WashbufferD重复洗涤一次，将 EP管置于磁力架上 l-2min，去上清；

6)加入 600μ1的 WashbufferD, 重悬混匀后分别转入新的 1.5ml的不粘管中，将不粘管置于磁力架上 l-2min，去上清，用 200μ1的 lx EBbuffer4重悬。实施例 8 Mmel酶切

1)将不粘管置于磁力架上，小心去除 lxNEBb_Uffer4后，配制如表 10所示的酶切体系。

表 10

LoTE缓冲液 118μ1

10XNEB buffer 4 15μ1

50(^mSAM (S—腺苷甲硫氨酸，现稀释现用） 15μ1

Mmel 3μ1

2)将反应液置于 Thermomixer(Eppendorf)上， 37°C反应 1小时 10分钟，每 lOmin重悬混匀一次。

3) 反应完后，将不粘管置于离心机中， 15000g，离心 2min。

4)将不粘管置于磁力架上 2min，收集上清到新的 1.5ml的 EP管中。

5)在上述 1.5ml的 EP管中依次加入 150μ1的 LoTE和 300μ1的 25:24的苯酚氯仿，混匀后置于离心机中， 15000g离心 2min。

6)将上清转入 2ml的离心管中，依次加入 4μ1的糖原， 200μ1的 7.5Μ的醋酸铵和 1.5ml 预冷的无水乙醇，混匀， -80°C冰箱放置 30min后， 14000rpm， 4°C离心 10min，小心吸出上清。

7) 向沉淀中加入 70%的乙醇，洗漆，将管置于离心机中， 14000rpm， 4°C离心 5min。

8) 小心去除上清，将沉淀置于室温晾干 2min，将沉淀溶于 6μ1 LoTE中。实施例 9 Mmel酶切纯化产物连接 P7接头

将实施例 9得到的 DNA回收产物中按表 11配制连接反应体系。

表 11

DNA 6μ1

P7接头（ΙΟμιη) Ιμΐ

5 X ligation buffer 2μ1

T4 DNAligase Ιμΐ

得离心管放到调至 16°C的 Thermomixer(Eppendorf)上反应 3h。实施例 10 PCR扩增

取实施例 9反应产物中的 5μ1作为模板进行文库扩增，扩增体系见表 12。

表 12

连接 Ρ7接头的 DNA 5μ1

dNTP(2.5mM) 2μ1

5 Phusion PCR buffer (NEB) 5ul

Phusion®超保真 DNA聚合酶 Ιμΐ

P5引物（ΙΟμΜ) Ιμΐ

P7引物（ΙΟμΜ) Ιμΐ

dH₂0 ΙΟμΙ

总量 25 μΐ

PCR反应条件见表 13。

表 13

温度 ( °C ) 时间（min) 循环

98 °C 2min 1

98 °C 30 s

60 °C 30 s 9

72 °C 5min

12°C 维持实施例 11 PCR产物回收纯化

1 )将 PCR产物进行 6%非变性丙烯酰胺凝胶进行电泳： 180V， 30min。

2)切胶选择约为 86-90bp大小的文库片段，将目的条带放入套有 2ml离心管的 0.5ml离心管内（其中 0.5ml离心管底部用针剌有 6个小洞）。将其置于离心机内 14000rpm，离心 2min，将胶粉碎于 2ml的离心管中。

3 )在 2ml离心管中加入 ΙΟΟμί的 l xNEB buffer2，置于垂直混合器上，室温转 2h。

4 )将管内的液体及胶粒全部转到 Spin-X过滤柱（ Spin-X Cellulose Acetate Filter)内， 14,000 rpm离心 2min，在收集管内依次加入 Ιμί的糖原， ΙΟμί的 3Μ的醋酸钠和 325μί预冷的无水乙醇，混匀， -80°C冰箱放置 30min。

5 )将管置于离心机中， 14000rpm， 4°C离心 10min，小心去除上清。

6)用 70%乙醇对沉淀洗一次，将管置于离心机中， 14000rpm， 4°C离心 5min，小心去除上清。

7)将沉淀置于室温晾干 2min，溶于 15μ1的 Elution Buffer (QIAGEN) 中。实施例 12文库检测

用安捷伦 2100生物分析仪 (Bioanalyzer analysis system, Agilent, Santa Clara, USA)检测文库插入片段大小及含量； Q-PCR精确定量文库的浓度。

安捷伦 2100生物分析仪检测 h9基因组经 T4-BGT糖基化修饰后再经过 Mspl酶切的文库和 h9基因组分别直接经过 Mspl酶切或 Hpall酶切的文库片段大小，文库检测结果如下：图 2显示不同文库经检测，最终连接 linker N和 P7接头的三种不同文库分别经过 PCR 扩增后，其片段大小均为 96bp，与理论大小相符；图 2(a)为干细胞 h9基因组经 T4-BGT糖基化修饰后， Mspl酶切文库片段分布范围；图 2 (b)为干细胞 h9基因组直接经过 Mspl酶切文库片段分布范围；图 2 (c)为干细胞 h9基因组直接经过 Hpall酶切文库片段分布范围。实施例 13测序及数据分析

文库检测合格后将按照单末端 50个碱基的读长在 Hiseq2000测序仪上进行序列分析。测序数据归一化后，通过比较三种不同文库中每个 CCGG位点对应的 20bp的短序列的测序数量获得每个位点的甲基化和羟甲基化修饰水平信息。具体操作步骤如下：

1 )文库检测合格后，按照单末端 50个碱基的读长在 Hiseq2000测序仪上进行序列分析；

2) 测序分析结束后，得到下机的建库片段的原始序列信息，根据建库所加测序接头的序列信息，除去每条原始序列上的接头序列；同时对原始序列进行质量过滤，除去低质量的原始序列，过滤条件为：序列中 N碱基的数量超过总碱基数的 10%，或者碱基质量值低于 20的碱基数超过总结碱基数的 10%，这样的序列将被过滤； 3 )将人基因组 hgl9的序列在该实验方案下，进行计算机模拟酶切，得到理论的酶切片段，形成虚拟文库；再将上一步过滤后得到的测序序列同虚拟文库进行比对，不允许错配；比对结束后，对比对结果进行统计；

4) 比对结束，对三个文库的样品数据进行预处理，得到每个 CCGG位点在三个文库中的测序深度，并进行数据的归一化，归一化方法为：

(a)根据 CCGG位点的深度对每一列，即每一个文库，进行排序，每一个 CCGG位点获得在每一个文库中的排序值； (b)计算每一个位点在三个文库中的排序值的方差，舍弃方差较大的点，舍弃点的数目为：（总位点数 -5000) /4。对剩余点继续进行排序每个 CCGG位点获得在每一列中的排序值，计算每个位点的三个排序值的方差，并去除方差较大的（总位点数 -5000) /4个点；以此类推，循环 4次，最后剩余 5000个点作为归一化的基准线。根据这 5000个排序比较稳定的点的总测序深度在三个文库间的比例关系，对这三个文库进行归一化，将各文库的测序深度归一化到能同时检测 C、 mC和 5hmC的文库上；

5)根据归一化后的数据计算出每个 CCGG位点的甲基化水平和羟甲基化水平；

6)利用 perl程序语言和 R作图语言，通过各 CCGG位点的修饰信息，统计样品整体的甲基化和羟甲基化修饰水平分布以及甲基化和羟甲基化修饰在不同染色质上的水平，分别见图 3和图 4。

图 3样品各 CCGG位点的甲基化和羟甲基化修饰水平的整体分布趋势，横坐标为修饰水平，纵坐标为相应修饰水平下，该修饰水平的 CCGG位点数目在总位点数中的密度；图 3可看出本发明方案检测到的甲基化修饰为低甲基化和高甲基化修饰两种趋势，而羟甲基化修饰仅为偏低水平的修饰。

图 4为甲基化和羟甲基化在每一条染色质上修饰水平分析结果，在每一条染色质上，甲基化修饰水平分布在 60%到 80%之间，主要集中于 70%左右，与之前证明的甲基化修饰在人类基因组 CG位点上约为 70%完全一致。同时，发明人检测到在人胚胎干细胞 h9中，羟甲基化修饰均处于较低水平，只有不足 20%，与跟现在研究证明的羟甲基化低水平修饰相一致，表明本发明的检测技术的非常可靠。

为了进一步确定本发明方法甲基化检测的准确性，本发明人下载已公布的 h9细胞基因组重亚硫酸盐测序数据，比较重亚硫酸盐测序与本发明的酶切甲基化与羟甲基化测序的差异。

图 5 显示甲基化和羟甲基化修饰数据与重亚硫酸盐分析数据一致性比较结果。在 ±0.25 差异值范围，两种方法检测得的甲基化或羟甲基化修饰位点 87.9%是一致的，一致性比较高。对于极小部分差异超出（-0.25， 0.25) 的位点可能是由于重亚硫酸盐转换效率、细胞状态差异以及酶切效率等因素导致的，但这并不影响该技术的整体性应用，该差异可以被接受。实施例 14试剂盒

本实施例提供了一种用于精确检测样本中核酸羟甲基化修饰的试剂盒，包括组分： (1)第一容器以及位于容器内的用于进行 5hmC糖基化修饰的试剂；

(2)第二容器以及位于容器内的限制性内切反应试剂；且第二容器内设置独立单元，限制性内切酶 Mspl， Hpall, Mmel或 Ecopl5I， Main分别位于独立单元内；

(3)第三容器以及位于容器内的生物素标记接头；

(4)第四容器以及位于容器内的第二接头，接头序列为 SEQ ID N0.3和 SEQ ID N0.4;

(5)第五容器以及位于容器内的 P5和 P7接头；

(6)第六容器以及位于容器内的用于进行磁珠捕获所需的试剂；

(7)第七容器以及位于容器内的用于核酸纯化的试剂；

(8)说明书。讨论

对于全基因组 CCGG位点羟甲基化修饰的高通量检测， NEB公司设计了一种策略，具体思路如下：

首先，全基因组经过 Mspl酶切，这样在酶切效率为 100%的基础上，基因组所有的 CCGG 位点均可被切开（包括甲基化修饰和羟甲基化修饰位点）；

第二步，酶切后的片段以 dCTP为底物，经过 Klenow fragment的作用形成 5'突出一个碱基 C的粘性末端；

第三步， 4%的丙烯酰胺凝胶回收 40-300bp长度范围的经 Klenow fragment修复的 DNA 片段；

第四步，回收片段连接 5'突出碱基 G的双链接头（接头可以介导后续的 PCR扩增和测序)；

第五步，连接接头的回收片段经 BGT糖基化修饰，则基因组原序列的 CCGG位点如果含有羟甲基化修饰，则形成 5gmC;

第六步，糖基化修饰产物再进行 Mspl酶切，如果 CCGG位点是羟甲基化修饰，贝嗾头不会切下来；

第七步，取 1/3的上述产物进行 PCR扩增、测序，只有两端都有接头的序列即两端都是羟甲基化修饰的序列可以检测到；剩余 2/3的产物分两份，每份各取 1/3不直接进行 PCR扩增，而分别在 dCTP底物的作用下，经过 Klenow fragment再次进行末端修复，形成一端或两端突出一个碱基 C的粘性末端产物，然后在连接酶的作用下连接另外一种接头，连接产物中的一份直接进行 PCR扩增、测序。另一份经 Hpall酶切后再次经过末端修复和接头连接， PCR 扩增测序。这样第一组检测到的序列两端的 CCGG位点均羟甲基化修饰，第二组检测到的序列的一端为羟甲基化修饰，而另一端为甲基化修饰或不修饰，第三组检测到的序列的一端为羟甲基化修饰，而另一端为非修饰的 CCGG位点。

虽然 NEB公司的该技术在检测 5hmC在基因组中的分布取得较大进步，但是它也存在一些问题：比如该技术只能以 dCTP为底物进行末端修复，对于本来双链均发生羟甲基化修饰的位点，由于末端修复，将只有一条链为羟甲基化修饰，这极大地影响了该位点的酶切状况，因此而引入很多错误信息；该技术要分析的片段范围是靠切胶选择的（40-300bp)，这样得不到所有片段之外位点的修饰信息，即检测位点不全，所得数量较少。

本发明人借助 5hmC经过糖基化修饰后不能被 Mspl限制性内切酶切割，而 5mC和 5C 均可被 Mspl切开的原理，设计了一套含有生物素修饰的接头和含 Mmel酶切位点的接头，全基因组依次经过糖基化修饰、 Mspl酶切、生物素修饰的接头连接、 Malll酶切、链亲和霉素磁珠捕获、以及含 Mmel酶切位点的接头连接和 Mmel酶切等操作构建文库，借助高通量测序仪精确检测 5hmC在全基因组范围内的精确定位，建立一种单碱基分辨，精确检测 5hmC 的技术。

在本发明提及的所有文献都在本申请中引用作为参考，就如同每一篇文献被单独引用作为参考那样。此外应理解，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

权利要求书

1. 一种检测核酸羟甲基化修饰的方法，其特征在于，包括步骤：

( 1 )对所述核酸进行糖基化处理，获得羟甲基化碱基转化为糖基羟甲基化碱基的糖基化核酸；

(4)对步骤（3 ) 获得的具有生物素接头的第一对照连接产物、样本连接产物和第二对照连接产物，分别进行 Malll限制性内切酶酶切反应，产生第一对照 Malll酶切产物、样本 Nlalll酶切产物和第二对照 Malll酶切产物，所述三种产物均为一端为生物素标记接头，另一端为粘性末端；

(5 )对步骤（4)获得的第一对照 Malll酶切产物、样本 Malll酶切产物和第二对照 Malll 酶切产物，分别进行第二接头连接，所述第二接头序列中具有特定限制性内切酶的识别位点；获得第一对照二次接头连接产物、样本二次接头连接产物和第二对照二次接头连接产物；

2. 如权利要求 1所述的方法，其特征在于，步骤（1 )所述的核酸为基因组 DNA。

3. 如权利要求 1或 2所述的方法，其特征在于，步骤（1 )所述的核酸来源于动物、植物、细菌、真菌、病毒，或其组合。

4. 如权利要求 1-3任一项所述的方法，其特征在于，步骤（1 )所述的糖基化处理为：核酸在 T4-BGT酶的作用下，以尿嘧啶二磷酸葡萄糖为底物，将葡萄糖单元转移至核酸的 5-羟甲基胞嘧啶（5-hmC) 上，形成 β-葡糖基 -5-羟甲基胞嘧啶（5gmC)。

5. 如权利要求 1-4任一项所述的方法，其特征在于，步骤（2)所述的第一限制性内切酶为 Mspl。

6. 如权利要求 1-5任一项所述的方法，其特征在于，步骤（2)所述的第二限制性内切酶为 HpaII。

7. 如权利要求 1-6任一项所述的方法，其特征在于，步骤（3 )所述生物素标记接头由两条寡核苷酸链配对而成，所述两条寡核苷酸链序列分别为 SEQ ID NO: 1和 SEQ ID NO: 2。

8. 如权利要求 1-7任一项所述的方法，其特征在于，步骤（4)还包括：利用链亲和霉素磁珠捕获 Malll酶切后产生的片段获得所述第一对照 Malll酶切产物、样本 Main酶切产物和第二对照 Malll酶切产物。

9. 如权利要求 1-8任一项所述的方法，其特征在于，步骤（5)所述的第二接头由两条寡核苷酸链配对而成，所述两条寡核苷酸链序列分别为 SEQ ID NO: 3和 SEQ ID NO: 4。

10. 如权利要求 1-8任一项所述的方法，其特征在于，步骤（5)所述的第二接头由两条寡核苷酸链配对而成，所述两条寡核苷酸链分别为 SEQ ID NO: 5和 SEQ ID NO: 6。

11. 如权利要求 1-8任一项所述的方法，其特征在于，步骤（5)所述的第二接头由两条寡核苷酸链配对而成，所述两条寡核苷酸链分别为 SEQ ID NO: 7和 SEQ ID NO: 8。

12. 如权利要求 1-11 任一项所述的方法，其特征在于，步骤（6) 中所述的特定限制性内切酶为 Mmel或 Ecop5I。

13. 如权利要求 12所述的方法，其特征在于，步骤 (6) 中用 Mmel酶切，获得 20bp长度的一端具有第二接头，另一端具有粘性末端的片段。

14. 如权利要求 12所述的方法，其特征在于，步骤 (6) 中用 Ecopl5I酶切，获得 25bp 长度的一端具有第二接头，另一端具有粘性末端的片段。

15. 如权利要求 1-14任一项所述的方法，其特征在于，步骤（7)所述的测序接头由两条寡核苷酸链配对而成，所述两条寡核苷酸链序列分别为 SEQ ID NO:9和 SEQ ID NO: 10。

16. 如权利要求 1-15任一项所述的方法，其特征在于，步骤（8)所述的测序选自下组任一测序平台进行：

17. 如权利要求 1-16任一项所述的方法，其特征在于，步骤（8)所述的分析比较序列信息包括下述步骤：

(iv)根据步骤 (iii)获得的每个 CCGG位点甲基化和羟基化水平统计样本整体甲基化和羟基化水平和甲基化和羟基化修饰在染色质上的水平。

18. 如权利要求 17所述的方法，其特征在于，步骤 (i)所述的过滤包括： (a)原始的文库序列信息减去接头序列信息；和 /或

(b)原始的文库序列信息减去 N碱基数超过总碱基数的 10%的序列信息；和 /或

(c)原始的文库序列信息减去碱基质量值低于 20的碱基数超过总碱基数的 10%的序列信息。

19. 如权利要求 17或 18所述的方法，其特征在于，步骤 (i)所述的参考序列为人基因组 hgl8或 hgl9序列。

20. 如权利要求 17-19任一项所述的方法，其特征在于，步骤 (ii)所述的归一化包括步骤： (A)根据 CCGG位点的深度对每个文库进行排序，每一个 CCGG位点获得在每一个文库中的排序值；

(B)获得每个 CCGG位点在每一列中的排序值，计算每个位点的三个排序值的方差， n 次循环去除方差较大的点，最后剩余 m个位点作为归一化的基准线， m、 n为正整数；

(C)根据这 m个排序稳定的点的总测序深度在文库间的比例关系，对文库进行归一化。

21. 如权利要求 20所述的方法，其特征在于，步骤 (B)所述的 m取值范围为 5000-15000， n>4 o

22. 一种用于精确检测基因组羟甲基化修饰的试剂盒，其特征在于，包括组分：

(1)第一容器以及位于容器内的用于进行糖基化修饰的试剂；

(2)第二容器以及位于容器内的限制性内切酶反应试剂；

(3)第三容器以及位于容器内的生物素标记接头，所述生物素标记接头由两条寡核苷酸链配对组成，所述两条寡核苷酸链序列分别为 SEQ ID NO: 1和 SEQ ID NO: 2；

(4)第四容器以及位于容器内的第二接头，所述第二接头为两条寡核苷酸链配对组成，且所述两条寡核苷酸链序列为 SEQ ID NO: 3和 SEQ ID NO: 4；或所述两条寡核苷酸链序列为 SEQ ID NO: 5和 SEQ ID NO: 6；或所述两条寡核苷酸链序列为 SEQ ID NO: 7和 SEQ ID NO: 8；

(5)第四容器以及位于容器内的测序接头，所述测序接头由两条寡核苷酸链配对组成，且所述两条寡核苷酸链序列为 SEQ ID NO: 9和 SEQ ID NO: 10。

23. 如权利要求 22所述的试剂盒，其特征在于，位于第二容器内的限制性内切酶包括 Mspl、 HpaII、 Mmel和 MaIII。

24. 如权利要求 22所述的试剂盒，其特征在于，位于第二容器内的限制性内切酶包括 Mspl、 HpaII、 Ecopl5I和 MaIII。

25. 如权利要求 22-24任一项所述的试剂盒，其特征在于，所述试剂盒还包括：用于进行磁珠捕获所需的试剂、用于核酸纯化的试剂，或其组合。