WO2023092601A1

WO2023092601A1 - Umi分子标签及其应用、接头、接头连接试剂及试剂盒和文库构建方法

Info

Publication number: WO2023092601A1
Application number: PCT/CN2021/134159
Authority: WO
Inventors: 叶邦全
Original assignee: 京东方科技集团股份有限公司; 成都京东方光电科技有限公司
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2023-06-01
Also published as: CN116529430A; US20240209349A1

Abstract

一种UMI分子标签，包括：至少一个随机碱基和至少一个固定碱基。

Description

UMI分子标签及其应用、接头、接头连接试剂及试剂盒和文库构建方法

技术领域

本公开涉及生物技术领域，尤其涉及一种UMI分子标签及其应用、接头、接头连接试剂及试剂盒和文库构建方法。

背景技术

下一代基因测序技术(Next Generation Sequencing，NGS，也称为二代测序技术)是目前应用最广的测序技术，具有测序深度高、通量大、准确率高、灵敏度好等优势。

发明内容

一方面，提供一种UMI分子标签，包括：至少一个随机碱基和至少一个固定碱基。

在一些实施例中，所述随机碱基和所述固定碱基中至少其中一个为多个；多个所述随机碱基和/或多个所述固定碱基连续排列；或者，多个随机碱基中至少有两个随机碱基间隔排列，和/或，多个固定碱基中至少有两个固定碱基间隔排列。

在一些实施例中，所述随机碱基为多个，且多个随机碱基中至少有两个随机碱基间隔排列，间隔排列的每两个随机碱基之间间隔1～5个固定碱基。

在一些实施例中，所述随机碱基为至少三个；所述至少三个随机碱基两两之间均间隔排列，间隔排列的每两个随机碱基之间间隔一组固定碱基，每两组固定碱基所包含的固定碱基的数量相同。

在一些实施例中，在每相邻的两组固定碱基中，其中一组固定碱基中至少有一个固定碱基与另一组固定碱基中的一个固定碱基不同。

在一些实施例中，间隔排列的每两个随机碱基之间间隔2个～4个固定碱基，且所述2个～4个固定碱基均不相同。

在一些实施例中，所述随机碱基为3个。

在一些实施例中，所述UMI分子标签包括7个～11个碱基。

另一方面，提供一种分子标签组，包括：两个UMI分子标签，所述两个UMI分子标签通过至少部分碱基互补配对而结合；其中，至少一个UMI分子标签为如上所述的UMI分子标签。

另一方面，提供一种接头，包括：第一链和第二链；以及至少一个UMI分子标签，每个UMI分子标签位于所述第一链或第二链上，所述至少一个UMI分子标签为如上所述的UMI分子标签。

在一些实施例中，所述UMI分子标签为两个，两个UMI分子标签分别位于第一链和第二链上，并通过至少部分碱基互补配对而结合。

在一些实施例中，所述第一链为正向链，所述第二链为反向链；所述第一链包括第一测序引物序列，所述第二链包括第二测序引物序列，位于所述第一链上的UMI分子标签位于所述第一测序引物序列的下游，位于所述第二链上的UMI分子标签位于所述第二测序引物序列的上游。

在一些实施例中，多种接头，所述多种接头为如上所述的接头；在所述多种接头中，每两种接头所包含的至少一个UMI分子标签的至少一个随机碱基不同。

另一方面，提供一种试剂盒，包括：如上所述的接头连接试剂。

另一方面，提供一种如上所述的UMI分子标签在基因测序中的应用。

在一些实施例中，所述基因包括用于遗传信息表达的DNA分子；所述UMI分子标签被配置为对不同的DNA分子进行标记。

另一方面，提供一种DNA的文库构建方法，包括：

获取片段化DNA；对片段化DNA进行末端修复加A，得到末端修复产物；采用如权利要求12所述的接头连接试剂对末端修复产物进行处理，使所述接头连接试剂中的接头与末端修复产物发生反应，得到接头连接产物；对接头连接产物进行富集，得到DNA文库。

另一方面，提供一种基因测序检测方法，包括：使用如上所述的DNA的文库构建方法所获得的DNA文库对DNA进行基因测序。

又一方面，提供一种试剂盒，包括：如上所述的DNA的文库构建方法所获得的DNA文库。

附图说明

为了更清楚地说明本公开中的技术方案，下面将对本公开一些实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例的附图，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。此外，以下描述中的附图可以视作示意图，并非对本公开实施例所涉及的产品的实际尺寸、方法的实际流程、信号的实际时序等的限制。

图1为根据一些实施例的一种Y型接头的结构图；

图2为根据一些实施例的一种测序方法的流程图；

图3为根据一些实施例的另一种Y型接头的结构图；

图4为根据一些实施例的一种UMI分子标签组的结构图；

图5为根据一些实施例的接头的制备方法的流程图；

图6为根据一些实施例的用于检测实施例1、实施例2和实施例3的双链接头的合成效率的毛细管电泳峰图。

具体实施方式

下面将结合附图，对本公开一些实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开所提供的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本公开保护的范围。

除非上下文另有要求，否则，在整个说明书和权利要求书中，术语“包括(comprise)”及其其他形式例如第三人称单数形式“包括(comprises)”和现在分词形式“包括(comprising)”被解释为开放、包含的意思，即为“包含，但不限于”。在说明书的描述中，术语“一个实施例(one embodiment)”、“一些实施例(some embodiments)”、“示例性实施例(exemplary embodiments)”、“示例(example)”、“特定示例(specific example)”或“一些示例(some examples)”等旨在表明与该实施例或示例相关的特定特征、结构、材料或特性包括在本公开的至少一个实施例或示例中。上述术语的示意性表示不一定是指同一实施例或示例。此外，所述的特定特征、结构、材料或特点可以以任何适当方式包括在任何一个或多个实施例或示例中。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

“A、B和C中的至少一个”与“A、B或C中的至少一个”具有相同含义，均包括以下A、B和C的组合：仅A，仅B，仅C，A和B的组合，A和C的组合，B和C的组合，及A、B和C的组合。

“A和/或B”，包括以下三种组合：仅A，仅B，及A和B的组合。

本文中“适用于”或“被配置为”的使用意味着开放和包容性的语言，其不排除适用于或被配置为执行额外任务或步骤的设备。

如本文所使用的那样，术语“DNA”是脱氧核糖核酸(DeoxyriboNucleic Acid)的简称。DNA是存在于生物细胞的遗传信息载体，在体内的作用主要是引导RNA和蛋白质的合成。DNA是由脱氧核苷酸组成的大分子聚合物，脱氧核苷酸由磷酸、脱氧核糖和碱基构成；其中，碱基主要有4种，即A(腺嘌呤)、G(鸟嘌呤)、C(胞嘧啶)和T(胸腺嘧啶)。

如本文所使用的那样，术语“RNA”是核糖核酸(Ribonucleic Acid)的简称。RNA是存在于生物细胞以及部分病毒、类病毒中的遗传信息载体，在体内的作用主要是引导蛋白质的合成。RNA是由核糖核苷酸组成的大分子聚合物，核糖核苷酸由磷酸、核糖和碱基构成；其中，碱基主要有4种，即A(腺嘌呤)、G(鸟嘌呤)、C(胞嘧啶)和U(尿嘧啶)。

目前，二代测序技术广泛应用于生殖遗传、肿瘤检测等领域，尤其是在液体活检方面，在其文库制备过程中，所用的PCR(Polymerase Chain Reaction,聚合酶链式反应)扩增酶的复制具有一定的碱基错误率，同时在测序过程中，测序仪读取碱基的错误率为0.01％～0.1％(即每1000个碱基就会出现1个～10个错误碱基)，这些噪音突变(也称为非本源突变)会出现在低频或超低频突变的样本中，导致很难区分频率在1％及以下的突变是真实的基因突变还是测序或PCR错误导致的噪音突变。由于检测这些低频突变意义重大，因此，在原始的DNA片段中引入UMI分子标签(Unique Molecular indentifier)，UMI(Unique Molecular indentifier)分子标签又称分子条形码，它的原理就是给每一条原始的DNA片段加上一段特有的标签序列，经文库构建及PCR扩增后一起进行测序。这样，根据不同的标签序列我们就可以区分不同来源的DNA模板(后续均称为DNA分子)，分辨哪些是PCR扩增及测序过程中的随机错误造成的假阳性突变，哪些是患者真正携带的突变，从而提高检测灵敏度和特异性。具体的，该UMI分子标签对原始的DNA片段进行标记，来源于不同的DNA分子带上了不同的分子标签，分析测序结果时筛选出相同的插入片段(也即原始的DNA片段)，若同一个插入片段的两端带上具有互补配对的UMI接头，即可用UMI接头标记同一个插入片段的正反链(正向链和反向链)，如果同一位置的突变碱基在正反链中都出现，则标记为真实突变，通过这种方式还原其原始突变状态。

目前，引入UMI分子标签主要有两种策略：第一，单端UMI分子标签的引入，例如可以在接头的P5端加入8个随机碱基代替Index，此方法合成的接头具有简单、经济适用的优点，得到了广泛的应用，但是在建库过程中，UMI接头随机连接，会导致一段原始的DNA片段连上两个不同的UMI接头，导致正反链上连上不同的UMI标记，所以无法跟踪原始的正反链信息，不能准确地对正反链序列进行校正，并且如果UMI序列发生碱基突变则会导致原始的DNA片段碱基数增多，引入潜在的假阳性突变。第二、双端UMI分子标签的引入，也即在相关技术中，首先合成单链的接头(序列)，单链的接头(序列)包括第一序列和第二序列，其中，第二序列包括限制性内切酶的保护碱基、随机碱基的双链分子标签，其次通过对单链的接头序列进行退火形成双链接头，最后通过酶切即可得到3’-dT尾的接头，这样的双链接头虽可以有效解决单端UMI无法跟踪原始正反链的问题，但是UMI序列本身发生突变时，也会引入假阳性突变。

本公开的一些实施例提供一种接头10，如图1所示，接头10包括：第一链11和第二链12，以及至少一个UMI分子标签20，每个UMI分子标签20位于第一链11或第二链12上。

其中，以接头10为Y型接头为例，根据能否匹配PCR-free文库，接头10可以分为长接头(完整的Y型)和短接头(不完整的Y型接头)。长接头通过TA连接的方式连接到待测DNA片段(也即如上所述的原始的DNA片段)两端，在文库产量足够的情况下，可不进行PCR扩增直接上机测序；而短接头通过TA连接的方式连接到待测DNA片段两端后，必须使用与短接头互补的Indexing Primers进行PCR扩增成为完整接头后，才能上机测序。短接头和长接头不同的主要原因是长短接头引入Index序列的方式不同。Index序列被配置为对不同的待测序列的样本进行标记，一个样本可以包括成千上万的DNA分子，UMI分子标签20则用于对同一个样本或不同的样本中的不同的DNA分子进行标记。

其中，以上述接头10为长接头为例，该接头10可以分为单端Index接头和双端Index接头，单端Index接头只在P7端存在Index序列，双端Index接头在P5和P7两端均存在Index序列。

在此，以接头10为单端Index接头为例，在上述接头10包括一个UMI分子标签20的情况下，如图1所示，该UMI分子标签20可以加入P7端代替Index序列，此时，第一链11可以包括从5’端依次的第一PCR扩增引物111(也就是通常所说的P5)和第一测序引物序列112(R1SP)，第二链12可以包括从5’端依次的第二测序引物序列121(R2SP)、UMI分子标签20和第二PCR扩增引物122(也就是通常所说的P7)。也即，该接头10为单端UMI的接头。

在一些实施例中，上述至少一个UMI分子标签20包括至少一个随机碱基和至少一个固定碱基。

其中，对一个UMI分子标签20中随机碱基和固定碱基的数量和排列方式均不做具体限定。

在一些实施例中，以随机碱基和固定碱基均为一个为例，随机碱基和固定碱基可以沿同一方向依次排列，例如：随机碱基和固定碱基按照从UMI序列的5’端到3’端的方向依次先后排列，或者，随机碱基和固定碱基按照从UMI序列的3’端到5’端的方向依次先后排列。

在另一些实施例中，以随机碱基和固定碱基中至少其中一个为多个为例，有两种可能的情况。

第一种情况，随机碱基和/或固定碱基为多个，多个随机碱基和/或多个固定碱基连续排列。

在此情况下，根据随机碱基和固定碱基分别为一个还是多个，有多种可能的情形，第一种情形，随机碱基为多个，固定碱基为一个，在此情形下，多个随机碱基连续排列，此时，固定碱基可以位于多个随机碱基的一侧(如将从UMI序列的5’端到3’端的方向称为第一方向，将从UMI序列的3’端到5’端的方向称为第二方向，固定碱基可以位于多个随机碱基的第一方向或第二方向的一侧)。第二种情形，固定碱基为多个，随机碱基为一个，在此情形下，随机碱基可以位于多个固定碱基的一侧(如将从UMI序列的5’端到3’端的方向称为第一方向，将从UMI序列的3’端到5’端的方向称为第二方向，随机碱基可以位于多个固定碱基的第一方向或第二方向的一侧)。第三种情形，随机碱基和固定碱基均为多个，在此情形下，多个随机碱基和多个固定碱基均连续排列，此时，多个固定碱基可以位于多个随机碱基的一侧(如将从UMI序列的5’端到3’端的方向称为第一方向，将从UMI序列的3’端到5’端的方向称为第二方向，多个固定碱基可以位于多个随机碱基的第一方向或第二方向的一侧)。

第二种情况，随机碱基和/或固定碱基为多个，且多个随机碱基中至少有两个随机碱基间隔排列，和/或，多个固定碱基中至少有两个固定碱基间隔排列。

在此情况下，根据随机碱基和固定碱基分别为一个还是多个，有多种可能的情形，第一种情形，随机碱基为多个，固定碱基为一个，在此情形下，固定碱基位于多个随机碱基中任意两个相邻的随机碱基之间。第二种情形，固定碱基为多个，随机碱基为一个，在此情形下，随机碱基位于多个固定碱基中任意两个相邻的固定碱基之间。第三种情形，随机碱基和固定碱基均为多个，在此情形下，有多种可能的排列方式，第一种排列方式，多个随机碱基中至少有两个随机碱基间隔排列，多个固定碱基位于任意两个间隔的随机碱基之间。第二种排列方式，多个固定碱基中至少有两个固定碱基间隔排列，多个随机碱基位于任意两个间隔的固定碱基之间。第三种排列方式，多个随机碱基中至少有两个随机碱基间隔排列，多个固定碱基中至少有两个固定碱基间隔排列，这时，多个随机碱基和多个固定碱基均至少有两个碱基间隔排列，且两个间隔的随机碱基之间可以间隔一个或多个固定碱基，两个间隔排列的固定碱基之间也可以间隔一个或多个随机碱基。

其中，以随机碱基为多个，且多个随机碱基中至少有两个随机碱基间隔排列为例，间隔排列的每两个随机碱基之间可以间隔1～5个固定碱基。

其中，需要说明的是，随机碱基顾名思义就是碱基是随机的，可以选自4个碱基(A、T、C和G)中的任意一个，可以用N来表示。随机碱基选自不同的碱基，可以用于标记不同的DNA分子。

示例的，以一个UMI分子标签20中，随机碱基为一个为例，该UMI分子标签20中的N可以选自4个碱基中的任一个，这时，根据UMI分子标签20中的N不同，可以得到4种UMI分子标签，这4种UMI分子标签20可以做成4 ²个(也即16个)接头(一个DNA分子连接两个接头)，从而可以对4 ²个(也即16个)不同的DNA分子进行标记，进而完成对4 ²个(也即16个)不同的DNA分子的检测。

以一个UMI分子标签20中，随机碱基为3个为例，该UMI分子标签20中的每个N均可以选自4个碱基中的任一个，这时，根据UMI分子标签20中的3个N分别有4 ³种(也即64种)组合，可以得到4 ³种(也即64种)UMI分子标签20，这64种UMI分子标签20可以做成64 ²个(也即4096个)接头(一个DNA分子连接两个接头)，从而可以对64 ²个(也即4096个)不同的DNA分子进行标记，进而完成对64 ²个(也即4096个)不同的DNA分子的检测。

由此可见，随着随机碱基的个数越多，UMI分子标签的种类就越多，其所能够标记的DNA分子的数量也就越多。

固定碱基选自固定的已知碱基，用于在待侧序列和UMI分子标签本身在扩增或测序发生错误时，对其进行校正，以减少引入假阳性突变。

具体的，如图2所示，以原始的DNA片段为100条，且起始位置和终止位置相同(也即序列相同)，分别记为原始序列1、原始序列2、原始序列3、…、原始序列99和原始序列100，其中，原始序列2是发生了突变的序列，真实的突变频率为1％为例，原始的DNA片段分别连上一个不同的UMI接头，得到对应原始序列1～原始序列100的序列，仍然记为原始序列1、原始序列2、原始序列3、…、原始序列99和原始序列100，对这100个连接有UMI接头的原始序列进行PCR扩增富集，得到DNA文库，该DNA文库包括100条连接有UMI接头的原始序列1(为了区分，把复制得到的其余99条连接有UMI 接头的原始序列1记为原始序列1’)，其中，如图2中第一种情况，对于原始序列1而言，通过UMI接头上的AAGCT可以判断出99条连接有UMI接头的原始序列1’是通过PCR扩增复制而来，由于原始序列1检测位点是A碱基，理论上复制出来的99条原始序列1’也应该为A碱基，但是，若第100条原始序列1’为C碱基，则可以判断这是PCR扩增错误或测序错误导致的噪音突变。而在第100条原始序列1’的DNA序列和UMI接头同时出现扩增错误的情况下，若UMI分子标签20为随机碱基组成的分子标签，则会判断为DNA序列和UMI接头均为真实突变，导致引入假阳性突变，而在本公开的实施例中，如图2中第二种情况，由于这5个碱基的UMI分子标签20的中间碱基固定为G碱基，根据这5个碱基的UMI分子标签20为AAGCT，而不是AATCT，即可判定该第100条原始序列1’中的UMI分子标签20也是PCR扩增或测序引入的噪音突变，而根据这5个碱基的UMI分子标签20标记的其余99条原始序列1’中的DNA序列均没有发生突变，则可以判定该第100条原始序列1’中的DNA序列也是PCR扩增或测序引入的噪音突变。

由此可见，通过采用部分固定碱基的UMI分子标签20，既可以保证接头的多样性，标记不同的原始的DNA片段，又能够在一定程度上排除PCR扩增或测序引入的噪音突变，从而可以提高检测准确性。

在本公开的一些实施例中，随机碱基为至少三个，至少三个随机碱基两两之间均间隔排列，间隔排列的每两个随机碱基之间间隔一组固定碱基，每两组固定碱基所包含的固定碱基的数量相同。

在这些实施例中，通过将随机碱基的数量限定为至少三个，可以保证UMI分子标签20对至少4096个不同的DNA分子进行标记，提高待检测分子的数量，从而提高样本的检测准确性，同时，通过使间隔排列的每两个随机碱基之间间隔一组固定碱基，每两组固定碱基所包含的固定碱基的数量相同，可以提高随机碱基和固定碱基排列的规律性，从而更容易识别出是固定碱基出现的突变，还是原始的DNA片段本身的突变，减少引入假阳性突变，提高检测准确性。另外，通过测试发现，在UMI分子标签20的碱基数量相同的情况下，多个随机碱基两两之间均间隔排列，与多个随机碱基连续排列相比，检测准确性更高。

在另一些实施例中，由于固定碱基起到排除PCR扩增或测序引入的噪音突变的作用，因此，在一个UMI分子标签20中，随着固定碱基的数量越多，检测时的容错性越好，越能够提高检测准确性，在此，以UMI分子标签20包括3个随机碱基和4个固定碱基为例，在后续测序时，UMI分子标签20有 4个固定碱基进行容错，容错率可以为4除以7乘以100％，约为57％。

然而，考虑到随着固定碱基的数量增多，会导致后续占用测序数据量，因此，固定碱基也并不是越多越好。

基于此，在一些实施例中，上述间隔排列的每两个随机碱基之间间隔2个～4个固定碱基。

在这些实施例中，通过在每两个随机碱基之间间隔2个～4个固定碱基，可以在保证检测的容错率的情况下，防止固定碱基数量过多而造成后续占用测序数据量。

其中，2个～4个固定碱基可以相同或不同，在此不做具体限定。

在一些实施例中，2个～4个固定碱基均不相同。

在这些实施例中，由于这2个～4个固定碱基均不相同，因此，能够在测序时，防止同一种荧光(标记同一种碱基)集中(碱基种类相同容易造成同一种荧光集中)，从而可以防止荧光集中造成读取不准确的问题，提高检测准确性。

在另一些实施例中，在每相邻的两组固定碱基中，其中一组固定碱基中至少有一个固定碱基与另一组固定碱基中的一个固定碱基不同。

示例的，以一个UMI分子标签20中，随机碱基为3个，3个随机碱基两两间隔排列，每两个随机碱基之间均间隔1个固定碱基(也即相邻的两组固定碱基均包括1个固定碱基)为例，由于每相邻的两组固定碱基中，其中一组固定碱基中至少有一个固定碱基与另一组固定碱基中的一个固定碱基不同，因此，该UMI分子标签的序列可以表示如下：

NN1NN2N

其中，N1和N2不同，分别选自A、T、C和G中的任一种，3个N可以相同或不同，分别独立地选自A、T、C和G中的任一种。

也即，以N1选自A，N2选自C为例，相邻的两组固定碱基分别为A和C，且这两个固定碱基不同。

与N1和N2选自相同的碱基相比，可以在测序时，防止同一种荧光(标记同一种碱基)集中(碱基种类相同容易造成同一种荧光集中)，从而可以避免荧光集中造成读取不准确的问题，提高检测准确性。

再示例的，以一个UMI分子标签20中，随机碱基为3个，3个随机碱基两两间隔排列，每两个随机碱基之间均间隔2个固定碱基(也即相邻的两组固定碱基均包括2个固定碱基)为例，由于每相邻的两组固定碱基中，其中一组固定碱基中至少有一个固定碱基与另一组固定碱基中的一个固定碱基不同，因此，该UMI分子标签的序列可以表示如下：

NN3N4NN5N6N

其中，N3和N4可以相同或不同，分别独立地选自A、T、C和G中的任一种，N5和N6相同或不同，分别独立地选自A、T、C和G中的任一种，且N3和N4中至少有一者与N5和N6中的任一者均不同，3个N相同或不同，分别独立地选自A、T、C和G中的任一种。

这时，根据N3和N4是否相同，可以有两种可能的情况，第一种情况，N3和N4相同，这时，根据N5和N6是否相同，可以有两种可能的情形，第一种情形，N5和N6不同，此时，N5和N6中至少有一个固定碱基与N3和N4中的一个固定碱基不同，是指，N5和N6中有一个固定碱基与N3和N4中的两个固定碱基均不相同，或者，N5和N6中两个固定碱基与N3和N4中的两个固定碱基均不相同，其中，在N5和N6中有一个固定碱基与N3和N4中的两个固定碱基均不相同的情况下，以N3和N4均选自A为例，N5和N6可以分别选自A和C、A和G，或者A和T，在N5和N6分别选自A和C的情况下，相邻的两组固定碱基分别为AA和AC，这两组固定碱基中，其中一组固定碱基中的一个固定碱基(C)与另一组固定碱基中的两个固定碱基(A)不同；在N5和N6分别选自A和G的情况下，相邻的两组固定碱基分别为AA和AG，这两组固定碱基中，其中一组固定碱基中的一个固定碱基(G)与另一组固定碱基中的两个固定碱基(A)不同；在N5和N6分别选自A和T的情况下，相邻的两组固定碱基分别为AA和AT，这两组固定碱基中，其中一组固定碱基中的一个固定碱基(T)与另一组固定碱基中的两个固定碱基(A)不同。在N5和N6中两个固定碱基与N3和N4中的两个固定碱基均不相同的情况下，仍然以N3和N4均选自A为例，N5和N6可以分别选自C和G、C和T，或者G和T，在N5和N6分别选自C和G的情况下，相邻的两组固定碱基分别为AA和CG，这两组固定碱基中，其中一组固定碱基中的两个固定碱基(C和G)与另一组固定碱基中的两个固定碱基(A)均不相同；在N5和N6分别选自C和T的情况下，相邻的两组固定碱基分别为AA和CT，这两组固定碱基中，其中一组固定碱基中的两个固定碱基(C和T)与另一组固定碱基中的两个固定碱基(A)均不相同；在N5和N6分别选自G和T的情况下，相邻的两组固定碱基分别为AA和GT，这两组固定碱基中，其中一组固定碱基中的两个固定碱基(G和T)与另一组固定碱基中的两个固定碱基(A)也均不相同。第二种情形，N5和N6相同，此时，N5和N6中至少有一个固定碱基与N3和N4中的一个固定碱基不同，是指，N5和N6中两个固定碱基与N3和N4中的两个固定碱基均不相同，示例的，仍然以N3和N4均选自A为例，N5和B6可以均选自T、G或C，在N5和N6均选自T的情况下，N5和N6中的两个固定碱基(T)与N3和N4中的两个固定碱基(A)均不相同，在N5和N6均选自G的情况下，N5和N6中的两个固定碱基(G)与N3和N4中的两个固定碱基(A)均不相同，在N5和N6均选自C的情况下，N5和N6中的两个固定碱基(C)与N3和N4中的两个固定碱基(A)均不相同。

第二种情况，N3和N4不同，这时，根据N5和N6是否相同，可以有两种可能的情形，第一种情形，N5和N6不同，此时，N5和N6中至少有一个固定碱基与N3和N4中的一个固定碱基不同，是指，N5和N6中有一个固定碱基与N3和N4中的一个固定碱基不同，或者，N5和N6中两个固定碱基与N3和N4中的两个固定碱基均不相同，其中，在N5和N6中有一个固定碱基与N3和N4中的一个固定碱基不同的情况下，以N3和N4分别选自A和T为例，N5和N6可以分别选自A和C、A和G、T和C，或者T和G等，在N5和N6分别选自A和C的情况下，N5和N6中一个固定碱基(C)与N3和N4中一个固定碱基(T)不同，在N5和N6分别选自A和G的情况下，N5和N6中一个固定碱基(G)与N3和N4中一个固定碱基(T)不同，在N5和N6分别选自T和C的情况下，N5和N6中一个固定碱基(C)与N3和N4中一个固定碱基(T)不同，在N5和N6分别选自T和G的情况下，N5和N6中一个固定碱基(G)与N3和N4中一个固定碱基(T)不同。在N5和N6中两个固定碱基与N3和N4中的两个固定碱基均不相同的情况下，仍然以N3和N4分别选自A和T为例，N5和N6可以分别选自G和C，在N5和N6分别选自G和C的情况下，N5和N6中两个固定碱基(G和C)与N3和N4中的两个固定碱基(A和T)均不相同。第二种情形，N5和N6相同，此时，N5和N6中至少有一个固定碱基与N3和N4中的一个固定碱基不同，是指，N5和N6中两个固定碱基与N3和N4中的一个或两个固定碱基不同，示例的，仍然以N3和N4分别选自A和T为例，N5和N6可以均选自A、T、C或G，在N5和N6均选自A的情况下，N5和N6中两个固定碱基与N3和N4中的一个固定碱基不同，在N5和N6均选自T的情况下，N5和N6中两个固定碱基与N3和N4中的一个固定碱基不同，在N5和N6均选自C的情况下，N5和N6中两个固定碱基与N3和N4中的两个固定碱基均不相同，在N5和N6均选自G的情况下，N5和N6中两个固定碱基与N3和N4中的两个固定碱基也均不相同。

在这些实施例中，与上述每两个随机碱基之间均间隔1个固定碱基(也即相邻的两组固定碱基均包括1个固定碱基)相类似地，同样能够在测序时，防止同一种荧光(标记同一种碱基)集中(碱基种类相同容易造成同一种荧光集中)，从而可以防止荧光集中造成读取不准确的问题，提高检测准确性。

在一些实施例中，随机碱基为3个。

在这些实施例中，将随机碱基限定为3个，可以对4096个不同的DNA分子进行标记，从而可以满足应用需求。

在一些实施例中，UMI分子标签20包括7个～11个碱基。

在这些实施例中，通过将UMI分子标签20所包含的碱基数量限定为7个～11个，可以避免UMI分子标签20过长后续占用测序数据，以及UMI分子标签20过短不利于提高容错率(如固定碱基数量过少)和/或不利于对较多的DNA分子进行标记(如随机碱基数量过少)的问题。

在一些实施例中，如图3所示，UMI分子标签20为两个，两个UMI分子标签20分别位于第一链11和第二链12上，并通过至少部分碱基互补配对而结合。

在这些实施例中，两个UMI分子标签20可以分别为第一UMI分子标签和第二UMI分子标签，此时，有两种可能的情况，第一种情况，第一UMI分子标签20可以位于第一测序引物序列111和第一扩增引物序列112之间，第二UMI分子标签20可以位于第二测序引物序列和121第二扩增引物序列122之间，并通过部分碱基互补配对而结合，此时，该接头10与单端UMI接头相同，也无法对正向链和反向链进行跟踪。第二种情况，如图3所示，第一链11为正向链(如图3中从左到右为从5’端到3’端排列的链)，第二链12为反向链(如图3中从左到右为从3’端到5’端排列的链)、位于第一链11上的UMI分子标签20(也即上述所述的第一UMI分子标签)位于第一测序引物序列112的下游，位于第二链12上的UMI分子标签20(也即上述所述的第二UMI分子标签)位于第二测序引物序列121的上游，此时，第一UMI分子标签和第二UMI分子标签通过全部的碱基互补配对而结合，在此情况下，该接头10也可以称为双端UMI的接头，与单端UMI的接头相比，还能够对待测序列的正向链和反向链同时进行跟踪，从而可以在同一位置的突变碱基在正反链中都出现时标记为真实突变，能够进一步提高检测的准确性。

在另一些实施例中，如图3所示，接头10还包括Index序列1和Index序列2，Index序列1位于第二链12上，Index序列2位于第一链11上，Index序列1和Index序列2可以对不同的样本进行标记。

本公开的一些实施例提供一种接头连接试剂，包括：多种接头10、连接酶、缓冲液等，多种接头10为如上所述的接头10，连接酶示例的可以是DNA连接酶或RNA连接酶，其作用是促使多种接头10和进行末端修复后的DNA片段连接，缓冲液为接头连接反应提供稳定的pH环境。在多种接头10中，每两种接头10所包含的至少一个UMI分子标签20的至少一个随机碱基不同。

在这些实施例中，上述多种接头10均为UMI接头，该UMI接头所包含的至少一个UMI分子标签20包括至少一个随机碱基和至少一个固定碱基，随机碱基选自不同的碱基，因此，通过不同的UMI接头可以对不同的DNA分子进行标记，从而实现对多个不同的DNA分子进行测序，固定碱基选自已知的固定的碱基，可以在待测序列和UMI分子标签本身在扩增或测序发生错误时，对其进行校正，从而可以减少引入假阳性突变。

本公开的一些实施例提供一种试剂盒，包括如上所述的接头连接试剂。

也即，该试剂盒可以是接头连接试剂盒。试剂盒是指用于盛放检测化学成分、药物残留、病毒种类等化学试剂的盒子，在此则是指盛放有接头连接试剂的盒子。

本公开的实施例提供的试剂盒的有益技术效果和本公开的实施例提供的接头的有益技术效果相同，在此不再赘述。

本公开的一些实施例提供一种UMI分子标签20在基因测序中的应用，该UMI分子标签20包括至少一个随机碱基和至少一个固定碱基。

在一些实施例中，该基因可以包括用于遗传信息表达的DNA分子或RNA分子，UMI分子标签20被配置为对不同的DNA分子或RNA分子进行标记。

示例的，该基因可以包括cfDNA，该UMI分子标签20可以用于UMI接头中，对不同的cfDNA分子进行标记。

本公开的一些实施例提供一种DNA或RNA的文库构建方法，包括：

获取片段化DNA。

其中，获取片段化DNA可以通过机械打断的方式或酶解的方式进行获取。

当然，在获取片段化DNA之前，可以采用mRNA反转录得到cDNA(complementary DNA)，在将cDNA打断之后得到片段化的DNA。

在一些实施例中，某些DNA为血液中的游离DNA，本身就是片段化的，可以直接从血液中获取，或者，可以通过商业途径获取，如cfDNA(Circulating Free DNA)，cfDNA(Circulating Free DNA)是一种在细胞外呈现游离状态且无细胞状态的的DNA。

对片段化DNA或RNA进行末端修复加A，得到末端修复产物。

示例的，以片段化DNA为cfDNA为例，可以采用KAPA Biosystem(也可以简称为KAPA)试剂盒对cfDNA进行末端修复加A。

采用如上所述的接头连接试剂对末端修复产物进行处理，使接头连接试剂中的接头与末端修复产物发生反应，得到接头连接产物。

也即，利用上述包含有多种接头的接头连接试剂对末端修复产物连接接头，每个末端修复产物可以包括正向链和反向链，一个末端修复产物可以连接两个接头10，在每个接头10包括一个UMI分子标签20的情况下，该接头10为单端UMI的接头，可以对不同的末端修复产物进行标记，但是，并不能对末端修复产物的正反链进行跟踪，而在接头10为双端UMI的接头的情况下，则可以对末端修复产物的正反链进行跟踪，从而可以在同一位置的突变碱基在正反链中都出现时标记为真实突变，能够进一步提高检测的准确性。

对接头连接产物进行富集，得到DNA或RNA文库。

示例的，可以通过PCR扩增对接头连接产物进行富集。

由于上述接头10中的UMI分子标签20包括至少一个随机碱基和至少一个固定碱基，随机碱基选自不同的碱基，根据随机碱基的不同，可以利用UMI分子标签20标记不同的DNA分子，而固定碱基选自已知的固定的碱基，可以在待测序列和UMI分子标签20本身在扩增或测序发生错误时，对其进行校正，从而可以减少引入假阳性突变，提高检测准确性。

本公开的一些实施例提供一种基因测序检测方法，包括：

使用如上所述的DNA或RNA的文库构建方法所获得的DNA或RNA文库对DNA或RNA进行基因测序。

在本公开的实施例中，通过采用如上所述的DNA或RNA的文库构建方法所获得的DNA或RNA文库对DNA或RNA进行基因测序，由于上述构建的DNA或RNA文库中的DNA分子或RNA分子均连接有接头10，而接头10中包含有UMI分子标签20，因此，通过UMI分子标签20即可对DNA分子或RNA分子进行标记，可以在后续测序过程中，利用固定碱基对测序或扩增过程中所产生的错误进行校正，从而可以减少引入假阳性突变，提高检测准确性。

本公开的一些实施例提供一种试剂盒，包括：如上所述的DNA或RNA的文库构建方法所获得的DNA或RNA文库。

当然，在一些实施例中，该试剂盒还可以包括靶向捕获试剂盒，该靶向捕获试剂盒可以包括靶向捕获试剂，该靶向捕获试剂可以通过杂交的方式进行靶向捕获，也可以通过多重PCR的方式(可以发生在文库构建过程中的富集之前)进行靶向捕获，均可以对一些选定的基因进行测序。

本公开的一些实施例提供一种UMI分子标签组，如图4所示，包括：两个UMI分子标签20，两个UMI分子标签20通过至少部分碱基互补配对而结合，其中，至少一个UMI分子标签20包括至少一个随机碱基N和至少一个固定碱基。

也即，这两个UMI分子标签20可以位于上述接头10的第一链11和第二链12上，具体可参照上述对接头10包括两个UMI分子标签20的描述，在此不再赘述。

本公开的一些实施例提供一种接头10的制备方法，该接头10包括至少一个UMI分子标签20，如图5所示，该制备方法包括：

S1)合成第一链11和第二链12，每个UMI分子标签20位于第一链11或第二链12上，至少一个UMI分子标签20包括至少一个随机碱基和至少一个固定碱基。

示例的，可以通过化学合成的方法(也即DNA合成法)分别合成上述第一链11和第二链12，而不是生物合成的方法合成第一链11和第二链12。

当然，在得到上述UMI分子标签组的情况下，也可以在UMI分子标签组的基础上合成一条链(如第一链11)和另一条链(如第二链12)中的未与第一链11互补配对的部分，然后再通过碱基互补配对的方法合成第二链12上与第一链11互补配对的部分。

S2)对第一链11和第二链12进行退火，得到接头10。

也即，在通过上述合成第一链11和第二链12这两条单链的情况下，可以通过特异性退火，使第一链11和第二链12通过部分碱基互补配对结合。

为了对本公开的实施例的技术效果进行客观评价，本公开的实施例将通过如下实施例和实验例对本公开进行详细地示例性地描述。

1、接头合成：

实施例1

步骤1)合成第一链11(第一链11中包含的UMI分子标签20位于第一测序引物序列112的下游，包括3个随机碱基N，每两个随机碱基N之间间隔2个固定碱基，且末端带有硫代修饰的T碱基)和第二链12(第二链12中包含的UMI分子标签20位于第二测序引物序列121的上游，包括3个随机碱基N，每两个随机碱基N之间间隔2个固定碱基，且末端连接磷酸基团)，各64条。

第一链11的序列如序列表中SEQ ID NO：1所示，第二链12的序列如序列表中SEQ ID NO：2所示。

其中，第一链11和第二链12也可以如下表1所示：

表1

第一链11	5'-aatgatacggcgaccaccgagatgtnnnnnnnnacactctttccctacacgacgctcttccgatcnagcntagn-s-t-3'
第二链12	3'-g-s-ttcgtcttctgccgtatgctctannnnnnnncactgacctcaagtctgcacacgagaaggctagntcngan-p’-5'

在第一链11中的N选自4个不同的碱基的情况下，上述第一链11和第二链12中的UMI分子标签20的序列各有64条，该64条UMI分子标签20的序列如下表2所示：

表2

步骤2)选择配对的第一链11和第二链12分别重悬至100uM，体积是100uL的缓冲液试剂中，缓冲液试剂包括：10mM的Tris，使得缓冲液试剂的pH为7.5，2mM的EDTA和50mM的NaCl。

步骤3)分别取10uL的第一链11，10uL的第二链12和80uL缓冲液试剂于PCR管中，充分混匀，并短暂离心。

步骤4)放置PCR管于PCR仪中，设置程序温度为95℃，反应时间为10分钟，反应结束后，关掉PCR仪，待温度降至室温(约降温2h，室温约为25度)，取出PCR管。

步骤5)取1uL样本进行全自动核酸蛋白分析仪(Qsep100)质检，结果如图6所示，在图6中70bp～80bp的峰为双链接头，LM是Low Marker，长度为20bp，UM是Upper Marker，长度为1000bp，LM和UM作为参照对双链接头的位置进行标记，接头的合成效率大约可以达到40％。

实施例2

实施例2中的各步骤与实施例1的各步骤基本相同，在此不再赘述，不同的是，在步骤1)中，第一链11和第二链12中的UMI分子标签中的部分固定碱基不同。

在实施例2中，第一链11的序列如序列表中SEQ ID NO：131所示，第二链12的序列如序列表中SEQ ID NO：132所示。

其中，第一链11和第二链12也可以如下表3所示：

表3

第一链11	5'-aatgatacggcgaccaccgagatctnnnnnnnnacactctttccctacacgacgctcttccgatcnagcntagn-s-t-3'
第二链12	3'-g-s-ttcgtcttctgccgtatgctctannnnnnnncactgacctcaagtctgcacacgagaaggctagntcgnatcn-p’-5'

在第一链11中的N选自4个不同的碱基的情况下，上述第一链11和第二链12中的UMI分子标签20的序列各有64条，该64条UMI分子标签20的序列如下表4所示：

表4

实施例3

实施例3中的各步骤与实施例1的各步骤基本相同，在此不再赘述，不同的是，在步骤1)中，第一链11和第二链12中的UMI分子标签中的部分固定碱基不同。

在实施例3中，第一链11的序列如序列表中SEQ ID NO：261所示，第二链12的序列如序列表中SEQ ID NO：262所示。

其中，第一链11和第二链12也可以如下表5所示：

表5

第一链11	5'-aatgatacggcgaccaccgagatctnnnnnnnnacactctttccctacacgacgctcttccgatcnagctnagctn-s-t-3'
第二链12	3'-g-s-ttcgtcttctgccgtatgctctannnnnnnncactgacctcaagtctgcacacgagaaggctagntcgantcgan-p’-5'

在第一链11中的N选自4个不同的碱基的情况下，上述第一链11和第二链12中的UMI分子标签20的序列各有64条，该64条UMI分子标签20的序列如下表6所示：

表6

2、文库构建和测序：

实验例1

步骤1)定制菁良基因公司的多突变位点的cfDNA标准品作为样本，突变频率为1％和0.1％，采用的标准品为cfDNA的样本，不需要进行片段化，可直接进行文库构建。

步骤2)采用KAPA试剂盒对cfDNA进行末端修复和加A尾。

步骤3)采用KAPA试剂盒，并采用实施例1合成的接头，对cfDNA连接接头，得到接头连接产物。

步骤4)对接头连接产物进行扩增富集并纯化，得到cfDNA文库。

步骤5)采用IDT(Integrated DNA Technologies)全套试剂盒，对接头连接产物进行靶向捕获，得到选定基因的接头连接产物。

步骤6)以步骤4)所获得的cfDNA文库作为样本，使用Novaseq 6000(Illumina)仪器，按照该仪器的常规使用方式进行上机测序。

步骤7)使用FastQC软件对下机数据基本质控进行分析，实际检出位点及突变与理论值基本一致，具体检测结果如下表7和表8所示。

实验例2

实验例2中各步骤与实验例1中各步骤基本相同，在此不再赘述，不同的是，在步骤3)中采用实施例2合成的接头进行文库构建，实际检出位点及突变与理论值液基本一致，具体检测结果如下表7和表8所示。

实验例3

实验例3中各步骤与实验例1中各步骤基本相同，在此不再赘述，不同的是，在步骤3)中采用实施例3合成的接头进行文库构建，实际检出位点及突变与理论值液基本一致，具体检测结果如下表7和表8所示。

表7

表8

其中，在表7中，实验例1对选定基因的不同突变位点的实际检测突变频率基本在0.089％～0.12％之间，与理论突变频率(0.1％)相比较为准确，实验例2对选定基因的不同突变位点的实际检测突变频率基本在0.081％～0.150％之间，与理论突变频率相比较也均为准确，实验例3对选定基因的不同突变位点的实际检测突变频率基本在0.079％～0.140％之间，与理论突变频率相比较也较为准确。

在表8中，实验例1对选定基因的不同突变位点的实际检测突变频率基本在0.80％～1.20％之间，与理论突变频率(1％)相比较为准确，实验例2对选定基因的不同突变位点的实际检测突变频率基本在0.85％～1.30％之间，与理论突变频率相比较也均为准确，实验例3对选定基因的不同突变位点的实际检测突变频率基本在0.78％～1.25％之间，与理论突变频率相比较也较为准确。

综上所述，通过采用部分固定碱基的UMI分子标签，既可以保证接头的多样性，标记不同的原始的DNA片段，又能够在一定程度上排除PCR扩增或测序引入的噪音突变，从而可以提高检测准确性。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

一种UMI分子标签，包括：

至少一个随机碱基和至少一个固定碱基。
根据权利要求1所述的UMI分子标签，其中，

所述随机碱基和所述固定碱基中至少其中一个为多个；

多个所述随机碱基和/或多个所述固定碱基连续排列；

或者，

多个随机碱基中至少有两个随机碱基间隔排列，和/或，多个固定碱基中至少有两个固定碱基间隔排列。
根据权利要求2所述的UMI分子标签，其中，

所述随机碱基为多个，且多个随机碱基中至少有两个随机碱基间隔排列，间隔排列的每两个随机碱基之间间隔1～5个固定碱基。
根据权利要求3所述的UMI分子标签，其中，

所述随机碱基为至少三个；

所述至少三个随机碱基两两之间均间隔排列，间隔排列的每两个随机碱基之间间隔一组固定碱基，每两组固定碱基所包含的固定碱基的数量相同。
根据权利要求4所述的UMI分子标签，其中，

在每相邻的两组固定碱基中，其中一组固定碱基中至少有一个固定碱基与另一组固定碱基中的一个固定碱基不同。
根据权利要求3～5任一项所述的UMI分子标签，其中，

间隔排列的每两个随机碱基之间间隔2个～4个固定碱基，且所述2个～4个固定碱基均不相同。
根据权利要求3～6任一项所述的UMI分子标签，其中，

所述随机碱基为3个。
根据权利要求1～7任一项所述的UMI分子标签，其中，

所述UMI分子标签包括7个～11个碱基。
一种分子标签组，包括：

两个UMI分子标签，所述两个UMI分子标签通过至少部分碱基互补配对而结合；

其中，至少一个UMI分子标签为如权利要求1～8任一项所述的UMI分子标签。
一种接头，包括：

第一链和第二链；以及

至少一个UMI分子标签，每个UMI分子标签位于所述第一链或第二链上，所述至少一个UMI分子标签为如权利要求1～8任一项所述的UMI分子标签。
根据权利要求10所述的接头，其中，

所述UMI分子标签为两个，两个UMI分子标签分别位于第一链和第二链上，并通过至少部分碱基互补配对而结合。
根据权利要求11所述的接头，其中，

所述第一链为正向链，所述第二链为反向链；

所述第一链包括第一测序引物序列，所述第二链包括第二测序引物序列，位于所述第一链上的UMI分子标签位于所述第一测序引物序列的下游，位于所述第二链上的UMI分子标签位于所述第二测序引物序列的上游。
一种接头连接试剂，包括：

多种接头，所述多种接头为如权利要求10～12任一项所述的接头；

在所述多种接头中，每两种接头所包含的至少一个UMI分子标签的至少一个随机碱基不同。
一种试剂盒，包括：

如权利要求13所述的接头连接试剂。
一种如权利要求1～8任一项所述的UMI分子标签在基因测序中的应用。
根据权利要求15所述的UMI分子标签在基因测序中的应用，其中，

所述基因包括用于遗传信息表达的DNA分子；

所述UMI分子标签被配置为对不同的DNA分子进行标记。
一种DNA的文库构建方法，包括：

获取片段化DNA；

对片段化DNA进行末端修复加A，得到末端修复产物；

采用如权利要求13所述的接头连接试剂对末端修复产物进行处理，使所述接头连接试剂中的接头与末端修复产物发生反应，得到接头连接产物；

对接头连接产物进行富集，得到DNA文库。
一种基因测序检测方法，包括：

使用如权利要求17所述的DNA的文库构建方法所获得的DNA文库对DNA进行基因测序。
一种试剂盒，包括：

如权利要求18所述的DNA的文库构建方法所获得的DNA文库。