WO2023222014A1

WO2023222014A1 - sgRNA测序接头及其应用

Info

Publication number: WO2023222014A1
Application number: PCT/CN2023/094691
Authority: WO
Inventors: 陈露瑶; 毛一博; 盛夏; 樊隆; 李竑
Original assignee: 南京金斯瑞生物科技有限公司
Priority date: 2022-05-17
Filing date: 2023-05-17
Publication date: 2023-11-23

Abstract

涉及分子生物学技术领域，具体而言，涉及sgRNA测序接头及其应用。sgRNA测序3'接头从5'端至3'端依次包含以下区段：第一非随机区、第一随机区、第二非随机区、成环DNA区以及第三非随机区；其中，所述第一非随机区用于与sgRNA的3'端连接；所述第一随机区包含3～12个碱基；所述第二非随机区与所述第三非随机区反向互补，以配合所述成环DNA区形成颈环结构，所述第三非随机区用于作为sgRNA逆转录复制的引物；所述成环DNA从5'端至3'端由第一成环区以及第二成环区组成；所述第三非随机区与所述第二成环区能够与第一测序接头引物序列互补配对结合。

Description

sgRNA测序接头及其应用

相关申请的交叉引用

本申请要求于2022年05月17日提交中国专利局的申请号为2022105415956、名称为“sgRNA测序接头及其应用”的中国专利申请的优先权，并将其全部内容通过引用结合在本申请中。

技术领域

本发明涉及分子生物学技术领域，具体而言，涉及sgRNA测序接头及其应用。

背景技术

二代测序技术(Next generation sequencing)又称高通量测序技术(High-throughput sequencing)，可以一次性并行对几十万至几百万条DNA(脱氧核糖核酸)分子序列进行测定。该技术以测序通量高、测序时间短、测序成本低、测序准确度高等特点被广泛应用于医学治疗、新药研发、农畜育种、法医物证鉴定、海关检疫鉴定及分子生物学科研等众多领域。

虽然二代测序技术已经广泛应用，但是针对sgRNA的测序中依然存在技术上的难题。sgRNA(single guide RNA)是CRISPR/Cas基因编辑技术的关键组成部分，其指导Cas蛋白切割基因组，是决定基因编辑效率的主要因子。在使用人工合成的sgRNA进行CRISPR/Cas技术对基因编辑时，sgRNA的序列正确率越高，其指导Cas蛋白结合和切割目标DNA序列的准确性越高。因此，sgRNA测序技术可准确检测出sgRNA单链寡核苷酸的序列，序列准确性高的sgRNA可提高CRISPR/Cas技术对基因编辑的效率。此外，在sgRNA的寡核苷酸链合成过程中，对5’端和3’端进行化学修饰来提高RNA样品保存的稳定性。而这些化学修饰往往会增加sgRNA测序文库构建的难度，降低测序文库的产量，甚至导致测序文库构建的失败。并且sgRNA序列较短，由于文库PCR扩增偏好性、接头连接偏好性等，待测序核酸并不会被同比例放大，不同类型的小片段RNA被过多或过少的检测到，造成测序结果与样本中原始丰度有所差异。

为解决现有sgRNA测序文库构建中存在的文库产量低、文库构建困难等问题，需要发明一种新的文库构建方法。

发明内容

本发明第一方面涉及sgRNA测序3’接头，其从5’端至3’端依次包含以下区段：第一非随机区、第一随机区、第二非随机区、成环DNA区以及第三非随机区；

其中，所述第一非随机区用于与sgRNA的3’端连接；

所述第一随机区包含3、4、5、6、7、8、9、10、11或12个碱基；

所述第二非随机区与所述第三非随机区反向互补，以配合所述成环DNA区形成颈环结构，所述第三非随机区用于作为sgRNA逆转录复制的引物；

所述成环DNA从5’端至3’端由第一成环区以及第二成环区组成；

所述第三非随机区与所述第二成环区能够与第一测序接头引物序列互补配对结合。

本发明第二方面涉及接头组，其包括如上所述的3’接头以及用于与sgRNA的5’端连接的5’接头；

所述5’接头由核糖核苷酸构成，从5’端至3’端依次包含第二测序接头引物结合区、第二随机区和第四非随机区；所述第二随机区包含3、4、5、6、7、8、9、10、11或12个碱基；所述第四非随机区与所述第一非随机区反向互补。

本发明第三方面涉及试剂盒，其包含如上所述的接头组。

本发明第四方面涉及sgRNA测序文库的构建方法，其使用如上所述的接头组并包括如下步骤：

a)将sgRNA在合适的条件下与所述3’接头进行连接反应；

b)向步骤a)反应得到的产物中加入所述5’接头，在合适条件下进行退火封闭，使所述5’接头的第四非随机区与所述3’接头的第一非随机区杂交形成双链；

c)将步骤b)得到的产物在合适的条件下进行连接反应，以使得所述5’接头与所述sgRNA连接；

d)将步骤c)得到的产物在合适的条件下进行逆转录反应，得到cDNA；

e)在所述cDNA的两端加入带有标签序列的第一和第二测序接头引物并富集文库。

本发明第五方面涉及sgRNA测序方法，包括：

1)使用如上所述的方法构建sgRNA测序文库；

2)对步骤1)得到的sgRNA测序文库进行测序；优选使用Illumina测序平台进行测序。

本发明第六方面涉及如上所述3’接头或如上所述接头组在构建sgRNA文库中的应用。

本发明第七方面涉及构建的sgRNA测序文库，该sgRNA测序文库通过下述方法构建：

a)将sgRNA在合适的条件下与所述3’接头进行连接反应；

本发明采用自主设计研发的带有随机序列碱基和固定序列的接头，可以作为分子标签，有效降低建库、PCR扩增及测序过程中引入的背景噪音，并且可以有效的减少接头和不同结构类型底物RNA的连接偏好性，消除PCR扩增偏好对RNA分子定量的干扰，真实反映样本中的RNA丰度及靶序列信息。

本发明中使用自主研发的带分子标签的半环状接头比传统单链接头的连接效率高，且在反转过程中不需要加入逆转录引物，可以半环状接头作为逆转录引物直接进行逆转录，降低成本以及逆转录引物的短片段污染。半环状接头可根据测序平台而调整通用性引物的序列，具有更广泛的应用性，不需要在测序时另外加入特殊的测序引物，此外可有效降低接头二聚体等非特异性扩增产物。本发明的接头由于连接高效性及二聚体污染低等优势，成功实现含有修饰的sgRNA文库构建，构建成功率高，成本低。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的UMA3接头的结构示意图；

图2为本发明实施例所提供的UMA5接头的结构示意图；

图3为本发明实施例所提供的sgRNA测序文库构建流程示意图；

图4为根据本发明的实施例实验流程进行100nt长度的sgRNA样本的测序文库构建后，在Agilent 2100 Bioanalyser仪器中分析出来的片段长度结果图；峰I是接头二聚体；峰II是目的文库；

图5为一些实施例使用市售建库试剂盒进行100nt长度的sgRNA样本的测序文库构建的结果图；

图6为本发明一些实施例进行100nt长度的sgRNA样本的测序文库构建的结果图；

图7为一些实施例使用市售建库试剂盒进行100nt长度的sgRNA样本的测序文库构建的结果图。

具体实施方式

现将详细地提供本发明实施方式的参考，其一个或多个实例描述于下文。提供每一实例作为解释而非限制本发明。实际上，对本领域技术人员而言，显而易见的是，可以对本发明进行多种修改和变化而不背离本发明的范围或精神。例如，作为一个实施方式的部分而说明或描述的特征可以用于另一实施方式中，来产生更进一步的实施方式。

除非另有说明，用于披露本发明的所有术语(包括技术和科学术语)的意义与本发明所属领域普通技术人员所通常理解的相同。通过进一步的指导，随后的定义用于更好地理解本发明的教导。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

本文所使用的术语“和/或”、“或/和”、“及/或”的选择范围包括两个或两个以上相关所列项目中任一个项目，也包括相关所列项目的任意的和所有的组合，所述任意的和所有的组合包括任意的两个相关所列项目、任意的更多个相关所列项目、或者全部相关所列项目的组合。需要说明的是，当用至少两个选自“和/或”、“或/和”、“及/或”的连词组合连接至少三个项目时，应当理解，在本申请中，该技术方案毫无疑问地包括均用“逻辑与”连接的技术方案，还毫无疑问地包括均用“逻辑或”连接的技术方案。比如，“A及/或B”包括A、B和A+B三种并列方案。又比如，“A，及/或，B，及/或，C，及/或，D”的技术方案，包括A、B、C、D中任一项(也即均用“逻辑或”连接的技术方案)，也包括A、B、C、D的任意的和所有的组合，也即包括A、B、C、D中任两项或任三项的组合，还包括A、B、C、D的四项组合(也即均用“逻辑与”连接的技术方案)。

本发明中所使用的术语“含有”、“包含”和“包括”是同义词，其是包容性或开放式的，不排除额外的、未被引述的成员、元素或方法步骤。

本发明中用端点表示的数值范围包括该范围内所包含的所有数值及分数，以及所引述的端点。

本发明中涉及浓度数值，其含义包括在一定范围内的波动。比如，可以在相应的精度范围内波动。比如2％，可以允许±0.1％范围内波动。对于数值较大或无需过于精细控制的数值，还允许其含义包括更大波动。比如100mM，可以允许±1％、±2％、±5％等范围内的波动。

本发明中，涉及“多个”、“多种”等描述，如无特别限定，指在数量上指大于等于2。

本发明中，以开放式描述的技术特征中，包括所列举特征组成的封闭式技术方案，也包括包含所列举特征的开放式技术方案。

本发明中，“优选”、“更好”、“更佳”、“为宜”仅为描述效果更好的实施方式或实施例，应当理解，并不构成对本发明保护范围的限制。本发明中，“可选地”、“可选的”、“可选”，指可有可无，也即指选自“有”或“无”两种并列方案中的任一种。如果一个技术方案中出现多处“可选”，如无特别说明，且无矛盾之处或相互制约关系，则每项“可选”各自独立。

本发明中，“核酸”、“核苷酸”或“多核苷酸”是指单链、双链或多链形式的脱氧核糖核酸(DNA)、核糖核酸(RNA)及其聚合物。该术语包括但不限于单链、双链或多链DNA或RNA、基因组DNA、cDNA、DNA-RNA杂合体、或包含嘌呤和/或嘧啶碱基或其他天然的、化学修饰的、生物化学修饰的、非天然的、合成的、或衍生化的核苷酸碱基的聚合物。在一些实施方案中，核酸可以包含DNA、RNA及其类似物的混合物。除非特别限定，否则该术语涵盖这样的核酸：它们含有天然核苷酸的已知类似物，具有与参照核酸相似的结合特性，并以类似于天然存在的核苷酸的方式被代谢。除非另外指出，否则具体的核酸序列也隐含地涵盖其保守修饰的变体(例如简并密码子取代)，等位基因、直向同源物、单核苷酸多态性(SNP)和互补序列以及明确指出的序列。具体而言，简并密码子取代可以这样实现：产生这样的序列，其中一个或多个选定(或全部)密码子的第三位置被混合碱基和/或脱氧肌苷残基取代(Batzer etal.,Nucleic Acid Res.19:5081(1991)；Ohtsuka et al.,J.Biol.Chem.260:2605-2608(1985)；和Rossolini et al.,Mol.Cell.Probes 8:91-98(1994))。术语“核酸”可以与由基因编码的基因、cDNA和mRNA互换使用。

本发明中，“sgRNA”，也可称为单向导RNA、向导RNA、gRNA，指的是能够与CRISPR系统中Cas蛋白形成复合物并由于与靶序列具有一定互补性而能够将所述复合物靶向靶序列的RNA分子。例如，在基于Cas9的基因编辑系统中，gRNA通常由部分互补形成复合物的crRNA和tracrRNA分子构成，其中crRNA包含与靶序列具有足够互补性以便与该靶序列杂交并且指导CRISPR复合物(Cas9+crRNA+tracrRNA)与该靶序列序列特异性地结合的序列。本领域已知可以设计sgRNA，其同时包含crRNA和tracrRNA的特征。而在基于Cpf1的基因组编辑系统中，sgRNA通常仅由成熟crRNA分子构成，其中crRNA包含的序列与靶序列具有足够相同性以便与靶序列的互补序列杂交并且指导复合物(Cpf1+crRNA)与该靶序列序列特异性结合。基于所使用的CRISPR/Cas系统和待编辑的靶序列设计合适的 sgRNA序列属于本领域技术人员的能力范围内。本发明的sgRNA可以包含本领域已知的其他用于改进其性能的结构或修饰，例如其可包含(例如插入茎环结构中)额外的MS2发夹适体序列，使得可以被MS2蛋白结合，为基因编辑系统提供额外的功能，或者例如，其可以包含一个或多个修饰的核苷酸，如在核糖基团、磷酸基团、核碱基或其组合中包含修饰。核糖基团中的修饰可以是在核糖基团的2'位处的修饰。在一些情况下，核糖基的2'位的修饰下组：2'-O-甲基、2'-氟、2'-脱氧、2'-O-甲基3'硫代磷酸酯(MS)或2'-O-甲基3'thioPACE(MSP)，已有研究显示可增强sgRNA以及crRNA和tracRNA稳定性(Hendel等，2015；Rahdar等，2015)。

本发明中，“随机区”指可以出现任何核苷酸或碱基的序列区域。例如，在化学合成寡核苷酸时，通过在寡核苷酸链延长的化学反应中引入核苷酸混合物(DNA寡核苷酸常用dA、dG、dC、dT，RNA寡核苷酸常用dA、dG、dC和dU)，可以实现在任一位置掺入任一核苷酸。

本发明中，“非随机区”是指在寡核苷酸内特定位置掺入至少一种特定核苷酸或碱基。例如，在寡核苷酸链延长的化学反应中，可以将一个或多个核苷酸引入到特定位置以合成特定核苷酸序列。

本发明涉及sgRNA测序3’接头，其从5’端至3’端依次包含以下区段：第一非随机区、第一随机区、第二非随机区、成环DNA区以及第三非随机区；

其中，所述第一非随机区用于与sgRNA的3’端连接；

所述第一随机区包含3、4、5、6、7、8、9、10、11或12个碱基；

所述3’接头由于连接在sgRNA的3’端，因而在本发明中也被称为UMA3接头。

随机序列可以有效的减少接头和不同结构类型底物RNA的连接偏好性，同时亦作为单分子标签(Unique Molecule Identifiers，UMI)可有效降低建库、PCR扩增及测序过程中引入的背景噪音，消除PCR扩增偏好对RNA分子定量的干扰，真实反映样本中的RNA丰度及靶序列信息。

成环DNA区不与其他序列互补，内部不含互补序列，在UMA3接头结构中形成环状，此结构利于接头序列的稳定。且经过巧妙的设计，UMA3接头的第三非随机区与第二非随机区反向互补，可以作为逆转录的引物，简便实验操作。并且，成环DNA区可与第一测序接头引物互补配对结合，进一步简化了实验整体流程。

所述3’接头可以包含一个或多个核糖核苷酸，但优选由脱氧核糖核苷酸构成。

在一些实施方式中，所述第一非随机区包含5、6、7、8、9、10、11或12个碱基。第一非随机区由5～12个A/T/C/G碱基自由排列组合成。例如，当第一非随机区长度为5nt时，第一非随机区总共有4⁵＝1024种类型。在一些具体的实施例中，所述第一非随机区长度为7nt。在一些具体的实施例中，所述第一非随机区序列为GTATCGT。

在一些实施例中，所述第三非随机区的序列能够与第一测序接头引物序列互补配对结合，以进一步增加其利用率。

在一些实施方式中，所述第三非随机区包含2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或31个碱基。在一些具体的实施方式中，所述第三非随机区包含如SEQ ID NO：1所示的序列。

在一些实施方式中，所述第二成环区包含3、4、5、6、7、8、9、10、 11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32或33个碱基，优选包含10～30个碱基。在一些具体的实施方式中，所述第二成环区包含如SEQ ID NO：3所示的序列。

在一些实施方式中，所述第三非随机区与第二成环区共包含34个碱基。

本发明中，随机序列通常用“NNNNN”(当其是5nt时)形式进行表述，N表示A/T/C/G/U碱基中的任意一种。随机序列的长度没有特别的规定，只要其组合数足够区分同一个样本里所包含的全部分子即可。为了实现样本里每个分子都被标记上不同种类(即碱基序列组合不同)UMI的目的，一般要求UMI种类数远大于分子数。在一些实施方式中，结合成本考虑，所述随机序列包含3-12个碱基，如3、4、5、6、7、8、9、10、11或12碱基。在一些具体的实施例中，所述随机序列的长度为6nt。

在一些实施方式中，所述第一成环区序列包含如SEQ ID NO：2所示的序列。

在一些实施方式中，所述第一成环区与第二成环区之间进一步包含可被蛋白酶切断的结构。本发明中，“蛋白酶切断”是指经过蛋白酶处理后能够形成暴露的核酸以供引物结合，因而可以是核酸链的完全分离，也可以为其他形式例如脱碱基位点(abasic site)。对于可被蛋白酶切断的结构，其优选是通过掺入一个或多个脱氧尿嘧啶(dU)而被切割；切割所用的酶可以是具有尿嘧啶DNA糖基化酶活性和AP-内切酶活性的酶，以形成脱碱基位点。也可以进一步包括在脱碱基位点处通过内切核酸酶(如EndoIV内切核酸酶、AP裂合酶、FPG糖基化酶/AP裂合酶、EndoVIII糖基化酶/AP裂解酶)、热或碱处理来切割包含脱碱基位点的多核苷酸链。只要能将其断开即可。

在一些实施方式中，所述接头5’端和/或3’端进一步包含核苷酸修饰。

在一些实施方式中，所述接头5’端包含腺苷酰化修饰。

在一些实施方式中，所述接头3’端包含氨基修饰。

本发明还涉及接头组，其包括如上所述的3’接头以及用于与sgRNA的 5’端连接的5’接头；

由于5’接头与sgRNA的5’端连接，本发明也将其称为UMA5接头。

所述5’接头的3’端第四非随机区与所述第一非随机区反向互补，可在退火的条件下封闭UMA3接头，提高连接效率。

UMA5接头序列包含第二测序接头引物结合区，所述测序接头引物结合区在PCR富集文库第一轮核酸合成时能够与带标签序列的测序接头引物序列结合。本领域技术人员可以根据实际需要设计所述测序接头引物结合区的序列。在一些实施方式中，所述测序接头引物结合区包含17～33个碱基，例如18、19、20、21、22、23、24、25、26、27、28、29、30、31、32个碱基。在一些具体的实施例中，所述第二测序接头引物结合区序列为ACACGACGCUCUUCCGAUCU(SEQ ID NO：7)、UACACGACGCUCUUCCGAUCU(SEQ ID NO：8)、或CCCUACACGACGCUCUUCCGAUCU(SEQ ID NO：9)。在一些具体的实施例中，所述第二测序接头引物结合区序列包含33个碱基，所述碱基序列为SEQ ID NO：4所示。

本发明中的第一和第二测序接头引物可以由本领域技术人员按需求进行选择。本领域技术人员可以根据需要对测序接头引物的序列进行设计，例如在序列中增加合适的用于样本区分的标签序列(Index)等。在一些具体的实施例中，测序接头引物优选为已知的标准接头测序引物；较为优选的，本发明所述第一和第二测序接头引物为适用于Illumina测序平台的标准测序接头引物，包含启动测序的测序引物结合位点；cDNA 3’端可以使用PCR扩增的方式加入I5标签序列，随后，在加上I5标签序列后的扩增序列的3’端使用PCR扩增的方式加入I7标签序列，其中标签的序列位置是固定的，长度根据测序仪的设定，可以是6nt或8nt。

在一些具体的实施例中，所述第一和第二测序接头引物分别包含至少17个碱基，在一些具体的实施例中，所述第一和第二测序接头引物分别包含至少33个碱基。在一些具体的实施例中，所述第一测序接头引物包含SEQ ID NO:6所示的序列，所述第二测序接头引物包含SEQ ID NO:5所示的序列。在一些实施例中，所述第一测序接头引物包含SEQ ID NO:14所示的序列，在一些实施例中，所述第一测序接头引物包含如SEQ ID NO:15所示的序列。

本发明还涉及试剂盒，其包含如上所述的接头组。

术语“试剂盒”是指包括至少一个设备的任何制品(例如，包装或容器)，可进一步包括在本文中描述的方法或其步骤中使用的使用说明书、补充试剂和/或组分或组件。

优选的，试剂盒中的核酸组分和蛋白组分，例如接头和酶以干粉形式存放于试剂盒中。各组分也可以冻干形式，例如以一种或多种所谓的冻干珠的形式实现。冻干珠通常可以被理解为是指在制造后(在所述制造后物质通常作为粉末存在)被压制成球形的冻干物。

在一些实施方式中，所述的试剂盒还包含如下组分中的至少一种：

·RNA连接酶；

·适用于RNA连接酶的连接缓冲液；

·具有尿嘧啶DNA糖基化酶活性和AP-内切酶活性的酶或酶组合物；

·逆转录酶；

·逆转录反应缓冲液；

·DNA聚合酶；

·用于cDNA扩增的PCR扩增缓冲液；

·T4磷酸激酶；

·T4磷酸激酶反应缓冲液；

·用于与所述第三非随机区和第二成环区互补配对结合的第一测序接头引物，以及与所述第二测序接头引物结合区互补配对结合的第二测序接头引物；

·dNTPs；以及

·水。

其中对于部分组分详述如下：

·RNA连接酶

在本发明中，“酶”(例如T4 RNA连接酶、逆转录酶以及DNA聚合酶)均按照本领域技术人员所知的最大范围进行理解。该范围应当包含具有相应活性的常见的酶及其变体，优选的RNA连接酶是T4 RNA连接酶。以T4 RNA连接酶为例，其应当包含具有RNA连接酶活性的截短体(如截短体KQ)；酶也可以具有常见的修饰或者连接有标签(如Arg标签、His标签、Strep标签、Flag标签、T7标签、V5-肽标签、GST标签和c-Myc标签)，只要其具有期望的活性。进一步优选T4 RNA连接酶包括i)T4 RNA连接酶1，和/或ii)T4 RNA连接酶2、T4 RNA连接酶2截短体和T4 RNA连接酶2截短体KQ中的至少一种。

·适用于RNA连接酶的连接缓冲液

在本发明中，缓冲组分/缓冲体系，是指水溶液或组合物，当酸或碱加入该溶液或组合物中时，所述水溶液或组合物抵抗pH中的变化。这种对pH变化的抗性是由于此类溶液的缓冲性质。可以在本发明的方法中使用的缓冲液优选自磷酸盐缓冲液、磷酸盐缓冲盐水缓冲液(PBS)、2-氨基-2羟甲基-1,3-丙二醇(Tris)缓冲液、Tris-NaCl缓冲液(TBS)和Tris/EDTA(TE)。

连接缓冲液优选包含缓冲组分(如Tris)、Mg²⁺和DTT；更优选为包含7mM～13mM Mg²⁺和0.7mM～1.3mM DTT的缓冲体系；更优选为包含9mM～11mM Mg²⁺和0.9mM～1.1mM DTT的缓冲体系；pH优选为7～8。

·具有尿嘧啶DNA糖基化酶活性和AP-内切酶活性的酶或酶组合物

术语“具有尿嘧啶DNA糖基化酶活性”是指识别单链或双链DNA中存在的尿嘧啶，并切割尿嘧啶碱基和脱氧核糖之间的N-糖苷键，留下脱碱基位点的活性。尿嘧啶-DNA糖基化酶，缩写为“UDG”或“UNG”(EC 3.2.2.3)，包括线粒体UNG1、核UNG2、SMUG1(单链选择性尿嘧啶-DNA糖基化酶)、TDG(TU错配DNA糖基化酶)、MBD4(带甲基结合区域的尿嘧啶-DNA糖基化酶)和其他原核和真核酶类(参见Krokan H.E.等“Uracil in DNA-occurrence，consequences and repair”，Oncogene(2002)21：8935-9232)。

在一些优选的实施方式中，酶组合物为尿嘧啶-DNA糖基化酶UDG和DNA糖基化酶和裂解酶Endo Ⅷ的混合物，例如“User酶”。

·逆转录酶

所述逆转录酶可以选自AMV逆转录酶、M-MuLV逆转录酶等。在一些具体的实施例中，所述逆转录酶为M-MuLV逆转录酶。逆转录酶优选是热稳定的。逆转录酶可以不具有RNase H活性，或者具有减弱的RNase H活性。

·DNA聚合酶

可选自Taq、Bst、Vent、Phi29、Pfu、Tru、Tth、Tl1、Tac、Tne、Tma、Tih、Tf1、Pwo、Kod、Sac、Sso、Poc、Pab、Mth、Pho、ES4DNA聚合酶以及Klenow片段中的任一种。优选是高保真酶。

·水

优选双蒸水或去离子水。

上述组分优选不含核酸酶(DNA酶和RNA酶)，如有必要，可添加核酸酶抑制剂。

试剂盒中各组分可各自独立包装，或者以至少两种混合在一起的形式包装，这可能会增加使用的便携性/利用保存。

根据本发明的再一方面，还涉及sgRNA测序文库的构建方法，其使用如上所述的接头组并包括如下步骤：

a)将sgRNA在合适的条件下与所述3’接头进行连接反应；

在一些实施方式中，连接所述3’接头的连接反应条件为22℃～28℃，至少反应1h。在一些实施方式中，连接所述3’接头的连接反应条件为16℃孵育3h。在一些实施方式中，连接所述3’接头的连接反应条件为16℃孵育18h。

在一些实施方式中，连接所述5’接头的连接反应条件为34℃～40℃至少15分钟，或23℃～28℃孵育至少1h，或14℃～18℃孵育至少16h。

封闭的作用是为了更好的连接UMA5接头，减少产生影响连接效率的RNA共折叠结构(Co-Fold Structure)，同时降低接头自连(dimer contamination)，从而提高最后的文库产出。

在一些实施方式中，所述退火封闭的反应条件包括70℃～80℃孵育至少10分钟，以0.3℃/s～1℃/s(例如0.5℃/s、0.7℃/s)的速率缓慢降温至20℃～30℃，孵育至少15分钟。

本发明优选所述sgRNA的5’端包含磷酸根修饰。在一些实施方式中，若5’端不包含磷酸根修饰，则步骤a)还包括，将连接所述3’接头后所得产物的5’端磷酸化。

在一些实施方式中，步骤a)中连接所用的酶选自T4 RNA连接酶2、T4 RNA连接酶2截短体和T4 RNA连接酶2截短体KQ中的至少一种。

在一些实施方式中，步骤a)中连接反应在包含7mM～13mM Mg²⁺和0.7mM～1.3mM DTT的缓冲体系下进行。

在一些实施方式中，步骤a)连接反应的缓冲体系还包括PEG8000，优选浓度为10％～30％(w/v)，更优选为12％～25％(w/v)，例如13％、14％、15％、16％、17％、18％、19％、20％、21％、22％、23％或24％(w/v)。本发明中“w/v”指g/100mL。

在一些实施方式中，步骤c)中连接所用的酶是T4 RNA连接酶1。

在一些实施方式中，步骤c)在包含7mM～13mM Mg²⁺和0.7mM～1.3mM DTT的缓冲体系下进行反应。

在一些实施方式中，所述3’接头成环DNA的第一成环区与第二成环区之间包含可被蛋白酶切断的结构，步骤d)进一步包括使用蛋白酶切断成环DNA的切段反应。所述蛋白酶优选如上文中所定义，例如为User酶。

在一些实施方式中，所述sgRNA长度为20～200nt，例如25、30、35、40、50、60、70、80、90、100、120、140、160、180nt、200nt。

本发明还涉及一种sgRNA测序方法，包括：

1)使用如上所述的方法构建sgRNA测序文库；

在一些实施方式中，使用如上所述的方法构建sgRNA文库。在一些实施方式中，使用如上所述的方法构建带有修饰的sgRNA文库，如2’-O-甲基修饰、硫代磷酸修饰、2’-O-甲基3’硫代磷酸酯修饰等。

本发明还涉及如上所述3’接头或如上所述接头组在构建sgRNA文库中的应用。

测序的对象可以为人、动物(如大鼠、小鼠、猫、犬、马、牛、羊、猪、鸡、鸭、鹅、鹌鹑、鸽子、线虫、斑马鱼)、植物(如水稻、拟南芥、小麦、玉米)和微生物(各种病毒、细菌或真菌)。容易理解，上述方法为可应用于不同物种、不同目的的普适性方法。

下面将结合实施例对本发明的实施方案进行详细描述。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法，优先参考本发明中给出的指引，还可以按照本领域的实验手册或常规条件，还可以参考本领域已知的其它实验方法，或者按照制造厂商所建议的条件。

下述的具体实施例中，涉及原料组分的量度参数，如无特别说明，可能存在称量精度范围内的细微偏差。涉及温度和时间参数，允许仪器测试精度或操作精度导致的可接受的偏差。

实施例1：利用UMA3和UMA5接头进行sgRNA建库及测序

样品来源：人工合成sgRNA标准品，序列长度为100nt，序列的5’端和3’端有化学修饰。

根据sgRNA二代测序文库的构建方法实施示例。

所用试剂等来源如下表：

1、样品变性

取sgRNA样品1μg-10μg，总体积为6.5μL。体积不足6.5μL时，用无核酸酶的水补足体积至6.5μL。

反应条件：70℃反应2min形成单链，立即放置于冰上至少1min。

2、3’端接头连接

连接UMA3接头，接头序列为：GTATCGTNNNNNNAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGTdUGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT(SEQ ID NO:10)，接头序列5’端带有APP修饰，3’端带有NH₂修饰。反应步骤如下：

反应条件：25℃反应1h，立即放置于冰上。

3、磷酸化

反应条件：37℃反应30min，65℃反应20min，立即放置于冰上。

4、5’端接头封闭

UMA5接头序列为：ACACUCUUUCCCUACACGACGCUCUUCCGAUCUNNNNNNACGAUAC(SEQ ID NO：11)，取1μL到新的PCR管中，置于PCR仪上70℃孵育2min后，立即置于冰上；变性的接头必须在30min内使用完。

反应条件：75℃反应10min，以0.5℃/s降温到25℃，25℃反应15min，立即放置于冰上。

5、5’端接头连接

反应条件：25℃反应1h，立即放置于冰上。

6、逆转录

反应条件：42℃反应60min，85℃反应15min，立即放置于冰上。

7、PCR扩增

通过PCR将双端标签序列连接到上步产物上，构建文库。5’端第二测序接头引物序列为：AATGATACGGCGACCACCGAGATCTACACCGTCCGTGCACACTCTTTCCCTACACGAC(SEQ ID NO：5)，3’端第一测序接头引物序列为：CAAGCAGAAGACGGCATACGAGATCATGCCATGTGACTGGAGTTCAGACGTGT(SEQ ID NO：6)。

反应条件如下：

步骤1 98℃反应45s

步骤2 98℃反应15s

步骤3 60℃反应30s

步骤4 72℃反应30s

步骤5 72℃反应1min

步骤6 4℃保持

其中，步骤2～步骤4，根据样品起始量不同(1-10μg)设置12～30个循环。

8、文库纯化

首先加入0.8X Ampure XP磁珠结合PCR产物，然后上清液再用0.2X Ampure XP磁珠结合，用无核酸酶的水或Elution Buffer回溶。回收的产物使用Agilent 2100 DNA高敏芯片检测，其结果如下表和图4所示。样品文库的PCR产物集中在200～300bp左右，目标片段比较集中。

由上述结果可以看出，本发明所述的sgRNA二代测序文库的构建方法可成功的实行sgRNA建库测序。

实施例2：利用市售小RNA建库接头进行sgRNA建库及测序

从NEB购买小RNA建库试剂盒，所用样品与实施例1一致，经过样品变性、3’端接头连接、5’端接头封闭、5’端接头连接、反转录、PCR扩增以及文库纯化等操作步骤后，得到最终结果如图5所示，可以看出200-300bp的目标序列占比为0％，市售接头序列无法实现带有修饰的sgRNA建库。

实施例3：利用UMA3和UMA5接头进行sgRNA建库及测序

建库方法和所用相关试剂如实施例1所述。其中，UMA3接头序列为：GTATCGTNNNNNNAGATCGGAAGAGCACACGTCTGAACTCCAGTCACdUACACTCTTTCCCTACACGACGCTCTTCCGATCT(SEQ ID NO：12)，接头5’端带有APP修饰，3’端带有NH₂修饰。其中，UMA5接头序列为：ACACUCUUUCCCUACACGACGCUCUUCCGAUCUNNNNNNACGAUAC(SEQ ID NO：11)。

其中，PCR扩增5’端第二测序接头引物序列为：AATGATACGGCGACCACCGAGATCTACACCGTCCGTGCACACTCTTTCCCTACACGAC(SEQ ID NO：5)，3’端第一测序接头引物序列为：CAAGCAGAAGACGGCATACGAGATCACTGACCTCAAGTCTGCACACGAGAAGGCTAGA(SEQ ID NO：13)。

进行文库纯化后，得到最终结果如下表和图6所示。

实施例4：利用线性小RNA建库接头进行sgRNA建库及测序

利用市售线性小RNA建库接头进行建库，所用连接酶、反转录酶及试剂等与实施例1一致。所用样品与实施例1一致，经过样品变性、3’端接头连接、磷酸化、5’端接头封闭、5’端接头连接、反转录、PCR扩增以及文库纯化等操作步骤后，得到最终结果如图7所示，可以看出200-300bp的目标序列占比较低，而接头二聚体的占比非常高。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准，说明书及附图可以用于解释权利要求的内容。

Claims

sgRNA测序3’接头，其从5’端至3’端依次包含以下区段：第一非随机区、第一随机区、第二非随机区、成环DNA区以及第三非随机区；

其中，所述第一非随机区用于与sgRNA的3’端连接；

所述第一随机区包含3、4、5、6、7、8、9、10、11或12个碱基；

所述第二非随机区与所述第三非随机区反向互补，以配合所述成环DNA区形成颈环结构，所述第三非随机区用于作为sgRNA逆转录复制的引物；

所述成环DNA从5’端至3’端由第一成环区以及第二成环区组成；

所述第三非随机区与所述第二成环区能够与第一测序接头引物序列互补配对结合。
根据权利要求1所述的3’接头，所述第一非随机区包含5、6、7、8、9、10、11或12个碱基。
根据权利要求1所述的3’接头，所述第三非随机区包含2～31个碱基，优选包含如SEQ ID NO：1所示的序列。
根据权利要求3所述的3’接头，所述第二成环区包含3～33个碱基，优选包含10～30个碱基，更优选包含如SEQ ID NO：3所示的序列。
根据权利要求4所述的3’接头，所述第三非随机区与第二成环区共包含34个碱基。
根据权利要求1所述的3’接头，所述第一成环区序列包含如SEQ ID NO：2所示的序列。
根据权利要求1～6任一项所述的3’接头，所述第一成环区与第二成环区之间包含可被蛋白酶切断的结构，优选为一个或多个dU。
根据权利要求1～6任一项所述的3’接头，其5’端和/或3’端包含核苷酸修饰；优选5’端包含腺苷酰化修饰，优选3’端包含氨基修饰。
接头组，其包括权利要求1～8任一项所述的3’接头以及用于与sgRNA的5’端连接的5’接头；

所述5’接头由核糖核苷酸构成，从5’端至3’端依次包含第二测序接头引物结合区、第二随机区和第四非随机区；所述第二随机区包含3、4、5、6、7、8、9、10、11或12个碱基；所述第四非随机区与所述第一非随机区反向互补。
根据权利要求9所述的接头组，所述第二测序接头引物结合区包含17～33个碱基；优选所述第二测序接头引物结合区包含SEQ ID NO：4所示的序列。
试剂盒，其包含权利要求9或10所述的接头组。
根据权利要求11所述的试剂盒，其还包含如下组分中的至少一种：

·RNA连接酶，优选包括：

i)T4 RNA连接酶1，和/或

ii)T4 RNA连接酶2、T4 RNA连接酶2截短体和T4 RNA连接酶2截短体KQ中的至少一种；

·适用于RNA连接酶的连接缓冲液，优选为包含7mM～13mM Mg²⁺和0.7mM～1.3mM DTT的缓冲体系；

·具有尿嘧啶DNA糖基化酶活性和AP-内切酶活性的酶或酶组合物；优选为尿嘧啶DNA糖基化酶和Endo VIII的混合物，更优选为User酶；

·逆转录酶；

·逆转录反应缓冲液；

·DNA聚合酶；

·用于cDNA扩增的PCR扩增缓冲液；

·T4磷酸激酶；

·T4磷酸激酶反应缓冲液；

·用于与所述第三非随机区和第二成环区互补配对结合的第一测序接头引物，以及与所述第二测序接头引物结合区互补配对结合的第二测序接头引物；

·dNTPs；

·水。
sgRNA测序文库的构建方法，其使用权利要求7或8所述的接头组并包括如下步骤：

a)将sgRNA在合适的条件下与所述3’接头进行连接反应；

b)向步骤a)反应得到的产物中加入所述5’接头，在合适条件下进行退火封闭，使所述5’接头的第四非随机区与所述3’接头的第一非随机区杂交形成双链；

c)将步骤b)得到的产物在合适的条件下进行连接反应，以使得所述5’接头与所述sgRNA连接；

d)将步骤c)得到的产物在合适的条件下进行逆转录反应，得到cDNA；

e)在所述cDNA的两端加入带有标签序列的第一和第二测序接头引物并富集文库。
根据权利要求13所述的方法，所述步骤b)中退火封闭的反应条件包括70℃～80℃孵育至少10分钟，以0.3℃/s～1℃/s的速率缓慢降温至20℃～30℃，孵育至少15分钟。
根据权利要求13所述的方法，步骤a)还包括，将连接所述3’接头后所得产物的5’端磷酸化。
根据权利要求13～15任一项所述的方法，步骤a)中连接反应所用的酶选自T4 RNA连接酶2、T4 RNA连接酶2截短体和T4 RNA连接酶2截短体KQ中的至少一种。
根据权利要求16所述的方法，步骤a)中连接反应在包含7mM～13mM Mg²⁺和0.7mM～1.3mM DTT的缓冲体系下进行。
根据权利要求17所述的方法，步骤a)连接反应的缓冲体系还包括PEG8000，浓度为10％～30％(w/v)，优选为12％～25％(w/v)。
根据权利要求13～15、17、18任一项所述的方法，步骤c)中连接反应所用的酶是T4 RNA连接酶1。
根据权利要求19所述的方法，步骤c)中连接反应在包含7mM～13mM Mg²⁺和0.7mM～1.3mM DTT的缓冲体系下进行反应。
根据权利要求13～15、17、18、20任一项所述的方法，所述3’接头成环DNA的第一成环区与第二成环区之间包含可被蛋白酶切断的结构，步骤d)进一步包括使用蛋白酶切断成环DNA的切段反应，所述蛋白酶优选User酶。
根据权利要求13～15、17、18、20任一项所述的方法，所述sgRNA长度为20～200nt。
sgRNA测序方法，包括：

1)使用权利要求11～22任一项所述的方法构建sgRNA测序文库；

2)对步骤1)得到的sgRNA测序文库进行测序；优选使用Illumina测序平台进行测序。
权利要求1～8任一项所述3’接头或权利要求9或10所述接头组在构建sgRNA文库中的应用。
根据权利要求13～15、17、18任一项所述方法构建的sgRNA测序文库。