WO2019169945A1

WO2019169945A1 - Argonaute蛋白突变体及其用途

Info

Publication number: WO2019169945A1
Application number: PCT/CN2019/070253
Authority: WO
Inventors: 张建光; 毛爱平
Original assignee: 北京贝瑞和康生物技术有限公司
Priority date: 2018-03-06
Filing date: 2019-01-03
Publication date: 2019-09-12

Abstract

本发明涉及一种缺失DNA切割活性但具有DNA结合活性的Argonaute蛋白的突变体，其中所述突变体的突变位于PIWI结构域。本发明还涉及基于该蛋白突变体的用途，尤其是在富集目标DNA以及构建测序文库中的用途。因此，本发明还涉及一种富集目标DNA的方法，包括以下步骤：(a)针对目标DNA中的特异性序列设计引导序列；(b)使根据本发明的突变体、引导序列和目标DNA结合，获得突变体-引导序列-目标DNA三元复合物；(c)通过捕获介质捕获突变体-引导序列-目标DNA三元复合物；(d)从捕获的突变体-引导序列-目标DNA三元复合物中分离目标DNA，获得富集的目标DNA。

Description

Argonaute蛋白突变体及其用途

技术领域

本发明涉及一种缺失DNA切割活性但具有DNA结合活性的基于野生型Argonaute蛋白(Ago)的突变体，以及基于该蛋白突变体的用途，尤其是在富集目标DNA以及构建测序文库中的用途。本发明还涉及包含所述蛋白突变体的试剂盒。

背景技术

高效的富集目标区DNA，能够有效的降低测序成本、提高测序深度。对于通常情况下需要高深度测序应用，如体细胞突变检测，目标区富集的性能是决定其灵敏度和特异性的主要因素1。

目前主流的目标区富集方法主要包括(1)多重引物扩增及(2)核酸探针杂交捕获法2。(1)基于多重引物扩增的目标区富集方法，利用数十至数千对引物同时在同一含有扩增酶的反应体系中扩增模板DNA中的目标序列，从而实现目标DNA富集的目的。但是引物之间的相互作用、目标序列之间的序列差异(如GC含量、能够形成二级结构等)会严重影响对目标序列扩增效率、均匀性及特异性。因此，随着目标区的增大，多重引物扩增的设计难度迅速增加，富集的效率通常情况也会相应降低。除此之外，常用的多重引物扩增方法，利用的是面对面的引物设计，待富集的目标片段的两端需为已知序列，这对于末端序列可能未知的目标序列(如基因融合序列)的富集无法实现。再次，引物扩增需要同时靶向模板DNA片段两端的引物对才能实现扩增，因此对于高度片段化的DNA(如游离DNA)而言，引物扩增对模板DNA的利用率非常有限。(2)基于核酸探针杂交捕获法，利用带有分子标记(如生物素标记)的单链核酸探针(80～120nt)，在杂交缓冲液中与目标DNA片段在高温条件下经过较长时间的杂交(4～12小时)，再通过捕获与DNA杂交的、带有分子标记的探针来实现目标DNA的富集。整个方法对反应条件和温度的稳定性和持续性有较高要求，流程长、操作复杂。有研究指出，杂交过程中，反应体系会对DNA造成损伤，进而引入突变3。同时，探针序列一般较长，不仅合成困难、成本较高，同时目标序列也需要有相应较长的匹配序列与之配对才能被富集。因此，核酸探针捕获法对于较短的DNA(如游离DNA)的捕获效率往往较差4。

综上，基于多重引物扩增的方法，难以实现对较大范围目标区的有效富集、无法有效富集融合基因DNA；基于核酸探针杂交的捕获方法，尽管克服了多重引物扩增所产生的诸多局限，但操作复杂、时间长、对短片段捕获效率差。

近年来，研究人员发现，相较于核酸探针杂交，某些可编程的DNA结合蛋白能够更快速、更特异地与目标DNA结合。例如，在规律成簇的间隔短回文重复(Clustered Regularly Interspaced Short Palindromic Repeats，CRISPR)-Cas(CRISPR-associated protein)系统中，Cas基因编码的Cas蛋白能够在一段RNA指导下，特异性与靶标dsDNA序列结合，然后将该序列切除。研究人员进一步发现，对野生型Cas蛋白(例如Cas9蛋白)的某些特定功能位点进行突变，能够使其缺失对目标DNA的切割活性，但保留根据sgRNA引导探针结合目标DNA的活性5，6。这样获得的Cas9蛋白突变体(dCas9)能够快速、高效地捕获目标DNA7，8。

然而，利用dCas9捕获目标DNA仍然存在以下缺点：(1)dCas9的识别序列需要在3’末端含有通常由NGG(N表示任意碱基)三个碱基构成的原间隔序列邻近基序(protospacer adjacent motif，PAM)。因此，dCas9能捕获的目标DNA并非为任意序列5，6；(2)dCas9所需的向导RNA长度通常接近100个核苷酸，这种较长的RNA序列合成比较困难5，6；(3)dCas9所需的向导RNA通过质粒表达或体外转录时，耗时较长、操作复杂，同时也带来表达量不稳定以及污染的问题；并且RNA容易形成二级结构导致失效；(4)dCas9存在严重的脱靶效应，因为其与靶标位点识别的特异性依赖于gRNA与靠近PAM处10-12bp碱基的配对，而其余远离PAM处8-10bp碱基的错配对靶标位点的识别影响不明显，这将极大地影响dCas9对靶标DNA的捕获效率。

因此，需要一种能够克服dCas9的以上缺点，并且能够高效、准确捕获靶标DNA的新方法。

发明内容

本发明提供了一种分离的Argonaute(Ago)蛋白突变体，其具有DNA结合活性但缺失DNA切割活性，因而能够用于进行易于操作的、高效且准确的目标DNA富集，从而解决利用现有技术(尤其是基于核酸探针的杂交捕获法和基于dCas9的捕获法)富集目标DNA序列时，目标DNA范围有限、耗时长、操作复杂、效率差以及脱靶严重的问题。

因此，在第一个方面，本发明提供了一种分离的Ago蛋白的突变体，其具有DNA结合活性但缺失DNA切割活性。

Ago蛋白广泛存在于真核和原核生物中，是在RNA或DNA引导下具有核糖核酸酶作用的蛋白。真核生物的Ago蛋白是RNA干扰(RNAi)机制的关键蛋白，它们通过与5′磷酸化的长为20-30个碱基的小RNA结合来行使特异性的剪切功能 ⁹。真核生物的Ago蛋白能够与一系列辅助蛋白形成RNA诱导的沉默复合体(RNA-induced silencing complex，RISC) ^9，10，通过使mRNA不稳定或通过翻译抑制来诱导转录后的基因沉默，从而在各种生物活动例如胚胎发育、细胞分化、干细胞维持、转座子沉默中发挥重要的作用。与真核生物的Ago蛋白不同，原核生物的Ago蛋白通常情况下缺乏与之结合的辅助蛋白来行使RNAi的功能 ⁹。但是，一些原核Ago蛋白也可以利用小RNA或DNA作为引导序列，特异性切割RNA或者DNA ^9，10。

Ago蛋白都是多结构域蛋白，包括N末端结构域、PAZ结构域、MID结构域和PIWI结构域 ⁹。原核生物的Ago蛋白是二叶状结构，其中MID结构域和PIWI结构域形成一叶，而N末端结构域和PAZ 结构域形成另一叶。通常，PAZ结构域与引导序列的3′末端结合，MID结构域用以识别引导序列的5′末端，而PIWI结构域由于具有RNaseH样的折叠情况，因此可以行使类似于RNase H的核酸内切酶功能，以切割目标DNA ⁹。在PIWI结构域中，负责RNaseH酶活性的催化位点包括一个与二价金属离子结合的天冬氨酸-天冬氨酸-组氨酸/赖氨酸基序，以及位于称为“谷氨酸指”的结构性亚结构域中的谷氨酸(E)。这四个氨基酸及其临近序列组成DEDX结构区，成为Ago蛋白PIWI结构域的关键特征 ⁹。尽管不同物种中Ago蛋白整体序列差异较大，但是PIWI结构域中DEDX结构区具有较高的保守性(图1) ^9，11。

如本文所用，术语“Ago蛋白的突变体”或“dAgo”可互换使用，是指通过突变获得的具有DNA结合活性但缺失DNA切割活性的Ago蛋白。在本发明中，Ago蛋白来源于原核生物，例如来源于细菌或古生菌。细菌的实例包括，例如Marinitoga属、栖热孢菌属(Thermotoga)、红杆菌属(Rhodobacter)、产液菌属(Aquifex)。古生菌的实例包括，例如火球菌属(Pyrococcus)、甲烷球菌属(Methanocaldococus)、栖热菌属(Thermus)、古球状菌属(Archaeoglobus)。

在一个具体的实施方案中，Ago蛋白来源于选自以下的原核生物：激烈火球菌(Pyrococcus furiosus)、嗜热栖热菌(Thermus thermophilus)、詹氏甲烷球菌(Methanocaldococus jannaschii)、Marinitoga piezophila、深海栖热孢菌(Thermotoga profunda)、球形红杆菌(Rhodobacter sphaeroides)、风产液菌(Aquifex aeolicus)和闪烁古生球菌(Archaeoblobus fulgidus)。

更优选地，所述Ago蛋白的氨基酸序列选自SEQ ID NO：1-8。

如本文所用，术语“突变”是指蛋白质中给定的氨基酸残基的改变，例如氨基酸的插入、缺失或替换。“缺失”是指蛋白质中一个或多个氨基酸的缺少。“插入”是指蛋白质中一个或多个氨基酸的增加。“替换”是指蛋白质中用另一个氨基酸残基替代一个或多个氨基酸。蛋白质的突变方法是本领域已知的，例如可以通过定点突变的方法对蛋白质的相应编码序列进行突变。

在一个实施方案中，Ago蛋白突变体在PIWI结构域具有突变，所述突变导致DNA切割活性缺失。优选地，所述突变包括一个或多个以下位置的突变：

-SEQ ID NO：1的第558、596、628和745位氨基酸残基，以及位置与前述相当的氨基酸残基被取代，或

-SEQ ID NO：1的第628-770位氨基酸，以及位置与前述相当的氨基酸残基缺失。优选地，所述取代是指相应的氨基酸被丙氨酸或谷氨酸取代。

如本文所用，术语“位置相当的氨基酸”是指当将两个序列进行最佳比对时，与参考序列的给定位置相对应的序列中的氨基酸残基。本领域技术人员知晓确定一个序列中与参考序列的给定位置相对应的氨基酸位置的方法。在本发明中，参考序列可以是例如SEQ ID NO：1。

在SEQ ID NO：2中，与SEQ ID NO：1的第558、596、628和745位氨基酸残基位置相当的分别是第478、512、546和660位氨基酸残基；与SEQ ID NO：1的第628-770位氨基酸残基位置相当的是第546-685位氨基酸残基。

在SEQ ID NO：3中，与SEQ ID NO：1的第558、596、628和745位氨基酸残基位置相当的分别是第504、541、570和688位氨基酸残基；与SEQ ID NO：1的第628-770位氨基酸残基位置相当的是第570-713位氨基酸残基。

在SEQ ID NO：4中，与SEQ ID NO：1的第558、596、628和745位氨基酸残基位置相当的分别是第446、482、516和624位氨基酸残基；与SEQ ID NO：1的第628-770位氨基酸残基位置相当的是第516-639位氨基酸残基。

在SEQ ID NO：5中，与SEQ ID NO：1的第558、596、628和745位氨基酸残基位置相当的分别是第439、475、509和617位氨基酸残基；与SEQ ID NO：1的第628-770位氨基酸残基位置相当的是第509-637位氨基酸残基。

在SEQ ID NO：6中，与SEQ ID NO：1的第628位氨基酸残基位置相当的分别是第554位氨基酸残基；与SEQ ID NO：1的第628-770位氨基酸残基位置相当的是第554-777位氨基酸残基。

在SEQ ID NO：7中，与SEQ ID NO：1的第558、596、628和745位氨基酸残基位置相当的分别是第502、464、571和683位氨基酸残基；与SEQ ID NO：1的第628-770位氨基酸残基位置相当的是第571-706位氨基酸残基。

在SEQ ID NO：8中，与SEQ ID NO：1的第558和628位氨基酸残基位置相当的分别是第174和205位氨基酸残基；与SEQ ID NO：1的第628-770位氨基酸残基位置相当的是第205-427位氨基酸残基。

任选地，所述Ago蛋白突变体还可以包括在以下结构域的突变：N端结构域、PAZ结构域。在该实施方案中，Ago蛋白突变体在N端结构域和/或PAZ结构域的突变可以是功能保守性突变，或者是不影响Ago蛋白结合活性的突变。

如本文所用，术语“功能保守性突变”是指不改变蛋白质的总体结构和功能的突变。保守性突变的例子包括将一个非极性(疏水性)残基如异亮氨酸、缬氨酸、亮氨酸或蛋氨酸突变为另一个非极性残基；将一个极性(亲水性)残基突变为另一个极性残基，如精氨酸和赖氨酸之间、谷氨酰胺和天冬酰胺之间、甘氨酸和丝氨酸之间的突变；将一个碱性残基如赖氨酸、精氨酸和组氨酸突变为另一个碱性残基；或者将一个酸性残基如天冬氨酸和谷氨酸突变为另一个酸性残基。

在一个实施方案中，所述Ago蛋白突变体带有特异性标记，优选生物素标记。

在第二个方面，本发明提供了一种富集目标DNA的方法，包括以下步骤：

(a)针对目标DNA中的特异性序列设计引导序列；

(b)使根据本发明的dAgo、引导序列和目标DNA结合，获得dAgo- 引导序列-目标DNA三元复合物；

(c)通过捕获介质捕获dAgo-引导序列-目标DNA三元复合物；

(d)从捕获的dAgo-引导序列-目标DNA三元复合物中分离目标DNA，获得富集的目标DNA。

在一个实施方案中，为了增加dAgo与引导序列结合的特异性和结合效率，可以使dAgo与引导序列先结合，然后再与目标DNA结合。因此，在该实施方案中，上述步骤(b)进一步包括以下步骤：

(b1)使根据本发明的dAgo与引导序列结合，获得dAgo-引导序列二元复合物；

(b2)使dAgo-引导序列二元复合物与目标DNA序列结合，获得dAgo-引导序列-目标DNA三元复合物。

在一个实施方案中，引导序列是针对目标DNA中的特异性序列设计的。如本文所用，术语“特异性序列”是指该序列相对于目标DNA而言具有特异性，这种特异性使得针对其设计的引导序列能够与该序列结合，而不与其他核苷酸序列结合。设计引导序列的方法是本领域技术人员已知的，例如去除目标DNA中的人基因组重复序列之后，间隔固定的间距(如每隔80个核苷酸)选取一段特异性序列，然后按照碱基互补配对的原则设计相应的引导序列。

在一个实施方案中，引导序列是RNA或DNA。更优选地，引导序列是单链RNA(ssRNA)或单链DNA(ssDNA)。

在一个实施方案中，引导序列包含核苷酸修饰，例如5’磷酸化、5’羟基化。优选地，为提高引导序列与dAgo的结合效率，引导序列包含5’磷酸化修饰。

在一个实施方案中，所述引导序列长度为15-25个核苷酸，优选18-23个核苷酸，最优选21个核苷酸。引导序列的长度影响其与dAgo结合的效率。具体而言，引导序列过短会影响结合的特异性，过长则可能导致形成RNA二级结构(在引导序列是RNA的情况下)，或导致合成困难。

在一个实施方案中，所述引导序列与目标DNA中的特异性序列基本上互补。在某些实施方案中，引导序列与目标DNA存在不超过2个碱基的错配。

在一个实施方案中，dAgo、引导序列和目标DNA结合在85-95℃温度下进行。在两步结合的实施方案中，dAgo与引导序列的结合在约93-95℃的温度下进行，与目标DNA的结合在约85-87℃的温度下进行。

在一个实施方案中，所述dAgo携带有特异性标记，包括但不限于：生物素标记、S-Tag标记。优选地，所述特异性标记是生物素标记。

在一个实施方案中，所述捕获介质包括但不限于：磁珠、琼脂糖微珠(如Sepharose或Argarose)，优选磁珠。进一步地，所述捕获介质携带有能够与dAgo携带的特异性标记结合的捕获标记，包括但不限于：亲链霉素标记、S-Protein标记。优选地，所述捕获介质携带亲链霉素标记。

在本发明中，捕获介质通过其携带的捕获标记结合dAgo携带的特异性标记，从而捕获dAgo-引导序列-目标DNA三元复合物。捕获的方法是本领域已知的，例如通过将携带生物素标记的Ago蛋白与携带亲链霉素的磁珠在适当条件下孵育以使生物素标记与亲链霉素结合，从而捕获目标DNA。根据具体的实验需要，本领域技术人员可以调整捕获的具体条件，例如捕获温度、捕获时间等。

在一个实施方案中，从捕获的dAgo-引导序列-目标DNA三元复合物分离目标DNA的方法也是本领域已知的，例如将捕获了三元复合物的磁珠于适当条件下孵育，以使亲链霉素失活进而释放与其结合的三元复合物，然后通过蛋白酶K去除结合的蛋白继而从三元复合物中分离目标DNA。

在第三个方面，本发明提供了一种构建目标DNA的测序文库的方法，主要包括以下步骤：

(1)将目标DNA与测序接头连接，获得连接产物；

(2)根据本发明所述的方法从连接产物富集与测序接头连接的目标DNA，获得富集的目标DNA；

(3)扩增富集的目标DNA，获得测序文库。

在另一个实施方案中，本发明还提供了一种构建目标DNA的测序文库的方法，主要包括以下步骤：

(1)根据本发明所述的方法富集目标DNA；

(2)将富集的目标DNA与测序接头连接，获得连接产物；

(3)扩增连接产物，获得测序文库。

在一个实施方案中，富集的目标DNA可以存在于捕获介质上，即不需要从捕获介质上分离的目标DNA。在另一个实施方案中，富集的目标DNA是从捕获介质上分离的目标DNA。

在一个实施方案中，本发明的方法还可以包括在富集步骤之前的预扩增步骤。

在一个实施方案中，所述测序接头是与测序平台匹配的测序接头。连接反应的具体条件，例如温度和反应时间等，是本领域技术人员根据情况可以通过常规技术进行调整的。

在一个实施方案中，扩增步骤所用的引物是通用引物。如本文所用，术语“通用引物”是指能够与测序接头两端序列互补并能够扩增正确连接产物的引物对。

在第四个方面，本发明还提供用于实施根据本发明的方法的试剂盒，包括：dAgo、引导序列和捕获介质。

在一个实施方案中，所述引导序列与目标DNA基本上互补。在某些实施方案中，引导序列与目标DNA存在不超过2个碱基的错配。

根据本发明所述的方法和试剂盒，可高效、快速、简便地实现目标DNA的富集，以及基于二代高通量测序平台的测序。特别地，相对于现有技术的核酸探针捕获法和dCas9捕获法，本发明的方法和试剂盒具有以下优势：

(1)传统的核酸探针捕获法依赖于杂交反应，需要长达4小时甚至过夜的反应时间。本发明的富集方法所需时间较短，一般为30-60min。其次，本发明的富集方法采用高温洗涤，增加特异性的同时，也减少清洗次数，避免了目标DNA的损失。因此，本发明的dAgo与引导序列的结合允许对目标DNA的快速选择与结合，避免了直接利用单链核酸探针与目标DNA杂交带来的耗时长、操作复杂的问题，同时也避免了由于长时间杂交在目标DNA中引入错误的问题，减少了目标DNA的损失。

(2)本发明的引导序列针对目标DNA中特异性序列而设计，序列较短(不超过25碱基)，不仅容易合成，而且对目标DNA的序列要求少，能够更大限度的富集所需的目的片段，增加检测效率。

(3)总之，根据本发明的富集目标DNA的方法操作简便，容易控制质量和成本，并且可以灵活调整，尤其适用于高度片段化的DNA(例如，cfDNA或严重降解的来自FFPE样本的DNA)的富集。

附图说明

图1：说明根据本发明的富集目标DNA的方法的流程示意图。

图2：激烈火球菌的Ago蛋白(PfAgo)的氨基酸序列SEQ ID NO：1，其中下划线示出了PIWI结构域(第473-756位氨基酸残基)。

图3：嗜热栖热菌的Ago蛋白(TtAgo)的氨基酸序列SEQ ID NO：2，其中下划线示出了PIWI结构域(第507-671位氨基酸残基)。

图4：詹氏甲烷球菌的Ago蛋白(MjAgo)的氨基酸序列SEQ ID NO：3，其中下划线示出了PIWI结构域(第426-699位氨基酸残基)。

图5：Marinitoga piezophila的Ago蛋白(MpAgo)的氨基酸序列SEQ ID NO：4，其中下划线示出了PIWI结构域(第394-634位氨基酸残基)。

图6：深海栖热孢菌的Ago蛋白(TpAgo)的氨基酸序列SEQ ID NO：5，其中下划线示出了PIWI结构域(第431-620位氨基酸残基)。

图7：球形红杆菌的Ago蛋白(RsAgo)的氨基酸序列SEQ ID NO：6，其中下划线示出了PIWI结构域(第445-757位氨基酸残基)。

图8：风产液菌的Ago蛋白(AaAgo)的氨基酸序列SEQ ID NO：7，其中下划线示出了PIWI结构域(第419-694位氨基酸残基)。

图9：闪烁古生球菌的Ago蛋白(AfAgo)的氨基酸序列SEQ ID NO：8，其中下划线示出了PIWI结构域(第110-406位氨基酸残基)。

图10：hAGO2(GenBank Gene ID：27161)、TtAgo、MjAgo、PfAgo、MpAgo、TpAgo、AaAgo、AfAgo及RsAgo的PIWI结构域中的DEDX催化区域的氨基酸序列比对。其中，示出的DEDX催化区域分别是SEQ ID NO：1的第553-563/591-600/623-631/740-750位氨基酸残基、SEQ ID NO：2的第473-483/511-519/541-549/655-665位氨基酸残基、SEQ ID NO：3的第499-509/540-548/565-573/683-693位氨基酸残基、SEQ ID NO：4的第441-451/481-489/511-521/619-629位氨基酸残基、SEQ ID NO：5的第434-444/474-482/504-514/612-622位氨基酸残基、SEQ ID NO：6的第524-534/695-703/549-559/461-471位氨基酸残基、 SEQ ID NO：7的第463-471/497-507/566-576/678-688位氨基酸残基和SEQ ID NO：8的第169-179/136-144/200-210/121-131位氨基酸残基。

图11：质粒pPFA-1.1、pPFA-1.2、pPFA-1.3、pPFA-1.4和pPFA-1.5的测序结果。

图12：根据实施例2的方法富集的目标DNA的质量分析结果。

图13：根据实施例3和4的方法制备的测序文库的代表性测序结果。

具体实施方式

下面将参考附图并结合实施例来详细说明本发明。需要说明的是，本领域的技术人员应该理解本发明的附图及其实施例仅为了例举的目的，并不能对本发明构成任何限制。

实施例1：制备本发明的Ago蛋白突变体

步骤1：构建表达载体

在已知的激烈火球菌Ago蛋白(PfAgo)的氨基酸序列(SEQ ID NO：1)的N末端连接生物素受体序列，并据此设计并合成针对大肠杆菌(E.coli)的密码子优化的核苷酸序列。将所述核苷酸序列、6x His-Tag、PfAgo-BAS、IRES、BirA(大肠杆菌生物素连接酶)按顺序串联克隆至带有卡那霉素抗性基因的pET-28a载体，得到载体pPFA-1.0。

采用Q5 Site-Directed Mutagenesis Kit(NEB，Cat#E0554S)，按照说明书操作流程对pPFA-1.0进行定点突变。将突变后获得的DNA转化入E.Coli DH5α细胞中，并于含有卡那霉素的LB琼脂糖培养基中37℃过夜培养。每种突变选取10个菌落于4mL含有卡那霉素的LB液体培养基中37℃震荡培养12-16小时，然后取2mL菌液利用Plasmid Mini Kit(Qiagen，Cat#27104)提取质粒。

步骤2：测序验证

利用质粒上的通用引物(T7启动子引物5’-TAATACGACTCACTATAGGG-3’和T7终止子引物5’-GCTAGTTATTGCTCAGCGG-3’，IDT合成)对提取的质粒进行扩增，然后对扩增产物进行测序(北京睿博兴科生物技术有限公司)。测序结果如图11所示。

将确认包含突变的以下质粒于-20℃长期保存：

-质粒pPFA-1.1，其中第558位氨基酸残基被丙氨酸取代(D558A)；

-质粒pPFA-1.2，其中第596位氨基酸残基被丙氨酸取代(E596A)；

-质粒pPFA-1.3，其中第628位氨基酸残基被丙氨酸取代(D628A)；

-质粒pPFA-1.4，其中第745位氨基酸残基被丙氨酸取代(H745A)；和

-质粒pPFA-1.5，其中第628-770位氨基酸残基缺失(Δ628-770)。

步骤3：载体转化及PfAgo蛋白突变体的表达

将上述步骤2中确认突变的5个质粒分别转化至E.coli BL21(DE3)细胞中。将转化细胞在含有50ug/mL卡那霉素的LB培养液中于37℃震荡培养过夜，然后更换新鲜的LB培养液，继续扩大培养直至OD ₆₀₀达到0.4-0.8。添加IPTG至终浓度500uM，继续于37℃震荡培养3-5小时。

将培养液于6,000g离心15分钟，去除上清液。将所得沉淀重悬于细胞裂解液I(20mM Tris pH 8.0，1M NaCl，2mM MnCl ₂)，超声破碎。破碎后的溶液于4℃在20,000g下离心30分钟，然后收集上清液。将上清液用镍柱于4℃纯化，然后利用蛋白超滤柱(Pierce Protein Concentrators PES，30K MWCO，ThermoFisher Scientific)按说明书操作流程对纯化产物进行脱盐及浓缩，浓缩后的产物即为表达的携带有生物素标记的PfAgo蛋白突变体。将表达的PfAgo蛋白突变体加入等体积甘油保存于-20℃。

实施例2：根据本发明的方法富集目标DNA

本实施例中的目标DNA是分别来自血浆样品中的游离DNA和正常人外周血分离的白细胞中的基因组DNA的EGFR基因的外显子18-21片段。

步骤1：提取DNA

对于游离DNA：取4mL人血浆，利用QIAamp Circulating Nucleic Acid Kit(Qiagen，Cat#55114)按照试剂盒说明书提取游离DNA，然后用45uL Elution Buffer洗脱。

对于基因组DNA：取200uL人外周血分离的白细胞，利用MagJET Whole Blood gDNA Kit(ThermoFisher，Cat#K2741)，按照试剂盒的说明书提取基因组DNA。将约500ng(30uL)提取的基因组DNA进行超声破碎(超声破碎仪Biorupter Pico，来自Diagenode SA)。

步骤2：设计引导DNA(gDNA)

根据EGFR 18、19、20、21外显子序列设计并合成带有5’磷酸化修饰的gDNA，序列如下：

gDNA名称	gDNA序列(5’-3’)
EGFR_E18_gD1	CTCCCAACCAAGCTCTCTTG(SEQ ID NO：9)
EGFR_E19_gD1	TAGGGACTCTGGATCCCAGA(SEQ ID NO：10)
EGFR_E20_gD2	TGAGGCAGATGCCCAGCAGG(SEQ ID NO：11)
EGFR_E21_gD1	TCTGTGATCTTGACATGCTG(SEQ ID NO：12)

将100uM的上述gDNA分别溶于Buffer EB(20mM Tris pH 8.0)。然后将各gDNA溶液等体积混合，并稀释100倍，获得1uM的gDNA混合液。

步骤3：gDNA与PfAgo蛋白突变体结合，形成二元复合物。

按照下表制备反应体系混合每种PfAgo蛋白突变体(即，D558A、E596A、D628A、H745A和Δ628-770)与gDNA：

试剂名称	体积
Buffer DA1(2x)	10uL
PfAgo蛋白突变体(5uM)	0.5uL
gDNA混合液(1uM)	5uL
ddH ₂O	4.5uL

将上述反应体系于95℃孵育10分钟。

步骤4：二元复合物与目标DNA结合，形成三元复合物。

向上述步骤3的反应体系中加入上述步骤1中获得的45uL游离DNA或30uL超声破碎的基因组DNA，混匀后于87℃孵育15分钟，然后置于冰上。

步骤5：捕获三元复合物。

向上述步骤4的反应体系中加入用Buffer DA1(1x)预平衡过的Streptavidin Dynabeads M270(Thermo Fisher，Cat#65305)中，于室温孵育30分钟。然后，于室温用Buffer DA1(1x)洗涤Dynabeads 3次，每次3分钟。此时，Dynabeads上结合有富集的目标DNA。

步骤6：分离富集的目标DNA

向Dynabeads中加入50uL Buffer DA1(1x)及1uL蛋白酶K(20ug/uL)，于55℃孵育15分钟。然后置于冰上，冷却后加入2倍体积的Agencourt Ampure XP磁珠(Beckman Coulter，Cat#A63880)，室温孵育10分钟，然后吸附磁珠去除上清，用80％酒精清洗两次，最后溶于25uL Tris溶液(20mM，pH 8.5)。

步骤7：富集的目标DNA的质量分析

纯化后的DNA用Qubit dsDNA HS reagent(ThermoFisher，Cat#Q3323)在Qubit 3 Fluoromter(ThermoFisher，Cat#Q33216)上测定DNA浓度，同时通过毛细管电泳检测DNA纯度(Agilent 2100 Bioanalyzer Instrument，Cat#G2939BA)。代表性结果如图12所示，富集的目标DNA长度为约200-1000bp，浓度为61.5pg/μl，摩尔浓度达到275.8 pmol/l，质量较好，符合制备文库进行测序的要求。

实施例3：根据本发明的方法构建目标DNA的测序文库

步骤1：游离DNA提取

取4mL人血浆，利用QIAamp Circulating Nucleic Acid Kit(Qiagen，Cat#55114)并按照试剂盒说明书提取游离DNA，最终的游离DNA用试剂盒提供的45uL Elution Buffer洗脱。

步骤2：连接测序接头

利用KAPA Hyper Prep Kit(Kapa Biosystems，Cat#KK8501)按照说明书流程，将游离DNA进行末端补平及加A，然后与适用于Illumina测序平台的TruSeq接头连接。

步骤3：预扩增连接产物

按照下表制备反应体系：

在PCR仪上，按如下条件进行预扩增：

扩增完成后，用200uL Agencourt Ampure XP磁珠(Beckman Coulter，Cat#A63880)依照制造商的说明书纯化预扩增产物。将纯化产物溶于30uL Buffer DA1(1x)(15mM Tris pH 8.0，0.5mM MnCl ₂，250mM NaCl)。

步骤4：富集目标DNA

(1)根据EGFR基因的18、19、20、21外显子序列设计并合成带有5’磷酸化修饰的引导DNA(gDNA)，其序列如下：

(2)按照下表制备反应体系混合PfAgo蛋白突变体(即，D558A、E596A、D628A、H745A和Δ628-770)与gDNA：

试剂名称	体积
Buffer DA1(2x)*	10uL
PfAgo蛋白突变体(5uM)	0.5uL
gDNA混合液(1uM)	5uL
ddH ₂O	4.5uL

^*Buffer DA1(2x)：30mM Tris pH 8.0，1.0mM MnCl ₂，500mM NaCl将上述反应体系于95℃孵育10分钟。

(3)向上述反应体系中加入步骤3获得的30uL纯化产物，混匀后于87℃孵育15分钟，然后置于冰上。

(4)向上述反应体系中加入用Buffer DA1(1x)预平衡过的Streptavidin Dynabeads M270(Thermo Fisher，Cat#65305)，于室温孵育30分钟。然后，于室温用Buffer DA1(1x)洗涤Dynabeads 3次，每次3分钟。此时，Dynabeads上结合有富集的目标DNA。

步骤5：扩增富集的目标DNA

向步骤4获得的Dynabeads加入如下试剂：

试剂名称	体积
NEB Ultra II Q5 Mater Mix 2x	25uL
P5/P7通用引物混合物(各20uM)	2.5uL
去离子水	22.5uL

在PCR仪上，按如下条件进行扩增：

步骤6：纯化扩增的目标DNA

向上述步骤5获得的扩增产物加入等体积的Agencourt Ampure XP磁珠(Beckman Coulter，Cat#A63880)，于室温孵育5分钟，然后用200μl的80％乙醇洗涤2次。室温晾干后，加入30μl Buffer EB，静置5min后收集上清液。所得上清液即是已富集并纯化的目标DNA测序文库。

实施例4：根据本发明的方法构建目标DNA的测序文库

利用KAPA Hyper Prep Kit(Kapa Biosystems，Cat#KK8501)并按照试剂盒的说明书，将根据实施例2的步骤6获得的富集的目标DNA进行末端补平及加A(也可以采用实施例2的步骤5获得的与Dynabeads结合的富集的目标DNA)，然后与适用于Illumina测序平台的TruSeq接头连接，获得连接产物。

向上述连接产物中加入如下试剂：

在PCR仪上，按如下条件进行扩增：

扩增完成后，向扩增产物加入等体积的Agencourt Ampure XP磁珠(Beckman Coulter，Cat#A63880)，于室温孵育5分钟，然后用200μl的80％乙醇洗涤2次。室温晾干后，加入30μl Buffer EB，静置5min后收集上清液。所得上清液即是已富集并纯化的目标DNA测序文库。

实施例5.上机测序

利用KAPA Library Quantification Kits(KAPA Biosciences，Cat#KK4835)并按照试剂盒的说明书，在StepOnePlus Real-Time PCR System(ThermoFisher，Cat#4376592)荧光定量PCR仪上对实施例3和4获得的测序文库进行定量。测序文库定量检测的有效浓度不小于1nM。

根据文库浓度，将适当体积的测序文库在Illumina NextSeq CN500测序仪上进行双端150碱基(150PE)测序。代表性测序结果如图13所示，本发明的Ago蛋白突变体将基因组DNA和游离DNA中的目标DNA片段富集了约500倍。因此，对于基因组DNA和高度片段化的游离DNA，本发明利用Ago蛋白突变体能够快速高效地富集目标DNA，从而构建满足测序要求的测序文库。

需要说明的是，虽然已通过以上实施例阐明了本发明的一些特征，但不能用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。测序文库构建中所涉及的反应试剂、反应条件等等可以根据具体的需要进行相应的调整和改变。因此对于本领域技术人员来说，在不脱离本发明的构思和原则之内，还可做出若干简单替换，这些均应包含在本发明的保护范围之内。

参考文献

1 Garcia-Garcia，G.et al.Assessment of the latest NGS enrichment capture methods in clinical context.Sci Rep 6，20948，doi：10.1038/srep20948(2016).

2 Bodi，K.et al.Comparison of commercially available target enrichment methods for next-generation sequencing.J Biomol Tech 24，73-86，doi：10.7171/jbt.13-2402-002(2013).

3 Newman，A.M.et al.Integrated digital error suppression for improved detection of circulating tumor DNA.Nat Biotechnol，doi：10.1038/nbt.3520(2016).

4 Samorodnitsky，E.et al.Evaluation of Hybridization Capture Versus Amplicon-Based Methods for Whole-Exome Sequencing.Hum Mutat 36，903-914，doi：10.1002/humu.22825(2015).

5 Kuscu，C.，Arslan，S.，Singh，R.，Thorpe，J.&Adli，M.Genome-wide analysis reveals characteristics of off-target sites bound by the Cas9 endonuclease.Nat Biotechnol 32，677-683，doi：10.1038/nbt.2916(2014).

6 Wu，X.et al.Genome-wide binding of the CRISPR endonuclease Cas9 in mammalian cells.Nat Biotechnol 32，670-676，doi：10.1038/nbt.2889(2014).

7 Liu，X.et al.In Situ Capture of Chromatin Interactions by Biotinylated dCas9.Cell 170，1028-1043el019，doi：10.1016/j.cell.2017.08.003(2017).

8 Fujita，T.，Yuno，M.&Fujii，H.Efficient sequence-specific isolation of DNA fragments and chromatin by in vitro enChIP technology using recombinant CRISPR ribonucleoproteins.Genes Cells 21，370-377，doi：10.1111/gtc.12341(2016).

9 Swarts，D.C.et al.The evolutionary journey of Argonaute proteins.Nat Struct Mol Biol21，743-753，doi：10.1038/nsmb.2879(2014).

10 Song，J.J.，Smith，S.K.，Hannon，G.J.&Joshua-Tor，L.Crystal structure of Argonaute and its implications for RISC slicer activity.Science 305，1434-1437，doi：10.1126/science.1102514(2004).

11 Swarts，D.C.et al.Argonaute of the archaeon Pyrococcus furiosus is a DNA-guided nuclease that targets cognate DNA.Nucleic Acids Res 43，5120-5129，doi：10.1093/nar/gkv415(2015).

12 Raines，R.T.，McCormick，M.，Van Oosbree，T.R.&Mierendorf，R.C.The S.Tag fusion system for protein purification.Methods Enzymol 326，362-376(2000).

Claims

一种Argonaute蛋白的突变体，其具有DNA结合活性但缺失DNA切割活性，其中所述突变体的突变位于PIWI结构域。
权利要求1所述的突变体，其中所述Argonaute蛋白来源于Marinitoga属、栖热孢菌属、火球菌属、甲烷球菌属、红杆菌属、产液菌属、古球状菌属或栖热菌属。
权利要求1所述的突变体，其中所述Argonaute蛋白来源于激烈火球菌、嗜热栖热菌、詹氏甲烷球菌、Marinitoga piezophila、球形红杆菌、风产液菌、闪烁古生球菌或深海栖热孢菌。
权利要求1所述的突变体，其中所述Argonaute蛋白的氨基酸序列选自SEQ ID NO：1-8。
权利要求4所述的突变体，其中所述突变体包括一个或多个选自以下位置的突变：

-SEQ ID NO：1的第558、596、628和745位氨基酸残基，以及位置与前述相当的氨基酸残基被取代，或

-SEQ ID NO：1的第628-770位氨基酸，以及位置与前述相当的氨基酸残基缺失。
权利要求5所述的突变体，其中所述取代是被丙氨酸或谷氨酸取代。
权利要求1所述的突变体，其中所述突变体进一步包括位于以下结构域的突变：N端结构域、PAZ结构域。
权利要求1所述的突变体，其中所述突变体带有特异性标记。
权利要求8所述的突变体，其中所述特异性标记是生物素标记。
一种富集目标DNA的方法，包括以下步骤：

(a)针对目标DNA中的特异性序列设计引导序列；

(b)使根据权利要求1-9任一项所述的突变体、引导序列和目标DNA结合，获得突变体-引导序列-目标DNA三元复合物；

(c)通过捕获介质捕获突变体-引导序列-目标DNA三元复合物；

(d)从捕获的突变体-引导序列-目标DNA三元复合物中分离目标DNA，获得富集的目标DNA。
权利要求10所述的方法，其中所述步骤(b)进一步包括以下步骤：

(b1)使根据本发明的突变体与引导序列结合，获得突变体-引导序列二元复合物；

(b2)使dAgo-引导序列二元复合物与目标DNA序列结合，获得突变体-引导序列-目标DNA三元复合物。
权利要求10所述的方法，其中所述引导序列是RNA或DNA。
权利要求10所述的方法，其中所述引导序列是单链RNA(ssRNA)或单链DNA(ssDNA)。
权利要求10所述的方法，其中所述引导序列包含核苷酸修饰。
权利要求14所述的方法，其中所述修饰是5’磷酸化或5’羟基化。
权利要求10所述的方法，其中所述引导序列的长度为15-25个核苷酸。
权利要求10所述的方法，其中所述引导序列与目标DNA中的特异性序列基本上互补。
权利要求10所述的方法，其中所述突变体携带有特异性标记。
权利要求18所述的方法，其中所述特异性标记是生物素标记。
权利要求10所述的方法，其中所述捕获介质是磁珠。
权利要求10所述的方法，其中所述捕获介质携带有能够与突变体携带的特异性标记结合的捕获标记。
权利要求21所述的方法，其中所述捕获标记是亲链霉素标记。
一种构建目标DNA的测序文库的方法，包括以下步骤：

(1)将目标DNA与测序接头连接，获得连接产物；

(2)根据权利要求10-22任一项所述的方法从连接产物富集与测序接头连接的目标DNA，获得富集的目标DNA；

(3)扩增富集的目标DNA，获得测序文库。
一种构建目标DNA的测序文库的方法，包括以下步骤：

(1)根据权利要求10-22任一项所述的方法富集目标DNA；

(2)将富集的目标DNA与测序接头连接，获得连接产物；

(3)扩增连接产物，获得测序文库。
权利要求23或24所述的方法，进一步包括在富集步骤之前的预扩增步骤。
权利要求23或24所述的方法，其中所述测序接头是与测序平台匹配的测序接头。
权利要求23或24所述的方法，其中所述扩增步骤所用的引物是通用引物。
一种试剂盒，其包括权利要求1-9任一项所述的突变体。
权利要求28所述的试剂盒，进一步包括引导序列和捕获介质。
权利要求29所述的试剂盒，其中所述引导序列是RNA或DNA。
权利要求29所述的试剂盒，其中所述引导序列是单链RNA(ssRNA)或单链DNA(ssDNA)。
权利要求29所述的试剂盒，其中所述引导序列包含核苷酸修饰。
权利要求32所述的试剂盒，其中所述核苷酸修饰是5’磷酸化或5’羟基化。
权利要求29所述的试剂盒，其中所述引导序列的长度为15-25个核苷酸。
权利要求28所述的试剂盒，其中所述突变体携带有特异性标记。
权利要求35所述的试剂盒，其中所述特异性标记是生物素标记。
权利要求29所述的试剂盒，其中所述捕获介质是磁珠。
权利要求29所述的试剂盒，其中所述捕获介质携带有能够与突变体携带的特异性标记结合的捕获标记。
权利要求38所述的试剂盒，其中所述捕获标记是亲链霉素标记。