WO2021082830A1

WO2021082830A1 - 靶向性修饰植物基因组序列的方法

Info

Publication number: WO2021082830A1
Application number: PCT/CN2020/117736
Authority: WO
Inventors: 高彩霞; 林秋鹏; 宗媛; 靳帅; 薛郴销
Original assignee: 中国科学院遗传与发育生物学研究所
Priority date: 2019-11-01
Filing date: 2020-09-25
Publication date: 2021-05-06
Also published as: EP4053284A1; CN114945671A; BR112022008468A2; US20230075587A1; EP4053284A4

Abstract

提供了一种通过向导RNA指导的核酸酶-逆转录酶融合蛋白将植物基因组中的特定序列靶向性修改为感兴趣的目的序列的方法，以及通过该方法产生的经遗传修饰的植物及其后代。

Description

靶向性修饰植物基因组序列的方法

技术领域

本发明涉及植物基因工程领域。具体而言，本发明涉及一种靶向性修饰植物基因组序列的方法。更具体而言，本发明涉及一种通过向导RNA指导的核酸酶-逆转录酶融合蛋白将植物基因组中的特定序列靶向性修改为感兴趣的目的序列的方法，以及通过所述方法产生的经遗传修饰的植物及其后代。

发明背景

许多重要的农艺性状都取决于基因组的序列。通过对基因组特定序列进行定向的改变，能够赋予生物体新的可遗传的性状，从而为疾病治疗和育种改良提供可能。目前，通过基因组编辑技术(例如CRISPR/Cas技术)可以实现对特定序列进行切割，进而激活细胞的修复途径对损伤处进行修复，进而改变靶位点处序列。其中，基于同源重组(HR)修复途径，可以实现对基因组序列的精确改变。但在大多数高等生物尤其是植物中，同源重组效率非常低，导致该方法的广泛应用受到了极大的限制。此外，利用单碱基编辑系统，可以实现目标位点高效的胞嘧啶转换为胸腺嘧啶(C→T)，以及腺嘌呤转换为鸟嘌呤(A→G)。然而该方法的碱基转换种类有限，此外也无法实现片段的精确插入或删除。因此，本领域仍然需要高效的能实现植物基因组序列精确的定向修饰的方法。

发明简述

本发明包括一种新型的植物DNA精准编辑系统，该系统由有靶标链缺刻活性的Cas核酸酶(Cas9-H840A)融合逆转录酶、以及一个3’端带有修复模板(RT template)和游离单链的结合区(PBS)的pegRNA(prime editing gRNA，引发编辑gRNA)构成。该系统通过PBS结合Cas切口酶例如Cas9-H840A所产生的游离单链，并使其依照给定的RT模板转录出单链DNA序列，经过细胞的修复，可以在基因组中实现位于PAM序列-3位下游的DNA序列的任意变化。此外，通过引入新的nicking sgRNA，使其在pegRNA的非靶标链上产生缺刻，有助于促进细胞依照供体模板进行修复。实验结果表明该系统在植物中有效地诱导目标位点的精准修改。

附图简述

图1：本发明的原理示意图

图2：三种不同类型的PPE(plant prime editor)系统的工作示意图。不提供额外的nicking sgRNA的系统命名为(PPE2)；提供额外的有助于切割pegRNA相对链的nicking sgRNA的系统命名为(PPE3)；当切割相对链的nicking sgRNA的PAM序列位于pegRNA 的spacer序列之内时，该系统命名为(PPE3b)。

图3：PPE构建体及pegRNA构建体的示意图。

图4：用于检测植物原生质体中精确编辑的BFP-to-GFP报告系统的工作原理。

图5：流式细胞仪测定PPE系统的荧光强度结果图。“CK”为未经质粒转化的原生质体对照，“PBE”为BE3单碱基编辑报告系统，“PPE3b(ΔM-MLV)”表示缺失M-MLV逆转录酶的对照组。

图6：流式细胞仪测定PPE系统的效率。“CK”为未经质粒转化的原生质体对照，“PBE”为BE3单碱基编辑报告系统，“PPE3b(ΔM-MLV)”表示缺失M-MLV逆转录酶的对照组。

图7：PPE系统在水稻内源靶点的编辑。

图8：PPE系统在小麦内源靶点的编辑。

图9：PPE系统所产生的副产物及其比例。

图10：PPE-CaMV系统在植物内源靶点中的编辑。

图11：II型启动子启动的核酶加工的pegRNA示意图。

图12：PPE-R系统在植物内源基因中的编辑。

图13：温度处理提升PPE系统编辑效率。

图14：不同PBS长度对PPE系统的影响。

图15：不同RT模板长度对PPE系统的影响。

图16：不同RT模板长度对PPE系统的精准编辑比例的影响。

图17：不同nicking sgRNA位置对PPE系统的影响.

图18：PPE系统在植物内源基因中实现不同类型的突变。

图19：PPE系统在植物内源基因中实现不同长度片段的插入。

图20：PPE系统在植物内源基因中实现不同长度片段的删除。

图21：用于水稻农杆菌侵染的PPE构建体示意图。

图22：利用PPE系统获得水稻突变体及其测序结果，箭头指示目的突变所在位置。

图23：对T0-9突变植株的进行单克隆测序结果。

图24：使用对三个靶位点已发表的数据和使用水稻原生质体中对十个新的靶位点新获得的数据比较不同Tm指导的PBS长度对编辑效率的影响。

图25：具有不同PBS解链温度的引发编辑频率的标准化。将在每个靶处获得的最高编辑频率归一化为1，并相应地调整在其它PBS Tm处获得的频率。

图26：使用单pegRNA和双pegRNA策略进行引发编辑的示意图。(a)仅使用NGG-pegRNA进行编辑(编辑正向DNA链)。(b)仅使用CCN-pegRNA进行编辑(编辑反向DNA链)。(c)用双-pegRNA策略进行编辑。双-pegRNA在两条DNA链中同时创建两个编辑。

图27：NGG-pegRNA、CCN-pegRNA和双-pegRNA策略在15个靶位点诱导的编辑效率的比较。

图28：NGG-pegRNA、CCN-pegRNA和双-pegRNA在水稻原生质体的15个内源位点进行编辑时的产物纯度。

图29：理论上可以通过单个pegRNA和双-pegRNA的引发编辑可靶向的水稻基因组碱基的百分比。

具体实施方式

一、定义

在本发明中，除非另有说明，否则本文中使用的科学和技术名词具有本领域技术人员所通常理解的含义。并且，本文中所用的蛋白质和核酸化学、分子生物学、细胞和组织培养、微生物学、免疫学相关术语和实验室操作步骤均为相应领域内广泛使用的术语和常规步骤。例如，本发明中使用的标准重组DNA和分子克隆技术为本领域技术人员熟知，并且在如下文献中有更全面的描述：Sambrook，J.，Fritsch，E.F.和Maniatis，T.，Molecular Cloning：A Laboratory Manual；Cold Spring Harbor Laboratory Press：Cold Spring Harbor，1989(下文称为“Sambrook”)。同时，为了更好地理解本发明，下面提供相关术语的定义和解释。

如本文所用，术语“和/或”涵盖由该术语连接的项目的所有组合，应视作各个组合已经单独地在本文列出。例如，“A和/或B”涵盖了“A”、“A和B”以及“B”。例如，“A、B和/或C”涵盖“A”、“B”、“C”、“A和B”、“A和C”、“B和C”以及“A和B和C”。

“包含”一词在本文中用于描述蛋白质或核酸的序列时，所述蛋白质或核酸可以是由所述序列组成，或者在所述蛋白质或核酸的一端或两端可以具有额外的氨基酸或核苷酸，但仍然具有本发明所述的活性。此外，本领域技术人员清楚多肽N端由起始密码子编码的甲硫氨酸在某些实际情况下(例如在特定表达系统表达时)会被保留，但不实质影响多肽的功能。因此，本申请说明书和权利要求书中在描述具体的多肽氨基酸序列时，尽管其可能不包含N端由起始密码子编码的甲硫氨酸，然而此时也涵盖包含该甲硫氨酸的序列，相应地，其编码核苷酸序列也可以包含起始密码子；反之亦然。

“基因组”如本文所用不仅涵盖存在于细胞核中的染色体DNA，而且还包括存在于细胞的亚细胞组分(如线粒体、质体)中的细胞器DNA。

“经遗传修饰的植物”意指在其基因组内包含外源多核苷酸或包含经修饰的基因或表达调控序列的植物。例如外源多核苷酸能够稳定地整合进植物的基因组中，并遗传连续的世代。外源多核苷酸可单独地或作为重组DNA构建体的部分整合进基因组中。经修饰的基因或表达调控序列为在植物基因组中所述基因或表达调控序列包含一个或多个脱氧核苷酸取代、缺失和添加。

针对序列而言的“外源”意指来自外来物种的序列，或者如果来自相同物种，则指通过蓄意的人为干预而从其天然形式发生了组成和/或基因座的显著改变的序列。

“多核苷酸”、“核酸序列”、“核苷酸序列”或“核酸片段”可互换使用并且是单链或双链RNA或DNA聚合物，任选地可含有合成的、非天然的或改变的核苷酸碱基。核苷酸通过如下它们的单个字母名称来指代：“A”为腺苷或脱氧腺苷(分别对应RNA或DNA)，“C”表示胞苷或脱氧胞苷，“G”表示鸟苷或脱氧鸟苷，“U”表示尿苷，“T”表示脱氧胸苷，“R”表示嘌呤(A或G)，“Y”表示嘧啶(C或T)，“K”表示G或T，“H”表示A或C或T，“D”表示A、T或G，“I”表示肌苷，并且“N”表示任何核苷酸。

“多肽”、“肽”、和“蛋白”在本发明中可互换使用，指氨基酸残基的聚合物。该术语适用于其中一个或多个氨基酸残基是相应的天然存在的氨基酸的人工化学类似物的氨基酸聚合物，以及适用于天然存在的氨基酸聚合物。术语“多肽”、“肽”、“氨基酸序列”和“蛋白”还可包括修饰形式，包括但不限于糖基化、脂质连接、硫酸盐化、谷氨酸残基的γ羧化、羟化和ADP-核糖基化。

如本发明所用，“表达构建体”是指适于感兴趣的核苷酸序列在生物体中表达的载体如重组载体。“表达”指功能产物的产生。例如，核苷酸序列的表达可指核苷酸序列的转录(如转录生成mRNA或功能RNA)和/或RNA翻译成前体或成熟蛋白质。

本发明的“表达构建体”可以是线性的核酸片段、环状质粒、病毒载体，或者，在一些实施方式中，可以是能够翻译的RNA(如mRNA)，例如是体外转录生成的RNA。

本发明的“表达构建体”可包含不同来源的调控序列和感兴趣的核苷酸序列，或相同来源但以不同于通常天然存在的方式排列的调控序列和感兴趣的核苷酸序列。

“调控序列”和“调控元件”可互换使用，指位于编码序列的上游(5'非编码序列)、中间或下游(3'非编码序列)，并且影响相关编码序列的转录、RNA加工或稳定性或者翻译的核苷酸序列。调控序列可包括但不限于启动子、翻译前导序列、内含子和多腺苷酸化识别序列。

“启动子”指能够控制另一核酸片段转录的核酸片段。在本发明的一些实施方案中，启动子是能够控制细胞中基因转录的启动子，无论其是否来源于所述细胞。启动子可以是组成型启动子或组织特异性启动子或发育调控启动子或诱导型启动子。

“组成型启动子”指一般将引起基因在多数细胞类型中在多数情况下表达的启动子。“组织特异性启动子”和“组织优选启动子”可互换使用，并且指主要但非必须专一地在一种组织或器官中表达，而且也可在一种特定细胞或细胞型中表达的启动子。“发育调控启动子”指其活性由发育事件决定的启动子。“诱导型启动子”响应内源性或外源性刺激(环境、激素、化学信号等)而选择性表达可操纵连接的DNA序列。

启动子的实例包括但不限于聚合酶(pol)I、pol II或pol III启动子。pol I启动子的实例包括鸡RNA pol I启动子。pol II启动子的实例包括但不限于巨细胞病毒立即早期(CMV)启动子、劳斯肉瘤病毒长末端重复(RSV-LTR)启动子和猿猴病毒40(SV40)立即早期启动子。pol III启动子的实例包括U6和H1启动子。可以使用诱导型启动子如金属硫蛋白启动子。启动子的其他实例包括T7噬菌体启动子、T3噬菌体启动子、β-半乳糖苷酶启动子和Sp6噬菌体启动子。当用于植物时，启动子可以是花椰菜花叶病毒35S启动子、玉米Ubi-1启动子、小麦U6启动子、水稻U3启动子、玉米U3启动子、水稻肌动蛋白启动子。

如本文中所用，术语“可操作地连接”指调控元件(例如但不限于，启动子序列、转录终止序列等)与核酸序列(例如，编码序列或开放读码框)连接，使得核苷酸序列的转录被所述转录调控元件控制和调节。用于将调控元件区域可操作地连接于核酸分子的技术为本领域已知的。

将核酸分子(例如质粒、线性核酸片段、RNA等)或蛋白质“导入”生物体是指用所述核酸或蛋白质转化生物体细胞，使得所述核酸或蛋白质在细胞中能够发挥功能。本发明所用的“转化”包括稳定转化和瞬时转化。“稳定转化”指将外源核苷酸序列导入基因组中，导致外源基因稳定遗传。一旦稳定转化，外源核酸序列稳定地整合进所述生物体和其任何连续世代的基因组中。“瞬时转化”指将核酸分子或蛋白质导入细胞中，执行功能而没有外源基因稳定遗传。瞬时转化中，外源核酸序列不整合进基因组中。

“性状”指细胞或生物体的生理的、形态的、生化的或物理的特征。

“农艺性状”特别是指作物植物的可测量的指标参数，包括但不限于：叶片绿色、籽粒产量、生长速率、总生物量或积累速率、成熟时的鲜重、成熟时的干重、果实产量、种子产量、植物总氮含量、果实氮含量、种子氮含量、植物营养组织氮含量、植物总游离氨基酸含量、果实游离氨基酸含量、种子游离氨基酸含量、植物营养组织游离氨基酸含量、植物总蛋白含量、果实蛋白含量、种子蛋白含量、植物营养组织蛋白质含量、除草剂的抗性抗旱性、氮的吸收、根的倒伏、收获指数、茎的倒伏、株高、穗高、穗长、抗病性、抗寒性、抗盐性和分蘖数等。

二、植物基因组编辑系统

在一方面，本发明涉及一种用于靶向性修饰生物体基因组DNA序列的基因组编辑系统，其包含：

i)融合蛋白和/或含有编码所述融合蛋白的核苷酸序列的表达构建体，其中所述融合蛋白包含CRISPR切口酶和逆转录酶；和/或

ii)至少一种pegRNA和/或含有编码所述至少一种pegRNA的核苷酸序列的表达构建体，

其中所述至少一种pegRNA从5’至3’方向包含引导序列、支架(scaffold)序列、反转录(RT)模板序列和引物结合位点(PBS)序列。

在一些实施方案中，所述至少一种pegRNA能够与所述融合蛋白形成复合物并将所述融合蛋白靶向基因组中的靶序列，导致所述靶序列内的切口。

在一些实施方案中，所述生物体是植物。

如本文所用，“基因组编辑系统”是指用于对细胞内基因组进行基因组编辑所需的成分的组合。其中所述系统的各个成分，例如融合蛋白、gRNA等可以各自独立地存在，或者可以以任意的组合作为组合物的形式存在。

如本文所用，“靶序列”是指基因组中由5’或3’侧翼的PAM(前间区序列邻近基序)序列所表征的长度大约20个核苷酸的序列。通常而言，PAM是CRISPR核酸酶或其变体与向导RNA形成的复合物识别靶序列所必需的。例如，对于Cas9核酸酶及其变体，其靶序列在3’末端紧邻PAM，例如5’-NGG-3’。基于PAM的存在，本领域技术人员可以容易地确定基因组中可用于靶向的靶序列。而且取决于PAM的位置，靶序列可以位于基因组DNA分子的任一条链上。对于Cas9或其衍生物例如Cas9切口酶而言，靶序列优选20个核苷酸。

在一些实施方案中，融合蛋白中的所述CRISPR切口酶(nickase)能够在基因组DNA中靶序列内形成切口(nick)。在一些实施方案中，所述CRISPR切口酶是Cas9切口酶。

在一些实施方案中，所述Cas9切口酶衍生自化脓链球菌(S.pyogenes)的SpCas9，且相对于野生型SpCas9至少包含氨基酸取代H840A。示例性的野生型SpCas9包含SEQ ID NO:1所示氨基酸序列。在一些实施方案中，所述Cas9切口酶包含SEQ ID NO:2所示氨基酸序列。在一些实施方案中，所述融合蛋白中的Cas9切口酶能够在靶序列的PAM的-3位核苷酸(PAM序列5’端的第一个核苷酸为+1位)和-4位核苷酸之间形成切口。

在一些实施方案中，所述Cas9切口酶是能够识别改变的PAM序列的Cas9切口酶变体。在一些优选实施方案中，所述Cas9切口酶是识别PAM序列5’-NG-3’的Cas9变体。在一些实施方案中，识别PAM序列5’-NG-3’的Cas9切口酶变体相对于野生型Cas9包含以下氨基酸取代H840A、R1335V、L1111R、D1135V、G1218R、E1219F、A1322R、T1337R，其中氨基酸编号参照SEQ ID NO:1。

本发明所述Cas9切口酶形成的切口能够导致靶序列形成具有3’末端的游离单链(3’游离单链)和具有5’末端的游离单链(5’游离单链)。

在一些实施方案中，本发明的融合蛋白中的所述逆转录酶可以衍生自不同来源。在一些实施方案中，所述逆转录酶是来源于病毒的逆转录酶。例如，在一些实施方案中，所述逆转录酶是M-MLV逆转录酶或其功能性变体。示例性的野生型M-MLV逆转录酶序列如SEQ ID NO:3所示。在一些实施方案中，所述逆转录酶是增强型M-MLV逆转录酶，例如增强型M-MLV逆转录酶的氨基酸序列如SEQ ID NO:4所示。在一些实施方案中，所述逆转录酶是来自花椰菜花叶病毒(CaMV,Cauliflower mosaic virus)的CaMV-RT，其氨基酸序列如SEQ ID NO:5所示。在一些实施方案中，所述逆转录酶是来源于细菌的逆转录酶，例如来自大肠杆菌(Escherichia coli)的retron-RT，其氨基酸序列如SEQ ID NO:6所示。

在一些实施方案中，融合蛋白中的所述CRISPR切口酶和所述逆转录酶通过接头相连。如本文所用，“接头”可以是长1-50个(例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个或20-25个、25-50个)或更多个氨基酸、无二级以上结构的非功能性氨基酸序列。例如，所述接头可以是柔性接头，例如GGGGS、GS、GAP、(GGGGS)x 3、GGS和(GGS)x7等。例如，可以是SEQ ID NO:7所示接头。

在一些实施方案中，融合蛋白中的所述CRISPR切口酶直接或通过接头融合至所述逆转录酶的N端。在一些实施方案中，融合蛋白中的所述CRISPR切口酶直接或通过接头融合至所述逆转录酶的C端。

在本发明的一些实施方案中，本发明的融合蛋白还可以包含核定位序列(NLS)。一般而言，所述融合蛋白中的一个或多个NLS应具有足够的强度，以便在细胞的核中驱动所述融合蛋白以可实现其碱基编辑功能的量积聚。一般而言，核定位活性的强度由所述融合蛋白中NLS的数目、位置、所使用的一个或多个特定的NLS、或这些因素的组合决定。

本发明的至少一种pegRNA中的引导序列(也称种子序列或spacer序列)被设置为与靶序列具有充分的序列相同性(优选100％相同性)，从而能够通过碱基配对与靶序列的互补链结合，实现序列特异性靶向。

本领域已知多种适合用于基于CRISPR核酸酶(例如Cas9)的基因组编辑的gRNA的支架(scaffold)序列，这些可以用于本发明的pegRNA中。在一些具体实施方案中，所述gRNA的支架序列示于SEQ ID NO:8。

在一些实施方式中，所述引物结合序列被设置为与所述靶序列的至少一部分互补(优选与所述靶序列的至少一部分完全配对)，优选地，所述引物结合序列与靶序列所在DNA链中由切口导致的3’游离单链的至少一部分互补(优选与所3’游离单链的至少一部分完全配对)，特别是与所述3’游离单链的3’末端的核苷酸序列互补(优选完全配对)。当所述链的3’游离单链与所述引物结合序列通过碱基配对结合时，所述3’游离单链能够作为引物，以与所述引物结合序列紧邻的反转录(RT)模板序列作为模板，在融合蛋白中的逆转录酶的作用下进行反转录，延伸出对应于所述反转录(RT)模板序列的DNA序列。

所述引物结合序列取决于所使用的CRISPR切口酶在靶序列中形成的游离单链的长度，然而，其应当具有确保特异性结合的最少长度。在一些实施方案中，所述引物结合序列长度可以为4-20个核苷酸，例如长度为4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个核苷酸。

在一些实施方案中，所述引物结合序列被设置为具有不超过大约52℃的Tm(解链温度)。在一些实施方案中，所述引物结合序列的Tm(解链温度)为大约18℃-52℃，优选大约24℃-36℃，更优选大约28℃-32℃，更优选大约30℃。

计算核酸序列的Tm的方法为本领域公知，例如可以使用Oligo Analysis Tool在线分析工具计算。示例性的计算公式为Tm＝N _G:C*4+N _A:T*2，其中N _G:C是序列中G和C碱基的数目，N _A:T是序列中A和T碱基的数目。可以通过选择合适的PBS的长度来获得合适的Tm。或者，可以通过选择合适的靶序列来获得具有合适的Tm的PBS序列。

在一些实施方式中，所述RT模板序列可以是任意序列。通过上述反转录，其序列信息可以被整合进靶序列所在的DNA链(也即包含靶序列PAM的链)，再通过细胞的DNA修复作用，形成包含所述RT模板序列信息的DNA双链。在一些实施方案中，所述RT模板序列包含期望的修饰。例如，所述期望修饰包括一或多个核苷酸的取代、缺失和/或添加。例如，所述修饰包括一个或多个选自以下的取代：C至T取代、C至G 取代、C至A取代、G至T取代、G至C取代、G至A取代、A至T取代、A至G取代、A至C取代、T至C取代、T至G取代、T至A取代；和/或包括一个或多个核苷酸的缺失，例如1个至大约100个或更多个，例如1个、2个、3个、4个、5个、大约10个、大约20个、大约30个、大约40个、大约50个、大约75个、大约100个的核苷酸缺失；和/或包括一个或多个核苷酸的插入，例如1个至大约100个或更多个，例如1个至大约100个或更多个，例如1个、2个、3个、4个、5个、大约10个、大约20个、大约30个、大约40个、大约50个、大约75个、大约100个的核苷酸插入。

在一些实施方式中，所述RT模板序列被设置为对应于靶序列切口下游的序列(例如，与靶序列切口下游的序列的至少一部分互补)，并且包含期望的修饰。所述期望修饰包括一或多个核苷酸的取代、缺失和/或添加。例如，所述修饰包括一个或多个选自以下的取代：C至T取代、C至G取代、C至A取代、G至T取代、G至C取代、G至A取代、A至T取代、A至G取代、A至C取代、T至C取代、T至G取代、T至A取代；和/或包括一个或多个核苷酸的缺失，例如1个至大约100个或更多个，例如1个、2个、3个、4个、5个、大约10个、大约20个、大约30个、大约40个、大约50个、大约75个、大约100个的核苷酸缺失；和/或包括一个或多个核苷酸的插入，例如1个至大约100个或更多个，例如1个至大约100个或更多个，例如1个、2个、3个、4个、5个、大约10个、大约20个、大约30个、大约40个、大约50个、大约75个、大约100个的核苷酸插入。

在一些实施方式中，所述RT模板序列长度可以为大约1-300个或更多个核苷酸，例如长度为1个、2个、3个、4个、5个、大约10个、大约20个、大约30个、大约40个、大约50个、大约75个、大约100个、大约125个、大约150个、大约175个、大约200个、大约225个、大约250个、大约275个、大约300个核苷酸或更多个多核苷酸。优选地，所述RT模板序列长度为7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23个核苷酸。

在一些实施方案中，所述植物基因组编辑系统还包括切口gRNA(nicking gRNA，用于产生额外切口)和/或含有编码所述切口gRNA的核苷酸序列的表达构建体，所述切口gRNA包含引导序列和支架(scaffold)序列。在一些优选实施方案中，所述切口gRNA不包含反转录(RT)模板序列和引物结合位点(PBS)序列。

本发明的切口gRNA中的引导序列(也称种子序列或spacer序列)被设置为与基因组中切口靶序列具有充分序列相同性(优选100％相同性)，从而能够将本发明所述融合蛋白靶向所述切口靶序列，并导致所述切口靶序列内的切口，所述切口靶序列与pegRNA靶向的靶序列(pegRNA靶序列)位于基因组DNA的相对链上。在一些实施方案中，所述切口RNA形成的切口和所述pegRNA形成的切口相距大约1个-大约300个或更多个核苷酸，例如相距1个、2个、3个、4个、5个、大约10个、大约20个、大约30个、大约40个、大约50个、大约75个、大约100个、大约125个、大约150个、大约175个、大约200个、大约225个、大约250个、大约275个、大约300个核苷酸或更多个核苷酸。在一些实施方案中，所述切口RNA形成的切口位于所述pegRNA形成的上游或下游(所述上游或下游均参照pegRNA靶序列所在的DNA链)。在一些实施方案中，所述切口gRNA中的引导序列与pegRNA靶序列在编辑事件发生后的相对链(经修饰)具有充分序列相同性(优选100％相同性)，从而所述切口gRNA仅靶向在pegRNA诱导的靶序列靶向及修改完成后才产生的切口靶序列。在一些实施方案中，所述切口靶序列的PAM位于所述pegRNA靶序列的互补序列内。

在一些实施方案中，所述的pegRNA和/或切口gRNA可以使用自加工系统对其序列进行精确加工。在一些具体实施方案中，所述pegRNA和/或切口gRNA的5’端连接至第一核酶的3’端，所述第一核酶被设计为在所述pegRNA和/或切口gRNA的5’端切割所述融合物；和/或所述pegRNA和/或切口gRNA的3’端连接至第二核酶的5’端，所述第二核酶被设计为在所述pegRNA和/或切口gRNA的3’端切割所述融合物。所述第一或第二核酶的设计属于本领域技术人员的能力范围内。例如，可以参见Gao et al.,JIPB,Apr,2014；Vol 56,Issue 4,343-349。精确加工gRNA的方法例如可以参见WO 2018/149418。

在一些实施方案中，所述基因组编辑系统包含至少一对pegRNA和/或含有编码所述至少一对pegRNA的核苷酸序列的表达构建体。在一些实施方案中，所述pegRNA对中的两种pegRNA被设置为靶向基因组DNA的相同链上的不同靶序列。在一些实施方案中，所述pegRNA对中的两种pegRNA被设置为靶向基因组DNA的不同链上的靶序列。在一些实施方案中，所述pegRNA对中的一种pegRNA的靶序列的PAM位于有义链，而另一种pegRNA的PAM位于反义链。在一些实施方案中，所述两种pegRNA的诱导的切口分别位于待修饰位点的两侧。在一些实施方案中，针对有义链的pegRNA诱导的切口位于待修饰位点的上游(5’方向)，针对反义链的pegRNA诱导的切口位于待修饰位点的下游(3’方向)。所述上游或下游相对于有义链而言。在一些实施方案中，所述两种pegRNA的诱导的切口相距大约1个-大约300个或更多个核苷酸，例如相距1-15个核苷酸。

在一些实施方案中，所述pegRNA对中的两种pegRNA被设置为导入相同的期望的修饰。举例而言，其中一种pegRNA被设置为在有义链导入A至G的取代，而另一种pegRNA则被设置为在反义链相应位置相应地导入T至C的取代。再举例而言，其中一种pegRNA被设置为在有义链导入两个核苷酸的缺失，另一种pegRNA则被设置为在反义链相应位置同样导入两个核苷酸的缺失。其它类型的修饰可以此类推。可以通过设计合适的RT模板序列来使分别靶向两条不同链的pegRNA实现相同的期望修饰。

为了在植物中获得有效表达，在本发明的一些实施方式中，编码所述融合蛋白的核苷酸序列针对其基因组待进行修饰的植物物种进行密码子优化。

密码子优化是指通过用在宿主细胞的基因中更频繁地或者最频繁地使用的密码子代替天然序列的至少一个密码子(例如约或多于约1、2、3、4、5、10、15、20、25、50个或更多个密码子同时维持该天然氨基酸序列而修饰核酸序列以便增强在感兴趣宿主细胞中的表达的方法。不同的物种对于特定氨基酸的某些密码子展示出特定的偏好。密码子偏好性(在生物之间的密码子使用的差异)经常与信使RNA(mRNA)的翻译效率相关，而该翻译效率则被认为依赖于被翻译的密码子的性质和特定的转运RNA(tRNA)分子的可用性。细胞内选定的tRNA的优势一般反映了最频繁用于肽合成的密码子。因此，可以将基因定制为基于密码子优化在给定生物中的最佳基因表达。密码子利用率表可以容易地获得，例如在www.kazusa.orjp/codon/上可获得的密码子使用数据库(“Codon Usage Database”)中，并且这些表可以通过不同的方式调整适用。参见，Nakamura Y.等，“Codon usage tabulated from the international DNA sequence databases:status for the year2000.Nucl.Acids Res.，28:292(2000)。

在一些实施方案中，本发明所述融合蛋白由SEQ ID NO:9-11任一所示核苷酸序列编码或包含SEQ ID NO:12-14任一所示氨基酸序列。

可以通过本发明的基因组编辑系统进行基因组修饰的植物包括单子叶植物和双子叶植物，例如，所述植物是作物植物，包括但不限于小麦、水稻、玉米、大豆、向日葵、高粱、油菜、苜蓿、棉花、大麦、粟、甘蔗、番茄、烟草、木薯和马铃薯。

在一方面，本发明提供一种确定本发明的基因组编辑系统的pegRNA中的PBS序列的方法，所述方法包括：

a)根据所使用的CRISPR切口酶识别的PAM和待修饰位点确定至少一个候选靶序列，

b)根据所述CRISPR切口酶在所述至少一个候选靶序列产生的切口位置，获得一系列PBS序列；

c)计算所述PBS序列的Tm；

d)选择Tm不超过52℃，例如Tm为大约18℃-52℃，优选大约24℃-36℃，更优选大约28℃-32℃，更优选大约30℃的PBS序列。

三、产生经遗传修饰的植物的方法

另一方面，本发明提供了一种产生经遗传修饰的植物的方法，包括将本发明的基因组编辑系统导入至少一个所述植物，由此导致所述至少一个植物的基因组中的修饰。所述修饰包括一或多个核苷酸的取代、缺失和/或添加。例如，所述修饰包括一个或多个选自以下的取代：C至T取代、C至G取代、C至A取代、G至T取代、G至C取代、G至A取代、A至T取代、A至G取代、A至C取代、T至C取代、T至G取代、T至A取代；和/或包括一个或多个核苷酸的缺失，例如1个至大约100个或更多个，例如1个、2个、3个、4个、5个、大约10个、大约20个、大约30个、大约40个、大约50个、大约75个、大约100个的核苷酸缺失；和/或包括一个或多个核苷酸的插入，例如1个至大约100个或更多个，例如1个至大约100个或更多个，例如1个、2个、3个、4个、5个、大约10个、大约20个、大约30个、大约40个、大约50个、大约75个、大约100个的核苷酸插入。

在一些实施方案中，所述方法还包括从所述至少一个植物筛选具有期望的修饰的植物。

在本发明的方法中，所述基因组编辑系统可以本领域技术人员熟知的各种方法导入植物。可用于将本发明的基因组编辑系统导入植物的方法包括但不限于：基因枪法、PEG介导的原生质体转化、土壤农杆菌介导的转化、植物病毒介导的转化、花粉管通道法和子房注射法。优选地，通过瞬时转化将所述基因组编辑系统导入植物。

在本发明的方法中，只需在植物细胞中导入或产生所述融合蛋白和gRNA即可实现对基因组的修饰，并且所述修饰可以稳定遗传，无需将编码所述基因组编辑系统的组分的外源多核苷酸稳定转化植物。这样避免了稳定存在的(持续产生的)基因组编辑系统的潜在脱靶作用，也避免外源核苷酸序列在植物基因组中的整合，从而具有更高生物安全性。

在一些优选实施方式中，所述导入在不存在选择压力下进行，从而避免外源核苷酸序列在植物基因组中的整合。

在一些实施方式中，所述导入包括将本发明的基因组编辑系统转化至分离的植物细胞或组织，然后使所述经转化的植物细胞或组织再生为完整植物。优选地，在不存在选择压力下进行所述再生，也即是，在组织培养过程中不使用任何针对表达载体上携带的选择基因的选择剂。不使用选择剂可以提高植物的再生效率，获得不含外源核苷酸序列的经修饰的植物。

在另一些实施方式中，可以将本发明的基因组编辑系统转化至完整植物上的特定部位，例如叶片、茎尖、花粉管、幼穗或下胚轴。这特别适合于难以进行组织培养再生的植物的转化。

在本发明的一些实施方式中，直接将体外表达的蛋白质和/或体外转录的RNA分子(例如，所述表达构建体是体外转录的RNA分子)转化至所述植物。所述蛋白质和/或RNA分子能够在植物细胞中实现基因组编辑，随后被细胞降解，避免了外源核苷酸序列在植物基因组中的整合。

因此，在一些实施方式中，使用本发明的方法对植物进行遗传修饰和育种可以获得其基因组无外源多核苷酸整合的植物，即非转基因(transgene-free)的经修饰的植物。

一些实施方案中，所述方法还包括在升高的温度下培养已经导入所述基因组编辑系统的植物细胞、组织或完整植物，所述升高的温度例如是37℃。

在本发明的一些实施方式中，其中所述被修饰的基因组区域与植物性状如农艺性状相关，由此所述修饰取代导致所述植物相对于野生型植物具有改变的(优选改善的)性状，例如农艺性状。

在一些实施方式中，所述方法还包括筛选具有期望的修饰和/或期望的性状如农艺性状的植物的步骤。

在本发明的一些实施方式中，所述方法还包括获得所述经遗传修饰的植物的后代。优选地，所述经遗传修饰的植物或其后代具有期望的修饰和/或期望的性状如农艺性状。

在另一方面，本发明还提供了经遗传修饰的植物或其后代或其部分，其中所述植物通过本发明上述的方法获得。在一些实施方式中，所述经遗传修饰的植物或其后代或其部分是非转基因的。优选地，所述经遗传修饰的植物或其后代具有期望的遗传修饰和/或期望的性状如农艺性状。

在另一方面，本发明还提供了一种植物育种方法，包括将通过本发明上述的方法获得的经遗传修饰的第一植物与不含有所述修饰的第二植物杂交，从而将所述修饰导入第二植物。优选地，所述经遗传修饰的第一植物具有期望的性状如农艺性状。

实施例

材料与方法

1、载体构建

nCas9(H840A)-M-MLV构建体、nCas9(H840A)-CaMV构建体、nCas9(H840A)-retron构建体由苏州金唯智公司进行构建，本实施例中所用的M-MLV相比于野生型M-MLV逆转录酶有5个氨基酸突变。M-MLV、RT-CaMV和RT-retron都经过单子叶植物密码子优化。

使用Gibson法将pegRNA片段(包括RT及PBS序列)构建至OsU3启动子启动的载体上，获得适用于水稻的OsU3-pegRNA构建体。使用Gibson法将pegRNA片段(包括RT及PBS序列)构建至TaU6启动子启动的载体上，获得适用于小麦的TaU6-pegRNA构建体。使用Gibson法将5’端及3’端均带有核酶的pegRNA片段(包括RT及PBS序列)构建至玉米Ubiquitin-1(Ubi-1)启动子启动的载体上，获得Ubi-pegRNA-R构建体。

通过T4连接酶将nicking gRNA构建至TaU3启动子启动的载体上，获得TaU3-nick载体。

表1.pegRNA靶向位点及RT与PBS序列列表

粗体示出PAM序列。

2、原生质体分离和转化

本发明中使用的原生质体来自于水稻中花11品种和科农199小麦品种。

2.1水稻苗培养

种子先用75％乙醇漂洗1分钟，再用4％次氯酸钠处理30分钟，无菌水洗涤5次以上。放在M6培养基上培养3-4周，26℃，避光处理。

2.2水稻原生质体分离

(1)剪下水稻茎秆，用刀片将其中间部分切成0.5-1mm的丝，放入0.6M的甘露醇溶液中避光处理10min，再用滤网过滤，将其放入50mL酶解液(0.45μm滤膜过滤)中，抽真空(压强约15Kpa)30min，取出后放置于摇床(10rpm)上室温酶解5h；

(2)加30-50mL W5稀释酶解产物，用75μm尼龙滤膜过滤酶解液于圆底离心管中(50mL)；

(3)23℃，250g(rcf)，升3降3，离心3min，弃上清；

(4)用20mL W5轻轻悬起细胞，重复步骤(3)

(5)加适量MMG悬浮，待转化。

2.3水稻原生质体转化

(1)分别加所需转化载体各10μg于2mL离心管，混匀后，用去尖的枪头吸取200μL原生质体，轻弹混匀，加入220μL PEG4000溶液，轻弹混匀，室温避光诱导转化20-30min；

(2)加880μL W5轻轻颠倒混匀，250g(rcf)，升3降3，离心3min，弃上清；

(3)加1mL WI溶液，轻轻颠倒混匀，轻轻转至转移到流式管中，26℃暗处培养48小时。需要进行37℃处理的原生质体，则转移至流式管后26℃暗处培养12小时后转移至37℃暗处培养8小时，最后再转移至26℃继续培养至总培养时长为48小时。

2.4小麦苗培养

将小麦种子盆栽种植于培养室，于温度25±2℃，光照度1000Lx，光照14～16h/d的条件下培养约1-2周(10天左右)。

2.5小麦原生质体分离

(1)取小麦幼嫩的叶片，用刀片将其中间部分切成0.5-1mm的丝，放入0.6M的甘露醇溶液中避光处理10min，再用滤网过滤，将其放入50mL酶解液(0.45μm滤膜过滤)中，抽真空(压强约15Kpa)30min，取出后放置于摇床(10rpm)上室温酶解5h；

(3)23℃，100g(rcf)，升3降3，离心3min，弃上清；(4)用10mL W5轻轻悬起，冰上放置30min；原生质体逐渐沉降，弃上清；(5)加适量MMG悬浮，至于冰上，待转化。

2.6小麦原生质体转化

(1)分别加入需转化质粒各10μg于2mL离心管，混匀。

(2)用去尖的枪头吸取200μL原生质体，轻弹混匀，立即加入250μL PEG4000溶液，轻弹混匀，室温避光诱导转化20-30min；

(3)加800μL W5(室温)轻轻颠倒混匀，100g(rcf)，升3降3，离心3min，弃上清；

(4)加1mL W5，轻轻颠倒混匀，轻轻转至6孔板中，已预先加入1mL W5，用锡纸包裹6孔板，26℃暗培养48h。

3、流式细胞仪观察细胞荧光情况

流式分析原生质体使用的是FACSAria III(BD Biosciences)仪器，具体操作步骤如下：

(1)仪器开机后，打开BD FACSDiva Software软件，进行仪器校准等操作。

(2)点击“New Protocol”，创建合适的实验方案。

(3)选择“density plot”，画一张FSC/SSC散点图，再画一张GFP/PE-Texas Red散点图。

(4)调节FSC/SSC电压使细胞群体出现在散点图的中央，调节FL1电压，使野生型对照原生质体群体出现在散点图的中央，GFP阳性原生质体群体会在GFP荧光通道信号更强的位置出现(在野生型对照样本中没有这个群体)。如有必要，调节补偿，使GFP阴性和阳性原生质体群体分区分得更明显。

(5)设置门，圈住GFP阳性群体。需要准备一个原生质体阴性对照用以确定门的界限。

(6)右键点击需要分选的细胞群体，选择“left sort”，根据实验需要以及目的细胞的百分比，设置分析条件和分析模式。

(7)对已经准备好的培养在流式管中的原生质体样品依次进行上样，记录相关数据，进行分析。

(8)关闭软件，仪器关机。

4、原生质体DNA提取与扩增子测序分析

3.1原生质体DNA提取

收集原生质体于2mL离心管中，利用CTAB法提取原生质体DNA(～30μL)，并利用NanoDrop超微量分光光度计测定其浓度(30-60ng/μL)，-20℃保存。

3.2扩增子测序分析

(1)利用基因组引物对原生质体DNA模板进行PCR扩增。20μL扩增体系包含4μL 5×Fastpfu buffer，1.6μL dNTPs(2.5mM)，0.4μL Forward primer(10μM)，0.4μL Reverse primer(10μM)，0.4μL FastPfu polymerase(2.5U/μL)，以及2μL DNA template(～60ng)。扩增条件：95℃预变性5min；95℃变性30s，50-64℃退火30s，72℃延伸30s，35个循环；72℃充分延伸5min，12℃保存；

(2)上述扩增产物稀释10倍，取1μL作为第二轮PCR扩增模板，扩增引物为含有Barcode的测序引物。50μL扩增体系包含10μL 5×Fastpfu buffer，4μL dNTPs(2.5mM)，1μL Forward primer(10μM)，1μL Reverse primer(10μM)，1μL FastPfu polymerase(2.5U/μL)，以及1μL DNA template。扩增条件如上，扩增循环数为35个循环。

(3)PCR产物于2％琼脂糖凝胶电泳分离，并利用AxyPrep DNA Gel Extraction kit对目的片段进行胶回收，回收产物利用NanoDrop超微量分光光度计进行定量分析；分别取100ng回收产物进行混合，并送生工生物工程有限公司进行扩增子测序文库构建及扩增子测序分析。

(4)待测序完成后，按测序引物对原始数据进行拆分，以WT作为对照，在3次重复试验的不同基因靶向位点上对产物的编辑类型及编辑效率进行比较和分析。

实施例1、Cas9(H840A)切口酶-逆转录酶融合系统在水稻原生质体中对BFP变GFP报告系统进行精确修改

为了测试Cas9(H840A)切口酶-逆转录酶融合(PPEs，plant prime editors)是否可用于精确修改目标序列(图1-2)，构建了nCas9(H840A)-M-MLV构建体(PPE-M-MLV)、nCas9(H840A)-CaMV构建体(PPE-CaMV)、nCas9(H840A)-retron(PPE-retron)构建体、OsU3/TaU6启动子驱动的带有靶点引导RNA及RT和PBS序列的pegRNA构建体、以及TaU3启动子驱动的可在非靶标链上产生切口的nicking gRNA构建体(图3)。通过与BFP变GFP报告系统(图4)观察PPE在原生质体中的工作情况。当BFP基因序列中的“CC”转变为“GT”时，可使第66位氨基酸从组氨酸(H,Histidine)转变为酪氨酸(Y,Tyrosine)，使基因编码GFP荧光蛋白，从而使细胞发出绿色荧光。进而可以利用流式细胞仪对PPE的工作效率进行分析。结果显示，缺少逆转录酶的PPE(即PPE3b(ΔM-MLV))不能使细胞发光，而PPE-M-MLV、pegRNA、nicking gRNA与BFP变GFP报告系统共同转化原生质体后(即PPE3b)，可以明显观察到细胞发出绿色荧光，效率平均为4.4％(图5-6)。将该系统中的M-MLV逆转录酶替换为来源于CaMV病毒的逆转录酶(即PPE3b-CaMV)或来源于细菌retron系统的逆转录酶(即PPE3b-retron)同样可以使细胞发出绿色荧光，效率分别为3.7％和2.4％(图5-6)。因此，以上结果表明PPE在植物体中具有使报告系统的目标序列按期望进行指定修改的能力，初步证明了PPE可以在植物中工作。而且PPE可以为其他形式及来源的逆转录酶。

实施例2、Cas9(H840A)切口酶-逆转录酶融合系统可以在水稻和小麦原生质体中精确修改基因组序列

为了测试PPE系统是否可以水稻内源位点上工作，针对10个水稻内源位点(OsCDC48-T1、OsCDC48-T2、OsCDC48-T3、OsALS-T1、OsALS-T2、OsDEP1、OsEPSPS-T1、OsEPSPS-T2、OsLDAMR和OsGAPDH)，以及7个小麦内源位点(TaUbi10-T1、TaUbi10-T2、TaGW2、TaGASR7、TaLOX2、TaMLO和TaDME)设计并构建了21个pegRNA，测试了PPE2和PPE3(或PPE3b)是否能在这些内源位点上工作。结果表明PPE2和PPE3(或PPE3b)系统都可以在水稻内源位点上实现特定的包括C变T、G变T、A变G、G变A、T变A和C变A的单碱基改变，以及增加或删除特定的碱基，该系统在水稻中的效率最高为8.2％(图7)。PPE2和PPE3(或PPE3b)系统也可以在小麦中实现内源位点的包括A变T、C变G、G变C、T变G和C变A的单碱基改变，效率最高为1.4％(图8)。PPE2和PPE3(或PPE3b)在测试的位点中整体效率差别不大。此外，也观察到了PPE系统存在一定比例的副产物，主要为pegRNA骨架插入或替换(图9)。以上结果表明PPE系统包括PPE2、PPE3和PPE3b都可以在植物内源位点上实现精确的单碱基突变、精准插入和精准删除在内的定向修改。

实施例3、Cas9(H840A)切口酶-逆转录酶融合系统的改进

为了进一步提升PPE编辑系统，测试了PPE-CaMV系统在水稻内源位点的工作情况。结果表明，PPE-CaMV也可以在水稻中实现精确的内源序列的定向修改，效率最高可以达到5.8％(图10)，该结果表明来源于其他物种或其他逆转录酶形式的PPE系统同样可以定向修改植物内源基因。

此外，也测试了核酶加工的pegRNA用于PPE系统的工作情况。构建了Ubi-1驱动的通过核酶加工的带有靶点引导RNA及RT和PBS序列的pegRNA的构建体替换原系统中OsU3驱动pegRNA的构建体，并将该系统命名为(PPE-R，R表示核酶Ribozyme)(图11)。内源靶点的结果表明，利用核酶加工的策略同样可以实现精准的内源序列的改变，PPE-R在部分位点上较PPE有所提升，效率最高可达9.7％(图12)。该结果表明核酶加工的pegRNA或利用II型启动子启动pegRNA均适用于PPE系统。

为了提升PPE系统的编辑效率，将原生质体置于37℃下培养，测试其能否提升编辑效率。挑选了2个水稻内源位点(OsCDC48-T2和OsALS-T2)进行测试。将转化后的原生质体26℃过夜培养后，置于37℃孵育8小时，后放回26℃继续培养，与处理组比较效率。结果显示，37℃处理可以显著提升PPE系统(包括PPE2、PPE3和PPE3b形式)的编辑效率，平均提升了1.6倍(从3.9％提升至6.3％)，最高可以提升2.9倍(图13)。

实施例4、测试不同PBS、RT模板长度及nicking gRNA位置对PPE系统的影响

测试了不同PBS、RT模板长度及nicking gRNA位置对PPE系统的影响，以OsCDC48-T1为测试位点的结果表明，所测试的不同的PBS长度(6-16nt)和RT模板长度(7-23nt)都能使特定位点产生定向的序列修改(图14-15)，在OsCDC48-T1位点上效率为3.4％至15.3％，在OsCDC48-T2位点上效率为0.9％至8.1％，在OsALS-T2位点上效率为1.1％至10.5％，结果表明不同长度的RT模板和PBS会对编辑效率有显著的影响，并且发现不同的RT模板长度对PPE系统所产生的副产物的比例和类型有较显著的影响(图16)。此外，不同的nicking gRNA也会影响PPE系统的效率，在OsCDC48-T1位点上效率为3.2％至19.2％，在OsCDC48-T2位点上效率为2.9％至8.6％(图17)。

实施例5、PPE系统实现内源位点多种类型精准修改

为了测试PPE系统能否实现多种类型的精准修改，以水稻的4个位点(OsCDC48-T1、OsCDC48-T2、OsALS-T2和OsGAPDH)位点为例设计了12种类型的单碱基转换(N变N，其中N表示A、T、C或G四种碱基类型)、多碱基转换以及不同长度的碱基插入和删除。结果表明，PPE系统可以实现所有类型的单碱基转换，最高效率可达8.0％。该系统也可以实现多碱基的同时转换，效率最高可以达到1.5％(图18)。碱基插入和删除的效率随着所需修改长度的增长而降低，碱基定向插入效率最高可达到3.0％，最长插入长度可达到15nt(图19)；碱基定向删除效率最高可达到19.2％，最长删除长度可达到40nt(图20)。因此，该系统可以高效地实现小片段的增删。因此，PPE系统可以实现内源位点的多种类型的定向修改。

实施例6、PPE系统获得定向编辑植物

为了获得定向编辑的植物，选取了OsCDC48-T1和OsALS-T2位点进行测试，构建了PPE3形式的双元载体(图21)，并通过农杆菌转化的方法对水稻进行侵染。最终检测到了12株OsCDC48-T1位点发生预期的精准删除的水稻幼苗，编辑效率为21.8％(12/55)；2株OsALS-T2位点发生预期的G变T的单碱基突变的水稻幼苗，编辑效率为14.3％(2/14)；以及1株OsCDC48-T1位点发生预期的精准的3对碱基对同时突变的水稻幼苗，编辑效率为2.6％(1/38)(图22)(表2)。也发现在植物中会产生很少量的包含非预期副产物的现象(图23)。以上结果表明PPE系统可以在植物中获得定向修改的突变体植株。

表2.PPE系统获得定向编辑水稻植物

实施例7、PBS的Tm影响PPE系统的效率

首先根据公开数据评估了控制Tm的PBS长度对植物引发编辑的影响(图24)。结果表明，当PBS Tm接近30℃(OsCDC48-T1为30℃，OsCDC48-T2为28℃和OsALS-T1为30℃)时，编辑的效率最高。

然后评估了使用Tm为18℃至52℃的PBS(对应于6nt至17nt的PBS长度)的PPE在水稻原生质体中四个靶位点(OsACC-T1、OsCDC48-T3、OsEPSPS-T1,和OsPDS-T1)上的编辑效率。结果见图24。当PBS Tm接近30℃(OsACC-T1中为24-30℃，OsEPSPS-T1中为26-34℃，OsCDC48-T3中为28-36℃，OsPDS-T1中为30℃)时，pegRNA具有更高的活性。在这些PBS Tm下，编辑效率比其他PBS Tm高1.5到4.3倍。还测试了另外六个靶位点(见图24)，包括OsALS-T2、OsDEP1-T1、OsEPSPS-T2、OsAAT-T1、OsGAPDH-T1和OsLDMAR-T1，发现六个靶位点中的五个(OsEPSPS-T2是例外)有类似表现。

然后，对所有13个靶位点在不同PBS Tm下的PPE的整体编辑效率进行了归一化和比较。结果表明，编辑效率遵循正态分布(P>0.1)(图25)，通常在PBS Tm 30℃时达到最大值，随后是PBS Tm 32℃和28℃，而随着PBS Tm升高或降低效率均降低。

由此得出结论，PBS序列的解链温度与PPE编辑效率密切相关(图25)，并且很可能是影响植物pegRNA设计的主要因素。建议利用30℃的PBS Tm指导PPE中pegRNA的设计。

实施例8、使用双pegRNA策略显著提高PPE系统的效率

为了优化最佳编辑，本发明人开发了一种双-pegRNA策略，该策略使用分别针对正向和反向DNA链的不同pegRNA(分别称为NGG-pegRNA和CCN-pegRNA)，其同时编码相同编辑(图26)。从十个水稻基因中选择了15个靶位点，并为每个靶设计了一对pegRNA(表3)。然后，在同一位置比较了仅NGG-pegRNA，仅CCN-pegRNA和双-pegRNA的编辑活性。

表3.双-pegRNA的靶序列、RT模板和PBS序列

每个靶位点的PAM粗体显示，PBS下划线表示。

正如预期的那样，双-pegRNA策略在大多数靶位点(15个中的13个)中具有最高的活性。他们产生了C-to-A，G-to-A，G-to-T，A-to-G，T-to-A，C-to-G和CT-AG的点突变，1bp(T)或2bp(AT)缺失，以及1bp(A)插入，最大编辑效率达到24.5％(图27)。

双-pegRNA在所有测试位点的编辑效率比单个NGG-pegRNA高约4.2倍(OsNRT1.1B(插入A)最高27.9倍)，比单个CCN-pegRNA平均高1.8倍(最高为OsALS(A变G)的7.2倍)。并且，使用双pegRNA的副产物的比例不高于单pegRNA(图28)。

基于水稻参考基因组(Os-Nipponbare reference IRGSP-1.0)的计算分析表明，当引发编辑窗口为从+1到+15时，双-pegRNA理论上可以靶向20.0％的基因组碱基。但是，当与具有NG PAM的SpCas9-NG变体结合使用时，双-pegRNA策略能够靶向87.9％的水稻碱基(图29)。

序列描述

>SEQ ID NO:1 野生型SpCas9氨基酸序列

>SEQ ID NO:2 nCas9(H840A)氨基酸序列

>SEQ ID NO:3 野生型M-MLV氨基酸序列

>SEQ ID NO:4 本发明M-MLV氨基酸序列

>SEQ ID NO:5 CaMV逆转录酶氨基酸序列

>SEQ ID NO:6 retron逆转录酶氨基酸序列

>SEQ ID NO:7 32aa linker氨基酸序列

>SEQ ID NO:8 gRNA支架序列

>SEQ ID NO:9 本发明融合蛋白nCas9(H840A)-M-MLV的基因序列

>SEQ ID NO:10 本发明融合蛋白nCas9(H840A)-CaMV的基因序列

>SEQ ID NO:11 本发明融合蛋白nCas9(H840A)-retron的基因序列

>SEQ ID NO:12 本发明融合蛋白nCas9(H840A)-M-MLV的氨基酸序列

>SEQ ID NO:13 本发明融合蛋白nCas9(H840A)-CaMV的氨基酸序列

>SEQ ID NO:14 本发明融合蛋白nCas9(H840A)-retron的氨基酸序列

Claims

一种用于靶向性修饰植物基因组的植物基因组编辑系统，其包含：

i)融合蛋白和/或含有编码所述融合蛋白的核苷酸序列的表达构建体，其中所述融合蛋白包含CRISPR切口酶和逆转录酶；和/或

ii)至少一种pegRNA和/或含有编码所述至少一种pegRNA的核苷酸序列的表达构建体，

其中所述至少一种pegRNA从5’至3’方向包含引导序列、支架序列、反转录(RT)模板序列和引物结合位点(PBS)序列，

其中所述至少一种gRNA能够与所述融合蛋白形成复合物并将所述融合蛋白靶向基因组中的靶序列，导致所述靶序列内的切口。
权利要求1的系统，其中所述CRISPR切口酶是Cas9切口酶，例如包含SEQ ID NO:2所示氨基酸序列。
权利要求1或2的系统，其中所述逆转录酶是M-MLV逆转录酶，优选氨基酸序列如SEQ ID NO:4所示的增强型M-MLV逆转录酶，或者所述逆转录酶是SEQ ID NO:5所示的CaMV逆转录酶或SEQ ID NO:6所示的retron逆转录酶。
权利要求1-3中任一项的系统，其中pegRNA中的引导序列被设置为与靶序列具有充分序列相同性，从而能够通过碱基配对与靶序列的互补链结合，实现序列特异性靶向。
权利要求1-4中任一项的系统，其中所述pegRNA的支架序列包含SEQ ID NO:8所述序列。
权利要求1-5中任一项的系统，其中所述引物结合序列被设置为与所述靶序列的至少一部分互补，优选地，所述引物结合序列与所述切口导致的3’游离单链的至少一部分互补，特别是与所述3’游离单链的3’末端的核苷酸序列互补。
权利要求1-6中任一项的系统，其中所述引物结合序列的Tm(解链温度)为大约18℃-52℃，优选大约24℃-36℃，更优选大约28℃-32℃，更优选大约30℃。
权利要求1-7中任一项的系统，其中，所述RT模板序列被设置为对应于切口下游的序列，并包含期望的修饰，所述修饰包括一或多个核苷酸的取代、缺失和/或添加。
权利要求1-8中任一项的系统，其还包括切口gRNA和/或含有编码所述切口gRNA的核苷酸序列的表达构建体，所述切口gRNA包含引导序列和支架序列，所示引导序列被设置为与基因组中的靶序列具有充分序列相同性，从而能够将所述融合蛋白靶向所述靶序列，并导致所述靶序列内的切口，所述切口gRNA的靶序列与所述pegRNA的靶序列位于基因组DNA的相对链上，所述切口gRNA诱导的切口和所述pegRNA诱导的切口相距大约1个-大约300个核苷酸。
权利要求1-8中任一项的系统，其包含至少一对pegRNA和/或含有编码所述至少一对pegRNA的核苷酸序列的表达构建体。
权利要求10的系统，所述pegRNA对中的两种pegRNA被设置为靶向基因组DNA的相同链上的不同靶序列，或者，所述pegRNA对中的两种pegRNA被设置为靶向基因组DNA的不同链上的靶序列。
权利要求10或11的系统，所述pegRNA对中的一种pegRNA的靶序列的PAM位于有义链，而另一种pegRNA的PAM位于反义链。
权利要求10-12中任一项的系统，所述两种pegRNA的诱导的切口分别位于待修饰位点的两侧。
权利要求13的系统，其中针对有义链的pegRNA诱导的切口位于待修饰位点的上游(5’方向)，针对反义链的pegRNA诱导的切口位于待修饰位点的下游(3’方向)。
权利要求14的系统，所述两种pegRNA的诱导的切口相距大约1个-大约300个或更多个核苷酸，例如相距1-15个核苷酸。
权利要求10-15中任一项的系统，所述pegRNA对中的两种pegRNA被设置为导入相同的期望的修饰。
一种产生经遗传修饰的植物的方法，包括将权利要求1-16中任一项的基因组编辑系统导入至少一个所述植物，由此导致所述至少一个植物的基因组中的修饰，例如所述修饰包括一或多个核苷酸的取代、缺失和/或添加。
权利要求17的方法，其中所述导入包括将权利要求1-16中任一项的基因组编辑系统转化至分离的植物细胞或组织，然后使所述经转化的植物细胞或组织再生为完整植物；或者

所述导入包括将权利要求1-16中任一项的基因组编辑系统转化至完整植物上的特定部位，例如叶片、茎尖、花粉管、幼穗或下胚轴。
权利要求18的方法，所述方法还包括在升高的温度下培养已经导入所述基因组编辑系统的植物细胞、组织或完整植物，例如所述升高的温度是37℃。