WO2020088450A1

WO2020088450A1 - 新型CRISPR/Cas12f酶和系统

Info

Publication number: WO2020088450A1
Application number: PCT/CN2019/113996
Authority: WO
Inventors: 赖锦盛; 周英思; 朱金洁; 易飞; 张湘博; 赵海铭; 宋伟彬
Original assignee: 中国农业大学
Priority date: 2018-10-29
Filing date: 2019-10-29
Publication date: 2020-05-07
Also published as: IL282746A; CA3118251A1; MX2021004898A; EP3875469A4; AU2019372642B2; EP3875469A1; US20210395784A1; JP2022512982A; CN113106081A; SG11202104347UA; KR20210129033A; AU2019372642A1; JP7216877B2; PH12021550904A1; CN111757889A; CN111757889B; CN113136375A; BR112021007994A2; CN113136375B

Abstract

本发明属于核酸编辑领域，特别是规律成簇的间隔短回文重复(CRISPR)技术领域。具体而言，本发明提供了Cas效应蛋白、包含此类蛋白的融合蛋白以及编码它们的核酸分子，还提供了包含上述蛋白或核酸分子的用于核酸编辑(例如，基因或基因组编辑)的复合物和组合物，以及包含上述蛋白的用于核酸编辑(例如，基因或基因组编辑)的方法。

Description

新型CRISPR/Cas12f酶和系统

技术领域

本发明涉及核酸编辑领域，特别是规律成簇的间隔短回文重复(CRISPR)技术领域。具体而言，本发明涉及Cas效应蛋白，包含此类蛋白的融合蛋白，以及编码它们的核酸分子。本发明还涉及用于核酸编辑(例如，基因或基因组编辑)的复合物和组合物，其包含本发明的蛋白或融合蛋白，或编码它们的核酸分子。本发明还涉及用于核酸编辑(例如，基因或基因组编辑)的方法，其使用包含本发明的蛋白或融合蛋白。

背景技术

CRISPR/Cas技术是一种被广泛使用的基因编辑技术，它通过RNA引导对基因组上的靶序列进行特异性结合并切割DNA产生双链断裂，利用生物非同源末端连接或同源重组进行定点基因编辑。

CRISPR/Cas9系统是最常用的II型CRISPR系统，它识别3’-NGG的PAM基序，对靶标序列进行平末端切割。CRISPR/Cas Type V系统是一类近两年新发现的CRISPR系统，它具有5’-TTN的基序，对靶标序列进行粘性末端切割，例如Cpf1,C2c1,CasX,CasY。然而目前存在的不同的CRISPR/Cas各有不同的优点和缺陷。例如Cas9,C2c1和CasX均需要两条RNA进行导向RNA，而Cpf1只需要一条导向RNA而且可以用来进行多重基因编辑。CasX具有980个氨基酸的大小，而常见的Cas9，C2c1,CasY和Cpf1通常大小在1300个氨基酸左右。此外，Cas9，Cpf1，CasX，CasY的PAM序列都比较复杂多样，而C2c1识别严谨的5’-TTN，因此它的靶标位点比其他系统容易被预测从而降低了潜在的脱靶效应。

总之，鉴于目前可获得的CRISPR/Cas系统都受限于一些缺陷，开发一种更稳健的、具有多方面良好性能的新型CRISPR/Cas系统对生物技术的发展具有重要意义。

发明内容

本申请的发明人经过大量实验和反复摸索，出人意料地发现了一种新型RNA指导的核酸内切酶。基于这一发现，本发明人开发了新的CRISPR/Cas系统以及基于该系统的基因编辑方法。

Cas效应蛋白

因此，在第一方面，本发明提供了一种蛋白，其具有SEQ ID NO：1所示的氨基酸序列，或具有与SEQ ID NO:1相比具有至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、或至少99％的序列同一性的氨基酸序列，所述氨基酸序列基本保留了SEQ ID NO:1的生物学功能。

在某些实施方案中，本发明提供了一种蛋白，其具有SEQ ID NO：1所示的氨基酸序列或其直系同源物(ortholog)、同源物或变体；其中，所述直系同源物、同源物或变体与SEQ ID NO：1相比具有至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、或至少99％的序列同一性，并且基本保留了SEQ ID NO:1的生物学功能。

在本发明中，上述序列的生物学功能包括但不限于，与导向RNA结合的活性、核酸内切酶活性、在导向RNA引导下与靶序列特定位点结合并切割的活性。

在某些实施方案中，所述蛋白是CRISPR/Cas系统中的效应蛋白。

在某些实施方案中，本发明的蛋白具有SEQ ID NO：1所示的氨基酸序列。

衍生的蛋白

本发明的蛋白可进行衍生化，例如被连接至另一个分子(例如另一个多肽或蛋白)。通常，蛋白的衍生化(例如，标记)不会不利影响该蛋白的期望活性(例如，与导向RNA结合的活性、核酸内切酶活性、在导向RNA引导下与靶序列特定位点结合并切割的活性)。因此，本发明的蛋白还意欲包括此类衍生化的形式。例如，可以将本发明的蛋白功能性连接(通过化学偶合、基因融合、非共价连接或其它方式)于一个或多个其它分子基团，例如另一个蛋白或多肽，检测试剂，药用试剂等。

特别地，可以将本发明的蛋白连接其他功能性单元。例如，可以将其与核定位信号(NLS)序列连接，以提高本发明的蛋白进入细胞核的能力。例如，可以将其与靶向部分连接，以使得本发明的蛋白具有靶向性。例如，可以将其与可检测的标记连接，以便于对本发明的蛋白进行检测。例如，可以将其与表位标签连接，以便于本发明的蛋白的表达、检测、示踪和/或纯化。

缀合物

因此，在第二方面，本发明提供了一种缀合物，其包含如上所述的蛋白和修饰部分。

在某些实施方案中，所述修饰部分选自另外的蛋白或多肽、可检测的标记或其任意组合。

在某些实施方案中，所述另外的蛋白或多肽选自表位标签、报告基因序列、核定位信号(NLS)序列、靶向部分、转录激活结构域(例如，VP64)、转录抑制结构域(例如，KRAB结构域或SID结构域)、核酸酶结构域(例如，Fok1)，具有选自下列的活性的结构域：核苷酸脱氨酶、甲基化酶活性,去甲基化酶,转录激活活性,转录抑制活性,转录释放因子活性,组蛋白修饰活性,核酸酶活性,单链RNA切割活性,双链RNA切割活性,单链DNA切割活性,双链DNA切割活性和核酸结合活性；以及其任意组合。

在某些实施方案中，本发明的缀合物包含一个或多个NLS序列，例如SV40病毒大T抗原的NLS。在某些示例性实施方案中，所述NLS序列如SEQ ID NO:19所示。在某些实施方案中，所述NLS序列位于、靠近或接近本发明的蛋白的末端(例如，N端或C端)。在某些示例性实施方案中，所述NLS序列位于、靠近或接近本发明的蛋白的C端。

在某些实施方案中，本发明的缀合物包含表位标签(epitope tag)。这类表位标签是本领域技术人员熟知的，其实例包括但不限于His、V5、FLAG、HA、Myc、VSV-G、Trx等，并且本领域技术人员已知如何根据期望目的(例如，纯化、检测或示踪)选择合适的表位标签。

在某些实施方案中，本发明的缀合物包含报告基因序列。这类报告基因是本领域技术人员熟知的，其实例包括但不限于GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP等。

在某些实施方案中，本发明的缀合物包含能够与DNA分子或细胞内分子结合的结构域，例如麦芽糖结合蛋白(MBP)、Lex A的DNA结合结构域(DBD)、GAL4的DBD等。

在某些实施方案中，本发明的缀合物包含可检测的标记，例如荧光染料，例如FITC或DAPI。

在某些实施方案中，本发明的蛋白任选地通过接头与所述修饰部分偶联、缀合或融合。

在某些实施方案中，所述修饰部分直接连接至本发明的蛋白的N端或C端。

在某些实施方案中，所述修饰部分通过接头连接至本发明的蛋白的N端或C端。这类接头是本领域熟知的，其实例包括但不限于包含一个或多个(例如，1个，2个，3 个，4个或5个)氨基酸(如，Glu或Ser)或氨基酸衍生物(如，Ahx、β-Ala、GABA或Ava)的接头，或PEG等。

融合蛋白

在第三方面，本发明提供了一种融合蛋白，其包含本发明的蛋白以及另外的蛋白或多肽。

在某些实施方案中，本发明的融合蛋白包含一个或多个NLS序列，例如SV40病毒大T抗原的NLS。在某些实施方案中，所述NLS序列位于、靠近或接近本发明的蛋白的末端(例如，N端或C端)。在某些示例性实施方案中，所述NLS序列位于、靠近或接近本发明的蛋白的C端。

在某些实施方案中，本发明的融合蛋白包含表位标签。

在某些实施方案中，本发明的融合蛋白包含报告基因序列。

在某些实施方案中，本发明的融合蛋白包含能够与DNA分子或细胞内分子结合的结构域。

在某些实施方案中，本发明的蛋白任选地通过接头与所述另外的蛋白或多肽融合。

在某些实施方案中，所述另外的蛋白或多肽直接连接至本发明的蛋白的N端或C端。

在某些实施方案中，所述另外的蛋白或多肽通过接头连接至本发明的蛋白的N端或C端。

在某些示例性实施方案中，本发明的融合蛋白具有SEQ ID NO:20所示的氨基酸序列。

本发明的蛋白、本发明的缀合物或本发明的融合蛋白不受其产生方式的限定，例如，其可以通过基因工程方法(重组技术)产生，也可以通过化学合成方法产生。

同向重复序列

在第四方面，本发明提供了一种分离的核酸分子，其包含选自下列的序列，或由选自下列的序列组成：

(i)SEQ ID NO：7或13所示的序列；

(ii)与SEQ ID NO：7或13所示的序列相比具有一个或多个碱基的置换、缺失或添加(例如1个，2个，3个，4个，5个，6个，7个，8个，9个或10个碱基的置换、缺失或添加)的序列；

(iii)与SEQ ID NO：7或13所示的序列具有至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％、至少95％的序列同一性的序列；

(iv)在严格条件下与(i)-(iii)任一项中所述的序列杂交的序列；或

(v)(i)-(iii)任一项中所述的序列的互补序列；

并且，(ii)-(v)中任一项所述的序列基本保留了其所源自的序列的生物学功能，所述序列的生物学功能是指，作为CRISPR-Cas系统中的同向重复序列的活性。

在某些实施方案中，所述分离的核酸分子是CRISPR-Cas系统中的同向重复序列。

在某些实施方案中，所述核酸分子包含选自下列的序列，或由选自下列的序列组成：

(a)SEQ ID NO：7或13所示的核苷酸序列；

(b)在严格条件下与(a)中所述的序列杂交的序列；或

(c)SEQ ID NO：7或13所示的核苷酸序列的互补序列。

在某些实施方案中，所述分离的核酸分子是RNA。

CRISPR/Cas复合物

在第五方面，本发明提供了一种复合物，其包含：

(i)蛋白组分，其选自：本发明的蛋白、缀合物或融合蛋白，及其任意组合；和

(ii)核酸组分，其从5’至3’方向包含第四方面所述的分离的核酸分子和能够与靶序列杂交的导向序列，

其中，所述蛋白组分与核酸组分相互结合形成复合物。

在某些实施方案中，所述导向序列连接于所述核酸分子的3’端。

在某些实施方案中，所述导向序列包含所述靶序列的互补序列。

在某些实施方案中，所述核酸组分是CRISPR-Cas系统中的导向RNA。

在某些实施方案中，所述核酸分子是RNA。

在某些实施方案中，所述复合物不包含反式作用crRNA(tracrRNA)。

在某些实施方案中，所述导向序列在长度上为至少5个、至少10个、在某些实施方案中，所述导向序列在长度上为10-30个、或15-25个、或15-22个、或19-25个或19-22个核苷酸。

在某些实施方案中，所述分离的核酸分子在长度上为55-70个核苷酸，例如55-65个核苷酸，例如60-65个核苷酸，例如62-65个核苷酸，例如63-64个核苷酸。在某些实施方案中，所述分离的核酸分子在长度上为15-30个核苷酸，例如15-25个核苷酸，例如20-25个核苷酸，例如22-24个核苷酸，例如23个核苷酸。

在具体的实施方式中，本发明提供了一种CRISPR-Cas系统，其包含：

a)导向RNA，其从5’至3’方向包含同向重复序列和能够与靶序列杂交的导向序列，和

b)Cas12f效应蛋白；

所述导向RNA与所述Cas12f效应蛋白形成复合物；

其中所述Cas12f蛋白大小为900-1200个氨基酸，在靠近其C端存在一个RuvC结构域，由RuvC-I,RuvC-II和RuvC-III基序构成；

其中所述Cas12f位于细菌基因组中CRISPR座500bp以内；

优选地，所述同向重复序列的长度为21nt-36nt，所述导向序列的长度为1-80nt，并且所述同向重复序列的末尾16或17个碱基可以形成一个茎环，环大小为8或9nt，茎由五对互补碱基构成。

编码核酸、载体及宿主细胞

在第六方面，本发明提供了一种分离的核酸分子，其包含：

(i)编码本发明的蛋白或融合蛋白的核苷酸序列；

(ii)编码如第四方面所述的分离的核酸分子；或

(iii)包含(i)和(ii)的核苷酸序列。

在某些实施方案中，(i)-(iii)任一项中所述的核苷酸序列经密码子优化用于在原核细胞中进行表达。在某些实施方案中，(i)-(iii)任一项中所述的核苷酸序列经密码子优化用于在真核细胞中进行表达。

在第七方面，本发明还提供了一种载体，其包含如第六方面所述的分离的核酸分子。本发明的载体可以是克隆载体，也可以是表达载体。在某些实施方案中，本发明的载体是例如质粒，粘粒，噬菌体，柯斯质粒等等。在某些选实施方案中，所述载体能够在受试者(例如哺乳动物，例如人)体内表达本发明的蛋白、融合蛋白、如第四方面所述的分离的核酸分子或如第五方面所述的复合物。

在第八方面，本发明还提供了包含如上所述的分离的核酸分子或载体的宿主细胞。此类宿主细胞包括但不限于，原核细胞例如大肠杆菌细胞，以及真核细胞例如酵母细胞，昆虫细胞，植物细胞和动物细胞(如哺乳动物细胞，例如小鼠细胞、人细胞等)。本发明的细胞还可以是细胞系，例如293T细胞。

组合物及载体组合物

在第九方面，本发明还提供了一种组合物，其包含：

(i)第一组分，其选自：本发明的蛋白、缀合物、融合蛋白、编码所述蛋白或融合蛋白的核苷酸序列，以及其任意组合；和

(ii)第二组分，其为包含导向RNA的核苷酸序列，或者编码所述包含导向RNA的核苷酸序列的核苷酸序列；

其中，所述导向RNA从5’至3’方向包含同向重复序列和导向序列，所述导向序列能够与靶序列杂交；

所述导向RNA能够与(i)中所述的蛋白、缀合物或融合蛋白形成复合物。

在某些实施方案中，所述同向重复序列是如第四方面所定义的分离的核酸分子。

在某些实施方案中，所述导向序列连接至所述同向重复序列的3’端。在某些实施方案中，所述导向序列包含所述靶序列的互补序列。

在某些实施方案中，所述组合物不包含tracrRNA。

在某些实施方案中，所述组合物是非天然存在的或经修饰的。在某些实施方案中，所述组合物中的至少一个组分是非天然存在的或经修饰的。在某些实施方案中，所述第一组分是非天然存在的或经修饰的；和/或，所述第二组分是非天然存在的或经修饰的。

在某些实施方案中，当所述靶序列为DNA时，所述靶序列位于原间隔序列临近基序(PAM)的3’端，并且所述PAM具有5’-TTN所示的序列，其中，N选自A、G、T、C。在某些实施方案中，N选自A、T、C。

在某些实施方案中，当所述靶序列为RNA时，所述靶序列不具有PAM结构域限制。

在某些实施方案中，所述靶序列是来自原核细胞或真核细胞的DNA或RNA序列。在某些实施方案中，所述靶序列是非天然存在的DNA或RNA序列。

在某些实施方案中，所述靶序列存在于细胞内。在某些实施方案中，所述靶序列存在于细胞核内或细胞质(例如，细胞器)内。在某些实施方案中，所述细胞是真核细胞。在某些实施方案中，所述细胞是原核细胞。

在某些实施方案中，所述蛋白连接有一个或多个NLS序列。在某些实施方案中，所述缀合物或融合蛋白包含一个或多个NLS序列。在某些实施方案中，所述NLS序列连接至所述蛋白的N端或C端。在某些实施方案中，所述NLS序列融合至所述蛋白的N端或C端。

在第十方面，本发明还提供了一种组合物，其包含一种或多种载体，所述一种或多种载体包含：

(i)第一核酸，其为编码本发明的蛋白或融合蛋白的核苷酸序列；任选地所述第一核酸可操作地连接至第一调节元件；以及

(ii)第二核酸，其编码包含导向RNA的核苷酸序列；任选地所述第二核酸可操作地连接至第二调节元件；

其中：

所述第一核酸与第二核酸存在于相同或不同的载体上；

所述导向RNA从5’至3’方向包含同向重复序列和导向序列，所述导向序列能够与靶序列杂交；

所述导向RNA能够与(i)中所述的效应蛋白或融合蛋白形成复合物。

在某些实施方案中，所述组合物不包含tracrRNA。

在某些实施方案中，所述组合物是非天然存在的或经修饰的。在某些实施方案中，所述组合物中的至少一个组分是非天然存在的或经修饰的。

在某些实施方案中，所述第一调节元件是启动子，例如诱导型启动子。

在某些实施方案中，所述第二调节元件是启动子，例如诱导型启动子。

在某些实施方案中，一种类型的载体是质粒，其是指其中可以例如通过标准分子克隆技术插入另外的DNA片段的环状双链DNA环。另一种类型的载体是病毒载体，其中病毒衍生的DNA或RNA序列存在于用于包装病毒(例如，逆转录病毒、复制缺陷型逆转录病毒、腺病毒、复制缺陷型腺病毒、以及腺相关病毒)的载体中。病毒载体还包含由用于转染到一种宿主细胞中的病毒携带的多核苷酸。某些载体(例如，具有细菌复制起点的细菌载体和附加型哺乳动物载体)能够在它们被导入的宿主细胞中自主复制。其他载体(例如，非附加型哺乳动物载体)在引入宿主细胞后整合到该宿主细胞的基因组中，并且由此与该宿主基因组一起复制。而且，某些载体能够指导它们可操作连接的基因的表达。这样的载体在此被称为“表达载体”。在重组DNA技术中使用的普通表达栽体通常是质粒形式。

重组表达载体可包含处于适合于在宿主细胞中的核酸表达的形式的本发明的核酸分子，这意味着这些重组表达载体包含基于待用于表达的宿主细胞而选择的一种或多种调节元件，所述调节元件可操作地连接至待表达的核酸序列。

递送及递送组合物

本发明的蛋白、缀合物、融合蛋白、如第四方面所述的分离的核酸分子、本发明的复合物、如第六方面所述的分离的核酸分子、如第七方面所述的载体、如第九方面及第十方面所述的组合物，可以通过本领域已知的任何方法进行递送。此类方法包括但不限于，电穿孔、脂转染、核转染、显微注射、声孔效应、基因枪、磷酸钙介导的转染、阳离子转染、脂质体转染、树枝状转染、热激转染、核转染、磁转染、脂转染、穿刺转染、光学转染、试剂增强性核酸摄取、以及经由脂质体、免疫脂质体、病毒颗粒、人工病毒体等的递送。

因此，在另一个方面，本发明提供了一种递送组合物，其包含递送载体，以及选自下列的一种或多种：本发明的蛋白、缀合物、融合蛋白、如第四方面所述的分离的核酸分子、本发明的复合物、如第六方面所述的分离的核酸分子、如第七方面所述的载体、如第九方面及第十方面所述的组合物。

在某些实施方案中，所述递送载体是粒子。

在某些实施方案中，所述递送载体选自脂质颗粒、糖颗粒、金属颗粒、蛋白颗粒、脂质体、外泌体、微泡、基因枪或病毒载体(例如，复制缺陷型逆转录病毒、慢病毒、腺病毒或腺相关病毒)。

试剂盒

在另一个方面，本发明提供了一种试剂盒，其包含如上所述的组分中的一种或多种。在某些实施方案中，所述试剂盒包含一种或多种选自下列的组分：本发明的蛋白、缀合物、融合蛋白、如第四方面所述的分离的核酸分子、本发明的复合物、如第六方面所述的分离的核酸分子、如第七方面所述的载体、如第九方面及第十方面所述的组合物。

在某些实施方案中，本发明的试剂盒包含如第九方面所述的组合物。在某些实施方案中，所述试剂盒还包含使用所述组合物的说明书。

在某些实施方案中，本发明的试剂盒包含如第十方面所述的组合物。在某些实施方案中，所述试剂盒还包含使用所述组合物的说明书。

在某些实施方案中，本发明的试剂盒中包含的组分可以被提供于任何适合的容器中。

在某些实施方案中，所述试剂盒还包含一种或多种缓冲液。缓冲液可以是任何缓冲液，包括但不限于碳酸钠缓冲液、碳酸氢钠缓冲液、硼酸盐缓冲液、Tris缓冲液、MOPS缓冲液、HEPES缓冲液及其组合。在某些实施方案中，该缓冲液是碱性的。在某些实施方案中，该缓冲液具有从约7至约10的pH。

在某些实施方案中，该试剂盒还包括一个或多个寡核苷酸，该一个或多个寡核苷酸对应于一个用于插入进载体中的导向序列，以便可操作地连接该导向序列和调节元件。在某些实施方案中，该试剂盒包括同源重组模板多核苷酸。

方法及用途

在另一个方面，本发明提供了一种修饰靶基因的方法，其包括：将如第五方面所述的复合物、如第九方面所述的组合物或如第十方面所述的组合物与所述靶基因接触，或者递送至包含所述靶基因的细胞中；所述靶序列存在于所述靶基因中。

在某些实施方案中，所述靶基因存在于细胞内。在某些实施方案中，所述细胞是原核细胞。在某些实施方案中，所述细胞是真核细胞。在某些实施方案中，所述细胞是哺乳动物细胞。在某些实施方案中，所述细胞是人类细胞。在某些实施方案中，所述细胞选自非人灵长类动物、牛、猪或啮齿类动物细胞。在某些实施方案中，所述细胞是非哺乳动物真核细胞，例如家禽或鱼等。在某些实施方案中，所述细胞是植物细胞，例如栽培植物(如木薯、玉米、高粱、小麦或水稻)、藻类、树或蔬菜具有的细胞。

在某些实施方案中，所述靶基因存在于体外的核酸分子(例如，质粒)中。在某些实施方案中，所述靶基因存在于质粒中。

在某些实施方案中，所述修饰是指所述靶序列的断裂，如DNA的双链断裂或RNA的单链断裂。

在某些实施方案中，所述断裂导致靶基因的转录降低。

在某些实施方案中，所述方法还包括：将编辑模板与所述靶基因接触，或者递送至包含所述靶基因的细胞中。在此类实施方案中，所述方法通过与外源模板多核苷酸同源重组修复所述断裂的靶基因，其中所述修复导致一种突变，包括所述靶基因的一个或多个核苷酸的插入、缺失、或取代。在某些实施方案中，所述突变导致在从包含该靶序列的基因表达的蛋白质中的一个或多个氨基酸改变。

因此，在某些实施方案中，所述修饰还包括将编辑模板(例如外源核酸)插入所述断裂中。

在某些实施方案中，所述的蛋白、缀合物、融合蛋白、分离的核酸分子、复合物、载体或组合物包含于递送载体中。

在某些实施方案中，所述递送载体选自脂质颗粒、糖颗粒、金属颗粒、蛋白颗粒、脂质体、外泌体、病毒载体(如复制缺陷型逆转录病毒、慢病毒、腺病毒或腺相关病毒)。

在某些实施方案中，所述方法其用于改变靶基因或编码靶基因产物的核酸分子中的一个或多个靶序列来修饰细胞、细胞系或生物体。

在另一个方面，本发明提供了一种改变基因产物的表达的方法，其包括：将如第五方面所述的复合物、如第九方面所述的组合物或如第十方面所述的组合物与编码所述基因产物的核酸分子接触，或者递送至包含所述核酸分子的细胞中，所述靶序列存在于所述核酸分子中。

在某些实施方案中，所述核酸分子存在于细胞内。在某些实施方案中，所述细胞是原核细胞。在某些实施方案中，所述细胞是真核细胞。在某些实施方案中，所述细胞是哺乳动物细胞。在某些实施方案中，所述细胞是人类细胞。在某些实施方案中，所述细胞选自非人灵长类动物、牛、猪或啮齿类动物细胞。在某些实施方案中，所述细胞是非哺乳动物真核细胞，例如家禽或鱼等。在某些实施方案中，所述细胞是植物细胞，例如栽培植物(如木薯、玉米、高粱、小麦或水稻)、藻类、树或蔬菜具有的细胞。

在某些实施方案中，所述核酸分子存在于体外的核酸分子(例如，质粒)中。在某些实施方案中，所述核酸分子存在于质粒中。

在某些实施方案中，所述基因产物的表达被改变(例如，增强或降低)。在某些实施方案中，所述基因产物的表达被增强。在某些实施方案中，所述基因产物的表达被降低。

在某些实施方案中，所述基因产物是蛋白。

在另一个方面，本发明涉及如第一方面所述的蛋白、如第二方面所述的缀合物、如第三方面所述的融合蛋白、如第四方面所述的分离的核酸分子、如第五方面所述的复合物、如第六方面所述的分离的核酸分子、如第七方面所述的载体、如第九方面所述的组合物、如第十方面所述的组合物、本发明的试剂盒或递送组合物，用于核酸编辑的用途。

在某些实施方案中，所述核酸编辑包括基因或基因组编辑，例如修饰基因、敲除基因、改变基因产物的表达、修复突变、和/或插入多核苷酸。

在另一个方面，本发明涉及如第一方面所述的蛋白、如第二方面所述的缀合物、如第三方面所述的融合蛋白、如第四方面所述的分离的核酸分子、如第五方面所述的复合物、如第六方面所述的分离的核酸分子、如第七方面所述的载体、如第九方面所述的组合物、如第十方面所述的组合物、本发明的试剂盒或递送组合物，在制备制剂中的用途，所述制剂用于：

(i)离体基因或基因组编辑；

(ii)离体单链DNA的检测；

(iii)编辑靶基因座中的靶序列来修饰生物或非人类生物；

(iv)治疗由靶基因座中的靶序列的缺陷引起的病症。

细胞及细胞子代

在某些情况下，由本发明的方法引入到细胞的修饰可以使得细胞和其子代被改变以改进其生物产物(如抗体、淀粉、乙醇或其他期望的细胞输出物)的产生。在某些情况下，由本发明的方法引入到细胞的修饰可以使得细胞和其子代包括使所生产生物产物发生变化的改变。

因此，在另一方面，本发明还涉及如上所述的方法获得的细胞或其子代，其中所述细胞含有在其野生型中不存在的修饰。

本发明还涉及如上所述的细胞或其子代的细胞产物。

本发明还涉及一种体外的、离体的或体内的细胞或细胞系或它们的子代，所述细胞或细胞系或它们的子代包含：如第一方面所述的蛋白、如第二方面所述的缀合物、如第三方面所述的融合蛋白、如第四方面所述的分离的核酸分子、如第五方面所述的复合物、如第六方面所述的分离的核酸分子、如第七方面所述的载体、如第九方面所述的组合物、如第十方面所述的组合物、本发明的试剂盒或递送组合物。

在某些实施方案中，所述细胞是原核细胞。

在某些实施方案中，所述细胞是真核细胞。在某些实施方案中，所述细胞是哺乳动物细胞。在某些实施方案中，所述细胞是人类细胞。某些实施方案中，所述细胞是非人哺乳动物细胞，例如非人灵长类动物、牛、羊、猪、犬、猴、兔、啮齿类(如大鼠或小鼠)的细胞。在某些实施方案中，所述细胞是非哺乳动物真核细胞，例如家禽鸟类(如鸡)、鱼类或甲壳动物(如蛤蜊、虾)的细胞。在某些实施方案中，所述细胞是植物细胞，例如单子叶植物或双子叶植物具有的细胞或栽培植物或粮食作物如木薯、玉米、高粱、大豆、小麦、燕麦或水稻具有的细胞，例如藻类、树或生产植物、果实或蔬菜(例如，树类如柑橘树、坚果树；茄属植物、棉花、烟草、番茄、葡萄、咖啡、可可等)。

在某些实施方案中，所述细胞是干细胞或干细胞系。

术语定义

在本发明中，除非另有说明，否则本文中使用的科学和技术名词具有本领域技术人员所通常理解的含义。并且，本文中所用的分子遗传学、核酸化学、化学、分子生物学、生物化学、细胞培养、微生物学、细胞生物学、基因组学和重组DNA等操作步骤均为相应领域内广泛使用的常规步骤。同时，为了更好地理解本发明，下面提供相关术语的定义和解释。

在本发明中，表述“Cas12f”是指，本发明人首次发现并鉴定的一种Cas效应蛋白，其具有选自下列的氨基酸序列：

(i)SEQ ID NOs：1、2、3任一项所示的序列；

(ii)与SEQ ID NOs：1、2、3任一项所示的序列相比具有一个或多个氨基酸的置换、缺失或添加(例如1个，2个，3个，4个，5个，6个，7个，8个，9个或10个氨基酸的置换、缺失或添加)的序列；或

(iii)与SEQ ID NOs：1、2、3任一项所示的序列具有至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少80％、至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、或至少99％的序列同一性的序列。

本发明的Cas12f是一种在导向RNA引导下与靶序列特定位点结合并切割的核酸内切酶，同时具有DNA和RNA内切酶活性。

如本文中所使用的，术语“规律成簇的间隔短回文重复(CRISPR)-CRISPR-相关(Cas)(CRISPR-Cas)系统”或“CRISPR系统”可互换地使用并且具有本领域技术人员通常理解的含义，其通常包含与CRISPR相关(“Cas”)基因的表达有关的转录产物或其他元件，或者能够指导所述Cas基因活性的转录产物或其他元件。此类转录产物或其他元件可以包含编码Cas效应蛋白的序列和包含CRISPR RNA(crRNA)的导向RNA，以及在CRISPR-Cas9系统中所含有的反式作用crRNA(tracrRNA)序列，或来自CRISPR基因座的其他序列或转录产物。在本发明所述的基于Cas12f的CRISPR系统中，不需要tracrRNA序列。

如本文中所使用的，术语“Cas效应蛋白”、“Cas效应酶”可互换地使用并且是指，CRISPR-Cas系统中呈现的任一种大于长度900个氨基酸的蛋白质。在某些情况下，这类蛋白是指从Cas基因座中鉴定的蛋白。

如本文中所使用的，术语“导向RNA(guide RNA)”、“成熟crRNA”可互换地使用并且具有本领域技术人员通常理解的含义。一般而言，导向RNA可以包含同向(direct)重复序列和导向序列(guide sequence)，或者基本上由或由同向重复序列和导向序列(在内源性CRISPR系统背景下也称为间隔序列(spacer))组成。在某些情况下，导向序列是与靶序列具有足够互补性从而与所述靶序列杂交并引导CRISPR/Cas复合物与所述靶序列的特异性结合的任何多核苷酸序列。在某些实施方案中，当最佳比对时，导向序列与其相应靶序列之间的互补程度为至少50％、至少60％、至少70％、至少80％、至少90％、至少95％、或至少99％。确定最佳比对在本领域的普通技术人员的能力范围内。例如，存在公开和可商购的比对算法和程序，诸如但不限于ClustalW、matlab中的史密斯-沃特曼算法(Smith-Waterman)、Bowtie、Geneious、Biopython以及SeqMan。

在某些情况下，所述导向序列在长度上为至少5个、至少10个、至少15个、至少16个、至少17个、至少18个、至少19个、至少20个、至少21个、至少22个、至少23个、至少24个、至少25个、至少26个、至少27个、至少28个、至少29个、至少30个、至少35个、至少40个、至少45个或至少50个核苷酸。在某些情况下，所述导向序列在长度上为不超过50个、45个、40个、35个、30个、25个、24个、23个、22个、21个、20个、15个、10个或更少个核苷酸。在某些实施方案中，所述导向序列在长度上为10-30个、或15-25个、或15-22个、或19-25个或19-22个核苷酸。

在某些情况下，所述同向重复序列在长度上为至少10个、至少15个、至少16个、至少17个、至少18个、至少19个、至少20个、至少21个、至少22个、至少23个、至少24个、至少25个、至少26个、至少27个、至少28个、至少29个、至少30个、至少35个、至少40个、至少45个、至少50个、至少55个、至少56个、至少57个、至少58个、至少59个、至少60个、至少61个、至少62个、至少63个、至少64个、至少65个或至少70个核苷酸。在某些情况下，所述同向重复序列在长度上为不超过70个、65个、64个、63个、62个、61个、60个、59个、58个、57个、56个、55个、50个、45个、40个、35个、30个、29个、28个、27个、26个、25个、24个、23个、22个、21个、20个、15个、10个或更少个核苷酸。在某些实施方案中，所述同向重复序列在长度上为55-70个核苷酸，例如55-65个核苷酸，例如60-65个核苷酸，例如62-65个核苷酸，例如63-64个核苷酸。在某些实施方案中，所述同向重复序列在长度上为15-30个核苷酸，例如15-25个核苷酸，例如20-25个核苷酸，例如22-24个核苷酸，例如23个核苷酸。

如本文中所使用的，术语“CRISPR/Cas复合物”是指，导向RNA(guide RNA)或成熟crRNA与Cas蛋白结合所形成的核糖核蛋白复合体，其包含杂交到靶序列上并且与Cas蛋白结合的导向序列。该核糖核蛋白复合体能够识别并切割能与该导向RNA或成熟crRNA杂交的多核苷酸。

因此，在形成CRISPR/Cas复合物的情况下，“靶序列”是指被设计为具有靶向性的导向序列所靶向的多核苷酸，例如与该导向序列具有互补性的序列，其中靶序列与导向序列之间的杂交将促进CRISPR/Cas复合物的形成。完全互补性不是必需的，只要存在足够互补性以引起杂交并且促进一种CRISPR/Cas复合物的形成即可。靶序列可以包含任何多核苷酸，如DNA或RNA。在某些情况下，所述靶序列位于细胞的细胞核或细胞质中。在某些情况下，该靶序列可位于真核细胞的一个细胞器例如线粒体或叶绿体内。可被用于重组到包含该靶序列的靶基因座中的序列或模板被称为“编辑模板”或“编辑多核苷酸”或“编辑序列”。在某些实施方案中，所述编辑模板为外源核酸。在某些实施方案中，该重组是同源重组。

在本发明中，表述“靶序列”或“靶多核苷酸”可以是对细胞(例如，真核细胞)而言任何内源或外源的多核苷酸。例如，该靶多核苷酸可以是一种存在于真核细胞的细胞核中的多核苷酸。该靶多核苷酸可以是一个编码基因产物(例如，蛋白质)的序列或一个非编码序列(例如，调节多核苷酸或无用DNA)。在某些情况下，据信该靶序列应该与原间隔序列临近基序(PAM)相关。对PAM的精确序列和长度要求取决于使用的Cas效应酶而不同，但是PAM典型地是临近原间隔序列(也即，靶序列)的2-5个碱基对序列。本领域技术人员能够鉴定与给定的Cas效应蛋白一起使用的PAM序列。

在某些情况下，靶序列或靶多核苷酸可以包括多个疾病相关基因和多核苷酸以及信号传导生化途径相关基因和多核苷酸。此类靶序列或靶多核苷酸的非限制性实例，包括分别提交于2012年12月12日和2013年1月2日的美国临时专利申请61/736,527和61/748,427、提交于2013年12月12日的国际申请PCT/US2013/074667中所列举的那些，其全部通过引用并入本文。

在某些情况下，靶序列或靶多核苷酸的实例包括与信号传导生化途径相关的序列，例如信号传导生化途径相关基因或多核苷酸。靶多核苷酸的实例包括疾病相关基因或多核苷酸。“疾病相关”基因或多核苷酸是指与非疾病对照的组织或细胞相比，在来源于疾病影响的组织的细胞中以异常水平或以异常形式产生转录或翻译产物的任何基因或多核苷酸。在改变的表达与疾病的出现和/或进展相关的情况下，它可以是一个以异常高的水平被表达的基因；或者，它可以是一个以异常低的水平被表达的基因。疾病相关基因还指具有一个或多个突变或直接负责或与一个或多个负责疾病的病因学的基因连锁不平衡的遗传变异的基因。转录的或翻译的产物可以是已知的或未知的，并且可以处于正常或异常水平。

如本文中所使用的，术语“野生型”具有本领域技术人员通常理解的含义，其表示生物、菌株、基因的典型形式或者当它在自然界存在时区别于突变体或变体形式的特征，其可从自然中的来源分离并且没有被人为有意地修饰。

如本文中所使用的，术语“非天然存在的”或“工程化的”可互换地使用并且表示人工的参与。当这些术语用于描述核酸分子或多肽时，其表示该核酸分子或多肽至少基本上从它们在自然界中或如发现于自然界中的与其结合的至少另一种组分游离出来。

如本文中所使用的，术语“直系同源物(orthologue,ortholog)”具有本领域技术人员通常理解的含义。作为进一步指导，如本文中所述的蛋白质的“直系同源物”是指属于不同物种的蛋白质，该蛋白质执行与作为其直系同源物的蛋白相同或相似的功能。

如本文中所使用的，术语“同一性”用于指两个多肽之间或两个核酸之间序列的匹配情况。当两个进行比较的序列中的某个位置都被相同的碱基或氨基酸单体亚单元占据时(例如，两个DNA分子的每一个中的某个位置都被腺嘌呤占据，或两个多肽的每一个中的某个位置都被赖氨酸占据)，那么各分子在该位置上是同一的。两个序列之间的“百分数同一性”是由这两个序列共有的匹配位置数目除以进行比较的位置数目×100的函数。例如，如果两个序列的10个位置中有6个匹配，那么这两个序列具有60％的同一性。例如，DNA序列CTGACT和CAGGTT共有50％的同一性(总共6个位置中有3个位置匹配)。通常，在将两个序列比对以产生最大同一性时进行比较。这样的比对可通过使用，例如，可通过计算机程序例如Align程序(DNAstar,Inc.)方便地进行的Needleman等人(1970)J.Mol.Biol.48：443-453的方法来实现。还可使用已整合入ALIGN程序(版本2.0)的E.Meyers和W.Miller(Comput.Appl Biosci.，4:11-17(1988))的算法，使用PAM120权重残基表(weight residue table)、12的缺口长度罚分和4的缺口罚分来测定两个氨基酸序列之间的百分数同一性。此外，可使用已整合入GCG软件包(可在www.gcg.com上获得)的GAP程序中的Needleman和Wunsch(J MoI Biol.48:444-453(1970))算法，使用Blossum 62矩阵或PAM250矩阵以及16、14、12、10、8、6或4的缺口权重(gap weight)和1、2、3、4、5或6的长度权重来测定两个氨基酸序列之间的百分数同一性。

如本文中所使用的，术语“载体”是指，可将多聚核苷酸插入其中的一种核酸运载工具。当载体能使插入的多核苷酸编码的蛋白获得表达时，载体称为表达载体。载体可以通过转化，转导或者转染导入宿主细胞，使其携带的遗传物质元件在宿主细胞中获得表达。载体是本领域技术人员公知的，包括但不限于：质粒；噬菌粒；柯斯质粒；人工染色体，例如酵母人工染色体(YAC)、细菌人工染色体(BAC)或P1来源的人工染色体(PAC)；噬菌体如λ噬菌体或M13噬菌体及动物病毒等。可用作载体的动物病毒包括但不限于，逆转录酶病毒(包括慢病毒)、腺病毒、腺相关病毒、疱疹病毒(如单纯疱疹病毒)、痘病毒、杆状病毒、乳头瘤病毒、乳头多瘤空泡病毒(如SV40)。一种载体可以含有多种控制表达的元件，包括但不限于，启动子序列、转录起始序列、增强子序列、选择元件及报告基因。另外，载体还可含有复制起始位点。

如本文中所使用的，术语“宿主细胞”是指，可用于导入载体的细胞，其包括但不限于，如大肠杆菌或枯草菌等的原核细胞，如酵母细胞或曲霉菌等的真菌细胞，如S2果蝇细胞或Sf9等的昆虫细胞，或者如纤维原细胞，CHO细胞，COS细胞，NSO细胞，HeLa细胞，BHK细胞，HEK 293细胞或人细胞等的动物细胞。

本领域技术人员将理解，表达载体的设计可取决于诸如待转化的宿主细胞的选择、所希望的表达水平等因素。一种载体可以被引入到宿主细胞中而由此产生转录物、蛋白质、或肽，包括由如本文所述的蛋白、融合蛋白、分离的核酸分子等(例如，CRISPR转录物，如核酸转录物、蛋白质、或酶)。

如本文中所使用的，术语“调节元件”旨在包括启动子、增强子、内部核糖体进入位点(IRES)、和其他表达控制元件(例如转录终止信号，如多聚腺苷酸化信号和多聚U序列)，其详细描述可参考戈德尔(Goeddel)，《基因表达技术：酶学方法》(GENE EXPRESSION TECHNOLOGY:METHODS IN ENZYMOLOGY)185，学术出版社(Academic Press)，圣地亚哥(San Diego)，加利福尼亚州(1990)。在某些情况下，调节元件包括指导一个核苷酸序列在许多类型的宿主细胞中的组成型表达的那些序列以及指导该核苷酸序列只在某些宿主细胞中表达的那些序列(例如，组织特异型调节序列)。组织特异型启动子可主要指导在感兴趣的期望组织中的表达，所述组织例如肌肉、神经元、骨、皮肤、血液、特定的器官(例如肝脏、胰腺)、或特殊的细胞类型(例如淋巴细胞)。在某些情况下，调节元件还可以时序依赖性方式(如以细胞周期依赖性或发育阶段依赖性方式)指导表达，该方式可以是或者可以不是组织或细胞类型特异性的。在某些情况下，术语“调节元件”涵盖的是增强子元件，如WPRE；CMV增强子；在HTLV-I的LTR中的R-U5’片段((Mol.Cell.Biol.，第8(1)卷，第466-472页，1988)；SV40增强子；以及在兔β-珠蛋白的外显子2与3之间的内含子序列(Proc.Natl.Acad.Sci.USA.，第78(3)卷，第1527-31页，1981)。

如本文中所使用的，术语“启动子”具有本领域技术人员公知的含义，其是指一段位于基因的上游能启动下游基因表达的非编码核苷酸序列。组成型(constitutive)启动子是这样的核苷酸序列：当其与编码或者限定基因产物的多核苷酸可操作地相连时，在细胞的大多数或者所有生理条件下，其导致细胞中基因产物的产生。诱导型启动子是这样的核苷酸序列，当可操作地与编码或者限定基因产物的多核苷酸相连时，基本上只有当对应于所述启动子的诱导物在细胞中存在时，其导致所述基因产物在细胞内产生。组织特异性启动子是这样的核苷酸序列：当可操作地与编码或者限定基因产物的多核苷酸相连时，基本上只有当细胞是该启动子对应的组织类型的细胞时，其才导致在细胞中产生基因产物。

如本文中所使用的，术语“可操作地连接”旨在表示感兴趣的核苷酸序列以一种允许该核苷酸序列的表达的方式被连接至该一种或多种调节元件(例如，处于一种体外转录/翻译系统中或当该载体被引入到宿主细胞中时，处于该宿主细胞中)。

如本文中所使用的，术语“互补性”是指核酸与另一个核酸序列借助于传统的沃森-克里克或其他非传统类型形成一个或多个氢键的能力。互补百分比表示一个核酸分子中可与一个第二核酸序列形成氢键(例如，沃森-克里克碱基配对)的残基的百分比(例如，10个之中有5、6、7、8、9、10个即为50％、60％、70％、80％、90％、和100％互补)。“完全互补”表示一个核酸序列的所有连续残基与一个第二核酸序列中的相同数目的连续残基形成氢键。如本文使用的“基本上互补”是指在一个具有8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50个或更多个核苷酸的区域上至少为60％、65％、70％、75％、80％、85％、90％、95％、97％、98％、99％、或100％的互补程度，或者是指在严格条件下杂交的两个核酸。

如本文中所使用的，对于杂交的“严格条件”是指与靶序列具有互补性的一个核酸主要地与该靶序列杂交并且基本上不杂交到非靶序列上的条件。严格条件通常是序列依赖性的，并且取决于许多因素而变化。一般而言，该序列越长，则该序列特异性地杂交到其靶序列上的温度就越高。严格条件的非限制性实例描述于蒂森(Tijssen)(1993)的《生物化学和分子生物学中的实验室技术-核酸探针杂交》(Laboratory Techniques In BiochemistryAnd Molecular Biology-Hybridization With Nucleic Acid Probes)，第I部分，第二章，“杂交原理概述和核酸探针分析策略”(“Overview of principles of hybridization andthe strategy of nucleic acid probe assay”)，爱思唯尔(Elsevier)，纽约。

如本文中所使用的，术语“杂交”是指其中一个或多个多核苷酸反应形成一种复合物的反应，该复合物经由这些核苷酸残基之间的碱基的氢键键合而稳定化。氢键键合可以借助于沃森-克里克碱基配对、Hoogstein结合或以任何其他序列特异性方式而发生。该复合物可包含形成一个双链体的两条链、形成多链复合物的三条或多条链、单个自我杂交链、或这些的任何组合。杂交反应可以构成一个更广泛的过程(如PCR的开始、或经由一种酶的多核苷酸的切割)中的一个步骤。能够与一个给定序列杂交的序列被称为该给定序列的“互补物”。

如本文中所使用的，术语“表达”是指，藉此从DNA模板转录成多核苷酸(如转录成mRNA或其他RNA转录物)的过程和/或转录的mRNA随后藉此翻译成肽、多肽或蛋白质的过程。转录物和编码的多肽可以总称为“基因产物”。如果多核苷酸来源于基因组DNA，表达可以包括真核细胞中mRNA的剪接。

如本文中所使用的，术语“接头”是指，由多个氨基酸残基通过肽键连接形成的线性多肽。本发明的接头可以为人工合成的氨基酸序列，或天然存在的多肽序列，例如具有铰链区功能的多肽。此类接头多肽是本领域众所周知的(参见例如，Holliger,P.等人(1993)Proc.Natl.Acad.Sci.USA 90:6444-6448；Poljak,R.J.等人(1994)Structure 2:1121-1123)。

如本文中所使用的，术语“治疗”是指，治疗或治愈病症，延缓病症的症状的发作，和/或延缓病症的发展。

如本文中所使用的，术语“受试者”包括但不限于各种动物，例如哺乳动物，例如牛科动物、马科动物、羊科动物、猪科动物、犬科动物、猫科动物、兔科动物、啮齿类动物(例如，小鼠或大鼠)、非人灵长类动物(例如，猕猴或食蟹猴)或人。在某些实施方式中，所述受试者(例如人)患有病症(例如，疾病相关基因缺陷所导致的病症)。

发明的有益效果

与现有技术相比，本发明的Cas蛋白及系统具有显著的有利方面。例如，本发明的Cas效应蛋白的PAM结构域为严格的5’-TTN结构，而且靶标序列前面的第二位和第三位碱基近100％为T，而其他位置可以为任意的序列，比目前已经报道的最严谨PAM识别的C2c1拥有更加严谨的PAM识别方式，从而显著降低脱靶效应。例如，本发明的Cas效应蛋白能在真核生物体内进行DNA切割，在分子大小上比Cpf1和Cas9蛋白小约200-300个氨基酸，因此转染效率上明显优于Cpf1和Cas9。

下面将结合附图和实施例对本发明的实施方案进行详细描述，但是本领域技术人员将理解，下列附图和实施例仅用于说明本发明，而不是对本发明的范围的限定。根据附图和优选实施方案的下列详细描述，本发明的各种目的和有利方面对于本领域技术人员来说将变得显然。

附图说明

图1为实施例2中Cas12f.4，Cas12f.5和Cas12f.6的crRNA结构分析结果，显示了Repeat序列的二级结构。

图2为实施例3中PAM结构域分析结果。

图3a-图3c为实施例4中Cas12f.4在人类细胞系中的切割活性检测结果。

图4a-图4c为实施例5中Cas12f.4在玉米原生质体细胞中的切割活性检测结果。

序列信息

本发明涉及的部分序列的信息提供于下面的表1中。

表1：序列的描述

SEQ ID NO:	描述
1	Cas12f.4的氨基酸序列
2	Cas12f.5的氨基酸序列
3	Cas12f.6的氨基酸序列
4	Cas12f.4的编码核酸序列
5	Cas12f.5的编码核酸序列
6	Cas12f.6的编码核酸序列
7	Cas12f.4/原型同向重复序列
8	Cas12f.5/原型同向重复序列
9	Cas12f.6/原型同向重复序列
10	Cas12f.4/原型同向重复序列的编码核酸序列
11	Cas12f.5/原型同向重复序列的编码核酸序列
12	Cas12f.6/原型同向重复序列的编码核酸序列
13	Cas12f.4/成熟同向重复序列
14	Cas12f.5/成熟同向重复序列
15	Cas12f.6/成熟同向重复序列
16	Cas12f.4/成熟同向重复序列的编码核酸序列
17	Cas12f.5/成熟同向重复序列的编码核酸序列
18	Cas12f.6/成熟同向重复序列的编码核酸序列
19	NLS序列
20	Cas12f.4-NLS融合蛋白的氨基酸序列
21	Cas12f.5-NLS融合蛋白的氨基酸序列
22	Cas12f.6-NLS融合蛋白的氨基酸序列
23	表达Cas12f.4系统的质粒
24	PAM文库序列
25	Cas12f.4系统的导向RNA-VEGFA
26	Cas12f.5系统的导向RNA-VEGFA
27	Cas12f.6系统的导向RNA-VEGFA
28	Cas12f.4系统的导向RNA-PDI1
29	Cas12f.4系统的导向RNA-SBE2.2

具体实施方式

现参照下列意在举例说明本发明(而非限定本发明)的实施例来描述本发明。

除非特别指明，否则基本上按照本领域内熟知的以及在各种参考文献中描述的常规方法进行实施例中描述的实验和方法。例如，本发明中所使用的免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学和重组DNA等常规技术，可参见参见萨姆布鲁克(Sambrook)、弗里奇(Fritsch)和马尼亚蒂斯(Maniatis)，《分子克隆：实验室手册》(MOLECULAR CLONING:A LABORATORY MANUAL)，第2次编辑(1989)；《当代分子生物学实验手册》(CURRENT PROTOCOLS IN MOLECULAR BIOLOGY)(F.M.奥苏贝尔(F.M.Ausubel)等人编辑，(1987))；《酶学方法》(METHODS IN ENZYMOLOGY)系列(学术出版公司)：《PCR 2：实用方法》(PCR 2:A PRACTICAL APPROACH)(M.J.麦克弗森(M.J.MacPherson)、B.D.黑姆斯(B.D.Hames)和G.R.泰勒(G.R.Taylor)编辑(1995))、哈洛(Harlow)和拉内(Lane)编辑(1988)《抗体：实验室手册》(ANTIBODIES,A LABORATORY MANUAL)，以及《动物细胞培养》(ANIMAL CELL CULTURE)(R.I.弗雷谢尼(R.I.Freshney)编辑(1987))。

另外，实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品。本领域技术人员知晓，实施例以举例方式描述本发明，且不意欲限制本发明所要求保护的范围。本文中提及的全部公开案和其他参考资料以其全文通过引用合并入本文。

以下实施例涉及的部分试剂的来源如下：

LB液体培养基：10g胰蛋白胨(Tryptone)，5g酵母提取物(Yeast Extract)，10g NaCl，定容至1L，灭菌。若需加抗生素，则待培养基冷却后加，50μg/ml的终浓度。

氯仿/异戊醇：240ml的氯仿加10ml的异戊醇，混匀。

RNP缓冲液：100mM氯化钠,50mM Tris-HCl,10mM MgCl ₂,100μg/ml BSA,pH 7.9。

原核表达载体pACYC-Duet-1和pUC19购自北京全式金生物技术有限公司。

大肠杆菌感受态EC100购自Epicentre公司。

实施例1.Cas12f基因和Cas12f导向RNA的获得

1、CRISPR和基因的注释：使用Prodigal对将NCBI和JGI数据库的微生物基因组和宏基因组数据进行基因注释得到所有蛋白，同时用Piler-CR进行CRISPR座的注释，参数均为默认参数。

2、蛋白质的过滤：通过序列一致性对注释蛋白去冗余，去除序列完全一致的蛋白，同时将长度大于800个氨基酸的蛋白划分为大分子蛋白。由于目前发现的所有第二类CRISPR/Cas系统的效应蛋白长度多大于900个氨基酸，所以为了降低计算复杂度，我们在挖掘CRISPR效应蛋白的时候只对大分子蛋白进行考虑。

3、CRISPR相关大分子蛋白的获得：将每一个CRISPR座上下游延伸10Kb，将对CRISPR邻近区间内的非冗余大分子蛋白进行鉴定。

4、CRISPR相关大分子蛋白质的聚类：使用BLASTP对非冗余大分子CRISPR相关蛋白进行内部的两两比对，输出Evalue<1E-10的比对结果。使用MCL对BLASTP的输出结果进行聚类分析，CRISPR相关蛋白质家族。

5、CRISPR富集大分子蛋白质家族的鉴定：使用BLASTP对CRISPR相关蛋白质家族的蛋白比对到去除去CRISPR相关蛋白的非冗余大分子蛋白数据库，输出Evalue<1E-10的比对结果。如果一个非CRISPR相关蛋白数据库发现的同源蛋白小于100％，那么则说明这个家族的蛋白在CRISPR区域是富集的，通过这种方法我们对CRISPR富集大分子蛋白质家族进行鉴定。

6、蛋白功能和结构域的注释：利用Pfam数据库，NR数据库以及从NCBI收集的Cas蛋白对CRISPR富集大分子蛋白质家族进行注释，得到新的CRISPR/Cas蛋白质家族。利用Mafft对每个CRISPR/Cas家族蛋白进行多重序列比对，然后用JPred和HHpred进行保守结构域分析，鉴定含有RuvC结构域的蛋白质家族。

在此基础上，本发明人获得了一种全新的Cas效应蛋白，即Cas12f，以其三种活性同源物序列，分别命名为Cas12f.4(SEQ ID NO:1)、Cas12f.5(SEQ ID NO:2)、Cas12f.6(SEQ ID NO:3)，三种同源物的编码DNA分别如SEQ ID NOs:4、5、6所示。Cas12f.4、Cas12f.5、Cas12f.6所对应的原型同向重复序列(pre-crRNA中所含有的repeat序列)分别如SEQ ID NOs:7、8、9所示。Cas12f.4、Cas12f.5、Cas12f.6所对应的成熟同向重复序列(成熟crRNA中所含有的repeat序列)分别如SEQ ID NOs:13、14、15所示。

实施例2.Cas12f基因对成熟crRNA的加工

1、人工合成SEQ ID NO:4所示的双链DNA分子，同时人工合成SEQ ID NO:10 所示双链DNA分子。

2、将步骤1合成的双链DNA分子与原核表达载体pACYC-Duet-1连接，得到重组质粒pACYC-Duet-1+CRISPR/Cas12f。

对重组质粒pACYC-Duet-1+CRISPR/Cas12f进行测序。测序结果表明，重组质粒pACYC-Duet-1+CRISPR/Cas12f中含有SEQ ID NO:4和SEQ ID NO:10所示的序列，并且表达SEQ ID NO:1所示的Cas12f.4蛋白和SEQ ID NO:7所示的Cas12f.4原型同向重复序列。将重组质粒pACYC-Duet-1+CRISPR/Cas12f导入大肠杆菌EC100，得到重组菌，将该重组菌命名为EC100-CRISPR/Cas12f。

3、取EC100-CRISPR/Cas12f的单克隆，接种至100mL LB液体培养基(含50μg/mL氨苄霉素)，37℃、200rpm振荡培养12h，得到培养菌液。

4、提取细菌RNA：转移1.5mL细菌培养物到预冷微量离心管中，在4℃，6000×g，离心5分钟。离心后，弃上清液，将细胞沉淀重新悬浮于预热至95℃的200μL Max Bacterial Enhancement Reagent中，吹吸混匀混合。95℃孵育4分钟。向溶解产物中加入1mL

Reagent并吹吸混匀，室温下孵育5分钟。加入0.2mL冷氯仿，用手摇动管混合15秒，室温下孵育2-3分钟。4℃，12,000×g离心15分钟。取600μL上清于新管中，加入0.5mL冷异丙醇沉淀RNA，颠倒混匀，室温下孵育10分钟。4℃下以15,000×g离心10分钟，弃上清，加入1mL 75％乙醇，涡旋混匀。4℃，7500×g离心5分钟，弃上清，空气风干。将RNA沉淀溶解到50μL RNase-free water中，在60℃下孵育10分钟。

5、DNA的消化：20ugRNA溶解到39.5μL dH ₂O，65℃，5min。冰上5min，加入0.5μL RNAI，5μL buffer,5μL DNaseI,37℃45min(50μL体系)。加50μL dH ₂O，调整体积到100μL。2mL Phase-Lock tube 16000g离心30s后，加100μL酚：氯仿：异戊醇(25:24:1)、100μL消化的RNA，摇15s，15℃，16000g离心12min。取上清于一个新的1.5mL离心管中，加入与上清等体积的异丙醇1/10NaoAC，反应1h或-20℃过夜。4℃,16000g离心30min，弃上清。加350μL 75％乙醇洗涤沉淀，4℃,16000g离心10min，弃上清。晾干，加入20μL RNase-free water，65℃，5min溶解沉淀。NanoDrop测浓度，跑胶。

6、3’脱磷酸化及5’磷酸化：将消化的RNA～20ug，各加水至42.5μL，90℃2min。冰上冷却5min。加5μL 10×T4PNK buffer；0.5μL RNaI，2μL T4PNK(50μL)，37℃6h。加1μL T4PNK，1.25μL(100mM)ATP，37℃1h。加47.75μL dH ₂O，调整体积到100μL。2mL Phase-Lock tube 16000g离心30s后，加100μL酚：氯仿：异戊醇(25:24:1)、100μL消化的RNA，摇15s，15℃，16000g离心12min。取上清于一个新的1.5mL离心管中，加与上清等体积的异丙醇，总体积1/10NaoAC，反应1h或-20℃过夜。4℃,16000g离心30min，弃上清。加350μL 75％乙醇洗涤沉淀，4℃,16000g离心10min，弃上清。晾干，加入21μL RNase-free water，65℃，5min溶解沉淀，NanoDrop测浓度。

7、RNA单磷酸化：20μL RNA，90℃1min，冰上冷却5min。加入2μL RNA 5’Polphosphatase 10×Reaction buffer，0.5μL Inhibitor，1μL RNA 5’Polphosphatase(20Units)，加RNase-free water至20μL，37℃60min。加80μL dH ₂O，调整体积到100μL。2mL Phase-Lock tube16000g离心30s后，加100μL酚：氯仿：异戊醇(25:24:1)、100μL消化的RNA，摇15s，15℃，16000g离心12min。取上清于一个新的1.5mL离心管中，加与上清等体积的异丙醇，总体积1/10NaoAC，反应1h或-20℃过夜。4℃,16000g离心30min，弃上清，加350μL 75％乙醇洗涤沉淀，4℃,16000g离心10min，弃上清。晾干，加入21μL RNase-free water，65℃，5min溶解沉淀，NanoDrop测浓度。

8、cDNA文库的准备：16.5μL RNase-free water。5μL Poly(A)Polymerase10×Reaction buffer。5μL 10mM ATP。1.5μL RiboGuard RNase Inhibitor。20μL RNA Substrate。2μL Poly(A)Polymerase(4Units)。50μL总体积。37℃20min。加50μL dH ₂O，调整体积到100μL。2mL Phase-Lock tube16000g离心30s后，加100μL酚：氯仿：异戊醇(25:24:1)、100μL消化的RNA，摇15s，15℃，16000g离心12min。取上清于一个新的1.5mL离心管中，加与上清等体积的异丙醇，总体积1/10NaoAC，反应1h或-20℃过夜。4℃,16000g离心30min，弃上清，晾干，加入11μL RNase-free water，65℃，5min溶解沉淀，NanoDrop测浓度。

9、将cDNA文库加上测序接头后送至北京贝瑞合康进行测序。

10、对原始数据进行质量过滤，去除碱基平均质量值低于30的序列。对序列去除接头后，保留25nt到50nt的RNA序列，用bowtie将其比对到CRISPR阵列的参考序列上。

11、通过比对我们发现Cas12f.4的pre-crRNA在大肠杆菌体内能成功的被加工成45nt的成熟crRNA，其中由23nt的Repeat序列和19-22nt的导向序列构成。

12、用ViennaRNA和VARNA对成熟的crRNA进行结构预测和可视化分析我们发现，crRNA的Repeat序列的3’端可以形成一个8个碱基大小的颈环(图1)。

13、我们对Cas12f.5和Cas12f.6的crRNA 3’端23nt的序列进行预测后发现了相似的二级结构(图1)。

实施例3.Cas12f基因的PAM结构域鉴定

1.构建重组质粒pACYC-Duet-1+CRISPR/Cas12f并测序。根据测序结果，对重组质粒pACYC-Duet-1+CRISPR/Cas12f进行结构描述如下：将载体pACYC-Duet-1的限制性内切酶Pml I和Kpn I识别序列间的小片段替换为SEQ ID NO:4所示的序列中自5’末端起第1至3713位所示的双链DNA分子。重组质粒pACYC-Duet-1+CRISPR/Cas12f表达SEQ ID NO:1所示的Cas12f.4蛋白和SEQ ID NO:25所示的Cas12f导向RNA。

2.重组质粒pACYC-Duet-1+CRISPR/Cas12f中含有表达盒，该表达盒的核苷酸序列如SEQ ID NO:23所示。SEQ ID NO:23所示的序列中，自5’末端起第1至44位为pLacZ启动子的核苷酸序列，第45至3326位为Cas12f.4基因的核苷酸序列，第3327至3412位为终止子的核苷酸序列(用于终止转录)。自5’末端起第3413至3452位为J23119启动子的核苷酸序列，第3453至3,628位为CRISPR阵列的核苷酸序列，第3627至3713位为rrnB-T1终止子的核苷酸序列(用于终止转录)。

3.重组大肠杆菌的获得：将重组质粒pACYC-Duet-1+CRISPR/Cas12f导入大肠杆菌EC100中，得到重组大肠杆菌，命名为EC100/pACYC-Duet-1+CRISPR/Cas12f。将重组质粒pACYC-Duet-1导入大肠杆菌EC100中，得到重组大肠杆菌，命名为EC100/pACYC-Duet-1。

4.PAM文库的构建：人工合成SEQ ID NO:24所示的序列，并连接到pUC19载体，其中SEQ ID NO:24所示的序列包括5’端八个随机碱基和靶序列。对PAM文库的靶标序列5’端前面设计了8个随机碱基构建质粒文库。将质粒分别转入到含有Cas12f.4基因座的大肠杆菌中和不含有Cas.12f.4基因座的大肠杆菌中。在37℃下处理1小时后，我们对质粒进行提取，并对PAM区域序列进行PCR扩增和测序。

5.PAM文库结构域的获得：分别统计实验组和对照组中65,536种组合的PAM序列出现次数，并用各自组所有的PAM序列数目进行标准化。对于任意一条PAM序列，当log2(对照组标准化值/实验组标准化值)大于3.5时，我们认为这条PAM被显著消耗，我们总共得到了3,548条显著被消耗的PAM序列，所有占比例5.41％。我们用Weblogo对显著消耗的PAM序列进行预测，发现Cas12f.4的PAM结构域为严格的5’-TTN结构 (图2)，而且靶标序列前面的第二位和第三位碱基几乎100％都是T，而其他位置可以为任意的序列，这是比已经报道的最严谨PAM识别的C2c1拥有更加严谨的PAM识别方式。

6.PAM文库结构域的验证：通过PAM文库消耗实验，我们获得了Cas12f.4的PAM结构域，为了验证这一结构域的严谨性，我们设置了10组PAM进行了体内实验，测序Cas12f对这些PAM的编辑活性。首先，我们将30nt的靶标和PAM序列整合到质粒的耐卡那基因的非保守位置上，然后用CRSPR/Cas12f和导向RNA形成的复合物与之进行混合培养8小时。通过涂板并统计菌落数目，我们便能判断Cas12f对不同PAM序列的消耗活性。通过实验结果，我们可以看到CRISPR/Cas12f.4系统只能对带有5’-TTA、5’-TTT、5’-TTC和5’-TTG PAM的靶标序列进行有效地编辑，而对带有5’-TAT、5’-TCT、5’-TCG、5’-ATT、5’-CTT和5’-GTT PAM的靶标序列则没有编辑活性，从而验证了Cas12f.4的PAM结构域识别的验证性。通过对不同PAM的菌落进行统计，我们发现CRISPR/Cas12f.4系统对5’-TTA、5’-TTT和5’-TTC的编辑活性高于5’-TTG。

实施例4.Cas12f.4，Cas12f.5，Cas12f.6在人类细胞系中的切割

将含有Cas12f.4基因的真核表达载体和含有U6启动子与crRNA(SEQ ID NO:25)序列的PCR产物通过脂质体转染的方法转入到人类HEK293T细胞中(图3a)，在37摄氏度5％二氧化碳浓度下培养72h。提取全部细胞的DNA，并对包含靶位点700bp的序列进行扩增，将PCR产物通过Tn5进行二代测序文库构建，测序由北京安诺优达基因科技有限公司完成，将测序结果比对到人类基因组的VEGFA基因上，鉴定到Cas12f.4对目标靶位点的切割方式(图3b),CRISPR/Cas12f.4系统对VEGFA的编辑效率能达到4.2％，原始测序数据如图3c所示(图3c)。

使用相同方法检测Cas12f.5、Cas12f.6对VEGFA的切割活性，其crRNA分别如SEQ ID NO:26、SEQ ID NO:27所示。图3c的结果显示，CRISPR/Cas12f.5、CRISPR/Cas12f.6系统对VEGFA的编辑效率分别为0.31％和0.19％。

实施例5.Cas12f.4在玉米原生质体中的切割

将纯化的Cas12f.4蛋白(60μg)和SEQ ID NO:28或29所示导向RNA(120μg)在37摄氏度下混合成核糖核蛋白复合体(RNP)，再利用PEG4000介导的原生质体转化将CRISPR/Cas12f.4RNP转入玉米原生质体细胞中，在37摄氏度下暗培养24小时(图 4a)。培养结束后，离心去上清收集原生质体，提取原生质体DNA，扩增靶位点上下游约600bp的DNA片段。将包含靶位点的DNA片段进行T7核酸内切酶酶切检测，结果如图4b所示，CRISPR/Cas12f.4系统对PDI1、SEB2.2具有高效的切割活性。将含有靶位点的DNA片段连接Blunt Simple载体，涂板，通过赛默飞世尔科技(中国)有限公司对单克隆进行Sanger测序，将测序结果比对到玉米组的PDI1、SEB2.2基因上，结果如图4b-4c所示，鉴定得到Cas12f.4对目标靶位点的切割效率分别为33.5％和16.7％。

尽管本发明的具体实施方式已经得到详细的描述，但本领域技术人员将理解：根据已经公布的所有教导，可以对细节进行各种修改和变动，并且这些改变均在本发明的保护范围之内。本发明的全部分为由所附权利要求及其任何等同物给出。

Claims

一种蛋白，其具有SEQ ID NO：1所示的氨基酸序列，或具有与SEQ ID NO:1相比具有至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、或至少99％的序列同一性的氨基酸序列；

例如，所述蛋白是CRISPR/Cas系统中的效应蛋白。
一种缀合物，其包含权利要求1所述的蛋白以及修饰部分。
权利要求2所述的缀合物，其中，所述修饰部分选自另外的蛋白或多肽、可检测的标记，及其任意组合。
权利要求2或3所述的缀合物，其中，所述修饰部分任选地通过接头连接至所述蛋白的N端或C端。
权利要求2-4任一项所述的缀合物，其中，所述另外的蛋白或多肽选自表位标签、报告基因序列、核定位信号(NLS)序列、靶向部分、转录激活结构域(例如，VP64)、转录抑制结构域(例如，KRAB结构域或SID结构域)、核酸酶结构域(例如，Fok1)，具有选自下列的活性的结构域：核苷酸脱氨酶、甲基化酶活性,去甲基化酶,转录激活活性,转录抑制活性,转录释放因子活性,组蛋白修饰活性,核酸酶活性,单链RNA切割活性,双链RNA切割活性,单链DNA切割活性,双链DNA切割活性和核酸结合活性；以及其任意组合。
权利要求2-5任一项所述的缀合物，其中，所述缀合物包含表位标签。
权利要求2-6任一项所述的缀合物，其中，所述缀合物包含NLS序列；

例如，所述NLS序列如SEQ ID NO:19所示；

例如，所述NLS序列位于、靠近或接近所述蛋白的末端(例如，N端或C端)。
一种融合蛋白，其包含权利要求1所述的蛋白以及另外的蛋白或多肽。
权利要求8所述的融合蛋白，其中，所述另外的蛋白或多肽任选地通过接头连接至所述蛋白的N端或C端。
权利要求8或9所述的融合蛋白，其中，所述另外的蛋白或多肽选自表位标签、报告基因序列、核定位信号(NLS)序列、靶向部分、转录激活结构域(例如，VP64)、转录抑制结构域(例如，KRAB结构域或SID结构域)、核酸酶结构域(例如，Fok1)，具有选自下列的活性的结构域：核苷酸脱氨酶、甲基化酶活性,去甲基化酶,转录激活活性,转录抑制活性,转录释放因子活性,组蛋白修饰活性,核酸酶活性,单链RNA切割活性,双链RNA切割活性,单链DNA切割活性,双链DNA切割活性和核酸结合活性；以及其任意组合。
权利要求8-10任一项所述的融合蛋白，其中，所述融合蛋白包含表位标签。
权利要求8-11任一项所述的融合蛋白，其中，所述融合蛋白包含NLS序列；

例如，所述NLS序列如SEQ ID NO:19所示；

例如，所述NLS序列位于、靠近或接近所述蛋白的末端(例如，N端或C端)。
权利要求8-12任一项所述的融合蛋白，其中，所述融合蛋白具有SEQ ID NO:20所示的氨基酸序列。
一种分离的核酸分子，其包含选自下列的序列，或由选自下列的序列组成：

(i)SEQ ID NO：7或13所示的序列；

(ii)与SEQ ID NO：7或13所示的序列相比具有一个或多个碱基的置换、缺失或添加(例如1个，2个，3个，4个，5个，6个，7个，8个，9个或10个碱基的置换、缺失或添加)的序列；

(iii)与SEQ ID NO：7或13所示的序列具有至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％、至少95％的序列同一性的序列；

(iv)在严格条件下与(i)-(iii)任一项中所述的序列杂交的序列；或

(v)(i)-(iii)任一项中所述的序列的互补序列；

并且，(ii)-(v)中任一项所述的序列基本保留了其所源自的序列的生物学功能；

例如，所述分离的核酸分子是RNA；

例如，所述分离的核酸分子是CRISPR/Cas系统中的同向重复序列。
权利要求14所述的分离的核酸分子，其中，所述核酸分子包含一个或多个茎环或优化的二级结构；

例如，(ii)-(v)中任一项所述的序列保留了其所源自的序列的二级结构。
权利要求14或15所述的分离的核酸分子，其中，所述核酸分子包含选自下列的序列，或由选自下列的序列组成：

(a)SEQ ID NO：7或13所示的核苷酸序列；

(b)在严格条件下与(a)中所述的序列杂交的序列；或

(c)SEQ ID NO：7或13所示的核苷酸序列的互补序列。
一种复合物，其包含：

(i)蛋白组分，其选自：权利要求1所述的蛋白、权利要求2-7任一项所述的缀合物、权利要求8-13任一项所述的融合蛋白，及其任意组合；和

(ii)核酸组分，其从5’至3’方向包含权利要求14-16任一项所述的分离的核酸分子和能够与靶序列杂交的导向序列，

其中，所述蛋白组分与核酸组分相互结合形成复合物；

例如，所述核酸组分是CRISPR/Cas系统中的导向RNA；

例如，所述核酸分子是RNA；

例如，所述复合物不包含反式作用crRNA(tracrRNA)。
权利要求17所述的复合物，其中，所述导向序列连接于所述核酸分子的3’端。
权利要求17或18所述的复合物，其中，所述导向序列包含所述靶序列的互补序列。
一种分离的核酸分子，其包含：

(i)编码权利要求1所述的蛋白，或权利要求8-13任一项所述的融合蛋白的核苷酸序列；

(ii)编码权利要求14-16任一项所述的分离的核酸分子的核苷酸序列；和/或，

(iii)包含(i)和(ii)的核苷酸序列；

例如，(i)-(iii)任一项中所述的核苷酸序列经密码子优化用于在原核细胞或真核细胞中进行表达。
一种载体，其包含权利要求20所述的分离的核酸分子。
一种宿主细胞，其包含权利要求20所述的分离的核酸分子或权利要求21所述的载体。
一种组合物，其包含：

(i)第一组分，其选自：权利要求1所述的蛋白、权利要求2-7任一项所述的缀合物、权利要求8-13任一项所述的融合蛋白、编码所述蛋白或融合蛋白的核苷酸序列，以及其任意组合；和

(ii)第二组分，其为包含导向RNA的核苷酸序列，或者编码所述包含导向RNA的核苷酸序列的核苷酸序列；

其中，所述导向RNA从5’至3’方向包含同向重复序列和导向序列，所述导向序列能够与靶序列杂交；

所述导向RNA能够与(i)中所述的蛋白、缀合物或融合蛋白形成复合物；

所述同向重复序列是权利要求14-16任一项中所定义的分离的核酸分子；

例如，所述组合物不包含反式作用crRNA(tracrRNA)。
一种组合物，其包含一种或多种载体，所述一种或多种载体包含：

(i)第一核酸，其为编码权利要求1所述的蛋白或权利要求8-13任一项所述的融合蛋白的核苷酸序列；任选地所述第一核酸可操作地连接至第一调节元件；以及

(ii)第二核酸，其编码包含导向RNA的核苷酸序列；任选地所述第二核酸可操作地连接至第二调节元件；

其中：

所述第一核酸与第二核酸存在于相同或不同的载体上；

所述导向RNA从5’至3’方向包含同向重复序列和导向序列，所述导向序列能够与靶序列杂交；

所述导向RNA能够与(i)中所述的效应蛋白或融合蛋白形成复合物；

所述同向重复序列是权利要求14-16任一项中所定义的分离的核酸分子；

例如，所述组合物不包含反式作用crRNA(tracrRNA)。
权利要求24所述的组合物，其中，所述第一调节元件和/或第二调节元件是启动子，例如诱导型启动子。
权利要求23-25任一项所述的组合物，其中，所述组合物中的至少一个组分是非天然存在的或经修饰的。
权利要求23-26任一项所述的组合物，其中，所述导向序列连接至所述同向重复序列的3’端。
权利要求23-27任一项所述的组合物，其中，所述导向序列包含所述靶序列的互补序列。
权利要求23-28任一项所述的组合物，其中，当所述靶序列为DNA时，所述靶序列位于原间隔序列临近基序(PAM)的3’端，并且所述PAM具有5’-TTN所示的序列，其中，N选自A、G、T、C；当所述靶序列为RNA时，所述靶序列不具有PAM结构域限制。
权利要求23-29任一项所述的组合物，其中，所述靶序列是来自原核细胞或真核细胞的DNA或RNA序列；或者，所述靶序列是非天然存在的DNA或RNA序列。
权利要求23-30任一项所述的组合物，其中，所述靶序列存在于细胞内；

例如，所述靶序列存在于细胞核内或细胞质(例如，细胞器)内；

例如，所述细胞是真核细胞；

例如，所述细胞是原核细胞。
权利要求23-31任一项所述的组合物，其中，所述蛋白连接有一个或多个NLS序列，或者，所述缀合物或融合蛋白包含一个或多个NLS序列；

例如，所述NLS序列连接至所述蛋白的N端或C端；

例如，所述NLS序列融合至所述蛋白的N端或C端。
一种试剂盒，其包括一种或多种选自下列的组分：权利要求1所述的蛋白、权利要求2-7任一项所述的缀合物、权利要求8-13任一项所述的融合蛋白、权利要求14-16任一项所述的分离的核酸分子、权利要求17-19任一项所述的复合物、权利要求20所述的分离的核酸分子、权利要求21所述的载体、权利要求23-32任一项所述的组合物；

例如，所述试剂盒包含权利要求23、26-32任一项所述的组合物，以及使用所述组合物的说明书；

例如，所述试剂盒包含权利要求24、25-32任一项所述的组合物，以及使用所述组合物的说明书。
一种递送组合物，其包含递送载体，以及选自下列的一种或多种：权利要求1所述的蛋白、权利要求2-7任一项所述的缀合物、权利要求8-13任一项所述的融合蛋白、权利要求14-16任一项所述的分离的核酸分子、权利要求17-19任一项所述的复合物、权利要求20所述的分离的核酸分子、权利要求21所述的载体、权利要求23-32任一项所述的组合物；

例如，所述递送载体是粒子；

例如，所述递送载体选自脂质颗粒、糖颗粒、金属颗粒、蛋白颗粒、脂质体、外泌体、微泡、基因枪或病毒载体(例如，复制缺陷型逆转录病毒、慢病毒、腺病毒或腺相关病毒)。
一种修饰靶基因的方法，其包括：将权利要求17-19任一项所述的复合物或权利要求23-32任一项所述的组合物与所述靶基因接触，或者递送至包含所述靶基因的细胞中；所述靶序列存在于所述靶基因中。
权利要求35所述的方法，其中，所述靶基因存在于细胞内；

例如，所述细胞是原核细胞；

例如，所述细胞是真核细胞，例如哺乳动物细胞(例如人类细胞)或植物细胞。
权利要求35所述的方法，其中，所述靶基因存在于体外的核酸分子(例如，质粒)中。
权利要求35-37任一项所述的方法，其中，所述修饰是指所述靶序列的断裂，如DNA的双链断裂或RNA的单链断裂；

例如，所述修饰还包括将外源核酸插入所述断裂中。
一种改变基因产物的表达的方法，其包括：将权利要求17-19任一项所述的复合物或权利要求23-32任一项所述的组合物与编码所述基因产物的核酸分子接触，或者递送至包含所述核酸分子的细胞中，所述靶序列存在于所述核酸分子中。
权利要求39所述的方法，其中，所述核酸分子存在于细胞内；

例如，所述细胞是原核细胞；

例如，所述细胞是真核细胞，例如哺乳动物细胞(例如人类细胞)或植物细胞。
权利要求39所述的方法，其中，所述核酸分子存在于体外的核酸分子(例如，质粒)中。
权利要求39-41任一项所述的方法，其中，所述基因产物的表达被改变(例如，增强或降低)。
权利要求39-42任一项所述的方法，其中，所述基因产物是蛋白。
权利要求35-43任一项所述的方法，其中所述的蛋白、缀合物、融合蛋白、分离的核酸分子、复合物、载体或组合物包含于递送载体中；

例如，所述递送载体选自脂质颗粒、糖颗粒、金属颗粒、蛋白颗粒、脂质体、外泌体、病毒载体(如复制缺陷型逆转录病毒、慢病毒、腺病毒或腺相关病毒)。
权利要求35-44任一项所述的方法，其用于改变靶基因或编码靶基因产物的核酸分子中的一个或多个靶序列来修饰细胞、细胞系或生物体。
一种由权利要求35-45任一项所述的方法获得的细胞或其子代，其中所述细胞包含在其野生型中不存在的修饰。
权利要求46所述的细胞或其子代的细胞产物。
一种体外的、离体的或体内的细胞或细胞系或它们的子代，所述细胞或细胞系或它们的子代包含：权利要求1所述的蛋白、权利要求2-7任一项所述的缀合物、权利要求8-13任一项所述的融合蛋白、权利要求14-16任一项所述的分离的核酸分子、权利要求17-19任一项所述的复合物、权利要求20所述的分离的核酸分子、权利要求21所述的载体、权利要求23-32任一项所述的组合物；

例如，所述细胞是真核细胞；

例如，所述细胞是动物细胞(例如，哺乳动物细胞，例如人类细胞)或植物细胞；

例如，所述细胞是干细胞或干细胞系。
权利要求1所述的蛋白、权利要求2-7任一项所述的缀合物、权利要求8-13任一项所述的融合蛋白、权利要求14-16任一项所述的分离的核酸分子、权利要求17-19任一项所述的复合物、权利要求20所述的分离的核酸分子、权利要求21所述的载体、权利要求23-32任一项所述的组合物或权利要求33所述的试剂盒，用于核酸编辑(例如，基因或基因组编辑)的用途；

例如，所述基因或基因组编辑包括修饰基因、敲除基因、改变基因产物的表达、修复突变、和/或插入多核苷酸。
权利要求1所述的蛋白、权利要求2-7任一项所述的缀合物、权利要求8-13任一项所述的融合蛋白、权利要求14-16任一项所述的分离的核酸分子、权利要求17-19任一项所述的复合物、权利要求20所述的分离的核酸分子、权利要求21所述的载体、权利要求23-32任一项所述的组合物或权利要求33所述的试剂盒，在制备制剂中的用途，所述制剂用于：

(i)离体基因或基因组编辑；

(ii)离体单链DNA的检测；

(iii)编辑靶基因座中的靶序列来修饰生物或非人类生物；

(iv)治疗由靶基因座中的靶序列的缺陷引起的病症。