TW202039847A

TW202039847A - 可用於基因編輯之多胜肽及使用方法

Info

Publication number: TW202039847A
Application number: TW108147446A
Authority: TW
Inventors: 泰森Ｄ伯恩; 亞歷山卓布萊勒克羅雷; 泰德Ｄ艾力奇; 馬克摩爾; 魯道夫巴倫古; 麥可萊斯那
Original assignee: 美商生命編輯公司
Priority date: 2018-12-27
Filing date: 2019-12-24
Publication date: 2020-11-01
Also published as: EP3902911B1; EP3902911C0; SG11202106977PA; BR112021012665A2; KR20210149686A; ES2970169T3; US20220145296A1; WO2020139783A3; AU2019416108A1; WO2020139783A2; JP2022516130A; MX2021007835A; IL284400A; EP4339286A2; US20230272398A1; EP3902911A2; CN113631704A; JP2024050676A

Abstract

提供了用於結合感興趣的目標序列的組合物及方法。組合物包括DNA結合蛋白或蛋白結構域與修飾蛋白或蛋白結構域的核酸之間的融合蛋白。該組合物可用於切割或修飾感興趣的目標序列、視覺化感興趣的目標序列、以及修飾感興趣的序列的表現。組合物包含RNA引導的核酸酶多肽、CRISPR RNA、轉錄活化CRISPR RNA、引導RNA、去胺酶、以及編碼其的核酸分子。也提供了包含該核酸分子的載體及宿主細胞。更提供了用於結合感興趣的目標序列的CRISPR系統，其中該CRISPR系統包含RNA引導的核酸酶多肽及一個或多個引導RNA。還提供了可與DNA結合多肽融合及可用於基因編輯的去胺酶。

Description

可用於基因編輯之多胜肽及使用方法

本發明有關於分子生物及基因編輯領域。

靶向基因體編輯或修飾正迅速成為基礎研究和應用研究的重要工具。最初的方法涉及工程化核酸酶，例如大範圍核酸酶（meganuclease）、鋅指（zinc finger）融合蛋白或TALEN，需要生成具有對每個特定目標序列具有專一性的工程化、可程式化、序列專一性的DNA結合域的嵌合核酸酶。 RNA引導的核酸酶（RGN），例如叢集有規律間隔的短迴文重複序列(Clustered Regularly Interspaced Short Palindromic Repeats (CRISPR))-相關的(cas)細菌系統的CRISPR cas蛋白，可以藉由將核酸酶與引導RNA複合來靶向特定序列，該引導RNA專一性地與特定的目標序列雜交。與為每個目標序列產生嵌合核酸酶相比，產生靶專一性引導RNA的成本更低且效率更高。此類RNA引導的核酸酶可用於經由引入序列專一性、經由易錯的非同源末端連接（NHEJ）進行修復的雙股裂縫來編輯基因體，而在特定的基因體位置引入突變。或者，可經由同源性重組修復將異源DNA引入基因體位點。

此外，RGN對於DNA編輯方法很有用。核酸序列的靶向編輯，例如靶向切割以允許將特定修飾引入基因體DNA，使得研究基因功能及基因表現的高度細微差別化方法成為可能。這種有目標的編輯還可以用於針對人類的遺傳疾病或用於在農作物的基因體中引入在農業上有益的突變。基因體編輯工具的發展為基於基因編輯的哺乳動物療法及農業生物技術提供了新方法。

提供了用於結合感興趣的目標核酸序列的組合物及方法。該組合物發現可用於切割或修飾感興趣的目標序列、檢測感興趣的目標序列、以及修飾感興趣的序列的表現。組合物包含RNA引導的核酸酶（RGN）多肽及其變異體、CRISPR RNA（crRNA）、轉錄活化(trans-activating) CRISPR RNA（tracrRNA）、引導RNA（gRNA）、去胺酶多肽、編碼其的核酸分子、以及包含該核酸分子的載體及宿主細胞。還提供了用於結合感興趣的目標序列的CRISPR系統，其中該CRISPR系統包含RNA引導的核酸酶多肽及一個或多個引導RNA。還提供了包含RNA引導的DNA結合多肽及去胺酶多肽的融合多肽。本文揭露的方法意欲用於結合感興趣的目標核酸序列，並且在一些實施方式中，意欲用於切割或修飾感興趣的目標核酸序列。例如，由於非同源末端連接或用引入的供體序列進行同源性重組修復、或由於鹼基編輯，感興趣的目標序列可以被修飾。

受益於前述描述和相關圖式中呈現的教導，與這些發明有關領域的技術人員將想到本文闡述的本發明的許多修改和其他實施方式。因此，應當理解，本發明不限於所揭露的特定實施方式，並且修改和其他實施方式旨在被包括在所附實施方式的範圍內。儘管本文採用了特定術語，但是它們僅在一般性和描述性意義上使用，而不是出於限制的目的。I. 概述

RNA引導的核酸酶（RGN）允許對基因體內的單一位點進行靶向操作，並且在關於治療和研究應用的基因靶向中很有用。在包括哺乳動物的各種生物中，例如，RNA引導的核酸酶已藉由刺激非同源末端連接及同源重組而用於基因體工程。本文所述的組合物及方法可用於在多核苷酸中產生單股或雙股裂縫、修飾多核苷酸、檢測多核苷酸內的特定位點、或修飾特定基因的表現。

本文揭露的RNA引導的核酸酶可以藉由修飾目標序列來改變基因表現。在特定的實施方式中，RNA引導的核酸酶經由引導RNA（也稱為gRNA或sgRNA）被引導至目標序列，該引導RNA是叢集有規律間隔的短迴文重複序列（CRISPR）RNA引導的核酸酶系統的一部分。引導RNA與RNA引導的核酸酶形成錯合物以引導RNA引導的核酸酶與目標序列結合，並且在一些實施方式中，在目標序列處引入單股或雙股裂縫。目標序列被切割後，斷裂可被修復，使得目標序列的DNA序列在修復過程中被修飾。因此，本文提供的是用於使用RNA引導的核酸酶來修飾宿主細胞的DNA中的目標序列的方法。例如，RNA引導的核酸酶可用於修飾真核細胞或原核細胞的基因體基因座處的目標序列。

本揭露內容進一步提供了去胺酶多肽及編碼去胺酶多肽的核酸分子、以及包含DNA結合多肽及去胺酶多肽的融合蛋白。在一些實施方式中，DNA結合多肽是大範圍核酸酶、鋅指融合蛋白或TALEN或衍生自大範圍核酸酶、鋅指融合蛋白或TALEN。在一些實施方案中，融合蛋白包含RNA引導的DNA結合多肽及去胺酶多肽。在一些實施方式中，RNA引導的DNA結合多肽是RGN。在一些實施方式中，RGN是第二型CRISPR-Cas多肽。在其他實施方式中，RGN是第五型CRISPR-Cas多肽。在進一步的實施方式中，RGN是與gRNA結合的Cas9多肽結構域，該gRNA繼而經由股雜交結合目標核酸序列。

去胺酶多肽包含可以使核鹼基(例如胞苷)去胺的去胺酶結構域。藉由去胺酶對核鹼基的去胺作用可以導致在相應殘基處的點突變，其在本文中被稱為“核酸編輯”或“鹼基編輯”。因此可以將包含RGN多肽變異體或結構域及去胺酶結構域的融合蛋白用於核酸序列的靶向編輯。

這種融合蛋白可用於體外 DNA的靶向編輯，例如用於突變細胞的產生。這些突變細胞可以在植物或動物中。這種融合蛋白還可用於引入靶向突變，例如，用於體外哺乳動物細胞中 (例如，從受試者獲得的細胞中，所述細胞隨後被再次引入相同或另一個受試者中)的遺傳缺陷的校正；以及用於引入靶向突變，例如，在哺乳動物受試者中的疾病相關基因中校正遺傳缺陷或引入失活突變。這種融合蛋白還可用於在植物細胞中引入靶向突變，例如，用於引入有益的或在農業上有價值的性狀或對偶基因。

術語“蛋白質”、“胜肽”和“多肽”在本文中可互換地被使用，是指藉由胜肽（醯胺）鍵連接在一起的胺基酸殘基的聚合物。該術語是指任何大小、結構或功能的蛋白質、胜肽或多肽。通常，蛋白質、胜肽或多肽的長度至少為三個胺基酸。蛋白質、胜肽或多肽可以指單個蛋白質或蛋白質的集合。蛋白質、胜肽或多肽中的一個或多個胺基酸可以例如藉由添加化學實體 (例如碳水化合物基團、羥基、磷酸基團、法尼基(famesyl)基團、異法尼基(isofamesyl)基團、脂肪酸基團、用於接合、功能化、或其他修飾的連接子等)而被修飾。蛋白質、胜肽、或多肽還可以是單分子或可以是多分子錯合物。蛋白質、胜肽、或多肽可以僅僅是天然存在的蛋白質或胜肽的片段。蛋白質、胜肽、或多肽可以是天然存在的、重組的、或合成的、或其任何組合。

如本文所使用，術語“融合蛋白”是指雜交多肽，其包含來自至少兩種不同蛋白質的蛋白質結構域。一種蛋白質可以位於融合蛋白的胺端（N-端）部分處或羧端（C-端）蛋白處，從而分別形成“胺端融合蛋白”或“羧端融合蛋白”。蛋白質可以包含不同的結構域，例如核酸結合結構域（例如，指示蛋白質結合至靶位點的Cas9的gRNA結合結構域）和重組酶的催化結構域或核酸切割結構域。在一些實施方式中，蛋白質包含蛋白質部分（例如構成核酸結合結構域的胺基酸序列）以及有機化合物（例如可以作為核酸切割劑的化合物）。在一些實施方式中，蛋白質與例如 RNA的核酸形成錯合物或與該核酸相關聯。本文提供的任何蛋白質可以藉由本領域已知的任何方法產生。例如，本文提供的蛋白質可以經由重組蛋白質表現及純化產生，其特別適合於包含胜肽連接子的融合蛋白。重組蛋白表現及純化的方法是眾所周知的，且包括Green和Sambrook在Molecular Cloning: A Laboratory Manual （第 4 版，冷泉港實驗室出版社，冷泉港，紐約（2012））中描述的方法，其全部內容藉由引用併入本文。II. RNA- 引導的核酸酶

本文提供了RNA引導的核酸酶。術語RNA引導的核酸酶（RGN）是指以序列專一性方式與特定目標核苷酸序列結合的多肽，且該多肽藉由與該多肽複合並與目標序列雜交的引導RNA分子被導向目標核苷酸序列。儘管RNA引導的核酸酶可以在結合時切割目標序列，但是術語RNA引導的核酸酶也包括能夠結合但不切割目標序列的核酸酶死亡的RNA引導的核酸酶。RNA引導的核酸酶對目標序列的切割可導致單股或雙股裂縫。僅能夠切割雙股核酸分子的單股的RNA引導的核酸酶在本文中稱為切口酶。

本文揭露的RNA引導的核酸酶包括APG00969、APG03128、APG09748、APG00771和APG02789 RNA引導的核酸酶，其胺基酸序列分別如SEQ ID NO：1、16、24、35、43或50所示、以及保留以RNA引導的序列專一性方式結合目標核苷酸序列的能力的其活性片段或變異體。在這些實施方式的一些中，APG00969、APG03128、APG09748、APG00771和APG02789 RGN的活性片段或變異體能夠切割單股或雙股目標序列。在一些實施方式中，APG00969、APG03128、APG09748、APG00771或APG02789 RGN的活性變異體包含與SEQ ID NO：1、16、24、35、43或50所示的胺基酸序列具有至少40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高的序列一致性的胺基酸序列。在某些實施方式中，APG00969、APG03128、APG09748、APG00771或APG02789 RGN的活性片段包含SEQ ID NO：1、16、24、35、43或50所示胺基酸序列的至少50、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050或更多連續胺基酸殘基。本文提供的RNA引導的核酸酶可包含至少一個核酸酶結構域（例如，DNase、RNase結構域）和至少一個RNA識別及/或RNA結合結構域以與引導RNA相互作用。在本文提供的RNA引導的核酸酶中可以發現的其他結構域，包括但不限於：DNA結合結構域、解旋酶結構域、蛋白質-蛋白質相互作用結構域和二聚合結構域。在特定的實施方式中，本文提供的RNA引導的核酸酶可包含DNA結合結構域、解旋酶結構域、蛋白質-蛋白質相互作用結構域和二聚合結構域中的一個或多個中的至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％。

目標核苷酸序列與本文提供的RNA引導的核酸酶結合，並和與RNA引導的核酸酶相關的引導RNA雜交。然後，如果多肽具有核酸酶活性，則目標序列可隨後被RNA引導的核酸酶切割。術語“切割(cleave)”或“切割(cleavage)”是指目標核苷酸序列的骨架內的至少一個磷酸二酯鍵的水解，其可導致目標序列內的單股或雙股裂縫。當前揭露的RGN可以作為核酸內切酶或可以是核酸外切酶(從多核苷酸的末端（5'及/或3'端）去除連續的核苷酸)而切割多核苷酸內的核苷酸。在其他實施方式中，所揭露的RGN可以在多核苷酸的任何位置內切割目標序列的核苷酸，因此作為核酸內切酶及核酸外切酶兩者。當前揭露的RGN對目標多核苷酸的切割可導致交錯的斷裂或鈍端。

當前揭露的RNA引導的核酸酶可以是衍生自細菌或古細菌物種的野生型序列。替代地，RNA引導的核酸酶可以是野生型多肽的變異體或片段。例如，可以修飾野生型RGN以改變核酸酶活性或改變PAM專一性。在一些實施方式中，RNA引導的核酸酶不是天然存在的。

在某些實施方式中，RNA引導的核酸酶僅作為切割目標核苷酸序列的單股的切口酶。這樣的RNA引導的核酸酶具有單個功能性核酸酶結構域。在這些實施方式的一些中，另外的核酸酶結構域已經突變，使得核酸酶活性降低或消除。核酸酶死亡的RGN或切口酶RGN可以被稱為融合蛋白的RNA引導的DNA結合多肽、或RNA引導的DNA結合蛋白、或RNA引導的DNA結合結構域。

在其他實施方式中，RNA引導的核酸酶完全缺乏核酸酶活性或表現出降低的核酸酶活性，並且在本文中稱為核酸酶死亡的。用於將突變引入胺基酸序列的本領域已知的任何方法，例如PCR介導的誘變和定點誘變，都可以用於產生切口酶或核酸酶死亡的RGN。參見，例如，美國公開號2014/0068797及美國專利號 9,790,490；其每一者均藉由引用完整併入。

缺乏核酸酶活性的RNA引導的核酸酶可用於將融合的多肽、多核苷酸或小分子有效負載遞送至特定的基因體位置。在這些實施方式的一些中，RGN多肽或引導RNA可以與可檢測標記融合以允許檢測特定序列。作為非限制性範例，可以將核酸酶死亡的RGN與可檢測標記（例如，螢光蛋白）融合，並靶向與疾病相關聯的特定序列，以允許檢測與疾病相關聯的序列。

可選地，可將核酸酶死亡的RGN靶向特定的基因體位置，以改變所需序列的表現。在一些實施方式中，在靶向的基因體區域內，核酸酶死亡的RNA引導的核酸酶與目標序列的結合藉由干擾RNA聚合酶或轉錄因子的結合而造成抑制目標序列或受目標序列轉錄控制的基因的表現。在其他實施方式中，RGN（例如，核酸酶死亡的RGN）或其複合的引導RNA進一步包含表現調節子，其在與目標序列結合後用於壓抑或活化目標序列或受目標序列轉錄控制的基因的表現。在這些實施方式的一些中，表現調節子經由表觀遺傳機制調節目標序列或受調控基因的表現。

在其他實施方式中，可以將核酸酶死亡的RGN或僅具有切口酶活性的RGN靶向特定的基因體位置，以經由與鹼基編輯多肽（例如去胺酶多肽或其對核苷酸鹼基進行去胺的活性變異體或片段）融合來修飾目標多核苷酸的序列，導致從一個核苷酸鹼基轉化成另一核苷酸鹼基。鹼基編輯多肽可以在RGN的N端或C端末端處與其融合。另外，可以經由胜肽連接子將鹼基編輯多肽與RGN融合。可用於此類組合物和方法的去胺酶多肽的非限制性範例包括描述於Gaudelli等人（2017）Nature 551：464-471、美國公開號2017/0121693及2018/0073012、以及國際公開號 WO / 2018/027078 (其每一者均藉由引用完整併入本文)的胞嘧啶去胺酶或腺苷去胺酶鹼基編輯器。

與多肽或結構域融合的RNA引導的核酸酶可以是分離的或藉由連接子連接。本文使用的術語“連接子”是指連接兩個分子或部分(moieties)(例如核酸酶的結合結構域和切割結構域)的化學基團或分子。在一些實施方式中，連接子將RNA引導的核酸酶的gRNA結合結構域與鹼基編輯多肽 (例如去胺酶)連接。在一些實施方式中，連接子連接核酸酶死亡的RGN和去胺酶。通常，連接子位於兩個基團、分子或其他部分之間或兩側，並經由共價鍵連接至每個基團、分子或其他部分，從而連接兩者。在一些實施方式中，連接子是胺基酸或多個胺基酸（例如，胜肽或蛋白質）。在一些實施方式中，連接子是有機分子、基團、聚合物或化學部分。在一些實施方式中，連接子的長度為5-100個胺基酸，例如，長度為5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20， 21、22、23、24、25、26、27、28、29、30、30-35、35-40、40-45、45-50、50-60、60-70、70-80、80-90、90-100、100-150或150-200個胺基酸。也可以考慮更長或更短的連接子。

當前揭露的RNA引導的核酸酶可包含至少一個核定位訊號（NLS）以增強RGN至細胞核的輸送。核定位訊號在本領域中是已知的，並且通常包含一段鹼性胺基酸（參見，例如，Lange等人，J. Biol. Chem. （2007）282：5101-5105）。在特定實施例中，RGN包括2、3、4、5、6或更多個核定位訊號。核定位訊號可以是異源NLS。可用於當前揭露的RGN的核定位訊號的非限制性範例是SV40大T抗原、核質素和c-Myc的核定位訊號（參見，例如 ，Ray等人（2015）Bioconjug Chem 26（6）：1004-7）。在特定實施方式中，RGN包含如SEQ ID NO：10所示的NLS序列。RGN可在其N端、C端或N端和C端兩者處包含一個或更多個NLS序列。例如，RGN可在N端區域包含兩個NLS序列並在C端區域包含四個NLS序列。

本領域已知的將多肽定位到特定亞細胞位置的其他定位訊號序列也可以用於靶向RGN，包括但不限於質體定位序列、線粒體定位序列和靶向質體和線粒體的雙靶向訊號序列（參見，例如 Nassoury和Morse（2005）Biochim Biophys Acta 1743：5-19；Kunze和Berger（2015）Front Physiol dx.doi.org/10.3389/fphys.2015.00259；Herrmann和Neupert（2003）IUBMB Life 55：219-225；Soll（2002）Curr Opin Plant Biol 5：529-535；Carrie和Small（2013）Biochim Biophys Acta 1833：253-259；Carrie等人（2009）FEBS J 276：1187-1195；Silva-Filho（2003）Curr Opin Plant Biol 6：589-595；Peeters和Small（2001）Biochim Biophys Acta 1541：54-63；Murcha等人（2014）J Exp Bot 65：6301-6335；Mackenzie（2005）Trends Cell Biol 15：548-554；Glaser等人（1998）Plant Mol Biol 38：311-338）。

在某些實施方式中，目前揭露的RNA引導的核酸酶包含至少一個促進RGN被細胞攝取的細胞穿透結構域。細胞穿透結構域是本領域已知的，並且通常包括數段帶正電荷的胺基酸殘基（即聚陽離子細胞穿透結構域）、交替的極性胺基酸殘基和非極性胺基酸殘基（即兩親性細胞穿透結構域）、或疏水性胺基酸殘基（即疏水性細胞穿透結構域）（參見，例如 Milletti F.（2012）Drug Discov Today 17：850-860）。細胞穿透結構域的非限制性範例是來自人類免疫不全病毒1的轉錄活化轉錄活化子（TAT）。

核定位訊號、質體定位訊號、線粒體定位訊號、雙重靶向定位訊號及/或細胞穿透結構域可以位於RNA引導的核酸酶的胺端（N端）、羧端（C端）處、或在內部位置中。

目前揭露的RGN可以經由連接子胜肽直接或間接地融合至效應子結構域，例如切割結構域、去胺酶結構域、或表現調節子結構域。這樣的結構域可以位於RNA引導的核酸酶的N端、C端或內部位置處。在這些實施方式的一些中，融合蛋白的RGN成分是核酸酶死亡的RGN。

在一些實施方式中，RGN融合蛋白包含切割結構域，其是能夠切割多核苷酸（即，RNA、DNA或RNA/DNA雜合體）的任何結構域，並且包括但不限於限制性核酸內切酶及內源(homing)核酸內切酶，例如IIS型核酸內切酶（例如 Fok I）（參見，例如 Belfort等人（1997）Nucleic Acids Res . 25：3379-3388；Linn等人（編輯）Nucleases，冷泉港實驗室出版社，1993）。

在其他實施方式中，RGN融合蛋白包含去胺酶結構域，該去胺酶結構域使核苷酸鹼基去胺，導致從一個核苷酸鹼基轉化為另一核苷酸鹼基，並且包括但不限於胞苷去胺酶或腺苷去胺酶鹼基編輯器（參見，例如 ，Gaudelli等人（2017）Nature 551：464-471、美國公開號2017/0121693和2018/0073012、美國專利號9,840,699及國際公開號WO/2018/027078）。在進一步的實施方式中，RGN融合蛋白可包含本發明的去胺酶，其包含SEQ ID NO：374-545或572-584中任一段的胺基酸序列或其活性變異體。

在其他實施方式中，可以將包含SEQ ID NO：374-545或572-584中任一段的胺基酸序列或其活性變異體的本發明的去胺酶與任何DNA結合蛋白融合。在一些實施方式中，將去胺酶與本發明的RGN融合。在其他實施方式中，將去胺酶與本領域已知的RGN融合。在其他實施方式中，將去胺酶與不是RGN的DNA結合蛋白 (例如大範圍核酸酶、TALEN或鋅指核酸酶)融合。在一些實施方式中，去胺酶具有與SEQ ID NO：374-545及572-584中的任何一段的胺基酸序列具有至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％的一致性的胺基酸序列。在某些實施方式中，去胺酶具有與SEQ ID NO：374、383、397、399、407、408、411、414、416、420、514及572-584中任何一段的胺基酸序列具有至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％的一致性的胺基酸序列。在這些實施方式的一些中，變異體去胺酶多肽與SEQ ID NO：572-584中的任一段具有一定程度的序列一致性，其中特定的胺基酸殘基與母(parent)序列相同。例如，在一些實施方式中，變異體SEQ ID NO：572包括與SEQ ID NO：572的位置102對應的位置處的離胺酸、與位置104對應的位置處的酪胺酸及與位置106對應的位置處的蘇胺酸。在特定實施方式中，變異體SEQ ID NO：574包含與SEQ ID NO：574的位置101對應的位置處的麩胺酸、與位置103對應的位置處的絲胺酸、以及與位置105對應的位置處的離胺酸。在某些實施方式中，變異體SEQ ID NO：575包含與SEQ ID NO：575的位置101對應的位置處的離胺酸、與位置103對應的位置處的白胺酸、以及與位置105對應的位置處的麩胺酸。在一些實施方式中，變異體SEQ ID NO：576包含與SEQ ID NO：576的位置105相對應的位置處的丙胺酸以及與位置107相對應的位置處的精胺酸。在特定的實施方式中，變異體SEQ ID NO：577包括與SEQ ID NO：577的位置102對應的位置處的甘胺酸、與位置104對應的位置處的絲胺酸、以及與位置106處對應的位置處的精胺酸。在某些實施方式中，變異體SEQ ID NO：578包含與SEQ ID NO：578的位置105相對應的位置處的絲胺酸及與位置107相對應的位置處的蘇胺酸。在一些實施方式中，變異體SEQ ID NO：579包含與SEQ ID NO：579的位置102對應的位置處的絲胺酸、與位置104對應的的位置處的麩醯胺酸、以及與位置106對應的的位置處的甘胺酸。在特定實施方式中，變異體SEQ ID NO：580包含SEQ ID NO：580的位置111對應的位置處的甘胺酸。在一些實施方式中，變異體SEQ ID NO：581包含與SEQ ID NO：581的位置104對應的位置處的麩醯胺酸、與位置106對應的位置處的甘胺酸、以及與位置108對應的位置處的麩胺酸。在某些實施方式中，變異體SEQ ID NO：582包括與SEQ ID NO：582的位置102對應的位置處的精胺酸、與位置104對應的位置處的色胺酸及與位置106對應的位置處的麩胺酸。在某些實施方式中，變異體SEQ ID NO：583包含與SEQ ID NO：583的位置104對應的位置處的精胺酸、以及與位置106對應的位置處的絲胺酸。在特定實施方式中，變異體SEQ ID NO：584包含與SEQ ID NO：584的位置110對應的位置處的苯丙胺酸、與位置112對應的位置處的絲胺酸、以及與位置114對應的位置處的蘇胺酸。

術語“去胺酶”是指催化去胺反應（即，從胺基酸或其他化合物中移除胺基）的酶。在一些實施方式中，去胺酶是胞苷去胺酶，其分別催化胞苷或去氧胞苷至尿嘧啶或去氧尿嘧啶的水解去胺作用。在其他實施方式中，去胺酶是腺嘌呤去胺酶。腺嘌呤的去胺作用產生肌苷，肌苷被聚合酶處理為鳥嘌呤。胞嘧啶去胺酶及腺嘌呤去胺酶均可在DNA或RNA上作用，儘管迄今為止，尚不存在可將DNA中的腺嘌呤去胺的天然存在的腺嘌呤去胺酶。然而，本文揭露的是APG07458（SEQ ID NO：514），其是對DNA具有顯著的腺苷去胺酶活性的天然存在的蛋白質。本發明的去胺酶可以用於編輯DNA或RNA分子。整體上，本發明的去胺酶使得DNA分子中所有四個轉變（C到T、A到G、T到C及G到A）以及RNA分子中C到U、A到G及G到A的轉變能夠可程式化的設置。

本發明的去胺酶對單股核酸分子起作用。在目標股上具有切口酶活性的RGN鏈裂(nick)目標股，而互補的非目標股被去胺酶修飾。細胞DNA修復機制可以使用修飾的非目標股作為模板修復有切口的目標股，從而在DNA中引入突變。

在一些實施方式中，可以將與去胺酶融合的核酸酶死亡的RGN或切口酶RGN靶向特定的基因體位置，以改變所需序列的表現。在一些實施方式中，核酸酶死亡的RGN或切口酶RGN可以被稱為RNA引導的DNA結合多肽或融合蛋白的蛋白或蛋白結構域。在一些實施方式中，此融合蛋白與目標序列的結合導致核苷酸鹼基的去胺作用，導致從一個核苷酸鹼基轉化成另一核苷酸鹼基。在一些實施方式中，RGN融合蛋白的效應子結構域可以是表現調節結構域，這是一個用作為調升或調降轉錄的結構域。表現調節子結構域可以是表觀遺傳修飾結構域、轉錄抑制子結構域或轉錄活化結構域。

在這些實施方式的一些中，RGN融合蛋白的表現調節子包含表觀遺傳修飾結構域，其共價地修飾DNA或組蛋白以改變組蛋白結構及/或染色體結構而不改變DNA序列，導致基因表現的改變（即，調升或調降）。表觀遺傳修飾的非限制性範例包括離胺酸殘基的乙醯化或甲基化、精胺酸甲基化、絲胺酸及蘇胺酸磷酸化、組蛋白的離胺酸泛素化和磺醯化、以及DNA中胞嘧啶殘基的甲基化及羥甲基化。表觀遺傳修飾結構域的非限制性範例包括組蛋白乙醯基轉移酶結構域、組蛋白去乙醯酶結構域、組蛋白甲基轉移酶結構域、組蛋白去甲基酶結構域、DNA甲基轉移酶結構域、及DNA去甲基酶結構域。

在其他實施方式中，融合蛋白的表現調節子包含轉錄抑制子結構域，其與轉錄控制元件及/或轉錄調節蛋白 (例如RNA聚合酶和轉錄因子)相互作用，以減少或終止至少一個基因的轉錄。轉錄抑制子結構域是本領域已知的，包括但不限於類Sp1抑制子、IκB及Krüppel相關盒（KRAB）結構域。

在其他實施方式中，融合蛋白的表現調節子包括轉錄活化結構域，其與轉錄控制元件及/或轉錄調節蛋白(例如RNA聚合酶及轉錄因子)相互作用，以增加或活化至少一個基因的轉錄。轉錄活化結構域是本領域已知的，包括但不限於單純皰疹病毒VP16活化結構域及NFAT活化結構域。

目前揭露的RGN及去胺酶多肽或其融合多肽可以包含可檢測的標記或純化標籤。可檢測的標記或純化標籤可以直接或經由連接子胜肽間接地位於RNA引導的核酸酶的N端、C端或內部位置。在這些實施方式的一些中，融合蛋白的RGN成分是核酸酶死亡的RGN。在其他實施方式中，融合蛋白的RGN成分是具有切口酶活性的RGN。

可檢測標記是可以看得見或以其他方式觀察到的分子。可檢測標記可以與RGN融合作為融合蛋白（例如，螢光蛋白）或者可以是與RGN多肽耦合的小分子，該小分子可以視覺上檢測或以其他方式檢測。可以與到目前揭露的RGN或去胺酶融合作為融合蛋白的可檢測標記包括任何可檢測的蛋白結構域，包括但不限於螢光蛋白或可以用特異性抗體檢測的蛋白結構域。螢光蛋白的非限制性範例包括綠色螢光蛋白（例如，GFP、EGFP、ZsGreen1）及黃色螢光蛋白（例如，YFP、EYFP、ZsYellow1）。小分子可檢測標記的非限制性範例包括放射性標記，例如³ H和³⁵ S。

本發明的RGN和去胺酶多肽、或其融合多肽也可包含純化標籤，其是可用於從混合物（例如生物樣品、培養基）中分離蛋白質或融合蛋白質的任何分子。純化標籤的非限制性範例包括生物素、myc、麥芽糖結合蛋白（MBP）和麩胱甘肽-S-轉移酶（GST）。II. 引導 RNA

本揭露內容提供了引導RNA及編碼引導RNA的多核苷酸。術語“引導RNA”是指與目標核苷酸序列具有足夠互補性以與目標序列雜交並且引導相關聯的RNA引導的核酸酶與目標核苷酸序列的序列專一性結合的核苷酸序列。因此，RGN各自的引導RNA是一或更多個RNA分子（通常是一個或兩個），它們可以與RGN結合並引導RGN與特定的目標核苷酸序列結合，並且在RGN具有切口酶或核酸酶活性的那些情況下，也切割目標核苷酸序列。通常，引導RNA包括CRISPR RNA（crRNA）及轉錄活化CRISPR RNA（tracrRNA）。同時包含crRNA和tracrRNA的天然引導RNA通常包含兩個單獨的RNA分子，它們經由crRNA的重複序列及tracrRNA的抗重複序列彼此雜交。

CRISPR陣列內的天然直接重複序列的長度通常在28至37個鹼基對的範圍內，儘管該長度可以在約23 bp至約55 bp之間變化。CRISPR陣列內的間隔序列的長度通常在約32至約38bp的範圍內，儘管長度可以在約21 bp至約72 bp之間。每個CRISPR陣列通常包含少於50個單位的CRISPR重複間隔序列。CRISPR被轉錄為稱為初級CRISPR轉錄本的長轉錄本的一部分，其包含大部分的CRISPR陣列。初級CRISPR轉錄本被Cas蛋白切割以產生crRNA，或者在某些情況下，產生pre-crRNA，這些pre-crRNA被其他Cas蛋白進一步加工為成熟的crRNA。成熟的crRNA包含間隔序列及CRISPR重複序列。在pre-crRNA被加工為成熟（或加工的）crRNA的一些實施方式中，成熟涉及去除約1至約6個或更多個5'、3'或5'和3'核苷酸。為了基因體編輯或靶向感興趣的特定目標核苷酸序列的目的，在pre-crRNA分子成熟期間被除去的這些核苷酸對於產生或設計引導RNA不是必需的。

CRISPR RNA（crRNA）包含間隔序列及CRISPR重複序列。“間隔序列”是與目標核苷酸序列直接雜交的核苷酸序列。間隔序列被工程化為與感興趣的目標序列完全地或部分地互補。在各種實施方式中，間隔序列可包含約8個核苷酸至約30個核苷酸、或更多。例如，間隔序列的長度可以是約8、約9、約10、約11、約12、約13、約14、約15、約16、約17、約18、約19、約20、約21、約22、約23、約24、約25、約26、約27、約28、約29、約30個或更多個核苷酸。在一些實施方式中，間隔序列的長度為約10至約26個核苷酸、或長度為約12至約30個核苷酸。在特定的實施方式中，間隔序列的長度為約30個核苷酸。在一些實施方式中，當使用合適的比對演算法最佳比對時，間隔序列與其對應的目標序列之間的互補程度為約或大於約50％、約60％、約70％、約75％、約80％、約81％、約82％、約83％、約84％、約85％、約86％、約87％、約88％、約89％、約90％、約91％、約92％、約93％、約94％、約95％、約96％、約97％、約98％、約99％或更多。在特定實施方式中，間隔序列沒有二級結構，其可以使用本領域已知的任何合適的多核苷酸折疊演算法來預測，包括但不限於mFold（參見，例如 Zuker和Stiegler（1981）Nucleic Acids Res. 9：133-148）和RNAfold（參見，例如 Gruber等人（2008）Cell 106（1）：23-24）。

RGN蛋白對gRNA中間隔序列與其目標序列之間的誤配(mismatch)可具有影響切割效率的不同的敏感性。

CRISPR RNA重複序列包含核苷酸序列，該核苷酸序列包含具有足夠互補性以與tracrRNA雜交的區域。在各種實施方式中，CRISPR RNA重複序列可包含從約8個核苷酸至約30個核苷酸、或更多。例如，CRISPR重複序列的長度可以是約8、約9、約10、約11、約12、約13、約14、約15、約16、約17、約18、約19、約20、約21、約22、約23、約24、約25、約26、約27、約28、約29、約30或更多個核苷酸。在一些實施方式中，CRISPR重複序列的長度為約21個核苷酸。在一些實施方式中，當使用合適的比對演算法最佳比對時，CRISPR重複序列與其對應的tracrRNA序列之間的互補程度為約或大於約50％、約60％、約70％、約75％、 80％、約81％、約82％、約83％、約84％、約85％、約86％、約87％、約88％、約89％、約90％、約91％、約92％、約93％、約94％、約95％、約96％、約97％、約98％、約99％或更多。在特定實施方式中，CRISPR重複序列包含SEQ ID NO：2、17、25、36、44、51或63的核苷酸序列、或其活性變異體或片段，當CRISPR重複序列包含在引導RNA中時，能夠引導本文提供的相關聯的RNA引導的核酸酶與目標序列的序列專一性結合。在某些實施方式中，野生型序列的活性CRISPR重複序列變異體包含與SEQ ID NO：2、17、25、36、44、51或63所示核苷酸序列具有至少40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高的序列一致性的核苷酸序列。在某些實施方式中，野生型序列的活性CRISPR重複序列片段包含如SEQ ID NO：2、17、25、36、44或51所示核苷酸序列的至少5、6、7、8、9、10、11、12、13、14、15、16、17、17、18、19或20個連續核苷酸。

在某些實施方式中，crRNA不是天然存在的。在這些實施方式的一些中，特定的CRISPR重複序列在自然界中不與工程化間隔序列連接，並且CRISPR重複序列被認為與間隔序列異源。在某些實施方式中，間隔序列是非天然存在的工程化序列。

轉錄活化CRISPR RNA或tracrRNA分子包含一個核苷酸序列，該核苷酸序列包含具有足夠的互補性以與crRNA的CRISPR重複序列雜交的區域，在此稱為抗重複區。在一些實施方式中，tracrRNA分子進一步包含具有二級結構（例如，莖環）的區域或在與其對應的crRNA雜交時形成二級結構。在特定實施方式中，tracrRNA與CRISPR重複序列完全地或部分地互補的區域在分子的5'端，並且tracrRNA的3'端包含二級結構。對於第II型RGN，二級結構的此區域通常包括幾個髮夾結構，包括被發現與抗重複序列相鄰的連接(nexus)髮夾。連接髮夾通常在髮夾莖的鹼基中具有保留的核苷酸序列，其在tracrRNA的連接髮夾中可見的模體(motif)為UNANNC（SEQ ID NO：13；針對APG00969）、ANGNNU（SEQ ID NO：23；針對APG03128）或UNANNA（SEQ ID NO：42；針對APG00771）。tracrRNA的3'端經常有末端髮夾，其結構和數量可能有所不同，但通常包含富含GC的Rho獨立轉錄終止子髮夾，其後在3'端處有一串U'。參見，例如，Briner等人（2014）Molecular Cell 56：333-339，Briner和Barrangou（2016）Cold Spring Harb Protoc ；doi：10.1101/pdb.top090902，以及美國公開號2017/0275648，其每一者在此藉由引用將其全部內容併入本文。

在各種實施方式中，與CRISPR重複序列完全地或部分地互補的tracrRNA的抗重複區包含約8個核苷酸至約30或更多個核苷酸。例如，tracrRNA抗重複序列和CRISPR重複序列之間的鹼基配對區域的長度可以是約8、約9、約10、約11、約12、約13、約14、約15、約16、約17、約18、約19、約20、約21、約22、約23、約24、約25、約26、約27、約28、約29、約30個或更多個核苷酸。在特定實施方式中，與CRISPR重複序列完全地或部分地互補的tracrRNA的抗重複區的長度為約20個核苷酸。在一些實施方式中，當使用合適的比對演算法最佳比對時，CRISPR重複序列與其對應的tracrRNA抗重複序列之間的互補程度為約或大於約50％、約60％、約70％、約75％、 80％、約81％、約82％、約83％、約84％、約85％、約86％、約87％、約88％、約89％、約90％、約91％、約92％、約93％、約94％、約95％、約96％、約97％、約98％、約99％、或更多。

在各種實施方式中，整個tracrRNA可包含約60個核苷酸至多於約140個核苷酸。例如，tracrRNA的長度可以是大約60、大約65、大約70、大約75、大約80、大約85、大約90、大約95、大約100、大約105、大約110、大約115、大約120、大約125、大約130、大約135、大約140或更多的核苷酸。在特定實施方式中，tracrRNA的長度為約80至約90個核苷酸，包括約80、約81、約82、約83、約84、約85、約86、約87、約88、約89、及約90個核苷酸。在某些實施方式中，tracrRNA的長度為約85個核苷酸。

在特定的實施方式中，tracrRNA包含SEQ ID NO：3、18、26、37、45、52或62的核苷酸序列、或其活性變異體或片段，當其活性變異體或片段包含在引導RNA中時能夠引導本文提供的相關聯的RNA引導的核酸酶與感興趣的目標序列的序列專一性結合。在某些實施方式中，野生型序列的活性tracrRNA序列變異體包含與SEQ ID NO：3、18， 26、37、45、52或62所示的核苷酸序列具有至少40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高的序列一致性的核苷酸序列。在某些實施方式中，野生型序列的活性tracrRNA序列片段包含如SEQ ID NO：3、18、26、37、45或52所示核苷酸序列的至少5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、或更多個連續核苷酸。

當兩個序列在嚴格條件下彼此雜交時，兩個多核苷酸序列可以被認為是基本上互補的。同樣的，如果與RGN結合的引導RNA與目標序列在嚴格條件下結合，則認為RGN以序列專一性方式與特定目標序列結合。 “嚴格條件”或“嚴格雜交條件”意指在該條件下兩個多核苷酸序列彼此雜交的程度比與其他序列的雜交程度可檢測地較大（例如，比背景高至少2倍）。嚴格條件取決於序列，並且在不同情況下會有所不同。典型地，嚴格條件將是其中鹽濃度小於約1.5M Na離子，典型地在pH 7.0至8.3下約0.01至1.0 M Na離子濃度（或其他鹽類）的條件，並且對於短序列（例如 10至50個核苷酸）的溫度至少約30°C，對於長序列（例如大於50個核苷酸）為至少約60℃。藉由添加如甲醯胺的去穩定劑也可以達到嚴格的條件。示例性的低嚴格性條件包括在37°C下與30至35％甲醯胺、1 M NaCl、1％ SDS（十二基硫酸鈉）的緩衝溶液雜交，並在50至55°C下在1X至2X SSC（20X SSC = 3.0 M NaCl / 0.3 M檸檬酸三鈉）中洗滌。示例性的中等嚴格性條件包括在37℃下在40至45％的甲醯胺、1.0M NaCl，1％ SDS中雜交，以及在55至60℃在0.5X至1X SSC中洗滌。示例性的高嚴格性條件包括在37°C下在50％甲醯胺、1 M NaCl、1％ SDS中雜交，並在60至65°C下在0.1X SSC中洗滌。可選地，洗滌緩衝液可包含約0.1％至約1％的SDS。雜交的持續時間通常小於約24小時，通常為約4至約12小時。洗滌時間的持續時間將至少是足以達到平衡的時間長度。

Tm是50％的互補目標序列與完全匹配的序列雜交時的溫度（在限定的離子強度和pH下）。針對DNA-DNA雜合體，Tm可以從Meinkoth和Wahl（1984）Anal. Biochem. 138:267-284的方程式近似得出：Tm = 81.5℃+ 16.6（log M）+ 0.41（％GC）-0.61（％形式）-500 / L；其中M是單價陽離子的莫耳濃度，％GC是DNA中鳥苷和胞嘧啶核苷酸的百分比，％形式是雜交溶液中甲醯胺的百分比，以及L是鹼基對中雜合體的長度。通常，嚴格條件應選擇為在限定的離子強度和pH下比特定序列及其互補序列的熱熔點（Tm）低約5°C。但是，極度嚴格的條件可以在低於熱熔點（Tm）1、2、3或4°C下進行雜交及/或洗滌；中等嚴格條件可在低於熱熔點（Tm）6、7、8、9或10°C下利用雜交及/或洗滌。低嚴格性條件可以在低於熱熔點（Tm）11、12、13、14、15或20°C下進行雜交及/或洗滌。使用該等式、雜交和洗滌組合物以及所需的Tm，普通技術人員將理解，雜交及/或洗滌溶液的嚴格性的變化已被固有地描述。在Tijssen（1993）《生物化學和分子生物學實驗室技術—以核酸探針進行雜交》，第I部分，第2章（Elsevier，紐約）中；以及Ausubel等人編輯（1995）Current Protocols in Molecular Biology，第2章（Greene Publishing和Wiley-Interscience，紐約）中找到了核酸雜交的廣泛指南。參見Sambrook等人（1989）《分子選殖：實驗室手冊》（第二版，冷泉港實驗室出版社，Plainview，紐約）。

引導RNA可以是單引導RNA或雙引導RNA系統。單引導RNA在單個RNA分子上包含crRNA和tracrRNA，而雙引導RNA系統包含存在於兩個不同RNA分子上的crRNA和tracrRNA，該兩個不同RNA分子經由crRNA的CRISPR重複序列的至少一部分以及tracrRNA的至少一部分而彼此雜交，tracrRNA的至少一部分可以與crRNA的CRISPR重複序列完全地或部分地互補。在其中引導RNA是單引導RNA的那些實施方式的一些中，crRNA和tracrRNA被連接子核苷酸序列分開。通常，連接子核苷酸序列是不包含互補鹼基的序列，以避免在連接子核苷酸序列的核苷酸內或包含該核苷酸的二級結構的形成。在一些實施方式中，crRNA和tracrRNA之間的連接子核苷酸序列的長度為至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12個或更多個核苷酸。在特定的實施方式中，單引導RNA的連接子核苷酸序列的長度為至少4個核苷酸。在某些實施方式中，連接子核苷酸序列是如SEQ ID NO：8或31所示的核苷酸序列。在其他實施方式中，連接子核苷酸序列的長度為至少6個核苷酸。

單引導RNA或雙引導RNA可以化學合成或經由體外轉錄合成。用於確定RGN與引導RNA之間的序列專一性結合的測定法是本領域已知的，且包括但不限於表現的RGN與引導RNA之間的體外結合測定法，可以用可檢測的標記物（例如生物素）進行標記並用於沉澱(pull-down)檢測分析，該沉澱檢測分析中經由可檢測標記（例如，使用鏈黴親和磁珠）捕獲引導RNA：RGN錯合物。具有與引導RNA無關的序列或結構的對照引導RNA可以作為RGN與RNA的非專一性結合的陰性對照。在某些實施方式中，引導RNA是SEQ ID NO：4、19、27、38、46、53、64、65或66，其中間隔序列可以是任何序列並以多-N（poly-N）序列表示。

在某些實施方式中，引導RNA可以作為RNA分子被引入目標細胞、胞器或胚胎中。引導RNA可以在體外轉錄或化學合成。在其他實施方式中，將編碼引導RNA的核苷酸序列引入細胞、胞器或胚胎中。在這些實施方式的一些中，編碼引導RNA的核苷酸序列與啟動子（例如，RNA聚合酶III啟動子）可操作地連接。該啟動子可以是天然啟動子或與編碼引導RNA的核苷酸序列異源。

在各種實施方式中，如本文所述，可以將引導RNA作為核糖核蛋白錯合物引入目標細胞、胞器或胚胎中，其中引導RNA與RNA引導的核酸酶多肽結合。

引導RNA經由引導RNA與目標核苷酸序列的雜交，將相關聯的RNA引導的核酸酶引導至感興趣的特定目標核苷酸序列。目標核苷酸序列可以包含DNA、RNA或兩者的組合，並且可以是單股或雙股的。目標核苷酸序列可以是基因體DNA（即染色體DNA）、質體DNA、或RNA分子（例如訊息RNA、核醣體RNA、轉移RNA、微小RNA、短小干擾RNA）。目標核苷酸序列可以在體外或在細胞中被RNA引導的核酸酶結合（並且在一些實施方式中被切割）。RGN靶向的染色體序列可以是核、質體或粒線體的染色體序列。在一些實施方式中，目標核苷酸序列在目標基因體中是獨特的。

目標核苷酸序列與前間區序列鄰近模體（PAM）相鄰。前間區序列鄰近模體通常在距目標核苷酸序列約1至約10個核苷酸內，包括距目標核苷酸序列約1、約2、約3、約4、約5、約6、約7、約8、約9或約10個核苷酸。PAM可以是目標序列的5'或3'。在一些實施方式中，PAM是目前揭露的RGN的目標序列的3'。通常，PAM是約3-4個核苷酸的共通(consensus)序列，但是在特定實施方式中，其長度可以是2、3、4、5、6、7、8、9或更多個核苷酸。在各種實施方式中，目前揭露的RGN識別的PAM序列包含如SEQ ID NO：7、22、30、41或49所示的共通序列。

在特定的實施方式中，具有SEQ ID NO：1、16、24、35、43或50的RNA引導的核酸酶或其活性變異體或片段分別與相鄰於如SEQ ID NO：7、22、30、41或49所示的PAM序列的目標核苷酸序列結合。在這些實施方式中的一些中，RGN分別與包含SEQ ID NO：2、17、25、36、44、51或63中所示的CRISPR重複序列或其活性變異體或片段的引導序列結合，以及分別與在SEQ ID NO：3、18、26、37、45、52或62中所示的tracrRNA序列或其活性變異體或片段結合。在本說明書的範例1和表1中進一步描述了RGN系統。

在本領域中眾所周知，對於給定核酸酶酵素的PAM序列專一性受酵素濃度的影響（參見，例如 Karvelis等人（2015）Genome Biol 16：253），其可以藉由改變用來表現RGN的啟動子、或傳遞到細胞、胞器或胚胎的核糖核蛋白錯合物的量來修飾。

識別其相應的PAM序列後，RGN可以在特定切割位點切割目標核苷酸序列。如本文所使用，切割位點由目標核苷酸序列內的兩個特定核苷酸組成，在該兩個特定核苷酸之間，該核苷酸序列被RGN切割。切割位點可以在5'或3'方向上包含PAM起的第一和第二、第二和第三、第三和第四、第四和第五、第五和第六、第七和第八、或第八和第九個核苷酸。在一些實施方式中，切割位點可在5’或3’方向上距PAM超過10、11、12、13、14、15、16、17、18、19或20個核苷酸。在一些實施方式中，切割位點距離PAM 4個核苷酸。在其他實施方式中，切割位點距離PAM至少15個核苷酸。由於RGN可以切割導致交錯的末端的目標核苷酸序列，所以在一些實施方式中，切割位點是基於多核苷酸的正（+）股上的該兩個核苷酸與PAM的距離以及多核苷酸的負（-）股上的兩個核苷酸與PAM的距離來定義的。III. 融合蛋白

如本文所使用，術語“連接子”是指連接兩個分子或部分（例如核酸酶的結合結構域和切割結構域）的化學基團或分子。在一些實施方式中，連接子連接RNA引導的核酸酶與去胺酶。在一些實施方式中，連接子連接dCas9與去胺酶。通常，連接子位於兩個基團、分子或其他部分之間或兩側，並經由共價鍵連接至每個基團、分子或其他部分，從而連接兩個基團、分子或其他部分。在一些實施方式中，連接子是胺基酸或多個胺基酸（例如，胜肽或蛋白質）。在一些實施方式中，連接子是有機分子、基團、聚合物或化學部分。在一些實施方式中，連接子的長度為5-100個胺基酸，例如，5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20， 21、22、23、24、25、26、27、28、29、30、30-35、35-40、40-45、45-50、50-60、60-70、70-80、80- 90、90-100、100-150或150-200個胺基酸。也可以考慮更長或更短的連接子。

本揭露內容的一些方面提供了包含DNA結合多肽和去胺酶多肽的融合蛋白。DNA結合多肽可以是與DNA結合的任何蛋白質或蛋白質結構域。在一些實施方式中，融合蛋白的DNA結合多肽是大範圍核酸酶、鋅指融合蛋白或TALEN。本揭露內容的一些方面提供了包含RNA引導的DNA結合多肽及去胺酶多肽的融合蛋白。在一些實施方式中，RNA引導的DNA結合多肽是RNA引導的核酸酶。在一些實施方式中，RNA引導的核酸酶是本發明的RGN。在一些實施方式中，RGN不是本發明的RGN。在進一步的實施方式中，RNA引導的核酸酶是CRISPR-Cas蛋白。在另外的實施方式中，CRISPR-Cas蛋白是第II型CRISPR-Cas蛋白。在其他實施方式中，CRISPR-Cas蛋白是第V型CRISPR-Cas蛋白。在其他實施方式中，CRISPR-Cas蛋白是第VI型CRISPR-Cas蛋白。在一些實施方式中，RNA引導的核酸酶是與引導RNA結合的Cas9結構域，該引導RNA又經由股雜交與目標核酸序列結合。在一些實施方式中，去胺酶多肽可以是可以對核鹼基(例如胞苷或腺嘌呤)進行去胺的去胺酶結構域。在一些實施方式中，去胺酶多肽包含選自SEQ ID NO：374-545或572-584中任一段或其變異體的胺基酸序列。在這些實施方式的一些中，去胺酶多肽包含選自SEQ ID NO：374、383、397、399、407、408、411、414、416、420、514和572-584中的任何一段、或其變異體的胺基酸序列。去胺酶對核鹼基的去胺作用可以導致各個殘基處的點突變，從而修飾DNA分子。這種修飾的行為在本文中也稱為核酸編輯、或鹼基編輯。因此可以將包含Cas9變異體或結構域和去胺酶結構域的融合蛋白用於核酸序列的靶向編輯。

這樣的融合蛋白可用於體外 DNA的靶向編輯，例如用於突變細胞的產生。這些突變細胞可以在植物或動物中。此類融合蛋白還可用於引入靶向突變，例如，用於離體哺乳動物細胞中（例如，從受試者獲得的細胞，所述細胞隨後被再次引入相同或另一受試者中)的遺傳缺陷的校正；並且用於引入靶向突變，例如在哺乳動物受試者中校正遺傳缺陷或在疾病相關聯的基因中引入失活突變。此類融合蛋白還可用於在植物細胞中引入靶向突變，例如，用於引入有益或農學上重要的性狀或對偶基因。

如本文所使用，術語“尿嘧啶糖苷酶抑制劑”或“UGI”是指能夠抑制尿嘧啶DNA糖苷酶鹼基切除式修復酶的蛋白質。在一些實施方式中，融合蛋白包含與去胺酶融合的核酸酶無活性的RGN，例如Cas9（dCas9）。在一些實施方式中，融合蛋白包含與去胺酶融合的切口酶RGN，例如Cas9（nCas9）。在一些實施方式中，融合蛋白包含與去胺酶融合並進一步與UGI結構域融合的核酸酶無活性的RGN或切口酶RGN。

在一些實施方式中，融合蛋白的切口酶RGN包含D10A突變或同源等效突變（SEQ ID NO：569；或類似地SEQ ID NO：553），這使得RGN能夠僅切割核酸雙股體的目標股（包含PAM的股)。在一些實施方式中，融合蛋白的核酸酶無活性的（“死亡的”）RGN包含D10A突變和H840A突變或同源等效突變（SEQ ID NO：568；或類似地SEQ ID NO：547），其使得RGN無法切割DNA目標。在一些實施方式中，融合蛋白的切口酶RGN包含H840A突變，其使得RGN能夠僅切割核酸雙股體的非目標股（不包含PAM的股）。包含H840A突變或等效突變的切口酶RGN具有無活性的HNH結構域。包含D10A突變或等效突變的切口酶RGN具有無活性的RuvC結構域。去胺酶作用於非目標股。包含D10A突變或等效突變的切口酶具有無活性的RuvC核酸酶結構域，並且不能切割DNA的非靶向股，即需要鹼基編輯的股。

在一些實施方式中，本文所述融合蛋白的RGN具有切口酶活性，其中切口酶可以是RGN的片段或RGN的切口酶變異體。在一些實施方式中，本文描述的融合蛋白的RGN結構域具有至少部分去活性的核酸酶活性，並且可以被稱為RNA引導的DNA結合多肽。還提供了使用本文所述的所述融合蛋白的方法。在一些實施方式中，RGN是Cas9蛋白。本文提供了非限制性的示例性核酸酶無活性的和切口酶Cas9結構域。一種示例性的合適的核酸酶無活性的RGN結構域是D10A/H840A Cas9結構域突變體（參見，例如，Qi等人，Cell. 2013； 152（5）：1173-83，其全部內容藉由引用併入本文）。基於本揭露內容，其他合適的核酸酶無活性的Cas9結構域對本領域具通常知識者將是清楚的。此類另外的示例性的合適的核酸酶無活性的Cas9結構域包括但不限於D10A、D10A/D839A/H840A和D10A/D839A/H840A/N863A突變結構域（參見，例如Mali等人，Nature Biotechnology. 2013；31（9）：833-838，其全部內容藉由引用併入本文）。另外，可以確定其他已知RGN的合適的核酸酶無活性的RGN結構域（例如，SEQ ID NO：547，RGN APG08290.1的核酸酶無活性的變異體；參見美國專利申請號16/432,321，其全部內容藉由引用併入本文）。

本揭露內容的一些方面提供了融合蛋白，其包含（i）核酸酶無活性的或切口酶RGN或結構域；以及（ii）去胺酶酵素或結構域。在一些實施方式中，去胺酶酵素或結構域是DNA編輯酵素或結構域。在一些實施方式中，去胺酶酵素具有去胺酶活性。在一些實施方式中，去胺酶酵素或結構域包含去胺酶結構域或為去胺酶結構域。在一些實施方式中，去胺酶是胞苷去胺酶。在一些實施方式中，去胺酶是缺脂脂蛋白(apolipoprotein) B mRNA編輯錯合物（APOBEC）家族去胺酶。在一些實施方式中，去胺酶是APOBEC1家族去胺酶。在其他實施方式中，去胺酶是APOBEC3家族去胺酶。在一些實施方式中，去胺酶是活化誘導的胞苷去胺酶（AID）。在一些實施方式中，去胺酶是ACF1/ASE去胺酶。在一些實施方式中，去胺酶是腺苷去胺酶。在一些實施方式中，去胺酶是ADAT家族去胺酶。一些核酸去胺酶酵素和結構域在本文中有詳細描述（參見表17）。基於本揭露內容，其他合適的去胺酶酵素或結構域對本領域技術人員而言是明顯的。在這些實施方式的一些中，去胺酶多肽包含選自SEQ ID NO：374、383、397、399、407、408、411、414、416、420、514和572-584中的任何一個、或其變異體的胺基酸序列。

本揭露內容提供了各種構型的融合蛋白。在一些實施方式中，去胺酶酵素或結構域與RGN結構域的N-端融合。在一些實施方式中，去胺酶酵素或結構域與RGN結構域的C-端融合。在一些實施方式中，連接子包含（GGGGS） _n （SEQ ID NO：585）、（G） _n （SEQ ID NO：586）、（EAAAK） _n （SEQ ID NO：587）、或（XP） _n （SEQ ID NO：588）模體、或任何這些的組合，其中n獨立地是1到30之間的整數。在一些實施方式中，n 是獨立地1、2、3、4、5、6、7 ，8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30，或者，如果存在超過一個的連接子或超過一個的連接子模體，則是其任意組合。其他合適的連接子模體和連接子構型對於本領域技術人員將是明顯的。在一些實施方式中，合適的連接子模體和構型包括Chen等人，融合蛋白連接子：性質、設計和功能性（Adv Drug Deliv Rev. 2013；65（10）：1357-69，其全部內容藉由引用併入本文）中描述的那些。基於本揭露內容，其他合適的連接子序列對本領域技術人員將是明顯的。

在一些實施方式中，本文提供的示例性融合蛋白的一般結構包括以下結構：[NH₂ ]-[去胺酶酵素或結構域]-[RGN蛋白或結構域] [COOH]或[NH₂ ]-[RGN蛋白或結構域]-[去胺酶酵素或結構域] [COOH]，其中NH₂ 是融合蛋白的N端，COOH是融合蛋白的C端。可能存在其他特徵，例如，在NLS與融合蛋白其餘部分之間及/或在去胺酶酵素或結構域與RGN蛋白或結構域之間的一個或多個連接子序列。可能存在的其他示例性特徵是定位序列，例如核定位序列、細胞質定位序列、輸出序列 (例如核輸出序列)、或其他定位序列，以及可用於溶解化、純化或檢測融合蛋白的序列標籤。本文提供的合適的定位訊號序列和蛋白質標籤序列，包括但不限於生物素羧酶載體蛋白（BCCP）標籤、myc標籤、鈣調蛋白標籤、FLAG標籤，血球凝集素（HA）標籤、多組胺酸標籤 (也稱為組胺酸標籤或His標籤)、麥芽糖結合蛋白（MBP）標籤、正離子標籤、麩胱甘肽S-轉移酶（GST）標籤、綠色螢光蛋白（GFP）標籤、硫氧還蛋白-標籤、S標籤、Softags（例如，Softag 1、Softag 3）、鏈黴菌標籤、生物素接合酶標籤、FlAsH標籤、V5標籤和SBP標籤。對於本領域技術人員而言，其他合適的序列將是明顯的。

在一些實施方式中，去胺酶酵素或具有去胺酶酵素或結構域的示例性融合蛋白的一般結構包括以下結構：[NH₂ ]-[NLS]-[RGN蛋白或結構域]-[去胺酶]-[COOH]、[NH₂ ]-[NLS]-[去胺酶]-[RGN蛋白或結構域]-[COOH]、[NH₂ ]-[RGN蛋白或域]-[去胺酶]-[COOH]或[NH₂ ]-[去胺酶]-[RGN蛋白或結構域]-[COOH]，其中NLS是核定位訊號，NH₂ 是融合蛋白的N端，而COOH是融合蛋白的C端。在一些實施方式中，將連接子插入RGN蛋白或結構域與去胺酶之間。在一些實施方式中，NLS位於去胺酶及/或RGN蛋白或結構域的C-端。在一些實施方式中，NLS位於去胺酶和RGN蛋白或結構域之間。也可能存在其他特徵，例如序列標籤。 “RGN蛋白或結構域”在此表示可用於產生本發明的融合蛋白的任何RNA引導的核酸酶，包括CRISPR-Cas蛋白及其變異體和突變體。RGN蛋白可以是核酸酶無活性的RGN或CRISPR-Cas，例如dCas9（SEQ ID NO：568）或可選地SEQ ID NO：547、或RGN或Cas9切口酶，例如SEQ ID NO：569（或SEQ ID NO：553）。在一些實施方式中，本發明的融合蛋白包含RNA引導的DNA結合多肽和去胺酶，其中去胺酶具有與SEQ ID NO：374-545或572-584或其活性變異體有至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、或100％的一致性的胺基酸序列。在這些實施方式的一些中，融合蛋白包含去胺酶多肽，所述去胺酶多肽包含選自SEQ ID NO：374、383、397、399、407、408、411、414、416、420、514以及572-584、或其變異體中的任何一個的胺基酸序列。這種融合蛋白的範例在本文的範例部分中描述。

一種示例性的合適類型的去胺酶酵素和結構域是例如APOBEC家族的胞嘧啶去胺酶。胞嘧啶去胺酶酵素的缺脂脂蛋白B mRNA編輯錯合物（APOBEC）家族包含十一種蛋白，這些蛋白以受控和有益的方式啟動誘變作用（Conticello等人，2008Genome Biology ，9（6）：229）。一個家族成員，活化誘導的胞苷去胺酶（AID），藉由將ssDNA中的胞嘧啶以轉錄依賴性、股偏向的方式轉化為尿嘧啶來負責抗體的成熟（Reynaud等人，2003. Nature Immunology，4（7）：631-638）。缺脂脂蛋白B編輯錯合物3（APOBEC3）酵素經由反轉錄病毒ssDNA中的胞嘧啶的去胺作用來提供人類細胞對某些HIV-1病毒株的保護（Bhagwat等人，2004，3（1）：85-9）。這些蛋白質均需要Zn²⁺ -配位模體（HisX-Glu-X_23-26 -Pro-Cys-X_2-4 -Cys；SEQ ID NO：589）和鍵結的水分子以用於催化活性。Glu殘基的作用是將水分子活化為氫氧化鋅，以用於去胺反應中的親核攻擊。每個家族成員都優先在其自己的特定“熱點”上去胺，範圍從針對hAID的WRC（Wis A或T，R為A或G）到針對hAPOBEC3F的TTC（Navaratnam等人，2006 Intl J Hematol 83（3）：195-200）。APOBEC3G催化結構域的最新晶體結構揭示了一個二級結構，該二級結構由五鏈β-折疊核心與側面相接的兩個六個α螺旋組成，據信在整個家族中都是保留的（Holden等人，2008 Nature 456（7218）：121-124）。活性中心環已經顯示出負責ssDNA結合和決定“熱點”一致性（Chelico等人，2009 J Biol Chem 284（41）：27761-27765）。這些酵素的過度表現與基因體不穩定性和癌症有關，因此突出了序列專一性靶向的重要性（Pham等人，2005 Biochem 44（8）：2703-2715）。

另一個示例性的合適類型的去胺酶酵素和結構域是腺苷去胺酶。可以將ADAT家族的腺苷去胺酶與RGN或RGN的片段或結構域或其變異體融合，例如核酸酶無活性的Cas9結構域，從而產生Cas9-ADAT融合蛋白。本揭露內容包括RGN或RGN的片段或結構域或其變異體與去胺酶 (例如胞嘧啶去胺酶，例如APOBEC酵素、或腺苷去胺酶酵素，例如ADAT酶)之間的系統的一系列融合，因此RGN-去胺酶融合作用將去胺酶的酵素活性導向基因體DNA中的特定位點。使用RGN作為識別劑的優點是雙重的：（1）可以藉由簡單地改變sgRNA序列而輕易地改變融合蛋白的序列專一性；以及（2）RGN（例如Cas9）藉由使dsDNA變性而與其目標序列結合，從而形成單股的一段DNA，且因此是去胺酶的有效受質。已經用人和小鼠去胺酶結構域，例如AID結構域產生成功的融合蛋白（WO 2010132092，藉由引用併入本文）。還考慮了本文記載的去胺酶與RGN之間的各種其他融合蛋白。

RGN-DNA錯合物中單股DNA的部分（RGN-DNA氣泡的大小）尚未描述。但是，在dCas9系統中已經顯示專門為錯合物設計以干擾轉錄的sgRNA，該轉錄干擾僅在sgRNA與非模板股結合時才會發生。該結果表明DNA-Cas9錯合物中的DNA的某些部分不受Cas9保護，並且可能潛在地被融合蛋白中的去胺酶靶向（Qi等人，2013 Cell 152（15）：1173-83）。因此，根據本揭露內容的方面，Cas9的N-端和C-端融合體或一般具有去胺酶結構域的RGN都是有用的。

在一些實施方式中，RGN的去胺酶結構域和RNA引導的DNA結合結構域經由連接子彼此融合。可以採用去胺酶結構域（例如，AID）和RGN結構域之間的各種連接子長度和靈活性（例如，從格式（GGGGS） _n （SEQ ID NO 590）和（G） _n 的非常靈活的連接子到格式（EAAAK） _n （SEQ ID NO：591）和（XP） _n 的更剛性的連接子），以實現針對特定應用的去胺酶活性的最佳長度。

提供了可以與根據本揭露內容的方面的RNA引導的DNA結合結構域融合的一些示例性的合適的核酸編輯酵素和結構域，例如去胺酶和去胺酶結構域（SEQ ID NO：374-545和572-584）。應當理解，在一些實施方式中，可以使用相應序列的活性結構域，例如，沒有定位訊號（核定位訊號、沒有核輸出訊號、細胞質定位訊號）的結構域。

在一些實施方式中，本文提供的融合蛋白包含去胺酶酵素的全長胺基酸，例如 SEQ ID NO：374-545或572-584中的任一個。然而，在其他實施方式中，如本文所提供的融合蛋白不包含核酸編輯酵素的全長序列，而僅包含其片段。例如，在一些實施方式中，本文提供的融合蛋白包含RNA引導的DNA結合結構域和去胺酶酵素的片段，例如，其中該片段包含去胺酶結構域。表17中描述了去胺酶結構域的示例性胺基酸序列，這些結構域的其他合適的序列對本領域技術人員而言是明顯的。

可以根據本發明的方面使用的另外的合適的核酸編輯酵素序列，例如去胺酶酵素和結構域序列，例如可以與核酸酶無活性的的或切口酶RGN結構域融合的序列，基於本揭露內容對於本領域技術人員而言將是明顯的。在一些實施方式中，這樣的另外的酵素序列包括去胺酶酵素或去胺酶結構域序列，其至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、或至少99％與本文提供的序列相似。其他合適的RGN結構域、變異體和序列對本領域技術人員而言也是明顯的。此類其他合適的RGN結構域的範例包括但不限於D10A、D10A/D839A/H840A和D10A/D839A/H840A/N863A突變結構域（參見，例如Mali等人，用於目標專一性篩選的Cas9轉錄活化子以及用於合作基因體工程的配對切口酶。Nature Biotechnology. 2013：31（9）：833-838，其全部內容藉由引用併入本文）。

基於本揭露內容並結合本領域的一般知識，用於產生包含RNA引導的DNA結合結構域和去胺酶結構域的融合蛋白的其他合適的策略對於本領域技術人員將是明顯的。鑑於本揭露內容和本領域的知識，使用連接子或不使用連接子產生根據本揭露內容的方面的融合蛋白的合適策略對於本領域技術人員也是明顯的。

在一些實施方式中，RNA引導的DNA結合結構域是具有切口酶活性的RGN蛋白變異體。在一些實施方式中，RNA引導的DNA結合結構域是RGN切口酶。在一些實施方式中，RGN是本發明的RGN。在其他實施方式中，RGN不是本發明的RGN。RGN切口酶可以是Cas9蛋白，其能夠僅切割雙股核酸分子（例如，雙股DNA分子，也稱為雙股DNA分子）的一股。在一些實施方式中，RGN切口酶切割雙股核酸分子的目標股，意味著RGN切口酶切割與結合至RGN的gRNA鹼基配對（互補）的股。在一些實施方式中，RGN切口酶包含D10A突變或等效突變。在其他實施方式中，RGN切口酶包含H840A突變或等效突變。例如，RGN切口酶可包含如SEQ ID NO：569所示的胺基酸序列。在一些實施方式中，RGN切口酶是D10A Cas9切口酶，其使Cas9的RuvC結構域失活並導致雙股核酸分子的目標、非鹼基編輯股的切割，意味著D10A Cas9切口酶會切割與結合至Cas9的gRNA（例如sgRNA）鹼基配對的股。在一些實施方式中，Cas9切口酶包含H840A突變，其使Cas9多肽的HNH結構域失活。H840A Cas9切口酶將切割非目標、鹼基編輯的股。在一些實施方式中，RGN切口酶包含與SEQ ID NO：568、569、547或553具有至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或至少99.5％的一致性的胺基酸序列。基於本揭露內容和本領域的知識（例如，在美國專利申請號16/432,321中揭露的RGN），對於本領域技術人員而言，突變為切口酶的其他合適的RGN蛋白將是明顯的，並且在本揭露內容的範圍內。

本揭露內容的一些方面涉及包含尿嘧啶糖苷酶抑制劑（UGI）結構域的融合蛋白。在一些實施方式中，本文提供的包含RNA引導的DNA結合結構域（例如，核酸酶活化的RGN結構域，或核酸酶無活性的或作為切口酶的RGN變異體）的任何融合蛋白可以直接或經由連接子進一步與至少一個UGI結構域融合。在一些實施方式中，將融合蛋白直接或經由連接子進一步與至少兩個UGI結構域融合。本揭露內容的一些方面提供了去胺酶-RGN融合蛋白、去胺酶-核酸酶無活性的RGN融合蛋白以及去胺酶-切口酶RGN融合蛋白，它們與至少一個UGI結構域進一步融合，並且與不包含UGI結構域的類似融合蛋白相比，具有增加的C→T核鹼基編輯效率。不希望受到任何特定理論的束縛，對U：G異源雙股DNA的存在的細胞DNA修復反應可能是造成細胞中核鹼基編輯效率下降的原因。例如，尿嘧啶DNA糖苷酶（UDG）催化從細胞中的DNA去除U，這可能啟動鹼基切除修復，最常見的結果是U：G對回復至C：G對。

本揭露內容考慮了包含本發明的去胺酶和進一步與UGI結構域融合的RNA引導的DNA結合多肽的融合蛋白。本揭露內容還考慮了包含進一步與UGI結構域融合的去胺酶、RGN切口酶或核酸酶無活性的RGN多肽的融合蛋白。應該理解的是，使用UGI結構域可以增加能夠催化C至U改變的核酸編輯結構域的編輯效率。例如，包含UGI結構域的融合蛋白可以更有效地使C殘基去胺。在一些實施方式中，融合蛋白包含以下結構：[去胺酶]-[可選的連接子序列]-[核酸酶無活性的RGN]-[可選的連接子序列]-[UGI]；[去胺酶]-[可選的連接子序列]-[UGI]-[可選的連接子序列]-[核酸酶無活性的RGN]；[UGI]-[可選的連接子序列]-[去胺酶]-[可選的連接子序列]-[核酸酶無活性的RGN]；[UGI]-[可選的連接子序列]-[核酸酶無活性的RGN]-[可選的連接子序列]-[去胺酶]；[核酸酶無活性的RGN]-[可選的連接子序列]-[去胺酶]-[可選的連接子序列]-[UGI]；或[核酸酶無活性的RGN]-[可選的連接子序列]-[UGI]-[可選的連接子序列]-[去胺酶]。應當理解，“核酸酶無活性的RGN”代表已經被突變為核酸酶無活性的任何RGN，包括任何CRISPR-Cas蛋白。還應該理解，“UGI”代表一個或更多個UGI結構域。

在其他實施方式中，融合蛋白包含以下結構：[去胺酶]-[可選的連接子序列]-[RGN切口酶]-[可選的連接子序列]-[UGI]；[去胺酶]-[可選的連接子序列]-[UGI]- [可選的連接子序列]-[RGN切口酶]；[UGI]-[可選的連接子序列]-[去胺酶] [可選的連接子序列]-[RGN切口酶]；[UGI]-[可選的連接子序列]-[RGN切口酶]-[可選的連接子序列]-[去胺酶]；[RGN切口酶]-[可選的連接子序列] [去胺酶]-[可選的連接子序列]-[UGI]；或[RGN切口酶]-[可選的連接子序列]-[UGI]-[可選的連接子序列]-[去胺酶]。應當理解，“RGN切口酶”代表任何RGN，包括任何CRISPR-Cas蛋白，其已被突變作為切口酶。還應該理解，“ UGI”代表一個或更多個UGI結構域。

在一些實施方式中，本文提供的融合蛋白不包含連接子序列。在一些實施方式中，存在一個或兩個可選的連接子序列。

在一些實施方式中，以上通用結構中使用的“-”表示存在可選的連接子序列。在一些實施方式中，包含UGI的融合蛋白還包含核靶向序列，例如核定位序列。在一些實施方式中，本文提供的融合蛋白進一步包含核定位序列（NLS）。在一些實施方式中，將NLS與融合蛋白的N端融合。在一些實施方式中，將NLS與融合蛋白的C端融合。在一些實施方式中，將NLS與UGI蛋白的N端融合。在一些實施方式中，將NLS與UGI蛋白的C端融合。在一些實施方式中，NLS與RGN蛋白的N端融合。在一些實施方式中，NLS與RGN蛋白的C端融合。在一些實施方式中，NLS與去胺酶的N端融合。在一些實施方式中，將NLS與去胺酶的C端融合。在一些實施方式中，NLS與第二RGN的N端融合。在一些實施方式中，NLS與第二RGN的C端融合。在一些實施方式中，NLS經由一或更多個連接子與融合蛋白融合。在一些實施方式中，NLS不需連接子與融合蛋白融合。在一些實施方式中，NLS包含本文提供或引用的NLS序列中任一個的胺基酸序列。在一些實施方式中，NLS包含如SEQ ID NO：10所示的胺基酸序列。

在一些實施方式中，UGI結構域包含野生型UGI或如SEQ ID NO：570所示的UGI。在一些實施方式中，本文提供的UGI蛋白包括UGI的片段以及與UGI或UGI片段同源的蛋白。例如，在一些實施方式中，UGI結構域包含SEQ ID NO：570所示胺基酸序列的片段。在一些實施方式中，UGI片段包含一胺基酸序列，該胺基酸序列包含如SEQ ID NO：570中所示的胺基酸序列的至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少99.5％。在一些實施方式中，UGI包含與SEQ ID NO：570所示的胺基酸序列同源的胺基酸序列或與SEQ ID NO：570所示的胺基酸序列的片段同源的胺基酸序列。在一些實施方式中，包含UGI或UGI的片段的蛋白質或UGI或UGI片段的同源物稱為“ UGI變異體”。UGI變異體與UGI或其片段具有同源性。例如，UGI變異體與野生型UGI或如SEQ ID NO：570中所示的UGI至少70％相同、至少75％相同、至少80％相同、至少85％相同、至少90％相同、至少95％相同、至少96％相同、至少97％相同、至少98％相同、至少99％相同、至少99.5％相同、或至少99.9％相同。在一些實施方式中，UGI變異體包含UGI的片段，使得該片段與野生型UGI或如SEQ ID NO：570中所示的UGI相應的的片段至少70％相同、至少80％相同、至少90％相同、至少95％相同、至少96％相同、至少97％相同、至少98％相同、至少99％相同、至少99.5％相同、或至少99.9％相同。

本文提供了合適的UGI蛋白和核苷酸序列，並且另外的合適的UGI序列是本領域技術人員已知的，並且包括例如在Wang等人，1989 J. Biol. Chem. 264：1163-1171；Lundquist等人，1997. J. Biol. Chem. 272：21408-21419； Ravishankar等人，1998 Nucleic Acids Res. 26：4880-4887；以及Putnam等人，1999 J. Mol. Biol. 287：331-346（1999）中公開的那些，其全部內容藉由引用併入本文。

應當理解，其他蛋白質可以是尿嘧啶糖苷酶抑制劑。例如，能夠抑制（例如，空間阻斷）尿嘧啶-DNA糖苷酶鹼基切除修復酵素的其他蛋白質在本揭露內容的範圍內。另外，阻斷或抑制鹼基切除修復的任何蛋白質也在本揭露內容的範圍內。在一些實施方式中，使用結合DNA的蛋白質。在另一個實施方式中，使用UGI的替代物。在一些實施方式中，尿嘧啶糖苷酶抑制劑是結合單股DNA的蛋白質。例如，尿嘧啶糖苷酶抑制劑可以是塔斯曼尼歐文氏菌(Erwinia tasmaniensis )單股結合蛋白。在一些實施方式中，尿嘧啶糖苷酶抑制劑是結合尿嘧啶的蛋白質。在一些實施方式中，尿嘧啶糖苷酶抑制劑是結合DNA中的尿嘧啶的蛋白質。在一些實施方式中，尿嘧啶糖苷酶抑制劑是催化無活性的尿嘧啶DNA-糖苷酶蛋白。在一些實施方式中，尿嘧啶糖苷酶抑制劑是不從DNA中切除尿嘧啶的催化無活性的尿嘧啶DNA-糖苷酶蛋白。應當理解，其他尿嘧啶糖苷酶抑制劑對於本領域技術人員將是明顯的，並且在本揭露內容的範圍內。本文提供了合適的UGI蛋白序列（SEQ ID NO：570），並且另外的合適的UGI序列是本領域技術人員已知的，並且包括例如在Wang等人，1989 J. Biol. Chem. 264：1163-1171；Lundquist等人，1997 J. Biol. Chem. 272：21408-21419；Ravishankar等人1998 Nucleic Acids Res. 26：4880-4887；以及Putnam等人，1999 J. Mol. Biol. 287：331-346中公開的那些，其全部內容藉由引用合併於本文。在一些實施方式中，可選的連接子包含（SGGS）_n （SEQ ID NO：592）模體，其中n是1、2、3、4、5、6、7、8、9、19、11、12、13、14、15、16、17、18、19或20。在一些實施方式中，可選的連接子包含如SEQ ID NO：546中所示的胺基酸序列。

在某些實施方式中，目前公開的融合蛋白包含促進細胞攝取RGN的至少一個細胞穿透結構域。細胞穿透結構域是本領域已知的，並且通常包括數段帶正電荷的胺基酸殘基（即聚陽離子細胞穿透結構域）、交替的極性胺基酸殘基和非極性胺基酸殘基（即兩親性細胞穿透結構域）、或疏水性胺基酸殘基（即疏水性細胞穿透結構域）（參見，例如Milletti F.（2012）Drug Discov Today 17：850-860）。細胞穿透結構域的非限制性範例是來自人類免疫不全病毒1的轉錄活化轉錄活化子（TAT）。

核定位訊號、質體定位訊號、粒線體定位訊號、雙重靶向定位訊號及/或細胞穿透結構域可以位於胺端（N端）、羧端（C端）、或在融合蛋白的內部位置中。.

本發明的另一個實施方式是包含融合蛋白和引導RNA的核糖核蛋白錯合物，引導RNA作為單引導RNA或雙引導RNA（統稱為gRNA）。IV. 編碼 RNA 引導的核酸酶、 RNA 引導的 DNA 結合多肽、去胺酶、 CRISPR RNA 、 tracrRNA 和 gRNA 的核苷酸

本揭露內容提供了包含目前揭露的RGN、RNA引導的DNA結合多肽去胺酶融合體、去胺酶、CRISPR RNA、tracrRNA及/或sgRNA的多核苷酸。目前揭露的多核苷酸包括包含或編碼CRISPR重複序列的那些，所述CRISPR重複序列包含SEQ ID NO：2、17、25、36、44、51或63、或其活性變異體或片段的核苷酸序列，當該核苷酸序列包含在引導RNA中時能夠引導相關聯的RNA引導的核酸酶與感興趣的目標序列的序列專一性結合。還揭露了包含或編碼tracrRNA的多核苷酸，該多核苷酸包含SEQ ID NO：3、18、26、37、45、52或62、或其活性變異體或片段的核苷酸序列，當該核苷酸序列包含在引導RNA中時能夠引導相關聯的RNA引導的核酸酶與感興趣的目標序列的序列專一性結合。還提供了編碼RGN的多核苷酸，該RGN包含如SEQ ID NO：1、16、24、35、43或50、及其活性片段或變異體所示的胺基酸序列，該胺基酸序列保留以RNA引導的序列專一性方式結合至目標核苷酸序列的能力。

本揭露內容進一步提供編碼融合蛋白的多核苷酸，所述融合蛋白包含本文記載的去胺酶（SEQ ID NO：374-545及572-584、或其活性變異體）和DNA結合多肽，例如大範圍核酸酶、鋅指融合蛋白或TALEN。本揭露內容還提供了編碼融合蛋白的多核苷酸，所述融合蛋白包含本文記載的去胺酶和RNA引導的DNA結合多肽。此類RNA引導的DNA結合多肽可以是本發明的RGN、本領域已知的RGN、CRISPR-Cas蛋白或其任何的蛋白變異體。蛋白變異體可以是核酸酶無活性的或切口酶。這樣的RGN變異體的範例包括核酸酶無活性的RGN（SEQ ID NO：568或SEQ ID NO：547）或RGN切口酶突變體（SEQ ID NO：569或SEQ ID NO：553）。RGN核酸酶的其他範例是本領域眾所周知的，並且類似的相應突變可以產生也是核酸酶無活性的或切口酶的突變變異體。

術語“多核苷酸”的使用無意將本揭露內容限制於包含DNA的多核苷酸。本領域普通技術人員將認知到，多核苷酸可包含核糖核苷酸（RNA）以及核糖核苷酸和去氧核糖核苷酸的組合。這樣的去氧核糖核苷酸和核糖核苷酸包括天然存在的分子和合成類似物。這些包括胜肽核酸（PNA）、PNA-DNA嵌合體、鎖核酸（LNA）、和硫代磷酸酯連接的序列。本文揭露的多核苷酸也涵蓋序列的所有形式，包括但不限於單股形式、雙股形式、DNA-RNA雜合體、三股體結構、莖環結構等。

可以對編碼RGN、去胺酶、或融合蛋白的核酸分子進行密碼子最佳化以在感興趣的生物中表現。“密碼子最佳化的”編碼序列是其密碼子使用頻率被設計為模擬特定宿主細胞的較佳密碼子使用頻率或轉錄條件的多核苷酸編碼序列。由於一或更多個密碼子在核酸水平上的改變，增強了在特定宿主細胞或生物中的表現，使得轉譯的胺基酸序列不發生改變。核酸分子可以全部或部分被密碼子最佳化。在本領域中可獲得提供了廣泛的生物的偏好資訊的密碼子表和其他參考文獻（參見，例如，Campbell和Gowri（1990）Plant Physiol. 92：1-11，用於討論植物偏好的密碼子使用）。本領域中可獲得用於合成植物偏好的基因的方法。參見例如美國專利號5,380,831和5,436,391，以及Murray等人（1989）Nucleic Acids Res. 17：477-498，其藉由引用併入本文。

可以在表現匣中提供編碼本文提供的RGN、RNA引導的DNA結合多肽-去胺酶融合體、去胺酶、crRNA、tracrRNA及/或sgRNA的多核苷酸，以在體外表現或在感興趣的細胞、胞器、胚胎或生物中表現。所述匣將包含與允許該多核苷酸表現、編碼本文所提供的RGN、RNA引導的DNA結合多肽-去胺酶融合體、去胺酶、crRNA、tracrRNA及/或sgRNA的多核苷酸可操作地連接的5'和3'調節序列。匣可另外包含至少一種額外的基因或遺傳元件以共轉化至生物中。在包括額外基因或元件的情況下，這些成分可操作地被連接。術語“可操作地連接”旨在表示兩個或更多元件之間的功能連接。例如，啟動子和感興趣的編碼區域（例如，編碼RGN、RNA引導的DNA結合多肽-去胺酶融合體、去胺酶、crRNA、tracrRNA及/或sgRNA的區域）之間的可操作連接是允許表現感興趣的編碼區域的功能性連接。可操作連接的元件可以是連續的或不連續的。當用於指兩個蛋白質編碼區域的連接時，可操作地連接是指編碼區域在同一閱讀框中。或者，可以在多個表現匣上提供額外的基因或元件。例如，編碼目前揭露的RGN的核苷酸序列可以存在於一個表現匣上，而編碼crRNA、tracrRNA或完整的引導RNA的核苷酸序列可以在單獨的表現匣上。這種表現匣設置有多個限制位點及/或重組位點，用於插入多核苷酸以處於調節區域的轉錄調節之下。表現匣可以另外包含可選擇的標記基因。

表現匣將在轉錄的5'-3'方向上包括轉錄（以及在一些實施方式中為轉譯）起始區域（即啟動子）、編碼本發明的多核苷酸的RGN-、RNA-引導的DNA結合多肽-去胺酶融合體-、去胺酶、crRNA、tracrRNA及/或sgRNA、以及在感興趣的生物體中起作用的轉錄（和在一些實施方式中為轉譯）終止區域（即，終止區域）。本發明的啟動子能夠在宿主細胞中引導或驅動編碼序列的表現。調節區域（例如啟動子、轉錄調節區域及轉譯終止區域）可與宿主細胞內源或異源或彼此可以是內源的或異源的。如本文所使用，關於序列的“異源”是源自外來物種的序列，或者如果來自相同物種，則是藉由有意的人為干預從其天然形式在組成及/或基因體位點上進行實質性修飾的序列。如本文所使用，嵌合基因包含可操作地連接至與編碼序列異源的轉錄起始區域的編碼序列。

可從農桿菌 的Ti質體中獲得方便的終止區域，例如章魚鹼合成酶和胭脂鹼合成酶終止區域。也參見Guerineau等人（1991）Mol. Gen. Genet. 262：141-144；Proudfoot（1991）Cell 64：671-674；Sanfacon等人（1991）Genes Dev. 5：141-149；Mogen等人（1990）Plant Cell 2：1261-1272； Munroe等人（1990）Gene 91：151-158；Ballas等人（1989）Nucleic Acids Res. 17：7891-7903；以及Joshi等人（1987）Nucleic Acids Res. 15：9627-9639。

另外的調節訊號包括但不限於轉錄起始開始位點、操縱子、活化子、增強子、其他調節元件、核糖體結合位點、起始密碼子、終止訊號等。參見，例如，美國專利號5,039,523和4,853,331；EPO 0480762A2；Sambrook等人（1992）Molecular Cloning：A Laboratory Manual，Maniatis等人編輯（冷泉港實驗室出版社，紐約冷泉港），以下簡稱“Sambrook 11”；Davis等人編輯（1980）Advanced Bacterial Genetics（冷泉港實驗室出版社），紐約州冷泉港，以及其中記載的參考文獻。

在製備表現匣時，可以操縱各種DNA片段，以便以正確的方向和適當的閱讀框提供DNA序列。為此，可以使用銜接子或連接子來結合DNA片段，或者可以涉及其他操作以提供方便的限制位點、去除多餘的DNA、去除限制位點等。為此目的，可能涉及體外誘變、引子修復、限制、黏合(annealing)、重新取代 (例如轉變和置換)。

許多啟動子可用於實施本發明。可以基於期望的結果選擇啟動子。核酸可以與持續型、可誘導型、生長階段特異性、細胞類型特異性、組織偏好、組織特異性或其他啟動子結合以在感興趣的生物中表現。參見，例如，在WO 99/43838和美國專利號：8,575,425；7,790,846；8,147,856；8,586832；7,772,369；7,534,939；6,072,050；5,659,026；5,608,149；5,608,144；5,604,121；5,569,597；5,466,785；5,399,680；5,268,463；5,608,142；及6,177,611中示出的啟動子；藉由引用併入本文。

為了在植物中表現，持續型啟動子還包括CaMV 35S啟動子（Odell等人，（1985）Nature 313：810-812）；水稻肌動蛋白（McElroy等人（1990）Plant Cell 2：163-171）；泛素（Christensen等人（1989）Plant Mol. Biol. 12：619-632以及Christensen等人（1992）Plant Mol. Biol. 18：675-689）；pEMU（Last等人，（1991）Theor. Appl. Genet. 81：581-588）；以及MAS（Velten等人（1984）EMBO J. 3：2723-2730）。

可誘導型啟動子的範例是可藉由缺氧或冷逆境誘導的Adh1啟動子、可藉由熱逆境誘導的Hsp70啟動子，均可藉由光誘導的PPDK啟動子和磷酸烯醇丙酮酸羧化酶(pepcarboxylase)啟動子。可化學誘導的啟動子也是有用的，例如保護劑誘導的In2-2啟動子（美國專利號5,364,780）、生長素誘導的絨氈層特異性但在癒傷組織中有活性的Axig1啟動子（PCT US01/22169）、類固醇反應性啟動子（例如參見Schena等人（1991）Proc. Natl. Acad. Sci. USA 88：10421-10425和McNellis等人（1998）Plant J. 14（2）：247-257中的雌激素誘導的ERE啟動子和糖皮質激素可誘導型啟動子）以及四環素可誘導型和四環素可抑制型啟動子（參見，例如，Gatz等人（1991）Mol. Gen. Genet. 227：229- 237，以及美國專利號5814618和5789156），藉由引用併入本文。

組織特異性或組織偏好的啟動子可用於靶向表現構築體在特定組織內的表現。在某些實施方式中，組織特異性或組織偏好的啟動子在植物組織中有活性。在植物中受發育控制的啟動子的例子包括在某些組織（例如葉、根、果實、種子或花）中優先起始轉錄的啟動子。“組織特異性”啟動子是僅在某些組織中起始轉錄的啟動子。與基因的持續型表現不同，組織特異性表現是基因調控的幾個相互作用水平的結果。這樣，來自同源或緊密相關的植物物種的啟動子可以在特定組織中被偏好使用以實現轉基因的有效和可靠的表現。在一些實施方式中，該表現包含組織偏好的啟動子。 “組織偏好的”啟動子是偏好地、但不一定完全或僅在某些組織中啟動轉錄的啟動子。

在一些實施方式中，編碼RGN、RNA引導的DNA結合多肽去胺酶融合體、去胺酶、crRNA及/或tracrRNA的核酸分子包含細胞類型特異性啟動子。 “細胞類型特異性”啟動子是主要在一或更多個器官中的某些細胞類型中驅動表現的啟動子。其中在植物中起作用的細胞類型特異性啟動子可能主要地具有活性的植物細胞的一些例子包括例如BETL細胞、根、葉中的維管束細胞、柄細胞及莖細胞。核酸分子還可包括細胞類型偏好的啟動子。“細胞類型偏好的”啟動子是主要、但不一定完全或僅在一或更多個器官中的某些細胞類型中驅動表現的啟動子。其中在植物中起作用的細胞類型偏好的啟動子可能優先具有活性的植物細胞的一些例子包括例如BETL細胞、根、葉中的維管束細胞、柄細胞和莖細胞。

編碼RGN、RNA引導的DNA結合多肽去胺酶融合體、去胺酶、crRNA、tracrRNA及/或sgRNA的核酸序列可與由例如用於體外mRNA合成的噬菌體RNA聚合酶識別的啟動子序列可操作地連接。在這樣的實施方式中，可以純化體外轉錄的RNA以用於本文所述的方法。例如，啟動子序列可以是T7、T3或SP6啟動子序列或T7、T3或SP6啟動子序列的變化。在這樣的實施方式中，可以純化表現的蛋白質及/或RNA，以用於本文所述的基因體修飾。

在某些實施方式中，編碼RGN、RNA引導的DNA結合多肽-去胺酶融合體、去胺酶、crRNA、tracrRNA及/或sgRNA的多核苷酸也可以連接至聚腺苷酸化訊號（例如，SV40 polyA訊號以及其他在植物中有功能的訊號）及/或至少一個轉錄終止序列。另外，如本文其他地方所述，編碼RGN、RNA引導的DNA結合多肽-去胺酶融合體或去胺酶的序列也可以與編碼至少一個核定位訊號、至少一個細胞穿透結構域、及/或能夠將蛋白質運輸到特定亞細胞位置的至少一種訊號肽的序列連接。

編碼RGN、RNA引導的DNA結合多肽-去胺酶融合體、去胺酶、crRNA、tracrRNA及/或sgRNA的多核苷酸可以存在於一個載體或多個載體中。“載體”是指用於將核酸轉移、遞送或引入宿主細胞的多核苷酸組合物。合適的載體包括質體載體、噬菌粒(phagemid)、黏接質體(cosmid)、人工/微型染色體、轉位子和病毒載體（例如慢病毒載體、腺相關病毒載體、桿狀病毒載體）。載體可以包含另外的表現控制序列（例如，增強子序列、Kozak序列、聚腺苷酸化序列、轉錄終止序列）、篩選標記序列（例如，抗生素抗性基因）、複製起點等。其他資訊可以在Ausubel等人的“Current Protocols in Molecular Biology”（約翰威利父子公司，紐約，2003年）或“Molecular Cloning: A Laboratory Manual” (Sambrook ＆ Russell，冷泉港出版社，冷泉港，紐約，第3版，2001年)中找到。

載體還可包含用於選擇轉化細胞的篩選標記基因。篩選標記基因用於選擇轉化的細胞或組織。標記基因包括編碼抗生素抗性的基因（例如編碼新黴素磷酸轉移酶II（NEO）和潮黴素磷酸轉移酶（HPT）的那些基因）以及賦予對除草化合物(例如草銨膦銨、溴苯腈、咪唑啉酮、以及2,4-二氯苯氧基乙酸酯（2,4-D）) 的抗性的基因。

在一些實施方式中，包含編碼RGN多肽、RNA引導的DNA結合多肽-去胺酶融合體或去胺酶的序列的表現匣或載體可以進一步包含編碼crRNA及/或tracrRNA、或crRNA和tracrRNA結合的序列以產生引導RNA。可以將編碼crRNA及/或tracrRNA的序列可操作地連接至至少一個轉錄控制序列，以在感興趣的生物或宿主細胞中表現crRNA及/或tracrRNA。例如，可以將編碼crRNA及/或tracrRNA的多核苷酸可操作地連接至被RNA聚合酶III（Pol III）識別的啟動子序列。合適的Pol III啟動子的範例包括但不限於哺乳動物U6、U3、H1、和7SL RNA啟動子以及水稻U6和U3啟動子。

如所指出的，包含編碼RGN、RNA引導的DNA結合多肽-去胺酶融合體、去胺酶、crRNA、tracrRNA及/或sgRNA的核苷酸序列的表現構築體可用於轉化感興趣的生物。轉化方法涉及將核苷酸構築體引入感興趣的生物中。“引入”意在將核苷酸構築體以這樣的方式引入宿主細胞，使得該構築體能夠進入宿主細胞的內部。本發明的方法不需要用於將核苷酸構築體引入宿主生物的特定方法，僅在於核苷酸構築體能夠進入宿主生物的至少一個細胞的內部。宿主細胞可以是真核或原核細胞。在特定的實施方式中，真核宿主細胞是植物細胞、哺乳動物細胞或昆蟲細胞。將核苷酸構築體引入植物和其他宿主細胞的方法是本領域已知的，包括但不限於穩定轉化方法、短暫轉化方法和病毒介導的方法。

該方法產生轉化的生物，例如植物，包括整株植物、以及植物器官（例如葉、莖、根等）、種子、植物細胞、繁殖體、胚胎和它們的後代。植物細胞可以是分化的或未分化的（例如癒傷組織、懸浮培養細胞、原生質體、葉細胞、根細胞、韌皮部細胞、花粉）。

“轉基因生物”或“轉化的生物”或“穩定轉化的”生物或細胞或組織是指已併入或整合了編碼本發明的RGN、RNA引導的DNA結合多肽-去胺酶融合體、去胺酶、crRNA及/或tracrRNA的多核苷酸的生物。認定其他外源的或內源的核酸序列或DNA片段也可以併入宿主細胞中。農桿菌和基因槍(biolistic)介導的轉化仍然是植物細胞轉化的兩種主要採用的方法。但是，宿主細胞的轉化可以藉由感染、轉染、顯微注射、電穿孔、微噴射、基因槍或粒子轟擊、電穿孔、二氧化矽/碳纖維、超音波介導、PEG介導、磷酸鈣共沉澱、聚陽離子DMSO技術、DEAE聚葡萄糖程序、以及病毒介導的、脂質體介導的之類的來進行。編碼RGN、RNA引導的DNA結合多肽去胺酶融合體、去胺酶、crRNA及/或tracrRNA的多核苷酸的病毒介導的引入包括反轉錄病毒、慢病毒、腺病毒和腺相關病毒介導的引入和表現、以及花椰菜嵌紋病毒、雙生病毒和RNA植物病毒的使用。

轉化操作流程以及用於將多肽或多核苷酸序列引入植物中的操作流程可以根據轉化所靶向的宿主細胞的類型（例如單子葉植物或雙子葉植物細胞）而變化。轉化方法是本領域已知的，且包括美國專利號：8,575,425；7,692,068； 8,802,934；7,541,517中所示的那些，其中每一個均藉由引用併入本文。還參見，Rakoczy-Trojanowska, M.（2002）Cell Mol Biol Lett. 7：849-858；Jones等人（2005）Plant Methods 1：5；Rivera等人（2012）Physics of Life Reviews 9：308-345；Bartlett等人（2008）Plant Methods 4：1-12；Bates（G.W.）（1999）Methods in Molecular Biology 111：359-366；Binns及Thomashow（1988）Annual Reviews in Microbiology 42：575-606；Christou, P.（1992）The Plant Journal 2：275-281；Christou, P.（1995）Euphytica 85：13-27；Tzfira等人（2004）TRENDS in Genetics 20：375-383；Yao等人（2006）Journal of Experiment Botany 57：3737-3746；Zupan和Zambryski（1995）Plant Physiology 107：1041-1047；Jones等人（2005）Plant Methods 1：5。

轉化可導致核酸穩定的或短暫併入細胞。“穩定的轉化”是指引入宿主細胞的核苷酸構築體整合到宿主細胞的基因體中，並能夠被其子代遺傳。“短暫轉化”是指將多核苷酸引入宿主細胞中，並且不整合到宿主細胞的基因體中。

轉化葉綠體的方法是本領域已知的，參見，例如，Svab等人（1990）Proc. Nail. Acad. Sci. USA 87：8526-8530；Svab和Maliga（1993）Proc. Natl. Acad. Sci. USA 90：913-917；Svab和Maliga（1993）EMBO J. 12：601-606。該方法依賴於含有篩選標記的DNA的粒子槍遞送，以及經由同源重組將DNA靶向質體基因體。另外，質體轉化可以藉由核編碼和質體定向的RNA聚合酶的組織偏好表現藉由沉默的質體攜帶轉基因的轉錄活化而實現。這樣的系統已經於McBride等人（1994）Proc. Natl. Acad. Sci. USA 91：7301-7305中被報導。

根據傳統方式，已轉化的細胞可以生長成轉基因生物，例如植物。參見，例如，McCormick等人（1986）Plant Cell Reports 5：81-84。然後可以使這些植物生長，並用相同的轉化株或不同株進行授粉，並鑑定出具有所需表型特徵的持續型表現的所得雜交種。可以生長兩代或更多代，以確保穩定地維持和遺傳所需表型特徵的表現，然後收穫種子以確保已實現所需表型特徵的表現。以這種方式，本發明提供了穩定地併入其基因體中的具有本發明的核苷酸構築體(例如本發明的表現匣)的轉化的種子（也稱為“轉基因種子”）。

或者，可以將已經轉化的細胞引入生物中。這些細胞可能起源於生物，其中該細胞是以離體方法轉化。

本文提供的序列可用於轉化任何植物物種，包括但不限於單子葉植物和雙子葉植物。感興趣的植物的範例包括但不限於玉米（玉蜀黍）、高粱、小麥、向日葵、番茄、十字花科植物、胡椒、馬鈴薯、棉花、水稻、大豆、甜菜、甘蔗、煙草、大麥和油菜、甘藍型油菜、苜蓿、黑麥、小米、紅花、花生、甘藷、木薯、咖啡、椰子、鳳梨、柑桔、可可、茶、香蕉、鱷梨、無花果、番石榴、芒果、橄欖、木瓜、腰果、澳洲胡桃、杏仁、燕麥、蔬菜、觀賞植物和針葉樹。

蔬菜包括但不限於番茄、萵苣、青豆、利馬豆(lima bean) 、豌豆和甜瓜屬的成員 (例如黃瓜、哈密瓜和洋香瓜)。觀賞植物包括但不限於杜鵑花、繡球、芙蓉、玫瑰、鬱金香、水仙花、矮牽牛、康乃馨、耶誕紅和菊花。較佳地，本發明的植物是農作物（例如，玉蜀黍、高粱、小麥、向日葵、番茄、十字花科植物、胡椒、馬鈴薯、棉花、水稻、大豆、甜菜、甘蔗、煙草、大麥、油菜等）。

如本文所使用，術語植物包括植物細胞、植物原生質體、可從其再生植物的植物細胞組織培養物、植物癒傷組織、植物叢、和在植物或植物的部分中完整的植物細胞 (例如胚胎、花粉、胚珠、種子、葉、花、枝、果實、仁、穗、穗軸、果殼、莖、根、根尖、花藥等)。穀物意指由商業種植者出於生長或繁殖物種以外的目的而生產的成熟種子。再生植物的後代、變異體和突變體也包括在本發明的範圍內，條件是這些部分包含引入的多核苷酸。還提供了保留了本文揭露的序列的加工過的植物產品或副產物，包括例如豆粕。

編碼RGN，RNA引導的DNA結合多肽-去胺酶融合體、去胺酶、crRNA及/或tracrRNA的多核苷酸也可用於轉化任何原核物種，包括但不限於古細菌和細菌（例如芽孢桿菌、克雷伯菌屬、鏈黴菌屬、根瘤菌屬、埃希氏菌屬、假單胞菌屬、沙門氏菌屬、志賀氏菌屬、弧菌屬、耶爾森菌屬、支原體屬、農桿菌屬、乳桿菌屬）。

編碼RGN、RNA引導的DNA結合多肽-去胺酶融合體、去胺酶、crRNA及/或tracrRNA的多核苷酸可用於轉化任何真核物種，包括但不限於動物（例如，哺乳動物、昆蟲、魚類、鳥類和爬蟲類）、真菌、變形蟲、藻類和酵母。

傳統的基於病毒和非病毒的基因轉移方法可用於將核酸引入哺乳動物細胞或目標組織中。此類方法可用於向培養物中或宿主生物中的細胞投予編碼CRISPR系統成分的核酸。非病毒載體遞送系統包括DNA質體、RNA（例如本文所述載體的轉錄本）、裸核酸以及與諸如脂質體的遞送載體複合的核酸。病毒載體遞送系統包括DNA和RNA病毒，它們在遞送至細胞後具有游離基因體或整合的基因體。有關基因治療程序的綜述，請參見Anderson，Science 256：808-813（1992）； Nabel＆Feigner，TIBTECH 11：211-217（1993）；Mitani ＆ Caskey，TIBTECH 11：162-166（1993）； Dillon，TIBTECH 11：167-175（1993）；Miller，Nature 357：455-460（1992）；Van Brunt，Biotechnology 6（10）：1149-1154（1988）；Vigne，Restoative Neurology and Neuroscience 8：35-36（1995）；Kremer＆Perricaudet，British Medical Bulletin 51（1）：31-44（1995）；Haddada等人，於Current Topics in Microbiology and Immunology，Doerfler及Bohm（編輯）（1995）；以及Yu等人，Gene Therapy 1：13-26（1994）。

核酸的非病毒遞送方法包括脂質體轉染、核轉染、顯微注射、基因槍、病毒體、脂質體、免疫脂質體、聚陽離子或脂質：核酸結合物、裸露的DNA、人工病毒體和DNA的試劑增強攝取。脂質體轉染描述於例如美國專利號5,049,386、4,946,787；和4,897,355）中以及脂質體轉染試劑在商業上出售（例如Transfectam™和Lipofectin™）。適用於多核苷酸的有效受體識別脂質體轉染的陽離子脂質和中性脂質包括Feigner的WO 91/17424； WO 91/16024中的那些。遞送可以是至細胞（例如體外或離體投予）或目標組織（例如體內投予）。脂質：核酸錯合物(包括靶向脂質體，例如免疫脂質錯合物) 的製備是本領域技術人員所熟知的（參見，例如，Crystal，Science 270：404-410（1995）；Blaese等人，Cancer Gene Ther. 2：291-297（1995）；Behr等人，Bioconjugate Chem. 5：382-389（1994）；Remy等人，Bioconjugate Chem. 5：647-654（1994）；Gao等人，Gene Therapy 2：710-722（1995）；Ahmad等人，Cancer Res. 52：4817-4820（1992）；美國專利號4,186,183、4,217,344、4,235,871、4,261,975、4,485,054、4,501,728、4,774,085、4,837,028和4,946,787）。

基於RNA或DNA病毒的系統用於核酸的輸送利用了高度進化的過程，該過程用於將病毒靶向體內的特定細胞並將病毒載荷運輸至細胞核。病毒載體可直接投予患者（體內），或者它們可用於體外處理細胞，而修飾的細胞可任選地投予患者（離體）。傳統基於病毒的系統可以包括用於基因轉移的反轉錄病毒、慢病毒、腺病毒、腺相關病毒和單純皰疹病毒載體。利用反轉錄病毒、慢病毒和腺相關病毒基因轉移方法，可以整合到宿主基因體中，通常會導致插入的轉基因長期表現。另外，已經在許多不同的細胞類型和目標組織中觀察到高轉導效率。

反轉錄病毒的向性(tropism)可以藉由併入外來套膜蛋白、擴大目標細胞的潛在目標群體來改變。慢病毒載體是能夠轉導或感染非分裂細胞並通常產生高病毒力價的反轉錄病毒載體。因此，反轉錄病毒基因轉移系統的選擇將取決於目標組織。反轉錄病毒載體由具有高達6-10 kb的外來序列的包裝能力的順式作用長末端重複序列組成。最小的順式作用LTR足以複製和包裝載體，然後將其用於將治療性基因整合到目標細胞中以提供永久性轉基因表現。廣泛使用的反轉錄病毒載體包括基於小鼠白血病病毒（MuLV）、長臂猿白血病病毒（GaLV）、猿猴免疫不全病毒（SIV）、人類免疫不全病毒（HIV）及其組合的那些載體（參見，例如，Buchscher等人，J.Viral. 66：2731-2739（1992）；Johann等人，J. Viral. 66：1635-1640（1992）；Sommnerfelt等人，Viral. 176：58-59（1990）；Wilson等人，J. Viral. 63：2374-2378（1989）；Miller等人，1. Viral.65：2220-2224（1991）；PCT/US94/05700）。

在偏好短暫表現的應用中，可以使用基於腺病毒的系統。基於腺病毒的載體在許多細胞類型中都可以有很高的轉導效率，並且不需要細胞分裂。使用這樣的載體，已經獲得了高力價和表現水平。此載體可以在相對簡單的系統中大量產生。腺相關病毒（“AAV”）載體也可以用於例如在核酸和胜肽的體外生產中、以及在體內和離體基因治療程序中利用目標核酸轉導細胞 (參見，例如，West等人，Virology 160：38-47（1987）；美國專利號4,797,368；WO 93/24641；Katin，Human Gene Therapy 5：793-801（1994）；Muzyczka，J. Clin. Invest. 94 ：1351（1994）)。重組AAV載體的構建描述於許多出版物中，包括美國專利號5,173,414；Tratschin等人，Mol. Cell. Biol. 5：3251-3260（1985）；Tratschin等人，Mol. Cell. Biol. 4：2072-2081（1984）；Hermonat ＆ Muzyczka，PNAS 81：6466-6470（1984）；以及Samulski等人，J. Viral. 63：03822-3828（1989）。包裝細胞通常用於形成能夠感染宿主細胞的病毒顆粒。這些細胞包括包裝腺病毒的293細胞和包裝反轉錄病毒的ψJ2細胞或PA317細胞。

基因療法中使用的病毒載體通常是藉由產生將核酸載體包裝至病毒顆粒的細胞株而產生的。載體通常包含包裝和隨後整合至宿主中所需的最小病毒序列，其他病毒序列被將要表現的多核苷酸的表現匣替代。缺失的病毒功能通常由包裝細胞株反式提供。例如，用於基因治療的AAV載體通常僅具有包裝和整合到宿主基因體中所需要的來自AAV基因體的ITR序列。病毒DNA被包裝在細胞株中，該細胞株包含編碼其他AAV基因（即rep和cap）但缺少ITR序列的輔助質體。

細胞株也可以被作為輔助的腺病毒感染。輔助病毒促進AAV載體的複製和來自輔助質體中AAV基因的表現。由於缺少ITR序列，因此輔助質體沒有被大量包裝。腺病毒的污染可以藉由例如腺病毒比AAV更敏感的熱處理來減少。用於將核酸遞送至細胞的其他方法是本領域技術人員已知的。參見例如US20030087817，其藉由引用併入本文。

在一些實施方式中，用本文所述的一種或更多載體短暫地或非短暫地轉染宿主細胞。在一些實施方式中，細胞在其天然存在於個體中時被轉染。在一些實施方式中，被轉染的細胞取自個體。在一些實施方式中，細胞衍生自取自個體的細胞，例如細胞株。用於組織培養的各種廣泛的細胞株是本領域已知的。細胞株的範例包括但不限於C8161、CCRF-CEM、MOLT、mIMCD-3、NHDF、HeLaS3、Huhl、Huh4、Huh7、HUVEC、HASMC、HEKn、HEKa、MiaPaCell、Panel、PC-3、TF1、CTLL-2、CIR、Rat6、CVI、RPTE、AlO、T24、182、A375、ARH-77、Calu1、SW480、SW620、SKOV3、SK-UT、CaCo2、P388D1、SEM-K2、WEHI-231、HB56、TIB55、lurkat、145.01 、LRMB、Bcl-1、BC-3、IC21、DLD2、Raw264.7、NRK、NRK-52E、MRC5、MEF、Hep G2、HeLa B、HeLa T4. COS、COS-1、COS-6、COS-M6A、BS-C-1猴腎上皮細胞、BALB/3T3小鼠胚胎纖維母細胞、3T3 Swiss、3T3-L1、132-d5人類胎兒纖維母細胞；10.1小鼠纖維母細胞、293-T、3T3、721、9L、A2780、A2780ADR、A2780cis、A172、A20、A253、A431、A-549、ALC、B16、B35、BCP-1細胞、BEAS-2B、bEnd.3、BHK-21、BR 293、BxPC3、C3H-10Tl/2、C6/36、Cal-27、CHO、CHO-7、CHO-IR、CHO-K1、CHO-K2、CHO-T、CHO Dhfr-/-、COR-L23、COR-L23/CPR、COR-L235010、CORL23/R23、COS-7、COV-434、CML Tl、CMT、CT26、D17、DH82、DU145、DuCaP、EL4、EM2、EM3、EMT6/AR1、EMT6/AR10.0、FM3、H1299、H69、HB54、HB55、HCA2、HEK-293、HeLa、Hepalclc7、HL-60、HMEC、HT-29、lurkat、lY 細胞、K562細胞、Ku812、KCL22 、KG1、KYO1、LNCap、Ma-Mel 1-48、MC-38、MCF-7、MCF-10A、MDA-MB-231、MDA-MB-468、MDA-MB-435、MDCKII、MDCKII、MOR/0.2R、MONO-MAC 6、MTD-1A、MyEnd、NCI-H69/CPR、NCI-H69/LX10、NCI-H69/LX20、NCI-H69/LX4、NIH-3T3、NALM-1、NW-145、OPCN/OPCT細胞株、Peer、PNT-1A/PNT 2、RenCa、RIN-5F、RMA/RMAS、Saos-2細胞、Sf-9、SkBr3、T2、T-47D、T84、THP1細胞株、U373、U87、U937、VCaP、Vero細胞、WM39、WT-49、X63、YAC-1、YAR、及其轉基因變異體。細胞株可從本領域技術人員已知的多種來源獲得（參見，例如，美國菌種保存中心（ATCC）（馬納沙斯，維吉尼亞州））。

在一些實施方式中，用本文所述的一或更多載體轉染的細胞用於建立包含一個或更多個載體衍生序列的新細胞株。在一些實施方式中，用本文所述的CRISPR系統或其去胺酶或其融合體的成分短暫轉染（例如藉由一或更多載體的短暫轉染，或用RNA轉染）、並經由CRISPR錯合物或去胺酶的活性進行修飾的細胞，用於建立包含含有修飾但缺少任何其他外源序列的細胞的新細胞株。在一些實施方式中，用本文所述的一或更多載體短暫或非短暫轉染的細胞、或衍生自此類細胞的細胞株用於評估一或多個測試化合物。

在一些實施方式中，本文所述的一或更多載體用於產生非人類轉基因動物或轉基因植物。在一些實施方式中，轉基因動物是哺乳動物，例如小鼠、大鼠或兔子。在一些實施方式中，產生轉基因人類細胞。V. 多肽和多核苷酸的變異體和片段

本揭露內容提供了天然存在的（即，野生型）RNA引導的核酸酶和去胺酶的活性變異體和片段（其胺基酸序列如SEQ ID NO：1、16、24、35、43、50、374-545、572-590及其活性變異體所示）、以及天然存在的CRISPR重複序列的活性變異體和片段（例如SEQ ID NO：2、17、25、36、44、51或63所示的序列）、以及天然存在的tracrRNA的活性變異體和片段（如SEQ ID NO：3、18、26、37、45、52或62所示的序列）、以及編碼該些序列的多核苷酸。還提供了去胺酶的活性變異體和片段，例如SEQ ID NO：374-545和572-584所示的序列。

儘管與感興趣的多核苷酸或多肽相比，變異體或片段的活性可以改變，但是變異體和片段應保留感興趣的多核苷酸或多肽的功能性。例如，當與感興趣的多核苷酸或多肽相比時，變異體或片段可以具有增加的活性、降低的活性、不同的活性譜或活性的任何其他改變。

天然存在的RGN多肽的片段和變異體（例如本文揭露的那些）將保留序列專一性的、RNA引導的DNA結合活性。在特定的實施方式中，天然存在的RGN多肽的片段和變異體（例如本文揭露的那些）將保留核酸酶活性（單股或雙股）。在其他實施方式中，天然存在的去胺酶的片段和變異體（例如本文揭露的那些）將保留去胺酶活性。在一些實施方式中，去胺酶變異體具有改變的活性，例如對DNA模板的活性或對不同於天然去胺酶的核苷酸的活性，例如對腺苷的活性。

當天然存在的CRISPR重複序列的片段和變異體(例如本文揭露的那些)為引導RNA的一部分（包含tracrRNA）時，將保留以序列專一性方式結合並引導RNA引導的核酸酶（與引導RNA錯合）至目標核苷酸序列的能力。

當天然存在的tracrRNA的片段和變異體（例如本文揭露的那些）為引導RNA的一部分（包含CRISPR RNA）時，將保留以序列專一性方式將RNA引導的核酸酶（與指導RNA錯合）引導至目標核苷酸序列的能力。

術語“片段”是指本發明的多核苷酸或多肽序列的一部分。“片段”或“生物活性部分”包括多核苷酸，該多核苷酸包含足夠數量的連續核苷酸以保留生物學活性（即，當包含在引導RNA中時，以序列專一性方式結合RGN並將RGN引導至目標核苷酸序列）。 “片段”或“生物活性部分”包括多肽，該多肽包含足夠數量的連續胺基酸殘基以保留生物活性（即，當與引導RNA錯合時以序列專一性方式結合目標核苷酸序列）。RGN蛋白的片段包括由於使用替代的下游開始位點而比全長序列短的那些片段。RGN蛋白的生物學活性部分可以是包含例如SEQ ID NO：1、16、24、35、43或50的10、25、50、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050或更多個連續胺基酸殘基的多肽。可以藉由重組技術製備此類生物學活性部分，並針對序列專一性、RNA引導的DNA結合活性評估此類生物學活性部分。CRISPR重複序列的生物學活性片段可以包含SEQ ID NO：2、17、25、36、44、51或63的至少8個連續核酸。CRISPR重複序列的生物學活性部分可以是包含例如SEQ ID NO：2、17、25、36、44、51或63的8、9、10、11、12、13、14、15、16、17、18、19或20個連續核苷酸的多核苷酸。tracrRNA的生物學活性部分可以是包含例如SEQ ID NO：3、18、26、37、45、52、或62的8、9、10、11、12、13、14、15、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、55、60、65、70、75、80或更多個連續核苷酸的多核苷酸。去胺酶的生物學活性部分可以是包含例如SEQ ID NO：374-545及572-584的任何一個的10、25、50、100、150、200或更多個連續的胺基酸殘基的多肽。

通常，“變異體” 旨在意指基本上相似的序列。對於多核苷酸，變異體包括在天然多核苷酸中的一或更多內部位點的一或更多核苷酸的缺失及/或添加及/或在天然多核苷酸中的一或更多位點的一或多核苷酸的取代。如本文所使用，“天然”或“野生型”多核苷酸或多肽分別包含天然存在的核苷酸序列或胺基酸序列。對於多核苷酸，保留變異體包括由於遺傳密碼的簡併而編碼感興趣的基因的天然胺基酸序列的那些序列。例如可使用眾所周知的分子生物學技術來鑑定(例如，利用聚合酶連鎖反應（PCR）和雜交技術)的天然存在的對偶基因變異體如以下概述。變異體多核苷酸還包括合成衍生的多核苷酸，例如那些例如藉由使用定點誘變而產生但仍編碼感興趣的多肽或多核苷酸的多核苷酸。通常，藉由本文其他地方描述的序列比對程式和參數來確定，本文揭露的特定多核苷酸的變異體將具有與該特定多核苷酸至少約40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列一致性。

還可以藉由比較由變異體多核苷酸編碼的多肽和由參考多核苷酸編碼的多肽之間的序列一致性百分比來評估本文揭露的特定多核苷酸（即參考多核苷酸）的變異體。可以使用本文其他地方描述的序列比對程式和參數來計算任何兩個多肽之間的序列一致性百分比。當藉由比較本文揭露的任何給定的多核苷酸對所編碼的兩個多肽共同的序列一致性百分比來評估本文揭露的任何給定的多核苷酸對時，兩個編碼的多肽之間的序列一致性百分比為至少約40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高序列一致性。

在特定實施方式中，目前揭露的多核苷酸編碼去胺酶多肽，該去胺酶多肽包含與SEQ ID NO：374-545或572-584中的任何一個的胺基酸序列具有至少40％、45％、50％、55％、60％、65％、70％、75％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高的一致性的胺基酸序列。在某些實施方式中，去胺酶具有與SEQ ID NO：374、383、397、399、407、408、411、414、416、420、514和572-584中任何一個的胺基酸序列具有至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、或至少99％的一致性的胺基酸序列。在這些實施方式的一些中，變異體去胺酶多肽與SEQ ID NO：572-584中的任一個具有一定程度的序列一致性，其中特定的胺基酸殘基與親本序列相同。例如，在一些實施方式中，變異體SEQ ID NO：572包括在對應於SEQ ID NO：572的位置102的位置處的離胺酸、在對應於位置104的位置處的酪胺酸和在對應於位置106的位置處的蘇胺酸。在特定實施方式中，變異體SEQ ID NO：574包含在對應於SEQ ID NO：574的位置101的位置處的麩胺酸、在對應於位置103的位置處的絲胺酸、以及在對應於位置105的位置處的離胺酸。在某些實施方式中，變異體SEQ ID NO：575包含在對應於SEQ ID NO：575的位置101的位置處的離胺酸、在對應於位置103的位置處的白胺酸、以及在對應於位置105的位置處的麩胺酸。在一些實施方式中，變異體SEQ ID NO：576包含對應於SEQ ID NO：576的位置105的位置處的丙胺酸以及對應於位置107的位置處的精胺酸。在特定實施方式中，變異體SEQ ID NO：577包含在對應於SEQ ID NO：577的位置102的位置處的甘胺酸、在對應於位置104的位置處的絲胺酸和在對應於位置106的位置處的精胺酸。在某些實施方式中，變異體SEQ ID NO：578包含在對應於SEQ ID NO：578的位置105的位置處的絲胺酸和在對應於位置107的位置處的蘇胺酸。在一些實施方式中，變異體SEQ ID NO：579包含在對應於SEQ ID NO：579的位置102的位置處的絲胺酸、在對應於位置104的位置處的麩醯胺酸、以及在對應於位置106的位置處的甘胺酸。在特定實施方式中，變異體SEQ ID NO：580包含在對應於SEQ ID NO：580的位置111的位置處的甘胺酸。在一些實施方式中，變異體SEQ ID NO：581包含在對應於SEQ ID NO：581的位置104的位置處的麩醯胺酸、在對應於位置106的位置處的甘胺酸和在對應於的位置108的位置處的麩胺酸。在某些實施方式中，變異體SEQ ID NO：582包含在對應於SEQ ID NO：582的位置102的位置處的精胺酸、在對應於位置104的位置處的色胺酸和在對應於的位置106的位置處的麩胺酸。在某些實施方式中，變異體SEQ ID NO：583包含在對應於SEQ ID NO：583的位置104的位置處的精胺酸以及在對應於位置106的位置處的絲胺酸。在特定實施方式中，變異體 SEQ ID NO：584包含在對應於SEQ ID NO：584的位置110的位置處的苯丙胺酸、在對應於位置112的位置處的絲胺酸、以及在對應於位置114的位置處的蘇胺酸。

本發明的去胺酶多肽的生物學活性變異體可以相差少至約1-15個胺基酸殘基、少至約1-10個(例如約6-10個) 、少至5個、少至4個、少至3個、少至2個或少至1個胺基酸殘基。在特定實施方式中，多肽可包含N端或C端截斷(truncation)，其可包含多肽的N端或者C端的至少10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050個或更多胺基酸的缺失。

在其他特定的實施方式中，目前揭露的多核苷酸編碼RNA引導的核酸酶多肽，該多肽包含與SEQ ID NO：1、16、24、35、43或50的胺基酸序列具有至少40％、45％、50％、55％、60％、65％、70％、75％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高的一致性的胺基酸序列。

本發明的RGN或去胺酶多肽的生物學活性變異體可以相差少至約1-15個胺基酸殘基、少至約1-10個 (例如約6-10個) 、少至5個、少至4個、少至3個、少至2個或少至1個胺基酸殘基。在特定實施方式中，多肽可包含N端或C端截斷，其可包含多肽的N端或者C端的至少10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050個或更多胺基酸的缺失。

在某些實施方式中，目前揭露的多核苷酸包含或編碼CRISPR重複序列，該CRISPR重複序列包含與SEQ ID NO：2、17、25、36、44、51或63所示的核苷酸序列具有至少40％、45％、50％、55％、60％、65％、70％、75％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高的一致性的核苷酸序列。

目前揭露的多核苷酸可以包含或編碼tracrRNA，該tracrRNA包含與SEQ ID NO：3、18、26、37、45、52或62所示核苷酸序列具有至少40％、45％、50％、55％、60％、65％、70％、75％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高的一致性的核苷酸序列。

本發明的CRISPR重複序列或tracrRNA的生物學活性變異體可以相差少至約1-25個核苷酸、少至約1-20個、少至約1-10個、少至約6-10個、少至5個、少至4個、少至3個、少至2個或少至1個核苷酸。在一些實施方式中，多核苷酸可包含5'或3'截斷，其至少可包含多核苷酸的5'或3'端的10、15、20、25、30、35、40、45、50、55、60、65、70、75、80個或更多核苷酸的缺失。在一些實施方式中，可以藉由刪除及/或插入以及還可以藉由核苷酸的突變或取代來改變CRISPR重複序列或tracrRNA。

已認知的是，可以對本文提供的RGN多肽、DNA結合多肽-去胺酶融合多肽、去胺酶多肽、CRISPR重複序列和tracrRNA進行修飾，產生變異體蛋白和多核苷酸。人為設計的改變可以經由定點誘變技術的應用來引入。或者，與本文揭露的序列在結構上及/或功能上相關的天然的、未知的或尚未鑑定的多核苷酸及/或多肽也可以被識別為落入本發明的範圍內。可以在不改變RGN或去胺酶蛋白功能的非保留區域進行保留式胺基酸取代。或者，可以進行修飾以改善或改變RGN或去胺酶的活性。

變異體多核苷酸和蛋白質還包括源自誘變和重組程序(例如DNA混排(shuffling))的序列和蛋白質。藉由這樣的程序，操控本文揭露的一或更多不同的RGN或去胺酶蛋白（例如，SEQ ID NO：1、16、24、35、43、50、374-545及572-584）以產生具有所需特性的新的RGN或去胺酶蛋白。以這種方式，重組多核苷酸庫是由相關序列多核苷酸的群體產生的，該相關序列多核苷酸包含具有基本序列一致性並且可以在體外或體內同源地重組的序列區域。例如，使用這種方法，可以在本文提供的RGN序列和其他已知的RGN基因之間混排編碼感興趣的結構域的序列模體，以獲得編碼具有改善的感興趣的性質（例如在酵素的情況下增加的K_m ）的蛋白質的新基因。本文提供的去胺酶也可以類似的策略混排。這種DNA混排的策略是本領域已知的。參見，例如，Stemmer (1994)Proc. Natl. Acad. Sci. USA 91：10747-10751；Stemmer (1994)Nature 370：389-391；Crameri等人（1997）Nature Biotech. 15：436-438；Moore等人（1997）J. Mol. Biol. 272：336-347；Zhang等人（1997）Proc. Natl. Acad. Sci. USA 94：4504-4509；Crameri等人（1998）Nature 391：288-291；以及美國專利號5,605,793和5,837,458。 “混排的”核酸是藉由混排程序（例如本文所述的任何混排程序）產生的核酸。混排的核酸是藉由例如以人工的、任選地遞迴的方式（物理地或虛擬地）重組兩個或更多個核酸（或字符串）而產生的。通常，在混排過程中使用一或更多個篩選步驟來識別感興趣的核酸；此篩選步驟可以在任何重組步驟之前或之後進行。在一些（但不是全部）混排實施方式中，期望在選擇之前執行多輪重組以增加要篩選的池的多樣性。重組和選擇的整個過程可選地遞迴地重複。根據上下文，混排可以指重組和選擇的整個過程，或者可替代地，可以只指整個過程的重組部分。

如本文所使用，在兩個多核苷酸或多肽序列的上下文中的“序列一致性”或“一致性”是指兩個序列中的殘基，當在指定的比較窗上比對以獲得最大對應性時它們是相同的。當使用序列一致性百分比來表示蛋白質時，應認定不同的殘基位置通常因保留式胺基酸取代而不同，其中胺基酸殘基被具有類似化學性質（例如電荷或疏水性）的其他胺基酸殘基取代，因此不會改變分子的功能特性。當序列在保留式取代中不同時，可以向上調整序列一致性百分比以校正取代的保留性質。藉由這種保留式取代而不同的序列被稱為具有“序列相似性”或“相似性”。進行這種調整的手段是本領域技術人員所熟知的。通常，這涉及將保留式取代計為部分誤配而不是全部誤配，從而增加序列一致性百分比。因此，例如，在相同胺基酸的評分為1且非保留式取代的評分為零的情況下，保留式取代的評分為零至1之間的計分。例如以在程式PC/GENE（加利福尼亞州山景城的智能遺傳學）中實現的來計算保留式取代的計分。

如本文所使用，“序列一致性百分比”是指藉由在比較窗中比較兩個最佳比對的序列而確定的值，其中與兩個序列的最佳比對的參考序列（不包括添加或缺失）相比，比較窗中的多核苷酸序列的部分可包括添加或缺失（即缺口）。藉由確定兩個序列中出現相同核酸鹼基或胺基酸殘基的位置數以產生匹配位置數、將匹配位置數除以比較窗中的位置總數、然後將結果乘以100可得出序列一致性的百分比，來計算百分比。

除非另有說明，否則本文提供的序列一致性/相似性值是指使用利用以下參數的GAP版本10獲得的值：使用GAP權重50和長度權重3以及nwsgapdna.cmp計分矩陣的核苷酸序列的一致性％和相似性％；使用GAP權重8和長度權重2以及BLOSUM62計分矩陣的胺基酸序列的一致性％和相似性％；或其任何等效程式。“等效程式”是指任何序列比較程式，當與由GAP版本10產生的相應比對進行比較時，該序列比較程式可針對所討論的任何兩個序列產生具有相同核苷酸或胺基酸殘基匹配和相同序列一致性百分比的比對。

當使用定義的胺基酸取代矩陣（例如，BLOSUM62）、間隔存在罰分(gap existence penalty)和間隔延伸罰分(gap extension penalty)進行比對以進行相似性計分時，以達到該對序列可能的最高得分，兩個序列被“最佳比對”。胺基酸取代矩陣及其在定量兩個序列之間的相似性的用途是本領域所熟知的，並描述於例如Dayhoff等人（1978）蛋白質序列和結構圖集”中的“蛋白質演化變化的模型”卷 5，補充 3（M. O. Dayhoff編輯），第345-352頁。Natl. Biomed. Res. Found.華盛頓特區和Henikoff等人（1992）Proc. Natl. Acad. Sci. USA 89：10915-10919。BLOSUM62矩陣通常用作序列比對操作流程中的預設計分替換矩陣。間隔存在罰分實施於在比對序列其中之一中引入單個胺基酸間隔，而間隔延伸罰分實施於插入已打開的間隔中的每個另外的空胺基酸位置。藉由比對開始和結束的每個序列的胺基酸位置、以及任選地藉由在一個或兩個序列中插入一個或多個間隔來達到最高可能計分來定義比對。儘管可以手動完成最佳的比對和計分，但是藉由使用電腦實施的比對演算法（例如，Altschul等人（1997）Nucleic Acids Res. 25：3389-3402中所述、並在美國國家生物技術資訊中心網站（www.ncbi.nlm.nih.gov）上向公眾開放的間隔的BLAST 2.0）促進了該流程。可以使用例如PSI-BLAST來製備最佳比對，包括多重比對，所述PSI-BLAST可經由www.ncbi.nlm.nih.gov獲得並由Altschul等人（1997）Nucleic Acids Res. 25：3389-3402描述。

關於與參考序列最佳比對的胺基酸序列，胺基酸殘基“對應於” 在比對中的參考序列中該殘基與之配對的位置。“位置”由數字表示，該數字基於其相對於N端的位置依序識別參考序列中的每個胺基酸。由於在確定最佳比對時必須考慮的缺失、插入、截斷、融合等，通常藉由簡單地從N端開始計數即可確定的測試序列中的胺基酸殘基數目，不必與參考序列中其對應位置的數目相同。例如，在比對的測試序列中存在缺失的情況下，將不存在與參考序列中缺失位點的位置相對應的胺基酸。在比對的參考序列中有插入的情況下，該插入將不對應於參考序列中的任何胺基酸位置。在截斷或融合的情況下，參考序列或比對的序列中可能存在不對應於相應序列中任何胺基酸的胺基酸段。VI. 抗體

也包含下列的抗體：RGN多肽、包含本發明RGN多肽的核糖核蛋白、去胺酶或DNA結合去胺酶融合蛋白 (包括那些包含SEQ ID NO：1、16、24、35、43、50、374-545和572-584、或其活性變異體或片段所示的胺基酸序列的蛋白)。產生抗體的方法是本領域所熟知的（參見，例如，Harlow和Lane（1988）抗體：實驗室手冊，冷泉港實驗室，冷泉港，紐約；以及美國專利號4,196,265）。這些抗體可用於套組中，以用於檢測和分離RGN多肽或核糖核蛋白。因此，本揭露內容提供了包含與本文所述的多肽或核糖核蛋白(包括例如具有SEQ ID NO：1、16、24、35、43、50、374-545和572-584中任一個序列的多肽)專一性結合的抗體的套組。VII. 用於結合感興趣的目標序列的系統和核糖核蛋白錯合物及其製備方法

本揭露內容提供了用於結合感興趣的目標序列的系統，其中該系統包括至少一個引導RNA或編碼該引導RNA的核苷酸序列，以及至少一個RNA引導的核酸酶或編碼該RNA引導的核酸酶的核苷酸序列。引導RNA與感興趣的目標序列雜交，並且還與RGN多肽形成錯合物，從而引導RGN多肽與目標序列結合。在這些實施方式的一些中，RGN包含SEQ ID NO：1、16、24、35、43或50或其活性變異體或片段的胺基酸序列。在各種實施方式中，引導RNA包含CRISPR重複序列，其包含SEQ ID NO：2、17、25、36、44、51或63、或其活性變異體或片段的核苷酸序列。在特定實施方式中，引導RNA包含tracrRNA，其包含SEQ ID NO：3、18、26、37、45、52或62、或其活性變異體或片段的核苷酸序列。該系統的引導RNA可以是單引導RNA或雙引導RNA。在特定的實施方式中，該系統包含與引導RNA異源的RNA引導的核酸酶，其中RGN和引導RNA本質上不是天然錯合的。

本揭露內容還提供了靶向核酸序列並修飾目標核酸序列的系統。RNA引導的DNA結合多肽（例如RGN）和gRNA負責將核糖核苷酸多肽錯合物靶向感興趣的目標核酸序列；去胺酶多肽負責修飾靶向的核酸序列。引導RNA與感興趣的目標序列雜交，並且還與RNA引導的DNA結合多肽形成錯合物，從而引導RNA引導的DNA結合多肽與目標序列結合。RNA引導的DNA結合多肽是融合蛋白的一個結構域；另一個結構域是本文所述的去胺酶。在一些實施方式中，RNA引導的DNA結合多肽是RGN，例如Cas9。在進一步的實施方式中，RNA引導的DNA結合多肽包含SEQ ID NO：568、569、547、553、或其活性變異體或片段的胺基酸序列。RNA引導的DNA結合多肽的其他範例包括RGN，例如在美國專利申請案號16/432,321（在此藉由引用完整併入本文）中描述的那些。在一些實施方式中，RNA引導的DNA結合多肽是第II型CRISPR-Cas多肽或其活性變異體或片段。在一些實施方式中，RNA引導的DNA結合多肽是第V型CRISPR-Cas多肽或其活性變異體或片段。在其他實施方式中，RNA引導的DNA結合多肽是第VI型CRISPR-Cas多肽。在其他實施方式中，融合蛋白的DNA結合結構域不需要RNA引導，例如鋅指核酸酶、TALEN或大範圍核酸酶多肽，其中每個核酸酶活性已被去活性。

本文提供的用於結合感興趣的目標序列的系統可以是核糖核蛋白錯合物，其是與至少一種蛋白質結合的RNA的至少一個分子。在一些實施方式中，本文提供的核糖核蛋白錯合物包含作為RNA成分的至少一個引導RNA和作為蛋白成分的RNA引導的核酸酶。可以從天然表現RGN多肽的細胞或生物中純化這種核糖核蛋白錯合物，並已對該核糖核蛋白錯合物進行了工程化以表現對感興趣的目標序列具有專一性的特定引導RNA。在其他實施方式中，本文提供的核糖核蛋白錯合物包含作為RNA成分的至少一個引導RNA和作為蛋白成分的包含本發明的去胺酶和RNA引導的DNA結合多肽的融合蛋白。在融合蛋白的情況下，或者在本發明的RGN的情況下，核糖核蛋白錯合物可以從已經用編碼融合蛋白的多核苷酸（或僅編碼本發明的RGN）以及引導RNA轉化且在允許融合蛋白（或僅有本發明的RGN）及引導RNA表現的條件下培養的細胞或生物中純化。因此，提供了用於製造本發明的RGN、本發明的去胺酶、包含本發明的RGN的核糖核蛋白錯合物、本發明的融合蛋白、或融合蛋白核糖核蛋白錯合物的方法。此類方法包括在表現多肽(以及在一些實施方式中為引導RNA)的條件下培養細胞，該細胞包含編碼本發明的多肽的核苷酸序列，並且在一些實施方式中，該細胞包含編碼引導RNA的核苷酸序列。然後可以從經培養細胞的溶解產物中純化本發明的RGN、包含本發明的RGN的核糖核蛋白錯合物、本發明的融合蛋白、或融合蛋白核糖核蛋白錯合物。

從生物樣品的溶解產物中純化本發明的RGN、本發明的去胺酶、包含本發明的RGN的核糖核蛋白錯合物、本發明的融合蛋白、或融合蛋白核糖核蛋白錯合物的方法是本領域已知的（例如粒徑篩析及/或親和層析法、2D-PAGE、HPLC、反相層析法、免疫沉澱法）。在特定方法中，本發明的多肽是重組地產生的並且包含有助於其純化的純化標籤，包括但不限於麩胱甘肽-S-轉移酶（GST）、幾丁質結合蛋白（CBP）、麥芽糖結合蛋白、硫氧還蛋白（TRX）、聚（NANP）、串聯親和純化（TAP）標籤、myc、AcV5、AU1、AU5、E、ECS、E2、FLAG、HA、nus、Softag 1、Softag 3、Strep、SBP、Glu-Glu、HSV、KT3、S、S1、T7、V5、VSV-G、6xHis（SEQ ID NO：593）、10xHis（SEQ ID NO：594）、生物素羧基載體蛋白（BCCP）和鈣調蛋白。通常，本發明的標記的多肽或核糖核蛋白錯合物是使用固定的金屬親和層析法純化的。應當理解，可以使用本領域已知的其他類似方法，包括單獨或組合使用的其他形式的層析法或例如免疫沉澱法。

“分離的”或“純化的”多肽或其生物活性部分實質上或基本上不含通常伴隨或與在其天然存在的環境中發現的多肽相互作用的成分。因此，當藉由重組技術生產時，分離的或純化的多肽實質上不含其他細胞物質或培養基，或者當化學合成時實質上不含化學前驅物或其他化學品。實質上不含細胞物質的蛋白質包括具有少於約30％、20％、10％、5％、或1％（以乾重計）的污染蛋白質的蛋白質製劑。當重組地產生本發明的蛋白質或其生物學活性部分時，最佳培養基代表少於約30％、20％、10％、5％、或1％（以乾重計）的化學前驅物或非感興趣的蛋白質化學品。

本文提供的用於結合及/或切割感興趣的目標序列的特定方法涉及體外組裝的RGN核糖核蛋白錯合物的使用。RGN核糖核蛋白錯合物的體外組裝可以使用本領域已知的任何方法進行，在該方法中將RGN多肽在允許RGN多肽結合到引導RNA的條件下與引導RNA接觸。如本文所使用，“接觸(contact)”、“接觸(contacting)”、“接觸的(contacted)”是指在適於進行所需反應的條件下將所需反應的成分放在一起。RGN多肽可以從生物樣品、細胞溶解產物或培養基中純化、經由體外轉譯產生、或被化學合成。引導RNA可以從生物樣品、細胞溶解產物或培養基中純化、被體外轉錄、或被化學合成。可以使RGN多肽及引導RNA在溶液（例如緩衝鹽溶液）中接觸以允許在體外組裝RGN核糖核蛋白錯合物。VIII. 結合、切割或修飾目標序列的方法

本揭露內容提供了用於結合、切割及/或修飾感興趣的目標核苷酸序列的方法。在一些實施方式中，所述方法包括向目標序列或包含目標序列的細胞、胞器、或胚胎遞送一系統，該系統包含至少一個引導RNA或編碼該至少一個引導RNA的多核苷酸，以及至少一個RGN多肽或編碼該至少一個RGN多肽的多核苷酸。在這些實施方式的一些中，RGN包含SEQ ID NO：1、16、24、35、43或50、或其活性變異體或片段的胺基酸序列。在各種實施方式中，引導RNA包含CRISPR重複序列，其包含SEQ ID NO：2、17、25、36、44、51或63、或其活性變異體或片段的核苷酸序列。在特定的實施方式中，引導RNA包含tracrRNA，該tracrRNA包含SEQ ID NO：3、18、26、37、45、52或62、或其活性變異體或片段的核苷酸序列。該系統的引導RNA可以是單引導RNA或雙引導RNA。該系統的RGN可以是核酸酶死亡的RGN、具有切口酶活性、或者可以是融合多肽。在一些實施方式中，融合多肽包含鹼基編輯多肽，例如胞苷去胺酶或腺苷去胺酶。在特定實施方式中，RGN及/或引導RNA與引入了RGN及/或引導RNA（或編碼RGN和引導RNA中的至少一個的多核苷酸）的細胞、胞器、或胚胎是異源的。

在其他實施方式中，該方法包括將一系統遞送至目標序列或包含目標序列的細胞、胞器或胚胎，該系統包含至少一個引導RNA或編碼該引導RNA的多核苷酸、以及至少一種包含本發明的去胺酶和RNA引導的DNA結合多肽或編碼該去胺酶和RNA引導的DNA結合多肽的多核苷酸的融合蛋白。在這些實施方式的一些中，融合蛋白包含SEQ ID NO：374-545或572-584或其活性變異體或片段的任何一個胺基酸序列。

在一些實施方式中，所述方法包括使目標多核苷酸與本文揭露的去胺酶接觸。在一些實施方式中，所述方法包括使目標多核苷酸與包含去胺酶結構域和DNA結合結構域的融合蛋白接觸。在這些實施方式的一些中，該方法包括使DNA分子與（a）包含去胺酶結構域和RNA引導的DNA結合多肽（例如核酸酶無活性的RGN結構域）的融合蛋白；以及（b）將（a）的融合蛋白靶向DNA股的目標核苷酸序列的gRNA接觸；其中DNA分子以有效量且在適合於核苷酸鹼基的去胺作用的條件下與融合蛋白和gRNA接觸。在該方法中使用去胺酶的那些實施方式的一些中，該去胺酶具有SEQ ID NO：374、383、397、399、407、408、411、414、416、420、514以及572-584中任一個的胺基酸序列或為其變異體，其中變異體具有與SEQ ID NO：374、383、397、399、407、408、411、414、416、420、514和572-584的任一個的胺基酸序列為至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、或至少99％的一致性的胺基酸序列。在這些實施方式的一些中，變異體去胺酶多肽與SEQ ID NO：572-584中的任一個具有一定程度的序列一致性，其中特定的胺基酸殘基與親本序列相同。例如，在一些實施方式中，變異體SEQ ID NO：572包括與SEQ ID NO：572的位置102對應的位置處的離胺酸、與位置104對應的位置處的酪胺酸、和與位置106對應的位置處的蘇胺酸。在特定的實施方式中，變異體SEQ ID NO：574包括與SEQ ID NO：574的位置101的位置處的麩胺酸、與位置103對應的位置處的絲胺酸、以及與位置105對應的位置處的離胺酸。在某些實施方式中，變異體SEQ ID NO：575包括與SEQ ID NO：575的位置101對應的位置處的離胺酸、與位置103對應的位置處的白胺酸、以及與位置105對應的位置處的麩胺酸。在一些實施方式中，變異體SEQ ID NO：576包括與SEQ ID NO：576的位置105相對應的位置處的丙胺酸以及與位置107相對應的位置處的精胺酸。在特定實施方式中，變異體SEQ ID NO：577包括與SEQ ID NO：577的位置102對應的位置處的甘胺酸、與位置104對應的位置處的絲胺酸、以及與位置106對應的位置處的精胺酸。在某些實施方式中，變異體SEQ ID NO：578包括與SEQ ID NO：578的位置105對應的位置處的絲胺酸以及與位置107對應的位置處的蘇胺酸。在一些實施方案中，變異體SEQ ID NO: 579包括與SEQ ID NO：579的位置102對應的位置處的絲胺酸、與位置104對應的位置處的麩醯胺酸和與位置106對應的位置處的甘胺酸。在特定的實施方式中，變異體SEQ ID NO：580包含與SEQ ID NO：580的位置111對應的位置處的甘胺酸。在一些實施方式中，變異體SEQ ID NO：581包含與SEQ ID NO：581的位置104對應的位置處的麩醯胺酸、與位置106對應的位置處的甘胺酸、以及與位置108相對應的位置處的麩胺酸。在某些實施方式中，SEQ ID NO：582的變異體包含與SEQ ID NO：582的位置102相對應的位置處的精胺酸、與位置104相對應的位置處的色胺酸、以及與位置106對應的位置處的麩胺酸。在某些實施方式中，變異體SEQ ID NO：583包含與SEQ ID NO：583的位置104對應的位置處的精胺酸以及與位置106對應的位置處的絲胺酸。在特定實施方式中，變異體SEQ ID NO：584包含與SEQ ID NO：584的位置110對應的位置處的苯丙胺酸、與位置112處對應的位置處的絲胺酸和與位置114對應的位置處的蘇胺酸。

在一些實施方式中，所述方法包括使DNA分子與（a）包含去胺酶結構域和RNA引導的DNA結合多肽（例如核酸酶無活性的RGN結構域）的融合蛋白；以及（b）將（a）的融合蛋白靶向DNA股的目標核苷酸序列的gRNA接觸；其中所述DNA分子以有效量且在適合於核苷酸鹼基的去胺作用的條件下與融合蛋白和gRNA接觸。在一些實施方式中，目標DNA序列包含與疾病或病症相關聯的序列，並且其中核苷酸鹼基的去胺作用導致不與疾病或病症相關聯的序列。在一些實施方式中，目標DNA序列位於農作物的對偶基因中，其中感興趣的性狀的特定對偶基因導致具有較低農藝價值的植物。核苷酸鹼基的去胺作用產生了改善性狀並增加植物的農藝價值的對偶基因。

在一些實施方式中，DNA序列包含與疾病或病症相關聯的T　C或A　G點突變，並且其中突變體C或G鹼基的去胺作用導致不與疾病或病症相關聯的序列。在一些實施方式中，去胺作用校正與疾病或病症相關聯的序列中的點突變。

在一些實施方式中，與疾病或病症相關聯的序列編碼蛋白質，並且其中去胺作用將終止密碼子引入與疾病或病症相關聯的序列，導致編碼的蛋白質被截斷。在一些實施方式中，接觸是在易患有、患有或被診斷出疾病或病症的個體體內進行的。在一些實施方式中，所述疾病或病症是與基因體中的點突變、或單鹼基突變相關聯的疾病。在一些實施方式中，該疾病是遺傳性疾病、癌症、代謝性疾病、或溶體儲積症。

在其中該方法包括遞送編碼引導RNA及/或包含本發明的去胺酶及RNA引導的DNA結合多肽的融合多肽或RGN多肽的多核苷酸的那些實施方式中，然後可以在引導RNA及/或RGN多肽被表現的條件下培養細胞或胚胎。在各種實施方式中，該方法包括使目標序列與RGN核糖核蛋白錯合物接觸。RGN核糖核蛋白錯合物可以包含核酸酶死亡或具有切口酶活性的RGN。在一些實施方式中，核糖核蛋白錯合物的RGN是包含鹼基編輯多肽(例如本文揭露的去胺酶)的融合多肽。在其他實施方式中，核糖核蛋白錯合物包含融合多肽，該融合多肽包含本發明的去胺酶和RNA引導的DNA結合多肽。在某些實施方式中，該方法包括將RGN核糖核蛋白錯合物引入包含目標序列的細胞、胞器或胚胎中。RGN核糖核蛋白錯合物可以是如本文所述已從生物樣品中純化、重組地產生並隨後純化的、或體外組裝的。在其中與目標序列或細胞胞器或胚胎接觸的RGN核糖蛋白錯合物已在體外組裝的那些實施方式中，該方法可進一步包括在該錯合物與目標序列、細胞、胞器或胚胎接觸之前的體外組裝。

可以使用本領域已知的任何方法（包括但不限於電穿孔）將純化的或體外組裝的RGN核糖核蛋白錯合物引入細胞、胞器或胚胎中。或者，可以使用本領域已知的任何方法（例如，電穿孔）將RGN多肽、包含本發明的去胺酶和RNA引導的DNA結合多肽的融合多肽、及/或編碼或包含引導RNA的多核苷酸引入細胞、胞器或胚胎中。

在遞送至或接觸目標序列或包含目標序列的細胞、胞器或胚胎時，引導RNA引導RGN多肽或融合多肽以序列專一性方式結合至目標序列。在其中RGN具有核酸酶活性的那些實施方式中，RGN多肽在結合時切割感興趣的目標序列。隨後可以經由內源性修復機制（例如非同源末端連接或使用提供的供體多核苷酸進行同源介導修復）來修飾目標序列。

測量RNA引導的DNA結合多肽與目標序列的結合的方法是本領域已知的，且包括染色質免疫沉澱測定、凝膠位移測定、DNA下拉測定、報告基因測定、微量盤捕獲及檢測測定。同樣地，測量目標序列的切割或修飾的方法在本領域中是已知的，且包括體外或體內切割測定法，其中使用PCR、定序或膠體電泳在有或沒有適當標記物（例如，放射性同位素、螢光物質）附接至目標序列以方便檢測降解產物的情況下確認切割。或者，可以使用切口觸發的指數擴增反應（NTEXPAR）測定法（參見，例如，Zhang等人（2016）Chem. Sci. 7：4951-4957）。可以使用Surveyor測定法評估體內切割（Guschin等人（2010）Methods Mol Biol 649：247-256）。

在一些實施方式中，所述方法涉及與超過一個的引導RNA錯合的單一類型的RGN的使用。一個以上的引導RNA可以靶向單個基因的不同區域，或者可以靶向多個基因。在其他實施方式中，該方法涉及使用作為融合蛋白的一部分且與多於一個引導RNA錯合的單一類型的RNA結合DNA引導的結構域。這種多重靶向使融合蛋白的去胺酶結構域能夠修飾核酸，從而在感興趣的基因體中引入多個突變。

在其中不提供供體多核苷酸的那些實施方式中，可以藉由非同源末端連接（NHEJ）修復程序來修復由RGN多肽引入的雙股裂縫。由於NHEJ容易出錯，雙股裂縫的修復可導致對目標序列的修飾。如本文所使用，關於核酸分子的“修飾”是指核酸分子的核苷酸序列的變化，其可以是一或更多個核苷酸的缺失、插入或取代、或其組合。目標序列的修飾可導致改變的蛋白質產物的表現或編碼序列的失活。

在其中存在供體多核苷酸的那些實施方式中，在修復引入的雙股裂縫的過程中，可以將供體多核苷酸中的供體序列整合到目標核苷酸序列中或與目標核苷酸序列交換，導致引入外源供體序列。因此，供體多核苷酸包含期望被引入感興趣的目標序列中的供體序列。在一些實施方式中，供體序列改變了原始目標核苷酸序列，使得新整合的供體序列將不會被RGN識別和切割。供體序列的整合可藉由在供體多核苷酸中包含兩側序列而增強，該兩側序列與目標核苷酸序列兩側的序列具有實質的序列一致性，允許同源引導修復程序。在其中RGN多肽引入雙股交錯裂縫的那些實施方式中，供體多核苷酸可以包含側翼為相容性突出端的供體序列，在修復雙股裂縫時允許藉由非同源修復程序將供體序列與包含突出端的切割的目標核苷酸序列直接連接。

在其中該方法涉及使用本發明的RGN（其為切口酶，即僅能夠切割雙股多核苷酸的單股）的那些實施方式中，該方法可以包括引入靶向相同或重疊的目標序列並切割多核苷酸的不同股的兩個RGN切口酶。例如，可以將僅切割雙股多核苷酸的正（+）股的RGN切口酶與僅切割雙股多核苷酸的負（-）股的第二RGN切口酶一起引入。類似地，在一些實施方式中，該方法涉及使用包含本發明的去胺酶和RNA引導的DNA結合多肽（例如和RGN）的融合多肽，其中RGN是切口酶（例如SEQ ID NO：569）。

在各種實施方式中，提供了一種用於結合目標核苷酸序列並檢測目標序列的方法，其中該方法包括將至少一個引導RNA或編碼該至少一個引導RNA的多核苷酸、以及至少一個RGN或編碼該RGN的多核苷酸引入細胞、胞器或胚胎中，表現引導RNA及/或RGN多肽（如果引入了編碼序列），其中RGN多肽是核酸酶死亡的RGN並且還包含可檢測標記，並且該方法還包括檢測可檢測標記。可檢測標記可以與RGN融合作為融合蛋白（例如螢光蛋白），或者可以是與RGN多肽接合或併入到RGN多肽中、可以以視覺或藉由其他方式檢測的小分子。

本文還提供了用於在目標序列的調控下調節感興趣的基因或目標序列的表現的方法。所述方法包括將至少一個引導RNA或編碼該引導RNA的多核苷酸、以及至少一RGN多肽或編碼該至少一RGN多肽的多核苷酸引入細胞、胞器或胚胎中，表現引導RNA及/或RGN多肽（如果編碼序列被引入），其中RGN多肽是核酸酶死亡的RGN。在這些實施方式的一些中，核酸酶死亡的RGN是包含如本文所述的表現調節子結構域（即，表觀遺傳修飾結構域、轉錄活化結構域或轉錄抑制物結構域）的融合蛋白。在一些實施方式中，核酸酶死亡的RGN是包含本文描述的去胺酶的融合蛋白。

本揭露內容還提供了用於結合及/或修飾感興趣的目標核苷酸序列的方法。所述方法包括遞送一系統至包含目標序列的細胞、胞器或胚胎，該系統包含至少一個引導RNA或編碼該引導RNA的多核苷酸、以及包含本發明的RGN和鹼基編輯多肽(例如本文所述的去胺酶)的至少一個融合多肽或編碼該融合多肽的多核苷酸。

本領域具通常知識者將理解，目前公開的任何方法都可用於靶向單個目標序列或多個目標序列。因此，方法包括將單個RGN多肽與多個不同的引導RNA組合使用，所述引導RNA可以靶向單個基因及/或多個基因內的多個不同的序列。本文還包括其中多個不同的引導RNA與多個不同的RGN多肽組合而被引入的方法。這些引導RNA和引導RNA/RGN多肽系統可以靶向單個基因及/或多個基因內的多個不同序列。

在一方面，本發明提供了包含以上方法和組合物中揭露的任何一種或更多元件的套組。在一些實施方式中，套組包括載體系統和使用套組的說明。在一些實施方式中，載體系統包括（a）可操作地連接至tracr配對序列的第一調控元件和用於在tracr配對序列上游插入引導序列的一或更多個插入位點，其中當表現時，該引導序列引導CRISPR錯合物與真核細胞中目標序列的序列專一性結合，其中CRISPR錯合物包含CRISPR酵素，CRISPR酵素與（1）與目標序列雜交的引導序列及（2）與tracr序列雜交的tracr配對序列錯合；及/或（b）與調節編碼包含核定位序列的所述CRISPR酵素的酵素編碼序列可操作地連接的第二調控元件。

在一些實施方式中，套組包含融合蛋白，該融合蛋白包含RNA引導的DNA結合多肽(例如RGN多肽，例如核酸酶無活性的Cas9結構域)以及本發明的去胺酶，以及任選地，位於Cas9結構域和去胺酶之間的連接子。另外，在一些實施方式中，套組包含合適的試劑、緩衝液及/或使用融合蛋白的說明，例如用於體外或體內DNA或RNA編輯。元件可以單獨地或組合地被設置，並且可以設置在任何合適的容器中，例如小瓶、瓶子或試管中。在一些實施方式中，套組包含關於設計和使用合適的gRNA以靶向編輯核酸序列的說明。

在一些實施方式中，套組包括一種或多種語言的說明。在一些實施方式中，套組包含用於在利用本文所述的一或更多元件的方法中的一或多個試劑。可以在任何合適的容器中提供試劑。例如，套組可以提供一種或多種反應或儲存緩衝液。試劑可以以可用於特定測定的形式提供，或者以在使用前需要添加一或多個其他成分的形式（例如以濃縮物或凍乾形式）提供。緩衝液可以是任何緩衝液，包括但不限於碳酸鈉緩衝液、碳酸氫鈉緩衝液、硼酸鹽緩衝液、Tris緩衝液、MOPS緩衝液、HEPES緩衝液及其組合。在一些實施方式中，緩衝液是鹼性的。在一些實施方式中，緩衝液的pH為約7至約10。

在一些實施方式中，套組包含對應於用於插入載體的引導序列的一個或更多個寡核苷酸，從而可操作地連接引導序列和調控元件。在一些實施方式中，套組包含同源重組模板多核苷酸。在一方面，本發明提供了使用CRISPR系統的一或更多個元件的方法。本發明的CRISPR錯合物提供了用於修飾目標多核苷酸的有效手段。本發明的CRISPR錯合物具有多種用途，包括修飾（例如，刪除、插入、移位、不活化、活化）多種細胞類型中的目標多核苷酸。這樣，本發明的CRISPR錯合物在例如基因治療、藥物篩選、疾病診斷和預後中具有廣泛的應用。範例性的CRISPR錯合物包括與在目標多核苷酸內的目標序列雜交的引導序列錯合的CRISPR酵素。VIII. 目標多核苷酸

在一方面，本發明提供了在真核細胞中修飾目標多核苷酸的方法，其可以是體內、離體或體外的。在一些實施方式中，該方法包括從人類或非人類動物或植物（包括微藻類）中取樣細胞或細胞群，並修飾該一個或多個細胞。培養可以在離體的任何階段進行。該一或多個細胞甚至可以重新引入非人類動物或植物（包括微藻類）中。

利用自然變異性，植物育種者結合了大多數有用的基因以獲得所需的品質，例如產量、品質、均勻性、堅韌性和對害蟲的抗性。這些所需的品質還包括生長、日長偏好、溫度要求、花或生殖發育的起始日期、脂肪酸含量、蟲抗性、疾病抗性、線蟲抗性、真菌抗性、除草劑抗性、對各種環境因素（包括乾旱、高溫、潮濕、寒冷、風和不利的土壤條件（包括高鹽度））的耐受性。這些有用基因的來源包括本地或外來品種、原生種(heirloom varieties)、野生植物近緣種和誘導的突變，例如，用誘變劑處理植物材料。使用本發明，為植物育種者提供了誘導突變的新工具。因此，本領域技術人員可以針對有用基因的來源分析基因體，並且在具有所需特徵或性狀的品種中採用本發明利用比以前的誘變劑更精確的方式來誘導有用基因的產生，因而加速和改善植物育種計劃。

RGN系統的目標多核苷酸可以是對真核細胞為內源性或外源性的任何多核苷酸。例如，目標多核苷酸可以是存在於真核細胞核中的多核苷酸。目標多核苷酸可以是編碼基因產物（例如蛋白質）的序列或非編碼序列（例如調節性多核苷酸或垃圾DNA）。不希望受理論的束縛，相信目標序列應該與PAM（前間隔序列相鄰模體）相關聯；即，由CRISPR錯合物識別的短序列。PAM的精確序列和長度要求依據所使用的CRISPR酵素而異，但PAM通常是與前間隔序列（即目標序列）相鄰的2-5個鹼基對序列。

CRISPR錯合物的目標多核苷酸可包括許多與疾病相關聯的基因和多核苷酸，以及與傳訊生化途徑相關聯的基因和多核苷酸。目標多核苷酸的範例包括與傳訊生化途徑相關聯的序列，例如與傳訊生化途徑相關聯的基因或多核苷酸。目標多核苷酸的範例包括與疾病相關聯的基因或多核苷酸。“與疾病相關聯的”基因或多核苷酸是指與非疾病控制組的組織或細胞相比，在衍生自患病組織的細胞中以異常水平或異常形式產生轉錄或轉譯產物的任何基因或多核苷酸。它可能是一個變得以異常高水平表現的基因；它可能是一個以異常低水平表現的基因，其中受改變的表現與疾病的發生及/或進展相關。與疾病相關聯的基因還指是疾病病因的直接原因或與引起疾病病因的基因具有連鎖不平衡（例如因果突變）的突變或遺傳變異的基因。轉錄的或轉譯的產物可能是已知的或未知的，並且還可能處於正常或異常的水平。與疾病相關聯的基因和多核苷酸的範例可從全球資訊網上可得的國家醫學圖書館國家生物技術資訊中心（馬里蘭州貝塞斯達）及約翰霍普金斯大學的麥考斯克-納森斯遺傳醫學研究所（馬里蘭州巴爾的摩）獲得。

儘管CRISPR系統因其相對容易地靶向感興趣的基因體序列特別有用，但仍然存在RGN如何解決因果突變的問題。一種方法是在RGN（較佳為RGN的無活性或切口酶變異體）和鹼基編輯酵素或鹼基編輯酵素的活性結構域（例如胞苷去胺酶或腺苷去胺酶鹼基編輯器，美國專利號9,840,699，藉由引用併入本文）之間產生融合蛋白。在一些實施方式中，該方法包括使DNA分子與（a）包含本發明的RGN和鹼基編輯多肽（例如去胺酶）的融合蛋白接觸；以及（b）將（a）的融合蛋白靶向DNA股的目標核苷酸序列的gRNA接觸；其中所述DNA分子以有效量且在適合於核苷酸鹼基的去胺作用的條件下與融合蛋白和gRNA接觸。在一些實施方式中，目標DNA序列包含與疾病或病症相關聯的序列，並且其中核苷酸鹼基的去胺作用導致不與疾病或病症相關聯的序列。在一些實施方式中，目標DNA序列位於農作物的對偶基因中，其中感興趣的性狀的特定對偶基因導致農藝價值較低的植物。核苷酸鹼基的去胺作用產生改善了植物的性狀並增加植物的農藝價值的對偶基因。

在範例7和相應的表8中可以找到為某些遺傳疾病的因果的基因座的其他範例，特別是可以容易地被本發明的RGN或RGN-鹼基編輯器融合蛋白靶向的基因座。賀勒氏症 (Hurler Syndrome)

可以使用依賴於本發明的RGN鹼基編輯器融合蛋白的方法來校正的基因遺傳性疾病的一個例子是賀勒氏症。賀勒氏症也稱為MPS-1，是α-L-艾杜糖醛酸酶(iduronidase)（IDUA）缺乏的結果，導致溶體儲積症，其特徵是由硫酸皮膚素和硫酸乙醯肝素在溶酶體中所累積的分子水平。該疾病通常是由編碼α-L-艾杜糖醛酸酶的IDUA基因中的突變引起的遺傳性遺傳疾病。常見的IDUA突變為W402X和Q70X，兩者均為導致轉譯提前終止的無意義突變。此類突變可藉由精確的基因體編輯（PGE）方法很好地解決，因為單個核苷酸的回復（例如藉由鹼基編輯方法）將恢復野生型編碼序列並導致蛋白質表現受遺傳基因座的內源性調控機制控制。另外，由於已知異型合子是無症狀的，因此靶向這些突變之一的PGE治療對患有這種疾病的大部分患者有用，因為僅需要校正其中一個突變的對偶基因（Bunge等人（1994）Hum. Mol. Genet. 3（6）：861-866，藉由引用併入本文）。

賀勒氏症的目前治療包括酵素替代療法和骨髓移植（Vellodi等人（1997）Arch. Dis. Child. 76（2）：92-99；Peters等人（1998）Blood 91（7）：2601 -2608，藉由參考併入本文）。儘管酵素替代療法對賀勒氏症患者的存活和生活品質產生了顯著影響，但這種方法需要每週進行昂貴且費時的輸注(infusion)。另外的方法包括遞送表現載體上的IDUA基因或將該基因插入高度表現的基因座 (例如血清白蛋白的基因座)（美國專利號9,956,247，藉由引用併入本文）。但是，這些方法不能將原始IDUA基因座恢復為正確的編碼序列。基因體編輯策略將具有許多優勢，最顯著的是基因表現的調控將受到健康個體中存在的自然機制的控制。此外，使用鹼基編輯並不一定會導致雙股DNA裂縫，這可能會導致大的染色體重排、細胞死亡或腫瘤抑制機制的破壞而致癌。在範例8中提供了校正此疾病的因果突變的方法的可行描述。所述方法是針對使用本發明的RGN-鹼基編輯器融合蛋白靶向和校正人類基因組中某些致病的突變的一般策略的範例。應當理解，也可以採用類似的方法來靶向疾病，例如表8中所述的那些。還將理解，也可以使用本發明的RGN採用類似的方法來靶向其他物種，特別是普通家庭寵物或家畜中的致病突變。常見的家庭寵物和家畜包括狗、貓、馬、豬、牛、綿羊、雞、驢、蛇、雪貂、魚類（包括鮭魚）及蝦。弗利德來運動失調 (Friedreich’s Ataxia)

本發明的RGN在因果突變更複雜的人類治療方法中也可能有用。例如，某些疾病（例如弗利德來（Friedreich）運動失調和杭丁頓氏舞蹈症（Huntington's Disease））是在基因特定區域的三個核苷酸模體的重複顯著增加的結果，這會影響被表現的蛋白質發揮功能或被表現的能力。弗利德來運動失調（FRDA）是一種導致脊髓神經組織的進行性退化的體染色體隱性疾病。線粒體中的鐵蛋白(frataxin，FXN）水平降低會導致細胞層次的氧化損傷和鐵缺乏。減少的FXN表現與體細胞和生殖FXN基因的內含子1內的GAA三聯體擴增有關。在FRDA患者中，GAA重複通常由超過70個、有時甚至超過1000個（大多數為600-900個）三重體組成，而未受影響的個體具有約40個或更少的重複（Pandolfo等人（2012）臨床神經病學手冊103：275-294；Campuzano等人（1996）Science 271：1423-1427；Pandolfof（2002）Adv. Exp. Med. Biol. 516：99-118；全部藉由引用併入本文）。

導致弗利德來運動失調（FRDA）的三核苷酸重複序列的擴增發生在FXN基因內一個確定的遺傳基因座中，稱為FRDA不穩定性區域。RNA引導的核酸酶（RGN）可用於切除FRDA患者細胞中的不穩定區域。這種方法需要1）RGN以及可被程式化以靶向人類基因體中的對偶基因的引導RNA序列；以及2）RGN和引導序列的遞送方法。許多用於基因體編輯的核酸酶（例如來自化膿性葡萄球菌的常用的Cas9核酸酶（SpCas9））太大，無法包裝到腺相關病毒（AAV）載體中，尤其是除了功能表現匣所需的其他遺傳元件外考慮到SpCas9基因和引導RNA的長度時。這使得使用SpCas9的方法更加困難。

本發明的緊密的RNA引導的核酸酶特別適合於FRDA不穩定性區域的切除。每個RGN都有一個FRDA不穩定區域附近的PAM要求。另外，這些RGN中的每一個都可以與引導RNA一起被包裝到AAV載體中。包裝兩個引導RNA可能需要第二個載體，但是這種方法仍然比可能需要較大的核酸酶（例如SpCas9）的方法有利，後者可能需要在兩個載體之間拆開蛋白質序列。在範例9中提供了校正此疾病的因果突變的方法的可行描述。所述方法包括使用本發明的RGN的策略，其中基因體不穩定性的區域被去除。這種策略適用於具有相似遺傳基礎的其他疾病和失調，例如杭丁頓氏舞蹈症。使用本發明的RGN的類似策略也可以適用於具有農業或經濟重要性的非人類動物(包括狗、貓、馬、豬、牛、綿羊、雞、驢、蛇、雪貂、魚 (包括鮭魚)和蝦)中的類似疾病和病症。血紅素病 (Hemoglobinopathies)

本發明的RGN也可以用於引入可以導致有益效果的破壞性突變。編碼血紅素的基因的遺傳缺陷，尤其是β球蛋白鏈（HBB基因），可能是許多稱為血紅素病的疾病（包括鐮狀細胞性貧血和地中海貧血）的原因。

在成年人中，血紅素是異源四聚體，其包含兩條α類球蛋白鏈和兩條β類球蛋白鏈和4個血紅素基團。在成人中，α2β2四聚體稱為血紅素A（HbA）或成人血紅素。通常，α和β球蛋白鏈的以約為1：1的比例合成，且就血紅素和紅血球（RBC）穩定性而言，該比例似乎至關重要。在發育中的胎兒中，會產生不同形式的血紅素，即胎兒血紅素（HbF），它對氧的結合親和力比血紅素A更高，使得氧可以經由母親的血流輸送到嬰兒的系統中。胎兒血紅素還包含兩條α球蛋白鏈，但代替成人的β球蛋白鏈，它具有兩條胎兒γ球蛋白鏈（即胎兒血紅素為α2γ2）。從產生γ-球蛋白轉變為產生β-球蛋白的調控非常複雜，主要涉及γ球蛋白轉錄的調降和β球蛋白轉錄的同時調升。在妊娠約30週時，胎兒中γ球蛋白的合成開始下降，而β球蛋白的產量增加。大約10個月大時，新生兒的血紅素幾乎全部為α2β2，儘管某些HbF持續到成年（約佔總血紅素的1-3％）。在大多數患有血紅素病的患者中，仍存在編碼γ球蛋白的基因，但是由於如上所述在分娩前後發生正常的基因抑制，因此表現相對較低。

鐮狀細胞疾病是由β球蛋白基因（HBB）中的V6E突變（DNA層次的GAG到GTG）引起的，其中產生的血紅素稱為“血紅素S”或“HbS”。在較低的氧條件下，HbS分子聚集並形成纖維狀沉澱。這些聚集體會引起RBC的異常或“形成鐮狀”，導致細胞柔韌性的喪失。形成鐮狀的紅血球不再能夠擠入微血管床，並可能導致鐮狀細胞患者發生血管閉塞性危機。另外，鐮狀的紅血球比正常紅血球更脆弱，並且傾向於溶血，最終導致患者貧血。

鐮狀細胞患者的治療和處理是終生命題，涉及抗生素治療，疼痛管理和急性發作期間的輸血。一種方法是使用羥基尿素，其藉由增加γ球蛋白的產生而發揮其部分作用。慢性羥基尿素治療的長期副作用仍然未知，但是，治療會產生不良副作用並且因患者而具有可變效果。儘管鐮狀細胞治療的功效有所提高，但患者的預期壽命仍僅在50歲中期至晚期，並且該疾病的相關發病率對患者的生活品質產生了深遠的影響。

地中海貧血（α地中海貧血和β地中海貧血）也是與血紅素有關的疾病，且通常涉及球蛋白鏈的表現降低。這可以經由基因調控區域中的突變或從球蛋白編碼序列中的突變發生，該突變導致功能性球蛋白的表現降低或含量降低。地中海貧血的治療通常涉及輸血和鐵螯合療法。如果可以找到合適的捐贈者，那麼骨髓移植也可以用於治療重度地中海貧血的人，但是這種方法可能會有很大的風險。

已建議用於治療SCD和β地中海貧血的一種方法是增加γ球蛋白的表現，以使HbF在功能上替代異常的成人血紅素。如上所述，由於羥基尿素增加γ球蛋白表現的效果，使用羥基尿素治療SCD患者被認為部分成功（DeSimone（1982）Proc Nat'l Acad Sci USA 79（14）：4428-31；Ley等人，（1982）N. Engl. J. Medicine，307：1469- 1475；Ley等人，（1983）Blood 62：370-380；Constantoulakis等人，（1988）Blood 72（6）：1961-1967，全部藉由引用併入本文）。增加HbF的表現涉及鑑定其產物在調節γ球蛋白表現中起作用的基因。一種這樣的基因是BCL11A。BCL11A編碼在成年類紅血球前驅物細胞中表現的鋅指蛋白，而調降其表現導致γ球蛋白表現的增加（Sankaran等人（2008）Science 322：1839，藉由引用併入本文）。已經提出了靶向BCL11A基因的抑制性RNA的用途（例如，美國專利公開2011/0182867，藉由引用併入本文），但是此技術具有若干潛在的缺點，包括可能無法實現完全減量(knock down)、此類RNA的遞送可能是有問題的、以及RNA必須連續存在、終身需要多次治療。

本發明的RGN可用於靶向BCL11A增強子區域以破壞BCL11A的表現，從而增加γ球蛋白的表現。該靶向破壞可藉由非同源末端連接（NHEJ）來實現，由此本發明的RGN靶向BCL11A增強子區域內的特定序列，產生雙股裂縫，並且細胞的機械修復通常同時地引入有害突變的該裂縫。與針對其他疾病目標所描述的相似，本發明的RGN由於其相對小的尺寸而具有優於其他已知的RGN的優點，這使得能夠將用於RGN及其引導RNA的表現匣包裝到單個AAV載體中以用於體內遞送。範例10中提供了該方法的可行描述。使用本發明的RGN的類似策略也可適用於人類和具有農業或經濟重要性的非人類動物中的類似疾病和病症。IX. 包含多核苷酸遺傳修飾的細胞

本文提供了包含感興趣的目標序列的細胞和生物，所述目標序列已使用本文所述的RGN、crRNA、tracrRNA及/或去胺酶介導的流程進行了修飾。在這些實施方式的一些中，RGN包含SEQ ID NO：1、16、24、35、43或50或其活性變異體或片段的胺基酸序列。在各種實施方式中，引導RNA包含CRISPR重複序列，該CRISPR重複序列包含SEQ ID NO：2、17、25、36、44、51或63、或其活性變異體或片段的核苷酸序列。在特定的實施方式中，引導RNA包含tracrRNA，該tracrRNA包含SEQ ID NO：3、18、26、37、45、52或62、或其活性變異體或片段的核苷酸序列。該系統的引導RNA可以是單引導RNA或雙引導RNA。在一些實施方式中，去胺酶包含SEQ ID NO：374-545和572-584或其活性變異體或片段中任一個的胺基酸序列。

修飾的細胞可以是真核的（例如哺乳動物、植物、昆蟲細胞）或原核的。還提供了包含至少一個核苷酸序列的胞器和胚胎，所述至少一個核苷酸序列已藉由本文所述的利用RGN、crRNA及/或tracrRNA的方法修飾。經遺傳修飾的細胞、生物體、胞器和胚胎對於修飾的核苷酸序列而言可以是異型接合的(heterozygous)或同型接合的(homozygous)。

細胞、生物體、胞器或胚胎的染色體修飾可導致表現改變（調升或調降）、不活化或改變的蛋白質產物或整合序列的表現。在其中染色體修飾導致基因不活化或非功能性蛋白產物的表現的那些情況下，基因修飾的細胞、生物體、胞器或胚胎被稱為“剔除(knock out)”。剔除表型可以是缺失突變（即，至少一個核苷酸的缺失）、插入突變（即，至少一個核苷酸的插入）或無意義突變（即，至少一個核苷酸的取代使得終止密碼子被引入）的結果。

或者，細胞、生物體，細胞器或胚胎的染色體修飾可產生“嵌入 (knock in)”，這是由編碼蛋白質的核苷酸序列的染色體整合產生的。在這些實施方式的一些中，將編碼序列整合到染色體中，使得編碼野生型蛋白的染色體序列失去活性，但是外源引入的蛋白被表現。

在其他實施方式中，染色體修飾導致變異體蛋白質產物的產生。表現的變異體蛋白質產物可具有至少一個胺基酸取代及/或至少一個胺基酸的添加或缺失。與野生型蛋白相比，由改變的染色體序列編碼的變異體蛋白產物可以表現出改變的特徵或活性，包括但不限於改變的酵素活性或受質專一性。

在其他實施方式中，染色體修飾可以導致蛋白質表現模式的改變。作為非限制性範例，控制蛋白質產物表現的調控區域中的染色體改變可導致蛋白質產物的過度表現或調降，或改變的組織或暫時表現模式。

本文中使用冠詞“一 (a)”和“一 (an)”來表示該冠詞的語法對象的一個或多於一個（即，至少一個）。舉例來說，“一多肽”是指一或更多多肽。

說明書中提到的所有出版物和專利申請案都表明了本揭露內容所屬領域的技術人員的水平。所有出版物和專利申請案都藉由引用該出版物和專利申請案而併入本文，就好像每個單獨的出版物或專利申請案都被具體地和單獨地指示要藉由引用併入一樣。

儘管為了清楚理解起見，已經藉由圖示和範例的方式對前述發明的某些細節進行了描述，但是很明顯的是，可以在所附實施例的範圍內實現某些改變和修改。非限制實施例包括：

1. 一種包含編碼RNA引導的核酸酶(RGN)多肽的多核苷酸的核酸分子，其中該多核苷酸包含編碼RGN多肽的核苷酸序列，該RGN多肽包含與SEQ ID NO：1、16、24、35、43或50具有至少95%序列一致性的胺基酸序列；其中當該RGN多肽與能夠與目標DNA序列雜交的引導RNA (gRNA)結合時，以RNA引導的序列專一性方式與該目標DNA序列結合，以及其中編碼RGN多肽的該多核苷酸是可操作地連接至與該多核苷酸異源的啟動子。

2. 如實施例1所述的核酸分子，其中該RGN多肽在結合時能夠切割該目標DNA序列。

3. 如實施例2所述的核酸分子，其中該RGN多肽的切割產生雙股裂縫。

4. 如實施例2所述的核酸分子，其中該RGN多肽的切割產生單股裂縫。

5. 如實施例1所述的核酸分子，其中該RGN多肽是核酸酶死亡的或作為切口酶。

6. 如實施例5所述的核酸分子，其中該RGN多肽可操作地與鹼基編輯多肽融合。

7. 如實施例6所述的核酸分子，其中該鹼基編輯多肽是去胺酶。

8. 如實施例7所述的核酸分子，其中該去胺酶與SEQ ID NO：374、383、397、399、407、408、411、414、416、420、514及572-584的任何一個具有至少90%的序列一致性。

9. 如實施例1至8中任一個所述的核酸分子，其中該RGN多肽包含一或更多核定位訊號。

10. 如實施例1至9中任一個所述的核酸分子，其中該RGN多肽被密碼子最佳化以在真核細胞中表現。

11. 如實施例1至10中任一個所述的核酸分子，其中該目標DNA序列位於前間隔序列相鄰模體(PAM)附近。

12. 一種包含實施例1至11中任一個的核酸分子的載體。

13. 如實施例12所述的載體，更包括編碼能夠與該目標DNA序列雜交的該gRNA的至少一核苷酸序列。

14. 如實施例13所述的載體，其中該gRNA 是單引導RNA。

15. 如實施例13所述的載體，其中該gRNA 是雙引導RNA。

16. 如實施例13至15中任一個所述的載體，其中該引導RNA包含CRISPR RNA ，該CRISPR RNA包含與SEQ ID NO：2、17、25、36、44、51或63具有至少95%序列一致性的CRISPR重複序列。

17. 如實施例13-16中任一個所述的載體，其中該引導RNA包含與SEQ ID NO：3、18、26、37、45、52或62具有至少95%序列一致性的tracrRNA。

18. 一種包含實施例1至11中任一個所述的核酸分子或實施例12-17中任一個所述的載體的細胞。

19. 一種製造RGN多肽的方法，包含在該RGN多肽被表現的條件下培養實施例18所述的細胞。

20. 一種製造RGN多肽的方法，包含將包含一核苷酸序列的異源核酸分子引入細胞，該核苷酸序列編碼RNA引導的核酸酶(RGN)多肽，該RGN多肽包含與SEQ ID NO：1、16、24、35、43或50具有至少95%序列一致性的胺基酸序列；其中當該RGN多肽與能夠與目標DNA序列雜交的引導RNA (gRNA)結合時，以RNA引導的序列專一性方式與該目標DNA序列結合，以及在該RGN多肽被表現的條件下培養該細胞。

21. 如實施例19或20中所述的方法，更包含純化該RGN多肽。

22. 如實施例19或20中所述的方法，其中該細胞更表現與該RGN多肽結合的一或更多個引導RNA以形成RGN核糖核蛋白錯合物。

23. 如實施例22中所述的方法，更包含純化該RGN核糖核蛋白錯合物。

24. 一種包含編碼CRISPR RNA (crRNA)的多核苷酸的核酸分子，其中該crRNA包含間隔序列及CRISPR重複序列，其中該CRISPR重複序列包含與SEQ ID NO：2、17、25、36、44、51或63具有至少95%序列一致性的核苷酸序列；其中引導RNA包含： a) 該crRNA；以及 b) 與該crRNA 的該CRISPR 重複序列雜交的轉錄活化CRISPR RNA (tracrRNA)；當該引導RNA與RNA引導的核酸酶(RGN)多肽結合時，能夠經由該crRNA的該間隔序列以序列專一性方式與目標DNA序列雜交，以及其中編碼一crRNA的該多核苷酸可操作地連接至與該多核苷酸異源的啟動子。

25. 一種包含實施例24所述的核酸分子的載體。

26. 如實施例25所述的載體，其中該載體更包含編碼該tracrRNA的多核苷酸。

27. 如實施例26所述的載體，其中該tracrRNA包含與SEQ ID NO：3、18、26、37、45、52或62具有至少95%序列一致性的核苷酸序列。

28. 如實施例26或27所述的載體，其中編碼該crRNA的該多核苷酸以及編碼該tracrRNA的該多核苷酸可操作地被連接至相同的啟動子並被編碼為單引導RNA。

29. 如實施例26或27所述的載體，其中編碼該crRNA的該多核苷酸以及編碼該tracrRNA的該多核苷酸可操作地被連接至分開的多個啟動子。

30. 如實施例25至29中任一個所述的載體，其中該載體更包含編碼該RGN多肽的多核苷酸，其中該RGN多肽包含與SEQ ID NO：1、16、24、35、43或50具有至少95%序列一致性的胺基酸序列。

31. 一種包含編碼一轉錄活化CRISPR RNA (tracrRNA)的一多核苷酸的核酸分子，該tracrRNA包含與SEQ ID NO：3、18、26、37、45、52或62具有至少95%序列一致性的核苷酸序列；其中引導RNA包含： a) 該tracrRNA；以及 b) 包含一間隔序列及CRISPR重複序列的crRNA，其中該tracrRNA與該crRNA的該CRISPR重複序列雜交；當該引導RNA與RNA引導的核酸酶(RGN)多肽結合時，能夠經由該crRNA的該間隔序列以序列專一性方式與目標DNA序列雜交，以及其中編碼tracrRNA的該多核苷酸可操作地連接至與該多核苷酸異源的啟動子。

32. 一種包含實施例31所述的核酸分子的載體。

33. 如實施例32所述的載體，其中該載體更包含編碼該crRNA的多核苷酸。

34. 如實施例33所述的載體，其中該crRNA的該CRISPR重複序列包含與SEQ ID NO：2、17、25、36、44、51或63具有至少95%序列一致性的核苷酸序列。

35. 如實施例33或34所述的載體，其中編碼該crRNA的該多核苷酸以及編碼該tracrRNA的該多核苷酸可操作地被連接至相同的啟動子並被編碼為單引導RNA。

36. 如實施例33或34所述的載體，其中編碼該crRNA的該多核苷酸以及編碼該tracrRNA的該多核苷酸可操作地被連接至分開的多個啟動子。

37. 如實施例32至36中任一個所述的載體，其中該載體更包含編碼該RGN多肽的多核苷酸，其中該RGN多肽包含與SEQ ID NO：1、16、24、35、43或50具有至少95%序列一致性的胺基酸序列。

38. 一種用於結合目標DNA序列的系統，該系統包含： a) 一或更多個引導RNA (gRNA)或編碼該一或更多個引導RNA的一或更多個核苷酸序列，該一或更多個引導RNA能夠與該目標DNA序列雜交；以及 b) RNA引導的核酸酶(RGN)多肽或編碼該RGN多肽的核苷酸序列，該RGN多肽包含與SEQ ID NO：1、16、24、35、43或50具有至少95%序列一致性的胺基酸序列；其中編碼該一或更多個引導RNA的該核苷酸序列以及編碼該RGN多肽的該核苷酸序列的每一個可操作地連接至與該核苷酸序列異源的啟動子；其中該一或更多個引導RNA與該目標DNA序列雜交，以及其中該一或更多個引導RNA與該RGN多肽形成錯合物，藉此引導該RGN多肽與該目標DNA序列結合。

39. 如實施例38所述的系統，其中該gRNA 為單引導RNA (sgRNA)。

40. 如實施例38所述的系統，其中該gRNA 為雙引導RNA。

41. 如實施例38至40中任一個所述的系統，其中該gRNA包含CRISPR重複序列，該CRISPR重複序列包含與SEQ ID NO：2、17、25、36、44、51或63具有至少95%序列一致性的核苷酸序列。

42. 如實施例38至41中任一個所述的系統，其中該gRNA包含tracrRNA，該tracrRNA包含與SEQ ID NO：3、18、26、37、45、52或62具有至少95%序列一致性的核苷酸序列。

43. 如實施例38至42中任一個所述的系統，其中該目標DNA序列位於前間隔序列相鄰模體(PAM)附近。

44. 如實施例38至43中任一個所述的系統，其中該目標DNA序列在細胞內。

45. 如實施例44所述的系統，其中該細胞為真核細胞。

46. 如實施例45所述的系統，其中該真核細胞為植物細胞。

47. 如實施例45所述的系統，其中該真核細胞為哺乳類細胞。

48. 如實施例45所述的系統，其中該真核細胞為昆蟲細胞。

49. 如實施例44所述的系統，其中該細胞為原核細胞。

50. 如實施例38至49中任一個所述的系統，其中當該一或更多個引導RNA被轉錄時，該一或更多個引導RNA與該目標DNA序列雜交、且該引導RNA與導致該目標DNA序列的切割的該RGN多肽形成錯合物。

51. 如實施例50所述的系統，其中該切割產生雙股裂縫。

52. 如實施例50所述的系統，其中該RGN多肽的切割產生單股裂縫。

53. 如實施例38至49中任一個所述的系統，其中該RGN多肽是核酸酶死亡的或作為切口酶。

54. 如實施例53所述的系統，其中該RGN多肽可操作地連接至鹼基編輯多肽。

55. 如實施例54所述的系統，其中該鹼基編輯多肽是去胺酶。

56. 如實施例55所述的系統，其中該去胺酶與SEQ ID NO：374、383、397、399、407、408、411、414、416、420、514及572-584的任何一個具有至少90%的序列一致性。

57. 如實施例38至56中任一個所述的系統，其中該RGN多肽包含一或更多核定位訊號。

58. 如實施例38至57中任一個所述的系統，其中該RGN多肽被密碼子最佳化以在真核細胞中表現。

59. 如實施例38至58中任一個所述的系統，其中編碼該一或更多引導RNA的核苷酸序列以及編碼RGN多肽的該核苷酸序列位於一個載體上。

60. 如實施例38至59中任一個所述的系統，其中該系統更包含一或更多供體多核苷酸或編碼該一或更多供體多核苷酸的一或更多核苷酸序列。

61. 一種用於結合目標DNA序列的方法，包含將如實施例38至60中任一個所述的系統遞送至該目標DNA序列或包含該目標DNA序列的細胞。

62. 如實施例61所述的方法，其中該RGN多肽或該引導RNA更包含可檢測標記，藉此允許該目標DNA序列的檢測。

63. 如實施例61所述的方法，其中該引導RNA或該RGN多肽更包含表現調節子，藉此調節該目標DNA序列或受該目標DNA序列轉錄控制的基因的表現。

64. 一種用於切割或修飾目標DNA序列的方法，包含將如實施例38至60中任一個所述的系統遞送至該目標DNA序列或包含該目標DNA序列的細胞。

65. 如實施例64所述的方法，其中該修飾的目標DNA序列包含異源DNA至該目標DNA序列的插入。

66. 如實施例64所述的方法，其中該修飾的目標DNA序列包含至少一核苷酸從該目標DNA序列的刪除。

67. 如實施例64所述的方法，其中該修飾的目標DNA序列包含該目標DNA序列中至少一核苷酸的突變。

68. 一種用於結合目標DNA序列的方法，包含： a) 在適於形成RNA引導的核酸酶(RGN)核糖核苷酸錯合物的條件下，藉由將下列結合以於體外組裝RGN核糖核苷酸錯合物： i) 能夠與該目標DNA序列雜交的一或更多個引導RNA；以及 ii) 包含與SEQ ID NO：1、16、24、35、43或50具有至少95%序列一致性的胺基酸序列的RGN多肽；以及 b) 將該目標DNA序列或包含該目標DNA序列的細胞與體外組裝的RGN核糖核苷酸錯合物接觸；其中該一或更多個引導RNA與該目標DNA序列雜交，藉此引導該RGN多肽與該目標DNA序列結合。

69. 如實施例68所述的方法，其中該RGN多肽或該引導RNA更包含可檢測標記，藉此允許該目標DNA序列的檢測。

70. 如實施例68所述的方法，其中該引導RNA或該RGN多肽更包含表現調節子，藉此允許該目標DNA序列的表現的調節。

71. 一種用於切割及/或修飾目標DNA序列的方法，包含將該目標DNA分子與以下接觸： a) RNA引導的核酸酶(RGN)多肽，其中該RGN包含與SEQ ID NO：1、16、24、35、43或50具有至少95%序列一致性的胺基酸序列；以及 b) 能夠將（a）的該RGN靶向該目標DNA序列的一或更多引導RNA；其中該一或更多引導RNA與該目標DNA序列雜交，藉此引導該RGN多肽與該目標DNA序列結合，以及該目標DNA序列的切割及/或修飾發生。

72. 如實施例71所述的方法，其中該修飾的目標DNA序列包含至該目標DNA序列中異源DNA的插入。

73. 如實施例71所述的方法，其中該修飾的目標DNA序列包含從該目標DNA序列的至少一核苷酸的刪除。

74. 如實施例71所述的方法，其中該修飾的目標DNA序列包含該目標DNA序列中至少一核苷酸的突變。

75. 如實施例71至74中任一個所述的方法，其中該RGN多肽是切口酶。

76. 如實施例73或74所述的方法，其中該RGN多肽是核酸酶死亡的且可操作地連接至鹼基編輯多肽。

77. 如實施例68至76中任一個所述的方法，其中該gRNA 為單引導RNA (sgRNA)。

78. 如實施例68至76中任一個所述的方法，其中該gRNA 為雙引導RNA 。

79. 如實施例68至78中任一個所述的方法，其中該gRNA包含CRISPR重複序列，該CRISPR重複序列包含與SEQ ID NO：2、17、25、36、44、51或63具有至少95%序列一致性的核苷酸序列。

80. 如實施例68至79中任一個所述的方法，其中該gRNA包含tracrRNA，該tracrRNA包含與SEQ ID NO：3、18、26、37、45、52或62具有至少95%序列一致性的核苷酸序列。

81. 如實施例68至80中任一個所述的方法，其中該目標DNA序列位於前間隔序列相鄰模體(PAM)附近。

82. 如實施例68至81中任一個所述的方法，其中該目標DNA序列在細胞內。

83. 如實施例82所述的方法，其中該細胞為真核細胞。

84. 如實施例83所述的方法，其中該真核細胞為植物細胞。

85. 如實施例83所述的方法，其中該真核細胞為哺乳類細胞。

86. 如實施例83所述的方法，其中該真核細胞為昆蟲細胞。

87. 如實施例82所述的方法，其中該細胞為原核細胞。

88. 如實施例82至87中任一個所述的方法，更包含在該RGN多肽被表現且切割該目標DNA序列的條件下培養該細胞以產生修飾的DNA序列；以及選擇包含該修飾的DNA序列的細胞。

89. 一種包含如實施例88所述的方法的修飾的目標DNA序列的細胞。

90. 如實施例89所述的細胞，其中該細胞為真核細胞。

91. 如實施例90所述的細胞，其中該真核細胞為植物細胞。

92. 一種包含如實施例91所述的細胞的植物。

93. 一種包含如實施例91所述的細胞的種子。

94. 如實施例90所述的細胞，其中該真核細胞為哺乳類細胞。

95. 如實施例90所述的細胞，其中該真核細胞為昆蟲細胞。

96. 如實施例89所述的細胞，其中該細胞為原核細胞。

97. 一種用於產生具有基因遺傳疾病的因果突變校正的遺傳修飾的細胞的方法，該方法包含將以下引入該細胞： a) RNA引導的核酸酶(RGN)多肽或編碼該RGN多肽的多核苷酸，其中該RGN多肽包含與SEQ ID NO：1、16、24、35、43或50具有至少95%序列一致性的胺基酸序列，其中編碼該RGN多肽的該多核苷酸可操作地連接至啟動子以使該RGN多肽在該細胞中表現；以及 b) 引導RNA (gRNA)或編碼該gRNA的多核苷酸，其中該gRNA包含CRISPR重複序列，該CRISPR重複序列包含與SEQ ID NO：2、17、25、36、44、51或63具有至少95%序列一致性的核苷酸序列，其中編碼該gRNA的該多核苷酸可操作地連接至啟動子以使該gRNA在該細胞中表現，藉此該RGN及gRNA靶向該因果突變的基因體位置並修飾該基因體序列以移除該因果突變。

98. 如實施例97所述的方法，其中該RGN多肽是核酸酶死亡的或作為切口酶。

99. 如實施例98所述的方法，其中該RGN多肽可操作地連接至鹼基編輯多肽。

100. 如實施例99所述的方法，其中該鹼基編輯多肽是去胺酶。

101. 如實施例100所述的方法，其中該去胺酶包含與SEQ ID NO：374、383、397、399、407、408、411、414、416、420、514及572-584中的任何一個具有至少90%序列一致性的胺基酸序列。

102. 如實施例97至101中任一個所述的方法，其中該細胞為動物細胞。

103. 如實施例102所述的方法，其中該動物細胞為哺乳類細胞。

104. 如實施例103所述的方法，其中該細胞衍生自狗、貓、小鼠、大鼠、兔、馬、牛、豬或人類。

105. 如實施例102所述的方法，其中該基因遺傳疾病為表8中所列出的疾病。

106. 如實施例102所述的方法，其中該基因遺傳疾病為賀勒氏症。

107. 如實施例106所述的方法，其中該gRNA 包含靶向SEQ ID NO: 337的間隔序列。

108. 一種用於產生在致病基因體不穩定區域具有缺失的基因修飾的細胞的方法，該方法包含將以下引入該細胞： a) RNA引導的核酸酶(RGN)多肽或編碼該RGN多肽的多核苷酸，其中該RGN多肽包含與SEQ ID NO：1、16、24、35、43或50具有至少95%序列一致性的胺基酸序列，其中編碼該RGN多肽的該多核苷酸可操作地連接至啟動子以使該RGN多肽在該細胞中表現；以及 b) 第一引導RNA (gRNA)或編碼該gRNA的多核苷酸，其中該gRNA包含CRISPR重複序列，該CRISPR重複序列包含與SEQ ID NO：2、17、25、36、44、51或63具有至少95%序列一致性的核苷酸序列，其中編碼該gRNA的該多核苷酸可操作地連接至啟動子以使該gRNA在該細胞中表現，且進一步地其中該gRNA 包含靶向該基因體不穩定區域的5’側翼的間隔序列；以及 c) 第二引導RNA (gRNA)或編碼該gRNA的多核苷酸，其中該gRNA包含CRISPR重複序列，該CRISPR重複序列包含與SEQ ID NO：2、17、25、36、44、51或63具有至少95%序列一致性的核苷酸序列，其中編碼該gRNA的該多核苷酸可操作地連接至啟動子以使該gRNA在該細胞中表現，且進一步地其中該第二gRNA 包含靶向該基因體不穩定區域的3’側翼的間隔序列；藉此該RGN及該兩個gRNA靶向該基因體不穩定區域且移除該基因體不穩定區域的至少一部分。

109. 如實施例108所述的方法，其中該細胞為動物細胞。

110. 如實施例108所述的方法，其中該動物細胞為哺乳類細胞。

111. 如實施例110所述的方法，其中該細胞衍生自狗、貓、小鼠、大鼠、兔、馬、牛、豬或人類。

112. 如實施例109所述的方法，其中該遺傳疾病為弗利德來運動失調或杭丁頓氏舞蹈症。

113. 如實施例112所述的方法，其中該第一gRNA 包含靶向SEQ ID NO：340、341、342、或343的間隔序列。

114. 如實施例113所述的方法，其中該第二gRNA 包含靶向SEQ ID NO：340、341、342、或343的間隔序列。

115. 一種用於產生具有減少的BCL11A mRNA及蛋白質表現的基因修飾的哺乳類造血前驅細胞的方法，該方法包含將以下引入分離的人類造血前驅細胞： a) RNA引導的核酸酶(RGN)多肽或編碼該RGN多肽的多核苷酸，其中該RGN多肽包含與SEQ ID NO：1、16、24、35、43或50具有至少95%序列一致性的胺基酸序列，其中編碼該RGN多肽的該多核苷酸可操作地連接至啟動子以使該RGN多肽在該細胞中表現；以及 b) 引導RNA (gRNA)或編碼該gRNA的多核苷酸，其中該gRNA包含CRISPR重複序列，該CRISPR重複序列包含與SEQ ID NO：2、17、25、36、44、51或63具有至少95%序列一致性的核苷酸序列，其中編碼該gRNA的該多核苷酸可操作地連接至啟動子以使該gRNA在該細胞中表現，藉此該RGN及gRNA 在該細胞中表現且在BCL11A 增強子區域進行切割，導致該人類造血前驅細胞的基因修飾並降低BCL11A 的mRNA 及/或蛋白質表現。

116. 如實施例115所述的方法，其中該gRNA更包含靶向SEQ ID NO： 350、351、或352的間隔序列。

117. 一種用於結合目標DNA序列的系統，該系統包含： a) 一或更多個引導RNA或編碼該一或更多個引導RNA(gRNA)的一或更多個核苷酸序列，該一或更多個引導RNA能夠與該目標DNA序列雜交；以及 b) 包含與SEQ ID NO：1、16、24、35、43或50具有至少95%序列一致性的胺基酸序列的RNA引導的核酸酶(RGN)多肽；其中該一或更多個引導RNA與該目標DNA序列雜交，以及其中該一或更多個引導RNA與該RGN多肽形成錯合物，藉此引導該RGN多肽與該目標DNA序列結合。

118. 如實施例117所述的系統，其中該RGN多肽是核酸酶死亡的或作為切口酶。

119. 如實施例117或118所述的系統，其中該RGN多肽可操作地與鹼基編輯多肽融合。

120. 如實施例119所述的系統，其中該鹼基編輯多肽是去胺酶。

121. 如實施例120所述的系統，其中該去胺酶多肽包含與SEQ ID NO：374、383、397、399、407、408、411、414、416、420、514及572-584中的任何一個具有至少95%序列一致性的胺基酸序列。

122. 一種包含編碼去胺酶多肽的多核苷酸的核酸分子，其中該多核苷酸包含編碼去胺酶多肽的核苷酸序列，該去胺酶多肽包含與SEQ ID NO：374、383、397、399、407、408、411、414、416、或420具有至少90%序列一致性的胺基酸序列；其中該去胺酶多肽在目標多核苷酸中的至少一個核苷酸處進行去胺；以及其中編碼去胺酶多肽的該多核苷酸可操作地連接至與該多核苷酸異源的啟動子。

123. 如實施例122所述的核酸分子，其中該去胺酶多肽被密碼子最佳化以在真核細胞中表現。

124. 如實施例122或123所述的核酸分子，其中該去胺酶多肽可操作地與將該去胺酶多肽定位至該目標多核苷酸的DNA結合多肽連接。

125. 如實施例124所述的核酸分子，其中該DNA結合多肽是大範圍核酸酶、鋅指融合蛋白或TALEN。

126. 如實施例124所述的核酸分子，其中該DNA結合多肽在與RNA引導形成的錯合物中作用並且因此為RNA引導的。

127. 如實施例126所述的核酸分子，其中該RNA引導的DNA結合多肽為RNA引導的核酸酶多肽或衍生自RNA引導的核酸酶多肽。

128. 如實施例127所述的核酸分子，其中該RNA引導的核酸酶多肽是第二型CRISPR-Cas 多肽。

129. 如實施例127所述的核酸分子，其中該RNA引導的核酸酶多肽是第五型CRISPR-Cas 多肽。

130. 如實施例126至129中任一個所述的核酸分子，其中該RNA引導的DNA結合多肽為切口酶。

131. 如實施例127所述的核酸分子，其中該RNA引導的核酸酶多肽與SEQ ID NO：1、16、24、35、43或50具有至少95%序列一致性。

132. 如實施例124至131中任一個所述的核酸分子，其中該去胺酶多肽可操作地連接至尿嘧啶糖苷酶抑制劑(UGI)多肽。

133. 如實施例132所述的核酸分子，其中該UGI多肽與SEQ ID NO: 570的胺基酸序列具有至少85%一致性。

134. 如實施例122至133中任一個所述的核酸分子，其中該去胺酶多肽更包含核定位訊號(NLS)。

135. 一種包含實施例122至134中任一個所述的核酸分子的載體。

136. 一種包含實施例126至134中任一個所述的核酸分子的載體，其中該載體更包含編碼引導RNA (gRNA)的至少一核苷酸序列，該gRNA能夠與該目標多核苷酸雜交並在與該RNA引導的DNA結合多肽形成的錯合物中作用。

137. 如實施例136所述的載體，其中該gRNA 是單引導RNA。

138. 如實施例136所述的載體，其中該gRNA 是雙引導RNA。

139. 一種包含如實施例124至134中任一個所述的核酸分子或如實施例135-138中任一個所述的載體的細胞。

140. 一種製造去胺酶多肽的方法，包含在該去胺酶多肽被表現的條件下培養如實施例139所述的細胞。

141. 一種包含編碼腺苷去胺酶多肽的多核苷酸的核酸分子，其中該多核苷酸包含編碼腺苷去胺酶多肽的核苷酸序列，該腺苷去胺酶多肽包含選自以下組成的群組的胺基酸序列： a) 與SEQ ID NO：514具有至少90%序列一致性的胺基酸序列； b) 與SEQ ID NO：572具有至少90%序列一致性、且包含與SEQ ID NO：572的位置102對應的位置處的離胺酸、與SEQ ID NO：572的位置104對應的位置處的酪胺酸、以及與SEQ ID NO：572的位置106對應的位置處的蘇胺酸的胺基酸序列； c) 與SEQ ID NO：573具有至少90%序列一致性的胺基酸序列； d) 與SEQ ID NO：574具有至少90%序列一致性、且包含與SEQ ID NO：574的位置101對應的位置處的麩胺酸、與SEQ ID NO：574的位置103對應的位置處的絲胺酸、以及與SEQ ID NO：574的位置105對應的位置處的離胺酸的胺基酸序列； e) 與SEQ ID NO：575具有至少90%序列一致性、且包含與SEQ ID NO：575的位置101對應的位置處的離胺酸、與SEQ ID NO：575的位置103對應的位置處的白胺酸、以及與SEQ ID NO：575的位置105對應的位置處的麩胺酸的胺基酸序列； f) 與SEQ ID NO：576具有至少90%序列一致性、且包含與SEQ ID NO：576的位置105對應的位置處的丙胺酸以及與SEQ ID NO：576的位置107對應的位置處的精胺酸的胺基酸序列； g) 與SEQ ID NO：577具有至少90%序列一致性、且包含與SEQ ID NO：577的位置102對應的位置處的甘胺酸、與SEQ ID NO：577的位置104對應的位置處的絲胺酸、以及與SEQ ID NO：577的位置106對應的位置處的精胺酸的胺基酸序列； h) 與SEQ ID NO：578具有至少90%序列一致性、且包含與SEQ ID NO：578的位置105對應的位置處的絲胺酸以及與SEQ ID NO：578的位置107對應的位置處的蘇胺酸的胺基酸序列； i) 與SEQ ID NO：579具有至少90%序列一致性、且包含與SEQ ID NO：579的位置102對應的位置處的絲胺酸、與SEQ ID NO：579的位置104對應的位置處的麩醯胺酸、以及與SEQ ID NO：579的位置106對應的位置處的甘胺酸的胺基酸序列； j) 與SEQ ID NO：580具有至少90%序列一致性、且包含與SEQ ID NO：580的位置111對應的位置處的甘胺酸的胺基酸序列； k) 與SEQ ID NO：581具有至少90%序列一致性、且包含與SEQ ID NO：581的位置104對應的位置處的麩醯胺酸、與SEQ ID NO：581的位置106對應的位置處的甘胺酸、以及與SEQ ID NO：581的位置108對應的位置處的麩胺酸的胺基酸序列； l) 與SEQ ID NO：582具有至少90%序列一致性、且包含與SEQ ID NO：582的位置102對應的位置處的精胺酸、與SEQ ID NO：582的位置104對應的位置處的色胺酸、以及與SEQ ID NO：582的位置106對應的位置處的麩胺酸的胺基酸序列； m) 與SEQ ID NO：583具有至少90%序列一致性、且包含與SEQ ID NO：583的位置104對應的位置處的精胺酸以及與SEQ ID NO：583的位置106對應的位置處的絲胺酸的胺基酸序列；以及 n) 與SEQ ID NO：584具有至少90%序列一致性、且包含與SEQ ID NO：584的位置110對應的位置處的苯丙胺酸、與SEQ ID NO：584的位置112對應的位置處的絲胺酸、以及與SEQ ID NO：584的位置114對應的位置處的蘇胺酸的一胺基酸序列；其中該腺苷去胺酶多肽對目標多核苷酸中的至少一腺苷進行去胺；以及其中編碼腺苷去胺酶多肽的該多核苷酸可操作地連接至與該多核苷酸異源的啟動子。

142. 如實施例141所述的核酸分子，其中該腺苷去胺酶多肽被密碼子最佳化以在真核細胞中表現。

143. 如實施例141或142所述的核酸分子，其中該腺苷去胺酶多肽可操作地與將該腺苷去胺酶多肽定位至該目標多核苷酸的DNA結合多肽連接。

144. 如實施例143所述的核酸分子，其中該DNA結合多肽是大範圍核酸酶、鋅指融合蛋白或TALEN。

145. 如實施例143所述的核酸分子，其中該DNA結合多肽在與RNA引導形成的錯合物中作用並且因此為RNA引導的。

146. 如實施例145所述的核酸分子，其中該RNA引導的DNA結合多肽為RNA引導的核酸酶多肽或衍生自RNA引導的核酸酶多肽。

147. 如實施例146所述的核酸分子，其中該RNA引導的核酸酶多肽是第二型CRISPR-Cas 多肽。

148. 如實施例146所述的核酸分子，其中該RNA引導的核酸酶多肽是第五型CRISPR-Cas 多肽。

149. 如實施例145至148中任一個所述的核酸分子，其中該RNA引導的DNA結合多肽為切口酶。

150. 如實施例146所述的核酸分子，其中該RNA引導的核酸酶多肽與SEQ ID NO：1、16、24、35、43或50具有至少95%序列一致性。

151. 如實施例141至150中任一個所述的核酸分子，其中該腺苷去胺酶多肽可操作地連接至尿嘧啶糖苷酶抑制劑(UGI)多肽。

152. 如實施例151所述的核酸分子，其中該UGI多肽與SEQ ID NO: 570的胺基酸序列具有至少85%一致性。

153. 如實施例141至152中任一個所述的核酸分子，其中該腺苷去胺酶多肽更包含核定位訊號(NLS)。

154. 一種包含實施例141至153中任一個所述的核酸分子的載體。

155. 一種包含實施例145至153中任一個所述的核酸分子的載體，其中該載體更包含編碼引導RNA (gRNA)的至少一核苷酸序列，該gRNA能夠與該目標多核苷酸雜交並在與該RNA引導的DNA結合多肽形成的錯合物中作用。

156. 如實施例155所述的載體，其中該gRNA 是單引導RNA。

157. 如實施例155所述的載體，其中該gRNA 是雙引導RNA。

158. 一種包含如實施例141至153中任一個所述的核酸分子或如實施例154-157中任一個所述的載體的細胞。

159. 一種製造腺苷去胺酶多肽的方法，包含在該腺苷去胺酶多肽被表現的條件下培養如實施例158所述的細胞。

160. 一種融合蛋白，包含： a) 與目標多核苷酸結合的DNA結合多肽；以及 b) 去胺酶多肽，其中該去胺酶多肽包含與SEQ ID NO：374、383、397、399、407、408、411、414、416或420具有至少90%序列一致性的胺基酸序列，且其中該去胺酶多肽對該目標多核苷酸中的至少一核苷酸進行去胺。

161. 如實施例160所述的融合蛋白，其中該DNA結合多肽為大範圍核酸酶、鋅指融合蛋白或TALEN。

162. 如實施例160所述的融合蛋白，其中該DNA結合多肽在與RNA引導形成的錯合物中作用並且因此為RNA引導的。

163. 如實施例162所述的融合蛋白，其中該RNA引導的DNA結合多肽為RNA引導的核酸酶多肽或衍生自RNA引導的核酸酶多肽。

164. 如實施例163所述的融合蛋白，其中該RNA引導的核酸酶多肽是第二型CRISPR-Cas 多肽。

165. 如實施例163所述的融合蛋白，其中該RNA引導的核酸酶多肽是第五型CRISPR-Cas 多肽。

166. 如實施例162至165中任一個所述的融合蛋白，其中該RNA引導的DNA結合多肽為切口酶。

167. 如實施例163所述的融合蛋白，其中該RNA引導的核酸酶多肽與SEQ ID NO：1、16、24、35、43或50具有至少95%序列一致性。

168. 如實施例160至167中任一個所述的融合蛋白，其中該融合蛋白更包含尿嘧啶糖苷酶抑制劑(UGI)多肽。

169. 如實施例168所述的融合蛋白，其中該UGI多肽與SEQ ID NO: 570的胺基酸序列具有至少85%一致性。

170. 如實施例160至169中任一個所述的融合蛋白，其中該融合蛋白更包含核定位訊號(NLS)。

171. 一種融合蛋白，包含： a) 與目標多核苷酸結合的DNA結合多肽；以及 b) 包含由以下組成的群組中選出的胺基酸序列的腺苷去胺酶多肽： i) 與SEQ ID NO：514具有至少90%序列一致性的胺基酸序列； ii) 與SEQ ID NO：572具有至少90%序列一致性、且包含與SEQ ID NO：572的位置102對應的位置處的離胺酸、與SEQ ID NO：572的位置104對應的位置處的酪胺酸、以及與SEQ ID NO：572的位置106對應的位置處的蘇胺酸的胺基酸序列； iii) 與SEQ ID NO：573具有至少90%序列一致性的胺基酸序列； iv) 與SEQ ID NO：574具有至少90%序列一致性、且包含與SEQ ID NO：574的位置101對應的位置處的麩胺酸、與SEQ ID NO：574的位置103對應的位置處的絲胺酸、以及與SEQ ID NO：574的位置105對應的位置處的離胺酸的胺基酸序列； v) 與SEQ ID NO：575具有至少90%序列一致性、且包含與SEQ ID NO：575的位置101對應的位置處的離胺酸、與SEQ ID NO：575的位置103對應的位置處的白胺酸、以及與SEQ ID NO：575的位置105對應的位置處的麩胺酸的胺基酸序列； vi) 與SEQ ID NO：576具有至少90%序列一致性、且包含與SEQ ID NO：576的位置105對應的位置處的丙胺酸以及與SEQ ID NO：576的位置107對應的位置處的精胺酸的胺基酸序列； vii) 與SEQ ID NO：577具有至少90%序列一致性、且包含與SEQ ID NO：577的位置102對應的位置處的甘胺酸、與SEQ ID NO：577的位置104對應的位置處的絲胺酸、以及與SEQ ID NO：577的位置106對應的位置處的精胺酸的胺基酸序列； viii) 與SEQ ID NO：578具有至少90%序列一致性、且包含與SEQ ID NO：578的位置105對應的位置處的絲胺酸以及與SEQ ID NO：578的位置107對應的位置處的蘇胺酸的胺基酸序列； ix) 與SEQ ID NO：579具有至少90%序列一致性、且包含與SEQ ID NO：579的位置102對應的位置處的絲胺酸、與SEQ ID NO：579的位置104對應的位置處的麩醯胺酸、以及與SEQ ID NO：579的位置106對應的位置處的甘胺酸的胺基酸序列； x) 與SEQ ID NO：580具有至少90%序列一致性、且包含與SEQ ID NO：580的位置111對應的位置處的甘胺酸的胺基酸序列； xi) 與SEQ ID NO：581具有至少90%序列一致性、且包含與SEQ ID NO：581的位置104對應的位置處的麩醯胺酸、與SEQ ID NO：581的位置106對應的位置處的甘胺酸、以及與SEQ ID NO：581的位置108對應的位置處的麩胺酸的胺基酸序列； xii) 與SEQ ID NO：582具有至少90%序列一致性、且包含與SEQ ID NO：582的位置102對應的位置處的精胺酸、與SEQ ID NO：582的位置104對應的位置處的色胺酸、以及與SEQ ID NO：582的位置106對應的位置處的麩胺酸的胺基酸序列； xiii) 與SEQ ID NO：583具有至少90%序列一致性、且包含與SEQ ID NO：583的位置104對應的位置處的精胺酸以及與SEQ ID NO：583的位置106對應的位置處的絲胺酸的胺基酸序列；以及 xiv) 與SEQ ID NO：584具有至少90%序列一致性、且包含與SEQ ID NO：584的位置110對應的位置處的苯丙胺酸、與SEQ ID NO：584的位置112對應的位置處的絲胺酸、以及與SEQ ID NO：584的位置114對應的位置處的蘇胺酸的一胺基酸序列；其中該腺苷去胺酶多肽對目標多核苷酸中的至少一腺苷進行去胺。

172. 如實施例171所述的融合蛋白，其中該DNA結合多肽為大範圍核酸酶、鋅指融合蛋白或TALEN。

173. 如實施例171所述的融合蛋白，其中該DNA結合多肽在與RNA引導形成的錯合物中作用並且因此為RNA引導的。

174. 如實施例173所述的融合蛋白，其中該RNA引導的DNA結合多肽為RNA引導的核酸酶多肽或衍生自RNA引導的核酸酶多肽。

175. 如實施例174所述的融合蛋白，其中該RNA引導的核酸酶多肽是第二型CRISPR-Cas 多肽。

176. 如實施例174所述的融合蛋白，其中該RNA引導的核酸酶多肽是第五型CRISPR-Cas 多肽。

177. 如實施例173至176中任一個所述的融合蛋白，其中該RNA引導的DNA結合多肽為切口酶。

178. 如實施例174所述的融合蛋白，其中該RNA引導的核酸酶多肽與SEQ ID NO：1、16、24、35、43或50具有至少95%序列一致性。

179. 如實施例171至178中任一個所述的融合蛋白，其中該融合蛋白更包含尿嘧啶糖苷酶抑制劑(UGI)多肽。

180. 如實施例179所述的融合蛋白，其中該UGI多肽與SEQ ID NO: 570的胺基酸序列具有至少85%一致性。

181. 如實施例171至180中任一個所述的融合蛋白，其中該融合蛋白更包含核定位訊號(NLS)。

182. 一種用於修飾目標多核苷酸序列的系統，該系統包含： a) 一或更多引導RNA(gRNA)或編碼該一或更多引導RNA的一或更多核苷酸序列，該一或更多引導RNA能夠與該目標多核苷酸序列雜交；以及 b) 如實施例162至170及173至181中任一個所述的融合蛋白或編碼該融合蛋白的核苷酸序列；其中編碼該一或更多引導RNA的該核苷酸序列以及編碼該融合蛋白的該核苷酸序列的每一個可操作地連接至與該核苷酸序列異源的啟動子；其中該一或更多引導RNA與該目標多核苷酸序列雜交，以及其中該一或更多引導RNA與該融合蛋白的該RNA引導的DNA結合多肽形成一錯合物，藉此引導該融合蛋白與該目標多核苷酸序列結合並修飾該目標多核苷酸序列。

183. 如實施例182所述的系統，其中該gRNA 是單引導RNA (sgRNA)。

184. 如實施例182所述的系統，其中該gRNA 是雙引導RNA。

185. 如實施例182至184中任一個所述的系統，其中該目標多核苷酸序列位於前間隔序列相鄰模體(PAM)附近。

186. 如實施例182至185中任一個所述的系統，其中該目標多核苷酸序列在細胞內。

187. 如實施例186所述的系統，其中該細胞為真核細胞。

188. 如實施例187所述的系統，其中該真核細胞為植物細胞。

189. 如實施例187所述的系統，其中該真核細胞為哺乳類細胞。

190. 如實施例187所述的系統，其中該真核細胞為昆蟲細胞。

191. 如實施例186所述的系統，其中該細胞為原核細胞。

192. 一種用於對目標多核苷酸進行去胺的方法，該方法包含將該目標多核苷酸與去胺酶接觸，該去胺酶包括與SEQ ID NO：374、383、397、399、407、408、411、414、416或420具有至少90%序列一致性的胺基酸序列，其中該去胺酶多肽對該目標多核苷酸中的至少一核苷酸進行去胺。

193. 一種用於對目標多核苷酸中的至少一腺苷進行去胺的方法，該方法包含將該目標多核苷酸與腺苷去胺酶多肽接觸，該腺苷去胺酶多肽包括由以下組成的群組選出的胺基酸序列： a) 與SEQ ID NO：514具有至少90%序列一致性的胺基酸序列； b) 與SEQ ID NO：572具有至少90%序列一致性、且包含與SEQ ID NO：572的位置102對應的位置處的離胺酸、與SEQ ID NO：572的位置104對應的位置處的酪胺酸、以及與SEQ ID NO：572的位置106對應的位置處的蘇胺酸的胺基酸序列； c) 與SEQ ID NO：573具有至少90%序列一致性的胺基酸序列； d) 與SEQ ID NO：574具有至少90%序列一致性、且包含與SEQ ID NO：574的位置101對應的位置處的麩胺酸、與SEQ ID NO：574的位置103對應的位置處的絲胺酸、以及與SEQ ID NO：574的位置105對應的位置處的離胺酸的胺基酸序列； e) 與SEQ ID NO：575具有至少90%序列一致性、且包含與SEQ ID NO：575的位置101對應的位置處的離胺酸、與SEQ ID NO：575的位置103對應的位置處的白胺酸、以及與SEQ ID NO：575的位置105對應的位置處的麩胺酸的胺基酸序列； f) 與SEQ ID NO：576具有至少90%序列一致性、且包含與SEQ ID NO：576的位置105對應的位置處的丙胺酸以及與SEQ ID NO：576的位置107對應的位置處的精胺酸的胺基酸序列； g) 與SEQ ID NO：577具有至少90%序列一致性、且包含與SEQ ID NO：577的位置102對應的位置處的甘胺酸、與SEQ ID NO：577的位置104對應的位置處的絲胺酸、以及與SEQ ID NO：577的位置106對應的位置處的精胺酸的胺基酸序列； h) 與SEQ ID NO：578具有至少90%序列一致性、且包含與SEQ ID NO：578的位置105對應的位置處的絲胺酸以及與SEQ ID NO：578的位置107對應的位置處的蘇胺酸的胺基酸序列； i) 與SEQ ID NO：579具有至少90%序列一致性、且包含與SEQ ID NO：579的位置102對應的位置處的絲胺酸、與SEQ ID NO：579的位置104對應的位置處的麩醯胺酸、以及與SEQ ID NO：579的位置106對應的位置處的甘胺酸的胺基酸序列； j) 與SEQ ID NO：580具有至少90%序列一致性、且包含與SEQ ID NO：580的位置111對應的位置處的甘胺酸的胺基酸序列； k) 與SEQ ID NO：581具有至少90%序列一致性、且包含與SEQ ID NO：581的位置104對應的位置處的麩醯胺酸、與SEQ ID NO：581的位置106對應的位置處的甘胺酸、以及與SEQ ID NO：581的位置108對應的位置處的麩胺酸的胺基酸序列； l) 與SEQ ID NO：582具有至少90%序列一致性、且包含與SEQ ID NO：582的位置102對應的位置處的精胺酸、與SEQ ID NO：582的位置104對應的位置處的色胺酸、以及與SEQ ID NO：582的位置106對應的位置處的麩胺酸的胺基酸序列； m) 與SEQ ID NO：583具有至少90%序列一致性、且包含與SEQ ID NO：583的位置104對應的位置處的精胺酸以及與SEQ ID NO：583的位置106對應的位置處的絲胺酸的胺基酸序列；以及 n) 與SEQ ID NO：584具有至少90%序列一致性、且包含與SEQ ID NO：584的位置110對應的位置處的苯丙胺酸、與SEQ ID NO：584的位置112對應的位置處的絲胺酸、以及與SEQ ID NO：584的位置114對應的位置處的蘇胺酸的一胺基酸序列；其中該腺苷去胺酶多肽對目標多核苷酸中的至少一腺苷進行去胺。

194. 一種用於修飾目標多核苷酸的方法，該方法包含將該目標多核苷酸與實施例160、161、171、及172中任一個所述的融合蛋白接觸，其中該DNA結合多肽與該目標多核苷酸結合且該去胺酶對該目標多核苷酸中的至少一核苷酸進行去胺。

195. 一種用於修飾目標多核苷酸的方法，該方法包含將該目標多核苷酸與實施例162至170及173至181中任一個所述的融合蛋白接觸，並引入一或更多引導RNA(gRNA)或編碼該一或更多gRNA的一或更多核苷酸序列；其中該一或更多gRNA與該目標多核苷酸雜交並與該融合蛋白的該RNA引導的DNA結合多肽形成錯合物，藉此引導該融合蛋白與該目標多核苷酸序列結合且該融合蛋白的該去胺酶多肽對該目標多核苷酸中的至少一核苷酸進行去胺，藉此修飾該目標多核苷酸。 196. 如實施例195所述的方法，其中該目標多核苷酸在細胞內。

197. 如實施例196所述的方法，其中該細胞為真核細胞。

198. 如實施例197所述的方法，其中該真核細胞為哺乳類細胞。

199. 如實施例197所述的方法，其中該真核細胞為植物細胞。

200. 如實施例195至199中任一個所述的方法，其中該目標多核苷酸的修飾包含C至T點突變。

201. 如實施例200所述的方法，其中C鹼基的去胺作用導致與疾病或病症相關聯的序列的校正。

202. 如實施例200所述的方法，其中該目標多核苷酸的修飾包含農作物的基因體中的C至T改變，且其中C鹼基的去胺作用造成改善該農作物的農藝品質的序列。

203. 如實施例195至199中任一個所述的方法，其中該目標多核苷酸的修飾包含A至G點突變。

204. 如實施例203所述的方法，其中A鹼基的去胺作用導致與疾病或病症相關聯的序列的校正。

205. 如實施例203所述的方法，其中該目標多核苷酸的修飾包含農作物的基因體中的A至G改變，且其中A鹼基的去胺作用造成改善該農作物的農藝品質的序列。

藉由舉例說明的方式而不是限制的方式提供以下範例。實驗範例 1. RNA 引導的核酸酶的鑑定

鑑定出六個不同的CRISPR相關聯的RNA引導的核酸酶（RGN），並在下表1中進行了描述。APG00969、APG03128和APG00771是第二-C型RGN。APG09748、APG02789和APG09106是第五-B型RGN。表1提供了每個RGN的名稱、其胺基酸序列，其衍生的來源以及加工過的crRNA重複序列、和tracrRNA序列。表1還提供了確定sgRNA的核酸目標序列的通用單引導RNA（sgRNA）序列。間隔序列的位置由poly-N序列表示。該poly-N序列僅用於表示間隔序列在sgRNA中的位置，並不表示功能性間隔序列所需的長度。第二-C型RGN系統在tracrRNA的髮夾莖的鹼基中均具有保留序列：APG00969具有UNANNC（SEQ ID NO：13）；APG03128具有ANGNNU（SEQ ID NO：23）；APG00771具有UNANNA（SEQ ID NO：42）。表 1 ： SEQ ID 及 CRISPR 相關聯系統的摘要

RGN ID	SEQ ID NO.	來源	crRNA 重複序列 (SEQ ID NO.)	tracrRNA (SEQ ID NO.)	sgRNA (SEQ ID NO)
APG00969	1	芽孢桿菌屬	2	3	4
APG03128	16	根瘤菌	17	18	19
APG09748	24	短芽孢桿菌屬	25	26	27
APG00771	35	金黃桿菌屬	36	37	38
APG02789	43	芽孢桿菌屬	44	45	46
APG09106	50	短芽孢桿菌屬	51	52	53

範例 2 ：引導 RNA 鑑定及 sgRNA 建構

使天然表現要研究的RNA引導的核酸酶系統的細菌培養物生長至對數中期（OD600約為0.600）、沉澱並快速冷凍。使用mirVANA miRNA分離套組（萊富生命科技公司，卡爾斯巴德，CA）從沉澱物中分離RNA，並使用NEBNext小RNA庫製備套組（NEB，貝弗利，MA）從分離的RNA中製備定序庫。將庫製備物在6％聚丙烯醯胺凝膠上分離成對應於18-65nt和90-200nt RNA種類的2個大小部分，以分別檢測crRNA和tracrRNA。在服務提供商（MoGene，St.Louis，MO）的Next Seq 500（高輸出套組）上進行深度定序（較小部分的配對末端為40 bp，較大部分的配對末端為80bp）。使用Cutadapt對讀數進行品質修整，並使用Bowtie2將其映射到參考基因體。用Python編寫定製RNAseq管線，以檢測crRNA和tracrRNA轉錄本。藉由天然重複間隔陣列的序列覆蓋率確定加工的crRNA邊界。使用容許的BLASTn參數鑑定tracrRNA的抗重複部分。藉由鑑定含有抗重複序列的轉錄本，RNA定序深度確認了加工過的tracrRNA的邊界。用RNA折疊軟體NUPACK使用二級結構預測進行RNA的手動管理。或者，APG02789的tracrRNA是藉由抗重複序列生物資訊地確定，而非經由小RNA定序確定。通常，sgRNA匣是藉由DNA合成製備的，且通常針對APG00771、APG03128和APG00969設計如下：（5'-> 3'）20-30 bp間隔序列--crRNA的加工重複部分--4 bp非互補連接子（AAAG；SEQ ID NO：8）--加工的tracrRNA。針對APG09748、APG09106和APG02789，將sgRNA匣設計如下（5'-> 3'）：加工過的tracrRNA--4 bp非互補連接子（AAAG; SEQ ID NO：8）--加工過的crRNA重複部分）--20-30 bp的目標間隔序列。本領域已知的其他4 bp或6 bp非互補連接子也可以用於sgRNA設計。對於體外測定，藉由使用GeneArt™Precision gRNA合成套組（ThermoFisher）的sgRNA匣的體外轉錄來合成sgRNA。鑑定了每種RGN多肽的加工過的crRNA和tracrRNA序列，並列於表1中。有關為PAM庫1及2建構的sgRNA，請參見下文。範例 3 ：每個 RGN 的 PAM 要求的確定

每個RGN的PAM要求均使用基本上改編自Kleinstiver等人（2015）Nature 523：481-485和Zetsche等人（2015）Cell 163：759-771的PAM缺乏試驗確定。簡而言之，在pUC18骨架（ampR）中產生了兩個質體樣本庫（L1和L2），每個質體樣本庫包含側翼為8個隨機核苷酸（即，PAM區域）的不同的30 bp前間隔（目標）序列。RGN APG00969、APG03128和APG00771的庫1和庫2的目標序列和側翼PAM區域分別為SEQ ID NO：14和15。RGN AP09748、APG02789和APG09106的庫1和庫2的目標序列和側翼PAM區域分別為SEQ ID NO：32和33。

將庫分別電穿孔至帶有pRSF-1b表現載體的大腸桿菌BL21（DE3）細胞中，該載體包含本發明的RGN（針對大腸桿菌而被密碼子最佳化）以及同源 (cognate) sgRNA，該同源sgRNA包含對應於L1或L2中前間隔的間隔序列。將足夠的庫質體用於轉化反應中，以獲得> 10⁶ CFU。pRSF-1b骨架中的RGN和sgRNA都在T7啟動子的控制下。使轉化反應恢復1小時，然後將其稀釋到含有卡本西林(carbenicillin)和康黴素的LB培養基中並生長過夜。第二天，將混合物稀釋到自誘導的Overnight Express™Instant TB培養基（Millipore Sigma）中以允許RGN和sgRNA的表現，再另外生長4小時或20小時，然後離心分離細胞並以Mini-prep套組（Qiagen，日耳曼敦，馬里蘭州）分離質體DNA。在適當的sgRNA存在下，含有可以被RGN識別的PAM的質體將被切割，導致其從族群中移出。含有RGN無法識別的PAM的質體、或者被轉化到不含適當sgRNA的細菌的質體將存活並複製。PCR擴增未切割質體的PAM和前間隔區域，並按照公開的操作流程（16s-多源基因庫製備指南15044223B，Illumina，聖地亞哥，CA）製備以進行定序。在服務提供商（MoGene，St.Louis，MO）的MiSeq（Illumina）上進行了深度定序（80 bp單端讀取）。通常，每個擴增子獲得1-4M讀數。取出、計數PAM區域並標準化為每個樣本的總讀數。與對照組相比（即，將庫轉化到含有RGN但缺乏合適sgRNA的大腸桿菌中），導致質體切割的PAM被鑑定為代表性不足。為了表示新型RGN的PAM要求，將所討論區域中所有序列的缺乏率（樣本中的頻率/對照組中的頻率）利用-log base 2轉換轉換為富集值(enrichment value)。足夠的PAM被定義為富集值> 2.3（對應於缺乏率>〜0.2）的PAM。兩個庫中高於此閾值的PAM均被收集並用於生成網站標誌(web logo)，例如可以使用稱為“weblogo”的網際網路上基於網路的服務來生成。當富含PAM的頂部中存在一致的模式時，將鑑定並報告PAM序列。表2中提供了每個RGN的（具有> 2.3的富集因子（EF）的）PAM。對於某些RGN，還鑑定了非限制範例性PAM（具有> 3.3的EF）。對於APG00969、APG03128、APG00771，PAM方向為5'-目標-PAM-3'，對於APG09748、APG09106和APG02789，PAM方向為5'-PAM-目標-3'。表 2 ： PAM 確定

RGN ID	sgRNA L1 (SEQ ID NO.)	sgRNA L2 (SEQ ID NO.)	PAM (SEQ ID NO.)
APG00969	5	6	7
APG03128	20	21	22
APG09748	28	29	30
APG00771	39	40	41
APG02789	47	48	49
APG09106	54	55	30

範例 4 ：工程化引導 RNA 以增加核酸酶活性

對於具有非常高的序列一致性並且具有相同PAM的RGN APG09748和APG09106，使用RNA折疊預測來確定引導RNA中可被改變以最佳化核酸酶活性的區域。藉由縮短重複：抗重複區域、添加G-C鹼基對並去除G-U搖擺對，可以提高重複：抗重複區域中crRNA：tracrRNA鹼基配對的穩定性。測試了“最佳化的”引導變異體，並在體外切割試驗中使用RGN APG09748與野生型gRNA進行了比較。

為了產生用於RNP形成的RGN，構建了含有與C端His6（SEQ ID NO：593）或His10（SEQ ID NO：594）標籤融合的RGN的表現質體，並將其轉化到大腸桿菌的BL21（DE3）菌株中。使用添加了50 µg / mL康黴素的Magic Media（Thermo Fisher）進行表現。在溶解和澄清後，藉由固定的金屬親和色層分析法純化蛋白質，並使用Qubit蛋白質定量套組（Thermo Fisher）進行定量，或藉由使用計算的消光係數的UV-vis進行定量。

藉由將純化的RGN與sgRNA以約2：1的比例在室溫下培養20分鐘來製備核糖核蛋白（RNP）。對於體外切割反應，在室溫下，將RNP與含有側翼為較佳PAM序列的靶向前間隔的質體或線性dsDNA培養> 30分鐘。測試了TRAC基因座、TRAC11（SEQ ID NO：60）和TRAC14（SEQ ID NO：61）中的兩個目標核酸序列。測定gRNA對於具有正確的目標核酸序列（例如，gRNA具有TRAC11間隔序列且測定的目標是TRAC11）和不具有正確的目標核酸序列（例如，gRNA具有TRAC11間隔序列且測定的目標是TRAC14）的靶向活性。藉由質體切割確定的活性以瓊脂糖凝膠電泳評估。結果顯示在表3中。引導變異體以SEQ ID NO：56-59列出，並具有間隔序列。這些引導序列使用AAAA的非互補核苷酸連接子（SEQ ID NO：31）。具有增加的重複：抗重複結合的最佳化的gRNA（SEQ ID NO：64；poly-N表示間隔序列的位置）具有最佳化的tracrRNA（SEQ ID NO：62）和最佳化的crRNA（SEQ ID NO：63）成分。最佳化的引導變異體能夠切割兩個基因座，而以前使用野生型引導RNA未檢測到切割。藉由最佳化重複：抗重複區域中的雜交，對於TRAC基因座中的多個目標，APG09748的體外切割從0％切割增加到100％切割。表 3 ：具有工程化引導變異體的 APG09748 的編輯效率

gRNA 變異體 (SEQ ID NO.)	引導設計	測定目標	凝膠 1 - 2 µL 充填	凝膠 2 - 1 µL 充填
% 完整	% 切割的	% 完整	% 切割的
56	最佳化	TRAC11	68	32	57	43
56	最佳化	TRAC14	100	0	100	0
57	最佳化	TRAC11	100	0	100	0
57	最佳化	TRAC14	70	30	69	31
58	WT	TRAC11	100	0	100	0
58	WT	TRAC14	100	0	100	0
59	WT	TRAC11	100	0	100	0
59	WT	TRAC14	100	0	100	0
無		TRAC11	100	0	100	0
無		TRAC14	100	0	100	0

設計並測定了其他最佳化的gRNA變異體。此外，還測試了不同長度的間隔序列以確定間隔長度如何影響切割效率。在該測定法中，間隔序列之外的sgRNA被稱為“骨架”。在表4中，這些被標記為“ WT”（SEQ ID NO：53，野生型序列），以及三個最佳化的sgRNA：V1（SEQ ID NO：65）、V2（SEQ ID NO：66）和V3（ SEQ ID NO：64）。所有這些序列均具有poly-N以表示間隔序列的位置。引導藉由體外轉錄（IVT）表現為sgRNA。與野生型sgRNA骨架相比，V1的一致性為87.8％，V2的一致性為92.4％，V3的一致性為85.5％。還生產並測試了代表雙引導RNA但在其它方面類似於以上記載的野生型和最佳化的sgRNA的合成的tracrRNA：crRNA雙股體（「合成的」）。

對於這組測定，使用了RGN APG09106；在其它方面，體外切割反應的方法與上述方法相似。靶向的核酸序列是目標1（SEQ ID NO：67）和目標2（SEQ ID NO：68）。結果顯示於表4。表 4 ：具有工程化引導變異體的 APG09106 的編輯效率

RNA 來源	目標	間隔長度	骨架	間格子 SEQ ID NO.	切割 %
合成的	2	18	WT	69	12.3
合成的	1	20	WT	70	0
合成的	2	20	WT	71	55.0
合成的	1	25	WT	72	0
合成的	2	25	WT	73	61.4
IVT	2	25	V1	74	1.1
IVT	2	25	V2	75	0.9
IVT	2	25	V3	76	0.7
IVT	2	20	V3	77	21.0
IVT	1	25	V3	78	2.0

範例 5 ：哺乳動物細胞中的基因編輯活性的證明 範例 5.1 ：哺乳動物細胞中 APG02789 的活性

使用N端核定位標籤合成了針對人類表現進行密碼子最佳化的RGN核苷酸序列、並將其選殖至pcDNA3.1 CMV表現質體中。RGN多肽的最終構築體如下：N-末端–SV40 NLS（SEQ ID NO：10）– 3X FLAG標籤（SEQ ID NO：11）– RGN序列（SEQ ID NO：1、16、24、35、43或50）– 核質素 NLS（SEQ ID NO：12）– C-末端。使用Herculase II（Agilent Technologies）產生包括驅動sgRNA序列表現的U6啟動子的PCR擴增子。使用Lipofectamine 2000試劑（Life Technologies），將400 ng RGN表現質體以及100 ng sgRNA PCR產物轉染至達到75-90％融合度的HEK293FT細胞的24孔盤中。轉染後，在基因體DNA萃取之前，將細胞於37°C培養72小時。按照製造商的操作流程，使用QuickExtract DNA萃取液（Epicentre）萃取基因體DNA。對RGN目標位點側翼的基因體區域進行PCR擴增，以及按照製造商的操作流程使用QiaQuick Spin Column（Qiagen）純化產物。將總共200-500 ng的純化PCR產物與1 μl 10× Taq DNA聚合酶PCR緩衝液（酵素）以及超純水混合至最終體積為10 μl，並進行重貼合過程以使異源雙股形成：95°C 10分鐘，以-2°C/s從95°C降至85°C，以-0.25°C/s從85°C降至25°C，並在25°C下保持1分鐘。在重貼合後，按照製造商建議的操作流程以SURVEYOR核酸酶以及SURVEYOR增強劑S（集成DNA技術）處理產物、並在4-20 ％ Novex TBE聚丙烯醯胺凝膠（Life Technologies）上進行分析。凝膠用SYBR Gold DNA染料（Life Technologies）染色10分鐘、並用Gel Doc凝膠成像系統（Bio-rad）成像。定量是基於相對譜帶強度。插入缺失百分比由公式100×(1−(1−(b+c)/(a+b+c))½)確定，其中a為未分解的PCR產物的累積強度，b以及 c是每種切割產物的累積強度。

對於RGN APG02789，如上所述執行方法。人類基因體中的許多不同基因被靶向RNA引導的切割。這些基因座以及對sgRNA的SEQ ID NO的引用被包括在下表5中。也顯示了是RGN活性的指標的插入缺失百分比。表 5 ：哺乳動物細胞中 APG02789 的活性

sgRNA	基因目標	% 插入缺失
79	DNMT1	N.D.
80	VEGFA	N.D.
81	EMX1	45.6
82	AurkB	44.3
83	AurkB	31.6
84	AurkB	25.5
85	HPRT1	N.D.
86	HPRT1	15.7
87	HPRT1	N.D.
88	RelA	N.D.
89	RelA	N.D.
90	RelA	N.D.

範例 5.2 ：哺乳動物細胞中 APG09106 的活性

產生RGN表現匣並將其引入載體中以進行哺乳動物表現。針對人類的表現，對RGN APG00969、APG03128、APG09748、APG09106以及APG02789每一者進行密碼子最佳化（分別為SEQ ID NO：357-361），並且將表現的蛋白質在N末端可操作地融合到SV40核定位序列上（NLS； SEQ ID NO：10）和3xFLAG標籤（SEQ ID NO：11）、並在C末端可操作地融合至核質素NLS序列（SEQ ID NO：12）。使用NLS序列的兩個副本，可操作地串連融合。每個表現匣在巨細胞病毒（CMV）啟動子（SEQ ID NO：334）的控制下。本領域已知CMV轉錄增強子（SEQ ID NO：335）也可以被包括在包括CMV啟動子的構築體中。在人類RNA聚合酶III U6啟動子（SEQ ID NO：336）的控制下的編碼單一gRNA的每一個引導RNA表現構築體被產生、並被引入表現載體中。引導靶向AurkB基因的區域。對於一種RNA引導的核酸酶，使特定殘基突變以增加蛋白質的核酸酶活性，特別是將APG09106的T849殘基突變為精胺酸（SEQ ID NO：362）。此點突變增加了哺乳動物細胞中的編輯率。

將上述構築體引入哺乳動物細胞。轉染前一天，將1x10⁵ HEK293T細胞（Sigma）塗抹在Dulbecco改良的Eagle培養基（DMEM）加10％（vol/vol）胎牛血清（Gibco）以及1％青黴素-鏈黴素（Gibco）的24孔培養皿中。第二天，當細胞達到50-60％融合度時，按照製造商的使用說明，使用每孔1.5 μL Lipofectamine 3000（Thermo Scientific）共轉染500 ng RGN表現質體以及500 ng單一gRNA表現質體。生長48小時後，根據製造商的使用說明，使用基因體DNA分離套組（Machery-Nagel）收穫總基因體DNA。

然後分析總基因體DNA，以確定AurkB目標的編輯率。產生寡核苷酸（SEQ ID NO：363及SEQ ID NO：364）以用於PCR擴增以及擴增的基因體目標位點的後續分析。所有PCR反應均在20 μL反應（包括每一引子0.5 μM）中使用10 μL的2X Master Mix Phusion高保真DNA聚合酶（Thermo Scientific）進行。使用PCR＃1引子（SEQ ID NO：363以及SEQ ID NO：364）並使用以下程序首先擴增包含每個目標基因的大基因體區域：98°C，1分鐘；30次循環[98°C，10秒；62°C，15秒；72°C，5分鐘]；72°C，5分鐘；永遠12°C。

然後，使用對每一引導專一的引子（PCR＃2引子；SEQ ID NO：365-370）並使用以下程序進一步擴增一微升的此PCR反應：98°C，1分鐘；35次循環[98°C，10秒；67°C，15秒；72°C，30秒]； 72°C，5分鐘；永遠12°C。PCR＃2的引子包括用於Illumina定序的Nextera Read 1及Read 2 轉位酶轉接子突出序列。

第二次PCR擴增後，根據製造商的使用說明，使用PCR淨化套組（Zymo）清洗DNA，並在水中洗滌。將200-500ng純化的PCR＃2產物與2 μL的10X NEB Buffer 2以及水在20 μL反應中合併、並使用以下程序貼合以形成異源雙股DNA：95°C，5分鐘；95-85°C，以2°C /秒的速度冷卻；85-25℃，以0.1℃/秒的速度冷卻；永遠12°C。在貼合後，除去5 μL DNA作為無酵素對照，以及加入1 μL T7核酸內切酶I（NEB），並將反應在37°C下培養1小時。在培養後，添加5x FlashGel裝載染料（Lonza），並使用凝膠電泳以藉由2.2％瓊脂糖FlashGel（Lonza）分析5 μL每種反應以及對照。在凝膠可視化後，使用以下公式確定非同源末端連接（NHEJ）的百分比：％NHEJ事件 = 100 x [1-(1-切割的分數)(½)]，其中（切割的分數）被定義為：（分解產物的密度）/（分解產物+未分解的親本帶的密度）。

對於某些樣本，使用SURVEYOR®分析哺乳動物細胞中表現後的結果。轉染後，在基因體DNA萃取前，將細胞在37°C下培養72小時。按照製造商的操作流程，使用QuickExtract DNA萃取液（Epicentre）萃取基因體DNA。對RGN目標位點側翼的基因體區域進行PCR擴增，並按照製造商的操作流程使用QiaQuick Spin Column（Qiagen）純化產物。將總共200-500 ng的純化PCR產物與1 μl 10× Taq DNA聚合酶PCR緩衝液（酵素）以及超純水混合至最終體積為10 μl，並進行重貼合過程以使異源雙股形成：95°C 10分鐘，以-2°C/s從95°C降至85°C，以-0.25°C/s從85°C降至25°C，並在25°C下保持1分鐘。

重貼合後，按照製造商建議的操作流程以SURVEYOR®核酸酶以及SURVEYOR®增強劑S（集成DNA技術）處理產物、並在4-20 ％ Novex TBE聚丙烯醯胺凝膠（Life Technologies）上進行分析。凝膠用SYBR Gold DNA染料（Life Technologies）染色10分鐘、並用Gel Doc凝膠成像系統（Bio-rad）成像。定量是基於相對譜帶強度。插入缺失百分比由公式100×(1−(1−(b+c)/(a+b+c))½)確定，其中a為未分解的PCR產物的累積強度，b以及 c是每種切割產物的累積強度。

此外，遵循Illumina 16S 總基因體定序文庫(Metagenomic Sequencing Library)操作流程，對含有Illumina突出序列的PCR＃2中的產物進行文庫製備。深度定序在服務提供者（MOGene）的Illumina Mi-Seq平台上進行。通常，產生每擴增子200,000個250 bp的配對末端讀數（2 x 100,000個讀數）。使用CRISPResso（Pinello等人2016Nature Biotech ，34：695-697）分析讀數，以計算編輯率。手工整理輸出比對，以確認插入以及缺失位點，並在重組位點鑑定微同源位點。編輯率顯示於表6。所有實驗均在人類細胞中進行。「目標序列」是基因目標內的靶向序列。對於每個目標序列，取決於使用的RGN，引導RNA包括互補RNA間隔序列以及適合的sgRNA。表7.1以及7.2中顯示了藉由引導RNA選擇的實驗分析。表 6 ： AurkB 基因目標的總編輯率

RGN	引導 RNA ID	目標序列 (SEQ ID NO.)	樣本中的總編輯率	樣本中的缺失率	樣本中的插入率
APG09106	830	371	0.55%	100%
APG09106	831	372	0.60%	54%	46%
APG09106 T849R	830	371	2.97%	98%	2.00%
APG09106 T849R	831	372	2.36%	100%

表7.1以及7.2中顯示了各自的引導的特定插入以及缺失。在這些表中，目標序列由粗體大寫字母標出。8mer PAM區域用雙底線標出，主要辨識的核苷酸以粗體標出。插入用小寫字母標出。缺失用破折線（---）表示。從目標序列的PAM近端邊緣計算插入缺失位置，其中邊緣為位置0。如果位置是在邊緣的目標側，則位置為正（+）；如果位置是在邊緣的PAM側，則該位置為負（-）。表 7.1 ：使用 RGN APG09106 的引導 831 的特定插入以及缺失

引導	# 讀數	% 讀數	插入缺失的 %	類型	插入缺失位置	大小
GTCTGATTG CCTGTCGTTGCCCCTCCCAGATCAT GGAGGAGTTGGCAGA (SEQ ID NO: 373)	92294	99.40
GTCTGATTG CCTGTCGTTGCCCCTCCCA------ --AGGAGTTGGCAGA (SEQ ID NO: 595)	263	0.28	54.22	缺失	+19	8
GTCTGATTG CCTGTCGTTGCCC ctaagtgtattaagcattgtctcagagattttGGAGGAGTTGGCAGA (SEQ ID NO: 596)	222	0.24	45.77	插入	+13	20

表 7.2 ：使用 APG09106 T849R 的引導 831 的特定插入以及缺失

引導	# 讀數	% 讀數	插入缺失的 %	類型	插入缺失位置	大小
GTCTGATT GCCTGTCGTTGCCCCTCCCAGATCAT GGAGGAGTTGGCAGA (SEQ ID NO: 373)	189881	97.64
GTCTGATT G CCTGTCGTTGCCCC----------T GGAGGAGTTGGCAGA (SEQ ID NO: 597)	602	0.309	13.129	缺失	+14	10
GTCTGATT G CCTGTCGTTGCCCCTCCCAGATC— GGAGGAGTTGGCAGA (SEQ ID NO: 598)	394	0.202	8.593	缺失	+23	2
GTCTGATT G CCTGTCGTTGCCCCTCCCAGAT--- --AGGAGTTGGCAGA(SEQ ID NO: 599)	399	0.205	8.702	缺失	+22	5
GTCTGATT G CCTGTCGTTGCCCaTC--------T G--GGAGTTGGCAGA(SEQ ID NO: 600)	379	0.194	8.266	缺失 & 突變	+16	10
GTCTGATT G CCTGTCGTTGCCCCTC--------T GGAGGAGTTGGCAGA (SEQ ID NO: 601)	350	0.179	7.633	缺失	+16	8
GTCTGAT- - ------------------------T GGAGGAGTTGGCAGA (SEQ ID NO: 602)	309	0.158	6.739	缺失	-1	26
GTCTGATT G CCTGTCGTTGCCCCTC--------- GGAGGAGTTGGCAGA (SEQ ID NO: 603)	280	0.143	6.106	缺失	+16	9
GTCTGATT G CCTGTCGTTGCCCCTCC-------a GGAGGAGTTGGCAGA (SEQ ID NO: 604)	274	0.140	5.976	缺失 & 突變	+17	7
GTCTGATT G CCTGTCGTTGCCC------------ ---GGAGTTGGCAGA (SEQ ID NO: 605)	251	0.129	5.474	缺失	+13	15
GTCTGATT G CCTGTCGTTGCCC-------ATCAT GGAGGAGTTGGCAGA (SEQ ID NO: 606)	250	0.128	5.452	缺失	+13	7
GTCTGATT G CCTGTCGTTGCCCCTC------CAT GGAGGAGTTGGCAGA (SEQ ID NO: 607)	231	0.118	5.038	缺失	+16	6
GTCTGATT G CCTGTCGTTGCCCCTCCCA------ ------------------------GTACT (SEQ ID NO: 608)	218	0.112	4.754	缺失	+19	30
GTCTGATT G CCTGTCGTTGCCCC-----aATCtT GGAGGAGTTGGCAGA (SEQ ID NO: 609)	206	0.105	4.492	缺失 & 突變	+14	5
GTCTGATT G CCTGTCGTTGCCC--------T gggAT GGAGGAGTTGGCAGA (SEQ ID NO: 610)	162	0.083	3.533	缺失 & 突變	+13	8
GTCTGATT G CCTGTCGTTGCCCCTC--------- -----AGTTGGCAGA (SEQ ID NO: 611)	158	0.081	3.446	缺失	+16	14
GTCTGATT G CCTGTCGTTGCCCC-------TCAT GGAGGAGTTGGCAGA (SEQ ID NO: 612)	122	0.062	2.660	缺失	+14	7

範例 6 ：植物細胞中基因編輯活性的證明

使用改編自Li等人，2013（Nat. Biotech. 31：688-691）的操作流程，在植物細胞中證明了本發明的RGN的RNA引導的核酸酶活性。簡而言之，可操作地連接至編碼N端SV40核定位信號的核酸序列的本發明的RGN的植物密碼子最佳化版本（SEQ ID NO：1、16、24、35、43或50）被選殖在短暫轉形載體中的強持續型35S啟動子後。在第二個短暫表現載體中，將靶向植物PDS基因中的一或更多位點且側翼帶有適當PAM序列的sgRNA選殖在植物U6啟動子後。使用PEG介導的轉形將表現載體引入圓葉煙草（Nicotiana benthamiana ）葉肉原生質體中。將轉形的原生質體在黑暗中培養達36小時。使用DNeasy Plant Mini Kit（Qiagen）從原生質體中分離基因體DNA。對RGN目標位點側翼的基因體區域進行PCR擴增，並按照製造商的操作流程使用QiaQuick Spin Column（Qiagen）純化產物。將總共200-500 ng的純化PCR產物與1 μl 10× Taq DNA聚合酶PCR緩衝液（酵素）以及超純水混合至最終體積為10 μl，並進行重貼合過程以使異源雙股形成：95°C 10分鐘，以-2°C/s從95°C降至85°C，以-0.25°C/s從85°C降至25°C，並在25°C下保持1分鐘。

在重貼合後，按照製造商建議的操作流程以SURVEYOR核酸酶以及SURVEYOR增強劑S（集成DNA技術）處理產物、並在4-20 ％ Novex TBE聚丙烯醯胺凝膠（Life Technologies）上進行分析。凝膠用SYBR Gold DNA染料（Life Technologies）染色10分鐘、並用Gel Doc凝膠成像系統（Bio-rad）成像。定量是基於相對譜帶強度。插入缺失百分比由公式100×(1−(1−(b+c)/(a+b+c))½)確定，其中a為未分解的PCR產物的累積強度，b以及 c是每種切割產物的累積強度。範例 7 ：疾病目標的鑑定

可從NCBI ClinVar資料庫獲得臨床變異體資料庫，該資料庫可經由NCBI ClinVar網站上的全球資訊網獲得。從此列表中鑑定出了致病性單核苷酸多型性（SNP）。使用基因體基因座資訊，在重疊每個SNP以及每個SNP周圍的區域中鑑定了CRISPR目標。在表8中列出了可以使用鹼基編輯結合本發明的RGN以靶向因果突變（「Cas1 Mut.」）校正的SNP的選擇。在表8中，僅列出了每種疾病的一種別名。「RS＃」對應於經由在NCBI網站上的SNP資料庫獲得的RS登記號。對偶基因ID與因果對偶基因登錄號對應，且染色體登錄號也提供經由NCBI網站找到的登錄參考資訊。表8還提供了適合於為每種疾病列出的RGN的基因體目標序列資訊。目標序列資訊還提供了用於產生本發明的對應RGN所需的sgRNA的前間隔序列。

範例 8 ：賀勒氏症候群（ Hurler Syndrome ）起因的靶向突變

下面描述一種使用RNA定向鹼基編輯系統對賀勒氏症候群（也稱為MPS-1）的潛在治療，該RNA定向鹼基編輯系統校正了患有該疾病的大部分患者中的賀勒氏症候群起因的突變。這種方法利用了是RNA引導的且可以被包裝至單一AAV載體中以遞送到廣泛組織類型的鹼基編輯融合蛋白。取決於所使用的確切調控元件以及鹼基編輯結構域，也可能設計出編碼鹼基編輯融合蛋白以及單一引導RNA的單一載體，以靶向患病基因座。範例 8.1 ：用理想的 PAM 識別 RGN

遺傳性疾病MPS-1是一種溶體貯積症，其特徵在於在溶酶體中的硫酸皮膚素以及硫酸乙醯肝素所累積的分子水平。此疾病通常是由IDUA基因（NCBI參考序列NG_008103.1）中的突變引起的遺傳性疾病，該IDUA基因編碼α-L-艾杜醣醛酸酶。該疾病是α-L-艾杜醣醛酸酶缺乏的結果。在北歐背景個體的研究中發現的最常見的IDUA突變是W402X以及Q70X，兩者都是無意義突變，導致轉譯過早終止（Bunge等人（1994），Hum. Mol. Genet, 3(6)：861-866，在此引入作為參考）。單一核苷酸的反轉將恢復野生型編碼序列、並導致蛋白質表現受遺傳基因座的內源調節機制控制。

人類Idua基因的W402X突變佔MPS-1H例子的高比例。相對於引導RNA的前間隔成分的結合位點，鹼基編輯器可以靶向窄的序列視窗，且因此PAM序列距目標基因座特定距離的存在對於策略的成功是必要的。考慮到在鹼基編輯蛋白的相互作用期間目標突變必須在暴露的非目標股（NTS）上以及RGN結構域的足跡將阻止進入PAM附近區域的限制，認為可及的基因座距PAM是10-30 bp。為避免在此視窗中的其他附近的腺苷鹼基的編輯以及誘變，應篩選不同的連接子。理想視窗是距PAM 12-16 bp。

RGN APG00969具有相容的PAM序列。APG00969具有5’-nnARV-3’的PAM序列（SEQ ID NO：7）、並且大小緊密-可能允許經由單一AAV載體進行遞送。相對於其他方法，這種遞送方法給予了多種優勢，例如出入各種組織（肝臟、肌肉、中樞神經系統）以及完善的安全性以及製造技術。

來自化膿鏈球菌（S. pyogenes ）的Cas9（SpyCas9）需要NGG的PAM序列（SEQ ID NO：323），該PAM序列存在於W402X基因座附近，但是SpyCas9的大小阻止了包裝到單一AAV載體中、且因此放棄了這種方法的前述優勢。雖然可以採用雙重遞送策略（例如，Ryu等人，（2018），Nat. Biotechnol ., 36(6)：536-539，其藉由引用併入本文），但是這將增加明顯的製造複雜性以及成本。此外，由於在給定細胞中的成功編輯需要兩種載體的感染以及細胞中融合蛋白的組裝，因此雙重病毒載體遞送明顯降低了基因校正的效率。

相對於SpyCas9，來自金黃色葡萄球菌（S. aureus ）的常用Cas9異種同源物（SauCas9）在大小上明顯較小、但具有更複雜的PAM要求-NGRRT（SEQ ID NO：324）。然而，此序列不在預期對致病基因座的鹼基編輯有用的範圍內。範例 8.2 ： RGN 融合構築體以及 sgRNA 序列

使用標準的分子生物學技術產生編碼具有以下結構域的融合蛋白的DNA序列：1）具有使DNA切割活性不活化的（「死亡的」或「切口酶」）突變的RGN結構域； 2）有用於鹼基編輯的腺苷去胺酶。下表（表9）中所述的構築體包括具有鹼基編輯活性結構域的融合蛋白，在此範例中為可操作地融合至死亡的RGN APG00969（SEQ ID NO：327）的N端末端的APG02312（SEQ ID NO：325）的突變變異體。鹼基編輯活性結構域可以是本發明的任何腺苷去胺酶，例如SEQ ID NO：514或572-584。本領域中已知融合蛋白也可以用RGN的C端末端的鹼基編輯酵素來製備。此外，融合蛋白的RGN以及鹼基編輯器典型地被連接子胺模體列分開。本領域已知標準連接子的長度範圍是15-30個胺基酸。此外，本領域已知RGN與鹼基編輯酵素之間的某些融合蛋白還可包括至少一個尿嘧啶醣苷酶抑制劑（UGI）結構域（SEQ ID NO：570），該尿嘧啶醣苷酶抑制劑（UGI）結構域可增加鹼基編輯效率（美國專利號10,167,457，其藉由引用併入本文）。因此，融合蛋白可包括RGN APG00969或其變異體、腺苷去胺酶以及可選地至少一種UGI。表 9 ：用於 RNA 靶向的鹼基編輯的構築體

SEQ ID No.	構築體	RGN	死亡的 (D) 或切口酶 (N)	鹼基編輯器	連接子 (SEQ ID NO.)
326	Nuc-ADAT-連接子-dAPG00969-連接子-SV40	APG00969	D	ADAT	546

RGN的可及編輯位點由PAM序列確定。當將RGN與鹼基編輯結構域結合時，因為NTS是單股的，而RGN與基因座相關聯，所以用於編輯的目標殘基必須位於非目標股（NTS）上。評估若干核酸酶以及對應的引導RNA可以為該特定基因座選擇最適合的基因編輯工具。在人類Idua基因中的上述構築體可靶向的幾種潛在PAM序列位於W402X突變起因的突變核苷酸附近。還產生了編碼引導RNA轉錄本的序列，引導RNA轉錄本包含：1）與疾病基因座處的非編碼DNA股互補的「間隔」；以及 2）引導RNA與RGN締合所需的RNA序列。這樣的sgRNA可以由例如SEQ ID NO：356編碼。可以由本領域中具有通常知識者設計的這種sgRNA或類似sgRNA可以就其在將上述鹼基編輯器或鹼基編輯器與不同RGN-去胺酶的融合體引導至所關注的基因座的功效而被評估。範例 8.3 ：來自賀勒氏病患者的細胞中活性的測定

為了驗證基因型策略並評估上述構築體，使用了來自賀勒氏病患者的纖維母細胞。與範例5中描述的那些載體類似，設計了一種在融合蛋白編碼序列以及sgRNA編碼序列上游包含適合的啟動子的載體，用於在人類細胞中表現這些序列。認識到也可以使用已知在人類細胞中有高表現水平、或在纖維母細胞中專一性表現的啟動子以及其他DNA元件（例如，增強子或終止子）。使用標準技術（例如類似於範例5中描述的轉染）將載體轉染到纖維母細胞中。替代地，可以使用電穿孔。將細胞培養1-3天。使用標準技術分離基因體DNA（gDNA）。如下所述，藉由對純化的gDNA進行qPCR基因分型測定及/或次世代定序來確定編輯效率。

Taqman™qPCR分析利用了對野生型以及突變體對偶基因具有專一性的探針。這些探針帶有螢光團，使用qPCR儀器、藉由這些螢光團的光譜激發及/或發射特性來解析這些螢光團。含有PCR引子以及探針的基因分型套組可以是商業上獲得的（即SNP ID rs121965019的Thermo Fisher Taqman™ SNP 基因分行分析ID C__27862753_10）或經設計的。表10顯示了經設計的引子以及探針組的範例。表 10 ： RT-PCR 引子以及探針

描述	序列	SEQ ID NO.
前向擴增引子	5’-GACTCCTTCACCAAG-3’	328
反向擴增引子	5’-GTAGATCAGCACCG-3’	329
野生型探針	5’-CTCTG GGCCGAAGT-3’	330
W402X探針	5’-CTCTA GGCCGAAGT-3’	331

編輯實驗後，使用標準方法、以及上述的引子及探針對gDNA進行qPCR分析。預期結果顯示在表11中。此體外系統可用於方便地評估構築體、以及選擇具有高編輯效率的構築體用於進一步研究。與具有以及不具有W402X突變的細胞、且較佳是與對該突變異型接合的一些細胞進行比較來評估該系統。Ct值將使用染料（如Sybr green）的與基因座的總擴增、或者參考基因進行比較。表 11 ：預期的 qPCR 結果

基因型	以鹼基編輯器轉染	預期的 PCR 結果
Idua^WT/WT	否	同型接合的WT
Idua^WT/W402X	否	異型接合: 50% WT, 50% W402X
Idua^W402X/W402X	否	同型接合的W402X
Idua^W402X/W402X	是	變異

還可以藉由次世代定序來分析組織。可以使用例如以下所示的引子結合位點（表12）、或可以由本領域中具有通常知識者辨識的其他適合的引子結合位點。PCR擴增後，按照Illumina 16S總基因體定序文庫操作流程對含有Illumina Nextera XT突出序列的產物進行文庫製備。深度定序是在Illumina Mi-Seq平台上執行。典型地，每個擴增子產生200,000個250 bp的配對末端讀數（2 x 100,000個讀數）。使用CRISPResso分析這些讀數（Pinello等人，2016）以計算編輯率。手工整理輸出比對，以確認插入以及缺失位點，並在重組位點鑑定微同源位點。表 12 ： NGS 引子結合位點

方向	序列	SEQ ID NO.
正向	5’-ACTTCCTCCAGCC-3’	332
反向	5’-GAACCCCGGCTTA-3’	333

使用抗IDUA抗體對經轉染的細胞以及對照細胞的細胞裂解物進行西方印漬術以驗證全長蛋白質的表現，以及使用受質4-甲基傘形酮基a-L-艾杜醣醛酸苷（4-methylumbelliferyl a-L-iduronide）對細胞裂解物進行的酵素活性測定驗證該酵素是否具有催化活性的（Hopwood等人，Clin.Chim. Acta （1979），92(2)：257-265，其藉由引用併入本文）。這些實驗是與原始的Idua^W402X/W402X 細胞株（無轉染）、用鹼基編輯構築體以及隨機的引導序列轉染的Idua^W402X/W402X 細胞株、以及表現野生型IDUA的細胞株比較而進行。範例 8.4 ：鼠模型中疾病治療的驗證

為了驗證這種治療方法的有效性，使用了在同功胺基酸中具有無意義突變的小鼠模型。小鼠品系在其Idua基因（基因ID：15932）中帶有W392X突變，該W392X突變對應於賀勒氏症候群患者中的同源突變（Bunge等人，（1994），Hum. Mol. Genet . 3(6)：861- 866，其藉由引用併入本文）。此基因座包括相對於人類核苷酸序列的獨特核苷酸序列，該核苷酸序列缺少用先前範例中描述的鹼基編輯器進行校正所必需的PAM序列，且因此需要設計獨特的融合蛋白來進行核苷酸校正。這種動物疾病的改善可以驗證校正基因傳遞載體可及的組織中突變的治療方法。

對此突變同型接合的小鼠表現出類似於賀勒氏症候群患者的若干表現型特徵。如上所述的鹼基編輯-RGN融合蛋白（表9）與RNA引導序列一起被引入表現載體，該表現載體允許在小鼠中的蛋白質表現以及RNA轉錄。研究設計於下顯示於表13中。該研究包括用高劑量表現載體（該表現載體包括鹼基編輯融合蛋白和RNA引導序列）治療的組、低劑量的相同表現載體、對照組（為用不包括鹼基編輯融合蛋白或引導RNA的表現載體處理的模型小鼠）、以及第二對照組（為用相同空載體處理的野生型小鼠）。表 13 ：鼠模型中的基因體編輯實驗

組別	小鼠品系	N	處理
1	Idua-W392X¹	≥ 5	低劑量載體
2	Idua-W392X	≥ 5	高劑量載體
3	Idua-W392X	≥ 5	媒介物(Vehicle）
4	129/Sv (WT)	5	媒介物

評估的結果變數包括體重、尿液GAG排泄、血清IDUA酵素活性、所關注的組織中的IDUA活性、組織病理學、所關注的組織的基因分型以驗證SNP的校正以及行為及神經學評估。由於某些結果變數是終點，因此可以在研究結束之前添加其他組以用於評估例如組織病理學以及組織IDUA活性。在建立賀勒氏症候群動物模型的已發表論文中可以找到結果變數的其他範例（Shull等人（1994），Proc. Natl. Acad. Sci. U.S.A ., 91(26)：12937-12941；Wang等人（2010），Mol. Genet. Metab ., 99(1)：62-71；Hartung等人（2004），Mol. Ther. , 9(6)：866-875；Liu等人（2005），Mol. Ther. , 11(1)：35-47；Clarke等人（1997），Hum. Mol. Genet . 6(4)：503-511；全部藉由引用併入本文）。

一種可能的遞送載體利用腺相關病毒（AAV）。產生載體以包括：前面有CMV增強子（SEQ ID NO：335）以及啟動子（SEQ ID NO：334）、或其他適合的增強子及啟動子組合(可選地為Kozak序列)的鹼基編輯器-dRGN融合蛋白編碼序列（例如，如上所述的Nuc-ADAT-連接子-dAPG19748-連接子-SV40），且其在3'端可操作地與終止子序列以及聚腺苷酸化序列（例如Levitt, N.中所述的最小序列；Briggs, D.；Gil, A.；Proudfoot, N. J.，Definition of an Efficient Synthetic Poly(A) Site，Genes Dev . 1989，3(7), 1019–1025）融合。載體可進一步包括表現匣，該表現匣編碼單一引導RNA、以及進一步包括用於包裝至AAV殼體中所必需以及本領域眾所周知的反向末端重複（ITR）序列，該單一引導RNA在其5'端可操作地連接至人類U6啟動子（SEQ ID NO：336）或適於產生小的非編碼RNA的另一啟動子）。生產以及病毒包裝藉由標準方法（例如在美國專利號9,587,250中描述的方法，該專利在此藉由引用作為參考）進行。

其他可能的病毒載體包括通常使用且含有類似元件的腺病毒以及慢病毒（lentivirus）載體，該腺病毒以及慢病毒載體具有不同的包裝能力以及要求。也可以使用非病毒遞送方法，例如脂質奈米粒子包裹的mRNA以及sgRNA（Cullis，P. R.以及Allen，T. M.（2013），Adv. Drug Deliv. Rev . 65(1)：36-48；Finn等人（2018），Cell Rep. 22(9)：2227-2235，兩者藉由引用併入）、質體DNA的流體動力學進樣（Suda T以及Liu D，2007，Mol. Ther. 15(12)：2063-2069，其藉由引用併入本文）、或與金奈米粒子相關聯的sgRNA的核糖核蛋白錯合物（Lee, K.；Conboy, M.；Park, H. M.；Jiang, F.；Kim, H. J.；Dewitt, M. A.；Mackley, V. A.；Chang, K.；Rao, A.；Skinner, C.；等人，Nat. Biomed. Eng . 2017, 1 (11), 889–90）。範例 8.5 ：具有人源化基因座的小鼠模型中的疾病校正

為了評估與用於人類治療的相同鹼基編輯器構築體的功效，需要一種小鼠模型，其中W392附近的核苷酸被改變以匹配人類中W402附近的序列。這可以藉由多種技術來完成，這些技術包括使用RGN以及HDR模板切割及取代小鼠胚胎中的基因座。

由於高度的胺基酸保留性，可以將小鼠基因座中的大多數核苷酸改變為具有緘默突變的人類序列中的核苷酸，如表14所示。導致所得工程小鼠基因體中編碼序列改變的唯一的鹼基變化發生在引入的終止密碼子之後。表 14 ：產生人源化小鼠基因座的核苷酸突變

	人類 (W402X)	小鼠 (W392X)	人源化小鼠
特徵	核苷酸（ SEQ ID NO ： 337 ）	編碼的 AA （ SEQ ID No ： 614 & 615 ）	核苷酸（ SEQ ID NO ： 338 ）	編碼的 AA （ SEQ ID NO ： 616 & 617 ）	核苷酸（ SEQ ID NO ： 339 ）	編碼的 AA （ SEQ ID NO ： 616 & 615 ）
前間隔序列	G	E	A	G	G	G
G	E	G	E	G	E
A	A	A
G	A	G
C	Q	C	Q	C	Q
A	A	A
G	A	G
C	L	C	L	C	L
T	T	T
C	C	C
T	終止	T	終止	T	終止
A	A	A
G	G	G
G	A	G	A	G	A
C	C	C
C	A	C
G	E	G	E	G	E
A	A	A
A	G	A
G	V	G	V	G	V
T	T	T
G	C	G
T	S	T	S	T	S
C	C	C
G	A	G
PAM ，非關鍵	C	Q	A	K	C	Q
A	A	A
G	G	G
G	A	G	A	G	A
PAM ，關鍵	C	C	C
C	T	C

在對此小鼠品系進行工程化後，將如範例8.4中所述進行類似的實驗。範例 9 ：為弗利德來運動失調（ Friedreich Ataxia ）原因的靶向突變

引起弗利德來運動失調（FRDA）的三核苷酸重複序列的擴增發生在FXN基因內的經確定的遺傳基因座中，其稱為FRDA不穩定性區域。RNA引導的核酸酶（RGN）可用於切除FRDA患者細胞中的不穩定性區域。這種方法需要1）RGN以及引導RNA序列，該序列可被編程以靶向人類基因體中的對偶基因；以及2）RGN以及引導序列的遞送方法。用於基因體編輯的許多核酸酶（例如來自化膿性鏈球菌的常用Cas9核酸酶（SpCas9））太大而無法包裝到腺相關病毒（AAV）載體中，尤其是除了功能性表現匣所需的其他遺傳元件外還考慮到SpCas9基因的長度以及引導RNA時。這使得不太可能使用SpCas9的可行方法。

本發明的緊密RNA引導的核酸酶，特別是APG09748以及APG09106，相當適合於FRDA不穩定性區域的切除。每個RGN都有在FRDA不穩定性區域附近的PAM需求。此外，這些RGN中的每一個RGN都可以與引導RNA一起被包裝到AAV載體中。包裝兩個引導RNA可能需要第二個載體，但是與需要在兩個載體之間切割蛋白質序列的較大的核酸酶（例如SpCas9）所需的相比，這種方法仍然具有優勢。

表15顯示了適合於將APG09748或APG09106靶向FRDA不穩定性區域的5'以及3'側翼的基因體目標序列的位置、以及用於基因體目標的sgRNA的序列。一旦在該基因座，RGN將切除FA不穩定性區域。該區域的切除可利用基因座的Illumina定序來驗證。表 15 ： RGN 系統的基因體目標序列

引導 No.	相對於 FRDA 不穩定性區域的位置	基因體目標序列（ SEQ ID NO. ）	sgRNA （ SEQ ID NO. ）
1	5’	340	344
2	5’	341	345
3	3’	342	346
4	3’	343	347

範例 10 ：導致鐮狀細胞疾病的靶向突變

BCL11A增強子區域內的靶向序列（SEQ ID NO：348）可提供用於增加胎兒血紅素（HbF）的機制，以治癒或減輕鐮狀細胞疾病的症狀。例如，基因體廣泛關聯研究已經確認了在BCL11A處的與增加的HbF水平相關聯的一組遺傳變異。這些變異是在BCL11A的非編碼區域中發現的SNP的集合，這些SNP用作階段專一性的、譜系限制的增強子區域。進一步的研究顯示，在類紅血球中該BCL11A增強子是BCL11A表現所必需的（Bauer等人，（2013）Science 343：253-257，其藉由引用併入本文）。在BCL11A基因的內含子2內發現了增強子區域，並且鑑定了在內含子2中的DNaseI過敏反應的三個區域（通常表明了與調節潛能相關聯的染色質狀態）。根據距BCL11A的轉錄起始位點的千鹼基距離，將這三個區域確定為「+62」、「+58」以及「+55」。這些增強子區域長度大約為350 (+55)；550 (+58)；350 (+62)個核苷酸（Bauer等人，2013）。範例 10.1 ：確定較佳的 RGN 系統

這裡描述了一種使用RGN系統對β-血紅素病的潛在治療，該RGN系統破壞BCL11A結合至其在HBB基因座內的結合位點，HBB基因座是負責製造成人血紅素中的β-球蛋白的基因。這種方法使用了在哺乳動物細胞中更為有效的NHEJ。此外，此方法使用可以被包裝到單一AAV載體中以用於體內遞送的大小足夠小的核酸酶。

人類BCL11A增強子區域中的GATA1增強子模體（SEQ ID NO：348）是用於使用RNA引導的核酸酶（RGN）的破壞以降低成人紅血球中的HbF同時重新表現以及BCL11A表現的理想目標（Wu等人（2019）Nat Med 387：2554）。與APG09748或APG09106相容的幾個PAM序列在此GATA1位點周圍的遺傳基因座處是非常表觀的。這些核酸酶具有5'-DTTN-3'的PAM序列（SEQ ID NO：30）、並且大小緊密，潛在地允許這些核酸酶在單一AAV或腺病毒載體中與適當的引導RNA一起遞送。相對於其他方法 (例如獲得造血幹細胞以及完善的安全性以及製造技術)，這種遞送方法具有多種優勢。

來自化膿鏈球菌的常用Cas9核酸酶（SpyCas9）需要5’-NGG-3’的PAM序列（SEQ ID NO：323），其中一些存在於GATA1模體附近。然而，SpyCas9的大小阻止了包裝到單一AAV或腺病毒載體中、且因此放棄了此方法的上述優點。儘管可以採用雙重遞送策略，但會增加顯著的製造複雜性以及成本。此外，因為在給定細胞中的成功編輯需要利用兩種載體的感染，雙重病毒載體遞送顯著降低了基因校正的效率。

類似於範例5中所述，產生了編碼人類密碼子最佳化的APG09748（SEQ ID NO：349）或APG09106（SEQ ID NO：360）的表現匣。也產生了表現針對RGN APG09748或APG09106的引導RNA的表現匣。這些引導RNA包括：1）與BCL11A增強子基因座內的非編碼或編碼DNA股互補的前間隔序列（目標序列）、以及2）引導RNA與RGN締合所需的RNA序列。由於APG09748或APG09106靶向的幾種潛在PAM序列圍繞BCL11A GATA1增強子模體，因此產生了幾種潛在的引導RNA構築體，以確定產生BCL11A GATA1增強子序列的NHEJ介導的破壞以及強健切割的最佳前間隔序列。使用表16中提供的sgRNA對表16中的目標基因體序列進行評估，以將RGN引導至此基因座。表 16 ：使用 APG09748 的 BCL11A GATA1 增強子基因座的目標序列

引導	目標基因體序列（ SEQ ID NO. ）	sgRNA （ SEQ ID NO. ）
1	350	353
2	351	354
3	352	355

為了評估APG09748或APG09106產生破壞BCL11A增強子區域的插入或缺失的效率，使用了人類細胞株，例如人類胚胎腎細胞（HEK細胞）。產生包括RGN表現匣（例如，如範例5中所述）的DNA載體。還產生了包括表現匣的單獨載體，該表現匣包括表16的引導RNA序列的編碼序列。如範例5中所述，這樣的表現匣可以進一步包括人類RNA聚合酶III U6啟動子（SEQ ID NO：336）。替代地，可以使用包括RGN及引導RNA兩者的表現匣的單一載體。使用標準技術（例如範例5中描述的那些標準技術）將載體引入HEK細胞，並將細胞培養1-3天。在此培養期後，如範例5所述，分離基因體DNA，並使用T7核酸內切酶I消化及/或直接DNA定序來確定插入或缺失的頻率。

用含有Illumina Nextera XT突出序列的引子以藉由PCR擴增包含該目標BCL11A區域的DNA的區域。可使用T7核酸內切酶I分解以針對NHEJ形成來檢查這些PCR擴增子，或者這些PCR擴增子按照Illumina 16S 總基因體定序文庫操作流程或類似的次世代定序（Next Generation Sequencing (NGS)）文庫製備進行文庫製備。在深度定序後，由CRISPResso分析所產生的讀數以計算編輯率。手工整理輸出比對以確認插入以及缺失位點。此分析鑑定了較佳的RGN以及對應的較佳的引導RNA（sgRNA）。該分析可能導致APG09748或APG09106兩者同樣是較佳的。此外，該分析可以確定有不止一種較佳的引導RNA、或者表16中的所有目標基因體序列同樣是較佳的。範例 10.2 ：胎兒血紅素表現的測定

在此範例中，針對胎兒血紅素表現，測定了破壞BCL11A增強子區域的APG09748或APG09106產生的插入或缺失。使用健康的人類供體CD34⁺ 造血幹細胞（HSC）。培養這些HSC，並使用與範例8.3中描述的方法類似的方法引入包括了表現匣的載體，該表現匣包括較佳的RGN以及較佳的sgRNA的編碼區域。在電穿孔後，使用已建立的操作流程將這些細胞在體外分化為紅血球（例如，Giarratana等人（2004）Nat Biotechnology 23：69-74，其藉由引用併入本文）。然後利用抗人類HbF抗體、使用西方印漬術測量HbF的表現，或經由高效液相層析法（HPLC）定量HbF的表現。當與僅用RGN但無引導進行電穿孔的HSC相較時，預期BCL11A增強子基因座的成功破壞將導致HbF產量增加。範例 10.3 ：鐮狀細胞形成減少的測定

在此範例中，針對鐮狀細胞形成減少，測定了破壞BCL11A增強子區域的APG09748或APG09106產生的插入或缺失。使用來自患有鐮狀細胞疾病的患者的供體CD34⁺ 造血幹細胞（HSC）。培養這些HSC，並使用與範例8.3中描述的那些方法類似的方法引入包括表現匣的載體，該表現匣包括較佳的RGN以及較佳的sgRNA的編碼區域。在電穿孔後，使用建立的操作流程將這些細胞在體外分化為紅血球（Giarratana等人(2004)Nat Biotechnology 23：69-74）。然後利用抗人類HbF抗體、使用西方印漬術測量HbF的表現、或經由高效液相層析法（HPLC）定量HbF的表現。當與僅用RGN但無引導進行電穿孔的HSC相比時，預期BCL11A增強子基因座的成功破壞將導致HbF產量增加。

藉由偏亞硫酸鹽的加入，在這些分化的紅血球中誘導鐮狀細胞形成。使用顯微鏡對鐮狀紅血球與正常紅血球的數量進行計數。可以預期，用APG09748或APG09106加sgRNA處理的細胞中，鐮狀細胞的數量少於未經處理、或僅用RGN處理的細胞。範例 10.4 ：鼠模型中的疾病治療驗證

為評估使用APG09748或APG09106破壞BCL11A基因座的功效，使用適合的鐮狀細胞性貧血的人源化小鼠模型。將編碼較佳RGN以及較佳sgRNA的表現匣包裝至AAV載體或腺病毒載體中。特別地，腺病毒類型Ad5/35可有效靶向HSC。選擇適合的包含帶有鐮狀細胞對偶基因的人源化HBB基因座的小鼠模型，例如B6；FVB-Tg（LCR-HBA2、LCR-HBB*E26K）53Hhb/J或B6.Cg-Hbatm1Paz Hbbtm1Tow Tg（HBA-HBBs）41Paz/HhbJ。這些小鼠單獨以顆粒球群落刺激因子或與普樂沙福（plerixafor）組合而被治療，以使HSC進入循環。然後，靜脈注射攜帶RGN以及引導質體的腺病毒或AAV，以及使小鼠恢復一週。使用偏亞硫酸鹽在體外鐮狀細胞形成測定中測試從這些小鼠獲得的血液，並連續追踪小鼠以監測死亡率以及造血功能。當與用缺乏RGN以及引導RNA表現匣的病毒、或者用僅攜帶RGN表現匣的病毒處理的小鼠相較時，用攜帶RGN以及引導RNA的腺病毒或AAV的治療有望降低鐮狀細胞形成、死亡率並改善造血功能。範例 11 ：去胺酶的鑑定

微生物培養物在標準實驗室培養基中以液體培養生長。在DNA製備之前，將培養物培養至飽和（16至24小時）。藉由去污劑裂解從細菌細胞中萃取DNA，接著與二氧化矽基質結合以及用乙醇緩衝液清洗。用弱鹼性的水性緩衝液從二氧化矽基質中洗提純化的DNA。

用分光光度法測試用於定序的DNA的純度以及濃度。定序文庫是根據製造商的操作流程使用Nextera XT文庫製備套組而製備。序列資料是根據Illumina HiSeq 2000系統使用者指導操作流程在HiSeq 2000上產生。

使用CLC Bio Assembly Cell套裝軟體將定序讀數組裝為基因體草圖。組裝後，用幾種方法進行基因調用，並查詢所得的基因序列以鑑定去胺酶基因的新同源物。藉由BLAST以及結構域組成鑑定新基因。在所有酵素中都預測到了催化結構域D/H/C-[X]-E-[X15–45]-P-C-[X2]-C（SEQ ID NO：613）。此外，還檢查了在NCBI資料庫中鑑定、是來自定序的真核生物的基因體的假定去胺酶的序列。鑑定出的268種APOBEC結構域蛋白以65％的同源性聚類，並選擇47種候選物以用於去胺酶活性測定。鑑定出的392個ADAT結構域蛋白以65％的同源性聚類，並根據序列長度進一步選擇。選擇了125種ADAT結構域蛋白以用於去胺酶活性測定，這些ADAT結構域蛋白的長度均小於220個胺基酸。

表17表明了47種選定的APOBEC結構域蛋白以及125種ADAT結構域蛋白。表明了為每種多肽提供唯一識別碼的APG ID以及SEQ ID NO。如果可用，則提供NCBI以及Uniprot登記號。「結構域描述」表明去胺酶是否具有ADAT或APOBEC結構域。還表明了所鑑定的多肽序列內的ADAT結構域或APOBEC結構域的開始以及結束。表 17 ：經鑑定的去胺酶

SEQ ID NO.	APG ID	NCBI 登記號	Uniprot 登記號	結構域描述	結構域開始	結構域結束
374	APG00868	N/A	B2XR68_FELCA	APOBEC-結構域	69	103
375	APG01021	WP_003372040	N/A	APOBEC-結構域	334	370
376	APG01179	N/A	N/A	APOBEC-結構域	137	170
377	APG01180	N/A	A0A2K6U5H6_SAIBB	APOBEC-結構域	56	90
378	APG01527	N/A	A0A2I0LXZ8_COLLI	APOBEC-結構域	63	95
379	APG01650	N/A	A0A3B3ZFB9_9GOBI	APOBEC-結構域	212	243
380	APG01689	N/A	A0A0A1X9Q9_ZEUCU	APOBEC-結構域	71	102
381	APG02207	N/A	N/A	APOBEC-結構域	321	357
382	APG02282	N/A	N/A	APOBEC-結構域	131	165
383	APG02316	WP_002598246	N/A	APOBEC-結構域	311	347
384	APG02472	N/A	A0A1V4JAP2_PATFA	APOBEC-結構域	54	89
385	APG02810	N/A	N/A	APOBEC-結構域	131	164
386	APG03038	N/A	N/A	APOBEC-結構域	136	170
387	APG03237	N/A	A0A2I3GCB3_NOMLE	APOBEC-結構域	262	275
388	APG03260	N/A	N/A	APOBEC-結構域	138	172
389	APG03331	N/A	M3W3R0_FELCA	APOBEC-結構域	54	88
390	APG03526	N/A	G1RYY7_NOMLE	APOBEC-結構域	263	299
391	APG03683	N/A	A0A0K0MJ25_HUMAN	APOBEC-結構域	58	81
392	APG03857	N/A	U3JMS2_FICAL	APOBEC-結構域	94	117
393	APG04050	N/A	A0A340X469_LIPVE	APOBEC-結構域	267	301
394	APG04117	N/A	G1TLT9_RABIT	APOBEC-結構域	69	103
395	APG04613	N/A	A0A2R2X2H4_PTEAL	APOBEC-結構域	74	108
396	APG05200	N/A	A0A2R2X2I7_PTEVA	APOBEC-結構域	74	108
397	APG05241	N/A	ABEC1_MONDO	APOBEC-結構域	60	95
398	APG05731	WP_015392428	N/A	APOBEC-結構域	316	352
399	APG05840	N/A	G8GPV9_SAGOE	APOBEC-結構域	74	108
400	APG05874	N/A	A0A2R2X2I2_PTEVA	APOBEC-結構域	84	124
401	APG06119	N/A	ABC3G_LAGLA	APOBEC-結構域	254	288
402	APG06544	N/A	A0A218ULD2_9PASE	APOBEC-結構域	57	89
403	APG06662	N/A	A0A2R2X2I3_PTEVA	APOBEC-結構域	84	124
404	APG06719	N/A	A0A2U3Y3M5_LEPWE	APOBEC-結構域	61	96
405	APG07092	N/A	N/A	APOBEC-結構域	143	176
406	APG07277	N/A	N/A	APOBEC-結構域	130	163
407	APG07280	N/A	A0A1S3FTE2_DIPOR	APOBEC-結構域	88	123
408	APG07386	N/A	F6M3K7_MACMU	APOBEC-結構域	271	305
409	APG07674	N/A	E2RL86_CANLF	APOBEC-結構域	53	87
410	APG07774	N/A	A0A151P6M4_ALLMI	APOBEC-結構域	62	97
411	APG08360	N/A	A0A287AD63_PIG	APOBEC-結構域	81	115
412	APG08501	N/A	N/A	APOBEC-結構域	315	351
413	APG08616	N/A	A0A340WXU3_LIPVE	APOBEC-結構域	156	190
414	APG09260	N/A	A0A1S3T3Q2_SALSA	APOBEC-結構域	88	106
415	APG09664	N/A	A0A2K6NPI0_RHIRO	APOBEC-結構域	73	107
416	APG09688	N/A	G1TVM9_RABIT	APOBEC-結構域	92	127
417	APG09693	N/A	A0A2K5XQK6_MANLE	APOBEC-結構域	257	290
418	APG09710	N/A	F7EWS7_RAT	APOBEC-結構域	85	122
419	APG09739	N/A	S4RNJ9_PETMA	APOBEC-結構域	72	117
420	APG09980	N/A	A0A2R2Z4D8_PTEAL	APOBEC-結構域	68	102
421	APG00835	WP_006418834	N/A	ADAT-結構域	64	97
422	APG00921	WP_005583886	N/A	ADAT-結構域	58	91
423	APG00970	WP_013486656	N/A	ADAT-結構域	58	91
424	APG00990	WP_008706930	N/A	ADAT-結構域	62	95
425	APG01340	WP_009534123	N/A	ADAT-結構域	89	122
426	APG01499	N/A	A0A0V0J9J5_SCHSO	ADAT-結構域	46	85
427	APG01593	N/A	N/A	ADAT-結構域	65	98
428	APG01603	WP_005610988	N/A	ADAT-結構域	71	104
429	APG01612	N/A	N/A	ADAT-結構域	60	92
430	APG01755	N/A	H0V5A6_CAVPO	ADAT-結構域	71	110
431	APG01974	WP_011736131	N/A	ADAT-結構域	64	97
432	APG02173	WP_003322111	N/A	ADAT-結構域	55	88
433	APG02281	N/A	N/A	ADAT-結構域	29	68
434	APG02312	WP_016147568	N/A	ADAT-結構域	53	86
435	APG02334	WP_011244898	N/A	ADAT-結構域	55	88
436	APG02339	WP_005584387	N/A	ADAT-結構域	51	84
437	APG02410	WP_009215532	N/A	ADAT-結構域	76	109
438	APG02412	N/A	N/A	ADAT-結構域	64	101
439	APG02420	WP_015561774	N/A	ADAT-結構域	59	92
440	APG02442	WP_017549959	N/A	ADAT-結構域	63	96
441	APG02591	N/A	A0A2P8YEP2_BLAGE	ADAT-結構域	50	89
442	APG02600	WP_005358896	N/A	ADAT-結構域	76	109
443	APG02751	N/A	N/A	ADAT-結構域	57	90
444	APG02786	WP_005997489	N/A	ADAT-結構域	55	88
445	APG02813	WP_013282182	N/A	ADAT-結構域	76	109
446	APG03010	WP_007203795	N/A	ADAT-結構域	56	89
447	APG03046	N/A	N/A	ADAT-結構域	59	91
448	APG03093	WP_013270915	N/A	ADAT-結構域	53	86
449	APG03110	WP_009677004	N/A	ADAT-結構域	67	100
450	APG03120	WP_015923794	N/A	ADAT-結構域	53	86
451	APG03140	WP_006701669	N/A	ADAT-結構域	61	94
452	APG03224	WP_005353279	N/A	ADAT-結構域	54	87
453	APG03336	N/A	N/A	ADAT-結構域	57	90
454	APG03390	N/A	R0MCR5_NOSB1	ADAT-結構域	51	82
455	APG03467	N/A	N/A	ADAT-結構域	10	43
456	APG03468	WP_010285589	N/A	ADAT-結構域	53	86
457	APG03474	WP_009643257	N/A	ADAT-結構域	53	86
458	APG03542	WP_005838301	N/A	ADAT-結構域	51	84
459	APG03557	WP_013497948	N/A	ADAT-結構域	55	88
460	APG03605	N/A	A0A1D1XUG0_9ARAE	ADAT-結構域	61	103
461	APG03691	WP_012446504	N/A	ADAT-結構域	57	90
462	APG03856	WP_019678962	N/A	ADAT-結構域	52	85
463	APG03876	N/A	A0A179V3P5_BLAGS	ADAT-結構域	66	99
464	APG03980	WP_015537265	N/A	ADAT-結構域	52	85
465	APG04036	WP_008982263	N/A	ADAT-結構域	52	85
466	APG04273	N/A	M0RA73_RAT	ADAT-結構域	71	107
467	APG04283	WP_005999210	N/A	ADAT-結構域	46	79
468	APG04338	WP_007506011	N/A	ADAT-結構域	56	89
469	APG04430	WP_009220054	N/A	ADAT-結構域	53	86
470	APG04436	WP_006908309	N/A	ADAT-結構域	67	100
471	APG04514	N/A	N/A	ADAT-結構域	57	91
472	APG04571	WP_004636848	N/A	ADAT-結構域	55	88
473	APG04758	N/A	N/A	ADAT-結構域	56	98
474	APG04788	N/A	A0A1C7M4C9_GRIFR	ADAT-結構域	67	106
475	APG04795	WP_016424318	N/A	ADAT-結構域	53	86
476	APG04815	N/A	N/A	ADAT-結構域	43	75
477	APG04852	N/A	N/A	ADAT-結構域	69	102
478	APG04968	WP_012157903	N/A	ADAT-結構域	53	86
479	APG05022	WP_006785792	N/A	ADAT-結構域	52	85
480	APG05211	WP_002441139	N/A	ADAT-結構域	53	86
481	APG05314	WP_008301499	N/A	ADAT-結構域	66	99
482	APG05320	WP_004832879	N/A	ADAT-結構域	53	86
483	APG05415	WP_013171002	N/A	ADAT-結構域	58	91
484	APG05461	WP_008909404	N/A	ADAT-結構域	52	85
485	APG05486	WP_018131372	N/A	ADAT-結構域	100	133
486	APG05507	WP_009061460	N/A	ADAT-結構域	56	89
487	APG05573	N/A	N/A	ADAT-結構域	55	94
488	APG05582	N/A	A0A2U4CP64_TURTR	ADAT-結構域	71	110
489	APG05694	WP_008590218	N/A	ADAT-結構域	53	86
490	APG05703	N/A	N/A	ADAT-結構域	43	75
491	APG05759	N/A	A0A1V4JLA3_PATFA	ADAT-結構域	57	96
492	APG05844	WP_013248301	N/A	ADAT-結構域	57	90
493	APG05922	N/A	N/A	ADAT-結構域	44	98
494	APG06120	WP_005841945	N/A	ADAT-結構域	54	87
495	APG06219	N/A	N/A	ADAT-結構域	4	53
496	APG06225	N/A	N/A	ADAT-結構域	46	79
497	APG06334	WP_014116671	N/A	ADAT-結構域	52	85
498	APG06393	WP_005489257	N/A	ADAT-結構域	53	86
499	APG06572	WP_011339999	N/A	ADAT-結構域	46	79
500	APG06638	WP_006875450	N/A	ADAT-結構域	52	85
501	APG06645	WP_013656057	N/A	ADAT-結構域	53	86
502	APG06703	N/A	V8NRA1_OPHHA	ADAT-結構域	24	63
503	APG06776	WP_003147612	N/A	ADAT-結構域	53	86
504	APG06861	WP_010624847	N/A	ADAT-結構域	59	92
505	APG06951	WP_012809557	N/A	ADAT-結構域	56	89
506	APG06953	N/A	A0A0A9YIX6_LYGHE	ADAT-結構域	54	88
507	APG06973	WP_010630866	N/A	ADAT-結構域	86	119
508	APG07045	N/A	N/A	ADAT-結構域	67	100
509	APG07128	WP_005345192	N/A	ADAT-結構域	61	94
510	APG07164	WP_006525269	N/A	ADAT-結構域	53	86
511	APG07264	WP_013276874	N/A	ADAT-結構域	55	88
512	APG07331	WP_012939070	N/A	ADAT-結構域	63	96
513	APG07449	N/A	ADAT2_DANRE	ADAT-結構域	70	109
514	APG07458	WP_004035644	N/A	ADAT-結構域	53	86
515	APG07614	WP_009015861	N/A	ADAT-結構域	57	90
516	APG07667	N/A	N/A	ADAT-結構域	61	94
517	APG07706	N/A	Q16JL7_AEDAE	ADAT-結構域	60	99
518	APG07733	WP_011345539	N/A	ADAT-結構域	52	85
519	APG07861	N/A	A0A1X0QE95_9MICR	ADAT-結構域	54	86
520	APG07900	WP_019468226	N/A	ADAT-結構域	53	86
521	APG07952	WP_017471628	N/A	ADAT-結構域	52	85
522	APG07964	N/A	N/A	ADAT-結構域	57	87
523	APG07975	N/A	N/A	ADAT-結構域	71	137
524	APG08010	WP_016475938	N/A	ADAT-結構域	69	102
525	APG08054	WP_015357810	N/A	ADAT-結構域	51	84
526	APG08311	WP_013485444	N/A	ADAT-結構域	58	91
527	APG08447	WP_015912349	N/A	ADAT-結構域	52	85
528	APG08494	WP_013779369	N/A	ADAT-結構域	59	92
529	APG08613	N/A	A0A1S9RJZ5_9EURO	ADAT-結構域	69	102
530	APG08766	N/A	A0A034WM03_BACDO	ADAT-結構域	71	110
531	APG08799	WP_002835051	N/A	ADAT-結構域	54	87
532	APG08810	N/A	N/A	ADAT-結構域	58	97
533	APG08893	WP_014394804	N/A	ADAT-結構域	53	86
534	APG08939	WP_004098361	N/A	ADAT-結構域	56	89
535	APG08952	WP_006789980	N/A	ADAT-結構域	53	86
536	APG08955	WP_014969075	N/A	ADAT-結構域	53	86
537	APG09011	WP_011937002	N/A	ADAT-結構域	71	104
538	APG09180	WP_007222730	N/A	ADAT-結構域	57	90
539	APG09204	WP_006588115	N/A	ADAT-結構域	57	90
540	APG09216	WP_019878409	N/A	ADAT-結構域	56	89
541	APG09352	WP_015558044	N/A	ADAT-結構域	54	87
542	APG09356	WP_018923319	N/A	ADAT-結構域	54	87
543	APG09546	WP_009796283	N/A	ADAT-結構域	61	94
544	APG09753	N/A	N/A	ADAT-結構域	29	70
545	APG09981	N/A	N/A	ADAT-結構域	83	116

範例 12 ：去胺酶活性的測定 範例 12.1 ：推定的去胺酶的選擇

將表17中顯示的選定蛋白質的編碼序列進行密碼子最佳化以在細菌中表現，合成並引入本領域中眾所周知的標準細菌表現載體中，以在5'端可操作地連接至T7啟動子。範例 12.2 ：去胺酶活性測定

去胺酶活性測定是基於Garibyan等人（DNA Repair 2: 593-608, 2003）。大腸桿菌rpoB 基因的突變會藉由改變RNA聚合酶的β次單元而導致對抗生素利福平（rifampicin ，Rif^r ）的抗性。

如範例12.1中所述，將針對推定去胺酶進行編碼的細菌表現載體引入T7 Express大腸桿菌細胞（NEBioLabs）中。該細胞還可包含編碼尿嘧啶DNA醣苷酶抑制劑（UGI；SEQ ID NO：570）以及卡本西林可篩選標記的單獨的表現質體。使細胞生長至飽和、然後用作自誘導培養基（MagicMedia™，Thermo Fisher Scientific）的接種源、且接著生長額外的5小時。取決於細胞是否還包含UGI表現質體，將細胞稀釋塗抹在含有康黴素的LB上或含有康黴素以及卡本西林的LB上。這些稀釋盤用於得到總細胞計數。相同的細胞也被塗抹在具有利福平的LB、或具有利福平及卡本西林的LB上，以鑑定推定的去胺酶表現載體，該載體能夠成功地將突變引入rpoB 基因中。

從在含有利福平的LB盤上生長的細菌菌落中分離去胺酶表現載體，並重複該測定至少兩次。在確認後，對細菌細胞進行定序。出乎意料的是，在含有用於評估所選擇的蛋白質的47個APOBEC結構域中，只有9個顯示去胺酶活性。在含有用於評估所選擇的蛋白質的125個ADAT結構域中，沒有一個顯示去胺酶活性。這表明不能基於多肽的胺基酸序列預測去胺酶活性，但卻必須憑經驗確定。藉由此測定所鑑定的九種活性去胺酶的結果顯示於表18。對來自抗利福平菌落的rpoB 基因進行定序以鑑定誘導的突變。藉由將包括每種活性去胺酶的抗性菌落數與菌落總數進行比較來計算突變率。表 18 ：活性去胺酶突變率的 NGS 分析

APG ID	SEQ ID NO.	突變率
APG05241	397	42%
APG07280	407	36.90%
APG09260	414	35.30%
APG08360	411	36.90%
APG09980	420	30.50%
APG07386	408	36.80%
APG09688	416	19.20%
APG05840	399	25.80%
APG02316	383	48.40%

範例 13 ：細菌細胞中的鹼基編輯活性

在隨後的活性篩選中，APG00868（SEQ ID NO：374）也被鑑定為活性去胺酶。將十種鑑定出的活性去胺酶的編碼序列引入表現匣，該表現匣產生融合蛋白，該融合蛋白在其N端末端包括NLS（SEQ ID NO：10），該NLS在其C端末端可操作地連接到表18的活性去胺酶、表18的活性去胺酶在其C端末端可操作地連接至連接子序列（SEQ ID NO：546）、該連接子序列在其C端末端可操作地連接至RNA引導的DNA結合蛋白（即，無核酸酶活性的RNA引導的核酸酶（RGN）dAPG08290.1變異體（SEQ ID NO：547）），該RNA引導的DNA結合蛋白在其C端末端可操作地連接至第二個NLS，該第二個NLS在其C端末端可操作地連接至TEV位點（SEQ ID NO：548），該TEV位點在其C端末端可操作地連接到10x His（SEQ ID NO 594）標籤。針對細菌細胞中的靶向鹼基編輯活性，對在範例12中鑑定的所選去胺酶、以及APG00868進行測定。

此活性測定與範例12非常類似。然而，對於這些實驗，去胺酶與無活性的RGN連接，以能夠靶向rpoB 基因的特定區域以引入靶向的C至T突變。此外，產生了包括表現匣的載體，所述表現匣能夠表現用於靶向RGN-去胺酶融合體的引導RNA。在這些實驗中使用了四種不同的引導RNA。在表19中稱為「非靶向」（SEQ ID NO：549）的第一引導將RGN-去胺酶融合體引導至不是rpoB 基因的基因體細菌DNA的區域。目標1（SEQ ID NO：550）是在rpoB蛋白中引入R529C突變的rpoB 基因的區域。目標2（SEQ ID NO：551）是在rpoB蛋白中引入A532V突變的rpoB 基因的區域，且目標3（SEQ ID NO：552）是在rpoB蛋白中引入Q513R突變的rpoB 基因的區域。目標1以及目標2的期望突變是從GC對到AT對的鹼基編輯結果。目標3的期望突變將是從AT對到GC對的鹼基編輯結果。在這些目標中還可以發現其他可能的突變。

將融合蛋白表現載體、以及包括能夠表現靶向rpoB 基因上的感興趣位置的引導RNA的表現匣的載體引入T7 Express大腸桿菌細胞（NEBioLabs）。細胞生長至飽和、且接著用作自誘導培養基（MagicMedia™，Thermo Fisher Scientific）的接種源、然後生長額外的5小時。將細胞稀釋塗抹在具有康黴素的LB上；這些稀釋盤用於得到總細胞計數。相同的細胞也塗抹在具有利福平的LB上，以鑑定在rpoB 基因中攜帶突變的菌落。計算了「未靶向」以及靶向去胺酶-RGN融合蛋白（「靶向的」）的突變率，並顯示在表19中。與未靶向rpoB 基因的去胺酶-RGN融合體相較，靶向去胺酶-RGN融合體的突變率的百分比增加（「％增加」）也顯示在表19中。還包括一種已知具有去胺酶功能的正對照哺乳動物APOBEC。表 19 ：靶向及未靶向去胺酶的突變率

去胺酶 APG ID	引導 RNA 的類型	目標（ SEQ ID NO. ）	突變率	% 增加
APG05241	未靶向的	549	1.71*10-8	-
APG05241	靶向的	550	1.42*10-7	8.31
APG05241	靶向的	551	5.95*10-9	0.35
APG05241	靶向的	552	3.62*10-8	2.12
APG08360	未靶向的	549	4.00*10-11	-
APG08360	靶向的	550	4.74*10-10	11.84
APG08360	靶向的	551	2.38*10-11	0.60
APG08360	靶向的	552	4.70*10-8	2175.00
APG00868	未靶向的	549	1.82*10-9	-
APG00868	靶向的	550	1.43*10-7	78.68
APG00868	靶向的	551	3.79*10-9	2.09
APG00868	靶向的	552	1.18*10-6	650.00
對照	未靶向的	549	1.53*10-8	-
對照	靶向的	550	6.37*10-6	417.36
對照	靶向的	551	2.59*10-7	16.98
對照	靶向的	552	3.79-10-7	24.86

範例 14 ：哺乳動物細胞中的鹼基編輯活性

所鑑定的活性去胺酶的編碼序列被密碼子最佳化以在哺乳動物細胞中表現、並被引入到表現匣中，該表現匣產生融合蛋白，該融合蛋白在其N端末端包括NLS（SEQ ID NO：10），該NLS在其C端末端可操作地連接至3xFLAG標籤（SEQ ID NO：11），該3xFLAG標籤在其C端末端可操作地連接至本發明的去胺酶，本發明的去胺酶在其C端末端可操作地連接至胺基酸連接子（SEQ ID NO：546），該胺基酸連接子在其C端末端可操作地連接至RNA引導的DNA結合多肽（即已突變為充當切口酶的RGN）（nAPG07433.1；SEQ ID NO：553），該RNA引導的DNA結合多肽在其C端末端可操作地連接至第二個NLS。此外，將APG07386的N端片段以及C端片段（分別是為SEQ ID NO：554的APG07386-NTD以及為SEQ ID NO：555的APG07386-CTD）分別引入表現匣中以產生每一片段的去胺酶-RGN融合體。將這些表現匣中的每一表現匣引入能夠驅動哺乳動物細胞中的融合蛋白表現的載體。還產生了能夠表現引導RNA以將去胺酶-RGN融合蛋白靶向所確定的基因體位置的載體。這些引導RNA能夠將去胺酶-RGN融合蛋白引導至靶向基因體序列以進行鹼基編輯。SEQ ID NO：556-561編碼所測試的引導RNA。範例 14.1 ：去胺酶之間的效率以及序列專一性

使用脂質體轉染或電穿孔將能夠表現上述去胺酶-RGN融合蛋白以及引導RNA的載體轉染到HEK293T細胞中。對於脂質體轉染，轉染前一天，將細胞以1x10⁵ 個細胞/孔分佈在24孔盤的生長培養基（DMEM + 10％胎牛血清+ 1％青黴素/鏈黴素）中。按照製造商的使用說明，使用Lipofectamine®3000試劑（Thermo Fisher Scientific）轉染500 ng去胺酶-RGN融合表現載體以及1 μg引導RNA表現載體。對於電穿孔，按照製造商的使用說明，使用Neon®轉染系統（Thermo Fisher Scientific）對細胞進行電穿孔。

在脂質體轉染或電穿孔後24-48小時，從轉染或電穿孔的細胞中收穫基因體DNA，以及對DNA進行定序、並針對靶向鹼基編輯突變的存在來分析該DNA。

下表20顯示了每種去胺酶（包括針對APG07386的C-端以及N-端片段）的胞苷鹼基的編輯率。數字線表示：相對於RGN的PAM，在靶向的基因體序列中胞苷鹼基的位置。在每個位置處的C核苷酸編輯率被顯示為多個目標的平均。行下方每個位置列出了目標的數量（n）。標準偏差顯示在括號中。在此測定中，APG09980、APG07386-CTD、APG05840、APG05241、APG07280、APG09688以及APG00868顯示出至少一種胞苷的至少一些胞苷鹼基編輯活性。

範例 14.2 ：用於靶向鹼基編輯的螢光測定

構築了帶有增強的綠色螢光蛋白（EGFP）的載體（SEQ ID NO：562），該蛋白包含引起螢光轉變為藍色螢光蛋白（BFP）的Y66H突變，使得可以使用胞嘧啶去胺酶將第一個位置C改變為T以將H66密碼子從組胺酸（CAT）還原為野生型酪胺酸（TAT）殘基。成功的C到T轉換導致可以被量化的EGFP表現。還產生了能夠表現將去胺酶-RGN融合蛋白靶向到Y66H突變周圍區域的引導RNA的第二種載體（SEQ ID NO：563）。

使用脂質體轉染或電穿孔法，將此BFP至EGFP的報導載體以及能夠表現去胺酶-RGN融合蛋白的載體、以及引導RNA一起轉染至HEK293T細胞中。對於脂質體轉染，在轉染前一天，將細胞以1x10⁵ 個細胞/孔分佈於24孔盤中以在生長培養基（DMEM + 10％胎牛血清+ 1％青黴素/鏈黴素）中進行轉染。按照製造商的使用說明，使用Lipofectamine®3000試劑（Thermo Fisher Scientific）轉染500 ng BFP報導載體、去胺酶-RGN表現載體以及引導RNA表現載體中的每一個。對於電穿孔，按照製造商的使用說明，使用Neon®轉染系統（Thermo Fisher Scientific）對細胞進行電穿孔。

脂質體轉染或電穿孔後24-48小時，藉由顯微鏡調查細胞中GFP+細胞的存在來確定GFP的表現。在目視檢查之後，可以確定GFP+細胞相對於GFP-細胞的比例。在表21中報導的表現去胺酶-RGN融合蛋白的哺乳動物細胞中觀察到螢光。本領域中具有通常知識者將理解，也可以使用RIPA緩衝液裂解細胞，並且可以在螢光盤讀取器上分析所得裂解物以確定BFP以及GFP的螢光強度。此外，可藉由細胞分選來分析細胞以確定BFP+、GFP+以及GFP-細胞的確切比例。表 21 ：哺乳動物胞嘧啶去胺酶螢光報導結果

去胺酶 ID	相對的 GFP⁺ 細胞
APG09260	N.D.
APG09980	+
APG07386-CTD	++
APG05840	+
APG00868	++

N.D =未偵測到；+ =偵測到少量GFP⁺ 細胞，++ =偵測到許多GFP+細胞範例 15 ：用以產生腺苷以及胞嘧啶鹼基編輯器的去胺酶的多樣化

並不知道能夠將DNA序列中的A或T殘基改變為G或C的腺苷鹼基編輯器（ABE）自然發生。為了鑑定作用於DNA模板的ABE，使用以下多樣化策略產生去胺酶變異體。

第一種策略是藉由易出錯PCR酵素進行的隨機誘變，類似於Gaudelli等人（Nature ，2017，doi：10.1038/nature24644，藉由引用併入本文）。設計引子，並產生表17的125種ADAT酵素的核苷酸序列。按照製造商的使用說明，使用GenMorph II隨機誘變套組（Agilent Technologies）進行易出錯PCR。按照製造商的使用說明，使用ZR-96 DNA Clean-up Kit™（Zymo Research）純化突變的ADAT PCR產物。從這種方法，產生了約一千萬個ADAT變異體。

進行的第二種策略是基因混排，類似於Stemmer，W. P. C.（Proc. Natl. Acad. Sci. USA ，1994）。基本上按照製造商的使用說明使用Phusion®高保真DNA聚合酶（NEBiolabs）對表17的125種ADAT酵素的編碼序列進行PCR擴增、並按照製造商的使用說明使用DNA Clean＆Concentrator™-5（Zymo Research）進行純化。合併不同ADAT編碼序列的純化DNA、並在Cutsmart^® 緩衝液中藉由Rsa I、Afe I、Bsa AI以及Bsa HI酵素於37℃進行限制性分解60分鐘。分解後，藉由凝膠電泳分離反應、並使用Zymoclean™ Gel DNA回收套組純化經分解的片段。然後使用PCR擴增組裝經純化的片段，並純化經組裝的擴增產物。從這種方法，產生了約200萬個ADAT變異體。

最終策略是靶向與可能與核酸相互作用的結構殘基同源的殘基。對於類ADAT酵素，金黃色葡萄球菌tRNA腺苷去胺酶（TadA）與RNA（RCSB蛋白質資料庫ID：2B3J；Losey等人，2006，Nat. Struct. Mol. Biol . 13：153-159）複合的晶體結構的仔細檢查顯露出在與大腸桿菌TadA（UniProt P68398以及GenBank登記號NP_417054）P48、L84、A106、D108以及K110同源的殘基處的潛在相互作用。然後對來自表17的125個ADAT結構域去胺酶進行這些同源殘基的飽和誘變。從這種方法，產生了約一百萬個ADAT變異體。

本領域中具有通常知識者將理解，這些方法不是排他的、並且可以被組合並應用於改進的每一連續回合的產量。飽和誘變或反覆的飽和誘變（Reetz及Carballeira，2007，Nature Protocols ，2（4）：891-903）已知是反覆的，這意味著從一回合中選擇表現最佳的候選者進行另外的突變以及篩選循環，直到鑑定出最佳候選者。範例 16 ：用於腺苷鹼基編輯器以及胞嘧啶鹼基編輯器的產生的活性多樣化去胺酶的確定 範例 16.1 ：多樣化去胺酶的細菌活性測定

將來自上述範例15的不同回合的ADAT突變型變異體產物引入表現匣中，該表現匣產生的融合蛋白在其N端末端包括NLS（SEQ ID NO：10）、在其C端末端可操作地連接至突變的去胺酶、在其C端末端可操作地連接至連接子序列（SEQ ID NO：546）、在其C末端可操作地連接至RNA引導的DNA結合蛋白（無核酸酶活性的RNA引導的核酸酶（RGN）dAPG08290.1變異體）（SEQ ID NO：547）、在其C端末端可操作地連接至第二個NLS、在其C端末端可操作地連接至TEV位點（SEQ ID NO：548）、在其C端末端可操作地連接到10x His標籤（SEQ ID NO：594）。

此活性測定與範例13非常類似。然而，對於這些實驗，製備了具有去活化的氯黴素基因的構築體，該去活化的氯黴素基因具有H193突變為用於胞嘧啶鹼基編輯選擇的H193R（SEQ ID NO：566）或用於腺苷鹼基編輯選擇的H193Y（SEQ ID NO：567）。每一質體還包含引導RNA，以將RGN-去胺酶融合體靶向該質體的適當區域。在成功將CG轉換為TA（對於SEQ ID NO：566）或將AT轉換為GC（對於SEQ ID NO：567）後，細菌細胞將能夠在含有氯黴素的培養基中存活。

將融合蛋白表現載體與包括去活化的氯黴素基因以及靶向sgRNA的載體一起引入T7 Express大腸桿菌細胞（NEBioLabs）。細胞生長至飽和、且接著用作自誘導培養基（MagicMedia™，Thermo Fisher Scientific）的接種源、以及接著培養額外的5小時。將細胞稀釋塗抹在具有康黴素和卡本西林的LB上；這些稀釋盤用於得到總細胞計數。相同的細胞也塗抹至具有康黴素、卡本西林以及氯黴素的LB上，以鑑定帶有活性突變的去胺酶的菌落。挑選代表性殖株並定序、且接著分別進行測試。另外，相同的細胞也塗抹在具有康黴素以及利福平的LB上以測量「未靶向」突變率。計算對H193R質體（「CBE」）的靶向去胺酶-RGN融合蛋白的突變率（「Mutn率」），並計算對H193Y質體（「ABE」）的靶向去胺酶-RGN融合蛋白的突變率，所述突變率顯示於表22。與僅包含死亡RGN（dAPG08290.1; SEQ ID NO：547）的細胞中觀察到的背景相較，腺嘌呤鹼基編輯（「ABE相對比率」）、胞嘧啶鹼基編輯（「CBE相對比率」）以及脫靶（「Off-T相對比率」）的相對比率也被表明。還包括已知作為胞嘧啶去胺酶的正對照哺乳動物去胺酶。表 22 ：選定的突變去胺酶的突變率

去胺酶 ID	序列 ID NO.	ABE 突變率	CBE 突變率	脫靶	ABE 相對比率	CBE 相對比率	Off-T 相對比率
APG05241	397	4.44E-09	5.25E-05	3.64E-06	14	1110	170
APG08360	411	0.00E+00	8.72E-07	1.40E-08	0	18	1
APG09980	420	4.57E-09	6.35E-06	1.10E-05	14	134	514
APG00868	374	6.57E-10	2.27E-04	5.02E-07	2	4796	23
APOBEC3A (正對照)	571	0.00E+00	6.06E-04	8.45E-06	0	12809	395
APG07164 T102K D104Y K106T	572	6.46E-08	5.76E-05	1.16E-08	204	1218	1
NTerm_APG03542(1-88)&Cterm_APG02410(114-179)	573	9.93E-08	3.56E-08	1.69E-08	313	1	1
APG07458	514	5.13E-07	2.31E-08	2.60E-08	1621	0	1
APG06334_A101E_D103S_A105K	574	3.56E-08	8.13E-08	ND	112	2	ND
APG03856_A101K_D103L_K105E	575	1.62E-08	7.30E-09	ND	51	0	ND
APG08799 D105A_K107R	576	5.74E-07	3.16E-06	2.60E-08	1812	67	1
APG02312_A102G_D104S_K106R	577	1.10E-07	4.46E-07	2.56E-08	347	9	1
APG09352_D105S_K107T	578	1.36E-06	9.34E-08	4.34E-08	4293	2	2
APG02312_A102S_D104Q_K106G	579	1.36E-06	9.34E-08	4.34E-08	4293	2	2
APG03140_D111G	580	1.24E-06	4.48E-08	4.63E-08	3921	1	2
APG03557_A104Q_D106G_K108R	581	1.12E-06	6.90E-07	3.80E-08	3522	15	2
APG07164_T102R D104W K106E	582	3.83E-08	1.81E-07	2.24E-08	121	4	1
APG02312_D104R_K106S	583	2.11E-06	6.53E-08	1.64E-08	6663	1	1
APG03140_A110F_D112S_K114T	584	4.16E-07	3.50E-08	4.61E-08	1314	1	2
dAPG08290.1	547	3.17E-10	4.73E-08	2.14E-08	1	1	1

範例 16.2 ：用於靶向鹼基編輯的螢光測定

構築了帶有增強的綠色螢光蛋白（EGFP）的載體（SEQ ID NO：564），該蛋白包含引起過早終止密碼子的W58*突變，使得可以使用腺苷去胺酶將第三個位置A改變為G 以將W58密碼子從STOP（TGA）還原為野生型色胺酸（TGG）殘基。成功的A到G轉換導致可以被量化的EGFP表現。還生產了能夠表現將去胺酶-RGN融合蛋白靶向到W58*突變周圍的區域的引導RNA的第二種載體（SEQ ID NO：565）。

使用脂質體轉染或電穿孔法，將此死亡的EGFP至EGFP報導載體、以及能夠表現去胺酶-RGN融合蛋白的載體、以及引導RNA一起轉染至HEK293T細胞中。對於脂質體轉染，在轉染前一天，將細胞以1x10⁵ 個細胞/孔分佈於24孔盤中以在生長培養基（DMEM + 10％胎牛血清+ 1％青黴素/鏈黴素）中進行轉染。按照製造商的使用說明，使用Lipofectamine®3000試劑（Thermo Fisher Scientific）轉染500 ng的死亡EGFP報導載體、去胺酶-RGN表現載體以及引導RNA表現載體中的每一個。對於電穿孔，按照製造商的使用說明，使用Neon®轉染系統（Thermo Fisher Scientific）對細胞進行電穿孔。

在脂質體轉染或電穿孔後24-48小時，藉由顯微鏡調查細胞中GFP+細胞的存在來確定GFP的表現。在目視檢查之後，可以確定GFP+細胞相對於GFP-細胞的比例。在表23中報導的表現去胺酶-RGN融合蛋白的哺乳動物細胞中觀察到螢光。本領域中具有通常知識者將理解，還可以使用RIPA緩衝液以溶解細胞，並且可以在螢光盤讀取器上分析所得的溶解物以確定GFP的螢光強度。此外，可以藉由細胞分選來分析細胞，以確定GFP+以及GFP-細胞的確切比例。表 23 ：哺乳動物腺苷去胺酶螢光報導結果

去胺酶 ID	SEQ ID NO.	相對的 GFP⁺ 細胞
APG07164 T102K D104Y K106T	572	+
NTerm_APG03542(1-88)&Cterm_APG02410(114-179)	573	+
APG06334_A101E_D103S_A105K	574	++
APG03856_A101K_D103L_K105E	575	+
APG08799 D105A_K107R	576	++
APG09352_D105S_K107T	578	+
APG02312_A102S_D104Q_K106G	579	+
APG03140_D111G	580	+
APG03557_A104Q_D106G_K108R	581	+++
APG02312_D104R_K106S	583	+
APG03140_A110F_D112S_K114T	584	+

+ =偵測到少量GFP⁺ 細胞，++ =偵測到許多GFP+細胞，+++ =觀察到最大量的GFP⁺ 細胞

Claims

一種包含編碼一RNA引導的核酸酶(RGN)多肽的一多核苷酸的核酸分子，其中該多核苷酸包含編碼一RGN多肽的一核苷酸序列，該RGN多肽包含與SEQ ID NO：1、16、24、35、43或50具有至少95%序列一致性的一胺基酸序列；其中當該RGN多肽與能夠與一目標DNA序列雜交的一引導RNA (gRNA)結合時，該RGN多肽以一RNA引導的序列專一性方式與該目標DNA序列結合，以及其中編碼一RGN多肽的該多核苷酸是可操作地連接至與該多核苷酸異源的一啟動子。
如請求項1所述的核酸分子，其中該RGN多肽是核酸酶死亡的或作為一切口酶。
如請求項2所述的核酸分子，其中該RGN多肽是可操作地與一鹼基編輯多肽融合。
一種包含請求項1至請求項3中任一項所述的核酸分子的載體。
如請求項4所述的載體，其中該載體更包含編碼該引導RNA的至少一核苷酸序列，且其中該引導RNA包含一CRISPR RNA ，該CRISPR RNA包含與SEQ ID NO：2、17、25、36、44、51或63具有至少95%序列一致性的一CRISPR重複序列。
如請求項4或請求項5所述的載體，其中該引導RNA包含與SEQ ID NO：3、18、26、37、45、52或62具有至少95%序列一致性的一轉錄活化CRISPR RNA (tracrRNA)。
一種包含請求項1至請求項3中任一項所述的核酸分子或請求項4至請求項6中任一項所述的載體的細胞。
一種包含編碼一CRISPR RNA (crRNA)的一多核苷酸的核酸分子，其中該crRNA包含一間隔序列及一CRISPR重複序列，其中該CRISPR重複序列包含與SEQ ID NO：2、17、25、36、44、51或63具有至少95%序列一致性的一核苷酸序列；其中一引導RNA包含： a) 該crRNA；以及 b) 與該crRNA的該CRISPR重複序列雜交的一轉錄活化CRISPR RNA (tracrRNA)；當該引導RNA與一RNA引導的核酸酶(RGN)多肽結合時，該引導RNA能夠經由該crRNA的該間隔序列以一序列專一性方式與一目標DNA序列雜交，以及其中編碼一crRNA 的該多核苷酸可操作地連接至與該多核苷酸異源的一啟動子。
一種包含請求項8所述的核酸分子的載體。
如請求項9所述的載體，其中該載體更包含編碼該tracrRNA的一多核苷酸。
一種包含編碼一轉錄活化CRISPR RNA (tracrRNA)的一多核苷酸的核酸分子，該tracrRNA包含與SEQ ID NO：3、18、26、37、45、52或62具有至少95%序列一致性的一核苷酸序列；其中一引導RNA包含： a) 該tracrRNA；以及 b) 包含一間隔序列及一CRISPR重複序列的一crRNA，其中該tracrRNA與該crRNA的該CRISPR重複序列雜交；當該引導RNA與一RNA引導的核酸酶(RGN)多肽結合時，該引導RNA能夠經由該crRNA的該間隔序列以一序列專一性方式與一目標DNA序列雜交，以及其中編碼一tracrRNA的該多核苷酸可操作地連接至與該多核苷酸異源的一啟動子。
一種包含請求項11所述的核酸分子的載體。
如請求項12所述的載體，其中該載體更包含編碼該crRNA的一多核苷酸。
一種用於結合一目標DNA序列的系統，該系統包含： a) 一或更多個引導RNA (gRNA)或編碼該一或更多個引導RNA的一或更多個核苷酸序列，該一或更多個引導RNA能夠與該目標DNA序列雜交；以及 b) 一RNA引導的核酸酶(RGN)多肽或編碼該RGN多肽的一核苷酸序列，該RGN多肽包含與SEQ ID NO：1、16、24、35、43或50具有至少95%序列一致性的一胺基酸序列；其中編碼該一或更多個引導RNA的該核苷酸序列以及編碼該RGN多肽的該核苷酸序列的每一個可操作地連接至與各該核苷酸序列異源的一啟動子；其中該一或更多個引導RNA與該目標DNA序列雜交，以及其中該一或更多個引導RNA與該RGN多肽形成一錯合物，藉此引導該RGN多肽與該目標DNA序列結合。
如請求項14所述的系統，其中該目標DNA序列在一真核細胞內。
如請求項14或請求項15所述的系統，其中該RGN多肽是核酸酶死亡的或作為一切口酶，且其中該RGN多肽可操作地連接至一鹼基編輯多肽。
如請求項14或請求項15所述的系統，其中該系統更包含一或更多供體多核苷酸或編碼該一或更多供體多核苷酸的一或更多核苷酸序列，其中編碼該一或更多供體多核苷酸的該些核苷酸序列的每一個可操作地連接至與各該核苷酸序列異源的一啟動子。
一種用於結合一目標DNA序列的方法，包含將如請求項14至請求項17中任一項所述的系統遞送至該目標DNA序列或包含該目標DNA序列的一細胞。
一種用於切割及/或修飾一目標DNA序列的方法，包含將該目標DNA序列與以下接觸： a) 一RNA引導的核酸酶(RGN)多肽，其中該RGN包含與SEQ ID NO：1、16、24、35、43或50具有至少95%序列一致性的一胺基酸序列；以及 b) 能夠將該RGN靶向該目標DNA序列的一或更多引導RNA；其中該一或更多引導RNA與該目標DNA序列雜交，藉此引導該RGN多肽與該目標DNA序列結合以及該目標DNA序列的切割及/或修飾發生。
如請求項19所述的方法，其中該修飾的目標DNA序列包含該目標DNA序列中至少一核苷酸的刪除或突變。
如請求項19或請求項20所述的方法，其中該RGN多肽是核酸酶死亡的或作為一切口酶，且其中該RGN多肽可操作地連接至一鹼基編輯多肽。
如請求項19所述的方法，其中該修飾的目標DNA序列包含至該目標DNA序列的異源DNA的插入。
如請求項19至請求項22中任一項所述的方法，其中該目標DNA序列在一細胞內。
如請求項23所述的方法，其中該細胞為一真核細胞。
如請求項23或請求項24所述的方法，更包含在該RGN多肽被表現且切割該目標DNA序列的條件下培養該細胞以產生一修飾的DNA序列；以及選擇包含該修飾的DNA序列的一細胞。
一種包含如請求項25所述的方法的一修飾的目標DNA序列的細胞。
一種包含編碼一去胺酶多肽的一多核苷酸的核酸分子，其中該多核苷酸包含編碼一去胺酶多肽的一核苷酸序列，該去胺酶多肽包含與SEQ ID NO：374、383、397、399、407、408、411、414、416或420具有至少90%序列一致性的一胺基酸序列；其中該去胺酶多肽對一目標多核苷酸中的至少一核苷酸進行去胺；以及其中編碼一去胺酶多肽的該多核苷酸可操作地連接至與該多核苷酸異源的一啟動子。
如請求項27所述的核酸分子，其中該去胺酶多肽可操作地與將該去胺酶多肽定位至該目標多核苷酸的一RNA引導的核酸酶多肽融合。
如請求項28所述的核酸分子，其中該RNA引導的核酸酶多肽是一切口酶。
一種包含請求項27至請求項29中任一項所述的核酸分子的載體。
一種包含請求項27至請求項29中任一項所述的核酸分子或請求項30所述的載體的細胞。
一種包含編碼一腺苷去胺酶多肽的一多核苷酸的核酸分子，其中該多核苷酸包含編碼一腺苷去胺酶多肽的一核苷酸序列，該腺苷去胺酶多肽包含從以下組成的群組所選出的一胺基酸序列： a) 與SEQ ID NO：514具有至少90%序列一致性的一胺基酸序列； b) 與SEQ ID NO：572具有至少90%序列一致性、且包含與SEQ ID NO：572的位置102對應的一位置處的一離胺酸、與SEQ ID NO：572的位置104對應的一位置處的一酪胺酸、以及與SEQ ID NO：572的位置106對應的一位置處的一蘇胺酸的一胺基酸序列； c) 與SEQ ID NO：573具有至少90%序列一致性的一胺基酸序列； d) 與SEQ ID NO：574具有至少90%序列一致性、且包含與SEQ ID NO：574的位置101對應的一位置處的一麩胺酸、與SEQ ID NO：574的位置103對應的一位置處的一絲胺酸、以及與SEQ ID NO：574的位置105對應的一位置處的一離胺酸的一胺基酸序列； e) 與SEQ ID NO：575具有至少90%序列一致性、且包含與SEQ ID NO：575的位置101對應的一位置處的一離胺酸、與SEQ ID NO：575的位置103對應的一位置處的一白胺酸、以及與SEQ ID NO：575的位置105對應的一位置處的一麩胺酸的一胺基酸序列； f) 與SEQ ID NO：576具有至少90%序列一致性、且包含與SEQ ID NO：576的位置105對應的一位置處的一丙胺酸以及與SEQ ID NO：576的位置107對應的一位置處的一精胺酸的一胺基酸序列； g) 與SEQ ID NO：577具有至少90%序列一致性、且包含與SEQ ID NO：577的位置102對應的一位置處的一甘胺酸、與SEQ ID NO：577的位置104對應的一位置處的一絲胺酸、以及與SEQ ID NO：577的位置106對應的一位置處的一精胺酸的一胺基酸序列； h) 與SEQ ID NO：578具有至少90%序列一致性、且包含與SEQ ID NO：578的位置105對應的一位置處的一絲胺酸以及與SEQ ID NO：578的位置107對應的一位置處的一蘇胺酸的一胺基酸序列； i) 與SEQ ID NO：579具有至少90%序列一致性、且包含與SEQ ID NO：579的位置102對應的一位置處的一絲胺酸、與SEQ ID NO：579的位置104對應的一位置處的一麩醯胺酸、以及與SEQ ID NO：579的位置106對應的一位置處的一甘胺酸的一胺基酸序列； j) 與SEQ ID NO：580具有至少90%序列一致性、且包含與SEQ ID NO：580的位置111對應的一位置處的一甘胺酸的一胺基酸序列； k) 與SEQ ID NO：581具有至少90%序列一致性、且包含與SEQ ID NO：581的位置104對應的一位置處的一麩醯胺酸、與SEQ ID NO：581的位置106對應的一位置處的一甘胺酸、以及與SEQ ID NO：581的位置108對應的一位置處的一麩胺酸的一胺基酸序列； l) 與SEQ ID NO：582具有至少90%序列一致性、且包含與SEQ ID NO：582的位置102對應的一位置處的一精胺酸、與SEQ ID NO：582的位置104對應的一位置處的一色胺酸、以及與SEQ ID NO：582的位置106對應的一位置處的一麩胺酸的一胺基酸序列； m) 與SEQ ID NO：583具有至少90%序列一致性、且包含與SEQ ID NO：583的位置104對應的一位置處的一精胺酸以及與SEQ ID NO：583的位置106對應的一位置處的一絲胺酸的一胺基酸序列；以及 n) 與SEQ ID NO：584具有至少90%序列一致性、且包含與SEQ ID NO：584的位置110對應的一位置處的一苯丙胺酸、與SEQ ID NO：584的位置112對應的一位置處的一絲胺酸、以及與SEQ ID NO：584的位置114對應的一位置處的一蘇胺酸的一胺基酸序列；其中該腺苷去胺酶多肽對一目標多核苷酸中的至少一腺苷進行去胺；以及其中編碼一腺苷去胺酶多肽的該多核苷酸可操作地連接至與該多核苷酸異源的一啟動子。
如請求項32所述的核酸分子，其中該腺苷去胺酶多肽可操作地與將該腺苷去胺酶多肽定位至該目標多核苷酸的一RNA引導的核酸酶多肽融合。
如請求項33所述的核酸分子，其中該RNA引導的核酸酶多肽是一切口酶。
一種包含請求項32至請求項34中任一項所述的核酸分子的載體。
一種包含請求項31至請求項33中任一項所述的核酸分子或請求項35所述的載體的細胞。
一種融合蛋白，包含： a) 與一目標多核苷酸結合的一DNA結合多肽；以及 b) 一去胺酶多肽，其中該去胺酶多肽包含與SEQ ID NO：374、383、397、399、407、408、411、414、416或420具有至少90%序列一致性的一胺基酸序列，且其中該去胺酶多肽對該目標多核苷酸中的至少一核苷酸進行去胺。
如請求項37所述的融合蛋白，其中該DNA結合多肽為具有切口酶活性的一RNA引導的核酸酶。
一種融合蛋白，包含： a) 與一目標多核苷酸結合的一DNA結合多肽；以及 b) 包含由以下組成的群組選出的一胺基酸序列的一腺苷去胺酶多肽： i) 與SEQ ID NO：514具有至少90%序列一致性的一胺基酸序列； ii) 與SEQ ID NO：572具有至少90%序列一致性、且包含與SEQ ID NO：572的位置102對應的一位置處的一離胺酸、與SEQ ID NO：572的位置104對應的一位置處的一酪胺酸、以及與SEQ ID NO：572的位置106對應的一位置處的一蘇胺酸的一胺基酸序列； iii) 與SEQ ID NO：573具有至少90%序列一致性的一胺基酸序列； iv) 與SEQ ID NO：574具有至少90%序列一致性、且包含與SEQ ID NO：574的位置101對應的一位置處的一麩胺酸、與SEQ ID NO：574的位置103對應的一位置處的一絲胺酸、以及與SEQ ID NO：574的位置105對應的一位置處的一離胺酸的一胺基酸序列； v) 與SEQ ID NO：575具有至少90%序列一致性、且包含與SEQ ID NO：575的位置101對應的一位置處的一離胺酸、與SEQ ID NO：575的位置103對應的一位置處的一白胺酸、以及與SEQ ID NO：575的位置105對應的一位置處的一麩胺酸的一胺基酸序列； vi) 與SEQ ID NO：576具有至少90%序列一致性、且包含與SEQ ID NO：576的位置105對應的一位置處的一丙胺酸以及與SEQ ID NO：576的位置107對應的一位置處的一精胺酸的一胺基酸序列； vii) 與SEQ ID NO：577具有至少90%序列一致性、且包含與SEQ ID NO：577的位置102對應的一位置處的一甘胺酸、與SEQ ID NO：577的位置104對應的一位置處的一絲胺酸、以及與SEQ ID NO：577的位置106對應的一位置處的一精胺酸的一胺基酸序列； viii) 與SEQ ID NO：578具有至少90%序列一致性、且包含與SEQ ID NO：578的位置105對應的一位置處的一絲胺酸以及與SEQ ID NO：578的位置107對應的一位置處的一蘇胺酸的一胺基酸序列； ix) 與SEQ ID NO：579具有至少90%序列一致性、且包含與SEQ ID NO：579的位置102對應的一位置處的一絲胺酸、與SEQ ID NO：579的位置104對應的一位置處的一麩醯胺酸、以及與SEQ ID NO：579的位置106對應的一位置處的一甘胺酸的一胺基酸序列； x) 與SEQ ID NO：580具有至少90%序列一致性、且包含與SEQ ID NO：580的位置111對應的一位置處的一甘胺酸的一胺基酸序列； xi) 與SEQ ID NO：581具有至少90%序列一致性、且包含與SEQ ID NO：581的位置104對應的一位置處的一麩醯胺酸、與SEQ ID NO：581的位置106對應的一位置處的一甘胺酸、以及與SEQ ID NO：581的位置108對應的一位置處的一麩胺酸的一胺基酸序列； xii) 與SEQ ID NO：582具有至少90%序列一致性、且包含與SEQ ID NO：582的位置102對應的一位置處的一精胺酸、與SEQ ID NO：582的位置104對應的一位置處的一色胺酸、以及與SEQ ID NO：582的位置106對應的一位置處的一麩胺酸的一胺基酸序列； xiii) 與SEQ ID NO：583具有至少90%序列一致性、且包含與SEQ ID NO：583的位置104對應的一位置處的一精胺酸以及與SEQ ID NO：583的位置106對應的一位置處的一絲胺酸的一胺基酸序列；以及 xiv) 與SEQ ID NO：584具有至少90%序列一致性、且包含與SEQ ID NO：584的位置110對應的一位置處的一苯丙胺酸、與SEQ ID NO：584的位置112對應的一位置處的一絲胺酸、以及與SEQ ID NO：584的位置114對應的一位置處的一蘇胺酸的一胺基酸序列；其中該腺苷去胺酶多肽對一目標多核苷酸中的至少一腺苷進行去胺。
如請求項39所述的融合蛋白，其中該DNA結合多肽為具有切口酶活性的一RNA引導的核酸酶。
一種用於修飾一目標多核苷酸序列的系統，該系統包含： a) 一或更多引導RNA(gRNA)或編碼該一或更多引導RNA的一或更多核苷酸序列，該一或更多引導RNA能夠與該目標多核苷酸序列雜交；以及 b) 如請求項37至請求項40中任一項所述的融合蛋白或編碼該融合蛋白的一核苷酸序列；其中編碼該一或更多引導RNA的該核苷酸序列以及編碼該融合蛋白的該核苷酸序列的每一個可操作地連接至與該核苷酸序列異源的一啟動子；其中該一或更多引導RNA與該目標多核苷酸序列雜交，以及其中該一或更多引導RNA與該融合蛋白的該RNA引導的DNA結合多肽形成一錯合物，藉此引導該融合蛋白與該目標多核苷酸序列結合並修飾該目標多核苷酸序列。
一種用於對一目標多核苷酸進行去胺的方法，該方法包含將該目標多核苷酸與一去胺酶接觸，該去胺酶包括與SEQ ID NO：374、383、397、399、407、408、411、414、416或420具有至少90%序列一致性的一胺基酸序列，其中該去胺酶多肽對該目標多核苷酸中的至少一核苷酸進行去胺。
一種用於對一目標多核苷酸中的至少一腺苷進行去胺的方法，該方法包含將該目標多核苷酸與一腺苷去胺酶多肽接觸，該腺苷去胺酶多肽包括由以下組成的群組選出的一胺基酸序列： a) 與SEQ ID NO：514具有至少90%序列一致性的一胺基酸序列； b) 與SEQ ID NO：572具有至少90%序列一致性、且包含與SEQ ID NO：572的位置102對應的一位置處的一離胺酸、與SEQ ID NO：572的位置104對應的一位置處的一酪胺酸、以及與SEQ ID NO：572的位置106對應的一位置處的一蘇胺酸的一胺基酸序列； c) 與SEQ ID NO：573具有至少90%序列一致性的一胺基酸序列； d) 與SEQ ID NO：574具有至少90%序列一致性、且包含與SEQ ID NO：574的位置101對應的一位置處的一麩胺酸、與SEQ ID NO：574的位置103對應的一位置處的一絲胺酸、以及與SEQ ID NO：574的位置105對應的一位置處的一離胺酸的一胺基酸序列； e) 與SEQ ID NO：575具有至少90%序列一致性、且包含與SEQ ID NO：575的位置101對應的一位置處的一離胺酸、與SEQ ID NO：575的位置103對應的一位置處的一白胺酸、以及與SEQ ID NO：575的位置105對應的一位置處的一麩胺酸的一胺基酸序列； f) 與SEQ ID NO：576具有至少90%序列一致性、且包含與SEQ ID NO：576的位置105對應的一位置處的一丙胺酸以及與SEQ ID NO：576的位置107對應的一位置處的一精胺酸的一胺基酸序列； g) 與SEQ ID NO：577具有至少90%序列一致性、且包含與SEQ ID NO：577的位置102對應的一位置處的一甘胺酸、與SEQ ID NO：577的位置104對應的一位置處的一絲胺酸、以及與SEQ ID NO：577的位置106對應的一位置處的一精胺酸的一胺基酸序列； h) 與SEQ ID NO：578具有至少90%序列一致性、且包含與SEQ ID NO：578的位置105對應的一位置處的一絲胺酸以及與SEQ ID NO：578的位置107對應的一位置處的一蘇胺酸的一胺基酸序列； i) 與SEQ ID NO：579具有至少90%序列一致性、且包含與SEQ ID NO：579的位置102對應的一位置處的一絲胺酸、與SEQ ID NO：579的位置104對應的一位置處的一麩醯胺酸、以及與SEQ ID NO：579的位置106對應的一位置處的一甘胺酸的一胺基酸序列； j) 與SEQ ID NO：580具有至少90%序列一致性、且包含與SEQ ID NO：580的位置111對應的一位置處的一甘胺酸的一胺基酸序列； k) 與SEQ ID NO：581具有至少90%序列一致性、且包含與SEQ ID NO：581的位置104對應的一位置處的一麩醯胺酸、與SEQ ID NO：581的位置106對應的一位置處的一甘胺酸、以及與SEQ ID NO：581的位置108對應的一位置處的一麩胺酸的一胺基酸序列； l) 與SEQ ID NO：582具有至少90%序列一致性、且包含與SEQ ID NO：582的位置102對應的一位置處的一精胺酸、與SEQ ID NO：582的位置104對應的一位置處的一色胺酸、以及與SEQ ID NO：582的位置106對應的一位置處的一麩胺酸的一胺基酸序列； m) 與SEQ ID NO：583具有至少90%序列一致性、且包含與SEQ ID NO：583的位置104對應的一位置處的一精胺酸以及與SEQ ID NO：583的位置106對應的一位置處的一絲胺酸的一胺基酸序列；以及 n) 與SEQ ID NO：584具有至少90%序列一致性、且包含與SEQ ID NO：584的位置110對應的一位置處的一苯丙胺酸、與SEQ ID NO：584的位置112對應的一位置處的一絲胺酸、以及與SEQ ID NO：584的位置114對應的一位置處的一蘇胺酸的一胺基酸序列；其中該腺苷去胺酶多肽對一目標多核苷酸中的至少一腺苷進行去胺。
一種用於修飾一目標多核苷酸的方法，該方法包含將該目標多核苷酸與請求項37項或請求項39的融合蛋白接觸，其中該DNA結合多肽與該目標多核苷酸結合且該去胺酶對該目標多核苷酸中的至少一核苷酸進行去胺。
一種用於修飾一目標多核苷酸的方法，該方法包含將該目標多核苷酸與請求項38或請求項40的融合蛋白接觸，並引入一或多個引導RNA(gRNA)或編碼該一或更多gRNA的一或更多核苷酸序列；其中該一或更多gRNA與該目標多核苷酸雜交並與該融合蛋白的該RNA引導的DNA結合多肽形成一錯合物，藉此引導該融合蛋白與該目標多核苷酸序列結合且該融合蛋白的該去胺酶多肽對該目標多核苷酸中的至少一核苷酸進行去胺，藉此修飾該目標多核苷酸。