KR102647294B1

KR102647294B1 - 유형 VI-E 및 유형 VI-F CRISPR-Cas 시스템 및 이의 용도

Info

Publication number: KR102647294B1
Application number: KR1020227033746A
Authority: KR
Inventors: 후이 양; 춘롱 슈; 잉시 조우; 칭추안 시아오
Original assignee: 후이진 테라퓨틱스 씨오., 엘티디.
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2024-03-13
Also published as: US20220119808A1; IL295935A; CN116121251A; CN116590257B; JP2023516974A; CN116590257A; CN115315519A; KR20240035924A; AU2020431316A2; US11225659B2; WO2021168799A1; CN112410377B; JP2024038096A; AU2020431316A1; CN112410377A; KR20230029585A; US20210269795A1; MX2022010666A; EP4110933A4; BR112022017070A2

Abstract

핵산 표적화를 위한 신규 CRISPR/Cas 조성물 및 이의 용도가 제공된다. 구체적으로, 신규 RNA-표적화 Cas13e 또는 Cas13f 이펙터 단백질, 및 가이드 RNA(gRNA) 또는 crRNA와 같은 적어도 하나의 표적화 핵산 성분을 포함하는 비-천연 발생 또는 조작된 RNA-표적화 시스템이 제공된다. 신규 Cas 이펙터 단백질은 크기가 약 800개 아미노산으로 알려진 Cas 이펙터 단백질 중 가장 작기 때문에 AAV 벡터와 같은 작은 용량의 벡터를 사용한 전달에 특출나게 적합하다.

Description

유형 VI-E 및 유형 VI-F CRISPR-Cas 시스템 및 이의 용도

CRISPR(clustered regularly interspaced short palindromic repeats, 군집된 규칙적인 간격의 짧은 회문 반복)은 박테리아 및 고세균과 같은 원핵 생물의 게놈 내에서 발견되는 DNA 서열 계열이다. 이들 서열은 이전에 원핵생물을 감염시킨 박테리오파지의 DNA 단편에서 유래된 것으로 이해되고, 원핵생물의 후속 감염 동안 유사한 박테리오파지로부터 DNA를 검출하고 파괴하는 데 사용된다.

CRISPR-연관 시스템은 상동 유전자 또는 Cas 유전자 세트이며, 그 중 일부는 헬리카제 및 뉴클레아제 활성을 갖는 Cas 단백질을 코딩한다. Cas 단백질은 CRISPR 서열(crRNA)에 상보적인 폴리뉴클레오티드(예를 들어, DNA)의 특정 가닥을 인식하고 절단하기 위한 가이드 서열로서 crRNA로부터 유래된 RNA를 활용하는 효소이다.

CRISPR-Cas 시스템은 함께 염색체외 DNA(예를 들어, 플라스미드) 및 박테리오파지, 또는 외래 DNA에 의해 코딩된 외래 RNA 내에 존재하는 것과 같은 외래 병원성 유전 요소에 대한 내성 또는 획득 면역을 부여하는 원시 원핵생물 "면역 시스템"을 구성한다.

자연에서, CRISPR/Cas 시스템은 외래 유전 물질에 대한 광범위한 원핵생물 방어 메커니즘인 것으로 보이며, 시퀀싱된 박테리아 게놈의 약 50% 및 시퀀싱된 고세균의 거의 90%에서 발견된다. 이후 이 원핵생물 시스템은 기초 생물학 연구, 생명공학 생성물 개발 및 질병 치료를 포함한 다양한 응용 분야에서 인간을 포함한 수많은 진핵 생물에서 광범위하게 사용되는 CRISPR-Cas로 알려진 기술의 기반을 형성하기 위해 개발되었다.

원핵생물 CRISPR-Cas 시스템은 단백질 이펙터의 매우 다양한 군, 비-코딩 요소 및 유전자좌 구조를 포함하며, 그 중 일부는 중요한 생명공학물질을 생산하도록 조작 및 개조되었다.

CRISPR 유전자좌 구조는 많은 시스템에서 연구되었다. 이러한 시스템에서 게놈 DNA에서 CRISPR 어레이는 통상적으로 AT-풍부한 리더 서열에 이어 독특한 스페이서 서열로 분리된 짧은 DR 서열을 포함한다. 이러한 CRISPR DR 서열의 크기는 통상적으로 28 내지 37 bp의 범위이지만, 범위는 23 내지 55 bp일 수 있다. 일부 DR 서열은 이중 대칭을 나타내어 RNA에서 줄기-루프("헤어핀")와 같은 2차 구조의 형성을 의미하는 반면, 다른 서열은 구조화되지 않은 것처럼 보인다. 상이한 CRISPR 어레이에서 스페이서 크기는 통상적으로 32 내지 38 bp(21 내지 72 bp의 범위)이다. CRISPR 어레이에는 일반적으로 50개 단위 미만의 반복부-스페이서 서열이 있다.

cas 유전자의 작은 군집은 종종 그러한 CRISPR 반복부-스페이서 어레이 옆에서 발견된다. 지금까지 확인된 93개의 cas 유전자는 코딩된 단백질의 서열 유사성을 기반으로 35개의 계열로 분류되었다. 35개 계열 중 11개는 Cas1에서 Cas9까지의 단백질 계열을 포함하는 소위 cas 코어를 형성한다. 완전한 CRISPR-Cas 유전자좌에는 cas 코어에 속하는 적어도 하나의 유전자가 있다.

CRISPR-Cas 시스템은 크게 두 가지 부류로 나뉠 수 있으며, 부류 1 시스템은 외래 핵산을 분해하기 위해 여러 Cas 단백질의 복합체를 사용하는 반면, 부류 2 시스템은 동일한 목적을 위해 단일의 큰 Cas 단백질을 사용한다. 부류 2 시스템의 단일-서브유닛 이펙터 조성은 조작 및 응용 번역을 위한 더 간단한 성분 집합을 제공하며, 지금까지 게놈 조작 및 그 이상을 위한 새롭고 강력한 프로그래밍가능한 기술의 발견, 조작 및 최적화의 중요한 공급원이었다.

부류 1 시스템은 유형 I, III 및 IV로 더 나뉘고; 부류 2 시스템은 유형 II, V 및 VI으로 나뉜다. 이 6가지 시스템 유형은 추가로 19개의 하위유형으로 나뉜다. 분류는 또한 존재하는 cas 유전자의 상보체를 기반으로 한다. 대부분의 CRISPR-Cas 시스템에는 Cas1 단백질이 있다. 많은 원핵생물이 여러 CRISPR-Cas 시스템을 함유한다는 것은 이들이 호환가능하고 성분을 공유할 수 있음을 시사한다.

최초이자 가장 잘 특성화된 Cas 단백질 중 하나인 Cas9는 부류 2, 유형 II의 원형 구성원이며 스트렙토코쿠스 피오게네스(Streptococcus pyogenes)(SpCas9)에서 유래한다. Cas9는 표적 DNA 서열을 보완하는 작은 crRNA 분자 및 별도의 트랜스-활성화 CRISPR RNA(tracrRNA)에 의해 활성화되는 DNA 엔도뉴클레아제이다. crRNA는 crRNA에 결합하는 단백질을 담당하는 직접 반복(DR) 서열 및 스페이서 서열로 이루어지며, 이는 임의의 원하는 핵산 표적 서열에 상보적이도록 조작될 수 있다. 이러한 방식으로, CRISPR 시스템은 crRNA의 스페이서 서열을 변형함으로써 표적 DNA 또는 RNA 표적으로 프로그래밍될 수 있다. crRNA 및 tracrRNA는 융합되어 더 나은 실용적인 활용을 위해 단일 가이드 RNA(sgRNA)를 형성한다. Cas9와 조합하면, sgRNA가 표적 DNA와 혼성화하고 Cas9가 표적 DNA를 절단하도록 유도된다. S. 써모필루스(S. thermophilus) CRISPR 시스템의 Cas9를 포함하여, 다른 종으로부터 다른 Cas9 이펙터 단백질도 확인되어 유사하게 사용되었다. 이러한 CRISPR/Cas9 시스템은 제빵 효모(사카로마이세스 세레비지에(Saccharomyces cerevisiae)), 기회 감염성 병원체 칸디다 알비칸스(Candida albicans), 제브라피쉬(다니오 레리오(Danio rerio)), 초파리(드로소필라 멜라노가스터(Drosophila melanogaster)), 개미(하르페그나토스 살타토르(Harpegnathos saltator) 및 우세라에아 비로이(Ooceraea biroi)), 모기(아에데스 아에기프티(Aedes aegypti)), 선충류(카에노랍디티스 엘레간스(Caenorhabditis elegans)), 식물, 마우스, 원숭이 및 인간 배아를 포함하는 수많은 진핵 생물에서 널리 사용되었다.

최근에 특성화된 또 다른 Cas 이펙터 단백질은 Cas12a(이전에는 Cpf1로 알려짐)이다. Cas12a는 C2c1 및 C2c3과 함께 HNH 뉴클레아제가 없지만 RuvC 뉴클레아제 활성이 있는 부류 2, 유형 V Cas 단백질에 속하는 구성원이다. Cas12a는 처음에 박테리아 프란시셀라 노비시다(Francisella novicida)의 CRISPR/Cpf1 시스템에서 특성화되었다. 원래 이름은 프레보텔라(Prevotella )및 프란시셀라(Francisella) 계보에서 CRISPR-Cas 하위유형의 유행을 반영한다. Cas12a는 다음을 포함하여 Cas9와 몇 가지 주요 차이점을 보여주었다: Cas9에 의해 생성된 "무딘" 절단과 반대로 이중 가닥 DNA에서 "엇갈린" 절단을 유발하고, "T 풍부한" PAM 서열(Cas9에 대한 대체 표적화 부위를 제공함)에 의존하고, 및 성공적인 표적화를 위해 CRISPR RNA(crRNA)만 필요하고 tracrRNA는 필요하지 않다. Cas12a의 작은 crRNA는 다중 게놈 편집에 Cas9보다 더 적합하며, Cas9의 sgRNA보다 더 많은 것을 하나의 벡터에 패키징할 수 있기 때문이다. 또한 Cas12a가 남긴 끈적한 5' 돌출부는 전통적인 제한 효소 클로닝보다 훨씬 더 표적 특이적인 DNA 조립에 사용할 수 있다. 마지막으로 Cas12a는 PAM 부위의 하류에서 DNA 18 내지 23개의 염기쌍을 절단하고, 이는 NHEJ 시스템에 의해 이중 가닥 파손(DSB)이 생성된 후 DNA 복구 후 뉴클레아제 인식 서열이 중단되지 않음을 의미하므로, Cas9 절단 후 가능한 한 라운드와 대조적으로 Cas12a는 여러 라운드의 DNA 절단을 가능하게 하는데, 이는 Cas9 절단 서열이 PAM 부위 상류의 단지 3개 염기쌍이고 NHEJ 경로가 통상적으로 인식 서열을 파괴하는 삽입결실 돌연변이를 초래하여 추가 절단 라운드를 방지하기 때문이다. 이론적으로 DNA 절단의 반복 라운드는 원하는 게놈 편집이 발생할 기회 증가와 연관이 있다.

보다 최근에는 Cas13(C2c2로도 알려짐), Cas13b, Cas13c 및 Cas13d를 포함한 여러 부류 2, VI 유형 Cas 단백질이 확인되었으며, 각각은 RNA-가이드 RNase이다(즉, 이러한 Cas 단백질은 crRNA를 사용하여 Cas9 및 Cas12a에서 표적 DNA 서열보다는 표적 RNA 서열을 인식함). 전반적으로 CRISPR/Cas13 시스템은 전통적인 RNAi 및 CRISPRi 기술에 비해 더 높은 RNA 분해 효율을 달성할 수 있으며, 동시에 RNAi에 비해 훨씬 적은 표적-외 절단을 나타낸다.

현재 확인된 이러한 Cas13 단백질의 한 가지 단점은 상대적으로 큰 크기이다. Cas13a, Cas13b 및 Cas13c는 각각 1100개 초과의 아미노산 잔기를 가지고 있다. 따라서 가능하다면 그들의 코딩 서열(약 3.3 kb) 및 sgRNA와 함께 필요한 프로모터 서열 및 번역 조절 서열을 현재 가장 효율적이고 안전한, 약 4.7 kb의 패키지 용량을 갖는 아데노 연관 바이러스(AAV) 기반 유전자 치료 벡터와 같은 특정 소용량 유전자 치료 벡터에 패키징하는 것이 어렵다. 현재까지 가장 작은 Cas13 단백질인 Cas13d는 약 920개의 아미노산(즉, 약 2.8 kb 코딩 서열)만 가지고 있고, 이론상 AAV 벡터에 패키징할 수 있지만, dCas13d-ADAR2DD(약 3.9 kb의 코딩 서열을 가짐)와 같은 단일-염기 편집 기능이 있는 Cas13d-기반 융합 단백질을 사용하는 것에 의존하는 단일-염기 편집-기반 유전자 치료에는 사용이 제한적이다.

또한, 현재 알려진 Cas13 단백질/시스템은 모두 crRNA-기반 표적 서열 인식에 의한 활성화 시에 비-특이적/부수적 RNase 활성을 갖는다. 이 활성은 Cas13a 및 Cas13b에서 특히 강력하며, 여전히 Cas13d에서 감지가능하게 존재한다. 이 특성은 핵산 검출 방법에서 유리하게 사용될 수 있지만, 이러한 Cas13 단백질의 비-특이적/부수적 RNase 활성은 유전자 요법 사용에 대한 엄청난 잠재적인 위험을 구성한다.

본 발명의 일 양태는 (1) 표적 RNA에 혼성화할 수 있는 스페이서 서열, 및 스페이서 서열에 대해 3'인 직접 반복(DR) 서열을 포함하는 RNA 가이드 서열; 및 (2) 서열번호 1 내지 7 중 어느 하나의 아미노산 서열을 갖는 CRISPR-연관 단백질(Cas), 또는 상기 Cas의 유도체 또는 기능적 단편을 포함하는, 군집된 규칙적인 간격의 짧은 회문 반복부(CRISPR)-Cas 복합체를 제공하며; 여기서 상기 Cas, 상기 Cas의 유도체 및 기능적 단편은 (i) RNA 가이드 서열에 결합하고 (ii) 표적 RNA를 표적화할 수 있되, 단, 복합체가 서열번호 1 내지 7 중 어느 하나의 Cas를 포함하거나 표적 RNA가 진핵생물 DNA에 의해 코딩되는 경우, 스페이서 서열이 천연 발생 박테리오파지 핵산에 100% 상보적이지 않다.

특정 구현예에서, DR 서열은 서열번호 8 내지 14 중 어느 하나의 2차 구조와 실질적으로 동일한 2차 구조를 갖는다.

특정 구현예에서, DR 서열은 서열번호 8 내지 14 중 어느 하나에 의해 코딩된다.

특정 구현예에서, 표적 RNA는 진핵생물 DNA에 의해 코딩된다.

특정 구현예에서, 진핵생물 DNA는 비-인간 포유동물 DNA, 비-인간 영장류 DNA, 인간 DNA, 식물 DNA, 곤충 DNA, 조류 DNA, 파충류 DNA, 설치류 DNA, 어류 DNA, 벌레/선충류 DNA, 효모 DNA이다.

특정 구현예에서, 표적 RNA는 mRNA이다.

특정 구현예에서, 스페이서 서열은 15 내지 55개 뉴클레오티드, 25 내지 35개 뉴클레오티드, 또는 약 30개 뉴클레오티드이다.

특정 구현예에서, 스페이서 서열은 표적 RNA에 대해 90 내지 100% 상보적이다.

특정 구현예에서, 유도체는 서열번호 1 내지 7 중 어느 하나의 하나 이상의 잔기의 보존된 아미노산 치환을 포함한다.

특정 구현예에서, 유도체는 보존된 아미노산 치환만을 포함한다.

특정 구현예에서, 유도체는 HEPN 도메인 또는 RXXXXH 모티프에서 서열번호 1 내지 7 중 어느 하나의 야생형 Cas와 동일한 서열을 갖는다.

특정 구현예에서, 유도체는 표적 RNA에 혼성화된 RNA 가이드 서열에 결합할 수 있지만, Cas의 RNase 촉매 부위의 돌연변이로 인해 RNase 촉매 활성을 갖지 않는다.

특정 구현예에서, 유도체는 210개 이하 잔기의 N-말단 결실 및/또는 180개 이하 잔기의 C-말단 결실을 갖는다.

특정 구현예에서, 유도체는 약 180개 잔기의 N-말단 결실 및/또는 약 150개 잔기의 C-말단 결실을 갖는다.

특정 구현예에서, 유도체는 RNA 염기-편집 도메인을 추가로 포함한다.

특정 구현예에서, RNA 염기-편집 도메인은 아데노신 데아미나제, 예컨대 이중 가닥 RNA-특이적 아데노신 데아미나제(예를 들어, ADAR1 또는 ADAR2); 아포지질단백질 B mRNA 편집 효소; 촉매적 폴리펩티드-유사(APOBEC); 또는 활성화-유도 시티딘 데아미나제(AID)이다.

특정 구현예에서, ADAR은 E488Q/T375G 이중 돌연변이를 갖거나 ADAR2DD이다.

특정 구현예에서, 염기-편집 도메인은 MS2와 같은 RNA-결합 도메인에 추가로 융합된다.

특정 구현예에서, 유도체는 RNA 메틸트랜스퍼라제, RNA 데메틸라제, RNA 스플라이싱 변형자, 국소화 인자, 또는 번역 변형 인자를 추가로 포함한다.

특정 구현예에서, Cas, 유도체, 또는 기능적 단편은 핵 국소화 신호(NLS) 서열 또는 핵 수출 신호(NES)를 포함한다.

특정 구현예에서, 표적 RNA의 표적화는 표적 RNA의 변형을 초래한다.

특정 구현예에서, 표적 RNA의 변형은 표적 RNA의 절단이다.

특정 구현예에서, 표적 RNA의 변형은 아데노신(A)에서 이노신(I)으로의 탈아미노화이다.

특정 구현예에서, 본 발명의 CRISPR-Cas 복합체는 스페이서 서열에 혼성화할 수 있는 서열을 포함하는 표적 RNA를 추가로 포함한다.

본 발명의 또 다른 양태는 (1) 본 발명의 Cas, 이의 유도체 또는 이의 기능적 단편, 및 (2) 이종 기능적 도메인을 포함하는 융합 단백질을 제공한다.

특정 구현예에서, 이종 기능적 도메인은 다음을 포함한다: 핵 국소화 신호(NLS), 리포터 단백질 또는 검출 표지(예를 들어, GST, HRP, CAT, GFP, HcRed, DsRed, CFP, YFP, BFP), 국소화 신호, 단백질 표적화 모이어티, DNA 결합 도메인(예를 들어, MBP, Lex A DBD, Gal4 DBD), 에피토프 태그(예를 들어, His, myc, V5, FLAG, HA, VSV-G, Trx 등), 전사 활성화 도메인(예를 들어, VP64 또는 VPR), 전사 억제 도메인(예를 들어, KRAB 모이어티 또는 SID 모이어티), 뉴클레아제(예를 들어, FokI), 탈아미노화 도메인(예를 들어, ADAR1, ADAR2, APOBEC, AID 또는 TAD), 메틸라제, 데메틸라제, 전사 방출 인자, HDAC, ssRNA 절단 활성을 갖는 폴리펩티드, dsRNA 절단 활성을 갖는 폴리펩티드, ssDNA 절단 활성을 갖는 폴리펩티드, dsDNA 절단 활성을 갖는 폴리펩티드, DNA 또는 RNA 리가제, 또는 이들의 임의의 조합.

특정 구현예에서, 이종 기능적 도메인은 융합 단백질에서 N-말단에, C-말단에, 또는 내부적으로 융합된다.

본 발명의 또 다른 양태는 이종 기능적 모이어티(2)에 접합된 본 발명의 Cas, 이의 유도체, 또는 이의 기능적 단편(1)을 포함하는 접합체를 제공한다.

특정 구현예에서, 이종 기능적 모이어티는 다음을 포함한다: 핵 국소화 신호(NLS), 리포터 단백질 또는 검출 표지(예를 들어, GST, HRP, CAT, GFP, HcRed, DsRed, CFP, YFP, BFP), 국소화 신호, 단백질 표적화 모이어티, DNA 결합 도메인(예를 들어, MBP, Lex A DBD, Gal4 DBD), 에피토프 태그(예를 들어, His, myc, V5, FLAG, HA, VSV-G, Trx 등), 전사 활성화 도메인(예를 들어, VP64 또는 VPR), 전사 억제 도메인(예를 들어, KRAB 모이어티 또는 SID 모이어티), 뉴클레아제(예를 들어, FokI), 탈아미노화 도메인(예를 들어, ADAR1, ADAR2, APOBEC, AID 또는 TAD), 메틸라제, 데메틸라제, 전사 방출 인자, HDAC, ssRNA 절단 활성을 갖는 폴리펩티드, dsRNA 절단 활성을 갖는 폴리펩티드, ssDNA 절단 활성을 갖는 폴리펩티드, dsDNA 절단 활성을 갖는 폴리펩티드, DNA 또는 RNA 리가제, 또는 이들의 임의의 조합.

특정 구현예에서, 이종 기능적 모이어티는 Cas, 이의 유도체 또는 이의 기능적 단편에 대해 N-말단에, C-말단에, 또는 내부적으로 접합된다.

본 발명의 또 다른 양태는 서열번호 1 내지 7 중 어느 하나, 또는 이의 유도체, 또는 이의 기능적 단편, 또는 이의 융합 단백질을 코딩하는 폴리뉴클레오티드를 제공하며, 단 폴리뉴클레오티드는 서열번호 15 내지 21 중 어느 하나가 아니다.

특정 구현예에서, 폴리뉴클레오티드는 세포에서의 발현을 위해 코돈-최적화된다.

특정 구현예에서, 세포는 진핵 세포이다.

본 발명의 또 다른 양태는 서열번호 8 내지 14 중 어느 하나의 유도체를 포함하는 비-천연 발생 폴리뉴클레오티드를 제공하며, 여기서 상기 유도체는 (i) 서열번호 8 내지 14 중 어느 하나와 비교하여 하나 이상(예를 들어, 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개)의 뉴클레오티드 첨가, 결실 또는 치환을 가지며; (ii) 서열번호 8 내지 14 중 어느 하나에 대해 적어도 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 95%, 또는 97%의 서열 동일성을 갖고; (iii) 서열번호 8 내지 14 중 어느 하나 또는 (i) 및 (ii) 중 임의의 것과 엄격한 조건 하에 혼성화하고; 또는 (iv) (i) 내지 (iii) 중 임의의 것의 상보체이며, 단, 유도체는 서열번호 8 내지 14 중 어느 하나가 아니며, 유도체는 서열번호 8 내지 14에 의해 코딩된 임의의 RNA와 실질적으로 동일한 2차 구조를 유지하는 RNA를 코딩한다(또는 그러한 RNA이다).

특정 구현예에서, 유도체는 본 발명의 Cas, 이의 유도체, 또는 이의 기능적 단편 중 어느 하나에 대한 DR 서열로서 기능한다.

본 발명의 또 다른 양태는 본 발명의 폴리뉴클레오티드를 포함하는 벡터를 제공한다.

특정 구현예에서, 폴리뉴클레오티드는 프로모터 및 선택적으로 인핸서에 작동 가능하게 연결된다.

특정 구현예에서, 프로모터는 구성적 프로모터, 유도성 프로모터, 유비쿼터스 프로모터, 또는 조직 특이적 프로모터이다.

특정 구현예에서, 벡터는 플라스미드이다.

특정 구현예에서, 벡터는 레트로바이러스 벡터, 파지 벡터, 아데노바이러스 벡터, 단순 포진 바이러스(HSV) 벡터, AAV 벡터, 또는 렌티바이러스 벡터이다.

특정 구현예에서, AAV 벡터는 혈청형 AAV1, AAV2, AAV4, AAV5, AAV6, AAV7, AAVrh74, AAV8, AAV9, AAV10, AAV 11, AAV 12 또는 AAV 13의 재조합 AAV 벡터이다.

본 발명의 또 다른 양태는 (1) 전달 비히클, 및 (2) 본 발명의 CRISPR-Cas 복합체, 본 발명의 융합 단백질, 본 발명의 접합체, 본 발명의 폴리뉴클레오티드, 또는 본 발명의 벡터를 포함하는 전달 시스템을 제공한다.

특정 구현예에서, 전달 비히클은 나노입자, 리포솜, 엑소솜, 미세소포, 또는 유전자-총이다.

본 발명의 또 다른 양태는 본 발명의 CRISPR-Cas 복합체, 본 발명의 융합 단백질, 본 발명의 접합체, 본 발명의 폴리뉴클레오티드, 또는 본 발명의 벡터를 포함하는 세포 또는 이의 자손을 제공한다.

특정 구현예에서, 세포 또는 이의 자손은 진핵 세포(예를 들어, 비-인간 포유동물 세포, 인간 세포, 또는 식물 세포) 또는 원핵 세포(예를 들어, 박테리아 세포)이다.

본 발명의 또 다른 양태는 본 발명의 세포를 포함하는 비-인간 다세포 진핵생물을 제공한다.

특정 구현예에서, 비-인간 다세포 진핵생물은 인간 유전 장애에 대한 동물(예를 들어, 설치류 또는 영장류) 모델이다.

본 발명의 또 다른 양태는 표적 RNA를 변형시키는 방법을 제공하며, 이 방법은 표적 RNA를 본 발명의 CRISPR-Cas 복합체와 접촉시키는 단계를 포함하며, 여기서 스페이서 서열은 표적 RNA의 적어도 15개의 뉴클레오티드에 상보적이며; 여기서 Cas, 유도체, 또는 기능적 단편은 RNA 가이드 서열과 회합하여 복합체를 형성하고; 여기서 복합체는 표적 RNA에 결합하고; 복합체가 표적 RNA에 결합하면, Cas, 유도체 또는 기능적 단편은 표적 RNA를 변형시킨다.

특정 구현예에서, 표적 RNA는 Cas에 의한 절단에 의해 변형된다.

특정 구현예에서, 표적 RNA는 이중 가닥 RNA-특이적 아데노신 데아미나제를 포함하는 유도체에 의한 탈아미노화에 의해 변형된다.

특정 구현예에서, 표적 RNA는 mRNA, tRNA, rRNA, 비-코딩 RNA, lncRNA, 또는 핵 RNA이다.

특정 구현예에서, 복합체의 표적 RNA에 대한 결합시, Cas, 유도체, 및 기능적 단편은 실질적인(또는 검출가능한) 부수적인 RNase 활성을 나타내지 않는다.

특정 구현예에서, 표적 RNA는 세포 내에 있다.

특정 구현예에서, 세포는 암세포이다.

특정 구현예에서, 세포는 감염원으로 감염된다.

특정 구현예에서, 감염원은 바이러스, 프리온, 원생동물, 진균 또는 기생충이다.

특정 구현예에서, CRISPR-Cas 복합체는 서열번호 1 내지 7 중 어느 하나, 또는 이의 유도체 또는 기능적 단편을 코딩하는 제1 폴리뉴클레오티드, 및 서열번호 8 내지 14 중 어느 하나 및 표적 RNA에 결합할 수 있는 스페이서 RNA를 코딩하는 서열을 포함하는 제2 폴리뉴클레오티드에 의해 코딩되고, 여기서 제1 및 제2 폴리뉴클레오티드는 세포 내로 도입된다.

특정 구현예에서, 제1 및 제2 폴리뉴클레오티드는 동일한 벡터에 의해 세포 내로 도입된다.

특정 구현예에서, 방법은 다음 중 하나 이상을 유발한다: (i) 시험관내 또는 생체내 세포 노화 유도; (ii) 시험관내 또는 생체내 세포 주기 정지; (iii) 시험관내 또는 생체내 세포 성장 억제 및/또는 세포 성장 억제; (iv) 시험관내 또는 시험관내 무반응 유도; (v) 시험관내 또는 시험관내 세포자연사 유도; 및 (vi) 시험관내 또는 시험관내 괴사의 유도.

본 발명의 또 다른 양태는 병태 또는 질병의 치료를 필요로 하는 대상체에서 이를 치료하는 방법을 제공하며, 상기 방법은 본 발명의 CRISPR-Cas 복합체 또는 이를 코딩하는 폴리뉴클레오티드를 포함하는 조성물을 대상체에게 투여하는 단계를 포함하고; 여기서 스페이서 서열은 병태 또는 질병과 연관된 표적 RNA의 적어도 15개의 뉴클레오티드에 상보적이며; 여기서 Cas, 유도체, 또는 기능적 단편은 RNA 가이드 서열과 회합하여 복합체를 형성하고; 여기서 복합체는 표적 RNA에 결합하고; 복합체가 표적 RNA에 결합하면, Cas, 유도체 또는 기능적 단편이 표적 RNA를 절단하여 대상체의 병태 또는 질병을 치료한다.

특정 구현예에서, 병태 또는 질병은 암 또는 감염성 질병이다.

특정 구현예에서, 암은 윌름스 종양, 유잉 육종, 신경내분비 종양, 교모세포종, 신경모세포종, 흑색종, 피부암, 유방암, 결장암, 직장암, 전립선암, 간암, 신장암, 췌장암, 폐암, 담도암, 자궁경부암, 자궁내막암, 식도암, 위암, 두경부암, 갑상선수질암, 난소암, 신경교종, 림프종, 백혈병, 골수종, 급성 림프모구성 백혈병, 급성 골수성 백혈병, 만성 림프구성 백혈병, 만성 골수성 백혈병, 호지킨 림프종, 비호지킨 림프종, 또는 방광암이다.

특정 구현예에서, 방법은 시험관내 방법, 생체내 방법, 또는 생체외 방법이다.

본 발명의 또 다른 양태는 본 발명의 방법에 의해 수득된 세포 또는 이의 자손을 제공하며, 여기서 세포 및 자손은 비-천연적으로 존재하는 변형(예를 들어, 세포/자손의 전사된 RNA에서 비-자연적으로 존재하는 변형)을 포함한다.

본 발명의 또 다른 양태는 표적 RNA의 존재를 검출하는 방법을 제공하며, 이 방법은 표적 RNA를 본 발명의 융합 단백질, 또는 본 발명의 접합체, 또는 융합 단백질을 코딩하는 폴리뉴클레오티드를 포함하는 조성물과 접촉시키는 단계를 포함하고, 여기서 융합 단백질 또는 접합체는 검출가능한 표지(예를 들어, 형광, 노던 블롯 또는 FISH에 의해 검출될 수 있는 표지) 및 표적 RNA에 결합할 수 있는 복합 스페이서 서열을 포함한다.

본 발명의 또 다른 양태는 군집된 규칙적인 간격의 짧은 회문 반복부(CRISPR)-Cas 복합체를 포함하는 진핵 세포를 제공하며, 상기 CRISPR-Cas 복합체는 (1) 표적 RNA에 혼성화할 수 있는 스페이서 서열 및 스페이서 서열에 대해 3'인 직접 반복(DR) 서열을 포함하는 RNA 가이드 서열; 및 (2) 서열번호 1 내지 7 중 어느 하나의 아미노산 서열을 갖는 CRISPR-연관 단백질(Cas), 또는 상기 Cas의 유도체 또는 기능적 단편을 포함하고; 여기서 상기 Cas, 상기 Cas의 유도체, 및 기능적 단편은 (i) RNA 가이드 서열에 결합하고 (ii) 표적 RNA를 표적화할 수 있다.

실시예 또는 청구범위에서만 설명된 것, 또는 아래의 일 양태/섹션에서만 설명된 것을 포함하여, 본원에 기재된 본 발명의 임의의 일 구현예는 명시적으로 부인되거나 또는 부적절하지 않는 한, 본 발명의 임의의 다른 하나 이상의 구현예와 조합될 수 있음을 이해해야 한다.

도 1은 대표적인 Cas13e 및 Cas13f 계열 구성원의 게놈 유전자좌의 개략도(축척으로 표시되지 않음)이다. Cas 코딩 서열(끝이 뾰족한 긴 막대), 그 뒤에 여러 개의 인접 직접 반복(DR)(짧은 막대) 및 스페이서 서열(다이아몬드)이 표시된다.
도 2는 각각의 Cas13e 및 Cas13f 단백질과 연관된 DR 서열의 추정 2차 구조를 나타낸다. 그들의 코딩 서열은 왼쪽에서 오른쪽으로 각각 서열번호 8 내지 14로 표시된다.
도 3은 본 발명의 새로 발견된 Cas13e 및 Cas13f 이펙터 단백질 뿐만 아니라 관련된 이전에 발견된 Cas13a, Cas13b, Cas13c, 및 Cas13d 이펙터 단백질에 대한 계통수를 나타낸다.
도 4는 Cas13a-Cas13f 단백질에 대한 도메인 구조를 나타낸다. 전체 크기 및 Cas 단백질의 각 대표 구성원에 있는 2개의 RXXXXH 모티프의 위치가 표시된다.
도 5는 Cas13e.1 이펙터 단백질의 예측된 3D 구조를 나타낸다.
도 6은 (1) Cas13e 이펙터 단백질, (2) mCherry mRNA에 상보적이며 Cas13e 이펙터 단백질과의 복합체를 형성할 수 있는 가이드 RNA를 생성할 수 있는 가이드 RNA(gRNA)에 대한 코딩 서열, 및 (3) 각각 mCherry 리포터 유전자을 코딩하는 3개의 플라스미드가 세포에 형질주입되어 각각의 유전자 산물을 발현할 수 있으며, 그 결과 리포터 mCherry mRNA가 분해됨을 나타내는 개략도이다.
도 7은 형광 현미경 하에서 감소된 mCherry 발현에 의해 입증된 바와 같이, mCherry mRNA에 상보적인 가이드 RNA에 의한 mCherry mRNA의 녹-다운을 나타낸다. 음성 대조군으로, mCherry mRNA와 혼성화/결합하지 않는 비-표적화(NT) 가이드 RNA는 mCherry 발현을 녹-다운하는 데 실패했다.
도 8은 도 6의 실험에서 mCherry 발현의 약 75% 녹다운을 나타낸다.
도 9는 Cas13e가 3' 말단에서 DR 서열을 갖는 가이드 RNA(가이드 RNA의 5' 말단에서 DR 서열과 반대임)를 활용함을 나타낸다.
도 10은 비-표적화(NT) 대조군에 비해 스페이서 서열 길이 및 표적 RNA에 대한 특이적(가이드 RNA-의존적) RNase 활성 사이의 상관관계를 나타낸다.
도 11은 비-표적화(NT) 대조군에 비해 스페이서 서열 길이 및 표적 RNA에 대한 비-특이적/부수적(가이드 RNA-독립적) RNase 활성 사이의 상관관계를 나타낸다.
도 12는 dCas13e.1-ADAR2DD 융합이 RNA 염기 편집 활성을 가짐을 나타낸다. 구체적으로, (1) 단일-염기 RNA 편집기 ADAR2DD에 융합된 dCas13e(RNase 데드), (2) G-to-A 점 돌연변이를 갖는 돌연변이 mCherry mRNA에 상보적이고 dCas13e 이펙터 단백질과 복합체를 형성할 수 있는 가이드 RNA를 생성할 수 있는 가이드 RNA(gRNA)를 위한 코딩 서열, 및 (3) G-to-A 점 돌연변이를 갖는 mCherry mRNA를 코딩하는 돌연변이 mCherry 리포터 유전자를 코딩하는 3개의 플라스미드는 세포에 형질주입되어 각각의 유전자 산물을 발현할 수 있다. 돌연변이 mCherry mRNA는 점 돌연변이로 인해 형광 mCherry 단백질을 일반적으로 생성할 수 없다. 가이드 RNA가 돌연변이 mCherry mRNA에 결합하면, 융합된 ADAR2DD 염기 편집기가 A를 I(G 등가물)로 변환하여 형광 mCherry 단백질을 코딩하는 mRNA의 능력을 복원한다.
도 13은 성공적인 RNA 염기 편집의 결과로서 mCherry의 회복된 발현을 나타낸다. 도 12의 실험에서, 돌연변이 mCherry(mCherry*)를 단독으로 코딩하는 플라스미드는 형광 mCherry를 발현하지 못했다. dCas13e-ADAR2DD 염기 편집기를 단독으로 코딩하는 플라스미드도 또한 형광 mCherry를 발현하지 못했다. gRNA-1 또는 gRNA-2를 단독으로 코딩하는 플라스미드(또한 GFP 리포터를 발현함)도 형광 mCherry를 발현하는 데 실패했지만, GFP는 두드러지게 발현되었다. 그러나 3개의 모든 플라스미드가 동일한 세포에 형질주입되었을 때, 유의미한 형광 mCherry 발현이 (GFP 리포터 발현과 함께) 관찰되었다.
도 14는 미성숙 정지 코돈 TAG를 갖는 돌연변이 mCherry 유전자의 관련 분절, dCas13e-ADAR2DD RNA 염기 편집기와 복합체를 형성할 수 있는 2개의 gRNA에 대한 서열, 및 "수정된" TGG 코돈을 나타낸다.
도 15는 ADAR2DD RNA 염기 편집기("ADAR2"로 나타냄) 및 기타 전사 제어 요소에 융합된 dCas13e.1에 대한 일련의 진행성 C-말단 결실 작제물을 나타내는 개략도(축척으로 표시되지 않음)이다.
도 16은 도 15의 일련의 C-말단 결실 돌연변이에 대한 야생형 mCherry로의 mCherry 돌연변이 전환의 백분율 결과를 나타낸다.
도 17은 ADAR2DD RNA 염기 편집기에 융합된 dCas13e.1에 대한 일련의 진행성 C-말단 및 선택적인 N-말단 결실 작제물을 나타내는 개략도(축척으로 표시되지 않음)이다.
도 18은 도 17에서 선택된 C-말단 및 N-말단 결실 돌연변이체에 대한 야생형 mCherry로의 mCherry 돌연변이 전환의 백분율 결과를 나타낸다.
도 19는 Cas13a, Cas13b, Cas13d, Cas13e.1 및 Cas13f.1, mCherry 리포터 유전자뿐만 아니라 ANXA4-표적화 gRNA 코딩 서열 또는 대조군으로서의 비-표적화 gRNA를 코딩하는 일련의 플라스미드를 나타낸다.
도 20은 Cas13e.1, Cas13f.1, Cas13a 및 Cas13d에 의한 ANXA4 발현의 효율적인 녹-다운을 나타낸다.

1. 개요

본원에 기재된 본 발명은 때때로 본원에서 Cas13e 및 Cas13f로 지칭되는 신규 부류 2, 유형 VI Cas 이펙터 단백질을 제공한다. 본 발명의 신규 Cas13 단백질은 이전에 발견된 Cas13 이펙터 단백질(Cas13a-Cas13d)보다 훨씬 작아서 crRNA 코딩 서열과 함께 AAV 벡터와 같은 소용량 유전자 치료 벡터로 쉽게 패키징될 수 있다. 또한 새로 발견된 Cas13e 및 Cas13f 이펙터 단백질은 Cas13a, Cas13b 및 Cas13d 이펙터 단백질과 비교하여 RNAR 표적 서열을 녹다운하는 데 더 강력하고 RNA 단일 염기 편집에 더 효율적이고, 스페이서 서열이 특정 좁은 범위(예를 들어, 약 30개 뉴클레오티드) 내에 있는 경우를 제외하고, crRNA-기반 표적 인식에 의한 활성화 시에 무시할 수 있는 비-특이적/부수적 RNase 활성을 나타낸다. 따라서 이러한 새로운 Cas 단백질은 유전자 치료에 이상적으로 적합하다.

따라서 제1 양태에서, 본 발명은 Cas13e 및 Cas13f 이펙터 단백질, 예를 들어 서열번호 1 내지 7의 아미노산 서열을 갖는 것, 또는 이의 동원체, 동족체, 다양한 유도체(본원에서 아래에 기재됨), 기능적 단편(본원에서 아래에 기재됨)을 제공하며, 여기서 상기 동원체, 동족체, 유도체 및 기능적 단편은 서열번호 1 내지 7의 단백질 중 어느 하나의 적어도 하나의 기능을 유지한다. 이러한 기능은 복합체를 형성하기 위해 본 발명의 가이드 RNA/crRNA(본원에서 아래에 기재됨)에 결합하는 능력, RNase 활성, 및 표적 RNA에 적어도 부분적으로 상보적인 crRNA의 유도 하에 특정 부위에서 표적 RNA에 결합하고 이를 절단하는 능력을 포함하지만 이에 제한되지 않는다.

특정 구현예에서, 본 발명의 Cas13e 또는 Cas13f 이펙터 단백질은 (i) 서열번호 1 내지 7 중 어느 하나; (ii) 서열번호 1 내지 7 중 어느 하나의 하나 이상의 아미노산(예를 들어, 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개의 잔기)의 첨가, 결실 및/또는 치환(예를 들어, 보존적 치환)을 갖는 유도체; 또는 (iii) 서열번호 1 내지 7 중 어느 하나와 비교하여 적어도 약 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99%의 아미노산 서열 동일성을 갖는 유도체일 수 있다.

특정 구현예에서, Cas13e 및 Cas13f 이펙터 단백질, 이의 동원체, 동족체, 유도체 및 기능적 단편은 자연적으로 존재하지 않으며, 예를 들어 자연적으로 존재하는 서열과 비교하여 적어도 하나의 아미노산 차이를 갖는다.

관련된 양태에서, 본 발명은 서열번호 1 내지 7 중 어느 하나에 기초한 추가 유도체 Cas13e 및 Cas13f 이펙터 단백질, 또는 이의 상기 상원체, 동족체, 유도체 및 기능적 단편을 제공하며, 이는 또 다른 공유적으로 또는 비공유적으로 연결된 단백질 또는 폴리펩티드 또는 기타 분자(예를 들어, 검출 시약 또는 약물/화학 모이어티)를 포함한다. 이러한 다른 단백질/폴리펩티드/다른 분자는, 예를 들어 화학적 커플링, 유전자 융합, 또는 기타 비-공유 연결(예를 들어, 비오틴-스트렙타비딘 결합)을 통해 연결될 수 있다. 이러한 유래된 단백질은 복합체를 형성하기 위해 본 발명의 가이드 RNA/crRNA(본원에서 아래에 기재됨)에 결합하는 능력, RNase 활성, 및 표적 RNA에 적어도 부분적으로 상보적인 crRNA의 유도 하에 특정 부위에서 표적 RNA에 결합하고 이를 절단하는 능력과 같은 원래 단백질의 기능에 영향을 미치지 않는다.

이러한 유도체화는, 예를 들어 대상 Cas13e 및 Cas13f 이펙터 단백질이 세포 핵에 들어가는 능력을 향상시키기 위해 핵 국소화 신호(NLS, 예를 들어 SV40 대형 T 항원 NLS)를 첨가하는 데 사용될 수 있다. 이러한 유도체화는 또한 대상 Cas13e 및 Cas13f 이펙터 단백질을 특정 세포 또는 아세포 위치로 지시하기 위해 표적화 분자 또는 모이어티를 추가하는 데 사용될 수 있다. 이러한 유도체화는 또한 대상 Cas13e 및 Cas13f 이펙터 단백질의 검출, 모니터링 또는 정제를 용이하게 하기 위해 검출가능한 표지를 추가하는 데 사용될 수 있다. 이러한 유도체화는 RNA 염기 편집을 용이하게 하기 위해 탈아미노화 효소 모이어티(예를 들어, 아데닌 또는 시토신 탈아미노화 활성을 갖는 것)를 추가하는 데 추가로 사용될 수 있다.

유도체화는 대상 Cas13e 및 Cas13f 이펙터 단백질의 N- 또는 C-말단 또는 내부적으로(예를 들어, 내부 융합 또는 내부 아미노산의 측쇄를 통한 연결) 임의의 추가 모이어티의 추가를 통해 이루어질 수 있다.

관련된 제2 양태에서, 본 발명은 서열번호 1 내지 7 중 어느 하나에 기초한 대상 Cas13e 및 Cas13f 이펙터 단백질의 접합체, 또는 이의 상기 동원체, 동족체, 유도체 및 기능적 단편을 제공하며, 이는 다른 단백질 또는 폴리펩티드, 검출가능한 표지, 또는 이들의 조합과 같은 이러한 모이어티와 접합된다. 이러한 접합된 모이어티에는 국소화 신호, 리포터 유전자(예를 들어, GST, HRP, CAT, GFP, HcRed, DsRed, CFP, YFP, BFP), 표지(예를 들어, FITC 또는 DAPI와 같은 형광 염료), NLS, 표적화 모이어티, DNA 결합 도메인(예를 들어, MBP, Lex A DBD, Gal4 DBD), 에피토프 태그(예를 들어, His, myc, V5, FLAG, HA, VSV-G, Trx 등), 전사 활성화 도메인(예를 들어, VP64 또는 VPR), 전사 억제 도메인(예를 들어, KRAB 모이어티 또는 SID 모이어티), 뉴클레아제(예를 들어, FokI), 탈아미노화 도메인(예를 들어, ADAR1, ADAR2, APOBEC, AID 또는 TAD), 메틸라제, 데메틸라제, 전사 방출 인자, HDAC, ssRNA 절단 활성, dsRNA 절단 활성, ssDNA 절단 활성, dsDNA 절단 활성, DNA 또는 RNA 리가제, 이들의 임의의 조합 등이 제한없이 포함될 수 있다.

예를 들어, 접합체는 N-말단, C-말단, 내부 또는 이들의 조합에 또는 그 근처에 위치할 수 있는 하나 이상의 NLS를 포함할 수 있다. 연결은 아미노산(예를 들어, D 또는 E, 또는 S 또는 T), 아미노산 유도체(예를 들어, Ahx, β-Ala, GABA 또는 Ava), 또는 PEG 연결을 통해 이루어질 수 있다.

특정 구현예에서, 접합은 복합체를 형성하기 위해 본 발명의 가이드 RNA/crRNA(본원에서 아래에 기재됨)에 결합하는 능력, RNase 활성, 및 표적 RNA에 적어도 부분적으로 상보적인 crRNA의 유도 하에 특정 부위에서 표적 RNA에 결합하고 이를 절단하는 능력과 같은 원래 단백질의 기능에 영향을 미치지 않는다.

관련된 제3 양태에서, 본 발명은 서열번호 1 내지 7 중 어느 하나에 기초한 대상 Cas13e 및 Cas13f 이펙터 단백질의 융합체, 또는 이의 상기 동원체, 동족체, 유도체 및 기능적 단편을 제공하며, 이러한 융합체는 국소화 신호, 리포터 유전자(예를 들어, GST, HRP, CAT, GFP, HcRed, DsRed, CFP, YFP, BFP), NLS, 단백질 표적화 모이어티, DNA 결합 도메인(예를 들어, MBP, Lex A DBD, Gal4 DBD), 에피토프 태그(예를 들어, His, myc, V5, FLAG, HA, VSV-G, Trx 등), 전사 활성화 도메인(예를 들어, VP64 또는 VPR), 전사 억제 도메인(예를 들어, KRAB 모이어티 또는 SID 모이어티), 뉴클레아제(예를 들어, FokI), 탈아미노화 도메인(예를 들어, ADAR1, ADAR2, APOBEC, AID 또는 TAD), 메틸라제, 데메틸라제, 전사 방출 인자, HDAC, ssRNA 절단 활성, dsRNA 절단 활성, ssDNA 절단 활성, dsDNA 절단 활성, DNA 또는 RNA 리가아제, 이들의 임의의 조합 등과 같은 모이어티를 갖는다.

예를 들어, 융합체는 N-말단, C-말단, 내부 또는 이들의 조합에 또는 그 근처에 위치할 수 있는 하나 이상의 NLS를 포함할 수 있다. 특정 구현예에서, 접합은 복합체를 형성하기 위해 본 발명의 가이드 RNA/crRNA(본원에서 아래에 기재됨)에 결합하는 능력, RNase 활성, 및 표적 RNA에 적어도 부분적으로 상보적인 crRNA의 유도 하에 특정 부위에서 표적 RNA에 결합하고 이를 절단하는 능력과 같은 원래 단백질의 기능에 영향을 미치지 않는다.

제4 양태에서, 본 발명은 (i) 서열번호 8 내지 14 중 어느 하나; (ii) 서열번호 8 내지 14 중 어느 하나와 비교하여 1, 2, 3, 4, 또는 5개 뉴클레오티드의 결실, 부가 및/또는 치환을 갖는 폴리뉴클레오티드; (iii) 서열번호 8 내지 14 중 어느 하나와 적어도 80%, 85%, 90%, 95%의 서열 동일성을 공유하는 폴리뉴클레오티드; (iv) 엄격한 조건 하에 (i) 내지 (iii)의 폴리뉴클레오티드 중 어느 하나 또는 그의 상보체와 혼성화하는 폴리뉴클레오티드; (v) 임의의 (i) 내지 (iii)의 폴리뉴클레오티드의 상보 서열을 포함하는 분리된 뉴클레오티드를 제공한다.

(ii) 내지 (iv)의 임의의 폴리뉴클레오티드는 대상 Cas13e 또는 Cas13f 시스템에서 crRNA의 직접 반복(DR) 서열을 코딩하는 원래의 서열번호 8 내지 14의 기능을 유지했다.

본원에 사용된 "직접 반복 서열"은 CRISPR 유전자좌의 DNA 코딩 서열, 또는 crRNA에서 이에 의해 코딩되는 RNA를 지칭할 수 있다. 따라서 서열번호 8 내지 14 중 어느 하나가 crRNA와 같은 RNA 분자의 맥락에서 언급될 때, 각각의 T는 U를 나타내는 것으로 이해된다.

따라서, 특정 구현예에서, 분리된 폴리뉴클레오티드는 대상 Cas13e 및 Cas13f 시스템의 crRNA에 대한 DR 서열을 코딩하는 DNA이다.

특정의 다른 구현예에서, 분리된 폴리뉴클레오티드는 대상 Cas13e 및 Cas13f 시스템의 crRNA에 대한 DR 서열인 RNA이다.

제5 양태에서, 본 발명은 (i) 대상 Cas13e 또는 Cas13f 이펙터 단백질, 또는 이의 동원체, 동족체, 유도체, 접합체, 기능적 단편, 이의 접합체, 또는 이의 융합체 중 어느 하나 일 수 있는 단백질 조성물; 및 (ii) 본 발명의 제4 양태에 기재된 분리된 폴리뉴클레오티드(예를 들어, DR 서열), 및 표적 RNA의 적어도 일부에 상보적인 스페이서 서열을 포함하는 폴리뉴클레오티드 조성물을 포함하는 복합체를 제공한다. 특정 구현예에서, DR 서열은 스페이서 서열의 3' 말단에 있다.

일부 구현예에서, 폴리뉴클레오티드 조성물은 tracrRNA를 포함하지 않는 대상 Cas13e 또는 Cas13f 시스템의 가이드 RNA/crRNA이다.

특정 구현예에서, RNase 활성을 갖는 Cas13e 및 Cas13f 이펙터 단백질, 이의 동족체, 동원체, 유도체, 융합체, 접합체, 또는 기능적 단편과 함께 사용하기 위해, 스페이서 서열은 적어도 약 10개의 뉴클레오티드, 또는 10 내지 60, 15 내지 50, 20 내지 50, 25 내지 40, 25 내지 50, 또는 19 내지 50개의 뉴클레오티드이다. 특정 구현예에서, RNase 활성은 없지만 가이드 RNA 및 가이드 RNA에 상보적인 표적 RNA에 결합하는 능력을 갖는 Cas13e 및 Cas13f 이펙터 단백질, 이의 동족체, 동원체, 유도체, 융합체, 접합체, 또는 기능적 단편과 함께 사용하기 위해, 스페이서 서열 적어도 약 10개의 뉴클레오티드, 또는 약 10 내지 200, 15 내지 180, 20 내지 150, 25 내지 125, 30 내지 110, 35 내지 100, 40 내지 80, 45 내지 60, 50 내지 55, 또는 약 50개의 뉴클레오티드이다.

특정 구현예에서, DR 서열은 15 내지 36, 20 내지 36, 22 내지 36, 또는 약 36개의 뉴클레오티드이다. 특정 구현예에서, 가이드 RNA의 DR 서열은 서열번호 8 내지 14 중 어느 하나의 RNA 버전과 실질적으로 동일한 2차 구조(줄기, 돌출부 및 루프를 포함함)를 갖는다.

특정 구현예에서, 가이드 RNA는 45 내지 96, 55 내지 86, 60 내지 86, 62 내지 86, 또는 63 내지 86개 뉴클레오티드와 같이 상기 스페이서 서열 길이 중 임의의 것보다 약 36개의 뉴클레오티드가 더 길다.

제6 양태에서, 본 발명은 (i) 서열번호 1 내지 7의 Cas13e 또는 Cas13f 이펙터 단백질, 또는 이의 동원체, 동족체, 유도체, 기능적 단편, 융합체 중 어느 하나를 코딩하는 폴리뉴클레오티드; (ii) 서열번호 8 내지 14 중 어느 하나의 폴리뉴클레오티드; 또는 (iii) (i) 및 (ii)를 포함하는 폴리뉴클레오티드를 포함하는 분리된 폴리뉴클레오티드를 제공한다.

일부 구현예에서, 폴리뉴클레오티드는 예컨대 서열번호 15 내지 21을 제외하고, 천연 발생/천연 존재가 아니다.

일부 구현예에서, 폴리뉴클레오티드는 원핵생물에서의 발현을 위해 코돈-최적화된다. 일부 구현예에서, 폴리뉴클레오티드는 인간 또는 인간 세포와 같은 진핵생물에서의 발현을 위해 코돈-최적화된다.

제7 양태에서, 본 발명은 제6 양태의 임의의 폴리뉴클레오티드를 포함하거나 포괄하는 벡터를 제공한다. 벡터는 클로닝 벡터 또는 발현 벡터일 수 있다. 벡터는 몇 가지만 들자면 플라스미드, 파지미드 또는 코스미드일 수 있다. 특정 구현예에서, 벡터는 인간 세포와 같은 포유동물 세포에서 폴리뉴클레오티드, 서열번호 1 내지 7의 Cas13e 또는 Cas13f 이펙터 단백질 중 어느 하나, 또는 이의 동원체, 동족체, 유도체, 기능적 단편, 융합체; 또는 제4 양태의 폴리뉴클레오티드 중 임의의 것; 또는 제5 양태의 복합체 중 임의의 것을 발현하기 위해 사용될 수 있다.

제8 양태에서, 본 발명은 본 발명의 제4 또는 제6 양태의 폴리뉴클레오티드 중 임의의 것, 및/또는 제7 양태의 벡터를 포함하는 숙주 세포를 제공한다. 숙주 세포는 대장균(이. 콜라이(E. Coli))과 같은 원핵생물, 또는 효모, 곤충, 식물, 동물(예를 들어, 인간 및 마우스를 포함하는 포유동물)과 같은 진핵생물로부터의 세포일 수 있다. 숙주 세포는 분리된 1차 세포(예를 들어, 생체 외 요법을 위한 골수 세포) 또는 종양 세포주인 293T 세포 또는 줄기 세포인 iPC 등과 같은 확립된 세포주일 수 있다.

관련된 양태에서, 본 발명은 군집된 규칙적인 간격의 짧은 회문 반복부(CRISPR)-Cas 복합체를 포함하는 진핵 세포를 제공하며, 상기 CRISPR-Cas 복합체는 (1) 표적 RNA에 혼성화할 수 있는 스페이서 서열 및 스페이서 서열에 대해 3'인 직접 반복(DR) 서열을 포함하는 RNA 가이드 서열; 및 (2) 서열번호 1 내지 7 중 어느 하나의 아미노산 서열을 갖는 CRISPR-연관 단백질(Cas), 또는 상기 Cas의 유도체 또는 기능적 단편을 포함하고; 여기서 상기 Cas, 상기 Cas의 유도체, 및 기능적 단편은 (i) RNA 가이드 서열에 결합하고 (ii) 표적 RNA를 표적화할 수 있다.

제9 양태에서, 본 발명은 (i) 서열번호 1 내지 7의 Cas13e 또는 Cas13f 이펙터 단백질, 또는 이의 동원체, 동족체, 유도체, 접합체, 기능적 단편, 융합체 중 어느 하나로부터 선택되는 제1(단백질) 조성물; 및 (ii) 가이드 RNA/crRNA를 포괄하는 RNA, 특히 스페이서 서열, 또는 이에 대한 코딩 서열을 포함하는 제2(뉴클레오티드) 조성물을 포함하는 조성물을 제공한다. 가이드 RNA는 DR 서열, 및 표적 RNA와 상보적일 수 있거나 혼성화할 수 있는 스페이서 서열을 포함할 수 있다. 가이드 RNA는 (i)의 제1(단백질) 조성물과 복합체를 형성할 수 있다. 일부 구현예에서, DR 서열은 본 발명의 제4 양태의 폴리뉴클레오티드일 수 있다. 일부 구현예에서, DR 서열은 가이드 RNA의 3'-말단에 있을 수 있다. 일부 구현예에서, 조성물(예를 들어, (i) 및/또는 (ii))은 비-천연 발생이거나 천연 발생 조성물로부터 변형된다. 일부 구현예에서, 조성물의 적어도 한 성분은 비-천연 발생이거나 조성물의 천연 발생 성분으로부터 변형된다. 일부 구현예에서, 표적 서열은 비-천연적으로 존재하는 RNA와 같은 원핵생물 또는 진핵생물로부터의 RNA이다. 표적 RNA는 세포질 내부 또는 세포 소기관 내부와 같은 세포 내부에 존재할 수 있다. 일부 구현예에서, 단백질 조성물은 이의 N- 또는 C-말단에, 또는 내부에 위치할 수 있는 NLS를 가질 수 있다.

제10 양태에서, 본 발명은 본 발명의 제7 양태의 하나 이상의 벡터를 포함하는 조성물을 제공하며, 상기 하나 이상의 벡터는 (i) 선택적으로 제1 조절 요소에 작동 가능하게 연결되는, 서열번호 1 내지 7의 Cas13e 또는 Cas13f 이펙터 단백질, 또는 이의 동원체, 동족체, 유도체, 기능적 단편, 융합체 중 어느 하나를 코딩하는 제1 폴리뉴클레오티드; 및 (ii) 선택적으로 제2 조절 요소에 작동 가능하게 연결되는, 본 발명의 가이드 RNA를 코딩하는 제2 폴리뉴클레오티드를 포함한다. 제1 및 제2 폴리뉴클레오티드는 상이한 벡터 상에 있거나 동일한 벡터 상에 있을 수 있다. 가이드 RNA는 제1 폴리뉴클레오티드에 의해 코딩된 단백질 생성물과 복합체를 형성할 수 있고, DR 서열(예를 들어, 제4 양태 중 어느 하나) 및 표적 RNA에 결합할 수 있거나/상보적일 수 있는 스페이서 서열을 포함한다. 일부 구현예에서, 제1 조절 요소는 유도성 프로모터와 같은 프로모터이다. 일부 구현예에서, 제2 조절 요소는 유도성 프로모터와 같은 프로모터이다. 일부 구현예에서, 조성물(예를 들어, (i) 및/또는 (ii))은 비-천연 발생이거나 천연 발생 조성물로부터 변형된다. 일부 구현예에서, 조성물의 적어도 하나의 성분은 비-천연 발생이거나 조성물의 천연 발생 성분으로부터 변형된다. 일부 구현예에서, 표적 서열은 비-천연적으로 존재하는 RNA와 같은 원핵생물 또는 진핵생물로부터의 RNA이다. 표적 RNA는 세포질 내부 또는 세포 소기관 내부와 같은 세포 내부에 존재할 수 있다. 일부 구현예에서, 단백질 조성물은 이의 N- 또는 C-말단에, 또는 내부에 위치할 수 있는 NLS를 가질 수 있다.

일부 구현예에서, 벡터는 플라스미드이다. 일부 구현예에서, 벡터는 레트로바이러스, 복제 불능 레트로바이러스, 아데노바이러스, 복제 불능 아데노바이러스, 또는 AAV에 기초한 바이러스 벡터이다. 일부 구현예에서, 벡터는 숙주 세포에서 자가-복제할 수 있다(예를 들어, 박테리아 복제 기점 서열을 가짐). 일부 구현예에서, 벡터는 숙주 게놈 내로 통합될 수 있고 그와 함께 복제될 수 있다. 일부 구현예에서, 벡터는 클로닝 벡터이다. 일부 구현예에서, 벡터는 발현 벡터이다.

본 발명은 추가로 본 발명의 제1 내지 3 양태의 서열번호 1 내지 7의 Cas13e 또는 Cas13f 이펙터 단백질, 또는 이의 동원체, 동족체, 유도체, 접합체, 기능적 단편, 융합체; 본 발명의 제4 및/또는 제6 양태의 폴리뉴클레오티드; 본 발명의 제5 양태의 복합체; 본 발명의 제7 양태의 벡터; 본 발명의 제8 양태의 세포, 및 본 발명의 제9 및/또는 제10 양태의 조성물 중 임의의 것을 전달하기 위한 전달 조성물을 제공한다. 전달은 리포솜(들), 나노입자(들), 엑소좀(들), 미세소포(들), 유전자-총 또는 하나 이상의 바이러스 벡터(들)와 같은 비히클을 사용하여 형질주입, 리포펙션, 전기천공, 유전자 총, 미세주입, 초음파 처리, 인산칼슘 형질주입, 양이온 형질주입, 바이러스 벡터 전달 등과 같은 당업계에 공지된 임의의 것을 통한 것일 수 있다.

본 발명은 추가로 하기 중 어느 하나 이상을 포함하는 키트를 제공한다: 본 발명의 제1 내지 3 양태의 서열번호 1 내지 7의 Cas13e 또는 Cas13f 이펙터 단백질, 또는 이의 동원체, 동족체, 유도체, 접합체, 기능적 단편, 융합체; 본 발명의 제4 및/또는 제6 양태의 폴리뉴클레오티드; 본 발명의 제5 양태의 복합체; 본 발명의 제7 양태의 벡터; 본 발명의 제8 양태의 세포, 및 본 발명의 제9 및/또는 제10 양태의 조성물 중 임의의 것. 일부 구현예에서, 키트는 키트 성분을 사용하는 방법 및/또는 키트 성분과 함께 사용하기 위해 제 3자로부터 추가 성분을 얻는 방법에 대한 지침을 추가로 포함할 수 있다. 키트의 모든 성분은 적절한 용기에 보관될 수 있다.

본원의 위에서 일반적으로 설명된 본 발명과 함께, 본 발명의 다양한 양태에 대한 보다 상세한 설명은 아래의 개별 섹션에서 제공된다. 그러나, 단순함을 위해 및 중복성을 줄이기 위해, 본 발명의 특정 실시예는 한 섹션에서만 설명되거나 청구범위 또는 실시예에서만 설명됨을 이해해야 한다. 따라서, 일 양태, 섹션 또는 청구범위 또는 실시예에서만 설명된 것을 포함하여 본 발명의 임의의 일 구현예는 구체적으로 부인되거나 조합이 부적절한 경우를 제외하고, 본 발명의 임의의 다른 구현예와 조합될 수 있음을 이해해야 한다.

2. 신규 부류 2, 유형 VI CRISPR RNA-유도 RNase 및 이의 유도체

일 양태에서, 본원에 기재된 발명은 고등 진핵생물 및 원핵생물 뉴클레오티드-결합(HEPN) 도메인의 특징인 2개의 엄격하게 보존된 RX4-6H(RXXXXH) 모티프를 갖는 CRISPR 부류 2, 유형 VI 이펙터의 2개의 신규 계열을 제공한다. 2개의 HEPN 도메인을 함유하는 유사한 CRISPR 부류 2, 유형 VI 이펙터는 이전에 특성화되었으며, 예를 들어 CRISPR Cas13a(C2c2), Cas13b, Cas13c 및 Cas13d를 포함한다.

HEPN 도메인은 RNase 도메인인 것으로 나타났으며 표적 RNA 분자에 결합하고 이를 절단하는 능력을 부여한다. 표적 RNA는 mRNA, tRNA, 리보솜 RNA, 비-코딩 RNA, lncRNA(긴 비-코딩(long non-coding) RNA), 및 핵 RNA를 포함하나 이에 제한되지 않는 임의의 적합한 형태의 RNA일 수 있다. 예를 들어, 일부 구현예에서, Cas 단백질은 열린 해독틀(ORF, open reading frame)의 코딩 가닥 상에 위치한 RNA 표적을 인식하고 절단한다.

일 구현예에서, 본 개시내용은 본원에서 일반적으로 유형 VI-E 및 VI-F CRISPR-Cas 이펙터 단백질, Cas13e 또는 Cas13f로 지칭되는 CRISPR 부류 2, 유형 VI 이펙터의 2개의 계열을 제공한다. 유형 VI-E 및 VI-F CRISPR-Cas 이펙터 단백질을 이러한 다른 시스템의 이펙터와 직접 비교하면 유형 VI-E 및 VI-F CRISPR-Cas 이펙터 단백질이 심지어 가장 작은 것으로 이전에 확인된 유형 VI-D/Cas13d 이펙터보다(도 4 참조) 훨씬 더 작고(예를 들어, 약 20% 더 적은 아미노산), 계통 발생학적으로 가장 가까운 친척인 Cas13b를 포함하여 이전에 기재된 다른 이펙터 단백질에 대한 일대일 서열 정렬에서 30% 미만의 서열 유사성을 갖는다(도 3 참조).

CRISPR 부류 2, type VI 이펙터의 새로 확인된 계열은 다양한 응용 분야에서 사용될 수 있으며, 다른 이펙터(예를 들어, CRISPR Cas13a, Cas13b, Cas13c 및 Cas13d)보다 훨씬 작기 때문에 치료 응용 분야에 특히 적합하며, 이는 이펙터 코딩 핵산 및 이의 가이드 RNA 코딩 서열을 AAV 벡터와 같은 크기 제한이 있는 전달 시스템으로 패키징할 수 있도록 허용한다. 또한, 특이적 RNase 활성의 활성화 시에, 선택된 범위의 스페이서 서열 길이(예를 들어, 약 30개의 뉴클레오티드, 도 11 참조)에서 검출가능한 부수적/비-특이적 RNase 활성의 결여는 이러한 Cas 이펙터가 바람직하게는 파괴되지 않는 표적 세포에서 잠재적으로 위험한 일반화된 표적-외 RNA 소화에 (이로부터 면역되지 않는 경우) 덜 민감하게 만든다. 다른 한편으로, 약 30개의 뉴클레오티드와 같은 다른 선택된 스페이서 길이에서 상당한 부수적 RNase 활성이 이러한 Cas 이펙터에 존재하므로, 대상 Cas 이펙터는 이러한 부수적 RNase 활성에 따라 유틸리티에서 또한 사용될 수 있다.

박테리아에서, 유형 VI-E 및 VI-F CRISPR-Cas 시스템은 CRISPR 어레이에 매우 근접한 단일 이펙터(각각 약 775개 잔기 및 790개 잔기)를 포함한다(도 1 참조). CRISPR 어레이는 길이가 통상적으로 36개 뉴클레오티드인 직접 반복(DR) 서열을 포함하며, 이는 서열 및 2차 구조 모두에서 일반적으로 잘 보존되어 있다(도 2 참조).

본원에 제공된 데이터는 DR 서열이 성숙한 crRNA의 3'-말단에서 끝나도록 crRNA가 5'-말단에서 가공됨을 입증했다.

Cas13e 및 Cas13f CRISPR 어레이에 포함된 스페이서는 가장 일반적으로 길이가 30개의 뉴클레오티드이며, 대부분의 길이 변형은 29 내지 30개의 뉴클레오티드 범위에 포함된다. 그러나 넓은 범위의 스페이서 길이가 허용될 수 있다. 예를 들어, 기능적 Cas13e 또는 Cas13f 이펙터 단백질, 또는 이의 동족체, 동원체, 유도체, 융합체, 접합체 또는 기능적 단편에서 사용하기 위해, 스페이서는 10 내지 60개의 뉴클레오티드, 20 내지 50개의 뉴클레오티드, 25 내지 45개의 뉴클레오티드, 25 내지 35개의 뉴클레오티드, 또는 약 27, 28, 29, 30, 31, 32, 또는 33개의 뉴클레오티드일 수 있다. 그러나, 상기 임의의 것의 dCas 버전에서 사용하기 위해, 스페이서는 10 내지 200개의 뉴클레오티드, 20 내지 150개의 뉴클레오티드, 25 내지 100개의 뉴클레오티드, 25 내지 85개의 뉴클레오티드, 35 내지 75개의 뉴클레오티드, 45 내지 60개의 뉴클레오티드, 또는 약 46, 47, 48, 49, 50, 51, 52, 53, 54 또는 55개의 뉴클레오티드일 수 있다.

예시적인 유형 VI-E 및 VI-F CRISPR-Cas 이펙터 단백질은 아래 표에 제공된다.

상기 서열에서, 각 이펙터에 있는 2개의 RX4-6H(RXXXXH) 모티프는 이중 밑줄이 그어져 있다. Cas13e.1에서, C-말단 모티프는 모티프에 측접한 RR 및 HH 서열로 인해 두 가지 가능성을 가질 수 있다. 이러한 도메인 중 하나 또는 둘 모두에서의 돌연변이는, 가이드 RNA 및 가이드 RNA에 상보적인 표적 RNA에 결합하는 능력을 실질적으로 유지하면서, Cas13e 및 Cas13f 이펙터 단백질, 이의 동족체, 동원체, 융합체, 접합체, 유도체 또는 기능적 단편의 RNase 데드 버전(또는 "dCas)을 생성할 수 있다.

Cas 이펙터에 대한 상응하는 DR 코딩 서열은 다음과 같다:

줄기, 돌출부 및 루프 구조의 위치 및 크기를 포함하는 DR 서열의 이차 구조가 이러한 이차 구조를 형성하는 특정 뉴클레오티드 서열보다 더 중요할 가능성이 높기 때문에, 이러한 유도체 또는 대안적인 DR 서열이 서열번호 8 내지 14 중 어느 하나에 의해 코딩되는 RNA의 이차 구조와 실질적으로 유사한 이차 구조를 갖는 한, 대안적 또는 유도체 DR 서열도 또한 본 발명의 시스템 및 방법에서 사용될 수 있다. 예를 들어, 유도체 DR 서열은 줄기 중 하나 또는 둘 모두에 ± 1 또는 2개의 염기쌍(들)을 가질 수 있고(도 2 참조), 돌출부의 단일 가닥 중 하나 또는 둘 모두에 ± 1, 2 또는 3개의 염기를 가질 수 있고/있거나, 루프 영역에 ± 1, 2, 3 또는 4개의 염기를 가질 수 있다.

일부 구현예에서, 유형 VI-E 및 VI-F CRISPR-Cas 이펙터 단백질은 상기 서열번호 1 내지 7 중 어느 하나의 아미노산 서열에 대해 적어도 약 80%(예를 들어, 81%, 82%, 83%, 84%, 85%, 86%, 87% 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%) 서열 동일성이 있는 아미노산 서열을 갖는 "유도체"를 포함한다. 서열번호 1 내지 7 중 어느 하나와 상당한 단백질 서열 동일성을 공유하는 이러한 유도체 Cas 이펙터는 서열번호 8 내지 14의 DR 서열 중 적어도 하나를 포함하는 crRNA에 결합하고 이와 복합체를 형성하는 능력과 같은 서열번호 1 내지 7(아래 참조)의 Cas의 기능 중 적어도 하나를 유지한다. 예를 들어, Cas13e.1 유도체는 각각 서열번호 1, 2, 3, 4, 5, 6 또는 7에 대해 85% 아미노산 서열 동일성을 공유할 수 있으며, 각각 서열번호 8, 9, 10, 11, 12, 13, 또는 14의 DR 서열을 갖는 crRNA에 결합하여 이와 복합체를 형성하는 능력을 보유한다.

일부 구현예에서, 유도체는 보존된 아미노산 잔기 치환을 포함한다. 일부 구현예에서, 유도체는 보존된 아미노산 잔기 치환만을 포함한다(즉, 유도체 내의 모든 아미노산 치환은 보존된 치환이고, 보존되지 않은 치환은 없음).

일부 구현예에서, 유도체는 서열번호 1 내지 7의 야생형 서열 중 어느 하나에 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 이하의 아미노산 삽입 또는 결실을 포함한다. 야생형 서열의 기능 중 적어도 하나가 보존되는 한, 삽입 및/또는 결실은 함께 군집되거나 서열의 전체 길이에 걸쳐 분리될 수 있다. 이러한 기능은 가이드/crRNA에 결합하는 능력, RNase 활성, 가이드/crRNA에 상보적인 표적 RNA에 결합하고/하거나 이를 절단하는 능력을 포함할 수 있다. 일부 구현예에서, 삽입 및/또는 결실은 RXXXXH 모티프에, 또는 RXXXXH 모티프로부터 5, 10, 15, 또는 20개 잔기 내에 존재하지 않는다.

일부 구현예에서, 유도체는 가이드 RNA/crRNA에 결합하는 능력을 보유한다.

일부 구현예에서, 유도체는 가이드/crRNA-활성화된 RNase 활성을 보유한다.

일부 구현예에서, 유도체는 서열에서 표적 RNA의 적어도 일부에 상보적인 결합된 가이드/crRNA의 존재 하에 표적 RNA에 결합하고/하거나 표적 RNA를 절단하는 능력을 보유한다.

다른 구현예에서, 유도체는, 예를 들어 RNA-유도 RNase의 하나 이상의 촉매 잔기에서의 돌연변이로 인해 가이드/crRNA-활성화 RNase 활성을 완전히 또는 부분적으로 상실한다. 이러한 유도체는 때때로 dCas13e.1 등과 같이 dCas라고 지칭된다.

따라서, 특정 구현예에서, 유도체는 감소된 뉴클레아제/RNase 활성을 갖도록, 예를 들어, 상응하는 야생형 단백질과 비교하여 적어도 50%, 적어도 60%, 적어도 70%, 적어도 80%, 적어도 90%, 적어도 95%, 적어도 97% 또는 100%의 뉴클레아제 불활성으로 변형될 수 있다. 뉴클레아제 활성은 당업계에 공지된 여러 방법, 예를 들어 단백질의 뉴클레아제(촉매) 도메인에 돌연변이를 도입함으로써 감소될 수 있다. 일부 구현예에서, 뉴클레아제 활성에 대한 촉매 잔기가 확인되고, 이들 아미노산 잔기는 뉴클레아제 활성을 감소시키기 위해 상이한 아미노산 잔기(예를 들어, 글리신 또는 알라닌)로 치환될 수 있다. 일부 구현예에서, 아미노산 치환은 보존적 아미노산 치환이다. 일부 구현예에서, 아미노산 치환은 비-보존적 아미노산 치환이다.

일부 구현예에서, 변형은 적어도 하나의 HEPN 도메인에서 하나 이상의 돌연변이(예를 들어, 아미노산 결실, 삽입 또는 치환)를 포함한다. 일부 구현예에서, 적어도 하나의 HEPN 도메인에 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 그 이상의 아미노산 치환이 존재한다. 예를 들어, 일부 구현예에서, 하나 이상의 돌연변이는 서열번호 1의 R84, H89, R739, H744, R740, H745, 또는 서열번호 2의 R97, H102, R770, H775, 또는 서열번호 3의 R77, H82, R764, H769, 또는 서열번호 4의 R79, H84, R766A, H771, 또는 서열번호 5의 R79, H84, R766, H771, 또는 서열번호 6의 R89, H94, R773, H778, 또는 서열번호 7의 R89, H94, R777, H782에 상응하는 아미노산 잔기에서의 치환(예를 들어, 알라닌 치환)을 포함한다.

특정 구현예에서, 하나 이상의 돌연변이 또는 둘 이상의 돌연변이는 HEPN 도메인을 포함하는 이펙터 단백질의 촉매 활성 도메인, 또는 HEPN 도메인에 상동인 촉매 활성 도메인에 있을 수 있다. 특정 구현예에서, 이펙터 단백질은 하기 돌연변이 중 하나 이상을 포함한다: R84A, H89A, R739A, H744A, R740A, H745A(여기서, 아미노산 위치는 Cas13e.1의 아미노산 위치에 상응함). 당업자는 상이한 Cas13e 및 Cas13f 단백질의 상응하는 아미노산 위치가 동일한 효과로 돌연변이될 수 있음을 이해할 것이다. 특정 구현예에서, 하나 이상의 돌연변이는 단백질의 촉매 활성을 완전히 또는 부분적으로(예를 들어, 절단 속도 변경, 특이성 변경 등) 폐지한다.

다른 예시적인 (촉매적) 잔기 돌연변이는 다음을 포함한다: Cas13e.2의 R97A, H102A, R770A, H775A, 또는 Cas13f.1의 R77A, H82A, R764A, H769A, 또는 Cas13f2의 R79A, H84A, R766A, H771A, 또는 Cas13f.3의 R79A, H84A, R766A, H771A, 또는 Cas13f.4의 R89A, H94A, R773A, H778A, 또는 Cas13f.5의 R89A, H94A, R777A, H782A. 특정 구현예에서, 본원의 임의의 R 및/또는 H 잔기는 A가 아니라 G, V 또는 I로 대체될 수 있다.

이들 돌연변이 중 적어도 하나의 존재는 돌연변이가 결여된 상응하는 야생형 단백질과 비교하여 감소되거나 줄어든 RNase 활성을 갖는 유도체를 생성한다.

특정 구현예에서, 본원에 기재된 바와 같은 이펙터 단백질은 데드 Cas13e 또는 Cas13f 이펙터 단백질(즉, dCas13e 및 dCas13f)과 같은 "데드(dead)" 이펙터 단백질이다. 특정 구현예에서, 이펙터 단백질은 HEPN 도메인 1(N-말단)에 하나 이상의 돌연변이를 갖는다. 특정 구현예에서, 이펙터 단백질은 HEPN 도메인 2(C-말단)에 하나 이상의 돌연변이를 갖는다. 특정 구현예에서, 이펙터 단백질은 HEPN 도메인 1 및 HEPN 도메인 2에서 하나 이상의 돌연변이를 갖는다.

불활성화된 Cas 또는 이의 유도체 또는 기능적 단편은 (예를 들어, 융합 단백질, 링커 펩티드, "GS" 링커 등을 통해) 하나 이상의 이종/기능적 도메인과 융합되거나 회합될 수 있다. 이들 기능적 도메인은 다양한 활성, 예를 들어 메틸라제 활성, 데메틸라제 활성, 전사 활성화 활성, 전사 억제 활성, 전사 방출 인자 활성, 히스톤 변형 활성, RNA 절단 활성, DNA 절단 활성, 핵산 결합 활성, 염기-편집 활성, 및 스위치 활성(예를 들어, 광 유도성)을 가질 수 있다. 일부 구현예에서, 기능적 도메인은 크루펠 연관 박스(KRAB), SID(예를 들어, SID4X), VP64, VPR, VP16, Fok1, P65, HSF1, MyoD1, RNA에 작용하는 아데노신 데아미나제, 예컨대 ADAR1, ADAR2, APOBEC, 시티딘 데아미나제(AID), TAD, 미니-SOG, APEX 및 비오틴-APEX이다.

일부 구현예에서, 기능적 도메인은 염기 편집 도메인, 예를 들어 ADAR1(E1008Q가 있거나 없는 이의 야생형 또는 ADAR1DD 버전을 포함함), ADAR2(E488Q 돌연변이(들)가 있거나 없는 이의 야생형 또는 ADAR2DD 버전을 포함함), APOBEC 또는 AID이다.

일부 구현예에서, 기능적 도메인은 하나 이상의 핵 국소화 신호(NLS) 도메인을 포함할 수 있다. 하나 이상의 이종 기능적 도메인은 적어도 2개 이상의 NLS 도메인을 포함할 수 있다. 하나 이상의 NLS 도메인(들)은 이펙터 단백질(예를 들어, Cas13e/Cas13f 이펙터 단백질)의 말단에 또는 그 근처에 또는 근접하여 위치할 수 있고, 2개 이상의 NLS인 경우, 둘 각각은 이펙터 단백질(예를 들어, Cas13e/Cas13f 이펙터 단백질)의 말단에 또는 그 근처에 또는 근접하여 위치할 수 있다.

일부 구현예에서, 적어도 하나 이상의 이종 기능성 도메인은 이펙터 단백질의 아미노 말단에 또는 그 근처에 있을 수 있고/있거나 적어도 하나 이상의 이종 기능성 도메인은 이펙터 단백질의 카르복시-말단에 또는 근처에 있다. 하나 이상의 이종 기능적 도메인은 이펙터 단백질에 융합될 수 있다. 하나 이상의 이종 기능적 도메인은 이펙터 단백질에 테더될 수 있다. 하나 이상의 이종 기능적 도메인은 링커 모이어티에 의해 이펙터 단백질에 연결될 수 있다.

일부 구현예에서, 다수(예를 들어, 2, 3, 4, 5, 6, 7, 8개 또는 그 이상)의 동일하거나 상이한 기능적 도메인이 존재한다.

일부 구현예에서, 기능적 도메인(예를 들어, 염기 편집 도메인)은 RNA-결합 도메인(예를 들어, MS2)에 추가로 융합된다.

일부 구현예에서, 기능적 도메인은 링커 서열(예를 들어, 가요성 링커 서열 또는 강성 링커 서열)에 회합되거나 이를 통해 융합된다. 예시적인 링커 서열 및 기능적 도메인 서열은 하기 표에 제공된다.

유형 VI-E 및 VI-F CRISPR Cas 이펙터의 조작된 변이체에서 모티프 및 기능적 도메인의 아미노산 서열

불활성화된 Cas 단백질 상의 하나 이상의 기능적 도메인의 위치는 기능적 도메인이 기인된 기능적 효과로 표적에 영향을 미치도록 기능적 도메인에 대한 정확한 공간 배향을 허용하는 것이다. 예를 들어, 기능적 도메인이 전사 활성제(예를 들어, VP16, VP64 또는 p65)인 경우, 전사 활성제는 표적의 전사에 영향을 줄 수 있는 공간 배향으로 배치된다. 유사하게, 전사 억제제는 표적의 전사에 영향을 미치도록 위치되고, 뉴클레아제(예를 들어, Fok1)는 표적을 절단하거나 부분적으로 절단하도록 위치된다. 일부 구현예에서, 기능적 도메인은 Cas/dCas의 N-말단에 위치한다. 일부 구현예에서, 기능적 도메인은 Cas/dCas의 C-말단에 위치한다. 일부 구현예에서, 불활성화된 CRISPR-연관 단백질(dCas)은 N-말단에 제1 기능적 도메인 및 C-말단에 제2 기능적 도메인을 포함하도록 변형된다.

하나 이상의 기능적 도메인과 융합된 불활성화된 CRISPR-연관 단백질의 다양한 예 및 이를 사용하는 방법은, 예를 들어 전체가 본원에 참고로 포함되는 국제 공개 WO 2017/219027에, 특히 본원에 설명된 기능과 관련하여 기재되어 있다.

일부 구현예에서, 유형 VI-E 및 VI-F CRISPR-Cas 이펙터 단백질은 상기 서열번호 1 내지 7 중 어느 하나의 아미노산 서열을 포함한다. 일부 구현예에서, 유형 VI-E 및 VI-F CRISPR-Cas 이펙터 단백질은 상기 서열번호 1 내지 7 중 어느 하나의 천연 발생 아미노산 서열을 배제한다.

일부 구현예에서, 전장 야생형(서열번호 1 내지 7) 또는 유도체 유형 VI-E 및 VI-F Cas 이펙터를 사용하는 대신, 이의 "기능적 단편"이 사용될 수 있다.

본원에 사용된 "기능적 단편"은 전장 서열보다 짧은 서열을 갖는 서열번호 1 내지 7 중 어느 하나의 야생형 단백질 또는 이의 유도체의 단편을 지칭한다. 기능적 단편에서 결실된 잔기는 N-말단, C-말단 및/또는 내부에 있을 수 있다. 기능적 단편은 야생형 VI-E 또는 VI-F Cas의 적어도 하나의 기능 또는 이의 유도체의 적어도 하나의 기능을 보유한다. 따라서 기능적 단편은 문제가 되는 기능과 관련하여 구체적으로 정의된다. 예를 들어, 기능이 crRNA 및 표적 RNA에 결합하는 능력인 기능적 단편은 RNase 기능과 관련하여 기능적 단편이 아닐 수 있는데, 이는 Cas의 양쪽 끝에서 RXXXXH 모티프를 잃는 것이 crRNA 및 표적 RNA에 결합하는 능력에는 영향을 미치지 않을 수 있지만, RNase 활성을 파괴하는 것을 제거할 수 있기 때문이다.

일부 구현예에서, 전장 서열인 서열번호 1 내지 7과 비교하여, 유형 VI-E 또는 VI-F CRISPR-Cas 이펙터 단백질 또는 이의 유도체 또는 이의 기능적 단편은 N-말단으로부터 약 30, 60, 90, 120, 150, 또는 약 180개의 잔기가 결여되어 있다.

일부 구현예에서, 전장 서열인 서열번호 1 내지 7과 비교하여, 유형 VI-E 또는 VI-F CRISPR-Cas 이펙터 단백질 또는 이의 유도체 또는 이의 기능적 단편은 C-말단으로부터 약 30, 60, 90, 120, 또는 약 150개의 잔기가 결여되어 있다.

일부 구현예에서, 전장 서열인 서열번호 1 내지 7과 비교하여, 유형 VI-E 또는 VI-F CRISPR-Cas 이펙터 단백질 또는 이의 유도체 또는 이의 기능적 단편은 N-말단으로부터 약 30, 60, 90, 120, 150 또는 약 180개의 잔기가 결여되어 있고, C-말단으로부터 약 30, 60, 90, 120, 또는 약 150개의 잔기가 결여되어 있다.

일부 구현예에서, 유형 VI-E 또는 VI-F CRISPR-Cas 이펙터 단백질 또는 이의 유도체 또는 이의 기능적 단편은 RNase 활성, 예를 들어 가이드/crRNA-활성화된 특이적 RNase 활성을 갖는다.

일부 구현예에서, 유형 VI-E 또는 VI-F CRISPR-Cas 이펙터 단백질 또는 이의 유도체 또는 이의 기능적 단편은 실질적/검출 가능한 부수적 RNase 활성을 갖지 않는다.

여기에서 "부수적인 RNase 활성"은 Cas13a와 같은 특정 다른 부류 2, 유형 VI RNA-유도 RNase에서 관찰되는 비-특이적 RNase 활성을 지칭한다. Cas13a를 포함하는 복합체는, 예를 들어 표적 핵산(예를 들어, 표적 RNA)에 결합하여 활성화되면, 형태적 변화가 발생하여, 결국 복합체가 비-특이적 RNase로 작용하여 근처 RNA 분자(예를 들어, ssRNA 또는 dsRNA 분자)를 절단 및/또는 분해하도록 한다(즉, "부수적" 효과).

특정 구현예에서, 유형 VI-E 또는 VI-F CRISPR-Cas 이펙터 단백질 또는 이의 유도체 또는 이의 기능적 단편 및 crRNA로 구성된 (단 이에 국한되지 않는) 복합체는 표적 인식 후 부수적인 RNase 활성을 나타내지 않는다. 이 "무-부수적인" 구현예는 야생형, 조작된/유도체 이펙터 단백질, 또는 이의 기능적 단편을 포함할 수 있다.

일부 구현예에서, 유형 VI-E 또는 VI-F CRISPR-Cas 이펙터 단백질 또는 이의 유도체 또는 이의 기능적 단편은 프로토스페이서에 인접하거나 측접하는 임의의 추가 요건(즉, 프로토스페이서 인접 모티프 "PAM" 또는 프로토스페이서 측접 서열 "PFS" 요건) 없이 표적 RNA를 인식하고 절단한다.

본 개시내용은 또한 본원에 기재된 CRISPR-연관 단백질(예를 들어, 유형 VI-E 또는 VI-F CRISPR-Cas 이펙터 단백질)의 분할 버전을 제공한다. CRISPR-연관 단백질의 분할 버전은 전달에 유리할 수 있다. 일부 구현예에서, CRISPR-연관 단백질은 기능하는 CRISPR-연관 단백질을 실질적으로 함께 포함하는 효소의 2개 부분으로 분할된다.

분할은 촉매 도메인(들)이 영향을 받지 않는 방식으로 수행될 수 있다. CRISPR-연관 단백질은 뉴클레아제로 기능할 수 있거나 촉매 활성이 거의 또는 전혀 없는(예를 들어, 촉매 도메인의 돌연변이(들)로 인함) 본질적으로 RNA-결합 단백질인 불활성화된 효소일 수 있다. 분할 효소는, 예를 들어 문헌[Wright et al., "Rational design of a split-Cas9 enzyme complex," Proc. Nat'l. Acad. Sci. 112(10): 2984-2989, 2015]에 기재되어 있으며, 이는 전체가 본원에 참고로 포함된다.

예를 들어, 일부 구현예에서, 뉴클레아제 엽 및 α-나선 엽은 별개의 폴리펩티드로서 발현된다. 엽은 자체적으로 상호작용하지 않지만 crRNA는 전장 CRISPR- 연관 단백질의 활성을 재현하고 부위-특이적 DNA 절단을 촉매하는 삼원 복합체로 이들을 동원한다. 변형된 crRNA의 사용은 이량체화를 방지함으로써 분할-효소 활성을 없애고 유도성 이량체화 시스템의 개발을 허용한다.

일부 구현예에서, 분할 CRISPR-연관 단백질은, 예를 들어 라파마이신 감수성 이량체화 도메인을 사용함으로써 이량체화 파트너에 융합될 수 있다. 이것은 단백질의 활성을 일시적으로 제어하기 위해 화학적으로 유도가능한 CRISPR-연관 단백질의 생성을 허용한다. 따라서 CRISPR-연관 단백질은 2개의 단편으로 분할되어 화학적으로 유도될 수 있으며 라파마이신-민감성 이량체화 도메인은 단백질의 제어된 재조립에 사용될 수 있다.

분할 지점은 통상적으로 인실리코(in silico)로 설계되고 작제물에 클로닝된다. 이 과정에서 돌연변이가 분할된 CRISPR-연관 단백질에 도입될 수 있고 비-기능적 도메인이 제거될 수 있다.

일부 구현예에서, 분할 CRISPR-연관 단백질의 2개 부분 또는 단편(즉, N-말단 및 C-말단 단편)은, 예를 들어 야생형 CRISPR-연관 단백질의 서열의 적어도 70%, 적어도 80%, 적어도 90%, 적어도 95%, 또는 적어도 99%를 포함하는 전체 CRISPR-연관 단백질을 형성할 수 있다.

본원에 기재된 CRISPR-연관 단백질(예를 들어, 유형 VI-E 또는 VI-F CRISPR-Cas 이펙터 단백질)은 자가-활성화 또는 자가-불활성화되도록 설계될 수 있다. 예를 들어, 표적 서열은 CRISPR-연관 단백질의 코딩 작제물 내로 도입될 수 있다. 따라서, CRISPR-연관 단백질은 표적 서열 뿐만 아니라 단백질을 코딩하는 작제물을 절단하여 이들의 발현을 자가 불활성화할 수 있다. 자가-불활성화 CRISPR 시스템을 구축하는 방법은, 예를 들어 문헌[Epstein and Schaffer, Mol. Ther. 24: S50, 2016]에 기재되어 있으며, 이는 전체가 본원에 참고로 포함된다.

일부 다른 구현예에서, 약한 프로모터(예를 들어, 7SK 프로모터)의 제어 하에 발현되는 추가 crRNA는 CRISPR-연관 단백질을 코딩하는 핵산 서열을 표적화하여 (예를 들어, 핵산의 전사 및/또는 번역을 방지함으로써) 그의 발현을 방지 및/또는 차단한다. CRISPR-연관 단백질, crRNA 및 CRISPR-연관 단백질을 코딩하는 핵산을 표적으로 하는 crRNA를 발현하는 벡터로 세포를 형질주입시키면 CRISPR-연관 단백질을 코딩하는 핵산의 효율적인 파괴를 야기하고 CRISPR-연관 단백질의 수준을 감소시킬 수 있고, 이에 의해 게놈 편집 활성을 제한한다.

일부 구현예에서, CRISPR-연관 단백질의 게놈 편집 활성은 포유동물 세포에서 내인성 RNA 시그니처(예를 들어, miRNA)를 통해 조절될 수 있다. CRISPR-연관 단백질 스위치는 CRISPR-연관 단백질을 코딩하는 mRNA의 5'-UTR에서 miRNA-상보적 서열을 사용하여 만들 수 있다. 스위치는 표적 세포의 miRNA에 선택적이고 효율적으로 반응한다. 따라서 스위치는 이종 세포 집단 내에서 내인성 miRNA 활동을 감지하여 게놈 편집을 차등적으로 제어할 수 있다. 따라서, 스위치 시스템은 세포내 miRNA 정보를 기반으로 하는 세포-유형 선택적 게놈 편집 및 세포 조작을 위한 프레임워크를 제공할 수 있다(예를 들어, 문헌[Hirosawa et al., Nucl. Acids Res. 45(13): e118, 2017] 참조).

CRISPR-연관 단백질(예를 들어, 유형 VI-E 및 VI-F CRISPR-Cas 이펙터 단백질)은 유도적으로 발현될 수 있으며, 예를 들어 이들의 발현은 광-유도되거나 또는 화학적으로-유도될 수 있다. 이 메커니즘은 CRISPR-연관 단백질에서 기능적 도메인의 활성화를 허용한다. 광 유도성은, 예를 들어, CRY2 PHR/CIBN 쌍이 분할 CRISPR-연관 단백질에 사용되는 융합 복합체를 설계함으로써 당업계에 공지된 다양한 방법에 의해 달성될 수 있다(예를 들어, 문헌[Konermann et al., "Optical control of mammalian endogenous transcription and epigenetic states," Nature 500:7463, 2013] 참조).

화학적 유도성은, 예를 들어 FKBP/FRB(FK506 결합 단백질/FKBP 라파마이신 결합 도메인) 쌍이 분할 CRISPR-연관 단백질에 사용되는 융합 복합체를 설계함으로써 달성될 수 있다. 라파마이신은 융합 복합체를 형성하여 CRISPR-연관 단백질을 활성화하는 데 필요하다(예를 들어, 문헌[Zetsche et al., "A split-Cas9 architecture for inducible genome editing and transcription modulation," Nature Biotech. 33:2:139-42, 2015] 참조).

또한, CRISPR-연관 단백질의 발현은 유도성 프로모터, 예를 들어 테트라사이클린 또는 독시사이클린 제어 전사 활성화(Tet-On 및 Tet-Off 발현 시스템), 호르몬 유도성 유전자 발현 시스템(예를 들어, 엑디손 유도성 유전자 발현 시스템), 및 아라비노스-유도성 유전자 발현 시스템에 의해 조절될 수 있다. RNA로서 전달될 때, RNA 표적화 이펙터 단백질의 발현은 테트라사이클린과 같은 소분자를 감지할 수 있는 리보스위치를 통해 조절될 수 있다(예를 들어, 문헌[Goldfless et al., "Direct and specific chemical control of eukaryotic translation with a synthetic RNA-protein interaction," Nucl. Acids Res. 40:9: e64-e64, 2012] 참조).

유도성 CRISPR-연관 단백질 및 유도성 CRISPR 시스템의 다양한 구현예는, 예를 들어 미국 특허 8,871,445, 미국 공개 2016/0208243, 및 국제 공개 WO 2016/205764에 기재되어 있으며, 이들 각각은 전체가 참고로 본원에 포함된다.

일부 구현예에서, CRISPR-연관 단백질은 단백질의 N-말단 또는 C-말단에 부착된 적어도 하나(예를 들어, 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개)의 핵 국소화 신호(NLS)를 포함한다. NLS의 비제한적인 예는 하기로부터 유래된 NLS 서열을 포함한다: 아미노산 서열 PKKKRKV를 갖는 SV40 바이러스 대형 T-항원의 NLS; 뉴클레오플라스민으로부터의 NLS(예를 들어, 서열 KRPAATKKAGQAKKKK를 갖는 뉴클레오플라스민 이분 NLS); 아미노산 서열 PAAKRVKLD 또는 RQRRNELKRSP를 갖는 c-myc NLS; 서열 NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY를 갖는 hRNPA1 M9 NLS ; 임포린-알파로부터 IBB 도메인의 서열 RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV; 근종 T 단백질의 서열 VSRKRPRP 및 PPKKARED; 인간 p53의 서열 PQPKKKPL; 마우스 c-abl IV의 서열 SALIKKKKKMAP; 인플루엔자 바이러스 NS1의 서열 DRLRR 및 PKQKKRK; 간염 바이러스 델타 항원의 서열 RKLKKKIKKL; 마우스 Mx1 단백질의 서열 REKKKFLKRR; 인간 폴리(ADP-리보스) 폴리머라제의 서열 KRKGDEVDGVDEVAKKKSKK; 및 인간 글루코코르티코이드 수용체의 서열 RKCLQAGMNLEARKTKK. 일부 구현예에서, CRISPR-연관 단백질은 단백질의 N-말단 또는 C-말단에 부착된 적어도 하나(예를 들어, 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개)의 핵 수출 신호(NES)를 포함한다. 바람직한 구현예에서 C-말단 및/또는 N-말단 NLS 또는 NES는 진핵 세포, 예를 들어 인간 세포에서 최적의 발현 및 핵 표적화를 위해 부착된다.

일부 구현예에서, 본원에 기재된 CRISPR-연관 단백질은 하나 이상의 기능적 활성을 변경하기 위해 하나 이상의 아미노산 잔기에서 돌연변이된다.

예를 들어, 일부 구현예에서, CRISPR-연관 단백질은 이의 헬리카제 활성을 변경하기 위해 하나 이상의 아미노산 잔기에서 돌연변이된다.

일부 구현예에서, CRISPR-연관 단백질은 이의 뉴클레아제 활성(예를 들어, 엔도뉴클레아제 활성 또는 엑소뉴클레아제 활성)을 변경하기 위해 하나 이상의 아미노산 잔기에서 돌연변이된다.

일부 구현예에서, CRISPR-연관 단백질은 가이드 RNA와 기능적으로 회합하는 이의 능력을 변경하기 위해 하나 이상의 아미노산 잔기에서 돌연변이된다.

일부 구현예에서, CRISPR-연관 단백질은 표적 핵산과 기능적으로 회합하는 이의 능력을 변경하기 위해 하나 이상의 아미노산 잔기에서 돌연변이된다.

일부 구현예에서, 본원에 기재된 CRISPR-연관 단백질은 표적 RNA 분자를 절단할 수 있다.

일부 구현예에서, CRISPR-연관 단백질은 이의 절단 활성을 변경하기 위해 하나 이상의 아미노산 잔기에서 돌연변이된다. 예를 들어, 일부 구현예에서, CRISPR-연관 단백질은 효소가 표적 핵산을 절단할 수 없도록 하는 하나 이상의 돌연변이를 포함할 수 있다.

일부 구현예에서, CRISPR-연관 단백질은 가이드 RNA가 혼성화하는 가닥에 상보적인 표적 핵산의 가닥을 절단할 수 있다.

일부 구현예에서, 본원에 기재된 CRISPR-연관 단백질은 하나 이상의 원하는 기능적 활성(예를 들어, 뉴클레아제 활성 및 가이드 RNA와 기능적으로 상호작용하는 능력)을 유지하면서 효소의 크기를 감소시키기 위해 하나 이상의 아미노산 잔기에 결실을 갖도록 조작될 수 있다. 절단된 CRISPR-연관 단백질은 부하 제한이 있는 전달 시스템과 조합하여 유리하게 사용될 수 있다.

일부 구현예에서, 본원에 기재된 CRISPR-연관 단백질은 His-태그, GST-태그, V5-태그, FLAG-태그, HA-태그, VSV-G-태그, Trx-태그 또는 myc-태그를 포함하여 하나 이상의 펩티드 태그에 융합될 수 있다.

일부 구현예에서, 본원에 기재된 CRISPR-연관 단백질은 GST, 형광 단백질(예를 들어, GFP, HcRed, DsRed, CFP, YFP 또는 BFP), 또는 효소(예를 들어, HRP 또는 CAT)와 같은 검출가능한 모이어티에 융합될 수 있다.

일부 구현예에서, 본원에 기재된 CRISPR-연관 단백질은 MBP, LexA DNA 결합 도메인, 또는 Gal4 DNA-결합 도메인에 융합될 수 있다.

일부 구현예에서, 본원에 기재된 CRISPR-연관 단백질은 FITC 및 DAPI를 포함하는 형광 염료와 같은 검출가능한 표지에 연결되거나 이와 접합될 수 있다.

본원의 임의의 구현예에서, 본원에 기재된 CRISPR-연관 단백질 및 다른 모이어티 사이의 연결은 CRISPR-연관 단백질의 N- 또는 C-말단에 있을 수 있고, 때때로 공유 화학 결합을 통해 내부적으로도 있을 수 있다. 연결은 펩티드 연결, D, E, S, T와 같은 아미노산의 측쇄를 통한 연결 또는 아미노산 유도체(Ahx, β-Ala, GABA 또는 Ava), 또는 PEG 연결과 같은 당업계에 알려진 임의의 화학적 연결에 의해 수행될 수 있다.

3. 폴리뉴클레오티드

본 발명은 또한 본원에 기재된 단백질(예를 들어, CRISPR-연관 단백질 또는 부속 단백질) 및 가이드 RNA(예를 들어, crRNA)를 코딩하는 핵산을 제공한다.

일부 구현예에서, 핵산은 합성 핵산이다. 일부 구현예에서, 핵산은 DNA 분자이다. 일부 구현예에서, 핵산은 RNA 분자(예를 들어, Cas, 이의 유도체 또는 기능적 단편을 코딩하는 mRNA 분자)이다. 일부 구현예에서, mRNA는 캡핑, 폴리아데닐화, 5-메틸 시티딘으로 치환, 슈도우리딘으로 치환된 것이거나, 또는 이들의 조합이다.

일부 구현예에서, 핵산(예를 들어, DNA)은 핵산의 발현을 제어하기 위해 조절 요소(예를 들어, 프로모터)에 작동가능하게 연결된다. 일부 구현예에서, 프로모터는 구성적 프로모터이다. 일부 구현예에서, 프로모터는 유도성 프로모터이다. 일부 구현예에서, 프로모터는 세포-특이적 프로모터이다. 일부 구현예에서, 프로모터는 유기체-특이적 프로모터이다.

적합한 프로모터는 당업계에 공지되어 있으며, 예를 들어 pol I 프로모터, pol II 프로모터, pol III 프로모터, T7 프로모터, U6 프로모터, H1 프로모터, 레트로바이러스 라우스 육종 바이러스 LTR 프로모터, 사이토메갈로바이러스(CMV) 프로모터, SV40 프로모터, 디히드로폴레이트 리덕타제 프로모터 및 β-액틴 프로모터를 포함한다. 예를 들어, U6 프로모터를 사용하여 본원에 기재된 가이드 RNA 분자의 발현을 조절할 수 있다.

일부 구현예에서, 핵산(들)은 벡터(예를 들어, 바이러스 벡터 또는 파지)에 존재한다. 벡터는 클로닝 벡터 또는 발현 벡터일 수 있다. 벡터는 플라스미드, 파지미드, 코스미드 등일 수 있다. 벡터는 관심 세포(예를 들어, 박테리아 세포 또는 포유동물 세포)에서 벡터의 증식을 허용하는 하나 이상의 조절 요소를 포함할 수 있다. 일부 구현예에서, 벡터는 본원에 기재된 CRISPR-연관(Cas) 시스템의 단일 성분을 코딩하는 핵산을 포함한다. 일부 구현예에서, 벡터는 각각 본원에 기재된 CRISPR-연관(Cas) 시스템의 성분을 각각 코딩하는 다중 핵산을 포함한다.

일 양태에서, 본 개시내용은 본원에 기재된 핵산 서열, 즉 서열번호 8 내지 14의 DR 서열을 포함하는, Cas 단백질, 유도체, 기능적 단편, 또는 가이드/crRNA를 코딩하는 핵산 서열에 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 동일한 핵산 서열을 제공한다.

또 다른 양태에서, 본 개시내용은 또한 서열번호 1 내지 7과 같은 본원에 기재된 아미노산 서열에 대해 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, 또는 100% 동일한 아미노산 서열을 코딩하는 핵산 서열을 제공한다.

일부 구현예에서, 핵산 서열은 본원에 기재된 서열과 동일한 적어도 일부(예를 들어, 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 20, 30, 40, 50, 60, 70, 80, 90, 또는 100개의 뉴클레오티드, 예를 들어 인접 또는 비-인접 뉴클레오티드)를 갖는다. 일부 구현예에서, 핵산 서열은 본원에 기재된 서열과 상이한 적어도 일부(예를 들어, 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 20, 30, 40, 50, 60, 70, 80, 90, 또는 100개의 뉴클레오티드, 예를 들어 인접 또는 비-인접 뉴클레오티드)를 갖는다.

관련된 구현예에서, 본 발명은 본원에 기재된 서열과 동일한 적어도 일부(예를 들어, 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 20, 30, 40, 50, 60, 70, 80, 90, 또는 100개의 아미노산 잔기, 예를 들어 인접 또는 비-인접 아미노산 잔기)를 갖는 아미노산 서열을 제공한다. 일부 구현예에서, 아미노산 서열은 본원에 기재된 서열과 상이한 적어도 일부(예를 들어, 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 20, 30, 40, 50, 60, 70, 80, 90, 또는 100개의 아미노산 잔기, 예를 들어 인접 또는 비-인접 아미노산 잔기)를 갖는다.

2개의 아미노산 서열, 또는 2개의 핵산 서열의 동일성 퍼센트를 결정하기 위해, 최적의 비교 목적을 위해 서열을 정렬한다(예를 들어, 갭은 최적의 정렬을 위해 제1 및 제2 아미노산 또는 핵산 서열 중 하나 또는 둘 모두에 도입될 수 있고 및 비-상동성 서열은 비교 목적으로 무시될 수 있음). 일반적으로, 비교 목적으로 정렬된 참조 서열의 길이는 참조 서열 길이의 적어도 80%이어야 하고, 일부 구현예에서는 참조 서열 길이의 적어도 90%, 95% 또는 100%이다. 그 다음 상응하는 아미노산 위치 또는 뉴클레오티드 위치에서 아미노산 잔기 또는 뉴클레오타이드를 비교한다. 제1 서열의 위치가 제2 서열의 상응하는 위치와 동일한 아미노산 잔기 또는 뉴클레오티드에 의해 점유될 때, 그 위치에서의 분자는 동일하다. 두 서열 간의 동일성 퍼센트는 두 서열의 최적 정렬을 위해 도입되어야 하는 갭의 수 및 각 갭의 길이를 고려하여 서열이 공유하는 동일한 위치의 수의 함수이다. 본 개시내용의 목적을 위해, 서열의 비교 및 2개의 서열 간의 동일성 퍼센트 결정은 12의 갭 패널티, 4의 갭 확장 패널티 및 5의 프레임시프트 갭 패널티를 갖는 Blossum 62 스코어링 매트릭스를 사용하여 달성될 수 있다.

본원에 기재된 단백질(예를 들어, CRISPR-연관 단백질 또는 부속 단백질)은 핵산 분자 또는 폴리펩티드로서 전달되거나 사용될 수 있다.

특정 구현예에서, CRISPR-연관 단백질, 이의 유도체 또는 기능적 단편을 코딩하는 핵산 분자는 숙주 세포 또는 유기체에서의 발현을 위해 코돈-최적화된다. 숙주 세포는 확립된 세포주(예를 들어, 293T 세포) 또는 분리된 1차 세포를 포함할 수 있다. 핵산은 관심 유기체, 특히 인간 세포 또는 박테리아에서 사용하기 위해 코돈-최적화될 수 있다. 예를 들어, 핵산은 임의의 원핵생물(예를 들어, 대장균), 또는 임의의 진핵생물, 예를 들어 인간 및 효모, 벌레, 곤충, 식물 및 조류(식량 작물, 쌀, 옥수수, 채소, 과일, 나무, 목초를 포함함), 척추동물, 어류, 비-인간 포유동물(예를 들어, 마우스, 래트, 토끼, 개, 새(예를 들어, 닭), 가축(젖소 또는 소, 돼지, 말, 양, 염소 등), 또는 비-인간 영장류)과 같은 다른 비-인간 진핵생물을 위해 코돈-최적화될 수 있다. 예를 들어, www.kazusa.orjp/codon/에서 입수가능한 "코돈 사용빈도 데이터베이스(Codon Usage Database)"에서 코돈 사용빈도 표를 쉽게 사용할 수 있으며 이러한 표는 여러 가지 방식으로 조정될 수 있다. 문헌[Nakamura et al., Nucl. Acids Res. 28:292, 2000](전체가 본원에 참고로 포함됨)을 참조한다. Gene Forge(Aptagen; 미국 펜실베이니아주 제이코버스 소재)와 같은 특정 숙주 세포에서 발현을 위한 특정 서열을 최적화하는 코돈을 위한 컴퓨터 알고리즘도 또한 이용가능하다.

코돈-최적화된 서열의 예는 이 경우에 진핵생물, 예를 들어 인간에서의 발현을 위해 최적화된 서열(즉, 인간에서의 발현을 위해 최적화됨), 또는 본원에 논의된 바와 같은 또 다른 진핵생물, 동물 또는 포유동물에 대해 최적화된 서열이고; 예를 들어, WO 2014/093622(PCT/US2013/074667)의 SaCas9 인간 코돈 최적화된 서열을 참조한다. 이것이 바람직하지만, 다른 예가 가능하고 인간 이외의 숙주 종에 대한 코돈 최적화 또는 특정 기관에 대한 코돈 최적화가 공지되어 있음을 이해할 것이다. 일반적으로, 코돈 최적화는 천연 서열의 적어도 하나의 코돈(예를 들어, 약 1, 2, 3, 4, 5, 10, 15, 20, 25, 50개 또는 그 이상의 코돈)을 천연 아미노산 서열을 유지하면서 그 숙주 세포의 유전자에서 더 빈번하게 또는 가장 빈번하게 사용되는 코돈으로 대체함으로써 관심 숙주 세포에서 향상된 발현을 위해 핵산 서열을 변형시키는 과정을 지칭한다. 다양한 종은 특정 아미노산의 특정 코돈에 대해 특정한 편향을 보인다. 코돈 편향(유기체 간 코돈 사용빈도의 차이)은 종종 메신저 RNA(mRNA) 번역의 효율성과 상관관계가 있으며, 이는 결국 특히 번역되는 코돈의 특성 및 특정 전달 RNA(tRNA) 분자의 가용성에 따라 다르다고 여겨진다. 세포에서 선택된 tRNA의 우세는 일반적으로 펩티드 합성에서 가장 빈번하게 사용되는 코돈을 반영한다. 따라서, 유전자는 코돈 최적화를 기반으로 주어진 유기체에서 최적의 유전자 발현을 위해 맞춤화될 수 있다. 예를 들어, www.kazusa.orjp/codon/에서 입수가능한 "코돈 사용빈도 데이터베이스(Codon Usage Database)"에서 코돈 사용빈도 표를 쉽게 사용할 수 있으며 이러한 표는 여러 가지 방식으로 조정될 수 있다. 문헌[Nakamura, Y., et al. "Codon usage tabulated from the international DNA sequence databases: status for the year 2000" Nucl. Acids Res. 28:292 (2000)]을 참조한다. Gene Forge(Aptagen; 미국 펜실베이니아주 제이코버스 소재)와 같은 특정 숙주 세포에서 발현을 위한 특정 서열을 최적화하는 코돈을 위한 컴퓨터 알고리즘도 또한 이용가능하다. 일부 구현예에서, Cas를 코딩하는 서열에서 하나 이상의 코돈(예를 들어, 1, 2, 3, 4, 5, 10, 15, 20, 25, 50개 또는 그 이상, 또는 모든 코돈)은 특정 아미노산에 대해 가장 빈번하게 사용되는 코돈에 해당한다.

4. RNA 가이드 또는 crRNA

일부 구현예에서, 본원에 기재된 CRISPR 시스템은 적어도 RNA 가이드(예를 들어, gRNA 또는 crRNA)를 포함한다.

다중 RNA 가이드의 구조는 당업계에 알려져 있다(국제 공개 WO 2014/093622 및 WO 2015/070083; 이들 각각의 전체 내용은 본원에 참고로 포함됨).

일부 구현예에서, 본원에 기재된 CRISPR 시스템은 다중 RNA 가이드(예를 들어, 1, 2, 3, 4, 5, 6, 7, 8개, 또는 그 이상의 RNA 가이드)를 포함한다.

일부 구현예에서, RNA 가이드는 crRNA를 포함한다. 일부 구현예에서, RNA 가이드는 crRNA를 포함하지만 tracrRNA는 포함하지 않는다.

다중 CRISPR 시스템으로부터의 가이드 RNA에 대한 서열은 일반적으로 당업계에 공지되어 있으며, 예를 들어, 문헌[Grissa et al. Nucleic Acids Res. 35 (웹 서버 발행): W52-7, 2007]; [Grissa et al., BMC Bioinformatics 8:172, 2007; Grissa et al., Nucleic Acids Res. 36 (웹 서버 발행): W145-8, 2008]; 및 [Moller and Liang, PeerJ 5: e3788, 2017]; crispr.i2bc.paris-saclayfr/crispr/BLAST/CRISPRsBlast.php의 CRISPR 데이터베이스; 및 github.com/molleraj/MetaCRAST에서 입수가능한 MetaCRAST를 참조한다. 이들 모두는 본원에 참조로 포함된다.

일부 구현예에서, crRNA는 직접 반복(DR) 서열 및 스페이서 서열을 포함한다. 특정 구현예에서, crRNA는 바람직하게는 스페이서 서열의 3'-말단에서 가이드 서열 또는 스페이서 서열에 연결된 직접 반복 서열을 포함하거나, 본질적으로 이로 이루어지거나, 이로 이루어진다.

일반적으로, Cas 단백질은 성숙한 crRNA와 복합체를 형성하고, 이 스페이서 서열은 복합체를 스페이서 서열에 상보적인 표적 RNA와의 서열-특이적 결합으로 지시하고/하거나 스페이서 서열에 혼성화한다. 생성된 복합체는 표적 RNA에 결합된 Cas 단백질 및 성숙한 crRNA를 포함한다.

Cas13e 및 Cas13f 시스템에 대한 직접 반복 서열은 일반적으로 특히 말단에서 잘 보존되며, 5'-말단에서 Cas13e에 대한 GCTG 및 Cas13f에 대한 GCTGT가 있고, 3' 말단에서 Cas13e에 대한 CAGC 및 Cas13f에 대한 ACAGC에 역상보적이다. 이러한 보존은 유전자좌에서 단백질(들)과 잠재적으로 상호작용하는 RNA 줄기-루프 구조에 대한 강한 염기쌍을 시사한다.

일부 구현예에서, 직접 반복 서열은 RNA에 있을 때 5'-S1a-Ba-S2a-L-S2b-Bb-S1b-3'의 일반적인 2차 구조를 포함하며, 여기서 분절 S1a 및 S1b는 역상보적 서열이고 Cas13e에 4개의 뉴클레오티드 및 Cas13f에 5개의 뉴클레오티드를 갖는 제1 줄기(S1)를 형성하고; 분절 Ba와 Bb는 서로 염기쌍을 형성하지 않고 대칭 또는 거의 대칭적인 돌출부(B)를 형성하고 Cas13e에 각각 5개의 뉴클레오티드, 및 Cas13f에 각각 5개(Ba) 및 4개(Bb) 또는 6개(Ba) 및 5개(Bb)의 뉴클레오티드를 갖고; 분절 S2a 및 S2b는 역상보적 서열이고 Cas13e에서 5개 염기쌍 및 Cas13f에서 6개 또는 5개 염기쌍을 갖는 제2 줄기(S2)를 형성하고; 및 L은 Cas13e에서 8-뉴클레오티드 루프이고 Cas13f에서 5-뉴클레오티드 루프이다. 도 2를 참조한다.

특정 구현예에서, S1a는 Cas13e에서 GCUG의 서열을 갖고 Cas13f에서 GCUGU의 서열을 갖는다.

특정 구현예에서, S2a는 Cas13e에서 GCCCC의 서열을 갖고 Cas13f에서 A/G CCUC G/A의 서열을 갖는다(여기서, 첫 번째 A 또는 G는 부재할 수 있음).

일부 구현예에서, 직접 반복 서열은 서열번호 8 내지 14의 핵산 서열을 포함하거나 이로 이루어진다.

일부 구현예에서, 직접 반복 서열은 서열번호 8 내지 14의 1, 2, 3, 4, 5, 6, 7, 또는 8개 이하 뉴클레오티드의 결실, 삽입 또는 치환을 갖는 핵산 서열을 포함하거나 이로 이루어진다. 일부 구현예에서, 직접 반복 서열은 서열번호 8 내지 14와 적어도 80%, 85%, 90%, 95%, 또는 97%의 서열 동일성(예를 들어, 서열번호 8 내지 14에서 뉴클레오티드의 결실, 삽입 또는 치환으로 인함)을 갖는 핵산 서열을 포함하거나 이로 이루어진다. 일부 구현예에서, 직접 반복 서열은 서열번호 8 내지 14 중 어느 하나와 동일하지 않지만, 엄격한 혼성화 조건 하에 서열번호 8 내지 14 중 어느 하나의 상보체와 혼성화할 수 있거나, 생리학적 조건 하에 서열번호 8 내지 14 중 어느 하나의 상보체에 결합할 수 있는 핵산 서열을 포함하거나 이로 이루어진다.

특정 구현예에서, 결실, 삽입 또는 치환은 서열번호 8 내지 14의 전체 2차 구조를 변경하지 않는다(예를 들어, 줄기 및 돌출부 및 루프의 상대적 위치 및/또는 크기는 원래 줄기, 돌출부 및 루프로부터 크게 벗어나지 않음). 예를 들어, 돌출부의 전체 대칭이 대체로 동일하게 유지되도록, 결실, 삽입 또는 치환은 돌출부 또는 루프 영역에 있을 수 있다. 줄기의 길이가 원래 줄기의 길이로부터 크게 벗어나지 않도록 결실, 삽입 또는 치환이 줄기에 있을 수 있다(예를 들어, 두 줄기 각각에서 하나의 염기쌍을 추가하거나 결실시키는 것은 총 4개의 염기 변경에 해당함).

특정 구현예에서, 결실, 삽입 또는 치환은 하나 또는 두 줄기(도 2 참조)에서 ± 1 또는 2개의 염기쌍(들)을 가질 수 있고/있거나, 돌출부의 단일 가닥 중 하나 또는 둘 모두에서 ± 1, 2 또는 3개의 염기를 가질 수 있고/있거나, 루프 영역에서 ± 1, 2, 3 또는 4개의 염기를 가질 수 있는 유도체 DR 서열을 생성한다.

특정 구현예에서, 서열번호 8 내지 14 중 어느 하나와 상이한 상기 직접 반복 서열 중 임의의 것은 서열번호 8 내지 14의 DR 서열로서 Cas13e 또는 Cas13f 단백질에서 직접 반복 서열로서 기능하는 능력을 보유한다.

일부 구현예에서, 직접 반복 서열은 서열번호 8 내지 14 중 어느 하나의 핵산 서열을 갖는 핵산을 포함하거나 이로 이루어지며, 초기 3, 4, 5, 6, 7, 또는 8개의 3' 뉴클레오티드 절단이 있다.

일부 구현예에서, Cas 단백질은 서열번호 1의 아미노산 서열을 포함하고 crRNA는 직접 반복 서열을 포함하며, 여기서 직접 반복 서열은 서열번호 8의 핵산 서열을 포함하거나 이로 이루어진다.

일부 구현예에서, Cas 단백질은 서열번호 2의 아미노산 서열을 포함하고 crRNA는 직접 반복 서열을 포함하며, 여기서 직접 반복 서열은 서열번호 9의 핵산 서열을 포함하거나 이로 이루어진다.

일부 구현예에서, Cas 단백질은 서열번호 3의 아미노산 서열을 포함하고 crRNA는 직접 반복 서열을 포함하며, 여기서 직접 반복 서열은 서열번호 10의 핵산 서열을 포함하거나 이로 이루어진다.

일부 구현예에서, Cas 단백질은 서열번호 4의 아미노산 서열을 포함하고 crRNA는 직접 반복 서열을 포함하며, 여기서 직접 반복 서열은 서열번호 11의 핵산 서열을 포함하거나 이로 이루어진다.

일부 구현예에서, Cas 단백질은 서열번호 5의 아미노산 서열을 포함하고 crRNA는 직접 반복 서열을 포함하며, 여기서 직접 반복 서열은 서열번호 12의 핵산 서열을 포함하거나 이로 이루어진다.

일부 구현예에서, Cas 단백질은 서열번호 6의 아미노산 서열을 포함하고 crRNA는 직접 반복 서열을 포함하며, 여기서 직접 반복 서열은 서열번호 13의 핵산 서열을 포함하거나 이로 이루어진다.

일부 구현예에서, Cas 단백질은 서열번호 7의 아미노산 서열을 포함하고 crRNA는 직접 반복 서열을 포함하며, 여기서 직접 반복 서열은 서열번호 14의 핵산 서열을 포함하거나 이로 이루어진다.

고전적인 CRISPR 시스템에서, 가이드 서열(예를 들어, crRNA)과 이의 상응하는 표적 서열 사이의 상보성 정도는 약 50%, 60%, 75%, 80%, 85%, 90%, 95%, 97.5%, 99% 또는 100%일 수 있다. 일부 구현예에서, 상보성 정도는 90 내지 100%이다.

가이드 RNA는 길이가 약 5, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 35, 40, 45, 50, 75, 100, 125, 150, 175, 200개 이상의 뉴클레오티드일 수 있다. 예를 들어, 기능적 Cas13e 또는 Cas13f 이펙터 단백질, 또는 이의 동족체, 동원체, 유도체, 융합체, 접합체 또는 기능적 단편에서 사용하기 위해, 스페이서는 10 내지 60개의 뉴클레오티드, 20 내지 50개의 뉴클레오티드, 25 내지 45개의 뉴클레오티드, 25 내지 35개의 뉴클레오티드, 또는 약 27, 28, 29, 30, 31, 32, 또는 33개의 뉴클레오티드일 수 있다. 그러나, 상기 임의의 것의 dCas 버전에서 사용하기 위해, 스페이서는 10 내지 200개의 뉴클레오티드, 20 내지 150개의 뉴클레오티드, 25 내지 100개의 뉴클레오티드, 25 내지 85개의 뉴클레오티드, 35 내지 75개의 뉴클레오티드, 45 내지 60개의 뉴클레오티드, 또는 약 46, 47, 48, 49, 50, 51, 52, 53, 54 또는 55개의 뉴클레오티드일 수 있다.

표적-외 상호작용을 줄이기 위해, 예를 들어 상보성이 낮은 표적 서열과 상호작용하는 가이드를 줄이기 위해, CRISPR 시스템이 80%, 85%, 90% 또는 95% 초과의 상보성을 갖는 표적 서열 및 표적-외 서열을 구별할 수 있도록 돌연변이를 CRISPR 시스템에 도입할 수 있다. 일부 구현예에서, 상보성 정도는 80% 내지 95%, 예를 들어, 약 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94% 또는 95%(예를 들어, 18개 뉴클레오티드를 갖는 표적과 1, 2 또는 3개의 미스매치를 갖는 18개 뉴클레오티드의 표적-외를 구별함)이다. 따라서, 일부 구현예에서, 가이드 서열 및 이의 상응하는 표적 서열 사이의 상보성 정도는 94.5%, 95%, 95.5%, 96%, 96.5%, 97%, 97.5%, 98%, 98.5%, 99%, 99.5% 또는 99.9% 초과이다. 일부 구현예에서, 상보성 정도는 100%이다.

기능적이도록 충분한 상보성이 있는 경우, 완전한 상보성이 필요하지 않다는 것은 해당 분야에서 알려져 있다. 절단 효율의 조절은 미스매치, 예를 들어 스페이서/표적을 따른 미스매치의 위치를 포함하여, 스페이서 서열 및 표적 서열 사이의 1 또는 2개의 미스매치와 같은 하나 이상의 미스매치의 도입에 의해 이용될 수 있다. 더 중앙에(즉, 3' 또는 5'-말단이 아님) 미스매치, 예를 들어 이중 미스매치가 위치할수록, 더 많은 절단 효율이 영향을 받는다. 따라서, 스페이서 서열을 따라 미스매치 위치를 선택함으로써 절단 효율이 조절될 수 있다. 예를 들어, 표적의 100% 미만 절단이 요구되는 경우(예를 들어, 세포 집단에서), 스페이서 및 표적 서열 사이의 1 또는 2개의 미스매치가 스페이서 서열에 도입될 수 있다.

유형 VI CRISPR-Cas 이펙터는 하나 초과의 RNA 가이드를 사용하는 것으로 입증되어, 이러한 이펙터와 이를 포함하는 시스템 및 복합체의 능력이 여러 핵산을 표적으로 삼을 수 있다. 일부 구현예에서, 본원에 기재된 CRISPR 시스템은 다중 RNA 가이드(예를 들어, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 30, 40개 이상) RNA 가이드를 포함한다. 일부 구현예에서, 본원에 기재된 CRISPR 시스템은 단일 RNA 가닥 또는 단일 RNA 가닥을 코딩하는 핵산을 포함하고, 여기서 RNA 가이드는 나란히 배열된다. 단일 RNA 가닥은 동일한 RNA 가이드의 다중 복제물, 별개의 RNA 가이드의 다중 복제물, 또는 이들의 조합을 포함할 수 있다. 본원에 기재된 유형 VI-E 및 VI-F CRISPR-Cas 이펙터 단백질의 처리 능력은 이들 이펙터가 활성 손실 없이 다중 표적 핵산(예를 들어, 표적 RNA)을 표적화할 수 있게 한다. 일부 구현예에서, 유형 VI-E 및 VI-F CRISPR-Cas 이펙터 단백질은 상이한 표적 RNA에 대해 지시된 다중 RNA 가이드와 복합체로 전달될 수 있다. 일부 구현예에서, 유형 VI-E 및 VI-F CRISPR-Cas 이펙터 단백질은 각각 상이한 표적 핵산에 대해 특이적인 다중 RNA 가이드와 함께 공동-전달될 수 있다. CRISPR-연관 단백질을 사용한 다중화 방법은, 예를 들어 미국 특허 9,790,490 B2 및 EP 3009511 B1에 기재되어 있으며, 이들 각각의 전체 내용은 본원에 참고로 명시적으로 포함된다.

crRNA의 스페이서 길이는 약 10 내지 60개의 뉴클레오티드, 예를 들어 15 내지 50개의 뉴클레오티드, 20 내지 50개의 뉴클레오티드, 25 내지 50개의 뉴클레오티드, 또는 19 내지 50개의 뉴클레오티드 범위일 수 있다. 일부 구현예에서, 가이드 RNA의 스페이서 길이는 적어도 16개의 뉴클레오티드, 적어도 17개의 뉴클레오티드, 적어도 18개의 뉴클레오티드, 적어도 19개의 뉴클레오티드, 적어도 20개의 뉴클레오티드, 적어도 21개의 뉴클레오티드, 또는 적어도 22개의 뉴클레오티드이다. 일부 구현예에서, 스페이서 길이는 15 내지 17개의 뉴클레오티드(예를 들어, 15, 16, 또는 17개의 뉴클레오티드), 17 내지 20개의 뉴클레오티드(예를 들어, 17, 18, 19, 또는 20개의 뉴클레오티드), 20 내지 24개의 뉴클레오티드(예를 들어, 20, 21, 22, 23, 또는 24개의 뉴클레오티드), 23 내지 25개의 뉴클레오티드(예를 들어, 23, 24, 또는 25개의 뉴클레오티드), 24 내지 27개의 뉴클레오티드, 27 내지 30개의 뉴클레오티드, 30 내지 45개의 뉴클레오티드(예를 들어, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44 또는 45개의 뉴클레오티드), 30 또는 35 내지 40개의 뉴클레오티드, 41 내지 45개의 뉴클레오티드, 45 내지 50개의 뉴클레오티드(예를 들어, 45, 46, 47, 48, 49, 또는 50개의 뉴클레오티드), 또는 그 이상이다. 일부 구현예에서, 스페이서 길이는 약 15 내지 약 42개의 뉴클레오티드이다.

일부 구현예에서, 가이드 RNA의 직접 반복 길이는 15 내지 36개의 뉴클레오티드이고, 적어도 16개의 뉴클레오티드이고, 16 내지 20개의 뉴클레오티드(예를 들어, 16, 17, 18, 19, 또는 20개의 뉴클레오티드)이고, 20 내지 30개 뉴클레오티드(예를 들어, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 또는 30개 뉴클레오티드)이고, 30 내지 40개 뉴클레오티드(예를 들어, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 또는 40개의 뉴클레오티드), 또는 약 36개의 뉴클레오티드(예를 들어, 33, 34, 35, 36, 37, 38, 또는 39개의 뉴클레오티드)이다. 일부 구현예에서, 가이드 RNA의 직접 반복 길이는 36개 뉴클레오티드이다.

일부 구현예에서, crRNA/가이드 RNA의 전체 길이는 상기 본원에 기재된 스페이서 서열 길이 중 어느 하나보다 약 36개 뉴클레오티드가 더 길다. 예를 들어, crRNA/가이드 RNA의 전체 길이는 45 내지 86개의 뉴클레오티드, 또는 60 내지 86개의 뉴클레오티드, 62 내지 86개의 뉴클레오티드, 또는 63 내지 86개의 뉴클레오티드일 수 있다.

crRNA 서열은 crRNA 및 CRISPR-연관 단백질 사이의 복합체 형성 및 표적에 대한 성공적인 결합을 가능하게 하는 방식으로 변형될 수 있으며, 동시에 성공적인 뉴클레아제 활성을 허용하지 않는다(즉, 뉴클레아제 활성 없음/삽입-결실 유발 없음). 이러한 변형된 가이드 서열은 "데드(dead) crRNA", "데드 가이드" 또는 "데드 가이드 서열"로 지칭된다. 이들 데드 가이드 또는 데드 가이드 서열은 뉴클레아제 활성과 관련하여 촉매적으로 불활성이거나 형태적으로 불활성일 수 있다. 데드 가이드 서열은 통상적으로 활성 RNA 절단을 초래하는 각각의 가이드 서열보다 짧다. 일부 구현예에서, 데드 가이드는 뉴클레아제 활성을 갖는 각각의 가이드 RNA보다 5%, 10%, 20%, 30%, 40%, 또는 50% 더 짧다. 가이드 RNA의 데드 가이드 서열은 13 내지 15개의 뉴클레오티드 길이(예를 들어, 13, 14, 또는 15개의 뉴클레오티드 길이), 15 내지 19개의 뉴클레오티드 길이, 또는 17 내지 18개의 뉴클레오티드 길이(예를 들어, 17개의 뉴클레오티드 길이)일 수 있다.

따라서, 일 양태에서, 본 개시내용은 본원에 기재된 바와 같은 기능적 CRISPR-연관 단백질, 및 crRNA를 포함하는 비-천연 발생 또는 조작된 CRISPR 시스템을 제공하며, 여기서 crRNA는 데드 crRNA 서열을 포함하여 crRNA가 표적 서열에 혼성화할 수 있어서 CRISPR 시스템이 검출가능한 뉴클레아제 활성(예를 들어, RNase 활성) 없이 세포에서 관심 게놈 유전자좌로 향하도록 한다.

데드 가이드에 대한 상세한 설명은, 예를 들어 국제 공개 WO 2016/094872에 기재되어 있으며, 이는 전체가 본원에 참고로 포함된다.

가이드 RNA(예를 들어, crRNA)는 유도성 시스템의 성분으로서 생성될 수 있다. 시스템의 유도성 특성은 유전자 편집 또는 유전자 발현의 시공간 제어를 허용한다. 일부 구현예에서, 유도성 시스템에 대한 자극은, 예를 들어 전자기 복사, 소리 에너지, 화학 에너지, 및/또는 열 에너지를 포함한다.

일부 구현예에서, 가이드 RNA(예를 들어, crRNA)의 전사는 유도성 프로모터, 예를 들어 테트라사이클린 또는 독시사이클린 제어된 전사 활성화(Tet-On 및 Tet-Off 발현 시스템), 호르몬 유도성 유전자 발현 시스템(예를 들어, 엑디손 유도성 유전자 발현 시스템) 및 아라비노스-유도성 유전자 발현 시스템에 의해 조절될 수 있다. 유도성 시스템의 다른 예는, 예를 들어 소분자 2-하이브리드 전사 활성화 시스템(FKBP, ABA 등), 광 유도성 시스템(피토크롬, LOV 도메인 또는 크립토크롬), 또는 광 유도성 전사 이펙터(LITE)를 포함한다. 이러한 유도성 시스템은, 예를 들어 WO 2016205764 및 미국 특허 8,795,965에 기재되어 있으며, 이들 둘 모두 전체가 본원에 참고로 포함된다.

화학적 변형은 crRNA의 인산염 백본, 당 및/또는 염기에 적용될 수 있다. 포스포로티오에이트와 같은 백본 변형은 포스페이트 백본 상의 전하를 변형하고 올리고뉴클레오티드의 전달 및 뉴클레아제 내성을 돕고(예를 들어, 문헌[Eckstein, "Phosphorothioates, essential components of therapeutic oligonucleotides," Nucl. Acid Ther., 24, pp. 374-387, 2014] 참조); 2'-O-메틸(2'-OMe), 2'-F 및 잠금 핵산(LNA)과 같은 당의 변형은 염기쌍 형성과 뉴클레아제 내성을 모두 향상시킨다(예를 들어, 문헌[Allerson et al. "Fully 2'-modified oligonucleotide duplexes with improved in vitro potency and stability compared to unmodified small interfering RNA," J. Med. Chem. 48.4: 901-904, 2005] 참조). 특히 2-티오우리딘 또는 N6-메틸아데노신과 같은 화학적으로 변형된 염기는 더 강하거나 더 약한 염기쌍을 허용할 수 있다(예를 들어, 문헌[Bramsen et al., "Development of therapeutic-grade small interfering RNAs by chemical engineering," Front. Genet., 2012 Aug. 20; 3:154] 참조). 또한, RNA는 형광 염료, 폴리에틸렌 글리콜 또는 단백질을 포함한 다양한 기능적 모이어티와 5' 및 3' 말단 접합 모두에 적합하다.

화학적으로 합성된 crRNA 분자에 매우 다양한 변형을 적용할 수 있다. 예를 들어, 뉴클레아제 내성을 개선하기 위해 2'-OMe로 올리고뉴클레오티드를 변형하면 왓슨-크릭(Watson-Crick) 염기쌍 형성의 결합 에너지를 변경할 수 있다. 또한, 2'-OMe 변형은 올리고뉴클레오티드가 형질주입 시약, 단백질 또는 세포의 임의의 다른 분자와 상호작용하는 방식에 영향을 미칠 수 있다. 이러한 변형의 효과는 경험적 테스트에 의해 결정될 수 있다.

일부 구현예에서, crRNA는 하나 이상의 포스포로티오에이트 변형을 포함한다. 일부 구현예에서, crRNA는 염기쌍 형성을 향상시키고/시키거나 뉴클레아제 내성을 증가시킬 목적으로 하나 이상의 잠금 핵산을 포함한다.

이러한 화학적 변형에 대한 요약은, 예를 들어 문헌[Kelley et al., "Versatility of chemically synthesized guide RNAs for CRISPR-Cas9 genome editing," J. Biotechnol. 233:74-83, 2016]; WO 2016 205764; 및 미국 특허 8,795,965 B2에서 찾을 수 있으며; 이들 각각은 전체가 본원에 참고로 포함된다.

본원에 기재된 RNA 가이드(예를 들어, crRNA)의 서열 및 길이는 최적화될 수 있다. 일부 구현예에서, RNA 가이드의 최적화된 길이는 crRNA의 가공처리된 형태(즉, 성숙 crRNA)를 확인함으로써, 또는 crRNA 테트라루프에 대한 경험적 길이 연구에 의해 결정될 수 있다.

crRNA는 또한 하나 이상의 앱타머 서열을 포함할 수 있다. 앱타머는 특정한 3차원 구조를 갖고 특정 표적 분자에 결합할 수 있는 올리고뉴클레오티드 또는 펩티드 분자이다. 앱타머는 유전자 이펙터, 유전자 활성자 또는 유전자 억제자에 특이적일 수 있다. 일부 구현예에서, 앱타머는 단백질에 특이적일 수 있고, 이는 결국 특정 유전자 이펙터, 유전자 활성자 또는 유전자 억제자에 특이적이고 이를 동원하고/하거나 결합한다. 이펙터, 활성자 또는 억제자는 융합 단백질의 형태로 존재할 수 있다. 일부 구현예에서, 가이드 RNA는 동일한 어댑터 단백질에 특이적인 2개 이상의 앱타머 서열을 갖는다. 일부 구현예에서, 2개 이상의 앱타머 서열은 상이한 어댑터 단백질에 특이적이다. 어댑터 단백질은, 예를 들어 MS2, PP7, Qβ, F2, GA, fr, JP501, M12, R17, BZ13, JP34, JP500, KU1, M11, MX1, TW18, VK, SP, FI, ID2, NL95, TW19, AP205, φkCb5, φkCb8r, φkCb12r, φkCb23r, 7s, 및 PRR1을 포함할 수 있다. 따라서, 일부 구현예에서, 앱타머는 본원에 기재된 어댑터 단백질 중 어느 하나에 특이적으로 결합하는 결합 단백질로부터 선택된다. 일부 구현예에서, 앱타머 서열은 MS2 결합 루프(5'-ggcccAACAUGAGGAUCACCCAUGUCUGCAGgggcc-3)이다. 일부 구현예에서, 앱타머 서열은 Q베타 결합 루프(5'-ggcccAUGCUGUCUAAGACAGCAUgggcc-3')이다. 일부 구현예에서, 앱타머 서열은 PP7 결합 루프(5'-ggcccUAAGGGUUUAUAUGGAAACCCUUAgggcc-3')이다. 앱타머에 대한 상세한 설명은, 예를 들어 문헌[Nowak et al., "Guide RNA engineering for versatile Cas9 functionality," Nucl. Acid. Res., 44(20):9555-9564, 2016]; 및 WO 2016205764에서 찾을 수 있으며, 이들은 전체가 본원에 참고로 포함된다.

특정 구현예에서, 방법은 화학적으로 변형된 가이드 RNA를 사용한다. 가이드 RNA 화학적 변형의 예는 하나 이상의 말단 뉴클레오티드에서 2'-O-메틸(M), 2'-O-메틸 3'-포스포로티오에이트(MS) 또는 2'-O-메틸 3'-티오PACE(MSP)의 혼입을 포함하지만 이에 제한되지 않는다. 이러한 화학적으로 변형된 가이드 RNA는 비변형된 가이드 RNA와 비교하여 증가된 안정성 및 증가된 활성을 포함할 수 있지만, 표적 대 표적-외 특이성은 예측할 수 없다. 본원에 참고로 포함된 문헌[Hendel, Nat Biotechnol. 33(9):985-9, 2015]을 참조한다. 화학적으로 변형된 가이드 RNA는 제한 없이 포스포로티오에이트 연결을 갖는 RNA 및 리보스 고리의 2' 및 4' 탄소 사이의 메틸렌 다리를 포함하는 잠금 핵산(LNA) 뉴클레오티드를 추가로 포함할 수 있다.

본 발명은 또한 다중 핵산 성분을 전달하는 방법을 포함하며, 여기서 각각의 핵산 성분은 상이한 관심 표적 유전자좌에 특이적이어서 다중 관심 표적 유전자좌를 변형시킨다. 복합체의 핵산 성분은 하나 이상의 단백질-결합 RNA 앱타머를 포함할 수 있다. 하나 이상의 앱타머는 박테리오파지 코트 단백질을 결합할 수 있다. 박테리오파지 코트 단백질은 Qβ, F2, GA, fr, JP501, MS2, M12, R17, BZ13, JP34, JP500, KU1, M11, MX1, TW18, VK, SP, FI, ID2, NL95, TW19, AP205, φCb5, φCb8r, φCb12r, φCb23r, 7s, 및 PRR1를 포함하는 군으로부터 선택될 수 있다. 특정 구현예에서, 박테리오파지 코트 단백질은 MS2이다.

5. 표적 RNA

표적 RNA는 천연 발생 및 조작된 RNA 분자를 포함하여 관심 있는 임의의 RNA 분자일 수 있다. 표적 RNA는 mRNA, tRNA, 리보솜 RNA(rRNA), 마이크로RNA(miRNA), 간섭 RNA(siRNA), 리보자임, 리보스위치, 위성 RNA, 마이크로스위치, 마이크로자임 또는 바이러스 RNA일 수 있다.

일부 구현예에서, 표적 핵산은 병태 또는 질병(예를 들어, 감염성 질병 또는 암)과 연관된다.

따라서, 일부 구현예에서, 본원에 기재된 시스템을 사용하여 이러한 핵산을 표적화함으로써 병태 또는 질병을 치료할 수 있다. 예를 들어, 병태 또는 질병과 연관된 표적 핵산은 질병에 걸린 세포(예를 들어, 암 또는 종양 세포)에서 과발현되는 RNA 분자일 수 있다. 표적 핵산은 또한 독성 RNA 및/또는 돌연변이된 RNA(예를 들어, 스플라이싱 결함 또는 돌연변이를 갖는 mRNA 분자)일 수 있다. 표적 핵산은 또한 특정 미생물(예를 들어, 병원성 박테리아)에 대해 특이적인 RNA일 수 있다.

6. 복합체 및 세포

본 발명의 일 양태는 (1) 본 명세서에 기재된 바와 같은 Cas13e/Cas13f 이펙터 단백질, 이의 동족체, 동원체, 융합체, 유도체, 접합체, 또는 기능적 단편 중 임의의 것, 및 (2) 표적 RNA에 대해 적어도 부분적으로 상보적이도록 설계된 스페이서 서열, 및 Cas13e/Cas13f 이펙터 단백질, 이의 동족체, 동원체, 융합체, 유도체, 접합체 또는 기능적 단편과 양립가능한 DR 서열을 각각 포함하는 본원에 기재된 임의의 가이드 RNA를 포함하는 CRISPR/Cas13e 또는 CRISPR/Cas13f 복합체를 제공한다.

특정 구현예에서, 복합체는 가이드 RNA에 의해 결합된 표적 RNA를 추가로 포함한다.

특정 구현예에서, 복합체는 자연적으로 존재/발생하지 않는다. 예를 들어, 복합체의 성분 중 적어도 하나는 자연적으로 존재/발생하지 않는다. 특정 구현예에서, Cas13e/Cas13f 이펙터 단백질, 이의 동족체, 동원체, 융합체, 유도체, 접합체, 또는 기능적 단편은, 예를 들어 야생형 단백질과 비교하여 적어도 하나의 아미노산 돌연변이(결실, 삽입 및/또는 치환)의 존재로 인해 자연적으로 발생/존재하지 않는다. 특정 구현예에서, DR 서열은 자연적으로 발생/존재하지 않으며, 즉, 예를 들어 야생형 서열에서 적어도 하나의 뉴클레오티드 염기의 추가, 결실 및/또는 치환으로 인해 서열번호 8 내지 14 중 어느 하나가 아니다. 특정 구현예에서, 스페이서 서열은 대상 Cas13e 또는 Cas13f가 존재하는 원핵생물의 야생형 CRISPR 유전자좌에 존재하는 임의의 스페이서 서열에 의해 코딩되거나 존재하지 않는다는 점에서 자연적으로 발생하지 않는다. 스페이서 서열은 천연 발생 박테리오파지 핵산에 100% 상보적이지 않을 때 자연적으로 존재하지 않을 수 있다.

관련된 양태에서, 본 발명은 또한 본 발명의 임의의 복합체를 포함하는 세포를 제공한다.

특정 구현예에서, 세포는 원핵생물이다.

특정 구현예에서, 세포는 진핵생물이다. 세포가 진핵생물인 경우, 진핵생물 세포에서 복합체는 Cas13e/Cas13f가 분리된 원핵생물에서 자연적으로 존재하는 Cas13e/Cas13f 복합체일 수 있다.

7. CRISPR 시스템의 사용 방법

본원에 기재된 CRISPR 시스템은 다수의 세포 유형에서 표적 폴리뉴클레오티드 또는 핵산의 변형(예를 들어, 결실, 삽입, 전위, 불활성화 또는 활성화)을 포함하는 매우 다양한 유용성을 갖는다. CRISPR 시스템은, 예를 들어 DNA/RNA 검출(예를 들어, 특이적 고감도 효소 리포터 잠금해제(SHERLOCK)), 핵산 추적 및 표지화, 농축 검정(배경에서 원하는 서열 추출), 간섭 RNA 또는 miRNA 제어, 순환하는 종양 DNA 검출, 차세대 라이브러리 제조, 약물 스크리닝, 질병 진단 및 예후, 다양한 유전 장애 치료와 같은 광범위한 응용 분야를 가지고 있다.

DNA/RNA 검출

일 양태에서, 본원에 기재된 CRISPR 시스템은 DNA 또는 RNA 검출에 사용될 수 있다. 실시예에 나타낸 바와 같이, 본 발명의 Cas13e 및 Cas13f 단백질은 스페이서 서열이 약 30개의 뉴클레오티드일 때, 가이드 RNA-의존성 특이적 RNase 활성의 활성화시에 비-특이적/부수적 RNase 활성을 나타낸다. 따라서, 본 발명의 CRISPR-연관 단백질은 CRISPR RNA(crRNA)로 재프로그래밍되어 특이적 RNA 감지를 위한 플랫폼을 제공할 수 있다. 특정 스페이서 서열 길이를 선택하고 RNA 표적을 인식하면, 활성화된 CRISPR-연관 단백질이 인근 비-표적 RNA의 "부수적" 절단에 관여한다. 이 crRNA-프로그래밍된 부수적 절단 활성은 CRISPR 시스템이 세포예정사를 촉발하거나 표지된 RNA의 비특이적 분해에 의해 특정 RNA의 존재를 검출할 수 있도록 한다.

SHERLOCK(Specific High Sensitivity Enzymatic Reporter UnLOCKing, 특이적 고감도 효소 리포터 잠금해제) 방법은 리포터 RNA의 부수적 절단 및 핵산 증폭을 기반으로 하는 아토몰라 민감도의 시험관내 핵산 검출 플랫폼을 제공하여, 표적을 실시간으로 검출할 수 있게 한다. 신호 검출을 달성하기 위해, 검출은 다른 등온 증폭 단계와 조합될 수 있다. 예를 들어, 재조합효소 중합효소 증폭(RPA)은 T7 전사와 커플링되어 후속 검출을 위해 증폭된 DNA를 RNA로 전환할 수 있다. RPA에 의한 증폭, 증폭된 DNA의 RNA로의 T7 RNA 중합효소 전사 및 리포터 신호의 부수적 RNA 절단-매개된 방출에 의한 표적 RNA 검출의 조합을 SHERLOCK이라고 지칭한다. SHERLOCK에서 CRISPR를 사용하는 방법은 문헌[Gootenberg, et al. "Nucleic acid detection with CRISPR-Cas13a/C2c2," Science, 2017 Apr. 28; 356(6336):438-442]에 기재되어 있으며, 이는 전체가 본원에 참고로 포함된다.

CRISPR-연관 단백질은 전기영동을 사용하여 RNA 샘플을 크기별로 분리하는 노던 블롯 검정에 사용될 수 있다. CRISPR-연관 단백질은 표적 RNA 서열에 특이적으로 결합하고 이를 검출하는 데 사용될 수 있다. CRISPR-연관 단백질은 또한 형광 단백질(예를 들어, GFP)에 융합되어 살아있는 세포에서 RNA 국소화를 추적하는 데 사용될 수 있다. 보다 구체적으로, CRISPR-연관 단백질은 상기 기재된 바와 같이 RNA를 더 이상 절단하지 않는다는 점에서 불활성화될 수 있다. 따라서, CRISPR-연관 단백질은 RNA 또는 특이적 스플라이스 변이체의 위치, mRNA 전사체 수준, 전사체의 상향 또는 하향 조절 및 질병-특이적 진단을 결정하는 데 사용될 수 있다. CRISPR-연관 단백질은, 예를 들어 형광 현미경 검사법 또는 형광-활성화 세포 분류(FACS)와 같은 유세포 분석법을 사용하여 (살아 있는) 세포의 RNA를 시각화하는 데 사용될 수 있으며, 이는 세포 분류 후 세포의 고-처리량 스크리닝 및 살아있는 세포의 회수를 허용한다. DNA 및 RNA를 검출하는 방법에 관한 상세한 설명은, 예를 들어, 국제 공개 WO 2017/070605에서 찾을 수 있으며, 이는 전체가 본원에 참고로 포함된다.

일부 구현예에서, 본원에 기재된 CRISPR 시스템은 다중화된 오류-강건한 형광 제자리 혼성화(MERFISH, multiplexed error-robust fluorescence in situ hybridization)에 사용될 수 있다. 이러한 방법 예를 들어 문헌[Chen et al., "Spatially resolved, highly multiplexed RNA profiling in single cells," Science, 2015 Apr. 24; 348(6233):aaa6090]에 기재되어 있으며, 이는 전체가 본원에 참고로 포함된다.

일부 구현예에서, 본원에 기재된 CRISPR 시스템을 사용하여 샘플(예를 들어, 임상 샘플, 세포 또는 세포 용해물)에서 표적 RNA를 검출할 수 있다. 본원에 기재된 유형 VI-E 및/또는 VI-F CRISPR-Cas 이펙터 단백질의 부수적인 RNase 활성은 스페이서 서열이 특정 선택된 길이(예를 들어, 약 30개의 뉴클레오티드)일 때 이펙터 단백질이 표적 핵산에 결합할 때 활성화된다. 관심 표적 RNA에 결합할 때, 이펙터 단백질은 표지된 검출기 RNA를 절단하여 신호(예를 들어, 증가된 신호 또는 감소된 신호)를 생성함으로써 샘플에서 표적 RNA의 정성적 및 정량적 검출을 가능하게 한다. 샘플에서 RNA의 특이적 검출 및 정량화는 진단을 포함한 다양한 응용을 가능하게 한다. 일부 구현예에서, 방법은 샘플을 i) RNA 가이드(예를 들어, crRNA) 및/또는 RNA 가이드를 코딩하는 핵산(여기서, RNA 가이드는 직접 반복 서열 및 표적 RNA에 혼성화할 수 있는 스페이서 서열로 이루어짐); (ii) 유형 VI-E 또는 VI-F CRISPR-Cas 이펙터 단백질(Cas13e 또는 Cas13f) 및/또는 이펙터 단백질을 코딩하는 핵산; 및 (iii) 표지된 검출기 RNA과 접촉시키되; 여기서 이펙터 단백질은 RNA 가이드와 회합하여 복합체를 형성하고; 여기서 RNA 가이드는 표적 RNA에 혼성화하고; 복합체가 표적 RNA에 결합할 때, 이펙터 단백질은 부수적 RNase 활성을 나타내고 표지된 검출기 RNA를 절단하는 것인, 단계; 및 b) 표지된 검출기 RNA의 절단에 의해 생성된 검출가능한 신호를 측정하는 단계를 포함하며, 여기서 상기 측정은 샘플에서 단일-가닥 표적 RNA의 검출을 제공한다. 일부 구현예에서, 방법은 검출가능한 신호를 기준 신호와 비교하는 단계 및 샘플에서 표적 RNA의 양을 결정하는 단계를 추가로 포함한다. 일부 구현예에서, 측정은 금 나노입자 검출, 형광 분극, 콜로이드 상전이/분산, 전기화학적 검출, 및 반도체 기반-감지를 사용하여 수행된다. 일부 구현예에서, 표지된 검출기 RNA는 형광-방출 염료 쌍, 형광 공명 에너지 전달(FRET) 쌍, 또는 소광제/형광 쌍을 포함한다. 일부 구현예에서, 이펙터 단백질에 의한 표지된 검출기 RNA의 절단 시에, 표지된 검출기 RNA에 의해 생성된 검출가능한 신호의 양이 감소되거나 증가된다. 일부 구현예에서, 표지된 검출기 RNA는 이펙터 단백질에 의한 절단 전에 제1 검출가능한 신호 및 이펙터 단백질에 의한 절단 후에 제2 검출가능한 신호를 생성한다. 일부 구현예에서, 표지된 검출기 RNA가 이펙터 단백질에 의해 절단될 때 검출가능한 신호가 생성된다. 일부 구현예에서, 표지된 검출기 RNA는 변형된 핵염기, 변형된 당 모이어티, 변형된 핵산 연결, 또는 이들의 조합을 포함한다. 일부 구현예에서, 방법은 여러 유형 VI-E 및/또는 VI-F CRISPR-Cas(Cas13e 및/또는 Cas13f) 시스템을 사용하여 샘플에서 다중 독립적인 표적 RNA(예를 들어, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 30, 40개, 또는 더 많은 표적 RNA)의 다중 채널 검출을 포함하고, 각각은 별개의 동원체성 이펙터 단백질 및 상응하는 RNA 가이드를 포함하여 샘플에서 다중 표적 RNA의 분화를 허용한다. 일부 구현예에서, 상기 방법은 각각 분화가능한 부수적 RNase 기질을 갖는 동원체성 이펙터 단백질을 함유하는, 유형 VI-E 및/또는 VI-F CRISPR-Cas 시스템의 여러 경우를 사용하여 샘플에서 다중 독립적인 표적 RNA의 다중-채널 검출을 포함한다. CRISPR-연관 단백질을 사용하여 샘플에서 RNA를 검출하는 방법은, 예를 들어 미국 특허 공개 2017/0362644에 기재되어 있으며, 이의 전체 내용은 본원에 참고로 포함된다.

핵산 추적 및 표지화

세포 과정은 단백질, RNA 및 DNA 간의 분자 상호작용 네트워크에 의존한다. 단백질-DNA 및 단백질-RNA 상호작용의 정확한 검출은 이러한 과정을 이해하는 데 중요하다. 시험관내 근접 표지화 기법은 리포터 기, 예를 들어 광활성화가능한 기와 조합된 친화성 태그를 사용하여 시험관내 관심 있는 단백질 또는 RNA 부근에 있는 폴리펩티드 및 RNA를 표지화한다. UV 조사 후, 광활성화 기는 태그된 분자에 매우 근접한 단백질 및 기타 분자와 반응하여 표지화한다. 표지된 상호작용 분자는 이후에 회수 및 식별될 수 있다. CRISPR-연관 단백질은, 예를 들어 선택된 RNA 서열에 대한 프로브를 표적화하는 데 사용될 수 있다. 이러한 응용은 또한 질병 또는 배양하기 어려운 세포 유형의 생체 내 이미징을 위한 동물 모델에 적용될 수 있다. 핵산의 추적 및 표지 방법은, 예를 들어 미국 특허 8,795,965, WO 2016 205764, 및 WO 2017070605에 기재되어 있으며; 이들 각각은 전체가 본원에 참고로 포함된다.

RNA 분리, 정제, 농축 및/또는 고갈

본원에 기재된 CRISPR 시스템(예를 들어, CRISPR-연관 단백질)은 RNA를 분리 및/또는 정제하는 데 사용될 수 있다. CRISPR-연관 단백질은 RNA-CRISPR-연관 단백질 복합체를 분리 및/또는 정제하는 데 사용될 수 있는 친화성 태그에 융합될 수 있다. 이러한 응용은, 예를 들어 세포의 유전자 발현 프로파일 분석에 유용하다.

일부 구현예에서, CRISPR-연관 단백질을 사용하여 특이적 비코딩 RNA(ncRNA)를 표적화하는 데 사용되어 이의 활성을 차단할 수 있다. 일부 구현예에서, CRISPR-연관 단백질은 특정 RNA(안정성 증가 등을 포함하나 이에 제한되지 않음)를 특이적으로 농축하거나 대안적으로 특정 RNA(예를 들어, 특정 스플라이스 변이체, 이소폼 등)를 특이적으로 고갈시키는 데 사용될 수 있다.

이들 방법은, 예를 들어 미국 특허 8,795,965, WO 2016 205764, 및 WO 2017070605에 기재되어 있으며; 이들 각각은 전체가 본원에 참고로 포함된다.

고-처리량 스크리닝

본원에 기재된 CRISPR 시스템은 차세대 시퀀싱(NGS) 라이브러리를 제조하는 데 사용될 수 있다. 예를 들어, 비용-효율적인 NGS 라이브러리를 생성하기 위해, CRISPR 시스템을 사용하여 표적 유전자의 코딩 서열을 파괴할 수 있으며, CRISPR-연관 단백질 형질주입된 클론은 차세대 시퀀싱(예를 들어, Ion Torrent PGM 시스템)에 의해 동시에 스크리닝될 수 있다. NGS 라이브러리를 제조하는 방법에 대한 자세한 설명은, 예를 들어 문헌[Bell et al., "A high-throughput screening strategy for detecting CRISPR-Cas9 induced mutations using next-generation sequencing," BMC Genomics, 15.1 (2014): 1002]에서 찾을 수 있으며, 이는 전체가 본원에 참고로 포함된다.

조작된 미생물

미생물(예를 들어, 대장균, 효모 및 미세조류)은 합성 생물학에 널리 사용된다. 합성 생물학의 발전은 다양한 임상 응용을 포함하여 광범위한 효용을 가지고 있다. 예를 들어, 프로그래밍가능한 CRISPR 시스템은 표적 전사체로서 암-관련 RNA를 사용하여 표적 세포 사멸을 위해 독성 도메인의 단백질을 분할하는 데 사용될 수 있다. 또한, 단백질-단백질 상호작용을 포함하는 경로는, 예를 들어 키나제 또는 효소와 같은 적절한 이펙터를 갖는 융합 복합체를 사용하는 합성 생물학적 시스템에서 영향을 받을 수 있다.

일부 구현예에서, 파지 서열을 표적화하는 crRNA는 미생물 내로 도입될 수 있다. 따라서, 본 개시내용은 또한 파지 감염에 대해 미생물(예를 들어, 생산 균주)을 백신접종하는 방법을 제공한다.

일부 구현예에서, 본원에서 제공되는 CRISPR 시스템은, 예를 들어 수율을 개선하거나 발효 효율을 개선하기 위해 미생물을 조작하는 데 사용될 수 있다. 예를 들어, 본원에 기재된 CRISPR 시스템은 발효성 당으로부터 바이오연료 또는 바이오폴리머를 생성하기 위해, 또는 발효성 당의 공급원으로서 농업 폐기물로부터 유래된 식물-유래 리그노셀룰로오스를 분해하기 위해 효모와 같은 미생물을 조작하는 데 사용될 수 있다. 보다 구체적으로, 본원에 기재된 방법은 바이오연료 생산에 필요한 내인성 유전자의 발현을 변형하고/하거나 바이오연료 합성을 방해할 수 있는 내인성 유전자를 변형하는 데 사용될 수 있다. 미생물을 조작하는 이러한 방법은, 예를 들어 문헌[Verwaal et al., "CRISPR/Cpf1 enables fast and simple genome editing of Saccharomyces cerevisiae," Yeast doi: 10.1002/yea.3278, 2017]; 및 [Hlavova et al., "Improving microalgae for biotechnology-from genetics to synthetic biology," Biotechnol. Adv., 33:1194-203, 2015]에 기재되어 있으며, 이들은 둘 모두 참고로 본원에 포함된다.

일부 구현예에서, 본원에 제공된 CRISPR 시스템은 세포(예를 들어, 조작된 미생물과 같은 미생물)의 사멸 또는 휴면을 유도하는 데 사용될 수 있다. 이들 방법은 포유동물 세포(예를 들어, 암세포 또는 조직 배양 세포), 원생동물, 진균 세포, 바이러스에 감염된 세포, 세포내 박테리아에 감염된 세포, 세포내 원생동물에 감염된 세포, 프리온에 감염된 세포, 박테리아(예를 들어, 병원성 및 비병원성 박테리아), 원생동물, 단세포 및 다세포 기생충을 포함하지만 이에 제한되지 않는 원핵 및 진핵 세포를 포함한 다양한 세포 유형의 휴면 또는 사멸을 유도하는 데 사용될 수 있다. 예를 들어, 합성 생물학 분야에서는 조작된 미생물(예를 들어, 박테리아)의 번식 또는 전파를 방지하기 위해 이를 제어하는 메커니즘을 갖는 것이 매우 바람직하다. 본원에 기재된 시스템은 조작된 미생물의 번식 또는 전파를 조절 및/또는 방지하기 위한 "사멸-스위치(kill-switch)"로서 사용될 수 있다. 또한, 현재의 항생제 치료에 대한 대안이 당업계에 필요하다. 본원에 기재된 시스템은 또한 특정 미생물 집단(예를 들어, 박테리아 집단)을 사멸하거나 제어하는 것이 바람직한 적용에서 사용될 수 있다. 예를 들어, 본원에 기재된 시스템은 속-, 종-, 또는 균주-특이적이고 세포에 전달될 수 있는 핵산(예를 들어, RNA)을 표적으로 하는 RNA 가이드(예를 들어, crRNA)를 포함할 수 있다. 표적 핵산과 복합체를 형성하고 결합하면, 유형 VI-E 및/또는 VI-F CRISPR-Cas 이펙터 단백질의 부수적인 RNase 활성이 활성화되어 미생물 내 비-표적 RNA가 절단되어 궁극적으로 휴면 또는 사멸된다. 일부 구현예에서, 방법은 유형 VI-E 및/또는 VI-F CRISPR-Cas 이펙터 단백질 또는 이펙터 단백질을 코딩하는 핵산, 및 RNA 가이드(예를 들어, crRNA) 또는 RNA 가이드를 코딩하는 핵산를 포함하는 본원에 기재된 시스템과 세포를 접촉시키는 것을 포함하며, 여기서 스페이서 서열은 표적 핵산(예를 들어, 속-, 균주- 또는 종-특이적 RNA 가이드)의 적어도 15개의 뉴클레오티드(예를 들어, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 35, 40, 45, 50개 이상의 뉴클레오티드)에 상보적이다. 특정 이론에 구속되고자 하지 않지만, 유형 VI-E 및/또는 VI-F CRISPR-Cas 이펙터 단백질에 의한 비-표적 RNA의 절단은 세포예정사, 세포 독성, 세포자연사, 괴사, 세포자멸괴사, 세포 사멸, 세포 주기 정지, 세포 무반응, 세포 성장 감소 또는 세포 증식 감소를 유도할 수 있다. 예를 들어, 박테리아에서 유형 VI-E 및/또는 VI-F CRISPR-Cas 이펙터 단백질에 의한 비-표적 RNA의 절단은 정균 또는 살균일 수 있다.

식물에서의 응용

본원에 기재된 CRISPR 시스템은 식물에서 매우 다양한 유용성을 갖는다. 일부 구현예에서, CRISPR 시스템은 식물의 게놈을 조작하는 데 사용될 수 있다(예를 들어, 생산 개선, 원하는 번역 후 변형이 있는 생성물 제조, 또는 산업 생성물 생산을 위한 유전자 도입). 일부 구현예에서, CRISPR 시스템은 원하는 형질을 (예를 들어, 게놈에 대한 유전가능한 변형이 있거나 없는) 식물에 도입하거나, 식물 세포 또는 전체 식물에서 내인성 유전자의 발현을 조절하는 데 사용될 수 있다.

일부 구현예에서, CRISPR 시스템은 특정 단백질, 예를 들어 알레르기 단백질(예를 들어, 땅콩, 대두, 렌즈콩, 완두콩, 껍질콩 및 녹두의 알레르기 단백질)을 코딩하는 유전자를 식별, 편집 및/또는 침묵시키는 데 사용될 수 있다. 단백질을 코딩하는 유전자를 식별, 편집 및/또는 침묵시키는 방법에 관한 상세한 설명은, 예를 들어 문헌[Nicolaou et al., "Molecular diagnosis of peanut and legume allergy," Curr. Opin. Allergy Clin. Immunol. 11(3):222-8, 2011], 및 WO 2016 205764 A1에 기재되어 있으며; 이들은 둘 모두 전체가 본원에 참고로 포함된다.

유전자 드라이브

유전자 드라이브는 특정 유전자 또는 유전자 세트의 유전이 유리하게 편향되는 현상이다. 본원에 기재된 CRISPR 시스템은 유전자 드라이브를 구축하는 데 사용될 수 있다. 예를 들어, CRISPR 시스템은 유전자의 특정 대립유전자를 표적으로 하고 파괴하도록 설계되어 세포가 서열을 고정하기 위해 제2 대립유전자를 복제하도록 할 수 있다. 복제로 인해, 제1 대립유전자가 제2 대립유전자로 전환되어, 제2 대립유전자가 자손에게 전달될 가능성이 높아진다. 유전자 드라이브를 구축하기 위해 본원에 기재된 CRISPR 시스템을 사용하는 방법에 대한 자세한 방법은, 예를 들어 문헌[Hammond et al., "A CRISPR-Cas9 gene drive system targeting female reproduction in the malaria mosquito vector Anopheles gambiae," Nat. Biotechnol. 34(1):78-83, 2016]에 기재되어 있으며, 이는 전체가 본원에 참고로 포함된다.

풀링된-스크리닝(Pooled-Screening)

본원에 기재된 풀링된 CRISPR 스크리닝은 세포 증식, 약물 내성 및 바이러스 감염과 같은 생물학적 메커니즘에 관여하는 유전자를 식별하기 위한 강력한 도구이다. 세포는 본원에 기재된 가이드 RNA(gRNA)-코딩 벡터의 라이브러리로 대량으로 형질도입되고, gRNA의 분포는 선택적 시험투여를 적용하기 전후에 측정된다. 풀링된 CRISPR 스크린은 세포 생존 및 증식에 영향을 미치는 메커니즘에 대해 잘 작동하며 개별 유전자의 활성을 측정하도록 확장될 수 있다(예를 들어, 조작된 리포터 세포주의 사용에 의함). 한 번에 하나의 유전자만 표적으로 하는 어레이된 CRISPR 스크린을 사용하면 RNA-seq를 판독값으로 사용할 수 있다. 일부 구현예에서, 본원에 기재된 바와 같은 CRISPR 시스템은 단일-세포 CRISPR 스크린에서 사용될 수 있다. 풀링된 CRISPR 스크리닝에 대한 자세한 설명은, 예를 들어 문헌[Datlinger et al., "Pooled CRISPR screening with single-cell transcriptome read-out," Nat. Methods. 14(3):297-301, 2017]에서 찾을 수 있으며, 이는 전체가 본원에 참고로 포함된다.

포화 돌연변이유발(배싱(Bashing))

본원에 기재된 CRISPR 시스템은 제자리 포화 돌연변이유발에 사용될 수 있다. 일부 구현예에서, 풀링된 가이드 RNA 라이브러리를 사용하여 특정 유전자 또는 조절 요소에 대한 제자리 포화 돌연변이유발을 수행할 수 있다. 이러한 방법은 이러한 유전자 또는 조절 요소(예를 들어, 인핸서)의 중요한 최소 기능과 개별 취약성을 드러낼 수 있다. 이러한 방법은, 예를 들어 문헌[Canver et al., "BCL11A enhancer dissection by Cas9-mediated in situ saturating mutagenesis," Nature 527(7577):192-7, 2015]에 기재되어 있으며, 이는 전체가 본원에 참고로 포함된다.

RNA-관련 응용

본원에 기재된 CRISPR 시스템은 다양한 RNA 관련-적용, 예를 들어 유전자 발현 조절, RNA 분자 퇴화, RNA 발현 억제, RNA 또는 RNA 생성물 스크리닝, lincRNA 또는 비-코딩 RNA의 기능 결정, 세포 휴면 유도, 세포 주기 정지 유도, 세포 성장 및/또는 세포 증식 감소, 세포 무반응 유도, 세포 자연사 유도, 세포 괴사 유도, 세포 사멸 유도 및/또는 세포예정사 유도에 사용될 수 있다. 이들 응용에 대한 상세한 설명은, 예를 들어 WO 2016/205764 A1에서 찾을 수 있으며, 이는 전체가 본원에 참고로 포함된다. 상이한 구현예에서, 본원에 기재된 방법은 시험관내, 생체내 또는 생체외에서 수행될 수 있다.

예를 들어, 본원에 기재된 CRISPR 시스템은 질병 상태의 세포(예를 들어, 암 세포 또는 감염원으로 감염된 세포)에서 세포 사멸을 표적화하고 유도하기 위해 질병 또는 장애가 있는 대상체에게 투여될 수 있다. 예를 들어, 일부 구현예에서, 본원에 기재된 CRISPR 시스템을 사용하여 암 세포에서 세포 사멸을 표적화하고 유도할 수 있으며, 여기서 암 세포는 윌름스 종양, 유잉 육종, 신경내분비 종양, 교모세포종, 신경모세포종, 흑색종, 피부암, 유방암, 결장암, 직장암, 전립선암, 간암, 신장암, 췌장암, 폐암, 담도암, 자궁경부암, 자궁내막암, 식도암, 위암, 두경부암, 갑상선 수질암, 난소암, 신경교종, 림프종, 백혈병, 골수종, 급성 림프모구성 백혈병, 급성 골수성 백혈병, 만성 림프구성 백혈병, 만성 골수성 백혈병, 호지킨 림프종, 비호지킨 림프종 또는 방광암을 갖는 대상체로부터 유래한다.

유전자 발현 조절

본원에 기재된 CRISPR 시스템은 유전자 발현을 조절하는데 사용될 수 있다. CRISPR 시스템은 적합한 가이드 RNA와 함께 RNA 가공 제어를 통해 유전자 발현 표적화에 사용될 수 있다. RNA 가공의 제어는, 예를 들어 RNA 스플라이싱(예를 들어, 대체 스플라이싱), 바이러스 복제 및 tRNA 생합성과 같은 RNA 가공 반응을 포함할 수 있다. 적합한 가이드 RNA와 조합된 RNA 표적화 단백질은 또한 RNA 활성화(RNAa)를 제어하는 데 사용될 수 있다. RNA 활성화는 프로모터-표적 짧은 이중-가닥 RNA(dsRNA)가 전사/후성유전 수준에서 표적 유전자 발현을 유도하는 작은 RNA-유도 및 아르고노트(Argonaute)(Ago)-의존적 유전자 조절 현상이다. RNAa는 유전자 발현을 촉진하므로 RNAa의 파괴 또는 감소를 통한 방식으로 유전자 발현의 제어가 이루어질 수 있다. 일부 구현예에서, 방법은, 예를 들어 간섭 리보핵산(예를 들어, siRNA, shRNA 또는 dsRNA)에 대한 대체물로서 RNA 표적화 CRISPR의 사용을 포함한다. 유전자 발현을 조절하는 방법은, 예를 들어 WO 2016205764에 기재되어 있으며, 이는 전체가 본원에 참고로 포함된다.

RNA 간섭 제어

간섭 RNA 또는 마이크로RNA(miRNA)에 대한 제어는 생체내 또는 시험관내 간섭 RNA 또는 miRNA의 수명을 감소시켜 표적-외 효과를 줄이는 데 도움이 될 수 있다. 일부 구현예에서, 표적 RNA는 간섭 RNA, 즉 RNA 간섭 경로에 관여하는 RNA, 예컨대 소형 헤어핀 RNA(shRNA), 소형 간섭(siRNA) 등을 포함할 수 있다. 일부 구현예에서, 표적 RNA는, 예를 들어 miRNA 또는 이중 가닥 RNA(dsRNA)를 포함한다.

일부 구현예에서, RNA 표적화 단백질 및 적합한 가이드 RNA가 (예를 들어, 조절된 프로모터, 예를 들어 조직- 또는 세포 주기-특이적 프로모터 및/또는 인핸서의 제어 하에 공간적으로 또는 시간적으로) 선택적으로 발현되는 경우, 이는 세포 또는 시스템(생체 내 또는 시험관 내)을 해당 세포의 RNA 간섭(RNAi)으로부터 보호하는 데 사용될 수 있다. 이것은 RNAi가 필요하지 않은 인접 조직 또는 세포에서 또는 CRISPR-연관 단백질 및 적합한 crRNA가 발현되거나 발현되지 않는 세포 또는 조직(즉, 각각 RNAi가 제어되지 않고 있는 곳임다)의 비교 목적에 유용할 수 있다. RNA 표적화 단백질은 리보자임, 리보솜 또는 리보스위치와 같은 RNA를 포함하거나 이로 이루어진 분자를 제어하거나 이에 결합하는 데 사용될 수 있다. 일부 구현예에서, 가이드 RNA는 RNA 표적화 단백질이 이들 분자에 결합할 수 있도록 RNA 표적화 단백질을 이들 분자로 동원할 수 있다. 이들 방법은, 예를 들어 WO 2016205764 및 WO 2017070605에 기재되어 있으며, 이들 둘 모두는 전체가 본원에 참고로 포함된다.

리보스위치 변형 및 대사 조절 제어

리보스위치는 소분자에 결합하고 결국 유전자 발현을 조절하는 메신저 RNA의 조절 분절이다. 이 메커니즘을 통해 세포는 이러한 작은 분자의 세포 내 농도를 감지할 수 있다. 특정 리보스위치는 통상적으로 이 유전자의 전사, 번역 또는 스플라이싱을 변경하여 인접 유전자를 조절한다. 따라서, 일부 구현예에서, 리보스위치 활성은 리보스위치를 표적화하기 위해 적합한 가이드 RNA와 조합된 RNA 표적화 단백질의 사용에 의해 제어될 수 있다. 이것은 리보스위치의 절단 또는 이에 대한 결합을 통해 달성될 수 있다. 리보스위치를 제어하기 위해 CRISPR 시스템을 사용하는 방법은, 예를 들어 WO 2016205764 및 WO 2017070605에 기재되어 있으며, 이들 둘 모두는 전체가 본원에 참고로 포함된다.

RNA 변형

일부 구현예에서, 본원에 기재된 CRISPR-연관 단백질은 염기-편집 도메인, 예컨대 ADAR1, ADAR2, APOBEC, 또는 활성화-유도 시티딘 데아미나제(AID)에 융합될 수 있고, RNA 서열(예를 들어, mRNA)을 변형시키는 데 사용될 수 있다. 일부 구현예에서, CRISPR-연관 단백질은 CRISPR-연관 단백질이 RNA를 절단할 수 없도록 만드는 하나 이상의 돌연변이를 (예를 들어, 촉매 도메인에) 포함한다.

일부 구현예에서, CRISPR-연관 단백질은 MS2(또한 MS2 코트 단백질이라고도 함), Q베타(또한 Q베타 코트 단백질이라고도 함) 또는 PP7(또한 PP7 코트 단백질이라고도 함)과 같은 RNA-결합 도메인에 융합된 염기-편집 도메인(예를 들어, ADAR1, ADAR2, APOBEC 또는 AID)을 포함하는 RNA-결합 융합 폴리펩티드와 함께 사용될 수 있다. RNA-결합 도메인 MS2, Q베타 및 PP7의 아미노산 서열은 다음과 같다:

MS2(MS2 코트 단백질)

Q베타(Q베타 코트 단백질)

PP7(PP7 코트 단백질)

일부 구현예에서, RNA 결합 도메인은 본원에 기재된 시스템의 crRNA 상의 특이적 서열(예를 들어, 앱타머 서열) 또는 2차 구조 모티프에 결합할 수 있고(예를 들어, crRNA가 이펙터-crRNA 복합체에 있는 경우), 이에 의해 이펙터 복합체로 RNA 결합 융합 폴리펩티드(염기-편집 도메인을 가짐)를 동원할 수 있다. 예를 들어, 일부 구현예에서, CRISPR 시스템은 CRISPR 연관 단백질, 앱타머 서열(예를 들어, MS2 결합 루프, QBeta 결합 루프, 또는 PP7 결합 루프)을 갖는 crRNA, 및 앱타머 서열에 특이적으로 결합하는 RNA-결합 도메인에 융합된 염기-편집 도메인을 갖는 RNA-결합 융합 폴리펩티드를 포함한다. 이 시스템에서 CRISPR-연관 단백질은 앱타머 서열을 갖는 crRNA와 복합체를 형성한다. 추가로 RNA-결합 융합 폴리펩티드는 (앱타머 서열을 통해) crRNA에 결합함으로써 표적 RNA를 변형할 수 있는 삼중 복합체를 형성한다.

염기 편집을 위해 CRISPR 시스템을 사용하는 방법은, 특히 RNA 변형에 대한 논의와 관련하여, 예를 들어 국제 공개 WO 2017/219027에 기재되어 있으며, 이는 전체가 본원에 참조로 포함된다.

RNA 스플라이싱

일부 구현예에서, 본원에 기재된 불활성화된 CRISPR-연관 단백질(예를 들어, 촉매 도메인에 하나 이상의 돌연변이를 갖는 CRISPR 연관 단백질)을 사용하여 RNA 전사체 상의 특이적 스플라이싱 부위를 표적화하고 이에 결합할 수 있다. 불활성화된 CRISPR-연관 단백질이 RNA에 결합하면 스플라이스오솜과 전사체의 상호작용이 입체적으로 억제되어 특정 전사체 이소폼의 생성 빈도가 변경될 수 있다. 이러한 방법은 돌연변이가 있는 엑손이 성숙한 단백질에서 스킵될 수 있도록 엑손 스키핑을 통해 질병을 치료하는 데 사용될 수 있다. 스플라이싱을 변경하기 위해 CRISPR 시스템을 사용하는 방법은, 특히 RNA 스플라이싱에 대한 논의와 관련하여, 예를 들어 국제 공개 WO 2017/219027에 기재되어 있으며, 이는 전체가 본원에 참조로 포함된다.

치료적 응용

본원에 기재된 CRISPR 시스템은 다양한 치료적 응용을 가질 수 있다. 이러한 응용은 대상 CRISPR/Cas13e 또는 Cas13f 시스템의 시험관내 및 생체내 둘 모두에서 다음 능력 중 하나 이상을 기반으로 할 수 있다: 세포 노화 유도, 세포 주기 정지 유도, 세포 성장 및/또는 증식 억제, 세포자연사 유도, 괴사 유도 등.

일부 구현예에서, 새로운 CRISPR 시스템은 다양한 질병 및 장애, 예를 들어 유전 장애(예를 들어, 단일유전성 질병), 뉴클레아제 활성에 의해 치료될 수 있는 질병(예를 들어, Pcsk9 표적화, 뒤센(Duchenne) 근이영양증(DMD), BCL11a 표적화) 및 각종 암 등의 치료에 사용될 수 있다.

일부 구현예에서, 본원에 기재된 CRISPR 시스템은 (예를 들어, 하나 이상의 핵산 잔기를 삽입, 결실 또는 돌연변이시킴으로써) 표적 핵산을 변형시키기 위해 표적 핵산을 편집하는 데 사용될 수 있다. 예를 들어, 일부 구현예에서 본원에 기재된 CRISPR 시스템은 바람직한 핵산 서열을 포함하는 외인성 공여체 주형 핵산(예를 들어, DNA 분자 또는 RNA 분자)을 포함한다. 본원에 기재된 CRISPR 시스템으로 유도된 절단 사건의 해결 시, 세포의 분자 기구는 절단 사건을 복구 및/또는 해결하는 데 외인성 공여체 주형 핵산을 이용할 것이다. 대안적으로, 세포의 분자 기구는 절단 사건을 수리 및/또는 해결하는 데 내인성 주형을 이용할 수 있다. 일부 구현예에서, 본원에 기재된 CRISPR 시스템은 표적 핵산을 변경하여 삽입, 결실, 및/또는 점 돌연변이를 초래하는 데 사용될 수 있다. 일부 구현예에서, 삽입은 무흔 삽입(즉, 표적 핵산 내로 의도된 핵산 서열의 삽입으로 절단 사건의 해결 시에 추가적인 의도하지 않은 핵산 서열을 생성하지 않음)이다. 공여체 주형 핵산은 이중 가닥 또는 단일 가닥 핵산 분자(예를 들어, DNA 또는 RNA)일 수 있다. 외인성 공여자 주형 핵산을 설계하는 방법은, 예를 들어 국제 공개 WO 2016/094874 A1에 기재되어 있으며, 이의 전체 내용은 본원에 참고로 명시적으로 포함된다.

일 양태에서, 본원에 기재된 CRISPR 시스템은 RNA, 독성 RNA, 및/또는 돌연변이(예를 들어, 스플라이싱 결함 또는 절단)된 RNA의 과발현에 의해 야기되는 질병을 치료하는 데 사용될 수 있다. 예를 들어, 독성 RNA의 발현은 핵 내포물의 형성 및 뇌, 심장 또는 골격근의 후기 발병 퇴행성 변화와 연관될 수 있다. 일부 구현예에서, 장애는 근긴장성 이영양증이다. 근긴장성 이영양증에서, 독성 RNA의 주요 병원성 효과는 결합 단백질을 격리하고 대체 스플라이싱의 조절을 손상시키는 것이다(예를 들어, 문헌[Osborne et al., "RNA-dominant diseases," Hum. Mol. Genet., 2009 Apr. 15; 18(8):1471-81] 참조). 근긴장성 이영양증(dystrophia myotonica, 근긴장이상증(DM))은 매우 광범위한 임상 특징을 생성하기 때문에 유전학자에게 특히 중요하다. 현재 DM 유형 1(DM1)이라고 하는 고전적인 형태의 DM은 세포질 단백질 키나제를 코딩하는 유전자인 DMPK의 3'-비번역된 영역(UTR)에서 CTG 반복부의 확장으로 인해 유발된다. 본원에 기재된 바와 같은 CRISPR 시스템은 과발현된 RNA 또는 독성 RNA, 예를 들어 DMPK 유전자 또는 DM1 골격근, 심장 또는 뇌에서 잘못 조절된 대체 스플라이싱 중 임의의 것을 표적화할 수 있다.

본원에 기재된 CRISPR 시스템은 또한, 예를 들어 프라더 윌리 증후군, 척수성 근위축증(SMA) 및 선천성 각화이상증과 같은 다양한 질병을 유발하는 RNA-의존적 기능에 영향을 미치는 트랜스-작용 돌연변이를 표적으로 할 수 있다. 본원에 기재된 CRISPR 시스템을 사용하여 치료할 수 있는 질병 목록은 문헌[Cooper et al., "RNA and disease," Cell, 136.4 (2009): 777-793], 및 WO 2016/205764 A1에 요약되어 있으며, 이들 둘 모두는 전체가 본원에 참조로 포함된다. 당업자는 이러한 질병을 치료하기 위해 새로운 CRISPR 시스템을 사용하는 방법을 이해할 것이다.

본원에 기재된 CRISPR 시스템은 또한, 예를 들어 원발성 및 속발성 타우병증, 예를 들어 원발성 연령-관련 타우병증(PART)/신경원섬유엉킴(NFT)-우세 노인성 치매(알츠하이머병(AD)에서 볼 수 있는 것과 유사하지만 플라크는 없는 NFT를 가짐), 치매 푸질리스티카(pugilistica)(만성 외상성 뇌병증) 및 진행성 핵상 마비를 포함하는 다양한 타우병증 치료에 사용될 수 있다. 타우병증의 유용한 목록 및 이러한 질병을 치료하는 방법은, 예를 들어 WO 2016205764에 기재되어 있으며, 이는 전체가 본원에 참고로 포함된다.

본원에 기재된 CRISPR 시스템은 또한 스플라이싱 결함 및 질병을 유발할 수 있는 시스-작용 스플라이싱 코드를 파괴하는 돌연변이를 표적화하는 데 사용될 수 있다. 이러한 질병은, 예를 들어 SMN1 유전자의 결실로 인한 운동 뉴런 퇴행성 질병(예를 들어, 척수성 근위축증), 뒤센 근이영양증(DMD), 전두측두엽 치매 및 17번 염색체와 관련된 파킨슨병(FTDP-17) 및 낭포성 섬유증을 포함한다.

본원에 기재된 CRISPR 시스템은 특히 RNA 바이러스에 대한 항바이러스 활성을 위해 추가로 사용될 수 있다. CRISPR-연관 단백질은 바이러스 RNA 서열을 표적화하도록 선택된 적합한 가이드 RNA를 사용하여 바이러스 RNA를 표적화할 수 있다.

본원에 기재된 CRISPR 시스템은 또한 대상체(예를 들어, 인간 대상체)에서 암을 치료하는 데 사용될 수 있다. 예를 들어, 암세포에서 (예를 들어, 세포자연사를 통해) 세포 사멸을 유도하기 위해 본원에 기재된 CRISPR-연관 단백질은 비정상적이고(예를 들어, 점 돌연변이를 포함하거나 대안적으로 스플라이싱됨) 암세포에서 발견되는 RNA 분자를 표적으로 하는 crRNA로 프로그래밍될 수 있다.

본원에 기재된 CRISPR 시스템은 또한 대상체(예를 들어, 인간 대상체)에서 자가면역 질병 또는 장애를 치료하는 데 사용될 수 있다. 예를 들어, 본원에 기재된 CRISPR-연관 단백질은 비정상적이고(예를 들어, 점 돌연변이를 포함하거나 대안적으로 스플라이싱됨) 자가면역 질병 또는 장애를 유발하는 원인이 되는 세포에서 발견되는 RNA 분자를 표적으로 하는 crRNA로 프로그래밍될 수 있다.

추가로, 본원에 기재된 CRISPR 시스템은 또한 대상체의 감염성 질병을 치료하는 데 사용될 수 있다. 예를 들어, 본원에 기재된 CRISPR-연관 단백질은 감염원 세포에서 세포 사멸을 표적화하고 유도하기 위해 감염원(예를 들어, 박테리아, 바이러스, 기생충 또는 원생동물)에 의해 발현된 RNA 분자를 표적화하는 crRNA로 프로그래밍될 수 있다. CRISPR 시스템은 또한 세포내 감염원이 숙주 대상체의 세포를 감염시키는 질병을 치료하는 데 사용될 수 있다. 감염원 유전자에 의해 코딩된 RNA 분자를 표적화하는 CRISPR-연관 단백질을 프로그래밍함으로써, 감염원에 감염된 세포를 표적으로 하고 세포 사멸을 유도할 수 있다.

또한, 시험관내 RNA 감지 검정을 사용하여 특이적 RNA 기질을 검출할 수 있다. CRISPR-연관 단백질은 살아있는 세포에서 RNA-기반 감지에 사용될 수 있다. 응용의 예는, 예를 들어 질병-특이적 RNA의 감지에 의한 진단이다.

본원에 기재된 CRISPR 시스템의 치료적 응용에 대한 상세한 설명은, 예를 들어 미국 특허 8,795,965, EP 3009511, WO 2016205764, 및 WO 2017070605에서 찾을 수 있으며; 이들 각각은 전체가 본원에 참고로 포함된다.

세포 및 이의 자손

특정 구현예에서, 본 발명의 방법을 사용하여 본원에 기재된 CRISPR 시스템을 세포에 도입하고, 세포 및/또는 이의 자손이 항체, 전분, 에탄올, 또는 임의의 디른 원하는 생성물과 같은 하나 이상의 세포 생산물의 생산을 변경하게 할 수 있다. 이러한 세포 및 이의 자손은 본 발명의 범주 내에 있다.

특정 구현예에서, 본원에 기재된 방법 및/또는 CRISPR 시스템은 세포의 하나 이상의 RNA 생성물의 번역 및/또는 전사의 변형을 야기한다. 예를 들어, 변형은 RNA 생성물의 증가된 전사/번역/발현을 야기할 수 있다. 다른 구현예에서, 변형은 RNA 생성물의 감소된 전사/번역/발현을 야기할 수 있다.

특정 구현예에서, 세포는 원핵 세포이다.

특정 구현예에서, 세포는 인간 세포(일차 인간 세포 또는 확립된 인간 세포주)를 포함하는 포유동물 세포와 같은 진핵 세포이다. 특정 구현예에서, 세포는 비-인간 포유동물 세포, 예컨대 비-인간 영장류(예를 들어, 원숭이), 소/황소/젖소, 양, 염소, 돼지, 말, 개, 고양이, 설치류(예를 들어, 토끼, 마우스, 래트, 햄스터 등)로부터의 세포이다. 특정 구현예에서, 세포는 어류(예를 들어, 연어), 조류(예를 들어, 병아리, 오리, 거위를 포함하는 가금류 조류), 파충류, 조개류(예를 들어, 굴, 조개, 랍스터, 새우), 곤충, 벌레, 효모 등으로부터 유래한다. 특정 구현예에서, 세포는 외떡잎식물 또는 쌍떡잎식물과 같은 식물로부터 유래한다. 특정 구현예에서, 식물은 보리, 카사바, 목화, 그라운드너트 또는 땅콩, 옥수수, 기장, 기름야자 열매, 감자, 콩류, 유채 또는 캐놀라, 쌀, 호밀, 수수, 대두, 사탕수수, 사탕무, 해바라기, 밀과 같은 식량 작물이다. 특정 구현예에서, 식물은 곡물(보리, 옥수수, 기장, 쌀, 호밀, 수수 및 밀)이다. 특정 구현예에서, 식물은 괴경(카사바 및 감자)이다. 특정 구현예에서, 식물은 당료 작물(사탕무 및 사탕수수)이다. 특정 구현예에서, 식물은 오일 함유 작물(대두, 그라운드너트 또는 땅콩, 유채 또는 카놀라, 해바라기, 및 기름야자 열매)이다. 특정 구현예에서, 식물은 섬유 작물(목화)이다. 특정 구현예에서, 식물은 나무(예를 들어, 복숭아 또는 천도 복숭아 나무, 사과 또는 배 나무, 아몬드 또는 호두 또는 피스타치오 나무와 같은 견과 나무, 또는 오렌지, 자몽 또는 레몬 나무와 같은 감귤 나무), 풀, 채소, 과일 또는 조류이다. 특정 구현예에서, 식물은 밤나무 식물이고; 브라시카(Brassica;) 속의 식물; 락투카(Lactuca) 속의 식물; 시금치(스피나시아(Spinacia)) 속의 식물; 고추((캡시쿰(Capsicum)) 속의 식물; 목화, 담배, 아스파라거스, 당근, 양배추, 브로콜리, 콜리플라워, 토마토, 가지, 후추, 상추, 시금치, 딸기, 블루베리, 라즈베리, 블랙베리, 포도, 커피, 코코아 등이다.

관련된 양태는 본원에 기재된 CRISPR 시스템을 사용하여 본 발명의 방법에 의해 변형된 세포 또는 이의 자손을 제공한다.

특정 구현예에서, 세포는 시험관내, 생체내 또는 생체외에서 변형된다.

특정 구현예에서, 세포는 줄기 세포이다.

7. 전달

본 개시내용 및 당업계의 지식을 통해, 본원에 기재된 CRISPR 시스템, 또는 본원에 기재된 이의 임의의 성분(Cas 단백질, 이의 유도체, 기능적 단편 또는 다양한 융합체 또는 부가물, 및 가이드 RNA/crRNA), 이의 핵산 분자 및/또는 이의 성분을 코딩하거나 제공하는 핵산 분자는 당업계의 임의의 적합한 수단을 사용하여 벡터, 예를 들어 플라스미드 및 바이러스 전달 벡터와 같은 다양한 전달 시스템에 의해 전달될 수 있다. 이러한 방법은 전기천공, 리포펙션, 미세주사, 형질주입, 초음파 처리, 유전자 총 등을 포함한다(이에 제한되지 않음).

특정 구현예에서, CRISPR-연관 단백질 및/또는 임의의 RNA(예를 들어, 가이드 RNA 또는 crRNA) 및/또는 부속 단백질은 적합한 벡터, 예를 들어 플라스미드 또는 아데노-연관 바이러스(AAV), 렌티바이러스, 아데노바이러스, 레트로바이러스 벡터, 및 기타 바이러스 벡터, 또는 이들의 조합과 같은 바이러스 벡터를 사용하여 전달될 수 있다. 단백질 및 하나 이상의 crRNA는 하나 이상의 벡터, 예를 들어 플라스미드 또는 바이러스 벡터로 패키징될 수 있다. 박테리아 적용의 경우, 본원에 기재된 CRISPR 시스템의 임의의 성분을 코딩하는 핵산은 파지를 사용하여 박테리아에 전달될 수 있다. 예시적인 파지는 T4 파지, Mu, λ 파지, T5 파지, T7 파지, T3 파지, Φ29, M13, MS2, Qβ, 및 ΦX174를 포함하나 이에 제한되지는 않는다.

일부 구현예에서 벡터, 예를 들어 플라스미드 또는 바이러스 벡터는, 예를 들어 근육내 주사, 정맥내 투여, 경피 투여, 비강내 투여, 경구 투여 또는 점막 투여에 의해 관심 조직에 전달된다. 이러한 전달은 단일 용량 또는 다중 용량을 통해 이루어질 수 있다. 당업자는 본원에서 전달될 실제 투여량이 다양한 인자, 예를 들어 벡터 선택, 표적 세포, 유기체, 조직, 치료될 대상체의 일반적인 상태, 추구하는 형질전환/변형의 정도, 투여 경로, 투여 방식, 추구하는 형질전환/변형의 유형 등에 따라 크게 달라질 수 있음을 이해한다.

특정 구현예에서, 전달은 아데노바이러스의 적어도 1 × 10⁵개 입자(또한 입자 단위, pu로도 지칭됨)를 함유하는 단일 용량일 수 있는 아데노바이러스를 통해 이루어진다. 일부 구현예에서, 용량은 바람직하게는 아데노바이러스의 적어도 약 1 × 10⁶개 입자, 적어도 약 1 × 10⁷개 입자, 적어도 약 1 × 10⁸개 입자, 및 적어도 약 1 × 10⁹개 입자이다. 전달 방법 및 용량은, 예를 들어 WO 2016205764 A1 및 미국 특허 8,454,972 B2에 기재되어 있으며, 이들 둘 모두 전체가 본원에 참고로 포함된다.

일부 구현예에서, 전달은 플라스미드를 통해 이루어진다. 투여량은 반응을 이끌어내기에 충분한 수의 플라스미드일 수 있다. 일부 경우에, 플라스미드 조성물 중 플라스미드 DNA의 적합한 양은 약 0.1 내지 약 2 mg일 수 있다. 플라스미드는 일반적으로 (i) 프로모터; (ii) 각각이 프로모터(예를 들어, 동일한 프로모터 또는 상이한 프로모터)에 작동가능하게 연결된 핵산-표적화 CRISPR-연관 단백질 및/또는 부속 단백질을 코딩하는 서열; (iii) 선택가능한 마커; (iv) 복제 기점; 및 (v) (ii)에 작동가능하게 연결된 (ii)의 하류의 전사 종결자를 포함할 것이다. 플라스미드는 또한 CRISPR 복합체의 RNA 성분을 코딩할 수 있지만, 이들 중 하나 이상이 대신 다른 벡터 상에 코딩될 수 있다. 투여 빈도는 의학 또는 수의학 치료사(예를 들어, 의사, 수의사) 또는 당업자의 범위 내에 있다.

또 다른 구현예에서, 전달은 리포솜 또는 리포펙션 제형 등을 통해 이루어지며, 당업자에게 공지된 방법에 의해 제조될 수 있다. 이러한 방법은, 예를 들어 WO 2016205764 및 미국 특허 5,593,972; 5,589,466; 및 5,580,859에 기재되어 있으며; 이들 각각은 전체가 본원에 참고로 포함된다.

일부 구현예에서, 전달은 나노입자 또는 엑소좀을 통해 이루어진다. 예를 들어, 엑소좀은 RNA 전달에 특히 유용한 것으로 나타났다.

새로운 CRISPR 시스템의 하나 이상의 성분을 세포에 도입하는 추가 수단은 세포 투과 펩티드(CPP)를 사용하는 것이다. 일부 구현예에서, 세포 투과 펩티드는 CRISPR-연관 단백질에 연결된다. 일부 구현예에서, CRISPR-연관 단백질 및/또는 가이드 RNA는 세포 내부(예를 들어, 식물 원형질체)에서 이들을 효과적으로 수송하기 위해 하나 이상의 CPP에 커플링된다. 일부 구현예에서, CRISPR-연관 단백질 및/또는 가이드 RNA(들)는 세포 전달을 위해 하나 이상의 CPP에 커플링된 하나 이상의 원형 또는 비-원형 DNA 분자에 의해 코딩된다.

CPP는 단백질로부터 또는 수용체 독립적인 방식으로 세포막을 가로질러 생체분자를 수송할 수 있는 키메라 서열로부터 유래된 35개 미만의 아미노산의 짧은 펩티드이다. CPP는 양이온성 펩티드, 소수성 서열을 갖는 펩티드, 양친매성 펩티드, 프롤린-풍부 항균성 서열을 갖는 펩티드, 및 키메라 또는 이성분 펩티드일 수 있다. CPP의 예는, 예를 들어 Tat(HIV 유형 1에 의한 바이러스 복제에 필요한 핵 전사 활성화 단백질), 페네트라틴, 카포시 섬유아세포 성장 인자(FGF) 신호 펩티드 서열, 인테그린 β3 신호 펩티드 서열, 폴리아르기닌 펩티드 Args 서열, 구아닌 풍부-분자 수송체, 및 스윗 애로우(sweet arrow) 펩티드를 포함한다. CPP 및 이를 사용하는 방법은, 예를 들어 문헌[

et al., "Prediction of cell-penetrating peptides," Methods Mol. Biol., 2015; 1324:39-58]; [Ramakrishna et al., "Gene disruption by cell-penetrating peptide-mediated delivery of Cas9 protein and guide RNA," Genome Res., 2014 June; 24(6):1020-7]; 및 WO 2016205764 A1에 기재되어 있으며; 이들 각각은 전체가 본원에 참고로 포함된다.

본원에 기재된 CRISPR 시스템에 대한 다양한 전달 방법은 또한, 예를 들어 미국 특허 8,795,965, EP 3009511, WO 2016205764, 및 WO 2017070605에 기재되어 있으며; 이들 각각은 전체가 본원에 참고로 포함된다.

8. 키트

본 발명의 또 다른 양태는 Cas13e 및 Cas13f 단백질, 이의 유도체, 기능적 단편 또는 다양한 융합체 또는 부가물, 가이드 RNA/crRNA, 이들의 복합체, 이를 포함하는 벡터, 또는 이를 포함하는 숙주의 임의의 두 성분 이상을 포함하는 키트를 제공한다.

특정 구현예에서, 키트는 그 안에 포함된 성분을 사용하기 위한 지침, 및/또는 다른 곳에서 입수할 수 있는 추가 성분과 조합하기 위한 지침을 추가로 포함한다.

특정 구현예에서, 키트는 가이드 RNA 코딩 서열을 벡터에 삽입하고 코딩 서열을 벡터의 하나 이상의 제어 요소에 작동가능하게 연결하는 데 유용한 것에 상응하는 뉴클레오티드(들)와 같은 하나 이상의 뉴클레오티드를 추가로 포함한다.

특정 구현예에서, 키트는 임의의 성분을 용해하고/하거나 하나 이상의 성분에 대한 적합한 반응 조건을 제공하는 데 사용될 수 있는 하나 이상의 완충액을 추가로 포함한다. 이러한 완충액은 PBS, HEPES, Tris, MOPS, Na₂CO₃, NaHCO₃, NaB 또는 이들의 조합 중 하나 이상을 포함할 수 있다. 특정 구현예에서, 반응 조건은 염기성 pH와 같은 적절한 pH를 포함한다. 특정 구현예에서, pH는 7 내지 10이다.

특정 구현예에서, 키트 성분 중 어느 하나 이상은 적합한 용기에 보관될 수 있다.

실시예

실시예 1 신규 Cas13e 및 Cas13f 시스템의 확인

전산 파이프라인을 게놈 및 메타게놈 소스에서 부류 2 CRISPR-Cas 시스템의 확장된 데이터베이스를 생성하는 데 사용하였다. 게놈 및 메타게놈 서열은 NCBI(Benson et al., 2013; Pruitt et al., 2012), NCBI 전체 게놈 시퀀싱(WGS) 및 DOE JGI Integrated Microbial Genomes(Markowitz et al., 2012)에서 다운로드했다. 단백질을 길이가 적어도 5 kb인 모든 콘티그에서 예측하고(아논 모드에서 Prodigal(Hyatt et al., 2010)), 완전한 단백질 데이터베이스를 구축하기 위해 중복 제거(즉, 동일한 단백질 서열을 제거함)하였다. 600개 초과의 잔기가 있는 단백질은 대형 단백질(LP)로 간주하였다. 현재 확인된 Cas13 단백질은 크기가 900개 잔기 초과인 경우가 대부분이므로 계산의 복잡성을 줄이기 위해 대형 단백질만 추가로 고려하였다.

CRISPR 어레이는 모든 기본 매개변수를 사용하여 Piler-CR(Edgar, PILER-CR: Fast and accurate identification of CRISPR repeats. BMC Bioinformatics 8:18, 2007)을 사용하여 확인되었다. CRISPR 어레이에서 ±10 kb 이내에 위치한 비중복 대형 단백질 서열-코딩 ORF를 CRISPR-근위 대형 단백질 코딩 군집으로 그룹화하고 코딩된 LP를 Cas-LP로 정의했다.

먼저 BLASP를 사용하여 Cas-LP 간의 쌍을 이룬 정렬을 수행하고 E값 <1E-10인 BLASTP 정렬 결과를 얻었다. 그런 다음 MCL을 사용하여 BLASTP 결과를 기반으로 Cas-LP를 추가로 군집화하여 Cas 단백질 계열을 생성했다.

다음으로, BLASTP를 사용하여 Cas-LP를 모든 LP에 정렬하고 E값 <1E-10인 BLASP 정렬 결과를 얻었다. Cas-LP 계열은 BLASTP 정렬 결과에 따라 추가로 확장되었다. 확장 후 두 배 이하 증가의 추가 분석에 대해 Cas-LP 계열을 수득하였다.

후보 Cas 단백질의 기능적 특성화를 위해, 단백질 계열 데이터베이스 Pfam(Finn et al., 2014), NR 데이터베이스 및 NCBI에서 Cas 단백질을 사용하여 후보 Cas 단백질에 주석을 달았다. 그런 다음 MAFFT(Katoh and Standley, 2013)를 사용하여 각 후보 Cas 이펙터 단백질에 대해 다중 서열 정렬을 수행했다. 그런 다음 JPred 및 HHpred를 2개의 보존된 RXXXXH 모티프를 갖는 후보 Cas 단백질/계열을 확인하기 위해 이러한 단백질의 보존 영역을 분석하는 데 사용하였다.

이 분석을 통해 이전에 확인된 모든 부류 2 CRISPR-Cas 시스템과 다른 2개의 새로운 Cas13 계열에 속하는 7개의 새로운 Cas13 이펙터 단백질이 확인되었다. 여기에는 새로운 Cas13e 계열의 Cas13e.1(서열번호 1) 및 Cas13e.2(서열번호 2), 및 새로운 Cas13f 계열의 Cas13f.1(서열번호 3), Cas13f.2(서열번호 4), Cas13f.3(서열번호 5), Cas13f.4(서열번호 6), 및 Cas13f.5(서열번호 7)가 포함된다.

각각의 pre-crRNA 서열에서 상응하는 직접 반복(DR) 서열을 코딩하는 DNA는 각각 서열번호 8 내지 14이다.

Cas13e.1, Cas13e.2, Cas13f.1, Cas13f.2, Cas13f.3, Cas13f.4 및 Cas13f.5 단백질에 대한 천연(야생형) DNA 코딩 서열은 각각 서열번호 15 내지 21이다.

추가 기능 실험을 위해 생성된 7개의 Cas13e 및 Cas13f 단백질(즉, Cas13e.1, Cas13e.2, Cas13f.1, Cas13f.2, Cas13f.3, Cas13f.4 및 Cas13f.5)에 대한 인간 코돈-최적화된 코딩 서열은 각각 서열번호 22 내지 28이다.

7개의 CRISPR/Cas13e 및 Cas13f 유전자좌 구조를 도 1에 나타내었다.

pre-crRNA에서 7개 DR 서열에 대한 RNA 2차 구조의 추가 분석을 RNAfold를 사용하여 수행하였다. 그 결과를 도 2에 나타내었다. 모두 매우 보존된 2차 구조를 공유하고 있는 것이 잘 나타나 있다.

예를 들어, Cas13e 계열에서, 각 DR 서열은 4개 염기 쌍 줄기(5'-GCUG-3')로 이루어진 2차 구조를 형성하고, 이어서 5 + 5개 뉴클레오티드의 대칭 돌출부(4개의 줄기 뉴클레오티드를 제외함)가 뒤따르며, 추가로 5개 염기 쌍 줄기(5'-GCCC/U C-3') 및 말단 8개 염기 루프(5'-CGAUUUGU-3', 2개의 줄기 뉴클레오티드를 제외함)가 이어진다.

마찬가지로, Cas13f 계열에서, 한 가지 예외(Cas13f.4)를 제외하고, 각 DR 서열은 5개 염기쌍 줄기(5'GCUGU3')로 이루어진 이차 구조를 형성하고, 이어서 5 + 4개 뉴클레오티드의 거의 대칭적인 돌출부(4개의 줄기 뉴클레오티드를 제외함)가 뒤따르며, 추가로 6개 염기 쌍 줄기(5'A/G CCUCG3') 및 말단 5개 염기 루프(5'AUUUG3', 2개의 줄기 뉴클레오티드를 제외함)가 이어진다. 유일한 예외는 Cas13f.4에 대한 DR이고, 여기서 두 번째 단계는 1개의 염기 쌍이 더 짧고 2개의 추가 염기가 첫 번째 돌출부에 추가되어 대체로 대칭적인 6 + 5개 돌출부를 형성한다.

MAFFT를 사용한 Cas13e 및 Cas13f 단백질 및 이전에 확인된 Cas13a, Cas13b, Cas13c 및 Cas13d 계열 단백질의 다중-서열 정렬은 Cas13e 및 Cas13f 단백질이 계통수의 Cas13b 단백질에 상대적으로 가장 가깝다는 것을 밝혀냈다(도 3).

또한, Cas 단백질의 N- 및 C-말단에 대한 RXXXXH 모티프의 위치와 관련하여, Cas13e 및 Cas13f 단백질, 그리고 덜한 정도로 Cas13b 단백질은 Cas13a, Cas13c 및 Cas13d와 비교하여 N- 및 C-말단에 더 가까운 RXXXXH 모티프를 갖는다(도 4 참조).

그런 다음 I-TASSER를 사용하여 Cas13e 단백질의 3D 구조를 예측한 후, PyMOL을 사용하여 예측된 구조를 시각화했다. 2개의 RXXXXH 모티프가 Cas13e.1의 N- 및 C-말단에 매우 가깝게 위치하지만, 3D 구조에서는 매우 가깝다(도 5).

실시예 2 Cas13e는 이펙터 RNase이다

새로 확인된 Cas13e 단백질이 CRISPR/Cas 시스템에서 기능하는 효과적인 RNase인지 확인하기 위해, Cas13e.1 코딩 서열을 인간 발현에 대해 코돈 최적화(서열번호 22)하였고, GFP 유전자를 갖는 제1 플라스미드에 클로닝하였다. 한편, 리포터 유전자(mCherry) mRNA를 표적으로 하는 가이드 RNA(gRNA)에 대한 코딩 서열을 GFP 유전자를 갖는 제2 플라스미드에 클로닝하였다. gRNA는 Cas13e.1에 대한 2개의 직접 반복 서열이 측접된 스페이서 코딩 영역으로 이루어진다(서열번호 29). GFP 및 mCherry 리포터 유전자의 서열은 각각 서열번호 30 내지 31이다.

HEK293T 세포를 표준 프로토콜에 따라 24-웰 조직 배양 플레이트에서 배양하고, LIPOFECTAMINE^® 3000 및 P3000^TM 시약을 사용하여 삼중 플라스미드 형질주입용으로 사용하여 각각 Cas13e.1 단백질, mCherry-표적화 gRNA 및 mCherry 코딩 서열을 코딩하는 3개의 플라스미드를 도입하였다. 음성대조군 실험에서는 mCherry-표적화 gRNA를 코딩하는 플라스미드를 사용하는 대신, 비-표적-gRNA를 코딩하는 대조군 플라스미드를 사용하였다. GFP 코딩 서열은 Cas13e.1 및 gRNA 플라스미드에 존재하므로, GFP의 발현은 형질주입 성공/효율을 위한 내부 대조군으로 사용될 수 있다. 도 6의 개략도를 참조한다. 그런 다음 형질주입된 HEK293T 세포를 세포가 형광 현미경으로 검사되기 전에 약 24시간 동안 5% CO₂ 하에 37℃에서 배양하였다.

도 7에 나타낸 바와 같이, mCherry-표적화 gRNA로 형질주입된 세포, 및 대조군 비-표적화(NT) gRNA로 형질주입된 세포는 명시야 현미경에서 동등한 성장 및 형태를 가졌고, 둘 모두에서의 GFP 발현은 대체로 동등하였다. 그러나, mCherry 발현으로부터의 RFP 신호는 유세포 분석에 기초하여 최대 75%까지 극적으로 감소되었다(도 8). 이것은 Cas13e가 mCherry-표적화 gRNA를 활용하여 mCherry mRNA 수준을 효율적으로 녹다운하고 결과적으로 mCherry 단백질 발현을 감소시킬 수 있음을 시사한다.

실시예 3 Cas13e에 대한 sgRNA의 효과적인 지시

Cas13e 시스템은 이론적으로 DR + 스페이서(5'DR) 또는 스페이서 + DR(3'DR) 배향을 사용할 수 있으므로, Cas13e에서 사용하는 올바른 배향을 결정하기 위해 이 실험을 설계하였다.

실시예 2와 유사한 삼중 형질주입 실험 설정을 사용하여, 3'DR 배향(스페이서 + DR)만이 상당한 mCherry 녹다운을 지원한다는 것을 발견했다. 이것은 Cas13e가 스페이서의 3'-말단에 DR 서열과 함께 crRNA를 활용한다는 것을 입증했다. 도 9를 참조한다.

DR + 스페이서(5'DR) 및 스페이서 + DR(3'DR)의 SgRNA는 각각 서열번호 32 및 33이다.

실시예 4. Cas13e.1의 특이적 활성 및 부수적 활성에 대한 스페이서 서열 길이의 효과

Cas13e.1의 특이적 활성 및 부수적 활성에 대한 스페이서 서열 길이의 영향을 연구하기 위해, mCherry 리포터 유전자를 표적으로 하는 sgRNA 세트를 설계했으며, 스페이서 서열 길이는 20 nt, 25 nt, 30 nt, 35 nt, 40 nt, 45 nt, 또는 50 nt(서열번호 34 내지 40)였다.

실시예 2와 유사한 삼중 형질주입 실험 설정을 사용하여, mCherry 및 GFP 유전자의 녹다운 효율을 유세포 분석에 의해 분석하였다.

mCherry 및 GFP 녹다운 실험의 결과는 각각 Cas13e.1의 특이적 활성 및 비-특이적 활성(부수적 활성)을 나타내었다. Cas13e.1은 약 30 nt 내지 약 50 nt의 스페이서 길이에서 높은 특이적 활성을 갖는 것으로 밝혀졌다. 도 10을 참조한다. 한편, Cas13e.1은 스페이서 길이가 약 30 nt일 때 가장 높은 비-특이적 활성을 갖는다. 도 11을 참조한다.

실시예 5: dCas13e.1-ADAR2DD 융합을 사용한 단일-염기 RNA 편집

Cas13e가 RNA 단일 염기 편집에 사용될 수 있는지 여부를 테스트하기 위해, RNase 활성을 제거하기 위해 2개의 RXXXXH 모티프를 돌연변이시켜 dCas13e.1을 생성했다. 그런 다음 E488Q 및 T375G 이중 돌연변이를 갖는 고충실도 ADAR2DD 돌연변이를 dCas13e.1의 (C-말단)에 융합하여 dCas13e.1-ADAR2DD라는 추정 A-to-G 단일 염기 RNA 편집기를 생성했다. 서열번호 41의 코딩 서열을 참조한다.

추정되는 RNA 염기-편집기에 대한 표적으로 작용하기 위해, 야생형 mCherry 코딩 서열을 돌연변이시켜 조기 종결 코돈 TAG(서열번호 42에서 굵은 이중 밑줄친 서열 참조)를 생성하여 비 기능적 mCherry 단백질이 RNA 염기 편집기에 의해 A-to-G를 수정하지 않고 생성되었다. 도 12 및 14를 참조한다. 그런 다음, 원하는 A-to-G 편집을 수행하도록 gRNA를 설계하고(도 12 및 14), dCas13e.1-ADAR2DD 염기 편집기를 코딩하는 CX530 플라스미드, sgRNA를 코딩하는 CX537/Cx538 플라스미드, 및 돌연변이된 mCherry 유전자를 코딩하는 CX337 플라스미드는 표준 프로토콜을 사용하여 HEK293T 세포로 삼중 형질주입되었다. 형질주입된 HEK293T 세포를 5% CO₂하에 37℃에서 24시간 동안 인큐베이션한 후, 세포를 유세포 분석에 적용하여 수정된 mCherry mRNA를 갖고 mCherry 단백질을 발현하는 세포를 분리했다. 도 12의 예시적인 도면을 참조한다. 유세포 분석 결과를 도 13에 나타내었다.

gRNA-1(서열번호 43) 및 gRNA-2(서열번호 44) 둘 모두가 TAG 미성숙 정지 코돈을 성공적으로 수정하여 기능성 mCherry 단백질을 생성한다는 것이 명백하다.

실시예 6: 단축된 dCas13e.1-ADAR2DD 융합을 사용한 단일-염기 RNA 편집

RNA 단일 염기 편집에 사용할 수 있는 dCas13e.1의 최소 크기를 결정하기 위해, dCas13e.1의 점진적으로 더 큰 C-말단 결실을 발현하는 일련의 5개 작제물을 생성했으며, 각각은 C-말단에서 30개 더 적은 잔기를 가지고 있다(즉, 30-, 60-90-, 120 및 150-잔기 결실). 생성된 작제물을 사용하여 각 C-말단에서 고충실도 adar2(ADAR2DD)와 융합된 dCas13e.1에 대한 코딩 서열을 생성했다. 실시예 4에서와 유사한 실험에서 사용하기 위해 이들 작제물을 Vysz15("V15") 내지 Vysz-19("V19") 플라스미드(도 15)로 클로닝하였다. 이러한 모든 작제물에서, 융합 단백질은 CMV 프로모터(pCMV) 및 인핸서(eCMV)로부터 발현되었고, 단백질 발현을 추가로 향상시키는 인트론의 바로 하류에 있었다. 2개의 핵 국소화 서열(NLS)은 융합의 dCas13e.1 부분의 N-말단 및 C-말단에 위치했고 ADAR2 도메인(예를 들어, ADAR2DD)은 NLS 링커를 통해 C-말단 NLS에 융합되었으며, HA-태그에 의해 C-말단에 태그되었다. EFS 프로모터(pEFS)의 독립적인 제어 하에 있는 EGFP 코딩 서열은 모든 플라스미드에 대해 폴리A 첨가 서열의 하류에 존재하였다.

흥미롭게도, 점진적인 C-말단 결실이 융합 편집기에서 RNA-염기 편집 활성을 꾸준히 증가시켜 150개 C-말단 잔기가 결실된 편집기(V19에서)가 가장 높은 염기 편집 활성을 나타내는 것으로 밝혀졌다. 도 16을 참조한다. 그러나, C-말단으로부터의 180개 잔기 결실은 염기 편집 활성을 폐지한 것으로 보였으며, 이는 Cas13e.1의 C-말단 끝으로부터의 최대/최적 결실이 150 내지 180개 잔기 사이일 가능성이 있음을 시사한다.

이 발견에 기초하여, 150개의 C-말단 잔기 결실을 갖는 dCas13e.1에 대해 일련의 N-말단 결실 돌연변이체를 생성하였다. 7개의 그러한 N-말단 결실 돌연변이체를 생성하였으며, 각각 30-, 60-, 90-, 120-, 150-, 180- 및 210개 잔기 결실이 있었다. 도 17을 참조한다. 도 18의 결과는, 180개의 N-말단 잔기 결실 및 150개의 C-말단 잔기 결실, 즉 775개 잔기 Cas13e.1 단백질로부터 총 330개 잔기 결실을 갖는 돌연변이체에서 최고의 RNA 편집 활성이 관찰되었으며, ADAR2DD 융합을 생성하기 위한 445개 잔기 최적 dCas13e.1을 생성하였음을 나타내었다.

실시예 7: 상이한 Cas13 단백질을 사용한 포유동물 내인성 mRNA 녹-다운 효율 비교

이 실험은 Cas13e 및 Cas13f 단백질, 특히 Cas13f.1이 포유동물 내인성 표적 mRNA를 녹다운하는 데 매우 효율적이며, 이는 이전에 확인된 Cas13 단백질보다 우수하였음을 입증했다.

구체적으로, 각각 Cas13 단백질 중 하나, 즉 Cas13e.1(서열번호 22), Cas13f.1(서열번호 24), LwaCas13a(서열번호 45), PspCas13b(서열번호 46) 및 RxCas13d(서열번호 47)를 발현하는 5개의 플라스미드를 구축했다. 각 플라스미드는 또한 mCherry 리포터 유전자뿐만 아니라 2개의 천연 DR 서열이 측접된 각 Cas13 단백질에 대한 sgRNA/crRNA 코딩 서열을 코딩했다. 이 sgRNA를 ANXA4 mRNA를 표적으로 하는 스페이서 서열을 갖도록 설계하였다. 서열번호 48 내지 50을 참조한다. 음성 대조군으로서, ANXA4-표적화 sgRNA/crRNA 대신에, 비-표적화 sgRNA/crRNA를 각각 코딩하는 5개의 추가 플라스미드를 구축하였다("대조군 NT 작제물"). 도 19를 참조한다.

5개의 Cas13/sgRNA-코딩 플라스미드를 실시예 4와 같이 HEK293 세포에 형질주입시켰다. 24시간 동안 배양한 후, mCherry를 발현하는 세포를 유세포분석을 통해 분리하고, 녹-다운 효율을 평가하기 위해 RT-PCR을 사용하여 Cas13/NT-코딩 플라스미드에 의해 형질주입된 대조군 세포와 비교하여 ANXA4 mRNA의 발현을 결정하였다.

도 20은 Cas13b가 한계의 ANXA4 mRNA 녹-다운만을 갖는 반면, Cas13e.1, Cas13f.1 및 Cas13d는 각각 표적 ANXA4 mRNA의 80% 초과의 녹다운을 갖는 것을 나타내었다. 그 중에서, Cas13e.1이 가장 강력한 녹다운 효율을 보였다.

SEQUENCE LISTING <110> HUIGENE THERAPEUTICS CO., LTD. <120> TYPE VI-E AND TYPE VI-F CRISPR-CAS SYSTEM AND USES THEREOF <130> 132045-00101 <140> 16/864,982 <141> 2020-05-01 <150> PCT/CN2020/077211 <151> 2020-02-28 <160> 98 <170> PatentIn version 3.5 <210> 1 <211> 775 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polypeptide <220> <223> metagenomic <400> 1 Met Ala Gln Val Ser Lys Gln Thr Ser Lys Lys Arg Glu Leu Ser Ile 1 5 10 15 Asp Glu Tyr Gln Gly Ala Arg Lys Trp Cys Phe Thr Ile Ala Phe Asn 20 25 30 Lys Ala Leu Val Asn Arg Asp Lys Asn Asp Gly Leu Phe Val Glu Ser 35 40 45 Leu Leu Arg His Glu Lys Tyr Ser Lys His Asp Trp Tyr Asp Glu Asp 50 55 60 Thr Arg Ala Leu Ile Lys Cys Ser Thr Gln Ala Ala Asn Ala Lys Ala 65 70 75 80 Glu Ala Leu Arg Asn Tyr Phe Ser His Tyr Arg His Ser Pro Gly Cys 85 90 95 Leu Thr Phe Thr Ala Glu Asp Glu Leu Arg Thr Ile Met Glu Arg Ala 100 105 110 Tyr Glu Arg Ala Ile Phe Glu Cys Arg Arg Arg Glu Thr Glu Val Ile 115 120 125 Ile Glu Phe Pro Ser Leu Phe Glu Gly Asp Arg Ile Thr Thr Ala Gly 130 135 140 Val Val Phe Phe Val Ser Phe Phe Val Glu Arg Arg Val Leu Asp Arg 145 150 155 160 Leu Tyr Gly Ala Val Ser Gly Leu Lys Lys Asn Glu Gly Gln Tyr Lys 165 170 175 Leu Thr Arg Lys Ala Leu Ser Met Tyr Cys Leu Lys Asp Ser Arg Phe 180 185 190 Thr Lys Ala Trp Asp Lys Arg Val Leu Leu Phe Arg Asp Ile Leu Ala 195 200 205 Gln Leu Gly Arg Ile Pro Ala Glu Ala Tyr Glu Tyr Tyr His Gly Glu 210 215 220 Gln Gly Asp Lys Lys Arg Ala Asn Asp Asn Glu Gly Thr Asn Pro Lys 225 230 235 240 Arg His Lys Asp Lys Phe Ile Glu Phe Ala Leu His Tyr Leu Glu Ala 245 250 255 Gln His Ser Glu Ile Cys Phe Gly Arg Arg His Ile Val Arg Glu Glu 260 265 270 Ala Gly Ala Gly Asp Glu His Lys Lys His Arg Thr Lys Gly Lys Val 275 280 285 Val Val Asp Phe Ser Lys Lys Asp Glu Asp Gln Ser Tyr Tyr Ile Ser 290 295 300 Lys Asn Asn Val Ile Val Arg Ile Asp Lys Asn Ala Gly Pro Arg Ser 305 310 315 320 Tyr Arg Met Gly Leu Asn Glu Leu Lys Tyr Leu Val Leu Leu Ser Leu 325 330 335 Gln Gly Lys Gly Asp Asp Ala Ile Ala Lys Leu Tyr Arg Tyr Arg Gln 340 345 350 His Val Glu Asn Ile Leu Asp Val Val Lys Val Thr Asp Lys Asp Asn 355 360 365 His Val Phe Leu Pro Arg Phe Val Leu Glu Gln His Gly Ile Gly Arg 370 375 380 Lys Ala Phe Lys Gln Arg Ile Asp Gly Arg Val Lys His Val Arg Gly 385 390 395 400 Val Trp Glu Lys Lys Lys Ala Ala Thr Asn Glu Met Thr Leu His Glu 405 410 415 Lys Ala Arg Asp Ile Leu Gln Tyr Val Asn Glu Asn Cys Thr Arg Ser 420 425 430 Phe Asn Pro Gly Glu Tyr Asn Arg Leu Leu Val Cys Leu Val Gly Lys 435 440 445 Asp Val Glu Asn Phe Gln Ala Gly Leu Lys Arg Leu Gln Leu Ala Glu 450 455 460 Arg Ile Asp Gly Arg Val Tyr Ser Ile Phe Ala Gln Thr Ser Thr Ile 465 470 475 480 Asn Glu Met His Gln Val Val Cys Asp Gln Ile Leu Asn Arg Leu Cys 485 490 495 Arg Ile Gly Asp Gln Lys Leu Tyr Asp Tyr Val Gly Leu Gly Lys Lys 500 505 510 Asp Glu Ile Asp Tyr Lys Gln Lys Val Ala Trp Phe Lys Glu His Ile 515 520 525 Ser Ile Arg Arg Gly Phe Leu Arg Lys Lys Phe Trp Tyr Asp Ser Lys 530 535 540 Lys Gly Phe Ala Lys Leu Val Glu Glu His Leu Glu Ser Gly Gly Gly 545 550 555 560 Gln Arg Asp Val Gly Leu Asp Lys Lys Tyr Tyr His Ile Asp Ala Ile 565 570 575 Gly Arg Phe Glu Gly Ala Asn Pro Ala Leu Tyr Glu Thr Leu Ala Arg 580 585 590 Asp Arg Leu Cys Leu Met Met Ala Gln Tyr Phe Leu Gly Ser Val Arg 595 600 605 Lys Glu Leu Gly Asn Lys Ile Val Trp Ser Asn Asp Ser Ile Glu Leu 610 615 620 Pro Val Glu Gly Ser Val Gly Asn Glu Lys Ser Ile Val Phe Ser Val 625 630 635 640 Ser Asp Tyr Gly Lys Leu Tyr Val Leu Asp Asp Ala Glu Phe Leu Gly 645 650 655 Arg Ile Cys Glu Tyr Phe Met Pro His Glu Lys Gly Lys Ile Arg Tyr 660 665 670 His Thr Val Tyr Glu Lys Gly Phe Arg Ala Tyr Asn Asp Leu Gln Lys 675 680 685 Lys Cys Val Glu Ala Val Leu Ala Phe Glu Glu Lys Val Val Lys Ala 690 695 700 Lys Lys Met Ser Glu Lys Glu Gly Ala His Tyr Ile Asp Phe Arg Glu 705 710 715 720 Ile Leu Ala Gln Thr Met Cys Lys Glu Ala Glu Lys Thr Ala Val Asn 725 730 735 Lys Val Arg Arg Ala Phe Phe His His His Leu Lys Phe Val Ile Asp 740 745 750 Glu Phe Gly Leu Phe Ser Asp Val Met Lys Lys Tyr Gly Ile Glu Lys 755 760 765 Glu Trp Lys Phe Pro Val Lys 770 775 <210> 2 <211> 805 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polypeptide <220> <223> metagenomic <400> 2 Met Lys Val Glu Asn Ile Lys Glu Lys Ser Lys Lys Ala Met Tyr Leu 1 5 10 15 Ile Asn His Tyr Glu Gly Pro Lys Lys Trp Cys Phe Ala Ile Val Leu 20 25 30 Asn Arg Ala Cys Asp Asn Tyr Glu Asp Asn Pro His Leu Phe Ser Lys 35 40 45 Ser Leu Leu Glu Phe Glu Lys Thr Ser Arg Lys Asp Trp Phe Asp Glu 50 55 60 Glu Thr Arg Glu Leu Val Glu Gln Ala Asp Thr Glu Ile Gln Pro Asn 65 70 75 80 Pro Asn Leu Lys Pro Asn Thr Thr Ala Asn Arg Lys Leu Lys Asp Ile 85 90 95 Arg Asn Tyr Phe Ser His His Tyr His Lys Asn Glu Cys Leu Tyr Phe 100 105 110 Lys Asn Asp Asp Pro Ile Arg Cys Ile Met Glu Ala Ala Tyr Glu Lys 115 120 125 Ser Lys Ile Tyr Ile Lys Gly Lys Gln Ile Glu Gln Ser Asp Ile Pro 130 135 140 Leu Pro Glu Leu Phe Glu Ser Ser Gly Trp Ile Thr Pro Ala Gly Ile 145 150 155 160 Leu Leu Leu Ala Ser Phe Phe Val Glu Arg Gly Ile Leu His Arg Leu 165 170 175 Met Gly Asn Ile Gly Gly Phe Lys Asp Asn Arg Gly Glu Tyr Gly Leu 180 185 190 Thr His Asp Ile Phe Thr Thr Tyr Cys Leu Lys Gly Ser Tyr Ser Ile 195 200 205 Arg Ala Gln Asp His Asp Ala Val Met Phe Arg Asp Ile Leu Gly Tyr 210 215 220 Leu Ser Arg Val Pro Thr Glu Ser Phe Gln Arg Ile Lys Gln Pro Gln 225 230 235 240 Ile Arg Lys Glu Gly Gln Leu Ser Glu Arg Lys Thr Asp Lys Phe Ile 245 250 255 Thr Phe Ala Leu Asn Tyr Leu Glu Asp Tyr Gly Leu Lys Asp Leu Glu 260 265 270 Gly Cys Lys Ala Cys Phe Ala Arg Ser Lys Ile Val Arg Glu Gln Glu 275 280 285 Asn Val Glu Ser Ile Asn Asp Lys Glu Tyr Lys Pro His Glu Asn Lys 290 295 300 Lys Lys Val Glu Ile His Phe Asp Gln Ser Lys Glu Asp Arg Phe Tyr 305 310 315 320 Ile Asn Arg Asn Asn Val Ile Leu Lys Ile Gln Lys Lys Asp Gly His 325 330 335 Ser Asn Ile Val Arg Met Gly Val Tyr Glu Leu Lys Tyr Leu Val Leu 340 345 350 Met Ser Leu Val Gly Lys Ala Lys Glu Ala Val Glu Lys Ile Asp Asn 355 360 365 Tyr Ile Gln Asp Leu Arg Asp Gln Leu Pro Tyr Ile Glu Gly Lys Asn 370 375 380 Lys Glu Glu Ile Lys Glu Tyr Val Arg Phe Phe Pro Arg Phe Ile Arg 385 390 395 400 Ser His Leu Gly Leu Leu Gln Ile Asn Asp Glu Glu Lys Ile Lys Ala 405 410 415 Arg Leu Asp Tyr Val Lys Thr Lys Trp Leu Asp Lys Lys Glu Lys Ser 420 425 430 Lys Glu Leu Glu Leu His Lys Lys Gly Arg Asp Ile Leu Arg Tyr Ile 435 440 445 Asn Glu Arg Cys Asp Arg Glu Leu Asn Arg Asn Val Tyr Asn Arg Ile 450 455 460 Leu Glu Leu Leu Val Ser Lys Asp Leu Thr Gly Phe Tyr Arg Glu Leu 465 470 475 480 Glu Glu Leu Lys Arg Thr Arg Arg Ile Asp Lys Asn Ile Val Gln Asn 485 490 495 Leu Ser Gly Gln Lys Thr Ile Asn Ala Leu His Glu Lys Val Cys Asp 500 505 510 Leu Val Leu Lys Glu Ile Glu Ser Leu Asp Thr Glu Asn Leu Arg Lys 515 520 525 Tyr Leu Gly Leu Ile Pro Lys Glu Glu Lys Glu Val Thr Phe Lys Glu 530 535 540 Lys Val Asp Arg Ile Leu Lys Gln Pro Val Ile Tyr Lys Gly Phe Leu 545 550 555 560 Arg Tyr Gln Phe Phe Lys Asp Asp Lys Lys Ser Phe Val Leu Leu Val 565 570 575 Glu Asp Ala Leu Lys Glu Lys Gly Gly Gly Cys Asp Val Pro Leu Gly 580 585 590 Lys Glu Tyr Tyr Lys Ile Val Ser Leu Asp Lys Tyr Asp Lys Glu Asn 595 600 605 Lys Thr Leu Cys Glu Thr Leu Ala Met Asp Arg Leu Cys Leu Met Met 610 615 620 Ala Arg Gln Tyr Tyr Leu Ser Leu Asn Ala Lys Leu Ala Gln Glu Ala 625 630 635 640 Gln Gln Ile Glu Trp Lys Lys Glu Asp Ser Ile Glu Leu Ile Ile Phe 645 650 655 Thr Leu Lys Asn Pro Asp Gln Ser Lys Gln Ser Phe Ser Ile Arg Phe 660 665 670 Ser Val Arg Asp Phe Thr Lys Leu Tyr Val Thr Asp Asp Pro Glu Phe 675 680 685 Leu Ala Arg Leu Cys Ser Tyr Phe Phe Pro Val Glu Lys Glu Ile Glu 690 695 700 Tyr His Lys Leu Tyr Ser Glu Gly Ile Asn Lys Tyr Thr Asn Leu Gln 705 710 715 720 Lys Glu Gly Ile Glu Ala Ile Leu Glu Leu Glu Lys Lys Leu Ile Glu 725 730 735 Arg Asn Arg Ile Gln Ser Ala Lys Asn Tyr Leu Ser Phe Asn Glu Ile 740 745 750 Met Asn Lys Ser Gly Tyr Asn Lys Asp Glu Gln Asp Asp Leu Lys Lys 755 760 765 Val Arg Asn Ser Leu Leu His Tyr Lys Leu Ile Phe Glu Lys Glu His 770 775 780 Leu Lys Lys Phe Tyr Glu Val Met Arg Gly Glu Gly Ile Glu Lys Lys 785 790 795 800 Trp Ser Leu Ile Val 805 <210> 3 <211> 790 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polypeptide <220> <223> metagenomic <400> 3 Met Asn Gly Ile Glu Leu Lys Lys Glu Glu Ala Ala Phe Tyr Phe Asn 1 5 10 15 Gln Ala Glu Leu Asn Leu Lys Ala Ile Glu Asp Asn Ile Phe Asp Lys 20 25 30 Glu Arg Arg Lys Thr Leu Leu Asn Asn Pro Gln Ile Leu Ala Lys Met 35 40 45 Glu Asn Phe Ile Phe Asn Phe Arg Asp Val Thr Lys Asn Ala Lys Gly 50 55 60 Glu Ile Asp Cys Leu Leu Leu Lys Leu Arg Glu Leu Arg Asn Phe Tyr 65 70 75 80 Ser His Tyr Val His Lys Arg Asp Val Arg Glu Leu Ser Lys Gly Glu 85 90 95 Lys Pro Ile Leu Glu Lys Tyr Tyr Gln Phe Ala Ile Glu Ser Thr Gly 100 105 110 Ser Glu Asn Val Lys Leu Glu Ile Ile Glu Asn Asp Ala Trp Leu Ala 115 120 125 Asp Ala Gly Val Leu Phe Phe Leu Cys Ile Phe Leu Lys Lys Ser Gln 130 135 140 Ala Asn Lys Leu Ile Ser Gly Ile Ser Gly Phe Lys Arg Asn Asp Asp 145 150 155 160 Thr Gly Gln Pro Arg Arg Asn Leu Phe Thr Tyr Phe Ser Ile Arg Glu 165 170 175 Gly Tyr Lys Val Val Pro Glu Met Gln Lys His Phe Leu Leu Phe Ser 180 185 190 Leu Val Asn His Leu Ser Asn Gln Asp Asp Tyr Ile Glu Lys Ala His 195 200 205 Gln Pro Tyr Asp Ile Gly Glu Gly Leu Phe Phe His Arg Ile Ala Ser 210 215 220 Thr Phe Leu Asn Ile Ser Gly Ile Leu Arg Asn Met Lys Phe Tyr Thr 225 230 235 240 Tyr Gln Ser Lys Arg Leu Val Glu Gln Arg Gly Glu Leu Lys Arg Glu 245 250 255 Lys Asp Ile Phe Ala Trp Glu Glu Pro Phe Gln Gly Asn Ser Tyr Phe 260 265 270 Glu Ile Asn Gly His Lys Gly Val Ile Gly Glu Asp Glu Leu Lys Glu 275 280 285 Leu Cys Tyr Ala Phe Leu Ile Gly Asn Gln Asp Ala Asn Lys Val Glu 290 295 300 Gly Arg Ile Thr Gln Phe Leu Glu Lys Phe Arg Asn Ala Asn Ser Val 305 310 315 320 Gln Gln Val Lys Asp Asp Glu Met Leu Lys Pro Glu Tyr Phe Pro Ala 325 330 335 Asn Tyr Phe Ala Glu Ser Gly Val Gly Arg Ile Lys Asp Arg Val Leu 340 345 350 Asn Arg Leu Asn Lys Ala Ile Lys Ser Asn Lys Ala Lys Lys Gly Glu 355 360 365 Ile Ile Ala Tyr Asp Lys Met Arg Glu Val Met Ala Phe Ile Asn Asn 370 375 380 Ser Leu Pro Val Asp Glu Lys Leu Lys Pro Lys Asp Tyr Lys Arg Tyr 385 390 395 400 Leu Gly Met Val Arg Phe Trp Asp Arg Glu Lys Asp Asn Ile Lys Arg 405 410 415 Glu Phe Glu Thr Lys Glu Trp Ser Lys Tyr Leu Pro Ser Asn Phe Trp 420 425 430 Thr Ala Lys Asn Leu Glu Arg Val Tyr Gly Leu Ala Arg Glu Lys Asn 435 440 445 Ala Glu Leu Phe Asn Lys Leu Lys Ala Asp Val Glu Lys Met Asp Glu 450 455 460 Arg Glu Leu Glu Lys Tyr Gln Lys Ile Asn Asp Ala Lys Asp Leu Ala 465 470 475 480 Asn Leu Arg Arg Leu Ala Ser Asp Phe Gly Val Lys Trp Glu Glu Lys 485 490 495 Asp Trp Asp Glu Tyr Ser Gly Gln Ile Lys Lys Gln Ile Thr Asp Ser 500 505 510 Gln Lys Leu Thr Ile Met Lys Gln Arg Ile Thr Ala Gly Leu Lys Lys 515 520 525 Lys His Gly Ile Glu Asn Leu Asn Leu Arg Ile Thr Ile Asp Ile Asn 530 535 540 Lys Ser Arg Lys Ala Val Leu Asn Arg Ile Ala Ile Pro Arg Gly Phe 545 550 555 560 Val Lys Arg His Ile Leu Gly Trp Gln Glu Ser Glu Lys Val Ser Lys 565 570 575 Lys Ile Arg Glu Ala Glu Cys Glu Ile Leu Leu Ser Lys Glu Tyr Glu 580 585 590 Glu Leu Ser Lys Gln Phe Phe Gln Ser Lys Asp Tyr Asp Lys Met Thr 595 600 605 Arg Ile Asn Gly Leu Tyr Glu Lys Asn Lys Leu Ile Ala Leu Met Ala 610 615 620 Val Tyr Leu Met Gly Gln Leu Arg Ile Leu Phe Lys Glu His Thr Lys 625 630 635 640 Leu Asp Asp Ile Thr Lys Thr Thr Val Asp Phe Lys Ile Ser Asp Lys 645 650 655 Val Thr Val Lys Ile Pro Phe Ser Asn Tyr Pro Ser Leu Val Tyr Thr 660 665 670 Met Ser Ser Lys Tyr Val Asp Asn Ile Gly Asn Tyr Gly Phe Ser Asn 675 680 685 Lys Asp Lys Asp Lys Pro Ile Leu Gly Lys Ile Asp Val Ile Glu Lys 690 695 700 Gln Arg Met Glu Phe Ile Lys Glu Val Leu Gly Phe Glu Lys Tyr Leu 705 710 715 720 Phe Asp Asp Lys Ile Ile Asp Lys Ser Lys Phe Ala Asp Thr Ala Thr 725 730 735 His Ile Ser Phe Ala Glu Ile Val Glu Glu Leu Val Glu Lys Gly Trp 740 745 750 Asp Lys Asp Arg Leu Thr Lys Leu Lys Asp Ala Arg Asn Lys Ala Leu 755 760 765 His Gly Glu Ile Leu Thr Gly Thr Ser Phe Asp Glu Thr Lys Ser Leu 770 775 780 Ile Asn Glu Leu Lys Lys 785 790 <210> 4 <211> 792 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polypeptide <220> <223> metagenomic <400> 4 Met Ser Pro Asp Phe Ile Lys Leu Glu Lys Gln Glu Ala Ala Phe Tyr 1 5 10 15 Phe Asn Gln Thr Glu Leu Asn Leu Lys Ala Ile Glu Ser Asn Ile Leu 20 25 30 Asp Lys Gln Gln Arg Met Ile Leu Leu Asn Asn Pro Arg Ile Leu Ala 35 40 45 Lys Val Gly Asn Phe Ile Phe Asn Phe Arg Asp Val Thr Lys Asn Ala 50 55 60 Lys Gly Glu Ile Asp Cys Leu Leu Phe Lys Leu Glu Glu Leu Arg Asn 65 70 75 80 Phe Tyr Ser His Tyr Val His Thr Asp Asn Val Lys Glu Leu Ser Asn 85 90 95 Gly Glu Lys Pro Leu Leu Glu Arg Tyr Tyr Gln Ile Ala Ile Gln Ala 100 105 110 Thr Arg Ser Glu Asp Val Lys Phe Glu Leu Phe Glu Thr Arg Asn Glu 115 120 125 Asn Lys Ile Thr Asp Ala Gly Val Leu Phe Phe Leu Cys Met Phe Leu 130 135 140 Lys Lys Ser Gln Ala Asn Lys Leu Ile Ser Gly Ile Ser Gly Phe Lys 145 150 155 160 Arg Asn Asp Pro Thr Gly Gln Pro Arg Arg Asn Leu Phe Thr Tyr Phe 165 170 175 Ser Ala Arg Glu Gly Tyr Lys Ala Leu Pro Asp Met Gln Lys His Phe 180 185 190 Leu Leu Phe Thr Leu Val Asn Tyr Leu Ser Asn Gln Asp Glu Tyr Ile 195 200 205 Ser Glu Leu Lys Gln Tyr Gly Glu Ile Gly Gln Gly Ala Phe Phe Asn 210 215 220 Arg Ile Ala Ser Thr Phe Leu Asn Ile Ser Gly Ile Ser Gly Asn Thr 225 230 235 240 Lys Phe Tyr Ser Tyr Gln Ser Lys Arg Ile Lys Glu Gln Arg Gly Glu 245 250 255 Leu Asn Ser Glu Lys Asp Ser Phe Glu Trp Ile Glu Pro Phe Gln Gly 260 265 270 Asn Ser Tyr Phe Glu Ile Asn Gly His Lys Gly Val Ile Gly Glu Asp 275 280 285 Glu Leu Lys Glu Leu Cys Tyr Ala Leu Leu Val Ala Lys Gln Asp Ile 290 295 300 Asn Ala Val Glu Gly Lys Ile Met Gln Phe Leu Lys Lys Phe Arg Asn 305 310 315 320 Thr Gly Asn Leu Gln Gln Val Lys Asp Asp Glu Met Leu Glu Ile Glu 325 330 335 Tyr Phe Pro Ala Ser Tyr Phe Asn Glu Ser Lys Lys Glu Asp Ile Lys 340 345 350 Lys Glu Ile Leu Gly Arg Leu Asp Lys Lys Ile Arg Ser Cys Ser Ala 355 360 365 Lys Ala Glu Lys Ala Tyr Asp Lys Met Lys Glu Val Met Glu Phe Ile 370 375 380 Asn Asn Ser Leu Pro Ala Glu Glu Lys Leu Lys Arg Lys Asp Tyr Arg 385 390 395 400 Arg Tyr Leu Lys Met Val Arg Phe Trp Ser Arg Glu Lys Gly Asn Ile 405 410 415 Glu Arg Glu Phe Arg Thr Lys Glu Trp Ser Lys Tyr Phe Ser Ser Asp 420 425 430 Phe Trp Arg Lys Asn Asn Leu Glu Asp Val Tyr Lys Leu Ala Thr Gln 435 440 445 Lys Asn Ala Glu Leu Phe Lys Asn Leu Lys Ala Ala Ala Glu Lys Met 450 455 460 Gly Glu Thr Glu Phe Glu Lys Tyr Gln Gln Ile Asn Asp Val Lys Asp 465 470 475 480 Leu Ala Ser Leu Arg Arg Leu Thr Gln Asp Phe Gly Leu Lys Trp Glu 485 490 495 Glu Lys Asp Trp Glu Glu Tyr Ser Glu Gln Ile Lys Lys Gln Ile Thr 500 505 510 Asp Arg Gln Lys Leu Thr Ile Met Lys Gln Arg Val Thr Ala Glu Leu 515 520 525 Lys Lys Lys His Gly Ile Glu Asn Leu Asn Leu Arg Ile Thr Ile Asp 530 535 540 Ser Asn Lys Ser Arg Lys Ala Val Leu Asn Arg Ile Ala Ile Pro Arg 545 550 555 560 Gly Phe Val Lys Lys His Ile Leu Gly Trp Gln Gly Ser Glu Lys Ile 565 570 575 Ser Lys Asn Ile Arg Glu Ala Glu Cys Lys Ile Leu Leu Ser Lys Lys 580 585 590 Tyr Glu Glu Leu Ser Arg Gln Phe Phe Glu Ala Gly Asn Phe Asp Lys 595 600 605 Leu Thr Gln Ile Asn Gly Leu Tyr Glu Lys Asn Lys Leu Thr Ala Phe 610 615 620 Met Ser Val Tyr Leu Met Gly Arg Leu Asn Ile Gln Leu Asn Lys His 625 630 635 640 Thr Glu Leu Gly Asn Leu Lys Lys Thr Glu Val Asp Phe Lys Ile Ser 645 650 655 Asp Lys Val Thr Glu Lys Ile Pro Phe Ser Gln Tyr Pro Ser Leu Val 660 665 670 Tyr Ala Met Ser Arg Lys Tyr Val Asp Asn Val Asp Lys Tyr Lys Phe 675 680 685 Ser His Gln Asp Lys Lys Lys Pro Phe Leu Gly Lys Ile Asp Ser Ile 690 695 700 Glu Lys Glu Arg Ile Glu Phe Ile Lys Glu Val Leu Asp Phe Glu Glu 705 710 715 720 Tyr Leu Phe Lys Asn Lys Val Ile Asp Lys Ser Lys Phe Ser Asp Thr 725 730 735 Ala Thr His Ile Ser Phe Lys Glu Ile Cys Asp Glu Met Gly Lys Lys 740 745 750 Gly Cys Asn Arg Asn Lys Leu Thr Glu Leu Asn Asn Ala Arg Asn Ala 755 760 765 Ala Leu His Gly Glu Ile Pro Ser Glu Thr Ser Phe Arg Glu Ala Lys 770 775 780 Pro Leu Ile Asn Glu Leu Lys Lys 785 790 <210> 5 <211> 792 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polypeptide <220> <223> metagenomic <400> 5 Met Ser Pro Asp Phe Ile Lys Leu Glu Lys Gln Glu Ala Ala Phe Tyr 1 5 10 15 Phe Asn Gln Thr Glu Leu Asn Leu Lys Ala Ile Glu Ser Asn Ile Phe 20 25 30 Asp Lys Gln Gln Arg Val Ile Leu Leu Asn Asn Pro Gln Ile Leu Ala 35 40 45 Lys Val Gly Asp Phe Ile Phe Asn Phe Arg Asp Val Thr Lys Asn Ala 50 55 60 Lys Gly Glu Ile Asp Cys Leu Leu Leu Lys Leu Arg Glu Leu Arg Asn 65 70 75 80 Phe Tyr Ser His Tyr Val Tyr Thr Asp Asp Val Lys Ile Leu Ser Asn 85 90 95 Gly Glu Arg Pro Leu Leu Glu Lys Tyr Tyr Gln Phe Ala Ile Glu Ala 100 105 110 Thr Gly Ser Glu Asn Val Lys Leu Glu Ile Ile Glu Ser Asn Asn Arg 115 120 125 Leu Thr Glu Ala Gly Val Leu Phe Phe Leu Cys Met Phe Leu Lys Lys 130 135 140 Ser Gln Ala Asn Lys Leu Ile Ser Gly Ile Ser Gly Phe Lys Arg Asn 145 150 155 160 Asp Pro Thr Gly Gln Pro Arg Arg Asn Leu Phe Thr Tyr Phe Ser Val 165 170 175 Arg Glu Gly Tyr Lys Val Val Pro Asp Met Gln Lys His Phe Leu Leu 180 185 190 Phe Val Leu Val Asn His Leu Ser Gly Gln Asp Asp Tyr Ile Glu Lys 195 200 205 Ala Gln Lys Pro Tyr Asp Ile Gly Glu Gly Leu Phe Phe His Arg Ile 210 215 220 Ala Ser Thr Phe Leu Asn Ile Ser Gly Ile Leu Arg Asn Met Glu Phe 225 230 235 240 Tyr Ile Tyr Gln Ser Lys Arg Leu Lys Glu Gln Gln Gly Glu Leu Lys 245 250 255 Arg Glu Lys Asp Ile Phe Pro Trp Ile Glu Pro Phe Gln Gly Asn Ser 260 265 270 Tyr Phe Glu Ile Asn Gly Asn Lys Gly Ile Ile Gly Glu Asp Glu Leu 275 280 285 Lys Glu Leu Cys Tyr Ala Leu Leu Val Ala Gly Lys Asp Val Arg Ala 290 295 300 Val Glu Gly Lys Ile Thr Gln Phe Leu Glu Lys Phe Lys Asn Ala Asp 305 310 315 320 Asn Ala Gln Gln Val Glu Lys Asp Glu Met Leu Asp Arg Asn Asn Phe 325 330 335 Pro Ala Asn Tyr Phe Ala Glu Ser Asn Ile Gly Ser Ile Lys Glu Lys 340 345 350 Ile Leu Asn Arg Leu Gly Lys Thr Asp Asp Ser Tyr Asn Lys Thr Gly 355 360 365 Thr Lys Ile Lys Pro Tyr Asp Met Met Lys Glu Val Met Glu Phe Ile 370 375 380 Asn Asn Ser Leu Pro Ala Asp Glu Lys Leu Lys Arg Lys Asp Tyr Arg 385 390 395 400 Arg Tyr Leu Lys Met Val Arg Ile Trp Asp Ser Glu Lys Asp Asn Ile 405 410 415 Lys Arg Glu Phe Glu Ser Lys Glu Trp Ser Lys Tyr Phe Ser Ser Asp 420 425 430 Phe Trp Met Ala Lys Asn Leu Glu Arg Val Tyr Gly Leu Ala Arg Glu 435 440 445 Lys Asn Ala Glu Leu Phe Asn Lys Leu Lys Ala Val Val Glu Lys Met 450 455 460 Asp Glu Arg Glu Phe Glu Lys Tyr Arg Leu Ile Asn Ser Ala Glu Asp 465 470 475 480 Leu Ala Ser Leu Arg Arg Leu Ala Lys Asp Phe Gly Leu Lys Trp Glu 485 490 495 Glu Lys Asp Trp Gln Glu Tyr Ser Gly Gln Ile Lys Lys Gln Ile Ser 500 505 510 Asp Arg Gln Lys Leu Thr Ile Met Lys Gln Arg Ile Thr Ala Glu Leu 515 520 525 Lys Lys Lys His Gly Ile Glu Asn Leu Asn Leu Arg Ile Thr Ile Asp 530 535 540 Ser Asn Lys Ser Arg Lys Ala Val Leu Asn Arg Ile Ala Val Pro Arg 545 550 555 560 Gly Phe Val Lys Glu His Ile Leu Gly Trp Gln Gly Ser Glu Lys Val 565 570 575 Ser Lys Lys Thr Arg Glu Ala Lys Cys Lys Ile Leu Leu Ser Lys Glu 580 585 590 Tyr Glu Glu Leu Ser Lys Gln Phe Phe Gln Thr Arg Asn Tyr Asp Lys 595 600 605 Met Thr Gln Val Asn Gly Leu Tyr Glu Lys Asn Lys Leu Leu Ala Phe 610 615 620 Met Val Val Tyr Leu Met Glu Arg Leu Asn Ile Leu Leu Asn Lys Pro 625 630 635 640 Thr Glu Leu Asn Glu Leu Glu Lys Ala Glu Val Asp Phe Lys Ile Ser 645 650 655 Asp Lys Val Met Ala Lys Ile Pro Phe Ser Gln Tyr Pro Ser Leu Val 660 665 670 Tyr Ala Met Ser Ser Lys Tyr Ala Asp Ser Val Gly Ser Tyr Lys Phe 675 680 685 Glu Asn Asp Glu Lys Asn Lys Pro Phe Leu Gly Lys Ile Asp Thr Ile 690 695 700 Glu Lys Gln Arg Met Glu Phe Ile Lys Glu Val Leu Gly Phe Glu Glu 705 710 715 720 Tyr Leu Phe Glu Lys Lys Ile Ile Asp Lys Ser Glu Phe Ala Asp Thr 725 730 735 Ala Thr His Ile Ser Phe Asp Glu Ile Cys Asn Glu Leu Ile Lys Lys 740 745 750 Gly Trp Asp Lys Asp Lys Leu Thr Lys Leu Lys Asp Ala Arg Asn Ala 755 760 765 Ala Leu His Gly Glu Ile Pro Ala Glu Thr Ser Phe Arg Glu Ala Lys 770 775 780 Pro Leu Ile Asn Gly Leu Lys Lys 785 790 <210> 6 <211> 799 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polypeptide <220> <223> metagenomic <400> 6 Met Asn Ile Ile Lys Leu Lys Lys Glu Glu Ala Ala Phe Tyr Phe Asn 1 5 10 15 Gln Thr Ile Leu Asn Leu Ser Gly Leu Asp Glu Ile Ile Glu Lys Gln 20 25 30 Ile Pro His Ile Ile Ser Asn Lys Glu Asn Ala Lys Lys Val Ile Asp 35 40 45 Lys Ile Phe Asn Asn Arg Leu Leu Leu Lys Ser Val Glu Asn Tyr Ile 50 55 60 Tyr Asn Phe Lys Asp Val Ala Lys Asn Ala Arg Thr Glu Ile Glu Ala 65 70 75 80 Ile Leu Leu Lys Leu Val Glu Leu Arg Asn Phe Tyr Ser His Tyr Val 85 90 95 His Asn Asp Thr Val Lys Ile Leu Ser Asn Gly Glu Lys Pro Ile Leu 100 105 110 Glu Lys Tyr Tyr Gln Ile Ala Ile Glu Ala Thr Gly Ser Lys Asn Val 115 120 125 Lys Leu Val Ile Ile Glu Asn Asn Asn Cys Leu Thr Asp Ser Gly Val 130 135 140 Leu Phe Leu Leu Cys Met Phe Leu Lys Lys Ser Gln Ala Asn Lys Leu 145 150 155 160 Ile Ser Ser Val Ser Gly Phe Lys Arg Asn Asp Lys Glu Gly Gln Pro 165 170 175 Arg Arg Asn Leu Phe Thr Tyr Tyr Ser Val Arg Glu Gly Tyr Lys Val 180 185 190 Val Pro Asp Met Gln Lys His Phe Leu Leu Phe Ala Leu Val Asn His 195 200 205 Leu Ser Glu Gln Asp Asp His Ile Glu Lys Gln Gln Gln Ser Asp Glu 210 215 220 Leu Gly Lys Gly Leu Phe Phe His Arg Ile Ala Ser Thr Phe Leu Asn 225 230 235 240 Glu Ser Gly Ile Phe Asn Lys Met Gln Phe Tyr Thr Tyr Gln Ser Asn 245 250 255 Arg Leu Lys Glu Lys Arg Gly Glu Leu Lys His Glu Lys Asp Thr Phe 260 265 270 Thr Trp Ile Glu Pro Phe Gln Gly Asn Ser Tyr Phe Thr Leu Asn Gly 275 280 285 His Lys Gly Val Ile Ser Glu Asp Gln Leu Lys Glu Leu Cys Tyr Thr 290 295 300 Ile Leu Ile Glu Lys Gln Asn Val Asp Ser Leu Glu Gly Lys Ile Ile 305 310 315 320 Gln Phe Leu Lys Lys Phe Gln Asn Val Ser Ser Lys Gln Gln Val Asp 325 330 335 Glu Asp Glu Leu Leu Lys Arg Glu Tyr Phe Pro Ala Asn Tyr Phe Gly 340 345 350 Arg Ala Gly Thr Gly Thr Leu Lys Glu Lys Ile Leu Asn Arg Leu Asp 355 360 365 Lys Arg Met Asp Pro Thr Ser Lys Val Thr Asp Lys Ala Tyr Asp Lys 370 375 380 Met Ile Glu Val Met Glu Phe Ile Asn Met Cys Leu Pro Ser Asp Glu 385 390 395 400 Lys Leu Arg Gln Lys Asp Tyr Arg Arg Tyr Leu Lys Met Val Arg Phe 405 410 415 Trp Asn Lys Glu Lys His Asn Ile Lys Arg Glu Phe Asp Ser Lys Lys 420 425 430 Trp Thr Arg Phe Leu Pro Thr Glu Leu Trp Asn Lys Arg Asn Leu Glu 435 440 445 Glu Ala Tyr Gln Leu Ala Arg Lys Glu Asn Lys Lys Lys Leu Glu Asp 450 455 460 Met Arg Asn Gln Val Arg Ser Leu Lys Glu Asn Asp Leu Glu Lys Tyr 465 470 475 480 Gln Gln Ile Asn Tyr Val Asn Asp Leu Glu Asn Leu Arg Leu Leu Ser 485 490 495 Gln Glu Leu Gly Val Lys Trp Gln Glu Lys Asp Trp Val Glu Tyr Ser 500 505 510 Gly Gln Ile Lys Lys Gln Ile Ser Asp Asn Gln Lys Leu Thr Ile Met 515 520 525 Lys Gln Arg Ile Thr Ala Glu Leu Lys Lys Met His Gly Ile Glu Asn 530 535 540 Leu Asn Leu Arg Ile Ser Ile Asp Thr Asn Lys Ser Arg Gln Thr Val 545 550 555 560 Met Asn Arg Ile Ala Leu Pro Lys Gly Phe Val Lys Asn His Ile Gln 565 570 575 Gln Asn Ser Ser Glu Lys Ile Ser Lys Arg Ile Arg Glu Asp Tyr Cys 580 585 590 Lys Ile Glu Leu Ser Gly Lys Tyr Glu Glu Leu Ser Arg Gln Phe Phe 595 600 605 Asp Lys Lys Asn Phe Asp Lys Met Thr Leu Ile Asn Gly Leu Cys Glu 610 615 620 Lys Asn Lys Leu Ile Ala Phe Met Val Ile Tyr Leu Leu Glu Arg Leu 625 630 635 640 Gly Phe Glu Leu Lys Glu Lys Thr Lys Leu Gly Glu Leu Lys Gln Thr 645 650 655 Arg Met Thr Tyr Lys Ile Ser Asp Lys Val Lys Glu Asp Ile Pro Leu 660 665 670 Ser Tyr Tyr Pro Lys Leu Val Tyr Ala Met Asn Arg Lys Tyr Val Asp 675 680 685 Asn Ile Asp Ser Tyr Ala Phe Ala Ala Tyr Glu Ser Lys Lys Ala Ile 690 695 700 Leu Asp Lys Val Asp Ile Ile Glu Lys Gln Arg Met Glu Phe Ile Lys 705 710 715 720 Gln Val Leu Cys Phe Glu Glu Tyr Ile Phe Glu Asn Arg Ile Ile Glu 725 730 735 Lys Ser Lys Phe Asn Asp Glu Glu Thr His Ile Ser Phe Thr Gln Ile 740 745 750 His Asp Glu Leu Ile Lys Lys Gly Arg Asp Thr Glu Lys Leu Ser Lys 755 760 765 Leu Lys His Ala Arg Asn Lys Ala Leu His Gly Glu Ile Pro Asp Gly 770 775 780 Thr Ser Phe Glu Lys Ala Lys Leu Leu Ile Asn Glu Ile Lys Lys 785 790 795 <210> 7 <211> 803 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polypeptide <220> <223> metagenomic <400> 7 Met Asn Ala Ile Glu Leu Lys Lys Glu Glu Ala Ala Phe Tyr Phe Asn 1 5 10 15 Gln Ala Arg Leu Asn Ile Ser Gly Leu Asp Glu Ile Ile Glu Lys Gln 20 25 30 Leu Pro His Ile Gly Ser Asn Arg Glu Asn Ala Lys Lys Thr Val Asp 35 40 45 Met Ile Leu Asp Asn Pro Glu Val Leu Lys Lys Met Glu Asn Tyr Val 50 55 60 Phe Asn Ser Arg Asp Ile Ala Lys Asn Ala Arg Gly Glu Leu Glu Ala 65 70 75 80 Leu Leu Leu Lys Leu Val Glu Leu Arg Asn Phe Tyr Ser His Tyr Val 85 90 95 His Lys Asp Asp Val Lys Thr Leu Ser Tyr Gly Glu Lys Pro Leu Leu 100 105 110 Asp Lys Tyr Tyr Glu Ile Ala Ile Glu Ala Thr Gly Ser Lys Asp Val 115 120 125 Arg Leu Glu Ile Ile Asp Asp Lys Asn Lys Leu Thr Asp Ala Gly Val 130 135 140 Leu Phe Leu Leu Cys Met Phe Leu Lys Lys Ser Glu Ala Asn Lys Leu 145 150 155 160 Ile Ser Ser Ile Arg Gly Phe Lys Arg Asn Asp Lys Glu Gly Gln Pro 165 170 175 Arg Arg Asn Leu Phe Thr Tyr Tyr Ser Val Arg Glu Gly Tyr Lys Val 180 185 190 Val Pro Asp Met Gln Lys His Phe Leu Leu Phe Thr Leu Val Asn His 195 200 205 Leu Ser Asn Gln Asp Glu Tyr Ile Ser Asn Leu Arg Pro Asn Gln Glu 210 215 220 Ile Gly Gln Gly Gly Phe Phe His Arg Ile Ala Ser Lys Phe Leu Ser 225 230 235 240 Asp Ser Gly Ile Leu His Ser Met Lys Phe Tyr Thr Tyr Arg Ser Lys 245 250 255 Arg Leu Thr Glu Gln Arg Gly Glu Leu Lys Pro Lys Lys Asp His Phe 260 265 270 Thr Trp Ile Glu Pro Phe Gln Gly Asn Ser Tyr Phe Ser Val Gln Gly 275 280 285 Gln Lys Gly Val Ile Gly Glu Glu Gln Leu Lys Glu Leu Cys Tyr Val 290 295 300 Leu Leu Val Ala Arg Glu Asp Phe Arg Ala Val Glu Gly Lys Val Thr 305 310 315 320 Gln Phe Leu Lys Lys Phe Gln Asn Ala Asn Asn Val Gln Gln Val Glu 325 330 335 Lys Asp Glu Val Leu Glu Lys Glu Tyr Phe Pro Ala Asn Tyr Phe Glu 340 345 350 Asn Arg Asp Val Gly Arg Val Lys Asp Lys Ile Leu Asn Arg Leu Lys 355 360 365 Lys Ile Thr Glu Ser Tyr Lys Ala Lys Gly Arg Glu Val Lys Ala Tyr 370 375 380 Asp Lys Met Lys Glu Val Met Glu Phe Ile Asn Asn Cys Leu Pro Thr 385 390 395 400 Asp Glu Asn Leu Lys Leu Lys Asp Tyr Arg Arg Tyr Leu Lys Met Val 405 410 415 Arg Phe Trp Gly Arg Glu Lys Glu Asn Ile Lys Arg Glu Phe Asp Ser 420 425 430 Lys Lys Trp Glu Arg Phe Leu Pro Arg Glu Leu Trp Gln Lys Arg Asn 435 440 445 Leu Glu Asp Ala Tyr Gln Leu Ala Lys Glu Lys Asn Thr Glu Leu Phe 450 455 460 Asn Lys Leu Lys Thr Thr Val Glu Arg Met Asn Glu Leu Glu Phe Glu 465 470 475 480 Lys Tyr Gln Gln Ile Asn Asp Ala Lys Asp Leu Ala Asn Leu Arg Gln 485 490 495 Leu Ala Arg Asp Phe Gly Val Lys Trp Glu Glu Lys Asp Trp Gln Glu 500 505 510 Tyr Ser Gly Gln Ile Lys Lys Gln Ile Thr Asp Arg Gln Lys Leu Thr 515 520 525 Ile Met Lys Gln Arg Ile Thr Ala Ala Leu Lys Lys Lys Gln Gly Ile 530 535 540 Glu Asn Leu Asn Leu Arg Ile Thr Thr Asp Thr Asn Lys Ser Arg Lys 545 550 555 560 Val Val Leu Asn Arg Ile Ala Leu Pro Lys Gly Phe Val Arg Lys His 565 570 575 Ile Leu Lys Thr Asp Ile Lys Ile Ser Lys Gln Ile Arg Gln Ser Gln 580 585 590 Cys Pro Ile Ile Leu Ser Asn Asn Tyr Met Lys Leu Ala Lys Glu Phe 595 600 605 Phe Glu Glu Arg Asn Phe Asp Lys Met Thr Gln Ile Asn Gly Leu Phe 610 615 620 Glu Lys Asn Val Leu Ile Ala Phe Met Ile Val Tyr Leu Met Glu Gln 625 630 635 640 Leu Asn Leu Arg Leu Gly Lys Asn Thr Glu Leu Ser Asn Leu Lys Lys 645 650 655 Thr Glu Val Asn Phe Thr Ile Thr Asp Lys Val Thr Glu Lys Val Gln 660 665 670 Ile Ser Gln Tyr Pro Ser Leu Val Phe Ala Ile Asn Arg Glu Tyr Val 675 680 685 Asp Gly Ile Ser Gly Tyr Lys Leu Pro Pro Lys Lys Pro Lys Glu Pro 690 695 700 Pro Tyr Thr Phe Phe Glu Lys Ile Asp Ala Ile Glu Lys Glu Arg Met 705 710 715 720 Glu Phe Ile Lys Gln Val Leu Gly Phe Glu Glu His Leu Phe Glu Lys 725 730 735 Asn Val Ile Asp Lys Thr Arg Phe Thr Asp Thr Ala Thr His Ile Ser 740 745 750 Phe Asn Glu Ile Cys Asp Glu Leu Ile Lys Lys Gly Trp Asp Glu Asn 755 760 765 Lys Ile Ile Lys Leu Lys Asp Ala Arg Asn Ala Ala Leu His Gly Lys 770 775 780 Ile Pro Glu Asp Thr Ser Phe Asp Glu Ala Lys Val Leu Ile Asn Glu 785 790 795 800 Leu Lys Lys <210> 8 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <223> metagenomic <400> 8 gctggagcag cccccgattt gtggggtgat tacagc 36 <210> 9 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <223> metagenomic <400> 9 gctgaagaag cctccgattt gagaggtgat tacagc 36 <210> 10 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <223> metagenomic <400> 10 gctgtgatag acctcgattt gtggggtagt aacagc 36 <210> 11 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <223> metagenomic <400> 11 gctgtgatag acctcgattt gtggggtagt aacagc 36 <210> 12 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <223> metagenomic <400> 12 gctgtgatag acctcgattt gtggggtagt aacagc 36 <210> 13 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <223> metagenomic <400> 13 gctgtgatgg gcctcaattt gtggggaagt aacagc 36 <210> 14 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <223> metagenomic <400> 14 gctgtgatag gcctcgattt gtggggtagt aacagc 36 <210> 15 <211> 2328 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <220> <223> metagenomic <400> 15 atggcgcaag tgtcaaagca gacttcgaaa aagagagagt tgtctatcga tgaatatcaa 60 ggtgctcgga aatggtgttt tacgattgcc ttcaacaagg ctcttgtgaa tcgagataag 120 aacgacgggc tttttgtcga gtcgctgtta cgccatgaaa agtattcaaa gcacgactgg 180 tacgatgagg atacacgcgc tttgatcaag tgtagcacac aagcggccaa tgcgaaggcc 240 gaggcgttaa gaaactattt ctcccactat cgacattcgc ccgggtgtct gacatttaca 300 gcagaagatg agttgcggac aatcatggaa agggcgtatg agcgggcgat ctttgaatgc 360 aggagacgcg aaactgaagt gatcatcgag tttcccagcc tgttcgaagg cgaccggatc 420 actacggcgg gggttgtgtt tttcgtttcg ttctttgttg aacggcgggt gctggatcgt 480 ttgtacggtg cggtaagtgg gcttaagaaa aacgaaggac agtacaagct gactcggaag 540 gcgctttcga tgtattgcct gaaagacagt cgtttcacga aggcgtggga caaacgcgtg 600 ctgcttttca gggatatact cgcgcagctt ggacgcatcc ctgcggaggc gtatgaatac 660 taccacggag agcagggcga caagaaaaga gcaaacgaca atgaggggac gaatccgaaa 720 cgccataaag acaagttcat cgagtttgca ctgcattatc tggaggcgca acacagtgag 780 atatgcttcg ggcggcgaca cattgtcagg gaggaggccg gggcaggcga cgaacacaaa 840 aagcacagga ccaaaggcaa ggtagttgtc gacttttcaa aaaaagacga agatcagtca 900 tactatatca gtaagaacaa tgttatcgtc aggattgata agaatgccgg gcctcggagt 960 tatcgcatgg ggcttaacga attgaaatac cttgtattgc ttagccttca gggaaagggc 1020 gacgatgcga ttgcaaaact gtacaggtat cggcagcatg tggagaacat tctggatgta 1080 gtgaaggtca cagataagga taatcacgtc ttcctgccgc gatttgtgct ggagcaacat 1140 gggattggca ggaaagcttt taagcaaaga atagacggca gagtaaagca tgttcgaggg 1200 gtgtgggaaa agaagaaggc ggcgaccaac gagatgacac ttcacgagaa ggcgcgggac 1260 attcttcaat acgtaaatga aaattgcacg aggtctttca atcccggcga gtacaaccgg 1320 ctgctggtgt gtctggttgg caaggatgtt gagaattttc aggcgggact gaaacgcctg 1380 caactggccg agcgaatcga cgggcgggta tattcaattt ttgcgcagac ctccacaata 1440 aacgagatgc atcaggtggt gtgtgatcag attctcaaca gactttgccg aatcggcgat 1500 cagaagctct acgattatgt ggggcttggg aagaaggatg aaatagatta caagcagaag 1560 gttgcatggt tcaaggagca tatttctatc cgcaggggtt tcttgcgcaa gaagttctgg 1620 tatgacagca agaagggatt cgcgaagctt gtggaagagc atttggaaag cggcggcgga 1680 cagagggacg ttgggctgga taaaaagtat tatcatattg atgcgattgg gcgattcgag 1740 ggtgctaatc cagccttgta tgaaacgctg gcgcgagacc gtttgtgtct gatgatggcg 1800 caatacttcc tggggagtgt acgcaaggaa ttgggtaata aaattgtgtg gtcgaatgat 1860 agcatcgagt tgcccgtgga gggctcagtg ggtaacgaaa aaagcatcgt cttctcagtg 1920 agtgattacg gcaagttata tgtgttggat gacgctgagt ttcttgggcg gatatgtgag 1980 tactttatgc cgcacgaaaa agggaagata cggtatcata cagtttacga aaaagggttt 2040 agggcatata atgatctgca gaagaaatgt gtcgaggcgg tgctggcgtt tgaagagaag 2100 gttgtcaaag ccaaaaagat gagcgagaag gaaggggcgc attatattga ttttcgtgag 2160 atactggcac aaacaatgtg taaagaggcg gagaagaccg ccgtgaataa ggtgcgtaga 2220 gcgtttttcc atcatcattt aaagtttgtg atagatgaat ttgggttgtt tagtgatgtt 2280 atgaagaaat atggaattga aaaggagtgg aagtttcctg ttaaatga 2328 <210> 16 <211> 2418 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <220> <223> metagenomic <400> 16 atgaaggttg aaaatattaa agaaaaaagc aaaaaagcaa tgtatttaat caaccattat 60 gagggaccca aaaaatggtg ttttgcaata gttctgaata gggcatgtga taattacgag 120 gacaatccac acttgttttc caaatcactt ttggaatttg aaaaaacaag tcgaaaagat 180 tggtttgacg aagaaacacg agagcttgtt gagcaagcag atacagaaat acagccaaat 240 cctaacctga aacctaatac aacagctaac cgaaaactca aagatataag aaactatttt 300 tcgcatcatt atcacaagaa cgaatgcctg tattttaaga acgatgatcc catacgctgc 360 attatggaag cggcgtatga aaaatctaaa atttatatca aaggaaagca gattgagcaa 420 agcgatatac cattgcccga attgtttgaa agcagcggtt ggattacacc ggcggggatt 480 ttgttactgg catccttttt tgttgaacga gggattctac atcgcttgat gggaaatatc 540 ggaggattta aagataatcg aggcgaatac ggtcttacac acgatatttt taccacctat 600 tgtcttaagg gtagttattc aattcgggcg caggatcatg atgcggtaat gttcagagat 660 attctcggct atctgtcacg agttcccact gagtcatttc agcgtatcaa gcaacctcaa 720 atacgaaaag aaggccaatt aagtgaaaga aagacggaca aatttataac atttgcacta 780 aattatcttg aggattatgg gctgaaagat ttggaaggct gcaaagcctg ttttgccaga 840 agtaaaattg taagggaaca agaaaatgtt gaaagcataa atgataagga atacaaacct 900 cacgagaaca aaaagaaagt tgaaattcac ttcgatcaga gcaaagaaga ccgattttat 960 attaatcgca ataacgttat tttgaagatt cagaagaaag atggacattc caacatagtt 1020 aggatgggag tatatgaact taaatatctc gttcttatga gtttagtggg aaaagcaaaa 1080 gaagcagttg aaaaaattga caactatatc caggatttgc gagaccagtt gccttacata 1140 gaggggaaaa ataaggaaga gattaaagaa tacgtcaggt tctttccacg atttatacgt 1200 tctcacctcg gtttactaca gattaacgat gaagaaaaga taaaagctcg attagattat 1260 gttaagacca agtggttaga taaaaaggaa aaatcgaaag agcttgaact tcataaaaaa 1320 ggacgggaca tcctcaggta tatcaacgag cgatgtgata gagagcttaa caggaatgta 1380 tataaccgta ttttagagct cctggtcagc aaagacctca ctggttttta tcgtgagctt 1440 gaagaactaa aaagaacaag gcggatagat aaaaatattg tccagaatct ttctgggcaa 1500 aaaaccatta atgcactgca tgaaaaggtc tgtgatctgg tgctgaagga aatcgaaagt 1560 ctcgatacag aaaatctcag gaaatatctt ggattgatac ccaaagaaga aaaagaggtc 1620 actttcaaag aaaaggtcga taggattttg aaacagccag ttatttacaa agggtttctg 1680 agataccaat tcttcaaaga tgacaaaaag agttttgtct tacttgttga agacgcattg 1740 aaggaaaaag gaggaggttg tgatgttcct cttgggaaag agtattataa aatcgtgtca 1800 cttgataagt atgataaaga aaataaaacc ctgtgtgaaa ctctggcgat ggataggctt 1860 tgccttatga tggcaagaca atattatctc agtctgaatg caaaacttgc acaggaagct 1920 cagcaaatcg aatggaagaa agaagatagt atagaattga ttattttcac cttaaaaaat 1980 cccgatcaat caaagcagag tttttctata cggttttcgg tcagagattt tacgaagttg 2040 tatgtaacgg atgatcctga atttctggcc cggctttgtt cctacttttt cccagttgaa 2100 aaagagattg aatatcacaa gctctattca gaagggataa ataaatacac aaacctgcaa 2160 aaagagggaa tcgaagcaat actcgagctt gaaaaaaagc ttattgaacg aaatcggatt 2220 caatctgcaa aaaattatct ctcatttaat gagataatga ataaaagcgg ttataataaa 2280 gatgagcagg atgatctaaa gaaggtgcga aattctcttt tgcattataa gcttatcttt 2340 gagaaagaac atctcaagaa gttctatgag gttatgagag gagaagggat agagaaaaag 2400 tggtctttaa tagtatga 2418 <210> 17 <211> 2373 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <220> <223> metagenomic <400> 17 atgaatggca ttgaattaaa aaaagaagaa gcagcatttt attttaatca ggcagagctt 60 aatttaaaag ccatagaaga caatattttt gataaagaaa gacgaaagac tctgcttaat 120 aatccacaga tacttgccaa aatggaaaat ttcattttca atttcagaga tgtaacaaaa 180 aatgcaaaag gggaaattga ctgcttgctg ttgaaactaa gagagctgag aaacttttac 240 tcgcattatg tccacaaacg agatgtaaga gaattaagca agggcgagaa acctatactt 300 gaaaagtatt accaatttgc gattgaatca accggaagtg aaaatgttaa acttgagata 360 atagaaaacg acgcgtggct tgcagatgcc ggtgtgttgt ttttcttatg tatttttttg 420 aagaaatctc aggcaaataa gcttataagc ggtatcagcg gttttaaaag aaacgatgat 480 accggtcagc cgagaaggaa tttatttacc tatttcagta taagggaggg atacaaggtt 540 gttccggaaa tgcagaaaca tttccttttg ttttctcttg ttaatcatct ctctaatcaa 600 gatgattata ttgaaaaagc gcatcagcca tacgatatag gcgagggttt attttttcat 660 cgaatagctt ctacatttct taatataagt gggattttaa gaaatatgaa attctatacc 720 tatcagagta aaaggttagt agagcagcgg ggagaactca aacgagaaaa ggatattttt 780 gcgtgggaag aaccgtttca aggaaatagt tattttgaaa taaatggtca taaaggagta 840 atcggtgaag atgaattgaa ggaactatgt tatgcatttc tgattggcaa tcaagatgct 900 aataaagtgg aaggcaggat tacacaattt ctagaaaagt ttagaaatgc gaacagtgtg 960 caacaagtta aagatgatga aatgctaaaa ccagagtatt ttcctgcaaa ttattttgct 1020 gaatcaggcg tcggaagaat aaaggataga gtgcttaatc gtttgaataa agcgattaaa 1080 agcaataagg ccaagaaagg agagattata gcatacgata agatgagaga ggttatggcg 1140 ttcataaata attctctgcc ggtagatgaa aaattgaaac caaaagatta caaacgatat 1200 ctgggaatgg ttcgtttctg ggacagggaa aaagataaca taaagcggga gttcgagaca 1260 aaagaatggt ctaaatatct tccatctaat ttctggacgg caaaaaacct tgaaagggtc 1320 tatggtctgg caagagagaa aaacgcagaa ttattcaata aactaaaagc ggatgtagaa 1380 aaaatggacg aacgggaact tgagaagtat cagaagataa atgatgcaaa ggatttggca 1440 aatttacgcc ggcttgcaag cgactttggt gtgaagtggg aagaaaaaga ctgggatgag 1500 tattcaggac agataaaaaa acaaattaca gacagccaga aactaacaat aatgaagcag 1560 cggataaccg caggactaaa gaaaaagcac ggcatagaaa atcttaacct gagaataact 1620 atcgacatca ataaaagcag aaaggcagtt ttgaacagaa ttgcgattcc gaggggtttt 1680 gtaaaaaggc atattttagg atggcaagag tctgagaagg tatcgaaaaa gataagagag 1740 gcagaatgcg aaattctgct gtcgaaagaa tacgaagaac tatcgaaaca atttttccaa 1800 agcaaagatt atgacaaaat gacacggata aatggccttt atgaaaaaaa caaacttata 1860 gccctgatgg cagtttatct aatggggcaa ttgagaatcc tgtttaaaga acacacaaaa 1920 cttgacgata ttacgaaaac aactgtggat ttcaaaatat ctgataaggt gacggtaaaa 1980 atcccctttt caaattatcc ttcgctcgtt tatacaatgt ccagtaagta tgttgataat 2040 atagggaatt atggattttc caacaaagat aaagacaagc cgattttagg taagattgat 2100 gtaatagaaa aacagcgaat ggaatttata aaagaggttc ttggttttga aaaatatctt 2160 tttgatgata aaataataga taaaagcaaa tttgctgata cagcgactca tataagtttt 2220 gcagaaatag ttgaggagct tgttgaaaaa ggatgggaca aagacagact gacaaaactt 2280 aaagatgcaa gaaataaagc cctgcatggt gaaatactga cgggaaccag ctttgatgaa 2340 acaaaatcat tgataaacga attaaaaaaa tga 2373 <210> 18 <211> 2379 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <220> <223> metagenomic <400> 18 atgtccccag atttcatcaa attagaaaaa caggaagcag ctttttactt taatcagaca 60 gagcttaatt taaaagccat agaaagcaat attttagaca aacaacagcg aatgattctg 120 cttaataatc cacggatact tgccaaagta ggaaatttca ttttcaattt cagagatgta 180 acaaaaaatg caaaaggaga aatagactgt ctgctattta aactggaaga gctaagaaac 240 ttttactcgc attatgttca taccgacaat gtaaaggaat tgagtaacgg agaaaaaccc 300 ctactggaaa gatattatca aatcgctatt caggcaacca ggagtgagga tgttaagttc 360 gaattgtttg aaacaagaaa cgagaataag attacggatg ccggtgtatt gtttttctta 420 tgtatgtttt taaaaaaatc acaggcaaac aagcttataa gcggtatcag cggcttcaaa 480 agaaatgatc caacaggcca gccgagaaga aacttattta cctatttcag tgcaagagaa 540 ggatataagg ctttgcctga tatgcagaaa cattttcttc tttttactct ggttaattat 600 ttgtcgaatc aggatgagta tatcagcgag cttaaacaat atggagagat tggtcaagga 660 gcctttttta atcgaatagc ttcaacattt ttgaatatca gcgggatttc aggaaatacg 720 aaattctatt cgtatcaaag taaaaggata aaagagcagc gaggcgaact caatagcgaa 780 aaggacagct ttgaatggat agagcctttc caaggaaaca gctattttga aataaatggg 840 cataaaggag taatcggcga agacgaatta aaagaacttt gttatgcatt gttggttgcc 900 aagcaagata ttaatgccgt tgaaggcaaa attatgcaat tcctgaaaaa gtttagaaat 960 actggcaatt tgcagcaagt taaagatgat gaaatgctgg aaatagaata ttttcccgca 1020 agttatttta atgaatcaaa aaaagaggac ataaagaaag agattcttgg ccggctggat 1080 aaaaagattc gctcctgctc tgcaaaggca gaaaaagcct atgataagat gaaagaggtg 1140 atggagttta taaataattc tctgccggca gaggaaaaat tgaaacgcaa agattataga 1200 agatatctaa agatggttcg tttctggagc agagaaaaag gcaatataga gcgggaattt 1260 agaacaaagg aatggtcaaa atatttttca tctgattttt ggcggaagaa caatcttgaa 1320 gatgtgtaca aactggcaac acaaaaaaac gctgaactgt tcaaaaatct aaaagcggca 1380 gcagagaaaa tgggtgaaac ggaatttgaa aagtatcagc agataaacga tgtaaaggat 1440 ttggcaagtt taaggcggct tacgcaagat tttggtttga agtgggaaga aaaggactgg 1500 gaggagtatt ccgagcagat aaaaaaacaa attacggaca ggcagaaact gacaataatg 1560 aaacaaaggg ttacggctga actaaagaaa aagcacggca tagaaaatct taatctgaga 1620 ataaccatcg acagcaataa aagcagaaag gcggttttga acagaatagc aattccaaga 1680 ggatttgtaa aaaaacatat tttaggctgg cagggatctg agaagatatc gaaaaatata 1740 agggaagcag aatgcaaaat tctgctatcg aaaaaatatg aagagttatc aaggcagttt 1800 tttgaagccg gtaatttcga taagctgacg cagataaatg gtctttatga aaagaataaa 1860 cttacagctt ttatgtcagt atatttgatg ggtcggttga atattcagct taataagcac 1920 acagaacttg gaaatcttaa aaaaacagag gtggatttta agatatctga taaggtgact 1980 gaaaaaatac cgttttctca gtatccttcg cttgtctatg cgatgtctcg caaatatgtt 2040 gacaatgtgg ataaatataa attttctcat caagataaaa agaagccatt tttaggtaaa 2100 attgattcaa ttgaaaaaga acgtattgaa ttcataaaag aggttctcga ttttgaagag 2160 tatcttttta aaaataaggt aatagataaa agcaaatttt ccgatacagc gactcatatt 2220 agctttaagg aaatatgtga tgaaatgggt aaaaaaggat gtaaccgaaa caaactaacc 2280 gaacttaaca acgcaaggaa cgcagccctg catggtgaaa taccgtcgga gacctctttt 2340 cgtgaagcaa aaccgttgat aaatgaattg aaaaaatga 2379 <210> 19 <211> 2379 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <220> <223> metagenomic <400> 19 atgtccccag atttcatcaa attagaaaaa caagaagcag ctttttactt taatcagaca 60 gagcttaatt taaaagccat agaaagcaat attttcgaca aacaacagcg agtgattctg 120 cttaataatc cacagatact tgccaaagta ggagatttta ttttcaattt cagagatgta 180 acaaaaaacg caaaaggaga aatagactgt ttgctattga aactaagaga gctgagaaac 240 ttttactcac actatgtcta taccgatgac gtgaagatat tgagtaacgg cgaaagacct 300 ctgctggaaa aatattatca atttgcgatt gaagcaaccg gaagtgaaaa tgttaaactt 360 gaaataatag aaagcaacaa ccgacttacg gaagcgggcg tgctgttttt cttgtgtatg 420 tttttgaaaa agtctcaggc aaataagctt ataagcggta tcagcggttt taaaagaaat 480 gacccgacag gtcagccgag aaggaattta tttacctact tcagtgtaag ggagggatac 540 aaggttgtgc cggatatgca gaaacatttt cttttgtttg ttcttgtcaa tcatctctct 600 ggtcaggatg attatattga aaaggcgcaa aagccatacg atataggcga gggtttattt 660 tttcatcgaa tagcttctac atttcttaat atcagtggga ttttaagaaa tatggaattc 720 tatatttacc agagcaaaag actaaaggag cagcaaggag agctcaaacg tgaaaaggat 780 atttttccat ggatagagcc tttccaggga aatagttatt ttgaaataaa tggtaataaa 840 ggaataatcg gcgaagatga attgaaagag ctttgttatg cgttgctggt tgcaggaaaa 900 gatgtcagag ccgtcgaagg taaaataaca caatttttgg aaaagtttaa aaatgcggac 960 aatgctcagc aagttgaaaa agatgaaatg ctggacagaa acaattttcc cgccaattat 1020 ttcgccgaat cgaacatcgg cagcataaag gaaaaaatac ttaatcgttt gggaaaaact 1080 gatgatagtt ataataagac ggggacaaag attaaaccat acgacatgat gaaagaggta 1140 atggagttta taaataattc tcttccggca gatgaaaaat tgaaacgcaa agattacaga 1200 agatatctaa agatggttcg tatctgggac agtgagaaag ataatataaa gcgggagttt 1260 gaaagcaaag aatggtcaaa atatttttca tctgatttct ggatggcaaa aaatcttgaa 1320 agggtctatg ggttggcaag agagaaaaac gccgaattat tcaataagct aaaagcggtt 1380 gtggagaaaa tggacgagcg ggaatttgag aagtatcggc tgataaatag cgcagaggat 1440 ttggcaagtt taagacggct tgcgaaagat tttggcctga agtgggaaga aaaggactgg 1500 caagagtatt ctgggcagat aaaaaaacaa atttctgaca ggcagaaact gacaataatg 1560 aaacaaagga ttacggctga actaaagaaa aagcacggca tagaaaatct caatcttaga 1620 ataaccatcg acagcaataa aagcagaaag gcagttttga acagaatcgc agttccaaga 1680 ggttttgtga aagagcatat tttaggatgg caggggtctg agaaggtatc gaaaaagaca 1740 agagaagcaa agtgcaaaat tctgctctcg aaagaatatg aagaattatc aaagcaattt 1800 ttccaaacca gaaattacga caagatgacg caggtaaacg gtctttacga aaagaataaa 1860 ctcttagcat ttatggtcgt ttatcttatg gagcggttga atatcctgct taataagccc 1920 acagaactta atgaacttga aaaagcagag gtggatttca agatatctga taaggtgatg 1980 gccaaaatcc cgttttcaca gtatccttcg cttgtgtacg cgatgtccag caaatatgct 2040 gatagtgtag gcagttataa atttgagaat gatgaaaaaa acaagccgtt tttaggcaag 2100 atcgatacaa tagaaaaaca acgaatggag tttataaaag aagtccttgg ttttgaagag 2160 tatctttttg aaaagaagat aatagataaa agcgaatttg ccgacacagc gactcatata 2220 agttttgatg aaatatgtaa tgagcttatt aaaaaaggat gggataaaga caaactaacc 2280 aaacttaaag atgccaggaa cgcggccctg catggcgaaa taccggcgga gacctctttt 2340 cgtgaagcaa aaccgttgat aaatggattg aaaaaatga 2379 <210> 20 <211> 2400 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <220> <223> metagenomic <400> 20 atgaacatca ttaaattaaa aaaagaagaa gctgcgtttt attttaatca gacgatcctc 60 aatctttcag ggcttgatga aattattgaa aaacaaattc cgcacataat cagcaacaag 120 gaaaatgcaa agaaagtgat tgataagatt ttcaataacc gcttattatt aaaaagtgtg 180 gagaattata tctacaactt taaagatgtg gctaaaaacg caagaactga aattgaggct 240 atattgttga aattagtaga gctacgtaat ttttactcac attacgttca taatgatacc 300 gtcaagatac taagtaacgg tgaaaaacct atactggaaa aatattatca aattgctata 360 gaagcaaccg gaagtaaaaa tgttaaactt gtaatcatag aaaacaacaa ctgtctcacg 420 gattctggcg tgctgttttt gctgtgtatg ttcttaaaaa aatcacaggc aaacaagctt 480 ataagttccg ttagtggttt taaaaggaat gataaagaag gacaaccgag aagaaatcta 540 ttcacttatt atagtgtgag ggagggatat aaggttgtgc ctgatatgca gaagcatttc 600 cttctattcg ctctggtcaa tcatctatct gagcaggatg atcatattga gaagcagcag 660 cagtcagacg agctcggtaa gggtttgttt ttccatcgta tagcttcgac ttttttaaac 720 gagagcggca tcttcaataa aatgcaattt tatacatatc agagcaacag gctaaaagag 780 aaaagaggag aactcaaaca cgaaaaggat acctttacat ggatagagcc ttttcaaggc 840 aatagttatt ttacgttaaa tggacataag ggagtgatta gtgaagatca attgaaggag 900 ctttgttaca caattttaat tgagaagcaa aacgttgatt ccttggaagg taaaattata 960 caatttctca aaaaatttca gaatgtcagc agcaagcagc aagttgacga agatgaattg 1020 cttaaaagag aatatttccc tgcaaattac tttggccggg caggaacagg gaccctaaaa 1080 gaaaagattc taaaccggct tgataagagg atggatccta catctaaagt gacggataaa 1140 gcttatgaca aaatgattga agtgatggaa tttatcaata tgtgccttcc gtctgatgag 1200 aagttgaggc aaaaggatta tagacgatac ttaaagatgg ttcgtttctg gaataaggaa 1260 aagcataaca ttaagcgcga gtttgacagt aaaaaatgga cgaggttttt gccgacggaa 1320 ttgtggaata aaagaaatct agaagaagcc tatcaattag cacggaaaga gaacaaaaag 1380 aaacttgaag atatgagaaa tcaagtacga agccttaaag aaaatgacct tgaaaaatat 1440 cagcagatta attacgttaa tgacctggag aatttaaggc ttctgtcaca ggagttaggt 1500 gtgaaatggc aggaaaagga ctgggttgaa tattccgggc agataaagaa gcagatatca 1560 gacaatcaga aacttacaat catgaaacaa aggattaccg ctgaactaaa gaaaatgcac 1620 ggcatcgaga atcttaatct tagaataagc attgacacga ataaaagcag gcagacggtt 1680 atgaacagga tagctttgcc caaaggtttt gtgaagaatc atatccagca aaattcgtct 1740 gagaaaatat cgaaaagaat aagagaggat tattgtaaaa ttgagctatc gggaaaatat 1800 gaagaacttt caaggcaatt ttttgataaa aagaatttcg ataagatgac actgataaac 1860 ggcctttgtg aaaagaacaa acttatcgca tttatggtta tctatctttt ggagcggctt 1920 ggatttgaat taaaggagaa aacaaaatta ggcgagctta aacaaacaag gatgacatat 1980 aaaatatccg ataaggtaaa agaagatatc ccgctttcct attaccccaa gcttgtgtat 2040 gcaatgaacc gaaaatatgt tgacaatatc gatagttatg catttgcggc ttacgaatcc 2100 aaaaaagcta ttttggataa agtggatatc atagaaaagc aacgtatgga atttatcaaa 2160 caagttctct gttttgagga atatattttc gaaaatagga ttatcgaaaa aagcaaattt 2220 aatgacgagg agactcatat aagttttaca caaatacatg atgagcttat taaaaaagga 2280 cgggacacag aaaaactctc taaactcaaa catgcaagga ataaagcctt gcacggcgag 2340 attcctgatg ggacttcttt tgaaaaagca aagctattga taaatgaaat caaaaaatga 2400 <210> 21 <211> 2412 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <220> <223> metagenomic <400> 21 atgaatgcta tcgaactaaa aaaagaggaa gcagcatttt attttaatca ggcaagactc 60 aacatttcag gacttgatga aattattgaa aagcagttac cacatatagg tagtaacagg 120 gagaatgcga aaaaaactgt tgatatgatt ttggataatc ccgaagtctt gaagaagatg 180 gaaaattatg tctttaactc acgagatata gcaaagaacg caagaggtga acttgaagca 240 ttgttgttga aattagtaga actgcgtaat ttttattcac attatgttca taaagatgat 300 gttaagacat tgagttacgg agaaaaacct ttactggata aatattatga aattgcgatt 360 gaagcgaccg gaagtaaaga tgtcagactt gagataatag atgataaaaa taagcttaca 420 gatgccggtg tgcttttttt attgtgtatg tttttgaaaa aatcagaggc aaacaaactt 480 atcagttcaa tcaggggctt taaaagaaac gataaagaag gccagccgag aagaaatcta 540 ttcacttact acagtgtcag agagggatat aaggttgtgc ctgatatgca gaaacatttt 600 cttttattca cactggttaa ccatttgtca aatcaggatg aatacatcag taatcttagg 660 ccgaatcaag aaatcggcca agggggattt ttccatagaa tagcatcaaa atttttgagc 720 gatagcggga ttttacatag tatgaaattc tacacctacc ggagtaaaag actaacagaa 780 caacgggggg agcttaagcc gaaaaaagat cattttacat ggatagagcc ttttcaggga 840 aacagttatt tttcagtgca gggccaaaaa ggagtaattg gtgaagagca attaaaggag 900 ctttgttatg tattgctggt tgccagagaa gattttaggg ccgttgaggg caaagttaca 960 caatttctga aaaagtttca gaatgctaat aacgtacagc aagttgaaaa agatgaagtg 1020 ctggaaaaag aatattttcc tgcaaattat tttgaaaatc gagacgtagg cagagtaaag 1080 gataagatac ttaatcgttt gaaaaaaatc actgaaagct ataaagctaa agggagggag 1140 gttaaagcct atgacaagat gaaagaggta atggagttta taaataattg cctgccaaca 1200 gatgaaaatt tgaaactcaa agattacaga agatatctga aaatggttcg tttctggggc 1260 agggaaaagg aaaatataaa gcgggaattt gacagtaaaa aatgggagag gtttttgcca 1320 agagaactct ggcagaaaag aaacctcgaa gatgcgtatc aactggcaaa agagaaaaac 1380 accgagttat tcaataaatt gaaaacaact gttgagagaa tgaacgaact ggaattcgaa 1440 aagtatcagc agataaacga cgcaaaagat ttggcaaatt taaggcaact ggcgcgggac 1500 ttcggcgtga agtgggaaga aaaggactgg caagagtatt cggggcagat aaaaaaacaa 1560 attacagaca ggcaaaaact tacaataatg aaacaaagga ttactgctgc attgaagaaa 1620 aagcaaggca tagaaaatct taatcttagg ataacaaccg acaccaataa aagcagaaag 1680 gtggtattga acagaatagc gctacctaaa ggttttgtaa ggaagcatat cttaaaaaca 1740 gatataaaga tatcaaagca aataaggcaa tcacaatgtc ctattatact gtcaaacaat 1800 tatatgaagc tggcaaagga attctttgag gagagaaatt ttgataagat gacgcagata 1860 aacgggctat ttgagaaaaa tgtacttata gcgtttatga tagtttatct gatggaacaa 1920 ctgaatcttc gacttggtaa gaatacggaa cttagcaatc ttaaaaaaac ggaggttaat 1980 tttacgataa ccgacaaggt aacggaaaaa gtccagattt cgcagtatcc atcgcttgtt 2040 ttcgccataa acagagaata tgttgatgga atcagcggtt ataagttacc gcccaaaaaa 2100 ccgaaagagc ctccgtatac tttcttcgag aaaatagacg caatagaaaa agaacgaatg 2160 gaattcataa aacaggtcct cggtttcgaa gaacatcttt ttgagaagaa tgtaatagac 2220 aaaactcgct ttactgatac tgcgactcat ataagtttta atgaaatatg tgatgagctt 2280 ataaaaaaag gatgggacga aaacaaaata ataaaactta aagatgcgag gaatgcagca 2340 ttgcatggta agataccgga ggatacgtct tttgatgaag cgaaagtact gataaatgaa 2400 ttaaaaaaat ga 2412 <210> 22 <211> 2328 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <220> <223> Human codon-optimized coding sequences <400> 22 atggcccagg tgagcaagca gacctccaag aagagggagc tgagcatcga cgagtaccag 60 ggcgcccgga agtggtgctt caccattgcc ttcaacaagg ccctggtgaa ccgggacaag 120 aacgacggcc tgttcgtgga aagcctgctg agacacgaga agtacagcaa gcacgactgg 180 tacgacgaag atacccgggc cctgatcaag tgcagcaccc aggccgccaa cgccaaggct 240 gaagccctgc ggaactactt cagtcactac cggcatagcc ctggctgcct gaccttcacc 300 gccgaggacg aactgcggac catcatggag agagcctatg agcgggccat cttcgagtgc 360 agaagaagag agacagaggt gatcatcgag tttcccagcc tgttcgaggg cgaccggatc 420 accaccgccg gcgtggtgtt tttcgtgagc tttttcgtgg aaagaagagt gctggatcgg 480 ctgtatggag ccgtgtccgg cctgaagaag aatgagggac agtacaagct gacccggaag 540 gccctgagca tgtactgcct gaaggacagc agattcacca aggcctggga taagcgggtg 600 ctgctgttca gagacatcct ggcccagctg ggaagaatcc ccgccgaggc ctacgagtac 660 taccacggcg agcagggtga taagaagaga gctaacgaca atgagggcac aaatcccaag 720 cggcacaagg acaagttcat cgaatttgca ctgcactacc tggaagccca gcacagcgag 780 atctgcttcg gcagacgcca catcgtgcgg gaagaggccg gcgccggcga tgagcacaag 840 aagcaccgga ccaagggaaa ggtggtggtg gacttcagca agaaggacga ggaccagagc 900 tactatatct ccaagaacaa cgtgatcgtg cggatcgaca agaacgccgg ccctagaagc 960 taccggatgg gcctgaacga gctgaagtac ctcgtgctgc tgagcctgca ggggaagggc 1020 gacgatgcca tcgccaagct gtacagatac agacagcacg tggagaacat cctggatgtg 1080 gtgaaggtga ccgataagga taaccacgtg ttcctgcccc gcttcgtgct ggagcagcac 1140 ggcatcggca gaaaggcctt caagcagcgg atcgatggac gggtgaagca cgtgcggggc 1200 gtgtgggaga agaagaaggc cgccaccaat gaaatgaccc tgcacgagaa ggccagagac 1260 atcctgcagt acgtgaacga aaactgcacc cggtccttca accctggcga atacaacaga 1320 ctgctggtgt gcctggtggg caaggacgtg gagaactttc aggccggcct gaagcggctg 1380 cagctggccg aaaggatcga tggccgggtg tactccatct tcgcccagac cagcaccatc 1440 aatgagatgc accaggtggt gtgcgaccag atcctgaacc ggctgtgcag aatcggcgac 1500 cagaagctgt acgattacgt gggactgggc aagaaggacg aaatcgacta caagcagaag 1560 gtggcctggt tcaaggagca catcagcatc cggagaggat tcctgagaaa gaagttctgg 1620 tacgatagca agaagggatt cgcaaagctg gtggaggaac acctggagtc cggcggcggc 1680 cagcgcgacg tgggcctgga caagaagtac taccacatcg acgccatcgg cagattcgag 1740 ggcgccaacc ccgccctgta cgagaccctg gccagagatc ggctgtgcct catgatggcc 1800 cagtacttcc tgggcagcgt gagaaaggaa ctgggcaaca agattgtgtg gagcaacgac 1860 agcatcgaac tgcctgtgga aggctctgtg ggaaatgaga agagcatcgt gttctccgtg 1920 tctgactacg gcaagctgta cgtgctggac gatgccgaat tcctgggccg gatctgcgaa 1980 tacttcatgc cccacgaaaa gggcaagatc cggtaccaca cagtgtacga aaagggcttt 2040 agagcataca acgacctgca gaagaagtgc gtggaggccg tgctggcttt cgaagagaag 2100 gtggtgaagg ccaagaagat gagcgagaag gaaggcgccc actacatcga cttccgggag 2160 atcctggccc agaccatgtg caaggaggcc gagaagaccg cagtgaacaa ggtgagacgc 2220 gccttcttcc accaccacct gaagttcgtg attgacgagt tcggcctgtt cagcgacgtg 2280 atgaagaagt acggcatcga gaaggaatgg aagttccctg tcaagtaa 2328 <210> 23 <211> 2418 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <220> <223> Human codon-optimized coding sequences <400> 23 atgaaggtgg agaacatcaa ggaaaagtcc aagaaggcta tgtatctgat caaccactat 60 gaaggcccta agaagtggtg cttcgccatc gtgctgaata gggcctgcga caactatgag 120 gataaccccc acctgttcag caagagcctg ctggaatttg aaaagaccag cagaaaggac 180 tggttcgacg aggagaccag ggaactggtg gagcaggccg acaccgagat ccagcccaac 240 cccaacctga agcctaacac caccgccaac agaaagctga aggacatccg gaactacttc 300 agccaccact accacaagaa tgagtgcctg tacttcaaga acgacgaccc tatccggtgc 360 atcatggagg cagcctacga gaagtccaag atctacatca agggcaagca gattgagcag 420 tccgacatcc ccctccctga gctgtttgag tctagcggct ggatcacccc agccggcatc 480 ctgctgctgg ccagcttctt tgtggagaga ggcattctgc acagactgat gggcaacatc 540 ggcggcttca aggacaaccg gggcgaatac ggactgaccc acgatatctt caccacctac 600 tgcctgaagg gcagctactc catcagagcc caggaccacg acgccgtgat gttcagagac 660 atcctgggct acctgagcag agtgccgacc gagagctttc agcgcatcaa gcagccacag 720 atcagaaagg aggggcagct gagcgagcgg aagacagaca agtttatcac cttcgccctg 780 aactacctgg aagattatgg actgaaggat ctggaaggct gcaaggcctg cttcgcccgg 840 agcaagatcg tgagagagca ggagaacgtg gaaagcatca atgacaagga gtacaagcct 900 cacgaaaaca agaagaaggt ggaaatccac ttcgatcagt ctaaggaaga ccggttctac 960 atcaaccgga acaacgtgat cctgaagatc cagaagaagg acggccacag caacatcgtg 1020 agaatgggcg tgtacgagct gaagtatctg gtgctgatgt ccctggtggg caaggccaag 1080 gaagccgtgg agaagatcga caactacatc caggatctga gagaccagct gccctacatc 1140 gagggcaaga acaaggaaga aatcaaggag tacgtgagat tcttccccag attcatcaga 1200 tcccacctgg gcctgctgca gattaacgat gaggagaaga tcaaggcccg gctggactat 1260 gtgaagacaa agtggctgga caagaaggag aagtccaagg agctggagct gcacaagaag 1320 ggccgggata tcctgcggta catcaacgag cggtgcgacc gggagctgaa ccggaacgtg 1380 tacaaccgga tcctggagct gctggtgagc aaggacctga ccggcttcta ccgggagctg 1440 gaggagctga agcggaccag acggatcgat aagaacattg tgcagaacct gtccggccag 1500 aagaccatca acgccctgca cgaaaaggtg tgcgatctcg tgctgaagga gatcgagagc 1560 ctggacaccg agaacctgcg gaagtacctg ggcctgatcc ccaaggagga gaaggaagtg 1620 acctttaagg agaaggtgga caggatcctg aagcagccgg tgatctacaa gggcttcctg 1680 cggtaccagt tcttcaagga cgacaagaag agcttcgtgc tgctggtgga agacgccctg 1740 aaggagaagg gaggcggctg cgacgtgccc ctgggcaagg agtactacaa gatcgtgtcc 1800 ctggacaagt atgacaagga aaataagacc ctgtgcgaga ccctggcaat ggatagactg 1860 tgcctgatga tggcccggca gtattacctg agcctgaacg ccaagctggc ccaggaggcc 1920 cagcagatcg aatggaagaa ggaggatagc attgagctga tcatcttcac actgaagaat 1980 cctgaccagt ccaagcagag cttctccatc cggttcagcg tgcgggactt caccaagctg 2040 tacgtgaccg acgaccccga attcctggcc cggctgtgca gctacttctt ccccgtggag 2100 aaggagatcg aataccacaa gctgtactct gaaggcatta acaagtacac caacctgcag 2160 aaggagggga tcgaagccat cctggagctg gagaagaagc tgatcgaaag aaaccggatc 2220 cagtccgcca agaactacct gagctttaac gaaatcatga acaagagcgg ctacaacaag 2280 gatgagcagg atgacctgaa gaaggtgagg aactccctgc tgcactacaa gctgatcttc 2340 gaaaaggagc acctgaagaa gttctatgaa gtgatgcggg gcgagggaat cgagaagaag 2400 tggtccctga tcgtgtaa 2418 <210> 24 <211> 2373 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 24 atgaatggca tcgagctgaa gaaggaagaa gccgccttct acttcaatca ggccgagctg 60 aacctgaagg ccattgagga caacatcttc gacaaggaga gacggaagac actgctgaac 120 aacccccaga tcctggccaa gatggagaac tttatcttca atttccggga cgtgaccaag 180 aacgccaagg gcgaaatcga ctgcctgctg ctgaagctga gagagctgcg gaacttttac 240 agccactacg tgcacaagcg ggacgtcaga gaactgagca agggcgagaa gccgatcctg 300 gagaagtact accagttcgc catcgaatcc accggctctg agaacgtgaa gctcgaaatc 360 atcgaaaacg acgcctggct ggccgacgcc ggcgtgctgt tcttcctgtg catcttcctg 420 aagaagagcc aggcaaacaa gctgatcagc ggcatcagcg gcttcaagag aaacgacgac 480 accggccagc ctcggagaaa cctgttcacc tacttctcca tccgggaggg ctacaaggtg 540 gtgcccgaaa tgcagaagca cttcctgctg ttctccctgg tgaaccacct gagcaaccag 600 gacgattata tcgaaaaggc ccaccagccc tacgacatcg gcgagggcct cttcttccac 660 cggattgcca gcaccttcct gaacatctcc ggaatcctga gaaacatgaa gttctacacc 720 tatcagagca agagactggt ggagcagaga ggcgagctga agcgggaaaa ggacatcttc 780 gcctgggaag aaccgtttca gggcaattcc tactttgaga tcaacggcca caagggcgtg 840 attggcgaag acgagctgaa ggagctgtgc tacgccttcc tgatcggcaa ccaggacgcc 900 aacaaggtgg agggccggat cacccagttc ctggagaagt tcagaaacgc caacagcgtg 960 cagcaggtga aggacgacga gatgctgaag cctgaatatt tccccgccaa ctactttgcc 1020 gagagcggcg tgggccggat caaggaccgg gtgctgaaca gactgaacaa ggccatcaag 1080 agcaacaagg ccaagaaggg cgagatcatc gcctatgaca agatgagaga agtgatggct 1140 ttcatcaata actctctgcc cgtggacgag aagctgaagc ccaaggatta caagagatac 1200 ctgggcatgg tgagattctg ggatagagaa aaggacaata tcaagcgcga gttcgaaacg 1260 aaggagtgga gcaagtatct gccctccaac ttctggaccg ccaagaacct ggagagagtg 1320 tacggactgg cccgggaaaa gaacgcagag ctgtttaaca agctgaaggc cgacgtggag 1380 aagatggacg aaagagagct ggaaaagtat cagaagatca acgacgccaa ggatctggcc 1440 aacctgcggc ggctggccag cgacttcgga gtgaagtggg aggagaagga ttgggacgag 1500 tactccggcc agatcaagaa gcagatcaca gattcccaga agctgaccat catgaagcag 1560 agaatcacag ccggcctgaa gaagaagcac ggcatcgaaa acctgaacct gaggatcacc 1620 atcgacatca acaagtccag aaaggccgtg ctgaatcgga tcgccatccc cagaggattt 1680 gtgaagcggc acatcctggg ctggcaggaa tccgagaagg tgagcaagaa gatcagagaa 1740 gccgaatgcg agattctgct gagcaaggag tacgaggagc tgagcaagca gttctttcag 1800 agcaaggact acgacaagat gacccgcatc aacggcctgt acgagaagaa taagctgatc 1860 gccctgatgg ccgtgtatct gatggggcag ctgagaatcc tgttcaagga gcacaccaag 1920 ctggacgaca tcaccaagac caccgtggat ttcaagatca gcgacaaggt gaccgtgaag 1980 atccccttct ccaactatcc ctccctggtg tacaccatga gcagcaagta cgtggacaat 2040 atcggcaact acggcttcag caacaaggac aaggataagc ccattctggg caagatcgac 2100 gtgatcgaga agcagcggat ggagtttatc aaggaggtgc tgggattcga gaagtacctg 2160 tttgacgata agatcatcga caagagcaag ttcgccgaca ccgccaccca catcagcttt 2220 gccgaaatcg tggaagaact ggtggagaag ggctgggaca aggaccggct gacgaagctg 2280 aaggatgccc ggaacaaggc cctgcacggc gagatcctga ccggcaccag cttcgacgag 2340 acaaagtccc tgatcaacga gctgaagaag taa 2373 <210> 25 <211> 2379 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <220> <223> Human codon-optimized coding sequences <400> 25 atgagccctg atttcatcaa gctggagaag caggaagcag ccttctactt taaccagacc 60 gagctgaacc tgaaggccat cgaatccaat atcctggata agcagcagag aatgatcctg 120 ctgaacaacc ccagaatcct ggccaaggtg ggcaacttca tcttcaattt ccgggacgtg 180 accaagaacg caaagggcga aatcgactgc ctgctgttca agctggagga actgcggaac 240 ttctacagcc actacgtgca caccgataac gtgaaggaac tgtccaacgg agagaagcct 300 ctgctggagc ggtactacca gatcgccatc caggccacaa gaagcgagga cgtgaagttc 360 gagctgttcg agaccaggaa cgagaacaag atcaccgacg caggcgtgct gttcttcctg 420 tgcatgttcc tgaagaagag ccaggctaat aagctgattt ccggcatcag cggcttcaag 480 cggaacgacc ccaccggcca gcccagacgg aacctcttta cctacttctc tgcccgggag 540 ggctacaagg ccctgcctga catgcagaag cacttcctgc tgttcaccct ggtgaactac 600 ctgagcaacc aggacgagta catctccgag ctgaagcagt acggagagat cggacaggga 660 gccttcttca acagaatcgc cagcaccttc ctgaacatca gcggcatcag cggcaacacc 720 aagttctaca gctaccagag caagagaatc aaggagcagc ggggcgaact gaacagcgaa 780 aaggacagct tcgagtggat cgagcccttt cagggcaact cttattttga gatcaacggc 840 cacaagggcg tgatcggcga agacgagctg aaggagctgt gctacgccct gctggtggcc 900 aagcaggaca tcaatgccgt ggagggaaag atcatgcagt tcctgaagaa gttcaggaac 960 accggcaacc tgcagcaggt gaaggacgac gagatgctgg aaatcgagta ctttcccgcc 1020 agctacttca acgagagcaa gaaggaggac atcaagaagg agatcctggg cagactggac 1080 aagaagatcc ggtcctgcag cgccaaggcc gagaaggcct acgacaagat gaaggaggtg 1140 atggagttta tcaataacag cctgcccgcc gaggagaagc tgaagaggaa ggactaccgc 1200 agatacctga agatggtgag attctggtcc agagaaaagg gcaacatcga gagagagttc 1260 agaaccaagg agtggtccaa gtacttcagc agcgacttct ggagaaagaa caatctggag 1320 gatgtgtaca agctggccac ccagaagaac gccgagctgt tcaagaatct gaaggccgcc 1380 gccgagaaga tgggcgaaac agaattcgaa aagtaccagc agatcaacga tgtgaaggac 1440 ctggccagcc tgagacggct gacccaggat ttcggcctga agtgggagga gaaggattgg 1500 gaggagtaca gcgaacagat caagaagcag atcaccgacc ggcagaagct gacaatcatg 1560 aagcagcggg tgaccgccga gctgaagaag aagcacggca tcgagaatct gaacctcaga 1620 attaccatcg attccaacaa gagcagaaag gccgtgctga acagaatcgc cattccccgg 1680 ggcttcgtga agaagcacat tctgggctgg cagggcagcg aaaagatcag caagaatatc 1740 cgggaggccg agtgcaagat cctgctgtcc aagaagtatg aggagctgtc tcggcagttc 1800 tttgaggctg gcaacttcga caagctgacc cagatcaacg gcctgtacga aaagaataag 1860 ctgaccgcct tcatgtccgt ctacctgatg ggcagactga acatccagct gaacaagcac 1920 acggagctgg gaaatctgaa gaagaccgag gtggacttca agatttccga caaggtgaca 1980 gaaaagatcc ccttctccca gtaccctagc ctggtgtacg ctatgagccg gaagtacgtg 2040 gacaacgtgg acaagtacaa gttcagccac caggacaaga agaagccctt cctgggcaag 2100 atcgacagca tcgaaaagga gagaatcgaa ttcatcaagg aggtgctgga cttcgaagag 2160 tacctgttta agaacaaggt gatcgacaag agcaagttca gcgataccgc cacccatatc 2220 tctttcaagg aaatctgcga cgagatgggc aagaagggct gcaaccgcaa caagctgacc 2280 gagctgaata acgctagaaa cgccgcactg cacggagaaa tccccagcga gaccagcttc 2340 cgggaggcca agcccctgat caacgaactg aagaagtaa 2379 <210> 26 <211> 2379 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <220> <223> Human codon-optimized coding sequences <400> 26 atgagccctg acttcatcaa gctggaaaag caggaagccg ccttctactt taatcagacc 60 gagctgaacc tgaaggccat cgagagcaac atcttcgaca agcagcagcg ggtgatcctg 120 ctgaataacc cccagatcct ggccaaggtg ggcgacttca tcttcaactt ccgggacgtg 180 accaagaacg ccaagggaga aatcgactgc ctgctgctga agctgcggga gctgagaaac 240 ttctacagcc actatgtgta caccgacgac gtgaagatcc tgagcaacgg cgagaggccc 300 ctgctggaga agtactacca gtttgccatc gaggccaccg gatctgagaa tgtgaagctg 360 gagatcatcg agagcaacaa ccggctgacc gaagcgggcg tgctgttctt cctgtgcatg 420 ttcctgaaga agagccaggc caacaagctg atttccggca tctccggatt caagcgcaac 480 gaccctaccg gacagcctcg gcggaacctg ttcacctact ttagcgtgcg ggagggctac 540 aaggtggtgc ccgacatgca gaagcacttc ctgctgttcg tgctggtgaa ccacctgtcc 600 ggccaggatg actatattga gaaggcccag aagccctacg acatcggcga aggcctgttc 660 ttccacagaa tcgccagcac ctttctcaac atcagcggca tcctgagaaa catggaattc 720 tacatctacc agagcaagcg gctgaaggag cagcagggag agctgaagag agagaaggac 780 atcttccctt ggatcgagcc tttccagggc aacagctact ttgagatcaa cggaaacaag 840 ggcatcatcg gcgaggacga actgaaggaa ctgtgctacg ccctgctggt ggccggcaag 900 gacgtgagag ccgtggaagg aaagatcacc cagttcctgg agaagttcaa gaacgccgat 960 aacgcccagc aggtggagaa ggatgaaatg ctggaccgga acaacttccc tgccaattac 1020 tttgccgaaa gcaacatcgg cagcatcaag gaaaagatcc tgaatagact gggcaagacc 1080 gacgactcct acaacaagac cggcaccaag atcaagccct acgacatgat gaaggaggtg 1140 atggagttca tcaataattc tctgcccgcc gatgagaagc tgaagcggaa ggactaccgg 1200 agatacctga agatggtccg gatctgggac agcgaaaagg acaatatcaa gcgggagttt 1260 gagagcaagg aatggagcaa gtatttcagc agcgacttct ggatggccaa gaacctggaa 1320 agagtgtacg gcctggccag ggaaaagaac gccgagctgt ttaacaagct gaaggccgtg 1380 gtggagaaga tggacgagcg ggagttcgaa aagtaccggc tgatcaacag cgccgaagac 1440 ctggccagcc tgcggagact ggccaaggac ttcggcctga agtgggagga gaaggactgg 1500 caggagtatt ctggccagat caagaagcag atctccgaca gacagaagct gacaattatg 1560 aagcagcgga tcacagccga actgaagaag aagcacggaa tcgagaacct gaatctgcgg 1620 atcaccatcg acagcaacaa gtccagaaag gccgtgctga accggatcgc cgtgccccgg 1680 ggcttcgtga aggaacacat cctgggctgg caaggctctg aaaaggtgag caagaagacc 1740 agagaagcca agtgcaagat cctgctgagc aaggagtacg aggaactgag caagcagttc 1800 tttcagacac ggaattacga caagatgacc caggtgaacg gcctgtacga gaagaacaag 1860 ctgctggcct tcatggtggt gtacctgatg gagagactga acatcctgct gaacaagccc 1920 acagagctga acgaactgga aaaggccgaa gtggacttca agatctccga caaggtgatg 1980 gccaagatcc ctttctctca gtaccccagc ctggtgtatg caatgagctc caagtacgcc 2040 gacagcgtgg gctcttacaa gttcgaaaac gacgagaaga acaagccctt tctgggcaag 2100 atcgacacaa tcgagaagca gagaatggag ttcatcaagg aggtgctggg cttcgaggaa 2160 tacctgttcg agaagaagat catcgataag agcgaattcg ccgacaccgc cacccacatc 2220 agcttcgacg agatctgcaa cgagctgatc aagaagggct gggacaagga caagctgacc 2280 aagctgaagg acgcccggaa cgccgccctg cacggcgaga tccccgccga gaccagcttc 2340 cgggaggcca agcccctgat taacggcctg aagaagtaa 2379 <210> 27 <211> 2400 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <220> <223> Human codon-optimized coding sequences <400> 27 atgaacatca tcaagctgaa gaaggaggaa gccgcctttt actttaacca gacaatcctg 60 aatctgagcg gcctggacga gatcatcgag aagcagatcc cccacatcat ctccaataag 120 gaaaacgcca agaaggtgat tgataagatc ttcaataaca gactgctgct gaagagcgtg 180 gaaaactata tctacaactt caaggacgtg gccaagaacg cccggaccga aatcgaagcc 240 atcctgctga agctggtgga gctgagaaac ttctactccc actacgtgca caacgacacc 300 gtgaagatcc tgtccaatgg cgagaagccc atcctggaaa agtactacca gatcgccatc 360 gaagccaccg gctctaagaa cgtgaagctg gtcattatcg aaaacaacaa ctgcctgacc 420 gactccggcg tgctgttcct gctgtgcatg ttcctgaaga agagccaggc caacaagctg 480 attagcagcg tgagcggctt taagcggaac gacaaggaag gccagcccag aaggaacctc 540 tttacttact atagcgtgag ggaaggctac aaggtggtgc cagacatgca gaagcacttc 600 ctgctgttcg ccctggtcaa ccacctgtcc gagcaggacg accacatcga gaagcagcag 660 cagagcgacg agctgggcaa gggcctgttc ttccacagaa tcgccagcac attcctgaat 720 gaaagcggca tcttcaacaa gatgcagttt tacacctacc agagcaatcg gctgaaggag 780 aagcggggcg agctgaagca cgagaaggac accttcacct ggatcgagcc tttccaggga 840 aacagctact tcaccctgaa cgggcacaag ggcgtgatca gcgaggatca gctgaaggaa 900 ctgtgctaca caatcctgat cgagaagcag aacgtggaca gcctggaggg caagatcatt 960 cagttcctga agaagtttca gaacgtgtct agcaagcagc aggtggatga ggacgagctg 1020 ctgaagcggg aatacttccc cgccaactac ttcggccggg ccggcaccgg caccctgaag 1080 gagaagatcc tgaaccggct ggacaagcgg atggacccca ccagcaaggt gaccgacaag 1140 gcctatgaca agatgatcga ggtgatggag ttcatcaaca tgtgcctgcc cagcgacgag 1200 aagctgcggc agaaggatta ccggagatat ctgaagatgg tcagattctg gaacaaggag 1260 aagcacaaca tcaagagaga attcgacagc aagaagtgga ccagattcct gcccaccgag 1320 ctgtggaata agcggaacct ggaggaagcc taccagctgg cccggaagga gaacaagaag 1380 aagctggagg acatgaggaa tcaggtgagg agcctgaagg agaacgacct ggagaagtac 1440 cagcagatca actatgtgaa cgacctggaa aacctgcggc tgctgtccca agagctgggc 1500 gtgaagtggc aggagaagga ctgggtggaa tacagcggcc agatcaagaa gcagatcagc 1560 gataaccaga agctgacaat catgaagcag agaatcaccg ccgagctgaa gaagatgcac 1620 ggcatcgaga acctgaacct gagaatcagc atcgacacca acaagtcccg gcagactgtg 1680 atgaacagaa ttgccctgcc caagggcttc gtgaagaacc acattcagca gaacagcagc 1740 gagaagatca gcaagagaat cagagaggac tactgcaaga tcgagctgtc cggcaagtac 1800 gaagagctga gcagacagtt tttcgacaag aagaactttg acaagatgac cctgatcaac 1860 ggactgtgcg agaagaataa gctcatcgcc ttcatggtga tttacctgct ggagcggctg 1920 ggcttcgagc tgaaggagaa gaccaagctg ggcgagctga agcagacccg gatgacatat 1980 aagatcagcg acaaggtgaa ggaggacatc cccctctcct actaccccaa gctggtgtac 2040 gccatgaatc ggaagtatgt ggacaacatc gatagctacg ccttcgccgc ctacgagtct 2100 aagaaggcca tcctggacaa ggtggacatc attgagaagc agagaatgga attcatcaag 2160 caggtgctgt gcttcgagga atacatcttc gagaacagaa tcatcgagaa gagcaagttc 2220 aacgatgagg agacccacat cagcttcacc cagatccacg acgaactgat caagaagggc 2280 agagataccg aaaagctgag caagctgaag cacgccagaa acaaggccct gcacggcgag 2340 atccccgacg ggaccagctt tgagaaggcc aagctgctga tcaacgaaat caagaagtaa 2400 <210> 28 <211> 2412 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <220> <223> Human codon-optimized coding sequences <400> 28 atgaacgcca tcgagctgaa gaaggaagag gccgccttct acttcaacca ggccagactg 60 aacatctctg gcctggacga aatcatcgag aagcaactgc cacacatcgg ctctaacaga 120 gagaacgcca agaagactgt ggacatgatc ctggataacc ccgaggtgct gaagaagatg 180 gaaaactacg tgttcaactc ccgcgatatt gccaagaatg cccggggcga gctggaggcc 240 ctgctgctga agctggtcga gctgagaaac ttctatagcc actacgtgca caaggacgac 300 gtcaagacac tgagctacgg tgagaagcct ctgctggata agtactacga gatcgccatc 360 gaagccaccg gatccaagga cgtgcggctg gagatcattg acgacaagaa taagctgacc 420 gacgccggag tgctgttcct gctgtgcatg ttcctgaaga agagcgaggc taacaagctg 480 atttccagca tccggggctt caagaggaac gacaaggagg gccagcctag aagaaacctg 540 ttcacctact acagcgtgag agagggctat aaggtggtgc ccgacatgca gaagcacttt 600 ctgctgttca ccctggtgaa ccacctgtcc aatcaggacg agtacatctc caacctgcgc 660 ccaaaccagg aaatcggcca gggcggattt ttccaccgga tcgccagcaa gttcctgagc 720 gacagcggaa tcctgcacag catgaagttc tacacataca gatccaagcg gctgaccgag 780 cagcggggag agctgaagcc caagaaggac cactttacat ggatcgagcc tttccagggc 840 aattcctact tcagcgtgca gggccagaag ggcgtgatcg gagaggagca gctcaaggag 900 ctgtgctacg tgctgctggt ggcccgggag gacttcagag ccgtggaggg caaggtgacc 960 cagttcctga agaagttcca gaatgccaat aacgtgcagc aggtggagaa ggacgaggtg 1020 ctggaaaagg agtacttccc cgccaactac tttgagaacc gggacgtggg aagagtcaag 1080 gacaagatcc tgaacagact gaagaagatc accgagagtt ataaggccaa gggtagagag 1140 gtgaaggcct acgacaagat gaaggaagtg atggagttca tcaacaactg cctgcccacc 1200 gatgaaaacc tgaagctgaa ggactaccgg cggtacctga agatggtgag attctggggc 1260 agagagaagg aaaacatcaa gcgggagttc gactccaaga agtgggagcg ctttctcccc 1320 cgggagctgt ggcagaagag aaacctggag gacgcctacc agctcgccaa ggagaagaac 1380 acagagctgt tcaacaagct gaagaccacc gtggagagaa tgaacgaact ggagttcgag 1440 aagtaccagc agatcaatga cgccaaggac ctggccaacc tgagacagct ggccagagac 1500 tttggagtga agtgggagga aaaggactgg caggaatact ctggacagat caagaagcag 1560 atcaccgacc ggcagaagct gaccatcatg aagcagcgga tcaccgccgc cctgaagaag 1620 aagcagggaa tcgaaaacct gaacctgaga atcacaacag atacgaataa gagcaggaag 1680 gtggtgctga accggatcgc actgcccaag ggattcgtca gaaagcacat cctgaagacc 1740 gacatcaaga tcagcaagca gatccggcag agccagtgcc ctatcatcct gtctaacaac 1800 tacatgaagc tggccaagga gttctttgaa gagcggaact tcgataagat gacccagatc 1860 aatggcctgt tcgagaagaa cgtgctgatc gccttcatga tcgtgtacct gatggagcag 1920 ctgaacctga gactgggcaa gaacaccgag ctgtccaacc tgaagaagac cgaggtgaac 1980 tttaccatca ccgacaaggt gaccgagaag gtgcaaatct cccagtaccc cagcctggtg 2040 ttcgccatta accgggagta cgtggacggc atcagcggct acaagctgcc ccccaagaag 2100 cccaaggaac ctccctacac cttcttcgaa aagatcgacg ccatcgaaaa ggagcggatg 2160 gaattcatca agcaggtgct gggcttcgag gagcacctct tcgaaaagaa cgtgatcgac 2220 aagacccggt ttaccgacac cgccacccac atcagcttca atgagatctg cgatgagctg 2280 atcaagaagg gctgggacga aaacaagatc atcaagctga aggatgcacg gaacgctgcc 2340 ctgcacggca agatccctga agatacctcc tttgacgaag ccaaggtgct gatcaacgaa 2400 ctgaagaagt aa 2412 <210> 29 <211> 102 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <220> <223> gRNA <400> 29 gctggagcag cccccgattt gtggggtgat tacagcggtc ttcgatattc aagcgtcgga 60 agacctgctg gagcagcccc cgatttgtgg ggtgattaca gc 102 <210> 30 <211> 711 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <220> <223> GFP reporter genes <400> 30 atggtgagca agggcgagga ggataacatg gccatcatca aggagttcat gcgcttcaag 60 gtgcacatgg agggctccgt gaacggccac gagttcgaga tcgagggcga gggcgagggc 120 cgcccctacg agggcaccca gaccgccaag ctgaaggtga ccaagggtgg ccccctgccc 180 ttcgcctggg acatcctgtc ccctcagttc atgtacggct ccaaggccta cgtgaagcac 240 cccgccgaca tccccgacta cttgaagctg tccttccccg agggcttcaa gtgggagcgc 300 gtgatgaact tcgaggacgg cggcgtggtg accgtgaccc aggactcctc cctgcaggac 360 ggcgagttca tctacaaggt gaagctgcgc ggcaccaact tcccctccga cggccccgta 420 atgcagaaga agaccatggg ctgggaggcc tcctccgagc ggatgtaccc cgaggacggc 480 gccctgaagg gcgagatcaa gcagaggctg aagctgaagg acggcggcca ctacgacgct 540 gaggtcaaga ccacctacaa ggccaagaag cccgtgcagc tgcccggcgc ctacaacgtc 600 aacatcaagt tggacatcac ctcccacaac gaggactaca ccatcgtgga acagtacgaa 660 cgcgccgagg gccgccactc caccggcggc atggacgagc tgtacaagta a 711 <210> 31 <211> 720 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <220> <223> mCherry reporter genes <400> 31 atggtgagca agggcgagga gctgttcacc ggggtggtgc ccatcctggt cgagctggac 60 ggcgacgtaa acggccacaa gttcagcgtg tccggcgagg gcgagggcga tgccacctac 120 ggcaagctga ccctgaagtt catctgcacc accggcaagc tgcccgtgcc ctggcccacc 180 ctcgtgacca ccctgaccta cggcgtgcag tgcttcagcc gctaccccga ccacatgaag 240 cagcacgact tcttcaagtc cgccatgccc gaaggctacg tccaggagcg caccatcttc 300 ttcaaggacg acggcaacta caagacccgc gccgaggtga agttcgaggg cgacaccctg 360 gtgaaccgca tcgagctgaa gggcatcgac ttcaaggagg acggcaacat cctggggcac 420 aagctggagt acaactacaa cagccacaac gtctatatca tggccgacaa gcagaagaac 480 ggcatcaagg tgaacttcaa gatccgccac aacatcgagg acggcagcgt gcagctcgcc 540 gaccactacc agcagaacac ccccatcggc gacggccccg tgctgctgcc cgacaaccac 600 tacctgagca cccagtccgc cctgagcaaa gaccccaacg agaagcgcga tcacatggtc 660 ctgctggagt tcgtgaccgc cgccgggatc actctcggca tggacgagct gtacaagtga 720 <210> 32 <211> 66 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <223> SgRNA <400> 32 gctggagcag cccccgattt gtggggtgat tacagcggtc ttcgatattc aagcgtcgga 60 agacct 66 <210> 33 <211> 66 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <223> SgRNA <400> 33 ggtcttcgat attcaagcgt cggaagacct gctggagcag cccccgattt gtggggtgat 60 tacagc 66 <210> 34 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <223> SgRNA <400> 34 ttggtgccgc gcagcttcac 20 <210> 35 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <223> SgRNA <400> 35 ttggtgccgc gcagcttcac cttgt 25 <210> 36 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <223> SgRNA <400> 36 ttggtgccgc gcagcttcac cttgtagatg 30 <210> 37 <211> 35 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <223> SgRNA <400> 37 ttggtgccgc gcagcttcac cttgtagatg aactc 35 <210> 38 <211> 40 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 38 ttggtgccgc gcagcttcac cttgtagatg aactcgccgt 40 <210> 39 <211> 45 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <223> SgRNA <400> 39 ttggtgccgc gcagcttcac cttgtagatg aactcgccgt cctgc 45 <210> 40 <211> 50 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <223> SgRNA <400> 40 ttggtgccgc gcagcttcac cttgtagatg aactcgccgt cctgcaggga 50 <210> 41 <211> 3615 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <220> <223> dCas13e.1-ADAR2DD <400> 41 atgcccaaga agaagcggaa ggtggcccag gtgagcaagc agacctccaa gaagagggag 60 ctgagcatcg acgagtacca gggcgcccgg aagtggtgct tcaccattgc cttcaacaag 120 gccctggtga accgggacaa gaacgacggc ctgttcgtgg aaagcctgct gagacacgag 180 aagtacagca agcacgactg gtacgacgaa gatacccggg ccctgatcaa gtgcagcacc 240 caggccgcca acgccaaggc tgaagccctg gcgaactact tcagtgctta ccggcatagc 300 cctggctgcc tgaccttcac cgccgaggac gaactgcgga ccatcatgga gagagcctat 360 gagcgggcca tcttcgagtg cagaagaaga gagacagagg tgatcatcga gtttcccagc 420 ctgttcgagg gcgaccggat caccaccgcc ggcgtggtgt ttttcgtgag ctttttcgtg 480 gaaagaagag tgctggatcg gctgtatgga gccgtgtccg gcctgaagaa gaatgaggga 540 cagtacaagc tgacccggaa ggccctgagc atgtactgcc tgaaggacag cagattcacc 600 aaggcctggg ataagcgggt gctgctgttc agagacatcc tggcccagct gggaagaatc 660 cccgccgagg cctacgagta ctaccacggc gagcagggtg ataagaagag agctaacgac 720 aatgagggca caaatcccaa gcggcacaag gacaagttca tcgaatttgc actgcactac 780 ctggaagccc agcacagcga gatctgcttc ggcagacgcc acatcgtgcg ggaagaggcc 840 ggcgccggcg atgagcacaa gaagcaccgg accaagggaa aggtggtggt ggacttcagc 900 aagaaggacg aggaccagag ctactatatc tccaagaaca acgtgatcgt gcggatcgac 960 aagaacgccg gccctagaag ctaccggatg ggcctgaacg agctgaagta cctcgtgctg 1020 ctgagcctgc aggggaaggg cgacgatgcc atcgccaagc tgtacagata cagacagcac 1080 gtggagaaca tcctggatgt ggtgaaggtg accgataagg ataaccacgt gttcctgccc 1140 cgcttcgtgc tggagcagca cggcatcggc agaaaggcct tcaagcagcg gatcgatgga 1200 cgggtgaagc acgtgcgggg cgtgtgggag aagaagaagg ccgccaccaa tgaaatgacc 1260 ctgcacgaga aggccagaga catcctgcag tacgtgaacg aaaactgcac ccggtccttc 1320 aaccctggcg aatacaacag actgctggtg tgcctggtgg gcaaggacgt ggagaacttt 1380 caggccggcc tgaagcggct gcagctggcc gaaaggatcg atggccgggt gtactccatc 1440 ttcgcccaga ccagcaccat caatgagatg caccaggtgg tgtgcgacca gatcctgaac 1500 cggctgtgca gaatcggcga ccagaagctg tacgattacg tgggactggg caagaaggac 1560 gaaatcgact acaagcagaa ggtggcctgg ttcaaggagc acatcagcat ccggagagga 1620 ttcctgagaa agaagttctg gtacgatagc aagaagggat tcgcaaagct ggtggaggaa 1680 cacctggagt ccggcggcgg ccagcgcgac gtgggcctgg acaagaagta ctaccacatc 1740 gacgccatcg gcagattcga gggcgccaac cccgccctgt acgagaccct ggccagagat 1800 cggctgtgcc tcatgatggc ccagtacttc ctgggcagcg tgagaaagga actgggcaac 1860 aagattgtgt ggagcaacga cagcatcgaa ctgcctgtgg aaggctctgt gggaaatgag 1920 aagagcatcg tgttctccgt gtctgactac ggcaagctgt acgtgctgga cgatgccgaa 1980 ttcctgggcc ggatctgcga atacttcatg ccccacgaaa agggcaagat ccggtaccac 2040 acagtgtacg aaaagggctt tagagcatac aacgacctgc agaagaagtg cgtggaggcc 2100 gtgctggctt tcgaagagaa ggtggtgaag gccaagaaga tgagcgagaa ggaaggcgcc 2160 cactacatcg acttccggga gatcctggcc cagaccatgt gcaaggaggc cgagaagacc 2220 gcagtgaaca aggtggcggc tgccttcttc gctgcgcacc tgaagttcgt gattgacgag 2280 ttcggcctgt tcagcgacgt gatgaagaag tacggcatcg agaaggaatg gaagttccct 2340 gtcaagccca agaagaagcg gaaggtgggt ggaggcggag gttctggggg aggaggtagt 2400 ggcggtggtg gttcaggagg cggcggaagc cagctgcatt taccgcaggt tttagctgac 2460 gctgtctcac gcctggtcct gggtaagttt ggtgacctga ccgacaactt ctcctcccct 2520 cacgctcgca gaaaagtgct ggctggagtc gtcatgacaa caggcacaga tgttaaagat 2580 gccaaggtga taagtgtttc tacaggaggc aaatgtatta atggtgaata catgagtgat 2640 cgtggccttg cattaaatga ctgccatgca gaaataatat ctcggagatc cttgctcaga 2700 tttctttata cacaacttga gctttactta aataacaaag atgatcaaaa aagatccatc 2760 tttcagaaat cagagcgagg ggggtttagg ctgaaggaga atgtccagtt tcatctgtac 2820 atcagcacct ctccctgtgg agatgccaga atcttctcac cacatgagcc aatcctggaa 2880 gaaccagcag atagacaccc aaatcgtaaa gcaagaggac agctacggac caaaatagag 2940 tctggtcagg ggacgattcc agtgcgctcc aatgcgagca tccaaacgtg ggacggggtg 3000 ctgcaagggg agcggctgct caccatgtcc tgcagtgaca agattgcacg ctggaacgtg 3060 gtgggcatcc agggatcact gctcagcatt ttcgtggagc ccatttactt ctcgagcatc 3120 atcctgggca gcctttacca cggggaccac ctttccaggg ccatgtacca gcggatctcc 3180 aacatagagg acctgccacc tctctacacc ctcaacaagc ctttgctcag tggcatcagc 3240 aatgcagaag cacggcagcc agggaaggcc cccaacttca gtgtcaactg gacggtaggc 3300 gactccgcta ttgaggtcat caacgccacg actgggaagg atgagctggg ccgcgcgtcc 3360 cgcctgtgta agcacgcgtt gtactgtcgc tggatgcgtg tgcacggcaa ggttccctcc 3420 cacttactac gctccaagat taccaagccc aacgtgtacc atgagtccaa gctggcggca 3480 aaggagtacc aggccgccaa ggcgcgtctg ttcacagcct tcatcaaggc ggggctgggg 3540 gcctgggtgg agaagcccac cgagcaggac cagttctcac tcacgtaccc atacgacgta 3600 ccagattacg cttaa 3615 <210> 42 <211> 711 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <220> <223> mutated mCherry <400> 42 atggtgagca agggcgagga ggataacatg gccatcatca aggagttcat gcgcttcaag 60 gtgcacatgg agggctccgt gaacggccac gagttcgaga tcgagggcga gggcgagggc 120 cgcccctacg agggcaccca gaccgccaag ctgaaggtga ccaagggtgg ccccctgccc 180 ttcgcctggg acatcctgtc ccctcagttc atgtacggct ccaaggccta cgtgaagcac 240 cccgccgaca tccccgacta cttgaagctg tccttccccg agggcttcaa gtaggagcgc 300 gtgatgaact tcgaggacgg cggcgtggtg accgtgaccc aggactcctc cctgcaggac 360 ggcgagttca tctacaaggt gaagctgcgc ggcaccaact tcccctccga cggccccgta 420 atgcagaaga agaccatggg ctgggaggcc tcctccgagc ggatgtaccc cgaggacggc 480 gccctgaagg gcgagatcaa gcagaggctg aagctgaagg acggcggcca ctacgacgct 540 gaggtcaaga ccacctacaa ggccaagaag cccgtgcagc tgcccggcgc ctacaacgtc 600 aacatcaagt tggacatcac ctcccacaac gaggactaca ccatcgtgga acagtacgaa 660 cgcgccgagg gccgccactc caccggcggc atggacgagc tgtacaagta a 711 <210> 43 <211> 86 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <223> gRNA <400> 43 caagtagtcg gggatgtcgg cggggtgctt cacctaggcc ttggagccgt gctggagcag 60 cccccgattt gtggggtgat tacagc 86 <210> 44 <211> 86 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <223> gRNA <400> 44 cggggatgtc ggcggggtgc ttcacctagg ccttggagcc gtacatgaac gctggagcag 60 cccccgattt gtggggtgat tacagc 86 <210> 45 <211> 3312 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 45 atgcccaaga agaagcggaa ggtggtcgac aacatccccg ctctggtgga aaaccagaag 60 aagtactttg gcacctacag cgtgatggcc atgctgaacg ctcagaccgt gctggaccac 120 atccagaagg tggccgatat tgagggcgag cagaacgaga acaacgagaa tctgtggttt 180 caccccgtga tgagccacct gtacaacgcc aagaacggct acgacaagca gcccgagaaa 240 accatgttca tcatcgagcg gctgcagagc tacttcccat tcctgaagat catggccgag 300 aaccagagag agtacagcaa cggcaagtac aagcagaacc gcgtggaagt gaacagcaac 360 gacatcttcg aggtgctgaa gcgcgccttc ggcgtgctga agatgtacag ggacctgacc 420 aaccactaca agacctacga ggaaaagctg aacgacggct gcgagttcct gaccagcaca 480 gagcaacctc tgagcggcat gatcaacaac tactacacag tggccctgcg gaacatgaac 540 gagagatacg gctacaagac agaggacctg gccttcatcc aggacaagcg gttcaagttc 600 gtgaaggacg cctacggcaa gaaaaagtcc caagtgaata ccggattctt cctgagcctg 660 caggactaca acggcgacac acagaagaag ctgcacctga gcggagtggg aatcgccctg 720 ctgatctgcc tgttcctgga caagcagtac atcaacatct ttctgagcag gctgcccatc 780 ttctccagct acaatgccca gagcgaggaa cggcggatca tcatcagatc cttcggcatc 840 aacagcatca agctgcccaa ggaccggatc cacagcgaga agtccaacaa gagcgtggcc 900 atggatatgc tcaacgaagt gaagcggtgc cccgacgagc tgttcacaac actgtctgcc 960 gagaagcagt cccggttcag aatcatcagc gacgaccaca atgaagtgct gatgaagcgg 1020 agcagcgaca gattcgtgcc tctgctgctg cagtatatcg attacggcaa gctgttcgac 1080 cacatcaggt tccacgtgaa catgggcaag ctgagatacc tgctgaaggc cgacaagacc 1140 tgcatcgacg gccagaccag agtcagagtg atcgagcagc ccctgaacgg cttcggcaga 1200 ctggaagagg ccgagacaat gcggaagcaa gagaacggca ccttcggcaa cagcggcatc 1260 cggatcagag acttcgagaa catgaagcgg gacgacgcca atcctgccaa ctatccctac 1320 atcgtggaca cctacacaca ctacatcctg gaaaacaaca aggtcgagat gtttatcaac 1380 gacaaagagg acagcgcccc actgctgccc gtgatcgagg atgatagata cgtggtcaag 1440 acaatcccca gctgccggat gagcaccctg gaaattccag ccatggcctt ccacatgttt 1500 ctgttcggca gcaagaaaac cgagaagctg atcgtggacg tgcacaaccg gtacaagaga 1560 ctgttccagg ccatgcagaa agaagaagtg accgccgaga atatcgccag cttcggaatc 1620 gccgagagcg acctgcctca gaagatcctg gatctgatca gcggcaatgc ccacggcaag 1680 gatgtggacg ccttcatcag actgaccgtg gacgacatgc tgaccgacac cgagcggaga 1740 atcaagagat tcaaggacga ccggaagtcc attcggagcg ccgacaacaa gatgggaaag 1800 agaggcttca agcagatctc cacaggcaag ctggccgact tcctggccaa ggacatcgtg 1860 ctgtttcagc ccagcgtgaa cgatggcgag aacaagatca ccggcctgaa ctaccggatc 1920 atgcagagcg ccattgccgt gtacgatagc ggcgacgatt acgaggccaa gcagcagttc 1980 aagctgatgt tcgagaaggc ccggctgatc ggcaagggca caacagagcc tcatccattt 2040 ctgtacaagg tgttcgcccg cagcatcccc gccaatgccg tcgagttcta cgagcgctac 2100 ctgatcgagc ggaagttcta cctgaccggc ctgtccaacg agatcaagaa aggcaacaga 2160 gtggatgtgc ccttcatccg gcgggaccag aacaagtgga aaacacccgc catgaaaacc 2220 ctgggcagaa tctacagcga ggatctgccc gtggaactgc ccagacagat gttcgacaat 2280 gagatcaagt cccacctgaa gtccctgcca cagatggaag gcatcgactt caacaatgcc 2340 aacgtgacct atctgatcgc cgagtacatg aagagagtgc tggacgacga cttccagacc 2400 ttctaccagt ggaaccgcaa ctaccggtac atggacatgc ttaagggcga gtacgacaga 2460 aagggctccc tgcagcactg cttcaccagc gtggaagaga gagaaggcct ctggaaagag 2520 cgggcctcca gaacagagcg gtacagaaag caggccagca acaagatccg cagcaaccgg 2580 cagatgagaa acgccagcag cgaagagatc gagacaatcc tggataagcg gctgagcaac 2640 agccggaacg agtaccagaa aagcgagaaa gtgatccggc gctacagagt gcaggatgcc 2700 ctgctgtttc tgctggccaa aaagaccctg accgaactgg ccgatttcga cggcgagagg 2760 ttcaaactga aagaaatcat gcccgacgcc gagaagggaa tcctgagcga gatcatgccc 2820 atgagcttca ccttcgagaa aggcggcaag aagtacacca tcaccagcga gggcatgaag 2880 ctgaagaact acggcgactt ctttgtgctg gctagcgaca agaggatcgg caacctgctg 2940 gaactcgtgg gcagcgacat cgtgtccaaa gaggatatca tggaagagtt caacaaatac 3000 gaccagtgca ggcccgagat cagctccatc gtgttcaacc tggaaaagtg ggccttcgac 3060 acataccccg agctgtctgc cagagtggac cgggaagaga aggtggactt caagagcatc 3120 ctgaaaatcc tgctgaacaa caagaacatc aacaaagagc agagcgacat cctgcggaag 3180 atccggaacg ccttcgatca caacaattac cccgacaaag gcgtggtgga aatcaaggcc 3240 ctgcctgaga tcgccatgag catcaagaag gcctttgggg agtacgccat catgaaggga 3300 tcccttcaat ga 3312 <210> 46 <211> 2934 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 46 atgcctaaaa agaaaagaaa ggtgggttct ggtatcgaga agaagaagag cttcgccaag 60 ggcatgggag tgaagagcac cctggtgtcc ggctctaagg tgtacatgac cacatttgct 120 gagggaagcg acgccaggct ggagaagatc gtggagggcg atagcatcag atccgtgaac 180 gagggagagg ctttcagcgc cgagatggct gacaagaacg ctggctacaa gatcggaaac 240 gccaagtttt cccacccaaa gggctacgcc gtggtggcta acaacccact gtacaccgga 300 ccagtgcagc aggacatgct gggactgaag gagacactgg agaagaggta cttcggcgag 360 tccgccgacg gaaacgataa catctgcatc caggtcatcc acaacatcct ggatatcgag 420 aagatcctgg ctgagtacat cacaaacgcc gcttacgccg tgaacaacat ctccggcctg 480 gacaaggata tcatcggctt cggaaagttt tctaccgtgt acacatacga cgagttcaag 540 gatccagagc accaccgggc cgcttttaac aacaacgaca agctgatcaa cgccatcaag 600 gctcagtacg acgagttcga taactttctg gataacccca ggctgggcta cttcggacag 660 gctttctttt ctaaggaggg cagaaactac atcatcaact acggaaacga gtgttacgac 720 atcctggccc tgctgagcgg actgaggcac tgggtggtgc acaacaacga ggaggagtct 780 cggatcagcc gcacctggct gtacaacctg gacaagaacc tggataacga gtacatctcc 840 acactgaact acctgtacga caggatcacc aacgagctga caaacagctt ctccaagaac 900 tctgccgcta acgtgaacta catcgctgag accctgggca tcaacccagc tgagttcgct 960 gagcagtact tcagattttc catcatgaag gagcagaaga acctgggctt caacatcaca 1020 aagctgagag aagtgatgct ggacagaaag gatatgtccg agatcaggaa gaaccacaag 1080 gtgttcgatt ctatcagaac caaggtgtac acaatgatgg actttgtgat ctacaggtac 1140 tacatcgagg aggatgccaa ggtggccgct gccaacaaga gcctgcccga caacgagaag 1200 tctctgagcg agaaggatat cttcgtgatc aacctgagag gctcctttaa cgacgatcag 1260 aaggacgctc tgtactacga tgaggccaac aggatctgga gaaagctgga gaacatcatg 1320 cacaacatca aggagttccg gggaaacaag acccgcgagt acaagaagaa ggacgctcca 1380 aggctgccta ggatcctgcc tgctggaagg gacgtgagcg ccttcagcaa gctgatgtac 1440 gccctgacaa tgtttctgga cggaaaggag atcaacgatc tgctgaccac actgatcaac 1500 aagttcgaca acatccagtc ttttctgaaa gtgatgcctc tgatcggcgt gaacgctaag 1560 ttcgtggagg agtacgcctt ctttaaggac agcgccaaga tcgctgatga gctgcggctg 1620 atcaagtcct ttgccaggat gggagagcca atcgctgacg ctaggagagc tatgtacatc 1680 gatgccatcc ggatcctggg aaccaacctg tcttacgacg agctgaaggc tctggccgac 1740 accttcagcc tggatgagaa cggcaacaag ctgaagaagg gcaagcacgg aatgcgcaac 1800 ttcatcatca acaacgtgat cagcaacaag cggtttcact acctgatcag atacggcgac 1860 ccagctcacc tgcacgagat cgctaagaac gaggccgtgg tgaagttcgt gctgggacgg 1920 atcgccgata tccagaagaa gcagggccag aacggaaaga accagatcga ccgctactac 1980 gagacctgca tcggcaagga taagggaaag tccgtgtctg agaaggtgga cgctctgacc 2040 aagatcatca caggcatgaa ctacgaccag ttcgataaga agagatctgt gatcgaggac 2100 accggaaggg agaacgccga gagagagaag tttaagaaga tcatcagcct gtacctgaca 2160 gtgatctacc acatcctgaa gaacatcgtg aacatcaacg ctagatacgt gatcggcttc 2220 cactgcgtgg agcgcgatgc ccagctgtac aaggagaagg gatacgacat caacctgaag 2280 aagctggagg agaagggctt tagctccgtg accaagctgt gcgctggaat cgacgagaca 2340 gcccccgaca agaggaagga tgtggagaag gagatggccg agagagctaa ggagagcatc 2400 gactccctgg agtctgctaa ccctaagctg tacgccaact acatcaagta ctccgatgag 2460 aagaaggccg aggagttcac caggcagatc aacagagaga aggccaagac cgctctgaac 2520 gcctacctga ggaacacaaa gtggaacgtg atcatccggg aggacctgct gcgcatcgat 2580 aacaagacct gtacactgtt ccggaacaag gctgtgcacc tggaggtggc tcgctacgtg 2640 cacgcctaca tcaacgacat cgccgaggtg aactcctact ttcagctgta ccactacatc 2700 atgcagagga tcatcatgaa cgagagatac gagaagtcta gcggcaaggt gtctgagtac 2760 ttcgacgccg tgaacgatga gaagaagtac aacgatagac tgctgaagct gctgtgcgtg 2820 cctttcggat actgtatccc acggtttaag aacctgagca tcgaggccct gttcgaccgc 2880 aacgaggctg ccaagtttga taaggagaag aagaaggtga gcggcaactc ctga 2934 <210> 47 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 47 atggcccttc gcagctcttg cacgtcatac 30 <210> 48 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 48 ttaggcagcc ctcatcagtg ccggctccct 30 <210> 49 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 49 ggccaggatc tcaattaggc agccctcatc 30 <210> 50 <211> 30 <212> DNA <213> Homo sapiens <400> 50 ggccaggatc tcaattaggc agccctcatc 30 <210> 51 <211> 3489 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 51 atgcccaaga agaagcggaa ggtgggatcc atgaaagtga ccaaggtcga tggcatcagc 60 cacaagaagt acatcgaaga gggcaagctc gtgaagtcca ccagcgagga aaaccggacc 120 agcgagagac tgagcgagct gctgagcatc cggctggaca tctacatcaa gaaccccgac 180 aacgcctccg aggaagagaa ccggatcaga agagagaacc tgaagaagtt ctttagcaac 240 aaggtgctgc acctgaagga cagcgtgctg tatctgaaga accggaaaga aaagaacgcc 300 gtgcaggaca agaactatag cgaagaggac atcagcgagt acgacctgaa aaacaagaac 360 agcttctccg tgctgaagaa gatcctgctg aacgaggacg tgaactctga ggaactggaa 420 atctttcgga aggacgtgga agccaagctg aacaagatca acagcctgaa gtacagcttc 480 gaagagaaca aggccaacta ccagaagatc aacgagaaca acgtggaaaa agtgggcggc 540 aagagcaagc ggaacatcat ctacgactac tacagagaga gcgccaagcg caacgactac 600 atcaacaacg tgcaggaagc cttcgacaag ctgtataaga aagaggatat cgagaaactg 660 tttttcctga tcgagaacag caagaagcac gagaagtaca agatccgcga gtactatcac 720 aagatcatcg gccggaagaa cgacaaagag aacttcgcca agattatcta cgaagagatc 780 cagaacgtga acaacatcaa agagctgatt gagaagatcc ccgacatgtc tgagctgaag 840 aaaagccagg tgttctacaa gtactacctg gacaaagagg aactgaacga caagaatatt 900 aagtacgcct tctgccactt cgtggaaatc gagatgtccc agctgctgaa aaactacgtg 960 tacaagcggc tgagcaacat cagcaacgat aagatcaagc ggatcttcga gtaccagaat 1020 ctgaaaaagc tgatcgaaaa caaactgctg aacaagctgg acacctacgt gcggaactgc 1080 ggcaagtaca actactatct gcaagtgggc gagatcgcca cctccgactt tatcgcccgg 1140 aaccggcaga acgaggcctt cctgagaaac atcatcggcg tgtccagcgt ggcctacttc 1200 agcctgagga acatcctgga aaccgagaac gagaacgata tcaccggccg gatgcggggc 1260 aagaccgtga agaacaacaa gggcgaagag aaatacgtgt ccggcgaggt ggacaagatc 1320 tacaatgaga acaagcagaa cgaagtgaaa gaaaatctga agatgttcta cagctacgac 1380 ttcaacatgg acaacaagaa cgagatcgag gacttcttcg ccaacatcga cgaggccatc 1440 agcagcatca gacacggcat cgtgcacttc aacctggaac tggaaggcaa ggacatcttc 1500 gccttcaaga atatcgcccc cagcgagatc tccaagaaga tgtttcagaa cgaaatcaac 1560 gaaaagaagc tgaagctgaa aatcttcaag cagctgaaca gcgccaacgt gttcaactac 1620 tacgagaagg atgtgatcat caagtacctg aagaatacca agttcaactt cgtgaacaaa 1680 aacatcccct tcgtgcccag cttcaccaag ctgtacaaca agattgagga cctgcggaat 1740 accctgaagt ttttttggag cgtgcccaag gacaaagaag agaaggacgc ccagatctac 1800 ctgctgaaga atatctacta cggcgagttc ctgaacaagt tcgtgaaaaa ctccaaggtg 1860 ttctttaaga tcaccaatga agtgatcaag attaacaagc agcggaacca gaaaaccggc 1920 cactacaagt atcagaagtt cgagaacatc gagaaaaccg tgcccgtgga atacctggcc 1980 atcatccaga gcagagagat gatcaacaac caggacaaag aggaaaagaa tacctacatc 2040 gactttattc agcagatttt cctgaagggc ttcatcgact acctgaacaa gaacaatctg 2100 aagtatatcg agagcaacaa caacaatgac aacaacgaca tcttctccaa gatcaagatc 2160 aaaaaggata acaaagagaa gtacgacaag atcctgaaga actatgagaa gcacaatcgg 2220 aacaaagaaa tccctcacga gatcaatgag ttcgtgcgcg agatcaagct ggggaagatt 2280 ctgaagtaca ccgagaatct gaacatgttt tacctgatcc tgaagctgct gaaccacaaa 2340 gagctgacca acctgaaggg cagcctggaa aagtaccagt ccgccaacaa agaagaaacc 2400 ttcagcgacg agctggaact gatcaacctg ctgaacctgg acaacaacag agtgaccgag 2460 gacttcgagc tggaagccaa cgagatcggc aagttcctgg acttcaacga aaacaaaatc 2520 aaggaccgga aagagctgaa aaagttcgac accaacaaga tctatttcga cggcgagaac 2580 atcatcaagc accgggcctt ctacaatatc aagaaatacg gcatgctgaa tctgctggaa 2640 aagatcgccg ataaggccaa gtataagatc agcctgaaag aactgaaaga gtacagcaac 2700 aagaagaatg agattgaaaa gaactacacc atgcagcaga acctgcaccg gaagtacgcc 2760 agacccaaga aggacgaaaa gttcaacgac gaggactaca aagagtatga gaaggccatc 2820 ggcaacatcc agaagtacac ccacctgaag aacaaggtgg aattcaatga gctgaacctg 2880 ctgcagggcc tgctgctgaa gatcctgcac cggctcgtgg gctacaccag catctgggag 2940 cgggacctga gattccggct gaagggcgag tttcccgaga accactacat cgaggaaatt 3000 ttcaatttcg acaactccaa gaatgtgaag tacaaaagcg gccagatcgt ggaaaagtat 3060 atcaacttct acaaagaact gtacaaggac aatgtggaaa agcggagcat ctactccgac 3120 aagaaagtga agaaactgaa gcaggaaaaa aaggacctgt acatccggaa ctacattgcc 3180 cacttcaact acatccccca cgccgagatt agcctgctgg aagtgctgga aaacctgcgg 3240 aagctgctgt cctacgaccg gaagctgaag aacgccatca tgaagtccat cgtggacatt 3300 ctgaaagaat acggcttcgt ggccaccttc aagatcggcg ctgacaagaa gatcgaaatc 3360 cagaccctgg aatcagagaa gatcgtgcac ctgaagaatc tgaagaaaaa gaaactgatg 3420 accgaccgga acagcgagga actgtgcgaa ctcgtgaaag tcatgttcga gtacaaggcc 3480 ctggaatga 3489 <210> 52 <211> 3489 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <220> <223> LwaCas13a <400> 52 atgcccaaga agaagcggaa ggtgggatcc atgaaagtga ccaaggtcga tggcatcagc 60 cacaagaagt acatcgaaga gggcaagctc gtgaagtcca ccagcgagga aaaccggacc 120 agcgagagac tgagcgagct gctgagcatc cggctggaca tctacatcaa gaaccccgac 180 aacgcctccg aggaagagaa ccggatcaga agagagaacc tgaagaagtt ctttagcaac 240 aaggtgctgc acctgaagga cagcgtgctg tatctgaaga accggaaaga aaagaacgcc 300 gtgcaggaca agaactatag cgaagaggac atcagcgagt acgacctgaa aaacaagaac 360 agcttctccg tgctgaagaa gatcctgctg aacgaggacg tgaactctga ggaactggaa 420 atctttcgga aggacgtgga agccaagctg aacaagatca acagcctgaa gtacagcttc 480 gaagagaaca aggccaacta ccagaagatc aacgagaaca acgtggaaaa agtgggcggc 540 aagagcaagc ggaacatcat ctacgactac tacagagaga gcgccaagcg caacgactac 600 atcaacaacg tgcaggaagc cttcgacaag ctgtataaga aagaggatat cgagaaactg 660 tttttcctga tcgagaacag caagaagcac gagaagtaca agatccgcga gtactatcac 720 aagatcatcg gccggaagaa cgacaaagag aacttcgcca agattatcta cgaagagatc 780 cagaacgtga acaacatcaa agagctgatt gagaagatcc ccgacatgtc tgagctgaag 840 aaaagccagg tgttctacaa gtactacctg gacaaagagg aactgaacga caagaatatt 900 aagtacgcct tctgccactt cgtggaaatc gagatgtccc agctgctgaa aaactacgtg 960 tacaagcggc tgagcaacat cagcaacgat aagatcaagc ggatcttcga gtaccagaat 1020 ctgaaaaagc tgatcgaaaa caaactgctg aacaagctgg acacctacgt gcggaactgc 1080 ggcaagtaca actactatct gcaagtgggc gagatcgcca cctccgactt tatcgcccgg 1140 aaccggcaga acgaggcctt cctgagaaac atcatcggcg tgtccagcgt ggcctacttc 1200 agcctgagga acatcctgga aaccgagaac gagaacgata tcaccggccg gatgcggggc 1260 aagaccgtga agaacaacaa gggcgaagag aaatacgtgt ccggcgaggt ggacaagatc 1320 tacaatgaga acaagcagaa cgaagtgaaa gaaaatctga agatgttcta cagctacgac 1380 ttcaacatgg acaacaagaa cgagatcgag gacttcttcg ccaacatcga cgaggccatc 1440 agcagcatca gacacggcat cgtgcacttc aacctggaac tggaaggcaa ggacatcttc 1500 gccttcaaga atatcgcccc cagcgagatc tccaagaaga tgtttcagaa cgaaatcaac 1560 gaaaagaagc tgaagctgaa aatcttcaag cagctgaaca gcgccaacgt gttcaactac 1620 tacgagaagg atgtgatcat caagtacctg aagaatacca agttcaactt cgtgaacaaa 1680 aacatcccct tcgtgcccag cttcaccaag ctgtacaaca agattgagga cctgcggaat 1740 accctgaagt ttttttggag cgtgcccaag gacaaagaag agaaggacgc ccagatctac 1800 ctgctgaaga atatctacta cggcgagttc ctgaacaagt tcgtgaaaaa ctccaaggtg 1860 ttctttaaga tcaccaatga agtgatcaag attaacaagc agcggaacca gaaaaccggc 1920 cactacaagt atcagaagtt cgagaacatc gagaaaaccg tgcccgtgga atacctggcc 1980 atcatccaga gcagagagat gatcaacaac caggacaaag aggaaaagaa tacctacatc 2040 gactttattc agcagatttt cctgaagggc ttcatcgact acctgaacaa gaacaatctg 2100 aagtatatcg agagcaacaa caacaatgac aacaacgaca tcttctccaa gatcaagatc 2160 aaaaaggata acaaagagaa gtacgacaag atcctgaaga actatgagaa gcacaatcgg 2220 aacaaagaaa tccctcacga gatcaatgag ttcgtgcgcg agatcaagct ggggaagatt 2280 ctgaagtaca ccgagaatct gaacatgttt tacctgatcc tgaagctgct gaaccacaaa 2340 gagctgacca acctgaaggg cagcctggaa aagtaccagt ccgccaacaa agaagaaacc 2400 ttcagcgacg agctggaact gatcaacctg ctgaacctgg acaacaacag agtgaccgag 2460 gacttcgagc tggaagccaa cgagatcggc aagttcctgg acttcaacga aaacaaaatc 2520 aaggaccgga aagagctgaa aaagttcgac accaacaaga tctatttcga cggcgagaac 2580 atcatcaagc accgggcctt ctacaatatc aagaaatacg gcatgctgaa tctgctggaa 2640 aagatcgccg ataaggccaa gtataagatc agcctgaaag aactgaaaga gtacagcaac 2700 aagaagaatg agattgaaaa gaactacacc atgcagcaga acctgcaccg gaagtacgcc 2760 agacccaaga aggacgaaaa gttcaacgac gaggactaca aagagtatga gaaggccatc 2820 ggcaacatcc agaagtacac ccacctgaag aacaaggtgg aattcaatga gctgaacctg 2880 ctgcagggcc tgctgctgaa gatcctgcac cggctcgtgg gctacaccag catctgggag 2940 cgggacctga gattccggct gaagggcgag tttcccgaga accactacat cgaggaaatt 3000 ttcaatttcg acaactccaa gaatgtgaag tacaaaagcg gccagatcgt ggaaaagtat 3060 atcaacttct acaaagaact gtacaaggac aatgtggaaa agcggagcat ctactccgac 3120 aagaaagtga agaaactgaa gcaggaaaaa aaggacctgt acatccggaa ctacattgcc 3180 cacttcaact acatccccca cgccgagatt agcctgctgg aagtgctgga aaacctgcgg 3240 aagctgctgt cctacgaccg gaagctgaag aacgccatca tgaagtccat cgtggacatt 3300 ctgaaagaat acggcttcgt ggccaccttc aagatcggcg ctgacaagaa gatcgaaatc 3360 cagaccctgg aatcagagaa gatcgtgcac ctgaagaatc tgaagaaaaa gaaactgatg 3420 accgaccgga acagcgagga actgtgcgaa ctcgtgaaag tcatgttcga gtacaaggcc 3480 ctggaatga 3489 <210> 53 <211> 3312 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <220> <223> PspCas13b <400> 53 atgcccaaga agaagcggaa ggtggtcgac aacatccccg ctctggtgga aaaccagaag 60 aagtactttg gcacctacag cgtgatggcc atgctgaacg ctcagaccgt gctggaccac 120 atccagaagg tggccgatat tgagggcgag cagaacgaga acaacgagaa tctgtggttt 180 caccccgtga tgagccacct gtacaacgcc aagaacggct acgacaagca gcccgagaaa 240 accatgttca tcatcgagcg gctgcagagc tacttcccat tcctgaagat catggccgag 300 aaccagagag agtacagcaa cggcaagtac aagcagaacc gcgtggaagt gaacagcaac 360 gacatcttcg aggtgctgaa gcgcgccttc ggcgtgctga agatgtacag ggacctgacc 420 aaccactaca agacctacga ggaaaagctg aacgacggct gcgagttcct gaccagcaca 480 gagcaacctc tgagcggcat gatcaacaac tactacacag tggccctgcg gaacatgaac 540 gagagatacg gctacaagac agaggacctg gccttcatcc aggacaagcg gttcaagttc 600 gtgaaggacg cctacggcaa gaaaaagtcc caagtgaata ccggattctt cctgagcctg 660 caggactaca acggcgacac acagaagaag ctgcacctga gcggagtggg aatcgccctg 720 ctgatctgcc tgttcctgga caagcagtac atcaacatct ttctgagcag gctgcccatc 780 ttctccagct acaatgccca gagcgaggaa cggcggatca tcatcagatc cttcggcatc 840 aacagcatca agctgcccaa ggaccggatc cacagcgaga agtccaacaa gagcgtggcc 900 atggatatgc tcaacgaagt gaagcggtgc cccgacgagc tgttcacaac actgtctgcc 960 gagaagcagt cccggttcag aatcatcagc gacgaccaca atgaagtgct gatgaagcgg 1020 agcagcgaca gattcgtgcc tctgctgctg cagtatatcg attacggcaa gctgttcgac 1080 cacatcaggt tccacgtgaa catgggcaag ctgagatacc tgctgaaggc cgacaagacc 1140 tgcatcgacg gccagaccag agtcagagtg atcgagcagc ccctgaacgg cttcggcaga 1200 ctggaagagg ccgagacaat gcggaagcaa gagaacggca ccttcggcaa cagcggcatc 1260 cggatcagag acttcgagaa catgaagcgg gacgacgcca atcctgccaa ctatccctac 1320 atcgtggaca cctacacaca ctacatcctg gaaaacaaca aggtcgagat gtttatcaac 1380 gacaaagagg acagcgcccc actgctgccc gtgatcgagg atgatagata cgtggtcaag 1440 acaatcccca gctgccggat gagcaccctg gaaattccag ccatggcctt ccacatgttt 1500 ctgttcggca gcaagaaaac cgagaagctg atcgtggacg tgcacaaccg gtacaagaga 1560 ctgttccagg ccatgcagaa agaagaagtg accgccgaga atatcgccag cttcggaatc 1620 gccgagagcg acctgcctca gaagatcctg gatctgatca gcggcaatgc ccacggcaag 1680 gatgtggacg ccttcatcag actgaccgtg gacgacatgc tgaccgacac cgagcggaga 1740 atcaagagat tcaaggacga ccggaagtcc attcggagcg ccgacaacaa gatgggaaag 1800 agaggcttca agcagatctc cacaggcaag ctggccgact tcctggccaa ggacatcgtg 1860 ctgtttcagc ccagcgtgaa cgatggcgag aacaagatca ccggcctgaa ctaccggatc 1920 atgcagagcg ccattgccgt gtacgatagc ggcgacgatt acgaggccaa gcagcagttc 1980 aagctgatgt tcgagaaggc ccggctgatc ggcaagggca caacagagcc tcatccattt 2040 ctgtacaagg tgttcgcccg cagcatcccc gccaatgccg tcgagttcta cgagcgctac 2100 ctgatcgagc ggaagttcta cctgaccggc ctgtccaacg agatcaagaa aggcaacaga 2160 gtggatgtgc ccttcatccg gcgggaccag aacaagtgga aaacacccgc catgaaaacc 2220 ctgggcagaa tctacagcga ggatctgccc gtggaactgc ccagacagat gttcgacaat 2280 gagatcaagt cccacctgaa gtccctgcca cagatggaag gcatcgactt caacaatgcc 2340 aacgtgacct atctgatcgc cgagtacatg aagagagtgc tggacgacga cttccagacc 2400 ttctaccagt ggaaccgcaa ctaccggtac atggacatgc ttaagggcga gtacgacaga 2460 aagggctccc tgcagcactg cttcaccagc gtggaagaga gagaaggcct ctggaaagag 2520 cgggcctcca gaacagagcg gtacagaaag caggccagca acaagatccg cagcaaccgg 2580 cagatgagaa acgccagcag cgaagagatc gagacaatcc tggataagcg gctgagcaac 2640 agccggaacg agtaccagaa aagcgagaaa gtgatccggc gctacagagt gcaggatgcc 2700 ctgctgtttc tgctggccaa aaagaccctg accgaactgg ccgatttcga cggcgagagg 2760 ttcaaactga aagaaatcat gcccgacgcc gagaagggaa tcctgagcga gatcatgccc 2820 atgagcttca ccttcgagaa aggcggcaag aagtacacca tcaccagcga gggcatgaag 2880 ctgaagaact acggcgactt ctttgtgctg gctagcgaca agaggatcgg caacctgctg 2940 gaactcgtgg gcagcgacat cgtgtccaaa gaggatatca tggaagagtt caacaaatac 3000 gaccagtgca ggcccgagat cagctccatc gtgttcaacc tggaaaagtg ggccttcgac 3060 acataccccg agctgtctgc cagagtggac cgggaagaga aggtggactt caagagcatc 3120 ctgaaaatcc tgctgaacaa caagaacatc aacaaagagc agagcgacat cctgcggaag 3180 atccggaacg ccttcgatca caacaattac cccgacaaag gcgtggtgga aatcaaggcc 3240 ctgcctgaga tcgccatgag catcaagaag gcctttgggg agtacgccat catgaaggga 3300 tcccttcaat ga 3312 <210> 54 <211> 2934 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <220> <223> RxCas13d <400> 54 atgcctaaaa agaaaagaaa ggtgggttct ggtatcgaga agaagaagag cttcgccaag 60 ggcatgggag tgaagagcac cctggtgtcc ggctctaagg tgtacatgac cacatttgct 120 gagggaagcg acgccaggct ggagaagatc gtggagggcg atagcatcag atccgtgaac 180 gagggagagg ctttcagcgc cgagatggct gacaagaacg ctggctacaa gatcggaaac 240 gccaagtttt cccacccaaa gggctacgcc gtggtggcta acaacccact gtacaccgga 300 ccagtgcagc aggacatgct gggactgaag gagacactgg agaagaggta cttcggcgag 360 tccgccgacg gaaacgataa catctgcatc caggtcatcc acaacatcct ggatatcgag 420 aagatcctgg ctgagtacat cacaaacgcc gcttacgccg tgaacaacat ctccggcctg 480 gacaaggata tcatcggctt cggaaagttt tctaccgtgt acacatacga cgagttcaag 540 gatccagagc accaccgggc cgcttttaac aacaacgaca agctgatcaa cgccatcaag 600 gctcagtacg acgagttcga taactttctg gataacccca ggctgggcta cttcggacag 660 gctttctttt ctaaggaggg cagaaactac atcatcaact acggaaacga gtgttacgac 720 atcctggccc tgctgagcgg actgaggcac tgggtggtgc acaacaacga ggaggagtct 780 cggatcagcc gcacctggct gtacaacctg gacaagaacc tggataacga gtacatctcc 840 acactgaact acctgtacga caggatcacc aacgagctga caaacagctt ctccaagaac 900 tctgccgcta acgtgaacta catcgctgag accctgggca tcaacccagc tgagttcgct 960 gagcagtact tcagattttc catcatgaag gagcagaaga acctgggctt caacatcaca 1020 aagctgagag aagtgatgct ggacagaaag gatatgtccg agatcaggaa gaaccacaag 1080 gtgttcgatt ctatcagaac caaggtgtac acaatgatgg actttgtgat ctacaggtac 1140 tacatcgagg aggatgccaa ggtggccgct gccaacaaga gcctgcccga caacgagaag 1200 tctctgagcg agaaggatat cttcgtgatc aacctgagag gctcctttaa cgacgatcag 1260 aaggacgctc tgtactacga tgaggccaac aggatctgga gaaagctgga gaacatcatg 1320 cacaacatca aggagttccg gggaaacaag acccgcgagt acaagaagaa ggacgctcca 1380 aggctgccta ggatcctgcc tgctggaagg gacgtgagcg ccttcagcaa gctgatgtac 1440 gccctgacaa tgtttctgga cggaaaggag atcaacgatc tgctgaccac actgatcaac 1500 aagttcgaca acatccagtc ttttctgaaa gtgatgcctc tgatcggcgt gaacgctaag 1560 ttcgtggagg agtacgcctt ctttaaggac agcgccaaga tcgctgatga gctgcggctg 1620 atcaagtcct ttgccaggat gggagagcca atcgctgacg ctaggagagc tatgtacatc 1680 gatgccatcc ggatcctggg aaccaacctg tcttacgacg agctgaaggc tctggccgac 1740 accttcagcc tggatgagaa cggcaacaag ctgaagaagg gcaagcacgg aatgcgcaac 1800 ttcatcatca acaacgtgat cagcaacaag cggtttcact acctgatcag atacggcgac 1860 ccagctcacc tgcacgagat cgctaagaac gaggccgtgg tgaagttcgt gctgggacgg 1920 atcgccgata tccagaagaa gcagggccag aacggaaaga accagatcga ccgctactac 1980 gagacctgca tcggcaagga taagggaaag tccgtgtctg agaaggtgga cgctctgacc 2040 aagatcatca caggcatgaa ctacgaccag ttcgataaga agagatctgt gatcgaggac 2100 accggaaggg agaacgccga gagagagaag tttaagaaga tcatcagcct gtacctgaca 2160 gtgatctacc acatcctgaa gaacatcgtg aacatcaacg ctagatacgt gatcggcttc 2220 cactgcgtgg agcgcgatgc ccagctgtac aaggagaagg gatacgacat caacctgaag 2280 aagctggagg agaagggctt tagctccgtg accaagctgt gcgctggaat cgacgagaca 2340 gcccccgaca agaggaagga tgtggagaag gagatggccg agagagctaa ggagagcatc 2400 gactccctgg agtctgctaa ccctaagctg tacgccaact acatcaagta ctccgatgag 2460 aagaaggccg aggagttcac caggcagatc aacagagaga aggccaagac cgctctgaac 2520 gcctacctga ggaacacaaa gtggaacgtg atcatccggg aggacctgct gcgcatcgat 2580 aacaagacct gtacactgtt ccggaacaag gctgtgcacc tggaggtggc tcgctacgtg 2640 cacgcctaca tcaacgacat cgccgaggtg aactcctact ttcagctgta ccactacatc 2700 atgcagagga tcatcatgaa cgagagatac gagaagtcta gcggcaaggt gtctgagtac 2760 ttcgacgccg tgaacgatga gaagaagtac aacgatagac tgctgaagct gctgtgcgtg 2820 cctttcggat actgtatccc acggtttaag aacctgagca tcgaggccct gttcgaccgc 2880 aacgaggctg ccaagtttga taaggagaag aagaaggtga gcggcaactc ctga 2934 <210> 55 <211> 30 <212> DNA <213> Homo sapiens <400> 55 atggcccttc gcagctcttg cacgtcatac 30 <210> 56 <211> 30 <212> DNA <213> Homo sapiens <400> 56 ttaggcagcc ctcatcagtg ccggctccct 30 <210> 57 <211> 36 <212> RNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 57 gcuggagcag cccccgauuu guggggugau uacagc 36 <210> 58 <211> 36 <212> RNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 58 gcugaagaag ccuccgauuu gagaggugau uacagc 36 <210> 59 <211> 36 <212> RNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 59 gcugugauag accucgauuu gugggguagu aacagc 36 <210> 60 <211> 36 <212> RNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 60 gcugugauag accucgauuu gugggguagu aacagc 36 <210> 61 <211> 36 <212> RNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 61 gcugugauag accucgauuu gugggguagu aacagc 36 <210> 62 <211> 36 <212> RNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 62 gcugugaugg gccucaauuu guggggaagu aacagc 36 <210> 63 <211> 36 <212> RNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 63 gcugugauag gccucgauuu gugggguagu aacagc 36 <210> 64 <211> 40 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 64 ccttccccga gggcttcaag taggagcgcg tgatgaactt 40 <210> 65 <211> 40 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 65 ccttccccga gggcttcaag taggagcgcg tgatgaactt 40 <210> 66 <211> 40 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 66 ccttccccga gggcttcaag tgggagcgcg tgatgaactt 40 <210> 67 <211> 2 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 67 Gly Ser 1 <210> 68 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 68 Gly Ser Gly Gly Gly Gly Ser 1 5 <210> 69 <211> 15 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 69 Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser 1 5 10 15 <210> 70 <211> 336 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polypeptide <400> 70 Ser Leu Gly Thr Gly Asn Arg Cys Val Lys Gly Asp Ser Leu Ser Leu 1 5 10 15 Lys Gly Glu Thr Val Asn Asp Cys His Ala Glu Ile Ile Ser Arg Arg 20 25 30 Gly Phe Ile Arg Phe Leu Tyr Ser Glu Leu Met Lys Tyr Asn Ser Gln 35 40 45 Thr Ala Lys Asp Ser Ile Phe Glu Pro Ala Lys Gly Gly Glu Lys Leu 50 55 60 Gln Ile Lys Lys Thr Val Ser Phe His Leu Tyr Ile Ser Thr Ala Pro 65 70 75 80 Cys Gly Asp Gly Ala Leu Phe Asp Lys Ser Cys Ser Asp Arg Ala Met 85 90 95 Glu Ser Thr Glu Ser Arg His Tyr Pro Val Phe Glu Asn Pro Lys Gln 100 105 110 Gly Lys Leu Arg Thr Lys Val Glu Asn Gly Glu Gly Thr Ile Pro Val 115 120 125 Glu Ser Ser Asp Ile Val Pro Thr Trp Asp Gly Ile Arg Leu Gly Glu 130 135 140 Arg Leu Arg Thr Met Ser Cys Ser Asp Lys Ile Leu Arg Trp Asn Val 145 150 155 160 Leu Gly Leu Gln Gly Ala Leu Leu Thr His Phe Leu Gln Pro Ile Tyr 165 170 175 Leu Lys Ser Val Thr Leu Gly Tyr Leu Phe Ser Gln Gly His Leu Thr 180 185 190 Arg Ala Ile Cys Cys Arg Val Thr Arg Asp Gly Ser Ala Phe Glu Asp 195 200 205 Gly Leu Arg His Pro Phe Ile Val Asn His Pro Lys Val Gly Arg Val 210 215 220 Ser Ile Tyr Asp Ser Lys Arg Gln Ser Gly Lys Thr Lys Glu Thr Ser 225 230 235 240 Val Asn Trp Cys Leu Ala Asp Gly Tyr Asp Leu Glu Ile Leu Asp Gly 245 250 255 Thr Arg Gly Thr Val Asp Gly Pro Arg Asn Glu Leu Ser Arg Val Ser 260 265 270 Lys Lys Asn Ile Phe Leu Leu Phe Lys Lys Leu Cys Ser Phe Arg Tyr 275 280 285 Arg Arg Asp Leu Leu Arg Leu Ser Tyr Gly Glu Ala Lys Lys Ala Ala 290 295 300 Arg Asp Tyr Glu Thr Ala Lys Asn Tyr Phe Lys Lys Gly Leu Lys Asp 305 310 315 320 Met Gly Tyr Gly Asn Trp Ile Ser Lys Pro Gln Glu Glu Lys Asn Phe 325 330 335 <210> 71 <211> 336 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polypeptide <400> 71 Ser Leu Gly Thr Gly Asn Arg Cys Val Lys Gly Asp Ser Leu Ser Leu 1 5 10 15 Lys Gly Glu Thr Val Asn Asp Cys His Ala Glu Ile Ile Ser Arg Arg 20 25 30 Gly Phe Ile Arg Phe Leu Tyr Ser Glu Leu Met Lys Tyr Asn Ser Gln 35 40 45 Thr Ala Lys Asp Ser Ile Phe Glu Pro Ala Lys Gly Gly Glu Lys Leu 50 55 60 Gln Ile Lys Lys Thr Val Ser Phe His Leu Tyr Ile Ser Thr Ala Pro 65 70 75 80 Cys Gly Asp Gly Ala Leu Phe Asp Lys Ser Cys Ser Asp Arg Ala Met 85 90 95 Glu Ser Thr Glu Ser Arg His Tyr Pro Val Phe Glu Asn Pro Lys Gln 100 105 110 Gly Lys Leu Arg Thr Lys Val Glu Asn Gly Gln Gly Thr Ile Pro Val 115 120 125 Glu Ser Ser Asp Ile Val Pro Thr Trp Asp Gly Ile Arg Leu Gly Glu 130 135 140 Arg Leu Arg Thr Met Ser Cys Ser Asp Lys Ile Leu Arg Trp Asn Val 145 150 155 160 Leu Gly Leu Gln Gly Ala Leu Leu Thr His Phe Leu Gln Pro Ile Tyr 165 170 175 Leu Lys Ser Val Thr Leu Gly Tyr Leu Phe Ser Gln Gly His Leu Thr 180 185 190 Arg Ala Ile Cys Cys Arg Val Thr Arg Asp Gly Ser Ala Phe Glu Asp 195 200 205 Gly Leu Arg His Pro Phe Ile Val Asn His Pro Lys Val Gly Arg Val 210 215 220 Ser Ile Tyr Asp Ser Lys Arg Gln Ser Gly Lys Thr Lys Glu Thr Ser 225 230 235 240 Val Asn Trp Cys Leu Ala Asp Gly Tyr Asp Leu Glu Ile Leu Asp Gly 245 250 255 Thr Arg Gly Thr Val Asp Gly Pro Arg Asn Glu Leu Ser Arg Val Ser 260 265 270 Lys Lys Asn Ile Phe Leu Leu Phe Lys Lys Leu Cys Ser Phe Arg Tyr 275 280 285 Arg Arg Asp Leu Leu Arg Leu Ser Tyr Gly Glu Ala Lys Lys Ala Ala 290 295 300 Arg Asp Tyr Glu Thr Ala Lys Asn Tyr Phe Lys Lys Gly Leu Lys Asp 305 310 315 320 Met Gly Tyr Gly Asn Trp Ile Ser Lys Pro Gln Glu Glu Lys Asn Phe 325 330 335 <210> 72 <211> 385 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polypeptide <400> 72 Gln Leu His Leu Pro Gln Val Leu Ala Asp Ala Val Ser Arg Leu Val 1 5 10 15 Leu Gly Lys Phe Gly Asp Leu Thr Asp Asn Phe Ser Ser Pro His Ala 20 25 30 Arg Arg Lys Val Leu Ala Gly Val Val Met Thr Thr Gly Thr Asp Val 35 40 45 Lys Asp Ala Lys Val Ile Ser Val Ser Thr Gly Thr Lys Cys Ile Asn 50 55 60 Gly Glu Tyr Met Ser Asp Arg Gly Leu Ala Leu Asn Asp Cys His Ala 65 70 75 80 Glu Ile Ile Ser Arg Arg Ser Leu Leu Arg Phe Leu Tyr Thr Gln Leu 85 90 95 Glu Leu Tyr Leu Asn Asn Lys Asp Asp Gln Lys Arg Ser Ile Phe Gln 100 105 110 Lys Ser Glu Arg Gly Gly Phe Arg Leu Lys Glu Asn Val Gln Phe His 115 120 125 Leu Tyr Ile Ser Thr Ser Pro Cys Gly Asp Ala Arg Ile Phe Ser Pro 130 135 140 His Glu Pro Ile Leu Glu Glu Pro Ala Asp Arg His Pro Asn Arg Lys 145 150 155 160 Ala Arg Gly Gln Leu Arg Thr Lys Ile Glu Ser Gly Glu Gly Thr Ile 165 170 175 Pro Val Arg Ser Asn Ala Ser Ile Gln Thr Trp Asp Gly Val Leu Gln 180 185 190 Gly Glu Arg Leu Leu Thr Met Ser Cys Ser Asp Lys Ile Ala Arg Trp 195 200 205 Asn Val Val Gly Ile Gln Gly Ser Leu Leu Ser Ile Phe Val Glu Pro 210 215 220 Ile Tyr Phe Ser Ser Ile Ile Leu Gly Ser Leu Tyr His Gly Asp His 225 230 235 240 Leu Ser Arg Ala Met Tyr Gln Arg Ile Ser Asn Ile Glu Asp Leu Pro 245 250 255 Pro Leu Tyr Thr Leu Asn Lys Pro Leu Leu Ser Gly Ile Ser Asn Ala 260 265 270 Glu Ala Arg Gln Pro Gly Lys Ala Pro Asn Phe Ser Val Asn Trp Thr 275 280 285 Val Gly Asp Ser Ala Ile Glu Val Ile Asn Ala Thr Thr Gly Lys Asp 290 295 300 Glu Leu Gly Arg Ala Ser Arg Leu Cys Lys His Ala Leu Tyr Cys Arg 305 310 315 320 Trp Met Arg Val His Gly Lys Val Pro Ser His Leu Leu Arg Ser Lys 325 330 335 Ile Thr Lys Pro Asn Val Tyr His Glu Ser Lys Leu Ala Ala Lys Glu 340 345 350 Tyr Gln Ala Ala Lys Ala Arg Leu Phe Thr Ala Phe Ile Lys Ala Gly 355 360 365 Leu Gly Ala Trp Val Glu Lys Pro Thr Glu Gln Asp Gln Phe Ser Leu 370 375 380 Thr 385 <210> 73 <211> 385 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polypeptide <400> 73 Gln Leu His Leu Pro Gln Val Leu Ala Asp Ala Val Ser Arg Leu Val 1 5 10 15 Leu Gly Lys Phe Gly Asp Leu Thr Asp Asn Phe Ser Ser Pro His Ala 20 25 30 Arg Arg Lys Val Leu Ala Gly Val Val Met Thr Thr Gly Thr Asp Val 35 40 45 Lys Asp Ala Lys Val Ile Ser Val Ser Thr Gly Thr Lys Cys Ile Asn 50 55 60 Gly Glu Tyr Met Ser Asp Arg Gly Leu Ala Leu Asn Asp Cys His Ala 65 70 75 80 Glu Ile Ile Ser Arg Arg Ser Leu Leu Arg Phe Leu Tyr Thr Gln Leu 85 90 95 Glu Leu Tyr Leu Asn Asn Lys Asp Asp Gln Lys Arg Ser Ile Phe Gln 100 105 110 Lys Ser Glu Arg Gly Gly Phe Arg Leu Lys Glu Asn Val Gln Phe His 115 120 125 Leu Tyr Ile Ser Thr Ser Pro Cys Gly Asp Ala Arg Ile Phe Ser Pro 130 135 140 His Glu Pro Ile Leu Glu Glu Pro Ala Asp Arg His Pro Asn Arg Lys 145 150 155 160 Ala Arg Gly Gln Leu Arg Thr Lys Ile Glu Ser Gly Gln Gly Thr Ile 165 170 175 Pro Val Arg Ser Asn Ala Ser Ile Gln Thr Trp Asp Gly Val Leu Gln 180 185 190 Gly Glu Arg Leu Leu Thr Met Ser Cys Ser Asp Lys Ile Ala Arg Trp 195 200 205 Asn Val Val Gly Ile Gln Gly Ser Leu Leu Ser Ile Phe Val Glu Pro 210 215 220 Ile Tyr Phe Ser Ser Ile Ile Leu Gly Ser Leu Tyr His Gly Asp His 225 230 235 240 Leu Ser Arg Ala Met Tyr Gln Arg Ile Ser Asn Ile Glu Asp Leu Pro 245 250 255 Pro Leu Tyr Thr Leu Asn Lys Pro Leu Leu Ser Gly Ile Ser Asn Ala 260 265 270 Glu Ala Arg Gln Pro Gly Lys Ala Pro Asn Phe Ser Val Asn Trp Thr 275 280 285 Val Gly Asp Ser Ala Ile Glu Val Ile Asn Ala Thr Thr Gly Lys Asp 290 295 300 Glu Leu Gly Arg Ala Ser Arg Leu Cys Lys His Ala Leu Tyr Cys Arg 305 310 315 320 Trp Met Arg Val His Gly Lys Val Pro Ser His Leu Leu Arg Ser Lys 325 330 335 Ile Thr Lys Pro Asn Val Tyr His Glu Ser Lys Leu Ala Ala Lys Glu 340 345 350 Tyr Gln Ala Ala Lys Ala Arg Leu Phe Thr Ala Phe Ile Lys Ala Gly 355 360 365 Leu Gly Ala Trp Val Glu Lys Pro Thr Glu Gln Asp Gln Phe Ser Leu 370 375 380 Thr 385 <210> 74 <211> 198 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polypeptide <400> 74 Met Asp Ser Leu Leu Met Asn Arg Arg Lys Phe Leu Tyr Gln Phe Lys 1 5 10 15 Asn Val Arg Trp Ala Lys Gly Arg Arg Glu Thr Tyr Leu Cys Tyr Val 20 25 30 Val Lys Arg Arg Asp Ser Ala Thr Ser Phe Ser Leu Asp Phe Gly Tyr 35 40 45 Leu Arg Asn Lys Asn Gly Cys His Val Glu Leu Leu Phe Leu Arg Tyr 50 55 60 Ile Ser Asp Trp Asp Leu Asp Pro Gly Arg Cys Tyr Arg Val Thr Trp 65 70 75 80 Phe Thr Ser Trp Ser Pro Cys Tyr Asp Cys Ala Arg His Val Ala Asp 85 90 95 Phe Leu Arg Gly Asn Pro Asn Leu Ser Leu Arg Ile Phe Thr Ala Arg 100 105 110 Leu Tyr Phe Cys Glu Asp Arg Lys Ala Glu Pro Glu Gly Leu Arg Arg 115 120 125 Leu His Arg Ala Gly Val Gln Ile Ala Ile Met Thr Phe Lys Asp Tyr 130 135 140 Phe Tyr Cys Trp Asn Thr Phe Val Glu Asn His Glu Arg Thr Phe Lys 145 150 155 160 Ala Trp Glu Gly Leu His Glu Asn Ser Val Arg Leu Ser Arg Gln Leu 165 170 175 Arg Arg Ile Leu Leu Pro Leu Tyr Glu Val Asp Asp Leu Arg Asp Ala 180 185 190 Phe Arg Thr Leu Gly Leu 195 <210> 75 <211> 208 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polypeptide <400> 75 Met Thr Asp Ala Glu Tyr Val Arg Ile His Glu Lys Leu Asp Ile Tyr 1 5 10 15 Thr Phe Lys Lys Gln Phe Phe Asn Asn Lys Lys Ser Val Ser His Arg 20 25 30 Cys Tyr Val Leu Phe Glu Leu Lys Arg Arg Gly Glu Arg Arg Ala Cys 35 40 45 Phe Trp Gly Tyr Ala Val Asn Lys Pro Gln Ser Gly Thr Glu Arg Gly 50 55 60 Ile His Ala Glu Ile Phe Ser Ile Arg Lys Val Glu Glu Tyr Leu Arg 65 70 75 80 Asp Asn Pro Gly Gln Phe Thr Ile Asn Trp Tyr Ser Ser Trp Ser Pro 85 90 95 Cys Ala Asp Cys Ala Glu Lys Ile Leu Glu Trp Tyr Asn Gln Glu Leu 100 105 110 Arg Gly Asn Gly His Thr Leu Lys Ile Trp Ala Cys Lys Leu Tyr Tyr 115 120 125 Glu Lys Asn Ala Arg Asn Gln Ile Gly Leu Trp Asn Leu Arg Asp Asn 130 135 140 Gly Val Gly Leu Asn Val Met Val Ser Glu His Tyr Gln Cys Cys Arg 145 150 155 160 Lys Ile Phe Ile Gln Ser Ser His Asn Gln Leu Asn Glu Asn Arg Trp 165 170 175 Leu Glu Lys Thr Leu Lys Arg Ala Glu Lys Arg Arg Ser Glu Leu Ser 180 185 190 Ile Met Ile Gln Val Lys Ile Leu His Thr Thr Lys Ser Pro Ala Val 195 200 205 <210> 76 <211> 229 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polypeptide <400> 76 Met Ser Ser Glu Thr Gly Pro Val Ala Val Asp Pro Thr Leu Arg Arg 1 5 10 15 Arg Ile Glu Pro His Glu Phe Glu Val Phe Phe Asp Pro Arg Glu Leu 20 25 30 Arg Lys Glu Thr Cys Leu Leu Tyr Glu Ile Asn Trp Gly Gly Arg His 35 40 45 Ser Ile Trp Arg His Thr Ser Gln Asn Thr Asn Lys His Val Glu Val 50 55 60 Asn Phe Ile Glu Lys Phe Thr Thr Glu Arg Tyr Phe Cys Pro Asn Thr 65 70 75 80 Arg Cys Ser Ile Thr Trp Phe Leu Ser Trp Ser Pro Cys Gly Glu Cys 85 90 95 Ser Arg Ala Ile Thr Glu Phe Leu Ser Arg Tyr Pro His Val Thr Leu 100 105 110 Phe Ile Tyr Ile Ala Arg Leu Tyr His His Ala Asp Pro Arg Asn Arg 115 120 125 Gln Gly Leu Arg Asp Leu Ile Ser Ser Gly Val Thr Ile Gln Ile Met 130 135 140 Thr Glu Gln Glu Ser Gly Tyr Cys Trp Arg Asn Phe Val Asn Tyr Ser 145 150 155 160 Pro Ser Asn Glu Ala His Trp Pro Arg Tyr Pro His Leu Trp Val Arg 165 170 175 Leu Tyr Val Leu Glu Leu Tyr Cys Ile Ile Leu Gly Leu Pro Pro Cys 180 185 190 Leu Asn Ile Leu Arg Arg Lys Gln Pro Gln Leu Thr Phe Phe Thr Ile 195 200 205 Ala Leu Gln Ser Cys His Tyr Gln Arg Leu Pro Pro His Ile Leu Trp 210 215 220 Ala Thr Gly Leu Lys 225 <210> 77 <211> 7 <212> PRT <213> Simian virus 40 <400> 77 Pro Lys Lys Lys Arg Lys Val 1 5 <210> 78 <211> 16 <212> PRT <213> Unknown <220> <223> Description of Unknown: Nucleoplasmin bipartite NLS sequence <400> 78 Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys Lys Lys 1 5 10 15 <210> 79 <211> 9 <212> PRT <213> Unknown <220> <223> Description of Unknown: C-myc NLS sequence <400> 79 Pro Ala Ala Lys Arg Val Lys Leu Asp 1 5 <210> 80 <211> 11 <212> PRT <213> Unknown <220> <223> Description of Unknown: C-myc NLS sequence <400> 80 Arg Gln Arg Arg Asn Glu Leu Lys Arg Ser Pro 1 5 10 <210> 81 <211> 38 <212> PRT <213> Homo sapiens <400> 81 Asn Gln Ser Ser Asn Phe Gly Pro Met Lys Gly Gly Asn Phe Gly Gly 1 5 10 15 Arg Ser Ser Gly Pro Tyr Gly Gly Gly Gly Gln Tyr Phe Ala Lys Pro 20 25 30 Arg Asn Gln Gly Gly Tyr 35 <210> 82 <211> 42 <212> PRT <213> Unknown <220> <223> Description of Unknown: IBB domain from importin-alpha sequence <400> 82 Arg Met Arg Ile Glx Phe Lys Asn Lys Gly Lys Asp Thr Ala Glu Leu 1 5 10 15 Arg Arg Arg Arg Val Glu Val Ser Val Glu Leu Arg Lys Ala Lys Lys 20 25 30 Asp Glu Gln Ile Leu Lys Arg Arg Asn Val 35 40 <210> 83 <211> 8 <212> PRT <213> Unknown <220> <223> Description of Unknown: Myoma T protein sequence <400> 83 Val Ser Arg Lys Arg Pro Arg Pro 1 5 <210> 84 <211> 8 <212> PRT <213> Unknown <220> <223> Description of Unknown: Myoma T protein sequence <400> 84 Pro Pro Lys Lys Ala Arg Glu Asp 1 5 <210> 85 <211> 8 <212> PRT <213> Homo sapiens <400> 85 Pro Gln Pro Lys Lys Lys Pro Leu 1 5 <210> 86 <211> 12 <212> PRT <213> Mus musculus <400> 86 Ser Ala Leu Ile Lys Lys Lys Lys Lys Met Ala Pro 1 5 10 <210> 87 <211> 5 <212> PRT <213> Influenza virus <400> 87 Asp Arg Leu Arg Arg 1 5 <210> 88 <211> 7 <212> PRT <213> Influenza virus <400> 88 Pro Lys Gln Lys Lys Arg Lys 1 5 <210> 89 <211> 10 <212> PRT <213> Hepatitis delta virus <400> 89 Arg Lys Leu Lys Lys Lys Ile Lys Lys Leu 1 5 10 <210> 90 <211> 10 <212> PRT <213> Mus musculus <400> 90 Arg Glu Lys Lys Lys Phe Leu Lys Arg Arg 1 5 10 <210> 91 <211> 20 <212> PRT <213> Homo sapiens <400> 91 Lys Arg Lys Gly Asp Glu Val Asp Gly Val Asp Glu Val Ala Lys Lys 1 5 10 15 Lys Ser Lys Lys 20 <210> 92 <211> 17 <212> PRT <213> Homo sapiens <400> 92 Arg Lys Cys Leu Gln Ala Gly Met Asn Leu Glu Ala Arg Lys Thr Lys 1 5 10 15 Lys <210> 93 <211> 36 <212> RNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 93 ggcccaacau gaggaucacc caugucugca ggggcc 36 <210> 94 <211> 29 <212> RNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 94 ggcccaugcu gucuaagaca gcaugggcc 29 <210> 95 <211> 34 <212> RNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 95 ggcccuaagg guuuauaugg aaacccuuag ggcc 34 <210> 96 <211> 130 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polypeptide <400> 96 Met Ala Ser Asn Phe Thr Gln Phe Val Leu Val Asp Asn Gly Gly Thr 1 5 10 15 Gly Asp Val Thr Val Ala Pro Ser Asn Phe Ala Asn Gly Val Ala Glu 20 25 30 Trp Ile Ser Ser Asn Ser Arg Ser Gln Ala Tyr Lys Val Thr Cys Ser 35 40 45 Val Arg Gln Ser Ser Ala Gln Lys Arg Lys Tyr Thr Ile Lys Val Glu 50 55 60 Val Pro Lys Val Ala Thr Gln Thr Val Gly Gly Val Glu Leu Pro Val 65 70 75 80 Ala Ala Trp Arg Ser Tyr Leu Asn Met Glu Leu Thr Ile Pro Ile Phe 85 90 95 Ala Thr Asn Ser Asp Cys Glu Leu Ile Val Lys Ala Met Gln Gly Leu 100 105 110 Leu Lys Asp Gly Asn Pro Ile Pro Ser Ala Ile Ala Ala Asn Ser Gly 115 120 125 Ile Tyr 130 <210> 97 <211> 133 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polypeptide <400> 97 Met Ala Lys Leu Glu Thr Val Thr Leu Gly Asn Ile Gly Lys Asp Gly 1 5 10 15 Lys Gln Thr Leu Val Leu Asn Pro Arg Gly Val Asn Pro Thr Asn Gly 20 25 30 Val Ala Ser Leu Ser Gln Ala Gly Ala Val Pro Ala Leu Glu Lys Arg 35 40 45 Val Thr Val Ser Val Ser Gln Pro Ser Arg Asn Arg Lys Asn Tyr Lys 50 55 60 Val Gln Val Lys Ile Gln Asn Pro Thr Ala Cys Thr Ala Asn Gly Ser 65 70 75 80 Cys Asp Pro Ser Val Thr Arg Gln Ala Tyr Ala Asp Val Thr Phe Ser 85 90 95 Phe Thr Gln Tyr Ser Thr Asp Glu Glu Arg Ala Phe Val Arg Thr Glu 100 105 110 Leu Ala Ala Leu Leu Ala Ser Pro Leu Leu Ile Asp Ala Ile Asp Gln 115 120 125 Leu Asn Pro Ala Tyr 130 <210> 98 <211> 128 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polypeptide <400> 98 Met Ser Lys Thr Ile Val Leu Ser Val Gly Glu Ala Thr Arg Thr Leu 1 5 10 15 Thr Glu Ile Gln Ser Thr Ala Asp Arg Gln Ile Phe Glu Glu Lys Val 20 25 30 Gly Pro Leu Val Gly Arg Leu Arg Leu Thr Ala Ser Leu Arg Gln Asn 35 40 45 Gly Ala Lys Thr Ala Tyr Arg Val Asn Leu Lys Leu Asp Gln Ala Asp 50 55 60 Val Val Asp Cys Ser Thr Ser Val Cys Gly Glu Leu Pro Lys Val Arg 65 70 75 80 Tyr Thr Gln Val Trp Ser His Asp Val Thr Ile Val Ala Asn Ser Thr 85 90 95 Glu Ala Ser Arg Lys Ser Leu Tyr Asp Leu Thr Lys Ser Leu Val Val 100 105 110 Gln Ala Thr Ser Glu Asp Leu Val Val Asn Leu Val Pro Leu Gly Arg 115 120 125

Claims

(1) 표적 RNA에 혼성화할 수 있는 스페이서 서열, 및 스페이서 서열에 대해 3'인 직접 반복(DR) 서열을 포함하는 RNA 가이드 서열; 및,
(2) a) 서열번호 2 내지 7 중 어느 하나의 아미노산 서열; 또는
b) 서열번호 2 내지 7 중 어느 하나의 아미노산 서열에 대해 적어도 90% 동일한 아미노산 서열
을 갖는, CRISPR-연관 단백질(Cas)
을 포함하는 군집된 규칙적인 간격의 짧은 회문 반복부(CRISPR)-Cas 복합체로서,
여기서
a) 서열번호 2 내지 7 중 어느 하나의 아미노산 서열; 및
b) 서열번호 2 내지 7 중 어느 하나의 아미노산 서열에 대해 적어도 90% 동일한 아미노산 서열
은 (i) RNA 가이드 서열에 결합하고 (ii) 표적 RNA를 표적화할 수 있되,
단, 상기 복합체가 서열번호 2 내지 7 중 어느 하나의 Cas 아미노산 서열을 포함할 때 스페이서 서열은 천연 발생 박테리오파지 핵산에 100% 상보적이지 않은, CRISPR-Cas 복합체.
제1항에 있어서, 상기 DR 서열은 서열번호 8 내지 14 중 어느 하나의 상보 서열에 의해 코딩되는 DR 서열의 이차 구조와 실질적으로 동일한 이차 구조를 갖는, CRISPR-Cas 복합체.
제1항에 있어서, 상기 DR 서열은 서열번호 8 내지 14 중 어느 하나의 상보 서열에 의해 코딩되는, CRISPR-Cas 복합체.
제1항에 있어서, 상기 표적 RNA는 진핵생물 DNA에 의해 코딩되는, CRISPR-Cas 복합체.
제4항에 있어서, 상기 진핵생물 DNA는 비-인간 포유동물 DNA, 비-인간 영장류 DNA, 인간 DNA, 식물 DNA, 곤충 DNA, 조류 DNA, 파충류 DNA, 설치류 DNA, 어류 DNA, 벌레/선충류 DNA, 또는 효모 DNA인, CRISPR-Cas 복합체.
제1항에 있어서, 상기 표적 RNA는 mRNA인, CRISPR-Cas 복합체.
제1항에 있어서, 상기 스페이서 서열은 15 내지 60개의 뉴클레오티드, 25 내지 50개의 뉴클레오티드, 또는 30개의 뉴클레오티드인, CRISPR-Cas 복합체.
제1항에 있어서, 상기 스페이서 서열은 상기 표적 RNA에 대해 90 내지 100% 상보적인, CRISPR-Cas 복합체.
제1항에 있어서, 서열번호 2 내지 7 중 어느 하나의 아미노산 서열에 대해 적어도 90% 동일한 아미노산 서열은 서열번호 2 내지 7 중 어느 하나의 하나 이상의 잔기의 보존된 아미노산 치환을 포함하는, CRISPR-Cas 복합체.
제9항에 있어서, 서열번호 2 내지 7 중 어느 하나의 아미노산 서열에 대해 적어도 90% 동일한 아미노산 서열은 보존된 아미노산 치환만을 포함하는, CRISPR-Cas 복합체.
제1항에 있어서, 서열번호 2 내지 7 중 어느 하나의 아미노산 서열에 대해 적어도 90% 동일한 아미노산 서열은 HEPN 도메인 또는 RXXXXH 모티프에서 서열번호 2 내지 7 중 어느 하나의 야생형 Cas와 동일한 서열을 갖는, CRISPR-Cas 복합체.
제1항에 있어서, 서열번호 2 내지 7 중 어느 하나의 아미노산 서열에 대해 적어도 90% 동일한 아미노산 서열은 RNA 가이드 서열이 표적 RNA에 혼성화될 때 상기 RNA 가이드 서열에 결합할 수 있고, 서열번호 2 내지 7 중 어느 하나의 아미노산 서열에 대해 적어도 90% 동일한 아미노산 서열은 상기 Cas의 RNase 촉매 부위의 돌연변이로 인해 RNase 촉매 활성이 없는, CRISPR-Cas 복합체.
제12항에 있어서, 서열번호 2 내지 7 중 어느 하나의 아미노산 서열에 대해 적어도 90% 동일한 아미노산 서열은 RNA 메틸트랜스퍼라제, RNA 데메틸라제, RNA 스플라이싱 변형자, 국소화 인자, 또는 번역 변형 인자에 융합된, CRISPR-Cas 복합체.
제1항에 있어서,
a) 서열번호 2 내지 7 중 어느 하나의 아미노산 서열; 또는
b) 서열번호 2 내지 7 중 어느 하나의 아미노산 서열에 대해 적어도 90% 동일한 아미노산 서열
은 핵 국소화 신호(NLS) 서열 또는 핵 수출 신호(NES)에 융합된, CRISPR-Cas 복합체.
제1항에 있어서, 상기 표적 RNA의 표적화는 상기 표적 RNA의 변형을 초래하는, CRISPR-Cas 복합체.
제15항에 있어서, 상기 표적 RNA의 변형은 상기 표적 RNA의 절단인, CRISPR-Cas 복합체.
제15항에 있어서, 상기 표적 RNA의 변형은 아데노신(A)의 이노신(I)으로의 탈아미노화인, CRISPR-Cas 복합체.
제1항에 있어서, 상기 스페이서 서열에 혼성화할 수 있는 서열을 포함하는 표적 RNA를 추가로 포함하는, CRISPR-Cas 복합체.
(1) a) 서열번호 2 내지 7 중 어느 하나의 아미노산 서열; 또는
b) 서열번호 2 내지 7 중 어느 하나의 아미노산 서열에 대해 적어도 90% 동일한 아미노산 서열
을 갖는, CRISPR-연관 단백질(Cas); 및
(2) 이종 기능적 도메인
을 포함하는, 융합 단백질.
제19항에 있어서, 상기 이종 기능적 도메인은 핵 국소화 신호(NLS), 리포터 단백질, 검출 표지, 국소화 신호, 단백질 표적화 모이어티, DNA 결합 도메인, 에피토프 태그, 전사 활성화 도메인, 전사 억제 도메인, 뉴클레아제, 탈아미노화 도메인, 메틸라제, 데메틸라제, 전사 방출 인자, HDAC, ssRNA 절단 활성을 갖는 폴리펩티드, dsRNA 절단 활성을 갖는 폴리펩티드, ssDNA 절단 활성을 갖는 폴리펩티드, dsDNA 절단 활성을 갖는 폴리펩티드, DNA 리가제, 또는 RNA 리가제, 또는 이들의 임의의 조합을 포함하는, 융합 단백질.
표적 RNA를 제1항의 CRISPR-Cas 복합체와 접촉시키는 단계를 포함하는, 표적 RNA를 변형시키는 생체 외 또는 시험관 내 방법으로서, 여기서 스페이서 서열은 표적 RNA의 적어도 15개의 뉴클레오티드에 상보적이며;
여기서
a) 서열번호 2 내지 7 중 어느 하나의 아미노산 서열; 또는
b) 서열번호 2 내지 7 중 어느 하나의 아미노산 서열에 대해 적어도 90% 동일한 아미노산 서열
은 RNA 가이드 서열과 회합하여 복합체를 형성하고; 여기서 복합체는 표적 RNA에 결합하고; 복합체가 표적 RNA에 결합하면,
a) 서열번호 2 내지 7 중 어느 하나의 아미노산 서열; 또는
b) 서열번호 2 내지 7 중 어느 하나의 아미노산 서열에 대해 적어도 90% 동일한 아미노산 서열
이 상기 표적 RNA를 변형시키는, 방법.
제21항에 있어서, 상기 표적 RNA는 서열번호 2 내지 7 중 어느 하나의 아미노산 서열에 대해 적어도 90% 동일한 아미노산 서열에 융합된 이중-가닥 RNA-특이적 아데노신 데아미나제에 의한 탈아미노화에 의해 변형되는, 방법.
제21항에 있어서, 상기 표적 RNA는 mRNA, tRNA, rRNA, 비-코딩 RNA, lncRNA, 또는 핵 RNA인, 방법.
(1) 표적 RNA에 혼성화할 수 있는 스페이서 서열, 및 스페이서 서열에 대해 3'인 직접 반복(DR) 서열을 포함하는 RNA 가이드 서열; 및,
(2) a) 서열번호 2 내지 7 중 어느 하나의 아미노산 서열; 또는
b) 서열번호 2 내지 7 중 어느 하나의 아미노산 서열에 대해 적어도 90% 동일한 아미노산 서열
을 갖는, CRISPR-연관 단백질(Cas)
을 포함하는, 군집된 규칙적인 간격의 짧은 회문 반복부(CRISPR)-Cas 복합체를 포함하는 단리된 진핵세포로서;
여기서
a) 서열번호 2 내지 7 중 어느 하나의 아미노산 서열; 및
b) 서열번호 2 내지 7 중 어느 하나의 아미노산 서열에 대해 적어도 90% 동일한 아미노산 서열
은 (i) RNA 가이드 서열에 결합하고 (ii) 표적 RNA를 표적화할 수 있는, 단리된 진핵세포.
표적 RNA를 변형시키기 위한 키트 또는 작용제의 제조에 사용하기 위한 제1항의 CRISPR-Cas 복합체이며, 여기서 스페이서 서열은 표적 RNA의 적어도 15개의 뉴클레오티드에 상보적이고;
여기서
a) 서열번호 2 내지 7 중 어느 하나의 아미노산 서열; 또는
b) 서열번호 2 내지 7 중 어느 하나의 아미노산 서열에 대해 적어도 90% 동일한 아미노산 서열은
RNA 가이드 서열과 회합하여 복합체를 형성하고; 여기서 복합체는 표적 RNA에 결합하고; 복합체가 표적 RNA에 결합하면,
a) 서열번호 2 내지 7 중 어느 하나의 아미노산 서열; 또는
b) 서열번호 2 내지 7 중 어느 하나의 아미노산 서열에 대해 적어도 90% 동일한 아미노산 서열
이 표적 RNA를 변형시키는, CRISPR-Cas 복합체.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제