KR20200039775A

KR20200039775A - 뉴클레오타이드 표적 인식을 이용한 표적 서열 특이적 개변 기술

Info

Publication number: KR20200039775A
Application number: KR1020207007763A
Authority: KR
Inventors: 게이시 오사카베; 유리코 오사카베
Original assignee: 토쿠시마 대학
Priority date: 2017-08-21
Filing date: 2018-08-20
Publication date: 2020-04-16
Also published as: KR102626503B1; US20210363520A1; CN111247247A; JPWO2019039417A1; WO2019039417A1; MX2020001998A; NZ762361A; AU2018321021B2; SG11202001471SA; CA3073372A1; EP3674404A4; JP2022009293A; BR112020003439A2; AU2018321021A1; IL272688A; JP7017259B2; JP7054283B2; EP3674404A1

Abstract

표적 뉴클레오타이드 서열을 표적화하는 방법으로서, 세포 중에, (i) CRISPR 타입 I-D 관련 단백질 Cas5d, Cas6d 및 Cas7d, 또는 이들 단백질을 인코딩하는 핵산, 및 (ii) 상기 표적 뉴클레오타이드 서열에 상보적인 서열 및 해당 서열의 전후에 CRISPR 유전자자리에서 유래하는 공통 반복 서열을 포함하는 가이드 RNA, 또는 해당 가이드 RNA를 인코딩하는 DNA를 도입하는 것을 포함하는 방법 등이 제공된다.

Description

뉴클레오타이드 표적 인식을 이용한 표적 서열 특이적 개변 기술

본 발명은, CRISPR(Clustered Regularly Interspaced Short Palindromic Repeats) 타입 I-D 시스템의 뉴클레오타이드 표적 인식을 이용한, 표적 뉴클레오타이드 서열을 표적화하는 방법, 표적 뉴클레오타이드 서열을 특이적으로 개변하는 방법, 표적 유전자의 발현을 억제하는 방법, 및 해당 방법에 이용되는 Cas(CRISPR-associated(CRISPR 관련)) 단백질 및 가이드 RNA를 포함하는 복합체에 관한 것이다.

세균 및 고세균은, 바이러스 및 이종의 외래 플라스미드에 대한 적응 면역 기구로서 CRISPR 시스템을 갖고 있다. CRISPR 시스템은, 침입하는 DNA 서열에 대해서 상보성을 갖는 저분자의 RNA(가이드 RNA 또는 gRNA라고 칭한다)를 이용하여, 표적이 되는 외래 DNA에 대해서 타게팅과 분해를 촉진한다. 이 때, gRNA와 결합하여 복합체를 형성하는 Cas 단백질이 필요하다. CRISPR 시스템에는, 타입 I, 타입 II, 타입 III 및 타입 V 시스템이 존재한다. 어느 시스템도 Cas 단백질-gRNA 복합체가 표적 서열에 작용함으로써 바이러스 및 외래 플라스미드에 간섭 작용을 미친다. 타입 II 및 타입 V 시스템은, gRNA 결합성을 유지하는 단백질 도메인과 RuvC 유사 DNA 절단 단백질 도메인을 갖는 일체형 단백질에 의한, 표적 DNA 상의 DNA 이중쇄 절단이 간섭 작용의 메커니즘이다. 타입 III 시스템에 대해서는, 5 내지 8개의 Cas 단백질과 gRNA의 복합체가, 타입 II와는 달리, 표적 RNA 서열을 절단하는 것에 의해 간섭 작용을 가져옴이 인 비트로 및 인 비보에 있어서 증명되고 있다.

근년, CRISPR 타입 II 및 타입 V 시스템을 이용한 게놈 편집 기술이 개발되고, Cas 단백질로서 Cas9 및 Cpf1이 이용되고 있다. Cas9 및 Cpf1은, 표적 DNA를 인식하기 위해서, 표적 서열의 근방에 프로토스페이서 인접 모티프(PAM) 서열로 불리는 2 내지 5염기 정도의 서열을 필요로 한다. Cas9-gRNA 복합체 및 Cpf1-gRNA 복합체는, 인 비트로 및 인 비보에 있어서, PAM 서열 근방의 표적 부위에 DNA 이중쇄 절단을 일으키는, 서열 특이적인 RNA 유도성 엔도뉴클레아제임이 실증되어 있다.

한편, CRISPR 타입 I 시스템에 대해서는, 다양한 균류로부터 복수의 서브타입으로 분류되는 시스템이 게놈 서열로서 동정되어 있고, 타입 I-A, I-B, I-C, I-D, I-E, I-F, 및 I-U로서 분류·명명되어 있다. 이 중 대장균 유래의 타입 I-E시스템은 가장 연구가 진행되어 있고, 6개의 Cas 단백질(Cas3, Cse1, Cse2, Cas7, Cas5, Cas6e) 및 gRNA로 이루어지는 복합체가 표적 DNA 서열의 분해를 촉진함이 증명되어 있다. 그러나, 그 외의 서브타입의 간섭 작용에 대해서는, 일부의 서브타입(타입 I-C)을 제외하고, 필요한 Cas 단백질 구성 요소, gRNA 서열, 표적 DNA를 규정하는 PAM 서열 등에 대해 거의 해명되어 있지 않다. 또한, CRISPR 타입 I 시스템 유래의 Cas 단백질을 이용하는 기술로서, CRISPR 타입 I 시스템 유래의 Cas 단백질을 인코딩하는 재조합 핵산 분자를 이용하여 표적 유전자의 발현을 억제하는 방법(특허문헌 1)이나, CRISPR 타입 I 시스템 유래의 Cas 단백질과 다른 단백질의 복합체를 이용하여 표적 핵산을 개변하는 방법(특허문헌 2 및 특허문헌 3) 등의 보고는 있지만, CRISPR 타입 I 시스템 유래의 RNA 유도성 엔도뉴클레아제에 의해 표적 DNA 분자의 2본쇄를 절단하여 개변하는 기술에 대한 보고는 없다.

국제 공개 WO2015/155686 일본 특허공표 2015-503535 국제 공개 WO2017/043573

종래의 CRISPR 타입 II 및 타입 V 시스템에서는, 표적 특이성을 규정하는 2염기 내지 5염기 정도의 PAM 서열의 전후에 계속되는 약 20염기의 RNA 분자가 표적 타게팅에 이용된다고 하는 제한이 있기 때문에, 표적 디자인이 불가능한 유전자자리(locus)가 존재한다고 하는 점과, 유사한 서열을 절단한다고 하는 점에서 문제점을 갖고 있어, 이들 문제점을 갖지 않는 새로운 표적화 시스템 및 새로운 RNA 유도성 엔도뉴클레아제의 개발이 요망되고 있다.

상기의 과제를 해결하기 위하여, 본 발명자들은 예의 연구했다. 그 결과, 놀랄 만하게도, 종래부터 게놈 편집 기술에 이용되고 있는 CRISPR 타입 II 또는 타입 V RNA 유도성 엔도뉴클레아제보다도 긴 표적 서열을 갖는 신규한 표적화 시스템 및 신규한 RNA 유도성 엔도뉴클레아제를, CRISPR 타입 I-D로부터 발견하여, 표적 뉴클레오타이드 서열 상에 개변을 가능하게 하는 게놈 편집 기술에 이용할 수 있음을 발견하여, 본 발명을 완성시켰다.

즉, 본 발명은,

[1] 표적 뉴클레오타이드 서열을 표적화하는 방법으로서, 세포 중에,

(i) CRISPR 타입 I-D 관련 단백질 Cas5d, Cas6d 및 Cas7d, 또는 이들 단백질을 인코딩하는 핵산, 및

(ii) 상기 표적 뉴클레오타이드 서열에 상보적인 서열 및 해당 서열의 전후에 CRISPR 유전자자리에서 유래하는 공통 반복 서열을 포함하는 가이드 RNA, 또는 해당 가이드 RNA를 인코딩하는 DNA

를 도입하는 것을 포함하는 방법,

[2] 표적 뉴클레오타이드 서열을 개변하는 방법으로서, 세포 중에,

(i) CRISPR 타입 I-D 관련 단백질 Cas3d, Cas5d, Cas6d, Cas7d 및 Cas10d, 또는 이들 단백질을 인코딩하는 핵산, 및

를 도입하는 것을 포함하는 방법,

[3] 표적 유전자의 발현을 억제하는 방법으로서, 세포 중에,

(ii) 상기 표적 유전자의 서열의 적어도 일부에 상보적인 서열 및 해당 서열의 전후에 CRISPR 유전자자리에서 유래하는 공통 반복 서열을 포함하는 가이드 RNA, 또는 해당 가이드 RNA를 인코딩하는 DNA

를 도입하는 것을 포함하는 방법,

[4] 상기 가이드 RNA가, 상기 표적 뉴클레오타이드 서열에 상보적인 20∼50염기로 이루어지는 서열을 포함하는, [1]∼[3] 중 어느 한 항에 기재된 방법,

[5] 상기 세포 중에 도너 폴리뉴클레오타이드를 도입하는 것을 추가로 포함하는, [2] 또는 [4]에 기재된 방법,

[6] 개변이 염기의 결실, 삽입, 또는 치환인, [2], [4] 및 [5] 중 어느 한 항에 기재된 방법,

[7] 상기 Cas5d가 프로토스페이서 인접 모티프(PAM) 서열로서 5'-GTH-3'(H=A, C, 또는 T)를 인식하는, [1]∼[6] 중 어느 한 항에 기재된 방법,

[8] (i) CRISPR 타입 I-D 관련 단백질 Cas5d, Cas6d 및 Cas7d, 및

(ii) 표적 뉴클레오타이드 서열에 상보적인 서열 및 해당 서열의 전후에 CRISPR 유전자자리에서 유래하는 공통 반복 서열을 포함하는 가이드 RNA

를 포함하는 복합체,

[9] Cas3d 및 Cas10d를 추가로 포함하는, [8]에 기재된 복합체,

[10] 상기 가이드 RNA가, 상기 표적 뉴클레오타이드 서열에 상보적인 20∼50염기로 이루어지는 서열을 포함하는, [8] 또는 [9]에 기재된 복합체,

[11] (i) CRISPR 타입 I-D 관련 단백질 Cas5d, Cas6d 및 Cas7d를 인코딩하는 핵산, 및

(ii) 표적 뉴클레오타이드 서열에 상보적인 서열 및 해당 서열의 전후에 CRISPR 유전자자리에서 유래하는 공통 반복 서열을 포함하는 가이드 RNA를 인코딩하는 DNA

를 포함하는 발현 벡터,

[12] Cas3d 및 Cas10d를 인코딩하는 핵산을 추가로 포함하는, [11]에 기재된 발현 벡터, 및

[13] [8]∼[10] 중 어느 한 항에 기재된 복합체를 인코딩하는 DNA 분자, 및

[14] 표적 뉴클레오타이드 서열을 표적화하기 위한,

의 사용,

[15] 표적 뉴클레오타이드 서열을 개변하기 위한,

의 사용,

[16] 표적 유전자의 발현을 억제하기 위한,

의 사용,

[17] 상기 가이드 RNA가, 상기 표적 뉴클레오타이드 서열에 상보적인 20∼50염기로 이루어지는 서열을 포함하는, [14]∼[16] 중 어느 한 항에 기재된 사용,

[18] 개변이 염기의 결실, 삽입, 또는 치환인, [15] 또는 [17]에 기재된 사용,

[19] 상기 Cas5d가 프로토스페이서 인접 모티프(PAM) 서열로서 5'-GTH-3'(H=A, C, 또는 T)를 인식하는, [14]∼[18] 중 어느 한 항에 기재된 사용,

[20] 표적 뉴클레오타이드 서열을 표적화하기 위한,

(i) CRISPR 타입 I-D 관련 단백질 Cas5d, Cas6d 및 Cas7d, 및

를 포함하는 복합체의 사용,

[21] 표적 뉴클레오타이드 서열을 개변하기 위한,

(i) CRISPR 타입 I-D 관련 단백질 Cas3d, Cas5d, Cas6d, Cas7d 및 Cas10d 및

(ii) 상기 표적 뉴클레오타이드 서열에 상보적인 서열 및 해당 서열의 전후에 CRISPR 유전자자리에서 유래하는 공통 반복 서열을 포함하는 가이드 RNA

를 포함하는 복합체의 사용,

[22] 표적 유전자의 발현을 억제하기 위한,

(i) CRISPR 타입 I-D 관련 단백질 Cas5d, Cas6d 및 Cas7d, 및

(ii) 상기 표적 유전자의 서열의 적어도 일부에 상보적인 서열 및 해당 서열의 전후에 CRISPR 유전자자리에서 유래하는 공통 반복 서열을 포함하는 가이드 RNA

를 포함하는 복합체의 사용, 및

[23] 상기 가이드 RNA가, 상기 표적 뉴클레오타이드 서열에 상보적인 20∼50염기로 이루어지는 서열을 포함하는, [20]∼[22] 중 어느 한 항에 기재된 복합체의 사용

을 제공한다.

CRISPR 타입 I-D(이하, "TiD"라고도 한다) 시스템이 이용하는 PAM 서열은, CRISPR 타입 II 및 타입 V 시스템이 이용하는 PAM 서열과 상이하다. 따라서, 본 발명에 의하면, CRISPR 타입 I-D의 Cas 단백질을 사용하므로, 종래의 CRISPR 타입 II 또는 타입 V RNA 유도성 엔도뉴클레아제를 이용하는 게놈 편집 기술에서는 디자인할 수 없었던 유전자자리를 표적으로 하는 것이 가능해졌다. 더욱이 본 발명에서는, 본 발명의 CRISPR 타입 I-D 유래 RNA 유도성 엔도뉴클레아제가 이용하는 PAM 서열은, CRISPR 타입 II 및 타입 V가 이용하는 PAM 서열보다도, 몇몇의 생물 게놈 서열 상에 있어서 많이 발견됨을 알 수 있었다. 따라서, 본 발명에 의하면, 종래의 CRISPR 타입 II 및 타입 V 시스템을 이용하는 게놈 편집 기술보다도, 많은 유전자 서열을 표적으로 하는 것이 가능하다. 또한 더욱이, 본 발명자들은, CRISPR 타입 I-D 시스템에 있어서의 gRNA가, 30염기 이상의 길이의 표적 서열을 표적화할 수 있음을 발견했다. 한편, CRISPR 타입 II 및 타입 V 시스템에 있어서의 gRNA가 표적화할 수 있는 서열의 길이는 약 20염기 전후이다. 따라서, 본 발명의 CRISPR 타입 I-D 시스템은, 종래 기술보다도 안정된 결합 특성과 표적 특이성을 나타낸다고 생각된다.

이리하여, 본 발명에 의해, 종래 기술에서는 표적으로 하는 것이 불가능한 유전자 영역 상에서의 변이 알렐의 제작, 전사 활성화 및 불활성화에 의한 유전자 발현 제어, DNA 수식/히스톤 수식 단백질 도메인의 표적화에 의한 에피게놈 개변을 실현하는 것이 가능해졌다.

도 1은 본 발명의 CRISPR 타입 I-D 시스템의 구성 및 표적 서열에의 타게팅과 절단 양식의 개략을 나타낸다.
도 2는 TiD를 이용한 대장균 게놈 편집용 벡터를 나타낸다: a) pEcTiD2 플라스미드의 구조; b) pEcTiD3 플라스미드의 구조. Pro: J23108 합성 프로모터, t1: 터미네이터 서열 STOP767, RBS: 리보좀 결합 서열, t2: 터미네이터 서열 STOP768(1), t3: 터미네이터 서열 TOP768(2), t7: T7 터미네이터 서열, 7d: Microcystis aeruginosa 유래의(이하, Ma라고 약칭한다) Cas7d, 6d: MaCas6d, 5d: MaCas5d, 3d: MaCas3d, 10d: MaCas10d, T7 pro: T7 프로모터, crRNA: TiD 유래 CRISPR 리피트 서열, Cm: 클로람페니콜 내성 유전자, p15A ori: p15A 플라스미드 유래 복제 오리진.
도 3은 pMW_ccdB 및 pMW_ccdB-PAM 라이브러리 플라스미드의 구조를 나타낸다: a) pMW_ccdB의 구조, t2: rrnB2 터미네이터 서열, t1: rrnB1 터미네이터 서열, PAM: 프로토스페이서 인접 모티프 서열, T7 pro: T7 프로모터, ccdB: ccdB 유전자, Km: 카나마이신 내성 유전자, pSC101 ori: pSC101 플라스미드 유래 복제 오리진; b) pMW_ccdB-PAM 플라스미드 라이브러리의 표적 서열, NNNN 개소에 랜덤한 4염기를 삽입하여, PAM 서열 스크리닝 라이브러리 플라스미드로 했다. 사각으로 둘러싼 영역은 T7 프로모터를, 밑줄은 TiD의 표적 서열을 나타낸다. 대문자는 ccdB 유전자자리를 나타낸다.
도 4는 TiD를 이용한 식물 게놈 편집용 벡터를 나타낸다: a) pEgPTiD1 플라스미드의 구조; b) 식물용 crRNA 발현 카세트의 구조; c) pEgPTiD2 플라스미드의 구조, RB: right border 서열, LB: left border 서열, 2x35S: 2x 콜리플라워 모자이크 바이러스 35S 유전자 프로모터 및 번역 인핸서 Ω 서열, 3d: 2xNLS(핵이행 시그널)를 인코딩하는 서열을 부가한 MaCas3d, 10d: 2xNLS를 부가한 MaCas10d, 7d: 2xNLS를 부가한 MaCas7d, 6d: 2xNLS를 부가한 MaCas6d, 5d: 2xNLS를 부가한 MaCas5d, 2A(1)∼2A(4): 자기 개열 펩타이드 2A 서열(1)∼(4), Ter: 애기장대(Arabidopsis) 열쇼크 단백질 18.2kDa 유전자 터미네이터, Km: 카나마이신 내성 유전자 발현 카세트, U6-26: 애기장대 U6 snRNA-26 유전자 프로모터, crRNA: TiD 유전자자리 유래 CRISPR 리피트 서열.
도 5a는 pEgPTiD2-pds를 이용한 담배 PDS 유전자의 변이 도입을 나타낸다: a) 담배 PDS 유전자 상의 표적 서열, 표적 서열 1은 제 3 엑손 상, 표적 서열 2는 제 6 엑손 상으로부터 선택했다. 패널 하단에 나타낸 표적 서열 중, 사각으로 둘러싼 부분은 PAM 서열을 나타내고, 밑줄 부분이 표적 서열을 나타낸다; b) 아그로인필트레이션법에 의한 pEgPTiD2-pds 및 GFP 발현 바이너리 벡터의 도입, pEgPTiD2-pds(1) 혹은 pEgPTiD-pds(2)를 보지하는 아그로박테리움과 GFP 발현 바이너리 플라스미드를 보지하는 아그로박테리움을 아그로인필트레이션법에 의해 감염시키고, GFP 발현이 확인되는 엽편을 절출하여, PDS 변이 도입 해석에 이용했다.
도 5b는 pEgPTiD2-pds를 이용한 담배 PDS 유전자의 변이 도입을 나타낸다: c) Cel-1 어세이에 의한 PDS 변이 도입 해석, 도 5a의 b)에 있어서 GFP 발현이 확인된 엽편 부분으로부터 게놈 DNA를 조제하여, Cel-1 어세이에 의해 변이 도입의 유무를 해석했다. 삼각표는, Cel-1 뉴클레아제에 의해 절단된 변이 PDS 유전자 단편을 나타낸다.
도 6은 pEgPTiD2-iaa9를 이용한 토마토 IAA9 유전자의 변이 도입을 나타낸다: a) 토마토 IAA9 유전자 상의 표적 서열, 표적 서열 1은 제 2 엑손 상으로부터 선택했다. 패널 하단에 나타낸 표적 서열 중, 사각으로 둘러싼 부분은 PAM 서열을 나타내고, 밑줄 부분이 표적 서열을 나타낸다; b) 아그로박테리움법에 의해 토마토 리프 디스크에 pEgPTiD2-iaa9를 도입하여, 형질 전환 캘러스(callus) 세포를 얻었다; c) PCR-RFLP법에 의한 변이 해석, pEgPTiD2-iaa9를 도입한 형질 전환 캘러스 세포로부터 조제한 게놈 DNA로부터 IAA9 표적 서열을 포함하는 영역을 PCR에 의해 증폭하여, AccI를 이용한 PCR-RFLP법에 의해 변이 해석을 행했다. 백색 삼각표는 야생형 유래의 AccI 절단 단편을 나타내고, 그 위의 삼각표는 AccI 절단을 받지 않는 변이 도입 단편을 나타낸다.
도 7은 pEcTiD2-iaa9 도입 캘러스에 있어서의 시퀀스법에 의한 변이 해석을 나타낸다. 상단이 야생형의 IAA9 서열을 나타내고, 밑줄은 표적 서열을 나타낸다. 사각으로 둘러싼 서열은 PAM 서열을 나타낸다. 변이가 생긴 부위를 삽입 기호 또는 하이픈으로 나타냈다. 하이픈은 염기 결실을 나타낸다.
도 8은 pEcTiD2-iaa9 도입 재생 식물체에 있어서의 변이 해석을 나타낸다. a) PCR-RFLP법에 의한 변이 해석. 백색 삼각표는 야생형 유래의 AccI 절단 단편을 나타내고, 그 위의 삼각표는 AccI 절단을 받지 않는 변이 도입 단편을 나타낸다. b) IAA9 유전자 파괴의 결과, 본엽 형태 이상을 나타내는 변이 도입 토마토 식물체의 사진.
도 9는 HEK293 세포주를 이용한 게놈 편집의 실험 스킴을 나타낸다.
도 10은 헤테로2본쇄 이동도 분석에 의한 변이 해석의 결과를 나타낸다. EMX1 유전자 상의 타겟 1 표적 서열을 포함하는 crRNA 및 TiD 유전자를 도입한 세포 유래의 게놈으로부터, 변이 서열 유래라고 생각되는 프래그먼트가 검출되었다(흑건선(黑鍵線)).
도 11은 헤테로2본쇄 이동도 분석에 의한 변이 해석의 결과를 나타낸다. EMX1 유전자 상의 타겟 2 표적 서열을 포함하는 crRNA 및 TiD 유전자를 도입한 세포 유래의 게놈으로부터, 변이 서열 유래라고 생각되는 프래그먼트가 검출되었다(흑건선).
도 12는 시퀀스 해석에 의한 변이 서열의 동정을 나타낸다. 흑색 배경 중의 백색 문자는 TiD가 인식하는 PAM(프로토스페이서 인접 서열), 흑색 테두리선 내의 서열은 표적 서열을 나타낸다. 하이픈(-)은 염기 결실을, 흑색 굵은 글씨 소문자 알파벳은 염기 삽입을 나타낸다. 각 서열의 우측에, 체세포 변이 효율(변이 서열이 확인된 클론수/해석 클론 총수)을 나타낸다.
도 13은 시퀀스 해석에 의한 변이 서열의 동정을 나타낸다. 흑색 배경 중의 백색 문자는 TiD가 인식하는 PAM(프로토스페이서 인접 서열), 흑색 테두리선 내의 서열은 표적 서열을 나타낸다. 하이픈(-)은 염기 결실을, 흑색 굵은 글씨 소문자 알파벳은 염기 삽입을 나타낸다. 각 서열의 우측에, 체세포 변이 효율(변이 서열이 확인된 클론수/해석 클론 총수)을 나타낸다.

본 발명은, CRISPR 타입 I-D 시스템을 이용한 게놈 편집 기술을 제공한다. 구체적으로는, 본 발명에서는, CRISPR 타입 I-D의 Cas 단백질 중, Cas3d, Cas5d, Cas6d, Cas7d 및 Cas10d가 사용된다. 본 발명에 있어서, CRISPR 타입 I-D 시스템은, Cas5d, Cas6d 및 Cas7d를 포함하는 표적 인식 모듈과 Cas3d 및 Cas10d를 포함하는 폴리뉴클레오타이드 절단 모듈을 포함함이 발견되었다.

즉, 본 발명의 동작 원리는 이하와 같다.

1) 표적 뉴클레오타이드 서열의 표적화(이하, "타게팅"이라고도 한다)에 필요한, 해당 표적 뉴클레오타이드 서열에 상보적인 서열과 CRISPR 타입 I-D 유전자자리에 존재하는 공통 반복 서열을 포함하는 gRNA,

2) 표적 뉴클레오타이드 서열의 근방에 존재하는 PAM 서열을 인식하는 Cas5d,

3) 상기 1)의 gRNA에 결합하고, 표적 뉴클레오타이드 서열의 타게팅에 필요한 Cas7d, 및

4) 상기 1)의 gRNA의 프로세싱을 행하는 Cas6d

를 포함하는 복합체, 및

5) 상기 1) 내지 4)를 포함하는 복합체에 상호작용하여, 표적 뉴클레오타이드 서열의 리모델링을 행하는 Cas10d와, 폴리뉴클레오타이드의 분해를 행하는 Cas3d를 포함하는 복합체

가 세포에 제공되고, 해당 세포에 있어서,

6) 상기 1) 내지 4)를 포함하는 복합체에 의한 표적 뉴클레오타이드 서열로의 타게팅, 즉,

7) 상기 4)의 Cas6d에 의해 상기 1)의 gRNA가 프로세싱되어 얻어지는 성숙형 gRNA와, 상기 2) 및 3)으로 이루어지는 복합체에 의한, 표적 뉴클레오타이드 서열로의 타게팅이 행해지고,

8) 상기 5)의 복합체에 의해, 표적 뉴클레오타이드 서열 상의 폴리뉴클레오타이드가 절단된다.

따라서, 본 발명은, CRISPR 타입 I-D 시스템을 이용한 표적 뉴클레오타이드 서열을 표적화하는 방법(이하, "본 발명의 표적 서열 타게팅 방법"이라고도 한다), 표적 뉴클레오타이드 서열을 개변하는 방법(이하, "본 발명의 표적 서열 개변 방법"이라고도 한다), 및 표적 유전자의 발현을 억제하는 방법(이하, "본 발명의 표적 유전자 발현 억제 방법"이라고도 한다)을 제공한다. 더욱이, 본 발명은, 이들 본 발명의 방법에 사용되는, CRISPR 타입 I-D 관련 Cas 단백질 및 gRNA를 포함하는 복합체(이하, "본 발명의 복합체"라고도 한다), 및 해당 복합체를 인코딩하는 핵산 분자를 포함하는 벡터를 제공한다.

(1) 세포

본 발명에 있어서, 세포는, 원핵세포 또는 진핵세포의 어느 세포여도 되고, 특별히 한정되지 않는다. 예를 들어, 세균, 고세균, 효모, 식물 세포, 곤충 세포, 동물 세포(예를 들어, 인간 세포, 비인간 세포, 비포유동물 척추동물 세포, 무척추동물 세포 등)를 들 수 있다.

(2) RNA 유도성 엔도뉴클레아제 및 Cas 단백질

본 발명에 있어서, "RNA 유도성 엔도뉴클레아제"란, 적어도 1개의 뉴클레아제 도메인, 및 gRNA와 결합하는 적어도 1개의 도메인을 포함하고, gRNA에 의해 표적 뉴클레오타이드 서열(또는 표적 뉴클레오타이드 부위)로 유도되는 엔도뉴클레아제를 말한다. 본 발명에서 사용되는 RNA 유도성 엔도뉴클레아제는, CRISPR 타입 I-D 유래의 RNA 유도성 엔도뉴클레아제이며, CRISPR 타입 I-D 관련 단백질 Cas3d, Cas5d, Cas6d, Cas7d 및 Cas10d를 포함한다. 본 발명에 있어서, Cas5d, Cas6d 및 Cas7d는, 표적 인식에 기여하는 "표적 인식 모듈"을 구성하고, Cas3d 및 Cas10d는, 폴리뉴클레오타이드의 절단에 기여하는 "폴리뉴클레오타이드 절단 모듈"을 구성함이 발견되었다. 즉, 본 발명에서 사용되는 RNA 유도성 엔도뉴클레아제는, Cas5d, Cas6d 및 Cas7d를 포함하는 표적 인식 모듈과, Cas3d 및 Cas10d를 포함하는 폴리뉴클레오타이드 절단 모듈을 포함한다.

본 발명에서 사용되는 Cas3d, Cas5d, Cas6d, Cas7d 및 Cas10d는, 어느 세균 또는 고세균 유래의 것이어도 되고, 예를 들어, Microcystis aeruginosa, Acetohalobium arabaticum, Ammonifex degensii, Anabaena cylindrica, Anabaena variabilis, Caldicellulosiruptor lactoaceticus, Caldilinea aerophila, Clostridium algidicarnis, Crinalium epipsammum, Cyanothece Sp., Cylindrospermum stagnale, Haloquadratum walsbyi, Halorubrum lacusprofundi, Methanocaldococcus vulcanius, Methanospirillum hungatei, Natrialba asiatica, Natronomonas pharaonis, Nostoc punctiforme, Phormidesmis priestleyi, Oscillatoria acuminata, Picrophilus torridus, Spirochaeta thermophila, Stanieria cyanosphaera, Sulfolobus acidocaldarius, Sulfolobus islandicus, Synechocystis Sp., Thermacetogenium phaeum, Thermofilum pendens 등의 균주 유래의 것이어도 된다. 상기 Cas 단백질의 아미노산 서열 및 뉴클레오타이드 서열 정보는, 예를 들어, NCBI GenBank 등의 공개된 데이터베이스로부터 입수 가능하다. 또한, 메타게놈 해석 등에 의해 얻어진 미생물 게놈 데이터로부터 BLAST 프로그램을 이용함으로써, 신규한 미생물종으로부터의 서열 취득도 가능하다. 상기 Cas 단백질을 인코딩하는 핵산은, 예를 들어, 아미노산 서열 정보를 기초로, 해당 핵산을 도입하는 숙주 세포에 있어서의 번역에 최적화된 코돈을 선택하고, 화학 합성 등에 의해 구축해도 된다. 숙주 세포에 있어서 사용 빈도가 높은 코돈을 사용하는 것에 의해, 단백질의 발현량을 증가시킬 수 있다. 상기 Cas 단백질은, 예를 들어, 아미노산 서열 정보를 기초로 화학 합성하거나, 또는 상기 Cas 단백질을 인코딩하는 핵산을 적당한 벡터 등을 개재시켜 세포 중에 도입하여, 해당 세포 중에서 산생시켜도 된다. 또한, Cas3d, Cas5d, Cas6d, Cas7d 및 Cas10d의 각 Cas 단백질은, 상기의 본 발명의 동작 원리에 있어서 기재한 각 Cas 단백질의 기능을 유지하는 한, 변이형 Cas 단백질이어도 된다.

(3) 가이드 RNA

본 발명에 있어서, 가이드 RNA(gRNA)는, 상기 표적 인식 모듈(Cas5d, Cas6d 및 Cas7d)과 복합체를 형성하여, 이들 Cas 단백질과 함께 표적 뉴클레오타이드 서열을 타게팅하는 분자이다. 본 발명에 있어서, gRNA는, 표적 인식 모듈의 Cas7d에 결합한다. 본 발명에 있어서, gRNA는, Cas5d, Cas6d 및 Cas7d를 포함하는 복합체에 결합하여, 해당 복합체를 표적 뉴클레오타이드 서열로 유도한다. 예를 들어, gRNA는, 상기 RNA 유도성 엔도뉴클레아제의 표적 인식 모듈에 결합하여, 해당 RNA 유도성 엔도뉴클레아제를 표적 뉴클레오타이드 서열로 유도한다. 또한, 상기 표적 인식 모듈이 상기 RNA 유도성 엔도뉴클레아제 이외의 융합 단백질의 일부로서 존재하는 경우, gRNA는, 해당 표적 인식 모듈에 결합하여, 당해 융합 단백질을 표적 뉴클레오타이드 서열로 유도한다.

gRNA는, 표적 뉴클레오타이드 서열과 염기쌍을 형성할 수 있도록 해당 표적 서열에 상보적인 서열, 및 해당 서열의 전후(5'말단측 및 3'말단측)에, CRISPR 타입 I-D 유전자자리에서 유래하는 공통 반복 서열을 포함한다. gRNA의 공통 반복 서열 부분은, 적어도 1개의 헤어핀 구조를 갖고 있어도 된다. 예를 들어, 표적 뉴클레오타이드 서열에 상보적인 서열의 5'말단 측에 있는 공통 반복 서열 부분이 헤어핀 구조를 갖고, 표적 뉴클레오타이드 서열에 상보적인 서열의 3'말단 측에 있는 공통 반복 서열 부분은 1본쇄여도 된다. 본 발명에 있어서, gRNA는, 바람직하게는 1개의 헤어핀 구조를 갖는다.

CRISPR 타입 I-D 유전자자리에서 유래하는 공통 반복 서열은, 타입 I-D 유전자군에 인접하는 gRNA 유전자 서열 영역으로부터, 탠덤 리피트 검색 프로그램을 이용하여 발견할 수 있다. gRNA에 포함되는 공통 반복 서열의 염기 길이는, 표적 인식 모듈과 상호작용하여 표적 뉴클레오타이드 서열을 타게팅한다고 하는 목적이 달성되는 한, 특별히 한정되지 않는다. 예를 들어, 표적 뉴클레오타이드 서열에 상보적인 서열의 전후의 공통 반복 서열이 각각, 약 10∼70염기 길이여도 되고, 예를 들어, 30∼50염기 길이여도 된다.

gRNA는, 표적 뉴클레오타이드 서열에 상보적인 약 10염기∼70염기로 이루어지는 서열을 포함할 수 있다. gRNA에 포함되는 표적 뉴클레오타이드 서열에 상보적인 서열은, 바람직하게는 20염기∼50염기, 보다 바람직하게는 25염기∼45염기로 이루어지는 서열, 더 바람직하게는 30염기∼40염기로 이루어지는 서열, 또한 더 바람직하게는 32염기∼37염기로 이루어지는 서열, 예를 들어, 32염기, 33염기, 34염기, 35염기, 36염기, 또는 37염기로 이루어지는 서열이다. 타게팅 가능한 표적 서열이 길수록, gRNA에 의한 표적 인식의 서열 특이성이 증가한다고 생각된다. 또한, 타게팅 가능한 표적 서열이 길수록, gRNA와 표적 서열 사이에 형성되는 염기쌍의 Tm치가 높아져, 표적 인식의 안정성이 증가한다고 생각된다. 종래의 게놈 편집 기술에 이용되는 RNA 유도성 엔도뉴클레아제(예를 들어, Cas9 및 Cpf1)에서는 gRNA가 표적화할 수 있는 서열의 길이는 약 20∼24염기이므로, 본 발명은, 종래법보다도 서열 특이성 및 안정성이 우수하다.

(4) 표적 뉴클레오타이드 서열

본 발명에 있어서, 표적 뉴클레오타이드 서열(본 명세서에 있어서, 간단히 "표적 서열"이라고도 한다)은, 임의의 핵산의 서열이며, 프로토스페이서 근접 모티프(PAM)의 근방에 위치하는 서열을 표적 서열로서 선택하는 것을 제외하고, 특별히 한정되지 않는다. 표적 뉴클레오타이드 서열은, 2본쇄 DNA 서열, 1본쇄 DNA 서열, 또는 RNA 서열의 어느 것이어도 된다. DNA로서는, 예를 들어, 진핵생물핵 게놈 DNA, 미토콘드리아 DNA, 플라스티드 DNA, 원핵생물 게놈 DNA, 파지 DNA, 혹은 플라스미드 DNA 등을 들 수 있다. 본 발명에 있어서, 표적 뉴클레오타이드 서열은, 바람직하게는, 게놈 상의 2본쇄 DNA이다. 한편, 본 명세서에 있어서, "근방에 위치한다"란, 인접하는 것, 및 가까이에 있는 것의 양쪽을 포함한다. 또한, 본 명세서에 있어서, "근방"이란, 인접하는 위치 또는 가까운 위치의 양쪽을 포함한다.

CRISPR 시스템의 표적 인식에 이용되는 PAM 서열은, CRISPR 시스템의 종류에 따라서 상이하다. 본 발명에서는, CRISPR 타입 I-D 시스템이 이용하는 PAM 서열이 5'-GTH-3'(H=A, C 또는 T)임을 명확히 했다(실시예 1). 바람직하게는, 상기 PAM 서열의 3'측 하류의 근방에 위치하는 서열을 표적 뉴클레오타이드 서열로서 선택한다. 예를 들어, 표적 뉴클레오타이드 서열은, 상기 PAM 서열의 근방에 위치하고, 또한 표적 유전자의 인트론 내, 코딩 영역 내, 비코딩 영역 내, 또는 제어 영역 내에 존재하는 서열이어도 된다. 표적 유전자는, 임의의 유전자이며, 수의(隨意)로 선택하면 된다.

종래의 게놈 편집 기술에서 사용되고 있는 Cas9 및 Cpf1의 PAM 서열은, 각각, 5'-NGG-3'(N=A, C, G 또는 T) 및 5'-TTTV-3'(V=A, C 또는 G)이다. 고등 식물의 게놈 서열 중에 있어서의, Cas9 및 Cpf1의 PAM 서열과 TiD의 PAM 서열의 출현 빈도(즉, CRISPR 시스템의 타겟 후보수)를 비교한 바, TiD의 PAM 서열 빈도가 가장 많아, Cas9 또는 Cpf1을 이용하는 종래의 게놈 편집 기술보다도 타겟수가 많음을 알 수 있었다(표 1).

(5) 본 발명의 표적 서열 타게팅 방법

본 발명의 표적 서열 타게팅 방법은, 상기 표적 인식 모듈(Cas5d, Cas6d 및 Cas7d)과 상기 gRNA를 상기 세포 중에 도입하는 것을 특징으로 한다. 즉, 본 발명의 표적 서열 타게팅 방법은, (i) Cas5d, Cas6d 및 Cas7d, 또는 이들 단백질을 인코딩하는 핵산, 및 (ii) 상기 gRNA, 또는 해당 gRNA를 인코딩하는 DNA를 상기 세포 중에 도입하는 것을 특징으로 한다. 본 발명의 표적 서열 타게팅 방법은, 인 비트로 및 인 비보의 어느 것으로 행해도 된다.

본 발명의 표적 서열 타게팅 방법에 있어서, 상기 표적 인식 모듈은, Cas5d, Cas6d 및 Cas7d를 포함하는 단리된 복합체로서 세포 중에 도입되어도 되고, 또는 Cas5d, Cas6d 및 Cas7d의 각각이 단리된 단백질로서 단독으로 세포 중에 도입되어도 된다. 또한, 본 발명의 표적 서열 타게팅 방법에 있어서, 상기 표적 인식 모듈은, 상기 Cas 단백질 Cas5d, Cas6d 및 Cas7d를 인코딩하는 핵산으로서 세포 중에 도입되어도 된다. 해당 핵산으로서는, 예를 들어, mRNA 등의 RNA, 또는 DNA를 들 수 있다.

상기 Cas 단백질을 인코딩하는 DNA는, 예를 들어, 벡터에 포함되어 있어도 되고, 해당 DNA 서열은, 바람직하게는, 프로모터 및 터미네이터 등의 조절 서열에 작동 가능하게 연결되어 있다. 상기 표적 인식 모듈을 도입하는 세포가 진핵세포인 경우, 바람직하게는, 상기 Cas 단백질을 인코딩하는 DNA에 핵이행 시그널 서열이 부가된다. 상기 Cas 단백질 Cas5d, Cas6d 및 Cas7d를 인코딩하는 DNA의 2 이상 또는 모두가 단일한 벡터 중에 포함되어 있어도 되고, 또는 따로따로의 벡터 중에 포함되어 있어도 된다. 벡터의 수, 및 각 벡터에 짜 넣는 DNA가 인코딩하는 Cas 단백질의 종류 및 조합에 제한은 없다. 상기 Cas 단백질을 인코딩하는 2 이상의 DNA가 하나의 벡터 중에 포함되는 경우, 이들 DNA 서열은, 폴리시스트로닉으로 발현하도록, 예를 들어 자기 개열형 펩타이드를 인코딩하는 서열 등을 개재시켜, 서로 연결되어 있어도 된다. 한편, 상기 Cas 단백질을 인코딩하는 2 이상의 DNA를 연결하는 차례는, 어느 것이어도 된다.

상기 gRNA는, RNA로서, 또는 gRNA를 인코딩하는 DNA로서 세포 중에 도입되어도 된다. gRNA를 인코딩하는 DNA는, 예를 들어, 벡터에 포함되어 있어도 되고, 해당 DNA 서열은, 바람직하게는, 프로모터 및 터미네이터 등의 조절 서열에 작동 가능하게 연결된다.

상기 Cas 단백질을 인코딩하는 DNA와 상기 gRNA를 인코딩하는 DNA는, 동일한 벡터 중에 포함되어 있어도 되고, 또는 따로따로의 벡터 중에 포함되어 있어도 된다. 예를 들어, Cas5d, Cas6d 및 Cas7d를 인코딩하는 DNA의 1 이상 또는 모두, 및 gRNA를 인코딩하는 DNA가 단일한 벡터 중에 포함되어 있어도 된다.

상기 프로모터 및 터미네이터 등의 조절 서열, 및 핵이행 시그널 서열은, 당해 분야에서 공지이며, 상기 표적 인식 모듈 및 상기 gRNA를 도입하는 세포가 유래하는 생물종에 따라서 적절히 선택할 수 있다. 도입에 이용하는 벡터도 또한, 도입하는 세포가 유래하는 생물종에 따라서 적절히 선택하면 되고, 특별히 한정되지 않는다. 예를 들어, 플라스미드 벡터, 바이러스 벡터, 파지미드, 코스미드, 인공/미니 염색체, 트랜스포존 등을 들 수 있다.

상기 표적 인식 모듈 및 gRNA의 세포 중으로의 도입은, 당해 분야에 알려진 여러 가지 수단에 의해 행할 수 있다. 예를 들어, 트랜스펙션, 예를 들어, 인산 칼슘 중개성 트랜스펙션, 일렉트로포레이션, 리포솜 트랜스펙션 등, 바이러스 형질 도입, 리포펙션, 유전자총, 마이크로인젝션, 아그로박테리움법, 아그로인필트레이션법, PEG-칼슘법 등을 들 수 있다.

상기 표적 인식 모듈 및 gRNA는, 동시에 또는 연속적으로 세포 중에 도입하면 된다. 또한, 상기 표적 인식 모듈을 구성하는 Cas5d, Cas6d 및 Cas7d, 또는 이들 각 Cas 단백질을 인코딩하는 핵산은, 동시에 또는 연속적으로 세포 중에 도입하면 된다. 예를 들어, 인 비트로 또는 인 비보에 있어서 각각 합성한 상기 Cas 단백질 Cas5d, Cas6d 및 Cas7d와 인 비트로 또는 인 비보에 있어서 합성한 gRNA를, 인 비트로에 있어서 인큐베이트하여 복합체를 형성시키고, 해당 복합체를 세포 중에 도입할 수 있다.

상기 표적 인식 모듈 및 gRNA의 도입 시, 세포는, 표적 뉴클레오타이드 서열의 타게팅에 적당한 조건하에서 배양된다. 그 다음에, 해당 세포는, 세포 증식 및 유지에 적당한 조건하에서 배양된다. 배양 조건은, 표적 인식 모듈 및 gRNA를 도입하는 세포가 유래하는 생물종에 적절한 배양 조건이면 되고, 예를 들어, 기지의 세포 배양 기술에 기초하여 당업자에 의해 적절히 결정 가능하다.

본 발명의 표적 서열 타게팅 방법에 의하면, gRNA와 표적 인식 모듈의 Cas7d가 결합하여 상기 표적 인식 모듈과 gRNA가 복합체를 형성하고, 동시에, 해당 gRNA가 표적 뉴클레오타이드 서열과 염기쌍을 형성하고, 해당 표적 인식 모듈이 표적 뉴클레오타이드 서열 근방의 PAM 서열을 인식하는 것에 의해, 서열 특이적으로 표적 뉴클레오타이드 서열을 표적화한다. 본 발명의 표적 서열 타게팅 방법에서는, 추가로 Cas10d를 세포 중에 도입해도 된다.

(6) 본 발명의 표적 서열 개변 방법

본 발명의 표적 서열 개변 방법은, 상기 RNA 유도성 엔도뉴클레아제와 상기 gRNA를 상기 세포 중에 도입하는 것을 특징으로 한다. 즉, 본 발명의 표적 서열 개변 방법은, 세포 중에, (i) Cas3d, Cas5d, Cas6d, Cas7d 및 Cas10d, 또는 이들 단백질을 인코딩하는 핵산, 및 (ii) 상기 gRNA 또는 해당 gRNA를 인코딩하는 DNA를 상기 세포 중에 도입하는 것을 특징으로 한다. 본 발명의 표적 서열 개변 방법은, 본 발명의 표적 서열 타게팅 방법에 의해 표적화한 뉴클레오타이드 서열을, 상기 폴리뉴클레오타이드 절단 모듈에 의해 절단하는 것을 포함한다. 본 발명의 표적 서열 개변 방법은, 인 비트로 및 인 비보의 어느 것으로 행해도 된다. 본 발명에 있어서, 개변에는, 적어도 1개의 뉴클레오타이드의 결실, 삽입, 또는 치환, 혹은 그들의 조합이 포함된다.

본 발명의 표적 서열 개변 방법에 있어서는, 상기의 RNA 유도성 엔도뉴클레아제 및 gRNA에 더하여, 도너 폴리뉴클레오타이드를 세포 중에 도입해도 된다. 도너 폴리뉴클레오타이드는, 표적 부위에 도입하고 싶은 개변을 포함하는 적어도 1개의 도너 서열을 포함한다. 도너 폴리뉴클레오타이드는, 도너 서열에 더하여, 해당 도너 서열의 양단에 표적 서열의 상류 및 하류의 서열과 상동성이 높은 서열(바람직하게는, 표적 서열의 상류 및 하류의 서열과 실질적으로 동일한 서열)을 포함하고 있어도 된다. 도너 폴리뉴클레오타이드는, 1본쇄 또는 2본쇄의 DNA여도 된다. 도너 폴리뉴클레오타이드는, 당해 분야에서 기지의 기술에 기초하여 당업자가 적절히 설계할 수 있다.

본 발명의 표적 서열 개변 방법에 있어서 도너 폴리뉴클레오타이드가 존재하지 않는 경우, 표적 뉴클레오타이드 서열에 있어서의 절단은, 비상동 말단 결합(NHEJ)에 의해 수복될 수 있다. NHEJ는 에러가 발생하기 쉬움이 알려져 있고, 적어도 1개의 뉴클레오타이드의 결실, 삽입, 또는 치환, 혹은 그들의 조합이 해당 절단의 수복 중에 일어날 수 있다. 이리하여, 해당 서열은, 표적 서열 부위에 있어서 개변되고, 그것에 의해, 프레임 시프트나 미성숙 종지 코돈을 유발하여, 표적 서열 영역이 인코딩하고 있는 유전자의 발현이 불활성화 또는 녹아웃될 수 있다.

본 발명의 표적 서열 개변 방법에 있어서 도너 폴리뉴클레오타이드가 존재하는 경우, 도너 폴리뉴클레오타이드의 도너 서열은, 절단된 표적 뉴클레오타이드 서열의 상동 재조합 수복(HDR)에 의해, 표적 서열 부위에 삽입되거나, 또는 표적 서열 부위가 도너 서열로 치환된다. 그 결과, 표적 서열 부위에 원하는 개변이 도입된다.

상기 RNA 유도성 엔도뉴클레아제는, Cas5d, Cas6d, Cas7d, Cas3d 및 Cas10d를 포함하는 단리된 복합체로서 세포 중에 도입되어도 되고, 또는 Cas5d, Cas6d, Cas7d, Cas3d 및 Cas10d의 각각이 단리된 단백질로서 단독으로 세포 중에 도입되어도 된다. 혹은, 상기 RNA 유도성 엔도뉴클레아제는, 상기 Cas 단백질 Cas5d, Cas6d, Cas7d, Cas3d 및 Cas10d를 인코딩하는 핵산으로서 세포 중에 도입되어도 된다. 해당 핵산으로서는, 예를 들어, mRNA 등의 RNA, 또는 DNA를 들 수 있다.

상기 Cas 단백질을 인코딩하는 DNA는, 예를 들어, 벡터에 포함되어 있어도 되고, 해당 DNA 서열은, 바람직하게는, 프로모터 및 터미네이터 등의 조절 서열에 작동 가능하게 연결되어 있다. 상기 RNA 유도성 엔도뉴클레아제를 도입하는 세포가 진핵세포인 경우, 바람직하게는, 상기 Cas 단백질을 인코딩하는 DNA에 핵이행 시그널 서열이 부가된다. 상기 Cas 단백질 Cas3d, Cas5d, Cas6d, Cas7d 및 Cas10d를 인코딩하는 DNA의 2 이상 또는 모두가 단일한 벡터 중에 포함되어 있어도 되고, 또는 따로따로의 벡터 중에 포함되어 있어도 된다. 벡터의 수, 및 각 벡터에 짜 넣는 DNA가 인코딩하는 Cas 단백질의 종류 및 조합에 제한은 없다. 상기 Cas 단백질을 인코딩하는 2 이상의 DNA가 하나의 벡터 중에 포함되는 경우, 이들 DNA 서열은, 폴리시스트로닉으로 발현하도록, 예를 들어 자기 개열형 펩타이드를 인코딩하는 서열 등을 개재시켜, 서로 연결되어 있어도 된다. 한편, 상기 Cas 단백질을 인코딩하는 2 이상의 DNA를 연결하는 차례는, 어느 것이어도 된다.

상기 Cas 단백질을 인코딩하는 DNA와 상기 gRNA를 인코딩하는 DNA는, 동일한 벡터 중에 포함되어 있어도 되고, 또는 따로따로의 벡터 중에 포함되어 있어도 된다. 예를 들어, Cas3d, Cas5d, Cas6d, Cas7d 및 Cas10d의 각각을 인코딩하는 모든 DNA, 및 gRNA를 인코딩하는 DNA가 단일한 벡터 중에 포함되어 있어도 된다.

상기 프로모터 및 터미네이터 등의 조절 서열, 및 핵이행 시그널 서열은, 당해 분야에서 공지이며, 상기 RNA 유도성 엔도뉴클레아제 및 상기 gRNA를 도입하는 세포의 종류에 따라서 적절히 선택할 수 있다. 도입에 이용하는 벡터도 또한, 도입하는 세포의 종류에 따라서 적절히 선택하면 되고, 특별히 한정되지 않는다. 예를 들어, 플라스미드 벡터, 바이러스 벡터, 파지미드, 코스미드, 인공/미니 염색체, 트랜스포존 등을 들 수 있다.

상기 RNA 유도성 엔도뉴클레아제, gRNA, 및 도너 폴리뉴클레오타이드의 세포 중으로의 도입은, 당해 분야에 알려진 여러 가지 수단에 의해 행할 수 있다. 예를 들어, 트랜스펙션, 예를 들어, 인산 칼슘 중개성 트랜스펙션, 일렉트로포레이션, 리포솜 트랜스펙션 등, 바이러스 형질 도입, 리포펙션, 유전자총, 마이크로인젝션, 아그로박테리움법, 아그로인필트레이션법, PEG-칼슘법 등을 들 수 있다.

상기 RNA 유도성 엔도뉴클레아제, gRNA, 및 도너 폴리뉴클레오타이드는, 동시에 또는 연속적으로 세포 중에 도입하면 된다. 또한, 상기 RNA 유도성 엔도뉴클레아제를 구성하는 Cas3d, Cas5d, Cas6d, Cas7d 및 Cas10d, 또는 이들 각 Cas 단백질을 인코딩하는 핵산은, 동시에 또는 연속적으로 세포 중에 도입하면 된다.

상기 RNA 유도성 엔도뉴클레아제 및 gRNA, 또는 RNA 유도성 엔도뉴클레아제, gRNA 및 도너 폴리뉴클레오타이드의 도입 시, 세포는, 표적 서열 부위에서의 절단에 적당한 조건하에서 배양된다. 그 다음에, 해당 세포는, 세포 증식 및 유지에 적당한 조건하에서 배양된다. 배양 조건은, RNA 유도성 엔도뉴클레아제 및 gRNA, 또는 RNA 유도성 엔도뉴클레아제, gRNA 및 도너 폴리뉴클레오타이드를 도입하는 세포가 유래하는 생물종에 적절한 배양 조건이면 되고, 예를 들어, 기지의 세포 배양 기술에 기초하여 당업자에 의해 적절히 결정 가능하다.

본 발명의 표적 서열 개변 방법에 의하면, gRNA가 표적 뉴클레오타이드 서열과 염기쌍을 형성함과 동시에, RNA 유도성 엔도뉴클레아제의 표적 인식 모듈과의 상호작용에 의해, 해당 RNA 유도성 엔도뉴클레아제를 해당 표적 서열 부위로 유도하고, 그 다음에, 해당 RNA 유도성 엔도뉴클레아제의 절단 모듈이 해당 표적 서열 부위에 있어서의 서열을 절단하고, 해당 절단 서열의 수복 시에, 표적 서열이 개변된다. 예를 들어, 본 발명의 표적 서열 개변 방법은, 게놈 상의 표적 뉴클레오타이드 서열의 개변을 위해서 이용할 수 있고, 해당 방법에 의해 게놈 상의 2본쇄 DNA가 절단되어, 표적 부위가 개변된다.

(7) 본 발명의 표적 유전자 발현 억제 방법

본 발명의 표적 유전자 발현 억제 방법은, 상기 표적 인식 모듈(Cas5d, Cas6d 및 Cas7d)과 상기 gRNA를 상기 세포 중에 도입하는 것을 특징으로 한다. 즉, 본 발명의 표적 서열 타게팅 방법은, (i) Cas5d, Cas6d 및 Cas7d, 또는 이들 단백질을 인코딩하는 핵산, 및 (ii) 상기 gRNA, 또는 해당 gRNA를 인코딩하는 DNA를 상기 세포 중에 도입하는 것을 특징으로 한다. 본 발명의 표적 유전자 발현 억제 방법에서는, 표적 뉴클레오타이드 서열로서 표적 유전자의 서열의 적어도 일부의 서열이 선택되어, 해당 서열에 상보적인 서열을 포함하는 gRNA를 사용한다. 본 발명의 표적 유전자 발현 억제 방법은, 본 발명의 표적 서열 타게팅 방법에 의해 뉴클레오타이드 서열을 표적화할 때에, 표적 인식 모듈과 gRNA의 복합체가 표적 서열에 결합하는 것에 의해, 해당 표적 서열을 포함하는 유전자의 발현이 억제되는 것을 포함한다. 본 발명의 표적 유전자 발현 억제 방법은, 인 비트로 및 인 비보의 어느 것으로 행해도 된다. 본 발명의 표적 유전자 발현 억제 방법에 의하면, 표적 유전자 서열은 절단되지 않지만, 상기 표적 인식 모듈과 gRNA의 복합체가 표적 뉴클레오타이드 서열에 결합하는 것에 의해, 해당 표적 서열을 포함하는 유전자 영역의 기능 또는 해당 유전자의 발현이 저해된다.

상기 표적 인식 모듈 및 gRNA, 그들의 세포 중으로의 도입 방법, 및 도입 시 및 도입 후의 세포 배양 등에 대해서는, 상기 "(5) 본 발명의 표적 서열 타게팅 방법"에 있어서 기재한 바와 같다. 본 발명의 표적 유전자 발현 억제 방법에서는, 추가로 Cas10d를 세포 중에 도입해도 된다.

(8) 본 발명의 복합체

본 발명의 복합체는, 상기 CRISPR 타입 I-D Cas 단백질 및 상기 gRNA를 포함한다. 본 발명은, 특히, 상기 표적 인식 모듈과 상기 gRNA를 포함하는 복합체, 및 상기 RNA 유도성 엔도뉴클레아제와 gRNA를 포함하는 복합체를 제공한다. 더 구체적으로는, Cas5d, Cas6d 및 Cas7d와 gRNA를 포함하는 복합체, 및 Cas5d, Cas6d, Cas7d, Cas3d 및 Cas10d와 gRNA를 포함하는 복합체를 제공한다. 더욱이, 상기 복합체를 인코딩하는 DNA 분자도 제공된다. 본 발명의 복합체는, 상기한 본 발명의 표적 서열 개변 방법, 표적 유전자 발현 억제 방법, 및 표적 서열 타게팅 방법에 사용할 수 있다. RNA 유도성 엔도뉴클레아제(Cas5d, Cas6d, Cas7d, Cas3d 및 Cas10d를 포함하는 복합체)와 gRNA를 포함하는 복합체를 세포에 도입하여, 해당 세포 내에서 해당 복합체를 기능시키는 것에 의해, 해당 세포의 게놈 상의 표적 서열을 개변할 수 있다. 또한, 표적 인식 모듈(Cas5d, Cas6d 및 Cas7d를 포함하는 복합체)과 gRNA를 포함하는 복합체를 세포에 도입하여, 해당 세포 내에서 해당 복합체를 기능시키는 것에 의해, 해당 세포 중의 표적 서열을 표적화할 수 있고, 또한, 해당 표적 서열 영역이 인코딩하는 유전자의 발현을 억제할 수 있다. 상기 표적 인식 모듈과 gRNA를 포함하는 복합체는, 추가로 Cas10d를 포함하고 있어도 된다.

본 발명의 복합체는, 통상적 방법에 의해, 인 비트로 또는 인 비보로 제조할 수 있다. 예를 들어, 상기 RNA 유도성 엔도뉴클레아제 또는 상기 표적 인식 모듈을 구성하는 Cas 단백질을 인코딩하는 핵산, 및 gRNA 또는 gRNA를 인코딩하는 DNA를 세포 중에 도입하여, 해당 세포 내에서 복합체를 형성시켜도 된다.

본 발명의 복합체의 예로서 한정하는 것은 아니지만, Microcystis aeruginosa의 Cas5d(서열 번호 1), Cas6d(서열 번호 2) 및 Cas7d(서열 번호 3)와, GUUCCAAUUAAUCUUAAGCCCUAUUAGGGAUUGAAACNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGUUCCAAUUAAUCUUAAGCCCUAUUAGGGAUUGAAAC(서열 번호 6; N은, 표적 뉴클레오타이드 서열에 상보적인 서열을 구성하는 임의의 뉴클레오타이드이다)로 나타나는 서열로 이루어지는 gRNA를 포함하는 복합체, 및 Microcystis aeruginosa의 Cas5d(서열 번호 1), Cas6d(서열 번호 2), Cas7d(서열 번호 3), Cas3d(서열 번호 4) 및 Cas10d(서열 번호 5)와, GUUCCAAUUAAUCUUAAGCCCUAUUAGGGAUUGAAACNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGUUCCAAUUAAUCUUAAGCCCUAUUAGGGAUUGAAAC(서열 번호 6; N은, 표적 뉴클레오타이드 서열에 상보적인 서열을 구성하는 임의의 뉴클레오타이드이다)로 나타나는 서열로 이루어지는 gRNA를 포함하는 복합체를 들 수 있다. 상기 gRNA의 서열 중, N의 수는 10∼70의 범위에서 변경해도 되고, 바람직하게는 20∼50, 보다 바람직하게는 25∼45, 더 바람직하게는 30∼40, 또한 더 바람직하게는 32∼37의 범위에서 변경해도 된다.

(9) 본 발명의 발현 벡터

본 발명은 더욱이, Cas3d, Cas5d, Cas6d, Cas7d 및 Cas10d를 포함하는 RNA 유도성 엔도뉴클레아제를 인코딩하는 핵산, 및 표적 서열에 상보적인 서열 및 해당 서열의 전후에 CRISPR 유전자자리에서 유래하는 공통 반복 서열을 포함하는 가이드 RNA를 인코딩하는 DNA를 포함하는 발현 벡터, 및 CRISPR 타입 I-D 관련 단백질 Cas5d, Cas6d 및 Cas7d를 인코딩하는 핵산, 및 표적 서열에 상보적인 서열 및 해당 서열의 전후에 CRISPR 유전자자리에서 유래하는 공통 반복 서열을 포함하는 가이드 RNA를 인코딩하는 DNA를 포함하는 발현 벡터를 제공한다.

본 발명의 벡터는, 상기 "(5) 본 발명의 표적 서열 타게팅 방법", "(6) 본 발명의 표적 서열 개변 방법", 및 "(7) 본 발명의 표적 유전자 발현 억제 방법"에 기재한 바와 같은, 상기 Cas 단백질 및 gRNA를 세포 중에 도입하기 위한 벡터이다. 해당 벡터의 도입 후, 해당 세포 중에서 상기 Cas 단백질 및 gRNA를 발현한다. 본 발명의 벡터는, 또한, 상기 gRNA에 포함되는 표적 서열을, 제한 부위를 포함하는 임의의 서열로 바꾼 벡터여도 된다. 이와 같은 벡터는, 해당 임의의 서열 부위에 원하는 표적 뉴클레오타이드 서열을 짜 넣어 사용된다. 해당 임의의 서열로서는, 예를 들어, CRISPR 타입 I-D의 유전자자리에 있는 스페이서 서열 또는 그 일부여도 된다.

(10) 본 발명의 표적 인식 모듈을 포함하는 융합 단백질

본 발명은, 더욱이, 상기 표적 인식 모듈 및 기능성 폴리펩타이드를 포함하는 융합 단백질을 제공한다. 해당 융합 단백질 및 상기 gRNA를 세포 중에 도입하면, 표적 인식 모듈 및 gRNA의 작용에 의해 융합 단백질이 세포 중의 표적 뉴클레오타이드 서열 또는 표적 유전자로 유도되어 상기 기능성 폴리펩타이드의 작용에 의해 해당 표적 뉴클레오타이드 서열 또는 표적 유전자가 개변 또는 수식된다. 따라서, 본 발명은 더욱이, 상기 융합 단백질 및 상기 gRNA를 세포 중에 도입하는 것을 특징으로 하는, 표적 뉴클레오타이드 서열 또는 표적 유전자의 개변 또는 수식 방법을 제공한다. 더욱이, 본 발명에서는, 상기 융합 단백질과 상기 gRNA를 포함하는 복합체도 제공된다.

상기 기능성 폴리펩타이드는, 표적 서열에 대해서 어떠한 기능을 나타내는 폴리펩타이드이며, 또한 Cas3d 및 Cas10d 이외의 폴리펩타이드이다. 상기 기능성 폴리펩타이드로서는, 예를 들어, 한정하는 것은 아니지만, 제한 효소, 전사 인자, DNA 메틸화 효소, 히스톤 아세틸화 효소, 형광 단백질, 및 폴리뉴클레오타이드 절단 모듈로서 제한 효소의 뉴클레오타이드 절단 모듈, 유전자 발현 조절 모듈로서 전사 인자의 전사 활성화 모듈 및 전사 억제 모듈, 에피게놈 수식 모듈로서, DNA 메틸화 효소의 메틸화 모듈 및 히스톤 아세틸화 효소의 아세틸화 모듈 등을 들 수 있다. 형광 단백질로서는, 예를 들어, GFP를 들 수 있다. 예를 들어, 상기 표적 인식 모듈과 폴리뉴클레오타이드 절단 모듈을 포함하는 융합 단백질은, gRNA와 함께 세포 중에 도입하는 것에 의해, 본 발명의 표적 서열 개변 방법과 마찬가지로, 표적 서열을 개변할 수 있다. 예를 들어, 상기 표적 인식 모듈과 유전자 발현 조절 모듈 또는 에피게놈 수식 모듈을 포함하는 융합 단백질은, gRNA와 함께 세포 중에 도입하는 것에 의해, 표적 서열을 수식하여, 표적 유전자의 발현을 조절할 수 있다. 예를 들어, 상기 표적 인식 모듈과 형광 단백질을 포함하는 융합 단백질은, gRNA와 함께 세포 중에 도입하는 것에 의해, 표적 서열 근방을 형광 표지화할 수 있다.

이하에, 본 발명의 실시예를 나타냈다. 단, 본 발명은 이들 실시예로 한정되지 않는다.

실시예

실시의 일 형태로서, Microcystis aeruginosa 유래의 CRISPR 타입 I-D(이하, "TiD"라고도 한다) 유전자자리 유래의 유전자군(Cas3d, Cas5d, Cas6d, Cas7d, Cas10d)을, 클론화하여 이용했다. 실시예 중의 DNA 서열의 가공 및 구축 조작에는, 인공 유전자 화학 합성, PCR법, 제한 효소 처리, 라이게이션, Gibson Assembly법의 어느 것을 이용했다. 또한, 염기 서열의 결정에는 산가법 혹은 차세대 시퀀스법을 이용했다.

실시예 1. 대장균에 있어서의 게놈 편집

본 실시예에서는, 대표적인 세균의 모델 생물인 대장균에 있어서 본 발명의 기술이 유효하게 기능함을 실증했다.

(1) TiD 유전자 발현 플라스미드의 구축

Microcystis aeruginosa(이하, "M. aeruginosa"라고도 한다)의 CRISPR 타입 I-D 유전자자리(이하, "TiD 유전자자리"라고도 한다) 유래의 유전자군을 클론화했다. TiD 유전자자리로부터 M. aeruginosa 유래의 Cas5d, Cas6d, Cas7d, Cas3d 및 Cas10d의 아미노산 서열 정보를 기초로, 각 Cas 단백질을 인코딩하는 대장균 코돈형의 서열(서열 번호 7∼11)을 인공 화학 합성했다. 각 유전자의 상류에 J23108 합성 프로모터(서열 번호 12), 혹은 합성 리보좀 결합 서열(서열 번호 13)을, 각 유전자의 하류에 터미네이터 서열(서열 번호 14∼17)을 부여한 DNA 단편을 플라스미드 벡터 pACYC184(Nippon gene사제)에 연결하여, pEcTiD1을 구축했다. 추가로 M. aeruginosa 유래의 CRISPR 타입 I-D 유전자자리의 근방에 존재하는 CRISPR 리피트 서열(crRNA, 서열 번호 18)을 추출하여, T7 프로모터(서열 번호 19)의 제어하에 crRNA 발현 카세트(서열 번호 20)를 합성했다. crRNA 발현 카세트에는 본 실시예의 표적 서열이 되는 대장균 ccdB 유전자의 프로모터 영역 서열을 포함하고 있다. crRNA 발현 카세트 서열을 pEcTiD1에 조합하여, pEcTiD2(도 2a)를 구축했다. 또한, DNA 이중쇄 절단을 수반하지 않는 게놈 편집을 행하는 TiD 발현 플라스미드 벡터로서, Cas5d, Cas6d 및 Cas7d 유전자 발현 카세트를 포함하는 pEcTiD3의 구축을 행했다(도 2b). 본 실시예에서 사용한 프로모터, 터미네이터, CRISPR 리피트 서열, 및 crRNA 발현 카세트 서열을 표 2에 나타낸다.

(2) 프로토스페이서 인접 모티프(PAM) 라이브러리의 구축

본 실시예에 있어서는, 표적 DNA로서 대장균 ccdB 유전자의 상류에 T7 프로모터 서열을 연결한 합성 ccdB 유전자 카세트(서열 번호 21)(표 3)를 이용하여, ccdB 유전자 상류의 T7프로모터 영역을 포함하는 35염기를 TiD의 표적 서열로 했다. 합성 ccdB 유전자 카세트를 플라스미드 벡터 pMW219(Nippon gene사제)의 멀티클로닝 사이트에 연결하여, pMW_ccdB1을 구축했다(도 3a).

CRISPR 시스템은, 표적 서열 근방에 위치하는 프로토스페이서 인접 모티프(PAM) 서열을 인식하여, 표적 서열과 gRNA를 개재시켜 결합한다. 그러나, 본 실시예에 이용한 M. aeruginosa TiD의 PAM 서열은 불명했었기 때문에, 우선, M. aeruginosa TiD의 PAM 서열의 결정을 행하기 위한 PAM 서열 라이브러리 플라스미드의 구축을 행했다. pMW_ccdB1의 T7 프로모터 상류에 랜덤인 4염기의 서열을 인공 화학 DNA 합성 및 PCR법을 이용하여 도입했다(도 3b). 구축한 pMW_ccdB-PAM 라이브러리 플라스미드는 CcdB 내성을 유지하는 대장균 ccdB 내성 세포주(Thermo Fisher Scientific사제)에 도입한 후, 대량 플라스미드 조제를 행했다.

(3) M. aeruginosa TiD 시스템에 있어서의 PAM 서열의 결정

pMW_ccdB-PAM 라이브러리 플라스미드 상의 T7 프로모터 영역과 상보적인 35 염기 서열을 짜 넣은 pEcTiD3-T7을 이용하여, TiD에 있어서의 PAM 서열 결정을 행했다. pEcTiD3-T7을 대장균 BL21AI주(Thermo Fisher Scientific사제)에 도입하여, ccdB 유전자 게놈 편집용 대장균 호스트주로 했다. BL21AI[pEcTiD3-T7]주는, 표적 서열 인식에 필요한 Cas5d, Cas6d 및 Cas7d 단백질을 산생한다. Cas5d/Cas6d/Cas7d-crRNA 복합체는, 적절한 PAM 서열에 인접하는 표적 서열을 인식하여, 표적 서열의 절단은 행하지 않지만, 표적 서열에 결합하는 것에 의해 표적 서열로 한 T7 프로모터의 기능을 저해한다.

BL21AI주에 도입한 pMW-ccdB-PAM의 ccdB 발현은 아라비노스 첨가 배지에 있어서 유도되고, CcdB 내성을 가지지 않는 BL21AI주는 사멸한다. 미리 TiD 발현 플라스미드를 도입한 BL21AI주에 pMW_ccdB-PAM 라이브러리 플라스미드를 도입하면, TiD가 인식하는 적절한 PAM 서열을 가지는 pMW_ccdB-PAM 라이브러리 플라스미드의 T7 프로모터 상에, pEcTiD3 플라스미드로부터 발현하는 Cas5d/Cas6d/Cas7-crRNA가 결합함으로써, CcdB 단백질 산생이 저해되기 때문에, 대장균 세포는 생육하는 것이 가능해진다. 생육되어 온 대장균 콜로니로부터 pMW_ccdB-PAM 라이브러리 플라스미드를 조제하고, PAM 서열을 시퀀스 해석하는 것에 의해 M. aeruginosa TiD의 PAM 서열이 결정된다.

대량 플라스미드 조제를 행한 pMW_ccdB-PAM 라이브러리 플라스미드를, 케미컬 컨피텐트 셀법에 의해 BL21AI[pEcTiD3-T7]주에 도입했다. pMW_ccdB-PAM 라이브러리 플라스미드 및 pEcTiD3-T7을 보지하는 BL21AI 세포는, 25mg/L 클로람페니콜, 25mg/L 카나마이신 및 1% 글루코스를 포함하는 LB 한천 배지 상에서 선발했다. 얻어진 대장균 콜로니 중 약 1x10⁷ 콜로니를 회수하여, 항생 물질 및 글루코스를 포함하지 않는 LB 액체 배지로 수회 세정을 행한 후, 1% 아라비노스를 포함하는 LB 액체 배지에 1x10⁶/mL가 되도록 재현탁했다. 현탁균액은 37℃, 2시간 침투 배양하여, 아라비노스에 의한 T7 프로모터의 발현 제어하에 있는 crRNA 및 ccdB의 발현 유도를 행한 후, 200μL의 균체액을 25mg/L 클로람페니콜, 25mg/L 카나마이신 및 1% 아라비노스를 포함하는 LB 한천 배지에 도포하고, 37℃에서 하룻밤 배양하여 얻어진 균체 콜로니를 회수했다. 회수된 약 500주의 콜로니로부터 플라스미드를 조제하여, PAM 서열 근방의 시퀀스 해석을 행했다. TiD 발현 플라스미드의 존재하에서 레스큐된 pMW_ccdB-PAM 라이브러리 플라스미드의 PAM 서열은, 5'-NGTH-3'(N=A, C, G 또는 T; H=A, C 또는 T)의 서열을 포함하고, 사용 빈도는 NGTA가 28%, NGTC가 33%, NGTT가 38%였다. 따라서, TiD가 이용하는 PAM 서열은, 5'-GTH-3'(H=A, C 또는 T)임을 알 수 있었다.

(4) 대장균에 있어서의 게놈 편집

pEcTiD3-T7과 pMW_ccdB-PAM 라이브러리 플라스미드를 이용하여 결정한 3종의 PAM 서열을 포함하는 pMW_ccdB-PAMgta, pMW_ccdB-PAMgtc 및 pMW_ccdB-PAMgtt를 구축하고, 각각 pEcTiD2-T7과 함께 BL21AI주에 도입했다. pMW_ccdB-PAMgta/pEcTiD2-T7, pMW_ccdB-PAMgtc/pEcTiD2-T7 및 pMW_ccdB-PAMgtt/pEcTiD2-T7을 보지하는 BL21AI주를 25mg/L 클로람페니콜, 25mg/L 카나마이신 및 1% 글루코스를 포함하는 LB 한천 배지 상에서 선발하고, 각각의 균주에 도입한 플라스미드가 포함되는 것을 시퀀스 해석에 의해 확인했다. 그 다음에, 올바른 플라스미드를 보지하는 BL21AI주를 25mg/L 클로람페니콜, 25mg/L 카나마이신 및 1% 아라비노스를 포함하는 LB 한천 배지에 도포하고, 37℃에서 하룻밤 배양한 바, 모든 균주에 있어서 생육이 확인되지 않아, Cas3 및 Cas10d의 존재하에 의한 플라스미드 DNA의 이중쇄 절단에 의한 것이라고 생각되었다.

실시예 2. 고등 식물에 있어서의 게놈 편집

본 실시예에서는, 고등 진핵생물의 게놈 편집의 실시예의 일 형태로서, Nicotiana benthamiana 및 Solanum lycopersicum에 있어서 본 발명의 기술이 유효하게 기능함을 실증했다.

(1) 고등식물 세포에 있어서의 TiD 유전자 발현 바이너리 벡터의 구축

M. aeruginosa 유래의 TiD 유전자자리로부터 Cas5d, Cas6d, Cas7d, Cas3d 및 Cas10d의 아미노산 서열 정보를 기초로, 애기장대 및 담배에 있어서의 코돈 빈도를 참조하여, 각 Cas 단백질을 인코딩하는 쌍자엽 식물 코돈형의 서열을 인공 화학 합성했다. 각 유전자의 5'측 상류에는, 탠덤으로 정렬된 2개의 핵이행 시그널을 포함하는 핵이행 시그널 서열(서열 번호 22, 서열 번호 23)을 부여하고, 추가로 각 유전자 사이를 자기 개열 펩타이드 2A 서열(서열 번호 24∼28)에 의해 연결한 DNA 단편을 제작했다. 2A 펩타이드 서열에 의해 연결한 5개의 TiD 유전자 단편의 5'측 상류에, 콜리플라워 모자이크 바이러스 35S 유전자 프로모터를 탠덤으로 2개 정렬하고 추가로 번역 인핸서 Ω 서열을 부가한 프로모터 서열(2x35S 프로모터; 서열 번호 29)을, 또한 3'측 하류에 애기장대 열쇼크 단백질 18.2kDa 유전자 터미네이터 서열(서열 번호 30)을 연결한 TiD 유전자 발현 카세트를 제작했다. TiD 유전자 발현 카세트를 바이너리 플라스미드 벡터 pCAMBIA2300에 클론화하여, pEgPTiD1을 구축했다(도 4a). 식물용 crRNA 발현 카세트에는, 2개의 crRNA 서열 사이에, 임의의 35염기 서열을 연결할 수 있도록 2개소의 제한 효소 BsaI 사이트를 포함하는 스페이서 서열을 배치한 DNA를 인공 화학 합성했다(서열 번호 31). 발현 제어 서열로서 5'측 상류에 애기장대 U6 snRNA-26 유전자의 프로모터 서열(서열 번호 32)을, 또한 3'측 하류에 폴리 T 서열을 부가한 식물용 crRNA 발현 카세트를 구축했다(도 4b). 식물용 crRNA 발현 카세트를 pEgPTiD1의 RB 서열과 2x35S 프로모터의 사이에 연결하여, pEgPTiD2를 구축하여, 식물 게놈 편집용의 TiD 유전자 발현 바이너리 플라스미드 벡터로 했다(도 4c). pEgPTiD1 및 pEgPTiD2 중에 있어서의, 핵이행 시그널이 부가된 각 Cas 단백질을 인코딩하는 쌍자엽 식물 코돈형의 서열을 서열 번호 33∼37에 나타낸다. 본 실시예에서 사용한 핵이행 시그널 서열, 자기 개열 펩타이드 2A 서열, 프로모터, 터미네이터, 및 crRNA 발현 카세트 서열을 표 4에 나타낸다.

[표 4-1]

[표 4-2]

(2) Nicotiana benthamiana에 있어서의 게놈 편집

담배에 있어서의 실시예에 있어서는, 표적 서열 및 해당 서열에 도입하는 변이로서, 피토엔 불포화화 효소(PDS) 유전자를 선택했다(도 5a의 a). 담배 PDS 유전자 중의 제 3 엑손으로부터 표적 서열 1(Target 1, 서열 번호 38)을 선택하고, 인공 화학 합성에 의해 식물용 crRNA 발현 카세트에 짜 넣은, pEgPTiD2-pds(1)을 구축했다. 마찬가지로, 제 6 엑손으로부터 표적 서열 2(Target 2, 서열 번호 39)를 선택하고, 인공 화학 합성에 의해 식물용 crRNA 발현 카세트에 짜 넣은, pEgPTiD2-pds(2)를 구축했다. 구축한 바이너리 벡터는, 각각 Agrobacterium tumefaciens GV2260주에 도입했다. 담배 PDS를 표적으로 하는 TiD 발현 벡터의 담배 세포로의 도입은, 아그로인필트레이션법에 의해 행했다. pEgPTiD2-pds(1) 혹은 pEgPTiD2-pds(2)를 보지하는 아그로박테리움 균주와 GFP 발현 바이너리 벡터를 보지하는 아그로박테리움 균주를 각각 배양하고, 벤타미아나 담배 본엽에 공감염을 행했다(도 5a의 b). 공감염 후, 3일 경과 후의 엽편에 있어서 GFP 형광을 발하는 영역으로부터 조제한 게놈 DNA를 주형으로 하여, 표적 서열을 포함하는 300∼500bp의 PDS 유전자 단편을 PCR 증폭했다. 증폭한 PCR 단편을 이용하여 Cel-1 어세이를 행하여, PDS 유전자 상에 도입된 변이의 유무를 해석했다. 컨트롤로서 GFP 발현 바이너리 벡터만을 도입한 담배 엽편을 이용했다. GFP 발현 벡터만을 도입했을 경우에는, PDS 유전자 상에 변이는 확인되지 않았지만, pEgPTiD2-pds 및 GFP 발현 벡터를 동시에 도입했을 경우에는, 각각의 PDS 유전자의 표적 서열 상에 변이 도입이 확인되었다(도 5b의 c). 표적 서열 1 및 2를 표 5에 나타낸다.

(3) Solanum lycopersicum에 있어서의 게놈 편집

토마토에 있어서의 실시예에 있어서는, 표적 서열 및 해당 서열에 도입하는 변이로서, Aux/IAA 전사 인자 IAA9 유전자를 선택했다(도 6a). 토마토 IAA9 유전자 중의 제 2 엑손으로부터 표적 서열 1(서열 번호 40)(표 6)을 선택하고, 인공 화학 합성에 의해 식물용 crRNA 발현 카세트에 짜 넣은, pEgPTiD2-iaa9를 구축했다. 구축한 바이너리 벡터는, Agrobacterium tumefaciens GV2260주에 도입했다. 토마토 IAA9 유전자를 표적으로 하는 TiD 발현 벡터의 토마토 세포로의 도입은, 토마토 자엽 유래의 리프 디스크를 가지고 있던 아그로박테리움법에 의해 행했다. 아그로박테리움과 공존 배양한 리프 디스크를 100mg/L 카나마이신 및 1.5mg/L t-제아틴을 포함하는 MS 고화 배지 상에서 배양하는 것에 의해, pEgPTiD2-iaa9 상의 T-DNA 영역의 유전자 도입이 생긴 캘러스를 얻었다(도 6b). IAA9의 표적 서열에는 제한 효소 AccI의 인식 서열이 존재하고, TiD에 의한 게놈 편집의 결과, 변이가 도입되면 AccI 인식 부위가 소실된다. 이것을 이용하여 AccI를 이용한 PCR-제한 효소 길이 다형(RFLP) 해석에 의해, IAA9의 표적 서열에 생긴 변이 해석을 행했다. 얻어진 형질 전환 캘러스로부터 조제한 게놈 DNA를 주형으로 하여, IAA9의 표적 서열을 포함하는 약 300b 영역을 PCR에 의해 증폭했다. PCR 단편을 AccI에 의해 제한 효소 절단을 행한 바, pEgPTiD2-iaa9를 도입한 캘러스 배양물 유래 PCR 단편 중에는, IAA9 표적 서열에 변이 도입이 일어난 결과, AccI에 의해 절단을 받지 않는 서열이 포함되어 있음을 알 수 있었다(도 6c). pEgPTiD2-iaa9 도입을 행한 캘러스 유래의 PCR 단편의 염기 서열을 결정한 바, IAA9의 표적 서열 상의 PAM 서열의 직후에 1b로부터 4b까지의 염기 결실형 혹은 염기 삽입형의 변이가 도입되어 있음이 분명해졌다(도 7).

pEgPTiD2-iaa9 도입을 행한 캘러스를, 추가로 100mg/L 카나마이신 및 1.0mg/L t-제아틴을 포함하는 MS 고화 배지 상에서 배양을 계속하여, 형질 전환 재분화 슛(shoot)을 얻었다. 얻어진 재분화 슛으로부터 조제한 게놈 DNA를 주형으로 하여, AccI에 의한 PCR-RFLP 해석을 행한 바, 도 8a에 나타내는 바와 같이, AccI에 의한 절단을 받지 않는 PCR 단편, 즉 IAA9 표적 서열에 변이가 거의 100% 도입된 형질 전환 재분화 슛이 얻어졌다. 재생시킨 14개체의 형질 전환 재생 슛 중, 13개체에 있어서 도 8a에 나타내는 바와 같이 되고, 이들로부터 재생한 식물 개체에서는, IAA9 유전자의 결손에 의한 표현형의 하나인, 토마토 본엽이 단엽 형상을 나타냈다. 이상과 같이, TiD를 이용한 게놈 편집에 의해, 고효율로 변이 도입이 가능함이 나타났다.

실시예 3. 고등동물에 있어서의 게놈 편집

본 실시예에서는, 고등동물에 있어서의 게놈 편집의 실시예의 일 형태로서, 인간 배성 신(腎)세포 유래 세포주 HEK293 세포에 있어서 본 발명의 기술이 유효하게 기능함을 실증했다.

(1) 고등동물 세포에 있어서의 TiD 유전자 발현 벡터의 구축

M. aeruginosa 유래의 TiD 유전자자리로부터 Cas5d, Cas6d, Cas7d, Cas3d 및 Cas10d의 아미노산 서열 정보를 기초로, 각 Cas 단백질을 인코딩하는 유전자 서열을 인공 화학 합성했다. 각 유전자의 5'측 상류에는, 탠덤으로 정렬된 2개의 핵이행 시그널을 포함하는 핵이행 시그널 서열(서열 번호 22, 서열 번호 23)을 부여하고, 추가로 각 유전자 사이를 자기 개열 펩타이드 2A 서열(서열 번호 24∼28)에 의해 연결한 DNA 단편을 제작했다. 2A 펩타이드 서열에 의해 연결한 5개의 TiD 유전자 단편의 5'측 상류에, 사이토메갈로바이러스 인핸서 + 닭 β-엑틴 유전자 프로모터 하이브리드 서열(CBh 프로모터; 서열 번호 41)을, 또한 3'측 하류에 소 유래 성장 호르몬 유전자 터미네이터 서열(bGH 터미네이터 서열 번호 42)을 연결한 TiD 유전자 발현 카세트를 제작하여, pCR8TOPO 벡터(서모 피셔 사이언티픽사제)에 연결한 pCR_hTiD를 구축했다. crRNA 발현 카세트로서, 2개의 crRNA 서열 사이에, 임의의 35염기 서열을 연결할 수 있도록 2개소의 제한 효소 BsaI 사이트를 포함하는 스페이서 서열을 배치한 DNA(서열 번호 31)를 인공 화학 합성했다. 발현 제어 서열로서 5'측 상류에 인간 U6 snRNA 유전자의 프로모터 서열(서열 번호 43)을, 또한 3'측 하류에 폴리 T 서열을 부가하여, pCR8TOPO 벡터(서모 피셔 사이언티픽사제)에 연결한 pCR_crRNA를 구축했다. pCR_hTiD 중에 있어서의 핵이행 시그널이 부가된 각 Cas 단백질을 인코딩하는 서열을 서열 번호 33∼37에 나타낸다. CBh 프로모터, bGH 터미네이터, 및 인간 U6 snRNA 유전자 프로모터 서열을 표 7에 나타낸다.

(2) 동물 배양 세포에 있어서의 게놈 편집

동물 배양 세포에 있어서의 실시예로서, 세포주에 인간 배성 신세포 유래 세포주(HEK293 세포주)를 이용하고, 표적 서열 및 해당 서열에 도입하는 변이로서, EMX1 유전자를 선택했다. EMX1 유전자 중의 표적 서열로서 타겟 1(서열 번호 44) 및 타겟 2(서열 번호 45)를 선택하고, 인공 화학 합성에 의해, 상기 (1)에서 제작한 인간 배양 세포용 crRNA 발현 카세트에 짜 넣은, 타겟 1을 포함하는 pUC_crRNA-T1 및 타겟 2를 포함하는 pUC_crRNA-T2를 구축했다. 구축한 플라스미드 벡터는 각각 대장균 HST08주(다카라 바이오사제)에 있어서 증폭하고 PureYield(등록상표) Plasmid Miniprep System(프로메가사제)을 이용하여 정제를 행했다. 정제한 플라스미드 중, pCR_hTiD 및 pUC_crRNA-T1의 혼합물 혹은, pCR_hTiD 및 pUC_crRNA-T2의 혼합물을 각각 HEK293 세포주에 트랜스펙션하여, 도입했다. 플라스미드 벡터 도입 3일째에 있어서의 세포주를 회수하고, Blood&Cell Culture DNA Mini Kit(키아겐사제)를 이용하여 게놈 DNA를 조제했다. 조제한 게놈 DNA를 주형으로 하여 타겟 1 및 타겟 2를 포함하는 게놈 서열 영역을 PCR에 의해 증폭하고, 자동 전기 영동 장치 MultiNA(시마즈 제작소제)를 이용한 헤테로2본쇄 이동도 분석에 의해 변이 해석을 행했다. 또한, 증폭한 PCR 단편을 pNEB193 벡터(New England Biolab사제)에 클론화하고, 시퀀스 해석에 의해 변이 서열을 동정했다. 체세포 변이 효율은, 각각 변이 서열이 확인된 클론수/해석 클론 총수에 의해 산출했다. 컨트롤로서 플라스미드 미도입, 혹은 pCR_hTiD, pUC_crRNA-T1 또는 pUC_crRNA-T2를 단독으로 도입한 세포주를 이용하여, 마찬가지로 변이 해석을 행했다. 도 9에 HEK293 세포주를 이용한 게놈 편집의 실험 스킴을 나타낸다.

도 10 및 도 11에, pCR_hTiD 및 pUC_crRNA-T1의 혼합물 또는 pCR_hTiD 및 pUC_crRNA-T2의 혼합물을 트랜스펙션한 HEK293 세포주, 또는 플라스미드를 도입하지 않았던 HEK293 세포주(컨트롤)의 결과를 나타낸다. 도 10 및 도 11에 나타내는 바와 같이, pCR_hTiD 및 pUC_crRNA-T1의 혼합물 혹은, pCR_hTiD 및 pUC_crRNA-T2의 혼합물을 트랜스펙션한 HEK293 세포주에서는, 표적 서열 상에 변이가 도입되었다고 생각되는 피크가 검출되었다. 한편, 컨트롤의 플라스미드 미도입 세포주에서는, 변이 도입이라고 생각되는 피크는 검출되지 않았다. 또한, pCR_hTiD, pUC_crRNA-T1 혹은 pUC_crRNA-T2를 각각 단독으로 트랜스펙션한 세포로부터 얻은 DNA에서도, 플라스미드 미도입 세포주를 이용했을 경우와 마찬가지로, 변이 도입이라고 생각되는 피크는 얻어지지 않았다.

또한, 변이 도입이라고 생각되는 피크가 헤테로2본쇄 이동도 분석에 의해 검출된 서열 샘플을 플라스미드 벡터에 클론화하고, 시퀀스 해석한 결과, 도 12 및 도 13에 나타내는 바와 같이, 타겟 1 및 타겟 2 상에 결실 혹은 삽입형의 변이가 도입되고 있음이 분명해졌다.

본 발명에 의하면, 종래의 CRISPR 타입 II 혹은 타입 V 유래 RNA 유도성 엔도뉴클레아제를 이용하는 게놈 편집 기술에서는 표적으로 할 수 없었던 유전자 서열을 표적으로 하는 것이 가능해졌다. 즉 본 발명에 의해, 종래 기술에서는 타게팅 불가능한 유전자 영역 상에서의 변이 알렐의 제작, 전사 활성화 및 불활성화에 의한 유전자 발현 제어, DNA 수식/히스톤 수식 단백질 도메인의 타게팅에 의한 에피게놈 개변을 실현하는 것이 가능해졌다.

SEQ ID NO: 1; Microcystis aeruginosa Cas5d amino acid sequence
SEQ ID NO: 2; Microcystis aeruginosa Cas6d amino acid sequence
SEQ ID NO: 3; Microcystis aeruginosa Cas7d amino acid sequence
SEQ ID NO: 4; Microcystis aeruginosa Cas3d amino acid sequence
SEQ ID NO: 5; Microcystis aeruginosa Cas10d amino acid sequence
SEQ ID NO: 6; TiDcrRNA containing direct repeat (37b) and spacer (35b of N). N is any nucleotide constituting a complementary sequence to a target nucleotide sequence.
SEQ ID NO: 7; Cas5d nucleotide sequence for expression in Escherichia coli
SEQ ID NO: 8; Cas6d nucleotide sequence for expression in Escherichia coli
SEQ ID NO: 9; Cas7d nucleotide sequence for expression in Escherichia coli
SEQ ID NO: 10; Cas3d nucleotide sequence for expression in Escherichia coli
SEQ ID NO: 11; Cas10d nucleotide sequence for expression in Escherichia coli
SEQ ID NO: 12; J23108 synthesis promoter
SEQ ID NO: 13; Ribosomal binding sequence
SEQ ID NO: 14; Terminator sequence STOP767
SEQ ID NO: 15; Terminator sequence STOP768(1)
SEQ ID NO: 16; Terminator sequence TOP768(2)
SEQ ID NO: 17; T7 terminator sequence
SEQ ID NO: 18; CRISPR repeat sequence
SEQ ID NO: 19; T7 promoter sequence
SEQ ID NO: 20; crRNA expression cassette
SEQ ID NO: 21; Synthesis cccdB gene expression cassette
SEQ ID NO: 22; Nuclear localizing signal (NLS) amino acid sequence
SEQ ID NO: 23; NLS nucleotide sequence
SEQ ID NO: 24; Self-cleaving peptide 2A amino acid sequence
SEQ ID NO: 25; Self-cleaving peptide 2A(1) coding sequence
SEQ ID NO: 26; Self-cleaving peptide 2A(2) coding sequence
SEQ ID NO: 27; Self-cleaving peptide 2A(3) coding sequence
SEQ ID NO: 28; Self-cleaving peptide 2A(4) coding sequence
SEQ ID NO: 29; 2 x cauliflower mosaic virus 35S gene promoter + omega sequence
SEQ ID NO: 30; Arabidopsis shock protein 18.2kDa gene terminator
SEQ ID NO: 31; crRNA expression cassette
SEQ ID NO: 32; Arabidopsis U6 snRNA-26 gene promoter sequence
SEQ ID NO: 33; 2xNLS + Cas5d
SEQ ID NO: 34; 2xNLS + Cas6d
SEQ ID NO: 35; 2xNLS + Cas7d
SEQ ID NO: 36; 2xNLS + Cas3d
SEQ ID NO: 37; 2xNLS + Cas10d
SEQ ID NO: 38; Target sequence 1 on tobacco PDS gene
SEQ ID NO: 39; Target sequence 2 on tobacco PDS gene
SEQ ID NO: 40; Target sequence on tomato IAA9 gene
SEQ ID NO: 41; Cytomegalovirus enhancer + universal chicken beta-actin gene hybrid promoter
SEQ ID NO: 42; Bovine-derived growth hormone gene terminator sequence
SEQ ID NO: 43; Human U6 snRNA gene promoter
SEQ ID NO: 44; Target 1 sequence on human EMX1 gene
SEQ ID NO: 45; Target 2 sequence on human EMX1 gene

SEQUENCE LISTING <110> Tokushima University <120> Target sequence-specific alteration technique using nucleotide target recognition <130> 674277 <150> JP2017-158876 <151> 2017-08-21 <150> JP2017-236518 <151> 2017-12-08 <160> 45 <170> PatentIn version 3.5 <210> 1 <211> 224 <212> PRT <213> Microcystis aeruginosa <400> 1 Met Val His Ile Tyr Ser Cys Gln Leu Glu Leu His Asp Ser Leu Tyr 1 5 10 15 Tyr Ala Thr Arg Glu Ile Gly Arg Leu Tyr Glu Ser Glu Pro Val Ile 20 25 30 His Asn Tyr Ala Leu Cys Tyr Ala Leu Gly Leu Val Asn Ser Asp Ser 35 40 45 Tyr Arg Tyr Phe Cys Ser Glu Gln Ile Pro Gln Tyr Gln Glu His Leu 50 55 60 Asn Pro Leu Asn Glu Glu Lys Ile Tyr Val Thr Pro Ala Arg Ala Ile 65 70 75 80 Ala His Thr Ala Val Leu Asn Thr Trp Lys Tyr Ala Asn Asn Asn Tyr 85 90 95 His Val Glu Met Glu Lys Thr Gln Lys Asn Ile Pro Ser Phe Gly Arg 100 105 110 Ala Lys Glu Ile Ala Pro Glu Ser Ile Phe Glu Cys Phe Ile Ile Ser 115 120 125 His His Pro Leu Gln Leu Pro Lys Trp Ile Arg Leu Gly Lys Trp Met 130 135 140 Ser Lys Ala Glu Val Lys Leu Thr Glu Leu Ser Leu Ser Lys Gln Lys 145 150 155 160 Glu Asp Leu Phe Ile Tyr Pro Tyr Pro Leu Asn Pro Leu Asp Val Met 165 170 175 Phe Thr His Gln Val Ile Gly Tyr Asp Val Ile Asn Met Pro Pro Val 180 185 190 Ser Leu Ile Arg Asn Val Arg Met Arg Gly Glu Tyr Tyr Gln Ile Ser 195 200 205 Asp Arg Pro Asp Leu Lys Ile Pro Ala Arg Leu Ser Tyr His Phe Gly 210 215 220 <210> 2 <211> 277 <212> PRT <213> Microcystis aeruginosa <400> 2 Met Pro Tyr Ser Leu Val Leu Asn Leu Thr Pro Arg Ser Pro Ile Tyr 1 5 10 15 Pro Asn Phe Leu Thr Gly Arg His Leu His Ala Leu Phe Leu Thr Leu 20 25 30 Val Ser Ser Val Asp Gln Glu Leu Gly Asn Ile Leu His Thr Ala Glu 35 40 45 Ala Asp Lys Ala Phe Thr Leu Ser Pro Leu Gln Met Gln Ser Gly Gly 50 55 60 Lys Thr Ile Asn Ser Pro Gln Trp Arg His Glu Arg Glu Ile Ala Ser 65 70 75 80 Glu Thr Pro Cys Trp Trp Arg Ile Ser Leu Leu Asp Asp Arg Leu Phe 85 90 95 Gly Lys Leu Thr Ser Leu Trp Leu Asn Leu Asn Pro Lys Gln Pro Trp 100 105 110 His Leu Gly Ser Ala Asp Leu Val Ile Thr Ser Val Leu Ala Thr Pro 115 120 125 Gln Ser Val Gln Pro Trp Ala Asn Ser Cys Thr Tyr Gln Tyr Leu Tyr 130 135 140 Glu Asn Ala Ser Glu Thr Asn Arg Glu Phe Asp Phe Leu Phe Ala Thr 145 150 155 160 Pro Val Thr Phe Arg Gln Gly Lys Phe Asp Ser Ala Leu Pro Thr Arg 165 170 175 Glu Leu Val Phe Asn Ser Leu Leu Gly Arg Trp Asn Arg Tyr Ser Gly 180 185 190 Ile Pro Phe Asp Ser Ile Ala Leu Glu Ser Ile Phe Pro Ser Phe Phe 195 200 205 Asp Ile Gln Thr Lys Leu Ala Asp Glu Ala Tyr Lys Asn Gln Ser Ile 210 215 220 Gly Cys Val Gly Glu Ile His Tyr Arg Leu Leu Gly Glu Val Glu Pro 225 230 235 240 Ala Lys Ile Lys Ala Ile Asn Ala Leu Ala Asp Phe Ala Leu Tyr Ala 245 250 255 Gly Val Gly Arg Lys Thr Thr Met Gly Met Gly Met Thr Arg Arg Ile 260 265 270 Ser Lys Asp Lys Arg 275 <210> 3 <211> 332 <212> PRT <213> Microcystis aeruginosa <400> 3 Thr Phe Leu Thr Ser Val Asp Ala Lys Phe Phe His Ser Glu Ile Pro 1 5 10 15 Tyr Lys Pro Met Gly Lys Tyr Val His Phe Leu Thr Ile Arg Val Thr 20 25 30 Glu Ser Tyr Pro Leu Phe Gln Thr Asp Gly Glu Leu Asn Lys Ala Arg 35 40 45 Val Arg Ala Gly Ile Asp Ser Lys Lys Thr Ile Ser Arg Leu Ser Met 50 55 60 Phe Lys Arg Lys Gln Ser Thr Pro Glu Arg Leu Val Gly Arg Glu Leu 65 70 75 80 Leu Arg Asn Tyr Gly Leu Ile Thr Ala Glu Glu Cys Glu Tyr Asn Val 85 90 95 Lys Phe Ala Met Asn Asn Ala Asp Cys Ile Ile Tyr Gly Phe Ala Ile 100 105 110 Gly Asp Ser Gly Ser Glu Lys Ser Lys Val Val Val Asp Thr Ala Phe 115 120 125 Ser Ile Thr Pro Phe Asp Glu Ser His Glu Ser Phe Thr Leu Asn Ala 130 135 140 Pro Tyr Glu Asn Gly Thr Met Ala Ser Lys Gly Glu Asn Asn Thr Lys 145 150 155 160 Val Gly Glu Val Thr Ser Arg Ile Asn Gln Gln Asp His Ile Arg Pro 165 170 175 Gln Val Phe Phe Pro Ser Ile Val Thr Leu Lys Asp Pro Thr Glu Ala 180 185 190 Ser Phe Leu Tyr Val Phe Asn Asn Ile Leu Arg Thr Arg His Tyr Gly 195 200 205 Ala Gln Thr Thr Arg Thr Gly Arg Val Arg Asn Glu Leu Ile Gly Val 210 215 220 Ile Phe Ala Asp Gly Glu Ile Val Ser Asn Leu Arg Trp Thr Gln Ala 225 230 235 240 Ile Tyr Asp Arg Leu Pro Asp Glu Val Leu His Ser Ile Asp Pro Leu 245 250 255 Asp Glu Asp Leu Val Met Glu Lys Ala Thr Glu Ala Ile Gln Ala Leu 260 265 270 Met Ala Glu Glu Phe Ile Val His Thr Asp Phe Ile Gly Glu Asn Phe 275 280 285 Gln Pro Leu Leu Thr Glu Val Lys Thr Leu Thr Gly Thr Glu Ala Gly 290 295 300 Ile Leu Ser Val Leu Asp Gln Ala Asn Lys Glu Ser Lys Lys Tyr Phe 305 310 315 320 Glu Gln Tyr Ile Glu Lys Lys Lys Ala Glu Lys Lys 325 330 <210> 4 <211> 721 <212> PRT <213> Microcystis aeruginosa <400> 4 Met Gly Asn Tyr Gln Val Thr Leu Lys Pro Val Tyr Ser Cys Pro Ala 1 5 10 15 Asp Glu Ile Pro Asp Gly Ile Lys Val Pro Gln Gly Trp Arg Leu Ser 20 25 30 Trp His Gln Val Glu Thr Trp Lys Ala Leu Asn Asp Pro Asp Ile Asp 35 40 45 Val Ile Phe Asn Thr Ala Met Thr Gly Asp Gly Lys Ser Leu Ala Ala 50 55 60 Tyr Leu Arg Thr Leu Gln Gly Tyr Phe Pro Ile Met Gly Leu Tyr Pro 65 70 75 80 Thr Asn Glu Leu Ala Arg Asp Gln Arg Gly Gln Ile Glu Ala Tyr Ile 85 90 95 Gln Arg Phe Gln Pro Thr Asp Gln Pro Arg Val Asn Leu Leu Thr Gly 100 105 110 Pro Glu Leu Glu Leu Tyr Ala Glu Arg Asp Gly Lys Thr Lys Ala Ile 115 120 125 Ala Leu Glu Thr Arg Ser Lys Gln Ser Glu Ile Leu Leu Thr Asn Pro 130 135 140 Asp Ile Phe His Tyr Leu His Arg Ala Ala Tyr Leu Thr Pro Tyr Asp 145 150 155 160 Asn Pro Asp Gln Leu Trp Asn Arg Ile Asp Lys His Phe Asp Leu Phe 165 170 175 Leu Phe Asp Glu Phe His Val Phe Gly Thr Pro Gln Val Ala Ser Ile 180 185 190 Ile Asn Thr Met Leu Leu Ile Arg Arg Ala Asn Arg Gly Lys Arg Tyr 195 200 205 Leu Phe Leu Ser Ala Thr Pro Asp Glu Gly Leu Leu Lys Arg Leu Asp 210 215 220 Lys Ala Gly Phe Arg Tyr Arg Ser Ile Asp Pro Val Arg Glu Gly Lys 225 230 235 240 Tyr Arg Phe Pro Asp Thr Pro Glu Glu Ala Asn Ser Leu Ala Gln Gln 245 250 255 Gly Trp Arg Gln Val Thr Ser Glu Ile Glu Leu Ser Phe Ile Pro Leu 260 265 270 Pro Ser Ser Phe Gln Thr Ser Glu Asn Trp Leu Lys Glu Asn Lys Glu 275 280 285 Arg Ile Leu Asp Tyr Phe Lys Arg Tyr Pro Gly Ser Lys Gly Ala Ile 290 295 300 Ile Leu Asn Ser Ile Ala Ser Val Lys Arg Leu Leu Pro Ile Phe Arg 305 310 315 320 Glu Leu Leu Ala Thr Ile Gly Leu Thr Val Gly Glu Asn Thr Gly Leu 325 330 335 Ser Gly Thr Arg Glu Lys Leu Ala Ser Leu Asn Arg Asp Leu Val Ile 340 345 350 Gly Thr Ser Thr Ile Asp Val Gly Val Asp Phe Lys Ile Asn Phe Leu 355 360 365 Ile Phe Glu Ser Ser Asp Ala Gly Asn Phe Ile Gln Arg Phe Gly Arg 370 375 380 Leu Gly Arg His Ser Gly Tyr Asp Arg Lys Gly Thr Ala Val Lys Phe 385 390 395 400 Thr Asn Phe Thr Ala Ile Ala Leu Val Pro Lys Phe Phe Leu Glu Arg 405 410 415 Leu Phe Glu Lys Lys Asp Ala Pro Leu Gln Val Gly Glu Arg Tyr Asp 420 425 430 Arg Ile Gln Leu Gln Glu Ala Ile Lys Ser Asn Tyr Arg His Ile Asn 435 440 445 Asn Phe Glu Gly Tyr Tyr Gln Arg Trp Gly Ala Val Gln Ser Phe Gln 450 455 460 Leu Trp Trp Asn Leu Gly Ser Pro Lys Ile Lys Ser Gln Tyr Gly Glu 465 470 475 480 Ser Arg Gln Lys Phe Gln Gln Glu Cys Glu Glu Val Phe Asp Thr Ser 485 490 495 Leu Lys Arg Val Ala Gly Arg Val Lys Gly Trp Ala Asp Glu Trp Lys 500 505 510 Glu Leu Ser Gly Lys Asn Gly Asn Pro Ile Phe Glu Asp Ala Ser Ser 515 520 525 Phe Arg Gly Ser Ser Pro Leu Leu Cys Gly Leu Tyr Asp Ser Thr Glu 530 535 540 Pro Glu Glu Cys Asp Arg Phe Lys Thr Tyr Asp Leu Pro Ser Ile Leu 545 550 555 560 Gly Asn Leu Glu Val Glu Val Trp Arg Lys Gly Glu Phe Lys Arg Gln 565 570 575 Ile Glu Ala Thr Lys Thr Pro Ile Ala Arg Arg Arg Phe Asp Tyr Cys 580 585 590 Leu Ala Phe Leu Asn Leu Lys Gly Tyr Arg Glu Glu Arg Leu Asn Trp 595 600 605 Arg Phe Thr Tyr Asp Gly Asp Leu Gly Glu Ile Ala Ser Ala Trp Lys 610 615 620 Val Gln Val Leu Thr Gly Ile Gly Val Trp Gln Pro Asp Asn Pro Trp 625 630 635 640 Leu Asp Arg Ile Ser Arg Glu Leu Arg Asp Leu Ala Leu Val Ser Phe 645 650 655 Val Phe Ala Tyr Pro Val Ala Ala Val Arg Gln Arg Leu Gln Leu Pro 660 665 670 Met His Phe Gly Ile Tyr Pro Ile Ser Asp Glu Ser Ser Leu His Ser 675 680 685 Pro Leu Ser Pro Tyr Ser Ile Ala Ile Gly Gln Ala Ala Leu Leu Leu 690 695 700 Asp Thr Leu Ala His Arg Phe Lys Gly Lys Gly Gly Glu Val Trp Ile 705 710 715 720 Cys <210> 5 <211> 1156 <212> PRT <213> Microcystis aeruginosa <400> 5 Met Pro Lys Lys Gln Lys Lys Leu Glu Glu Thr Gly Gln Leu Asn Leu 1 5 10 15 Phe Asp Asn Thr Thr Glu Ile Asp Asp Glu Asp Leu Asp Phe Glu Phe 20 25 30 Glu Asp Ile Asp Leu Glu Ser Leu Val Ser Glu Asp Leu Gly Ile Thr 35 40 45 Glu Ser Val Ser Asp Arg Arg Val Glu Thr Val Arg Gln Leu Leu Thr 50 55 60 Leu Lys Leu Leu Arg Glu Ala Ile Arg Ala Glu Asn Pro Asp Asp Arg 65 70 75 80 Val Met Ala Asp Phe Ala Glu Met Val Leu Pro Asn Leu Leu Arg Leu 85 90 95 Ala Ile Gly Val Thr Ala Lys Gly Gly Asn Phe Ile Glu Ala Val Asp 100 105 110 Arg Gly Arg Glu Leu Arg Asn Lys Pro Lys Ala Lys Arg Asp Asn Ala 115 120 125 Gly Asp Gln Ser Leu Asn Thr His Leu Leu Asn Gly Leu Phe Pro Ala 130 135 140 Asn Leu Ile Glu Lys Arg Leu Gln Lys Leu Asn Thr Thr Val Arg Arg 145 150 155 160 Ile Ile Lys Glu Phe Glu Arg Arg Leu Ala Ile Ala Gly Phe Leu Val 165 170 175 His Asp Phe Glu Lys Phe Ser Tyr Asp Arg Phe Pro Ser Met Ser Glu 180 185 190 Arg Tyr Ile Gln Ile Gln Arg Asp Phe Ile Gln Asp Pro Phe Lys Asn 195 200 205 Gln Asp Pro Arg Lys Leu Ser Arg Glu Glu His Arg Glu Ile Leu Gln 210 215 220 Val Leu Ile Pro Glu Leu Gly Leu Asp Arg Phe Leu Phe Pro Asp Asn 225 230 235 240 Pro Glu Arg Trp Leu Glu Tyr Leu Asp Asp Leu Leu Tyr Ile Ala Lys 245 250 255 Asn Thr Gln Arg Arg Asn Asp Thr Asp Leu Asn Thr Ser Glu Asp Gly 260 265 270 Leu Asn Val Arg Leu Asn Asp Arg Val Ile Glu Ser Leu Cys Asp Leu 275 280 285 Ala Cys Leu Ala Asp Arg Leu Ala Ser Ile Ile Lys His Pro His Asp 290 295 300 Ala Glu Lys Ala Ser Leu Gln Asp Leu Leu Tyr Ser Leu Ser Asp Gly 305 310 315 320 Glu Leu Lys Phe Thr Tyr His Ser Ile Ala Glu Asn Arg Gly Val Leu 325 330 335 Thr Asn Val Leu Asn Asn Ala Val Met Glu Ala His Gln Glu Leu Asp 340 345 350 Tyr Gln Pro Leu Leu Tyr Leu Pro Thr Gly Val Val Tyr Ile Ala Pro 355 360 365 Lys Asn Ala Pro Glu Val Ser Leu Glu Thr Leu Pro Asn Arg Val Val 370 375 380 Asp Thr Ile Lys Ser Leu Cys Ser Gly Glu Leu Gln Arg Lys Gln Thr 385 390 395 400 Gly Phe Gly Arg Asp Gly Lys Gly Met Lys Tyr Ala Asp Tyr Tyr Ser 405 410 415 Gln Phe Phe Asp Asp Ala Gly Leu Met Arg Ala Ala Leu Asn Ala Thr 420 425 430 Leu Arg Ile Leu Gly Asp Asn Lys Ala Ser Val Ala Arg Ser Arg Gly 435 440 445 Glu Asn Leu Ile Lys Phe Gln Gln Gln Gly Val Leu Pro Thr Asp Tyr 450 455 460 Asp Phe His Cys Glu Asp Asp Ile Arg Ile Asp Arg Leu Ala Glu Phe 465 470 475 480 Gly Asp Val Val Thr Arg Lys Ile Trp Gly Asp Arg Leu Glu Lys Ile 485 490 495 Glu Gln Ala Arg Lys Leu Gln Lys Asn Leu Pro Ala Pro Pro Asp Leu 500 505 510 Asp Leu Ile Ser Glu Ile Ala His Tyr Trp Asn Leu Glu Asn Tyr Leu 515 520 525 Pro Gln Ile Arg Ala Ile Lys Arg Ile Asn Glu Ser Leu Lys Glu Leu 530 535 540 Lys Leu Lys Gly Asn Thr Gly Gly Val Pro Tyr Glu Trp Tyr Tyr Leu 545 550 555 560 Ala Ala Gln Tyr Leu Lys Gln His Pro Gly Ile Glu Asp Ile Arg Pro 565 570 575 Val Ala Glu Asp Leu Ile Ala Phe Leu Ala Ala Lys Ile Ala Ala Ile 580 585 590 Val Ala Gly Tyr Asn Leu Pro Asp Gly Trp Glu Asp Leu Arg Glu Trp 595 600 605 Val Asn Gln Val Val Gln Leu Pro Gly Arg Glu Leu Ala His Ser Ile 610 615 620 Glu Thr Phe Gln Lys Glu Leu Asn His Tyr Asn Ala Ala Lys Lys Gln 625 630 635 640 Gly Arg Gly Arg Gln Leu Leu Cys Ser Ile Ser His Ser Pro Tyr Ser 645 650 655 Val Ser Glu Gln Met Glu Ser Ala Val Leu Phe Thr Pro Gln Val Tyr 660 665 670 Thr Asn Lys Gln Met Leu Ala Gly Ser Asn Ala Lys Arg Asn Ile Ser 675 680 685 Ser Ile Ala Gly Thr Glu Met Met Leu Arg Gln Ile Leu Met Asn Gln 690 695 700 Thr Gln Ala Val Gly Lys Arg Phe Glu Asp Gly Lys Tyr Arg Tyr Leu 705 710 715 720 Tyr Phe Tyr Pro Thr Tyr Tyr Phe Thr Pro Glu Thr Asn Ser Phe Leu 725 730 735 Gln Lys Ala Tyr Ala Asn Ile Ala Gln Thr Arg Phe Asp Ser Ser Ile 740 745 750 Lys Leu His Phe Val Asp Lys Asn Leu Val Ala Asn Phe Asp Arg Thr 755 760 765 Arg Tyr Gln Ser Val Asp Ser Phe Leu Ile Asp Glu Lys Leu Arg Gln 770 775 780 Lys Lys Glu Thr Ile Asn Glu Glu Glu Asp Gly Lys Lys Asp Arg Thr 785 790 795 800 Phe Lys Leu Ser Tyr Pro Glu Asp Lys Pro Leu Thr Phe Tyr Phe Met 805 810 815 Ala Leu Pro Pro Gly Arg Asn Pro Thr Asp Thr Glu Ser Trp Val Met 820 825 830 Pro Ala Trp Leu Gly Leu Ala Phe Pro Met Ile Leu Asp Val Lys Thr 835 840 845 Val Val Ser Glu Ser Pro Ile Pro Pro Tyr Arg Asp Gly Ala Glu Phe 850 855 860 Glu Glu Thr Val Phe Leu Asp Ser Ala Pro Gln Ala Ile Arg Ser Leu 865 870 875 880 Thr Arg Cys Asp Arg Phe Arg Leu Asp Arg Val Leu Asn Pro Trp Gln 885 890 895 Asp Asn Asp Gly Lys Lys Tyr Ser Ala Pro Leu Asn Thr Leu Thr Ala 900 905 910 Ala Tyr Ser Ile His Leu Asp Val Asn Ser Lys Gln Gly Lys Thr Gly 915 920 925 Tyr Asp Pro Asn Trp Gly Lys Leu Thr Glu Leu Ala Ile Asn Leu Glu 930 935 940 Thr Ser Pro Leu Tyr Val Phe His Tyr Phe Lys Gln Trp Lys Arg Gly 945 950 955 960 Lys Asp Ala Asp Ile Pro Ser Ala Asn Arg Ile Ala Leu Tyr Leu Tyr 965 970 975 Asp Phe Tyr Pro Cys Phe Asp Pro Tyr Val Gln Ala Asn Arg Thr Asn 980 985 990 Leu Thr Ile Asp Met Thr Ala Glu Ser Pro Leu Asn His Pro Lys Asn 995 1000 1005 Leu Thr Glu Leu Tyr Arg Gln Phe Tyr Arg Ala Lys Ser Ser Lys 1010 1015 1020 Gly Lys Pro Ile Lys Ala Asn Ala Ile Leu Lys Pro Ile Asp Glu 1025 1030 1035 Ala Ala Asp Ile Ile Leu Lys Ala Asp Lys Ala Ile Ser Asp Asp 1040 1045 1050 Leu Thr Ser Leu Val Ala Ala Arg Leu Phe Lys Leu Met Asp Arg 1055 1060 1065 Val Arg Ser Gln Thr Ala Glu Gly Arg Tyr Val Ile Lys Glu Arg 1070 1075 1080 Asp Gln Glu Arg Glu Lys Ile Leu Asp Phe Ala Lys Tyr Phe Val 1085 1090 1095 Lys Asn Val Phe Glu Glu Ser Phe Glu Ser Asp Arg Ala Arg Leu 1100 1105 1110 Ala Gly Arg Gln Leu Asn Ile Ile Arg Asp Thr Cys Glu Phe Leu 1115 1120 1125 Tyr Arg Leu Glu Met Asp Lys Glu Arg Arg Gln Arg Gln Val Gln 1130 1135 1140 Pro Leu Asp Thr Ser Asn Ser Ser Ser Glu Glu Glu Glu 1145 1150 1155 <210> 6 <211> 109 <212> RNA <213> Artificial <220> <223> TiDcrRNA <220> <221> misc_feature <222> (38)..(72) <223> n is a, c, g, or u <400> 6 guuccaauua aucuuaagcc cuauuaggga uugaaacnnn nnnnnnnnnn nnnnnnnnnn 60 nnnnnnnnnn nnguuccaau uaaucuuaag cccuauuagg gauugaaac 109 <210> 7 <211> 675 <212> DNA <213> Artificial <220> <223> Cas5d nucleotide sequence for expression in Escherichia coli <400> 7 atggtgcata tttatagctg ccagctggaa ctgcatgata gcctgtatta tgcgacccgc 60 gaaattggcc gcctgtatga aagcgaaccg gtgattcata actatgcgct gtgctatgcg 120 ctgggcctgg tgaacagcga tagctatcgc tatttctgca gcgaacagat tccgcagtat 180 caggaacatc tgaacccgct gaacgaagaa aaaatttatg tgaccccggc gcgcgcgatt 240 gcgcataccg cggtgctgaa cacctggaaa tatgcgaaca acaactatca tgtggaaatg 300 gaaaaaaccc agaaaaacat tccgagcttc ggccgcgcga aagaaattgc gccggaaagc 360 attttcgaat gcttcattat tagccatcat ccgctgcagc tgccgaaatg gattcgcctg 420 ggcaaatgga tgagcaaagc ggaagtgaaa ctgaccgaac tgagcctgag caaacagaaa 480 gaagatctgt tcatttatcc gtatccgctg aacccgctgg atgtgatgtt cacccatcag 540 gtgattggct atgatgtgat taacatgccg ccggtgagcc tgattcgcaa cgtgcgcatg 600 cgcggcgaat attatcagat tagcgatcgc ccggatctga aaattccggc acgtctgagc 660 tatcatttcg gctaa 675 <210> 8 <211> 834 <212> DNA <213> Artificial <220> <223> Cas6d nucleotide sequence for expression in Escherichia coli <400> 8 atgccgtata gcctggtgct gaacctgacc ccgcgcagcc cgatttatcc gaacttcctg 60 accggccgcc atctgcatgc gctgttcctg accctggtga gcagcgtgga tcaggaactg 120 ggcaacattc tgcataccgc ggaagcggat aaagcgttca ccctgagccc gctgcagatg 180 cagagcggcg gcaaaaccat taacagcccg cagtggcgcc atgaacgcga aattgcgagc 240 gaaaccccgt gctggtggcg cattagcctg ctggatgatc gcctgttcgg caaactgacc 300 agcctgtggc tgaacctgaa cccgaaacag ccgtggcatc tgggcagcgc ggatctggtg 360 attaccagcg tgctggcgac cccgcagagc gtgcagccgt gggcgaacag ctgcacctat 420 cagtatctgt atgaaaacgc gagcgaaacc aaccgcgaat tcgatttcct gttcgcgacc 480 ccggtgacct tccgccaggg caaattcgat agcgcgctgc cgacccgcga actggtgttc 540 aacagcctgc tgggccgctg gaaccgctat agcggcattc cgttcgatag cattgcgctg 600 gaaagcattt tcccgagctt cttcgatatt cagaccaaac tggcggatga agcgtataaa 660 aaccagagca ttggctgcgt gggcgaaatt cattatcgcc tgctgggcga agtggaaccg 720 gcgaaaatta aagcgattaa cgcgctggcg gatttcgcgc tgtatgcggg cgtgggccgc 780 aaaaccacca tgggcatggg catgacccgc cgcattagca aagataaacg ctaa 834 <210> 9 <211> 1002 <212> DNA <213> Artificial <220> <223> Cas7d nucleotide sequence for expression in Escherichia coli <400> 9 atgaccttcc tgaccagcgt ggatgcgaaa ttcttccata gcgaaattcc gtataaaccg 60 atgggcaaat atgtgcattt cctgaccatt cgcgtgaccg aaagctatcc gctgttccag 120 accgatggcg aactgaacaa agcgcgcgtg cgcgcgggca ttgacagcaa gaaaaccatt 180 agccgcctga gcatgttcaa acgcaaacag agcaccccgg aacgcctggt gggccgcgaa 240 ctgctgcgca actatggcct gattaccgcg gaagaatgcg aatataacgt gaaattcgcg 300 atgaacaacg cggattgcat tatttatggc ttcgcgattg gcgatagcgg cagcgaaaaa 360 agcaaagtgg tggtggatac cgcgttcagc attaccccgt tcgatgaaag ccatgagagc 420 ttcaccctga acgcgccgta tgaaaacggc acgatggcga gcaaaggcga aaacaacacc 480 aaagtgggcg aagtgaccag ccgcattaac cagcaggatc atattcgccc gcaggtgttc 540 ttcccgagca ttgtgaccct gaaagatccg accgaagcga gcttcctgta tgtgttcaac 600 aacattctgc gcacccgcca ttatggcgcg cagaccaccc gcaccggccg cgtgcgcaac 660 gaactgattg gcgtgatttt cgcggatggc gaaattgtga gcaacctgcg ctggacccag 720 gcgatttatg atcgcctgcc ggatgaagtg ctgcatagca ttgatccgct ggatgaagat 780 ctggtgatgg aaaaagcgac cgaagcgatt caggcgctga tggcggaaga atttattgtg 840 cataccgatt tcattggcga aaacttccag ccgctgctga ccgaagtgaa aaccctgacc 900 ggcaccgaag cgggcattct gagcgtgctg gatcaggcga acaaagaaag caaaaaatat 960 ttcgaacagt atattgaaaa gaaaaaggcg gaaaagaaat aa 1002 <210> 10 <211> 2166 <212> DNA <213> Artificial <220> <223> Cas3d nucleotide sequence for expression in Escherichia coli <400> 10 atgggaaact atcaggtgac tcttaagcca gtgtattctt gcccagctga cgagatccca 60 gacggaatca aggtgccaca gggatggaga ctttcttggc accaggtgga gacttggaag 120 gctcttaacg acccagacat cgacgtgatc ttcaacactg ctatgactgg agacggaaag 180 tctcttgctg cttatcttag aactcttcag ggatatttcc caatcatggg actttatcca 240 actaacgagc ttgctagaga tcagagagga cagatcgagg cttatatcca gagattccag 300 ccaactgacc agccaagagt gaaccttctt actggaccag agcttgagct ttatgctgag 360 agagacggaa agactaaggc tatcgctctt gagactagat ctaagcagtc tgagatcctt 420 cttactaacc cagacatctt ccactatctt cacagagctg cttatcttac tccatatgac 480 aacccagacc agctttggaa cagaatcgac aagcacttcg accttttcct tttcgacgag 540 ttccacgtgt tcggaactcc acaggtggct tctatcatca acactatgct tcttatcaga 600 agagctaaca gaggaaagag atatcttttc ctttctgcta ctccagacga gggacttctt 660 aagagacttg acaaggctgg attcagatat agatctatcg acccagtgag agagggaaag 720 tatagattcc cagacactcc agaggaggct aactctcttg ctcagcaggg atggagacag 780 gtgacttctg agatcgagct ttctttcatc ccacttccat cttctttcca gacttctgag 840 aactggctta aggagaacaa ggagagaatc cttgactatt tcaagagata tccaggatct 900 aagggagcta tcatccttaa ctctatcgct tctgtgaaga gacttcttcc aatcttcaga 960 gagcttcttg ctactatcgg acttactgtg ggagagaaca ctggactttc tggaactaga 1020 gagaaacttg cttctcttaa cagagatctt gtgatcggaa cttctactat cgacgtggga 1080 gtggacttca agatcaactt ccttatcttc gagtcttctg acgctggaaa cttcatccag 1140 agattcggaa gacttggaag acactctgga tatgacagaa agggaactgc tgtgaagttc 1200 actaacttca ctgctatcgc tcttgtgcca aagttcttcc ttgagagact tttcgagaag 1260 aaggacgctc cacttcaggt gggagagaga tatgacagaa tccagcttca ggaggctatc 1320 aagtctaact atagacacat caacaacttc gagggatatt atcagagatg gggagctgtg 1380 cagtctttcc agctttggtg gaaccttgga tctccaaaga tcaagtctca gtatggagag 1440 tcaagacaga agttccagca ggagtgcgag gaggtgttcg acacttctct taagagagtg 1500 gctggaagag tgaagggatg ggctgacgag tggaaggagc tttctggaaa gaacggaaac 1560 ccaatcttcg aggacgcttc ttctttcaga ggatcttctc cacttctttg cggactttat 1620 gactctactg agccagagga gtgcgacaga ttcaagactt atgaccttcc atctatcctt 1680 ggaaaccttg aggtggaggt gtggagaaag ggagagttca agagacagat cgaggctact 1740 aagactccaa tcgctagaag aagattcgac tattgccttg ctttccttaa ccttaaggga 1800 tatagagagg agagacttaa ctggagattc acttatgacg gagatcttgg agagatcgct 1860 tctgcttgga aggtgcaggt gcttactgga atcggagtgt ggcagccaga caacccttgg 1920 cttgacagaa tctcaagaga gcttagagat cttgctcttg tgtctttcgt gttcgcttat 1980 ccagtggctg ctgtgagaca gagacttcag cttccaatgc acttcggaat ctatccaatc 2040 tctgacgagt cttctcttca ctctccactt tctccatatt ctatcgctat cggacaggct 2100 gctcttcttc ttgacactct tgctcacaga ttcaagggaa agggaggaga ggtgtggatc 2160 tgctag 2166 <210> 11 <211> 3471 <212> DNA <213> Artificial <220> <223> Cas10d nucleotide sequence for expression in Escherichia coli <400> 11 atgccaaaga agcagaagaa gcttgaggag actggacagc ttaacctttt cgacaacact 60 actgagatcg acgacgagga ccttgacttc gagttcgagg acatcgacct tgagtctctt 120 gtgtctgagg accttggaat cactgagtct gtgtctgaca gaagagtgga gactgtgaga 180 cagcttctta ctcttaagct tcttagagag gctatcagag ctgagaaccc agacgacaga 240 gtgatggctg acttcgctga gatggtgctt ccaaaccttc ttagacttgc tatcggagtg 300 actgctaagg gaggaaactt catcgaggct gtggacagag gaagagagct tagaaacaag 360 ccaaaggcta agagagacaa cgctggagat cagtctctta acactcacct tcttaacgga 420 cttttcccag ctaaccttat cgagaagaga cttcagaagc ttaacactac tgtgagaaga 480 atcatcaagg agttcgagag aagacttgct atcgctggat tccttgtgca cgacttcgag 540 aagttctctt atgacagatt cccatctatg tctgagagat atatccagat ccagagagac 600 ttcatccagg acccattcaa gaaccaggac ccaagaaagc tttcaagaga ggagcacaga 660 gagatccttc aggtgcttat cccagagctt ggacttgaca gattcctttt cccagacaac 720 ccagagagat ggcttgagta tcttgacgac cttctttata tcgctaagaa cactcagaga 780 agaaacgaca ctgaccttaa cacttctgag gacggactta acgtgagact taacgacaga 840 gtgatcgagt ctctttgcga ccttgcttgc cttgctgaca gacttgcttc tatcatcaag 900 cacccacacg acgctgagaa ggcttctctt caggaccttc tttattctct ttctgacgga 960 gagcttaagt tcacttatca ctctatcgct gagaacagag gagtgcttac taacgtgctt 1020 aacaacgctg tgatggaggc tcaccaggag cttgactatc agccacttct ttatcttcca 1080 actggagtgg tgtatatcgc tccaaagaac gctccagagg tgtctcttga gactcttcca 1140 aacagagtgg tggacactat caagtctctt tgctctggag agcttcagag aaagcagact 1200 ggattcggaa gagacggaaa gggtatgaag tatgctgact attattctca gttcttcgac 1260 gacgctggac ttatgagagc tgctcttaac gctactctta gaatccttgg agacaacaag 1320 gcttctgtgg ctagatctag aggagagaac cttatcaagt tccagcagca gggagtgctt 1380 ccaactgact atgacttcca ctgcgaggac gacatcagaa tcgacagact tgctgagttc 1440 ggagacgtgg tgactagaaa gatctgggga gacagacttg agaagatcga gcaggctaga 1500 aagcttcaga agaaccttcc agctccacca gaccttgacc ttatctctga gatcgctcac 1560 tattggaacc ttgagaacta tcttccacag atcagagcta tcaagagaat caacgagtct 1620 cttaaggagc ttaagcttaa gggaaacact ggaggagtgc catatgagtg gtattatctt 1680 gctgctcagt atcttaagca gcacccagga atcgaggaca tcagaccagt ggctgaggac 1740 cttatcgctt tccttgctgc taagatcgct gctatcgtgg ctggatataa ccttccagac 1800 ggatgggagg accttagaga gtgggtgaac caggtggtgc agcttccagg aagagagctt 1860 gctcactcta tcgagacttt ccagaaggag cttaaccact ataacgctgc taagaagcag 1920 ggaagaggaa gacagcttct ttgctctatc tctcactctc catattctgt gtctgagcag 1980 atggagtctg ctgtgctttt cactccacag gtgtatacta acaagcagat gcttgctgga 2040 tctaacgcta agagaaacat ctcttctatc gctggaactg agatgatgct tagacagatc 2100 cttatgaacc agactcaggc tgtgggaaag agattcgagg acggaaagta tagatatctt 2160 tatttctatc caacttatta tttcactcca gagactaact ctttccttca gaaggcttat 2220 gctaacatcg ctcagactag attcgactct tctatcaagc ttcacttcgt ggacaagaac 2280 cttgtggcta acttcgacag aactagatat cagtctgtgg actctttcct tatcgacgag 2340 aagcttagac agaagaagga gactatcaac gaggaggagg acggaaagaa ggacagaact 2400 ttcaagcttt cttatccaga ggacaagcca cttactttct atttcatggc tcttccacca 2460 ggaagaaacc caactgacac tgagtcttgg gtaatgccag cttggcttgg acttgctttc 2520 ccaatgatcc ttgacgtgaa gactgtggtg tctgagtctc caatcccacc atatagagac 2580 ggagctgagt tcgaggagac tgtgttcctt gactctgctc cacaggctat cagatctctt 2640 actagatgcg acagattcag acttgacaga gtgcttaacc cttggcagga caacgacgga 2700 aagaagtatt ctgctccact taacactctt actgctgctt attctatcca ccttgacgtg 2760 aactctaagc agggaaagac tggatatgac ccaaactggg gaaagcttac tgagcttgct 2820 atcaaccttg agacttctcc actttatgtg ttccactatt tcaagcagtg gaagagagga 2880 aaggacgctg acatcccatc tgctaacaga atcgctcttt atctttatga cttctatcca 2940 tgcttcgacc catatgtgca ggctaacaga actaacctta ctatcgacat gactgctgag 3000 tctccactta accacccaaa gaaccttact gagctttata gacagttcta tagagctaag 3060 tcttctaagg gaaagccaat caaggctaac gctatcctta agccaatcga cgaggctgct 3120 gacatcatcc ttaaggctga caaggctatc tctgacgacc ttacttctct tgtggctgct 3180 agacttttca agcttatgga cagagtgaga tctcagactg ctgagggaag atatgtgatc 3240 aaggagagag atcaggagag agagaagatc cttgacttcg ctaagtattt cgtgaagaac 3300 gtgttcgagg agtctttcga gtctgacaga gctagacttg ctggaagaca gcttaacatc 3360 atcagagaca cttgcgagtt cctttataga cttgagatgg acaaggagag aagacagaga 3420 caggtgcagc cacttgacac ttctaactct tcttctgagg aggaggagta a 3471 <210> 12 <211> 35 <212> DNA <213> Artificial <220> <223> J23108 synthesis promoter <400> 12 ctgacagcta gctcagtcct aggtataatg ctagc 35 <210> 13 <211> 36 <212> DNA <213> Artificial <220> <223> Ribosomal binding sequence <400> 13 aataattttg tttaacttta agaaggagat atacat 36 <210> 14 <211> 24 <212> DNA <213> Artificial <220> <223> Terminator sequence STOP767 <400> 14 agatcctgta aaacgacggc cagt 24 <210> 15 <211> 19 <212> DNA <213> Artificial <220> <223> Terminator sequence STOP768(1) <400> 15 cgccagggtt ttcccagtc 19 <210> 16 <211> 19 <212> DNA <213> Artificial <220> <223> Terminator sequence TOP768(2) <400> 16 cgccagggtt ttcccagtc 19 <210> 17 <211> 47 <212> DNA <213> Artificial <220> <223> T7 terminator sequence <400> 17 tagcataacc ccttggggcc tctaaacggg tcttgagggg ttttttg 47 <210> 18 <211> 37 <212> DNA <213> Artificial <220> <223> CRISPR repeat sequence <400> 18 gttccaatta atcttaagcc ctattaggga ttgaaac 37 <210> 19 <211> 19 <212> DNA <213> Artificial <220> <223> T7 promoter sequence <400> 19 taatacgact cactatagg 19 <210> 20 <211> 109 <212> DNA <213> Artificial <220> <223> crRNA expression cassette <400> 20 gttccaatta atcttaagcc ctattaggga ttgaaacggt aataatacga ctcactatag 60 ggagaaagga tcgttccaat taatcttaag ccctattagg gattgaaac 109 <210> 21 <211> 581 <212> DNA <213> Artificial <220> <223> Synthesis cccdB gene expression cassette <400> 21 aggctttaat acgactcact atagggagaa aggatccata aaggaggtaa ataatgaagc 60 agcgtattac agtgacagtt gacagcgaca gctatcagtt gctcaaggca tatatgatgt 120 caatatctcc ggtctggtaa gcacaaccat gcagaatgaa gcccgtcgtc tgcgtgccga 180 acgctggaaa gcggaaaatc aggaagggat ggctgaggtc gcccggttta ttgaaatgaa 240 cggctctttt gctgacgaga acagggactg gtgaaatgca gtttaaggtt tacacctata 300 aaagagagag ccgttatcgt ctgtttgtgg atgtacagag tgatattatt gacacgcccg 360 ggcgacggat ggtgatcccc ctggccagtg cacgtctgct gtcagataaa gtctcccgtg 420 aactttaccc ggtggtgcat atcggggatg aaagctggcg catgatgacc accgatatgg 480 ccagtgtgcc ggtctccgtt atcggggaag aagtggctga tctcagccac cgcgaaaatg 540 acatcaaaaa cgccattaac ctgatgttct ggggaatata a 581 <210> 22 <211> 18 <212> PRT <213> Artificial <220> <223> Nuclear localizing signal (NLS) amino acid sequence <400> 22 Asp Pro Lys Lys Lys Arg Lys Val Asp Pro Lys Lys Lys Arg Lys Val 1 5 10 15 Ser Gly <210> 23 <211> 54 <212> DNA <213> Artificial <220> <223> NLS nucleotide sequence <400> 23 gacccaaaga agaagcggaa ggtagaccct aagaagaagc gcaaggtttc tgga 54 <210> 24 <211> 20 <212> PRT <213> Artificial <220> <223> Self-cleaving peptide 2A amino acid sequence <400> 24 Gly Ser Glu Gly Arg Gly Ser Leu Leu Thr Cys Gly Asp Val Glu Glu 1 5 10 15 Asn Pro Gly Pro 20 <210> 25 <211> 60 <212> DNA <213> Artificial <220> <223> Self-cleaving peptide 2A(1) coding sequence <400> 25 ggctctgagg gcagaggcag cctgctgacc tgcggcgacg tggaggaaaa ccctggccct 60 <210> 26 <211> 60 <212> DNA <213> Artificial <220> <223> Self-cleaving peptide 2A(2) coding sequence <400> 26 gggtctgagg gacgcggctc cctgctcacc tgtggagatg tggaagagaa cccaggcccc 60 <210> 27 <211> 60 <212> DNA <213> Artificial <220> <223> Self-cleaving peptide 2A(3) coding sequence <400> 27 ggttctgaag gcagaggctc tctgctgaca tgtggggatg tggaggaaaa tcctggccct 60 <210> 28 <211> 60 <212> DNA <213> Artificial <220> <223> Self-cleaving peptide 2A(4) coding sequence <400> 28 ggatccgagg gcagaggaag tctgctaaca tgcggtgacg ttgaggagaa tcccgggcca 60 <210> 29 <211> 820 <212> DNA <213> Artificial <220> <223> 2 x cauliflower mosaic virus 35S gene promoter + omega sequence <400> 29 gccaacatgg tggagcacga cactctcgtc tactccaaga atatcaaaga tacagtctca 60 gaagaccaaa gggctattga gacttttcaa caaagggtaa tatcgggaaa cctcctcgga 120 ttccattgcc cagctatctg tcacttcatc aaaaggacag tagaaaagga aggtggcacc 180 tacaaatgcc atcattgcga taaaggaaag gctatcgttc aagatgcctc tgccgacagt 240 ggtcccaaag atggaccccc acccacgagg agcatcgtgg aaaaagaaga cgttccaacc 300 acgtcttcaa agcaagtgga ttgatgtgaa catggtggag cacgacactc tcgtctactc 360 caagaatatc aaagatacag tctcagaaga ccaaagggct attgagactt ttcaacaaag 420 ggtaatatcg ggaaacctcc tcggattcca ttgcccagct atctgtcact tcatcaaaag 480 gacagtagaa aaggaaggtg gcacctacaa atgccatcat tgcgataaag gaaaggctat 540 cgttcaagat gcctctgccg acagtggtcc caaagatgga cccccaccca cgaggagcat 600 cgtggaaaaa gaagacgttc caaccacgtc ttcaaagcaa gtggattgat gtgatatctc 660 cactgacgta agggatgacg cacaatccca ctatccttcg caagaccctt cctctatata 720 aggaagttca tttcatttgg agaggccggt ctagagtatt tttacaacaa ttaccaacaa 780 caacaaacaa caaacaacat tacaattact atttacaatt 820 <210> 30 <211> 447 <212> DNA <213> Artificial <220> <223> Arabidopsis shock protein 18.2kDa gene terminator <400> 30 atatgaagat gaagatgaaa tatttggtgt gtcaaataaa aagcttgtgt gcttaagttt 60 gtgttttttt cttggcttgt tgtgttatga atttgtggct ttttctaata ttaaatgaat 120 gtaagatctc attataatga ataaacaaat gtttctataa tccattgtga atgttttgtt 180 ggatctcttc tgcagcatat aactactgta tgtgctatgg tatggactat ggaatatgat 240 taaagataag atgggctcat agagtaaaac gaggcgaggg acctataaac ctcccttcat 300 catgctattt catgatctat tttataaaat aaagatgtag aaaaaagtaa gcgtaataac 360 cgcaaaacaa atgatttaaa acatggcaca taatgaggag attaagttcg gtttacgttt 420 attttagtac taattgtaac gtgagac 447 <210> 31 <211> 97 <212> DNA <213> Artificial <220> <223> crRNA expression cassette <400> 31 gttccaatta atcttaagcc ctattaggga ttgaaacgga gaccctcaat tgtcggtctc 60 gttccaatta atcttaagcc ctattaggga ttgaaac 97 <210> 32 <211> 448 <212> DNA <213> Artificial <220> <223> Arabidopsis U6 snRNA-26 gene promoter sequence <400> 32 aagcttcgtt gaacaacgga aactcgactt gccttccgca caatacatca tttcttctta 60 gctttttttc ttcttcttcg ttcatacagt ttttttttgt ttatcagctt acattttctt 120 gaaccgtagc tttcgttttc ttctttttaa ctttccattc ggagtttttg tatcttgttt 180 catagtttgt cccaggatta gaatgattag gcatcgaacc ttcaagaatt tgattgaata 240 aaacatcttc attcttaaga tatgaagata atcttcaaaa ggcccctggg aatctgaaag 300 aagagaagca ggcccattta tatgggaaag aacaatagta tttcttatat aggcccattt 360 aagttgaaaa caatcttcaa aagtcccaca tcgcttagat aagaaaacga agctgagttt 420 atatacagct agagtcgaag tagtgatt 448 <210> 33 <211> 723 <212> DNA <213> Artificial <220> <223> 2xNLS + Cas5d <400> 33 gacccaaaga agaagcggaa ggtagaccct aagaagaagc gcaaggtttc tggagtgcac 60 atctattctt gccagcttga gcttcacgac tctctttatt atgctactag agagatcgga 120 agactttatg agtctgagcc agtgatccac aactatgctc tttgctatgc tcttggactt 180 gtgaactctg actcttatag atatttctgc tctgagcaga tcccacagta tcaggagcac 240 cttaacccac ttaacgagga gaagatctat gtgactccag ctagagctat cgctcacact 300 gctgtgctta acacttggaa gtatgctaac aacaactatc acgtggagat ggagaagact 360 cagaagaaca tcccatcttt cggaagagct aaggagatcg ctccagagtc tatcttcgag 420 tgcttcatca tctctcacca cccacttcag cttccaaagt ggatcagact tggaaagtgg 480 atgtctaagg ctgaggtgaa gcttactgag ctttctcttt ctaagcagaa ggaggacctt 540 ttcatctatc catatccact taacccactt gacgtgatgt tcactcacca ggttatcgga 600 tatgacgtga tcaacatgcc accagtgtct cttatcagaa acgtgagaat gagaggagag 660 tattatcaga tctctgacag accagacctt aagatcccag ctagactttc ttatcacttc 720 gga 723 <210> 34 <211> 882 <212> DNA <213> Artificial <220> <223> 2xNLS + Cas6d <400> 34 gacccaaaga agaagcggaa ggtagaccct aagaagaagc gcaaggtttc tggaccatat 60 tctcttgtgc ttaaccttac tccaagatct ccaatctatc caaacttcct tactggaaga 120 caccttcacg ctcttttcct tactcttgtg tcttctgtgg accaggagct tggaaacatc 180 cttcacactg ctgaggctga caaggctttc actctttctc cacttcagat gcagtctgga 240 ggaaagacta tcaactctcc acagtggaga cacgagagag agatcgcttc tgagactcca 300 tgctggtgga gaatctctct tcttgacgac agacttttcg gaaagcttac ttctctttgg 360 cttaacctta acccaaagca gccttggcac cttggatctg ctgaccttgt gatcacttct 420 gtgcttgcta ctccacagtc tgtgcagcct tgggctaact cttgcactta tcagtatctt 480 tatgagaacg cttctgagac taacagagag ttcgacttcc ttttcgctac tccagtgact 540 ttcagacagg gaaagttcga ctctgctctt ccaactagag agcttgtgtt caactctctt 600 cttggaagat ggaacagata ttctggaatc ccattcgact ctatcgctct tgagtctatc 660 ttcccatctt tcttcgacat ccagactaag cttgctgacg aggcttataa gaaccagtct 720 atcggatgcg tgggagagat ccactataga cttcttggag aggtggagcc agctaagatc 780 aaggctatca acgctcttgc tgacttcgct ctttatgctg gagtgggaag aaagactact 840 atgggaatgg gaatgactag aagaatctct aaggacaaga ga 882 <210> 35 <211> 1053 <212> DNA <213> Artificial <220> <223> 2xNLS + Cas7d <400> 35 gacccaaaga agaagcggaa ggtagaccct aagaagaagc gcaaggtttc tggaactttc 60 cttacttctg tggacgctaa gttcttccac tctgagatcc catataagcc aatgggaaag 120 tatgtgcact tccttactat cagagtgact gagtcttatc cacttttcca gactgacgga 180 gagcttaaca aggctagagt gagagctgga atcgactcta agaagactat ctcaagactt 240 tctatgttca agagaaagca gtctactcca gagagacttg tgggaagaga gcttcttaga 300 aactatggac ttatcactgc tgaggagtgc gagtataacg tgaagttcgc tatgaacaac 360 gctgactgca tcatctatgg attcgctatc ggagactctg gatctgagaa gtctaaggtg 420 gtggtggaca ctgctttctc tatcactcca ttcgacgagt ctcacgagtc tttcactctt 480 aacgctccat atgagaacgg aactatggct tctaagggag agaacaacac taaggtggga 540 gaggtgactt caagaatcaa ccagcaggac cacatcagac cacaggtgtt cttcccatct 600 atcgtgactc ttaaggaccc aactgaggct tctttccttt atgtgttcaa caacatcctt 660 agaactagac actatggtgc tcagactact agaactggaa gagtgagaaa cgagcttatc 720 ggagtgatct tcgctgacgg agagatcgtg tctaacctta gatggactca ggctatctat 780 gacagacttc cagacgaggt gcttcactct atcgacccac ttgacgagga ccttgtgatg 840 gagaaggcta ctgaggctat ccaggctctt atggctgagg agttcatcgt gcacactgac 900 ttcatcggag agaacttcca gccacttctt actgaggtga agactcttac tggaactgag 960 gctggaatcc tttctgtgct tgaccaggct aacaaggagt ctaagaagta tttcgagcag 1020 tatatcgaga agaagaaggc tgagaagaag taa 1053 <210> 36 <211> 2217 <212> DNA <213> Artificial <220> <223> 2xNLS + Cas3d <400> 36 atggacccaa agaagaagcg gaaggtagac cctaagaaga agcgcaaggt ttctggagga 60 aactatcagg tgactcttaa gccagtgtat tcttgcccag ctgacgagat cccagacgga 120 atcaaggtgc cacagggatg gagactttct tggcaccagg tggagacttg gaaggctctt 180 aacgacccag acatcgacgt gatcttcaac actgctatga ctggagacgg aaagtctctt 240 gctgcttatc ttagaactct tcagggatat ttcccaatca tgggacttta tccaactaac 300 gagcttgcta gagatcagag aggacagatc gaggcttata tccagagatt ccagccaact 360 gaccagccaa gagtgaacct tcttactgga ccagagcttg agctttatgc tgagagagac 420 ggaaagacta aggctatcgc tcttgagact agatctaagc agtctgagat ccttcttact 480 aacccagaca tcttccacta tcttcacaga gctgcttatc ttactccata tgacaaccca 540 gaccagcttt ggaacagaat cgacaagcac ttcgaccttt tccttttcga cgagttccac 600 gtgttcggaa ctccacaggt ggcttctatc atcaacacta tgcttcttat cagaagagct 660 aacagaggaa agagatatct tttcctttct gctactccag acgagggact tcttaagaga 720 cttgacaagg ctggattcag atatagatct atcgacccag tgagagaggg aaagtataga 780 ttcccagaca ctccagagga ggctaactct cttgctcagc agggatggag acaggtgact 840 tctgagatcg agctttcttt catcccactt ccatcttctt tccagacttc tgagaactgg 900 cttaaggaga acaaggagag aatccttgac tatttcaaga gatatccagg atctaaggga 960 gctatcatcc ttaactctat cgcttctgtg aagagacttc ttccaatctt cagagagctt 1020 cttgctacta tcggacttac tgtgggagag aacactggac tttctggaac tagagagaaa 1080 cttgcttctc ttaacagaga tcttgtgatc ggaacttcta ctatcgacgt gggagtggac 1140 ttcaagatca acttccttat cttcgagtct tctgacgctg gaaacttcat ccagagattc 1200 ggaagacttg gaagacactc tggatatgac agaaagggaa ctgctgtgaa gttcactaac 1260 ttcactgcta tcgctcttgt gccaaagttc ttccttgaga gacttttcga gaagaaggac 1320 gctccacttc aggtgggaga gagatatgac agaatccagc ttcaggaggc tatcaagtct 1380 aactatagac acatcaacaa cttcgaggga tattatcaga gatggggagc tgtgcagtct 1440 ttccagcttt ggtggaacct tggatctcca aagatcaagt ctcagtatgg agagtcaaga 1500 cagaagttcc agcaggagtg cgaggaggtg ttcgacactt ctcttaagag agtggctgga 1560 agagtgaagg gatgggctga cgagtggaag gagctttctg gaaagaacgg aaacccaatc 1620 ttcgaggacg cttcttcttt cagaggatct tctccacttc tttgcggact ttatgactct 1680 actgagccag aggagtgcga cagattcaag acttatgacc ttccatctat ccttggaaac 1740 cttgaggtgg aggtgtggag aaagggagag ttcaagagac agatcgaggc tactaagact 1800 ccaatcgcta gaagaagatt cgactattgc cttgctttcc ttaaccttaa gggatataga 1860 gaggagagac ttaactggag attcacttat gacggagatc ttggagagat cgcttctgct 1920 tggaaggtgc aggtgcttac tggaatcgga gtgtggcagc cagacaaccc ttggcttgac 1980 agaatctcaa gagagcttag agatcttgct cttgtgtctt tcgtgttcgc ttatccagtg 2040 gctgctgtga gacagagact tcagcttcca atgcacttcg gaatctatcc aatctctgac 2100 gagtcttctc ttcactctcc actttctcca tattctatcg ctatcggaca ggctgctctt 2160 cttcttgaca ctcttgctca cagattcaag ggaaagggag gagaggtgtg gatctgc 2217 <210> 37 <211> 3519 <212> DNA <213> Artificial <220> <223> 2xNLS + Cas10d <400> 37 gacccaaaga agaagcggaa ggtagaccct aagaagaagc gcaaggtttc tggaccaaag 60 aagcagaaga agcttgagga gactggacag cttaaccttt tcgacaacac tactgagatc 120 gacgacgagg accttgactt cgagttcgag gacatcgacc ttgagtctct tgtgtctgag 180 gaccttggaa tcactgagtc tgtgtctgac agaagagtgg agactgtgag acagcttctt 240 actcttaagc ttcttagaga ggctatcaga gctgagaacc cagacgacag agtgatggct 300 gacttcgctg agatggtgct tccaaacctt cttagacttg ctatcggagt gactgctaag 360 ggaggaaact tcatcgaggc tgtggacaga ggaagagagc ttagaaacaa gccaaaggct 420 aagagagaca acgctggaga tcagtctctt aacactcacc ttcttaacgg acttttccca 480 gctaacctta tcgagaagag acttcagaag cttaacacta ctgtgagaag aatcatcaag 540 gagttcgaga gaagacttgc tatcgctgga ttccttgtgc acgacttcga gaagttctct 600 tatgacagat tcccatctat gtctgagaga tatatccaga tccagagaga cttcatccag 660 gacccattca agaaccagga cccaagaaag ctttcaagag aggagcacag agagatcctt 720 caggtgctta tcccagagct tggacttgac agattccttt tcccagacaa cccagagaga 780 tggcttgagt atcttgacga ccttctttat atcgctaaga acactcagag aagaaacgac 840 actgacctta acacttctga ggacggactt aacgtgagac ttaacgacag agtgatcgag 900 tctctttgcg accttgcttg ccttgctgac agacttgctt ctatcatcaa gcacccacac 960 gacgctgaga aggcttctct tcaggacctt ctttattctc tttctgacgg agagcttaag 1020 ttcacttatc actctatcgc tgagaacaga ggagtgctta ctaacgtgct taacaacgct 1080 gtgatggagg ctcaccagga gcttgactat cagccacttc tttatcttcc aactggagtg 1140 gtgtatatcg ctccaaagaa cgctccagag gtgtctcttg agactcttcc aaacagagtg 1200 gtggacacta tcaagtctct ttgctctgga gagcttcaga gaaagcagac tggattcgga 1260 agagacggaa agggtatgaa gtatgctgac tattattctc agttcttcga cgacgctgga 1320 cttatgagag ctgctcttaa cgctactctt agaatccttg gagacaacaa ggcttctgtg 1380 gctagatcta gaggagagaa ccttatcaag ttccagcagc agggagtgct tccaactgac 1440 tatgacttcc actgcgagga cgacatcaga atcgacagac ttgctgagtt cggagacgtg 1500 gtgactagaa agatctgggg agacagactt gagaagatcg agcaggctag aaagcttcag 1560 aagaaccttc cagctccacc agaccttgac cttatctctg agatcgctca ctattggaac 1620 cttgagaact atcttccaca gatcagagct atcaagagaa tcaacgagtc tcttaaggag 1680 cttaagctta agggaaacac tggaggagtg ccatatgagt ggtattatct tgctgctcag 1740 tatcttaagc agcacccagg aatcgaggac atcagaccag tggctgagga ccttatcgct 1800 ttccttgctg ctaagatcgc tgctatcgtg gctggatata accttccaga cggatgggag 1860 gaccttagag agtgggtgaa ccaggtggtg cagcttccag gaagagagct tgctcactct 1920 atcgagactt tccagaagga gcttaaccac tataacgctg ctaagaagca gggaagagga 1980 agacagcttc tttgctctat ctctcactct ccatattctg tgtctgagca gatggagtct 2040 gctgtgcttt tcactccaca ggtgtatact aacaagcaga tgcttgctgg atctaacgct 2100 aagagaaaca tctcttctat cgctggaact gagatgatgc ttagacagat ccttatgaac 2160 cagactcagg ctgtgggaaa gagattcgag gacggaaagt atagatatct ttatttctat 2220 ccaacttatt atttcactcc agagactaac tctttccttc agaaggctta tgctaacatc 2280 gctcagacta gattcgactc ttctatcaag cttcacttcg tggacaagaa ccttgtggct 2340 aacttcgaca gaactagata tcagtctgtg gactctttcc ttatcgacga gaagcttaga 2400 cagaagaagg agactatcaa cgaggaggag gacggaaaga aggacagaac tttcaagctt 2460 tcttatccag aggacaagcc acttactttc tatttcatgg ctcttccacc aggaagaaac 2520 ccaactgaca ctgagtcttg ggtaatgcca gcttggcttg gacttgcttt cccaatgatc 2580 cttgacgtga agactgtggt gtctgagtct ccaatcccac catatagaga cggagctgag 2640 ttcgaggaga ctgtgttcct tgactctgct ccacaggcta tcagatctct tactagatgc 2700 gacagattca gacttgacag agtgcttaac ccttggcagg acaacgacgg aaagaagtat 2760 tctgctccac ttaacactct tactgctgct tattctatcc accttgacgt gaactctaag 2820 cagggaaaga ctggatatga cccaaactgg ggaaagctta ctgagcttgc tatcaacctt 2880 gagacttctc cactttatgt gttccactat ttcaagcagt ggaagagagg aaaggacgct 2940 gacatcccat ctgctaacag aatcgctctt tatctttatg acttctatcc atgcttcgac 3000 ccatatgtgc aggctaacag aactaacctt actatcgaca tgactgctga gtctccactt 3060 aaccacccaa agaaccttac tgagctttat agacagttct atagagctaa gtcttctaag 3120 ggaaagccaa tcaaggctaa cgctatcctt aagccaatcg acgaggctgc tgacatcatc 3180 cttaaggctg acaaggctat ctctgacgac cttacttctc ttgtggctgc tagacttttc 3240 aagcttatgg acagagtgag atctcagact gctgagggaa gatatgtgat caaggagaga 3300 gatcaggaga gagagaagat ccttgacttc gctaagtatt tcgtgaagaa cgtgttcgag 3360 gagtctttcg agtctgacag agctagactt gctggaagac agcttaacat catcagagac 3420 acttgcgagt tcctttatag acttgagatg gacaaggaga gaagacagag acaggtgcag 3480 ccacttgaca cttctaactc ttcttctgag gaggaggag 3519 <210> 38 <211> 35 <212> DNA <213> Nicotiana benthamiana <400> 38 tgggtggttt gtctacagca aaatatctgg cagat 35 <210> 39 <211> 35 <212> DNA <213> Nicotiana benthamiana <400> 39 aaatttgcta ttggactctt gccagcaatg cttgg 35 <210> 40 <211> 35 <212> DNA <213> Solanum lycopersicum <400> 40 tacctggatc tcagtctccc gaaagaggtg aggag 35 <210> 41 <211> 811 <212> DNA <213> Artificial <220> <223> Cytomegalovirus enhancer + universal chicken beta-actin gene hybrid promoter <400> 41 cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60 gacgtcaata gtaacgccaa tagggacttt ccattgacgt caatgggtgg agtatttacg 120 gtaaactgcc cacttggcag tacatcaagt gtatcatatg ccaagtacgc cccctattga 180 cgtcaatgac ggtaaatggc ccgcctggca ttgtgcccag tacatgacct tatgggactt 240 tcctacttgg cagtacatct acgtattagt catcgctatt accatggtcg aggtgagccc 300 cacgttctgc ttcactctcc ccatctcccc cccctcccca cccccaattt tgtatttatt 360 tattttttaa ttattttgtg cagcgatggg ggcggggggg gggggggggc gcgcgccagg 420 cggggcgggg cggggcgagg ggcggggcgg ggcgaggcgg agaggtgcgg cggcagccaa 480 tcagagcggc gcgctccgaa agtttccttt tatggcgagg cggcggcggc ggcggcccta 540 taaaaagcga agcgcgcggc gggcgggagt cgctgcgacg ctgccttcgc cccgtgcccc 600 gctccgccgc cgcctcgcgc cgcccgcccc ggctctgact gaccgcgtta ctcccacagg 660 tgagcgggcg ggacggccct tctcctccgg gctgtaatta gctgagcaag aggtaagggt 720 ttaagggatg gttggttggt ggggtattaa tgtttaatta cctggagcac ctgcctgaaa 780 tcactttttt tcaggttgga ccggtgccac c 811 <210> 42 <211> 223 <212> DNA <213> Artificial <220> <223> Bovine-derived growth hormone gene terminator sequence <400> 42 gctgatcagc ctcgactgtg ccttctagtt gccagccatc tgttgtttgc ccctcccccg 60 tgccttcctt gaccctggaa ggtgccactc ccactgtcct ttcctaataa aatgaggaaa 120 ttgcatcgca ttgtctgagt aggtgtcatt ctattctggg gggtggggtg gggcaggaca 180 gcaaggggga ggattgggaa gagaatagca ggcatgctgg gga 223 <210> 43 <211> 249 <212> DNA <213> Artificial <220> <223> Human U6 snRNA gene promoter <400> 43 gagggcctat ttcccatgat tccttcatat ttgcatatac gatacaaggc tgttagagag 60 ataattggaa ttaatttgac tgtaaacaca aagatattag tacaaaatac gtgacgtaga 120 aagtaataat ttcttgggta gtttgcagtt ttaaaattat gttttaaaat ggactatcat 180 atgcttaccg taacttgaaa gtatttcgat ttcttggctt tatatatctt gtggaaagga 240 cgaaacacc 249 <210> 44 <211> 35 <212> DNA <213> Homo sapiens <400> 44 ccagaaccgg aggacaaagt acaaacggca gaagc 35 <210> 45 <211> 35 <212> DNA <213> Homo sapiens <400> 45 gatgtgatgg gagcccttct tcttctgctc ggact 35

Claims

표적 뉴클레오타이드 서열을 표적화하는 방법으로서, 세포 중에,
(i) CRISPR 타입 I-D 관련 단백질 Cas5d, Cas6d 및 Cas7d, 또는 이들 단백질을 인코딩하는 핵산, 및
(ii) 상기 표적 뉴클레오타이드 서열에 상보적인 서열 및 해당 서열의 전후에 CRISPR 유전자자리에서 유래하는 공통 반복 서열을 포함하는 가이드 RNA, 또는 해당 가이드 RNA를 인코딩하는 DNA
를 도입하는 것을 포함하는 방법.
표적 뉴클레오타이드 서열을 개변하는 방법으로서, 세포 중에,
(i) CRISPR 타입 I-D 관련 단백질 Cas3d, Cas5d, Cas6d, Cas7d 및 Cas10d, 또는 이들 단백질을 인코딩하는 핵산, 및
(ii) 상기 표적 뉴클레오타이드 서열에 상보적인 서열 및 해당 서열의 전후에 CRISPR 유전자자리에서 유래하는 공통 반복 서열을 포함하는 가이드 RNA, 또는 해당 가이드 RNA를 인코딩하는 DNA
를 도입하는 것을 포함하는 방법.
표적 유전자의 발현을 억제하는 방법으로서, 세포 중에,
(i) CRISPR 타입 I-D 관련 단백질 Cas5d, Cas6d 및 Cas7d, 또는 이들 단백질을 인코딩하는 핵산, 및
(ii) 상기 표적 유전자의 서열의 적어도 일부에 상보적인 서열 및 해당 서열의 전후에 CRISPR 유전자자리에서 유래하는 공통 반복 서열을 포함하는 가이드 RNA, 또는 해당 가이드 RNA를 인코딩하는 DNA
를 도입하는 것을 포함하는 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
상기 가이드 RNA가, 상기 표적 뉴클레오타이드 서열에 상보적인 20∼50염기로 이루어지는 서열을 포함하는, 방법.
제 2 항 또는 제 4 항에 있어서,
상기 세포 중에 도너 폴리뉴클레오타이드를 도입하는 것을 추가로 포함하는, 방법.
제 2 항, 제 4 항 및 제 5 항 중 어느 한 항에 있어서,
개변이 염기의 결실, 삽입, 또는 치환인, 방법.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
상기 Cas5d가 프로토스페이서 인접 모티프(PAM) 서열로서 5'-GTH-3'(H=A, C, 또는 T)를 인식하는, 방법.
(i) CRISPR 타입 I-D 관련 단백질 Cas5d, Cas6d 및 Cas7d, 및
(ii) 표적 뉴클레오타이드 서열에 상보적인 서열 및 해당 서열의 전후에 CRISPR 유전자자리에서 유래하는 공통 반복 서열을 포함하는 가이드 RNA
를 포함하는 복합체.
제 8 항에 있어서,
Cas3d 및 Cas10d를 추가로 포함하는, 복합체.
제 8 항 또는 제 9 항에 있어서,
상기 가이드 RNA가, 상기 표적 뉴클레오타이드 서열에 상보적인 20∼50염기로 이루어지는 서열을 포함하는, 복합체.
(i) CRISPR 타입 I-D 관련 단백질 Cas5d, Cas6d 및 Cas7d를 인코딩하는 핵산, 및
(ii) 표적 뉴클레오타이드 서열에 상보적인 서열 및 해당 서열의 전후에 CRISPR 유전자자리에서 유래하는 공통 반복 서열을 포함하는 가이드 RNA를 인코딩하는 DNA
를 포함하는 발현 벡터.
제 11 항에 있어서,
Cas3d 및 Cas10d를 인코딩하는 핵산을 추가로 포함하는, 발현 벡터.
제 8 항 내지 제 10 항 중 어느 한 항에 기재된 복합체를 인코딩하는 DNA 분자.