KR20170068400A

KR20170068400A - Cpf1을 포함하는 유전체 교정용 조성물 및 그 용도

Info

Publication number: KR20170068400A
Application number: KR1020160167045A
Authority: KR
Inventors: 김진수; 허준호; 김대식; 김정은; 김경미; 김혜란; 구태영
Original assignee: 기초과학연구원
Priority date: 2015-12-08
Filing date: 2016-12-08
Publication date: 2017-06-19
Also published as: WO2017099494A8; WO2017099494A1; KR101897213B1; KR101958437B1; KR20180028996A

Abstract

Cpf1을 포함하는 유전체 교정용 조성물, 이를 사용하는 유전체 교정 방법, 및 형질전환 진핵 유기체 제작 기술에 관한 것이다.

Description

Cpf1을 포함하는 유전체 교정용 조성물 및 그 용도{Composition for Genome Editing Comprising Cpf1 and Use thereof}

Cpf1을 포함하는 유전체 교정용 조성물, 이를 사용하는 유전체 교정 방법, 및 형질 전환 진핵 유기체 제작 기술에 관한 것이다.

유전체 교정 (genome editing)된 동물 및 식물을 만드는 것은 긴 시간과 노력이 필요했고 표적 유전자마다 따로 제작해야 하는 reagent 들이 많아 어려운 일이었다. 최근 Cas9 단백질과 guide RNA 의 결합을 통해 표적 유전자를 효과적으로 절단하는 type II CRISPR-Cas9 시스템이 다양한 방법으로 폭넓게 사용되고 있다. 최근 들어서는 가장 많이 쓰이는 S. pyogenes 유래의 Cas9뿐만 아니라 다른 종의 ortholog Cas9들 또한 유전자 가위로써 사용하는 방법들이 개발되고 있는 추세이다. 이 기술은 기존의 mutant 제작 방법에 비해 빠르고 효율적이며 표적 유전자에 따른 guide RNA 만 제작하면 되는 장점이 있다.

Cas9-system은 많은 장점이 있지만 제한 적인 면도 있는데 그 중 대표적인 것은 표적 DNA가 protospacer adjacent motif(PAM)이라고 불리는 서열을 가지고 있어야 한다는 점이다. S. pyogenes Cas9을 비롯하여 최근에 사용되기 시작한 다른 종류의 Cas9 단백질들은 모두 표적 서열의 3' 위치의 PAM을 인식한다. 널리 사용되는 S. pyogenes Cas9 의 경우 표적 유전자 부위의 3' NGG PAM을 인식하여, 이 서열을 가지지 않는 표적에는 사용 될 수 없다는 한계가 있다. S . pyogenes Cas9와 같은 Cas9-system의 또 다른 특징은 단일 단백질에 nuclease domain을 두 개 가지고 있어 표적 DNA의 양쪽 strand를 blunt end로 절단한다는 점이다. 이런 경우 non-homologous end joining(NHEJ)를 통한 insertion 및 deletion(indel)을 통하여 유전자의 knock-out 효율은 높은데 반해, homologous recombination(HR)을 이용한 knock-in은 효율이 낮다는 한계가 있다.

한편, CRISPR-Cas9 시스템을 사용한 유전체 교정을 위하여 embryo에 CRISPR-Cas9 ribonucleoprotein (RNP)을 microinjection 방법으로 주입하는 방법이 보고된 바가 있다. 이 방법은 RNP를 embryo에 확실히 전달할 수 있는 방법이지만, 각각의 embryo 를 microscope를 통해 확인하면서 하나씩 처리해야 하는 단점이 있다. 특히 많은 수의 embryo를 순서대로 처리할 때는 긴 시간이 필요한데, 이는 embryo 가 1 cell stage에서 유지되는 시간이 짧다는 점에서 기술적인 장애가 되고 있다.

따라서, CRISPR-Cas9 시스템의 한계를 극복하고 이를 대체할 수 있는 효율적인 유전자 교정 기술의 개발 및 이를 효과적으로 수행할 수 있는 RNP의 세포 내 전달 기술의 개발이 요구된다.

본 명세서에서는 type II CRISPR-Cas9 시스템의 단점을 보완할 수 있는, Cpf1을 이용한 type V CRISPR-Cpf1 시스템을 사용하여 동물 및 식물과 같은 진핵 유기체에서 유전체를 교정하는 기술이 제공된다.

일 예는 Cpf1 단백질 또는 이를 암호화하는 DNA, 및 가이드 RNA 또는 이를 암호화하는 DNA를 포함하는 복합체를 제공한다.

다른 예는 Cpf1 단백질 또는 이를 암호화하는 DNA, 및 가이드 RNA 또는 이를 암호화하는 DNA를 포함하는 유전체 교정용 조성물을 제공한다.

다른 예는 Cpf1 단백질 또는 이를 암호화하는 DNA, 및 가이드 RNA 또는 이를 암호화하는 DNA를 이용한 유전체 교정 방법을 제공한다.

상기 복합체 또는 유전체 교정용 조성물 또는 유전체 교정 방법에 포함되거나 사용되는 Cpf1 단백질 또는 이를 암호화하는 DNA, 및 가이드 RNA 또는 이를 암호화하는 DNA는, Cpf1 단백질 및 가이드 RNA를 포함하는 혼합물 또는 이들이 복합체를 형성하는 리보핵산 단백질 (ribonucleioprotein; RNA) 형태로 사용되거나, Cpf1 단백질을 암호화하는 DNA, 및 가이드 RNA를 암호화하는 DNA를 별도의 벡터에 각각 포함하거나 또는 하나의 벡터에 함께 포함되어 사용될 수 있다.

상기 조성물 및 방법은 진핵 유기체에 적용되는 것일 수 있다. 상기 진핵 유기체는 진핵 세포 (예컨대, 효모 등의 균류, 진핵 동물 및/또는 진핵 식물 유래 세포 (예컨대, 배아세포, 줄기세포, 체세포, 생식세포 등) 등), 진핵 동물 (예컨대, 인간, 원숭이 등의 영장류, 개, 돼지, 소, 양, 염소, 마우스, 래트 등), 및 진핵 식물 (예컨대, 녹조류 등의 조류, 옥수수, 콩, 밀, 벼 등)로 이루어진 군에서 선택된 것일 수 있다.

다른 예는 Cpf1 단백질 또는 이를 암호화하는 DNA 및 가이드 RNA 또는 이를 암호화하는 DNA를 이용한 유전체 교정에 의한 형질 전환 유기체의 제조 방법을 제공한다.

다른 예는 상기 형질 전환 유기체의 제조 방법에 의하여 제조된 형질 전환 유기체를 제공한다. 상기 형질전환 유기체는 모든 진핵 세포 (예컨대, 효모 등의 균류, 진핵 동물 및/또는 진핵 식물 유래 세포(예컨대, 배아세포, 줄기세포, 체세포, 생식세포 등) 등), 진핵 동물 (예컨대, 인간, 원숭이 등의 영장류, 개, 돼지, 소, 양, 염소, 마우스, 래트 등), 및 진핵 식물 (예컨대, 녹조류 등의 조류, 옥수수, 콩, 밀, 벼 등)로 이루어진 군에서 선택된 것일 수 있다.

다른 예는 RNA 가이드 엔도뉴클레아제 (RNA-guided endonuclease; RGEN) 또는 이를 암호화하는 DNA 및 가이드 RNA 또는 이를 암호화하는 DNA를 포함하는 복합체를 유기체에 전달하는 방법에 있어서, 국소주입법 (예컨대, 병변 또는 표적 부위 직접 주입), 미세주입법, 전기천공법(electroporation), 또는 리포펙션 등을 사용하는 것을 특징으로 하는 방법을 제공한다.

본 명세서에서는 type II CRISPR-Cas9 시스템의 단점 한계점들을 극복하기 위한 방법 중 하나로 type V CRISPR system 단백질인 Cpf1을 사용하는 기술이 제공된다.

Cpf1은 type V CRISPR 시스템 단백질로서 단일 단백질이 crRNA과 결합하여 표적 유전자를 절단한다는 점은 type II CRISPR 시스템 단백질인 Cas9과 유사하지만 그 작동 방식에는 차이가 크다. 특히 Cpf1 단백질은 하나의 crRNA로 작동하기 때문에 Cas9의 경우와 같이 crRNA와 trans-activating crRNA (tracrRNA)를 동시에 사용하거나 인위적으로 tracrRNA와 crRNA를 합친 single guide RNA (sgRNA)를 제작할 필요가 없다. 또한 Cpf1 시스템은 Cas9과 다르게 PAM이 표적 서열의 5' 위치에 존재하고, 표적을 결정하는 guide RNA 의 길이도 Cas9 에 비해 짧다. 이러한 특징을 활용하면, Cpf1은 Cas9이 사용될 수 없는 표적 염기서열에도 유전체 교정이 가능하고, 가이드 RNA인 crRNA를 제작하는 Cas9와 비교하여 것도 상대적으로 쉽다는 이점을 갖는다. 또한, Cpf1은 표적 DNA가 절단된 위치에 blunt-end가 아닌 5' overhang (sticky end)이 발생시키므로, 보다 정확하고 다양한 유전자 교정이 가능하다는 이점을 갖는다.

본 명세서에서는 Cpf1 시스템을 이용한 보다 편리하면서 정확하고 효과적으로 표적 유전체를 교정하는 기술이 제공된다.

본 명세서에서, 용어 '유전체 교정 (genome editing)'은, 특별한 언급이 없는 한, 표적 유전자의 표적 부위에서의 절단에 의한 핵산 분자 (하나 이상, 예컨대, 1-100,000bp, 1-10,000bp, 1-1000, 1-100bp, 1-70bp, 1-50bp, 1-30bp, 1-20bp, 또는 1-10bp)의 결실, 삽입, 치환 등에 의하여 유전자 기능을 상실, 변경, 및/또는 회복 (수정) 시키는 것을 의미하기 위하여 사용될 수 있다.

일 구현예에 따르면, Cpf1 단백질을 이용한 type V CRISPR-Cpf1 시스템으로 표적 DNA의 원하는 위치에서의 절단이 가능하다. 다른 구현예에 따르면, Cpf1 단백질을 이용한 type V CRISPR-Cpf1 시스템으로 세포 내 특정 유전자의 교정이 가능하다.

또한, CRISPR-Cpf1 리보핵산단백질(ribonucleoprotein; RNP) 또는 이를 암호화하는 DNA를 세포에 전달하는 기술에 있어서, 기존의 microinjection 방법의 단점을 극복하기 위한 방안이 제공된다. 그 일 예로서, electroporation 방식, 리포펙션 (lipofection) 등의 방식으로 한 번에 많은 수의 세포에 리보핵산단백질 또는 이를 암호화하는 DNA를 플라스미드에 포함시켜 전달하여 유전체를 교정하는 기술이 제공되지만, 상기 Cpf1 시스템을 이용한 유전체 교정 기술이 이에 제한되는 것은 아니다.

CRISPR-Cpf1 리보핵산단백질은 Cpf1을 코딩하는 DNA를 포함하는 재조합 벡터 및 crRNA를 코딩하는 DNA를 포함하는 재조합 벡터의 형태로 세포 또는 유기체에 도입되거나, Cpf1 단백질 및 crRNA를 포함하는 혼합물 또는 이들이 복합체를 이루는 리보핵산단백질 형태로 세포 또는 유기체에 도입될 수 있다.

일 예는 Cpf1 단백질 또는 이를 암호화하는 DNA 및 가이드 RNA (CRISPR RNA; crRNA) 또는 이를 암호화하는 DNA를 포함하는 리보핵산단백질을 포함하는 유전체 교정용 조성물을 제공한다.

다른 예는 Cpf1 단백질 및 가이드 RNA (CRISPR RNA; crRNA)를 포함하는 리보핵산단백질을 유기체에 전달하는 단계를 포함하는, 유기체의 유전체 교정 방법을 제공한다.

상기 유전체 교정용 조성물 또는 유전체 교정 방법에 포함되거나 사용되는 Cpf1 단백질 또는 이를 암호화하는 DNA, 및 가이드 RNA 또는 이를 암호화하는 DNA는, Cpf1 단백질 및 가이드 RNA 를 포함하는 혼합물 또는 이들이 복합체를 이루는 리보핵산 단백질 (ribonucleioprotein; RNA) 형태로 사용되거나, Cpf1 단백질을 암호화하는 DNA, 및 가이드 RNA를 암호화하는 DNA를 별도의 벡터에 각각 포함하거나 또는 하나의 벡터에 함께 포함되어 사용될 수 있다.

상기 조성물 및 방법은 진핵 유기체에 적용되는 것일 수 있다. 상기 진핵 유기체는 진핵 세포 (예컨대, 효모 등의 균류, 진핵 동물 및/또는 진핵 식물 유래 세포 (예컨대, 배아세포, 줄기세포, 체세포, 생식세포 등) 등), 진핵 동물 (예컨대, 척추동물 또는 무척추동물, 보다 구체적으로, 인간, 원숭이 등의 영장류, 개, 돼지, 소, 양, 염소, 마우스, 래트 등을 포함하는 포유류 등), 및 진핵 식물 (예컨대, 녹조류 등의 조류, 옥수수, 콩, 밀, 벼 등의 단자엽 또는 쌍자엽 식물 등)로 이루어진 군에서 선택된 것일 수 있다.

다른 예는 Cpf1 단백질을 이용한 유전체 교정에 의한 형질 전환 유기체의 제조 방법을 제공한다. 보다 구체적으로, 상기 형질 전환 유기체의 제조 방법은 Cpf1 단백질 또는 이를 암호화하는 DNA 및 가이드 RNA (CRISPR RNA; crRNA) 또는 이를 암호화하는 DNA를 진핵 세포에 전달하는 단계를 포함할 수 있다. 상기 형질 전환 유기체가 형질전환 진핵 동물 또는 형질전환 진핵 식물인 경우, 상기 제조 방법은 상기 전달하는 단계와 동시 또는 그 이후에 상기 진핵 세포의 배양 및/또는 분화 단계를 추가로 포함할 수 있다.

다른 예는 상기 형질 전환 유기체 제조 방법에 의하여 제조된 형질 전환 유기체를 제공한다.

상기 형질전환 유기체는 모든 진핵 세포 (예컨대, 효모 등의 균류, 진핵 동물 및/또는 진핵 식물 유래 세포(예컨대, 배아세포, 줄기세포, 체세포, 생식세포 등) 등), 진핵 동물 (예컨대, 척추동물 또는 무척추동물, 보다 구체적으로, 인간, 원숭이 등의 영장류, 개, 돼지, 소, 양, 염소, 마우스, 래트 등을 포함하는 포유류 등), 및 진핵 식물 (예컨대, 녹조류 등의 조류, 옥수수, 콩, 밀, 벼 등의 단자엽 또는 쌍자엽 식물 등)로 이루어진 군에서 선택된 것일 수 있다.

본 명세서에서 제공되는 유전체 교정 방법 및 형질 전환 유기체 제조 방법 있어서, 상기 진핵 동물은 인간을 제외한 것일 수 있으며, 상기 진핵 세포는 인간을 포함한 진핵 동물에서 분리된 세포를 포함할 수 있다.

본 명세서에서 사용된 용어 "리보핵산단백질"은 RNA 가이드 엔도뉴클레아제인 Cpf1 단백질과 가이드 RNA (crRNA)를 포함하는 단백질-리보핵산 복합체를 의미한다.

Cpf1 단백질은 상기 CRISPR/Cas 시스템과는 구별되는 새로운 CRISPR 시스템의 엔도뉴클레아제로서, Cas9에 비해 상대적으로 크기가 작고, tracrRNA가 필요 없으며, 단일 가이드 RNA에 의해 작용할 수 있다. 또한, Cpf1 단백질은, PAM (protospacer-adjacent motif) 서열로서, 5' 말단에 위치하는, 5'-TTN-3' 또는 5'-TTTN-3' (N은 임의의 뉴클레오타이드로서, A, T, G, 또는 C의 염기를 갖는 뉴클레오타이드임)와 같은 티민 (thymine)이 풍부한 DNA 서열을 인식하고 DNA의 이중 사슬을 잘라 점착종단 (cohesive end; cohesive double-strand break)을 생성한다. 이와 같이 생성된 점착 종단은 표적 위치 (또는 절단 위치)에서의 NHEJ-mediated transgene knock-in을 용이하게 할 수 있다.

예컨대, 상기 Cpf1 단백질은 캔디다투스 (Candidatus) 속, 라치노스피라 (Lachnospira) 속, 뷰티리비브리오 (Butyrivibrio) 속, 페레그리니박테리아 (Peregrinibacteria), 액시도미노코쿠스 (Acidominococcus) 속, 포르파이로모나스 (Porphyromonas) 속, 프레보텔라 (Prevotella) 속, 프란시셀라 (Francisella) 속, 캔디다투스 메타노플라스마 (Candidatus Methanoplasma), 또는 유박테리움 (Eubacterium) 속 유래의 것일 수 있고, 예컨대, Parcubacteria bacterium (GWC2011_GWC2_44_17), Lachnospiraceae bacterium (MC2017), Butyrivibrio proteoclasiicus, Peregrinibacteria bacterium (GW2011_GWA_33_10), Acidaminococcus sp. (BV3L6), Porphyromonas macacae, Lachnospiraceae bacterium (ND2006), Porphyromonas crevioricanis, Prevotella disiens, Moraxella bovoculi (237), Smiihella sp. (SC_KO8D17), Leptospira inadai, Lachnospiraceae bacterium (MA2020), Francisella novicida (U112), Candidatus Methanoplasma termitum, Candidatus Paceibacter , Eubacterium eligens 등의 미생물 유래의 것일 수 있으나, 이에 제한되는 것은 아니다 . 일 예에서, 상기 Cpf1 단백질은 Parcubacteria bacterium (GWC2011_GWC2_44_17), Peregrinibacteria bacterium (GW2011_GWA_33_10), Acidaminococcus sp. (BV3L6), Porphyromonas macacae, Lachnospiraceae bacterium (ND2006), Porphyromonas crevioricanis, Prevotella disiens, Moraxella bovoculi (237), Leptospira inadai, Lachnospiraceae bacterium (MA2020), Francisella novicida (U112), Candidatus Methanoplasma termitum, 또는 Eubacterium eligens 유래의 것일 수 있으나, 이에 제한되는 것은 아니다.

상기와 같은 Cpf1 단백질의 예를 유래 미생물 별로 아래의 표 1에 정리하였다:

Cpf1 단백질	유래 미생물	Genbank protein ID	NCBI protein GI from NR Database or local GI (for proteins originated from WGS database)	Contig ID in WGS database
PbCpf1	Parcubacteria bacterium GWC2011_GWC2_44_17	KKT48220.1	818703647	LCIC01000001.1
PeCpf1	Peregrinibacteria bacterium GW2011_GWA_33_10	KKP36646.1	818249855	LBOR01000010.1
AsCpf1	Acidaminococcus sp. BVBLG	WP_021736722.1	545612232	AWUR01000016.1
PmCpf1	Porphyromonas macacae	WP_018359861.1	517171043	BAKQ01000001.1
LbCpi1	Lachnospiraceae bacterium ND2006	WP_035635841.1	737666241	JNKS01000011.1
PcCpf1	Porphyromonas crevioricanis	WP_036890108.1	739008549	JQJC01000021.1
PdCpf1	Prevotella disiens	WP_004356401.1	490490171	AEDO01000031.1
MbCpf1	Moraxella bovoculi 237	KDN25524.1	639140168	AOMT01000011.1
LiCpf1	Leptospira inadai	WP_020988726.1	537834683	AHMM02000017.1
Lb2Cpf1	Lachnospiraceae bacterium MA2020	WP_044919442.1	769142322	JQKK01000008.1
FnCpf1	Francisella novicida U112	WP_003040289.1	489130501	CP000439.1
CMtCpf1	Candidatus Methanoplasma termitum	AIZ56868.1	851218172	CP010070.1
EeCpf1	Eubacterium eligens	WP_012739647.1	502240446	CP001104.1

상기 Cpf1 단백질은 미생물에서 분리된 것 또는 재조합적 방법 또는 합성적 방법으로 비자연적 생산된 것(non-naturally occurring)일 수 있다. 상기 Cpf1 단백질은 진핵세포의 핵 내 전달을 위하여 통상적으로 사용되는 요소 (예컨대, 핵위치신호 (nuclear localization signal; NLS) 등)를 추가로 포함하는 것일 수 있으나, 이에 제한되는 것은 아니다. 상기 Cpf1 단백질은 정제된 단백질 형태로 사용되거나, 이를 암호화하는 DNA, 또는 상기 DNA를 포함하는 재조합 벡터의 형태로 사용될 수 있다.

상기 가이드 RNA는 복합체를 형성할 Cpf1 단백질 종류 및/또는 그 유래 미생물에 따라서 적절히 선택될 수 있다.

일 예에서, Cpf1 시스템에 사용되는 crRNA는 다음의 일반식 1로 표현될 수 있다:

5'-n1-n2-A-U-n3-U-C-U-A-C-U-n4-n5-n6-n7-G-U-A-G-A-U-(N_cpf1)_q-3' (일반식 1; 서열번호 60).

상기 일반식 1에서,

n1은 존재하지 않거나, U, A, 또는 G이고, n2는 A 또는 G이고, n3은 U, A, 또는 C이고, n4는 존재하지 않거나 G, C, 또는 A이고, n5는 A, U, C, G, 또는 존재하지 않고, n6은 U, G 또는 C이고, n7은 U 또는 G이며,

N_cpf1는 유전자 표적 부위와 혼성화 가능한 뉴클레오타이드 서열을 포함하는 타겟팅 서열로서 표적 유전자의 표적 서열에 따라서 결정되며, q는 포함된 뉴클레오타이드 수를 나타내는 것으로, 15 내지 30의 정수, 15 내지 29의 정수, 15 내지 28의 정수, 15 내지 27의 정수, 15 내지 26의 정수, 15 내지 25의 정수, 15 내지 24의 정수, 15 내지 23의 정수, 15 내지 22의 정수, 15 내지 21의 정수, 15 내지 20의 정수, 16 내지 30의 정수, 16 내지 29의 정수, 16 내지 28의 정수, 16 내지 27의 정수, 16 내지 26의 정수, 16 내지 25의 정수, 16 내지 24의 정수, 16 내지 23의 정수, 16 내지 22의 정수, 16 내지 21의 정수, 16 내지 20의 정수, 17 내지 30의 정수, 17 내지 29의 정수, 17 내지 28의 정수, 17 내지 27의 정수, 17 내지 26의 정수, 17 내지 25의 정수, 17 내지 24의 정수, 17 내지 23의 정수, 17 내지 22의 정수, 17 내지 21의 정수, 17 내지 20의 정수, 18 내지 30의 정수, 18 내지 29의 정수, 18 내지 28의 정수, 18 내지 27의 정수, 18 내지 26의 정수, 18 내지 25의 정수, 18 내지 24의 정수, 18 내지 23의 정수, 18 내지 22의 정수, 18 내지 21의 정수, 또는 18 내지 20의 정수일 수 있다. 상기 표적 유전자의 표적 서열 (crRNA와 혼성화 하는 서열)은 PAM 서열 (5'-TTN-3' 또는 5'-TTTN-3'; N은 임의의 뉴클레오타이드로서, A, T, G, 또는 C의 염기를 갖는 뉴클레오타이드임)의 3' 방향으로 인접하여 위치하는 (예컨대, 연속하는) 15 내지 30개, 15 내지 29 개, 15 내지 28 개, 15 내지 27 개, 15 내지 26 개, 15 내지 25 개, 15 내지 24 개, 15 내지 23 개, 15 내지 22 개, 15 내지 21 개, 15 내지 20 개, 16 내지 30 개, 16 내지 29 개, 16 내지 28 개, 16 내지 27 개, 16 내지 26 개, 16 내지 25 개, 16 내지 24 개, 16 내지 23 개, 16 내지 22 개, 16 내지 21 개, 16 내지 20 개, 17 내지 30 개, 17 내지 29 개, 17 내지 28 개, 17 내지 27 개, 17 내지 26 개, 17 내지 25 개, 17 내지 24 개, 17 내지 23 개, 17 내지 22 개, 17 내지 21 개, 17 내지 20 개, 18 내지 30 개, 18 내지 29 개, 18 내지 28 개, 18 내지 27 개, 18 내지 26 개, 18 내지 25 개, 18 내지 24 개, 18 내지 23 개, 18 내지 22 개, 18 내지 21 개, 또는 18 내지 20 개 의 표적 유전자의 표적 부위의 뉴클레오타이드 서열이다.

상기 일반식 1에서 5' 말단에서 카운팅하여 6번째부터 10번째까지의 5개의 뉴클레오타이드 (5' 말단 스템 부위)와 15번째 (n4가 존재하는 경우 16번째)부터 19번째 (n4가 존재하는 경우 20번째)까지의 5개 뉴클레오타이드(3' 말단 스템 부위)은 서로 역평행 (antiparallel)하게 상보적 뉴클레오타이드로 이루어져 이중 가닥 구조 (스템 구조)를 형성하고, 상기 5' 말단 스템 부위와 3' 말단 스템 부위 사이의 3 내지 5개 뉴클레오타이드가 루프 구조를 형성할 수 있다.

상기 Cpf1 단백질의 crRNA (예컨대, 일반식 1로 표현됨)는 5' 말단에 1 내지 3개의 구아닌(G)을 추가로 포함할 수 있다.

본 명세서에서, 유전자 표적 부위와 혼성화 가능한 뉴클레오타이드 서열은 유전자 표적 부위의 뉴클레오타이드 서열 (표적 서열)과 50% 이상, 60% 이상, 70% 이상, 80% 이상, 90% 이상, 95% 이상, 99% 이상, 또는 100%의 서열 상보성을 갖는 뉴클레오타이드 서열을 의미한다 (이하, 특별한 언급이 없는 한 동일한 의미로 사용되며, 상기 서열 상동성은 통상적인 서열 비교 수단 (예컨대 BLAST)를 사용하여 확인될 수 있다). 예컨대, 상기 표적 서열과 혼성화 가능한 crRNA는 상기 표적 서열 (PAM 서열이 위치하는 가닥과 동일한 가닥에 위치)이 위치하는 핵산 가닥 (즉 PAM 서열이 위치하는 가닥)의 반대 가닥에 위치하는 대응 서열과 상보적 서열을 갖는 것일 수 있으며, 이를 다르게 설명하면, crRNA은 DNA 서열로 표시된 표적 서열에서 T를 U로 치환한 서열을 타겟팅 서열 부위로 포함하는 것일 수 있다.

본 명세서에서, crRNA를 표적 서열로 표현할 수 있으며, 이 경우 별도의 언급이 없어도, crRNA 서열은 표적 서열에서 T를 U로 치환한 서열인 것으로 해석될 수 있다.

상기 유전자 표적 부위의 뉴클레오타이드 서열 (표적 서열)은 5' 말단에 TTTN 또는 TTN (N은 A, T, C, 또는 G), 또는 이들과 50% 이상, 66% 이상, 또는 75% 이상의 서열 상동성을 갖는 PAM(protospacer-adjacent motif)와 연결(예컨대, 표적서열의 5' 말단과 PAM 서열이 직접 연결되거나 (0nt 거리), 1 내지 10nt 거리를 두고 연결)되어 있거나, 상기 5' 말단 PAM 서열에 더하여, 3' 말단에 상기 PAM 서열과 역방향으로 상보적인 서열 (NAAA 또는 NAA, 또는 이들과 50% 이상, 66% 이상, 또는 75% 이상의 서열 상동성을 갖는 서열; N은 A, T, C, 또는 G; 3' 말단의 inverted PAM 서열)과 연결(예컨대, 표적서열의 3' 말단과 inverted PAM 서열이 직접 연결되거나 (0nt 거리), 1 내지 10nt 거리를 두고 연결될 수 있음)된 것일 수 있다.

Cpf1 유래 미생물에 따라 사용 가능한 Cpf1 단백질의 crRNA 서열의 5' 말단 부위 서열 (타겟팅 서열 부위 제외한 부분)을 표 2에 예시적으로 기재하였다:

Cpf1 유래 미생물	가이드 RNA (crRNA)의 5' 말단 부위 서열 (5'-3')
Parcubacteria bacterium GWC2011_GWC2_44_17 (PbCpf1)	AAAUUUCUACU-UUUGUAGAU
Peregrinibacteria bacterium GW2011_GWA_33_10 (PeCpf1)	GGAUUUCUACU-UUUGUAGAU
Acidaminococcus sp. BVBLG (AsCpf1)	UAAUUUCUACU-CUUGUAGAU
Porphyromonas macacae (PmCpf1)	UAAUUUCUACU-AUUGUAGAU
Lachnospiraceae bacterium ND2006 (LbCpf1)	AAUUUCUACUAAGUGUAGAU
Porphyromonas crevioricanis(PcCpf1)	UAAUUUCUACU-AUUGUAGAU
Prevotella disiens (PdCpf1)	UAAUUUCUACU-UCGGUAGAU
Moraxella bovoculi 237 (MbCpf1)	AAUUUCUACUG-UUUGUAGAU
Leptospira inadai (LiCpf1)	GAAUUUCUACU-UUUGUAGAU
Lachnospiraceae bacterium MA2020 (Lb2Cpf1)	GAAUUUCUACU-AUUGUAGAU
Francisella novicida U112 (FnCpf1)	AAUUUCUACU-GUUGUAGAU
Candidatus Methanoplasma termitum (CMtCpf1)	GAAUCUCUACUCUUUGUAGAU
Eubacterium eligens (EeCpf1)	UAAUUUCUACU--UUGUAGAU

(-: 뉴클레오타이드가 존재하지 않음을 의미)

일 예에서, 상기 crRNA는 플라스미드 (plasmid)를 주형으로 하여 시험관 내 (in vitro) 전사된 crRNA일 수 있다.

다른 예에서, 상기 crRNA는 5' 말단에 인산-인산 결합(예컨대, 다이포스페이트 또는 트리포스페이트)을 포함하지 않는 것일 수 있다. crRNA가 5' 말단에 인산-인산 결합을 포함하지 않음으로써, 이를 포함하는 경우와 비교하여, 면역 반응 유도능 및/또는 세포 독성이 현저히 감소된 것일 수 있다. 상기 세포 독성 감소는 면역 반응(innate immunity)을 유발하지 않음; 및/또는 세포 생존 저해, 세포 증식 저해, 및/또는 세포의 손상, 용혈, 및/또는 사멸 유도의 완화 (감소) 및/또는 제거 (해소)를 의미할 수 있다. 예컨대, 상기 5' 말단에 인산-인산 결합을 포함하지 않는 가이드 RNA는 5' 말단에 모노포스페이트기 또는 OH기를 포함하거나, 이 외에도, 바이러스 또는 박테리아와 같은 pathogen과 구별되는 진핵 세포 또는 진핵 생물 내에 세포 독성 유발 없이 존재 가능한 모든 RNA의 5' 말단의 변형된 형태 (예컨대, 면역 억제, 안정성 증진, 표지 등의 이유로 자연적 또는 인공적으로 변형된 5' 말단 형태)를 갖는 것을 의미할 수 있다. 상기 crRNA는 T7 RNA 폴리머라아제, T3 RNA 폴리머라아제, SP6 RNA 폴리머라아제와 같은 원핵 세포의 RNA 폴리머라아제를 사용하는 in vitro 전사에 의하여 제작된 후 5' 말단의 3개의 인산기 중 2개 이상의 인산기, 예컨대 3개의 인산기가 제거 (즉, 트리포스페이트 및/또는 다이포스페이트가 제거)된 것, 또는 5' 말단에 인산-인산 결합 (예컨대, 다이포스페이트 및/또는 트리포스페이트)을 포함하지 않도록 화학 합성된 것일 수 있다. 상기 5' 말단의 인산기의 제거, 예컨대, 2개 이상의 인산기 (즉, 트리포스페이트 및/또는 다이포스페이트)의 제거는 인산기와의 에스테르 결합을 분해하여 2개 또는 3개의 인산기를 RNA로부터 유리시키는 모든 통상적인 모든 방법에 의할 수 있으며, 예컨대, 포스파타아제 (phosphatase)를 처리하여 수행할 수 있으나, 이에 제한되는 것은 아니다. 상기 포스파타아제는 Calf Intestinal alkaline Phosphatase (CIP), Shrimp Alkaline Phosphatase (SAP), Antarctic Phosphatase 등으로 이루어진 군에서 선택된 1종 이상일 수 있으나, 이에 제한되는 것은 아니며, RNA로부터 인산기를 유리시키는 모든 효소들 중에서 선택될 수 있다.

일 예에서, 본 명세서에서 제공되는 유전체 교정 조성물, 유전체 교정 방법, 형질전환체 제조용 조성물, 및 형질전환체 제조 방법에서 사용되는 Cpf1 단백질 및 crRNA는 정제된 Cpf1 단백질 및 5' 말단에 인산-인산 결합을 포함하지 않은 (예컨대, 화학 합성된) crRNA를 포함하거나 이를 사용하는 것일 수 있다.

한편, Cpf1 단백질을 코딩하고 있는 유전자 사이즈가 크기 때문에, 벡터 (예컨대, AAV (Adeno-associated virus) 등의 바이러스 벡터)를 이용하여 Cpf1 단백질을 세포 내 또는 유기체 내로 전달하는 경우 효율이 떨어지는 문제가 있을 수 있고, 이는 Cpf1 기술을 적용하는 데 장애가 될 수 있다. 특히, AAV 벡터와 같은 바이러스 벡터의 경우, 벡터의 패키징 한계 때문에, 패키징 한계를 넘는 유전자가 클로닝된 경우 바이러스 생산 효율 및 세포 내 전달 효율이 떨어지는 현상이 보편적으로 잘 알려져 있다.

이러한 문제를 해결하기 위해서, 본 명세서에서 사용되는 Cpf1 단백질 또는 이를 암호화하는 DNA는 적어도 하나 이상(예컨대 하나)의 임의의 위치에서 절단되어 생성된 두 개 이상(예컨대, 두 개)의 절단 단편들 중 하나 이상 (예컨대 두 개)을 포함하는 것일 수 있다. 상기 두 개 이상의 Cpf1 절단 단편은 전장 Cpf1를 중복없이 cover하는 것일 수 있다. 상기 두 개 이상의 절단 단편 (DNA 단편)은 하나의 벡터에 함께 포함되거나 두 개 이상의 벡터에 각각 포함되어 세포 또는 유기체에 전달될 수 있다.

상기 Cpf1 단백질 또는 이를 암호화하는 DNA의 절단 지점은 Cpf1 단백질의 3차 구조상 외부 노출 부위 또는 소정의 기능을 갖는 도메인 이외의 부위 (예컨대 도메인 간 링커 (domain-domain linker), 또는 상기 외부 노출 부위 또는 도메인 이외의 부위를 암호화하는 DNA 서열 내에 위치할 수 있다.

예컨대, Acidaminococcus sp. BVBLG 유래 Cpf1 (AsCpf1)의 경우, 단백질 상의 절단 지점은, AsCpf1 아미노산 서열 (Genbank Accession No. WP_021736722.1; 1307 아미노산 길이) 중, 901번째 아미노산과 902번째 아미노산 사이, 886번째 아미노산과 887번째 아미노산 사이, 399번째 아미노산과 400번째 아미노산 사이, 및 526번째 아미노산과 527번째 아미노산 사이로 이루어진 군에서 선택된 하나 이상의 지점일 수 있다.

예컨대, 상기 절단 단편은, AsCpf1 아미노산 서열 (1307 아미노산 길이) 중,

1) 첫번째 아미노산부터 901번째 아미노산까지의 제1 단백질 단편 또는 이를 암호화하는 제1 DNA 단편 및 902번째 아미노산부터 1307번째 아미노산까지의 제2 단백질 단편 또는 이를 암호화하는 제2 DNA 단편;

2) 첫번째 아미노산부터 886번째 아미노산까지의 제1 단백질 단편 또는 이를 암호화하는 제1 DNA 단편 및 887번째 아미노산부터 1307번째 아미노산까지의 제2 단백질 단편 또는 이를 암호화하는 제2 DNA 단편;

3) 첫번째 아미노산부터 399번째 아미노산까지의 제1 단백질 단편 또는 이를 암호화하는 제1 DNA 단편 및 400번째 아미노산부터 1307번째 아미노산까지의 제2 단백질 단편 또는 이를 암호화하는 제2 DNA 단편; 또는

4) 첫번째 아미노산부터 526번째 아미노산까지의 제1 단백질 단편 또는 이를 암호화하는 제1 DNA 단편 및 527번째 아미노산부터 1307번째 아미노산까지의 제2 단백질 단편 또는 이를 암호화하는 제2 DNA 단편

을 포함하는 것일 수 있다.

상기 절단 위치 및 절단 단편을 AsCpf1를 예를 들어 설명하였지만, 상기 절단 위치 및 절단 단편은 다른 유기체에서 유래하는 Cpf1에서의 해당 위치에 적용될 수 있다. 상기 "다른 유기체에서 유래하는 Cpf1에서의 해당 위치"는 AsCpf1 아미노산 서열 또는 이를 암호화하는 DNA 서열과 당해 유기체의 Cpf1의 아미노산 서열 또는 이를 암호화하는 DNA 서열을 통상적인 서열 비교 수단 (예컨대 BLAST (Basic Local Alignment Search Tool; 예컨대, PSI-BLAST (Position-Specific Iterative BLAST); blast.ncbi.nlm.nih.gov/Blast.cgi) 등)을 이용하여 결정될 수 있으며, 이는 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자가 명확하게 알 수 있는 사항이다.

상기 Cpf1 단백질 또는 또는 이를 암호화하는 유전자의 절단 단편은 두 개 이상의 절단 단편을 포함할 수 있으며, 상기 두 개 이상의 절단 단편은 각각 N-말단 및/또는 C-말단 (단백질 단편의 경우) 또는 5' 말단 및/또는 3' 말단 (유전자 단편의 경우)에 결합 단백질 또는 결합 단백질을 암호화하는 핵산 분자와 결합되어 있을 수 있다. 상기 결합 단백질은 동일한 생체활성물질의 서로 다른 부위에 결합하는 서로 다른 단백질일 수 있다. 일 예에서, 상기 생체활성물질은 rapamycin이고, 상기 결합 단백질은 FRB 단백질 및 FKBP 단백질로 이루어진 군에서 선택된 것일 수 있으나, 이에 제한되는 것은 아니다.

상기 두 개 이상의 Cpf1 단백질 단편을 암호화하는 유전자 단편 (절단 유전자 단편)이 재조합 벡터를 통하여 전달되는 경우, 상기 두 개 이상의 절단 유전자 단편은 별개의 벡터에 각각 포함되거나 하나의 벡터에 함께 포함될 수 있다.

다른 예에서, 상기 벡터에 포함된 절단 별개의 벡터에 각각 또는 함께 포함된 절단 유전자 단편은 각각의 절단 유전자 단편의 5' 말단 또는 3' 말단 (예컨대, 5' 말단) 방향에 crRNA 암호화 DNA와 연결된 것일 수 있다. 일 예에서, 제1 DNA 단편을 포함하는 벡터는, 5'에서 3' 방향으로, 프로모터, crRNA 암호화 DNA, 프로모터, 및 Cpf1 단백질의 제1 단백질 단편을 암호화하는 제1 DNA 단편을 포함하고, 제2 DNA 단편을 포함하는 벡터는, 5'에서 3' 방향으로, 프로모터, crRNA 암호화 DNA, 프로모터, 및 Cpf1 단백질의 제2 단백질 단편을 암호화하는 제2 DNA 단편을 포함하는 것일 수 있다 (도 32a 참조).

본 명세서에서 제공되는 유전체 교정 방법 및 형질 전환 유기체 제조 방법에서 수행되는 모든 단계는 세포 내 또는 세포 외, 또는 생체 내 또는 생체 외에서 수행되는 것일 수 있다.

본 발명의 다른 예는 microinjection 방법에 의한 리보핵산단백질의 세포 (예컨대 embryo) 전달시 각각의 embryo 를 microscope를 통해 확인하면서 하나씩 처리해야 하는 단점, 특히 많은 수의 embryo를 순서대로 처리할 때는 긴 시간이 필요한데, 이는 embryo 가 1 cell stage에서 유지되는 시간이 짧다는 점에서 야기되는 기술적인 장애를 극복하기 위한 기술을 제공한다.

또한, crRNA가 PCR 산물 (amplicon) 형태가 아닌 벡터(에컨대, 플라스미드)에 포함된 형태 (재조합 벡터)로 사용됨으로써 PCR 산물 (amplicon) 형태로 사용되는 경우와 비교하여 유전자 교정 (절단, 삽입, 결실 등) 효율이 증진됨을 확인하여 (도 14a 및 14b 참조), crRNA를 벡터에 포함된(클로닝된) 형태로 사용하는 기술을 제공한다. 상기 벡터는 crRNA 코딩 DNA 및/또는 이와 작동 가능하게 연결된 프로모터 등의 전사조절서열을 포함하는 crRNA 발현 카세트를 포함하는 것일 수 있다.

구체적으로, 다른 예는 RNA 가이드 엔도뉴클레아제 (RNA-guided endonuclease; RGEN)과 가이드 RNA를 포함하는 혼합물 또는 리보핵산단백질(ribonucleoprotein; RNP), 이들을 암호화하는 DNA, 또는 상기 DNA를 포함하는 재조합 벡터를 세포 (예컨대, 진핵 세포) 또는 유기체 (예컨대, 진핵 유기체)에 전달하는 것은 국소주입법 (예컨대, 병변 또는 표적 부위 직접 주입), 미세주입법 (microinjection), 전기천공법(electroporation), 리포펙션 (예컨대, 리포펙타민 사용) 등에 의할 수 있다.

다른 예는 RNA 가이드 엔도뉴클레아제(RNA-guided endonuclease; RGEN)와 가이드 RNA를 포함하는 혼합물 또는 리보핵산단백질(ribonucleoprotein; RNP), 이들을 암호화하는 DNA, 또는 상기 DNA를 포함하는 재조합 벡터를 이용하는 세포 (예컨대, 진핵 세포) 또는 유기체 (예컨대, 진핵 유기체)의 유전체 교정 방법 및 형질전환 유기체의 제조 방법에 있어서, 상기 혼합물, 리보핵산단백질, DNA, 또는 재조합 벡터는 국소주입법 (예컨대, 병변 또는 표적 부위 직접 주입), 미세주입법 (microinjection), 전기천공법(electroporation), 리포펙션 (lipofection; 예컨대, 리포펙타민 사용) 등에 의하여 세포 (예컨대, 진핵 세포) 또는 유기체 (예컨대, 진핵 유기체)에 전달될 수 있다. 전달 대상 세포가 식물 세포인 경우, 상기 식물 세포를 폴리에틸렌글리콜 (polyethylene glycol; PEG) 등의 계면활성제와 혼합한 후, 상기 엔도뉴클레아제와 가이드 RNA를 포함하는 혼합물 또는 리보핵산단백질과 혼합하여 전달할 수 있다.

다른 예는 RNA 가이드 엔도뉴클레아제(RNA-guided endonuclease; RGEN)와 가이드 RNA를 포함하는 혼합물 또는 리보핵산단백질(ribonucleoprotein; RNP), 이들을 암호화하는 DNA, 또는 상기 DNA를 포함하는 재조합 벡터를 세포 (예컨대, 진핵 세포) 또는 유기체 (예컨대, 진핵 유기체)에 전달하는 방법에 있어서, 상기 혼합물, 리보핵산단백질, DNA, 또는 재조합 벡터를 세포 (예컨대, 진핵 세포) 또는 유기체 (예컨대, 진핵 유기체)에 국소주입법 (예컨대, 병변 또는 표적 부위 직접 주입), 미세주입법 (microinjection), 전기천공법(electroporation), 리포펙션 (lipofection; 예컨대, 리포펙타민 사용) 등에 의하여 세포 (예컨대, 진핵 세포) 또는 유기체 (예컨대, 진핵 유기체)에 도입시키는 단계를 포함하는 것을 특징으로 하는, 전달 방법을 제공한다. 전달 대상 세포가 식물 세포인 경우, 상기 식물 세포를 폴리에틸렌글리콜 (polyethylene glycol; PEG) 등의 계면활성제와 혼합한 후, 상기 엔도뉴클레아제와 가이드 RNA를 포함하는 혼합물 또는 리보핵산단백질과 혼합하여 전달할 수 있다.

상기 기재된 방법에 있어서, 상기 엔도뉴클레아제 (예컨대, Cpf1, Cas9 등) 또는 이를 암호화하는 DNA 및 가이드 RNA (예컨대, crRNA, sgRNA 등) 또는 이를 암호화하는 DNA를 포함하는 혼합물 또는 리보핵산단백질, 또는 이를 암호화하는 DNA의 전달은 생체 외 (in vitro)에서 발현된 (정제된) 엔도뉴클레아제 및 가이드 RNA의 혼합물 또는 이들이 접합된 리보핵산단백질을 미세주입법 (microinjection), 전기천공법(electroporation), 리포펙션 등의 방식으로 진핵 세포 및/또는 진핵 유기체에 전달함으로써 수행할 수 있다. 다른 예에서, 상기 엔도뉴클레아제 (예컨대, Cpf1, Cas9 등) 또는 이를 암호화하는 DNA 및 가이드 RNA (예컨대, crRNA, sgRNA 등) 또는 이를 암호화하는 DNA를 포함하는 혼합물 또는 리보핵산단백질의 전달은 엔도뉴클레아제를 암호화하는 DNA을 포함하는 발현 카세트 및 가이드 RNA를 암호화하는 DNA를 포함하는 발현 카세트를 별도의 벡터에 각각 포함하거나 하나의 벡터에 함께 포함하는 재조합 벡터를 국소주입법 (예컨대, 병변 또는 표적 부위 직접 주입), 미세주입법 (microinjection), 전기천공법(electroporation), 리포펙션 등의 방식으로 진핵 세포 및/또는 진핵 유기체에 전달함으로써 수행할 수 있다.

상기 발현 카세트는, 엔도뉴클레아제 코딩 DNA 또는 crRNA 코딩 DNA에 더하여, 통상적인 유전자 발현 조절 서열을 상기 엔도뉴클레아제 코딩 DNA 또는 crRNA 코딩 DNA과 작동 가능하게 연결된 형태로 포함하는 것일 수 있다. 상기 용어 "작동 가능하게 연결된(operatively linked)"은 유전자 발현 조절 서열과 다른 뉴클레오타이드 서열 사이의 기능적인 결합(cis)을 의미한다.

상기 유전자 발현 조절 서열은 복제원점 (replication origin), 프로모터, 전사 종결 서열 (terminator) 등으로 이루어진 군에서 선택된 1종 이상일 수 있다.

본 명세서에 시재된 프로모터는 특정 유전자의 전사 개시를 조절하는 전사 조절 서열 중 하나로, 통상적으로 약 100 내지 약 2500 bp 길이의 폴리뉴클레오타이드 단편이다. 일 구체예에서, 상기 프로모터는 세포, 예컨대, 진핵 세포, (예컨대, 식물 세포, 또는 동물 세포 (e.g., 인간, 마우스 등의 포유류 세포 등) 등)에서 전사 개시를 조절할 수 있으면, 제한 없이 사용 가능하다. 예컨대, 상기 프로모터는 CMV 프로모터 (cytomegalovirus promoter; (예컨대, 인간 또는 마우스 CMV immediate-early 프로모터), U6 프로모터, EF1-alpha (elongation factor 1-a) 프로모터, EF1-alpha short (EFS) 프로모터, SV40 프로모터, 아데노바이러스 프로모터(major late promoter), pL^λ 프로모터, trp 프로모터, lac 프로모터, tac 프로모터, T7 프로모터, 백시니아 바이러스 7.5K 프로모터, HSV의 tk 프로모터, SV40E1 프로모터, 호흡기 세포융합 바이러스(Respiratory syncytial virus; RSV) 프로모터, 메탈로티오닌 프로모터(metallothionin promoter), β-액틴 프로모터, 유비퀴틴 C 프로모터, 인간 IL-2 (human interleukin-2) 유전자 프로모터, 인간 림포톡신(human lymphotoxin) 유전자 프로모터, 인간 GM-CSF (human granulocyte-macrophage colony stimulating factor) 유전자 프로모터 등으로 이루어진 군에서 선택된 1종 이상일 수 있으나, 이에 제한되는 것은 아니다. 일 예에서, 상기 프로모터는 CMV immediate-early 프로모터, U6 프로모터, EF1- alpha (elongation factor 1-a) 프로모터, EF1-alpha short (EFS) 프로모터 등으로 이루어진 군에서 선택된 것일 수 있다. 상기 전사 종결 서열은 폴리아데닐화 서열(pA) 등일 수 있다. 상기 복제 원점은 f1 복제원점, SV40 복제원점, pMB1 복제원점, 아데노 복제원점, AAV 복제원점, BBV 복제원점 등일 수 있다.

본 명세서에 기재된 벡터는 플라스미드 벡터, 코즈미드 벡터 및 박테리오파아지 벡터, 아데노바이러스 벡터, 레트로바이러스 벡터 및 아데노-연관 바이러스 벡터와 같은 바이러스 벡터로 이루어진 군에서 선택된 것일 수 있다. 상기 재조합 벡터로 사용될 수 있는 벡터는 당업계에서 사용되는 플라스미드 (예를 들면, pcDNA 시리즈, pSC101, pGV1106, pACYC177, ColE1, pKT230, pME290, pBR322, pUC8/9, pUC6, pBD9, pHC79, pIJ61, pLAFR1, pHV14, pGEX 시리즈, pET 시리즈, pUC19 등), 파지 (예를 들면, λgt4λB, λ-Charon, λΔz1, M13 등) 또는 바이러스 벡터 (예를 들면, 아데노-연관 바이러스 (AAV) 벡터 등) 등을 기본으로 하여 제작될 수 있으나, 이에 제한되는 것은 아니다.

상기 진핵 유기체는 진핵 세포 (예컨대, 효모 등의 균류, 진핵 동물 및/또는 진핵 식물 유래 세포 (예컨대, 배아세포, 줄기세포, 체세포, 등)), 진핵 동물 (예컨대, 척추동물 또는 무척추동물, 보다 구체적으로, 인간, 원숭이 등의 영장류, 개, 돼지, 소, 양, 염소, 마우스, 래트 등을 포함하는 포유류 등), 및 진핵 식물 (예컨대, 녹조류 등의 조류, 옥수수, 콩, 밀, 벼 등의 단자엽 또는 쌍자엽 식물 등)로 이루어진 군에서 선택된 것일 수 있으나, 이에 제한되는 것은 아니다.

상기 RNA 가이드 엔도뉴클레아제는 단일 가이드 RNA (sgRNA) 또는 이중 가이드 RNA (dual guide RNA)와 함께 혼합물 또는 복합체 형태로 존재할 수 있으며, RNA에 포함된 유전자 표적부위의 타겟팅 서열을 절단하여 유전자 교정 작용을 하는 엔도뉴클레아제를 의미하는 것으로, 대표적으로 Cas9 단백질 (CRISPR associated protein 9), Cpf1 단백질 (CRISPR from Prevotella and Francisella 1) 등과 같은 타입 Ⅱ, 및/또는 타입 V의 CRISPR/Cas 시스템에 수반되는 엔도뉴클레아제일 수 있다.

Cas9 단백질은 스트렙토코커스 sp. (Streptococcus sp.), 예컨대, 스트렙토코커스 피요게네스 (Streptococcus pyogenes) 유래의 것 (SwissProt Accession number Q99ZW2)일 수 있으나, 이에 제한되는 것은 아니다.

Cpf1 단백질은 앞서 설명한 바와 같다 (예컨대, 표 1 참조).

상기 Cas9 단백질, Cpf1 등의 엔도뉴클레아제는 미생물에서 분리된 것 또는 재조합적 방법 또는 합성적 방법으로 비자연적 생산된 것(non-naturally occurring)일 수 있다. 상기 엔도뉴클레아제는 진핵세포의 핵 내 전달을 위하여 통상적으로 사용되는 요소 (예컨대, 핵위치신호 (nuclear localization signal; NLS; 예컨대, PKKKRKV, KRPAATKKAGQAKKKK, 또는 이를 암호화하는 핵산 분자) 등)를 N-말단 또는 C-말단 (또는 이를 암호화하는 핵산 분자의 5' 말단 또는 3' 말단)에 추가로 포함하는 것일 수 있으나, 이에 제한되는 것은 아니다. 상기 엔도뉴클레아제 단백질은 정제된 단백질 형태로 사용되거나, 이를 암호화하는 DNA, 또는 상기 DNA를 포함하는 재조합 벡터의 형태로 사용될 수 있다.

상기 가이드 RNA는 복합체를 형성할 엔도뉴클레아제의 종류 및/또는 그 유래 미생물에 따라서 적절히 선택될 수 있다. 예컨대, 상기 가이드 RNA는 CRISPR RNA (crRNA), trans-activating crRNA (tracrRNA), 및 단일 가닥 가이드 RNA (sgRNA)로 이루어진 군에서 선택된 1종 이상일 수 있으며, 엔도뉴클레오타이드 종류에 따라서, CRISPR RNA (crRNA) 단독, CRISPR RNA (crRNA) 및 trans-activating crRNA (tracrRNA)의 복합체, 또는 단일 가닥 가이드 RNA (sgRNA)일 수 있다.

예컨대, Cas9 단백질을 포함하는 복합체 (Cas9 시스템)은 목적하는 유전자 교정을 위하여 두 개의 가이드 RNA, 즉, 유전자의 표적 부위와 혼성화 가능한 뉴클레오타이드 서열을 갖는 CRISPR RNA (crRNA)와 추가적인 trans-activating crRNA (tracrRNA)를 필요로 하며, 이들 crRNA와 tracrRNA는 서로 결합된 이중 가닥 crRNA:tracrRNA 복합체 형태, 또는 링커를 통하여 연결되어 단일 가닥 가이드 RNA (single-stranded guide RNA; sgRNA) 형태로 사용된다. Cpf1 단백질을 포함하는 복합체 (Cpf1 시스템)은 목적하는 유전자 교정을 위하여 하나의 가이드 RNA, 즉, 유전자의 표적 부위와 혼성화 가능한 뉴클레오타이드 서열을 갖는 crRNA을 필요로 한다.

상기 가이드 RNA의 구체적 서열은 Cas9 단백질 또는 Cpf1 단백질의 종류 (유래 미생물)에 따라서 적절히 선택할 수 있으며, 이는 이 발명이 속하는 기술 분야의 통상의 지식을 가진 자가 용이하게 알 수 있는 사항이다.

일 예에서, Streptococcus pyogenes 유래의 Cas9 단백질을 포함한 Cas9 시스템에 사용되는 crRNA는 다음의 일반식 2로 표현될 수 있다:

5'-(N_cas9)_l-GUUUUAGAGCUA-(X_cas9)_m-3' (일반식 2; 서열번호 61)

상기 일반식 2에서,

N_cas9는 유전자 표적 부위와 혼성화 가능한 뉴클레오타이드 서열을 포함하는 타겟팅 서열 부위로서 표적 유전자의 표적 부위에 따라서 결정되는 부위이며, l은 상기 타겟팅 서열 부위에 포함된 뉴클레오타이드 수를 나타내는 것으로 18 내지 22의 정수, 예컨대 20일 수 있고;

상기 타겟팅 서열 부위의 3' 방향으로 인접하여 위치하는 연속하는 12개의 뉴클레오타이드(GUUUUAGAGCUA)를 포함하는 부위는 crRNA의 필수적 부분이고,

X_cas9는 crRNA의 3' 쪽에 위치하는 (즉, 상기 crRNA의 필수적 부분의 3' 방향으로 인접하여 위치하는) m개의 뉴클레오타이드를 포함하는 부위로, m은 8 내지 12의 정수, 예컨대 10일 수 있으며, 상기 m개의 뉴클레오타이드들은 서로 같거나 다를 수 있으며, A, U, C 및 G로 이루어진 군에서 각각 독립적으로 선택될 수 있다.

일 예에서, 상기 X_cas9는 UGCUGUUUUG를 포함할 수 있으나 이에 제한되지 않는다.

또한, Streptococcus pyogenes 유래의 Cas9 단백질을 포함한 Cas9 시스템에 사용되는 tracrRNA는 다음의 일반식 3으로 표현될 수 있다:

5'-(Y_cas9)_p-UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC-3' (일반식 3; 서열번호 62)

상기 일반식 3에서,

60개의 뉴클레오타이드 (UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC)를 포함하는 부위는 tracrRNA의 필수적 부분이고,

Y_cas9는 상기 tracrRNA의 필수적 부분의 5' 말단에 인접하여 위치하는 p개의 뉴클레오타이드를 포함하는 부위로, p는 6 내지 20의 정수, 예컨대 8 내지 19의 정수일 수 있으며, 상기 p개의 뉴클레오타이드들은 서로 같거나 다를 수 있고, A, U, C 및 G로 이루어진 군에서 각각 독립적으로 선택될 수 있다.

또한, Streptococcus pyogenes 유래의 Cas9 단백질을 포함한 Cas9 시스템에 사용되는 sgRNA는 상기 Cas9의 crRNA의 타겟팅 서열 부위와 필수적 부위를 포함하는 crRNA 부위와 상기 Cas9의 tracrRNA의 필수적 부위를 포함하는 tracrRNA 부위가 뉴클레오타이드 링커를 통하여 헤어핀 구조를 형성하는 것일 수 있다. 보다 구체적으로, 상기 sgRNA는 crRNA의 타겟팅 서열 부위와 필수적 부위를 포함하는 crRNA 부위와 상기 Cas9의 tracrRNA의 필수적 부위를 포함하는 tracrRNA 부위가 서로 결합된 이중 가닥 RNA 분자에서 crRNA 부위의 3' 말단과 tracrRNA 부위의 5' 말단이 뉴클레오타이드 링커를 통하여 연결된 헤어핀 구조를 갖는 것일 수 있다.

crRNA의 타겟팅 서열 부위와 필수적 부위 및 tracrRNA의 필수적 부위는 앞서 설명한 바와 같다. 상기 sgRNA에 포함되는 뉴클레오타이드 링커는 3 내지 5개, 예컨대 4개의 뉴클레오타이드를 포함하는 것일 수 있으며, 상기 뉴클레오타이드들은 서로 같거나 다를 수 있고, A, U, C 및 G로 이루어진 군에서 각각 독립적으로 선택될 수 있다. 일 예에서, 상기 링커는 'GAAA'의 뉴클레오타이드 서열을 갖는 것일 수 있으나, 이에 제한되는 것은 아니다.

예컨대, 상기 sgRNA는 다음의 일반식 2로 표현될 수 있다:

5'-(N_cas9)_m-GUUUCAGUUGCU-(링커)-AUGCUCUGUAAUCAUUUAAAAGUAUUUUGAACGGACCUCUGUUUGACACGUCUGAAUAACUAAAAA-3' (일반식 4; 서열번호 63)

상기 일반식 4에서,

N_cas9는 유전자 표적 부위와 혼성화 가능한 뉴클레오타이드 서열을 포함하는 타겟팅 서열 부위로서 표적 유전자의 표적 부위에 따라서 결정되는 부위이며, m은 상기 타겟팅 서열 부위에 포함된 뉴클레오타이드 수를 나타내는 것으로 16 내지 24의 정수 또는 18 내지 22의 정수 일 수 있고;

상기 링커는 3 내지 5개, 예컨대 4개의 뉴클레오타이드를 포함하는 것일 수 있으며,

상기 타겟팅 서열 부위 및 링커에 포함된 뉴클레오타이드들은 서로 같거나 다를 수 있고, A, U, C 및 G로 이루어진 군에서 각각 독립적으로 선택된 것일 수 있고, 예컨대, 'GAAA'일 수 있다.

상기 Cas9 단백질의 crRNA (예컨대, 일반식 2로 표현됨) 또는 sgRNA (예컨대, 일반식 4로 표현됨)는 5' 말단 (즉, crRNA의 타겟팅 서열 부위의 5' 말단)에 1 내지 3개의 구아닌(G)을 추가로 포함할 수 있다.

상기 Cas9 단백질의 tracrRNA 또는 sgRNA는 tracrRNA의 필수적 부분(60nt)의 3' 말단에 5개 내지 7개의 우라실 (U)을 포함하는 종결부위를 추가로 포함할 수 있다.

다른 예에서, Cpf1 단백질을 포함한 Cpf1 시스템에 있어서, 여기에 사용되는 crRNA는 앞서 설명한 바와 같다 (일반식 1 및 표 2 참조).

다른 예에서, Cpf1 단백질 및 Hif1-alpha 유전자를 타겟팅하는 crRNA의 안구 질환 치료 용도를 제공한다.

Hif1-alpha (Hypoxia-inducible factor 1-alpha)는 헤테로다이머 전사 인자인 hypoxia-inducible factor 1 (HIF-1)의 서브유닛으로,　HIF1A 유전자에 의하여 암호화된다. 상기 Hif1-alpha는 포유류, 예컨대 인간 Hif1-alpha일 수 있으며, NCBI accession no. NP_001230013.1, NP_001521.1, NP_851397.1, NP_001521.1 등으로 표현될 수 있으나 이에 제한되는 것은 아니다. HIF1A 유전자는 포유류, 예컨대 인간 HIF1A 유전자일 수 있으며, NCBI accession no. NM_181054.1, NM_001243084.1, NM_001530.1 등으로 표현될 수 있으나 이에 제한되는 것은 아니다.

구체적으로, 일 예는

Cpf1 단백질 또는 이를 암호화하는 DNA, 및

Hif1-alpha 유전자의 표적 부위의 연속하는 15nt 내지 30nt의 뉴클레오타이드 서열 (표적 서열)과 혼성화 가능한 뉴클레오타이드 서열을 포함하는 crRNA 또는 이를 암호화하는 DNA

를 포함하는, 안구 질환의 예방 또는 치료용 약학 조성물을 제공한다.

다른 예는,

Cpf1 단백질 또는 이를 암호화하는 DNA, 및

를 안구 질환의 예방 또는 치료를 필요로 하는 대상에 투여하는 단계를 포함하는, 안구 질환의 예방 또는 치료 방법을 제공한다.

상기 Cpf1 및 crRNA은 앞서 설명한 바와 같다.

상기 약학 조성물 및 예방 또는 치료 방법에 있어서, 상기 Cpf1 단백질을 암호화하는 DNA 및 상기 crRNA를 암호화하는 DNA를 별도의 벡터에 각각 포함하거나 하나의 벡터에 함께 포함하는 재조합 벡터가 포함 또는 투여될 수 있다.

상기 벡터로서, 앞서 설명한 종류의 벡터를 사용할 수 있으며, 예컨대, 아데노부속 바이러스(AAV)를 사용할 수 있다.

상기 crRNA는 서열번호 69 내지 서열번호 79의 Hif1-a 유전자의 표적 서열 중에서 선택된 서열과 혼성화 가능한 뉴클레오타이드 서열을 포함하는 것일 수 있다.

상기 안구 질환은 당뇨성 망막병증 또는 노인성 황반변성일 수 있다.

상기 Cpf1 단백질 또는 이를 암호화하는 DNA를 포함하는 재조합 벡터, 및 Hif1-alpha 유전자의 표적 부위의 연속하는 15nt 내지 30nt의 표적 서열과 혼성화 가능한 뉴클레오타이드 서열을 포함하는 crRNA 또는 이를 암호화하는 DNA를 포함하는 재조합 벡터를 포함하는 혼합물 또는 리보핵산 단백질은 정맥투여 또는 병변 국소 투여, 에컨대 망막 주입 (예컨대, subretinal injection 또는 intravitreal injection)에 의하여 투여될 수 있다.

상기 대상은 인간, 마우스 등의 포유 동물일 수 있다.

본 발명은 Cpf1 시스템을 이용하여 보다 효과적으로 진핵 세포 (예컨대, 인간, 마우스 등의 포유 동물 세포, 진핵 식물 세포)에서의 유전체 교정을 수행할 수 있고, 원하는 유전자가 knock-out 또는 knock-in된 형질전환 세포 및/또는 형질전환 동물/식물을 제조할 수 있다. 또한, RNA 가이드 엔도뉴클레아제와 가이드 RNA를 포함하는 리보핵산단백질의 진핵 유기체 전달시, microinjection이 아닌 electroporation 방식을 채용함으로써 보다 효율적으로 리보핵산단백질을 진핵 유기체에 전달할 수 있다.

도 1은 재조합 AsCpf1과 crRNA를 포함하는 RNP를 mouse blastocyst에 microinjection 으로 전달하는 과정을 모식적으로 보여준다.
도 2는 T7E1 실험을 통해 blastocyst 에서 염기서열 변이가 있음을 확인한 결과이다.
도 3은 Cpf1 RNP 유전체 교정을 targeted deep sequencing 으로 확인한 결과를 보여주는 것으로, Cpf1 이 유전체 절단을 일으킬 것으로 예상되는 염기서열 위치에 특이적으로 변이가 존재함이 확인되었다.
도 4 내지 6은 Cpf1 RNP으로 유전체 교정된 생쥐에서 비특이적 염기서열 변이 분석 결과를 보여주는 것으로,
도 4는 Cpf1 RNP 를 사용해 제작된 생쥐의 꼬리에서 gDNA를 정제하여 T7E1으로 특이적 위치에서 염기서열 변이 확인한 결과이고,
도 5는 변이된 염기서열을 targeted deep sequencing 으로 확인한 결과이고,
도 6은 꼬리 gDNA 를 genome wide sequencing 하여 비특이적 위치에 염기서열 변이가 없음을 확인한 결과이다.
도 7 내지 10은 Electroporation으로 SpCas9 과 AsCpf1 RNP 를 전달하여 mouse embryo 에서 유전체 교정하는 것과 관련된 것으로,
도 7은 SpCas9/AsCpf1 과 sgRNA/crRNA 를 결합하여 다수의 mouse embryo 에 electroporation을 통해 전달하는 과정을 모식적으로 보여주는 것이고,
도 8은 SpCas9 RNP electroporation으로 일으킨 염기서열 변이를 T7E1으로 확인한 결과를 보여주는 것이고,
도 9는 SpCas9 RNP electroporation 으로 만들어진 염기서열 변이를 targeted deep sequencing 으로 분석한 결과이고,
도 10은 AsCpf1 RNP electroporation 에 의해 생긴 염기서열 변이를 targeted deep sequencing으로 분석한 결과이다.
도 11은 콩 원형질체에서 상동 FAD2 유전자들의 AsCpf1 과 LbCpf1 재조합 단백질에 의한 유전체 교정 방법을 보여주는 모식도이다.
도 12 및 도 13은 FAD2 유전자들의 염기서열 변이 분석 결과를 보여주는 것으로,
도 12는 AsCpf1 과 LbCpf1을 사용한 유전체 교정 효율을 보여주는 결과이고,
도 13은 targeted deep sequencing 을 통한 특이적 염기서열 변이 확인 결과이다.
도 14a 및 14b는 Plasmid U6-crRNA와 PCR product U6-crRNA를 이용한 세포 유전체 교정 및 효율 비교한 결과를 보여주는 것으로,
14a는 T7E1 assay를 통하여 plasmid U6-crRNA를 사용한 경우와 PCR product U6-crRNA를 사용한 경우의 세포 유전체 교정 효율을 비교한 결과를 보여주는 전기영동 사진이고,
14b는 Targeted-deep sequencing 방법을 이용한 세포 유전체 교정 효율의 정량 분석 결과를 보여주는 그래프이다.
도 15a 및 15b는 재조합 Cpf1 단백질 정제 및 activity 확인을 위한 in vitro cleavage assay 결과를 보여주는 것으로,
15a는 AsCpf1 및 LbCpf1를 박테리아에서 발현 및 정제하여 SDS-PAGE 전기영동으로 확인한 결과이고,
15b는 정제한 재조합 Cpf1 단백질과 in vitro transcription(T7) 또는 합성한(synthetic) crRNA를 사용하여 target DNA 를 절단하고 TBE-agarose gel로 전기영동한 결과이다.
도 16a 내지 16c는 재조합 Cpf1과 crRNA로 이루어진 RNP를 통한 세포 유전체 교정 결과를 보여주는 것으로,
16a는 As-/Lb-Cpf1과 crRNA로 이루어진 RNP 전달에 의한 세포 유전체 교정을 T7E1 assay에 의하여 확인한 전기영동 사진이고,
16b는 targeted deep-sequencing 방식으로 Cpf1 RNP의 세포 유전체 교정 효율을 측정하고 이를 정량한 결과를 보여주는 그래프이며,
16c는 화학적 합성(synthetic) crRNA를 이용한 세포 유전체 교정을 T7E1으로 측정하여 in vitro transcription으로 만들어진 crRNA와 효율을 비교하여 보여주는 전기영동 사진이다.
도 17a 내지 17c는 Cpf1과 crRNA를 이용한 세포 유전체의 in vitro cleavage 및 Digenome-seq 결과를 보여주는 것으로,
17 a는 Cpf1 단백질과 crRNA를 이용한 시험관 내 세포 유전체 절단을 통한 qPCR과 Digenome-seq의 모식도이고,
17b는 세포 유전체에 Lb-/As-cpf1 단백질(3nM-300nM)과 crRNA(9nM-900nM)으로 절단 처리한 후 남아있는 표적위치 유전체를 qPCR로 정량한 결과를 보여주는 그래프이고,
17c는 세포 유전체를 시험관 내 절단 전과 후의 세포 유전체를 각각 전체 유전체 시퀀싱하여 표적위치 근처의 sequence read들을 IGV로 비교한 결과를 보여준다.
도 18a 및 18b는 Cpf1과 crRNA를 이용한 Digenome-seq 결과를 보여주는 것으로,
18a는 Digenome-seq 결과 검출된 비표적 후보의 유전체 상 위치 및 유전자 서열을 보여주고,
18b는 비표적 후보 위치의 보존된 서열(conserved sequence)을 서열 로고(sequence logo)로 표시한 것이다.
도 19a는 T7E1 assay를 통하여 plasmid crRNA를 사용한 경우와 PCR product crRNA를 사용한 경우의 세포 유전체 교정 효율을 비교한 결과를 보여주는 전기영동 사진이다.
도 19b는 4종의 Cpf1 orthologs 각각에 대한 crRNA를 사용하여 targeted deep sequencing 방법으로 측정된 Indel frequencies(%)를 나타낸 그래프이다 (Error bars indicate s.e.m).
도 19c 는 HEK293T 세포 내의 10개의 내재 표적 위치 (endogenous target sites)에서 LbCpf1, AsCpf1, 및 SpCas9 각각에 의하여 유도되는 변이 빈도 (Mutation frequencies; Indel frequencies (%))를 보여주는 그래프이다 (Mean indel frequencies ± s.e.m. are shown).
도 20a 내지 20c는 HEK293T cell에서의 on target 에 대한 crRNA 및 상기 on target과 하나 또는 2개의 mismatched nucleotide를 갖는 서열에 대한 crRNA를 사용한 경우의 Indel frequency(%)를 targeted deep sequencing로 측정하여, Cpf1의 Specificity를 보여주는 것으로,
20a는 DNMT1-3에 대한 결과를 보여주는 그래프이고,
20b는 DNMT1-4에 대한 결과를 보여주는 그래프이며,
20c는 AAVS1에 대한 결과를 보여주는 그래프이다 (Error bars indicate s.e.m).
도 21a 내지 21f는 Cpf1 및 Cas9뉴클레아제의 Genome-wide target specificity를 Digenome-seq 방식으로 측정한 결과를 보여주는 것으로,
21a 및 21b는 whole-genome sequencing 및 Digenome-seq 분석법에 의하여 얻어진 DNA cleavage scores를 보여주는 Genome-wide Circos plot으로, 본래의 유전체 DNA는 붉은 색으로 나타내고, LbCpf1로 절단된 유전체 DNA는 녹색, AsCpf1 로 절단된 유전체 DNA는 파란색, 및 SpCas9 로 절단된 유전체 DNA는 노란색으로 각각 표시되어 있으며, 별표는 본래의 유전체 DNA에서 발견되는 하나의 false-positive site를 나타내고, 화살표는 on-target site을 나타내며, Sequence logos는 Digenome-seq에 의하여 동정된 in vitro cleavage site에서의 DNA 서열을 이용한 WebLogo를 통하여 측정하였으며,
21c는 Digenome-seq에 의하여 capture된 상동부위(homologous sites)의 Fractions (왼쪽 Y축, 사각형 표시는 AsCpf1에 대한 결과이고, 세모 표시는 LbCpf1에 대한 결과임) 및 8 Cpf1 on-target sites에서부터 mismatch 개수에 의하여 bin되는 6 nucleotides까지 8 Cpf1 on-target sites와 상이한 homologous site의 개수 (오른쪽 Y축, bars)를 나타내며(Error bars indicate s.e.m.),
21d는 targeted deep sequencing에 의하여 인간 세포에서 확인된 off-target site을 보여주는 그래프로서, on-target과 off-target 부위의 DNA 서열도 함께 나타나 있으며 (굵은 글씨는 PAM 서열이고 Mismatched 뉴클레오타이드는 소문자로 표시됨),
21e는 상기 off-target site에 혼성화하도록 재설계된 crRNA를 이용하여 AsCpf1 off-target 부위에서 얻어진 Targeted mutagenesis (Indel frequency (%))를 보여주는 그래프이고,
21f는 Cpf1 및 crRNA를 암호화하는 플라스미드를 사용한 경우와 Cpf1 및 crRNA가 복합체를 형성하는 RNP를 사용한 경우의 Cpf1 off-target 효과를 보여주는 그래프로서, specificity ratio는 Cpf1 RNP를 사용하여 얻어진 off-target indel frequency에 대한 on-target indel frequency의 비율과 플라스미드를 사용한 경우의 비율 간 fold difference (RNA/plasmid)를 나타낸다.
도 22a 내지 22f는 Cpf1-mediated Digenome-captured site의 Sequence logos를 보여주는 것으로, 상단은 AsCpf1를 사용하여 얻어진 Digenome-captured site의 Sequence logos이고, 하단은 LbCpf1를 사용하여 얻어진 Digenome-captured site의 Sequence logos이다.
도 23은 Digenome-captured site의 Sequence logos를 나타낸 것이다.
도 24a 내지 24f는 HEK293T17 세포에서의 Digenome-captured site에서의 Indel frequency를 나타낸 그래프로서, 진한 막대는 LbCpf1 플라스미드로 트랜스펙션된 HEK293T17 세포에서 얻어진 결과이고, 연한 막대는 AsCpf1 플라스미드로 트랜스펙션된 HEK293T17 세포에서 얻어진 결과이다.
도 25는 3' 말단에서 절단된(truncated) 절단 crRNA (tru-crRNAs)와 전장 crRNA (full-length crRNA)를 사용한 경우의 on-target 부위 및 off-target 부위에서의 Indel frequencies를 보여주는 그래프이다 (Error bars represent mean ± s.e.m).
도 26a 내지 26e는 Cpf1 orthologs가 상이한 overhang 패턴 및 변이 특성을 나타냄을 보여주는 것으로,
26a는 DNTM1-3 target site 및 DNTM1-4 target site에서의 overhang pattern을 보여주는 대표적인 Integrative Genomics Viewer(IGV) 이미지이고,
26b는 염기쌍 내에서 deletion/insertion 크기에 의하여 bin된 변이 서열 리드의 개수를 보여주는 그래프이며,
26c는 Cpf1 또는 Cas9의 target site에서 유도되는 변이 서열을 보여주는 것으로, 각각의 뉴클레아제에 대하여, 첫 번째 줄의 서열은 원래의 target 서열이고, 두 번째 줄부터는 변이가 도입된 서열을 보여주며, 첫 번째 줄 서열에서 PAM 서열 (Cpf1: TTTC)은 굵은 글씨로 표시하고, crRNA/sgRNA이 혼성화하는 표적 서열은 밑줄로 표시하였으며, 두 번째 줄부터의 서열에서 밑줄로 표시된 서열은 Microhomology sequences를 의미하고, 우측에 기재된 숫자는 결실 ('-'로 표시)되거나 삽입(소문자로 표시)된 뉴클레오타이드의 개수를 의미하며,
26d 및 26e는 LbCpf1, AsCpf1 및 SpCas9에 의하여 유도되는 변이 특성을 보여주는 것으로, 26d는 변이 서열이 결실 vs. 삽입의 두 가지 fraction으로 나뉘어지는 경우의 각각의 비율을 보여주는 그래프이고, 26e는 변이 서열이 in-frame indels vs. out-of-frame indels의 두 가지 fraction으로 나뉘어지는 경우의 각각의 비율을 보여주는 그래프이다(Data represent mean ± s.e.m. (n = 10 target sites)).
도 27a 및 27b은 LbCpf1, AsCpf1, 및 SpCas9에 의하여 유도되는 변이 특성을 보여주는 것으로,
27a는 염기쌍 내에서 deletion/insertion (Indel) size에 의하여 bin된 변이 서열 리드의 개수를 보여주는 그래프이고, 변이 특성은 LbCpf1, AsCpf1, 또는SpCas9플라스이드로 트랜스펙션된 HEK293T 세포로부터 targeted deep sequencing 방식으로 측정하였으며,
27b는 EMX1-2 target site (CTGATGGTCCATGTCTGTTACTC; 서열번호 42)에서 유도되는 변이 서열을 보여주는 것으로, 각각의 뉴클레아제에 대하여, 첫 번째 줄의 서열은 원래의 target 부위 서열이고, 두 번째 줄부터는 변이가 도입된 서열을 보여주며, 첫 번째 줄 서열에서 PAM 서열 (Cpf1: TTTG)은 굵은 글씨로 표시하고, crRNA/sgRNA이 혼성화하는 표적 서열은 밑줄로 표시하였으며, 두 번째 줄부터의 서열에서 밑줄로 표시된 서열은 Microhomology sequences를 의미하고, 우측에 기재된 숫자는 결실 ('-'로 표시)되거나 삽입(소문자로 표시)된 뉴클레오타이드의 개수를 의미한다.
도 28은 Digenome-Sequencing 과정을 모식적으로 보여준다.
도 29a 및 29b는 Cpf1 단백질의 split 위치와 분리된 Cpf1 단백질를 발현시키는 재조합 벡터 구성을 보여주는 것으로.
29a는 Wild type Acidaminococcus sp . Cpf1 (AsCpf1) 단백질과 4 종류의 Split-Cpf1 정보를 보여주고,
29b는 Split-Cpf1의 각 하프 도메인을 발현시키는 재조합 벡터를 모식적으로 보여준다.
도 30a 내지 30c는 Split Cpf1과 crRNA 발현 벡터를 이용한 유전체 교정결과를 보여주는 것으로,
30a는 Split-Cpf1을 이용한 DNMT1-3 표적 유전체 교정 결과를 T7E1 assay 방식으로 확인하여 보여주는 아가로스 겔 분석 결과로서. 별 표시는 T7E1 효소에 잘린 DNA 조각 위치를 나타내며,
30b는 Split 위치에 따른 유전체 교정 효율을 Targeted deep-sequencing 방식으로 정량한 결과를 비교하여 보여주는 그래프이고,
30c는 표적 위치에 따른 Split-Cpf1 유전체 교정 효율을 Targeted deep-sequencing 방식으로 정량한 결과를 비교하여 보여주는 그래프이다.
도 31a 내지 31e는 Split Cpf1의 각 하프 도메인의 결합 조절을 이용한 유도적 유전체 교정 효율을 분석한 결과를 보여주는 것으로,
31a는 Inducible-Split-Cpf1의 각 하프도메인을 발현시키는 재조합 벡터 구성을 모식적으로 보여주고,
31b는 Rapamycin 처리에 따른 Split-Cpf1과 Inducible-Split-Cpf1을 이용한 DNMT1-3 표적 유전체 교정 효율을 targeted deep-sequencing 방식으로 확인한 결과를 보여주며,
31c 내지 31f는 표적 위치에 따른 Inducible-Split-Cpf1에 의한 유도적 유전체 교정 효율을 targeted deep-sequencing 방식으로 분석한 결과를 보여준다.
도 32a 및 32b는 Split Cpf1의 각 하프 도메인을 발현하는 바이러스 벡터 제작 과정을 보여주는 것으로,
32a는 Split-Cpf1(Split-3-AsCpf1)의 각 하프도메인을 발현하는 AAV 바이러스 벡터 구성을 모식적으로 보여주고,
32b는 AAV-Split-Cpf1 벡터를 이용한 DNMT1-3 표적 유전체 교정 효율을 T7E1 assay 방식으로 확인한 결과를 보여준다.
도 33은 pU6-As-crRNA 플라스미드의 뉴클레오타이드 서열을 보여주는 것으로, 밑줄로 표시된 부분은 AsCpf1 crRNA에 해당하는 부위이다.
도 34은 pU6-Lb-crRNA 플라스미드의 뉴클레오타이드 서열을 보여주는 것으로, 밑줄로 표시된 부분은 LbCpf1 crRNA에 해당하는 부위이다.
도 35은 U6-As-crRNA-amplicon의 뉴클레오타이드 서열을 보여주는 것으로, 밑줄로 표시된 부분은 AsCpf1 crRNA에 해당하는 부위이다.
도 36은 U6-Lb-crRNA-amplicon 의 뉴클레오타이드 서열을 보여주는 것으로, 밑줄로 표시된 부분은 LbCpf1 crRNA에 해당하는 부위이다.
도 37은 LbCpf1 단백질 및 Hif1-a 유전자의 표적 서열과 혼성화 가능한 crRNA를 AAV 벡터를 통하여 293T 세포에 전달하여 얻어진 Indel frequency (%)를 사용하여 얻어진 Deep sequencing으로 분석한 결과를 보여주는 그래프이다.
도 38은 LbCpf1 단백질을 암호화하는 DNA와 Hif1-a의 Lb-TS6을 타겟팅하는 crRNA를 암호화하는 DNA를 하나의 벡터에 포함하는 재조합 AAV 벡터(all-in-one AAV vector)를 예시적으로 보여주는 모식도이다.
도 39a 내지 39c는 LbCpf1 단백질을 암호화하는 DNA와 Hif1-a의 Lb-TS6을 타겟팅하는 crRNA를 암호화하는 DNA를 하나의 벡터에 포함하는 재조합 AAV 벡터의 뉴클레오타이드 서열을 5'에서 3' 방향으로 연속적으로 보여준다.

이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 보다 구체적으로 설명하기 위한 것으로서, 본 발명의 범위가 이들 실시예에 의해 제한되지 않는다는 것은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 자명할 것이다.

실시예 1: 재조합 Cpf1 단백질의 생산 및 정제

AsCpf1 및 LbCpf1 각각의 E.coli codon optimized DNA 서열 (서열번호 44: E.coli codon optimized AsCpf1 coding nucleic acid; 서열번호 46: E.coli codon optimized LbCpf1 coding nucleic acid)과, 핵위치화서열 (NLS)-(링커)-HA tag을 포함하는 단백질 발현 및 정제를 위한 서열 (아미노산 서열: (KRPAATKKAGQAKKKK)-(GS)-(YPYDVPDYA)-(YPYDVPDYAYPYDVPDYA); DNA 서열: AAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAGGGATCCTACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCC)을 갖는 plasmid (pMAL-c5x, New England Biolabs; & pDEST-hisMBP)를 박테리아에서(Rosetta; EMD Milipore)에 도입시키고 18℃에서 24시간동안 배양하여 AsCpf1 및 LbCpf1단백질을 발현시켰다. 50 mg/ml carbenicilin 보충된 Luria broth (LB) 성장배지 2L에 상기 24시간 배양된 Cpf1 plasmids를 포함하는 Rosetta 세포 10 ml를 넣고 인큐베이팅하였다. 상기 세포들을 37℃에서 OD600이 0.6이 될 때까지 배양한 후, 16℃로 냉각한 후, 0.5 mM IPTG(Isopropyl beta-D-1-thiogalactopyranoside)로 14-18 시간 동안 유도하였다. 그 후, 세포들을 수집하고 단백질 정제시까지 -80℃에서 동결시켰다.

단백질 정제는 다음의 과정으로 수행하였다: 상기 준비된 세포 펠렛을 lysozyme (Sigma) 및 protease inhibitor (Roche complete, EDTA-free)이 보충된 lysis buffer (50 mM, HEPES pH 7, 200 mM NaCl, 5 mM MgCl2, 1mM DTT, 10 mM imidazole) 50 ml에 넣고 소니케이션하여 용해시켰다. 상기 얻어진 세포 용해물(cell lysate)을 16,000 g에서 30분 동안 원심분리한 후, syringe filter (0.22 micron)에 통과시켰다. 상기 얻어진 용해물 (cleared lysate)을 nickel column (Ni-NTA agarose, Qiagen)에 적용하고, 2M salt로 세척한 후, 250 mM 이미다졸로 용출시켰다. 상기 용출된 단백질 용액의 버퍼 교체하고 마그네슘 및 이미다졸을 포함하지 않는 lysis buffer를 사용하여 농축시켰다. 상기 정제된 Cpf1 단백질을 SDS-PAGE로 시험하고, 하기 실시예에 사용하였다. 하기 실시예 중, 인간 세포를 사용하는 경우, 상기 E.coli codon optimized Cpf1 단백질을 암호화하는 플라스미드를 대체하여 human codon optimized Cpf1 단백질을 암호화하는 플라스미드를 Addgene으로부터 입수하여 사용하였다.

상기 얻어진 SDS-PAGE 결과를 도 15a에 나타내었다.

실시예 2: 세포 배양 및 트랜스펙션

HEK293T cell를 10%(v/v) FBS (fetal bovine serum) 및 1%(v/v) antibiotics 보충된 DMEM 배지에 두었다. Cpf1-매개 유전체 교정을 위하여, HEK293T cell을 24-well plates에 70-80% confluency로 시딩한 후, lipofectamine 2000 (Invitrogen)를 이용하여 Cpf1 발현 플라스미드 (500 ng) 및 crRNA 플라스미드 (500ng)를 상기 HEK293T cell에 트랜스펙션시켰다. 트랜스펙션 72시간 후에 DNeasy Blood & Tissue Kit (Qiagen)를 사용하여 유전체 DNA(genomic DNA)를 분리하였다.

실시예 3: RNP 및 Digenome (digested genome) 준비 ( In vitro cleavage of genomic DNA)

DNeasy Tissue kit (Qiagen)를 HeLa cell(ATCC)로부터 유전체 DNA를 정제하였다. Cpf1 단백질 (40 ug (microgram)) 및 crRNA (2.7 ug each)을 실온에서 10분간 전배양(pre-incubating)하여 리보핵산단백질 (ribonucleoprotein; RNP) 복합체를 형성시켰다. 상기 정제된 유전체 DNA (8 ug)를 상기 RNP 복합체와 함께 reaction buffer (100 mM NaCl, 50 mM Tris-HCl, 10 mM MgCl₂, 100 ug/ml BSA, pH 7.9)에 넣고 37℃에서 8시간동안 인큐베이팅하였다. 이렇게 얻어진 절단된 유전체 DNA (Digested genomic DNA)를 RNase A (50 ug/mL)로 처리하여 crRNA를 분해시키고, DNeasy Tissue kit (Qiagen)를 이용하여 다시 한번 더 정제하였다.

실시예 4: 전체 유전체 (Whole genome) 및 절단 유전체 ( digenome ) 의 서열분석

Cas9 또는 Cpf1에 의하여 절단된 (digested) 유전체 DNA에 대하여 whole genome sequencing (WGS)를 수행하였다. 상기 WGS는 Illumina HiSeq X Ten Sequencer (Macrogen, South Korea)를 사용하여 30X 내지 40X 시퀀싱 뎁스 (sequencing depth)로 수행하였다. WGS 데이터를 이용하여 DNA 절단 스코어 (cleavage score)는 전체 유전체에 걸쳐서 각 뉴클레오타이드 위치 별로 산정될 수 있다. 염색체 내의 i 위치에서의 절단 점수 (Cleavage Score at position i)는 다음의 수식으로 계산하였다 (도 28 참조):

: Number of forward sequence reads starting at position

: Number of reverse sequence reads starting at position

: Sequencing depth at position

상기 수식은 Cas9이, blunt end에 더하여, 5' 및 3' 말단에 1-nt 내지 2-nt의 overhangs을 생성하고, Cpf1이 produces 5' 말단에 1-nt 내지 5-nt의 overhangs을 생성하는 것으로 가정한다. In vitro cleavage sites 중 상기 수식으로 얻어진DNA cleavage scores가 컷오프 값인 2.5 이상인 것들을 컴퓨터로 확인하였다.

실시예 5: crRNA construct 차이에 따른 세포 유전체 교정 효율 비교

crRNA를 crRNA를 발현할 수 있는 cassette를 포함하는 PCR product (PCR amplicon) 형태로 전달하는 경우와 crRNA를 발현할 수 있는 cassette를 포함하는 plasmid DNA 형태로 전달하는 경우의 세포 유전체 교정 효율을 비교하기 위하여, HEK293T/17 세포 (ATCC)에서 다음과 같이 lipofection 실험을 진행하였다.

Cpf1 단백질 (AsCpf1 및 LbCpf1)을 암호화하는 DNA 서열 및 이에 작동가능하게 연결된 CMV promoter(서열번호 64)를 포함하는 pcDNA3.1 벡터 (Invitrogen) (AsCpf1 plasmid 또는 LbCpf1 plasmid)를, crRNA를 암호화하는 DNA 서열 및 이에 작동가능하게 연결된 U6 promoter를 포함하는 pUC19 벡터 (Addgene; As-crRNA plasmid (서열번호 65 및 도 33) 또는 Lb-crRNA plasmid (서열번호 66 및 도 34)) 또는 PCR product(amplicon; As-crRNA amplicon (서열번호 67 및 도 35) 또는 Lb-crRNA amplicon (서열번호 68 및 도 36))와 함께 HEK293T/17 세포에 전달하였다. 도 33 내지 36에서, 밑줄로 표시한 부분은 crRNA을 암호화하는 유전자 부위이며, 'NNNNNNNNNNNNNNNNNNNNNNN'은 target sequence에 따라 결정되는 부위이다. 상기 Cpf1 단백질 및 crRNA를 암호화하는 DNA의 전달은 모두 lipofection 방식으로 수행하였다. 상기한 세포 전달 조건을 아래의 표 3에 정리하였다:

또한, 상기 사용된 crRNA 서열 및 표적 서열을 아래의 표 4에 정리하였다:

표적 유전자	DNMT1-3 (DNMT1-TS3)
Cpf1 단백질	AsCpf1	LbCpf1
표적 서열	CTGATGGTCCATGTCTGTTACTC(서열번호 19)
crRNA	UAAUUUCUACUCUUGUAGAUCUGAUGGUCCAUGUCUGUUACUC(서열번호 36)	AAUUUCUACUAAGUGUAGAUCUGAUGGUCCAUGUCUGUUACUC(서열번호 37)
표적 유전자	DNMT1-4
표적 서열	TTTCCCTTCAGCTAAAATAAAGG(서열번호 20)
표적 유전자	AAVS1
표적 서열	CTTACGATGGAGCCAGAGAGGAT (서열번호 21)

((1) 표 4를 비롯하여 본 명세서에 기재된 염기서열은, 특별한 언급이 없는 한, 5'에서 3'로의 방향으로 기재됨

(2) 이하 기재되는 모든 AsCpf1 crRNA는 표 4에 기재된 서열번호 36의 타겟팅 서열 부위 (밑줄로 표시)를 표적 유전자의 표적 서열에 해당하는 서열 (즉, 상기 표적 서열에서 T를 U로 치환함)로 대체한 것임

(3) 이하 기재되는 모든 LbCpf1 crRNA는 표 4에 기재된 서열번호 37의 타겟팅 서열 부위 (밑줄로 표시)를 표적 유전자의 표적 서열에 해당하는 서열 (즉, 상기 표적 서열에서 T를 U로 치환함)로 대체한 것임)

DNA를 전달한 후, 세포들을 72 시간 동안 37°C에서 배양한 뒤, 각각의 세포들로부터 genomic DNA를 분리하고, T7E1 assay (유전체 DNA에 서 특정부분 PCR 증폭이후 T7E1 (T7 Endonuclease I)을 37℃에서 20분 처리한 후 전기영동)와 targeted deep-sequencing (타겟 유전자의 타겟 부분을 PCR로 증폭한 이후 이를 Deep-sequencing 용 PCR barcode primer 로 재차 PCR 증폭한 후, 이를 DNA 정제kit 를 사용하여 정제한 뒤에 시퀀싱) 방법으로 표적 DNA에 발생한 염기서열 변이 발생 (targeted mutagenesis) 빈도(Indel frequencies; %)를 산출하여 그 결과를 도 14a (T7E1 assay 결과), 도 14b (targeted deep-sequencing 결과), 및 도 19a (T7E1 assay 결과)에 각각 나타내었다.

도 14a 및 14b에 나타난 바와 같이, DNMT1 유전자를 표적으로 하는 경우, AsCpf1과 LbCpf1 모두에서 crRNA를 plasmid 형태로 전달한 경우가 PCR product 형태로 전달하는 경우와 비교하여 보다 높은 효율로 유전체 교정을 수행함을 확인하였다. 이러한 경항은 AAVS1 유전자를 표적으로 하는 경우에서도 유사하게 나타났다. 또한, 도 19a에 나타난 바와 같이, amplicon을 사용한 경우와 비교하여, crRNA plasmids를 사용한 경우, 표적한 변이유발 (targeted mutagenesis) 빈도가 시험된 3개의 endogenous target site에서 2 내지 30배 정도 증가하였다. PCR amplicons은 synthesis-failed oligonucleotide templates로부터 잘못된 가이드 RNAs 전사체를 생산하였고, 이는 잠재적으로 RNA bulge를 갖는 것으로 보이는 위치에서 비표적 DNA 절단 (off-target DNA cleavages)을 야기할 것으로 것으로 생각된다. 이러한 결과는 crRNA 발현 cassette를 plasmid 형태로 전달하는 것이 PCR product 형태로 전달하는 것에 비하여 유전체 교정 효율을 높일 수 있는 수단임을 보여준다.

또한, 다양한 유래의 Cpf1 orthologs (Lachnospiraceae bacterium (LbCpf1), Acidaminococcus sp . (AsCpf1), Francisella novicida (FnCpf1), 및 Moraxella bovoculi 237 (MbCpf1))에 대한 crRNA orthogonality를 시험하였다.

앞서 설명한 과정을 참조하여, 4종의 Cpf1 orthologs (LbCpf1, AsCpf1, FnCpf1, 및 MbCpf1)를 각각 암호화하는 DNA를 포함하는 플라스미드를 이들 각각에 대한 crRNA를 암호화하는 플라스미드와 함께 다양한 조합으로 HEK293T 세포에 도입시킨 후, targeted deep sequencing 방법으로 변이유발 (targeted mutagenesis) 빈도 (Indel frequency (%))를 측정하였다.

이 때 사용된 FnCpf1 및 MbCpf1에 대한 crRNA 서열을 아래의 표 5에 정리하였다:

표적 유전자	DNMT1-3
Cpf1 단백질	FnCpf1 (코딩 DNA: 서열번호 47)	MbCpf1 (코딩 DNA: 서열번호 48)
표적 서열	CTGATGGTCCATGTCTGTTACTC (서열번호 19)
crRNA	AAUUUCUACUGUUGUAGAUCUGAUGGUCCAUGUCUGUUACUC (서열번호 38)	AAUUUCUACUGUUUGUAGAUCUGAUGGUCCAUGUCUGUUACUC(서열번호 39)
표적 유전자	DNMT1-4
Cpf1 단백질	FnCpf1	MbCpf1
표적 서열	TTTCCCTTCAGCTAAAATAAAGG(서열번호 20)
표적 유전자	AAVS1
Cpf1 단백질	FnCpf1	MbCpf1
표적 서열	CTTACGATGGAGCCAGAGAGGAT (서열번호 21)

(표 5에서, DNMT1-4 및 AAVS1의 crRNA는 서열번호 38 또는 서열번호 39의 서열 중, 타겟팅 서열 부위 (밑줄로 표시)를 표적 유전자의 표적 서열에 해당하는 서열 (즉, 상기 표적 서열에서 T를 U로 치환함)로 대체한 것임)

상기 얻어진 Indel frequency (%)를 도 19b에 나타내었다.

LbCpf1 및 AsCpf1는 5'-TTTN-3' PAMs를 인식하는 반면, FnCpf1 및 MbCpf1는 5'-TTN-3' PAMs을 인식하는데, 기존에 인간 세포에서 효율적이지 않거나 불활성인 것으로 알려져 있다. 도 19b에서 보여지는 바와 같이, 이들 Cpf1 ortholog들을 crRNA orthologs를 암호화하는 플라스미드와 함께 다양한 조합으로 인간 세포에 공동 트랜스펙션(co-transfected)시켰을 때, 각 Cpf1 ortholog는 동족의(cognate) crRNA와 함께 트랜스펙션된 경우에 가장 높은 효율을 보였다. 또한, FnCpf1 및 MbCpf1를 포함하는 4종의 Cpf1 orthologs 모두 상이한 species로부터 유래한 unorthogonal crRNAs와 함께 조합되어 사용된 경우에도, 염색체의 표적 위치를 절단할 수 있는 것으로 나타났다. FnCpf1 및 MbCpf1의 유전체 교정 활성은 crRNA plasmid를 사용함으로써 rescue될 수 있으나, AsCpf1 및 LbCpf1 Cpf1 orthologs 보다 효율이 상대적으로 가장 좋기 때문에, 본 연구에서는 상기 두 종의 Cpf1 (AsCpf1 및 LbCpf1)에 초점을 두었다.

두 개의 PAM 서열 (하나는 Cpf1에 의하여 인식되는 PAM 서열 (5'-TTTN-3')이고, 나머지 하나는 SpCas9에 의하여 인식되는 PAM 서열(5'-NGG-3')임)을 포함하는 HEK293T 세포 내의 10개의 염색체 표적 부위 상에서의 LbCpf1 및 AsCpf1의 유전체 교정 효율을 측정하여 SpCas9와 비교하였다. 유전체 교정 효율은 앞서 설명한 방법을 참조하여 targeted deep sequencing에 의하여 측정된 Indel frequencies로서 산정하였다. 상기 시험에 사용된 10개의 표적 서열을 아래의 표 6에 나타내었다:

	Gene	Cpf1 crRNA의 Target sequence	SpCas9 sgRNA의 target sequence
1	DNMT1-3	CTGATGGTCCATGTCTGTTACTC(서열번호 19)	AGTAACAGACATGGACCATC(서열번호 50)
2	DNMT1-4	TTTCCCTTCAGCTAAAATAAAGG(서열번호 20)	TTTCCCTTCAGCTAAAATAA(서열번호 51)
3	AAVS1	CTTACGATGGAGCCAGAGAGGAT(서열번호 21)	TGCTTACGATGGAGCCAGAG(서열번호 52)
4	EMX1	TCCTCCGGTTCTGGAACCACACC(서열번호 23)	AGGTGTGGTTCCAGAACCGG(서열번호 53)
5	CCR5-1	GTGGGCAACATGCTGGTCATCCT(서열번호 24)	TGGTTTTGTGGGCAACATGC(서열번호 54)
6	CCR5-9	GCCTGAATAATTGCAGTAGCTCT(서열번호 25)	TAGAGCTACTGCAATTATTC(서열번호 55)
7	HPRT-1	CTGACCTGCTGGATTACATCAAA(서열번호 27)	GTGCTTTGATGTAATCCAGC(서열번호 56)
8	HPRT-4	TGTCCCCTGTTGACTGGTCATTC(서열번호 28)	CTAGAATGACCAGTCAACAG(서열번호 57)
9	HBB-1	AGTCCTTTGGGGATCTGTCCACT(서열번호 40)	TCCACTCCTGATGCTGTTAT(서열번호 58)
10	VEGFA	CGTCCAACTTCTGGGCTGTTCTC(서열번호 41)	AGCGAGAACAGCCCAGAAGT(서열번호 59)

상기 표 6에 나타낸 표적 서열을 기초로 표 4에서 설명한 방법으로 LbCpi1 crRNA 및 AsCpf1 crRNA를 제작하여 시험에 사용하였다.

SpCas9의 sgRNA는 아래의 서열 일반식 (서열번호 63) 중 '(N_cas9)_m'를 상기 표 6의 SpCas9의 Target sequence 중 T를 U로 치환한 서열로 대체하고, 링커로서 'GAAA'를 포함하는 서열을 갖도록 제작하였다 (이하, SpCas9의 sgRNA는 이와 동일한 방법으로 제작함):

상기 얻어진 결과를 도 19c에 나타내었다. 도 19c에 나타난 바와 같이, 시험에 사용된 모든 뉴클레아제 타입은 인간 세포(HEK293 cell)에서 광범위한 변이빈도를 나타냈다 (SpCas9: 평균 37±5%; LbCpf1: 21±6%; AsCpf1: 21±5%).

실시예 6: 재조합 Cpf1 단백질 정제 및 리보핵산단백질 ( RNP ) 전달을 통한 세포 유전체 교정

6.1. 재조합 Cpf1 단백질을 이용한 in vitro cleavage assay

정제한 재조합 AsCpf1 과 LbCpf1 단백질이 crRNA 와 결합하여 DNA를 자르는 activity가 있는지 확인하기 위하여, in vitro cleavage assay를 진행하였다. 이를 위하여, 상기 실시예 1에서 얻어진 재조합 AsCpf1 (1 uM) 또는 LbCpf1 (1 uM), T7 RNA polymerase(New England Biolabs)에 의한 in vitro transcription으로 제작하거나 화학적으로 합성한 DNMT1을 표적으로 하는 crRNA (상기 표 4 참조) (1 uM), 및 상기 표적 (DNMT1) DNA 서열 (표 4 참조)을 갖는 DNA 단편을 함께 1 시간 동안 37℃에서 incubation한 다음, TBE-agarose gel 전기영동을 통해 표적 DNA가 절단되는 것을 확인하였다. T7 RNA polymerase(New England Biolabs)에 의한 in vitro transcription으로 제작된 crRNA의 경우, 5' 말단에 트리포스페이트 (PPP)를 포함하는 반면, 화학적으로 합성된 crRNA는 이를 포함하지 않는다. 상기 전기 영동 결과를 도 15b에 나타내었다 (T7: T7 RNA polymerase에 의한 in vitro transcription으로 제작한 crRNA; synthetic: 화학적으로 합성한 crRNA).

도 15b에 나타난 바와 같이, Cpf1은 crRNA가 있는 경우에만 target DNA를 자르는 activity 를 보였다. 또한, 5' 말단에 phosphate를 갖지 않는 합성 crRNA와 5' 말단에 phosphate를 갖는 in vitro transcription으로 제작된 crRNA의 절단 효율이 유사한 것으로 확인되었으며, 이는 crRNA의 5' 말단의 phosphate 유무가 in vitro cleavage에 영향을 미치지 않음을 의미한다.

6.2. 재조합 Cpf1 단백질을 이용한 세포에서의 유전체 교정 시험

재조합 AsCpf1과 LbCpf1 단백질을 세포실험에 적용하여 ribonucleoprotein(RNP) 전달을 통한 세포 유전체 교정을 시험하였다.

상기 실시예 1에서 정제된 재조합 Cpf1단백질 (AsCpf1또는 LbCpf1)과 DNMT1-3 표적 crRNA (표 4 참조; in vitro transcription으로 제작된 crRNA)를 적정 비율로 섞어 RNP를 만들고, 이를 electroporation 또는 lipofection 방식에 의하여 HEK293T/17 세포에 처리(전달)하였다 (electroporation 의 경우 Cpf1 20 ug : crRNA 20 ug 혼합, lipofection 의 경우 Cpf1 10 ug : crRNA 2 ug 혼합). RNP 전달 후, 세포를 37℃ 에서 72 시간동안 배양한 다음, genomic DNA를 분리하여 상기 실시예 5에 기재된 방법을 참조하여 T7E1 assay 및 targeted deep-sequencing 방식으로 표적 위치 (DNMT1) 염기서열 변이의 발생 효율을 분석하여 빈도수(%)로 산출하였다. 비교를 위하여, SpCas9 (SwissProt Accession number Q99ZW2(NP_269215.1)) 및 sgRNA (target sequence: AGTACGTTAATGTTTCCTGA)를 사용하여 상기와 동일한 시험을 수행하였다. 그 결과를 도 16a (T7E1 assay 결과) 및 16b (targeted deep-sequencing 결과)에 각각 나타내었다.

도 16a 및 16b에 나타난 바와 같이, AsCpf1 및 LbCpf1이 crRNA와 결합한 RNP 전달에서 electroporation 방식을 사용하는 경우와 lipofection을 사용하는 경우 모두 표적 위치 (DNMT1) 에서 SpCas9과 유사한 수준의 변이 효율을 보였다.

5' 포스페이트가 없는 합성 (synthetic) crRNA를 사용하여 상기한 electroporation 방식에 의한 RNP 전달을 수행하고 유전체 세포 교정 효율을 측정하여, in vitro transcription으로 제작된 crRNA를 사용한 경우와 비교하였다. 상기 얻어진 결과를 도 16c에 나타내었다. 도 16c에 나타난 바와 같이, 합성 (synthetic) crRNA를 사용한 경우에도 in vitro transcription으로 제작된 crRNA와 유사한 정도의 유전체 교정 효율을 얻을 수 있다.

상기에서 얻어진 결과는 재조합 Cpf1 단백질을 포함하는 RNP을 electroporation또는 lipofection를 통하여 세포에 전달하는 경우 모두에서 세포 유전체 교정에 효과적으로 사용될 수 있음을 보여준다. 이와 같은 RNP 전달 방식은 DNA 플라즈미드 전달 방식에 비해 짧은 시간 안에 효과적인 유전체 교정을 할 수 있으며, DNA가 사용되지 않아 세포의 유전체에 외부 DNA 가 끼여들 위험이 전혀 없다는 장점이 있다. 또한 Cpf1은 PAM이 Cas9 과 다른 서열을 가지고 있으므로 Cas9으로 표적할 수 없었던 위치의 유전체 교정이 가능해진다. 그리고 Cas9 과 Cpf1 단백질을 orthogonal하게 사용하면 각각 다른 표적 유전자를 동시에 교정할 수 있으며, catalytic dead 형태의 Cpf1 mutant(dCpf1)을 dCas9 과 함께 사용하면 복수의 표적 유전자들의 발현을 선택적으로 동시에 발현 및 억제하는 것도 가능하다.

실시예 7. Digenome - seq을 이용한 Cpf1의 inverted PAM repeat 규명

세포에서 분리한 유전체(genomic DNA)를 재조합 Cpf1 단백질 (3nM-300nM)과 crRNA (9nM-900nM; 표 6의 1 내지 8번 서열 (서열번호 19, 20, 21, 23, 24, 25, 27, 및 28) 각각에 대한 crRNA를 사용함)과 함께 12시간동안 인큐베이션 시켰다(도 17a 참조). 12시간 후, Cpf1 단백질과 crRNA를 각각 protease K와 RNase A로 제거한 후 유전체를 정제하고 qPCR (사용된 프라이머: Forward: AAG TCA CTC TGG GGA ACA CG, Reverse: TCC CTT AGC ACT CTG CCA CT; PCR 조건: 2step (95C 10sec, 60C 10sec x 40cycle))을 통해 표적위치에서 유전체의 절단 효율을 정량하였다. 그 결과를 도 17b에 나타내었다. 도 17b의 y축의 수치는 control을 1로 하였을 때의 절단되지 않은 유전체의 상대적 비율을 의미한다. 도 17b에 나타난 바와 같이, 3nM Lb-/As-cpf1 단백질과 9nM crRNA의 경우 표적위치(On-target site)의 유전체가 60%정도 잘렸으며, 30nM As-/Lb-Cpf1 단백질과 90nM crRNA 그리고 300nM Lb-/As-cpf1 단백질과 900nM crRNA을 이용하였을 경우 표적위치의 유전체가 95% 이상 잘리는 것을 확인하였다.

Cpf1 단백질과 crRNA에 의해 절단된 유전체를 이용하여 전체 유전체 시퀀싱 (whole genome sequencing)을 진행하고, 그 결과를 Integrative Genome Viewer(IGV)를 이용하여 확인한 결과를 도 17c에 나타내었다. 도 17c에 나타난 바와 같이, Cpf1 단백질과 crRNA를 처리한 유전체에서는 표적위치에서 read들의 5' 말단이 수직 정렬된 형태가 나타난 반면, Cpf1 단백질과 crRNA를 처리하지 않은 유전체에서는 표적 위치에서 sequence read 들이 정렬되는 경향성이 보이지 않았다.

Cpf1 단백질과 crRNA에 의해 절단된 유전체를 이용하여 비표적 위치 (off-target site)를 찾기 위하여 digenome-seq을 수행하였다 (실시예 4 참조). 상기 얻어진 결과를 도 18a에 나타내었다. 도 18a에 나타난 바와 같이, 표적위치 1개와 비표적 후보위치 25개를 찾을 수 있었다.

상기 얻어진 26개 위치의 서열(sequence)을 이용하여 얻어진 서열 로고 (sequence logo)를 도 18b에 나타내었다. 도 18b에 나타난 바와 같이, 이미 알려진 Cpf1의 PAM 서열(TTTN) 이외에도 반대편에 inverted-PAM 서열(NAAA)이 존재하는 것을 확인했다. Inverted-PAM 은 AAA 뿐만 아니라 AAG, AGA, GAA 형태로도 일부 나타났다. 이러한 결과는 Cpf1 단백질이 유전체 절단을 일으킬 때 하나의 Cpf1 단백질이 crRNA와 결합을 통해 유전체와의 결합을 유도하면서 다른 하나의 Cpf1과 이합체를 이루고, 이 Cpf1은 반대편의 PAM 서열(NAAA)에 결합하여 작동할 수 있음을 의미한다. 위의 inverted-PAM정보는 Cpf1의 절단 효율이 높은 표적위치를 선정하는 데 사용될 수 있으며 이와 같은 inverted-PAM 서열을 가진 표적위치에서는 2개 이상의 Cpf1 crRNA를 nickase와 비슷한 방법으로 동시에 사용했을 때 절단 효율이 높아질 가능성이 있다. 또한 이 정보를 사용하여 절단위치에 형성되는 overhang 길이를 조절하여 homologous recombination (HR) mediated knock-in 효율을 높이는 방법도 가능할 수 있다.

실시예 8: Cpf1의 mismatch tolerance 시험

LbCpf1와 AsCpf1 모두 5'-TTTN-3' (N은 A, T, C, 또는 G) PAM 서열 및 3' 방향으로 인접하여 위치하는 23-nt protospacer sequences (crRNA의 타겟팅 서열과 매칭됨 (즉, crRNA의 타겟팅 서열은 protospacer sequence에서 T를 U로 변환한 서열임)으로 이루어진 27-nt target DNA 서열을 인식하고 절단한다.

3개의 endogenous target sites (DNMT1-3, DNMT1-4, 및 AAVS1)을 선정하고 (on target), 상기 표적 부위의 on target 서열 및 하나 또는 두 개의 mismatch를 포함하는 off-target 서열과 혼성화 가능한 다양한 crRNAs을 암호화하는 플라스미드와 LbCpf1 또는 AsCpf1를 암호화하는 플라스미드를 HEK293 cells에 트랜스펙션시키고, targeted deep sequencing 방식으로 Indel frequency (%)를 측정하여, Cpf1가 어느 정도까지의 on-target DNA 서열과 crRNA 서열간 mismatch를 관용 (tolerate)할 수 있는지 시험하였다.

상기 선정된 3개의 endogenous target sites (on target)을 아래의 표 7에 나타내었다:

	On target
DNMT1-3	CTGATGGTCCATGTCTGTTACTC (서열번호 19)
DNMT1-4	TTTCCCTTCAGCTAAAATAAAGG (서열번호 20)
AAVS1	CTTACGATGGAGCCAGAGAGGAT (서열번호 21)

상기 선정된 3개의 endogenous target sites의 off-target 서열은 도 20a, 20b, 및 20c에 각각 나타내었다.

상기 표 7 및 도 20a 내지 20c에 나타낸 on-target 서열 및 off-target 서열을 기초로 표 4에서 설명한 방법으로 LbCpi1 crRNA 및 AsCpf1 crRNA를 제작하여 시험에 사용하였다.

상기 얻어진 Indel frequency (%)를 도 20a (DNMT1-3의 Indel frequency), 20b (DNMT1-4의 Indel frequency) 및 20c (AAVS1의 Indel frequency)에 각각 나타내었다 (Error bars indicate s.e.m).

도 20a-20c에 나타난 바와 같이, DNMT1-3 (도 20a) 및 DNMT1-4의 경우 (도 20b), LbCpf1 및 AsCpf1 모두 하나의 mismatch를 포함하는 경우(특히 PAM (5' 말단으로부터의 거리)으로부터 거리가 20nt 이내인 경우)에도 Cpf1 활성을 거의 나타내지 못하였으며, 두 개의 mismatch를 포함하는 경우 (특히 PAM으로부터 거리가 20nt 이내인 경우)에는 거의 완전하게 Cpf1 활성을 상실하였다. 이러한 결과는 Cpf1가 인간 세포에서 높은 특이성을 가짐을 보여준다..

실시예 9: 인간 유전체에서의 potential off-target site 동정

Cas-OFFinder를 사용하여 인간 유전체에서의 잠재적 off-target site을 동정하였다. 상기 시험된 10개의 on-target sites (표 6)과 1 내지 4개 또는 1 내지 5개 뉴클레오타이드가 상이한 부위를 잠재적 off-target site로 선정하였으며, HEK293 세포에서의 off-target mutation (Indel frequency (%))을 targeted deep sequencing 방식으로 측정하였다.

DNMT1-3
						Indel frequency (%)			D- cap.
	Location		PAM-Target Sequence	Mis-No.	(-)Cpf	AsCpf1	LbCpf1	As	Lb
On-target	Chr19	10244442	TTTCCTGATGGTCCATGTCTGTTACTC(TTTC-서열번호 19)	0	0.01%	47.16%	34.45%	o	o
DNMT1-3_02	Chr7	68777905	TTTCCTGcTGGTCCATGTCTaaTACTC	3	0.01%	0.00%	0.01%	x	x
DNMT1-3_03	Chr16	75745870	TTTTCTGATGGTCCATacCTGTTACaC	3	0.00%	0.01%	0.00%	o	o
DNMT1-3_04	ChrX	82549885	TTTCCTGATGGTCCAcacCTGTTACaC	4	0.03%	0.02%	0.03%	o	x
DNMT1-3_05	Chr11	56468896	TTTTCTtATtGTaCATGTCTGTaACTC	4	0.01%	0.01%	0.00%	x	x
DNMT1-3_06	Chr8	72133967	TTTCCTGATGGTCCAcacCTGTTgCaC	5	0.01%	0.02%	0.01%	x	x
DNMT1-3_07	Chr8	96877520	TTTTCTGcTtcTCCATGTtTGTTACTt	5	0.00%	0.01%	0.01%	x	x
DNMT1-3_08	Chr12	3176249	TTTCCTGATGGTCCAcacCTGTTgCaC	5	0.03%	0.03%	0.03%	x	x
DNMT1-3_09	Chr12	61150324	TTTCCTGAgGGTgCATtTgTGTTtCTC	5	0.02%	0.01%	0.01%	x	x
DNMT1-3_10	Chr3	85367521	TTTTCTGtTtGTCCAatTCTGTTACTg	5	0.01%	0.00%	0.01%	x	x
DNMT1-3_11	Chr3	96050481	TTTCCTGATGGTCCATactTGTTgCaC	5	0.01%	0.00%	0.00%	x	x
DNMT1-3_12	Chr3	140583435	TTTTCTGcTGcTCCcTGTCTGTTttTC	5	0.03%	0.02%	0.02%	x	x
DNMT1-3_13	Chr3	156104287	TTTCCTGATGGTCCAcacCTGTTgCaC	5	0.00%	0.00%	0.01%	x	x
DNMT1-3_14	Chr3	183313194	TTTTCTGATGGTCCAcacCTGTTgCaC	5	0.00%	0.00%	0.00%	x	x
DNMT1-3_15	Chr3	189760807	TTTGCTaATaGgCCATGTaTGgTACTC	5	0.03%	0.02%	0.02%	x	x
DNMT1-3_16	Chr7	17901053	TTTCCTGATGGTCCAcagCTGTcACaC	5	0.01%	0.01%	0.02%	x	x
DNMT1-3_17	Chr7	47459950	TTTCCTGATGGTCCAcGcCTaTTgCaC	5	0.03%	0.01%	0.01%	x	x
DNMT1-3_18	Chr7	54229603	TTTCCTGATGGTCCAcacCTGTTgCaC	5	0.00%	0.00%	0.01%	x	x
DNMT1-3_19	Chr7	105875645	TTTCCTGATGGTtCAcaTCTGTTgCaC	5	0.08%	0.07%	0.07%	x	x
DNMT1-3_20	Chr7	113376854	TTTTCTGATGtTCCAaGTCTGcTtCTt	5	0.02%	0.04%	0.04%	x	x
DNMT1-3_21	Chr4	6585775	TTTCCTGATGGTCCAcacCTGTTgCaC	5	0.01%	0.00%	0.01%	x	x
DNMT1-3_22	Chr4	10356702	TTTCCTGATGGTCCAcacCTGTTgCaC	5	0.00%	0.00%	0.01%	x	x
DNMT1-3_23	Chr4	66166214	TTTTCTGATGGTCCAcacCTGTTtCaC	5	0.00%	0.01%	0.00%	x	x
DNMT1-3_24	Chr4	115245817	TTTCCTGATGGTCCAcacCTGTTgCaC	5	0.01%	0.01%	0.02%	x	x
DNMT1-3_25	Chr4	117890965	TTTCCTGATaGTCCAcaTCTGTTgCaC	5	0.00%	0.00%	0.00%	x	x
DNMT1-3_26	Chr4	128766667	TTTCCTGATGGTCCAcacCTGTTgCcC	5	0.02%	0.01%	0.02%	x	x
DNMT1-3_27	Chr5	20124084	TTTACTGtatGTtCATGTCTGTTtCTC	5	0.00%	0.01%	0.00%	x	x
DNMT1-3_28	Chr5	35891114	TTTCCTGATGGTCtAcacCTGTTgCTC	5	0.00%	0.00%	0.01%	x	x
DNMT1-3_29	Chr5	54119462	TTTCCTGATGGTCCAcacCTGTTAaTg	5	0.02%	0.00%	0.00%	o	x
DNMT1-3_30	Chr5	55879968	TTTCCTGATGGTCCAcacCTGTTAacC	5	0.02%	0.04%	0.01%	o	o
DNMT1-3_31	Chr5	64545017	TTTCCTGATGGTCCAcacCTGTTgCaC	5	0.00%	0.00%	0.01%	x	x
DNMT1-3_32	Chr5	103867835	TTTTCTtATtGTCaATcaCTGTTACTC	5	0.01%	0.01%	0.00%	x	x
DNMT1-3_33	Chr5	113070541	TTTCCTGATGGTCCAcacCTGTTgCcC	5	0.01%	0.00%	0.02%	x	x
DNMT1-3_34	Chr5	128492015	TTTCCTGATGGTCCAcacCTGTTgCaC	5	0.01%	0.00%	0.00%	x	x
DNMT1-3_35	Chr5	174988329	TTTCCTGATGGTCCAcacCTGTTgCaC	5	0.00%	0.01%	0.01%	x	x
DNMT1-3_36	Chr16	33476317	TTTGgTGAgGGTCCAaGTCTtTTACcC	5	0.02%	0.04%	0.02%	x	x
DNMT1-3_37	Chr1	32689627	TTTCCaGATcGTCaATGTaTGgTACTC	5	0.00%	0.00%	0.00%	x	x
DNMT1-3_38	Chr1	146123481	TTTCCTGATGGTCCAcacCTGTTgCaC	5	0.00%	0.00%	0.00%	o	x
DNMT1-3_39	Chr1	147665313	TTTCCTGATGGTCCAcacCTGTTgCaC	5	0.00%	0.00%	0.00%	x	x
DNMT1-3_40	Chr13	71866678	TTTCCTGATGGTCCAcacCTGTTgCaC	5	0.00%	0.00%	0.00%	x	x
DNMT1-3_41	Chr13	82088053	TTTCCcGATGGTCCAcaTCTGTTACca	5	0.01%	0.01%	0.00%	x	x
DNMT1-3_42	Chr2	45818935	TTTCCTGATGGTCCATactTaTTACaC	5	0.00%	0.01%	0.01%	x	x
DNMT1-3_43	Chr2	69794408		TTTCCTGATGGTCCcTGgCccTcACTC	5	0.04%	0.05%	0.04%	x	x
DNMT1-3_44	Chr2	96833634		TTTCCTGATGGTCCAcacCTGTTgCaC	5	0.04%	0.04%	0.05%	x	x
DNMT1-3_45	Chr2	121847952		TTTCCTGATGGTCCAcacCTGTTgCaC	5	0.00%	0.00%	0.00%	x	x
DNMT1-3_46	Chr2	124681966		TTTTCTGtTaGTCCATtTgTGTTACTg	5	0.01%	0.01%	0.00%	x	x
DNMT1-3_47	Chr2	137713055		TTTCCTGAgGtggCATaTCTGTTACTC	5	0.00%	0.00%	0.00%	x	x
DNMT1-3_48	Chr2	204797407		TTTCCTGATGGTCCAcacCTGTTgCaC	5	0.00%	0.00%	0.00%	x	x
DNMT1-3_49	Chr21	35194673		TTTTaTGATGGaCaATGTaTGTTtCTC	5	0.02%	0.00%	0.01%	x	x
DNMT1-3_50	Chr10	108904980		TTTCCTGATGGTaCAaGTtTGTTAaaC	5	0.01%	0.01%	0.00%	x	x
DNMT1-3_51	Chr10	111147375		TTTCCTGATGGTCCATacCTGcTgCaC	5	0.07%	0.06%	0.10%	o	x
DNMT1-3_52	Chr10	113265591		TTTCCTGATGGTCCATaTCTGTggCat	5	0.02%	0.04%	0.01%	o	o
DNMT1-3_53	Chr6	79188316		TTTCCTGATGGTCCAcacCTGTTgCaC	5	0.01%	0.00%	0.02%	x	x
DNMT1-3_54	Chr14	21663687		TTTCCTGATGGTCCAcacCTGTTAaTt	5	0.02%	0.04%	0.03%	o	o
DNMT1-3_55	Chr14	28487963		TTTCCTGATacTCCATcTCTtTTtCTC	5	0.04%	0.05%	0.05%	x	x
DNMT1-3_56	Chr20	11022082		TTTAgTaATtGTCCATGTgTGTTgCTC	5	0.01%	0.00%	0.01%	x	x
DNMT1-3_57	Chr9	13288346		TTTCCTcATGGTCCAcacCTGTTACaC	5	0.00%	0.00%	0.00%	x	x
DNMT1-3_58	ChrX	33942789		TTTCCTGATGGTCCAcacCTGTTgCcC	5	0.01%	0.00%	0.00%	x	x
DNMT1-3_59	ChrX	43247404		TTTTCTGATGGTCCAcacCTGTTgCaC	5	0.00%	0.00%	0.00%	x	x
DNMT1-3_60	ChrX	88519553		TTTCCTGATGGTCCAaacCTGTTAaTa	5	0.01%	0.00%	0.01%	x	x
DNMT1-3_61	ChrX	92676363		TTTCCTGATGGTCCATacCTGTTAaca	5	0.01%	0.70%	0.30%	o	o
DNMT1-3_62	ChrX	97546176		TTTCCTGATGGTCCAcGcCTGTTAaca	5	0.01%	0.33%	0.01%	o	o
DNMT1-3_63	ChrX	146525283		TTTCCTGATGGTCCAcacCTGTTgCaC	5	0.00%	0.00%	0.01%	x	x
DNMT1-3_64	Chr18	13687381		TTTCCTGATGGcCCAcacCTGTTACaC	5	0.01%	0.01%	0.01%	x	x
DNMT1-3_65	Chr18	33330596		TTTCCTGATGGTCCAcacCTGTTgCaC	5	0.01%	0.00%	0.02%	x	x
DNMT1-3_66	Chr18	60738422		TTTGCTcATGcTCCATGcCTGTgAgTC	5	0.02%	0.02%	0.01%	x	x
DNMT1-3_67	Chr18	68681615		TTTCCTGATGGTCCAcacCTGTTgCaC	5	0.00%	0.00%	0.00%	x	x
DNMT1-3_68	Chr11	5024686		TTTCCTGATGGTCCAcacCTGTTgCaC	5	0.00%	0.00%	0.00%	x	x
DNMT1-3_69	Chr11	22189152	TTTCCTGATGaTCCATacCTGTTgCaC	5	0.01%	0.00%	0.01%	x	x
DNMT1-3_70	Chr11	26124228	TTTCCTGATGGTCCAcaTCTGTTAaca	5	0.00%	0.12%	0.14%	o	o

DNMT1-4
					Indel frequency (%)			D- cap.
	Location		PAM-Target Sequence	Mis- No.	(-)Cpf	AsCpf1	LbCpf1	As	Lb
On-target	chr19	10244338	TTTATTTCCCTTCAGCTAAAATAAAGG(TTTA-서열번호 20)	0	0.07%	12.24%	3.38%	o	o
DNMT1-4_02	chr7	142706843	TTTTTTTCCCTTgAGCTAAAATAAAtG	2	0.09%	0.09%	0.07%	x	x
DNMT1-4_03	chr4	177105277	TTTGTTTCCCTTCAGtTAAAATAtgGG	3	0.01%	0.01%	0.01%	x	x
DNMT1-4_04	chr4	182294850	TTTATTgCCCTTCAGCTAAAATAcAGt	3	0.03%	0.04%	0.05%	x	x
DNMT1-4_05	chr8	99975672	TTTCTTTCCCTTtAGCTAAAcTtcAGG	4	0.05%	0.05%	0.05%	x	x
DNMT1-4_06	chr3	52291752	TTTTTTTCCCTTCcttTAAAAaAAAGG	4	6.16%	6.16%	6.12%	x	x
DNMT1-4_07	chr7	39109053	TTTTaTTtCCTTCAGCTAAAATAAAat	4	0.04%	0.06%	0.04%	x	x
DNMT1-4_08	chr7	91633038	TTTTTTcCCCTTCAGgTAtAATAAAGa	4	0.23%	0.22%	0.29%	x	x
DNMT1-4_09	chr7	113732889	TTTGTTgCCaTTtAGCTAAAcTAAAGG	4	0.05%	0.04%	0.04%	x	x
DNMT1-4_10	chr4	147661442	TTTGTTaCCCTTgAGCTAcAATAAAaG	4	0.12%	0.09%	0.08%	x	x
DNMT1-4_11	chr4	181699076	TTTTTTTCtCTTgAGCTAAAATAtAcG	4	0.16%	0.14%	0.12%	x	x
DNMT1-4_12	chr5	152541320	TTTTTTTCCaTTtAGCTAAgATAAAGc	4	1.52%	1.53%	1.49%	x	x
DNMT1-4_13	chr1	67098820	TTTTTTTCCCTaCAGgaAAAAaAAAGG	4	21.96%	21.25%	21.58%	x	x
DNMT1-4_14	chr10	85896433	TTTATTTaCtTTCAGtTAAAATAAAtG	4	0.01%	0.02%	0.01%	x	x
DNMT1-4_15	chr6	80334505	TTTTTTTCCtgTCAGaTAAAATAAAGa	4	0.59%	0.51%	0.56%	x	x
DNMT1-4_16	chrX	29928216	TTTCTTTCCCTTCAttTAcAATAAtGG	4	0.02%	0.02%	0.02%	x	x
DNMT1-4_17	chrX	136506280	TTTTTTTCCtTTCAGCTgAAATAgAGa	4	1.35%	1.27%	1.20%	x	x
DNMT1-4_18	chr18	37416158	TTTTTTTCCCcTCAGCcAAcAgAAAGG	4	0.12%	0.17%	0.16%	x	x
DNMT1-4_19	chr11	130818572	TTTAaTTCCCTTCAGgTAAAATtAgGG	4	0.02%	0.02%	0.03%	x	x

EMX1-2
					Indel frequency (%)			D- cap.
	Location		PAM-Target Sequence	Mis- No.	(-)Cpf	AsCpf1	LbCpf1	As	Lb
On-target	chr2	73160920	TTTGTCCTCCGGTTCTGGAACCACACC(TTTG-서열번호 23)	0	0.02%	12.66%	25.33%	o	o
EMX1-2_02	chr6	134409288	TTTCTCCTCaGGTTCTGGAACCAataC	4	0.00%	0.04%	0.07%	o	o
EMX1-2_03	chr1	23408279	TTTCTCCTCCGGcTtTaGAgtCACACC	5	0.05%	0.04%	0.04%	x	x
EMX1-2_04	chr1	7977477	TTTCTCCTgCGGgTCTGcAAtCtCACC	5	0.01%	0.00%	0.02%	x	x
EMX1-2_05	chr10	68703484	TTTATggTggGGTTCTGGAACCAaACC	5	0.01%	0.01%	0.00%	x	x
EMX1-2_06	chr10	102894100	TTTGTCCgCCGGTTCTGGAACCAggtt	5	0.01%	0.00%	0.00%	x	x
EMX1-2_07	chr10	119307580	TTTGTtCTtCGGTTCTGaAACCAtACt	5	0.01%	0.02%	0.01%	x	x
EMX1-2_08	chr11	93751348	TTTATCaTggtGgTCTGGAACCACACC	5	0.02%	0.02%	0.01%	x	x
EMX1-2_09	chr12	51833378	TTTTTttTttaGTTCTGGAACCACACC	5	0.96%	1.06%	0.98%	x	x
EMX1-2_10	chr14	48093772	TTTATatTCaGGTTCTGGAACCAacCC	5	0.19%	0.16%	0.11%	x	x
EMX1-2_11	chr2	159516970	TTTCTCCaCaGcTTCTGGgACCcCACC	5	0.12%	0.09%	0.08%	x	x
EMX1-2_12	chr5	45576885	TTTATtCTggtGTTCTGGAACCAaACC	5	0.04%	0.03%	0.02%	x	x
EMX1-2_13	chr5	149563041	TTTGcCCgCCGGTTtTGGAACCAgAtC	5	0.06%	0.04%	0.05%	x	x
EMX1-2_14	chr6	46703876	TTTCatCTCCaGTTCTGGcACCtCACC	5	0.07%	0.04%	0.05%	x	x
EMX1-2_15	chr6	122815701	TTTCaCCaCCtGTTCTGGAACCACAaa	5	0.20%	0.16%	0.18%	x	x
EMX1-2_16	chr7	120921149	TTTATtCTgtGGaTCTGGAACCACAtC	5	0.01%	0.01%	0.02%	x	x
EMX1-2_17	chr7	32492726	TTTAcCCTCCacTTCTGGAACtcCACC	5	0.01%	0.02%	0.01%	x	x
EMX1-2_18	chr9	102937840	TTTATtCTCtGGTTCTGGAACCAagtC	5	0.00%	0.00%	0.01%	x	x
EMX1-2_19	chrX	135428078	TTTCTCCataGtTTCTGGAACCACAtC	5	0.00%	0.00%	0.00%	x	x

CCR5-1
					Indel frequency (%)			D- cap.
	Location		PAM-Target Sequence	Mis- No.	(-)Cpf	AsCpf1	LbCpf1	As	Lb
On-target	Chr3	46414524	TTTTGTGGGCAACATGCTGGTCATCCT(TTTT-서열번호 24)	0	0.01%	11.53%	19.32%	o	o
CCR5-01-02	Chr3	46399185	TTTTGTGGGCAACATGCTGGTCgTCCT	1	0.02%	2.59%	0.42%	o	o

CCR5-9
					Indel frequency (%)			D- cap.
	Location		PAM-Target Sequence	Mis- No.	(-)Cpf	AsCpf1	LbCpf1	As	Lb
On-target	chr3	46415182	TTTGGCCTGAATAATTGCAGTAGCTCT(TTTG-서열번호 25)	0	0.00%	12.61%	11.37%	o	o
CCR5-09-02	chr6	3563234	TTTGGtCTGAATAATTtCAGTAGCTCT	2	0.00%	0.00%	0.00%	o	x
CCR5-09-03	chr8	28861456	TTTTGCCTGgAcAATTGCAGTAaCTaT	4	0.01%	0.00%	0.00%	x	x
CCR5-09-04	chr7	115259943	TTTTGCCTGgATAATTGCAGTAGCctc	4	0.29%	0.28%	0.28%	x	x
CCR5-09-05	chr4	20700452	TTTCaCCTGAATAATTGCAcTAGCTaa	4	0.00%	0.00%	0.00%	x	x
CCR5-09-06	chr4	182288863	TTTTGCCTtgATAATTGCAGaAGCTgT	4	0.01%	0.00%	0.00%	x	x
CCR5-09-07	chr16	55176669	TTTTcCCTGAATAcTTcCAGTgGCTCT	4	0.02%	0.01%	0.01%	x	x
CCR5-09-08	chr2	184980577	TTTTGtCTGgATAAcTGCAGTAtCTCT	4	0.00%	0.00%	0.00%	x	x
CCR5-09-09	chr21	34303495	TTTGGCCTcAAacATTGCAGaAGCTCT	4	0.01%	0.00%	0.00%	x	x
CCR5-09-10	chr17	42584285	TTTCtCCTGAATtATTGCAGTAGCTac	4	0.01%	0.02%	0.00%	x	x
CCR5-09-11	chrX	80917477	TTTAGCCTGAATtATTaCAaTAGCTtT	4	0.00%	0.00%	0.00%	x	x
CCR5-09-12	chr11	29993622	TTTTGCCTGgAcAATTGCAaTAGCTtT	4	0.00%	0.01%	0.01%	x	x

HPRT1-1
					Indel frequency (%)			D- cap.
	Location		PAM-Target Sequence	Mis- No.	(-)Cpf	AsCpf1	LbCpf1	As	Lb
On-target	chrX	133609298	TTTGCTGACCTGCTGGATTACATCAAA(TTTG-서열번호 27)	0	0.02%	9.76%	10.39%	o	o
HPRT1-01-02	chr5	30248678	TTTGCTcACCTGCTGGATTACATCAAA	1	0.01%	0.08%	0.04%	o	o
HPRT1-01-03	chr11	93732144	TTTGCTGACCTGCTaGATaACATCAAA	2	0.03%	0.04%	0.02%	o	o
HPRT1-01-04	chr12	62892531	TTTACTGACaactTGGATTACATCAAA	4	0.01%	0.01%	0.01%	x	x
HPRT1-01-05	chr17	78758131	TTTTtTaACCTGCTGGATTAaATgAAA	4	0.10%	0.08%	0.08%	x	x

HPRT1-4
					Indel frequency (%)			D- cap.
	Location		PAM-Target Sequence	Mis- No.	(-)Cpf	AsCpf1	LbCpf1	As	Lb
On-target	ChrX	133620466	TTTATGTCCCCTGTTGACTGGTCATTC(TTTA-서열번호 28)	0	1.67%	34.96%	36.18%	o	o
HPRT1-04_02	Chr11	93732023	TTTATaTCCCCTGTTGACTGGTCATTa	2	0.03%	0.11%	7.57%	o	o
HPRT1-04_03	Chr5	161039971	TTTATGTCCCCTcTTGcCTGGTCATaa	4	0.10%	0.08%	0.08%	o	o

AAVS1
					Indel frequency (%)			D- cap.
	Location		PAM-Target Sequence	Mis- No.	(-)Cpf	AsCpf1	LbCpf1	As	Lb
On-target	Chr19	55626916	TTTGCTTACGATGGAGCCAGAGAGGAT(TTTG-서열번호 21)	0	0.00%	22.42%	22.78%	o	o
AAVS1_02	Chr2	79999133	TTTTCTTttGATGGtGCCAGAGAGGAT	3	0.00%	0.01%	0.00%	x	x
AAVS1_03	Chr8	113838377	TTTTCTTctGcTGGAGCCAGAGAGGcT	4	0.01%	0.01%	0.01%	x	x
AAVS1_04	Chr4	96317093	TTTCCTTAtGATGaAGCCAGAGAaGcT	4	0.00%	0.08%	0.53%	o	o

HBB-1
					Indel frequency (%)
	Location		PAM-Target Sequence	Mis- No.	(-)Cpf	AsCpf1	LbCpf1
On-target	Chr11	5247941	TTTGAGTCCTTTGGGGATCTGTCCACT (TTTG-서열번호 40)	0	0.063%	1.855%	0.916%
HBB-01_02	Chr11	5255355	TTTGAGTCCTTTGGGGATCTGTCCtCT	1	0.095%	0.824%	1.108%
HBB-01_03	ChrX	62099518	TTTTAGTCCTTTGGGtATaTaTCCAgT	4	0.031%	0.039%	0.029%
HBB-01_04	Chr11	93986836	TTTTAaTCCTTTGGGtATaTGcCCACT	4	0.052%	0.062%	0.063%

VEGFA-2
					Indel frequency (%)
	Location		PAM-Target Sequence	Mis- No.	(-)Cpf	AsCpf1	LbCpf1
On-target	Chr6	43738576	TTTTCGTCCAACTTCTGGGCTGTTCTC (TTTT-서열번호 41)	0	0.000%	0.942%	0.199%
VEGFA-02_02	ChrX	104051443	TTTACtaCCAACTTCTttGCTGTTCTC	4	0.022%	0.025%	0.026%

상기 표 8 내지 표 17에서, 소문자 알파벳은 mismatch 위치를 나타내고, 'Mis-No.'는 mismatch 개수를 의미하고, '(-)Cpf'는 Cpf1을 첨가하지 않은 경우를 의미하고, 'As'와 'Lb'는 각각 'AsCpf1' 및 'LbCpf1'을 의미한다. 또한, 'D-Cap.'은 'Digenome Capture'를 의미하는 것으로, Digenome sequencing (실시예 4)에 의하여 얻어진 cleavage score가 컷오프 값(2.5) 이상인 것은 'o'로 표시하고 그 이하인 것은 'x'로 표시하였다.

상기 표 8 내지 17에 나타낸 표적 서열(Target sequence)을 기초로 표 4에서 설명한 방법으로 LbCpi1 crRNA 및 AsCpf1 crRNA를 제작하여 시험에 사용하였다.

표 8 내지 17에 나타낸 Indel frequency(%)는 targeted deep sequencing 방식으로 측정하였다.

상기 표 8 내지 17에 나타난 바와 같이, LbCpf1 and AsCpf1을 이용하여 on-target sites (labeled as DNMT1 -3 and EMX1 -2 sites)와 mismatch number가 5개 이하인 지역의 off-target을 여부를 관찰하였을 때 전체 87 site 중 LbCpf1의 경우는 3개 AsCpf1의 경우는 4개의 site에서 validation 되었으나 off-target indel은 0.04% 에서 0.7%로 on-target indel frequency(34% and 25% with LbCpf1 and 47% and 13% with AsCpf1)에 비해 매우 낮았다. 또한 다른 두개의 on-target sites (CCR5-1 and HPRT-1)에 대해서 single mismatch가 있는 homologous sites를 구별하는 것을 관찰하였다. LbCpf1은 CCR5-1 and HPRT-1 site에서 on-target frequency가 각각 19% and 10% 이지만 single-base mismatched sites에서는 각각 0.4% 와 0.04% 였다. 이는 각각 on-target indel frequency에 1/48 (= 19%/0.4%) 과 1/250 (= 10%/0.04%) 수준이므로 single-base mismatch도 잘 구별함을 알 수 있다. 전체적으로 130개의 bona fide off-target sites의 indel frequncy를 관찰하였으며 그 중 9개 site에서 validation 되었으나 대부분의 site의 indel이 1% 이하였다. 이러한 결과는 Cpf1이 human cell에서 highly specific 함을 보여준다.

비편향적 방식 (unbiased manner)으로 genome-wide Cpf1 off-target 부위를 확인하기 위하여, 효율이 높은 총 8개의 Cpf1 (표 6의 1-8번 target sequence에 대한 crRNA 사용)를 사용하여 Digenome-seq (실시예 4)를 수행하였다. DNeasy Tissue kit (Qiagen)를 이용하여 Hela 세포에서 분리된 Cell-free genomic DNA에 실시예 3의 방법으로 얻어진 AsCpf1 및 LbCpf1 ribonucleoproteins (RNPs)를 고농도 (300 nM Cpf1 및 900 nM crRNA)를 처리하여 절단하고, whole genome sequencing (WGS; 실시예 4 참조)를 수행하였다. 비교를 위하여, SpCas9를 사용하여 동일한 시험을 수행하였다.

상기 얻어진 cleavage score (실시예 4) 결과 중 AsCpf1 및 LbCpf1을 사용하여 얻어진 결과를 도 21a (DNMT1-3에 대한 결과) 및 21b (DNMT1-4에 대한 결과) 및 표 18 내지 표 33에 나타내었다.

LbCpf1_DNMT1-3
Chromosome	location	DNA sequence at cleavage site	DNA cleavage score	Bulge
chr5	13135736	TTTCCTGATGGTCCAcacCTGTTAaca	13.20	No
chr8	112204853	TTTCCTGATGGTCCAcacCTGTTAaga	12.38	No
chr19	10244444	TTTCCTGATGGTCCATGTCTGTTACTC	11.97	No
chr11	26124230	TTTCCTGATGGTCCAcaTCTGTTAaca	11.51	No
chr16	75745894	TTTTCTGATGGTCCATacCTGTTACaC	9.36	No
chr3	30592945	TTTCCTGATGGTCCAcacCTGTTAaca	8.74	No
chr10	66295933	TTTCCTGATGGTCCAcacCTGTTAaca	8.67	No
chr5	39969437	TCTCCTGATGGTCCATacCTGTTAacg	8.65	No
chr10	6784959	TTTCCTGATGGTCCAcacCTGTTAaca	7.24	No
chr3	166705664	TTTCCTGATGGTCCAcacCTGTTAaca	5.96	No
chr2	62165341	TTTCCTGATGGTCCAcacCTGTTAaca	5.56	No
chr1	89819957	TTTCCTGATGGcCCATacCTGTTAaca	5.31	No
chrX	115862097	TTTCaTGATGGTCCATacCTGTTAaca	5.29	No
chrX	92676365	TTTCCTGATGGTCCATacCTGTTAaca	5.22	No
chr3	164692184	TTTCCTGATGGTCCAcacCTGTTAaca	5.05	No
chr16	13699913	TTTCCTGATGGTCCAcacCTGTTAaca	4.84	No
chr2	153648723	TTTCCTGATGGTCCAcacCTGTTAaca	4.83	No
chr1	236623991	TTTACTGATGaTCCATGTCTaaacgTt	4.74	No
chrX	97546178	TTTCCTGATGGTCCAcGcCTGTTAaca	4.45	No
chr11	38911731	TTTCCTGATGGTCCAcacCTGTTAaca	4.07	No
chrX	57676022	TTTCCTGATGGTCCAcacCTGTTAaca	4.01	No
chr5	55879970	TTTCCTGATGGTCCAcacCTGTTAacC	3.76	No
chrX	153891299	TTTCCTGATGGTCCAcacCTGTTAaca	3.62	No
chr14	21663713	TTTCCTGATGGTCCAcacCTGTTAaTt	3.24	No
chr6	55276466	TTTCCTGATGGTCCAcacCTGTTAaca	2.85	No
chr10	113265597	TTTCCTGATGGTCCATaTCTGTggCat	2.66	No
chr7	7682807	TTTCCTGATGGTCCAcacCTGTTAtca	2.57	No
chrX	8935018	TTTCCTGATGGTCCAcacCTGTTAaca	2.50	No

LbCpf1_DNMT1-4
Chromosome	location	DNA sequence at cleavage site	DNA cleavage score	Bulge
chr19	10244367	TTTATTTCCCTTCAGCTAAAATAAAGG	6.86	No

LbCpf1_EMX1-2
Chromosome	location	DNA sequence at cleavage site	DNA cleavage score	Bulge
chr2	73160921	TTTGTCCTCCGGTTCTGGAACCACACC	12.19	No
chr2	177017501	TTCATCCTCCGGTTCTGGAACCAgAtC	8.08	No
chr17	46690720	TTCATCCTCCGGTTCTGGAACCAgAtt	4.71	No
chr6	134409314	TTTCTCCTCaGGTTCTGGAACCAataC	3.77	No

LbCpf1_CCR5-1
Chromosome	location	DNA sequence at cleavage site	DNA cleavage score	Bulge
chr3	46399210	TTTTGTGGGCAACATGCTGGTCgTCCT	33.76	No
chr3	46414552	TTTTGTGGGCAACATGCTGGTCATCCT	13.90	No
chr8	54163354	CTTGGTGGGCAACtcGcTGGTCATgtT	2.93	No

LbCpf1_CCR5-9
Chromosome	location	DNA sequence at cleavage site	DNA cleavage score	Bulge
chr3	46415211	TTTGGCCTGAATAATTGCAGTAGCTCT	51.78	No
chr1	1.44E+08	TTTTGCCTGAATgATTGCAGTAttTac	11.04	No
chr9	37289589	TTTGGaCTGAATtaTTGCAGTAacatT	3.13	No

LbCpf1_HPRT1-1
Chromosome	location	DNA sequence at cleavage site	DNA cleavage score	Bulge
chrX	133609321	TTTGCTGACCTGCTGGATTACATCAAA	4.15	No
chr11	93732147	TTTGCTGACCTGCTaGATaACATCAAA	3.91	No
chr5	30248701	TTTGCTcACCTGCTGGATTACATCAAA	2.91	No

LbCpf1_HPRT1-4
Chromosome	location	DNA sequence at cleavage site	DNA cleavage score	Bulge
chr11	93732073	TTTATaTCCCCTGTTGACTGGTCATTa	28.40	No
chr5	161040022	TTTATGTCCCCTcTTGcCTGGTCATaa	3.88	No
chrX	133620495	TTTATGTCCCCTGTTGACTGGTCATTC	2.90	No

LbCpf1_AAVS1
Chromosome	location	DNA sequence at cleavage site	DNA cleavage score	Bulge
chr2	34206860	TTTCCaTACaATGGAGCCAGAGa-GAT	9.31	RNA Bulge
chr4	96317122	TTTCCTTAtGATGaAGCCAGAGAaGcT	5.26	No
chr16	34823594	TTTACaTAaGATGAAaCCAGAGAGaAa	4.34	No
chr19	55626945	TTTGCTTACGATGGAGCCAGAGAGGAT	2.63	No

AsCpf1_DNMT1-3
Chromosome	location	DNA sequence at cleavage site	DNA cleavage score	Bulge
chr12	17538224	TTTACTGATGGTCttacTtTaTaggcC	15.78	No
chr7	134517009	TCTCCTGATGGTCCATacCTGTTAaca	14.35	No
chr5	13135739	TTTCCTGATGGTCCAcacCTGTTAaca	13.65	No
chr9	25518292	TCTCCTGATGGTCtATaTCTGTTAaaa	12.61	No
chr5	39969440	TCTCCTGATGGTCCATacCTGTTAacg	12.11	No
chr8	112204856	TTTCCTGATGGTCCAcacCTGTTAaga	12.05	No
chr11	82700148	TTTACTGATGGTCtcatTtaaTcttTa	11.02	No
chr3	164692191	TTTCCTGATGGTCCAcacCTGTTAaca	10.97	No
chr4	123785685	TTTCCTGATGGTCtcatatTtTcttTa	8.95	No
chr1	213377380	TTTCCTGATGGTCCATGTCTGaattag	8.65	No
chr10	6784966	TTTCCTGATGGTCCAcacCTGTTAaca	8.18	No
chr7	123688384	TTTCCTGATGGTCCAcacCTGTTAaca	8.03	No
chr2	200523682	TTTACTGATGGTattataggaagttat	7.99	No
chr16	75745895	TTTTCTGATGGTCCATacCTGTTACaC	7.12	No
chr10	111147398	TTTCCTGATGGTCCATacCTGcTgCaC	7.06	No
chr11	38911734	TTTCCTGATGGTCCAcacCTGTTAaca	6.69	No
chrX	57676029	TTTCCTGATGGTCCAcacCTGTTAaca	6.55	No
chr16	13699916	TTTCCTGATGGTCCAcacCTGTTAaca	6.45	No
chr3	30592953	TTTCCTGATGGTCCAcacCTGTTAaca	5.77	No
chr19	43263943	TTTACTGATGGTCCAaacaTcTaAgat	5.66	No
chr19	43416520	TTTACTGATGGTCCAaacaTcTaAgat	5.41	No
chr6	55276469	TTTCCTGATGGTCCAcacCTGTTAaca	5.03	No
chr10	66295940	TTTCCTGATGGTCCAcacCTGTTAaca	4.93	No
chr19	43435385	TTTACTGATGGTCCAaacaTcTaAgat	4.85	No
chrX	82549910	TTTCCTGATGGTCCAcacCTGTTACaC	4.58	No
chr5	54119487	TTTCCTGATGGTCCAcacCTGTTAaTg	4.58	No
chr1	236623994	TTTACTGATGaTCCATGTCTaaacgTt	4.39	No
chr19	10244446	TTTCCTGATGGTCCATGTCTGTTACTC	4.35	No
chr4	9395117	TTTCCTGATGGTCtAcaTCTGTTAaca	4.20	No
chr3	166705667	TTTCCTGATGGTCCAcacCTGTTAaca	4.13	No
chr14	21663712	TTTCCTGATGGTCCAcacCTGTTAaTt	4.12	No
chr7	80711731	TTTACTGATGGTCacTaTaaacacaga	3.79	No
chr5	55879977	TTTCCTGATGGTCCAcacCTGTTAacC	3.69	No
chr7	7682808	TTTCCTGATGGTCCAcacCTGTTAtca	3.56	No
chr10	113265596	TTTCCTGATGGTCCATaTCTGTggCat	3.25	No
chrX	97546179	TTTCCTGATGGTCCAcGcCTGTTAaca	3.24	No
chr1	146123502	TTTCCTGATGGTCCAcacCTGTTgCaC	3.22	No
chr7	3669637	TTTCCTGATGGTCCcatcCaaTgttTa	3.22	No
chr11	26124238	TTTCCTGATGGTCCAcaTCTGTTAaca	3.09	No
chrX	153891300	TTTCCTGATGGTCCAcacCTGTTAaca	3.00	No
chrX	92676366	TTTCCTGATGGTCCATacCTGTTAaca	2.88	No
chr2	153648726	TTTCCTGATGGTCCAcacCTGTTAaca	2.80	No
chr2	62165344	TTTCCTGATGGTCCAcacCTGTTAaca	2.77	No
chr19	43524715	TTTACTGATGGTCtAaacaTcTaAgat	2.72	No
chr10	14334368	TTTCCTGATGGTCttcaatatccttct	2.67	No
chr19	43377706	TTTACTGATGGTCCAaacaTcTaAgat	2.53	No

ASCpf1_DNMT1-4
Chromosome	location	DNA sequence at cleavage site	DNA cleavage score	Bulge
chr19	10244367	TTTATTTCCCTTCAGCTAAAATAAAGG	8.92	No

AsCpf1_EMX1-2
Chromosome	location	DNA sequence at cleavage site	DNA cleavage score	Bulge
chr2	73160922	TTTGTCCTCCGGTTCTGGAACCACACC	7.57	No
chr2	177017500	TTCATCCTCCGGTTCTGGAACCAgAtC	6.59	No
chr6	134409310	TTTCTCCTCaGGTTCTGGAACCAataC	4.44	No
chr17	46690718	TTCATCCTCCGGTTCTGGAACCAgAtt	3.28	No
chr7	145773724	TTTGTCCTCCaGaTaTGGAACCAtgtg	3.14	No

AsCpf1_CCR5-1
Chromosome	location	DNA sequence at cleavage site	DNA cleavage score	Bulge
chr3	46414552	TTTTGTGGGCAACATGCTGGTCATCCT	18.09	No
chr1	113920223	TTTGGTGGGCAACATGCcaG-CATTaa	16.52	RNA Bulge
chr8	138491414	TTTAGTGGGaAcagTctgGtcatgagt	14.80	No
chr16	61917098	TTTGGTGGGCAACATGCTataCAaaaT	12.36	No
chr10	56138671	TCTGGTGGaCAACATGCTGaTCAaagg	11.54	No
chr8	54163354	CTTGGTGGGCAACtcGcTGGTCATgtT	11.22	No
chr6	137588270	TTTGGTGGGgAACATaCaaGTCATatT	9.30	No
chr20	43657503	TTTGGTGGGCAAgcTaCTtaTacggag	9.04	No
chr8	24661222	TTTAGTGGGCAAacTatTGaaaAgata	8.63	No
chr6	127930554	TTTGGTGGGCAACtctaTtaTtgTatc	8.26	No
chr7	62666896	TTTAGTGGGCAAtcTaCTGGaaggaag	6.91	No
chrX	65962874	TTTGGTGGGCAAgcTatTaaTgATtgc	6.07	No
chr19	44648031	GTTAGTGGGCAACATaCTGtaaAgacc	5.79	No
chr2	78618092	TTTGGTGGGCAACtTttTatTgtTgCT	5.59	No
chr3	46399210	TTTTGTGGGCAACATGCTGGTCgTCCT	5.17	No
chr15	58588554	TTTAGTGGGaAACtT-CTGGTCATaCa	5.11	RNA Bulge
chr4	110395952	TTTAGTGGGCAAaccatTtacaAaata	4.19	No
chr1	72141686	TTTGGTaGGtAACATGgTGGaagTCaa	4.18	No
chr15	24068708	TTTTGTGGGCAACATatataTaggtcT	3.81	No
chr5	56998240	TTTAGTGGGCAACtgtaTttagAaatc	2.60	No

AsCpf1_CCR5-9
Chromosome	location	DNA sequence at cleavage site	DNA cleavage score	Bulge
chr3	44394779	TTTAGCCTGAATAATattcaaTtgTCT	35.07	No
chr15	35754229	TTTGGCCTGAATAAcaatAtacatgtT	14.46	No
chr6	3563258	TTTGGtCTGAATAATTtCAGTAGCTCT	11.91	No
chr12	58841086	TTTAGCCTGAATAATTaCAtTtaaTaa	11.58	No
chr1	144014812	TTTTGCCTGAATgATTGCAGTAttTac	10.39	No
chr9	37289591	TTTGGaCTGAATtaTTGCAGTAacatT	7.57	No
chr15	66090016	TTTAGCCTGAAattTTGCAGTAGtcaT	6.55	No
chr7	35337090	TTTAGCCTGAATAATattccattgccT	6.37	No
chr7	13593045	TTTAGCCTGAATAAcattgtattgTgT	5.59	No
chr4	98108485	TTTGCCCTGAATAATTGCAGcataatT	5.47	No
chr8	74162570	TTTAGCCTGAATAtTatAtaTtatcaT	4.86	No
chr3	46415212	TTTGGCCTGAATAATTGCAGTAGCTCT	4.42	No
chr5	59993666	TTTAGCCTGAATAtTatttGTtaggga	3.73	No
chr15	95848470	TTTGGCCTGAATtATattacTtAGTCa	3.41	No
chr4	108769431	TTTAGCCTGAATAATaatAcTgcaTta	3.16	No

AsCpf1_HPRT1-1
Chromosome	location	DNA sequence at cleavage site	DNA cleavage score	Bulge
chr11	93732153	TTTGCTGACCTGCTaGATaACATCAAA	48.57	No
chr5	30248702	TTTGCTcACCTGCTGGATTACATCAAA	27.49	No
chr6	49794715	TTTCCTGACCTGCTatATatatcacAA	8.55	No
chrX	133609322	TTTGCTGACCTGCTGGATTACATCAAA	6.67	No

AsCpf1_HPRT1-4
Chromosome	location	DNA sequence at cleavage site	DNA cleavage score	Bulge
chrX	133620495	TTTATGTCCCCTGTTGACTGGTCATTC	12.93	No
chr11	93732073	TTTATaTCCCCTGTTGACTGGTCATTa	7.92	No
chr5	161040022	TTTATGTCCCCTcTTGcCTGGTCATaa	4.46	No

AsCpf1_AAVS1
Chromosome	location	DNA sequence at cleavage site	DNA cleavage score	Bulge
chr19	55626945	TTTGCTTACGATGGAGCCAGAGAGGAT	14.05	No
chr1	182157128	TTTACTTA-GATGaAGCCAcAGAGGcc	11.23	RNA Bulge
chr4	96317123	TTTCCTTAtGATGaAGCCAGAGAaGcT	3.76	No
chr12	31744997	TTTACTTA-GATGGAGaCAGAGtctcc	4.29	RNA Bulge

도 21a 및 21b, 및 표 18 내지 표 33에 나타난 바와 같이, on-target 및 off-target in vitro 절단부위(cleavage sites)에 해당하는 sequence read들의 정렬은 무작위적이기보다는 균일한(uniform) 것으로 확인되었으며, in vitro cleavage에 있어서, Cpf1은 on-target site을 포함하여 1 내지 46 부위에서 높은 특이성을 갖는 것으로 나타났다. in vitro cleavage sites (or Digenome-captured sites)의 개수는 LbCpf1의 경우 6±3, AsCpf1의 경우 12±5로 나타났으며, 이는 본 발명자들의 이전 연구에서 얻어진 SpCas9의 90±30보다 현저하게 낮은 수치이다.

도 22a 내지 22f는 Cpf1-mediated Digenome-captured site의 Sequence logos를 보여주는 것으로, 상단은 AsCpf1를 사용하여 얻어진 Digenome-captured site의 Sequence logos이고, 하단은 LbCpf1를 사용하여 얻어진 Digenome-captured site의 Sequence logos이다. 도 22a 내지 22f에 나타난 바와 같이, 8 LbCpf1 및 AsCpf1 뉴클레아제를 사용하여 각각 얻어진 50 및 98개의 in vitro cleavage site은 mismatches를 carrying하며, 이들은 대부분 PAM 서열로부터 10-nt 정도 떨어진 PAM 근접 부위(PAM-proximal region)보다는 PAM 서열로부터 13-nt 정도 떨어진 PAM-distal region에 위치한다.

8 LbCpf1 뉴클레아제에 의하여 절단되는 50개 부위 중 46개 부위가 AsCpf1에 의하여 절단되었다. 4개 부위는 각각의 해당 on-target 부위와 비교하여 하나의 뉴클레오타이드가 결실되었으며, 이는 잠재적으로 DNA-crRNA duplex region에서 RNA 돌출 (bulge)을 생성할 수 있다. 2개의 LbCpf1 및 AsCpf1 뉴클레아제는 5'-TCTN-3' 및 5'-TTCN-3'와 같은 비정형(non-canonical)의 PAM 서열을 포함하는 6개 (LbCpf1의 경우) 및 4개 (AsCpf1의 경우)의 부위를 절단하였다. 모든 8개의 on-target 부위들 및 상기에서 deep sequencing에 의하여 확인된 8개의 off-target 부위들을 Digenome-seq에 의하여 capture하였다.

상기 얻어진 결과를 도 21c에 나타내었다. 도 21c에 나타난 바와 같이, Cas-OFFinder (a fast and versatile algorithm that searches for potential off-target sites of Cas9 RNA-guided endonucleases. Bioinformatics. 2014 May 15;30(10):1473-5 참조)에 의하여 확인된 5 개 또는 6개의 mismatch를 갖는 상동부위(homologous site)의 0.9% fraction만이 in vitro 절단되었다. 4 개 또는 그보다 적은 mismatch를 갖는 상동부위는 절단될 가능성이 높아서 Digenome-seq에 의하여 캡쳐되었으나, 이들 부위는 인간 유전체에는 거의 존재하지 않는다 (6±2 such sites per crRNA).

We compared the genome-wide specificity of Cas9 with that of LbCpf1 and AsCpf1 at two overlapping sites in the DNMT1 locus의 2 개의 overlapping site에서의 LbCpf1 및 AsCpf1의 genome-wide 특이성을 Digenome-seq 방식(실시예 4 참조)으로 측정하여 SpCas9과 비교하였다 (도 21a 및 21b 참조). 도 21a에 나타난 in vitro 절단 부위의 genome-wide distribution 플롯은 Cas9와 Cpf1은 매우 상이한 부위에서 chromosomal DNA를 절단함을 보여준다. in vitro cleavage site에서의 DNA 서열을 비교하여 얻어진 새로운 모티프 또는 서열 로고는 LbCpf1가 AsCpf1 또는 Cas9보다 높은 특이성을 가짐을 보여준다 (도 21a 참조). LbCpf1와 AsCpf1 모두 인간의 전체 유전체 내에서 on-target site에서만 절단되는 DNMT1-4 부위를 타겟팅하는 것으로 나타났다 (도 21b 및 도 23 참조). 도 23은 Digenome-captured site의 Sequence logos를 나타낸 것으로, Sequence logos는 Digenome-captured sites을 사용하는 WebLogo (http://weblogo.berkeley.edu/logo.cgi)를 통하여 얻었으며, 오직 하나의 DNMT1-4 on-target site만이 LbCpf1 및 AsCpf1에 의하여 캡쳐되는 것으로 나타났다.

Digenome-seq에 의하여 확인된 in vitro 절단 부위를 targeted deep sequencing를 통하여 HEK293 cell 세포에서 유효성을 검증하였다. 유효성이 있는 것으로 검증된 off-target 부위의 대부분에서의 Indel frequency는 1% 미만이었으며 (도 21d 및 24a 내지 24f 참조), 이러한 결과는 대응on-target site에서의 Indel frequency와 비교하여 매우 낮은 수치이다. 도 21d는 targeted deep sequencing에 의하여 인간 세포에서 확인된 off-target site을 보여주는 그래프로서, on-target과 off-target 부위의 DNA 서열도 함께 나타나 있다 (굵은 글씨는 PAM 서열이고 Mismatched 뉴클레오타이드는 소문자로 표시됨). 도 24a 내지 24f는 HEK293T17 세포에서의 Digenome-captured site에서의 Indel frequency를 나타낸 그래프로서, 진한 막대는 LbCpf1 플라스미드로 트랜스펙션된 HEK293T17 세포에서 얻어진 결과이고, 연한 막대는 AsCpf1 플라스미드로 트랜스펙션된 HEK293T17 세포에서 얻어진 결과를 보여준다.

genome-wide off-target 효과를 정량하기 위하여, on-target indel rate에 대한 유효한(validate) off-target site의 indel rate의 총 합의 비율로서 산정한 off-target effect index (OTI)를 계산하였다. 두 개의 DNMT1 sites (DNMT1-3 및 DNMT1-4)에 대한 LbCpf1의 OTI는 각각 0.005 및 0.012이고, AsCpf1 의 OTI는 각각 0.267 및 0.024로 나타났다. 이러한 결과는 off-target effect는 이치 의존적(site-dependent)이며, LbCpf1는 AsCpf1와 비교하여 비교적 특이성이 높음을 제안한다. 한편, 본 발명자들의 이전 연구에서 상기 두 부위에서의 Cas9의 OTI가 >2.0인 것으로 나타났다.

이들 유효한 off-target site에서의 indel frequency가 local chromatin inaccessibility에 의하여 저하될 가능성을 배제시키기 위하여, off-target site과 혼성화 가능한 (matched) 서열을 갖는 새로운 crRNA를 트랜스펙션하여 시험하였다 (도 21e 참조). 도 21e는 상기 off-target site에 혼성화하도록 재설계된 crRNA를 이용하여 AsCpf1 off-target 부위에서 얻어진 Targeted mutagenesis (Indel frequency (%))를 보여주는 그래프이다. 각각의 off-target-specific crRNA는 각각의 대응하는 위치에서 indels을 유도할 수 있지만, on-target site에서는 indel을 유도하지 않았다. 도 21e에 나타난 바와 같이, OT6 부위는 비정형의 5'-TCTN-3' PAM 서열을 포함하며, OT6 및 OT12 (3' 말단의 하나의 뉴클레오타이드만 상이함) 부위에 특이적인 crRNAs는 OT6 부위에서 각각 3.7% 및8.1%의 빈도로 indel을 유도하였다. 이러한 결과는 Cpf1가 비정형 PAM 서열을 갖는 염색체 표적 부위에서도 유전체 절단을 수행할 수 있고, 이로 인하여 Cpf1-매개 유전체 교정의 범위를 확장시킬 수 있음을 보여준다.

실시예 10: RNP를 사용한 경우의 off-target 효과 시험

off-target 효과를 회피하거나 감소시키기 위하여, 미리 조합된 (preassembled) Cpf1 RNP를 인간 세포에 트랜스펙션시켜 시험하였다. Cas9 RNPs Cpf1 RNPs는 트랜스펙션 직후 즉시 표적 부위를 절단하고 세포에 내재하는 단백질 분해효소(proteases)와 RNA 분해효소 (ribonucleases)에 의하여 분해되어, on-target 효과 저하 없이 off-target 효과가 저하될 것으로 예상되었으며, 실제로 Cpf1 RNP는 plasmids를 사용하여 입증된 몇 몇 off-target site에서 노이즈 수준 이상으로 indel을 유도하지 않았다 (도 21f 참조).

도 21f는 Cpf1 및 crRNA를 암호화하는 플라스미드를 사용한 경우와 Cpf1 및 crRNA가 복합체를 형성하는 RNP를 사용한 경우의 Cpf1 off-target 효과를 보여주는 그래프로서, specificity ratio는 Cpf1 RNP를 사용하여 얻어진 off-target indel(OTI) frequency에 대한 on-target indel frequency의 비율과 플라스미드를 사용한 경우의 비율 간 fold difference (RNA/plasmid)를 나타내며, 이들 결과는 플라스미드를 사용한 경우와 비교하여 RNP를 사용한 경우의 off-target 효과가 현저히 감소함을 보여준다. 도 21f의 결과를 기초로, AsCpf1 RNP를 사용한 경우와 LbCpf1 RNP를 사용한 경우 모두에 있어서 OTI가 0.0004보다 낮게 (<0.0004) 나타났다. 이러한 결과는 이들 RNP가 off-target effect를 거의 나타내지 않음을 보여준다.

실시예 11: 3' 말단에서 절단된 crRNA를 이용한 off-target 효과 측정

3' 말단에서 절단된(truncated) 절단 crRNA (tru-crRNAs)의 off-target 효과를 시험하였다.

3' 말단에서 절단된 절단 crRNA (tru-crRNAs)는 crRNA의 타겟팅 서열을 3' 말단부터 절단하여, 타겟팅 서열 길이가 22nt, 20nt, 18nt, 및 16nt가 되도록 각각 설계하였다. 구체적으로, 상기 3' 말단에서 절단된 절단 crRNA (tru-crRNAs)는 서열번호 29(TTTCCTGATGGTCCATGTCTGTTACTC)의 DNTM1-3 target site 중에서 PAM 서열(5'-TTTC-3')의 3' 방향으로 인접하여 위치하는 연속하는 22nt, 20nt, 18nt, 및 16nt 서열과 혼성화 가능하도록 설계하였다 (즉, crRNA의 타겟팅 서열이 서열번호 29의 서열 중 PAM 서열(5'-TTTC-3')의 3' 방향으로 인접하여 위치하는 연속하는 22nt, 20nt, 18nt, 및 16nt 서열에서 T를 U로 치환한 서열을 가짐). 각각의 tru-crRNA 및 전장 crRNA (full-length crRNA; 타겟팅 서열로서 서열번호 29에서 PAM 서열을 제외한 23nt 서열에서 T를 U로 치환한 서열을 가짐)를 각각 lipofectamine 2000를 사용하여 AsCpf1 발현 플라스미드와 함께 HEK293T 세포에 트랜스펙션시켰다. 72시간 후, 유전체 DNA를 분리하고, targeted deep sequencing를 통하여 on-target 및 off-target site에서의 indel frequencies 를 측정하였다.

상기 얻어진 결과를 도 25에 나타내었다. 도 25에 나타난 바와 같이, tru-crRNAs를 사용한 경우, off-target 효과는 약 1/10 정도까지 감소함을 확인할 수 있다. 이러한 off-target 효과의 감소는 off-target가 PAM-distal 3' 말단에 미스매치 뉴클레오타이드를 포함하는 경우에 보다 뚜렷하게 나타날 것으로 기대된다.

실시예 12: Cpf1에 의한 절단 말단 확인

실시에 4에 기재된 Digenome-seq 분석법을 사용하는 경우 Integrative Genomics Viewer (IGV)를 사용하여 절단 부위에서의 overhang 패턴을 용이하게 나타낼 수 있다는 이점이 있다.

도 26a는 DNTM1-3 target site (서열번호 19) 및 DNTM1-4 target site(서열번호 20)에서의 overhang pattern을 보여주는 대표적인 Integrative Genomics Viewer(IGV; 'http://software.broadinstitute.org/software/igv/' 참조) 이미지를 보여준다. LbCpf1는 대체적으로 절단 부위의 5' 말단에 3-nt overhang을 생성하지만 2-nt overhang은 생성하지 않은 반면, AsCpf1는 절단 부위의 5' 말단에 2- nt 내지 4-nt overhang을 생성하였다. Cas9는 blunt end 또는 절단부위의 5' 말단에 1-nt overhang을 생성하였다.

상기와 같이 DNTM1-3 target site (서열번호 19) 및 DNTM1-4 target site (서열번호 20)에 대하여 생성된 상이한 overhang pattern이 상이한 변이 특성을 유발하는지 여부를 시험하였다.

도 26b는 염기쌍 내에서 deletion/insertion 크기에 의하여 bin된 변이 서열 리드의 개수를 보여주는 그래프이다. 도 26c는 Cpf1 또는 Cas9의 target site에서 유도되는 변이 서열을 보여주는 것으로, 각각의 뉴클레아제에 대하여, 첫 번째 줄의 서열은 원래의 target 서열이고, 두 번째 줄부터는 변이가 도입된 서열을 보여주며, 첫 번째 줄 서열에서 PAM 서열 (Cpf1: TTTC)은 굵은 글씨로 표시하고, crRNA/sgRNA이 혼성화하는 표적 서열은 밑줄로 표시하였으며, 두 번째 줄부터의 서열에서 밑줄로 표시된 서열은 Microhomology sequences를 의미하고, 우측에 기재된 숫자는 결실 ('-'로 표시)되거나 삽입(소문자로 표시)된 뉴클레오타이드의 개수를 의미한다.

도 27a 및 27b은 LbCpf1, AsCpf1, 및 SpCas9에 의하여 유도되는 변이 특성을 보여주는 것으로,

27a는 염기쌍 내에서 deletion/insertion (Indel) size에 의하여 bin된 변이 서열 리드의 개수를 보여주는 그래프이고, 변이 특성은 LbCpf1, AsCpf1, 또는SpCas9플라스이드로 트랜스펙션된 HEK293T 세포로부터 targeted deep sequencing 방식으로 측정하였으며,

27b는 EMX1-2 target site (CTGATGGTCCATGTCTGTTACTC; 서열번호 42)에서 유도되는 변이 서열을 보여주는 것으로, 각각의 뉴클레아제에 대하여, 첫 번째 줄의 서열은 원래의 target 부위 서열이고, 두 번째 줄부터는 변이가 도입된 서열을 보여주며, 첫 번째 줄 서열에서 PAM 서열 (Cpf1: TTTG)은 굵은 글씨로 표시하고, crRNA/sgRNA이 혼성화하는 표적 서열은 밑줄로 표시하였으며, 두 번째 줄부터의 서열에서 밑줄로 표시된 서열은 Microhomology sequences를 의미하고, 우측에 기재된 숫자는 결실 ('-'로 표시)되거나 삽입(소문자로 표시)된 뉴클레오타이드의 개수를 의미한다.

LbCpf1, AsCpf1, 및 Cas9는, 결실 junction에서 약간의 미세상동성 (microhomoloy)이 발견되기는 하지만, 비교적 상당히 다른 변이 서열을 유도한다. Cpf1 뉴클레아제의 경우 뉴클레오타이드 하나의 삽입 또는 결실은 드물지만, Cas9의 경우에는 우세한 변이 패턴일 수 있다. 이러한 결과는 Cpf1와 Cas9 간 절단 부위 및 overhang pattern에서의 차이가 상이한 변이 특성을 유발함을 보여준다.

도 26d 및 도 26e는 LbCpf1, AsCpf1 및 SpCas9에 의하여 유도되는 변이 특성을 보여주는 것으로, 26d는 변이 서열이 결실 vs. 삽입의 두 가지 fraction으로 나뉘어지는 경우의 각각의 비율을 보여주는 그래프이고, 26e는 변이 서열이 in-frame indels vs. out-of-frame indels의 두 가지 fraction으로 나뉘어지는 경우의 각각의 비율을 보여주는 그래프이다(Data represent mean ± s.e.m. (n = 10 target sites)).

도 26d에 나타난 바와 같이, Cas9와 달리, Cpf1는 삽입 변이를 거의 유도하지 않는다. 또한, 도 26e에 보여지는 바와 같이, 3-nt, 6-nt, 9-nt 등의 결실에 의하여 유발되는 in-frame mutation 비율은 Cas9보다 Cpf1를 사용하는 경우에 높게 나타났다. 이러한 결과는, Cas9와 비교하여, Cpf1를 사용하는 경우에 표적 부위를 microhomology 기반으로 선택하는 것이 단백질 코딩 유전자를 불활성화시키기 위하여 보다 중요함을 제안한다.

실시예 13: Cpf1 과 crRNA 의 RNP를 microinjection 방식으로 mouse embryo 에 전달하여 표적 위치에 특이적 염기서열 변이를 일으키는 유전체 교정 기법

현재까지 Cpf1 RNP 를 사용하여 mouse embryo 에 microinjection 하는 방법으로 mutant mouse 를 만드는 것이 보고된 바는 없다.

재조합 Acidaminococcus sp . BV3L6 Cpf1 (AsCpf1) 단백질을 E.coli 에서 발현 및 정제하고 (실시예 1 참조), 마우스 유전자 (FoxN1)을 표적하는 crRNA (서열번호 1 내지 3 참조)를 제작하여 이를 조합하여 RNP를 만들었다 (AsCpf1 protein 200 ng/ul, crRNA 100 ng/ul). crRNA는 서열번호 2 및 서열번호 3의 표적 서열을 기반으로, 표 4에 설명된 방법으로 제작하였다.

이와 같이 제조된 RNP를 microinjection 방식으로 mouse embryo 에 전달하고 (도 1 참조), injection 한 embryo 들을 blastocyst까지 배양하여 gDNA를 정제하여 염기서열 변이를 확인하였다. T7E1 assay를 진행한 결과를 도 2에 나타내었다. 도 2에서 보여지는 바와 같이, 12 개 중 10개의 blastocyst (83%) 에서 염기서열 변이가 나타났다 (별표로 표시함).

유전체 변이가 crRNA 가 표적하는 서열에 특이적으로 유도되었음을 확인하기 위해 targeted deep sequencing을 진행하여 그 결과를 도 3에 나타내었다. 이 결과는 AsCpf1 RNP 를 microinjection 하는 방법이 동물에서 효율적인 유전체 교정을 할 수 있는 방법임을 보여준다.

또한, Cpf1 RNP 를 사용하여 embryo 에서 유전체 교정을 한 생쥐가 태어나서 이 개체에서 염기서열 변이가 특이적으로 일어났는지 그리고 비특이적 염기서열 변이가 없는지 확인하였다. 이 생쥐의 꼬리에서 gDNA를 정제하여 T7E1 실험과 targeted deep sequencing 방법으로 특이적 위치에 유전체 변이가 있음을 확인하였고 (도 4 및 도 5 참조), whole genome sequencing (WGS) 방법으로 비특이적 유전체 변이가 있는지 분석하였다 (도 6 참조). WGS 데이터를 reference genome 과 비교 분석한 결과 비특이적 염기서열 변이는 일어나지 않았고 오직 특이적 서열에만 유전체 교정이 있었음을 확인하였다 (도 6 참조).

실시예 14: Electroporation 방법을 통해 Cpf1 과 Cas9 RNP 를 mouse embryo 에 전달하는 유전체 교정 기법

Microinjection 을 통한 Cpf1 RNP delivery 는 mouse embryo 를 하나씩 처리해야 하기 때문에 embryo 가 1 cell stage 에 머물러 있는 몇 시간 동안 실험을 마쳐야 하고 따라서 한 번에 실험할 수 있는 개수가 실험자와 injection 장비의 수에 의해 제한되는 단점이 있다.

이를 극복하기 위해 우리는 한 번에 여러 embryo 를 처리할 수 있는 electroporation 방법을 Streptococcus pyogenes Cas9 (SpCas9)과 AsCpf1 재조합 단백질에 적용하여 mouse embryo 에서 유전체 교정을 하는 방법을 규명하였다 (도 7 참조). 본 실시예에서는, 재조합 AsCpf1 또는 SpCas9 단백질 (100 ng/ul)과 sgRNA (500 ng/ul; 서열번호 6의 표적서열(VEGFA)을 기초로 표 5에 기재된 설명을 참조하여 제작) 또는 crRNA (250 ng/ul; 서열번호 2 또는 3의 표적 서열을 기초로 표 4의 설명을 참조하여 제작)을 Opti-Mem (Thermo) 배지에 희석하여 RNP 를 준비하였다. 여기에mouse embryo 를 50개 넣고 NEPA 21(NEPA GENE Co. Ltd) electroporator 장비를 사용하여 electroporation 을 진행했다.

Electroporation 은 poring pulse (225 V, 1.5 ms, interval 50 ms, 4 회, decay rate 10%, polarity +)과 transfer pulse (20V, 50 ms, interval 50 ms, 5 회, decay rate 40%, polarity +/-) 방법을 사용했다. 먼저 SpCas9을 시도했는데, SpCas9 과 VEGFA를 표적으로 하는 sgRNA로 RNP 를 만들고 이를 mouse embryo 에 electroporation 했다. 이 embryo 를 blastocyst까지 배양하고 gDNA를 정제하고 T7E1 방법과 targeted deep sequencing방법으로 염기서열 변이를 분석하였다 (도 8 및 도 9 참조).

도 8 및 도 9에 나타난 바와 같이, Blastocyst 분석 결과 electroporation 방식으로 SpCas9을 전달하여 효율적인 유전체 교정이 일어났음을 확인할 수 있었다 (15 개 중 12 개에 변이 확인 (8, 13 및 15 컬럼 제외하고 12개 컬럼에서 변이가 관찰됨), 80% 효율).

같은 방법으로 FoxN1 exon 7을 표적으로 하는 AsCpf1 RNP 를 mouse embryo 에 electroporation 으로 전달하였을 때 blastocycst 분석을 통해 효율적인 유전체 교정 (25 개 중 16개, 64%)이 됨을 targeted deep sequencing 으로 확인하였다 (도 10 참조).

실시예 15: Polyethylene glycol (PEG)를 이용하여 Cpf1 RNP 를 식물에 전달하여 특이적 염기서열 변이를 일으키는 유전체 교정 기법

현재까지 식물 유전체 교정을 위해서 Cpf1 RNP을 사용하는 방법은 보고된 바가 없다. 본 실시예에서는 재조합 AsCpf1 과 Lachnospiraceae bacterium ND2006 Cpf1 (LbCpf1)을 사용하는 식물 유전체 교정하는 방법을 규명하고 이 방법을 적용하여 콩 (Glycine Max) 의 FAD2 상동유전자들이 녹아웃된 식물을 제조하여 활용하는 방법을 제시한다. 이를 위해 콩의 FAD2 상동 유전자 (Glyma10g42470 과 Glyma20g24530)을 동시에 특이적으로 인식하는 AsCpf1 과 LbCpf1 의 표적 염기서열을 확보하였다. 이와 같이 확보된 표적 서열을 아래의 표 34에 나타내었다:

PAM and Target sequence 1 for FAD2 homologous genes Glyma10g42470 and Glyma20g24530	TTTCTACATTGCCACCACCTACTTCC(TTTC-서열번호 7)
PAM and Target sequence 2 for FAD2 homologous genes Glyma10g42470 and Glyma20g24530	TTTCCCTCATTGCATGGCCAATCTAT(TTTC-서열번호 8)
PAM and Target sequence 3 (LbCpf1) for FAD2 homologous genes Glyma10g42470 and Glyma20g24530	TTTAGTCCCTTATTTCTCATGGAAAA(TTTA-서열번호 9)
PAM and Target sequence 4 for FAD2 homologous genes Glyma10g42470 and Glyma20g24530	TTTCTCATGGAAAATAAGCCATCGCC(TTTC-서열번호 10)
PAM and Target sequence 5 for FAD2 homologous genes Glyma10g42470 and Glyma20g24530	TTTGTCCCAAAACCAAAATCCAAAGT(TTTG-서열번호 11)
PAM and Target sequence 6 for FAD2 homologous genes Glyma10g42470 and Glyma20g24530	TTTGGCTGCTATGTGTTTATGGGGTG(TTTG-서열번호 12)
PAM and Target sequence 7 for FAD2 homologous genes Glyma10g42470 and Glyma20g24530	TTTGGCAACTATGGACAGAGATTATG(TTTG-서열번호 13)
PAM and Target sequence 8 for FAD2 homologous genes Glyma10g42470 and Glyma20g24530	TTTGATGACACACCATTTTACAAGGC(TTTG-서열번호 14)
PAM and Target sequence 9 (AsCpf1) for FAD2 homologous genes Glyma10g42470 and Glyma20g24530	TTTACAAGGCACTGTGGAGAGAAGC(TTTA-서열번호 15)

(PAM 서열을 굵은 글씨로 표시함)

상기 확보된 표적 서열을 기초로 표 4에서 설명된 방법으로 crRNA를 제작하였다.

40% polyethylene glycol (PEG) 용액 (PEG 4000, 0.2 M mannitol and 0.1 M CaCl₂) 300 ul을 이용하여 동량의 MMG(0.4 M mannitol, 15 mM MgCl₂) 용액에 푼 식물 원형질체 (2x10⁵ protoplasts(콩))에 미리 섞은 재조합 AsCpf1(또 LbCpf1) 단백질(40 ug/2x10⁵ protoplasts)과 crRNA (80 ug/2x10⁵ protoplasts)을 혼합하여 식물 세포 내로RNP를 전달하였다 (도 11 참조).

전달된 식물 원형질체는 W5 (2 mM MES [pH 5.7], 154 mM NaCl, 125 mM CaCl₂, 5 mM KCl) 용액에 24시간 배양 후 gDNA를 분리하여 타겟 유전자로부터 유전자 교정이 발생했는지 확인하였다. 이 방법을 적용하여 두 상동 FAD2 유전자가 녹아웃된 식물 세포를 제작할 수 있음을 targeted deep sequencing 방법으로 분석하여 효율적인 유전체 교정을 보였다 (도 12 참조). 염기서열 분석을 통해 염기서열 변이가 Cpf1 에서 타겟 유전자가 잘릴 것으로 예상되는 표적 위치에 발생했다는 것도 확인하였다. (도 13 참조).

실시예 16: Split- Cpf1를 이용한 유전체 교정

16.1. Split- Cpf1의 제작

Cpf1 단백질은 기존에 사용되고 있는 인공 뉴클레아제들보다 표적 특이적으로 작동하는 성향이 강해 진핵세포 및 생물체 내 유전자 변형을 설계하는 데 있어 주목받고 있는 차세대 유전자 가위이다. 이렇게 유용한 도구임에도 불구하고, Cpf1 단백질을 코딩하고 있는 유전자 사이즈가 크기 때문에 바이러스 벡터를 이용해 Cpf1 단백질을 세포 내로 전달하는 일은 상당히 효율이 떨어지는 문제가 있고, Cpf1 기술을 적용하는 데 걸림돌로 작용하고 있다. 바이러스 벡터의 경우 벡터의 패키징 한계를 가지고 있어서, 패키징 한계를 넘는 유전자가 코딩된 경우 바이러스 생산 효율 및 세포 내 전달 효율이 떨어지는 현상이 보편적으로 잘 알려져 있다.

이러한 문제를 해결하기 위해서, 본 실시예에서는 Split-Cpf1 system을 제작하였다. 야생형 (Wild type, WT) AsCpf1의 단백질 (서열번호 43)은 1,307개의 아미노산으로 구성되어 있다 (도 29a 참조). AsCpf1의 단백질 발현과 세포 내 핵 전달에 필요한 프로모터 (CMV 프로모터; 서열번호 64) 서열, 핵 위치 신호 (nuclear localization signal; KRPAATKKAGQAKKKK), poly A 신호 등을 모두 포함한 발현용 카세트를 바이러스 벡터로 옮기면 바이러스 패키징 한계에 해당하기 때문에 발현용 카세트의 크기를 줄이는 방법으로 AsCpf1 단백질을 두 조각으로 나누어 발현시키는 방법을 고안하고, 4종류의 Split-AsCpf1을 구상했다.

Split-1-AsCpf1은 AsCpf1(서열번호 43)의 901번째 아미노산과 902번째 아미노산 사이, Split-2-AsCpf1은 AsCpf1의 886번째 아미노산과 887번째 아미노산 사이, Split-3-AsCpf1은 AsCpf1의 399번째 아미노산과 400번째 아미노산 사이, Split-4-AsCpf1은 AsCpf1의 526번째 아미노산과 527번째 아미노산 사이를 경계로 WT AsCpf1을 분리시켜 각각 두 조각으로 나누었다 (도 29a 참조).

상기 얻어진 하프 도메인을 아래의 표 35에 정리하였다:

	Domain 1	Domain 2
Split-1-AsCpf1	(서열번호 43의 1-901 a.a.) MTQFEGFTNL YQVSKTLRFE LIPQGKTLKH IQEQGFIEED KARNDHYKEL KPIIDRIYKT YADQCLQLVQ LDWENLSAAI DSYRKEKTEE TRNALIEEQA TYRNAIHDYF IGRTDNLTDA INKRHAEIYK GLFKAELFNG KVLKQLGTVT TTEHENALLR SFDKFTTYFS GFYENRKNVF SAEDISTAIP HRIVQDNFPK FKENCHIFTR LITAVPSLRE HFENVKKAIG IFVSTSIEEV FSFPFYNQLL TQTQIDLYNQ LLGGISREAG TEKIKGLNEV LNLAIQKNDE TAHIIASLPH RFIPLFKQIL SDRNTLSFIL EEFKSDEEVI QSFCKYKTLL RNENVLETAE ALFNELNSID LTHIFISHKK LETISSALCD HWDTLRNALY ERRISELTGK ITKSAKEKVQ RSLKHEDINL QEIISAAGKE LSEAFKQKTS EILSHAHAAL DQPLPTTLKK QEEKEILKSQ LDSLLGLYHL LDWFAVDESN EVDPEFSARL TGIKLEMEPS LSFYNKARNY ATKKPYSVEK FKLNFQMPTL ASGWDVNKEK NNGAILFVKN GLYYLGIMPK QKGRYKALSF EPTEKTSEGF DKMYYDYFPD AAKMIPKCST QLKAVTAHFQ THTTPILLSN NFIEPLEITK EIYDLNNPEK EPKKFQTAYA KKTGDQKGYR EALCKWIDFT RDFLSKYTKT TSIDLSSLRP SSQYKDLGEY YAELNPLLYH ISFQRIAEKE IMDAVETGKL YLFQIYNKDF AKGHHGKPNL HTLYWTGLFS PENLAKTSIK LNGQAELFYR PKSRMKRMAH RLGEKMLNKK LKDQKTPIPD TLYQELYDYV NHRLSHDLSD EARALLPNVI TKEVSHEIIK DRRFTSDKFF FHVPITLNYQ AANSPSKFNQ RVNAYLKEHP E	(서열번호 43의 902-1307 a.a.) TPIIGIDRGE RNLIYITVID STGKILEQRS LNTIQQFDYQ KKLDNREKER VAARQAWSVV GTIKDLKQGY LSQVIHEIVD LMIHYQAVVV LENLNFGFKS KRTGIAEKAV YQQFEKMLID KLNCLVLKDY PAEKVGGVLN PYQLTDQFTS FAKMGTQSGF LFYVPAPYTS KIDPLTGFVD PFVWKTIKNH ESRKHFLEGF DFLHYDVKTG DFILHFKMNR NLSFQRGLPG FMPAWDIVFE KNETQFDAKG TPFIAGKRIV PVIENHRFTG RYRDLYPANE LIALLEEKGI VFRDGSNILP KLLENDDSHA IDTMVALIRS VLQMRNSNAA TGEDYINSPV RDLNGVCFDS RFQNPEWPMD ADANGAYHIA LKGQLLLNHL KESKDLKLQN GISNQDWLAY IQELRN
Split-1-AsCpf1	(코딩 DNA 서열) 서열번호 83	(코딩 DNA 서열) 서열번호 84
Split-2-AsCpf1	(서열번호 43의 1-886 a.a.) MTQFEGFTNL YQVSKTLRFE LIPQGKTLKH IQEQGFIEED KARNDHYKEL KPIIDRIYKT YADQCLQLVQ LDWENLSAAI DSYRKEKTEE TRNALIEEQA TYRNAIHDYF IGRTDNLTDA INKRHAEIYK GLFKAELFNG KVLKQLGTVT TTEHENALLR SFDKFTTYFS GFYENRKNVF SAEDISTAIP HRIVQDNFPK FKENCHIFTR LITAVPSLRE HFENVKKAIG IFVSTSIEEV FSFPFYNQLL TQTQIDLYNQ LLGGISREAG TEKIKGLNEV LNLAIQKNDE TAHIIASLPH RFIPLFKQIL SDRNTLSFIL EEFKSDEEVI QSFCKYKTLL RNENVLETAE ALFNELNSID LTHIFISHKK LETISSALCD HWDTLRNALY ERRISELTGK ITKSAKEKVQ RSLKHEDINL QEIISAAGKE LSEAFKQKTS EILSHAHAAL DQPLPTTLKK QEEKEILKSQ LDSLLGLYHL LDWFAVDESN EVDPEFSARL TGIKLEMEPS LSFYNKARNY ATKKPYSVEK FKLNFQMPTL ASGWDVNKEK NNGAILFVKN GLYYLGIMPK QKGRYKALSF EPTEKTSEGF DKMYYDYFPD AAKMIPKCST QLKAVTAHFQ THTTPILLSN NFIEPLEITK EIYDLNNPEK EPKKFQTAYA KKTGDQKGYR EALCKWIDFT RDFLSKYTKT TSIDLSSLRP SSQYKDLGEY YAELNPLLYH ISFQRIAEKE IMDAVETGKL YLFQIYNKDF AKGHHGKPNL HTLYWTGLFS PENLAKTSIK LNGQAELFYR PKSRMKRMAH RLGEKMLNKK LKDQKTPIPD TLYQELYDYV NHRLSHDLSD EARALLPNVI TKEVSHEIIK DRRFTSDKFF FHVPITLNYQ AANSPS	(서열번호 43의 887-1307 a.a.) KFNQRVNAYL KEHPETPIIG IDRGERNLIY ITVIDSTGKI LEQRSLNTIQ QFDYQKKLDN REKERVAARQ AWSVVGTIKD LKQGYLSQVI HEIVDLMIHY QAVVVLENLN FGFKSKRTGI AEKAVYQQFE KMLIDKLNCL VLKDYPAEKV GGVLNPYQLT DQFTSFAKMG TQSGFLFYVP APYTSKIDPL TGFVDPFVWK TIKNHESRKH FLEGFDFLHY DVKTGDFILH FKMNRNLSFQ RGLPGFMPAW DIVFEKNETQ FDAKGTPFIA GKRIVPVIEN HRFTGRYRDL YPANELIALL EEKGIVFRDG SNILPKLLEN DDSHAIDTMV ALIRSVLQMR NSNAATGEDY INSPVRDLNG VCFDSRFQNP EWPMDADANG AYHIALKGQL LLNHLKESKD LKLQNGISNQ DWLAYIQELR N
Split-2-AsCpf1	(코딩 DNA 서열) 서열번호 85	(코딩 DNA 서열) 서열번호 86
Split-3-AsCpf1	(서열번호 43의 1-399 a.a.) MTQFEGFTNL YQVSKTLRFE LIPQGKTLKH IQEQGFIEED KARNDHYKEL KPIIDRIYKT YADQCLQLVQ LDWENLSAAI DSYRKEKTEE TRNALIEEQA TYRNAIHDYF IGRTDNLTDA INKRHAEIYK GLFKAELFNG KVLKQLGTVT TTEHENALLR SFDKFTTYFS GFYENRKNVF SAEDISTAIP HRIVQDNFPK FKENCHIFTR LITAVPSLRE HFENVKKAIG IFVSTSIEEV FSFPFYNQLL TQTQIDLYNQ LLGGISREAG TEKIKGLNEV LNLAIQKNDE TAHIIASLPH RFIPLFKQIL SDRNTLSFIL EEFKSDEEVI QSFCKYKTLL RNENVLETAE ALFNELNSID LTHIFISHKK LETISSALCD HWDTLRNALY ERRISELTG	(서열번호 43의 400-1307 a.a.) KITKSAKEKV QRSLKHEDIN LQEIISAAGK ELSEAFKQKT SEILSHAHAA LDQPLPTTLK KQEEKEILKS QLDSLLGLYH LLDWFAVDES NEVDPEFSAR LTGIKLEMEP SLSFYNKARN YATKKPYSVE KFKLNFQMPT LASGWDVNKE KNNGAILFVK NGLYYLGIMP KQKGRYKALS FEPTEKTSEG FDKMYYDYFP DAAKMIPKCS TQLKAVTAHF QTHTTPILLS NNFIEPLEIT KEIYDLNNPE KEPKKFQTAY AKKTGDQKGY REALCKWIDF TRDFLSKYTK TTSIDLSSLR PSSQYKDLGE YYAELNPLLY HISFQRIAEK EIMDAVETGK LYLFQIYNKD FAKGHHGKPN LHTLYWTGLF SPENLAKTSI KLNGQAELFY RPKSRMKRMA HRLGEKMLNK KLKDQKTPIP DTLYQELYDY VNHRLSHDLS DEARALLPNV ITKEVSHEII KDRRFTSDKF FFHVPITLNY QAANSPSKFN QRVNAYLKEH PETPIIGIDR GERNLIYITV IDSTGKILEQ RSLNTIQQFD YQKKLDNREK ERVAARQAWS VVGTIKDLKQ GYLSQVIHEI VDLMIHYQAV VVLENLNFGF KSKRTGIAEK AVYQQFEKML IDKLNCLVLK DYPAEKVGGV LNPYQLTDQF TSFAKMGTQS GFLFYVPAPY TSKIDPLTGF VDPFVWKTIK NHESRKHFLE GFDFLHYDVK TGDFILHFKM NRNLSFQRGL PGFMPAWDIV FEKNETQFDA KGTPFIAGKR IVPVIENHRF TGRYRDLYPA NELIALLEEK GIVFRDGSNI LPKLLENDDS HAIDTMVALI RSVLQMRNSN AATGEDYINS PVRDLNGVCF DSRFQNPEWP MDADANGAYH IALKGQLLLN HLKESKDLKL QNGISNQDWL AYIQELRN
Split-3-AsCpf1	(코딩 DNA 서열) 서열번호 87	(코딩 DNA 서열) 서열번호 88
Split-4-AsCpf1	(서열번호 43의 1-526 a.a.) MTQFEGFTNL YQVSKTLRFE LIPQGKTLKH IQEQGFIEED KARNDHYKEL KPIIDRIYKT YADQCLQLVQ LDWENLSAAI DSYRKEKTEE TRNALIEEQA TYRNAIHDYF IGRTDNLTDA INKRHAEIYK GLFKAELFNG KVLKQLGTVT TTEHENALLR SFDKFTTYFS GFYENRKNVF SAEDISTAIP HRIVQDNFPK FKENCHIFTR LITAVPSLRE HFENVKKAIG IFVSTSIEEV FSFPFYNQLL TQTQIDLYNQ LLGGISREAG TEKIKGLNEV LNLAIQKNDE TAHIIASLPH RFIPLFKQIL SDRNTLSFIL EEFKSDEEVI QSFCKYKTLL RNENVLETAE ALFNELNSID LTHIFISHKK LETISSALCD HWDTLRNALY ERRISELTGK ITKSAKEKVQ RSLKHEDINL QEIISAAGKE LSEAFKQKTS EILSHAHAAL DQPLPTTLKK QEEKEILKSQ LDSLLGLYHL LDWFAVDESN EVDPEFSARL TGIKLEMEPS LSFYNKARNY ATKKPY	(서열번호 43의 527-1307 a.a.) SVEKFKLNFQ MPTLASGWDV NKEKNNGAIL FVKNGLYYLG IMPKQKGRYK ALSFEPTEKT SEGFDKMYYD YFPDAAKMIP KCSTQLKAVT AHFQTHTTPI LLSNNFIEPL EITKEIYDLN NPEKEPKKFQ TAYAKKTGDQ KGYREALCKW IDFTRDFLSK YTKTTSIDLS SLRPSSQYKD LGEYYAELNP LLYHISFQRI AEKEIMDAVE TGKLYLFQIY NKDFAKGHHG KPNLHTLYWT GLFSPENLAK TSIKLNGQAE LFYRPKSRMK RMAHRLGEKM LNKKLKDQKT PIPDTLYQEL YDYVNHRLSH DLSDEARALL PNVITKEVSH EIIKDRRFTS DKFFFHVPIT LNYQAANSPS KFNQRVNAYL KEHPETPIIG IDRGERNLIY ITVIDSTGKI LEQRSLNTIQ QFDYQKKLDN REKERVAARQ AWSVVGTIKD LKQGYLSQVI HEIVDLMIHY QAVVVLENLN FGFKSKRTGI AEKAVYQQFE KMLIDKLNCL VLKDYPAEKV GGVLNPYQLT DQFTSFAKMG TQSGFLFYVP APYTSKIDPL TGFVDPFVWK TIKNHESRKH FLEGFDFLHY DVKTGDFILH FKMNRNLSFQ RGLPGFMPAW DIVFEKNETQ FDAKGTPFIA GKRIVPVIEN HRFTGRYRDL YPANELIALL EEKGIVFRDG SNILPKLLEN DDSHAIDTMV ALIRSVLQMR NSNAATGEDY INSPVRDLNG VCFDSRFQNP EWPMDADANG AYHIALKGQL LLNHLKESKD LKLQNGISNQ DWLAYIQELR N
Split-4-AsCpf1	(코딩 DNA 서열) 서열번호 89	(코딩 DNA 서열) 서열번호 90

WT AsCpf1(서열번호 43)의 아미노산을 두 개의 하프 도메인으로 나눴고, 각각의 하프 도메인은 CMV promoter에 의해 독립적으로 발현할 수 있는 재조합 벡터로 제작하였다. 재조합 벡터의 경우 세포 내 핵으로 전달하는 데 필요한 핵 위치 신호를 각각의 하프 도메인에 추가하였고, CMV promoter 서열 (서열번호 64)과 poly A 신호를 포함하였다 (도 29b 참조; original backbone vector: pcDNA3.1 (Invitrogen), HA: YPYDVPDYA, SV40 NLS: PKKKRKV, nucleoplasmin NLS: KRPAATKKAGQAKKKK, 3xHA: YPYDVPDYAYPYDVPDYAYPYDVPDYA).

16.2. Split- Cpf1를 이용한 유전자 교정

Split-Cpf1의 각 하프 도메인을 발현시키는 재조합 벡터들과 DNMT1-3 표적(CTGATGGTCCATGTCTGTTACTC: 서열번호 19)에 작동하는 crRNA(표 4의 설명 참조하여 제작)를 발현하는 플라스미드를 리포펙타민(lipofectamin)를 이용해 HEK293T17 세포 (ATCC) 내에 전달하였다.

Split-Cpf1의 각 하프 도메인을 발현시키는 재조합 벡터는 다음과 같이 제작하였다 (도 29b 참조): pAD1 (Split-Cpf1 하프도메인1 서열 포함)은 pcDNA3.1 벡터(Invitrogen)에 각 split site에 대한 하프도메인 1을 Gibson 클로닝 방식을 통하여 제작하였으며, 각 하프도메인은 pY010 (Addgene)을 template로 해서 PCR해서 준비한 것이다. Gibson cloning진행 시, 벡터를 절단하기 위하여 제한효소 Hind3 및 EcoR1를 사용하였다. pAD2는 Split-Cpf1 하프도메인 2 서열을 포함하는 것으로, pAD1 제조 방법을 참조하여 제작하였다.

하기의 유전자 교정 시험은 모두 HEK293T17 세포(ATCC)에서 진행하였다.

이후 HEK293T17 세포로부터 genomic DNA를 추출하였고, DNMT1-3 표적 부위를 PCR로 증폭 후 (프라이머 서열: DNMT1-3-1F: ccagaagtcccgtgcaaatc, DNMT1-3-1R: ATCTTTCTCAAGGGGCTGCT, DNMT1-3-2F: cagtgcatgttggggattcc, PCR 조건: 1st PCR Tm: 60℃, 2nd PCR Tm: 60℃), T7E1 assay 방법으로 유전체 교정이 일어났는지 확인하였다.

상기 얻어진 아가로스 겔 분석 결과를 도 30a에 나타내었다. 도 30a에 나타난 바와 같이, Split-AsCpf1의 각 하프 도메인을 개별적으로 발현시킨 경우에는 유전체 교정이 발생한 것을 확인할 수 없었지만 두 개의 하프 도메인을 같이 발현시킨 경우에 대해서는 Split-1 부터 Split-4의 4종류 모두 유전체 교정이 일어나 T7E1 assay에 의해 잘린 DNA 조각이 아가로스 겔 상 나타나는 것을 확인할 수 있었다.

유전체 교정 효율을 정량적으로 분석하기 위해 targeted deep-sequencing을 진행하여 그 결과를 도 30b 에 나타내었다. 도30b에 나타낸 바와 같이, Split-AsCpf1을 구성하는 하프 도메인들은 발현 후 융합되어 AsCpf1 단백질을 형성한 경우에 대해서 유전체 교정을 일으키는 것을 확인할 수 있었고, 유전체 교정 효율은 WT AsCpf1 단백질을 두 개의 조각으로 나눈 위치에 따라 차이가 나타나는 것을 확인할 수 있었다.

또한, 표적 위치에 따른 Split-AsCpf1에 의한 유전체 교정 효율을 측정하기 위해 DNMT1-3 표적에 더하여, CCR5-1 표적 (GTGGGCAACATGCTGGTCATCCT; 서열번호 24)과 DNMT1-4 표적(TTTCCCTTCAGCTAAAATAAAGG; 서열번호 20)을 추가해서 세포 실험을 진행하여 Targeted deep-sequencing 방식으로 유전체 교정 효율을 측정하였다. 상기 얻어진 indel frequency(%)를 도 30c에 나타내었다. 도 30c에 나타낸 바와 같이, Split-1-AsCpf1부터 Split-4-AsCpf1의 경우 세 가지 표적에 대해 모두 작동했고, Split-3-AsCpf1의 경우 WT AsCpf1과 비교했을 때도 높은 효율로 유전체를 교정할 수 있는 것을 확인하였다.

본 실시예는 Cpf1 유전자 사이즈가 커서 바이러스 생산 및 세포 내 전달 효율이 떨어지는 문제를 해결함과 동시에 기존 WT Cpf1과 비교했을 때도 높은 효율로 작동하는 Split 위치를 찾았다는 점에서 해당 기술의 유용함을 입증한다.

Split-Cpf1은 각 하프 도메인이 결합해서 표적 위치에 작동하기에 결합을 특정 신호 물질을 이용해 조절할 수 있으면 바이러스를 통해 세포 내로 전달된 유전자 가위의 작동을 신호 물질을 이용해 원하는 시기에만 작동시키는 것이 가능하다. 이러한 방법을 구현하기 위해 Split-Cpf1의 각 하프 도메인에 FRB 단백질 (서열번호 81: EMWHEGLEEA SRLYFGERNV KGMFEVLEPL HAMMERGPQT LKETSFNQAY GRDLMEAQEW CRKYMKSGNV KDLTQAWDLY YHVFRRISKQ)과 FKBP 단백질 (서열번호 82: GVQVETISPG DGRTFPKRGQ TCVVHYTGML EDGKKFDSSR DRNKPFKFML GKQEVIRGWE EGVAQMSVGQ RAKLTISPDY AYGATGHPGI IPPHATLVFD VELLKLE)을 융합시켰다 (도 31a 참조; 이하 Inducible-Split-Cpf1로 표현함). 도 31a에 나타난 pAD1 및 pAD2는 앞서 설명한 과정을 참조하여 제조하였다. FRB, FKBP에 해당하는 서열은 oligo extension과정을 통하여 준비하고, 상기 준비된 FRB, FKBP는 overlapping PCR 과정을 통해 하프도메인과 연결하였으며, 하프도메인-FRB 또는 하프도메인-FKBP PCR product를 Gibson 클로닝 과정을 통해서 상기 pAD1 및 pAD2에 클로닝하였다. Gibson 클로닝에서 벡터를 절단가히 위하여 제한효소 EcoR1 및 Hind3를 사용하였다.

FRB와 FKBP는 rapamycin이라는 물질에 강력하게 결합하는 성질을 가지고 있는 것으로 알려진 단백질로써, FRB와 FKBP는 각각 rapamycin 구조 다른 위치에 결합하기 때문에 각 단백질이 rapamycin에 결합하는 것을 서로 방해하지 않는다. 융합된 단백질은 Split-Cpf1 각 하프 도메인들이 자발적으로 결합하는 성질을 저해해 rapamycin이 없는 조건에서는 결합과 유전체 교정을 방해하지만, rapamycin이 있는 조건에서는 rapamycin을 중심으로 강력하게 결합해서 각 하프 도메인을 결집하고 결합을 유도해 유전체 교정을 촉진 시킬 것으로 예상하고 HEK293T17 세포에서 실험을 진행하였다.

DNTM1-3 표적 crRNA를 발현하는 플라스미드와 FRB 또는 FKBP가 융합된 하프 도메인을 발현하는 플라스미드 (pcDNA3.1)를 세포 내 전달하였다. 200nM 조건으로 rapamycin을 처리하고 transfection 후 72 시간 뒤 샘플을 분석하여 유전체 교정 여부를 targeted deep-sequencing 방식으로 확인하였다. 그 결과를 도 31b에 나타내었다. 도 31b에 나타낸 바와 같이, FRB 또는 FKBP 단백질이 융합된 Inducible-Split-Cpf1의 경우 Inducible-Split-1부터 Inducible-Split-4 모두 rapamycin이 있는 조건에서는 유전체 교정 작동이 저해되고, rapamycin이 있는 조건에서는 유전체 교정이 촉진되는 경향을 나타냈다. 특히, Inducible-Split-1 과 Inducible-Split-4는 rapamycin이 없는 조건에서는 Inducible-Split를 처리하지 않은 조건 수준으로 유전체 교정이 거의 일어나지 않고 rapamycin이 있는 조건에서만 높은 효율로 작동함을 확인했고, 처음에 기대했던 목적에 가장 부합되는 경우임을 확인할 수 있었다.

Inducible-Split-1과 Inducible-Split-4는 DNMT1-3 표적에 더하여, HBB-1 표적 (AGTCCTTTGGGGATCTGTCCACT; 서열번호 40), CCR5-8 표적 (GACACCGAAGCAGAGTTTTTAGG; 서열번호 49), HPRT1-1 표적 (CTGACCTGCTGGATTACATCAAA; 서열번호 27)을 추가해서 실험을 진행했고, 모든 표적에서 rapamycin을 처리한 조건에서 Inducible-Split-Cpf1에 의한 유도적 유전체 교정 효율을 targeted deep-sequencing 방식으로 분석하여 그 결과를 도 31c 내지 도 31f에 나타내었다. 도 31c 내지 도 31f에 나타난 바와 같이, 상기한 표적에 대한 Inducible-Split-Cpf1들도 유의미하게 작동함을 확인할 수 있다.

상기와 같이 찾은 Split-Cpf1 정보를 기반으로, 발현용 카세트를 AAV 바이러스 벡터에 옮기는 일을 진행하였다. 제작된 AAV 바이러스 벡터 (original backbone vector: AAV-MCS expression vector (VPK-410, Cell Biolabs, INC))는 Split-Cpf1(Split-3-AsCpf1)의 하프도메인을 발현할 수 있는 카세트와 AsCpf1의 crRNA를 발현할 수 있는 카세트를 포함하고 있는 형태지만, 야생형 AsCpf1를 두 조각으로 나눴기 때문에 전체 크기가 바이러스 패키징의 한계 사이즈로 알려진 4.7 kb보다 작은 2.1 kb (하프도메인 1)과 3.8 kb (하프도메인 2)으로 제작할 수 있었다 (도 32a 참조).

Split-Cpf1을 이용한 경우 추가적으로 시퀀스를 더 넣어도 바이러스 패키징에 문제가 없으므로, Split-Cpf1에 특정 기능을 가진 단백질 등을 결합해서 발현시키는 것도 가능할 것으로 기대된다.

제작된 AAV-Split-3-Cpf1 벡터가 작동하는지 확인하기 위해서, 우선 플라스미드 형태로 세포에 전달해 유전체 교정이 일어나는지 확인하였다. AAV-Split-3-Cpf1과 해당 벡터에 대한 대조군으로 AAV-Cpf1 벡터 (전장 AsCpf1 포함), p3-Split-3-Cpf1 벡터 (Split-3-Cpf1을 pcDNA3.1 벡터 (addgene)에 클로닝함), 및 p3-Cpf1 벡터 (전장 AsCpf1을 p3 벡터 클로닝함)를 각각 사용했을 때의 유전자 교정 효율을 T7E1 assay 방식으로 측정한 결과를 도 32b에 나타내었다. 도 32b에 나타낸 바와 같이, p3 벡터에서 실험한 경향과 유사하게 AAV-Split-Cpf1 벡터가 대조군들의 유전체 교정 효율에 근접하게 작동함을 확인할 수 있었다. 제작된 바이러스 벡터를 이용하면 실제로 AAV 제작과 이를 이용한 in vivo genome editing 실험에 사용할 수 있을 것으로 기대된다.

실시예 17: Cpf1을 이용한 Hif1-alpha 단백질 knock-out 시험

Hif1alpha 단백질은 세포내 환경이 hypoxia 상태가 될 때 vascular endothelial growth factor-A (VEGF-A)를 발현하는 유전자에 특이적으로 결합하여 유전자의 전사를 활성시키는 전사인자이다. 당뇨성 망막병증이나 노인성 황반변성 등과 같은 안구질환에는 세포의 비정상적인 hypoxia 상태로 인해 VEGFA의 비정상적인 발현이 유도된다. VEGFA를 활성화시키는 Hif1a 전사인자를 LbCpf1을 통해 넉아웃함으로써 안구 질환 치료 개발로 가능성이 있다. 본 실시예에서는 아데노부속 바이러스를 이용하여 LbCpf1 및 Hif1a 유전자를 타겟팅하는 CrRNA의 효과적인 안구 내 전달을 입증함으로써, 안구 질환 치료 가능성을 보였다.

Hypoxia-inducible factor 1(Hif1)-alpha 단백질을 인코딩하는 Hif1a 유전자의 대립 유전자 넉아웃을 위해 사용할 수 있는 표적 서열로서 Hif1a 엑손에 존재하는 5'-RGEN target-3' 서열을 표적으로 하는 crRNA (LbCpf1)를 제작하였다.

Hif1a 유전자 넉아웃을 위해 사용 가능한 Cpf1 sgRNA(single guide RNA; crRNA)의 표적 서열

sgRNA ID	Hif1a gene	PAM	표적서열 (5' to 3')
LB-TS1	Hif1a-Exon2-TS2	TTTT	TATGAGCTTGCTCATCAGTTGCC(서열번호 69)
LB-TS2	Hif1a-Exon4-TS1	TTTG	AACTAACTGGACACAGTGTGTTT(서열번호 70)
LB-TS3	Hif1a-Exon4-TS2	TTTG	ATTTTACTCATCCATGTGACCAT(서열번호 71)
LB-TS4	Hif1a-Exon4-TS3	TTTT	ACTCATCCATGTGACCATGAGGA(서열번호 72)
LB-TS5	Hif1a-Exon8-TS1	TTTA	CTAAAGGACAAGTCACCACAGGA(서열번호 73)
LB-TS6	Hif1a-Exon8-TS2	TTTG	GCAAGCATCCTGTACTGTCCTGT(서열번호 74)
LB-TS7	Hif1a-Exon8-TS3	TTTT	GGCAAGCATCCTGTACTGTCCTG(서열번호 75)
LB-TS8	Hif1a-Exon8-TS4	TTTC	AACCCAGACATATCCACCTCTTT(서열번호 76)
LB-TS9	Hif1a-Exon9-TS1	TTTG	TTGAAGGGAGAAAATCAAGTCGT(서열번호 77)
LB-TS10	Hif1a-Exon9-TS2	TTTT	GACAGTGGTATTATTCAGCACGA(서열번호 78)
LB-TS11	Hif1a-Exon9-TS3	TTTG	ACAGTGGTATTATTCAGCACGAC(서열번호 79)

상기 표적 서열에 대한 LbCpf1 crRNA는 앞서 표 4에 기재된 서열번호 37의 타겟팅 서열 부위 (밑줄로 표시)를 상기 표 36의 표적 서열에 해당하는 서열 (즉, 상기 표적 서열에서 T를 U로 치환함)로 대체한 것이다.

LbCpf1 단백질을 암호화하는 DNA 서열 및 이에 작동가능하게 연결된 CMV promoter(서열번호 64)를 포함하는 pcDNA3.1 벡터 (Invitrogen) (LbCpf1 plasmid)와 상기 Hif1a 유전자에 대한 각각의 crRNA (표 36의 LB-TS6 포함)를 암호화하는 DNA를 포함하는 플라스미드들(pUC19 벡터 (Addgene; Lb-crRNA plasmid)에 도입)을 리포펙타민(lipofectamin)을 이용한 형질주입으로 293T 세포(ATCC) 내에 전달하였다. 이 후 293T 세포로부터 유전체 DNA를 DNeasy Blood & Tissue Kit (Qiagen kit)를 이용하여 제조사의 지시에 따라 추출하였다. 추출한 유전체 DNA의 Hif1a 유전자 내의 표적 서열 (표 36)을 PCR로 증폭시켰다.

상기 증복된 PCR 산물에 도입된 Indel(insertion or deletion) 빈도 (%)를 Deep sequencing으로 분석을 하여 그 결과를 도 37에 나타내었다.

도 37에 나타낸 바와 같이, 세포 내에 도입된 LbCpf1 단백질이 crRNA와 함께 작용하여 Hif1a 유전자에 Indel을 유도하는 것을 알 수 있었다. 참고로, LbCpf1을 암호화하는 플라스미드만 형질주입한 경우에서는 Indel이 나타나지 않았다 (0%).

상기 도 37에서 우수한 indel빈도를 보인 Hif1a의 표적 서열 (LB-TS6)을 암호화하는 DNA와 LbCpf1를 암호화하는 DNA를 포함하는 AAV 벡터에 클로닝하였다. 상기 제작된 재조합 AAV 벡터는 하나의 벡터에 elongation factor short 프로모터에 LbCpf1이 조절되고 U6 promoter에 의해 crRNA가 조절되는 두 molecule이 동시에 발현되는 all-in-one 벡터 시스템이다 (도 38, 도 39a-39c, 및 서열번호 80). 도 39a-39c는 상기 제작된 재조합 AAV의 전체 서열 (서열번호 80)을 5'에서 3' 방향으로 연속적으로 보여주는 것으로, 밑줄 및/또는 이탤릭체로 표시된 부위는, 순서대로 (5'에서 3' 방향), Inverted Terminal repeat (ITR, 5'), U6 promoter, LBCpf1 crRNA (LB-TS6; 밑줄 및 굵은 체), Elongation factor 1a-short promoter, LBCpf1 (굵은 이탤릭체), NLS, HA tag, bGH poly A signal, 및 ITR sequence (3')를 나타내며, 이 중에서 U6 promoter, LBCpf1 crRNA (LB-TS6; 밑줄 및 굵은 체), Elongation factor 1a-short promoter, LBCpf1 (굵은 이탤릭체), NLS, HA tag, 및 bGH poly A signal 부위는 총 4675 bp (도 38)이다.

상기 제작된 재조합 AAV 벡터의 패키징 한계 사이즈인 4.7 kb 이내로 LbCpf1과 crRNA가 발현되도록 제작하였다.

<110> INSTITUTE FOR BASIC SCIENCE <120> Composition for Genome Editing Comprising Cpf1 and Use thereof <130> DPP20164740KR <150> KR 10-2015-0174212 <151> 2015-12-08 <150> US 62/299,043 <151> 2016-02-24 <150> KR 10-2016-0036381 <151> 2016-03-25 <160> 90 <170> KopatentIn 2.0 <210> 1 <211> 84 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 Target region of FoxN1 exon 7 (wild type) <400> 1 cttgtcgatt ttggaaggat tgagggccca cagacagccc tttcgagagg aacttccgga 60 tttattctcc accttctcaa agca 84 <210> 2 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 target sequence 1 (crRNA A) of target sequence of FoxN1 exon 7 <400> 2 gaaggattga gggcccacag aca 23 <210> 3 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 target sequence 2 (crRNA B) of target sequence of FoxN1 exon 7 <400> 3 gagaggaact tccggattta ttc 23 <210> 4 <211> 78 <212> DNA <213> Artificial Sequence <220> <223> on-target 6 bp deletion at FoxN1 exon 7 by Cpf1 <400> 4 cttgtcgatt ttggaaggat tgaggggaca gccctttcga gaggaacttc cggatttatt 60 ctccaccttc tcaaagca 78 <210> 5 <211> 92 <212> DNA <213> Artificial Sequence <220> <223> Target region of VEGFa for SgCas9 <400> 5 ttgaagatgt actctatctc gtcggggtac tcctggaaga tgtccaccag ggtctcaatc 60 ggacggcagt agcttcgctg gtagacatcc at 92 <210> 6 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of VEGFa for SgCas9 <400> 6 ctcctggaag atgtccacca 20 <210> 7 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 PAM and Target sequence 1 for FAD2 homologous genes Glyma10g42470 and Glyma20g24530 <400> 7 tacattgcca ccacctactt cc 22 <210> 8 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 PAM and Target sequence 2 for FAD2 homologous genes Glyma10g42470 and Glyma20g24530 <400> 8 cctcattgca tggccaatct at 22 <210> 9 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 PAM and Target sequence 3 (LbCpf1) for FAD2 homologous genes Glyma10g42470 and Glyma20g24530 <400> 9 gtcccttatt tctcatggaa aa 22 <210> 10 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 PAM and Target sequence 4 for FAD2 homologous genes Glyma10g42470 and Glyma20g24530 <400> 10 tcatggaaaa taagccatcg cc 22 <210> 11 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 PAM and Target sequence 5 for FAD2 homologous genes Glyma10g42470 and Glyma20g24530 <400> 11 tcccaaaacc aaaatccaaa gt 22 <210> 12 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 PAM and Target sequence 6 for FAD2 homologous genes Glyma10g42470 and Glyma20g24530 <400> 12 gctgctatgt gtttatgggg tg 22 <210> 13 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 PAM and Target sequence 7 for FAD2 homologous genes Glyma10g42470 and Glyma20g24530 <400> 13 gcaactatgg acagagatta tg 22 <210> 14 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 PAM and Target sequence 8 for FAD2 homologous genes Glyma10g42470 and Glyma20g24530 <400> 14 atgacacacc attttacaag gc 22 <210> 15 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 PAM and Target sequence 9 (AsCpf1) for FAD2 homologous genes Glyma10g42470 and Glyma20g24530 <400> 15 caaggcactg tggagagaag c 21 <210> 16 <211> 73 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 target region of FAD2 containing target sequence 3 <400> 16 ttgatgatgt tatgggtttg accgttcact cagcactttt agtcccttat ttctcatgga 60 aaataagcca tcg 73 <210> 17 <211> 39 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 target region (on target) for DNMT1-3 <400> 17 gtttcctgat ggtccatgtc tgttactcgc ctgtcaagt 39 <210> 18 <211> 27 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 PAM and target sequence for DNMT1-3, wherein N is A, T, C, or G <400> 18 tttnctgatg gtccatgtct gttactc 27 <210> 19 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 target sequence of DNMT1-3 <400> 19 ctgatggtcc atgtctgtta ctc 23 <210> 20 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 target sequence of DNMT1-4 <400> 20 tttcccttca gctaaaataa agg 23 <210> 21 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 target sequence of AAVS1 <400> 21 cttacgatgg agccagagag gat 23 <210> 22 <211> 27 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 target sequence of DNMT1-3 (5' PAM contained) <400> 22 tttcctgatg gtccatgtct gttactc 27 <210> 23 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 On target of EMX1 <400> 23 tcctccggtt ctggaaccac acc 23 <210> 24 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 On target of CCR5-1 <400> 24 gtgggcaaca tgctggtcat cct 23 <210> 25 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 On target of CCR5-9 <400> 25 gcctgaataa ttgcagtagc tct 23 <210> 26 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 On target of AAVS1 <400> 26 cttacgatgg agccagagag gat 23 <210> 27 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 On target of HPRT-1 <400> 27 ctgacctgct ggattacatc aaa 23 <210> 28 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 On target of HPRT-4 <400> 28 tgtcccctgt tgactggtca ttc 23 <210> 29 <211> 27 <212> DNA <213> Artificial Sequence <220> <223> AsCpf1 crRNA for DNMT1 (DNMT1-3) <400> 29 tttcctgatg gtccatgtct gttactc 27 <210> 30 <211> 47 <212> DNA <213> Artificial Sequence <220> <223> Target region of DNMT1-3 for LbCpf1 <400> 30 tacgttaatg tttcctgatg gtccatgtct gttactcgcc tgtcaag 47 <210> 31 <211> 47 <212> DNA <213> Artificial Sequence <220> <223> Target region of DNMT1-3 for AsCpf1 <400> 31 tacgttaatg tttcctgatg gtccatgtct gttactcgcc tgtcaag 47 <210> 32 <211> 47 <212> DNA <213> Artificial Sequence <220> <223> Target region of DNMT1-3 for SpCas9 <400> 32 tacgttaatg tttcctgatg gtccatgtct gttactcgcc tgtcaag 47 <210> 33 <211> 67 <212> DNA <213> Artificial Sequence <220> <223> Target region of EMX1-2 for LbCpf1 <400> 33 ccgtttgtac tttgtcctcc ggttctggaa ccacaccttc acctgggcca gggagggagg 60 ggcacag 67 <210> 34 <211> 67 <212> DNA <213> Artificial Sequence <220> <223> Target region of EMX1-2 for AsCpf1 <400> 34 ccgtttgtac tttgtcctcc ggttctggaa ccacaccttc acctgggcca gggagggagg 60 ggcacag 67 <210> 35 <211> 67 <212> DNA <213> Artificial Sequence <220> <223> Target region of EMX1-2 for SpCas9 <400> 35 ccgtttgtac tttgtcctcc ggttctggaa ccacaccttc acctgggcca gggagggagg 60 ggcacag 67 <210> 36 <211> 43 <212> RNA <213> Artificial Sequence <220> <223> AsCpf1 crRNA of DNMT1-3 <400> 36 uaauuucuac ucuuguagau cugauggucc augucuguua cuc 43 <210> 37 <211> 43 <212> RNA <213> Artificial Sequence <220> <223> LbCpf1 crRNA of DNMT1-3 <400> 37 aauuucuacu aaguguagau cugauggucc augucuguua cuc 43 <210> 38 <211> 43 <212> RNA <213> Artificial Sequence <220> <223> FnCpf1 crRNA of DNMT1-3 <400> 38 uaauuucuac uguuguagau cugauggucc augucuguua cuc 43 <210> 39 <211> 44 <212> RNA <213> Artificial Sequence <220> <223> MbCpf1 crRNA of DNMT1-3 <400> 39 aaauuucuac uguuuguaga ucugaugguc caugucuguu acuc 44 <210> 40 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 On target of HBB-1 <400> 40 agtcctttgg ggatctgtcc act 23 <210> 41 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 On target of VEGFA <400> 41 cgtccaactt ctgggctgtt ctc 23 <210> 42 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 target sequence of EMX1-2 <400> 42 ctgatggtcc atgtctgtta ctc 23 <210> 43 <211> 1307 <212> PRT <213> Artificial Sequence <220> <223> Cpf1 protein derived from Acidaminococcus sp. BVBLG (AsCpf1) <400> 43 Met Thr Gln Phe Glu Gly Phe Thr Asn Leu Tyr Gln Val Ser Lys Thr 1 5 10 15 Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Lys His Ile Gln 20 25 30 Glu Gln Gly Phe Ile Glu Glu Asp Lys Ala Arg Asn Asp His Tyr Lys 35 40 45 Glu Leu Lys Pro Ile Ile Asp Arg Ile Tyr Lys Thr Tyr Ala Asp Gln 50 55 60 Cys Leu Gln Leu Val Gln Leu Asp Trp Glu Asn Leu Ser Ala Ala Ile 65 70 75 80 Asp Ser Tyr Arg Lys Glu Lys Thr Glu Glu Thr Arg Asn Ala Leu Ile 85 90 95 Glu Glu Gln Ala Thr Tyr Arg Asn Ala Ile His Asp Tyr Phe Ile Gly 100 105 110 Arg Thr Asp Asn Leu Thr Asp Ala Ile Asn Lys Arg His Ala Glu Ile 115 120 125 Tyr Lys Gly Leu Phe Lys Ala Glu Leu Phe Asn Gly Lys Val Leu Lys 130 135 140 Gln Leu Gly Thr Val Thr Thr Thr Glu His Glu Asn Ala Leu Leu Arg 145 150 155 160 Ser Phe Asp Lys Phe Thr Thr Tyr Phe Ser Gly Phe Tyr Glu Asn Arg 165 170 175 Lys Asn Val Phe Ser Ala Glu Asp Ile Ser Thr Ala Ile Pro His Arg 180 185 190 Ile Val Gln Asp Asn Phe Pro Lys Phe Lys Glu Asn Cys His Ile Phe 195 200 205 Thr Arg Leu Ile Thr Ala Val Pro Ser Leu Arg Glu His Phe Glu Asn 210 215 220 Val Lys Lys Ala Ile Gly Ile Phe Val Ser Thr Ser Ile Glu Glu Val 225 230 235 240 Phe Ser Phe Pro Phe Tyr Asn Gln Leu Leu Thr Gln Thr Gln Ile Asp 245 250 255 Leu Tyr Asn Gln Leu Leu Gly Gly Ile Ser Arg Glu Ala Gly Thr Glu 260 265 270 Lys Ile Lys Gly Leu Asn Glu Val Leu Asn Leu Ala Ile Gln Lys Asn 275 280 285 Asp Glu Thr Ala His Ile Ile Ala Ser Leu Pro His Arg Phe Ile Pro 290 295 300 Leu Phe Lys Gln Ile Leu Ser Asp Arg Asn Thr Leu Ser Phe Ile Leu 305 310 315 320 Glu Glu Phe Lys Ser Asp Glu Glu Val Ile Gln Ser Phe Cys Lys Tyr 325 330 335 Lys Thr Leu Leu Arg Asn Glu Asn Val Leu Glu Thr Ala Glu Ala Leu 340 345 350 Phe Asn Glu Leu Asn Ser Ile Asp Leu Thr His Ile Phe Ile Ser His 355 360 365 Lys Lys Leu Glu Thr Ile Ser Ser Ala Leu Cys Asp His Trp Asp Thr 370 375 380 Leu Arg Asn Ala Leu Tyr Glu Arg Arg Ile Ser Glu Leu Thr Gly Lys 385 390 395 400 Ile Thr Lys Ser Ala Lys Glu Lys Val Gln Arg Ser Leu Lys His Glu 405 410 415 Asp Ile Asn Leu Gln Glu Ile Ile Ser Ala Ala Gly Lys Glu Leu Ser 420 425 430 Glu Ala Phe Lys Gln Lys Thr Ser Glu Ile Leu Ser His Ala His Ala 435 440 445 Ala Leu Asp Gln Pro Leu Pro Thr Thr Leu Lys Lys Gln Glu Glu Lys 450 455 460 Glu Ile Leu Lys Ser Gln Leu Asp Ser Leu Leu Gly Leu Tyr His Leu 465 470 475 480 Leu Asp Trp Phe Ala Val Asp Glu Ser Asn Glu Val Asp Pro Glu Phe 485 490 495 Ser Ala Arg Leu Thr Gly Ile Lys Leu Glu Met Glu Pro Ser Leu Ser 500 505 510 Phe Tyr Asn Lys Ala Arg Asn Tyr Ala Thr Lys Lys Pro Tyr Ser Val 515 520 525 Glu Lys Phe Lys Leu Asn Phe Gln Met Pro Thr Leu Ala Ser Gly Trp 530 535 540 Asp Val Asn Lys Glu Lys Asn Asn Gly Ala Ile Leu Phe Val Lys Asn 545 550 555 560 Gly Leu Tyr Tyr Leu Gly Ile Met Pro Lys Gln Lys Gly Arg Tyr Lys 565 570 575 Ala Leu Ser Phe Glu Pro Thr Glu Lys Thr Ser Glu Gly Phe Asp Lys 580 585 590 Met Tyr Tyr Asp Tyr Phe Pro Asp Ala Ala Lys Met Ile Pro Lys Cys 595 600 605 Ser Thr Gln Leu Lys Ala Val Thr Ala His Phe Gln Thr His Thr Thr 610 615 620 Pro Ile Leu Leu Ser Asn Asn Phe Ile Glu Pro Leu Glu Ile Thr Lys 625 630 635 640 Glu Ile Tyr Asp Leu Asn Asn Pro Glu Lys Glu Pro Lys Lys Phe Gln 645 650 655 Thr Ala Tyr Ala Lys Lys Thr Gly Asp Gln Lys Gly Tyr Arg Glu Ala 660 665 670 Leu Cys Lys Trp Ile Asp Phe Thr Arg Asp Phe Leu Ser Lys Tyr Thr 675 680 685 Lys Thr Thr Ser Ile Asp Leu Ser Ser Leu Arg Pro Ser Ser Gln Tyr 690 695 700 Lys Asp Leu Gly Glu Tyr Tyr Ala Glu Leu Asn Pro Leu Leu Tyr His 705 710 715 720 Ile Ser Phe Gln Arg Ile Ala Glu Lys Glu Ile Met Asp Ala Val Glu 725 730 735 Thr Gly Lys Leu Tyr Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ala Lys 740 745 750 Gly His His Gly Lys Pro Asn Leu His Thr Leu Tyr Trp Thr Gly Leu 755 760 765 Phe Ser Pro Glu Asn Leu Ala Lys Thr Ser Ile Lys Leu Asn Gly Gln 770 775 780 Ala Glu Leu Phe Tyr Arg Pro Lys Ser Arg Met Lys Arg Met Ala His 785 790 795 800 Arg Leu Gly Glu Lys Met Leu Asn Lys Lys Leu Lys Asp Gln Lys Thr 805 810 815 Pro Ile Pro Asp Thr Leu Tyr Gln Glu Leu Tyr Asp Tyr Val Asn His 820 825 830 Arg Leu Ser His Asp Leu Ser Asp Glu Ala Arg Ala Leu Leu Pro Asn 835 840 845 Val Ile Thr Lys Glu Val Ser His Glu Ile Ile Lys Asp Arg Arg Phe 850 855 860 Thr Ser Asp Lys Phe Phe Phe His Val Pro Ile Thr Leu Asn Tyr Gln 865 870 875 880 Ala Ala Asn Ser Pro Ser Lys Phe Asn Gln Arg Val Asn Ala Tyr Leu 885 890 895 Lys Glu His Pro Glu Thr Pro Ile Ile Gly Ile Asp Arg Gly Glu Arg 900 905 910 Asn Leu Ile Tyr Ile Thr Val Ile Asp Ser Thr Gly Lys Ile Leu Glu 915 920 925 Gln Arg Ser Leu Asn Thr Ile Gln Gln Phe Asp Tyr Gln Lys Lys Leu 930 935 940 Asp Asn Arg Glu Lys Glu Arg Val Ala Ala Arg Gln Ala Trp Ser Val 945 950 955 960 Val Gly Thr Ile Lys Asp Leu Lys Gln Gly Tyr Leu Ser Gln Val Ile 965 970 975 His Glu Ile Val Asp Leu Met Ile His Tyr Gln Ala Val Val Val Leu 980 985 990 Glu Asn Leu Asn Phe Gly Phe Lys Ser Lys Arg Thr Gly Ile Ala Glu 995 1000 1005 Lys Ala Val Tyr Gln Gln Phe Glu Lys Met Leu Ile Asp Lys Leu Asn 1010 1015 1020 Cys Leu Val Leu Lys Asp Tyr Pro Ala Glu Lys Val Gly Gly Val Leu 1025 1030 1035 1040 Asn Pro Tyr Gln Leu Thr Asp Gln Phe Thr Ser Phe Ala Lys Met Gly 1045 1050 1055 Thr Gln Ser Gly Phe Leu Phe Tyr Val Pro Ala Pro Tyr Thr Ser Lys 1060 1065 1070 Ile Asp Pro Leu Thr Gly Phe Val Asp Pro Phe Val Trp Lys Thr Ile 1075 1080 1085 Lys Asn His Glu Ser Arg Lys His Phe Leu Glu Gly Phe Asp Phe Leu 1090 1095 1100 His Tyr Asp Val Lys Thr Gly Asp Phe Ile Leu His Phe Lys Met Asn 1105 1110 1115 1120 Arg Asn Leu Ser Phe Gln Arg Gly Leu Pro Gly Phe Met Pro Ala Trp 1125 1130 1135 Asp Ile Val Phe Glu Lys Asn Glu Thr Gln Phe Asp Ala Lys Gly Thr 1140 1145 1150 Pro Phe Ile Ala Gly Lys Arg Ile Val Pro Val Ile Glu Asn His Arg 1155 1160 1165 Phe Thr Gly Arg Tyr Arg Asp Leu Tyr Pro Ala Asn Glu Leu Ile Ala 1170 1175 1180 Leu Leu Glu Glu Lys Gly Ile Val Phe Arg Asp Gly Ser Asn Ile Leu 1185 1190 1195 1200 Pro Lys Leu Leu Glu Asn Asp Asp Ser His Ala Ile Asp Thr Met Val 1205 1210 1215 Ala Leu Ile Arg Ser Val Leu Gln Met Arg Asn Ser Asn Ala Ala Thr 1220 1225 1230 Gly Glu Asp Tyr Ile Asn Ser Pro Val Arg Asp Leu Asn Gly Val Cys 1235 1240 1245 Phe Asp Ser Arg Phe Gln Asn Pro Glu Trp Pro Met Asp Ala Asp Ala 1250 1255 1260 Asn Gly Ala Tyr His Ile Ala Leu Lys Gly Gln Leu Leu Leu Asn His 1265 1270 1275 1280 Leu Lys Glu Ser Lys Asp Leu Lys Leu Gln Asn Gly Ile Ser Asn Gln 1285 1290 1295 Asp Trp Leu Ala Tyr Ile Gln Glu Leu Arg Asn 1300 1305 <210> 44 <211> 3921 <212> DNA <213> Artificial Sequence <220> <223> E.coli codon optimized AsCpf1 coding nucleic acid <400> 44 atgacacagt ttgaaggctt caccaatctc taccaggtca gcaagacgct acgttttgag 60 cttatcccgc agggaaaaac cctgaaacac attcaggaac aggggttcat agaggaagat 120 aaggcgcgta acgaccatta taaagaactg aagcctataa tcgaccgtat ttataaaacg 180 tacgcggatc agtgcctgca gctggttcag ctggattggg agaatctgtc cgcggctatt 240 gatagctatc gcaaagagaa gaccgaggaa acccgtaacg cactgattga agagcaggcg 300 acctatcgga atgcgatcca tgattacttc atcggccgca ccgacaacct gaccgatgca 360 attaacaaac gtcacgcaga gatttacaaa ggtctgttta aagcagagtt attcaatggc 420 aaggttctga aacagctggg tacggtcacc accaccgaac acgaaaacgc actgctgagg 480 agctttgata aatttaccac atatttcagc ggtttctatg aaaatcgtaa gaatgtattt 540 agcgccgaag atatttccac cgcaattcct catcgtattg tgcaggataa ttttccgaag 600 tttaaagaaa attgtcatat ttttacccgt ctgatcaccg cggtaccgag cctgcgagag 660 cattttgaaa acgttaagaa agccattgga atttttgtca gtaccagcat tgaagaagtg 720 ttttcgttcc cgttctataa ccaactgctg acccagaccc agattgatct gtacaatcag 780 ctgctggggg gcataagccg cgaggcaggt accgaaaaga taaagggact caatgaggtg 840 ctgaatctgg caattcagaa gaatgatgaa acggctcata tcattgctag cctgccgcat 900 cgtttcattc ccctgtttaa gcaaatcctg agcgatcgca atacactgag ctttatcctc 960 gaagagttta aatcggacga agaagttatc cagagctttt gcaaatacaa aaccctgctg 1020 cggaacgaaa atgtgctgga gaccgctgaa gcactgttta atgaactgaa ctcgatcgac 1080 ctcacccata tttttatatc ccacaaaaaa ctggaaacca taagcagcgc tctgtgtgac 1140 cattgggata ccctgcgcaa cgccctgtat gaacggcgta tcagcgagct gaccgggaaa 1200 atcaccaaat ccgcaaagga aaaagttcag cgtagtctga aacacgagga catcaacctg 1260 caagaaatta ttagcgcagc aggtaaagag ctgagcgaag cattcaaaca gaaaaccagc 1320 gaaatcctga gccatgccca tgctgcactg gatcagccgc tgccgaccac cctgaaaaaa 1380 caggaggaaa aggagattct gaaaagccaa ctggacagcc tgctgggcct gtatcacctg 1440 ctggactggt ttgcagtcga tgagagcaac gaggttgatc ctgagttctc cgctcgtctg 1500 accggaatca agctggagat ggaaccgagt ctgtcgtttt acaataaagc gcgtaattac 1560 gcgaccaaga aaccgtatag cgtggaaaaa ttcaaactga actttcagat gccgaccctt 1620 gcaagcggat gggacgttaa caaagaaaaa aacaatgggg caattctgtt tgtgaaaaat 1680 ggcctctatt atctgggtat catgccgaaa cagaaagggc gctacaaagc cctgtcattt 1740 gagccgaccg agaaaacctc agagggtttc gacaagatgt actacgatta tttcccggat 1800 gcggcaaaaa tgatacccaa atgtagcacc caactgaagg cagttacagc ccactttcag 1860 acccatacca ccccgatcct gctgtcgaac aattttatag agccgctgga aattaccaaa 1920 gagatttatg atctgaataa tccggaaaag gagcccaaga aatttcagac ggcgtatgca 1980 aaaaagaccg gggatcagaa aggttatcgt gaagcgctgt gcaaatggat tgactttacc 2040 cgtgactttc tgtcaaaata taccaaaacg acgagcattg atctgagcag cctacgtccg 2100 agcagccaat ataaggatct gggcgaatat tacgccgaac tgaatccgct gctctaccat 2160 atttccttcc aacgaatcgc tgaaaaagaa ataatggacg ccgttgaaac cggcaaactg 2220 tatctgtttc aaatctacaa caaagatttc gccaaaggcc atcacggtaa gccgaacctg 2280 cataccctgt attggaccgg tctgtttagc ccggagaatc tggccaaaac cagcatcaag 2340 ctgaacggac aggcagaact gttttaccgc cccaaaagcc gtatgaaaag gatggcacac 2400 cgcctgggcg aaaaaatgct gaataagaaa ctcaaagatc agaaaacgcc gataccggat 2460 accctttatc aggagctgta tgattatgtt aaccaccggc tgagccatga cctgagcgac 2520 gaagcgcgtg cactgctgcc gaacgtgatt accaaggaag tctcgcatga aattattaaa 2580 gatcggcgct tcaccagtga taaatttttc ttccatgtac cgatcaccct gaattatcaa 2640 gccgcaaata gcccttccaa atttaatcaa cgcgtgaatg cgtacctgaa agagcatccg 2700 gagaccccaa ttattggcat agaccgagga gaacgcaatc tcatttatat caccgtcatt 2760 gatagcaccg gtaagatcct ggaacagcgt agcctgaata ccattcagca gtttgactac 2820 cagaaaaagc tggacaacag agaaaaggaa cgtgtagccg cccggcaggc ttggagtgtg 2880 gtgggtacta tcaaggatct gaagcagggg tatctctccc aagttatcca tgaaattgtc 2940 gatctaatga ttcactatca agcagtagtg gtactggaaa atctgaattt cggtttcaaa 3000 agcaaacgta cagggatcgc tgaaaaagcc gtttatcagc agttcgagaa aatgctgata 3060 gacaagctga attgcctggt tctgaaagat tatccggcag agaaggtggg cggtgtgctg 3120 aacccgtacc agctgactga tcaatttacg agctttgcaa aaatgggaac gcagagcggt 3180 ttcctgttct atgttccggc gccatatacc agcaagatag acccgctgac aggtttcgta 3240 gatccgtttg tctggaaaac cattaaaaat catgaaagtc gcaaacattt tctggagggc 3300 tttgattttc tgcactatga cgtgaaaacc ggcgacttca ttctgcattt taaaatgaac 3360 cgtaatctgt cctttcagcg cggcctgcct ggctttatgc cggcgtggga cattgttttt 3420 gaaaagaatg agacacagtt tgatgccaaa ggtaccccct ttattgcggg gaaacgcatt 3480 gtgcccgtta tagaaaatca ccgcttcacc ggacggtata gggacttgta cccggcaaat 3540 gaattgatag cgctgctgga ggagaaaggt attgtctttc gggatggatc aaacatcctg 3600 ccgaagctgc tggagaacga tgacagccac gcaatagaca ccatggtagc gctgatccga 3660 agcgtgctgc agatgcgtaa cagtaatgcg gctacggggg aagactacat taatagcccg 3720 gtccgtgatc tgaacggcgt ttgtttcgat agcagatttc aaaatccgga gtggccgatg 3780 gatgccgatg ccaatggagc ttaccatatc gctctcaaag gtcagctcct actgaaccat 3840 ttgaaagaat caaaagatct gaaactgcag aacggcatct cgaatcagga ctggctggcc 3900 tacattcaag aactgagaaa c 3921 <210> 45 <211> 1228 <212> PRT <213> Artificial Sequence <220> <223> Cpf1 derived from Lachnospiraceae bacterium ND2006 (LbCpi1) <400> 45 Met Ser Lys Leu Glu Lys Phe Thr Asn Cys Tyr Ser Leu Ser Lys Thr 1 5 10 15 Leu Arg Phe Lys Ala Ile Pro Val Gly Lys Thr Gln Glu Asn Ile Asp 20 25 30 Asn Lys Arg Leu Leu Val Glu Asp Glu Lys Arg Ala Glu Asp Tyr Lys 35 40 45 Gly Val Lys Lys Leu Leu Asp Arg Tyr Tyr Leu Ser Phe Ile Asn Asp 50 55 60 Val Leu His Ser Ile Lys Leu Lys Asn Leu Asn Asn Tyr Ile Ser Leu 65 70 75 80 Phe Arg Lys Lys Thr Arg Thr Glu Lys Glu Asn Lys Glu Leu Glu Asn 85 90 95 Leu Glu Ile Asn Leu Arg Lys Glu Ile Ala Lys Ala Phe Lys Gly Asn 100 105 110 Glu Gly Tyr Lys Ser Leu Phe Lys Lys Asp Ile Ile Glu Thr Ile Leu 115 120 125 Pro Glu Phe Leu Asp Asp Lys Asp Glu Ile Ala Leu Val Asn Ser Phe 130 135 140 Asn Gly Phe Thr Thr Ala Phe Thr Gly Phe Phe Asp Asn Arg Glu Asn 145 150 155 160 Met Phe Ser Glu Glu Ala Lys Ser Thr Ser Ile Ala Phe Arg Cys Ile 165 170 175 Asn Glu Asn Leu Thr Arg Tyr Ile Ser Asn Met Asp Ile Phe Glu Lys 180 185 190 Val Asp Ala Ile Phe Asp Lys His Glu Val Gln Glu Ile Lys Glu Lys 195 200 205 Ile Leu Asn Ser Asp Tyr Asp Val Glu Asp Phe Phe Glu Gly Glu Phe 210 215 220 Phe Asn Phe Val Leu Thr Gln Glu Gly Ile Asp Val Tyr Asn Ala Ile 225 230 235 240 Ile Gly Gly Phe Val Thr Glu Ser Gly Glu Lys Ile Lys Gly Leu Asn 245 250 255 Glu Tyr Ile Asn Leu Tyr Asn Gln Lys Thr Lys Gln Lys Leu Pro Lys 260 265 270 Phe Lys Pro Leu Tyr Lys Gln Val Leu Ser Asp Arg Glu Ser Leu Ser 275 280 285 Phe Tyr Gly Glu Gly Tyr Thr Ser Asp Glu Glu Val Leu Glu Val Phe 290 295 300 Arg Asn Thr Leu Asn Lys Asn Ser Glu Ile Phe Ser Ser Ile Lys Lys 305 310 315 320 Leu Glu Lys Leu Phe Lys Asn Phe Asp Glu Tyr Ser Ser Ala Gly Ile 325 330 335 Phe Val Lys Asn Gly Pro Ala Ile Ser Thr Ile Ser Lys Asp Ile Phe 340 345 350 Gly Glu Trp Asn Val Ile Arg Asp Lys Trp Asn Ala Glu Tyr Asp Asp 355 360 365 Ile His Leu Lys Lys Lys Ala Val Val Thr Glu Lys Tyr Glu Asp Asp 370 375 380 Arg Arg Lys Ser Phe Lys Lys Ile Gly Ser Phe Ser Leu Glu Gln Leu 385 390 395 400 Gln Glu Tyr Ala Asp Ala Asp Leu Ser Val Val Glu Lys Leu Lys Glu 405 410 415 Ile Ile Ile Gln Lys Val Asp Glu Ile Tyr Lys Val Tyr Gly Ser Ser 420 425 430 Glu Lys Leu Phe Asp Ala Asp Phe Val Leu Glu Lys Ser Leu Lys Lys 435 440 445 Asn Asp Ala Val Val Ala Ile Met Lys Asp Leu Leu Asp Ser Val Lys 450 455 460 Ser Phe Glu Asn Tyr Ile Lys Ala Phe Phe Gly Glu Gly Lys Glu Thr 465 470 475 480 Asn Arg Asp Glu Ser Phe Tyr Gly Asp Phe Val Leu Ala Tyr Asp Ile 485 490 495 Leu Leu Lys Val Asp His Ile Tyr Asp Ala Ile Arg Asn Tyr Val Thr 500 505 510 Gln Lys Pro Tyr Ser Lys Asp Lys Phe Lys Leu Tyr Phe Gln Asn Pro 515 520 525 Gln Phe Met Gly Gly Trp Asp Lys Asp Lys Glu Thr Asp Tyr Arg Ala 530 535 540 Thr Ile Leu Arg Tyr Gly Ser Lys Tyr Tyr Leu Ala Ile Met Asp Lys 545 550 555 560 Lys Tyr Ala Lys Cys Leu Gln Lys Ile Asp Lys Asp Asp Val Asn Gly 565 570 575 Asn Tyr Glu Lys Ile Asn Tyr Lys Leu Leu Pro Gly Pro Asn Lys Met 580 585 590 Leu Pro Lys Val Phe Phe Ser Lys Lys Trp Met Ala Tyr Tyr Asn Pro 595 600 605 Ser Glu Asp Ile Gln Lys Ile Tyr Lys Asn Gly Thr Phe Lys Lys Gly 610 615 620 Asp Met Phe Asn Leu Asn Asp Cys His Lys Leu Ile Asp Phe Phe Lys 625 630 635 640 Asp Ser Ile Ser Arg Tyr Pro Lys Trp Ser Asn Ala Tyr Asp Phe Asn 645 650 655 Phe Ser Glu Thr Glu Lys Tyr Lys Asp Ile Ala Gly Phe Tyr Arg Glu 660 665 670 Val Glu Glu Gln Gly Tyr Lys Val Ser Phe Glu Ser Ala Ser Lys Lys 675 680 685 Glu Val Asp Lys Leu Val Glu Glu Gly Lys Leu Tyr Met Phe Gln Ile 690 695 700 Tyr Asn Lys Asp Phe Ser Asp Lys Ser His Gly Thr Pro Asn Leu His 705 710 715 720 Thr Met Tyr Phe Lys Leu Leu Phe Asp Glu Asn Asn His Gly Gln Ile 725 730 735 Arg Leu Ser Gly Gly Ala Glu Leu Phe Met Arg Arg Ala Ser Leu Lys 740 745 750 Lys Glu Glu Leu Val Val His Pro Ala Asn Ser Pro Ile Ala Asn Lys 755 760 765 Asn Pro Asp Asn Pro Lys Lys Thr Thr Thr Leu Ser Tyr Asp Val Tyr 770 775 780 Lys Asp Lys Arg Phe Ser Glu Asp Gln Tyr Glu Leu His Ile Pro Ile 785 790 795 800 Ala Ile Asn Lys Cys Pro Lys Asn Ile Phe Lys Ile Asn Thr Glu Val 805 810 815 Arg Val Leu Leu Lys His Asp Asp Asn Pro Tyr Val Ile Gly Ile Asp 820 825 830 Arg Gly Glu Arg Asn Leu Leu Tyr Ile Val Val Val Asp Gly Lys Gly 835 840 845 Asn Ile Val Glu Gln Tyr Ser Leu Asn Glu Ile Ile Asn Asn Phe Asn 850 855 860 Gly Ile Arg Ile Lys Thr Asp Tyr His Ser Leu Leu Asp Lys Lys Glu 865 870 875 880 Lys Glu Arg Phe Glu Ala Arg Gln Asn Trp Thr Ser Ile Glu Asn Ile 885 890 895 Lys Glu Leu Lys Ala Gly Tyr Ile Ser Gln Val Val His Lys Ile Cys 900 905 910 Glu Leu Val Glu Lys Tyr Asp Ala Val Ile Ala Leu Glu Asp Leu Asn 915 920 925 Ser Gly Phe Lys Asn Ser Arg Val Lys Val Glu Lys Gln Val Tyr Gln 930 935 940 Lys Phe Glu Lys Met Leu Ile Asp Lys Leu Asn Tyr Met Val Asp Lys 945 950 955 960 Lys Ser Asn Pro Cys Ala Thr Gly Gly Ala Leu Lys Gly Tyr Gln Ile 965 970 975 Thr Asn Lys Phe Glu Ser Phe Lys Ser Met Ser Thr Gln Asn Gly Phe 980 985 990 Ile Phe Tyr Ile Pro Ala Trp Leu Thr Ser Lys Ile Asp Pro Ser Thr 995 1000 1005 Gly Phe Val Asn Leu Leu Lys Thr Lys Tyr Thr Ser Ile Ala Asp Ser 1010 1015 1020 Lys Lys Phe Ile Ser Ser Phe Asp Arg Ile Met Tyr Val Pro Glu Glu 1025 1030 1035 1040 Asp Leu Phe Glu Phe Ala Leu Asp Tyr Lys Asn Phe Ser Arg Thr Asp 1045 1050 1055 Ala Asp Tyr Ile Lys Lys Trp Lys Leu Tyr Ser Tyr Gly Asn Arg Ile 1060 1065 1070 Arg Ile Phe Arg Asn Pro Lys Lys Asn Asn Val Phe Asp Trp Glu Glu 1075 1080 1085 Val Cys Leu Thr Ser Ala Tyr Lys Glu Leu Phe Asn Lys Tyr Gly Ile 1090 1095 1100 Asn Tyr Gln Gln Gly Asp Ile Arg Ala Leu Leu Cys Glu Gln Ser Asp 1105 1110 1115 1120 Lys Ala Phe Tyr Ser Ser Phe Met Ala Leu Met Ser Leu Met Leu Gln 1125 1130 1135 Met Arg Asn Ser Ile Thr Gly Arg Thr Asp Val Asp Phe Leu Ile Ser 1140 1145 1150 Pro Val Lys Asn Ser Asp Gly Ile Phe Tyr Asp Ser Arg Asn Tyr Glu 1155 1160 1165 Ala Gln Glu Asn Ala Ile Leu Pro Lys Asn Ala Asp Ala Asn Gly Ala 1170 1175 1180 Tyr Asn Ile Ala Arg Lys Val Leu Trp Ala Ile Gly Gln Phe Lys Lys 1185 1190 1195 1200 Ala Glu Asp Glu Lys Leu Asp Lys Val Lys Ile Ala Ile Ser Asn Lys 1205 1210 1215 Glu Trp Leu Glu Tyr Ala Gln Thr Ser Val Lys His 1220 1225 <210> 46 <211> 3684 <212> DNA <213> Artificial Sequence <220> <223> E.coli codon optimized LbCpf1 coding nucleic acid <400> 46 atgagcaaac tggaaaaatt tacgaattgt tatagcctgt ccaagaccct gcgtttcaaa 60 gccatccccg ttggcaaaac ccaggagaat attgataata aacgtctgct ggttgaggat 120 gaaaaaagag cagaagacta taagggagtc aaaaaactgc tggatcggta ctacctgagc 180 tttataaatg acgtgctgca tagcattaaa ctgaaaaatc tgaataacta tattagtctg 240 ttccgcaaga aaacccgaac agagaaagaa aataaagagc tggaaaacct ggagatcaat 300 ctgcgtaaag agatcgcaaa agcttttaaa ggaaatgaag gttataaaag cctgttcaaa 360 aaagacatta ttgaaaccat cctgccggaa tttctggatg ataaagacga gatagcgctc 420 gtgaacagct tcaacgggtt cacgaccgcc ttcacgggct ttttcgataa cagggaaaat 480 atgttttcag aggaagccaa aagcacctcg atagcgttcc gttgcattaa tgaaaatttg 540 acaagatata tcagcaacat ggatattttc gagaaagttg atgcgatctt tgacaaacat 600 gaagtgcagg agattaagga aaaaattctg aacagcgatt atgatgttga ggattttttc 660 gagggggaat tttttaactt tgtactgaca caggaaggta tagatgtgta taatgctatt 720 atcggcgggt tcgttaccga atccggcgag aaaattaagg gtctgaatga gtacatcaat 780 ctgtataacc aaaagaccaa acagaaactg ccaaaattca aaccgctgta caagcaagtc 840 ctgagcgatc gggaaagctt gagcttttac ggtgaaggtt ataccagcga cgaggaggta 900 ctggaggtct ttcgcaatac cctgaacaag aacagcgaaa ttttcagctc cattaaaaag 960 ctggagaaac tgtttaagaa ttttgacgag tacagcagcg caggtatttt tgtgaagaac 1020 ggacctgcca taagcaccat tagcaaggat atttttggag agtggaatgt tatccgtgat 1080 aaatggaacg cggaatatga tgacatacac ctgaaaaaga aggctgtggt aactgagaaa 1140 tatgaagacg atcgccgcaa aagctttaaa aaaatcggca gctttagcct ggagcagctg 1200 caggaatatg cggacgccga cctgagcgtg gtcgagaaac tgaaggaaat tattatccaa 1260 aaagtggatg agatttacaa ggtatatggt agcagcgaaa aactgtttga tgcggacttc 1320 gttctggaaa aaagcctgaa aaaaaatgat gctgttgttg cgatcatgaa agacctgctc 1380 gatagcgtta agagctttga aaattacatt aaagcattct ttggcgaggg caaagaaaca 1440 aacagagacg aaagctttta tggcgacttc gtcctggctt atgacatcct gttgaaggta 1500 gatcatatat atgatgcaat tcgtaattac gtaacccaaa agccgtacag caaagataag 1560 ttcaaactgt atttccagaa cccgcagttt atgggtggct gggacaaaga caaggagaca 1620 gactatcgcg ccactattct gcgttacggc agcaagtact atctcgccat catggacaaa 1680 aaatatgcaa agtgtctgca gaaaatcgat aaagacgacg tgaacggaaa ttacgaaaag 1740 attaattata agctgctgcc agggcccaac aagatgttac cgaaagtatt tttttccaaa 1800 aaatggatgg catactataa cccgagcgag gatatacaga agatttacaa aaatgggacc 1860 ttcaaaaagg gggatatgtt caatctgaat gactgccaca aactgatcga tttttttaaa 1920 gatagcatca gccgttatcc taaatggtca aacgcgtatg attttaattt ctccgaaacg 1980 gagaaatata aagacattgc tggtttctat cgcgaagtcg aagaacaggg ttataaagtt 2040 agctttgaat cggccagcaa gaaagaggtt gataaactgg tggaggaggg taagctgtat 2100 atgtttcaga tttataacaa agactttagc gacaaaagcc acggtactcc taatctgcat 2160 acgatgtact ttaaactgct gtttgatgag aataaccacg gccaaatccg tctctccggt 2220 ggagcagaac tttttatgcg gcgtgcgagc ctaaaaaagg aagaactggt ggtgcatccc 2280 gccaacagcc cgattgctaa caaaaatcca gataatccta agaagaccac cacactgtcg 2340 tacgatgtct ataaggataa acgtttctcg gaagaccagt atgaattgca tataccgata 2400 gcaattaata aatgcccaaa aaacattttc aaaatcaaca ctgaagttcg tgtgctgctg 2460 aaacatgatg ataatccgta tgtgatcgga attgaccgtg gggagagaaa tctgctgtat 2520 attgtagtcg ttgatggcaa gggcaacatc gttgagcagt atagcctgaa tgaaataatt 2580 aataatttta acggtatacg tattaaaacc gactatcata gcctgctgga taaaaaggag 2640 aaagagcgtt ttgaggcacg ccaaaattgg acgagcatcg aaaacatcaa ggaactgaag 2700 gcaggatata tcagccaagt agtccataaa atctgtgaac tggtggagaa gtacgacgct 2760 gtcattgccc tggaagacct caatagcggc tttaaaaaca gccgggtgaa ggtggagaaa 2820 caggtatacc aaaagtttga aaagatgctc attgataagc tgaactatat ggttgataaa 2880 aagagcaacc cgtgcgccac tggcggtgca ctgaaagggt accaaattac caataaattt 2940 gaaagcttta aaagcatgag cacgcagaat gggtttattt tttatatacc agcatggctg 3000 acgagcaaga ttgaccccag cactggtttt gtcaatctgc tgaaaaccaa atacacaagc 3060 attgcggata gcaaaaaatt tatttcgagc ttcgaccgta ttatgtatgt tccggaggaa 3120 gatctgtttg aatttgccct ggattataaa aacttcagcc gcaccgatgc agattatatc 3180 aaaaaatgga agctgtacag ttatggtaat cgtatacgta tcttccgtaa tccgaagaaa 3240 aacaatgtgt tcgattggga agaggtctgt ctgaccagcg cgtataaaga actgttcaac 3300 aagtacggaa taaattatca gcaaggtgac attcgcgcac tgctgtgtga acagtcagat 3360 aaagcatttt atagcagctt tatggcgctg atgagcctga tgctccagat gcgcaacagc 3420 ataaccggtc gcacagatgt tgactttctg atcagccctg tgaagaatag cgacggcatc 3480 ttctacgatt ccaggaacta tgaagcacag gaaaacgcta ttctgcctaa aaatgccgat 3540 gccaacggcg cctataatat tgcacggaag gttctgtggg cgattggaca gttcaagaaa 3600 gcggaagatg agaagctgga taaggtaaaa attgctatta gcaataagga atggctggag 3660 tacgcacaga catcggttaa acac 3684 <210> 47 <211> 4038 <212> DNA <213> Artificial Sequence <220> <223> DNA encoding FnCpf1 <400> 47 atgagcatct accaggagtt cgtcaacaag tattcactga gtaagacact gcggttcgag 60 ctgatcccac agggcaagac actggagaac atcaaggccc gaggcctgat tctggacgat 120 gagaagcggg caaaagacta taagaaagcc aagcagatca ttgataaata ccaccagttc 180 tttatcgagg aaattctgag ctccgtgtgc atcagtgagg atctgctgca gaattactca 240 gacgtgtact tcaagctgaa gaagagcgac gatgacaacc tgcagaagga cttcaagtcc 300 gccaaggaca ccatcaagaa acagattagc gagtacatca aggactccga aaagtttaaa 360 aatctgttca accagaatct gatcgatgct aagaaaggcc aggagtccga cctgatcctg 420 tggctgaaac agtctaagga caatgggatt gaactgttca aggctaactc cgatatcact 480 gatattgacg aggcactgga aatcatcaag agcttcaagg gatggaccac atactttaaa 540 ggcttccacg agaaccgcaa gaacgtgtac tccagcaacg acattcctac ctccatcatc 600 taccgaatcg tcgatgacaa tctgccaaag ttcctggaga acaaggccaa atatgaatct 660 ctgaaggaca aagctcccga ggcaattaat tacgaacaga tcaagaaaga tctggctgag 720 gaactgacat tcgatatcga ctataagact agcgaggtga accagagggt cttttccctg 780 gacgaggtgt ttgaaatcgc caatttcaac aattacctga accagtccgg cattactaaa 840 ttcaatacca tcattggcgg gaagtttgtg aacggggaga ataccaagcg caagggaatt 900 aacgaataca tcaatctgta tagccagcag atcaacgaca aaactctgaa gaaatacaag 960 atgtctgtgc tgttcaaaca gatcctgagt gataccgagt ccaagtcttt tgtcattgat 1020 aaactggaag atgactcaga cgtggtcact accatgcaga gcttttatga gcagatcgcc 1080 gctttcaaga cagtggagga aaaatctatt aaggaaactc tgagtctgct gttcgatgac 1140 ctgaaagccc agaagctgga cctgagtaag atctacttca aaaacgataa gagtctgaca 1200 gacctgtcac agcaggtgtt tgatgactat tccgtgattg ggaccgccgt cctggagtac 1260 attacacagc agatcgctcc aaagaacctg gataatccct ctaagaaaga gcaggaactg 1320 atcgctaaga aaaccgagaa ggcaaaatat ctgagtctgg aaacaattaa gctggcactg 1380 gaggagttca acaagcacag ggatattgac aaacagtgcc gctttgagga aatcctggcc 1440 aacttcgcag ccatccccat gatttttgat gagatcgccc agaacaaaga caatctggct 1500 cagatcagta ttaagtacca gaaccagggc aagaaagacc tgctgcaggc ttcagcagaa 1560 gatgacgtga aagccatcaa ggatctgctg gaccagacca acaatctgct gcacaagctg 1620 aaaatcttcc atattagtca gtcagaggat aaggctaata tcctggataa agacgaacac 1680 ttctacctgg tgttcgagga atgttacttc gagctggcaa acattgtccc cctgtataac 1740 aagattagga actacatcac acagaagcct tactctgacg agaagtttaa actgaacttc 1800 gaaaatagta ccctggccaa cgggtgggat aagaacaagg agcctgacaa cacagctatc 1860 ctgttcatca aggatgacaa gtactatctg ggagtgatga ataagaaaaa caataagatc 1920 ttcgatgaca aagccattaa ggagaacaaa ggggaaggat acaagaaaat cgtgtataag 1980 ctgctgcccg gcgcaaataa gatgctgcct aaggtgttct tcagcgccaa gagtatcaaa 2040 ttctacaacc catccgagga catcctgcgg attagaaatc actcaacaca tactaagaac 2100 gggagccccc agaagggata tgagaaattt gagttcaaca tcgaggattg caggaagttt 2160 attgacttct acaagcagag catctccaaa caccctgaat ggaaggattt tggcttccgg 2220 ttttccgaca cacagagata taactctatc gacgagttct accgcgaggt ggaaaatcag 2280 gggtataagc tgacttttga gaacatttct gaaagttaca tcgacagcgt ggtcaatcag 2340 ggaaagctgt acctgttcca gatctataac aaagattttt cagcatacag caagggcaga 2400 ccaaacctgc atacactgta ctggaaggcc ctgttcgatg agaggaatct gcaggacgtg 2460 gtctataaac tgaacggaga ggccgaactg ttttaccgga agcagtctat tcctaagaaa 2520 atcactcacc cagctaagga ggccatcgct aacaagaaca aggacaatcc taagaaagag 2580 agcgtgttcg aatacgatct gattaaggac aagcggttca ccgaagataa gttctttttc 2640 cattgtccaa tcaccattaa cttcaagtca agcggcgcta acaagttcaa cgacgagatc 2700 aatctgctgc tgaaggaaaa agcaaacgat gtgcacatcc tgagcattga ccgaggagag 2760 cggcatctgg cctactatac cctggtggat ggcaaaggga atatcattaa gcaggataca 2820 ttcaacatca ttggcaatga ccggatgaaa accaactacc acgataaact ggctgcaatc 2880 gagaaggata gagactcagc taggaaggac tggaagaaaa tcaacaacat taaggagatg 2940 aaggaaggct atctgagcca ggtggtccat gagattgcaa agctggtcat cgaatacaat 3000 gccattgtgg tgttcgagga tctgaacttc ggctttaaga gggggcgctt taaggtggaa 3060 aaacaggtct atcagaagct ggagaaaatg ctgatcgaaa agctgaatta cctggtgttt 3120 aaagataacg agttcgacaa gaccggaggc gtcctgagag cctaccagct gacagctccc 3180 tttgaaactt tcaagaaaat gggaaaacag acaggcatca tctactatgt gccagccgga 3240 ttcacttcca agatctgccc cgtgaccggc tttgtcaacc agctgtaccc taaatatgag 3300 tcagtgagca agtcccagga atttttcagc aagttcgata agatctgtta taatctggac 3360 aaggggtact tcgagttttc cttcgattac aagaacttcg gcgacaaggc cgctaagggg 3420 aaatggacca ttgcctcctt cggatctcgc ctgatcaact ttcgaaattc cgataaaaac 3480 cacaattggg acactaggga ggtgtaccca accaaggagc tggaaaagct gctgaaagac 3540 tactctatcg agtatggaca tggcgaatgc atcaaggcag ccatctgtgg cgagagtgat 3600 aagaaatttt tcgccaagct gacctcagtg ctgaatacaa tcctgcagat gcggaactca 3660 aagaccggga cagaactgga ctatctgatt agccccgtgg ctgatgtcaa cggaaacttc 3720 ttcgacagca gacaggcacc caaaaatatg cctcaggatg cagacgccaa cggggcctac 3780 cacatcgggc tgaagggact gatgctgctg ggccggatca agaacaatca ggaggggaag 3840 aagctgaacc tggtcattaa gaacgaggaa tacttcgagt ttgtccagaa tagaaataac 3900 aaaaggccgg cggccacgaa aaaggccggc caggcaaaaa agaaaaaggg atcctaccca 3960 tacgatgttc cagattacgc ttatccctac gacgtgcctg attatgcata cccatatgat 4020 gtccccgact atgcctaa 4038 <210> 48 <211> 4257 <212> DNA <213> Artificial Sequence <220> <223> DNA encoding MbCpf1 <400> 48 atgctgttcc aggactttac ccacctgtat ccactgtcca agacagtgag atttgagctg 60 aagcccatcg ataggaccct ggagcacatc cacgccaaga acttcctgtc tcaggacgag 120 acaatggccg atatgcacca gaaggtgaaa gtgatcctgg acgattacca ccgcgacttc 180 atcgccgata tgatgggcga ggtgaagctg accaagctgg ccgagttcta tgacgtgtac 240 ctgaagtttc ggaagaaccc aaaggacgat gagctgcaga agcagctgaa ggatctgcag 300 gccgtgctga gaaaggagat cgtgaagccc atcggcaatg gcggcaagta taaggccggc 360 tacgacaggc tgttcggcgc caagctgttt aaggacggca aggagctggg cgatctggcc 420 aagttcgtga tcgcacagga gggagagagc tccccaaagc tggcccacct ggcccacttc 480 gagaagtttt ccacctattt cacaggcttt cacgataacc ggaagaatat gtattctgac 540 gaggataagc acaccgccat cgcctaccgc ctgatccacg agaacctgcc ccggtttatc 600 gacaatctgc agatcctgac cacaatcaag cagaagcact ctgccctgta cgatcagatc 660 atcaacgagc tgaccgccag cggcctggac gtgtctctgg ccagccacct ggatggctat 720 cacaagctgc tgacacagga gggcatcacc gcctacaata cactgctggg aggaatctcc 780 ggagaggcag gctctcctaa gatccagggc atcaacgagc tgatcaattc tcaccacaac 840 cagcactgcc acaagagcga gagaatcgcc aagctgaggc cactgcacaa gcagatcctg 900 tccgacggca tgagcgtgtc cttcctgccc tctaagtttg ccgacgatag cgagatgtgc 960 caggccgtga acgagttcta tcgccactac gccgacgtgt tcgccaaggt gcagagcctg 1020 ttcgacggct ttgacgatca ccagaaggat ggcatctacg tggagcacaa gaacctgaat 1080 gagctgtcca agcaggcctt cggcgacttt gcactgctgg gacgcgtgct ggacggatac 1140 tatgtggatg tggtgaatcc agagttcaac gagcggtttg ccaaggccaa gaccgacaat 1200 gccaaggcca agctgacaaa ggagaaggat aagttcatca agggcgtgca ctccctggcc 1260 tctctggagc aggccatcga gcactatacc gcaaggcacg acgatgagag cgtgcaggca 1320 ggcaagctgg gacagtactt caagcacggc ctggccggag tggacaaccc catccagaag 1380 atccacaaca atcacagcac catcaagggc tttctggaga gggagcgccc tgcaggagag 1440 agagccctgc caaagatcaa gtccggcaag aatcctgaga tgacacagct gaggcagctg 1500 aaggagctgc tggataacgc cctgaatgtg gcccacttcg ccaagctgct gaccacaaag 1560 accacactgg acaatcagga tggcaacttc tatggcgagt ttggcgtgct gtacgacgag 1620 ctggccaaga tccccaccct gtataacaag gtgagagatt acctgagcca gaagcctttc 1680 tccaccgaga agtacaagct gaactttggc aatccaacac tgctgaatgg ctgggacctg 1740 aacaaggaga aggataattt cggcgtgatc ctgcagaagg acggctgcta ctatctggcc 1800 ctgctggaca aggcccacaa gaaggtgttt gataacgccc ctaatacagg caagagcatc 1860 tatcagaaga tgatctataa gtacctggag gtgaggaagc agttccccaa ggtgttcttt 1920 tccaaggagg ccatcgccat caactaccac ccttctaagg agctggtgga gatcaaggac 1980 aagggccggc agagatccga cgatgagcgc ctgaagctgt atcggtttat cctggagtgt 2040 ctgaagatcc accctaagta cgataagaag ttcgagggcg ccatcggcga catccagctg 2100 tttaagaagg ataagaaggg cagagaggtg ccaatcagcg agaaggacct gttcgataag 2160 atcaacggca tcttttctag caagcctaag ctggagatgg aggacttctt tatcggcgag 2220 ttcaagaggt ataacccaag ccaggacctg gtggatcagt ataatatcta caagaagatc 2280 gactccaacg ataatcgcaa gaaggagaat ttctacaaca atcaccccaa gtttaagaag 2340 gatctggtgc ggtactatta cgagtctatg tgcaagcacg aggagtggga ggagagcttc 2400 gagttttcca agaagctgca ggacatcggc tgttacgtgg atgtgaacga gctgtttacc 2460 gagatcgaga cacggagact gaattataag atctccttct gcaacatcaa tgccgactac 2520 atcgatgagc tggtggagca gggccagctg tatctgttcc agatctacaa caaggacttt 2580 tccccaaagg cccacggcaa gcccaatctg cacaccctgt acttcaaggc cctgttttct 2640 gaggacaacc tggccgatcc tatctataag ctgaatggcg aggcccagat cttctacaga 2700 aaggcctccc tggacatgaa cgagacaaca atccacaggg ccggcgaggt gctggagaac 2760 aagaatcccg ataatcctaa gaagagacag ttcgtgtacg acatcatcaa ggataagagg 2820 tacacacagg acaagttcat gctgcacgtg ccaatcacca tgaactttgg cgtgcagggc 2880 atgacaatca aggagttcaa taagaaggtg aaccagtcta tccagcagta tgacgaggtg 2940 aacgtgatcg gcatcgatcg gggcgagaga cacctgctgt acctgaccgt gatcaatagc 3000 aagggcgaga tcctggagca gtgttccctg aacgacatca ccacagcctc tgccaatggc 3060 acacagatga ccacacctta ccacaagatc ctggataaga gggagatcga gcgcctgaac 3120 gcccgggtgg gatggggcga gatcgagaca atcaaggagc tgaagtctgg ctatctgagc 3180 cacgtggtgc accagatcag ccagctgatg ctgaagtaca acgccatcgt ggtgctggag 3240 gacctgaatt tcggctttaa gaggggccgc tttaaggtgg agaagcagat ctatcagaac 3300 ttcgagaatg ccctgatcaa gaagctgaac cacctggtgc tgaaggacaa ggccgacgat 3360 gagatcggct cttacaagaa tgccctgcag ctgaccaaca atttcacaga tctgaagagc 3420 atcggcaagc agaccggctt cctgttttat gtgcccgcct ggaacacctc taagatcgac 3480 cctgagacag gctttgtgga tctgctgaag ccaagatacg agaacatcgc ccagagccag 3540 gccttctttg gcaagttcga caagatctgc tataatgccg acaaggatta cttcgagttt 3600 cacatcgact acgccaagtt taccgataag gccaagaata gccgccagat ctggacaatc 3660 tgttcccacg gcgacaagcg gtacgtgtac gataagacag ccaaccagaa taagggcgcc 3720 gccaagggca tcaacgtgaa tgatgagctg aagtccctgt tcgcccgcca ccacatcaac 3780 gagaagcagc ccaacctggt catggacatc tgccagaaca atgataagga gtttcacaag 3840 tctctgatgt acctgctgaa aaccctgctg gccctgcggt acagcaacgc ctcctctgac 3900 gaggatttca tcctgtcccc cgtggcaaac gacgagggcg tgttctttaa tagcgccctg 3960 gccgacgata cacagcctca gaatgccgat gccaacggcg cctaccacat cgccctgaag 4020 ggcctgtggc tgctgaatga gctgaagaac tccgacgatc tgaacaaggt gaagctggcc 4080 atcgacaatc agacctggct gaatttcgcc cagaacagga aaaggccggc ggccacgaaa 4140 aaggccggcc aggcaaaaaa gaaaaaggga tcctacccat acgatgttcc agattacgct 4200 tatccctacg acgtgcctga ttatgcatac ccatatgatg tccccgacta tgcctaa 4257 <210> 49 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Cpf1 target sequence of CCR5-8 <400> 49 acaccgaagc agagttttta gg 22 <210> 50 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> SpCas9 sgRNA target sequence of DNMT1-3 <400> 50 agtaacagac atggaccatc 20 <210> 51 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> SpCas9 sgRNA target sequence of DNMT1-4 <400> 51 tttcccttca gctaaaataa 20 <210> 52 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> SpCas9 sgRNA target sequence of AAVS1 <400> 52 tgcttacgat ggagccagag 20 <210> 53 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> SpCas9 sgRNA target sequence of EMX1 <400> 53 aggtgtggtt ccagaaccgg 20 <210> 54 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> SpCas9 sgRNA target sequence of CCR5-1 <400> 54 tggttttgtg ggcaacatgc 20 <210> 55 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> SpCas9 sgRNA target sequence of CCR5-9 <400> 55 tagagctact gcaattattc 20 <210> 56 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> SpCas9 sgRNA target sequence of HPRT-1 <400> 56 gtgctttgat gtaatccagc 20 <210> 57 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> SpCas9 sgRNA target sequence of HPRT-4 <400> 57 ctagaatgac cagtcaacag 20 <210> 58 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> SpCas9 sgRNA target sequence of HBB-1 <400> 58 tccactcctg atgctgttat 20 <210> 59 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> SpCas9 sgRNA target sequence of VEGFA <400> 59 agcgagaaca gcccagaagt 20 <210> 60 <211> 22 <212> RNA <213> Artificial Sequence <220> <223> General formula of Cpf1 crRNA <220> <221> misc_feature <222> (1) <223> n is absent, U, A, or G <220> <221> misc_feature <222> (2) <223> n is A, or G <220> <221> misc_feature <222> (5) <223> n is U, A, or C <220> <221> misc_feature <222> (12) <223> n is absent, G, C, or A <220> <221> misc_feature <222> (13) <223> n is absent, A, U, C, or G <220> <221> misc_feature <222> (14) <223> n is U, G, or C <220> <221> misc_feature <222> (15) <223> n is U or G <400> 60 nnaunucuac unnnnguaga un 22 <210> 61 <211> 14 <212> RNA <213> Artificial Sequence <220> <223> General formula of SpCas9 crRNA <220> <221> misc_feature <222> (1) <223> n is targeting sequence comprising 18-22 or 20 nucleotides <220> <221> misc_feature <222> (14) <223> n comprises 8-12 or 10 nucleotides, each of which is A, U, C, or G <400> 61 nguuuuagag cuan 14 <210> 62 <211> 61 <212> RNA <213> Artificial Sequence <220> <223> General formula of SpCas9 tracrRNA <220> <221> misc_feature <222> (1) <223> n comprises 6-20 or 8-19 nucleotides, each of which is A, U, C, or G <400> 62 nuagcaaguu aaaauaaggc uaguccguua ucaacuugaa aaaguggcac cgagucggug 60 c 61 <210> 63 <211> 80 <212> RNA <213> Artificial Sequence <220> <223> General formula of SpCas9 sgRNA <220> <221> misc_feature <222> (1) <223> n is targeting sequence comprising 18-22 or 20 nucleotides <220> <221> misc_feature <222> (14) <223> n is a linker comprising 3-5 or 4 nucleotides <400> 63 nguuucaguu gcunaugcuc uguaaucauu uaaaaguauu uugaacggac cucuguuuga 60 cacgucugaa uaacuaaaaa 80 <210> 64 <211> 655 <212> DNA <213> Artificial Sequence <220> <223> CMV promoter <400> 64 cgatgtacgg gccagatata cgcgttgaca ttgattattg actagttatt aatagtaatc 60 aattacgggg tcattagttc atagcccata tatggagttc cgcgttacat aacttacggt 120 aaatggcccg cctggctgac cgcccaacga cccccgccca ttgacgtcaa taatgacgta 180 tgttcccata gtaacgccaa tagggacttt ccattgacgt caatgggtgg actatttacg 240 gtaaactgcc cacttggcag tacatcaagt gtatcatatg ccaagtacgc cccctattga 300 cgtcaatgac ggtaaatggc ccgcctggca ttatgcccag tacatgacct tatgggactt 360 tcctacttgg cagtacatct acgtattagt catcgctatt accatggtga tgcggttttg 420 gcagtacatc aatgggcgtg gatagcggtt tgactcacgg ggatttccaa gtctccaccc 480 cattgacgtc aatgggagtt tgttttggca ccaaaatcaa cgggactttc caaaatgtcg 540 taacaactcc gccccattga cgcaaatggg cggtaggcgt gtacggtggg aggtctatat 600 aagcagagct ctctggctaa ctagagaacc cactgcttac tggcttatcg aaatt 655 <210> 65 <211> 2436 <212> DNA <213> Artificial Sequence <220> <223> pU6-As-crRNA <400> 65 gacgaagact caattgtcga ttagtgaacg gatctcgacg gtatcgatca cgagactagc 60 ctcgagcggc cgcccccttc accgagggcc tatttcccat gattccttca tatttgcata 120 tacgatacaa ggctgttaga gagataattg gaattaattt gactgtaaac acaaagatat 180 tagtacaaaa tacgtgacgt agaaagtaat aatttcttgg gtagtttgca gttttaaaat 240 tatgttttaa aatggactat catatgctta ccgtaacttg aaagtatttc gatttcttgg 300 ctttatatat cttgtggaaa ggacgaaaca ccgtaatttc tactcttgta gatnnnnnnn 360 nnnnnnnnnn nnnnnntttt ttctagattc gcgatgtacg ggccagatat acgcgttgac 420 attgattatt gactagttgt cttcctgcat taatgaatcg gccaacgcgc ggggagaggc 480 ggtttgcgta ttgggcgctc ttccgcttcc tcgctcactg actcgctgcg ctcggtcgtt 540 cggctgcggc gagcggtatc agctcactca aaggcggtaa tacggttatc cacagaatca 600 ggggataacg caggaaagaa catgtgagca aaaggccagc aaaaggccag gaaccgtaaa 660 aaggccgcgt tgctggcgtt tttccatagg ctccgccccc ctgacgagca tcacaaaaat 720 cgacgctcaa gtcagaggtg gcgaaacccg acaggactat aaagatacca ggcgtttccc 780 cctggaagct ccctcgtgcg ctctcctgtt ccgaccctgc cgcttaccgg atacctgtcc 840 gcctttctcc cttcgggaag cgtggcgctt tctcaatgct cacgctgtag gtatctcagt 900 tcggtgtagg tcgttcgctc caagctgggc tgtgtgcacg aaccccccgt tcagcccgac 960 cgctgcgcct tatccggtaa ctatcgtctt gagtccaacc cggtaagaca cgacttatcg 1020 ccactggcag cagccactgg taacaggatt agcagagcga ggtatgtagg cggtgctaca 1080 gagttcttga agtggtggcc taactacggc tacactagaa ggacagtatt tggtatctgc 1140 gctctgctga agccagttac cttcggaaaa agagttggta gctcttgatc cggcaaacaa 1200 accaccgctg gtagcggtgg tttttttgtt tgcaagcagc agattacgcg cagaaaaaaa 1260 ggatctcaag aagatccttt gatcttttct acggggtctg acgctcagtg gaacgaaaac 1320 tcacgttaag ggattttggt catgagatta tcaaaaagga tcttcaccta gatcctttta 1380 aattaaaaat gaagttttaa atcaatctaa agtatatatg agtaaacttg gtctgacagt 1440 taccaatgct taatcagtga ggcacctatc tcagcgatct gtctatttcg ttcatccata 1500 gttgcctgac tccccgtcgt gtagataact acgatacggg agggcttacc atctggcccc 1560 agtgctgcaa tgataccgcg agatccacgc tcaccggctc cagatttatc agcaataaac 1620 cagccagccg gaagggccga gcgcagaagt ggtcctgcaa ctttatccgc ctccatccag 1680 tctattaatt gttgccggga agctagagta agtagttcgc cagttaatag tttgcgcaac 1740 gttgttgcca ttgctacagg catcgtggtg tcacgctcgt cgtttggtat ggcttcattc 1800 agctccggtt cccaacgatc aaggcgagtt acatgatccc ccatgttgtg caaaaaagcg 1860 gttagctcct tcggtcctcc gatcgttgtc agaagtaagt tggccgcagt gttatcactc 1920 atggttatgg cagcactgca taattctctt actgtcatgc catccgtaag atgcttttct 1980 gtgactggtg agtactcaac caagtcattc tgagaatagt gtatgcggcg accgagttgc 2040 tcttgcccgg cgtcaatacg ggataatacc gcgccacata gcagaacttt aaaagtgctc 2100 atcattggaa aacgttcttc ggggcgaaaa ctctcaagga tcttaccgct gttgagatcc 2160 agttcgatgt aacccactcg tgcacccaac tgatcttcag catcttttac tttcaccagc 2220 gtttctgggt gagcaaaaac aggaaggcaa aatgccgcaa aaaagggaat aagggcgaca 2280 cggaaatgtt gaatactcat actcttcctt tttcaatatt attgaagcat ttatcagggt 2340 tattgtctca tgagcggata catatttgaa tgtatttaga aaaataaaca aataggggtt 2400 ccgcgcacat ttccccgaaa agtgccacct gacgtc 2436 <210> 66 <211> 2436 <212> DNA <213> Artificial Sequence <220> <223> pU6-Lb-crRNA <400> 66 gacgaagact caattgtcga ttagtgaacg gatctcgacg gtatcgatca cgagactagc 60 ctcgagcggc cgcccccttc accgagggcc tatttcccat gattccttca tatttgcata 120 tacgatacaa ggctgttaga gagataattg gaattaattt gactgtaaac acaaagatat 180 tagtacaaaa tacgtgacgt agaaagtaat aatttcttgg gtagtttgca gttttaaaat 240 tatgttttaa aatggactat catatgctta ccgtaacttg aaagtatttc gatttcttgg 300 ctttatatat cttgtggaaa ggacgaaaca ccgaatttct actaagtgta gatnnnnnnn 360 nnnnnnnnnn nnnnnntttt ttctagattc gcgatgtacg ggccagatat acgcgttgac 420 attgattatt gactagttgt cttcctgcat taatgaatcg gccaacgcgc ggggagaggc 480 ggtttgcgta ttgggcgctc ttccgcttcc tcgctcactg actcgctgcg ctcggtcgtt 540 cggctgcggc gagcggtatc agctcactca aaggcggtaa tacggttatc cacagaatca 600 ggggataacg caggaaagaa catgtgagca aaaggccagc aaaaggccag gaaccgtaaa 660 aaggccgcgt tgctggcgtt tttccatagg ctccgccccc ctgacgagca tcacaaaaat 720 cgacgctcaa gtcagaggtg gcgaaacccg acaggactat aaagatacca ggcgtttccc 780 cctggaagct ccctcgtgcg ctctcctgtt ccgaccctgc cgcttaccgg atacctgtcc 840 gcctttctcc cttcgggaag cgtggcgctt tctcaatgct cacgctgtag gtatctcagt 900 tcggtgtagg tcgttcgctc caagctgggc tgtgtgcacg aaccccccgt tcagcccgac 960 cgctgcgcct tatccggtaa ctatcgtctt gagtccaacc cggtaagaca cgacttatcg 1020 ccactggcag cagccactgg taacaggatt agcagagcga ggtatgtagg cggtgctaca 1080 gagttcttga agtggtggcc taactacggc tacactagaa ggacagtatt tggtatctgc 1140 gctctgctga agccagttac cttcggaaaa agagttggta gctcttgatc cggcaaacaa 1200 accaccgctg gtagcggtgg tttttttgtt tgcaagcagc agattacgcg cagaaaaaaa 1260 ggatctcaag aagatccttt gatcttttct acggggtctg acgctcagtg gaacgaaaac 1320 tcacgttaag ggattttggt catgagatta tcaaaaagga tcttcaccta gatcctttta 1380 aattaaaaat gaagttttaa atcaatctaa agtatatatg agtaaacttg gtctgacagt 1440 taccaatgct taatcagtga ggcacctatc tcagcgatct gtctatttcg ttcatccata 1500 gttgcctgac tccccgtcgt gtagataact acgatacggg agggcttacc atctggcccc 1560 agtgctgcaa tgataccgcg agatccacgc tcaccggctc cagatttatc agcaataaac 1620 cagccagccg gaagggccga gcgcagaagt ggtcctgcaa ctttatccgc ctccatccag 1680 tctattaatt gttgccggga agctagagta agtagttcgc cagttaatag tttgcgcaac 1740 gttgttgcca ttgctacagg catcgtggtg tcacgctcgt cgtttggtat ggcttcattc 1800 agctccggtt cccaacgatc aaggcgagtt acatgatccc ccatgttgtg caaaaaagcg 1860 gttagctcct tcggtcctcc gatcgttgtc agaagtaagt tggccgcagt gttatcactc 1920 atggttatgg cagcactgca taattctctt actgtcatgc catccgtaag atgcttttct 1980 gtgactggtg agtactcaac caagtcattc tgagaatagt gtatgcggcg accgagttgc 2040 tcttgcccgg cgtcaatacg ggataatacc gcgccacata gcagaacttt aaaagtgctc 2100 atcattggaa aacgttcttc ggggcgaaaa ctctcaagga tcttaccgct gttgagatcc 2160 agttcgatgt aacccactcg tgcacccaac tgatcttcag catcttttac tttcaccagc 2220 gtttctgggt gagcaaaaac aggaaggcaa aatgccgcaa aaaagggaat aagggcgaca 2280 cggaaatgtt gaatactcat actcttcctt tttcaatatt attgaagcat ttatcagggt 2340 tattgtctca tgagcggata catatttgaa tgtatttaga aaaataaaca aataggggtt 2400 ccgcgcacat ttccccgaaa agtgccacct gacgtc 2436 <210> 67 <211> 293 <212> DNA <213> Artificial Sequence <220> <223> U6-As-crRNA-amplicon <400> 67 gagggcctat ttcccatgat tccttcatat ttgcatatac gatacaaggc tgttagagag 60 ataattggaa ttaatttgac tgtaaacaca aagatattag tacaaaatac gtgacgtaga 120 aagtaataat ttcttgggta gtttgcagtt ttaaaattat gttttaaaat ggactatcat 180 atgcttaccg taacttgaaa gtatttcgat ttcttggctt tatatatctt gtggaaagga 240 cgaaacaccg taatttctac tcttgtagat nnnnnnnnnn nnnnnnnnnn nnn 293 <210> 68 <211> 293 <212> DNA <213> Artificial Sequence <220> <223> U6-Lb-crRNA-amplicon <400> 68 gagggcctat ttcccatgat tccttcatat ttgcatatac gatacaaggc tgttagagag 60 ataattggaa ttaatttgac tgtaaacaca aagatattag tacaaaatac gtgacgtaga 120 aagtaataat ttcttgggta gtttgcagtt ttaaaattat gttttaaaat ggactatcat 180 atgcttaccg taacttgaaa gtatttcgat ttcttggctt tatatatctt gtggaaagga 240 cgaaacaccg aatttctact aagtgtagat nnnnnnnnnn nnnnnnnnnn nnn 293 <210> 69 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> LB-TS1 (LbCpf1-Target Sequence 1) <400> 69 tatgagcttg ctcatcagtt gcc 23 <210> 70 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> LB-TS2 <400> 70 aactaactgg acacagtgtg ttt 23 <210> 71 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> LB-TS3 <400> 71 attttactca tccatgtgac cat 23 <210> 72 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> LB-TS4 <400> 72 actcatccat gtgaccatga gga 23 <210> 73 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> LB-TS5 <400> 73 ctaaaggaca agtcaccaca gga 23 <210> 74 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> LB-TS6 <400> 74 gcaagcatcc tgtactgtcc tgt 23 <210> 75 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> LB-TS7 <400> 75 ggcaagcatc ctgtactgtc ctg 23 <210> 76 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> LB-TS8 <400> 76 aacccagaca tatccacctc ttt 23 <210> 77 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> LB-TS9 <400> 77 ttgaagggag aaaatcaagt cgt 23 <210> 78 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> LB-TS10 <400> 78 gacagtggta ttattcagca cga 23 <210> 79 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> LB-TS11 <400> 79 acagtggtat tattcagcac gac 23 <210> 80 <211> 7585 <212> DNA <213> Artificial Sequence <220> <223> AAV vector containing HIF1-alpha crRNA <400> 80 cctgcaggca gctgcgcgct cgctcgctca ctgaggccgc ccgggcgtcg ggcgaccttt 60 ggtcgcccgg cctcagtgag cgagcgagcg cgcagagagg gagtggccaa ctccatcact 120 aggggttcct gcggccgcac gcgtgagggc ctatttccca tgattccttc atatttgcat 180 atacgataca aggctgttag agagataatt ggaattaatt tgactgtaaa cacaaagata 240 ttagtacaaa atacgtgacg tagaaagtaa taatttcttg ggtagtttgc agttttaaaa 300 ttatgtttta aaatggacta tcatatgctt accgtaactt gaaagtattt cgatttcttg 360 gctttatata tcttgtggaa aggacgaaac accgaatttc tactaagtgt agatgcaagc 420 atcctgtact gtcctgtttt tttctagatt cgctagctag gtcttgaaag gagtgggaat 480 tggctccggt gcccgtcagt gggcagagcg cacatcgccc acagtccccg agaagttggg 540 gggaggggtc ggcaattgat ccggtgccta gagaaggtgg cgcggggtaa actgggaaag 600 tgatgtcgtg tactggctcc gcctttttcc cgagggtggg ggagaaccgt atataagtgc 660 agtagtcgcc gtgaacgttc tttttcgcaa cgggtttgcc gccagaacac aggaccggtt 720 ctagagcgct aagcttggta ccgccaccat gagcaagctg gagaagttta caaactgcta 780 ctccctgtct aagaccctga ggttcaaggc catccctgtg ggcaagaccc aggagaacat 840 cgacaataag cggctgctgg tggaggacga gaagagagcc gaggattata agggcgtgaa 900 gaagctgctg gatcgctact atctgtcttt tatcaacgac gtgctgcaca gcatcaagct 960 gaagaatctg aacaattaca tcagcctgtt ccggaagaaa accagaaccg agaaggagaa 1020 taaggagctg gagaacctgg agatcaatct gcggaaggag atcgccaagg ccttcaaggg 1080 caacgagggc tacaagtccc tgtttaagaa ggatatcatc gagacaatcc tgccagagtt 1140 cctggacgat aaggacgaga tcgccctggt gaacagcttc aatggcttta ccacagcctt 1200 caccggcttc tttgataaca gagagaatat gttttccgag gaggccaaga gcacatccat 1260 cgccttcagg tgtatcaacg agaatctgac ccgctacatc tctaatatgg acatcttcga 1320 gaaggtggac gccatctttg ataagcacga ggtgcaggag atcaaggaga agatcctgaa 1380 cagcgactat gatgtggagg atttctttga gggcgagttc tttaactttg tgctgacaca 1440 ggagggcatc gacgtgtata acgccatcat cggcggcttc gtgaccgaga gcggcgagaa 1500 gatcaagggc ctgaacgagt acatcaacct gtataatcag aaaaccaagc agaagctgcc 1560 taagtttaag ccactgtata agcaggtgct gagcgatcgg gagtctctga gcttctacgg 1620 cgagggctat acatccgatg aggaggtgct ggaggtgttt agaaacaccc tgaacaagaa 1680 cagcgagatc ttcagctcca tcaagaagct ggagaagctg ttcaagaatt ttgacgagta 1740 ctctagcgcc ggcatctttg tgaagaacgg ccccgccatc agcacaatct ccaaggatat 1800 cttcggcgag tggaacgtga tccgggacaa gtggaatgcc gagtatgacg atatccacct 1860 gaagaagaag gccgtggtga ccgagaagta cgaggacgat cggagaaagt ccttcaagaa 1920 gatcggctcc ttttctctgg agcagctgca ggagtacgcc gacgccgatc tgtctgtggt 1980 ggagaagctg aaggagatca tcatccagaa ggtggatgag atctacaagg tgtatggctc 2040 ctctgagaag ctgttcgacg ccgattttgt gctggagaag agcctgaaga agaacgacgc 2100 cgtggtggcc atcatgaagg acctgctgga ttctgtgaag agcttcgaga attacatcaa 2160 ggccttcttt ggcgagggca aggagacaaa cagggacgag tccttctatg gcgattttgt 2220 gctggcctac gacatcctgc tgaaggtgga ccacatctac gatgccatcc gcaattatgt 2280 gacccagaag ccctactcta aggataagtt caagctgtat tttcagaacc ctcagttcat 2340 gggcggctgg gacaaggata aggagacaga ctatcgggcc accatcctga gatacggctc 2400 caagtactat ctggccatca tggataagaa gtacgccaag tgcctgcaga agatcgacaa 2460 ggacgatgtg aacggcaatt acgagaagat caactataag ctgctgcccg gccctaataa 2520 gatgctgcca aaggtgttct tttctaagaa gtggatggcc tactataacc ccagcgagga 2580 catccagaag atctacaaga atggcacatt caagaagggc gatatgttta acctgaatga 2640 ctgtcacaag ctgatcgact tctttaagga tagcatctcc cggtatccaa agtggtccaa 2700 tgcctacgat ttcaactttt ctgagacaga gaagtataag gacatcgccg gcttttacag 2760 agaggtggag gagcagggct ataaggtgag cttcgagtct gccagcaaga aggaggtgga 2820 taagctggtg gaggagggca agctgtatat gttccagatc tataacaagg acttttccga 2880 taagtctcac ggcacaccca atctgcacac catgtacttc aagctgctgt ttgacgagaa 2940 caatcacgga cagatcaggc tgagcggagg agcagagctg ttcatgaggc gcgcctccct 3000 gaagaaggag gagctggtgg tgcacccagc caactcccct atcgccaaca agaatccaga 3060 taatcccaag aaaaccacaa ccctgtccta cgacgtgtat aaggataaga ggttttctga 3120 ggaccagtac gagctgcaca tcccaatcgc catcaataag tgccccaaga acatcttcaa 3180 gatcaataca gaggtgcgcg tgctgctgaa gcacgacgat aacccctatg tgatcggcat 3240 cgataggggc gagcgcaatc tgctgtatat cgtggtggtg gacggcaagg gcaacatcgt 3300 ggagcagtat tccctgaacg agatcatcaa caacttcaac ggcatcagga tcaagacaga 3360 ttaccactct ctgctggaca agaaggagaa ggagaggttc gaggcccgcc agaactggac 3420 ctccatcgag aatatcaagg agctgaaggc cggctatatc tctcaggtgg tgcacaagat 3480 ctgcgagctg gtggagaagt acgatgccgt gatcgccctg gaggacctga actctggctt 3540 taagaatagc cgcgtgaagg tggagaagca ggtgtatcag aagttcgaga agatgctgat 3600 cgataagctg aactacatgg tggacaagaa gtctaatcct tgtgcaacag gcggcgccct 3660 gaagggctat cagatcacca ataagttcga gagctttaag tccatgtcta cccagaacgg 3720 cttcatcttt tacatccctg cctggctgac atccaagatc gatccatcta ccggctttgt 3780 gaacctgctg aaaaccaagt ataccagcat cgccgattcc aagaagttca tcagctcctt 3840 tgacaggatc atgtacgtgc ccgaggagga tctgttcgag tttgccctgg actataagaa 3900 cttctctcgc acagacgccg attacatcaa gaagtggaag ctgtactcct acggcaaccg 3960 gatcagaatc ttccggaatc ctaagaagaa caacgtgttc gactgggagg aggtgtgcct 4020 gaccagcgcc tataaggagc tgttcaacaa gtacggcatc aattatcagc agggcgatat 4080 cagagccctg ctgtgcgagc agtccgacaa ggccttctac tctagcttta tggccctgat 4140 gagcctgatg ctgcagatgc ggaacagcat cacaggccgc accgacgtgg attttctgat 4200 cagccctgtg aagaactccg acggcatctt ctacgatagc cggaactatg aggcccagga 4260 gaatgccatc ctgccaaaga acgccgacgc caatggcgcc tataacatcg ccagaaaggt 4320 gctgtgggcc atcggccagt tcaagaaggc cgaggacgag aagctggata aggtgaagat 4380 cgccatctct aacaaggagt ggctggagta cgcccagacc agcgtgaagc acaaaaggcc 4440 ggcggccacg aaaaaggccg gccaggcaaa aaagaaaaag ggatcctacc catacgatgt 4500 tccagattac gcttatccct acgacgtgcc tgattatgca tacccatatg atgtccccga 4560 ctatgcctaa gaattcctcg ctgatcagcc tcgactgtgc cttctagttg ccagccatct 4620 gttgtttgcc cctcccccgt gccttccttg accctggaag gtgccactcc cactgtcctt 4680 tcctaataaa atgaggaaat tgcatcgcat tgtctgagta ggtgtcattc tattctgggg 4740 ggtggggtgg ggcaggacag caagggggag gattgggaag acaatagcag gcatgctggg 4800 gatgcggtgg gctctatggg gtaaccacgt gcggaccgag cggccgcagg aacccctagt 4860 gatggagttg gccactccct ctctgcgcgc tcgctcgctc actgaggccg ggcgaccaaa 4920 ggtcgcccga cgcccgggct ttgcccgggc ggcctcagtg agcgagcgag cgcgcagctg 4980 cctgcagggg cgcctgatgc ggtattttct ccttacgcat ctgtgcggta tttcacaccg 5040 catacgtcaa agcaaccata gtacgcgccc tgtagcggcg cattaagcgc ggcgggtgtg 5100 gtggttacgc gcagcgtgac cgctacactt gccagcgccc tagcgcccgc tcctttcgct 5160 ttcttccctt cctttctcgc cacgttcgcc ggctttcccc gtcaagctct aaatcggggg 5220 ctccctttag ggttccgatt tagtgcttta cggcacctcg accccaaaaa acttgatttg 5280 ggtgatggtt cacgtagtgg gccatcgccc tgatagacgg tttttcgccc tttgacgttg 5340 gagtccacgt tctttaatag tggactcttg ttccaaactg gaacaacact caaccctatc 5400 tcgggctatt cttttgattt ataagggatt ttgccgattt cggcctattg gttaaaaaat 5460 gagctgattt aacaaaaatt taacgcgaat tttaacaaaa tattaacgtt tacaatttta 5520 tggtgcactc tcagtacaat ctgctctgat gccgcatagt taagccagcc ccgacacccg 5580 ccaacacccg ctgacgcgcc ctgacgggct tgtctgctcc cggcatccgc ttacagacaa 5640 gctgtgaccg tctccgggag ctgcatgtgt cagaggtttt caccgtcatc accgaaacgc 5700 gcgagacgaa agggcctcgt gatacgccta tttttatagg ttaatgtcat gataataatg 5760 gtttcttaga cgtcaggtgg cacttttcgg ggaaatgtgc gcggaacccc tatttgttta 5820 tttttctaaa tacattcaaa tatgtatccg ctcatgagac aataaccctg ataaatgctt 5880 caataatatt gaaaaaggaa gagtatgagt attcaacatt tccgtgtcgc ccttattccc 5940 ttttttgcgg cattttgcct tcctgttttt gctcacccag aaacgctggt gaaagtaaaa 6000 gatgctgaag atcagttggg tgcacgagtg ggttacatcg aactggatct caacagcggt 6060 aagatccttg agagttttcg ccccgaagaa cgttttccaa tgatgagcac ttttaaagtt 6120 ctgctatgtg gcgcggtatt atcccgtatt gacgccgggc aagagcaact cggtcgccgc 6180 atacactatt ctcagaatga cttggttgag tactcaccag tcacagaaaa gcatcttacg 6240 gatggcatga cagtaagaga attatgcagt gctgccataa ccatgagtga taacactgcg 6300 gccaacttac ttctgacaac gatcggagga ccgaaggagc taaccgcttt tttgcacaac 6360 atgggggatc atgtaactcg ccttgatcgt tgggaaccgg agctgaatga agccatacca 6420 aacgacgagc gtgacaccac gatgcctgta gcaatggcaa caacgttgcg caaactatta 6480 actggcgaac tacttactct agcttcccgg caacaattaa tagactggat ggaggcggat 6540 aaagttgcag gaccacttct gcgctcggcc cttccggctg gctggtttat tgctgataaa 6600 tctggagccg gtgagcgtgg gtctcgcggt atcattgcag cactggggcc agatggtaag 6660 ccctcccgta tcgtagttat ctacacgacg gggagtcagg caactatgga tgaacgaaat 6720 agacagatcg ctgagatagg tgcctcactg attaagcatt ggtaactgtc agaccaagtt 6780 tactcatata tactttagat tgatttaaaa cttcattttt aatttaaaag gatctaggtg 6840 aagatccttt ttgataatct catgaccaaa atcccttaac gtgagttttc gttccactga 6900 gcgtcagacc ccgtagaaaa gatcaaagga tcttcttgag atcctttttt tctgcgcgta 6960 atctgctgct tgcaaacaaa aaaaccaccg ctaccagcgg tggtttgttt gccggatcaa 7020 gagctaccaa ctctttttcc gaaggtaact ggcttcagca gagcgcagat accaaatact 7080 gtccttctag tgtagccgta gttaggccac cacttcaaga actctgtagc accgcctaca 7140 tacctcgctc tgctaatcct gttaccagtg gctgctgcca gtggcgataa gtcgtgtctt 7200 accgggttgg actcaagacg atagttaccg gataaggcgc agcggtcggg ctgaacgggg 7260 ggttcgtgca cacagcccag cttggagcga acgacctaca ccgaactgag atacctacag 7320 cgtgagctat gagaaagcgc cacgcttccc gaagggagaa aggcggacag gtatccggta 7380 agcggcaggg tcggaacagg agagcgcacg agggagcttc cagggggaaa cgcctggtat 7440 ctttatagtc ctgtcgggtt tcgccacctc tgacttgagc gtcgattttt gtgatgctcg 7500 tcaggggggc ggagcctatg gaaaaacgcc agcaacgcgg cctttttacg gttcctggcc 7560 ttttgctggc cttttgctca catgt 7585 <210> 81 <211> 90 <212> PRT <213> Artificial Sequence <220> <223> FRB protein <400> 81 Glu Met Trp His Glu Gly Leu Glu Glu Ala Ser Arg Leu Tyr Phe Gly 1 5 10 15 Glu Arg Asn Val Lys Gly Met Phe Glu Val Leu Glu Pro Leu His Ala 20 25 30 Met Met Glu Arg Gly Pro Gln Thr Leu Lys Glu Thr Ser Phe Asn Gln 35 40 45 Ala Tyr Gly Arg Asp Leu Met Glu Ala Gln Glu Trp Cys Arg Lys Tyr 50 55 60 Met Lys Ser Gly Asn Val Lys Asp Leu Thr Gln Ala Trp Asp Leu Tyr 65 70 75 80 Tyr His Val Phe Arg Arg Ile Ser Lys Gln 85 90 <210> 82 <211> 107 <212> PRT <213> Artificial Sequence <220> <223> FKBP protein <400> 82 Gly Val Gln Val Glu Thr Ile Ser Pro Gly Asp Gly Arg Thr Phe Pro 1 5 10 15 Lys Arg Gly Gln Thr Cys Val Val His Tyr Thr Gly Met Leu Glu Asp 20 25 30 Gly Lys Lys Phe Asp Ser Ser Arg Asp Arg Asn Lys Pro Phe Lys Phe 35 40 45 Met Leu Gly Lys Gln Glu Val Ile Arg Gly Trp Glu Glu Gly Val Ala 50 55 60 Gln Met Ser Val Gly Gln Arg Ala Lys Leu Thr Ile Ser Pro Asp Tyr 65 70 75 80 Ala Tyr Gly Ala Thr Gly His Pro Gly Ile Ile Pro Pro His Ala Thr 85 90 95 Leu Val Phe Asp Val Glu Leu Leu Lys Leu Glu 100 105 <210> 83 <211> 2703 <212> DNA <213> Artificial Sequence <220> <223> Split-1-AsCpf1 Domain 1 coding DNA <400> 83 atgacacagt tcgagggctt taccaacctg tatcaggtga gcaagacact gcggtttgag 60 ctgatcccac agggcaagac cctgaagcac atccaggagc agggcttcat cgaggaggac 120 aaggcccgca atgatcacta caaggagctg aagcccatca tcgatcggat ctacaagacc 180 tatgccgacc agtgcctgca gctggtgcag ctggattggg agaacctgag cgccgccatc 240 gactcctata gaaaggagaa aaccgaggag acaaggaacg ccctgatcga ggagcaggcc 300 acatatcgca atgccatcca cgactacttc atcggccgga cagacaacct gaccgatgcc 360 atcaataaga gacacgccga gatctacaag ggcctgttca aggccgagct gtttaatggc 420 aaggtgctga agcagctggg caccgtgacc acaaccgagc acgagaacgc cctgctgcgg 480 agcttcgaca agtttacaac ctacttctcc ggcttttatg agaacaggaa gaacgtgttc 540 agcgccgagg atatcagcac agccatccca caccgcatcg tgcaggacaa cttccccaag 600 tttaaggaga attgtcacat cttcacacgc ctgatcaccg ccgtgcccag cctgcgggag 660 cactttgaga acgtgaagaa ggccatcggc atcttcgtga gcacctccat cgaggaggtg 720 ttttccttcc ctttttataa ccagctgctg acacagaccc agatcgacct gtataaccag 780 ctgctgggag gaatctctcg ggaggcaggc accgagaaga tcaagggcct gaacgaggtg 840 ctgaatctgg ccatccagaa gaatgatgag acagcccaca tcatcgcctc cctgccacac 900 agattcatcc ccctgtttaa gcagatcctg tccgatagga acaccctgtc tttcatcctg 960 gaggagttta agagcgacga ggaagtgatc cagtccttct gcaagtacaa gacactgctg 1020 agaaacgaga acgtgctgga gacagccgag gccctgttta acgagctgaa cagcatcgac 1080 ctgacacaca tcttcatcag ccacaagaag ctggagacaa tcagcagcgc cctgtgcgac 1140 cactgggata cactgaggaa tgccctgtat gagcggagaa tctccgagct gacaggcaag 1200 atcaccaagt ctgccaagga gaaggtgcag cgcagcctga agcacgagga tatcaacctg 1260 caggagatca tctctgccgc aggcaaggag ctgagcgagg ccttcaagca gaaaaccagc 1320 gagatcctgt cccacgcaca cgccgccctg gatcagccac tgcctacaac cctgaagaag 1380 caggaggaga aggagatcct gaagtctcag ctggacagcc tgctgggcct gtaccacctg 1440 ctggactggt ttgccgtgga tgagtccaac gaggtggacc ccgagttctc tgcccggctg 1500 accggcatca agctggagat ggagccttct ctgagcttct acaacaaggc cagaaattat 1560 gccaccaaga agccctactc cgtggagaag ttcaagctga actttcagat gcctacactg 1620 gcctctggct gggacgtgaa taaggagaag aacaatggcg ccatcctgtt tgtgaagaac 1680 ggcctgtact atctgggcat catgccaaag cagaagggca ggtataaggc cctgagcttc 1740 gagcccacag agaaaaccag cgagggcttt gataagatgt actatgacta cttccctgat 1800 gccgccaaga tgatcccaaa gtgcagcacc cagctgaagg ccgtgacagc ccactttcag 1860 acccacacaa cccccatcct gctgtccaac aatttcatcg agcctctgga gatcacaaag 1920 gagatctacg acctgaacaa tcctgagaag gagccaaaga agtttcagac agcctacgcc 1980 aagaaaaccg gcgaccagaa gggctacaga gaggccctgt gcaagtggat cgacttcaca 2040 agggattttc tgtccaagta taccaagaca acctctatcg atctgtctag cctgcggcca 2100 tcctctcagt ataaggacct gggcgagtac tatgccgagc tgaatcccct gctgtaccac 2160 atcagcttcc agagaatcgc cgagaaggag atcatggatg ccgtggagac aggcaagctg 2220 tacctgttcc agatctataa caaggacttt gccaagggcc accacggcaa gcctaatctg 2280 cacacactgt attggaccgg cctgttttct ccagagaacc tggccaagac aagcatcaag 2340 ctgaatggcc aggccgagct gttctaccgc cctaagtcca ggatgaagag gatggcacac 2400 cggctgggag agaagatgct gaacaagaag ctgaaggatc agaaaacccc aatccccgac 2460 accctgtacc aggagctgta cgactatgtg aatcacagac tgtcccacga cctgtctgat 2520 gaggccaggg ccctgctgcc caacgtgatc accaaggagg tgtctcacga gatcatcaag 2580 gataggcgct ttaccagcga caagttcttt ttccacgtgc ctatcacact gaactatcag 2640 gccgccaatt ccccatctaa gttcaaccag agggtgaatg cctacctgaa ggagcacccc 2700 gag 2703 <210> 84 <211> 1218 <212> DNA <213> Artificial Sequence <220> <223> Split-1-AsCpf1 Domain 2 coding DNA <400> 84 acacctatca tcggcatcga tcggggcgag agaaacctga tctatatcac agtgatcgac 60 tccaccggca agatcctgga gcagcggagc ctgaacacca tccagcagtt tgattaccag 120 aagaagctgg acaacaggga gaaggagagg gtggcagcaa ggcaggcctg gtctgtggtg 180 ggcacaatca aggatctgaa gcagggctat ctgagccagg tcatccacga gatcgtggac 240 ctgatgatcc actaccaggc cgtggtggtg ctggagaacc tgaatttcgg ctttaagagc 300 aagaggaccg gcatcgccga gaaggccgtg taccagcagt tcgagaagat gctgatcgat 360 aagctgaatt gcctggtgct gaaggactat ccagcagaga aagtgggagg cgtgctgaac 420 ccataccagc tgacagacca gttcacctcc tttgccaaga tgggcaccca gtctggcttc 480 ctgttttacg tgcctgcccc atatacatct aagatcgatc ccctgaccgg cttcgtggac 540 cccttcgtgt ggaaaaccat caagaatcac gagagccgca agcacttcct ggagggcttc 600 gactttctgc actacgacgt gaaaaccggc gacttcatcc tgcactttaa gatgaacaga 660 aatctgtcct tccagagggg cctgcccggc tttatgcctg catgggatat cgtgttcgag 720 aagaacgaga cacagtttga cgccaagggc acccctttca tcgccggcaa gagaatcgtg 780 ccagtgatcg agaatcacag attcaccggc agataccggg acctgtatcc tgccaacgag 840 ctgatcgccc tgctggagga gaagggcatc gtgttcaggg atggctccaa catcctgcca 900 aagctgctgg agaatgacga ttctcacgcc atcgacacca tggtggccct gatccgcagc 960 gtgctgcaga tgcggaactc caatgccgcc acaggcgagg actatatcaa cagccccgtg 1020 cgcgatctga atggcgtgtg cttcgactcc cggtttcaga acccagagtg gcccatggac 1080 gccgatgcca atggcgccta ccacatcgcc ctgaagggcc agctgctgct gaatcacctg 1140 aaggagagca aggatctgaa gctgcagaac ggcatctcca atcaggactg gctggcctac 1200 atccaggagc tgcgcaac 1218 <210> 85 <211> 2658 <212> DNA <213> Artificial Sequence <220> <223> Split-2-AsCpf1 Domain 1 coding DNA <400> 85 atgacacagt tcgagggctt taccaacctg tatcaggtga gcaagacact gcggtttgag 60 ctgatcccac agggcaagac cctgaagcac atccaggagc agggcttcat cgaggaggac 120 aaggcccgca atgatcacta caaggagctg aagcccatca tcgatcggat ctacaagacc 180 tatgccgacc agtgcctgca gctggtgcag ctggattggg agaacctgag cgccgccatc 240 gactcctata gaaaggagaa aaccgaggag acaaggaacg ccctgatcga ggagcaggcc 300 acatatcgca atgccatcca cgactacttc atcggccgga cagacaacct gaccgatgcc 360 atcaataaga gacacgccga gatctacaag ggcctgttca aggccgagct gtttaatggc 420 aaggtgctga agcagctggg caccgtgacc acaaccgagc acgagaacgc cctgctgcgg 480 agcttcgaca agtttacaac ctacttctcc ggcttttatg agaacaggaa gaacgtgttc 540 agcgccgagg atatcagcac agccatccca caccgcatcg tgcaggacaa cttccccaag 600 tttaaggaga attgtcacat cttcacacgc ctgatcaccg ccgtgcccag cctgcgggag 660 cactttgaga acgtgaagaa ggccatcggc atcttcgtga gcacctccat cgaggaggtg 720 ttttccttcc ctttttataa ccagctgctg acacagaccc agatcgacct gtataaccag 780 ctgctgggag gaatctctcg ggaggcaggc accgagaaga tcaagggcct gaacgaggtg 840 ctgaatctgg ccatccagaa gaatgatgag acagcccaca tcatcgcctc cctgccacac 900 agattcatcc ccctgtttaa gcagatcctg tccgatagga acaccctgtc tttcatcctg 960 gaggagttta agagcgacga ggaagtgatc cagtccttct gcaagtacaa gacactgctg 1020 agaaacgaga acgtgctgga gacagccgag gccctgttta acgagctgaa cagcatcgac 1080 ctgacacaca tcttcatcag ccacaagaag ctggagacaa tcagcagcgc cctgtgcgac 1140 cactgggata cactgaggaa tgccctgtat gagcggagaa tctccgagct gacaggcaag 1200 atcaccaagt ctgccaagga gaaggtgcag cgcagcctga agcacgagga tatcaacctg 1260 caggagatca tctctgccgc aggcaaggag ctgagcgagg ccttcaagca gaaaaccagc 1320 gagatcctgt cccacgcaca cgccgccctg gatcagccac tgcctacaac cctgaagaag 1380 caggaggaga aggagatcct gaagtctcag ctggacagcc tgctgggcct gtaccacctg 1440 ctggactggt ttgccgtgga tgagtccaac gaggtggacc ccgagttctc tgcccggctg 1500 accggcatca agctggagat ggagccttct ctgagcttct acaacaaggc cagaaattat 1560 gccaccaaga agccctactc cgtggagaag ttcaagctga actttcagat gcctacactg 1620 gcctctggct gggacgtgaa taaggagaag aacaatggcg ccatcctgtt tgtgaagaac 1680 ggcctgtact atctgggcat catgccaaag cagaagggca ggtataaggc cctgagcttc 1740 gagcccacag agaaaaccag cgagggcttt gataagatgt actatgacta cttccctgat 1800 gccgccaaga tgatcccaaa gtgcagcacc cagctgaagg ccgtgacagc ccactttcag 1860 acccacacaa cccccatcct gctgtccaac aatttcatcg agcctctgga gatcacaaag 1920 gagatctacg acctgaacaa tcctgagaag gagccaaaga agtttcagac agcctacgcc 1980 aagaaaaccg gcgaccagaa gggctacaga gaggccctgt gcaagtggat cgacttcaca 2040 agggattttc tgtccaagta taccaagaca acctctatcg atctgtctag cctgcggcca 2100 tcctctcagt ataaggacct gggcgagtac tatgccgagc tgaatcccct gctgtaccac 2160 atcagcttcc agagaatcgc cgagaaggag atcatggatg ccgtggagac aggcaagctg 2220 tacctgttcc agatctataa caaggacttt gccaagggcc accacggcaa gcctaatctg 2280 cacacactgt attggaccgg cctgttttct ccagagaacc tggccaagac aagcatcaag 2340 ctgaatggcc aggccgagct gttctaccgc cctaagtcca ggatgaagag gatggcacac 2400 cggctgggag agaagatgct gaacaagaag ctgaaggatc agaaaacccc aatccccgac 2460 accctgtacc aggagctgta cgactatgtg aatcacagac tgtcccacga cctgtctgat 2520 gaggccaggg ccctgctgcc caacgtgatc accaaggagg tgtctcacga gatcatcaag 2580 gataggcgct ttaccagcga caagttcttt ttccacgtgc ctatcacact gaactatcag 2640 gccgccaatt ccccatct 2658 <210> 86 <211> 1263 <212> DNA <213> Artificial Sequence <220> <223> Split-2-AsCpf1 Domain 2 coding DNA <400> 86 aagttcaacc agagggtgaa tgcctacctg aaggagcacc ccgagacacc tatcatcggc 60 atcgatcggg gcgagagaaa cctgatctat atcacagtga tcgactccac cggcaagatc 120 ctggagcagc ggagcctgaa caccatccag cagtttgatt accagaagaa gctggacaac 180 agggagaagg agagggtggc agcaaggcag gcctggtctg tggtgggcac aatcaaggat 240 ctgaagcagg gctatctgag ccaggtcatc cacgagatcg tggacctgat gatccactac 300 caggccgtgg tggtgctgga gaacctgaat ttcggcttta agagcaagag gaccggcatc 360 gccgagaagg ccgtgtacca gcagttcgag aagatgctga tcgataagct gaattgcctg 420 gtgctgaagg actatccagc agagaaagtg ggaggcgtgc tgaacccata ccagctgaca 480 gaccagttca cctcctttgc caagatgggc acccagtctg gcttcctgtt ttacgtgcct 540 gccccatata catctaagat cgatcccctg accggcttcg tggacccctt cgtgtggaaa 600 accatcaaga atcacgagag ccgcaagcac ttcctggagg gcttcgactt tctgcactac 660 gacgtgaaaa ccggcgactt catcctgcac tttaagatga acagaaatct gtccttccag 720 aggggcctgc ccggctttat gcctgcatgg gatatcgtgt tcgagaagaa cgagacacag 780 tttgacgcca agggcacccc tttcatcgcc ggcaagagaa tcgtgccagt gatcgagaat 840 cacagattca ccggcagata ccgggacctg tatcctgcca acgagctgat cgccctgctg 900 gaggagaagg gcatcgtgtt cagggatggc tccaacatcc tgccaaagct gctggagaat 960 gacgattctc acgccatcga caccatggtg gccctgatcc gcagcgtgct gcagatgcgg 1020 aactccaatg ccgccacagg cgaggactat atcaacagcc ccgtgcgcga tctgaatggc 1080 gtgtgcttcg actcccggtt tcagaaccca gagtggccca tggacgccga tgccaatggc 1140 gcctaccaca tcgccctgaa gggccagctg ctgctgaatc acctgaagga gagcaaggat 1200 ctgaagctgc agaacggcat ctccaatcag gactggctgg cctacatcca ggagctgcgc 1260 aac 1263 <210> 87 <211> 1197 <212> DNA <213> Artificial Sequence <220> <223> Split-3-AsCpf1 Domain 1 coding DNA <400> 87 atgacacagt tcgagggctt taccaacctg tatcaggtga gcaagacact gcggtttgag 60 ctgatcccac agggcaagac cctgaagcac atccaggagc agggcttcat cgaggaggac 120 aaggcccgca atgatcacta caaggagctg aagcccatca tcgatcggat ctacaagacc 180 tatgccgacc agtgcctgca gctggtgcag ctggattggg agaacctgag cgccgccatc 240 gactcctata gaaaggagaa aaccgaggag acaaggaacg ccctgatcga ggagcaggcc 300 acatatcgca atgccatcca cgactacttc atcggccgga cagacaacct gaccgatgcc 360 atcaataaga gacacgccga gatctacaag ggcctgttca aggccgagct gtttaatggc 420 aaggtgctga agcagctggg caccgtgacc acaaccgagc acgagaacgc cctgctgcgg 480 agcttcgaca agtttacaac ctacttctcc ggcttttatg agaacaggaa gaacgtgttc 540 agcgccgagg atatcagcac agccatccca caccgcatcg tgcaggacaa cttccccaag 600 tttaaggaga attgtcacat cttcacacgc ctgatcaccg ccgtgcccag cctgcgggag 660 cactttgaga acgtgaagaa ggccatcggc atcttcgtga gcacctccat cgaggaggtg 720 ttttccttcc ctttttataa ccagctgctg acacagaccc agatcgacct gtataaccag 780 ctgctgggag gaatctctcg ggaggcaggc accgagaaga tcaagggcct gaacgaggtg 840 ctgaatctgg ccatccagaa gaatgatgag acagcccaca tcatcgcctc cctgccacac 900 agattcatcc ccctgtttaa gcagatcctg tccgatagga acaccctgtc tttcatcctg 960 gaggagttta agagcgacga ggaagtgatc cagtccttct gcaagtacaa gacactgctg 1020 agaaacgaga acgtgctgga gacagccgag gccctgttta acgagctgaa cagcatcgac 1080 ctgacacaca tcttcatcag ccacaagaag ctggagacaa tcagcagcgc cctgtgcgac 1140 cactgggata cactgaggaa tgccctgtat gagcggagaa tctccgagct gacaggc 1197 <210> 88 <211> 2724 <212> DNA <213> Artificial Sequence <220> <223> Split-3-AsCpf1 Domain 2 coding DNA <400> 88 aagatcacca agtctgccaa ggagaaggtg cagcgcagcc tgaagcacga ggatatcaac 60 ctgcaggaga tcatctctgc cgcaggcaag gagctgagcg aggccttcaa gcagaaaacc 120 agcgagatcc tgtcccacgc acacgccgcc ctggatcagc cactgcctac aaccctgaag 180 aagcaggagg agaaggagat cctgaagtct cagctggaca gcctgctggg cctgtaccac 240 ctgctggact ggtttgccgt ggatgagtcc aacgaggtgg accccgagtt ctctgcccgg 300 ctgaccggca tcaagctgga gatggagcct tctctgagct tctacaacaa ggccagaaat 360 tatgccacca agaagcccta ctccgtggag aagttcaagc tgaactttca gatgcctaca 420 ctggcctctg gctgggacgt gaataaggag aagaacaatg gcgccatcct gtttgtgaag 480 aacggcctgt actatctggg catcatgcca aagcagaagg gcaggtataa ggccctgagc 540 ttcgagccca cagagaaaac cagcgagggc tttgataaga tgtactatga ctacttccct 600 gatgccgcca agatgatccc aaagtgcagc acccagctga aggccgtgac agcccacttt 660 cagacccaca caacccccat cctgctgtcc aacaatttca tcgagcctct ggagatcaca 720 aaggagatct acgacctgaa caatcctgag aaggagccaa agaagtttca gacagcctac 780 gccaagaaaa ccggcgacca gaagggctac agagaggccc tgtgcaagtg gatcgacttc 840 acaagggatt ttctgtccaa gtataccaag acaacctcta tcgatctgtc tagcctgcgg 900 ccatcctctc agtataagga cctgggcgag tactatgccg agctgaatcc cctgctgtac 960 cacatcagct tccagagaat cgccgagaag gagatcatgg atgccgtgga gacaggcaag 1020 ctgtacctgt tccagatcta taacaaggac tttgccaagg gccaccacgg caagcctaat 1080 ctgcacacac tgtattggac cggcctgttt tctccagaga acctggccaa gacaagcatc 1140 aagctgaatg gccaggccga gctgttctac cgccctaagt ccaggatgaa gaggatggca 1200 caccggctgg gagagaagat gctgaacaag aagctgaagg atcagaaaac cccaatcccc 1260 gacaccctgt accaggagct gtacgactat gtgaatcaca gactgtccca cgacctgtct 1320 gatgaggcca gggccctgct gcccaacgtg atcaccaagg aggtgtctca cgagatcatc 1380 aaggataggc gctttaccag cgacaagttc tttttccacg tgcctatcac actgaactat 1440 caggccgcca attccccatc taagttcaac cagagggtga atgcctacct gaaggagcac 1500 cccgagacac ctatcatcgg catcgatcgg ggcgagagaa acctgatcta tatcacagtg 1560 atcgactcca ccggcaagat cctggagcag cggagcctga acaccatcca gcagtttgat 1620 taccagaaga agctggacaa cagggagaag gagagggtgg cagcaaggca ggcctggtct 1680 gtggtgggca caatcaagga tctgaagcag ggctatctga gccaggtcat ccacgagatc 1740 gtggacctga tgatccacta ccaggccgtg gtggtgctgg agaacctgaa tttcggcttt 1800 aagagcaaga ggaccggcat cgccgagaag gccgtgtacc agcagttcga gaagatgctg 1860 atcgataagc tgaattgcct ggtgctgaag gactatccag cagagaaagt gggaggcgtg 1920 ctgaacccat accagctgac agaccagttc acctcctttg ccaagatggg cacccagtct 1980 ggcttcctgt tttacgtgcc tgccccatat acatctaaga tcgatcccct gaccggcttc 2040 gtggacccct tcgtgtggaa aaccatcaag aatcacgaga gccgcaagca cttcctggag 2100 ggcttcgact ttctgcacta cgacgtgaaa accggcgact tcatcctgca ctttaagatg 2160 aacagaaatc tgtccttcca gaggggcctg cccggcttta tgcctgcatg ggatatcgtg 2220 ttcgagaaga acgagacaca gtttgacgcc aagggcaccc ctttcatcgc cggcaagaga 2280 atcgtgccag tgatcgagaa tcacagattc accggcagat accgggacct gtatcctgcc 2340 aacgagctga tcgccctgct ggaggagaag ggcatcgtgt tcagggatgg ctccaacatc 2400 ctgccaaagc tgctggagaa tgacgattct cacgccatcg acaccatggt ggccctgatc 2460 cgcagcgtgc tgcagatgcg gaactccaat gccgccacag gcgaggacta tatcaacagc 2520 cccgtgcgcg atctgaatgg cgtgtgcttc gactcccggt ttcagaaccc agagtggccc 2580 atggacgccg atgccaatgg cgcctaccac atcgccctga agggccagct gctgctgaat 2640 cacctgaagg agagcaagga tctgaagctg cagaacggca tctccaatca ggactggctg 2700 gcctacatcc aggagctgcg caac 2724 <210> 89 <211> 1578 <212> DNA <213> Artificial Sequence <220> <223> Split-4-AsCpf1 Domain 1 coding DNA <400> 89 atgacacagt tcgagggctt taccaacctg tatcaggtga gcaagacact gcggtttgag 60 ctgatcccac agggcaagac cctgaagcac atccaggagc agggcttcat cgaggaggac 120 aaggcccgca atgatcacta caaggagctg aagcccatca tcgatcggat ctacaagacc 180 tatgccgacc agtgcctgca gctggtgcag ctggattggg agaacctgag cgccgccatc 240 gactcctata gaaaggagaa aaccgaggag acaaggaacg ccctgatcga ggagcaggcc 300 acatatcgca atgccatcca cgactacttc atcggccgga cagacaacct gaccgatgcc 360 atcaataaga gacacgccga gatctacaag ggcctgttca aggccgagct gtttaatggc 420 aaggtgctga agcagctggg caccgtgacc acaaccgagc acgagaacgc cctgctgcgg 480 agcttcgaca agtttacaac ctacttctcc ggcttttatg agaacaggaa gaacgtgttc 540 agcgccgagg atatcagcac agccatccca caccgcatcg tgcaggacaa cttccccaag 600 tttaaggaga attgtcacat cttcacacgc ctgatcaccg ccgtgcccag cctgcgggag 660 cactttgaga acgtgaagaa ggccatcggc atcttcgtga gcacctccat cgaggaggtg 720 ttttccttcc ctttttataa ccagctgctg acacagaccc agatcgacct gtataaccag 780 ctgctgggag gaatctctcg ggaggcaggc accgagaaga tcaagggcct gaacgaggtg 840 ctgaatctgg ccatccagaa gaatgatgag acagcccaca tcatcgcctc cctgccacac 900 agattcatcc ccctgtttaa gcagatcctg tccgatagga acaccctgtc tttcatcctg 960 gaggagttta agagcgacga ggaagtgatc cagtccttct gcaagtacaa gacactgctg 1020 agaaacgaga acgtgctgga gacagccgag gccctgttta acgagctgaa cagcatcgac 1080 ctgacacaca tcttcatcag ccacaagaag ctggagacaa tcagcagcgc cctgtgcgac 1140 cactgggata cactgaggaa tgccctgtat gagcggagaa tctccgagct gacaggcaag 1200 atcaccaagt ctgccaagga gaaggtgcag cgcagcctga agcacgagga tatcaacctg 1260 caggagatca tctctgccgc aggcaaggag ctgagcgagg ccttcaagca gaaaaccagc 1320 gagatcctgt cccacgcaca cgccgccctg gatcagccac tgcctacaac cctgaagaag 1380 caggaggaga aggagatcct gaagtctcag ctggacagcc tgctgggcct gtaccacctg 1440 ctggactggt ttgccgtgga tgagtccaac gaggtggacc ccgagttctc tgcccggctg 1500 accggcatca agctggagat ggagccttct ctgagcttct acaacaaggc cagaaattat 1560 gccaccaaga agccctac 1578 <210> 90 <211> 2343 <212> DNA <213> Artificial Sequence <220> <223> Split-4-AsCpf1 Domain 2 coding DNA <400> 90 tccgtggaga agttcaagct gaactttcag atgcctacac tggcctctgg ctgggacgtg 60 aataaggaga agaacaatgg cgccatcctg tttgtgaaga acggcctgta ctatctgggc 120 atcatgccaa agcagaaggg caggtataag gccctgagct tcgagcccac agagaaaacc 180 agcgagggct ttgataagat gtactatgac tacttccctg atgccgccaa gatgatccca 240 aagtgcagca cccagctgaa ggccgtgaca gcccactttc agacccacac aacccccatc 300 ctgctgtcca acaatttcat cgagcctctg gagatcacaa aggagatcta cgacctgaac 360 aatcctgaga aggagccaaa gaagtttcag acagcctacg ccaagaaaac cggcgaccag 420 aagggctaca gagaggccct gtgcaagtgg atcgacttca caagggattt tctgtccaag 480 tataccaaga caacctctat cgatctgtct agcctgcggc catcctctca gtataaggac 540 ctgggcgagt actatgccga gctgaatccc ctgctgtacc acatcagctt ccagagaatc 600 gccgagaagg agatcatgga tgccgtggag acaggcaagc tgtacctgtt ccagatctat 660 aacaaggact ttgccaaggg ccaccacggc aagcctaatc tgcacacact gtattggacc 720 ggcctgtttt ctccagagaa cctggccaag acaagcatca agctgaatgg ccaggccgag 780 ctgttctacc gccctaagtc caggatgaag aggatggcac accggctggg agagaagatg 840 ctgaacaaga agctgaagga tcagaaaacc ccaatccccg acaccctgta ccaggagctg 900 tacgactatg tgaatcacag actgtcccac gacctgtctg atgaggccag ggccctgctg 960 cccaacgtga tcaccaagga ggtgtctcac gagatcatca aggataggcg ctttaccagc 1020 gacaagttct ttttccacgt gcctatcaca ctgaactatc aggccgccaa ttccccatct 1080 aagttcaacc agagggtgaa tgcctacctg aaggagcacc ccgagacacc tatcatcggc 1140 atcgatcggg gcgagagaaa cctgatctat atcacagtga tcgactccac cggcaagatc 1200 ctggagcagc ggagcctgaa caccatccag cagtttgatt accagaagaa gctggacaac 1260 agggagaagg agagggtggc agcaaggcag gcctggtctg tggtgggcac aatcaaggat 1320 ctgaagcagg gctatctgag ccaggtcatc cacgagatcg tggacctgat gatccactac 1380 caggccgtgg tggtgctgga gaacctgaat ttcggcttta agagcaagag gaccggcatc 1440 gccgagaagg ccgtgtacca gcagttcgag aagatgctga tcgataagct gaattgcctg 1500 gtgctgaagg actatccagc agagaaagtg ggaggcgtgc tgaacccata ccagctgaca 1560 gaccagttca cctcctttgc caagatgggc acccagtctg gcttcctgtt ttacgtgcct 1620 gccccatata catctaagat cgatcccctg accggcttcg tggacccctt cgtgtggaaa 1680 accatcaaga atcacgagag ccgcaagcac ttcctggagg gcttcgactt tctgcactac 1740 gacgtgaaaa ccggcgactt catcctgcac tttaagatga acagaaatct gtccttccag 1800 aggggcctgc ccggctttat gcctgcatgg gatatcgtgt tcgagaagaa cgagacacag 1860 tttgacgcca agggcacccc tttcatcgcc ggcaagagaa tcgtgccagt gatcgagaat 1920 cacagattca ccggcagata ccgggacctg tatcctgcca acgagctgat cgccctgctg 1980 gaggagaagg gcatcgtgtt cagggatggc tccaacatcc tgccaaagct gctggagaat 2040 gacgattctc acgccatcga caccatggtg gccctgatcc gcagcgtgct gcagatgcgg 2100 aactccaatg ccgccacagg cgaggactat atcaacagcc ccgtgcgcga tctgaatggc 2160 gtgtgcttcg actcccggtt tcagaaccca gagtggccca tggacgccga tgccaatggc 2220 gcctaccaca tcgccctgaa gggccagctg ctgctgaatc acctgaagga gagcaaggat 2280 ctgaagctgc agaacggcat ctccaatcag gactggctgg cctacatcca ggagctgcgc 2340 aac 2343

Claims

Cpf1 단백질 또는 이를 암호화하는 DNA, 및
유전자의 표적 부위의 15nt(nucleotide) 내지 30nt의 뉴클레오타이드 서열 (표적 서열)과 혼성화 가능한 뉴클레오타이드 서열을 포함하는 crRNA 또는 이를 암호화하는 DNA
를 포함하는 유전체 교정용 조성물.
제1항에 있어서, 상기 Cpf1 단백질은 캔디다투스 (Candidatus) 속, 라치노스피라 (Lachnospira) 속, 뷰티리비브리오 (Butyrivibrio) 속, 페레그리니박테리아 (Peregrinibacteria), 액시도미노코쿠스 (Acidominococcus) 속, 포르파이로모나스 (Porphyromonas) 속, 프레보텔라 (Prevotella) 속, 프란시셀라 (Francisella) 속, 캔디다투스 메타노플라스마 (Candidatus Methanoplasma), 또는 유박테리움 (Eubacterium) 속 미생물 유래의 것인, 유전체 교정용 조성물.
제2항에 있어서, 상기 Cpf1 단백질은 Parcubacteria bacterium (GWC2011_GWC2_44_17), Lachnospiraceae bacterium (MC2017), Butyrivibrio proteoclasiicus, Peregrinibacteria bacterium (GW2011_GWA_33_10), Acidaminococcus sp. (BV3L6), Porphyromonas macacae, Lachnospiraceae bacterium (ND2006), Porphyromonas crevioricanis, Prevotella disiens, Moraxella bovoculi (237), Smiihella sp. (SC_KO8D17), Leptospira inadai, Lachnospiraceae bacterium (MA2020), Francisella novicida (U112), Candidatus Methanoplasma termitum, Candidatus Paceibacter , 또는 Eubacterium eligens 유래의 것인, 유전체 교정용 조성물.
제1항에 있어서, 상기 표적 서열은 5' 말단에 TTTN 또는 TTN (N은 A, T, C, 또는 G)의 PAM(protospacer-adjacent motif)와 연결되어 있거나,
이에 더하여, 3' 말단에 상기 PAM 서열과 역방향으로 상보적인 서열 (NAAA 또는 NAA; N은 A, T, C, 또는 G)과 연결된 것인, 유전체 교정용 조성물.
제4항에 있어서, 상기 crRNA (CRISPR RNA)는 다음의 일반식 1로 표현되는 것인, 유전체 교정용 조성물:
5'-n1-n2-A-U-n3-U-C-U-A-C-U-n4-n5-n6-n7-G-U-A-G-A-U-(N_cpf1)_q-3' (일반식 1; 서열번호 60)
상기 일반식 1에서,
n1은 존재하지 않거나, U, A, 또는 G이고, n2는 A 또는 G이고, n3은 U, A, 또는 C이고, n4는 존재하지 않거나 G, C, 또는 A이고, n5는 A, U, C, G, 또는 존재하지 않고, n6은 U, G 또는 C이고, n7은 U 또는 G이고,
N_cpf1는 표적 서열과 혼성화 가능한 뉴클레오타이드 서열을 포함하는 타겟팅 서열 부위로서 표적 유전자의 표적 부위에 따라서 결정되며,
q는 상기 타겟팅 서열에 포함된 뉴클레오타이드 수를 나타내는 것으로 15 내지 30의 정수임.
제5항에 있어서, 상기 crRNA는 5' 말단에 1 내지 3개의 구아닌(G)을 추가로 포함하는 것인, 유전체 교정용 조성물.
제1항에 있어서, 상기 Cpf1 단백질은 아래의 표에 기재된 미생물들에서 선택된 미생물로부터 유래하는 것인, 유전체 교정용 조성물:
제1항에 있어서, 상기 Cpf1 단백질은 Cpf1 단백질이 적어도 하나 이상의 임의의 위치에서 절단되어 생성된 두 개 이상의 절단 단편들 중 하나 이상을 포함하는 것인, 유전체 교정용 조성물.
제8항에 있어서, 상기 Cpf1 단백질은 두 개 이상의 절단 단편을 포함하며, 상기 두 개 이상의 절단 단편은 각각 N-말단 또는 C-말단에 결합 단백질과 결합되어 있으며, 상기 결합 단백질은 동일한 생체활성물질의 서로 다른 부위에 결합하는 서로 다른 단백질인, 유전체 교정용 조성물.
제9항에 있어서, 상기 생체활성물질은 rapamycin이고, 상기 결합 단백질은 FRB 단백질 및 FKBP 단백질로 이루어진 군에서 선택된 것인, 유전체 교정용 조성물.
제1항 내지 제10항 중 어느 한 항에 있어서, 상기 crRNA를 암호화하는 DNA는 벡터에 포함된 형태인, 유전체 교정용 조성물.
제1항 내지 제10항 중 어느 한 항에 있어서, 상기 crRNA는 플라스미드 (plasmid)를 주형으로 하여 시험관 내 (in vitro) 전사된 crRNA인, 유전체 교정용 조성물.
제1항 내지 제10항 중 어느 한 항에 있어서, 상기 crRNA는 5' 말단에 인산-인산 결합을 포함하지 않는 것인, 유전체 교정용 조성물.
제1항 내지 제10항 중 어느 한 항에 있어서, 상기 Cpf1 단백질 또는 이를 암호화하는 DNA는 핵 위치 신호 (nuclear localization signal, NLS) 서열 또는 이를 암호화하는 DNA를 추가로 포함하는 것인, 유전체 교정용 조성물.
제11항에 있어서, 상기 Cpf1 단백질을 암호화하는 DNA를 포함하는 재조합 벡터, 및 상기 crRNA을 암호화하는 DNA를 포함하는 재조합 벡터를 포함하는, 유전체 교정용 조성물.
제15항에 있어서, 상기 Cpf1 단백질의 암호화 DNA 및 crRNA의 암호화 DNA는 하나의 재조합 벡터에 함께 포함되거나 별개의 벡터에 각각 포함된 것인, 유전체 교정용 조성물.
제1항 내지 제10항 중 어느 한 항에 있어서, 진핵 세포 또는 진핵 유기체의 유전자 교정에 적용하기 위한, 유전체 교정용 조성물.
제17항에 있어서, 상기 진핵 유기체는 진핵 동물 또는 진핵 식물인, 유전체 교정용 조성물.
제1항 내지 제10항 중 어느 한 항의 유전체 교정용 조성물을 분리된 세포 또는 인간을 제외한 유기체에 도입하는 단계를 포함하는, 유전체 교정 방법.
제19항에 있어서, 상기 유전체 교정용 조성물은 crRNA를 암호화하는 DNA를 벡터에 포함된 형태로 포함하는 것인, 유전체 교정 방법.
제19항에 있어서, 상기 유전체 교정용 조성물에 포함된 crRNA는 플라스미드 (plasmid)를 주형으로 하여 시험관 내 (in vitro) 전사된 crRNA인, 유전체 교정 방법.
제19항에 있어서, 상기 유전체 교정용 조성물에 포함된 crRNA는 5' 말단에 인산-인산 결합을 포함하지 않는 것인, 유전체 교정 방법.
제19항에 있어서, 상기 유전체 교정용 조성물에 포함된 상기 Cpf1 단백질 또는 이를 암호화하는 DNA는 핵 위치 신호 (nuclear localization signal, NLS) 서열 또는 이를 암호화하는 DNA를 추가로 포함하는 것인, 유전체 교정 방법.
제19항에 있어서, 상기 유전체 교정용 조성물을 도입하는 단계는 국소 주입법, 마이크로주입법(microinjection), 전기천공법(electroporation) 또는 리포펙션 (lipofection) 방법에 의하여 수행되는 것인, 유전체 교정 방법.
제19항에 있어서, 상기 세포 또는 유기체는 분리된 진핵 세포 또는 인간을 제외한 진핵 유기체인, 유전체 교정 방법.
제25항에 있어서, 상기 진핵 세포는 진핵 동물 또는 진핵 식물로부터 분리된 세포인, 유전체 교정 방법.
제25항에 있어서, 진핵 유기체는 인간을 제외한 진핵 동물 또는 진핵 식물인, 유전체 교정 방법.
제1항 내지 제10항 중 어느 한 항의 유전체 교정용 조성물을 분리된 세포 또는 인간을 제외한 유기체에 도입하는 단계를 포함하는, 형질 전환체의 제조 방법.
제28항에 있어서, 상기 유전체 교정용 조성물은 crRNA를 암호화하는 DNA를 벡터에 포함된 형태로 포함하는 것인, 형질 전환체의 제조 방법.
제28항에 있어서, 상기 유전체 교정용 조성물에 포함된 crRNA는 플라스미드 (plasmid)를 주형으로 하여 시험관 내 (in vitro) 전사된 crRNA인, 형질 전환체의 제조 방법.
제28항에 있어서, 상기 유전체 교정용 조성물에 포함된 crRNA는 5' 말단에 인산-인산 결합을 포함하지 않는 것인, 형질 전환체의 제조 방법.
제28항에 있어서, 상기 유전체 교정용 조성물에 포함된 상기 Cpf1 단백질 또는 이를 암호화하는 DNA는 핵 위치 신호 (nuclear localization signal, NLS) 서열 또는 이를 암호화하는 DNA를 추가로 포함하는 것인, 형질 전환체의 제조 방법.
제28항에 있어서, 상기 유전체 교정용 조성물을 도입하는 단계는 국소 주입법, 마이크로주입법(microinjection), 전기천공법(electroporation), 또는 리포펙션 (lipofection) 방법에 의하여 수행되는 것인, 형질 전환체의 제조 방법.
제28항에 있어서, 상기 형질 전환체는 유전자 절단, 뉴클레오타이드의 삽입, 뉴클레오타이드의 치환, 또는 뉴클레오타이드의 결실이 유도된 것인, 형질 전환체의 제조 방법.
제28항에 있어서, 상기 세포 또는 유기체는 분리된 진핵 세포 또는 인간을 제외한 진핵 유기체인, 형질 전환체의 제조 방법.
제35항에 있어서, 상기 진핵 유기체는 인간을 제외한 진핵 동물 또는 진핵 식물인, 형질 전환체의 제조 방법.
제28항의 방법에 의하여 제조된 인간을 제외한 형질 전환체.
제37항에 있어서, 상기 형질 전환체는 유전자 절단, 뉴클레오타이드의 삽입, 또는 뉴클레오타이드의 결실이 유도된 분리된 진핵 세포, 인간을 제외한 진핵 동물 또는 진핵 식물인, 형질 전환체.
RNA 가이드 엔도뉴클레아제 (RNA-guided endonuclease; RGEN) 및 가이드 RNA를 포함하는 혼합물 또는 리보핵산 단백질을 국소주입법 (예컨대, 병변 또는 표적 부위 직접 주입), 미세주입법, 전기천공법(electroporation), 또는 리포펙션에 의하여 분리된 진핵 세포 또는 인간을 제외한 진핵 유기체에 도입시키는 단계를 포함하는, RNA 가이드 엔도뉴클레아제 및 가이드 RNA의 진핵 세포 또는 진핵 유기체에 전달하는 방법.
Cpf1 단백질 또는 이를 암호화하는 DNA, 및
Hif1-alpha 유전자의 표적 부위의 연속하는 15nt 내지 30nt의 뉴클레오타이드 서열 (표적 서열)과 혼성화 가능한 뉴클레오타이드 서열을 포함하는 crRNA 또는 이를 암호화하는 DNA
를 포함하는, 안구 질환의 예방 또는 치료용 약학 조성물.
제40항에 있어서, 상기 crRNA (CRISPR RNA)는 다음의 일반식 1로 표현되는 것인, 안구 질환의 예방 또는 치료용 약학 조성물:
5'-n1-n2-A-U-n3-U-C-U-A-C-U-n4-n5-n6-n7-G-U-A-G-A-U-(N_cpf1)_q-3' (일반식 1; 서열번호 60)
상기 일반식 1에서,
n1은 존재하지 않거나, U, A, 또는 G이고, n2는 A 또는 G이고, n3은 U, A, 또는 C이고, n4는 존재하지 않거나 G, C, 또는 A이고, n5는 A, U, C, G, 또는 존재하지 않고, n6은 U, G 또는 C이고, n7은 U 또는 G이고,
N_cpf1는 표적 서열과 혼성화 가능한 뉴클레오타이드 서열을 포함하는 타겟팅 서열 부위로서 표적 유전자의 표적 부위에 따라서 결정되며,
q는 상기 타겟팅 서열에 포함된 뉴클레오타이드 수를 나타내는 것으로 15 내지 30의 정수임.
제40항에 있어서, 상기 Cpf1 단백질은 아래의 표에 기재된 미생물들 중에서 선택된 미생물로부터 유래하는 것인, 안구 질환의 예방 또는 치료용 약학 조성물:
제40항에 있어서, 상기 약학 조성물은 상기 Cpf1 단백질을 암호화하는 DNA 및 상기 crRNA를 암호화하는 DNA를 별도의 벡터에 각각 포함하거나 하나의 벡터에 함께 포함하는 재조합 벡터를 포함하는 것인, 안구 질환의 예방 또는 치료용 약학 조성물.
제43항 중 어느 한 항에 있어서, 상기 벡터는 아데노부속 바이러스(AAV)인, 안구 질환의 예방 또는 치료용 약학 조성물.
제40항 내지 제44항 중 어느 한 항에 있어서, 상기 crRNA는 서열번호 69 내지 서열번호 79의 Hif1-a 유전자의 표적 서열 중에서 선택된 서열과 혼성화 가능한 뉴클레오타이드 서열을 포함하는 것인, 안구 질환의 예방 또는 치료용 약학 조성물.
제40항 내지 제44항 중 어느 한 항에 있어서, 상기 안구 질환은 당뇨성 망막병증 또는 노인성 황반변성인, 안구 질환의 예방 또는 치료용 약학 조성물.