KR20180132862A

KR20180132862A - 게놈 서열 변형 기법의 돌연변이 도입 효율을 증가시키는 방법 및 이에 사용되는 분자 복합체

Info

Publication number: KR20180132862A
Application number: KR1020187032638A
Authority: KR
Inventors: 케이지 니시다; 아키히코 콘도; 타카유키 아라조에; 젠페이 시마타니
Original assignee: 고쿠리츠다이가쿠호진 고베다이가쿠
Priority date: 2016-04-21
Filing date: 2017-04-21
Publication date: 2018-12-12
Also published as: SG11201809242VA; ES2919961T3; JPWO2017183724A1; CN109312329B; EP3447139A4; EP3447139B1; WO2017183724A1; KR102116200B1; CN117925730A; CN109312329A; EP3447139A1; CA3021281C; BR112018071376A2; US20200377910A1; CA3021281A1; JP7001272B2; DK3447139T3

Abstract

본 발명은 이중-가닥 DNA 내 표적 뉴클레오티드 서열에 특이적으로 결합하는 핵산 서열-인식 모듈 및 PmCDA1이 결합된 복합체를 이중-가닥 DNA를 함유하는 세포 내로 도입하는 단계, 및 세포를 저온에서 적어도 일시적으로 배양하여 표적화 부위, 즉 표적 뉴클레오티드 서열 및 그 부근의 뉴클레오티드를 다른 뉴클레오티드로 전환하거나, 하나 이상의 뉴클레오티드를 결실시키거나, 또는 그 부위 내로 뉴클레오티드를 삽입하는 단계를 포함하는, 이중-가닥 DNA의 표적화 부위를 변형하는 방법을 제공한다.

Description

게놈 서열 변형 기법의 돌연변이 도입 효율을 증가시키는 방법 및 이에 사용되는 분자 복합체

본 발명은 이중-가닥 DNA를 절단하지 않으면서, 즉 절단 또는 단일 가닥 절단 없이, 또는 외래 DNA 절편을 삽입하지 않으면서, 게놈의 특정 영역에서 핵산 염기의 변형을 가능케 하는 게놈 서열 변형 기법의 돌연변이 도입 효율을 개선하는 방법, 및 이에 사용되는 핵산 서열-인식 모듈, 핵산 염기 전환 효소 및 염기 절단 복구 억제제의 복합체에 관한 것이다.

최근 몇 년간, 게놈 편집 (genome editing)이 다양한 종에서 목적 유전자 및 게놈 영역을 변형하기 위한 기법으로서 주목 받고 있다. 통상적으로, 게놈 편집의 한 방법으로서, 서열-의존적 DNA 절단능을 갖는 분자 및 서열 인식능을 갖는 분자를 조합하여 포함하는 인공 뉴클레아제를 이용하는 방법이 제안되었다 (비-특허 문헌 1).

예를 들어, 징크 핑거 DNA 결합 도메인 및 비-특이적 DNA 절단 도메인이 결합된 징크 핑거 뉴클레아제 (ZFN)를 사용하여 숙주로서 식물 세포 또는 곤충 세포 내 DNA 내 표적 유전자좌에서 재조합을 수행하는 방법 (특허 문헌 1), 식물 병원성 세균 크산토모나스 (Xanthomonas)가 갖는 DNA 결합 분자인 전사 활성제-유사 (TAL) 이펙터 및 DNA 엔도뉴클레아제가 결합된 TALEN을 사용하여 특정 뉴클레오티드 서열 또는 그에 인접한 부위에서 표적 유전자를 절단 또는 변형하는 방법 (특허 문헌 2), 진정세균 (eubacterium) 및 고세균 (archaebacterium)이 보유하는 획득 면역 체계에서 기능하는 DNA 서열 CRISPR (Clustered Regularly interspaced short palindromic repeats), 및 CRISPR과 함께 중요한 기능을 갖는 뉴클레아제 Cas (CRISPR-연관) 단백질 패밀리가 조합된 CRISPR-Cas9 시스템을 이용하는 방법 (특허 문헌 3) 등이 보고되었다. 또한, 각각 35개의 아미노산으로 이루어지고 하나의 핵산 염기를 인식하는 PPR 모티프의 연속에 의해 특정 뉴클레오타이드 서열을 인식하도록 구성된 PPR 단백질 및 뉴클레아제가 결합된 인공 뉴클레아제를 사용하여, 특정 서열의 부근에서 표적 유전자를 절단하는 방법 (특허 문헌 4)이 또한 보고되었다.

이러한 게놈 편집 기법은 기본적으로 이중-가닥 DNA 절단 (DSB)을 전제로 한다. 그러나, 이들은 예상치 못한 게놈 변형을 포함하기 때문에, 강력한 세포독성, 염색체 재배열 등과 같은 부작용이 발생하고, 이들은 유전자 요법의 신뢰성 저하, 뉴클레오티드 변형에 의한 극히 소수의 생존 세포, 및 영장류 난자 및 단세포 미생물에서 유전적 변형 자체의 어려움이라는 공통의 문제점을 갖는다.

반면, DSB를 수반하지 않는 뉴클레오티드 변형을 수행하는 방법으로서, 본 발명자들은, Cas의 적어도 하나의 DNA 절단능이 불활성화된 CRISPR-Cas 시스템에서, 게놈 서열이 DSB 수반 없이 특정 DNA 서열을 함유하는 영역에서 뉴클레오염기 전환에 의해 성공적으로 변형되었음을 보고하였다. 이 시스템에서, 이들은 DNA 서열 인식능을 갖는 분자에 결합된, 탈아민 반응을 촉매하는 데아미나제 (deaminase)를 사용하였다 (특허 문헌 5). 이 게놈 편집 기법에 따르면, 상기 기법은 외래 DNA의 삽입 또는 DNA 이중 가닥의 절단을 포함하지 않기 때문에, 안정성이 우수하고, 이론적으로 단일 염기 핀포인트 (pinpoint) 내지 수백 개의 염기까지 돌연변이 도입 범위가 폭넓게 설정될 수 있다. 그러나, 정상적인 DNA 절단능을 갖는 Cas9를 사용하는 게놈 편집 기법에 비해 돌연변이 도입 효율이 낮다는 문제점이 있었다.

나아가, 게놈 편집 기법에서, 세포의 배양 온도를 저온으로 이동시켜 돌연변이 도입 효율을 향상시키는 방법은 보고된 바 없다. 또한, 온도가 일반적인 효소의 최적 온도인 약 37℃보다 낮은 경우에, 데아미나제의 한 종류인, 칠성장어 (Petromyzon marinus)-유래 PmCDA1의 활성 (칠성장어 시토신 데아미나제 1)이 증강됨을 교시하는 어떠한 보고도 존재하지 않는다.

특허 문헌 1: JP-B-4968498 특허 문헌 2: National Publication of International Patent Application No. 2013-513389 특허 문헌 3: National Publication of International Patent Application No. 2010-519929 특허 문헌 4: JP-A-2013-128413 특허 문헌 5: WO 2015/133554

비-특허 문헌 1: Kelvin M Esvelt, Harris H Wang (2013) Genome-scale engineering for systems and synthetic biology, Molecular Systems Biology 9: 641

본 발명의 목적은 이중-가닥 DNA를 절단하거나 단일 가닥을 절단하지 않으면서 특정 서열의 핵산 염기를 변형시킴으로써 돌연변이 도입 효율을 개선하는 게놈 편집 방법, 및 이를 위한 핵산 서열-인식 모듈, 핵산 염기 전환 효소, 및 염기 절단 복구 억제제의 복합체를 제공하는 것이다.

본 발명자들은 핵산 염기 전환 효소를 사용하여 게놈 편집 기법의 돌연변이 도입 효율을 개선하는 방법을 개발하기 위해 연구하였다. 돌연변이 도입 효율을 개선하는 방법의 개발은, 일반적으로, 핵산 염기 전환 효소를 인공적으로 변이시키거나 이를 다른 효소를 대체함으로써 핵산 염기 전환능을 증가시키는 방법, 또는 핵산 서열-인식 모듈의 핵산 인식능을 증가시키는 방법 등에 중점을 두고 있었다. 본 발명자들은 이러한 일반적인 개념을 바꾸고, 게놈 편집 기법에서, 낮은 돌연변이 도입 효율의 원인 중 하나가 DNA 글리코실라제 등에 의한 염기 절단 복구의 메커니즘이 염기가 핵산 염기 전환 효소에 의해 전환되었던 부위에 작용하여 도입된 미스매치가 복구되는 것일 수 있는 것으로 가정하였다. 그 후에 본 발명자들은 돌연변이 도입 효율이 염기 절단 복구 메커니즘에 작용하는 단백질을 억제함으로써 증가될 수 있을 것으로 생각하였다. 이에 본 발명자들은 탈아민된 염기의 복구를 억제하는 우라실 DNA 글리코실라제 억제제 (Ugi)를 동시-발현시켰고, 돌연변이 도입 효율이 놀랍게도 개선되었음을 발견하였다.

핵산 염기 전환 효소의 일종인, PmCDA1은 변온성 동물인 칠성장어 유래이다. 따라서, 본 발명자들은 PmCDA1의 효소 활성에 대한 최적 온도가 일반적인 효소의 최적 온도인 약 37℃보다 낮을 수 있다고 가정하였고, 효소 활성이 배양 온도를 조정함으로써 증가될 수 있다고 생각하였다. 이에 PmCDA1의 효소 활성을 증강시키기 위한 시도로서, 본 발명자들은 PmCDA1로 형질감염된 세포를 일시적으로 저온에서 배양하였고 돌연변이 도입 효율이 개선되었음을 확인하였다.

본 발명자들은 이러한 발견을 토대로 추가 연구를 수행하였고 본 발명을 완성하였다.

이에, 본 발명은 하기에 기술된 바와 같다.

[1] 이중-가닥 DNA의 표적화 부위(targeted site)를 변형하는 방법으로서, 소정의 이중-가닥 DNA 내 표적 뉴클레오티드 서열에 특이적으로 결합하는 핵산 서열-인식 모듈 및 PmCDA1이 결합된 복합체를 이중-가닥 DNA를 함유하는 세포 내로 도입하는 단계, 및 세포를 저온에서 적어도 일시적으로 배양하여, 표적화 부위 내 상기 이중-가닥 DNA의 적어도 하나의 가닥을 절단하지 않으면서, 표적화 부위 내 하나 이상의 뉴클레오티드를 하나 이상의 다른 뉴클레오티드로 전환하거나, 하나 이상의 뉴클레오티드를 결실시키거나, 또는 하나 이상의 뉴클레오티드를 상기 표적화 부위 내로 삽입하는 단계를 포함하고,

핵산 서열-인식 모듈이 Cas의 적어도 하나의 DNA 절단능(cleavage ability)이 불활성화된 CRISPR-Cas 시스템인, 방법.

[2] [1]에 있어서, 전술한 Cas가 2종의 DNA 절단능이 결여된 것인, 방법.

[3] [1] 또는 [2]에 있어서, 전술한 세포가 포유류 세포인 것인, 방법.

[4] [3]에 있어서, 저온이 20℃ 내지 35℃인 것인, 방법.

[5] [3]에 있어서, 저온이 25℃인 것인, 방법.

[6] [1] 내지 [5] 중 어느 하나에 있어서, 이중-가닥 DNA가 복합체를 인코딩하는 핵산을 이중-가닥 DNA를 갖는 세포 내로 도입함으로써 복합체와 접촉되는 것인, 방법.

[7] 이중-가닥 DNA의 표적화 부위를 변형하는 방법으로서, 소정의 이중-가닥 DNA 내 표적 뉴클레오티드 서열에 특이적으로 결합하는 핵산 서열-인식 모듈, 핵산 염기 전환 효소 및 염기 절단 복구 억제제가 결합된 복합체를 상기 이중-가닥 DNA와 접촉시켜, 표적화 부위 내 상기 이중-가닥 DNA의 적어도 한 가닥을 절단하지 않으면서, 표적화 부위 내 하나 이상의 뉴클레오티드를 하나 이상의 다른 뉴클레오티드로 전환하거나, 하나 이상의 뉴클레오티드를 결실시키거나, 또는 하나 이상의 뉴클레오티드를 상기 표적화 부위 내로 삽입하는 단계를 포함하고,

핵산 서열-인식 모듈이 Cas의 적어도 하나의 DNA 절단능이 불활성화된 CRISPR-Cas 시스템인, 방법.

[8] [7]에 있어서, 전술한 Cas가 2종의 DNA 절단능이 결여된 것인, 방법.

[9] [7] 또는 [8]에 있어서, 전술한 핵산 염기 전환 효소가 시티딘 데아미나제인 것인, 방법.

[10] [9]에 있어서, 전술한 시티딘 데아미나제가 PmCDA1인 것인, 방법.

[11] [9] 또는 [10]에 있어서, 염기 절단 복구 억제제가 우라실 DNA 글리코실라제 억제제인 것인, 방법.

[12] [7] 내지 [11] 중 어느 하나에 있어서, 이중-가닥 DNA가 복합체를 인코딩하는 핵산을 이중-가닥 DNA를 갖는 세포 내로 도입함으로써 복합체와 접촉되는 것인, 방법.

[13] [12]에 있어서, 전술한 세포가 포유류 세포인 것인, 방법.

[14] 소정의 이중-가닥 DNA 내 표적 뉴클레오티드 서열에 특이적으로 결합하는 핵산 서열-인식 모듈, 핵산 염기 전환 효소 및 염기 절단 복구 억제제가 결합된 핵산-변형 효소 복합체로서, 표적화 부위 내 상기 이중-가닥 DNA의 적어도 한 가닥을 절단하지 않으면서, 표적화 부위 내 하나 이상의 뉴클레오티드를 하나 이상의 다른 뉴클레오티드로 전환하거나, 하나 이상의 뉴클레오티드를 결실시키거나, 또는 하나 이상의 뉴클레오티드를 상기 표적화 부위 내로 삽입하고,

핵산 서열-인식 모듈이 Cas의 적어도 하나의 DNA 절단능이 불활성화된 CRISPR-Cas 시스템인, 핵산-변형 효소 복합체.

[15] [14]의 핵산-변형 효소 복합체를 인코딩하는 핵산.

본 발명의 게놈 편집 기법에 따르면, 돌연변이 도입 효율이 핵산 염기 전환 효소를 사용하는 통상적인 게놈 편집 기법에 비해 현저하게 개선된다.

도 1은 실시예에서 사용된 게놈 편집 플라스미드를 나타내는 모식도이다.
도 2는 돌연변이 도입 효율의 평가 방법을 나타내는 모식도이다.
도 3은 수득된 변이체 집단에서 표적 유전자 영역의 돌연변이 양상의 분석 결과를 나타낸다.

본 발명은 변형되는 이중 가닥 DNA 중 적어도 하나의 사슬을 절단하지 않으면서, 이중 가닥 DNA 내 표적 뉴클레오티드 서열 및 그 부근의 뉴클레오티드를 다른 뉴클레오티드로 전환시킴으로써 이중 가닥 DNA의 표적화 부위(targeted site)를 변형하는 것을 포함하는, 게놈 편집 기법에서 돌연변이 도입 효율을 개선하는 방법을 제공한다. 방법은 특징적으로 이중-가닥 DNA 내 표적 뉴클레오티드 서열에 특이적으로 결합하는 핵산 서열-인식 모듈 및 PmCDA1이 결합된 복합체를 이중-가닥 DNA를 갖는 세포 내로 도입하고, 세포를 적어도 일시적으로 저온에서 배양하여 표적화 부위, 즉 표적 뉴클레오티드 서열 및 그 부근의 뉴클레오티드를 다른 뉴클레오티드로 전환하거나, 하나 이상의 뉴클레오티드를 결실시키거나, 또는 그 부위 내로 뉴클레오티드를 삽입하는 단계를 포함한다.

다른 구현예에서, 방법은 이중-가닥 DNA 내 표적 뉴클레오티드 서열에 특이적으로 결합하는 핵산 서열-인식 모듈, 핵산 염기 전환 효소, 및 염기 절단 복구 억제제가 결합된 복합체를 이중-가닥 DNA와 접촉시켜 표적화 부위, 즉 표적 뉴클레오티드 서열 및 그 부근의 뉴클레오티드를 다른 뉴클레오티드로 전환하거나, 하나 이상의 뉴클레오티드를 결실시키거나, 또는 그 부위 내로 뉴클레오티드를 삽입하는 단계를 특징적으로 포함한다.

또 다른 구현예에서, 방법은 이중-가닥 DNA 내 표적 뉴클레오티드 서열에 특이적으로 결합하는 핵산 서열-인식 모듈, 및 핵산 염기 전환 효소가 결합된 복합체를 이중-가닥 DNA를 갖는 세포 내로 도입하고, 세포의 염기 절단 복구를 억제하여 표적화 부위, 즉 표적 뉴클레오티드 서열 및 그 부근의 뉴클레오티드를 다른 뉴클레오티드로 전환하거나, 하나 이상의 뉴클레오티드를 결실시키거나 또는 그 부위 내로 뉴클레오티드를 삽입하는 단계를 특징적으로 포함한다.

본 발명에서, 이중-가닥 DNA의 "변형"은 DNA 가닥 위의 뉴클레오티드 (예컨대, dC)가 다른 뉴클레오티드 (예컨대, dT, dA 또는 dG)로 전환 또는 결실되거나, 또는 뉴클레오티드 또는 뉴클레오티드 서열이 DNA 가닥 위의 특정 뉴클레오티드 사이에 삽입되는 것을 의미한다. 변형되는 이중-가닥 DNA가 특별히 제한되는 것은 아니지만, 바람직하게는 게놈 DNA이다. 이중-가닥 DNA의 "표적화 부위"는 핵산 서열-인식 모듈이 특이적으로 인식하여 결합하는, 전체 또는 부분적 "표적 뉴클레오티드 서열" 또는 그 표적 뉴클레오티드 서열의 부근 (5' 상류 및 3' 하류 중 하나 또는 둘 다)을 의미하고, 그의 범위는 목적에 따라서 1개 염기 내지 수백 개 염기 사이에서 적절히 조정될 수 있다.

본 발명에서, "핵산 서열-인식 모듈"은 DNA 가닥 위의 특정 뉴클레오티드 서열 (즉, 표적 뉴클레오티드 서열)을 특이적으로 인식하여 결합하는 능력을 갖는 분자 또는 분자 복합체를 의미한다. 표적 뉴클레오티드 서열에 대한 핵산 서열-인식 모듈의 결합은 상기 모듈에 결합된 핵산 염기 전환 효소 및 염기 절단 복구 억제제가 이중-가닥 DNA의 표적화 부위에 특이적으로 작용하게 한다.

본 발명에서, "핵산 염기 전환 효소"는 DNA 가닥의 절단 없이, DNA 염기 위의 퓨린 또는 피리미딘 고리상의 치환기를 다른 기 또는 원자로 전환시키는 반응을 촉매함으로써 표적 뉴클레오티드를 다른 뉴클레오티드로 전환시킬 수 있는 효소이다.

본 발명에서, "염기 절단 복구"는 살아있는 유기체의 DNA 복구 메커니즘 중 하나이고, 효소에 의해 염기의 손상된 부분을 잘라내고 이들을 재연결시킴으로써 염기의 손상을 복구하는 메커니즘을 의미한다. 손상된 염기의 절단은 DNA의 N-글리코시드 결합을 가수분해하는 효소인, DNA 글리코실라제에 의해 수행된다. 이 효소에 의한 무염기 (abasic) 반응으로부터 생성된 무염기 부위 (아퓨린/아피리미딘 (apurinic/apyrimidic, AP) 부위)는 AP 엔도뉴클레아제, DNA 폴리머라제, DNA 리가제 등과 같이 염기 절단 복구 (BER) 경로의 하류에서 효소에 의해 처리된다. BER 경로에 관여하는 이러한 유전자 또는 단백질의 예시에는, UNG (NM_003362), SMUG1 (NM_014311), MBD4 (NM_003925), TDG (NM_003211), OGG1 (NM_002542), MYH (NM_012222), NTHL1 (NM_002528), MPG (NM_002434), NEIL1 (NM_024608), NEIL2 (NM_145043), NEIL3 (NM_018248), APE1 (NM_001641), APE2 (NM_014481), LIG3 (NM_013975), XRCC1 (NM_006297), ADPRT (PARP1) (NM_0016718), ADPRTL2 (PARP2) (NM_005484) 및 기타 (괄호는 각 유전자 (cDNA)의 염기 서열 정보가 등재된 참조서열 번호를 나타냄)가 포함되지만, 이들로 제한되는 것은 아니다.

본 발명에서, "염기 절단 복구 억제제"는 상기에 언급된 BER 경로의 임의의 단계를 억제하거나, 또는 BER 경로에 동원되는 분자 자체의 발현을 억제함으로써 결과적으로 BER을 억제하는 단백질을 의미한다. 본 발명에서, "염기 절단 복구를 억제한다"는 것은 상기에 언급된 BER 경로의 임의의 단계를 억제하거나, 또는 BER 경로에 동원되는 분자 자체의 발현을 억제함으로써 결과적으로 BER을 억제하는 것을 의미한다.

본 발명에서, "핵산-변형 효소 복합체"는 상기에 언급된 핵산 서열-인식 모듈 및 핵산 염기 전환 효소가 연결된 복합체를 포함하고, 핵산 염기 전환 효소 활성을 갖고 특정 뉴클레오티드 서열 인식능이 부여된 분자 복합체를 의미한다. 염기 절단 복구 억제제가 추가로 이 복합체에 결합될 수 있다. 본원에서 "복합체"는 다중 분자로 구성된 것뿐만 아니라, 융합 단백질과 같은 단일 분자로서 핵산 서열-인식 모듈 및 핵산 염기 전환 효소를 갖는 것을 포함한다. 또한, "복합체를 인코딩하는"이라는 것은 복합체를 구성하는 각 분자의 인코딩 및 단일 분자로서 그 구성 분자를 포함하는 융합 단백질의 인코딩 둘 다를 포함한다.

본 발명에서, "저온"은 세포 배양 시 세포 증식을 위한 일반적인 배양 온도보다 낮은 온도를 의미한다. 예를 들어, 세포의 일반적인 배양 온도가 37℃인 경우, 37℃보다 낮은 온도가 저온에 해당한다. 반면, 배양 온도가 너무 낮은 경우에는 세포가 손상되기 때문에 저온은 세포를 손상시키지 않는 온도여야 한다. 저온은 세포 종류, 배양 기간 및 다른 배양 조건에 따라서 달라지지만, 예를 들어, 세포가 중국 햄스터 난소 (CHO) 세포 등과 같은 포유류 세포인 경우, 이는 전형적으로 20℃ 내지 35℃, 바람직하게는 20℃ 내지 30℃, 더욱 바람직하게는 20℃ 내지 25℃, 추가로 바람직하게는 25℃이다.

본 발명에서, "적어도 일시적으로 저온에서 배양하는"이라는 것은 상기에 언급된 "저온 조건"에서 세포를 전체 배양 기간 중 적어도 일부 동안 배양하는 것을 의미하고, 전체 배양 기간 동안 저온에서 배양하는 것을 포함한다. 나아가, 배양 기간 동안 여러 번 저온에서 간헐적으로 세포를 배양하는 것이 또한 "저온에서 적어도 일시적으로 배양하는" 것에 포함된다. 저온 배양의 시기 및 기간이 특별히 제한되는 것은 아니지만, 일반적으로, 저온 배양은 핵산 서열-인식 모듈 및 PmCDA1의 복합체 또는 이를 인코딩하는 핵산을 세포 내로 도입한 후 적어도 1박 이상 유지된다. 배양 기간의 상한은 이중-가닥 DNA의 표적화 부위의 변형에 필요한 최소 기간이라면 특별히 제한되지 않으며, 세포는 전체 배양 기간 동안 저온에서 배양될 수 있다. 전체 배양 기간은 세포 유형, 배양 기간 및 다른 배양 조건에 따라서 달라지지만, 예를 들어, CHO 세포 등과 같은 포유류 세포가 25℃에서 배양되는 경우, 이는 전형적으로 약 10일 내지 14일이다. 바람직한 일 구현예에서, CHO 세포 등과 같은 포유류 세포는 20℃ 내지 35℃, 바람직하게는 20℃ 내지 30℃, 더욱 바람직하게는 20℃ 내지 25℃, 추가로 바람직하게는 25℃에서 복합체의 도입 후 적어도 1박 이상, 바람직하게는 1박 내지 7일간 (예컨대, 밤새) 배양된다.

본 발명에 사용되는 핵산 염기 전환 효소는 상기에 언급된 반응을 촉매할 수 있는 한 특별히 제한되지 않으며, 이의 예시에는 아미노기를 카르보닐기로 전환시키는 탈아민 반응을 촉매하는, 핵산/뉴클레오티드 데아미나제 수퍼패밀리에 속하는 데아미나제가 포함된다. 이의 바람직한 예시에는 시토신 또는 5-메틸시토신을 각각 우라실 또는 티민으로 전환시킬 수 있는 시티딘 데아미나제, 아데닌을 히포크산틴으로 전환시킬 수 있는 아데노신 데아미나제, 구아닌을 크산틴으로 전환시킬 수 있는 구아노신 데아미나제 등이 포함된다. 시티딘 데아미나제로서, 척추동물 등의 후천성 면역 시 면역글로불린 유전자 내로 돌연변이를 도입하는 효소인 활성-유도 시티딘 데아미나제 (이하, AID로도 언급됨)가 더욱 바람직하다.

핵산 염기 전환 효소의 유래가 특별히 제한되는 것은 아니지만, 예를 들어, 칠성장어로부터 유래한 PmCDA1 (칠성장어 시토신 데아미나제 1), 또는 포유류 (예컨대, 인간, 돼지, 소, 말, 원숭이 등)로부터 유래한 AID (활성-유도 시티딘 데아미나제; AICDA)가 사용될 수 있다. 예를 들어, GenBank 등재 번호 EF094822 및 ABO15149가 PmCDA1의 cDNA 염기 서열 및 아미노산 서열에 대해 언급될 수 있고, GenBank 등재 번호 NM_020661 및 NP_065712이 인간 AID의 cDNA 염기 서열 및 아미노산 서열에 대해 언급될 수 있다. 효소 활성의 측면에서, PmCDA1이 바람직하다. 하기에 언급된 실시예에 나타난 바와 같이, Ugi가 시티딘 데아미나제로서 PmCDA1을 사용하는 특정 구현예에서 함께 사용되는 경우에서도 오프-타겟 (off-target) 돌연변이의 위험성이 억제될 수 있음을 확인하였다. 따라서, 오프-타겟 돌연변이의 위험성 감소 측면에서 PmCDA1이 바람직하다.

본 발명에 사용되는 염기 절단 복구 억제제는 결과적으로 BER을 억제하는 한 특별히 제한되지 않지만, 효율 측면에서, BER 경로의 상류에 위치하는 DNA 글리코실라제의 억제제가 바람직하다. 본 발명에 사용되는 DNA 글리코실라제 억제제의 예시에는 티민 DNA 글리코실라제 억제제, 우라실 DNA 글리코실라제 억제제, 옥소구아닌 DNA 글리코실라제 억제제, 알킬구아닌 DNA 글리코실라제 억제제 등이 포함되지만, 이들로 제한되지 않는다. 예를 들어, 시티딘 데아미나제가 핵산 염기 전환 효소로 사용되는 경우, 돌연변이에 의해 생성된 DNA의 U:G 또는 G:U 미스매치의 복구를 억제하기 위해 우라실 DNA 글리코실라제 억제제를 사용하는 것이 적합하다.

이러한 우라실 DNA 글리코실라제 억제제의 예시에는 바실러스 서브틸리스 (Bacillus subtilis) 박테리오파지, PBS1로부터 유래한 우라실 DNA 글리코실라제 억제제 (Ugi), 및 바실러스 서브틸리스 박테리오파지, PBS2로부터 유래한 우라실 DNA 글리코실라제 억제제 (Ugi)가 포함되지만, 이들로 제한되는 것은 아니다 (Wang, Z., and Mosbaugh, D.W. (1988) J. Bacteriol. 170, 1082-1091). 상기에 언급된 DNA 미스매치의 복구 억제제가 본 발명에서 사용될 수 있다. 특히, PBS2로부터 유래한 Ugi는 또한 DNA상의 C로부터 T 이외의 돌연변이, 절단 및 재조합을 유발하기 어렵게 하는 효과를 갖는 것으로 알려져 있고, 따라서 PBS2로부터 유래한 Ugi가 적합하다.

상기에 언급된 바와 같이, 염기 절단 복구 (BER) 메커니즘에서, 염기가 DNA 글리코실라제에 의해 절단되는 경우, AP 엔도뉴클레아제는 무염기 부위 (AP 부위) 내에 닉 (nick)을 만들고, 엑소뉴클레아제는 이 AP 부위를 완전히 절단한다. AP 부위가 절단되는 경우, DNA 폴리머라제는 주형으로서 반대 가닥의 염기를 사용하여 새로운 염기를 생성하고, DNA 리가제가 최종적으로 닉을 봉합하여 복구를 완성한다. 효소 활성을 상실하였지만 AP 부위에 대한 결합능을 유지하는 변이체 AP 엔도뉴클레아제는 완전히 BER을 억제하는 것으로 알려져 있다. 따라서, 이들 돌연변이 AP 엔도뉴클레아제가 또한 본 발명에서 염기 절단 복구 억제제로서 사용될 수 있다. 변이체 AP 엔도뉴클레아제의 유래가 특별히 제한되는 것은 아니지만, 예를 들어, 에스케리치아 콜라이 (Escherichia coli), 효모, 포유류 (예컨대, 인간, 마우스, 돼지, 소, 말, 원숭이 등) 등으로부터 유래한 AP 엔도뉴클레아제가 사용될 수 있다. 예를 들어, UniprotKB No. P27695가 인간 Apel의 아미노산 서열로 언급될 수 있다. 효소 활성을 상실하였지만 AP 부위에 대한 결합능을 유지하는 변이체 AP 엔도뉴클레아제의 예시에는 변이된 활성 부위 및 변이된 Mg (보조인자)-결합 부위를 갖는 단백질이 포함된다. 예를 들어, E96Q, Y171A, Y171F, Y171H, D210N, D210A, N212A 및 기타가 인간 Ape1에 대해 언급될 수 있다.

세포의 염기 절단 복구는 상기에 언급된 BER의 억제제 또는 이를 인코딩하는 핵산 또는 BER을 억제하는 저분자량 화합물을 도입함으로써 억제될 수 있다. 별법으로, 세포의 BER은 BER 경로에 관여하는 유전자의 발현을 저해함으로써 억제될 수 있다. 유전자 발현의 저해는, 예를 들어, BER 경로에 관여하는 유전자의 발현을 특이적으로 저해할 수 있는 siRNA, 안티센스 핵산 또는 이들의 폴리뉴클레오티드를 발현할 수 있는 발현 벡터를 세포 내로 도입함으로써 수행될 수 있다. 별법으로, 유전자 발현은 BER 경로에 관여하는 유전자의 넉아웃 (knockout)에 의해 저해될 수 있다.

따라서, 본 발명의 일 구현예로서, 이중-가닥 DNA 내 표적 뉴클레오티드 서열에 특이적으로 결합하는 핵산 서열-인식 모듈 및 핵산 염기 전환 효소가 결합된 복합체를 이중-가닥 DNA를 함유하고 BER 경로와 관련된 유전자의 저해된 발현을 나타내는 세포 내로 도입하여, 표적화 부위, 즉 표적 뉴클레오티드 서열 및 그 부근의 뉴클레오티드를 다른 뉴클레오티드로 전환시키거나, 또는 표적화 부위를 결실시키거나, 또는 그 부위 내로 뉴클레오티드를 삽입하는 단계를 포함하는 돌연변이 도입 효율을 개선하는 방법이 제공된다.

SiRNA는 전형적으로 표적 유전자의 mRNA의 뉴클레오티드 서열 또는 이의 부분 서열 (이하, 표적 뉴클레오티드 서열)에 상보적인 서열을 갖는 RNA로 구성된 이중-가닥 올리고 RNA, 및 이의 상보적인 가닥이다. 이들 RNA의 뉴클레오티드 서열은 BER 경로에 관여하는 유전자의 서열 정보에 따라서 적절히 고안될 수 있다. 이는 표적 뉴클레오티드 서열에 상보적인 서열 (제1 서열) 및 이에 상보적인 서열 (제2 서열)이 헤어핀 루프 부분을 통해 연결되는 단일-가닥 RNA이고, 제1 서열이 헤어핀 루프 유형 구조를 채택함으로써 제2 서열과 이중-가닥 구조를 형성하는 RNA (작은 헤어핀 RNA: shRNA)가 또한 siRNA의 바람직한 구현예의 하나이다.

안티센스 핵산은 표적 mRNA (성숙 mRNA 또는 초기 전사 산물)를 발현하는 세포의 생리학적 조건하에서 표적 mRNA에 특이적으로 혼성화할 수 있고 혼성화되는 동안 표적 mRNA에 의해 코딩된 폴리펩티드의 번역을 억제할 수 있는 뉴클레오티드 서열을 함유하는 핵산을 의미한다. 안티센스 핵산의 종류는 DNA 또는 RNA, 또는 DNA/RNA 키메라일 수 있다. 이러한 핵산의 뉴클레오티드 서열은 BER 경로에 관여하는 유전자의 서열 정보에 따라서 적절히 고안될 수 있다.

BER 경로에 관여하는 유전자의 넉아웃은 BER 경로에 관여하는 유전자의 전부 또는 일부가 그들의 원래 기능을 발휘하지 않도록 파괴되거나 재조합되는 것을 의미한다. 유전자는 파괴되거나 변이되어 게놈 상의 하나의 대립형질이 기능하지 않거나 복수의 대립형질이 파괴되거나 돌연변이될 수 있다. 넉아웃은 공지된 방법에 의해 수행될 수 있다. 예를 들어, 표적 유전자와의 유전적 재조합을 일으키도록 제조된 DNA 컨스트럭트를 세포 내로 도입하여 넉아웃하는 방법, TALEN, CRISPR-Cas9 시스템 등을 사용하는 염기의 삽입, 결실, 치환 도입에 의해 넉아웃하는 방법이 언급될 수 있다.

본 발명의 핵산-변형 효소 복합체 내 핵산 서열-인식 모듈에 의해 인식되는 이중-가닥 DNA 내 표적 뉴클레오티드 서열은 상기 모듈이 그에 특이적으로 결합하고 이중-가닥 DNA 내 임의의 서열일 수 있는 한 특별히 제한되지 않는다. 표적 뉴클레오티드 서열의 길이는 핵산 서열-인식 모듈의 특이적 결합에 충분할 정도로만 필요하다. 예를 들어, 돌연변이가 포유류의 게놈 DNA 내 특정 부위에 도입되는 경우, 이는 그의 게놈 크기에 따라, 12개 이상의 뉴클레오티드, 바람직하게는 15개 이상의 뉴클레오티드, 더욱 바람직하게는 17개 이상의 뉴클레오티드이다. 길이의 상한이 특별히 제한되는 것은 아니지만, 바람직하게는 25개 이하의 뉴클레티드, 더욱 바람직하게는 22개 이하의 뉴클레오티드이다.

본 발명의 핵산-변형 효소 복합체 내 핵산 서열-인식 모듈로서, Cas의 적어도 하나의 DNA 절단능(cleavage ability)이 불활성화되는 CRISPR-Cas 시스템 (이하, "CRISPR-변이체 Cas"로 언급되고 또한 CRISPR-변이체 Cpf1을 포함함), 징크 핑거 모티프, TAL 이펙터 및 PPR 모티프 등, 뿐만 아니라 제한 효소, 전사 인자, RNA 폴리머라제 등과 같이, DNA에 특이적으로 결합하는 단백질의 DNA 결합 도메인을 함유하는 단편, 및 DNA 이중 가닥 절단능이 없는 것 등이 사용될 수 있지만, 상기 모듈이 이들로 제한되는 것은 아니다. 바람직하게는, CRISPR-변이체 Cas, 징크 핑거 모티프, TAL 이펙터, PPR 모티프 등이 언급될 수 있다.

CRISPR을 사용하는 게놈 편집 기법으로서, CRISPR-Cpf1을 사용하는 사례가 CRISPR-Cas9 이외에 보고되었다 (Zetsche B., et al., Cell, 163: 759-771 (2015)). Cpf1은 tracrRNA를 요구하지 않고, 절단된 DNA가 접착 말단이고, PAM 서열이 5'-측면 상에 존재하고 T-풍부 서열인 점 등에서 Cas9와 다른 특성을 갖는다. 포유류 세포에서 게놈 편집을 할 수 있는 Cpf1에는 애시드아미노코커스 (Acidaminococcus) sp. BV3L6 유래 Cpf1, 라크노스피라세아에 (Lachnospiraceae) 박테리움 ND2006 유래 Cpf1 등이 포함되지만, 이들로 제한되지 않는다. DNA 절단능이 결여된 변이체 Cpf1은 프란시스엘라 노비시다 (Francisella novicida) U112 유래 Cpf1 (FnCpf1)의 917번째 Asp 잔기가 Ala 잔기로 전환된 D917A 변이체, 1006번째 Glu 잔기를 Ala 잔기로 전환시켜 수득한 E1006A 변이체, 1255번째 Asp 잔기를 Ala 잔기로 전환시켜 수득한 D1255A 변이체 등을 포함한다. 변이체는 이들 변이체로 제한되지 않으며 DNA 절단능이 결여된 임의의 변이체 Cpf1이 본 발명에 사용될 수 있다.

징크 핑거 모티프는 3 - 6개 상이한 Cys2His2 유형 징크 핑거 유닛 (1개 핑거가 약 3개 염기를 인식함)의 연결에 의해 구성되고, 9 - 18개 염기의 표적 뉴클레오티드 서열을 인식할 수 있다. 징크 핑거 모티프는 모듈 조립 (Modular assembly) 방법 (Nat Biotechnol (2002) 20: 135-141), OPEN 방법 (Mol Cell (2008) 31: 294-301), CoDA 방법 (Nat Methods (2011) 8: 67-69), 에스케리치아 콜라이 일-혼성화 방법 (Nat Biotechnol (2008) 26: 695-701) 등과 같은 공지의 방법에 의해 생산될 수 있다. 상기에 언급된 특허 문헌 1이 징크 핑거 모티프 생산의 세부 사항에 대해 언급될 수 있다.

TAL 이펙터는 약 34개 아미노산을 한 유닛으로 갖는 모듈 반복 구조를 가지며, 하나의 모듈의 12번째 및 13번째 아미노산 잔기 (RVD로 불림)가 결합 안정성 및 염기 특이성을 결정한다. 각 모듈은 매우 독립적이기 때문에, 표적 뉴클레오티드 서열에 특이적인 TAL 이펙터는 간단히 모듈을 연결함으로써 생산될 수 있다. TAL 이펙터의 경우, 오픈 소스를 이용하는 생산 방법 (REAL 방법 (Curr Protoc Mol Biol (2012) Chapter 12: Unit 12.15), FLASH 방법 (Nat Biotechnol (2012) 30: 460-465), 및 골든 게이트 방법 (Nucleic Acids Res (2011) 39: e82) etc.)이 확립되어 있으며, 표적 뉴클레오티드 서열에 대한 TAL 이펙터는 상대적으로 편리하게 고안될 수 있다. 상기에 언급된 특허 문헌 2가 TAL 이펙터의 세부 사항에 대해 언급될 수 있다.

PPR 모티프는 특정 뉴클레오티드 서열이 각각 35개의 아미노산으로 구성되고 하나의 핵산 염기를 인식하는 PPR 모티프의 연속에 의해 인식되도록 구성되고, 각 모티프의 1, 4 및 ii(-2) 아미노산에 의해서만 표적 염기를 인식한다. 모티프 구성요소는 의존성을 갖지 않으며, 양 측면에서 모티프의 간섭이 없다. 따라서, TAL 이펙터와 같이, 표적 뉴클레오티드 서열에 특이적인 PPR 단백질은 간단히 PPR 모티프를 연결함으로써 생산될 수 있다. 상기에 언급된 특허 문헌 4가 PPR 모티프 생산의 세부 사항에 대해 언급될 수 있다.

제한 효소, 전사 인자, RNA 폴리머라제 등의 단편이 사용되는 경우, 이들 단백질의 DNA 결합 도메인이 익히 알려져 있기 ?문에, 이 도메인을 함유하고 DNA 이중 가닥 절단능이 결여된 단편을 쉽게 고안하여 작제할 수 있다.

상기에 언급된 임의의 핵산 서열-인식 모듈은 상기에 언급된 핵산 염기 전환 효소 및/또는 염기 절단 복구 억제제와의 융합 단백질로서 제공될 수 있거나, 또는 SH3 도메인, PDZ 도메인, GK 도메인, GB 도메인 등과 같은 단백질 결합 도메인 및 이의 결합 파트너는 핵산 서열-인식 모듈 및 핵산 염기 전환 효소 및/또는 염기 절단 복구 억제제와 각각 융합되어, 상기 도메인 및 이의 결합 파트너의 상호작용에 의한 단백질 복합체로서 제공될 수 있다. 별법으로, 핵산 서열-인식 모듈 및 핵산 염기 전환 효소 및/또는 염기 절단 복구 억제제는 각각 인테인 (intein)과 융합될 수 있고, 이들은 단백질 합성 후 라이게이션에 의해 연결될 수 있다.

본 발명의 핵산-변형 효소 복합체는 상기 복합체 및 복합체를 인코딩하는 핵산을 목적 이중-가닥 DNA (예컨대, 게놈 DNA)를 갖는 세포 내로 도입함으로써 이중-가닥 DNA와 접촉될 수 있다. 도입 및 발현 효율을 고려할 때, 핵산 변형 효소 복합체 자체보다는 이를 인코딩하는 핵산의 형태로 복합체를 도입하고 세포 내에서 복합체를 발현시키는 것이 바람직하다.

따라서, 핵산 서열-인식 모듈, 핵산 염기 전환 효소 및 염기 절단 복구 억제제는 이의 융합 단백질을 인코딩하는 핵산으로서, 또는 결합 도메인, 인테인 등을 사용하여 단백질로의 번역 후 숙주 세포에서 복합체를 형성할 수 있는 형태로, 또는 이들 각각을 인코딩하는 핵산으로서 제조되는 것이 바람직하다. 본원에서 핵산은 DNA 또는 RNA일 수 있다. DNA인 경우, 이중-가닥 DNA인 것이 바람직하고, 숙주 세포 내 기능성 프로모터의 조절하에 배치되는 발현 벡터의 형태로 제공된다. RNA인 경우, 단일-가닥 RNA인 것이 바람직하다.

본 발명의 복합체는 이중-가닥 DNA 절단 (DSB)을 동반하지 않기 때문에, 낮은 독성을 갖는 게놈 편집이 가능하고, 본 발명의 유전적 변형 방법은 매우 다양한 생물학적 물질에 적용될 수 있다. 따라서, 상기에 언급된 핵산 전환 효소 복합체를 인코딩하는 핵산이 도입되는 세포는 원핵생물인 에스케리치아 콜라이 등의 세균, 하등 진핵생물인 효모 등과 같은 미생물의 세포부터 인간 등을 포함하는 포유류의 세포, 및 곤충, 식물 등의 고등 진핵생물의 세포까지, 임의의 세포 종을 포함할 수 있다.

징크 핑거 모티프, TAL 이펙터, PPR 모티프 등과 같은 핵산 서열-인식 모듈을 인코딩하는 DNA는 각 모듈에 대해 상기에 언급된 임의의 방법에 의해 수득될 수 있다. 제한 효소, 전사 인자, RNA 폴리머라제 등의 서열-인식 모듈을 인코딩하는 DNA는, 예를 들어, 이의 cDNA 서열 정보를 토대로 단백질의 바람직한 부분 (DNA 결합 도메인을 함유하는 부분)을 인코딩하는 영역을 커버하는 올리고DNA 프라이머를 합성하고, 주형으로서, 단백질-생산 세포로부터 제조된 총 RNA 또는 mRNA 분획을 사용하는 RT-PCT로 증폭함으로써 클로닝될 수 있다.

핵산 염기 전환 효소 및 염기 절단 복구 억제제를 인코딩하는 DNA 또한 이의 cDNA 서열 정보를 토대로 올리고DNA 프라이머를 합성하고, 주형으로, 효소-생산 세포로부터 제조된 총 RNA 또는 mRNA 분획을 사용하는 RT-PCR 방법으로 증폭함으로써 유사하게 클로닝될 수 있다. 예를 들어, PBS2-유래 Ugi를 인코딩하는 DNA는 NCBI/GenBank 데이터베이스에 등재된 DNA 서열 (등재 번호 J04434)을 토대로 CDS의 상류 및 하류에 대한 적합한 프라이머를 고안하고, RT-PCR 방법에 의해 PBS2-유래 mRNA로부터 클로닝될 수 있다.

클로닝된 DNA는 단백질을 인코딩하는 DNA로서 직접 사용될 수 있거나, 또는 바람직한 경우 제한 효소로의 절단 후, 또는 적합한 링커 (예컨대, GS 링커, GGGAR 링커 등), 스페이서 (예컨대, FLAG 서열 등) 및/또는 핵 위치 신호 (NLS) (목적 이중-가닥 DNA가 미토콘드리아 또는 엽록체 DNA인 경우 각 세포소기관은 신호를 전달함)의 부가 후 단백질을 인코딩하는 DNA로 제조될 수 있다. 이는 핵산 서열-인식 모듈을 인코딩하는 DNA에 더 결합되어 융합 단백질을 인코딩하는 DNA를 제조할 수 있다.

별법으로, 핵산 변형 효소 복합체를 인코딩하는 DNA는 결합 도메인 또는 이의 결합 파트너를 인코딩하는 DNA와 융합될 수 있거나, 또는 이들 DNA 둘 다는 분리 인테인을 인코딩하는 DNA와 융합되고, 그로 인해 핵산 서열-인식 전환 모듈 및 핵산 변형 효소 복합체가 숙주 세포에서 번역되어 복합체를 형성할 수 있다. 이러한 경우에, 링커 및/또는 핵 위치 신호는 바람직한 경우 이들 DNA 중 하나 또는 둘 다의 적합한 위치에 연결될 수 있다.

핵산 변형 효소 복합체를 인코딩하는 DNA는 DNA 가닥을 화학적으로 합성함으로써, 또는 PCR 방법 및 깁슨 어셈블리 (Gibson Assembly) 방법을 이용하여 합성된 부분적으로 중첩하는 올리고DNA 짧은 가닥을 연결하여 이의 전장을 인코딩하는 DNA를 작제함으로써 수득될 수 있다. 화학적 합성 또는 PCR 방법 또는 깁슨 어셈블리 방법의 조합에 의한 전장 DNA 작제의 이점은 사용되는 코돈이 DNA가 도입되는 숙주에 따라서 CDS 전장으로 고안될 수 있다는 점이다. 이종 DNA의 발현 시에, 단백질 발현 수준은 이의 DNA 서열을 숙주 유기체에서 매우 빈번하게 사용되는 코돈으로 전환시킴으로써 증가될 것으로 예상된다. 사용되는 숙주에서 코돈 사용 빈도의 데이터, 예를 들어, Kazusa DNA Research Institute의 홈페이지에 기술된 유전적 코드 사용 빈도 데이터베이스 (http://www.kazusa.or.jp/codon/index.html)가 사용될 수 있거나, 또는 각 숙주에서의 코돈 사용 빈도를 나타내는 문헌이 이에 대해 참조될 수 있다. 수득된 데이터 및 도입되는 DNA 서열을 참조하여, DNA 서열에 사용된 것들 중에서 숙주에서 낮은 사용 빈도를 나타내는 코돈을 동일한 아미노산을 코딩하면서 높은 사용 빈도를 나타내는 코돈으로 전환할 수 있다.

핵산 변형 효소 복합체를 인코딩하는 DNA를 함유하는 발현 벡터는, 예를 들어, 적합한 발현 벡터에서 프로모터의 하류에 DNA를 연결함으로써 생산될 수 있다.

발현 벡터로서, 에스케리치아 콜라이-유래 플라스미드 (예컨대, pBR322, pBR325, pUC12, pUC13); 바실러스 서브틸리스-유래 플라스미드 (예컨대, pUB110, pTP5, pC194); 효모-유래 플라스미드 (예컨대, pSH19, pSH15); 곤충 세포 발현 플라스미드 (예컨대, pFast-Bac); 동물 세포 발현 플라스미드 (예컨대, pA1-11, pXT1, pRc/CMV, pRc/RSV, pcDNAI/Neo); λ파아지 등과 같은 박테리오파아지; 베큘로바이러스 등과 같은 곤충 바이러스 벡터 (예컨대, BmNPV, AcNPV); 레트로바이러스, 벡시니아 바이러스, 아데노바이러스 등과 같은 동물 바이러스 벡터 등이 사용된다.

프로모터로서, 숙주에서 유전자 발현에 사용하기에 적합한 임의의 프로모터가 사용될 수 있다. DSB를 수반하는 통상적인 방법에서, 숙주 세포의 생존율은 종종 독성으로 인해 현저히 감소하기 때문에, 유도성 프로모터를 사용하여 유도의 개시에 의해 세포의 수를 증가시키는 것이 바람직하다. 그러나, 본 발명의 핵산-변형 효소 복합체를 발현시킴으로써 또한 충분한 세포 증식이 가능할 수 있기 때문에, 구성적 프로모터가 또한 제한 없이 사용될 수 있다.

예를 들어, 숙주가 동물 세포인 경우, SRα 프로모터, SV40 프로모터, LTR 프로모터, CMV (사이토메갈로바이러스) 프로모터, RSV (라우스 육종 바이러스) 프로모터, MoMuLV (몰로니 마우스 백혈병 바이러스) LTR, HSV-TK (단순 포진 바이러스 티미딘 키나제) 프로모터 등이 사용된다. 이들 중에서, CMV 프로모터, SRα 프로모터 등이 바람직하다.

숙주가 에스케리치아 콜라이인 경우, trp 프로모터, lac 프로모터, recA 프로모터, λP_L 프로모터, lpp 프로모터, T7 프로모터 등이 바람직하다.

숙주가 바실러스 속인 경우, SPO1 프로모터, SPO2 프로모터, penP 프로모터 등이 바람직하다.

숙주가 효모인 경우, Gal1/10 프로모터, PHO5 프로모터, PGK 프로모터, GAP 프로모터, ADH 프로모터 등이 바람직하다.

숙주가 곤충 세포인 경우, 폴리헤드린 프로모터, P10 프로모터 등이 바람직하다.

숙주가 식물 세포인 경우, CaMV35S 프로모터, CaMV19S 프로모터, NOS 프로모터 등이 바람직하다.

발현 벡터로서, 상기에 언급된 것들 이외에, 필요에 따라서 인핸서, 스플라이싱 신호, 터미네이터, 폴리A 부가 신호, 약물 내성 유전자, 영양요구성 보족 유전자 등과 같은 선별 마커, 복제 기원 등을 함유하는 것이 사용될 수 있다.

핵산 변형 효소 복합체를 인코딩하는 RNA는, 예를 들어, 주형으로서 각 단백질을 인코딩하는 DNA를 함유하는 벡터를 사용하여 그 자체로 공지된 시험관 내 전사 시스템에서 mRNA로의 전사에 의해 제조될 수 있다.

본 발명의 복합체는 핵산 변형 효소 복합체를 인코딩하는 DNA를 함유하는 발현 벡터를 도입하고, 숙주 세포를 배양함으로써 세포 내에서 발현될 수 있다.

숙주로서, 에스케리치아 속, 바실러스 속, 효모, 곤충 세포, 곤충, 동물 세포 등이 사용될 수 있다.

에스케리치아 속으로서, 에스케리치아 콜라이 K12·DH1 [Proc. Natl. Acad. Sci. USA, 60, 160 (1968)], 에스케리치아 콜라이 JM103 [Nucleic Acids Research, 9, 309 (1981)], 에스케리치아 콜라이 JA221 [Journal of Molecular Biology, 120, 517 (1978)], 에스케리치아 콜라이 HB101 [Journal of Molecular Biology, 41, 459 (1969)], 에스케리치아 콜라이 C600 [Genetics, 39, 440 (1954)] 등이 사용된다.

바실러스 속으로서, 바실러스 서브틸리스 MI114 [Gene, 24, 255 (1983)], 바실러스 서브틸리스 207-21 [Journal of Biochemistry, 95, 87 (1984)] 등이 사용된다.

효모로서, 사카로마이세스 세레비지아에 AH22, AH22R^-, NA87-11A, DKD-5D, 20B-12, 쉬조사카로마이세스 폼베 NCYC1913, NCYC2036, 피치아 파스토리스 KM71 등이 사용된다.

곤충 세포로서 바이러스가 AcNPV인 경우, 양배추 거염벌레 유충 (cabbage armyworm larva)-유래 확립된 세포주 (스포돕테라 프루지페르다 (Spodoptera frugiperda) 세포; Sf 세포), 트리코플루시아 니 (Trichoplusia ni)의 중간장(mid-intestine)으로부터 유래한 MG1 세포, 트리코플루시아 니의 알로부터 High Five^TM 세포, 도둑나방 (Mamestra brassicae)-유래 세포, 에스티그메나 아크레아 (Estigmena acrea)-유래 세포 등이 사용된다. 바이러스가 BmNPV인 경우, 누에나방 (Bombyx mori)-유래 확립된 세포주 (누에나방 N 세포; BmN 세포) 등이 곤충 세포로서 사용된다. Sf 세포로서, 예를 들어 Sf9 세포 (ATCC CRL1711), Sf21 세포 [상기 모두 In Vivo, 13, 213-217 (1977) 참조] 등이 사용된다.

곤충으로서, 예를 들어, 누에나방, 초파리, 귀뚜라미 등의 유충이 사용된다 [Nature, 315, 592 (1985)].

동물 세포로서, 원숭이 COS-7 세포, 원숭이 Vero 세포, CHO 세포, dhfr 유전자-결손 CHO 세포, 마우스 L 세포, 마우스 AtT-20 세포, 마우스 골수종 세포, 래트 GH3 세포, 인간 FL 세포, 인간 태아 신장-유래 세포 (예컨대, HEK293 세포) 등, 인간 및 다른 포유류의 iPS 세포, ES 세포 등과 같은 다능성 줄기세포, 다양한 조직으로부터 제조된 일차 배양 세포가 사용된다. 나아가, 제브라피쉬 배아, 제노퍼스 (Xenopus) 난모세포 등이 또한 사용될 수 있다.

식물 세포로서, 다양한 식물로부터 제조된 현탁된 배양 세포, 캘러스, 원형질체, 잎 분절, 뿌리 분절 등 (예컨대, 쌀, 밀, 옥수수 등과 같은 곡물, 토마토, 오이, 가지 등과 같은 농작물, 카네이션, 꽃도라지 (Eustoma russellianum) 등과 같은 재배 식물, 담배, 애기장대 (arabidopsis thaliana)와 같은 실험 식물, 및 기타)이 사용된다.

상기에 언급된 모든 숙주 세포는 반수체 (일배체), 또는 배수체 (예컨대, 2배수체, 3배수체, 4배수체 등)일 수 있다.

발현 벡터는 숙주의 종류에 따라서 공지의 방법 (예컨대, 리소자임 방법, 적격 (competent) 방법, PEG 방법, CaCl₂ 공침전 방법, 전기천공 방법, 미세주입 방법, 입자 총 방법, 리포펙션 방법, 아그로박테리움 방법 등)에 의해 도입될 수 있다.

에스케리치아 콜라이는, 예를 들어, 문헌 [Proc. Natl. Acad. Sci. USA, 69, 2110 (1972), Gene, 17, 107 (1982)] 등에 기술된 방법에 따라 형질전환될 수 있다.

바실러스 속은, 예를 들어, 문헌 [Molecular & General Genetics, 168, 111 (1979)] 등에 기술된 방법에 따라 벡터가 도입될 수 있다.

효모는, 예를 들어, 문헌 [Methods in Enzymology, 194, 182-187 (1991), Proc. Natl. Acad. Sci. USA, 75, 1929 (1978)] 등에 기술된 방법에 따라 벡터가 도입될 수 있다.

곤충 세포 및 곤충은, 예를 들어, 문헌 [Bio/Technology, 6, 47-55 (1988)] 등에 따라 벡터가 도입될 수 있다.

동물 세포는, 예를 들어, 문헌 [Cell Engineering additional volume 8, New Cell Engineering Experiment Protocol, 263-267 (1995) (published by Shujunsha)], 및 [Virology, 52, 456 (1973)]에 기술된 방법에 따라서 벡터가 도입될 수 있다.

벡터가 도입된 세포는 숙주의 종류에 따라서 공지된 방법에 따라 배양될 수 있다.

예를 들어, 에스케리치아 콜라이 또는 바실러스 속을 배양하는 경우, 배양에 사용되는 배지는 액체 배지가 바람직하다. 이 배지는 형질전환체의 성장에 필요한 탄소원, 질소원, 무기물 등을 함유하는 것이 바람직하다. 탄소원의 예시에는 글루코스, 덱스트린, 가용성 전분, 수크로스 등이 포함되고; 질소원의 예시에는 암모늄염, 질산염, 옥수수 침지액, 펩톤, 카제인, 육즙, 대두박, 감자 추출물 등과 같은 무기물 또는 유기물이 포함되고; 무기물의 예시에는 염화칼슘, 인산이수소나트륨, 염화마그네슘 등이 포함된다. 배지는 효모 추출물, 비타민, 성장 촉진 인자 등을 함유할 수 있다. 배지의 pH는 바람직하게는 약 5 내지 약 8이다.

에스케리치아 콜라이 배양용 배지로서, 예를 들어, 글루코스, 카사미노산을 함유하는 M9 배지 [Journal of Experiments in Molecular Genetics, 431-433, Cold Spring Harbor Laboratory, New York 1972]가 바람직하다. 필요한 경우, 예를 들어, 3β-인돌릴아크릴산과 같은 제제를 배지에 추가하여 프로모터의 효율적인 기능을 보장할 수 있다. 에스케리치아 콜라이는 일반적으로 약 15 내지 약 43℃에서 배양된다. 필요한 경우, 폭기 및 교반이 수행될 수 있다.

바실러스 속은 일반적으로 약 30 내지 약 40℃에서 배양된다. 필요한 경우, 폭기 및 교반이 수행될 수 있다.

효모 배양용 배지의 예시에는 Burkholder 최소 배지 [Proc. Natl. Acad. Sci. USA, 77, 4505 (1980)], 0.5% 카사미노산 함유 SD 배지 [Proc. Natl. Acad. Sci. USA, 81, 5330 (1984)] 등이 포함된다. 배지의 pH는 바람직하게는 약 5 내지 약 8이다. 배양은 일반적으로 약 20℃ 내지 약 35℃에서 수행된다. 필요한 경우, 폭기 및 교반이 수행될 수 있다.

곤충 세포 또는 곤충 배양용 배지로서, 예를 들어, 불활성화 10% 소 혈청 등의 첨가제를 적당히 함유하는 Grace 곤충 배지 [Nature, 195, 788 (1962)] 등이 사용된다. 배지의 pH는 바람직하게는 약 6.2 내지 약 6.4이다. 배양은 바람직하게는 약 27℃에서 수행된다. 필요한 경우, 폭기 및 교반이 수행될 수 있다.

동물 세포 배양용 배지로서, 예를 들어, 약 5 내지 약 20%의 소 태아 혈청을 함유하는 최소 필수 배지 (MEM) [Science, 122, 501 (1952)], Ham's F12 배지, Dulbecco 변형 Eagle 배지 (DMEM) [Virology, 8, 396 (1959)], RPMI 1640 배지 [The Journal of the American Medical Association, 199, 519 (1967)], 199 배지 [Proceeding of the Society for the Biological Medicine, 73, 1 (1950)] 등이 사용된다. 배지의 pH는 바람직하는 약 6 내지 약 8이다. 배양은 일반적으로 약 30℃ 내지 약 40℃에서 수행된다. 필요한 경우, 폭기 및 교반이 수행될 수 있다.

식물 세포 배양용 배지로서, 예를 들어, MS 배지, LS 배지, B5 배지 등이 사용된다. 배지의 pH는 바람직하게는 약 5 내지 약 8이다. 배양은 일반적으로 약 20℃ 내지 약 30℃에서 수행된다. 필요한 경우, 폭기 및 교반이 수행될 수 있다.

배양 기간은 적어도 이중-가닥 DNA의 표적화 부위가 변형되는데 필요한 기간이기만 하면 특별히 제한되지 않으며, 숙주 세포에 따라서 적절히 선택될 수 있다. 바람직하지 않은 오프-타겟 돌연변이를 회피하기 위해, 배양은 표적화 부위를 변형하기에 충분한 시간을 벗어나서 수행되지 않는 것이 바람직하다. 적어도 일시적으로 저온에서 배양하는 단계를 수행하는 경우, 저온 배양의 시기 및 기간은 상기한 바와 같다.

상기에 언급된 바와 같이, 핵산 변형 효소 복합체는 세포 내 발현될 수 있다.

핵산 변형 효소 복합체를 인코딩하는 RNA는 미세주입 방법, 리포펙션 방법 등에 의해 숙주 내로 도입될 수 있다. RNA 도입은 1회 또는 적당한 간격으로 여러 번 (예컨대, 2 내지 5회) 반복하여 수행될 수 있다.

핵산 서열-인식 모듈 및 핵산 염기 전환 효소의 복합체가 세포 내로 도입된 발현 벡터 또는 RNA 분자에 의해 발현되는 경우, 핵산 서열-인식 모듈은 관심 이중-가닥 DNA (예컨대, 게놈 DNA) 내 표적 뉴클레오티드 서열을 특이적으로 인식하여 이에 결합하고, 핵산 서열-인식 모듈에 결합된 핵산 염기 전환 효소의 작용으로 인해, 염기 전환이 표적화 부위의 센스 가닥 또는 안티센스 가닥에서 일어나고 (전부 또는 부분 표적 뉴클레오티드 서열 또는 그의 부근을 포함하는 수 백개의 염기 내에서 적절하게 조정됨) 미스매치가 이중-가닥 DNA에서 일어난다 (예컨대, PmCDA1, AID 등과 같은 시티딘 데아미나제가 핵산 염기 전환 효소로 사용되는 경우, 표적화 부위에서 센스 가닥 또는 안티센스 가닥 상의 시토신이 우라실로 전환되어 U:G 또는 G:U 미스매치를 야기함). 미스매치가 정확히 복구되지 않고, 반대 가닥의 염기가 전환된 가닥의 염기와 쌍을 형성 (상기에 언급된 예에서 T-A 또는 A-T)하도록 복구되는 경우, 다른 뉴클레오티드가 더 치환되는 경우 (예컨대, U→A, G), 또는 1 내지 수십 개의 염기가 복구 동안 결실 또는 삽입되는 경우에, 다양한 돌연변이가 도입된다. 염기 절단 복구의 억제제를 조합 사용함으로써, 세포 내 BER 메커니즘이 억제되고, 복구 오류의 빈도가 증가하며, 돌연변이 도입 효율이 향상될 수 있다.

징크 핑거 모티프의 경우, 표적 뉴클레오티드 서열에 특이적으로 결합하는 징크 핑커의 생산 효율이 높지 않고 높은 결합 특이성을 갖는 징크 핑거의 선택이 복잡하기 때문에, 실제로 다수의 기능성 징크 핑거 모티프의 생산은 쉽지 않다. TAL 이펙터 및 PPR 모티프가 징크 핑거 모티프에 비해 표적 핵산 서열 인식의 더 높은 정도의 자유도를 가지지만, 표적 뉴클레오티드 서열에 따라 거대 단백질을 매번 고안하고 제조할 필요가 있기 때문에 효율성 문제가 여전히 남아 있다.

반면, CRISPR-Cas 시스템은 표적 뉴클레오티드 서열에 상보적인 가이드 RNA에 의해 목적 이중-가닥 DNA 서열을 인식하기 때문에, 임의의 서열은 간단히 표적 뉴클레오티드 서열과 특이적으로 혼성체를 형성할 수 있는 올리고DNA를 합성함으로써 표적될 수 있다.

따라서, 본 발명의 더 바람직한 구현예에서, Cas의 적어도 하나의 DNA 절단능이 불활성화된 CRISPR-Cas 시스템 (CRISPR-변이체 Cas)이 핵산 서열-인식 모듈로서 사용된다.

도 1은 핵산 서열-인식 모듈로서 CRISPR-변이체 Cas를 사용하는 본 발명의 게놈 편집 플라스미드를 나타내는 모식도이다.

CRISPR-변이체 Cas를 사용하는 본 발명의 핵산 서열-인식 모듈은 표적 뉴클레오티드 서열에 상보적인 가이드 RNA (gRNA), 변이체 Cas 단백질을 동원하는데 필요한 tracrRNA, 및 변이체 Cas 단백질로 구성된 RNA 분자의 복합체로서 제공된다.

본 발명에 사용되는 Cas 단백질은 CRISPR 시스템에 속하기만 한다면 특별히 제한되지 않으며, 바람직하게는 Cas9이다. Cas9의 예시에는 스트렙토코커스 피로겐스-유래 Cas9 (SpCas9), 스트렙토코커스 써모필러스-유래 Cas9 (StCas9) 등이 포함되지만, 이들로 제한되는 것은 아니다. SpCas9가 바람직하다. 본 발명에 사용되는 변이체 Cas로서, 이중-가닥 DNA의 두 가닥의 절단능이 불활성화된 임의의 Cas 및 한 가닥 단독의 적어도 하나의 절단능이 불활성화된 닉케이즈 (nickase) 활성을 갖는 것이 사용될 수 있다. 예를 들어, SpCas9의 경우에, 10번째 Asp 잔기가 Ala 잔기로 전환되고 가이드 RNA와 상보적인 가닥을 형성하는 가닥의 반대편 가닥의 절단능이 결여된 D10A 변이체, 또는 840번째 His 잔기가 Ala 잔기로 전환되고 가이드 RNA에 상보적인 가닥의 절단능이 결여된 H840A 변이체, 또는 이들의 이중 변이체가 사용될 수 있고, 다른 변이체 Cas가 유사하게 사용될 수 있다.

핵산 염기 전환 효소 및 염기 절단 복구 억제제가 상기에 언급된 징크 핑거 등과의 커플링 계획과 유사한 방법에 의해 변이체 Cas와의 복합체로서 제공된다. 별법으로, 핵산 염기 전환 효소 및/또는 염기 절단 복구 억제제 및 변이체 Cas는 또한 RNA 앱타머 MS2F6, PP7 등을 사용하여 결합될 수 있고 RNA 스캐폴드가 그에 단백질을 결합시킴으로써 사용될 수 있다. 가이드 RNA는 표적 뉴클레오티드 서열과 상보적인 서열을 형성하고, 변이체 Cas가 부착된 tracrRNA에 의해 동원되고 변이체 Cas가 DNA 절단 부위 인식 서열 PAM (protospacer adjacent motif)을 인식한다 (SpCas9가 사용되는 경우, PAM은 NGG (N은 임의의 염기)의 3개 염기이고, 이론적으로, 게놈 상의 임의의 위치를 표적할 수 있음). 하나 또는 두 DNA 모두가 절단될 수 있고, 변이체 Cas에 연결된 핵산 염기 전환 효소의 작용으로 인해, 핵산 염기 전환이 표적화 부위 (전부 또는 일부 표적 뉴클레오티드 서열을 포함하는 수 백개의 염기 내로 적절히 조정됨)에서 일어나고 미스매치가 이중-가닥 DNA 내에서 일어난다. 복구되는 세포의 BER 시스템의 오류로 인해, 다양한 돌연변이가 도입된다.

CRISPR-변이체 Cas가 핵산 서열-인식 모듈로 사용되는 경우, CRISPR-변이체 Cas는, 징크 핑거 등이 핵산 서열-인식 모듈로 사용되는 경우와 유사하게, 관심 이중-가닥 DNA를 갖는 세포 내로, 핵산 인코딩 핵산 변형 효소 복합체의 형태로, 도입되는 것이 바람직하다.

Cas를 인코딩하는 DNA는 이 효소를 생산하는 세포로부터, 염기 절단 복구 억제제를 인코딩하는 DNA에 대해 상기에 언급된 방법과 유사한 방법에 의해 클로닝될 수 있다. 변이체 Cas는 DNA 절단능에 중요한 부분의 아미노산 잔기 (예컨대, 이로 제한되는 것은 아니지만, Cas9의 경우, 10번째 Asp 잔기 및 840번째 His 잔기)를 다른 아미노산으로 전환하는 돌연변이를, 그 자체로 공지된 부위 특이적 돌연변이 유도 방법에 의해, 클로닝된 Cas를 인코딩하는 DNA 내로 도입함으로써 수득될 수 있다.

별법으로, 변이체 Cas를 인코딩하는 DNA는 또한, 핵산 서열-인식 모듈을 인코딩하는 DNA 및 글리코실라제를 인코딩하는 DNA에 대해 상기에 언급된 것들과 유사한 방법, 및 화학적 합성 또는 PCR 방법 또는 깁슨 어셈블리 방법의 조합에 의해, 사용되는 숙주 세포에서 발현에 적합한 코돈 용법을 갖는 DNA로서 제작될 수 있다. 예를 들어, 진핵 세포에서 SpCas9의 발현에 최적화된 CDS 서열 및 아미노산 서열이 서열번호: 3 및 4에 나타나 있다. 서열번호: 3으로 개시된 서열에서, 염기 번호 29에서 "A"가 "C"로 전환되는 경우, D10A 변이체를 인코딩하는 DNA가 수득될 수 있고, 염기 번호 2518-2519에서 "CA"가 "GC"로 전환되는 경우, H840A 변이체를 인코딩하는 DNA가 수득될 수 있다.

변이체 Cas를 인코딩하는 DNA 및 핵산 염기 전환 효소를 인코딩하는 DNA는 융합 단백질로서 발현되도록 연결될 수 있거나, 또는 결합 도메인, 인테인 등을 사용하여 개별적으로 발현되도록 고안될 수 있고, 단백질-단백질 상호작용 또는 단백질 라이게이션을 통해 숙주 세포에서 복합체를 형성한다. 별법으로, 변이체 Cas를 인코딩하는 DNA 및 핵산 염기 전환 효소를 인코딩하는 DNA가 각각 적합한 분할 부위에서 2개 단편으로 분할되고, 어느 하나의 단편이 2개의 부분 복합체로서 핵산-변형 효소 복합체를 발현하도록 서로 직접적으로 또는 적합한 링커를 통해 연결되고, 이는 특정 핵산 서열 인식능을 갖는 기능성 변이체 Cas를 재구성하도록 세포 내에서 연합되고 재중첩되며, 변이체 Cas가 표적 뉴클레오티드 서열에 결합되는 경우 핵산 염기 전환 반응 촉매 활성을 갖는 기능성 핵산 염기 전환 효소가 재구성되는 디자인이 이용될 수 있다. 예를 들어, 변이체 Cas9의 N-말단측 단편을 인코딩하는 DNA 및 변이체 Cas의 C-말단측 단편을 인코딩하는 DNA는 각각 적합한 프라이머를 사용하는 PCR 방법에 의해 제조되고; 핵산 염기 전환 효소의 N-말단측 단편을 인코딩하는 DNA 및 핵산 염기 전환 효소의 C-말단측 단편을 인코딩하는 DNA가 유사한 방식으로 제조되고; 예를 들어, N-말단측 단편을 인코딩하는 DNA는 서로 연결되고, C-말단측 단편을 인코딩하는 DNA는 통상적인 방법에 의해 서로 연결되며, 그로 인해 2개의 부분 복합체를 인코딩하는 DNA가 생산될 수 있다. 별법으로, 변이체 Cas의 N-말단측 단편을 인코딩하는 DNA 및 핵산 염기 전환 효소의 C-말단측 단편을 인코딩하는 DNA를 연결하고; 핵산 염기 전환 효소의 N-말단측 단편을 인코딩하는 DNA 및 변이체 Cas의 C-말단측 단편을 인코딩하는 DNA를 연결하여, 그로써 2개의 부분 복합체를 인코딩하는 DNA가 또한 생산될 수 있다. 각각의 부분 복합체는 융합 단백질로서 발현되도록 연결될 수 있거나, 또는 결합 도메인, 인테인 등을 사용하여 개별적으로 발현되도록 고안될 수 있고, 단백질-단백질 상호작용 또는 단백질 라이게이션을 통해 숙주 세포에서 복합체를 형성한다. 2개 부분 복합체는 융합 단백질로서 발현되도록 연결될 수 있다. 변이체 Cas의 분할 부위는 2개 분할 단편이 표적 뉴클레오티드 서열을 인식하고 이에 결합하도록 재구성될 수 있는 한 특별히 제한되지 않으며, 한 부위에서 분할하여 N-말단측 단편 및 C-말단측 단편을 제공할 수 있거나, 2개 이상의 부위에서의 분할에 의해 수득된 3개 이상의 단편을 적절히 연결하여 2개 단편을 수득할 수 있다. 다양한 Cas 단백질의 3차원 구조가 알려져 있으며, 당업자는 이러한 정보를 토대로 분할 부위를 적절히 선택할 수 있다. 예를 들어, SpCas9의 N-말단으로부터 94번째 내지 718번째 아미노산으로 이루어진 영역은 표적 뉴클레오티드 서열 및 가이드 RNA의 인식에 관여하는 도메인 (REC)이고, 1099번째 아미노산 내지 C-말단 아미노산으로 이루어진 영역은 PAM과의 상호작용에 관여하는 도메인 (PI)이기 때문에, N-말단측 단편 및 C-말단측 단편은, 바람직하게는 구조가 결여된 영역에서, REC 도메인 또는 PI 도메인 내 임의의 부위에서 분할될 수 있다 (예컨대, N-말단으로부터의 204번째 및 205번째 아미노산 사이 (204..205), N-말단으로부터의 535번째 및 536번째 아미노산 사이 (535..536) 등) (예를 들어, Nat Biotechnol. 33(2): 139-142 (2015) 참조). 염기 절단 복구 억제제를 인코딩하는 DNA 및 변이체 Cas를 인코딩하는 DNA 및/또는 핵산 염기 전환 효소를 인코딩하는 DNA의 조합이 또한 상기에 기술된 바와 동일한 방식으로 고안될 수 있다.

변이체 Cas 및/또는 핵산 염기 전환 효소 및/또는 염기 절단 복구 억제제를 인코딩하는 수득된 DNA는 숙주에 따라서, 상기에 언급된 것과 유사한 발현 벡터의 프로모터의 하류 내로 삽입될 수 있다.

반면, 가이드 RNA 및 tracrRNA를 인코딩하는 DNA는 표적 뉴클레오티드 서열에 상보적인 코딩 서열 (예컨대, FnCpf1이 Cas로서 동원되는 경우, 상보적인 뉴클레오티드 서열의 5'-측면에서 서열번호: 20; AAUUUCUACUGUUGUAGAU을 함유하는 crRNA가 사용될 수 있고, 밑줄 친 서열은 염기쌍을 형성하여 스템-루프 구조를 취함), 또는 crRNA 코딩 서열 및, 필요하다면, 공지의 tracrRNA 코딩 서열 (예컨대, tracrRNA 코딩 서열과 같이, Cas9가 Cas로 동원되는 경우, gttttagagctagaaatagcaagttaaaataaggctagtccgttatcaacttgaaaaagtggcaccgagtcggtggtgctttt; 서열번호: 9)을 연결하는 올리고DMA 서열을 고안하고 DNA/RNA 합성기를 사용하여 화학적으로 합성함으로써 수득될 수 있다. 가이드 RNA 및 tracrRNA를 인코딩하는 DNA가 또한 숙주에 따라서 상기에 언급된 것과 유사한 발현 벡터 내로 삽입될 수 있다. 프로모터로서, pol III 시스템 프로모터 (예컨대, SNR6, SNR52, SCR1, RPR1, U6, H1 프로모터 등) 및 터미네이터 (예컨대, T₆ 서열)가 바람직하게 사용된다.

변이체 Cas 및/또는 핵산 염기 전환 효소 및/또는 염기 절단 복구 억제제를 인코딩하는 RNA는, 예를 들어, 주형으로서 상기에 언급된 변이체 Cas 및/또는 핵산 염기 전환 효소 및/또는 염기 절단 복구 억제제를 인코딩하는 벡터를 사용하여 그 자체가 공지된 시험관 내 전사 시스템에서 mRNA로의 전사에 의해 제조될 수 있다.

가이드 RNA-tracrRNA는 표적 뉴클레오티드 서열에 상보적인 서열 및 공지의 tracrRNA 서열을 연결하는 올리고DNA 서열을 고안하고 DNA/RNA 합성기를 사용하여 화학적으로 합성함으로써 수득될 수 있다.

변이체 Cas 및/또는 핵산 염기 전환 효소 및/또는 염기 절단 복구 억제제를 인코딩하는 DNA 또는 RNA, 가이드 RNA-tracrRNA 또는 이를 인코딩하는 DNA는 숙주에 따라서, 상기와 유사한 방법에 의해 숙주 내로 도입될 수 있다.

통상적인 인공 뉴클레아제는 이중-가닥 DNA 절단 (DSB)을 수반하기 때문에, 아마도 염색체의 무질서한 절단 (오프-타겟 절단)에 의해 야기되는 성장 및 세포사의 억제는 게놈 내 서열을 표적함으로써 발생한다. 이러한 효과는 많은 미생물 및 원핵생물에 특히 치명적이며 응용가능성을 제한한다. 본 발명의 방법에서는, 돌연변이 도입이 DNA 절단에 의해서가 아니라 DNA 상의 핵산 염기 전환 반응에 의해 수행되기 때문에, 통상적인 인공 뉴클레아제를 사용하는 방법에 비해 세포독성이 현저히 감소된다.

인접한 다중 표적 뉴클레오티드 서열에 상응하는 서열-인식 모듈이 제조되고, 동시에 사용되는 경우, 돌연변이 도입 효율은 표적으로서 단일 뉴클레오티드 서열을 사용하는 것보다 증가할 수 있다. 이의 효과로서, 표적 뉴클레오티드 서열 둘 다가 부분적으로 중첩하거나 둘 다가 약 600 bp만큼 떨어져 있는 경우에도, 유사하게 돌연변이 도입이 실현된다. 이는 표적 뉴클레오티드 서열이 동일한 방향인 경우 (표적 뉴클레오티드 서열이 동일한 가닥 상에 존재), 및 이들이 반대인 경우 (표적 뉴클레오티드 서열이 이중-가닥 DNA의 각 가닥 상에 존재) 둘 다에서 발생할 수 있다.

본 발명의 게놈 편집 기법은 매우 높은 돌연변이 도입 효율을 나타내므로, 표적으로서 완전히 다른 위치에서 다수의 DNA 영역의 변형이 수행될 수 있다. 따라서, 본 발명의 일 바람직한 구현예에서, 상이한 표적 뉴클레오티드 서열에 특이적으로 결합하는 2개 이상의 핵산 서열-인식 모듈 (하나의 대상 유전자, 또는 2개 이상의 상이한 대상 유전자에 존재할 수 있고, 대상 유전자는 동일한 염색체 또는 상이한 염색체 상에 존재할 수 있음)이 사용될 수 있다. 이 경우에, 이러한 핵산 서열-인식 모듈, 핵산 염기 전환 효소 및 염기 절단 복구 억제제의 각각 하나는 핵산-변형 효소 복합체를 형성한다. 여기서, 공통의 핵산 염기 전환 효소 및 염기 절단 복구 억제제가 사용될 수 있다. 예를 들어, CRISPR-Cas 시스템이 핵산 서열-인식 모듈로 사용되는 경우, Cas 단백질, 핵산 염기 전환 효소 및 염기 절단 복구 억제제의 공통된 복합체 (융합 단백질 포함)가 사용되고, tracrRNA의 2개 이상의 키메릭 RNA 및 각각 상이한 표적 뉴클레오티드 서열과 상보적인 가닥을 형성하는 2개 이상의 가이드 RNA 각각이 생산되고 가이드 RNA-tracrRNA로 사용된다. 반면, 징크 핑거 모티프, TAL 이펙터 등이 핵산 서열-인식 모듈로 사용되는 경우, 예를 들어, 핵산 염기 전환 효소 및 염기 절단 복구 억제제가 상이한 표적 뉴클레오티드에 특이적으로 결합하는 핵산 서열-인식 모듈과 융합될 수 있다.

숙주 세포에서 본 발명의 핵산-변형 효소 복합체를 발현하기 위해, 상기에 언급된 바와 같이, 핵산-변형 효소 복합체를 인코딩하는 DNA, 또는 핵산-변형 효소 복합체를 인코딩하는 RNA를 함유하는 발현 벡터가 숙주 세포 내로 도입된다. 돌연변이의 효과적인 도입을 위해, 주어진 기간 이상 동안 핵산-변형 효소 복합체의 발현을 소정의 수준 이상으로 유지하는 것이 바람직하다. 이러한 측면으로부터, 이는 숙주 세포에서 자율적으로 복제가능한 발현 벡터 (플라스미드 등)의 도입을 보장한다. 그러나, 플라스미드 등은 외래 DNA이기 때문에, 이들은 돌연변이의 성공적인 도입 후 신속하게 제거되는 것이 바람직하다. 따라서, 숙주 세포의 종류 등에 따라 변하더라도, 예를 들어, 도입된 플라스미드는 당해 분야에서 익히 공지된 다양한 플라스미드 제거 방법에 의해 발현 벡터의 도입으로부터 6시간 내지 2일 후에 숙주 세포로부터 제거되는 것이 바람직하다.

별법으로, 돌연변이의 도입에 충분한, 핵산-변형 효소 복합체의 발현이 수득되는 한, 숙주 세포에서 자율적인 복제가능성이 없는 발현 벡터 또는 RNA (예컨대, 숙주 세포에서 기능하는 복제 기원 및/또는 복제에 필요한 단백질을 인코딩하는 유전자)가 결여된 벡터 등을 사용하는 일시적 발현에 의해 대상 이중-가닥 DNA 내로 돌연변이를 도입하는 것이 바람직하다.

본 발명은 이하에서 실시예를 참조하여 설명되지만, 이들은 제한적으로 해석되지 않는다.

[실시예]

하기에 언급된 실시예에서, 실험은 다음과 같이 수행되었다.

<세포주·배양·형질전환·발현 유도>

중국 햄스터 난소로부터 유래한 CHO-K1 부착성 세포를 사용하였다. 세포를 10% 소 태아 혈청 (Biosera, Nuaille, France) 및 100 μg/mL 페니실린-스트렙토마이신 (Life Technologies, Carlsbad, CA, USA)이 보충된 hamF12 배지 (Life Technologies, Carlsbad, CA, USA)에서 배양하였다. 세포를 습윤된 5% CO₂ 대기 하 37℃에서 인큐베이션하였다. 형질감염을 위해, 24-웰 플레이트를 사용하여 세포를 웰당 0.5×10⁵ 세포로 접종하여 1일간 배양하였다. 제조사의 지침에 따라서, 1.5 μg의 플라스미드 및 2 μL의 리포펙타민 2000 (Life Technologies, Carlsbad, CA, USA)을 세포 내로 형질감염시켰다. 형질감염 5시간 후, 배지를 0.125 mg/mL G418 (InvivoGen, San Diego, CA, USA)을 함유하는 hamF12 배지로 교환하였고 세포를 7일간 인큐베이션하였다. 그 후에, 세포를 하기 돌연변이 도입 효율의 계산에 사용하였다.

일시적으로 저온에서 배양하는 단계는 상기에 언급된 것과 유사한 형질감염, 형질감염 5시간 후 0.125 mg/mL G418을 함유하는 hamF12 배지로의 배지 교환, 25℃에서 지속 밤새 배양, 및 37℃에서 2시간 동안의 배양을 포함하였다. 그 후에, 세포를 돌연변이 도입 효율의 하기 계산에 사용하였다.

<돌연변이 도입 효율의 계산>

돌연변이 도입 효율의 계산에 대한 개요는 도 2에 나타나 있다. HPRT (히포크산틴-구아닌 포스포리보실트랜스퍼라제)는 퓨린 대사 효소 중 하나이고, 파괴된 HPRT 유전자를 갖는 세포는 6-TG (6-티오구아닌)에 대한 내성을 획득한다. HPRT 유전자의 돌연변이 도입 효율을 계산하기 위해, 세포를 트립신-EDTA (Life Technologies, Carlsbad, CA, USA)를 사용하여 플라스틱으로부터 탈착시키고 100-500개 세포를 G418 또는 G418 + 5 g/mL 6-TG를 함유하는 hamF12 배지 (Tokyo Chemical Industry, Tokyo, Japan)를 함유하는 접시 위에 도말하였다. 7일 후, 내성 콜로니의 수를 계수하였다. 돌연변이 도입 효율을 G418 내성 콜로니에 대한 6TG 내성 콜로니의 비율로 계산하였다.

<서열 분석>

서열 분석을 위해, G418 및 6TG 내성 콜로니를 트립신으로 처리하고 원심분리로 펠렛화하였다. 제조사의 지침에 따라서, NucleoSpin Tissue XS 키트 (Macherey-Nagel, Duren, Germany)를 사용하여 펠렛으로부터 게놈 DNA를 추출하였다. HPRT의 표적화 부위를 함유하는 PCR 단편을 정방향 프라이머 (ggctacatagagggatcctgtgtca; 서열번호: 18) 및 역방향 프라이머 (acagtagctcttcagtctgataaaa; 서열번호: 19)를 사용하여 게놈 DNA로부터 증폭하였다. PCR 생성물을 에스케리치아 콜라이 (E. coli) 벡터 내로 TA 클로닝하고 생거 (Sanger) 방법으로 분석하였다.

<핵산 조작>

DNA를 임의의 PCR 방법, 제한 효소 처리, 라이게이션, 깁슨 어셈블리 방법, 및 인공 화학적 합성으로 가공하거나 작제하였다. 플라스미드를 에스케리치아 콜라이 균주 XL-10 골드 또는 DH5α로 증폭시키고 리포펙타민 방법에 의해 세포 내로 도입하였다.

<컨스트럭트>

실시예에 사용된 게놈 편집 플라스미드 벡터의 개요는 도 1에 나타나 있다. 염기로서 pcDNA3.1 벡터를 사용하여, CHO 세포 내로의 형질감염에 의한 유전자 전달에 사용되는 벡터를 제작하였다. 핵 위치 신호 (ccc aag aag aag agg aag gtg; 서열번호: 11 (PKKKRKV; 서열번호: 12를 인코딩함))를 진핵세포 발현에 최적화된 코돈을 갖는 스트렙토코커스 피로겐스-유래 Cas9 유전자 ORF (서열번호: 3 (서열번호: 4를 인코딩함))에 부가하였고, 결과 컨스트럭트를 링커 서열을 통해 CMV 프로모터의 하류에 라이게이션시키고, 인간 세포 발현에 대해 최적화된 코돈을 갖는 데아미나제 유전자 (철갑상어 철갑상어-유래 PmCDA1) ORF (서열번호: 1 (서열번호: 2를 인코딩함))를 이에 부가하였고, 그 후에 수득된 생성물을 융합 단백질로서 발현시켰다. 또한, Ugi 유전자 (PBS2-유래 Ugi는 진핵 세포 발현에 대해 코돈-최적화되었음: 서열번호: 5 (서열번호: 6을 인코딩함))의 융합 단백질에 대한 컨스트럭트를 또한 제작하였다. 약물 내성 유전자 (NeoR: G418 내성 유전자)를 또한 2A 펩티드 (gaa ggc agg gga agc ctt ctg act tgt ggg gat gtg gaa gaa aac cct ggt cca; 서열번호: 13 (EGRGSLLTCGDVEENPGP를 인코딩함; 서열번호: 14))를 인코딩하는 서열을 통해 라이게이션시켰다. 링커 서열로서, 2xGS 링커 (ggt gga gga ggt tct의 2회 반복; 서열번호: 15 (GGGGS를 인코딩함; 서열번호: 16))를 사용하였다. 터미네이터로서, SV40 폴리 A 신호 터미네이터 (서열번호: 17)를 라이게이션시켰다.

Cas9에서, 10번째 아스파르트산을 알라닌으로 전환하는 돌연변이 (D10A, DNA 서열 돌연변이 a29c에 상응함)가 도입된 변이체 Cas9 (nCas9) 및 840번째 히스티딘을 알라닌으로 전환하는 돌연변이 (H840A, DNA 서열 돌연변이 ca2518 gc에 상응함)가 추가로 도입된 변이체 Cas9 (dCas9)를 사용하여 DNA 가닥의 한쪽 또는 두 쪽 모두의 절단능을 제거하였다.

gDNA를 tracrRNA (스트렙토코커스 피로겐스 유래; 서열번호: 9)와의 키메릭 구조로서 H1 프로모터 (서열번호: 10)와 폴리 T 신호 (tttttt) 사이에 배치시키고 상기에 언급된 데아미나제 유전자 등의 발현을 위한 플라스미드 벡터 내로 도입하였다. gRNA-표적화 염기 서열로서, HPRT 유전자의 엑손3의 개시점으로부터 16번째 내지 34번째 서열 (ccgagatgtcatgaaagaga; 서열번호: 7) (부위 1), 및 HPRT 유전자의 엑손1의 개시점으로부터 -15번째 내지 3번째 서열에 상보적 가닥 서열 (ccatgacggaatcggtcggc; 서열번호: 8) (부위 2R)을 사용하였다. 이들은 세포 내로 도입하고, 세포 내에서 발현시켜 gRNA-tracrRNA 및 Cas9-PmCDA1 또는 Cas9-PmCDA1-Ugi의 복합체를 형성하였다.

실시예 1: 다양한 게놈 편집 플라스미드 및 조건에 따른 돌연변이 도입 효율의 평가

다양한 편집 플라스미드 및 돌연변이 도입 효율의 평가 결과를 하기 표 1에 나타내었다. 실시예 1에서, 부위 1 (서열번호: 7)을 부위 2R로 기술되지 않은 모든 것들에 대한 gRNA-표적 염기 서열로 사용하였다.

변이체 Cas9로서 nCas9를 사용하는 플라스미드 (nCas-PmCDA1-2A-Neo)는 35.9%의 돌연변이 도입 효율을 나타내었고, 변이체 Cas9 변이체 dCas9를 사용하는 플라스미드 (dCas-PmCDA1-2A-Neo)는 2.08%의 돌연변이 도입 효율을 나타내었다. 반면, PmCDA1에 라이게이션된 Ugi를 갖는 플라스미드를 사용하는 경우, 변이체 Cas9로서 nCas9를 사용하는 플라스미드 (+Ugi nCas-PmCDA1-2A-Neo)는 91.0%의 돌연변이 도입 효율을 나타내었고, 변이체 Cas9로서 dCas9를 사용하는 플라스미드 (+Ugi dCas-PmCDA1-2A-Neo)는 86.2%의 돌연변이 도입 효율을 나타내었다. 따라서, 돌연변이 도입 효율이 탈아민화 염기의 복구를 억제하는 Ugi 단백질의 융합 단백질에 의해 현저하게 개선되는 것으로 나타났고, 특히 dCas9를 사용하는 것은 Ugi의 병용에 의해 돌연변이 도입 효율 개선 효과에서 상당한 증가를 나타내었다. 표 1에서, Cas는 돌연변이 도입 부재의 Cas9를 사용하는 플라스미드를 나타내고, nCas(D10A)-2A-Neo, dCas-2A-Neo 부위 1 및 dCas-2A-Neo 부위 2R은 핵산 염기 전환 효소의 라이게이션이 없는 플라스미드를 나타내고, 이들을 각각 대조군으로 사용하였다.

또한, 형질감염 후 25℃ (+25℃ 펄스)의 저온에서 일시적으로 (밤새) 배양되고 nCas9 (nCas-PmCDA1-2A-Neo) 및 dCas9 (dCas-PmCDA1-2A-Neo) 중 하나를 사용하는 세포는 현저히 향상된 돌연변이 도입 효율 (각각 61.9% 및 12.5%)을 나타내는 것으로 확인되었다. 표 1에서, dCas-2A-Neo는 핵산 염기 전환 효소와의 융합이 없는 플라스미드를 나타내고 이를 대조군으로 사용하였다.

상기로부터, 본 발명의 게놈 편집 기법에 따라서, 돌연변이 도입 효율이 핵산 염기 전환 효소를 사용하는 통상적인 게놈 편집 기법에 비해 현저히 향상되는 것으로 나타났다

실시예 2: 돌연변이 도입 양상의 분석

게놈 DNA를 수득된 돌연변이 도입 콜로니로부터 추출하고, HPRT 유전자의 표적 영역을 PCR로 증폭하고, TA 클로닝을 수행하고, 서열 분석을 수행하였다. 결과를 도 3에 나타내었다. 사용된 편집 벡터는 Cas9, nCas9(D10A)-PmCDA1 및 dCas9-PmCDA1이었고, 염기 절단 복구 억제제는 발현되지 않았으며, 37℃에서 배양된 세포로부터의 콜로니를 사용하였다. 도면에서, 흑색 박스에 동봉된 TGG는 PAM 서열을 나타낸다.

돌연변이 도입이 없는 Cas9에서, PAM 서열 바로 위에 집중된 거대 결실 및 삽입이 관찰되었다. 반면, nCas9 (D10A)-PmCDA1에서, 약 12개 염기의 작은 규모 결실이 관찰되었고, 이의 영역은 탈아민화 표적 염기를 함유하고 있다. dCas9-PmCDA1에서, C에서 T로의 돌연변이가 PAM 서열 상류의 19 내지 21 염기에서 관찰되었고, 단일 염기 핀포인트 돌연변이가 서열 분석에 적용된 총 14개 클론 중 10개 클론에 도입되었다.

상기로부터, 핀포인트 돌연변이 도입이 핵산 염기 전환 효소를 사용하는 게놈 편집 기법이 포유류 세포에 적용되는 경우에서도 가능한 것으로 나타났다.

실시예 3: 다른 포유류 세포를 사용한 연구

인간 태아 신장으로부터 유래한 HEK293T 세포를 사용하여, 돌연변이 도입 효율을 평가하였다. gRNA 표적 염기 서열이 문헌 [Tsai S.Q. et al., (2015) Nat Biotechnol., 33(2): 187-197]에 기술된 EMX1 유전자의 서열 (서열번호: 21로 개시됨)이었고 오프-타겟 후보자가 서열 1 내지 4 (각각 표 2, 3에서 Emx 1 오프-타겟 1 - Emx 1 오프-타겟 4의 서열에 상응하고 서열번호: 22 내지 25로 개시됨)인 것을 제외하고, 실시예 1과 동일한 벡터를 벡터로 사용하였다. 벡터를 형질감염에 의해 HEK293T 세포 내로 도입하였다. 세포의 선택 없이, 전체 세포를 2일 후에 회수하고 게놈 DNA를 추출하였다. 세포 선택, 총 세포 회수까지의 기간 및 형질감염 조건 이외의 배양 조건은 상기에 언급된 CHO-K1 세포의 것과 동일하였다. 그 후에, 문헌 [Nishida K. et al. (2016) Science, 6: 353(6305)]에 기술된 방법에 따라서, 각각의 표적을 함유하는 영역을 표 2에 나타낸 프라이머를 사용하는 PCR로 증폭하고, 돌연변이 도입 양상을 차세대 서열분석기로 분석하였다. 결과를 표 3에 나타내었다. 표에서, 서열 밑의 번호는 뉴클레오티드의 치환율 (%)을 나타낸다.

표 3으로부터, UG1의 병용에 의한 돌연변이 도입 효율 향상 효과가 인간 세포가 사용된 경우에서도 확인되었다. 나아가, 이는 온-타겟 (on-target)에 대한 오프-타겟 돌연변이 비율의 비가 저하될 수 있으며, 즉 오프-타겟 돌연변이의 위험성이 저해될 수 있음을 시사한다. 구체적으로, nCas9-PmCDA1-UGI를 사용했을 때, 예를 들어, EMX1의 표적 서열 내 -16번째 시토신의 치환 비율에 대한 오프-타겟 후보의 상응하는 위치에서 시토신의 치환 비율의 비는 1/10 이하였다. nCas9-PmCDA1-UGI를 사용했을 때, 돌연변이 비율은 UGI을 병용하지 않는 nCas9-PmCDA1의 것에 비해 EMX1의 표적 서열에서 향상되었으나, 오프-타겟 후보 서열에서는, 돌연변이 비율이 거의 차이를 나타내지 않았고 오프-타겟 돌연변이가 저해되었다. 유사하게, dCas9-PmCDA1-UGI를 사용했을 때, 돌연변이 비율은 UGI를 병용하지 않는 dCas9-PmCDA1의 것에 비해 EMX1의 표적 서열에서 향상되었으나, 돌연변이 비율은 오프-타겟 후보 서열에서 거의 차이를 나타내지 않았고 오프-타겟 돌연변이가 저해되었다. 표 3에서 오프-타겟 후보 서열 4 (서열 명칭: Emx1 오프-타겟 4) 내 -15번째 시토신의 경우, 사용된 벡터와 무관하게 동일한 비율로 치환이 일어났다. Cas9에서도 유사하게 치환이 발견되기 때문에, 이러한 치환은 서열분석 오류에 인해 야기되었던 것일 가능성이 크다.

[산업상 이용가능성]

본 발명은 외래 DNA의 삽입 또는 이중-가닥 DNA 절단을 수반하지 않으면서 임의의 종 내로 부위 특이적인 돌연변이를 매우 효율적으로 안정하게 도입할 수 있게 하고, 매우 유용하다.

본 출원은 그 내용이 본원에 완전히 포함되는, 일본에 출원에 특허 출원 제2016-085631호 (출원일: 2016년 4월 21일)에 기초한다.

SEQUENCE LISTING <110> NATIONAL UNIVERSITY CORPORATION KOBE UNIVERSITY <120> METHOD FOR INCREASING MUTATION INTRODUCTION EFFICIENCY IN GENOME SEQUENCE MODIFICATION TECHNIQUE, AND MOLECULAR COMPLEX TO BE USED THEREFOR <130> IPA181216-JP <150> JP 2016-085631 <151> 2016-04-21 <160> 60 <170> PatentIn version 3.5 <210> 1 <211> 624 <212> DNA <213> Artificial Sequence <220> <223> PmCDA1 CDS optimized for human cell expression <220> <221> CDS <222> (1)..(624) <400> 1 atg aca gac gcc gag tac gtg cgc att cat gag aaa ctg gat att tac 48 Met Thr Asp Ala Glu Tyr Val Arg Ile His Glu Lys Leu Asp Ile Tyr 1 5 10 15 acc ttc aag aag cag ttc ttc aac aac aag aaa tct gtg tca cac cgc 96 Thr Phe Lys Lys Gln Phe Phe Asn Asn Lys Lys Ser Val Ser His Arg 20 25 30 tgc tac gtg ctg ttt gag ttg aag cga agg ggc gaa aga agg gct tgc 144 Cys Tyr Val Leu Phe Glu Leu Lys Arg Arg Gly Glu Arg Arg Ala Cys 35 40 45 ttt tgg ggc tat gcc gtc aac aag ccc caa agt ggc acc gag aga gga 192 Phe Trp Gly Tyr Ala Val Asn Lys Pro Gln Ser Gly Thr Glu Arg Gly 50 55 60 ata cac gct gag ata ttc agt atc cga aag gtg gaa gag tat ctt cgg 240 Ile His Ala Glu Ile Phe Ser Ile Arg Lys Val Glu Glu Tyr Leu Arg 65 70 75 80 gat aat cct ggg cag ttt acg atc aac tgg tat tcc agc tgg agt cct 288 Asp Asn Pro Gly Gln Phe Thr Ile Asn Trp Tyr Ser Ser Trp Ser Pro 85 90 95 tgc gct gat tgt gcc gag aaa att ctg gaa tgg tat aat cag gaa ctt 336 Cys Ala Asp Cys Ala Glu Lys Ile Leu Glu Trp Tyr Asn Gln Glu Leu 100 105 110 cgg gga aac ggg cac aca ttg aaa atc tgg gcc tgc aag ctg tac tac 384 Arg Gly Asn Gly His Thr Leu Lys Ile Trp Ala Cys Lys Leu Tyr Tyr 115 120 125 gag aag aat gcc cgg aac cag ata gga ctc tgg aat ctg agg gac aat 432 Glu Lys Asn Ala Arg Asn Gln Ile Gly Leu Trp Asn Leu Arg Asp Asn 130 135 140 ggt gta ggc ctg aac gtg atg gtt tcc gag cac tat cag tgt tgt cgg 480 Gly Val Gly Leu Asn Val Met Val Ser Glu His Tyr Gln Cys Cys Arg 145 150 155 160 aag att ttc atc caa agc tct cat aac cag ctc aat gaa aac cgc tgg 528 Lys Ile Phe Ile Gln Ser Ser His Asn Gln Leu Asn Glu Asn Arg Trp 165 170 175 ttg gag aaa aca ctg aaa cgt gcg gag aag cgg aga tcc gag ctg agc 576 Leu Glu Lys Thr Leu Lys Arg Ala Glu Lys Arg Arg Ser Glu Leu Ser 180 185 190 atc atg atc cag gtc aag att ctg cat acc act aag tct cca gcc gtt 624 Ile Met Ile Gln Val Lys Ile Leu His Thr Thr Lys Ser Pro Ala Val 195 200 205 <210> 2 <211> 208 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Construct <400> 2 Met Thr Asp Ala Glu Tyr Val Arg Ile His Glu Lys Leu Asp Ile Tyr 1 5 10 15 Thr Phe Lys Lys Gln Phe Phe Asn Asn Lys Lys Ser Val Ser His Arg 20 25 30 Cys Tyr Val Leu Phe Glu Leu Lys Arg Arg Gly Glu Arg Arg Ala Cys 35 40 45 Phe Trp Gly Tyr Ala Val Asn Lys Pro Gln Ser Gly Thr Glu Arg Gly 50 55 60 Ile His Ala Glu Ile Phe Ser Ile Arg Lys Val Glu Glu Tyr Leu Arg 65 70 75 80 Asp Asn Pro Gly Gln Phe Thr Ile Asn Trp Tyr Ser Ser Trp Ser Pro 85 90 95 Cys Ala Asp Cys Ala Glu Lys Ile Leu Glu Trp Tyr Asn Gln Glu Leu 100 105 110 Arg Gly Asn Gly His Thr Leu Lys Ile Trp Ala Cys Lys Leu Tyr Tyr 115 120 125 Glu Lys Asn Ala Arg Asn Gln Ile Gly Leu Trp Asn Leu Arg Asp Asn 130 135 140 Gly Val Gly Leu Asn Val Met Val Ser Glu His Tyr Gln Cys Cys Arg 145 150 155 160 Lys Ile Phe Ile Gln Ser Ser His Asn Gln Leu Asn Glu Asn Arg Trp 165 170 175 Leu Glu Lys Thr Leu Lys Arg Ala Glu Lys Arg Arg Ser Glu Leu Ser 180 185 190 Ile Met Ile Gln Val Lys Ile Leu His Thr Thr Lys Ser Pro Ala Val 195 200 205 <210> 3 <211> 4116 <212> DNA <213> Artificial Sequence <220> <223> Streptococcus pyogenes-derived Cas9 CDS optimized for eucaryotic cell expression <220> <221> CDS <222> (1)..(4116) <400> 3 atg gac aag aag tac tcc att ggg ctc gat atc ggc aca aac agc gtc 48 Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val 1 5 10 15 ggt tgg gcc gtc att acg gac gag tac aag gtg ccg agc aaa aaa ttc 96 Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe 20 25 30 aaa gtt ctg ggc aat acc gat cgc cac agc ata aag aag aac ctc att 144 Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile 35 40 45 ggc gcc ctc ctg ttc gac tcc ggg gag acg gcc gaa gcc acg cgg ctc 192 Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu 50 55 60 aaa aga aca gca cgg cgc aga tat acc cgc aga aag aat cgg atc tgc 240 Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys 65 70 75 80 tac ctg cag gag atc ttt agt aat gag atg gct aag gtg gat gac tct 288 Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser 85 90 95 ttc ttc cat agg ctg gag gag tcc ttt ttg gtg gag gag gat aaa aag 336 Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys 100 105 110 cac gag cgc cac cca atc ttt ggc aat atc gtg gac gag gtg gcg tac 384 His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr 115 120 125 cat gaa aag tac cca acc ata tat cat ctg agg aag aag ctt gta gac 432 His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp 130 135 140 agt act gat aag gct gac ttg cgg ttg atc tat ctc gcg ctg gcg cat 480 Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His 145 150 155 160 atg atc aaa ttt cgg gga cac ttc ctc atc gag ggg gac ctg aac cca 528 Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro 165 170 175 gac aac agc gat gtc gac aaa ctc ttt atc caa ctg gtt cag act tac 576 Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr 180 185 190 aat cag ctt ttc gaa gag aac ccg atc aac gca tcc gga gtt gac gcc 624 Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala 195 200 205 aaa gca atc ctg agc gct agg ctg tcc aaa tcc cgg cgg ctc gaa aac 672 Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn 210 215 220 ctc atc gca cag ctc cct ggg gag aag aag aac ggc ctg ttt ggt aat 720 Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn 225 230 235 240 ctt atc gcc ctg tca ctc ggg ctg acc ccc aac ttt aaa tct aac ttc 768 Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe 245 250 255 gac ctg gcc gaa gat gcc aag ctt caa ctg agc aaa gac acc tac gat 816 Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp 260 265 270 gat gat ctc gac aat ctg ctg gcc cag atc ggc gac cag tac gca gac 864 Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp 275 280 285 ctt ttt ttg gcg gca aag aac ctg tca gac gcc att ctg ctg agt gat 912 Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp 290 295 300 att ctg cga gtg aac acg gag atc acc aaa gct ccg ctg agc gct agt 960 Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser 305 310 315 320 atg atc aag cgc tat gat gag cac cac caa gac ttg act ttg ctg aag 1008 Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys 325 330 335 gcc ctt gtc aga cag caa ctg cct gag aag tac aag gaa att ttc ttc 1056 Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe 340 345 350 gat cag tct aaa aat ggc tac gcc gga tac att gac ggc gga gca agc 1104 Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser 355 360 365 cag gag gaa ttt tac aaa ttt att aag ccc atc ttg gaa aaa atg gac 1152 Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp 370 375 380 ggc acc gag gag ctg ctg gta aag ctt aac aga gaa gat ctg ttg cgc 1200 Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg 385 390 395 400 aaa cag cgc act ttc gac aat gga agc atc ccc cac cag att cac ctg 1248 Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu 405 410 415 ggc gaa ctg cac gct atc ctc agg cgg caa gag gat ttc tac ccc ttt 1296 Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe 420 425 430 ttg aaa gat aac agg gaa aag att gag aaa atc ctc aca ttt cgg ata 1344 Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile 435 440 445 ccc tac tat gta ggc ccc ctc gcc cgg gga aat tcc aga ttc gcg tgg 1392 Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp 450 455 460 atg act cgc aaa tca gaa gag acc atc act ccc tgg aac ttc gag gaa 1440 Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu 465 470 475 480 gtc gtg gat aag ggg gcc tct gcc cag tcc ttc atc gaa agg atg act 1488 Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr 485 490 495 aac ttt gat aaa aat ctg cct aac gaa aag gtg ctt cct aaa cac tct 1536 Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser 500 505 510 ctg ctg tac gag tac ttc aca gtt tat aac gag ctc acc aag gtc aaa 1584 Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys 515 520 525 tac gtc aca gaa ggg atg aga aag cca gca ttc ctg tct gga gag cag 1632 Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln 530 535 540 aag aaa gct atc gtg gac ctc ctc ttc aag acg aac cgg aaa gtt acc 1680 Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr 545 550 555 560 gtg aaa cag ctc aaa gaa gac tat ttc aaa aag att gaa tgt ttc gac 1728 Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp 565 570 575 tct gtt gaa atc agc gga gtg gag gat cgc ttc aac gca tcc ctg gga 1776 Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly 580 585 590 acg tat cac gat ctc ctg aaa atc att aaa gac aag gac ttc ctg gac 1824 Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp 595 600 605 aat gag gag aac gag gac att ctt gag gac att gtc ctc acc ctt acg 1872 Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr 610 615 620 ttg ttt gaa gat agg gag atg att gaa gaa cgc ttg aaa act tac gct 1920 Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala 625 630 635 640 cat ctc ttc gac gac aaa gtc atg aaa cag ctc aag agg cgc cga tat 1968 His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr 645 650 655 aca gga tgg ggg cgg ctg tca aga aaa ctg atc aat ggg atc cga gac 2016 Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp 660 665 670 aag cag agt gga aag aca atc ctg gat ttt ctt aag tcc gat gga ttt 2064 Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe 675 680 685 gcc aac cgg aac ttc atg cag ttg atc cat gat gac tct ctc acc ttt 2112 Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe 690 695 700 aag gag gac atc cag aaa gca caa gtt tct ggc cag ggg gac agt ctt 2160 Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu 705 710 715 720 cac gag cac atc gct aat ctt gca ggt agc cca gct atc aaa aag gga 2208 His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly 725 730 735 ata ctg cag acc gtt aag gtc gtg gat gaa ctc gtc aaa gta atg gga 2256 Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly 740 745 750 agg cat aag ccc gag aat atc gtt atc gag atg gcc cga gag aac caa 2304 Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln 755 760 765 act acc cag aag gga cag aag aac agt agg gaa agg atg aag agg att 2352 Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile 770 775 780 gaa gag ggt ata aaa gaa ctg ggg tcc caa atc ctt aag gaa cac cca 2400 Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro 785 790 795 800 gtt gaa aac acc cag ctt cag aat gag aag ctc tac ctg tac tac ctg 2448 Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu 805 810 815 cag aac ggc agg gac atg tac gtg gat cag gaa ctg gac atc aat cgg 2496 Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg 820 825 830 ctc tcc gac tac gac gtg gat cat atc gtg ccc cag tct ttt ctc aaa 2544 Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys 835 840 845 gat gat tct att gat aat aaa gtg ttg aca aga tcc gat aaa aat aga 2592 Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg 850 855 860 ggg aag agt gat aac gtc ccc tca gaa gaa gtt gtc aag aaa atg aaa 2640 Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys 865 870 875 880 aat tat tgg cgg cag ctg ctg aac gcc aaa ctg atc aca caa cgg aag 2688 Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys 885 890 895 ttc gat aat ctg act aag gct gaa cga ggt ggc ctg tct gag ttg gat 2736 Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp 900 905 910 aaa gcc ggc ttc atc aaa agg cag ctt gtt gag aca cgc cag atc acc 2784 Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr 915 920 925 aag cac gtg gcc caa att ctc gat tca cgc atg aac acc aag tac gat 2832 Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp 930 935 940 gaa aat gac aaa ctg att cga gag gtg aaa gtt att act ctg aag tct 2880 Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser 945 950 955 960 aag ctg gtc tca gat ttc aga aag gac ttt cag ttt tat aag gtg aga 2928 Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg 965 970 975 gag atc aac aat tac cac cat gcg cat gat gcc tac ctg aat gca gtg 2976 Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val 980 985 990 gta ggc act gca ctt atc aaa aaa tat ccc aag ctt gaa tct gaa ttt 3024 Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe 995 1000 1005 gtt tac gga gac tat aaa gtg tac gat gtt agg aaa atg atc gca 3069 Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala 1010 1015 1020 aag tct gag cag gaa ata ggc aag gcc acc gct aag tac ttc ttt 3114 Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe 1025 1030 1035 tac agc aat att atg aat ttt ttc aag acc gag att aca ctg gcc 3159 Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala 1040 1045 1050 aat gga gag att cgg aag cga cca ctt atc gaa aca aac gga gaa 3204 Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu 1055 1060 1065 aca gga gaa atc gtg tgg gac aag ggt agg gat ttc gcg aca gtc 3249 Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val 1070 1075 1080 cgg aag gtc ctg tcc atg ccg cag gtg aac atc gtt aaa aag acc 3294 Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr 1085 1090 1095 gaa gta cag acc gga ggc ttc tcc aag gaa agt atc ctc ccg aaa 3339 Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys 1100 1105 1110 agg aac agc gac aag ctg atc gca cgc aaa aaa gat tgg gac ccc 3384 Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro 1115 1120 1125 aag aaa tac ggc gga ttc gat tct cct aca gtc gct tac agt gta 3429 Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val 1130 1135 1140 ctg gtt gtg gcc aaa gtg gag aaa ggg aag tct aaa aaa ctc aaa 3474 Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys 1145 1150 1155 agc gtc aag gaa ctg ctg ggc atc aca atc atg gag cga tca agc 3519 Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser 1160 1165 1170 ttc gaa aaa aac ccc atc gac ttt ctc gag gcg aaa gga tat aaa 3564 Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys 1175 1180 1185 gag gtc aaa aaa gac ctc atc att aag ctt ccc aag tac tct ctc 3609 Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu 1190 1195 1200 ttt gag ctt gaa aac ggc cgg aaa cga atg ctc gct agt gcg ggc 3654 Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly 1205 1210 1215 gag ctg cag aaa ggt aac gag ctg gca ctg ccc tct aaa tac gtt 3699 Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val 1220 1225 1230 aat ttc ttg tat ctg gcc agc cac tat gaa aag ctc aaa ggg tct 3744 Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser 1235 1240 1245 ccc gaa gat aat gag cag aag cag ctg ttc gtg gaa caa cac aaa 3789 Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys 1250 1255 1260 cac tac ctt gat gag atc atc gag caa ata agc gaa ttc tcc aaa 3834 His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys 1265 1270 1275 aga gtg atc ctc gcc gac gct aac ctc gat aag gtg ctt tct gct 3879 Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala 1280 1285 1290 tac aat aag cac agg gat aag ccc atc agg gag cag gca gaa aac 3924 Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn 1295 1300 1305 att atc cac ttg ttt act ctg acc aac ttg ggc gcg cct gca gcc 3969 Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala 1310 1315 1320 ttc aag tac ttc gac acc acc ata gac aga aag cgg tac acc tct 4014 Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser 1325 1330 1335 aca aag gag gtc ctg gac gcc aca ctg att cat cag tca att acg 4059 Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr 1340 1345 1350 ggg ctc tat gaa aca aga atc gac ctc tct cag ctc ggt gga gac 4104 Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp 1355 1360 1365 agc agg gct gac 4116 Ser Arg Ala Asp 1370 <210> 4 <211> 1372 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Construct <400> 4 Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val 1 5 10 15 Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe 20 25 30 Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile 35 40 45 Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu 50 55 60 Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys 65 70 75 80 Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser 85 90 95 Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys 100 105 110 His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr 115 120 125 His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp 130 135 140 Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His 145 150 155 160 Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro 165 170 175 Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr 180 185 190 Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala 195 200 205 Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn 210 215 220 Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn 225 230 235 240 Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe 245 250 255 Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp 260 265 270 Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp 275 280 285 Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp 290 295 300 Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser 305 310 315 320 Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys 325 330 335 Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe 340 345 350 Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser 355 360 365 Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp 370 375 380 Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg 385 390 395 400 Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu 405 410 415 Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe 420 425 430 Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile 435 440 445 Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp 450 455 460 Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu 465 470 475 480 Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr 485 490 495 Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser 500 505 510 Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys 515 520 525 Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln 530 535 540 Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr 545 550 555 560 Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp 565 570 575 Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly 580 585 590 Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp 595 600 605 Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr 610 615 620 Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala 625 630 635 640 His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr 645 650 655 Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp 660 665 670 Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe 675 680 685 Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe 690 695 700 Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu 705 710 715 720 His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly 725 730 735 Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly 740 745 750 Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln 755 760 765 Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile 770 775 780 Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro 785 790 795 800 Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu 805 810 815 Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg 820 825 830 Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys 835 840 845 Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg 850 855 860 Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys 865 870 875 880 Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys 885 890 895 Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp 900 905 910 Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr 915 920 925 Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp 930 935 940 Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser 945 950 955 960 Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg 965 970 975 Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val 980 985 990 Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe 995 1000 1005 Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala 1010 1015 1020 Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe 1025 1030 1035 Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala 1040 1045 1050 Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu 1055 1060 1065 Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val 1070 1075 1080 Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr 1085 1090 1095 Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys 1100 1105 1110 Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro 1115 1120 1125 Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val 1130 1135 1140 Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys 1145 1150 1155 Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser 1160 1165 1170 Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys 1175 1180 1185 Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu 1190 1195 1200 Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly 1205 1210 1215 Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val 1220 1225 1230 Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser 1235 1240 1245 Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys 1250 1255 1260 His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys 1265 1270 1275 Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala 1280 1285 1290 Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn 1295 1300 1305 Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala 1310 1315 1320 Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser 1325 1330 1335 Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr 1340 1345 1350 Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp 1355 1360 1365 Ser Arg Ala Asp 1370 <210> 5 <211> 252 <212> DNA <213> Artificial Sequence <220> <223> PBS2-derived Ugi CDS optimized for eucaryotic cell expression <220> <221> CDS <222> (1)..(252) <400> 5 atg acc aac ctt tcc gac atc ata gag aag gaa aca ggc aaa cag ttg 48 Met Thr Asn Leu Ser Asp Ile Ile Glu Lys Glu Thr Gly Lys Gln Leu 1 5 10 15 gtc atc caa gag tcg ata ctc atg ctt cct gaa gaa gtt gag gag gtc 96 Val Ile Gln Glu Ser Ile Leu Met Leu Pro Glu Glu Val Glu Glu Val 20 25 30 att ggg aat aag ccg gaa agt gac att ctc gta cac act gcg tat gat 144 Ile Gly Asn Lys Pro Glu Ser Asp Ile Leu Val His Thr Ala Tyr Asp 35 40 45 gag agc acc gat gag aac gtg atg ctg ctc acg tca gat gcc cca gag 192 Glu Ser Thr Asp Glu Asn Val Met Leu Leu Thr Ser Asp Ala Pro Glu 50 55 60 tac aaa ccc tgg gct ctg gtg att cag gac tct aat gga gag aac aag 240 Tyr Lys Pro Trp Ala Leu Val Ile Gln Asp Ser Asn Gly Glu Asn Lys 65 70 75 80 atc aag atg cta 252 Ile Lys Met Leu <210> 6 <211> 84 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Construct <400> 6 Met Thr Asn Leu Ser Asp Ile Ile Glu Lys Glu Thr Gly Lys Gln Leu 1 5 10 15 Val Ile Gln Glu Ser Ile Leu Met Leu Pro Glu Glu Val Glu Glu Val 20 25 30 Ile Gly Asn Lys Pro Glu Ser Asp Ile Leu Val His Thr Ala Tyr Asp 35 40 45 Glu Ser Thr Asp Glu Asn Val Met Leu Leu Thr Ser Asp Ala Pro Glu 50 55 60 Tyr Lys Pro Trp Ala Leu Val Ile Gln Asp Ser Asn Gly Glu Asn Lys 65 70 75 80 Ile Lys Met Leu <210> 7 <211> 20 <212> DNA <213> Cricetulus griseus <400> 7 ccgagatgtc atgaaagaga 20 <210> 8 <211> 20 <212> DNA <213> Cricetulus griseus <400> 8 ccatgacgga atcggtcggc 20 <210> 9 <211> 83 <212> DNA <213> Streptococcus pyogenes <400> 9 gttttagagc tagaaatagc aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt 60 ggcaccgagt cggtggtgct ttt 83 <210> 10 <211> 229 <212> DNA <213> Homo sapiens <400> 10 aattcgaacg ctgacgtcat caacccgctc caaggaatcg cgggcccagt gtcactaggc 60 gggaacaccc agcgcgcgtg cgccctggca ggaagatggc tgtgagggac aggggagtgg 120 cgccctgcaa tatttgcatg tcgctatgtg ttctgggaaa tcaccataaa cgtgaaatgt 180 ctttggattt gggaatctta taagttctgt atgaggacca cagatcccc 229 <210> 11 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> Nuclear transition signal <220> <221> CDS <222> (1)..(21) <400> 11 ccc aag aag aag agg aag gtg 21 Pro Lys Lys Lys Arg Lys Val 1 5 <210> 12 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Construct <400> 12 Pro Lys Lys Lys Arg Lys Val 1 5 <210> 13 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> 2A peptide <220> <221> CDS <222> (1)..(54) <400> 13 gaa ggc agg gga agc ctt ctg act tgt ggg gat gtg gaa gaa aac cct 48 Glu Gly Arg Gly Ser Leu Leu Thr Cys Gly Asp Val Glu Glu Asn Pro 1 5 10 15 ggt cca 54 Gly Pro <210> 14 <211> 18 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Construct <400> 14 Glu Gly Arg Gly Ser Leu Leu Thr Cys Gly Asp Val Glu Glu Asn Pro 1 5 10 15 Gly Pro <210> 15 <211> 15 <212> DNA <213> Artificial Sequence <220> <223> GS linker <220> <221> CDS <222> (1)..(15) <400> 15 ggt gga gga ggt tct 15 Gly Gly Gly Gly Ser 1 5 <210> 16 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Construct <400> 16 Gly Gly Gly Gly Ser 1 5 <210> 17 <211> 122 <212> DNA <213> Artificial Sequence <220> <223> SV40 poly A signal terminator <400> 17 aacttgttta ttgcagctta taatggttac aaataaagca atagcatcac aaatttcaca 60 aataaagcat ttttttcact gcattctagt tgtggtttgt ccaaactcat caatgtatct 120 ta 122 <210> 18 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> PCR forward primer <400> 18 ggctacatag agggatcctg tgtca 25 <210> 19 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> PCR reverse primer <400> 19 acagtagctc ttcagtctga taaaa 25 <210> 20 <211> 19 <212> RNA <213> Francisella novicida <220> <221> misc_structure <222> (1)..(19) <223> crRNA direct repeat sequence. <400> 20 aauuucuacu guuguagau 19 <210> 21 <211> 20 <212> DNA <213> Homo sapiens <400> 21 gagtccgagc agaagaagaa 20 <210> 22 <211> 20 <212> DNA <213> Homo sapiens <400> 22 gagttagagc agaagaagaa 20 <210> 23 <211> 20 <212> DNA <213> Homo sapiens <400> 23 gagtctaagc agaagaagaa 20 <210> 24 <211> 20 <212> DNA <213> Homo sapiens <400> 24 gaggccgagc agaagaaaga 20 <210> 25 <211> 20 <212> DNA <213> Homo sapiens <400> 25 gagtcctagc aggagaagaa 20 <210> 26 <211> 35 <212> DNA <213> Artificial Sequence <220> <223> PCR primer (EMX 1st primer) <400> 26 gtagtctggc tgtcacaggc catactcttc cacat 35 <210> 27 <211> 35 <212> DNA <213> Artificial Sequence <220> <223> PCR primer (EMX 1st primer) <400> 27 gtgggtgacc cacccaagca gcaggctctc cacca 35 <210> 28 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> PCR primer (EMX 2nd primer) <400> 28 tctttcccta cacgacgctc ttccgatcta cttagctgga gtgtggaggc tatcttggc 59 <210> 29 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> PCR primer (EMX 2nd primer) <400> 29 gtgactggag ttcagacgtg tgctcttccg atctggctag ggactggcca gagtccagc 59 <210> 30 <211> 35 <212> DNA <213> Artificial Sequence <220> <223> PCR primer (EMX-off1 1st primer) <400> 30 ctgcccatat ccaccacaag caagttagtc atcaa 35 <210> 31 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> PCR primer (EMX-off1 1st primer) <400> 31 aatcaaaatc tctatgtgtg gggcacaggg 30 <210> 32 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> PCR primer (EMX-off1 2nd primer) <400> 32 tctttcccta cacgacgctc ttccgatctc attggctaga attcagactt caag 54 <210> 33 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> PCR primer (EMX-off1 2nd primer) <400> 33 gtgactggag ttcagacgtg tgctcttccg atctatgagg gagatgtact ctcaagtga 59 <210> 34 <211> 35 <212> DNA <213> Artificial Sequence <220> <223> PCR primer (EMX-off2 1st primer) <400> 34 catgttccct cacccttggc atctacacac tttct 35 <210> 35 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> PCR primer (EMX-off2 1st primer) <400> 35 tagtttaccc tgaggcaata tctgactcca 30 <210> 36 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> PCR primer (EMX-off2 2nd primer) <400> 36 tctttcccta cacgacgctc ttccgatctt cattttcaaa tgcctattga gcgg 54 <210> 37 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> PCR primer (EMX-off2 2nd primer) <400> 37 gtgactggag ttcagacgtg tgctcttccg atctaaggct ccttgccttt acatatagg 59 <210> 38 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> PCR primer (EMX-off3 1st primer) <400> 38 tcacttttgt caattcatgc caccatcagt 30 <210> 39 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> PCR primer (EMX-off3 1st primer) <400> 39 gccacctcca ctctgccagg aataggttca 30 <210> 40 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> PCR primer (EMX-off3 2nd primer) <400> 40 tctttcccta cacgacgctc ttccgatcta tggactgtcc tgtgagcccg tggc 54 <210> 41 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> PCR primer (EMX-off3 2nd primer) <400> 41 gtgactggag ttcagacgtg tgctcttccg atctctcggt ggcctgcaag tggaaagcc 59 <210> 42 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> PCR primer (EMX-off4 1st primer) <400> 42 gggaccactt gaagtgagta aaattatagg 30 <210> 43 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> PCR primer (EMX-off4 1st primer) <400> 43 cccagctgtt gctagcttat ggccagtcct 30 <210> 44 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> PCR primer (EMX-off4 2nd primer) <400> 44 tctttcccta cacgacgctc ttccgatctc actgcctttc gggctagcct ccaa 54 <210> 45 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> PCR primer (EMX-off4 2nd primer) <400> 45 gtgactggag ttcagacgtg tgctcttccg atcttagatg ttaataggtt attggggtg 59 <210> 46 <211> 18 <212> PRT <213> Cricetulus griseus <400> 46 Thr Glu Arg Leu Ala Arg Asp Val Met Lys Glu Met Gly Gly His His 1 5 10 15 Ile Val <210> 47 <211> 55 <212> DNA <213> Cricetulus griseus <400> 47 gactgaaaga cttgcccgag atgtcatgaa agagatggga ggccatcaca ttgtg 55 <210> 48 <211> 29 <212> DNA <213> Cricetulus griseus <400> 48 gactgaaaga cttgcccgag atgtcatga 29 <210> 49 <211> 53 <212> DNA <213> Cricetulus griseus <400> 49 gactgaaaga cttgcccgag atgtcatgaa agatggaagg ccatcacatt gtg 53 <210> 50 <211> 55 <212> DNA <213> Cricetulus griseus <400> 50 gactgaaaga cttgcccgag atgtcatgaa agagatggga ggccatcaca ttgtg 55 <210> 51 <211> 56 <212> DNA <213> Cricetulus griseus <400> 51 gactgaaaga cttgcccgag atgtcatgaa agaggatggg aggccatcac attgtg 56 <210> 52 <211> 45 <212> DNA <213> Cricetulus griseus <400> 52 gactgaaaga cttgcctgaa agagatggga ggccatcaca ttgtg 45 <210> 53 <211> 42 <212> DNA <213> Cricetulus griseus <400> 53 gactgaaaga ctttgaaaga gatgggaggc catcacattg tg 42 <210> 54 <211> 55 <212> DNA <213> Cricetulus griseus <400> 54 gactgaaaga cttgtttgag atgtcatgaa agagatggga ggccatcaca ttgtg 55 <210> 55 <211> 55 <212> DNA <213> Cricetulus griseus <400> 55 gactgaaaga cttgcttgag atgtcatgaa agagatggga ggccatcaca ttgtg 55 <210> 56 <211> 55 <212> DNA <213> Cricetulus griseus <400> 56 gactgaaaga cttgcctgag atgtcatgaa agagatggga ggccatcaca ttgtg 55 <210> 57 <211> 31 <212> DNA <213> Homo sapiens <400> 57 ggcctgagtc cgagcagaag aagaagggct c 31 <210> 58 <211> 31 <212> DNA <213> Homo sapiens <400> 58 gacaagagtc taagcagaag aagaagagag c 31 <210> 59 <211> 31 <212> DNA <213> Homo sapiens <400> 59 atgaggaggc cgagcagaag aaagacggcg a 31 <210> 60 <211> 31 <212> DNA <213> Homo sapiens <400> 60 gacctgagtc ctagcaggag aagaagaggc a 31

Claims

이중-가닥 DNA의 표적화 부위(targeted site)를 변형하는 방법으로서, 소정의 이중-가닥 DNA 내 표적 뉴클레오티드 서열에 특이적으로 결합하는 핵산 서열-인식 모듈 및 PmCDA1이 결합된 복합체를 이중-가닥 DNA를 함유하는 세포 내로 도입하는 단계, 및 상기 세포를 저온에서 적어도 일시적으로 배양하여, 표적화 부위 내 상기 이중-가닥 DNA의 적어도 하나의 가닥을 절단하지 않으면서, 표적화 부위 내 하나 이상의 뉴클레오티드를 하나 이상의 다른 뉴클레오티드로 전환하거나, 하나 이상의 뉴클레오티드를 결실시키거나, 하나 이상의 뉴클레오티드를 상기 표적화 부위 내로 삽입하는 단계를 포함하고,
상기 핵산 서열-인식 모듈이 Cas의 적어도 하나의 DNA 절단능(cleavage ability)이 불활성화된 CRISPR-Cas 시스템인, 방법.
제1항에 있어서, 상기 Cas가 2종의 DNA 절단능이 결여된 것인, 방법.
제1항 또는 제2항에 있어서, 상기 세포가 포유류 세포인 것인, 방법.
제3항에 있어서, 저온이 20℃ 내지 35℃인 것인, 방법.
제3항에 있어서, 저온이 25℃인 것인, 방법.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 이중-가닥 DNA가 상기 복합체를 인코딩하는 핵산을 이중-가닥 DNA를 갖는 세포 내로 도입함으로써 복합체와 접촉되는 것인, 방법.
이중-가닥 DNA의 표적화 부위를 변형하는 방법으로서, 소정의 이중-가닥 DNA 내 표적 뉴클레오티드 서열에 특이적으로 결합하는 핵산 서열-인식 모듈, 핵산 염기 전환 효소 및 염기 절단 복구 억제제가 결합된 복합체를 상기 이중-가닥 DNA와 접촉시켜, 상기 표적화 부위 내 상기 이중-가닥 DNA의 적어도 한 가닥을 절단하지 않으면서, 표적화 부위 내 하나 이상의 뉴클레오티드를 하나 이상의 다른 뉴클레오티드로 전환하거나, 하나 이상의 뉴클레오티드를 결실시키거나, 또는 하나 이상의 뉴클레오티드를 상기 표적화 부위 내로 삽입하는 단계를 포함하고,
상기 핵산 서열-인식 모듈이 Cas의 적어도 하나의 DNA 절단능이 불활성화된 CRISPR-Cas 시스템인, 방법.
제7항에 있어서, 상기 Cas가 2종의 DNA 절단능이 결여된 것인, 방법.
제7항 또는 제8항에 있어서, 상기 핵산 염기 전환 효소가 시티딘 데아미나제인 것인, 방법.
제9항에 있어서, 상기 시티딘 데아미나제가 PmCDA1인 것인, 방법.
제9항 또는 제10항에 있어서, 염기 절단 복구 억제제가 우라실 DNA 글리코실라제 억제제인 것인, 방법.
제7항 내지 제11항 중 어느 한 항에 있어서, 상기 이중-가닥 DNA가 상기 복합체를 인코딩하는 핵산을 이중-가닥 DNA를 갖는 세포 내로 도입함으로써 상기 복합체와 접촉되는 것인, 방법.
제12항에 있어서, 상기 세포가 포유류 세포인 것인, 방법.
소정의 이중-가닥 DNA 내 표적 뉴클레오티드 서열에 특이적으로 결합하는 핵산 서열-인식 모듈, 핵산 염기 전환 효소 및 염기 절단 복구 억제제가 결합된 핵산-변형 효소 복합체로서, 표적화 부위 내 상기 이중-가닥 DNA의 적어도 한 가닥을 절단하지 않으면서, 상기 표적화 부위 내 하나 이상의 뉴클레오티드를 하나 이상의 다른 뉴클레오티드로 전환하거나, 하나 이상의 뉴클레오티드를 결실시키거나, 또는 하나 이상의 뉴클레오티드를 상기 표적화 부위 내로 삽입하고,
상기 핵산 서열-인식 모듈이 Cas의 적어도 하나의 DNA 절단능이 불활성화된 CRISPR-Cas 시스템인, 핵산-변형 효소 복합체.
제14항에 따른 핵산-변형 효소 복합체를 인코딩하는 핵산.