KR20240064734A

KR20240064734A - 후성적으로 조절되는 부위-특이적 뉴클레아제

Info

Publication number: KR20240064734A
Application number: KR1020247013930A
Authority: KR
Inventors: 제이슨 마이클 게르케; 제이. 케이쓰 중
Original assignee: 더 제너럴 하스피탈 코포레이션
Priority date: 2016-10-14
Filing date: 2017-10-16
Publication date: 2024-05-13
Also published as: KR20230025951A; CA3040481A1; US20200172899A1; KR102662249B1; EP3525832A4; JP7399710B2; WO2018071892A1; AU2017341926B2; EP3525832A1; JP2019534704A; CN110290813A; AU2017341926A1; AU2022235639A1; KR20190067209A; JP2024028863A

Abstract

본 발명은 연구용 시제로서, 유전자 드라이브에서, 또는 치료제로서 사용하기 위하여 게놈-편집 뉴클레아제 (예컨대 RNA-안내 CRISPR-Cas 뉴클레아제 또는 조작된 아연 핑거 뉴클레아제) 및 맞춤식 DNA-결합 도메인 융합 단백질 (예컨대 RNA-안내 데드-Cas9, RNA-안내 데드-Cpf1, 또는 전사 조절 도메인에 융합된 조작된 아연 핑거 어레이)의 특이성을 향상시키기 위한 방법 및 조성물에 관한 것이다.

Description

후성적으로 조절되는 부위-특이적 뉴클레아제{EPIGENETICALLY REGULATED SITE-SPECIFIC NUCLEASES}

[우선권 주장]

본 출원은 2016년 10월 14일자 U.S. 특허 가출원 제62/408,645호를 우선권 주장한다. 전기의 전체 내용은 본원에 참조로 포함된다.

[연방 후원 연구 개발]

본 발명은 국립보건원(National Institutes of Health)에 의해 교부되는 보조금 제DP1 GM105378호 및 R35 GM118158호의 정부 후원하에 이루어졌다. 정부는 본 발명에 있어서 소정의 권리를 가진다.

[기술 분야]

본원에서 기술되는 것은 연구용 시제(reagent)로서, 유전자 드라이브(gene drive)에서, 또는 치료제로서 사용하기 위하여 게놈-편집 뉴클레아제 (예컨대 RNA-안내 CRISPR-Cas 뉴클레아제 또는 조작된 아연 핑거 뉴클레아제) 및 맞춤식 DNA-결합 도메인 융합 단백질 (예컨대 RNA-안내 데드(dead)-Cas9, RNA-안내 데드-Cpf1, 또는 전사 조절 도메인에 융합된 조작된 아연 핑거 어레이(array))의 특이성을 향상시키기 위한 방법 및 조성물이다.

인간 세포에서 질환-유발 돌연변이를 유전적으로 바로잡기 위하여, 조작되어 표적화된 뉴클레아제가 사용될 수 있다. 그와 같은 치료 전략은 게놈의 특정 부위에 서열-특이적 DNA 이중 가닥 절단 (DSB)을 도입하는 뉴클레아제에 의존한다. 예를 들어, CRISPR-Cas와 같은 RNA-안내 뉴클레아제 (RGN) 플랫폼의 특이성은 주로 표적 DNA 부위에 대하여 상보성을 보유하는 안내 RNA 분자 (gRNA)에 의해 좌우되며; 아연-핑거 (ZF) 뉴클레아제 또는 TALE 뉴클레아제와 같은 다른 게놈 편집 플랫폼은 서열-특이적인 단백질-DNA 접촉으로부터 그의 특이성이 유래하기는 하지만 사용자-결정 서열에 특이적으로 결합하는 단백질 도메인을 생성시키는 데에 좀 더 복잡한 조작 전략을 필요로 한다. 게놈 편집은 비-상동성 말단 연결 (NHEJ)로 지칭되는 오류-빈발 경로를 통하는 것, 또는 상동성인 외인성 "공여자 주형" 또는 게놈 자체 내에서 발견되는 상동성 서열을 사용하는 좀 더 정밀한 상동성-인도 복구 (HDR) 중 어느 하나에 의해 이러한 표적화된 DSB를 복구하는 내생 세포 기구를 활용함으로써 달성된다. 게놈-편집 뉴클레아제가 그의 특이적 표적 부위에서 강력하게 DSB를 유도할 수 있기는 하지만, 모든 뉴클레아제 플랫폼들은 의도된 표적과 유사한 서열에서도 원치 않는 DSB를 유도하는 것으로 알려져 있다. 이러한 오프-표적 DSB는 NHEJ에 의해 효율적으로 복구되어 해당 부위에서 원치 않는 돌연변이를 초래하며, 이는 게놈 전체에 걸쳐 분포할 수 있다.

[발명의 개요]

본 발명은 적어도 부분적으로 연구용 시제로서, (예컨대 문헌 [Hammond et al., Nature Biotechnology 34:78-83 (2016)]에 기술되어 있는 바와 같이) 유전자 드라이브에서, 또는 치료제로서 사용하기 위하여 게놈-편집 뉴클레아제 (예컨대 RNA-안내 CRISPR-Cas 뉴클레아제 또는 조작된 아연 핑거 뉴클레아제) 및 맞춤식 DNA-결합 도메인 융합 단백질 (예컨대 RNA-안내 데드-Cas9, RNA-안내 데드-Cpf1, 또는 전사 조절 도메인에 융합된 조작된 아연 핑거 어레이)의 특이성을 향상시키기 위한 방법 및 조성물의 개발을 바탕으로 한다.

이에 따라, 본원에서 제공되는 것은 특정 TF 또는 번역-후 히스톤 변형에 대하여 높은 친화성을 보유하는 조작된 친화성 단백질 (AP)에 유전적으로 연결되어 있는 표적화된 뉴클레아제를 포함하는 융합 단백질을 세포에서 발현시키는 것, 또는 그와 세포를 접촉시키는 것을 포함하며, 여기서 상기 융합 단백질은 특정 TF 또는 번역-후 히스톤 변형이 표적 부위에 근접하여 존재하는 경우에만 그의 표적 부위에서 활성인, 세포 게놈의 변형 방법이다.

일부 실시양태에서, 상기 AP는 단일 사슬 항체, 조작된 피브로넥틴 도메인, 조작된 스태필로코쿠스 아우레우스(Staphylococcus aureus) 이뮤노글로불린 결합 단백질 A, 조작된 나노바디 및 설계된 앙키린(Ankyrin) 반복 단백질로 이루어진 군으로부터 선택된다.

일부 실시양태에서, 상기 뉴클레아제는 1) 메가뉴클레아제, 2) 아연-핑거 뉴클레아제, 3) 전사 활성화인자 이펙터-유사 뉴클레아제 (TALEN) 및 4) 클러스터화되어 규칙적으로 이격된 짧은 팔린드롬 반복체(Clustered Regularly Interspaced Short Palindromic Repeat) (CRISPR)-CRISPR-연관 (Cas) 또는 CRISPR-Cpf1 RNA-안내 뉴클레아제 (RGN)로 이루어진 군으로부터 선택된다.

일부 실시양태에서, 뉴클레아제는 CRISPR-Cas 또는 CRISPR-Cpf1 RGN이며, 방법은 안내 RNA의 존재하에 수행된다.

일부 실시양태에서, 뉴클레아제는 표 1에 나타낸 잔기들 중 하나 이상의 돌연변이를 보유하는 스트렙토코쿠스 파이오제네스(Streptococcus pyogenes) Cas9 뉴클레아제이다.

역시 본원에서 제공되는 것은 R1015에 돌연변이를 보유하는 스태필로코쿠스 아우레우스 Cas9, 예컨대 R1015A, R1015Q 또는 R1015H에 융합된 아연 핑거 DNA 결합 도메인 (ZF DBD) 또는 TAL DNA 결합 어레이를 포함하는 융합 단백질을 세포에서 발현시키는 것, 또는 그와 세포를 접촉시키는 것을 포함하는, 세포 게놈의 변형 방법이다.

추가적으로 본원에서 제공되는 것은 (i) 표적화된 DNA 결합 도메인 또는 안내 RNA를 동반하는 촉매 불활성 "데드" RGN (dRGN), (ii) 이종 기능성 도메인, 및 (iii) AP에 의해 인식되는 전사 인자 또는 히스톤 변형이 DNA 결합 도메인 또는 dRGN의 표적 부위에 근접하여 존재하는 경우에만 활성인 조작된 친화성 단백질 (AP)을 포함하는 융합 단백질을 세포에서 발현시키는 것, 또는 그와 세포를 접촉시키는 것을 포함하는, 세포 게놈의 변형 방법이다.

일부 실시양태에서, 상기 AP는 단일 사슬 항체, 조작된 피브로넥틴 도메인, 조작된 스태필로코쿠스 아우레우스 이뮤노글로불린 결합 단백질 A, 조작된 나노바디 및 설계된 앙키린 반복 단백질로 이루어진 군으로부터 선택된다.

일부 실시양태에서, 상기 기능성 도메인은 전사 조절 도메인, 히스톤 변형 효소 또는 DNA 변형 효소이다.

일부 실시양태에서, 상기 안내 RNA는 (i) 19, 18 및 17 bp의 스페이서 길이를 가지는 gRNA; (ii) 의도된 표적 부위에 대비하여 1, 2 또는 3개의 의도적인 미스매치를 가지는 gRNA; (iii) 추가적인 5' G 염기 (표적 DNA 서열과 미스매치됨)가 부가되어 있는, 온-표적 부위에 대하여 20개 nt의 상보성을 가지는 gRNA; 및 (iv) (i)-(iii)의 임의의 조합으로 이루어진 군으로부터 선택된다.

일부 실시양태에서, 안내 RNA는 9, 10, 11, 12 또는 13개 뉴클레오티드 염기의 표적 DNA에 대한 매우 짧은 상보성 서열을 보유하는 말단절단된 gRNA이다.

달리 정의되지 않는 한, 본원에서 사용되는 모든 기술 및 과학 용어들은 본 발명이 속하는 관련 기술분야 통상의 기술자에 의해 통상적으로 이해되는 것과 동일한 의미를 가진다. 본 발명에서 사용하기 위하여 본원에서 방법 및 재료들이 기술되며; 관련 기술분야에 알려져 있는 다른 적합한 방법 및 재료들도 사용될 수 있다. 재료, 방법 및 실시예는 단지 예시적인 것으로써, 제한하고자 하는 것이 아니다. 본원에서 언급되는 모든 공개, 특허 출원, 특허, 서열, 데이터베이스 기재사항 및 기타 참고문헌들은 그 전체가 참조로 포함된다. 상충하는 경우, 정의를 포함한 본 명세서가 우선하게 된다.

기타 본 발명의 특징 및 장점들은 하기하는 상세한 설명 및 도면, 그리고 청구범위에서 드러나게 될 것이다.

특허 또는 출원 파일은 컬러로 작성된 적어도 하나의 도면을 포함한다. 컬러 도면(들)을 포함한 이와 같은 특허 또는 특허 출원 공개의 사본은 요청 및 필요 비용 지불시 당국에 의해 제공될 것이다.
도 1a-b. 근접 전사 인자 또는 히스톤 변형에 대하여 의존성인 RGN 뉴클레아제 활성. (a) 유전자 내의 부위에 대하여 표적화된 RGN에 공유 연결된, 여기에서는 scFv로 나타낸 친화성 단백질의 표시. gRNA 표적 부위에 인접한 부위에 scFv의 결합 상대물이 존재하지 않기 때문에, RGN은 DSB를 유도할 수 없음. (b) 반대로, gRNA 표적 부위에 인접하여 scFv의 결합 상대물이 존재하는 경우, scFv는 여기에서는 전사 인자로 표시되는 그의 표적에 결합함. 이와 같은 결합 사건은 표적 부위에서의 RGN 결합을 안정화함으로써, 그것이 DSB를 유도하도록 함. 이와 같은 DSB는 이후 NHEJ 또는 HDR에 의해 복구될 수 있다.
도 2a. gRNA 표적 부위에 인접하여 결합 부위를 가지는 조작된 아연 핑거 DNA 결합 도메인인 ZF292R에의 융합이 있고 없는 2종 SpCas9 변이의 EGFP 붕괴 활성 특성화. 두 SpCas9 변이가 시험된 4종 전체 gRNA와 함께 ZF292R에 융합되었을 때 더 큰 EGFP 붕괴 능력을 나타냄으로써, 제2 DBD로부터의 증가된 결합 친화성이면 이러한 SpCas9 변이-gRNA 조합의 활성을 구제하는 데에 충분하다는 것을 표시하였음.
도 2b. 두 SpCas9 변이가 ZF292R에 융합되었을 때 더 큰 인델(indel) 형성 유발 능력을 가진다는 것을 확인해 주는, 도 2a로부터의 동일 세포 군집의 TIDE 분석.
도 2c. 단백질이 단독으로, 또는 GCN4-ZF292R과 공동-발현될 때의 scFv GCN4에 융합되는 경우에서의 2종 SpCas9 변이의 EGFP 붕괴 활성 특성화. 두 SpCas9 변이가 3종 전체의 시험된 gRNA와 함께 그것이 단독으로 발현되는 경우에 대비하여 GCN4-ZF292R과 공동-발현된 경우에서 더 큰 EGFP 붕괴 활성을 나타냄. 대조로서, 야생형 SpCas9과의 gRNA 각각의 활성도 나타내었음.
도 3a. 단독으로 발현되거나, 또는 H3 (1-38)-ZF292R 또는 GCN4-ZF292R과 공동-발현되는 경우에서의 SpCas9 (R661A, Q695A)-scFv GCN4의 EGFP 붕괴 활성 특성화. SpCas9 변이에 의한 증가된 EGFP 붕괴 활성은 GCN4-ZF292R과의 공동-발현에 대하여 특이적이어서, GCN4-ZF292R과 scFv GCN4 사이의 상호작용이 증가된 EGFP 붕괴를 매개하고 있음을 암시하였음. 또한, 완전히 매치되는 gRNA5는 야생형 수준으로 SpCas9 (R661A, Q695A)-scFv GCN4 EGFP 붕괴 활성을 복구함으로써, 전략 #1 및 전략 #2에서 개괄된 gRNA 변형이 이와 같은 시스템에서 시험된 SpCas9 변이들의 유도성 활성에 중요하다는 것을 표시함.
도 3b. GCN4-ZF292R과 SpCas9 (R661A, Q695A)-scFv GCN4 사이의 상호작용이 EGFP 표적 부위에서의 인델 형성을 자극한다는 것을 입증하는, 도 3a로부터의 동일 세포 군집의 TIDE 분석.
도 4a-b. (a) gRNA 표적 부위에 인접한 PAM과 상호작용하는 단백질의 능력에 영향을 주는 돌연변이를 보유하는 SpCas9 또는 SaCas9 변이는 EGFP 표적 부위에 결합하여 DSB를 유도할 수 없음. (b) 여기에서는 ZF292R로 나타낸 제2 DBD가 SpCas9 또는 SaCas9 PID KD에 융합됨. 제2 DBD는 gRNA 표적 부위에 인접한 서열에 결합함으로써, Cas9 PID KD가 그의 표적 부위에 결합하여 DSB를 유도하도록 함. 이와 같은 검정에서, 표적 부위에 DSB가 도입된 후 오류-빈발 NHEJ에 의해 복구될 경우, 코딩 서열은 프레임에서 벗어나 이동됨으로써, EGFP 생성의 상실을 초래함.
도 4c. 조작된 아연 핑거 DNA-결합 도메인을 SaCas9 PID KD에 공유 연결시키는 것이 그의 뉴클레아제 활성을 구제할 수 있음. 아연 핑거 어레이 결합 부위 (ZF292R)가 SaCas9 표적 부위의 PAM으로부터 10 bp 떨어져 위치하며 둘 모두 EGFP의 코딩 영역에 존재하는 대표적인 EGFP 붕괴 검정으로부터의 데이터. SaCas9의 R1015가 A, Q 또는 H로 돌연변이되는 경우, 이들 돌연변이를 보유하는 SaCas9 단백질은 DSB를 유도할 수 없음. 그러나, ZF292R이 SaCas9 분자에 공유 연결되는 경우, 그것은 DSB를 유도할 수 있음.
도 5a-b. 광역 염색질 루핑에 대하여 의존성인 RGN 뉴클레아제 활성. (a) 여기에서 ZF 어레이로 나타낸 프로그램가능 DBD는 Cas9 PID KD 돌연변이에 공유 연결됨. DBD는 원거리 인핸서 서열에 대하여 표적화되는 반면, RGN은 해당 유전자 내 영역에 대하여 표적화됨. 원거리 인핸서가 해당 유전자에 매우 근접하여 존재하지 않는 경우 (예컨대 해당 유전자가 전사상 활성화가 아닌 세포 유형에서), Cas9 PID KD는 표적 부위에서 DSB를 유도할 수 없음. (b) 그러나, 원거리 인핸서와 해당 유전자 사이의 루핑이 발생하는 경우 (예컨대 해당 유전자가 전사상 활성인 세포 유형에서), 제2 DBD를 통하여 인핸서에 테더링된 Cas9 PID KD는 그의 표적 부위와 매우 근접하게 됨으로써, 그것이 DSB를 유도하도록 하며, 그것은 이후 NHEJ 또는 HDR에 의해 복구됨.
도 6a-b. (a) DNA 결합 활성이 AP (여기에서는 scFv 단백질로 나타냄)의 근접한 전사 인자 또는 히스톤 변형과의 상호작용에 대하여 의존성인 AP-dRGN-이펙터 융합체들 (표 1에 열거되어 있는 에피게놈(epigenome) 편집 단백질들)이 (예컨대 인핸서, 프로모터 또는 유전자체(gene body) 내 또는 그에 근접한) 유전 조절 요소에 대하여 표적화됨. AP의 결합 상대물 부재시에는, AP-dRGN-이펙터 융합 단백질이 gRNA에 의해 특정되는 표적 부위에 안정하게 결합할 수 없어서, 표적 유전자의 전사 상태를 변경하지 않음. (b) 그러나, 여기에서 전사 인자로 나타낸 AP의 결합 상대물이 gRNA 표적 부위에 인접하여 존재하는 경우, AP와 그의 상대물 사이의 결합 사건이 AP-dRGN-이펙터 융합 단백질의 결합을 안정화함. 표적 부위로의 AP-dRGN-이펙터 단백질의 안정한 동원은 표적 유전자로부터의 조절된 (예컨대 활성화되거나 억제된) 전사 결과를 초래함.

치료 적용분야에 있어서, 바람직한 능력은 뉴클레아제 활성을 특정 DNA 서열로는 물론, 나아가 특정 세포 유형을 나타낼 수 있는 특정의 후성적 상황(들)로만; 예를 들면 질환 표현형을 나타내거나 유전적 변경의 도입이 치료적 이익을 가질 것으로 예상되게 되는 세포에서만으로 제한하는 것일 것이다. 그와 같은 능력을 가지는 것은 뉴클레아제가 활성이 되는 세포의 수 및 종류의 제한을 가능하도록 하게 되며, 그에 따라 온-표적 또는 오프-표적 DSB 중 어느 하나가 발생할 수 있는 세포의 수를 최소화한다. 세포-유형-특이적 방식으로 게놈 편집을 수행하는 기존의 전략은 관련 세포 유형을 분리하는 생체외 분류 접근법, 특정 세포 또는 조직 유형에 대하여 향성을 가지는 바이러스에 게놈 편집 시제를 코딩하는 핵산을 전달하는 것, 또는 세포-유형-특이적 조절 요소 (예컨대 프로모터 및/또는 인핸서)를 사용하여 뉴클레아제(들)의 세포-유형 발현을 추진하는 것을 포함한다. 세포 표면 표지 및 세포 분류에 의한 특정 세포 유형의 강화는 비용이 들고, 어려우며, 일부 경우에는 밀접하게 관련된 세포 유형들 사이를 구분하는 것이 가능하지 않을 수 있다. 일부 바이러스가 세포 유형에 대하여 현저한 선호성을 가지고 있기는 하지만, 표적화가능한 세포 유형이 제한되어 있으며, 종종 중화성인 숙주 면역 반응을 회피하는 것이 어려울 수 있다. 또한, 프로모터와 같은 많은 세포-유형-특이적 조절 요소들이 관련 세포-유형에서 누출 발현(leaky expression)을 나타냄으로써, 뉴클레아제 활성의 긴밀한 조절을 필요로 하는 게놈 편집 적용분야에서의 그의 효용을 제한하고 있다. 이와 같은 전략은 또한 게놈 편집 시제를 코딩하는 DNA에 의한 전달에 비해 명백하게 더 낮은 오프-표적 뉴클레아제 효과를 나타낸 바 있는 전략인 거대 세포 군집으로의 RNA, 정제된 뉴클레아제 단백질 또는 리보뉴클레오-단백질 (RNP) 복합체의 전달과도 부합하지 않는다.

전략 #1. 후성적으로 조절되는 서열-특이적 뉴클레아제

한 측면에서, 본 발명의 방법은 표적 부위에 인접한 특정 전사 인자 (TF) 또는 히스톤 변형의 존재에 의존성이 되도록 그의 절단 활성을 조작하는 것에 의해, 서열-특이적 뉴클레아제의 활성을 특정 세포 유형으로 제한한다. 그렇게 하기 위하여, 그 자체로는 DSB를 최소한으로 유도하거나 유도하지 않는 뉴클레아제가 특정 TF 또는 번역-후 히스톤 변형에 대하여 높은 친화성을 보유하는 조작된 친화성 단백질 (AP)에 유전적으로 연결된다 (도 1). AP의 예에는 단일 사슬 항체 (예컨대 문헌 [Chothia, Cyrus, et al. "Domain association in immunoglobulin molecules: the packing of variable domains." Journal of molecular biology 186.3 (1985): 651-663]에 기술되어 있는 바와 같음), 조작된 피브로넥틴 도메인 (예컨대 문헌 [Koide, Akiko, et al. "The fibronectin type III domain as a scaffold for novel binding proteins." Journal of molecular biology 284.4 (1998): 1141-1151]에 기술되어 있는 바와 같음), 조작된 스태필로코쿠스 아우레우스 이뮤노글로불린 결합 단백질 A (예컨대 문헌 [Nord, Karin, et al. "Binding proteins selected from combinatorial libraries of an α-helical bacterial receptor domain." Nature biotechnology 15.8 (1997): 772-777]에 기술되어 있는 바와 같음), 조작된 나노바디 (예컨대 문헌 [Hamers-Casterman, C. T. S. G., et al. "Naturally occurring antibodies devoid of light chains." Nature 363.6428 (1993): 446-448]에 기술되어 있는 바와 같음) 및 설계된 앙키린 반복 단백질 (예컨대 문헌 [Binz, H. Kaspar, et al. "Designing repeat proteins: well-expressed, soluble and stable proteins from combinatorial libraries of consensus ankyrin repeat proteins." Journal of molecular biology 332.2 (2003): 489-503]에 기술되어 있는 바와 같음)이 포함되나, 이에 제한되는 것은 아니다. 이러한 뉴클레아제-AP 융합체의 절단 활성은 뉴클레아제에 의해 특정되는 표적 부위의 인식은 물론, 표적 부위에 근접한 AP 결합 상대물의 존재 둘 다에 대하여 의존성이게 된다.

특이적 전사 인자에는 본원에서 열거되는 것들이 포함될 수 있으며, 예를 들면 하기이다: 조혈 TF: 예컨대 GATA1, TAL1, ELF1 및 KLF1; 일반 전사 인자 예컨대: 전사 개시-전 복합체의 구성원인 인자들, 차등적인 그의 C-말단 도메인의 인산화 상태 (활발한 전사, 멈춤 등과 연관됨)를 가지는 RNA Pol II, P300 및 매개인자(Mediator); 하기 "친화성 단백질" 부문에 열거되어 있는 TF들; 및 특정 질환에 중요한 조절 요소에 인접하여 DNA 결합 모티프를 가지는 TF. 히스톤 변형에는 본원에서 열거되는 것들, 그리고 서로 다른 전사 활성화 상태와 연관되는 것들, 예컨대 H3K4me1/2/3, H3K9me1/2/3, H3K27me1/2/3, H3K9ac, H3K27ac, H3K56ac, H3K36me1/2/3, H3K79me1/2/3 또는 H4K16ac가 포함된다.

절단 활성의 준비가 된 (그러나 그의 표적 부위를 효율적으로 절단할 수는 없는) 부위-특이적 뉴클레아제를 조작하기 위하여, 그의 표적 부위에 대한 해당 뉴클레아제의 결합은 (i) 표적 DNA 가닥에 접촉하는 잔기에 대하여 표적화된 돌연변이를 통하여 DNA에 대한 뉴클레아제의 비-특이적 친화성을 감소시키는 것 및/또는 (ii) CRISPR-Cas 뉴클레아제와 같은 RNA-안내 뉴클레아제의 경우, 해당 표적 부위에 대한 친화성 또는 상호작용 능력을 제한하거나 감소시키는 것에 의해 안내 RNA (gRNA)를 조작하는 것에 의해 불안정화될 수 있다. 이와 같은 전략의 한 가지 구체적인 예는 DNA에 대한 단백질의 친화성을 감소시키도록 의도되는 스트렙토코쿠스 파이오제네스 Cas9 (SpCas9) 뉴클레아제에서 이루어지는 돌연변이들의 조합을 사용하는데; 그와 같은 돌연변이의 예에는 표 1에 나타낸 것들 및 해당 돌연변이들의 임의의 가능한 조합이 포함되나, 이에 제한되는 것은 아니다.

<표 1>

유사한 효과를 가지는 아연 핑거 및 ZFN에서의 돌연변이가 기술된 바 있으며, 역시 본원에서 사용될 수 있는데; 예를 들면 문헌 [Guilinger et al., Nat Methods. 2014 Apr; 11(4): 429-435]; [Khalil et al., Cell. 2012 Aug 3;150(3):647-58]을 참조한다.

생성되는 SpCas9 변이는 해당 게놈 표적 부위에 대하여 감소된 친화성을 보유하는 gRNA, 예컨대 하기와 연계하여 사용될 수도 있다: (i) 19, 18 및 17 bp의 스페이서 길이를 가지는 gRNA; (ii) 의도된 표적 부위에 대비하여 1, 2 또는 3개의 의도적인 미스매치를 가지는 gRNA; (iii) 추가적인 5' G 염기 (표적 DNA 서열과 미스매치됨)가 부가되는, 온-표적 부위에 대하여 20, 19, 18 또는 17개 nt의 상보성을 가지는 gRNA; 및 (iv) 전기에서 열거된 이러한 gRNA 변이들의 임의의 조합.

전략 #2. 3-차원 염색질 입체형태에 의존성인 서열-특이적 뉴클레아제

많은 유전자의 전사 조절이 특정 상황 및 세포 유형에서 유전자 발현을 상향조절하는 작용을 하는 인핸서 요소의 상태에 의해 조절된다. 이러한 인핸서는 종종 일차 서열에 있어서 유전자 프로모터로부터 매우 원거리이어서, 수십 내지 수백 킬로베이스 중 어느 만큼 이격될 수 있다. 그러나, 이러한 인핸서는 광역 염색질 루핑(looping)을 통하여 프로모터와 매우 근접하게 됨으로써 그의 표적 유전자를 활성화할 수 있다. 본 측면에서, 뉴클레아제의 절단 활성은 조절 요소 (즉 인핸서 또는 인핸서를 둘러싸고 있는 서열)와 표적 유전자 또는 유전자 프로모터 사이에서의 광역 염색질 루핑의 발생에 의존성이 되도록 RGN을 조작하는 것에 의해 특정 세포 유형으로 제한된다.

이전의 연구에서, 조작된 아연 핑거 어레이 (ZF) 또는 TALE 반복 어레이와 같은 제2 DNA 결합 도메인 (DBD)에 의해 해당 표적 부위 부근에 테더링되는 경우에만 DSB를 유도하도록 SpCas9가 조작될 수 있는 것으로 나타난 바 있다 (문헌 [Bolukbasi, Mehmet Fatih, et al. "DNA-binding-domain fusions enhance the targeting range and precision of Cas9." Nature methods 12.12 (2015): 1150-1156]). 이는 그의 PAM 모티프를 인식하는 단백질의 능력에 영향을 주는 위치 R1333 또는 R1335에서 SpCas9에 돌연변이를 도입하는 것에 의해 달성된다 (그와 같은 돌연변이는 Cas9 PAM 상호작용 도메인 녹-다운 또는 Cas9 PID KD로 지칭됨). 표적 부위에서의 SaCas9와 PAM 서열 사이의 상호작용에 영향을 주는 돌연변이 R1015A, R1015Q 또는 R1015H를 보유하는 SaCas9 PID KD에 제2 ZF DBD를 융합하는 것에 의해, SaCas9를 포함하는 유사한 시스템이 조작될 수 있다 (문헌 [Kleinstiver et al., Nat Biotechnol. 2015 Dec;33(12):1293-1298]).

전략 #3. 후성적으로 조절되는 에피게놈-편집 단백질

많은 질환들이 종종 질환 표현형 자체의 원인이 되는 유전자 하위세트의 변경된 발현을 특징으로 한다. 변경된 유전자 발현은 질환 표현형을 가지는 세포 내에서 그 유전자를 조절하는 프로모터 및/또는 인핸서에 근접하여 특정 전사 인자가 결합하는 것 또는 결합하지 않는 것의 결과이다. 현재의 방법이 ZF 어레이, TALE 반복 어레이 및 촉매 불활성 RGN (데드 RGN 또는 dRGN)과 같은 프로그램가능한 서열-특이적 DBD에 이펙터 단백질을 유전적으로 융합함으로써 유전자 발현을 조절하는 것에 있기는 하지만, 이러한 도구들은 시제가 전달되는 모든 세포 유형에서 기능함으로써 특정 질환 또는 비-질환 표현형을 가지는 세포들에 대하여 본질적인 특이성을 가지지 않을 것으로 예상된다. 결과적으로, 원하는 세포 하위세트에 이러한 시제를 전달하는 것은 복잡한 생체외 접근법, 또는 단백질 전달에는 부합하지 않는 전략인 세포-유형-특이적 전사 조절 요소로부터 이러한 시제를 발현시키는 것을 필요로 한다. 본 측면에서, 유전자 발현은 특정 TF 결합 또는 히스톤 변형 프로파일을 가지는 세포에서만의 유전자 발현의 프로그램가능한 조절로 이어지는, 해당 유전자에 근접하여 위치하는 특정 TF 또는 히스톤 변형의 존재를 조건으로 하는 방식으로 변형된다.

예를 들면, 상기 방법은 AP, 그리고 유전자의 전사 결과를 변경할 수 있는 이펙터 단백질들 (이종 기능성 도메인들) (표 2)에 유전적으로 융합된 전략 #1 및 #2에서 열거된 DNA에 대한 비-특이적 친화성을 감소시키도록 의도되는 변형이 있거나 없는 dRGN을 사용하는 것을 포함할 수 있다. 이러한 dRGN은 dRGN과의 복합체에서는 gRNA 서열에 의해 특정되는 표적 부위에 안정하게 결합할 수 없는 다양한 변형된 gRNA (예컨대 전략 #1 및 #2에서 개괄된 것들)와 함께 사용되게 된다. 그러나, gRNA 결합 부위에 매우 근접하여 AP의 결합 상대물 (예컨대 특정되는 TF 또는 히스톤 변형)도 존재하는 경우, AP-결합 상대물 상호작용으로 인한 표적 부위에 대한 증가된 친화성이 복합체가 특정되는 표적 부위와 안정하게 결합하는 것을 가능하게 한다 (도 6a 및 6b). dRGN-AP에 융합된 이펙터는 이후 표적 유전자의 발현을 변경할 수 있다. 전략 #1 및 #2에서 열거된 변형된 gRNA 이외에, 9, 10, 11, 12 또는 13개 뉴클레오티드 염기의 매우 짧은 스페이서 서열을 보유하는 gRNA와 함께 촉매-불활성화 돌연변이만을 보유하는 (즉 DNA에 대한 비-특이적 친화성을 감소시키도록 의도된 추가적인 돌연변이가 없는) dRGN 단백질을 사용하는 것도 제안한다. 이와 같은 전략은 표적 부위에 대한 dRGN 복합체의 안정한 결합만을 필요로 하며 뉴클레아제 활성은 필요로 하지 않으므로, 9-13개 염기의 스페이서 서열을 보유하는 gRNA이면 복합체가 AP-결합 상대물 상호작용과 연계하여 결합하는 것을 가능하게 하는 데에 충분할 가능성이 있다.

<표 2>

조작된 친화성 단백질 (AP)

본 발명의 융합 단백질에 유용한 AP는 (예컨대 도 1에 나타낸 바와 같이) 특정 전사 인자 (TF) 또는 번역-후 히스톤 변형에 대하여 높은 친화성을 가지는 것들이다. AP의 예에는 단일 사슬 항체, 조작된 피브로넥틴 도메인, 조작된 스태필로코쿠스 아우레우스 이뮤노글로불린 결합 단백질 A, 조작된 나노바디 및 설계된 앙키린 반복 단백질이 포함되나, 이에 제한되는 것은 아니다. TF의 예에는 일반 전사 인자 (예컨대 TFIIA, TFIIB, TFIID, TFIIE, TFIIF 및 TFIIH); 발생에 따라 조절되는 TF (예컨대 GATA, HNF, PIT-1, MyoD, Myf5, Hox, 익상 나선(Winged Helix)); 및 신호-의존성 TF (예컨대 SP1, AP-1, C/EBP, 열 충격 인자, ATF/CREB, c-Myc, MEF2, STAT, R-SMAD, NF-κB, 노치(Notch), TUBBY, NFAT 및 SREBP)가 포함된다. 특이적인 번역-후 히스톤 변형의 예에는 메틸화, 인산화, 아세틸화, 유비퀴틸화 및 수모일화가 포함된다. 이들은 해당 단백질에 유발된 이러한 변형에 대하여 특이적 친화성을 가지는 조작된 단백질을 통하여 표적화될 수 있다.

특이적 전사 인자에는 상기에서 열거된 것들이 포함될 수 있으며, 예를 들면 하기이다: 조혈 TF: 예컨대 GATA1, TAL1, ELF1 및 KLF1; 일반 전사 인자 예컨대: 전사 개시-전 복합체의 구성원인 인자들, 차등적인 그의 C-말단 도메인의 인산화 상태 (활발한 전사, 멈춤 등과 연관됨)를 가지는 RNA Pol II, P300 및 매개인자(Mediator); 하기 "친화성 단백질" 부문에 열거되어 있는 TF들; 및 특정 질환에 중요한 조절 요소에 인접하여 DNA 결합 모티프를 가지는 TF. 히스톤 변형에는 본원에서 열거되는 것들, 그리고 서로 다른 전사 활성화 상태와 연관되는 것들, 예컨대 H3K4me1/2/3, H3K9me1/2/3, H3K27me1/2/3, H3K9ac, H3K27ac, H3K56ac, H3K36me1/2/3, H3K79me1/2/3 또는 H4K16ac가 포함된다.

서열-특이적 뉴클레아제

현재 하기 4종의 서열-특이적 뉴클레아제 주요 클래스가 존재한다: 1) 메가뉴클레아제, 2) 아연-핑거 뉴클레아제, 3) 전사 활성화인자 이펙터-유사 뉴클레아제 (TALEN) 및 4) 클러스터화되어 규칙적으로 이격된 짧은 팔린드롬 반복체 (CRISPR) Cas RNA-안내 뉴클레아제 (RGN). 이러한 단백질들의 변형은 단백질이 친화성 단백질-결합 상대물로부터의 추가적인 결합 에너지 없이는 그의 표적 서열에 안정하게 결합할 수 없도록 DNA에 대한 단백질의 비-특이적 친화성을 녹 다운시킴으로써 이루어질 수 있다. ZFN의 경우, 포스페이트 DNA 백본에 접촉하는 ZF 도메인의 잔기들이 녹 아웃될 수 있다 (문헌 [Khalil et al., Cell 2012] 참조). TALE의 경우, 각 반복체에 돌연변이될 수 있는 DNA 포스페이트 접촉을 매개하는 특정 잔기가 존재한다. 일부 실시양태에서는, 매우 긴 결합 사례만이 뉴클레아제 활성으로 이어지도록 하는 더 적은 결합 에너지를 위하여 녹 다운된 뉴클레아제 도메인 또는 짧은 TALEN 어레이 (예컨대 7.5 또는 8.5)를 가지는 3-핑거 ZF 어레이가 사용될 수 있다. 이러한 플랫폼들의 다양한 성분들은 서로 융합되어 Mega-TAL 및 FokI-dCas9 융합체와 같은 추가적인 뉴클레아제를 생성시킬 수도 있다. 예를 들면, 문헌 [Gaj et al., Trends Biotechnol. 2013 Jul;31(7):397-405]을 참조한다. 뉴클레아제는 관련 기술분야에 알려져 있는 방법을 사용하여 세포 내에서 일시적으로 또는 안정하게 발현될 수 있는데; 통상적으로 발현을 달성하기 위해서는, 단백질을 코딩하는 서열이 전사를 유도하는 프로모터를 포함하는 발현 벡터로 서브클로닝된다. 적합한 진핵 발현 시스템들이 관련 기술분야에 잘 알려져 있으며, 예를 들면 문헌 [Sambrook et al., Molecular Cloning, A Laboratory Manual (4th ed. 2013)]; [Kriegler, Gene Transfer and Expression: A Laboratory Manual (2006)]; 및 [Current Protocols in Molecular Biology (Ausubel et al., eds., 2010)]에 기술되어 있다. 진핵 및 원핵 세포의 형질전환은 표준 기술에 따라 수행된다 (예컨대 상기 참고문헌 및 문헌 [Morrison, 1977, J. Bacteriol. 132:349-351]; [Clark-Curtiss & Curtiss, Methods in Enzymology 101:347-362 (Wu et al., eds, 1983)] 참조).

귀소성(homing) 메가뉴클레아제

메가뉴클레아제는 세균, 효모, 조류 및 식물 소기관과 같은 다양한 생물체로부터 기원하는 서열-특이적 엔도뉴클레아제이다. 내생 메가뉴클레아제들은 12 내지 30개 염기 쌍의 인식 부위를 가지며; 18 bp 및 24 bp-길이의 메가뉴클레아제 인식 부위를 가지는 맞춤식 DNA 결합 부위가 기술된 바 있는데, 모두 본 발명의 방법 및 구성체에 사용될 수 있다. 예를 들면, 문헌 [Silva, G., et al., Current Gene Therapy, 11:11-27, (2011)]; [Arnould et al., Journal of Molecular Biology, 355:443-58 (2006)]; [Arnould et al., Protein Engineering Design & Selection, 24:27-31 (2011)]; 및 [Stoddard, Q. Rev. Biophys. 38, 49 (2005)]; [Grizot et al., Nucleic Acids Research, 38:2006-18 (2010)]을 참조한다.

CRISPR-Cas 뉴클레아제

최근의 연구에서, 클러스터화되어 규칙적으로 이격된 짧은 팔린드롬 반복체 (CRISPR)/CRISPR-연관 (Cas) 시스템 (문헌 [Wiedenheft et al., Nature 482, 331-338 (2012)]; [Horvath et al., Science 327, 167-170 (2010)]; [Terns et al., Curr Opin Microbiol 14, 321-327 (2011)])이 세균, 효모 및 인간 세포에서는 물론, 초파리, 제브라피쉬 및 마우스와 같은 온전 생물체의 생체 내에서 게놈 편집을 수행하기 위한 간단하고 고도로 효율적인 방법의 기초로 사용될 수 있다는 것이 입증되었다 (문헌 [Wang et al., Cell 153, 910-918 (2013)]; [Shen et al., Cell Res (2013)]; [Dicarlo et al., Nucleic Acids Res (2013)]; [Jiang et al., Nat Biotechnol 31, 233-239 (2013)]; [Jinek et al., Elife 2, e00471 (2013)]; [Hwang et al., Nat Biotechnol 31, 227-229 (2013)]; [Cong et al., Science 339, 819-823 (2013)]; [Mali et al., Science 339, 823-826 (2013c)]; [Cho et al., Nat Biotechnol 31, 230-232 (2013)]; [Gratz et al., Genetics 194(4):1029-35 (2013)]). 에스. 파이오제네스 유래의 Cas9 뉴클레아제 (이하 간단하게 Cas9)는 조작된 안내 RNA (gRNA), 예컨대 단일 안내 RNA 또는 crRNA/tracrRNA 쌍의 17-20개 뉴클레오티드와 프로토스페이서 인접 모티프(protospacer adjacent motif) (PAM), 예컨대 서열 NGG 또는 NAG와 매치되는 PAM 다음에 오는 해당 표적 게놈 DNA 서열의 상보성 가닥 사이의 간단한 염기 쌍 상보성을 통하여 안내될 수 있다 (문헌 [Shen et al., Cell Res (2013)]; [Dicarlo et al., Nucleic Acids Res (2013)]; [Jiang et al., Nat Biotechnol 31, 233-239 (2013)]; [Jinek et al., Elife 2, e00471 (2013)]; [Hwang et al., Nat Biotechnol 31, 227-229 (2013)]; [Cong et al., Science 339, 819-823 (2013)]; [Mali et al., Science 339, 823-826 (2013c)]; [Cho et al., Nat Biotechnol 31, 230-232 (2013)]; [Jinek et al., Science 337, 816-821 (2012)]). 예를 들면 문헌 [Zetsche et al., Cell 163, 759-771 (2015)]; [Schunder et al., Int J Med Microbiol 303, 51-60 (2013)]; [Makarova et al., Nat Rev Microbiol 13, 722-736 (2015)]; [Fagerlund et al., Genome Biol 16, 251 (2015)]에 기술되어 있는 바와 같이, 프레보텔라(Prevotella) 및 프란시셀라(Francisella) 1 (Cpf1) 뉴클레아제로부터의 조작된 CRISPR가 사용될 수도 있다. SpCas9와 달리, Cpf1은 그의 3' 말단에 표적 DNA 서열의 프로토스페이서에 대하여 상보성인 23개의 nt를 가지는 단일 42-nt crRNA만을 필요로 한다 (문헌 [Zetsche et al., 2015]). 또한, SpCas9가 프로토스페이서의 3'에 있는 NGG PAM 서열을 인식하는 반면, AsCpf1 및 LbCp1은 프로토스페이서 (상동)의 5'에서 발견되는 TTTN PAM을 인식한다.

일부 실시양태에서, 본 발명의 시스템은 에스. 파이오제네스 또는 스태필로코쿠스 아우레우스 유래의 야생형 또는 변이 Cas9 단백질, 또는 아시드아미노코쿠스(Acidaminococcus) 종 BV3L6 또는 라크노스피라세아에 박테리움(Lachnospiraceae bacterium) ND2006 유래의 야생형 Cpf1 단백질을 세균에 코딩되어 있는 대로, 또는 포유동물 세포에서의 발현용으로 코돈-최적화되고/거나 그의 PAM 인식 특이성 및/또는 그의 게놈-전체 특이성이 변형되는 것 중 어느 하나로 활용한다. 수많은 변이들이 기술되어 있으며; 예를 들면 특히 WO 2016/141224호, PCT/US2016/049147호, 문헌 [Kleinstiver et al., Nat Biotechnol. 2016 Aug;34(8):869-74]; [Tsai and Joung, Nat Rev Genet. 2016 May;17(5):300-12]; [Kleinstiver et al., Nature. 2016 Jan 28;529(7587):490-5]; [Shmakov et al., Mol Cell. 2015 Nov 5;60(3):385-97]; [Kleinstiver et al., Nat Biotechnol. 2015 Dec;33(12):1293-1298]; [Dahlman et al., Nat Biotechnol. 2015 Nov;33(11):1159-61]; [Kleinstiver et al., Nature. 2015 Jul 23;523(7561):481-5]; [Wyvekens et al., Hum Gene Ther. 2015 Jul;26(7):425-31]; [Hwang et al., Methods Mol Biol. 2015;1311:317-34]; [Osborn et al., Hum Gene Ther. 2015 Feb;26(2):114-26]; [Konermann et al., Nature. 2015 Jan 29;517(7536):583-8]; [Fu et al., Methods Enzymol. 2014;546:21-45]; 및 [Tsai et al., Nat Biotechnol. 2014 Jun;32(6):569-76]을 참조한다. 안내 RNA는 Cas9 또는 Cpf1과 함께 세포 내에서 발현되거나, 거기에 존재한다. 안내 RNA 또는 뉴클레아제 중 어느 하나 또는 모두는 세포 내에서 일시적으로 또는 안정하게 발현되거나, 또는 정제된 단백질 또는 핵산으로서 도입될 수 있다.

일부 실시양태에서, SpCas9는 단백질의 뉴클레아제 부분이 촉매 불활성이 되도록 하기 위하여 Cas9의 뉴클레아제 활성을 감소시키거나 붕괴시키는 D10, E762, D839, H983 또는 D986 및 H840 또는 N863, 예컨대 D10A/D10N 및 H840A/H840N/H840Y의 돌연변이들 중 하나도 포함하는데; 이들 위치에서의 치환체는 알라닌 (문헌 [Nishimasu al., Cell 156, 935-949 (2014)]에 그것이 나와 있는 바와 같음), 또는 다른 잔기, 예컨대 글루타민, 아스파라긴, 티로신, 세린 또는 아스파르테이트, 예컨대 E762Q, H983N, H983Y, D986N, N863D, N863S 또는 N863H (WO 2014/152432호 참조)일 수 있다. 일부 실시양태에서, 변이는 D10A 또는 H840A의 돌연변이 (단일-가닥 니카제를 생성시킴), 또는 D10A 및 H840A의 돌연변이 (뉴클레아제 활성을 무산시킴; 이와 같은 돌연변이는 데드 Cas9 또는 dCas9로 알려져 있음)를 포함한다.

일부 실시양태에서, 뉴클레아제는 FokI-dCas9 융합체, Cas9 뉴클레아제가 돌연변이에 의해 촉매 불활성이 되어 있는 (예컨대 dCas9) RNA-안내 FokI 뉴클레아제, 및 임의적으로 개재 링커에 의해 dCas9에 인 프레임(in frame) 융합된 FokI 뉴클레아제이다. 예를 들면, WO 2014/144288호 및 WO 2014/204578호를 참조한다.

방법은 감소된 친화성을 가지는 안내 RNA, 예를 들면 (1) 표적 부위에 대하여 20개 nt의 상동성을 가지며 표적 부위 서열과 미스매치된 추가적인 5' 부가 G를 가지는 gRNA; (2) 표적 부위에 대하여 19개 nt의 상동성을 가지며 표적 부위와 미스매치된 G인 5'의 20 번째 nt를 가지는 gRNA; 또는 (3) 표적 부위와 미스매치된 2개의 5' G와 함께 18 nt의 표적 부위에 대한 상동성을 가지는 gRNA를 동반한, DNA에 대하여 정상적인 친화성을 가지는 야생형 Cas 단백질의 사용을 포함할 수 있다. 적합한 안내 RNA를 설계하고 제조하기 위해서는, 예를 들면 상기 참고문헌들 중 어느 것에 기술되어 있는 바와 같은 공지의 방법들이 변형될 수 있다.

이에 따라, 본원에서 제공되는 것은 SpCas9 변이를 포함한 Cas9 변이들이다. SpCas9 야생형 서열은 하기와 같다:

본원에서 기술되는 SpCas9 변이에는 본원에서 기술되는 바와 같거나 관련 기술분야에 알려져 있는 돌연변이 (즉 다른 아미노산, 예컨대 알라닌, 글리신 또는 세린에 의한 자연 아미노산의 대체)를 가지는 서열식별번호(SEQ ID NO): 1의 아미노산 서열이 포함될 수 있다. 일부 실시양태에서, SpCas9 변이는 서열식별번호: 1의 아미노산 서열과 적어도 80 %, 예컨대 적어도 85 %, 90 % 또는 95 % 동일하며, 예를 들면 본원에서 기술되는 돌연변이 이외에 예컨대 보존성 돌연변이에 의해 대체된 서열식별번호: 1의 잔기들 중 5 %, 10 %, 15 % 또는 20 % 이하에서 차이를 가진다.

역시 본원에서 제공되는 것은 SaCas9 변이들이다. SaCas9 야생형 서열은 하기와 같다:

본원에서 기술되는 SaCas9 변이에는 예를 들면 본원에서 기술되거나 관련 기술분야에 알려져 있는 돌연변이를 가지는 서열식별번호: 2의 아미노산 서열과 적어도 80 %, 예컨대 적어도 85 %, 90 % 또는 95 % 동일한 서열을 포함하는, 본원에서 기술되는 바와 같거나 관련 기술분야에 알려져 있는 돌연변이를 가지는 서열식별번호: 2의 아미노산 서열이 포함된다.

2개 핵산 서열의 % 동일성을 측정하기 위해서는, 최적의 비교를 목적으로 서열들이 정렬된다 (예를 들면, 최적의 정렬을 위하여 제1 및 제2 아미노산 또는 핵산 서열 중 하나 또는 모두에 갭이 도입될 수 있으며, 비-상동성 서열은 비교 목적으로 무시될 수 있음). 비교 목적으로 정렬되는 참조 서열의 길이는 참조 서열 길이의 적어도 80 %로써, 일부 실시양태에서는 적어도 90 % 또는 100 %이다. 이후, 상응하는 아미노산 위치 또는 뉴클레오티드 위치의 뉴클레오티드들이 비교된다. 제1 서열의 위치가 제2 서열의 상응하는 위치와 동일한 뉴클레오티드에 의해 점유되어 있는 경우라면, 분자들은 그 위치에서 동일한 것이다 (본원에서 사용될 때, 핵산 "동일성"은 핵산 "상동성"과 등가임). 2개 서열 사이의 % 동일성은 2개 서열의 최적 정렬을 위하여 도입될 필요가 있는 갭의 수 및 각 갭의 길이를 고려한 서열들이 공유하는 동일한 위치의 수의 함수이다. 2개 폴리펩티드 또는 핵산 서열 사이의 % 동일성은 예를 들면 스미스 워터맨 얼라인먼트(Smith Waterman Alignment) (문헌 [Smith, T. F. and M. S. Waterman (1981) J Mol Biol 147:195-7]); 진맷처 플러스(GeneMatcher Plus)™ (문헌 [Schwarz and Dayhof (1979) Atlas of Protein Sequence and Structure, Dayhof, M.O., Ed, pp 353-358])에 통합되어 있는 바와 같은 "베스트핏(BestFit)" (문헌 [Smith and Waterman, Advances in Applied Mathematics, 482-489 (1981)]); BLAST 프로그램 (베이직 로컬 얼라인먼트 서치 툴(Basic Local Alignment Search Tool) 사; 문헌 [Altschul, S. F., W. Gish, et al. (1990) J Mol Biol 215: 403-10]), BLAST-2, BLAST-P, BLAST-N, BLAST-X, WU-BLAST-2, ALIGN, ALIGN-2, CLUSTAL 또는 메가라인(Megalign) (디엔에이스타(DNASTAR) 사) 소프트웨어와 같은 대중적으로 입수가능한 컴퓨터 소프트웨어를 사용하여, 관련 기술분야의 기술에 속하는 다양한 방식으로 측정된다. 또한, 관련 기술분야 통상의 기술자라면, 비교되는 서열의 길이에 걸쳐 최대 정렬을 달성하는 데에 필요한 임의의 알고리즘을 포함하여, 정렬을 측정하기 위한 적절한 파라미터들을 결정할 수 있다. 일반적으로, 단백질 또는 핵산의 경우, 비교 길이는 전체 길이를 포함한 거기까지의 임의의 길이 (예컨대 5 %, 10 %, 20 %, 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 %, 95 % 또는 100 %)일 수 있다. 본 발명 조성물 및 방법의 목적상, 서열 전체 길이의 적어도 80 %가 정렬된다.

본 발명의 목적상, 2개 서열 사이의 서열 비교 및 % 동일성 측정은 12의 갭 벌점, 4의 갭 연장 벌점 및 5의 프레임쉬프트 갭 벌점을 사용하는 블로썸(Blossum) 62 점수화 매트릭스를 사용하여 실행될 수 있다.

보존성 치환은 통상적으로 하기 군 내에서의 치환을 포함한다: 글리신, 알라닌; 발린, 이소류신, 류신; 아스파르트산, 글루탐산, 아스파라긴, 글루타민; 세린, 트레오닌; 리신, 아르기닌; 및 페닐알라닌, 티로신.

TAL 이펙터 반복 어레이

크산토모나스(Xanthomonas) 속 식물 병원성 세균의 TAL 이펙터는 숙주 DNA에 결합하여 이펙터-특이적 숙주 유전자를 활성화하는 것에 의해 질환에서 중요한 역할을 하거나, 방어를 촉발한다. 특이성은 불완전하며 통상적으로 ~33-35개인 아미노산 반복체의 이펙터-가변적인 수에 따라 달라진다. 주로 반복 위치 12 및 13에 다형성(polymorphism)이 존재하는데, 본원에서 이는 반복체 가변적-이잔기 (RVD)로 지칭된다. TAL 이펙터의 RVD는 1 RVD 대 1 뉴클레오티드의 직접적이고 직선적인 방식으로 그의 표적 부위 중 뉴클레오티드에 상응하는데, 약간의 축중성을 가지며, 명백한 상황 의존성은 가지지 않는다. 일부 실시양태에서는, 뉴클레오티드 특이성을 부여하는 다형성 영역이 삼잔기 또는 삼중체로 나타날 수도 있다.

각 DNA 결합 반복체는 표적 DNA 서열 중 염기 쌍의 인식을 결정하는 RVD를 포함할 수 있는데, 여기서 각 DNA 결합 반복체는 표적 DNA 서열 중 하나의 염기 쌍을 인식하는 것을 담당한다. 일부 실시양태에서, RVD는 C를 인식하기 위한 HA; C를 인식하기 위한 ND; C를 인식하기 위한 HI; G를 인식하기 위한 HN; G를 인식하기 위한 NA; G 또는 A를 인식하기 위한 SN; T를 인식하기 위한 YG; 및 G를 인식하기 위한 NK 중 하나 이상, 그리고 C를 인식하기 위한 HD; T를 인식하기 위한 NG; A를 인식하기 위한 NI; G 또는 A를 인식하기 위한 NN; A 또는 C 또는 G 또는 T를 인식하기 위한 NS; C 또는 T를 인식하기 위한 N* (여기서 *는 RVD 제2 위치의 갭을 나타냄); T를 인식하기 위한 HG; T를 인식하기 위한 H* (여기서 *는 RVD 제2 위치의 갭을 나타냄); 및 T를 인식하기 위한 IG; 중 하나 이상을 포함할 수 있다.

TALE 단백질은 연구 및 생물공학에 있어서 (예컨대 식물에서 생물연료 또는 생물재생물질에 유용한 특질을 부가하거나 강화하기 위한) 게놈 조작에서 상동성 재조합을 촉진할 수 있는 표적화된 키메라 뉴클레아제로서 유용할 수 있다. 이러한 단백질은 예를 들면 전사 인자로서, 그리고 특히 비-제한적인 예로서 병원체 (예컨대 바이러스)에 대한 치료제와 같이 매우 높은 수준의 특이성을 필요로 하는 치료 적용분야용으로도 유용할 수 있다.

조작된 TALE 어레이를 생성시키기 위한 방법은 관련 기술분야에 알려져 있으며, 예를 들면, USSN 61/610,212호 및 문헌 [Reyon et al., Nature Biotechnology 30,460-465 (2012)]에 기술되어 있는 속성 결찰-기반 자동화가능 고체-상 고-처리량 (FLASH) 시스템은 물론; 모두 그 전체가 본원에 참조로 포함되는 문헌 [Bogdanove & Voytas, Science 333, 1843-1846 (2011)]; [Bogdanove et al., Curr Opin Plant Biol 13, 394-401 (2010)]; [Scholze & Boch, J. Curr Opin Microbiol (2011)]; [Boch et al., Science 326, 1509-1512 (2009)]; [Moscou & Bogdanove, Science 326, 1501 (2009)]; [Miller et al., Nat Biotechnol 29, 143-148 (2011)]; [Morbitzer et al., T. Proc Natl Acad Sci U S A 107, 21617-21622 (2010)]; [Morbitzer et al., Nucleic Acids Res 39, 5790-5799 (2011)]; [Zhang et al., Nat Biotechnol 29, 149-153 (2011)]; [Geissler et al., PLoS ONE 6, e19509 (2011)]; [Weber et al., PLoS ONE 6, e19722 (2011)]; [Christian et al., Genetics 186, 757-761 (2010)]; [Li et al., Nucleic Acids Res 39, 359-372 (2011)]; [Mahfouz et al., Proc Natl Acad Sci U S A 108, 2623-2628 (2011)]; [Mussolino et al., Nucleic Acids Res (2011)]; [Li et al., Nucleic Acids Res 39, 6315-6325 (2011)]; [Cermak et al., Nucleic Acids Res 39, e82 (2011)]; [Wood et al., Science 333, 307 (2011)]; [Hockemeye et al. Nat Biotechnol 29, 731-734 (2011)]; [Tesson et al., Nat Biotechnol 29, 695-696 (2011)]; [Sander et al., Nat Biotechnol 29, 697-698 (2011)]; [Huang et al., Nat Biotechnol 29, 699-700 (2011)]; 및 [Zhang et al., Nat Biotechnol 29, 149-153 (2011)]에 기술되어 있는 방법들을 참조한다.

역시 본 발명의 방법에서 사용하기에 적합한 것은 메가뉴클레아제의 TAL 이펙터와의 융합체인 메가탈(MegaTAL)로써; 예를 들면, 문헌 [Boissel et al., Nucl. Acids Res. 42(4):2591-2601 (2014)]; [Boissel and Scharenberg, Methods Mol Biol. 2015;1239:171-96]을 참조한다.

TAL은 유전자 발현을 조절하고, DNA 메틸화를 변경하며, 모델 생물체, 식물 및 인간 세포의 게놈에 표적화된 변경을 도입하기 위하여 전사 활성화인자, 전사 억제인자, 메틸화 도메인 (예컨대 DNA 중 메틸화된 시토신의 히드록실화를 촉매하는 서열을 포함하는 촉매 도메인, WO2013181228호 참조) 및 뉴클레아제와 같은 기능성 도메인에 융합될 수 있다. 예를 들면, 문헌 [Tan et al., PNAS 100:11997-12002 (2003)]; [Wong et al., Cancer Res. 59:71-73 (1999)]; [Zhang et al., Nat. Biotech. 29:149-154 (2011)]; 및 WO2013181228호를 참조한다.

아연 핑거

아연 핑거 단백질은 독립적으로 폴딩되는 아연-포함 미니-도메인인 하나 이상의 아연 핑거를 포함하는 DNA-결합 단백질로써, 관련 기술분야에 그의 구조가 잘 알려져 있으며, 예를 들면 문헌 [Miller et al., 1985, EMBO J., 4:1609]; [Berg, 1988, Proc. Natl. Acad. Sci. USA, 85:99]; [Lee et al., 1989, Science. 245:635]; 및 [Klug, 1993, Gene, 135:83]에 정의되어 있다. DNA에 결합된 아연 핑거 단백질 Zif268 및 그의 변이의 결정 구조는 통상적으로 아연 핑거의 알파-나선으로부터의 3개의 아미노산이 DNA 중 3개의 인접 염기 쌍 또는 "하위부위"와 접촉하는 반-보존 상호작용 패턴을 나타낸다 (문헌 [Pavletich et al., 1991, Science, 252:809]; [Elrod-Erickson et al., 1998, Structure, 6:451]). 이에 따라, Zif268의 결정 구조는 아연 핑거 DNA-결합 도메인이 아연 핑거와 DNA 서열 중 3-염기-쌍 "하위부위" 사이의 1-대-1 상호작용에 의한 모듈 방식으로 기능할 수 있다는 것을 암시하였다. 자연 발생 아연 핑거 전사 인자에서는, 다수의 아연 핑거들이 통상적으로 연속되는 DNA 서열의 서열-특이적 인식을 달성하기 위하여 직렬 어레이로 서로 연결된다 (문헌 [Klug, 1993, Gene 135:83]).

다수의 연구에서, DNA 결합에 연관되는 알파-나선 위치에서 아미노산을 무작위화하는 것, 및 파지 디스플레이와 같은 선택 방법론을 사용하여 해당 DNA 표적 부위에 결합할 수 있는 원하는 변이를 확인하는 것에 의해 개별 아연 핑거의 DNA 결합 특징을 인위적으로 조작하는 것이 가능한 것으로 나타났다 (문헌 [Rebar et al., 1994, Science, 263:671]; [Choo et al., 1994 Proc. Natl. Acad. Sci. USA, 91:11163]; [Jamieson et al., 1994, Biochemistry 33:5689]; [Wu et al., 1995 Proc. Natl. Acad. Sci. USA, 92: 344]). 그와 같은 재조합 아연 핑거 단백질은 유전자 발현을 조절하고, DNA 메틸화를 변경하며, 모델 생물체, 식물 및 인간 세포의 게놈에 표적화된 변경을 도입하기 위하여 전사 활성화인자, 전사 억제인자, 메틸화 도메인 및 뉴클레아제와 같은 기능성 도메인에 융합될 수 있다 (문헌 [Carroll, 2008, Gene Ther., 15:1463-68]; [Cathomen, 2008, Mol. Ther., 16:1200-07]; [Wu et al., 2007, Cell. Mol. Life Sci., 64:2933-44]).

"모듈식 조립"으로 알려져 있는 한 가지 기존의 아연 핑거 어레이 조작 방법은 사전-선택된 아연 핑거 모듈들을 단순하게 어레이로 함께 결합시킬 것을 주장한다 (문헌 [Segal et al., 2003, Biochemistry, 42:2137-48]; [Beerli et al., 2002, Nat. Biotechnol., 20:135-141]; [Mandell et al., 2006, Nucleic Acids Res., 34:W516-523]; [Carroll et al., 2006, Nat. Protoc. 1:1329-41]; [Liu et al., 2002, J. Biol. Chem., 277:3850-56]; [Bae et al., 2003, Nat. Biotechnol., 21:275-280]; [Wright et al., 2006, Nat. Protoc., 1:1637-52]). 모든 연구자가 실시하기에 충분히 간단하기는 하지만, 최근의 보고들은 특히 아연 핑거 뉴클레아제와 관련하여 이와 같은 방법에서 높은 실패율을 입증하고 있는데 (문헌 [Ramirez et al., 2008, Nat. Methods, 5:374-375]; [Kim et al., 2009, Genome Res. 19:1279-88]), 이는 통상적으로 임의의 주어진 표적 유전자에 대한 매우 많은 수의 아연 핑거 단백질의 구축 및 세포-기반 시험을 필요로 하는 한계가 된다 (문헌 [Kim et al., 2009, Genome Res. 19:1279-88]).

무작위화된 라이브러리로부터 아연 핑거 어레이를 확인하는 조합 선택-기반 방법이 모듈식 조립에 비해 더 높은 성공률을 가지는 것으로 나타난 바 있다 (문헌 [Maeder et al., 2008, Mol. Cell, 31:294-301]; [Joung et al., 2010, Nat. Methods, 7:91-92]; [Isalan et al., 2001, Nat. Biotechnol., 19:656-660]). 바람직한 실시양태에서, 아연 핑거 어레이는 WO 2011/017293호 및 WO 2004/099366호에 기술되어 있는 것이거나, 거기에 기술되어 있는 바와 같이 생성된 것이다. 추가적으로 적합한 아연 핑거 DBD들은 U.S. 특허 제6,511,808호, 6,013,453호, 6,007,988호 및 6,503,717호, 및 U.S. 특허 출원 2002/0160940호에 기술되어 있다.

이종 기능성 도메인

일부 실시양태에서, 본원에서 기술되는 융합 단백질은 US 8,993,233호; US 20140186958호; US 9,023,649호; WO/2014/099744호; WO 2014/089290호; WO2014/144592호; WO144288호; WO2014/204578호; WO2014/152432호; WO2115/099850호; US8,697,359호; US2010/0076057호; US2011/0189776호; US2011/0223638호; US2013/0130248호; WO/2008/108989호; WO/2010/054108호; WO/2012/164565호; WO/2013/098244호; WO/2013/176772호; US20150050699호; US 20150071899호 및 WO 2014/124284호에 기술되어 있는 바와 같은 이종 기능성 도메인을 포함한다. 바람직한 실시양태에서, 상기 이종 기능성 도메인은 DNA를 변경한다. 예를 들면, 바람직하게는 하나 이상의 뉴클레아제 활성-감소 또는 폐기 돌연변이 및/또는 DNA 결합 친화성을 감소시키는 하나 이상의 돌연변이를 포함하는 뉴클레아제는 전사 활성화 도메인 또는 다른 이종 기능성 도메인 (예컨대 전사 억제인자 (예컨대 KRAB, ERD, SID 및 기타 예컨대 ets2 억제 인자 (ERF) 억제인자 도메인 (ERD)의 아미노산 473-530, KOX1의 KRAB 도메인의 아미노산 1-97, 또는 Mad mSIN3 상호작용 도메인 (SID)의 아미노산 1-36; 문헌 [Beerli et al., PNAS USA 95:14628-14633 (1998)] 참조))에 융합될 수 있거나, 또는 관련 기술분야에 알려져 있는 바와 같은 이종염색질 단백질 1 (HP1, swi6으로도 알려져 있음), 예컨대 HP1α 또는 HP1β와 같은 사일런서; MS2 코트 단백질, 엔도리보뉴클레아제 Csy4 또는 람다 N 단백질에 의해 결합되는 것들과 같은 고정된 RNA 결합 서열에 융합된 긴 비-코딩 RNA (lncRNA)를 동원할 수 있는 단백질 또는 펩티드; DNA의 메틸화 상태를 변형시키는 효소 (예컨대 DNA 메틸트랜스퍼라제 (DNMT) 또는 TET 단백질); 또는 히스톤 서브유닛을 변형시키는 효소 (예컨대 히스톤 아세틸트랜스퍼라제 (HAT), 히스톤 데아세틸라제 (HDAC), 히스톤 메틸트랜스퍼라제 (예컨대 리신 또는 아르기닌 잔기의 메틸화용) 또는 히스톤 데메틸라제 (예컨대 리신 또는 아르기닌 잔기의 탈메틸화용))가 사용될 수도 있다. 수많은 그와 같은 도메인들의 서열이 관련 기술분야에 알려져 있는데, 예를 들면 DNA 중 메틸화된 시토신의 히드록실화를 촉매하는 도메인이다. 대표적인 단백질로는 DNA에서 5-메틸시토신 (5-mC)을 5-히드록시메틸시토신 (5-hmC)으로 전환하는 10-11-전위 (TET)1-3 계열의 효소가 포함된다.

인간 TET1-3의 서열이 관련 기술분야에 알려져 있으며, 하기 표에 나타내었다:

일부 실시양태에서는, 촉매 도메인의 전체-길이 서열 전부 또는 그의 일부가 포함될 수 있는데, 예를 들면 시스테인-풍부 연장체를 포함하는 촉매 모듈, 및 7개의 고도로 보존된 엑손에 의해 코딩되는 2OGFeDO 도메인, 예컨대 아미노산 1580-2052를 포함하는 Tet1 촉매 도메인, 아미노산 1290-1905를 포함하는 Tet2 및 아미노산 966-1678을 포함하는 Tet3이다. 예를 들면, 문헌 [Iyer et al., Cell Cycle. 2009 Jun 1;8(11):1698-710]의 도 1을 참조한다. 전체 길이 서열 (예컨대 서열 2c 참조)에 있어서의 3종 전체 Tet 단백질에서의 핵심 촉매 잔기들, 및 그의 보조 물질들을 도시하는 정렬 (ftp 사이트의 ftp.ncbi.nih.gov/pub/aravind/DONS/supplementary_material_DONS.html에서 입수가능)이 2009년 6월 27일자 Epub에 있는데; 일부 실시양태에서는, 서열이 Tet1의 아미노산 1418-2136 또는 Tet2/3의 상응하는 영역을 포함한다.

기타 촉매 모듈들은 문헌 [Iyer et al., 2009]에 확인되어 있는 단백질들에서 유래할 수 있다.

일부 실시양태에서, 이종 기능성 도메인은 생물학적 테더(tether)로써, MS2 코트 단백질, 엔도리보뉴클레아제 Csy4 또는 람다 N 단백질의 전체 또는 일부 (예컨대 그로부터의 DNA 결합 도메인)를 포함한다. 이들 단백질은 특정 스템-루프 구조를 포함하는 RNA 분자를 dCas9 gRNA 표적화 서열에 의해 특정되는 곳으로 동원하는 데에 사용될 수 있다. 예를 들면, MS2 코트 단백질, 엔도리보뉴클레아제 Csy4 또는 람다 N에 융합된 dCas9 변이가 Csy4, MS2 또는 람다 N 결합 서열에 연결되는 XIST 또는 HOTAIR과 같은 긴 비-코딩 RNA (lncRNA)를 동원하는 데에 사용될 수 있으며; 예를 들면 문헌 [Keryer-Bibens et al., Biol. Cell 100:125-138 (2008)]을 참조한다. 대안적으로, Csy4, MS2 또는 람다 N 단백질 결합 서열은 예컨대 상기 문헌 [Keryer-Bibens et al.]에 기술되어 있는 바와 같이 또 다른 단백질에 연결될 수 있으며, 상기 단백질은 본원에서 기술되는 방법 및 조성물을 사용하여 dCas9 변이 결합 부위에 대하여 표적화될 수 있다. 일부 실시양태에서, Csy4는 촉매 불활성이다. 일부 실시양태에서, Cas9 변이, 바람직하게는 dCas9 변이는 US 8,993,233호; US 20140186958호; US 9,023,649호; WO/2014/099744호; WO 2014/089290호; WO2014/144592호; WO144288호; WO2014/204578호; WO2014/152432호; WO2115/099850호; US8,697,359호; US2010/0076057호; US2011/0189776호; US2011/0223638호; US2013/0130248호; WO/2008/108989호; WO/2010/054108호; WO/2012/164565호; WO/2013/098244호; WO/2013/176772호; US20150050699호; US 20150071899호 및 WO 2014/204578호에 기술되어 있는 바와 같이 FokI에 융합된다.

링커 및 태그

일부 실시양태에서, 융합 단백질은 뉴클레아제와 AP 사이에 링커를 포함한다. 이러한 융합 단백질에서 (또는 콘카테머화된(concatenated) 구조에서의 융합 단백질들 사이에서) 사용될 수 있는 링커에는 융합 단백질의 기능을 방해하지 않는 어떠한 서열도 포함될 수 있다. 바람직한 실시양태에서, 링커는 짧아서, 예컨대 2-20개 아미노산이며, 통상적으로 유연성이다 (즉 글리신, 알라닌 및 세린과 같이 높은 자유도를 가지는 아미노산들을 포함함). 일부 실시양태에서, 링커는 GGGS (서열식별번호: 3) 또는 GGGGS (서열식별번호: 4)로 구성되는 하나 이상의 단위체, 예컨대 GGGS (서열식별번호: 5) 또는 GGGGS (서열식별번호: 6) 단위의 2, 3, 4개 또는 그 이상의 반복체를 포함한다. 다른 링커 서열, 예컨대 SSGNSNANSRGPSFSSGLVPLSLRGSH가 사용될 수도 있다.

일부 실시양태에서, 융합 단백질은 세포내 공간으로의 전달을 촉진하는 세포-침투 펩티드 서열, 예컨대 HIV-유래 TAT 펩티드, 페네트라틴, 트랜스포탄 또는 hCT 유래 세포-침투 펩티드를 포함하며, 예를 들면 문헌 [Caron et al., (2001) Mol Ther. 3(3):310-8]; [Langel, Cell-Penetrating Peptides: Processes and Applications (CRC Press, Boca Raton FL 2002)]; [El-Andaloussi et al., (2005) Curr Pharm Des. 11(28):3597-611]; 및 [Deshayes et al., (2005) Cell Mol Life Sci. 62(16):1839-49]을 참조한다.

세포 침투 펩티드 (CPP)는 세포질 또는 다른 소기관, 예컨대 미토콘드리아 및 핵으로의 세포막을 횡단하는 광범위한 생체분자들의 이동을 촉진하는 짧은 펩티드이다. CPP에 의해 전달될 수 있는 분자의 예에는 치료용 약물, 플라스미드 DNA, 올리고뉴클레오티드, siRNA, 펩티드-핵산 (PNA), 단백질, 펩티드, 나노입자 및 리포좀이 포함된다. CPP는 일반적으로 30개 아미노산 이하이며, 자연 발생 또는 비-자연 발생 단백질 또는 키메라 서열로부터 유래하고, 높은 상대적 풍부도의 양으로 하전된 아미노산, 예컨대 리신 또는 아르기닌, 또는 교호되는 패턴의 극성 및 비-극성 아미노산 중 어느 하나를 포함한다. 관련 기술분야에서 통상적으로 사용되는 CPP에는 Tat (문헌 [Frankel et al., (1988) Cell. 55:1189-1193], [Vives et al., (1997) J. Biol. Chem. 272:16010-16017]), 페네트라틴 (문헌 [Derossi et al., (1994) J. Biol. Chem. 269:10444-10450]), 폴리아르기닌 펩티드 서열 (문헌 [Wender et al., (2000) Proc. Natl. Acad. Sci. USA 97:13003-13008], [Futaki et al., (2001) J. Biol. Chem. 276:5836-5840]) 및 트랜스포탄 (문헌 [Pooga et al., (1998) Nat. Biotechnol. 16:857-861])이 포함된다.

CPP는 공유 또는 비-공유 전략을 통하여 그의 적재물과 연결될 수 있다. CPP와 그의 적재물을 공유 연결시키는 방법에 대해서는 관련 기술분야에 알려져 있는데, 예를 들면 화학적 가교-결합 (문헌 [Stetsenko et al., (2000) J. Org. Chem. 65:4900-4909], [Gait et al. (2003) Cell. Mol. Life. Sci. 60:844-853]) 또는 융합 단백질을 클로닝하는 것 (문헌 [Nagahara et al., (1998) Nat. Med. 4:1449-1453])이다. 적재물과 극성 및 비-극성 도메인을 포함하는 짧은 양친매성 CPP 사이의 비-공유 커플링은 정전기적 및 소수성 상호작용을 통하여 확립된다.

CPP는 관련 기술분야에서 잠재적으로 치료용인 생체 분자를 세포로 전달하는 데에 활용되어 왔다. 예로는 면역억제를 위하여 폴리아르기닌에 연결된 시클로스포린 (문헌 [Rothbard et al., (2000) Nature Medicine 6(11):1253-1257]), 종양생성을 억제하기 위하여 MPG로 지칭되는 CPP에 연결된 시클린 B1에 대한 siRNA (문헌 [Crombez et al., (2007) Biochem Soc. Trans. 35:44-46]), 암 세포 성장을 감소시키기 위하여 CPP에 연결된 종양 억제인자 p53 펩티드 (문헌 [Takenobu et al., (2002) Mol. Cancer Ther. 1(12):1043-1049], [Snyder et al., (2004) PLoS Biol. 2:E36]), 및 천식을 치료하기 위하여 Tat에 융합된 우성 음성 형태의 Ras 또는 포스포이노시톨 3 키나제 (PI3K) (문헌 [Myou et al., (2003) J. Immunol. 171:4399-4405])가 포함된다.

관련 기술분야에서 CPP는 영상화 및 생체감지 적용분야를 위하여 세포로 조영제를 수송하는 데에 활용되어 왔다. 예를 들면, Tat에 결합된 녹색 형광 단백질 (GFP)은 암 세포를 표지하는 데에 사용되어 왔다 (문헌 [Shokolenko et al., (2005) DNA Repair 4(4):511-518]). 양자점(quantum dot)에 접합된 Tat는 래트 뇌의 가시화를 위하여 혈-뇌 장벽을 성공적으로 건너는 데에 사용된 바 있다 (문헌 [Santra et al., (2005) Chem. Commun. 3144-3146]). CPP는 세포 영상화를 위하여 자기 공명 영상화 기술과도 조합된 바 있다 (문헌 [Liu et al., (2006) Biochem. and Biophys. Res. Comm. 347(1):133-140]). 문헌 [Ramsey and Flynn, Pharmacol Ther. 2015 Jul 22. pii: S0163-7258(15)00141-2]도 참조한다.

대안적으로 또는 더하여, 융합 단백질은 핵 국소화 서열, 예컨대 SV40 대형 T 항원 NLS (PKKKRRV (서열식별번호: 7)) 및 뉴클레오플라스민 NLS (KRPAATKKAGQAKKKK (서열식별번호: 8))를 포함할 수 있다. 기타 NLS들이 관련 기술분야에 알려져 있으며; 예를 들면 문헌 [Cokol et al., EMBO Rep. 2000 Nov 15; 1(5): 411-415]; [Freitas and Cunha, Curr Genomics. 2009 Dec; 10(8): 550-557]을 참조한다.

일부 실시양태에서, 융합 단백질은 리간드, 예를 들면 GST, FLAG 또는 헥사히스티딘 서열에 대하여 높은 친화성을 가지는 잔기를 포함한다. 그와 같은 친화성 태그들은 재조합 변이 단백질의 정제를 용이하게 할 수 있다.

융합 단백질이 세포로 전달되는 방법을 위해, 융합 단백질은 관련 기술분야에 알려져 있는 임의의 방법을 사용하여, 예를 들면 시험관내 번역, 또는 적합한 숙주 세포에서의 변이 단백질을 코딩하고 있는 핵산으로부터의 발현에 의해 제조될 수 있으며; 수많은 방법들이 단백질 제조용으로 관련 기술분야에 알려져 있다. 예를 들면, 융합 단백질은 효모, 이. 콜리(E. coli), 곤충 세포주, 식물, 트랜스제닉 동물 또는 배양된 포유동물 세포에서 제조되거나, 그로부터 정제될 수 있으며; 예를 들면 문헌 [Palomares et al., "Production of Recombinant Proteins: Challenges and Solutions," Methods Mol Biol. 2004;267:15-52]을 참조한다. 또한, 융합 단백질은 임의적으로는 일단 단백질이 세포 내부에 존재하게 되면 절단되는 링커를 사용하여, 세포로의 전달을 용이하게 하는 잔기, 예를 들면 지질 나노입자에 연결될 수 있다. 예를 들면, 문헌 [LaFountaine et al., Int J Pharm. 2015 Aug 13;494(1):180-194]을 참조한다.

발현 시스템

본원에서 기술되는 융합 단백질을 사용하기 위해서는, 그것을 코딩하는 핵산으로부터 그것을 발현시키는 것이 바람직할 수 있다. 이는 다양한 방식으로 수행될 수 있다. 예를 들면, 융합 단백질을 코딩하는 핵산은 복제 및/또는 발현용 원핵 또는 진핵 세포로의 형질전환을 위하여 중간 벡터로 클로닝될 수 있다. 중간 벡터는 통상적으로 원핵생물 벡터, 예컨대 융합 단백질 제조용 융합 단백질을 코딩하는 핵산의 저장 또는 조작을 위한 플라스미드, 또는 셔틀 벡터 또는 곤충 벡터이다. 융합 단백질을 코딩하는 핵산은 식물 세포, 동물 세포, 바람직하게는 포유동물 세포 또는 인간 세포, 진균 세포, 세균 세포 또는 원생동물 세포로의 투여를 위하여 발현 벡터로 클로닝될 수도 있다.

발현을 달성하기 위하여, 융합 단백질을 코딩하는 핵산 서열은 통상적으로 전사를 유도하는 프로모터를 포함하는 발현 벡터로 서브클로닝된다. 적합한 세균 및 진핵 프로모터들은 관련 기술분야에 잘 알려져 있으며, 예를 들면 문헌 [Sambrook et al., Molecular Cloning, A Laboratory Manual (3d ed. 2001)]; [Kriegler, Gene Transfer and Expression: A Laboratory Manual (1990)]; 및 [Current Protocols in Molecular Biology (Ausubel et al., eds., 2010)]에 기술되어 있다. 조작된 단백질을 발현시키기 위한 세균 발현 시스템은 예를 들면 이. 콜리, 바실루스(Bacillus) 종 및 살모넬라(Salmonella)에서 입수가능하다 (문헌 [Palva et al., 1983, Gene 22:229-235]). 그와 같은 발현 시스템용 키트는 시중에서 구입가능하다. 포유동물 세포, 효모 및 곤충 세포용 진핵 발현 시스템에 대해서는 관련 기술분야에 잘 알려져 있으며, 역시 시중에서 구입가능하다.

핵산의 발현을 유도하는 데에 사용되는 프로모터는 구체적인 적용분야에 따라 달라진다. 예를 들어, 융합 단백질의 발현 및 정제에는 통상적으로 강한 상시성 프로모터가 사용된다. 반면, 융합 단백질이 유전자 조절을 위하여 생체 내로 투여되어야 하는 경우에는, 융합 단백질의 구체적인 용도에 따라 상시성 또는 유도성 중 어느 하나인 프로모터가 사용될 수 있다. 또한, 융합 단백질의 투여에 바람직한 프로모터는 약한 프로모터, 예컨대 HSV TK 또는 유사한 활성을 가지는 프로모터일 수 있다. 프로모터는 전사활성화에 반응성인 요소, 예를 들면 저산소증 반응 요소, Gal4 반응 요소, lac 억제인자 반응 요소 및 소형 분자 조절 시스템 예컨대 테트라사이클린-조절 시스템 및 RU-486 시스템을 포함할 수도 있다 (예컨대 문헌 [Gossen & Bujard, 1992, Proc. Natl. Acad. Sci. USA, 89:5547]; [Oligino et al., 1998, Gene Ther., 5:491-496]; [Wang et al., 1997, Gene Ther., 4:432-441]; [Neering et al., 1996, Blood, 88:1147-55]; 및 [Rendahl et al., 1998, Nat. Biotechnol., 16:757-761] 참조).

프로모터 이외에, 발현 벡터는 통상적으로 원핵 또는 진핵 중 어느 하나인 숙주 세포에서의 핵산의 발현에 필요한 모든 추가적인 요소들을 포함하는 전사 기구 또는 발현 카세트를 포함한다. 따라서, 통상적인 발현 카세트는 예를 들면 융합 단백질을 코딩하는 핵산 서열에 작동가능하게 연결된 프로모터, 및 예를 들면 전사체의 효율적인 폴리아데닐화, 전사 종료, 리보솜 결합 부위 또는 번역 종료에 필요한 임의의 신호들을 포함한다. 추가적인 카세트의 요소로는 예를 들면 인핸서 및 이종 인트론 스플라이싱 신호가 포함될 수 있다.

세포로 유전 정보를 수송하는 데에 사용되는 구체적인 발현 벡터는 융합 단백질의 의도된 용도, 예컨대 식물, 동물, 세균, 진균, 원생동물 등에서의 발현과 관련하여 선택된다. 표준 세균 발현 벡터에는 pBR322 기반 플라스미드, pSKF, pET23D와 같은 플라스미드, 그리고 GST 및 LacZ와 같은 시중에서 구입가능한 태그-융합 발현 시스템이 포함된다.

진핵 발현 벡터에서는 종종 진핵 바이러스 유래의 조절 요소를 포함하는 발현 벡터가 사용되는데, 예를 들면 SV40 벡터, 파필로마(papilloma) 바이러스 벡터, 및 엡스타인-바르(Epstein-Barr) 바이러스 유래 벡터이다. 다른 대표적인 진핵 벡터에는 pMSG, pAV009/A+, pMTO10/A+, pMAMneo-5, 바큘로바이러스(baculovirus) pDSVE, 그리고 SV40 조기 프로모터, SV40 후기 프로모터, 메탈로티오네인 프로모터, 뮤린 포유동물 종양 바이러스 프로모터, 라우스 육종 바이러스 프로모터, 폴리헤드린 프로모터, 또는 진핵 세포에서의 발현에 효과적인 것으로 나타나 있는 기타 프로모터의 유도하에 단백질의 발현을 가능하게 하는 임의의 다른 벡터가 포함된다.

융합 단백질을 발현시키기 위한 벡터는 안내 RNA의 발현을 추진하기 위한 RNA Pol III 프로모터, 예컨대 H1, U6 또는 7SK 프로모터를 포함할 수 있다. 이러한 인간 프로모터들은 플라스미드 형질감염 후 포유동물 세포에서의 융합 단백질의 발현을 가능하게 한다.

일부 발현 시스템은 티미딘 키나제, 하이그로마이신 B 포스포트랜스퍼라제 및 디히드로폴레이트 리덕타제와 같은 안정하게 형질감염된 세포주의 선택을 위한 마커를 보유한다. 폴리헤드린 프로모터 또는 다른 강한 바큘로바이러스 프로모터의 유도하에 있는 gRNA 코딩 서열과 함께 곤충 세포에서 바큘로바이러스 벡터를 사용하는 것과 같은 고수율 발현 시스템 역시 적합하다.

발현 벡터에 통상적으로 포함되는 요소에는 이. 콜리에서 기능하는 레플리콘, 재조합 플라스미드를 보유하는 세균의 선택을 가능하게 하는 항생제 내성을 코딩하는 유전자, 및 재조합 서열의 삽입을 가능하게 하는 플라스미드 비필수 영역의 고유 제한 부위도 포함된다.

차후에 표준 기술을 사용하여 정제되는 다량의 단백질을 발현하는 세균, 포유동물, 효모 또는 곤충 세포주를 생성시키는 데에는 표준 형질감염 방법이 사용된다 (예컨대 문헌 [Colley et al., 1989, J. Biol. Chem., 264:17619-22]; [Guide to Protein Purification, in Methods in Enzymology, vol. 182 (Deutscher, ed., 1990)] 참조). 진핵 및 원핵 세포의 형질전환은 표준 기술에 따라 수행된다 (예컨대 문헌 [Morrison, 1977, J. Bacteriol. 132:349-351]; [Clark-Curtiss & Curtiss, Methods in Enzymology 101:347-362 (Wu et al., eds, 1983)] 참조).

숙주 세포로 외래 뉴클레오티드 서열을 도입하기 위한 어떠한 공지의 방법도 사용될 수 있다. 여기에는 칼슘 포스페이트 형질감염, 폴리브렌, 원형질체 융합, 전기천공, 뉴클레오펙션, 리포솜, 미세주사, 노출 DNA, 플라스미드 벡터, 에피솜형 및 통합형 둘 다의 바이러스 벡터, 그리고 숙주 세포로 클로닝된 게놈 DNA, cDNA, 합성 DNA 또는 다른 외래 유전 물질을 도입하기 위한 임의의 다른 잘-알려져 있는 방법의 사용이 포함된다 (예컨대 상기 문헌 [Sambrook et al.] 참조). 사용되는 구체적인 유전 공학 절차가 융합 단백질을 발현할 수 있는 숙주 세포로 적어도 하나의 유전자를 성공적으로 도입할 수 있기만 하면 된다.

본 발명은 또한 본원에서 기술되는 벡터를 포함하는 핵산, 벡터 및 세포를 포함한다.

키트

역시 본원에서 제공되는 것은 본원에서 기술되는 방법에서 사용하기 위한 키트이다. 키트는 하기 중 하나 이상을 포함할 수 있다: 인-프레임 연결된 AP 또는 AP의 포함을 위한 하나 이상의 클로닝 부위를 포함하는 부위-특이적 뉴클레아제를 코딩하는 벡터; 정제된 재조합 뉴클레아제 단백질; 예컨대 필요에 따라 조절제로서의 안내 RNA (예컨대 시험관 내에서 제조된 것); 임의적으로 조절 주형 DNA 및/또는 안내 RNA를 포함한, 뉴클레아제와 함께 사용하기 위한 시제; 및/또는 본원에서 기술되는 방법에서의 사용을 위한 지침.

[실시예]

하기의 실시예에서 본 발명을 추가적으로 기술하며, 청구범위에서 기술되는 본 발명의 영역을 제한하는 것은 아니다.

실시예 #1: 후성적으로 조절되는 서열-특이적 뉴클레아제

R661A 및 Q695A 돌연변이를 보유하거나 R661A 및 Q926A 돌연변이를 보유하는 SpCas9 변이가 게놈 통합된 단일 카피 EGFP 리포터 유전자에 대하여 표적화된 조작된 아연 핑거 어레이 (ZF292R)에 유전적으로 융합되어 있는 시스템을 개발하였다. 차후에 NHEJ를 통하여 복구되는 EGFP 코딩 영역으로의 뉴클레아제-유도 DSB의 도입은 세포가 유동 세포측정법을 사용하여 정량적으로 검정될 수 있는 표현형인 EGFP-음성이 되도록 하는 프레임쉬프트 돌연변이의 도입으로 이어질 수 있다. EGFP의 동일 부위를 표적으로 하는 하기 4종의 서로 다른 gRNA 변이들과 함께, ZF292R 아연 핑거 어레이가 있고 없는 이러한 변이 뉴클레아제의 활성을 시험하였다: (1) 표적 부위에 대한 20개 nt의 상동성을 가지며 표적 부위 서열과 미스매치된 추가적인 5' 부가 G를 가지는 gRNA (gRNA1), (2) 표적 부위에 대한 19개 nt의 상동성을 가지며 표적 부위와 미스매치된 G인 5'의 20 번째 nt를 가지는 gRNA (gRNA2), (3) 표적 부위와 미스매치된 2개의 5' G와 함께 표적 부위에 대한 18개 nt의 상동성을 가지는 gRNA (gRNA3), 및 (4) 표적 부위에 대한 17개 nt의 상동성을 가지며 추가적인 미스매치된 G nt를 가지지 않는 완전하게 매치되는 gRNA (gRNA4). 4종 전체 gRNA를 사용하여 시험하였을 때, EGFP 붕괴 검정으로 판단시, SpCas9 (R661A, Q695A) 및 SpCas9 (R661A, Q926A) 모두가 ZF292R과 융합되는 경우에서 증가된 뉴클레아제 활성을 나타내었다 (도 2a). 서열분석-기반 인델 정량 검정인 TIDE도 수행함으로써, 이러한 뉴클레아제 복합체들 각각의 뉴클레아제 활성을 직접적으로 평가하였다. 유동 세포측정법 검정과 일치하게도, TIDE에 의한 세포 군집의 분석은 시험된 4종 전체 gRNA와 함께 두 SpCas9 변이가 ZF292R에 융합된 경우에서 증가된 인델 형성률을 나타내었다 (도 2b).

DNA-결합 인공 전사 인자에 대한 결합에 의존성인 활성을 가지는 뉴클레아제를 생성시키는 원리에 대한 증거를 제공하기 위하여, 다음에는 조작된 scFv (scFv GCN4)에 의해 견고하게 특이적으로 결합될 수 있는 GCN4 펩티드에 ZF292R가 유전적으로 융합된 시스템 (GCN4-ZF292R)을 개발하였다. 이와 같은 scFv GCN4을 직접적으로 SpCas9 (R661A, Q695A) 및 SpCas9 (R661A, Q926A)에 융합시킨 후, gRNA1, gRNA2 또는 gRNA3를 사용하여 이러한 SpCas9-scFv GCN4 융합체들이 GCN4-ZF292R 융합체의 존재 또는 부재하에서 EGFP를 붕괴시킬 수 있는지 여부를 평가하였다 (도 2c). SpCas9 (R661A, Q695A)-scFv GCN4 및 SpCas9 (R661A, Q926A)-scFv GCN4 모두가 GCN4-ZF292R과 공동-발현된 경우 유동 세포측정법으로 측정하였을 때 강화된 EGFP 붕괴를 나타내었다. 이와 같은 활성이 GCN4-ZF292R과 scFv GCN4 사이의 상호작용에 대하여 특이적이었는지를 확인하기 위하여, SpCas9 (R661A, Q695A)-scFv GCN4가 GCN4-ZF292R 또는 H3 (1-38)-ZF292R (히스톤 H3의 N-말단 38개 아미노산에 대한 동일 ZF292R 아연 핑거 어레이의 융합체)과 공동-발현되는 제2 실험을 수행하였다. 실제로, SpCas9 (R661A, Q695A)-scFv GCN4는 gRNA1 및 gRNA2를 사용하여 GCN4-ZF292R과 공동-발현된 경우에는 증가된 EGFP 붕괴를 나타내었지만, H3 (1-38)-ZF292R과는 그렇지 않았다 (도 3a). 유동 세포측정법 검정과 일치하게도, TIDE에 의한 이러한 세포 군집의 분석은 H3 (1-38)-ZF292R이 아닌 GCN4-ZF292R과 공동-발현된 경우에만 SpCas9 (R661A, Q695A)-scFv GCN4에 의해 증가된 인델 형성률을 나타내었다 (도 3b). 또한, 대조로서, 5' 미스매치 G의 부가 없이 서로 다른 EGFP 중 표적 부위에 대하여 20개 nt의 완전한 상보성을 보유하는 gRNA (gRNA5)를 사용하여 각 SpCas9 융합 구성체를 시험함으로써, 단백질이 상기 gRNA 변형의 부재하에 야생형 SpCas9에 필적하는 뉴클레아제 활성을 보유한다는 것을 확인하였다.

실시예 #2: 3-차원 염색질 입체구조에 대하여 의존성인 서열-특이적 뉴클레아제

이전의 연구에서, 조작된 아연 핑거 어레이 (ZF) 또는 TALE 반복 어레이와 같은 제2 DNA 결합 도메인 (DBD)에 의해 해당 표적 부위 부근에 테더링되는 경우에만 DSB를 유도하도록 SpCas9가 조작될 수 있는 것으로 나타난 바 있다. 이는 그의 PAM 모티프를 인식하는 단백질의 능력에 영향을 주는 위치 R1333 또는 R1335에서 SpCas9에 돌연변이를 도입하는 것에 의해 달성된다 (그와 같은 돌연변이는 Cas9 PAM 상호작용 도메인 녹-다운 또는 Cas9 PID KD로 지칭됨). 전략 #1에서 기술된 것과 유사한 EGFP 붕괴 검정을 사용하여, 표적 부위에서의 SaCas9와 PAM 서열 사이의 상호작용에 영향을 주는 돌연변이 R1015A, R1015Q 또는 R1015H를 보유하는 SaCas9 PID KD에 제2 ZF DBD를 융합시키는 것에 의해, SaCas9를 사용하는 유사한 시스템이 조작될 수 있다는 것을 밝혀냈다 (도 4a 및 4b). 이를 시험하기 위하여, 표적 부위에 대하여 21개 nt의 상보성을 보유하는 gRNA를 사용하여 ZF292R 도메인의 결합 부위에 인접한 EGFP 리포터 유전자 내 부위에 대하여 표적화된 R1015A, R1015Q 또는 R1015H 돌연변이를 보유하는 SaCas9 변이의 융합체를 시험하였다. ZF292R DBD에 대한 이러한 SaCas9 변이의 융합체는 해당 뉴클레아제에 대하여 상당한 EGFP 붕괴 활성을 복구시켰다 (도 4c). 본 발명에서는, 직선 서열에서는 Cas9 표적 부위에서 원거리이지만 특정 세포 유형에서는 3-차원 공간에서만 근접하는 DNA 서열에 결합하는 조작된 ZF 또는 TALE에 SpCas9 또는 SaCas9 PID KD를 융합시키는 것을 계획한다. 따라서, 이와 같은 배열구조를 사용하면, 제2 DBD에 의해 표적화되는 원거리 서열과 Cas9 PID KD의 표적 부위 사이의 세포-유형-특이적 염색질 루핑이 뉴클레아제를 gRNA 표적 부위에 매우 근접하게 되도록 함으로써, Cas9 PID KD가 표적 유전자에서 DSB를 유도하도록 하게 될 것이다 (도 5a 및 5b). 또한, Cas9 PID KD 대신, 표 1에서 개괄된 SpCas9 변이들을 원거리 조절 서열에 대하여 표적화된 조작된 DBD에 융합시키는 것을 제안한다. 전략 #1 및 전략 #2에서 개괄된 gRNA 변형을 사용하면, 제2 DBD가 gRNA 표적 부위에 근접한 그의 표적 부위에 결합할 수 있는 경우에만 (예컨대 원거리 조절 요소와 해당 유전자 사이에 루핑이 존재하는 세포 유형에서만) SpCas9 변이로부터의 뉴클레아제 활성을 달성할 수 있게 될 것이다.

[기타 실시양태]

본 발명이 그의 상세한 설명과 연계되어 기술되기는 하였지만, 전기 상세한 설명은 예시하고자 하는 것으로써, 첨부된 청구범위의 영역에 의해 한정되는 본 발명의 영역을 제한하고자 하는 것이 아님이 이해되어야 한다. 기타 측면, 장점 및 변형들은 하기하는 청구범위의 영역에 속한다.

SEQUENCE LISTING <110> Joung, J. Keith Gehrke, Jason Michael <120> Epigenetically Regulated Site-Specific Nucleases <130> 29539-0255WO1 <140> PCT/US2017/056738 <141> 2017-10-16 <150> US62/408,645 <151> 2016-10-14 <160> 8 <170> PatentIn version 3.5 <210> 1 <211> 1368 <212> PRT <213> Streptococcus pyogenes <400> 1 Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val 1 5 10 15 Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe 20 25 30 Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile 35 40 45 Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu 50 55 60 Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys 65 70 75 80 Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser 85 90 95 Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys 100 105 110 His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr 115 120 125 His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp 130 135 140 Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His 145 150 155 160 Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro 165 170 175 Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr 180 185 190 Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala 195 200 205 Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn 210 215 220 Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn 225 230 235 240 Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe 245 250 255 Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp 260 265 270 Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp 275 280 285 Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp 290 295 300 Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser 305 310 315 320 Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys 325 330 335 Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe 340 345 350 Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser 355 360 365 Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp 370 375 380 Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg 385 390 395 400 Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu 405 410 415 Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe 420 425 430 Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile 435 440 445 Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp 450 455 460 Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu 465 470 475 480 Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr 485 490 495 Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser 500 505 510 Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys 515 520 525 Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln 530 535 540 Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr 545 550 555 560 Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp 565 570 575 Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly 580 585 590 Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp 595 600 605 Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr 610 615 620 Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala 625 630 635 640 His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr 645 650 655 Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp 660 665 670 Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe 675 680 685 Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe 690 695 700 Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu 705 710 715 720 His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly 725 730 735 Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly 740 745 750 Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln 755 760 765 Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile 770 775 780 Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro 785 790 795 800 Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu 805 810 815 Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg 820 825 830 Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys 835 840 845 Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg 850 855 860 Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys 865 870 875 880 Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys 885 890 895 Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp 900 905 910 Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr 915 920 925 Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp 930 935 940 Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser 945 950 955 960 Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg 965 970 975 Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val 980 985 990 Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe 995 1000 1005 Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala 1010 1015 1020 Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe 1025 1030 1035 Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala 1040 1045 1050 Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu 1055 1060 1065 Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val 1070 1075 1080 Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr 1085 1090 1095 Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys 1100 1105 1110 Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro 1115 1120 1125 Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val 1130 1135 1140 Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys 1145 1150 1155 Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser 1160 1165 1170 Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys 1175 1180 1185 Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu 1190 1195 1200 Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly 1205 1210 1215 Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val 1220 1225 1230 Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser 1235 1240 1245 Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys 1250 1255 1260 His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys 1265 1270 1275 Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala 1280 1285 1290 Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn 1295 1300 1305 Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala 1310 1315 1320 Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser 1325 1330 1335 Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr 1340 1345 1350 Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp 1355 1360 1365 <210> 2 <211> 1053 <212> PRT <213> Streptococcus aureus <400> 2 Met Lys Arg Asn Tyr Ile Leu Gly Leu Asp Ile Gly Ile Thr Ser Val 1 5 10 15 Gly Tyr Gly Ile Ile Asp Tyr Glu Thr Arg Asp Val Ile Asp Ala Gly 20 25 30 Val Arg Leu Phe Lys Glu Ala Asn Val Glu Asn Asn Glu Gly Arg Arg 35 40 45 Ser Lys Arg Gly Ala Arg Arg Leu Lys Arg Arg Arg Arg His Arg Ile 50 55 60 Gln Arg Val Lys Lys Leu Leu Phe Asp Tyr Asn Leu Leu Thr Asp His 65 70 75 80 Ser Glu Leu Ser Gly Ile Asn Pro Tyr Glu Ala Arg Val Lys Gly Leu 85 90 95 Ser Gln Lys Leu Ser Glu Glu Glu Phe Ser Ala Ala Leu Leu His Leu 100 105 110 Ala Lys Arg Arg Gly Val His Asn Val Asn Glu Val Glu Glu Asp Thr 115 120 125 Gly Asn Glu Leu Ser Thr Lys Glu Gln Ile Ser Arg Asn Ser Lys Ala 130 135 140 Leu Glu Glu Lys Tyr Val Ala Glu Leu Gln Leu Glu Arg Leu Lys Lys 145 150 155 160 Asp Gly Glu Val Arg Gly Ser Ile Asn Arg Phe Lys Thr Ser Asp Tyr 165 170 175 Val Lys Glu Ala Lys Gln Leu Leu Lys Val Gln Lys Ala Tyr His Gln 180 185 190 Leu Asp Gln Ser Phe Ile Asp Thr Tyr Ile Asp Leu Leu Glu Thr Arg 195 200 205 Arg Thr Tyr Tyr Glu Gly Pro Gly Glu Gly Ser Pro Phe Gly Trp Lys 210 215 220 Asp Ile Lys Glu Trp Tyr Glu Met Leu Met Gly His Cys Thr Tyr Phe 225 230 235 240 Pro Glu Glu Leu Arg Ser Val Lys Tyr Ala Tyr Asn Ala Asp Leu Tyr 245 250 255 Asn Ala Leu Asn Asp Leu Asn Asn Leu Val Ile Thr Arg Asp Glu Asn 260 265 270 Glu Lys Leu Glu Tyr Tyr Glu Lys Phe Gln Ile Ile Glu Asn Val Phe 275 280 285 Lys Gln Lys Lys Lys Pro Thr Leu Lys Gln Ile Ala Lys Glu Ile Leu 290 295 300 Val Asn Glu Glu Asp Ile Lys Gly Tyr Arg Val Thr Ser Thr Gly Lys 305 310 315 320 Pro Glu Phe Thr Asn Leu Lys Val Tyr His Asp Ile Lys Asp Ile Thr 325 330 335 Ala Arg Lys Glu Ile Ile Glu Asn Ala Glu Leu Leu Asp Gln Ile Ala 340 345 350 Lys Ile Leu Thr Ile Tyr Gln Ser Ser Glu Asp Ile Gln Glu Glu Leu 355 360 365 Thr Asn Leu Asn Ser Glu Leu Thr Gln Glu Glu Ile Glu Gln Ile Ser 370 375 380 Asn Leu Lys Gly Tyr Thr Gly Thr His Asn Leu Ser Leu Lys Ala Ile 385 390 395 400 Asn Leu Ile Leu Asp Glu Leu Trp His Thr Asn Asp Asn Gln Ile Ala 405 410 415 Ile Phe Asn Arg Leu Lys Leu Val Pro Lys Lys Val Asp Leu Ser Gln 420 425 430 Gln Lys Glu Ile Pro Thr Thr Leu Val Asp Asp Phe Ile Leu Ser Pro 435 440 445 Val Val Lys Arg Ser Phe Ile Gln Ser Ile Lys Val Ile Asn Ala Ile 450 455 460 Ile Lys Lys Tyr Gly Leu Pro Asn Asp Ile Ile Ile Glu Leu Ala Arg 465 470 475 480 Glu Lys Asn Ser Lys Asp Ala Gln Lys Met Ile Asn Glu Met Gln Lys 485 490 495 Arg Asn Arg Gln Thr Asn Glu Arg Ile Glu Glu Ile Ile Arg Thr Thr 500 505 510 Gly Lys Glu Asn Ala Lys Tyr Leu Ile Glu Lys Ile Lys Leu His Asp 515 520 525 Met Gln Glu Gly Lys Cys Leu Tyr Ser Leu Glu Ala Ile Pro Leu Glu 530 535 540 Asp Leu Leu Asn Asn Pro Phe Asn Tyr Glu Val Asp His Ile Ile Pro 545 550 555 560 Arg Ser Val Ser Phe Asp Asn Ser Phe Asn Asn Lys Val Leu Val Lys 565 570 575 Gln Glu Glu Asn Ser Lys Lys Gly Asn Arg Thr Pro Phe Gln Tyr Leu 580 585 590 Ser Ser Ser Asp Ser Lys Ile Ser Tyr Glu Thr Phe Lys Lys His Ile 595 600 605 Leu Asn Leu Ala Lys Gly Lys Gly Arg Ile Ser Lys Thr Lys Lys Glu 610 615 620 Tyr Leu Leu Glu Glu Arg Asp Ile Asn Arg Phe Ser Val Gln Lys Asp 625 630 635 640 Phe Ile Asn Arg Asn Leu Val Asp Thr Arg Tyr Ala Thr Arg Gly Leu 645 650 655 Met Asn Leu Leu Arg Ser Tyr Phe Arg Val Asn Asn Leu Asp Val Lys 660 665 670 Val Lys Ser Ile Asn Gly Gly Phe Thr Ser Phe Leu Arg Arg Lys Trp 675 680 685 Lys Phe Lys Lys Glu Arg Asn Lys Gly Tyr Lys His His Ala Glu Asp 690 695 700 Ala Leu Ile Ile Ala Asn Ala Asp Phe Ile Phe Lys Glu Trp Lys Lys 705 710 715 720 Leu Asp Lys Ala Lys Lys Val Met Glu Asn Gln Met Phe Glu Glu Lys 725 730 735 Gln Ala Glu Ser Met Pro Glu Ile Glu Thr Glu Gln Glu Tyr Lys Glu 740 745 750 Ile Phe Ile Thr Pro His Gln Ile Lys His Ile Lys Asp Phe Lys Asp 755 760 765 Tyr Lys Tyr Ser His Arg Val Asp Lys Lys Pro Asn Arg Glu Leu Ile 770 775 780 Asn Asp Thr Leu Tyr Ser Thr Arg Lys Asp Asp Lys Gly Asn Thr Leu 785 790 795 800 Ile Val Asn Asn Leu Asn Gly Leu Tyr Asp Lys Asp Asn Asp Lys Leu 805 810 815 Lys Lys Leu Ile Asn Lys Ser Pro Glu Lys Leu Leu Met Tyr His His 820 825 830 Asp Pro Gln Thr Tyr Gln Lys Leu Lys Leu Ile Met Glu Gln Tyr Gly 835 840 845 Asp Glu Lys Asn Pro Leu Tyr Lys Tyr Tyr Glu Glu Thr Gly Asn Tyr 850 855 860 Leu Thr Lys Tyr Ser Lys Lys Asp Asn Gly Pro Val Ile Lys Lys Ile 865 870 875 880 Lys Tyr Tyr Gly Asn Lys Leu Asn Ala His Leu Asp Ile Thr Asp Asp 885 890 895 Tyr Pro Asn Ser Arg Asn Lys Val Val Lys Leu Ser Leu Lys Pro Tyr 900 905 910 Arg Phe Asp Val Tyr Leu Asp Asn Gly Val Tyr Lys Phe Val Thr Val 915 920 925 Lys Asn Leu Asp Val Ile Lys Lys Glu Asn Tyr Tyr Glu Val Asn Ser 930 935 940 Lys Cys Tyr Glu Glu Ala Lys Lys Leu Lys Lys Ile Ser Asn Gln Ala 945 950 955 960 Glu Phe Ile Ala Ser Phe Tyr Asn Asn Asp Leu Ile Lys Ile Asn Gly 965 970 975 Glu Leu Tyr Arg Val Ile Gly Val Asn Asn Asp Leu Leu Asn Arg Ile 980 985 990 Glu Val Asn Met Ile Asp Ile Thr Tyr Arg Glu Tyr Leu Glu Asn Met 995 1000 1005 Asn Asp Lys Arg Pro Pro Arg Ile Ile Lys Thr Ile Ala Ser Lys 1010 1015 1020 Thr Gln Ser Ile Lys Lys Tyr Ser Thr Asp Ile Leu Gly Asn Leu 1025 1030 1035 Tyr Glu Val Lys Ser Lys Lys His Pro Gln Ile Ile Lys Lys Gly 1040 1045 1050 <210> 3 <211> 4 <212> PRT <213> Artificial Sequence <220> <223> peptide linker <400> 3 Gly Gly Gly Ser 1 <210> 4 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> peptide linker <400> 4 Gly Gly Gly Gly Ser 1 5 <210> 5 <211> 4 <212> PRT <213> Artificial Sequence <220> <223> peptide linker <400> 5 Gly Gly Gly Ser 1 <210> 6 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> peptide linker <400> 6 Gly Gly Gly Gly Ser 1 5 <210> 7 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> SV40 large T antigen nuclear localization <400> 7 Pro Lys Lys Lys Arg Arg Val 1 5 <210> 8 <211> 16 <212> PRT <213> Artificial Sequence <220> <223> nucleoplasmin nuclear localization <400> 8 Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys Lys Lys 1 5 10 15

Claims

특정 전사 인자 (TF) 또는 번역-후 히스톤 변형에 대하여 높은 친화성을 가지는 조작된 친화성 단백질 (AP)에 연결되어 있는 표적화된 뉴클레아제를 포함하는 융합 단백질을 세포에서 발현시키는 것, 또는 그와 세포를 접촉시키는 것을 포함하는, 인간을 치료하기 위한 세포 게놈의 변형 방법.