KR102458395B1

KR102458395B1 - 프로그램가능한 dna 결합 단백질을 사용한, 표적화된 게놈 변형의 개선

Info

Publication number: KR102458395B1
Application number: KR1020187037407A
Authority: KR
Inventors: 푸치앙 첸
Original assignee: 시그마-알드리치 컴퍼니., 엘엘씨
Priority date: 2016-06-02
Filing date: 2017-02-20
Publication date: 2022-10-25
Also published as: IL289989A; PL3272867T3; PT3604527T; DK3272867T3; AU2017274145B2; US20190169651A1; JP7535142B2; GB2582731A; IL275244B; GB201702743D0; IL295358B1; WO2017209809A1; CN109983124A; ES2760477T3; GB2578802B; PT3272867T; SG11201810003UA; ES2881355T3; IL302238A; CN116064529A

Abstract

표적화된 유전체 변형의 효율 및/또는 특이성을 증가시키거나 또는 진핵 세포에서 특정한 유전체 좌위의 검출을 용이하게 하기 위해, 프로그램가능 DNA 결합 단백질을 이용하기 위한 조성물 및 방법.

Description

프로그램가능한 DNA 결합 단백질을 사용한, 표적화된 게놈 변형의 개선

분야

본 발명은 표적화된 유전체 변형의 효율 및/또는 특이성을 증가시키기 위한 조성물 및 방법에 관계한다.

배경

프로그램가능 엔도뉴클레아제는 진핵생물에서 표적화된 유전체 가공 또는 변형을 위한 점점 더 중요한 도구가 되고 있다. 최근에, RNA-안내된 군집된 규칙적으로 산재된 짧은 회귀성 반복 (CRISPR)/CRISPR-연관된 (Cas) (CRISPR/Cas) 시스템이 새로운 세대의 유전체 변형 도구로서 부상하였다. 이들 새로운 프로그램가능 엔도뉴클레아제는 이전 세대의 뉴클레아제, 예를 들면, 아연 핑거 뉴클레아제 (ZFNs) 및 전사 활성인자-유사 작동체 뉴클레아제 (TALENs)와 비교하여 유전체 편집 능력이 크게 향상되었다.

하지만, 모든 유전체학 표적이 이들 프로그램가능 엔도뉴클레아제에 의한 효율적인 변형을 위한 접근을 허용하는 것은 아니다. 실제로, 일부 CRISPR-Cas 엔도뉴클레아제는 인간 세포에서 활성이 거의 또는 전혀 없는 것처럼 보인다. 그 중에서도 특히, 염색질 구조는 이들 프로그램가능 엔도뉴클레아제에 대한 장벽이 되고 이들이 표적 서열에 결합하는 것을 방해할 수 있다. 따라서, 표적 서열에 대한 이들 프로그램가능 엔도뉴클레아제의 접근성을 향상시키고 및/또는 표적화된 유전체 변형의 효율을 향상시키는 것이 요구된다. 게다가, 부정확한 효과를 감소시킴으로써, 표적화된 유전체 변형에 대한 특이성을 증가시키는 것이 요구된다.

요약

본 발명의 다양한 양상 중에는 (a) 프로그램가능 DNA 변형 단백질 또는 상기 프로그램가능 DNA 변형 단백질을 인코딩하는 핵산 및 (b) 최소한 하나의 프로그램가능 DNA 결합 단백질 또는 상기 최소한 하나의 프로그램가능 DNA 결합 단백질을 인코딩하는 핵산을 포함하는 조성물이 있다. 일반적으로, 프로그램가능 DNA 변형 단백질은 뉴클레아제 활성 (다시 말하면, 이중 가닥 서열의 양쪽 가닥을 개열한다) 또는 비-뉴클레아제 활성 (가령, 후성 변형 활성 또는 전사 조절 활성)을 갖고, 그리고 최소한 하나의 프로그램가능 DNA 결합 단백질은 뉴클레아제 활성을 결여한다.

프로그램가능 DNA 변형 단백질이 뉴클레아제 활성을 갖는 구체예에서, 예로서, 상기 프로그램가능 DNA 변형 단백질은 RNA-안내된 군집된 규칙적으로 산재된 짧은 회귀성 반복 (CRISPR)/CRISPR-연관된 (Cas) (CRISPR/Cas) 뉴클레아제 시스템, CRISPR/Cas 이중 틈내기효소 시스템, 아연 핑거 뉴클레아제 (ZFN), 전사 활성인자-유사 작동체 뉴클레아제 (TALEN), 메가뉴클레아제, 뉴클레아제 도메인에 연결된 프로그램가능 DNA 결합 도메인을 포함하는 융합 단백질 (다시 말하면, 이중 가닥 DNA 절단을 산출한다), 그리고 이들의 조합에서 선택될 수 있다.

프로그램가능 DNA 변형 단백질이 비-뉴클레아제 활성을 갖는 구체예에서, 예로서, 상기 프로그램가능 DNA 변형 단백질은 비-뉴클레아제 변형 도메인에 연결된 프로그램가능 DNA 결합 도메인을 포함하는 융합 단백질 일 수 있다. 일정한 구체예에서, 융합 단백질의 프로그램가능 DNA 결합 도메인은 촉매적으로 비활성 CRISPR/Cas 시스템, 촉매적으로 비활성 메가뉴클레아제, 아연 핑거 단백질, 또는 전사 활성인자-유사 작동체일 수 있고, 그리고 융합 단백질의 비-뉴클레아제 변형 도메인은 아세틸전달효소 활성, 탈아세틸화효소 활성, 메틸전달효소 활성, 탈메틸효소 활성, 키나아제 활성, 포스파타아제 활성, 유비퀴틴 리가아제 활성, 탈유비퀴틴화 활성, 아데닐화 활성, 탈아데닐화 활성, 수모화 활성, 탈수모화 활성, 리보실화 활성, 탈리보실화 활성, 미리스토일화 활성, 탈미리스토일화 활성, 시트룰린화 활성, 헬리카아제 활성, 아미노화 활성, 탈아미노화 활성, 알킬화 활성, 탈알킬화 활성, 산화 활성, 전사 활성화 활성, 또는 전사 억제인자 활성을 가질 수 있다. 특정한 구체예에서, 융합 단백질의 비-뉴클레아제 변형 도메인은 시토신 탈아미노효소 활성, 히스톤 아세틸전달효소 활성, 전사 활성화 활성, 또는 전사 억제인자 활성을 갖는다.

본원에서 개시된 조성물의 일정한 구체예에 따라서, 최소한 하나의 프로그램가능 DNA 결합 단백질은 촉매적으로 비활성 CRISPR/Cas 시스템, 촉매적으로 비활성 메가뉴클레아제, 아연 핑거 단백질, 전사 활성인자-유사 작동체, CRISPR/Cas 틈내기효소, ZFN 틈내기효소, TALEN 틈내기효소, 또는 메가뉴클레아제 틈내기효소일 수 있다.

일반적으로, 프로그램가능 DNA 변형 단백질 및/또는 최소한 하나의 프로그램가능 DNA 결합 단백질을 인코딩하는 핵산은 mRNA 또는 DNA이다. 일부 구체예에서, 프로그램가능 DNA 변형 단백질 및/또는 최소한 하나의 프로그램가능 DNA 결합 단백질을 인코딩하는 핵산은 벡터, 예를 들면, 예로서, 플라스미드 벡터, 렌티바이러스 벡터, 아데노 연관된 바이러스 벡터, 또는 아데노바이러스 벡터의 일부이다.

특정한 구체예에서, 프로그램가능 DNA 변형 단백질은 CRISPR/Cas 뉴클레아제 시스템, CRISPR/Cas 이중 틈내기효소 시스템, 또는 비-뉴클레아제 도메인에 연결된 촉매적으로 비활성 CRISPR/Cas 시스템을 포함하고, 그리고 최소한 하나의 프로그램가능 DNA 결합 단백질은 촉매적으로 비활성 CRISPR/Cas 시스템을 포함하고, 여기서 각 CRISPR/Cas 시스템은 CRISPR/Cas 단백질 및 안내 RNA를 포함한다. 다양한 구체예에서, 각 CRISPR/Cas 뉴클레아제 시스템은 I형 CRISPR/Cas 시스템, II형 CRISPR/Cas 시스템, III형 CRISPR/Cas 시스템, 또는 V형 CRISPR/Cas 시스템일 수 있다. 일부 구체예에서, 각 안내 RNA는 최소한 부분적으로, 화학적으로 합성될 수 있다. 다른 구체예에서, 각 안내 RNA는 효소적으로 합성될 수 있다. 추가 구체예에서, 각 CRISPR/Cas 단백질을 인코딩하는 핵산은 mRNA일 수 있고, 그리고 각 안내 RNA를 인코딩하는 핵산은 DNA일 수 있다. 또 다른 구체예에서, 각 CRISPR/Cas 단백질을 인코딩하는 핵산은 mRNA일 수 있고, 그리고 각 안내 RNA를 인코딩하는 핵산은 DNA일 수 있다. 일정한 양상에서, CRISPR/Cas 단백질을 인코딩하는 핵산 및/또는 안내 RNA를 인코딩하는 핵산은 벡터, 예를 들면, 플라스미드 벡터, 렌티바이러스 벡터, 아데노 연관된 바이러스 벡터, 또는 아데노바이러스 벡터의 부분일 수 있다.

본 발명의 다른 양상은 상기 상술된 조성물 중에서 한 가지 또는 그 이상을 포함하는 키트를 포괄한다.

본 발명의 또 다른 양상은 진핵 세포에서 표적화된 유전체 변형 효율 및/또는 특이성을 증가시키기 위한 방법을 제공한다. 이들 방법은 (a) 프로그램가능 DNA 변형 단백질 또는 상기 프로그램가능 DNA 변형 단백질을 인코딩하는 핵산 및 (b) 최소한 하나의 프로그램가능 DNA 결합 단백질 또는 상기 최소한 하나의 프로그램가능 DNA 결합 단백질을 인코딩하는 핵산을 진핵 세포 내로 도입하는 것을 수반한다. 프로그램가능 DNA 변형 단백질은 표적 염색체 서열에 표적화되고, 그리고 최소한 하나의 프로그램가능 DNA 결합 단백질 각각은 표적 염색체 서열의 근위 부위에 표적화된다. 표적 염색체 서열의 근위 부위에 최소한 하나의 프로그램가능 DNA 결합 단백질의 결합은 표적 염색체 서열에 대한 프로그램가능 DNA 변형 단백질의 접근성을 증가시키고, 따라서 표적화된 유전체 변형 효율 및/또는 특이성을 증가시킨다. 최소한 하나의 프로그램가능 DNA 결합 단백질 각각에 의해 결합된 근위 부위는 예로서, 표적 염색체 서열의 어느 한쪽 측면 상에 약 250개 염기쌍 이내에 위치된다. 일부 구체예에서, 근위 결합 부위(들)는 표적 염색체 서열의 어느 한쪽 측면 상에 약 200 bp 이내에 또는 약 100 bp 이내에 위치된다.

상기 방법에서 이용되는 프로그램가능 DNA 변형 단백질은 CRISPR/Cas 뉴클레아제 시스템, CRISPR/Cas 이중 틈내기효소 시스템, 아연 핑거 뉴클레아제 (ZFN), 전사 활성인자-유사 작동체 뉴클레아제 (TALEN), 메가뉴클레아제, 뉴클레아제 도메인에 연결된 프로그램가능 DNA 결합 도메인을 포함하는 융합 단백질, 또는 비-뉴클레아제 도메인에 연결된 프로그램가능 DNA 결합 도메인을 포함하는 융합 단백질일 수 있다. 융합 단백질의 프로그램가능 DNA 결합 도메인은 촉매적으로 비활성 CRISPR/Cas 시스템, 촉매적으로 비활성 메가뉴클레아제, 아연 핑거 단백질, 또는 전사 활성인자-유사 작동체일 수 있고, 그리고 융합 단백질의 비-뉴클레아제 변형 도메인은 아세틸전달효소 활성, 탈아세틸화효소 활성, 메틸전달효소 활성, 탈메틸효소 활성, 키나아제 활성, 포스파타아제 활성, 유비퀴틴 리가아제 활성, 탈유비퀴틴화 활성, 아데닐화 활성, 탈아데닐화 활성, 수모화 활성, 탈수모화 활성, 리보실화 활성, 탈리보실화 활성, 미리스토일화 활성, 탈미리스토일화 활성, 시트룰린화 활성, 헬리카아제 활성, 아미노화 활성, 탈아미노화 활성, 알킬화 활성, 탈알킬화 활성, 산화 활성, 전사 활성화 활성, 또는 전사 억제인자 활성을 가질 수 있다. 특정한 구체예에서, 융합 단백질의 비-뉴클레아제 변형 도메인은 시토신 탈아미노효소 활성, 히스톤 아세틸전달효소 활성, 전사 활성화 활성, 또는 전사 억제인자 활성을 갖는다.

상기 방법에서 이용되는 최소한 하나의 프로그램가능 DNA 결합 단백질은 DNA에 결합하지만 뉴클레아제 활성 (다시 말하면, 이중 가닥 개열 활성)을 결여한다. 일정한 구체예에서, 최소한 하나의 프로그램가능 DNA 결합 단백질은 촉매적으로 비활성 CRISPR/Cas 시스템, 촉매적으로 비활성 메가뉴클레아제, 아연 핑거 단백질, 전사 활성인자-유사 작동체, CRISPR/Cas 틈내기효소, ZFN 틈내기효소, TALEN 틈내기효소, 또는 메가뉴클레아제 틈내기효소일 수 있다.

특정한 구체예에서, 프로그램가능 DNA 변형 단백질은 CRISPR/Cas 뉴클레아제 시스템, CRISPR/Cas 이중 틈내기효소 시스템, 또는 비-뉴클레아제 도메인에 연결된 촉매적으로 비활성 CRISPR/Cas 시스템을 포함하고, 그리고 최소한 하나의 프로그램가능 DNA 결합 단백질은 촉매적으로 비활성 CRISPR/Cas 시스템을 포함하고, 여기서 각 CRISPR/Cas 시스템은 CRISPR/Cas 단백질 및 안내 RNA를 포함한다.

다양한 구체예에서, 최소한 2개, 최소한 3개, 또는 3개보다 많은 프로그램가능 DNA 결합 단백질이 진핵 세포 내로 도입된다. 특정한 구체예에서, 진핵 세포는 포유류 세포, 또는 인간 세포이다.

본 발명의 추가 양상은 진핵 세포에서 염색체 서열 또는 유전체 좌위를 검출하기 위한 방법을 포괄한다. 이들 방법은 (a) 최소한 하나의 검출가능한 마커 도메인을 포함하는 프로그램가능 DNA 결합 단백질 또는 최소한 하나의 검출가능한 마커 도메인을 포함하는 상기 프로그램가능 DNA 결합 단백질을 인코딩하는 핵산 및 (b) 최소한 하나의 프로그램가능 DNA 결합 단백질 또는 상기 최소한 하나의 프로그램가능 DNA 결합 단백질을 인코딩하는 핵산을 진핵 세포 내로 도입하는 것을 수반하고, 여기서 최소한 하나의 검출가능한 마커 도메인을 포함하는 프로그램가능 DNA 결합 단백질은 표적 염색체 서열에 표적화되고, 그리고 최소한 하나의 프로그램가능 DNA 결합 단백질 각각은 표적 염색체 서열의 근위 부위에 표적화되고, 여기서 표적 염색체 서열의 근위 부위에 최소한 하나의 프로그램가능 DNA 결합 단백질의 결합은 표적 염색체 서열에 대한 최소한 하나의 검출가능한 마커 도메인을 포함하는 프로그램가능 DNA 결합 단백질의 접근성을 증가시킨다. 이들 방법은 표적 염색체 서열에 결합된 최소한 하나의 검출가능한 마커 도메인을 포함하는 프로그램가능 DNA 결합 단백질을 검출하는 것을 더욱 수반할 수 있다. 검출하는 단계는 생존 세포 또는 고정된 세포에서 이루어질 수 있고, 그리고 예로서, 동적 생존 세포 영상화, 형광 현미경검사, 공초점 현미경검사, 면역형광, 면역검출, RNA-단백질 결합, 또는 단백질-단백질 결합을 수반할 수 있다.

검출 방법에서 이용되는 최소한 하나의 검출가능한 마커 도메인을 포함하는 프로그램가능 DNA 결합 단백질은 프로그램가능 DNA 결합 도메인을 포함하는데, 이것은 촉매적으로 비활성 CRISPR/Cas 시스템, 촉매적으로 비활성 메가뉴클레아제, 아연 핑거 단백질, 또는 전사 활성인자-유사 작동체일 수 있다. 최소한 하나의 검출가능한 마커 도메인을 포함하는 프로그램가능 DNA 결합 단백질의 최소한 하나의 검출가능한 마커 도메인은 예로서, 형광 단백질, 형광 태그, 에피토프 태그, 또는 프로그램가능 DNA 결합 단백질 내에 자연발생 에피토프일 수 있다. 일부 구체예에서, 최소한 하나의 검출가능한 마커 도메인을 포함하는 프로그램가능 DNA 결합 단백질은 비-뉴클레아제 변형을 더욱 포함할 수 있다. 최소한 하나의 프로그램가능 DNA 결합 단백질은 DNA에 결합하지만 뉴클레아제 활성 (다시 말하면, 이중 가닥 개열 활성)을 결여한다. 일부 구체예에서, 프로그램가능 DNA 결합 단백질은 촉매적으로 비활성 CRISPR/Cas 시스템, 촉매적으로 비활성 메가뉴클레아제, 아연 핑거 단백질, 전사 활성인자-유사 작동체, CRISPR/Cas 틈내기효소, ZFN 틈내기효소, TALEN 틈내기효소, 또는 메가뉴클레아제 틈내기효소일 수 있다. 특정한 구체예에서, 최소한 하나의 검출가능한 마커 도메인을 포함하는 프로그램가능 DNA 결합 단백질은 최소한 하나의 검출가능한 마커 도메인에 연결된 촉매적으로 비활성 CRISPR/Cas 시스템일 수 있고, 그리고 최소한 하나의 프로그램가능 DNA 결합 단백질은 촉매적으로 비활성 CRISPR/Cas 시스템일 수 있다.

본 발명의 다른 양상 및 특질은 아래에 상술된다.

도면의 간단한 설명
도면 1은 본원에서 개시된 방법의 한 구체예의 다이어그램을 제공한다. 프로그램가능 DNA 결합 단백질(들)의 근위 결합은 프로그램가능 뉴클레아제에 대한 표적 부위의 접근성을 증가시키고, 따라서 표적 부위에서 개열의 효율을 증가시킨다.
도면 2는 근위 부위(들)에 촉매적으로 비활성 SpCas9 (SpdCas9)의 결합이 FnCas9에 의한 개열의 효율을 증가시킨다는 것을 도해한다. 위쪽에서 제시된 서열은 POR 좌위 내에 FnCas9 표적 부위 및 SpdCas9의 결합 부위의 상대적 위치를 보여준다. Cel-I 뉴클레아제 검정의 결과는 아래쪽에서 도시된다.
도면 3a는 촉매적으로 비활성 SpCas9 (SpdCas9)의 결합이 POR 좌위에서 이전에 접근불가능했던 부위에 대한 에피토프-태깅된 (다시 말하면, FLAG^®-태깅된) 촉매적으로 비활성 CjCas9 (CjdCas9)의 접근성 및 결합을 증가시키는 지를 결정하기 위한 실험의 설계를 도해한다.
도면 3b는 POR 및 AAVS1 좌위에서 표적 부위에 에피토프-태깅된 CjdCas9의 결합을 검출하는데 이용되는 염색질 면역침전 결합 검정의 다이어그램을 제공한다.
도면 3c는 근위 부위에 SpdCas9의 결합이 POR 좌위에서 이전에 접근불가능했던 부위에 에피토프-태깅된 CjCas9의 결합을 증가시킨다는 것을 도해한다.
도면 4는 근위 부위(들)에 촉매적으로 비활성 SpCas9 (SpdCas9)의 결합이 CjCas9에 의한 개열의 효율을 증가시킨다는 것을 도해한다. 위쪽에서 제시된 서열은 POR 좌위 내에 CjCas9 표적 부위 및 SpdCas9의 결합 부위의 상대적 위치를 보여준다. Cel-I 뉴클레아제 검정의 결과는 아래쪽에서 도시된다.
도면 5는 근위 부위(들)에 촉매적으로 비활성 SpCas9 (SpdCas9)의 결합이 FnCpf1에 의한 개열의 효율을 증가시킨다는 것을 도해한다. POR 좌위 내에 FnCpf1 표적 부위 및 SpdCas9 결합 부위의 상대적 위치는 위쪽에서 도해되고, 그리고 Cel-I 뉴클레아제 검정의 결과는 아래쪽에서 도시된다.
도면 6은 근위 부위(들)에 촉매적으로 비활성 SpCas9 (SpdCas9)의 결합이 CjCas9에 의한 특정한 개열을 증가시킨다는 것을 도해한다. HBD 및 HBB 좌위 내에 CjCas9의 표적 부위뿐만 아니라 HBB 좌위 내에 SpdCas9의 결합 부위는 위쪽에서 도시된다. Cel-I 뉴클레아제 검정의 결과는 아래쪽에서 도시된다.
도면 7은 근위 부위(들)에 촉매적으로 비활성 FnCas9 (FndCas9)의 결합이 SpCas9에 의한 특정한 개열을 증가시킨다는 것을 도해한다. POR 좌위 내에 SpCas9 표적 부위 및 FndCas9 결합 부위의 상대적 위치는 위쪽에서 표시된다. Cel-I 뉴클레아제 검정의 결과는 아래쪽에서 도시된다.
도면 8은 ssDNA 올리고-매개된 유전자 편집의 증강을 도해한다. POR 좌위 내에 표적 부위 및 ssDNA 올리고의 서열의 상대적 위치는 위쪽에서 도시된다. EcoRI 부위 표적화된 통합의 결과는 아래쪽에서 도시된다. EcoRI 부위 통합 효율 (%)은 ImageJ에 의해 결정되었다. M: 넓은-범위 DNA 마커. ND: 결정되지 않음.

상세한 설명

본 발명은 표적화 엔도뉴클레아제 및 다른 프로그램가능 DNA 변형 단백질에 대한 염색체 DNA의 접근성을 증가시키기 위한 조성물 및 방법을 제공하는데, 여기서 증가된 접근성은 표적화된 유전체 변형 또는 후성 변형의 증가된 효율 및/또는 특이성을 야기한다. 일부 CRISPR/Cas 엔도뉴클레아제는 인간 세포에서 감소된 활성을 갖거나 또는 활성이 없는 것으로 밝혀졌다. 뉴클레오솜 점유, 위치설정, 그리고 DNA 서열이 히스톤 옥타머 주변에서 어떻게 싸여지는 지가 상기 서열이 DNA 결합 단백질에 어떻게 접근가능한 지를 결정할 가능성 있다 (Chereji et al., Briefing Functional Genomics, 2014, 14:506-60). 따라서, 국부 염색질 형상에 의해 부과된 방해가 인간 세포에서 많은 CRISPR/Cas 엔도뉴클레아제의 명백한 무활동에서 일정한 역할을 수행할 가능성이 있다. 본원에서 상술된 바와 같이, 표적화 DNA 변형 단백질의 표적 부위의 근위에 (다시 말하면, 약 250개 염기쌍 이내에) 위치된 부위에 DNA 결합 단백질의 결합은 표적 부위에 대한 표적화 DNA 변형 단백질의 접근성을 증가시키고, 따라서 표적화된 유전체 변형 또는 표적화된 후성 변형의 효율 및/또는 특이성을 증가시키는 것으로 밝혀졌다. 본원에서 개시된 조성물 및 방법은 이런 이유로, 인간 세포에서 비활성인 것으로 이전에 생각되었던 CRISPR/Cas 엔도뉴클레아제를 이용한 효율적인 표적화된 유전체 변형/후성 변형을 할 수 있게 한다. 게다가, 본원에서 개시된 조성물 및 방법은 또한, 거의 동일한 표적 부위 사이에서 선택적 유전체 변형을 향상시키고, 따라서 부정확한 효과를 감소시킨다.

(l) 조성물

본 발명의 한 가지 양상은 (a) 프로그램가능 DNA 변형 단백질 또는 상기 프로그램가능 DNA 변형 단백질을 인코딩하는 핵산 및 (b) 최소한 하나의 프로그램가능 DNA 결합 단백질 또는 상기 최소한 하나의 프로그램가능 DNA 결합 단백질을 인코딩하는 핵산을 포함하는 조성물을 제공한다. 프로그램가능 DNA 변형 단백질은 아래의 섹션 (I)(a)에서 상술되고, 프로그램가능 DNA 결합 단백질은 아래의 섹션 (I)(b)에서 상술되고, 그리고 이들 단백질을 인코딩하는 핵산은 아래의 섹션 (I)(c)에서 상술된다.

(a) 프로그램가능 DNA 변형 단백질

프로그램가능 DNA 변형 단백질은 염색체 DNA 내에 특정한 표적 서열에 결합하고, 그리고 표적 서열에서 또는 표적 서열 인근에서 상기 DNA 또는 상기 DNA와 연관된 단백질을 변형하는 단백질이다. 따라서, 프로그램가능 DNA 변형 단백질은 DNA 결합 도메인 및 촉매적으로 활성 변형 도메인을 포함한다.

DNA 결합 도메인은 이것이 상이한 DNA 서열을 인식하고 이들에 결합하도록 설계되거나 또는 가공될 수 있다는 점에서 프로그램가능하다. 일부 구체예에서, 예로서, DNA 결합은 단백질 및 표적 DNA 사이의 상호작용에 의해 매개된다. 따라서, DNA 결합 도메인은 단백질 가공에 의해 관심되는 DNA 서열에 결합하도록 프로그램될 수 있다. 다른 구체예에서, 예로서, DNA 결합은 단백질의 프로그램가능 DNA 결합 도메인 및 표적 DNA와 상호작용하는 안내 RNA에 의해 매개된다. 이런 경우에, 프로그램가능 DNA 결합 도메인은 적절한 안내 RNA를 설계함으로써 관심되는 DNA 서열에 표적화될 수 있다.

다양한 변형 도메인이 프로그램가능 DNA 변형 단백질 내에 포함될 수 있다. 일부 구체예에서, 변형 도메인은 뉴클레아제 도메인인데, 이것은 뉴클레아제 활성을 갖고, 그리고 이중 가닥 DNA 서열의 양쪽 가닥을 개열한다 (다시 말하면, 이중 가닥 절단을 산출한다). 이중 가닥 절단은 이후, 세포 DNA 수복 과정, 예를 들면, 비상동성 말단 연결 (NHEJ) 또는 상동성-지향된 수복 (HDR)에 의해 수복될 수 있다. 결과로서, DNA 서열은 예로서, 수천 개의 염기쌍까지 최소한 하나의 염기쌍의 결실, 삽입 및/또는 치환에 의해 변형될 수 있다. 뉴클레아제 도메인을 포함하는 프로그램가능 DNA 변형 단백질의 실례는 제한 없이, CRISPR/Cas 뉴클레아제 시스템, CRISPR/Cas 이중 틈내기효소 시스템, 아연 핑거 뉴클레아제, 전사 활성인자-유사 작동체 뉴클레아제, 메가뉴클레아제, 프로그램가능 DNA 결합 도메인에 연결된 뉴클레아제 도메인을 포함하는 융합 단백질, 그리고 이들의 조합을 포함한다. 뉴클레아제 도메인을 포함하는 프로그램가능 DNA 변형 단백질은 아래의 섹션 (I)(a)(i)-(vi)에서 상술된다.

다른 구체예에서, 프로그램가능 DNA 변형 단백질의 변형 도메인은 프로그램가능 DNA 변형 단백질이 DNA 및/또는 상기 DNA와 연관된 단백질(들)의 구조 및/또는 활성을 변형하도록, 비-뉴클레아제 활성 (가령, 후성 변형 활성 또는 전사 조절 활성)을 갖는다. 따라서, 프로그램가능 DNA 변형 단백질은 프로그램가능 DNA 결합 도메인에 연결된 비-뉴클레아제 변형 도메인을 포함하는 융합 단백질이다. 이런 단백질은 아래의 섹션 (I)(a)(vii)에서 상술된다.

프로그램가능 DNA 변형 단백질은 야생형 또는 자연발생 DNA 결합 및/또는 변형 도메인, 자연발생 DNA 결합 및/또는 변형 도메인의 변형된 버전, 합성 또는 인공 DNA 결합 및/또는 변형 도메인, 그리고 이들의 조합을 포함할 수 있다.

(i) CRISPR/Cas 뉴클레아제 시스템

일부 구체예에서, 프로그램가능 DNA 변형 단백질은 RNA-안내된 CRISPR/Cas 뉴클레아제 시스템일 수 있는데, 이것은 DNA 내에 이중 가닥 절단을 도입한다. CRISPR/Cas 뉴클레아제 시스템은 CRISPR/Cas 뉴클레아제 및 안내 RNA를 포함한다.

CRISPR/Cas 뉴클레아제 . 일정한 구체예에서, CRISPR/Cas 뉴클레아제는 다양한 세균 및 고세균류 내에 존재하는 I형 (다시 말하면, IA, IB, IC, ID, IE 또는 IF), II형 (다시 말하면, IIA, IIB 또는 IIC), III형 (다시 말하면, IIIA 또는 IIIB), 또는 V형 CRISPR 시스템으로부터 유래될 수 있다. 가령, CRISPR/Cas 시스템은 스트렙토코쿠스 (Streptococcus) 종 (가령, 스트렙토코쿠스 피오게네스 (Streptococcus pyogenes)), 캄필로박터 (Campylobacter) 종 (가령, 캄필로박터 제주니 (Campylobacter jejuni)), 프란시셀라 (Francisella) 종 (가령, 프란시셀라 노비시다 (Francisella novicida)), 아카리오클로리스 (Acaryochloris) 종, 아세토할로비움 (Acetohalobium) 종, 아시다미노코쿠스 (Acidaminococcus) 종, 아시디티오바실루스 (Acidithiobacillus) 종, 알리시클로바실루스 (Alicyclobacillus) 종, 알로크로마티움 (Allochromatium) 종, 암모니펙스 (Ammonifex) 종, 아나바에나 (Anabaena) 종, 아르트로스피라 (Arthrospira) 종, 바실루스 (Bacillus) 종, 부르크홀데리알레스 (Burkholderiales) 종, 칼디셀룰로시럽토 (Caldicelulosiruptor) 종, 칸디다투스 (Candidatus) 종, 클로스트리디움 (Clostridium) 종, 크로코스파에라 (Crocosphaera) 종, 시아노테세 (Cyanothece) 종, 엑시구오박테리움 (Exiguobacterium) 종, 피네골디아 (Finegoldia) 종, 크테도노박터 (Ktedonobacter) 종, 라크노스피라세애 (Lachnospiraceae) 종, 락토바실루스 (Lactobacillus) 종, 린그비아 (Lyngbya) 종, 마리노박터 (Marinobacter) 종, 메타노할로비움 (Methanohalobium) 종, 마이크로스킬라 (Microscilla) 종, 마이크로콜레우스 (Microcoleus) 종, 마이크로시스티스 (Microcystis) 종, 나트라나에로비우스 (Natranaerobius) 종, 나이세리아 (Neisseria) 종, 니트로소코쿠스 (Nitrosococcus) 종, 노카르디옵시스 (Nocardiopsis) 종, 노둘라리아 (Nodularia) 종, 노스톡 (Nostoc) 종, 오실라토리아 (Oscillatoria) 종, 폴라로모나스 (Polaromonas) 종, 펠로토마쿨룸 (Pelotomaculum) 종, 슈도알테로모나스 (Pseudoalteromonas) 종, 페트로토가 (Petrotoga) 종, 프레보텔라 (Prevotella) 종, 스타필로코쿠스 (Staphylococcus) 종, 스트렙토미세스 (Streptomyces) 종, 스트렙토스포란기움 (Streptosporangium) 종, 시네코코쿠스 (Synechococcus) 종, 써모시포 (Thermosipho) 종, 또는 우미균류 (Verrucomicrobia) 종으로부터 유래될 수 있다. 또 다른 구체예에서, CRISPR/Cas 뉴클레아제는 고세균류 CRISPR 시스템, CRISPR-CasX 시스템, 또는 CRISPR-CasY 시스템으로부터 유래될 수 있다 (Burstein et al., Nature, 2017, 542(7640):237-241).

특정한 구체예에서, CRISPR/Cas 뉴클레아제는 I형 CRISPR/Cas 시스템으로부터 유래될 수 있다. 다른 특정한 구체예에서, CRISPR/Cas 뉴클레아제는 II형 CRISPR/Cas 시스템으로부터 유래될 수 있다. 다른 특정한 구체예에서, CRISPR/Cas 뉴클레아제는 III형 CRISPR/Cas 시스템으로부터 유래될 수 있다. 다른 특정한 구체예에서, CRISPR/Cas 뉴클레아제는 V형 CRISPR/Cas 시스템으로부터 유래될 수 있다.

적합한 CRISPR 단백질의 무제한적 실례는 Cas 단백질, Cpf 단백질, C2c 단백질 (가령, C2c1, C2c2, Cdc3), Cmr 단백질, Csa 단백질, Csb 단백질, Csc 단백질, Cse 단백질, Csf 단백질, Csm 단백질, Csn 단백질, Csx 단백질, Csy 단백질, Csz 단백질, 그리고 이들의 유도체 또는 변이체를 포함한다. 특정한 구체예에서, CRISPR/Cas 뉴클레아제는 II형 Cas9 단백질, V형 Cpf1 단백질, 또는 이들의 유도체일 수 있다.

일부 구체예에서, CRISPR/Cas 뉴클레아제는 스트렙토코쿠스 피오게네스 (Streptococcus pyogenes) Cas9 (SpCas9) 또는 스트렙토코쿠스 써모필루스 (Streptococcus thermophilus) Cas9 (StCas9)일 수 있다. 다른 구체예에서, CRISPR/Cas 뉴클레아제는 캄필로박터 제주니 (Campylobacter jejuni) Cas9 (CjCas9)일 수 있다. 대안적 구체예에서, CRISPR/Cas 뉴클레아제는 프란시셀라 노비시다 (Francisella novicida) Cas9 (FnCas9)일 수 있다. 또 다른 구체예에서, CRISPR/Cas 뉴클레아제는 나이세리아 시네레아 (Neisseria cinerea) Cas9 (NcCas9)일 수 있다. 추가 구체예에서, CRISPR/Cas 뉴클레아제는 프란시셀라 노비시다 (Francisella novicida) Cpf1 (FnCpf1), 아시다미노코쿠스 (Acidaminococcus) 종 Cpf1 (AsCpf1), 또는 라크노스피라세애 (Lachnospiraceae) 세균 ND2006 Cpf1 (LbCpf1)일 수 있다.

일반적으로, CRISPR/Cas 뉴클레아제는 RNA 인식 및/또는 RNA 결합 도메인을 포함하는데, 이것은 안내 RNA와 상호작용한다. CRISPR/Cas 뉴클레아제는 또한, 엔도뉴클레아제 활성을 갖는 최소한 하나의 뉴클레아제 도메인을 포함한다. 가령, Cas9 단백질은 RuvC-유사 뉴클레아제 도메인 및 HNH-유사 뉴클레아제 도메인을 포함하고, 그리고 Cpf1 단백질은 RuvC-유사 도메인을 포함한다. CRISPR/Cas 뉴클레아제는 또한, DNA 결합 도메인, 헬리카아제 도메인, RNA분해효소 도메인, 단백질-단백질 상호작용 도메인, 이합체화 도메인뿐만 아니라 다른 도메인을 포함할 수 있다.

CRISPR/Cas 뉴클레아제는 최소한 하나의 핵 국부화 신호, 세포-투과성 도메인 및/또는 마커 도메인을 더욱 포함할 수 있다. 핵 국부화 신호의 무제한적 실례는 PKKKRKV (서열 번호:1), PKKKRRV (서열 번호:2), KRPAATKKAGQAKKKK (서열 번호:3), YGRKKRRQRRR (서열 번호:28), RKKRRQRRR (서열 번호:29), PAAKRVKLD (서열 번호:30), RQRRNELKRSP (서열 번호:31), VSRKRPRP (서열 번호:32), PPKKARED (서열 번호:33), PQPKKKPL (서열 번호:34), SALIKKKKKMAP (서열 번호:35), PKQKKRK (서열 번호:36), RKLKKKIKKL (서열 번호:37), REKKKFLKRR (서열 번호:38), KRKGDEVDGVDEVAKKKSKK (서열 번호:39), RKCLQAGMNLEARKTKK (서열 번호:40), NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY (서열 번호:41) 및 RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV (서열 번호:42)를 포함한다. 적합한 세포-투과성 도메인의 실례는 제한 없이, GRKKRRQRRRPPQPKKKRKV (서열 번호:4), PLSSIFSRIGDPPKKKRKV (서열 번호:5), GALFLGWLGAAGSTMGAPKKKRKV (서열 번호:6), GALFLGFLGAAGSTMGAWSQPKKKRKV (서열 번호: 7), KETWWETWWTEWSQPKKKRKV (서열 번호: 8), YARAAARQARA (서열 번호:43), THRLPRRRRRR (서열 번호:44), GGRRARRRRRR (서열 번호:45), RRQRRTSKLMKR (서열 번호:46), GWTLNSAGYLLGKINLKALAALAKKIL (서열 번호:47), KALAWEAKLAKALAKALAKHLAKALAKALKCEA (서열 번호:48) 및 RQIKIWFQNRRMKWKK (서열 번호:49)를 포함한다. 마커 도메인은 형광 단백질 및 정제 또는 에피토프 태그를 포함한다. 적합한 형광 단백질은 제한 없이, 녹색 형광 단백질 (가령, GFP, eGFP, GFP-2, tagGFP, turboGFP, Emerald, Azami Green, 단위체성 Azami Green, CopGFP, AceGFP, ZsGreen1), 황색 형광 단백질 (가령, YFP, EYFP, Citrine, Venus, YPet, PhiYFP, ZsYellow1), 청색 형광 단백질 (가령, BFP, EBFP, EBFP2, Azurite, mKalama1, GFPuv, Sapphire, T-sapphire), 시안색 형광 단백질 (가령, ECFP, Cerulean, CyPet, AmCyan1, Midoriishi-Cyan), 적색 형광 단백질 (가령, mKate, mKate2, mPlum, DsRed 단위체, mCherry, mRFP1, DsRed-Express, DsRed2, DsRed-단위체, HcRed-탠덤, HcRed1, AsRed2, eqFP611, mRasberry, mStrawberry, Jred), 그리고 오렌지색 형광 단백질 (가령, mOrange, mKO, Kusabira-Orange, 단위체성 Kusabira-Orange, mTangerine, tdTomato)을 포함한다. 적합한 정제 또는 에피토프 태그의 무제한적 실례는 6xHis, FLAG^®, HA, GST, Myc 등을 포함한다.

핵 국부화 신호, 세포-투과성 도메인 및/또는 마커 도메인은 단백질의 N 말단에서, C 말단에서, 또는 내부 위치에서 위치될 수 있다. 일부 구체예에서, CRISPR/Cas 뉴클레아제는 최소한 하나의 검출가능한 표지를 더욱 포함할 수 있다. 검출가능한 표지는 형광단 (가령, FAM, TMR, Cy3, Cy5, 텍사스 레드, 오레건 그린, Alexa Fluors, 할로 태그, 또는 적합한 형광 태그/염료), 발색단 (가령, 비오틴, 다이곡시제닌 등), 양자점, 또는 금 입자일 수 있다. 검출가능한 표지는 전통적인 수단을 통해 단백질의 임의의 아미노산에 부착될 수 있다.

안내 RNA . CRISPR/Cas 뉴클레아제 시스템은 또한, 안내 RNA (gRNA)를 포함한다. 안내 RNA는 CRISPR/Cas 뉴클레아제 및 표적 부위와 상호작용하여 상기 CRISPR/Cas 뉴클레아제를 염색체 서열 내에 표적 부위로 안내한다. 표적 부위는 상기 서열이 프로토스페이서 인접 모티프 (PAM)와 접한다는 점을 제외하고, 서열 제한이 없다. 가령, Cas9 단백질에 대한 PAM 서열은 3'-NGG, 3'-NGGNG, 3'-NNAGAAW 및 3'-ACAY를 포함하고, 그리고 Cpf1에 대한 PAM 서열은 5'-TTN (여기서 N은 임의의 뉴클레오티드로서 규정되고, W는 A 또는 T로서 규정되고, 그리고 Y는 C 또는 T로서 규정된다)을 포함한다.

각 안내 RNA는 3가지 영역을 포함할 수 있다: 염색체 DNA 서열 내에 표적 부위에 상보성을 갖는 5' 단부에서 첫 번째 영역, 내부에 있고 스템 루프 구조를 형성하는 두 번째 영역, 그리고 본질적으로 단일 가닥 상태로 남아있는 3' 단부에서 세 번째 영역. 두 번째와 세 번째 영역은 CRISPR/Cas 단백질과 상호작용하는 이차 구조를 형성한다. 각 안내 RNA의 첫 번째 영역은 상이하다 (다시 말하면, 서열 특이적이다). 두 번째와 세 번째 영역은 특정 CRISPR/Cas 단백질과 복합체를 형성하는 안내 RNA에서 동일할 수 있다.

안내 RNA의 첫 번째 영역은 안내 RNA의 첫 번째 영역이 표적 서열과 염기쌍을 이룰 수 있도록, 표적 부위에서 서열 (다시 말하면, 프로토스페이서 서열)에 상보성을 갖는다. 가령, SpCas9 안내 RNA의 첫 번째 영역은 GN₁₇-₂₀GG를 포함할 수 있다. 일반적으로, 안내 RNA의 첫 번째 영역 (다시 말하면, crRNA) 및 표적 서열 사이에 상보성은 최소한 80%, 최소한 85%, 최소한 90%, 최소한 95%, 또는 그 이상이다. 다양한 구체예에서, 안내 RNA의 첫 번째 영역은 약 10개 뉴클레오티드 내지 약 25개 뉴클레오티드 이상을 포함할 수 있다. 가령, 안내 RNA의 첫 번째 영역 및 cDNA 서열 내에 표적 부위 사이에 염기 대합의 영역은 길이에서 약 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 22, 23, 24, 25, 또는 25개보다 많은 뉴클레오티드일 수 있다. 한 예시적인 구체예에서, 안내 RNA의 첫 번째 영역은 길이에서 약 19, 20 또는 21개 뉴클레오티드이다.

안내 RNA는 또한, 이차 구조를 형성하는 두 번째 영역을 포함한다. 일부 구체예에서, 이차 구조는 최소한 하나의 스템 (또는 헤어핀) 및 루프를 포함한다. 각 루프 및 스템의 길이는 변할 수 있다. 가령, 루프는 길이에서 약 3 내지 약 10개 뉴클레오티드의 범위에서 변할 수 있고, 그리고 스템은 길이에서 약 6 내지 약 20개 염기쌍의 범위에서 변할 수 있다. 스템은 1 내지 약 10개 뉴클레오티드의 하나 또는 그 이상의 돌출을 포함할 수 있다. 따라서, 두 번째 영역의 전체 길이는 길이에서 약 16 내지 약 60개 뉴클레오티드의 범위에서 변할 수 있다. 안내 RNA는 또한, 본질적으로 단일 가닥 상태로 남아있는 3' 단부에서 세 번째 영역을 포함한다. 따라서, 세 번째 영역은 관심되는 세포에서 임의의 핵산 서열에 상보성을 갖지 않고, 그리고 안내 RNA의 나머지 부분에 상보성을 갖지 않는다. 세 번째 영역의 길이는 변할 수 있다. 일반적으로, 세 번째 영역은 길이에서 약 4개 뉴클레오티드 이상이다. 가령, 세 번째 영역의 길이는 길이에서 약 5 내지 약 60개 뉴클레오티드의 범위에서 변할 수 있다.

안내 RNA의 두 번째와 세 번째 영역 (보편적인 또는 골격 영역으로 또한 불림)의 조합된 길이는 길이에서 약 30 내지 약 120개 뉴클레오티드의 범위에서 변할 수 있다. 한 양상에서, 안내 RNA의 두 번째와 세 번째 영역의 조합된 길이는 길이에서 약 70 내지 약 100개 뉴클레오티드의 범위에서 변한다.

또 다른 구체예에서, 안내 RNA의 두 번째와 세 번째 영역은 하나 또는 그 이상의 추가 스템 루프 영역을 포함할 수 있는데, 여기서 스템 루프 영역은 앱타머 서열을 포함한다 (Konermann et al., Nature3, 2015, 517(7536):583-588; Zalatan et al., Cell, 2015, 160(1-2):339-50). 적합한 앱타머 서열은 MS2, PP7, COM, Qβ, F2, GA, fr, JP501, M12, R17, BZ13, JP34, JP500, KU1, M11, MX1, TW18, VK, SP, FI, ID2, NL95, TW19, AP205, ΦCb5, ΦCb8r, ΦCb12r, ΦCb23r, 7s, PRR1, HSF1, AID, APOBEC1, p300, TET1/2/3, VP64, GFP, Rta, p65, MyoD1, 또는 VP160에서 선택되는 어댑터 단백질에 결합하는 것들을 포함한다. 이런 구체예에서, 안내 RNA의 두 번째와 세 번째 영역의 전체 길이는 약 125개 뉴클레오티드까지, 약 150개 뉴클레오티드까지, 약 175개 뉴클레오티드까지, 약 200개 뉴클레오티드까지, 약 225개 뉴클레오티드까지, 약 250개 뉴클레오티드까지, 약 275개 뉴클레오티드까지, 또는 약 300개 뉴클레오티드까지의 범위에서 변할 수 있다.

일부 구체예에서, 안내 RNA는 3가지 영역 모두를 포함하는 단일 분자일 수 있다. 다른 구체예에서, 안내 RNA는 2개의 별개 분자를 포함할 수 있다. 첫 번째 RNA 분자 (다시 말하면, crRNA)는 안내 RNA의 첫 번째 영역 및 안내 RNA의 두 번째 영역의 "스템"의 절반을 포함할 수 있다. 두 번째 RNA 분자 (다시 말하면, tracrRNA)는 안내 RNA의 두 번째 영역의 "스템"의 다른 절반 및 안내 RNA의 세 번째 영역을 포함할 수 있다. 따라서, 이러한 구체예에서, 첫 번째와 두 번째 RNA 분자는 각각, 서로에 상보적인 뉴클레오티드의 서열을 내포한다. 가령, 한 구체예에서, crRNA 및 tracrRNA RNA 분자는 각각, 다른 서열과 염기쌍을 이루어 기능적 안내 RNA를 형성하는 서열 (약 6 내지 약 20개 뉴클레오티드의)을 포함한다. 가령, II형 CRISPR/Cas 시스템의 안내 RNA는 crRNA 및 tracrRNA를 포함할 수 있다. 일부 양상에서, II형 CRISPR/Cas 시스템을 위한 crRNA는 화학적으로 합성될 수 있고, 그리고 tracrRNA II형 CRISPR/Cas 시스템은 시험관내에서 합성될 수 있다 (아래의 섹션 (I)(c)를 참조한다). 다른 구체예에서, V형 CRISPR/Cas 시스템의 안내 RNA는 단지 crRNA만을 포함할 수 있다.

안내 RNA는 표준 리보뉴클레오티드, 변형된 리보뉴클레오티드 (가령, 슈도우리딘), 리보뉴클레오티드 이성질체 및/또는 리보뉴클레오티드 유사체를 포함할 수 있다. 일부 구체예에서, 안내 RNA는 최소한 하나의 검출가능한 표지를 더욱 포함할 수 있다. 검출가능한 표지는 형광단 (가령, FAM, TMR, Cy3, Cy5, 텍사스 레드, 오레건 그린, Alexa Fluors, 할로 태그, 또는 적합한 형광 염료), 발색단 (가령, 비오틴, 다이곡시제닌 등), 양자점, 또는 금 입자 일 수 있다. 당업자는 gRNA 설계 및 구성에 익숙하다, 예를 들면, gRNA 설계 도구는 인터넷에서 또는 상업적인 공급원으로부터 가용하다.

안내 RNA는 화학적으로 합성되거나, 효소적으로 합성되거나, 또는 이들의 조합일 수 있다. 가령, 안내 RNA는 표준 포스포라미디트-기초된 고체상 합성 방법을 이용하여 합성될 수 있다. 대안으로, 안내 RNA는 안내 RNA를 인코딩하는 DNA를 파지 RNA 중합효소에 의해 인식되는 프로모터 제어 서열에 작동가능하게 연결함으로써 시험관내에서 합성될 수 있다. 적합한 파지 프로모터 서열의 실례는 T7, T3, SP6 프로모터 서열, 또는 이들의 변이를 포함한다. 안내 RNA가 2개의 별개 분자 (다시 말하면, crRNA 및 tracrRNA)를 포함하는 구체예에서, crRNA는 화학적으로 합성될 수 있고, 그리고 tracrRNA는 효소적으로 합성될 수 있다. 안내 RNA를 인코딩하는 핵산은 플라스미드 벡터의 부분일 수 있는데, 상기 벡터는 추가 발현 제어 서열 (가령, 인핸서 서열, 코자크 서열, 폴리아데닐화 서열, 전사 종결 서열 등), 선별가능 마커 서열 (가령, 항생제 내성 유전자), 복제 기점, 기타 등등을 더욱 포함할 수 있다. 아래의 섹션 (I)(c)에서 상술된 바와 같이, 안내 RNA를 인코딩하는 핵산은 진핵 세포에서 발현을 위해 RNA 중합효소 III (Pol III)에 의해 인식되는 프로모터 제어 서열에 작동가능하게 연결될 수 있다.

(ii) CRISPR/Cas 이중 틈내기효소 시스템

다른 구체예에서, 프로그램가능 DNA 변형 단백질은 CRISPR/Cas 이중 틈내기효소 시스템일 수 있다. CRISPR/Cas 이중 틈내기효소 시스템은 CRISPR/Cas 뉴클레아제가 DNA의 단지 하나의 가닥만을 개열하도록 변형된다는 점을 제외하고, 상기 섹션 (I)(a)(i)에서 설명된 CRISPR/Cas 뉴클레아제 시스템과 유사하다. 따라서, 단일 CRISPR/Cas 틈내기효소 시스템은 이중 가닥 DNA 내에 단일 가닥 절단 또는 틈을 창출하고, 그리고 대합된 오프셋 안내 RNA를 포함하는 대합된 CRISPR/Cas 이중 틈내기효소 시스템은 상기 DNA 내에 이중 가닥 절단을 창출한다.

CRISPR/Cas 뉴클레아제는 하나 또는 그 이상의 돌연변이 및/또는 결실에 의해 틈내기효소로 전환될 수 있다. 가령, Cas9 틈내기효소는 뉴클레아제 도메인 (가령, RuvC-유사 도메인 또는 HNH-유사 도메인) 중에서 한 가지에서 하나 또는 그 이상의 돌연변이를 포함할 수 있다. 가령, 하나 또는 그 이상의 돌연변이는 RuvC-유사 도메인에서 D10A, D8A, E762A 및/또는 D986A일 수 있고, 또는 하나 또는 그 이상의 돌연변이는 HNH-유사 도메인에서 H840A, H559A, N854A, N856A 및/또는 N863A일 수 있다.

(iii) 아연 핑거 뉴클레아제

또 다른 구체예에서, 프로그램가능 DNA 변형 단백질은 아연 핑거 뉴클레아제 (ZFN)일 수 있다. ZFN은 DNA 결합 아연 핑거 영역 및 뉴클레아제 도메인을 포함한다. 아연 핑거 영역은 약 2개 내지 7개 아연 핑거, 예를 들면, 약 4개 내지 6개 아연 핑거를 포함할 수 있는데, 여기서 각 아연 핑거는 3개의 뉴클레오티드에 결합한다. 아연 핑거 영역은 임의의 DNA 서열을 인식하고 이것에 결합하도록 가공될 수 있다. 아연 핑거 설계 도구 또는 알고리즘은 인터넷에서 또는 상업적인 공급원으로부터 가용하다. 아연 핑거는 적합한 링커 서열을 이용하여 함께 연결될 수 있다.

ZFN은 또한, 뉴클레아제 도메인을 포함하는데, 이것은 임의의 엔도뉴클레아제 또는 엑소뉴클레아제로부터 획득될 수 있다. 뉴클레아제 도메인이 유래될 수 있는 엔도뉴클레아제의 무제한적 실례는 제한 엔도뉴클레아제 및 귀소 엔도뉴클레아제를 포함하지만 이들에 한정되지 않는다. 일부 구체예에서, 뉴클레아제 도메인은 II형-S 제한 엔도뉴클레아제로부터 유래될 수 있다. II형-S 엔도뉴클레아제는 전형적으로, 인식/결합 부위로부터 여러 염기쌍 떨어져 있고, 그리고 그와 같이, 분리가능한 결합 및 개열 도메인을 갖는 부위에서 DNA를 개열한다. 이들 효소는 일반적으로, 엇갈린 위치에서 DNA의 각 가닥을 개열하기 위해, 일시적으로 연관하여 이합체를 형성하는 단위체이다. 적합한 II형-S 엔도뉴클레아제의 무제한적 실례는 BfiI, BpmI, BsaI, BsgI, BsmBI, BsmI, BspMI, FokI, MboII 및 SapI을 포함한다. 일부 구체예에서, 뉴클레아제 도메인은 FokI 뉴클레아제 도메인 또는 이의 유도체일 수 있다. II형-S 뉴클레아제 도메인은 2개의 상이한 뉴클레아제 도메인의 이합체화를 용이하게 하도록 변형될 수 있다. 가령, FokI의 개열 도메인은 일정한 아미노산 잔기를 돌연변이시킴으로써 변형될 수 있다. 무제한적 실례로서, FokI 뉴클레아제 도메인의 위치 446, 447, 479, 483, 484, 486, 487, 490, 491, 496, 498, 499, 500, 531, 534, 537 및 538에서 아미노산 잔기가 변형을 위한 표적이다. 가령, 하나의 변형된 FokI 도메인은 Q486E, I499L 및/또는 N496D 돌연변이를 포함할 수 있고, 그리고 다른 변형된 FokI 도메인은 E490K, I538K 및/또는 H537R 돌연변이를 포함할 수 있다.

ZFN은 최소한 하나의 핵 국부화 신호, 세포-투과성 도메인 및/또는 마커 도메인을 더욱 포함할 수 있는데, 이들은 섹션 (I)(a)(i)에서 전술된다.

(iv) 전사 활성인자-유사 작동체 뉴클레아제

대안적 구체예에서, 프로그램가능 DNA 변형 단백질은 전사 활성인자-유사 작동체 뉴클레아제 (TALEN)일 수 있다. TALEN은 뉴클레아제 도메인에 연결되는 전사 활성인자-유사 작동체 (TALE)로부터 유래되는 고도로 보존된 반복으로 구성된 DNA 결합 도메인을 포함한다. TALE는 숙주 식물 세포에서 유전자의 전사를 변경하기 위해 식물 병원체 잔토모나스 (Xanthomonas)에 의해 분비되는 단백질이다. TALE 반복 어레이는 관심되는 임의의 DNA 서열을 표적으로 하기 위한 모듈식 단백질 설계를 통해 가공될 수 있다. TALEN의 뉴클레아제 도메인은 상기 섹션 (I)(a)(iii)에서 설명된 바와 같은 임의의 뉴클레아제 도메인일 수 있다. 특정한 구체예에서, 뉴클레아제 도메인은 FokI로부터 유래된다 (Sanjana et al., 2012, Nat Protoc, 7(1):171-192).

TALEN은 또한, 최소한 하나의 핵 국부화 신호, 세포-투과성 도메인, 마커 도메인 및/또는 검출가능한 표지를 포함할 수 있는데, 이들은 섹션 (I)(a)(i)에서 전술된다.

(v) 메가뉴클레아제 또는 희귀-절단 엔도뉴클레아제

또 다른 구체예에서, 프로그램가능 DNA 변형 단백질은 메가뉴클레아제 또는 이의 유도체일 수 있다. 메가뉴클레아제는 긴 인식 서열에 의해 특징되는 엔도데옥시리보뉴클레아제이다, 다시 말하면, 상기 인식 서열은 일반적으로, 약 12개 염기쌍 내지 약 45개 염기쌍의 범위에서 변한다. 이러한 요건의 결과로서, 상기 인식 서열은 일반적으로, 소정의 유전체에서 단지 한 번만 발생한다. 메가뉴클레아제 중에서, LAGLIDADG로 명명된 귀소 엔도뉴클레아제의 패밀리가 유전체 및 유전체 가공의 연구를 위한 귀중한 도구가 되었다. 일부 구체예에서, 메가뉴클레아제는 I-SceI, I-TevI, 또는 이들의 변이체일 수 있다. 메가뉴클레아제는 당업자에게 널리 공지된 기술을 이용하여 인식 서열을 변형함으로써, 특정한 염색체 서열에 표적화될 수 있다.

대안적 구체예에서, 프로그램가능 DNA 변형 단백질은 희귀-절단 엔도뉴클레아제 또는 이의 유도체일 수 있다. 희귀-절단 엔도뉴클레아제는 인식 서열이 유전체 내에서 드물게, 바람직하게는 유전체 내에서 단지 한 번만 발생하는 부위 특이적 엔도뉴클레아제이다. 희귀-절단 엔도뉴클레아제는 7-뉴클레오티드 서열, 8-뉴클레오티드 서열, 또는 더욱 긴 인식 서열을 인식할 수 있다. 희귀-절단 엔도뉴클레아제의 무제한적 실례는 NotI, AscI, PacI, AsiSI, SbfI 및 FseI을 포함한다.

메가뉴클레아제 또는 희귀-절단 엔도뉴클레아제는 또한, 최소한 하나의 핵 국부화 신호, 세포-투과성 도메인, 마커 도메인 및/또는 검출가능한 표지를 포함할 수 있는데, 이들은 섹션 (I)(a)(i)에서 전술된다.

(vi) 뉴클레아제 도메인을 포함하는 프로그램가능 융합 단백질

다른 추가 구체예에서, 프로그램가능 DNA 변형 단백질은 (이중 가닥 개열) 뉴클레아제 도메인에 연결된 프로그램가능 DNA 결합 도메인을 포함하는 융합 단백질일 수 있다. 융합 단백질의 뉴클레아제 도메인은 상기 섹션 (I)(a)(iii)에서 설명된 것들, CRISPR/Cas 뉴클레아제로부터 유래된 뉴클레아제 도메인 (가령, Cas9의 RuvC-유사 또는 HNH-유사 뉴클레아제 도메인, 또는 Cpf1의 뉴클레아제 도메인), 또는 메가뉴클레아제 또는 희귀-절단 엔도뉴클레아제로부터 유래된 뉴클레아제 도메인 중에서 한 가지일 수 있다.

융합 단백질의 프로그램가능 DNA 결합 도메인은 모든 뉴클레아제 활성을 결여하도록 변형된 프로그램가능 엔도뉴클레아제 (다시 말하면, CRISPR/CAS 뉴클레아제, 또는 메가뉴클레아제)일 수 있다. 따라서, 융합 단백질의 DNA 결합 도메인은 촉매적으로 비활성 CRISPR/Cas 시스템 또는 촉매적으로 비활성 메가뉴클레아제일 수 있다. 대안으로, 융합 단백질의 프로그램가능 DNA 결합 도메인은 프로그램가능 DNA 결합 단백질, 예를 들면, 예로서 아연 핑거 단백질 또는 전사 활성인자-유사 작동체일 수 있다. 일부 구체예에서, 프로그램가능 DNA 결합 도메인은 뉴클레아제 활성이 돌연변이 및/또는 결실에 의해 제거된 촉매적으로 비활성 CRISPR/Cas 뉴클레아제일 수 있다. 가령, 촉매적으로 비활성 CRISPR/Cas 단백질은 촉매적으로 비활성 (죽은) Cas9 (dCas9)일 수 있는데, 여기서 RuvC-유사 도메인은 D10A, D8A, E762A 및/또는 D986A 돌연변이를 포함하고, 그리고 HNH-유사 도메인은 H840A, H559A, N854A, N865A 및/또는 N863A 돌연변이를 포함한다. 대안으로, 촉매적으로 비활성 CRISPR/Cas 단백질은 뉴클레아제 도메인에서 필적하는 돌연변이를 포함하는 촉매적으로 비활성 (죽은) Cpf1 단백질일 수 있다. 또 다른 구체예에서, 프로그램가능 DNA 결합 도메인은 뉴클레아제 활성이 돌연변이 및/또는 결실에 의해 제거된 촉매적으로 비활성 메가뉴클레아제일 수 있다, 가령, 촉매적으로 비활성 메가뉴클레아제는 C 말단 절두를 포함할 수 있다.

뉴클레아제 활성을 포함하는 융합 단백질은 또한, 최소한 하나의 핵 국부화 신호, 세포-투과성 도메인, 마커 도메인 및/또는 검출가능한 표지를 포함할 수 있는데, 이들은 섹션 (I)(a)(i)에서 전술된다.

(vii) 비-뉴클레아제 도메인을 포함하는 프로그램가능 융합 단백질/복합체

대안적 구체예에서, 프로그램가능 DNA 변형 단백질은 비-뉴클레아제 변형 도메인에 연결된 프로그램가능 DNA 결합 도메인을 포함하는 융합 단백질일 수 있다. 적합한 프로그램가능 DNA 결합 도메인은 섹션 (I)(a)(vi)에서 전술된다.

일부 구체예에서, 비-뉴클레아제 변형 도메인은 후성 변형 도메인일 수 있는데, 이것은 DNA 또는 염색질 구조를 변경한다 (그리고, DNA 서열을 변경할 수 있거나 또는 변경할 수 없다). 적합한 후성 변형 도메인의 무제한적 실례는 DNA 메틸전달효소 활성 (가령, 시토신 메틸전달효소), DNA 탈메틸효소 활성, DNA 탈아미노화 (가령, 시토신 탈아미노효소, 아데노신 탈아미노효소, 구아닌 탈아미노효소), DNA 아미노화, DNA 헬리카아제 활성, 히스톤 아세틸전달효소 (HAT) 활성 (가령, E1A 결합 단백질 p300으로부터 유래된 HAT 도메인), 히스톤 탈아세틸화효소 활성, 히스톤 메틸전달효소 활성, 히스톤 탈메틸효소 활성, 히스톤 키나아제 활성, 히스톤 포스파타아제 활성, 히스톤 유비퀴틴 리가아제 활성, 히스톤 탈유비퀴틴화 활성, 히스톤 아데닐화 활성, 히스톤 탈아데닐화 활성, 히스톤 수모화 활성, 히스톤 탈수모화 활성, 히스톤 리보실화 활성, 히스톤 탈리보실화 활성, 히스톤 미리스토일화 활성, 히스톤 탈미리스토일화 활성, 히스톤 시트룰린화 활성, 히스톤 알킬화 활성, 히스톤 탈알킬화 활성, 또는 히스톤 산화 활성을 갖는 것들을 포함한다. 특정한 구체예에서, 후성 변형 도메인은 시토신 탈아미노효소 활성, 히스톤 아세틸전달효소 활성, 또는 DNA 메틸전달효소 활성을 포함할 수 있다.

다른 구체예에서, 비-뉴클레아제 변형 도메인은 전사 활성화 도메인 또는 전사 억제인자 도메인일 수 있다. 적합한 전사 활성화 도메인은 제한 없이, 단순 헤르페스 바이러스 VP16 도메인, VP64 (이것은 VP16의 사합체성 유도체이다), VP160, NFκB p65 활성화 도메인, p53 활성화 도메인 1 및 2, CREB (cAMP 반응 요소 결합 단백질) 활성화 도메인, E2A 활성화 도메인, 인간 열 충격 인자 1 (HSF1)로부터 활성화 도메인, 또는 NFAT (활성화된 T-세포의 핵 인자) 활성화 도메인을 포함한다. 적합한 전사 억제인자 도메인의 무제한적 실례는 유도성 cAMP 초기 억제인자 (ICER) 도메인, 크루펠-연관된 상자 A (KRAB-A) 억제인자 도메인, YY1 글리신 풍부한 억제인자 도메인, Sp1-유사 억제인자, E(spl) 억제인자, IκB 억제인자, 또는 MeCP2를 포함한다. 전사 활성화 또는 전사 억제인자 도메인은 DNA 결합 단백질에 유전적으로 융합되거나, 또는 비공유 단백질-단백질, 단백질-RNA 또는 단백질-DNA 상호작용을 통해 결합될 수 있다.

프로그램가능 DNA 변형 단백질이 CRISPR/Cas 시스템을 포함하는 구체예에서, CRISPR/Cas 시스템의 안내 RNA는 전사 활성인자, 전사 억제인자, 또는 후성 변형 단백질에 결합하는 앱타머 서열을 포함할 수 있다 (Konermann et al., Nature, 2015, 517(7536):583-588; Zalatan et al., Cell, 2015, 160(1-2):339-50).

비-뉴클레아제 활성을 포함하는 융합 단백질은 또한, 최소한 하나의 핵 국부화 신호, 세포-투과성 도메인, 마커 도메인 및/또는 검출가능한 표지를 포함할 수 있는데, 이들은 섹션 (I)(a)(i)에서 전술된다.

(b) 프로그램가능 DNA 결합 단백질

조성물은 또한, 최소한 하나의 프로그램가능 DNA 결합 단백질을 포함한다. 프로그램가능 DNA 결합 단백질은 특정한 DNA 서열에 결합하지만, 상기 DNA 또는 상기 DNA와 연관된 단백질(들)을 변형하지 않는 단백질이다.

일부 구체예에서, 최소한 하나의 프로그램가능 DNA 결합 단백질은 뉴클레아제 활성을 결여하도록 변형된 CRISPR/Cas 뉴클레아제일 수 있다. 가령, 프로그램가능 DNA 결합 단백질은 촉매적으로 비활성 CRISPR/Cas 시스템일 수 있다. 이를 위해, CRISPR/Cas 뉴클레아제는 모든 뉴클레아제 활성을 제거하기 위해 돌연변이 및/또는 결실에 의해 변형될 수 있다. 한 구체예에서, RuvC-유사 도메인 및 HNH-유사 도메인 둘 모두 뉴클레아제 활성을 제거하기 위한 하나 또는 그 이상의 돌연변이 및/또는 결실을 포함한다. 가령, 촉매적으로 비활성 CRISPR/Cas 단백질은 촉매적으로 비활성 (죽은) Cas9 (dCas9)일 수 있는데, 여기서 RuvC-유사 도메인은 D10A, D8A, E762A 및/또는 D986A 돌연변이를 포함하고, 그리고 HNH-유사 도메인은 H840A, H559A, N854A, N856A 및/또는 N863A 돌연변이를 포함한다. 대안으로, 촉매적으로 비활성 CRISPR/Cas 단백질은 뉴클레아제 도메인에서 필적하는 돌연변이를 포함하는 촉매적으로 비활성 (죽은) Cpf1 단백질일 수 있다. 다른 양상에서, 프로그램가능 DNA 결합 단백질은 상기 섹션 (I)(a)(ii)에서 상술된 바와 같은, 이중 가닥 서열 중에서 한쪽 가닥의 틈내기를 하도록 변형된 CRISPR/Cas 단백질 (다시 말하면, 틈내기효소)일 수 있다.

다른 구체예에서, 최소한 하나의 프로그램가능 DNA 결합 단백질은 뉴클레아제 활성이 돌연변이 및/또는 결실에 의해 제거된 촉매적으로 비활성 메가뉴클레아제일 수 있다, 가령, 촉매적으로 비활성 메가뉴클레아제는 C 말단 절두를 포함할 수 있다. 또 다른 구체예에서, 최소한 하나의 프로그램가능 DNA 결합 단백질은 아연 핑거 단백질 또는 전사 활성인자-유사 작동체 (TALE)일 수 있다. 추가 구체예에서, 최소한 하나의 프로그램가능 DNA 결합 단백질은 CRISPR/Cas 틈내기효소, ZFN 틈내기효소, TALEN 틈내기효소, 또는 메가뉴클레아제 틈내기효소일 수 있다. ZFN, TALEN 및 메가뉴클레아제 틈내기효소는 이러한 틈내기효소가 이중 가닥 서열 중에서 단지 하나의 가닥만을 개열하도록, 뉴클레아제 도메인 또는 절반 도메인 중에서 한 가지에서 돌연변이 및/또는 결실을 포함한다.

프로그램가능 DNA 결합 단백질은 또한, 최소한 하나의 핵 국부화 신호, 세포-투과성 도메인, 마커 도메인 및/또는 검출가능한 표지를 포함할 수 있는데, 이들은 상기 섹션 (I)(a)(i)에서 상술된다.

(c) 프로그램가능 DNA 변형 단백질 또는 프로그램가능 DNA 결합 단백질을 인코딩하는 핵산

섹션 (I)(a)에서 전술된 프로그램가능 DNA 변형 단백질, 또는 섹션 (I)(b)에서 전술된 프로그램가능 DNA 결합 단백질을 인코딩하는 핵산은 DNA 또는 RNA, 선형 또는 환상, 단일 가닥 또는 이중 가닥일 수 있다. RNA 또는 DNA는 관심되는 진핵 세포에서 단백질로의 효율적인 번역을 위해 코돈 최적화될 수 있다. 코돈 최적화 프로그램은 프리웨어로서 또는 상업적인 공급원으로부터 가용하다.

일부 구체예에서, 프로그램가능 DNA 변형 단백질 또는 최소한 하나의 프로그램가능 DNA 결합 단백질을 인코딩하는 핵산은 mRNA일 수 있다. mRNA는 시험관내에서 합성될 수 있다. 이를 위해, DNA 변형 단백질 또는 최소한 하나의 DNA 결합 단백질을 인코딩하는 DNA는 mRNA의 시험관내 합성을 위해 파지 RNA 중합효소에 의해 인식되는 프로모터 서열에 작동가능하게 연결될 수 있다. 가령, 프로모터 서열은 T7, T3 또는 SP6 프로모터 서열, 또는 T7, T3 또는 SP6 프로모터 서열의 변이일 수 있다. 이런 구체예에서, 시험관내-전사된 RNA는 정제되고, 캡핑되고 및/또는 폴리아데닐화될 수 있다. 아래에 상술된 바와 같이, DNA 변형 단백질 또는 DNA 결합 단백질을 인코딩하는 DNA는 벡터의 부분일 수 있다.

다른 구체예에서, 프로그램가능 DNA 변형 단백질 또는 최소한 하나의 프로그램가능 DNA 결합 단백질을 인코딩하는 핵산은 DNA일 수 있다. 프로그램가능 DNA 변형 단백질 또는 최소한 하나의 프로그램가능 DNA 결합 단백질을 인코딩하는 DNA 서열은 관심되는 세포에서 발현을 위해 최소한 하나의 프로모터 제어 서열에 작동가능하게 연결될 수 있다. 일부 구체예에서, DNA 코딩 서열은 또한, 폴리아데닐화 신호 (가령, SV40 폴리A 신호, 소 성장 호르몬 (BGH) 폴리A 신호 등) 및/또는 최소한 하나의 전사 종결 서열에 연결될 수 있다.

일정한 구체예에서, DNA 코딩 서열은 세균 (가령, 대장균 (E. coli)) 세포 또는 진핵 (가령, 효모, 곤충 또는 포유류) 세포에서 DNA 변형 단백질 또는 DNA 결합 단백질의 발현을 위해 프로모터 서열에 작동가능하게 연결될 수 있다. 적합한 세균 프로모터는 제한 없이, T7 프로모터, lac 오페론 프로모터, trp 프로모터, tac 프로모터 (이들은 trp 및 lac 프로모터의 하이브리드이다), 전술한 것들 중에서 한 가지의 변이, 그리고 전술한 것들의 임의의 조합을 포함한다. 적합한 진핵 프로모터의 무제한적 실례는 구조성, 조절된, 또는 세포- 또는 조직-특이적 프로모터를 포함한다. 적합한 진핵 구조성 프로모터 제어 서열은 시토메갈로바이러스 극초기 프로모터 (CMV), 유인원 바이러스 (SV40) 프로모터, 아데노바이러스 주요 후기 프로모터, 라우스 육종 바이러스 (RSV) 프로모터, 생쥐 유방 종양 바이러스 (MMTV) 프로모터, 포스포글리세린산 키나아제 (PGK) 프로모터, 연장 인자 (ED1)-알파 프로모터, 유비퀴틴 프로모터, 액틴 프로모터, 튜불린 프로모터, 면역글로불린 프로모터, 이들의 단편, 또는 전술한 것들의 임의의 조합을 포함하지만 이들에 한정되지 않는다. 적합한 진핵 조절된 프로모터 제어 서열의 실례는 제한 없이, 열 충격, 금속, 스테로이드, 항생제, 또는 알코올에 의해 조절되는 것들을 포함한다. 조직 특이적 프로모터의 무제한적 실례는 B29 프로모터, CD14 프로모터, CD43 프로모터, CD45 프로모터, CD68 프로모터, 데스민 프로모터, 엘라스타아제-1 프로모터, 엔도글린 프로모터, 섬유결합소 프로모터, Flt-1 프로모터, GFAP 프로모터, GPIIb 프로모터, ICAM-2 프로모터, INF-β 프로모터, Mb 프로모터, NphsI 프로모터, OG-2 프로모터, SP-B 프로모터, SYN1 프로모터, 그리고 WASP 프로모터를 포함한다. 프로모터 서열은 야생형일 수 있거나, 또는 이것은 더욱 효율적인 또는 유효한 발현을 위해 변형될 수 있다.

다양한 구체예에서, 프로그램가능 DNA 변형 단백질 및/또는 최소한 하나의 프로그램가능 DNA 결합 단백질을 인코딩하는 핵산은 벡터 내에 존재할 수 있다. 적합한 벡터는 플라스미드 벡터, 파지미드, 코스미드, 인공/꼬마염색체, 트랜스포손, 그리고 바이러스 벡터 (가령, 렌티바이러스 벡터, 아데노 연관된 바이러스 벡터, 아데노바이러스 벡터 등)를 포함한다. 한 구체예에서, 프로그램가능 DNA 변형 단백질 및/또는 최소한 하나의 프로그램가능 DNA 결합 단백질을 인코딩하는 DNA는 플라스미드 벡터 내에 존재할 수 있다. 적합한 플라스미드 벡터의 무제한적 실례는 pUC, pBR322, pET, pBluescript, 그리고 이들의 변이체를 포함한다. 다른 구체예에서, 프로그램가능 DNA 변형 단백질 및/또는 최소한 하나의 프로그램가능 DNA 결합 단백질을 인코딩하는 핵산은 바이러스 벡터 내에 존재할 수 있다. 플라스미드 또는 바이러스 벡터는 추가 발현 제어 서열 (가령, 인핸서 서열, 코자크 서열, 폴리아데닐화 서열, 전사 종결 서열 등), 선별가능 마커 서열 (가령, 항생제 내성 유전자), 복제 기점, 기타 등등을 더욱 포함할 수 있다. 추가 정보는 "Current Protocols in Molecular Biology" Ausubel et al., John Wiley & Sons, New York, 2003 또는 "Molecular Cloning: A Laboratory Manual" Sambrook & Russell, Cold Spring Harbor Press, Cold Spring Harbor, NY, 3^rd edition, 2001에서 발견될 수 있다.

프로그램가능 DNA 변형 단백질 및/또는 최소한 하나의 프로그램가능 DNA 결합 단백질이 CRISPR/Cas 단백질 또는 이의 변이체를 포함하는 구체예에서, 상기 프로그램가능 DNA 변형 단백질 및/또는 최소한 하나의 프로그램가능 DNA 결합 단백질을 인코딩하는 핵산을 포함하는 발현 벡터는 하나 또는 그 이상의 안내 RNA를 인코딩하는 서열을 더욱 포함할 수 있다. 안내 RNA를 인코딩하는 서열은 일반적으로, 관심되는 진핵 세포에서 안내 RNA의 발현을 위해 최소한 하나의 전사 제어 서열에 작동가능하게 연결된다. 가령, 안내 RNA를 인코딩하는 핵산은 RNA 중합효소 III (Pol III)에 의해 인식되는 프로모터 서열에 작동가능하게 연결될 수 있다. 적합한 Pol III 프로모터의 실례는 포유류 U6, U3, H1 및 7SL RNA 프로모터를 포함하지만 이들에 한정되지 않는다.

(d) 특정한 조성물

일부 구체예에서, 프로그램가능 DNA 변형 단백질 및 하나 또는 그 이상의 프로그램가능 DNA 결합 단백질은 단백질로서 (또는, 일부 경우에, 단백질-RNA 복합체로서) 제공된다. 프로그램가능 DNA 변형 단백질 및 프로그램가능 DNA 결합 단백질은 세균 또는 진핵 세포에서 발현될 수 있고, 그리고 당해 분야에서 널리 공지된 수단을 이용하여 정제될 수 있다. 다른 구체예에서, 프로그램가능 DNA 변형 단백질 및 하나 또는 그 이상의 프로그램가능 DNA 결합 단백질은 인코딩 핵산으로서 제공된다.

일부 구체예에서, 조성물은 하나의 프로그램가능 DNA 결합 단백질/시스템 또는 인코딩 핵산을 포함할 수 있다. 다른 구체예에서, 조성물은 2개의 프로그램가능 DNA 결합 단백질/시스템 또는 인코딩 핵산을 포함할 수 있다. 또 다른 구체예에서, 조성물은 3개의 프로그램가능 DNA 결합 단백질/시스템 또는 인코딩 핵산을 포함할 수 있다. 추가 구체예에서, 조성물은 4개의 프로그램가능 DNA 결합 단백질/시스템 또는 인코딩 핵산을 포함할 수 있다. 또 다른 구체예에서, 조성물은 5개 또는 그 이상의 프로그램가능 DNA 결합 단백질/시스템 또는 인코딩 핵산을 포함할 수 있다.

특정한 구체예에서, 프로그램가능 DNA 변형 단백질은 CRISPR/Cas 시스템 (가령, 비-뉴클레아제 변형 도메인에 연결된 CRISPR/Cas 뉴클레아제, CRISPR/Cas 이중 틈내기효소, 또는 촉매적으로 비활성 (죽은) CRISPR/Cas 단백질)을 포함할 수 있고, 그리고 프로그램가능 DNA 결합 단백질은 뉴클레아제 활성을 결여하는 CRISPR/Cas 시스템일 수 있다. 가령, 프로그램가능 DNA 결합 단백질은 촉매적으로 비활성 CRISPR/Cas 시스템일 수 있다. 일반적으로, 각 CRISPR/Cas 단백질은 최소한 하나의 핵 국부화 신호를 포함한다. 일부 반복에서, 조성물은 CRISPR/Cas 단백질 및 안내 RNA로서 CRISPR/Cas 시스템을 포함할 수 있는데, 여기서 상기 단백질 및 RNA는 별개의 실체일 수 있거나, 또는 상기 단백질 및 RNA는 함께 복합화될 수 있다. 안내 RNA는 최소한 부분적으로, 화학적으로 합성될 수 있다. 안내 RNA는 효소적으로 합성될 수 있다. 다른 반복에서, 조성물은 CRISPR/Cas 단백질 및 안내 RNA를 인코딩하는 DNA를 포함할 수 있다. 또 다른 반복에서, 조성물은 CRISPR/Cas 단백질을 인코딩하는 mRNA 및 안내 RNA를 인코딩하는 DNA를 포함할 수 있다. 또 다른 반복에서, 조성물은 CRISPR/Cas 단백질 및/또는 안내 RNA를 인코딩하는 플라스미드 또는 바이러스 벡터를 포함할 수 있다. 일정한 구체예에서, 촉매적으로 활성 CRISPR/Cas 단백질 및 촉매적으로 비활성 (죽은) CRISPR/Cas 단백질은 Cas9 단백질이다. CRISPR/Cas 단백질을 인코딩하는 핵산은 일반적으로, 관심되는 진핵 세포에서 최적 발현을 위해 코돈 최적화된다.

(II) 키트

본 발명의 추가 양상은 상기 섹션 (I)에서 상술된 조성물을 포함하는 키트를 제공한다. 키트는 상기 상술된 바와 같이, 프로그램가능 DNA 변형 단백질 및 최소한 하나의 프로그램가능 DNA 결합 단백질을 단백질로서, 단백질-RNA 복합체로서, 또는 다양한 성분을 인코딩하는 핵산으로서 제공할 수 있다. 키트는 형질감염 시약, 세포 성장 배지, 선별 배지, 시험관내 전사 시약, 핵산 정제 시약, 단백질 정제 시약, 완충액, 기타 등등을 더욱 포함할 수 있다. 본원에서 제공된 키트는 일반적으로, 아래에 상술된 방법을 실행하기 위한 사용설명서를 포함한다. 키트 내에 포함되는 사용설명서는 포장 재료에 부착될 수 있거나, 또는 포장 삽입물로서 포함될 수 있다. 사용설명서는 전형적으로 서면 또는 인쇄된 자료이지만, 이런 것들에 한정되지 않는다. 이런 사용설명서를 저장하고 이들을 최종 사용자에게 통신할 수 있는 임의의 매체가 본 발명에 의해 예기된다. 이런 매체는 전자 저장 매체 (가령, 자성 디스크, 테이프, 카트리지, 칩), 광학 매체 (가령, CD ROM), 기타 등등을 포함하지만 이들에 한정되지 않는다. 본원에서 이용된 바와 같이, 용어 "사용설명서"는 사용설명서를 제공하는 인터넷 사이트의 주소를 포함할 수 있다.

일부 구체예에서, 키트의 프로그램가능 DNA 변형 단백질 및/또는 최소한 하나의 프로그램가능 DNA 결합 단백질은 II형 CRISPR/Cas 시스템을 포함할 수 있다. 일정한 구체예에서, II형 CRISPR/Cas 시스템의 안내 RNA는 crRNA 및 tracrRNA를 포함할 수 있다. 키트는 이런 이유로, 보편적인 tracrRNA(들)를 제공할 수 있고, 그리고 키트의 최종 사용자는 서열-특이적 crRNA(들)를 제공할 수 있다. 일부 양상에서, 키트는 II형 CRISPR/Cas 단백질(들) 및 tracrRNA(들)를 포함할 수 있다. 다른 양상에서, 키트는 II형 CRISPR/Cas 단백질(들)을 인코딩하는 mRNA 또는 DNA 및 tracrRNA(들)를 인코딩하는 DNA를 포함할 수 있다.

또 다른 구체예에서, 키트의 프로그램가능 DNA 변형 단백질 및/또는 최소한 하나의 프로그램가능 DNA 결합 단백질은 V형 CRISPR/Cas 시스템을 포함할 수 있다. 상기 상술된 바와 같이, V형 CRISPR/Cas 시스템의 안내 RNA는 단지 crRNA만을 포함한다. 일부 양상에서, 키트는 V형 CRISPR/Cas 단백질(들) 및 crRNA(들)를 포함할 수 있고, 또는 키트는 V형 CRISPR/Cas 단백질(들)을 인코딩하는 mRNA 또는 DNA 및 crRNA(들)를 인코딩하는 DNA를 포함할 수 있다, 다른 양상에서, 키트는 단지 V형 CRISPR/Cas 단백질(들) 또는 V형 CRISPR/Cas 단백질(들)을 인코딩하는 핵산만을 포함할 수 있는데, 여기서 키트의 최종 사용자가 crRNA(들)를 제공한다.

(III) 표적화된 염색체 부위에 접근성을 증가시키기 위한 방법

본 발명의 다른 양상은 염색체 DNA 내에 표적 서열에 대한 프로그램가능 DNA 변형 단백질의 접근성을 증가시킴으로써 진핵 세포에서 표적화된 유전체/후성 변형의 효율 및/또는 특이성을 증가시키기 위한 방법을 포괄한다. 이들 방법은 (a) 프로그램가능 DNA 변형 단백질 또는 상기 프로그램가능 DNA 변형 단백질을 인코딩하는 핵산 및 (b) 최소한 하나의 프로그램가능 DNA 결합 단백질 또는 상기 최소한 하나의 프로그램가능 DNA 결합 단백질을 인코딩하는 핵산을 관심되는 진핵 세포 내로 도입하는 것을 포함한다. 프로그램가능 DNA 변형 단백질은 염색체 DNA 내에 표적 서열을 인식하고 이것에 결합하도록 가공되는데, 상기 부위에서 DNA 변형 단백질은 DNA 또는 연관된 단백질(들)을 변형할 수 있다. 하나 또는 그 이상의 프로그램가능 DNA 결합 단백질 각각은 DNA 변형 단백질의 표적 염색체 서열의 근위 서열을 인식하고 이것에 결합하도록 가공된다. 프로그램가능 DNA 변형 단백질 및 프로그램가능 DNA 결합 단백질은 상기 섹션 (I)에서 상술된다.

일반적으로, 표적 염색체 서열의 근위 서열은 표적 염색체 서열의 어느 한쪽 측면 상에서 (다시 말하면, 상류 또는 하류에서) 약 250개 염기쌍 내에 위치된다. 근위 부위(들)는 이중나선 DNA의 어느 한쪽 가닥 상에 위치될 수 있다. 일부 구체예에서, 표적 염색체 서열의 근위 서열은 DNA 변형 단백질의 표적 염색체 서열로부터 약 250개 bp 이내에, 약 200개 bp 이내에, 약 150개 bp 이내에, 약 100개 bp 이내에, 약 75개 bp 이내에, 약 50개 bp 이내에, 약 25개 bp 이내에, 약 20개 bp 이내에, 약 15개 bp 이내에, 약 10개 bp 이내에, 또는 약 5개 bp 이내에 위치될 수 있다. 일정한 구체예에서, 표적 염색체 서열의 근위 서열은 표적 염색체 서열의 어느 한쪽 측면 상에서 약 1 bp 내지 약 10 bp, 약 11 bp 내지 약 20 bp, 약 21 bp 내지 약 30 bp, 약 31 bp 내지 약 40 bp, 약 41 bp 내지 약 50 bp, 약 51 bp 내지 약 60 bp, 약 61 bp 내지 약 70 bp, 약 71 bp 내지 약 80 bp, 약 81 bp 내지 약 90 bp, 약 91 bp 내지 약 100 bp, 약 101 bp 내지 약 150 bp, 약 151 bp 내지 약 200 bp, 또는 약 201 bp 내지 약 250 bp에 위치될 수 있다. 다른 구체예에서, 표적 염색체 서열의 근위 서열은 표적 염색체 서열의 어느 한쪽 측면 상에서 약 5 bp 내지 약 75 bp, 약 10 bp 내지 약 50 bp, 또는 약 15 bp 내지 약 25 bp에 위치될 수 있다.

일부 구체예에서, 상기 방법은 결합 서열이 표적 염색체 서열의 상류 또는 하류에 위치되는 최소한 하나의 프로그램가능 DNA 결합 단백질을 세포 내로 도입하는 것을 포함한다. 다른 구체예에서, 상기 방법은 최소한 2개의 프로그램가능 DNA 결합 단백질을 세포 내로 도입하는 것을 포함하는데, 여기서 하나의 결합 서열은 표적 염색체 서열의 상류에 위치되고, 그리고 다른 하나의 결합 서열은 표적 염색체 서열의 하류에 위치된다. 추가 구체예에서, 상기 방법은 결합 서열이 표적 염색체 서열의 상류 또는 하류에 위치되는 최소한 3개의 프로그램가능 DNA 결합 단백질을 세포 내로 도입하는 것을 포함한다. 추가 구체예에서, 상기 방법은 결합 서열이 표적 염색체 서열의 상류 또는 하류에 위치되는 4개 또는 그 이상의 프로그램가능 DNA 결합 단백질을 세포 내로 도입하는 것을 포함한다. 이들 구체예에서, 예로서, 상기 방법은 결합 서열이 표적 염색체 서열의 어느 한쪽 측면 상에서 (다시 말하면, 상류 또는 하류에서) 약 250개 bp 내에 위치되는 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개 또는 10개보다 많은 프로그램가능 DNA 결합 단백질을 도입하는 것을 포함할 수 있다.

표적 염색체 서열의 근위 부위에 하나 또는 그 이상의 프로그램가능 DNA 결합 단백질 각각의 결합은 국부 염색질 형상을 변화시켜, (이전에 접근불가능했던) 표적 염색체 서열에 대한 프로그램가능 DNA 변형 단백질의 증가된 접근성을 야기한다 (도면 1을 참조한다). 결과로서, DNA 변형 단백질에 의한 변형의 효율이 증가된다 (가령, 실시예 1-3을 참조한다). 달리 말하면, DNA 변형 단백질에 의한 변형의 효율은 DNA 변형 단백질이 단독으로 세포 내로 도입될 때와 비교하여, DNA 변형 단백질이 하나 또는 그 이상의 프로그램가능 DNA 결합 단백질과 조합으로 세포 내로 도입될 때 증가된다.

게다가, 본원에서 개시된 방법은 표적화된 유전체 변형의 특이성을 증가시킨다. 비록 프로그램가능 DNA 변형 단백질이 특정한 염색체 좌위 내에 표적 서열을 인식하고 이것에 결합하도록 가공되긴 하지만, 동일한 또는 거의 동일한 서열이 다른 염색체 위치에서 존재할 수 있다 (부정확한 효과를 유발). 표적 염색체 서열에 프로그램가능 DNA 변형 단백질의 결합이 표적 염색체 서열의 근위 서열에 하나 또는 그 이상의 프로그램가능 DNA 결합 단백질의 결합에 주로 의존하는 구체예에서, 관심되는 염색체 좌위 내에 표적 서열의 근위 부위(들)에 하나 또는 그 이상의 프로그램가능 DNA 결합 단백질의 결합은 하지만, 변형 사건에 추가적인 특이성을 제공한다 (실시예 4를 참조한다).

따라서, 본원에서 개시된 방법은 표적화된 유전체 편집 (가령, 유전자 교정, 유전자 녹아웃, 유전자 녹인 등), 표적화된 후성 변형, 그리고 표적화된 전사 조절의 효율 및/또는 특이성을 증가시킬 수 있다.

(a) 세포 내로 도입

설명된 바와 같이, 상기 방법은 (a) 프로그램가능 DNA 변형 단백질 또는 상기 프로그램가능 DNA 변형 단백질을 인코딩하는 핵산 및 (b) 최소한 하나의 프로그램가능 DNA 결합 단백질 또는 상기 최소한 하나의 프로그램가능 DNA 결합 단백질을 인코딩하는 핵산을 세포 내로 도입하는 것을 포함한다. 프로그램가능 DNA 변형 단백질은 상기 섹션 (I)(a)에서 상술되고, 프로그램가능 DNA 결합 단백질은 상기 섹션 (I)(b)에서 상술되고, 그리고 DNA 변형 단백질 또는 프로그램가능 DNA 결합 단백질을 인코딩하는 핵산은 섹션 (I)(c)에서 전술된다.

프로그램가능 DNA 변형 단백질 또는 상기 프로그램가능 DNA 변형 단백질을 인코딩하는 핵산 및 최소한 하나의 프로그램가능 DNA 결합 단백질 또는 상기 최소한 하나의 프로그램가능 DNA 결합 단백질을 인코딩하는 핵산은 다양한 수단에 의해 관심되는 세포 내로 도입될 수 있다.

일부 구체예에서, 세포는 적절한 분자 (다시 말하면, 단백질, DNA 및/또는 RNA)로 형질감염될 수 있다. 적합한 형질감염 방법은 뉴클레오펙션 (또는 전기천공), 인산칼슘-매개된 형질감염, 양이온성 중합체 형질감염 (가령, DEAE-덱스트란 또는 폴리에틸렌이민), 바이러스 형질도입, 비로솜 형질감염, 비리온 형질감염, 리포솜 형질감염, 양이온성 리포솜 형질감염, 면역리포솜 형질감염, 비리포솜 지질 형질감염, 덴드리머 형질감염, 열 충격 형질감염, 마그네토펙션, 리포펙션, 유전자 총 전달, 임팔레펙션, 소노포레이션, 광학적 형질감염, 그리고 핵산의 독점 작용제-증강된 흡수를 포함한다. 형질감염 방법은 당해 분야에서 널리 공지된다 (가령, "Current Protocols in Molecular Biology" Ausubel et al., John Wiley & Sons, New York, 2003 또는 "Molecular Cloning: A Laboratory Manual" Sambrook & Russell, Cold Spring Harbor Press, Cold Spring Harbor, NY, 3rd edition, 2001을 참조한다). 다른 구체예에서, 이들 분자는 미량주사에 의해 세포 내로 도입될 수 있다. 가령, 이들 분자는 관심되는 세포의 세포질 또는 핵 내로 주사될 수 있다. 세포 내로 도입되는 각 분자의 양은 변할 수 있지만, 당업자는 적절한 양을 결정하기 위한 수단에 익숙하다.

다양한 분자가 세포 내로 동시에 또는 순차적으로 도입될 수 있다. 가령, 프로그램가능 DNA 변형 단백질 (또는 이의 인코딩 핵산) 및 최소한 하나의 프로그램가능 DNA 결합 단백질 (또는 인코딩 핵산)이 동시에 도입될 수 있다. 대안으로, 하나가 먼저 세포 내로 도입될 수 있고, 그리고 이후, 다른 하나가 추후 세포 내로 도입될 수 있다.

일반적으로, 세포는 세포 성장 및/또는 유지에 적합한 조건 하에 유지된다. 적합한 세포 배양 조건은 당해 분야에서 널리 공지되고, 그리고 가령, Santiago et al., Proc. Natl. Acad. Sci. USA, 2008, 105:5809-5814; Moehle et al. Proc. Natl. Acad. Sci. USA, 2007, 104:3055-3060; Urnov et al., Nature, 2005, 435:646-651; 및 Lombardo et al., Nat. Biotechnol., 2007, 25:1298-1306에서 설명된다. 당업자는 세포를 배양하기 위한 방법이 당해 분야에서 공지되고, 그리고 세포 유형에 따라 변할 수 있고 변할 것이라는 것을 인지한다. 특정 세포 유형에 대한 최적 기술을 결정하기 위해, 모든 사례에서, 일과적인 최적화가 이용될 수 있다.

(b) 표적화된 유전체 변형

표적 염색체 서열의 근위 서열(들)에 하나 또는 그 이상의 프로그램가능 DNA 결합 단백질의 결합은 국부 염색질 형상을 변화시킨다, 예를 들면, 뉴클레오솜 구조가 변경될 수 있고 및/또는 히스톤이 이동될 수 있다. 결과로서, 프로그램가능 DNA 변형 단백질은 프로그램가능 DNA 변형 단백질이 단독으로 이용될 때와 비교하여, 표적 염색체 서열에 더욱 잘 접근할 수 있다. 증가된 접근성은 표적화된 유전체 변형의 증가된 효율 및/또는 특이성을 유발한다. 표적화된 유전체/후성 변형은 뉴클레아제 활성 또는 비-뉴클레아제 활성을 갖는 DNA 변형 단백질에 의해 매개될 수 있다.

프로그램가능 DNA 변형 단백질이 뉴클레아제 활성을 갖는 구체예에서, DNA 변형 단백질은 표적화된 염색체 서열에서 이중 가닥 절단을 도입할 수 있다. 염색체 서열에서 이중 가닥 절단은 비상동성 말단 연결 (NHEJ) 수복 과정에 의해 수복될 수 있다. NHEJ가 오류가 발생하기 쉽기 때문에, 최소한 하나의 뉴클레오티드의 결실, 최소한 하나의 뉴클레오티드의 삽입, 최소한 하나의 뉴클레오티드의 치환, 또는 이들의 조합이 절단의 수복 동안 발생할 수 있다. 따라서, 표적화된 염색체 서열은 변형되거나 또는 비활성화될 수 있다. 가령, 코딩 서열의 해독틀에서 이동 동안 결실, 삽입 또는 치환은 변경된 단백질 산물, 또는 단백질 산물 없음 (이것은 "녹아웃"으로 명명된다)을 야기할 수 있다. 일부 반복에서, 상기 방법은 상동성 지향된 수복 과정 (HDR)에 의한 이중 가닥 절단의 수복 동안 공여자 폴리뉴클레오티드 내에 공여자 서열이 표적 염색체 서열에서 염색체 서열과 교체되거나 또는 이것 내로 통합될 수 있도록, 표적 염색체 서열의 어느 한쪽 측면 상에 위치된 서열에 실제적인 서열 동일성을 갖는 서열과 측면에서 접하는 공여자 서열을 포함하는 공여자 폴리뉴클레오티드 (하기를 참조한다)를 세포 내로 도입하는 것을 더욱 포함할 수 있다. 외인성 서열의 통합은 "녹인"으로 명명된다. 상기 상술된 바와 같이, 본원에서 개시된 방법은 또한, 부정확한 효과를 감소시키고, 따라서 표적화된 유전체 변형의 특이성을 증가시킨다.

다양한 반복에서, 이런 이유로, 표적화된 유전체 변형의 효율 및/또는 특이성은 뉴클레아제 활성을 갖는 프로그램가능 DNA 변형 단백질이 단독으로 이용될 때에 비하여, 최소한 약 0.1-배, 최소한 약 0.5-배, 최소한 약 1-배, 최소한 약 2-배, 최소한 약 5-배, 최소한 약 10-배, 또는 최소한 약 20-배, 최소한 약 50-배, 최소한 약 100-배, 또는 약 100-배보다 많이 증가될 수 있다. 가령, 뉴클레아제 활성을 갖는 프로그램가능 DNA 변형 단백질은 단독으로 이용될 때, 검출가능한 삽입-결실 또는 통합 사건이 없을 수 있다. 하지만, 뉴클레아제 활성을 갖는 프로그램가능 DNA 변형 단백질이 최소한 하나의 프로그램가능 DNA 결합 단백질과 조합으로 이용될 때, 삽입-결실 및 통합 사건이 검출될 수 있다 (가령, 최소한 약 1% 삽입-결실/통합, 최소한 약 5% 삽입-결실/통합, 최소한 약 10% 삽입-결실/통합, 최소한 약 20% 삽입-결실/통합, 최소한 약 30% 삽입-결실/통합, 최소한 약 40% 삽입-결실/통합, 최소한 약 50% 삽입-결실/통합, 또는 약 50%보다 많은 삽입-결실/통합).

프로그램가능 DNA 변형 단백질이 비-뉴클레아제 활성을 갖는 구체예에서, DNA 변형 단백질은 표적 염색체 서열에서 DNA 또는 연관된 단백질을 변형하거나 또는 표적 염색체 서열의 발현을 변형할 수 있다. 가령, 프로그램가능 DNA 변형 단백질이 후성 변형 활성을 포함할 때, 히스톤 아세틸화, 메틸화, 인산화, 아데닐화 등의 상태가 변경될 수 있거나, 또는 DNA 메틸화, 아미노화 등의 상태가 변경될 수 있다. 실례로서, 프로그램가능 DNA 변형 단백질이 시토신 탈아미노효소 활성을 포함하는 구체예에서, 표적 염색체 서열에서 하나 또는 그 이상의 시토신 잔기가 우라실 잔기로 전환될 수 있다. 대안으로, 프로그램가능 DNA 변형 단백질이 전사 활성화 또는 억제인자 활성을 포함할 때, 표적 염색체 서열에서 전사가 증가되거나 또는 감소될 수 있다. 비-뉴클레아제 활성을 갖는 프로그램가능 DNA 변형 단백질이 단독으로 이용될 때에 비하여, 결과의 후성 변형 또는 전사 조절이 약 0.1-배, 최소한 약 0.5-배, 최소한 약 1-배, 최소한 약 2-배, 최소한 약 5-배, 최소한 약 10-배, 또는 최소한 약 20-배, 최소한 약 50-배, 최소한 약 100-배, 또는 약 100-배보다 많이 증가될 수 있다.

상기 상술된 표적화된 유전체 변형/후성 변형은 단독적으로 수행되거나 또는 다중화될 수 있다 (다시 말하면, 2개 또는 그 이상의 염색체 서열이 동시에 표적화될 수 있다).

(c) 임의선택적 공여자 폴리뉴클레오티드

프로그램가능 DNA 변형 단백질이 뉴클레아제 활성을 포함하는 구체예에서, 상기 방법은 최소한 하나의 공여자 폴리뉴클레오티드를 세포 내로 도입하는 것을 더욱 포함할 수 있다. 공여자 폴리뉴클레오티드는 단일 가닥 또는 이중 가닥, 선형 또는 환상 및/또는 RNA 또는 DNA일 수 있다. 일부 구체예에서, 공여자 폴리뉴클레오티드는 벡터, 예를 들면, 플라스미드 벡터일 수 있다.

공여자 폴리뉴클레오티드는 최소한 하나의 공여자 서열을 포함한다. 일부 양상에서, 공여자 폴리뉴클레오티드의 공여자 서열은 내인성 또는 선천적 염색체 서열의 변형된 버전일 수 있다. 가령, 공여자 서열은 DNA 변형 단백질에 의해 표적화된 서열에서 또는 이와 가깝게 염색체 서열의 부분과 본질적으로 동일할 수 있지만, 최소한 하나의 뉴클레오티드 변화를 포함한다. 따라서, 선천적 서열과의 통합 또는 교체 시에, 표적화된 염색체 위치에서 서열은 최소한 하나의 뉴클레오티드 변화를 포함한다. 가령, 변화는 하나 또는 그 이상의 뉴클레오티드의 삽입, 하나 또는 그 이상의 뉴클레오티드의 결실, 하나 또는 그 이상의 뉴클레오티드의 치환, 또는 이들의 조합일 수 있다. 변형된 서열의 "유전자 교정" 통합의 결과로서, 세포는 표적화된 염색체 서열로부터 변경된 유전자 산물을 생산할 수 있다.

다른 양상에서, 공여자 폴리뉴클레오티드의 공여자 서열은 외인성 서열일 수 있다. 본원에서 이용된 바와 같이, "외인성" 서열은 세포에 선천적이지 않은 서열, 또는 선천적 위치가 세포의 유전체 내에 상이한 위치에 있는 서열을 지칭한다. 가령, 외인성 서열은 단백질 코딩 서열을 포함할 수 있는데, 이것은 유전체 내로 통합 시에 세포가 통합된 서열에 의해 코딩된 단백질을 발현할 수 있도록, 외인성 프로모터 제어 서열에 작동가능하게 연결될 수 있다. 대안으로, 외인성 서열은 이의 발현이 내인성 프로모터 제어 서열에 의해 조절되도록, 염색체 서열 내로 통합될 수 있다. 다른 반복에서, 외인성 서열은 전사 제어 서열, 다른 발현 제어 서열, RNA 코딩 서열, 기타 등등일 수 있다. 전술한 바와 같이, 염색체 서열 내로 외인성 서열의 통합은 "녹인"으로 명명된다.

당업자에 의해 인지될 수 있는 바와 같이, 공여자 서열의 길이는 변할 수 있고 변할 것이다. 가령, 공여자 서열은 길이에서 몇몇 뉴클레오티드로부터 수백 개의 뉴클레오티드 내지 수십만 개의 뉴클레오티드까지 변할 수 있다.

전형적으로, 공여자 폴리뉴클레오티드에서 공여자 서열은 상류 서열 및 하류 서열과 측면에서 접하는데, 이들 서열은 각각, 프로그램가능 DNA 변형 단백질에 의해 표적화된 서열의 상류 및 하류에 위치된 서열과 실제적인 서열 동일성을 갖는다. 이들 서열 유사성 때문에, 공여자 폴리뉴클레오티드의 상류 및 하류 서열은 공여자 서열이 염색체 서열 내로 통합 (또는 염색체 서열과 교체)될 수 있도록, 공여자 폴리뉴클레오티드 및 표적화된 염색체 서열 사이에 상동성 재조합을 허용한다.

상류 서열은 본원에서 이용된 바와 같이, 프로그램가능 DNA 변형 단백질에 의해 표적화된 서열의 상류에 염색체 서열과 실제적인 서열 동일성을 공유하는 핵산 서열을 지칭한다. 유사하게, 하류 서열은 프로그램가능 DNA 변형 단백질에 의해 표적화된 서열의 하류에 염색체 서열과 실제적인 서열 동일성을 공유하는 핵산 서열을 지칭한다. 본원에서 이용된 바와 같이, 관용구 "실제적인 서열 동일성"은 최소한 약 75% 서열 동일성을 갖는 서열을 지칭한다. 따라서, 공여자 폴리뉴클레오티드에서 상류 및 하류 서열은 표적 서열의 상류 또는 하류에 서열과 약 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 또는 99% 서열 동일성을 가질 수 있다. 한 예시적인 구체예에서, 공여자 폴리뉴클레오티드에서 상류 및 하류 서열은 프로그램가능 DNA 변형 단백질에 의해 표적화된 서열의 상류 또는 하류에 염색체 서열과 약 95% 또는 100% 서열 동일성을 가질 수 있다.

일부 구체예에서, 상류 서열은 프로그램가능 DNA 변형 단백질에 의해 표적화된 서열의 즉시 상류에 위치된 염색체 서열과 실제적인 서열 동일성을 공유한다. 다른 구체예에서, 상류 서열은 표적 서열로부터 상류에 약 100개 뉴클레오티드 내에 위치되는 염색체 서열과 실제적인 서열 동일성을 공유한다. 따라서, 예로서, 상류 서열은 표적 서열로부터 상류에 약 1 내지 약 20개, 약 21 내지 약 40개, 약 41 내지 약 60개, 약 61 내지 약 80개, 또는 약 81 내지 약 100개 뉴클레오티드에 위치되는 염색체 서열과 실제적인 서열 동일성을 공유할 수 있다. 일부 구체예에서, 하류 서열은 프로그램가능 DNA 변형 단백질에 의해 표적화된 서열의 즉시 하류에 위치된 염색체 서열과 실제적인 서열 동일성을 공유한다. 다른 구체예에서, 하류 서열은 표적 서열로부터 하류에 약 100개 뉴클레오티드 내에 위치되는 염색체 서열과 실제적인 서열 동일성을 공유한다. 따라서, 예로서, 하류 서열은 표적 서열로부터 하류에 약 1 내지 약 20개, 약 21 내지 약 40개, 약 41 내지 약 60개, 약 61 내지 약 80개, 또는 약 81 내지 약 100개 뉴클레오티드에 위치되는 염색체 서열과 실제적인 서열 동일성을 공유할 수 있다.

각 상류 또는 하류 서열은 길이에서 약 20개 뉴클레오티드 내지 약 5000개 뉴클레오티드의 범위에서 변할 수 있다. 일부 구체예에서, 상류 및 하류 서열은 약 50, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1100, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 2000, 2100, 2200, 2300, 2400, 2500, 2600, 2800, 3000, 3200, 3400, 3600, 3800, 4000, 4200, 4400, 4600, 4800, 또는 5000개 뉴클레오티드를 포함할 수 있다. 특정한 구체예에서, 상류 및 하류 서열은 길이에서 약 50 내지 약 1500개 뉴클레오티드의 범위에서 변할 수 있다.

(e) 세포 유형

다양한 세포가 본원에서 개시된 방법에서 이용에 적합하다. 일반적으로, 세포는 진핵 세포이다. 가령, 세포는 인간 포유류 세포, 비인간 포유류 세포, 비포유류 척추동물 세포, 무척추동물 세포, 곤충 세포, 식물 세포, 효모 세포, 또는 단일 세포 진핵 생물체일 수 있다. 일부 구체예에서, 세포는 또한, 단세포 배아, 예를 들면, 쥐, 햄스터, 설치류, 토끼, 고양이, 개, 양, 돼지, 소, 말 및 영장류 배아를 비롯한 비인간 포유류 배아일 수 있다. 또 다른 구체예에서, 세포는 줄기 세포, 예를 들면, 배아 줄기 세포, ES-유사 줄기 세포, 태아 줄기 세포, 성체 줄기 세포 등일 수 있다. 한 구체예에서, 줄기 세포는 인간 배아 줄기 세포가 아니다. 게다가, 줄기 세포는 본원에 전체적으로 참조로서 편입되는 WO2003/046141, 또는 Chung et al. (Cell Stem Cell, 2008, 2:113-117)에서 개시된 기술에 의해 만들어진 것들을 포함할 수 있다. 세포는 시험관내 또는 생체내 (다시 말하면, 생물체 내에)일 수 있다. 예시적인 구체예에서, 세포는 포유류 세포이다. 특정한 구체예에서, 세포는 인간 세포이다.

적합한 포유류 세포의 무제한적 실례는 인간 배아 신장 세포 (HEK293, HEK293T); 인간 경부 암종 세포 (HELA); 인간 폐 세포 (W138); 인간 간 세포 (Hep G2); 인간 U2-OS 골육종 세포, 인간 A549 세포, 인간 A-431 세포 및 인간 K562 세포; 중국 햄스터 난소 (CHO) 세포, 아기 햄스터 신장 (BHK) 세포; 생쥐 골수종 NS0 세포, 생쥐 배아 섬유모세포 3T3 세포 (NIH3T3), 생쥐 B 림프종 A20 세포; 생쥐 흑색종 B16 세포; 생쥐 근모세포 C2C12 세포; 생쥐 골수종 SP2/0 세포; 생쥐 배아 중간엽 C3H-10T1/2 세포; 생쥐 암종 CT26 세포, 생쥐 전립선 DuCuP 세포; 생쥐 가슴 EMT6 세포; 생쥐 간암 Hepa1c1c7 세포; 생쥐 골수종 J5582 세포; 생쥐 상피 MTD-1A 세포; 생쥐 심근 MyEnd 세포; 생쥐 신장 RenCa 세포; 생쥐 췌장 RIN-5F 세포; 생쥐 흑색종 X64 세포; 생쥐 림프종 YAC-1 세포; 쥐 교모세포종 9L 세포; 쥐 B 림프종 RBL 세포; 쥐 신경모세포종 B35 세포; 쥐 간암 세포 (HTC); 버팔로 쥐 간 BRL 3A 세포; 개 신장 세포 (MDCK); 개 유방 (CMT) 세포; 쥐 골육종 D17 세포; 쥐 단핵구/대식세포 DH82 세포; 원숭이 신장 SV-40 형질전환된 섬유모세포 (COS7) 세포; 원숭이 신장 CVI-76 세포; 아프리카 녹색 원숭이 신장 (VERO-76) 세포를 포함한다. 포유류 세포주의 광범위한 목록은 American Type Culture Collection 카탈로그 (ATCC, Manassas, VA)에서 발견될 수 있다.

(IV) 특정한 유전체 좌위를 검출하기 위한 방법

진핵 세포에서 특정한 유전체 좌위를 검출하거나 또는 가시화하기 위한 방법 역시 본원에서 제공된다. 하나 또는 그 이상의 프로그램가능 DNA 결합 단백질(들)의 근위 결합이 염색질 구조를 변경하고, 그리고 이전에 접근불가능했던 염색체 좌위에 대한 프로그램가능 DNA 변형 단백질의 접근을 증가시키기 때문에, 섹션 (III)에서 전술된 방법은 특정한 유전체 좌위 또는 표적화된 염색체 서열의 검출을 증강하도록 변형될 수 있다. 상기 방법은 (a) 최소한 하나의 검출가능한 마커 도메인을 포함하는 프로그램가능 DNA 결합 단백질 또는 최소한 하나의 검출가능한 마커 도메인을 포함하는 상기 프로그램가능 DNA 결합 단백질을 인코딩하는 핵산 및 (b) 최소한 하나의 프로그램가능 DNA 결합 단백질 또는 상기 최소한 하나의 프로그램가능 DNA 결합 단백질을 인코딩하는 핵산을 진핵 세포 내로 도입하는 것을 포함하고, 여기서 최소한 하나의 검출가능한 마커 도메인을 포함하는 프로그램가능 DNA 결합 단백질은 표적 염색체 서열에 표적화되고, 그리고 하나 또는 그 이상의 프로그램가능 DNA 결합 단백질 각각은 표적 염색체 서열의 근위 부위에 표적화된다. 표적 염색체 서열의 근위 부위에 최소한 하나의 프로그램가능 DNA 결합 단백질의 결합은 표적 염색체 서열에 대한 최소한 하나의 검출가능한 마커 도메인을 포함하는 프로그램가능 DNA 결합 단백질의 접근성을 증가시킨다. 상기 방법은 표적 염색체 서열에 결합된 최소한 하나의 검출가능한 마커 도메인을 포함하는 프로그램가능 DNA 결합 단백질을 검출하는 것을 더욱 포함한다.

최소한 하나의 검출가능한 마커 도메인을 포함하는 프로그램가능 DNA 결합 단백질은 프로그램가능 DNA 결합 도메인을 포함한다. 적합한 프로그램가능 DNA 결합 도메인은 섹션 (I)(a)(vi)에서 전술된다. 특정한 구체예에서, 프로그램가능 DNA 결합 도메인은 촉매적으로 비활성 CRISPR/Cas 시스템, 촉매적으로 비활성 메가뉴클레아제, 아연 핑거 단백질, 또는 전사 활성인자-유사 작동체일 수 있다. 프로그램가능 DNA 결합 단백질의 최소한 하나의 검출가능한 마커 도메인은 형광 단백질 (가령, GFP, eGFP, RFP 등), 형광 태그, 또는 에피토프 태그일 수 있다 (이들은 섹션 (I)(a)(i)에서 전술된다). 일정한 구체예에서, 프로그램가능 DNA 결합 단백질의 최소한 하나의 검출가능한 마커 도메인은 프로그램가능 DNA 결합 단백질이 프로그램가능 DNA 결합 단백질에 대한 항체에 의해 검출될 수 있도록, 프로그램가능 DNA 결합 단백질 내에 자연발생 에피토프일 수 있다. 최소한 하나의 검출가능한 마커 도메인을 포함하는 프로그램가능 DNA 결합 단백질은 섹션 (I)(a)(i)에서 전술된 바와 같이, 최소한 하나의 핵 국부화 신호 및/또는 세포-투과성 도메인을 더욱 포함할 수 있다. 일부 구체예에서, 최소한 하나의 검출가능한 마커 도메인을 포함하는 프로그램가능 DNA 결합 단백질은 비-뉴클레아제 변형 도메인을 더욱 포함할 수 있다 (상기 섹션 (I)(a)(vi)에서 전술된 바와 같이).

하나 또는 그 이상의 프로그램가능 DNA 결합 단백질은 섹션 (I)(b)에서 전술된다. 일반적으로, 최소한 하나의 프로그램가능 DNA 결합 단백질은 촉매적으로 비활성 CRISPR/Cas 단백질, 촉매적으로 비활성 메가뉴클레아제, 아연 핑거 단백질, 전사 활성인자-유사 작동체, CRISPR/Cas 틈내기효소, ZFN 틈내기효소, TALEN 틈내기효소, 또는 메가뉴클레아제 틈내기효소일 수 있다.

상기 방법은 표적 염색체 서열에 결합되는 검출가능한 마커 도메인을 포함하는 프로그램가능 DNA 결합 단백질을 검출하는 것을 더욱 포함하는데, 여기서 검출은 동적 생존 세포 영상화, 형광 현미경검사, 공초점 현미경검사, 면역형광, 면역검출, RNA-단백질 결합, 단백질-단백질 결합, 기타 등등을 통해 이루어질 수 있다. 검출 단계는 생존 세포 또는 고정된 세포에서 수행될 수 있다.

상기 방법이 생존 세포에서 염색질 구조 동역학을 검출하는 것을 포함하는 구체예에서, 검출가능한 마커 도메인을 포함하는 프로그램가능 DNA 결합 단백질 및 하나 또는 그 이상의 프로그램가능 DNA 결합 단백질은 본질적으로 섹션 (III)(a)에서 전술된 바와 같이, 단백질 또는 핵산으로서 세포 내로 도입될 수 있다. 상기 방법이 고정된 세포 내에서 표적화된 염색체 서열을 검출하는 것을 포함하는 구체예에서, 검출가능한 마커 도메인을 포함하는 프로그램가능 DNA 결합 단백질 및 최소한 하나의 프로그램가능 DNA 결합 단백질은 단백질 (또는 RNA-단백질 복합체)로서 세포 내로 도입될 수 있다. 세포를 고정시키고 투과하기 위한 수단은 당해 분야에서 널리 공지된다. 일부 구체예에서, 고정된 세포는 이중 가닥 염색체 DNA를 단일 가닥 DNA로 전환하기 위한 화학적 및/또는 열 변성 과정에 종속될 수 있다. 다른 구체예에서, 고정된 세포는 화학적 및/또는 열 변성 과정에 종속되지 않는다.

특정한 구체예에서, 검출가능한 마커 도메인을 포함하는 프로그램가능 DNA 결합 단백질은 촉매적으로 비활성 (또는 죽은) CRISPR/Cas 단백질 및 형광 단백질 마커 도메인을 포함하는 융합 단백질이고, 그리고 최소한 하나의 프로그램가능 DNA 결합 단백질은 촉매적으로 비활성 (또는 죽은) CRISPR/Cas 단백질이다.

프로그램가능 DNA 변형 또는 DNA 결합 단백질 중에서 최소한 하나가 CRISPR/Cas 단백질을 포함하는 구체예에서, 안내 RNA는 원지 검출을 위한 검출가능한 표지 (가령, FISH 또는 CISH)를 더욱 포함할 수 있다. 검출가능한 표지는 상기 섹션 (I)(a)(i)에서 상술된다. 일부 구체예에서, 프로그램가능 DNA 변형 및 DNA 결합 단백질 각각은 CRISPR/Cas 단백질을 포함하고, 그리고 각 안내 RNA는 최소한 하나의 검출가능한 표지를 포함하고, 따라서 검출되는 신호의 양 또는 강도를 증가시킨다.

또 다른 구체예에서, 근위에 결합된 프로그램가능 DNA 변형 단백질 및 하나 또는 그 이상의 프로그램가능 DNA 결합 단백질은 근위 결찰 검정을 통해 검출될 수 있다. 가령, 프로그램가능 DNA 변형 단백질은 첫 번째 항체에 의해 결합될 수 있고, 그리고 프로그램가능 DNA 결합 단백질 중에서 최소한 하나는 두 번째 항체에 의해 결합될 수 있고, 이들은 각각, 단일 가닥 근접 검출 올리고뉴클레오티드에 직접적으로 또는 간접적으로 (가령, 이차 항체를 통해) 연결된다. 다른 구체예에서, 단일 가닥 근접 검출 올리고뉴클레오티드(들)는 안내 RNA(들)에 직접적으로 또는 간접적으로 연결될 수 있다. 또 다른 구체예에서, 단일 가닥 근접 검출 올리고뉴클레오티드(들)는 프로그램가능 DNA 변형 또는 프로그램가능 DNA 결합 단백질에 직접적으로 또는 간접적으로 연결될 수 있다. 근위 위치된, 염색체-결합된 단백질과 복합화되는 근접 검출 올리고뉴클레오티드는 원지 근접-의존성 증폭 반응을 통해 검출될 수 있다. 원지 근접-의존성 증폭 반응은 근접 결찰 검정 (PLA, Soderberg, et al., Nature Methods, 2006, 3(12):995-1000을 참조한다) 또는 혼성화 연쇄 반응의 근접-의존성 개시 (proxHCR, Koos et al., Nature Communications, 2015, 6:7294, 10 pp.를 참조한다)일 수 있다.

(V) 적용

본원에서 개시된 조성물 및 방법은 다양한 치료적, 진단적, 산업적 및 연구 적용에서 이용될 수 있다. 일부 구체예에서, 본 발명은 유전자의 기능을 모형화 및/또는 연구하거나, 관심되는 유전적 또는 후성적 상태를 연구하거나, 또는 다양한 질환 또는 장애에 관련된 생화학적 경로를 연구하기 위해, 세포, 동물 또는 식물에서 관심되는 임의의 염색체 서열을 변형하는데 이용될 수 있다. 가령, 질환 또는 장애를 모형화하는 유전자도입 생물체가 창출될 수 있는데, 여기서 질환 또는 장애와 연관된 하나 또는 그 이상의 핵산 서열의 발현이 변경된다. 상기 질환 모형은 생물체에서 돌연변이의 효과를 연구하고, 질환의 발달 및/또는 진행을 연구하고, 질환에 대한 제약학적으로 활성 화합물의 효과를 연구하고 및/또는 가능성 있는 유전자 요법 전략의 효력을 사정하는데 이용될 수 있다.

다른 구체예에서, 이들 조성물 및 방법은 효율적이고 비용 효과적인 기능적 유전체 스크린을 수행하는데 이용될 수 있는데, 이들은 특정 생물학적 과정에 관련된 유전자의 기능을 연구하고 유전자 발현에서 임의의 변화가 생물학적 과정에 어떻게 영향을 줄 수 있는 지를 연구하는데 이용될 수 있고, 또는 세포 표현형과 함께 유전체 좌위의 포화 또는 깊은 스캐닝 돌연변이유발을 수행하는데 이용될 수 있다. 포화 또는 깊은 스캐닝 돌연변이유발은 예로서, 유전자 발현, 약제 내성 및 질환의 반전을 위해 필요한 결정적인 최소 특질 및 기능적 요소의 구별된 취약성을 결정하는데 이용될 수 있다.

추가 구체예에서, 본원에서 개시된 조성물 및 방법은 질환 또는 장애의 존재를 확립하기 위한 진단 검사에서 및/또는 치료 옵션을 결정하는데 이용될 수 있다. 적합한 진단 검사의 실례는 암 세포에서 특정한 돌연변이 (가령, EGFR, HER2 등에서 특정한 돌연변이)의 검출, 특정 질환과 연관된 특정한 돌연변이 (가령, 트리뉴클레오티드 반복, 겸상 적혈구병과 연관된 β-글로빈에서 돌연변이, 특정한 SNPs 등)의 검출, 간염의 검출, 바이러스 (가령, 지카)의 검출, 기타 등등을 포함한다.

추가 구체예에서, 본원에서 개시된 조성물 및 방법은 특정 질환 또는 장애와 연관된 유전적 돌연변이를 교정하는데 이용될 수 있다, 예를 들면, 예로서 겸상 적혈구병 또는 지중해빈혈과 연관된 글로빈 유전자 돌연변이를 교정하거나, 중증 복합형 면역 부전증 (SCID)과 연관된 아데노신 탈아미노효소 유전자에서 돌연변이를 교정하거나, 헌팅턴병의 질환 유발 유전자인 HTT의 발현을 감소시키거나, 또는 망막 색소변성의 치료를 위해 로돕신 유전자에서 돌연변이를 교정하는데 이용될 수 있다. 이런 변형은 탈체에서 세포 내에서 만들어질 수 있다.

또 다른 구체예에서, 본원에서 개시된 조성물 및 방법은 향상된 특성 또는 환경 스트레스에 대한 증가된 내성을 갖는 작물 식물을 산출하는데 이용될 수 있다. 본 발명은 또한, 향상된 특성을 갖는 경작용 동물 또는 생산 동물을 산출하는데 이용될 수 있다. 가령, 돼지는 특히 재생 약제 또는 이종이식에서, 그들을 생물의학 모형으로서 매력적으로 만드는 많은 특질을 갖는다.

정의

달리 정의되지 않으면, 본원에서 이용된 모든 기술 용어와 과학 용어는 본 발명이 속하는 당해 분야의 평균적 기술자에 의해 통상적으로 이해되는 바와 동일한 의미를 갖는다. 다음의 참고문헌은 본 발명에서 이용된 많은 용어의 일반적인 정의를 당업자에게 제공한다: Singleton et al., Dictionary of Microbiology and Molecular Biology (2nd ed. 1994); The Cambridge Dictionary of Science and Technology (Walker ed., 1988); The Glossary of Genetics, 5th Ed., R. Rieger et al. (eds.), Springer Verlag (1991); 그리고 Hale & Marham, The Harper Collins Dictionary of Biology (1991). 본원에서 이용된 바와 같이, 다음의 용어는 달리 명시되지 않으면, 그들에 생득된 의미를 갖는다.

본 발명의 원소 또는 이들의 바람직한 구체예(들)를 소개할 때, 단수 관사 ("a", "an", "the")와 "상기"는 이들 원소 중에서 하나 또는 그 이상이 있다는 것을 의미하는 것으로 의도된다. 용어 "포함하는", "내포하는" 및 "갖는"은 포괄적인 것으로 의도되고, 그리고 열거된 원소 이외에 추가 원소가 있을 수 있다는 것을 의미한다.

수치 값, x와 관련하여 이용될 때 용어 "약"은 예로서, x ± 5%를 의미한다.

본원에서 이용된 바와 같이, 용어 "상보적" 또는 "상보성"은 특정한 수소 결합을 통한 염기 대합에 의한 이중 가닥 핵산의 연관을 지칭한다. 염기 대합은 표준 왓슨 크릭 염기 대합 (가령, 5'-A G T C-3'은 상보성 서열 3'-T C A G-5'와 대합을 이룬다)일 수 있다. 염기 대합은 또한, 후그스탄형 또는 반전된 후그스탄형 수소 결합일 수 있다. 상보성은 전형적으로, 이중나선 영역에 대하여 계측되고, 그리고 따라서, 예로서 오버행을 배제한다. 이중나선 영역의 2개의 가닥 사이에 상보성은 부분적일 수 있고, 그리고 염기 중에서 단지 일부 (가령, 70%)만 상보적이면, 백분율 (가령, 70%)로서 표현된다. 상보적이지 않은 염기는 "부정합"된다. 상보성은 또한, 이중나선 영역 내에 모든 염기가 상보적이면, 완전할 수 있다 (다시 말하면, 100%).

본원에서 이용된 바와 같이, 용어 "CRISPR/Cas 시스템"은 CRISPR/Cas 단백질 (다시 말하면, 뉴클레아제, 틈내기효소, 또는 촉매 활성이 없는 단백질) 및 안내 RNA를 포함하는 복합체를 지칭한다.

본원에서 이용된 바와 같이, 용어 "내인성 서열"은 세포에 선천적인 염색체 서열을 지칭한다.

본원에서 이용된 바와 같이, 용어 "외인성"은 세포에 선천적이지 않은 서열, 또는 세포의 유전체 내에 선천적 위치가 상이한 염색체 위치에 있는 염색체 서열을 지칭한다.

본원에서 이용된 바와 같이, "유전자"는 유전자 산물을 인코딩하는 DNA 영역 (엑손 및 인트론 포함)뿐만 아니라 유전자 산물의 생산을 조절하는 모든 DNA 영역을 지칭하고, 이런 조절 서열이 코딩 및/또는 전사된 서열에 인접하는 지의 여부는 상관이 없다. 따라서, 유전자는 프로모터 서열, 종결인자, 번역 조절 서열, 예를 들면, 리보솜 결합 부위 및 내부 리보솜 유입 부위, 인핸서, 사일런서, 인슐레이터, 경계 요소, 복제 기점, 매트릭스 부착 부위 및 좌위 제어 영역을 포함하지만 이들에 반드시 한정되지는 않는다.

용어 "이종성"은 관심되는 세포에 내인성이거나 또는 선천적이지 않은 실체를 지칭한다. 가령, 이종성 단백질은 외인성 공급원, 예를 들면, 외인성으로 도입된 핵산 서열로부터 유래되거나 또는 이것으로부터 최초 유래되었던 단백질을 지칭한다. 일부 경우에, 이종성 단백질은 관심되는 세포에 의해 정상적으로 생산되지 않는다.

본원에서 이용된 바와 같이, 용어 "국부 염색질 구조" 또는 "국부 염색질 형상"은 뉴클레오솜 구조 및/또는 히스톤 단백질 스페이싱을 지칭하고, 그리고 일반적으로, 뉴클레오솜의 염색질 섬유 및 이질염색질로의 압밀을 지칭하지 않는다.

용어 "틈내기효소"는 이중 가닥 핵산 서열 중에서 한쪽 가닥을 개열하는 (다시 말하면, 이중 가닥 서열의 틈내기를 하는) 효소를 지칭한다. 가령, 이중 가닥 개열 활성을 갖는 뉴클레아제는 틈내기효소로서 기능하고 이중 가닥 서열 중에서 단지 한쪽 가닥만을 개열하기 위해 돌연변이 및/또는 결실에 의해 변형될 수 있다.

본원에서 이용된 바와 같이, 용어 "뉴클레아제"는 이중 가닥 핵산 서열의 양쪽 가닥을 개열하는 효소를 지칭한다.

용어 "핵산" 및 "폴리뉴클레오티드"는 선형 또는 환상 입체형태에서, 그리고 단일- 또는 이중 가닥 형태에서 데옥시리보뉴클레오티드 또는 리보뉴클레오티드 중합체를 지칭한다. 본 발명의 목적으로, 이들 용어는 중합체의 길이에 대하여 한정하는 것으로 해석되지 않는다. 이들 용어는 자연 뉴클레오티드의 공지된 유사체뿐만 아니라 염기, 당 및/또는 인산염 모이어티 (가령, 포스포로티오에이트 중추)에서 변형되는 뉴클레오티드를 포괄할 수 있다. 일반적으로, 특정 뉴클레오티드의 유사체는 동일한 염기 대합 특이성을 갖는다; 다시 말하면, A의 유사체는 T와 염기쌍을 이룰 것이다.

용어 "뉴클레오티드"는 데옥시리보뉴클레오티드 또는 리보뉴클레오티드를 지칭한다. 뉴클레오티드는 표준 뉴클레오티드 (다시 말하면, 아데노신, 구아노신, 시티딘, 티미딘 및 우리딘), 뉴클레오티드 이성질체, 또는 뉴클레오티드 유사체일 수 있다. 뉴클레오티드 유사체는 변형된 퓨린 또는 피리미딘 염기 또는 변형된 리보오스 모이어티를 갖는 뉴클레오티드를 지칭한다. 뉴클레오티드 유사체는 자연발생 뉴클레오티드 (가령, 이노신, 슈도우리딘 등) 또는 비자연발생 뉴클레오티드일 수 있다. 뉴클레오티드의 당 또는 염기 모이어티에서 변형의 무제한적 실례는 아세틸 기, 아미노 기, 카르복실 기, 카르복시메틸 기, 히드록실 기, 메틸 기, 포스포릴 기 및 티올 기의 부가 (또는 제거)뿐만 아니라 다른 원자로 염기의 탄소 및 질소 원자의 치환 (가령, 7-데아자 퓨린)을 포함한다. 뉴클레오티드 유사체는 또한, 디데옥시 뉴클레오티드, 2'-O-메틸 뉴클레오티드, 잠금된 핵산 (LNA), 펩티드 핵산 (PNA) 및 모르폴리노를 포함한다.

용어 "폴리펩티드" 및 "단백질"은 아미노산 잔기의 중합체를 지칭하기 위해 교체가능하게 이용된다.

본원에서 이용된 바와 같이, 용어 "근위 부위"는 염색체 DNA 내에 표적 서열의 어느 한쪽 측면 상에서 약 250개 염기쌍 내에 위치되는 결합 부위 또는 뉴클레오티드 서열을 지칭한다.

본원에서 이용된 바와 같이, 용어 "프로그램가능 DNA 변형 단백질"은 염색체 DNA 내에 특정한 표적 서열에 결합하도록 가공되고, 그리고 표적 서열에서 또는 표적 서열 인근에서 상기 DNA 또는 상기 DNA와 연관된 단백질(들)을 변형하는 단백질을 지칭한다.

본원에서 이용된 바와 같이, 용어 "프로그램가능 DNA 결합 단백질"은 염색체 DNA 내에 특정한 표적 서열에 결합하도록 가공되는 단백질을 지칭하지만, 상기 단백질은 표적 서열에서 또는 표적 서열 인근에서 상기 DNA 또는 상기 DNA와 연관된 단백질(들)을 변형하지 않는다.

용어 "표적 서열," "표적 염색체 서열" 및 "표적 부위"는 프로그램가능 DNA 변형 단백질이 표적화되는 염색체 DNA 내에 특정한 서열, 그리고 프로그램가능 DNA 변형 단백질이 상기 DNA 또는 상기 DNA와 연관된 단백질(들)을 변형하는 부위를 지칭하기 위해 교체가능하게 이용된다.

핵산 및 아미노산 서열 동일성을 결정하기 위한 기술은 당해 분야에서 공지된다. 전형적으로, 이런 기술은 유전자에 대한 mRNA의 뉴클레오티드 서열을 결정하고 및/또는 그에 따라서 인코딩된 아미노산 서열을 결정하고, 그리고 이들 서열을 두 번째 뉴클레오티드 또는 아미노산 서열과 비교하는 것을 포함한다. 유전체 서열 역시 이러한 방식으로 결정되고 비교될 수 있다. 일반적으로, 동일성은 2개의 폴리뉴클레오티드 또는 폴리펩티드 서열 각각의 정확한 뉴클레오티드-대-뉴클레오티드 또는 아미노산-대-아미노산 상응을 지칭한다. 2개 또는 그 이상의 서열 (폴리뉴클레오티드 또는 아미노산)은 그들의 동일성 퍼센트를 결정함으로써 비교될 수 있다. 핵산 또는 아미노산 서열인 지에 상관없이, 두 서열의 동일성 퍼센트는 더욱 짧은 서열의 길이에 의해 나눗셈되고 100에 의해 곱셈된, 2개의 정렬된 서열 사이에 정확한 정합의 숫자이다. 핵산 서열에 대한 근사 정렬은 Smith and Waterman, Advances in Applied Mathematics 2:482-489 (1981)의 국부 상동성 알고리즘에 의해 제공된다. 이러한 알고리즘은 Dayhoff, Atlas of Protein Sequences and Structure, M. O. Dayhoff ed., 5 suppl. 3:353-358, National Biomedical Research Foundation, Washington, D.C., USA에 의해 개발되고, 그리고 Gribskov, Nucl. Acids Res. 14(6):6745-6763 (1986)에 의해 정규화된 채점 매트릭스를 이용함으로써 아미노산 서열에 적용될 수 있다. 서열의 동일성 퍼센트를 결정하기 위한 이러한 알고리즘의 예시적인 실행은 Genetics Computer Group (Madison, Wis.)에 의해 "BestFit" 유틸리티 응용프로그램에서 제공된다. 서열 사이에 동일성 또는 유사성 퍼센트를 계산하기 위한 다른 적합한 프로그램은 당해 분야에서 전반적으로 공지되어 있다, 예를 들면, 다른 정렬 프로그램은 디폴트 파라미터에서 이용된 BLAST이다. 가령, BLASTN 및 BLASTP가 다음의 디폴트 파라미터에서 이용될 수 있다: 유전자 코드 = 표준; 필터 = 없음; 가닥 = 양쪽; 컷오프 = 60; 기대 = 10; 매트릭스 = BLOSUM62; 설명 = 50 서열; 분류 = 높은 점수; 데이터베이스 = 비다중, GenBank+EMBL+DDBJ+PDB+GenBank CDS 번역+Swiss 단백질+Spupdate+PIR. 이들 프로그램의 상세는 GenBank 웹사이트에서 발견될 수 있다.

전술한 세포와 방법에서 다양한 변화가 발명의 범위로부터 벗어나지 않으면서 만들어질 수 있기 때문에, 상기 설명에서 내포되고 아래의 실시예에서 제공된 모든 물질은 제한하는 의미가 아닌 예시적인 것으로 해석되어야 하는 것으로 의도된다.

열거된 구체예

다음의 열거된 구체예는 본 발명의 일정한 양상을 예시하기 위해 제시되고, 그리고 이의 범위를 한정하는 것으로 의도되지 않는다.

1. (a) 프로그램가능 DNA 변형 단백질 또는 상기 프로그램가능 DNA 변형 단백질을 인코딩하는 핵산 및 (b) 최소한 하나의 프로그램가능 DNA 결합 단백질 또는 상기 최소한 하나의 프로그램가능 DNA 결합 단백질을 인코딩하는 핵산을 포함하는 조성물.

2. 구체예 1의 조성물, 여기서 프로그램가능 DNA 변형 단백질은 RNA-안내된 군집된 규칙적으로 산재된 짧은 회귀성 반복 (CRISPR)/CRISPR-연관된 (Cas) (CRISPR/Cas) 뉴클레아제 시스템, CRISPR/Cas 이중 틈내기효소 시스템, 아연 핑거 뉴클레아제 (ZFN), 전사 활성인자-유사 작동체 뉴클레아제 (TALEN), 메가뉴클레아제, 뉴클레아제 도메인에 연결된 프로그램가능 DNA 결합 도메인을 포함하는 융합 단백질, 또는 비-뉴클레아제 도메인에 연결된 프로그램가능 DNA 결합 도메인을 포함하는 융합 단백질이다.

3. 구체예 2의 조성물, 여기서 융합 단백질의 프로그램가능 DNA 결합 도메인은 촉매적으로 비활성 CRISPR/Cas 시스템, 촉매적으로 비활성 메가뉴클레아제, 아연 핑거 단백질, 또는 전사 활성인자-유사 작동체이다.

4. 구체예 2 또는 3의 조성물, 여기서 융합 단백질의 비-뉴클레아제 도메인은 아세틸전달효소 활성, 탈아세틸화효소 활성, 메틸전달효소 활성, 탈메틸효소 활성, 키나아제 활성, 포스파타아제 활성, 유비퀴틴 리가아제 활성, 탈유비퀴틴화 활성, 아데닐화 활성, 탈아데닐화 활성, 수모화 활성, 탈수모화 활성, 리보실화 활성, 탈리보실화 활성, 미리스토일화 활성, 탈미리스토일화 활성, 시트룰린화 활성, 헬리카아제 활성, 아미노화 활성, 탈아미노화 활성, 알킬화 활성, 탈알킬화 활성, 산화 활성, 전사 활성화 활성, 또는 전사 억제인자 활성을 갖는다.

5. 구체예 4의 조성물, 여기서 융합 단백질의 비-뉴클레아제 도메인은 시토신 탈아미노효소 활성, 히스톤 아세틸전달효소 활성, 전사 활성화 활성, 또는 전사 억제인자 활성을 갖는다.

6. 구체예 1 내지 5 중에서 한 가지의 조성물, 여기서 최소한 하나의 프로그램가능 DNA 결합 단백질은 촉매적으로 비활성 CRISPR/Cas 단백질, 촉매적으로 비활성 메가뉴클레아제, 아연 핑거 단백질, 전사 활성인자-유사 작동체, CRISPR/Cas 틈내기효소, ZFN 틈내기효소, TALEN 틈내기효소, 또는 메가뉴클레아제 틈내기효소이다.

7. 구체예 1 내지 6 중에서 한 가지의 조성물, 여기서 프로그램가능 DNA 변형 단백질 및 최소한 하나의 프로그램가능 DNA 결합 단백질을 인코딩하는 핵산은 RNA 또는 DNA이고 및/또는 여기서 상기 핵산은 플라스미드 벡터 또는 바이러스 벡터의 일부이다.

8. 구체예 1 내지 6 중에서 한 가지의 조성물, 여기서 프로그램가능 DNA 변형 단백질은 CRISPR/Cas 뉴클레아제 시스템, CRISPR/Cas 이중 틈내기효소 시스템, 또는 비-뉴클레아제 도메인에 연결된 촉매적으로 비활성 CRISPR/Cas 시스템이고, 그리고 최소한 하나의 프로그램가능 DNA 결합 단백질은 촉매적으로 비활성 CRISPR/Cas 시스템이고, 여기서 각 CRISPR/Cas 시스템은 CRISPR/Cas 단백질 및 안내 RNA를 포함한다.

9. 구체예 8의 조성물, 여기서 각 CRISPR/Cas 뉴클레아제 시스템은 I형 CRISPR/Cas 시스템, II형 CRISPR/Cas 시스템, III형 CRISPR/Cas 시스템, 또는 V형 CRISPR/Cas 시스템이다.

10. 구체예 9의 조성물, 여기서 각 CRISPR/Cas 뉴클레아제 시스템은 II형 CRISPR/Cas 시스템 또는 V형 CRISPR/Cas 시스템이다.

11. 구체예 8 내지 10 중에서 한 가지의 조성물, 여기서 각 CRISPR/Cas 단백질을 인코딩하는 핵산은 mRNA 또는 DNA이다.

12. 구체예 8 내지 11 중에서 한 가지의 조성물, 여기서 각 CRISPR/Cas 단백질을 인코딩하는 핵산 및/또는 각 안내 RNA를 인코딩하는 핵산은 플라스미드 벡터 또는 바이러스 벡터의 일부이다.

13. 구체예 8 내지 11 중에서 한 가지의 조성물, 여기서 각 CRISPR/Cas 시스템의 안내 RNA는 효소적으로 합성된다.

14. 구체예 8 내지 11 중에서 한 가지의 조성물, 여기서 각 CRISPR/Cas 시스템의 안내 RNA는 최소한 부분적으로 화학적으로 합성된다.

15. 구체예 1 내지 14 중에서 한 가지의 조성물을 포함하는 키트.

16. 진핵 세포에서 표적화된 유전체 변형 효율 및/또는 특이성을 증가시키기 위한 방법, 상기 방법은

(a) 프로그램가능 DNA 변형 단백질 또는 상기 프로그램가능 DNA 변형 단백질을 인코딩하는 핵산 및;

(b) 최소한 하나의 프로그램가능 DNA 결합 단백질 또는 상기 최소한 하나의 프로그램가능 DNA 결합 단백질을 인코딩하는 핵산을 진핵 세포 내로 도입하는 것을 포함하고;

여기서 프로그램가능 DNA 변형 단백질은 표적 염색체 서열에 표적화되고, 그리고 최소한 하나의 프로그램가능 DNA 결합 단백질 각각은 표적 염색체 서열의 근위 부위에 표적화되고, 그리고 표적 염색체 서열의 근위 부위에 최소한 하나의 프로그램가능 DNA 결합 단백질의 결합은 표적 염색체 서열에 대한 프로그램가능 DNA 변형 단백질의 접근성을 증가시키고, 따라서 표적화된 유전체 변형 효율 및/또는 특이성을 증가시킨다.

17. 구체예 16의 방법, 여기서 표적 염색체 서열의 근위 부위는 표적 염색체 서열의 어느 한쪽 측면 상에서 약 250개 염기쌍 내에 위치된다.

18. 구체예 17의 방법, 여기서 표적 염색체 서열의 근위 부위는 표적 염색체 서열의 어느 한쪽 측면 상에서 약 100개 염기쌍 내에 위치된다.

19. 구체예 18의 방법, 여기서 표적 염색체 서열의 근위 부위는 표적 염색체 서열의 어느 한쪽 측면 상에서 약 75개 염기쌍 내에 위치된다.

20. 구체예 19의 방법, 여기서 표적 염색체 서열의 근위 부위는 표적 염색체 서열의 어느 한쪽 측면 상에서 약 50개 염기쌍 내에 위치된다.

21. 구체예 20의 방법, 여기서 표적 염색체 서열의 근위 부위는 표적 염색체 서열의 어느 한쪽 측면 상에서 약 25개 염기쌍 내에 위치된다.

22. 구체예 16 내지 21 중에서 한 가지의 방법, 여기서 프로그램가능 DNA 변형 단백질은 CRISPR/Cas 뉴클레아제 시스템, CRISPR/Cas 이중 틈내기효소 시스템, 아연 핑거 뉴클레아제 (ZFN), 전사 활성인자-유사 작동체 뉴클레아제 (TALEN), 메가뉴클레아제, 뉴클레아제 도메인에 연결된 프로그램가능 DNA 결합 도메인을 포함하는 융합 단백질, 또는 비-뉴클레아제 도메인에 연결된 프로그램가능 DNA 결합 도메인을 포함하는 융합 단백질이다.

23. 구체예 22의 방법, 여기서 융합 단백질의 프로그램가능 DNA 결합 도메인은 촉매적으로 비활성 CRISPR/Cas 시스템, 촉매적으로 비활성 메가뉴클레아제, 아연 핑거 단백질, 또는 전사 활성인자-유사 작동체이다.

24. 구체예 22 또는 23의 방법, 여기서 융합 단백질의 비-뉴클레아제 변형 도메인은 아세틸전달효소 활성, 탈아세틸화효소 활성, 메틸전달효소 활성, 탈메틸효소 활성, 키나아제 활성, 포스파타아제 활성, 유비퀴틴 리가아제 활성, 탈유비퀴틴화 활성, 아데닐화 활성, 탈아데닐화 활성, 수모화 활성, 탈수모화 활성, 리보실화 활성, 탈리보실화 활성, 미리스토일화 활성, 탈미리스토일화 활성, 시트룰린화 활성, 헬리카아제 활성, 아미노화 활성, 탈아미노화 활성, 알킬화 활성, 탈알킬화 활성, 산화 활성, 전사 활성화 활성, 또는 전사 억제인자 활성을 갖는다.

25. 구체예 24의 방법, 여기서 융합 단백질의 비-뉴클레아제 도메인은 시토신 탈아미노효소 활성, 히스톤 아세틸전달효소 활성, 전사 활성화 활성, 또는 전사 억제인자 활성을 갖는다.

26. 구체예 16 내지 25 중에서 한 가지의 방법, 여기서 최소한 하나의 프로그램가능 DNA 결합 단백질은 촉매적으로 비활성 CRISPR/Cas 시스템, 촉매적으로 비활성 메가뉴클레아제, 아연 핑거 단백질, 전사 활성인자-유사 작동체, CRISPR/Cas 틈내기효소, ZFN 틈내기효소, TALEN 틈내기효소, 또는 메가뉴클레아제 틈내기효소이다.

27. 구체예 16 내지 26 중에서 한 가지의 방법, 여기서 프로그램가능 DNA 변형 단백질은 CRISPR/Cas 뉴클레아제 시스템, CRISPR/Cas 이중 틈내기효소 시스템, 또는 비-뉴클레아제 도메인에 연결된 촉매적으로 비활성 CRISPR/Cas 시스템이고, 그리고 최소한 하나의 프로그램가능 DNA 결합 단백질은 촉매적으로 비활성 CRISPR/Cas 시스템이고, 여기서 각 CRISPR/Cas 시스템은 CRISPR/Cas 단백질 및 안내 RNA를 포함한다.

28. 구체예 27의 방법, 여기서 각 CRISPR/Cas 시스템의 안내 RNA는 최소한 부분적으로 화학적으로 합성된다.

29. 구체예 27의 방법, 여기서 각 CRISPR/Cas 시스템의 안내 RNA는 효소적으로 합성된다.

30. 구체예 16 내지 29 중에서 한 가지의 방법, 여기서 진핵 세포는 시험관내이다.

31. 구체예 16 내지 29 중에서 한 가지의 방법, 여기서 진핵 세포는 생체내이다.

32. 구체예 16 내지 31 중에서 한 가지의 방법, 여기서 진핵 세포는 포유류 세포이다.

33. 구체예 32의 방법, 여기서 포유류 세포는 인간 세포이다.

34. 구체예 32의 방법, 여기서 포유류 세포는 비인간 세포이다.

35. 진핵 세포에서 염색체 서열을 검출하기 위한 방법, 상기 방법은 다음 단계를 포함한다:

I. (a) 최소한 하나의 검출가능한 마커 도메인을 포함하는 프로그램가능 DNA 결합 단백질 또는 최소한 하나의 검출가능한 마커 도메인을 포함하는 상기 프로그램가능 DNA 결합 단백질을 인코딩하는 핵산 및 (b) 최소한 하나의 프로그램가능 DNA 결합 단백질 또는 상기 최소한 하나의 프로그램가능 DNA 결합 단백질을 인코딩하는 핵산을 진핵 세포 내로 도입하고, 여기서 최소한 하나의 검출가능한 마커 도메인을 포함하는 프로그램가능 DNA 결합 단백질은 표적 염색체 서열에 표적화되고, 그리고 최소한 하나의 프로그램가능 DNA 결합 단백질 각각은 표적 염색체 서열의 근위 부위에 표적화되고, 그리고 표적 염색체 서열의 근위 부위에 최소한 하나의 프로그램가능 DNA 결합 단백질의 결합은 표적 염색체 서열에 대한 최소한 하나의 검출가능한 마커 도메인을 포함하는 프로그램가능 DNA 결합 단백질의 접근성을 증가시키고; 그리고

II. 표적 염색체 서열에 결합된 최소한 하나의 검출가능한 마커 도메인을 포함하는 프로그램가능 DNA 결합 단백질을 검출한다.

36. 구체예 35의 방법, 여기서 표적 염색체 서열의 근위 부위는 표적 염색체 서열의 어느 한쪽 측면 상에서 약 250개 염기쌍 내에 위치된다.

37. 구체예 36의 방법, 여기서 표적 염색체 서열의 근위 부위는 표적 염색체 서열의 어느 한쪽 측면 상에서 약 100개 염기쌍 내에 위치된다.

38. 구체예 37의 방법, 여기서 표적 염색체 서열의 근위 부위는 표적 염색체 서열의 어느 한쪽 측면 상에서 약 75개 염기쌍 내에 위치된다.

39. 구체예 38의 방법, 여기서 표적 염색체 서열의 근위 부위는 표적 염색체 서열의 어느 한쪽 측면 상에서 약 50개 염기쌍 내에 위치된다.

40. 구체예 39의 방법, 여기서 표적 염색체 서열의 근위 부위는 표적 염색체 서열의 어느 한쪽 측면 상에서 약 25개 염기쌍 내에 위치된다.

41. 구체예 35 내지 40 중에서 한 가지의 방법, 여기서 최소한 하나의 검출가능한 마커 도메인을 포함하는 프로그램가능 DNA 결합 단백질의 최소한 하나의 검출가능한 마커 도메인은 형광 단백질, 형광 태그, 에피토프 태그, 또는 프로그램가능 DNA 결합 단백질 내에 자연발생 에피토프이다.

42. 구체예 35 내지 41 중에서 한 가지의 방법, 여기서 최소한 하나의 검출가능한 마커 도메인을 포함하는 프로그램가능 DNA 결합 단백질은 최소한 하나의 검출가능한 마커 도메인에 연결된 촉매적으로 비활성 CRISPR/Cas 시스템, 최소한 하나의 검출가능한 마커 도메인에 연결된 촉매적으로 비활성 메가뉴클레아제, 최소한 하나의 검출가능한 마커 도메인에 연결된 아연 핑거 단백질, 또는 최소한 하나의 검출가능한 마커 도메인에 연결된 전사 활성인자-유사 작동체이다.

43. 구체예 35 내지 42 중에서 한 가지의 방법, 여기서 최소한 하나의 프로그램가능 DNA 결합 단백질은 촉매적으로 비활성 CRISPR/Cas 시스템, 촉매적으로 비활성 메가뉴클레아제, 아연 핑거 단백질, 전사 활성인자-유사 작동체, CRISPR/Cas 틈내기효소, ZFN 틈내기효소, TALEN 틈내기효소, 또는 메가뉴클레아제 틈내기효소이다.

44. 구체예 35 내지 43 중에서 한 가지의 방법, 여기서 최소한 하나의 검출가능한 마커 도메인을 포함하는 프로그램가능 DNA 결합 단백질은 최소한 하나의 검출가능한 마커 도메인에 연결된 촉매적으로 비활성 CRISPR/Cas 시스템이고, 그리고 최소한 하나의 프로그램가능 DNA 결합 단백질은 촉매적으로 비활성 CRISPR/Cas 시스템이고, 여기서 각 CRISPR/Cas 시스템은 CRISPR/Cas 단백질 및 안내 RNA를 포함한다.

45. 구체예 44의 방법, 여기서 각 CRISPR/Cas 시스템의 안내 RNA는 최소한 부분적으로 화학적으로 합성된다.

46. 구체예 44의 방법, 여기서 각 CRISPR/Cas 시스템의 안내 RNA는 효소적으로 합성된다.

47. 구체예 35 내지 46 중에서 한 가지의 방법, 여기서 진핵 세포는 포유류 세포이다.

48. 구체예 47의 방법, 여기서 포유류 세포는 인간 세포이다.

49. 구체예 47의 방법, 여기서 포유류 세포는 비인간 세포이다.

50. 구체예 35 내지 49 중에서 한 가지의 방법, 여기서 진핵 세포는 살아있거나 또는 고정된다.

51. 구체예 35 내지 50 중에서 한 가지의 방법, 여기서 검출은 동적 생존 세포 영상화, 형광 현미경검사, 공초점 현미경검사, 면역형광, 면역검출, RNA-단백질 결합, 또는 단백질-단백질 결합을 포함한다.

실시예

다음 실시예는 본 발명의 일정한 양상을 예시한다.

실시예 1. 프란시엘라 노비시다 (Francisella novicida ) CRISPR-Cas9 (FnCas9) 유전자 편집 증강

FnCas9는 IIB형 CRISPR-Cas9이다. 이것은 널리 이용되는 SpCas9보다 더욱 높은 고유한 특이성을 전시하긴 하지만, 인간 세포에서 SpCas9보다 덜 견실한 것으로 밝혀졌다. 근위 부위에 프로그램가능 DNA 결합 단백질의 결합이 상기 뉴클레아제가 인간 세포에서 만약 그렇지 않으면 접근불가능했던 표적 (다시 말하면, POR 좌위)을 개열할 수 있게 할 수 있는 지를 결정하기 위해, K562 세포가 1백만 개의 세포당 5.6 μg의 FnCas9 플라스미드 DNA, 5 μg의 촉매 활성이 없는 SpCas9 (SpdCas9) 플라스미드 DNA, 그리고 각 sgRNA의 3 μg의 플라스미드 DNA로 형질감염되었다 (도면 2를 참조한다). 유전체 DNA가 형질감염 후 3 일에 수확되었고, 그리고 표적 영역이 전방 프라이머 5'-CTCCCCTGCTTCTTGTCGTAT-3' (서열 번호:9) 및 후방 프라이머 5'-ACAGGTCGTGGACACTCACA-3' (서열 번호:10)을 이용한 PCR에 의해 증폭되었다. 표적 상에서 FnCas9에 의한 표적화된 삽입/결실 (삽입-결실)은 Cel-I 뉴클레아제 소화 및 폴리아크릴아미드 겔 분석에 의해 결정되었다.

도면 2에서 보여 지는 바와 같이, FnCas9는 단독으로 형질감염될 때 표적을 개열할 수 없었다. 하지만, 국부 염색질 형상을 파괴하는데 도움을 주는 SpdCas9와 조합으로 형질감염될 때, FnCas9는 견실한 수준에서 표적을 개열할 수 있었는데, SpdCas9가 하나의 근위 부위에 결합하는데 이용될 때 10-11%의 삽입-결실이 달성되었다. SpdCas9가 2개의 근위 부위에 결합하는데 이용될 때, FnCas9 활성은 28%의 삽입-결실까지 더욱 증가하였다. 이들 결과는 본원에서 개시된 방법은 엔도뉴클레아제가 만약 그렇지 않으면 접근불가능했던 표적을 효율적으로 개열하게 할 수 있게 하고, 그리고 국부 염색질 형상을 파괴하는데 있어서 이용된 두 부위 사이에 상승 효과가 있다는 것을 증명한다.

실시예 2. 캄필로박터 제주니 ( Campylobacter jejuni ) CRISPR-Cas9 (CjCas9) 유전자 편집 증강

CjCas9는 IIC형 CRISPR-Cas9이다. 이것은 지금까지 특징이 확인된 가장 작은 Cas9이고, 그리고 독특한 ACAY PAM 요건을 갖는다. 하지만, 상기 뉴클레아제는 인간 세포에서 대부분의 표적에서 비활성인 것으로 밝혀졌다. 본원에서 개시된 방법이 CjCas9 단백질이 인간 세포에서 접근불가능했던 표적에 결합할 수 있게 할 수 있는 지를 결정하기 위해, K562 세포가 1백만 개의 세포당 4.2 μg의 Flag-태깅된 촉매 활성이 없는 CjCas9 (CjdCas9) 플라스미드 DNA, 5 μg의 촉매 활성이 없는 SpCas9 (SpdCas9) 플라스미드 DNA, 그리고 각 sgRNA의 3 μg의 플라스미드 DNA로 형질감염되었다 (도면 3a를 참조한다). 세포는 형질감염 후 16 시간에 포름알데히드에서 고정되었고, 그리고 염색질 면역침전 (ChIP)이 항-플래그 항체를 이용하여 실행되었다. Flag-CjdCas9에 의한 표적 결합은 비말 디지털 PCR (ddPCR)에 의해 결정되었다.

도면 3c에서 보여 지는 바와 같이, Flag-CjdCas9는 단독으로 형질감염될 때, AAVS1 좌위 내에 이전에 공지되었던 접근가능한 표적에는 결합할 수 있었지만, POR 좌위 내에 접근불가능했던 표적에는 결합할 수 없었다. 하지만, Flag-CjdCas9는 국부 염색질 형상을 파괴하는 SpdCas9와 조합으로 형질감염될 때, AAVS1 표적에 결합보다 훨씬 효율적으로 POR 표적에 결합할 수 있었다.

표적 DNA 개열에 대한 효과를 조사하기 위해, K562 세포가 1백만 개의 세포당 4.2 μg의 CjCas9 플라스미드 DNA, 5 μg의 SpdCas9 플라스미드 DNA, 그리고 각 sgRNA의 3 μg의 플라스미드 DNA로 형질감염되었다. 유전체 DNA가 형질감염 후 3 일에 수확되었고, 그리고 표적 영역이 전방 프라이머 5'-CTCCCCTGCTTCTTGTCGTAT-3' (서열 번호:9) 및 후방 프라이머 5'-ACAGGTCGTGGACACTCACA-3' (서열 번호:10)을 이용한 PCR에 의해 증폭되었다. POR 표적에서 CjCas9 개열 활성은 Cel-I 뉴클레아제 소화 및 폴리아크릴아미드 겔 분석에 의해 결정되었다. 도면 4에서 보여 지는 바와 같이, CjCas9는 SpdCas9 없이 표적을 개열할 수 없었다. 하지만, CjCas9는 SpdCas9와 조합으로 형질감염될 때, 34.1-37.9%의 삽입-결실로 표적을 효율적으로 개열할 수 있었다. 이들 결과는 본원에서 개시된 방법은 뉴클레아제가 만약 그렇지 않으면 접근불가능했던 표적에 결합하고 이를 효율적으로 개열할 수 있게 할 수 있다는 것을 증명한다.

실시예 3. 프란시엘라 노비시다 ( Francisella novicida ) Cpf1 (FnCpf1) 유전자 편집 증강

FnCpf1은 V형 CRISPR-Cas 시스템이다. Cpf1 시스템은 II형 CRISPR-Cas9 시스템과 유의미하게 다르다. Cas9 시스템과 달리, Cpf1 시스템은 tracrRNA 없이, 표적화를 위해 5' T 풍부한 PAM 및 단일 RNA 안내를 이용한다 (Zetsche et al., Cell, 2015, 163:1-13). 이들 "더욱 새로운" CRISPR 시스템은 유전자 편집 실시를 훨씬 단순하게 만드는 잠재력이 있긴 하지만, 많은 Cpf1 시스템은 인간 세포에서 비활성인 것으로 밝혀졌다. 본원에서 개시된 방법이 분기한 "비활성" Cpf1 뉴클레아제가 인간 세포에서 내인성 표적을 개열할 수 있게 할 수 있는 지를 결정하기 위해, K562 세포가 1백만 개의 세포당 5 μg의 FnCpf1 플라스미드 DNA, 5 μg의 SpdCas9 플라스미드 DNA, 그리고 각 sgRNA의 3 μg의 플라스미드 DNA로 형질감염되었다 (도면 5를 참조한다). 유전체 DNA가 형질감염 후 3 일에 수확되었고, 그리고 표적 영역이 전방 프라이머 5'-CTCCCCTGCTTCTTGTCGTAT-3' (서열 번호:9) 및 후방 프라이머 5'-ACAGGTCGTGGACACTCACA-3' (서열 번호:10)을 이용한 PCR에 의해 증폭되었다. POR 표적에서 FnCpf1 개열 활성은 Cel-I 뉴클레아제 소화 및 폴리아크릴아미드 겔 분석에 의해 결정되었다.

도면 5에서 보여 지는 바와 같이, FnCpf1은 단독으로 형질감염될 때 표적을 개열할 수 없었지만, SpdCas9와 조합으로 형질감염될 때 표적을 효율적으로 개열할 수 있었다. 이들 결과는 본원에서 개시된 방법이 분기한 V형 CRISPR-Cas 시스템에 적용가능하다는 것을 증명한다.

실시예 4. 인간 HBB 및 HBD에서 동일한 표적 사이에 선택적 편집

본원에서 개시된 방법이 상이한 유전자에서 동일한 부위 사이에 선택적 편집을 용이하게 할 수 있는 지를 결정하기 위해, 인간에서 2개의 동일한 표적 (다시 말하면, HBB 및 HBD)이 이용되었다. K562 세포가 1백만 개의 세포당 4.2 μg의 CjCas9 플라스미드 DNA, 5 μg의 SpdCas9 플라스미드 DNA, 그리고 각 sgRNA의 3 μg의 플라스미드 DNA로 형질감염되었다 (도면 6을 참조한다). 유전체 DNA가 형질감염 후 3 일에 수확되었고, 그리고 이들 2개 표적 영역이 HBB의 경우에 전방 프라이머 5'-CGGCTGTCATCACTTAGACCTCA-3' (서열 번호:11) 및 후방 프라이머 5'-GCAGCCTAAGGGTGGGAAAATAGA-3' (서열 번호:12), 그리고 HBD의 경우에 전방 프라이머 5'-AGGGCAAGTTAAGGGAATAGTGGAA-3' (서열 번호:13) 및 후방 프라이머 5'-CCAAGGGTAGACCACCAGTAATCTG-3' (서열 번호:14)을 이용한 PCR에 의해 증폭되었다. HBB 및 HBD 표적에서 CjCas9 개열 활성은 Cel-I 뉴클레아제 소화 및 폴리아크릴아미드 겔 분석에 의해 결정되었다.

도면 6에서 보여 지는 바와 같이, CjCas9는 단독으로 형질감염될 때, 어느 표적도 개열할 수 없었다. 하지만, CjCas9는 HBB의 근위 부위에 표적화된 SpdCas9와 조합으로 형질감염될 때, HBB 표적을 효율적으로 개열하지만 동일한 HBD 표적을 여전히 개열할 수 없었다. 첫 2개 레인에서 2개의 Cel-I 뉴클레아제 소화 띠는 K562 세포 개체군에서 존재하는 SNPs에 의해 유발되었다. 이들 결과는 유전자 편집 선택성을 향상시키는 개시된 방법의 독특한 능력을 증명한다.

실시예 5. 스트렙토코쿠스 피오게네스 ( Streptococcus pyogenes ) CRISPR-Cas9 (SpCas9) 유전자 편집 증강

SpCas9는 IIA형 CRISPR-Cas9이고, 그리고 진핵 세포에서 견실한 활성으로 인해 유전체 변형에서 폭넓게 이용되었다. 하지만, 이의 활성 역시 표적마다 폭넓게 변할 수 있다. 본원에서 개시된 방법이 이러한 뉴클레아제를 또한 증강할 수 있는 지를 결정하기 위해, K562 세포가 1백만 개의 세포당 5 μg의 SpCas9 플라스미드 DNA, 5.6 μg의 촉매 활성이 없는 FnCas9 (FndCas9), 그리고 각 sgRNA의 3 μg의 플라스미드 DNA로 형질감염되었다 (도면 7을 참조한다). 유전체 DNA가 형질감염 후 3 일에 수확되었고, 그리고 표적 영역이 전방 프라이머 5'- CTCCCCTGCTTCTTGTCGTAT-3' (서열 번호:9) 및 후방 프라이머 5'- ACAGGTCGTGGACACTCACA-3' (서열 번호:10)을 이용한 PCR에 의해 증폭되었다. POR 표적에서 SpCas9 개열 활성은 Cel-I 뉴클레아제 소화 및 폴리아크릴아미드 겔 분석에 의해 결정되었다.

도면 7에서 보여 지는 바와 같이, SpCas9 개열 활성은 이것이 단독으로 형질감염될 때와 비교하여, 이것이 FndCas9와 조합으로 형질감염될 때 유의미하게 증가하였다. 이들 결과는 본원에서 개시된 방법이 견실한 엔도뉴클레아제에도 적용될 수 있다는 것을 보여준다.

실시예 6. ssDNA 올리고 공여자를 이용한 유전자 편집의 증강

K562 세포가 1백만 개의 세포당 4.2 μg의 CjCas9 플라스미드 DNA, 5 μg의 SpdCas9 플라스미드 DNA, 각 sgRNA의 3 μg의 플라스미드 DNA, 그리고 EcoRI 제한 부위의 표적화된 통합을 위한 300 pmol의 88-nt ssDNA 올리고 공여자로 형질감염되었다. 유전체 DNA가 형질감염 후 3 일에 수확되었고, 그리고 표적 영역이 전방 프라이머 5'-CTCCCCTGCTTCTTGTCGTAT-3' (서열 번호:9) 및 후방 프라이머 5'-ACAGGTCGTGGACACTCACA-3' (서열 번호:10)을 이용한 PCR에 의해 증폭되었다. EcoRI 제한 부위의 표적화된 통합은 EcoRI 제한 효소로 소화 및 폴리아크릴아미드 겔 분석에 의해 결정되었다. 도면 8에서 보여 지는 바와 같이, 제한 부위는 ssDNA 올리고 공여자가 CjCas9 및 SpdCas9와 협력하여 형질감염될 때 POR 좌위 내에 효율적으로 (28-37%) 통합되었고, 반면 상기 올리고 공여자가 단독으로, 또는 SpdCas9 없이 CjCas9와 조합으로 형질감염될 때에는 어떤 통합도 검출되지 않았다. 이들 결과는 본원에서 개시된 방법이 만약 그렇지 않으면 접근불가능했던 표적에서 ssDNA 올리고 공여자를 이용한 효율적인 유전자 편집을 용이하게 할 수 있다는 것을 증명한다.

실시예 7. 살아있는 세포 및 고정된 세포에서 서열 특이적 유전체 DNA 검출의 증강

형광 단백질에 Cas9 단백질의 융합은 생존 세포에서 염색체 동역학의 검출을 가능하게 하였다 (Chen et al., Cell, 2013, 155:1479-91). 이런 이유로, 염색질 구조 동역학은 다양한 유전체 좌위에 접근하는 CRISPR/Cas 시스템 복합체의 능력에 영향을 줄 것으로 생각된다. 따라서, dCas9-GFP를 품는 것들의 근위에 CRISPR (dCas9) 복합체의 배치는 염색질 면역침전에 대해 실시예 2에서 관찰된 것과 유사한 정도까지, 염색체 동역학의 검출을 증강하는 것으로 생각된다. 가령, CjdCas9는 GFP에 융합되고, 그리고 CjdCas9-GFP의 검출가능한 결합을 방해하는 염색질 상태를 갖는 영역에 표적화될 수 있다. SpdCas9-기초된 시스템은 이후, 검출가능한 신호가 발생하도록 CjdCas9-GFP 표적에 근접하게 설계될 수 있다. SpdCas9-GFP의 결합 및 검출에 저항하는 염색질 영역의 경우에, 근위 FndCas9 분자가 SpCas9와 FndCas9 근위 표적화 및 이중 가닥 절단 활성의 증강에 대해 실시예 5에서 도시된 것과 유사한 정도까지, 검출을 증강하는데 이용될 수 있다. 게다가, 이전 연구 (Wu et al., Nature Biotechnology, 2014, 32(7): 670-6)에서 CRISPR 안내 RNA 및 유전체 DNA 사이에 혼성화 요건의 정도가 이중 가닥 개열에 대해서 보다 결합에 대해 더욱 적을 수 있는 것으로 지시되었다는 점을 고려하면, 근위 CRISPR 결합의 이용은 세포에서 유전체 DNA의 검출에 대한 신호 대 잡음 비율을 증가시키는 것으로 생각된다.

유사한 CRISPR-기초된 검출 방법이 고정된 세포에 적용되었다 (Deng et al., Proc. Natl. Acad, Sci. USA, 2015, 112(38):11870-75). 따라서, 근위 CRISPR 표적화는 생존 세포에 대해 전술된 방식과 유사한 방식으로, 고정된 DNA의 검출을 증강할 것으로 생각된다. 고정된 세포 내에 유전체 DNA 가닥이 화학적으로 교차연결되기 때문에, 핵산 프로브의 혼성화에 의한 서열 정보의 규문은 전형적으로, 가닥을 충분히 분리하기 위해 열 또는 화학적 처리를 이용한 선처리 단계를 필요로 한다. 이런 이유로, 근위 CRISPR 표적화는 고정된 DNA가 더욱 접근가능하게 만들고, 그리고 고정된 세포의 열 또는 화학적 처리에 대한 정도 (또는 요건)을 감소시키는 것이 가능하다. 열 또는 화학적 처리의 제거는 생존 세포 생물학을 더욱 잘 반영하는 세포내 분자 구조의 진단적 프로토콜 단순화와 유지에서 이점을 제공하고, 그리고 이런 이유로, 더욱 많은 정보에 입각한 진단적 결과를 제공할 것이다.

실시예 8. 진핵 세포에서 CRISPR-기초된 유전자 활성화 및 억제의 증강

전사 조절 도메인에 Cas9 단백질의 융합은 표적화된 유전자 활성화 및 억제를 가능하게 하였다 (Konermann et al., Nature, 2014; 517(7536):583-8; Gilbert et al., Cell, 2014, 159(3):547-661). 염색질 구조 동역학은 다양한 유전체 좌위에 접근하고 활성화 또는 억제를 유도하는 CRISPR 복합체의 능력에 영향을 줄 것으로 생각된다. 따라서, 전사 조절 도메인에 융합된 dCas9를 품는 것들의 근위에 CRISPR (dCas9) 복합체의 배치는 염색질 면역침전에 대해 실시예 2에서 관찰된 것과 유사한 정도까지, 표적화된 유전자 조절을 증강하는 것으로 생각된다. SpdCas9-전사-조절인자에 의한 결합 및 변형에 저항하는 염색질 영역의 경우에, 근위 FndCas9 분자는 SpCas9와 FndCas9 근위 표적화 및 이중 가닥 절단 활성의 증강에 대해 실시예 5에서 도시된 것과 유사한 정도까지, 유전자 활성화 또는 억제를 증강하는데 이용될 수 있다.

실시예 9. 진핵 세포에서 CRISPR-기초된 후성 변형의 증강

후성 변형 도메인에 Cas9 단백질의 융합은 표적화된 후성적 염색체 변형, 예를 들면, p300에 의한 히스톤 아세틸화 또는 시토신 탈아미노효소에 의한 시토신 탈아미노화를 가능하게 하였다 (Hilton et al., Nat. Biotechnol; 2015, 33(5):510-7; Komor et al., Nature, 2016, 533(7603):420-4). 염색질 구조 동역학은 다양한 유전체 좌위에 접근하는 CRISPR 복합체의 능력에 영향을 줄 것으로 생각된다. 따라서, 후성적 조절제에 융합된 dCas9를 품는 것들의 근위에 CRISPR (dCas9) 복합체의 배치는 염색질 면역침전에 대해 실시예 2에서 관찰된 것과 유사한 정도까지, 염색체 DNA, 국부 단백질 또는 국부 RNA의 표적화된 후성 변형을 증강할 것이다. SpdCas9-epi-조절제에 의한 결합 및 변형에 저항하는 염색질 영역의 경우에, 근위 FndCas9 분자는 SpCas9와 FndCas9 근위 표적화 및 이중 가닥 절단 활성의 증강에 대해 실시예 5에서 도시된 것과 유사한 정도까지, 검출을 증강하는데 이용될 수 있다.

SEQUENCE LISTING <110> SIGMA-ALDRICH CO. LLC CHEN, Fuqiang <120> USING PROGRAMMABLE DNA BINDING PROTEINS TO ENHANCE TARGETED GENOME MODIFICATION <130> 047497-561365 <150> US 62/358,415 <151> 2016-07-05 <150> US 62/344,858 <151> 2016-06-02 <160> 49 <170> PatentIn version 3.5 <210> 1 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 1 Pro Lys Lys Lys Arg Lys Val 1 5 <210> 2 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 2 Pro Lys Lys Lys Arg Arg Val 1 5 <210> 3 <211> 16 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 3 Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys Lys Lys 1 5 10 15 <210> 4 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 4 Gly Arg Lys Lys Arg Arg Gln Arg Arg Arg Pro Pro Gln Pro Lys Lys 1 5 10 15 Lys Arg Lys Val 20 <210> 5 <211> 19 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 5 Pro Leu Ser Ser Ile Phe Ser Arg Ile Gly Asp Pro Pro Lys Lys Lys 1 5 10 15 Arg Lys Val <210> 6 <211> 24 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 6 Gly Ala Leu Phe Leu Gly Trp Leu Gly Ala Ala Gly Ser Thr Met Gly 1 5 10 15 Ala Pro Lys Lys Lys Arg Lys Val 20 <210> 7 <211> 27 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 7 Gly Ala Leu Phe Leu Gly Phe Leu Gly Ala Ala Gly Ser Thr Met Gly 1 5 10 15 Ala Trp Ser Gln Pro Lys Lys Lys Arg Lys Val 20 25 <210> 8 <211> 21 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 8 Lys Glu Thr Trp Trp Glu Thr Trp Trp Thr Glu Trp Ser Gln Pro Lys 1 5 10 15 Lys Lys Arg Lys Val 20 <210> 9 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 9 ctcccctgct tcttgtcgta t 21 <210> 10 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 10 acaggtcgtg gacactcaca 20 <210> 11 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 11 cggctgtcat cacttagacc tca 23 <210> 12 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 12 gcagcctaag ggtgggaaaa taga 24 <210> 13 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 13 agggcaagtt aagggaatag tggaa 25 <210> 14 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 14 ccaagggtag accaccagta atctg 25 <210> 15 <211> 101 <212> DNA <213> Homo sapiens <400> 15 cctttccagc attcgccagt acgagcttgt ggtccacacc gacatagatg cggccaaggt 60 gtacatgggg gagatgggcc ggctgaagag ctacgagaac c 101 <210> 16 <211> 101 <212> DNA <213> Homo sapiens <400> 16 ggttctcgta gctcttcagc cggcccatct cccccatgta caccttggcc gcatctatgt 60 cggtgtggac cacaagctcg tactggcgaa tgctggaaag g 101 <210> 17 <211> 105 <212> DNA <213> Homo sapiens <400> 17 ccgcttcccg gcctcaccct tggtctcccc tttccagcat tcgccagtac gagcttgtgg 60 tccacaccga catagatgcg gccaaggtgt acatggggga gatgg 105 <210> 18 <211> 105 <212> DNA <213> Homo sapiens <400> 18 ccatctcccc catgtacacc ttggccgcat ctatgtcggt gtggaccaca agctcgtact 60 ggcgaatgct ggaaagggga gaccaagggt gaggccggga agcgg 105 <210> 19 <211> 110 <212> DNA <213> Homo sapiens <400> 19 ccgcttcccg gcctcaccct tggtctcccc tttccagcat tcgccagtac gagcttgtgg 60 tccacaccga catagatgcg gccaaggtgt acatggggga gatgggccgg 110 <210> 20 <211> 110 <212> DNA <213> Homo sapiens <400> 20 ccggcccatc tcccccatgt acaccttggc cgcatctatg tcggtgtgga ccacaagctc 60 gtactggcga atgctggaaa ggggagacca agggtgaggc cgggaagcgg 110 <210> 21 <211> 117 <212> DNA <213> Homo sapiens <400> 21 tcgactgttg cttacacttt cttctgacat aacagtgttc actagcaacc tcaaacagac 60 accatggtgc atctgactcc tgaggagaag actgctgtca atgccctgtg gggcaaa 117 <210> 22 <211> 117 <212> DNA <213> Homo sapiens <400> 22 gaacggggtg tcccgtcatt gccgtctgaa gaggagtcct cagtctacgt ggtaccacag 60 acaaactcca acgatcactt gtgtcaacac agtcttcgtt tacattcgtt atctacc 117 <210> 23 <211> 142 <212> DNA <213> Homo sapiens <220> <221> misc_feature <222> (74)..(113) <223> n is a, c, g, or t <400> 23 tgtacatggg ggagatgggc cggctgaaga gctacgagaa ccagaagccg tgagtggagg 60 gagcgtggct tggnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnntctgccg 120 tgtatcccca tatccccaca gg 142 <210> 24 <211> 142 <212> DNA <213> Homo sapiens <220> <221> misc_feature <222> (30)..(69) <223> n is a, c, g, or t <400> 24 cctgtgggga tatggggata cacggcagan nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 60 nnnnnnnnnc caagccacgc tccctccact cacggcttct ggttctcgta gctcttcagc 120 cggcccatct cccccatgta ca 142 <210> 25 <211> 47 <212> DNA <213> Homo sapiens <400> 25 cagggatcct gtgtccccga gctgggacca ccttatattc ccagggc 47 <210> 26 <211> 47 <212> DNA <213> Homo sapiens <400> 26 gccctggcaa tataaggtgg tcccagctcg gggacacagg atccctg 47 <210> 27 <211> 88 <212> DNA <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 27 cacccttggt ctcccctttc cagcattcgc cagtacgagc gaattcttgt ggtccacacc 60 gacatagatg cggccaaggt gtacatgg 88 <210> 28 <211> 11 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 28 Tyr Gly Arg Lys Lys Arg Arg Gln Arg Arg Arg 1 5 10 <210> 29 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 29 Arg Lys Lys Arg Arg Gln Arg Arg Arg 1 5 <210> 30 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 30 Pro Ala Ala Lys Arg Val Lys Leu Asp 1 5 <210> 31 <211> 11 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 31 Arg Gln Arg Arg Asn Glu Leu Lys Arg Ser Pro 1 5 10 <210> 32 <211> 8 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 32 Val Ser Arg Lys Arg Pro Arg Pro 1 5 <210> 33 <211> 8 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 33 Pro Pro Lys Lys Ala Arg Glu Asp 1 5 <210> 34 <211> 8 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 34 Pro Gln Pro Lys Lys Lys Pro Leu 1 5 <210> 35 <211> 12 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 35 Ser Ala Leu Ile Lys Lys Lys Lys Lys Met Ala Pro 1 5 10 <210> 36 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 36 Pro Lys Gln Lys Lys Arg Lys 1 5 <210> 37 <211> 10 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 37 Arg Lys Leu Lys Lys Lys Ile Lys Lys Leu 1 5 10 <210> 38 <211> 10 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 38 Arg Glu Lys Lys Lys Phe Leu Lys Arg Arg 1 5 10 <210> 39 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 39 Lys Arg Lys Gly Asp Glu Val Asp Gly Val Asp Glu Val Ala Lys Lys 1 5 10 15 Lys Ser Lys Lys 20 <210> 40 <211> 17 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 40 Arg Lys Cys Leu Gln Ala Gly Met Asn Leu Glu Ala Arg Lys Thr Lys 1 5 10 15 Lys <210> 41 <211> 38 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 41 Asn Gln Ser Ser Asn Phe Gly Pro Met Lys Gly Gly Asn Phe Gly Gly 1 5 10 15 Arg Ser Ser Gly Pro Tyr Gly Gly Gly Gly Gln Tyr Phe Ala Lys Pro 20 25 30 Arg Asn Gln Gly Gly Tyr 35 <210> 42 <211> 42 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 42 Arg Met Arg Ile Glx Phe Lys Asn Lys Gly Lys Asp Thr Ala Glu Leu 1 5 10 15 Arg Arg Arg Arg Val Glu Val Ser Val Glu Leu Arg Lys Ala Lys Lys 20 25 30 Asp Glu Gln Ile Leu Lys Arg Arg Asn Val 35 40 <210> 43 <211> 11 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 43 Tyr Ala Arg Ala Ala Ala Arg Gln Ala Arg Ala 1 5 10 <210> 44 <211> 11 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 44 Thr His Arg Leu Pro Arg Arg Arg Arg Arg Arg 1 5 10 <210> 45 <211> 11 <212> PRT <213> Artificial Sequence <220> <223> SYNTHEISZED <400> 45 Gly Gly Arg Arg Ala Arg Arg Arg Arg Arg Arg 1 5 10 <210> 46 <211> 12 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 46 Arg Arg Gln Arg Arg Thr Ser Lys Leu Met Lys Arg 1 5 10 <210> 47 <211> 27 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 47 Gly Trp Thr Leu Asn Ser Ala Gly Tyr Leu Leu Gly Lys Ile Asn Leu 1 5 10 15 Lys Ala Leu Ala Ala Leu Ala Lys Lys Ile Leu 20 25 <210> 48 <211> 33 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 48 Lys Ala Leu Ala Trp Glu Ala Lys Leu Ala Lys Ala Leu Ala Lys Ala 1 5 10 15 Leu Ala Lys His Leu Ala Lys Ala Leu Ala Lys Ala Leu Lys Cys Glu 20 25 30 Ala <210> 49 <211> 16 <212> PRT <213> Artificial Sequence <220> <223> SYNTHESIZED <400> 49 Arg Gln Ile Lys Ile Trp Phe Gln Asn Arg Arg Met Lys Trp Lys Lys 1 5 10 15

Claims

다음을 포함하는 조성물:
(a) 프로그램가능 DNA 변형 단백질 또는 이러한 프로그램가능 DNA 변형 단백질을 인코딩하는 핵산, 이때 프로그램가능 DNA 변형 단백질은 RNA-안내된 군집된 규칙적으로 산재된 짧은 회귀성 반복 (CRISPR) 뉴클레아제 시스템이고;
(b) 최소한 하나의 프로그램가능 DNA 결합 단백질 또는 이러한 최소한 하나의 프로그램가능 DNA 결합 단백질을 인코딩하는 핵산, 이때 최소한 하나의 프로그램가능 DNA 결합 단백질은 뉴클레아제 활성을 결여한 CRISPR 시스템이고; 및
(c) 공여자 서열을 포함하는 공여자 폴리뉴클레오티드,
이때 각 CRISPR 시스템은 CRISPR 단백질 및 안내 RNA를 포함하고;
상기 프로그램가능 DNA 변형 단백질은 표적 염색체 서열에 표적화되고 그리고 최소한 하나의 프로그램가능 DNA 결합 단백질 각각은 표적 염색체 서열의 어느 한쪽 측면 상의 250개 염기쌍 내 부위에 표적화되고; 그리고
각 CRISPR 단백질은 II형 CRISPR 단백질 또는 V형 CRISPR 단백질임.
청구항 1에 있어서, 상기 최소한 하나의 프로그램가능 DNA 결합 단백질은 표적 염색체 서열의 어느 한쪽 측면 상의 100개 염기쌍 내 부위에 표적화되는, 조성물.
청구항 2에 있어서, 상기 최소한 하나의 프로그램가능 DNA 결합 단백질은 표적 염색체 서열의 어느 한쪽 측면 상의 75개 염기쌍 내 부위에 표적화되는, 조성물.
청구항 3에 있어서, 상기 최소한 하나의 프로그램가능 DNA 결합 단백질은 표적 염색체 서열의 어느 한쪽 측면 상의 50개 염기쌍 내 부위에 표적화되는, 조성물.
청구항 4에 있어서, 상기 최소한 하나의 프로그램가능 DNA 결합 단백질은 표적 염색체 서열의 어느 한쪽 측면 상의 25개 염기쌍 내 부위에 표적화되는, 조성물.
청구항 1 내지 5 중 어느 한 항에 있어서, 뉴클레아제 활성이 결여된 CRISPR 시스템은 촉매적으로 비활성 CRISPR 단백질인, 조성물.
청구항 1 내지 5 중 어느 한 항에 있어서, 각 CRISPR 단백질을 인코딩하는 핵산은 mRNA 또는 DNA인, 조성물.
청구항 1 내지 5 중 어느 한 항에 있어서, 각 CRISPR 단백질을 인코딩하는 핵산 및/또는 각 안내 RNA를 인코딩하는 핵산은 플라스미드 벡터 또는 바이러스 벡터의 일부인, 조성물.
청구항 1 내지 5 중 어느 한 항에 있어서, 각 CRISPR 시스템의 안내 RNA는 최소한 부분적으로 화학적으로 합성되는, 조성물.
청구항 1 내지 5 중 어느 한 항에 있어서, 각 CRISPR 시스템의 안내 RNA는 효소적으로 합성되는, 조성물.
청구항 1 내지 5 중 어느 한 항의 조성물을 포함하는 키트.
진핵 세포에 다음을 도입하는 단계를 포함하는, 진핵 세포에서 표적화된 유전체 변형을 위한 시험관내 또는 생체외 방법:
(a) 프로그램가능 DNA 변형 단백질 또는 이러한 프로그램가능 DNA 변형 단백질을 인코딩하는 핵산, 이때 프로그램가능 DNA 변형 단백질은 RNA-안내된 군집된 규칙적으로 산재된 짧은 회귀성 반복 (CRISPR) 뉴클레아제 시스템이고;
(b) 최소한 하나의 프로그램가능 DNA 결합 단백질 또는 상기 최소한 하나의 프로그램가능 DNA 결합 단백질을 인코딩하는 핵산, 이때 최소한 하나의 프로그램가능 DNA 결합 단백질은 뉴클레아제 활성을 결여한 CRISPR 시스템이고; 및
(c) 공여자 서열을 포함하는 공여자 폴리뉴클레오티드;
이때 각 CRISPR 시스템은 CRISPR 단백질 및 안내 RNA를 포함하고;
상기 프로그램가능 DNA 변형 단백질은 표적 염색체 서열에 표적화되고 그리고 최소한 하나의 프로그램가능 DNA 결합 단백질 각각은 표적 염색체 서열의 근위 부위에 표적화되고;
표적 염색체 서열의 근위 부위에 대한 최소한 하나의 프로그램가능 DNA 결합 단백질의 결합은 표적 염색체 서열에 대한 프로그램가능 DNA 변형 단백질의 접근성을 증가시키고, 이에 따라 표적화된 유전체 변형 효율 및/또는 특이성을 증가시키고;
각 CRISPR 단백질은 II형 CRISPR 단백질 또는 V형 CRISPR 단백질이고; 그리고
상기 표적 염색체 서열의 근위 부위는 표적 염색체 서열의 어느 한쪽 측면 상의 250개 염기쌍 내에 위치되고,
이 방법은 인간의 생식계열 유전자 동일성을 변형시키는 과정, 또는 인간 배아를 산업적 또는 상업적 목적으로 사용하는 것을 포함하지 않는, 방법.
청구항 12에 있어서, 표적 염색체 서열의 근위 부위는 표적 염색체 서열의 어느 한쪽 측면 상의 100, 75, 50, 또는 25개 염기쌍 내에 위치되는, 방법.
청구항 12 또는 청구항 13에 있어서, 뉴클레아제 활성이 결여된 CRISPR 시스템은 촉매적으로 비활성 CRISPR 단백질인, 방법.
청구항 12 또는 청구항 13에 있어서, 진핵 세포는 시험관내 존재하는, 방법.
청구항 12 또는 청구항 13에 있어서, 진핵 세포는 포유류 세포인, 방법.
청구항 16에 있어서, 포유류 세포는 인간 세포인, 방법.
청구항 12 또는 청구항 13에 있어서, 프로그램가능 DNA 변형 단백질 및 최소한 하나의 프로그램가능 DNA 결합 단백질은 서로 상이한 CRISPR 단백질 유형 또는 하위유형인, 방법.
청구항 12에 있어서,
(i) 프로그램가능 DNA 변형 단백질은 II형 CRISPR 단백질이고 최소한 하나의 프로그램가능 DNA 결합 단백질은 V형 CRISPR 단백질이고,
(ii) 프로그램가능 DNA 변형 단백질은 V형 CRISPR 단백질이고 최소한 하나의 프로그램가능 DNA 결합 단백질은 II형 CRISPR 단백질이고, 또는
(iii) 프로그램가능 DNA 변형 단백질은 V형 CRISPR 단백질이고 최소한 하나의 프로그램가능 DNA 결합 단백질은 V형 CRISPR 단백질인, 방법.
청구항 12에 있어서,
(i) 프로그램가능 DNA 변형 단백질은 IIA형 CRISPR 단백질이고 최소한 하나의 프로그램가능 DNA 결합 단백질은 IIB형 CRISPR 단백질이고,
(ii) 프로그램가능 DNA 변형 단백질은 IIB형 CRISPR 단백질이고 최소한 하나의 프로그램가능 DNA 결합 단백질은 IIA형 CRISPR 단백질이고,
(iii) 프로그램가능 DNA 변형 단백질은 IIC형 CRISPR 단백질이고 최소한 하나의 프로그램가능 DNA 결합 단백질은 IIA형 CRISPR 단백질이고, 또는
(iv) 프로그램가능 DNA 변형 단백질은 V형 CRISPR 단백질이고 최소한 하나의 프로그램가능 DNA 결합 단백질은 IIA형 CRISPR 단백질인, 방법.
청구항 19 또는 청구항 20에 있어서, (i) II형 CRISPR 단백질은 프란시셀라 노비시다 (Francisella novicida) CRISPR-Cas9 (FnCas9), 캄필로박터 제주니 (Campylobacter jejuni) CRISPR-Cas9 (CjCas9) 및 스트렙토코쿠스 피오게네스 (Streptococcus pyogenes) CRISPR-Cas9 (SpCas9)에서 선택되고; 및/또는 (ii) V형 CRISPR 단백질은 프란시셀라 노비시다 (Francisella novicida) CRISPR-Cpf1 (FnCpf1)인, 방법.
청구항 19 또는 청구항 20에 있어서, 최소한 하나의 프로그램가능 DNA 결합 단백질은 Cas9 II형 CRISPR 단백질이고, 이때 Cas9 단백질은 RuvC-유사 도메인 및 HNH-유사 도메인 각각에 하나 이상의 돌연변이를 가지는, 방법.
청구항 22에 있어서, (i) RuvC-유사 도메인의 하나 이상의 돌연변이는 D10A, DSA, E762A, 및/또는 D986A이고; 및/또는 (ii) HNH-유사 도메인의 하나 이상의 돌연변이는 H840A, H559A, N854A, N856A, 및/또는 N863A인, 방법.
청구항 12 또는 청구항 13에 있어서, 공여자 서열은 외인성 서열인, 방법.
청구항 12 또는 청구항 13에 있어서, 공여자 폴리뉴클레오티드는 벡터인, 방법.
청구항 12 또는 청구항 13에 있어서, 공여자 폴리뉴클레오티드는 선형 서열인 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제