KR20220128644A

KR20220128644A - 게놈 변형을 위한 높은 충실도 SpCas9 뉴클라제

Info

Publication number: KR20220128644A
Application number: KR1020227027960A
Authority: KR
Inventors: 푸치앙 첸
Original assignee: 시그마-알드리치 컴퍼니., 엘엘씨
Priority date: 2020-03-11
Filing date: 2021-03-11
Publication date: 2022-09-21
Also published as: IL294120B1; CA3163463A1; CN115244177A; US20230058352A1; IL294120A; IL294120B2; BR112022012350A2; WO2021183771A1; EP4118197A1; JP2023514327A; AU2021236230A1

Abstract

요약서
공작된 Cas9 단백질 변이체들과 시스템, 전술한 단백질 변이체들과 시스템을 인코딩하는 핵산, 그리고 게놈 변형을 위해 전술한 단백질 변이체들과 시스템을 만들고, 이용하는 방법.

Description

게놈 변형을 위한 높은 충실도 SpCas9 뉴클라제

관련 출원에 대한 상호-참조

본 출원은 2020년 3월 11일자로 제출된 미국 가출원 번호62/988,279를 우선권으로 주장하며, 이의 전문이 본 명세서의 참고자료에 편입된다.

서열 목록

본 출원은 ASCII 포멧으로 전자적으로 제출된 서열 목록을 포함하며, 이의 전문은 본 명세서의 참고자료에 편입된다. 2021년 3월 11일에 작성된 상기 ASCII 사본은 파일명을 "P20-035_WO-PCT_SL.txt"라고 하고, 크기는 49,120 바이트이다.

명세서의 분야

본 명세서는 공작된 Cas9 단백질 변이체들과 시스템, 전술한 단백질 변이체들과 시스템을 인코딩하는 핵산, 그리고 게놈 변형을 위해 전술한 단백질 변이체들과 시스템을 만들고, 이용하는 방법들에 관계한다.

본 명세서의 배경

스트렙토코커스 피오게네스(Streptococcus pyogenes) CRISPR Cas9 (SpCas9)는 많은 유형의 세포 및 유기체에서 게놈 편집 엔도뉴클라제로 널리 채택되었다. 그러나, 상기 야생형 뉴클라제는 표적 부위와 유사한 서열을 갖는, 의도하지 않은 게놈 부위에서 돌연변이를 일으키는 경향이 있다. 개선된 특이성을 가진 몇 가지 SpCas9 변이체들이 이러한 단점을 완화하기 위해 개발되었다. 이런 변이체들에는 다음의 것들이 내포된다: eSpCas9 1.0 (K810A, K1003A, R1060A), eSpCas9 1.1 (K848A, K1003A, R1060A), SpCas9-HF1 (N497A, R661A, Q695A, Q926A), HypaCas9 (N692A, M694A, Q695A, H698A), EvoCas9 (M495V, Y515N, K526E, R661L), Sniper Cas9 (F539S, M763I, K890N), HiFi Cas9 V3 (R691A), Opti-SpCas9 (R661A 및 K1003H), 그리고 OptiHF-SpCas9 (Q695A, K848A, E293M, T924V 및 Q926A) (Slaymaker et al., Science 351, 84-88; Kleinstiver et al., Nature 523, 490-495; Chen et al. Nature 550, 407-410; Casini et al., Nature Biotechnology 36, 265-271; Lee et al., Nature Communications 9, 3048; Vakulskas et al., Nature Medicine 24, 1216-1224; Choi et al., Nature Methods 16, 722-730). 그러나, 이러한 변이체의 대부분은 플라스미드 형태의 스크리닝을 통해 확인되었으며. 리보핵단백질(RNP) 전달을 통하여, 게놈 변형용으로 재조합 단백질로의 전환은 종종 낮은 활성을 초래했다.

게놈 변형에서 SpCas9 재조합 단백질에 대한 수요가 크게 증가함에 따라, 상이한 게놈 부위들에 걸쳐 향상된 특이성과 지속적인 활성으로 수행할 수 있는 재조합 단백질 형태의 뉴클레아제가 필요하다.

본 명세서의 요약

본 발명의 다양한 측면 중에는, 공작된 Cas9 단백질 변이체 및 이를 포함하는 시스템의 공급이 있다.

간략하게 설명하자면, 따라서, 본 명세서는 아미노산 위치들 526, 562, 652, 661, 691, 780, 810, 848, 855, 1003, 그리고 1060의 아미노산 위치중 하나, 둘 또는 그 이상의 위치에 변형을 포함하는 공작된 스트렙토코커스 피오게네스 Cas9 (SpCas9) 단백질 변이체에 관계하며, 이때 전술한 아미노산 위치들중 하나 또는 그 이상의 위치에 있는 리신(K)는 류신 (L) 또는 글루타민 (Q)으로 변화되고, 및/또는 전술한 아미노산 위치들중 하나 또는 그 이상의 위치에 있는 아르기닌 (R)은 류신 (L) 또는 글루타민 (Q)으로 변화된다. 예를 들면, 하나의 예시적인 구체예에서, 상기 공작된 SpCas9 단백질 변이체는 아미노산 위치 526, 562, 652, 661, 691, 780, 810, 848, 1003, 및 1060 (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라)에서 K855L/Q 돌연변이 및 적어도 하나의 다른 돌연변이를 포함한다. 또다른 예시적인 구체예에서, 상기 공작된 SpCas9 단백질 변이체는 아미노산 위치 526, 562, 652, 691, 780, 810, 848, 855, 1003, 및 1060 (트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라)에서 R661L/Q 돌연변이 및 적어도 하나의 다른 돌연변이를 포함한다. 특정 구체예에서, 상기 돌연변이들은 다음의 군에서 선택된다: K562L-R661L-K855Q; K562Q-R661L-K855Q; K652L-R661L-K855Q; 및 K652Q-R661L-K855Q (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라).

본 명세서의 또다른 측면은 본 명세서에서 기술된 상기 공작된 Cas9 단백질 변이체들 및 적어도 하나의 공작된 가이드 RNA(들)을 포함하는 공작된 Cas9 시스템에 관계하며, 이때 각 공작된 가이드 RNA는 상기 공작된 Cas9 단백질 변이체와 복합되도록 기획된다.

본 명세서의 또다른 측면은 상기 공작된 Cas9 단백질 변이체들을 인코딩하는 핵산과 이를 포함하는 시스템에 관계한다. 상기 핵산들을 포함하는 벡터들이 또한 제공된다.

본 명세서의 또다른 측면은 본원에 기술된 상기 공작된 Cas9 단백질 변이체들과 시스템을 만드는 방법 및 이용하는 방법에 관계한다.

다른 목적 및 특징은 이하에서 어느 정도 명백해지고 부분적으로 지적될 것이다.

도 1A는 인간 U-2 OS 세포내 HEKSite4 표적 부위에서 K855 잔기 상에 5개 상이한 치환의 겨냥된(on-target) 활성을 나타낸다. K855E 및 K855A는 겨냥된 활성의 축소를 초래한다 (실시예 1). 도면에서 서열 식별 번호:73이 도시된다.
도 1B는 인간 U-2 OS 세포내 HEKSite4 표적-외 부위에서 K855 잔기 상에 5개 상이한 치환의 표적을 벗어난(off-target) 활성을 나타낸다 (실시예 1). 도면에서 서열 식별 번호:74가 도시된다.
도 2는 인간 U-2 OS 세포 (실시예 2)내 HEKSite4 표적 부위에서 R661, N692, 또는 Q695 잔기 상에 상이한 치환의 겨냥된 활성을 나타낸다. 도면에서 서열 식별 번호:73이 도시된다.
도 3A는 인간 K562 세포내 FANCF02 표적 부위에서 삼중 및 사중 돌연변이 단백질의 겨냥된 활성을 나타낸다 (실시예 3). 도면에서 서열 식별 번호:75가 도시된다.
도 3B는 인간 K562 세포 내 FANCF02 단일 불합치 표적-외 부위에서 삼중 및 사중 돌연변이 단백질의 표적을 벗어난 활성을 나타낸다 (실시예 3). 도면에서 서열 식별 번호:76이 도시된다.
도 3C는 인간 K562 세포내 HBB03 표적 부위에서 삼중 및 사중 돌연변이 단백질의 겨냥된 활성을 나타낸다 (실시예 3). 도면에서 서열 식별 번호:77이 도시된다.
도 3D는 인간 K562 세포 내 HBB03 단일 불합치 표적-외 부위에서 삼중 및 사중 돌연변이 단백질의 표적을 벗어난 활성을 나타낸다 (실시예 3). 도면에서 서열 식별 번호:78이 도시된다.
도 4는 K562 세포 내 5개 상이한 게놈 부위에서 선별된 그룹의 돌연변이 단백질의 겨냥된 활성을 나타낸다 (실시예 4). 도면에서 보이는 순서대로 차례로 서열 식별 번호: 79-83이 도시된다.

상세한 설명

게놈 변형에서 SpCas9 재조합 단백질에 대한 수요가 크게 증가함에 따라, 상이한 게놈 부위들에 걸쳐 향상된 특이성과 지속적인 활성으로 수행할 수 있는 재조합 단백질 형태의 뉴클레아제가 필요하다. 재조합 단백질-기반의 스크리닝 접근법을 이용하여, 상이한 수준의 특이성 및 활성을 갖는 적어도 두 개의 상이한 그룹의 SpCas9 변이체들이 확인되었다. 한 그룹은 다른 SpCas9 변이체들과 비교하여 상당히 높은 수준의 특이성을 갖지만, 그러나 상이한 게놈 부위 간에 매우 가변적인 활성을 갖는다. 또 다른 그룹은 활성에서 잘-확립된 eSpCas9 1.1과 특이성에서 최근 개발된 HiFi Cas9 V3을 능가하는 균형잡힌 특이성과 활성을 가지고 있다. 이 뉴클레아제 그룹은 진핵 세포의 게놈 변형에 광범위하게 적용할 수 있는 큰 잠재력을 보유하고 있다.

높은 충실도 SpCas9 변이체를 개발하려는 기존 시도들은 특정 플라스미드 발현-기반의 선택 체계에 크게 의존했다. 이러한 변이체들은 재조합 단백질로 사용될 때, 대개 낮은 활성을 보인다. 특정 이론에 결부되지 않고, 포유동물 세포에서 플라스미드 과다발현은 특이성을 증가시키는 돌연변이에 의해 야기된 이러한 변이체의 감쇠된 활성을 위장할 수 있는 것으로 추측된다. 플라스미드 과다-발현의 이러한 교란 효과를 피하기 위해, 상기 클라제를 개선시키기 위한 재조합 단백질-기반의 스크리닝 접근법이 이용되었다. 더욱이, 주요 잔기를 돌연변이시키기 위해 늘 이용되었던 알라닌 치환을 사용하는 이전의 시도와 달리, 특이성을 개선하면서 표적 활성을 유지하기 위해 최적의 아미노산 치환이 사용되었다. 이러한 차이점은 현재 공개된 단백질을 기존 SpCas9 단백질 공작 시도로부터 파생된 단백질과는 방법론적으로 구별된다.

상기 돌연변이들 및 이들의 조합은 Cas9 DNA 기질 결합 안정성의 기초가 되는 상이한 기전에 관련된 것으로 추정되는 주요 잔기를 함유하고, 한편 기존 시도는 돌연변이 조합을 아마도 하나의 기전에 관련된 주요 잔기로 국한시켰다. 예를 들면, eSpCas9는 양전하를 띤 잔기가 가닥 분리 시, 비-표적 가닥을 안정화한다는 가설에 기초하여, 이들 비-표적 가닥의 음으로 하전된 인산염 백본과 상호작용하는 보존된 양전하를 띤 아미노산 잔기를 돌연변이시킨 후, 후속적으로 가이드 RNA-표적 DNA 헤테로듀플렉스 형성을 안정화함으로써 개발되었다 (Slaymaker et al., Science 351, 84-88). 대조적으로, SpCas9-HF1은 표적 가닥의 인산염 백본과의 수소 결합, 또는 전하 상호 작용을 감소시킴으로써, 개발되었다 (Kleinstiver et al., Nature 523, 490-495). 다른 한편, HypaCas9는 REC3 도메인에서 클러스터(N692, M694, Q695 및 H698)를 알라닌으로 돌연변이시킴으로써 유도되는데, 이로써 보존된 잔기 RNA-DNA 상호작용을 아마도 감지하고, 이 신호를 전달하여 HNH 뉴클레아제 도메인의 구조적 전환을 촉발시키킨다 (Chen et al., Nature 550, 407-410).

재조합 단백질 기반의 독특 스크리닝 접근 방식을 사용하고, 합리적인 설계를 본 명세서에 개시된 바와 같은 다양한 기계적 조합으로 확장함으로써, 본 명세서에서 상이한 수준의 특이성 및 활성을 갖는, 적어도 3개의 독특한 그룹의 SpCas9 변이체들이 확인되었다.

(I) 공작된 Cas9 단백질

본 명세서의 한 측면은 공작된 Cas 단백질에 관계한다. 상기 공작된 Cas 단백질은 이의 야생형 대응부와 비교하여, 적어도 하나의, 적어도 두 개의, 또는 적어도 세 개의 아미노산 치환(들), 삽입(들), 또는 결손(들)을 포함하고; 즉, 상기 공작된 Cas9 단백질에는 야생형 Cas 단백질(들)의 것과 비교하였을 때, 해당 아미노산 서열에 변형 또는 돌연변이들이 내포된다. 다양한 Cas 단백질, Cas9 단백질은 예를 들면, 유형 II CRISPR 시스템에서 단일 작동체 단백질이며, 이는 다양한 박테리아에 존재한다.

한 구체예에서, 본원에서 기술된 상기 공작된 Cas9 단백질은 스트렙토코커스 종으로부터 기인된다. 또다른 구체예에서, 예를 들면, 상기 공작된 Cas9 단백질 변이체(SpCas9)는 스트렙토코커스 피오게네스 로부터 유래된다. 따라서, 일부 구체예들에서, 본원에 기술된 상기 공작된 Cas9 단백질은 SpCas9 상동체들이다.

야생형 Cas9 단백질은 두 개의 뉴클레아제 도메인, 가령, RuvC 도메인과 HNH 도메인을 포함하는데, 이들 각 도메인은 이중-가닥으로 된 서열의 한 개 가닥을 절단한다. Cas9 단백질은 가이드 RNA (가령, REC1, REC2) 또는 RNA/DNA 이종듀클렉스 (가령, REC3)와 상호작용하는 도메인, 그리고 프로토스페이서-인접 모티프 (PAM)와 상호작용하는 도메인 (즉, PAM-상호작용 도메인)을 또한 포함한다.

본원에서 언급된 바와 같이, 본 명세서의 Cas9 단백질은 하나 또는 그 이상의 변형 (가령, 적어도 하나의 아미노산 치환, 적어도 하나의 아미노산 결손, 적어도 하나의 아미노산 삽입)을 포함하도록 공작되고, 이러한 Cas9 단백질은 변경된 활성, 특이성, 및/또는 안정성을 갖는다. 이들 공작된 Cas9 단백질은 자연적으로 생성되지 않는다.

일반적으로, 알려진 및/또는 상업적으로 이용가능한 Cas9 돌연변이체는 이 단백질의 상이한 영역 및 상이한 영역의 돌연변이 조합에 관계없이, 해당 단백질의 특정 영역에서 점 돌연변이(들)에 집중되어 있다. Cas9 단백질의 상이한 영역들에서의 돌연변이의 조합으로 공지의 Cas9 돌연변이체에 비해 개선된 특이성, 활성(예를 들어, 온-타겟 활성 또는 오프-타겟 활성), 및/또는 다른 유익한 속성을 초래할 수 있다는 유익한 점이 발견되었다.

예를 들면, 본원에 기술된 Cas9 단백질은 비-표적 DNA 가닥 접촉하는 잔기들이 내포된 해당 단백질의 구조적 영역 내 적어도 하나의 돌연변이(들), 및/또는 표적 DNA/가이드 RNA 헤테로듀플렉스 접촉하는 잔기들을 표적으로 하는 해당 단백질의 구조적 영역내 적어도 하나의 돌연변이(들), 및/또는 알파-나선 편(lobe)이 내포된 해당 단백질의 구조적 영역내 적어도 하나의 돌연변이(들)을 갖는다. 본 명세서의 목적을 위해, 비-표적 DNA 가닥 접촉하는 잔기들에는 예를 들면, 아미노산 R780, K810, K848, K855, K1003, 및 1060 이 내포되며; 표적 DNA/가이드 RNA 헤테로듀플렉스 접촉하는 잔기들에는 예를 들면, 아미노산 R661 및 R691이 내포되며; 그리고 알파-나선 편 잔기들에는 예를 들면, 아미노산 K526, K562, 그리고 K652이 내포된다 (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라). 따라서, 다양한 구체예들에서, 본원에 기술된 Cas9 단백질은 비-표적 DNA 가닥 접촉하는 잔기들이 내포된 해당 단백질의 구조적 영역 내 적어도 하나의 돌연변이(들), 및/또는 표적 DNA/가이드 RNA 헤테로듀플렉스 접촉하는 잔기들을 표적으로 하는 해당 단백질의 구조적 영역내 적어도 하나의 돌연변이(들)을 갖는다. 다른 구체예들에서, 본원에 기술된 Cas9 따라서, 다양한 구체예들에서, 본원에 기술된 Cas9 단백질은 비-표적 DNA 가닥 접촉하는 잔기들이 내포된 해당 단백질의 구조적 영역 내 적어도 하나의 돌연변이(들), 및/또는 알파-나선 편이 내포된 해당 단백질의 구조적 영역내 적어도 하나의 돌연변이(들)을 갖는다. . 여전히 다른 구체예들에서, 본원에 기술된 Cas9 단백질은 표적 DNA/가이드 RNA 헤테로듀플렉스 접촉하는 잔기들이 내포된 해당 단백질의 구조적 영역 내 적어도 하나의 돌연변이(들), 및/또는 알파-나선 편이 내포된 해당 단백질의 구조적 영역내 적어도 하나의 돌연변이(들)을 갖는다. 여전히 다른 구체예들에서, 예를 들면, 본원에 기술된 Cas9 단백질은 비-표적 DNA 가닥 접촉하는 잔기들이 내포된 해당 단백질의 구조적 영역 내 적어도 하나의 돌연변이(들), 그리고 표적 DNA/가이드 RNA 헤테로듀플렉스 접촉하는 잔기들을 표적으로 하는 해당 단백질의 구조적 영역내 적어도 하나의 돌연변이(들), 그리고 알파-나선 편(lobe)이 내포된 해당 단백질의 구조적 영역내 적어도 하나의 돌연변이(들)을 갖는다.

본원에 기술된 상기 Cas9 단백질 변이체들은 변형안된 성숙된 (야생형) 스트렙토코커스 피오게네스 Cas9 (서열 식별 번호: 1)의 대응하는 위치에서 아미노산 번호매김에 따라 확인된 변형된 아미노산 서열을 갖는다. 본원에 기술된 상기 Cas9 단백질 변이체들은 바람직하게는 서열 식별 번호: 1에 대해 적어도 50%, 적어도 60%, 적어도 70%, 적어도 80%, 적어도 90%, 적어도 95%, 적어도 98%, 또는 적어도 99% 동일성을 갖는다:

참조의 편의를 위해, 20개의 필수 아미노산과 그 단일 문자 코드의 표기가 아래 표 A에 나와 있다.

표 A: 아미노산

본 명세서에 기술된 아미노산 변형은 영향을 받는 아미노산(단일 문자 코드)을 나타내는 문자로 시작하고, 아미노산 잔기 위치와 함께 변화를 지정하는 문자(단일 문자 코드)로 끝나고, 이들 두 문자 사이에 이들 아미노산 잔기 위치를 나타내는 숫자가 있는 명명법을 이용하는 것을 인지할 것이다. 예를 들면, 가상 단백질은 가상 아미노산 위치 100에 알라닌 잔기를 가질 수 있으며, A100으로 지정될 것이다. 추가 예로서, 위치 100에서 알라닌에서 발린으로의 가상 아미노산의 변형은 A100V로 설정될 것이다. 2개 또는 그 이상의 옵션에서 선택된 변형은 "/"로 지정될 수 있으며, 예를 들어, 아미노산 위치 100에서 알라닌에서 발린 또는 세린으로의 가상 아미노산 변형은 A100V/S로 설정될 것이다.

한 구체예에서, 상기 공작된 Cas9 단백질 변이체에는 아미노산 위치 526, 562, 652, 661, 691, 780, 810, 848, 855, 1003, 그리고 1060중 하나 또는 그 이상에서 돌연변이가 내포된다(스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라). 또다른 구체예에서, 상기 공작된 Cas9 단백질 변이체에는 아미노산 위치 526, 562, 652, 661, 691, 780, 810, 848, 855, 1003, 그리고 1060중 두 개 또는 그 이상에서 돌연변이가 내포된다(스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라). 따라서, 예를 들면, 상기 공작된 Cas9 단백질은 다음중 하나 또는 그 이상에서 돌연변이가 내포될 수 있다: K526, K562, K652, R661, R691, R780, K810, K848, K855, K1003, 및 1060. 또다른 예로써, 상기 공작된 Cas9 단백질은 다음중 두 개 또는 그 이상에서 돌연변이가 내포될 수 있다: K526, K562, K652, R661, R691, R780, K810, K848, K855, K1003, 및 1060. 또다른 예로써, 상기 공작된 Cas9 단백질은 다음중 세 개 또는 그 이상에서 돌연변이가 내포될 수 있다: K526, K562, K652, R661, R691, R780, K810, K848, K855, K1003, 및 1060. 또다른 예로써, 상기 공작된 Cas9 단백질은 다음중 네 개 또는 그 이상에서 돌연변이가 내포될 수 있다: K526, K562, K652, R661, R691, R780, K810, K848, K855, K1003, 및 1060. 또다른 예로써, 상기 공작된 Cas9 단백질은 다음중 다섯 개 또는 그 이상에서 돌연변이가 내포될 수 있다: K526, K562, K652, R661, R691, R780, K810, K848, K855, K1003, 및 1060. 또다른 예로써, 상기 공작된 Cas9 단백질은 다음중 여섯 개 또는 그 이상에서 돌연변이가 내포될 수 있다: K526, K562, K652, R661, R691, R780, K810, K848, K855, K1003, 및 1060. 또다른 예로써, 상기 공작된 Cas9 단백질은 다음중 일곱 개 또는 그 이상에서 돌연변이가 내포될 수 있다: K526, K562, K652, R661, R691, R780, K810, K848, K855, K1003, 및 1060. 또다른 예로써, 상기 공작된 Cas9 단백질은 다음중 여덟 개 또는 그 이상에서 돌연변이가 내포될 수 있다: K526, K562, K652, R661, R691, R780, K810, K848, K855, K1003, 및 1060. 또다른 예로써, 상기 공작된 Cas9 단백질은 다음중 아홉 개 또는 그 이상에서 돌연변이가 내포될 수 있다: K526, K562, K652, R661, R691, R780, K810, K848, K855, K1003, 및 1060. 또다른 예로써, 상기 공작된 Cas9 단백질은 다음중 열 개 또는 그 이상에서 돌연변이가 내포될 수 있다: K526, K562, K652, R661, R691, R780, K810, K848, K855, K1003, 및 1060. 또다른 예로써, 상기 공작된 Cas9 단백질은 다음 각각의 위치에서 돌연변이가 내포될 수 있다: K526, K562, K652, R661, R691, R780, K810, K848, K855, K1003, 및 1060. 이러한 다양한 특정 구체예들에서, 예를 들면, 전술한 아미노산 위치들중 하나 또는 그 이상의 위치에서 리신(K)는 류신 (L) 또는 글루타민 (Q)으로 변경되며, 및/또는 전술한 아미노산 위치들중 하나 또는 그 이상의 위치에서 아르기닌 (R)은 류신 (L) 또는 글루타민 (Q)으로 변경된다.

한 구체예에서, 예를 들면, 상기 공작된 SpCas9 변이체에는 아미노산 위치들 562, 652, 661, 691, 780, 810, 848, 855, 1003, 및 1060 (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라)에서 K526L/Q 돌연변이 및 적어도 하나의 다른 돌연변이가 내포된다. 또다른 구체예에서, 예를 들면, 상기 공작된 SpCas9 변이체에는 아미노산 위치들 526, 652, 661, 691, 780, 810, 848, 855, 1003, 및 1060 (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라)에서 K562L/Q 돌연변이 및 적어도 하나의 다른 돌연변이가 내포된다. 또다른 구체예에서, 예를 들면, 상기 공작된 SpCas9 변이체에는 아미노산 위치들 526, 562, 661, 691, 780, 810, 848, 855, 1003, 및 1060 (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라)에서 K652L/Q 돌연변이 및 적어도 하나의 다른 돌연변이가 내포된다. 또다른 구체예에서, 예를 들면, 상기 공작된 SpCas9 변이체에는 아미노산 위치들 526, 562, 691, 780, 810, 848, 855, 1003, 및 1060 (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라)에서 R661L/Q 돌연변이 및 적어도 하나의 다른 돌연변이가 내포된다. 또다른 구체예에서, 예를 들면, 상기 공작된 SpCas9 변이체에는 아미노산 위치들 526, 562, 661, 780, 810, 848, 855, 1003, 및 1060 (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라)에서 R691L/Q 돌연변이 및 적어도 하나의 다른 돌연변이가 내포된다. 또다른 구체예에서, 예를 들면, 상기 공작된 SpCas9 변이체에는 아미노산 위치들 526, 562, 661, 691, 810, 848, 855, 1003, 및 1060 (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라)에서 R780L/Q 돌연변이 및 적어도 하나의 다른 돌연변이가 내포된다. 또다른 구체예에서, 예를 들면, 상기 공작된 SpCas9 변이체에는 아미노산 위치들 526, 562, 661, 691, 780, 848, 855, 1003, 및 1060 (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라)에서 K810L/Q 돌연변이 및 적어도 하나의 다른 돌연변이가 내포된다. 또다른 구체예에서, 예를 들면, 상기 공작된 SpCas9 변이체에는 아미노산 위치들 526, 562, 661, 691, 780, 810, 855, 1003, 및 1060 (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라)에서 K848L/Q 돌연변이 및 적어도 하나의 다른 돌연변이가 내포된다. 또다른 구체예에서, 예를 들면, 상기 공작된 SpCas9 변이체에는 아미노산 위치들 526, 562, 661, 691, 780, 810, 848, 1003, 및 1060 (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라)에서 K855L/Q 돌연변이 및 적어도 하나의 다른 돌연변이가 내포된다. 또다른 구체예에서, 예를 들면, 상기 공작된 SpCas9 변이체에는 아미노산 위치들 526, 562, 661, 691, 780, 810, 848, 855, 및 1060 (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라)에서 K1003L/Q 돌연변이 및 적어도 하나의 다른 돌연변이가 내포된다. 또다른 구체예에서, 예를 들면, 상기 공작된 SpCas9 변이체에는 아미노산 위치들 526, 562, 661, 691, 780, 810, 848, 855, 그리고 1003 (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라)에서 R1060L/Q 돌연변이 및 적어도 하나의 다른 돌연변이가 내포된다.

따라서, 특정 구체예들에서, 예를 들면, 상기 공작된 SpCas9 단백질 변이체에는 K526L/Q, K562L/Q, K652L/Q, K810L/Q, K848L/Q, K855L/Q, R661L/Q, R691L/Q, R780L/Q, K1003L/Q, 및 1060 L/Q (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라)로부터 선택된 두 개의 상이한 아미노산 위치에서 두 개 돌연변이가 내포된다. 다른 구체예들에서, 예를 들면, 상기 공작된 SpCas9 단백질 변이체에는 K526L/Q, K562L/Q, K652L/Q, K810L/Q, K848L/Q, K855L/Q, R661L/Q, R691L/Q, R780L/Q, K1003L/Q, 및 1060 L/Q (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라)로부터 선택된 세 개의 상이한 아미노산 위치에서 두 개 돌연변이가 내포된다. K526L/Q, K562L/Q, K652L/Q, K810L/Q, K848L/Q, K855L/Q, R661L/Q, R691L/Q, R780L/Q, K1003L/Q, 및 1060 L/Q (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라)로부터 선택된 4개, 5개, 6개, 7개, 8개, 9개, 10개 또는 11개 돌연변이가 존재할 수 있는 다른 구체예들이 제공됨을 이해할 것이다.

전술한 단락에서, 특정 구체예들 또는 실시예들의 범위 내에서 당업계에 공지된 돌연변이가 있다면, 단서에 의해 배제되어야 한다는 것이 이해될 것이다.

또다른 특정 구체예들에서, 상기 공작된 SpCas9 단백질 변이체에는 다음 돌연변이들중 적어도 하나가 내포된다: K526L, K526Q, K562L, K562Q, K652L, K652Q, K810L, K810Q, K848L, K848Q, K855L, K855Q, R661L, R661Q, R691L, R691Q, R780L, R780Q, K1003L, K1003Q, R1060L, 및 1060 Q (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라).

또다른 특정 구체예들에서, 상기 공작된 SpCas9 단백질 변이체에는 다음 돌연변이들중 적어도 두 개가 내포된다: K526L, K526Q, K562L, K562Q, K652L, K652Q, K810L, K810Q, K848L, K848Q, K855L, K855Q, R661L, R661Q, R691L, R691Q, R780L, R780Q, K1003L, K1003Q, R1060L, 및 1060Q (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라).

여전히 또다른 특정 구체예들에서, 상기 공작된 SpCas9 단백질 변이체에는 다음 돌연변이들중 적어도 세 개가 내포된다: K526L, K526Q, K562L, K562Q, K652L, K652Q, K810L, K810Q, K848L, K848Q, K855L, K855Q, R661L, R661Q, R691L, R691Q, R780L, R780Q, K1003L, K1003Q, R1060L, 및 1060Q (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라).

여전히 또다른 특정 구체예에서, 상기 공작된 SpCas9 단백질 변이체에는 다음 돌연변이들중 적어도 4개, 5개, 6개, 7개, 8개, 9개, 10개 또는 11개가 내포된다: K526L, K526Q, K562L, K562Q, K652L, K652Q, K810L, K810Q, K848L, K848Q, K855L, K855Q, R661L, R661Q, R691L, R691Q, R780L, R780Q, K1003L, K1003Q, R1060L, 및 1060 Q (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라).

하나의 특정 구체예에서, 상기 공작된 SpCas9 단백질은 다음의 변이체 그룹중 하나로부터 선택된다: K562L-R661L-K855Q; K562Q-R661L-K855Q; K652L-R661L-K855Q; K652Q-R661L-K855Q; R661L-K855Q-K1003Q; 그리고 R661L-K855Q-R1060Q (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라). 또다른 특정 구체예들에서, 상기 공작된 SpCas9 단백질은 다음의 변이체 그룹중 하나로부터 선택된다: K562L-R661L-K855Q; K562Q-R661L-K855Q; K652L-R661L-K855Q; 그리고 K652Q-R661L-K855Q. 따라서, 예를 들면, 상기 공작된 SpCas9 단백질 변이체는 K562L-R661L-K855Q일 수 있다. 대안으로, 예를 들면, 상기 공작된 SpCas9 단백질 변이체는 K562Q-R661L-K855Q일 수 있다. 대안으로, 예를 들면, 상기 공작된 SpCas9 단백질 변이체는 K652L-R661L-K855Q일 수 있다. 대안으로, 예를 들면, 상기 공작된 SpCas9 단백질 변이체는 K652Q-R661L-K855Q일 수 있다. 대안으로, 예를 들면, 상기 공작된 SpCas9 단백질 변이체는 R661L-K855Q-K1003Q일 수 있다. 대안으로, 예를 들면, 상기 공작된 SpCas9 단백질 변이체는 R661L-K855Q-R1060Q일 수 있다. 이들 변이체 그룹의 구성원은 활성에서 잘-확립된 eSpCas9 1.1과 특이성에서 최근 개발된 HiFi Cas9 V3을 능가하는 균형잡힌 특이성과 활성을 가지고 있다.

또다른 특정 구체예들에서, 상기 공작된 SpCas9 단백질은 다음의 변이체 그룹중 하나로부터 선택된다: K526L-R661L-K855Q; R661L-R691L-K855Q; R661L-R780L-K855Q; R661L-R780Q-K855Q; R661L-K810L-K855Q, 그리고 R661L-K848L-K855Q (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라). 따라서, 예를 들면, 상기 공작된 SpCas9 단백질 변이체는 K526L-R661L-K855Q일 수 있다. 대안으로, 예를 들면, 상기 공작된 SpCas9 단백질 변이체는 R661L-R691L-K855Q일 수 있다. 대안으로, 예를 들면, 상기 공작된 SpCas9 단백질 변이체는 R661L-R780L-K855Q일 수 있다. 대안으로, 예를 들면, 상기 공작된 SpCas9 단백질 변이체는 R661L-R780Q-K855Q일 수 있다. 대안으로, 예를 들면, 상기 공작된 SpCas9 단백질 변이체는 R661L-K810L-K855Q일 수 있다. 대안으로, 예를 들면, 상기 공작된 SpCas9 단백질 변이체는 R661L-K848L-K855Q일 수 있다. 이들 변이체 그룹의 구성원은 매우 높은 수준의 특이성을 갖지만, 그러나 표적 부위 간에 매우 다양한 활성을 가지고 있다.

또다른 특정 구체예들에서, 상기 공작된 SpCas9 단백질은 다음 변이체 그룹중 하나로부터 선택된다: K526Q-R661L-K855Q; R661L-K810Q-K855Q; R661L-K855Q-K1003L; 그리고 R661L-K855Q-R1060L (스트렙토코커스 피오게네스Cas9, SpCas9의 번호매김 체계에 따라). 따라서, 예를 들면, 상기 공작된 SpCas9 단백질 변이체는 K526Q-R661L-K855Q일 수 있다. 대안으로, 예를 들면, 상기 공작된 SpCas9 단백질 변이체는 R661L-K810Q-K855Q일 수 있다. 대안으로, 예를 들면, 상기 공작된 SpCas9 단백질 변이체는 R661L-K855Q-K1003L일 수 있다. 대안으로, 예를 들면, 상기 공작된 SpCas9 단백질 변이체는 R661L-K855Q-R1060L일 수 있다. 이들 변이체 그룹의 구성원은 특이성 및 활성 수준 모두에서 eSpCas9 1.1과 유사하지만; 그러나, 이들은 돌연변이 프로파일에서 eSpCas9 1.1과는 상이하다.

상기 논의된 다양한 돌연변이에 추가적으로, 상기 Cas9 단백질은 해당 뉴클라제 도메인들중 하나 또는 둘 모두를 비활성화시키기 위해 하나 또는 그 이상의 돌연변이 및/또는 결손을 통하여 또한 공작될 수 있다. 하나의 뉴클레아제 도메인의 비활성화로 이중-가닥 서열의 한 가닥이 절단된 Cas9 단백질이 생성된다 (가령, Cas9 니카제). RuvC 도메인은 돌연변이, 이를 테면, D10A, D8A, E762A, 및/또는 D986A에 의해 비활성화될 수 있고, HNH 도메인은 돌연변이, 이를 테면, H840A, H559A, N854A, N856A, 및/또는 N863A (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라)에 의해 돌연변이될 수 있다. 두 뉴클라제 도메인의 비활성화로 절단 활성이 없는 (가령, 촉매적으로 비활성 또는 사멸된 Cas9) Cas9 단백질이 생성된다.

상기 논의된 다양한 돌연변이에 추가적으로, 개선된 표적화 특이성, 개선된 충실성(fidelity), 변경된 PAM 특이성, 감소된 표적-외 효과, 및/또는 증가된 안정성을 갖도록 하기 위하여, 하나 또는 그 이상의 아미노산 치환, 결손, 및/또는 삽입을 통하여 Cas9 단백질이 또한 공작될 수 있다. 표적화 특이성을 개선시키고, 충실성을 개선시키거나, 및/또는 표적-외 효과를 감소시키는 하나 또는 그 이상의 돌연변이의 비-제한적인 예로는 N497A, R661A, Q695A, K810A, K848A, K855A, Q926A, K1003A, R1060A, 및/또는 D1135E 이 포함된다 (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라).

상기 논의된 변형에 추가적으로, 상기 Cas9 단백질은 적어도 하나의 이질성 도메인을 포함하도록 또한 공작될 수 있는데, 가령, Cas9는 하나 또는 그 이상의 이질성 도메인에 융합된다. 두 개 또는 그 이상의 이질성 도메인이 Cas9와 융합되는 상황에서, 상기 두 개 또는 그 이상의 이질성 도메인은 동일하거나, 또는 서로 상이할 수 있다. 상기 하나 또는 그 이상의 이질성 도메인은 N 말단 단부, C 말단 단부, 내부 위치, 또는 이의 조합에 융합될 수 있다. 상기 융합은 화학 결합을 통한 직접적인 융합이거나, 또는 링키지는 하나 또는 그 이상의 링커를 통한 간접적인 것일 수 있다. 다양한 구체예들에서, 상기 이질성 도메인은 다음으로부터 선택된다: 핵 국소화 신호, 세포-투과 도메인, 검출을 용이하게 하는 마커 또는 리포터 도메인(형광 또는 효소 리포터 단백질), 염색질 변형 도메인, 후성유전학적 변형 도메인 (가령, 시티딘 데아미나제 도메인, 히스톤 아세틸트랜스퍼라제 도메인, 그리고 및 이와 유사한 것들), 전사 조절 도메인, DNA 또는 RNA 데아미나제 도메인, 우라실-DNA-글리코실라제 도메인, 역전사효소 도메인, 재조합효소 도메인, RNA 압타머 결합 도메인, 또는 비-Cas9 뉴클라제 도메인.

(a) 핵 국소화 신호

일부 구체예들에서, 상기 하나 또는 그 이상의 이질성 도메인은 핵 국소화 신호 (NLS)일 수 있다. 핵 국소화 신호의 비-제한적인 예시에는 다음이 내포된다: PKKKRKV (서열 식별 번호: 2), PKKKRRV (서열 식별 번호: 3), KRPAATKKAGQAKKKK (서열 식별 번호: 4), YGRKKRRQRRR (서열 식별 번호: 5), RKKRRQRRR (서열 식별 번호: 6), PAAKRVKLD (서열 식별 번호: 7), RQRRNELKRSP (서열 식별 번호: 8), VSRKRPRP (서열 식별 번호: 9), PPKKARED (서열 식별 번호: 10), PQPKKKPL (서열 식별 번호: 11), SALIKKKKKMAP (서열 식별 번호: 12), PKQKKRK (서열 식별 번호: 13), RKLKKKIKKL (서열 식별 번호: 14), REKKKFLKRR (서열 식별 번호: 15), KRKGDEVDGVDEVAKKKSKK (서열 식별 번호: 16), RKCLQAGMNLEARKTKK (서열 식별 번호: 17), NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY (서열 식별 번호: 18), 그리고 RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV (서열 식별 번호: 19).

(b) 세포-침투 도메인

다른 구체예들에서, 상기 하나 또는 그 이상의 이질성 도메인은 세포-침투 도메인일 수 있다. 적합한 세포-침투 도메인의 예시에는 다음이 내포되나, 이에 국한되지 않는다: GRKKRRQRRRPPQPKKKRKV (서열 식별 번호: 20), PLSSIFSRIGDPPKKKRKV (서열 식별 번호: 21), GALFLGWLGAAGSTMGAPKKKRKV (서열 식별 번호: 22), GALFLGFLGAAGSTMGAWSQPKKKRKV (서열 식별 번호: 23), KETWWETWWTEWSQPKKKRKV (서열 식별 번호: 24), YARAAARQARA (서열 식별 번호: 25), THRLPRRRRRR (서열 식별 번호: 26), GGRRARRRRRR (서열 식별 번호: 27), RRQRRTSKLMKR (서열 식별 번호: 28), GWTLNSAGYLLGKINLKALAALAKKIL (서열 식별 번호: 29), KALAWEAKLAKALAKALAKHLAKALAKALKCEA (서열 식별 번호: 30), 그리고 RQIKIWFQNRRMKWKK (서열 식별 번호: 31).

(c) 마커 도메인

대안적인 구체예들에서, 상기 하나 또는 그 이상의 이질성 도메인은 마커 도메인일 수 있다. 마커 도메인에는 형광 단백질 및 정제 또는 에피토프 테그들이 내포된다. 적합한 형광 단백질에는 다음의 것들이 포함되나, 이에 국한되지 않는다: 그린 형광 단백질 (가령, GFP, eGFP, GFP-2, tagGFP, turboGFP, Emerald, Azami Green, Monomeric Azami Green, CopGFP, AceGFP, ZsGreen1), 엘로우 형광 단백질 (가령, YFP, EYFP, Citrine, Venus, YPet, PhiYFP, ZsYellow1), 블루 형광 단백질 (가령, BFP, EBFP, EBFP2, Azurite, mKalama1, GFPuv, Sapphire, T-sapphire), 시안 형광 단백질 (가령, ECFP, Cerulean, CyPet, AmCyan1, Midoriishi-Cyan), 레드 형광 단백질 (가령, mKate, mKate2, mPlum, DsRed monomer, mCherry, mRFP1, DsRed-Express, DsRed2, DsRed-Monomer, HcRed-Tandem, HcRed1, AsRed2, eqFP611, mRasberry, mStrawberry, Jred), 오렌지 형광 단백질 (가령, mOrange, mKO, Kusabira-Orange, Monomeric Kusabira-Orange, mTangerine, tdTomato)또는 이의 조합. 상기 마커 도메인은 하나 또는 그 이상의 형광 단백질의 일렬 반복부를 포함할 수 있다 (가령, Suntag). 적합한 정제 또는 에피토프 태그의 비-제한적인 예로는 6xHis(서열 식별 번호: 32), FLAG^®, HA, GST, Myc, SAM, 및 이와 유사한 것들이 내포된다. CRISPR 복합체의 탐지 또는 농축을 실시하는 이질성 융합체의 비-제한적인 예로는 스트렙타아비딘 (Kipriyanov et al., Human Antibodies, 1995, 6(3):93-101), 아비딘 (Airenne et al., Biomolecular Engineering, 1999, 16(1-4):87-92), 아비딘의 단향체 형태 (Laitinen et al., Journal of Biological Chemistry, 2003, 278(6):4010-4014), 재조합 생산 동안 바이오티닐화를 촉진시키는 펩티드 태그 (Cull et al., Methods in Enzymology, 2000, 326:430-440)가 내포된다.

(d) 염색질 조절 모티프

여전히 다른 구체예들에서, 상기 하나 또는 그 이상의 이질성 도메인은 염색질 조절 모티프 (CMM)일 수 있다. CMMs의 비-제한적인 예로는 고-이동성 기 (HMG) 단백질 (가령, HMGB1, HMGB2, HMGB3, HMGN1, HMGN2, HMGN3a, HMGN3b, HMGN4, 그리고 HMGN5 단백질)로부터 유래된 뉴클레오좀 상호작용 펩티드, 히스톤 H1 변이체의 중앙 구형 도메인 (가령, 히스톤 H1.0, H1.1, H1.2, H1.3, H1.4, H1.5, H1.6, H1.7, H1.8, H1.9, 그리고 H.1.10), 또는 크로마틴 리모델링 복합체의 DNA 결합 도메인 (가령, SWI/SNF (SWItch/Sucrose Non-Fermentable), ISWI (Imitation SWItch), CHD (Chromodomain-Helicase-DNA binding), Mi-2/NuRD (Nucleosome Remodeling and Deacetylase), INO80, SWR1, 그리고 RSC 복합체들이 내포된다. 다른 구체예들에서, CMMs는 또한 토포이소머라제, 헬리카제 또는 바이러스 단백질에서 파생될 수 있다. CMM의 원천은 다양할 수 있고, 달라질 수 있다. CMMs는 인간, 동물(즉, 척추동물 및 무척추동물), 식물, 조류 또는 효모에서 유래할 수 있다. 특정 CMMs의 비-제한적인 예는 아래 표 B에 나열되어 있다. 당업자는 다른 종의 상동체 및/또는 그 안의 관련 융합 모티프를 쉽게 확인할 수 있다.

표 B: 염색질 조절 모티프

(e) 후성유전학적 변형 도메인

여전히 다른 구체예들에서, 상기 하나 또는 그 이상의 이질성 도메인은 후성유전학적 변형 도메인일 수 있다. 적합한 후성유전학적 변형 도메인의 비-제한적인 예시에는 다음의 것들이 내포된다: DNA 탈아민화 (가령, 시티딘 데아미나제, 아데노신 데아미나제, 구아닌 데아미나제), DNA 메틸전이효소 활성 (가령, 시토신 메틸전이효소), DNA 데메틸라제 활성, DNA 아미노화, DNA 산화 활성, DNA 헬리카제 활성, 히스톤 아세틸전이효소 (HAT) 활성 (예로써, E1A 결합 단백질 p300로부터 유래된 HAT 도메인), 히스톤 탈아세틸라제 활성, 히스톤 메틸전이효소 활성, 히스톤 탈메틸라제 활성, 히스톤 키나제 활성, 히스톤 포스포타제 활성, 히스톤 유비퀴틴 리가제 활성, 히스톤 탈유비퀴티화 활성, 히스톤 아데닐화 활성, 히스톤 탈아데닐화 활성, 히스톤 SUMOyl화 활성, 히스톤 탈SUMOyl화 활성, 히스톤 리보실화 활성, 히스톤 탈리보실화 활성, 히스톤 미리스토일화 활성, 히스톤 탈미리스토일화 활성, 히스톤 시트룰린화 활성, 히스톤 알킬화 활성, 히스톤 탈알킬화 활성, 또는 히스톤 산화 활성. 특이적 구체예들에서, 상기 후성유전학적 변형 도메인은 시티딘 데아미나제 활성, 아데노신 데아미나제 활성, 히스톤 아세틸전이효소 활성, 또는 DNA 메틸전이효소 활성을 포함할 수 있다.

(f) 전사 조절 도메인

다른 구체예들에서, 상기 하나 또는 그 이상의 이질성 도메인은 전사 조절 도메인 (가령, 전사 활성화 도메인 또는 전사 억제자 도메인)일 수 있다. 적합한 전사 활성화 도메인에는 다음의 것들이 내포되나, 이에 국한되지 않는다: 단순 헤르페스 바이러스 VP16 도메인, VP64 (가령, VP16의 4개의 병렬 복사체), VP160 (가령, VP16의 10개의 병렬 복사체), NFκB p65 활성화 도메인 (p65), Epstein-Barr 바이러스 R 전이활성자 (Rta) 도메인, VPR (가령, VP64+p65+Rta), p300-의존적 전사 활성화 도메인, p53 활성화 도메인 1 및 2, 열-쇼크 인자 1 (HSF1) 활성화 도메인, Smad4 활성화 도메인 (SAD), cAMP 반응 요소 결합 단백질 (CREB) 활성화 도메인, E2A 활성화 도메인, 활성화된 T-세포 (NFAT) 활성화 도메인의 핵 인자, 또는 이의 조합. 적합한 전사 억제자 도메인의 비-제한적인 예시에는 Kruppel-연합된 박스 (KRAB) 억제 도메인, 유도성 cAMP 초기 억제 (ICER) 도메인, YY1 글리신 풍부 억제 도메인, Sp1-유사 억제제, E(spl) 억제제, IκB 억제제, Sin3 억제제, 메틸-CpG 결합 단백질 2 (MeCP2) 억제제, 또는 이의 조합이 내포된다. 전사 활성화 또는 전사 억제자 도메인은 유전적으로 Cas9 단백질에 융합될 수 있거나, 또는 비-공유적 단백질-단백질, 단백질-RNA, 또는 단백질-DNA 상호작용을 통하여 결합될 수 있다.

(g) RNA 압타머 결합 도메인

추가 구체예들에서, 상기 하나 또는 그 이상의 이질성 도메인은 RNA 압타머 결합 도메인일 수 있다 (Konermann et al., Nature, 2015, 517(7536):583-588; Zalatan et al., Cell, 2015, 160(1-2):339-50). 적합한 RNA 압타머 단백질 도메인의 예시에는 MS2 코트 단백질 (MCP), PP7 박테리오파아지 코트 단백질 (PCP), Mu 박테리오파아지 Com 단백질, 람다 박테리오파아지 N22 단백질, 스템-루프 결합 단백질 (SLBP), 그리고 Fragile X 정신 지체 증후군-관련된 단백질 1 (FXR1), 박테리오파아지로부터 유래된 단백질, 이를 테면, AP205, BZ13, f1, f2, fd, fr, ID2, JP34/GA, JP501, JP34, JP500, KU1, M11, M12, MX1, NL95, PP7, φCb5, φCb8r, φCb12r, φCb23r, Qβ, R17, SP-β, TW18, TW19, 그리고 VK, 이의 단편들, 또는 이의 유도체들이 내포된다.

(h) 비-Cas9 뉴클라제 도메인

여전히 다른 구체예들에서, 상기 하나 또는 그 이상의 이질성 도메인은 비-Cas9 뉴클라제 도메인일 수 있다. 적합한 뉴클라제 도메인은 임의의 엔도뉴클라제 또는 엑소뉴클라제로부터 수득될 수 있다. 뉴클레아제 도메인이 유래될 수 있는 비-제한적 엔도뉴클레아제의 예시에는 제한 엔도뉴클레아제와 호밍(homing) 엔도뉴클레아제가 내포되나, 이에 국한되지 않는다. 일부 구체예들에서, 상기 뉴클레아제 도메인은 유형 II-S 제한 엔도뉴클레아제로부터 유래될 수 있다. 유형 II-S 엔도뉴클레아제는 인지/결합 부위로부터 전형적으로 몇 개의 염기쌍만큼 떨어져 있는 부위에서 DNA를 절단하고, 이와 같이, 분리가능한 결합 및 절단 도메인를 갖는다. 이들 효소는 일반적으로 단량체이며, 이들은 일시적으로 연합되어 이량체를 형성하고, 스태거형(staggered) 위치에서 DNA의 각 가닥을 절단한다. 적합한 유형 II-S 엔도뉴클레아제의 비-제한적 실시예는 BfiI, BpmI, BsaI, BsgI, BsmBI, BsmI, BspMI, FokI, MboII, 그리고 SapI를 포함한다. 일부 구체예들에서, 상기 뉴클라제 도메인은 FokI 뉴클라제 도메인 또는 이의 유도체일 수 있다. 상기 유형 II-S 뉴클레아제 도메인은 2개의 상이한 뉴클레아제 도메인의 이량체화를 용이하게 하기 위하여 변형될 수 있다. 예로써, FokI의 절단 도메인은 특정 아미노산 잔기들을 돌연변이시킴으로써 변형될 수 있다. 비-제한적 예로써, FokI의 아미노산 잔기 위치 446, 447, 479, 483, 484, 486, 487, 490, 491, 496, 498, 499, 500, 531, 534, 537, 및 538에 있는 아미노산 잔기는 모두 FokI 뉴클레아제 도메인이 변형의 표적이다. 특정 구체예들에서, FokI 뉴클레아제 도메인은 Q486E, I499L, 및/또는 N496D 돌연변이를 포함하는 제 1 FokI 하프-도메인, 그리고 E490K, I538K, 및/또는 H537R 돌연변이를 포함하는 제 2 FokI 하프-도메인을 포함할 수 있다.

(i) 핵염기 변형 효소

본원에 기술된 상기 공작된 Cas9 변이체들은 또한 핵염기 변형 효소 또는 이의 촉매 도메인을 포함할 수 있다.

본원에 기술된 시스템에 다양한 핵염기 변형 효소들이 사용에 적합하다. 핵염기 변형 효소는 DNA 염기 편집자일 수 있다. 일부 구체예들에서, 상기 DNA 염기 편집자는 시티딘 데아미나제일 수 있고, 이는 시티딘을 우리딘으로 전환시키고, 중합효소 효소에 의해 티민으로 판독된다. 시티딘 데아미나제의 비-제한적 예시에는 시티딘 데아미나제 1 (CDA1), 시티딘 데아미나제 2 (CDA2), 활성화-유도된 시티딘 데아미나제 (AICDA), 아포리포단백질 B mRNA-편집 복합체 (APOBEC) 패밀리 시티딘 데아미나제 (가령, APOBEC1, APOBEC2, APOBEC3A, APOBEC3B, APOBEC3C, APOBEC3D/E, APOBEC3F, APOBEC3G, APOBEC3H, APOBEC4), APOBEC1 상보성 인자/APOBEC1 자극 인자 (ACF1/ASF) 시티딘 데아미나제, RNA (CDAR)에 작용하는 시토신 데아미나제, 박테리아 긴(long) 아이소형 시티딘 데아미나제 (CDD_L), 그리고 tRNA에 작용하는 시토신 데아미나제 (CDAT)가 내포된다. 다른 구체예들에서, 상기 DNA 염기 편집자는 아데노신 데아미나제일 수 있고, 이는 아데노신을 이노신으로 전환시키고, 중합효소 효소에 의해 구아노신으로 판독된다. 아데노신 데아미나제의 비-제한적인 예시에는 tRNA 아데닌 데아미나제, 아데노신 데아미나제, RNA에 작용하는 아데노신 데아미나제 (ADAR), 그리고 tRNA에 작용하는 아데노신 데아미나제 (ADAT)가 내포된다.

핵염기 변형 효소 (염기 편집자)는 야생형 또는 이의 단편, 이의 변형된 형태 (가령, 비-필수 도메인은 결손될 수 있으며), 또는 이의 공작된 형태일 수 있다. 핵염기 변형 효소 (염기 편집자)는 진핵, 박테리아, 또는 고세균 기원(archael origin)일 수 있다.

일부 구체예들에서, 핵염기 변형 효소 (염기 편집자)는 시티딘 데아미나제 또는 이의 촉매 도메인일 수 있다. 시티딘 데아미나제는 인간, 마우스, 칠성장어(lamprey), 전복(abalone), 또는 대장균(E. coli) 기원일 수 있다. 핵염기 변형 효소가 시티딘 데아미나제인 구체예들에서, 상기 RNA-안내된 핵염기 변형 시스템은 적어도 하나의 우라실 글리코실라제 억제제 (UGI) 도메인을 더 포함할 수 있다. DNA로부터 우라실의 제거(시토신 탈아민화의 결과임)는 UGI에 의해 저해된다. 적합한 UGI 도메인은 당분야에 공지되어 있다.

일부 구체예들에서, 시티딘 데아미나제 및 UGI를 사용하는 시스템은 이러한 구성 요소가 과발현되면 부정적인 영향을 미칠 수 있다. 과다-발현을 방지하기 위해, 분래 테그가 추가될 수 있다. 분해 테그는 단백질 재활용 시스템에 의해 단백질이 분해된다는 신호다. 이들 분해 테그로 상이한 단백질 반감기를 초래한다. 분해 테그의 비-제한적 예는 LVA, AAV, ASV 및 LAA이다.

(j) 역전사효소

일부 구체예들에서, 본원에 기술된 상기 공작된 SpCas9 변이체에 융합된 도메인은 역전사효소다. 역전사효소의 예시에는 조류 골수아세포증 바이러스(AMV) 역전사효소 및 몰로니 뮤린 백혈병 바이러스(MMLV) 역전사효소가 내포된다.

(k) 재조합효소/인테그라제

일부 구체예들에서, 본원에 기술된 상기 공작된 SpCas9 변이체에 융합된 도메인은 재조합효소 또는 인테그라제다. 적합한 재조합효소의 비-제한적 예시에는 Cre 재조합효소, FLP 재조합효소, Gin 재조합효소, 박테로이드(Bacteroides) intN2 티로신 인테그라제 (NBU2 유전자에 의해 인코드됨), 스트렙토미세스(Streptomyces) 파아지 phiC31 (φC31) 리콤비나제, 골리파아지 P4 리콤비나제, 콜리파아지 람다 인테그라제, 리스테리아(Listeria) A118 파아지 리콤비나제, 렌티바이러스 또는 HIV 인테그라제 그리고 악티노파아지 R4 Sre 리콤비나제가 내포된다. 재조합효소/인테그라제는 두 개의 서열 특정 인지 (또는 부착) 부위 (가령, attP 부위와 attB 부위, 또는 두 개의 Cre/loxP 부위) 사이의 재조합을 매개하거나, 또는 HIV 인테그라제와 마찬가지로 무작위로 DNA를 삽입시킬 수 있다.

(l) 링커

상기 하나 또는 그 이상의 이질성 도메인은 하나 또는 그 이상의 화학 결합 (가령, 공유 결합)을 통하여 Cas9 단백질에 직접적으로 연계될 수 있거나, 또는 상기 하나 또는 그 이상의 이질성 도메인은 하나 또는 그 이상의 링커를 통하여 Cas9 단백질에 간접적으로 연계될 수 있다.

링커는 최소한 하나의 공유 결합을 통하여 하나 또는 그 이상의 다른 화학기에 연결되는 화학기다. 적합한 링커에는 아미노산, 펩티드, 뉴클레오티드, 핵산, 유리 링커 분자 (예로써, 말레이미드 유도체, N-에톡시벤질이미다졸, 바이페닐-3,4′,5-트리카르복실산, p-아미노벤조일옥시카르보닐, 및 이와 유사한 것), 이황화 링커, 그리고 폴리머 링커 (예로써, PEG)가 포함된다. 링커는 알킬렌, 알케닐렌, 알키닐렌, 알킬, 알케닐, 알키닐, 알콕시, 아릴, 헤테로아릴, 아르알킬, 알랄케닐, 알키닐 및 이와 유사한 것등을 포함하지만, 이에 제한되지 않는 하나 또는 그 이상의 스페이싱기를 포함할 수 있다. 링커는 중성이거나, 또는 양전하 또는 음전하를 지닐 수 있다. 추가적으로, 링커는 절단가능하여, 또다른 화학기에 링커를 연결시키는 링커의 공유결합이 pH, 온도, 염 농도, 광, 촉매 또는 효소를 포함하는 특정 조건 하에서 파괴되거나 또는 절단될 수 있게 한다. 일부 구체예들에서, 상기 링커는 펩티드 링커다. 상기 펩티드 링커는 연성 아미노산 링커일 수 있다(예로써, 작은, 비-극성 또는 극성 아미노산을 포함하는). 연성 링커의 비-제한적 예시예는 LEGGGS (서열 식별 번호: 33), TGSG (서열 식별 번호: 34), GGSGGGSG (서열 식별 번호: 35), (GGGGS)_1-4 (서열 식별 번호: 36), 그리고 (Gly)_6-8 (서열 식별 번호: 37)가 내포된다. 대안으로, 상기 펩티드 링커는 뻣뻣한(rigid) 아미노산 링커일 수 있다. 이러한 링커에는 (EAAAK)_1-4 (서열 식별 번호: 38), A(EAAAK)_2-5A (서열 식별 번호: 39), PAPAP (서열 식별 번호: 40), 그리고 (AP)_6-8 (서열 식별 번호: 41)가 내포된다. 적합한 링커의 추가 실시예는 당분야에 잘 공지되어 있고, 디자인 링커를 기획하는 프로그램은 쉽게 이용가능하다 (가령, Crasto et al., Protein Eng., 2000, 13(5):309-312).

(m) 공작된 Cas9 단백질의 생산

일부 구체예들에서, 상기 공작된 Cas9 단백질은 무-세포 시스템, 박테리아 세포, 또는 진핵 세포에서 재조합적으로 생산되고, 통상적인 정제 방법을 이용하여 정제될 수 있다. 다른 구체예들에서, 상기 공작된 Cas9 단백질은 공작된 Cas9 단백질을 인코딩하는 핵산으로부터 관심 진핵 세포의 생체내에서 생산된다 (아래 섹션 (III) 참조 및 이 섹션 (I)에 참조로 편입됨).

상기 공작된 Cas9 단백질이 뉴클라제 또는 니카제 활성를 포함하는 구체예들에서, 상기 공작된 Cas9 단백질은 적어도 하나의 핵 국소화 신호, 세포-침투 도메인, 및/또는 마커 도메인, 뿐만 아니라 적어도 하나의 염색질 분열 도메인을 더 포함할 수 있다. 상기 공작된 Cas9 단백질은 후성유전학적 변형 도메인에 연계된 구체예들에서, 상기 공작된 Cas9 단백질은 적어도 하나의 핵 국소화 신호, 세포-침투 도메인, 및/또는 마커 도메인, 뿐만 아니라 적어도 하나의 염색질 분열 도메인을 더 포함할 수 있다. 더욱이, 상기 공작된 Cas9 단백질이 전사 조절 도메인에 연계된 구체예들에서, 상기 공작된 Cas9 단백질은 적어도 하나의 핵 국소화 신호, 세포-침투 도메인, 및/또는 마커 도메인, 뿐만 아니라 적어도 하나의 염색질 분열 도메인 및/또는 적어도 하나의 RNA 압타머 결합 도메인을 더 포함할 수 있다.

(II) 공작된 Cas9 시스템

본 명세서의 또다른 측면은 이 섹션 (II)에 참고로 편입된 섹션(I)에서 논의된 공작된 Cas9 단백질 변이체들을 포함하는 공작된 Cas9 시스템 및 공작된 가이드 RNAs를 제공하며 (예를 들면, 공작된 Cas9 단백질 변이체에는 아미노산 위치들 526, 562, 652, 661, 691, 780, 810, 848, 855, 1003, 및 1060중 하나 또는 그 이상(가령, 2개 또는 3개) 위치에 변형이 내포되며 (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라), 이때 전술한 아미노산 위치들중 하나 또는 그 이상의 위치에 리신(K)는 류신 (L) 또는 글루타민 (Q)으로 변경되며, 및/또는 전술한 아미노산 위치들중 하나 또는 그 이상의 위치에 아르기닌 (R)은 류신 (L) 또는 글루타민 (Q)으로 변경됨), 이때 각 공작된 가이드 RNA는 특정 공작된 Cas9 단백질과 복합되도록 기획된다. 각 공작된 가이드 RNA는 표적 서열과 이중-가닥의 서열로 혼성화되도록 기획된 5' 가이드 서열을 포함하고, 이때 상기 표적 서열은 프로토스페이서 인접 모티프 (PAM)의 5'에 있다.

(a) 공작된 가이드 RNAs

상기 공작된 가이드 RNA는 특정 공작된 Cas9 단백질과 복합되도록 기획된다. 가이드 RNA는 (i) 5' 단부에서 표적 서열에 혼성화되는 가이드 서열을 함유하는 CRISPR RNA (crRNA), 그리고 (ii) Cas9 단백질을 모집하는 트랜스액팅 crRNA (tracrRNA) 서열을 포함한다. 각 가이드 RNA의 crRNA 가이드 서열은 상이하다 (가령, 서열 특이적이다). tracrRNA 서열은 특정 박테리아 종의 Cas9 단백질과 복합체를 이루도록 기획된 가이드 RNAs에서 일반적으로 동일하다.

CrRNA 가이드 서열은 표적 서열 (가령, 프로토스페이서)과 이중-가닥으로 된 서열로 혼성화되도록 기획된다. 일반적으로, crRNA와 표적 서열 간의 상보성(complementarity)은 적어도 80%, 적어도 85%, 적어도 90%, 적어도 95%, 또는 적어도 99%이다. 특정 구체예들에서, 상보성은 완벽하다 (즉, 100%). 다양한 구체예들에서, crRNA 가이드 서열의 길이는 약 15개 뉴클레오티드 내지 약 25개 뉴클레오티드 범위가 될 수 있다. 예를 들면, crRNA 가이드 서열의 길이는 약 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 또는 25개 뉴클레오티드일 수 있다. 특이적 구체예들에서, crRNA의 길이는 약 19개, 20개, 또는 21개 뉴클레오티드이다. 한 구체예에서, 상기 crRNA 가이드 서열은 20개의 뉴클레오티드 길이를 갖는다.

상기 가이드 RNA는 적어도 하나의 줄기(stem)-루프 구조를 형성하는 반복 서열 (Cas9 단백질과 상호작용하며), 그리고 단일-가닥으로 남아있는 3' 서열을 포함한다. 각각 루프 및 줄기의 길이는 가변적일 수 있다. 예를 들면, 루프는 길이가 약 3 개 내지 약 10 개 뉴클레오티드 범위일 수 있고, 스템은 길이가 약 6 개 내지 약 20 개 염기쌍 범위일 수 있다. 상기 스템은 1 개 내지 약 10 개 뉴클레오티드로 된 한 개 또는 그 이상의 불지스(bulges)를 포함할 수 있다. 상기 단일-가닥으로된 3' 영역의 길이는 가변적일 수 있다. 조작된 가이드 RNA의 tracrRNA 서열은 일반적으로 관심 박테리아 종의 야생형 tracrRNA의 코딩 서열을 기반으로 한다. 상기 야생형 서열은 이차 구조 형성, 증가된 이차 구조 안정성, 그리고 진핵세포에서 발현의 용이성 및 기타 등등이 실행되도록 개질될 수 있다. 예를 들면, 하나 또는 그 이상의 뉴클레오티드 변화가 상기 가이드 RNA 서열 안으로 도입될 수 있다 (하기 실시예 3 참고). 상기 tracrRNA 서열의 길이는 약 50개 뉴클레오티드 내지 약 300개 뉴클레오티드 범위일 수 있다. 다양한 구체예들에서, tracrRNA의 길이는 약 50개 내지 약 90개 뉴클레오티드, 약 90개 내지 약 110개 뉴클레오티드, 약 110개 내지 약 130개 뉴클레오티드, 약 130개 내지 약 150개 뉴클레오티드, 약 150개 내지 약 170개 뉴클레오티드, 약 170개 내지 약 200개 뉴클레오티드, 약 200개 내지 약 250개 뉴클레오티드, 또는 약 250개 내지 약 300개 뉴클레오티드의 범위일 수 있다.

일반적으로, 상기 공작된 가이드 RNA는 단일 분자 (가령, 키메라 단일 가이드 RNA 또는 sgRNA)이며, 이때 crRNA 서열이 tracrRNA 서열에 연계된다. 일부 구체예들에서, 그러나 상기 공작된 가이드 RNA는 두 개의 별개 분자 (가령, 듀얼 분자 가이드 RNA)일 수 있다. 예를 들면, 상기 가이드 RNA에는 제 2 분자의 5' 단부와 염기 페어링할 수 있는 3' 서열 (약 6 ~ 약 20개 뉴클레오티드를 포함하는)을 함유하는 crRNA를 포함하는 제 1 분자 (또는 영역), 그리고 상기 제 1 분자 (또는 영역)의 3' 단부와 염기 페어링을 할 수 있는 5' 서열 (약 6 ~ 약 20개 뉴클레오티드를 포함하는)을 함유하는 tracrRNA를 포함하는 제 2 분자가 내포될 수 있다.

일부 구체예들에서, 상기 공작된 가이드 RNA의 tracrRNA 서열은 하나 또는 그 이상의 압타머 서열을 포함하도록 변형될 수 있다 (Konermann et al., Nature, 2015, 517(7536):583-588; Zalatan et al., Cell, 2015, 160(1-2):339-50). 적합한 압타머 서열에는 MCP, PCP, Com, SLBP, FXR1, AP205, BZ13, f1, f2, fd, fr, ID2, JP34/GA, JP501, JP34, JP500, KU1, M11, M12, MX1, NL95, PP7, φCb5, φCb8r, φCb12r, φCb23r, Qβ, R17, SP-β, TW18, TW19, VK, 이의 단편들, 또는 이의 유도체들로부터 선택된 어뎁터 단백질에 결합하는 것들이 내포된다. 상기 압타머 서열의 길이는 가변적일 수 있음을 당업자는 인지할 것이다.

다른 구체예들에서, 가이드 RNA는 적어도 하나의 탐지가능한 라벨을 더 포함한다. 상기 탐지가능한 라벨은 형광단 (예로써, FAM, TMR, Cy3, Cy5, Texas Red, Oregon Green, Alexa Fluors, Halo 테그, 또는 적합한 형광 염료), 검출용 테그 (예로써, 바이오틴, 디곡시게닌, 및 이와 유사한 것), 양자점, 또는 금 입자일 수 있다..

상기 가이드 RNA는 표준 리보뉴클레오티드 및/또는 변형된 리보뉴클레오티드를 포함할 수 있다. 일부 구체예들에서, 가이드 RNAs는 표준 또는 변형된 데옥시리보뉴클레오티드를 포함할 수 있다. 가이드 RNA가 효소적으로 (즉, 생체내 또는 시험관내에서)합성되는 구체예들에서, 이 가이드 RNA는 일반적으로 표준 리보뉴클레오티드를 포함한다. 가이드 RNA 화학적으로 합성되는 구체예들에서, 이 가이드 RNA는 표준 또는 변형된 리보뉴클레오티드 및/또는 데옥시리보뉴클레오티드를 포함할 수 있다. 변형된 리보뉴클레오티드 및/또는 데옥시리보뉴클레오티드는 염기 변형 (예로써, 슈도우리딘, 2-티오우리딘, N6-메틸아데노신, 및 이와 유사한 것들) 및/또는 당 변형 (예로써, 2'-O-메틸, 2'-플루오로, 2'-아미노, 잠금(locked) 핵산 (LNA), 및 등등)을 포함한다. 가이드 RNA의 기본골격은 포스포로티오에이트 링키지, 보라노포스페이트 링키지 또는 펩티드 핵산을 포함하도록 또한 변형될 수 있다.

(b) PAM 서열

위에서 자세히 설명한 조작된 Cas9 시스템은 PAM 서열의 상류에 위치한 이중 가닥 DNA의 특정 서열을 표적으로 한다. 상기 PAM 서열에는 정준성(canonical) 5'-NGG-3' PAM 또는 비-정준성 PAM, 이를 테면, 5'-NAG-3' PAM가 내포될 수 있다. 일부 구체예들에서, 상기 상술된 공작된 Cas9 시스템은 대체 PAMs, 이를 테면, 5'-NGAN-3', 5'-NGNG-3', 그리고 5'-NGCG-3' PAMs를 인지하도록 변형될 수 있다.

(III) 핵산

본 명세서의 추가 측면은 이 섹션 (III)에 참고로 편입된 섹션 (I) 및 섹션 (II)에서 논의된 공작된 Cas9 단백질 변이체들을 인코딩하는 핵산을 제공하며(예를 들면, 공작된 Cas9 단백질 변이체에는 아미노산 위치들 526, 562, 652, 661, 691, 780, 810, 848, 855, 1003, 및 1060중 하나 또는 그 이상(가령, 2개 또는 3개) 위치에 변형이 내포되며(스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라), 이때 전술한 아미노산 위치들중 하나 또는 그 이상의 위치에 리신(K)는 류신 (L) 또는 글루타민 (Q)으로 변경되며, 및/또는 전술한 아미노산 위치들중 하나 또는 그 이상의 위치에 아르기닌 (R)은 류신 (L) 또는 글루타민 (Q)으로 변경된다. 상기 단백질 및 시스템은 단일 핵산 또는 다중 핵산에 의해 인코드될 수 있다. 상기 핵산은 DNA 또는 RNA, 선형 또는 원형, 단일-가닥으로된 또는 이중-가닥으로된 것일 수 있다. 상기 RNA 또는 DNA는 관심대상의 진핵 세포의 단백질로 효과적으로 해독되도록 코돈 최적화될 수 있다. 코돈 최적화 프로그램은 프리웨어(freeware) 또는 상업적 출처로부터 제공된다.

일부 구체예들에서, 상기 공작된 Cas9 단백질을 인코딩하는 핵산은 RNA일 수 있다. 상기 RNA는 시험관에서 효소적으로 합성될 수 있다. 이를 위해, 상기 공작된 Cas9 단백질을 인코딩하는 DNA는 시험관에서 RNA 합성을 위하여 파아지 RNA 중합효소에 의해 인지되는 프로모터 서열에 작동가능하도록 연계될 수 있다. 예를 들면, 상기 프로모터 서열은 T7, T3, 또는 SP6 프로모터 서열이거나, 또는 T7, T3, 또는 SP6 프로모터 서열의 변이일 수 있다. 상기 공작된 단백질을 인코딩하는 DNA는 하기에서 기술된 바와 같이, 벡터의 일부분일 수 있다. 이러한 구체예들에서, 시험관에서-전사된 RNA는 정제되고, 캡핑되거나(capped), 및/또는 폴리아데닐화될 수 있다. 다른 구체예들에서, 상기 공작된 Cas9 단백질을 인코딩하는 RNA는 자가-복제하는 RNA의 일부분일 수 있다 (Yoshioka et al., Cell Stem Cell, 2013, 13:246-254). 자기-복제 RNA는 비-감염성 자기-복제 베네수엘라 말 뇌염 (VEE) 바이러스 RNA 레플리 콘에서 유래될 수 있고, 이는 제한된 수의 세포 분할을 위하여 자가-복제할 수 있는 양성-센스, 단일-가닥으로된 RNA이고, 그리고 관심 단백질을 코드하도록 변경될 수 있다(Yoshioka et al., Cell Stem Cell, 2013, 13:246-254).

다른 구체예들에서, 상기 공작된 Cas9 단백질을 인코딩하는 핵산은 DNA일 수 있다. DNA 코딩 서열은 관심 세포에서의 발현을 위해 최소한 하나의 프로모터 제어 서열에 작동 가능하게 연계될 수 있다. 특정 구체예들에서, DNA 코딩 서열은 박테리아 (예로써, 대장균(E. coli) 세포 또는 진핵세포 (예로써, 효모, 곤충, 또는 포유류) 세포에서 상기 공작된 Cas9 단백질의 발현을 위하여 프로모터 서열에 작동가능하도록 연계될 수 있다. 적합한 박테리아 프로모터는 T7 프로모터, lac 오페론 프로모터, trp 프로모터, tac 프로모터 (trp 및 lac 프로모터의 하이브리드), 잔술한 것들중 임의의 변이, 그리고 전술한 것들중 임의의 조합을 포함하나, 이에 국한되지 않는다. 적합한 진핵세포 프로모터의 비-제한적 실시예는 구성적, 조절된, 또는 세포- 또는 조직-특이적 프로모터를 포함한다. 적합한 진핵세포 구성적 프로모터 조절 서열은 사이토메갈로바이러스 즉각 초기 프로모터 (CMV), 원숭이 바이러스 (SV40) 프로모터, 아데노바이러스 주요 후기 프로모터, 라우스 육종 바이러스 (RSV) 프로모터, 마우스 유방 종양 바이러스 (MMTV) 프로모터, 포스포글리세레이트 키나제 (PGK) 프로모터, 연장 인자 (ED1)-알파 프로모터, 유비퀴틴 프로모터, 액틴 프로모터, 튜블린 프로모터, 면역글로블린 프로모터, 이의 단편들, 또는 전술한 것들중 임의의 조합을 포함하나, 이에 국한되지 않는다. 적합한 진핵세포 조절된 프로모터 조절 서열의 예로는 열쇼크, 금속, 스테로이드, 항생제, 또는 알코올에 의해 조절된 것을 포함하나, 이에 국한되지 않는다. 조직-특이적 프로모터의 비-제한적 실시예로는 B29 프로모터, CD14 프로모터, CD43 프로모터, CD45 프로모터, CD68 프로모터, 데스민 프로모터, 엘라스타제-1 프로모터, 엔도글린 프로모터, 피브로넥틴 프로모터, Flt-1 프로모터, GFAP 프로모터, GPIIb 프로모터, ICAM-2 프로모터, INF-β 프로모터, Mb 프로모터, NphsI 프로모터, OG-2 프로모터, SP-B 프로모터, SYN1 프로모터, 그리고 WASP 프로모터를 포함한다. 상기 프로모터 서열은 야생형일 수 있거나, 또는 더욱 효과적인 또는 효율적인 발현을 위하여 변형될 수 있다. 일부 구체예들에서, 상기 DNA 코딩 서열은 폴리아데닐화 신호 (예로써, SV40 polyA 신호, 소 성장 호르몬(BGH) polyA 신호, 등등) 및/또는 최소한 하나의 전사 종료 서열에 또한 연계될 수 있다. 일부 상황에서, 박테리아 또는 진핵 세포로부터 상기 공작된 Cas9 단백질를 순수분리할 수 있다.

여전히 다른 구체예들에서, 상기 공작된 가이드 RNA는 DNA에 의해 인코드될 수 있다. 일부 경우들에서, 상기 공작된 가이드 RNA를 인코딩하는 DNA는 시험관에서 RNA 합성을 위하여 파아지 RNA 중합효소에 의해 인지되는 프로모터 서열에 작동가능하도록 연계될 수 있다. 예를 들면, 상기 프로모터 서열은 T7, T3, 또는 SP6 프로모터 서열이거나, 또는 T7, T3, 또는 SP6 프로모터 서열의 변이일 수 있다. 다른 경우들에서, 상기 공작된 가이드 RNA를 인코딩하는 DNA는 관심대상의 진핵 세포에서 발현을 위해 RNA 중합효소 III (Pol III)에 의해 인지되는 프로모터 서열에 작동가능하도록 연계될 수 있다. 적합한 Pol III 프로모터의 예로는 포유류 U6, U3, H1, 그리고 7SL RNA 프로모터를 포함하나, 이에 국한되지 않는다.

다양한 구체예들에서, 상기 공작된 Cas9 단백질을 인코딩하는 핵산은 벡터에 존재할 수 있다. 일부 구체예들에서, 상기 벡터는 상기 공작된 가이드 RNA를 인코딩하는 핵산을 더 포함할 수 있다. 적합한 벡터에는 플라스미드 벡터, 바이러스성벡터, 그리고 자가-복제 RNA가 내포된다 (Yoshioka et al., Cell Stem Cell, 2013, 13:246-254). 일부 구체예들에서, 복합체 또는 융합 단백질을 인코딩하는 핵산은 플라스미드 벡터 안에 존재할 수 있다. 적합한 플라스미드 벡터의 비-제한적 실시예로는 pUC, pBR322, pET, pBluescript, 그리고 이의 변이체들이 내포된다. 다른 구체예들에서, 복합체 또는 융합 단백질을 인코딩하는 핵산은 바이러스 벡터 (예로써, 렌티바이러스 벡터, 아데노-연합된 바이러스 벡터, 아데노바이러스 벡터, 그리고 기타등등)의 일부분일 수 있다. 플라스미드 또는 바이러스 벡터는 추가 발현 조절 서열 (예로써, 인헨서 서열, Kozak 서열, 폴리아데닐화 서열, 전사 종료 서열, 등등), 선별가능한 표지 서열 (예로써, 항생제 저항성 유전자), 복제 원점, 및 이와 유사한 것을 포함할 수 있다. 벡터 및 이의 용도에 관한 추가 정보는 "Current Protocols in Molecular Biology" Ausubel et al., John Wiley & Sons, New York, 2003 또는 "Molecular Cloning: A Laboratory Manual" Sambrook & Russell, Cold Spring Harbor Press, Cold Spring Harbor, NY, 3^rd edition, 2001에서 찾아볼 수 있다.

(IV) 진핵 세포

본 명세서의 또다른 측면은 이 섹션 (IV)에서 참고로 편입된 섹션(I)에서 상술된 적어도 하나의 공작된 Cas9 단백질 변이체들을 포함하는 진핵 세포, 및/또는 섹션 (I), (II) 및 섹션 (III)에서 상술된 공작된 Cas9 단백질 및/또는 시스템을 인코딩하는 적어도 하나의 핵산 및/또는 공작된 가이드 RNA (각 세션은 이 섹션 (IV)에서 참고로 편입됨)를 제공하며, (예를 들면, 공작된 Cas9 단백질 변이체에는 아미노산 위치들 526, 562, 652, 661, 691, 780, 810, 848, 855, 1003, 및 1060중 하나 또는 그 이상(가령, 2개 또는 3개) 위치에 변형이 내포되며(스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라), 이때 전술한 아미노산 위치들중 하나 또는 그 이상의 위치에 리신(K)는 류신 (L) 또는 글루타민 (Q)으로 변경되며, 및/또는 전술한 아미노산 위치들중 하나 또는 그 이상의 위치에 아르기닌 (R)은 류신 (L) 또는 글루타민 (Q)으로 변경된다).

진핵 세포는 인간 세포, 비-인간 포유동물 세포, 비-포유동물 척추동물 세포, 무척추동물 세포, 식물 세포, 또는 단세포 진핵 유기체일 수 있다. 적합한 진핵 세포의 예시는 하기 섹션 (V)(c)에서 상술된다. 상기 진핵 세포는 시험관내, 생체외, 또는 생체내 세포일 수 있다.

(V) 서열을 변형시키는 방법

본 명세서의 추가 측면은 진핵 세포에서 염색체 서열을 변형시키는 방법을 포괄한다. 일반적으로, 상기 방법은 섹션 (II)에서 상술되고, 섹션 (I)에서 상술된 바와 같이 공작된 Cas9 단백질 변이체이 더 내포된, 적어도 하나의 공작된 Cas9 시스템 및/또는 섹션 (I), (II) 및 섹션 (III)에서 상술된 공작된 Cas9 단백질 및/또는 시스템을 인코딩하는 적어도 하나의 핵산 및/또는 공작된 가이드 RNA (각 세션은 이 섹션 (V)에서 참고로 편입됨)을 관심 대상의 진핵 세포내로 도입시키는 것을 포함하며, 이때 각 섹션 (I) 및 섹션 (II)은 이 섹션 (V)에 참고로 편입되며 ((예를 들면, 공작된 Cas9 단백질 변이체에는 아미노산 위치들 526, 562, 652, 661, 691, 780, 810, 848, 855, 1003, 및 1060중 하나 또는 그 이상(가령, 2개 또는 3개) 위치에 변형이 내포되며(스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라), 이때 전술한 아미노산 위치들중 하나 또는 그 이상의 위치에 리신(K)는 류신 (L) 또는 글루타민 (Q)으로 변경되며, 및/또는 전술한 아미노산 위치들중 하나 또는 그 이상의 위치에 아르기닌 (R)은 류신 (L) 또는 글루타민 (Q)으로 변경된다).

상기 공작된 Cas9 단백질이 뉴클라제 또는 니카제 활성을 포함하는 구체예들에서, 염색체 서열 변형은 적어도 하나의 뉴클레오티드의 치환, 적어도 하나의 뉴클레오티드의 결손, 적어도 하나의 뉴클레오티드의 삽입을 포함할 수 있다. 일부 반복에서, 상기 방법은 뉴클라제 활성을 포함하는 하나의 공작된 Cas9 시스템, 또는 니카제 활성을 포함하고, 공여 폴리뉴클레오티드를 포함하지 않는 두 개의 공작된 Cas9 시스템을 상기 진핵 세포로 도입시키는 것을 포함하며, 이러한 상기 공작된 Cas9 시스템 또는 시스템은 염색체 서열의 표적 부위로 이중-가닥으로 된 파괴부분(break)을 도입시키고, 세포 DNA 복구 공정에 의한 해당 이중-가닥으로 된 파괴부분의 복구로 적어도 하나의 뉴클레오티드 변화가 도입되고 (가령, indel), 이로 인하여 염색체 서열이 비활성화된다 (가령, 유전자 녹-아웃). 다른 반복에서, 상기 방법은 뉴클라제 활성을 포함하는 하나의 공작된 Cas9 시스템, 또는 니카제 활성 뿐만 아니라 공여 폴리뉴클레오티드를 포함하는 두 개의 공작된 Cas9 시스템을 상기 진핵 세포로 도입시키는 것을 포함하며, 이러한 상기 공작된 Cas9 시스템 또는 시스템은 염색체 서열의 표적 부위로 이중-가닥으로 된 파괴부분을 도입시키고, 세포 DNA 복구 공정에 의한 해당 이중-가닥으로 된 파괴부분의 복구는 염색체 서열의 표적 부위로 공여 폴리뉴클레오티드에서 서열의 삽입 또는 교환으로 이어진다 (가령, 유전자 교정 또는 유전자 녹-인).

상기 공작된 Cas9 단백질이 후성유전학적 변형 활성 또는 전사 조절 활성을 포함하는 구체예들에서, 염색체 서열 변형은 염색체 서열에서 해당 표적 부위 또는 이 표적 부위의 부근에 적어도 하나의 뉴클레오티드의 전환, 해당 표적 부위 또는 이 표적 부위의 부근에 적어도 하나의 뉴클레오티드의 변형, 해당 표적 부위, 또는 이 표적 부위의 부근에 적어도 하나의 히스톤 단백질의 변형, 및/또는 해당 표적 부위 또는 이 표적 부위의 부근에 전사의 변형을 포함할 수 있다.

여전히 추가로, 본원에 기술된 상기 공작된 Cas9 변이체들은 진핵 세포이외의 다른 것들, 이를 테면, 미생물 게놈을 변형시키는데 또한 이용될 수 있음을 이해할 것이다.

(a) 세포 안으로의 도입

상기에서 언급된 바와 같이, 상기 방법은 적어도 하나의 공작된 Cas9 시스템 및/또는 전술한 시스템을 인코딩하는 핵산 (및 임의선택적으로 공여 폴리뉴클레오티드)을 진핵 세포 안으로 도입시키는 것을 포함한다. 상기 적어도 하나의 시스템 및/또는 핵산/공여 폴리뉴클레오티드는 다양한 수단에 의해 관심 대상 세포 안으로 도입될 수 있다.

일부 구체예들에서, 세포는 적절한 분자 (가령, 단백질, DNA, 및/또는 RNA)에 의해 형질감염될 수 있다. 적합한 형질감염 방법은 핵감염 (또는 전기천공), 칼슘 포스페이트-매개된 형질감염, 양이온 폴리머 형질감염 (예로써, DEAE-덱스트란 또는 폴리에틸이민), 바이러스성 형질유도, 비로좀 형질감염, 비리온 형질감염, 리포좀 형질감염, 양이온 리포좀 형질감염, 면역리포좀 형질감염, 비리포좀 지질 형질감염, 덴드리머 형질감염, 열 쇼크 형질감염, 마그네토펙션(magnetofection), 리포펙션(lipofection), 유전자 총 운반, 임팔레펙션( impalefection), 소노포레이션(sonoporation), 광학적 형질감염, 그리고 독점(proprietary) 물질-강화된 핵산의 취입을 포함한다. 형질감염 방법은 당분야에 공지되어 있다 (예로써, "Current Protocols in Molecular Biology" Ausubel et al., John Wiley & Sons, New York, 2003 or "Molecular Cloning: A Laboratory Manual" Sambrook & Russell, Cold Spring Harbor Press, Cold Spring Harbor, NY, 3rd edition, 2001). 다른 구체예들에서, 상기 분자는 세포 안으로 현미주사(microinjection)를 통하여 도입될 수 있다. 예로써, 상기 분자는 관심 대상의 세포질 또는 핵으로 주사될 수있다. 세포 안으로 도입되는 각 분자의 양은 가변적일 수 있지만, 당업자는 적절한 양을 결정하는 수단을 알고 있다.

다양한 분자는 세포 안으로 동시에 또는 순차적으로 도입될 수 있다. 예를 들면, 상기 공작된 Cas9 시스템 (또는 이의 인코딩 핵산) 및 공여 폴리뉴클레오티드는 동시에 도입될 수 있다. 대안으로, 하나가 먼저 도입되고, 이어서 다른 하나가 세로에 나중에 도입될 수 있다.

일반적으로, 상기 세포는 세포 성장 및/또는 유지에 적합한 조건하에서 유지된다. 적합한 세포 배양 조건은 당분야에 잘 공지되어 있고, 예로써, Santiago et al., Proc. Natl. Acad. Sci. USA, 2008, 105:5809-5814; Moehle et al. Proc. Natl. Acad. Sci. USA, 2007, 104:3055-3060; Urnov et al., Nature, 2005, 435:646-651; 그리고 Lombardo et al., Nat. Biotechnol., 2007, 25:1298-1306에서 기술되어 있다. 당업자는 세포 배양 방법이 당업계에 공지되어 있고, 세포 유형에 따라 달라질 수 있고, 달라질 수 있음을 인식한다. 모든 경우에 일상적인 최적화를 사용하여 특정 세포 유형에 가장 적합한 기술을 결정할 수 있다.

(b)임의선택적 공여 폴리뉴클레오티드

공작된 Cas9 단백질이 뉴클레아제 또는 니카제 활성을 갖는 구체예들에서, 상기 방법은 최소한 하나의 기증 폴리뉴클레오티드를 세포 안으로 도입시키는 것을 더 포함할 수 있다. 공여 폴리뉴클레오티드는 단일-가닥으로된 또는 이중-가닥으로된, 선형 또는 원형, 및/또는 RNA 또는 DNA일 수 있다. 일부 구체예들에서, 기증 폴리뉴클레오티드는 벡터, 예로써, 플라스미드 벡터일 수 있다.

상기 공여 폴리뉴클레오티드는 적어도 하나의 공여 서열을 포함한다. 일부 측면들에서, 공여 폴리뉴클레오티드의 공여 서열은 내생성 또는 고유(native) 염색체 서열의 변형된 형태일 수 있다. 예를 들면, 상기 공여 서열은 상기 공작된 Cas9 시스템에 의해 표적화되는 서열에서 또는 이 서열 부근에서 염색체 서열의 일부분과 기본적으로 동일하지만, 최소한 하나의 뉴클레오티드 변화를 포함한다. 따라서, 고유 서열에 통합 또는 교환 시에, 상기 표적화된 염색체 위치의 서열은 최소한 하나의 뉴클레오티드 변화를 포함한다. 예로써, 변화는 하나 또는 그 이상의 뉴클레오티드의 삽입, 하나 또는 그 이상의 뉴클레오티드의 결손, 하나 또는 그 이상의 뉴클레오티드의 치환, 또는 이의 조합일 수 있다. 변형된 서열의 "유전자 교정" 통합 결과로써, 세포는 상기 표적화된 염색체 서열로부터 변형된 유전자 산물을 만들 수 있다.

다른 측면들에서, 상기 공여 폴리뉴클레오티드의 공여 서열은 외생성 서열일 수 있다. 여기에서 사용된 바와 같이, "외생성(exogenous)" 서열이란 세포에 있어서 고유한 것은 아닌 서열이거나, 또는 서열의 고유 위치가 세포의 게놈에서 상이한 위치에 있는 서열을 말한다. 예로써, 외생성 서열은 단백질 코딩 서열을 포함할 수 있는데, 이 서열은 외생성 프로모터 조절 서열에 작동가능하도록 연계될 수 있어서, 게놈 안으로 통합시에 이 세포는 통합된 서열에 의해 인코드된 단백질을 발현시킬 수 있다. 대안으로, 상기 외생성 서열은 염색체 서열 안으로 통합되어, 이의 발현은 내생성 프로모터 조절 서열에 의해 조절된다. 다른 반복에서, 외생성 서열은 전사 조절 서열, 또다른 발현 조절 서열, RNA 코딩 서열, 그리고 기타 등등일 수 있다. 상기에서 명시된 바와 같이, 외생성 서열이 염색체 서열 안으로 통합되는 것을 "녹-인(knock in)"이라고 한다.

당업자에 의해 인지되는 바와 같이, 공여 서열의 길이는 가변적이며, 가변적일 것이다. 예로써, 공여자 서열은 몇 개 뉴클레오티드에서부터 수백개 뉴클레오티드 내지 수십만개 뉴클레오티드까지 길이가 가변적일 수 있다.

전형적으로, 상기 폴리뉴클레오티드에서 공여 서열은 상류(upstream) 서열과 하류(downstream) 서열 양측면에 있고, 이는 상기 공작된 Cas9 시스템에 의해 표적화된 서열의 상류와 하류 각각에 차례로 위치한 서열에 대하여 실질적 서열 동일성을 갖는다. 이러한 서열 유사성때문에, 공여 폴리뉴클레오티드의 상류 및 하류 서열은 공여 폴리뉴클레오티드 와 표적화된 염색체 서열 사이에 상동성 재조합을 허용하고, 이로 인하여 공여 서열은 염색체 서열 안으로 통합될 수 있다(또는 이와 교환될 수 있다).

본원에서 이용된 상류 서열은 상기 공작된 Cas9 시스템에 의해 표적화된 서열의 상류 염색체 서열과 실질적 서열 동일성을 공유하는 핵산 서열을 지칭한다. 유사하게, 하류 서열이란 상기 공작된 Cas9 시스템에 의해 표적화된 서열의 하류 염색체 서열과 실질적 서열 동일성을 공유하는 핵산 서열을 지칭한다. 여기에서 사용된 바와 같이, 구절 "실질적 서열 동일성"이란 최소한 약 75% 서열 동일성을 갖는 서열을 지칭한다. 따라서, 상기 공여 폴리뉴클레오티드에서 상류 서열과 하류 서열은 상기 표적 서열에 대하여 상류 또는 하류인 서열과 약 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 또는 99% 서열 동일성을 가질 수 있다. 예시적인 구체예에서, 기증 폴리뉴클레오티드에서 상류 및 하류 서열은 상기 공작된 Cas9 시스템에 의해 표적화되는 서열의 상류 또는 하류 염색체 서열과 약 95% 또는 100% 서열 동일성을 가질 수 있다.

일부 구체예들에서, 상류 서열은 상기 공작된 Cas9 시스템에 의해 표적화되는 서열의 바로 상류에 위치한 염색체 서열과 실질적 서열 동일성을 공유한다. 다른 구체예들에서, 상류 서열은 상기 표적 서열로부터 약 100개 뉴클레오티드 상류 안에 위치한 염색체 서열과 실질적 서열 동일성을 공유한다. 따라서, 예로써, 상류 서열은 상기 표적 서열로부터 약 1 내지 약 20개, 약 21 내지 약 40개, 약 41 내지 약 60개, 약 61 내지 약 80개, 또는 약 81 내지 약 100개 뉴클레오티드 상류에 위치한 염색체 서열과 실질적 서열 동일성을 공유한다. 일부 구체예들에서, 하류 서열은 상기 공작된 Cas9 시스템에 의해 표적화되는 서열의 바로 하류에 위치한 염색체 서열과 실질적 서열 동일성을 공유한다. 다른 구체예들에서, 하류 서열은 상기 표적 서열로부터 약 100개 뉴클레오티드 하류 안에 위치한 염색체 서열과 실질적 서열 동일성을 공유한다. 따라서, 예로써, 하류 서열은 상기 표적 서열로부터 약 1 내지 약 20개, 약 21 내지 약 40개, 약 41 내지 약 60개, 약 61 내지 약 80개, 또는 약 81 내지 약 100개 뉴클레오티드 하류에 위치한 염색체 서열과 실질적 서열 동일성을 공유한다.

각 상류 또는 하류 서열은 약 20개 뉴클레오티드 내지 약 5000개 뉴클레오티드 길이 범위일 수 있다. 일부 구체예들에서, 상류 및 하류 서열은 약 50, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1100, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 2000, 2100, 2200, 2300, 2400, 2500, 2600, 2800, 3000, 3200, 3400, 3600, 3800, 4000, 4200, 4400, 4600, 4800, 또는 5000개의 뉴클레오티드를 포함할 수 있다. 특정 구체예들에서, 상류 서열 및 하류 서열은 약 50개 내지 약 1500개 뉴클레오티드 길이 범위일 수 있다.

(c) 세포 유형

원핵 세포 (예를 들어, 박테리아) 및 진핵 세포 (예를 들어, 동물 세포, 곤충 세포 및 식물 세포)를 포함하는 다양한 세포가 본원에 개시된 방법에 사용하기에 적합하다. 예로써, 세포는 인간 세포, 비-인간 포유 동물 세포, 비-포유 동물 척추 동물 세포, 무척추 동물 세포, 곤충 세포, 식물 세포, 효모 세포 또는 단일 세포 진핵 생물일 수 있다. 일부 구체예들에서, 세포는 하나의 세포 배아일 수 있다. 예로써, 렛, 햄스터, 설치류, 토끼, 고양이, 개, 양, 돼지, 소, 말 및 영장류 배아를 포함하는 비-인간 포유 동물 배아. 여전히 다른 구체예들에서, 세포는 배아 줄기 세포, ES-유사 줄기 세포, 태아 줄기 세포, 성체 줄기 세포 및 이와 유사한 것과 같은 줄기 세포일 수 있다. 한 구체 예에서, 줄기 세포는 인간 배아 줄기 세포가 아니다. 더욱이, 줄기 세포는 WO2003/046141에 개시된 기술에 의해 제조된 것을 포함 할 수 있으며, 이는 그 전체가 본 명세서에 포함되어 있거나, 또는 Chung et al. (Cell Stem Cell, 2008, 2:113-117)에 기술된다. 세포는 시험관내(즉, 배양 중), 생체외(즉, 유기체로부터 단리된 조직 내), 또는 생체내(즉, 유기체 내)일 수 있다. 예시적인 구체예들에서, 세포는 포유류 세포 또는 포유류 세포 계통이다. 특정 구체예들에서, 상기 세포는 인간 세포 또는 인간 세포 계통이다.

예로써, 일부 구체예들에서, 진핵 세포 또는 진핵 세포 집단은 T 세포, CD8⁺ T 세포, CD8⁺ 나이브 T 세포, 중추 기억 T 세포, 효과기 기억 T 세포, CD4⁺ T 세포, 줄기 세포 기억 T 세포, 보조 T 세포, 조절 T 세포, 세포독성 T 세포, 자연 살해 T 세포, 조혈 줄기 세포, 장기 조혈 줄기 세포, 단기 조혈 줄기 세포, 다분화능 전구 세포, 혈통 제한 전구 세포, 림프 전구 세포, 췌장 전구 세포, 내분비 전구 세포, 외분비 전구 세포, 골수 전구 세포, 일반 골수 전구 세포, 적혈구 전구 세포, 거핵구 적혈구 전구 세포, 단핵구 전구 세포, 내분비 전구 세포, 외분비 세포, 섬유아세포, 간모세포, 근모세포, 대식세포, 섬 베타 세포, 심근 세포, 혈액 세포, 관 세포, 포상 세포, 알파 세포, 베타 세포, 델타 세포, PP세포, 담관세포, 망막세포, 광수용체세포, 간상세포, 원추세포, 망막색소상피세포, 섬유주망세포, 와우유모세포, 외유모세포, 내유모세포, 폐 상피세포, 기관지 상피세포, 폐포상피세포, 폐상피전구세포, 횡문근세포, 심장근육세포, 근육위성세포, 근세포, 뉴런, 신경줄기세포, 간엽줄기세포, 유도만능줄기세포(iPS), 배아 줄기 세포, 단핵구, 거핵구, 호중구, 호산구, 호염기구, 비만 세포, 망상적혈구, B 세포, 예를 들어 전구 B 세포, Pre B 세포, Pro B 세포, 기억 B 세포, 혈장 B 세포, 위장 상피 세포, 담도 상피 세포, 췌관 상피 세포, 장 줄기 세포, 간세포, 간 성상 세포, 쿠퍼(Kupffer) 세포, 조골세포, 파골세포, 지방세포(예: 갈색 지방세포, 또는 백색 지방세포), 지방전구세포, 췌장 전구체 세포, 췌장 섬 세포, 췌장 베타 세포, 췌장 알파 세포, 췌장 델타 세포, 췌장 외분비 세포, 슈반(Schwann) 세포, 희소돌기아교세포, 또는 이러한 세포의 집단이다. 적합한 포유류 세포 또는 세포 계통의 비-제한적 실시예는 인간 유도 만능 줄기 세포(hiPSC), 인간 T 세포(자가 또는 동종), 인간 B 세포, 인간 대식세포, 인간 조혈 줄기 세포(hHSC), 인간 간 세포, 인간 망막 세포, 췌도, 인간 배아 신장 세포 (HEK293, HEK293T); 인간 자궁경부 암종 세포 (HELA); 인간 폐 세포 (W138); 인간 간 세포 (Hep G2); 인간 U2-OS 골육종 세포, 인간 A549 세포, 인간 A-431 세포, 그리고 인간 K562 세포; 중국 헴스터 난소 (CHO) 세포, 아기 헴스터 신장 (BHK) 세포; 마우스 골수종 NS0 세포, 마우스 배아 섬유아세포 3T3 세포 (NIH3T3), 마우스 B 림프종 A20 세포; 마우스 흑색종 B16 세포; 마우스 근아세포 C2C12 세포; 마우스 골수종 SP2/0 세포; 마우스 배아 간엽성 C3H-10T1/2 세포; 마우스 암종 CT26 세포, 마우스 전립선 DuCuP 세포; 마우스 유방 EMT6 세포; 마우스 간종양 Hepa1c1c7 세포; 마우스 골수종 J5582 세포; 마우스 상피 MTD-1A 세포; 마우스 심근 MyEnd 세포; 마우스 신장 RenCa 세포; 마우스 췌장 RIN-5F 세포; 마우스 흑색종 X64 세포; 마우스 림프종 YAC-1 세포; 렛 교아종 9L 세포; 렛 B 림프종 RBL 세포; 렛 신경아세포종 B35 세포; 렛 간종양 세포 (HTC); 버팔로 렛 간 BRL 3A 세포;개의 신장 세포 (MDCK); 개의 유방 (CMT) 세포; 렛 골육종 D17 세포; 렛 단핵구/마크로파아지 DH82 세포; 원숭이 신장 SV-40 형질변환된 섬유아세포 (COS7) 세포; 원숭이 신장 CVI-76 세포; 아프리카 그린 원숭이 신장 (VERO-76) 세포가 내포된다. 포유 동물 세포주의 광범위한 목록은 American Type Culture Collection(ATCC, Manassas, VA) 카탈로그에서 찾을 수 있다.

본 명세서의 다른 측면에는 상기 기재된 바와 같은 핵산 또는 벡터를 인코딩하도록 조작된 동물, 또는 본 명세서의 공작된 SpCas9 변이체에 의해 영구적으로 변형된 동물이 내포된다. 예를 들면, 상기 동물은 모델 유기체(즉, 드로소필라 멜라노가스터(Drosophila melanogaster), 마우스, 모기, 쥐)일 수 있거나, 또는 동물은 농장 동물 또는 양식 물고기 또는 애완동물일 수 있다. 또다른 예로써, 동물은 적어도 하나의 질환에 대한 벡터가 될 수 있다. 또다른 예로써, 상기 유기체(즉, 모기, 진드기, 새)는 인간 질환의 벡터가 될 수 있다.

본 명세서의 여전히 다른 측면에는 상기 기재된 바와 같은 핵산 또는 벡터를 이용하여 공작된 식물, 또는 본 명세서의 공작된 SpCas9 변이체에 의해 일시적으로 또는 영구적으로 변형된 식물이 내포된다. 예를 들면, 상기 식물은 작물(즉, 벼, 대두, 밀, 담배, 목화, 자주개자리, 캐놀라, 옥수수, 사탕무 등)일 수 있다.

(VI) 적용

본원에 개시된 조성물 및 방법은 다양한 치료, 진단, 산업 및 연구 응용에 사용될 수 있다. 일부 구체예들에서, 본 명세서는 유전자의 기능을 모델링 및/또는 연구하기 위해, 관심대상의 유전적 또는 후생적 상태를 연구하거나, 또는 다양한 질병 또는 장애와 관련된 생화학적 경로를 연구하기 위하여, 세포, 동물 또는 식물에서 관심대상의 임의의 염색체 서열을 변형하는데 사용될 수 있다. 예로써, 질병 또는 장애와 관련된 하나 또는 그이상의 핵산 서열의 발현이 변경되는 질환 또는 장애를 모델링하기 위한 유전자 삽입(transgenic) 유기체가 생성될 수 있다. 질병 모델은 유기체에 대한 돌연변이의 영향을 연구하고, 질병의 발달 및 / 또는 진행을 연구하고, 질병에 대한 약학적 활성 화합물의 효과를 연구하고 및/또는 잠재적 유전자 요법 전략의 효능을 평가하는데 사용될 수 있다.

다른 구체예들에서, 상기 조성물 및 방법은 효율적이고 비용 효과적인 기능성 게놈 스크린을 수행하는데 사용될 수 있으며, 이는 특정 생물학적 과정에 관여하는 유전자의 기능 및 유전자 발현의 변경이 생물학적 과정에 어떻게 영향을 줄 수 있는지를 연구하는데 사용될 수 있거나, 또는 세포 표현형과 함께 게놈 유전자 좌의 포화 또는 딥 스캐닝 돌연변이유발(deep scanning mutagenesis)을 수행한다. 예를 들어, 유전자 발현, 약물 내성 및 질병의 역전에 필요한 기능적 요소의 중요한 최소 특징 및 개별 취약성(vulnerabilities)을 결정하기 위해 포화 또는 딥 스캐닝 돌연변이 유발이 사용될 수 있다.

추가 구체예들에서, 본원에 개시된 조성물 및 방법은 질병 또는 장애의 존재를 확립하기 위한 진단 시험 및 / 또는 치료 옵션을 결정하는데 사용하기 위해 사용될 수 있다. 적합한 진단 테스트의 예로는 암 세포에서 특이적 돌연변이의 탐지 (예로써, EGFR, HER2, 및 이와 유사한 것에서 특이적 돌연변이), 특징 질환과 연합된 특이적 돌연변이 (예로써, 트리뉴클레오티드 반복부, 겸상 세포 질환과 연합된 β-글로빈에서 돌연변이, 특이적 SNPs, 등등), 간염의 탐지, 바이러스 (예로써, Zika) 탐지, 그리고 기타등등을 포함한다.

추가 구체예들에서, 본원에 개시된 조성물 및 방법은 특정 질환 또는 장애와 관련된 유전자 돌연변이를 교정하는데 사용될 수 있는데, 이를 테면, 예로써, 겸상 세포 질환 또는 지중해빈혈과 연합된 글로빈 유전자 돌연변이의 교정, 심각한 복합 면역 결핍(SCID)과 연합된 아데노신 탈아미노효소 유전자에서 돌연변이 교정, 헌팅턴 질환의 질환-원인 유전자인 HTT 발현의 감소, 또는 망막염 색소 증의 치료를 위한 로돕신 유전자의 돌연변이 교정에 이용될 수 있다. 이러한 변형은 생체외 세포에서 이루어질 수 있다.

여전히 다른 구체예들에서, 본원에 개시된 조성물 및 방법은 개선된 형질 또는 환경 스트레스에 대한 저항성을 갖는 작물을 생성하는데 사용될 수 있다. 본 명세서는 또한 개선된 형질 또는 생산 동물을 갖는 농장 동물을 생성하는데 사용될 수 있다. 예로써, 돼지는 생의학 모델, 특히 재생 의학 또는 이종 이식에서 매력적인 많은 특징을 가지고 있다.

예로서, 본 명세서는 유전자 요법을 위한 의약으로서 사용하기 위한, 상기 기재된 바와 같은 뉴클레오티드 또는 핵산 또는 벡터의 서열을 제공한다. 본 명세서는 또한 상기 기재된 바와 같은 뉴클레오티드 또는 핵산 또는 벡터의 서열, 및 적어도 하나의 약제학적으로 허용되는 부형제를 포함하는 약제학적 조성물을 제공한다. 본 명세서는 상기 기재된 돌연변이를 함유하는 재조합 Cas9 폴리펩티드 및 적어도 하나의 약제학적으로 허용되는 부형제를 포함하는 약제학적 조성물을 또한 제공한다. 약제학적으로 허용되는 부형제(들)에는 전형적으로 비히클(예를 들어, 물, 캡슐 껍질 등), 희석제, 또는 치료제와 같은 약물을 포함하는 제형 또는 약제학적 조성물을 구성하기 위한 성분으로 사용되는 불활성 성분이 내포된다. 약학적으로 허용되는 부형제(들)는 해당 조성물에 응집 기능(즉, 결합제), 붕해 기능(즉, 붕해제), 윤활제 기능(윤활제) 및/또는 다른 기능(즉, 용매, 계면활성제 등)을 부여하는 전형적으로 불활성인 성분을 포괄한다. 추가로, 본 명세서는 게놈 공학, 세포 공학, 단백질 발현 또는 다른 생명공학 적용을 위한, 상기 기재된 바와 같은 뉴클레오티드 또는 핵산 또는 벡터의 서열의 시험관내 용도를 제공한다. 추가로, 본 개시내용은 게놈 공학, 세포 공학, 단백질 발현 또는 기타 생명공학 응용 분야를 위한 가이드 RNA가이드 RNA(예를 들어, 단일 분자(즉, 키메라) 가이드 RNA 또는 듀얼 분자(즉, 2-부분)와 함께 상기 기재된 돌연변이를 함유하는 재조합 Cas9 폴리펩티드의 시험관내 용도를 제공한다.

본 명세서의 다른 측면은 본원에 기재된 다양한 성분, 이를 테면, 본 명세서에 기재된 Cas9 단백질 변이체, 가이드 RNAs, 벡터, 프라이머 등이 내포되며, 게놈 공학, 세포 공학, 단백질 발현 또는 기타 생명 공학 응용 분야에서의 사용 지침이 내포된 키트에 관한 것이다.

정의

다음의 정의 및 방법은 본 발명을 더 잘 정의하고, 본 발명의 실행에서 당업자를 안내하기 위해 제공된다. 달리 언급되지 않는 한, 용어는 관련 기술 분야의 통상의 지식을 가진 자에 의해 통상적인 사용법에 따라 이해되어야 한다.

달리 정의되지 않는 한, 본원에 사용된 모든 기술 및 과학 용어는 본 발명이 속하는 기술 분야의 당업자에 의해 일반적으로 이해되는 의미를 갖는다. 하기 참고 문헌은 당업자에게 본 발명에 사용된 많은 용어의 일반적인 정의를 제공한다: Singleton et al., Dictionary of Microbiology and Molecular Biology (2nd Ed. 1994); Cambridge Dictionary of Science and Technology (Walker ed., 1988); The Glossary of Genetics, 5th Ed., R. Rieger et al. (eds.), Springer Verlag (1991); 그리고 Hale & Marham, The Harper Collins Dictionary of Biology (1991). 여기에서 사용된 바와 같이, 다음의 용어는 달리 명시되지 않는 한 그 의미를 갖는다.

본 개시 내용의 요소 또는 그의 바람직한 구체예(들)를 소개할 때, 관사 "a", "an", "the" 및 "전술한"이란 하나 또는 이상의 요소가 존재함을 의미하도록 의도된다. "포함하는(comprising)", "내포하는(including)" 및 "갖는(having)"이라는 용어는 포괄적인 것으로 의도되며, 열거된 요소 이외의 추가 요소가 존재할 수 있음을 의미한다.

숫자 값 x와 관련하여 사용될 때, 용어 "약"이란 예를 들어 x ± 5 %를 의미한다.

여기에서 사용된 바와 같이, "상보적(complementary)" 또는 "상보성(complementarity)"이라는 용어는 특정 수소 결합을 통한 염기쌍에 의한 이중 가닥 핵산의 회합을 의미한다. 염기 쌍이란 표준 Watson-Crick 염기 쌍 (예로써, 5'-A G T C-3' 상보적인 서열 3'-T C A G-5'와 쌍을 이룬다). 상기 염기 쌍은 Hoogsteen 또는 역전된 Hoogsteen 수소 결합일 수 있다. 상보성은 전형적으로 듀플렉스(duplex) 영역에 대해 측정되므로, 예를 들어, 오버행(overhangs)을 배제한다. 염기의 일부 (예를 들어, 70 %)만이 상보적인 경우, 듀플렉스 영역의 두 가닥 사이의 상보성은 부분적이고, 백분율 (예를 들어, 70 %)로 표현될 수 있다. 상보적이지 않은 염기는 "불합치된다(mismatched)". 듀플렉스 영역의 모든 염기가 상보적인 경우, 상보성이 또한 완전한 상보성이 될 수 있다(즉, 100 %).

여기에서 사용된 바와 같이, "CRISPR/Cas 시스템" 또는 "Cas9 시스템"은 Cas9 단백질 (가령, 뉴클레아제, 니카제, 또는 촉매적으로 사멸 단백질) 및 유도 RNA를 포함하는 복합체를 지칭한다.

본원에 사용된 용어 "내생성 서열(endogenous sequence)"이란 세포 고유의 염색체 서열을 지칭한다.

여기에서 사용된 바와 같이, 용어 "외생성(exogenous)"이란 세포에 고유하지 않은 서열, 또는 세포의 게놈에서 고유 위치와 상이한 위치에 있는 염색체 서열을 지칭한다.

여기에서 사용된 바와 같이, "유전자"란 유전자 서열을 코딩하는 DNA 영역 (엑손 및 인트론 포함)뿐만 아니라, 이러한 조절 서열이 코딩 및 / 또는 전사 된 서열에 인접하는지 여부에 관계없이, 유전자 생성물의 생산을 조절하는 모든 DNA 영역을 지칭한다. 따라서, 유전자에는 프로모터 서열, 터미네이터, 리보솜 결합 부위 및 내부 리보솜 진입 부위와 같은 해독 조절 서열, 인핸서, 사일런서(silencers), 절연체(insulators), 경계 요소, 복제 원점(replication origins), 매트릭스 부착 부위 및 유전자 좌 조절 영역들이 내포되지만, 이에 제한되지는 않는다.

"이질성(heterologous)"이라는 용어는 내생성이 아니거나, 또는 관심대상 세포에 고유하지 않은 엔터티를 의미한다. 예로써, 이질성 단백질은 외생적으로 도입된 핵산 서열과 같은 외생성 공급원으로부터 유래되거나 또는 이로부터 유래된 단백질을 지칭한다. 일부 경우들에서, 이질성 단백질은 일반적으로 관심대상 세포에 의해 생성되지 않는다.

용어 "니카제(nickase)"란 이중-가닥으로된 핵산 서열중 하나의 가닥을 절단하는 (가령, 이중-가닥으로된 서열을 절단하는) 효소를 말한다. 예로써, 이중 가닥 절단 활성을 갖는 뉴클레아제는 니카제와 같은 기능을 하기 위하여 돌연변이 및/또는 결손에 의해 변형되어, 이중-가닥으로된 서열중 오직 하나의 가작을 절단할 수 있다.

용어 "뉴클라제"란 여기에서 사용된 바와 같이, 이중-가닥으로된 핵산 서열의 2개 서열을 모두 절단하는 효소를 말한다.

용어 "핵산" 및 "폴리뉴클레오티드"란 선형 또는 원형 형태에서, 그리고 단일- 또는 이중-가닥으로된 형태에서 데옥시리보뉴클레오티드 또는 리보뉴클레오티드를 지칭한다. 본 명세서의 목적을 위하여, 이들 용어는 중합체의 길이의 제한으로 해석되지 않아야 한다. 이들 용어는 천연 뉴클레오티드의 공지의 유사체들, 뿐만아니라 염기, 당 및/또는 포스페이트 모이어티 (예로써, 포스포로티오에이트 기본골격)에서 변형이 있는 뉴클레오티드를 포괄할 수 있다. 일반적으로, 특정 뉴클레오티드의 유사체는 동일한 염기-쌍 특이성을 갖는데; 가령, A의 유사체는 T와 염기쌍을 형성할 수 있다.

용어 "뉴클레오티드"란 데옥시리보뉴클레오티드 또는 리보뉴클레오티드를 지칭한다. 뉴클레오티드는 표준 뉴클레오티드 (가령, 아데노신, 구아노신, 시티딘, 티미딘, 그리고 우리딘), 뉴클레오티드 이성체, 또는 뉴클레오티드 유사체일 수 있다. 뉴클레오티드 유사체는 변형된 푸린 또는 피리미딘 염기 또는 변형된 리보스 모이어티를 갖는 뉴클레오티드를 지칭한다. 뉴클레오티드 유사체는 자연 발생적 뉴클레오티드 (예로써, 이노신, 슈도우리딘, 등등) 또는 비-자연 발생적 뉴클레오티드일 수 있다. 뉴클레오티드의 당 또는 염기 모이어티에 변형의 비-제한적 예로는 아세틸기, 아미노기, 카르복실기, 카르복시메틸기, 히드록실기, 메틸기, 포스포릴기 및 티올기의 첨가 (또는 제거) 및 염기의 탄소 및 질소 원자를 다른 원자로 치환하는 것 (예: 7-데자 퓨린)을 포함한다. 뉴클레오티드 유사체는 또한 디데옥시 뉴클레오티드, 2'-O-메틸 뉴클레오티드, 잠금 핵산 (LNA), 펩티드 핵산 (PNA) 및 몰폴리노를 포함한다.

용어 "폴리펩티드" 및 "단백질"은 상호 호환적으로 사용되며, 아미노산 잔기의 중합체를 지칭한다.

용어 "표적 서열", "표적 염색체 서열" 및 "표적 부위"는 상호 호환적으로 사용되며, 상기 공작된 Cas9 시스템이 표적화되는 염색체 DNA의 특정 서열, 및 상기 공작된 Cas9 시스템이 해당 DNA 또는 이 DNA와 연합된 단백질(들)을 변형시키는 부위를 지칭한다.

핵산 및 아미노산 서열 동일성을 결정하는 기술은 당업계에 공지되어 있다. 전형적으로, 이러한 기술은 유전자의 mRNA의 뉴클레오티드 서열을 결정하고, 이에 의해 인코드된 아미노산 서열을 결정하는 것과, 그리고 이들 서열을 제 2 뉴클레오티드 또는 아미노산 서열에 비교하는 것을 포함한다. 게놈 서열은 이러한 방식으로 또한 결정되며, 비교될 수 있다. 일반적으로, 동일성이란 2개의 폴리뉴클레오티드 또는 폴리펩티드 서열에서 각각 차례로 정확한 뉴클레오티드-대 뉴클레오티드, 또는 아미노산-대-아미노산 대응성을 말한다. 2개의 또는 그 이상의 서열 (폴리뉴클레오티드 또는 아미노산)은 이들의 동일성 백분율을 결정함으로써, 비교될 수 있다. 핵산 또는 아미노산 서열에 관계없이, 2 개의 서열의 동일성 백분율은 2 개의 정렬된 서열 사이의 정확하게 일치하는 수를 더 짧은 서열의 길이로 나눈 후, 100을 곱한 것이다. 예를 들면, 핵산 서열들을 위한 적절한 정렬은 Smith and Waterman, Advances in Applied Mathematics 2:482-489 (1981)의 국소 상동성 알고리즘에 의해 제공된다. 이 알고리즘은 Dayhoff, Atlas of Protein Sequences and Structure, M. O. Dayhoff ed., 5 suppl. 3:353-358, National Biomedical Research Foundation, Washington, D.C., USA에 의해 개발되고, Gribskov (1986), Nucl. Acids Res. 14(6):6745-6763 (1986)에의해 정상화된 스코어링 매트릭스(scoring matrix)를 이용하여 아미노산 서열에 적용될 수 있다. 서열의 동일성 백분율을 결정하기 위한 이 알고리즘의 예시적인 구현은 Genetics Computer Group (Madison, Wis.)에 의해 제공되는 "BestFit" 유틸리티 응용으로 제공된다. 서열 간의 동일성 또는 유사성을 계산하기 위한 다른 적합한 프로그램은 당업계에 일반적으로 공지되어 있으며, 예를 들어, 다른 정렬 프로그램은 디폴트 매개변수로 사용되는 BLAST이다. 예로써, BLASTN 및 BLASTP는 다음의 디폴트 매개변수를 이용할 수 있다: 유전자 코드=표준; 필터=없음; 가닥=양쪽 두 가닥; 컷오프=60; 예상=10; Matrix=BLOSUM62; 설명=50 서열; 소트 바이=HIGH SCORE; 데이터베이스=비-리던단트, GENBANK+EMBL+DDBJ+PDB+GENBANK CDS 해독+Swiss 단백질+Spupdate+PIR. 이러한 프로그램에 대한 자세한 내용은 GENBANK NIH 유전자 염기서열 데이터베이스 웹사이트에서 확인할 수 있다.

본 발명을 상세히 설명하였지만, 첨부된 특허청구범위에 정의된 본 발명의 범위를 벗어나지 않고 수정 및 변형이 가능함은 자명할 것이다. 더욱이, 본 명세서 내용의 모든 실시예는 비-제한적인 예로서 제공된다는 것을 이해해야 한다.

실시예

본 발명을 추가로 예시하기 위해 다음의 비-제한적 실시예가 제공된다. 다음의 실시예에 개시된 기술은 본 발명자들이 본 발명의 실행에서 기능을 잘 발견한 접근법을 나타낸다는 것을 당업자는 인식해야 하고, 따라서 실행 모드의 예를 구성하는 것으로 간주할 수 있다. 그러나, 본 개시에 비추어, 개시된 특정 실시예에 대해 많은 변경이 이루어질 수 있고, 본 발명의 사상 및 범위를 벗어나지 않으면서 여전히 유사하거나 또는 유사한 결과를 얻을 수 있음을 당업자는 인식해야 한다.

실시예 1: K855에서 상이한 아미노산 치환은 상이한 겨냥된 활성을 갖는다

야생형 SpCas9의 K855 잔기를 알라닌, 글루타민산, 이소류신, 메티오닌 또는 글루타민으로 돌연변이시키고, 대장균으로부터 95% 이상의 균질성으로 재조합 단백질을 정제하였다. K855Q 돌연변이 단백질에 대한 아미노산 서열은 표 1에 열거된다. 모든 K855 돌연변이 단백질은 K855 단일 돌연변이를 제외하고, 동일한 폴리펩티드 서열을 공유한다. 야생형 SpCas9 단백질은 대조군으로 사용하기 위해 MilliporeSigma에서 구입했다. 가이드 서열 5'-GGCACUGCGGCUGGAGGUGG-3' (서열 식별 번호: 42)과 함께 화학적으로 합성된 HEKSite4 단일 가이드 RNA (sgRNA) 또한 MilliporeSigma에서 구입했다. 각 단백질은 세 번의 생물학적 복제에서 테스트되었다.

완충액(20mM HEPES, 100mM KCl, 0.5mM DTT, 0.1mM EDTA, pH 7.5), 150pmol sgRNA 및 8μg의 Cas9 단백질을 1.5-mL 미세원심분리 튜브에 10 μL 총 반응 부피로 첨가하여, 리보핵단백질 (RNP) 복합체를 제조했다. sgRNA 대비 Cas9 단백질 몰비는 약 3:1이다. 상기 복합체를 실온에서 15분 동안 항온처리한 다음, 형질감염될 때까지 얼음에 보관하였다. 약 80% 합류(confluency)에서 인간 U-2OS 세포를 트립신 용액으로 분리시키고, Hank 균형 염 용액으로 두 번 세척했다. 그런 다음, 세포를 100 μL당 약 0.25 x 10⁶ 세포로 Nucleofector Solution V(Lonza)에 재현탁했다. 뉴클레오펙션은 100 μL의 세포를 RNP 복합체로 옮기고, Amaxa 프로그램 X-001로 전기천공을 위한 큐벳으로 옮기기 전에, 기포가 생기지 않도록 하면서, 아래 위로 부드럽게 피펫팅하여 즉시 혼합함으로써 수행되었다. 세포를 즉시 웰당 2mL의 예열된 배지를 포함하는 6-웰 플레이트로 옮기고, 게놈 변형 분석을 위해 수확하기 전에 3일 동안 37℃ 및 5% CO₂에서 성장시켰다.

QuickExtract Solution을 사용하여 형질감염된 세포의 게놈 DNA 추출물을 제조했다. 표적 게놈 영역은 다음 사이클링 조건에서 KAPA HiFi HotStart ReadyMix PCR 키트 (Roche)를 사용하여 차세대 시퀀싱(NGS) 프라이머로 PCR 증폭되었다: 95℃/3m; 98℃/20s, 68℃/30s, 그리고 72℃/45s, 34회; 72℃/5m. HEKSite4 표적 부위에 대한 NGS 프라이머는 다음과 같다: 5'- TCGTCGGCAGCGTCAGATGTGTATAAGAGACAGNNNNNNGGAACCCAGG테그CCAGAGA-3' (포워드) (서열 식별 번호: 43) 및 5'- GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGNNNNNNGGGGTGGGGTCAGACGT-3' (리버스) (서열 식별 번호: 44). HEKSite4 표적-외 부위에 대한 NGS 프라이머는 다음과 같다: 5'-TCGTCGGCAGCGTCAGATGTGTATAAGAGACAGNNNNNNC테그AGCAAACCTTGGCATTGTCC-3' (포워드) (서열 식별 번호: 45) 및 5'- GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGNNNNNNACCCTCTACCCTCCCTGATG-3' (리버스) (서열 식별 번호: 46). 일차 PCR 산물은 다음 사이클링 조건에서 정량적 PCR 키트(MilliporeSigma)용 JumpStart™ Taq ReadyMix™를 사용하여 Illumina 인덱스 프라이머로 재증폭되었다: 95℃/3m; 95℃/30s, 55℃/30s, 그리고 72℃/30s, 8회; 72℃/5m. 인덱싱된 PCR 산물은 Select-a-Size DNA Clean & Concentrator 키트(Zymo)로 정제하고 PicoGreen(ThermoFisher)으로 정량화했다. 그런 다음, PCR 산물을 정규화하고, 풀링시켜, NGS 라이브러리를 만들었다. NGS는 Illumina MiSeq 기기와 2 x 300bp 키트를 사용하여 수행되었다. NGS 분석 파이프라인을 사용하여, 각 샘플에 대한 FASTQ 파일의 게놈 편집 빈도를 분석했다. 결과는 도 1A 및 도 1B에 제시되어 있다. 상기 결과에서 상이한 K855 돌연변이 단백질이 상이한 수준의 겨냥된 활성을 가졌고, 5개의 모든 K855 돌연변이 단백질이 유사한 수준으로 표적을 벗어난 효과를 실질적으로 감소시켰다는 것을 보여준다. 상기 결과는 글루탐산과 알라닌이 표적 활성을 유지하기 위한 K855에 대한 최적의 대체물이 아님을 또한 보여준다.

표 1. SpCas9 K855Q 아미노산 서열

실시예 2: 최적의 아미노산 치환을 갖는 이중 돌연변이 변이체는 겨냥된 활성을 유지시킨다.

R661, N692 또는 Q695에서 서로 상이한 아미노산 치환을 K855M 및 K855Q 돌연변이 배경에 도입하여 이중 돌연변이를 만들었다. 대장균으로부터 95% 이상의 균질성으로 재조합 단백질을 정제하였다. 모든 이중 돌연변이는 명시된 돌연변이를 제외하고, 표 1에 나열된 K855Q 돌연변이의 것과 동일한 폴리펩티드 서열을 공유한다. 각 단백질은 U2-OS 세포의 동일한 HEKSite4 표적 부위 상에서 세 번의 생물학적 복제로 테스트되었다. RNP 복합체 제조, 세포 형질감염 및 NGS 분석은 실시예 1에 기재된 바와 같았다.

결과는 도 2에 제시되어 있다. 상기 결과에서 R661, N692, 또는 Q695에서 상이한 아미노산 치환은 상이한 수준의 겨냥된 활성을 초래한다는 것을 보여준다. R661 잔기에서, 이소류신 치환으로 이 활성의 실질적인 감소가 일어난 반면, 류신, 아스파라긴 또는 글루타민 치환으로 WT Cas9와 동일한 수준의 활성이 유지되었다. 두 개의 비-전하된 잔기에 대한 치환 효과는 예측하기 어려웠다.

실시예 3: 균형 잡힌 특이성과 활성이 특징인 삼중 돌연변이 변이체

K526, K562, K652, R691, R780, K810, K848, K1003 또는 R1060에서 류신 또는 글루타민 치환을 R661L-K855Q 배경에 도입하여 18개의 삼중 돌연변이체를 만들었고, 한 개의 사중 돌연변이체(R661L-K855Q-K1003Q-R1060Q)를 만들었다. 이들 삼중 및 사중 돌연변이 모두 명시된 돌연변이를 제외하고, 표 1에 나열된 K855Q 돌연변이의 것과 동일한 폴리펩티드 서열을 공유한다. 대장균으로부터 95% 이상의 균질성으로 재조합 단백질을 정제하였다. 인간 FANCF02 및 HBB03을 표적으로 하는 합성 sgRNAs는 MilliporeSigma에서 구입했다. 이러한 sgRNA의 가이드 서열은 표 2에 나열되어 있다. eSpCas9 1.1 단백질은 MilliporeSigma에서 구입했으며, HiFi Cas9 V3 단백질은 Integrated DNA Technologies에서 구입했다. 각 단백질은 세 번의 생물학적 복제에서 테스트되었다.

RNP 복합체들을 실시예 1에 기재된 바와 같이 제조했다. 인간 k562 세포는 형질감염 1일 전에 mL당 0.25 x 10⁶ 세포로 씨딩되었고, 형질감염 시점에는 mL당 대략 0.5 x 10⁶ 세포였다. 세포를 Hank의 균형 염 용액으로 세척하였고, 그런 다음, 세포를 100 μL당 약 0.35 x 10⁶ 세포로 Nucleofector Solution V(Lonza)에 재현탁했다. 뉴클레오펙션은 100 μL의 세포를 RNP 복합체로 옮기고, Amaxa 프로그램 T-016으로 전기천공을 위한 큐벳으로 옮기기 전에, 기포가 생기지 않도록 하면서, 아래 위로 부드럽게 피펫팅하여 즉시 혼합함으로써 수행되었다. 세포를 즉시 웰당 2mL의 예열된 배지를 포함하는 6-웰 플레이트로 옮기고, 게놈 변형 분석을 위해 수확하기 전에 3일 동안 37℃ 및 5% CO₂에서 성장시켰다. QuickExtract Solution을 사용하여 형질감염된 세포의 게놈 DNA 추출물을 제조했다. 표적화된 게놈 영역은 다음 사이클링 조건에서 정량적 PCR 키트(MilliporeSigma)용 JumpStart™ Taq ReadyMix™를 사용하여 NGS 프라이머로 PCR 증폭되었다: 98℃/2m; 98℃/15s, 62℃/30s, 그리고 72℃/45s, 34회; 72℃/5m. NGS 프라이머 서열들이 표 2에서 열거되어 있다. NGS 라이브러리 준비, 시퀀싱 및 데이터 분석은 실시예 1에 설명된 바와 같이 했다.

결과는 도 3A, 도 3B, 도 3C, 및 도 3D에 제시된다. 도 3A 및 도 3B의 결과에서 모든 단백질이 FANCF02 표적 부위에서 고도로 활성을 나타내었고, 그들 사이에 단지 작은 변이가 있음을 보여준다. 그러나, FANCF02 단일 불합치 표적-외 부위에서 표적을 벗어난 돌연변이 빈도에서 단백질 간의 광범위한 변이가 있었다. 6개의 삼중 돌연변이 단백질은 이러한 표적을 벗어난 효과 감소에 있어서 eSpCas9 1.1보다 우수했다. 이들 단백질에는 K526L-R661L-K855Q, R661L-R691L-K855Q, R661L-R780L-K855Q, R661L-R780Q-K855Q, R661L-K810L-K855Q, 그리고 R661L-K848L-K855Q이 내포된다. 나머지 돌연변이 단백질은 기준에 벗어난(outlier) 돌연변이 R661L-R691Q-K855Q를 제외하고, WT Cas9와 비교하였을 때, 표적-외 돌연변이 빈도를 줄이는 데 있어 eSpCas9 1.1 또는 eSpCas9 1.1과 HiFi Cas9 V3 사이에 필적했다. 도 3C 및 도 3D의 결과는 이러한 단백질 간의 표적 활성 및 특이성 수준을 더욱 구별짓는다. FANCF02 부위에서 확인된 상당히 높은 특이적 돌연변이 단백질은 HBB03 부위에서 거의 모든 표적 활성을 잃었다. 그러나, 6개의 삼중 돌연변이 단백질은 eSpCas9 1.1과 유사한 수준의 표적을 벗어난 돌연변이 빈도를 가졌으나, HBB03 부위에서 eSpCas9 1.1보다 실질적으로 더 높은 수준의 겨냥된 활성을 가졌다. 복합된 결과에 기초하여, 이 돌연변이 단백질 그룹은 균형 잡힌 특이성과 활성을 갖는 것으로 확인되었다. 돌연변이 단백질의 이러한 선택적 그룹에는 K562L-R661L-K855Q, K562Q-R661L-K855Q, K652L-R661L-K855Q, K652Q-R661L-K855Q, R661L-K855Q-K1003Q, 및 R661L-K855Q-R1060Q가 내포된다. 4개의 eSpCas9 1.1-유사 삼중 돌연변이 단백질도 결합된 결과를 기반으로 확인되었고, 여기에는 K526Q-R661L-K855Q, R661L-K810Q-K855Q, R661L-K855Q-K1003L, 및 R661L-K855Q-R1060L이 내포된다

표 2. sgRNA 가이드 서열 및 NGS 프라이머

실시예 4: 특이성이 개선된 SpCas9 뉴클레아제는 다양한 게놈 부위에서 효율적인 편집을 중재한다

5개의 인간 게놈 부위를 표적으로 하는 sgRNA는 MilliporeSigma에서 구입했다. 이러한 sgRNA의 가이드 서열은 표 3 나열되어 있다. RNP 복합체들을 실시예 1에 기재된 바와 같이 제조했다. 인간 k562 세포는 형질감염 1일 전에 mL당 0.25 x 10⁶ 세포로 씨딩되었고, 형질감염 시점에는 mL당 대략 0.5 x 10⁶ 세포였다. 세포를 Hank의 균형 염 용액으로 세척하였고, 그런 다음, 세포를 100 μL당 약 0.35 x 10⁶ 세포로 Nucleofector Solution V(Lonza)에 재현탁했다. 뉴클레오펙션은 100 μL의 세포를 RNP 복합체로 옮기고, Amaxa 프로그램 T-016으로 전기천공을 위한 큐벳으로 옮기기 전에, 기포가 생기지 않도록 하면서, 아래 위로 부드럽게 피펫팅하여 즉시 혼합함으로써 수행되었다. 세포를 즉시 웰당 2mL의 예열된 배지를 포함하는 6-웰 플레이트로 옮기고, 게놈 변형 분석을 위해 수확하기 전에 3일 동안 37℃ 및 5% CO₂에서 성장시켰다.

QuickExtract Solution을 사용하여 형질감염된 세포의 게놈 DNA 추출물을 제조했다. 표적화된 게놈 영역은 다음 사이클링 조건에서 정량적 PCR 키트(MilliporeSigma)용 JumpStart™ Taq ReadyMix™를 사용하여 NGS 프라이머로 PCR 증폭되었다: 98℃/2m; 98℃/15s, 62℃/30s, 그리고 72℃/45s, 34회; 72℃/5m. NGS 프라이머 서열은 표 3에 열거되어 있다. NGS 라이브러리 준비, 시퀀싱 및 데이터 분석은 실시예 1에 설명된 바와 같이 했다. 결과는 도 4 제시되어 있다. 이들 결과에서 균형잡힌 특이성 및 활성을 갖는 것으로 확인된 4개의 삼중 돌연변이 단백질이 eSpCas9 1.1보다 실질적으로 더 높은 편집 효율을 가졌고, 5개의 모든 게놈 표적 부위에 걸쳐 WT Cas9와 유사함을 보여준다.

표 3. sgRNA 가이드 서열 및 NGS 프라이머

SEQUENCE LISTING <110> SIGMA-ALDRICH CO. LLC <120> HIGH FIDELITY SPCAS9 NUCLEASES FOR GENOME MODIFICATION <130> P20-035 WO-PCT <140> <141> <150> 62/988,279 <151> 2020-03-11 <160> 83 <170> PatentIn version 3.5 <210> 1 <211> 1368 <212> PRT <213> Streptococcus pyogenes <400> 1 Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val 1 5 10 15 Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe 20 25 30 Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile 35 40 45 Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu 50 55 60 Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys 65 70 75 80 Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser 85 90 95 Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys 100 105 110 His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr 115 120 125 His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp 130 135 140 Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His 145 150 155 160 Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro 165 170 175 Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr 180 185 190 Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala 195 200 205 Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn 210 215 220 Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn 225 230 235 240 Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe 245 250 255 Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp 260 265 270 Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp 275 280 285 Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp 290 295 300 Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser 305 310 315 320 Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys 325 330 335 Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe 340 345 350 Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser 355 360 365 Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp 370 375 380 Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg 385 390 395 400 Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu 405 410 415 Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe 420 425 430 Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile 435 440 445 Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp 450 455 460 Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu 465 470 475 480 Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr 485 490 495 Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser 500 505 510 Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys 515 520 525 Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln 530 535 540 Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr 545 550 555 560 Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp 565 570 575 Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly 580 585 590 Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp 595 600 605 Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr 610 615 620 Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala 625 630 635 640 His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr 645 650 655 Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp 660 665 670 Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe 675 680 685 Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe 690 695 700 Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu 705 710 715 720 His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly 725 730 735 Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly 740 745 750 Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln 755 760 765 Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile 770 775 780 Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro 785 790 795 800 Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu 805 810 815 Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg 820 825 830 Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys 835 840 845 Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg 850 855 860 Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys 865 870 875 880 Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys 885 890 895 Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp 900 905 910 Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr 915 920 925 Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp 930 935 940 Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser 945 950 955 960 Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg 965 970 975 Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val 980 985 990 Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe 995 1000 1005 Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala 1010 1015 1020 Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe 1025 1030 1035 Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala 1040 1045 1050 Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu 1055 1060 1065 Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val 1070 1075 1080 Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr 1085 1090 1095 Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys 1100 1105 1110 Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro 1115 1120 1125 Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val 1130 1135 1140 Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys 1145 1150 1155 Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser 1160 1165 1170 Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys 1175 1180 1185 Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu 1190 1195 1200 Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly 1205 1210 1215 Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val 1220 1225 1230 Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser 1235 1240 1245 Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys 1250 1255 1260 His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys 1265 1270 1275 Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala 1280 1285 1290 Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn 1295 1300 1305 Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala 1310 1315 1320 Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser 1325 1330 1335 Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr 1340 1345 1350 Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp 1355 1360 1365 <210> 2 <211> 7 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 2 Pro Lys Lys Lys Arg Lys Val 1 5 <210> 3 <211> 7 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 3 Pro Lys Lys Lys Arg Arg Val 1 5 <210> 4 <211> 16 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 4 Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys Lys Lys 1 5 10 15 <210> 5 <211> 11 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 5 Tyr Gly Arg Lys Lys Arg Arg Gln Arg Arg Arg 1 5 10 <210> 6 <211> 9 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 6 Arg Lys Lys Arg Arg Gln Arg Arg Arg 1 5 <210> 7 <211> 9 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 7 Pro Ala Ala Lys Arg Val Lys Leu Asp 1 5 <210> 8 <211> 11 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 8 Arg Gln Arg Arg Asn Glu Leu Lys Arg Ser Pro 1 5 10 <210> 9 <211> 8 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 9 Val Ser Arg Lys Arg Pro Arg Pro 1 5 <210> 10 <211> 8 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 10 Pro Pro Lys Lys Ala Arg Glu Asp 1 5 <210> 11 <211> 8 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 11 Pro Gln Pro Lys Lys Lys Pro Leu 1 5 <210> 12 <211> 12 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 12 Ser Ala Leu Ile Lys Lys Lys Lys Lys Met Ala Pro 1 5 10 <210> 13 <211> 7 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 13 Pro Lys Gln Lys Lys Arg Lys 1 5 <210> 14 <211> 10 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 14 Arg Lys Leu Lys Lys Lys Ile Lys Lys Leu 1 5 10 <210> 15 <211> 10 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 15 Arg Glu Lys Lys Lys Phe Leu Lys Arg Arg 1 5 10 <210> 16 <211> 20 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 16 Lys Arg Lys Gly Asp Glu Val Asp Gly Val Asp Glu Val Ala Lys Lys 1 5 10 15 Lys Ser Lys Lys 20 <210> 17 <211> 17 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 17 Arg Lys Cys Leu Gln Ala Gly Met Asn Leu Glu Ala Arg Lys Thr Lys 1 5 10 15 Lys <210> 18 <211> 38 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 18 Asn Gln Ser Ser Asn Phe Gly Pro Met Lys Gly Gly Asn Phe Gly Gly 1 5 10 15 Arg Ser Ser Gly Pro Tyr Gly Gly Gly Gly Gln Tyr Phe Ala Lys Pro 20 25 30 Arg Asn Gln Gly Gly Tyr 35 <210> 19 <211> 42 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 19 Arg Met Arg Ile Glx Phe Lys Asn Lys Gly Lys Asp Thr Ala Glu Leu 1 5 10 15 Arg Arg Arg Arg Val Glu Val Ser Val Glu Leu Arg Lys Ala Lys Lys 20 25 30 Asp Glu Gln Ile Leu Lys Arg Arg Asn Val 35 40 <210> 20 <211> 20 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 20 Gly Arg Lys Lys Arg Arg Gln Arg Arg Arg Pro Pro Gln Pro Lys Lys 1 5 10 15 Lys Arg Lys Val 20 <210> 21 <211> 19 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 21 Pro Leu Ser Ser Ile Phe Ser Arg Ile Gly Asp Pro Pro Lys Lys Lys 1 5 10 15 Arg Lys Val <210> 22 <211> 24 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 22 Gly Ala Leu Phe Leu Gly Trp Leu Gly Ala Ala Gly Ser Thr Met Gly 1 5 10 15 Ala Pro Lys Lys Lys Arg Lys Val 20 <210> 23 <211> 27 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 23 Gly Ala Leu Phe Leu Gly Phe Leu Gly Ala Ala Gly Ser Thr Met Gly 1 5 10 15 Ala Trp Ser Gln Pro Lys Lys Lys Arg Lys Val 20 25 <210> 24 <211> 21 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 24 Lys Glu Thr Trp Trp Glu Thr Trp Trp Thr Glu Trp Ser Gln Pro Lys 1 5 10 15 Lys Lys Arg Lys Val 20 <210> 25 <211> 11 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 25 Tyr Ala Arg Ala Ala Ala Arg Gln Ala Arg Ala 1 5 10 <210> 26 <211> 11 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 26 Thr His Arg Leu Pro Arg Arg Arg Arg Arg Arg 1 5 10 <210> 27 <211> 11 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 27 Gly Gly Arg Arg Ala Arg Arg Arg Arg Arg Arg 1 5 10 <210> 28 <211> 12 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 28 Arg Arg Gln Arg Arg Thr Ser Lys Leu Met Lys Arg 1 5 10 <210> 29 <211> 27 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 29 Gly Trp Thr Leu Asn Ser Ala Gly Tyr Leu Leu Gly Lys Ile Asn Leu 1 5 10 15 Lys Ala Leu Ala Ala Leu Ala Lys Lys Ile Leu 20 25 <210> 30 <211> 33 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 30 Lys Ala Leu Ala Trp Glu Ala Lys Leu Ala Lys Ala Leu Ala Lys Ala 1 5 10 15 Leu Ala Lys His Leu Ala Lys Ala Leu Ala Lys Ala Leu Lys Cys Glu 20 25 30 Ala <210> 31 <211> 16 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 31 Arg Gln Ile Lys Ile Trp Phe Gln Asn Arg Arg Met Lys Trp Lys Lys 1 5 10 15 <210> 32 <211> 6 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic 6xHis tag" <400> 32 His His His His His His 1 5 <210> 33 <211> 6 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 33 Leu Glu Gly Gly Gly Ser 1 5 <210> 34 <211> 4 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 34 Thr Gly Ser Gly 1 <210> 35 <211> 8 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 35 Gly Gly Ser Gly Gly Gly Ser Gly 1 5 <210> 36 <211> 20 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <220> <221> SITE <222> (1)..(20) <223> /note="This sequence may encompass 1-4 'Gly Gly Gly Gly Ser' repeating units" <400> 36 Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly 1 5 10 15 Gly Gly Gly Ser 20 <210> 37 <211> 8 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <220> <221> SITE <222> (1)..(8) <223> /note="This sequence may encompass 6-8 residues" <400> 37 Gly Gly Gly Gly Gly Gly Gly Gly 1 5 <210> 38 <211> 20 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <220> <221> SITE <222> (1)..(20) <223> /note="This sequence may encompass 1-4 'Glu Ala Ala Ala Lys' repeating units" <400> 38 Glu Ala Ala Ala Lys Glu Ala Ala Ala Lys Glu Ala Ala Ala Lys Glu 1 5 10 15 Ala Ala Ala Lys 20 <210> 39 <211> 27 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <220> <221> SITE <222> (2)..(26) <223> /note="This region may encompass 2-5 'Glu Ala Ala Ala Lys' repeating units" <400> 39 Ala Glu Ala Ala Ala Lys Glu Ala Ala Ala Lys Glu Ala Ala Ala Lys 1 5 10 15 Glu Ala Ala Ala Lys Glu Ala Ala Ala Lys Ala 20 25 <210> 40 <211> 5 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 40 Pro Ala Pro Ala Pro 1 5 <210> 41 <211> 16 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <220> <221> SITE <222> (1)..(16) <223> /note="This sequence may encompass 6-8 'Ala Pro' repeating units" <400> 41 Ala Pro Ala Pro Ala Pro Ala Pro Ala Pro Ala Pro Ala Pro Ala Pro 1 5 10 15 <210> 42 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 42 ggcacugcgg cuggaggugg 20 <210> 43 <211> 59 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (34)..(39) <223> a, c, t, g, unknown or other <400> 43 tcgtcggcag cgtcagatgt gtataagaga cagnnnnnng gaacccaggt agccagaga 59 <210> 44 <211> 57 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (35)..(40) <223> a, c, t, g, unknown or other <400> 44 gtctcgtggg ctcggagatg tgtataagag acagnnnnnn ggggtggggt cagacgt 57 <210> 45 <211> 63 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (34)..(39) <223> a, c, t, g, unknown or other <400> 45 tcgtcggcag cgtcagatgt gtataagaga cagnnnnnnc tagagcaaac cttggcattg 60 tcc 63 <210> 46 <211> 60 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (35)..(40) <223> a, c, t, g, unknown or other <400> 46 gtctcgtggg ctcggagatg tgtataagag acagnnnnnn accctctacc ctccctgatg 60 <210> 47 <211> 1404 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 47 Pro Ala Ala Lys Arg Val Lys Leu Asp Gly Gly Gly Gly Ser Thr Gly 1 5 10 15 Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val 20 25 30 Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe 35 40 45 Lys Val Leu Gly Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile Gly 50 55 60 Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu Lys 65 70 75 80 Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr 85 90 95 Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser Phe 100 105 110 Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys His 115 120 125 Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr His 130 135 140 Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp Ser 145 150 155 160 Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His Met 165 170 175 Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp 180 185 190 Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn 195 200 205 Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala Lys 210 215 220 Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu 225 230 235 240 Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu 245 250 255 Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp 260 265 270 Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp 275 280 285 Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu 290 295 300 Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile 305 310 315 320 Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met 325 330 335 Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys Ala 340 345 350 Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp 355 360 365 Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln 370 375 380 Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp Gly 385 390 395 400 Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys 405 410 415 Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu Gly 420 425 430 Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu 435 440 445 Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro 450 455 460 Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp Met 465 470 475 480 Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu Val 485 490 495 Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr Asn 500 505 510 Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser Leu 515 520 525 Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr 530 535 540 Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys 545 550 555 560 Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val 565 570 575 Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser 580 585 590 Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr 595 600 605 Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn 610 615 620 Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr Leu 625 630 635 640 Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala His 645 650 655 Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr 660 665 670 Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp Lys 675 680 685 Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe Ala 690 695 700 Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe Lys 705 710 715 720 Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu His 725 730 735 Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly Ile 740 745 750 Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly Arg 755 760 765 His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr 770 775 780 Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile Glu 785 790 795 800 Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val 805 810 815 Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln 820 825 830 Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu 835 840 845 Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys Asp 850 855 860 Asp Ser Ile Asp Asn Gln Val Leu Thr Arg Ser Asp Lys Asn Arg Gly 865 870 875 880 Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn 885 890 895 Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe 900 905 910 Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys 915 920 925 Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys 930 935 940 His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu 945 950 955 960 Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser Lys 965 970 975 Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu 980 985 990 Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val Val 995 1000 1005 Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe 1010 1015 1020 Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala 1025 1030 1035 Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe 1040 1045 1050 Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala 1055 1060 1065 Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu 1070 1075 1080 Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val 1085 1090 1095 Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr 1100 1105 1110 Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys 1115 1120 1125 Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro 1130 1135 1140 Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val 1145 1150 1155 Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys 1160 1165 1170 Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser 1175 1180 1185 Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys 1190 1195 1200 Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu 1205 1210 1215 Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly 1220 1225 1230 Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val 1235 1240 1245 Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser 1250 1255 1260 Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys 1265 1270 1275 His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys 1280 1285 1290 Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala 1295 1300 1305 Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn 1310 1315 1320 Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala 1325 1330 1335 Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser 1340 1345 1350 Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr 1355 1360 1365 Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp 1370 1375 1380 Glu Phe Pro Lys Lys Lys Arg Lys Val Gly Gly Gly Gly Ser Pro 1385 1390 1395 Lys Lys Lys Arg Lys Val 1400 <210> 48 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 48 gcugcagaag ggauuccaug 20 <210> 49 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 49 cacguucacc uugccccaca 20 <210> 50 <211> 59 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (34)..(39) <223> a, c, t, g, unknown or other <400> 50 tcgtcggcag cgtcagatgt gtataagaga cagnnnnnna atggggccat gccgaccaa 59 <210> 51 <211> 63 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (35)..(40) <223> a, c, t, g, unknown or other <400> 51 gtctcgtggg ctcggagatg tgtataagag acagnnnnnn agttgcccag agtcaaggaa 60 cac 63 <210> 52 <211> 60 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (34)..(39) <223> a, c, t, g, unknown or other <400> 52 tcgtcggcag cgtcagatgt gtataagaga cagnnnnnnt ctttccctca ctctggctcg 60 <210> 53 <211> 61 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (35)..(40) <223> a, c, t, g, unknown or other <400> 53 gtctcgtggg ctcggagatg tgtataagag acagnnnnnn tggaatgaat ggggtgggag 60 g 61 <210> 54 <211> 63 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (34)..(39) <223> a, c, t, g, unknown or other <400> 54 tcgtcggcag cgtcagatgt gtataagaga cagnnnnnnt aggcagagag agtcagtgcc 60 tat 63 <210> 55 <211> 61 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (35)..(40) <223> a, c, t, g, unknown or other <400> 55 gtctcgtggg ctcggagatg tgtataagag acagnnnnnn ccaatctact cccaggagca 60 g 61 <210> 56 <211> 59 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (34)..(39) <223> a, c, t, g, unknown or other <400> 56 tcgtcggcag cgtcagatgt gtataagaga cagnnnnnnt cactggagca gggaggaca 59 <210> 57 <211> 61 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (35)..(40) <223> a, c, t, g, unknown or other <400> 57 gtctcgtggg ctcggagatg tgtataagag acagnnnnnn gggtaggaaa acagcccaag 60 g 61 <210> 58 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 58 cucccuccca ggauccucuc 20 <210> 59 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 59 gccaguagcc agccccgucc 20 <210> 60 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 60 caggcagucu ucauccccgu 20 <210> 61 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 61 gaagcgugau gacaaagagg 20 <210> 62 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 62 auucugguca acguguccuu 20 <210> 63 <211> 62 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (34)..(39) <223> a, c, t, g, unknown or other <400> 63 tcgtcggcag cgtcagatgt gtataagaga cagnnnnnnc ttgggaagtg taaggaagct 60 gc 62 <210> 64 <211> 61 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (35)..(40) <223> a, c, t, g, unknown or other <400> 64 gtctcgtggg ctcggagatg tgtataagag acagnnnnnn gcctcctcct tcctagtctc 60 c 61 <210> 65 <211> 61 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (34)..(39) <223> a, c, t, g, unknown or other <400> 65 tcgtcggcag cgtcagatgt gtataagaga cagnnnnnng ctgcagcttc cttacacttc 60 c 61 <210> 66 <211> 64 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (35)..(40) <223> a, c, t, g, unknown or other <400> 66 gtctcgtggg ctcggagatg tgtataagag acagnnnnnn gaggaatatg tcccagatag 60 cact 64 <210> 67 <211> 64 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (34)..(39) <223> a, c, t, g, unknown or other <400> 67 tcgtcggcag cgtcagatgt gtataagaga cagnnnnnnc tgtgggattt catggaagtt 60 cagc 64 <210> 68 <211> 59 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (35)..(40) <223> a, c, t, g, unknown or other <400> 68 gtctcgtggg ctcggagatg tgtataagag acagnnnnnn atcctggctg gcaaggtgg 59 <210> 69 <211> 60 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (34)..(39) <223> a, c, t, g, unknown or other <400> 69 tcgtcggcag cgtcagatgt gtataagaga cagnnnnnnt tccttggcct ctgactgttg 60 <210> 70 <211> 61 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (35)..(40) <223> a, c, t, g, unknown or other <400> 70 gtctcgtggg ctcggagatg tgtataagag acagnnnnnn ttcctgccca ccatctactc 60 c 61 <210> 71 <211> 61 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (34)..(39) <223> a, c, t, g, unknown or other <400> 71 tcgtcggcag cgtcagatgt gtataagaga cagnnnnnng atgggcctca gtaccacatt 60 g 61 <210> 72 <211> 62 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (35)..(40) <223> a, c, t, g, unknown or other <400> 72 gtctcgtggg ctcggagatg tgtataagag acagnnnnnn caacctttgc cttcccctaa 60 cc 62 <210> 73 <211> 23 <212> DNA <213> Homo sapiens <400> 73 ggcactgcgg ctggaggtgg ggg 23 <210> 74 <211> 23 <212> DNA <213> Homo sapiens <400> 74 ggcacgacgg ctggaggtgg ggg 23 <210> 75 <211> 23 <212> DNA <213> Homo sapiens <400> 75 gctgcagaag ggattccatg agg 23 <210> 76 <211> 23 <212> DNA <213> Homo sapiens <400> 76 gctgcagaag ggattccaag ggg 23 <210> 77 <211> 23 <212> DNA <213> Homo sapiens <400> 77 cacgttcacc ttgccccaca ggg 23 <210> 78 <211> 23 <212> DNA <213> Homo sapiens <400> 78 cacgttcact ttgccccaca ggg 23 <210> 79 <211> 23 <212> DNA <213> Homo sapiens <400> 79 ctccctccca ggatcctctc tgg 23 <210> 80 <211> 23 <212> DNA <213> Homo sapiens <400> 80 gccagtagcc agccccgtcc tgg 23 <210> 81 <211> 23 <212> DNA <213> Homo sapiens <400> 81 caggcagtct tcatccccgt agg 23 <210> 82 <211> 23 <212> DNA <213> Homo sapiens <400> 82 gaagcgtgat gacaaagagg agg 23 <210> 83 <211> 23 <212> DNA <213> Homo sapiens <400> 83 attctggtca acgtgtcctt cgg 23

Claims

아미노산 위치들 526, 562, 652, 661, 691, 780, 810, 848, 855, 1003, 및 1060 (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라)중 두 개 또는 그 이상의 위치에 돌연변이를 포함하는 공작된 스트렙토코커스 피오게네스 Cas9 (SpCas9) 단백질 변이체에 있어서, 이때 전술한 아미노산 위치들중 하나 또는 그 이상의 위치에 있는 리신(K)는 류신 (L) 또는 글루타민 (Q)으로 변화되고, 및/또는 전술한 아미노산 위치들중 하나 또는 그 이상의 위치에 있는 아르기닌 (R)은 류신 (L) 또는 글루타민 (Q)으로 변화된, SpCas9 단백질 변이체.
청구항 1에 있어서, 이때 상기 SpCas9 단백질 변이체는 아미노산 위치들 526, 562, 652, 661, 691, 780, 810, 848, 1003, 및 1060(스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라)에서 K855L/Q 돌연변이 및 적어도 하나의 다른 돌연변이를 포함하는, SpCas9 단백질 변이체.
청구항 1에 있어서, 이때 상기 SpCas9 단백질 변이체는 아미노산 위치들 526, 562, 652, 691, 780, 810, 848, 855, 1003, 및 1060 (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라)에서 R661L/Q 돌연변이 및 적어도 하나의 다른 돌연변이를 포함하는, 공작된 SpCas9 단백질 변이체.
청구항 1에 있어서, K526L/Q, K562L/Q, K652L/Q, K810L/Q, K848L/Q, K855L/Q, R661L/Q, R691L/Q, R780L/Q, K1003L/Q, 및 1060 L/Q (스트렙토코커스 피오게네스 Cas9, SpCas9의 번호매김 체계에 따라)에서 선택된 두 개의 상이한 아미노산 위치에서 두 개 돌연변이를 포함하는, 공작된 SpCas9 단백질 변이체.
청구항 1에 있어서, K526L/Q, K562L/Q, K652L/Q, K810L/Q, K848L/Q, K855L/Q, R661L/Q, R691L/Q, R780L/Q, K1003L/Q, 및 1060 L/Q에서 선택된 두 개의 상이한 아미노산 위치에서 세 개 돌연변이를 포함하는, 공작된 SpCas9 단백질 변이체.
청구항 5에 있어서, 이때 상기 돌연변이들은 다음의 군에서 선택된, 공작된 SpCas9 단백질 변이체:
K562L-R661L-K855Q;
K562Q-R661L-K855Q;
K652L-R661L-K855Q;
K652Q-R661L-K855Q;
R661L-K855Q-K1003Q; 그리고
R661L-K855Q-R1060Q.
청구항 5에 있어서, 이때 상기 돌연변이들은 다음의 군에서 선택된, 공작된 SpCas9 단백질 변이체:
K562L-R661L-K855Q;
K562Q-R661L-K855Q;
K652L-R661L-K855Q; 그리고
K652Q-R661L-K855Q.
청구항 5에 있어서, 이때 상기 돌연변이들은 다음의 군에서 선택된, 공작된 SpCas9 단백질 변이체:
K526L-R661L-K855Q;
R661L-R691L-K855Q;
R661L-R780L-K855Q;
R661L-R780Q-K855Q;
R661L-K810L-K855Q; 그리고
R661L-K848L-K855Q.
청구항 5에 있어서, 이때 상기 돌연변이들은 다음의 군에서 선택된, 공작된 SpCas9 단백질 변이체:
K526Q-R661L-K855Q;
R661L-K810Q-K855Q;
R661L-K855Q-K1003L; 그리고
R661L-K855Q-R1060L.
임의의 전술한 청구항에 있어서, N 말단 단부, C 말단 단부, 내부 위치, 또는 이의 조합에 융합된 하나 또는 그 이상의 이질성 도메인을 더 포함하는, 공작된 SpCas9 단백질 변이체.
청구항 10에 있어서, 이때 상기 이질성 도메인은 핵 국소화 신호, 세포-침투 도메인, 검출을 용이하게 하는 마커 또는 리포터 도메인, 염색질 변형 도메인, 후성유전학적 변형 도메인, 전사 조절 도메인, DNA 또는 RNA 데아미나제 도메인, 우라실-DNA-글리코실라제 도메인, 역전사효소 도메인, 재조합효소 도메인, RNA 압타머 결합 도메인, 그리고 비-Cas9 뉴클라제 도메인으로부터 선택된, 공작된 SpCas9 단백질 변이체.
임의의 전술한 청구항에 있어서, N 말단 단부, C 말단 단부, 내부 위치, 또는 이의 조합에 융합된 적어도 하나의 핵 국소화 신호를 더 포함하는, 공작된 SpCas9 단백질 변이체.
임의의 전술한 청구항에 있어서, RuvC 도메인에 적어도 하나의 돌연변이, 및/또는 HNH 도메인에 적어도 하나의 돌연변이를 더 포함하는, 공작된 SpCas9 단백질 변이체.
청구항 13에 있어서, 이때 RuvC 도메인에서 적어도 하나의 돌연변이 (존재한다면)는 D10A, D8A, E762A, 및 D986A로부터 선택된 적어도 하나의 돌연변이를 포함하고; 그리고 이때 HNH 도메인에서 적어도 하나의 돌연변이 (존재한다면)는 H840A, H559A, N854A, N856A, 그리고 N863A로부터 선택된 적어도 하나의 돌연변이를 포함하는, 공작된 SpCas9 단백질 변이체.
임의의 전술한 청구항에 따른 공작된 Cas9 시스템 및 적어도 하나의 공작된 가이드 RNA(들)를 포함하는 공작된 Cas9 시스템에 있어서, 이때 상기 적어도 하나의 공작된 가이드 RNA는 상기 공작된 SpCas9 단백질 변이체와 복합되도록 기획된, 공작된 SpCas9 단백질 변이체.
임의의 전술한 청구항에 따른 공작된 SpCas9 단백질 변이체를 인코딩하는 다수의 핵산.
청구항 15에 따른 공작된 SpCas9 시스템을 인코딩하는 다수의 핵산.
청구항 17에 있어서, 상기 다수의 핵산은 상기 공작된 SpCas9 단백질 변이체를 인코딩하는 적어도 하나의 핵산, 그리고 상기 공작된 가이드 RNA를 인코딩하는 적어도 하나의 핵산을 포함하는, 다수 핵산.
청구항 16-18중 임의의 한 항에 있어서, 이때 적어도 하나의 핵산은 RNA인, 다수 핵산.
청구항 16-18중 임의의 한 항에 있어서, 이때 적어도 하나의 핵산은 DNA인, 다수 핵산.
청구항 16-20중 임의의 한 항에 있어서, 이때 상기 공작된 SpCas9 단백질 변이체를 인코딩하는 적어도 하나의 핵산은 진핵 세포에서 발현을 위해 코돈 최적화된, 다수 핵산.
청구항 21에 있어서, 이때 진핵 세포는 인간 세포, 비-인간 포유동물 세포, 비-포유동물 척추동물 세포, 무척추동물 세포, 식물 세포, 또는 단세포 진핵 유기체인, 다수 핵산.
청구항 15에 있어서, 이때 상기 공작된 가이드 RNA를 인코딩하는 적어도 하나의 핵산은 DNA인, 다수 핵산.
청구항 15에 있어서, 이때 상기 공작된 SpCas9 단백질 변이체는 적어도 하나의 핵산은 박테리아 세포에서 시험관내 RNA 합성 또는 단백질 발현을 위한 파아지 프로모터 서열에 작동가능하도록 연계되며, 상기 공작된 가이드 RNA를 인코딩하는 적어도 하나의 핵산은 시험관내 RNA 합성을 위해 파아지 프로모터 서열에 작동가능하도록 연계된, 다수 핵산.
청구항 12에 있어서, 이때 상기 적어도 하나의 상기 공작된 Cas9 단백질을 인코딩하는 핵산 변이체는 진핵 세포에서 발현을 위해 진핵 프로모터 서열에 작동가능하도록 연계되며, 그리고 상기 공작된 가이드 RNA를 인코딩하는 적어도 하나의 핵산은 진핵 세포에서 발현을 위한 진핵 프로모터 서열에 작동가능하도록 연계된, 다수 핵산.
청구항 16-25중 임의의 한 항에 따른 다수의 핵산을 포함하는 적어도 하나의 벡터.
청구항 26에 있어서, 플라스미드 벡터, 바이러스 벡터 또는 자가 복제 바이러스 RNA 레플리콘인, 적어도 하나의 벡터.
청구항 15의 적어도 하나의 공작된 Cas9 시스템, 또는 청구항 17 또는 18의 핵산을 포함하는, 진핵 세포.
청구항 28에 있어서, 인간 세포, 비-인간 포유동물 세포, 식물 세포, 비-포유동물 척추동물 세포, 무척추동물 세포, 또는 단세포 진핵 유기체인, 진핵 세포.
청구항 29에 있어서, 생체 내, 생체 외 또는 시험관 내 세포인, 진핵 세포.
청구항 1-13중 임의의 한 항에 있어서, Cas9 상동체인, 공작된 SpCas9 단백질 변이체.
청구항 1-13중 임의의 청구항에 따른 공작된 SpCas9 단백질 변이체를 포함하는 리보핵단백질 (RNP) 복합체.
청구항 1-13중 임의의 청구항에 따른 공작된 SpCas9 단백질 변이체를 포함하는 융합 단백질.
청구항 1-13중 임의의 청구항에 따른 공작된 SpCas9 단백질 변이체 및 적어도 하나의 약제학적으로 수용가능한 부형제를 포함하는 약제학적 조성물.
진핵 세포의 염색체 서열을 변형시키는 방법에 있어서, 이 방법은 청구항 1-13중 임의의 청구항의 공작된 SpCas9 단백질 변이체과 가이드 RNA를 진핵 세포에서 발현시키는 것을 포함하는, 방법.