KR20180019655A

KR20180019655A - 열 안정성 cas9 뉴클레아제

Info

Publication number: KR20180019655A
Application number: KR1020187001102A
Authority: KR
Inventors: 반 데르 존 오스트; 마티너스 요하네스 아놀더스 다스; 세르바티우스 빌헬무스 마리아 켄겐; 데 빌럼 마인데르트 보스
Original assignee: 푸락 바이오켐 비.브이.
Priority date: 2015-06-12
Filing date: 2016-06-06
Publication date: 2018-02-26
Also published as: PH12017502281A1; BR112017026719A8; WO2016198361A1; US20200385697A1; EP3307883A1; AU2016274452C1; JP2018522544A; US11802277B2; CA2989084A1; EA038500B1; US20180171314A1; JP7088528B2; GB201510296D0; US10731142B2; CN107922931A; EA201890032A1; CN107922931B; AU2016274452B2; BR112017026719A2; AU2016274452A1

Abstract

열 안정성 Cas9 뉴클레아제. 본 발명은 유전 공학 분야에 관한 것으로, 특히 핵산 편집 및 게놈 변형에 관한 것이다. 본 발명은 SEQ ID NO: 1의 아미노산 서열 또는 이와 적어도 77%의 동일성의 서열을 갖는 단리된 Cas 단백질 또는 이의 폴리펩티드 단편을 제공하며, 여기서, Cas 단백질 또는 폴리펩티드는, 50℃ 내지 100℃ 범위의 온도에서 DNA 절단을 할 수 있다. 본 발명은, 상기 Cas9 뉴클레아제, 발현 벡터 및 숙주 세포를 코딩하는 단리된 핵산 분자를 제공한다. 여기에 개시된 Cas9 뉴클레아제는, 상승된 온도에서 유전 공학을 위한 새로운 도구를 제공하며, 및 호열성 유기체; 특히 미생물의 유전 조작에 특별한 가치가 있다.

Description

열 안정성 CAS9 뉴클레아제

본 발명은 유전 공학 분야에 관한 것으로, 특히, 핵산 편집 (nucleic acid editing) 및 게놈 변형 (genome modification)에 관한 것이다. 본 발명은, 유전자 물질의 서열-지정 부위-특이적 닉킹 (sequence-directed site-specific nicking) 또는 절단을 위해 구성될 수 있는 뉴클레아제 (nucleases); 또한, 유전자 물질의 서열 특이적 부위에서 뉴클레아제 활성을 발휘하는 리보핵산 단백질 (ribonucleoproteins), 및 마커 (markers)로서 사용하기 위한 변형된 뉴클레아제 및 리보핵산 단백질의 형태의 유전 공학 도구에 관한 것이다. 따라서, 본 발명은 또한 세포 내에 가이드 RNAs (guide RNAs) 및 뉴클레아제의 전달 및 발현을 위한 관련 발현 구조물과 관련된다. 더욱이, 본 발명은 시험관 내 또는 생체 내에서 핵산의 서열-특이적 편집 및 이를 달성하는데 사용되는 방법과 관련된다. 본 발명이 관련된 특정 영역은, 호열성 유기체 (thermophilic organisms), 특히 미생물의 유전자 조작이다.

2007년에, CRISPR-Cas가 많은 박테리아 및 대부분의 고세균류 (archaea)에서 적응 면역계 (adaptive immune system)인 점이 처음 입증되었다 (Barrangou et al., 2007, Science 315: 1709-1712, Brouns et al., 2008, Science 321: 960-964). 기능적 및 구조적 기준에 기초하여, 3가지 타입의 CRISPR-Cas 시스템은 지금까지 특징화되었으며, 이들의 대부분은 가이드로서 작은 RNA 분자를 상보적인 DNA 서열을 표적으로 삼는데 이용한다 (Makarova et al., 2011, Nat Rev Microbiol 9: 467-477 Van der Oost et al., 2014, Nat Rev Microbiol 12: 479-492).

Doudna/Charpentier 실험실에 의한 최근의 연구에서, (특이적 스페이서 서열을 갖는) 디자인된 CRISPR RNA 가이드의 도입이, 플라스미드 상에 상보적인 서열 (프로토스페이서 (protospacers))을 표적으로 삼아, 이 플라스미드의 이중 가닥 절단 (double strand breaks)을 유발하는 것의 입증을 포함하여, 타입 Ⅱ CRISPR-Cas 시스템 (Cas9)의 촉진 효소 (effector enzyme)의 철저한 특징화 (thorough characterization)는, 수행되었다 (Jinek et al., 2012, Science 337: 816-821). Jinek et al., 2012에 따라, Cas9는 게놈 편집을 위한 도구로 사용된다.

Cas9는 다양한 범위의 진핵세포 (예를 들어, 어류, 식물, 인간)의 게놈을 조작하는데 사용되어 왔다 (Charpentier and Doudna, 2013, Nature 495: 50-51).

부가적으로, Cas9는, 전용 재조합 이벤트 동안 선택에 의해 박테리아에서 상동 재조합 (homologous recombination)의 수율을 향상시키는데 사용되어 왔다 (Jiang et al., 2013, Nature Biotechnol 31: 233-239). 이를 달성하기 위해, 독성 물질 (toxic fragment) (표적 구조물 (Targeting construct))은, 원하는 변이 (alteration)를 수반하는 구조 단편 (rescuing fragment) (점 돌연변이 (point mutation) 또는 결실 (deletions)을 수반하는, 편집 구조물)과 함께 형질주입된다. 상기 표적 구조물은, 디자인 CRISPR 및 항생제 내성 마커와 조합하여 Cas9로 이루어져, 숙주 염색체상에 원하는 재조합의 부위를 한정하고; 상응하는 항생제의 존재하에서, 숙주 염색체에서 표적 구조물의 통합 (integration)은 선택된다. 숙주 염색체상에 다른 곳에서 CRISPR 표적 부위를 갖는 편집 구조물의 부가적인 재조합이 일어날 때에만, 숙주는 자가-면역 문제로부터 벗어날 수 있다. 그러므로, 항생제의 존재하에서, 오직 원하는 (마커-부재) 돌연변이만이 생존하고 성장할 수 있다. 염색체로부터 통합된 표적 구조물의 후속적 제거를 위한 선택에 관련된 전략은, 또한 제시되어, 진정한 마커 부재 돌연변이 (genuine marker free mutant)를 발생시킨다.

최근에, CRISPR-Cas 매개 게놈 편집은, 유전 공학을 위한 유용한 도구를 구성하는 것으로 규명되었다. 원핵생물 CRISPR 시스템은, 이들의 숙주를 적응 면역 시스템으로 제공하고 (Jinek et al., 2012, Science 337:816-821), 및 신속하고 효과적인 유전 공학을 위해 사용될 수 있어 (예를 들어, Mali et al., 2013, Nat Methods 10:957-963), 관심의 서열을 표적화하기 위해 오직 가이드 서열의 변형만을 요구한다는 것이 규명되었다.

그러나, 유전 연구 및 게놈 편집의 영역에 적용을 위해 다양한 실험 조건하에서 개선된 서열-특이적 핵산 검출, 절단 (cleavage) 및 조작을 갖는 제제의 개발에 대한 계속적인 요구가 있다. 특히, Cas9를 포함하는, 현재 이용 가능한 서열-특이적 게놈 편집 도구는, 모든 조건 또는 유기체에서 사용하는데 적용 가능하지 않은데, 예를 들어, 서열-특이적 뉴클레아제는 상대적으로 열-민감성이고, 따라서 절대적 호열성 미생물 (41℃ 내지 122℃에서 성장할 수 있고, 및 80℃ 이상에서 최적 성장할 수 있는 초호열성으로, >60℃ 내지 80℃의 온도 범위에서 최적으로 성장함), 예를 들어, 시험관 내에서 상승된 온도에서 수행된 실험실 공정 동안 또는 산업적 발효에 사용되는 미생물에 사용하는데 적절하지 않다.

지금까지, 호열성 미생물에서 활성 Cas9 단백질에 대한 실험적 증거는 없다. 박테리아에서 Cas9의 존재하에 Chylinski et al.에 의한 비교 게놈 스크리닝 (comparative genome screening) (2014; Nucleic Acids Research 42: 6091-61-05)에 기초하여, 타입 Ⅱ-C CRISPR-Cas 시스템은, 모든 박테리아 게놈의 대략 3.3%에만 존재하는 것으로 밝혀졌다. 호열성 박테리아 가운데, 타입 Ⅱ 시스템은, 통계 분석에 근거하여 불충분하게 나타난다 (P=0.0019). 부가적으로, 타입 Ⅱ 시스템은, 아직 고세균류에서 발견되지 않았지만, 이는 아마도 고세균류에서 (타입 Ⅱ 시스템과 관련된) RNase Ⅲ 단백질의 부재에 기인할 수 있다. Chylinski, et al. (2014; Nucleic Acids Research 42: 6091-6105)은, 타입 Ⅱ CRISPR-Cas 시스템의 분류 및 진화 (evolution)를 기재하며, 특히, 두 개의 종 (two species)이 이들 시스템을 나타내는 것으로 확인되지만, 이들 종들은 55℃에서 최대로 성장하고, 및 80℃ 이상에서 최적으로 성장할 수 있는 초호열성을 갖는, 최적 성장 온도 60-80℃를 갖는 절대적 호열성 성장을 나타내지 않는다.

박테리아 게놈에서 CRISPR-Cas 시스템의 희귀성 및, 특히 Cas9가 45℃ 아래에서 최적 성장 온도를 갖는 (고세균류가 아닌) 박테리아에서 단지 발견되었다는 사실에도 불구하고, 본 발명자들은 놀랍게도, 상승된 온도에서 게놈 편집이 수행되는 것을 가능하게 하는 몇 가지 열 안정성 Cas9 변이체 (variants)를 발견했다. 이들 Cas9 뉴클레아제는, 상승된 온도에서 유전 공학을 위한 새로운 도구를 제공하며, 및 호열성 유기체; 특히 미생물의 유전자 조작에서 특별한 가치가 있다.

따라서, 본 발명은, 하기를 포함하는 단리된 일정한 간격을 두고 주기적으로 분포하는 짧은 회문구조 반복서열 (CRISPR)-관련 (Cas) 단백질 또는 폴리펩티드 제공한다:

a. 아미노산 모티프 EKDGKYYC [SEQ ID NO: 2]; 및/또는

b. 아미노산 모티프 X₁X₂CTX₃X₄ [SEQ ID NO: 3], 여기서, X₁은 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되고, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되며, X₃는 글루타메이트 또는 리신으로부터 독립적으로 선택되고, 및 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나임; 및/또는

c. 아미노산 모티프 X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고, 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택됨; 및/또는

d. 아미노산 모티프 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고, X₈은 트립토판, 세린 또는 리신 중 하나임; 및/또는

e. 아미노산 모티프 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃, 여기서, X₉은 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 라신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며, X₁₃은 리신 또는 세린이다.

본 발명의 맥락에서 폴리펩티드는, 전체 길이 Cas 단백질의 단편으로 고려될 수 있다. 이러한 단편은, 불활성화될 수 있고, 및 유전 물질의 편집 또는 절단과 직접적으로 관련이 없는 방식 및 목적, 예를 들어, 분석법의 표준을 위해 또는 항체 또는 이와 유사한 것을 늘리는데 사용될 수 있다.

그러나, 바람직한 구체 예에서, Cas 단백질 또는 폴리펩티드는, 기능적이며, 및 적어도 하나의 표적 RNA 분자 (targeting RNA molecule), 및 상기 표적 RNA 분자에 의해 인지된 표적 핵산 서열을 포함하는 폴리뉴클레오티드와 결합하는 경우, 50℃ 내지 100℃ 범위의 온도에서 DNA 절단을 할 수 있다.

특정 구체 예에서, 본 발명은 아미노산 모티프 EKDGKYYC [SEQ ID NO: 2]를 포함하는 Cas 단백질 또는 폴리펩티드를 제공할 수 있다. 다른 구체 예에서, 상기 Cas 단백질 또는 폴리펩티드는, 아미노산 모티프 X₁X₂CTX₃X₄ [SEQ ID NO: 3]를 더욱 포함할 수 있고, 여기서 X₁은 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되며, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되고, X₃는 글루타메이트 또는 리신으로부터 독립적으로 선택되며, 및 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나이다.

다른 구체 예에서, 여기서 정의된 Cas 단백질 또는 폴리펩티드는 부가적으로, 아미노산 모티프 X₅LKX₆IE [SEQ ID NO: 4]를 더욱 포함할 수 있으며, 여기서 X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택된다.

다른 구체 예에서, 여기서 정의된 Cas 단백질 또는 폴리펩티드는 부가적으로 아미노산 모티프 X₇VYSX₈K [SEQ ID NO: 5]를 더욱 포함할 수 있고, 여기서 X₇은 글루타메이트 또는 이소류신이고 및 X₈은 트립토판, 세린 또는 리신 중 하나이다.

다른 구체 예에서, 여기서 정의된 Cas 단백질 또는 폴리펩티드는 부가적으로 아미노산 모티프 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6]을 더욱 포함할 수 있으며, 여기서 X₉는 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며, 및 X₁₃은 리신 또는 세린이다.

이하, 본 발명은 특정 구체 예 및 첨부된 도면을 참조하여 상세히 설명된다:
도 1은 Cas9 단백질 서열의 근린-결합 트리 (Neighbor-Joining tree)를 나타낸다. pBLAST 또는 PSI-BLAST에 기초한 균주 T12와 40% 이상의 서열 유사성을 갖는 모든 서열은 포함되며, 이에 더하여 현재 잘-특징화된 서열 (S. pyogenes, S. thermophiles 및 A. naeslundii)뿐만 아니라, 현재 확인된 모든 호열성 서열과, 40% 동일성 아래에 있는 경우 또한 포함된다. 모든 호열성 서열에 대해, T12에 대한 퍼센트 동일성 (percentage identity)은 균주 명 뒤에 표시된다. 유전자 식별자 (Gene identifier: gi) 번호는 종명 앞에 표시된다. 범례: 폐쇄 원: 호열성 (최적 60℃ 이상) Cas9 서열, 폐쇄 사각형: 내열성 (최적 <50℃) Cas9 서열, 개방 삼각형: 중온성 기원 (mesophilic origin)으로부터 게놈 편집 목적을 위해 현재 가장 많이 사용된 Cas9 서열; 부호 없음: 중온성 Cas9. 노드 (nodes)에서 값은 1000-복제 부트스트랩 값 (bootstrap values)을 나타내고; 스케일 바 (scale bar)는 부위 (site)에 대하여 추정된 아미노산 치환을 나타낸다.
도 2는 Cas9 유전자 서열의 근린-결합 트리를 나타낸다. 유전자 수준에서 동일성은 극도로 열악하고; 단백질 정렬 (protein alignment)을 위해 사용된 것과 동일한 유기체 유래의 서열은, 유전자 정렬을 위해 사용된다. 유전자 식별자 (gi) 번호는 종명 앞에 표시된다. 범례: 폐쇄 원: 호열성 (최적 60℃ 이상) Cas9 서열, 폐쇄 사각형: 내열성 (최적 <50℃) Cas9 서열, 개방 삼각형: 중온성 기원으로부터 게놈 편집 목적을 위해 현재 가장 많이 사용된 Cas9 서열; 부호 없음: 중온성 Cas9. 노드에서 값은 1000-복제 부트스트랩 값을 나타낸다.
도 3은, 잘-특징화된 타입 Ⅱ-C (A.naeslundii/'ana'; SEQ ID NO: 8) 및 타입 Ⅱ-A (S. pyogenes/'pyo'; SEQ ID NO: 9 및 S. thermophilus) Cas9 서열을 갖는 T12-Cas9 (SEQ ID NO: 1) (타입 Ⅱ-C)에 대한 단백질 서열 정렬을 나타낸다. 중요한 활성 부위 잔기는 잘 보존되며, 및 검은색 화살표로 표시된다. Ana-Cas9 및 Pyo-Cas9에 대해 묘사된 바와 같은 단백질 도메인 (Jinek, et al., 2014, Science 343: 1247997)은, 음영 박스 및 유사하게 착색된 문자로 표시된다. PAM 인지 도메인 (recognition domain)은, 임의의 타입 Ⅱ-C 시스템이 아닌, S. pyogenes 타입 Ⅱ-A 시스템에 대해 결정되었고, 따라서, S. pyogenes 서열에서 오직 표시된다.
도 4는 A. naeslundii Cas9 (Cas9-Ana)의 단백질 아키텍쳐 (architecture)을 나타낸다 (Jinek et al., 2014). T12-Cas9는 동일한 타입 Ⅱ-C CRISPR 시스템에 속하며, 및 활성 부위 잔기는 확인될 수 있다.
도 5는 상보적인 dsDNA의 crRNA-가이드 표적화의 비교를 나타낸다. 염기쌍은 점선으로 표시된다. RNA는 검은색으로, DNA는 회색으로 묘사된다. crRNA 스페이서와 표적 프로토스페이서 사이에 염기쌍은, 두꺼운 검정 점선으로 표시되고, DNA 가닥들 사이 및 RNA 가닥들 사이의 염기쌍은, 두꺼운 회색 점선으로 표시된다. crRNA의 5' 말단은 표시된다. 타입 I에서 PAM (작은 흰색 상자)은 표적 가닥 (프로토스페이서)의 다운스트림에 있는 반면, 타입 Ⅱ에서는, 치환된 가닥 (displaced strand) 상의 다른 말단에 존재한다. 마찬가지로, 시드 (seed) (표적 DNA 가닥과 염기쌍이 시작되고, 및 불일치가 허용되지 않는 가이드의 예측된 서열)은, PAM에 가깝게 위치되고, 이로써 타입 I 및 Ⅱ에서 다르다 (Van der Oost, 2014 ibid.). 패널 A는 E. coli.의 타입 I 캐스케이드 시스템 (Cascade system)의 개략도를 나타낸다. crRNA는, 스템-루프 구조 (stem-loop structure) (머리핀)로 이루어진 29 nt 3' 핸들 (handle) 및 8 nt 5' 핸들에 의해 측면에 위치된, 내부 스페이서 (회색 상자, 표적 인지를 가능하게 하는 31-32 nt)을 갖는다 (Jore 2011 ibid.). 패널 B는 S.pyogenes의 타입 Ⅱ Cas9 시스템의 개략도를 나타낸다. tracrRNA를 갖는 crRNA 염기쌍은, RNaseⅢ (대립 검정 삼각형)에 의한 절차를 가능하게 한다. 부가적으로, crRNA의 5' 말단은, RNase (검정 삼각형)에 의해 손질되어, 통상적으로 20 nt의 스페이서를 결과한다. 합성 루프 (synthetic loop)가 도입되어 crRNA 및 tracrRNA를 연결할 수 있어, 단일 가이드 RNA (sgRNA)를 결과한다는 점이 주목된다 (Jinek et al., 2012).

본 발명에 따르면, 본 발명의 Cas 단백질 또는 폴리펩티드는, SEQ ID NO: 2 내지 6의 모티프 중 어느 하나를 단독으로 또는 조합하여 포함할 수 있는 것으로 인식될 수 있다. 하기는 본 발명의 Cas 단백질 또는 폴리펩티드를 특징화할 수 있는 모티프의 각각의 조합을 요약한다:

EKDGKYYC [SEQ ID NO: 2].

EKDGKYYC [SEQ ID NO: 2]; 및 X₁X₂CTX₃X₄ [SEQ ID NO: 3], 여기서, X₁은, 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되고, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되며, X₃은 글루타메이트 또는 리신으로부터 독립적으로 선택되고, 및 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나이다.

EKDGKYYC [SEQ ID NO: 2]; 및 X₁X₂CTX₃X₄ [SEQ ID NO: 3], 여기서, X₁은 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되고, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되며, X₃은 글루타메이트 또는 리신으로부터 독립적으로 선택되고, 및 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나이며; 및 X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택된다.

EKDGKYYC [SEQ ID NO: 2]; 및 X₁X₂CTX₃X₄ [SEQ ID NO: 3], 여기서, X₁은 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되고, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되며, X₃는 글루타메이트 또는 리신으로부터 독립적으로 선택되고, 및 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나이며; 및 X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택되며; 및 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고, 및 X₈은 트립토판, 세린 또는 리신 중 하나이다.

EKDGKYYC [SEQ ID NO: 2]; 및 X₁X₂CTX₃X₄ [SEQ ID NO: 3], 여기서, X₁은 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되고, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되며, X₃는 글루타메이트 또는 리신으로부터 독립적으로 선택되고, 및 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나이며; 및 X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택되며; 및 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고, 및 X₈은 트립토판, 세린 또는 라신 중 하나이며; 및 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉는 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며, 및 X₁₃은 리신 또는 세린이다.

EKDGKYYC [SEQ ID NO: 2]; 및 X₁X₂CTX₃X₄ [SEQ ID NO: 3], 여기서, X₁은 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되고, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되며, X₃는 글루타메이트 또는 리신으로부터 독립적으로 선택되고, 및 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나이며; 및 X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택되며; 및 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉은 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며, 및 X₁₃은 리신 또는 세린이다.

EKDGKYYC [SEQ ID NO: 2]; 및 X₁X₂CTX₃X₄ [SEQ ID NO: 3], 여기서, X₁은 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되고, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되며, X₃는 글루타메이트 또는 리신으로부터 독립적으로 선택되고, 및 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나이며; 및 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고, X₈은 트립토판, 세린 또는 리신 중 하나이며; 및 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉은 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이고, X₁₁은 아르기닌 또는 알라닌이며, X₁₂는 아스파라긴 또는 알라닌이고, 및 X₁₃은 리신 또는 세린이다.

EKDGKYYC [SEQ ID NO: 2]; 및 X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택되며; 및 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고, X₈은 트립토판, 세린 또는 리신 중 하나이며; 및 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉은 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며, 및 X₁₃은 리신 또는 세린이다.

EKDGKYYC [SEQ ID NO: 2]; 및 X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택된다.

EKDGKYYC [SEQ ID NO: 2]; 및 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고, X₈은 트립토판, 세린 또는 리신 중 하나이다.

EKDGKYYC [SEQ ID NO: 2]; 및 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉은 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며, 및 X₁₃은 리신 또는 세린이다.

EKDGKYYC [SEQ ID NO: 2]; 및 X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택되며; 및 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고, 및 X₈은 트립토판, 세린 또는 리신 중 하나이다.

EKDGKYYC [SEQ ID NO: 2]; 및 X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택되며; 및 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉은 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며, 및 X₁₃은 리신 또는 세린이다.

EKDGKYYC [SEQ ID NO: 2]; 및 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고, X₈은 트립토판, 세린 또는 리신 중 하나이며; 및 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉는 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며, 및 X₁₃은 리신 또는 세린이다.

X₁X₂CTX₃X₄ [SEQ ID NO: 3], 여기서, X₁은 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되고, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되며, X₃는 글루타메이트 또는 리신으로부터 독립적으로 선택되고 및 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나이며; 및 X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택된다.

X₁X₂CTX₃X₄ [SEQ ID NO: 3], 여기서, X₁은 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되고, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되며, X₃는 글루타메이트 또는 리신으로부터 독립적으로 선택되고 및 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나이며, 및 X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌로부터 독립적으로 선택되고 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택되며; 및 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고 및 X₈은 트립토판, 세린 또는 리신 중 하나이다.

X₁X₂CTX₃X₄ [SEQ ID NO: 3], 여기서, X₁은 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되고, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되며, X₃는 글루타메이트 또는 리신으로부터 독립적으로 선택되고 및 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나이며; 및 X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택되며; 및 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고 및 X₈은 트립토판, 세린 또는 리신 중 하나이며, 및 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉는 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며 및 X₁₃는 리신 또는 세린이다.

X₁X₂CTX₃X₄ [SEQ ID NO: 3], 여기서, X₁은 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되고, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되며, X₃는 글루타메이트 또는 리신으로부터 독립적으로 선택되고 및 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나이며; 및 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고 및 X₈은 트립토판, 세린 또는 리신 중 하나이며, 및 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉은 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며, 및 X₁₃은 리신 또는 세린이다.

X₁X₂CTX₃X₄ [SEQ ID NO: 3], 여기서, X₁은 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되고, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되며, X₃는 글루타메이트 또는 리신으로부터 독립적으로 선택되고 및 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나이며; 및 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고 및 X₈은 트립토판, 세린 또는 리신 중 하나이다.

X₁X₂CTX₃X₄ [SEQ ID NO: 3], 여기서, X₁은 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되고, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되며, X₃는 글루타메이트 또는 리신으로부터 독립적으로 선택되고 및 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나이며; 및 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉은 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는아스파라긴 또는 알라닌이며 및 X₁₃은 리신 또는 세린이다.

X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택되며; 및 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고 및 X₈은 트립토판, 세린 또는 리신 중 하나이며; 및 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉은 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며 및 X₁₃은 리신 또는 세린이다.

X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택되며; 및 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고 및 X₈은 트립토판, 세린 또는 리신 중 하나이다.

X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택되며; 및 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉는 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며 및 X₁₃은 리신 또는 세린이다.

X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고 및 X₈은 트립토판, 세린 또는 리신 중 하나이며; 및 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉은 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며 및 X₁₃은 리신 또는 세린이다.

또 다른 관점에서, 본 발명은 SEQ ID NO: 1의 아미노산 서열 또는 이와 적어도 77% 동일성의 서열을 갖는 단리된 Cas 단백질 또는 이의 폴리펩티드 단편을 제공하며, 여기서 Cas 단백질 또는 폴리펩티드는, 50℃ 내지 100℃의 온도 범위에서 DNA 절단을 할 수 있다.

바람직하게는, Cas 단백질 또는 폴리펩티드는 60℃ 내지 80℃ 범위의 온도에서 DNA 절단을 할 수 있다. 예를 들어, DNA 절단은, 61℃, 62℃, 63℃, 64℃, 65℃, 66℃, 67℃, 68℃, 69℃, 70℃, 71℃, 72℃, 73℃, 74℃, 75℃, 76℃, 77℃, 78℃, 79℃ 또는 80℃의 온도에서 발생한다. 보다 바람직하게, Cas 단백질 또는 폴리펩티드는 60 내지 65℃의 온도에서 DNA 절단을 할 수 있다. 바람직한 관점에서, 본 발명의 Cas 단백질 또는 폴리펩티드 단편은, SEQ ID NO: 1과 적어도 75% 동일성; 바람직하게는 적어도 85%; 좀 더 바람직하게는 적어도 90%; 더욱더 바람직하게는 적어도 95% 동일성의 아미노산 서열을 포함할 수 있다.

좀 더 구체적으로, 본 발명의 Cas 단백질 또는 폴리펩티드는: 적어도 60%, 적어도 61%, 적어도 62%, 적어도 63%, 적어도 64%, 적어도 65%, 적어도 66%, 적어도 67%, 적어도 68%, 적어도 69%, 적어도 70%, 적어도 71%, 적어도 72%, 적어도 73%, 적어도 74%, 적어도 75%, 적어도 76%, 적어도 77%, 적어도 78%, 적어도 79%, 적어도 80%, 적어도 81%, 적어도 82%, 적어도 83%, 적어도 84%, 적어도 85%, 적어도 86%, 적어도 87%, 적어도 88%, 적어도 89%, 적어도 90%, 적어도 91%, 적어도 92%, 적어도 93%, 적어도 94%, 적어도 95%, 적어도 96%, 적어도 97%, 적어도 98%, 적어도 99%, 적어도 99.5% 또는 적어도 99.8%와 같이, SEQ ID NO: 1과 퍼센트 동일성 (percentage identity)을 갖는 아미노산 서열을 포함할 수 있다.

SEQ ID NO: 1과 퍼센트 아미노산 서열 동일성은, 두 서열의 최적 정렬을 위해 도입되는 것을 필요로 하는, 갭 (gaps)의 수, 및 각각의 갭의 길이를 고려하여, 선택된 비교 범위 (comparison window)에서 서열에 의해 공유되는 동일한 위치의 수의 함수에 따라 결정 가능하다.

본 발명의 Cas 단백질 또는 폴리펩티드 단편은, 참조 서열 (reference sequences) SEQ ID NO: 1 및 퍼센트 서열 동일성에 의해 정의된 바와 같은 임의의 전술된 이의 퍼센트 변이체의 관점에서, 필수적인 특색 (essential features)으로서 단독으로 또는 전술한 아미노산 모티프들 (즉, SEQ ID NOS 2 및/또는 3 및/또는 4 및/또는 5 및/또는 6) 중 어느 하나와 조합하여 특징화될 수 있다.

또한, 본 발명은 본 발명의 전술된 단백질 또는 폴리펩티드 중 어느 하나를 코딩하는 핵산을 제공한다. 상기 핵산은 단리될 수 있거나 또는 발현 구조물의 형태일 수 있다.

본 발명의 모든 전술된 관점에서, 아미노산 잔기는 보존적으로 또는 비-보존적으로 치환될 수 있다. 보존적 아미노산 치환은, 아미노산 잔기가 유사한 화학적 특성 (예를 들어, 전하 또는 소수성)을 갖는 다른 아미노산 잔기로 치환되고, 따라서 그 결과로 생긴 폴리펩티드의 기능적 특성을 변경시키지 않는 것을 의미한다.

유사하게, 핵산 서열이 폴리펩티드의 기능에 영향을 미치지 않으면서 보존 적으로 또는 비-보존적으로 치환될 수 있는 것은 기술분야의 당업자에게 이해될 것이다. 보존적으로 변형된 핵산은, 동일하거나 또는 기능적으로 동일한 아미노산 서열의 변이체를 코딩하는 핵산에 대해 치환된다. 핵산에서 각 코돈 (codon) (AUG 및 UGG를 제외한; 통상적으로 메티오닌 또는 트립토판 각각에 대한 유일한 코돈)이 기능적으로 동일한 분자를 산출하도록 변형될 수 있는 것은 당업자에게 이해될 것이다. 따라서, 본 발명의 폴리펩티드를 코딩하는, 폴리뉴클레오티드 또는 폴리펩티드의 각 침묵 변이 (silent variation) (즉, 동의어 코돈)는, 각 기재된 폴리펩티드 서열에서 내재한다.

절단 온도 (Cleavage Temperatures)

본 발명의 Cas 단백질의 뉴클레아제 활성의 최적 온도 범위를 포함하는, 온도 범위는, 공지된 Cas9 단백질의 것보다 상당히 높다. 또한, 뉴클레아제 활성을 보유하는 범위의 상한은, 공지된 Cas9 단백질의 것보다 훨씬 높다. 더 높은 최적의 온도 및 기능적 범위는, 고온에서의 유전 공학에서, 따라서, 예를 들어, 호열성 유기체의 게놈을 편집하는데, 상당한 장점을 제공하며, 이의 다수는 상승된 온도에서 수행되는 다양한 산업적, 농업적 및 제약적 공정에서 유용성이 있다.

유리하게는, 본 발명의 Cas 단백질 또는 폴리펩티드는, 20℃ 내지 100℃에서 핵산 절단을 할 수 있지만, 특히 상승된 온도, 예를 들어, 41℃ 내지 122℃, 바람직하게는 50℃ 내지 100℃에서 유용하다. 본 발명의 Cas 단백질 및 폴리펩티드는, DNA, RNA 및 합성 핵산을 절단할 수 있다. 본 발명의 Cas 단백질 또는 폴리펩티드는 또한, 예를 들어, 20 내지 40℃ 범위의 온도에서 유전자 편집 적용 및 뉴클레아제 활성에 대한 조작성 (operability)을 제공할 수 있다.

바람직하게는, 본 발명의 Cas 단백질 또는 폴리펩티드는, 절단될, 표지될 또는 변형될 폴리뉴클레오티드 분자(들) 내에 표적 서열을 인지하는 적절한 gRNA (가이드 RNA)와 결합하는 경우, 50℃ 내지 100℃의 범위, 선택적으로 55℃ 내지 100℃, 60℃ 내지 100℃, 65℃ 내지 100℃, 70℃ 내지 100℃, 75℃ 내지 100℃, 80℃ 내지 100℃, 85℃ 내지 100℃, 90℃ 내지 100℃, 95℃ 내지 100℃ 범위의 온도에서 수행한다. 좀 더 바람직하게는, 본 발명의 Cas 단백질은, 51℃ 내지 99℃, 52℃ 내지 98℃, 53℃ 내지 97℃, 54℃ 내지 96℃, 55℃ 내지 95℃, 56℃ 내지 94℃, 57℃ 내지 93℃, 58℃ 내지 92℃, 59℃ 내지 91℃, 60℃ 내지 90℃, 61℃ 내지 89℃, 62℃ 내지 88℃, 63℃ 내지 87℃, 64℃ 내지 86℃, 65℃ 내지 85℃, 66℃ 내지 84℃, 67℃ 내지 83℃, 68℃ 내지 82℃, 69℃ 내지 81℃, 70℃ 내지 80℃, 71℃ 내지 79℃, 72℃ 내지 78℃, 73℃ 내지 77℃, 74℃ 내지 76℃, 75℃의 온도 범위에서 핵산을 절단, 표지 또는 변형시킨다. 바람직하게는, 본 발명의 Cas 단백질은, 60℃ 내지 80℃, 61℃ 내지 79℃, 62℃ 내지 78℃, 63℃ 내지 77℃, 64℃ 내지 76℃, 60℃ 내지 75℃, 60℃ 내지 70℃의 온도 범위에서 핵산을 절단, 표지 또는 변형시킨다. 최적으로, 본 발명의 Cas 단백질은, 60℃ 내지 65℃의 범위, 바람직하게는 65℃의 온도에서 핵산을 절단, 표지 또는 변형시킨다.

본 발명의 모든 관점에서, Cas 단백질 또는 폴리펩티드는, 박테리아, 고세균류 또는 바이러스로부터 얻거나 유래될 수 있거나; 또는 선택적으로 다시 합성될 수 있다. 바람직한 구체 예에서, 본 발명의 Cas 단백질 또는 폴리펩티드는, 고세균류 또는 박테리아로 분류될 수 있는, 호열성 원핵 유기체로부터 유래되지만, 바람직하게는 박테리아이다. 좀 더 바람직하게는, 본 발명의 Cas 단백질 또는 폴리펩티드는, 호열성 박테리아로부터 유래될 것이다. 여기서, 용어 "호열성"은, 예를 들어, 본 발명의 맥락에서, 41 내지 122℃ (106 및 252 ℉)에서 핵산 절단을 할 수 있는, 상대적으로 고온에서 생존 및 성장할 수 있는 의미로 이해해야 한다. 바람직하게는, 본 발명의 Cas 단백질 또는 폴리펩티드는, 하나 이상의 호열성 박테리아로부터 단리될 수 있고, 60℃ 이상에서 기능할 것이다. 바람직하게는, 본 발명의 Cas 단백질 또는 폴리펩티드는, 하나 이상의 호 열성 박테리아로부터 단리될 수 있고, 60℃ 내지 80℃ 및 최적으로 60℃ 내지 65℃ 범위에서 기능할 것이다. 바람직한 구체 예에서, 본 발명의 Cas 단백질 또는 폴리펩티드는, 지오바실러스 속 (Geobacillus sp)으로부터 유래된다. 좀 더 바람직하게는, 본 발명의 Cas 단백질은, 지오바실러스 써모데니트리피칸스 (Geobacillus thermodenitrificans)으로부터 유래된다. 더욱더 바람지하게는, 본 발명의 Cas 단백질은, 지오바실러스 써모데니트리피칸스 T12로부터 유래된다. 본 발명의 Cas 단백질 또는 폴리펩티드는, 바이러스로부터 유래될 수 있다.

RNA 가이드 및 표적 서열 (RNA Guides and Target Sequences)

본 발명의 Cas 단백질은, 상승된 온도에서 표적 핵산의 서열-특이적 절단, 태깅 (tagging), 마킹 또는 변형을 가능하게 한다. 표적 핵산은 DNA (단일-가닥 또는 이중-가닥), RNA 또는 합성 핵산일 수 있다. 본 발명의 특히 유용한 적용은, 게놈 DNA의 표적 서열에 상보적으로 결합하는 하나 이상의 가이드 RNA (gRNA)와의 복합체에서 본 발명의 하나 이상의 Cas 단백질에 의한 게놈 DNA의 서열-특이적 표적 및 변형이다. 결과적으로, 표적 핵산은 바람직하게는 이중-가닥 DNA이다. 이러한 표적화 (targeting)는 시험관 내 또는 생체 내에서 수행될 수 있다. 바람직하게는, 이러한 표적화는 생체 내에서 수행된다. 이러한 방식에서, 본 발명의 Cas 단백질은, 세포의 게놈 DNA에 위치된 특이적 DNA 서열을 표적화하고 변형시키는데 사용될 수 있다. Cas 시스템은, 다른 유기체에서 및/또는 다른 유기체의 다양한 세포 타입에서 게놈을 변형시키는데 사용될 수 있는 것으로 생각된다.

따라서, 본 발명은, 전술된 바와 같은 본 발명의 Cas 단백질 또는 폴리펩티드를 포함하고, 및 표적 폴리뉴클레오티드의 특정 뉴클레오티드 서열을 인지한다는 점에서 표적 기능을 갖는 적어도 하나의 RNA 분자를 더욱 포함하는, 리보핵산 단백질 복합체를 제공한다. 바람직하게는, RNA 분자는, 단일-가닥 RNA 분자, 예를 들어, CRISPR RNA (crRNA)이며, 및 예를 들어, tracrRNA와 잡종형성 (hybridization)에 의해 결합된다. 표적 RNA는 crRNA 및 tracrRNA의 키메라 (chimera)일 수 있다. 전술된 RNA 분자는, 표적 뉴클레오티드 서열과 적어도 90%의 동일성 또는 상보성 (complementarity)의 리보뉴클레오티드 서열을 가질 수 있다. 선택적으로, RNA 분자는, 표적 뉴클레오티드 서열과 적어도 90%, 적어도 91%, 적어도 92%, 적어도 93%, 적어도 94%, 적어도 95%, 적어도 96%, 적어도 97% 적어도 98%, 적어도 99% 또는 100%의 동일성 또는 상보성을 갖는다. 바람직한 표적 뉴클레오티드 서열은 DNA이다.

바람직한 관점에서, 본 발명은 전술된 바와 같은 리보핵산 단백질 복합체를 제공하며, 여기서 적어도 하나의 표적 RNA 분자는, 이의 길이를 따라 표적 DNA 서열에 실질적으로 상보적이다.

따라서, 본 발명의 Cas 단백질과 결합하는 RNA 가이드의 서열을 변경은, Cas 단백질이 가이드 RNA에 상보적인 부위에서 이중-가닥 DNA를 표지하거나 또는 절단하도록 프로그램되는 것을 가능하게 한다.

바람직하게는, 본 발명의 리보핵산 단백질 복합체에서 적어도 하나의 표적 RNA 분자의 길이는, 35 내지 135 잔기의 범위, 선택적으로 35 내지 134 잔기, 35 내지 133 잔기, 35 내지 132 잔기, 35 내지 131 잔기, 35 내지 130 잔기, 35 내지 129 잔기, 35 내지 128 잔기, 35 내지 127 잔기, 35 내지 126 잔기, 35 내지 125 잔기, 35 내지 124 잔기, 35 내지 123 잔기, 35 내지 122 잔기, 35 내지 121 잔기, 35 내지 120 잔기, 35 내지 119 잔기, 35 내지 118 잔기, 35 내지 117 잔기, 35 내지 116 잔기, 35 내지 115 잔기, 35 내지 114 잔기, 35 내지 113 잔기, 35 내지 112 잔기, 35 내지 111 잔기, 35 내지 100 잔기, 35 내지 109 잔기, 35 내지 108 잔기, 35 내지 107 잔기, 35 내지 106 잔기, 35 내지 105 잔기, 35 내지 104 잔기, 35 내지 103 잔기, 35 내지 102 잔기, 35 내지 101 잔기, 35 내지 100 잔기, 35 내지 99 잔기, 35 내지 98 잔기, 35 내지 97 잔기, 35 내지 96 잔기, 35 내지 95 잔기, 35 내지 94 잔기, 35 내지 93 잔기, 35 내지 92 잔기, 35 내지 91 잔기, 35 내지 90 잔기, 35 내지 89 잔기, 35 내지 88 잔기, 35 내지 87 잔기, 35 내지 86 잔기, 35 내지 85 잔기, 35 내지 84 잔기, 35 내지 83 잔기, 35 내지 82 잔기, 35 내지 81 잔기, 35 내지 80 잔기, 35 내지 79 잔기, 35 내지 78 잔기, 35 내지 77 잔기, 35 내지 76 잔기, 35 내지 75 잔기, 35 내지 74 잔기, 35 내지 73 잔기, 35 내지 72 잔기, 35 내지 71 잔기, 35 내지 70 잔기, 35 내지 69 잔기, 35 내지 68 잔기, 35 내지 67 잔기, 35 내지 66 잔기, 35 내지 65 잔기, 35 내지 64 잔기, 35 내지 63 잔기, 35 내지 62 잔기, 35 내지 61 잔기, 35 내지 60 잔기, 35 내지 59 잔기, 35 내지 58 잔기, 35 내지 57 잔기, 35 내지 56 잔기, 35 내지 55 잔기, 35 내지 54 잔기, 35 내지 53 잔기, 35 내지 52 잔기, 35 내지 51 잔기, 35 내지 50 잔기, 35 내지 49 잔기, 35 내지 48 잔기, 35 내지 47 잔기, 35 내지 46 잔기, 35 내지 45 잔기, 35 내지 44 잔기, 35 내지 43 잔기, 35 내지 42 잔기, 35 내지 41 잔기, 35 내지 40 잔기, 35 내지 39 잔기, 35 내지 38 잔기, 35 내지 37 잔기, 35 내지 36 잔기, 또는 35 잔기의 범위이다. 바람직하게는, 적어도 하나의 RNA 분자의 길이는, 36 내지 174 잔기, 37 내지 173 잔기, 38 내지 172 잔기, 39 내지 171 잔기, 40 내지 170 잔기, 41 내지 169 잔기, 42 내지 168 잔기, 43 내지 167 잔기, 44 내지 166 잔기, 45 내지 165 잔기, 46 내지 164 잔기, 47 내지 163 잔기, 48 내지 162 잔기, 49 내지 161 잔기, 50 내지 160 잔기, 51 내지 159 잔기, 52 내지 158 잔기, 53 내지 157 잔기, 54 내지 156 잔기, 36 내지 74 잔기, 37 내지 73 잔기, 38 내지 72 잔기, 39 내지 71 잔기, 40 내지 70 잔기, 41 내지 69 잔기, 42 내지 68 잔기, 43 내지 67 잔기, 44 내지 66 잔기, 45 내지 65 잔기, 46 내지 64 잔기, 47 내지 63 잔기, 48 내지 62 잔기, 49 내지 61 잔기, 50 내지 60 잔기, 51 내지 59 잔기, 52 내지 58 잔기, 53 내지 57 잔기, 54 내지 56 잔기의 범위이다.

바람직한 관점에서, 본 발명은 리보핵산 단백질 복합체를 제공하며, 여기서 적어도 하나의 RNA 분자의 상보적 부분은 적어도 30 잔기의 길이이다. 선택적으로, 적어도 하나의 RNA 분자의 상보적 부분은, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74 또는 75 잔기의 길이일 수 있다.

표적 RNA 분자는, 바람직하게는 표적 핵산 서열에 대해 높은 특이성 및 친화성을 요구할 것이다. 1 μM 내지 1 pM, 바람직하게는 1 nM 내지 1 pM; 좀 더 바람직하게는 1 내지 100pM 범위의 해리 상수 (K_d)는, 고유한 겔 전기영동 (native gel electrophoresis), 또는 선택적으로 등온 적정 열량계, 표면 플라스몬 공명, 또는 형광계 적정 방법에 의해 결정될 수 있음으로 바람직하다. 친화도 (Affinity)는, 또한 겔 지연 분석 (gel retardation assay)으로 불리는, 전기 이동성 교대 분석 (Electromoretic mobility shift assay, EMSA)을 사용하여 결정될 수 있다 (Semenova E et al. (2011) PNAS 108: 10098-10103 참조).

표적 RNA 분자는 바람직하게는 원핵생물 내에 자연물로부터 CRISPR RNA (crRNA) 분자로 알려진 것으로 모델링된다. crRNA 분자의 구조는, 이미 Jore et al., 2011, Nature Structural & Molecular Biology 18: 529-537에서 보다 상세히 설명되고 확립되어 있다. 간단히 말해서, 타입 I-E의 성숙 crRNA (mature crRNA)는, 종종 61 뉴클레오티드 길이이고, 및 8개 뉴클레오티드의 5'"핸들" 영역, 32개 뉴클레오티드의 "스페이서" 서열, 및 테트라뉴클레오티드 루프를 갖는 헤어핀을 형성하는 21개 뉴클레오티드의 3' 서열로 이루어진다 (도 5). 타입 I 시스템은 타입 Ⅱ (Cas9)와 다르며 및 다른 시스템의 상세는, Van der Oost 2014 Nat Rev Micr 12: 479-492에 기재되어 있다. 타입 Ⅱ (Cas9) 시스템에서, 제2 RNA (tracrRNA) 및 두 개의 리보뉴클레아제를 활용하는 다른 공정 메커니즘이 있다. 머리핀 외에, 타입 Ⅱ에서 성숙 crRNA는 tracrRNA의 단편에 붙어 있다 (도 5). 그러나, 본 발명에서 사용되는 RNA는, 길이, 부위 또는 특이적 RNA 서열을 불문하고, 자연 발생형 crRNA의 디자인으로 엄격하게 디자인될 필요는 없다. 분명한 점은, 본 발명에서 사용하기 위한 RNA 분자가, 공개된 데이터베이스에서 유전자 서열 정보에 기초하여 디자인되거나 또는 새로 발견될 수 있고, 그 다음 인위적으로, 예를 들어, 전체 또는 부분적으로 화학적 합성에 의해 만들어질 수 있다는 것이다. 본 발명의 RNA 분자는 또한 유전적으로 변형된 세포 또는 무세포 발현 시스템 (cell free expression)에서 발현하는 방식으로 디자인 및 생성될 수 있으며, 이 선택은, RNA 서열의 일부 또는 전부의 합성을 포함할 수 있다.

타입 Ⅱ (Cas9)에 crRNA의 구조 및 요건은 또한 Jinek et al., 2012 ibid에 기재되어 있다. 타입 I에서, 스페이서 서열의 5' 말단을 형성하고 및 8 뉴클레오티드의 5' 핸들에 의해 5' 측면에 위치된, 소위 "시드 (SEED)" 부분이 있다. Semenova et al. (2011, PNAS 108: 10098-10103)은, 비록 위치 6에서 잔기에 대해, 불일치가 용인될 수 있을지라도, 시드 서열의 모든 잔기가 표적 서열에 상보적이어야 함을 확인하였다 (도 5). 타입 Ⅱ에서, 스페이서의 3' 말단에 위치된 10-12 뉴클레오티드의 시드가 있다 (도 5) (Van der Oost 2014 ids에 의해 검토됨). 유사하게, 표적 유전자 자리 (target locus) (즉, 서열)를 향하는 본 발명의 리보핵산 단백질 복합체의 RNA 성분을 디자인하고, 만드는 경우, 타입 Ⅱ 시트 서열에 대한 필요한 일치 및 불일치 규칙은 적용될 수 있다.

따라서, 본 발명은, 핵산 샘플을 전술된 바와 같은 본 발명의 리보핵산 단백질 복합체와, 또는 전술된 바와 같은 본 발명의 Cas 단백질 또는 폴리펩티드 및 분리 표적 RNA 성분과 접촉시키는 단계를 포함하는, 표적 핵산 분자에서 단일 염기 변화를 검출 및/또는 위치시키는 방법을 포함하고, 및 여기서 (리보핵산 단백질 복합체에서의 경우를 포함하는) 표적 RNA의 서열은, 예를 들어, 8 뉴클레오티드 잔기의 연속 서열의 위치 6에서, 단일 염기 변화로 인해 정상적인 대립 유전자와 돌연변이 대립 유전자 사이에서 구별하도록 하는 것이다.

특정 이론에 구속되는 것을 원하지는 않지만, 본 발명의 리보핵산 단백질 복합체의 표적 RNA 성분을 제조하는데 사용될 수 있는 디자인 규칙은, 표적 폴리뉴클레오티드 가닥에서 소위 "PAM" (프로토스페이서 인접 모티프 (protospacer adjacent motif)) 서열을 포함한다. PAM 서열은, E.coli 5'-CTT-3', 5'-CAT-3', 5'-CCT-3', 5'-CAC-3', 5'-TTT-3', 5'-ATT-3', 및 5'-AWG-3'의 타입 I-E 시스템에서, 뉴클레오티드 잔기의 보존된 트리플릿 (triplet)일 수 있고, 여기서 W는 A, T 또는 U이다. 타입 I에서, 표적 가닥에 위치된 PAM 서열은, 일반적으로 시드의 5'에 상응하는 위치에 있다. 그러나, 타입 Ⅱ에서, PAM은, crRNA 스페이서의 3' 말단에 가깝게 변위된 가닥 상에, 시드의 3'에 상응하는 위치에서, 다른 말단에 위치된다 (도 5) (Jinek et al. , 2012, op. cit.). Streptococcus pyogenes Cas9의 경우, PAM 서열은, 뉴클레오티드 잔기의 보존된 쌍인, 5'-NGG-3'을 갖는다. 최근에, 다른 Cas9 변이체 (타입 ⅡA 및 타입 ⅡC) (Ran et al., 2015 Nature 520: 186-191)-Fig 1A)는, 특징화되었고 및 PAM은 밝혀졌다 (Ran et al., 2015, ibid.-Fig 1C). 현재 규명된 Cas9 PAMs은, 타입 ⅡA 5'-NGGNNNN-3' (Streptococcus pyogenes), 5'-NNGTNNN-3' (Streptococcus pasteurianus), 5'-NNGGAAN-3' (Streptococcus thermophilus), 5'-NNGGGNN-3' (Staphylococcus aureus), 및 타입 ⅡC 5'-NGGNNNN-3' (Corynebacterium difteriae), 5'-NNGGGTN-3' (Campylobacter lari), 5'-NNNCATN-3' (Parvobaculum lavamentivorans), 5'-NNNNGTA-3' (Neiseria cinerea)을 포함한다. Geobacillus thermodenitrificans T12의 Cas9 (본 발명)는, 타입ⅡC (Ran et al., 2015, ibid.)에 속한다. 따라서, 특정 이론에 구속되는 것을 원하지는 않지만, 본 발명자들은, PAM 서열이 타입 ⅡC Cas9 리보핵산 단백질 복합체에 대해 규명된 것과 더 밀접하게 비슷한 것으로 기대한다.

본 발명의 구체 예에서, 표적 RNA 분자는 35-75 잔기의 범위에서 길이를 가질 수 있다. 바람직한 구체 예에서, 원하는 핵산 서열에 상보적이며 표적화하는데 사용되는 RNA의 일부는, 31 또는 32 잔기의 길이이다. 자연-발생 crRNA의 맥락에서, 이것은, 예를 들어, Semenova et al. (2011 ibid.)의 도 1에 나타낸 바와 같은 스페이서 부분에 상응할 것이다.

본 발명의 리보핵산 단백질 복합체는, DNA 표적 서열에 실질적으로 상보성을 갖는 RNA 서열에 대해 CRISPR 반복 5'으로부터 유래된 8 잔기를 포함하는 표적 성분을 가질 수 있다. DNA 표적 서열에 대해 상보성을 갖는 RNA 서열은, 스페이서 서열인 것으로서 crRNA의 맥락에 상응하는 것으로 이해될 것이다. RNA의 5' 플랭킹 서열 (flanking sequence)은; 예를 들어, Semenova et al. (2011 ibid.)의 도 1에 나타낸 바와 같이, crRNA의 5' 핸들에 상응하는 것으로 고려될 것이다.

본 발명의 리보핵산 단백질 복합체는, DNA 표적 서열에 상보성을 갖는 표적 RNA 서열에 헤어핀 및 테트라뉴클레오티드 루프 형성 서열 3', 즉, 예를 들어 Semenova et al. (2011 ibid.)의 도 1에 나타낸 바와 같은, crRNA에서 스페이서 서열에 측면에 있는 3' 핸들에 상응하는 것에 3'을 가질 수 있다.

특정 이론에 구속되는 것을 원하지는 않지만, 바람직한 리보핵산 단백질 복합체에서, 리보핵산 단백질 복합체의 표적 RNA와 쌍을 이루지 않는 표적 서열 DNA 가닥은, 5'-NGGNNNN-3', 5'-NNGTNNN-3', 5'-NNGGAAN-3', 5'-NNGGGNN-3', 5'-NGGNNNN-3', 5'-NNGGGTN-3', 5'-NNNCATN-3', 5'-NNNNGTA-3'으로부터 선택된 직접 3'에 인접 트리플릿을 포함할 수 있고, 여기서, 상기 트리플릿 잔기는, 각각의 상보적인 DNA 가닥 잔기와 각 쌍을 이루지 않는다. 그러나, 뉴클레오티드의 다른 트리플릿 또는 조합이 원하는 적용에 의존하여 사용될 수 있는 것으로 이해해야 할 것이다. 이들 트리플릿은 자연적으로 발생하는 crRNA의 맥락에서 "프로토스페이서 인접 모티프" 또는 "PAM"라고 불리는 것에 해당한다. 타입 ⅡC CRISPR/Cas 시스템에서, 이들 PAM 트리플릿은, 표적 서열에 대한 - 천연 시스템 표적 및 따라서 바람직하게는 또한 본 발명에 따른 RNAs의 표적 모두에서 - crRNA의 고도의 특이성을 보장하기 위해, 캐스케이드/crRNA 복합체와 이의 dsDNA 표적으로 안정적인 상호작용을 위해 요구된다.

기능성 모이어티 (Functional Moieties)

유리하게는, 서열-특이적 방식으로 임의의 폴리뉴클레오티드 서열을 표적하는 본 발명의 Cas 단백질, 폴리펩티드 및 리보핵산 단백질 복합체의 능력은, 표적 핵산을, 예를 들어, 이를 절단 및/또는 이를 표지 및/또는 이를 변형시키는, 어떤 방식으로 변형시키기 위해 활용될 수 있다. 따라서, 이를 달성하기 위해 부가적인 단백질은 Cas 단백질 또는 폴리펩티드와 함께 제공될 수 있는 것으로 인정될 것이다. 따라서, 본 발명의 Cas 단백질, 폴리펩티드 또는 리보핵산 단백질 복합체는, 적어도 하나의 추가 단백질을 포함하는 단백질 복합체의 일부로서 제공될 수 있다. 바람직한 관점에서, 본 발명은 Cas 단백질, 폴리펩티드 또는 리보핵산 단백질 복합체를 제공하며, 여기서, 상기 Cas 단백질 또는 적어도 하나의 추가의 단백질은 적어도 하나의 기능성 모이어티를 더욱 포함한다. 적어도 하나의 기능성 모이어티는 Cas 단백질에 융합 또는 연결될 수 있다. 바람직하게는, 적어도 하나의 기능성 모이어티는, 천연 또는 인공 단백질 발현 시스템에서 발현을 통해 Cas 단백질에 번역적으로 융합될 수 있다. 선택적으로, 적어도 하나의 기능성 모이어티는, 화학적 합성 단계에 의해 Cas 단백질에 공유 결합될 수 있다. 바람직하게는, 적어도 하나의 기능성 모이어티는, Cas 단백질의 N-말단 및/또는 C-말단; 바람직하게는 N-말단에 융합 또는 연결된다.

바람직하게는, 적어도 하나의 기능성 모이어티는 단백질일 것이다. 이는 이종 단백질 일 수 있고, 또는 선택적으로 Cas 단백질이 유래된 박테리아 종에 기원할 수 있다. 적어도 하나의 기능성 모이어티는; 헬리카제, 뉴클레아제, 헬리카제-뉴클레아제, DNA 메틸라아제, 히스톤 메틸라아제, 아세틸라아제, 포스페타아제, 키아나제, 전사 활성인자, 전사 억제인자, DNA 결합 단백질, DNA 구조 단백질, 마커 단백질, 리포터 단백질, 형광 단백질, 리간드 결합 단백질, 신호 펩티드, 세포내 위치 측정 서열, 항체 에피토프 또는 친화성 정제 태그로부터 선택적으로 선택된 단백질일 수 있다.

특히 바람직한 관점에서, 본 발명은 Cas 단백질, 폴리펩티드, 또는 리보핵산 단백질 복합체를 제공하고, 여기서 적어도 하나의 기능성 모이어티는, 마커 단백질, 예를 들어 GFP이다.

뉴클레아제 활성 (Nuclease Activity)

본 발명의 임의의 관점의 Cas 리보핵산 단백질은, 50℃ 내지 100℃의 핵산 절단 활성을 갖는다. 본 발명의 리보핵산 단백질은, DNA, RNA 또는 합성 핵산을 절단할 수 있다. 바람직한 관점에서, 본 발명의 Cas 리보핵산 단백질은, 서열-특이적 방식으로 DNA, 특히 이중-가닥 DNA를 절단할 수 있다.

본 발명의 어떤 관점에서, 본 발명의 Cas 단백질, 폴리펩티드 또는 리보핵산 단백질은, 하나 이상의 뉴클레아제 도메인을 가질 수 있다. 부위-특이적 뉴클레아제는, DNA 가닥을 따라 선택된 위치에서 이중 가닥 절단 (DSBs)의 발생을 가능하게 할 수 있다. 표적 숙주 세포에서, 이것은 게놈 내에 특이적인 미리-선택된 위치에서 DSBs를 만드는 것을 가능하게 한다. 부위-특이적 뉴클레아제에 의한 이러한 절단의 생성은, 관심의 게놈 내에 원하는 위치에서 DNA를 삽입, 삭제 또는 변형시키기 위해 내인성 세포내 복구 기작이 용도 변경되는 것을 촉진한다.

단백질 또는 폴리펩티드 분자의 하나 이상의 뉴클레아제 활성 부위는, 불 활성화될 수 있는데, 예를 들어, 단백질 또는 폴리펩티드, 예를 들어, Fok1 뉴클레아제에 연결된 또는 융합된 또 다른 기능성 모이어티의 활성을 가능하게 하기 위해, 불활성화될 수 있다.

따라서, 본 발명의 Cas 단백질, 폴리펩티드 및 리보핵산 단백질이 내인성 뉴클레아제 활성을 갖는다는 사실에도 불구하고, 어떤 적용에 대해, Cas 단백질의 고유한 뉴클레아제 활성을 불활성화시키고 및 Cas 단백질 또는 리보핵산 단백질 복합체를 제공하는 것이 바람직할 수 있으며, 여기서, 고유한 Cas9 뉴클레아제 활성은 불활성화되고, 및 Cas 단백질은 적어도 하나의 기능성 모이어티에 연결된다. 고유한 Cas9 뉴클레아제 활성의 상보성에 의한 불일치-표적 사건의 발생률의 감소는 이러한 적용 중 하나이다. 이는 바람직하게는 Cas 단백질 또는 리보핵산 단백질 복합체의 고유한 Cas9 뉴클레아제 활성의 불활성화 및 Cas 단백질에 바람직하게 융합된, 이종 뉴클레아제의 제공에 의해 달성될 수 있다. 따라서, 본 발명은 Cas 단백질 또는 리보핵산 단백질 복합체를 제공하고, 여기서, 적어도 하나의 기능성 모이어티는 뉴클레아제 도메인, 바람직하게는 FokI 뉴클레아제 도메인이다. 특히 바람직한 관점에서, FokI 뉴클레아제 도메인에 융합된 본 발명의 Cas 단백질 또는 리보핵산 단백질 복합체는, 바람직하게는 FokI 뉴클레아제 도메인에 융합된 본 발명의 또 다른 Cas 단백질 또는 리보핵산 단백질 복합체를 포함하는, 단백질 복합체의 일부로서 제공되며, 여기서 2개의 복합체는 표적 게놈 DNA의 대립 가닥 (opposite strands)을 표적으로 한다.

몇몇 적용에 대해, 예를 들어, Cas 단백질 또는 리보핵산 단백질 복합체가, 예를 들어, 진단 시험의 일부로 이를 표시하기 위해, 핵산 내의 특이적 표적 서열을 인지하고 변형시키는데 활용되는 적용에서, Cas 단백질, 폴리펩티드 또는 리보핵산 단백질의 뉴클레아제 활성을 완전히 감쇄시키는 것이 바람직할 수 있다. 이러한 적용에서, Cas 단백질의 뉴클레아제 활성은 불활성화될 수 있고, 및 Cas 단백질에 융합된 기능성 모이어티는; 헬리카제, 뉴클레아제, 헬리카제-뉴클레아제, DNA 메틸라아제, 히스톤 메틸라아제, 아세틸라아제, 포스페타아제, 키아나제, 전사 활성인자, 전사 억제인자, DNA 결합 단백질, DNA 구조 단백질, 마커 단백질, 리포터 단백질, 형광 단백질, 리간드 결합 단백질, 신호 펩티드, 세포내 위치 측정 서열, 항체 에피토프 또는 친화성 정제 태그로부터 선택적으로 선택된 단백질일 수 있다.

특히 바람직한 관점에서, 본 발명은 Cas 단백질 또는 리보핵산 단백질 복합체를 제공하고, 여기서 Cas 단백질의 뉴클레아제 활성은 불활성화되고, 및 적어도 하나의 기능성 모이어티는 마커 단백질, 예를 들어 GFP이다. 이러한 방식에서, 관심의 핵산 서열을 구체적으로 표적화하고, 및 광학 신호를 발생하는 마커를 사용하여 이를 시각화하는 것이 가능할 수 있다. 적절한 마커는, 예를 들어, 형광 리포터 단백질, 예를 들어, 녹색 형광 단백질 (GFP), 황색 형광 단백질 (YFP), 적색 형광 단백질 (RFP), 시안 형광 단백질 (CFP) 또는 mCherry을 포함할 수 있다. 이러한 형광 리포터 유전자는, 이의 발현이 형광 측정에 의해 간단하고 직접적으로 분석될 수 있기 때문에, 단백질 발현의 시각화에 적절한 마커를 제공한다. 선택적으로, 리포터 핵산은 루시퍼라제 (예를 들어, 반딧불이 루시퍼라제 (firefly luciferase))와 같은, 발광 단백질을 코딩할 수 있다. 선택적으로, 리포터 유전자는 광학 신호를 발생하는데 사용될 수 있는, 발색 효소, 예를 들어, (베타-갈락토시다아제 (LacZ) 또는 베타-글루쿠로니다아제 (Gus)와 같은) 발색 효소일 수 있다. 발현의 측정에 사용되는 리포터는 또한 항원 펩티드 태그일 수 있다. 다른 리포터 또는 마커는 당 업계에 공지되어 있으며, 적절하게 사용될 수 있다.

마커가 시각화될 수 있기 때문에, 표적 핵산이 RNA, 특히 mRNA인 어떤 구체 예에서, 마커에 의해 제공된 광학 신호의 검출 및 정량화에 의해, 특히 마커에 의해 발생된 광학 신호가 발현 산물의 양에 직접적으로 비례하는 경우, 유전자의 전사 활성을 정량화하는 것이 가능하다. 따라서, 본 발명의 바람직한 구체 예에서, 본 발명의 Cas 단백질 또는 리보핵산 단백질은, 관심의 유전자의 발현 산물을 분석하는데 사용될 수 있다.

전체적으로, 본 발명의 Cas 단백질의 참조 서열은, 아미노산 서열을 코딩하는 뉴클레오티드 서열로서 정의될 수 있다. 예를 들어, SEQ ID NO: 2 내지 6에 정의된 모티프의 아미노산 서열은 또한 그 아미노산 서열을 코딩하는 모든 핵산 서열을 포함한다.

따라서, 본 발명은 또한 다음을 포함하는 Cas 단백질을 코딩하는 단리된 핵산 분자를 제공한다:

a. 아미노산 모티프 EKDGKYYC [SEQ ID NO: 2]; 및/또는

b. 아미노산 모티프 X₁X₂CTX₃X₄ [SEQ ID NO: 3], 여기서, X₁은 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되고, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되며, X₃는 글루타메이트 또는 리신으로부터 독립적으로 선택되고, 또는 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나이며; 및/또는

c. 아미노산 모티프 X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고, 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택되며; 및/또는

d. 아미노산 모티프 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고, 및 X₈은 트립토판, 세린 또는 리신 중 하나이며; 및/또는

e. 아미노산 모티프 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉는 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며, 및 X₁₃은 리신 또는 세린이고; 여기서, Cas 단백질은, 적어도 하나의 표적 RNA 분자, 및 상기 표적 RNA 분자에 의해 인지되는 표적 핵산 서열을 포함하는 폴리뉴클레오티드와 결합되는 경우, 50℃ 내지 100℃에서 DNA 절단을 할 수 있다.

다른 관점에서, 본 발명은 또한, SEQ ID NO: 1의 아미노산 서열을 갖는 일정한 간격을 두고 주기적으로 분포하는 짧은 회문구조 반복서열 (CRISPR)-관련 (Cas) 단백질 또는 이와 적어도 77% 동일성의 서열을 코딩하는 단리된 핵산 분자를 제공한다.

또 다른 관점에서, 본 발명은 또한, 번역시에 Cas 단백질에 융합되는 펩티드를 코딩하는 적어도 하나의 핵산 서열을 더욱 포함하는, 단리된 핵산 분자를 제공한다.

또 다른 관점에서, 본 발명은 또한 단리된 핵산 분자를 제공하며, 여기서, Cas 단백질을 코딩하는 핵산 분자에 융합된 적어도 하나의 핵산 서열은, 헬리카제, 뉴클레아제, 헬리카제-뉴클레아제, DNA 메틸라아제, 히스톤 메틸라아제, 아세틸라제, 포스파타아제, 키나아제, 전사 활성인자, 전사 억제인자, DNA 결합 단백질, DNA 구조 단백질, 마커 단백질, 리포터 단백질, 형광 단백질, 리간드 결합 단백질, 신호 펩티드, 세포내 위치정보 서열, 항체 에피토프 또는 친화성 정제 태그로부터 선택된 단백질을 코딩한다.

발현 벡터 (Expression Vectors)

본 발명의 핵산은 단리될 수 있다. 그러나, 핵산 센싱 구조물의 발현이 선택 세포에서 수행될 수 있게 하기 위해, Cas 단백질 또는 리보핵산 단백질을 코딩하는 폴리뉴클레오티드 서열은, 바람직하게는 발현 구조물에 제공될 것이다. 몇몇 구체 예에서, Cas 단백질 또는 리보핵산 단백질을 코딩하는 폴리뉴클레오티드는, 적절한 발현 벡터의 일부로서 제공될 것이다. 어떤 구체 예에서, (발현시 Cas 단백질에 융합되는 아미노산 잔기를 코딩하는 뉴클레오티드 서열을 갖거나 또는 갖지 않는) 본 발명의 발현 벡터는, 전술된 바와 같은 표적 RNA 분자를 코딩하는 뉴클레오티드 서열을 더욱 포함할 수 있다. 결과적으로, 이러한 발현 벡터는, 적절한 숙주에서 사용되어, 원하는 뉴클레오티드 서열을 표적으로 할 수 있는 본 발명의 리보핵산 단백질 복합체를 발생시킬 수 있다. 선택적으로, 전술된 바와 같은 표적 RNA 분자를 코딩하는 뉴클레오티드 서열은, 분리된 발현 벡터로 제공될 수 있거나 또는 선택적으로 다른 수단에 의해 표적 세포로 전달될 수 있다.

적절한 발현 벡터는, 수용 세포 (recipient cell)에 따라 변할 수 있으며, 및 표적 세포에서 발현할 수 있고 및 바람직하게는 높은-수준의 발현을 용이하게 하는 조절 요소 (regulatory element)를 적절하게는 혼입할 수 있다. 이러한 조절 서열은, 예를 들어, 개시 (initiation), 정확도, 속도, 안정성, 다운스트림 공정 및 이동성의 관점에서, 유전자 또는 유전자 산물의 전사 또는 번역에 영향을 미칠 수 있다.

이러한 요소는, 예를 들어, 강한 및/또는 구성적 프로모터 (constitutive promoters), 5' 및 3' UTR's, 전사 및/또는 번역 인핸서 (enhancers), 전사 인자 또는 단백질 결합 서열, 시작 부위 및 종결 서열, 리보좀 결합 부위, 재조합 부위, 폴리아데닐화 서열, 센스 또는 안티센스 서열, 전사의 정확한 개시를 보장하는 서열 및 선택적으로 숙주 세포에서 전사 및 전사 안정화의 종결을 보장하는 폴리-A 신호를 포함할 수 있다. 조절 서열 (regulatory sequences)은 식물-, 동물-, 박테리아-, 곰팡이- 또는 바이러스 유래일 수 있고, 및 바람직하게는 숙주 세포와 동일한 유기체로부터 유래될 수 있다. 분명히, 적절한 조절 요소는, 관심의 숙주 세포에 따라 변할 것이다. 예를 들어, E. coli와 같은 원핵 숙주 세포에서 높은-수준의 발현을 용이하게 하는 조절 요소는, pLac, T7, P(Bla), P(Cat), P(Kat), trp 또는 tac 프로모터를 포함할 수 있다. 진핵 생물 숙주 세포에서 높은-수준의 발현을 용이하게 하는 조절 요소는, 효모에서 AOX1 또는 GAL1 프로모터 또는 CMV- 또는 SV40-프로모터, CMV-인핸서, SV40-인핸서, Herpes simplex virus VIP16 전사 활성인자 또는 동물세포에서 글로빈 인트론 (globin intron)의 내포물 (inclusion)을 포함할 수 있다. 식물에서, 구성적 높은-수준의 발현은, 예를 들어, Zea mays 유비퀴틴 1 프로모터 또는 콜리플라워 모자이크 바이러스 (cauliflower mosaic virus)의 35S 및 19S 프로모터를 사용하여 얻을 수 있다.

적절한 조절 요소는 구성적 (constitutive)일 수 있고, 이에 의해 이들은, 대부분의 환경 조건 또는 발생 단계 (developmental stages), 발생 단계 특이성 또는 유도성에서 발현을 지시한다. 바람직하게는, 프로모터는, 온도, 빛, 화학제, 가뭄 및 다른 자극과 같은, 환경적, 화학적 또는 발생적 신호 (cues)에 반응하여 발현을 지시하도록, 유도 가능하다. 적절하게, 프로모터는, 특정 발생 단계에서 또는 세포-외 또는 세포-내 조건, 신호 또는 외부에서 가해진 자극에 반응하여, 관심의 단백질의 발현을 가능하게 선택될 수 있다. 예를 들어, 특정 성장 단계 (예를 들어, osmY 정지상 프로모터)에서 또는 특정 자극 (예를 들어, HtpG Heat Shock Promoter)에 반응하여, 높은-수준의 발현을 제공하는 E. coli에서 사용하기 위한 다양한 프로모터는 존재한다.

적절한 발현 벡터는 적절한 숙주 세포에서 및/또는 특정 조건하에서 상기 벡터의 선택을 가능하게 하는 선택 가능한 마커를 코딩하는 부가적인 서열을 포함할 수 있다.

본 발명은 또한 세포를 전술된 바와 같은 발현 벡터 중 어느 하나로 형질주입 (transfecting), 형질전환 (transforming) 또는 형질도입 (transducing)하는 것을 포함하는, 세포에서 표적 핵산을 변형시키는 방법을 포함한다. 형질주입, 형질전환, 또는 형질도입의 방법은 기술분야의 당업자에게 알려진 타입이다. 본 발명의 리보핵산 단백질 복합체의 발현을 발생하는데 사용되는 하나의 발현 벡터가 존재하고, 표적 RNA가 세포에 직접 첨가되는 경우, 그 다음 같거나 또는 다른 방법의 형질주입, 형질전환 또는 형질도입은 사용될 수 있다. 유사하게, 본 발명의 리보핵산 단백질 복합체의 발현을 발생하기 위해 사용되는 하나의 발현 벡터가 존재하고, 및 또 다른 발현 벡터가 발현을 통해 인시튜 (in situ)로 표적 RNA를 발생하는데 사용되는 경우, 그 다음 같거나 또는 다른 방법의 형질주입, 형질전환, 또는 형질도입은 사용될 수 있다.

다른 구체 예에서, Cas 단백질 또는 폴리펩티드를 코딩하는 mRNA는, 캐스케이드 복합체 (Cascade complex)가 세포에서 발현되도록, 세포 내로 도입된다. Cas 단백질 복합체를 원하는 표적 서열로 안내하는 표적 RNA는 또한, 필요한 리보핵산 단백질 복합체가 세포 내에서 형성되도록, mRNA와 동시에, 개별적으로 또는 순차적으로, 세포 내로 도입된다.

따라서, 본 발명은 또한 전술된 바와 같은 리보핵산 단백질 복합체와 핵산을 접촉시키는 단계를 포함하는, 표적 핵산을, 변형, 즉, 절단, 태깅, 마킹 또는 결합하는 방법을 제공한다.

부가적으로, 본 발명은 또한, 전술된 바와 같은 표적 RNA 분자에 부가하여, 전술된 바와 같은 Cas 단백질 또는 폴리펩티드와 핵산을 접촉시키는 단계를 포함하는 표적 핵산을 변형시키는 방법을 포함한다.

상기 방법들에 따르면, 따라서, 표적 핵산의 변형은, 시험관에서 및 무-세포 환경에서 수행될 수 있다. 무-세포 환경에서, 각각의 표적 핵산, Cas 단백질 및 표적 RNA 분자의 첨가는, 동시에, 순차적으로 (원하는 대로 임의의 순서로) 또는 개별적으로 이루어질 수 있다. 따라서, 표적 핵산 및 표적 RNA를 반응 혼합물에 동시에 첨가한 다음, 본 발명의 Cas 단백질 또는 폴리펩티드를 후속 단계에서 개별적으로 첨가하는 것이 가능하다.

마찬가지로, 표적 핵산의 변형은, 단리된 세포인지 또는 다세포 조직, 기관 또는 유기체의 일부인지를 불문하고, 생체내에서, 즉 세포에서 인시튜로 이루어질 수 있다. 전체 조직 및 기관의 맥락, 및 유기체의 맥락에서, 상기 방법은 바람직하게는 생체 내에서 수행될 수 있거나, 또는 선택적으로, 전체 조직, 기관 또는 유기체 유래의 세포를 단리하는 단계, 상기 방법에 따라 리보핵산 단백질 복합체로 세포를 처리하는 단계, 및 나중에 리보핵산 단백질 복합체로 처리된 세포를, 같거나 또는 다른 유기체 내에서, 이의 이전 위치 또는 다른 위치로 복귀시키는 단계에 의해 수행될 수 있다.

이들 구체 예에서, 리보핵산 단백질 복합체 또는 Cas 단백질 또는 폴리펩티드는, 세포 내로 적절한 형태의 전달을 요구한다. 이러한 적절한 전달 시스템 및 방법은, 당업자에게 잘 알려져 있으며, 및 세포질 또는 핵 미세주입을 포함하지만, 이에 제한되는 것은 아니다. 바람직한 전달 방식에서, 아데노-연관 바이러스 (AAV)는 사용되고; 이 전달 시스템은, 사람에게 질병을 일으키지 않으며, 유럽에서 임상적 용도로 승인되었다.

따라서, 본 발명은:

a. 전술된 바와 같은 리보핵산 단백질 복합체; 또는

b. 전술된 바와 같은 단백질 또는 단백질 복합체 및 전술된 바와 같은 RNA 분자와 핵산을 접촉시키는 단계를 포함하는 표적 핵산을 변형시키는 방법을 제공한다.

또 다른 관점에서, 본 발명은 전술된 바와 같은 리보핵산 단백질 복합체를 코딩하는 뉴클레오티드 서열을 포함하는 발현 벡터로 세포를 형질전환, 형질주입, 또는 형질도입하는 단계를 포함하는, 세포에서 표적 핵산을 변형시키는 방법을 제공하거나; 또는 선택적으로 전술된 바와 같은 단백질 또는 단백질 복합체를 코딩하는 뉴클레오티드 서열을 포함하는 발현 벡터 및 전술된 바와 같은 표적 RNA 분자를 코딩하는 뉴클레오티드 서열을 포함하는 추가 발현 벡터로 세포를 형질전환, 형질주입 또는 형질도입시키는 단계를 포함한다.

또 다른 관점에서, 본 발명은, 전술된 바와 같은 단백질 또는 단백질 복합체를 코딩하는 뉴클레오티드 서열을 포함하는 발현 벡터로 세포를 형질전환, 형질주입 또는 형질도입하는 단계, 및 그 다음 전술된 바와 같이 표적 RNA 분자를 세포 내로 운반하는 단계를 포함하는 표적 핵산을 변형시키는 방법을 제공한다.

가이드 (즉, 표적) RNA (gRNA) 분자 및 Cas 단백질 또는 폴리펩티드가 리보핵산 단백질 복합체의 일부로서가 아닌 별도로 제공되는 구체 예에서, gRNA 분자는, Cas 단백질 또는 단백질 복합체와 동시에, 개별적으로 또는 순차적으로, 세포 내로 적절한 형태의 전달을 요구한다. 세포 내로 RNA를 도입시키는 이러한 형태는, 기술분야의 당업자에게 잘 알려져 있으며, 및 종래의 형질주입 방법을 통해 시험관 내 또는 생체 외 전달을 포함할 수 있다. 미세주입 (microinjection) 및 전기천공법 (electroporation)과 같은, 물리적 방법뿐만 아니라 칼슘 공-침전, 및 상업적으로 이용 가능한 양이온성 중합체 및 지질, 및 세포-침투 펩티드, 세포-침투 (생물학적) 입자는, 각각 사용될 수 있다. 예를 들어, 바이러스, 특히 바람직하게는 AAV는, 본 발명의 Cas 단백질 복합체 또는 본 발명의 리보핵산 단백질 복합체의 (가역성) 융합을 통해, 세포질 및/또는 핵에 상관없이, 바이러스성 입자에 전달 비히클 (delivery vehicles)로서 사용될 수 있다.

또 다른 관점에서, 본 발명은 표적 핵산을 변형시키는 방법을 제공하며, 여기서, 적어도 하나의 기능성 모이어티는 마커 단백질 또는 리포터 단백질이고 및 상기 마커 단백질 또는 리포터 단백질은 표적 핵산과 결합하며; 바람직하게는 여기서, 상기 마커는 형광 단백질, 예를 들어, 녹색 형광 단백질 (GFP)이다.

표적 핵산을 변형시키는 전술된 방법에서, 기능성 모이어티는 마커일 수 있고, 상기 마커는 표적 핵산과 결합하며; 바람직하게는 여기서 상기 마커는 단백질; 선택적으로 형광 단백질, 예를 들면, 녹색 형광 단백질 (GFP), 황색 형광 단백질 (YFP), 적색 형광 단백질 (RFP) 또는 mCherry이다. 시험관 내, 생체 외 또는 생체 내를 불문하고, 본 발명의 방법은, 바람직하게는 슈퍼코일화된 플라스미드 또는 염색체와 같은, 고차 구조, 또는 mRNA과 같은 단일 가닥 표적 핵산의 형태로, 핵산 분자 내에 표적 유전자 자리를 직접적으로 시각화하는데 사용될 수 있다. 표적 유전자 자리의 직접 시각화는 전자 현미경 또는 형광 현미경을 사용할 수 있다. 그러나, 본 발명의 방법의 맥락에서, 다른 종류의 라벨이, 유기 염료 분자, 식별용 방사성 동위원소 및 소분자일 수 있는 스핀 라벨 (spin labels)을 포함하는 마커로서 사용될 수 있는 것으로 이해될 것이다.

표적 핵산이 dsDNA인 표적 핵산을 변형시키는 본 발명의 방법에서, 기능성 모이어티는 뉴클레아제 또는 헬리카제-뉴클레아제일 수 있고, 및 상기 변형은 바람직하게는 원하는 유전자 자리에서 단일 가닥 또는 이중 가닥 절단이다. 이러한 방식에서, DNA의 독특한 서열 특이적 절단은, 리보핵산 단백질 복합체에 융합된 적절한 기능성 모이어티를 사용함으로써 조작될 수 있다. 최종 리보핵산 단백질 복합체의 RNA 성분의 선택 서열은, 기능성 모이어티의 작용을 위한 원하는 서열 특이성을 제공한다.

따라서, 본 발명은 또한 dsDNA 분자로부터 뉴클레오티드 서열의 적어도 일부를 제거하기 위해; 선택적으로 유전자 또는 유전자들의 기능을 녹아웃되게 하기 위해, 원하는 유전자 자리에 세포에서 dsDNA 분자의 비-상동 말단 재조합 (non-homologous end joining) 방법을 제공하며; 여기서, 상기 방법은 전술된 바와 같은 표적 핵산을 변형시키는 방법들 중 어느 하나를 사용하여 이중 가닥 절단을 만드는 단계를 포함한다.

본 발명은 기존의 뉴클레오티드 서열을 변형시키거나 또는 원하는 뉴클레오티드 서열을 삽입하기 위해 원하는 유전자 자리에 세포에서 dsDNA 분자 내로 핵산의 상동성 재조합시키는 더욱 방법을 제공하며, 여기서, 상기 방법은 전술된 바와 같은 표적 핵산을 변형시키는 방법들 중 어느 하나를 사용하여 원하는 유전자 자리에 이중 가닥 절단을 만드는 단계를 포함한다.

따라서, 본 발명은 또한 전술된 방법들 중 어느 하나에 따라 표적 핵산 서열을 변형시키는 단계를 포함하는 유기체에서 유전자 발현을 변형시키는 방법을 제공하며, 여기서, 상기 핵산은 dsDNA이고 및 기능성 모이어티는 DNA 변형 효소 (예를 들어, 메틸라아제 또는 아세틸라제), 전사 활성인자 또는 전사 억제인자로부터 선택된다.

본 발명은 부가적으로 전술된 방법들 중 어느 하나에 따라 표적 핵산 서열을 변형시키는 단계를 포함하는 유기체에서 유전자 발현을 변형시키는 방법을 제공하며, 여기서, 상기 핵산은 mRNA이고, 및 기능성 모이어티는 리보뉴클레아제이며; 선택적으로 엔도뉴클레아제, 3' 엑소뉴클레아제 또는 5' 엑소뉴클레아제로부터 선택된다.

여기에 기재된 본 발명의 방법의 임의의 관점에서, 표적 핵산은 DNA, RNA 또는 합성 핵산일 수 있다. 바람직하게는, 표적 핵산은 DNA; 바람직하게는 dsDNA이다.

그러나, 표적 핵산은 RNA; 바람직하게는 mRNA일 수 있다. 따라서, 선택적으로, 본 발명은 또한 표적 핵산을 변형시키는 방법을 제공하며, 여기서 상기 표적 핵산은 RNA이다.

또 다른 관점에서, 본 발명은 표적 핵산을 변형시키는 방법을 제공하며, 여기서, 핵산은 dsDNA이고, 적어도 하나의 기능성 모이어티는 뉴클레아제 또는 헬리카제-뉴클레아제이며, 및 상기 변형은 원하는 유전자 자리에서 단일-가닥 또는 이중-가닥 절단이다.

또 다른 관점에서, 본 발명은 세포에서 표적 핵산을 변형시키는 방법을 제공하며, 여기서 변형은 원하는 유전자 자리에서 유전자 발현의 침묵을 결과하고; 및 여기서 상기 방법은;

a. dsDNA 분자에서 이중-가닥 절단을 만드는 단계; 및

b. 비-상동 말단 재조합 (NHEJ)에 의해 세포에서 dsDNA 분자의 수리 단계를 포함한다.

또 다른 관점에서, 본 발명은 세포에서 표적 핵산을 변형시키는 방법을 제공하며; 여기서, 기존의 뉴클레오티드 서열이 변형 또는 결손되고 및/또는 원하는 뉴클레오티드 서열이 원하는 위치에 삽입되며, 여기서 상기 방법은:

a. 원하는 유전자 자리에서 이중 가닥 절단을 만드는 단계; 및

b. 상동성 재조합에 의해 세포에서 dsDNA 분자의 수리 단계를 포함한다.

또 다른 관점에서, 본 발명은 전술된 바와 같은 표적 핵산 서열을 변형하는 단계를 포함하는 세포에서 유전자 발현을 변형시키는 방법을 제공하고; 여기서, 상기 핵산은 dsDNA이며, 및 상기 기능성 모이어티는 DNA 변형 효소 (예를 들어, 메틸라아제 또는 아세틸라제), 전사 활성인자 또는 전사 억제인자로부터 선택된다.

또 다른 관점에서, 본 발명은 전술된 바와 같은 표적 핵산 서열을 변형시키는 단계를 포함하는 세포에서 유전자 발현을 변형시키는 방법을 제공하며, 여기서, 상기 핵산은 mRNA이고 및 기능성 모이어티는 리보뉴클레아제이며; 선택적으로 엔도뉴클레아제, 3' 엑소뉴클레아제 또는 5' 엑소뉴클레아제로부터 선택된다.

또 다른 관점에서, 본 발명은 전술된 바와 같은 표적 핵산을 변형시키는 방법을 제공하며, 여기서 상기 방법은 50℃ 내지 100℃의 온도에서 수행된다. 바람직하게는, 상기 방법은 60℃ 이상의 온도에서 수행된다. 좀 더 바람직하게는, 상기 방법은 60℃ 내지 80℃의 온도에서 수행한다. 최적으로, 상기 방법은 60℃ 내지 65℃의 온도에서 수행된다.

전술된 표적 핵산을 변형시키는 방법 중 어느 하나에서, 세포는 원핵세포일 수 있거나, 또는 선택적으로, 진핵세포일 수 있다.

숙주 세포 (Host Cells)

유리하게는, 본 발명은 광범위한 적용성이 있고, 본 발명의 숙주 세포는 배양될 수 있는 임의의 유전적으로 다루기 쉬운 유기체로부터 유래될 수 있다. 따라서, 본 발명은 전술된 바와 같은 방법으로 형질전환된 숙주 세포를 제공한다.

적절한 숙주 세포는 원핵세포 또는 진핵세포일 수 있다. 특히, 흔히 사용되는 숙주 세포는, 유전적으로 접근 가능하고, 배양될 수 있는 원핵세포 또는 진핵세포, 예를 들어. 원핵세포, 진균 세포, 식물 세포 및 (배아 줄기세포를 제외한) 인간 세포를 포함하는 동물 세포를 포함하는 본 발명에 따른 사용을 위해 선택될 수 있다. 바람직하게는, 숙주 세포는 원핵세포, 진균 세포, 식물 세포, 원생 세포 또는 동물 세포로부터 선택될 것이다. 높은 성장 속도를 통상적으로 나타내는 종으로부터 흔히 유래되는 본 발명에 따른 사용에 바람직한 숙주 세포는, 쉬게 배양 및/또는 형질전환되고, 짧은 세대 시간을 나타내며, 그들과 관련된 확립된 유전자원 (genetic resources)을 갖는 종들 또는 특정 조건하에서 이종 단백질의 최적 발현을 위해 선택, 변형 또는 합성되는 종들이다. 관심의 단백질이 궁극적으로 특정 산업적, 농업적, 화학적 또는 치료적 배경에 사용되는 본 발명의 바람직한 구체 예에서, 적절한 숙주 세포는, 관심의 단백질이 효율적으로 사용되는 원하는 특별한 조건 또는 세포내 상황에 기초하여 선택될 수 있다. 바람직하게는, 숙주 세포는 원핵세포일 것이다. 바람직한 구체 예에서, 숙주 세포는 박테리아 세포이다. 숙주 세포는, 예를 들어, 대장균 (Escherichia coli) 세포일 수 있다. 바람직하게는, 상기 숙주 세포는 호열성 박테리아의 세포일 것이다.

이하는 본 발명에 따라 사용된 Cas 단백질의 폴리뉴클레오티드 및 아미노산 서열이다.

[SEQ ID NO: 1] Geobacillus thermodenitrificans T12 Cas9 단백질 AA 서열

VSHDNNFSLRSIGSRTLKRFEKYQVDVLGNIYKVRGEKRVGVASSSHSKAGETIRPL*

[SEQ ID NO: 7] Geobacillus thermodenitrificans T12 Cas9 DNA 서열

ATGAAGTATAAAATCGGTCTTGATATCGGCATTACGTCTATCGGTTGGGCTGTCATTAATTTGGACATTCCTCGCATCGAAGATTTAGGTGTCCGCATTTTTGACAGAGCGGAAAACCCGAAAACCGGGGAGTCACTAGCTCTTCCACGTCGCCTCGCCCGCTCCGCCCGACGTCGTCTGCGGCGTCGCAAACATCGACTGGAGCGCATTCGCCGCCTGTTCGTCCGCGAAGGAATTTTAACGAAGGAAGAGCTGAACAAGCTGTTTGAAAAAAAGCACGAAATCGACGTCTGGCAGCTTCGTGTTGAAGCACTGGATCGAAAACTAAATAACGATGAATTAGCCCGCATCCTTCTTCATCTGGCTAAACGGCGTGGATTTAGATCCAACCGCAAGAGTGAGCGCACCAACAAAGAAAACAGTACGATGCTCAAACATATTGAAGAAAACCAATCCATTCTTTCAAGTTACCGAACGGTTGCAGAAATGGTTGTCAAGGATCCGAAATTTTCCCTGCACAAGCGTAATAAAGAGGATAATTACACCAACACTGTTGCCCGCGACGATCTTGAACGGGAAATCAAACTGATTTTCGCCAAACAGCGCGAATATGGGAACATCGTTTGCACAGAAGCATTTGAACACGAGTATATTTCCATTTGGGCATCGCAACGCCCTTTTGCTTCTAAGGATGATATCGAGAAAAAAGTCGGTTTCTGTACGTTTGAGCCTAAAGAAAAACGCGCGCCAAAAGCAACATACACATTCCAGTCCTTCACCGTCTGGGAACATATTAACAAACTTCGTCTTGTCTCCCCGGGAGGCATCCGGGCACTAACCGATGATGAACGTCGTCTTATATACAAGCAAGCATTTCATAAAAATAAAATCACCTTCCATGATGTTCGAACATTGCTTAACTTGCCTGACGACACCCGTTTTAAAGGTCTTTTATATGACCGAAACACCACGCTGAAGGAAAATGAGAAAGTTCGCTTCCTTGAACTCGGCGCCTATCATAAAATACGGAAAGCGATCGACAGCGTCTATGGCAAAGGAGCAGCAAAATCATTTCGTCCGATTGATTTTGATACATTTGGCTACGCATTAACGATGTTTAAAGACGACACCGACATTCGCAGTTACTTGCGAAACGAATACGAACAAAATGGAAAACGAATGGAAAATCTAGCGGATAAAGTCTATGATGAAGAATTGATTGAAGAACTTTTAAACTTATCGTTTTCTAAGTTTGGTCATCTATCCCTTAAAGCGCTTCGCAACATCCTTCCATATATGGAACAAGGCGAAGTCTACTCAACCGCTTGTGAACGAGCAGGATATACATTTACAGGGCCAAAGAAAAAACAGAAAACGGTATTGCTGCCGAACATTCCGCCGATCGCCAATCCGGTCGTCATGCGCGCACTGACACAGGCACGCAAAGTGGTCAATGCCATTATCAAAAAGTACGGCTCACCGGTCTCCATCCATATCGAACTGGCCCGGGAACTATCACAATCCTTTGATGAACGACGTAAAATGCAGAAAGAACAGGAAGGAAACCGAAAGAAAAACGAAACTGCCATTCGCCAACTTGTTGAATATGGGCTGACGCTCAATCCAACTGGGCTTGACATTGTGAAATTCAAACTATGGAGCGAACAAAACGGAAAATGTGCCTATTCACTCCAACCGATCGAAATCGAGCGGTTGCTCGAACCAGGCTATACAGAAGTCGACCATGTGATTCCATACAGCCGAAGCTTGGACGATAGCTATACCAATAAAGTTCTTGTGTTGACAAAGGAGAACCGTGAAAAAGGAAACCGCACCCCAGCTGAATATTTAGGATTAGGCTCAGAACGTTGGCAACAGTTCGAGACGTTTGTCTTGACAAATAAGCAGTTTTCGAAAAAGAAGCGGGATCGACTCCTTCGGCTTCATTACGATGAAAACGAAGAAAATGAGTTTAAAAATCGTAATCTAAATGATACCCGTTATATCTCACGCTTCTTGGCTAACTTTATTCGCGAACATCTCAAATTCGCCGACAGCGATGACAAACAAAAAGTATACACGGTCAACGGCCGTATTACCGCCCATTTACGCAGCCGTTGGAATTTTAACAAAAACCGGGAAGAATCGAATTTGCATCATGCCGTCGATGCTGCCATCGTCGCCTGCACAACGCCGAGCGATATCGCCCGAGTCACCGCCTTCTATCAACGGCGCGAACAAAACAAAGAACTGTCCAAAAAGACGGATCCGCAGTTTCCGCAGCCTTGGCCGCACTTTGCTGATGAACTGCAGGCGCGTTTATCAAAAAATCCAAAGGAGAGTATAAAAGCTCTCAATCTTGGAAATTATGATAACGAGAAACTCGAATCGTTGCAGCCGGTTTTTGTCTCCCGAATGCCGAAGCGGAGCATAACAGGAGCGGCTCATCAAGAAACATTGCGGCGTTATATCGGCATCGACGAACGGAGCGGAAAAATACAGACGGTCGTCAAAAAGAAACTATCCGAGATCCAACTGGATAAAACAGGTCATTTCCCAATGTACGGGAAAGAAAGCGATCCAAGGACATATGAAGCCATTCGCCAACGGTTGCTTGAACATAACAATGACCCAAAAAAGGCGTTTCAAGAGCCTCTGTATAAACCGAAGAAGAACGGAGAACTAGGTCCTATCATCCGAACAATCAAAATCATCGATACGACAAATCAAGTTATTCCGCTCAACGATGGCAAAACAGTCGCCTACAACAGCAACATCGTGCGGGTCGACGTCTTTGAGAAAGATGGCAAATATTATTGTGTCCCTATCTATACAATAGATATGATGAAAGGGATCTTGCCAAACAAGGCGATCGAGCCGAACAAACCGTACTCTGAGTGGAAGGAAATGACGGAGGACTATACATTCCGATTCAGTCTATACCCAAATGATCTTATCCGTATCGAATTTCCCCGAGAAAAAACAATAAAGACTGCTGTGGGGGAAGAAATCAAAATTAAGGATCTGTTCGCCTATTATCAAACCATCGACTCCTCCAATGGAGGGTTAAGTTTGGTTAGCCATGATAACAACTTTTCGCTCCGCAGCATCGGTTCAAGAACCCTCAAACGATTCGAGAAATACCAAGTAGATGTGCTAGGCAACATCTACAAAGTGAGAGGGGAAAAGAGAGTTGGGGTGGCGTCATCTTCTCATTCGAAAGCCGGGGAAACTATCCGTCCGTTATAA

상세한 설명

실시 예 1: G. thermodenitrificans의 분리

G. thermodenitrificans는, 놀랍게도 혐기성 조건하에서 리그노셀룰로스 기질을 분해할 수 있는 호열성 생물에 대한 ±500 분리주 (isolates)의 라이브러리의 검색 동안에 발견되었다. 처음에, ±500 분리주의 라이브러리는 확립되고, 셀룰로오스 및 크실란 상에 분리에 의한 여러 차례의 선택 라운드 후에 110 분리주에 이르기까지 조정된다. 110 분리주의 라이브러리는, 라이브러리의 79%를 나타내는 G. thermodenitrificans와 함께, Geobacillus 분리주 만으로 이루어진다.

단리된 G. thermodenitrificans 균주는 T12로 명명된다.

실시 예 2: Geobacillus thermodenitrificans에서 Cas9에 대한 필수적인 공통 서열 (consensus sequences)을 한정

다음의 데이터베이스 검색 및 정렬은 수행된다:

pBLAST 및 nBLAST는 G. thermodenitrificans T12의 단백질 또는 유전자 서열이 의문의 서열 (query sequence)로서 사용되는, 사내의 BLAST 서버상에서 수행된다. 이 데이터베이스는 2014년 5월에 최종 업데이트되었으며, 따라서 가장 최근에 추가된 Geobacillus 게놈을 함유하지 않지만, 보통 온라인 BLAST는 T12 서열의 공개를 방지하는데 사용되지 않는다. 이것의 가장 관련 서열 (40% 초과의 서열 동일성은 도 1에 포함됨)인, 엑셀 형식의 사내 pBLAST의 결과에 대한 부록 1을 참조.

더 최근의 서열 데이터를 포함하기 위해, (T12 Cas9에 가장 밀접하게 관련된) Geobacillus MAS1의 서열은, NCBI 웹사이트에서 PSI-BLAST를 수행하는데 사용된다 (Johnson et al., 2008 Nucleic Acids Res. 36(Web Server issue): W5-9). PSI-BLAST의 2회 연속적인 라운드는 수행되며, 여기서, 하기의 기준에 부합하는 서열만이 다음 라운드에 사용된다: 제1라운드에서 96% 및 제2 및 제3라운드에서 97%의 최소 서열 커버리지, 최소 동일성 40%, 종에 대하여 오직 하나의 가닥.

PSI-BLAST에서 결과하는 서열뿐만 아니라, PSI-BLAST에 나타나지 않은 내부 서버 pBLAST로부터 T12와 40% 초과의 동일성을 갖는 서열은, 현재 잘-특징화된 중온 성 서열 및 현재 확인된 모든 호열성 서열과 함께, 이들이 더 먼 관계인 경우도, 정열되며, 이로부터 근린-결합 트리는 구성된다 (도 1 참조). 정렬은 ClustalW를 사용하여 Mega6에서 수행되고, 그 이후 트리는 근린-결합 방법을 사용하여 구성되며, 부트스트랩 분석은 1000 복제를 사용하여 수행된다.

BLASTn이 의문의 서열로 Geobacillus sp. MAS1을 사용하여 수행된 경우, 오직 Geobacillus sp. JF8 Cas9는 88%의 동일성으로 확인되어, 유전자 수준에서 거의 적은 상동성을 나타낸다. 도 2는 클러스탈-정렬된 (Clustal-aligned) Cas9 유전자 서열의 근린-결합 트리이다.

G. thermodenitrificans T12, A. naeslundii 및 S. pyogenes의 단백질 서열은, BLOSUM62를 기본 설정으로 사용하여 CloneManager에서 이들을 정렬하여 단백질 도메인 상동성을 위해 더욱 분석된다 (도 3 참조).

실시 예 3: CAS9의 기능에 필수적인 코어 아미노산 모티프 및 호열성 Cas9 뉴클레아제에서 열 안정성을 부여하는 아미노산 모티프의 확인.

전술된 정렬된 단백질 서열의 퍼센트 동일성은 도 1에 제공된다. T12-Cas9는 타입 Ⅱ-C에 속한다. 타입 Ⅱ-C 시스템의 최상으로-연구되고 최근에 결정화된 구조는, Actinomyces naeslundii에서 유래된다 (Jinek et al., 2014, Science 343: 1247997). 이 단백질 서열은 T12-Cas9에 대해 단지 20%의 동일성을 나타내지만, 고도로 보존된 잔기를 추정하는데 사용될 수 있다. 두 개의 잘-특징화된 타입 Ⅱ-A 시스템 (S. pyogenes 및 S. thermophilus)은 또한 분석에 포함된다 (Jinek et al., 2014, Science 343: 1247997; Nishimasu et al., 2014, Cell 156: 935-949). 이들 4개의 단백질 서열의 정렬은, 도 3에 나타내고; 도 4는 A. naeslundii ('Ana-Cas9')에 대해 결정된 바와 같은 단백질 아키텍쳐를 나타낸다 (Jinek et al., 2014, Science 343: 1247997). t12 및 Actinomyces naeslundii 유래의 Cas9의 길이는 매우 유사하고 (A. naeslundii 1101 aa, T12 1082 aa) 및 T12는 유사한 단백질 아키텍쳐를 가질 것으로 예상되지만, 이것은, cas9-Ana에 대한 전체 서열 동일성이 단지 20%인 것으로, 여전히 결정되는 것이다. A. naeslundii 및 S. pyogenes 유래의 Cas9에서 Jinek et al. (Jinek et al., 2014, Science 343: 1247997)에 의해 기재된 모든 활성 부위 잔기는 T12-Cas9에서 확인될 수 있다 (도 3 참조). PAM-결합 도메인은, 임의의 타입 Ⅱ-C 시스템이 아니라, S. pyogenes 타입 Ⅱ-A 시스템에 대해 결정되며, 따라서 S. pyogenes 서열에서만 나타난다. 게다가, PAM-인식 부위는, CRISPR 시스템들 사이뿐만 아니라 동일한 시스템을 함유하는 종들 사이에서도, 강하게 변한다. PAM에 대한 더 많은 정보에 대해서는 질문 4 및 향후 계획을 참조.

실시 예 4: G. thermodenitrificans T12 Cas9의 PAM 서열의 결정

원핵생물 CRISPR 시스템이 적응 면역 시스템으로 이들의 숙주를 제공하고 (Jinek et al., 2012, Science 337: 816-821) 및 신속하고 효과적인 유전 공학을 위해 사용될 수 있음이 규명되었다 (Mali et al., 2013, Nat Methods 10: 957-963.).

Cas9 단백질은 타입 Ⅱ CRISPR 시스템에 대한 서열-특이적 뉴클레아제로서 기능한다 (Makarova et al., 2011, Nat Rev Micro 9: 467-477). 반복 영역에 연결된 "스페이서" (표적)로 이루어진, 작은 crRNA 분자는, CRISPR 유전자 자리의 전사 및 공정 산물 (processing products)이다. "스페이서"는 박테리오파지 및 이동 유전 요소의 게놈에서 자연적으로 유래하지만, 이들은 또한 유전 공학 공정 동안, 특이적 핵산 서열을 표적으로 하도록 디자인될 수도 있다 (Bikard et al., 2013, Nucleic Acids Research 41: 7429-7437). crRNA 분자는 Cas9에 의해 이들의 DNA 표적의 확인을 위한 가이드로 사용된다. 상기 스페이서 영역은 절단 DNA 영역인, "프로토스페이서"에 대한 표적화와 동일하다 (Brouns et al., 2012, Science 337: 808-809). 프로토스페이서 다음에, PAM (Protospacer Adjacent Motif)은, Cas9에 의한 표적의 인지를 위해 요구된다 (Jinek et al., 2012, Science 337: 816-821).

실시 예 5: 무작위적 PAM으로 표적 발생

G. thermodenitrificans T12 균주의 CRISPR Ⅱ 유전자 자리로부터 두 개의 다른 스페이서는, 주형으로서 G. thermodenitrificans T12 게놈 DNA를 사용하여 PCR로 증폭된다. 2쌍의 퇴행성 프라이머 (degenerate primers)는 각 스페이서의 증폭을 위해 사용된다:

먼저, "프로토스페이서" 단편의 업스트림에 6개의 무작위 뉴클레오티드의 도입을 일으키는 쌍은 사용되어, 무작위적 PAM 서열을 갖는 프로토스페이서의 풀 (pool)의 생산을 유도한다.

둘째로, "프로토스페이서" 단편의 다운스트림에 6개의 무작위 뉴클레오티드의 도입을 일으키는 쌍은 사용되어, 무작위적 PAM 서열을 갖는 프로토스페이서의 풀의 생산을 유도한다.

생산된 단편은 pNW33n 벡터에 연결하여, 6-뉴클레오티드 길이의 각 PAMs의 모든 가능한 4096의 다른 조합으로, "프로토스페이서" 구조물의 4 풀을 생성한다. 조립된 DNA는 G. thermodenitrificans T12 세포의 형질전환을 위해 사용된다. 세포는 클로람페니콜 선택 (chloramphenicol selection) 상에 평판 배양되고 및 각 프로토스페이서 풀로부터 2 x 10⁶개 이상의 세포는 풀이 될 (pooled) 것이다. 플라스미드 DNA는 풀로부터 추출되고, 표적 영역은 PCR 증폭될 것이며, 생성물은 딥 시퀀싱 (deep sequencing)을 위해 보낸다. 가장 적은 읽기 (reads)를 갖는 PAMs은 활성인 것으로 고려될 것이고 및 상기 공정은 이들 PAMs을 갖는 스페이서를 함유하는 pNW33n 구조물만을 사용하여 반복될 것이다. G. thermodenitrificans T12의 감소된 형질전환 효율은, PAM의 활성을 확인할 것이다.

실시 예 6. Geobacillus thermodenitrificans Cas9에 대한 기능적 온도 범위.

현재까지 공개적으로 이용 가능한 임의의 Cas9 단백질에 대해 온도 범위 실험은 실시된 바 없다. 연구에 사용된 Cas9 단백질은, 숙주 유기체 Streptococcus pyogenes (ATCC_700294)에 대해 45℃의 최대 성장 온도를 갖는 중온성 기원을 모두 갖는다.

여기서, Geobacillus thermodenitrificans 유래의 Cas9가 안정하고 기능적인 온도 범위 및 이의 활성이 최적인 또 다른 온도는, 실험적으로 결정된다. 더군다나, 다른 Geobacillus 종 유래의 Cas9 뉴클레아제의 기능적 및 바람직한 온도 범위는 또한 결정된다.

Geobacillus thermodenitrificans T12 Cas9 뉴클레아제의 온도 범위는, 단일 가이드 RNA (sgRNA)를 사용하여 시험관 내에서 결정된다. 상기 sgRNA는 단일 키메라 전사물 (chimeric transcript) 내에 내인성 박테리아 crRNA 및 tracrRNA로 이루어지고, 및 20개의 염기쌍 (bp) 표적 서열이 앞에 놓인, crRNA: tracrRNA 백본을 함유하는 pT7 클로닝 벡터를 활용하여 생성된다 (Jao et al. 2013, PNAS 110: 13904-13909). 표적 서열은 20 bp 표적으로 시작하여 (실시 예 4로부터 유래된) T12 PAM 서열로 종료한다. 원하는 단일 표적 sgRNA는, 플라스미드를 선형화시킨 후에 T7 프로모터로부터 시험관에서 전사에 의해 발생된다. 표준 클로닝 벡터 pUC19는, 시험관 활성 분석에서 표적으로 사용된다. 플라스미드에서 표적 부위 (20nt + PAM)는, sgRNA 클로닝 벡터 내로 결찰되고 어닐링된, 2개의 상보적인 올리고체 (complementary oligos)에 의해 구성된다. 생성된 sgRNA는 T12의 Cas9 뉴클레아제와 함께 20℃ 내지 100℃의 온도 범위에서 배양된다. Cas9 절단 활성은 아가로스 겔 전기영동에 의해 분석된다.

여기서 단리되고 특징화된 유기체 (T12)는, 65℃의 최적 성장 온도를 가지며, 이는 또한 이의 Cas9 단백질의 최적 온도를 나타낸다. 활성 온도 범위는, 20℃ 내지 100℃, 특히 20℃ 내지 80℃일 것이다.

Geobacillus 종 유래의 Cas9 최적 온도 범위는, 현재까지 특징화된 Cas9 단백질의 온도 범위보다 훨씬 높다. 유사하게, 이것이 뉴클레아제 활성을 보유하는 범위의 상한은, 공지된 Cas9 단백질의 것보다 훨씬 높다. 더 높은 최적 온도 및 기능적 범위는, 고온의 유전 공학에서 상당한 장점을 제공하며, 따라서 상승된 온도에서 수행된 다양한 산업적, 농업적 및 제약적 공정에서 유용성을 갖는, 호열성 유기체의 게놈을 편집하는데, 상당한 장점을 제공한다.

Claims

SEQ ID NO: 1의 아미노산 서열 또는 이 서열과 적어도 77% 동일성을 갖는 단리된 Cas 단백질 또는 폴리펩티드 단편으로, 여기서, 상기 Cas 단백질은, 표적 서열을 인지하는 적어도 하나의 RNA 분자와 결합하는 경우, 50℃ 내지 100℃에서 표적 핵산 서열을 포함하는 폴리뉴클레오티드를 절단할 수 있는, 단리된 Cas 단백질 또는 폴리펩티드 단편.
청구항 1에 있어서,
상기 Cas 단백질 또는 단편은, 50℃ 내지 75℃, 바람직하게는 60℃ 이상, 좀 더 바람직하게는 60℃ 내지 80℃; 더욱 바람직하게는 60℃ 내지 65℃에서 핵산 절단할 수 있는, 단리된 Cas 단백질 또는 폴리펩티드 단편.
청구항 1 또는 2에 있어서,
상기 핵산 절단은, DNA 절단인, 단리된 Cas 단백질 또는 폴리펩티드 단편.
전술한 청구항 중 어느 한 항에 있어서,
상기 Cas 단백질은, 박테리아, 고세균류 또는 바이러스로부터 얻을 수 있는, 단리된 Cas 단백질 또는 폴리펩티드 단편.
전술한 청구항 중 어느 한 항에 있어서,
상기 Cas 단백질은, 지오바실러스 속, 바람직하게는 지오바실러스 써모데니트리피칸스로부터 얻을 수 있는, 단리된 Cas 단백질 또는 폴리펩티드 단편.
전술한 청구항 중 어느 한 항에 따른 Cas 단백질을 포함하고, 및 표적 폴리뉴클레오티드에서 서열을 인지하는 적어도 하나의 표적 RNA 분자를 포함하는, 리보핵산 단백질 복합체.
청구항 6에 있어서,
상기 표적 RNA 분자는, crRNA 및 선택적으로 tracrRNA를 포함하는, 리보핵산 단백질 복합체.
청구항 6 또는 7에 있어서,
적어도 하나의 RNA 분자의 길이는, 35-135 뉴클레오티드 잔기 범위인, 리보핵산 단백질 복합체.
청구항 6 또는 7에 있어서,
상기 표적 서열은, 길이가 31 또는 32 뉴클레오티드 잔기인, 리보핵산 단백질 복합체.
청구항 1 내지 5중 어느 한 항에 따른 Cas 단백질 또는 폴리펩티드 또는 청구항 6 내지 9중 어느 한 항에 따른 리보핵산 단백질 복합체로서, 상기 단백질 또는 폴리펩티드는, 적어도 하나의 추가의 기능성 또는 비-기능성 단백질을 포함하는 단백질 복합체의 일부로 제공되는, Cas 단백질, 폴리펩티드, 또는 리보핵산 단백질 복합체.
청구항 10에 있어서,
상기 Cas 단백질 또는 폴리펩티드, 및/또는 적어도 하나의 추가의 단백질은, 적어도 하나의 기능성 모이어티를 더욱 포함하는, Cas 단백질, 폴리펩티드, 또는 리보핵산 단백질 복합체.
청구항 11에 있어서,
상기 적어도 하나의 기능성 모이어티는, Cas 단백질, 폴리펩티드 또는 리보핵산 단백질 복합체의 N-말단 및/또는 C-말단; 바람직하게는 N-말단에 융합 또는 연결되는, Cas 단백질, 폴리펩티드, 또는 리보핵산 단백질 복합체.
청구항 11 또는 12에 있어서,
상기 적어도 하나의 기능성 모이어티는: 헬리카제, 뉴클레아제, 헬리카제-뉴클레아제, DNA 메틸라아제, 히스톤 메틸라아제, 아세틸라제, 포스파타아제, 키나아제, 전사 활성인자, 전사 억제인자, DNA 결합 단백질, DNA 구조 단백질, 마커 단백질, 리포터 단백질, 형광 단백질, 리간드 결합 단백질, 신호 펩티드, 세포내 위치정보 서열, 항체 에피토프 또는 친화성 정제 태그로부터 선택적으로 선택된 단백질인, Cas 단백질, 폴리펩티드, 또는 리보핵산 단백질 복합체.
청구항 13에 있어서,
Cas9 뉴클레아제의 천연 활성은 불활성화되고, 및 상기 Cas 단백질은, 적어도 하나의 기능성 모이어티에 연결되는, Cas 단백질, 폴리펩티드, 또는 리보핵산 단백질 복합체.
청구항 13 또는 14에 있어서,
상기 적어도 하나의 기능성 모이어티는, 뉴클레아제 도메인; 바람직하게는 FokI 뉴클레아제 도메인인, Cas 단백질, 폴리펩티드, 또는 리보핵산 단백질 복합체.
청구항 13 내지 15중 어느 항 한에 있어서,
상기 적어도 하나의 기능성 모이어티는 마커 단백질인, Cas 단백질, 폴리펩티드, 또는 리보핵산 단백질 복합체.
SEQ ID NO: 1의 아미노산 서열 또는 이와 적어도 77% 동일성을 갖는 서열; 또는 그의 폴리펩티드 단편을 갖는, 일정한 간격을 두고 주기적으로 분포하는 짧은 회문구조 반복서열 (CRISPR)-관련 (Cas) 단백질을 코딩하는, 단리된 핵산 분자.
청구항 17에 있어서,
번역시에 Cas 단백질 또는 폴리펩티드와 융합되는 아미노산 서열을 코딩하는 적어도 하나의 핵산 서열을 더욱 포함하는, 단리된 핵산 분자.
청구항 18에 있어서,
상기 Cas 단백질 또는 폴리펩티드를 코딩하는 핵산 분자에 융합된 적어도 하나의 핵산 서열은, 헬리카제, 뉴클레아제, 헬리카제-뉴클레아제, DNA 메틸라아제, 히스톤 메틸라아제, 아세틸라제, 포스파타아제, 키나아제, 전사 활성인자, 전사 억제인자, DNA 결합 단백질, DNA 구조 단백질, 마커 단백질, 리포터 단백질, 형광 단백질, 리간드 결합 단백질, 신호 펩티드, 세포내 위치정보 서열, 항체 에피토프 또는 친화성 정제 태그로부터 선택된 단백질을 코딩하는, 단리된 핵산 분자.
청구항 17 내지 19중 어느 한 항에 따른 핵산 분자를 포함하는, 발현 벡터.
청구항 20에 있어서,
적어도 하나의 표적 RNA 분자를 코딩하는 뉴클레오티드 서열을 더욱 포함하는, 발현 벡터.
a. 청구항 6 내지 9중 어느 한 항의 리보핵산 단백질 복합체; 또는
b. 청구항 10 내지 16중 어느 한 항의 단백질 또는 단백질 복합체 및 청구항 4 내지 9중 어느 한 항에 정의된 적어도 하나의 표적 RNA 분자를,
핵산과 접촉시키는 단계를 포함하는 표적 핵산을 변형시키는 방법.
청구항 21의 발현 벡터로 세포를 형질전환, 형질주입 또는 형질도입시키는 단계; 청구항 20의 발현 벡터 및 청구항 4 내지 9중 어느 한 항에 정의된 바와 같은 표적 RNA 분자를 코딩하는 뉴클레오티드 서열을 포함하는 추가 발현 벡터로 세포를 선택적으로 형질전환, 형질주입 또는 형질도입하는 단계를 포함하는 세포에서 표적 핵산을 변형시키는 방법.
청구항 20의 발현 벡터로 세포를 형질전환, 형질주입 또는 형질도입시키는 단계, 및 그 다음 청구항 4 내지 9중 어느 한 항에 정의된 바와 같은 표적 RNA 분자를 세포로 또는 세포 내로 전달하는 단계를 포함하는 세포에서 표적 핵산을 변형시키는 방법.
청구항 22 내지 24중 어느 한 항에 있어서,
상기 적어도 하나의 기능성 모이어티는, 마커 단백질 또는 리포터 단백질이고, 및 상기 마커 단백질 또는 리포터 단백질은, 표적 핵산과 결합하며; 바람직하게는 상기 마커는, 형광 단백질, 예를 들어, 녹색 형광 단백질 (GFP)인, 표적 핵산을 변형시키는 방법.
청구항 22 내지 25중 어느 한 항에 있어서,
상기 표적 핵산은 DNA이고; 바람직하게는 dsDNA인, 표적 핵산을 변형시키는 방법.
청구항 22 내지 25중 어느 한 항에 있어서,
상기 표적 핵산은 RNA인, 표적 핵산을 변형시키는 방법.
청구항 26에 있어서,
상기 핵산은 dsDNA이고, 상기 적어도 하나의 기능성 모이어티는 뉴클레아제 또는 헬리카제-뉴클레아제이며, 및 상기 변형은 원하는 유전자 자리에서 단일-가닥 또는 이중-가닥 절단인, 표적 핵산을 변형시키는 방법.
청구항 23, 24, 26 또는 28중 어느 한 항에 따른 방법에 따라 원하는 유전자 자리에서 유전자 발현을 침묵시키는 방법.
청구항 23, 24, 26 또는 28중 어느 한 항에 따른 방법에 따라 원하는 위치에서 원하는 뉴클레오티드 서열을 변형 또는 결손 및/또는 삽입하는 방법.
청구항 22 내지 26중 어느 한 항의 방법에 따른 표적 핵산 서열을 변형시키는 단계를 포함하고, 여기서 상기 핵산은 dsDNA이고, 및 기능성 모이어티는, DNA 변형 효소 (예를 들어, 메틸라아제 또는 아세틸라제), 전사 활성자 또는 전사 억제인자로부터 선택되는, 세포에서 유전자 발현을 변형시키는 방법.
청구항 27의 방법에 따른 표적 핵산 서열을 변형시키는 단계를 포함하고, 여기서 상기 핵산은 mRNA이고, 및 기능성 모이어티는, 선택적으로 엔도뉴클레아제, 3' 엑소뉴클레아제 또는 5' 엑소뉴클레아제로부터 선택된, 리보뉴클레아제인, 세포에서 유전자 발현을 변형시키는 방법.
청구항 22 내지 32중 어느 한 항에 있어서,
상기 방법은, 50℃ 내지 100℃의 온도에서 수행되는, 유전자 발현을 변형시키는 방법.
청구항 33에 있어서,
상기 방법은, 60℃ 이상, 바람직하게는 60℃ 내지 80℃, 좀 더 바람직하게는 60℃ 내지 65℃의 온도에서 수행되는, 유전자 발현을 변형시키는 방법.
청구항 22 내지 34중 어느 한 항에 있어서,
상기 세포는 원핵세포인, 유전자 발현을 변형시키는 방법.
청구항 22 내지 35중 어느 한 항에 있어서,
상기 세포는 진핵세포인, 유전자 발현을 변형시키는 방법.
청구항 22 내지 33중 어느 한 항의 방법에 의해 형질전환된 숙주 세포.