KR20190104342A

KR20190104342A - 열안정성 cas9 뉴클레아제

Info

Publication number: KR20190104342A
Application number: KR1020197020534A
Authority: KR
Inventors: 존 반 더 우스트; 리차드 반 크라넨부르크; 엘리케 페나 보스마; 이오아니스 모우기아코스
Original assignee: 바게닝겐 유니버시테이트; 스티칭 부어 드 테크니쉐 웨텐샤펜
Priority date: 2016-12-14
Filing date: 2016-12-14
Publication date: 2019-09-09
Also published as: CN110382693B; EP3555278B1; WO2018108272A1; CN110431229B; EA201991442A1; US20220213455A1; AU2017377136A1; CN110382693A; KR102523543B1; BR112019012173A2; US11939605B2; WO2018108339A1; CA3046842A1; PH12019501335A1; US20210340532A1; KR20190104344A; PH12019501344A1; AU2017377135A1; JP2020510410A; EP3555276A1

Abstract

열안정성 Cas9 뉴클레아제. 본 발명은 유전 공학의 분야에 관한 것으로, 좀 더 구체적으로, 핵산 편집 및 게놈 변형에 관한 것이다. 본 발명은, SEQ ID NO: 1의 아미노산 서열 또는 이와 적어도 77% 동일성의 서열을 갖는 단리된 Cas 단백질 또는 이의 폴리펩티드 단편을 제공한다. 상기 Cas 단백질 또는 폴리펩티드는, 30℃ 내지 100℃ 범위의 온도에서 이중 가닥 표적 폴리뉴클레오티드를 결합, 절단, 표지 또는 변형시킬 수 있다. 본 발명은 상기 Cas9 뉴클레아제를 인코딩하는 단리된 핵산 분자, 발현 벡터 및 숙주 세포를 더욱 제공한다. 본 발명은 또한 Cas 단백질 또는 폴리펩티드에 의해 인식되는 PAM 서열을 제공한다. 여기에 개시된 Cas9 뉴클레아제는, 상승된 온도에서 유전 공학을 위한 새로운 도구를 제공하며, 및 호열성 유기체; 특히 미생물의 유전자 조작에서 특별한 가치가 있다.

Description

열안정성 CAS9 뉴클레아제

본 발명은 유전 공학 분야에 관한 것으로, 특히, 핵산 편집 (nucleic acid editing) 및 게놈 변형 (genome modification)에 관한 것이다. 본 발명은, 유전 물질의 서열-인도 부위-특이적 결합 (sequence-directed site-specific binding), 닉킹 (nicking), 절단 및 변형을 위해 구성될 수 있는 뉴클레아제 (nucleases); 또한, 유전 물질의 서열 특이적 부위에서 활성 (activity), 특히 뉴클레아제 활성을 작용하게 하는 리보핵산 단백질 (ribonucleoproteins), 및 마커 (markers)로서 사용하기 위한 변형된 뉴클레아제 및 리보핵산 단백질의 형태의 유전 공학 도구 (genetic engineering tools)에 관한 것이다. 따라서, 본 발명은 또한 세포 내에 가이드 RNAs (guide RNAs) 및 뉴클레아제의 전달 및 발현을 위한 관련 발현 구축물 (expression constructs)과 관련된다. 더욱이, 본 발명은 시험관 내 또는 생체 내에서 핵산의 서열-특이적 편집 및 이를 달성하는데 사용되는 방법과 관련된다. 본 발명이 관련된 특정 분야는, 호열성 유기체 (thermophilic organisms), 특히 미생물의 유전자 조작이다.

2007년에, CRISPR-Cas가 많은 박테리아 및 대부분의 고세균류 (archaea)에서 적응 면역계 (adaptive immune system)인 것은 처음 입증되었다 (Barrangou et al., 2007, Science 315: 1709-1712, Brouns et al., 2008, Science 321: 960-964). 기능적 및 구조적 기준에 기초하여, 3가지 타입의 CRISPR-Cas 시스템은 지금까지 특징화되었으며, 이들의 대부분은, 상보적인 DNA 서열을 표적으로 하기 위해 가이드로서 작은 RNA 분자를 사용한다 (Makarova et al., 2011, Nat Rev Microbiol 9: 467-477 Van der Oost et al., 2014, Nat Rev Microbiol 12: 479-492).

Doudna/Charpentier 실험실에 의한 최근의 연구에서, (특이적 스페이서 서열을 갖는) 디자인된 CRISPR RNA 가이드의 도입이, 플라스미드 (plasmids) 상에 상보적인 서열 (프로토스페이서 (protospacers))을 표적으로 삼아, 이 플라스미드의 이중 가닥 절단 (double strand breaks)을 유발하는 것의 입증을 포함하여, 타입 Ⅱ CRISPR-Cas 시스템 (Cas9)의 이펙터 효소 (effector enzyme)의 철저한 특징화 (thorough characterization)는, 수행되었다 (Jinek et al., 2012, Science 337: 816-821). Jinek et al., 2012 후에, Cas9는 게놈 편집을 위한 도구로 사용된다.

Cas9는 다양한 진핵세포 (예를 들어, 어류, 식물, 인간)의 게놈을 조작하는데 사용되어 왔다 (Charpentier and Doudna, 2013, Nature 495: 50-51).

부가적으로, Cas9는, 전용 재조합 이벤트 (dedicated recombination events) 동안 선택에 의해 박테리아에서 상동 재조합 (homologous recombination)의 수율을 개선하는데 사용되어 왔다 (Jiang et al., 2013, Nature Biotechnol 31: 233-239). 이를 달성하기 위해, 독성 단편 (toxic fragment) (표적화 구축물 (Targeting construct))은, 원하는 변화 (alteration)를 가지는 구출 단편 (rescuing fragment) (점 돌연변이 (point mutation) 또는 결손 (deletions)을 가지는, 편집 구축물)으로 동시-형질감염된다 (co-transfected). 상기 표적화 구축물은, 숙주 염색체상에 원하는 재조합의 부위를 규정하는, 항생제 내성 마커 및 디자인 CRISPR와 조합한 Cas9로 이루어지고; 상응하는 항생제의 존재하에서, 숙주 염색체에서 표적화 구축물의 인터그레이션 (integration)은 선택된다. 숙주 염색체상에 CRISPR 표적 부위를 갖는 편집 구축물의 부가적인 재조합이 일어날 때에만, 숙주는 자가-면역 문제로부터 벗어날 수 있다. 그러므로, 항생제의 존재하에서, 오직 원하는 (마커-부재) 돌연변이만이 생존하고, 성장할 수 있다. 염색체로부터 인터그레이션된 표적화 구축물의 후속적 제거를 위한 선택에 관련된 전략은, 또한 제시되어, 진정한 마커 부재 돌연변이 (genuine marker free mutant)를 발생시킨다.

최근에, CRISPR-Cas 매개 게놈 편집은, 유전 공학을 위한 유용한 도구를 구성하는 것으로 확립되었다. 원핵생물 CRISPR 시스템은, 이들의 숙주를 적응 면역 시스템으로서 제공하고 (Jinek et al., 2012, Science 337:816-821), 및 신속하고 효과적인 유전 공학을 위해 사용될 수 있어 (예를 들어, Mali et al., 2013, Nat Methods 10:957-963), 관심의 서열을 표적화하기 위해 가이드 서열의 변형만을 필요로 한다는 것이 확립되었다.

그러나, 유전 연구 및 게놈 편집의 분야에 적용을 위해 다양한 실험 조건하에서 개선된 서열-특이적 핵산 검출, 절단 (cleavage) 및 조작이 가능한 작용제 (agents)의 개발에 대한 계속적인 요구가 있다. 특히, Cas9를 포함하는, 현재 이용 가능한 서열-특이적 게놈 편집 도구는, 모든 조건 또는 유기체에서 사용하는데 적용 가능하지 않은데, 예를 들어, 서열-특이적 뉴클레아제는 상대적으로 열-민감성이고, 따라서 절대적 호열성 미생물 (41℃ 내지 122℃에서 성장할 수 있고, >45℃ 내지 80℃의 온도 범위에서 최적으로 성장할 수 있으며, 초호열성은 80℃ 위에서 최적으로 성장할 수 있음), 예를 들어, 시험관 내에서 상승된 온도에서 수행된 실험실 공정 동안 또는 산업적 발효에 사용되는 미생물에 사용하는데 적용 가능하지 않다.

지금까지, 호열성 미생물에서 활성 Cas9 단백질에 대한 실험적 증거는 없다. 박테리아에서 Cas9의 존재하에 Chylinski et al.에 의한 비교 게놈 스크리닝 (comparative genome screening) (2014; Nucleic Acids Research 42: 6091-61-05)에 기초하여, 타입 Ⅱ-C CRISPR-Cas 시스템은, 모든 박테리아 게놈의 대략 3.3%에만 존재하는 것으로 밝혀졌다. 호열성 박테리아 가운데, 타입 Ⅱ 시스템은, 통계 분석에 근거하여 불충분하게 나타난다 (P=0.0019). 부가적으로, 타입 Ⅱ 시스템은, 아직 고세균류에서 발견되지 않았지만, 이는 아마도 고세균류에서 (타입 Ⅱ 시스템과 관련된) RNase Ⅲ 단백질의 부재에 기인할 수 있다. Chylinski, et al., (2014; Nucleic Acids Research 42: 6091-6105)은, 타입 Ⅱ CRISPR-Cas 시스템의 분류 및 진화 (evolution)를 기재하고 있으며, 특히, 이들 시스템을 나타내는 두 개의 종들 (species)이 동정되었지만, 이들 종들은 55℃에서 최대로 성장하고, 80℃ 위에서 최적으로 성장할 수 있는 초호열성과 함께, 최적 성장 온도 60-80℃를 갖는 절대적 호열성 성장을 나타내지 않는다.

박테리아 게놈에서 CRISPR-Cas 시스템의 희소성 및, 특히 Cas9가 45℃ 아래에서 최적 성장 온도를 갖는 (고세균류가 아닌) 박테리아에서 단지 발견되었다는 사실에도 불구하고, 본 발명자들은 놀랍게도, 상승된 온도에서 게놈 편집이 수행되는 것을 가능하게 하는 몇 가지 열안정성 Cas9 변이체 (variants)를 발견했다. 본 발명자들은 또한 상승된 온도를 포함하는, 광범위한 온도 범위에 걸쳐 게놈 편집이 수행되는 것을 가능하게 하는 열안정성 Cas9 변이체와 함께 작동하는 최적화된 프로토스페이서 인근 모티프 (protospacer adjacent motif: PAM) 서열을 발견하였다. 이들 Cas9 뉴클레아제, 및 관련 PAM 서열의 지식으로 디자인된 RNA 분자는, 상승된 온도에서 유전 공학을 위한 새로운 도구를 제공하며, 및 호열성 유기체; 특히 미생물의 유전자 조작에서 특별한 가치가 있다.

따라서, 본 발명은, 하기를 포함하는 단리된 일정한 간격을 두고 주기적으로 분포하는 짧은 회문구조 반복서열 (CRISPR)-관련 (Cas) 단백질 또는 폴리펩티드 제공한다:

a. 아미노산 모티프 EKDGKYYC [SEQ ID NO: 2]; 및/또는

b. 아미노산 모티프 X₁X₂CTX₃X₄ [SEQ ID NO: 3], 여기서, X₁은 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되고, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되며, X₃는 글루타메이트 또는 리신으로부터 독립적으로 선택되고, 및 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나임; 및/또는

c. 아미노산 모티프 X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고, 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택됨; 및/또는

d. 아미노산 모티프 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고, X₈은 트립토판, 세린 또는 리신 중 하나임; 및/또는

e. 아미노산 모티프 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉은 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 라신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며, X₁₃은 리신 또는 세린이다.

본 발명의 맥락에서 폴리펩티드는, 전체 길이 Cas 단백질의 단편으로 고려될 수 있다. 이러한 단편은, 비활성일 수 있고, 및 유전 물질의 결합, 편집 및/또는 절단과 직접적으로 관련이 없는 방식으로 및 목적을 위해, 예를 들어, 분석법의 표준을 위해 또는 항체를 늘리기 위해 또는 이와 유사한 것을 위해 사용될 수 있다.

그러나, 바람직한 구체 예에서, Cas 단백질 또는 폴리펩티드는, 적어도 하나의 표적화 RNA 분자 (targeting RNA molecule), 및 상기 표적화 RNA 분자에 의해 인지된 표적 핵산 서열을 포함하는 폴리뉴클레오티드와 관련되는 경우, 20℃ 내지 100℃ 범위의 온도에서 절단, 결합, 표지 (marking) 또는 변형시킬 수 있고, 기능성이다. 바람직하게는, Cas 단백질 또는 폴리펩티드는, 50℃ 내지 70℃의 온도 범위, 예를 들어, 55℃ 또는 60℃에서 절단, 결합, 표지 또는 변형시킬 수 있고, 기능성이다.

특정 구체 예에서, 본 발명은 아미노산 모티프 EKDGKYYC [SEQ ID NO: 2]를 포함하는 Cas 단백질 또는 폴리펩티드를 제공할 수 있다. 다른 구체 예에서, 상기 Cas 단백질 또는 폴리펩티드는, 아미노산 모티프 X₁X₂CTX₃X₄ [SEQ ID NO: 3]를 더욱 포함할 수 있고, 여기서 X₁은 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되며, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되고, X₃는 글루타메이트 또는 리신으로부터 독립적으로 선택되며, 및 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나이다.

다른 구체 예에서, 여기서 정의된 Cas 단백질 또는 폴리펩티드는, 아미노산 모티프 X₅LKX₆IE [SEQ ID NO: 4]를 부가적으로 더욱 포함할 수 있으며, 여기서 X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고, 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택된다.

다른 구체 예에서, 여기서 정의된 Cas 단백질 또는 폴리펩티드는, 아미노산 모티프 X₇VYSX₈K [SEQ ID NO: 5]를 부가적으로 더욱 포함할 수 있고, 여기서 X₇은 글루타메이트 또는 이소류신이고, 및 X₈은 트립토판, 세린 또는 리신 중 하나이다.

다른 구체 예에서, 여기서 정의된 Cas 단백질 또는 폴리펩티드는, 아미노산 모티프 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃[SEQ ID NO: 6]을 부가적으로 더욱 포함할 수 있으며, 여기서 X₉는 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며, 및 X₁₃은 리신 또는 세린이다.

본 발명에 따르면, 본 발명의 Cas 단백질 또는 폴리펩티드는, SEQ ID NO: 2 내지 6의 모티프 중 어느 하나를 단독으로 또는 조합하여 포함할 수 있는 것으로 인정될 수 있다. 본 발명의 Cas 단백질 또는 폴리펩티드를 특징으로 할 수 있는 모티프의 각각의 조합을 요약하면 다음과 같다:

EKDGKYYC [SEQ ID NO: 2].

EKDGKYYC [SEQ ID NO: 2]; 및 X₁X₂CTX₃X₄ [SEQ ID NO: 3], 여기서, X₁은, 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되고, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되며, X₃은 글루타메이트 또는 리신으로부터 독립적으로 선택되고, 및 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나임.

EKDGKYYC [SEQ ID NO: 2]; 및 X₁X₂CTX₃X₄ [SEQ ID NO: 3], 여기서, X₁은 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되고, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되며, X₃은 글루타메이트 또는 리신으로부터 독립적으로 선택되고, 및 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나임; 및 X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고, 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택됨.

EKDGKYYC [SEQ ID NO: 2]; 및 X₁X₂CTX₃X₄ [SEQ ID NO: 3], 여기서, X₁은 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되고, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되며, X₃는 글루타메이트 또는 리신으로부터 독립적으로 선택되고, 및 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나임; 및 X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고, 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택됨; 및 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고, 및 X₈은 트립토판, 세린 또는 리신 중 하나임.

EKDGKYYC [SEQ ID NO: 2]; 및 X₁X₂CTX₃X₄ [SEQ ID NO: 3], 여기서, X₁은 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되고, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되며, X₃는 글루타메이트 또는 리신으로부터 독립적으로 선택되고, 및 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나임; 및 X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고, 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택됨; 및 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고, 및 X₈은 트립토판, 세린 또는 라신 중 하나임; 및 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉는 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며, 및 X₁₃은 리신 또는 세린임.

EKDGKYYC [SEQ ID NO: 2]; 및 X₁X₂CTX₃X₄ [SEQ ID NO: 3], 여기서, X₁은 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되고, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되며, X₃는 글루타메이트 또는 리신으로부터 독립적으로 선택되고, 및 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나임; 및 X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고, 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택됨; 및 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉은 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며, 및 X₁₃은 리신 또는 세린임.

EKDGKYYC [SEQ ID NO: 2]; 및 X₁X₂CTX₃X₄ [SEQ ID NO: 3], 여기서, X₁은 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되고, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되며, X₃는 글루타메이트 또는 리신으로부터 독립적으로 선택되고, 및 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나임; 및 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고, X₈은 트립토판, 세린 또는 리신 중 하나임; 및 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉은 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이고, X₁₁은 아르기닌 또는 알라닌이며, X₁₂는 아스파라긴 또는 알라닌이고, 및 X₁₃은 리신 또는 세린임.

EKDGKYYC [SEQ ID NO: 2]; 및 X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고, 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택됨; 및 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고, X₈은 트립토판, 세린 또는 리신 중 하나임; 및 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉은 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며, 및 X₁₃은 리신 또는 세린임.

EKDGKYYC [SEQ ID NO: 2]; 및 X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고, 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택됨.

EKDGKYYC [SEQ ID NO: 2]; 및 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고, X₈은 트립토판, 세린 또는 리신 중 하나임.

EKDGKYYC [SEQ ID NO: 2]; 및 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉은 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며, 및 X₁₃은 리신 또는 세린임.

EKDGKYYC [SEQ ID NO: 2]; 및 X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고, 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택됨; 및 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고, 및 X₈은 트립토판, 세린 또는 리신 중 하나임.

EKDGKYYC [SEQ ID NO: 2]; 및 X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고, 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택됨; 및 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉은 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며, 및 X₁₃은 리신 또는 세린임.

EKDGKYYC [SEQ ID NO: 2]; 및 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고, X₈은 트립토판, 세린 또는 리신 중 하나임; 및 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉는 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며, 및 X₁₃은 리신 또는 세린임.

X₁X₂CTX₃X₄ [SEQ ID NO: 3], 여기서, X₁은 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되고, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되며, X₃는 글루타메이트 또는 리신으로부터 독립적으로 선택되고, 및 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나임; 및 X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고, 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택됨.

X₁X₂CTX₃X₄ [SEQ ID NO: 3], 여기서, X₁은 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되고, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되며, X₃는 글루타메이트 또는 리신으로부터 독립적으로 선택되고, 및 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나임; 및 X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌로부터 독립적으로 선택되고, 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택됨; 및 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고 및 X₈은 트립토판, 세린 또는 리신 중 하나임.

X₁X₂CTX₃X₄ [SEQ ID NO: 3], 여기서, X₁은 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되고, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되며, X₃는 글루타메이트 또는 리신으로부터 독립적으로 선택되고, 및 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나임; 및 X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고, 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택됨; 및 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고, 및 X₈은 트립토판, 세린 또는 리신 중 하나임; 및 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉는 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며 및 X₁₃는 리신 또는 세린임.

X₁X₂CTX₃X₄ [SEQ ID NO: 3], 여기서, X₁은 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되고, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되며, X₃는 글루타메이트 또는 리신으로부터 독립적으로 선택되고, 및 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나임; 및 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고, 및 X₈은 트립토판, 세린 또는 리신 중 하나임; 및 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉은 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며, 및 X₁₃은 리신 또는 세린임.

X₁X₂CTX₃X₄ [SEQ ID NO: 3], 여기서, X₁은 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되고, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되며, X₃는 글루타메이트 또는 리신으로부터 독립적으로 선택되고, 및 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나임; 및 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고, 및 X₈은 트립토판, 세린 또는 리신 중 하나임.

X₁X₂CTX₃X₄ [SEQ ID NO: 3], 여기서, X₁은 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되고, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되며, X₃는 글루타메이트 또는 리신으로부터 독립적으로 선택되고, 및 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나임; 및 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉은 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는아스파라긴 또는 알라닌이며 및 X₁₃은 리신 또는 세린임.

X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고, 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택됨; 및 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고 및 X₈은 트립토판, 세린 또는 리신 중 하나임; 및 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉은 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며 및 X₁₃은 리신 또는 세린임.

X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고, 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택됨; 및 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고 및 X₈은 트립토판, 세린 또는 리신 중 하나임.

X₅LKX₆IE [SEQ ID NO: 4], 여기서, X₅는 메티오닌 또는 페닐알라닌으로부터 독립적으로 선택되고, 및 X₆는 히스티딘 또는 아스파라긴으로부터 독립적으로 선택됨; 및 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉는 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며 및 X₁₃은 리신 또는 세린임.

X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고 및 X₈은 트립토판, 세린 또는 리신 중 하나임; 및 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉은 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며 및 X₁₃은 리신 또는 세린임.

또 다른 관점에서, 본 발명은, SEQ ID NO: 1의 아미노산 서열 또는 이와 적어도 77% 동일성의 서열을 갖는 단리된 Cas 단백질 또는 이의 폴리펩티드 단편을 제공한다. 바람직하게는, Cas 단백질 또는 폴리펩티드는, 20℃ 내지 100℃ 범위의 온도에서 결합, 절단, 표지 또는 변형시킬 수 있다. 바람직하게는, Cas 단백질 또는 폴리펩티드는, 50℃ 내지 70℃ 범위의 온도, 예를 들어, 55℃ 또는 60℃에서 절단, 결합, 표지 또는 변형시킬 수 있다. 바람직하게는, Cas 단백질 또는 폴리펩티드는, 30℃ 내지 80℃ 범위의 온도, 37℃ 내지 78℃의 온도, 바람직하게는, 55℃ 이상의 온도; 좀 더 바람직하게는, 55℃ 내지 80℃의 온도; 더욱 더 바람직하게는, 55℃ 내지 65℃ 또는 60℃ 내지 65℃의 온도에서 절단, 결합, 표지 또는 변형시킬 수 있다.

본 발명은 또한 표적 핵산 서열을 포함하는 표적 폴리뉴클레오티드의 결합, 절단, 표지 또는 변형을 위해, 여기서 제공되는 표적화 RNA 분자 및 Cas 단백질 또는 폴리펩티드를 사용하는 방법을 제공한다. 상기 표적화 RNA 분자는 폴리뉴클레오티드의 표적 핵산 가닥 상에 표적 핵산 서열을 인식한다.

상기 표적 핵산 서열을 포함하는 표적 폴리뉴클레오티드는 이중 가닥일 수 있으며, 및 상기 표적 핵산 서열을 포함하는 표적 핵산 가닥, 및 프로토스페이서 핵산 서열을 포함하는 비-표적 핵산 가닥을 포함한다. 프로토스페이서 핵산 서열은, 표적 핵산 서열에 실질적으로 상보적이고, 이중 가닥 표적 폴리뉴클레오티드에서 이와 쌍을 이룬다. 상기 비-표적 핵산 가닥은 프로토스페이서 서열의 3' 말단에 바로 인접한 프로토스페이서 인근 모티프 (PAM) 서열을 더욱 포함할 수 있다. PAM 서열은 길이가 적어도 6, 7, 또는 8개의 핵산일 수 있다. 바람직하게는, PAM 서열은 제5 위치에 시토신을 갖는다. 바람직하게는, PAM 서열은, 5'-말단으로부터 PAM 서열이 5'-NNNNC-3'을 시작하도록, 서열 5'-NNNNC-3'을 포함한다. 부가적으로 또는 선택적으로, PAM 서열은, PAM 서열이 서열 5'-NNNNNNNA-3'을 포함하고, 5'-말단으로부터 PAM 서열이 5'-NNNNNNNA-3'을 시작하도록, 제8 위치 (eighth position)에 아데닌을 가질 수 있다. 부가적으로 또는 선택적으로, PAM 서열은, 5'-말단으로부터 PAM 서열이 5'-CNNNN-3', 5'-NCNNN-3', 5'-NNCNN-3', 5'-NNNCN-3', 및/또는 5'-NNNNNC-3'을 시작하도록, 제1, 제2, 제3, 제4, 및 제6 위치 중 하나 이상에서 시토신을 가질 수 있다. 바람직하게는, PAM 서열은, 5'-말단으로부터 PAM 서열이 5'-CCCCCCAA-3' [SEQ ID NO: 10]을 시작하도록 포함하고, 및 더욱 바람직하게는, PAM 서열은, 5'-말단으로부터 PAM 서열이 5'-CCCCCCAA-3' [SEQ ID NO: 11]을 시작하도록, 포함한다. 다른 바람직한 PAM 서열은, 5'-ATCCCCAA-3' [SEQ ID NO: 21] 및 5'-ACGGCCAA-3' [SEQ ID NO: 22]를 포함한다.

바람직하게는, Cas 단백질 또는 폴리펩티드는, 40℃ 내지 80℃의 범위, 바람직하게는, 45℃ 내지 80℃의 범위, 및 더욱 바람직하게는, 50℃ 내지 80℃ 범위의 온도에서 결합, 절단, 표지 또는 변형시킬 수 있다. 예를 들어, 결합, 절단, 표지 또는 변형은, 45℃, 46℃, 47℃, 48℃, 49℃, 50℃, 51℃, 52℃, 53℃, 54℃, 55℃, 56℃, 57℃, 58℃, 59℃, 60℃, 61℃, 62℃, 63℃, 64℃, 65℃, 66℃, 67℃, 68℃, 69℃, 70℃, 71℃, 72℃, 73℃, 74℃, 75℃, 76℃, 77℃, 78℃, 79℃ 또는 80℃의 온도에서 발생한다. 좀 더 바람직하게, Cas 단백질 또는 폴리펩티드는, 55 내지 65℃의 온도에서 결합, 절단, 표지 또는 변형시킬 수 있다. 바람직한 관점에서, 본 발명의 Cas 단백질 또는 폴리펩티드 단편은, SEQ ID NO: 1과 적어도 75% 동일성; 바람직하게는, 적어도 85%; 좀 더 바람직하게는, 적어도 90%; 더욱더 바람직하게는, 적어도 95% 동일성의 아미노산 서열을 포함할 수 있다.

Cas 단백질 또는 폴리펩티드는, 표적 핵산 가닥 상에 표적 핵산 서열을 인식하는 표적화 RNA 분자와 조합하여 사용될 수 있으며, 여기서, 비-표적 핵산 서열은, 여기서 개시된 바와 같이, 비-표적 가닥 상에 프로토스페이서 서열의 3' 말단에 바로 인접한 PAM 서열을 갖는다. 따라서, PAM 서열은 서열 5'-NNNNC-3'을 포함할 수 있으며, Cas 단백질은, 20℃ 내지 100℃의 범위, 바람직하게는, 30℃ 내지 90℃의 범위, 37℃ 내지 78℃의 범위, 40℃ 내지 80℃의 범위, 50℃ 내지 70℃의 범위, 또는 55℃ 내지 65℃ 범위의 온도에서 표적 가닥을 결합, 절단, 표지 또는 변형할 수 있다. 바람직하게는, 5'-말단으로부터 PAM 서열은 5'-NNNNC-3'을 시작하고, Cas 단백질은, 20℃ 내지 100℃의 범위, 바람직하게는, 30℃ 내지 90℃의 범위, 37℃ 내지 78℃의 범위, 40℃ 내지 80℃의 범위, 50℃ 내지 70℃의 범위, 또는 55℃ 내지 65℃ 범위의 온도에서 표적 가닥을 결합, 절단, 표지 또는 변형할 수 있다. 바람직하게는, 5'-말단으로부터 PAM 서열은 5'-NNNNNNNA-3'을 시작하고, Cas 단백질은, 20℃ 내지 100℃의 범위, 바람직하게는, 30℃ 내지 90℃의 범위, 37℃ 내지 78℃의 범위, 40℃ 내지 80℃의 범위, 50℃ 내지 70℃의 범위, 또는 55℃ 내지 65℃ 범위의 온도에서 표적 가닥을 결합, 절단, 표지 또는 변형할 수 있다. 더욱 바람직하게는, 5'-말단으로부터 PAM 서열은 5'-NNNNCNNA-3'을 시작하고, Cas 단백질은, 20℃ 내지 100℃의 범위, 바람직하게는, 30℃ 내지 90℃의 범위, 37℃ 내지 78℃의 범위, 40℃ 내지 80℃의 범위, 50℃ 내지 70℃의 범위, 또는 55℃ 내지 65℃ 범위의 온도에서 표적 가닥을 결합, 절단, 표지 또는 변형할 수 있다.

좀 더 구체적으로는, 본 발명의 Cas 단백질 또는 폴리펩티드는: 적어도 60%, 적어도 61%, 적어도 62%, 적어도 63%, 적어도 64%, 적어도 65%, 적어도 66%, 적어도 67%, 적어도 68%, 적어도 69%, 적어도 70%, 적어도 71%, 적어도 72%, 적어도 73%, 적어도 74%, 적어도 75%, 적어도 76%, 적어도 77%, 적어도 78%, 적어도 79%, 적어도 80%, 적어도 81%, 적어도 82%, 적어도 83%, 적어도 84%, 적어도 85%, 적어도 86%, 적어도 87%, 적어도 88%, 적어도 89%, 적어도 90%, 적어도 91%, 적어도 92%, 적어도 93%, 적어도 94%, 적어도 95%, 적어도 96%, 적어도 97%, 적어도 98%, 적어도 99%, 적어도 99.5%, 또는 적어도 99.8%와 같은, SEQ ID NO: 1과 퍼센트 동일성 (percentage identity)을 갖는 아미노산 서열을 포함할 수 있다. 상기 퍼센트 동일성은 적어도 89%일 수 있다. 상기 퍼센트 동일성은 적어도 90%일 수 있다. 바람직하게는, 상기 퍼센트 동일성을 적어도 95%, 예를 들어, 98%일 것이다.

SEQ ID NO: 1과 퍼센트 아미노산 서열 동일성은, 두 서열의 최적 정렬을 위해 도입될 필요가 있는, 갭 (gaps)의 수, 및 각 갭의 길이를 고려하여, 선택된 비교 창 (comparison window)에서 서열에 의해 공유되는 동일한 위치의 수의 함수에 따라 결정 가능하다.

본 발명의 Cas 단백질 또는 폴리펩티드 단편은, 참조 서열 (reference sequences) SEQ ID NO: 1 및 퍼센트 서열 동일성에 의해 정의된 바와 같은 임의의 전술된 이의 퍼센트 변이체 모두의 관점에서, 필수적인 특색 (essential features)으로서 전술한 아미노산 모티프들 (즉, SEQ ID NOS 2 및/또는 3 및/또는 4 및/또는 5 및/또는 6) 중 어느 하나와 조합하여 또는 단독을 특징으로 할 수 있다.

본 발명은 표적 핵산 서열을 포함하는 표적 핵산 가닥을 결합, 절단, 표지 또는 변형시키기 위한 본 발명의 Cas 단백질 또는 폴리펩티드 및 여기에 제공된 바와 같은 표적화 RNA 분자의 사용 방법을 제공한다. 바람직하게는, 상기 결합, 절단, 표지 또는 변형은, 여기에 개시된 온도, 예를 들어, 20 내지 100℃의 온도에서 발생한다. 본 발명은 또한 여기에 제공된 바와 같은 표적화 RNA 분자를 디자인하는 단계 및 본 발명의 Cas 단백질 또는 폴리펩티드 및 상기 표적화 RNA 분자를 포함하는 리보핵산 단백질 복합체를 형성하는 단계를 포함하는 표적 핵산 가닥에서 표적 핵산 서열을 결합, 절단, 표지 또는 변형시키는 방법을 제공한다. 바람직하게는, 상기 리보핵산 단백질 복합체는, 여기서 개시된 온도, 예를 들어, 37 내지 100℃의 온도에서 표적 핵산 서열을 결합, 절단, 표지 또는 변형시킨다.

본 발명의 사용 및 방법들은 수행될 수 있고, 본 발명의 핵산단백질은 생체 내에서, 예를 들어, 박테리아 세포에서 형성되고 사용된다. 선택적으로, 본 발명의 사용 및 방법은 수행될 수 있으며, 본 발명의 핵산단백질은 시험관 내에서 형성되고 사용된다. 본 발명의 Cas 단백질은, 예를 들어, 시험관 내에서 사용되거나 또는 형질감염 (transfection)에 의해 세포에 부가된 경우, 단리된 형태로 제공될 수 있고, Cas 단백질은, 예를 들어, Cas 단백질을 인코딩하는 핵산에 의한 세포의 일시적 또는 안정한 형질전환 후에, 이종방식으로 (heterologously) 발현될 수 있으며, 표적화 RNA 분자는 RNA 분자를 인코딩하는 핵산에 의해 세포의 일시적 또는 안정한 형질전환 후에 발현 벡터로부터 전사될 수 있고, 및/또는 RNA 분자는, 예를 들어, 시험관 내에서 사용되거나 또는 형질감염에 의해 세포에 부가된 경우, 단리된 형태로 제공될 수 있다. 바람직한 구체 예에서, Cas 단백질 또는 폴리펩티드는, 숙주 세포의 게놈에서 Cas 단백질 또는 폴리펩티드를 인코딩하는 핵산의 안정한 인터그레이션 (intergration) 후에, 숙주 세포의 게놈으로부터 발현된다. 따라서, Cas 단백질 및/또는 RNA 분자는, 이것이 달리 존재하지 않는, 세포에 단백질 또는 핵산 분자를 첨가하기 위한 임의의 인공적 또는 인위적인 방법을 사용하여 생체 내 또는 시험관 내 환경에 첨가될 수 있다.

표적 핵산 서열을 포함하는 폴리뉴클레오티드는, Cas 단백질에 의해 절단될 수 있고, 선택적으로 절단은 DNA 절단일 수 있다. 표적 서열을 포함하는 표적 핵산 가닥은 이중 가닥 DNA일 수 있으며, 상기 방법 또는 사용은, 표적 핵산 서열을 포함하는 폴리뉴클레오티드에서 이중 가닥 절단을 결과할 수 있다. 표적 핵산 서열을 포함하는 폴리뉴클레오티드는, 이중 가닥 DNA일 수 있고, Cas 단백질은 이중 가닥 DNA를 절단하는 능력이 없을 수 있으며, 상기 사용 또는 방법은 폴리뉴클레오티드의 유전자 침묵 (gene silencing)를 결과할 수 있다.

Cas 단백질 또는 폴리펩티드는, 250nM 이하의 농도, 예를 들어, 200nM 이하, 150nM 이하, 100nM 이하, 50nM 이하, 25nM 이하, 10nM 이하, 5nM 이하, 1nM 이하 또는 0.5nM 이하의 농도로 본 발명의 방법, 사용 및 핵산단백질에 대해 제공될 수 있다. 선택적으로, Cas 단백질 또는 폴리펩티드는, 적어도 0.5nM, 적어도 1nM, 적어도 5nM, 적어도 10nM, 적어도 25nM, 적어도 50nM, 적어도 100nM, 적어도 150nM, 적어도 200 nM, 또는 적어도 250 nM의 농도로 제공될 수 있다. 본 발명의 PAM 서열은, PAM 서열이 5'-NNNNNNNA-3'서열을 포함하도록, 제8 위치에 아데닌을 가질 수 있고, Cas 단백질 또는 폴리펩티드의 농도는 100 nM 이하, 50 nM 이하 , 25nM 이하, 10nM 이하, 5nM 이하, 1nM 이하 또는 0.5nM 이하일 수 있다. PAM 서열은 서열 5'-NNNNCNNA-3'을 포함할 수 있으며, Cas 단백질 또는 폴리펩티드의 농도는 100 nM 이하, 50 nM 이하, 25 nM 이하, 10 nM 이하, 5 nM 이하, 1nM 또는 0.5 nM 이하일 수 있다. PAM 서열은 서열 5'-CCCCCCNA-3' [SEQ ID NO:10]을 포함할 수 있고, Cas 단백질 또는 폴리펩티드의 농도는 100 nM 이하, 50 nM 이하, 25 nM 이하, 10 nM 이하, 5nM 이하, 1nM 이하 또는 0.5nM 이하일 수 있다.

또한, 본 발명은 본 발명의 전술된 단백질 또는 폴리펩티드 중 어느 하나를 인코딩하는 핵산을 제공한다. 상기 핵산은 단리될 수 있거나 또는 발현 구축물의 형태일 수 있다.

본 발명의 모든 전술된 관점에서, 아미노산 잔기는 보존적으로 또는 비-보존적으로 치환될 수 있다. 보존적 아미노산 치환은, 아미노산 잔기가 유사한 화학적 특성 (예를 들어, 전하 또는 소수성)을 갖는 다른 아미노산 잔기로 치환되고, 따라서 그 결과로 생긴 폴리펩티드의 기능적 특성을 변경시키지 않는 것을 지칭한다.

유사하게, 핵산 서열이 폴리펩티드의 기능에 영향을 미치지 않으면서 보존적으로 또는 비-보존적으로 치환될 수 있는 것은 기술분야의 당업자에 의해 인정될 것이다. 보존적으로 변형된 핵산은, 동일하거나 또는 기능적으로 동일한 아미노산 서열의 변이체를 인코딩하는 핵산에 대해 치환된다. 핵산에서 각 코돈 (codon) (AUG 및 UGG를 제외한; 통상적으로 메티오닌 또는 트립토판, 각각에 대한 단 하나의 코돈)이 기능적으로 동일한 분자를 산출하도록 변형될 수 있는 것은 당업자에 의해 인정될 것이다. 따라서, 본 발명의 폴리펩티드를 인코딩하는, 폴리뉴클레오티드 또는 폴리펩티드의 각 침묵 변이 (silent variation) (즉, 동의 코돈)는, 각 기재된 폴리펩티드 서열에서 내포된다.

본 발명은 이중 가닥 표적 폴리뉴클레오티드에서 표적 핵산 서열을 갖는, 형질전환된 세포 (transformed cell)를 제공하며, 상기 세포는, 여기에 제공된 바와 같은 Cas 단백질 또는 폴리펩티드 및 여기에 제공된 바와 같은 적어도 하나의 표적화 RNA 분자, 및 상기 Cas 단백질 및 상기 표적화 RNA분자 중 적어도 하나를 인코딩하는 핵산을 포함하는 발현 벡터를 포함한다. Cas 단백질 및 표적화 RNA 분자는, 표적 서열의 결합, 절단, 표지 또는 변형이 증가된 온도 또는 여기서 개시된 바와 같은, 다양한 온도, 예를 들어, 37℃ 내지 100℃에서 형질전환된 세포에서 발생하는 것을 가능하게 하거나 또는 허용할 수 있다. 본 발명은: 1) 본 발명의 Cas 단백질 또는 폴리펩티드를 인코딩하는 뉴클레오티드 서열 및 본 발명의 표적화 RNA 분자를 인코딩하는 뉴클레오티드 서열을 포함하는 발현 벡터로 세포를 형질전환, 형질감염 또는 형질도입하는 단계; 또는 2) 본 발명의 Cas 단백질 또는 폴리펩티드를 인코딩하는 뉴클레오티드 서열을 포함하는 발현 벡터 및 본 발명의 표적화 RNA 분자를 인코딩하는 뉴클레오티드 서열을 포함하는 추가의 발현 벡터로 세포를 형질전환, 형질감염 또는 형질도입하는 단계; 또는 3) 본 발명의 Cas 단백질 또는 폴리펩티드를 인코딩하는 뉴클레오티드 서열을 포함하는 발현 벡터로 세포를 형질전환, 형질감염 또는 형질도입 단계, 및 여기에 제공된 바와 같은 표적화 RNA 분자를 세포에, 또는 세포 내로 전달하는 단계를 포함하는, 세포에서 표적 핵산을 결합, 절단, 표지 또는 변형시키는 방법을 더욱 제공한다. Cas 단백질 또는 폴리펩티드는, 예를 들어, Cas 단백질 또는 폴리펩티드를 인코딩하는 뉴클레오티드 서열의 게놈 내로 안정한 인터그레이션 후에, 형질전환된 세포의 게놈으로부터 발현될 수 있다.

본 발명은 또한 본 발명의 사용 및 방법을 수행하기 위한, 또는 본 발명의 형질전환된 세포 또는 핵산단백질 복합체를 발생하기 위한, 하나 이상의 시약 (reagents)을 포함하는 키트를 제공하며, 상기 키트는: 본 발명의 Cas 단백질 또는 폴리펩티드 또는 본 발명의 Cas 단백질 또는 폴리펩티드를 인코딩하는 핵산 서열을 포함하는 발현 벡터; 및/또는 본 발명의 표적화 RNA 분자 또는 본 발명의 표적화 RNA 분자를 인코딩하는 핵산 서열을 포함하는 발현 벡터를 포함한다. 상기 키트는 본 발명을 수행하기 위한 설명서, 예를 들어, 본 발명에 따라 표적화 RNA 분자를 디자인하는 방법에 대한 설명서를 더욱 포함할 수 있다.

이하, 본 발명은 특정 구체 예 및 첨부된 도면을 참조하여 상세히 설명된다:
도 1은, Cas9 단백질 서열의 근린-결합 트리 (Neighbor-Joining tree)를 나타낸다. pBLAST 또는 PSI-BLAST에 기초한 균주 T12와 40%를 초과하는 서열 유사성을 갖는 모든 서열은 포함되며, 이에 더하여 현재 잘-특징화된 서열 (S. pyogenes, S. thermophiles 및 A. naeslundii)뿐만 아니라, 40% 아래의 동일성이 있는 경우 현재 동정된 모든 호열성 서열 또한 포함된다. 모든 호열성 서열에 대해, T12에 대한 퍼센트 동일성 (percentage identity)은 균주 명 뒤에 표시된다. 유전자 식별자 (Gene identifier: gi) 번호는 종명 (species name) 앞에 표시된다. 범례: 폐쇄 원: 호열성 (최적 60℃ 이상) Cas9 서열, 폐쇄 사각형: 내열성 (최적 <50℃) Cas9 서열, 개방 삼각형: 중온성 기원 (mesophilic origin)으로부터 게놈 편집 목적을 위해 현재 가장 많이 사용된 Cas9 서열; 부호 없음: 중온성 Cas9. 노드 (nodes)에서 값은 1000-복제 부트스트랩 값 (bootstrap values)을 나타내고; 스케일 바 (scale bar)는 부위 (site)에 대한 추정된 아미노산 치환을 나타낸다.
도 2는, Cas9 유전자 서열의 근린-결합 트리를 나타낸다. 유전자 수준에서 동일성은 극도로 열악하고; 단백질 정렬 (protein alignment)을 위해 사용된 것과 동일한 유기체 유래의 서열은, 유전자 정렬을 위해 사용된다. 유전자 식별자 (gi) 번호는 종명 앞에 표시된다. 범례: 폐쇄 원: 호열성 (최적 60℃ 이상) Cas9 서열, 폐쇄 사각형: 내열성 (최적 <50℃) Cas9 서열, 개방 삼각형: 중온성 기원으로부터 게놈 편집 목적을 위해 현재 가장 많이 사용된 Cas9 서열; 부호 없음: 중온성 Cas9. 노드에서 값은 1000-복제 부트스트랩 값을 나타낸다.
도 3은, 잘-특징화된 타입 (well-characterized Type) Ⅱ-C (A.naeslundii/'ana'; SEQ ID NO: 8) 및 타입 Ⅱ-A (S. pyogenes/'pyo'; SEQ ID NO: 9 및 S. thermophilus) Cas9 서열들과 함께 gtCas9 (SEQ ID NO: 1) (타입 Ⅱ-C)에 대한 단백질 서열 정렬을 나타낸다. 중요한 활성 부위 잔기 (active site residues)는 잘 보존되며, 및 검은색 화살표로 표시된다. Ana-Cas9 및 Pyo-Cas9에 대해 기재된 바와 같은 단백질 도메인 (Jinek, et al., 2014, Science 343: 1247997)은, 음영 박스 및 비슷하게 착색된 문자로 표시된다. PAM 인지 도메인 (recognition domain)은, 임의의 타입 Ⅱ-C 시스템이 아닌, S. pyogenes 타입 Ⅱ-A 시스템에 대해 결정되었고, 따라서, S. pyogenes 서열에서 오직 표시된다.
도 4는, A. naeslundii Cas9 (Cas9-Ana)의 단백질 아키텍쳐 (architecture)을 나타낸다 (Jinek et al., 2014). gtCas9는 동일한 타입 Ⅱ-C CRISPR 시스템에 속하며, 및 활성 부위 잔기는 동정될 수 있다.
도 5는, 상보적인 dsDNA의 crRNA-가이드 표적화의 비교를 나타낸다. 염기쌍 (Base pairing)은 점선으로 표시된다. RNA는 검은색으로, DNA는 회색으로 묘사된다. crRNA 스페이서와 표적 프로토스페이서 사이에 염기쌍은, 두꺼운 검정 점선으로 표시되고, DNA 가닥들 사이 및 RNA 가닥들 사이의 염기쌍은, 두꺼운 회색 점선으로 표시된다. crRNA의 5' 말단은 표시된다. 타입 I에서 PAM (작은 흰색 상자)은 표적 가닥 (프로토스페이서)의 다운스트림에 있는 반면, 타입 Ⅱ에서는, 치환된 가닥 (displaced strand) 상의 다른 말단에 존재한다. 마찬가지로, 시드 (seed) (표적 DNA 가닥과의 염기쌍이 시작되고, 및 불일치가 허용되지 않는 가이드의 예측된 서열)은, PAM에 가깝게 위치되고, 이로써 타입 I 및 Ⅱ에서 다르다 (Van der Oost, 2014 ibid.). 패널 A는 E. coli.의 타입 I 캐스케이드 시스템 (Cascade system)의 개략도를 나타낸다. crRNA는, 스템-루프 구조 (stem-loop structure) (머리핀)로 이루어진 29 뉴클레오티드 (nt) 3' 핸들 (handle) 및 8 nt 5' 핸들에 의해 측면에 위치된, 내부 스페이서 (회색 상자, 표적 인지를 가능하게 하는 31-32 nt)을 갖는다 (Jore 2011 ibid.). 패널 B는 S.pyogenes의 타입 Ⅱ Cas9 시스템의 개략도를 나타낸다. tracrRNA과의 crRNA 염기쌍은, RNaseⅢ에 의한 프로세싱을 가능하게 한다 (대립 검정 삼각형). 부가적으로, crRNA의 5' 말단은, RNase에 의해 잘라내어 (검정 삼각형), 통상적으로 20 nt의 스페이서를 결과한다. 합성 루프 (synthetic loop)가 crRNA 및 tracrRNA를 연결하기 위해 도입될 수 있어, 단일 가이드 RNA (sgRNA)를 결과한다는 점이 주목된다 (Jinek et al., 2012).
도 6은, G. 써모디니트리피칸스 (G.thermodenitrificans) T12 타입 Ⅱc CRISPR 시스템의 서열의 정렬을 나타낸다.
도 7은, gtCas9에 대한 인실리코 (in silico) PAM 예측을 제공하기 위해 얻어진 6개의 단일 히트 (single hits)를 나타낸다.
도 8은, 도 7에 예시된 정렬의 결과를 조합한 웹로그 (weblogo)를 나타낸다. 상기 웹로그는 weblogo.berkeley.edu를 사용하여 발생된다.
도 9는, 정제된 gtCas9로 플라스미드를 표적화하는 60℃에서 시험관 내 절단 분석 (cleavage assay)의 결과를 나타낸다. 플라스미드는 PAM 서열의 특이적 8개 뉴클레오티드-길이 서열 변이체를 포함한다.
도 10은, CCCCCCAA [SEQ ID NO: 11] PAM 서열로 표적화된 플라스미드를 사용하여, gtCas9 농도의 효과를 조사하기 위한 시험관 내 분석의 결과를 나타낸다.
도 11은, 다양한 온도에 걸쳐 CCCCCCAA [SEQ ID NO:11] PAM 서열로 표적화된 플라스미드를 사용한 시험관 내 분석의 결과를 나타낸다.
도 12는, 실시 예 9에서 설명된 바와 같은, 선택 플레이트 (selection plates) 상에 바실러스 스미시이 (Bacillus smithii) ET138 세포의 콜로니의 성장 또는 부재에 의한, gtCas9 및 8nt PAM 서열을 사용한 바실러스 스미시이 ET138 세포의 생체 내 게놈 편집의 결과를 나타낸다. 콜로니는 도 12에서 화살표로 나타낸다.
도 13은, pyrF 유전자가 결손된 콜로니에 대한 PCR 스크린의 결과를 나타낸다. 콜로니는 구축물 3 (음성 대조군)으로 바실러스 스미시이 ET138 세포의 형질전환 (transformation) 후에 발생된다. 15개의 콜로니는 스크리닝되지만, 실시 예 9에서 설명된 바와 같이, 결손 유전자형 -2.1kb 밴드 크기 (deletion genotype -2.1 kb band size)를 나타내지 않았으며, 대신에 야생형 -2.9kb 밴드 크기를 모두 나타낸다.
도 14는, pyrF 유전자가 결손된 콜로니에 대한 PCR 스크린의 결과를 나타낸다. 콜로니는 구축물 1 (PAM 서열 ATCCCCAA [SEQ ID NO: 21])로 바실러스 스미시이 ET138 세포의 형질전환 후에 발생된다. 20개의 콜로니는 스크리닝되고, 실시 예 9에서 설명된 바와 같이, 하나는 결손 유전자형 -2.1 kb 밴드 크기를 나타내는 반면, 나머지는 야생형 -2.9 kb 밴드 크기 및 결손 유전자형 -2.1 kb 밴드 크기 모두를 나타낸다. 야생형 만의 유전자형은 관찰되지 않았다.

RNA 가이드 및 표적 서열 (RNA Guides and Target Sequences)

본 발명의 Cas 단백질은, 상승된 온도에서 표적 핵산의 서열-특이적 결합, 절단, 태깅 (tagging), 표지 또는 변형을 가능하게 한다. 표적 핵산은 DNA (단일-가닥 또는 이중-가닥), RNA 또는 합성 핵산일 수 있다. 본 발명의 특히 유용한 적용은, 게놈 DNA의 표적화된 서열에 상보적으로 결합하는 하나 이상의 가이드 RNA (gRNA)와의 복합체에서 본 발명의 하나 이상의 Cas 단백질에 의한 게놈 DNA의 서열-특이적 표적화 및 변형이다. 결과적으로, 표적 핵산은, 바람직하게는, 이중-가닥 DNA이다. 이러한 표적화는 시험관 내 또는 생체 내에서 수행될 수 있다. 바람직하게는, 이러한 표적화는 생체 내에서 수행된다. 이러한 방식에서, 본 발명의 Cas 단백질은, 세포의 게놈 DNA에 위치된 특이적 DNA 서열을 표적화하고 변형시키는데 사용될 수 있다. Cas 시스템은, 다른 유기체에서 및/또는 다른 유기체의 다양한 세포 타입에서 게놈을 변형시키는데 사용될 수 있는 것으로 예상된다.

표적화 RNA 분자로 또한 불리는, gRNA는, 폴리뉴클레오티드 표적 가닥 상에 표적 핵산 서열을 인식한다. RNA 분자는 이중 가닥 표적 폴리뉴클레오티드에서 표적 서열을 인식하도록 디자인될 수 있으며, 여기서, 비-표적 가닥은 프로토스페이서 서열의 3' 말단에 바로 인접한 프로토스페이서 인근 모티프 (PAM) 서열을 포함한다. 본 발명의 Cas 단백질 및 폴리펩티드와 최적의 방식으로 작용하는 PAM 서열은 여기에 개시된다. 이들 PAM 서열에 대한 지식으로, gRNA는, 본 발명의 온도 범위 및 증가된 온도에 걸쳐서 본 발명의 Cas 단백질 및 폴리펩티드와 함께 사용하기 위해 디자인될 수 있다.

따라서, 본 발명은, 전술된 바와 같은 본 발명의 Cas 단백질 또는 폴리펩티드를 포함하고, 및 표적 폴리뉴클레오티드의 특정 뉴클레오티드 서열을 인지한다는 점에서 표적화 기능을 갖는 적어도 하나의 RNA 분자를 더욱 포함하는, 리보핵산 단백질 복합체를 제공한다. 본 발명은 또한 표적 핵산 가닥을 결합, 절단, 표지 또는 변형시키기 위한 적어도 하나의 표적화 RNA 분자 및 Cas 단백질 또는 폴리펩티드의 사용, 및 본 발명의 리보핵산 단백질 또는 핵산단백질을 사용하여 표적 핵산 가닥에서 표적 핵산 서열을 결합, 절단, 표지 또는 변형시키는 방법, 뿐만 아니라 Cas 단백질 또는 폴리펩티드 및 표적화 RNA 분자를 갖는 형질전환된 세포을 제공한다. 상기 표적 폴리뉴클레오티드는, 여기에 제공된 PAM 서열에 따라, 프로토스페이서 서열의 3' 말단에 바로 인접한 한정된 PAM 서열을 더욱 포함할 수 있다. 상기 PAM 서열은 길이가 6, 7 또는 8개의 핵산, 또는 그 이상, 바람직하게는, 길이가 8개의 핵산일 수 있다. 바람직하게는, RNA 분자는, 단일-가닥 RNA 분자, 예를 들어, CRISPR RNA (crRNA)이며, 및 예를 들어, tracrRNA와 혼성화 (hybridization)에 의해 결합된다. 상기 표적화 RNA는 crRNA 및 tracrRNA의 키메라 (chimera)일 수 있다. 전술된 RNA 분자는, 표적 뉴클레오티드 서열과 적어도 90%의 동일성 또는 상보성 (complementarity)의 리보뉴클레오티드 서열을 가질 수 있다. 선택적으로, RNA 분자는, 표적 뉴클레오티드 서열과 적어도 90%, 적어도 91%, 적어도 92%, 적어도 93%, 적어도 94%, 적어도 95%, 적어도 96%, 적어도 97% 적어도 98%, 적어도 99% 또는 100% 동일성 또는 상보성을 갖는다. 바람직한 표적 뉴클레오티드 서열은 DNA이다.

바람직한 관점에서, 본 발명은 전술된 바와 같은 리보핵산 단백질 복합체를 제공하며, 여기서, 적어도 하나의 표적화 RNA 분자는, 이의 길이를 따라 표적 DNA 서열에 실질적으로 상보적이다.

비-표적 가닥 상에 표적 서열 및 PAM 서열을 포함하는, 표적 폴리뉴클레오티드가 본 발명의 핵산단백질 복합체와 결합하고 및 핵산단백질 복합체의 일부를 형성할 수 있도록, 표적화 RNA 분자는 핵산단백질 복합체 내의 표적 서열에 화합되거나 또는 결합될 수 있다.

따라서, 본 발명의 Cas 단백질과 결합하는 RNA 가이드의 서열의 변경 (Alteration)은, Cas 단백질이 가이드 RNA에 상보적인 부위에서 이중-가닥 DNA를 표지하거나 또는 절단하도록 프로그램되는 것을 가능하게 한다.

바람직하게는, 본 발명의 리보핵산 단백질 복합체에서 적어도 하나의 표적화 RNA 분자의 길이는, 35 내지 135 잔기의 범위, 선택적으로 35 내지 134 잔기, 35 내지 133 잔기, 35 내지 132 잔기, 35 내지 131 잔기, 35 내지 130 잔기, 35 내지 129 잔기, 35 내지 128 잔기, 35 내지 127 잔기, 35 내지 126 잔기, 35 내지 125 잔기, 35 내지 124 잔기, 35 내지 123 잔기, 35 내지 122 잔기, 35 내지 121 잔기, 35 내지 120 잔기, 35 내지 119 잔기, 35 내지 118 잔기, 35 내지 117 잔기, 35 내지 116 잔기, 35 내지 115 잔기, 35 내지 114 잔기, 35 내지 113 잔기, 35 내지 112 잔기, 35 내지 111 잔기, 35 내지 100 잔기, 35 내지 109 잔기, 35 내지 108 잔기, 35 내지 107 잔기, 35 내지 106 잔기, 35 내지 105 잔기, 35 내지 104 잔기, 35 내지 103 잔기, 35 내지 102 잔기, 35 내지 101 잔기, 35 내지 100 잔기, 35 내지 99 잔기, 35 내지 98 잔기, 35 내지 97 잔기, 35 내지 96 잔기, 35 내지 95 잔기, 35 내지 94 잔기, 35 내지 93 잔기, 35 내지 92 잔기, 35 내지 91 잔기, 35 내지 90 잔기, 35 내지 89 잔기, 35 내지 88 잔기, 35 내지 87 잔기, 35 내지 86 잔기, 35 내지 85 잔기, 35 내지 84 잔기, 35 내지 83 잔기, 35 내지 82 잔기, 35 내지 81 잔기, 35 내지 80 잔기, 35 내지 79 잔기, 35 내지 78 잔기, 35 내지 77 잔기, 35 내지 76 잔기, 35 내지 75 잔기, 35 내지 74 잔기, 35 내지 73 잔기, 35 내지 72 잔기, 35 내지 71 잔기, 35 내지 70 잔기, 35 내지 69 잔기, 35 내지 68 잔기, 35 내지 67 잔기, 35 내지 66 잔기, 35 내지 65 잔기, 35 내지 64 잔기, 35 내지 63 잔기, 35 내지 62 잔기, 35 내지 61 잔기, 35 내지 60 잔기, 35 내지 59 잔기, 35 내지 58 잔기, 35 내지 57 잔기, 35 내지 56 잔기, 35 내지 55 잔기, 35 내지 54 잔기, 35 내지 53 잔기, 35 내지 52 잔기, 35 내지 51 잔기, 35 내지 50 잔기, 35 내지 49 잔기, 35 내지 48 잔기, 35 내지 47 잔기, 35 내지 46 잔기, 35 내지 45 잔기, 35 내지 44 잔기, 35 내지 43 잔기, 35 내지 42 잔기, 35 내지 41 잔기, 35 내지 40 잔기, 35 내지 39 잔기, 35 내지 38 잔기, 35 내지 37 잔기, 35 내지 36 잔기의 범위 또는 35 잔기이다. 바람직하게는, 적어도 하나의 RNA 분자의 길이는, 36 내지 174 잔기, 37 내지 173 잔기, 38 내지 172 잔기, 39 내지 171 잔기, 40 내지 170 잔기, 41 내지 169 잔기, 42 내지 168 잔기, 43 내지 167 잔기, 44 내지 166 잔기, 45 내지 165 잔기, 46 내지 164 잔기, 47 내지 163 잔기, 48 내지 162 잔기, 49 내지 161 잔기, 50 내지 160 잔기, 51 내지 159 잔기, 52 내지 158 잔기, 53 내지 157 잔기, 54 내지 156 잔기, 36 내지 74 잔기, 37 내지 73 잔기, 38 내지 72 잔기, 39 내지 71 잔기, 40 내지 70 잔기, 41 내지 69 잔기, 42 내지 68 잔기, 43 내지 67 잔기, 44 내지 66 잔기, 45 내지 65 잔기, 46 내지 64 잔기, 47 내지 63 잔기, 48 내지 62 잔기, 49 내지 61 잔기, 50 내지 60 잔기, 51 내지 59 잔기, 52 내지 58 잔기, 53 내지 57 잔기, 54 내지 56 잔기의 범위이다.

바람직한 관점에서, 본 발명은 리보핵산 단백질 복합체를 제공하며, 여기서, 적어도 하나의 RNA 분자의 상보적 부분은 길이가 적어도 30 잔기이다. 선택적으로, 적어도 하나의 RNA 분자의 상보적 부분은, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74 또는 75 잔기 길이일 수 있다.

표적화 RNA 분자는, 바람직하게는, 표적 핵산 서열에 대해 높은 특이성 및 친화성을 요구할 것이다. 1 μM 내지 1 pM, 바람직하게는, 1 nM 내지 1 pM; 좀 더 바람직하게는, 1 내지 100pM 범위의 해리 상수 (K_d)는, 비변성 겔 전기영동 (native gel electrophoresis), 또는 선택적으로 등온 적정 열량계, 표면 플라스몬 공명, 또는 형광계 적정 방법에 의해 결정될 수 있음에 따라 바람직하다. 친화도 (Affinity)는, 겔 지연 분석 (gel retardation assay)으로 또한 불리는, 전기 이동성 교대 분석 (Electromoretic mobility shift assay, EMSA)을 사용하여 결정될 수 있다 (Semenova E et al. (2011) PNAS 108: 10098-10103 참조).

표적화 RNA 분자는, 바람직하게는, 원핵생물 내에 자연물 (nature)로부터 CRISPR RNA (crRNA) 분자로 알려진 것으로 모델링된다. crRNA 분자의 구조는, 이미 Jore et al., 2011, Nature Structural & Molecular Biology 18: 529-537에서 보다 상세히 설명되고 확립되어 있다. 간단히 말해서, 타입 I-E의 성숙한 crRNA (mature crRNA)는, 종종 61 뉴클레오티드 길이이고, 및 8개 뉴클레오티드의 5' "핸들" 영역, 32개 뉴클레오티드의 "스페이서" 서열, 및 테트라뉴클레오티드 루프를 갖는 헤어핀을 형성하는 21개 뉴클레오티드의 3' 서열로 이루어진다 (도 5). 타입 I 시스템은 타입 Ⅱ (Cas9)와 다르며 및 다른 시스템의 상세는, Van der Oost 2014 Nat Rev Micr 12: 479-492에 기재되어 있다. 타입 Ⅱ (Cas9) 시스템에서, 제2 RNA (tracrRNA) 및 두 개의 리보뉴클레아제를 활용하는, 다른 공정 메커니즘이 있다. 머리핀 외에, 타입 Ⅱ에서 성숙한 crRNA는 tracrRNA의 단편에 붙착되어 있다 (도 5). 그러나, 본 발명에서 사용되는 RNA는, 길이, 영역 또는 특이적 RNA 서열에 있어서도, 자연 발생형 crRNA의 디자인으로 엄격하게 디자인될 필요는 없다. 분명한 점은, 본 발명에 사용하기 위한 RNA 분자가, 공개된 데이터베이스에서 유전자 서열 정보에 기초하여 디자인될 수 있거나 또는 새로 발견될 수 있고, 그 다음, 예를 들어, 전체 또는 부분적으로 화학적 합성에 의해 인위적으로 만들어질 수 있다는 것이다. 본 발명의 RNA 분자는 또한 유전적으로 변형된 세포 또는 무세포 발현 시스템 (cell free expression)에서 발현하는 방식으로 디자인 및 생성될 수 있으며, 이 선택은, RNA 서열의 일부 또는 전부의 합성을 포함할 수 있다.

타입 Ⅱ (Cas9)에 crRNA의 구조 및 요건은 또한 Jinek et al., 2012 ibid에 기재되어 있다. 타입 I에서, 스페이서 서열의 5' 말단을 형성하고 및 8 뉴클레오티드의 5' 핸들에 의해 거기의 5' 측면에 위치된, 소위 "시드 (SEED)" 부분이 있다. Semenova et al. (2011, PNAS 108: 10098-10103)은, 비록 위치 6에서 잔기에 대해, 불일치가 허용될 수 있을지라도, 시드 서열의 모든 잔기가 표적 서열에 상보적이어야 하는 것을 확인하였다 (도 5). 타입 Ⅱ에서, 스페이서의 3' 말단에 위치된 10-12 뉴클레오티드의 시드가 있다 (도 5) (Van der Oost 2014 ids에 의해 검토됨). 유사하게, 표적 유전자좌 (target locus) (즉, 서열)를 향하는 본 발명의 리보핵산 단백질 복합체의 RNA 성분을 디자인하고, 만드는 경우, 타입 Ⅱ 시트 서열에 대한 필요한 일치 및 불일치 규칙은 적용될 수 있다.

따라서, 본 발명은, 핵산 샘플을 전술된 바와 같은 본 발명의 리보핵산 단백질 복합체와, 또는 전술된 바와 같은 본 발명의 Cas 단백질 또는 폴리펩티드 및 개별 표적화 RNA 성분과 접촉시키는 단계를 포함하는, 표적 핵산 분자에서 단일 염기 변화를 검출 및/또는 위치시키는 방법을 포함하고, 및 여기서 (리보핵산 단백질 복합체에서의 경우를 포함하는) 표적화 RNA의 서열은, 예를 들어, 8 뉴클레오티드 잔기의 연속 서열 (contiguous sequence)의 위치 6에서, 단일 염기 변화로 인해 정상적인 대립 유전자와 돌연변이 대립 유전자 사이에서 구별하도록 하는 것이다.

특정 이론에 구속되는 것을 원하지는 않지만, 본 발명의 리보핵산 단백질 복합체의 표적화 RNA 성분을 제조하는데 사용될 수 있는 디자인 규칙은, 이중 가닥 표적 폴리뉴클레오티드에서 소위 "PAM" (protospacer adjacent motif) 서열을 포함한다. E. coli의 타입 I-E 시스템에서, PAM 서열은 5'-CTT-3', 5'-CAT-3', 5'-CCT-3', 5'-CAC-3', 5'-TTT-3', 5'-ATT-3', 및 5'-AWG-3'과 같은, 뉴클레오티드 잔기의 보존된 트리플릿 (conserved triplet)일 수 있고, 여기서 W는 A, T 또는 U이다. 타입 I에서, 표적화된 가닥에 위치된 PAM 서열은, 보통 시드의 5'에 상응하는 위치에 있다. 타입 Ⅱ에서, 그러나, PAM은, 시드의 3'에 상응하는 위치에서, crRNA 스페이서의 3' 말단에 가깝게 변위된, 또는 비-표적, 가닥 상에, 다른 말단에 위치된다 (도 5) (Jinek et al. , 2012, op. cit.). 화농성 연쇄상 구균 (Streptococcus pyogenes) Cas9의 경우, PAM 서열은, 5'-NGG-3'인, 뉴클레오티드 잔기의 보존된 쌍을 갖는다. 최근에, 다른 Cas9 변이체 (타입 ⅡA 및 타입 ⅡC) (Ran et al., 2015 Nature 520: 186-191)-Fig 1A)는, 특징화되었고, PAM은 밝혀졌다 (Ran et al., 2015, ibid.-Fig 1C). 현재 입증된 Cas9 PAMs은: 타입 ⅡA 5'-NGGNNNN-3' (Streptococcus pyogenes), 5'-NNGTNNN-3' (Streptococcus pasteurianus), 5'-NNGGAAN-3' (Streptococcus thermophilus), 5'-NNGGGNN-3' (Staphylococcus aureus), 및 타입 ⅡC 5'-NGGNNNN-3' (Corynebacterium difteriae), 5'-NNGGGTN-3' (Campylobacter lari), 5'-NNNCATN-3' (Parvobaculum lavamentivorans), 5'-NNNNGTA-3' (Neiseria cinerea)을 포함한다. 지오바실러스 써모데니트리피칸스 (Geobacillus thermodenitrificans) T12의 Cas9 (본 발명)는, 타입ⅡC에 속한다 (Ran et al., 2015, ibid.). 본 발명자들은, 놀랍게도, 본 발명에 사용하기 위한 PAM 서열의 선택이 본 발명의 Cas 단백질 및 폴리펩티드가 표적 서열과 상호작용하는 온도(들)에 영향을 줄 수 있다는 것을 발견했다. 특히, 본 발명자들은, 표적 서열의 3' 말단 이후에 5^th 위치에 시토신, 및/또는 8^th 위치에 아데닌으로, 넓은 온도 범위에 걸쳐 활성을 부여하는데 8-mer PAM 서열이 바람직하다는 것을 확인했다. 또한, 프로토스페이서 서열의 3' 말단 이후에 PAM 서열의 1^st, 2^nd, 3^rd, 4^th 및/또는 6^th 위치에 시토신이 바람직하다.

본 발명의 구체 예에서, 표적화 RNA 분자는 35-200 잔기의 범위에서 길이를 가질 수 있다. 바람직한 구체 예에서, 원하는 핵산 서열에 표적화를 위해 사용되고, 상보적인 RNA의 부분은, 15 내지 32 잔기 길이이다. 자연-발생 crRNA의 맥락에서, 이것은, 예를 들어, Semenova et al. (2011 ibid.)의 도 1에 나타낸 바와 같은 스페이서 부분에 상응할 것이다.

본 발명의 리보핵산 단백질 복합체는, DNA 표적 서열에 실질적인 상보성을 갖는 RNA 서열에 CRISPR 반복 5'으로부터 유래된 8 잔기를 포함하는 표적화 성분을 가질 수 있다. DNA 표적 서열에 대해 상보성을 갖는 RNA 서열은, 스페이서 서열인 것으로서 crRNA의 맥락에서 상응하는 것으로 이해될 것이다. RNA의 5' 플랭킹 서열 (flanking sequence)은; 예를 들어, Semenova et al. (2011 ibid.)의 도 1에 나타낸 바와 같이, crRNA의 5' 핸들에 상응하는 것으로 고려될 것이다.

본 발명의 리보핵산 단백질 복합체는, DNA 표적 서열에 상보성을 갖는 표적화 RNA 서열의 3'에, 즉, 예를 들어, Semenova et al. (2011 ibid.)의 도 1에 나타낸 바와 같은, crRNA에서 스페이서 서열 측면에 위치하는 3' 핸들에 상응하는 것의 3'에 헤어핀 및 테트라뉴클레오티드 루프 형성 서열을 가질 수 있다.

특정 이론에 구속되는 것을 원하지는 않지만, 바람직한 리보핵산 단백질 복합체 및 이중 가닥 표적 폴리뉴클레오티드에서, 리보핵산 단백질 복합체의 표적화 RNA와 쌍을 이루지 않는 비-표적 핵산 가닥은, 5'-NNNNCNNA-3', 5'-CNNNCNN-3', 5'-NNNCCNN-3', 5'-NNCNCNN-3', 5'-NNNNCCN-3', 및 5'-NCNNCNN-3' 중 하나 이상으로부터 선택된 직접 3'에 인접 PAM 서열을 포함할 수 있다. 바람직하게는, PAM 서열은, 5'-NNNNC-3', 5'-NNNNCNNA-3', 5'-CNNNC-3', 5'-CNNNCNNA-3', 5'-NCNNC-3', 5'-NCNNCNNA-3', 5'-NNCNC-3', 5'-NNCNCNNA-3', 5'-NNNCC-3', 5'-NNNCCNNA-3', 5'-NNNNCC-3', 5'-NNNNCCNA-3', 5'-CCNNC-3', 5'-CCNNCNNA-3', 5'-CNCNC-3', 5'-CNCNCNNA-3', 5'-CNNCCN-3', 5'-CNNCCNNA-3', 5'-CNNNCC-3', 5'-CNNNCCNA-3', 5'-CCCNCN-3', 5'-CCCNCNNA-3', 5'-CCNCCN-3', 5'-CCNCCNNA-3', 5'-CCNNCC-3', 5'-CCNNCCNA-3', 5'-CCCCC-3' [SEQ ID NO: 12], 5'-CCCCCNNA-3' [SEQ ID NO: 13], 5'-CCCCCC-3' [SEQ ID NO: 14], 5'-CCCCCCNA-3' [SEQ ID NO: 10], 5'-NCCNC-3', 5'-NCCNCNNA-3', 5'-NCCCC-3', 5'-NCCCCNNA-3', 5'-NCCCCC-3' [SEQ ID NO: 15], 5'-NCCCCCNA-3' [SEQ ID NO: 16], 5'-NNCCC-3', 5'-NNCCCNNA-3', 5'-NNCCCC-3', 5'-NNCCCCNA-3', 5'-NNNCCC-3', 및 5'-NNNCCCNA-3'으로부터 선택될 수 있다. PAM 서열은, 5'-CNCCCCAC-3' [SEQ ID NO: 17], 5'-CCCCCCAG-3' [SEQ ID NO: 18], 5'-CCCCCCAA-3' [SEQ ID NO: 11], 5'-CCCCCCAT-3' [SEQ ID NO: 19], 5'-CCCCCCAC-3' [SEQ ID NO: 20], 5'-ATCCCCAA-3' [SEQ ID NO: 21], 또는 5'-ACGGCCAA-3' [SEQ ID NO: 22]일 수 있다. 바람직하게는, PAM 서열은 서열 5'-NNNNCNNA-3'일 것이다. 그러나, 뉴클레오티드의 다른 조합이 Cas 단백질 또는 폴리펩티드의 농도 및/또는 원하는 적용에 의존하여 사용될 수 있는 것으로 인정될 것이다. 이들 서열은, 자연적으로 발생하는 crRNA의 맥락에서 "프로토스페이서 인근 모티프" 또는 "PAM"으로 불리는 것에 상응한다. 타입 ⅡC CRISPR/Cas 시스템에서, 이들 PAM 서열은, 표적 서열에 대한 - 자연 시스템 (natural system) 표적, 및 따라서 바람직하게는, 또한 본 발명에 따른 RNAs의 표적 모두에서 - crRNA의 고도의 특이성을 보장하기 위해, 캐스케이드/crRNA 복합체와 이의 dsDNA 표적으로 안정한 상호작용을 가능하게 한다. 바람직하게는, 프로토스페이서에 바로 인접한 서열은, 5'-NNNCATN-3'이 아닐 것이다.

여기에 제공된 본 발명의 PAM 서열은, 여기서 개시된 서열, 예를 들어, 6-mer, 7-mer 또는 8-mer 서열을 포함한다. 상기 6-mer, 7-mer 또는 8-mer 서열은, 표적화 RNA에 의해 결합된 것에 상보적인, 프로토스페이서 서열과, PAM 서열의 5' 말단 사이에 공간을 차지하는 부가적인 핵산이 없이, 비-표적 가닥 상에 프로토스페이서 서열의 3'을 바로 시잘할 수 있다. 그러나, 상기 6-mer, 7-mer 또는 8-mer 서열의 3' 말단에서 PAM 서열의 일부를 형성하는 부가적인 핵산일 수 있는 것으로 인정될 것이다. 부가적으로 또는 선택적으로, 비-표적 가닥은, PAM 서열의 3'에 부가적인 핵산을 포함할 수 있다. 본 발명의 핵산단백질 복합체는, 본 발명의 리보핵산 단백질 복합체 및 상기 리보핵산 단백질이 결합되는, 핵산의 표적 핵산 가닥을 포함할 수 있다.

결합, 절단, 표지 및 변형 온도

본 발명의 Cas 단백질의 활성, 예를 들어, 뉴클레아제 활성의 최적 온도 범위를 포함하는, 온도 범위는, 공지된 Cas9 단백질의 온도 범위보다 상당히 높다. 또한, 활성을 유지하는 상한 범위는 공지된 Cas9 단백질의 것보다 훨씬 높다. 더 높은 최적의 온도 및 기능적 범위는, 고온에서의 유전 공학에 상당한 장점을 제공하며, 따라서, 예를 들어, 호열성 유기체의 게놈의 편집에 있어서, 이들 중 많은 것들은 상승된 온도에서 수행되는 다양한 산업적, 농업적 및 약학적 공정에 유용하다. 따라서, 본 발명의 방법, 사용, 핵산단백질 및 형질전환된 세포는, 산업 공정, 예를 들어, 대사 공학 목적 (metabolic engineering purposes)을 위한 게놈 편집을 제공하는데 유용할 수 있다. 비-표적 가닥의 프로토스페이서 서열에 바로 인접한, 본 발명의 PAM 서열의 존재는, 표적 서열에 대한 Cas 단백질 및 폴리펩티드의 특이성을 개선하고, 및 더 높은 온도에서 및 더 넓은 기능적 온도 범위에서 걸쳐 Cas 단백질 및 폴리펩티드의 사용을 지지한다.

유리하게는, 본 발명의 Cas 단백질 또는 폴리펩티드는, 20℃ 내지 100℃의 온도에서 핵산 결합, 절단, 표지 또는 변형할 수 있지만, 상승된 온도에서, 예를 들어, 41℃ 내지 122℃, 바람직하게는, 50℃ 내지 100℃의 온도에서 특히 유용하다. 본 발명의 Cas 단백질 및 폴리펩티드는, DNA, RNA 및 합성 핵산을 결합, 절단, 표지 또는 변형시킬 수 있다. 본 발명의 Cas 단백질 또는 폴리펩티드는 또한, 예를 들어, 20 내지 50℃ 범위의 온도에서 뉴클레아제 활성, 유전자 편집 및 핵산 표지 적용에 대한 조작성 (operability)을 제공할 수 있다.

온도 범위가 여기에 포함되는 경우, 말단점이 개시된 온도 범위에 포함, 즉 범위가 "포괄하는" 것으로 의도된다. 예를 들어, 20℃ 내지 100℃ 범위의 온도에서 활성이 있는 것으로 명시된 경우, 20℃ 및 100℃의 온도는 상기 범위에 포함된다.

바람직하게는, 본 발명의 Cas 단백질 또는 폴리펩티드는, 결합, 절단, 표지 또는 변형될 폴리뉴클레오티드 분자(들)에서 표적 서열을 인식하는 적절한 gRNA (가이드 RNA, 또한 표적화 RNA 분자라 함)와 결합되는 경우, 50℃ 내지 100℃, 선택적으로 55℃ 내지 100℃, 60℃ 내지 100℃, 65℃ 내지 100℃, 70℃ 내지 100℃, 75℃ 내지 100℃, 80℃ 내지 100℃, 85℃ 내지 100℃, 90℃ 내지 100℃, 95℃ 내지 100℃ 범위의 온도에서 결합, 절단, 표지 또는 변형한다. 좀 더 바람직하게는, 본 발명의 Cas 단백질은, 51℃ 내지 99℃, 52℃ 내지 98℃, 53℃ 내지 97℃, 54℃ 내지 96℃, 55℃ 내지 95℃, 56℃ 내지 94℃, 57℃ 내지 93℃, 58℃ 내지 92℃, 59℃ 내지 91℃, 60℃ 내지 90℃, 61℃ 내지 89℃, 62℃ 내지 88℃, 63℃ 내지 87℃, 64℃ 내지 86℃, 65℃ 내지 85℃, 66℃ 내지 84℃, 67℃ 내지 83℃, 68℃ 내지 82℃, 69℃ 내지 81℃, 70℃ 내지 80℃, 71℃ 내지 79℃, 72℃ 내지 78℃, 73℃ 내지 77℃, 74℃ 내지 76℃ 범위의 온도, 또는 75℃의 온도에서 핵산을 결합, 절단, 표지 또는 변형한다. 바람직하게는, 본 발명의 Cas 단백질은, 60℃ 내지 80℃, 61℃ 내지 79℃, 62℃ 내지 78℃, 63℃ 내지 77℃, 64℃ 내지 76℃, 60℃ 내지 75℃, 60℃ 내지 70℃의 온도 범위에서 핵산을 결합, 절단, 표지 또는 변형한다. 최적으로, 본 발명의 Cas 단백질은, 60℃ 내지 65℃의 범위, 바람직하게는, 65℃의 온도에서 핵산을 결합, 절단, 표지 또는 변형한다.

표적화 RNA 분자는, 본 발명의 Cas 단백질 및 폴리펩티드와 함께 사용하도록 디자인될 수 있고, 여기서, 상기 표적화 RNA 분자는 표적 가닥에서 표적 서열에 결합되며, 비-표적 가닥은 프로토스페이서 서열의 3' 바로 옆에 여기에 제공된 PAM 서열을 더욱 포함한다. 상기 PAM 서열은, 5'-NNNNNNNA-3', 바람직하게는, 5'-NNNNCNNA-3', 예를 들어, 5'-CCCCCCNA-3' [SEQ ID NO: 10] 또는 5'-CCCCCCAA-3' [SEQ ID NO: 11]을 포함할 수 있고, 및 본 발명의 사용, 방법, 형질전환된 세포, 및 핵산단백질은, 55℃ 내지 65℃의 온도 범위에 걸쳐, 바람직하게는, 50℃ 내지 70℃, 40℃ 내지 65℃, 45℃ 내지 75℃, 37℃ 내지 78℃ 및/또는 20℃ 내지 80℃의 온도 범위에 걸쳐, 표적 가닥의 결합, 절단, 표지 및/또는 변형을 제공할 수 있다.

본 발명의 모든 관점에서, Cas 단백질 또는 폴리펩티드는 박테리아, 고세균류 또는 바이러스로부터 얻거나 유래될 수 있거나; 또는 선택적으로 새로 합성될 수 있다. 바람직한 구체 예에서, 본 발명의 Cas 단백질 또는 폴리펩티드는, 고세균 또는 박테리아로 분류될 수 있지만, 바람직하게는, 박테리아인, 호열성 원핵 유기체로부터 유래된다. 좀 더 바람직하게는, 본 발명의 Cas 단백질 또는 폴리펩티드는 호열성 박테리아로부터 유래될 것이다. 여기서, 용어 "호열성"은 비교적 높은 온도에서 생존 및 성장할 수 있는, 예를 들어, 본 발명의 맥락에서, 41 내지 122℃ (106 내지 252 ℉)의 온도에서 핵산을 절단, 결합 또는 변형시킬 수 있는 것을 의미하는 것으로 이해되어야 한다. 바람직하게는, 본 발명의 Cas 단백질 또는 폴리펩티드는, 하나 이상의 호열성 박테리아로부터 단리될 수 있고, 60℃ 초과에서 기능할 것이다. 바람직하게는, 본 발명의 Cas 단백질 또는 폴리펩티드는, 하나 이상의 호열성 박테리아로부터 단리될 수 있고, 60℃ 내지 80℃ 범위 및 최적으로 60℃ 내지 65℃ 범위에서 기능할 것이다. 바람직한 구체 예에서, 본 발명의 Cas 단백질 또는 폴리펩티드는 지오바실러스 속 (Geobacillus sp.)으로부터 유래된다. 좀 더 바람직하게는, 본 발명의 Cas 단백질은 지오바실러스 써모데니트리피칸스로부터 유래된다. 더욱 더 바람직하게는, 본 발명의 Cas 단백질은 지오바실러스 써모데니트리피칸스 T12로부터 유래된다. 본 발명의 Cas 단백질 또는 폴리펩티드는 바이러스로부터 유래될 수 있다.

기능성 모이어티 (Functional Moieties)

유리하게는, 서열-특이적 방식으로 임의의 폴리뉴클레오티드 서열을 표적화하는 본 발명의 Cas 단백질, 폴리펩티드 및 리보핵산 단백질 복합체의 능력은, 어떻게든 표적 핵산을 변형시키기 위해, 예를 들어, 이를 절단 및/또는 이를 표지 및/또는 이를 변형시키는데 활용될 수 있다. 따라서, 부가적인 단백질이 Cas 단백질 또는 폴리펩티드와 함께 제공될 수 있어 이를 달성하는 것으로 인정될 것이다. 따라서, 본 발명의 Cas 단백질 또는 폴리펩티드는, 적어도 하나의 기능성 모이어티를 더욱 포함할 수 있고, 및/또는 본 발명의 Cas 단백질, 폴리펩티드 또는 리보핵산 단백질 복합체는, 적어도 하나의 추가 단백질을 포함하는 단백질 복합체의 일부로서 제공될 수 있다. 바람직한 관점에서, 본 발명은 Cas 단백질, 폴리펩티드 또는 리보핵산 단백질 복합체를 제공하며, 여기서, 상기 Cas 단백질 또는 적어도 하나의 추가의 단백질은, 적어도 하나의 기능성 모이어티를 더욱 포함한다. 상기 적어도 하나의 기능성 모이어티는 Cas 단백질에 융합 또는 연결될 수 있다. 바람직하게는, 상기 적어도 하나의 기능성 모이어티는, 천연 또는 인공 단백질 발현 시스템에서 발현을 통해 Cas 단백질에 번역적으로 융합될 수 있다. 선택적으로, 상기 적어도 하나의 기능성 모이어티는, 화학적 합성 단계에 의해 Cas 단백질에 공유결합으로 연결될 수 있다. 바람직하게는, 상기 적어도 하나의 기능성 모이어티는, Cas 단백질의 N-말단 및/또는 C-말단; 바람직하게는, C-말단에 융합 또는 연결된다.

바람직하게는, 상기 적어도 하나의 기능성 모이어티는 단백질일 것이다. 이는 이종 단백질일 수 있거나, 또는 선택적으로 Cas 단백질이 유래된 박테리아 종에 기원할 수 있다. 적어도 하나의 기능성 모이어티는; 헬리카제, 뉴클레아제, 헬리카제-뉴클레아제, DNA 메틸라아제, 히스톤 메틸라아제, 아세틸라아제, 포스페타아제, 키아나제, 전사 활성인자, 전사 억제인자, DNA 결합 단백질, DNA 구조 단백질, 마커 단백질, 리포터 단백질, 형광 단백질, 리간드 결합 단백질, 신호 펩티드, 세포내 위치 측정 서열, 항체 에피토프 또는 친화성 정제 태그 (affinity purification tag)로부터 선택적으로 선택된 단백질일 수 있다.

특히 바람직한 관점에서, 본 발명은 Cas 단백질, 폴리펩티드, 또는 리보핵산 단백질 복합체를 제공하고, 여기서 적어도 하나의 기능성 모이어티는, 마커 단백질, 예를 들어, GFP이다.

뉴클레아제 활성 (Nuclease Activity)

본 발명의 Cas 리보핵산 단백질은, 온도, 바람직하게는, 여기에 개시된 상승된 온도, 예를 들어, 50℃ 내지 100℃의 온도에서, 핵산 결합, 절단, 표지 또는 변형 활성을 갖는다. 본 발명의 리보핵산 단백질은, DNA, RNA 또는 합성 핵산을 결합, 절단, 표지 또는 변형할 수 있다. 바람직한 관점에서, 본 발명의 Cas 리보핵산 단백질은, 서열-특이적 방식으로 DNA, 특히 이중-가닥 DNA를 절단할 수 있다.

본 발명의 Cas 단백질, 폴리펩티드 또는 리보핵산 단백질은, 하나 이상의 뉴클레아제 도메인을 가질 수 있다. 부위-특이적 뉴클레아제는, DNA의 가닥을 따라 선택된 위치에서 이중 가닥 절단 (DSBs)의 발생을 가능하게 할 수 있다. 표적 숙주 세포에서, 이것은 게놈 내에 특이적 미리-선택된 위치에서 DSBs가 만들어지는 것을 가능하게 한다. 부위-특이적 뉴클레아제에 의한 이러한 절단의 생성은, 관심의 게놈 내에 원하는 위치에서 DNA를 삽입, 결손 또는 변형시키기 위해 내인성 세포내 복구 기작 (endogenous cellular repair machinery)이 용도 변경되는 것을 촉발한다.

단백질 또는 폴리펩티드 분자의 하나 이상의 뉴클레아제 활성 부위는, 예를 들어, 단백질 또는 폴리펩티드에 연결된 또는 융합된 또 다른 기능성 모이어티, 예를 들어, FokI 뉴클레아제와 같은 뉴클레아제 도메인의 활성을 가능하게 하기 위해, 비활성화될 수 있다.

따라서, 본 발명의 Cas 단백질, 폴리펩티드 및 리보핵산 단백질이 내인성 뉴클레아제 활성을 가질 수 있다는 사실에도 불구하고, 어떤 적용의 경우, Cas 단백질의 비변성 뉴클레아제 활성을 비활성화시키고, Cas 단백질 또는 리보핵산 단백질 복합체를 제공하는 것이 바람직할 수 있으며, 여기서, 비변성 Cas9 뉴클레아제 활성은 비활성화되고, 및 Cas 단백질은 적어도 하나의 기능성 모이어티에 연결된다. 비변성 Cas9 뉴클레아제 활성의 상보성에 의한 불일치-표적화 사건의 발생률을 감소시키는 것은, 이러한 적용 중 하나이다. 이는, 바람직하게는, Cas 단백질 또는 리보핵산 단백질 복합체의 비변성 Cas9 뉴클레아제 활성의 비활성화 및 Cas 단백질에 바람직하게 융합된, 이종 뉴클레아제의 제공에 의해 달성될 수 있다. 따라서, 본 발명은 Cas 단백질 또는 리보핵산 단백질 복합체를 제공하고, 여기서, 적어도 하나의 기능성 모이어티는 뉴클레아제 도메인, 바람직하게는, FokI 뉴클레아제 도메인이다. 특히 바람직한 관점에서, FokI 뉴클레아제 도메인에 융합된 본 발명의 Cas 단백질 또는 리보핵산 단백질 복합체는, 바람직하게는, FokI 뉴클레아제 도메인에 융합된 본 발명의 또 다른 Cas 단백질 또는 리보핵산 단백질 복합체를 포함하는, 단백질 복합체의 일부로서 제공되며, 여기서 2개의 복합체는 표적 게놈 DNA의 대립 가닥 (opposite strands)을 표적으로 한다.

몇몇 적용의 경우, 예를 들어, Cas 단백질 또는 리보핵산 단백질 복합체가, 예를 들어, 진단 시험의 일부로 이를 표지하기 위해, 핵산에서 특이적 표적 서열을 인지하고, 변형시키는데 활용되는 적용에서, Cas 단백질, 폴리펩티드 또는 리보핵산 단백질의 뉴클레아제 활성을 완전히 약화시키는 것이 바람직할 수 있다. 이러한 적용에서, Cas 단백질의 뉴클레아제 활성은 비활성화될 수 있고, 및 Cas 단백질에 융합된 기능성 모이어티는; 헬리카제, 뉴클레아제, 헬리카제-뉴클레아제, DNA 메틸라아제, 히스톤 메틸라아제, 아세틸라아제, 포스페타아제, 키아나제, 전사 활성인자, 전사 억제인자, DNA 결합 단백질, DNA 구조 단백질, 마커 단백질, 리포터 단백질, 형광 단백질, 리간드 결합 단백질, 신호 펩티드, 세포내 위치 측정 서열, 항체 에피토프 또는 친화성 정제 태그로부터 선택적으로 선택된, 단백질일 수 있다.

바람직한 관점에서, 뉴클레아제 활성이 결핍된 효소의 기능이 없는, 또는 "죽은" Cas 단백질 또는 폴리펩티드 (dCas)는, 표적 핵산 서열에 결합될 수 있고, 이에 의해 그 서열의 활성을 입체구조로 억제할 수 있다. 예를 들어, 표적화 RNA는 유전자의 프로모터 또는 엑손 서열에 상보적인 것으로 디자인될 수 있어서, 유전자에 dCas 및 표적화 RNA의 결합이 유전자 서열의 전사적 개시 (transcriptional initiation) 또는 신장 (elongation)을 입체구조로 억제하고, 이에 의해 유전자의 발현을 억제한다. 선택적으로, 여기에 기재된 방법 및 사용은, 니카제 (nickases)인 gtCas9의 변형된 뉴클레아제 변이체를 사용할 수 있다. 니카제는 gtCas9 뉴클레아제의 HNH 또는 RuvC 촉매 도메인 중 어느 하나에서 돌연변이를 통해 생성될 수 있다. 이것은, 각각, 비활성 RuvC 또는 HNH 뉴클레아제 도메인을 갖는, spCas9-돌연변이체 D10A 및 H840A를 갖는 S. pyogenes Cas9 (spCas)에 대해 나타낸다. 이들 두 개의 돌연변이의 조합은, 촉매적으로 죽은 Cas9 변이체 (dead Cas9 variant)로 이어진다 (Standage-Beier, K. et al., 2015, ACS Synth. Biol. 4, 1217-1225; Jinek, M. et al., 2012, Science 337, 816-821, Xu, T.et al., 2015, Appl. Environ.Microbiol.81, 4423-4431). 서열 상동성 (도 3)에 기초하여, 이들 잔기는 gtCas9에서 D8 (도 3의 D17) 및 D581 또는 H582 (도 3)일 수 있다.

특히 바람직한 관점에서, 본 발명은 Cas 단백질 또는 리보핵산 단백질 복합체를 제공하고, 여기서, 상기 Cas 단백질의 뉴클레아제 활성은 비활성화되고, 적어도 하나의 기능성 모이어티는 마커 단백질, 예를 들어, GFP이다. 이러한 방식에서, 관심의 핵산 서열을 구체적으로 표적화하고, 및 광학 신호를 발생하는 마커를 사용하여 이를 시각화하는 것은 가능할 수 있다. 적절한 마커는, 예를 들어, 형광 리포터 단백질, 예를 들어, 녹색 형광 단백질 (GFP), 황색 형광 단백질 (YFP), 적색 형광 단백질 (RFP), 시안 형광 단백질 (CFP) 또는 mCherry을 포함할 수 있다. 이러한 형광 리포터 유전자는, 이의 발현이 형광 측정에 의해 간단하고 즉시 분석될 수 있기 때문에, 단백질 발현의 시각화를 위한 적절한 마커를 제공한다. 선택적으로, 리포터 핵산은 루시퍼라제 (예를 들어, 반딧불이 루시퍼라제 (firefly luciferase))와 같은, 발광 단백질을 인코딩할 수 있다. 선택적으로, 리포터 유전자는 광학 신호를 발생하는데 사용될 수 있는, 발색 효소 (chromogenic enzyme), 예를 들어, (베타-갈락토시다아제 (LacZ) 또는 베타-글루쿠로니다아제 (Gus)와 같은) 발색 효소일 수 있다. 발현의 측정에 사용되는 리포터는 또한 항원 펩티드 태그일 수 있다. 다른 리포터 또는 마커는 당업계에 공지되어 있으며, 이들은 적절하게 사용될 수 있다.

마커가 시각화될 수 있기 때문에, 표적 핵산이 RNA, 특히 mRNA인 어떤 구체 예에서, 특히 마커에 의해 발생된 광학 신호가 발현 산물의 양에 직접적으로 비례하는 경우, 마커에 의해 제공된 광학 신호의 검출 및 정량화에 의해, 유전자의 전사 활성을 정량화하는 것은 가능하다. 따라서, 본 발명의 바람직한 구체 예에서, 본 발명의 Cas 단백질 또는 리보핵산 단백질은, 관심의 유전자의 발현 산물을 분석하는데 사용될 수 있다.

하나의 관점에서, 여기에 기재된 gtCas9는, 미생물 세포에서의 상동 재조합 (HR) 매개된 게놈 변형 방법에 사용될 수 있다. 이러한 방법은 HR 및 부위-인도 gtCas9 활성을 포함하며, 이에 의해 카운터 선별 (counter selection)은 HR에 의해 도입된 원하는 변형을 갖지 않는 미생물을 제거하는 gtCas9 활성에 의해 일어난다.

따라서, 여기에 제공된 방법 및 사용은 미생물 게놈이 원하는 돌연변이로 변형될 수 있는 제1 단계 및 미변형 세포가 gtCas9 리보뉴클레아제 복합체에 의해 표적화되어 미변형 세포의 게놈으로 DSDB를 도입할 수 있는 제2 단계 동안 선호되는 상동 재조합의 공정을 가능하게 한다. 대다수의 미생물에서 효율적인 비-상동성 말단 연결 (NHEJ) 복구 기작이 없기 때문에, DSDB는 통상적으로 세포 죽음으로 이어진다. 따라서, 이들 방법 및 사용은 미변형 미생물 세포를 제거하면서 원하는 돌연변이를 갖는 미생물 세포의 개체군을 전반적으로 증가시킨다. 바람직하게는, 이러한 방법 및 사용은 실질적으로 내인성 NHEJ 복구 메카니즘을 갖지 않은 미생물에서 사용된다. 선택적으로, 상기 방법 및 사용은 내인성 NHEJ 복구 메카니즘을 갖는 미생물에 적용될 수 있다. 여기에 기재된 방법 및 사용은 내인성 NHEJ 복구 메카니즘을 갖는 미생물에 적용될 수 있지만, 여기서, 상기 NHEJ 복구 메카니즘은 조건부로 감소되거나 또는 NHEJ 활성은 녹아웃된다 (knocked out).

여기에 제공된 방법 및 사용은, 가이드 RNA가 변형된 게놈을 더 이상 인식할 수 없도록, 가이드 RNA와 적어도 하나의 불-일치를 갖는 상동 재조합 폴리뉴클레오티드의 서열을 활용할 수 있다. 이것은 gtCas9 리보뉴클레아제 복합체가 변형된 게놈을 인식하지 못한다는 것을 의미한다. 따라서, DSDB는 gtCas9 리보뉴클레아제 복합체에 의해 도입될 수 없으므로, 변형된 세포는 생존할 것이다. 그러나, 미변형 게놈을 갖는 세포는, 여전히 가이드 RNA에 실질적인 상보성을 가지며, 결과적으로 gtCas9 리보뉴클레아제 복합체에 의해 부위-특이적으로 절단될 수 있다.

본 발명의 방법 및 사용의 또 다른 관점에서, gtCas9 리보뉴클레아제 복합체가 미생물 게놈을 절단하는 작용을 방해하는 방식은, 가이드에 의해 표적화된 서열을 변형시키거나 제거하는 것과 큰 관련이 없고, 오히려 gtCas9 리보뉴클레아제 복합체가 필요로 하는 PAM을 변형시키거나 제거하는 것이다. PAM은 특이적 절단 부위에 gtCas9 리보뉴클레아제 복합체를 블라인드 (blind)하기 위해 변형되거나 제거된다. 따라서, 본 발명의 방법 및 사용은 gtCas9 리보뉴클레아제 복합체에 의해 인식되는 PAM 서열을 포함하지 않는 상동 재조합 폴리뉴클레오티드의 서열을 사용하는 방법을 포함할 수 있다. 따라서, DSDB는 gtCas9 리보뉴클레아제 복합체에 의해 도입될 수 없으므로, HR 변형된 세포는 생존할 것이다. 그러나, 미변형 세포는, gtCas9 리보뉴클레아제 복합체 및 이의 가이드에 의해 여전히 인식될 것이고, 결과적으로 부위-특이적으로 절단될 것이다.

따라서, 미생물의 게놈을 변형시키기 위해 HR에 의존하는 방법 및 사용은 여기에 제공된다. 바람직하게는, 업스트림 플랜크 (upstream flank) 및 다운스트림 플랜크는 길이가 각각 0.5kb (kilobases) 내지 1.0 kb이다. 그러나, 더 크거나 더 짧은 단편을 사용하는 재조합은 또한 가능하다. 상동 재조합 폴리뉴클레오티드는 업스트림과 다운스트림 플랜킹 영역들 사이에 폴리뉴클레오티드 서열을 더욱 포함할 수 있다. 이 폴리뉴클레오티드 서열은, 예를 들어, 미생물 게놈으로 도입될 변형을 함유할 수 있다.

상동 재조합은 표적 영역에 실질적인 상보성을 갖는 업스트림 및 다운스트림 플랜크에 의존하지만, 불일치도 또한 수용될 수 있다. 따라서, 몇몇 구체 예에서, 상동 재조합은 업스트림 및 다운스트림 플랜크에 광범위한 상동성을 갖는 DNA 세그먼트 (segments) 사이에 일어나는 것으로 알려져 있다. 선택적인 구체 예에서, 업스트림 및 다운스트림 플랜크는 표적 영역에 완전한 상보성을 갖는다. 업스트림 및 다운스트림 플랜크는 크기가 동일할 필요는 없다. 그러나, 몇몇 사례에서, 업스트림 및 다운스트림 플랜크는 크기가 동일하다. 상동 재조합의 효율은 플랜크의 가장 작은 단편 길이의 상동 재조합의 가능성에 매우 의존할 것이다. 그러나, 상동 재조합 공정이 비효율적일지라도, 유리하게는, 여기서 기재된 방법은 미변형 미생물 세포에 대해 원하는 변형을 갖는 임의의 미생물 세포를 선택할 것이다. 상동 재조합은 또한 완전한 유전자 클러스터 (gene clusters)를 둘러싸게 만드는 큰 결손 (deletion) (예를 들어, 50kb 이상)을 가능하게 한다. 상동 재조합은 재조합공학 (recombineering)에도 사용되며, 이것은 더 작은 단편 (45-100 nt)에 대한 재조합을 가능하게 하는 잘-알려진 방법이다. 여기에 기재된 방법 및 사용은 선택적으로 미생물 게놈에서 표적을 함유하는 제2 표적 영역에 실질적으로 상보적인 서열을 갖는 상동 재조합 폴리뉴클레오티드를 인코딩하는 서열을 포함하는 폴리뉴클레오티드 또는 적어도 또 다른 상동 재조합 폴리뉴클레오티드를 더욱 포함할 수 있다.

바람직한 구체 예에서, 여기에 기재된 방법 및 사용은, DNA인 상동 재조합 폴리뉴클레오티드를 활용한다. 몇몇 구체 예에서, DNA는 단일 가닥이다. 다른 구체 예에서, DNA는 이중 가닥이다. 또 다른 구체 예에서, DNA는 이중 가닥 및 플라스미드 유래 (plasmid borne)이다.

여기에 제공된 방법 및 사용에서 HR은 미생물 게놈으로부터 폴리뉴클레오티드 서열을 제거하는데 사용될 수 있다. 선택적으로, 여기에 제공된 방법 및 사용에서 HR은 미생물 게놈에, 하나 이상의 유전자(들), 또는 이의 단편(들)을 삽입하는데 사용될 수 있다. 또 다른 대안으로서, 여기에 제공된 방법 및 사용에서 HR은, 미생물 게놈에서 적어도 하나의 뉴클레오티드를 변형 또는 치환하는데 사용될 수 있다. 결과적으로, 여기에 제공된 방법 및 사용은, 임의의 원하는 종류의 게놈 변형을 위해 사용될 수 있다.

선택적으로, 여기서 기재된 gtCas9는, 미생물 세포에서 HR 매개된 게놈 변형 방법에 사용될 수 있고, 이에 의해, gtCas9 활성은, spCas9에 대해 나타낸 바와 같이, DSDB를 도입하고, 미생물 세포에서 세포의 HR (cellular HR)을 유도할 수 있다 (Jiang et al. (2013) Nature Biotech, 31, 233-239; Xu et al. (2015) Appl Environ Microbiol, 81, 4423-4431; Huang et al. (2015) Acta Biochimica et Biophysica Sinica, 47, 231-243).

선택적으로, 상동 재조합은 재조합공학을 통해, 예를 들어, Mougiakos 등 ((2016), Trends Biotechnol. 34: 575-587)에 의해 검토된 바와 같은, RecT 또는 베타 단백질을 인코딩하는 유전자를 발현하는 미생물 세포 내로 올리고뉴클레오티드를 도입시켜, 가능하게 할 수 있다. 또 다른 구체 예에서, Cas9는 Ronda 등 ((2016), Sci. Rep., 6 : 19452)에 의해 예증된 바와 같이, Multiplex Automated Genome Engineering (MAGE)과 조합될 수 있다.

모든 부분에서, 본 발명의 Cas 단백질의 참조 서열은, 아미노산 서열을 인코딩하는 뉴클레오티드 서열로서 정의될 수 있다. 예를 들어, SEQ ID NO: 2 내지 6에 정의된 모티프의 아미노산 서열은 또한 그 아미노산 서열을 인코딩하는 모든 핵산 서열을 포함한다.

따라서, 본 발명은 또한 다음을 포함하는 Cas 단백질을 인코딩하는 단리된 핵산 분자를 제공한다:

a. 아미노산 모티프 EKDGKYYC [SEQ ID NO: 2]; 및/또는

b. 아미노산 모티프 X₁X₂CTX₃X₄ [SEQ ID NO: 3], 여기서, X₁은 이소류신, 메티오닌 또는 프롤린으로부터 독립적으로 선택되고, X₂는 발린, 세린, 아스파라긴 또는 이소류신으로부터 독립적으로 선택되며, X₃는 글루타메이트 또는 리신으로부터 독립적으로 선택되고, 또는 X₄는 알라닌, 글루타메이트 또는 아르기닌 중 하나임; 및/또는

d. 아미노산 모티프 X₇VYSX₈K [SEQ ID NO: 5], 여기서, X₇은 글루타메이트 또는 이소류신이고, 및 X₈은 트립토판, 세린 또는 리신 중 하나임; 및/또는

e. 아미노산 모티프 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉는 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 리신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며, 및 X₁₃은 리신 또는 세린이고;

여기서, Cas 단백질은, 적어도 하나의 표적화 RNA 분자, 및 상기 표적화 RNA 분자에 의해 인지되는 표적 핵산 서열을 포함하는 폴리뉴클레오티드와 결합되는 경우, 50℃ 내지 100℃에서 DNA 결합, 절단, 표지 또는 변형할 수 있다.

다른 관점에서, 본 발명은 또한, SEQ ID NO: 1의 아미노산 서열 또는 이와 적어도 77% 동일성의 서열을 갖는 일정한 간격을 두고 주기적으로 분포하는 짧은 회문구조 반복서열 (CRISPR)-관련 (Cas) 단백질을 인코딩하는 단리된 핵산 분자를 제공한다.

또 다른 관점에서, 본 발명은 또한, 번역시에 Cas 단백질에 융합되는 펩티드를 인코딩하는 적어도 하나의 핵산 서열을 더욱 포함하는, 단리된 핵산 분자를 제공한다.

또 다른 관점에서, 본 발명은 또한 단리된 핵산 분자를 제공하며, 여기서, Cas 단백질을 인코딩하는 핵산 분자에 융합된 적어도 하나의 핵산 서열은, 헬리카제, 뉴클레아제, 헬리카제-뉴클레아제, DNA 메틸라아제, 히스톤 메틸라아제, 아세틸라제, 포스파타아제, 키나아제, 전사 활성인자, 전사 억제인자, DNA 결합 단백질, DNA 구조 단백질, 마커 단백질, 리포터 단백질, 형광 단백질, 리간드 결합 단백질, 신호 펩티드, 세포내 위치정보 서열, 항체 에피토프 또는 친화성 정제 태그로부터 선택된 단백질을 인코딩한다.

발현 벡터 (Expression Vectors)

본 발명의 핵산은 단리될 수 있다. 그러나, 핵산 센싱 구축물의 발현이 선택 세포에서 수행될 수 있게 하기 위해, Cas 단백질 또는 리보핵산 단백질을 인코딩하는 폴리뉴클레오티드 서열은, 바람직하게는, 발현 구축물에 제공될 것이다. 몇몇 구체 예에서, Cas 단백질 또는 리보핵산 단백질을 인코딩하는 폴리뉴클레오티드는, 적절한 발현 벡터의 일부로서 제공될 것이다. 어떤 구체 예에서, (발현시 Cas 단백질에 융합되는 아미노산 잔기를 인코딩하는 뉴클레오티드 서열을 갖거나 또는 갖지 않는) 본 발명의 발현 벡터는, 전술된 바와 같은 표적화 RNA 분자를 인코딩하는 뉴클레오티드 서열을 더욱 포함할 수 있다. 결과적으로, 이러한 발현 벡터는, 적절한 숙주에서 사용되어, 원하는 뉴클레오티드 서열을 표적으로 할 수 있는 본 발명의 리보핵산 단백질 복합체를 발생시킬 수 있다. 선택적으로, 전술된 바와 같은 표적화 RNA 분자를 인코딩하는 뉴클레오티드 서열은, 개별 발현 벡터에 제공될 수 있거나 또는 선택적으로 다른 수단에 의해 표적 세포로 전달될 수 있다.

적절한 발현 벡터는, 수용 세포 (recipient cell)에 따라 변할 수 있으며, 및 표적 세포에서 발현이 가능하고 및 바람직하게는, 높은-수준의 발현을 용이하게 하는 조절 인자 (regulatory element)를 적절하게 혼입할 수 있다. 이러한 조절 서열 (regulatory sequences)은, 예를 들어, 개시 (initiation), 정확도, 속도, 안정성, 다운스트림 공정 및 이동성의 관점에서, 유전자 또는 유전자 산물의 전사 또는 번역에 영향을 미칠 수 있다.

이러한 인자는, 예를 들어, 강한 및/또는 구성적 프로모터 (constitutive promoters), 5' 및 3' UTR's, 전사 및/또는 번역 인핸서 (enhancers), 전사 인자 또는 단백질 결합 서열, 시작 부위 및 종결 서열, 리보좀 결합 부위, 재조합 부위, 폴리아데닐화 서열, 센스 또는 안티센스 서열, 전사의 정확한 개시를 보장하는 서열 및 선택적으로 숙주 세포에서 전사 및 전사 안정화의 종결을 보장하는 폴리-A 신호를 포함할 수 있다. 조절 서열은 식물-, 동물-, 박테리아-, 곰팡이- 또는 바이러스 유래일 수 있고, 및 바람직하게는, 숙주 세포와 동일한 유기체로부터 유래될 수 있다. 분명히, 적절한 조절 인자는, 관심의 숙주 세포에 따라 변할 것이다. 예를 들어, E. coli와 같은 원핵생물 숙주 세포에서 높은-수준의 발현을 용이하게 하는 조절 인자는, pLac, T7, P(Bla), P(Cat), P(Kat), trp 또는 tac 프로모터를 포함할 수 있다. 진핵생물 숙주 세포에서 높은-수준의 발현을 용이하게 하는 조절 인자는, 효모에서 AOX1 또는 GAL1 프로모터 또는 CMV- 또는 SV40-프로모터, CMV-인핸서, SV40-인핸서, Herpes simplex virus VIP16 전사 활성인자 또는 동물세포에서 글로빈 인트론 (globin intron)의 함유물 (inclusion)을 포함할 수 있다. 식물에서, 구성적 높은-수준의 발현은, 예를 들어, Zea mays 유비퀴틴 1 프로모터 또는 콜리플라워 모자이크 바이러스 (cauliflower mosaic virus)의 35S 및 19S 프로모터를 사용하여 얻을 수 있다.

적절한 조절 인자는 구성적 (constitutive)일 수 있고, 이에 의해 이들은, 대부분의 환경 조건 또는 발생 단계 (developmental stages), 발생 단계 특이성 또는 유도성 하에서 발현을 지시한다. 바람직하게는, 프로모터는 유도성이어서, 온도, 빛, 화학제, 건조 (drought) 및 다른 자극과 같은, 환경적, 화학적 또는 발생적 신호 (cues)에 반응하여 발현을 지시한다. 적절하게, 프로모터는, 특정 발생 단계에서 또는 세포-외 또는 세포-내 조건, 신호 또는 외부에서 가해진 자극에 반응하여, 관심의 단백질의 발현을 가능하게 선택될 수 있다. 예를 들어, 특정 성장 단계 (예를 들어, osmY 정지상 프로모터)에서 또는 특정 자극 (예를 들어, HtpG Heat Shock Promoter)에 반응하여, 높은-수준의 발현을 제공하는 E. coli에서 사용하기 위한 다양한 프로모터는 존재한다.

적절한 발현 벡터는 적절한 숙주 세포에서 및/또는 특정 조건하에서 상기 벡터의 선택을 가능하게 하는 선택 가능한 마커를 인코딩하는 부가적인 서열을 포함할 수 있다.

본 발명은 또한 세포를 전술된 바와 같은 발현 벡터 중 어느 하나로 형질주입 (transfecting), 형질전환 (transforming) 또는 형질도입 (transducing)하는 것을 포함하는, 세포에서 표적 핵산을 변형시키는 방법을 포함한다. 형질주입, 형질전환, 또는 형질도입의 방법은 기술분야의 당업자에게 잘 알려진 타입들이다. 본 발명의 리보핵산 단백질 복합체의 발현을 발생하는데 사용되는 하나의 발현 벡터가 존재하고, 표적화 RNA가 세포에 직접 첨가되는 경우, 그 다음, 형질주입, 형질전환 또는 형질도입의 같거나 또는 다른 방법은 사용될 수 있다. 유사하게, 본 발명의 리보핵산 단백질 복합체의 발현을 발생하기 위해 사용되는 하나의 발현 벡터가 존재하고, 및 또 다른 발현 벡터가 발현을 통해 인시튜 (in situ)로 표적화 RNA를 발생시키는데 사용되는 경우, 그 다음, 형질주입, 형질전환, 또는 형질도입의 같거나 또는 다른 방법은 사용될 수 있다.

다른 구체 예에서, Cas 단백질 또는 폴리펩티드를 인코딩하는 mRNA는, 캐스케이드 복합체 (Cascade complex)가 세포에서 발현되도록, 세포 내로 도입된다. Cas 단백질 복합체를 원하는 표적 서열로 안내하는 표적화 RNA는 또한, 필요한 리보핵산 단백질 복합체가 세포에서 형성되도록, mRNA와 동시에, 개별적으로 또는 순차적으로, 세포 내로 도입된다.

따라서, 본 발명은 또한 전술된 바와 같은 리보핵산 단백질 복합체와 핵산을 접촉시키는 단계를 포함하는, 표적 핵산을, 변형, 즉, 절단, 태깅, 변형, 표지 또는 결합하는 방법을 제공한다.

부가적으로, 본 발명은 또한, 전술된 바와 같은 표적화 RNA 분자에 부가하여, 전술된 바와 같은 Cas 단백질 또는 폴리펩티드와 핵산을 접촉시키는 단계를 포함하는 표적 핵산을 변형시키는 방법을 포함한다.

상기 방법들에 따르면, 표적 핵산의 변형은, 따라서, 시험관에서 및 무-세포 환경에서 수행될 수 있다. 무-세포 환경에서, 표적 핵산, Cas 단백질 및 표적화 RNA 분자의 각각의 첨가는, 동시에, 순차적으로 (원하는 대로의 임의의 순서로) 또는 개별적으로 이루어질 수 있다. 따라서, 표적 핵산 및 표적화 RNA를 반응 혼합물에 동시에 첨가한 다음, 본 발명의 Cas 단백질 또는 폴리펩티드를 후속 단계에서 개별적으로 첨가하는 것이 가능하다.

마찬가지로, 표적 핵산의 변형은, 단리된 세포이든 또는 다세포 조직, 기관 또는 유기체의 일부이든 간에, 생체내에서, 즉, 세포에서 인시튜로 이루어질 수 있다. 전체 조직 및 기관의 맥락에서, 및 유기체의 맥락에서, 상기 방법은 바람직하게는, 생체 내에서 수행될 수 있거나, 또는 선택적으로, 전체 조직, 기관 또는 유기체 유래의 세포를 단리하는 단계, 상기 방법에 따라 리보핵산 단백질 복합체로 세포를 처리하는 단계, 및 그 후에 리보핵산 단백질 복합체로 처리된 세포를, 같거나 또는 다른 유기체 내에서, 이의 이전 위치 또는 다른 위치로 복귀시키는 단계에 의해 수행될 수 있다.

이들 구체 예에서, 리보핵산 단백질 복합체 또는 Cas 단백질 또는 폴리펩티드는, 세포 내로 적절한 형태의 전달을 필요로 한다. 이러한 적절한 전달 시스템 및 방법은, 당업자에게 잘 알려져 있으며, 및 세포질 또는 핵 미세주입 (nuclear microinjection)을 포함하지만, 이에 제한되는 것은 아니다. 바람직한 전달 방식에서, 아데노-연관 바이러스 (AAV)는 사용되고; 이 전달 시스템은, 사람에게 질병을 일으키지 않으며, 유럽에서 임상적 사용이 승인되었다.

따라서, 본 발명은:

a. 전술된 바와 같은 리보핵산 단백질 복합체; 또는

b. 전술된 바와 같은 단백질 또는 단백질 복합체 및 전술된 바와 같은 RNA 분자와 핵산을 접촉시키는 단계를 포함하는 표적 핵산을 변형시키는 방법을 제공한다.

또 다른 관점에서, 본 발명은 전술된 바와 같은 리보핵산 단백질 복합체를 인코딩하는 뉴클레오티드 서열을 포함하는 발현 벡터로 세포를 형질전환, 형질주입, 또는 형질도입하는 단계를 포함하는, 세포에서 표적 핵산을 변형시키는 방법을 제공하거나; 또는 선택적으로 전술된 바와 같은 단백질 또는 단백질 복합체를 인코딩하는 뉴클레오티드 서열을 포함하는 발현 벡터 및 전술된 바와 같은 표적화 RNA 분자를 인코딩하는 뉴클레오티드 서열을 포함하는 추가 발현 벡터로 세포를 형질전환, 형질주입 또는 형질도입시키는 단계를 포함한다.

또 다른 관점에서, 본 발명은, 전술된 바와 같은 단백질 또는 단백질 복합체를 인코딩하는 뉴클레오티드 서열을 포함하는 발현 벡터로 세포를 형질전환, 형질주입 또는 형질도입하는 단계, 및 그 다음 전술된 바와 같이 표적화 RNA 분자를 세포 내로 전달하는 단계를 포함하는 표적 핵산을 변형시키는 방법을 제공한다.

가이드 (즉, 표적화) RNA (gRNA) 분자 및 Cas 단백질 또는 폴리펩티드가 리보핵산 단백질 복합체의 일부로서가 아닌 별도로 제공되는 구체 예에서, gRNA 분자는, Cas 단백질 또는 단백질 복합체와 동시에, 개별적으로 또는 순차적으로, 세포 내로 적절한 형태의 전달을 필요로 한다. 세포 내로 RNA를 도입시키는 이러한 형태는, 기술분야의 당업자에게 잘 알려져 있으며, 및 종래의 형질주입 방법을 통해 시험관 내 또는 생체 외 전달을 포함할 수 있다. 미세주입 및 전기천공법 (electroporation)과 같은, 물리적 방법뿐만 아니라 칼슘 공-침전, 및 상업적으로 이용 가능한 양이온성 중합체 및 지질, 및 세포-침투 펩티드, 세포-침투 (유전자총 (biolistic)) 입자는, 각각 사용될 수 있다. 예를 들어, 바이러스, 특히 바람직하게는, AAV는, 예를 들어, 바이러스성 입자에 본 발명의 Cas 단백질 복합체 또는 본 발명의 리보핵산 단백질 복합체의 (가역성) 융합을 통해, 세포질이든 및/또는 핵이든, 전달 비히클 (delivery vehicles)로서 사용될 수 있다.

또 다른 관점에서, 본 발명은 표적 핵산을 변형시키는 방법을 제공하며, 여기서, 적어도 하나의 기능성 모이어티는 마커 단백질 또는 리포터 단백질이고, 상기 마커 단백질 또는 리포터 단백질은 표적 핵산과 결합하며; 바람직하게는, 여기서, 상기 마커는 형광 단백질, 예를 들어, 녹색 형광 단백질 (GFP)이다.

표적 핵산을 변형시키는 전술된 방법에서, 기능성 모이어티는 마커일 수 있고, 상기 마커는 표적 핵산과 결합하며; 바람직하게는, 여기서 상기 마커는 단백질; 선택적으로 형광 단백질, 예를 들면, 녹색 형광 단백질 (GFP), 황색 형광 단백질 (YFP), 적색 형광 단백질 (RFP) 또는 mCherry이다. 시험관 내, 생체 외 또는 생체 내를 불문하고, 본 발명의 방법은, 바람직하게는, 슈퍼코일화된 플라스미드 (supercoiled plasmid) 또는 염색체와 같은, 고차 구조, 또는 mRNA과 같은 단일 가닥 표적 핵산의 형태로, 핵산 분자 내에 표적 유전자좌를 직접적으로 시각화하는데 사용될 수 있다. 표적 유전자좌의 직접 시각화는 전자 현미경, 또는 형광 현미경을 사용할 수 있다. 그러나, 본 발명의 방법의 맥락에서, 다른 종류의 라벨 (label)이, 유기 염료 분자, 동정용 방사성 동위원소 (radiolabels) 및 소분자일 수 있는 스핀 라벨 (spin labels)을 포함하는 마커로서 사용될 수 있는 것으로 인정될 것이다.

표적 핵산이 dsDNA인 표적 핵산을 변형시키는 본 발명의 방법에서, 기능성 모이어티는 뉴클레아제 또는 헬리카제-뉴클레아제일 수 있고, 및 상기 변형은 바람직하게는, 원하는 유전자좌에서 단일 가닥 또는 이중 가닥 절단이다. 이러한 방식에서, DNA의 독특한 서열 특이적 절단은, 리보핵산 단백질 복합체에 융합된 적절한 기능성 모이어티를 사용하여 조작될 수 있다. 최종 리보핵산 단백질 복합체의 RNA 성분의 선택 서열은, 기능성 모이어티의 작용을 위한 원하는 서열 특이성을 제공한다.

따라서, 본 발명은 또한 dsDNA 분자로부터 뉴클레오티드 서열의 적어도 일부를 제거하기 위해; 선택적으로 유전자 또는 유전자들의 기능을 녹아웃되게 하기 위해, 원하는 유전자좌에 세포에서 dsDNA 분자의 비-상동 말단 재조합 (non-homologous end joining) 방법을 제공하며; 여기서, 상기 방법은 전술된 바와 같은 표적 핵산을 변형시키는 방법들 중 어느 하나를 사용하여 이중 가닥 절단을 만드는 단계를 포함한다.

본 발명은 기존의 뉴클레오티드 서열을 변형시키거나 또는 원하는 뉴클레오티드 서열을 삽입하기 위해 원하는 유전자좌에 세포에서 dsDNA 분자 내로 핵산의 상동 재조합시키는 방법을 더욱 제공하며, 여기서, 상기 방법은 전술된 바와 같은 표적 핵산을 변형시키는 방법들 중 어느 하나를 사용하여 원하는 유전자좌에 이중 가닥 절단을 만드는 단계를 포함한다.

따라서, 본 발명은 또한 전술된 방법들 중 어느 하나에 따라 표적 핵산 서열을 변형시키는 단계를 포함하는 유기체에서 유전자 발현을 변형시키는 방법을 제공하며, 여기서, 상기 핵산은 dsDNA이고, 기능성 모이어티는 DNA 변형 효소 (예를 들어, 메틸라아제 또는 아세틸라제), 전사 활성인자 또는 전사 억제인자로부터 선택된다.

본 발명은 부가적으로 전술된 방법들 중 어느 하나에 따라 표적 핵산 서열을 변형시키는 단계를 포함하는 유기체에서 유전자 발현을 변형시키는 방법을 제공하며, 여기서, 상기 핵산은 mRNA이고, 기능성 모이어티는 리보뉴클레아제이며; 선택적으로 엔도뉴클레아제, 3' 엑소뉴클레아제 또는 5' 엑소뉴클레아제로부터 선택된다.

표적 핵산은 DNA, RNA 또는 합성 핵산일 수 있다. 바람직하게는, 표적 핵산은 DNA; 바람직하게는, dsDNA이다.

그러나, 표적 핵산은 RNA; 바람직하게는, mRNA일 수 있다. 따라서, 선택적으로, 본 발명은 또한 표적 핵산을 변형시키는 방법을 제공하며, 여기서 상기 표적 핵산은 RNA이다.

또 다른 관점에서, 본 발명은 표적 핵산을 변형시키는 방법을 제공하며, 여기서, 핵산은 dsDNA이고, 적어도 하나의 기능성 모이어티는 뉴클레아제 또는 헬리카제-뉴클레아제이며, 및 상기 변형은 원하는 유전자좌에서 단일-가닥 또는 이중-가닥 절단이다.

또 다른 관점에서, 본 발명은 세포에서 표적 핵산을 변형시키는 방법을 제공하며, 여기서 변형은 원하는 유전자좌에서 유전자 발현의 침묵을 결과하고; 및 여기서 상기 방법은:

a. dsDNA 분자에서 이중-가닥 절단을 만드는 단계; 및

b. 비-상동 말단 재조합 (NHEJ)에 의해 세포에서 dsDNA 분자의 복구 단계를 포함한다.

또 다른 관점에서, 본 발명은 세포에서 표적 핵산을 변형시키는 방법을 제공하며; 여기서, 기존의 뉴클레오티드 서열이 변형 또는 결손되고 및/또는 원하는 뉴클레오티드 서열이 원하는 위치에 삽입되며, 여기서 상기 방법은:

a. 원하는 유전자좌에서 이중 가닥 절단을 만드는 단계; 및

b. 상동 재조합에 의해 세포에서 dsDNA 분자의 복구 단계를 포함한다.

또 다른 관점에서, 본 발명은 전술된 바와 같은 표적 핵산 서열을 변형시키는 단계를 포함하는 세포에서 유전자 발현을 변형시키는 방법을 제공하고; 여기서, 상기 핵산은 dsDNA이며, 및 상기 기능성 모이어티는 DNA 변형 효소 (예를 들어, 메틸라아제 또는 아세틸라제), 전사 활성인자 또는 전사 억제인자로부터 선택된다.

또 다른 관점에서, 본 발명은 전술된 바와 같은 표적 핵산 서열을 변형시키는 단계를 포함하는 세포에서 유전자 발현을 변형시키는 방법을 제공하며, 여기서, 상기 핵산은 mRNA이고, 상기 기능성 모이어티는 리보뉴클레아제이며; 선택적으로 엔도뉴클레아제, 3' 엑소뉴클레아제 또는 5' 엑소뉴클레아제로부터 선택된다.

또 다른 관점에서, 본 발명은, 전술된 바와 같은 표적 핵산을 변형시키는 방법을 제공하며, 여기서 상기 방법은 45℃ 내지 100℃의 온도에서 수행된다. 바람직하게는, 상기 방법은 50℃ 이상의 온도에서 수행된다. 좀 더 바람직하게는, 상기 방법은 55℃ 내지 80℃의 온도에서 수행된다. 최적으로, 상기 방법은 60℃ 내지 65℃의 온도에서 수행된다. 선택적으로, 상기 방법은, 20℃ 내지 45℃의 온도에서 수행될 수 있다. 좀 더 바람직하게는, 30℃ 내지 45℃의 온도에서 수행된다. 더욱 바람직하게는, 37℃ 내지 45℃의 온도에서 수행된다.

전술된 표적 핵산을 변형시키는 방법 중 어느 하나에서, 세포는 원핵세포일 수 있거나, 또는 선택적으로, 진핵세포일 수 있다.

숙주 세포 (Host Cells)

유리하게는, 본 발명은 광범위한 적용성이 있고, 본 발명의 숙주 세포는, 배양될 수 있는 임의의 유전적으로 다루기 쉬운 유기체로부터 유래될 수 있다. 따라서, 본 발명은 전술된 바와 같은 방법에 의해 형질전환된 숙주 세포를 제공한다.

본 발명은 이중 가닥 표적 폴리뉴클레오티드에서 표적 핵산 서열을 갖는 형질전환된 세포를 제공하며, 상기 세포는 여기에 제공된 바와 같은 Cas 단백질 또는 폴리펩티드 및 여기에 제공된 바와 같은 적어도 하나의 표적화 RNA 분자를 포함하고, 및 발현 벡터는 상기 Cas 단백질 및 상기 표적화 RNA 분자 중 적어도 하나를 인코딩하는 핵산을 포함한다.

적절한 숙주 세포는 원핵세포 또는 진핵세포일 수 있다. 특히, 흔히 사용되는 숙주 세포는, 유전적으로 접근하기 쉽고, 배양될 수 있는 원핵세포 또는 진핵세포, 예를 들어, 원핵세포, 곰팡이 세포, 식물 세포 및 (배아 줄기세포를 제외한) 인간 세포를 포함하는 동물 세포를 포함하는 본 발명에 따른 사용을 위해 선택될 수 있다. 바람직하게는, 숙주 세포는 원핵세포, 곰팡이 세포, 식물 세포, 원생 세포 또는 동물 세포로부터 선택될 것이다. 본 발명에 따른 사용에 바람직한 숙주 세포는, 높은 성장 속도를 통상적으로 나타내며, 쉽게 배양되거나 및/또는 형질전환되고, 짧은 세대 시간을 나타내는 종, 그들과 관련된 확립된 유전자원 (genetic resources)을 갖는 종들 또는 특정 조건하에서 이종 단백질의 최적 발현을 위해 선택, 변형 또는 합성되는 종들로부터 흔히 유래된다. 관심의 단백질이 궁극적으로 특정 산업적, 농업적, 화학적 또는 치료적 환경에 사용되는 본 발명의 바람직한 구체 예에서, 적절한 숙주 세포는, 관심의 단백질이 효율적으로 활용되는 원하는 특별한 조건 또는 세포내 환경에 기초하여 선택될 수 있다. 바람직하게는, 숙주 세포는 원핵세포일 것이다. 바람직한 구체 예에서, 숙주 세포는 박테리아 세포이다. 숙주 세포는, 예를 들어, 대장균 (E. coli) 세포일 수 있다. 바람직하게는, 상기 숙주 세포는 호열성 박테리아의 세포일 것이다.

여기에 기재된 본 발명의 방법 및 사용은 박테리아 세포의 게놈을 변형시키는데 사용될 수 있다. 특별한 구체 예에서, 상기 박테리아는 호열성 박테리아, 바람직하게는: Acidithiobacillus caldus 를 포함하는 Acidithiobacillus 종 (species); Aeribacillus pallidus를 포함하는 Aeribacillus 종; Alicyclobacillus acidocaldarius, Alicyclobacillus acidoterrestris, Alicyclobacillus cycloheptanicusI, Alicyclobacillus hesperidum를 포함하는 Alicyclobacillus 종; Anoxybacillus caldiproteolyticus, Anoxybacilus flavithermus, Anoxybacillus rupiensis, Anoxybacillus tepidamans를 포함하는 Anoxybacillus 종; Bacillus caldolyticus , Bacillus caldotenax , Bacillus caldovelox , Bacillus coagulans , Bacillus clausii , Bacillus licheniformis , Bacillus methanolicus , 바실러스 스미시이 ET138 를 포함하는 바실러스 스미시이, Bacillus subtilis , Bacillus thermocopriae, Bacillus thermolactis, Bacillus thermoamylovorans , Bacillus thermoleovorans를 포함하는 Bacillus 종; Caldibacillus debilis를 포함하는 Caldibacillus 종; Caldicellulosiruptor bescii , Caldicellulosiruptor hydrothermalis , Caldicellulosiruptor kristjanssonii, Caldicellulosiruptor kronotskyensis, Caldicellulosiruptor lactoaceticus, Caldicellulosiruptor obsidiansis, Caldicellulosiruptor owensensis, Caldicellulosiruptor saccharolyticus를 포함하는 Caldicellulosiruptor 종; Clostridium clariflavum, Clostridium straminisolvens, Clostridium tepidiprofundi, Clostridium thermobutyricum, Clostridium thermocellum, Clostridium thermosuccinogenes, Clostridium thermopalmarium를 포함하는 Clostridium 종; Deinococcus cellulosilyticus , Deinococcus deserti , Deinococcus geothermalis , Deinococcus murrayi , Deinococcus radiodurans 를 포함하는 Deinococcus 종; Defluviitalea phaphyphila를 포함하는 Defluviitalea 종; Desulfotomaculum carboxydivorans, Desulfotomaculum nigrificans, Desulfotomaculum salinum, Desulfotomaculum solfataricum를 포함하는 Desulfotomaculum 종; Desulfurella acetivorans를 포함하는 Desulfurella 종; Desulfurobacterium thermolithotrophum를 포함하는 Desulfurobacterium 종; Geobacillus icigianus, Geobacillus caldoxylosilyticus, Geobacillus jurassicus, Geobacillus galactosidasius, Geobacillus kaustophilus, Geobacillus lituanicus, Geobacillus stearothermophilus, Geobacillus subterraneus, Geobacillus thermantarcticus, Geobacillus thermocatenulatus, 지오바실러스 써모데니트리피칸스 , Geobacillus thermoglucosidans, Geobacillus thermoleovorans, Geobacillus toebii, Geobacillus uzenensis, Geobacillus vulcanii, Geobacillus zalihae를 포함하는 지오바실러스 종; Hydrogenobacter thermophiles를 포함하는 Hydrogenobacter 종; Hydrogenobaculum acidophilum를 포함하는 Hydrogenobaculum 종; Ignavibacterium album를 포함하는 Ignavibacterium 종; Lactobacillus bulgaricus , Lactobacillus delbrueckii , Lactobacillus ingluviei, Lactobacillus thermotolerans 를 포함하는 Lactobacillus 종; Marinithermus hydrothermalis를 포함하는 Marinithermus 종; Moorella thermoacetica 를 포함하는 Moorella 종; Oceanithermus desulfurans, Oceanithermus profundus를 포함하는 Oceanithermus 종; Paenibacillus sp. J2, Paenibacillus marinum, Paenibacillus thermoaerophilus를 포함하는 Paenibacillus 종; Persephonella guaymasensis, Persephonella hydrogeniphila, Persephonella marina를 포함하는 Persephonella 종; Rhodothermus marinus , Rhodothermus obamensis, Rhodothermus profundi를 포함하는 Rhodothermus 종; Sulfobacillus acidophilus를 포함하는 Sulfobacillus 종; Sulfurihydrogenibium azorense, Sulfurihydrogenibium kristjanssonii, Sulfurihydrogenibium rodmanii, Sulfurihydrogenibium yellowstonense를 포함하는 Sulfurihydrogenibium 종; Symbiobacterium thermophilum, Symbiobacterium toebii를 포함하는 Symbiobacterium 종; Thermoanaerobacter brockii , Thermoanaerobacter ethanolicus , Thermoanaerobacter italicus, Thermoanaerobacter kivui, Thermoanaerobacter marianensis, Thermoanaerobacter mathranii, Thermoanaerobacter pseudoethanolicus, Thermoanaerobacter wiegelii를 포함하는 Thermoanaerobacter 종; Thermoanaerobacterium aciditolerans, Thermoanaerobacterium aotearoense, Thermoanaerobacterium ethanolicus, Thermoanaerobacterium pseudoethanolicus , Thermoanaerobacterium saccharolyticum , Thermoanaerobacterium thermosaccharolyticum , Thermoanaerobacterium xylanolyticum 를 포함하는 Thermoanaerobacterium 종; Thermobacillus composti, Thermobacillus xylanilyticus를 포함하는 Thermobacillus 종; Thermocrinis albus, Thermocrinis ruber를 포함하는 Thermocrinis 종; Thermodesulfatator atlanticus, Thermodesulfatator autotrophicus, Thermodesulfatator indicus를 포함하는 Thermodulfatator 종; Thermodesulfobacterium commune, Thermodesulfobacterium hydrogeniphilum를 포함하는 Thermodesulfobacterium 종; Thermodesulfobium narugense를 포함하는 Thermodesulfobium 종; Thermodesulfovibrio aggregans, Thermodesulfovibrio thiophilus, Thermodesulfovibrio yellowstonii를 포함하는 Thermodesulfovibrio 종; Thermosipho africanus, Thermosipho atlanticus, Thermosipho melanesiensis를 포함하는 Thermosipho 종; Thermotoga maritima , Thermotoga neopolitana, Thermotoga sp. RQ7를 포함하는 Thermotoga 종; Thermovibrio ammonificans, Thermovibrio ruber를 포함하는 Thermovibrio 종; Thermovirga lienii and Thermus species including Thermus aquaticus , Thermus caldophilus , Thermus flavus , Thermus scotoductus , Thermus thermophilus 를 포함하는 Thermovirga 종; Thiobacillus neapolitanus로부터 선택된다.

또 다른 관점에서, 여기서 기재된 방법 또는 사용은 중온성인 박테리아를 변형시키는데 사용될 수 있다. 바람직한 구체 예에서, 박테리아는: Acidithiobacillus caldus 를 포함하는 Acidithiobacillus 종; Actinobacillus succinogenes 를 포함하는 Actinobacillus 종; Anaerobiospirillum succiniciproducens를 포함하는 Anaerobiospirillum 종; Bacillus alcaliphilus , Bacillus amyloliquefaciens , Bacillus circulans, Bacillus cereus , Bacillus clausii , Bacillus firmus, Bacillus halodurans, Bacillus lautus, Bacillus lentus, Bacillus licheniformis , Bacillus megaterium , Bacillus pumilus, Bacillus subtilis , Bacillus thuringiensis 를 포함하는 Bacillus 종; Basfia succiniciproducens 를 포함하는 Basfia 종; Brevibacillus brevis 를 포함하는 Brevibacillus 종; Brevibacillus laterosporus ; Clostridium acetobutylicum, Clostridium autoethanogenum , Clostridium beijerinkii , Clostridium carboxidivorans, Clostridium cellulolyticum , Clostridium ljungdahlii , Clostridium pasteurianum , Clostridum perfringens , Clostridium ragsdalei, Clostridium saccharobutylicum, Clostridium saccharoperbutylacetonium를 포함하는 Clostridium 종; Corynebacterium glutamicum 를 포함하는 Corynebacterium 종; Desulfitobacterium dehalogenans , Desulfitobacterium hafniense를 포함하는 Desulfitobacterium 종; Desulfotomaculum acetoxidans, Desulfotomaculum gibsoniae, Desulfotomaculum reducens, Desulfotomaculum ruminis를 포함하는 Desulfotomaculum 종; Enterobacter asburiae를 포함하는 Enterobacter 종; Enterococcus faecalis 를 포함하는 Enterococcus 종; Escherichia coli 를 포함하는 Escherichia 종; Lactobacillus acidophilus , Lactobacillus amylophilus , Lactobacillus amylovorus , Lactobacillus animalis, Lactobacillus arizonensis, Lactobacillus bavaricus , Lactobacillus brevis , Lactobacillus buchneri , Lactobacillus bulgaricus , Lactobacillus casei , Lactobacillus corynoformis, Lactobacillus crispatus , Lactobacillus curvatus , Lactobacillus delbrueckii , Lactobacillus fermentum , Lactobacillus gasseri , Lactobacillus helveticus , Lactobacillus johnsonii , Lactobacillus pentosus , Lactobacillus plantarum , Lactobacillus reuteri , Lactobacillus rhamnosus , Lactobacillus sakei , Lactobacillus salivarius , Lactobacillus sanfriscensis 를 포함하는 Lactobacillus 종; Mannheimia succiniciproducens 를 포함하는 Mannheimia 종; Paenibacillus alvei , Paenibacillus beijingensis, Paenibacillus borealis, Paenibacillus dauci, Paenibacillus durus, Paenibacillus graminis, Paenibacillus larvae , Paenibacillus lentimorbus, Paenibacillus macerans, Paenibacillus mucilaginosus, Paenibacillus odorifer, Paenibacillus polymyxa , Paenibacillus stellifer, Paenibacillus terrae, Paenibacillus wulumuqiensis를 포함하는 Paenibacillus 종; Pediococcus acidilactici , Pediococcus claussenii, Pediococcus ethanolidurans, Pediococcus pentosaceus 를 포함하는 Pediococcus 종; Salmonella typhimurium; Sporolactobacillus inulinus, Sporolactobacillus laevolacticus를 포함하는 Sporolactobacillus 종; Staphylococcus aureus; Streptococcus agalactiae , Streptococcus bovis , Streptococcus equisimilis, Streptococcus feacalis, Streptococcus mutans, Streptococcus oralis, Streptococcus pneumonia, Streptococcus pyogenes, Streptococcus salivarius, Streptococcus thermophilus , Streptococcus sobrinus, Streptococcus uberis를 포함하는 Streptococcus 종; Streptomyces achromogenes, Streptomyces avermitilis, Streptomyces coelicolor , Streptomyces griseus, Streptomyces lividans , Streptomyces parvulus , Streptomyces venezuelae, Streptomyces vinaceus 를 포함하는 Streptomyces 종; Tetragenococcus halophilus 를 포함하는 Tetragenococcus 종 및 Zymomonas mobilis 를 포함하는 Zymomonas 종으로부터 선택된다.

또 다른 관점에서, 여기에 정의된 방법 또는 사용은 효모 또는 곰팡이의 게놈을 변형시키는데 사용될 수 있다. 특정 구체 예에서, 곰팡이 종은 중온성이고, 바람직하게는, 곰팡이는: Aspergillus nidulans , Aspergillus niger , Aspergillus terreus, Aspergillus oryzae and Aspergillus terreus를 포함하지만, 이에 제한되지 않는, Aspegillus 종으로부터 선택되고, 더욱 바람직하게는, Aspergillus 종은 Aspergillus nidulans 또는 Aspergillus niger이다. 선택적으로, 상기 중온성 곰팡이 종은 Candida 종일 수 있다.

본 발명은, 호열성인 효모 또는 곰팡이 종을 변형시키는데 여기서 정의된 바와 같은 사용 방법과 더욱 관련되고, 바람직하게는, 곰팡이 또는 효모는: Aspergillus fumigatus , Aspergillus nidulans , Aspergillus terreus, Aspergillus versicolor를 포함하는 Aspergillus 종; Canariomyces thermophile를 포함하는 Canariomyces 종; Chaetomium mesopotamicum, Chaetomium thermophilum 를 포함하는 Chaetomium 종; Candida bovina, Candida sloofii, Candida thermophila, Candida tropicalis , Candida krusei (=Issatchenkia orientalis)를 포함하는 Candida 종; Cercophora coronate, Cercophora septentrionalis를 포함하는 Cercophora 종; Coonemeria aegyptiaca를 포함하는 Coonemeria 종; Corynascus thermophiles를 포함하는 Corynascus 종; Geotrichum candidum를 포함하는 Geotrichum 종; Kluyveromyces fragilis , Kluyveromyces marxianus 를 포함하는 Kluyveromyces 종; Malbrnchea cinnamomea, Malbranchea sulfurea를 포함하는 Malbranchea 종; Melanocarpus albomyces를 포함하는 Melanocarpus 종; Myceliophthora fergusii, Myceliophthora thermophila를 포함하는 Myceliophtora 종; Mycothermus thermophiles (=Scytalidium thermophilum/Torula thermophila)를 포함하는 Mycothermus 종; Myriococcum thermophilum를 포함하는 Myriococcum 종; Paecilomyces thermophila를 포함하는 Paecilomyces 종; Remersonia thermophila를 포함하는 Remersonia 종; Rhizomucor pusillus, Rhizomucor tauricus 를 포함하는 Rhizomucor 종; Saccharomyces cerevisiae 를 포함하는 Saccharomyces 종; Schizosaccharomyces pombe 를 포함하는 Schizosaccharomyces 종; Scytalidium thermophilum를 포함하는 Scytalidium 종; Sordaria thermophila를 포함하는 Sordaris 종; Thermoascus aurantiacus, Thermoascus thermophiles를 포함하는 Thermoascus 종; Thermomucor indicae-seudaticae를 포함하는 Thermomucor 종; 및 Thermomyces ibadanensis, Thermomyces lanuginosus 를 포함하는 Thermomyces 종으로부터 선택된다.

전술된 목록에서, 굵은 활자체로 식별된 미생물은 본 발명에 사용하기에 특히 적절한/적용가능한 것으로 밝혀졌다.

본 발명의 몇몇 바람직한 구체 예는: Aeribacillus, Alicyclobacillus, Anoxybacillus, Bacillus, Geobacillus를 포함하는 호열성 바실러스; Paenibacillus 종; Anaerobacterium, Caldicellulosiruptor, Clostridium, Moorella, Thermoanaerobacter, Thermoanaerobacterium, Thermobrachium, Thermohalobacter 종 또는 하나 이상의 호열성 락토바실러스 종을 포함하는 호열성 clostridia로부터 선택된 하나 이상의 호열성 미생물 및 및 Bacillus 종, Escherichia coli, 및 Lactobacillus 종으로부터 선택된 중온성 박테리아를 포함한다.

이하는 본 발명에 따라 사용된 Cas 단백질의 폴리뉴클레오티드 및 아미노산 서열이다.

[SEQ ID NO: 1] 지오바실러스 써모데니트리피칸스 T12 Cas9 단백질 AA 서열

MKYKIGLDIGITSIGWAVINLDIPRIEDLGVRIFDRAENPKTGESLALPRRLARSARRRLRRRKHRLERIRRLFVREGILTKEELNKLFEKKHEIDVWQLRVEALDRKLNNDELARILLHLAKRRGFRSNRKSERTNKENSTMLKHIEENQSILSSYRTVAEMVVKDPKFSLHKRNKEDNYTNTVARDDLEREIKLIFAKQREYGNIVCTEAFEHEYISIWASQRPFASKDDIEKKVGFCTFEPKEKRAPKATYTFQSFTVWEHINKLRLVSPGGIRALTDDERRLIYKQAFHKNKITFHDVRTLLNLPDDTRFKGLLYDRNTTLKENEKVRFLELGAYHKIRKAIDSVYGKGAAKSFRPIDFDTFGYALTMFKDDTDIRSYLRNEYEQNGKRMENLADKVYDEELIEELLNLSFSKFGHLSLKALRNILPYMEQGEVYSTACERAGYTFTGPKKKQKTVLLPNIPPIANPVVMRALTQARKVVNAIIKKYGSPVSIHIELARELSQSFDERRKMQKEQEGNRKKNETAIRQLVEYGLTLNPTGLDIVKFKLWSEQNGKCAYSLQPIEIERLLEPGYTEVDHVIPYSRSLDDSYTNKVLVLTKENREKGNRTPAEYLGLGSERWQQFETFVLTNKQFSKKKRDRLLRLHYDENEENEFKNRNLNDTRYISRFLANFIREHLKFADSDDKQKVYTVNGRITAHLRSRWNFNKNREESNLHHAVDAAIVACTTPSDIARVTAFYQRREQNKELSKKTDPQFPQPWPHFADELQARLSKNPKESIKALNLGNYDNEKLESLQPVFVSRMPKRSITGAAHQETLRRYIGIDERSGKIQTVVKKKLSEIQLDKTGHFPMYGKESDPRTYEAIRQRLLEHNNDPKKAFQEPLYKPKKNGELGPIIRTIKIIDTTNQVIPLNDGKTVAYNSNIVRVDVFEKDGKYYCVPIYTIDMMKGILPNKAIEPNKPYSEWKEMTEDYTFRFSLYPNDLIRIEFPREKTIKTAVGEEIKIKDLFAYYQTIDSSNGGLSLVSHDNNFSLRSIGSRTLKRFEKYQVDVLGNIYKVRGEKRVGVASSSHSKAGETIRPL*

[SEQ ID NO: 7] 지오바실러스 써모데니트리피칸스 T12 Cas9 DNA 서열

ATGAAGTATAAAATCGGTCTTGATATCGGCATTACGTCTATCGGTTGGGCTGTCATTAATTTGGACATTCCTCGCATCGAAGATTTAGGTGTCCGCATTTTTGACAGAGCGGAAAACCCGAAAACCGGGGAGTCACTAGCTCTTCCACGTCGCCTCGCCCGCTCCGCCCGACGTCGTCTGCGGCGTCGCAAACATCGACTGGAGCGCATTCGCCGCCTGTTCGTCCGCGAAGGAATTTTAACGAAGGAAGAGCTGAACAAGCTGTTTGAAAAAAAGCACGAAATCGACGTCTGGCAGCTTCGTGTTGAAGCACTGGATCGAAAACTAAATAACGATGAATTAGCCCGCATCCTTCTTCATCTGGCTAAACGGCGTGGATTTAGATCCAACCGCAAGAGTGAGCGCACCAACAAAGAAAACAGTACGATGCTCAAACATATTGAAGAAAACCAATCCATTCTTTCAAGTTACCGAACGGTTGCAGAAATGGTTGTCAAGGATCCGAAATTTTCCCTGCACAAGCGTAATAAAGAGGATAATTACACCAACACTGTTGCCCGCGACGATCTTGAACGGGAAATCAAACTGATTTTCGCCAAACAGCGCGAATATGGGAACATCGTTTGCACAGAAGCATTTGAACACGAGTATATTTCCATTTGGGCATCGCAACGCCCTTTTGCTTCTAAGGATGATATCGAGAAAAAAGTCGGTTTCTGTACGTTTGAGCCTAAAGAAAAACGCGCGCCAAAAGCAACATACACATTCCAGTCCTTCACCGTCTGGGAACATATTAACAAACTTCGTCTTGTCTCCCCGGGAGGCATCCGGGCACTAACCGATGATGAACGTCGTCTTATATACAAGCAAGCATTTCATAAAAATAAAATCACCTTCCATGATGTTCGAACATTGCTTAACTTGCCTGACGACACCCGTTTTAAAGGTCTTTTATATGACCGAAACACCACGCTGAAGGAAAATGAGAAAGTTCGCTTCCTTGAACTCGGCGCCTATCATAAAATACGGAAAGCGATCGACAGCGTCTATGGCAAAGGAGCAGCAAAATCATTTCGTCCGATTGATTTTGATACATTTGGCTACGCATTAACGATGTTTAAAGACGACACCGACATTCGCAGTTACTTGCGAAACGAATACGAACAAAATGGAAAACGAATGGAAAATCTAGCGGATAAAGTCTATGATGAAGAATTGATTGAAGAACTTTTAAACTTATCGTTTTCTAAGTTTGGTCATCTATCCCTTAAAGCGCTTCGCAACATCCTTCCATATATGGAACAAGGCGAAGTCTACTCAACCGCTTGTGAACGAGCAGGATATACATTTACAGGGCCAAAGAAAAAACAGAAAACGGTATTGCTGCCGAACATTCCGCCGATCGCCAATCCGGTCGTCATGCGCGCACTGACACAGGCACGCAAAGTGGTCAATGCCATTATCAAAAAGTACGGCTCACCGGTCTCCATCCATATCGAACTGGCCCGGGAACTATCACAATCCTTTGATGAACGACGTAAAATGCAGAAAGAACAGGAAGGAAACCGAAAGAAAAACGAAACTGCCATTCGCCAACTTGTTGAATATGGGCTGACGCTCAATCCAACTGGGCTTGACATTGTGAAATTCAAACTATGGAGCGAACAAAACGGAAAATGTGCCTATTCACTCCAACCGATCGAAATCGAGCGGTTGCTCGAACCAGGCTATACAGAAGTCGACCATGTGATTCCATACAGCCGAAGCTTGGACGATAGCTATACCAATAAAGTTCTTGTGTTGACAAAGGAGAACCGTGAAAAAGGAAACCGCACCCCAGCTGAATATTTAGGATTAGGCTCAGAACGTTGGCAACAGTTCGAGACGTTTGTCTTGACAAATAAGCAGTTTTCGAAAAAGAAGCGGGATCGACTCCTTCGGCTTCATTACGATGAAAACGAAGAAAATGAGTTTAAAAATCGTAATCTAAATGATACCCGTTATATCTCACGCTTCTTGGCTAACTTTATTCGCGAACATCTCAAATTCGCCGACAGCGATGACAAACAAAAAGTATACACGGTCAACGGCCGTATTACCGCCCATTTACGCAGCCGTTGGAATTTTAACAAAAACCGGGAAGAATCGAATTTGCATCATGCCGTCGATGCTGCCATCGTCGCCTGCACAACGCCGAGCGATATCGCCCGAGTCACCGCCTTCTATCAACGGCGCGAACAAAACAAAGAACTGTCCAAAAAGACGGATCCGCAGTTTCCGCAGCCTTGGCCGCACTTTGCTGATGAACTGCAGGCGCGTTTATCAAAAAATCCAAAGGAGAGTATAAAAGCTCTCAATCTTGGAAATTATGATAACGAGAAACTCGAATCGTTGCAGCCGGTTTTTGTCTCCCGAATGCCGAAGCGGAGCATAACAGGAGCGGCTCATCAAGAAACATTGCGGCGTTATATCGGCATCGACGAACGGAGCGGAAAAATACAGACGGTCGTCAAAAAGAAACTATCCGAGATCCAACTGGATAAAACAGGTCATTTCCCAATGTACGGGAAAGAAAGCGATCCAAGGACATATGAAGCCATTCGCCAACGGTTGCTTGAACATAACAATGACCCAAAAAAGGCGTTTCAAGAGCCTCTGTATAAACCGAAGAAGAACGGAGAACTAGGTCCTATCATCCGAACAATCAAAATCATCGATACGACAAATCAAGTTATTCCGCTCAACGATGGCAAAACAGTCGCCTACAACAGCAACATCGTGCGGGTCGACGTCTTTGAGAAAGATGGCAAATATTATTGTGTCCCTATCTATACAATAGATATGATGAAAGGGATCTTGCCAAACAAGGCGATCGAGCCGAACAAACCGTACTCTGAGTGGAAGGAAATGACGGAGGACTATACATTCCGATTCAGTCTATACCCAAATGATCTTATCCGTATCGAATTTCCCCGAGAAAAAACAATAAAGACTGCTGTGGGGGAAGAAATCAAAATTAAGGATCTGTTCGCCTATTATCAAACCATCGACTCCTCCAATGGAGGGTTAAGTTTGGTTAGCCATGATAACAACTTTTCGCTCCGCAGCATCGGTTCAAGAACCCTCAAACGATTCGAGAAATACCAAGTAGATGTGCTAGGCAACATCTACAAAGTGAGAGGGGAAAAGAGAGTTGGGGTGGCGTCATCTTCTCATTCGAAAGCCGGGGAAACTATCCGTCCGTTATAA

실시 예 1: 지오바실러스 써모데니트리피칸스의 단리

G. 써모데니트리피칸스는, 놀랍게도 혐기성 조건하에서 리그노셀룰로스 기질 (lignocellulosic substrates)을 분해할 수 있는 호열균에 대한 ±500 단리균 (isolates)의 라이브러리의 검색 동안에 발견되었다. 처음에, ±500 단리균의 라이브러리는 확립되고, 셀룰로오스 및 크실란 상에 단리에 의한 여러 차례의 선택 라운드 후에 110 단리균까지 줄인다. 110 단리균의 라이브러리는, 라이브러리의 79%를 나타내는 G. 써모데니트리피칸스로, 지오바실러스 단리균 만으로 이루어진다.

단리된 G. 써모데니트리피칸스 균주는 "T12"로 명명된다. G. 써모데니트리피칸스 T12 유래의 Cas9 단백질은 "gtCas9"로 명명된다.

실시 예 2: 지오바실러스 써모데니트리피칸스에서 Cas9에 대한 필수적인 공통 서열 (consensus sequences)을 정의

다음의 데이터베이스 검색 및 정렬은 수행된다:

pBLAST 및 nBLAST는 G. 써모데니트리피칸스 T12의 단백질 또는 유전자 서열이 질의 서열 (query sequence)로서 사용되는, 사내의 BLAST 서버상에서 수행된다. 이 데이터베이스는 2014년 5월에 최종 업데이트되었으며, 따라서 가장 최근에 추가된 지오바실러스 게놈을 함유하지 않지만, 보통 온라인 BLAST는 T12 서열의 공개를 방지하는데 사용되지 않았다. BLAST 검색에서 40%를 초과하는 것으로 동정된 서열 동일성은 도 1에 포함된다.

더 최근의 서열 데이터를 포함하기 위해, (gtCas9에 가장 밀접하게 관련된) 지오바실러스 MAS1의 서열은, NCBI 웹사이트 상에서 PSI-BLAST를 수행하는데 사용된다 (Johnson et al., 2008 Nucleic Acids Res. 36(Web Server issue): W5-9). 2 연속 라운드의 PSI-BLAST는 수행되며, 여기서, 하기의 기준에 부합하는 서열만이 다음 라운드에 사용된다: 제1 라운드에서 96% 및 제2 및 제3 라운드에서 97%의 최소 서열 커버리지, 최소 동일성 40%, 종에 대하여 오직 하나의 가닥.

PSI-BLAST로부터 결과하는 서열뿐만 아니라, PSI-BLAST에 나타나지 않은 내부 서버 pBLAST로부터 T12와 40% 초과의 동일성을 갖는 서열은, 현재 잘-특징화된 중온성 서열 및 현재 동정된 모든 호열성 서열도, 이들이 더 먼 관계인 경우와 함께, 정열되며, 이로부터 근린-결합 트리는 구성된다 (도 1 참조). 정렬은 ClustalW를 사용하여 Mega6에서 수행되고, 그 이후 트리는 근린-결합 방법을 사용하여 구축되며, 부트스트랩 분석 (bootstrap analysis)은 1000 반복수 (replicates)를 사용하여 수행된다.

BLASTn이 질의 서열로서 지오바실러스 속 MAS1을 사용하여 수행된 경우, 오직 지오바실러스 속 JF8 Cas9는 88%의 동일성으로 동정되어, 유전자 수준에서 매우 적은 상동성을 나타낸다. 도 2는 클러스탈-정렬된 (Clustal-aligned) Cas9 유전자 서열의 근린-결합 트리이다.

G. 써모데니트리피칸스 T12, A. naeslundii 및 S. pyogenes의 단백질 서열은, BLOSUM62를 기본 설정 (default settings)으로 사용하여 CloneManager에서 이들을 정렬하여 단백질 도메인 상동성을 위해 더욱 분석된다 (도 3 참조).

실시 예 3: CAS9의 기능에 필수적인 코어 아미노산 모티프 및 호열성 Cas9 뉴클레아제에서 열안정성을 부여하는 아미노산 모티프의 동정

전술된 정렬된 단백질 서열의 퍼센트 동일성은 도 1에 제공된다. gtCas9는 타입 Ⅱ-C에 속한다. 타입 Ⅱ-C 시스템의 가장 자주-연구되고, 최근에 결정화된 구조는, Actinomyces naeslundii에서 유래된다 (Jinek et al., 2014, Science 343: 1247997). 이 단백질 서열은 gtCas9에 대해 단지 20%의 동일성을 나타내지만, 고도로 보존된 잔기 (conserved residues)를 추정하는데 사용될 수 있다. 두 개의 잘-특징화된 타입 Ⅱ-A 시스템 (S. pyogenes 및 S. thermophilus)은 또한 분석에 포함된다 (Jinek et al., 2014, Science 343: 1247997; Nishimasu et al., 2014, Cell 156: 935-949). 이들 4개의 단백질 서열의 정렬은, 도 3에 나타내고; 도 4는 A. naeslundii ('Ana-Cas9')에 대해 결정된 바와 같은 단백질 아키텍쳐 (protein architecture)를 나타낸다 (Jinek et al., 2014, Science 343: 1247997). t12 (gtCas9) 및 Actinomyces naeslundii 유래의 Cas9의 길이는, 매우 유사하고 (A. naeslundii 1101 aa, T12 1082 aa) 및 gtCas9는 유사한 단백질 아키텍쳐를 가질 것으로 예상되지만, cas9-Ana에 대한 전체 서열 동일성이 단지 20%이기 때문에, 이것은 아직 결정되지 않는다. A. naeslundii 및 S. pyogenes 유래의 Cas9에서 Jinek et al. (Jinek et al., 2014, Science 343: 1247997)에 의해 기재된 모든 활성 부위 잔기는 gtCas9에서 동정될 수 있다 (도 3 참조). PAM-결합 도메인은, S. pyogenes 타입 Ⅱ-A 시스템에 대해 결정되어 있지만, 임의의 타입 Ⅱ-C 시스템에 대해서는 결정되지 않고, 따라서 S. pyogenes 서열에서만 나타난다. 게다가, PAM-인식 부위는, CRISPR 시스템들 사이뿐만 아니라 동일한 시스템을 함유하는 종들 사이에서도, 강하게 변한다.

실시 예 4: G. 써모데니트리피칸스 gtCas9의 PAM 서열의 결정

원핵생물 CRISPR 시스템이 적응 면역 시스템으로서 이들의 숙주에 도움이 되고 (Jinek et al., 2012, Science 337: 816-821), 및 신속하고 효과적인 유전 공학을 위해 사용될 수 있는 것으로 확립되었다 (Mali et al., 2013, Nat Methods 10: 957-963.).

Cas9 단백질은 타입 Ⅱ CRISPR 시스템에 대한 서열-특이적 뉴클레아제로서 기능한다 (Makarova et al., 2011, Nat Rev Micro 9: 467-477). 반복 영역에 연결된 "스페이서" (표적)로 이루어진, 작은 crRNA 분자는, CRISPR 유전자좌의 전사 및 공정 산물 (processing products)이다. "스페이서"는 박테리오파지 및 유동적 유전 인자 (mobile genetic elements)의 게놈에서 자연적으로 기원하지만, 이들은 또한 유전 공학 공정 동안, 특이적 뉴클레오티드 서열을 표적으로 하도록 디자인될 수도 있다 (Bikard et al., 2013, Nucleic Acids Research 41: 7429-7437). crRNA 분자는 이들의 DNA 표적의 동정을 위한 가이드로서 Cas9에 의해 이용된다. 상기 스페이서 영역은 절단 DNA 영역에 대한 표적물인, "프로토스페이서"와 동일하다 (Brouns et al., 2012, Science 337: 808-809). 프로토스페이서 다음의, PAM (Protospacer Adjacent Motif)은, Cas9에 의한 표적의 인지를 위해 요구된다 (Jinek et al., 2012, Science 337: 816-821).

타입 Ⅱ 시스템에 대한 시험관 내 또는 생체 내 PAM-결정 연구를 수행하기 위해, 시스템의 CRISPR 어레이, tracrRNA-발현 모듈을 인실리코 예측하는 것은 필요하다. CRISPR 어레이는 crRNA 모듈의 동정을 위해 사용된다. tracrRNA-발현 서열은, 500 bp-윈도우 플랜킹 Cas9 (500 bp-window flanking Cas9) 내에 또는 Cas 유전자와 CRISPR 유전자좌 사이에 위치된다 (Chylinski, K., et al. (2014) Classification and evolution of type II CRISPR-Cas systems. Nucleic Acids Res. 42, 6091-6105). tracrRNA는 CRISPR 어레이의 직접 반복에 대한 높은 수준의 상보성을 갖는 5'-서열, 뒤이어 2개 이상의 스템-루프 구조 및 Rho-비의존 전사 종결 신호의 예측된 구조로 이루어져야 한다 (Ran, F.A., et al. (2015) In vivo genome editing using Staphylococcus aureus Cas9. Nature 520, 186-191). crRNA 및 tracrRNA 분자는 그 다음 키메라 sgRNA 모듈을 디자인하는데 사용될 수 있다. sgRNA의 5'-말단은, CRISPR 어레이의 절단된 (truncated) 20nt 길이의 스페이서 뒤이어 16-20nt 길이의 절단된 반복으로 이루어진다. 이 반복은 상응하는 절단된 anti-반복 및 tracrRNA 모듈의 스템 루프가 뒤따른다. sgRNA의 반복 및 anti-반복 부분은, 일반적으로 GAAA 링커에 연결된다 (Karvelis, T., et al. (2015) Rapid characterization of CRISPR-Cas9 protospacer adjacent motif sequence elements. Genome Biol. 16, 253).

G. 써모데니트리피칸스 T12 타입 Ⅱc CRISPR 시스템의 cas 유전자들 (cas9 뒤이어 cas1 및 cas2 유전자)은, T12 염색체의 안티센스 가닥 (antisense strand)을 사용하여 전사된다. cas2 유전자는 100bp 길이의 DNA 단편이 뒤따르고, 전사시 다중 루프를 갖는 RNA 구조를 형성한다. 이 구조는 분명히 전사 종결인자 (transcriptional terminator)의 역할을 한다.

11개의 반복 및 10개의 스페이서 서열을 갖는 CRISPR 어레이는, 전사 종결 서열의 업스트림에 위치되며, 어레이의 리더는 어레이의 5' 말단에 위치된다. tracrRNA로 전사되는 DNA 유전자좌는, cas9 유전자의 다운스트림에 존재할 것으로 예상된다. CRISPR 어레이로부터 36bp 길이의 반복을 갖는 cas9 유전자의 다운스트림 우측에 325bp 길이의 서열의 정렬은 (도 6에 나타낸) 반복과 거의 동일한 tracrRNA 유전자좌에 36bp 길이의 서열이 있음이 밝혀졌다. 이 결과는 tracrRNA 유전자좌의 전사의 방향이 CRISPR 어레이의 전사의 방향과 반대이어야 한다는 결론을 이끌어냈다. 결과적으로, tracrRNA의 5'말단은 crRNA의 3'-말단에 상보적일 것이어서, -Cas9가 필요로 하는- 이중-RNA 분자의 형성으로 이어진다.

실시 예 5: 무작위화된 PAM을 갖는 표적 발생

G. 써모데니트리피칸스 T12 균주의 CRISPR Ⅱ 유전자좌로부터 두 개의 다른 스페이서는, 주형 (template)으로서 G. 써모데니트리피칸스 T12 게놈 DNA를 사용하는 PCR에 의해 증폭된다. 2쌍의 축퇴 프라이머 (degenerate primers)는 각 스페이서의 증폭을 위해 사용된다:

먼저, "프로토스페이서" 단편의 업스트림에 6개의 무작위 뉴클레오티드의 도입을 일으키는 쌍은 사용되어, 무작위화된 PAM 서열을 갖는 프로토스페이서의 풀 (pool)의 생성으로 이어진다.

둘째로, "프로토스페이서" 단편의 다운스트림에 6개의 무작위 뉴클레오티드의 도입을 일으키는 쌍은 사용되어, 무작위화된 PAM 서열을 갖는 프로토스페이서의 풀의 생성으로 이어진다.

생성된 단편은 pNW33n 벡터에 결찰되어, 6-뉴클레오티드 길이의 각 PAMs의 모든 가능한 4096의 다른 조합을 갖는, "프로토스페이서" 구축물의 4 풀을 생성한다. 조립된 DNA는 G. 써모데니트리피칸스 T12 세포의 형질전환을 위해 사용된다. 세포는 클로람페니콜 선택 (chloramphenicol selection) 상에 평판 배양되고 및 각 프로토스페이서 풀 유래의 2 x 10⁶ 이상의 세포는 풀이 될 (pooled) 것이다. 플라스미드 DNA는 풀로부터 추출되고, 표적 영역은 PCR 증폭될 것이며, 생성물은 딥 시퀀싱 (deep sequencing)을 위해 보내진다. 가장 적은 리드 (reads)를 갖는 PAMs은 활성인 것으로 고려될 것이고, 상기 공정은 이들 PAMs을 갖는 스페이서를 함유하는 pNW33n 구축물을 이용하여 오직 반복될 것이다. G. 써모데니트리피칸스 T12의 감소된 형질전환 효율은, PAMs의 활성을 확인하는 것이다.

실시 예 6. gtCas9에 대한 PAM 서열의 생체외 결정

pRham:cas9gt 벡터의 구축

cas69gt 유전자는 BG6927 및 BG6928 프라이머를 사용하여, G. 써모데니트리피칸스 T12 게놈으로부터 PCR 증폭되고, pRham C-His Kan Vector (Lucigen)와 하나의 혼합물로 조합된다. 상기 혼합물은 제공된 프로토콜에 따라 E. cloni 열-수용능 세포 (thermo-competent cells)를 형질전환시키는데 사용된다. 100㎕의 형질전환 혼합물은 LB+50카나마이신 플레이트 (LB+50kanamycin plates)에 평판 배양하여 37℃에서 하룻밤 동안 성장된다. 형성된 E. cloni::pRham:cas9gt 단일 콜로니 중에서 무작위로 3개를 선택하고, 50㎍/㎖ 카나무신을 함유하는 10㎖ LB 배지에 접종하였다. 글리세롤 스톡 (Glycerol stocks)은, 20%(v/v)의 최종 농도까지 각 배양물 (culture) 1㎖에 멸균 글리세롤을 첨가하여 배양물로부터 준비된다. 글리세롤 스톡은 -80℃에서 저장된다. 각 배양물에서 나머지 9㎖는 "GeneJET Plasmid Miniprep Kit" (Thermoscientific) 프로토콜에 따라 플라스미드 단리를 위해 사용된다. 플라스미드는 cas9gt의 서열 검증 (verification)을 위해 보내지고, 플라스미드 중 하나는 올바른 서열을 가진 유전자를 포함하는 것으로 검증되었다. 상응하는 배양물은, gtCas9의 이종 발현 및 정제를 위해 더욱 사용된다.

E. cloni::pRham:cas9gt 벡터에서 gtCas9의 이종숙주 발현 (Heterologous Expression)

E. cloni::pRham:cas9gt 전배양물 (preculture)은 상응하는 글리세롤 스톡으로 10㎖ LB+50카나마이신을 접종하여 준비된다. 37℃ 및 180rpm에서 하룻밤 동안 성장시킨 후, 전배양물 2㎖는, 200㎖의 LB+50카나마이신 배지를 접종하기 위해 사용된다. E. cloni::pRham:cas9gt 배양물은, 37℃, 180rpm에서, OD₆₀₀이 0.7이 될때까지 배양된다. gtCas9 발현은 그 다음 L-람노오스를 0.2% w/v의 최종 농도로 첨가하여 유도된다. 발현은 8시간 동안 진행된 후, 배양물을 4700rpm, 10분 동안 4℃로 원심분리하여 세포를 얻었다. 배지는 폐기되고, 펠릿화된 세포는 -20℃에서 보관하거나 또는 다음의 프로토콜에 따라 무세포 추출물 (CFE)의 제조를 위해 사용된다:

1. 20㎖ 초음파분해 버퍼 (20mM 인산 나트륨 버퍼 (pH=7.5), 100mM NaCl, 5mM MgCl₂, 5%(v/v) 글리세롤, 1mM DTT)에 펠릿을 재현탁.

2. 초음파분해로 1㎖의 세포를 분쇄 (30초의 8 펄스, 그 사이에서 얼음에서 20초 동안 냉각).

3. 불용성 부분을 침전시키기 위하여, 4℃, 35000g에서 15분 동안 원심분리.

4. 상등액을 제거하고 4℃ 또는 얼음에 보관.

gtCas9를 위한 sgRNA 모듈을 표적화하는 PAM 라이브러리의 디자인 및 구축

G. 써모데니트리피칸스 T12 균주의 게놈에서 tracrRNA 발현 DNA 모듈의 인실리코로 결정 후에 (상기 실시 예 4 참조), 단일 분자에서 CRISP/Cas9 시스템의 crRNA 및 tracrRNA 모듈들을 조합한 단일 가이드 (sg)RNA 발현 DNA 모듈은 디자인된다. sgRNA의 5'-말단의 스페이서는, 플라스미드 라이브러리의 프로토스페이서에 상보적으로 디자인되고, 모듈은 T7 프로모터의 전사 조절하에 놓여진다. pT7_sgRNA DNA 모듈은 베이스클리어 (Baseclear)에 의해 합성되고, pUC57 벡터에 수용되어, pUC57:pT7_sgRNA 벡터를 형성한다. DH5α 수용능 대장균 세포 (NEB)는 벡터로 형질전환되고, 형질전환 혼합물은 100㎍/㎖ 암피실린을 함유하는 LB-한천 플레이트 상에 평판 배양된다. 플레이트 (plates)는 37℃에서 밤새 배양된다. 형성된 단일 콜로니 중 3개는 100㎍/㎖ 암피실린을 함유하는 10㎖ LB 배지에 접종된다. 글리세롤 스톡은, 20%(v/v)의 최종 농도까지 각 배양물 1㎖에 멸균 글리세롤을 첨가하여 배양물로부터 준비된다. 글리세롤 스톡은 -80℃에서 보관된다. 각 배양물에서 나머지 9㎖는 "GeneJET Plasmid Miniprep Kit" (Thermoscientific) 프로토콜에 따라 플라스미드 단리를 위해 사용된다. 단리된 플라스미드는, pT7_sgRNA 모듈의 증폭을 위한 PCR 주형으로 사용된다. 218bp 길이의 pT7_sgRNA DNA 모듈 (이의 처음 18bp는 pT7에 상응함)은, 프라이머 BG6574 및 BG6575를 사용하여 얻어진다. 완전한 PCR 혼합물은, 1.5% 아가로즈 겔에서 실행된다. 원하는 크기의 밴드는 잘라내고, "Zymoclean™ Gel DNA Recovery Kit" 프로토콜에 따라 정제된다.

시험관 내 전사 (IVT)는, "HiScribe™ T7 고 수율 RNA 합성 키트" (NEB)를 사용하여 수행된다. 정제된 pT7_sgRNA DNA 모듈은, 주형으로 사용된다. IVT 혼합물은, 동일 부피의 RNA 로딩 염료 (RNA loading dye) (NEB)와 혼합되고, 70℃에서 15분 동안 가열되어 2차 구조를 파괴하였다. 열처리된 IVT 혼합물은 변성 우레아-PAGE 상에서 실행되고, 그 결과로 생긴 폴리아크릴아미드 겔은 염색을 목적으로 10㎕의 SYBR Gold (Invitrogen)를 함유하는 100㎖ 0.5x TBE 버퍼에서 10분 동안 처리된다. 원하는 크기 (200nt)의 밴드는 잘라내고, sgRNA는 다음의 RNA 정제 프로토콜에 따라 정제된다:

1. 메스 (scalpel)로 RNA 겔 단편을 절단하고, RNA 용출 버퍼 1㎖를 첨가하여, 밤새 실온에서 놓음.

2. 새로운 1.5㎖ 튜브에 330㎕ 앨리쿼트 (aliquots)로 나눔.

3. 3 부피 (990㎕)의 사전-냉각된 (-20℃) 100% EtOH을 첨가.

4. -20℃에서 60분 동안 배양.

5. 실온에서 소형원심분리기로 13000rpm에서 20분 동안 원심분리.

6. EtOH를 제거하고 1㎖ 70% EtOH로 펠릿을 세척.

7. 실온에서 소형원심분리기로 13000rpm으로 5분 동안 원심분리.

8. 990㎕의 상등액을 제거.

9. 남은 EtOH를 열혼합기 (thermomixer)에서 55℃로 15-20분 동안 증발.

10. 20㎕ MQ에 재현탁된 펠릿을 -20℃에서 보관.

7nt 길이의 PAM 라이브러리의 디자인 및 구축, 및 라이브러리의 선형화 (linearization)

PAM 라이브러리의 디자인 및 구축은 pNW33n 벡터에 기초한다. 20bp 길이의 프로토스페이서는 벡터에 도입되고, 7 축퇴 뉴클레오티드 길이의 서열에 의해 이의 3' 측의 옆에 위치되며; 상기 축퇴 서열은 PAM으로 역할을 하고, 프로토스페이서가 우측 PAM에 의해 측면에 위치되는 경우, 이것은 Cas9로 로딩되고 절단된 sgRNA에 의해 표적으로서 인지될 수 있다. PAM 라이브러리는 다음의 프로토콜에 따라 제조된다:

1. 단일 가닥 DNA 올리고 1 (BG6494) 및 2 (BG6495)를 어닐링하여 SpPAM 이중 가닥 DNA 인서트 (DNA insert)를 준비.

Ⅰ. 10㎕ 10x NEBuffer 2.1

Ⅱ. 1㎕ 50㎛ 올리고 1 (~1.125㎍)

Ⅲ. 1㎕ 50㎛ 올리고 2 (~1.125㎍)

Ⅳ. 85㎕ MQ

V. 혼합물을 94℃에서 5분 동안 배양하고, 37℃에서 0.03℃/sec의 속도로 냉각.

2. 어닐링된 올리고 혼합물에 1㎕ Klenow 3' → 5' 엑소^- 폴리머라제 (NEB)를 첨가한 후, 2.5㎕의 10μM dNTPs를 첨가. 37℃에서 1시간, 그 다음 75℃에서 20분 동안 배양.

3. 46㎕의 어닐링 혼합물에 2㎕의 HF-BamHI 및 2㎕의 BspHI 제한 효소를 첨가. 37℃에서 1시간 동안 배양. 이 공정은 점착성 말단 (sticky ends)을 갖는 SpPAMbb 인서트로 이어질 것임. Zymo DNA 세정 및 농축기 키트 (Zymo Research)를 사용하여, 생성된 인서트을 세정.

4. HF-BamHI 및 BspHI (NEB)로 pNW33n을 소화 (Digest), 및 Zymo DNA 세정 및 농축기 키트 (Zymo Research)를 사용하여, 점착성 말단을 갖는 3.400bp 길이의 선형 pNW33nbb 단편을 정제.

5. 제공된 프로토콜에 따라 NEB T4 리가아제를 사용하여 11ng의 SPPAMbb 인서트로 50ng의 pNW33nBB를 결찰. Zymo DNA 세정 및 농축기 키트 (Zymo Research)를 사용하여 결찰 혼합물 (ligation mixture)을 정제.

6. DH10b 전기-수용능 세포 (500ng의 DNA를 가진 200㎕의 세포)를 형질전환. SOC 배지에 세포 (800㎕ SOC에 200㎕ 세포)를 1시간 동안 회수한 다음, 회수된 세포로 50㎖의 LB+12.5㎍/㎖ 크로람페니콜에 접종. 배양물을 37℃에서 180rpm으로 밤새 배양.

7. JetStar 2.0 maxiprep kit (GENOMED)를 사용하여 배양물로부터 플라스미드 DNA를 단리.

8. 단리된 플라스미드를 선형화하기 위해 제공된 프로토콜에 따라 SapI (NEB) 제한효소를 사용.

PAM 결정 반응의 디자인 및 실행

다음의 절단 반응은, 표적화된 프로토스페이서의 3' 말단의 다운스트림에 우측 PAM을 함유하는 PAM 라이브러리 멤버로 dsDNA 절단 (dsDNA breaks)의 gtCas9-유도 도입을 위해 설정된다:

1. 반응 당 2.5㎍의 E. cloni::pRham:cas9gt CFE

2. 30nM 최종 농도로 sgRNA

3. 반응 당 200ng의 선형화된 PAM 라이브러리

4. 2㎕의 절단 버퍼 (100mM 인산 나트륨 버퍼 (pH=7.5), 500mM NaCl, 25mM MgCl₂, 25%(v/v) 글리세롤, 5mM DTT)

5. 20㎕ 최종 부피까지 MQ 수 (MQ water)

반응은 60℃에서 1시간 동안 배양되고, 4㎕의 6x 겔 로딩 염료 (NEB)를 첨가 후에 중단된다. 반응 혼합물은 그 다음 1% 아가로즈 겔에 로딩된다. 상기 겔은 100V에서 1시간 15분간 전기영동한 후, 10㎕의 SYBR Gold 염료 (ThermoFisher)를 함유하는 100㎖ 0.5xTAE 버퍼에서 30분 동안 배양된다. DNA 밴드를 청색광으로 가시화한 후에, 성공적으로 절단 및 PAM을 함유하는 DNA 단편에 상응하는 밴드는 겔에서 잘라내고, 겔은 제공된 프로토콜에 따라 "Zymoclean™ Gel DNA Recovery Kit"을 사용하여 정제된다.

시퀀싱을 위한 PAM-함유 gtCAs9 절단된 DNA 단편의 태깅 (Tagging)

Cas9-유도된 DNA 절단은, 보통 PAM 서열에 가까운 쪽에, 프로토스페이서의 3^rd와 4^th 뉴클레오티드 사이에 도입된다. 결과적으로, 서열을 추가하고, PAM 서열을 결정하기 위해, 절단된 DNA 단편의 PAM-함유 부분을 PCR 증폭할 수 있는 한 쌍의 프라이머를 디자인하는 것은 가능하지 않다. 이 목적을 위해, 5-단계 공정은 사용된다:

단계 1: Taq 폴리머라제로 A-테일링 (A-Tailing)

A-테일링은, Taq 폴리머라제를 사용하여 무딘, 이중-가닥 DNA 분자의 3' 말단에 주형이 없는 아데닌 (non-templated adenine)을 추가하는 과정이다.

반응 성분:

· gtCas9-절단 및 PAM-함유 DNA 단편 - 200ng

· 10X ThermoPol® Buffer (NEB) - 5 ㎕

· 1 mM dATP - 10 ㎕

· Taq DNA 폴리머라제 (NEB) - 0.2㎕

· H₂O - 50㎕까지의 최종 반응 부피

· 배양 시간 - 20분

· 배양 온도 - 72℃

단계 2: 시퀀싱 어댑터 (sequencing adaptors)의 구축

2개의 상보적인 짧은 ssDNA 올리고뉴클레오티드는 인산화되고, 어닐링되어 단계 1 유래의 DNA 단편의 PAM-근위 부위 (PAM-proximal site)에 대한 시퀀싱 어댑터를 형성한다. 올리고뉴클레오티드 중 하나는, A-테일화된 단편에 어댑터의 결찰을 촉진하기 위해 이의 3' 말단에 부가적인 티민을 갖는다.

어댑터 올리고뉴클레오티드 인산화 (각 올리고에 대한 개별 인산화 반응)

· 100 μM 올리고뉴클레오티드 스톡 - 2 ㎕

· 10X T4 DNA 리가아제 버퍼 (NEB) - 2 ㎕

· 멸균 MQ 수 - 15 ㎕

· T4 폴리뉴클레오티드 키나제 (NEB) - 1 ㎕

· 배양 시간 - 60분

· 배양 온도 - 37℃

· T4 PNK 비활성화 - 65℃에서 20분

인산화된 올리고뉴클레오티드의 어닐링

· 상응하는 인산화 혼합물 유래의 올리고뉴클레오티드 1 - 5㎕

· 멸균 MQ 수 - 90㎕

· 인산화된 올리고를 95℃에서 3분 동안 배양. ~30분 내지 1시간 동안 실온에서 천천히 반응을 냉각.

단계 3: 시퀀싱 어댑터로 gtCas9-절단된, A-테일화된 단편의 결찰

단계 1 및 2의 생성물은 다음의 프로토콜에 따라 결찰된다:

· 10X T4 DNA 리가아제 버퍼 - 2㎕

· 생성물 단계 1 - 50 ng

· 생성물 단계 2 - 4 ng

· T4 DNA 리가아제 - 1㎕

· 멸균 MQ 수 - 20㎕까지

· 배양 시간 - 10분

· 배양 온도 - 20∼25℃

· 65℃에서 10분 동안 가열 비활성화

단계 4: 150-뉴클레오티드 길이의 PAM-함유 단편의 PCR 증폭

단계 4의 결찰 혼합물 5㎕는, Q5 DNA 폴리머라제 (NEB)를 사용하여 PCR 증폭을 위한 주형으로 사용된다. 단계 2 유래의 티민 연장을 갖는 올리고뉴클레오티드는, 정방향 프라이머로 사용되고, 역방향 프라이머는 PAM 서열의 다운스트림에 150 뉴클레오티드을 어닐링하도록 디자인된다.

동일한 서열은 주형으로서 비-gtCas9 처리된 PAM-라이브러리 DNA를 사용하여 증폭된다. PCR 생성물 모두는 겔 정제되고, Illumina HiSeq 2500 쌍-말단 시퀀싱 (paired-end sequencing) (Baseclear)을 위해 보내진다.

시퀀싱 결과의 분석 및 후보 PAM 서열 (candidate PAM sequence)의 결정

시퀀싱 결과를 분석한 후, 다음의 빈도 행렬 (frequency matrices)은 구축된다. 행렬은 gtCas9 소화 및 비-소화된 라이브러리의 모든 PAM 위치에서 각 뉴클레오티드의 상대 존재비 (abundance)를 묘사한다:

비-소화된	pos1	pos2	pos3	pos4	pos5	pos6	pos7
A	19.22	20.83	19.12	24.43	24.59	21.75	18.22
C	34.75	30	31.9	30.54	25.96	27.9	27.17
T	19.16	22.19	25.34	21.28	26.09	26	21.56
G	26.87	26.98	23.64	23.75	23.36	24.35	33.05

소화된	pos1	pos2	pos3	pos4	pos5	pos6	pos7
A	10.63	18.65	14.6	14.49	3.36	8.66	27.54
C	66.22	49.59	56.82	60.35	92.4	62.26	34.94
T	8.09	11.21	19.12	12.15	2.35	14.66	5.58
G	15.05	20.54	9.45	13.01	1.89	14.43	31.94

이들 결과는 5^th PAM 위치에서 시토신을 가진 표적에 대한 명확한 선호 및 처음 4 PAM 위치에서 시토신을 갖는 표적에 대한 선호를 나타낸다.

실시 예 7: gtCas9에 대한 인실리코 PAM 예측

PAMs의 인실리코 예측은, 충분한 프로토스페이서 서열이 게놈 데이터베이스에서 이용 가능하다면 가능하다. gtCas9 PAM의 인실리코 예측은, GenBank와 같은 게놈 데이터베이스의 서열과 비교하여 G. 써모데니트리피칸스 T12 균주의 게놈에서 CRISPR 어레이 유래의 스페이서의 히트 (hits)의 동정으로 시작한다. "CRISPR 화인더" (http://crispr.u-psud.fr/Server/) 도구는 T12에서 후보 CRISPR 유전자좌를 동정하는데 사용된다. 동정된 CRISPR 유전자좌 출력은 그 다음, 선택된 데이터베이스를 검색하고, 일치하는 프로스페이서로 출력을 제공하는, "CRISPR 표적 (jhttp://bioanalysis.otago.ac.nz/CRISPRTarget/crispr_analysis.html) 도구에 로딩된다. 이들 프로토스페이서 서열은 그 다음 유일무이한 히트 (unique hits) 및 스페이서에 대한 상보성에 대해 스크리닝된다 - 예를 들어, 시드 서열에서 불일치는 유망한 거짓 양성 (false positive) 히트인 것으로 고려되고, 추후 분석에서 배제된다. 프로파지 서열 (prophage sequences) 및 (인터그레이션된 (integrated)) 플라스미드에 대해 동일성을 갖는 히트는 얻어진 히트가 참 양성 (true positives)인 것을 입증한다. 전반적으로, 이 과정은 6개 단일 히트를 산출한다 (도 7). 그 결과로서, 남아있는, 유일무이한 프로토스페이서 히트의 플랜킹 영역 (Type II gtCas 뉴클레아제에 대해 3')은 WebLogo (http://weblogo.berkeley.edu/logo.cgi) (Crooks GE, Hon G, Chandonia JM, Brenner SE WebLogo : A sequence logo generator, Genome Research, 14:1188-1190, (2004)) 도구를 사용하여 컨센서스 서열 (consensus sequences)에 대해 정렬 및 비교된다 (도 8).

인실리코 결과는, PAM 서열의 5^th 잔기의 동일성에 대한 편중 (bias)이 시토신인 것으로 시험관 내 PAM 동일성 실험 결과 (실시 예 6 참조)와 비슷하다.

실시 예 8: gtCas9에 대한 8 뉴클레오티드 길이의 PAM 서열의 결정

실시 예 8의 인실리코 데이터는, gtCas9가 8^th 위치에서 아데노신에 대해 약간의 선호도가 있음을 시사하고, 따라서 추가의 PAM 결정 실험은 수행되며, 여기서 PAM 서열의 8^th 위치는 또한 시험된다. 이것은 프로토스페이서의 3' 말단에서 5^th 및 8^th 위치들 사이에서 연장된 것으로 확인된 중온성 Brevibacillus laterosporus SSP360D4 (Karvelis et al., 2015) Cas9 PAM 서열의 특징과 일치한다.

PAMs의 특이적 8 뉴클레오티드-길이 변이체는, gtCas9로 시험된다:

1) CNCCCCAC [SEQ ID NO: 17],

2) CCCCCCAG [SEQ ID NO: 18],

3) CCCCCCAA [SEQ ID NO: 11],

4) CCCCCCAT [SEQ ID NO: 19],

5) CCCCCCAC [SEQ ID NO: 20],

6) NNNNTNNC (음의 대조군 PAM)

정제된 gtCas9 및 이전과 동일한 sgRNA (실시 예 6 참조)로 이들 (비-선형화된) 플라스미드를 표적화하는 60℃에서 시험관 내 절단 분석을 수행한 후에, CCCCCCAA [SEQ ID NO: 11] 서열이 PAM으로 사용된 경우 증가된 gtCas9 절단 활성은 관찰된다 (도 9). 그러나, 절단 활성은 모든 시험된 PAM 서열에 대해 명확하게 검출 가능하였으며, 음성 대조군 PAM 서열에 대해서도 희미한 절단 밴드가 관찰되었다. 특정 이론에 구속되는 것을 원하지는 않지만, 높은 gtCas9 농도의 사용은, 음성 대조군에서 관찰된 절단에 기여할 가능성이 있다. 시험관 내 분석에서 높은 Cas9 농도는, 엄격한 PAM 요건 없이 Cas9-유도된 DNA 절단으로 이어지는 것으로 일반적으로 관찰된다.

Cas9 농도는 일반적으로 Cas9 유도된 DNA 절단의 효율에 영향을 미치는 것으로 알려져 있다 (높은 Cas9 농도는, 더 높은 Cas9 활성을 결과한다). 이것은, CCCCCCAA [SEQ ID NO: 11] PAM 서열 및 다른 gtCas9 농도로 표적화된 플라스미드를 사용하여 시험관 내 분석을 수행하는 경우 또한 관찰된다 (도 10).

전술된 바와 같은 시험관 내 분석을 위한 CCCCCCAA [SEQ ID NO: 11] PAM 서열로 표적화된 플라스미드는 38 내지 78℃의 넓은 온도 범위에서 수행된다 (도 11). 놀랍게도, gtCas9는 모든 온도에서 활성이었고, 40.1 내지 64.9℃에서 가장 높은 활성을 보인다.

따라서, 지오바실러스 종 유래의 Cas9의 최적 온도 범위는, 현재까지 특징화된 Cas9 단백질의 온도 범위보다 훨씬 높다. 유사하게, 이것이 뉴클레아제 활성을 보유하는 범위의 상한은, 공지된 Cas9 단백질의 것보다 훨씬 높다. 더 높은 최적 온도 및 기능적 범위는, 고온의 유전 공학에서 상당한 장점을 제공하며, 따라서 상승된 온도에서 수행된 다양한 산업, 농업 및 제약 공정에서 유용성을 갖는, 호열성 유기체의 게놈을 편집하는데, 상당한 장점을 제공한다.

실시 예 9: gtCas9 및 8개의 뉴클레오티드 길이 PAM 서열로 바실러스 스미시이 ET138의 생체 내 게놈 편집

8개의 뉴클레오티드 PAM이 또한 생체 내에서 gtCas9에 의해 인지되는지를 확인하기 위해, 실험은 55℃에서 바실러스 스미시이 ET138의 게놈에서 pyrF 유전자가 결손되도록 디자인된다.

이 방법은 표적 (pyrF) 유전자의 업스트림 및 다운스트림에 상보적인 영역이 B. 스미시이 ET 138 세포에 제공되는 상동 재조합 주형 구축물을 제공하는 것에 의존한다. 주형의 도입은, 상동 재조합의 과정이 (pyrF 유전자가 없는) 상동 재조합 주형을 게놈으로 도입하는데 사용되는 것을 허용하여 세포의 게놈에서 WT pyrF 유전자를 대체한다.

상동 재조합 구축물에 gtCas9 및 sgRNA의 포함은, WT pyrF를 함유하는 박테리아 게놈으로 이중 가닥 DNA 절단 (DSDBs)를 도입하는데 사용될 수 있다. 박테리아 게놈의 DSDBs는 통상적으로 세포 죽음을 결과한다. 따라서, WT pyrF에서 서열을 인식하는 sgRNA는, DSDB 및 단지 WT pyrF를 함유하는 세포의 죽음을 결과할 수 있다. DSDB의 도입은 또한 gtCas9에 의해 인식되는 프로토스페이서의 3' 말단에서 다운스트림에 위치하는 적절한 PAM 서열에 의존한다.

pNW33n 플라스미드는 클론 (clone)을 만들기 위한 백본으로 사용된다:

i) 사내에서 개발된 글루코오스 억제성 프로모터의 제어하에 있는 cas9gt 유전자; 및

ⅱ) B. 스미시이 ET138의 게놈으로부터 pyrF 유전자의 결손을 결과하는 상동 재조합을 위한 주형으로서 B. 스미시이 ET138의 게놈에서 pyrF 유전자의 1kb 업스트림 및 1kb 다운스트림 영역; 및

ⅲ) 구성적 프로모터의 전사 조절하에 있는 단일 가이드 RNA (sgRNA) 발현 모듈.

3개의 개별 구축물은 생성되고, 여기서, gtCas9를 게놈 내에 이의 특이적 DNA 표적 (또한, 스페이서로 알려짐)으로 안내하는 서열에 상응하는, 처음 20개 뉴클레오티드에서 단일 가이드 RNA의 서열은 다르다. 3개의 다른 스페이서 서열은, B. 스미시이 ET138의 pyrF 유전자에서 3개의 다른 후보 프로토스페이서를 표적으로 하도록 디자인된다. 상기 구축물은 여기서 구축물 1, 2 및 3으로 각각 지칭된다.

3개의 다른 표적화된 프로토스페이서는, 이들의 3'-말단에서 다음의 후보 PAM 서열을 갖는다:

1. TCCATTCC (시험관 내 분석의 결과에 따른 음성 대조군; 구축물 번호 3에 인코딩된 sgRNA에 의해 표적화된 프로토스페이스의 3'-말단)

2. ATCCCCAA (구축물 번호 1에 인코딩된 sgRNA에 의해 표적화된 프로토스페이서의 3'-말단 [SEQ ID NO: 21])

3. ACGGCCAA (구축물 번호 2에 인코딩된 sgRNA에 의해 표적화된 프로토스페이서의 3'-말단, [SEQ ID NO: 22])

B. 스미시이 ET 138 세포를 3개의 구축물 중 하나로 형질전환 및 선택 플레이트 상에 도말한 후에, 다음의 결과는 얻어진다:

1. 세포가 3' 말단에서 음성 대조군 TCCATTCC PAM 서열을 갖는 프로토스페이서를 표적으로 하는 구축물로 형질전환된 경우 (구축물 번호 3), 형질전환 효율은 영향을 받지 않았다 (도 12 A). 콜로니의 수는, pNW33n 양성 대조군 구축물로 형질전환 후에 콜로니의 수와 같은 범위였다 (도 12 B). pyrF 유전자가 결손된 콜로니를 스크리닝하기 위해 콜로니 PCR에 적용된 15 개의 콜로니 중에서, 결손 유전자형 -2.1kb 예상 밴드 크기-을 나타내지 않았고, 모두 야생형 -2.9kb 예상된 밴드 크기-이다 (도 13). 이것은 시험된 PAM이 실제로 생체 내에서 gtCas9에 의해 인지되지 않음을 나타낸다. 2. 세포가 구축물 번호 1로 형질전환된 경우, 양성 대조군 (pNW33n으로 형질전환된 세포)과 비교했을 때 소수의 콜로니는 얻어진다 (도 12 C). 20개의 콜로니는 콜로니 PCR에 적용되어 pyrF 유전자가 결손된 콜로니를 스크린한다. 대다수 (19개)의 콜로니는, 야생형 및 pyrF 결손 유전자형 모두를 함유하는 반면, 하나의 콜로니는 pyrF 결손 유전자형을 갖는다 (도 14). 이 결과는, WT 만의 유전자형이 관찰되지 않았기 때문에 PAM 서열 ATCCCCAA [SEQ ID NO: 21]이 gtCas9에 의해 생체 내에서 인지된다는 것을 나타낸다. 감소된 형질전환 효율은 또한 세포 군의 비율이 감소되었음을 나타내고, 이는 gtCas9에 의한 성공적인 표적화로 인해 DSDB에 의한 WT 만의 유전자형 세포로 유발된 세포 죽음에 기인할 수 있다.

3. 세포가 구축물 번호 2로 형질전환된 경우, 콜로니는 얻어지지 않는다 (도 12 D). 콜로니의 결핍은 모든 세포 군이 gtCas9에 의해 성공적으로 표적화되어, DSDB에 의한 세포 죽음으로 이어졌다는 것을 나타낸다. 이것은 ACGGCCAA [SEQ ID NO: 22] PAM 서열이 gtCas9에 의해 인지된 것을 시사한다.

이들 결과는, 시험관 내 PAM 결정 결과와 일치하는 결과인, gtCas9가 전술된 PAM 서열을 갖는 생체 내 55℃에서 활성인 것을 나타낸다. 게다가, 이것은 플라스미드 유래 상동 재조합 주형과 조합하여 동일한 온도에서 게놈 편짐 도구로 사용될 수 있다.

본 상세한 설명의 다음의 섹션은 여기서 이미 기재된 본 발명의 주장을 단순히 제공하는 번호가 매겨진 단락으로 이루어진다. 이 섹션에서 번호가 매겨진 단락은 청구항이 아니다. 청구항은 그 다음 섹션의 "청구 범위"에서 서술된다.

1. 하기를 포함하는 단리된 일정한 간격을 두고 주기적으로 분포하는 짧은 회문구조 반복서열 (CRISPR)-관련 (Cas) 단백질 또는 폴리펩티드:

a. 아미노산 모티프 EKDGKYYC [SEQ ID NO: 2]; 및/또는

e. 아미노산 모티프 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6], 여기서, X₉은 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 라신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며, X₁₃은 리신 또는 세린이고;

여기서, Cas 단백질은, 적어도 하나의 표적화 RNA 분자, 및 상기 표적화 RNA 분자에 의해 인지된 표적 핵산 서열을 포함하는 폴리뉴클레오티드와 결합하는 경우, 50℃ 내지 100℃에서 DNA 절단을 할 수 있다.

2. SEQ ID NO: 1의 아미노산 서열 또는 이와 적어도 77% 동일성의 서열을 갖는 단리된 Cas 단백질 또는 이의 폴리펩티드 단편, 여기서, 상기 Cas 단백질은, 표적 서열을 인지하는 적어도 하나의 RNA 분자와 결합하는 경우, 50℃ 내지 100℃의 온도에서 표적 핵산 서열을 포함하는 폴리뉴클레오티드를 결합, 절단, 변형 또는 표지를 할 수 있다.

3. 단락 번호 1 또는 2의 Cas 단백질 또는 폴리펩티드 단편에서, 상기 Cas 단백질 또는 폴리펩티드 단편은, 50℃ 내지 70℃ 범위의 온도, 바람직하게는, 60℃ 이상의 온도; 좀 더 바람직하게는, 60℃ 내지 80℃의 온도; 더욱 더 바람직하게는, 60℃ 내지 65℃의 온도에서 핵산 절단, 결합, 표지 또는 변형시킬 수 있다.

4. 전술된 단락 번호 1 내지 3 중 어느 하나의 Cas 단백질 또는 폴리펩티드 단편에서, 상기 핵산 결합, 절단, 표지 또는 변형은 DNA 절단이다.

5. 전술된 단락 번호 중 어느 하나의 Cas 단백질 또는 폴리펩티드 단편에서, 상기 아미노산 서열은, SEQ ID NO: 1의 아미노산 서열 또는 이와 적어도 77% 동일성의 서열을 포함한다.

6. 전술된 단락 번호 중 어느 하나의 Cas 단백질 또는 폴리펩티드 단편에서, 상기 Cas 단백질은 박테리아, 고세균 또는 바이러스로부터 얻을 수 있다.

7. 전술된 단락 번호 중 어느 하나의 Cas 단백질 또는 폴리펩티드 단편에서, 상기 Cas 단백질은 지오바실러스 속, 바람직하게는, 지오바실러스 써모데니트리피칸스로부터 얻을 수 있다.

8. 전술된 단락 번호 중 어느 하나의 Cas 단백질을 포함하고, 및 표적 폴리뉴클레오티드에서 서열을 인식하는 적어도 하나의 표적화 RNA 분자를 포함하는 리보핵산 단백질 복합체.

9. 단락 번호 8의 리보핵산 단백질 복합체에서, 상기 표적화 RNA 분자는 crRNA 및 선택적으로 tracrRNA를 포함한다.

10. 단락 번호 8 내지 9 중 어느 하나의 리보핵산 단백질 복합체에서, 상기 적어도 하나의 RNA 분자의 길이는 35-135 뉴클레오티드 잔기의 범위이다.

11. 단락 번호 8 내지 9 중 어느 하나의 리보핵산 단백질 복합체에서, 상기 표적 서열은 길이가 31 또는 32 뉴클레오티드 잔기이다.

12. 단락 번호 1 내지 7 중 어느 하나의 Cas 단백질 또는 폴리펩티드에서, 또는 단락 번호 8 내지 11 중 어느 하나의 리보핵산 단백질 복합체에서, 상기 단백질 또는 폴리펩티드는, 적어도 하나의 추가의 기능성 또는 비-기능성 단백질을 포함하는 단백질 복합체의 일부로서 제공된다.

13. 단락 번호 12의 Cas 단백질, 폴리펩티드, 또는 리보핵산 단백질 복합체에서, 상기 Cas 단백질 또는 폴리펩티드는, 및/또는 적어도 하나의 추가의 단백질은, 적어도 하나의 기능성 모이어티를 더욱 포함한다.

14. 단락 번호 13의 Cas 단백질, 폴리펩티드, 또는 리보핵산 단백질 복합체에서, 상기 적어도 하나의 기능성 모이어티는, Cas 단백질, 폴리펩티드, 또는 리보핵산 단백질 복합체의 N- 말단 및/또는 C-말단; 바람직하게는, N-말단에 융합 또는 연결된다.

15. 단락 번호 13 또는 14의 Cas 단백질, 폴리펩티드, 또는 리보핵산 단백질 복합체에서, 상기 적어도 하나의 기능성 모이어티는: 헬리카제, 뉴클레아제, 헬리카제-뉴클레아제, DNA 메틸라아제, 히스톤 메틸라아제, 아세틸라제, 포스파타아제, 키나아제, 전사 활성인자, 전사 억제인자, DNA 결합 단백질, DNA 구조 단백질, 마커 단백질, 리포터 단백질, 형광 단백질, 리간드 결합 단백질, 신호 펩티드, 세포내 위치정보 서열, 항체 에피토프 또는 친화성 정제 태그로부터 선택적으로 선택된 단백질이다.

16. 단락 번호 15의 Cas 단백질 또는 폴리펩티드, 또는 리보핵산 단백질 복합체에서, 상기 Cas9 뉴클레아제 활성의 고유 활성은 비활성화되고, 상기 Cas 단백질은 적어도 하나의 기능성 모이어티에 연결된다.

17. 단락 번호 15 또는 16의 Cas 단백질 또는 폴리펩티드, 또는 리보핵산 단백질 복합체에서, 상기 적어도 하나의 기능성 모이어티는 뉴클레아제 도메인; 바람직하게는, FokI 뉴클레아제 도메인이다.

18. 단락 번호 15 내지 17 중 어느 하나의 Cas 단백질 또는 폴리펩티드, 또는 리보핵산 단백질 복합체에서, 상기 적어도 하나의 기능성 모이어티는 마커 단백질, 예를 들어, GFP이다.

19. Cas 단백질 또는 폴리펩티드를 인코딩하는 단리된 핵산 분자로서, 상기 단리된 핵산 분자는:

a. 아미노산 모티프 EKDGKYYC [SEQ ID NO: 2]; 및/또는

e. 아미노산 모티프 X₉FYX₁₀X₁₁REQX₁₂KEX₁₃ [SEQ ID NO: 6]을 포함하며, 여기서, X₉은 알라닌 또는 글루타메이트이고, X₁₀은 글루타민 또는 라신이며, X₁₁은 아르기닌 또는 알라닌이고, X₁₂는 아스파라긴 또는 알라닌이며, X₁₃은 리신 또는 세린이고;

여기서, Cas 단백질 또는 폴리펩티드는, 적어도 하나의 표적화 RNA 분자, 및 상기 표적화 RNA 분자에 의해 인지된 표적 핵산 서열을 포함하는 폴리뉴클레오티드와 결합하는 경우, 50℃ 내지 100℃에서 DNA 결합, 절단, 표지 또는 변형시킬 수 있다.

20. SEQ ID NO: 1의 아미노산 서열 또는 이와 적어도 77% 동일성의 서열을 갖는 일정한 간격을 두고 주기적으로 분포하는 짧은 회문구조 반복서열 (CRISPR)-관련 (Cas) 단백질; 또는 이의 폴리페티드 단편을 인코딩하는 단리된 핵산 분자.

21. 단락 번호 19 또는 20의 단리된 핵산 분자에서, 번역시에 Cas 단백질 또는 폴리펩티드와 융합되는 아미노산 서열을 인코딩하는 적어도 하나의 핵산 서열을 더욱 포함한다.

22. 단락 번호 21의 단리된 핵산 분자에서, 상기 Cas 단백질 또는 폴리펩티드를 인코딩하는 핵산 분자에 융합된 적어도 하나의 핵산 서열은, 헬리카제, 뉴클레아제, 헬리카제-뉴클레아제, DNA 메틸라아제, 히스톤 메틸라아제, 아세틸라제, 포스파타아제, 키나아제, 전사 활성인자, 전사 억제인자, DNA 결합 단백질, DNA 구조 단백질, 마커 단백질, 리포터 단백질, 형광 단백질, 리간드 결합 단백질, 신호 펩티드, 세포내 위치정보 서열, 항체 에피토프 또는 친화성 정제 태그로부터 선택된 단백질을 인코딩한다.

23. 단락 번호 19 내지 22 중 어느 하나의 핵산 분자를 포함하는 발현 벡터.

24. 단락 번호 23의 발현 벡터에서, 적어도 하나의 표적화 RNA 분자를 인코딩하는 뉴클레오티드 서열을 더욱 포함한다.

25. 하기와 핵산을 접촉시키는 단계를 포함하는, 표적 핵산을 변형시키는 방법:

a. 단락 번호 6 내지 11 중 어느 하나의 리보핵산 단백질 복합체; 또는

b. 단락 번호 12 내지 18 중 어느 하나의 단백질 또는 단백질 복합체 및 단락 번호 6 내지 11 중 어느 하나에서 정의된 바와 같은 적어도 하나의 표적화 RNA 분자.

26. 단락 번호 24의 발현 벡터로 세포를 형질전환, 형질감염 또는 형질도입하는 단계; 또는 선택적으로 단락 번호 23의 발현 벡터 및 단락 번호 6 내지 11 중 어느 하나에 정의된 바와 같은 표적화 RNA 분자를 인코딩하는 뉴클레오티드 서열을 포함하는 추가의 발현 벡터로 세포를 형질전환, 형질감염 또는 형질도입하는 단계를 포함하는, 세포에서 표적 핵산을 변형시키는 방법.

27. 단락 번호 23의 발현 벡터로 세포를 형질전환, 형질감염 또는 형질도입하는 단계, 및 그 다음 단락 번호 6 내지 11 중 어느 하나에 정의된 바와 같은 표적화 RNA 분자를 세포에 또는 세포 내로 전달하는 단계를 포함하는, 세포에서 표적 핵산을 변형시키는 방법.

28. 단락 번호 25 내지 28 중 어느 한 항의 표적 핵산을 변형시키는 방법에서, 상기 적어도 하나의 기능성 모이어티는, 마커 단백질 또는 리포터 단백질이고, 상기 마커 단백질 또는 리포터 단백질은 표적 핵산과 결합하고; 바람직하게는 상기 마커는 형광 단백질, 예를 들어, 녹색 형광 단백질 (GFP)이다.

29. 단락 번호 25 내지 28 중 어느 한 항의 표적 핵산을 변형시키는 방법에서, 상기 표적 핵산은 DNA; 바람직하게는 dsDNA이다.

30. 단락 번호 25 내지 28 중 어느 한 항의 표적 핵산을 변형시키는 방법에서, 상기 표적 핵산은 RNA이다.

31. 단락 번호 29의 표적 핵산을 변형시키는 방법에서, 상기 핵산은 dsDNA이고, 상기 적어도 하나의 기능성 모이어티는 뉴클레아제 또는 헬리카제-뉴클레아제이며, 및 상기 변형은 원하는 유전자좌에서 단일-가닥 또는 이중-가닥 절단이다.

32. 단락 번호 26, 27, 29 또는 31 중 어느 하나의 방법 중 어느 하나에 따라 원하는 유전자좌에서 유전자 발현을 침묵시키는 방법.

33. 단락 번호 26, 27, 29 또는 31 중 어느 하나의 방법 중 어느 하나에 따라 원하는 위치에 원하는 뉴클레오티드 서열을 변형 또는 결손 및/또는 삽입하는 방법.

34. 단락 번호 25 내지 29 중 어느 하나의 방법에서와 같이 표적 핵산 서열을 변형시키는 단계를 포함하는, 세포에서 유전자 발현을 변형시키는 방법에서, 상기 핵산은 dsDNA이고, 상기 기능성 모이어티는 DNA 변형 효소 (예를 들어, 메틸라아제 또는 아세틸라제), 전사 활성인자 또는 전사 억제인자로부터 선택된다.

35. 단락 번호 30의 방법에서와 같이 표적 핵산 서열을 변형시키는 단계를 포함하는, 세포에서 유전자 발현을 변형시키는 방법에서, 상기 핵산은 mRNA이고, 상기 기능성 모이어티는 리보뉴클레아제이며; 선택적으로 엔도뉴클레아제, 3' 엑소뉴클레아제 또는 5' 엑소뉴클레아제로부터 선택된다.

36. 단락 번호 25 내지 35 중 어느 하나에서와 같이 표적 핵산을 변형시키는 방법에서, 상기 방법은, 50℃ 내지 100℃의 온도에서 수행된다.

37. 단락 번호 36에서와 같이 표적 핵산을 변형시키는 방법에서, 상기 방법은, 60℃ 이상, 바람직하게는 60℃ 내지80 ℃, 보다 바람직하게는 60℃ 내지 65℃의 온도에서 수행된다.

38. 단락 번호 25 내지 37 중 어느 하나의 방법에서, 상기 세포는 원핵세포이다.

39. 단락 번호 25 내지 38 중 어느 하나의 방법에서, 상기 세포는 진핵세포이다.

40. 단락 번호 22 내지 36 중 어느 하나의 방법에 의해 형질전환된 숙주 세포.

SEQUENCE LISTING <110> Wageningen Universiteit; Stichting voor de Technische Wetenschappen <120> THERMOSTABLE CAS9 NUCLEASES <130> P237231GB <160> 22 <170> PatentIn version 3.5 <210> 1 <211> 1082 <212> PRT <213> Geobacillus thermodenitrificans T12 <400> 1 Met Lys Tyr Lys Ile Gly Leu Asp Ile Gly Ile Thr Ser Ile Gly Trp 1 5 10 15 Ala Val Ile Asn Leu Asp Ile Pro Arg Ile Glu Asp Leu Gly Val Arg 20 25 30 Ile Phe Asp Arg Ala Glu Asn Pro Lys Thr Gly Glu Ser Leu Ala Leu 35 40 45 Pro Arg Arg Leu Ala Arg Ser Ala Arg Arg Arg Leu Arg Arg Arg Lys 50 55 60 His Arg Leu Glu Arg Ile Arg Arg Leu Phe Val Arg Glu Gly Ile Leu 65 70 75 80 Thr Lys Glu Glu Leu Asn Lys Leu Phe Glu Lys Lys His Glu Ile Asp 85 90 95 Val Trp Gln Leu Arg Val Glu Ala Leu Asp Arg Lys Leu Asn Asn Asp 100 105 110 Glu Leu Ala Arg Ile Leu Leu His Leu Ala Lys Arg Arg Gly Phe Arg 115 120 125 Ser Asn Arg Lys Ser Glu Arg Thr Asn Lys Glu Asn Ser Thr Met Leu 130 135 140 Lys His Ile Glu Glu Asn Gln Ser Ile Leu Ser Ser Tyr Arg Thr Val 145 150 155 160 Ala Glu Met Val Val Lys Asp Pro Lys Phe Ser Leu His Lys Arg Asn 165 170 175 Lys Glu Asp Asn Tyr Thr Asn Thr Val Ala Arg Asp Asp Leu Glu Arg 180 185 190 Glu Ile Lys Leu Ile Phe Ala Lys Gln Arg Glu Tyr Gly Asn Ile Val 195 200 205 Cys Thr Glu Ala Phe Glu His Glu Tyr Ile Ser Ile Trp Ala Ser Gln 210 215 220 Arg Pro Phe Ala Ser Lys Asp Asp Ile Glu Lys Lys Val Gly Phe Cys 225 230 235 240 Thr Phe Glu Pro Lys Glu Lys Arg Ala Pro Lys Ala Thr Tyr Thr Phe 245 250 255 Gln Ser Phe Thr Val Trp Glu His Ile Asn Lys Leu Arg Leu Val Ser 260 265 270 Pro Gly Gly Ile Arg Ala Leu Thr Asp Asp Glu Arg Arg Leu Ile Tyr 275 280 285 Lys Gln Ala Phe His Lys Asn Lys Ile Thr Phe His Asp Val Arg Thr 290 295 300 Leu Leu Asn Leu Pro Asp Asp Thr Arg Phe Lys Gly Leu Leu Tyr Asp 305 310 315 320 Arg Asn Thr Thr Leu Lys Glu Asn Glu Lys Val Arg Phe Leu Glu Leu 325 330 335 Gly Ala Tyr His Lys Ile Arg Lys Ala Ile Asp Ser Val Tyr Gly Lys 340 345 350 Gly Ala Ala Lys Ser Phe Arg Pro Ile Asp Phe Asp Thr Phe Gly Tyr 355 360 365 Ala Leu Thr Met Phe Lys Asp Asp Thr Asp Ile Arg Ser Tyr Leu Arg 370 375 380 Asn Glu Tyr Glu Gln Asn Gly Lys Arg Met Glu Asn Leu Ala Asp Lys 385 390 395 400 Val Tyr Asp Glu Glu Leu Ile Glu Glu Leu Leu Asn Leu Ser Phe Ser 405 410 415 Lys Phe Gly His Leu Ser Leu Lys Ala Leu Arg Asn Ile Leu Pro Tyr 420 425 430 Met Glu Gln Gly Glu Val Tyr Ser Thr Ala Cys Glu Arg Ala Gly Tyr 435 440 445 Thr Phe Thr Gly Pro Lys Lys Lys Gln Lys Thr Val Leu Leu Pro Asn 450 455 460 Ile Pro Pro Ile Ala Asn Pro Val Val Met Arg Ala Leu Thr Gln Ala 465 470 475 480 Arg Lys Val Val Asn Ala Ile Ile Lys Lys Tyr Gly Ser Pro Val Ser 485 490 495 Ile His Ile Glu Leu Ala Arg Glu Leu Ser Gln Ser Phe Asp Glu Arg 500 505 510 Arg Lys Met Gln Lys Glu Gln Glu Gly Asn Arg Lys Lys Asn Glu Thr 515 520 525 Ala Ile Arg Gln Leu Val Glu Tyr Gly Leu Thr Leu Asn Pro Thr Gly 530 535 540 Leu Asp Ile Val Lys Phe Lys Leu Trp Ser Glu Gln Asn Gly Lys Cys 545 550 555 560 Ala Tyr Ser Leu Gln Pro Ile Glu Ile Glu Arg Leu Leu Glu Pro Gly 565 570 575 Tyr Thr Glu Val Asp His Val Ile Pro Tyr Ser Arg Ser Leu Asp Asp 580 585 590 Ser Tyr Thr Asn Lys Val Leu Val Leu Thr Lys Glu Asn Arg Glu Lys 595 600 605 Gly Asn Arg Thr Pro Ala Glu Tyr Leu Gly Leu Gly Ser Glu Arg Trp 610 615 620 Gln Gln Phe Glu Thr Phe Val Leu Thr Asn Lys Gln Phe Ser Lys Lys 625 630 635 640 Lys Arg Asp Arg Leu Leu Arg Leu His Tyr Asp Glu Asn Glu Glu Asn 645 650 655 Glu Phe Lys Asn Arg Asn Leu Asn Asp Thr Arg Tyr Ile Ser Arg Phe 660 665 670 Leu Ala Asn Phe Ile Arg Glu His Leu Lys Phe Ala Asp Ser Asp Asp 675 680 685 Lys Gln Lys Val Tyr Thr Val Asn Gly Arg Ile Thr Ala His Leu Arg 690 695 700 Ser Arg Trp Asn Phe Asn Lys Asn Arg Glu Glu Ser Asn Leu His His 705 710 715 720 Ala Val Asp Ala Ala Ile Val Ala Cys Thr Thr Pro Ser Asp Ile Ala 725 730 735 Arg Val Thr Ala Phe Tyr Gln Arg Arg Glu Gln Asn Lys Glu Leu Ser 740 745 750 Lys Lys Thr Asp Pro Gln Phe Pro Gln Pro Trp Pro His Phe Ala Asp 755 760 765 Glu Leu Gln Ala Arg Leu Ser Lys Asn Pro Lys Glu Ser Ile Lys Ala 770 775 780 Leu Asn Leu Gly Asn Tyr Asp Asn Glu Lys Leu Glu Ser Leu Gln Pro 785 790 795 800 Val Phe Val Ser Arg Met Pro Lys Arg Ser Ile Thr Gly Ala Ala His 805 810 815 Gln Glu Thr Leu Arg Arg Tyr Ile Gly Ile Asp Glu Arg Ser Gly Lys 820 825 830 Ile Gln Thr Val Val Lys Lys Lys Leu Ser Glu Ile Gln Leu Asp Lys 835 840 845 Thr Gly His Phe Pro Met Tyr Gly Lys Glu Ser Asp Pro Arg Thr Tyr 850 855 860 Glu Ala Ile Arg Gln Arg Leu Leu Glu His Asn Asn Asp Pro Lys Lys 865 870 875 880 Ala Phe Gln Glu Pro Leu Tyr Lys Pro Lys Lys Asn Gly Glu Leu Gly 885 890 895 Pro Ile Ile Arg Thr Ile Lys Ile Ile Asp Thr Thr Asn Gln Val Ile 900 905 910 Pro Leu Asn Asp Gly Lys Thr Val Ala Tyr Asn Ser Asn Ile Val Arg 915 920 925 Val Asp Val Phe Glu Lys Asp Gly Lys Tyr Tyr Cys Val Pro Ile Tyr 930 935 940 Thr Ile Asp Met Met Lys Gly Ile Leu Pro Asn Lys Ala Ile Glu Pro 945 950 955 960 Asn Lys Pro Tyr Ser Glu Trp Lys Glu Met Thr Glu Asp Tyr Thr Phe 965 970 975 Arg Phe Ser Leu Tyr Pro Asn Asp Leu Ile Arg Ile Glu Phe Pro Arg 980 985 990 Glu Lys Thr Ile Lys Thr Ala Val Gly Glu Glu Ile Lys Ile Lys Asp 995 1000 1005 Leu Phe Ala Tyr Tyr Gln Thr Ile Asp Ser Ser Asn Gly Gly Leu 1010 1015 1020 Ser Leu Val Ser His Asp Asn Asn Phe Ser Leu Arg Ser Ile Gly 1025 1030 1035 Ser Arg Thr Leu Lys Arg Phe Glu Lys Tyr Gln Val Asp Val Leu 1040 1045 1050 Gly Asn Ile Tyr Lys Val Arg Gly Glu Lys Arg Val Gly Val Ala 1055 1060 1065 Ser Ser Ser His Ser Lys Ala Gly Glu Thr Ile Arg Pro Leu 1070 1075 1080 <210> 2 <211> 8 <212> PRT <213> Geobacillus thermodenitrificans T12 <400> 2 Glu Lys Asp Gly Lys Tyr Tyr Cys 1 5 <210> 3 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> amino acid motif of thermophilic Cas9 <220> <221> misc_feature <222> (1)..(1) <223> Xaa can be any of Ile, Met or Pro <220> <221> misc_feature <222> (2)..(2) <223> Xaa can be any of Val, Ser, Asn or Ile <220> <221> misc_feature <222> (5)..(5) <223> Xaa can be any of Glu or Lys <220> <221> misc_feature <222> (6)..(6) <223> Xaa can be any of Ala, Glu or Arg <400> 3 Xaa Xaa Cys Thr Xaa Xaa 1 5 <210> 4 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> amino acid motif of thermophilic Cas9 <220> <221> misc_feature <222> (1)..(1) <223> Xaa can be any of Met or Phe <220> <221> misc_feature <222> (4)..(4) <223> Xaa can be any of His or Asn <400> 4 Xaa Leu Lys Xaa Ile Glu 1 5 <210> 5 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> amino acid motif of thermophilic Cas9 <220> <221> misc_feature <222> (1)..(1) <223> Xaa can be any of Glu or Ile <220> <221> misc_feature <222> (5)..(5) <223> Xaa can be any of Trp, Ser or Lys <400> 5 Xaa Val Tyr Ser Xaa Lys 1 5 <210> 6 <211> 12 <212> PRT <213> Artificial sequence <220> <223> amino acid motif of thermophilic Cas9 <220> <221> misc_feature <222> (1)..(1) <223> Xaa can be any of Ala or Glu <220> <221> misc_feature <222> (4)..(4) <223> Xaa can be any of Gln or Lys <220> <221> misc_feature <222> (5)..(5) <223> Xaa can be any of Arg or Ala <220> <221> misc_feature <222> (9)..(9) <223> Xaa can be any of Asn or Ala <220> <221> misc_feature <222> (12)..(12) <223> Xaa can be any of Lys or Ser <400> 6 Xaa Phe Tyr Xaa Xaa Arg Glu Gln Xaa Lys Glu Xaa 1 5 10 <210> 7 <211> 3249 <212> DNA <213> Geobacillus thermodenitrificans T12 <400> 7 atgaagtata aaatcggtct tgatatcggc attacgtcta tcggttgggc tgtcattaat 60 ttggacattc ctcgcatcga agatttaggt gtccgcattt ttgacagagc ggaaaacccg 120 aaaaccgggg agtcactagc tcttccacgt cgcctcgccc gctccgcccg acgtcgtctg 180 cggcgtcgca aacatcgact ggagcgcatt cgccgcctgt tcgtccgcga aggaatttta 240 acgaaggaag agctgaacaa gctgtttgaa aaaaagcacg aaatcgacgt ctggcagctt 300 cgtgttgaag cactggatcg aaaactaaat aacgatgaat tagcccgcat ccttcttcat 360 ctggctaaac ggcgtggatt tagatccaac cgcaagagtg agcgcaccaa caaagaaaac 420 agtacgatgc tcaaacatat tgaagaaaac caatccattc tttcaagtta ccgaacggtt 480 gcagaaatgg ttgtcaagga tccgaaattt tccctgcaca agcgtaataa agaggataat 540 tacaccaaca ctgttgcccg cgacgatctt gaacgggaaa tcaaactgat tttcgccaaa 600 cagcgcgaat atgggaacat cgtttgcaca gaagcatttg aacacgagta tatttccatt 660 tgggcatcgc aacgcccttt tgcttctaag gatgatatcg agaaaaaagt cggtttctgt 720 acgtttgagc ctaaagaaaa acgcgcgcca aaagcaacat acacattcca gtccttcacc 780 gtctgggaac atattaacaa acttcgtctt gtctccccgg gaggcatccg ggcactaacc 840 gatgatgaac gtcgtcttat atacaagcaa gcatttcata aaaataaaat caccttccat 900 gatgttcgaa cattgcttaa cttgcctgac gacacccgtt ttaaaggtct tttatatgac 960 cgaaacacca cgctgaagga aaatgagaaa gttcgcttcc ttgaactcgg cgcctatcat 1020 aaaatacgga aagcgatcga cagcgtctat ggcaaaggag cagcaaaatc atttcgtccg 1080 attgattttg atacatttgg ctacgcatta acgatgttta aagacgacac cgacattcgc 1140 agttacttgc gaaacgaata cgaacaaaat ggaaaacgaa tggaaaatct agcggataaa 1200 gtctatgatg aagaattgat tgaagaactt ttaaacttat cgttttctaa gtttggtcat 1260 ctatccctta aagcgcttcg caacatcctt ccatatatgg aacaaggcga agtctactca 1320 accgcttgtg aacgagcagg atatacattt acagggccaa agaaaaaaca gaaaacggta 1380 ttgctgccga acattccgcc gatcgccaat ccggtcgtca tgcgcgcact gacacaggca 1440 cgcaaagtgg tcaatgccat tatcaaaaag tacggctcac cggtctccat ccatatcgaa 1500 ctggcccggg aactatcaca atcctttgat gaacgacgta aaatgcagaa agaacaggaa 1560 ggaaaccgaa agaaaaacga aactgccatt cgccaacttg ttgaatatgg gctgacgctc 1620 aatccaactg ggcttgacat tgtgaaattc aaactatgga gcgaacaaaa cggaaaatgt 1680 gcctattcac tccaaccgat cgaaatcgag cggttgctcg aaccaggcta tacagaagtc 1740 gaccatgtga ttccatacag ccgaagcttg gacgatagct ataccaataa agttcttgtg 1800 ttgacaaagg agaaccgtga aaaaggaaac cgcaccccag ctgaatattt aggattaggc 1860 tcagaacgtt ggcaacagtt cgagacgttt gtcttgacaa ataagcagtt ttcgaaaaag 1920 aagcgggatc gactccttcg gcttcattac gatgaaaacg aagaaaatga gtttaaaaat 1980 cgtaatctaa atgatacccg ttatatctca cgcttcttgg ctaactttat tcgcgaacat 2040 ctcaaattcg ccgacagcga tgacaaacaa aaagtataca cggtcaacgg ccgtattacc 2100 gcccatttac gcagccgttg gaattttaac aaaaaccggg aagaatcgaa tttgcatcat 2160 gccgtcgatg ctgccatcgt cgcctgcaca acgccgagcg atatcgcccg agtcaccgcc 2220 ttctatcaac ggcgcgaaca aaacaaagaa ctgtccaaaa agacggatcc gcagtttccg 2280 cagccttggc cgcactttgc tgatgaactg caggcgcgtt tatcaaaaaa tccaaaggag 2340 agtataaaag ctctcaatct tggaaattat gataacgaga aactcgaatc gttgcagccg 2400 gtttttgtct cccgaatgcc gaagcggagc ataacaggag cggctcatca agaaacattg 2460 cggcgttata tcggcatcga cgaacggagc ggaaaaatac agacggtcgt caaaaagaaa 2520 ctatccgaga tccaactgga taaaacaggt catttcccaa tgtacgggaa agaaagcgat 2580 ccaaggacat atgaagccat tcgccaacgg ttgcttgaac ataacaatga cccaaaaaag 2640 gcgtttcaag agcctctgta taaaccgaag aagaacggag aactaggtcc tatcatccga 2700 acaatcaaaa tcatcgatac gacaaatcaa gttattccgc tcaacgatgg caaaacagtc 2760 gcctacaaca gcaacatcgt gcgggtcgac gtctttgaga aagatggcaa atattattgt 2820 gtccctatct atacaataga tatgatgaaa gggatcttgc caaacaaggc gatcgagccg 2880 aacaaaccgt actctgagtg gaaggaaatg acggaggact atacattccg attcagtcta 2940 tacccaaatg atcttatccg tatcgaattt ccccgagaaa aaacaataaa gactgctgtg 3000 ggggaagaaa tcaaaattaa ggatctgttc gcctattatc aaaccatcga ctcctccaat 3060 ggagggttaa gtttggttag ccatgataac aacttttcgc tccgcagcat cggttcaaga 3120 accctcaaac gattcgagaa ataccaagta gatgtgctag gcaacatcta caaagtgaga 3180 ggggaaaaga gagttggggt ggcgtcatct tctcattcga aagccgggga aactatccgt 3240 ccgttataa 3249 <210> 8 <211> 1045 <212> PRT <213> Actinomyces naeslundii <400> 8 Met Trp Tyr Ala Ser Leu Met Ser Ala His His Leu Arg Val Gly Ile 1 5 10 15 Asp Val Gly Thr His Ser Val Gly Leu Ala Thr Leu Arg Val Asp Asp 20 25 30 His Gly Thr Pro Ile Glu Leu Leu Ser Ala Leu Ser His Ile His Asp 35 40 45 Ser Gly Val Gly Lys Glu Gly Lys Lys Asp His Asp Thr Arg Lys Lys 50 55 60 Leu Ser Gly Ile Ala Arg Arg Ala Arg Arg Leu Leu His His Arg Arg 65 70 75 80 Thr Gln Leu Gln Gln Leu Asp Glu Val Leu Arg Asp Leu Gly Phe Pro 85 90 95 Ile Pro Thr Pro Gly Glu Phe Leu Asp Leu Asn Glu Gln Thr Asp Pro 100 105 110 Tyr Arg Val Trp Arg Val Arg Ala Arg Leu Val Glu Glu Lys Leu Pro 115 120 125 Glu Glu Leu Arg Gly Pro Ala Ile Ser Met Ala Val Arg His Ile Ala 130 135 140 Arg His Arg Gly Trp Arg Asn Pro Tyr Ser Lys Val Glu Ser Leu Leu 145 150 155 160 Ser Pro Ala Asn Ala Asn Glu Ile Arg Lys Ile Cys Ala Arg Gln Gly 165 170 175 Val Ser Pro Asp Val Cys Lys Gln Leu Leu Arg Ala Val Phe Lys Ala 180 185 190 Asp Ser Pro Arg Gly Ser Ala Val Ser Arg Val Ala Pro Asp Pro Leu 195 200 205 Pro Gly Gln Gly Ser Phe Arg Arg Ala Pro Lys Cys Asp Pro Glu Phe 210 215 220 Gln Arg Phe Arg Ile Ile Ser Ile Val Ala Asn Leu Arg Ile Ser Glu 225 230 235 240 Thr Lys Gly Glu Asn Arg Pro Leu Thr Ala Asp Glu Arg Arg His Val 245 250 255 Val Thr Phe Leu Thr Glu Asp Ser Gln Ala Asp Leu Thr Trp Val Asp 260 265 270 Val Ala Glu Lys Leu Gly Val His Arg Arg Asp Leu Arg Gly Thr Ala 275 280 285 Val His Thr Asp Asp Gly Glu Arg Ser Ala Ala Arg Pro Pro Ile Asp 290 295 300 Ala Thr Asp Arg Ile Met Arg Gln Thr Lys Ile Ser Ser Leu Lys Thr 305 310 315 320 Trp Trp Glu Glu Ala Asp Ser Glu Gln Arg Gly Ala Met Ile Arg Tyr 325 330 335 Leu Tyr Glu Asp Pro Thr Asp Ser Glu Cys Ala Glu Ile Ile Ala Glu 340 345 350 Leu Pro Glu Glu Asp Gln Ala Lys Leu Asp Ser Leu His Leu Pro Ala 355 360 365 Gly Arg Ala Ala Tyr Ser Arg Glu Ser Leu Thr Ala Leu Ser Asp His 370 375 380 Met Leu Ala Thr Thr Asp Asp Leu His Glu Ala Arg Lys Arg Leu Phe 385 390 395 400 Gly Val Asp Asp Ser Trp Ala Pro Pro Ala Glu Ala Ile Asn Ala Pro 405 410 415 Val Gly Asn Pro Ser Val Asp Arg Thr Leu Lys Ile Val Gly Arg Tyr 420 425 430 Leu Ser Ala Val Glu Ser Met Trp Gly Thr Pro Glu Val Ile His Val 435 440 445 Glu His Val Arg Asp Gly Phe Thr Ser Glu Arg Met Ala Asp Glu Arg 450 455 460 Asp Lys Ala Asn Arg Arg Arg Tyr Asn Asp Asn Gln Glu Ala Met Lys 465 470 475 480 Lys Ile Gln Arg Asp Tyr Gly Lys Glu Gly Tyr Ile Ser Arg Gly Asp 485 490 495 Ile Val Arg Leu Asp Ala Leu Glu Leu Gln Gly Cys Ala Cys Leu Tyr 500 505 510 Cys Gly Thr Thr Ile Gly Tyr His Thr Cys Gln Leu Asp His Ile Val 515 520 525 Pro Gln Ala Gly Pro Gly Ser Asn Asn Arg Arg Gly Asn Leu Val Ala 530 535 540 Val Cys Glu Arg Cys Asn Arg Ser Lys Ser Asn Thr Pro Phe Ala Val 545 550 555 560 Trp Ala Gln Lys Cys Gly Ile Pro His Val Gly Val Lys Glu Ala Ile 565 570 575 Gly Arg Val Arg Gly Trp Arg Lys Gln Thr Pro Asn Thr Ser Ser Glu 580 585 590 Asp Leu Thr Arg Leu Lys Lys Glu Val Ile Ala Arg Leu Arg Arg Thr 595 600 605 Gln Glu Asp Pro Glu Ile Asp Glu Arg Ser Met Glu Ser Val Ala Trp 610 615 620 Met Ala Asn Glu Leu His His Arg Ile Ala Ala Ala Tyr Pro Glu Thr 625 630 635 640 Thr Val Met Val Tyr Arg Gly Ser Ile Thr Ala Ala Ala Arg Lys Ala 645 650 655 Ala Gly Ile Asp Ser Arg Ile Asn Leu Ile Gly Glu Lys Gly Arg Lys 660 665 670 Asp Arg Ile Asp Arg Arg His His Ala Val Asp Ala Ser Val Val Ala 675 680 685 Leu Met Glu Ala Ser Val Ala Lys Thr Leu Ala Glu Arg Ser Ser Leu 690 695 700 Arg Gly Glu Gln Arg Leu Thr Gly Lys Glu Gln Thr Trp Lys Gln Tyr 705 710 715 720 Thr Gly Ser Thr Val Gly Ala Arg Glu His Phe Glu Met Trp Arg Gly 725 730 735 His Met Leu His Leu Thr Glu Leu Phe Asn Glu Arg Leu Ala Glu Asp 740 745 750 Lys Val Tyr Val Thr Gln Asn Ile Arg Leu Arg Leu Ser Asp Gly Asn 755 760 765 Ala His Thr Val Asn Pro Ser Lys Leu Val Ser His Arg Leu Gly Asp 770 775 780 Gly Leu Thr Val Gln Gln Ile Asp Arg Ala Cys Thr Pro Ala Leu Trp 785 790 795 800 Cys Ala Leu Thr Arg Glu Lys Asp Phe Asp Glu Lys Asn Gly Leu Pro 805 810 815 Ala Arg Glu Asp Arg Ala Ile Arg Val His Gly His Glu Ile Lys Ser 820 825 830 Ser Asp Tyr Ile Gln Val Phe Ser Lys Arg Lys Lys Thr Asp Ser Asp 835 840 845 Arg Asp Glu Thr Pro Phe Gly Ala Ile Ala Val Arg Gly Gly Phe Val 850 855 860 Glu Ile Gly Pro Ser Ile His His Ala Arg Ile Tyr Arg Val Glu Gly 865 870 875 880 Lys Lys Pro Val Tyr Ala Met Leu Arg Val Phe Thr His Asp Leu Leu 885 890 895 Ser Gln Arg His Gly Asp Leu Phe Ser Ala Val Ile Pro Pro Gln Ser 900 905 910 Ile Ser Met Arg Cys Ala Glu Pro Lys Leu Arg Lys Ala Ile Thr Thr 915 920 925 Gly Asn Ala Thr Tyr Leu Gly Trp Val Val Val Gly Asp Glu Leu Glu 930 935 940 Ile Asn Val Asp Ser Phe Thr Lys Tyr Ala Ile Gly Arg Phe Leu Glu 945 950 955 960 Asp Phe Pro Asn Thr Thr Arg Trp Arg Ile Cys Gly Tyr Asp Thr Asn 965 970 975 Ser Lys Leu Thr Leu Lys Pro Ile Val Leu Ala Ala Glu Gly Leu Glu 980 985 990 Asn Pro Ser Ser Ala Val Asn Glu Ile Val Glu Leu Lys Gly Trp Arg 995 1000 1005 Val Ala Ile Asn Val Leu Thr Lys Val His Pro Thr Val Val Arg 1010 1015 1020 Arg Asp Ala Leu Gly Arg Pro Arg Tyr Ser Ser Arg Ser Asn Leu 1025 1030 1035 Pro Thr Ser Trp Thr Ile Glu 1040 1045 <210> 9 <211> 1160 <212> PRT <213> Streptococcus pyogenes <400> 9 Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val 1 5 10 15 Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe 20 25 30 Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile 35 40 45 Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu 50 55 60 Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys 65 70 75 80 Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser 85 90 95 Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys 100 105 110 His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr 115 120 125 His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp 130 135 140 Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His 145 150 155 160 Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro 165 170 175 Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Arg 180 185 190 Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu 195 200 205 Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe 210 215 220 Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile 225 230 235 240 Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp 245 250 255 Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu 260 265 270 Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr 275 280 285 Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser 290 295 300 Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys 305 310 315 320 Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln 325 330 335 Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr 340 345 350 Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp 355 360 365 Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly 370 375 380 Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp 385 390 395 400 Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr 405 410 415 Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala 420 425 430 His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr 435 440 445 Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp 450 455 460 Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe 465 470 475 480 Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe 485 490 495 Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu 500 505 510 His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly 515 520 525 Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly 530 535 540 Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln 545 550 555 560 Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile 565 570 575 Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro 580 585 590 Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu 595 600 605 Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg 610 615 620 Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys 625 630 635 640 Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg 645 650 655 Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys 660 665 670 Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys 675 680 685 Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp 690 695 700 Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr 705 710 715 720 Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp 725 730 735 Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser 740 745 750 Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg 755 760 765 Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val 770 775 780 Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe 785 790 795 800 Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys 805 810 815 Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser 820 825 830 Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu 835 840 845 Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile 850 855 860 Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser 865 870 875 880 Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly 885 890 895 Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys Leu Ile 900 905 910 Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser 915 920 925 Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys Val Glu Lys Gly 930 935 940 Lys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile 945 950 955 960 Met Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala 965 970 975 Lys Gly Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys 980 985 990 Tyr Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser 995 1000 1005 Ala Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys 1010 1015 1020 Tyr Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys 1025 1030 1035 Gly Ser Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln 1040 1045 1050 His Lys His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe 1055 1060 1065 Ser Lys Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu 1070 1075 1080 Ser Ala Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala 1085 1090 1095 Glu Asn Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro 1100 1105 1110 Ala Ala Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr 1115 1120 1125 Thr Ser Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser 1130 1135 1140 Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly 1145 1150 1155 Gly Asp 1160 <210> 10 <211> 8 <212> DNA <213> Artificial sequence <220> <223> RNA, DNA or synthetic nucleic acid consensus PAM sequence <220> <221> misc_feature <222> (7)..(7) <223> n is a, c, g, t or u <400> 10 ccccccna 8 <210> 11 <211> 8 <212> DNA <213> Artificial sequence <220> <223> DNA PAM sequence <400> 11 ccccccaa 8 <210> 12 <211> 5 <212> DNA <213> Artificial sequence <220> <223> DNA PAM sequence <400> 12 ccccc 5 <210> 13 <211> 8 <212> DNA <213> Artificial sequence <220> <223> RNA, DNA or synthetic nucleic acid consensus PAM sequence <220> <221> misc_feature <222> (6)..(7) <223> n is a, c, g, t or u <400> 13 cccccnna 8 <210> 14 <211> 6 <212> DNA <213> Artificial sequence <220> <223> DNA PAM sequence <400> 14 cccccc 6 <210> 15 <211> 6 <212> DNA <213> Artificial sequence <220> <223> RNA, DNA or synthetic nucleic acid consensus PAM sequence <220> <221> misc_feature <222> (1)..(1) <223> n is a, c, g, t or u <400> 15 nccccc 6 <210> 16 <211> 8 <212> DNA <213> Artificial sequence <220> <223> RNA, DNA or synthetic nucleic acid consensus PAM sequence <220> <221> misc_feature <222> (1)..(1) <223> n is a, c, g, t or u <220> <221> misc_feature <222> (7)..(7) <223> n is a, c, g, t or u <400> 16 ncccccna 8 <210> 17 <211> 8 <212> DNA <213> Artificial sequence <220> <223> RNA, DNA or synthetic nucleic acid consensus PAM sequence <220> <221> misc_feature <222> (2)..(2) <223> n is a, c, g, t or u <400> 17 cnccccac 8 <210> 18 <211> 8 <212> DNA <213> Artificial sequence <220> <223> DNA PAM sequence <400> 18 ccccccag 8 <210> 19 <211> 8 <212> DNA <213> Artificial sequence <220> <223> DNA PAM sequence <400> 19 ccccccat 8 <210> 20 <211> 8 <212> DNA <213> Artificial sequence <220> <223> DNA PAM sequence <400> 20 ccccccac 8 <210> 21 <211> 8 <212> DNA <213> Bacillus smithii ET138 <400> 21 atccccaa 8 <210> 22 <211> 8 <212> DNA <213> Bacillus smithii ET138 <400> 22 acggccaa 8

Claims

표적 핵산 서열을 포함하는 이중 가닥 표적 폴리뉴클레오티드를 결합, 절단, 표지 또는 변형시키기 위한 적어도 하나의 표적화 RNA 분자 및 Cas 단백질의 사용 방법으로서, 여기서:
상기 이중 가닥 표적 폴리뉴클레오티드는, 상기 표적 핵산 서열을 포함하는, 표적 핵산 가닥, 및 상기 표적 핵산 서열에 상보적인 프로토스페이스 핵산 서열을 포함하는, 비-표적 핵산 가닥을 포함하고;
상기 Cas 단백질은, SEQ ID NO: 1의 아미노산 서열 또는 이와 적어도 77% 동일성의 서열을 가지며;
상기 적어도 하나의 표적화 RNA 분자는 표적 서열을 인식하고;
상기 비-표적 핵산 가닥은, 프로토스페이서 핵산 서열의 3' 말단에 바로 인접한 프로토스페이서 인근 모티프 (PAM) 서열을 더욱 포함하며, 여기서, 상기 PAM 서열은 5'-NNNNCNN-3'을 포함하는, 적어도 하나의 표적화 RNA 분자 및 Cas 단백질의 사용 방법.
청구항 1에 있어서,
상기 결합, 절단, 표지 또는 변형은, 20℃ 내지 100℃의 온도, 30℃ 내지 80℃의 온도, 37℃ 내지 78℃의 온도, 바람직하게는, 55℃ 이상의 온도; 보다 바람직하게는, 55℃ 내지 80℃의 온도에서; 더욱 바람직하게는, 55℃ 내지 65℃ 또는 60℃ 내지 65℃의 온도에서 발생하는, 적어도 하나의 표적화 RNA 분자 및 Cas 단백질의 사용 방법.
청구항 1 또는 2에 있어서,
상기 표적 핵산 서열을 포함하는 폴리뉴클레오티드는, Cas 단백질에 의해 절단되고, 바람직하게는, 상기 절단은 DNA 절단인, 적어도 하나의 표적화 RNA 분자 및 Cas 단백질의 사용 방법.
청구항 1 내지 3 중 어느 한 항에 있어서,
상기 표적 서열을 포함하는 표적 핵산 가닥은, 이중 가닥 DNA이고, 상기 사용은 표적 핵산 서열을 포함하는 폴리뉴클레오티드에서 이중 가닥 절단을 결과하는, 적어도 하나의 표적화 RNA 분자 및 Cas 단백질의 사용 방법.
청구항 1 또는 2에 있어서,
상기 표적 핵산 서열을 포함하는 폴리뉴클레오티드는 이중 가닥 DNA이고, 상기 Cas 단백질은 이중 가닥 DNA를 절단하는 능력이 없으며, 상기 사용은 폴리뉴클레오티드의 유전자 침묵을 결과하는, 적어도 하나의 표적화 RNA 분자 및 Cas 단백질의 사용 방법.
전술한 청구항 중 어느 한 항에 있어서,
상기 PAM 서열은, 5'-NNNNCNNA-3', 5'-CNNNCNN-3', 5'-NNNCCNN-3', 5'-NNCNCNN-3', 5'-NNNNCCN-3', 및/또는 5'-NCNNCNN-3'을 포함하는, 적어도 하나의 표적화 RNA 분자 및 Cas 단백질의 사용 방법.
전술한 청구항 중 어느 한 항에 있어서,
상기 PAM 서열은 5'-CCCCCCNA-3' [SEQ ID NO: 10]을 포함하고, 바람직하게는, 상기 PAM 서열은 5'-CCCCCCAA-3' [SEQ ID NO: 11]을 포함하는, 적어도 하나의 표적화 RNA 분자 및 Cas 단백질의 사용 방법.
전술한 청구항 중 어느 한 항에 있어서,
상기 Cas 단백질은 박테리아, 고세균 또는 바이러스, 바람직하게는, 호열성 박테리아로부터 얻을 수 있는, 적어도 하나의 표적화 RNA 분자 및 Cas 단백질의 사용 방법.
전술한 청구항 중 어느 한 항에 있어서,
상기 Cas 단백질은 지오바실러스 속, 바람직하게는, 지오바실러스 써모데니트리피칸스로부터 얻을 수 있는, 적어도 하나의 표적화 RNA 분자 및 Cas 단백질의 사용 방법.
전술한 청구항 중 어느 한 항에 있어서,
상기 표적화 RNA 분자는 crRNA 및 tracrRNA를 포함하는, 적어도 하나의 표적화 RNA 분자 및 Cas 단백질의 사용 방법.
전술한 청구항 중 어느 한 항에 있어서,
상기 적어도 하나의 표적화 RNA 분자의 길이는 35-200 뉴클레오티드 잔기의 범위인, 적어도 하나의 표적화 RNA 분자 및 Cas 단백질의 사용 방법.
전술한 청구항 중 어느 한 항에 있어서,
상기 표적 핵산 서열은 길이가 15 내지 32 뉴클레오티드 잔기인, 적어도 하나의 표적화 RNA 분자 및 Cas 단백질의 사용 방법.
전술한 청구항 중 어느 한 항에 있어서,
상기 Cas 단백질은 적어도 하나의 기능성 모이어티를 더욱 포함하는, 적어도 하나의 표적화 RNA 분자 및 Cas 단백질의 사용 방법.
전술한 청구항 중 어느 한 항에 있어서,
상기 Cas 단백질은 적어도 하나의 추가의 기능성 또는 비-기능성 단백질을 포함하는 단백질 복합체의 일부로서 제공되고, 선택적으로, 상기 적어도 하나의 추가의 단백질은 적어도 하나의 기능성 모이어티를 더욱 포함하는, 적어도 하나의 표적화 RNA 분자 및 Cas 단백질의 사용 방법.
청구항 13 또는 14에 있어서,
상기 Cas 단백질 또는 추가의 단백질은, Cas 단백질 또는 단백질 복합체의 N- 말단 및/또는 C-말단; 바람직하게는, C-말단에 융합 또는 연결된 적어도 하나의 기능성 모이어티를 포함하는, 적어도 하나의 표적화 RNA 분자 및 Cas 단백질의 사용 방법.
청구항 13 내지 15 중 어느 한 항에 있어서,
상기 적어도 하나의 기능성 모이어티는: 헬리카제, 뉴클레아제, 헬리카제-뉴클레아제, DNA 메틸라아제, 히스톤 메틸라아제, 아세틸라제, 포스파타아제, 키나아제, 전사 활성인자, 전사 억제인자, DNA 결합 단백질, DNA 구조 단백질, 마커 단백질, 리포터 단백질, 형광 단백질, 리간드 결합 단백질, 신호 펩티드, 세포내 위치정보 서열, 항체 에피토프 또는 친화성 정제 태그, 예를 들어, 녹색 형광 단백질 (GFP)로부터 선택적으로 선택된 단백질인, 적어도 하나의 표적화 RNA 분자 및 Cas 단백질의 사용 방법.
청구항 16에 있어서,
상기 Cas9 뉴클레아제의 고유 활성은 비활성화되고, 상기 Cas 단백질은 적어도 하나의 기능성 모이어티에 연결되는, 적어도 하나의 표적화 RNA 분자 및 Cas 단백질의 사용 방법.
청구항 16 또는 17에 있어서,
상기 적어도 하나의 기능성 모이어티는 뉴클레아제 도메인; 바람직하게는, FokI 뉴클레아제 도메인인, 적어도 하나의 표적화 RNA 분자 및 Cas 단백질의 사용 방법.
청구항 16 내지 18 중 어느 한 항에 있어서,
상기 적어도 하나의 기능성 모이어티는 마커 단백질인, 적어도 하나의 표적화 RNA 분자 및 Cas 단백질의 사용 방법.
표적 핵산 서열을 포함하는 표적 핵산 가닥, 및 상기 표적 핵산 서열에 상보적인 프로토스페이스 핵산 서열을 포함하는 비-표적 핵산 가닥을 포함하는, 이중 가닥 표적 폴리뉴클레오티드를 결합, 절단, 표지 또는 변형시키는 방법으로서, 상기 방법은:
a. 적어도 하나의 표적화 RNA 분자를 디자인하는 단계로서, 여기서, 상기 표적화 RNA 분자는 표적 가닥에서 표적 서열을 인식하고, 상기 비-표적 가닥은, 프로토스페이서 핵산 서열의 3' 말단에 바로 인접한 프로토스페이서 인근 모티프 (PAM) 서열을 더욱 포함하며, 여기서, 상기 PAM 서열은 5'-NNNNCNN-3'을 포함하는, 디자인 단계;
b. 상기 표적화 RNA 분자 및 Cas 단백질을 포함하는 리보핵산 단백질 복합체를 형성하는 단계로서, 여기서, 단리된 Cas 단백질은 SEQ ID NO: 1의 아미노산 서열 또는 이와 적어도 77% 동일성의 서열을 갖는, 형성 단계; 및
c. 상기 리보핵산 단백질 복합체를 사용하여 상기 표적 폴리뉴클레오티드를 결합, 절단, 표지 또는 변형시키는 단계를 포함하는, 이중 가닥 표적 폴리뉴클레오티드를 결합, 절단, 표지 또는 변형시키는 방법.
청구항 20에 있어서,
상기 결합, 절단, 표지 또는 변형은, 20℃ 내지 100℃의 온도, 30℃ 내지 80℃의 온도, 37℃ 내지 78℃의 온도, 바람직하게는, 55℃ 이상의 온도; 보다 바람직하게는, 55℃ 내지 80℃의 온도에서; 더욱 바람직하게는, 55℃ 내지 65℃ 또는 60℃ 내지 65℃의 온도에서 발생하는, 이중 가닥 표적 폴리뉴클레오티드를 결합, 절단, 표지 또는 변형시키는 방법.
청구항 20 또는 21에 있어서,
상기 표적 핵산 서열을 포함하는 이중 가닥 표적 폴리뉴클레오티드는 Cas 단백질에 의해 절단되고, 바람직하게는, 상기 절단은 DNA 절단인, 이중 가닥 표적 폴리뉴클레오티드를 결합, 절단, 표지 또는 변형시키는 방법.
청구항 20 내지 22 중 어느 한 항에 있어서,
상기 표적 폴리뉴클레오티드는 이중 가닥 DNA이고, 상기 사용은 폴리뉴클레오티드에서 이중 가닥 절단을 결과하는, 이중 가닥 표적 폴리뉴클레오티드를 결합, 절단, 표지 또는 변형시키는 방법.
청구항 20 또는 21에 있어서,
상기 표적 핵산 서열을 포함하는 표적 폴리뉴클레오티드는 이중 가닥 DNA이고, 상기 Cas 단백질은 이중 가닥 DNA를 절단하는 능력이 없으며, 상기 방법은 표적 폴리뉴클레오티드의 유전자 침묵을 결과하는, 이중 가닥 표적 폴리뉴클레오티드를 결합, 절단, 표지 또는 변형시키는 방법.
청구항 20 내지 24 중 어느 한 항에 있어서,
상기 PAM 서열은, 5'-NNNNCNNA-3', 5'-CNNNCNN-3', 5'-NNNCCNN-3', 5'-NNCNCNN-3', 5'-NNNNCCN-3', 및/또는 5'-NCNNCNN-3'을 포함하는, 이중 가닥 표적 폴리뉴클레오티드를 결합, 절단, 표지 또는 변형시키는 방법.
청구항 20 내지 25 중 어느 한 항에 있어서,
상기 PAM 서열은 5'-CCCCCCNA-3' [SEQ ID NO: 10]을 포함하고, 바람직하게는, 상기 PAM 서열은 5'-CCCCCCAA-3' [SEQ ID NO: 11]을 포함하는, 이중 가닥 표적 폴리뉴클레오티드를 결합, 절단, 표지 또는 변형시키는 방법.
청구항 20 내지 26 중 어느 한 항에 있어서,
상기 Cas 단백질은 박테리아, 고세균 또는 바이러스, 바람직하게는, 호열성 박테리아로부터 얻을 수 있는, 이중 가닥 표적 폴리뉴클레오티드를 결합, 절단, 표지 또는 변형시키는 방법.
청구항 20 내지 27 중 어느 한 항에 있어서,
상기 Cas 단백질은 지오바실러스 속, 바람직하게는, 지오바실러스 써모데니트리피칸스로부터 얻을 수 있는, 이중 가닥 표적 폴리뉴클레오티드를 결합, 절단, 표지 또는 변형시키는 방법.
청구항 20 내지 28 중 어느 한 항에 있어서,
상기 표적화 RNA 분자는 crRNA 및 tracrRNA를 포함하는, 이중 가닥 표적 폴리뉴클레오티드를 결합, 절단, 표지 또는 변형시키는 방법.
청구항 20 내지 29 중 어느 한 항에 있어서,
상기 적어도 하나의 표적화 RNA 분자의 길이는 35-200 뉴클레오티드 잔기의 범위인, 이중 가닥 표적 폴리뉴클레오티드를 결합, 절단, 표지 또는 변형시키는 방법.
청구항 20 내지 30 중 어느 한 항에 있어서,
상기 표적 핵산 서열은 길이가 15 내지 32 뉴클레오티드 잔기인, 이중 가닥 표적 폴리뉴클레오티드를 결합, 절단, 표지 또는 변형시키는 방법.
청구항 20 내지 31 중 어느 한 항에 있어서,
상기 Cas 단백질은 적어도 하나의 기능성 모이어티를 더욱 포함하는, 이중 가닥 표적 폴리뉴클레오티드를 결합, 절단, 표지 또는 변형시키는 방법.
청구항 20 내지 32 중 어느 한 항에 있어서,
상기 Cas 단백질은 적어도 하나의 추가의 기능성 또는 비-기능성 단백질을 포함하는 단백질 복합체의 일부로서 제공되고, 선택적으로, 상기 적어도 하나의 추가의 단백질은 적어도 하나의 기능성 모이어티를 더욱 포함하는, 이중 가닥 표적 폴리뉴클레오티드를 결합, 절단, 표지 또는 변형시키는 방법.
청구항 32 또는 33에 있어서,
상기 Cas 단백질 또는 추가의 단백질은, Cas 단백질 또는 단백질 복합체의 N- 말단 및/또는 C-말단; 바람직하게는, C-말단에 융합 또는 연결된 적어도 하나의 기능성 모이어티를 포함하는, 이중 가닥 표적 폴리뉴클레오티드를 결합, 절단, 표지 또는 변형시키는 방법.
청구항 32 내지 34 중 어느 한 항에 있어서,
상기 적어도 하나의 기능성 모이어티는: 헬리카제, 뉴클레아제, 헬리카제-뉴클레아제, DNA 메틸라아제, 히스톤 메틸라아제, 아세틸라제, 포스파타아제, 키나아제, 전사 활성인자, 전사 억제인자, DNA 결합 단백질, DNA 구조 단백질, 마커 단백질, 리포터 단백질, 형광 단백질, 리간드 결합 단백질, 신호 펩티드, 세포내 위치정보 서열, 항체 에피토프 또는 친화성 정제 태그, 예를 들어, 녹색 형광 단백질 (GFP)로부터 선택적으로 선택된 단백질인, 이중 가닥 표적 폴리뉴클레오티드를 결합, 절단, 표지 또는 변형시키는 방법.
청구항 35에 있어서,
상기 Cas9 뉴클레아제의 고유 활성은 비활성화되고, 상기 Cas 단백질은 적어도 하나의 기능성 모이어티에 연결되는, 이중 가닥 표적 폴리뉴클레오티드를 결합, 절단, 표지 또는 변형시키는 방법.
청구항 35 또는 36에 있어서,
상기 적어도 하나의 기능성 모이어티는 뉴클레아제 도메인; 바람직하게는, FokI 뉴클레아제 도메인인, 이중 가닥 표적 폴리뉴클레오티드를 결합, 절단, 표지 또는 변형시키는 방법.
청구항 35 내지 37 중 어느 한 항에 있어서,
상기 적어도 하나의 기능성 모이어티는 마커 단백질인, 이중 가닥 표적 폴리뉴클레오티드를 결합, 절단, 표지 또는 변형시키는 방법.
청구항 16에 있어서 또는 청구항 35에 있어서,
상기 이중 가닥 표적 폴리뉴클레오티드는 dsDNA이고, 상기 적어도 하나의 기능성 모이어티는 뉴클레아제 또는 헬리카제-뉴클레아제이며, 및 상기 변형은 원하는 유전자좌에서 단일-가닥 또는 이중-가닥 절단인, 방법.
청구항 16에 있어서 또는 청구항 35에 있어서,
상기 이중 가닥 표적 폴리뉴클레오티드는 dsDNA이고, 상기 기능성 모이어티는 DNA 변형 효소 (예를 들어, 메틸라아제 또는 아세틸라제), 전사 활성인자 또는 전사 억제인자로부터 선택되며, 및 상기 결합, 절단, 표지 또는 변형은 유전자 발현의 변형을 결과하는, 방법.
청구항 16에 있어서 또는 청구항 35에 있어서,
상기 결합, 절단, 표지 또는 변형은 생체 내에서 발생하는, 방법.
청구항 1 내지 4, 6 내지 19 또는 39에 있어서, 또는 청구항 20 내지 23, 25 내지 39에 있어서,
상기 결합, 절단, 표지 또는 변형은, 원하는 위치에 원하는 뉴클레오티드 서열을 변형, 결손 및/또는 삽입을 결과하고, 및/또는 상기 결합, 절단, 표지 또는 변형은 원하는 유전자좌에서 유전자 발현의 침묵을 결과하는, 방법.
표적 핵산 서열을 포함하는 이중 가닥 표적 폴리뉴클레오티드를 갖는 형질전환된 세포로서, 여기서, 상기 이중 가닥 표적 폴리뉴클레오티드는, 상기 표적 핵산 서열을 포함하는 표적 핵산 가닥, 및 상기 표적 핵산 서열에 상보적인 프로토스페이스 핵산 서열을 포함하는 비-표적 핵산 가닥을 포함하며, 상기 세포는:
SEQ ID NO: 1의 아미노산 서열 또는 이와 적어도 77% 동일성의 서열을 갖는, 일정한 간격을 두고 주기적으로 분포하는 짧은 회문구조 반복서열 (CRISPR)-관련 (Cas) 단백질;
상기 표적 핵산 가닥 내에 표적 핵산 서열을 인식하는 적어도 하나의 표적화 RNA 분자로서, 여기서, 비-표적 핵산 가닥은, 프로토스페이서 핵산 서열의 3' 말단에 바로 인접한 프로토스페이서 인근 모티프 (PAM) 서열을 더욱 포함하며, 여기서, 상기 PAM 서열은 5'-NNNNCNN-3'을 포함하는, 적어도 하나의 표적화 RNA 분자; 및
상기 Cas 단백질 및 상기 표적화 RNA 분자 중 적어도 하나를 인코딩하는 핵산을 포함하는 발현 벡터를 포함하는, 형질전환된 세포.
청구항 43에 있어서,
상기 Cas 단백질 및 표적화 RNA 분자는, 세포에서 표적 폴리뉴클레오티드의 결합, 절단, 표지 또는 변형을 가능하게 하고, 상기 결합, 절단, 표지 또는 변형은, 20℃ 내지 100℃의 온도, 30℃ 내지 80℃의 온도, 37℃ 내지 78℃의 온도, 바람직하게는, 55℃ 이상의 온도; 보다 바람직하게는, 55℃ 내지 80℃의 온도에서; 더욱 바람직하게는, 55℃ 내지 65℃ 또는 60℃ 내지 65℃의 온도에서 발생하는, 형질전환된 세포.
청구항 43 또는 44에 있어서,
상기 표적 핵산 서열을 포함하는 표적 핵산 가닥은, Cas 단백질에 의해 절단되고, 바람직하게는, 상기 절단은 DNA 절단인, 형질전환된 세포.
청구항 43 내지 45 중 어느 한 항에 있어서,
상기 표적 서열을 포함하는 표적 폴리뉴클레오티드는 이중 가닥 DNA이고, 상기 결합, 절단, 표지 또는 변형은 표적 폴리뉴클레오티드에서 이중 가닥 절단을 결과하는, 형질전환된 세포.
청구항 43 또는 44에 있어서,
상기 표적 핵산 서열을 포함하는 표적 폴리뉴클레오티드는 이중 가닥 DNA이고, 상기 Cas 단백질은 이중 가닥 DNA를 절단하는 능력이 없으며, 및 상기 결합, 절단, 표지 또는 변형은 표적 폴리뉴클레오티드의 유전자 침묵을 결과하는, 형질전환된 세포.
청구항 43 내지 47 중 어느 한 항에 있어서,
상기 PAM 서열은, 5'-NNNNCNNA-3', 5'-CNNNCNN-3', 5'-NNNCCNN-3', 5'-NNCNCNN-3', 5'-NNNNCCN-3', 및/또는 5'-NCNNCNN-3'를 포함하는, 형질전환된 세포.
청구항 43 내지 48 중 어느 한 항에 있어서,
상기 PAM 서열은 5'-CCCCCCNA-3' [SEQ ID NO: 10]을 포함하고, 바람직하게는, 상기 PAM 서열은 5'-CCCCCCAA-3' [SEQ ID NO: 11]을 포함하는, 형질전환된 세포.
청구항 43 내지 49 중 어느 한 항에 있어서,
상기 Cas 단백질은 박테리아, 고세균 또는 바이러스, 바람직하게는, 호열성 박테리아로부터 얻을 수 있는, 형질전환된 세포.
청구항 43 내지 50 중 어느 한 항에 있어서,
상기 Cas 단백질은 지오바실러스 속, 바람직하게는, 지오바실러스 써모데니트리피칸스로부터 얻을 수 있는, 형질전환된 세포.
청구항 43 내지 51 중 어느 한 항에 있어서,
상기 세포는 원핵세포인, 형질전환된 세포.
청구항 43 내지 51 중 어느 한 항에 있어서,
상기 세포는 진핵세포인, 형질전환된 세포.
청구항 43 내지 53 중 어느 한 항에 있어서,
상기 표적화 RNA 분자는 crRNA 및 tracrRNA를 포함하는, 형질전환된 세포.
청구항 43 내지 54 중 어느 한 항에 있어서,
상기 적어도 하나의 표적화 RNA 분자의 길이는 35-200 뉴클레오티드 잔기의 범위인, 형질전환된 세포.
청구항 43 내지 55 중 어느 한 항에 있어서,
상기 표적 핵산 서열은 길이가 15 내지 32 뉴클레오티드 잔기인, 형질전환된 세포.
청구항 43 내지 56 중 어느 한 항에 있어서,
상기 Cas 단백질은 적어도 하나의 기능성 모이어티를 더욱 포함하는, 형질전환된 세포.
청구항 43 내지 57 중 어느 한 항에 있어서,
상기 Cas 단백질은 적어도 하나의 추가의 기능성 또는 비-기능성 단백질을 포함하는 단백질 복합체의 일부로서 제공되고, 선택적으로, 상기 적어도 하나의 추가의 단백질은 적어도 하나의 기능성 모이어티를 더욱 포함하는, 형질전환된 세포.
청구항 57 또는 58에 있어서,
상기 Cas 단백질 또는 추가의 단백질은, Cas 단백질 또는 단백질 복합체의 N- 말단 및/또는 C-말단; 바람직하게는, N-말단에 융합 또는 연결된 적어도 하나의 기능성 모이어티를 포함하는, 형질전환된 세포.
청구항 57 내지 59 중 어느 한 항에 있어서,
상기 적어도 하나의 기능성 모이어티는: 헬리카제, 뉴클레아제, 헬리카제-뉴클레아제, DNA 메틸라아제, 히스톤 메틸라아제, 아세틸라제, 포스파타아제, 키나아제, 전사 활성인자, 전사 억제인자, DNA 결합 단백질, DNA 구조 단백질, 마커 단백질, 리포터 단백질, 형광 단백질, 리간드 결합 단백질, 신호 펩티드, 세포내 위치정보 서열, 항체 에피토프 또는 친화성 정제 태그, 예를 들어, 녹색 형광 단백질 (GFP)로부터 선택적으로 선택된 단백질인, 형질전환된 세포.
청구항 60에 있어서,
상기 Cas9 뉴클레아제의 고유 활성은 비활성화되고, 상기 Cas 단백질은 적어도 하나의 기능성 모이어티에 연결되는, 형질전환된 세포.
청구항 57 내지 61 중 어느 한 항에 있어서,
상기 적어도 하나의 기능성 모이어티는 뉴클레아제 도메인; 바람직하게는, FokI 뉴클레아제 도메인인, 형질전환된 세포.
청구항 57 내지 61 중 어느 한 항에 있어서,
상기 적어도 하나의 기능성 모이어티는 마커 단백질인, 형질전환된 세포.
청구항 57 내지 62 중 어느 한 항에 있어서,
상기 이중 가닥 표적 폴리뉴클레오티드는 dsDNA이고, 상기 적어도 하나의 기능성 모이어티는 뉴클레아제 또는 헬리카제-뉴클레아제이며, 및 상기 변형은 원하는 유전자좌에서 단일-가닥 또는 이중-가닥 절단인, 형질전환된 세포.
청구항 57 내지 61 중 어느 한 항에 있어서, 또는 청구항 35에 있어서,
상기 이중 가닥 표적 폴리뉴클레오티드는 dsDNA이고, 상기 기능성 모이어티는 DNA 변형 효소 (예를 들어, 메틸라아제 또는 아세틸라제), 전사 활성인자 또는 전사 억제인자로부터 선택되며, 및 상기 결합, 절단, 표지 또는 변형은 유전자 발현의 변형을 결과하는, 형질전환된 세포 또는 방법.
청구항 57 내지 62 중 어느 한 항에 있어서,
상기 Cas 단백질은 발현 벡터로부터 발현되는, 형질전환된 세포.
청구항 43 내지 66 중 어느 한 항에 있어서,
상기 결합, 절단, 표지 또는 변형은, 원하는 위치에 원하는 뉴클레오티드 서열을 변형 또는 결손 및/또는 삽입을 결과하고, 및/또는 상기 결합, 절단, 표지 또는 변형은 원하는 유전자좌에서 유전자 발현의 침묵을 결과하는, 형질전환된 세포.
Cas 단백질, 이중 가닥 표적 폴리뉴클레오티드에서 표적 핵산 서열을 인식하는 적어도 하나의 표적화 RNA 분자, 및 표적 폴리뉴클레오티드를 포함하는 핵산단백질 복합체에 있어서,
상기 Cas 단백질은, SEQ ID NO: 1의 아미노산 서열 또는 이와 적어도 77% 동일성의 서열을 가지며;
상기 이중 가닥 표적 폴리뉴클레오티드는, 상기 표적 핵산 서열을 포함하는, 표적 핵산 가닥, 및 상기 표적 핵산 서열에 상보적인 프로토스페이스 핵산 서열 및 프로토스페이서 서열의 3' 말단에 바로 인접한 프로토스페이서 인근 모티프 (PAM) 서열을 포함하는, 비-표적 핵산 가닥을 포함하고; 여기서, 상기 PAM 서열은 5'-NNNNCNN-3'을 포함하는, 핵산단백질 복합체.
청구항 68에 있어서,
상기 핵산단백질 복합체는, 20℃ 내지 100℃의 온도, 30℃ 내지 80℃의 온도, 37℃ 내지 78℃의 온도, 바람직하게는, 55℃ 이상의 온도; 보다 바람직하게는, 55℃ 내지 80℃의 온도에서; 더욱 바람직하게는, 55℃ 내지 65℃ 또는 60℃ 내지 65℃의 온도에서 발생하는, 핵산단백질 복합체.
청구항 68 또는 69에 있어서,
상기 표적 핵산 서열을 포함하는 이중 가닥 표적 폴리뉴클레오티드는, Cas 단백질에 의해 절단되고, 바람직하게는, 상기 절단은 DNA 절단인, 핵산단백질 복합체.
청구항 68 내지 70 중 어느 한 항에 있어서,
상기 표적 서열을 포함하는 표적 폴리뉴클레오티드는 이중 가닥 DNA이고, 상기 결합, 절단, 표지 또는 변형은 표적 폴리뉴클레오티드에서 이중 가닥 절단을 결과하는, 핵산단백질 복합체.
청구항 68 또는 69에 있어서,
상기 표적 핵산 서열을 포함하는 표적 폴리뉴클레오티드는 이중 가닥 DNA이고, 상기 Cas 단백질은 이중 가닥 DNA를 절단하는 능력이 없으며, 및 상기 핵산단백질 복합체의 존재는 표적 폴리뉴클레오티드의 유전자 침묵을 결과하는, 핵산단백질 복합체.
청구항 68 내지 72 중 어느 한 항에 있어서,
상기 PAM 서열은, 5'-NNNNCNNA-3', 5'-CNNNCNN-3', 5'-NNNCCNN-3', 5'-NNCNCNN-3', 5'-NNNNCCN-3', 및/또는 5'-NCNNCNN-3'을 포함하는, 핵산단백질 복합체.
청구항 68 내지 73 중 어느 한 항에 있어서,
상기 PAM 서열은 5'-CCCCCCNA-3' [SEQ ID NO: 10]을 포함하고, 바람직하게는, 상기 PAM 서열은 5'-CCCCCCAA-3' [SEQ ID NO: 11]을 포함하는, 핵산단백질 복합체.
청구항 68 내지 74 중 어느 한 항에 있어서,
상기 Cas 단백질은 박테리아, 고세균 또는 바이러스, 바람직하게는, 호열성 박테리아로부터 얻을 수 있는, 핵산단백질 복합체.
청구항 68 내지 75 중 어느 한 항에 있어서,
상기 Cas 단백질은 지오바실러스 속, 바람직하게는, 지오바실러스 써모데니트리피칸스로부터 얻을 수 있는, 핵산단백질 복합체.
청구항 68 내지 76 중 어느 한 항에 있어서,
상기 핵산단백질 복합체는, 원핵세포 내에 존재하는, 핵산단백질 복합체.
청구항 68 내지 76 중 어느 한 항에 있어서,
상기 핵산단백질 복합체는 진핵세포 내에 존재하는, 핵산단백질 복합체.
청구항 68 내지 78 중 어느 한 항에 있어서,
상기 표적화 RNA 분자는 crRNA 및 tracrRNA를 포함하는, 핵산단백질 복합체.
청구항 68 내지 79 중 어느 한 항에 있어서,
상기 적어도 하나의 표적화 RNA 분자의 길이는 35-200 뉴클레오티드 잔기의 범위인, 핵산단백질 복합체.
청구항 68 내지 80 중 어느 한 항에 있어서,
상기 표적 핵산 서열은 길이가 15 내지 32 뉴클레오티드 잔기인, 핵산단백질 복합체.
청구항 68 내지 81 중 어느 한 항에 있어서,
상기 Cas 단백질은 적어도 하나의 기능성 모이어티를 더욱 포함하는, 핵산단백질 복합체.
청구항 68 내지 82 중 어느 한 항에 있어서,
상기 Cas 단백질은 적어도 하나의 추가의 기능성 또는 비-기능성 단백질을 포함하는 단백질 복합체의 일부로서 제공되고, 선택적으로, 상기 적어도 하나의 추가의 단백질은 적어도 하나의 기능성 모이어티를 더욱 포함하는, 핵산단백질 복합체.
청구항 82 또는 83에 있어서,
상기 Cas 단백질 또는 추가의 단백질은, Cas 단백질 또는 단백질 복합체의 N- 말단 및/또는 C-말단; 바람직하게는, C-말단에 융합 또는 연결된 적어도 하나의 기능성 모이어티를 포함하는, 핵산단백질 복합체.
청구항 82 내지 84 중 어느 한 항에 있어서,
상기 적어도 하나의 기능성 모이어티는: 헬리카제, 뉴클레아제, 헬리카제-뉴클레아제, DNA 메틸라아제, 히스톤 메틸라아제, 아세틸라제, 포스파타아제, 키나아제, 전사 활성인자, 전사 억제인자, DNA 결합 단백질, DNA 구조 단백질, 마커 단백질, 리포터 단백질, 형광 단백질, 리간드 결합 단백질, 신호 펩티드, 세포내 위치정보 서열, 항체 에피토프 또는 친화성 정제 태그, 예를 들어, 녹색 형광 단백질 (GFP)로부터 선택적으로 선택된 단백질인, 핵산단백질 복합체.
청구항 85에 있어서,
상기 Cas9 뉴클레아제의 고유 활성은 비활성화되고, 상기 Cas 단백질은 적어도 하나의 기능성 모이어티에 연결되는, 핵산단백질 복합체.
청구항 82 내지 86 중 어느 한 항에 있어서,
상기 적어도 하나의 기능성 모이어티는 뉴클레아제 도메인; 바람직하게는, FokI 뉴클레아제 도메인인, 핵산단백질 복합체.
청구항 82 내지 86 중 어느 한 항에 있어서,
상기 적어도 하나의 기능성 모이어티는 마커 단백질인, 핵산단백질 복합체.
청구항 82 내지 87 중 어느 한 항에 있어서,
상기 핵산은 dsDNA이고, 상기 적어도 하나의 기능성 모이어티는 뉴클레아제 또는 헬리카제-뉴클레아제이며, 및 상기 표적 폴리뉴클레오티드는 원하는 유전자좌에서 단일-가닥 또는 이중-가닥 절단을 갖는, 핵산단백질 복합체.
청구항 82 내지 86 중 어느 한 항에 있어서,
상기 핵산은 dsDNA이고, 상기 기능성 모이어티는 DNA 변형 효소 (예를 들어, 메틸라아제 또는 아세틸라제), 전사 활성인자 또는 전사 억제인자로부터 선택되며, 및 상기 핵산단백질 복합체 형성은 유전자 발현의 변형을 결과하는, 핵산단백질 복합체.
청구항 68 내지 90 중 어느 한 항에 있어서,
상기 핵산단백질 형성은, 원하는 위치에 원하는 뉴클레오티드 서열을 변형 또는 결손 및/또는 삽입을 결과하고, 및/또는 상기 핵산단백질 복합체 형성은 원하는 유전자좌에서 유전자 발현의 침묵을 결과하는, 핵산단백질 복합체.