모든 인용된 특허 및 비 특허 문헌의 개시 내용은 그 전체가 참조로써 본원에 포함된다.
본원에 사용된 용어 "발명" 또는 "개시된 발명"은 제한적인 것으로 의도된 것이 아니며, 청구범위에서 정의되거나 본원에 기재된 발명들 중 임의의 것에 일반적으로 적용된다. 이들 용어는 본원에서 상호교환적으로 사용된다.
대장균 세포의 게놈 내 표적 서열의 게놈 변형을 위한 조성물 및 방법이 제공된다. 상기 방법 및 조성물은 원형 폴리뉴클레오티드 변형 주형과 함께 가이드 RNA/Cas 엔도뉴클레아제 시스템을 채용하여 대장균 세포의 게놈 내 표적 부위를 편집하기 위한 효과적인 시스템을 제공한다.
Cas9 플라스미드를 포함하는 대장균 세포에서 천연 표적의 유전자 편집을 위한 폴리뉴클레오티드 변형 주형을 포함하는 원형 플라스미드(주형 플라스미드)의 이용이 도 1에 도시되어 있고 본원에 기재되어 있다. 개략도는 (대장균 표적 게놈 내에 위치하는) 편집될 천연 표적을 포함하는 대장균 세포 및 유도성 프로모터(예를 들어, Pbad)에 의해 유도된 Cas9 발현 카세트를 포함하는 Cas9 플라스미드를 도시한다. 2개의 상동 영역(상동 재조합을 가능케 하는 HR1 및 HR2)에 의해 플랭킹된 천연 표적 서열(검은색 막대로 표시)에 원하는 편집(흰색 별표로 표시)을 포함하는 폴리뉴클레오티드 변형 주형이, 가이드 RNA(gRNA)를 발현할 수 있는 가이드 RNA 발현 카세트를 포함하는 가이드 RNA 플라스미드와 함께 주형 플라스미드를 통해, (Cas9 엔도뉴클레아제 발현이 유도된) 대장균 세포에 제공된다. 유도된 대장균 세포는 Cas9 엔도뉴클레아제를 발현할 수 있고, 상동 재조합 매개 유전자 편집을 가능케 하는 천연 표적 서열의 절단을 매개할 수 있는 가이드 RNA/Cas9 엔도뉴클레아제 복합체(RGEN으로 지칭되기도 함)를 형성한다.
Cas9 플라스미드가 결여된 대장균 세포에서 천연 표적의 유전자 편집을 위한 폴리뉴클레오티드 변형 주형을 포함하는 원형 플라스미드(주형 플라스미드)의 이용이 도 2에 도시되어 있고 본원에 기재되어 있다. 개략도는 (대장균 표적 게놈에 위치한) 편집될 천연 표적 서열을 포함하는 대장균 세포를 도시한다. 2개의 상동 영역(상동 재조합을 가능케 하는 HR1 및 HR2)에 의해 플랭킹된 천연 표적 서열(검은색 막대로 표시)에 원하는 편집(흰색 별표로 표시)을 포함하는 폴리뉴클레오티드 변형 주형이, 가이드 RNA 플라스미드(가이드 RNA 발현 카세트를 포함) 및 Cas9 플라스미드(Pbad에 의해 유도된 유도성 Cas9 발현 카세트를 포함)와 함께 주형 플라스미드를 통해 대장균 세포에 제공된다. 대장균 세포가 일단 유도되면, 유도된 세포는 Cas9 엔도뉴클레아제를 발현할 수 있고, 상동 재조합 매개 유전자 편집을 가능케 하는 천연 표적 서열의 절단을 매개할 수 있는 가이드 RNA/Cas9 엔도뉴클레아제 복합체(RGEN으로 지칭되기도 함)를 형성한다.
관심 있는 폴리뉴클레오티드를 포함하는 공여 DNA를 포함하는 원형 플라스미드 또한 본원에 기재된 유전자 녹인 대장균에 사용될 수 있다.
용어 "크리스퍼"(규칙적으로 사이 간격을 두고 분포하는 짧은 회문구조 반복 서열)는, 예를 들어, 박테리아 및 고세균 세포에 의해 외래 DNA를 파괴하는데 사용되는 유형 I, II 또는 III의 DNA 절단 시스템의 인자를 암호화하는 특정 유전자좌를 지칭한다(Horvath 및 Barrangou, Science 327:167-170). 크리스퍼 시스템의 성분들은 본원에서 세포 내에서 DNA를 표적화하기 위해 이종의 방식으로 이용된다.
용어 "II형 크리스퍼 시스템" 및 "II형 크리스퍼-Cas 시스템"은 본원에서 상호교환적으로 사용되며, 적어도 하나의 RNA 성분과 복합체를 이룬 Cas9 엔도뉴클레아제를 이용하는 DNA 절단 시스템을 지칭한다. 예를 들어, Cas9는 크리스퍼 RNA (crRNA) 및 트랜스-활성화 크리스퍼 RNA(tracrRNA)와 복합체일 수 있다. 또 다른 예에서, Cas9는 가이드 RNA와 복합체일 수 있다. 따라서, crRNA, tracrRNA 및 가이드 RNA는 본원에서 RNA 성분들의 비제한적인 예이다.
본원에서 용어 크리스퍼-결합("Cas") 엔도뉴클레아제는 Cas 유전자에 의해 암호화되는 Cas 단백질을 지칭한다. 적합한 RNA 성분과 복합체인 경우, Cas 엔도뉴클레아제는 특정 DNA 표적 서열의 전부 또는 일부를 절단할 수 있다. 예를 들어, 특정 DNA 표적 서열에 이중 가닥 절단을 도입할 수 있거나; 대안적으로 특정 DNA 표적 서열의 한 가닥 또는 두 가닥을 절단할 수 있는 것을 특징으로 할 수 있다. Cas 엔도뉴클레아제는 표적 서열에서 DNA 이중 가닥을 풀 수 있고, Cas와 복합체인 crRNA 또는 가이드 RNA에 의한 표적 서열의 인식에 의해 매개되는 바와 같이, 적어도 하나의 DNA 가닥을 절단한다. 일반적으로 Cas 엔도뉴클레아제에 의한 이러한 표적 서열의 인식 및 절단은 정확한 프로토스페이서-인접 모티프(PAM)가 DNA 표적 서열의 3' 말단에 위치하거나 인접한 경우 발생한다. 대안적으로, 본원에서 Cas 단백질은 DNA 절단 또는 닉킹(nicking) 활성이 부족할 수 있지만, 적합한 RNA 성분과 복합체를 형성한 경우 여전히 DNA 표적 서열에 특이적으로 결합할 수 있다. 본원에서 바람직한 Cas 단백질은 Cas9이다.
본원에서 "Cas9" (이전에 Cas5, Csn1 또는 Csx12로 지칭됨)는 DNA 표적 서열의 전부 또는 일부를 특이적으로 인식하고 절단하기 위해, crRNA 및 tracrRNA와, 또는 가이드 RNA와 복합체를 형성하는 II형 크리스퍼 시스템의 Cas 엔도뉴클레아제를 지칭한다. Cas9 단백질은 RuvC 뉴클레아제 도메인 및 HNH(H-N-H) 뉴클레아제 도메인을 포함하며, 이들 각각은 표적 서열에서 단일 DNA 가닥을 절단한다 (두 도메인의 협동 작용은 DNA 이중 가닥 절단을 유도하는 반면, 하나의 도메인의 활성은 닉(nick)을 유도한다). 일반적으로, RuvC 도메인은 서브도메인 I, II 및 III을 포함하며, 여기서 도메인 I은 Cas9의 N 말단 근처에 위치하고, 서브도메인 II 및 III은 HNH 도메인에 플랭킹한 단백질의 중간에 위치한다(Hsu et al, Cell 157:1262-1278). "Apo-Cas9"는 RNA 성분과 복합체가 형성되지 않은 Cas9를 지칭한다. Apo-Cas9는 DNA와 결합할 수 있지만, 비 특이적 방식으로 결합하여, DNA를 절단할 수 없다(Sternberg et al., Nature 507:62-67).
본원에서 용어 "크리스퍼 RNA"(crRNA)는 하나 이상의 Cas 단백질(예를 들어, Cas9)과 복합체를 형성할 수 있어, 복합체에 DNA 결합 특이성을 제공하는 RNA 서열을 지칭한다. crRNA는 DNA 표적 서열의 가닥에 상보적인 "가변 표적화 도메인"(VT)을 포함하기 때문에 DNA 결합 특이성을 제공하다. crRNA는 crRNA가 유래된 크리스퍼 유전자좌의 반복 영역에 의해 암호화되는 "반복 서열" ("tracr RNA 메이트 서열")을 추가로 포함한다. crRNA의 반복 서열은 tracrRNA의 5'-말단에서 서열에 어닐링할 수 있다. 천연 크리스퍼 시스템의 crRNA는 크리스퍼 유전자좌로부터 전사된 "예비-crRNA"로부터 유래된다. 예비-crRNA는 스페이서 영역과 반복 영역을 포함하고, 스페이서 영역은 DNA 표적 부위 서열에 상보적인 특유의 서열을 포함한다. 천연 시스템의 예비-crRNA는 다수의 상이한 crRNA로 가공되며, 각각은 반복 서열의 일부와 함께 가이드 서열을 갖는다. 크리스퍼 시스템은, 예를 들어, DNA 표적화 특이성을 위해 crRNA를 이용한다.
본원에서 용어 "트랜스-활성화 크리스퍼 RNA"(tracrRNA)는 II형 크리스퍼 시스템에서 사용되는 비 암호화 RNA를 지칭하며, 5'에서 3' 방향으로 (i) 크리스퍼 II형 crRNA의 반복 영역과 어닐링하는 서열 및 (ii) 스템 루프를 포함하는 부분을 포함한다(Deltcheva et al., Nature 471:602-607).
RNA 성분 대신 "크리스퍼 DNA"(crDNA)가 선택적으로 이용될 수 있다. crDNA는 본원에 개시된 바와 같이 crRNA의 서열에 상응하는 DNA 서열을 갖는다. crDNA는 crDNA/tracrRNA 복합체에서 tracrRNA와 함께 이용될 수 있으며, crDNA/tracrRNA 복합체는 결국 RGEN 단백질 성분과 결합될 수 있다. 미국 출원 61/953,090호는 crDNA 및 RGEN 매개성 DNA 표적화에 있어서 이의 이용 방법을 개시하고 있다. 따라서, crRNA에 관한 본원에서의 임의의 개시 내용은 crDNA를 이용하는 것에 유사하게 적용할 수 있다고 예상된다. 따라서, crDNA를 포함시키는 본원의 구현예에서, "RNA-유도 엔도뉴클레아제"(RGEN)는 그 대신에 적어도 하나의 Cas 단백질 및 적어도 하나의 crDNA를 포함하는 복합체로 지칭될 수 있다.
본원에 사용된 용어 "가이드 폴리뉴클레오티드"는 Cas 엔도뉴클레아제와 복합체를 형성할 수 있고, 이러한 Cas 엔도뉴클레아제가 DNA 표적 부위를 인식하고 선택적으로 절단할 수 있게 하는 폴리뉴클레오티드 서열에 관한 것이다. 가이드 폴리뉴클레오티드는 단일 분자 또는 이중 분자일 수 있다. 가이드 폴리뉴클레오티드 서열은 RNA 서열, DNA 서열, 또는 이의 조합(RNA-DNA 조합 서열)일 수 있다. 선택적으로, 이러한 가이드 폴리뉴클레오티드는 적어도 하나의 뉴클레오티드, 포스포디에스테르 결합 또는 연결 변형, 예컨대 고정 핵산(LNA), 5-메틸 dC, 2,6-디아미노퓨린, 2'-플루오로 A, 2'-플루오로 U, 2'-O-메틸 RNA, 포스포로티오에이트 결합, 콜레스테롤 분자에 대한 연결, 폴리에틸렌 글리콜 분자에 대한 연결, 스페이서 18(헥사에틸렌 글리콜 사슬) 분자에 대한 연결, 또는 고리화를 초래하는 5'에서 3'으로의 공유 연결을 포함할 수 있으나, 이에 한정되지 않는다.
단독으로 리보핵산을 포함하는 가이드 폴리뉴클레오티드는 "가이드 RNA"라고도 지칭된다. 가이드 RNA는 가이드 RNA/Cas 엔도뉴클레아제 복합체로 불리는(RGEN으로 지칭되기도 함) Cas 엔도뉴클레아제와의 복합체를 형성할 수 있다. 용어 "가이드 RNA"(gRNA) 및 "단일 가이드 RNA"(sgRNA)는 본원에서 상호교환적으로 사용된다. 본원에서 gRNA는 tracrRNA에 작동 가능하게 연결된 crRNA를 함유한 키메라 서열을 지칭할 수 있다. 대안적으로, gRNA는, 예를 들어 crRNA와 tracrRNA의 합성 융합체를 지칭할 수 있다. gRNA는 또한 가변 표적화 도메인 다음에 Cas 엔도뉴클레아제 인식(CER) 도메인을 갖는 것을 특징으로 할 수 있다. CER 도메인은 tracrRNA 메이트 서열 다음에 tracrRNA 서열을 포함할 수 있다.
가이드 폴리뉴클레오티드는 표적 DNA의 뉴클레오티드 서열에 상보적인 (가변 표적화 도메인 또는 VT 도메인으로 지칭되는) 제1 뉴클레오티드 서열 도메인 및 Cas 엔도뉴클레아제 폴리펩티드와 상호 작용하는 (Cas 엔도뉴클레아제 인식 도메인 또는 CER 도메인으로 지칭되는) 제2 뉴클레오티드 서열 도메인을 포함하는 (이중 가이드 폴리뉴클레오티드라 지칭되기도 하는) 이중 분자일 수 있다. 이중 분자 가이드 폴리뉴클레오티드의 CER 도메인은 상보성 영역을 따라 혼성화된 두 개의 별개의 분자들을 포함한다. 이러한 두 개의 별개의 분자들은 RNA, DNA, 및/또는 RNA-DNA- 조합 서열일 수 있다. 일부 구현예에서, CER 도메인에 연결된 VT 도메인을 포함하는 이중 가이드 폴리뉴클레오티드의 제1 분자("cr뉴클레오티드")는 (연속된 DNA 뉴클레오티드들로 구성되는 경우) "crDNA" 또는 (연속된 RNA 뉴클레오티드들로 구성되는 경우) "crRNA", 또는 (DNA와 RNA 뉴클레오티드의 조합으로 구성되는 경우) "crDNA-RNA"라 지칭된다. 일부 구현예에서, CER 도메인을 포함하는 이중 가이드 폴리뉴클레오티드의 제2 분자는 (연속된 RNA 뉴클레오티드들로 구성되는 경우) "tracrRNA" 또는 (연속된 DNA 뉴클레오티드들로 구성되는 경우) "tracrDNA" 또는 (DNA와 RNA 뉴클레오티드의 조합으로 구성되는 경우) "tracrDNA-RNA"라 지칭된다.
또한, 이러한 가이드 폴리뉴클레오티드는 표적 DNA의 뉴클레오티드 서열에 상보적인 제1 뉴클레오티드 서열 도메인(가변 표적화 도메인 또는 VT 도메인으로 지칭됨, 도 3) 및 Cas 엔도뉴클레아제 폴리펩티드와 상호 작용하는 제2 뉴클레오티드 도메인(Cas 엔도뉴클레아제 인식 도메인 또는 CER 도메인으로 지칭됨, 도 3)을 포함하는 단일 분자일 수 있다. "도메인"은 RNA, DNA, 및/또는 RNA-DAN-조합 서열일 수 있는 뉴클레오티드들이 연속되어 있는 것을 의미한다. 단일 가이드 폴리뉴클레오티드의 VT 도메인 및/또는 CER 도메인은 RNA 서열, DNA 서열, 또는 RNA-DNA-조합 서열을 포함할 수 있다. 일부 구현예에서, 이러한 단일 가이드 폴리뉴클레오티드는 (CER 도메인을 포함하는) tracr뉴클레오티드에 연결된 (CER 도메인에 연결된 VT 도메인을 포함하는) cr뉴클레오티드를 포함하며, 이때, 이러한 연결은 RNA 서열, DNA 서열, 또는 RNA-DNA 조합 서열을 포함하는 뉴클레오티드 서열이다. cr뉴클레오티드 및 tracr뉴클레오티드로부터의 서열들로 구성되는 단일 가이드 폴리뉴클레오티드는 (연속된 RNA 뉴클레오티드들로 구성되는 경우) "단일 가이드 RNA" 또는 (연속된 DNA 뉴클레오티드들로 구성되는 경우) "단일 가이드 DNA" 또는 (RNA와 DNA 뉴클레오티드의 조합으로 구성되는 경우) "단일 가이드 RNA-DNA"라 지칭될 수 있다.
따라서, 특정 구현예에서 가이드 폴리뉴클레오티드와 II형 Cas 엔도뉴클레아제는 서로 복합체("가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체" 라 지칭되거나 "가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템"이라고도 지칭됨)를 형성할 수 있는데, 이때, 이러한 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 Cas 엔도뉴클레아제가 세포(예컨대, 식물 세포)의 게놈 표적 부위를 표적화하도록 유도할 수 있으며, 선택적으로 Cas 엔도뉴클레아제가 게놈 표적 부위 내로 단일 가닥 절단 또는 이중 가닥 절단을 도입할 수 있게 할 수 있다. 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 적어도 하나의 CPP에 연결될 수 있는데, 이때, 이러한 복합체는 세포(예컨대, 식물 세포)의 표적 부위와 결합할 수 있고, 선택적으로 세포(예컨대, 식물 세포)의 표적 부위에 단일 가닥 절단 또는 이중 가닥 절단을 생성할 수 있다.
용어 "가변 표적화 도메인" 또는 "VT 도메인"은 본원에서 상호교환적으로 사용되며, 이중 가닥 DNA 표적 부위의 한 가닥(뉴클레오티드 서열)에 상보적인 뉴클레오티드 서열을 지칭한다. 제1 뉴클레오티드 서열 도메인(VT 도메인)과 표적 서열 사이의 백분율 보완성은 적어도 50%, 51%, 52%, 53%, 54%, 55%, 56%, 57%, 58%, 59%, 60%, 61%, 62%, 63%, 63%, 65%, 66%, 67%, 68%, 69%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%일 수 있다. 가변 표적 도메인의 길이는 적어도 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개 또는 30개 뉴클레오티드 길이일 수 있다. 일부 구현예에서, 이러한 가변 표적화 도메인은 연속된 12개 내지 30개의 뉴클레오티드를 포함한다. 가변 표적화 도메인은 DNA 서열, RNA 서열, 변형된 DNA 서열, 변형된 RNA 서열(예컨대, 본원에 기술된 변형 참조), 또는 이의 임의의 조합으로 구성될 수 있다.
용어 가이드 폴리뉴클레오티드의 "Cas 엔도뉴클레아제 인식 도메인" 또는 "CER 도메인"은 본원에서 상호교환적으로 사용되며, Cas 엔도뉴클레아제 폴리펩티드와 상호작용하는 뉴클레오티드 서열(예컨대, 가이드 폴리뉴클레오티드의 제2 뉴클레오티드 서열 도메인)에 관한 것이다. CER 도메인은 DNA 서열, RNA 서열, 변형된 DNA 서열, 변형된 RNA 서열(예컨대, 본원에 기술된 변형 참조), 또는 이의 임의의 조합으로 구성될 수 있다.
용어 "RNA-유도 엔도뉴클레아제", "RGEN", "가이드 RNA/Cas 엔도뉴클레아제 복합체", "가이드 RNA/Cas 엔도뉴클레아제 시스템"은 본원에서 상호교환적으로 사용될 수 있으며, 적어도 하나의 크리스퍼 (규칙적으로 사이 간격을 두고 분포하는 짧은 회문구조 반복 서열)-결합(Cas) 단백질 및 적어도 하나의 RNA 성분을 포함하는 복합체를 지칭한다. 용어 "RGEN의 단백질 성분"과 "RGEN 단백질 성분"은 본원에서 상호교환적으로 사용되며, RGEN의 엔도뉴클레아제 성분이거나 이의 일부분을 형성하는 Cas 단백질을 지칭한다. 특정 구현예에서 단백질 성분은 완전한 엔도뉴클레아제(예컨대, Cas9)일 수 있다. 이러한 단백질 성분은 대안적으로 RGEN의 "엔도뉴클레아제 성분"이라 지칭될 수 있다. 본원에서 RGEN은 일반적으로, 적어도 하나의 RNA 성분과의 결합을 고려할 때 특이적인 DNA 표적화 활성을 가진다.
본원에서 용어 "RNA 성분"은 DNA 표적 서열의 가닥에 상보적인 리보핵산 서열을 포함하는 RGEN의 RNA 성분을 지칭한다. 본원에서 이러한 상보적인 서열은 "가이드 서열" 또는 "가변 표적화 도메인" 서열로 지칭된다(도 3). 본원에서 적합한 RNA 성분의 예는 cRNA 및 가이드 RNA를 포함한다. 특정 구현예에서의 RNA 성분들(예컨대, 가이드 RNA 단독, crRNA + tracrRNA)은 RGEN을 특이적인 DNA 표적화에 적합하게 만들 수 있다.
간략하게, RGEN의 RNA 성분은 표적 부위 서열의 DNA 서열에 상보적인 서열을 포함한다. 이러한 상보성에 기초하여, RGEN은 특정 DNA 표적 부위 서열을 특이적으로 인식하여 절단할 수 있다. 본원에서 RGEN은 4개의 알려진 크리스퍼 시스템(Horvath 및 Barrangou, Science 327:167-170), 예컨대 I형, II형 또는 III형 크리스퍼 시스템 중 어느 하나의 Cas 단백질(들) 및 적합한 RNA 성분(들)을 포함할 수 있다. 바람직한 구현예의 RGEN은 Cas9 엔도뉴클레아제(크리스퍼 II 시스템) 및 적어도 하나의 RNA 성분(예를 들어, crRNA 및 tracrRNA, 또는 gRNA)을 포함한다.
RGEN 단백질 성분은 Cas 단백질, 예컨대, Cas9를 지칭할 수 있다. 적합한 Cas 단백질의 예에는 유형 I, II 또는 III 크리스퍼 시스템 중 하나 이상의 Cas 엔도뉴클레아제가 포함된다(본원에 참조로 포함되는 Bhaya et al., Annu . Rev. Genet. 45:273-297). I형 크리스퍼 Cas 단백질은, 예를 들어 Cas3 또는 Cas4 단백질일 수 있다. II형 크리스퍼 Cas 단백질은, 예를 들어 Cas9 단백질일 수 있다. III형 크리스퍼 Cas 단백질은, 예를 들어 Cas10 단백질일 수 있다. Cas9 단백질이 바람직한 특정 구현예에서 사용된다. 특정 구현예에서, Cas 단백질은 박테리아 또는 고세균 단백질일 수 있다. 본원에서 I형 내지 III형 크리스퍼 Cas 단백질은 일반적으로 원핵생물 기원이며, 예를 들어, I형 및 III형 Cas 단백질은 박테리아 또는 고세균 종으로부터 유래될 수 있는 반면, II형 Cas 단백질(즉, Cas9)은 박테리아 종으로부터 유래될 수 있다. 다른 구현예에서, 적합한 Cas 단백질은 Cas1, Cas1B, Cas2, Cas3, Cas4, Cas5, Cas6, Cas7, Cas8, Cas9, Cas10, Csy1, Csy2, Csy3, Cse1, Cse2, Csc1, Csc2, Csa5, Csn2, Csm2, Csm3, Csm4, Csm5, Csm6, Cmr1, Cmr3, Cmr4, Cmr5, Cmr6, Csb1, Csb2, Csb3, Csx17, Csx14, Csx10, Csx16, CsaX, Csx3, Csx1, Csx15, Csf1, Csf2, Csf3, Csf4, 이의 상동체, 또는 변형된 버전 중 하나 이상을 포함한다.
개시된 발명의 다른 양태에서, 본원의 Cas 단백질은 다음의 속 중 임의의 것으로부터 유래할 수 있다: 아에로피룸(Aeropyrum), 피로바쿨룸(Pyrobaculum), 술폴로부스(Sulfolobus), 아캐오글로부스(Archaeoglobus), 할로아르쿨라(Haloarcula), 메타노박테리움(Methanobacteriumn), 메타노코커스(Methanococcus), 메타노사르시나(Methanosarcina), 메타노피러스(Methanopyrus), 피로코커스(Pyrococcus), 피크로필러스(Picrophilus), 써니오플라스니아(Thernioplasnia), 코리네박테리움(Corynebacterium), 마이코박테리움(Mycobacterium), 스트렙토마이세스(Streptomyces), 아퀴펙스(Aquifex), 포르피로모나스(Porphyromonas), 클로로비움(Chlorobium), 써머스(Thermus), 바실러스(Bacillus), 리스테리아(Listeria), 스타필로코커스(Staphylococcus), 클로스트리디움(Clostridium), 써모아나에로박터(Thermoanaerobacter), 마이코플라스마(Mycoplasma), 푸소박테리움(Fusobacterium), 아자쿠스(Azarcus), 크로모박테리움(Chromobacterium), 네이세리아(Neisseria), 니트로소모나스(Nitrosomonas), 디설포비브리오(Desulfovibrio), 게오박터(Geobacter), 미로코커스(Myrococcus), 캄필로박터(Campylobacter), 볼리넬라(Wolinella), 아시네토박터(Acinetobacter), 에르위니아(Erwinia), 에스케리챠(Escherichia), 레지오넬라(Legionella), 메틸로코커스(Methylococcus), 파스퇴렐라(Pasteurella), 포토박테리움(Photobacterium), 살모넬라(Salmonella), 잔토모나스(Xanthomonas), 예시니아(Yersinia), 스트렙토코커스(Streptococcus), 트레포네마(Treponema), 프란시셀라(Francisella) 또는 써모토가(Thermotoga). 대안적으로, 본원의 Cas 단백질은, 예를 들어, 본원에 참조로 포함되는 미국 특허 출원 공개 2010/0093617호에 개시된 바와 같이, 서열 번호 462 내지 465, 467 내지 472, 474 내지 477, 479 내지 487, 489 내지 492, 494 내지 497, 499 내지 503, 505 내지 508, 510 내지 516 또는 517 내지 521 중 임의의 것에 의해 암호화될 수 있다.
RGEN 단백질 성분은 예를 들어 Cas9 아미노산 서열을 포함할 수 있다. 이러한 유형의 단백질 성분을 포함하는 RGEN은 일반적으로 RGEN의 엔도뉴클레아제 성분으로서 Cas9를 갖는 것을 특징으로 할 수 있다. 본원의 Cas9 단백질뿐만 아니라 본원의 기타 특정 Cas 단백질의 아미노산 서열은 예를 들어, 스트렙토코커스(예를 들어, S. 피오제네스(pyogenes), S. 뉴모니애(pneumoniae), S. 써모필러스(thermophilus), S. 아갈락티아(agalactiae), S. 파라상귀니스(parasanguinis), S. 오랄리스(oralis), S. 살리바리우스(salivarius), S. 마카카(macacae), S. 디스갈락티애(dysgalactiae), S. 안지노서스(anginosus), S. 콘스텔라투스(constellatus), S. 슈도포르시누스(pseudoporcinus), S. 뮤탄스(mutans)), 리스테리아(예를 들어, L. 인노쿠아(innocua)), 스피로플라즈마(Spiroplasma) (예를 들어, S. 아피스(apis), S. 시르피디콜라(syrphidicola)), 펩토스트렙토코카세(Peptostreptococcaceae), 아토포비움(Atopobium), 포르피로모나스(Porphyromonas) (예를 들어, P. 카토니아(catoniae)), 프레보텔라(Prevotella) (예를 들어, P. 인테르메디아(intermedia)), 베일로넬라(Veillonella), 트레포네마(Treponema)(예를 들어, T. 소크란스키(socranskii), T. 덴티콜라(denticola)), 카프노사이토파가(Capnocytophaga), 피네골디아(Finegoldia)(예를 들어, F. 마그나(magna)), 코리오박테리아세아에(Coriobacteriaceae)(예를 들어, C. 박테리움(bacterium)), 올스넬라(Olsenella)(예를 들어, O. 프로푸사(profusa)), 헤모필루스(Haemophilus)(예를 들어, H. 스푸토룸(sputorum), H. 피트마니아에(pittmaniae)), 파스퇴렐라(Pasteurella)(예를 들어, P. 베티아에(bettyae)), 올리비박터(Olivibacter)(예를 들어, O. 시티엔시스(sitiensis)), 에필리토니모나스(Epilithonimonas)(예를 들어, E. 테낙스(tenax)), 메소니아(Mesonia)(예를 들어, M. 모빌리스(mobilis)), 락토바실루스(Lactobacillus), 바실루스(예를 들어, B. 세레우스(cereus)), 아퀴마리나(Aquimarina)(예를 들어, A. 무엘레리(muelleri)), 크리세오박테리움(Chryseobacterium)(예를 들어, C. 파루스트레(palustre)), 박테로이데스(Bacteroides)(예를 들어, B. 그라미니솔벤스(graminisolvens)), 네이세리아(예를 들어, N. 메닝기티디스(meningitidis)), 프란시셀라(Francisella)(예를 들어, F. 노비시다(novicida)) 또는 플라보박테리움(Flavobacterium)(예를 들어, F. 프리기다리움(frigidarium), F. 솔리(soli)) 종으로부터 유래될 수 있다. 본원의 특정 양태에서 S. 피오제네스 Cas9가 바람직하다. 또 다른 예로서, Cas9 단백질은 본원에 참조로 포함되는 Chylinski et al. (RNA Biology 10:726-737)에 개시된 Cas9 단백질 중 임의의 것일 수 있다.
따라서, 본원의 Cas9 단백질의 서열은, 예를 들어, 참조로 포함되는 진뱅크(GenBank) 등록번호 G3ECR1 (S. 써모필러스), WP_026709422, WP_027202655, WP_027318179, WP_027347504, WP_027376815, WP_027414302, WP_027821588, WP_027886314, WP_027963583, WP_028123848, WP_028298935, Q03JI6 (S. 써모필러스), EGP66723, EGS38969, EGV05092, EHI65578 (S. 슈도포르시누스), EIC75614 (S. 오랄리스), EID22027 (S. 콘스텔라투스), EIJ69711, EJP22331 (S. 오랄리스), EJP26004 (S. 안지노서스), EJP30321, EPZ44001 (S. 피오제네스), EPZ46028 (S. 피오제네스), EQL78043 (S. 피오제네스), EQL78548 (S. 피오제네스), ERL10511, ERL12345, ERL19088 (S. 피오제네스), ESA57807 (S. 피오제네스), ESA59254 (S. 피오제네스), ESU85303 (S. 피오제네스), ETS96804, UC75522, EGR87316 (S. 디스갈락티애), EGS33732, EGV01468 (S. 오랄리스), EHJ52063 (S. 마카카), EID26207 (S. 오랄리스), EID33364, EIG27013 (S. 파라상귀니스), EJF37476, EJO19166 (스트렙토코커스 종 BS35b), EJU16049, EJU32481, YP_006298249, ERF61304, ERK04546, ETJ95568 (S. 아갈락티아), TS89875, ETS90967 (스트렙토코커스 종 SR4), ETS92439, EUB27844 (스트렙토코커스 종 BS21), AFJ08616, EUC82735 (스트렙토코커스 종 CM6), EWC92088, EWC94390, EJP25691, YP_008027038, YP_008868573, AGM26527, AHK22391, AHB36273, Q927P4, G3ECR1 또는 Q99ZW2 (S. 피오제네스)에 개시된 Cas9 아미노산 서열 중 임의의 것을 포함할 수 있다. 이들 Cas9 단백질 서열 중 임의의 것의 변이체가 사용될 수 있지만, 본원의 RNA 성분과 결합할 경우 DNA에 대한 특이적 결합 활성 및 선택적으로 절단 또는 닉킹 활성을 가져야 한다. 이러한 변이체는 기준 Cas9의 아미노산 서열과 적어도 약 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99% 동일한 아미노산 서열을 포함할 수 있다.
대안적으로, 본원의 Cas9 단백질은, 예를 들어 서열 번호 1 내지 2에 의해 암호화될 수 있다. 또한, 대안적으로, Cas9 단백질은, 예를 들어, 전술한 아미노산 서열 중 임의의 것과 적어도 약 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99% 동일한 아미노산 서열을 포함할 수 있다. 이러한 변이체인 Cas9 단백질은 본원의 RNA 성분과 결합할 경우 DNA에 대한 특이적 결합 활성, 및 선택적으로 절단 또는 닉킹 활성을 가져야 한다.
본원에서 사용된 Cas 단백질(예를 들어, Cas9)의 기원은 RNA 성분(들)이 유래된 것과 동일한 종으로부터 유래할 수 있거나, 상이한 종으로부터 유래할 수 있다. 예를 들어, 스트렙토코커스 종(예를 들어, S. 피오제네스 또는 S. 써모필러스)으로부터 유래된 Cas9 단백질을 포함하는 RGEN은 동일한 스트렙토코커스 종으로부터 유래된 서열(예를 들어, crRNA 반복 서열, tracrRNA 서열)을 갖는 적어도 하나의 RNA 성분과 복합체를 형성할 수 있다. 대안적으로, 본원에서 사용된 Cas 단백질(예를 들어, Cas9)의 기원은 RNA 성분(들)이 유래된 종과 상이한 종으로부터 유래할 수 있다(Cas 단백질 및 RNA 성분(들)은 서로 이종성일 수 있다); 이러한 이종 Cas/RNA 성분 RGEN은 DNA 표적화 활성을 가져야 한다.
소정의 표적 DNA 서열에 대한 본원의 Cas 단백질의 결합 활성 및/또는 엔도뉴클레오리틱(endonucleolytic) 활성을 결정하는 것은 본원에 참고로 개시된 미국 특허 8697359호에 개시된 바와 같은, 당해 분야에 공지된 임의의 적합한 분석법에 의해 평가할 수 있다. 예를 들어, 세포에서 Cas 단백질과 적합한 RNA 성분을 발현한 후, 삽입-결실의 존재가 예측되는 DNA 표적 부위를 조사함으로써 결정이 이루어질 수 있다(이러한 특별한 분석법에서 Cas 단백질은 일반적으로, 완전한 엔도뉴클레오리틱 활성[이중 가닥 절단 활성]을 가질 것이다). 예측되는 표적 부위에서 변형/변경(예를 들어, 삽입-결실)의 존재를 조사하는 것은, 예를 들어, DNA 시퀀싱 방법을 통해 또는 표적 서열의 기능 상실을 분석하여 변경/변형 형성을 추정함으로써 수행될 수 있다.
또 다른 예에서, Cas 단백질과 적합한 RNA 성분이, 적합한 표적 서열을 포함하는 DNA 폴리뉴클레오티드와 함께 서로 혼합되는 시험관 내 분석법을 이용하여 Cas 단백질 활성을 결정할 수 있다. 이러한 분석법은 절단 활성이 결여된 Cas 단백질에 의해 결합(예컨대, 겔 시프트)을 검출하거나, 엔도뉴클레오리틱 절단에 적합한 Cas 단백질에 의한 절단을 검출하는 데 이용될 수 있다.
본원의 Cas 단백질, 예컨대 Cas9는 특정 양태에서 이종 핵 국재화 서열(NLS)을 더 포함할 수 있다. 본원에서 이종 NLS 아미노산 서열은, 예를 들어, 본원의 세포의 핵에 검출 가능한 양으로 Cas 단백질 또는 Cas 단백질-CPP 복합체의 축적을 유도하기에 충분한 강도를 나타낼 수 있다. NLS는 염기성의, 양으로 하전된 잔기(예를 들어, 라이신 및/또는 아르기닌)의 하나(1부분(monopartite)) 이상(예를 들어, 2부분(bipartite))의 짧은 서열(예를 들어, 2 내지 20개의 잔기)을 포함할 수 있으며, Cas 아미노산 서열 중 어디에도 위치할 수 있지만 단백질 표면 상에 노출되어야 한다. NLS는, 예를 들어, 본원의 Cas 단백질의 N 말단 또는 C 말단에 작동 가능하게 연결될 수 있다. 둘 이상의 NLS 서열이 예를 들어 Cas 단백질에 연결될 수 있는데, 예를 들어 Cas 단백질의 N 말단과 C 말단 모두에 연결될 수 있다. 본원에서 적합한 NLS 서열의 비제한적인 예에는 본원에 참조로 포함되는 미국 특허 6660830호 및 7309576호(예를 들어, 그 안의 표 1)에 개시된 것들이 포함된다. 본원에 개시된 Cas 단백질은 예를 들어 CPP에 융합될 수 있다(CPP에 공유적으로 연결된 Cas 단백질의 예). 이러한 Cas-CPP 융합 단백질도 위에 기술된 NLS를 포함할 수 있음이 이해될 것이다. 또한, Cas 단백질이 상이한 세포 기관(예컨대, 미토콘드리아)을 표적화하는 아미노산 서열과 융합되는 구현예에서, 이러한 Cas 단백질은 일반적으로 NLS를 포함하지 않으리라는 점이 이해될 것이다.
Cas 단백질은 하나 이상의 이종 단백질 도메인(예를 들어, Cas 단백질에 더하여 1개, 2개, 3개 이상의 도메인)을 포함하는 융합 단백질의 일부일 수 있다. 예를 들어, Cas 단백질은 CPP 및/또는 하나 이상의 추가적인 이종 아미노산 서열에 공유적으로 연결될 수 있다(2014년 8월 13일 출원된 미국 가특허출원 62/036652호 참조). Cas 단백질은 또한, 예를 들어 CPP를 포함하지 않는 하나 이상의 추가적인 이종 아미노산 서열에 공유적으로 연결될 수 있다(이러한 구현예에서 CPP는 Cas 융합 단백질에 비 공유적으로 연결될 것이다). Cas 단백질을 포함하는 융합 단백질은 임의의 추가적인 단백질 서열, 및 선택적으로 임의의 두 도메인 사이, 예컨대, Cas와 제1 이종 도메인 사이의 링커 서열을 포함할 수 있다. 본원의 Cas 단백질에 융합될 수 있는 단백질 도메인의 예에는 에피토프 태그(예를 들어, 히스티딘 [His, 폴리-히스티딘], V5, FLAG, 인플루엔자 혈구응집소 [HA], myc, VSV-G, 티오레독신 [Trx]), 리포터(예를 들어, 글루타티온-5-트랜스퍼라제 [GST], 홀스래디쉬 퍼옥시다제 [HRP], 클로람페니콜 아세틸트랜스퍼라제 [CAT], 베타-갈락토시다제, 베타-글루쿠로니다제 [GUS], 루시퍼라제, 녹색 형광 단백질 [GFP], HcRed, DsRed, 청록색 형광 단백질[CFP], 황색 형광 단백질 [YFP], 청색 형광 단백질 [BFP]) 및 메틸라제 활성, 데메틸라제 활성, 전사 활성화 활성(예를 들어, VP16 또는 VP64), 전사 억제 활성, 전사 방출 인자 활성, 히스톤 변형 활성, RNA 절단 활성 및 핵산 결합 활성 중 하나 이상을 갖는 도메인이 제한 없이 포함된다. 다른 구현예에서, Cas 단백질은 DNA 분자 또는 다른 분자, 예컨대 말토스 결합 단백질(MBP), S-태그, Lex A DNA 결합 도메인(DBD), GAL4A DNA 결합 도메인 및 단순 헤르페스 바이러스(HSV) VP16에 결합하는 단백질과 융합될 수 있다. 본원의 Cas 단백질을 포함하는 융합 단백질의 일부가 될 수 있는 추가적인 도메인은 본원에 참조로 포함되는 미국 특허 출원 공개 2011/0059502호에 개시되어 있다. Cas 단백질이 이종 단백질(예를 들어, 전사 인자)에 융합되는 특정 구현예에서, Cas 단백질은 (본원의 적합한 RNA 성분과 복합체인 경우) DNA 인식 및 결합 활성을 가지나, DNA 닉킹 또는 절단 활성은 없다.
본원의 Cas 단백질에 연결될 수 있는 이종 도메인의 다른 예로 단백질을 특정 세포 기관으로 표적화하는 아미노산 서열들을 들 수 있다(즉, 국재화 신호). 표적화될 수 있는 세포 기관의 예로 미토콘드리아와 엽록체를 들 수 있다. 일반적으로, 핵 외부의 DNA 부위를 표적화할 때, 이러한 표적화 도메인이 NLS 대신 이용된다. 미토콘드리아 표적화 서열(MTS)은 예를 들어, Cas 단백질의 N 말단에 또는 그 부근에 위치할 수 있다. MTS 예는 본원에 참조로 포함되는 미국 특허 출원 공개 2007/0011759호 및 2014/0135275호에 개시되어 있다. 엽록체 표적화 서열은 예를 들어, 본원에 참조로 포함되는 미국 특허 출원 공개 2010/0192262호 또는 2012/0042412호에 개시된 바와 같을 수 있다.
RGEN의 단백질 성분은 예를 들어, 세포 내의 염색체 또는 에피솜 상의 표적 부위 서열에 대해 상보적인 서열을 포함하는 적어도 하나의 RNA 성분과 결합될 수 있다(그에 의해 완전한 RGEN을 구성함). 이러한 구현예에서 RGEN은 표적 부위 서열과 결합할 수 있고, 선택적으로 표적 부위 서열에서 하나 또는 두 DNA 가닥을 절단할 수 있다. RGEN은 예를 들어, DNA 표적 서열의 한 가닥 또는 두 가닥을 절단할 수 있다. 또 다른 예에서, RGEN은 DNA 표적 서열의 두 가닥을 절단할 수 있다. 모든 이러한 구현예에서, RGEN 단백질 성분은 RGEN 단백질-CPP 복합체에서 적어도 하나의 CPP에 공유적으로 또는 비 공유적으로 연결될 수 있음이 이해될 것이다. 본원의 RNA 성분과 RGEN 단백질-CPP 복합체의 결합은 RGEN-CPP 복합체를 형성하는 것을 특징으로 할 수 있다. RGEN에 관한 본원의 임의의 개시 내용은 달리 언급되지 않는 한 RGEN-CPP 복합체의 RGEN 성분에 마찬가지로 적용될 수 있다.
DNA 표적 서열의 두 가닥을 절단할 수 있는 본원의 RGEN은 일반적으로 이의 엔도뉴클레아제 도메인 모두를 기능적 상태(functional state)로 가지는 Cas 단백질을 포함한다(예를 들어, 야생형 엔도뉴클레아제 도메인 또는 각각의 엔도뉴클레아제 도메인에서 일부 또는 모든 활성을 보유하는 이들의 변이체). 따라서, 야생형 Cas 단백질(예를 들어, 본원에 개시된 Cas9 단백질) 또는 Cas 단백질의 각각의 엔도뉴클레아제 도메인에서 일부 또는 모든 활성을 보유하는 이의 변이체가 DNA 표적 서열의 두 가닥을 절단할 수 있는 RGEN의 적합한 예이다. 기능적 RuvC 및 HNH 뉴클레아제 도메인을 포함하는 Cas9 단백질은 DNA 표적 서열의 두 가닥을 절단할 수 있는 Cas 단백질의 예이다. DNA 표적 서열의 두 가닥을 절단할 수 있는 본원의 RGEN은 일반적으로, 절단 부위에 평활 말단(즉, 뉴클레오티드 돌출부가 없음)을 형성하도록 동일한 위치에서 두 가닥을 절단한다.
DNA 표적 서열의 한 가닥을 절단할 수 있는 본원의 RGEN은 본원에서 닉카아제 활성(예를 들어, 부분 절단 능력)을 갖는 것을 특징으로 할 수 있다. 본원의 Cas 닉카아제(예를 들어, Cas9 닉카아제)는 일반적으로, Cas가 DNA 표적 서열 중 한 가닥만 절단하도록 하는(즉, 닉을 형성하도록 하는) 하나의 기능적 엔도뉴클레아제 도메인을 포함한다. 예를 들어, Cas9 닉카아제는 (i) 돌연변이 기능장애 RuvC 도메인 및 (ii) 기능적 HNH 도메인(예를 들어, 야생형 HNH 도메인)을 포함할 수 있다. 또 다른 예로서, Cas9 닉카아제는 (i) 기능적 RuvC 도메인(예를 들어, 야생형 RuvC 도메인) 및 (ii) 돌연변이 기능장애 HNH 도메인을 포함할 수 있다.
본원에서 사용하기에 적합한 Cas9 닉카아제의 비제한적인 예는 본원에 참조로 포함되는 Gasiunas et al. (Proc . Natl . Acad . Sci . U.S.A . 109:E2579-E2586), Jinek et al. (Science 337:816-821), Sapranauskas et al. (Nucleic Acids Res. 39:9275-9282) 및 미국 특허 출원 공개 2014/0189896호에 개시되어 있다. 예를 들어, 본원에서 Cas9 닉카아제는 Asp-31 치환(예를 들어, Asp-31-Ala)(돌연변이 RuvC 도메인의 예), 또는 His-865 치환(예를 들어, His-865-Ala), Asn-882 치환(예를 들어, Asn-882-Ala), 또는 Asn-891 치환(예를 들어, Asn-891-Ala)(돌연변이 HNH 도메인의 예)을 갖는 S. 써모필러스 Cas9를 포함할 수 있다. 또한, 예를 들어, 본원에서 Cas9 닉카아제는 Asp-10 치환(예를 들어, Asp-10-Ala), Glu-762 치환(예를 들어, Glu-762-Ala), 또는 Asp-986 치환(예를 들어, Asp-986-Ala)(돌연변이 RuvC 도메인의 예), 또는 His-840 치환(예를 들어, His-840-Ala), Asn-854 치환(예를 들어, Asn-854-Ala), 또는 Asn-863 치환(예를 들어, Asn-863-Ala)(돌연변이 HNH 도메인의 예)을 갖는 S. 피오제네스 Cas9를 포함할 수 있다. S. 피오제네스 Cas9에 관하여, 3개의 RuvC 서브도메인은 일반적으로 각각 아미노산 잔기 1 내지 59, 718 내지 769 및 909 내지 1098에 위치하고, HNH 도메인은 아미노산 잔기 775 내지 908에 위치한다(Nishimasu et al., Cell 156:935-949).
본원에서 Cas9 닉카아제는 원하는 경우, 세포에서 다양한 용도로 이용될 수 있다. 예를 들어, Cas9 닉카아제는 적합한 폴리뉴클레오티드 변형 주형을 갖는 DNA 표적 부위 서열에서 또는 그 부근에서 HR을 촉진하는 데 이용될 수 있다. 닉이 있는 DNA는 NHEJ 공정을 위한 기질은 아니지만 HR 공정에 의해 인식되므로, 소정의 표적 부위에서 DNA에 닉을 형성하는 것은 그 부위가 적합한 폴리뉴클레오티드 변형 주형을 사용하는 HR을 더 잘 수용할 수 있게 해야 한다.
또 다른 예로서, DNA 표적화의 특이성을 증가시키기 위해 한 쌍의 Cas9 닉카아제가 사용될 수 있다. 일반적으로, 이는, 상이한 가이드 서열을 갖는 RNA 성분들과 결합되어 있기 때문에, 원하는 표적화를 위한 영역에서 반대 가닥 상의 가까운 DNA 서열을 표적화하고 닉을 형성하는 2개의 Cas9 닉카아제를 제공함으로써 수행될 수 있다. 각각의 DNA 가닥의 이러한 가까운 절단은 DSB(즉, 단일-가닥 돌출부를 갖는 DSB)를 생성하고, 이는 이어서 NHEJ(삽입-결실 형성을 유도함) 또는 HR(제공된다면, 적합한 폴리뉴클레오티드 변형 주형과의 재조합을 유도함)의 기질로 인식된다. 이러한 구현예에서 각각의 닉은, 예를 들어, 서로 적어도 약 5, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90 또는 100(또는 5와 100 사이의 임의의 정수)개의 염기만큼 이격될 수 있다. 본원에서 하나 또는 두 개의 Cas9 닉카아제 단백질이 위에서 기술한 바와 같이 Cas9 닉카아제 쌍에서 사용될 수 있다. 예를 들어, 돌연변이 RuvC 도메인을 가지나 기능하는 HNH 도메인을 갖는 Cas9 닉카아제(즉, Cas9 HNH+/RuvC-)(예를 들어, S. 피오제네스 Cas9 HNH+/RuvC-)를 사용할 수 있다. 각각의 닉카아제를 각각의 특정 DNA 부위로 표적화하는 가이드 RNA 서열을 갖는 본원의 적합한 RNA 성분들을 사용하여, 서로 가까운 (100개 이하의 염기쌍만큼 이격된) 소정의 DNA 부위로 각각의 Cas9 닉카아제(예를 들어, Cas9 HNH+/RuvC-)를 유도할 것이다.
특정 구현예에서 RGEN은 DNA 표적 부위 서열에 결합할 수 있지만, 표적 부위 서열에서 임의의 가닥을 절단하지 않는다. 이러한 RGEN은 이의 모든 뉴클레아제 도메인이 돌연변이 기능장애인 Cas 단백질을 포함할 수 있다. 예를 들어, DNA 표적 부위 서열에 결합할 수 있지만, 표적 부위 서열에서 임의의 가닥을 절단하지 않는 본원의 Cas9 단백질은 돌연변이 기능장애 RuvC 도메인 및 돌연변이 기능장애 HNH 도메인을 둘 다 포함할 수 있다. 이러한 Cas9 단백질의 비제한적인 예에는 위에 개시된 RuvC 및 HNH 뉴클레아제 도메인 돌연변이 중 임의의 것(예를 들어, Asp-10 치환, 예컨대 Asp-10-Ala 및 His-840 치환, 예컨대 His-840-Ala을 갖는 S. 피오제네스 Cas9)이 포함된다. 표적 DNA 서열에 결합하지만 절단하지 않는 본원의 Cas 단백질은 유전자 발현을 조절하는 데 사용될 수 있으며, 예를 들어, 이 경우 Cas 단백질은 전사 인자(또는 이의 일부)(예를 들어, 억제 인자 또는 활성 인자, 예컨대 본원에 개시된 것들 중 임의의 것)와 융합될 수 있다. 예를 들어, Asp-10 치환(예를 들어, Asp-10-Ala) 및 His-840 치환(예를 들어, His-840-Ala)을 갖는 S. 피오제네스 Cas9를 포함하는 Cas9는 VP16 또는 VP64 전사 활성 인자 도메인에 융합될 수 있다. 이러한 RGEN의 RNA 성분에서 사용되는 가이드 서열은, 예를 들어 유전자 프로모터 또는 다른 조절 요소(예를 들어, 인트론) 내의 DNA 서열에 상보적일 것이다.
본원의 RGEN은 세포의 게놈 내의 염색체, 에피솜 또는 임의의 다른 DNA 분자의 표적 부위 서열과 결합할 수 있고, 선택적으로 이러한 표적 부위 서열의 한 가닥 또는 두 가닥을 절단할 수 있다. RGEN의 RNA 성분이 표적 서열의 가닥에 상보적인 서열(가이드 서열)을 포함한다는 점을 고려할 때, 표적 서열의 이러한 인식 및 결합은 특이적인 것이다.
용어 "표적 부위", "표적 서열", "표적 DNA", "DNA 표적 서열", "표적 유전자좌", "프로토스페이서" 등은 본원에서 상호교환적으로 사용된다. 표적 부위 서열은 본원의 RGEN이 인식하고, 결합하며, 선택적으로는 닉을 형성하거나 절단하는, 세포의 게놈 내의 염색체, 에피솜 또는 임의의 기타 DNA 분자 상의 폴리뉴클레오티드 서열을 지칭한다. 표적 부위는 (i) 세포 내의 내인성/천연 부위이거나, (ii) 세포에 대해 이종성이어서 게놈에서 자연적으로 발생하지 않거나, (iii) 천연적으로 발생하는 위치와 비교하여 이종성인 게놈 위치에서 발견될 수 있다.
본원에서 표적 부위 서열은 길이가 적어도 13개 뉴클레오티드이고, 가이드 서열과 혼성화될 수 있고, (특정 구현예에서, 적합한 PAM이 표적 서열에 인접한 경우) 표적 서열에 Cas 단백질 또는 Cas 단백질 복합체의 서열-특이적 결합을 유도할 수 있도록 (crRNA 또는 gRNA의) 가변 표적화 도메인에 대해 충분한 상보성을 갖는 가닥을 갖는다. (엔도뉴클레오리틱 또는 닉킹 Cas와 적용 가능한) 절단/닉 부위는 표적 서열 내에 있을 수 있거나(예를 들어, Cas9를 사용), 절단/닉 부위는 표적 서열 외부에 있을 수 있다(예를 들어, FokI 효소로부터 유래된 것과 같은 이종 엔도뉴클레아제 도메인에 융합된 Cas9를 사용). 표적 부위 서열은 절단 또는 닉킹 활성이 결여된 RGEN에 의해 결합될 수도 있다.
본원에서 "인공 표적 부위" 또는 "인공 표적 서열"은 세포의 게놈에 도입된 표적 서열을 지칭한다. 일부 구현예에서 인공 표적 서열은 세포의 게놈 내의 천연 표적 서열과 서열이 동일할 수 있지만, 게놈 내 상이한 위치(이종 위치)에 위치할 수 있거나, 세포의 게놈 내 동일한 위치에 위치하는 경우 천연 표적 서열과 상이할 수 있다.
본원에서 표적 서열의 길이는, 예를 들어, 적어도 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개 또는 30개의 뉴클레오티드; 13 내지 30개의 뉴클레오티드; 17 내지 25개의 뉴클레오티드; 또는 17 내지 20개의 뉴클레오티드일 수 있다. 이러한 길이는 PAM(프로토스페이서 인접 모티프) 서열을 포함하거나 제외할 수 있다. 또한, 본원에서 표적 서열의 가닥은, 가이드 서열과 혼성화되고 (적합한 PAM이 표적 서열에 인접한 경우, 아래 참조) Cas 단백질 또는 Cas 단백질 복합체의 표적 서열과의 서열 특이적 결합을 유도하기 위하여, (crRNA 또는 gRNA의) 가변 표적화 도메인과 충분한 상보성을 갖는다. 가이드 서열과 이의 상응하는 DNA 표적 서열의 가닥 사이의 상보성 정도는, 예를 들어, 적어도 약 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%이다. 본원에서 표적 부위는, 예를 들어, 유전자 산물(예를 들어, 단백질 또는 RNA)을 암호화하는 서열 또는 비 암호화 서열(예를 들어, 조절 서열 또는 "정크" 서열) 내에 위치할 수 있다.
본원에서 "프로토스페이서 인접 모티프"(PAM)는 본원에서의 RGEN에 의해 인식되는 짧은 서열을 지칭한다. 본원의 PAM의 서열과 길이는 사용되는 Cas 단백질 또는 Cas 단백질 복합체에 따라 다를 수 있지만, 일반적으로는, 예를 들어 2개, 3개, 4개, 5개, 6개, 7개 또는 8개의 뉴클레오티드 길이이다.
PAM(프로토스페이서-인접 모티프) 서열은 표적 부위 서열에 인접할 수 있다. PAM 서열은 본원의 RGEN에 의해 인식되는 짧은 DNA 서열이다. 결합된 PAM 및 DNA 표적 서열의 처음 11개의 뉴클레오티드는 Cas9/gRNA 표적화 및 절단에 중요할 수 있다(Jiang et al., Nat. Biotech. 31:233-239). 본원에서 PAM 서열의 길이는 사용되는 Cas 단백질 또는 Cas 단백질 복합체에 따라 다를 수 있지만, 일반적으로는, 예를 들어 2개, 3개, 4개, 5개, 6개, 7개 또는 8개의 뉴클레오티드 길이이다. PAM 서열은, 예를 들어, 결과적으로 RNA 성분 가이드 서열에 상보적인 표적 부위의 가닥에 상보적인 표적 부위 서열로부터 바로 하류에, 또는 이의 하류에 있는 2 또는 3개의 뉴클레오티드 내에 있다. RGEN이 RNA 성분과 엔도뉴클레오리틱 활성이 있는 Cas9 단백질 복합체를 형성한 본원의 실시 형태에서, Cas9는 RNA 성분에 의해 유도된 바와 같이 표적 서열과 결합하고, PAM 서열 상류의 세 번째 뉴클레오티드 위치의 바로 5'에서 두 가닥을 절단한다. 표적 부위:PAM 서열의 다음의 예를 고려한다:
5’-NNNNNNNNNNNNNNNNNNNNXGG-3’ (서열 번호 52).
이러한 예의 서열에서, N은 A, C, T 또는 G일 수 있고, X는 A, C, T 또는 G일 수 있다(X는 또한 NPAM으로도 지칭됨). 이러한 예에서 PAM 서열은 (밑줄 친) XGG이다. 적합한 Cas9/RNA 성분 복합체는 이중 밑줄 친 N의 바로 5'에서 이러한 표적을 절단할 것이다. 서열 번호 52에서 일련의 N은 본원의 RNA 성분의 가이드 서열과, 예를 들어, 적어도 약 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 동일한 표적 서열을 나타낸다(여기서, DNA 표적 서열의 임의의 T는 RNA 가이드 서열의 임의의 U와 정렬될 것이다). (본원에서 표적 부위를 나타내는) 이러한 표적 서열을 인식하고 결합하는 데 있어서, Cas9 복합체의 RNA 성분의 가이드 서열은, 일련의 N의 보체 서열과 어닐링될 것이며; 가이드 서열과 표적 부위 보체 사이의 퍼센트 상보성은, 예를 들어, 적어도 약 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%이다. Cas9 닉카아제가 게놈의 서열 번호 52를 표적화하는 데 사용되는 경우, 닉카아제는 닉카아제의 어느 엔도뉴클레아제 도메인이 기능장애인지에 따라, 이중 밑줄 친 N의 바로 5'에서 또는 상보성 가닥의 동일한 위치에서 닉을 형성할 것이다. (RuvC와 HNH 도메인이 모두 기능장애인) 핵산 분해 활성이 없는 Cas9가 게놈의 서열 번호 52를 표적화하는데 사용되는 경우, 그것은 표적 서열을 인식하고 결합하지만, 서열에 어떠한 절단도 만들지 않을 것이다.
본원에서 PAM은 일반적으로, 사용되는 RGEN의 유형을 고려하여 선택된다. 본원에서 PAM 서열은, 예를 들어, Cas가 유래될 수 있는 본원에 개시된 임의의 종으로부터 유래된 Cas, 예컨대 Cas9를 포함하는 RGEN에 의해 인식되는 것일 수 있다. 특정 구현예에서, 이러한 PAM 서열은 S. 피오제네스, S. 써모필러스, S. 아갈락티아, N. 메닝기티디스, T. 덴티콜라 또는 F. 노비시다로부터 유래된 Cas9를 포함하는 RGEN에 의해 인식되는 것일 수 있다. 예를 들어, S. 피오제네스로부터 유래된 적합한 Cas9는 NGG의 PAM 서열(N은 A, C, T 또는 G일 수 있음)을 갖는 게놈 서열을 표적화하는 데 사용될 수 있다. 다른 예로서, 적합한 Cas9는 다음과 같은 PAM 서열을 갖는 DNA 서열을 표적화하는 경우 다음의 종 중 임의의 것으로부터 유래될 수 있다: S. 써모필러스(NNAGAA), S. 아갈락티아 (NGG, NNAGAAW[W는 A 또는 T임], NGGNG), N. 메닝기티디스(NNNNGATT), T. 덴티콜라(NAAAAC), 또는 F. 노비시다(NG)(여기서, 이러한 모든 특정 PAM 서열에서 N은 A, C, T 또는 G임). 본원에서 유용한 Cas9/PAM의 다른 예에는, 본원에 참조로 포함되는 Shah et al. (RNA Biology 10:891-899) 및 Esvelt et al. (Nature Methods 10:1116-1121)에 개시된 것들이 포함된다. 본원의 표적 서열들의 예는 서열 번호 43을 따르지만, 'XGG' PAM은 전술한 PAM 중 어느 하나에 의해 대체된다.
본원의 RNA 성분은 세포의 염색체 또는 에피솜의 표적 부위 서열에 상보적인 서열을 포함할 수 있다. RGEN은 이러한 서열 상보성을 기초로, 표적 부위 서열과 특이적으로 결합할 수 있고, 선택적으로 이러한 표적 부위 서열의 한 가닥 또는 두 가닥을 절단할 수 있다. 따라서, 개시된 발명의 특정 구현예에서 RNA 성분의 상보적인 서열은 가이드 서열 또는 가변 표적화 도메인으로도 지칭될 수 있다.
본원에서 RNA 성분(예를 들어, crRNA 또는 gRNA)의 가이드 서열은 길이가, 예를 들어, 적어도 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개 또는 30개의 리보뉴클레오티드; 13개 내지 30개의 리보뉴클레오티드; 17개 내지 25개의 리보뉴클레오티드; 또는 17개 내지 20개의 리보뉴클레오티드일 수 있다. 일반적으로, 본원의 가이드 서열은 표적 DNA 서열의 가닥에 대해 충분한 상보성을 가져, 표적 서열과 혼성화되어 (적합한 PAM이 표적 서열에 인접한 경우) 표적 서열에 Cas 단백질 또는 Cas 단백질 복합체의 서열 특이적인 결합을 유도한다. 가이드 서열과 이의 상응하는 DNA 표적 서열 사이의 상보성 정도는, 예를 들어, 적어도 약 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%이다. 가이드 서열은 세포의 DNA 표적 서열로 RGEN을 표적화하도록 적절히 유전자 조작될 수 있다.
본원의 RNA 성분은, 예를 들어, 가이드 서열 및 반복 (tracrRNA 메이트) 서열을 포함하는 crRNA를 포함할 수 있다. 가이드 서열은 일반적으로 crRNA의 5' 말단에 또는 그 부근(1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개 이상의 염기 내에)에 위치한다. crRNA의 가이드 서열의 하류에는 tracrRNA의 5' 말단에서 서열에 상보적이고 이와 혼성화될 수 있는 "반복" 또는 "tracrRNA 메이트" 서열이 있다. 가이드 및 tracrRNA 메이트 서열은, 예를 들어, 바로 인접하거나, 1개, 2개, 3개, 4개 이상의 염기에 의해 이격될 수 있다. tracrRNA 메이트 서열은 tracrRNA의 5' 말단에, 예를 들어, 적어도 50%, 60%, 70%, 80%, 90%, 95%, 96%, 97%, 98%, 99%, 또는 100% 서열 상보성을 갖는다. 일반적으로, 상보성 정도는 tracrRNA 메이트 서열과 tracrRNA 서열의 5' 말단의 최적 정렬을 참고하여, 두 서열 중 더 짧은 것의 길이에 따를 수 있다. 본원의 tracrRNA 메이트 서열의 길이는, 예를 들어 적어도 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개 또는 18개의 리보뉴클레오티드 길이일 수 있고, tracrRNA의 5' 말단에서 동일하거나 유사한 길이 (예를 들어, 플러스 또는 마이너스 1개, 2개, 3개, 4개 또는 5개의 염기)의 서열과 혼성화된다. 본원의 crRNA의 길이는, 예를 들어, 적어도 약 18개, 20개, 22개, 24개, 26개, 28개, 30개, 32개, 34개, 36개, 38개, 40개, 42개, 44개, 46개 또는 48개의 리보뉴클레오티드; 또는 약 18개 내지 48개의 리보뉴클레오티드; 또는 약 25개 내지 50개의 리보뉴클레오티드일 수 있다.
tracrRNA는, II형 크리스퍼 시스템의 Cas9 단백질이 RGEN에 포함되는 구현예에서, crRNA와 함께 포함될 수 있다. 본원의 tracrRNA는 5'에서 3' 방향으로 (i) crRNA의 반복 영역(tracrRNA 메이트 서열)과 어닐링하는 서열 및 (ii) 스템 루프를 포함하는 부분을 포함한다. (i)의 서열의 길이는, 예를 들어, 위에 개시된 임의의 tracrRNA 메이트 서열의 길이와 동일하거나 유사할 수 있다(예를 들어, 플러스 또는 마이너스 1개, 2개, 3개, 4개 또는 5개의 염기). 본원의 tracrRNA의 총 길이(즉, 서열 성분 [i] 및 [ii])는, 예를 들어, 적어도 약 30개, 35개, 40개, 45개, 50개, 55개, 60개, 65개, 70개, 75개, 80개, 85개, 또는 90(또는 30 내지 90 사이의 임의의 정수)개의 리보뉴클레오티드일 수 있다. tracrRNA는 3'-말단에 1개, 2개, 3개, 4개, 5개 이상의 우라실 잔기를 더 포함할 수 있으며, 이는 전사 종결자 서열을 갖는 tracrRNA를 발현함으로써 존재할 수 있다.
본원의 tracrRNA는 스트렙토코커스 종(예를 들어, S. 피오제네스, S. 써모필러스)과 같은(그러나 이들로 한정되는 것은 아님) 박테리아 종으로부터 유래될 수 있거나, 본원에 참조로 포함되는 미국 특허 8697359호 및 Chylinski et al. (RNA Biology 10:726-737)에 개시된 것들을 포함할 수 있다.
용어 "리보자임", "리보핵산 효소" 및 "자가 절단 리보자임"은 본원에서 상호교환적으로 사용된다. 리보자임은 특정 부위에서, 특히, 리보자임 서열에 대해 시스 부위에서 RNA를 절단(즉, 자가 촉매적 또는 자가 절단)할 수 있는 2차, 3차, 및/또는 4차 구조(들)를 형성하는 하나 이상의 RNA 서열을 지칭한다. 리보자임 핵산 분해 활성의 일반적인 성질은 기술된 바 있다(예를 들어, Lilley, Biochem . Soc. Trans. 39:641-646). 본원에서 "망치머리 리보자임"(HHR)은 촉매 작용에 관여하는 3개의 염기쌍 형성된 스템 및 고도로 보존된, 비 상보적 뉴클레오티드의 코어로 구성되는 작은 촉매 RNA 모티프를 포함할 수 있다. 본원에 참조로 포함되는 Pley et al. (Nature 372:68-74) 및 Hammann et al. (RNA 18:871-885)은 망치머리 리보자임 구조와 활성을 개시하고 있다. 본원에서 망치머리 리보자임은, 예를 들어, 본원에 참조로 포함되는 Scott et al. (Cell 81:991-1002)에 개시된 바와 같은 "최소 망치머리" 서열을 포함할 수 있다.
용어 "표적화", "유전자 표적화", "DNA 표적화", "편집", "유전자 편집" 및 "DNA 편집"은 본원에서 상호교환적으로 사용된다. 본원에서 DNA 표적화는 세포의 염색체 또는 에피솜에서와 같은 특정 DNA 서열에서의 삽입-결실, 녹아웃 또는 녹인의 특이적 도입일 수 있다. 일반적으로, DNA 표적화는 본원에서 적합한 RNA 성분과 결합된 Cas 단백질을 사용하여 세포의 특정 DNA 서열에서 하나 또는 두 가닥을 절단함으로써 수행될 수 있다. 이러한 DNA 절단은, 이중 가닥 절단(DSB)의 경우 표적 부위에서 삽입-결실을 형성할 수 있는 NHEJ 공정을 유도할 수 있다. 또한, 절단이 단일-가닥 절단(SSB)인지 DSB인지에 관계없이, DNA 닉 또는 절단 부위에 적합한 폴리뉴클레오티드 변형 주형 또는 공여 DNA가 제공되는 경우 HR 공정은 유도될 수 있다. 이러한 HR 공정은 폴리뉴클레오티드 변형 주형의 서열에 따라 표적 부위에서 녹아웃 또는 녹인을 도입하는 데 사용될 수 있다. 대안적으로, 본원에서 DNA 표적화는 본원의 Cas/RNA 성분 복합체와 표적 DNA 서열의 특정 결합을 지칭할 수 있으며, 여기서 Cas 단백질은 (Cas 단백질의 엔도뉴클레오리틱 도메인의 상태에 따라) DNA 가닥을 절단하거나 절단하지 않는다.
본원에서 용어 "삽입-결실"은 염색체 또는 에피솜 내의 표적 DNA 서열에서의 뉴클레오티드 염기 또는 염기들의 삽입 또는 결실을 지칭한다. 이러한 삽입 또는 결실은, 예를 들어, 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개 이상의 염기일 수 있다. 특정 구현예에서, 삽입-결실은 훨씬 더 클 수 있고, 적어도 약 20, 30, 40, 50, 60, 70, 80, 90 또는 100개의 염기일 수 있다. 삽입-결실이 유전자의 오픈 리딩 프레임(ORF) 내에 도입되는 경우, 종종 이러한 삽입-결실은 프레임시프트 돌연변이를 생성하여 이러한 ORF에 의해 암호화되는 단백질의 야생형 발현을 방해한다.
용어 "녹아웃", "유전자 녹아웃" 및 "유전적 녹아웃"은 본원에서 상호교환적으로 사용된다. 녹아웃은 Cas 단백질로 표적화함으로써 부분적으로 또는 완전히 작동하지 않게 된 본원에서의 세포의 DNA 서열을 나타내며, 녹아웃 이전의 이러한 DNA 서열은, 예를 들어, 아미노산 서열을 암호화할 수 있었거나 조절 기능 (예를 들어, 프로모터)을 가졌을 수 있다. 녹아웃은 (Cas 매개성 절단에 의해 유발된 NHEJ에 의한) 삽입-결실에 의해 또는, 표적화 부위에서, 그 옆에서, 또는 그 부근에서 서열의 기능을 감소시키거나 완전히 파괴하는, (적합한 폴리뉴클레오티드 변형 주형도 사용되는 경우, Cas 매개성 절단 또는 닉킹에 의해 유발된 HR에 의한) 서열의 특이적 제거에 의해 생성될 수 있다. 본원에서 녹아웃된 DNA 폴리뉴클레오티드 서열은 대안적으로, 예를 들어, 부분적으로 또는 완전히 방해받거나 하향조절되는 것을 특징으로 할 수 있다.
용어 "녹인", "유전자 녹인" 및 "유전적 녹인"은 본원에서 상호교환적으로 사용된다. 녹인은 (적합한 공여 DNA도 사용되는 경우, Cas 매개성 절단 또는 닉킹에 의해 유발된 HR에 의한) Cas 단백질을 사용한 표적화에 의해 세포의 특정 DNA 서열에서 DNA 서열을 대체하거나 삽입하는 것을 나타낸다. 녹인의 예는, 유전자의 암호화 영역에 관심 있는 폴리뉴클레오티드, 이종 아미노산 암호화 서열을 특이적으로 삽입하거나, 유전자좌에 전사 조절 요소를 특이적으로 삽입하는 것이다.
용어 "재조합 DNA 분자", "재조합 작제물", "발현 작제물", "작제물", "작제물", 및 "재조합 DNA 작제물"은 본원에서 상호교환적으로 사용된다. 재조합 작제물은 핵산 단편, 예를 들어 자연에서 모두가 함께 발견되지는 않는 조절 서열 및 암호화 서열의 인공적인 조합을 포함한다. 예를 들어, 작제물은 상이한 공급원으로부터 유래된 조절 서열과 암호화 서열, 또는 동일한 공급원으로부터 유래되었지만, 자연에서 발견되는 것과 상이한 방식으로 배열된 조절 서열과 암호화 서열을 포함할 수 있다. 이러한 작제물은 단독으로 사용되거나 벡터 또는 플라스미드와 함께 사용될 수 있다. 당업자는 또한, 서로 다른 독립적인 유전자 편집 사건이 상이한 발현 수준 및 패턴을 초래할 수 있으므로(Jones et al., (1985) EMBO J 4:2411-2418; De Almeida et al., (1989) Mol Gen Genetics 218:78-86), 원하는 발현 수준 및 패턴을 나타내는 계통을 얻기 위해 일반적으로 여러 사건이 스크리닝된다는 것을 인식할 것이다. 이러한 스크리닝은 표준 분자 생물학적, 생화학적 분석, 및 DNA의 서던 분석, mRNA 발현의 노던 분석, PCR, 실시간 정량 PCR(qPCR), 역전사 PCR(RT-PCR), 단백질 발현의 면역블로팅 분석, 효소 또는 활성 분석, 및/또는 표현형 분석을 비롯한 기타 분석에 의해 달성될 수 있다.
본원에 사용된 용어 "발현”은 전구체 또는 성숙된 형태에서의 기능적 최종 산물(예를 들어, mRNA, 가이드 RNA, 또는 단백질)의 생성을 의미한다.
본원의 용어 "제공"은 핵산(예를 들어, 발현 작제물, 플라스미드) 또는 단백질을 세포 내에 제공(도입)하는 것을 의미한다. 제공은 핵산이 세포의 게놈에 혼입될 수 있는 진핵 또는 원핵 세포 내로의 핵산의 혼입에 대한 언급을 포함하며, 핵산 또는 단백질을 세포에 일시적으로 공급하는 것에 대한 언급을 포함한다. 제공은 전기천공(Green MR, Sambrook J. 2012. Molecular Cloning: A Laboratory Manual, Fourth Edition ed. Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY), 열 충격 처리(Green MR, Sambrook J. 2012. Molecular Cloning: A Laboratory Manual, Fourth Edition ed. Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY), 화학적 처리(Green MR, Sambrook J. 2012. Molecular Cloning: A Laboratory Manual, Fourth Edition ed. Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY), 파지 전달(Tyler BM, Goldberg RB. 1976. Transduction of chromosomal genes between enteric bacteria by bacteriophage P1. Journal of bacteriology 125:1105-1111), 결합, 접합 및 형질도입(Methods for General and Molecular Bacteriology. 1994. ASM Press, Washington D.C.)에 대한 언급을 포함한다. 핵산 단편(예를 들어, 재조합 DNA 작제물/발현 작제물)을 세포에 삽입하는 맥락에서의 제공은 "형질감염” 또는 "형질전환” 또는 "형질도입"을 포함하며, 핵산 단편이 세포의 게놈(예를 들어, 큰 원형 게놈, 플라스미드)에 혼입되거나, 자율적 레플리콘으로 변환되거나, 또는 일시적으로 발현될 수 있는 원핵 세포 내로의 핵산 단편의 혼입에 대한 언급을 포함한다.
유기체/세포 내로 제공된 핵산 분자는 유기체/세포에서 독자적으로 복제하거나, 유기체/세포의 게놈으로 통합되거나, 복제되거나 통합되지 않고 세포에 일시적으로 존재하는 것일 수 있다. 세포에 제공될 수 있는 핵산 분자의 비제한적인 예는 본원에 개시되어 있는데, 예컨대 플라스미드 및 선형 DNA 분자이다.
본원에 기재된 바와 같이, 가이드 RNA/Cas 엔도뉴클레아제 시스템은 공동으로 전달된 폴리뉴클레오티드 변형 주형과 함께 사용되어 관심 있는 게놈 뉴클레오티드 서열의 편집을 가능하게 한다. 또한, 본원에 기재된 바와 같이, 가이드 RNA/Cas 엔도뉴클레아제 시스템을 사용하는 각각의 구현예의 경우, 유사한 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템이 전개될 수 있는데, 가이드 폴리뉴클레오티드는 리보핵산을 단독으로 포함하는 것이 아니라, RNA-DNA 분자의 조합을 포함하거나, DNA 분자를 단독으로 포함한다.
"변형된 뉴클레오티드” 또는 "편집된 뉴클레오티드"는 변형되지 않은 뉴클레오티드 서열과 비교할 때 적어도 하나의 변경을 포함하는 관심 있는 뉴클레오티드 서열을 지칭한다. 이러한 "변경"은, 예를 들어, (i) 적어도 하나의 뉴클레오티드의 교체, (ii) 적어도 하나의 뉴클레오티드의 결실, (iii) 적어도 하나의 뉴클레오티드의 삽입, 또는 (iv) (i) 내지 (iii)의 임의의 조합을 포함한다.
용어 "폴리뉴클레오티드 변형 주형"은 편집될 뉴클레오티드 서열과 비교할 때 적어도 하나의 뉴클레오티드 변형을 포함하는 폴리뉴클레오티드를 지칭한다. 뉴클레오티드 변형은, 예를 들어, (i) 적어도 하나의 뉴클레오티드의 교체, (ii) 적어도 하나의 뉴클레오티드의 결실, (iii) 적어도 하나의 뉴클레오티드의 삽입, 또는 (iv) (i) 내지 (iii)의 임의의 조합을 포함할 수 있다. 선택적으로, 폴리뉴클레오티드 변형 주형은 적어도 하나의 뉴클레오티드 변형에 플랭킹한 상동 뉴클레오티드 서열을 더 포함할 수 있고, 플랭킹한 상동 뉴클레오티드 서열은 편집될 원하는 뉴클레오티드 서열과의 충분히 상동성을 제공한다.
본원에 사용된 "공여 DNA"는 Cas 엔도뉴클레아제의 표적 부위에 삽입될 관심 있는 폴리뉴클레오티드를 포함하는 DNA 작제물이다. 공여 DNA 작제물은 관심 있는 폴리뉴클레오티드에 플랭킹한 제1 상동 영역 및 제2 상동 영역을 더 포함할 수 있다. 공여 DNA의 제1 상동 영역 및 제2 상동 영역은 식물 게놈의 표적 부위에 존재하거나 거기에 플랭킹한 제1 게놈 영역 및 제2 게놈 영역에 대해 각각 상동성을 공유한다.
폴리뉴클레오티드 변형 주형 또는 공여 DNA는 DNA 표적 부위와 상동 재조합(HR)을 겪을 수 있다. 본원에서 폴리뉴클레오티드 변형 주형 또는 공여 DNA 내의 "상동 서열"은 예를 들어, 표적 부위 또는 그 부근의 서열과 100% 동일성, 또는 표적 부위 또는 그 부근의 서열과 적어도 약 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99% 동일성을 갖는, 예를 들어, 적어도 약 25개의 뉴클레오티드의 서열을 포함하거나 이로 구성될 수 있다.
폴리뉴클레오티드 변형 주형 또는 공여 DNA는 표적 부위의 서열과 이종성인 서열(또는 염기 쌍)에 의해 분리된 2개의 상동 서열을 가질 수 있다. 이러한 폴리뉴클레오티드 변형 주형 또는 공여 DNA의 이들 2개의 상동 서열은 이종 서열에 플랭킹한 "상동 암(arm)"으로 지칭될 수 있다. 2개의 상동 암을 가진 폴리뉴클레오티드 변형 주형 또는 공여 DNA와 표적 부위 간의 HR은 일반적으로 표적 부위에서 서열의 편집을 제공한다.
상동 영역은 절단된 표적 부위에서 상동 재조합을 촉진하기에 충분한 임의의 길이를 가질 수 있다. 예를 들어, 상동 영역이 해당 게놈 영역과 상동 재조합을 겪기에 충분한 상동성을 갖도록, 상동 영역은 적어도 5~10, 5~15, 5~20, 5~25, 5~30, 5~35, 5~40, 5~45, 5~50, 5~55, 5~60, 5~65, 5~70, 5~75, 5~80, 5~85, 5~90, 5~95, 5~100, 5~200, 5~300, 5~400, 5~500, 5~600, 5~700, 5~800, 5~900, 5~1000, 5~1100, 5~1200, 5~1300, 5~1400, 5~1500, 5~1600, 5~1700, 5~1800, 5~1900, 5~2000, 5~2100, 5~2200, 5~2300, 5~2400, 5~2500, 5~2600, 5~2700, 5~2800, 5~2900, 5~3000, 5~3100 이상의 염기 길이를 포함할 수 있다. "충분한 상동성"은 2개의 폴리뉴클레오티드 서열이 상동 재조합 반응을 위한 기질로서 작용하기에 충분한 구조적 유사성을 갖는다는 것을 의미한다. 구조적 유사성은 각각의 폴리뉴클레오티드 단편의 전체 길이, 뿐만 아니라 폴리뉴클레오티드의 서열 유사성을 포함한다. 서열 유사성은, 서열의 전체 길이에 걸친 백분율 서열 동일성, 및/또는 100% 서열 동일성을 갖는 연속된 뉴클레오티드와 같은 국부적 유사성을 포함하는 보존 영역, 및 서열의 일부 길이에 걸친 백분율 서열 동일성에 의해 설명될 수 있다.
표적 및 폴리뉴클레오티드 변형 주형 또는 공여 DNA가 공유하는 상동성의 양 또는 서열 동일성은 다를 수 있고, 약 1~20 bp, 20~50 bp, 50~100 bp, 75~150 bp, 100~250 bp, 150~300 bp, 200~400 bp, 250~500 bp, 300~600 bp, 350~750 bp, 400~800 bp, 450~900 bp, 500~1000 bp, 600~1250 bp, 700~1500 bp, 800~1750 bp, 900~2000 bp, 1~2.5 kb, 1.5-3 kb, 2~4 kb, 2.5~5 kb, 3~6 kb, 3.5~7 kb, 4~8 kb, 5~10 kb, 또는 표적 부위의 총 길이까지의 범위의 단위 정수값을 갖는 총 길이 및/또는 영역을 포함한다. 이들 범위는 범위 내 모든 정수를 포함하는데, 예를 들어, 1~20 bp의 범위는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 및 20 bp를 포함한다. 상동성의 양은 2개의 폴리뉴클레오티드의 전체 정렬 길이에 걸친 백분율 서열 동일성에 의해 설명될 수도 있는데, 이는 약 적어도 50%, 55%, 60%, 65%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%의 백분율 서열 동일성을 포함한다. 충분한 상동성은 폴리뉴클레오티드 길이, 전체 백분율 서열 동일성, 및 선택적으로, 연속된 뉴클레오티드의 보존 영역 또는 국소 백분율 서열 동일성의 임의의 조합을 포함하는데, 예를 들어, 충분한 상동성은 표적 유전자좌의 영역과 적어도 80% 서열 동일성을 갖는 75~150 bp의 영역으로써 설명될 수 있다. 충분한 상동성은 매우 엄격한 조건 하에서 2개의 폴리뉴클레오티드의 특이적 혼성화 능력 예측에 의해 설명될 수도 있다(예를 들어, Sambrook et al., (1989) Molecular Cloning: A Laboratory Manual, (Cold Spring Harbor Laboratory Press, NY); Current Protocols in Molecular Biology, Ausubel et al., Eds (1994) Current Protocols, (Greene Publishing Associates, Inc. 및 John Wiley & Sons, Inc.); 및, Tijssen (1993) Laboratory Techniques in Biochemistry and Molecular Biology--Hybridization with Nucleic Acid Probes, (Elsevier, New York) 참조).
일 구현예에서, 본 발명은, 대장균 세포의 게놈 내 뉴클레오티드 서열을 편집하는 방법으로서, 가이드 RNA를 암호화하는 DNA 서열을 포함하는 적어도 하나의 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형을, 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제 DNA 서열을 포함하는 대장균 세포에 제공하는 단계를 포함하되, 상기 Cas9 엔도뉴클레아제 DNA 서열은 상기 대장균 세포의 게놈 내 표적 부위에서 이중 가닥 절단을 도입할 수 있는 Cas9 엔도뉴클레아제를 암호화하고, 상기 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는 방법을 기술한다. 대장균 세포의 게놈 내 뉴클레오티드 서열은 프로모터 서열, 종결자 서열, 조절 요소 서열, 암호화 서열, 프로파지, 위유전자, 외인성 유전자, 내인성 유전자로 이루어진 군으로부터 선택될 수 있다. 가이드 RNA를 암호화하는 DNA 서열을 포함하는 재조합 DNA 작제물은 원형 플라스미드를 통해 제공될 수 있다. 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형은 별개의 플라스미드 상에 제공되거나 단일 플라스미드 상에 제공될 수 있다. 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형은 전기천공, 열 충격, 파지 전달, 결합, 접합 및 형질도입, 또는 이들의 임의의 조합으로 이루어진 군으로부터 선택되는 하나의 수단을 통해 제공될 수 있다.
편집될 뉴클레오티드 서열은 내인성 서열, 인공적 서열, 기존 서열, 또는 편집 중인 세포에 형질전환되는 서열일 수 있다. 예를 들어, 세포의 게놈 내 뉴클레오티드 서열은 천연 유전자, 돌연변이 유전자, 비 천연 유전자, 외래 유전자, 또는 세포의 게놈에 안정적으로 혼입된 이식유전자일 수 있다. 이러한 뉴클레오티드의 편집에 의해 더 바람직한 표현형 또는 유전자형을 얻을 수 있다.
일 구현예에서, 본 개시는, 대장균 세포의 게놈 내 뉴클레오티드 서열을 편집하는 방법으로서, 적어도, 가이드 RNA를 암호화하는 DNA 서열을 포함하는 제1 재조합 DNA 작제물, 원형 폴리뉴클레오티드 변형 주형, 및 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제를 암호화하는 DNA 서열을 포함하는 제2 재조합 DNA 작제물을, 대장균 세포에 제공하는 단계를 포함하되, Cas9 엔도뉴클레아제는 상기 대장균 세포의 게놈 내 표적 부위에서 이중 가닥 절단을 도입하고, 상기 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는 방법을 기술한다.
본 발명의 일 구현예에서, 상기 방법은, 대장균 세포의 게놈에 관심 있는 폴리뉴클레오티드 서열을 삽입하는 방법으로서, 가이드 RNA를 암호화하는 DNA 서열을 포함하는 적어도 하나의 재조합 DNA 작제물 및 원형 공여 DNA를, 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제 DNA 서열을 포함하는 대장균 세포에 제공하는 단계를 포함하되, 상기 Cas9 엔도뉴클레아제 DNA 서열은 상기 대장균 세포의 게놈 내 표적 부위에서 이중 가닥 절단을 도입할 수 있는 Cas9 엔도뉴클레아제를 암호화하고, 상기 공여 DNA는 폴리뉴클레오티드를 포함하는 방법을 포함한다.
대장균 내 표적 부위의 예는 당 활용 유전자(예를 들어, 갈락토키나제, galK), 대사 유전자(예를 들어, 이소시트레이트 데하이드로게나제, icd, (Kabir MM, Shimizu K. 2004. Applied microbiology and biotechnology 65:84-96)), 생합성 유전자(예를 들어, 티미딜레이트 합성 효소, thyA (Belfort M, Maley G, Pedersen-Lane J, Maley F. PNAS. 1983. 80(16):4914-18), 전사 조절자(예를 들어, 일반적인 스트레스 반응 조절자, rpoS (Notley-McRobb L, King T, Ferenci T (2002) J Bacteriol 184(3);806-11. PMID: 11790751), 신호 단백질(예를 들어, 무산소 산화 환원 조절 센서, arcB(Iuchi S, Matsuda Z, Fujiwara T, Lin EC (1990). Mol Microbiol 1990;4(5);715-27. PMID: 2201868), tRNA(예를 들어, tRNA 알라닌, alaU (Siekevitz P, Zamecnik PC (1981). Cell Biol 91(3 Pt 2);53s-65s. PMID: 7033244)), 스트레스 반응 단백질(예를 들어, 파지 쇼크 단백질 A, pspA (Adams H, Teertstra W, Demmers J, Boesten R, Tommassen J (2003). J Bacteriol 2003;185(4);1174-80. PMID: 12562786)), 리보솜 성분(예를 들어, S12 리보솜 단백질, rpsL,(Funatsu G, Yaguchi M, Wittmann-Liebold B (1977). "Primary stucture of protein S12 from the small Escherichia coli ribosomal subunit." FEBS Lett 73(1);12-7. PMID: 320034) 및 23s 리보솜 RNA, rrlD(Arkov AL, Hedenstierna KO, Murgola EJ (2002). "Mutational evidence for a functional connection between two domains of 23S rRNA in translation termination." J Bacteriol 184(18);5052-7. PMID: 12193621)), DNA 복제(e.g. DNA 폴리머라제 II, polB(Chen H, Bryan SK, Moses RE (1989). "Cloning the polB gene of Escherichia coli and identification of its product." J Biol Chem 264(34);20591-5. PMID: 2684981)), 전사 기구(예를 들어, RNA 폴리머라제의 β' 서브유닛, rpoC(Squires C, Krainer A, Barry G, Shen WF, Squires CL (1981). "Nucleotide sequence at the end of the gene for the RNA polymerase beta' subunit (rpoC)." Nucleic Acids Res 1981;9(24);6827-40. PMID: 6278450), 전달자(예를 들어, 락토스 투과효소, lacY(Buchel DE, Gronenborn B, Muller-Hill B (1980). "Sequence of the lactose permease gene." Nature 1980;283(5747);541-5. PMID: 6444453)), 파지 부착 부위(예를 들어, λ 부착 부위, attB (Landy A, Ross W (1977). "Viral integration and excision: structure of the lambda att sites." Science 197(4309);1147-60. PMID: 331474)), 프로파지 유전자(예를 들어, 세포 분열의 rac 프로파지 억제제, kilR(Conter A, Bouche JP, Dassain M (1996). "Identification of a new inhibitor of essential division gene ftsZ as the kil gene of defective prophage Rac." J Bacteriol 178(17);5100-4. PMID: 8752325)), 또는 세포 분열(예를 들어, 세포 분열 고리, ftsZ (Robinson AC, Kenan DJ, Hatfull GF, Sullivan NF, Spiegelberg R, Donachie WD (1984). "DNA sequence and transcriptional organization of essential cell division genes ftsQ and ftsA of Escherichia coli: evidence for overlapping transcriptional units." J Bacteriol 160(2);546-55. PMID: 6094474))을 포함한다. 표적 부위에 적합한 추가 유전자가 정의되었다(Karp PD, Weaver D, Paley S, Fulcher C, Kubo A, Kothari A, Krummenacker M, Subhraveti P, Weerasinghe D, Gama-Castro S, Huerta AM, Muniz-Rascado L, Bonavides-Martinez C, Weiss V, Peralta-Gil M, Santos-Zavaleta A, Schroder I, Mackie A, Gunsalus R, Collado-Vides J, Keseler IM, Paulsen I. 2014. The EcoCyc Database. EcoSal Plus 2014; Keseler IM, Collado-Vides J, Santos-Zavaleta A, Peralta-Gil M, Gama-Castro S, Muniz-Rascado L, Bonavides-Martinez C, Paley S, Krummenacker M, Altman T, Kaipa P, Spaulding A, Pacheco J, Latendresse M, Fulcher C, Sarker M, Shearer AG, Mackie A, Paulsen I, Gunsalus RP, Karp PD. 2011. EcoCyc: a comprehensive database of Escherichia coli biology. Nucleic acids research 39:D583-590.; Keseler IM, Bonavides-Martinez C, Collado-Vides J, Gama-Castro S, Gunsalus RP, Johnson DA, Krummenacker M, Nolan LM, Paley S, Paulsen IT, Peralta-Gil M, Santos-Zavaleta A, Shearer AG, Karp PD. 2009. EcoCyc: a comprehensive view of Escherichia coli biology. Nucleic acids research 37:D464-470;. Escherichia coli and Salmonella typhimurium: Cellular and Molecular Biology, 1987 First ed. American Society of Microbiology, Washington, DC.
용어 "세포 침투성 펩티드"(CPP) 및 "단백질 형질도입 도메인"(PTD)은 본원에서 상호교환적으로 사용된다. CPP는 단백질 화물, 특히, 본원에 기재된 하나 이상의 RGEN 단백질 성분(예컨대, Cas9 단백질)의 세포 흡수를 촉진할 수 있는, 일반적으로 길이가 약 5~60개 아미노산 잔기인 펩티드를 지칭한다. 이러한 단백질 화물은 공유 또는 비 공유 연결을 통해 하나 이상의 CPP들과 결합될 수 있다. 또한, 특정 구현예에서 CPP는 지질 이중층, 마이셀, 세포막, 세포 기관 막, 소포막, 또는 세포벽 중 하나 이상을 가로질러/통해 단백질 화물의 이동 또는 횡단을 촉진할 수 있는 것을 특징으로 할 수 있다. 본원의 CPP는 특정 구현예에서 양이온성, 양친매성, 또는 소수성일 수 있다(예를 들어, 본원에 참조로 포함되는 2014년 8월 13일 출원된 미국 가특허 출원 62/036652호 참조).
용어 "부피 기준 백분율", "부피 백분율", "vol %" 및 "v/v %"는 본원에서 상호교환적으로 사용된다. 용액 중의 용질의 부피 기준 백분율은 식: [(용질의 부피)/(용액의 부피)] × 100%를 이용하여 결정할 수 있다.
용어 "중량 기준 백분율", "중량 백분율(wt%)" 및 "중량-중량 백분율(% w/w)"은 본원에서 상호교환적으로 사용된다. 중량 기준 백분율은 재료가 조성물, 혼합물 또는 용액 중에 포함될 때 질량을 기준으로 한 재료의 백분율을 지칭한다.
용어 "폴리뉴클레오티드", "폴리뉴클레오티드 서열" 및 "핵산 서열"은 본원에서 상호교환적으로 사용된다. 이들 용어는 뉴클레오티드 서열 등을 포함한다. 폴리뉴클레오티드는 합성, 비 천연 또는 변경된 뉴클레오티드 염기를 선택적으로 포함하는 단일- 또는 이중-가닥인 DNA 또는 RNA의 중합체일 수 있다. 폴리뉴클레오티드는 cDNA, 게놈 DNA, 합성 DNA, 또는 이의 혼합물의 하나 이상의 세그먼트로 이루어질 수 있다. 뉴클레오티드(리보뉴클레오티드 또는 데옥시리보뉴클레오티드)는 다음과 같이 단일 문자 표기로 지칭될 수 있다: (각각 RNA 또는 DNA에 있어서) 아데닐레이트 또는 데옥시아데닐레이트는 "A", (각각 RNA 또는 DNA에 있어서) 시티딜레이트 또는 데옥시시티딜레이트는 "C", (각각 RNA 또는 DNA에 있어서) 구아닐레이트 또는 데옥시구아닐레이트는 "G", (RNA에 있어서) 유리딜레이트는 "U", (DNA에 있어서) 데옥시티미딜레이트는 "T", 퓨린(A 또는 G)은 "R", 피리미딘(C 또는 T)은 "Y", G 또는 T는 "K", A 또는 C 또는 T는 "H", 이노신은 "I", A 또는 T는 "W" 및 임의의 뉴클레오티드는 "N"(예를 들어, DNA 서열을 지칭하는 경우 N은 A, C, T 또는 G일 수 있고; RNA 서열을 지칭하는 경우 N은 A, C, U 또는 G일 수 있다). 본원에 개시된 임의의 RNA 서열(예를 들어, crRNA, tracrRNA, gRNA)은 적합한 DNA 서열에 의해 암호화될 수 있다.
용어 "단리된"은 이의 천연 공급원으로부터 완전히 또는 부분적으로 정제된 폴리뉴클레오티드 또는 폴리펩티드 분자를 지칭한다. 일부 경우에, 단리된 폴리뉴클레오티드 또는 폴리펩티드 분자는 더 큰 조성물, 완충액 시스템 또는 시약 믹스의 일부이다. 예를 들어, 단리된 폴리뉴클레오티드 또는 폴리펩티드 분자는 이종 방식으로 세포 또는 유기체 내에 포함될 수 있다.
용어 "유전자"는 암호화 영역으로부터 RNA(RNA는 DNA 폴리뉴클레오티드 서열로부터 전사됨)를 발현하는 DNA 폴리뉴클레오티드 서열을 지칭하며, RNA는 (단백질을 암호화하는) 메신저 RNA 또는 비-단백질-암호화 RNA (예를 들어, 본원의 crRNA, tracrRNA 또는 gRNA)일 수 있다. 유전자는 암호화 영역만을 지칭할 수 있거나, 암호화 영역(예를 들어, 프로모터, 5'-비해독 영역, 3'-전사 종결자 영역)의 상류 및/또는 하류의 조절 서열을 포함할 수 있다. 단백질을 암호화하는 암호화 영역은 본원에서 대안적으로 "오픈 리딩 프레임"(ORF)으로 지칭될 수 있다. "천연" 또는 "내인성"인 유전자는 자연에서 그 자체의 조절 서열을 가진 채 발견되는 유전자를 지칭하며, 이러한 유전자는 숙주 세포의 게놈에서 이의 자연적 위치에 위치한다. "키메라" 유전자는 자연에서 함께 발견되지 않는 조절 서열 및 암호화 서열을 포함하는, 천연 유전자가 아닌 임의의 유전자를 지칭한다(즉, 조절 영역과 암호화 영역이 서로 이종성이다). 따라서, 키메라 유전자는 상이한 공급원으로부터 유래된 조절 서열과 암호화 서열, 또는 동일한 공급원으로부터 유래되었지만, 자연에서 발견되는 것과 상이한 방식으로 배열된 조절 서열과 암호화 서열을 포함할 수 있다. "외래" 또는 "이종" 유전자는 유전자 전달에 의해 숙주 유기체 내로 도입된 유전자를 지칭한다. 외래/이종 유전자는 비 천연 유기체에 삽입된 천연 유전자, 천연 숙주 내의 새로운 위치로 도입된 천연 유전자, 또는 키메라 유전자를 포함할 수 있다. 본원에 개시된 특정 구현예에서 폴리뉴클레오티드 서열은 이종성이다. "코돈-최적화된" 오픈 리딩 프레임은 숙주 세포의 바람직한 코돈 사용 빈도를 모방하도록 설계된 코돈 사용 빈도를 나타낸다.
"변형된 유전자" 또는 "편집된 유전자"는 변형되지 않은 유전자 서열과 비교할 때 적어도 하나의 변경을 포함하는 관심 있는 유전자를 지칭한다. 이러한 "변경"은, 예를 들어, (i) 적어도 하나의 뉴클레오티드의 교체, (ii) 적어도 하나의 뉴클레오티드의 결실, (iii) 적어도 하나의 뉴클레오티드의 삽입, 또는 (iv) (i) 내지 (iii)의 임의의 조합을 포함한다.
본원에 사용된 "조절 서열"은 유전자의 전사 개시 부위(예를 들어, 프로모터), 5' 비해독 영역 및 3' 비 암호화 영역의 상류에 위치하며, 전사, 프로세싱 또는 안정성, 또는 유전자로부터 전사된 RNA의 번역에 영향을 줄 수 있는 뉴클레오티드 서열을 지칭한다. 본원의 조절 서열은 프로모터, 인핸서, 사일런서, 5' 비해독 선도 서열, 인트론, 폴리아데닐화 인식 서열, RNA 프로세싱 부위, 이펙터 결합 부위, 스템-루프 구조 및 유전자 발현의 조절에 관여하는 기타 요소를 포함할 수 있다. 본원의 하나 이상의 조절 요소는 본원의 암호화 영역에 대해 이종성일 수 있다.
본원에 사용된 "프로모터"는 유전자로부터의 RNA의 전사를 조절할 수 있는 DNA 서열을 지칭한다. 일반적으로, 프로모터 서열은 유전자의 전사 개시 부위의 상류에 있다. 프로모터는 천연 유전자로부터 그 전체가 유래될 수도 있거나, 자연에서 발견되는 상이한 프로모터들로부터 유래된 상이한 요소들로 구성될 수 있거나, 심지어 합성 DNA 세그먼트를 포함할 수 있다. 모든 환경하의 대부분의 경우에 세포에서 유전자가 발현되도록 하는 프로모터는 통상적으로 "항시성 프로모터(constitutive promoter)"라 지칭된다. 본원의 하나 이상의 프로모터는 본원의 암호화 영역에 대해 이종성일 수 있다.
본원에 사용된 "강력한 프로모터"는 단위 시간당 상대적으로 많은 수의 생산 개시를 이끌 수 있는 프로모터를 지칭하고/지칭하거나, 세포 내 유전자의 평균 전사 수준보다 더 높은 수준의 유전자 전사를 유도하는 프로모터이다.
항시성 대장균 프로모터는 당해 분야에 잘 알려져 있으며, 전사 인자에 의한 조절이 결여되고 RNA 폴리머라제만으로 인식되는 프로모터를 포함한다(Shimada T, Yamazaki Y, Tanaka K, Ishihama A. The whole set of constitutive promoters recognized by RNA polymerase RpoD holoenzyme of Escherichia coli. PLoS One. 2014. Mar 6; 9(3):e90447; Science 2002, Stochastic Gene Expression in a Single Cell Vol. 297 no. 5584 pp. 1183-1186).
본원에 사용된 용어 "3' 비 암호화 서열", "전사 종결자" 및 "종결자"는 암호화 서열의 하류에 위치한 DNA 서열을 지칭한다. 이는 폴리아데닐화 인식 서열 및 mRNA 프로세싱 또는 유전자 발현에 영향을 줄 수 있는 조절 신호를 암호화하는 기타 서열을 포함한다.
본원에 사용된 용어 "카세트"는 단백질 암호화 RNA 또는 비 단백질 암호화 RNA를 암호화하는 DNA 서열에 작동 가능하게 연결된 프로모터를 지칭한다. 카세트는 선택적으로 3' 비암호화 서열에 작동 가능하게 연결될 수 있다.
폴리뉴클레오티드와 관련하여 본원에 사용된 용어 "상류" 및 "하류"는 각각 "~의 5'" 및 "~의 3'"을 지칭한다.
본원에 사용된 용어 "발현"은 (i) 암호화 영역으로부터 RNA(예를 들어, mRNA, 또는 crRNA, tracrRNA 또는 gRNA와 같은 비 단백질 암호화 RNA)의 전사, 또는 (ii) mRNA로부터의 폴리펩티드의 번역을 지칭한다.
유전자 또는 폴리뉴클레오티드 서열의 발현을 설명하는 데 사용되는 경우, 용어 "하향 조절", "방해", "억제", "불활성화" 및 "침묵화"는 폴리뉴클레오티드 서열의 전사가 감소되거나 제거되는 경우를 지칭하도록 본원에서 상호교환적으로 사용된다. 이는 폴리뉴클레오티드 서열로부터의 RNA 전사물의 감소 또는 제거를 초래하며, 이는 (유전자가 ORF를 포함한 경우) 폴리뉴클레오티드 서열로부터 유래된 단백질 발현의 감소 또는 제거를 초래한다. 대안적으로, 하향 조절은 폴리뉴클레오티드 서열에 의해 생성된 전사물로부터의 단백질 번역이 감소되거나 제거된 경우를 지칭할 수 있다. 또한, 대안적으로, 하향 조절은 폴리뉴클레오티드 서열에 의해 발현된 단백질의 활성이 감소된 경우를 지칭할 수 있다. 세포에서 위의 공정(전사, 번역, 단백질 활성) 중 어느 하나의 감소는 적합한 대조 세포의 전사, 번역 또는 단백질 활성에 대하여 약 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 95% 또는 100%일 수 있다. 하향 조절은, 예를 들어, 본원에 개시된 바와 같은 표적화 이벤트(예를 들어, 삽입-결실, 녹아웃)의 결과일 수 있다.
용어 "대조 세포" 및 "적합한 대조 세포"는 본원에서 상호교환적으로 사용되며, 특정 변형(예를 들어, 폴리뉴클레오티드의 과발현, 폴리뉴클레오티드의 하향 조절)이 이루어진 세포(즉, "실험 세포")와 관련하여 언급될 수 있다. 대조 세포는 실험 세포의 특정 변형을 가지지 않거나 발현하지 않는 임의의 세포일 수 있다. 예를 들어, 대조 세포는 실험 세포의 직접적인 부모일 수 있으며, 직접적인 부모 세포는 실험 세포에 있는 특정 변형을 가지지 않는다. 대안적으로, 대조 세포는 하나 이상의 세대에 의해 제거되는 실험 세포의 부모일 수 있다. 또한, 대안적으로, 대조 세포는 실험 세포의 형제일 수 있으며, 형제 세포는 실험세포에 존재하는 특정 변형을 포함하지 않는다.
본원에 사용된 용어 "증가된"은 증가된 양 또는 활성이 비교되는 양 또는 활성보다 적어도 약 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11%, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 50%, 100%, 또는 200% 초과인 양 또는 활성을 지칭할 수 있다. 용어 "증가된", "상승된", "증진된", "보다 많은" 및 "개선된"은 본원에서 상호교환적으로 사용된다. 용어 "증가된"은 단백질을 암호화하는 폴리뉴클레오티드의 발현을 특성화하는 데 사용될 수 있는데, 예를 들어, "증가된 발현"은 또한 "과발현"을 의미할 수 있다.
본원에 사용된 용어 "작동 가능하게 연결된"은 하나의 기능이 다른 것에 의해 영향을 받는 둘 이상의 핵산 서열의 결합을 지칭한다. 예를 들어, 프로모터는 그것이 그 암호화 서열의 발현에 영향을 미칠 수 있는 경우에 암호화 서열에 작동 가능하게 연결된다. 다시 말하면, 암호화 서열은 프로모터의 전사적 조절하에 있다. 암호화 서열은, 예를 들어, 조절 서열에 작동 가능하게 연결될 수 있다. 또한, 예를 들어, crRNA는 crRNA의 tracrRNA 메이트 서열이 tracrRNA의 5' 서열과 어닐링하도록 본원의 tracrRNA에 작동 가능하게 연결(융합)될 수 있다.
본원에 사용된 용어 "재조합"은, 예를 들어, 화학적 합성에 의한 또는 유전자 조작 기술에 의해 분리된 핵산 세그먼트의 조작에 의한, 그렇지 않았다면 분리된 2개의 서열 세그먼트들의 인공적인 조합을 지칭한다.
본원의 재조합 작제물/벡터(예를 들어, 본원의 RNA 성분 카세트를 암호화하는 DNA 폴리뉴클레오티드, 또는 본원의 Cas 단백질 또는 Cas-CPP 융합 단백질을 암호화하는 DNA 폴리뉴클레오티드)를 제조하는 방법은 예를 들어, J. Sambrook 및 D. Russell (Molecular Cloning: A Laboratory Manual, 3rd Edition, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY, 2001); T.J. Silhavy et al. (Experiments with Gene Fusions, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY, 1984); 및 F.M. Ausubel et al. (Short Protocols in Molecular Biology, 5th Ed. Current Protocols, John Wiley and Sons, Inc., NY, 2002)에 기술된 바와 같은 표준 재조합 DNA 및 분자 클로닝 기술을 따를 수 있다.
"표현형 마커"는 시각적 마커 및 그것이 양성의 선택 가능한 마커든 음성의 선택 가능한 마커든 선택 가능한 마커를 포함하는, 스크리닝이 가능하거나 선택 가능한 마커이다. 임의의 표현형 마커가 이용될 수 있다. 구체적으로, 선택 가능하거나 스크리닝 가능한 마커는 종종 특정한 조건 하에서, 그것을 포함하는 분자 또는 세포를 확인할 수 있게 하거나, 그것을 포함하는 분자 또는 세포를 선택할 수 있게 하거나, 그것을 포함하는 분자 또는 세포에 대해 선택할 수 있게 하는 DNA 세그먼트를 포함한다. 이들 마커는 활성, 예컨대, RNA, 펩티드, 또는 단백질의 생산(그러나 이에 한정되지 않음)을 암호화할 수 있거나, RNA, 펩티드, 단백질, 무기 및 유기 화합물 또는 조성물 등을 위한 결합 부위를 제공할 수 있다.
대장균에 대한 선택 가능한 마커의 예는 항생제(암피실린, 카르베니실린, 페니실린, 클로람페니콜, 카나마이신, 테트라사이클린, 에리트로마이신, 스펙티노마이신, 스트렙토마이신)에 대한 저항성 및 영양요구성 마커(아미노산 생합성, 당 활용, 및 비타민 생합성)를 포함한다(Methods for General and Molecular Bacteriology. 1994. ASM Press, Washington D.C).
대장균 내 스크리닝 가능한 마커는 형광 단백질(GFP, RFP, CFP, YFP), 당 활용(락토스, 리보스, 글루코스, 수크로스, 갈락토스, 글리세롤)(Methods for General and Molecular Bacteriology. 1994. ASM Press, 워싱턴 D.C.) 및 특이한 프라이머 결합 부위의 생성을 포함한다.
폴리뉴클레오티드 또는 폴리펩티드 서열과 관련하여 본원에 사용된 용어 "서열 동일성" 또는 "동일성"은 소정의 비교창에서 최대 상응도로 정렬되는 경우에 동일한 두 서열 내의 핵산 잔기 또는 아미노산 잔기를 지칭한다. 따라서, "서열 동일성 백분율" 또는 "백분율 동일성"은 비교창에서 최적으로 정렬된 2개의 서열을 비교하여 결정된 값을 지칭하며, 이때, 비교창 내의 폴리뉴클레오티드 또는 폴리펩티드 서열의 부분은 2개의 서열의 최적 정렬을 위한 (삽입 또는 결실을 포함하지 않는) 기준 서열과 비교하여 삽입 또는 결실(즉, 갭)을 포함할 수 있다. 백분율은, 두 서열에서 동일한 핵산 염기 또는 아미노산 잔기가 나타나는 위치의 개수를 결정하여 일치하는 위치의 개수를 산출하고, 일치하는 위치의 개수를 비교창 내의 위치의 총 개수로 나누고, 그 결과에 100을 곱하여 서열 동일성의 백분율을 산출함으로써 계산한다. DNA 서열과 RNA 서열 사이의 서열 동일성을 계산하는 경우, DNA 서열의 T 잔기가 RNA 서열의 U 잔기와 정렬되며, 이와 "동일"하다고 간주될 수 있음을 이해할 것이다. 제1 폴리뉴클레오티드와 제2 폴리뉴클레오티드의 백분율 상보성을 결정하기 위해, 예를 들어 (i) 제1 폴리뉴클레오티드와 제2 폴리뉴클레오티드의 보체 서열(또는 그 반대) 사이의 백분율 동일성, 및/또는 (ii) 표준(canonical) 왓슨과 크릭 염기쌍을 생성할 제1 폴리뉴클레오티드와 제2 폴리뉴클레오티드 사이의 염기의 백분율을 결정함으로써 이를 얻을 수 있다.
예를 들어, 국립 생물공학 정보 센터(National Center for Biotechnology Information; NCBI) 웹사이트에서 온라인으로 이용 가능한 기본 국소 정렬 검색 도구(Basic Local Alignment Search Tool; BLAST) 알고리즘을 사용하여, 본원에 개시된 둘 이상의 폴리뉴클레오티드 서열(BLASTN 알고리즘) 또는 폴리펩티드 서열(BLASTP 알고리즘) 사이의 백분율 동일성을 측정할 수 있다. 대안적으로, 서열 사이의 백분율 동일성은 클러스탈(Clustal) 알고리즘(예를 들어, 클러스탈W 또는 클러스탈V)을 사용하여 수행될 수 있다. 클러스탈 정렬 방법을 사용하는 다중 정렬의 경우, 디폴트 값은 갭 페널티(GAP PENALTY)=10 및 갭 길이 페널티(GAP LENGTH PENALTY)=10에 상응할 수 있다. 클러스탈 방법을 사용하는 단백질 서열의 백분율 동일성의 계산 및 쌍 정렬을 위한 디폴트 파라미터는 케이터플(KTUPLE)=1, 갭 페널티=3, 윈도우(WINDOW)=5 및 다이아고날스 세이브드(DIAGONALS SAVED)=5일 수 있다. 핵산의 경우, 이들 파라미터는 케이터플=2, 갭 페널티=5, 윈도우=4 및 다이아고날스 세이브드=4일 수 있다. 또한, 대안적으로, 서열 사이의 백분율 동일성은 블로섬(BLOSUM) 매트릭스(예를 들어, 블로섬62)를 사용하는 갭 오픈(GAP OPEN)=10, 갭 연장(GAP EXTEND)=0.5, 엔드 갭 페널티(END GAP PENALTY)=false, 엔드 갭 오픈=10, 엔드 갭 연장=0.5와 같은 파라미터를 갖는 엠보스(EMBOSS) 알고리즘(예를 들어, 니들(needle))을 사용하여 수행될 수 있다.
본원에서, 제2 서열에 "상보적인" 제1 서열은 대안적으로 제2 서열에 대해 "안티센스(antisense)" 배향인 것으로 지칭될 수 있다.
다양한 폴리펩티드 아미노산 서열 및 폴리뉴클레오티드 서열은 개시된 본 발명의 특정 구현예의 특징으로서 본원에 개시되어 있다. 본원에 개시된 서열과 적어도 약 70 내지 85%, 85 내지 90%, 또는 90% 내지 95% 동일한 이들 서열의 변이체가 사용될 수 있다. 대안적으로, 변이체 아미노산 서열 또는 폴리뉴클레오티드 서열은 본원에 개시된 서열과 적어도 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99% 동일성을 가질 수 있다. 변이체 아미노산 서열 또는 폴리뉴클레오티드 서열은 개시된 서열과 동일한 기능/활성, 또는 개시된 서열의 기능/활성의 적어도 약 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99%를 갖는다.
본원의 Cas9 단백질의 각각의 아미노산 위치에서의 본원에 개시된 모든 아미노산 잔기는 예이다. 특정 아미노산이 서로 유사한 구조적 특징 및/또는 전하 특징을 공유함(즉, 보존)을 고려하면, Cas9의 각 위치에서의 아미노산은 개시된 서열에서 제공된 것과 같거나, 다음과 같이 보존된 아미노산 잔기로 치환될 수 있다("보존적 아미노산 치환"):
1.
다음과 같은 작은 지방족의 비극성 또는 약간 극성인 잔기가 서로를 대체할 수 있다: Ala (A), Ser (S), Thr(T), Pro (P), Gly (G);
2.
다음과 같은 극성의 음으로 하전된 잔기 및 그들의 아미드가 서로를 대체할 수 있다: Asp (D), Asn (N), Glu (E), Gln (Q);
3.
다음과 같은 극성의 양으로 하전된 잔기가 서로를 대체할 수 있다: His (H), Arg (R), Lys (K);
4.
다음과 같은 지방족의 비극성 잔기가 서로를 대체할 수 있다: Ala (A), Leu (L), Ile (I), Val (V), Cys (C), Met (M); 및
5.
다음과 같은 큰 방향족 잔기가 서로를 대체할 수 있다: Phe (F), Tyr (Y), Trp (W).
본원에서 대장균 세포와 같은 박테리아 세포의 게놈은 세포에 자율적으로 존재할 수 있는(복제할 수 있고 딸 세포로 전달할 수 있는) DNA 분자를 지칭한다. 게놈 DNA는 세포에 천연적이거나 이종성일 수 있다. 대장균 내 게놈 DNA의 예는 플라스미드 DNA뿐만 아니라 큰 원형 DNA 분자 상에 위치한 DNA를 포함한다.
본원의 용어 "세포"는 임의의 유형의 세포, 예컨대, 원핵 세포 또는 진핵 세포를 지칭한다. 진핵 세포는 핵 및 기타 막으로 둘러싸인 구조물(세포 기관)이 있지만, 원핵 세포는 핵이 없다. 특정 구현예에서의 세포는 포유류 세포 또는 비 포유류 세포일 수 있다. 비 포유류 세포는 진핵 또는 원핵일 수 있다. 예를 들어, 본원의 비 포유류 세포는 미생물 세포 또는 비 포유류의 다세포 유기체, 예컨대, 식물, 곤충, 선충, 조류 종, 양서류, 파충류, 또는 어류의 세포를 지칭할 수 있다. 본원의 미생물 세포는 예를 들어, 곰팡이 세포(예컨대, 효모 세포), 원핵 세포, 원생 세포(예컨대, 조류 세포), 유글레나 세포, 스트라메노필(stramenopile) 세포, 또는 난균 세포를 지칭할 수 있다. 본원의 원핵 세포는 예를 들어, 박테리아 세포 또는 고세균 세포를 지칭할 수 있다.
박테리아 세포는 구균, 간균, 스피로헤타, 스페로플라스트, 원형질체 등의 형태인 것들일 수 있다. 기타 비제한적인 박테리아의 예로는 그램 음성 및 그램 양성인 것들이 포함된다. 또 다른 비제한적인 박테리아의 예에는 살모넬라(예컨대, S. 티피(typhi), S. 엔테리티디스(enteritidis)), 시겔라(예컨대, S. 디스엔테리아에(dysenteriae))), 에스케리챠(예컨대, 대장균), 엔테로박터(Enterobacter), 세라티아(Serratia), 프로테우스(Proteus), 예시니아, 시트로박터(Citrobacter), 에드워드시엘라(Edwardsiella), 프로비덴시아(Providencia), 클레브시엘라(Klebsiella), 하프니아(Hafnia), 에윈겔라(Ewingella), 클루이베라(Kluyvera), 모르가넬라(Morganella), 플라노코커스(Planococcus), 스토마토코커스(Stomatococcus), 미크로코커스(Micrococcus), 스타필로코커스(예컨대, S. 아우레우스(aureus), S. 에피데르미디스(epidermidis)), 비브리오(예컨대, V. 콜레라에(cholerae)), 아에로모나스(Aeromonas), 플레스시오모나스(Plessiomonas), 해모필루스(Haemophilus)(예컨대, H. 인플루엔자), 악티노바실루스(Actinobacillus), 파스퇴렐라(Pasteurella), 마이코플라스마(Mycoplasma)(예컨대, M. 뉴모니아(pneumonia)), 우레아플라스마(Ureaplasma), 리케챠(Rickettsia), 콕시엘라(Coxiella), 로카리마에(Rochalimaea), 에르리키아(Ehrlichia), 스트렙토코커스(Streptococcus)(예컨대, S. 피오제네스, S. 뮤탄스, S. 뉴모니아에), 엔테로코커스(Enterococcus)(예컨대, E. 패칼리스(faecalis)), 애로코커스(Aerococcus), 게멜라(Gemella), 락토코커스(Lactococcus)(예컨대, L. 락티스(lactis)), 류코노스톡(Leuconostoc)(예컨대, L. 메센테로이데스(mesenteroides), 페디코커스(Pedicoccus), 바실루스(예컨대, B. 세레우스(cereus), B. 서브틸리스(subtilis), B. 튜린겐시스(thuringiensis)), 코리네박테리움(Corynebacterium)(예컨대, C. 디프테리아(diphtheriae)), 아르카노박테리움(Arcanobacterium), 악티노마이세스(Actinomyces), 로도코커스(Rhodococcus), 리스테리아(Listeria)(예컨대, L. 모노시토게네스(monocytogenes)), 에리시페로트릭스(Erysipelothrix), 가드네렐라(Gardnerella), 네이세리아(Neisseria)(예컨대, N. 메닌기티디스(meningitidis), N. 고노르호에(gonorrhoeae)), 캄필로박터(Campylobacter), 아르코박터(Arcobacter), 울리넬라(Wolinella), 헬리코박터(Helicobacter)(예컨대, H. 파일로리(pylori)), 아크로모박터(Achromobacter), 아시네토박터(Acinetobacter), 아그로박테리움(Agrobacterium)(예컨대, A. 투메파시엔스(tumefaciens)), 알카리게네스(Alcaligenes), 크리세오모나스(Chryseomonas), 코마모나스(Comamonas), 에이케넬라(Eikenella), 플라비모나스(Flavimonas), 플라보박테리움(Flavobacterium), 모라셀라(Moraxella), 올리겔라(Oligella), 슈도모나스(Pseudomonas)(예컨대, P. 애루기노사(aeruginosa)), 세와넬라(Shewanella), 위크셀라(Weeksella), 산토모나스(Xanthomonas), 보르데텔라(Bordetella), 프란시에셀라(Franciesella), 브루셀라(Brucella), 레지오넬라(Legionella), 아피피아(Afipia), 바르토넬라(Bartonella), 카림마토박테리움(Calymmatobacterium), 카르디오박테리움(Cardiobacterium), 스트렙토바실루스(Streptobacillus), 스피릴룸(Spirillum), 펩토스트렙토코커스(Peptostreptococcus), 펩토코커스(Peptococcus), 사르시니아(Sarcinia), 코프로코커스(Coprococcus), 루미노코커스(Ruminococcus), 프로피오니박테리움(Propionibacterium), 모비룬커스(Mobiluncus), 비피도박테리움(Bifidobacterium), 유박테리움(Eubacterium), 락토바실루스(Lactobacillus)(예컨대, L. 락티스(lactis), L. 아시도필루스(acidophilus)), 로티아(Rothia), 클로스트리듐(Clostridium)(예컨대, C. 보툴리눔(botulinum), C. 퍼프린겐스(perfringens)), 박테로이데스(Bacteroides), 포르피로모나스(Porphyromonas), 프레보텔라(Prevotella), 푸소박테리움(Fusobacterium), 빌로필라(Bilophila), 렙토트리키아(Leptotrichia), 울리넬라(Wolinella), 아시다미노코커스(Acidaminococcus), 메가스패라(Megasphaera), 베일로넬라(Veilonella), 노르카르디아(Norcardia), 악티노마두라(Actinomadura), 노르카디옵시스(Norcardiopsis), 스트렙토마이세스(Streptomyces), 마이크로폴리스포라스(Micropolysporas), 테르모악티노마이세테스(Thermoactinomycetes), 마이코박테리움(Mycobacterium)(예컨대, M. 튜버큘로시스(tuberculosis), M. 보비스(bovis), M. 레프라(leprae)), 트레포네마(Treponema), 보렐리아(Borrelia)(예컨대, B. 부르그도르페리(burgdorferi)), 렙토스피라(Leptospira) 및 클라미디아(Chlamydiae) 속의 것들을 들 수 있다. 특정 구현예에서 박테리아는 선택적으로 식물 또는 동물(예컨대, 인간)의 해충/병원균을 특징으로 할 수 있다. 박테리아는 특정 구현예에서 (예컨대, 기타 박테리아를 함유하거나 효모 및/또는 기타 박테리아를 함유하는) 혼합 미생물 집단 내에 포함될 수 있다.
특정 구현예에서 고세균 세포는 임의의 고세균 문(Archaeal phylum), 예컨대, 유리고세균(Euryarchaeota), 크렌고세균(Crenarchaeota), 나노고세균(Nanoarchaeota), 코르고세균(Korarchaeota), 아이가르고세균(Aigarchaeota), 또는 타움고세균(Thaumarchaeota)으로부터 유래할 수 있다. 본원의 고세균 세포는 예를 들어, 호극성일 수 있다(예컨대, 대부분의 생명체에 유해한 물리적으로 또는 지구화학적으로 극도의 조건에서 성장 및/또는 번식할 수 있다). 호극성 고세균의 일부 예에는 호온성(예컨대, 45~122℃의 온도에서 성장할 수 있음), 과호열성(예컨대, 80~122℃의 온도에서 성장할 수 있음), 호산성(예컨대, 3 이하의 pH 수준에서 성장할 수 있음), 호알칼리성(예컨대, 9 이상의 pH 수준에서 성장할 수 있음), 및/또는 호염성(예컨대, 고염 농도[예를 들어, 20~30% NaCl]에서 성장할 수 있음)인 것들이 포함된다. 고세균 종의 예로는 할로박테리움(Halobacterium)(예컨대, H. 볼카니이(volcanii)), 설폴로부스(Sulfolobus)(예컨대, S. 설파타리쿠스(solfataricus), S. 아시도칼다리우스(acidocaldarius)), 써모코커스(Thermococcus)(예컨대, T. 알칼리필루스(alcaliphilus), T. 셀레르(celer), T. 키토노파구스(chitonophagus), T. 감마톨레란스(gammatolerans), T. 하이드로써말리스(hydrothermalis), T. 코다카렌시스(kodakarensis), T. 리토랄리스(litoralis), T. 펩토노필루스(peptonophilus), T. 프로푼두스(profundus), T. 스테테리(stetteri)), 메타노칼도코커스(Methanocaldococcus)(예컨대, M. 써모리토트로피쿠스(thermolithotrophicus), M. 잔나스키이(jannaschii)), 메타노코커스(Methanococcus)(예컨대, M. 마리팔루디스(maripaludis)), 메타노써모박터(Methanothermobacter)(예컨대, M. 마르부르겐시스(marburgensis), M. 써마우토트로피쿠스(thermautotrophicus)), 아캐오글로부스(Archaeoglobus)(예컨대, A. 풀기두스(fulgidus), 니트로소푸밀루스(Nitrosopumilus)(예컨대, N. 마리티무스(maritimus)), 메탈로스패라(Metallosphaera)(예컨대, M. 세둘라(sedula)), 페로플라스마(Ferroplasma), 써모플라스마(Thermoplasma), 메타노브레비박터(Methanobrevibacter)(예컨대, M. 스미시(smithii)), 및 메타노스패라(Methanosphaera)(예컨대, M. 스타츠마나(stadtmanae)) 속의 것들이 포함된다.
리컴바이니어링(recombineering)은 선형 이중 및 단일 가닥 폴리뉴클레오티드 편집 주형을 이용한 박테리아 DNA의 편집을 가능하게 한다(Datsenko KA, Wanner BL. 2000. One-step inactivation of chromosomal genes in Escherichia coli K-12 using PCR products. Proceedings of the National Academy of Sciences of the United States of America 97:6640-6645; Thomason LC, Sawitzke JA, Li X, Costantino N, Court DL. 2014. Recombineering: genetic engineering in bacteria using homologous recombination. Current protocols in molecular biology / Frederick M. Ausubel et al. 편집, 106:1 16 11-11 16 39). 선형 또는 단일 가닥 편집 주형을 이용하기 위해서는 외인성 파지 재조합효소 단백질의 발현이 필요하다(Datsenko KA, Wanner BL. 2000. One-step inactivation of chromosomal genes in Escherichia coli K-12 using PCR products. Proceedings of the National Academy of Sciences of the United States of America 97:6640-6645; 본원에 참조로 포함되는 2010년 1월 15일 발행된 미국 특허 7,736,851 DNA cloning method). 일반적으로, 점 돌연변이 또는 결실과 같은 작은 변화는 짧은 단일 가닥 올리고뉴클레오티드 편집 주형을 사용하여 발생될 수 있다. 그러나, 더 큰 변화 또는 유전자 삽입의 경우, 재조합의 낮은 빈도(약 10-5 내지 10-7)로 인해 원하는 편집을 포함하는 콜로니를 분리하기 위해서는 폴리뉴클레오티드 편집 주형 상의 선택 가능한 마커의 존재가 필요하다. 일단 편집되면 선택 가능한 마커는 제거되어야 하며, 종종 게놈에 흔적을 남긴다(Datsenko KA, Wanner BL. 2000. One-step inactivation of chromosomal genes in Escherichia coli K-12 using PCR products. Proceedings of the National Academy of Sciences of the United States of America 97:6640-6645).
외인성 재조합효소는 세포 천연 상동 재조합 기구 외에 제공된(즉, 비 천연 수단을 통해 발현된) 상동 재조합 시스템의 단백질을 포함한다.
RecET 단백질은 Rac 프로파지의 ATP-독립적, recA-독립적 상동 재조합 경로의 단백질을 포함한다(Kuzminov A. 1999. Recombinational repair of DNA damage in Escherichia coli and bacteriophage lambda. Microbiology and molecular biology reviews : MMBR 63:751-813).
람다-레드 단백질은 파지 람다의 레드, 레드β, 및 레드γ 단백질을 포함한다(Smith GR. 1988. Homologous recombination in procaryotes. Microbiological reviews 52:1-28).
RecBCD 억제제는 RecBCD에 결합하여 그 기능을 억제하는 단백질(예를 들어, 람다 Gam 단백질을 포함한다(Murphy KC. 2007. The lambda Gam protein inhibits RecBCD binding to dsDNA ends. Journal of molecular biology 371:19-24).
(ii) 가이드 RNA 또는 Cas 엔도뉴클레아제를 암호화하는 뉴클레오티드 서열에 (i) 작동 가능하게 연결된 프로모터를 포함하는 DNA 폴리뉴클레오티드 서열은 일반적으로, 본원에 기재된 가이드 RNA 또는 cas 엔도뉴클레아제의 안정적이고/이거나 일시적인 발현을 위해 이용될 수 있다. 이러한 폴리뉴클레오티드 서열은 예를 들어, 플라스미드, 코스미드, 파지미드, 박테리아 인공 염색체(BAC), 바이러스, 또는 선형 DNA(예를 들어, 선형 PCR 산물), 또는 폴리뉴클레오티드 서열을 세포 내로 제공하는 데 유용한 임의의 기타 유형의 벡터 또는 작제물 내에 포함될 수 있다.
박테리아 프로모터는 박테리오파지 λ 프로모터 레프트(PL)(Menart V, Jevsevar S, Vilar M, Trobis A, Pavko A. 2003. Constitutive versus thermoinducible expression of heterologous proteins in Escherichia coli based on strong PR,PL promoters from phage lambda. Biotechnology and bioengineering 83:181-190), 박테리오파지 λ 프로모터 라이트(PR)(Menart V, Jevsevar S, Vilar M, Trobis A, Pavko A. 2003. Constitutive versus thermoinducible expression of heterologous proteins in Escherichia coli based on strong PR, PL promoters from phage lambda. Biotechnology and bioengineering 83:181-190), 아라비노오스 활용 오페론 프로모터(PBAD)(Guzman LM, Belin D, Carson MJ, Beckwith J. 1995. Tight regulation, modulation, and high-level expression by vectors containing the arabinose PBAD promoter. Journal of bacteriology 177:4121-4130), 파지 T7 RNA 폴리머라제 제어 프로모터(PT7)(Ikeda RA, Ligman CM, Warshamana S. 1992. T7 promoter contacts essential for promoter activity in vivo. Nucleic acids research 20:2517-2524), 대장균의 락토스 활용 오페론의 프로모터(Plac)(Gronenborn B. 1976. Overproduction of phage lambda repressor under control of the lac promotor of Escherichia coli. Molecular & general genetics : MGG 148:243-250), 하이브리드 trp 및 lac 프로모터(Ptac)(de Boer HA, Comstock LJ, Vasser M. 1983. The tac promoter: a functional hybrid derived from the trp and lac promoters. Proceedings of the National Academy of Sciences of the United States of America 80:21-25), 및 파지 T5 프로모터(PT5)(Bujard H, Gentz R, Lanzer M, Stueber D, Mueller M, Ibrahimi I, Haeuptle MT, Dobberstein B. 1987. A T5 promoter-based transcription-translation system for the analysis of proteins in vitro and in vivo. Methods in enzymology 155:416-433)를 포함한다. 박테리아에서의 발현을 위한 다른 적합한 프로모터가 기술되어 있다(Green MR, Sambrook J. 2012. Molecular Clonine: A Laboratory Manual, Fourth Edition ed. Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY; Karp PD, et al., 2014. The EcoCyc Database. EcoSal Plus 2014; Keseler IM et al., 2011. EcoCyc: a comprehensive database of Escherichia coli biology. Nucleic acids research 39:D583-590).
특정 구현예에서, RNA 성분을 발현하기 위한 카세트를 포함하는 DNA 폴리뉴클레오티드는 RNA 성분 서열의 하류에 적합한 전사 종결 서열을 포함한다. 본원에 유용한 전사 종결 서열의 예는 본원에 참조로 포함되는 미국 특허 출원 공개 2014/0186906호에 개시되어 있다. 이러한 구현예는 일반적으로, 종결자 서열의 선택에 따라, RNA 성분 서열의 말단 다음에, 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개, 30개 이상의 잔기를 포함한다. 이러한 추가적인 잔기는 종결자 서열의 선택에 따라, 전부 U 잔기이거나, 예를 들어, 적어도 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 또는 99% U 잔기일 수 있다. 대안적으로, 리보자임 서열(예컨대, 망치머리 또는 HDV 리보자임)은 예를 들어, RNA 성분 서열의 (하류의 예컨대, 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개 이상 뉴클레오티드의) 3'일 수 있다. 따라서, 3' 리보자임 서열은 그것이 RNA 성분 서열로부터 그 자신을 절단하도록 위치할 수 있고, 이러한 절단은 전사물이 RNA 성분 서열의 말단에서 정확하게, 또는 예를 들어, RNA 성분 서열의 말단 다음에 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개 이상의 잔기가 있도록 전사물을 종료시킬 것이다.
DNA 표적 부위 서열에 결합할 수 있지만 표적 부위 서열에서 임의의 가닥을 절단하지 않는 본원의 RGEN은 다른 구현예에서 DNA 표적화 방법에 이용될 수 있다. 기능장애 뉴클레아제 도메인만 가지고 있지만 특이적인 DNA 결합 활성을 보유하는 본원에 개시된 임의의 RGEN은 이러한 유형의 표적화 방법에 이용될 수 있다.
활성 인자 전사 인자 또는 이의 활성 인자 도메인에 연결되거나 융합된 RGEN은 하나 이상의 폴리뉴클레오티드 서열의 발현을 상향 조절하는 데 이용될 수 있다. 이러한 활성화 RGEN을 도입하는 방법은 선택적으로, 전사적 상향 조절 또는 활성화 방법을 특징으로 할 수 있다. 이러한 방법에서 전사적 상향 조절의 수준은 활성화 RGEN의 적용 전의 전사 수준과 비교하여, 예를 들어, 적어도 약 25%, 50%, 75%, 100%, 250%, 500%, 또는 1000%일 수 있다.
본원의 표적화 방법은 예를 들어, 둘 이상의 DNA 표적 부위가 표적화되는 방식으로 수행될 수 있다. 이러한 방법은 선택적으로 다중 방법을 특징으로 할 수 있다. 특정 구현예에서 둘, 셋, 넷, 다섯, 여섯, 일곱, 여덟, 아홉, 열 개 이상의 표적 부위가 동시에 표적화될 수 있다. 일반적으로 다중 방법은 복수의 상이한 RNA 성분들이 제공되며 각각 RGEN을 특유의 DNA 표적 부위로 유도하도록 설계된 본원의 표적화 방법에 의해 수행된다. 예를 들어, 둘 이상의 상이한 RNA 성분들이 (예컨대, RNA 성분을 RGEN 단백질-CPP 복합체와 결합시키기 위하여 본원에 개시된 절차에 따라) 시험관 내에서 RGEN-CPP 복합체의 혼합물을 제조하는 데 이용될 수 있으며, 그 후, 이러한 혼합물은 세포와 접촉된다.
본원의 다중 표적화의 또 다른 양태는 세포 내로 횡단했던 RGEN 단백질-CPP 복합체들의 RGEN 단백질 성분들과 결합하는 둘 이상의 상이한 RNA 성분들을 세포에 제공하는 것을 포함할 수 있다. 이러한 방법은 예를 들어, 세포에 (i) 각각이 특정한 RNA 성분을 발현하는 개별적인 DNA 폴리뉴클레오티드들, 및/또는 (ii) 둘 이상의 RNA 성분들을 암호화하는 적어도 하나의 DNA 폴리뉴클레오티드를 제공하는 것을 포함할 수 있다(예를 들어, 탠덤 리보자임-RNA 성분 카세트와 관련하여 아래의 개시 내용 참조).
다중 방법은 선택적으로, 동일한 서열(예를 들어, 프로모터 또는 오픈 리딩 프레임)과 매우 가까운 DNA 부위들, 및/또는 서로 멀리 있는 (예를 들어, 상이한 유전자 및/또는 염색체) 부위들을 표적화할 수 있다. 다른 구현예에서 다중 방법은 (엔도뉴클레아제 또는 닉카아제 능력이 있는 RGEN이 사용되는 경우) 원하는 표적화의 결과에 따라 적합한 폴리뉴클레오티드 변형 주형을 사용하거나(HR의 경우) 사용하지 않고(삽입-결실 및/또는 염기 치환을 초래하는 NHEJ의 경우) 수행될 수 있다. 또 다른 구현예에서, 다중 방법은 본원에 개시된 바와 같은 억제화 또는 활성화 RGEN으로 수행될 수 있다. 예를 들어, 유전자 세트들, 예컨대, 특정 대사 경로에 관여하는 유전자들을 하향 조절하는 다수의 억제화 RGEN이 제공될 수 있다.
본원에 개시된 조성물 및 방법의 비제한적 예는 다음을 포함한다:
1. 대장균 세포의 게놈 내 뉴클레오티드 서열을 편집하는 방법으로서, 가이드 RNA를 암호화하는 DNA 서열을 포함하는 적어도 하나의 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형을, 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제 DNA 서열을 포함하는 대장균 세포에 제공하는 단계를 포함하되, 상기 Cas9 엔도뉴클레아제 DNA 서열은 상기 대장균 세포의 게놈 내 표적 부위에서 이중 가닥 절단을 도입할 수 있는 Cas9 엔도뉴클레아제를 암호화하고, 상기 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는, 방법.
2. 구현예 1에 있어서, 대장균 세포의 게놈 내 뉴클레오티드 서열은 프로모터 서열, 종결자 서열, 조절 요소 서열, 암호화 서열, 프로파지, 위유전자, 외인성 유전자, 및 내인성 유전자로 이루어진 군으로부터 선택되는, 방법.
3. 구현예 1에 있어서, 가이드 RNA를 암호화하는 DNA 서열을 포함하는 상기 재조합 DNA 작제물은 원형 플라스미드를 통해 제공되는, 방법.
4. 구현예 1에 있어서, 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형은 각각 별개의 플라스미드 상에 제공되는, 방법.
5. 구현예 1에 있어서, 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형은 단일 플라스미드 상에 제공되는, 방법.
6. 구현예 1에 있어서, 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 주형은 전기천공, 열 충격, 파지 전달, 결합, 접합 및 형질도입으로 이루어진 군으로부터 선택되는 하나의 수단을 통해 제공되는, 방법.
7. 구현예 1에 있어서, 상기 표적 부위는 제1 게놈 영역 및 제2 게놈 영역에 의해 플랭킹되고, 원형 폴리뉴클레오티드 주형은 상기 제1 게놈 영역과 상동인 제1 영역 및 상기 제2 게놈 영역과 상동인 제2 영역을 더 포함하는, 방법.
8. 구현예 1에 있어서, 대장균 세포는 외인성 재조합효소 단백질을 발현하지 않는, 방법.
9. 구현예 1에 있어서, 대장균 세포는 RecET 단백질, 람다-레드 단백질, 및 RecBCD 억제제를 포함하는 군으로부터 선택되는 단백질을 발현하지 않는, 방법.
10. 구현예 1에 있어서, 상기 대장균 세포로부터 자손 세포를 성장시키는 단계를 더 포함하되, 자손 세포는 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는, 방법.
11. 구현예 1에 있어서, 표적 부위는 대장균 galK 유전자 내에 위치하는, 방법.
12. 구현예 1의 방법에 의해 제조된 대장균 세포.
13. 구현예 12의 대장균 세포로부터 제조된 대장균 균주.
14. galK 돌연변이 대장균 세포를 제조하는 방법으로서,
a) 가이드 RNA를 암호화하는 DNA 서열을 포함하는 적어도 하나의 원형 재조합 DNA 작제물 및 적어도 하나의 원형 폴리뉴클레오티드 변형 주형을, 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제 DNA 서열을 포함하는 대장균 세포에 제공하는 단계(상기 Cas9 엔도뉴클레아제 DNA 서열은 대장균 게놈의 galK 게놈 서열 내 표적 부위에서 이중 가닥 절단을 도입할 수 있는 Cas 엔도뉴클레아제를 암호화하고, 상기 원형 폴리뉴클레오티드 변형 주형은 상기 galK 게놈 서열의 적어도 하나의 뉴클레오티드 변형을 포함함);
b) (a)의 대장균 세포로부터 자손 세포를 성장시키는 단계; 및
c) 상기 적어도 하나의 뉴클레오티드 변형의 존재에 대해 (b)의 자손 세포를 평가하는 단계를 포함하는 방법.
15. 대장균 세포의 게놈 내 뉴클레오티드 서열을 편집하는 방법으로서, 적어도, 가이드 RNA를 암호화하는 DNA 서열을 포함하는 제1 재조합 DNA 작제물, 원형 폴리뉴클레오티드 변형 주형, 및 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제를 암호화하는 DNA 서열을 포함하는 제2 재조합 DNA 작제물을, 대장균 세포에 제공하는 단계를 포함하되, Cas9 엔도뉴클레아제는 상기 대장균 세포의 게놈 내 표적 부위에서 이중 가닥 절단을 도입하고, 상기 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는, 방법.
16. 구현예 15에 있어서, 제1 재조합 DNA 작제물, 제2 재조합 DNA 작제물, 및 원형 폴리뉴클레오티드 변형 주형은 각각 별개의 플라스미드 상에 제공되는, 방법.
17. 구현예 1에 있어서, 제1 재조합 DNA 작제물, 제2 재조합 DNA 작제물, 및 원형 폴리뉴클레오티드 변형 주형은 단일 플라스미드 상에 제공되는, 방법.
실시예
개시된 발명은 다음의 실시예들에서 더 정의된다. 이 실시예들은 본 발명의 바람직한 특정 양태를 나타내지만 단지 예시로 제공된다는 것을 이해해야 된다. 상기 설명 및 이 실시예들로부터, 당업자는 본 발명의 본질적 특징들을 확인할 수 있으며, 본 발명의 사상 및 범위를 벗어나지 않고 다양한 용도 및 조건에 적합하게 본 발명을 다양하게 변경하고 수정할 수 있다.
실시예
1
대장균에서 사용하기 위한
Cas9
엔도뉴클레아제
발현 벡터의
작제물
본 실시예에서는 대장균 내 게놈 편집을 위한 유도성 Cas9 발현 벡터를 제작하였다. 유도제에 대한 Cas9 발현을 확인하였다.
스트렙토코커스 피오제네스 M1 GAS SF370(서열 번호 1)으로부터의 Cas9 유전자는 당해 분야에 알려진 표준 기술에 따라 최적화된 야로위아 코돈(서열 번호 2)이었다. Cas9 단백질을 세포의 핵에 국재화하기 위해, 유인원 바이러스 40(SV40) 1부분(MAPKKKRKV, 서열 번호 3) 핵 국재화 신호를 Cas9 오픈 리딩 프레임의 카복시 말단에 도입시켰다. 야로위아 코돈 최적화된 Cas9 유전자를 표준 분자 생물학 기술에 의해 야로위아 항시성 프로모터, FBA1(서열 번호 4)에 융합시켰다. 항시성 FBA 프로모터, 야로위아 코돈 최적화된 Cas9, 및 SV40 핵 국재화 신호를 포함하는 야로위아 코돈 최적화된 Cas9 발현 카세트의 예(서열 번호 5). Cas9 발현 카세트를 플라스미드 pZuf에 클로닝하고 새로운 작제물을 pZufCas9(서열 번호 6)로 칭하였다.
야로위아 코돈 최적화된 Cas9-SV40 융합 유전자(서열 번호 7)를 표준 분자 생물학 기술을 이용하여 pZufCas9로부터 증폭하였다. 반응을 위한 프라이머는 융합체에 5' EcoRI 부위 및 a 3' HindIII 부위를 추가한 GGGGGAATTCGACAAGAAATACTCCATCGGCCTGG(정방향, 서열 번호 8) 및 CCCCAAGCTTAGCGGCCGCTTAGACCTTTCG(역방향, 서열 번호 9)였다. 표준 기술을 이용하여 PCR 산물(서열 번호 10)을 정제하였다. 정제된 단편을 life technologies로부터 입수한 pBAD/HisB(서열 번호 11)의 EcoRI 및 HindIII 부위에 클로닝하여 pRF48(서열 번호 12)을 생성하였다.
대장균 Top10 세포(Life technologies)를 pRF48로 형질전환시켰다. 형질전환된 세포를 L 부용(1% (w/v) 트립톤, 0.5% (w/v) 효모 추출물, 1% (w/v) NaCl) + 100 μg/ml 암피실린 + 0.4% (w/v) 글루코스상에 유지시켜 Cas9 단백질의 발현을 억제하였다. L 부용 + 100 μg/ml 암피실린 + 0.4% (w/v) 글루코스에서 220 RPM으로 세포를 37℃에서 밤새 성장시켰다. 세포를 2.8 L 페른바흐 플라스크에서 1 L의 2x YT 배지(1.6% 트립톤, 1.0% (w/v) 효모 추출물, 0.5% (w/v) NaCl)에 1:100으로 희석하였다. OD600이 0.438에 도달할 때까지 37℃, 220 RPM에서 배양물을 성장시켰다. 1 ml의 배양물을 펠렛화하고 43.8 μl의 1x 램리 완충액에 재현탁시키고 -20℃에서 동결시켰다. L-아라비노오스를 0.2% (w/v)의 최종 농도까지 첨가하여 야로위아 최적화된 Cas9 유전자를 유도하는 PBAD 프로모터를 유도하였다. 배양물을 18℃, 180 RPM으로 20시간 동안 이동시켰다.
L-아라비노오스에 의한 유도 후 OD600은 3.01이었다. 0.332 ml 분취량의 배양물을 펠렛화하였다. 세포를 100 μl의 1X 램리 완충액에 재현탁시켰다. 유도 전 샘플과 유도 후 샘플 둘 다를 5분 동안 95℃까지 가열하였고, 10 μl를 12.5%의 트리스-글리신 SDS 폴리아크릴아미드 겔 상에 로딩하였다. 겔에 200 볼트를 30분 동안 가하였다. 간단한 블루 염색을 이용하여 겔을 염색하여 단백질 밴드를 분리하였다. 아라비노오스 유도성 프로모터의 제어 하에 대장균에서의 야로위아 최적화된 Cas9 단백질의 발현은 강력했다(도 4).
실시예
2
대장균의
galK
유전자를
표적화하는
단일 가이드 RNA를 암호화하는 원형 발현 플라스미드의
작제물
대장균의 내인성 galK 유전자를 변형(편집)하기 위해, 대장균 galK 유전자 내 4개의 Cas9 엔도뉴클레아제 표적 부위를 동정하였다(도 5): galK-1 (서열 번호 13, 표 1), galK-2 (서열 번호 14, 표 1), galK-3 (서열 번호 15, 표 1), 및 galK-4 (서열 번호 16, 표 1).
[표 1]
대장균 내 galK 유전자 편집을 위한 표적화 서열
(표 1에 정의된) PAM 도메인이 결여된 게놈 galK1 표적 서열에 해당하는 DNA 단편을 스트렙토코커스 피오제네스 Cas 인식 도메인(서열 번호 17)으로 융합하여 단일 가이드 RNA를 위한 완전한 DNA 주형을 제조하였다. 가이드 RNA를 암호화하는 DNA 단편을 서열 번호 18~21에 나타내었다. gal1K-1 내지 gal1-K4를 위한 sgRNA를 서열 번호 22~25에 나타내었다.
대장균 세포에서 sgRNA를 발현시키기 위해 4개의 sgRNA 발현 카세트를 제작하였다(서열 번호 28~31). sgRNA를 박테리오파지 람다의 PL 프로모터(서열 번호 26)의 제어 하에 두었다. sgRNA의 전사 종결을 유도하기 위해 CR 도메인의 3' 말단을 강력한 박테리오파지 람다 종결자(서열 번호 27)로 융합하였다. GalK-1 sgRNA 발현 카세트(서열 번호 28)는 galK-1 게놈 표적 부위(서열 번호 13)를 표적화하도록 설계되었다. GalK-2 sgRNA 발현 카세트(서열 번호 29)는 galK-1 게놈 표적 부위(서열 번호 14)를 표적화하도록 설계되었다. GalK-3 sgRNA 발현 카세트(서열 번호 30)는 galK-3 게놈 표적 부위(서열 번호 15)를 표적화하도록 설계되었다. GalK-4 sgRNA 발현 카세트(서열 번호 31)는 galK-4 게놈 표적 부위(서열 번호 16)를 표적화하도록 설계되었다.
각각의 sgRNA 발현 카세트는 5' HinDIII 제한 부위(AAGCTT) 및 3' BamHI 제한 부위(GGATCC)를 포함하였다. 각각의 sgRNA 발현 카세트를 pACYC184(서열 번호 32)의 HinDIII/BamHI 부위에 클로닝하여 원형 플라스미드(도 1 및 도 2, 가이드 RNA 플라스미드 참조), pRF50(galK-1 표적화, 서열 번호 33), pRF51(galK-2 표적화, 서열 번호 34), pRF53(galK-3 표적화, 서열 번호 35), 및 pRF55(galK-4 표적화, 서열 번호 36)를 생성하였다.
실시예
3
대장균 내 유전자 편집을 위한 폴리뉴클레오티드 변형 주형을 포함하는 원형 플라스미드의 제작
(예를 들어 galK 유전자의 유전자 결실)을 이용하여 대장균에서 유전자 편집(변형)을 가능하게 하기 위해, 다음과 같이 (galK 결실 주형으로 지칭되는) galK 유전자의 일부가 결여된 폴리뉴클레오티드 변형 주형을 제조하였다:
클로닝을 위한 5' HinDIII 제한 부위를 추가한 정방향 프라이머(GGGaagcttggattatgttcagcgcgagc, 서열 번호 38) 및 galK 유전자의 정지 코돈의 3’ 방향에 있는 20 bp의 서열을 추가한 역방향 프라이머(tgccagtgcgggagtttcgtTTCTTACACTCCGGATTCGC, 서열 번호 39)를 이용하여 표준 PCR 기술로 대장균 galK 유전자의 번역 개시 부위의 5' 방향에 있는 454 bp 단편(서열 번호 37)을 증폭하여 상류 중첩 연장 산물(서열 번호 40)을 생성하였다. galK 유전자의 개시 코돈의 5' 방향에 있는 20 bp의 서열을 추가한 정방향 프라이머(GCGAATCCGGAGTGTAAGAAacgaaactcccgcactggca, 서열 번호 42) 및 3' HinDIII 제한 부위를 추가한 역방향 프라이머(GGGaagcttGCAAACAGCACCTGACGATCG, 서열 번호 43)를 이용하여 표준 PCR 기술로 대장균 galK 유전자의 번역 정지 부위의 3’ 방향에 있는 376 bp(서열 번호 41)를 증폭하여 하류 중첩 연장 산물(서열 번호 44)을 생성하였다. Zymo 정제 및 농축 컬럼을 사용하여 PCR 산물을 정제하였다. 5’ 단편에 대한 정방향 프라이머(GGGaagcttggattatgttcagcgcgagc, 서열 번호 38) 및 3’ 단편의 역방향 프라이머(GGGaagcttGCAAACAGCACCTGACGATCG, 서열 번호 43)를 이용하여 중첩 20 nt를 연장하기 위해 각각의 PCR 산물 10 ng을 사용하였다. galK 결실 주형(서열 번호 45)의 전체 길이를 조건부 복제 플라스미드 pkD3(서열 번호 46)의 HinDIII 부위에 클로닝하여 원형 galK 결실 주형 플라스미드 pRF113(서열 번호 47)을 생성하였다.
(도 1 및 도 2에서 주형 플라스미드로 지칭되는) galK 결실 주형 플라스미드 pRF113은 Pi 단백질을 위한 발현 카세트가 없으므로(Inuzuka M. 1985. 플라스미드 암호화 개시 단백질은 시험관 내 플라스미드 R6K DNA 복제의 3개의 기점 모두에서 활성을 필요로 한다. FEBS letters 181:236-240) 자율적으로 복제할 수 없게 한다. 따라서, 이러한 원형 주형이 대장균 세포에 일단 제공되면, 그것은 RGEN 매개 유전자 편집을 위한 주형으로서 기능할 수 있지만 복제되지 않을 것이므로 상기 대장균 세포로부터 배양되는 어떤 자손 세포에도 존재하지 않을 것이다.
실시예
4
폴리뉴클레오티드 변형 주형을 포함하는 원형 플라스미드와 함께 가이드 RNA/Cas
엔도뉴클레아제
시스템을 이용한 대장균 내
galK
유전자의 효율적인 게놈 편집
대장균의 galE 유전자 결실을 포함하는 균주 EF44는 독성 산물 인-갈락토스의 축적으로 인해 성장 배지 내 갈락토스의 존재에 민감하다(Incorporate E. coli and S. typhimurium: Cellular and Molecular Biology 저자: Frederick C. Neidhardt, John L. Ingraham, Roy Curtiss III. ASM Press Washington D.C. 1987). 이러한 균주에서, 갈락토스 키나아제(galK)를 암호화하는 유전자의 기능 상실을 초래하는 돌연변이는 갈락토스 민감성을 복구시켜 갈락토스의 존재 하에 균주가 성장할 수 있도록 한다.
(도 1에 도시된 바와 같이) Cas9 발현 카세트를 포함하는 Cas9 플라스미드를 함유한 대장균 균주를 생성하기 위해, 플라스미드 pRF48을 다음과 같이 대장균 균주 EF44에 도입하였다. 균주 EF44 균주를 pRF48(서열 번호 12)로 형질전환시키고, Cas9 플라스미드를 함유한 대장균 균주 EF56(ΔgalE pRF48)를 생성하기 위해 pBAD 프로모터로부터 Cas9 유전자의 발현을 억제하도록 100 μg/ml의 암피실린 및 0.4% (W/V)의 글루코스를 함유한 L 부용 한천 플레이트 상에서 콜로니를 선택하였다.
EF56의 단일 콜로니를 100 μg/ml의 암피실린 및 0.4% (W/V)의 글루코스를 함유함 L 부용에 접종시키고, 37℃, 230 RPM에서 18시간 동안 성장시켰다. 이어서, 100 μg/ml의 암피실린을 함유한 새로운 L 부용에 균주를 희석시키고 37℃, 230 RPM에서 2시간 동안 성장시켰다. L-아라비노오스를 0.2% (W/V)의 최종 농도까지 첨가하여 PBAD 프로모터로부터 Cas9의 발현을 유도하고, 세포를 추가로 1시간 동안 성장시켰다. 표준 프로토콜을 통해 세포를 전기천공에 적합하도록 하였다. 유도된 전기천공에 적합한 EF56 세포 100 μl를 200 ng의 pACYC184(서열 번호 32), pRF50(서열 번호 33), pRF51(서열 번호 34), pRF53(서열 번호 35), 또는 pRF55(서열 번호 36) 및 1 μg의 pRF113(서열 번호 47), 1 μg의 선형 폴리뉴클레오티드 변형 주형(서열 번호 44), 또는 폴리뉴클레오티드 변형 주형이 없는 플라스미드 DNA로 형질전환시켰다. 세포를 1 mM 캡 큐벳에서 1750 볼트로 전기천공하였다. 1 ml의 SOC 배지를 첨가하고 37℃, 230 RPM에서 3시간 동안 세포를 회복시켰다. pRF48(서열 번호 12)와 해당 pACYC184(서열 번호 32) 둘 다, pRF50(서열 번호 33), pRF51(서열 번호 34), pRF53(서열 번호 35), 또는 pRF55(서열 번호 36)를 포함하는 세포를 선택하기 위해 100 μg/ml의 암피실린 및 25 μg/ml의 클로람페니콜을 함유한 1.5% (w/v) 한천으로 응고된 L 부용 플레이트 상에 세포를 플레이팅하였다. 플레이트를 37℃에서 20시간 동안 배양하였다.
갈락토스 저항성 분리물을 스크리닝하기 위해 평판 복제를 이용하여 콜로니를 L 부용 100 μg/ml 암피실린/25 μg/ml 클로람페니콜 플레이트로부터 0.2% (w/v) 글리세롤 및 0.2% (w/v) 갈락토스를 함유한 1.5% (w/v) 한천으로 응고된 최소 A 배지로 옮겼다. 각각의 형질전환에 대해, 갈락토스 저항성 콜로니의 수를 원래의 플레이트 상의 콜로니의 총 수로 나누어 갈락토스 저항성의 빈도를 계산하였다(표 2).
[표 2]
갈락토스 저항성 콜로니의 빈도
빈도는 표적 부위에 따라 달랐다. 상동 재조합의 빈도를 결정하기 위해, 정방향 프라이머(ggcgaagagaatcaacactgg, 서열 번호 49) 및 역방향 프라이머(GCAAACAGCACCTGACGATCG, 서열 번호 50)를 이용하여 표준 PCR 기술로 galK 유전자좌(서열 번호 48)를 증폭하였다. WT 균주에서, 전체 galK 유전자좌가 증폭되어(서열 번호 48) 1717 bp 길이의 PCR 산물이 된다. galK 유전자좌와 HR 폴리뉴클레오티드 변형 주형 pRF113 간에 재조합이 발생한 세포에서, PCR 산물의 길이는 569 bp이다(서열 번호 50). 도 6은 75%의 HR 빈도를 가진 pRF50/pRF113 편집 실험에서 콜로니의 증폭에 의한 겔을 나타낸다. galK의 결실 대립 유전자가 증폭되어 정확한 편집을 나타내는 콜로니의 수를 콜로니 PCR에 의해 분석된 콜로니의 총 수로 나누어 HR 빈도를 결정하였다. 폴리뉴클레오티드 변형 주형의 부재 하에서 GalR인 콜로니는 galK 유전자좌의 증폭을 허용하지 못한다.
본 실시예는 폴리뉴클레오티드 변형 주형을 포함하는 원형 플라스미드와 함께 가이드 RNA/Cas 엔도뉴클레아제 시스템을 이용하여 대장균 내 galK 유전자의 효율적인 게놈 편집이 성공적으로 달성되었음을 보여준다.