KR102424626B1

KR102424626B1 - 원형 폴리뉴클레오티드 변형 주형과 함께 가이드 RNA/Cas 엔도뉴클레아제 시스템을 이용하여 대장균에서 효율적으로 유전자 편집을 하기 위한 조성물 및 방법

Info

Publication number: KR102424626B1
Application number: KR1020177019285A
Authority: KR
Inventors: 라이언 엘. 프리슈; 에델 놀란드 잭슨
Original assignee: 이 아이 듀폰 디 네모아 앤드 캄파니
Priority date: 2014-12-17
Filing date: 2015-12-02
Publication date: 2022-07-25
Also published as: CA2971391C; AU2015363113B2; JP2017538422A; US20170369866A1; AU2015363113A1; BR112017012765A2; MX2017007907A; CN107250363A; ES2865268T3; EP3234117A1; EP3234117B1; KR20170087959A; CN107250363B; DK3234117T3; JP6839082B2; WO2016099887A1; CA2971391A1

Abstract

대장균 세포의 게놈 내 표적 서열의 게놈 변형을 위한 조성물 및 방법이 제공된다. 상기 방법 및 조성물은 원형 폴리뉴클레오티드 변형 주형과 함께 가이드 RNA/Cas 엔도뉴클레아제 시스템을 채용하여 대장균 세포의 게놈 내 표적 부위를 편집하기 위한 효과적인 시스템을 제공한다.

Description

원형 폴리뉴클레오티드 변형 주형과 함께 가이드 RNA/Cas 엔도뉴클레아제 시스템을 이용하여 대장균에서 효율적으로 유전자 편집을 하기 위한 조성물 및 방법{COMPOSITIONS AND METHODS FOR EFFICIENT GENE EDITING IN E. COLI USING GUIDE RNA/CAS ENDONUCLEASE SYSTEMS IN COMBINATION WITH CIRCULAR POLYNUCLEOTIDE MODIFICATION TEMPLATES}

본 출원은 전체가 참조로써 본원에 포함되는, 2014년 12월 17일 출원된 미국 가출원 62/092914호의 이익을 주장한다.

기술분야

본 발명은 박테리아 분자 생물학 분야에 관한 것으로서, 특히 대장균의 게놈 내 뉴클레오티드 서열을 편집하기 위한 조성물 및 방법에 관한 것이다.

전자적으로 제출된 서열 목록에 대한 참조

본 서열 목록의 공식 사본은 2015년 11월 17일 작성되고 크기가 106 킬로바이트이며 본 명세서와 동시에 제출된, 파일명 20151117_CL6256PCT_ST25.txt의 ASCII 형식의 서열 목록으로서 EFS-웹을 통해 전자적으로 제출되었다. 이러한 ASCII 형식의 서류에 포함된 서열 목록은 본 명세서의 일부이며, 그 전체가 참조로써 본원에 포함된다.

유기체 내에서 유전자의 기능을 이해하는 한 가지 방법은 이의 발현을 억제하는 것이다. 유전자 발현의 억제는, 예를 들어, 유전자의 DNA 서열을 중단시키거나 결실시켜 유전자의 "녹아웃(knock-out)"을 유발함으로써 달성될 수 있다 (Austin et al., Nat. Genetics 36:921-924). 유전자 녹아웃은 대부분 박테리아에서 포유동물까지의 다양한 유기체 전반에 걸쳐 적용할 수 있는 기술인 상동 재조합(HR)을 통해 수행되어 왔다. 유전자 기능을 연구하기 위한 또 다른 방법은 유전자 "녹인(knock-in)"을 통한 것일 수 있으며, 이것도 대개 HR에 의해서 수행된다. 표적화된 DNA 부위가 이중 가닥 절단을 포함하는 경우, 유전자 표적화를 위한 HR이 증진되는 것으로 밝혀진 바 있다(Rudin et al., Genetics 122:519-534; Smih et al., Nucl . Acids Res. 23:5012-5019). 따라서, HR-매개성 DNA 표적화를 촉진하기 위해 이중 가닥 절단을 도입하기 위한 전략이 개발되어 왔다. 예를 들어, 징크 핑거 뉴클레아제는 폴리뉴클레오티드 변형 주형 DNA가 존재하는 경우 특정 부위에서 HR의 수준을 향상시키는 특정 DNA 부위를 절단하도록 유전자 조작되어 왔다 (Bibikova et al., Science 300:764; Bibikova et al., Mol . Cell. Biol . 21:289-297). 유사하게, 인공 메가뉴클레아제(호밍(homing) 엔도뉴클레아제) 및 전사 활성인자-유사 이펙터 (TALE) 뉴클레아제도 HR-매개성 DNA 표적화에 사용하기 위해 개발되어 왔다(Epinat et al., Nucleic Acids Res. 31: 2952-2962; Miller et al., Nat. Biotech. 29:143-148).

크리스퍼(CRISPR; 규칙적으로 사이 간격을 두고 분포하는 짧은 회문구조 반복 서열) DNA 절단 시스템을 암호화하는 유전자좌는 약 40%의 박테리아 게놈과 대부분의 고세균 게놈에서만 발견되어 왔다(Horvath and Barrangou, Science 327:167-170; Karginov and Hannon, Mol . Cell 37:7-19). 특히, II형 CRIPSR 시스템의 크리스퍼-결합(Cas) RNA-유도 엔도뉴클레아제(RGEN)인 Cas9는 HR을 자극하는 부위 특이적 DNA 가닥 절단을 도입하기 위한 수단으로서 개발되어 왔다(2013년 8월 22일 출원된, 미국 가출원 61/868,706호). Cas9의 RNA 성분의 서열은 Cas9가 (i) RNA 성분의 일부에 상보적인 서열 및 (ii) 프로토스페이서 인접 모티프(PAM) 서열을 포함하는 DNA를 인식하고 절단하도록 설계될 수 있다.

천연 RNA/Cas9 복합체는 2개의 RNA 서열, 크리스퍼 RNA(crRNA)와 트랜스-활성화 크리스퍼 RNA(tracrRNA)를 포함한다. crRNA는 5'에서 3' 방향으로, 표적 DNA 부위, 및 crRNA가 유래된 크리스퍼 유전자좌의 반복 영역에 의해 암호화되는 서열의 일부에 상보적인 특유의 서열을 포함한다. tracrRNA는 5'에서 3' 방향으로, crRNA의 반복 영역과 어닐링하는 서열 및 스템 루프(stem loop)를 포함하는 부분을 포함한다. 최근의 연구를 통해 tracrRNA에 연결된 crRNA를 5’에서 3’ 방향으로 포함하는 키메라 서열인 가이드 RNA(gRNA)가 개발되었다(2014년 8월 20일 출원된 미국 특허 출원 14/463,687호).

재조합 DNA 기술은 유기체의 게놈 내 DNA 서열을 변형함으로써 유기체의 표현형을 변경할 수 있도록 하였다. 대장균과 같은 유기체의 게놈 내 변형을 위한 특정 부위를 표적화하기 위해 여러 접근법이 개발되었지만, 대장균 세포의 게놈 내 뉴클레오티드 서열을 편집하기 위한 보다 효율적이고 효과적인 방법이 여전히 필요하다.

본 발명은 대장균 세포의 게놈 내 표적 서열의 게놈 변형을 위한 조성물 및 방법을 포함한다. 상기 방법 및 조성물은 원형 폴리뉴클레오티드 변형 주형과 함께 가이드 RNA/Cas 엔도뉴클레아제 시스템(RGEN으로 지칭되기도 함)을 채용하여 대장균 세포의 게놈 내 표적 부위를 편집하기 위한 효과적인 시스템을 제공한다. 상기 방법 및 조성물은 또한, 원형 공여 DNA와 함께 가이드 RNA/Cas 엔도뉴클레아제 시스템을 채용하여 대장균 세포의 유전자 녹인을 위한 효과적인 시스템을 제공한다.

본 발명의 일 구현예에서, 상기 방법은, 대장균 세포의 게놈 내 뉴클레오티드 서열을 편집하는 방법으로서, 가이드 RNA를 암호화하는 DNA 서열을 포함하는 적어도 하나의 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형을, 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제 DNA 서열을 포함하는 대장균 세포에 제공하는 단계를 포함하되, 상기 Cas9 엔도뉴클레아제 DNA 서열은 상기 대장균 세포의 게놈 내 표적 부위에서 이중 가닥 절단을 도입할 수 있는 Cas9 엔도뉴클레아제를 암호화하고, 상기 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는 방법을 포함한다. 대장균 세포의 게놈 내 뉴클레오티드 서열은 프로모터 서열, 종결자 서열, 조절 요소 서열, 암호화 서열, 프로파지, 위유전자, 외인성 유전자, 내인성 유전자로 이루어진 군으로부터 선택될 수 있다. 가이드 RNA를 암호화하는 DNA 서열을 포함하는 재조합 DNA 작제물은 원형 플라스미드를 통해 제공될 수 있다. 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형은 각각 별개의 플라스미드 상에 제공될 수 있다. 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형은 단일 플라스미드 상에 제공될 수 있다. 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형은 전기천공, 열 충격, 파지 전달, 결합, 접합 및 형질도입으로 이루어진 군으로부터 선택되는 하나의 수단을 통해 제공될 수 있다. 대장균 세포의 게놈 내 표적 부위는 제1 게놈 영역 및 제2 게놈 영역에 의해 플랭킹될 수 있고, 원형 폴리뉴클레오티드 주형은 상기 제1 게놈 영역과 상동인 제1 영역 및 상기 제2 게놈 영역과 상동인 제2 영역을 더 포함한다.

일 구현예에서, 대장균 세포는 외인성 재조합효소 단백질, RecET 단백질, 람다-레드 단백질, 또는 RecBCD 억제제를 발현하지 않는다.

본 발명의 일 구현예에서, 상기 방법은, galK 돌연변이 대장균 세포를 제조하는 방법으로서, a) 가이드 RNA를 암호화하는 DNA 서열을 포함하는 적어도 하나의 원형 재조합 DNA 작제물 및 적어도 하나의 원형 폴리뉴클레오티드 변형 주형을, 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제 DNA 서열을 포함하는 대장균 세포에 제공하는 단계(상기 Cas9 엔도뉴클레아제 DNA 서열은 대장균 게놈의 galK 게놈 서열 내 표적 부위에서 이중 가닥 절단을 도입할 수 있는 Cas 엔도뉴클레아제를 암호화하고, 상기 원형 폴리뉴클레오티드 변형 주형은 상기 galK 게놈 서열의 적어도 하나의 뉴클레오티드 변형을 포함함); b) (a)의 대장균 세포로부터 자손 세포를 성장시키는 단계; 및 c) 상기 적어도 하나의 뉴클레오티드 변형의 존재에 대해 (b)의 자손 세포를 평가하는 단계를 포함하는 방법을 포함한다.

본 발명의 일 구현예에서, 상기 방법은, 대장균 세포의 게놈 내 뉴클레오티드 서열을 편집하는 방법으로서, 적어도, 가이드 RNA를 암호화하는 DNA 서열을 포함하는 제1 재조합 DNA 작제물, 원형 폴리뉴클레오티드 변형 주형, 및 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제를 암호화하는 DNA 서열을 포함하는 제2 재조합 DNA 작제물을, 대장균 세포에 제공하는 단계를 포함하되, Cas9 엔도뉴클레아제는 상기 대장균 세포의 게놈 내 표적 부위에서 이중 가닥 절단을 도입하고, 상기 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는 방법을 포함한다. 제1 재조합 DNA 작제물, 제2 재조합 DNA 작제물, 및 원형 폴리뉴클레오티드 변형 주형은 각각 별개의 플라스미드 상에 제공될 수 있다. 제1 재조합 DNA 작제물, 제2 재조합 DNA 작제물, 및 원형 폴리뉴클레오티드 변형 주형은 단일 플라스미드 상에 제공될 수 있다.

도 1. Cas9 플라스미드를 포함하는 대장균 세포에서 천연 표적의 유전자 편집을 위한 폴리뉴클레오티드 변형 주형을 포함하는 원형 플라스미드(주형 플라스미드)의 이용. 개략도는 (대장균 표적 게놈 내에 위치하는) 편집될 천연 표적을 포함하는 대장균 세포 및 유도성 프로모터(예를 들어, Pbad)에 의해 유도된 Cas9 발현 카세트를 포함하는 Cas9 플라스미드를 도시한다. 2개의 상동 영역(상동 재조합을 가능케 하는 HR1 및 HR2)에 의해 플랭킹된 천연 표적 서열(검은색 막대로 표시)에 원하는 편집(흰색 별표로 표시)을 포함하는 폴리뉴클레오티드 변형 주형이, 가이드 RNA(gRNA)를 발현할 수 있는 가이드 RNA 발현 카세트를 포함하는 가이드 RNA 플라스미드와 함께 주형 플라스미드를 통해, (Cas9 엔도뉴클레아제 발현이 유도된) 대장균 세포에 제공된다. 유도된 대장균 세포는 Cas9 엔도뉴클레아제를 발현할 수 있고, 상동 재조합 매개 유전자 편집을 가능케 하는 천연 표적 서열의 절단을 매개할 수 있는 가이드 RNA/Cas9 엔도뉴클레아제 복합체(RGEN으로 지칭되기도 함)를 형성한다.
도 2. Cas9 플라스미드가 결여된 대장균 세포에서 천연 표적의 유전자 편집을 위한 폴리뉴클레오티드 변형 주형을 포함하는 원형 플라스미드(주형 플라스미드)의 이용. 개략도는 (대장균 표적 게놈에 위치한) 편집될 천연 표적 서열을 포함하는 대장균 세포를 도시한다. 2개의 상동 영역(상동 재조합을 가능케 하는 HR1 및 HR2)에 의해 플랭킹된 천연 표적 서열(검은색 막대로 표시)에 원하는 편집(흰색 별표로 표시)을 포함하는 폴리뉴클레오티드 변형 주형이, 가이드 RNA 플라스미드(가이드 RNA 발현 카세트를 포함) 및 Cas9 플라스미드(Pbad에 의해 유도된 유도성 Cas9 발현 카세트를 포함)와 함께 주형 플라스미드를 통해 대장균 세포에 제공된다. 대장균 세포가 일단 유도되면, 유도된 세포는 Cas9 엔도뉴클레아제를 발현할 수 있고, 상동 재조합 매개 유전자 편집을 가능케 하는 천연 표적 서열의 절단을 매개할 수 있는 가이드 RNA/Cas9 엔도뉴클레아제 복합체(RGEN으로 지칭되기도 함)를 형성한다.
도 3은 가변 표적화 도메인(VT)(회색)에 연결된 Cas 엔도뉴클레아제 인식 도메인(CER)(검은색)을 포함하는 단일 가이드 폴리뉴클레오티드를 나타낸다.
도 4는 아라비노오스로 유도되기 전후의 대장균 세포에서 pRF48로부터의 Cas9 발현의 SDS-PAGE 겔을 나타낸다. 마커 중량은 킬로달톤(kDa)으로 표시된다. 겔에서 Cas9에 해당하는 밴드가 표시된다(Cas9).
도 5는 대장균의 galK 유전자(검은색)를 도시한다. galK 내 4개의 천연 표적 부위는 표적 부위명이 적힌 화살표로 표시되어 있고, 화살표의 방향은 표적 DNA의 정방향 또는 역방향 가닥을 나타낸다.
도 6은 가이드 RNA/Cas9 엔도뉴클레아제 복합체(RGEN)로 유전자 편집한 후 갈락토스 저항성 대장균의 galK 유전자좌의 콜로니 PCR로부터 DNA의 아가로오스 겔을 나타낸다. 각각의 레인은 개별 갈락토스 저항성 콜로니에 해당한다. 마커 중량은 킬로베이스(kb)로 주어진다. 원하는 편집(결실)의 크기는 밴드 다음에 표시된다. 편집되지 않은 대립 유전자의 크기도 표시되어 있다(WT). WT 및 편집된 대립 유전자를 각각 나타내도록 두 가지 대조 반응(WT 및 pRF113)이 겔 상에서 수행된다.
[표 1]
핵산 및 단백질 서열 번호의 요약

모든 인용된 특허 및 비 특허 문헌의 개시 내용은 그 전체가 참조로써 본원에 포함된다.

본원에 사용된 용어 "발명" 또는 "개시된 발명"은 제한적인 것으로 의도된 것이 아니며, 청구범위에서 정의되거나 본원에 기재된 발명들 중 임의의 것에 일반적으로 적용된다. 이들 용어는 본원에서 상호교환적으로 사용된다.

Cas9 플라스미드를 포함하는 대장균 세포에서 천연 표적의 유전자 편집을 위한 폴리뉴클레오티드 변형 주형을 포함하는 원형 플라스미드(주형 플라스미드)의 이용이 도 1에 도시되어 있고 본원에 기재되어 있다. 개략도는 (대장균 표적 게놈 내에 위치하는) 편집될 천연 표적을 포함하는 대장균 세포 및 유도성 프로모터(예를 들어, Pbad)에 의해 유도된 Cas9 발현 카세트를 포함하는 Cas9 플라스미드를 도시한다. 2개의 상동 영역(상동 재조합을 가능케 하는 HR1 및 HR2)에 의해 플랭킹된 천연 표적 서열(검은색 막대로 표시)에 원하는 편집(흰색 별표로 표시)을 포함하는 폴리뉴클레오티드 변형 주형이, 가이드 RNA(gRNA)를 발현할 수 있는 가이드 RNA 발현 카세트를 포함하는 가이드 RNA 플라스미드와 함께 주형 플라스미드를 통해, (Cas9 엔도뉴클레아제 발현이 유도된) 대장균 세포에 제공된다. 유도된 대장균 세포는 Cas9 엔도뉴클레아제를 발현할 수 있고, 상동 재조합 매개 유전자 편집을 가능케 하는 천연 표적 서열의 절단을 매개할 수 있는 가이드 RNA/Cas9 엔도뉴클레아제 복합체(RGEN으로 지칭되기도 함)를 형성한다.

Cas9 플라스미드가 결여된 대장균 세포에서 천연 표적의 유전자 편집을 위한 폴리뉴클레오티드 변형 주형을 포함하는 원형 플라스미드(주형 플라스미드)의 이용이 도 2에 도시되어 있고 본원에 기재되어 있다. 개략도는 (대장균 표적 게놈에 위치한) 편집될 천연 표적 서열을 포함하는 대장균 세포를 도시한다. 2개의 상동 영역(상동 재조합을 가능케 하는 HR1 및 HR2)에 의해 플랭킹된 천연 표적 서열(검은색 막대로 표시)에 원하는 편집(흰색 별표로 표시)을 포함하는 폴리뉴클레오티드 변형 주형이, 가이드 RNA 플라스미드(가이드 RNA 발현 카세트를 포함) 및 Cas9 플라스미드(Pbad에 의해 유도된 유도성 Cas9 발현 카세트를 포함)와 함께 주형 플라스미드를 통해 대장균 세포에 제공된다. 대장균 세포가 일단 유도되면, 유도된 세포는 Cas9 엔도뉴클레아제를 발현할 수 있고, 상동 재조합 매개 유전자 편집을 가능케 하는 천연 표적 서열의 절단을 매개할 수 있는 가이드 RNA/Cas9 엔도뉴클레아제 복합체(RGEN으로 지칭되기도 함)를 형성한다.

관심 있는 폴리뉴클레오티드를 포함하는 공여 DNA를 포함하는 원형 플라스미드 또한 본원에 기재된 유전자 녹인 대장균에 사용될 수 있다.

용어 "크리스퍼"(규칙적으로 사이 간격을 두고 분포하는 짧은 회문구조 반복 서열)는, 예를 들어, 박테리아 및 고세균 세포에 의해 외래 DNA를 파괴하는데 사용되는 유형 I, II 또는 III의 DNA 절단 시스템의 인자를 암호화하는 특정 유전자좌를 지칭한다(Horvath 및 Barrangou, Science 327:167-170). 크리스퍼 시스템의 성분들은 본원에서 세포 내에서 DNA를 표적화하기 위해 이종의 방식으로 이용된다.

용어 "II형 크리스퍼 시스템" 및 "II형 크리스퍼-Cas 시스템"은 본원에서 상호교환적으로 사용되며, 적어도 하나의 RNA 성분과 복합체를 이룬 Cas9 엔도뉴클레아제를 이용하는 DNA 절단 시스템을 지칭한다. 예를 들어, Cas9는 크리스퍼 RNA (crRNA) 및 트랜스-활성화 크리스퍼 RNA(tracrRNA)와 복합체일 수 있다. 또 다른 예에서, Cas9는 가이드 RNA와 복합체일 수 있다. 따라서, crRNA, tracrRNA 및 가이드 RNA는 본원에서 RNA 성분들의 비제한적인 예이다.

본원에서 용어 크리스퍼-결합("Cas") 엔도뉴클레아제는 Cas 유전자에 의해 암호화되는 Cas 단백질을 지칭한다. 적합한 RNA 성분과 복합체인 경우, Cas 엔도뉴클레아제는 특정 DNA 표적 서열의 전부 또는 일부를 절단할 수 있다. 예를 들어, 특정 DNA 표적 서열에 이중 가닥 절단을 도입할 수 있거나; 대안적으로 특정 DNA 표적 서열의 한 가닥 또는 두 가닥을 절단할 수 있는 것을 특징으로 할 수 있다. Cas 엔도뉴클레아제는 표적 서열에서 DNA 이중 가닥을 풀 수 있고, Cas와 복합체인 crRNA 또는 가이드 RNA에 의한 표적 서열의 인식에 의해 매개되는 바와 같이, 적어도 하나의 DNA 가닥을 절단한다. 일반적으로 Cas 엔도뉴클레아제에 의한 이러한 표적 서열의 인식 및 절단은 정확한 프로토스페이서-인접 모티프(PAM)가 DNA 표적 서열의 3' 말단에 위치하거나 인접한 경우 발생한다. 대안적으로, 본원에서 Cas 단백질은 DNA 절단 또는 닉킹(nicking) 활성이 부족할 수 있지만, 적합한 RNA 성분과 복합체를 형성한 경우 여전히 DNA 표적 서열에 특이적으로 결합할 수 있다. 본원에서 바람직한 Cas 단백질은 Cas9이다.

본원에서 "Cas9" (이전에 Cas5, Csn1 또는 Csx12로 지칭됨)는 DNA 표적 서열의 전부 또는 일부를 특이적으로 인식하고 절단하기 위해, crRNA 및 tracrRNA와, 또는 가이드 RNA와 복합체를 형성하는 II형 크리스퍼 시스템의 Cas 엔도뉴클레아제를 지칭한다. Cas9 단백질은 RuvC 뉴클레아제 도메인 및 HNH(H-N-H) 뉴클레아제 도메인을 포함하며, 이들 각각은 표적 서열에서 단일 DNA 가닥을 절단한다 (두 도메인의 협동 작용은 DNA 이중 가닥 절단을 유도하는 반면, 하나의 도메인의 활성은 닉(nick)을 유도한다). 일반적으로, RuvC 도메인은 서브도메인 I, II 및 III을 포함하며, 여기서 도메인 I은 Cas9의 N 말단 근처에 위치하고, 서브도메인 II 및 III은 HNH 도메인에 플랭킹한 단백질의 중간에 위치한다(Hsu et al, Cell 157:1262-1278). "Apo-Cas9"는 RNA 성분과 복합체가 형성되지 않은 Cas9를 지칭한다. Apo-Cas9는 DNA와 결합할 수 있지만, 비 특이적 방식으로 결합하여, DNA를 절단할 수 없다(Sternberg et al., Nature 507:62-67).

본원에서 용어 "크리스퍼 RNA"(crRNA)는 하나 이상의 Cas 단백질(예를 들어, Cas9)과 복합체를 형성할 수 있어, 복합체에 DNA 결합 특이성을 제공하는 RNA 서열을 지칭한다. crRNA는 DNA 표적 서열의 가닥에 상보적인 "가변 표적화 도메인"(VT)을 포함하기 때문에 DNA 결합 특이성을 제공하다. crRNA는 crRNA가 유래된 크리스퍼 유전자좌의 반복 영역에 의해 암호화되는 "반복 서열" ("tracr RNA 메이트 서열")을 추가로 포함한다. crRNA의 반복 서열은 tracrRNA의 5'-말단에서 서열에 어닐링할 수 있다. 천연 크리스퍼 시스템의 crRNA는 크리스퍼 유전자좌로부터 전사된 "예비-crRNA"로부터 유래된다. 예비-crRNA는 스페이서 영역과 반복 영역을 포함하고, 스페이서 영역은 DNA 표적 부위 서열에 상보적인 특유의 서열을 포함한다. 천연 시스템의 예비-crRNA는 다수의 상이한 crRNA로 가공되며, 각각은 반복 서열의 일부와 함께 가이드 서열을 갖는다. 크리스퍼 시스템은, 예를 들어, DNA 표적화 특이성을 위해 crRNA를 이용한다.

본원에서 용어 "트랜스-활성화 크리스퍼 RNA"(tracrRNA)는 II형 크리스퍼 시스템에서 사용되는 비 암호화 RNA를 지칭하며, 5'에서 3' 방향으로 (i) 크리스퍼 II형 crRNA의 반복 영역과 어닐링하는 서열 및 (ii) 스템 루프를 포함하는 부분을 포함한다(Deltcheva et al., Nature 471:602-607).

RNA 성분 대신 "크리스퍼 DNA"(crDNA)가 선택적으로 이용될 수 있다. crDNA는 본원에 개시된 바와 같이 crRNA의 서열에 상응하는 DNA 서열을 갖는다. crDNA는 crDNA/tracrRNA 복합체에서 tracrRNA와 함께 이용될 수 있으며, crDNA/tracrRNA 복합체는 결국 RGEN 단백질 성분과 결합될 수 있다. 미국 출원 61/953,090호는 crDNA 및 RGEN 매개성 DNA 표적화에 있어서 이의 이용 방법을 개시하고 있다. 따라서, crRNA에 관한 본원에서의 임의의 개시 내용은 crDNA를 이용하는 것에 유사하게 적용할 수 있다고 예상된다. 따라서, crDNA를 포함시키는 본원의 구현예에서, "RNA-유도 엔도뉴클레아제"(RGEN)는 그 대신에 적어도 하나의 Cas 단백질 및 적어도 하나의 crDNA를 포함하는 복합체로 지칭될 수 있다.

본원에 사용된 용어 "가이드 폴리뉴클레오티드"는 Cas 엔도뉴클레아제와 복합체를 형성할 수 있고, 이러한 Cas 엔도뉴클레아제가 DNA 표적 부위를 인식하고 선택적으로 절단할 수 있게 하는 폴리뉴클레오티드 서열에 관한 것이다. 가이드 폴리뉴클레오티드는 단일 분자 또는 이중 분자일 수 있다. 가이드 폴리뉴클레오티드 서열은 RNA 서열, DNA 서열, 또는 이의 조합(RNA-DNA 조합 서열)일 수 있다. 선택적으로, 이러한 가이드 폴리뉴클레오티드는 적어도 하나의 뉴클레오티드, 포스포디에스테르 결합 또는 연결 변형, 예컨대 고정 핵산(LNA), 5-메틸 dC, 2,6-디아미노퓨린, 2'-플루오로 A, 2'-플루오로 U, 2'-O-메틸 RNA, 포스포로티오에이트 결합, 콜레스테롤 분자에 대한 연결, 폴리에틸렌 글리콜 분자에 대한 연결, 스페이서 18(헥사에틸렌 글리콜 사슬) 분자에 대한 연결, 또는 고리화를 초래하는 5'에서 3'으로의 공유 연결을 포함할 수 있으나, 이에 한정되지 않는다.

단독으로 리보핵산을 포함하는 가이드 폴리뉴클레오티드는 "가이드 RNA"라고도 지칭된다. 가이드 RNA는 가이드 RNA/Cas 엔도뉴클레아제 복합체로 불리는(RGEN으로 지칭되기도 함) Cas 엔도뉴클레아제와의 복합체를 형성할 수 있다. 용어 "가이드 RNA"(gRNA) 및 "단일 가이드 RNA"(sgRNA)는 본원에서 상호교환적으로 사용된다. 본원에서 gRNA는 tracrRNA에 작동 가능하게 연결된 crRNA를 함유한 키메라 서열을 지칭할 수 있다. 대안적으로, gRNA는, 예를 들어 crRNA와 tracrRNA의 합성 융합체를 지칭할 수 있다. gRNA는 또한 가변 표적화 도메인 다음에 Cas 엔도뉴클레아제 인식(CER) 도메인을 갖는 것을 특징으로 할 수 있다. CER 도메인은 tracrRNA 메이트 서열 다음에 tracrRNA 서열을 포함할 수 있다.

가이드 폴리뉴클레오티드는 표적 DNA의 뉴클레오티드 서열에 상보적인 (가변 표적화 도메인 또는 VT 도메인으로 지칭되는) 제1 뉴클레오티드 서열 도메인 및 Cas 엔도뉴클레아제 폴리펩티드와 상호 작용하는 (Cas 엔도뉴클레아제 인식 도메인 또는 CER 도메인으로 지칭되는) 제2 뉴클레오티드 서열 도메인을 포함하는 (이중 가이드 폴리뉴클레오티드라 지칭되기도 하는) 이중 분자일 수 있다. 이중 분자 가이드 폴리뉴클레오티드의 CER 도메인은 상보성 영역을 따라 혼성화된 두 개의 별개의 분자들을 포함한다. 이러한 두 개의 별개의 분자들은 RNA, DNA, 및/또는 RNA-DNA- 조합 서열일 수 있다. 일부 구현예에서, CER 도메인에 연결된 VT 도메인을 포함하는 이중 가이드 폴리뉴클레오티드의 제1 분자("cr뉴클레오티드")는 (연속된 DNA 뉴클레오티드들로 구성되는 경우) "crDNA" 또는 (연속된 RNA 뉴클레오티드들로 구성되는 경우) "crRNA", 또는 (DNA와 RNA 뉴클레오티드의 조합으로 구성되는 경우) "crDNA-RNA"라 지칭된다. 일부 구현예에서, CER 도메인을 포함하는 이중 가이드 폴리뉴클레오티드의 제2 분자는 (연속된 RNA 뉴클레오티드들로 구성되는 경우) "tracrRNA" 또는 (연속된 DNA 뉴클레오티드들로 구성되는 경우) "tracrDNA" 또는 (DNA와 RNA 뉴클레오티드의 조합으로 구성되는 경우) "tracrDNA-RNA"라 지칭된다.

또한, 이러한 가이드 폴리뉴클레오티드는 표적 DNA의 뉴클레오티드 서열에 상보적인 제1 뉴클레오티드 서열 도메인(가변 표적화 도메인 또는 VT 도메인으로 지칭됨, 도 3) 및 Cas 엔도뉴클레아제 폴리펩티드와 상호 작용하는 제2 뉴클레오티드 도메인(Cas 엔도뉴클레아제 인식 도메인 또는 CER 도메인으로 지칭됨, 도 3)을 포함하는 단일 분자일 수 있다. "도메인"은 RNA, DNA, 및/또는 RNA-DAN-조합 서열일 수 있는 뉴클레오티드들이 연속되어 있는 것을 의미한다. 단일 가이드 폴리뉴클레오티드의 VT 도메인 및/또는 CER 도메인은 RNA 서열, DNA 서열, 또는 RNA-DNA-조합 서열을 포함할 수 있다. 일부 구현예에서, 이러한 단일 가이드 폴리뉴클레오티드는 (CER 도메인을 포함하는) tracr뉴클레오티드에 연결된 (CER 도메인에 연결된 VT 도메인을 포함하는) cr뉴클레오티드를 포함하며, 이때, 이러한 연결은 RNA 서열, DNA 서열, 또는 RNA-DNA 조합 서열을 포함하는 뉴클레오티드 서열이다. cr뉴클레오티드 및 tracr뉴클레오티드로부터의 서열들로 구성되는 단일 가이드 폴리뉴클레오티드는 (연속된 RNA 뉴클레오티드들로 구성되는 경우) "단일 가이드 RNA" 또는 (연속된 DNA 뉴클레오티드들로 구성되는 경우) "단일 가이드 DNA" 또는 (RNA와 DNA 뉴클레오티드의 조합으로 구성되는 경우) "단일 가이드 RNA-DNA"라 지칭될 수 있다.

따라서, 특정 구현예에서 가이드 폴리뉴클레오티드와 II형 Cas 엔도뉴클레아제는 서로 복합체("가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체" 라 지칭되거나 "가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템"이라고도 지칭됨)를 형성할 수 있는데, 이때, 이러한 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 Cas 엔도뉴클레아제가 세포(예컨대, 식물 세포)의 게놈 표적 부위를 표적화하도록 유도할 수 있으며, 선택적으로 Cas 엔도뉴클레아제가 게놈 표적 부위 내로 단일 가닥 절단 또는 이중 가닥 절단을 도입할 수 있게 할 수 있다. 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 적어도 하나의 CPP에 연결될 수 있는데, 이때, 이러한 복합체는 세포(예컨대, 식물 세포)의 표적 부위와 결합할 수 있고, 선택적으로 세포(예컨대, 식물 세포)의 표적 부위에 단일 가닥 절단 또는 이중 가닥 절단을 생성할 수 있다.

용어 "가변 표적화 도메인" 또는 "VT 도메인"은 본원에서 상호교환적으로 사용되며, 이중 가닥 DNA 표적 부위의 한 가닥(뉴클레오티드 서열)에 상보적인 뉴클레오티드 서열을 지칭한다. 제1 뉴클레오티드 서열 도메인(VT 도메인)과 표적 서열 사이의 백분율 보완성은 적어도 50%, 51%, 52%, 53%, 54%, 55%, 56%, 57%, 58%, 59%, 60%, 61%, 62%, 63%, 63%, 65%, 66%, 67%, 68%, 69%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%일 수 있다. 가변 표적 도메인의 길이는 적어도 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개 또는 30개 뉴클레오티드 길이일 수 있다. 일부 구현예에서, 이러한 가변 표적화 도메인은 연속된 12개 내지 30개의 뉴클레오티드를 포함한다. 가변 표적화 도메인은 DNA 서열, RNA 서열, 변형된 DNA 서열, 변형된 RNA 서열(예컨대, 본원에 기술된 변형 참조), 또는 이의 임의의 조합으로 구성될 수 있다.

용어 가이드 폴리뉴클레오티드의 "Cas 엔도뉴클레아제 인식 도메인" 또는 "CER 도메인"은 본원에서 상호교환적으로 사용되며, Cas 엔도뉴클레아제 폴리펩티드와 상호작용하는 뉴클레오티드 서열(예컨대, 가이드 폴리뉴클레오티드의 제2 뉴클레오티드 서열 도메인)에 관한 것이다. CER 도메인은 DNA 서열, RNA 서열, 변형된 DNA 서열, 변형된 RNA 서열(예컨대, 본원에 기술된 변형 참조), 또는 이의 임의의 조합으로 구성될 수 있다.

용어 "RNA-유도 엔도뉴클레아제", "RGEN", "가이드 RNA/Cas 엔도뉴클레아제 복합체", "가이드 RNA/Cas 엔도뉴클레아제 시스템"은 본원에서 상호교환적으로 사용될 수 있으며, 적어도 하나의 크리스퍼 (규칙적으로 사이 간격을 두고 분포하는 짧은 회문구조 반복 서열)-결합(Cas) 단백질 및 적어도 하나의 RNA 성분을 포함하는 복합체를 지칭한다. 용어 "RGEN의 단백질 성분"과 "RGEN 단백질 성분"은 본원에서 상호교환적으로 사용되며, RGEN의 엔도뉴클레아제 성분이거나 이의 일부분을 형성하는 Cas 단백질을 지칭한다. 특정 구현예에서 단백질 성분은 완전한 엔도뉴클레아제(예컨대, Cas9)일 수 있다. 이러한 단백질 성분은 대안적으로 RGEN의 "엔도뉴클레아제 성분"이라 지칭될 수 있다. 본원에서 RGEN은 일반적으로, 적어도 하나의 RNA 성분과의 결합을 고려할 때 특이적인 DNA 표적화 활성을 가진다.

본원에서 용어 "RNA 성분"은 DNA 표적 서열의 가닥에 상보적인 리보핵산 서열을 포함하는 RGEN의 RNA 성분을 지칭한다. 본원에서 이러한 상보적인 서열은 "가이드 서열" 또는 "가변 표적화 도메인" 서열로 지칭된다(도 3). 본원에서 적합한 RNA 성분의 예는 cRNA 및 가이드 RNA를 포함한다. 특정 구현예에서의 RNA 성분들(예컨대, 가이드 RNA 단독, crRNA + tracrRNA)은 RGEN을 특이적인 DNA 표적화에 적합하게 만들 수 있다.

간략하게, RGEN의 RNA 성분은 표적 부위 서열의 DNA 서열에 상보적인 서열을 포함한다. 이러한 상보성에 기초하여, RGEN은 특정 DNA 표적 부위 서열을 특이적으로 인식하여 절단할 수 있다. 본원에서 RGEN은 4개의 알려진 크리스퍼 시스템(Horvath 및 Barrangou, Science 327:167-170), 예컨대 I형, II형 또는 III형 크리스퍼 시스템 중 어느 하나의 Cas 단백질(들) 및 적합한 RNA 성분(들)을 포함할 수 있다. 바람직한 구현예의 RGEN은 Cas9 엔도뉴클레아제(크리스퍼 II 시스템) 및 적어도 하나의 RNA 성분(예를 들어, crRNA 및 tracrRNA, 또는 gRNA)을 포함한다.

RGEN 단백질 성분은 Cas 단백질, 예컨대, Cas9를 지칭할 수 있다. 적합한 Cas 단백질의 예에는 유형 I, II 또는 III 크리스퍼 시스템 중 하나 이상의 Cas 엔도뉴클레아제가 포함된다(본원에 참조로 포함되는 Bhaya et al., Annu . Rev. Genet. 45:273-297). I형 크리스퍼 Cas 단백질은, 예를 들어 Cas3 또는 Cas4 단백질일 수 있다. II형 크리스퍼 Cas 단백질은, 예를 들어 Cas9 단백질일 수 있다. III형 크리스퍼 Cas 단백질은, 예를 들어 Cas10 단백질일 수 있다. Cas9 단백질이 바람직한 특정 구현예에서 사용된다. 특정 구현예에서, Cas 단백질은 박테리아 또는 고세균 단백질일 수 있다. 본원에서 I형 내지 III형 크리스퍼 Cas 단백질은 일반적으로 원핵생물 기원이며, 예를 들어, I형 및 III형 Cas 단백질은 박테리아 또는 고세균 종으로부터 유래될 수 있는 반면, II형 Cas 단백질(즉, Cas9)은 박테리아 종으로부터 유래될 수 있다. 다른 구현예에서, 적합한 Cas 단백질은 Cas1, Cas1B, Cas2, Cas3, Cas4, Cas5, Cas6, Cas7, Cas8, Cas9, Cas10, Csy1, Csy2, Csy3, Cse1, Cse2, Csc1, Csc2, Csa5, Csn2, Csm2, Csm3, Csm4, Csm5, Csm6, Cmr1, Cmr3, Cmr4, Cmr5, Cmr6, Csb1, Csb2, Csb3, Csx17, Csx14, Csx10, Csx16, CsaX, Csx3, Csx1, Csx15, Csf1, Csf2, Csf3, Csf4, 이의 상동체, 또는 변형된 버전 중 하나 이상을 포함한다.

개시된 발명의 다른 양태에서, 본원의 Cas 단백질은 다음의 속 중 임의의 것으로부터 유래할 수 있다: 아에로피룸(Aeropyrum), 피로바쿨룸(Pyrobaculum), 술폴로부스(Sulfolobus), 아캐오글로부스(Archaeoglobus), 할로아르쿨라(Haloarcula), 메타노박테리움(Methanobacteriumn), 메타노코커스(Methanococcus), 메타노사르시나(Methanosarcina), 메타노피러스(Methanopyrus), 피로코커스(Pyrococcus), 피크로필러스(Picrophilus), 써니오플라스니아(Thernioplasnia), 코리네박테리움(Corynebacterium), 마이코박테리움(Mycobacterium), 스트렙토마이세스(Streptomyces), 아퀴펙스(Aquifex), 포르피로모나스(Porphyromonas), 클로로비움(Chlorobium), 써머스(Thermus), 바실러스(Bacillus), 리스테리아(Listeria), 스타필로코커스(Staphylococcus), 클로스트리디움(Clostridium), 써모아나에로박터(Thermoanaerobacter), 마이코플라스마(Mycoplasma), 푸소박테리움(Fusobacterium), 아자쿠스(Azarcus), 크로모박테리움(Chromobacterium), 네이세리아(Neisseria), 니트로소모나스(Nitrosomonas), 디설포비브리오(Desulfovibrio), 게오박터(Geobacter), 미로코커스(Myrococcus), 캄필로박터(Campylobacter), 볼리넬라(Wolinella), 아시네토박터(Acinetobacter), 에르위니아(Erwinia), 에스케리챠(Escherichia), 레지오넬라(Legionella), 메틸로코커스(Methylococcus), 파스퇴렐라(Pasteurella), 포토박테리움(Photobacterium), 살모넬라(Salmonella), 잔토모나스(Xanthomonas), 예시니아(Yersinia), 스트렙토코커스(Streptococcus), 트레포네마(Treponema), 프란시셀라(Francisella) 또는 써모토가(Thermotoga). 대안적으로, 본원의 Cas 단백질은, 예를 들어, 본원에 참조로 포함되는 미국 특허 출원 공개 2010/0093617호에 개시된 바와 같이, 서열 번호 462 내지 465, 467 내지 472, 474 내지 477, 479 내지 487, 489 내지 492, 494 내지 497, 499 내지 503, 505 내지 508, 510 내지 516 또는 517 내지 521 중 임의의 것에 의해 암호화될 수 있다.

RGEN 단백질 성분은 예를 들어 Cas9 아미노산 서열을 포함할 수 있다. 이러한 유형의 단백질 성분을 포함하는 RGEN은 일반적으로 RGEN의 엔도뉴클레아제 성분으로서 Cas9를 갖는 것을 특징으로 할 수 있다. 본원의 Cas9 단백질뿐만 아니라 본원의 기타 특정 Cas 단백질의 아미노산 서열은 예를 들어, 스트렙토코커스(예를 들어, S. 피오제네스(pyogenes), S. 뉴모니애(pneumoniae), S. 써모필러스(thermophilus), S. 아갈락티아(agalactiae), S. 파라상귀니스(parasanguinis), S. 오랄리스(oralis), S. 살리바리우스(salivarius), S. 마카카(macacae), S. 디스갈락티애(dysgalactiae), S. 안지노서스(anginosus), S. 콘스텔라투스(constellatus), S. 슈도포르시누스(pseudoporcinus), S. 뮤탄스(mutans)), 리스테리아(예를 들어, L. 인노쿠아(innocua)), 스피로플라즈마(Spiroplasma) (예를 들어, S. 아피스(apis), S. 시르피디콜라(syrphidicola)), 펩토스트렙토코카세(Peptostreptococcaceae), 아토포비움(Atopobium), 포르피로모나스(Porphyromonas) (예를 들어, P. 카토니아(catoniae)), 프레보텔라(Prevotella) (예를 들어, P. 인테르메디아(intermedia)), 베일로넬라(Veillonella), 트레포네마(Treponema)(예를 들어, T. 소크란스키(socranskii), T. 덴티콜라(denticola)), 카프노사이토파가(Capnocytophaga), 피네골디아(Finegoldia)(예를 들어, F. 마그나(magna)), 코리오박테리아세아에(Coriobacteriaceae)(예를 들어, C. 박테리움(bacterium)), 올스넬라(Olsenella)(예를 들어, O. 프로푸사(profusa)), 헤모필루스(Haemophilus)(예를 들어, H. 스푸토룸(sputorum), H. 피트마니아에(pittmaniae)), 파스퇴렐라(Pasteurella)(예를 들어, P. 베티아에(bettyae)), 올리비박터(Olivibacter)(예를 들어, O. 시티엔시스(sitiensis)), 에필리토니모나스(Epilithonimonas)(예를 들어, E. 테낙스(tenax)), 메소니아(Mesonia)(예를 들어, M. 모빌리스(mobilis)), 락토바실루스(Lactobacillus), 바실루스(예를 들어, B. 세레우스(cereus)), 아퀴마리나(Aquimarina)(예를 들어, A. 무엘레리(muelleri)), 크리세오박테리움(Chryseobacterium)(예를 들어, C. 파루스트레(palustre)), 박테로이데스(Bacteroides)(예를 들어, B. 그라미니솔벤스(graminisolvens)), 네이세리아(예를 들어, N. 메닝기티디스(meningitidis)), 프란시셀라(Francisella)(예를 들어, F. 노비시다(novicida)) 또는 플라보박테리움(Flavobacterium)(예를 들어, F. 프리기다리움(frigidarium), F. 솔리(soli)) 종으로부터 유래될 수 있다. 본원의 특정 양태에서 S. 피오제네스 Cas9가 바람직하다. 또 다른 예로서, Cas9 단백질은 본원에 참조로 포함되는 Chylinski et al. (RNA Biology 10:726-737)에 개시된 Cas9 단백질 중 임의의 것일 수 있다.

따라서, 본원의 Cas9 단백질의 서열은, 예를 들어, 참조로 포함되는 진뱅크(GenBank) 등록번호 G3ECR1 (S. 써모필러스), WP_026709422, WP_027202655, WP_027318179, WP_027347504, WP_027376815, WP_027414302, WP_027821588, WP_027886314, WP_027963583, WP_028123848, WP_028298935, Q03JI6 (S. 써모필러스), EGP66723, EGS38969, EGV05092, EHI65578 (S. 슈도포르시누스), EIC75614 (S. 오랄리스), EID22027 (S. 콘스텔라투스), EIJ69711, EJP22331 (S. 오랄리스), EJP26004 (S. 안지노서스), EJP30321, EPZ44001 (S. 피오제네스), EPZ46028 (S. 피오제네스), EQL78043 (S. 피오제네스), EQL78548 (S. 피오제네스), ERL10511, ERL12345, ERL19088 (S. 피오제네스), ESA57807 (S. 피오제네스), ESA59254 (S. 피오제네스), ESU85303 (S. 피오제네스), ETS96804, UC75522, EGR87316 (S. 디스갈락티애), EGS33732, EGV01468 (S. 오랄리스), EHJ52063 (S. 마카카), EID26207 (S. 오랄리스), EID33364, EIG27013 (S. 파라상귀니스), EJF37476, EJO19166 (스트렙토코커스 종 BS35b), EJU16049, EJU32481, YP_006298249, ERF61304, ERK04546, ETJ95568 (S. 아갈락티아), TS89875, ETS90967 (스트렙토코커스 종 SR4), ETS92439, EUB27844 (스트렙토코커스 종 BS21), AFJ08616, EUC82735 (스트렙토코커스 종 CM6), EWC92088, EWC94390, EJP25691, YP_008027038, YP_008868573, AGM26527, AHK22391, AHB36273, Q927P4, G3ECR1 또는 Q99ZW2 (S. 피오제네스)에 개시된 Cas9 아미노산 서열 중 임의의 것을 포함할 수 있다. 이들 Cas9 단백질 서열 중 임의의 것의 변이체가 사용될 수 있지만, 본원의 RNA 성분과 결합할 경우 DNA에 대한 특이적 결합 활성 및 선택적으로 절단 또는 닉킹 활성을 가져야 한다. 이러한 변이체는 기준 Cas9의 아미노산 서열과 적어도 약 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99% 동일한 아미노산 서열을 포함할 수 있다.

대안적으로, 본원의 Cas9 단백질은, 예를 들어 서열 번호 1 내지 2에 의해 암호화될 수 있다. 또한, 대안적으로, Cas9 단백질은, 예를 들어, 전술한 아미노산 서열 중 임의의 것과 적어도 약 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99% 동일한 아미노산 서열을 포함할 수 있다. 이러한 변이체인 Cas9 단백질은 본원의 RNA 성분과 결합할 경우 DNA에 대한 특이적 결합 활성, 및 선택적으로 절단 또는 닉킹 활성을 가져야 한다.

본원에서 사용된 Cas 단백질(예를 들어, Cas9)의 기원은 RNA 성분(들)이 유래된 것과 동일한 종으로부터 유래할 수 있거나, 상이한 종으로부터 유래할 수 있다. 예를 들어, 스트렙토코커스 종(예를 들어, S. 피오제네스 또는 S. 써모필러스)으로부터 유래된 Cas9 단백질을 포함하는 RGEN은 동일한 스트렙토코커스 종으로부터 유래된 서열(예를 들어, crRNA 반복 서열, tracrRNA 서열)을 갖는 적어도 하나의 RNA 성분과 복합체를 형성할 수 있다. 대안적으로, 본원에서 사용된 Cas 단백질(예를 들어, Cas9)의 기원은 RNA 성분(들)이 유래된 종과 상이한 종으로부터 유래할 수 있다(Cas 단백질 및 RNA 성분(들)은 서로 이종성일 수 있다); 이러한 이종 Cas/RNA 성분 RGEN은 DNA 표적화 활성을 가져야 한다.

소정의 표적 DNA 서열에 대한 본원의 Cas 단백질의 결합 활성 및/또는 엔도뉴클레오리틱(endonucleolytic) 활성을 결정하는 것은 본원에 참고로 개시된 미국 특허 8697359호에 개시된 바와 같은, 당해 분야에 공지된 임의의 적합한 분석법에 의해 평가할 수 있다. 예를 들어, 세포에서 Cas 단백질과 적합한 RNA 성분을 발현한 후, 삽입-결실의 존재가 예측되는 DNA 표적 부위를 조사함으로써 결정이 이루어질 수 있다(이러한 특별한 분석법에서 Cas 단백질은 일반적으로, 완전한 엔도뉴클레오리틱 활성[이중 가닥 절단 활성]을 가질 것이다). 예측되는 표적 부위에서 변형/변경(예를 들어, 삽입-결실)의 존재를 조사하는 것은, 예를 들어, DNA 시퀀싱 방법을 통해 또는 표적 서열의 기능 상실을 분석하여 변경/변형 형성을 추정함으로써 수행될 수 있다.

또 다른 예에서, Cas 단백질과 적합한 RNA 성분이, 적합한 표적 서열을 포함하는 DNA 폴리뉴클레오티드와 함께 서로 혼합되는 시험관 내 분석법을 이용하여 Cas 단백질 활성을 결정할 수 있다. 이러한 분석법은 절단 활성이 결여된 Cas 단백질에 의해 결합(예컨대, 겔 시프트)을 검출하거나, 엔도뉴클레오리틱 절단에 적합한 Cas 단백질에 의한 절단을 검출하는 데 이용될 수 있다.

본원의 Cas 단백질, 예컨대 Cas9는 특정 양태에서 이종 핵 국재화 서열(NLS)을 더 포함할 수 있다. 본원에서 이종 NLS 아미노산 서열은, 예를 들어, 본원의 세포의 핵에 검출 가능한 양으로 Cas 단백질 또는 Cas 단백질-CPP 복합체의 축적을 유도하기에 충분한 강도를 나타낼 수 있다. NLS는 염기성의, 양으로 하전된 잔기(예를 들어, 라이신 및/또는 아르기닌)의 하나(1부분(monopartite)) 이상(예를 들어, 2부분(bipartite))의 짧은 서열(예를 들어, 2 내지 20개의 잔기)을 포함할 수 있으며, Cas 아미노산 서열 중 어디에도 위치할 수 있지만 단백질 표면 상에 노출되어야 한다. NLS는, 예를 들어, 본원의 Cas 단백질의 N 말단 또는 C 말단에 작동 가능하게 연결될 수 있다. 둘 이상의 NLS 서열이 예를 들어 Cas 단백질에 연결될 수 있는데, 예를 들어 Cas 단백질의 N 말단과 C 말단 모두에 연결될 수 있다. 본원에서 적합한 NLS 서열의 비제한적인 예에는 본원에 참조로 포함되는 미국 특허 6660830호 및 7309576호(예를 들어, 그 안의 표 1)에 개시된 것들이 포함된다. 본원에 개시된 Cas 단백질은 예를 들어 CPP에 융합될 수 있다(CPP에 공유적으로 연결된 Cas 단백질의 예). 이러한 Cas-CPP 융합 단백질도 위에 기술된 NLS를 포함할 수 있음이 이해될 것이다. 또한, Cas 단백질이 상이한 세포 기관(예컨대, 미토콘드리아)을 표적화하는 아미노산 서열과 융합되는 구현예에서, 이러한 Cas 단백질은 일반적으로 NLS를 포함하지 않으리라는 점이 이해될 것이다.

Cas 단백질은 하나 이상의 이종 단백질 도메인(예를 들어, Cas 단백질에 더하여 1개, 2개, 3개 이상의 도메인)을 포함하는 융합 단백질의 일부일 수 있다. 예를 들어, Cas 단백질은 CPP 및/또는 하나 이상의 추가적인 이종 아미노산 서열에 공유적으로 연결될 수 있다(2014년 8월 13일 출원된 미국 가특허출원 62/036652호 참조). Cas 단백질은 또한, 예를 들어 CPP를 포함하지 않는 하나 이상의 추가적인 이종 아미노산 서열에 공유적으로 연결될 수 있다(이러한 구현예에서 CPP는 Cas 융합 단백질에 비 공유적으로 연결될 것이다). Cas 단백질을 포함하는 융합 단백질은 임의의 추가적인 단백질 서열, 및 선택적으로 임의의 두 도메인 사이, 예컨대, Cas와 제1 이종 도메인 사이의 링커 서열을 포함할 수 있다. 본원의 Cas 단백질에 융합될 수 있는 단백질 도메인의 예에는 에피토프 태그(예를 들어, 히스티딘 [His, 폴리-히스티딘], V5, FLAG, 인플루엔자 혈구응집소 [HA], myc, VSV-G, 티오레독신 [Trx]), 리포터(예를 들어, 글루타티온-5-트랜스퍼라제 [GST], 홀스래디쉬 퍼옥시다제 [HRP], 클로람페니콜 아세틸트랜스퍼라제 [CAT], 베타-갈락토시다제, 베타-글루쿠로니다제 [GUS], 루시퍼라제, 녹색 형광 단백질 [GFP], HcRed, DsRed, 청록색 형광 단백질[CFP], 황색 형광 단백질 [YFP], 청색 형광 단백질 [BFP]) 및 메틸라제 활성, 데메틸라제 활성, 전사 활성화 활성(예를 들어, VP16 또는 VP64), 전사 억제 활성, 전사 방출 인자 활성, 히스톤 변형 활성, RNA 절단 활성 및 핵산 결합 활성 중 하나 이상을 갖는 도메인이 제한 없이 포함된다. 다른 구현예에서, Cas 단백질은 DNA 분자 또는 다른 분자, 예컨대 말토스 결합 단백질(MBP), S-태그, Lex A DNA 결합 도메인(DBD), GAL4A DNA 결합 도메인 및 단순 헤르페스 바이러스(HSV) VP16에 결합하는 단백질과 융합될 수 있다. 본원의 Cas 단백질을 포함하는 융합 단백질의 일부가 될 수 있는 추가적인 도메인은 본원에 참조로 포함되는 미국 특허 출원 공개 2011/0059502호에 개시되어 있다. Cas 단백질이 이종 단백질(예를 들어, 전사 인자)에 융합되는 특정 구현예에서, Cas 단백질은 (본원의 적합한 RNA 성분과 복합체인 경우) DNA 인식 및 결합 활성을 가지나, DNA 닉킹 또는 절단 활성은 없다.

본원의 Cas 단백질에 연결될 수 있는 이종 도메인의 다른 예로 단백질을 특정 세포 기관으로 표적화하는 아미노산 서열들을 들 수 있다(즉, 국재화 신호). 표적화될 수 있는 세포 기관의 예로 미토콘드리아와 엽록체를 들 수 있다. 일반적으로, 핵 외부의 DNA 부위를 표적화할 때, 이러한 표적화 도메인이 NLS 대신 이용된다. 미토콘드리아 표적화 서열(MTS)은 예를 들어, Cas 단백질의 N 말단에 또는 그 부근에 위치할 수 있다. MTS 예는 본원에 참조로 포함되는 미국 특허 출원 공개 2007/0011759호 및 2014/0135275호에 개시되어 있다. 엽록체 표적화 서열은 예를 들어, 본원에 참조로 포함되는 미국 특허 출원 공개 2010/0192262호 또는 2012/0042412호에 개시된 바와 같을 수 있다.

RGEN의 단백질 성분은 예를 들어, 세포 내의 염색체 또는 에피솜 상의 표적 부위 서열에 대해 상보적인 서열을 포함하는 적어도 하나의 RNA 성분과 결합될 수 있다(그에 의해 완전한 RGEN을 구성함). 이러한 구현예에서 RGEN은 표적 부위 서열과 결합할 수 있고, 선택적으로 표적 부위 서열에서 하나 또는 두 DNA 가닥을 절단할 수 있다. RGEN은 예를 들어, DNA 표적 서열의 한 가닥 또는 두 가닥을 절단할 수 있다. 또 다른 예에서, RGEN은 DNA 표적 서열의 두 가닥을 절단할 수 있다. 모든 이러한 구현예에서, RGEN 단백질 성분은 RGEN 단백질-CPP 복합체에서 적어도 하나의 CPP에 공유적으로 또는 비 공유적으로 연결될 수 있음이 이해될 것이다. 본원의 RNA 성분과 RGEN 단백질-CPP 복합체의 결합은 RGEN-CPP 복합체를 형성하는 것을 특징으로 할 수 있다. RGEN에 관한 본원의 임의의 개시 내용은 달리 언급되지 않는 한 RGEN-CPP 복합체의 RGEN 성분에 마찬가지로 적용될 수 있다.

DNA 표적 서열의 두 가닥을 절단할 수 있는 본원의 RGEN은 일반적으로 이의 엔도뉴클레아제 도메인 모두를 기능적 상태(functional state)로 가지는 Cas 단백질을 포함한다(예를 들어, 야생형 엔도뉴클레아제 도메인 또는 각각의 엔도뉴클레아제 도메인에서 일부 또는 모든 활성을 보유하는 이들의 변이체). 따라서, 야생형 Cas 단백질(예를 들어, 본원에 개시된 Cas9 단백질) 또는 Cas 단백질의 각각의 엔도뉴클레아제 도메인에서 일부 또는 모든 활성을 보유하는 이의 변이체가 DNA 표적 서열의 두 가닥을 절단할 수 있는 RGEN의 적합한 예이다. 기능적 RuvC 및 HNH 뉴클레아제 도메인을 포함하는 Cas9 단백질은 DNA 표적 서열의 두 가닥을 절단할 수 있는 Cas 단백질의 예이다. DNA 표적 서열의 두 가닥을 절단할 수 있는 본원의 RGEN은 일반적으로, 절단 부위에 평활 말단(즉, 뉴클레오티드 돌출부가 없음)을 형성하도록 동일한 위치에서 두 가닥을 절단한다.

DNA 표적 서열의 한 가닥을 절단할 수 있는 본원의 RGEN은 본원에서 닉카아제 활성(예를 들어, 부분 절단 능력)을 갖는 것을 특징으로 할 수 있다. 본원의 Cas 닉카아제(예를 들어, Cas9 닉카아제)는 일반적으로, Cas가 DNA 표적 서열 중 한 가닥만 절단하도록 하는(즉, 닉을 형성하도록 하는) 하나의 기능적 엔도뉴클레아제 도메인을 포함한다. 예를 들어, Cas9 닉카아제는 (i) 돌연변이 기능장애 RuvC 도메인 및 (ii) 기능적 HNH 도메인(예를 들어, 야생형 HNH 도메인)을 포함할 수 있다. 또 다른 예로서, Cas9 닉카아제는 (i) 기능적 RuvC 도메인(예를 들어, 야생형 RuvC 도메인) 및 (ii) 돌연변이 기능장애 HNH 도메인을 포함할 수 있다.

본원에서 사용하기에 적합한 Cas9 닉카아제의 비제한적인 예는 본원에 참조로 포함되는 Gasiunas et al. (Proc . Natl . Acad . Sci . U.S.A . 109:E2579-E2586), Jinek et al. (Science 337:816-821), Sapranauskas et al. (Nucleic Acids Res. 39:9275-9282) 및 미국 특허 출원 공개 2014/0189896호에 개시되어 있다. 예를 들어, 본원에서 Cas9 닉카아제는 Asp-31 치환(예를 들어, Asp-31-Ala)(돌연변이 RuvC 도메인의 예), 또는 His-865 치환(예를 들어, His-865-Ala), Asn-882 치환(예를 들어, Asn-882-Ala), 또는 Asn-891 치환(예를 들어, Asn-891-Ala)(돌연변이 HNH 도메인의 예)을 갖는 S. 써모필러스 Cas9를 포함할 수 있다. 또한, 예를 들어, 본원에서 Cas9 닉카아제는 Asp-10 치환(예를 들어, Asp-10-Ala), Glu-762 치환(예를 들어, Glu-762-Ala), 또는 Asp-986 치환(예를 들어, Asp-986-Ala)(돌연변이 RuvC 도메인의 예), 또는 His-840 치환(예를 들어, His-840-Ala), Asn-854 치환(예를 들어, Asn-854-Ala), 또는 Asn-863 치환(예를 들어, Asn-863-Ala)(돌연변이 HNH 도메인의 예)을 갖는 S. 피오제네스 Cas9를 포함할 수 있다. S. 피오제네스 Cas9에 관하여, 3개의 RuvC 서브도메인은 일반적으로 각각 아미노산 잔기 1 내지 59, 718 내지 769 및 909 내지 1098에 위치하고, HNH 도메인은 아미노산 잔기 775 내지 908에 위치한다(Nishimasu et al., Cell 156:935-949).

본원에서 Cas9 닉카아제는 원하는 경우, 세포에서 다양한 용도로 이용될 수 있다. 예를 들어, Cas9 닉카아제는 적합한 폴리뉴클레오티드 변형 주형을 갖는 DNA 표적 부위 서열에서 또는 그 부근에서 HR을 촉진하는 데 이용될 수 있다. 닉이 있는 DNA는 NHEJ 공정을 위한 기질은 아니지만 HR 공정에 의해 인식되므로, 소정의 표적 부위에서 DNA에 닉을 형성하는 것은 그 부위가 적합한 폴리뉴클레오티드 변형 주형을 사용하는 HR을 더 잘 수용할 수 있게 해야 한다.

또 다른 예로서, DNA 표적화의 특이성을 증가시키기 위해 한 쌍의 Cas9 닉카아제가 사용될 수 있다. 일반적으로, 이는, 상이한 가이드 서열을 갖는 RNA 성분들과 결합되어 있기 때문에, 원하는 표적화를 위한 영역에서 반대 가닥 상의 가까운 DNA 서열을 표적화하고 닉을 형성하는 2개의 Cas9 닉카아제를 제공함으로써 수행될 수 있다. 각각의 DNA 가닥의 이러한 가까운 절단은 DSB(즉, 단일-가닥 돌출부를 갖는 DSB)를 생성하고, 이는 이어서 NHEJ(삽입-결실 형성을 유도함) 또는 HR(제공된다면, 적합한 폴리뉴클레오티드 변형 주형과의 재조합을 유도함)의 기질로 인식된다. 이러한 구현예에서 각각의 닉은, 예를 들어, 서로 적어도 약 5, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90 또는 100(또는 5와 100 사이의 임의의 정수)개의 염기만큼 이격될 수 있다. 본원에서 하나 또는 두 개의 Cas9 닉카아제 단백질이 위에서 기술한 바와 같이 Cas9 닉카아제 쌍에서 사용될 수 있다. 예를 들어, 돌연변이 RuvC 도메인을 가지나 기능하는 HNH 도메인을 갖는 Cas9 닉카아제(즉, Cas9 HNH⁺/RuvC^-)(예를 들어, S. 피오제네스 Cas9 HNH⁺/RuvC^-)를 사용할 수 있다. 각각의 닉카아제를 각각의 특정 DNA 부위로 표적화하는 가이드 RNA 서열을 갖는 본원의 적합한 RNA 성분들을 사용하여, 서로 가까운 (100개 이하의 염기쌍만큼 이격된) 소정의 DNA 부위로 각각의 Cas9 닉카아제(예를 들어, Cas9 HNH⁺/RuvC^-)를 유도할 것이다.

특정 구현예에서 RGEN은 DNA 표적 부위 서열에 결합할 수 있지만, 표적 부위 서열에서 임의의 가닥을 절단하지 않는다. 이러한 RGEN은 이의 모든 뉴클레아제 도메인이 돌연변이 기능장애인 Cas 단백질을 포함할 수 있다. 예를 들어, DNA 표적 부위 서열에 결합할 수 있지만, 표적 부위 서열에서 임의의 가닥을 절단하지 않는 본원의 Cas9 단백질은 돌연변이 기능장애 RuvC 도메인 및 돌연변이 기능장애 HNH 도메인을 둘 다 포함할 수 있다. 이러한 Cas9 단백질의 비제한적인 예에는 위에 개시된 RuvC 및 HNH 뉴클레아제 도메인 돌연변이 중 임의의 것(예를 들어, Asp-10 치환, 예컨대 Asp-10-Ala 및 His-840 치환, 예컨대 His-840-Ala을 갖는 S. 피오제네스 Cas9)이 포함된다. 표적 DNA 서열에 결합하지만 절단하지 않는 본원의 Cas 단백질은 유전자 발현을 조절하는 데 사용될 수 있으며, 예를 들어, 이 경우 Cas 단백질은 전사 인자(또는 이의 일부)(예를 들어, 억제 인자 또는 활성 인자, 예컨대 본원에 개시된 것들 중 임의의 것)와 융합될 수 있다. 예를 들어, Asp-10 치환(예를 들어, Asp-10-Ala) 및 His-840 치환(예를 들어, His-840-Ala)을 갖는 S. 피오제네스 Cas9를 포함하는 Cas9는 VP16 또는 VP64 전사 활성 인자 도메인에 융합될 수 있다. 이러한 RGEN의 RNA 성분에서 사용되는 가이드 서열은, 예를 들어 유전자 프로모터 또는 다른 조절 요소(예를 들어, 인트론) 내의 DNA 서열에 상보적일 것이다.

본원의 RGEN은 세포의 게놈 내의 염색체, 에피솜 또는 임의의 다른 DNA 분자의 표적 부위 서열과 결합할 수 있고, 선택적으로 이러한 표적 부위 서열의 한 가닥 또는 두 가닥을 절단할 수 있다. RGEN의 RNA 성분이 표적 서열의 가닥에 상보적인 서열(가이드 서열)을 포함한다는 점을 고려할 때, 표적 서열의 이러한 인식 및 결합은 특이적인 것이다.

용어 "표적 부위", "표적 서열", "표적 DNA", "DNA 표적 서열", "표적 유전자좌", "프로토스페이서" 등은 본원에서 상호교환적으로 사용된다. 표적 부위 서열은 본원의 RGEN이 인식하고, 결합하며, 선택적으로는 닉을 형성하거나 절단하는, 세포의 게놈 내의 염색체, 에피솜 또는 임의의 기타 DNA 분자 상의 폴리뉴클레오티드 서열을 지칭한다. 표적 부위는 (i) 세포 내의 내인성/천연 부위이거나, (ii) 세포에 대해 이종성이어서 게놈에서 자연적으로 발생하지 않거나, (iii) 천연적으로 발생하는 위치와 비교하여 이종성인 게놈 위치에서 발견될 수 있다.

본원에서 표적 부위 서열은 길이가 적어도 13개 뉴클레오티드이고, 가이드 서열과 혼성화될 수 있고, (특정 구현예에서, 적합한 PAM이 표적 서열에 인접한 경우) 표적 서열에 Cas 단백질 또는 Cas 단백질 복합체의 서열-특이적 결합을 유도할 수 있도록 (crRNA 또는 gRNA의) 가변 표적화 도메인에 대해 충분한 상보성을 갖는 가닥을 갖는다. (엔도뉴클레오리틱 또는 닉킹 Cas와 적용 가능한) 절단/닉 부위는 표적 서열 내에 있을 수 있거나(예를 들어, Cas9를 사용), 절단/닉 부위는 표적 서열 외부에 있을 수 있다(예를 들어, FokI 효소로부터 유래된 것과 같은 이종 엔도뉴클레아제 도메인에 융합된 Cas9를 사용). 표적 부위 서열은 절단 또는 닉킹 활성이 결여된 RGEN에 의해 결합될 수도 있다.

본원에서 "인공 표적 부위" 또는 "인공 표적 서열"은 세포의 게놈에 도입된 표적 서열을 지칭한다. 일부 구현예에서 인공 표적 서열은 세포의 게놈 내의 천연 표적 서열과 서열이 동일할 수 있지만, 게놈 내 상이한 위치(이종 위치)에 위치할 수 있거나, 세포의 게놈 내 동일한 위치에 위치하는 경우 천연 표적 서열과 상이할 수 있다.

본원에서 표적 서열의 길이는, 예를 들어, 적어도 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개 또는 30개의 뉴클레오티드; 13 내지 30개의 뉴클레오티드; 17 내지 25개의 뉴클레오티드; 또는 17 내지 20개의 뉴클레오티드일 수 있다. 이러한 길이는 PAM(프로토스페이서 인접 모티프) 서열을 포함하거나 제외할 수 있다. 또한, 본원에서 표적 서열의 가닥은, 가이드 서열과 혼성화되고 (적합한 PAM이 표적 서열에 인접한 경우, 아래 참조) Cas 단백질 또는 Cas 단백질 복합체의 표적 서열과의 서열 특이적 결합을 유도하기 위하여, (crRNA 또는 gRNA의) 가변 표적화 도메인과 충분한 상보성을 갖는다. 가이드 서열과 이의 상응하는 DNA 표적 서열의 가닥 사이의 상보성 정도는, 예를 들어, 적어도 약 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%이다. 본원에서 표적 부위는, 예를 들어, 유전자 산물(예를 들어, 단백질 또는 RNA)을 암호화하는 서열 또는 비 암호화 서열(예를 들어, 조절 서열 또는 "정크" 서열) 내에 위치할 수 있다.

본원에서 "프로토스페이서 인접 모티프"(PAM)는 본원에서의 RGEN에 의해 인식되는 짧은 서열을 지칭한다. 본원의 PAM의 서열과 길이는 사용되는 Cas 단백질 또는 Cas 단백질 복합체에 따라 다를 수 있지만, 일반적으로는, 예를 들어 2개, 3개, 4개, 5개, 6개, 7개 또는 8개의 뉴클레오티드 길이이다.

PAM(프로토스페이서-인접 모티프) 서열은 표적 부위 서열에 인접할 수 있다. PAM 서열은 본원의 RGEN에 의해 인식되는 짧은 DNA 서열이다. 결합된 PAM 및 DNA 표적 서열의 처음 11개의 뉴클레오티드는 Cas9/gRNA 표적화 및 절단에 중요할 수 있다(Jiang et al., Nat. Biotech. 31:233-239). 본원에서 PAM 서열의 길이는 사용되는 Cas 단백질 또는 Cas 단백질 복합체에 따라 다를 수 있지만, 일반적으로는, 예를 들어 2개, 3개, 4개, 5개, 6개, 7개 또는 8개의 뉴클레오티드 길이이다. PAM 서열은, 예를 들어, 결과적으로 RNA 성분 가이드 서열에 상보적인 표적 부위의 가닥에 상보적인 표적 부위 서열로부터 바로 하류에, 또는 이의 하류에 있는 2 또는 3개의 뉴클레오티드 내에 있다. RGEN이 RNA 성분과 엔도뉴클레오리틱 활성이 있는 Cas9 단백질 복합체를 형성한 본원의 실시 형태에서, Cas9는 RNA 성분에 의해 유도된 바와 같이 표적 서열과 결합하고, PAM 서열 상류의 세 번째 뉴클레오티드 위치의 바로 5'에서 두 가닥을 절단한다. 표적 부위:PAM 서열의 다음의 예를 고려한다:

5’-NNNNNNNNNNNNNNNNNNNNXGG-3’ (서열 번호 52).

이러한 예의 서열에서, N은 A, C, T 또는 G일 수 있고, X는 A, C, T 또는 G일 수 있다(X는 또한 N_PAM으로도 지칭됨). 이러한 예에서 PAM 서열은 (밑줄 친) XGG이다. 적합한 Cas9/RNA 성분 복합체는 이중 밑줄 친 N의 바로 5'에서 이러한 표적을 절단할 것이다. 서열 번호 52에서 일련의 N은 본원의 RNA 성분의 가이드 서열과, 예를 들어, 적어도 약 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 동일한 표적 서열을 나타낸다(여기서, DNA 표적 서열의 임의의 T는 RNA 가이드 서열의 임의의 U와 정렬될 것이다). (본원에서 표적 부위를 나타내는) 이러한 표적 서열을 인식하고 결합하는 데 있어서, Cas9 복합체의 RNA 성분의 가이드 서열은, 일련의 N의 보체 서열과 어닐링될 것이며; 가이드 서열과 표적 부위 보체 사이의 퍼센트 상보성은, 예를 들어, 적어도 약 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%이다. Cas9 닉카아제가 게놈의 서열 번호 52를 표적화하는 데 사용되는 경우, 닉카아제는 닉카아제의 어느 엔도뉴클레아제 도메인이 기능장애인지에 따라, 이중 밑줄 친 N의 바로 5'에서 또는 상보성 가닥의 동일한 위치에서 닉을 형성할 것이다. (RuvC와 HNH 도메인이 모두 기능장애인) 핵산 분해 활성이 없는 Cas9가 게놈의 서열 번호 52를 표적화하는데 사용되는 경우, 그것은 표적 서열을 인식하고 결합하지만, 서열에 어떠한 절단도 만들지 않을 것이다.

본원에서 PAM은 일반적으로, 사용되는 RGEN의 유형을 고려하여 선택된다. 본원에서 PAM 서열은, 예를 들어, Cas가 유래될 수 있는 본원에 개시된 임의의 종으로부터 유래된 Cas, 예컨대 Cas9를 포함하는 RGEN에 의해 인식되는 것일 수 있다. 특정 구현예에서, 이러한 PAM 서열은 S. 피오제네스, S. 써모필러스, S. 아갈락티아, N. 메닝기티디스, T. 덴티콜라 또는 F. 노비시다로부터 유래된 Cas9를 포함하는 RGEN에 의해 인식되는 것일 수 있다. 예를 들어, S. 피오제네스로부터 유래된 적합한 Cas9는 NGG의 PAM 서열(N은 A, C, T 또는 G일 수 있음)을 갖는 게놈 서열을 표적화하는 데 사용될 수 있다. 다른 예로서, 적합한 Cas9는 다음과 같은 PAM 서열을 갖는 DNA 서열을 표적화하는 경우 다음의 종 중 임의의 것으로부터 유래될 수 있다: S. 써모필러스(NNAGAA), S. 아갈락티아 (NGG, NNAGAAW[W는 A 또는 T임], NGGNG), N. 메닝기티디스(NNNNGATT), T. 덴티콜라(NAAAAC), 또는 F. 노비시다(NG)(여기서, 이러한 모든 특정 PAM 서열에서 N은 A, C, T 또는 G임). 본원에서 유용한 Cas9/PAM의 다른 예에는, 본원에 참조로 포함되는 Shah et al. (RNA Biology 10:891-899) 및 Esvelt et al. (Nature Methods 10:1116-1121)에 개시된 것들이 포함된다. 본원의 표적 서열들의 예는 서열 번호 43을 따르지만, 'XGG' PAM은 전술한 PAM 중 어느 하나에 의해 대체된다.

본원의 RNA 성분은 세포의 염색체 또는 에피솜의 표적 부위 서열에 상보적인 서열을 포함할 수 있다. RGEN은 이러한 서열 상보성을 기초로, 표적 부위 서열과 특이적으로 결합할 수 있고, 선택적으로 이러한 표적 부위 서열의 한 가닥 또는 두 가닥을 절단할 수 있다. 따라서, 개시된 발명의 특정 구현예에서 RNA 성분의 상보적인 서열은 가이드 서열 또는 가변 표적화 도메인으로도 지칭될 수 있다.

본원에서 RNA 성분(예를 들어, crRNA 또는 gRNA)의 가이드 서열은 길이가, 예를 들어, 적어도 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개 또는 30개의 리보뉴클레오티드; 13개 내지 30개의 리보뉴클레오티드; 17개 내지 25개의 리보뉴클레오티드; 또는 17개 내지 20개의 리보뉴클레오티드일 수 있다. 일반적으로, 본원의 가이드 서열은 표적 DNA 서열의 가닥에 대해 충분한 상보성을 가져, 표적 서열과 혼성화되어 (적합한 PAM이 표적 서열에 인접한 경우) 표적 서열에 Cas 단백질 또는 Cas 단백질 복합체의 서열 특이적인 결합을 유도한다. 가이드 서열과 이의 상응하는 DNA 표적 서열 사이의 상보성 정도는, 예를 들어, 적어도 약 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%이다. 가이드 서열은 세포의 DNA 표적 서열로 RGEN을 표적화하도록 적절히 유전자 조작될 수 있다.

본원의 RNA 성분은, 예를 들어, 가이드 서열 및 반복 (tracrRNA 메이트) 서열을 포함하는 crRNA를 포함할 수 있다. 가이드 서열은 일반적으로 crRNA의 5' 말단에 또는 그 부근(1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개 이상의 염기 내에)에 위치한다. crRNA의 가이드 서열의 하류에는 tracrRNA의 5' 말단에서 서열에 상보적이고 이와 혼성화될 수 있는 "반복" 또는 "tracrRNA 메이트" 서열이 있다. 가이드 및 tracrRNA 메이트 서열은, 예를 들어, 바로 인접하거나, 1개, 2개, 3개, 4개 이상의 염기에 의해 이격될 수 있다. tracrRNA 메이트 서열은 tracrRNA의 5' 말단에, 예를 들어, 적어도 50%, 60%, 70%, 80%, 90%, 95%, 96%, 97%, 98%, 99%, 또는 100% 서열 상보성을 갖는다. 일반적으로, 상보성 정도는 tracrRNA 메이트 서열과 tracrRNA 서열의 5' 말단의 최적 정렬을 참고하여, 두 서열 중 더 짧은 것의 길이에 따를 수 있다. 본원의 tracrRNA 메이트 서열의 길이는, 예를 들어 적어도 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개 또는 18개의 리보뉴클레오티드 길이일 수 있고, tracrRNA의 5' 말단에서 동일하거나 유사한 길이 (예를 들어, 플러스 또는 마이너스 1개, 2개, 3개, 4개 또는 5개의 염기)의 서열과 혼성화된다. 본원의 crRNA의 길이는, 예를 들어, 적어도 약 18개, 20개, 22개, 24개, 26개, 28개, 30개, 32개, 34개, 36개, 38개, 40개, 42개, 44개, 46개 또는 48개의 리보뉴클레오티드; 또는 약 18개 내지 48개의 리보뉴클레오티드; 또는 약 25개 내지 50개의 리보뉴클레오티드일 수 있다.

tracrRNA는, II형 크리스퍼 시스템의 Cas9 단백질이 RGEN에 포함되는 구현예에서, crRNA와 함께 포함될 수 있다. 본원의 tracrRNA는 5'에서 3' 방향으로 (i) crRNA의 반복 영역(tracrRNA 메이트 서열)과 어닐링하는 서열 및 (ii) 스템 루프를 포함하는 부분을 포함한다. (i)의 서열의 길이는, 예를 들어, 위에 개시된 임의의 tracrRNA 메이트 서열의 길이와 동일하거나 유사할 수 있다(예를 들어, 플러스 또는 마이너스 1개, 2개, 3개, 4개 또는 5개의 염기). 본원의 tracrRNA의 총 길이(즉, 서열 성분 [i] 및 [ii])는, 예를 들어, 적어도 약 30개, 35개, 40개, 45개, 50개, 55개, 60개, 65개, 70개, 75개, 80개, 85개, 또는 90(또는 30 내지 90 사이의 임의의 정수)개의 리보뉴클레오티드일 수 있다. tracrRNA는 3'-말단에 1개, 2개, 3개, 4개, 5개 이상의 우라실 잔기를 더 포함할 수 있으며, 이는 전사 종결자 서열을 갖는 tracrRNA를 발현함으로써 존재할 수 있다.

본원의 tracrRNA는 스트렙토코커스 종(예를 들어, S. 피오제네스, S. 써모필러스)과 같은(그러나 이들로 한정되는 것은 아님) 박테리아 종으로부터 유래될 수 있거나, 본원에 참조로 포함되는 미국 특허 8697359호 및 Chylinski et al. (RNA Biology 10:726-737)에 개시된 것들을 포함할 수 있다.

용어 "리보자임", "리보핵산 효소" 및 "자가 절단 리보자임"은 본원에서 상호교환적으로 사용된다. 리보자임은 특정 부위에서, 특히, 리보자임 서열에 대해 시스 부위에서 RNA를 절단(즉, 자가 촉매적 또는 자가 절단)할 수 있는 2차, 3차, 및/또는 4차 구조(들)를 형성하는 하나 이상의 RNA 서열을 지칭한다. 리보자임 핵산 분해 활성의 일반적인 성질은 기술된 바 있다(예를 들어, Lilley, Biochem . Soc. Trans. 39:641-646). 본원에서 "망치머리 리보자임"(HHR)은 촉매 작용에 관여하는 3개의 염기쌍 형성된 스템 및 고도로 보존된, 비 상보적 뉴클레오티드의 코어로 구성되는 작은 촉매 RNA 모티프를 포함할 수 있다. 본원에 참조로 포함되는 Pley et al. (Nature 372:68-74) 및 Hammann et al. (RNA 18:871-885)은 망치머리 리보자임 구조와 활성을 개시하고 있다. 본원에서 망치머리 리보자임은, 예를 들어, 본원에 참조로 포함되는 Scott et al. (Cell 81:991-1002)에 개시된 바와 같은 "최소 망치머리" 서열을 포함할 수 있다.

용어 "표적화", "유전자 표적화", "DNA 표적화", "편집", "유전자 편집" 및 "DNA 편집"은 본원에서 상호교환적으로 사용된다. 본원에서 DNA 표적화는 세포의 염색체 또는 에피솜에서와 같은 특정 DNA 서열에서의 삽입-결실, 녹아웃 또는 녹인의 특이적 도입일 수 있다. 일반적으로, DNA 표적화는 본원에서 적합한 RNA 성분과 결합된 Cas 단백질을 사용하여 세포의 특정 DNA 서열에서 하나 또는 두 가닥을 절단함으로써 수행될 수 있다. 이러한 DNA 절단은, 이중 가닥 절단(DSB)의 경우 표적 부위에서 삽입-결실을 형성할 수 있는 NHEJ 공정을 유도할 수 있다. 또한, 절단이 단일-가닥 절단(SSB)인지 DSB인지에 관계없이, DNA 닉 또는 절단 부위에 적합한 폴리뉴클레오티드 변형 주형 또는 공여 DNA가 제공되는 경우 HR 공정은 유도될 수 있다. 이러한 HR 공정은 폴리뉴클레오티드 변형 주형의 서열에 따라 표적 부위에서 녹아웃 또는 녹인을 도입하는 데 사용될 수 있다. 대안적으로, 본원에서 DNA 표적화는 본원의 Cas/RNA 성분 복합체와 표적 DNA 서열의 특정 결합을 지칭할 수 있으며, 여기서 Cas 단백질은 (Cas 단백질의 엔도뉴클레오리틱 도메인의 상태에 따라) DNA 가닥을 절단하거나 절단하지 않는다.

본원에서 용어 "삽입-결실"은 염색체 또는 에피솜 내의 표적 DNA 서열에서의 뉴클레오티드 염기 또는 염기들의 삽입 또는 결실을 지칭한다. 이러한 삽입 또는 결실은, 예를 들어, 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개 이상의 염기일 수 있다. 특정 구현예에서, 삽입-결실은 훨씬 더 클 수 있고, 적어도 약 20, 30, 40, 50, 60, 70, 80, 90 또는 100개의 염기일 수 있다. 삽입-결실이 유전자의 오픈 리딩 프레임(ORF) 내에 도입되는 경우, 종종 이러한 삽입-결실은 프레임시프트 돌연변이를 생성하여 이러한 ORF에 의해 암호화되는 단백질의 야생형 발현을 방해한다.

용어 "녹아웃", "유전자 녹아웃" 및 "유전적 녹아웃"은 본원에서 상호교환적으로 사용된다. 녹아웃은 Cas 단백질로 표적화함으로써 부분적으로 또는 완전히 작동하지 않게 된 본원에서의 세포의 DNA 서열을 나타내며, 녹아웃 이전의 이러한 DNA 서열은, 예를 들어, 아미노산 서열을 암호화할 수 있었거나 조절 기능 (예를 들어, 프로모터)을 가졌을 수 있다. 녹아웃은 (Cas 매개성 절단에 의해 유발된 NHEJ에 의한) 삽입-결실에 의해 또는, 표적화 부위에서, 그 옆에서, 또는 그 부근에서 서열의 기능을 감소시키거나 완전히 파괴하는, (적합한 폴리뉴클레오티드 변형 주형도 사용되는 경우, Cas 매개성 절단 또는 닉킹에 의해 유발된 HR에 의한) 서열의 특이적 제거에 의해 생성될 수 있다. 본원에서 녹아웃된 DNA 폴리뉴클레오티드 서열은 대안적으로, 예를 들어, 부분적으로 또는 완전히 방해받거나 하향조절되는 것을 특징으로 할 수 있다.

용어 "녹인", "유전자 녹인" 및 "유전적 녹인"은 본원에서 상호교환적으로 사용된다. 녹인은 (적합한 공여 DNA도 사용되는 경우, Cas 매개성 절단 또는 닉킹에 의해 유발된 HR에 의한) Cas 단백질을 사용한 표적화에 의해 세포의 특정 DNA 서열에서 DNA 서열을 대체하거나 삽입하는 것을 나타낸다. 녹인의 예는, 유전자의 암호화 영역에 관심 있는 폴리뉴클레오티드, 이종 아미노산 암호화 서열을 특이적으로 삽입하거나, 유전자좌에 전사 조절 요소를 특이적으로 삽입하는 것이다.

용어 "재조합 DNA 분자", "재조합 작제물", "발현 작제물", "작제물", "작제물", 및 "재조합 DNA 작제물"은 본원에서 상호교환적으로 사용된다. 재조합 작제물은 핵산 단편, 예를 들어 자연에서 모두가 함께 발견되지는 않는 조절 서열 및 암호화 서열의 인공적인 조합을 포함한다. 예를 들어, 작제물은 상이한 공급원으로부터 유래된 조절 서열과 암호화 서열, 또는 동일한 공급원으로부터 유래되었지만, 자연에서 발견되는 것과 상이한 방식으로 배열된 조절 서열과 암호화 서열을 포함할 수 있다. 이러한 작제물은 단독으로 사용되거나 벡터 또는 플라스미드와 함께 사용될 수 있다. 당업자는 또한, 서로 다른 독립적인 유전자 편집 사건이 상이한 발현 수준 및 패턴을 초래할 수 있으므로(Jones et al., (1985) EMBO J 4:2411-2418; De Almeida et al., (1989) Mol Gen Genetics 218:78-86), 원하는 발현 수준 및 패턴을 나타내는 계통을 얻기 위해 일반적으로 여러 사건이 스크리닝된다는 것을 인식할 것이다. 이러한 스크리닝은 표준 분자 생물학적, 생화학적 분석, 및 DNA의 서던 분석, mRNA 발현의 노던 분석, PCR, 실시간 정량 PCR(qPCR), 역전사 PCR(RT-PCR), 단백질 발현의 면역블로팅 분석, 효소 또는 활성 분석, 및/또는 표현형 분석을 비롯한 기타 분석에 의해 달성될 수 있다.

본원에 사용된 용어 "발현”은 전구체 또는 성숙된 형태에서의 기능적 최종 산물(예를 들어, mRNA, 가이드 RNA, 또는 단백질)의 생성을 의미한다.

본원의 용어 "제공"은 핵산(예를 들어, 발현 작제물, 플라스미드) 또는 단백질을 세포 내에 제공(도입)하는 것을 의미한다. 제공은 핵산이 세포의 게놈에 혼입될 수 있는 진핵 또는 원핵 세포 내로의 핵산의 혼입에 대한 언급을 포함하며, 핵산 또는 단백질을 세포에 일시적으로 공급하는 것에 대한 언급을 포함한다. 제공은 전기천공(Green MR, Sambrook J. 2012. Molecular Cloning: A Laboratory Manual, Fourth Edition ed. Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY), 열 충격 처리(Green MR, Sambrook J. 2012. Molecular Cloning: A Laboratory Manual, Fourth Edition ed. Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY), 화학적 처리(Green MR, Sambrook J. 2012. Molecular Cloning: A Laboratory Manual, Fourth Edition ed. Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY), 파지 전달(Tyler BM, Goldberg RB. 1976. Transduction of chromosomal genes between enteric bacteria by bacteriophage P1. Journal of bacteriology 125:1105-1111), 결합, 접합 및 형질도입(Methods for General and Molecular Bacteriology. 1994. ASM Press, Washington D.C.)에 대한 언급을 포함한다. 핵산 단편(예를 들어, 재조합 DNA 작제물/발현 작제물)을 세포에 삽입하는 맥락에서의 제공은 "형질감염” 또는 "형질전환” 또는 "형질도입"을 포함하며, 핵산 단편이 세포의 게놈(예를 들어, 큰 원형 게놈, 플라스미드)에 혼입되거나, 자율적 레플리콘으로 변환되거나, 또는 일시적으로 발현될 수 있는 원핵 세포 내로의 핵산 단편의 혼입에 대한 언급을 포함한다.

유기체/세포 내로 제공된 핵산 분자는 유기체/세포에서 독자적으로 복제하거나, 유기체/세포의 게놈으로 통합되거나, 복제되거나 통합되지 않고 세포에 일시적으로 존재하는 것일 수 있다. 세포에 제공될 수 있는 핵산 분자의 비제한적인 예는 본원에 개시되어 있는데, 예컨대 플라스미드 및 선형 DNA 분자이다.

본원에 기재된 바와 같이, 가이드 RNA/Cas 엔도뉴클레아제 시스템은 공동으로 전달된 폴리뉴클레오티드 변형 주형과 함께 사용되어 관심 있는 게놈 뉴클레오티드 서열의 편집을 가능하게 한다. 또한, 본원에 기재된 바와 같이, 가이드 RNA/Cas 엔도뉴클레아제 시스템을 사용하는 각각의 구현예의 경우, 유사한 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템이 전개될 수 있는데, 가이드 폴리뉴클레오티드는 리보핵산을 단독으로 포함하는 것이 아니라, RNA-DNA 분자의 조합을 포함하거나, DNA 분자를 단독으로 포함한다.

"변형된 뉴클레오티드” 또는 "편집된 뉴클레오티드"는 변형되지 않은 뉴클레오티드 서열과 비교할 때 적어도 하나의 변경을 포함하는 관심 있는 뉴클레오티드 서열을 지칭한다. 이러한 "변경"은, 예를 들어, (i) 적어도 하나의 뉴클레오티드의 교체, (ii) 적어도 하나의 뉴클레오티드의 결실, (iii) 적어도 하나의 뉴클레오티드의 삽입, 또는 (iv) (i) 내지 (iii)의 임의의 조합을 포함한다.

용어 "폴리뉴클레오티드 변형 주형"은 편집될 뉴클레오티드 서열과 비교할 때 적어도 하나의 뉴클레오티드 변형을 포함하는 폴리뉴클레오티드를 지칭한다. 뉴클레오티드 변형은, 예를 들어, (i) 적어도 하나의 뉴클레오티드의 교체, (ii) 적어도 하나의 뉴클레오티드의 결실, (iii) 적어도 하나의 뉴클레오티드의 삽입, 또는 (iv) (i) 내지 (iii)의 임의의 조합을 포함할 수 있다. 선택적으로, 폴리뉴클레오티드 변형 주형은 적어도 하나의 뉴클레오티드 변형에 플랭킹한 상동 뉴클레오티드 서열을 더 포함할 수 있고, 플랭킹한 상동 뉴클레오티드 서열은 편집될 원하는 뉴클레오티드 서열과의 충분히 상동성을 제공한다.

본원에 사용된 "공여 DNA"는 Cas 엔도뉴클레아제의 표적 부위에 삽입될 관심 있는 폴리뉴클레오티드를 포함하는 DNA 작제물이다. 공여 DNA 작제물은 관심 있는 폴리뉴클레오티드에 플랭킹한 제1 상동 영역 및 제2 상동 영역을 더 포함할 수 있다. 공여 DNA의 제1 상동 영역 및 제2 상동 영역은 식물 게놈의 표적 부위에 존재하거나 거기에 플랭킹한 제1 게놈 영역 및 제2 게놈 영역에 대해 각각 상동성을 공유한다.

폴리뉴클레오티드 변형 주형 또는 공여 DNA는 DNA 표적 부위와 상동 재조합(HR)을 겪을 수 있다. 본원에서 폴리뉴클레오티드 변형 주형 또는 공여 DNA 내의 "상동 서열"은 예를 들어, 표적 부위 또는 그 부근의 서열과 100% 동일성, 또는 표적 부위 또는 그 부근의 서열과 적어도 약 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99% 동일성을 갖는, 예를 들어, 적어도 약 25개의 뉴클레오티드의 서열을 포함하거나 이로 구성될 수 있다.

폴리뉴클레오티드 변형 주형 또는 공여 DNA는 표적 부위의 서열과 이종성인 서열(또는 염기 쌍)에 의해 분리된 2개의 상동 서열을 가질 수 있다. 이러한 폴리뉴클레오티드 변형 주형 또는 공여 DNA의 이들 2개의 상동 서열은 이종 서열에 플랭킹한 "상동 암(arm)"으로 지칭될 수 있다. 2개의 상동 암을 가진 폴리뉴클레오티드 변형 주형 또는 공여 DNA와 표적 부위 간의 HR은 일반적으로 표적 부위에서 서열의 편집을 제공한다.

상동 영역은 절단된 표적 부위에서 상동 재조합을 촉진하기에 충분한 임의의 길이를 가질 수 있다. 예를 들어, 상동 영역이 해당 게놈 영역과 상동 재조합을 겪기에 충분한 상동성을 갖도록, 상동 영역은 적어도 5~10, 5~15, 5~20, 5~25, 5~30, 5~35, 5~40, 5~45, 5~50, 5~55, 5~60, 5~65, 5~70, 5~75, 5~80, 5~85, 5~90, 5~95, 5~100, 5~200, 5~300, 5~400, 5~500, 5~600, 5~700, 5~800, 5~900, 5~1000, 5~1100, 5~1200, 5~1300, 5~1400, 5~1500, 5~1600, 5~1700, 5~1800, 5~1900, 5~2000, 5~2100, 5~2200, 5~2300, 5~2400, 5~2500, 5~2600, 5~2700, 5~2800, 5~2900, 5~3000, 5~3100 이상의 염기 길이를 포함할 수 있다. "충분한 상동성"은 2개의 폴리뉴클레오티드 서열이 상동 재조합 반응을 위한 기질로서 작용하기에 충분한 구조적 유사성을 갖는다는 것을 의미한다. 구조적 유사성은 각각의 폴리뉴클레오티드 단편의 전체 길이, 뿐만 아니라 폴리뉴클레오티드의 서열 유사성을 포함한다. 서열 유사성은, 서열의 전체 길이에 걸친 백분율 서열 동일성, 및/또는 100% 서열 동일성을 갖는 연속된 뉴클레오티드와 같은 국부적 유사성을 포함하는 보존 영역, 및 서열의 일부 길이에 걸친 백분율 서열 동일성에 의해 설명될 수 있다.

표적 및 폴리뉴클레오티드 변형 주형 또는 공여 DNA가 공유하는 상동성의 양 또는 서열 동일성은 다를 수 있고, 약 1~20 bp, 20~50 bp, 50~100 bp, 75~150 bp, 100~250 bp, 150~300 bp, 200~400 bp, 250~500 bp, 300~600 bp, 350~750 bp, 400~800 bp, 450~900 bp, 500~1000 bp, 600~1250 bp, 700~1500 bp, 800~1750 bp, 900~2000 bp, 1~2.5 kb, 1.5-3 kb, 2~4 kb, 2.5~5 kb, 3~6 kb, 3.5~7 kb, 4~8 kb, 5~10 kb, 또는 표적 부위의 총 길이까지의 범위의 단위 정수값을 갖는 총 길이 및/또는 영역을 포함한다. 이들 범위는 범위 내 모든 정수를 포함하는데, 예를 들어, 1~20 bp의 범위는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 및 20 bp를 포함한다. 상동성의 양은 2개의 폴리뉴클레오티드의 전체 정렬 길이에 걸친 백분율 서열 동일성에 의해 설명될 수도 있는데, 이는 약 적어도 50%, 55%, 60%, 65%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%의 백분율 서열 동일성을 포함한다. 충분한 상동성은 폴리뉴클레오티드 길이, 전체 백분율 서열 동일성, 및 선택적으로, 연속된 뉴클레오티드의 보존 영역 또는 국소 백분율 서열 동일성의 임의의 조합을 포함하는데, 예를 들어, 충분한 상동성은 표적 유전자좌의 영역과 적어도 80% 서열 동일성을 갖는 75~150 bp의 영역으로써 설명될 수 있다. 충분한 상동성은 매우 엄격한 조건 하에서 2개의 폴리뉴클레오티드의 특이적 혼성화 능력 예측에 의해 설명될 수도 있다(예를 들어, Sambrook et al., (1989) Molecular Cloning: A Laboratory Manual, (Cold Spring Harbor Laboratory Press, NY); Current Protocols in Molecular Biology, Ausubel et al., Eds (1994) Current Protocols, (Greene Publishing Associates, Inc. 및 John Wiley & Sons, Inc.); 및, Tijssen (1993) Laboratory Techniques in Biochemistry and Molecular Biology--Hybridization with Nucleic Acid Probes, (Elsevier, New York) 참조).

일 구현예에서, 본 발명은, 대장균 세포의 게놈 내 뉴클레오티드 서열을 편집하는 방법으로서, 가이드 RNA를 암호화하는 DNA 서열을 포함하는 적어도 하나의 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형을, 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제 DNA 서열을 포함하는 대장균 세포에 제공하는 단계를 포함하되, 상기 Cas9 엔도뉴클레아제 DNA 서열은 상기 대장균 세포의 게놈 내 표적 부위에서 이중 가닥 절단을 도입할 수 있는 Cas9 엔도뉴클레아제를 암호화하고, 상기 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는 방법을 기술한다. 대장균 세포의 게놈 내 뉴클레오티드 서열은 프로모터 서열, 종결자 서열, 조절 요소 서열, 암호화 서열, 프로파지, 위유전자, 외인성 유전자, 내인성 유전자로 이루어진 군으로부터 선택될 수 있다. 가이드 RNA를 암호화하는 DNA 서열을 포함하는 재조합 DNA 작제물은 원형 플라스미드를 통해 제공될 수 있다. 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형은 별개의 플라스미드 상에 제공되거나 단일 플라스미드 상에 제공될 수 있다. 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형은 전기천공, 열 충격, 파지 전달, 결합, 접합 및 형질도입, 또는 이들의 임의의 조합으로 이루어진 군으로부터 선택되는 하나의 수단을 통해 제공될 수 있다.

편집될 뉴클레오티드 서열은 내인성 서열, 인공적 서열, 기존 서열, 또는 편집 중인 세포에 형질전환되는 서열일 수 있다. 예를 들어, 세포의 게놈 내 뉴클레오티드 서열은 천연 유전자, 돌연변이 유전자, 비 천연 유전자, 외래 유전자, 또는 세포의 게놈에 안정적으로 혼입된 이식유전자일 수 있다. 이러한 뉴클레오티드의 편집에 의해 더 바람직한 표현형 또는 유전자형을 얻을 수 있다.

일 구현예에서, 본 개시는, 대장균 세포의 게놈 내 뉴클레오티드 서열을 편집하는 방법으로서, 적어도, 가이드 RNA를 암호화하는 DNA 서열을 포함하는 제1 재조합 DNA 작제물, 원형 폴리뉴클레오티드 변형 주형, 및 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제를 암호화하는 DNA 서열을 포함하는 제2 재조합 DNA 작제물을, 대장균 세포에 제공하는 단계를 포함하되, Cas9 엔도뉴클레아제는 상기 대장균 세포의 게놈 내 표적 부위에서 이중 가닥 절단을 도입하고, 상기 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는 방법을 기술한다.

본 발명의 일 구현예에서, 상기 방법은, 대장균 세포의 게놈에 관심 있는 폴리뉴클레오티드 서열을 삽입하는 방법으로서, 가이드 RNA를 암호화하는 DNA 서열을 포함하는 적어도 하나의 재조합 DNA 작제물 및 원형 공여 DNA를, 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제 DNA 서열을 포함하는 대장균 세포에 제공하는 단계를 포함하되, 상기 Cas9 엔도뉴클레아제 DNA 서열은 상기 대장균 세포의 게놈 내 표적 부위에서 이중 가닥 절단을 도입할 수 있는 Cas9 엔도뉴클레아제를 암호화하고, 상기 공여 DNA는 폴리뉴클레오티드를 포함하는 방법을 포함한다.

대장균 내 표적 부위의 예는 당 활용 유전자(예를 들어, 갈락토키나제, galK), 대사 유전자(예를 들어, 이소시트레이트 데하이드로게나제, icd, (Kabir MM, Shimizu K. 2004. Applied microbiology and biotechnology 65:84-96)), 생합성 유전자(예를 들어, 티미딜레이트 합성 효소, thyA (Belfort M, Maley G, Pedersen-Lane J, Maley F. PNAS. 1983. 80(16):4914-18), 전사 조절자(예를 들어, 일반적인 스트레스 반응 조절자, rpoS (Notley-McRobb L, King T, Ferenci T (2002) J Bacteriol 184(3);806-11. PMID: 11790751), 신호 단백질(예를 들어, 무산소 산화 환원 조절 센서, arcB(Iuchi S, Matsuda Z, Fujiwara T, Lin EC (1990). Mol Microbiol 1990;4(5);715-27. PMID: 2201868), tRNA(예를 들어, tRNA 알라닌, alaU (Siekevitz P, Zamecnik PC (1981). Cell Biol 91(3 Pt 2);53s-65s. PMID: 7033244)), 스트레스 반응 단백질(예를 들어, 파지 쇼크 단백질 A, pspA (Adams H, Teertstra W, Demmers J, Boesten R, Tommassen J (2003). J Bacteriol 2003;185(4);1174-80. PMID: 12562786)), 리보솜 성분(예를 들어, S12 리보솜 단백질, rpsL,(Funatsu G, Yaguchi M, Wittmann-Liebold B (1977). "Primary stucture of protein S12 from the small Escherichia coli ribosomal subunit." FEBS Lett 73(1);12-7. PMID: 320034) 및 23s 리보솜 RNA, rrlD(Arkov AL, Hedenstierna KO, Murgola EJ (2002). "Mutational evidence for a functional connection between two domains of 23S rRNA in translation termination." J Bacteriol 184(18);5052-7. PMID: 12193621)), DNA 복제(e.g. DNA 폴리머라제 II, polB(Chen H, Bryan SK, Moses RE (1989). "Cloning the polB gene of Escherichia coli and identification of its product." J Biol Chem 264(34);20591-5. PMID: 2684981)), 전사 기구(예를 들어, RNA 폴리머라제의 β' 서브유닛, rpoC(Squires C, Krainer A, Barry G, Shen WF, Squires CL (1981). "Nucleotide sequence at the end of the gene for the RNA polymerase beta' subunit (rpoC)." Nucleic Acids Res 1981;9(24);6827-40. PMID: 6278450), 전달자(예를 들어, 락토스 투과효소, lacY(Buchel DE, Gronenborn B, Muller-Hill B (1980). "Sequence of the lactose permease gene." Nature 1980;283(5747);541-5. PMID: 6444453)), 파지 부착 부위(예를 들어, λ 부착 부위, attB (Landy A, Ross W (1977). "Viral integration and excision: structure of the lambda att sites." Science 197(4309);1147-60. PMID: 331474)), 프로파지 유전자(예를 들어, 세포 분열의 rac 프로파지 억제제, kilR(Conter A, Bouche JP, Dassain M (1996). "Identification of a new inhibitor of essential division gene ftsZ as the kil gene of defective prophage Rac." J Bacteriol 178(17);5100-4. PMID: 8752325)), 또는 세포 분열(예를 들어, 세포 분열 고리, ftsZ (Robinson AC, Kenan DJ, Hatfull GF, Sullivan NF, Spiegelberg R, Donachie WD (1984). "DNA sequence and transcriptional organization of essential cell division genes ftsQ and ftsA of Escherichia coli: evidence for overlapping transcriptional units." J Bacteriol 160(2);546-55. PMID: 6094474))을 포함한다. 표적 부위에 적합한 추가 유전자가 정의되었다(Karp PD, Weaver D, Paley S, Fulcher C, Kubo A, Kothari A, Krummenacker M, Subhraveti P, Weerasinghe D, Gama-Castro S, Huerta AM, Muniz-Rascado L, Bonavides-Martinez C, Weiss V, Peralta-Gil M, Santos-Zavaleta A, Schroder I, Mackie A, Gunsalus R, Collado-Vides J, Keseler IM, Paulsen I. 2014. The EcoCyc Database. EcoSal Plus 2014; Keseler IM, Collado-Vides J, Santos-Zavaleta A, Peralta-Gil M, Gama-Castro S, Muniz-Rascado L, Bonavides-Martinez C, Paley S, Krummenacker M, Altman T, Kaipa P, Spaulding A, Pacheco J, Latendresse M, Fulcher C, Sarker M, Shearer AG, Mackie A, Paulsen I, Gunsalus RP, Karp PD. 2011. EcoCyc: a comprehensive database of Escherichia coli biology. Nucleic acids research 39:D583-590.; Keseler IM, Bonavides-Martinez C, Collado-Vides J, Gama-Castro S, Gunsalus RP, Johnson DA, Krummenacker M, Nolan LM, Paley S, Paulsen IT, Peralta-Gil M, Santos-Zavaleta A, Shearer AG, Karp PD. 2009. EcoCyc: a comprehensive view of Escherichia coli biology. Nucleic acids research 37:D464-470;. Escherichia coli and Salmonella typhimurium: Cellular and Molecular Biology, 1987 First ed. American Society of Microbiology, Washington, DC.

용어 "세포 침투성 펩티드"(CPP) 및 "단백질 형질도입 도메인"(PTD)은 본원에서 상호교환적으로 사용된다. CPP는 단백질 화물, 특히, 본원에 기재된 하나 이상의 RGEN 단백질 성분(예컨대, Cas9 단백질)의 세포 흡수를 촉진할 수 있는, 일반적으로 길이가 약 5~60개 아미노산 잔기인 펩티드를 지칭한다. 이러한 단백질 화물은 공유 또는 비 공유 연결을 통해 하나 이상의 CPP들과 결합될 수 있다. 또한, 특정 구현예에서 CPP는 지질 이중층, 마이셀, 세포막, 세포 기관 막, 소포막, 또는 세포벽 중 하나 이상을 가로질러/통해 단백질 화물의 이동 또는 횡단을 촉진할 수 있는 것을 특징으로 할 수 있다. 본원의 CPP는 특정 구현예에서 양이온성, 양친매성, 또는 소수성일 수 있다(예를 들어, 본원에 참조로 포함되는 2014년 8월 13일 출원된 미국 가특허 출원 62/036652호 참조).

용어 "부피 기준 백분율", "부피 백분율", "vol %" 및 "v/v %"는 본원에서 상호교환적으로 사용된다. 용액 중의 용질의 부피 기준 백분율은 식: [(용질의 부피)/(용액의 부피)] × 100%를 이용하여 결정할 수 있다.

용어 "중량 기준 백분율", "중량 백분율(wt%)" 및 "중량-중량 백분율(% w/w)"은 본원에서 상호교환적으로 사용된다. 중량 기준 백분율은 재료가 조성물, 혼합물 또는 용액 중에 포함될 때 질량을 기준으로 한 재료의 백분율을 지칭한다.

용어 "폴리뉴클레오티드", "폴리뉴클레오티드 서열" 및 "핵산 서열"은 본원에서 상호교환적으로 사용된다. 이들 용어는 뉴클레오티드 서열 등을 포함한다. 폴리뉴클레오티드는 합성, 비 천연 또는 변경된 뉴클레오티드 염기를 선택적으로 포함하는 단일- 또는 이중-가닥인 DNA 또는 RNA의 중합체일 수 있다. 폴리뉴클레오티드는 cDNA, 게놈 DNA, 합성 DNA, 또는 이의 혼합물의 하나 이상의 세그먼트로 이루어질 수 있다. 뉴클레오티드(리보뉴클레오티드 또는 데옥시리보뉴클레오티드)는 다음과 같이 단일 문자 표기로 지칭될 수 있다: (각각 RNA 또는 DNA에 있어서) 아데닐레이트 또는 데옥시아데닐레이트는 "A", (각각 RNA 또는 DNA에 있어서) 시티딜레이트 또는 데옥시시티딜레이트는 "C", (각각 RNA 또는 DNA에 있어서) 구아닐레이트 또는 데옥시구아닐레이트는 "G", (RNA에 있어서) 유리딜레이트는 "U", (DNA에 있어서) 데옥시티미딜레이트는 "T", 퓨린(A 또는 G)은 "R", 피리미딘(C 또는 T)은 "Y", G 또는 T는 "K", A 또는 C 또는 T는 "H", 이노신은 "I", A 또는 T는 "W" 및 임의의 뉴클레오티드는 "N"(예를 들어, DNA 서열을 지칭하는 경우 N은 A, C, T 또는 G일 수 있고; RNA 서열을 지칭하는 경우 N은 A, C, U 또는 G일 수 있다). 본원에 개시된 임의의 RNA 서열(예를 들어, crRNA, tracrRNA, gRNA)은 적합한 DNA 서열에 의해 암호화될 수 있다.

용어 "단리된"은 이의 천연 공급원으로부터 완전히 또는 부분적으로 정제된 폴리뉴클레오티드 또는 폴리펩티드 분자를 지칭한다. 일부 경우에, 단리된 폴리뉴클레오티드 또는 폴리펩티드 분자는 더 큰 조성물, 완충액 시스템 또는 시약 믹스의 일부이다. 예를 들어, 단리된 폴리뉴클레오티드 또는 폴리펩티드 분자는 이종 방식으로 세포 또는 유기체 내에 포함될 수 있다.

용어 "유전자"는 암호화 영역으로부터 RNA(RNA는 DNA 폴리뉴클레오티드 서열로부터 전사됨)를 발현하는 DNA 폴리뉴클레오티드 서열을 지칭하며, RNA는 (단백질을 암호화하는) 메신저 RNA 또는 비-단백질-암호화 RNA (예를 들어, 본원의 crRNA, tracrRNA 또는 gRNA)일 수 있다. 유전자는 암호화 영역만을 지칭할 수 있거나, 암호화 영역(예를 들어, 프로모터, 5'-비해독 영역, 3'-전사 종결자 영역)의 상류 및/또는 하류의 조절 서열을 포함할 수 있다. 단백질을 암호화하는 암호화 영역은 본원에서 대안적으로 "오픈 리딩 프레임"(ORF)으로 지칭될 수 있다. "천연" 또는 "내인성"인 유전자는 자연에서 그 자체의 조절 서열을 가진 채 발견되는 유전자를 지칭하며, 이러한 유전자는 숙주 세포의 게놈에서 이의 자연적 위치에 위치한다. "키메라" 유전자는 자연에서 함께 발견되지 않는 조절 서열 및 암호화 서열을 포함하는, 천연 유전자가 아닌 임의의 유전자를 지칭한다(즉, 조절 영역과 암호화 영역이 서로 이종성이다). 따라서, 키메라 유전자는 상이한 공급원으로부터 유래된 조절 서열과 암호화 서열, 또는 동일한 공급원으로부터 유래되었지만, 자연에서 발견되는 것과 상이한 방식으로 배열된 조절 서열과 암호화 서열을 포함할 수 있다. "외래" 또는 "이종" 유전자는 유전자 전달에 의해 숙주 유기체 내로 도입된 유전자를 지칭한다. 외래/이종 유전자는 비 천연 유기체에 삽입된 천연 유전자, 천연 숙주 내의 새로운 위치로 도입된 천연 유전자, 또는 키메라 유전자를 포함할 수 있다. 본원에 개시된 특정 구현예에서 폴리뉴클레오티드 서열은 이종성이다. "코돈-최적화된" 오픈 리딩 프레임은 숙주 세포의 바람직한 코돈 사용 빈도를 모방하도록 설계된 코돈 사용 빈도를 나타낸다.

"변형된 유전자" 또는 "편집된 유전자"는 변형되지 않은 유전자 서열과 비교할 때 적어도 하나의 변경을 포함하는 관심 있는 유전자를 지칭한다. 이러한 "변경"은, 예를 들어, (i) 적어도 하나의 뉴클레오티드의 교체, (ii) 적어도 하나의 뉴클레오티드의 결실, (iii) 적어도 하나의 뉴클레오티드의 삽입, 또는 (iv) (i) 내지 (iii)의 임의의 조합을 포함한다.

본원에 사용된 "조절 서열"은 유전자의 전사 개시 부위(예를 들어, 프로모터), 5' 비해독 영역 및 3' 비 암호화 영역의 상류에 위치하며, 전사, 프로세싱 또는 안정성, 또는 유전자로부터 전사된 RNA의 번역에 영향을 줄 수 있는 뉴클레오티드 서열을 지칭한다. 본원의 조절 서열은 프로모터, 인핸서, 사일런서, 5' 비해독 선도 서열, 인트론, 폴리아데닐화 인식 서열, RNA 프로세싱 부위, 이펙터 결합 부위, 스템-루프 구조 및 유전자 발현의 조절에 관여하는 기타 요소를 포함할 수 있다. 본원의 하나 이상의 조절 요소는 본원의 암호화 영역에 대해 이종성일 수 있다.

본원에 사용된 "프로모터"는 유전자로부터의 RNA의 전사를 조절할 수 있는 DNA 서열을 지칭한다. 일반적으로, 프로모터 서열은 유전자의 전사 개시 부위의 상류에 있다. 프로모터는 천연 유전자로부터 그 전체가 유래될 수도 있거나, 자연에서 발견되는 상이한 프로모터들로부터 유래된 상이한 요소들로 구성될 수 있거나, 심지어 합성 DNA 세그먼트를 포함할 수 있다. 모든 환경하의 대부분의 경우에 세포에서 유전자가 발현되도록 하는 프로모터는 통상적으로 "항시성 프로모터(constitutive promoter)"라 지칭된다. 본원의 하나 이상의 프로모터는 본원의 암호화 영역에 대해 이종성일 수 있다.

본원에 사용된 "강력한 프로모터"는 단위 시간당 상대적으로 많은 수의 생산 개시를 이끌 수 있는 프로모터를 지칭하고/지칭하거나, 세포 내 유전자의 평균 전사 수준보다 더 높은 수준의 유전자 전사를 유도하는 프로모터이다.

항시성 대장균 프로모터는 당해 분야에 잘 알려져 있으며, 전사 인자에 의한 조절이 결여되고 RNA 폴리머라제만으로 인식되는 프로모터를 포함한다(Shimada T, Yamazaki Y, Tanaka K, Ishihama A. The whole set of constitutive promoters recognized by RNA polymerase RpoD holoenzyme of Escherichia coli. PLoS One. 2014. Mar 6; 9(3):e90447; Science 2002, Stochastic Gene Expression in a Single Cell Vol. 297 no. 5584 pp. 1183-1186).

본원에 사용된 용어 "3' 비 암호화 서열", "전사 종결자" 및 "종결자"는 암호화 서열의 하류에 위치한 DNA 서열을 지칭한다. 이는 폴리아데닐화 인식 서열 및 mRNA 프로세싱 또는 유전자 발현에 영향을 줄 수 있는 조절 신호를 암호화하는 기타 서열을 포함한다.

본원에 사용된 용어 "카세트"는 단백질 암호화 RNA 또는 비 단백질 암호화 RNA를 암호화하는 DNA 서열에 작동 가능하게 연결된 프로모터를 지칭한다. 카세트는 선택적으로 3' 비암호화 서열에 작동 가능하게 연결될 수 있다.

폴리뉴클레오티드와 관련하여 본원에 사용된 용어 "상류" 및 "하류"는 각각 "~의 5'" 및 "~의 3'"을 지칭한다.

본원에 사용된 용어 "발현"은 (i) 암호화 영역으로부터 RNA(예를 들어, mRNA, 또는 crRNA, tracrRNA 또는 gRNA와 같은 비 단백질 암호화 RNA)의 전사, 또는 (ii) mRNA로부터의 폴리펩티드의 번역을 지칭한다.

유전자 또는 폴리뉴클레오티드 서열의 발현을 설명하는 데 사용되는 경우, 용어 "하향 조절", "방해", "억제", "불활성화" 및 "침묵화"는 폴리뉴클레오티드 서열의 전사가 감소되거나 제거되는 경우를 지칭하도록 본원에서 상호교환적으로 사용된다. 이는 폴리뉴클레오티드 서열로부터의 RNA 전사물의 감소 또는 제거를 초래하며, 이는 (유전자가 ORF를 포함한 경우) 폴리뉴클레오티드 서열로부터 유래된 단백질 발현의 감소 또는 제거를 초래한다. 대안적으로, 하향 조절은 폴리뉴클레오티드 서열에 의해 생성된 전사물로부터의 단백질 번역이 감소되거나 제거된 경우를 지칭할 수 있다. 또한, 대안적으로, 하향 조절은 폴리뉴클레오티드 서열에 의해 발현된 단백질의 활성이 감소된 경우를 지칭할 수 있다. 세포에서 위의 공정(전사, 번역, 단백질 활성) 중 어느 하나의 감소는 적합한 대조 세포의 전사, 번역 또는 단백질 활성에 대하여 약 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 95% 또는 100%일 수 있다. 하향 조절은, 예를 들어, 본원에 개시된 바와 같은 표적화 이벤트(예를 들어, 삽입-결실, 녹아웃)의 결과일 수 있다.

용어 "대조 세포" 및 "적합한 대조 세포"는 본원에서 상호교환적으로 사용되며, 특정 변형(예를 들어, 폴리뉴클레오티드의 과발현, 폴리뉴클레오티드의 하향 조절)이 이루어진 세포(즉, "실험 세포")와 관련하여 언급될 수 있다. 대조 세포는 실험 세포의 특정 변형을 가지지 않거나 발현하지 않는 임의의 세포일 수 있다. 예를 들어, 대조 세포는 실험 세포의 직접적인 부모일 수 있으며, 직접적인 부모 세포는 실험 세포에 있는 특정 변형을 가지지 않는다. 대안적으로, 대조 세포는 하나 이상의 세대에 의해 제거되는 실험 세포의 부모일 수 있다. 또한, 대안적으로, 대조 세포는 실험 세포의 형제일 수 있으며, 형제 세포는 실험세포에 존재하는 특정 변형을 포함하지 않는다.

본원에 사용된 용어 "증가된"은 증가된 양 또는 활성이 비교되는 양 또는 활성보다 적어도 약 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11%, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 50%, 100%, 또는 200% 초과인 양 또는 활성을 지칭할 수 있다. 용어 "증가된", "상승된", "증진된", "보다 많은" 및 "개선된"은 본원에서 상호교환적으로 사용된다. 용어 "증가된"은 단백질을 암호화하는 폴리뉴클레오티드의 발현을 특성화하는 데 사용될 수 있는데, 예를 들어, "증가된 발현"은 또한 "과발현"을 의미할 수 있다.

본원에 사용된 용어 "작동 가능하게 연결된"은 하나의 기능이 다른 것에 의해 영향을 받는 둘 이상의 핵산 서열의 결합을 지칭한다. 예를 들어, 프로모터는 그것이 그 암호화 서열의 발현에 영향을 미칠 수 있는 경우에 암호화 서열에 작동 가능하게 연결된다. 다시 말하면, 암호화 서열은 프로모터의 전사적 조절하에 있다. 암호화 서열은, 예를 들어, 조절 서열에 작동 가능하게 연결될 수 있다. 또한, 예를 들어, crRNA는 crRNA의 tracrRNA 메이트 서열이 tracrRNA의 5' 서열과 어닐링하도록 본원의 tracrRNA에 작동 가능하게 연결(융합)될 수 있다.

본원에 사용된 용어 "재조합"은, 예를 들어, 화학적 합성에 의한 또는 유전자 조작 기술에 의해 분리된 핵산 세그먼트의 조작에 의한, 그렇지 않았다면 분리된 2개의 서열 세그먼트들의 인공적인 조합을 지칭한다.

본원의 재조합 작제물/벡터(예를 들어, 본원의 RNA 성분 카세트를 암호화하는 DNA 폴리뉴클레오티드, 또는 본원의 Cas 단백질 또는 Cas-CPP 융합 단백질을 암호화하는 DNA 폴리뉴클레오티드)를 제조하는 방법은 예를 들어, J. Sambrook 및 D. Russell (Molecular Cloning: A Laboratory Manual, 3rd Edition, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY, 2001); T.J. Silhavy et al. (Experiments with Gene Fusions, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY, 1984); 및 F.M. Ausubel et al. (Short Protocols in Molecular Biology, 5th Ed. Current Protocols, John Wiley and Sons, Inc., NY, 2002)에 기술된 바와 같은 표준 재조합 DNA 및 분자 클로닝 기술을 따를 수 있다.

"표현형 마커"는 시각적 마커 및 그것이 양성의 선택 가능한 마커든 음성의 선택 가능한 마커든 선택 가능한 마커를 포함하는, 스크리닝이 가능하거나 선택 가능한 마커이다. 임의의 표현형 마커가 이용될 수 있다. 구체적으로, 선택 가능하거나 스크리닝 가능한 마커는 종종 특정한 조건 하에서, 그것을 포함하는 분자 또는 세포를 확인할 수 있게 하거나, 그것을 포함하는 분자 또는 세포를 선택할 수 있게 하거나, 그것을 포함하는 분자 또는 세포에 대해 선택할 수 있게 하는 DNA 세그먼트를 포함한다. 이들 마커는 활성, 예컨대, RNA, 펩티드, 또는 단백질의 생산(그러나 이에 한정되지 않음)을 암호화할 수 있거나, RNA, 펩티드, 단백질, 무기 및 유기 화합물 또는 조성물 등을 위한 결합 부위를 제공할 수 있다.

대장균에 대한 선택 가능한 마커의 예는 항생제(암피실린, 카르베니실린, 페니실린, 클로람페니콜, 카나마이신, 테트라사이클린, 에리트로마이신, 스펙티노마이신, 스트렙토마이신)에 대한 저항성 및 영양요구성 마커(아미노산 생합성, 당 활용, 및 비타민 생합성)를 포함한다(Methods for General and Molecular Bacteriology. 1994. ASM Press, Washington D.C).

대장균 내 스크리닝 가능한 마커는 형광 단백질(GFP, RFP, CFP, YFP), 당 활용(락토스, 리보스, 글루코스, 수크로스, 갈락토스, 글리세롤)(Methods for General and Molecular Bacteriology. 1994. ASM Press, 워싱턴 D.C.) 및 특이한 프라이머 결합 부위의 생성을 포함한다.

폴리뉴클레오티드 또는 폴리펩티드 서열과 관련하여 본원에 사용된 용어 "서열 동일성" 또는 "동일성"은 소정의 비교창에서 최대 상응도로 정렬되는 경우에 동일한 두 서열 내의 핵산 잔기 또는 아미노산 잔기를 지칭한다. 따라서, "서열 동일성 백분율" 또는 "백분율 동일성"은 비교창에서 최적으로 정렬된 2개의 서열을 비교하여 결정된 값을 지칭하며, 이때, 비교창 내의 폴리뉴클레오티드 또는 폴리펩티드 서열의 부분은 2개의 서열의 최적 정렬을 위한 (삽입 또는 결실을 포함하지 않는) 기준 서열과 비교하여 삽입 또는 결실(즉, 갭)을 포함할 수 있다. 백분율은, 두 서열에서 동일한 핵산 염기 또는 아미노산 잔기가 나타나는 위치의 개수를 결정하여 일치하는 위치의 개수를 산출하고, 일치하는 위치의 개수를 비교창 내의 위치의 총 개수로 나누고, 그 결과에 100을 곱하여 서열 동일성의 백분율을 산출함으로써 계산한다. DNA 서열과 RNA 서열 사이의 서열 동일성을 계산하는 경우, DNA 서열의 T 잔기가 RNA 서열의 U 잔기와 정렬되며, 이와 "동일"하다고 간주될 수 있음을 이해할 것이다. 제1 폴리뉴클레오티드와 제2 폴리뉴클레오티드의 백분율 상보성을 결정하기 위해, 예를 들어 (i) 제1 폴리뉴클레오티드와 제2 폴리뉴클레오티드의 보체 서열(또는 그 반대) 사이의 백분율 동일성, 및/또는 (ii) 표준(canonical) 왓슨과 크릭 염기쌍을 생성할 제1 폴리뉴클레오티드와 제2 폴리뉴클레오티드 사이의 염기의 백분율을 결정함으로써 이를 얻을 수 있다.

예를 들어, 국립 생물공학 정보 센터(National Center for Biotechnology Information; NCBI) 웹사이트에서 온라인으로 이용 가능한 기본 국소 정렬 검색 도구(Basic Local Alignment Search Tool; BLAST) 알고리즘을 사용하여, 본원에 개시된 둘 이상의 폴리뉴클레오티드 서열(BLASTN 알고리즘) 또는 폴리펩티드 서열(BLASTP 알고리즘) 사이의 백분율 동일성을 측정할 수 있다. 대안적으로, 서열 사이의 백분율 동일성은 클러스탈(Clustal) 알고리즘(예를 들어, 클러스탈W 또는 클러스탈V)을 사용하여 수행될 수 있다. 클러스탈 정렬 방법을 사용하는 다중 정렬의 경우, 디폴트 값은 갭 페널티(GAP PENALTY)=10 및 갭 길이 페널티(GAP LENGTH PENALTY)=10에 상응할 수 있다. 클러스탈 방법을 사용하는 단백질 서열의 백분율 동일성의 계산 및 쌍 정렬을 위한 디폴트 파라미터는 케이터플(KTUPLE)=1, 갭 페널티=3, 윈도우(WINDOW)=5 및 다이아고날스 세이브드(DIAGONALS SAVED)=5일 수 있다. 핵산의 경우, 이들 파라미터는 케이터플=2, 갭 페널티=5, 윈도우=4 및 다이아고날스 세이브드=4일 수 있다. 또한, 대안적으로, 서열 사이의 백분율 동일성은 블로섬(BLOSUM) 매트릭스(예를 들어, 블로섬62)를 사용하는 갭 오픈(GAP OPEN)=10, 갭 연장(GAP EXTEND)=0.5, 엔드 갭 페널티(END GAP PENALTY)=false, 엔드 갭 오픈=10, 엔드 갭 연장=0.5와 같은 파라미터를 갖는 엠보스(EMBOSS) 알고리즘(예를 들어, 니들(needle))을 사용하여 수행될 수 있다.

본원에서, 제2 서열에 "상보적인" 제1 서열은 대안적으로 제2 서열에 대해 "안티센스(antisense)" 배향인 것으로 지칭될 수 있다.

다양한 폴리펩티드 아미노산 서열 및 폴리뉴클레오티드 서열은 개시된 본 발명의 특정 구현예의 특징으로서 본원에 개시되어 있다. 본원에 개시된 서열과 적어도 약 70 내지 85%, 85 내지 90%, 또는 90% 내지 95% 동일한 이들 서열의 변이체가 사용될 수 있다. 대안적으로, 변이체 아미노산 서열 또는 폴리뉴클레오티드 서열은 본원에 개시된 서열과 적어도 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99% 동일성을 가질 수 있다. 변이체 아미노산 서열 또는 폴리뉴클레오티드 서열은 개시된 서열과 동일한 기능/활성, 또는 개시된 서열의 기능/활성의 적어도 약 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99%를 갖는다.

본원의 Cas9 단백질의 각각의 아미노산 위치에서의 본원에 개시된 모든 아미노산 잔기는 예이다. 특정 아미노산이 서로 유사한 구조적 특징 및/또는 전하 특징을 공유함(즉, 보존)을 고려하면, Cas9의 각 위치에서의 아미노산은 개시된 서열에서 제공된 것과 같거나, 다음과 같이 보존된 아미노산 잔기로 치환될 수 있다("보존적 아미노산 치환"):

1. 다음과 같은 작은 지방족의 비극성 또는 약간 극성인 잔기가 서로를 대체할 수 있다: Ala (A), Ser (S), Thr(T), Pro (P), Gly (G);

2. 다음과 같은 극성의 음으로 하전된 잔기 및 그들의 아미드가 서로를 대체할 수 있다: Asp (D), Asn (N), Glu (E), Gln (Q);

3. 다음과 같은 극성의 양으로 하전된 잔기가 서로를 대체할 수 있다: His (H), Arg (R), Lys (K);

4. 다음과 같은 지방족의 비극성 잔기가 서로를 대체할 수 있다: Ala (A), Leu (L), Ile (I), Val (V), Cys (C), Met (M); 및

5. 다음과 같은 큰 방향족 잔기가 서로를 대체할 수 있다: Phe (F), Tyr (Y), Trp (W).

본원에서 대장균 세포와 같은 박테리아 세포의 게놈은 세포에 자율적으로 존재할 수 있는(복제할 수 있고 딸 세포로 전달할 수 있는) DNA 분자를 지칭한다. 게놈 DNA는 세포에 천연적이거나 이종성일 수 있다. 대장균 내 게놈 DNA의 예는 플라스미드 DNA뿐만 아니라 큰 원형 DNA 분자 상에 위치한 DNA를 포함한다.

본원의 용어 "세포"는 임의의 유형의 세포, 예컨대, 원핵 세포 또는 진핵 세포를 지칭한다. 진핵 세포는 핵 및 기타 막으로 둘러싸인 구조물(세포 기관)이 있지만, 원핵 세포는 핵이 없다. 특정 구현예에서의 세포는 포유류 세포 또는 비 포유류 세포일 수 있다. 비 포유류 세포는 진핵 또는 원핵일 수 있다. 예를 들어, 본원의 비 포유류 세포는 미생물 세포 또는 비 포유류의 다세포 유기체, 예컨대, 식물, 곤충, 선충, 조류 종, 양서류, 파충류, 또는 어류의 세포를 지칭할 수 있다. 본원의 미생물 세포는 예를 들어, 곰팡이 세포(예컨대, 효모 세포), 원핵 세포, 원생 세포(예컨대, 조류 세포), 유글레나 세포, 스트라메노필(stramenopile) 세포, 또는 난균 세포를 지칭할 수 있다. 본원의 원핵 세포는 예를 들어, 박테리아 세포 또는 고세균 세포를 지칭할 수 있다.

박테리아 세포는 구균, 간균, 스피로헤타, 스페로플라스트, 원형질체 등의 형태인 것들일 수 있다. 기타 비제한적인 박테리아의 예로는 그램 음성 및 그램 양성인 것들이 포함된다. 또 다른 비제한적인 박테리아의 예에는 살모넬라(예컨대, S. 티피(typhi), S. 엔테리티디스(enteritidis)), 시겔라(예컨대, S. 디스엔테리아에(dysenteriae))), 에스케리챠(예컨대, 대장균), 엔테로박터(Enterobacter), 세라티아(Serratia), 프로테우스(Proteus), 예시니아, 시트로박터(Citrobacter), 에드워드시엘라(Edwardsiella), 프로비덴시아(Providencia), 클레브시엘라(Klebsiella), 하프니아(Hafnia), 에윈겔라(Ewingella), 클루이베라(Kluyvera), 모르가넬라(Morganella), 플라노코커스(Planococcus), 스토마토코커스(Stomatococcus), 미크로코커스(Micrococcus), 스타필로코커스(예컨대, S. 아우레우스(aureus), S. 에피데르미디스(epidermidis)), 비브리오(예컨대, V. 콜레라에(cholerae)), 아에로모나스(Aeromonas), 플레스시오모나스(Plessiomonas), 해모필루스(Haemophilus)(예컨대, H. 인플루엔자), 악티노바실루스(Actinobacillus), 파스퇴렐라(Pasteurella), 마이코플라스마(Mycoplasma)(예컨대, M. 뉴모니아(pneumonia)), 우레아플라스마(Ureaplasma), 리케챠(Rickettsia), 콕시엘라(Coxiella), 로카리마에(Rochalimaea), 에르리키아(Ehrlichia), 스트렙토코커스(Streptococcus)(예컨대, S. 피오제네스, S. 뮤탄스, S. 뉴모니아에), 엔테로코커스(Enterococcus)(예컨대, E. 패칼리스(faecalis)), 애로코커스(Aerococcus), 게멜라(Gemella), 락토코커스(Lactococcus)(예컨대, L. 락티스(lactis)), 류코노스톡(Leuconostoc)(예컨대, L. 메센테로이데스(mesenteroides), 페디코커스(Pedicoccus), 바실루스(예컨대, B. 세레우스(cereus), B. 서브틸리스(subtilis), B. 튜린겐시스(thuringiensis)), 코리네박테리움(Corynebacterium)(예컨대, C. 디프테리아(diphtheriae)), 아르카노박테리움(Arcanobacterium), 악티노마이세스(Actinomyces), 로도코커스(Rhodococcus), 리스테리아(Listeria)(예컨대, L. 모노시토게네스(monocytogenes)), 에리시페로트릭스(Erysipelothrix), 가드네렐라(Gardnerella), 네이세리아(Neisseria)(예컨대, N. 메닌기티디스(meningitidis), N. 고노르호에(gonorrhoeae)), 캄필로박터(Campylobacter), 아르코박터(Arcobacter), 울리넬라(Wolinella), 헬리코박터(Helicobacter)(예컨대, H. 파일로리(pylori)), 아크로모박터(Achromobacter), 아시네토박터(Acinetobacter), 아그로박테리움(Agrobacterium)(예컨대, A. 투메파시엔스(tumefaciens)), 알카리게네스(Alcaligenes), 크리세오모나스(Chryseomonas), 코마모나스(Comamonas), 에이케넬라(Eikenella), 플라비모나스(Flavimonas), 플라보박테리움(Flavobacterium), 모라셀라(Moraxella), 올리겔라(Oligella), 슈도모나스(Pseudomonas)(예컨대, P. 애루기노사(aeruginosa)), 세와넬라(Shewanella), 위크셀라(Weeksella), 산토모나스(Xanthomonas), 보르데텔라(Bordetella), 프란시에셀라(Franciesella), 브루셀라(Brucella), 레지오넬라(Legionella), 아피피아(Afipia), 바르토넬라(Bartonella), 카림마토박테리움(Calymmatobacterium), 카르디오박테리움(Cardiobacterium), 스트렙토바실루스(Streptobacillus), 스피릴룸(Spirillum), 펩토스트렙토코커스(Peptostreptococcus), 펩토코커스(Peptococcus), 사르시니아(Sarcinia), 코프로코커스(Coprococcus), 루미노코커스(Ruminococcus), 프로피오니박테리움(Propionibacterium), 모비룬커스(Mobiluncus), 비피도박테리움(Bifidobacterium), 유박테리움(Eubacterium), 락토바실루스(Lactobacillus)(예컨대, L. 락티스(lactis), L. 아시도필루스(acidophilus)), 로티아(Rothia), 클로스트리듐(Clostridium)(예컨대, C. 보툴리눔(botulinum), C. 퍼프린겐스(perfringens)), 박테로이데스(Bacteroides), 포르피로모나스(Porphyromonas), 프레보텔라(Prevotella), 푸소박테리움(Fusobacterium), 빌로필라(Bilophila), 렙토트리키아(Leptotrichia), 울리넬라(Wolinella), 아시다미노코커스(Acidaminococcus), 메가스패라(Megasphaera), 베일로넬라(Veilonella), 노르카르디아(Norcardia), 악티노마두라(Actinomadura), 노르카디옵시스(Norcardiopsis), 스트렙토마이세스(Streptomyces), 마이크로폴리스포라스(Micropolysporas), 테르모악티노마이세테스(Thermoactinomycetes), 마이코박테리움(Mycobacterium)(예컨대, M. 튜버큘로시스(tuberculosis), M. 보비스(bovis), M. 레프라(leprae)), 트레포네마(Treponema), 보렐리아(Borrelia)(예컨대, B. 부르그도르페리(burgdorferi)), 렙토스피라(Leptospira) 및 클라미디아(Chlamydiae) 속의 것들을 들 수 있다. 특정 구현예에서 박테리아는 선택적으로 식물 또는 동물(예컨대, 인간)의 해충/병원균을 특징으로 할 수 있다. 박테리아는 특정 구현예에서 (예컨대, 기타 박테리아를 함유하거나 효모 및/또는 기타 박테리아를 함유하는) 혼합 미생물 집단 내에 포함될 수 있다.

특정 구현예에서 고세균 세포는 임의의 고세균 문(Archaeal phylum), 예컨대, 유리고세균(Euryarchaeota), 크렌고세균(Crenarchaeota), 나노고세균(Nanoarchaeota), 코르고세균(Korarchaeota), 아이가르고세균(Aigarchaeota), 또는 타움고세균(Thaumarchaeota)으로부터 유래할 수 있다. 본원의 고세균 세포는 예를 들어, 호극성일 수 있다(예컨대, 대부분의 생명체에 유해한 물리적으로 또는 지구화학적으로 극도의 조건에서 성장 및/또는 번식할 수 있다). 호극성 고세균의 일부 예에는 호온성(예컨대, 45~122℃의 온도에서 성장할 수 있음), 과호열성(예컨대, 80~122℃의 온도에서 성장할 수 있음), 호산성(예컨대, 3 이하의 pH 수준에서 성장할 수 있음), 호알칼리성(예컨대, 9 이상의 pH 수준에서 성장할 수 있음), 및/또는 호염성(예컨대, 고염 농도[예를 들어, 20~30% NaCl]에서 성장할 수 있음)인 것들이 포함된다. 고세균 종의 예로는 할로박테리움(Halobacterium)(예컨대, H. 볼카니이(volcanii)), 설폴로부스(Sulfolobus)(예컨대, S. 설파타리쿠스(solfataricus), S. 아시도칼다리우스(acidocaldarius)), 써모코커스(Thermococcus)(예컨대, T. 알칼리필루스(alcaliphilus), T. 셀레르(celer), T. 키토노파구스(chitonophagus), T. 감마톨레란스(gammatolerans), T. 하이드로써말리스(hydrothermalis), T. 코다카렌시스(kodakarensis), T. 리토랄리스(litoralis), T. 펩토노필루스(peptonophilus), T. 프로푼두스(profundus), T. 스테테리(stetteri)), 메타노칼도코커스(Methanocaldococcus)(예컨대, M. 써모리토트로피쿠스(thermolithotrophicus), M. 잔나스키이(jannaschii)), 메타노코커스(Methanococcus)(예컨대, M. 마리팔루디스(maripaludis)), 메타노써모박터(Methanothermobacter)(예컨대, M. 마르부르겐시스(marburgensis), M. 써마우토트로피쿠스(thermautotrophicus)), 아캐오글로부스(Archaeoglobus)(예컨대, A. 풀기두스(fulgidus), 니트로소푸밀루스(Nitrosopumilus)(예컨대, N. 마리티무스(maritimus)), 메탈로스패라(Metallosphaera)(예컨대, M. 세둘라(sedula)), 페로플라스마(Ferroplasma), 써모플라스마(Thermoplasma), 메타노브레비박터(Methanobrevibacter)(예컨대, M. 스미시(smithii)), 및 메타노스패라(Methanosphaera)(예컨대, M. 스타츠마나(stadtmanae)) 속의 것들이 포함된다.

리컴바이니어링(recombineering)은 선형 이중 및 단일 가닥 폴리뉴클레오티드 편집 주형을 이용한 박테리아 DNA의 편집을 가능하게 한다(Datsenko KA, Wanner BL. 2000. One-step inactivation of chromosomal genes in Escherichia coli K-12 using PCR products. Proceedings of the National Academy of Sciences of the United States of America 97:6640-6645; Thomason LC, Sawitzke JA, Li X, Costantino N, Court DL. 2014. Recombineering: genetic engineering in bacteria using homologous recombination. Current protocols in molecular biology / Frederick M. Ausubel et al. 편집, 106:1 16 11-11 16 39). 선형 또는 단일 가닥 편집 주형을 이용하기 위해서는 외인성 파지 재조합효소 단백질의 발현이 필요하다(Datsenko KA, Wanner BL. 2000. One-step inactivation of chromosomal genes in Escherichia coli K-12 using PCR products. Proceedings of the National Academy of Sciences of the United States of America 97:6640-6645; 본원에 참조로 포함되는 2010년 1월 15일 발행된 미국 특허 7,736,851 DNA cloning method). 일반적으로, 점 돌연변이 또는 결실과 같은 작은 변화는 짧은 단일 가닥 올리고뉴클레오티드 편집 주형을 사용하여 발생될 수 있다. 그러나, 더 큰 변화 또는 유전자 삽입의 경우, 재조합의 낮은 빈도(약 10^-5 내지 10^-7)로 인해 원하는 편집을 포함하는 콜로니를 분리하기 위해서는 폴리뉴클레오티드 편집 주형 상의 선택 가능한 마커의 존재가 필요하다. 일단 편집되면 선택 가능한 마커는 제거되어야 하며, 종종 게놈에 흔적을 남긴다(Datsenko KA, Wanner BL. 2000. One-step inactivation of chromosomal genes in Escherichia coli K-12 using PCR products. Proceedings of the National Academy of Sciences of the United States of America 97:6640-6645).

외인성 재조합효소는 세포 천연 상동 재조합 기구 외에 제공된(즉, 비 천연 수단을 통해 발현된) 상동 재조합 시스템의 단백질을 포함한다.

RecET 단백질은 Rac 프로파지의 ATP-독립적, recA-독립적 상동 재조합 경로의 단백질을 포함한다(Kuzminov A. 1999. Recombinational repair of DNA damage in Escherichia coli and bacteriophage lambda. Microbiology and molecular biology reviews : MMBR 63:751-813).

람다-레드 단백질은 파지 람다의 레드, 레드β, 및 레드γ 단백질을 포함한다(Smith GR. 1988. Homologous recombination in procaryotes. Microbiological reviews 52:1-28).

RecBCD 억제제는 RecBCD에 결합하여 그 기능을 억제하는 단백질(예를 들어, 람다 Gam 단백질을 포함한다(Murphy KC. 2007. The lambda Gam protein inhibits RecBCD binding to dsDNA ends. Journal of molecular biology 371:19-24).

(ii) 가이드 RNA 또는 Cas 엔도뉴클레아제를 암호화하는 뉴클레오티드 서열에 (i) 작동 가능하게 연결된 프로모터를 포함하는 DNA 폴리뉴클레오티드 서열은 일반적으로, 본원에 기재된 가이드 RNA 또는 cas 엔도뉴클레아제의 안정적이고/이거나 일시적인 발현을 위해 이용될 수 있다. 이러한 폴리뉴클레오티드 서열은 예를 들어, 플라스미드, 코스미드, 파지미드, 박테리아 인공 염색체(BAC), 바이러스, 또는 선형 DNA(예를 들어, 선형 PCR 산물), 또는 폴리뉴클레오티드 서열을 세포 내로 제공하는 데 유용한 임의의 기타 유형의 벡터 또는 작제물 내에 포함될 수 있다.

박테리아 프로모터는 박테리오파지 λ 프로모터 레프트(PL)(Menart V, Jevsevar S, Vilar M, Trobis A, Pavko A. 2003. Constitutive versus thermoinducible expression of heterologous proteins in Escherichia coli based on strong PR,PL promoters from phage lambda. Biotechnology and bioengineering 83:181-190), 박테리오파지 λ 프로모터 라이트(PR)(Menart V, Jevsevar S, Vilar M, Trobis A, Pavko A. 2003. Constitutive versus thermoinducible expression of heterologous proteins in Escherichia coli based on strong PR, PL promoters from phage lambda. Biotechnology and bioengineering 83:181-190), 아라비노오스 활용 오페론 프로모터(PBAD)(Guzman LM, Belin D, Carson MJ, Beckwith J. 1995. Tight regulation, modulation, and high-level expression by vectors containing the arabinose PBAD promoter. Journal of bacteriology 177:4121-4130), 파지 T7 RNA 폴리머라제 제어 프로모터(PT7)(Ikeda RA, Ligman CM, Warshamana S. 1992. T7 promoter contacts essential for promoter activity in vivo. Nucleic acids research 20:2517-2524), 대장균의 락토스 활용 오페론의 프로모터(Plac)(Gronenborn B. 1976. Overproduction of phage lambda repressor under control of the lac promotor of Escherichia coli. Molecular & general genetics : MGG 148:243-250), 하이브리드 trp 및 lac 프로모터(Ptac)(de Boer HA, Comstock LJ, Vasser M. 1983. The tac promoter: a functional hybrid derived from the trp and lac promoters. Proceedings of the National Academy of Sciences of the United States of America 80:21-25), 및 파지 T5 프로모터(PT5)(Bujard H, Gentz R, Lanzer M, Stueber D, Mueller M, Ibrahimi I, Haeuptle MT, Dobberstein B. 1987. A T5 promoter-based transcription-translation system for the analysis of proteins in vitro and in vivo. Methods in enzymology 155:416-433)를 포함한다. 박테리아에서의 발현을 위한 다른 적합한 프로모터가 기술되어 있다(Green MR, Sambrook J. 2012. Molecular Clonine: A Laboratory Manual, Fourth Edition ed. Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY; Karp PD, et al., 2014. The EcoCyc Database. EcoSal Plus 2014; Keseler IM et al., 2011. EcoCyc: a comprehensive database of Escherichia coli biology. Nucleic acids research 39:D583-590).

특정 구현예에서, RNA 성분을 발현하기 위한 카세트를 포함하는 DNA 폴리뉴클레오티드는 RNA 성분 서열의 하류에 적합한 전사 종결 서열을 포함한다. 본원에 유용한 전사 종결 서열의 예는 본원에 참조로 포함되는 미국 특허 출원 공개 2014/0186906호에 개시되어 있다. 이러한 구현예는 일반적으로, 종결자 서열의 선택에 따라, RNA 성분 서열의 말단 다음에, 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개, 30개 이상의 잔기를 포함한다. 이러한 추가적인 잔기는 종결자 서열의 선택에 따라, 전부 U 잔기이거나, 예를 들어, 적어도 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 또는 99% U 잔기일 수 있다. 대안적으로, 리보자임 서열(예컨대, 망치머리 또는 HDV 리보자임)은 예를 들어, RNA 성분 서열의 (하류의 예컨대, 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개 이상 뉴클레오티드의) 3'일 수 있다. 따라서, 3' 리보자임 서열은 그것이 RNA 성분 서열로부터 그 자신을 절단하도록 위치할 수 있고, 이러한 절단은 전사물이 RNA 성분 서열의 말단에서 정확하게, 또는 예를 들어, RNA 성분 서열의 말단 다음에 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개 이상의 잔기가 있도록 전사물을 종료시킬 것이다.

DNA 표적 부위 서열에 결합할 수 있지만 표적 부위 서열에서 임의의 가닥을 절단하지 않는 본원의 RGEN은 다른 구현예에서 DNA 표적화 방법에 이용될 수 있다. 기능장애 뉴클레아제 도메인만 가지고 있지만 특이적인 DNA 결합 활성을 보유하는 본원에 개시된 임의의 RGEN은 이러한 유형의 표적화 방법에 이용될 수 있다.

활성 인자 전사 인자 또는 이의 활성 인자 도메인에 연결되거나 융합된 RGEN은 하나 이상의 폴리뉴클레오티드 서열의 발현을 상향 조절하는 데 이용될 수 있다. 이러한 활성화 RGEN을 도입하는 방법은 선택적으로, 전사적 상향 조절 또는 활성화 방법을 특징으로 할 수 있다. 이러한 방법에서 전사적 상향 조절의 수준은 활성화 RGEN의 적용 전의 전사 수준과 비교하여, 예를 들어, 적어도 약 25%, 50%, 75%, 100%, 250%, 500%, 또는 1000%일 수 있다.

본원의 표적화 방법은 예를 들어, 둘 이상의 DNA 표적 부위가 표적화되는 방식으로 수행될 수 있다. 이러한 방법은 선택적으로 다중 방법을 특징으로 할 수 있다. 특정 구현예에서 둘, 셋, 넷, 다섯, 여섯, 일곱, 여덟, 아홉, 열 개 이상의 표적 부위가 동시에 표적화될 수 있다. 일반적으로 다중 방법은 복수의 상이한 RNA 성분들이 제공되며 각각 RGEN을 특유의 DNA 표적 부위로 유도하도록 설계된 본원의 표적화 방법에 의해 수행된다. 예를 들어, 둘 이상의 상이한 RNA 성분들이 (예컨대, RNA 성분을 RGEN 단백질-CPP 복합체와 결합시키기 위하여 본원에 개시된 절차에 따라) 시험관 내에서 RGEN-CPP 복합체의 혼합물을 제조하는 데 이용될 수 있으며, 그 후, 이러한 혼합물은 세포와 접촉된다.

본원의 다중 표적화의 또 다른 양태는 세포 내로 횡단했던 RGEN 단백질-CPP 복합체들의 RGEN 단백질 성분들과 결합하는 둘 이상의 상이한 RNA 성분들을 세포에 제공하는 것을 포함할 수 있다. 이러한 방법은 예를 들어, 세포에 (i) 각각이 특정한 RNA 성분을 발현하는 개별적인 DNA 폴리뉴클레오티드들, 및/또는 (ii) 둘 이상의 RNA 성분들을 암호화하는 적어도 하나의 DNA 폴리뉴클레오티드를 제공하는 것을 포함할 수 있다(예를 들어, 탠덤 리보자임-RNA 성분 카세트와 관련하여 아래의 개시 내용 참조).

다중 방법은 선택적으로, 동일한 서열(예를 들어, 프로모터 또는 오픈 리딩 프레임)과 매우 가까운 DNA 부위들, 및/또는 서로 멀리 있는 (예를 들어, 상이한 유전자 및/또는 염색체) 부위들을 표적화할 수 있다. 다른 구현예에서 다중 방법은 (엔도뉴클레아제 또는 닉카아제 능력이 있는 RGEN이 사용되는 경우) 원하는 표적화의 결과에 따라 적합한 폴리뉴클레오티드 변형 주형을 사용하거나(HR의 경우) 사용하지 않고(삽입-결실 및/또는 염기 치환을 초래하는 NHEJ의 경우) 수행될 수 있다. 또 다른 구현예에서, 다중 방법은 본원에 개시된 바와 같은 억제화 또는 활성화 RGEN으로 수행될 수 있다. 예를 들어, 유전자 세트들, 예컨대, 특정 대사 경로에 관여하는 유전자들을 하향 조절하는 다수의 억제화 RGEN이 제공될 수 있다.

본원에 개시된 조성물 및 방법의 비제한적 예는 다음을 포함한다:

1. 대장균 세포의 게놈 내 뉴클레오티드 서열을 편집하는 방법으로서, 가이드 RNA를 암호화하는 DNA 서열을 포함하는 적어도 하나의 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형을, 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제 DNA 서열을 포함하는 대장균 세포에 제공하는 단계를 포함하되, 상기 Cas9 엔도뉴클레아제 DNA 서열은 상기 대장균 세포의 게놈 내 표적 부위에서 이중 가닥 절단을 도입할 수 있는 Cas9 엔도뉴클레아제를 암호화하고, 상기 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는, 방법.

2. 구현예 1에 있어서, 대장균 세포의 게놈 내 뉴클레오티드 서열은 프로모터 서열, 종결자 서열, 조절 요소 서열, 암호화 서열, 프로파지, 위유전자, 외인성 유전자, 및 내인성 유전자로 이루어진 군으로부터 선택되는, 방법.

3. 구현예 1에 있어서, 가이드 RNA를 암호화하는 DNA 서열을 포함하는 상기 재조합 DNA 작제물은 원형 플라스미드를 통해 제공되는, 방법.

4. 구현예 1에 있어서, 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형은 각각 별개의 플라스미드 상에 제공되는, 방법.

5. 구현예 1에 있어서, 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형은 단일 플라스미드 상에 제공되는, 방법.

6. 구현예 1에 있어서, 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 주형은 전기천공, 열 충격, 파지 전달, 결합, 접합 및 형질도입으로 이루어진 군으로부터 선택되는 하나의 수단을 통해 제공되는, 방법.

7. 구현예 1에 있어서, 상기 표적 부위는 제1 게놈 영역 및 제2 게놈 영역에 의해 플랭킹되고, 원형 폴리뉴클레오티드 주형은 상기 제1 게놈 영역과 상동인 제1 영역 및 상기 제2 게놈 영역과 상동인 제2 영역을 더 포함하는, 방법.

8. 구현예 1에 있어서, 대장균 세포는 외인성 재조합효소 단백질을 발현하지 않는, 방법.

9. 구현예 1에 있어서, 대장균 세포는 RecET 단백질, 람다-레드 단백질, 및 RecBCD 억제제를 포함하는 군으로부터 선택되는 단백질을 발현하지 않는, 방법.

10. 구현예 1에 있어서, 상기 대장균 세포로부터 자손 세포를 성장시키는 단계를 더 포함하되, 자손 세포는 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는, 방법.

11. 구현예 1에 있어서, 표적 부위는 대장균 galK 유전자 내에 위치하는, 방법.

12. 구현예 1의 방법에 의해 제조된 대장균 세포.

13. 구현예 12의 대장균 세포로부터 제조된 대장균 균주.

14. galK 돌연변이 대장균 세포를 제조하는 방법으로서,

a) 가이드 RNA를 암호화하는 DNA 서열을 포함하는 적어도 하나의 원형 재조합 DNA 작제물 및 적어도 하나의 원형 폴리뉴클레오티드 변형 주형을, 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제 DNA 서열을 포함하는 대장균 세포에 제공하는 단계(상기 Cas9 엔도뉴클레아제 DNA 서열은 대장균 게놈의 galK 게놈 서열 내 표적 부위에서 이중 가닥 절단을 도입할 수 있는 Cas 엔도뉴클레아제를 암호화하고, 상기 원형 폴리뉴클레오티드 변형 주형은 상기 galK 게놈 서열의 적어도 하나의 뉴클레오티드 변형을 포함함);

b) (a)의 대장균 세포로부터 자손 세포를 성장시키는 단계; 및

c) 상기 적어도 하나의 뉴클레오티드 변형의 존재에 대해 (b)의 자손 세포를 평가하는 단계를 포함하는 방법.

15. 대장균 세포의 게놈 내 뉴클레오티드 서열을 편집하는 방법으로서, 적어도, 가이드 RNA를 암호화하는 DNA 서열을 포함하는 제1 재조합 DNA 작제물, 원형 폴리뉴클레오티드 변형 주형, 및 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제를 암호화하는 DNA 서열을 포함하는 제2 재조합 DNA 작제물을, 대장균 세포에 제공하는 단계를 포함하되, Cas9 엔도뉴클레아제는 상기 대장균 세포의 게놈 내 표적 부위에서 이중 가닥 절단을 도입하고, 상기 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는, 방법.

16. 구현예 15에 있어서, 제1 재조합 DNA 작제물, 제2 재조합 DNA 작제물, 및 원형 폴리뉴클레오티드 변형 주형은 각각 별개의 플라스미드 상에 제공되는, 방법.

17. 구현예 1에 있어서, 제1 재조합 DNA 작제물, 제2 재조합 DNA 작제물, 및 원형 폴리뉴클레오티드 변형 주형은 단일 플라스미드 상에 제공되는, 방법.

실시예

개시된 발명은 다음의 실시예들에서 더 정의된다. 이 실시예들은 본 발명의 바람직한 특정 양태를 나타내지만 단지 예시로 제공된다는 것을 이해해야 된다. 상기 설명 및 이 실시예들로부터, 당업자는 본 발명의 본질적 특징들을 확인할 수 있으며, 본 발명의 사상 및 범위를 벗어나지 않고 다양한 용도 및 조건에 적합하게 본 발명을 다양하게 변경하고 수정할 수 있다.

실시예 1

대장균에서 사용하기 위한 Cas9 엔도뉴클레아제 발현 벡터의 작제물

본 실시예에서는 대장균 내 게놈 편집을 위한 유도성 Cas9 발현 벡터를 제작하였다. 유도제에 대한 Cas9 발현을 확인하였다.

스트렙토코커스 피오제네스 M1 GAS SF370(서열 번호 1)으로부터의 Cas9 유전자는 당해 분야에 알려진 표준 기술에 따라 최적화된 야로위아 코돈(서열 번호 2)이었다. Cas9 단백질을 세포의 핵에 국재화하기 위해, 유인원 바이러스 40(SV40) 1부분(MAPKKKRKV, 서열 번호 3) 핵 국재화 신호를 Cas9 오픈 리딩 프레임의 카복시 말단에 도입시켰다. 야로위아 코돈 최적화된 Cas9 유전자를 표준 분자 생물학 기술에 의해 야로위아 항시성 프로모터, FBA1(서열 번호 4)에 융합시켰다. 항시성 FBA 프로모터, 야로위아 코돈 최적화된 Cas9, 및 SV40 핵 국재화 신호를 포함하는 야로위아 코돈 최적화된 Cas9 발현 카세트의 예(서열 번호 5). Cas9 발현 카세트를 플라스미드 pZuf에 클로닝하고 새로운 작제물을 pZufCas9(서열 번호 6)로 칭하였다.

야로위아 코돈 최적화된 Cas9-SV40 융합 유전자(서열 번호 7)를 표준 분자 생물학 기술을 이용하여 pZufCas9로부터 증폭하였다. 반응을 위한 프라이머는 융합체에 5' EcoRI 부위 및 a 3' HindIII 부위를 추가한 GGGGGAATTCGACAAGAAATACTCCATCGGCCTGG(정방향, 서열 번호 8) 및 CCCCAAGCTTAGCGGCCGCTTAGACCTTTCG(역방향, 서열 번호 9)였다. 표준 기술을 이용하여 PCR 산물(서열 번호 10)을 정제하였다. 정제된 단편을 life technologies로부터 입수한 pBAD/HisB(서열 번호 11)의 EcoRI 및 HindIII 부위에 클로닝하여 pRF48(서열 번호 12)을 생성하였다.

대장균 Top10 세포(Life technologies)를 pRF48로 형질전환시켰다. 형질전환된 세포를 L 부용(1% (w/v) 트립톤, 0.5% (w/v) 효모 추출물, 1% (w/v) NaCl) + 100 μg/ml 암피실린 + 0.4% (w/v) 글루코스상에 유지시켜 Cas9 단백질의 발현을 억제하였다. L 부용 + 100 μg/ml 암피실린 + 0.4% (w/v) 글루코스에서 220 RPM으로 세포를 37℃에서 밤새 성장시켰다. 세포를 2.8 L 페른바흐 플라스크에서 1 L의 2x YT 배지(1.6% 트립톤, 1.0% (w/v) 효모 추출물, 0.5% (w/v) NaCl)에 1:100으로 희석하였다. OD₆₀₀이 0.438에 도달할 때까지 37℃, 220 RPM에서 배양물을 성장시켰다. 1 ml의 배양물을 펠렛화하고 43.8 μl의 1x 램리 완충액에 재현탁시키고 -20℃에서 동결시켰다. L-아라비노오스를 0.2% (w/v)의 최종 농도까지 첨가하여 야로위아 최적화된 Cas9 유전자를 유도하는 P_BAD 프로모터를 유도하였다. 배양물을 18℃, 180 RPM으로 20시간 동안 이동시켰다.

L-아라비노오스에 의한 유도 후 OD₆₀₀은 3.01이었다. 0.332 ml 분취량의 배양물을 펠렛화하였다. 세포를 100 μl의 1X 램리 완충액에 재현탁시켰다. 유도 전 샘플과 유도 후 샘플 둘 다를 5분 동안 95℃까지 가열하였고, 10 μl를 12.5%의 트리스-글리신 SDS 폴리아크릴아미드 겔 상에 로딩하였다. 겔에 200 볼트를 30분 동안 가하였다. 간단한 블루 염색을 이용하여 겔을 염색하여 단백질 밴드를 분리하였다. 아라비노오스 유도성 프로모터의 제어 하에 대장균에서의 야로위아 최적화된 Cas9 단백질의 발현은 강력했다(도 4).

실시예 2

대장균의 galK 유전자를 표적화하는 단일 가이드 RNA를 암호화하는 원형 발현 플라스미드의 작제물

대장균의 내인성 galK 유전자를 변형(편집)하기 위해, 대장균 galK 유전자 내 4개의 Cas9 엔도뉴클레아제 표적 부위를 동정하였다(도 5): galK-1 (서열 번호 13, 표 1), galK-2 (서열 번호 14, 표 1), galK-3 (서열 번호 15, 표 1), 및 galK-4 (서열 번호 16, 표 1).

[표 1]

대장균 내 galK 유전자 편집을 위한 표적화 서열

(표 1에 정의된) PAM 도메인이 결여된 게놈 galK1 표적 서열에 해당하는 DNA 단편을 스트렙토코커스 피오제네스 Cas 인식 도메인(서열 번호 17)으로 융합하여 단일 가이드 RNA를 위한 완전한 DNA 주형을 제조하였다. 가이드 RNA를 암호화하는 DNA 단편을 서열 번호 18~21에 나타내었다. gal1K-1 내지 gal1-K4를 위한 sgRNA를 서열 번호 22~25에 나타내었다.

대장균 세포에서 sgRNA를 발현시키기 위해 4개의 sgRNA 발현 카세트를 제작하였다(서열 번호 28~31). sgRNA를 박테리오파지 람다의 P_L 프로모터(서열 번호 26)의 제어 하에 두었다. sgRNA의 전사 종결을 유도하기 위해 CR 도메인의 3' 말단을 강력한 박테리오파지 람다 종결자(서열 번호 27)로 융합하였다. GalK-1 sgRNA 발현 카세트(서열 번호 28)는 galK-1 게놈 표적 부위(서열 번호 13)를 표적화하도록 설계되었다. GalK-2 sgRNA 발현 카세트(서열 번호 29)는 galK-1 게놈 표적 부위(서열 번호 14)를 표적화하도록 설계되었다. GalK-3 sgRNA 발현 카세트(서열 번호 30)는 galK-3 게놈 표적 부위(서열 번호 15)를 표적화하도록 설계되었다. GalK-4 sgRNA 발현 카세트(서열 번호 31)는 galK-4 게놈 표적 부위(서열 번호 16)를 표적화하도록 설계되었다.

각각의 sgRNA 발현 카세트는 5' HinDIII 제한 부위(AAGCTT) 및 3' BamHI 제한 부위(GGATCC)를 포함하였다. 각각의 sgRNA 발현 카세트를 pACYC184(서열 번호 32)의 HinDIII/BamHI 부위에 클로닝하여 원형 플라스미드(도 1 및 도 2, 가이드 RNA 플라스미드 참조), pRF50(galK-1 표적화, 서열 번호 33), pRF51(galK-2 표적화, 서열 번호 34), pRF53(galK-3 표적화, 서열 번호 35), 및 pRF55(galK-4 표적화, 서열 번호 36)를 생성하였다.

실시예 3

대장균 내 유전자 편집을 위한 폴리뉴클레오티드 변형 주형을 포함하는 원형 플라스미드의 제작

(예를 들어 galK 유전자의 유전자 결실)을 이용하여 대장균에서 유전자 편집(변형)을 가능하게 하기 위해, 다음과 같이 (galK 결실 주형으로 지칭되는) galK 유전자의 일부가 결여된 폴리뉴클레오티드 변형 주형을 제조하였다:

클로닝을 위한 5' HinDIII 제한 부위를 추가한 정방향 프라이머(GGGaagcttggattatgttcagcgcgagc, 서열 번호 38) 및 galK 유전자의 정지 코돈의 3’ 방향에 있는 20 bp의 서열을 추가한 역방향 프라이머(tgccagtgcgggagtttcgtTTCTTACACTCCGGATTCGC, 서열 번호 39)를 이용하여 표준 PCR 기술로 대장균 galK 유전자의 번역 개시 부위의 5' 방향에 있는 454 bp 단편(서열 번호 37)을 증폭하여 상류 중첩 연장 산물(서열 번호 40)을 생성하였다. galK 유전자의 개시 코돈의 5' 방향에 있는 20 bp의 서열을 추가한 정방향 프라이머(GCGAATCCGGAGTGTAAGAAacgaaactcccgcactggca, 서열 번호 42) 및 3' HinDIII 제한 부위를 추가한 역방향 프라이머(GGGaagcttGCAAACAGCACCTGACGATCG, 서열 번호 43)를 이용하여 표준 PCR 기술로 대장균 galK 유전자의 번역 정지 부위의 3’ 방향에 있는 376 bp(서열 번호 41)를 증폭하여 하류 중첩 연장 산물(서열 번호 44)을 생성하였다. Zymo 정제 및 농축 컬럼을 사용하여 PCR 산물을 정제하였다. 5’ 단편에 대한 정방향 프라이머(GGGaagcttggattatgttcagcgcgagc, 서열 번호 38) 및 3’ 단편의 역방향 프라이머(GGGaagcttGCAAACAGCACCTGACGATCG, 서열 번호 43)를 이용하여 중첩 20 nt를 연장하기 위해 각각의 PCR 산물 10 ng을 사용하였다. galK 결실 주형(서열 번호 45)의 전체 길이를 조건부 복제 플라스미드 pkD3(서열 번호 46)의 HinDIII 부위에 클로닝하여 원형 galK 결실 주형 플라스미드 pRF113(서열 번호 47)을 생성하였다. (도 1 및 도 2에서 주형 플라스미드로 지칭되는) galK 결실 주형 플라스미드 pRF113은 Pi 단백질을 위한 발현 카세트가 없으므로(Inuzuka M. 1985. 플라스미드 암호화 개시 단백질은 시험관 내 플라스미드 R6K DNA 복제의 3개의 기점 모두에서 활성을 필요로 한다. FEBS letters 181:236-240) 자율적으로 복제할 수 없게 한다. 따라서, 이러한 원형 주형이 대장균 세포에 일단 제공되면, 그것은 RGEN 매개 유전자 편집을 위한 주형으로서 기능할 수 있지만 복제되지 않을 것이므로 상기 대장균 세포로부터 배양되는 어떤 자손 세포에도 존재하지 않을 것이다.

실시예 4

폴리뉴클레오티드 변형 주형을 포함하는 원형 플라스미드와 함께 가이드 RNA/Cas 엔도뉴클레아제 시스템을 이용한 대장균 내 galK 유전자의 효율적인 게놈 편집

대장균의 galE 유전자 결실을 포함하는 균주 EF44는 독성 산물 인-갈락토스의 축적으로 인해 성장 배지 내 갈락토스의 존재에 민감하다(Incorporate E. coli and S. typhimurium: Cellular and Molecular Biology 저자: Frederick C. Neidhardt, John L. Ingraham, Roy Curtiss III. ASM Press Washington D.C. 1987). 이러한 균주에서, 갈락토스 키나아제(galK)를 암호화하는 유전자의 기능 상실을 초래하는 돌연변이는 갈락토스 민감성을 복구시켜 갈락토스의 존재 하에 균주가 성장할 수 있도록 한다.

(도 1에 도시된 바와 같이) Cas9 발현 카세트를 포함하는 Cas9 플라스미드를 함유한 대장균 균주를 생성하기 위해, 플라스미드 pRF48을 다음과 같이 대장균 균주 EF44에 도입하였다. 균주 EF44 균주를 pRF48(서열 번호 12)로 형질전환시키고, Cas9 플라스미드를 함유한 대장균 균주 EF56(ΔgalE pRF48)를 생성하기 위해 pBAD 프로모터로부터 Cas9 유전자의 발현을 억제하도록 100 μg/ml의 암피실린 및 0.4% (W/V)의 글루코스를 함유한 L 부용 한천 플레이트 상에서 콜로니를 선택하였다.

EF56의 단일 콜로니를 100 μg/ml의 암피실린 및 0.4% (W/V)의 글루코스를 함유함 L 부용에 접종시키고, 37℃, 230 RPM에서 18시간 동안 성장시켰다. 이어서, 100 μg/ml의 암피실린을 함유한 새로운 L 부용에 균주를 희석시키고 37℃, 230 RPM에서 2시간 동안 성장시켰다. L-아라비노오스를 0.2% (W/V)의 최종 농도까지 첨가하여 P_BAD 프로모터로부터 Cas9의 발현을 유도하고, 세포를 추가로 1시간 동안 성장시켰다. 표준 프로토콜을 통해 세포를 전기천공에 적합하도록 하였다. 유도된 전기천공에 적합한 EF56 세포 100 μl를 200 ng의 pACYC184(서열 번호 32), pRF50(서열 번호 33), pRF51(서열 번호 34), pRF53(서열 번호 35), 또는 pRF55(서열 번호 36) 및 1 μg의 pRF113(서열 번호 47), 1 μg의 선형 폴리뉴클레오티드 변형 주형(서열 번호 44), 또는 폴리뉴클레오티드 변형 주형이 없는 플라스미드 DNA로 형질전환시켰다. 세포를 1 mM 캡 큐벳에서 1750 볼트로 전기천공하였다. 1 ml의 SOC 배지를 첨가하고 37℃, 230 RPM에서 3시간 동안 세포를 회복시켰다. pRF48(서열 번호 12)와 해당 pACYC184(서열 번호 32) 둘 다, pRF50(서열 번호 33), pRF51(서열 번호 34), pRF53(서열 번호 35), 또는 pRF55(서열 번호 36)를 포함하는 세포를 선택하기 위해 100 μg/ml의 암피실린 및 25 μg/ml의 클로람페니콜을 함유한 1.5% (w/v) 한천으로 응고된 L 부용 플레이트 상에 세포를 플레이팅하였다. 플레이트를 37℃에서 20시간 동안 배양하였다.

갈락토스 저항성 분리물을 스크리닝하기 위해 평판 복제를 이용하여 콜로니를 L 부용 100 μg/ml 암피실린/25 μg/ml 클로람페니콜 플레이트로부터 0.2% (w/v) 글리세롤 및 0.2% (w/v) 갈락토스를 함유한 1.5% (w/v) 한천으로 응고된 최소 A 배지로 옮겼다. 각각의 형질전환에 대해, 갈락토스 저항성 콜로니의 수를 원래의 플레이트 상의 콜로니의 총 수로 나누어 갈락토스 저항성의 빈도를 계산하였다(표 2).

[표 2]

갈락토스 저항성 콜로니의 빈도

빈도는 표적 부위에 따라 달랐다. 상동 재조합의 빈도를 결정하기 위해, 정방향 프라이머(ggcgaagagaatcaacactgg, 서열 번호 49) 및 역방향 프라이머(GCAAACAGCACCTGACGATCG, 서열 번호 50)를 이용하여 표준 PCR 기술로 galK 유전자좌(서열 번호 48)를 증폭하였다. WT 균주에서, 전체 galK 유전자좌가 증폭되어(서열 번호 48) 1717 bp 길이의 PCR 산물이 된다. galK 유전자좌와 HR 폴리뉴클레오티드 변형 주형 pRF113 간에 재조합이 발생한 세포에서, PCR 산물의 길이는 569 bp이다(서열 번호 50). 도 6은 75%의 HR 빈도를 가진 pRF50/pRF113 편집 실험에서 콜로니의 증폭에 의한 겔을 나타낸다. galK의 결실 대립 유전자가 증폭되어 정확한 편집을 나타내는 콜로니의 수를 콜로니 PCR에 의해 분석된 콜로니의 총 수로 나누어 HR 빈도를 결정하였다. 폴리뉴클레오티드 변형 주형의 부재 하에서 Gal^R인 콜로니는 galK 유전자좌의 증폭을 허용하지 못한다.

본 실시예는 폴리뉴클레오티드 변형 주형을 포함하는 원형 플라스미드와 함께 가이드 RNA/Cas 엔도뉴클레아제 시스템을 이용하여 대장균 내 galK 유전자의 효율적인 게놈 편집이 성공적으로 달성되었음을 보여준다.

SEQUENCE LISTING <110> E. I. du Pont de Nemours and Company Frisch, Ryan L. Jackson, Ethel N. <120> COMPOSITIONS AND METHODS FOR EFFICIENT GENE EDITING IN E. COLI USING GUIDE RNA/CAS ENDONUCLEASE SYSTEMS IN COMBINATION WITH CIRCULAR POLYNUCLEOTIDE MODIFICATION TEMPLATES. <130> CL6256 PCT <150> 62/092914 <151> 2014-12-17 <160> 52 <170> PatentIn version 3.5 <210> 1 <211> 4107 <212> DNA <213> Streptococcus pyogenes <400> 1 atggataaga aatactcaat aggcttagat atcggcacaa atagcgtcgg atgggcggtg 60 atcactgatg aatataaggt tccgtctaaa aagttcaagg ttctgggaaa tacagaccgc 120 cacagtatca aaaaaaatct tataggggct cttttatttg acagtggaga gacagcggaa 180 gcgactcgtc tcaaacggac agctcgtaga aggtatacac gtcggaagaa tcgtatttgt 240 tatctacagg agattttttc aaatgagatg gcgaaagtag atgatagttt ctttcatcga 300 cttgaagagt cttttttggt ggaagaagac aagaagcatg aacgtcatcc tatttttgga 360 aatatagtag atgaagttgc ttatcatgag aaatatccaa ctatctatca tctgcgaaaa 420 aaattggtag attctactga taaagcggat ttgcgcttaa tctatttggc cttagcgcat 480 atgattaagt ttcgtggtca ttttttgatt gagggagatt taaatcctga taatagtgat 540 gtggacaaac tatttatcca gttggtacaa acctacaatc aattatttga agaaaaccct 600 attaacgcaa gtggagtaga tgctaaagcg attctttctg cacgattgag taaatcaaga 660 cgattagaaa atctcattgc tcagctcccc ggtgagaaga aaaatggctt atttgggaat 720 ctcattgctt tgtcattggg tttgacccct aattttaaat caaattttga tttggcagaa 780 gatgctaaat tacagctttc aaaagatact tacgatgatg atttagataa tttattggcg 840 caaattggag atcaatatgc tgatttgttt ttggcagcta agaatttatc agatgctatt 900 ttactttcag atatcctaag agtaaatact gaaataacta aggctcccct atcagcttca 960 atgattaaac gctacgatga acatcatcaa gacttgactc ttttaaaagc tttagttcga 1020 caacaacttc cagaaaagta taaagaaatc ttttttgatc aatcaaaaaa cggatatgca 1080 ggttatattg atgggggagc tagccaagaa gaattttata aatttatcaa accaatttta 1140 gaaaaaatgg atggtactga ggaattattg gtgaaactaa atcgtgaaga tttgctgcgc 1200 aagcaacgga cctttgacaa cggctctatt ccccatcaaa ttcacttggg tgagctgcat 1260 gctattttga gaagacaaga agacttttat ccatttttaa aagacaatcg tgagaagatt 1320 gaaaaaatct tgacttttcg aattccttat tatgttggtc cattggcgcg tggcaatagt 1380 cgttttgcat ggatgactcg gaagtctgaa gaaacaatta ccccatggaa ttttgaagaa 1440 gttgtcgata aaggtgcttc agctcaatca tttattgaac gcatgacaaa ctttgataaa 1500 aatcttccaa atgaaaaagt actaccaaaa catagtttgc tttatgagta ttttacggtt 1560 tataacgaat tgacaaaggt caaatatgtt actgaaggaa tgcgaaaacc agcatttctt 1620 tcaggtgaac agaagaaagc cattgttgat ttactcttca aaacaaatcg aaaagtaacc 1680 gttaagcaat taaaagaaga ttatttcaaa aaaatagaat gttttgatag tgttgaaatt 1740 tcaggagttg aagatagatt taatgcttca ttaggtacct accatgattt gctaaaaatt 1800 attaaagata aagatttttt ggataatgaa gaaaatgaag atatcttaga ggatattgtt 1860 ttaacattga ccttatttga agatagggag atgattgagg aaagacttaa aacatatgct 1920 cacctctttg atgataaggt gatgaaacag cttaaacgtc gccgttatac tggttgggga 1980 cgtttgtctc gaaaattgat taatggtatt agggataagc aatctggcaa aacaatatta 2040 gattttttga aatcagatgg ttttgccaat cgcaatttta tgcagctgat ccatgatgat 2100 agtttgacat ttaaagaaga cattcaaaaa gcacaagtgt ctggacaagg cgatagttta 2160 catgaacata ttgcaaattt agctggtagc cctgctatta aaaaaggtat tttacagact 2220 gtaaaagttg ttgatgaatt ggtcaaagta atggggcggc ataagccaga aaatatcgtt 2280 attgaaatgg cacgtgaaaa tcagacaact caaaagggcc agaaaaattc gcgagagcgt 2340 atgaaacgaa tcgaagaagg tatcaaagaa ttaggaagtc agattcttaa agagcatcct 2400 gttgaaaata ctcaattgca aaatgaaaag ctctatctct attatctcca aaatggaaga 2460 gacatgtatg tggaccaaga attagatatt aatcgtttaa gtgattatga tgtcgatcac 2520 attgttccac aaagtttcct taaagacgat tcaatagaca ataaggtctt aacgcgttct 2580 gataaaaatc gtggtaaatc ggataacgtt ccaagtgaag aagtagtcaa aaagatgaaa 2640 aactattgga gacaacttct aaacgccaag ttaatcactc aacgtaagtt tgataattta 2700 acgaaagctg aacgtggagg tttgagtgaa cttgataaag ctggttttat caaacgccaa 2760 ttggttgaaa ctcgccaaat cactaagcat gtggcacaaa ttttggatag tcgcatgaat 2820 actaaatacg atgaaaatga taaacttatt cgagaggtta aagtgattac cttaaaatct 2880 aaattagttt ctgacttccg aaaagatttc caattctata aagtacgtga gattaacaat 2940 taccatcatg cccatgatgc gtatctaaat gccgtcgttg gaactgcttt gattaagaaa 3000 tatccaaaac ttgaatcgga gtttgtctat ggtgattata aagtttatga tgttcgtaaa 3060 atgattgcta agtctgagca agaaataggc aaagcaaccg caaaatattt cttttactct 3120 aatatcatga acttcttcaa aacagaaatt acacttgcaa atggagagat tcgcaaacgc 3180 cctctaatcg aaactaatgg ggaaactgga gaaattgtct gggataaagg gcgagatttt 3240 gccacagtgc gcaaagtatt gtccatgccc caagtcaata ttgtcaagaa aacagaagta 3300 cagacaggcg gattctccaa ggagtcaatt ttaccaaaaa gaaattcgga caagcttatt 3360 gctcgtaaaa aagactggga tccaaaaaaa tatggtggtt ttgatagtcc aacggtagct 3420 tattcagtcc tagtggttgc taaggtggaa aaagggaaat cgaagaagtt aaaatccgtt 3480 aaagagttac tagggatcac aattatggaa agaagttcct ttgaaaaaaa tccgattgac 3540 tttttagaag ctaaaggata taaggaagtt aaaaaagact taatcattaa actacctaaa 3600 tatagtcttt ttgagttaga aaacggtcgt aaacggatgc tggctagtgc cggagaatta 3660 caaaaaggaa atgagctggc tctgccaagc aaatatgtga attttttata tttagctagt 3720 cattatgaaa agttgaaggg tagtccagaa gataacgaac aaaaacaatt gtttgtggag 3780 cagcataagc attatttaga tgagattatt gagcaaatca gtgaattttc taagcgtgtt 3840 attttagcag atgccaattt agataaagtt cttagtgcat ataacaaaca tagagacaaa 3900 ccaatacgtg aacaagcaga aaatattatt catttattta cgttgacgaa tcttggagct 3960 cccgctgctt ttaaatattt tgatacaaca attgatcgta aacgatatac gtctacaaaa 4020 gaagttttag atgccactct tatccatcaa tccatcactg gtctttatga aacacgcatt 4080 gatttgagtc agctaggagg tgactga 4107 <210> 2 <211> 4140 <212> DNA <213> Artificial sequence <220> <223> Yarrowia optimized Cas9 <400> 2 atggacaaga aatactccat cggcctggac attggaacca actctgtcgg ctgggctgtc 60 atcaccgacg agtacaaggt gccctccaag aaattcaagg tcctcggaaa caccgatcga 120 cactccatca agaaaaacct cattggtgcc ctgttgttcg attctggcga gactgccgaa 180 gctaccagac tcaagcgaac tgctcggcga cgttacaccc gacggaagaa ccgaatctgc 240 tacctgcagg agatcttttc caacgagatg gccaaggtgg acgattcgtt ctttcatcga 300 ctggaggaat ccttcctcgt cgaggaagac aagaaacacg agcgtcatcc catctttggc 360 aacattgtgg acgaggttgc ttaccacgag aagtatccta ccatctacca cctgcgaaag 420 aaactcgtcg attccaccga caaggcggat ctcagactta tctacctcgc tctggcacac 480 atgatcaagt ttcgaggtca tttcctcatc gagggcgatc tcaatcccga caacagcgat 540 gtggacaagc tgttcattca gctcgttcag acctacaacc agctgttcga ggaaaacccc 600 atcaatgcct ccggagtcga tgcaaaggcc atcttgtctg ctcgactctc gaagagcaga 660 cgactggaga acctcattgc ccaacttcct ggcgagaaaa agaacggact gtttggcaac 720 ctcattgccc tttctcttgg tctcacaccc aacttcaagt ccaacttcga tctggcggag 780 gacgccaagc tccagctgtc caaggacacc tacgacgatg acctcgacaa cctgcttgca 840 cagattggcg atcagtacgc cgacctgttt ctcgctgcca agaacctttc ggatgctatt 900 ctcttgtctg acattctgcg agtcaacacc gagatcacaa aggctcccct ttctgcctcc 960 atgatcaagc gatacgacga gcaccatcag gatctcacac tgctcaaggc tcttgtccga 1020 cagcaactgc ccgagaagta caaggagatc tttttcgatc agtcgaagaa cggctacgct 1080 ggatacatcg acggcggagc ctctcaggaa gagttctaca agttcatcaa gccaattctc 1140 gagaagatgg acggaaccga ggaactgctt gtcaagctca atcgagagga tctgcttcgg 1200 aagcaacgaa ccttcgacaa cggcagcatt cctcatcaga tccacctcgg tgagctgcac 1260 gccattcttc gacgtcagga agacttctac ccctttctca aggacaaccg agagaagatc 1320 gagaagattc ttacctttcg aatcccctac tatgttggtc ctcttgccag aggaaactct 1380 cgatttgctt ggatgactcg aaagtccgag gaaaccatca ctccctggaa cttcgaggaa 1440 gtcgtggaca agggtgcctc tgcacagtcc ttcatcgagc gaatgaccaa cttcgacaag 1500 aatctgccca acgagaaggt tcttcccaag cattcgctgc tctacgagta ctttacagtc 1560 tacaacgaac tcaccaaagt caagtacgtt accgagggaa tgcgaaagcc tgccttcttg 1620 tctggcgaac agaagaaagc cattgtcgat ctcctgttca agaccaaccg aaaggtcact 1680 gttaagcagc tcaaggagga ctacttcaag aaaatcgagt gtttcgacag cgtcgagatt 1740 tccggagttg aggaccgatt caacgcctct ttgggcacct atcacgatct gctcaagatt 1800 atcaaggaca aggattttct cgacaacgag gaaaacgagg acattctgga ggacatcgtg 1860 ctcactctta ccctgttcga agatcgggag atgatcgagg aacgactcaa gacatacgct 1920 cacctgttcg acgacaaggt catgaaacaa ctcaagcgac gtagatacac cggctgggga 1980 agactttcgc gaaagctcat caacggcatc agagacaagc agtccggaaa gaccattctg 2040 gactttctca agtccgatgg ctttgccaac cgaaacttca tgcagctcat tcacgacgat 2100 tctcttacct tcaaggagga catccagaag gcacaagtgt ccggtcaggg cgacagcttg 2160 cacgaacata ttgccaacct ggctggttcg ccagccatca agaaaggcat tctccagact 2220 gtcaaggttg tcgacgagct ggtgaaggtc atgggacgtc acaagcccga gaacattgtg 2280 atcgagatgg ccagagagaa ccagacaact caaaagggtc agaaaaactc gcgagagcgg 2340 atgaagcgaa tcgaggaagg catcaaggag ctgggatccc agattctcaa ggagcatccc 2400 gtcgagaaca ctcaactgca gaacgagaag ctgtatctct actatctgca gaatggtcga 2460 gacatgtacg tggatcagga actggacatc aatcgtctca gcgactacga tgtggaccac 2520 attgtccctc aatcctttct caaggacgat tctatcgaca acaaggtcct tacacgatcc 2580 gacaagaaca gaggcaagtc ggacaacgtt cccagcgaag aggtggtcaa aaagatgaag 2640 aactactggc gacagctgct caacgccaag ctcattaccc agcgaaagtt cgacaatctt 2700 accaaggccg agcgaggcgg tctgtccgag ctcgacaagg ctggcttcat caagcgtcaa 2760 ctcgtcgaga ccagacagat cacaaagcac gtcgcacaga ttctcgattc tcggatgaac 2820 accaagtacg acgagaacga caagctcatc cgagaggtca aggtgattac tctcaagtcc 2880 aaactggtct ccgatttccg aaaggacttt cagttctaca aggtgcgaga gatcaacaat 2940 taccaccatg cccacgatgc ttacctcaac gccgtcgttg gcactgcgct catcaagaaa 3000 taccccaagc tcgaaagcga gttcgtttac ggcgattaca aggtctacga cgttcgaaag 3060 atgattgcca agtccgaaca ggagattggc aaggctactg ccaagtactt cttttactcc 3120 aacatcatga actttttcaa gaccgagatc accttggcca acggagagat tcgaaagaga 3180 ccacttatcg agaccaacgg cgaaactgga gagatcgtgt gggacaaggg tcgagacttt 3240 gcaaccgtgc gaaaggttct gtcgatgcct caggtcaaca tcgtcaagaa aaccgaggtt 3300 cagactggcg gattctccaa ggagtcgatt ctgcccaagc gaaactccga caagctcatc 3360 gctcgaaaga aagactggga tcccaagaaa tacggtggct tcgattctcc taccgtcgcc 3420 tattccgtgc ttgtcgttgc gaaggtcgag aagggcaagt ccaaaaagct caagtccgtc 3480 aaggagctgc tcggaattac catcatggag cgatcgagct tcgagaagaa tcccatcgac 3540 ttcttggaag ccaagggtta caaggaggtc aagaaagacc tcattatcaa gctgcccaag 3600 tactctctgt tcgaactgga gaacggtcga aagcgtatgc tcgcctccgc tggcgagctg 3660 cagaagggaa acgagcttgc cttgccttcg aagtacgtca actttctcta tctggcttct 3720 cactacgaga agctcaaggg ttctcccgag gacaacgaac agaagcaact cttcgttgag 3780 cagcacaaac attacctcga cgagattatc gagcagattt ccgagttttc gaagcgagtc 3840 atcctggctg atgccaactt ggacaaggtg ctctctgcct acaacaagca tcgggacaaa 3900 cccattcgag aacaggcgga gaacatcatt cacctgttta ctcttaccaa cctgggtgct 3960 cctgcagctt tcaagtactt cgataccact atcgaccgaa agcggtacac atccaccaag 4020 gaggttctcg atgccaccct gattcaccag tccatcactg gcctgtacga gacccgaatc 4080 gacctgtctc agcttggtgg cgactccaga gccgatccca agaaaaagcg aaaggtctaa 4140 <210> 3 <211> 9 <212> PRT <213> Simian virus 40 <400> 3 Met Ala Pro Lys Lys Lys Arg Lys Val 1 5 <210> 4 <211> 546 <212> DNA <213> Yarrowia lipolytica <400> 4 tcgacgttta aaccatcatc taagggcctc aaaactacct cggaactgct gcgctgatct 60 ggacaccaca gaggttccga gcactttagg ttgcaccaaa tgtcccacca ggtgcaggca 120 gaaaacgctg gaacagcgtg tacagtttgt cttaacaaaa agtgagggcg ctgaggtcga 180 gcagggtggt gtgacttgtt atagccttta gagctgcgaa agcgcgtatg gatttggctc 240 atcaggccag attgagggtc tgtggacaca tgtcatgtta gtgtacttca atcgccccct 300 ggatatagcc ccgacaatag gccgtggcct catttttttg ccttccgcac atttccattg 360 ctcggtaccc acaccttgct tctcctgcac ttgccaacct taatactggt ttacattgac 420 caacatctta caagcggggg gcttgtctag ggtatatata aacagtggct ctcccaatcg 480 gttgccagtc tcttttttcc tttctttccc cacagattcg aaatctaaac tacacatcac 540 accatg 546 <210> 5 <211> 4683 <212> DNA <213> artificial sequence <220> <223> Yarrowia optimized Cas9 expression cassette <400> 5 tcgacgttta aaccatcatc taagggcctc aaaactacct cggaactgct gcgctgatct 60 ggacaccaca gaggttccga gcactttagg ttgcaccaaa tgtcccacca ggtgcaggca 120 gaaaacgctg gaacagcgtg tacagtttgt cttaacaaaa agtgagggcg ctgaggtcga 180 gcagggtggt gtgacttgtt atagccttta gagctgcgaa agcgcgtatg gatttggctc 240 atcaggccag attgagggtc tgtggacaca tgtcatgtta gtgtacttca atcgccccct 300 ggatatagcc ccgacaatag gccgtggcct catttttttg ccttccgcac atttccattg 360 ctcggtaccc acaccttgct tctcctgcac ttgccaacct taatactggt ttacattgac 420 caacatctta caagcggggg gcttgtctag ggtatatata aacagtggct ctcccaatcg 480 gttgccagtc tcttttttcc tttctttccc cacagattcg aaatctaaac tacacatcac 540 accatggaca agaaatactc catcggcctg gacattggaa ccaactctgt cggctgggct 600 gtcatcaccg acgagtacaa ggtgccctcc aagaaattca aggtcctcgg aaacaccgat 660 cgacactcca tcaagaaaaa cctcattggt gccctgttgt tcgattctgg cgagactgcc 720 gaagctacca gactcaagcg aactgctcgg cgacgttaca cccgacggaa gaaccgaatc 780 tgctacctgc aggagatctt ttccaacgag atggccaagg tggacgattc gttctttcat 840 cgactggagg aatccttcct cgtcgaggaa gacaagaaac acgagcgtca tcccatcttt 900 ggcaacattg tggacgaggt tgcttaccac gagaagtatc ctaccatcta ccacctgcga 960 aagaaactcg tcgattccac cgacaaggcg gatctcagac ttatctacct cgctctggca 1020 cacatgatca agtttcgagg tcatttcctc atcgagggcg atctcaatcc cgacaacagc 1080 gatgtggaca agctgttcat tcagctcgtt cagacctaca accagctgtt cgaggaaaac 1140 cccatcaatg cctccggagt cgatgcaaag gccatcttgt ctgctcgact ctcgaagagc 1200 agacgactgg agaacctcat tgcccaactt cctggcgaga aaaagaacgg actgtttggc 1260 aacctcattg ccctttctct tggtctcaca cccaacttca agtccaactt cgatctggcg 1320 gaggacgcca agctccagct gtccaaggac acctacgacg atgacctcga caacctgctt 1380 gcacagattg gcgatcagta cgccgacctg tttctcgctg ccaagaacct ttcggatgct 1440 attctcttgt ctgacattct gcgagtcaac accgagatca caaaggctcc cctttctgcc 1500 tccatgatca agcgatacga cgagcaccat caggatctca cactgctcaa ggctcttgtc 1560 cgacagcaac tgcccgagaa gtacaaggag atctttttcg atcagtcgaa gaacggctac 1620 gctggataca tcgacggcgg agcctctcag gaagagttct acaagttcat caagccaatt 1680 ctcgagaaga tggacggaac cgaggaactg cttgtcaagc tcaatcgaga ggatctgctt 1740 cggaagcaac gaaccttcga caacggcagc attcctcatc agatccacct cggtgagctg 1800 cacgccattc ttcgacgtca ggaagacttc tacccctttc tcaaggacaa ccgagagaag 1860 atcgagaaga ttcttacctt tcgaatcccc tactatgttg gtcctcttgc cagaggaaac 1920 tctcgatttg cttggatgac tcgaaagtcc gaggaaacca tcactccctg gaacttcgag 1980 gaagtcgtgg acaagggtgc ctctgcacag tccttcatcg agcgaatgac caacttcgac 2040 aagaatctgc ccaacgagaa ggttcttccc aagcattcgc tgctctacga gtactttaca 2100 gtctacaacg aactcaccaa agtcaagtac gttaccgagg gaatgcgaaa gcctgccttc 2160 ttgtctggcg aacagaagaa agccattgtc gatctcctgt tcaagaccaa ccgaaaggtc 2220 actgttaagc agctcaagga ggactacttc aagaaaatcg agtgtttcga cagcgtcgag 2280 atttccggag ttgaggaccg attcaacgcc tctttgggca cctatcacga tctgctcaag 2340 attatcaagg acaaggattt tctcgacaac gaggaaaacg aggacattct ggaggacatc 2400 gtgctcactc ttaccctgtt cgaagatcgg gagatgatcg aggaacgact caagacatac 2460 gctcacctgt tcgacgacaa ggtcatgaaa caactcaagc gacgtagata caccggctgg 2520 ggaagacttt cgcgaaagct catcaacggc atcagagaca agcagtccgg aaagaccatt 2580 ctggactttc tcaagtccga tggctttgcc aaccgaaact tcatgcagct cattcacgac 2640 gattctctta ccttcaagga ggacatccag aaggcacaag tgtccggtca gggcgacagc 2700 ttgcacgaac atattgccaa cctggctggt tcgccagcca tcaagaaagg cattctccag 2760 actgtcaagg ttgtcgacga gctggtgaag gtcatgggac gtcacaagcc cgagaacatt 2820 gtgatcgaga tggccagaga gaaccagaca actcaaaagg gtcagaaaaa ctcgcgagag 2880 cggatgaagc gaatcgagga aggcatcaag gagctgggat cccagattct caaggagcat 2940 cccgtcgaga acactcaact gcagaacgag aagctgtatc tctactatct gcagaatggt 3000 cgagacatgt acgtggatca ggaactggac atcaatcgtc tcagcgacta cgatgtggac 3060 cacattgtcc ctcaatcctt tctcaaggac gattctatcg acaacaaggt ccttacacga 3120 tccgacaaga acagaggcaa gtcggacaac gttcccagcg aagaggtggt caaaaagatg 3180 aagaactact ggcgacagct gctcaacgcc aagctcatta cccagcgaaa gttcgacaat 3240 cttaccaagg ccgagcgagg cggtctgtcc gagctcgaca aggctggctt catcaagcgt 3300 caactcgtcg agaccagaca gatcacaaag cacgtcgcac agattctcga ttctcggatg 3360 aacaccaagt acgacgagaa cgacaagctc atccgagagg tcaaggtgat tactctcaag 3420 tccaaactgg tctccgattt ccgaaaggac tttcagttct acaaggtgcg agagatcaac 3480 aattaccacc atgcccacga tgcttacctc aacgccgtcg ttggcactgc gctcatcaag 3540 aaatacccca agctcgaaag cgagttcgtt tacggcgatt acaaggtcta cgacgttcga 3600 aagatgattg ccaagtccga acaggagatt ggcaaggcta ctgccaagta cttcttttac 3660 tccaacatca tgaacttttt caagaccgag atcaccttgg ccaacggaga gattcgaaag 3720 agaccactta tcgagaccaa cggcgaaact ggagagatcg tgtgggacaa gggtcgagac 3780 tttgcaaccg tgcgaaaggt tctgtcgatg cctcaggtca acatcgtcaa gaaaaccgag 3840 gttcagactg gcggattctc caaggagtcg attctgccca agcgaaactc cgacaagctc 3900 atcgctcgaa agaaagactg ggatcccaag aaatacggtg gcttcgattc tcctaccgtc 3960 gcctattccg tgcttgtcgt tgcgaaggtc gagaagggca agtccaaaaa gctcaagtcc 4020 gtcaaggagc tgctcggaat taccatcatg gagcgatcga gcttcgagaa gaatcccatc 4080 gacttcttgg aagccaaggg ttacaaggag gtcaagaaag acctcattat caagctgccc 4140 aagtactctc tgttcgaact ggagaacggt cgaaagcgta tgctcgcctc cgctggcgag 4200 ctgcagaagg gaaacgagct tgccttgcct tcgaagtacg tcaactttct ctatctggct 4260 tctcactacg agaagctcaa gggttctccc gaggacaacg aacagaagca actcttcgtt 4320 gagcagcaca aacattacct cgacgagatt atcgagcaga tttccgagtt ttcgaagcga 4380 gtcatcctgg ctgatgccaa cttggacaag gtgctctctg cctacaacaa gcatcgggac 4440 aaacccattc gagaacaggc ggagaacatc attcacctgt ttactcttac caacctgggt 4500 gctcctgcag ctttcaagta cttcgatacc actatcgacc gaaagcggta cacatccacc 4560 aaggaggttc tcgatgccac cctgattcac cagtccatca ctggcctgta cgagacccga 4620 atcgacctgt ctcagcttgg tggcgactcc agagccgatc ccaagaaaaa gcgaaaggtc 4680 taa 4683 <210> 6 <211> 10706 <212> DNA <213> artificial sequence <220> <223> pZufCas9CS <400> 6 catggacaag aaatactcca tcggcctgga cattggaacc aactctgtcg gctgggctgt 60 catcaccgac gagtacaagg tgccctccaa gaaattcaag gtcctcggaa acaccgatcg 120 acactccatc aagaaaaacc tcattggtgc cctgttgttc gattctggcg agactgccga 180 agctaccaga ctcaagcgaa ctgctcggcg acgttacacc cgacggaaga accgaatctg 240 ctacctgcag gagatctttt ccaacgagat ggccaaggtg gacgattcgt tctttcatcg 300 actggaggaa tccttcctcg tcgaggaaga caagaaacac gagcgtcatc ccatctttgg 360 caacattgtg gacgaggttg cttaccacga gaagtatcct accatctacc acctgcgaaa 420 gaaactcgtc gattccaccg acaaggcgga tctcagactt atctacctcg ctctggcaca 480 catgatcaag tttcgaggtc atttcctcat cgagggcgat ctcaatcccg acaacagcga 540 tgtggacaag ctgttcattc agctcgttca gacctacaac cagctgttcg aggaaaaccc 600 catcaatgcc tccggagtcg atgcaaaggc catcttgtct gctcgactct cgaagagcag 660 acgactggag aacctcattg cccaacttcc tggcgagaaa aagaacggac tgtttggcaa 720 cctcattgcc ctttctcttg gtctcacacc caacttcaag tccaacttcg atctggcgga 780 ggacgccaag ctccagctgt ccaaggacac ctacgacgat gacctcgaca acctgcttgc 840 acagattggc gatcagtacg ccgacctgtt tctcgctgcc aagaaccttt cggatgctat 900 tctcttgtct gacattctgc gagtcaacac cgagatcaca aaggctcccc tttctgcctc 960 catgatcaag cgatacgacg agcaccatca ggatctcaca ctgctcaagg ctcttgtccg 1020 acagcaactg cccgagaagt acaaggagat ctttttcgat cagtcgaaga acggctacgc 1080 tggatacatc gacggcggag cctctcagga agagttctac aagttcatca agccaattct 1140 cgagaagatg gacggaaccg aggaactgct tgtcaagctc aatcgagagg atctgcttcg 1200 gaagcaacga accttcgaca acggcagcat tcctcatcag atccacctcg gtgagctgca 1260 cgccattctt cgacgtcagg aagacttcta cccctttctc aaggacaacc gagagaagat 1320 cgagaagatt cttacctttc gaatccccta ctatgttggt cctcttgcca gaggaaactc 1380 tcgatttgct tggatgactc gaaagtccga ggaaaccatc actccctgga acttcgagga 1440 agtcgtggac aagggtgcct ctgcacagtc cttcatcgag cgaatgacca acttcgacaa 1500 gaatctgccc aacgagaagg ttcttcccaa gcattcgctg ctctacgagt actttacagt 1560 ctacaacgaa ctcaccaaag tcaagtacgt taccgaggga atgcgaaagc ctgccttctt 1620 gtctggcgaa cagaagaaag ccattgtcga tctcctgttc aagaccaacc gaaaggtcac 1680 tgttaagcag ctcaaggagg actacttcaa gaaaatcgag tgtttcgaca gcgtcgagat 1740 ttccggagtt gaggaccgat tcaacgcctc tttgggcacc tatcacgatc tgctcaagat 1800 tatcaaggac aaggattttc tcgacaacga ggaaaacgag gacattctgg aggacatcgt 1860 gctcactctt accctgttcg aagatcggga gatgatcgag gaacgactca agacatacgc 1920 tcacctgttc gacgacaagg tcatgaaaca actcaagcga cgtagataca ccggctgggg 1980 aagactttcg cgaaagctca tcaacggcat cagagacaag cagtccggaa agaccattct 2040 ggactttctc aagtccgatg gctttgccaa ccgaaacttc atgcagctca ttcacgacga 2100 ttctcttacc ttcaaggagg acatccagaa ggcacaagtg tccggtcagg gcgacagctt 2160 gcacgaacat attgccaacc tggctggttc gccagccatc aagaaaggca ttctccagac 2220 tgtcaaggtt gtcgacgagc tggtgaaggt catgggacgt cacaagcccg agaacattgt 2280 gatcgagatg gccagagaga accagacaac tcaaaagggt cagaaaaact cgcgagagcg 2340 gatgaagcga atcgaggaag gcatcaagga gctgggatcc cagattctca aggagcatcc 2400 cgtcgagaac actcaactgc agaacgagaa gctgtatctc tactatctgc agaatggtcg 2460 agacatgtac gtggatcagg aactggacat caatcgtctc agcgactacg atgtggacca 2520 cattgtccct caatcctttc tcaaggacga ttctatcgac aacaaggtcc ttacacgatc 2580 cgacaagaac agaggcaagt cggacaacgt tcccagcgaa gaggtggtca aaaagatgaa 2640 gaactactgg cgacagctgc tcaacgccaa gctcattacc cagcgaaagt tcgacaatct 2700 taccaaggcc gagcgaggcg gtctgtccga gctcgacaag gctggcttca tcaagcgtca 2760 actcgtcgag accagacaga tcacaaagca cgtcgcacag attctcgatt ctcggatgaa 2820 caccaagtac gacgagaacg acaagctcat ccgagaggtc aaggtgatta ctctcaagtc 2880 caaactggtc tccgatttcc gaaaggactt tcagttctac aaggtgcgag agatcaacaa 2940 ttaccaccat gcccacgatg cttacctcaa cgccgtcgtt ggcactgcgc tcatcaagaa 3000 ataccccaag ctcgaaagcg agttcgttta cggcgattac aaggtctacg acgttcgaaa 3060 gatgattgcc aagtccgaac aggagattgg caaggctact gccaagtact tcttttactc 3120 caacatcatg aactttttca agaccgagat caccttggcc aacggagaga ttcgaaagag 3180 accacttatc gagaccaacg gcgaaactgg agagatcgtg tgggacaagg gtcgagactt 3240 tgcaaccgtg cgaaaggttc tgtcgatgcc tcaggtcaac atcgtcaaga aaaccgaggt 3300 tcagactggc ggattctcca aggagtcgat tctgcccaag cgaaactccg acaagctcat 3360 cgctcgaaag aaagactggg atcccaagaa atacggtggc ttcgattctc ctaccgtcgc 3420 ctattccgtg cttgtcgttg cgaaggtcga gaagggcaag tccaaaaagc tcaagtccgt 3480 caaggagctg ctcggaatta ccatcatgga gcgatcgagc ttcgagaaga atcccatcga 3540 cttcttggaa gccaagggtt acaaggaggt caagaaagac ctcattatca agctgcccaa 3600 gtactctctg ttcgaactgg agaacggtcg aaagcgtatg ctcgcctccg ctggcgagct 3660 gcagaaggga aacgagcttg ccttgccttc gaagtacgtc aactttctct atctggcttc 3720 tcactacgag aagctcaagg gttctcccga ggacaacgaa cagaagcaac tcttcgttga 3780 gcagcacaaa cattacctcg acgagattat cgagcagatt tccgagtttt cgaagcgagt 3840 catcctggct gatgccaact tggacaaggt gctctctgcc tacaacaagc atcgggacaa 3900 acccattcga gaacaggcgg agaacatcat tcacctgttt actcttacca acctgggtgc 3960 tcctgcagct ttcaagtact tcgataccac tatcgaccga aagcggtaca catccaccaa 4020 ggaggttctc gatgccaccc tgattcacca gtccatcact ggcctgtacg agacccgaat 4080 cgacctgtct cagcttggtg gcgactccag agccgatccc aagaaaaagc gaaaggtcta 4140 agcggccgca agtgtggatg gggaagtgag tgcccggttc tgtgtgcaca attggcaatc 4200 caagatggat ggattcaaca cagggatata gcgagctacg tggtggtgcg aggatatagc 4260 aacggatatt tatgtttgac acttgagaat gtacgataca agcactgtcc aagtacaata 4320 ctaaacatac tgtacatact catactcgta cccgggcaac ggtttcactt gagtgcagtg 4380 gctagtgctc ttactcgtac agtgtgcaat actgcgtatc atagtctttg atgtatatcg 4440 tattcattca tgttagttgc gtacgagccg gaagcataaa gtgtaaagcc tggggtgcct 4500 aatgagtgag ctaactcaca ttaattgcgt tgcgctcact gcccgctttc cagtcgggaa 4560 acctgtcgtg ccagctgcat taatgaatcg gccaacgcgc ggggagaggc ggtttgcgta 4620 ttgggcgctc ttccgcttcc tcgctcactg actcgctgcg ctcggtcgtt cggctgcggc 4680 gagcggtatc agctcactca aaggcggtaa tacggttatc cacagaatca ggggataacg 4740 caggaaagaa catgtgagca aaaggccagc aaaaggccag gaaccgtaaa aaggccgcgt 4800 tgctggcgtt tttccatagg ctccgccccc ctgacgagca tcacaaaaat cgacgctcaa 4860 gtcagaggtg gcgaaacccg acaggactat aaagatacca ggcgtttccc cctggaagct 4920 ccctcgtgcg ctctcctgtt ccgaccctgc cgcttaccgg atacctgtcc gcctttctcc 4980 cttcgggaag cgtggcgctt tctcatagct cacgctgtag gtatctcagt tcggtgtagg 5040 tcgttcgctc caagctgggc tgtgtgcacg aaccccccgt tcagcccgac cgctgcgcct 5100 tatccggtaa ctatcgtctt gagtccaacc cggtaagaca cgacttatcg ccactggcag 5160 cagccactgg taacaggatt agcagagcga ggtatgtagg cggtgctaca gagttcttga 5220 agtggtggcc taactacggc tacactagaa ggacagtatt tggtatctgc gctctgctga 5280 agccagttac cttcggaaaa agagttggta gctcttgatc cggcaaacaa accaccgctg 5340 gtagcggtgg tttttttgtt tgcaagcagc agattacgcg cagaaaaaaa ggatctcaag 5400 aagatccttt gatcttttct acggggtctg acgctcagtg gaacgaaaac tcacgttaag 5460 ggattttggt catgagatta tcaaaaagga tcttcaccta gatcctttta aattaaaaat 5520 gaagttttaa atcaatctaa agtatatatg agtaaacttg gtctgacagt taccaatgct 5580 taatcagtga ggcacctatc tcagcgatct gtctatttcg ttcatccata gttgcctgac 5640 tccccgtcgt gtagataact acgatacggg agggcttacc atctggcccc agtgctgcaa 5700 tgataccgcg agacccacgc tcaccggctc cagatttatc agcaataaac cagccagccg 5760 gaagggccga gcgcagaagt ggtcctgcaa ctttatccgc ctccatccag tctattaatt 5820 gttgccggga agctagagta agtagttcgc cagttaatag tttgcgcaac gttgttgcca 5880 ttgctacagg catcgtggtg tcacgctcgt cgtttggtat ggcttcattc agctccggtt 5940 cccaacgatc aaggcgagtt acatgatccc ccatgttgtg caaaaaagcg gttagctcct 6000 tcggtcctcc gatcgttgtc agaagtaagt tggccgcagt gttatcactc atggttatgg 6060 cagcactgca taattctctt actgtcatgc catccgtaag atgcttttct gtgactggtg 6120 agtactcaac caagtcattc tgagaatagt gtatgcggcg accgagttgc tcttgcccgg 6180 cgtcaatacg ggataatacc gcgccacata gcagaacttt aaaagtgctc atcattggaa 6240 aacgttcttc ggggcgaaaa ctctcaagga tcttaccgct gttgagatcc agttcgatgt 6300 aacccactcg tgcacccaac tgatcttcag catcttttac tttcaccagc gtttctgggt 6360 gagcaaaaac aggaaggcaa aatgccgcaa aaaagggaat aagggcgaca cggaaatgtt 6420 gaatactcat actcttcctt tttcaatatt attgaagcat ttatcagggt tattgtctca 6480 tgagcggata catatttgaa tgtatttaga aaaataaaca aataggggtt ccgcgcacat 6540 ttccccgaaa agtgccacct gacgcgccct gtagcggcgc attaagcgcg gcgggtgtgg 6600 tggttacgcg cagcgtgacc gctacacttg ccagcgccct agcgcccgct cctttcgctt 6660 tcttcccttc ctttctcgcc acgttcgccg gctttccccg tcaagctcta aatcgggggc 6720 tccctttagg gttccgattt agtgctttac ggcacctcga ccccaaaaaa cttgattagg 6780 gtgatggttc acgtagtggg ccatcgccct gatagacggt ttttcgccct ttgacgttgg 6840 agtccacgtt ctttaatagt ggactcttgt tccaaactgg aacaacactc aaccctatct 6900 cggtctattc ttttgattta taagggattt tgccgatttc ggcctattgg ttaaaaaatg 6960 agctgattta acaaaaattt aacgcgaatt ttaacaaaat attaacgctt acaatttcca 7020 ttcgccattc aggctgcgca actgttggga agggcgatcg gtgcgggcct cttcgctatt 7080 acgccagctg gcgaaagggg gatgtgctgc aaggcgatta agttgggtaa cgccagggtt 7140 ttcccagtca cgacgttgta aaacgacggc cagtgaattg taatacgact cactataggg 7200 cgaattgggt accgggcccc ccctcgaggt cgatggtgtc gataagcttg atatcgaatt 7260 catgtcacac aaaccgatct tcgcctcaag gaaacctaat tctacatccg agagactgcc 7320 gagatccagt ctacactgat taattttcgg gccaataatt taaaaaaatc gtgttatata 7380 atattatatg tattatatat atacatcatg atgatactga cagtcatgtc ccattgctaa 7440 atagacagac tccatctgcc gcctccaact gatgttctca atatttaagg ggtcatctcg 7500 cattgtttaa taataaacag actccatcta ccgcctccaa atgatgttct caaaatatat 7560 tgtatgaact tatttttatt acttagtatt attagacaac ttacttgctt tatgaaaaac 7620 acttcctatt taggaaacaa tttataatgg cagttcgttc atttaacaat ttatgtagaa 7680 taaatgttat aaatgcgtat gggaaatctt aaatatggat agcataaatg atatctgcat 7740 tgcctaattc gaaatcaaca gcaacgaaaa aaatcccttg tacaacataa atagtcatcg 7800 agaaatatca actatcaaag aacagctatt cacacgttac tattgagatt attattggac 7860 gagaatcaca cactcaactg tctttctctc ttctagaaat acaggtacaa gtatgtacta 7920 ttctcattgt tcatacttct agtcatttca tcccacatat tccttggatt tctctccaat 7980 gaatgacatt ctatcttgca aattcaacaa ttataataag atataccaaa gtagcggtat 8040 agtggcaatc aaaaagcttc tctggtgtgc ttctcgtatt tatttttatt ctaatgatcc 8100 attaaaggta tatatttatt tcttgttata taatcctttt gtttattaca tgggctggat 8160 acataaaggt attttgattt aattttttgc ttaaattcaa tcccccctcg ttcagtgtca 8220 actgtaatgg taggaaatta ccatactttt gaagaagcaa aaaaaatgaa agaaaaaaaa 8280 aatcgtattt ccaggttaga cgttccgcag aatctagaat gcggtatgcg gtacattgtt 8340 cttcgaacgt aaaagttgcg ctccctgaga tattgtacat ttttgctttt acaagtacaa 8400 gtacatcgta caactatgta ctactgttga tgcatccaca acagtttgtt ttgttttttt 8460 ttgttttttt tttttctaat gattcattac cgctatgtat acctacttgt acttgtagta 8520 agccgggtta ttggcgttca attaatcata gacttatgaa tctgcacggt gtgcgctgcg 8580 agttactttt agcttatgca tgctacttgg gtgtaatatt gggatctgtt cggaaatcaa 8640 cggatgctca atcgatttcg acagtaatta attaagtcat acacaagtca gctttcttcg 8700 agcctcatat aagtataagt agttcaacgt attagcactg tacccagcat ctccgtatcg 8760 agaaacacaa caacatgccc cattggacag atcatgcgga tacacaggtt gtgcagtatc 8820 atacatactc gatcagacag gtcgtctgac catcatacaa gctgaacaag cgctccatac 8880 ttgcacgctc tctatataca cagttaaatt acatatccat agtctaacct ctaacagtta 8940 atcttctggt aagcctccca gccagccttc tggtatcgct tggcctcctc aataggatct 9000 cggttctggc cgtacagacc tcggccgaca attatgatat ccgttccggt agacatgaca 9060 tcctcaacag ttcggtactg ctgtccgaga gcgtctccct tgtcgtcaag acccaccccg 9120 ggggtcagaa taagccagtc ctcagagtcg cccttaggtc ggttctgggc aatgaagcca 9180 accacaaact cggggtcgga tcgggcaagc tcaatggtct gcttggagta ctcgccagtg 9240 gccagagagc ccttgcaaga cagctcggcc agcatgagca gacctctggc cagcttctcg 9300 ttgggagagg ggactaggaa ctccttgtac tgggagttct cgtagtcaga gacgtcctcc 9360 ttcttctgtt cagagacagt ttcctcggca ccagctcgca ggccagcaat gattccggtt 9420 ccgggtacac cgtgggcgtt ggtgatatcg gaccactcgg cgattcggtg acaccggtac 9480 tggtgcttga cagtgttgcc aatatctgcg aactttctgt cctcgaacag gaagaaaccg 9540 tgcttaagag caagttcctt gagggggagc acagtgccgg cgtaggtgaa gtcgtcaatg 9600 atgtcgatat gggttttgat catgcacaca taaggtccga ccttatcggc aagctcaatg 9660 agctccttgg tggtggtaac atccagagaa gcacacaggt tggttttctt ggctgccacg 9720 agcttgagca ctcgagcggc aaaggcggac ttgtggacgt tagctcgagc ttcgtaggag 9780 ggcattttgg tggtgaagag gagactgaaa taaatttagt ctgcagaact ttttatcgga 9840 accttatctg gggcagtgaa gtatatgtta tggtaatagt tacgagttag ttgaacttat 9900 agatagactg gactatacgg ctatcggtcc aaattagaaa gaacgtcaat ggctctctgg 9960 gcgtcgcctt tgccgacaaa aatgtgatca tgatgaaagc cagcaatgac gttgcagctg 10020 atattgttgt cggccaaccg cgccgaaaac gcagctgtca gacccacagc ctccaacgaa 10080 gaatgtatcg tcaaagtgat ccaagcacac tcatagttgg agtcgtactc caaaggcggc 10140 aatgacgagt cagacagata ctcgtcgacg tttaaaccat catctaaggg cctcaaaact 10200 acctcggaac tgctgcgctg atctggacac cacagaggtt ccgagcactt taggttgcac 10260 caaatgtccc accaggtgca ggcagaaaac gctggaacag cgtgtacagt ttgtcttaac 10320 aaaaagtgag ggcgctgagg tcgagcaggg tggtgtgact tgttatagcc tttagagctg 10380 cgaaagcgcg tatggatttg gctcatcagg ccagattgag ggtctgtgga cacatgtcat 10440 gttagtgtac ttcaatcgcc ccctggatat agccccgaca ataggccgtg gcctcatttt 10500 tttgccttcc gcacatttcc attgctcggt acccacacct tgcttctcct gcacttgcca 10560 accttaatac tggtttacat tgaccaacat cttacaagcg gggggcttgt ctagggtata 10620 tataaacagt ggctctccca atcggttgcc agtctctttt ttcctttctt tccccacaga 10680 ttcgaaatct aaactacaca tcacac 10706 <210> 7 <211> 4144 <212> DNA <213> artificial sequence <220> <223> Cas9-SV40 fusion <400> 7 acaagaaata ctccatcggc ctggacattg gaaccaactc tgtcggctgg gctgtcatca 60 ccgacgagta caaggtgccc tccaagaaat tcaaggtcct cggaaacacc gatcgacact 120 ccatcaagaa aaacctcatt ggtgccctgt tgttcgattc tggcgagact gccgaagcta 180 ccagactcaa gcgaactgct cggcgacgtt acacccgacg gaagaaccga atctgctacc 240 tgcaggagat cttttccaac gagatggcca aggtggacga ttcgttcttt catcgactgg 300 aggaatcctt cctcgtcgag gaagacaaga aacacgagcg tcatcccatc tttggcaaca 360 ttgtggacga ggttgcttac cacgagaagt atcctaccat ctaccacctg cgaaagaaac 420 tcgtcgattc caccgacaag gcggatctca gacttatcta cctcgctctg gcacacatga 480 tcaagtttcg aggtcatttc ctcatcgagg gcgatctcaa tcccgacaac agcgatgtgg 540 acaagctgtt cattcagctc gttcagacct acaaccagct gttcgaggaa aaccccatca 600 atgcctccgg agtcgatgca aaggccatct tgtctgctcg actctcgaag agcagacgac 660 tggagaacct cattgcccaa cttcctggcg agaaaaagaa cggactgttt ggcaacctca 720 ttgccctttc tcttggtctc acacccaact tcaagtccaa cttcgatctg gcggaggacg 780 ccaagctcca gctgtccaag gacacctacg acgatgacct cgacaacctg cttgcacaga 840 ttggcgatca gtacgccgac ctgtttctcg ctgccaagaa cctttcggat gctattctct 900 tgtctgacat tctgcgagtc aacaccgaga tcacaaaggc tcccctttct gcctccatga 960 tcaagcgata cgacgagcac catcaggatc tcacactgct caaggctctt gtccgacagc 1020 aactgcccga gaagtacaag gagatctttt tcgatcagtc gaagaacggc tacgctggat 1080 acatcgacgg cggagcctct caggaagagt tctacaagtt catcaagcca attctcgaga 1140 agatggacgg aaccgaggaa ctgcttgtca agctcaatcg agaggatctg cttcggaagc 1200 aacgaacctt cgacaacggc agcattcctc atcagatcca cctcggtgag ctgcacgcca 1260 ttcttcgacg tcaggaagac ttctacccct ttctcaagga caaccgagag aagatcgaga 1320 agattcttac ctttcgaatc ccctactatg ttggtcctct tgccagagga aactctcgat 1380 ttgcttggat gactcgaaag tccgaggaaa ccatcactcc ctggaacttc gaggaagtcg 1440 tggacaaggg tgcctctgca cagtccttca tcgagcgaat gaccaacttc gacaagaatc 1500 tgcccaacga gaaggttctt cccaagcatt cgctgctcta cgagtacttt acagtctaca 1560 acgaactcac caaagtcaag tacgttaccg agggaatgcg aaagcctgcc ttcttgtctg 1620 gcgaacagaa gaaagccatt gtcgatctcc tgttcaagac caaccgaaag gtcactgtta 1680 agcagctcaa ggaggactac ttcaagaaaa tcgagtgttt cgacagcgtc gagatttccg 1740 gagttgagga ccgattcaac gcctctttgg gcacctatca cgatctgctc aagattatca 1800 aggacaagga ttttctcgac aacgaggaaa acgaggacat tctggaggac atcgtgctca 1860 ctcttaccct gttcgaagat cgggagatga tcgaggaacg actcaagaca tacgctcacc 1920 tgttcgacga caaggtcatg aaacaactca agcgacgtag atacaccggc tggggaagac 1980 tttcgcgaaa gctcatcaac ggcatcagag acaagcagtc cggaaagacc attctggact 2040 ttctcaagtc cgatggcttt gccaaccgaa acttcatgca gctcattcac gacgattctc 2100 ttaccttcaa ggaggacatc cagaaggcac aagtgtccgg tcagggcgac agcttgcacg 2160 aacatattgc caacctggct ggttcgccag ccatcaagaa aggcattctc cagactgtca 2220 aggttgtcga cgagctggtg aaggtcatgg gacgtcacaa gcccgagaac attgtgatcg 2280 agatggccag agagaaccag acaactcaaa agggtcagaa aaactcgcga gagcggatga 2340 agcgaatcga ggaaggcatc aaggagctgg gatcccagat tctcaaggag catcccgtcg 2400 agaacactca actgcagaac gagaagctgt atctctacta tctgcagaat ggtcgagaca 2460 tgtacgtgga tcaggaactg gacatcaatc gtctcagcga ctacgatgtg gaccacattg 2520 tccctcaatc ctttctcaag gacgattcta tcgacaacaa ggtccttaca cgatccgaca 2580 agaacagagg caagtcggac aacgttccca gcgaagaggt ggtcaaaaag atgaagaact 2640 actggcgaca gctgctcaac gccaagctca ttacccagcg aaagttcgac aatcttacca 2700 aggccgagcg aggcggtctg tccgagctcg acaaggctgg cttcatcaag cgtcaactcg 2760 tcgagaccag acagatcaca aagcacgtcg cacagattct cgattctcgg atgaacacca 2820 agtacgacga gaacgacaag ctcatccgag aggtcaaggt gattactctc aagtccaaac 2880 tggtctccga tttccgaaag gactttcagt tctacaaggt gcgagagatc aacaattacc 2940 accatgccca cgatgcttac ctcaacgccg tcgttggcac tgcgctcatc aagaaatacc 3000 ccaagctcga aagcgagttc gtttacggcg attacaaggt ctacgacgtt cgaaagatga 3060 ttgccaagtc cgaacaggag attggcaagg ctactgccaa gtacttcttt tactccaaca 3120 tcatgaactt tttcaagacc gagatcacct tggccaacgg agagattcga aagagaccac 3180 ttatcgagac caacggcgaa actggagaga tcgtgtggga caagggtcga gactttgcaa 3240 ccgtgcgaaa ggttctgtcg atgcctcagg tcaacatcgt caagaaaacc gaggttcaga 3300 ctggcggatt ctccaaggag tcgattctgc ccaagcgaaa ctccgacaag ctcatcgctc 3360 gaaagaaaga ctgggatccc aagaaatacg gtggcttcga ttctcctacc gtcgcctatt 3420 ccgtgcttgt cgttgcgaag gtcgagaagg gcaagtccaa aaagctcaag tccgtcaagg 3480 agctgctcgg aattaccatc atggagcgat cgagcttcga gaagaatccc atcgacttct 3540 tggaagccaa gggttacaag gaggtcaaga aagacctcat tatcaagctg cccaagtact 3600 ctctgttcga actggagaac ggtcgaaagc gtatgctcgc ctccgctggc gagctgcaga 3660 agggaaacga gcttgccttg ccttcgaagt acgtcaactt tctctatctg gcttctcact 3720 acgagaagct caagggttct cccgaggaca acgaacagaa gcaactcttc gttgagcagc 3780 acaaacatta cctcgacgag attatcgagc agatttccga gttttcgaag cgagtcatcc 3840 tggctgatgc caacttggac aaggtgctct ctgcctacaa caagcatcgg gacaaaccca 3900 ttcgagaaca ggcggagaac atcattcacc tgtttactct taccaacctg ggtgctcctg 3960 cagctttcaa gtacttcgat accactatcg accgaaagcg gtacacatcc accaaggagg 4020 ttctcgatgc caccctgatt caccagtcca tcactggcct gtacgagacc cgaatcgacc 4080 tgtctcagct tggtggcgac tccagagccg atcccaagaa aaagcgaaag gtctaagcgg 4140 ccgc 4144 <210> 8 <211> 35 <212> DNA <213> Artificial sequence <220> <223> Cas9 forward primer <400> 8 gggggaattc gacaagaaat actccatcgg cctgg 35 <210> 9 <211> 31 <212> DNA <213> Artificial sequence <220> <223> Cas9 reverse primer <400> 9 ccccaagctt agcggccgct tagacctttc g 31 <210> 10 <211> 4166 <212> DNA <213> Artificial sequence <220> <223> Cas9 PCR product <400> 10 gggggaattc gacaagaaat actccatcgg cctggacatt ggaaccaact ctgtcggctg 60 ggctgtcatc accgacgagt acaaggtgcc ctccaagaaa ttcaaggtcc tcggaaacac 120 cgatcgacac tccatcaaga aaaacctcat tggtgccctg ttgttcgatt ctggcgagac 180 tgccgaagct accagactca agcgaactgc tcggcgacgt tacacccgac ggaagaaccg 240 aatctgctac ctgcaggaga tcttttccaa cgagatggcc aaggtggacg attcgttctt 300 tcatcgactg gaggaatcct tcctcgtcga ggaagacaag aaacacgagc gtcatcccat 360 ctttggcaac attgtggacg aggttgctta ccacgagaag tatcctacca tctaccacct 420 gcgaaagaaa ctcgtcgatt ccaccgacaa ggcggatctc agacttatct acctcgctct 480 ggcacacatg atcaagtttc gaggtcattt cctcatcgag ggcgatctca atcccgacaa 540 cagcgatgtg gacaagctgt tcattcagct cgttcagacc tacaaccagc tgttcgagga 600 aaaccccatc aatgcctccg gagtcgatgc aaaggccatc ttgtctgctc gactctcgaa 660 gagcagacga ctggagaacc tcattgccca acttcctggc gagaaaaaga acggactgtt 720 tggcaacctc attgcccttt ctcttggtct cacacccaac ttcaagtcca acttcgatct 780 ggcggaggac gccaagctcc agctgtccaa ggacacctac gacgatgacc tcgacaacct 840 gcttgcacag attggcgatc agtacgccga cctgtttctc gctgccaaga acctttcgga 900 tgctattctc ttgtctgaca ttctgcgagt caacaccgag atcacaaagg ctcccctttc 960 tgcctccatg atcaagcgat acgacgagca ccatcaggat ctcacactgc tcaaggctct 1020 tgtccgacag caactgcccg agaagtacaa ggagatcttt ttcgatcagt cgaagaacgg 1080 ctacgctgga tacatcgacg gcggagcctc tcaggaagag ttctacaagt tcatcaagcc 1140 aattctcgag aagatggacg gaaccgagga actgcttgtc aagctcaatc gagaggatct 1200 gcttcggaag caacgaacct tcgacaacgg cagcattcct catcagatcc acctcggtga 1260 gctgcacgcc attcttcgac gtcaggaaga cttctacccc tttctcaagg acaaccgaga 1320 gaagatcgag aagattctta cctttcgaat cccctactat gttggtcctc ttgccagagg 1380 aaactctcga tttgcttgga tgactcgaaa gtccgaggaa accatcactc cctggaactt 1440 cgaggaagtc gtggacaagg gtgcctctgc acagtccttc atcgagcgaa tgaccaactt 1500 cgacaagaat ctgcccaacg agaaggttct tcccaagcat tcgctgctct acgagtactt 1560 tacagtctac aacgaactca ccaaagtcaa gtacgttacc gagggaatgc gaaagcctgc 1620 cttcttgtct ggcgaacaga agaaagccat tgtcgatctc ctgttcaaga ccaaccgaaa 1680 ggtcactgtt aagcagctca aggaggacta cttcaagaaa atcgagtgtt tcgacagcgt 1740 cgagatttcc ggagttgagg accgattcaa cgcctctttg ggcacctatc acgatctgct 1800 caagattatc aaggacaagg attttctcga caacgaggaa aacgaggaca ttctggagga 1860 catcgtgctc actcttaccc tgttcgaaga tcgggagatg atcgaggaac gactcaagac 1920 atacgctcac ctgttcgacg acaaggtcat gaaacaactc aagcgacgta gatacaccgg 1980 ctggggaaga ctttcgcgaa agctcatcaa cggcatcaga gacaagcagt ccggaaagac 2040 cattctggac tttctcaagt ccgatggctt tgccaaccga aacttcatgc agctcattca 2100 cgacgattct cttaccttca aggaggacat ccagaaggca caagtgtccg gtcagggcga 2160 cagcttgcac gaacatattg ccaacctggc tggttcgcca gccatcaaga aaggcattct 2220 ccagactgtc aaggttgtcg acgagctggt gaaggtcatg ggacgtcaca agcccgagaa 2280 cattgtgatc gagatggcca gagagaacca gacaactcaa aagggtcaga aaaactcgcg 2340 agagcggatg aagcgaatcg aggaaggcat caaggagctg ggatcccaga ttctcaagga 2400 gcatcccgtc gagaacactc aactgcagaa cgagaagctg tatctctact atctgcagaa 2460 tggtcgagac atgtacgtgg atcaggaact ggacatcaat cgtctcagcg actacgatgt 2520 ggaccacatt gtccctcaat cctttctcaa ggacgattct atcgacaaca aggtccttac 2580 acgatccgac aagaacagag gcaagtcgga caacgttccc agcgaagagg tggtcaaaaa 2640 gatgaagaac tactggcgac agctgctcaa cgccaagctc attacccagc gaaagttcga 2700 caatcttacc aaggccgagc gaggcggtct gtccgagctc gacaaggctg gcttcatcaa 2760 gcgtcaactc gtcgagacca gacagatcac aaagcacgtc gcacagattc tcgattctcg 2820 gatgaacacc aagtacgacg agaacgacaa gctcatccga gaggtcaagg tgattactct 2880 caagtccaaa ctggtctccg atttccgaaa ggactttcag ttctacaagg tgcgagagat 2940 caacaattac caccatgccc acgatgctta cctcaacgcc gtcgttggca ctgcgctcat 3000 caagaaatac cccaagctcg aaagcgagtt cgtttacggc gattacaagg tctacgacgt 3060 tcgaaagatg attgccaagt ccgaacagga gattggcaag gctactgcca agtacttctt 3120 ttactccaac atcatgaact ttttcaagac cgagatcacc ttggccaacg gagagattcg 3180 aaagagacca cttatcgaga ccaacggcga aactggagag atcgtgtggg acaagggtcg 3240 agactttgca accgtgcgaa aggttctgtc gatgcctcag gtcaacatcg tcaagaaaac 3300 cgaggttcag actggcggat tctccaagga gtcgattctg cccaagcgaa actccgacaa 3360 gctcatcgct cgaaagaaag actgggatcc caagaaatac ggtggcttcg attctcctac 3420 cgtcgcctat tccgtgcttg tcgttgcgaa ggtcgagaag ggcaagtcca aaaagctcaa 3480 gtccgtcaag gagctgctcg gaattaccat catggagcga tcgagcttcg agaagaatcc 3540 catcgacttc ttggaagcca agggttacaa ggaggtcaag aaagacctca ttatcaagct 3600 gcccaagtac tctctgttcg aactggagaa cggtcgaaag cgtatgctcg cctccgctgg 3660 cgagctgcag aagggaaacg agcttgcctt gccttcgaag tacgtcaact ttctctatct 3720 ggcttctcac tacgagaagc tcaagggttc tcccgaggac aacgaacaga agcaactctt 3780 cgttgagcag cacaaacatt acctcgacga gattatcgag cagatttccg agttttcgaa 3840 gcgagtcatc ctggctgatg ccaacttgga caaggtgctc tctgcctaca acaagcatcg 3900 ggacaaaccc attcgagaac aggcggagaa catcattcac ctgtttactc ttaccaacct 3960 gggtgctcct gcagctttca agtacttcga taccactatc gaccgaaagc ggtacacatc 4020 caccaaggag gttctcgatg ccaccctgat tcaccagtcc atcactggcc tgtacgagac 4080 ccgaatcgac ctgtctcagc ttggtggcga ctccagagcc gatcccaaga aaaagcgaaa 4140 ggtctaagcg gccgctaagc ttgggg 4166 <210> 11 <211> 4092 <212> DNA <213> Artificial sequence <220> <223> pBAD/HisB <400> 11 aagaaaccaa ttgtccatat tgcatcagac attgccgtca ctgcgtcttt tactggctct 60 tctcgctaac caaaccggta accccgctta ttaaaagcat tctgtaacaa agcgggacca 120 aagccatgac aaaaacgcgt aacaaaagtg tctataatca cggcagaaaa gtccacattg 180 attatttgca cggcgtcaca ctttgctatg ccatagcatt tttatccata agattagcgg 240 atcctacctg acgcttttta tcgcaactct ctactgtttc tccatacccg ttttttgggc 300 taacaggagg aattaaccat ggggggttct catcatcatc atcatcatgg tatggctagc 360 atgactggtg gacagcaaat gggtcgggat ctgtacgacg atgacgataa ggatccgagc 420 tcgagatctg cagctggtac catatgggaa ttcgaagctt ggctgttttg gcggatgaga 480 gaagattttc agcctgatac agattaaatc agaacgcaga agcggtctga taaaacagaa 540 tttgcctggc ggcagtagcg cggtggtccc acctgacccc atgccgaact cagaagtgaa 600 acgccgtagc gccgatggta gtgtggggtc tccccatgcg agagtaggga actgccaggc 660 atcaaataaa acgaaaggct cagtcgaaag actgggcctt tcgttttatc tgttgtttgt 720 cggtgaacgc tctcctgagt aggacaaatc cgccgggagc ggatttgaac gttgcgaagc 780 aacggcccgg agggtggcgg gcaggacgcc cgccataaac tgccaggcat caaattaagc 840 agaaggccat cctgacggat ggcctttttg cgtttctaca aactcttttg tttatttttc 900 taaatacatt caaatatgta tccgctcatg agacaataac cctgataaat gcttcaataa 960 tattgaaaaa ggaagagtat gagtattcaa catttccgtg tcgcccttat tccctttttt 1020 gcggcatttt gccttcctgt ttttgctcac ccagaaacgc tggtgaaagt aaaagatgct 1080 gaagatcagt tgggtgcacg agtgggttac atcgaactgg atctcaacag cggtaagatc 1140 cttgagagtt ttcgccccga agaacgtttt ccaatgatga gcacttttaa agttctgcta 1200 tgtggcgcgg tattatcccg tgttgacgcc gggcaagagc aactcggtcg ccgcatacac 1260 tattctcaga atgacttggt tgagtactca ccagtcacag aaaagcatct tacggatggc 1320 atgacagtaa gagaattatg cagtgctgcc ataaccatga gtgataacac tgcggccaac 1380 ttacttctga caacgatcgg aggaccgaag gagctaaccg cttttttgca caacatgggg 1440 gatcatgtaa ctcgccttga tcgttgggaa ccggagctga atgaagccat accaaacgac 1500 gagcgtgaca ccacgatgcc tgtagcaatg gcaacaacgt tgcgcaaact attaactggc 1560 gaactactta ctctagcttc ccggcaacaa ttaatagact ggatggaggc ggataaagtt 1620 gcaggaccac ttctgcgctc ggcccttccg gctggctggt ttattgctga taaatctgga 1680 gccggtgagc gtgggtctcg cggtatcatt gcagcactgg ggccagatgg taagccctcc 1740 cgtatcgtag ttatctacac gacggggagt caggcaacta tggatgaacg aaatagacag 1800 atcgctgaga taggtgcctc actgattaag cattggtaac tgtcagacca agtttactca 1860 tatatacttt agattgattt aaaacttcat ttttaattta aaaggatcta ggtgaagatc 1920 ctttttgata atctcatgac caaaatccct taacgtgagt tttcgttcca ctgagcgtca 1980 gaccccgtag aaaagatcaa aggatcttct tgagatcctt tttttctgcg cgtaatctgc 2040 tgcttgcaaa caaaaaaacc accgctacca gcggtggttt gtttgccgga tcaagagcta 2100 ccaactcttt ttccgaaggt aactggcttc agcagagcgc agataccaaa tactgtcctt 2160 ctagtgtagc cgtagttagg ccaccacttc aagaactctg tagcaccgcc tacatacctc 2220 gctctgctaa tcctgttacc agtggctgct gccagtggcg ataagtcgtg tcttaccggg 2280 ttggactcaa gacgatagtt accggataag gcgcagcggt cgggctgaac ggggggttcg 2340 tgcacacagc ccagcttgga gcgaacgacc tacaccgaac tgagatacct acagcgtgag 2400 ctatgagaaa gcgccacgct tcccgaaggg agaaaggcgg acaggtatcc ggtaagcggc 2460 agggtcggaa caggagagcg cacgagggag cttccagggg gaaacgcctg gtatctttat 2520 agtcctgtcg ggtttcgcca cctctgactt gagcgtcgat ttttgtgatg ctcgtcaggg 2580 gggcggagcc tatggaaaaa cgccagcaac gcggcctttt tacggttcct ggccttttgc 2640 tggccttttg ctcacatgtt ctttcctgcg ttatcccctg attctgtgga taaccgtatt 2700 accgcctttg agtgagctga taccgctcgc cgcagccgaa cgaccgagcg cagcgagtca 2760 gtgagcgagg aagcggaaga gcgcctgatg cggtattttc tccttacgca tctgtgcggt 2820 atttcacacc gcatatggtg cactctcagt acaatctgct ctgatgccgc atagttaagc 2880 cagtatacac tccgctatcg ctacgtgact gggtcatggc tgcgccccga cacccgccaa 2940 cacccgctga cgcgccctga cgggcttgtc tgctcccggc atccgcttac agacaagctg 3000 tgaccgtctc cgggagctgc atgtgtcaga ggttttcacc gtcatcaccg aaacgcgcga 3060 ggcagcagat caattcgcgc gcgaaggcga agcggcatgc ataatgtgcc tgtcaaatgg 3120 acgaagcagg gattctgcaa accctatgct actccgtcaa gccgtcaatt gtctgattcg 3180 ttaccaatta tgacaacttg acggctacat cattcacttt ttcttcacaa ccggcacgga 3240 actcgctcgg gctggccccg gtgcattttt taaatacccg cgagaaatag agttgatcgt 3300 caaaaccaac attgcgaccg acggtggcga taggcatccg ggtggtgctc aaaagcagct 3360 tcgcctggct gatacgttgg tcctcgcgcc agcttaagac gctaatccct aactgctggc 3420 ggaaaagatg tgacagacgc gacggcgaca agcaaacatg ctgtgcgacg ctggcgatat 3480 caaaattgct gtctgccagg tgatcgctga tgtactgaca agcctcgcgt acccgattat 3540 ccatcggtgg atggagcgac tcgttaatcg cttccatgcg ccgcagtaac aattgctcaa 3600 gcagatttat cgccagcagc tccgaatagc gcccttcccc ttgcccggcg ttaatgattt 3660 gcccaaacag gtcgctgaaa tgcggctggt gcgcttcatc cgggcgaaag aaccccgtat 3720 tggcaaatat tgacggccag ttaagccatt catgccagta ggcgcgcgga cgaaagtaaa 3780 cccactggtg ataccattcg cgagcctccg gatgacgacc gtagtgatga atctctcctg 3840 gcgggaacag caaaatatca cccggtcggc aaacaaattc tcgtccctga tttttcacca 3900 ccccctgacc gcgaatggtg agattgagaa tataaccttt cattcccagc ggtcggtcga 3960 taaaaaaatc gagataaccg ttggcctcaa tcggcgttaa acccgccacc agatgggcat 4020 taaacgagta tcccggcagc aggggatcat tttgcgcttc agccatactt ttcatactcc 4080 cgccattcag ag 4092 <210> 12 <211> 8237 <212> DNA <213> Artificial sequence <220> <223> pRF48 <400> 12 aattcgacaa gaaatactcc atcggcctgg acattggaac caactctgtc ggctgggctg 60 tcatcaccga cgagtacaag gtgccctcca agaaattcaa ggtcctcgga aacaccgatc 120 gacactccat caagaaaaac ctcattggtg ccctgttgtt cgattctggc gagactgccg 180 aagctaccag actcaagcga actgctcggc gacgttacac ccgacggaag aaccgaatct 240 gctacctgca ggagatcttt tccaacgaga tggccaaggt ggacgattcg ttctttcatc 300 gactggagga atccttcctc gtcgaggaag acaagaaaca cgagcgtcat cccatctttg 360 gcaacattgt ggacgaggtt gcttaccacg agaagtatcc taccatctac cacctgcgaa 420 agaaactcgt cgattccacc gacaaggcgg atctcagact tatctacctc gctctggcac 480 acatgatcaa gtttcgaggt catttcctca tcgagggcga tctcaatccc gacaacagcg 540 atgtggacaa gctgttcatt cagctcgttc agacctacaa ccagctgttc gaggaaaacc 600 ccatcaatgc ctccggagtc gatgcaaagg ccatcttgtc tgctcgactc tcgaagagca 660 gacgactgga gaacctcatt gcccaacttc ctggcgagaa aaagaacgga ctgtttggca 720 acctcattgc cctttctctt ggtctcacac ccaacttcaa gtccaacttc gatctggcgg 780 aggacgccaa gctccagctg tccaaggaca cctacgacga tgacctcgac aacctgcttg 840 cacagattgg cgatcagtac gccgacctgt ttctcgctgc caagaacctt tcggatgcta 900 ttctcttgtc tgacattctg cgagtcaaca ccgagatcac aaaggctccc ctttctgcct 960 ccatgatcaa gcgatacgac gagcaccatc aggatctcac actgctcaag gctcttgtcc 1020 gacagcaact gcccgagaag tacaaggaga tctttttcga tcagtcgaag aacggctacg 1080 ctggatacat cgacggcgga gcctctcagg aagagttcta caagttcatc aagccaattc 1140 tcgagaagat ggacggaacc gaggaactgc ttgtcaagct caatcgagag gatctgcttc 1200 ggaagcaacg aaccttcgac aacggcagca ttcctcatca gatccacctc ggtgagctgc 1260 acgccattct tcgacgtcag gaagacttct acccctttct caaggacaac cgagagaaga 1320 tcgagaagat tcttaccttt cgaatcccct actatgttgg tcctcttgcc agaggaaact 1380 ctcgatttgc ttggatgact cgaaagtccg aggaaaccat cactccctgg aacttcgagg 1440 aagtcgtgga caagggtgcc tctgcacagt ccttcatcga gcgaatgacc aacttcgaca 1500 agaatctgcc caacgagaag gttcttccca agcattcgct gctctacgag tactttacag 1560 tctacaacga actcaccaaa gtcaagtacg ttaccgaggg aatgcgaaag cctgccttct 1620 tgtctggcga acagaagaaa gccattgtcg atctcctgtt caagaccaac cgaaaggtca 1680 ctgttaagca gctcaaggag gactacttca agaaaatcga gtgtttcgac agcgtcgaga 1740 tttccggagt tgaggaccga ttcaacgcct ctttgggcac ctatcacgat ctgctcaaga 1800 ttatcaagga caaggatttt ctcgacaacg aggaaaacga ggacattctg gaggacatcg 1860 tgctcactct taccctgttc gaagatcggg agatgatcga ggaacgactc aagacatacg 1920 ctcacctgtt cgacgacaag gtcatgaaac aactcaagcg acgtagatac accggctggg 1980 gaagactttc gcgaaagctc atcaacggca tcagagacaa gcagtccgga aagaccattc 2040 tggactttct caagtccgat ggctttgcca accgaaactt catgcagctc attcacgacg 2100 attctcttac cttcaaggag gacatccaga aggcacaagt gtccggtcag ggcgacagct 2160 tgcacgaaca tattgccaac ctggctggtt cgccagccat caagaaaggc attctccaga 2220 ctgtcaaggt tgtcgacgag ctggtgaagg tcatgggacg tcacaagccc gagaacattg 2280 tgatcgagat ggccagagag aaccagacaa ctcaaaaggg tcagaaaaac tcgcgagagc 2340 ggatgaagcg aatcgaggaa ggcatcaagg agctgggatc ccagattctc aaggagcatc 2400 ccgtcgagaa cactcaactg cagaacgaga agctgtatct ctactatctg cagaatggtc 2460 gagacatgta cgtggatcag gaactggaca tcaatcgtct cagcgactac gatgtggacc 2520 acattgtccc tcaatccttt ctcaaggacg attctatcga caacaaggtc cttacacgat 2580 ccgacaagaa cagaggcaag tcggacaacg ttcccagcga agaggtggtc aaaaagatga 2640 agaactactg gcgacagctg ctcaacgcca agctcattac ccagcgaaag ttcgacaatc 2700 ttaccaaggc cgagcgaggc ggtctgtccg agctcgacaa ggctggcttc atcaagcgtc 2760 aactcgtcga gaccagacag atcacaaagc acgtcgcaca gattctcgat tctcggatga 2820 acaccaagta cgacgagaac gacaagctca tccgagaggt caaggtgatt actctcaagt 2880 ccaaactggt ctccgatttc cgaaaggact ttcagttcta caaggtgcga gagatcaaca 2940 attaccacca tgcccacgat gcttacctca acgccgtcgt tggcactgcg ctcatcaaga 3000 aataccccaa gctcgaaagc gagttcgttt acggcgatta caaggtctac gacgttcgaa 3060 agatgattgc caagtccgaa caggagattg gcaaggctac tgccaagtac ttcttttact 3120 ccaacatcat gaactttttc aagaccgaga tcaccttggc caacggagag attcgaaaga 3180 gaccacttat cgagaccaac ggcgaaactg gagagatcgt gtgggacaag ggtcgagact 3240 ttgcaaccgt gcgaaaggtt ctgtcgatgc ctcaggtcaa catcgtcaag aaaaccgagg 3300 ttcagactgg cggattctcc aaggagtcga ttctgcccaa gcgaaactcc gacaagctca 3360 tcgctcgaaa gaaagactgg gatcccaaga aatacggtgg cttcgattct cctaccgtcg 3420 cctattccgt gcttgtcgtt gcgaaggtcg agaagggcaa gtccaaaaag ctcaagtccg 3480 tcaaggagct gctcggaatt accatcatgg agcgatcgag cttcgagaag aatcccatcg 3540 acttcttgga agccaagggt tacaaggagg tcaagaaaga cctcattatc aagctgccca 3600 agtactctct gttcgaactg gagaacggtc gaaagcgtat gctcgcctcc gctggcgagc 3660 tgcagaaggg aaacgagctt gccttgcctt cgaagtacgt caactttctc tatctggctt 3720 ctcactacga gaagctcaag ggttctcccg aggacaacga acagaagcaa ctcttcgttg 3780 agcagcacaa acattacctc gacgagatta tcgagcagat ttccgagttt tcgaagcgag 3840 tcatcctggc tgatgccaac ttggacaagg tgctctctgc ctacaacaag catcgggaca 3900 aacccattcg agaacaggcg gagaacatca ttcacctgtt tactcttacc aacctgggtg 3960 ctcctgcagc tttcaagtac ttcgatacca ctatcgaccg aaagcggtac acatccacca 4020 aggaggttct cgatgccacc ctgattcacc agtccatcac tggcctgtac gagacccgaa 4080 tcgacctgtc tcagcttggt ggcgactcca gagccgatcc caagaaaaag cgaaaggtct 4140 aagcggccgc taagcttggc tgttttggcg gatgagagaa gattttcagc ctgatacaga 4200 ttaaatcaga acgcagaagc ggtctgataa aacagaattt gcctggcggc agtagcgcgg 4260 tggtcccacc tgaccccatg ccgaactcag aagtgaaacg ccgtagcgcc gatggtagtg 4320 tggggtctcc ccatgcgaga gtagggaact gccaggcatc aaataaaacg aaaggctcag 4380 tcgaaagact gggcctttcg ttttatctgt tgtttgtcgg tgaacgctct cctgagtagg 4440 acaaatccgc cgggagcgga tttgaacgtt gcgaagcaac ggcccggagg gtggcgggca 4500 ggacgcccgc cataaactgc caggcatcaa attaagcaga aggccatcct gacggatggc 4560 ctttttgcgt ttctacaaac tcttttgttt atttttctaa atacattcaa atatgtatcc 4620 gctcatgaga caataaccct gataaatgct tcaataatat tgaaaaagga agagtatgag 4680 tattcaacat ttccgtgtcg cccttattcc cttttttgcg gcattttgcc ttcctgtttt 4740 tgctcaccca gaaacgctgg tgaaagtaaa agatgctgaa gatcagttgg gtgcacgagt 4800 gggttacatc gaactggatc tcaacagcgg taagatcctt gagagttttc gccccgaaga 4860 acgttttcca atgatgagca cttttaaagt tctgctatgt ggcgcggtat tatcccgtgt 4920 tgacgccggg caagagcaac tcggtcgccg catacactat tctcagaatg acttggttga 4980 gtactcacca gtcacagaaa agcatcttac ggatggcatg acagtaagag aattatgcag 5040 tgctgccata accatgagtg ataacactgc ggccaactta cttctgacaa cgatcggagg 5100 accgaaggag ctaaccgctt ttttgcacaa catgggggat catgtaactc gccttgatcg 5160 ttgggaaccg gagctgaatg aagccatacc aaacgacgag cgtgacacca cgatgcctgt 5220 agcaatggca acaacgttgc gcaaactatt aactggcgaa ctacttactc tagcttcccg 5280 gcaacaatta atagactgga tggaggcgga taaagttgca ggaccacttc tgcgctcggc 5340 ccttccggct ggctggttta ttgctgataa atctggagcc ggtgagcgtg ggtctcgcgg 5400 tatcattgca gcactggggc cagatggtaa gccctcccgt atcgtagtta tctacacgac 5460 ggggagtcag gcaactatgg atgaacgaaa tagacagatc gctgagatag gtgcctcact 5520 gattaagcat tggtaactgt cagaccaagt ttactcatat atactttaga ttgatttaaa 5580 acttcatttt taatttaaaa ggatctaggt gaagatcctt tttgataatc tcatgaccaa 5640 aatcccttaa cgtgagtttt cgttccactg agcgtcagac cccgtagaaa agatcaaagg 5700 atcttcttga gatccttttt ttctgcgcgt aatctgctgc ttgcaaacaa aaaaaccacc 5760 gctaccagcg gtggtttgtt tgccggatca agagctacca actctttttc cgaaggtaac 5820 tggcttcagc agagcgcaga taccaaatac tgtccttcta gtgtagccgt agttaggcca 5880 ccacttcaag aactctgtag caccgcctac atacctcgct ctgctaatcc tgttaccagt 5940 ggctgctgcc agtggcgata agtcgtgtct taccgggttg gactcaagac gatagttacc 6000 ggataaggcg cagcggtcgg gctgaacggg gggttcgtgc acacagccca gcttggagcg 6060 aacgacctac accgaactga gatacctaca gcgtgagcta tgagaaagcg ccacgcttcc 6120 cgaagggaga aaggcggaca ggtatccggt aagcggcagg gtcggaacag gagagcgcac 6180 gagggagctt ccagggggaa acgcctggta tctttatagt cctgtcgggt ttcgccacct 6240 ctgacttgag cgtcgatttt tgtgatgctc gtcagggggg cggagcctat ggaaaaacgc 6300 cagcaacgcg gcctttttac ggttcctggc cttttgctgg ccttttgctc acatgttctt 6360 tcctgcgtta tcccctgatt ctgtggataa ccgtattacc gcctttgagt gagctgatac 6420 cgctcgccgc agccgaacga ccgagcgcag cgagtcagtg agcgaggaag cggaagagcg 6480 cctgatgcgg tattttctcc ttacgcatct gtgcggtatt tcacaccgca tatggtgcac 6540 tctcagtaca atctgctctg atgccgcata gttaagccag tatacactcc gctatcgcta 6600 cgtgactggg tcatggctgc gccccgacac ccgccaacac ccgctgacgc gccctgacgg 6660 gcttgtctgc tcccggcatc cgcttacaga caagctgtga ccgtctccgg gagctgcatg 6720 tgtcagaggt tttcaccgtc atcaccgaaa cgcgcgaggc agcagatcaa ttcgcgcgcg 6780 aaggcgaagc ggcatgcata atgtgcctgt caaatggacg aagcagggat tctgcaaacc 6840 ctatgctact ccgtcaagcc gtcaattgtc tgattcgtta ccaattatga caacttgacg 6900 gctacatcat tcactttttc ttcacaaccg gcacggaact cgctcgggct ggccccggtg 6960 cattttttaa atacccgcga gaaatagagt tgatcgtcaa aaccaacatt gcgaccgacg 7020 gtggcgatag gcatccgggt ggtgctcaaa agcagcttcg cctggctgat acgttggtcc 7080 tcgcgccagc ttaagacgct aatccctaac tgctggcgga aaagatgtga cagacgcgac 7140 ggcgacaagc aaacatgctg tgcgacgctg gcgatatcaa aattgctgtc tgccaggtga 7200 tcgctgatgt actgacaagc ctcgcgtacc cgattatcca tcggtggatg gagcgactcg 7260 ttaatcgctt ccatgcgccg cagtaacaat tgctcaagca gatttatcgc cagcagctcc 7320 gaatagcgcc cttccccttg cccggcgtta atgatttgcc caaacaggtc gctgaaatgc 7380 ggctggtgcg cttcatccgg gcgaaagaac cccgtattgg caaatattga cggccagtta 7440 agccattcat gccagtaggc gcgcggacga aagtaaaccc actggtgata ccattcgcga 7500 gcctccggat gacgaccgta gtgatgaatc tctcctggcg ggaacagcaa aatatcaccc 7560 ggtcggcaaa caaattctcg tccctgattt ttcaccaccc cctgaccgcg aatggtgaga 7620 ttgagaatat aacctttcat tcccagcggt cggtcgataa aaaaatcgag ataaccgttg 7680 gcctcaatcg gcgttaaacc cgccaccaga tgggcattaa acgagtatcc cggcagcagg 7740 ggatcatttt gcgcttcagc catacttttc atactcccgc cattcagaga agaaaccaat 7800 tgtccatatt gcatcagaca ttgccgtcac tgcgtctttt actggctctt ctcgctaacc 7860 aaaccggtaa ccccgcttat taaaagcatt ctgtaacaaa gcgggaccaa agccatgaca 7920 aaaacgcgta acaaaagtgt ctataatcac ggcagaaaag tccacattga ttatttgcac 7980 ggcgtcacac tttgctatgc catagcattt ttatccataa gattagcgga tcctacctga 8040 cgctttttat cgcaactctc tactgtttct ccatacccgt tttttgggct aacaggagga 8100 attaaccatg gggggttctc atcatcatca tcatcatggt atggctagca tgactggtgg 8160 acagcaaatg ggtcgggatc tgtacgacga tgacgataag gatccgagct cgagatctgc 8220 agctggtacc atatggg 8237 <210> 13 <211> 23 <212> DNA <213> Escherichia coli <220> <221> misc_feature <222> (1)..(23) <223> GalK-1 target site <400> 13 atcagcggca atgtgccgca ggg 23 <210> 14 <211> 23 <212> DNA <213> Escherichia coli <220> <221> misc_feature <222> (1)..(23) <223> GalK-2 target site <400> 14 atgaccggcg gcggatttgg cgg 23 <210> 15 <211> 23 <212> DNA <213> Escherichia coli <220> <221> misc_feature <222> (1)..(23) <223> GalK-3 target site <400> 15 atagttttca tgtgcgacaa tgg 23 <210> 16 <211> 23 <212> DNA <213> Escherichia coli <220> <221> misc_feature <222> (1)..(23) <223> GalK-4 target site <400> 16 atgatctttc ttgccgagcg cgg 23 <210> 17 <211> 80 <212> DNA <213> Streptococcus pyogenes <400> 17 gttttagagc tagaaatagc aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt 60 ggcaccgagt cggtgctttt 80 <210> 18 <211> 100 <212> DNA <213> Artificial sequence <220> <223> GalK-1 sgRNA template <400> 18 atcagcggca atgtgccgca gttttagagc tagaaatagc aagttaaaat aaggctagtc 60 cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt 100 <210> 19 <211> 100 <212> DNA <213> Artificial sequence <220> <223> GalK-2 sgRNA template <400> 19 atgaccggcg gcggatttgg gttttagagc tagaaatagc aagttaaaat aaggctagtc 60 cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt 100 <210> 20 <211> 100 <212> DNA <213> Artificial sequence <220> <223> GalK-3 sgRNA template <400> 20 atagttttca tgtgcgacaa gttttagagc tagaaatagc aagttaaaat aaggctagtc 60 cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt 100 <210> 21 <211> 100 <212> DNA <213> Artificial sequence <220> <223> GalK-4 sgRNA template <400> 21 atgatctttc ttgccgagcg gttttagagc tagaaatagc aagttaaaat aaggctagtc 60 cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt 100 <210> 22 <211> 100 <212> RNA <213> Artificial sequence <220> <223> GalK-1 sgRNA <400> 22 aucagcggca augugccgca guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60 cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100 <210> 23 <211> 100 <212> RNA <213> Artificial sequence <220> <223> GalK-2 sgRNA <400> 23 augaccggcg gcggauuugg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60 cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100 <210> 24 <211> 100 <212> RNA <213> Artificial sequence <220> <223> GalK-3 sgRNA <400> 24 auaguuuuca ugugcgacaa guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60 cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100 <210> 25 <211> 100 <212> RNA <213> Artificial sequence <220> <223> GalK-4 sgRNA <400> 25 augaucuuuc uugccgagcg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60 cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100 <210> 26 <211> 52 <212> DNA <213> bacteriophage lambda <400> 26 ggttatctct ggcggtgttg acataaatac cactggcggt gatactgagc ac 52 <210> 27 <211> 43 <212> DNA <213> bacteriophage lambda <400> 27 gttaataaca ggcctgctgg taatcgcagg cctttttatt ttt 43 <210> 28 <211> 212 <212> DNA <213> Artificial sequence <220> <223> GalK-1 sgRNA expression cassette <400> 28 gggaagcttg gttatctctg gcggtgttga cataaatacc actggcggtg atactgagca 60 catcagcggc aatgtgccgc agttttagag ctagaaatag caagttaaaa taaggctagt 120 ccgttatcaa cttgaaaaag tggcaccgag tcggtggtgc gttaataaca ggcctgctgg 180 taatcgcagg cctttttatt tttggatccg gg 212 <210> 29 <211> 212 <212> DNA <213> Artificial sequence <220> <223> GalK-2 sgRNA expression cassette <400> 29 gggaagcttg gttatctctg gcggtgttga cataaatacc actggcggtg atactgagca 60 catgaccggc ggcggatttg ggttttagag ctagaaatag caagttaaaa taaggctagt 120 ccgttatcaa cttgaaaaag tggcaccgag tcggtggtgc gttaataaca ggcctgctgg 180 taatcgcagg cctttttatt tttggatccg gg 212 <210> 30 <211> 212 <212> DNA <213> Artificial sequence <220> <223> GalK-3 sgRNA expression cassette <400> 30 gggaagcttg gttatctctg gcggtgttga cataaatacc actggcggtg atactgagca 60 catagttttc atgtgcgaca agttttagag ctagaaatag caagttaaaa taaggctagt 120 ccgttatcaa cttgaaaaag tggcaccgag tcggtggtgc gttaataaca ggcctgctgg 180 taatcgcagg cctttttatt tttggatccg gg 212 <210> 31 <211> 212 <212> DNA <213> Artificial sequence <220> <223> GalK-4 sgRNA expression cassette <400> 31 gggaagcttg gttatctctg gcggtgttga cataaatacc actggcggtg atactgagca 60 catgatcttt cttgccgagc ggttttagag ctagaaatag caagttaaaa taaggctagt 120 ccgttatcaa cttgaaaaag tggcaccgag tcggtggtgc gttaataaca ggcctgctgg 180 taatcgcagg cctttttatt tttggatccg gg 212 <210> 32 <211> 4245 <212> DNA <213> Artificial sequence <220> <223> pACYC184 <400> 32 gaattccgga tgagcattca tcaggcgggc aagaatgtga ataaaggccg gataaaactt 60 gtgcttattt ttctttacgg tctttaaaaa ggccgtaata tccagctgaa cggtctggtt 120 ataggtacat tgagcaactg actgaaatgc ctcaaaatgt tctttacgat gccattggga 180 tatatcaacg gtggtatatc cagtgatttt tttctccatt ttagcttcct tagctcctga 240 aaatctcgat aactcaaaaa atacgcccgg tagtgatctt atttcattat ggtgaaagtt 300 ggaacctctt acgtgccgat caacgtctca ttttcgccaa aagttggccc agggcttccc 360 ggtatcaaca gggacaccag gatttattta ttctgcgaag tgatcttccg tcacaggtat 420 ttattcggcg caaagtgcgt cgggtgatgc tgccaactta ctgatttagt gtatgatggt 480 gtttttgagg tgctccagtg gcttctgttt ctatcagctg tccctcctgt tcagctactg 540 acggggtggt gcgtaacggc aaaagcaccg ccggacatca gcgctagcgg agtgtatact 600 ggcttactat gttggcactg atgagggtgt cagtgaagtg cttcatgtgg caggagaaaa 660 aaggctgcac cggtgcgtca gcagaatatg tgatacagga tatattccgc ttcctcgctc 720 actgactcgc tacgctcggt cgttcgactg cggcgagcgg aaatggctta cgaacggggc 780 ggagatttcc tggaagatgc caggaagata cttaacaggg aagtgagagg gccgcggcaa 840 agccgttttt ccataggctc cgcccccctg acaagcatca cgaaatctga cgctcaaatc 900 agtggtggcg aaacccgaca ggactataaa gataccaggc gtttccccct ggcggctccc 960 tcgtgcgctc tcctgttcct gcctttcggt ttaccggtgt cattccgctg ttatggccgc 1020 gtttgtctca ttccacgcct gacactcagt tccgggtagg cagttcgctc caagctggac 1080 tgtatgcacg aaccccccgt tcagtccgac cgctgcgcct tatccggtaa ctatcgtctt 1140 gagtccaacc cggaaagaca tgcaaaagca ccactggcag cagccactgg taattgattt 1200 agaggagtta gtcttgaagt catgcgccgg ttaaggctaa actgaaagga caagttttgg 1260 tgactgcgct cctccaagcc agttacctcg gttcaaagag ttggtagctc agagaacctt 1320 cgaaaaaccg ccctgcaagg cggttttttc gttttcagag caagagatta cgcgcagacc 1380 aaaacgatct caagaagatc atcttattaa tcagataaaa tatttctaga tttcagtgca 1440 atttatctct tcaaatgtag cacctgaagt cagccccata cgatataagt tgtaattctc 1500 atgtttgaca gcttatcatc gataagcttt aatgcggtag tttatcacag ttaaattgct 1560 aacgcagtca ggcaccgtgt atgaaatcta acaatgcgct catcgtcatc ctcggcaccg 1620 tcaccctgga tgctgtaggc ataggcttgg ttatgccggt actgccgggc ctcttgcggg 1680 atatcgtcca ttccgacagc atcgccagtc actatggcgt gctgctagcg ctatatgcgt 1740 tgatgcaatt tctatgcgca cccgttctcg gagcactgtc cgaccgcttt ggccgccgcc 1800 cagtcctgct cgcttcgcta cttggagcca ctatcgacta cgcgatcatg gcgaccacac 1860 ccgtcctgtg gatcctctac gccggacgca tcgtggccgg catcaccggc gccacaggtg 1920 cggttgctgg cgcctatatc gccgacatca ccgatgggga agatcgggct cgccacttcg 1980 ggctcatgag cgcttgtttc ggcgtgggta tggtggcagg ccccgtggcc gggggactgt 2040 tgggcgccat ctccttgcat gcaccattcc ttgcggcggc ggtgctcaac ggcctcaacc 2100 tactactggg ctgcttccta atgcaggagt cgcataaggg agagcgtcga ccgatgccct 2160 tgagagcctt caacccagtc agctccttcc ggtgggcgcg gggcatgact atcgtcgccg 2220 cacttatgac tgtcttcttt atcatgcaac tcgtaggaca ggtgccggca gcgctctggg 2280 tcattttcgg cgaggaccgc tttcgctgga gcgcgacgat gatcggcctg tcgcttgcgg 2340 tattcggaat cttgcacgcc ctcgctcaag ccttcgtcac tggtcccgcc accaaacgtt 2400 tcggcgagaa gcaggccatt atcgccggca tggcggccga cgcgctgggc tacgtcttgc 2460 tggcgttcgc gacgcgaggc tggatggcct tccccattat gattcttctc gcttccggcg 2520 gcatcgggat gcccgcgttg caggccatgc tgtccaggca ggtagatgac gaccatcagg 2580 gacagcttca aggatcgctc gcggctctta ccagcctaac ttcgatcact ggaccgctga 2640 tcgtcacggc gatttatgcc gcctcggcga gcacatggaa cgggttggca tggattgtag 2700 gcgccgccct ataccttgtc tgcctccccg cgttgcgtcg cggtgcatgg agccgggcca 2760 cctcgacctg aatggaagcc ggcggcacct cgctaacgga ttcaccactc caagaattgg 2820 agccaatcaa ttcttgcgga gaactgtgaa tgcgcaaacc aacccttggc agaacatatc 2880 catcgcgtcc gccatctcca gcagccgcac gcggcgcatc tcgggcagcg ttgggtcctg 2940 gccacgggtg cgcatgatcg tgctcctgtc gttgaggacc cggctaggct ggcggggttg 3000 ccttactggt tagcagaatg aatcaccgat acgcgagcga acgtgaagcg actgctgctg 3060 caaaacgtct gcgacctgag caacaacatg aatggtcttc ggtttccgtg tttcgtaaag 3120 tctggaaacg cggaagtccc ctacgtgctg ctgaagttgc ccgcaacaga gagtggaacc 3180 aaccggtgat accacgatac tatgactgag agtcaacgcc atgagcggcc tcatttctta 3240 ttctgagtta caacagtccg caccgctgtc cggtagctcc ttccggtggg cgcggggcat 3300 gactatcgtc gccgcactta tgactgtctt ctttatcatg caactcgtag gacaggtgcc 3360 ggcagcgccc aacagtcccc cggccacggg gcctgccacc atacccacgc cgaaacaagc 3420 gccctgcacc attatgttcc ggatctgcat cgcaggatgc tgctggctac cctgtggaac 3480 acctacatct gtattaacga agcgctaacc gtttttatca ggctctggga ggcagaataa 3540 atgatcatat cgtcaattat tacctccacg gggagagcct gagcaaactg gcctcaggca 3600 tttgagaagc acacggtcac actgcttccg gtagtcaata aaccggtaaa ccagcaatag 3660 acataagcgg ctatttaacg accctgccct gaaccgacga ccgggtcgaa tttgctttcg 3720 aatttctgcc attcatccgc ttattatcac ttattcaggc gtagcaccag gcgtttaagg 3780 gcaccaataa ctgccttaaa aaaattacgc cccgccctgc cactcatcgc agtactgttg 3840 taattcatta agcattctgc cgacatggaa gccatcacag acggcatgat gaacctgaat 3900 cgccagcggc atcagcacct tgtcgccttg cgtataatat ttgcccatgg tgaaaacggg 3960 ggcgaagaag ttgtccatat tggccacgtt taaatcaaaa ctggtgaaac tcacccaggg 4020 attggctgag acgaaaaaca tattctcaat aaacccttta gggaaatagg ccaggttttc 4080 accgtaacac gccacatctt gcgaatatat gtgtagaaac tgccggaaat cgtcgtggta 4140 ttcactccag agcgatgaaa acgtttcagt ttgctcatgg aaaacggtgt aacaagggtg 4200 aacactatcc catatcacca gctcaccgtc tttcattgcc atacg 4245 <210> 33 <211> 4099 <212> DNA <213> Artificial sequence <220> <223> pRF50 <400> 33 gatcctctac gccggacgca tcgtggccgg catcaccggc gccacaggtg cggttgctgg 60 cgcctatatc gccgacatca ccgatgggga agatcgggct cgccacttcg ggctcatgag 120 cgcttgtttc ggcgtgggta tggtggcagg ccccgtggcc gggggactgt tgggcgccat 180 ctccttgcat gcaccattcc ttgcggcggc ggtgctcaac ggcctcaacc tactactggg 240 ctgcttccta atgcaggagt cgcataaggg agagcgtcga ccgatgccct tgagagcctt 300 caacccagtc agctccttcc ggtgggcgcg gggcatgact atcgtcgccg cacttatgac 360 tgtcttcttt atcatgcaac tcgtaggaca ggtgccggca gcgctctggg tcattttcgg 420 cgaggaccgc tttcgctgga gcgcgacgat gatcggcctg tcgcttgcgg tattcggaat 480 cttgcacgcc ctcgctcaag ccttcgtcac tggtcccgcc accaaacgtt tcggcgagaa 540 gcaggccatt atcgccggca tggcggccga cgcgctgggc tacgtcttgc tggcgttcgc 600 gacgcgaggc tggatggcct tccccattat gattcttctc gcttccggcg gcatcgggat 660 gcccgcgttg caggccatgc tgtccaggca ggtagatgac gaccatcagg gacagcttca 720 aggatcgctc gcggctctta ccagcctaac ttcgatcact ggaccgctga tcgtcacggc 780 gatttatgcc gcctcggcga gcacatggaa cgggttggca tggattgtag gcgccgccct 840 ataccttgtc tgcctccccg cgttgcgtcg cggtgcatgg agccgggcca cctcgacctg 900 aatggaagcc ggcggcacct cgctaacgga ttcaccactc caagaattgg agccaatcaa 960 ttcttgcgga gaactgtgaa tgcgcaaacc aacccttggc agaacatatc catcgcgtcc 1020 gccatctcca gcagccgcac gcggcgcatc tcgggcagcg ttgggtcctg gccacgggtg 1080 cgcatgatcg tgctcctgtc gttgaggacc cggctaggct ggcggggttg ccttactggt 1140 tagcagaatg aatcaccgat acgcgagcga acgtgaagcg actgctgctg caaaacgtct 1200 gcgacctgag caacaacatg aatggtcttc ggtttccgtg tttcgtaaag tctggaaacg 1260 cggaagtccc ctacgtgctg ctgaagttgc ccgcaacaga gagtggaacc aaccggtgat 1320 accacgatac tatgactgag agtcaacgcc atgagcggcc tcatttctta ttctgagtta 1380 caacagtccg caccgctgtc cggtagctcc ttccggtggg cgcggggcat gactatcgtc 1440 gccgcactta tgactgtctt ctttatcatg caactcgtag gacaggtgcc ggcagcgccc 1500 aacagtcccc cggccacggg gcctgccacc atacccacgc cgaaacaagc gccctgcacc 1560 attatgttcc ggatctgcat cgcaggatgc tgctggctac cctgtggaac acctacatct 1620 gtattaacga agcgctaacc gtttttatca ggctctggga ggcagaataa atgatcatat 1680 cgtcaattat tacctccacg gggagagcct gagcaaactg gcctcaggca tttgagaagc 1740 acacggtcac actgcttccg gtagtcaata aaccggtaaa ccagcaatag acataagcgg 1800 ctatttaacg accctgccct gaaccgacga ccgggtcgaa tttgctttcg aatttctgcc 1860 attcatccgc ttattatcac ttattcaggc gtagcaccag gcgtttaagg gcaccaataa 1920 ctgccttaaa aaaattacgc cccgccctgc cactcatcgc agtactgttg taattcatta 1980 agcattctgc cgacatggaa gccatcacag acggcatgat gaacctgaat cgccagcggc 2040 atcagcacct tgtcgccttg cgtataatat ttgcccatgg tgaaaacggg ggcgaagaag 2100 ttgtccatat tggccacgtt taaatcaaaa ctggtgaaac tcacccaggg attggctgag 2160 acgaaaaaca tattctcaat aaacccttta gggaaatagg ccaggttttc accgtaacac 2220 gccacatctt gcgaatatat gtgtagaaac tgccggaaat cgtcgtggta ttcactccag 2280 agcgatgaaa acgtttcagt ttgctcatgg aaaacggtgt aacaagggtg aacactatcc 2340 catatcacca gctcaccgtc tttcattgcc atacggaatt ccggatgagc attcatcagg 2400 cgggcaagaa tgtgaataaa ggccggataa aacttgtgct tatttttctt tacggtcttt 2460 aaaaaggccg taatatccag ctgaacggtc tggttatagg tacattgagc aactgactga 2520 aatgcctcaa aatgttcttt acgatgccat tgggatatat caacggtggt atatccagtg 2580 atttttttct ccattttagc ttccttagct cctgaaaatc tcgataactc aaaaaatacg 2640 cccggtagtg atcttatttc attatggtga aagttggaac ctcttacgtg ccgatcaacg 2700 tctcattttc gccaaaagtt ggcccagggc ttcccggtat caacagggac accaggattt 2760 atttattctg cgaagtgatc ttccgtcaca ggtatttatt cggcgcaaag tgcgtcgggt 2820 gatgctgcca acttactgat ttagtgtatg atggtgtttt tgaggtgctc cagtggcttc 2880 tgtttctatc agctgtccct cctgttcagc tactgacggg gtggtgcgta acggcaaaag 2940 caccgccgga catcagcgct agcggagtgt atactggctt actatgttgg cactgatgag 3000 ggtgtcagtg aagtgcttca tgtggcagga gaaaaaaggc tgcaccggtg cgtcagcaga 3060 atatgtgata caggatatat tccgcttcct cgctcactga ctcgctacgc tcggtcgttc 3120 gactgcggcg agcggaaatg gcttacgaac ggggcggaga tttcctggaa gatgccagga 3180 agatacttaa cagggaagtg agagggccgc ggcaaagccg tttttccata ggctccgccc 3240 ccctgacaag catcacgaaa tctgacgctc aaatcagtgg tggcgaaacc cgacaggact 3300 ataaagatac caggcgtttc cccctggcgg ctccctcgtg cgctctcctg ttcctgcctt 3360 tcggtttacc ggtgtcattc cgctgttatg gccgcgtttg tctcattcca cgcctgacac 3420 tcagttccgg gtaggcagtt cgctccaagc tggactgtat gcacgaaccc cccgttcagt 3480 ccgaccgctg cgccttatcc ggtaactatc gtcttgagtc caacccggaa agacatgcaa 3540 aagcaccact ggcagcagcc actggtaatt gatttagagg agttagtctt gaagtcatgc 3600 gccggttaag gctaaactga aaggacaagt tttggtgact gcgctcctcc aagccagtta 3660 cctcggttca aagagttggt agctcagaga accttcgaaa aaccgccctg caaggcggtt 3720 ttttcgtttt cagagcaaga gattacgcgc agaccaaaac gatctcaaga agatcatctt 3780 attaatcaga taaaatattt ctagatttca gtgcaattta tctcttcaaa tgtagcacct 3840 gaagtcagcc ccatacgata taagttgtaa ttctcatgtt tgacagctta tcatcgataa 3900 gcttggttat ctctggcggt gttgacataa ataccactgg cggtgatact gagcacatca 3960 gcggcaatgt gccgcagttt tagagctaga aatagcaagt taaaataagg ctagtccgtt 4020 atcaacttga aaaagtggca ccgagtcggt ggtgcgttaa taacaggcct gctggtaatc 4080 gcaggccttt ttatttttg 4099 <210> 34 <211> 4099 <212> DNA <213> artificial sequence <220> <223> pRF51 <400> 34 agcttggtta tctctggcgg tgttgacata aataccactg gcggtgatac tgagcacatg 60 accggcggcg gatttgggtt ttagagctag aaatagcaag ttaaaataag gctagtccgt 120 tatcaacttg aaaaagtggc accgagtcgg tggtgcgtta ataacaggcc tgctggtaat 180 cgcaggcctt tttatttttg gatcctctac gccggacgca tcgtggccgg catcaccggc 240 gccacaggtg cggttgctgg cgcctatatc gccgacatca ccgatgggga agatcgggct 300 cgccacttcg ggctcatgag cgcttgtttc ggcgtgggta tggtggcagg ccccgtggcc 360 gggggactgt tgggcgccat ctccttgcat gcaccattcc ttgcggcggc ggtgctcaac 420 ggcctcaacc tactactggg ctgcttccta atgcaggagt cgcataaggg agagcgtcga 480 ccgatgccct tgagagcctt caacccagtc agctccttcc ggtgggcgcg gggcatgact 540 atcgtcgccg cacttatgac tgtcttcttt atcatgcaac tcgtaggaca ggtgccggca 600 gcgctctggg tcattttcgg cgaggaccgc tttcgctgga gcgcgacgat gatcggcctg 660 tcgcttgcgg tattcggaat cttgcacgcc ctcgctcaag ccttcgtcac tggtcccgcc 720 accaaacgtt tcggcgagaa gcaggccatt atcgccggca tggcggccga cgcgctgggc 780 tacgtcttgc tggcgttcgc gacgcgaggc tggatggcct tccccattat gattcttctc 840 gcttccggcg gcatcgggat gcccgcgttg caggccatgc tgtccaggca ggtagatgac 900 gaccatcagg gacagcttca aggatcgctc gcggctctta ccagcctaac ttcgatcact 960 ggaccgctga tcgtcacggc gatttatgcc gcctcggcga gcacatggaa cgggttggca 1020 tggattgtag gcgccgccct ataccttgtc tgcctccccg cgttgcgtcg cggtgcatgg 1080 agccgggcca cctcgacctg aatggaagcc ggcggcacct cgctaacgga ttcaccactc 1140 caagaattgg agccaatcaa ttcttgcgga gaactgtgaa tgcgcaaacc aacccttggc 1200 agaacatatc catcgcgtcc gccatctcca gcagccgcac gcggcgcatc tcgggcagcg 1260 ttgggtcctg gccacgggtg cgcatgatcg tgctcctgtc gttgaggacc cggctaggct 1320 ggcggggttg ccttactggt tagcagaatg aatcaccgat acgcgagcga acgtgaagcg 1380 actgctgctg caaaacgtct gcgacctgag caacaacatg aatggtcttc ggtttccgtg 1440 tttcgtaaag tctggaaacg cggaagtccc ctacgtgctg ctgaagttgc ccgcaacaga 1500 gagtggaacc aaccggtgat accacgatac tatgactgag agtcaacgcc atgagcggcc 1560 tcatttctta ttctgagtta caacagtccg caccgctgtc cggtagctcc ttccggtggg 1620 cgcggggcat gactatcgtc gccgcactta tgactgtctt ctttatcatg caactcgtag 1680 gacaggtgcc ggcagcgccc aacagtcccc cggccacggg gcctgccacc atacccacgc 1740 cgaaacaagc gccctgcacc attatgttcc ggatctgcat cgcaggatgc tgctggctac 1800 cctgtggaac acctacatct gtattaacga agcgctaacc gtttttatca ggctctggga 1860 ggcagaataa atgatcatat cgtcaattat tacctccacg gggagagcct gagcaaactg 1920 gcctcaggca tttgagaagc acacggtcac actgcttccg gtagtcaata aaccggtaaa 1980 ccagcaatag acataagcgg ctatttaacg accctgccct gaaccgacga ccgggtcgaa 2040 tttgctttcg aatttctgcc attcatccgc ttattatcac ttattcaggc gtagcaccag 2100 gcgtttaagg gcaccaataa ctgccttaaa aaaattacgc cccgccctgc cactcatcgc 2160 agtactgttg taattcatta agcattctgc cgacatggaa gccatcacag acggcatgat 2220 gaacctgaat cgccagcggc atcagcacct tgtcgccttg cgtataatat ttgcccatgg 2280 tgaaaacggg ggcgaagaag ttgtccatat tggccacgtt taaatcaaaa ctggtgaaac 2340 tcacccaggg attggctgag acgaaaaaca tattctcaat aaacccttta gggaaatagg 2400 ccaggttttc accgtaacac gccacatctt gcgaatatat gtgtagaaac tgccggaaat 2460 cgtcgtggta ttcactccag agcgatgaaa acgtttcagt ttgctcatgg aaaacggtgt 2520 aacaagggtg aacactatcc catatcacca gctcaccgtc tttcattgcc atacggaatt 2580 ccggatgagc attcatcagg cgggcaagaa tgtgaataaa ggccggataa aacttgtgct 2640 tatttttctt tacggtcttt aaaaaggccg taatatccag ctgaacggtc tggttatagg 2700 tacattgagc aactgactga aatgcctcaa aatgttcttt acgatgccat tgggatatat 2760 caacggtggt atatccagtg atttttttct ccattttagc ttccttagct cctgaaaatc 2820 tcgataactc aaaaaatacg cccggtagtg atcttatttc attatggtga aagttggaac 2880 ctcttacgtg ccgatcaacg tctcattttc gccaaaagtt ggcccagggc ttcccggtat 2940 caacagggac accaggattt atttattctg cgaagtgatc ttccgtcaca ggtatttatt 3000 cggcgcaaag tgcgtcgggt gatgctgcca acttactgat ttagtgtatg atggtgtttt 3060 tgaggtgctc cagtggcttc tgtttctatc agctgtccct cctgttcagc tactgacggg 3120 gtggtgcgta acggcaaaag caccgccgga catcagcgct agcggagtgt atactggctt 3180 actatgttgg cactgatgag ggtgtcagtg aagtgcttca tgtggcagga gaaaaaaggc 3240 tgcaccggtg cgtcagcaga atatgtgata caggatatat tccgcttcct cgctcactga 3300 ctcgctacgc tcggtcgttc gactgcggcg agcggaaatg gcttacgaac ggggcggaga 3360 tttcctggaa gatgccagga agatacttaa cagggaagtg agagggccgc ggcaaagccg 3420 tttttccata ggctccgccc ccctgacaag catcacgaaa tctgacgctc aaatcagtgg 3480 tggcgaaacc cgacaggact ataaagatac caggcgtttc cccctggcgg ctccctcgtg 3540 cgctctcctg ttcctgcctt tcggtttacc ggtgtcattc cgctgttatg gccgcgtttg 3600 tctcattcca cgcctgacac tcagttccgg gtaggcagtt cgctccaagc tggactgtat 3660 gcacgaaccc cccgttcagt ccgaccgctg cgccttatcc ggtaactatc gtcttgagtc 3720 caacccggaa agacatgcaa aagcaccact ggcagcagcc actggtaatt gatttagagg 3780 agttagtctt gaagtcatgc gccggttaag gctaaactga aaggacaagt tttggtgact 3840 gcgctcctcc aagccagtta cctcggttca aagagttggt agctcagaga accttcgaaa 3900 aaccgccctg caaggcggtt ttttcgtttt cagagcaaga gattacgcgc agaccaaaac 3960 gatctcaaga agatcatctt attaatcaga taaaatattt ctagatttca gtgcaattta 4020 tctcttcaaa tgtagcacct gaagtcagcc ccatacgata taagttgtaa ttctcatgtt 4080 tgacagctta tcatcgata 4099 <210> 35 <211> 4099 <212> DNA <213> artificial sequence <220> <223> pRF53 <400> 35 gatcctctac gccggacgca tcgtggccgg catcaccggc gccacaggtg cggttgctgg 60 cgcctatatc gccgacatca ccgatgggga agatcgggct cgccacttcg ggctcatgag 120 cgcttgtttc ggcgtgggta tggtggcagg ccccgtggcc gggggactgt tgggcgccat 180 ctccttgcat gcaccattcc ttgcggcggc ggtgctcaac ggcctcaacc tactactggg 240 ctgcttccta atgcaggagt cgcataaggg agagcgtcga ccgatgccct tgagagcctt 300 caacccagtc agctccttcc ggtgggcgcg gggcatgact atcgtcgccg cacttatgac 360 tgtcttcttt atcatgcaac tcgtaggaca ggtgccggca gcgctctggg tcattttcgg 420 cgaggaccgc tttcgctgga gcgcgacgat gatcggcctg tcgcttgcgg tattcggaat 480 cttgcacgcc ctcgctcaag ccttcgtcac tggtcccgcc accaaacgtt tcggcgagaa 540 gcaggccatt atcgccggca tggcggccga cgcgctgggc tacgtcttgc tggcgttcgc 600 gacgcgaggc tggatggcct tccccattat gattcttctc gcttccggcg gcatcgggat 660 gcccgcgttg caggccatgc tgtccaggca ggtagatgac gaccatcagg gacagcttca 720 aggatcgctc gcggctctta ccagcctaac ttcgatcact ggaccgctga tcgtcacggc 780 gatttatgcc gcctcggcga gcacatggaa cgggttggca tggattgtag gcgccgccct 840 ataccttgtc tgcctccccg cgttgcgtcg cggtgcatgg agccgggcca cctcgacctg 900 aatggaagcc ggcggcacct cgctaacgga ttcaccactc caagaattgg agccaatcaa 960 ttcttgcgga gaactgtgaa tgcgcaaacc aacccttggc agaacatatc catcgcgtcc 1020 gccatctcca gcagccgcac gcggcgcatc tcgggcagcg ttgggtcctg gccacgggtg 1080 cgcatgatcg tgctcctgtc gttgaggacc cggctaggct ggcggggttg ccttactggt 1140 tagcagaatg aatcaccgat acgcgagcga acgtgaagcg actgctgctg caaaacgtct 1200 gcgacctgag caacaacatg aatggtcttc ggtttccgtg tttcgtaaag tctggaaacg 1260 cggaagtccc ctacgtgctg ctgaagttgc ccgcaacaga gagtggaacc aaccggtgat 1320 accacgatac tatgactgag agtcaacgcc atgagcggcc tcatttctta ttctgagtta 1380 caacagtccg caccgctgtc cggtagctcc ttccggtggg cgcggggcat gactatcgtc 1440 gccgcactta tgactgtctt ctttatcatg caactcgtag gacaggtgcc ggcagcgccc 1500 aacagtcccc cggccacggg gcctgccacc atacccacgc cgaaacaagc gccctgcacc 1560 attatgttcc ggatctgcat cgcaggatgc tgctggctac cctgtggaac acctacatct 1620 gtattaacga agcgctaacc gtttttatca ggctctggga ggcagaataa atgatcatat 1680 cgtcaattat tacctccacg gggagagcct gagcaaactg gcctcaggca tttgagaagc 1740 acacggtcac actgcttccg gtagtcaata aaccggtaaa ccagcaatag acataagcgg 1800 ctatttaacg accctgccct gaaccgacga ccgggtcgaa tttgctttcg aatttctgcc 1860 attcatccgc ttattatcac ttattcaggc gtagcaccag gcgtttaagg gcaccaataa 1920 ctgccttaaa aaaattacgc cccgccctgc cactcatcgc agtactgttg taattcatta 1980 agcattctgc cgacatggaa gccatcacag acggcatgat gaacctgaat cgccagcggc 2040 atcagcacct tgtcgccttg cgtataatat ttgcccatgg tgaaaacggg ggcgaagaag 2100 ttgtccatat tggccacgtt taaatcaaaa ctggtgaaac tcacccaggg attggctgag 2160 acgaaaaaca tattctcaat aaacccttta gggaaatagg ccaggttttc accgtaacac 2220 gccacatctt gcgaatatat gtgtagaaac tgccggaaat cgtcgtggta ttcactccag 2280 agcgatgaaa acgtttcagt ttgctcatgg aaaacggtgt aacaagggtg aacactatcc 2340 catatcacca gctcaccgtc tttcattgcc atacggaatt ccggatgagc attcatcagg 2400 cgggcaagaa tgtgaataaa ggccggataa aacttgtgct tatttttctt tacggtcttt 2460 aaaaaggccg taatatccag ctgaacggtc tggttatagg tacattgagc aactgactga 2520 aatgcctcaa aatgttcttt acgatgccat tgggatatat caacggtggt atatccagtg 2580 atttttttct ccattttagc ttccttagct cctgaaaatc tcgataactc aaaaaatacg 2640 cccggtagtg atcttatttc attatggtga aagttggaac ctcttacgtg ccgatcaacg 2700 tctcattttc gccaaaagtt ggcccagggc ttcccggtat caacagggac accaggattt 2760 atttattctg cgaagtgatc ttccgtcaca ggtatttatt cggcgcaaag tgcgtcgggt 2820 gatgctgcca acttactgat ttagtgtatg atggtgtttt tgaggtgctc cagtggcttc 2880 tgtttctatc agctgtccct cctgttcagc tactgacggg gtggtgcgta acggcaaaag 2940 caccgccgga catcagcgct agcggagtgt atactggctt actatgttgg cactgatgag 3000 ggtgtcagtg aagtgcttca tgtggcagga gaaaaaaggc tgcaccggtg cgtcagcaga 3060 atatgtgata caggatatat tccgcttcct cgctcactga ctcgctacgc tcggtcgttc 3120 gactgcggcg agcggaaatg gcttacgaac ggggcggaga tttcctggaa gatgccagga 3180 agatacttaa cagggaagtg agagggccgc ggcaaagccg tttttccata ggctccgccc 3240 ccctgacaag catcacgaaa tctgacgctc aaatcagtgg tggcgaaacc cgacaggact 3300 ataaagatac caggcgtttc cccctggcgg ctccctcgtg cgctctcctg ttcctgcctt 3360 tcggtttacc ggtgtcattc cgctgttatg gccgcgtttg tctcattcca cgcctgacac 3420 tcagttccgg gtaggcagtt cgctccaagc tggactgtat gcacgaaccc cccgttcagt 3480 ccgaccgctg cgccttatcc ggtaactatc gtcttgagtc caacccggaa agacatgcaa 3540 aagcaccact ggcagcagcc actggtaatt gatttagagg agttagtctt gaagtcatgc 3600 gccggttaag gctaaactga aaggacaagt tttggtgact gcgctcctcc aagccagtta 3660 cctcggttca aagagttggt agctcagaga accttcgaaa aaccgccctg caaggcggtt 3720 ttttcgtttt cagagcaaga gattacgcgc agaccaaaac gatctcaaga agatcatctt 3780 attaatcaga taaaatattt ctagatttca gtgcaattta tctcttcaaa tgtagcacct 3840 gaagtcagcc ccatacgata taagttgtaa ttctcatgtt tgacagctta tcatcgataa 3900 gcttggttat ctctggcggt gttgacataa ataccactgg cggtgatact gagcacatag 3960 ttttcatgtg cgacaagttt tagagctaga aatagcaagt taaaataagg ctagtccgtt 4020 atcaacttga aaaagtggca ccgagtcggt ggtgcgttaa taacaggcct gctggtaatc 4080 gcaggccttt ttatttttg 4099 <210> 36 <211> 4099 <212> DNA <213> Artificial sequence <220> <223> pRF55 <400> 36 agcttggtta tctctggcgg tgttgacata aataccactg gcggtgatac tgagcacatg 60 atctttcttg ccgagcggtt ttagagctag aaatagcaag ttaaaataag gctagtccgt 120 tatcaacttg aaaaagtggc accgagtcgg tggtgcgtta ataacaggcc tgctggtaat 180 cgcaggcctt tttatttttg gatcctctac gccggacgca tcgtggccgg catcaccggc 240 gccacaggtg cggttgctgg cgcctatatc gccgacatca ccgatgggga agatcgggct 300 cgccacttcg ggctcatgag cgcttgtttc ggcgtgggta tggtggcagg ccccgtggcc 360 gggggactgt tgggcgccat ctccttgcat gcaccattcc ttgcggcggc ggtgctcaac 420 ggcctcaacc tactactggg ctgcttccta atgcaggagt cgcataaggg agagcgtcga 480 ccgatgccct tgagagcctt caacccagtc agctccttcc ggtgggcgcg gggcatgact 540 atcgtcgccg cacttatgac tgtcttcttt atcatgcaac tcgtaggaca ggtgccggca 600 gcgctctggg tcattttcgg cgaggaccgc tttcgctgga gcgcgacgat gatcggcctg 660 tcgcttgcgg tattcggaat cttgcacgcc ctcgctcaag ccttcgtcac tggtcccgcc 720 accaaacgtt tcggcgagaa gcaggccatt atcgccggca tggcggccga cgcgctgggc 780 tacgtcttgc tggcgttcgc gacgcgaggc tggatggcct tccccattat gattcttctc 840 gcttccggcg gcatcgggat gcccgcgttg caggccatgc tgtccaggca ggtagatgac 900 gaccatcagg gacagcttca aggatcgctc gcggctctta ccagcctaac ttcgatcact 960 ggaccgctga tcgtcacggc gatttatgcc gcctcggcga gcacatggaa cgggttggca 1020 tggattgtag gcgccgccct ataccttgtc tgcctccccg cgttgcgtcg cggtgcatgg 1080 agccgggcca cctcgacctg aatggaagcc ggcggcacct cgctaacgga ttcaccactc 1140 caagaattgg agccaatcaa ttcttgcgga gaactgtgaa tgcgcaaacc aacccttggc 1200 agaacatatc catcgcgtcc gccatctcca gcagccgcac gcggcgcatc tcgggcagcg 1260 ttgggtcctg gccacgggtg cgcatgatcg tgctcctgtc gttgaggacc cggctaggct 1320 ggcggggttg ccttactggt tagcagaatg aatcaccgat acgcgagcga acgtgaagcg 1380 actgctgctg caaaacgtct gcgacctgag caacaacatg aatggtcttc ggtttccgtg 1440 tttcgtaaag tctggaaacg cggaagtccc ctacgtgctg ctgaagttgc ccgcaacaga 1500 gagtggaacc aaccggtgat accacgatac tatgactgag agtcaacgcc atgagcggcc 1560 tcatttctta ttctgagtta caacagtccg caccgctgtc cggtagctcc ttccggtggg 1620 cgcggggcat gactatcgtc gccgcactta tgactgtctt ctttatcatg caactcgtag 1680 gacaggtgcc ggcagcgccc aacagtcccc cggccacggg gcctgccacc atacccacgc 1740 cgaaacaagc gccctgcacc attatgttcc ggatctgcat cgcaggatgc tgctggctac 1800 cctgtggaac acctacatct gtattaacga agcgctaacc gtttttatca ggctctggga 1860 ggcagaataa atgatcatat cgtcaattat tacctccacg gggagagcct gagcaaactg 1920 gcctcaggca tttgagaagc acacggtcac actgcttccg gtagtcaata aaccggtaaa 1980 ccagcaatag acataagcgg ctatttaacg accctgccct gaaccgacga ccgggtcgaa 2040 tttgctttcg aatttctgcc attcatccgc ttattatcac ttattcaggc gtagcaccag 2100 gcgtttaagg gcaccaataa ctgccttaaa aaaattacgc cccgccctgc cactcatcgc 2160 agtactgttg taattcatta agcattctgc cgacatggaa gccatcacag acggcatgat 2220 gaacctgaat cgccagcggc atcagcacct tgtcgccttg cgtataatat ttgcccatgg 2280 tgaaaacggg ggcgaagaag ttgtccatat tggccacgtt taaatcaaaa ctggtgaaac 2340 tcacccaggg attggctgag acgaaaaaca tattctcaat aaacccttta gggaaatagg 2400 ccaggttttc accgtaacac gccacatctt gcgaatatat gtgtagaaac tgccggaaat 2460 cgtcgtggta ttcactccag agcgatgaaa acgtttcagt ttgctcatgg aaaacggtgt 2520 aacaagggtg aacactatcc catatcacca gctcaccgtc tttcattgcc atacggaatt 2580 ccggatgagc attcatcagg cgggcaagaa tgtgaataaa ggccggataa aacttgtgct 2640 tatttttctt tacggtcttt aaaaaggccg taatatccag ctgaacggtc tggttatagg 2700 tacattgagc aactgactga aatgcctcaa aatgttcttt acgatgccat tgggatatat 2760 caacggtggt atatccagtg atttttttct ccattttagc ttccttagct cctgaaaatc 2820 tcgataactc aaaaaatacg cccggtagtg atcttatttc attatggtga aagttggaac 2880 ctcttacgtg ccgatcaacg tctcattttc gccaaaagtt ggcccagggc ttcccggtat 2940 caacagggac accaggattt atttattctg cgaagtgatc ttccgtcaca ggtatttatt 3000 cggcgcaaag tgcgtcgggt gatgctgcca acttactgat ttagtgtatg atggtgtttt 3060 tgaggtgctc cagtggcttc tgtttctatc agctgtccct cctgttcagc tactgacggg 3120 gtggtgcgta acggcaaaag caccgccgga catcagcgct agcggagtgt atactggctt 3180 actatgttgg cactgatgag ggtgtcagtg aagtgcttca tgtggcagga gaaaaaaggc 3240 tgcaccggtg cgtcagcaga atatgtgata caggatatat tccgcttcct cgctcactga 3300 ctcgctacgc tcggtcgttc gactgcggcg agcggaaatg gcttacgaac ggggcggaga 3360 tttcctggaa gatgccagga agatacttaa cagggaagtg agagggccgc ggcaaagccg 3420 tttttccata ggctccgccc ccctgacaag catcacgaaa tctgacgctc aaatcagtgg 3480 tggcgaaacc cgacaggact ataaagatac caggcgtttc cccctggcgg ctccctcgtg 3540 cgctctcctg ttcctgcctt tcggtttacc ggtgtcattc cgctgttatg gccgcgtttg 3600 tctcattcca cgcctgacac tcagttccgg gtaggcagtt cgctccaagc tggactgtat 3660 gcacgaaccc cccgttcagt ccgaccgctg cgccttatcc ggtaactatc gtcttgagtc 3720 caacccggaa agacatgcaa aagcaccact ggcagcagcc actggtaatt gatttagagg 3780 agttagtctt gaagtcatgc gccggttaag gctaaactga aaggacaagt tttggtgact 3840 gcgctcctcc aagccagtta cctcggttca aagagttggt agctcagaga accttcgaaa 3900 aaccgccctg caaggcggtt ttttcgtttt cagagcaaga gattacgcgc agaccaaaac 3960 gatctcaaga agatcatctt attaatcaga taaaatattt ctagatttca gtgcaattta 4020 tctcttcaaa tgtagcacct gaagtcagcc ccatacgata taagttgtaa ttctcatgtt 4080 tgacagctta tcatcgata 4099 <210> 37 <211> 454 <212> DNA <213> Escherichia coli <220> <221> misc_feature <222> (1)..(454) <223> 454bp 5' galK <400> 37 ggattatgtt cagcgcgagc tggcagacgg tagccgtacc gttgtcgaaa ccgaacactg 60 gttagccgtc gtgccttact gggctgcctg gccgttcgaa acgctactgc tgcccaaagc 120 ccacgtttta cggatcaccg atttgaccga cgcccagcgc agcgatctgg cgctggcgtt 180 gaaaaagctg accagtcgtt atgacaacct cttccagtgc tccttcccct actctatggg 240 ctggcacggc gcgccattta atggcgaaga gaatcaacac tggcagctgc acgcgcactt 300 ttatccgcct ctgctgcgct ccgccaccgt acgtaaattt atggttggtt atgaaatgct 360 ggcagagacc cagcgagacc tgaccgcaga acaggcagca gagcgtttgc gcgcagtcag 420 cgatatccat tttcgcgaat ccggagtgta agaa 454 <210> 38 <211> 29 <212> DNA <213> Artificial sequence <220> <223> 5' forward primer <400> 38 gggaagcttg gattatgttc agcgcgagc 29 <210> 39 <211> 40 <212> DNA <213> Artificial sequence <220> <223> 5' reverse primer <400> 39 tgccagtgcg ggagtttcgt ttcttacact ccggattcgc 40 <210> 40 <211> 483 <212> DNA <213> Artificial sequence <220> <223> upstream overlap extension product <400> 40 gggaagcttg gattatgttc agcgcgagct ggcagacggt agccgtaccg ttgtcgaaac 60 cgaacactgg ttagccgtcg tgccttactg ggctgcctgg ccgttcgaaa cgctactgct 120 gcccaaagcc cacgttttac ggatcaccga tttgaccgac gcccagcgca gcgatctggc 180 gctggcgttg aaaaagctga ccagtcgtta tgacaacctc ttccagtgct ccttccccta 240 ctctatgggc tggcacggcg cgccatttaa tggcgaagag aatcaacact ggcagctgca 300 cgcgcacttt tatccgcctc tgctgcgctc cgccaccgta cgtaaattta tggttggtta 360 tgaaatgctg gcagagaccc agcgagacct gaccgcagaa caggcagcag agcgtttgcg 420 cgcagtcagc gatatccatt ttcgcgaatc cggagtgtaa gaaacgaaac tcccgcactg 480 gca 483 <210> 41 <211> 376 <212> DNA <213> Escherichia coli <220> <221> misc_feature <222> (1)..(376) <223> 376bp 3' galK <400> 41 acgaaactcc cgcactggca cccgatggtc agccgtaccg actgttaact ttgcgtaaca 60 acgcagggat ggtagtcacg ctgatggact ggggtgcgac tttactttcc gcccgtattc 120 cgctttccga tggcagcgtc cgcgaggcgc tgctcggctg tgccagcccg gaatgctatc 180 aggatcaggc cgcgtttctg ggggcctcta ttggtcgtta tgccaaccgt atcgccaata 240 gccgttatac ctttgacggt gaaaccgtga cgctttcgcc aagtcagggc gttaaccagc 300 tgcacggcgg gccggaaggg ttcgacaaac gtcgctggca gattgtgaac cagaacgatc 360 gtcaggtgct gtttgc 376 <210> 42 <211> 40 <212> DNA <213> Artificial sequence <220> <223> 3' forward primer <400> 42 gcgaatccgg agtgtaagaa acgaaactcc cgcactggca 40 <210> 43 <211> 30 <212> DNA <213> Artificial sequence <220> <223> 3' reverse primer <400> 43 gggaagcttg caaacagcac ctgacgatcg 30 <210> 44 <211> 405 <212> DNA <213> Artificial Sequence <220> <223> downstream overlap extension product <400> 44 gcgaatccgg agtgtaagaa acgaaactcc cgcactggca cccgatggtc agccgtaccg 60 actgttaact ttgcgtaaca acgcagggat ggtagtcacg ctgatggact ggggtgcgac 120 tttactttcc gcccgtattc cgctttccga tggcagcgtc cgcgaggcgc tgctcggctg 180 tgccagcccg gaatgctatc aggatcaggc cgcgtttctg ggggcctcta ttggtcgtta 240 tgccaaccgt atcgccaata gccgttatac ctttgacggt gaaaccgtga cgctttcgcc 300 aagtcagggc gttaaccagc tgcacggcgg gccggaaggg ttcgacaaac gtcgctggca 360 gattgtgaac cagaacgatc gtcaggtgct gtttgcaagc ttccc 405 <210> 45 <211> 848 <212> DNA <213> Artificial sequence <220> <223> galK deletion polynucleotide modification template <400> 45 gggaagcttg gattatgttc agcgcgagct ggcagacggt agccgtaccg ttgtcgaaac 60 cgaacactgg ttagccgtcg tgccttactg ggctgcctgg ccgttcgaaa cgctactgct 120 gcccaaagcc cacgttttac ggatcaccga tttgaccgac gcccagcgca gcgatctggc 180 gctggcgttg aaaaagctga ccagtcgtta tgacaacctc ttccagtgct ccttccccta 240 ctctatgggc tggcacggcg cgccatttaa tggcgaagag aatcaacact ggcagctgca 300 cgcgcacttt tatccgcctc tgctgcgctc cgccaccgta cgtaaattta tggttggtta 360 tgaaatgctg gcagagaccc agcgagacct gaccgcagaa caggcagcag agcgtttgcg 420 cgcagtcagc gatatccatt ttcgcgaatc cggagtgtaa gaaacgaaac tcccgcactg 480 gcacccgatg gtcagccgta ccgactgtta actttgcgta acaacgcagg gatggtagtc 540 acgctgatgg actggggtgc gactttactt tccgcccgta ttccgctttc cgatggcagc 600 gtccgcgagg cgctgctcgg ctgtgccagc ccggaatgct atcaggatca ggccgcgttt 660 ctgggggcct ctattggtcg ttatgccaac cgtatcgcca atagccgtta tacctttgac 720 ggtgaaaccg tgacgctttc gccaagtcag ggcgttaacc agctgcacgg cgggccggaa 780 gggttcgaca aacgtcgctg gcagattgtg aaccagaacg atcgtcaggt gctgtttgca 840 agcttccc 848 <210> 46 <211> 2804 <212> DNA <213> Artificial sequence <220> <223> pKD3 <400> 46 agattgcagc attacacgtc ttgagcgatt gtgtaggctg gagctgcttc gaagttccta 60 tactttctag agaataggaa cttcggaata ggaacttcat ttaaatggcg cgccttacgc 120 cccgccctgc cactcatcgc agtactgttg tattcattaa gcatctgccg acatggaagc 180 catcacaaac ggcatgatga acctgaatcg ccagcggcat cagcaccttg tcgccttgcg 240 tataatattt gcccatggtg aaaacggggg cgaagaagtt gtccatattg gccacgttta 300 aatcaaaact ggtgaaactc acccagggat tggctgagac gaaaaacata ttctcaataa 360 accctttagg gaaataggcc aggttttcac cgtaacacgc cacatcttgc gaatatatgt 420 gtagaaactg ccggaaatcg tcgtggtatt cactccagag cgatgaaaac gtttcagttt 480 gctcatggaa aacggtgtaa caagggtgaa cactatccca tatcaccagc tcaccgtctt 540 tcattgccat acgtaattcc ggatgagcat tcatcaggcg ggcaagaatg tgaataaagg 600 ccggataaaa cttgtgctta tttttcttta cggtctttaa aaaggccgta atatccagct 660 gaacggtctg gttataggta cattgagcaa ctgactgaaa tgcctcaaaa tgttctttac 720 gatgccattg ggatatatca acggtggtat atccagtgat ttttttctcc attttagctt 780 ccttagctcc tgaaaatctc gacaactcaa aaaatacgcc cggtagtgat cttatttcat 840 tatggtgaaa gttggaacct cttacgtgcc gatcaacgtc tcattttcgc caaaagttgg 900 cccagggctt cccggtatca acagggacac caggatttat ttattctgcg aagtgatctt 960 ccgtcacagg taggcgcgcc gaagttccta tactttctag agaataggaa cttcggaata 1020 ggaactaagg aggatattca tatggaccat ggctaattcc catgtcagcc gttaagtgtt 1080 cctgtgtcac tgaaaattgc tttgagaggc tctaagggct tctcagtgcg ttacatccct 1140 ggcttgttgt ccacaaccgt taaaccttaa aagctttaaa agccttatat attctttttt 1200 ttcttataaa acttaaaacc ttagaggcta tttaagttgc tgatttatat taattttatt 1260 gttcaaacat gagagcttag tacgtgaaac atgagagctt agtacgttag ccatgagagc 1320 ttagtacgtt agccatgagg gtttagttcg ttaaacatga gagcttagta cgttaaacat 1380 gagagcttag tacgtgaaac atgagagctt agtacgtact atcaacaggt tgaactgcgg 1440 atcttgcggc cgcaaaaatt aaaaatgaag ttttaaatca atctaaagta tatatgagta 1500 aacttggtct gacagttacc aatgcttaat cagtgaggca cctatctcag cgatctgtct 1560 atttcgttca tccatagttg cctgactccc cgtcgtgtag ataactacga tacgggaggg 1620 cttaccatct ggccccagtg ctgcaatgat accgcgagac ccacgctcac cggctccaga 1680 tttatcagca ataaaccagc cagccggaag ggccgagcgc agaagtggtc ctgcaacttt 1740 atccgcctcc atccagtcta ttaattgttg ccgggaagct agagtaagta gttcgccagt 1800 taatagtttg cgcaacgttg ttgccattgc tacaggcatc gtggtgtcac gctcgtcgtt 1860 tggtatggct tcattcagct ccggttccca acgatcaagg cgagttacat gatcccccat 1920 gttgtgcaaa aaagcggtta gctccttcgg tcctccgatc gttgtcagaa gtaagttggc 1980 cgcagtgtta tcactcatgg ttatggcagc actgcataat tctcttactg tcatgccatc 2040 cgtaagatgc ttttctgtga ctggtgagta ctcaaccaag tcattctgag aatagtgtat 2100 gcggcgaccg agttgctctt gcccggcgtc aatacgggat aataccgcgc cacatagcag 2160 aactttaaaa gtgctcatca ttggaaaacg ttcttcgggg cgaaaactct caaggatctt 2220 accgctgttg agatccagtt cgatgtaacc cactcgtgca cccaactgat cttcagcatc 2280 ttttactttc accagcgttt ctgggtgagc aaaaacagga aggcaaaatg ccgcaaaaaa 2340 gggaataagg gcgacacgga aatgttgaat actcatactc ttcctttttc aatattattg 2400 aagcatttat cagggttatt gtctcatgag cggatacata tttgaatgta tttagaaaaa 2460 taaacaaata ggggttccgc gcacatttcc ccgaaaagtg ccacctgcat cgatggcccc 2520 ccgatggtag tgtggggtct ccccatgcga gagtagggaa ctgccaggca tcaaataaaa 2580 cgaaaggctc agtcgaaaga ctgggccttt cgttttatct gttgtttgtc ggtgaacgct 2640 ctcctgagta ggacaaatcc gccgggagcg gatttgaacg ttgcgaagca acggcccgga 2700 gggtggcggg caggacgccc gccataaact gccaggcatc aaattaagca gaaggccatc 2760 ctgacggatg gcctttttgc gtggccagtg ccaagcttgc atgc 2804 <210> 47 <211> 2458 <212> DNA <213> Artificial sequence <220> <223> pRF113 <400> 47 agctttaaaa gccttatata ttcttttttt tcttataaaa cttaaaacct tagaggctat 60 ttaagttgct gatttatatt aattttattg ttcaaacatg agagcttagt acgtgaaaca 120 tgagagctta gtacgttagc catgagagct tagtacgtta gccatgaggg tttagttcgt 180 taaacatgag agcttagtac gttaaacatg agagcttagt acgtgaaaca tgagagctta 240 gtacgtacta tcaacaggtt gaactgcgga tcttgcggcc gcaaaaatta aaaatgaagt 300 tttaaatcaa tctaaagtat atatgagtaa acttggtctg acagttacca atgcttaatc 360 agtgaggcac ctatctcagc gatctgtcta tttcgttcat ccatagttgc ctgactcccc 420 gtcgtgtaga taactacgat acgggagggc ttaccatctg gccccagtgc tgcaatgata 480 ccgcgagacc cacgctcacc ggctccagat ttatcagcaa taaaccagcc agccggaagg 540 gccgagcgca gaagtggtcc tgcaacttta tccgcctcca tccagtctat taattgttgc 600 cgggaagcta gagtaagtag ttcgccagtt aatagtttgc gcaacgttgt tgccattgct 660 acaggcatcg tggtgtcacg ctcgtcgttt ggtatggctt cattcagctc cggttcccaa 720 cgatcaaggc gagttacatg atcccccatg ttgtgcaaaa aagcggttag ctccttcggt 780 cctccgatcg ttgtcagaag taagttggcc gcagtgttat cactcatggt tatggcagca 840 ctgcataatt ctcttactgt catgccatcc gtaagatgct tttctgtgac tggtgagtac 900 tcaaccaagt cattctgaga atagtgtatg cggcgaccga gttgctcttg cccggcgtca 960 atacgggata ataccgcgcc acatagcaga actttaaaag tgctcatcat tggaaaacgt 1020 tcttcggggc gaaaactctc aaggatctta ccgctgttga gatccagttc gatgtaaccc 1080 actcgtgcac ccaactgatc ttcagcatct tttactttca ccagcgtttc tgggtgagca 1140 aaaacaggaa ggcaaaatgc cgcaaaaaag ggaataaggg cgacacggaa atgttgaata 1200 ctcatactct tcctttttca atattattga agcatttatc agggttattg tctcatgagc 1260 ggatacatat ttgaatgtat ttagaaaaat aaacaaatag gggttccgcg cacatttccc 1320 cgaaaagtgc cacctgcatc gatggccccc cgatggtagt gtggggtctc cccatgcgag 1380 agtagggaac tgccaggcat caaataaaac gaaaggctca gtcgaaagac tgggcctttc 1440 gttttatctg ttgtttgtcg gtgaacgctc tcctgagtag gacaaatccg ccgggagcgg 1500 atttgaacgt tgcgaagcaa cggcccggag ggtggcgggc aggacgcccg ccataaactg 1560 ccaggcatca aattaagcag aaggccatcc tgacggatgg cctttttgcg tggccagtgc 1620 caagcttgga ttatgttcag cgcgagctgg cagacggtag ccgtaccgtt gtcgaaaccg 1680 aacactggtt agccgtcgtg ccttactggg ctgcctggcc gttcgaaacg ctactgctgc 1740 ccaaagccca cgttttacgg atcaccgatt tgaccgacgc ccagcgcagc gatctggcgc 1800 tggcgttgaa aaagctgacc agtcgttatg acaacctctt ccagtgctcc ttcccctact 1860 ctatgggctg gcacggcgcg ccatttaatg gcgaagagaa tcaacactgg cagctgcacg 1920 cgcactttta tccgcctctg ctgcgctccg ccaccgtacg taaatttatg gttggttatg 1980 aaatgctggc agagacccag cgagacctga ccgcagaaca ggcagcagag cgtttgcgcg 2040 cagtcagcga tatccatttt cgcgaatccg gagtgtaaga aacgaaactc ccgcactggc 2100 acccgatggt cagccgtacc gactgttaac tttgcgtaac aacgcaggga tggtagtcac 2160 gctgatggac tggggtgcga ctttactttc cgcccgtatt ccgctttccg atggcagcgt 2220 ccgcgaggcg ctgctcggct gtgccagccc ggaatgctat caggatcagg ccgcgtttct 2280 gggggcctct attggtcgtt atgccaaccg tatcgccaat agccgttata cctttgacgg 2340 tgaaaccgtg acgctttcgc caagtcaggg cgttaaccag ctgcacggcg ggccggaagg 2400 gttcgacaaa cgtcgctggc agattgtgaa ccagaacgat cgtcaggtgc tgtttgca 2458 <210> 48 <211> 1717 <212> DNA <213> Escherichia coli <220> <221> misc_feature <222> (1)..(1717) <223> galK locus <400> 48 ggcgaagaga atcaacactg gcagctgcac gcgcactttt atccgcctct gctgcgctcc 60 gccaccgtac gtaaatttat ggttggttat gaaatgctgg cagagaccca gcgagacctg 120 accgcagaac aggcagcaga gcgtttgcgc gcagtcagcg atatccattt tcgcgaatcc 180 ggagtgtaag aaatgagtct gaaagaaaaa acacaatctc tgtttgccaa cgcatttggc 240 taccctgcca ctcacaccat tcaggcgcct ggccgcgtga atttgattgg tgaacacacc 300 gactacaacg acggtttcgt tctgccctgc gcgattgatt atcaaaccgt gatcagttgt 360 gcaccacgcg atgaccgtaa agttcgcgtg atggcagccg attatgaaaa tcagctcgac 420 gagttttccc tcgatgcgcc cattgtcgca catgaaaact atcaatgggc taactacgtt 480 cgtggcgtgg tgaaacatct gcaactgcgt aacaacagct tcggcggcgt ggacatggtg 540 atcagcggca atgtgccgca gggtgccggg ttaagttctt ccgcttcact ggaagtcgcg 600 gtcggaaccg tattgcagca gctttatcat ctgccgctgg acggcgcaca aatcgcgctt 660 aacggtcagg aagcagaaaa ccagtttgta ggctgtaact gcgggatcat ggatcagcta 720 atttccgcgc tcggcaagaa agatcatgcc ttgctgatcg attgccgctc actggggacc 780 aaagcagttt ccatgcccaa aggtgtggct gtcgtcatca tcaacagtaa cttcaaacgt 840 accctggttg gcagcgaata caacacccgt cgtgaacagt gcgaaaccgg tgcgcgtttc 900 ttccagcagc cagccctgcg tgatgtcacc attgaagagt tcaacgctgt tgcgcatgaa 960 ctggacccga tcgtggcaaa acgcgtgcgt catatactga ctgaaaacgc ccgcaccgtt 1020 gaagctgcca gcgcgctgga gcaaggcgac ctgaaacgta tgggcgagtt gatggcggag 1080 tctcatgcct ctatgcgcga tgatttcgaa atcaccgtgc cgcaaattga cactctggta 1140 gaaatcgtca aagctgtgat tggcgacaaa ggtggcgtac gcatgaccgg cggcggattt 1200 ggcggctgta tcgtcgcgct gatcccggaa gagctggtgc ctgccgtaca gcaagctgtc 1260 gctgaacaat atgaagcaaa aacaggtatt aaagagactt tttacgtttg taaaccatca 1320 caaggagcag gacagtgctg aacgaaactc ccgcactggc acccgatggt cagccgtacc 1380 gactgttaac tttgcgtaac aacgcaggga tggtagtcac gctgatggac tggggtgcga 1440 ctttactttc cgcccgtatt ccgctttccg atggcagcgt ccgcgaggcg ctgctcggct 1500 gtgccagccc ggaatgctat caggatcagg ccgcgtttct gggggcctct attggtcgtt 1560 atgccaaccg tatcgccaat agccgttata cctttgacgg tgaaaccgtg acgctttcgc 1620 caagtcaggg cgttaaccag ctgcacggcg ggccggaagg gttcgacaaa cgtcgctggc 1680 agattgtgaa ccagaacgat cgtcaggtgc tgtttgc 1717 <210> 49 <211> 21 <212> DNA <213> artificial sequence <220> <223> GalK forward <400> 49 ggcgaagaga atcaacactg g 21 <210> 50 <211> 21 <212> DNA <213> Artificial sequence <220> <223> GalK Reverse <400> 50 gcaaacagca cctgacgatc g 21 <210> 51 <211> 1136 <212> DNA <213> Escherichia coli <220> <221> misc_feature <222> (1)..(1136) <223> galK deletion <400> 51 ggcgaagaga atcaacactg gcagctgcac gcgcactttt atccgcctct gctgcgctcc 60 gccaccgtac gtaaatttat ggttggttat gaaatgctgg cagagaccca gcgagacctg 120 accgcagaac aggcagcaga gcgtttgcgc gcagtcagcg atatccattt tcgcgaatcc 180 ggagtgtaag aaacgaaact cccgcactgg cacccgatgg tcagccgtac cgactgttaa 240 ctttgcgtaa caacgcaggg atggtagtca cgctgatgga ctggggtgcg actttacttt 300 ccgcccgtat tccgctttcc gatggcagcg tccgcgaggc gctgctcggc tgtgccagcc 360 cggaatgcta tcaggatcag gccgcgtttc tgggggcctc tattggtcgt tatgccaacc 420 gtatcgccaa tagccgttat acctttgacg gtgaaaccgt gacgctttcg ccaagtcagg 480 gcgttaacca gctgcacggc gggccggaag ggttcgacaa acgtcgctgg cagattgtga 540 accagaacga tcgtcaggtg ctgtttgcgg cgaagagaat caacactggc agctgcacgc 600 gcacttttat ccgcctctgc tgcgctccgc caccgtacgt aaatttatgg ttggttatga 660 aatgctggca gagacccagc gagacctgac cgcagaacag gcagcagagc gtttgcgcgc 720 agtcagcgat atccattttc gcgaatccgg agtgtaagaa acgaaactcc cgcactggca 780 cccgatggtc agccgtaccg actgttaact ttgcgtaaca acgcagggat ggtagtcacg 840 ctgatggact ggggtgcgac tttactttcc gcccgtattc cgctttccga tggcagcgtc 900 cgcgaggcgc tgctcggctg tgccagcccg gaatgctatc aggatcaggc cgcgtttctg 960 ggggcctcta ttggtcgtta tgccaaccgt atcgccaata gccgttatac ctttgacggt 1020 gaaaccgtga cgctttcgcc aagtcagggc gttaaccagc tgcacggcgg gccggaaggg 1080 ttcgacaaac gtcgctggca gattgtgaac cagaacgatc gtcaggtgct gtttgc 1136 <210> 52 <211> 23 <212> DNA <213> unknown <220> <223> Example of a Cas9 target site:PAM sequence <220> <221> misc_feature <222> (1)..(20) <223> n = A, C, T, or G <220> <221> misc_feature <222> (21)..(21) <223> n = A, C, T, or G (indicated as an "X" in Specification) <400> 52 nnnnnnnnnn nnnnnnnnnn ngg 23

Claims

대장균 세포의 게놈 내 표적 서열을 편집하는 방법으로서, 가이드 RNA를 암호화하는 DNA 서열을 포함하는 적어도 하나의 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형을, 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제 DNA 서열을 포함하는 대장균 세포에 제공하는 단계를 포함하되, 상기 Cas9 엔도뉴클레아제 DNA 서열은 Cas9 엔도뉴클레아제를 암호화하고, 가이드 RNA와 Cas9 엔도뉴클레아제는, 표적 서열의 절단을 매개하여 상기 대장균 세포의 게놈 내 표적 부위에서 상동 재조합 매개 유전자 편집을 가능하게 할 수 있는 가이드 RNA/Cas9 엔도뉴클레아제 복합체(RGEN)를 형성할 수 있고, 상기 폴리뉴클레오티드 변형 주형은 상기 표적 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는, 방법.
제1항에 있어서, 대장균 세포의 게놈 내 표적 서열은 프로모터 서열, 종결자 서열, 조절 요소 서열, 암호화 서열, 프로파지, 위유전자, 및 외인성 유전자로 이루어진 군으로부터 선택되는, 방법.
제1항 또는 제2항에 있어서, 가이드 RNA를 암호화하는 DNA 서열을 포함하는 상기 재조합 DNA 작제물은 원형 플라스미드를 통해 제공되는, 방법.
제1항 또는 제2항에 있어서, 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형은 각각 별개의 플라스미드 상에 제공되거나 단일 플라스미드 상에 제공되는, 방법.
제1항 또는 제2항에 있어서, 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 주형은 전기천공, 열 충격, 파지 전달, 결합, 접합 및 형질도입으로 이루어진 군으로부터 선택되는 하나의 수단을 통해 제공되는, 방법.
제1항 또는 제2항에 있어서, 상기 표적 부위는 제1 게놈 영역 및 제2 게놈 영역에 의해 플랭킹되고, 원형 폴리뉴클레오티드 주형은 상기 제1 게놈 영역과 상동인 제1 영역 및 상기 제2 게놈 영역과 상동인 제2 영역을 더 포함하는, 방법.
제1항 또는 제2항에 있어서, 대장균 세포는 외인성 재조합효소 단백질을 발현하지 않는, 방법.
제1항 또는 제2항에 있어서, 대장균 세포는 RecET 단백질, 람다-레드 단백질, 및 RecBCD 억제제를 포함하는 군으로부터 선택되는 단백질을 발현하지 않는, 방법.
제1항 또는 제2항에 있어서, 상기 대장균 세포로부터 자손 세포를 성장시키는 단계를 더 포함하되, 자손 세포는 상기 표적 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는, 방법.
제1항 또는 제2항에 있어서, 표적 부위는 대장균 galK 유전자 내에 위치하는, 방법.
제1항에 있어서,
a) 가이드 RNA를 암호화하는 DNA 서열을 포함하는 적어도 하나의 원형 재조합 DNA 작제물 및 적어도 하나의 원형 폴리뉴클레오티드 변형 주형을, 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제 DNA 서열을 포함하는 대장균 세포에 제공하는 단계 - 상기 Cas9 엔도뉴클레아제 DNA 서열은 대장균 게놈의 galK 게놈 서열 내 표적 부위에서 이중 가닥 절단을 도입할 수 있는 Cas9 엔도뉴클레아제를 암호화하고, 상기 원형 폴리뉴클레오티드 변형 주형은 상기 galK 게놈 서열의 적어도 하나의 뉴클레오티드 변형을 포함함;
b) (a)의 대장균 세포로부터 자손 세포를 성장시키는 단계; 및
c) 상기 적어도 하나의 뉴클레오티드 변형의 존재에 대해 (b)의 자손 세포를 평가하는 단계를 포함하고,
galK 돌연변이 대장균 세포의 제조에 사용되는, 방법.
제1항에 있어서, 적어도, 가이드 RNA를 암호화하는 DNA 서열을 포함하는 제1 재조합 DNA 작제물, 원형 폴리뉴클레오티드 변형 주형, 및 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제를 암호화하는 DNA 서열을 포함하는 제2 재조합 DNA 작제물을, 대장균 세포에 제공하는 단계를 포함하되, Cas9 엔도뉴클레아제는 상기 대장균 세포의 게놈 내 표적 부위에서 이중 가닥 절단을 도입하고, 상기 폴리뉴클레오티드 변형 주형은 상기 표적 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는, 방법.
제12항에 있어서, 제1 재조합 DNA 작제물, 제2 재조합 DNA 작제물, 및 원형 폴리뉴클레오티드 변형 주형은 각각 별개의 플라스미드 상에 제공되거나, 단일 플라스미드 상에 제공되는, 방법.
삭제
삭제
삭제
삭제