KR102424626B1 - 원형 폴리뉴클레오티드 변형 주형과 함께 가이드 RNA/Cas 엔도뉴클레아제 시스템을 이용하여 대장균에서 효율적으로 유전자 편집을 하기 위한 조성물 및 방법 - Google Patents
원형 폴리뉴클레오티드 변형 주형과 함께 가이드 RNA/Cas 엔도뉴클레아제 시스템을 이용하여 대장균에서 효율적으로 유전자 편집을 하기 위한 조성물 및 방법 Download PDFInfo
- Publication number
- KR102424626B1 KR102424626B1 KR1020177019285A KR20177019285A KR102424626B1 KR 102424626 B1 KR102424626 B1 KR 102424626B1 KR 1020177019285 A KR1020177019285 A KR 1020177019285A KR 20177019285 A KR20177019285 A KR 20177019285A KR 102424626 B1 KR102424626 B1 KR 102424626B1
- Authority
- KR
- South Korea
- Prior art keywords
- sequence
- dna
- coli
- cell
- cas9
- Prior art date
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/102—Mutagenizing nucleic acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
- C12N15/113—Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/63—Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
- C12N15/70—Vectors or expression systems specially adapted for E. coli
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/63—Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
- C12N15/79—Vectors or expression systems specially adapted for eukaryotic hosts
- C12N15/82—Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
- C12N15/8201—Methods for introducing genetic material into plant cells, e.g. DNA, RNA, stable or transient incorporation, tissue culture methods adapted for transformation
- C12N15/8213—Targeted insertion of genes into the plant genome by homologous recombination
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/87—Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
- C12N15/90—Stable introduction of foreign DNA into chromosome
- C12N15/902—Stable introduction of foreign DNA into chromosome using homologous recombination
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N9/00—Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
- C12N9/14—Hydrolases (3)
- C12N9/16—Hydrolases (3) acting on ester bonds (3.1)
- C12N9/22—Ribonucleases RNAses, DNAses
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2310/00—Structure or type of the nucleic acid
- C12N2310/10—Type of nucleic acid
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2320/00—Applications; Uses
- C12N2320/10—Applications; Uses in screening processes
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Genetics & Genomics (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Zoology (AREA)
- Organic Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Wood Science & Technology (AREA)
- Biomedical Technology (AREA)
- Biotechnology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Biophysics (AREA)
- Plant Pathology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Medicinal Chemistry (AREA)
- Mycology (AREA)
- Cell Biology (AREA)
- Micro-Organisms Or Cultivation Processes Thereof (AREA)
- Enzymes And Modification Thereof (AREA)
Abstract
대장균 세포의 게놈 내 표적 서열의 게놈 변형을 위한 조성물 및 방법이 제공된다. 상기 방법 및 조성물은 원형 폴리뉴클레오티드 변형 주형과 함께 가이드 RNA/Cas 엔도뉴클레아제 시스템을 채용하여 대장균 세포의 게놈 내 표적 부위를 편집하기 위한 효과적인 시스템을 제공한다.
Description
본 출원은 전체가 참조로써 본원에 포함되는, 2014년 12월 17일 출원된 미국 가출원 62/092914호의 이익을 주장한다.
기술분야
본 발명은 박테리아 분자 생물학 분야에 관한 것으로서, 특히 대장균의 게놈 내 뉴클레오티드 서열을 편집하기 위한 조성물 및 방법에 관한 것이다.
전자적으로 제출된 서열
목록에 대한 참조
본 서열 목록의 공식 사본은 2015년 11월 17일 작성되고 크기가 106 킬로바이트이며 본 명세서와 동시에 제출된, 파일명 20151117_CL6256PCT_ST25.txt의 ASCII 형식의 서열 목록으로서 EFS-웹을 통해 전자적으로 제출되었다. 이러한 ASCII 형식의 서류에 포함된 서열 목록은 본 명세서의 일부이며, 그 전체가 참조로써 본원에 포함된다.
유기체 내에서 유전자의 기능을 이해하는 한 가지 방법은 이의 발현을 억제하는 것이다. 유전자 발현의 억제는, 예를 들어, 유전자의 DNA 서열을 중단시키거나 결실시켜 유전자의 "녹아웃(knock-out)"을 유발함으로써 달성될 수 있다 (Austin et al., Nat. Genetics 36:921-924). 유전자 녹아웃은 대부분 박테리아에서 포유동물까지의 다양한 유기체 전반에 걸쳐 적용할 수 있는 기술인 상동 재조합(HR)을 통해 수행되어 왔다. 유전자 기능을 연구하기 위한 또 다른 방법은 유전자 "녹인(knock-in)"을 통한 것일 수 있으며, 이것도 대개 HR에 의해서 수행된다. 표적화된 DNA 부위가 이중 가닥 절단을 포함하는 경우, 유전자 표적화를 위한 HR이 증진되는 것으로 밝혀진 바 있다(Rudin et al., Genetics 122:519-534; Smih et al., Nucl . Acids Res. 23:5012-5019). 따라서, HR-매개성 DNA 표적화를 촉진하기 위해 이중 가닥 절단을 도입하기 위한 전략이 개발되어 왔다. 예를 들어, 징크 핑거 뉴클레아제는 폴리뉴클레오티드 변형 주형 DNA가 존재하는 경우 특정 부위에서 HR의 수준을 향상시키는 특정 DNA 부위를 절단하도록 유전자 조작되어 왔다 (Bibikova et al., Science 300:764; Bibikova et al., Mol . Cell. Biol . 21:289-297). 유사하게, 인공 메가뉴클레아제(호밍(homing) 엔도뉴클레아제) 및 전사 활성인자-유사 이펙터 (TALE) 뉴클레아제도 HR-매개성 DNA 표적화에 사용하기 위해 개발되어 왔다(Epinat et al., Nucleic Acids Res. 31: 2952-2962; Miller et al., Nat. Biotech. 29:143-148).
크리스퍼(CRISPR; 규칙적으로 사이 간격을 두고 분포하는 짧은 회문구조 반복 서열) DNA 절단 시스템을 암호화하는 유전자좌는 약 40%의 박테리아 게놈과 대부분의 고세균 게놈에서만 발견되어 왔다(Horvath and Barrangou, Science 327:167-170; Karginov and Hannon, Mol . Cell 37:7-19). 특히, II형 CRIPSR 시스템의 크리스퍼-결합(Cas) RNA-유도 엔도뉴클레아제(RGEN)인 Cas9는 HR을 자극하는 부위 특이적 DNA 가닥 절단을 도입하기 위한 수단으로서 개발되어 왔다(2013년 8월 22일 출원된, 미국 가출원 61/868,706호). Cas9의 RNA 성분의 서열은 Cas9가 (i) RNA 성분의 일부에 상보적인 서열 및 (ii) 프로토스페이서 인접 모티프(PAM) 서열을 포함하는 DNA를 인식하고 절단하도록 설계될 수 있다.
천연 RNA/Cas9 복합체는 2개의 RNA 서열, 크리스퍼 RNA(crRNA)와 트랜스-활성화 크리스퍼 RNA(tracrRNA)를 포함한다. crRNA는 5'에서 3' 방향으로, 표적 DNA 부위, 및 crRNA가 유래된 크리스퍼 유전자좌의 반복 영역에 의해 암호화되는 서열의 일부에 상보적인 특유의 서열을 포함한다. tracrRNA는 5'에서 3' 방향으로, crRNA의 반복 영역과 어닐링하는 서열 및 스템 루프(stem loop)를 포함하는 부분을 포함한다. 최근의 연구를 통해 tracrRNA에 연결된 crRNA를 5’에서 3’ 방향으로 포함하는 키메라 서열인 가이드 RNA(gRNA)가 개발되었다(2014년 8월 20일 출원된 미국 특허 출원 14/463,687호).
재조합 DNA 기술은 유기체의 게놈 내 DNA 서열을 변형함으로써 유기체의 표현형을 변경할 수 있도록 하였다. 대장균과 같은 유기체의 게놈 내 변형을 위한 특정 부위를 표적화하기 위해 여러 접근법이 개발되었지만, 대장균 세포의 게놈 내 뉴클레오티드 서열을 편집하기 위한 보다 효율적이고 효과적인 방법이 여전히 필요하다.
본 발명은 대장균 세포의 게놈 내 표적 서열의 게놈 변형을 위한 조성물 및 방법을 포함한다. 상기 방법 및 조성물은 원형 폴리뉴클레오티드 변형 주형과 함께 가이드 RNA/Cas 엔도뉴클레아제 시스템(RGEN으로 지칭되기도 함)을 채용하여 대장균 세포의 게놈 내 표적 부위를 편집하기 위한 효과적인 시스템을 제공한다. 상기 방법 및 조성물은 또한, 원형 공여 DNA와 함께 가이드 RNA/Cas 엔도뉴클레아제 시스템을 채용하여 대장균 세포의 유전자 녹인을 위한 효과적인 시스템을 제공한다.
본 발명의 일 구현예에서, 상기 방법은, 대장균 세포의 게놈 내 뉴클레오티드 서열을 편집하는 방법으로서, 가이드 RNA를 암호화하는 DNA 서열을 포함하는 적어도 하나의 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형을, 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제 DNA 서열을 포함하는 대장균 세포에 제공하는 단계를 포함하되, 상기 Cas9 엔도뉴클레아제 DNA 서열은 상기 대장균 세포의 게놈 내 표적 부위에서 이중 가닥 절단을 도입할 수 있는 Cas9 엔도뉴클레아제를 암호화하고, 상기 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는 방법을 포함한다. 대장균 세포의 게놈 내 뉴클레오티드 서열은 프로모터 서열, 종결자 서열, 조절 요소 서열, 암호화 서열, 프로파지, 위유전자, 외인성 유전자, 내인성 유전자로 이루어진 군으로부터 선택될 수 있다. 가이드 RNA를 암호화하는 DNA 서열을 포함하는 재조합 DNA 작제물은 원형 플라스미드를 통해 제공될 수 있다. 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형은 각각 별개의 플라스미드 상에 제공될 수 있다. 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형은 단일 플라스미드 상에 제공될 수 있다. 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형은 전기천공, 열 충격, 파지 전달, 결합, 접합 및 형질도입으로 이루어진 군으로부터 선택되는 하나의 수단을 통해 제공될 수 있다. 대장균 세포의 게놈 내 표적 부위는 제1 게놈 영역 및 제2 게놈 영역에 의해 플랭킹될 수 있고, 원형 폴리뉴클레오티드 주형은 상기 제1 게놈 영역과 상동인 제1 영역 및 상기 제2 게놈 영역과 상동인 제2 영역을 더 포함한다.
일 구현예에서, 대장균 세포는 외인성 재조합효소 단백질, RecET 단백질, 람다-레드 단백질, 또는 RecBCD 억제제를 발현하지 않는다.
본 발명의 일 구현예에서, 상기 방법은, galK 돌연변이 대장균 세포를 제조하는 방법으로서, a) 가이드 RNA를 암호화하는 DNA 서열을 포함하는 적어도 하나의 원형 재조합 DNA 작제물 및 적어도 하나의 원형 폴리뉴클레오티드 변형 주형을, 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제 DNA 서열을 포함하는 대장균 세포에 제공하는 단계(상기 Cas9 엔도뉴클레아제 DNA 서열은 대장균 게놈의 galK 게놈 서열 내 표적 부위에서 이중 가닥 절단을 도입할 수 있는 Cas 엔도뉴클레아제를 암호화하고, 상기 원형 폴리뉴클레오티드 변형 주형은 상기 galK 게놈 서열의 적어도 하나의 뉴클레오티드 변형을 포함함); b) (a)의 대장균 세포로부터 자손 세포를 성장시키는 단계; 및 c) 상기 적어도 하나의 뉴클레오티드 변형의 존재에 대해 (b)의 자손 세포를 평가하는 단계를 포함하는 방법을 포함한다.
본 발명의 일 구현예에서, 상기 방법은, 대장균 세포의 게놈 내 뉴클레오티드 서열을 편집하는 방법으로서, 적어도, 가이드 RNA를 암호화하는 DNA 서열을 포함하는 제1 재조합 DNA 작제물, 원형 폴리뉴클레오티드 변형 주형, 및 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제를 암호화하는 DNA 서열을 포함하는 제2 재조합 DNA 작제물을, 대장균 세포에 제공하는 단계를 포함하되, Cas9 엔도뉴클레아제는 상기 대장균 세포의 게놈 내 표적 부위에서 이중 가닥 절단을 도입하고, 상기 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는 방법을 포함한다. 제1 재조합 DNA 작제물, 제2 재조합 DNA 작제물, 및 원형 폴리뉴클레오티드 변형 주형은 각각 별개의 플라스미드 상에 제공될 수 있다. 제1 재조합 DNA 작제물, 제2 재조합 DNA 작제물, 및 원형 폴리뉴클레오티드 변형 주형은 단일 플라스미드 상에 제공될 수 있다.
도 1. Cas9 플라스미드를 포함하는 대장균 세포에서 천연 표적의 유전자 편집을 위한 폴리뉴클레오티드 변형 주형을 포함하는 원형 플라스미드(주형 플라스미드)의 이용. 개략도는 (대장균 표적 게놈 내에 위치하는) 편집될 천연 표적을 포함하는 대장균 세포 및 유도성 프로모터(예를 들어, Pbad)에 의해 유도된 Cas9 발현 카세트를 포함하는 Cas9 플라스미드를 도시한다. 2개의 상동 영역(상동 재조합을 가능케 하는 HR1 및 HR2)에 의해 플랭킹된 천연 표적 서열(검은색 막대로 표시)에 원하는 편집(흰색 별표로 표시)을 포함하는 폴리뉴클레오티드 변형 주형이, 가이드 RNA(gRNA)를 발현할 수 있는 가이드 RNA 발현 카세트를 포함하는 가이드 RNA 플라스미드와 함께 주형 플라스미드를 통해, (Cas9 엔도뉴클레아제 발현이 유도된) 대장균 세포에 제공된다. 유도된 대장균 세포는 Cas9 엔도뉴클레아제를 발현할 수 있고, 상동 재조합 매개 유전자 편집을 가능케 하는 천연 표적 서열의 절단을 매개할 수 있는 가이드 RNA/Cas9 엔도뉴클레아제 복합체(RGEN으로 지칭되기도 함)를 형성한다.
도 2. Cas9 플라스미드가 결여된 대장균 세포에서 천연 표적의 유전자 편집을 위한 폴리뉴클레오티드 변형 주형을 포함하는 원형 플라스미드(주형 플라스미드)의 이용. 개략도는 (대장균 표적 게놈에 위치한) 편집될 천연 표적 서열을 포함하는 대장균 세포를 도시한다. 2개의 상동 영역(상동 재조합을 가능케 하는 HR1 및 HR2)에 의해 플랭킹된 천연 표적 서열(검은색 막대로 표시)에 원하는 편집(흰색 별표로 표시)을 포함하는 폴리뉴클레오티드 변형 주형이, 가이드 RNA 플라스미드(가이드 RNA 발현 카세트를 포함) 및 Cas9 플라스미드(Pbad에 의해 유도된 유도성 Cas9 발현 카세트를 포함)와 함께 주형 플라스미드를 통해 대장균 세포에 제공된다. 대장균 세포가 일단 유도되면, 유도된 세포는 Cas9 엔도뉴클레아제를 발현할 수 있고, 상동 재조합 매개 유전자 편집을 가능케 하는 천연 표적 서열의 절단을 매개할 수 있는 가이드 RNA/Cas9 엔도뉴클레아제 복합체(RGEN으로 지칭되기도 함)를 형성한다.
도 3은 가변 표적화 도메인(VT)(회색)에 연결된 Cas 엔도뉴클레아제 인식 도메인(CER)(검은색)을 포함하는 단일 가이드 폴리뉴클레오티드를 나타낸다.
도 4는 아라비노오스로 유도되기 전후의 대장균 세포에서 pRF48로부터의 Cas9 발현의 SDS-PAGE 겔을 나타낸다. 마커 중량은 킬로달톤(kDa)으로 표시된다. 겔에서 Cas9에 해당하는 밴드가 표시된다(Cas9).
도 5는 대장균의 galK 유전자(검은색)를 도시한다. galK 내 4개의 천연 표적 부위는 표적 부위명이 적힌 화살표로 표시되어 있고, 화살표의 방향은 표적 DNA의 정방향 또는 역방향 가닥을 나타낸다.
도 6은 가이드 RNA/Cas9 엔도뉴클레아제 복합체(RGEN)로 유전자 편집한 후 갈락토스 저항성 대장균의 galK 유전자좌의 콜로니 PCR로부터 DNA의 아가로오스 겔을 나타낸다. 각각의 레인은 개별 갈락토스 저항성 콜로니에 해당한다. 마커 중량은 킬로베이스(kb)로 주어진다. 원하는 편집(결실)의 크기는 밴드 다음에 표시된다. 편집되지 않은 대립 유전자의 크기도 표시되어 있다(WT). WT 및 편집된 대립 유전자를 각각 나타내도록 두 가지 대조 반응(WT 및 pRF113)이 겔 상에서 수행된다.
[표 1]
핵산 및 단백질 서열 번호의 요약
도 2. Cas9 플라스미드가 결여된 대장균 세포에서 천연 표적의 유전자 편집을 위한 폴리뉴클레오티드 변형 주형을 포함하는 원형 플라스미드(주형 플라스미드)의 이용. 개략도는 (대장균 표적 게놈에 위치한) 편집될 천연 표적 서열을 포함하는 대장균 세포를 도시한다. 2개의 상동 영역(상동 재조합을 가능케 하는 HR1 및 HR2)에 의해 플랭킹된 천연 표적 서열(검은색 막대로 표시)에 원하는 편집(흰색 별표로 표시)을 포함하는 폴리뉴클레오티드 변형 주형이, 가이드 RNA 플라스미드(가이드 RNA 발현 카세트를 포함) 및 Cas9 플라스미드(Pbad에 의해 유도된 유도성 Cas9 발현 카세트를 포함)와 함께 주형 플라스미드를 통해 대장균 세포에 제공된다. 대장균 세포가 일단 유도되면, 유도된 세포는 Cas9 엔도뉴클레아제를 발현할 수 있고, 상동 재조합 매개 유전자 편집을 가능케 하는 천연 표적 서열의 절단을 매개할 수 있는 가이드 RNA/Cas9 엔도뉴클레아제 복합체(RGEN으로 지칭되기도 함)를 형성한다.
도 3은 가변 표적화 도메인(VT)(회색)에 연결된 Cas 엔도뉴클레아제 인식 도메인(CER)(검은색)을 포함하는 단일 가이드 폴리뉴클레오티드를 나타낸다.
도 4는 아라비노오스로 유도되기 전후의 대장균 세포에서 pRF48로부터의 Cas9 발현의 SDS-PAGE 겔을 나타낸다. 마커 중량은 킬로달톤(kDa)으로 표시된다. 겔에서 Cas9에 해당하는 밴드가 표시된다(Cas9).
도 5는 대장균의 galK 유전자(검은색)를 도시한다. galK 내 4개의 천연 표적 부위는 표적 부위명이 적힌 화살표로 표시되어 있고, 화살표의 방향은 표적 DNA의 정방향 또는 역방향 가닥을 나타낸다.
도 6은 가이드 RNA/Cas9 엔도뉴클레아제 복합체(RGEN)로 유전자 편집한 후 갈락토스 저항성 대장균의 galK 유전자좌의 콜로니 PCR로부터 DNA의 아가로오스 겔을 나타낸다. 각각의 레인은 개별 갈락토스 저항성 콜로니에 해당한다. 마커 중량은 킬로베이스(kb)로 주어진다. 원하는 편집(결실)의 크기는 밴드 다음에 표시된다. 편집되지 않은 대립 유전자의 크기도 표시되어 있다(WT). WT 및 편집된 대립 유전자를 각각 나타내도록 두 가지 대조 반응(WT 및 pRF113)이 겔 상에서 수행된다.
[표 1]
핵산 및 단백질 서열 번호의 요약
모든 인용된 특허 및 비 특허 문헌의 개시 내용은 그 전체가 참조로써 본원에 포함된다.
본원에 사용된 용어 "발명" 또는 "개시된 발명"은 제한적인 것으로 의도된 것이 아니며, 청구범위에서 정의되거나 본원에 기재된 발명들 중 임의의 것에 일반적으로 적용된다. 이들 용어는 본원에서 상호교환적으로 사용된다.
대장균 세포의 게놈 내 표적 서열의 게놈 변형을 위한 조성물 및 방법이 제공된다. 상기 방법 및 조성물은 원형 폴리뉴클레오티드 변형 주형과 함께 가이드 RNA/Cas 엔도뉴클레아제 시스템을 채용하여 대장균 세포의 게놈 내 표적 부위를 편집하기 위한 효과적인 시스템을 제공한다.
Cas9 플라스미드를 포함하는 대장균 세포에서 천연 표적의 유전자 편집을 위한 폴리뉴클레오티드 변형 주형을 포함하는 원형 플라스미드(주형 플라스미드)의 이용이 도 1에 도시되어 있고 본원에 기재되어 있다. 개략도는 (대장균 표적 게놈 내에 위치하는) 편집될 천연 표적을 포함하는 대장균 세포 및 유도성 프로모터(예를 들어, Pbad)에 의해 유도된 Cas9 발현 카세트를 포함하는 Cas9 플라스미드를 도시한다. 2개의 상동 영역(상동 재조합을 가능케 하는 HR1 및 HR2)에 의해 플랭킹된 천연 표적 서열(검은색 막대로 표시)에 원하는 편집(흰색 별표로 표시)을 포함하는 폴리뉴클레오티드 변형 주형이, 가이드 RNA(gRNA)를 발현할 수 있는 가이드 RNA 발현 카세트를 포함하는 가이드 RNA 플라스미드와 함께 주형 플라스미드를 통해, (Cas9 엔도뉴클레아제 발현이 유도된) 대장균 세포에 제공된다. 유도된 대장균 세포는 Cas9 엔도뉴클레아제를 발현할 수 있고, 상동 재조합 매개 유전자 편집을 가능케 하는 천연 표적 서열의 절단을 매개할 수 있는 가이드 RNA/Cas9 엔도뉴클레아제 복합체(RGEN으로 지칭되기도 함)를 형성한다.
Cas9 플라스미드가 결여된 대장균 세포에서 천연 표적의 유전자 편집을 위한 폴리뉴클레오티드 변형 주형을 포함하는 원형 플라스미드(주형 플라스미드)의 이용이 도 2에 도시되어 있고 본원에 기재되어 있다. 개략도는 (대장균 표적 게놈에 위치한) 편집될 천연 표적 서열을 포함하는 대장균 세포를 도시한다. 2개의 상동 영역(상동 재조합을 가능케 하는 HR1 및 HR2)에 의해 플랭킹된 천연 표적 서열(검은색 막대로 표시)에 원하는 편집(흰색 별표로 표시)을 포함하는 폴리뉴클레오티드 변형 주형이, 가이드 RNA 플라스미드(가이드 RNA 발현 카세트를 포함) 및 Cas9 플라스미드(Pbad에 의해 유도된 유도성 Cas9 발현 카세트를 포함)와 함께 주형 플라스미드를 통해 대장균 세포에 제공된다. 대장균 세포가 일단 유도되면, 유도된 세포는 Cas9 엔도뉴클레아제를 발현할 수 있고, 상동 재조합 매개 유전자 편집을 가능케 하는 천연 표적 서열의 절단을 매개할 수 있는 가이드 RNA/Cas9 엔도뉴클레아제 복합체(RGEN으로 지칭되기도 함)를 형성한다.
관심 있는 폴리뉴클레오티드를 포함하는 공여 DNA를 포함하는 원형 플라스미드 또한 본원에 기재된 유전자 녹인 대장균에 사용될 수 있다.
용어 "크리스퍼"(규칙적으로 사이 간격을 두고 분포하는 짧은 회문구조 반복 서열)는, 예를 들어, 박테리아 및 고세균 세포에 의해 외래 DNA를 파괴하는데 사용되는 유형 I, II 또는 III의 DNA 절단 시스템의 인자를 암호화하는 특정 유전자좌를 지칭한다(Horvath 및 Barrangou, Science 327:167-170). 크리스퍼 시스템의 성분들은 본원에서 세포 내에서 DNA를 표적화하기 위해 이종의 방식으로 이용된다.
용어 "II형 크리스퍼 시스템" 및 "II형 크리스퍼-Cas 시스템"은 본원에서 상호교환적으로 사용되며, 적어도 하나의 RNA 성분과 복합체를 이룬 Cas9 엔도뉴클레아제를 이용하는 DNA 절단 시스템을 지칭한다. 예를 들어, Cas9는 크리스퍼 RNA (crRNA) 및 트랜스-활성화 크리스퍼 RNA(tracrRNA)와 복합체일 수 있다. 또 다른 예에서, Cas9는 가이드 RNA와 복합체일 수 있다. 따라서, crRNA, tracrRNA 및 가이드 RNA는 본원에서 RNA 성분들의 비제한적인 예이다.
본원에서 용어 크리스퍼-결합("Cas") 엔도뉴클레아제는 Cas 유전자에 의해 암호화되는 Cas 단백질을 지칭한다. 적합한 RNA 성분과 복합체인 경우, Cas 엔도뉴클레아제는 특정 DNA 표적 서열의 전부 또는 일부를 절단할 수 있다. 예를 들어, 특정 DNA 표적 서열에 이중 가닥 절단을 도입할 수 있거나; 대안적으로 특정 DNA 표적 서열의 한 가닥 또는 두 가닥을 절단할 수 있는 것을 특징으로 할 수 있다. Cas 엔도뉴클레아제는 표적 서열에서 DNA 이중 가닥을 풀 수 있고, Cas와 복합체인 crRNA 또는 가이드 RNA에 의한 표적 서열의 인식에 의해 매개되는 바와 같이, 적어도 하나의 DNA 가닥을 절단한다. 일반적으로 Cas 엔도뉴클레아제에 의한 이러한 표적 서열의 인식 및 절단은 정확한 프로토스페이서-인접 모티프(PAM)가 DNA 표적 서열의 3' 말단에 위치하거나 인접한 경우 발생한다. 대안적으로, 본원에서 Cas 단백질은 DNA 절단 또는 닉킹(nicking) 활성이 부족할 수 있지만, 적합한 RNA 성분과 복합체를 형성한 경우 여전히 DNA 표적 서열에 특이적으로 결합할 수 있다. 본원에서 바람직한 Cas 단백질은 Cas9이다.
본원에서 "Cas9" (이전에 Cas5, Csn1 또는 Csx12로 지칭됨)는 DNA 표적 서열의 전부 또는 일부를 특이적으로 인식하고 절단하기 위해, crRNA 및 tracrRNA와, 또는 가이드 RNA와 복합체를 형성하는 II형 크리스퍼 시스템의 Cas 엔도뉴클레아제를 지칭한다. Cas9 단백질은 RuvC 뉴클레아제 도메인 및 HNH(H-N-H) 뉴클레아제 도메인을 포함하며, 이들 각각은 표적 서열에서 단일 DNA 가닥을 절단한다 (두 도메인의 협동 작용은 DNA 이중 가닥 절단을 유도하는 반면, 하나의 도메인의 활성은 닉(nick)을 유도한다). 일반적으로, RuvC 도메인은 서브도메인 I, II 및 III을 포함하며, 여기서 도메인 I은 Cas9의 N 말단 근처에 위치하고, 서브도메인 II 및 III은 HNH 도메인에 플랭킹한 단백질의 중간에 위치한다(Hsu et al, Cell 157:1262-1278). "Apo-Cas9"는 RNA 성분과 복합체가 형성되지 않은 Cas9를 지칭한다. Apo-Cas9는 DNA와 결합할 수 있지만, 비 특이적 방식으로 결합하여, DNA를 절단할 수 없다(Sternberg et al., Nature 507:62-67).
본원에서 용어 "크리스퍼 RNA"(crRNA)는 하나 이상의 Cas 단백질(예를 들어, Cas9)과 복합체를 형성할 수 있어, 복합체에 DNA 결합 특이성을 제공하는 RNA 서열을 지칭한다. crRNA는 DNA 표적 서열의 가닥에 상보적인 "가변 표적화 도메인"(VT)을 포함하기 때문에 DNA 결합 특이성을 제공하다. crRNA는 crRNA가 유래된 크리스퍼 유전자좌의 반복 영역에 의해 암호화되는 "반복 서열" ("tracr RNA 메이트 서열")을 추가로 포함한다. crRNA의 반복 서열은 tracrRNA의 5'-말단에서 서열에 어닐링할 수 있다. 천연 크리스퍼 시스템의 crRNA는 크리스퍼 유전자좌로부터 전사된 "예비-crRNA"로부터 유래된다. 예비-crRNA는 스페이서 영역과 반복 영역을 포함하고, 스페이서 영역은 DNA 표적 부위 서열에 상보적인 특유의 서열을 포함한다. 천연 시스템의 예비-crRNA는 다수의 상이한 crRNA로 가공되며, 각각은 반복 서열의 일부와 함께 가이드 서열을 갖는다. 크리스퍼 시스템은, 예를 들어, DNA 표적화 특이성을 위해 crRNA를 이용한다.
본원에서 용어 "트랜스-활성화 크리스퍼 RNA"(tracrRNA)는 II형 크리스퍼 시스템에서 사용되는 비 암호화 RNA를 지칭하며, 5'에서 3' 방향으로 (i) 크리스퍼 II형 crRNA의 반복 영역과 어닐링하는 서열 및 (ii) 스템 루프를 포함하는 부분을 포함한다(Deltcheva et al., Nature 471:602-607).
RNA 성분 대신 "크리스퍼 DNA"(crDNA)가 선택적으로 이용될 수 있다. crDNA는 본원에 개시된 바와 같이 crRNA의 서열에 상응하는 DNA 서열을 갖는다. crDNA는 crDNA/tracrRNA 복합체에서 tracrRNA와 함께 이용될 수 있으며, crDNA/tracrRNA 복합체는 결국 RGEN 단백질 성분과 결합될 수 있다. 미국 출원 61/953,090호는 crDNA 및 RGEN 매개성 DNA 표적화에 있어서 이의 이용 방법을 개시하고 있다. 따라서, crRNA에 관한 본원에서의 임의의 개시 내용은 crDNA를 이용하는 것에 유사하게 적용할 수 있다고 예상된다. 따라서, crDNA를 포함시키는 본원의 구현예에서, "RNA-유도 엔도뉴클레아제"(RGEN)는 그 대신에 적어도 하나의 Cas 단백질 및 적어도 하나의 crDNA를 포함하는 복합체로 지칭될 수 있다.
본원에 사용된 용어 "가이드 폴리뉴클레오티드"는 Cas 엔도뉴클레아제와 복합체를 형성할 수 있고, 이러한 Cas 엔도뉴클레아제가 DNA 표적 부위를 인식하고 선택적으로 절단할 수 있게 하는 폴리뉴클레오티드 서열에 관한 것이다. 가이드 폴리뉴클레오티드는 단일 분자 또는 이중 분자일 수 있다. 가이드 폴리뉴클레오티드 서열은 RNA 서열, DNA 서열, 또는 이의 조합(RNA-DNA 조합 서열)일 수 있다. 선택적으로, 이러한 가이드 폴리뉴클레오티드는 적어도 하나의 뉴클레오티드, 포스포디에스테르 결합 또는 연결 변형, 예컨대 고정 핵산(LNA), 5-메틸 dC, 2,6-디아미노퓨린, 2'-플루오로 A, 2'-플루오로 U, 2'-O-메틸 RNA, 포스포로티오에이트 결합, 콜레스테롤 분자에 대한 연결, 폴리에틸렌 글리콜 분자에 대한 연결, 스페이서 18(헥사에틸렌 글리콜 사슬) 분자에 대한 연결, 또는 고리화를 초래하는 5'에서 3'으로의 공유 연결을 포함할 수 있으나, 이에 한정되지 않는다.
단독으로 리보핵산을 포함하는 가이드 폴리뉴클레오티드는 "가이드 RNA"라고도 지칭된다. 가이드 RNA는 가이드 RNA/Cas 엔도뉴클레아제 복합체로 불리는(RGEN으로 지칭되기도 함) Cas 엔도뉴클레아제와의 복합체를 형성할 수 있다. 용어 "가이드 RNA"(gRNA) 및 "단일 가이드 RNA"(sgRNA)는 본원에서 상호교환적으로 사용된다. 본원에서 gRNA는 tracrRNA에 작동 가능하게 연결된 crRNA를 함유한 키메라 서열을 지칭할 수 있다. 대안적으로, gRNA는, 예를 들어 crRNA와 tracrRNA의 합성 융합체를 지칭할 수 있다. gRNA는 또한 가변 표적화 도메인 다음에 Cas 엔도뉴클레아제 인식(CER) 도메인을 갖는 것을 특징으로 할 수 있다. CER 도메인은 tracrRNA 메이트 서열 다음에 tracrRNA 서열을 포함할 수 있다.
가이드 폴리뉴클레오티드는 표적 DNA의 뉴클레오티드 서열에 상보적인 (가변 표적화 도메인 또는 VT 도메인으로 지칭되는) 제1 뉴클레오티드 서열 도메인 및 Cas 엔도뉴클레아제 폴리펩티드와 상호 작용하는 (Cas 엔도뉴클레아제 인식 도메인 또는 CER 도메인으로 지칭되는) 제2 뉴클레오티드 서열 도메인을 포함하는 (이중 가이드 폴리뉴클레오티드라 지칭되기도 하는) 이중 분자일 수 있다. 이중 분자 가이드 폴리뉴클레오티드의 CER 도메인은 상보성 영역을 따라 혼성화된 두 개의 별개의 분자들을 포함한다. 이러한 두 개의 별개의 분자들은 RNA, DNA, 및/또는 RNA-DNA- 조합 서열일 수 있다. 일부 구현예에서, CER 도메인에 연결된 VT 도메인을 포함하는 이중 가이드 폴리뉴클레오티드의 제1 분자("cr뉴클레오티드")는 (연속된 DNA 뉴클레오티드들로 구성되는 경우) "crDNA" 또는 (연속된 RNA 뉴클레오티드들로 구성되는 경우) "crRNA", 또는 (DNA와 RNA 뉴클레오티드의 조합으로 구성되는 경우) "crDNA-RNA"라 지칭된다. 일부 구현예에서, CER 도메인을 포함하는 이중 가이드 폴리뉴클레오티드의 제2 분자는 (연속된 RNA 뉴클레오티드들로 구성되는 경우) "tracrRNA" 또는 (연속된 DNA 뉴클레오티드들로 구성되는 경우) "tracrDNA" 또는 (DNA와 RNA 뉴클레오티드의 조합으로 구성되는 경우) "tracrDNA-RNA"라 지칭된다.
또한, 이러한 가이드 폴리뉴클레오티드는 표적 DNA의 뉴클레오티드 서열에 상보적인 제1 뉴클레오티드 서열 도메인(가변 표적화 도메인 또는 VT 도메인으로 지칭됨, 도 3) 및 Cas 엔도뉴클레아제 폴리펩티드와 상호 작용하는 제2 뉴클레오티드 도메인(Cas 엔도뉴클레아제 인식 도메인 또는 CER 도메인으로 지칭됨, 도 3)을 포함하는 단일 분자일 수 있다. "도메인"은 RNA, DNA, 및/또는 RNA-DAN-조합 서열일 수 있는 뉴클레오티드들이 연속되어 있는 것을 의미한다. 단일 가이드 폴리뉴클레오티드의 VT 도메인 및/또는 CER 도메인은 RNA 서열, DNA 서열, 또는 RNA-DNA-조합 서열을 포함할 수 있다. 일부 구현예에서, 이러한 단일 가이드 폴리뉴클레오티드는 (CER 도메인을 포함하는) tracr뉴클레오티드에 연결된 (CER 도메인에 연결된 VT 도메인을 포함하는) cr뉴클레오티드를 포함하며, 이때, 이러한 연결은 RNA 서열, DNA 서열, 또는 RNA-DNA 조합 서열을 포함하는 뉴클레오티드 서열이다. cr뉴클레오티드 및 tracr뉴클레오티드로부터의 서열들로 구성되는 단일 가이드 폴리뉴클레오티드는 (연속된 RNA 뉴클레오티드들로 구성되는 경우) "단일 가이드 RNA" 또는 (연속된 DNA 뉴클레오티드들로 구성되는 경우) "단일 가이드 DNA" 또는 (RNA와 DNA 뉴클레오티드의 조합으로 구성되는 경우) "단일 가이드 RNA-DNA"라 지칭될 수 있다.
따라서, 특정 구현예에서 가이드 폴리뉴클레오티드와 II형 Cas 엔도뉴클레아제는 서로 복합체("가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체" 라 지칭되거나 "가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템"이라고도 지칭됨)를 형성할 수 있는데, 이때, 이러한 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 Cas 엔도뉴클레아제가 세포(예컨대, 식물 세포)의 게놈 표적 부위를 표적화하도록 유도할 수 있으며, 선택적으로 Cas 엔도뉴클레아제가 게놈 표적 부위 내로 단일 가닥 절단 또는 이중 가닥 절단을 도입할 수 있게 할 수 있다. 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 적어도 하나의 CPP에 연결될 수 있는데, 이때, 이러한 복합체는 세포(예컨대, 식물 세포)의 표적 부위와 결합할 수 있고, 선택적으로 세포(예컨대, 식물 세포)의 표적 부위에 단일 가닥 절단 또는 이중 가닥 절단을 생성할 수 있다.
용어 "가변 표적화 도메인" 또는 "VT 도메인"은 본원에서 상호교환적으로 사용되며, 이중 가닥 DNA 표적 부위의 한 가닥(뉴클레오티드 서열)에 상보적인 뉴클레오티드 서열을 지칭한다. 제1 뉴클레오티드 서열 도메인(VT 도메인)과 표적 서열 사이의 백분율 보완성은 적어도 50%, 51%, 52%, 53%, 54%, 55%, 56%, 57%, 58%, 59%, 60%, 61%, 62%, 63%, 63%, 65%, 66%, 67%, 68%, 69%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%일 수 있다. 가변 표적 도메인의 길이는 적어도 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개 또는 30개 뉴클레오티드 길이일 수 있다. 일부 구현예에서, 이러한 가변 표적화 도메인은 연속된 12개 내지 30개의 뉴클레오티드를 포함한다. 가변 표적화 도메인은 DNA 서열, RNA 서열, 변형된 DNA 서열, 변형된 RNA 서열(예컨대, 본원에 기술된 변형 참조), 또는 이의 임의의 조합으로 구성될 수 있다.
용어 가이드 폴리뉴클레오티드의 "Cas 엔도뉴클레아제 인식 도메인" 또는 "CER 도메인"은 본원에서 상호교환적으로 사용되며, Cas 엔도뉴클레아제 폴리펩티드와 상호작용하는 뉴클레오티드 서열(예컨대, 가이드 폴리뉴클레오티드의 제2 뉴클레오티드 서열 도메인)에 관한 것이다. CER 도메인은 DNA 서열, RNA 서열, 변형된 DNA 서열, 변형된 RNA 서열(예컨대, 본원에 기술된 변형 참조), 또는 이의 임의의 조합으로 구성될 수 있다.
용어 "RNA-유도 엔도뉴클레아제", "RGEN", "가이드 RNA/Cas 엔도뉴클레아제 복합체", "가이드 RNA/Cas 엔도뉴클레아제 시스템"은 본원에서 상호교환적으로 사용될 수 있으며, 적어도 하나의 크리스퍼 (규칙적으로 사이 간격을 두고 분포하는 짧은 회문구조 반복 서열)-결합(Cas) 단백질 및 적어도 하나의 RNA 성분을 포함하는 복합체를 지칭한다. 용어 "RGEN의 단백질 성분"과 "RGEN 단백질 성분"은 본원에서 상호교환적으로 사용되며, RGEN의 엔도뉴클레아제 성분이거나 이의 일부분을 형성하는 Cas 단백질을 지칭한다. 특정 구현예에서 단백질 성분은 완전한 엔도뉴클레아제(예컨대, Cas9)일 수 있다. 이러한 단백질 성분은 대안적으로 RGEN의 "엔도뉴클레아제 성분"이라 지칭될 수 있다. 본원에서 RGEN은 일반적으로, 적어도 하나의 RNA 성분과의 결합을 고려할 때 특이적인 DNA 표적화 활성을 가진다.
본원에서 용어 "RNA 성분"은 DNA 표적 서열의 가닥에 상보적인 리보핵산 서열을 포함하는 RGEN의 RNA 성분을 지칭한다. 본원에서 이러한 상보적인 서열은 "가이드 서열" 또는 "가변 표적화 도메인" 서열로 지칭된다(도 3). 본원에서 적합한 RNA 성분의 예는 cRNA 및 가이드 RNA를 포함한다. 특정 구현예에서의 RNA 성분들(예컨대, 가이드 RNA 단독, crRNA + tracrRNA)은 RGEN을 특이적인 DNA 표적화에 적합하게 만들 수 있다.
간략하게, RGEN의 RNA 성분은 표적 부위 서열의 DNA 서열에 상보적인 서열을 포함한다. 이러한 상보성에 기초하여, RGEN은 특정 DNA 표적 부위 서열을 특이적으로 인식하여 절단할 수 있다. 본원에서 RGEN은 4개의 알려진 크리스퍼 시스템(Horvath 및 Barrangou, Science 327:167-170), 예컨대 I형, II형 또는 III형 크리스퍼 시스템 중 어느 하나의 Cas 단백질(들) 및 적합한 RNA 성분(들)을 포함할 수 있다. 바람직한 구현예의 RGEN은 Cas9 엔도뉴클레아제(크리스퍼 II 시스템) 및 적어도 하나의 RNA 성분(예를 들어, crRNA 및 tracrRNA, 또는 gRNA)을 포함한다.
RGEN 단백질 성분은 Cas 단백질, 예컨대, Cas9를 지칭할 수 있다. 적합한 Cas 단백질의 예에는 유형 I, II 또는 III 크리스퍼 시스템 중 하나 이상의 Cas 엔도뉴클레아제가 포함된다(본원에 참조로 포함되는 Bhaya et al., Annu . Rev. Genet. 45:273-297). I형 크리스퍼 Cas 단백질은, 예를 들어 Cas3 또는 Cas4 단백질일 수 있다. II형 크리스퍼 Cas 단백질은, 예를 들어 Cas9 단백질일 수 있다. III형 크리스퍼 Cas 단백질은, 예를 들어 Cas10 단백질일 수 있다. Cas9 단백질이 바람직한 특정 구현예에서 사용된다. 특정 구현예에서, Cas 단백질은 박테리아 또는 고세균 단백질일 수 있다. 본원에서 I형 내지 III형 크리스퍼 Cas 단백질은 일반적으로 원핵생물 기원이며, 예를 들어, I형 및 III형 Cas 단백질은 박테리아 또는 고세균 종으로부터 유래될 수 있는 반면, II형 Cas 단백질(즉, Cas9)은 박테리아 종으로부터 유래될 수 있다. 다른 구현예에서, 적합한 Cas 단백질은 Cas1, Cas1B, Cas2, Cas3, Cas4, Cas5, Cas6, Cas7, Cas8, Cas9, Cas10, Csy1, Csy2, Csy3, Cse1, Cse2, Csc1, Csc2, Csa5, Csn2, Csm2, Csm3, Csm4, Csm5, Csm6, Cmr1, Cmr3, Cmr4, Cmr5, Cmr6, Csb1, Csb2, Csb3, Csx17, Csx14, Csx10, Csx16, CsaX, Csx3, Csx1, Csx15, Csf1, Csf2, Csf3, Csf4, 이의 상동체, 또는 변형된 버전 중 하나 이상을 포함한다.
개시된 발명의 다른 양태에서, 본원의 Cas 단백질은 다음의 속 중 임의의 것으로부터 유래할 수 있다: 아에로피룸(Aeropyrum), 피로바쿨룸(Pyrobaculum), 술폴로부스(Sulfolobus), 아캐오글로부스(Archaeoglobus), 할로아르쿨라(Haloarcula), 메타노박테리움(Methanobacteriumn), 메타노코커스(Methanococcus), 메타노사르시나(Methanosarcina), 메타노피러스(Methanopyrus), 피로코커스(Pyrococcus), 피크로필러스(Picrophilus), 써니오플라스니아(Thernioplasnia), 코리네박테리움(Corynebacterium), 마이코박테리움(Mycobacterium), 스트렙토마이세스(Streptomyces), 아퀴펙스(Aquifex), 포르피로모나스(Porphyromonas), 클로로비움(Chlorobium), 써머스(Thermus), 바실러스(Bacillus), 리스테리아(Listeria), 스타필로코커스(Staphylococcus), 클로스트리디움(Clostridium), 써모아나에로박터(Thermoanaerobacter), 마이코플라스마(Mycoplasma), 푸소박테리움(Fusobacterium), 아자쿠스(Azarcus), 크로모박테리움(Chromobacterium), 네이세리아(Neisseria), 니트로소모나스(Nitrosomonas), 디설포비브리오(Desulfovibrio), 게오박터(Geobacter), 미로코커스(Myrococcus), 캄필로박터(Campylobacter), 볼리넬라(Wolinella), 아시네토박터(Acinetobacter), 에르위니아(Erwinia), 에스케리챠(Escherichia), 레지오넬라(Legionella), 메틸로코커스(Methylococcus), 파스퇴렐라(Pasteurella), 포토박테리움(Photobacterium), 살모넬라(Salmonella), 잔토모나스(Xanthomonas), 예시니아(Yersinia), 스트렙토코커스(Streptococcus), 트레포네마(Treponema), 프란시셀라(Francisella) 또는 써모토가(Thermotoga). 대안적으로, 본원의 Cas 단백질은, 예를 들어, 본원에 참조로 포함되는 미국 특허 출원 공개 2010/0093617호에 개시된 바와 같이, 서열 번호 462 내지 465, 467 내지 472, 474 내지 477, 479 내지 487, 489 내지 492, 494 내지 497, 499 내지 503, 505 내지 508, 510 내지 516 또는 517 내지 521 중 임의의 것에 의해 암호화될 수 있다.
RGEN 단백질 성분은 예를 들어 Cas9 아미노산 서열을 포함할 수 있다. 이러한 유형의 단백질 성분을 포함하는 RGEN은 일반적으로 RGEN의 엔도뉴클레아제 성분으로서 Cas9를 갖는 것을 특징으로 할 수 있다. 본원의 Cas9 단백질뿐만 아니라 본원의 기타 특정 Cas 단백질의 아미노산 서열은 예를 들어, 스트렙토코커스(예를 들어, S. 피오제네스(pyogenes), S. 뉴모니애(pneumoniae), S. 써모필러스(thermophilus), S. 아갈락티아(agalactiae), S. 파라상귀니스(parasanguinis), S. 오랄리스(oralis), S. 살리바리우스(salivarius), S. 마카카(macacae), S. 디스갈락티애(dysgalactiae), S. 안지노서스(anginosus), S. 콘스텔라투스(constellatus), S. 슈도포르시누스(pseudoporcinus), S. 뮤탄스(mutans)), 리스테리아(예를 들어, L. 인노쿠아(innocua)), 스피로플라즈마(Spiroplasma) (예를 들어, S. 아피스(apis), S. 시르피디콜라(syrphidicola)), 펩토스트렙토코카세(Peptostreptococcaceae), 아토포비움(Atopobium), 포르피로모나스(Porphyromonas) (예를 들어, P. 카토니아(catoniae)), 프레보텔라(Prevotella) (예를 들어, P. 인테르메디아(intermedia)), 베일로넬라(Veillonella), 트레포네마(Treponema)(예를 들어, T. 소크란스키(socranskii), T. 덴티콜라(denticola)), 카프노사이토파가(Capnocytophaga), 피네골디아(Finegoldia)(예를 들어, F. 마그나(magna)), 코리오박테리아세아에(Coriobacteriaceae)(예를 들어, C. 박테리움(bacterium)), 올스넬라(Olsenella)(예를 들어, O. 프로푸사(profusa)), 헤모필루스(Haemophilus)(예를 들어, H. 스푸토룸(sputorum), H. 피트마니아에(pittmaniae)), 파스퇴렐라(Pasteurella)(예를 들어, P. 베티아에(bettyae)), 올리비박터(Olivibacter)(예를 들어, O. 시티엔시스(sitiensis)), 에필리토니모나스(Epilithonimonas)(예를 들어, E. 테낙스(tenax)), 메소니아(Mesonia)(예를 들어, M. 모빌리스(mobilis)), 락토바실루스(Lactobacillus), 바실루스(예를 들어, B. 세레우스(cereus)), 아퀴마리나(Aquimarina)(예를 들어, A. 무엘레리(muelleri)), 크리세오박테리움(Chryseobacterium)(예를 들어, C. 파루스트레(palustre)), 박테로이데스(Bacteroides)(예를 들어, B. 그라미니솔벤스(graminisolvens)), 네이세리아(예를 들어, N. 메닝기티디스(meningitidis)), 프란시셀라(Francisella)(예를 들어, F. 노비시다(novicida)) 또는 플라보박테리움(Flavobacterium)(예를 들어, F. 프리기다리움(frigidarium), F. 솔리(soli)) 종으로부터 유래될 수 있다. 본원의 특정 양태에서 S. 피오제네스 Cas9가 바람직하다. 또 다른 예로서, Cas9 단백질은 본원에 참조로 포함되는 Chylinski et al. (RNA Biology 10:726-737)에 개시된 Cas9 단백질 중 임의의 것일 수 있다.
따라서, 본원의 Cas9 단백질의 서열은, 예를 들어, 참조로 포함되는 진뱅크(GenBank) 등록번호 G3ECR1 (S. 써모필러스), WP_026709422, WP_027202655, WP_027318179, WP_027347504, WP_027376815, WP_027414302, WP_027821588, WP_027886314, WP_027963583, WP_028123848, WP_028298935, Q03JI6 (S. 써모필러스), EGP66723, EGS38969, EGV05092, EHI65578 (S. 슈도포르시누스), EIC75614 (S. 오랄리스), EID22027 (S. 콘스텔라투스), EIJ69711, EJP22331 (S. 오랄리스), EJP26004 (S. 안지노서스), EJP30321, EPZ44001 (S. 피오제네스), EPZ46028 (S. 피오제네스), EQL78043 (S. 피오제네스), EQL78548 (S. 피오제네스), ERL10511, ERL12345, ERL19088 (S. 피오제네스), ESA57807 (S. 피오제네스), ESA59254 (S. 피오제네스), ESU85303 (S. 피오제네스), ETS96804, UC75522, EGR87316 (S. 디스갈락티애), EGS33732, EGV01468 (S. 오랄리스), EHJ52063 (S. 마카카), EID26207 (S. 오랄리스), EID33364, EIG27013 (S. 파라상귀니스), EJF37476, EJO19166 (스트렙토코커스 종 BS35b), EJU16049, EJU32481, YP_006298249, ERF61304, ERK04546, ETJ95568 (S. 아갈락티아), TS89875, ETS90967 (스트렙토코커스 종 SR4), ETS92439, EUB27844 (스트렙토코커스 종 BS21), AFJ08616, EUC82735 (스트렙토코커스 종 CM6), EWC92088, EWC94390, EJP25691, YP_008027038, YP_008868573, AGM26527, AHK22391, AHB36273, Q927P4, G3ECR1 또는 Q99ZW2 (S. 피오제네스)에 개시된 Cas9 아미노산 서열 중 임의의 것을 포함할 수 있다. 이들 Cas9 단백질 서열 중 임의의 것의 변이체가 사용될 수 있지만, 본원의 RNA 성분과 결합할 경우 DNA에 대한 특이적 결합 활성 및 선택적으로 절단 또는 닉킹 활성을 가져야 한다. 이러한 변이체는 기준 Cas9의 아미노산 서열과 적어도 약 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99% 동일한 아미노산 서열을 포함할 수 있다.
대안적으로, 본원의 Cas9 단백질은, 예를 들어 서열 번호 1 내지 2에 의해 암호화될 수 있다. 또한, 대안적으로, Cas9 단백질은, 예를 들어, 전술한 아미노산 서열 중 임의의 것과 적어도 약 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99% 동일한 아미노산 서열을 포함할 수 있다. 이러한 변이체인 Cas9 단백질은 본원의 RNA 성분과 결합할 경우 DNA에 대한 특이적 결합 활성, 및 선택적으로 절단 또는 닉킹 활성을 가져야 한다.
본원에서 사용된 Cas 단백질(예를 들어, Cas9)의 기원은 RNA 성분(들)이 유래된 것과 동일한 종으로부터 유래할 수 있거나, 상이한 종으로부터 유래할 수 있다. 예를 들어, 스트렙토코커스 종(예를 들어, S. 피오제네스 또는 S. 써모필러스)으로부터 유래된 Cas9 단백질을 포함하는 RGEN은 동일한 스트렙토코커스 종으로부터 유래된 서열(예를 들어, crRNA 반복 서열, tracrRNA 서열)을 갖는 적어도 하나의 RNA 성분과 복합체를 형성할 수 있다. 대안적으로, 본원에서 사용된 Cas 단백질(예를 들어, Cas9)의 기원은 RNA 성분(들)이 유래된 종과 상이한 종으로부터 유래할 수 있다(Cas 단백질 및 RNA 성분(들)은 서로 이종성일 수 있다); 이러한 이종 Cas/RNA 성분 RGEN은 DNA 표적화 활성을 가져야 한다.
소정의 표적 DNA 서열에 대한 본원의 Cas 단백질의 결합 활성 및/또는 엔도뉴클레오리틱(endonucleolytic) 활성을 결정하는 것은 본원에 참고로 개시된 미국 특허 8697359호에 개시된 바와 같은, 당해 분야에 공지된 임의의 적합한 분석법에 의해 평가할 수 있다. 예를 들어, 세포에서 Cas 단백질과 적합한 RNA 성분을 발현한 후, 삽입-결실의 존재가 예측되는 DNA 표적 부위를 조사함으로써 결정이 이루어질 수 있다(이러한 특별한 분석법에서 Cas 단백질은 일반적으로, 완전한 엔도뉴클레오리틱 활성[이중 가닥 절단 활성]을 가질 것이다). 예측되는 표적 부위에서 변형/변경(예를 들어, 삽입-결실)의 존재를 조사하는 것은, 예를 들어, DNA 시퀀싱 방법을 통해 또는 표적 서열의 기능 상실을 분석하여 변경/변형 형성을 추정함으로써 수행될 수 있다.
또 다른 예에서, Cas 단백질과 적합한 RNA 성분이, 적합한 표적 서열을 포함하는 DNA 폴리뉴클레오티드와 함께 서로 혼합되는 시험관 내 분석법을 이용하여 Cas 단백질 활성을 결정할 수 있다. 이러한 분석법은 절단 활성이 결여된 Cas 단백질에 의해 결합(예컨대, 겔 시프트)을 검출하거나, 엔도뉴클레오리틱 절단에 적합한 Cas 단백질에 의한 절단을 검출하는 데 이용될 수 있다.
본원의 Cas 단백질, 예컨대 Cas9는 특정 양태에서 이종 핵 국재화 서열(NLS)을 더 포함할 수 있다. 본원에서 이종 NLS 아미노산 서열은, 예를 들어, 본원의 세포의 핵에 검출 가능한 양으로 Cas 단백질 또는 Cas 단백질-CPP 복합체의 축적을 유도하기에 충분한 강도를 나타낼 수 있다. NLS는 염기성의, 양으로 하전된 잔기(예를 들어, 라이신 및/또는 아르기닌)의 하나(1부분(monopartite)) 이상(예를 들어, 2부분(bipartite))의 짧은 서열(예를 들어, 2 내지 20개의 잔기)을 포함할 수 있으며, Cas 아미노산 서열 중 어디에도 위치할 수 있지만 단백질 표면 상에 노출되어야 한다. NLS는, 예를 들어, 본원의 Cas 단백질의 N 말단 또는 C 말단에 작동 가능하게 연결될 수 있다. 둘 이상의 NLS 서열이 예를 들어 Cas 단백질에 연결될 수 있는데, 예를 들어 Cas 단백질의 N 말단과 C 말단 모두에 연결될 수 있다. 본원에서 적합한 NLS 서열의 비제한적인 예에는 본원에 참조로 포함되는 미국 특허 6660830호 및 7309576호(예를 들어, 그 안의 표 1)에 개시된 것들이 포함된다. 본원에 개시된 Cas 단백질은 예를 들어 CPP에 융합될 수 있다(CPP에 공유적으로 연결된 Cas 단백질의 예). 이러한 Cas-CPP 융합 단백질도 위에 기술된 NLS를 포함할 수 있음이 이해될 것이다. 또한, Cas 단백질이 상이한 세포 기관(예컨대, 미토콘드리아)을 표적화하는 아미노산 서열과 융합되는 구현예에서, 이러한 Cas 단백질은 일반적으로 NLS를 포함하지 않으리라는 점이 이해될 것이다.
Cas 단백질은 하나 이상의 이종 단백질 도메인(예를 들어, Cas 단백질에 더하여 1개, 2개, 3개 이상의 도메인)을 포함하는 융합 단백질의 일부일 수 있다. 예를 들어, Cas 단백질은 CPP 및/또는 하나 이상의 추가적인 이종 아미노산 서열에 공유적으로 연결될 수 있다(2014년 8월 13일 출원된 미국 가특허출원 62/036652호 참조). Cas 단백질은 또한, 예를 들어 CPP를 포함하지 않는 하나 이상의 추가적인 이종 아미노산 서열에 공유적으로 연결될 수 있다(이러한 구현예에서 CPP는 Cas 융합 단백질에 비 공유적으로 연결될 것이다). Cas 단백질을 포함하는 융합 단백질은 임의의 추가적인 단백질 서열, 및 선택적으로 임의의 두 도메인 사이, 예컨대, Cas와 제1 이종 도메인 사이의 링커 서열을 포함할 수 있다. 본원의 Cas 단백질에 융합될 수 있는 단백질 도메인의 예에는 에피토프 태그(예를 들어, 히스티딘 [His, 폴리-히스티딘], V5, FLAG, 인플루엔자 혈구응집소 [HA], myc, VSV-G, 티오레독신 [Trx]), 리포터(예를 들어, 글루타티온-5-트랜스퍼라제 [GST], 홀스래디쉬 퍼옥시다제 [HRP], 클로람페니콜 아세틸트랜스퍼라제 [CAT], 베타-갈락토시다제, 베타-글루쿠로니다제 [GUS], 루시퍼라제, 녹색 형광 단백질 [GFP], HcRed, DsRed, 청록색 형광 단백질[CFP], 황색 형광 단백질 [YFP], 청색 형광 단백질 [BFP]) 및 메틸라제 활성, 데메틸라제 활성, 전사 활성화 활성(예를 들어, VP16 또는 VP64), 전사 억제 활성, 전사 방출 인자 활성, 히스톤 변형 활성, RNA 절단 활성 및 핵산 결합 활성 중 하나 이상을 갖는 도메인이 제한 없이 포함된다. 다른 구현예에서, Cas 단백질은 DNA 분자 또는 다른 분자, 예컨대 말토스 결합 단백질(MBP), S-태그, Lex A DNA 결합 도메인(DBD), GAL4A DNA 결합 도메인 및 단순 헤르페스 바이러스(HSV) VP16에 결합하는 단백질과 융합될 수 있다. 본원의 Cas 단백질을 포함하는 융합 단백질의 일부가 될 수 있는 추가적인 도메인은 본원에 참조로 포함되는 미국 특허 출원 공개 2011/0059502호에 개시되어 있다. Cas 단백질이 이종 단백질(예를 들어, 전사 인자)에 융합되는 특정 구현예에서, Cas 단백질은 (본원의 적합한 RNA 성분과 복합체인 경우) DNA 인식 및 결합 활성을 가지나, DNA 닉킹 또는 절단 활성은 없다.
본원의 Cas 단백질에 연결될 수 있는 이종 도메인의 다른 예로 단백질을 특정 세포 기관으로 표적화하는 아미노산 서열들을 들 수 있다(즉, 국재화 신호). 표적화될 수 있는 세포 기관의 예로 미토콘드리아와 엽록체를 들 수 있다. 일반적으로, 핵 외부의 DNA 부위를 표적화할 때, 이러한 표적화 도메인이 NLS 대신 이용된다. 미토콘드리아 표적화 서열(MTS)은 예를 들어, Cas 단백질의 N 말단에 또는 그 부근에 위치할 수 있다. MTS 예는 본원에 참조로 포함되는 미국 특허 출원 공개 2007/0011759호 및 2014/0135275호에 개시되어 있다. 엽록체 표적화 서열은 예를 들어, 본원에 참조로 포함되는 미국 특허 출원 공개 2010/0192262호 또는 2012/0042412호에 개시된 바와 같을 수 있다.
RGEN의 단백질 성분은 예를 들어, 세포 내의 염색체 또는 에피솜 상의 표적 부위 서열에 대해 상보적인 서열을 포함하는 적어도 하나의 RNA 성분과 결합될 수 있다(그에 의해 완전한 RGEN을 구성함). 이러한 구현예에서 RGEN은 표적 부위 서열과 결합할 수 있고, 선택적으로 표적 부위 서열에서 하나 또는 두 DNA 가닥을 절단할 수 있다. RGEN은 예를 들어, DNA 표적 서열의 한 가닥 또는 두 가닥을 절단할 수 있다. 또 다른 예에서, RGEN은 DNA 표적 서열의 두 가닥을 절단할 수 있다. 모든 이러한 구현예에서, RGEN 단백질 성분은 RGEN 단백질-CPP 복합체에서 적어도 하나의 CPP에 공유적으로 또는 비 공유적으로 연결될 수 있음이 이해될 것이다. 본원의 RNA 성분과 RGEN 단백질-CPP 복합체의 결합은 RGEN-CPP 복합체를 형성하는 것을 특징으로 할 수 있다. RGEN에 관한 본원의 임의의 개시 내용은 달리 언급되지 않는 한 RGEN-CPP 복합체의 RGEN 성분에 마찬가지로 적용될 수 있다.
DNA 표적 서열의 두 가닥을 절단할 수 있는 본원의 RGEN은 일반적으로 이의 엔도뉴클레아제 도메인 모두를 기능적 상태(functional state)로 가지는 Cas 단백질을 포함한다(예를 들어, 야생형 엔도뉴클레아제 도메인 또는 각각의 엔도뉴클레아제 도메인에서 일부 또는 모든 활성을 보유하는 이들의 변이체). 따라서, 야생형 Cas 단백질(예를 들어, 본원에 개시된 Cas9 단백질) 또는 Cas 단백질의 각각의 엔도뉴클레아제 도메인에서 일부 또는 모든 활성을 보유하는 이의 변이체가 DNA 표적 서열의 두 가닥을 절단할 수 있는 RGEN의 적합한 예이다. 기능적 RuvC 및 HNH 뉴클레아제 도메인을 포함하는 Cas9 단백질은 DNA 표적 서열의 두 가닥을 절단할 수 있는 Cas 단백질의 예이다. DNA 표적 서열의 두 가닥을 절단할 수 있는 본원의 RGEN은 일반적으로, 절단 부위에 평활 말단(즉, 뉴클레오티드 돌출부가 없음)을 형성하도록 동일한 위치에서 두 가닥을 절단한다.
DNA 표적 서열의 한 가닥을 절단할 수 있는 본원의 RGEN은 본원에서 닉카아제 활성(예를 들어, 부분 절단 능력)을 갖는 것을 특징으로 할 수 있다. 본원의 Cas 닉카아제(예를 들어, Cas9 닉카아제)는 일반적으로, Cas가 DNA 표적 서열 중 한 가닥만 절단하도록 하는(즉, 닉을 형성하도록 하는) 하나의 기능적 엔도뉴클레아제 도메인을 포함한다. 예를 들어, Cas9 닉카아제는 (i) 돌연변이 기능장애 RuvC 도메인 및 (ii) 기능적 HNH 도메인(예를 들어, 야생형 HNH 도메인)을 포함할 수 있다. 또 다른 예로서, Cas9 닉카아제는 (i) 기능적 RuvC 도메인(예를 들어, 야생형 RuvC 도메인) 및 (ii) 돌연변이 기능장애 HNH 도메인을 포함할 수 있다.
본원에서 사용하기에 적합한 Cas9 닉카아제의 비제한적인 예는 본원에 참조로 포함되는 Gasiunas et al. (Proc . Natl . Acad . Sci . U.S.A . 109:E2579-E2586), Jinek et al. (Science 337:816-821), Sapranauskas et al. (Nucleic Acids Res. 39:9275-9282) 및 미국 특허 출원 공개 2014/0189896호에 개시되어 있다. 예를 들어, 본원에서 Cas9 닉카아제는 Asp-31 치환(예를 들어, Asp-31-Ala)(돌연변이 RuvC 도메인의 예), 또는 His-865 치환(예를 들어, His-865-Ala), Asn-882 치환(예를 들어, Asn-882-Ala), 또는 Asn-891 치환(예를 들어, Asn-891-Ala)(돌연변이 HNH 도메인의 예)을 갖는 S. 써모필러스 Cas9를 포함할 수 있다. 또한, 예를 들어, 본원에서 Cas9 닉카아제는 Asp-10 치환(예를 들어, Asp-10-Ala), Glu-762 치환(예를 들어, Glu-762-Ala), 또는 Asp-986 치환(예를 들어, Asp-986-Ala)(돌연변이 RuvC 도메인의 예), 또는 His-840 치환(예를 들어, His-840-Ala), Asn-854 치환(예를 들어, Asn-854-Ala), 또는 Asn-863 치환(예를 들어, Asn-863-Ala)(돌연변이 HNH 도메인의 예)을 갖는 S. 피오제네스 Cas9를 포함할 수 있다. S. 피오제네스 Cas9에 관하여, 3개의 RuvC 서브도메인은 일반적으로 각각 아미노산 잔기 1 내지 59, 718 내지 769 및 909 내지 1098에 위치하고, HNH 도메인은 아미노산 잔기 775 내지 908에 위치한다(Nishimasu et al., Cell 156:935-949).
본원에서 Cas9 닉카아제는 원하는 경우, 세포에서 다양한 용도로 이용될 수 있다. 예를 들어, Cas9 닉카아제는 적합한 폴리뉴클레오티드 변형 주형을 갖는 DNA 표적 부위 서열에서 또는 그 부근에서 HR을 촉진하는 데 이용될 수 있다. 닉이 있는 DNA는 NHEJ 공정을 위한 기질은 아니지만 HR 공정에 의해 인식되므로, 소정의 표적 부위에서 DNA에 닉을 형성하는 것은 그 부위가 적합한 폴리뉴클레오티드 변형 주형을 사용하는 HR을 더 잘 수용할 수 있게 해야 한다.
또 다른 예로서, DNA 표적화의 특이성을 증가시키기 위해 한 쌍의 Cas9 닉카아제가 사용될 수 있다. 일반적으로, 이는, 상이한 가이드 서열을 갖는 RNA 성분들과 결합되어 있기 때문에, 원하는 표적화를 위한 영역에서 반대 가닥 상의 가까운 DNA 서열을 표적화하고 닉을 형성하는 2개의 Cas9 닉카아제를 제공함으로써 수행될 수 있다. 각각의 DNA 가닥의 이러한 가까운 절단은 DSB(즉, 단일-가닥 돌출부를 갖는 DSB)를 생성하고, 이는 이어서 NHEJ(삽입-결실 형성을 유도함) 또는 HR(제공된다면, 적합한 폴리뉴클레오티드 변형 주형과의 재조합을 유도함)의 기질로 인식된다. 이러한 구현예에서 각각의 닉은, 예를 들어, 서로 적어도 약 5, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90 또는 100(또는 5와 100 사이의 임의의 정수)개의 염기만큼 이격될 수 있다. 본원에서 하나 또는 두 개의 Cas9 닉카아제 단백질이 위에서 기술한 바와 같이 Cas9 닉카아제 쌍에서 사용될 수 있다. 예를 들어, 돌연변이 RuvC 도메인을 가지나 기능하는 HNH 도메인을 갖는 Cas9 닉카아제(즉, Cas9 HNH+/RuvC-)(예를 들어, S. 피오제네스 Cas9 HNH+/RuvC-)를 사용할 수 있다. 각각의 닉카아제를 각각의 특정 DNA 부위로 표적화하는 가이드 RNA 서열을 갖는 본원의 적합한 RNA 성분들을 사용하여, 서로 가까운 (100개 이하의 염기쌍만큼 이격된) 소정의 DNA 부위로 각각의 Cas9 닉카아제(예를 들어, Cas9 HNH+/RuvC-)를 유도할 것이다.
특정 구현예에서 RGEN은 DNA 표적 부위 서열에 결합할 수 있지만, 표적 부위 서열에서 임의의 가닥을 절단하지 않는다. 이러한 RGEN은 이의 모든 뉴클레아제 도메인이 돌연변이 기능장애인 Cas 단백질을 포함할 수 있다. 예를 들어, DNA 표적 부위 서열에 결합할 수 있지만, 표적 부위 서열에서 임의의 가닥을 절단하지 않는 본원의 Cas9 단백질은 돌연변이 기능장애 RuvC 도메인 및 돌연변이 기능장애 HNH 도메인을 둘 다 포함할 수 있다. 이러한 Cas9 단백질의 비제한적인 예에는 위에 개시된 RuvC 및 HNH 뉴클레아제 도메인 돌연변이 중 임의의 것(예를 들어, Asp-10 치환, 예컨대 Asp-10-Ala 및 His-840 치환, 예컨대 His-840-Ala을 갖는 S. 피오제네스 Cas9)이 포함된다. 표적 DNA 서열에 결합하지만 절단하지 않는 본원의 Cas 단백질은 유전자 발현을 조절하는 데 사용될 수 있으며, 예를 들어, 이 경우 Cas 단백질은 전사 인자(또는 이의 일부)(예를 들어, 억제 인자 또는 활성 인자, 예컨대 본원에 개시된 것들 중 임의의 것)와 융합될 수 있다. 예를 들어, Asp-10 치환(예를 들어, Asp-10-Ala) 및 His-840 치환(예를 들어, His-840-Ala)을 갖는 S. 피오제네스 Cas9를 포함하는 Cas9는 VP16 또는 VP64 전사 활성 인자 도메인에 융합될 수 있다. 이러한 RGEN의 RNA 성분에서 사용되는 가이드 서열은, 예를 들어 유전자 프로모터 또는 다른 조절 요소(예를 들어, 인트론) 내의 DNA 서열에 상보적일 것이다.
본원의 RGEN은 세포의 게놈 내의 염색체, 에피솜 또는 임의의 다른 DNA 분자의 표적 부위 서열과 결합할 수 있고, 선택적으로 이러한 표적 부위 서열의 한 가닥 또는 두 가닥을 절단할 수 있다. RGEN의 RNA 성분이 표적 서열의 가닥에 상보적인 서열(가이드 서열)을 포함한다는 점을 고려할 때, 표적 서열의 이러한 인식 및 결합은 특이적인 것이다.
용어 "표적 부위", "표적 서열", "표적 DNA", "DNA 표적 서열", "표적 유전자좌", "프로토스페이서" 등은 본원에서 상호교환적으로 사용된다. 표적 부위 서열은 본원의 RGEN이 인식하고, 결합하며, 선택적으로는 닉을 형성하거나 절단하는, 세포의 게놈 내의 염색체, 에피솜 또는 임의의 기타 DNA 분자 상의 폴리뉴클레오티드 서열을 지칭한다. 표적 부위는 (i) 세포 내의 내인성/천연 부위이거나, (ii) 세포에 대해 이종성이어서 게놈에서 자연적으로 발생하지 않거나, (iii) 천연적으로 발생하는 위치와 비교하여 이종성인 게놈 위치에서 발견될 수 있다.
본원에서 표적 부위 서열은 길이가 적어도 13개 뉴클레오티드이고, 가이드 서열과 혼성화될 수 있고, (특정 구현예에서, 적합한 PAM이 표적 서열에 인접한 경우) 표적 서열에 Cas 단백질 또는 Cas 단백질 복합체의 서열-특이적 결합을 유도할 수 있도록 (crRNA 또는 gRNA의) 가변 표적화 도메인에 대해 충분한 상보성을 갖는 가닥을 갖는다. (엔도뉴클레오리틱 또는 닉킹 Cas와 적용 가능한) 절단/닉 부위는 표적 서열 내에 있을 수 있거나(예를 들어, Cas9를 사용), 절단/닉 부위는 표적 서열 외부에 있을 수 있다(예를 들어, FokI 효소로부터 유래된 것과 같은 이종 엔도뉴클레아제 도메인에 융합된 Cas9를 사용). 표적 부위 서열은 절단 또는 닉킹 활성이 결여된 RGEN에 의해 결합될 수도 있다.
본원에서 "인공 표적 부위" 또는 "인공 표적 서열"은 세포의 게놈에 도입된 표적 서열을 지칭한다. 일부 구현예에서 인공 표적 서열은 세포의 게놈 내의 천연 표적 서열과 서열이 동일할 수 있지만, 게놈 내 상이한 위치(이종 위치)에 위치할 수 있거나, 세포의 게놈 내 동일한 위치에 위치하는 경우 천연 표적 서열과 상이할 수 있다.
본원에서 표적 서열의 길이는, 예를 들어, 적어도 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개 또는 30개의 뉴클레오티드; 13 내지 30개의 뉴클레오티드; 17 내지 25개의 뉴클레오티드; 또는 17 내지 20개의 뉴클레오티드일 수 있다. 이러한 길이는 PAM(프로토스페이서 인접 모티프) 서열을 포함하거나 제외할 수 있다. 또한, 본원에서 표적 서열의 가닥은, 가이드 서열과 혼성화되고 (적합한 PAM이 표적 서열에 인접한 경우, 아래 참조) Cas 단백질 또는 Cas 단백질 복합체의 표적 서열과의 서열 특이적 결합을 유도하기 위하여, (crRNA 또는 gRNA의) 가변 표적화 도메인과 충분한 상보성을 갖는다. 가이드 서열과 이의 상응하는 DNA 표적 서열의 가닥 사이의 상보성 정도는, 예를 들어, 적어도 약 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%이다. 본원에서 표적 부위는, 예를 들어, 유전자 산물(예를 들어, 단백질 또는 RNA)을 암호화하는 서열 또는 비 암호화 서열(예를 들어, 조절 서열 또는 "정크" 서열) 내에 위치할 수 있다.
본원에서 "프로토스페이서 인접 모티프"(PAM)는 본원에서의 RGEN에 의해 인식되는 짧은 서열을 지칭한다. 본원의 PAM의 서열과 길이는 사용되는 Cas 단백질 또는 Cas 단백질 복합체에 따라 다를 수 있지만, 일반적으로는, 예를 들어 2개, 3개, 4개, 5개, 6개, 7개 또는 8개의 뉴클레오티드 길이이다.
PAM(프로토스페이서-인접 모티프) 서열은 표적 부위 서열에 인접할 수 있다. PAM 서열은 본원의 RGEN에 의해 인식되는 짧은 DNA 서열이다. 결합된 PAM 및 DNA 표적 서열의 처음 11개의 뉴클레오티드는 Cas9/gRNA 표적화 및 절단에 중요할 수 있다(Jiang et al., Nat. Biotech. 31:233-239). 본원에서 PAM 서열의 길이는 사용되는 Cas 단백질 또는 Cas 단백질 복합체에 따라 다를 수 있지만, 일반적으로는, 예를 들어 2개, 3개, 4개, 5개, 6개, 7개 또는 8개의 뉴클레오티드 길이이다. PAM 서열은, 예를 들어, 결과적으로 RNA 성분 가이드 서열에 상보적인 표적 부위의 가닥에 상보적인 표적 부위 서열로부터 바로 하류에, 또는 이의 하류에 있는 2 또는 3개의 뉴클레오티드 내에 있다. RGEN이 RNA 성분과 엔도뉴클레오리틱 활성이 있는 Cas9 단백질 복합체를 형성한 본원의 실시 형태에서, Cas9는 RNA 성분에 의해 유도된 바와 같이 표적 서열과 결합하고, PAM 서열 상류의 세 번째 뉴클레오티드 위치의 바로 5'에서 두 가닥을 절단한다. 표적 부위:PAM 서열의 다음의 예를 고려한다:
5’-NNNNNNNNNNNNNNNNNNNNXGG-3’ (서열 번호 52).
이러한 예의 서열에서, N은 A, C, T 또는 G일 수 있고, X는 A, C, T 또는 G일 수 있다(X는 또한 NPAM으로도 지칭됨). 이러한 예에서 PAM 서열은 (밑줄 친) XGG이다. 적합한 Cas9/RNA 성분 복합체는 이중 밑줄 친 N의 바로 5'에서 이러한 표적을 절단할 것이다. 서열 번호 52에서 일련의 N은 본원의 RNA 성분의 가이드 서열과, 예를 들어, 적어도 약 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 동일한 표적 서열을 나타낸다(여기서, DNA 표적 서열의 임의의 T는 RNA 가이드 서열의 임의의 U와 정렬될 것이다). (본원에서 표적 부위를 나타내는) 이러한 표적 서열을 인식하고 결합하는 데 있어서, Cas9 복합체의 RNA 성분의 가이드 서열은, 일련의 N의 보체 서열과 어닐링될 것이며; 가이드 서열과 표적 부위 보체 사이의 퍼센트 상보성은, 예를 들어, 적어도 약 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%이다. Cas9 닉카아제가 게놈의 서열 번호 52를 표적화하는 데 사용되는 경우, 닉카아제는 닉카아제의 어느 엔도뉴클레아제 도메인이 기능장애인지에 따라, 이중 밑줄 친 N의 바로 5'에서 또는 상보성 가닥의 동일한 위치에서 닉을 형성할 것이다. (RuvC와 HNH 도메인이 모두 기능장애인) 핵산 분해 활성이 없는 Cas9가 게놈의 서열 번호 52를 표적화하는데 사용되는 경우, 그것은 표적 서열을 인식하고 결합하지만, 서열에 어떠한 절단도 만들지 않을 것이다.
본원에서 PAM은 일반적으로, 사용되는 RGEN의 유형을 고려하여 선택된다. 본원에서 PAM 서열은, 예를 들어, Cas가 유래될 수 있는 본원에 개시된 임의의 종으로부터 유래된 Cas, 예컨대 Cas9를 포함하는 RGEN에 의해 인식되는 것일 수 있다. 특정 구현예에서, 이러한 PAM 서열은 S. 피오제네스, S. 써모필러스, S. 아갈락티아, N. 메닝기티디스, T. 덴티콜라 또는 F. 노비시다로부터 유래된 Cas9를 포함하는 RGEN에 의해 인식되는 것일 수 있다. 예를 들어, S. 피오제네스로부터 유래된 적합한 Cas9는 NGG의 PAM 서열(N은 A, C, T 또는 G일 수 있음)을 갖는 게놈 서열을 표적화하는 데 사용될 수 있다. 다른 예로서, 적합한 Cas9는 다음과 같은 PAM 서열을 갖는 DNA 서열을 표적화하는 경우 다음의 종 중 임의의 것으로부터 유래될 수 있다: S. 써모필러스(NNAGAA), S. 아갈락티아 (NGG, NNAGAAW[W는 A 또는 T임], NGGNG), N. 메닝기티디스(NNNNGATT), T. 덴티콜라(NAAAAC), 또는 F. 노비시다(NG)(여기서, 이러한 모든 특정 PAM 서열에서 N은 A, C, T 또는 G임). 본원에서 유용한 Cas9/PAM의 다른 예에는, 본원에 참조로 포함되는 Shah et al. (RNA Biology 10:891-899) 및 Esvelt et al. (Nature Methods 10:1116-1121)에 개시된 것들이 포함된다. 본원의 표적 서열들의 예는 서열 번호 43을 따르지만, 'XGG' PAM은 전술한 PAM 중 어느 하나에 의해 대체된다.
본원의 RNA 성분은 세포의 염색체 또는 에피솜의 표적 부위 서열에 상보적인 서열을 포함할 수 있다. RGEN은 이러한 서열 상보성을 기초로, 표적 부위 서열과 특이적으로 결합할 수 있고, 선택적으로 이러한 표적 부위 서열의 한 가닥 또는 두 가닥을 절단할 수 있다. 따라서, 개시된 발명의 특정 구현예에서 RNA 성분의 상보적인 서열은 가이드 서열 또는 가변 표적화 도메인으로도 지칭될 수 있다.
본원에서 RNA 성분(예를 들어, crRNA 또는 gRNA)의 가이드 서열은 길이가, 예를 들어, 적어도 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개 또는 30개의 리보뉴클레오티드; 13개 내지 30개의 리보뉴클레오티드; 17개 내지 25개의 리보뉴클레오티드; 또는 17개 내지 20개의 리보뉴클레오티드일 수 있다. 일반적으로, 본원의 가이드 서열은 표적 DNA 서열의 가닥에 대해 충분한 상보성을 가져, 표적 서열과 혼성화되어 (적합한 PAM이 표적 서열에 인접한 경우) 표적 서열에 Cas 단백질 또는 Cas 단백질 복합체의 서열 특이적인 결합을 유도한다. 가이드 서열과 이의 상응하는 DNA 표적 서열 사이의 상보성 정도는, 예를 들어, 적어도 약 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%이다. 가이드 서열은 세포의 DNA 표적 서열로 RGEN을 표적화하도록 적절히 유전자 조작될 수 있다.
본원의 RNA 성분은, 예를 들어, 가이드 서열 및 반복 (tracrRNA 메이트) 서열을 포함하는 crRNA를 포함할 수 있다. 가이드 서열은 일반적으로 crRNA의 5' 말단에 또는 그 부근(1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개 이상의 염기 내에)에 위치한다. crRNA의 가이드 서열의 하류에는 tracrRNA의 5' 말단에서 서열에 상보적이고 이와 혼성화될 수 있는 "반복" 또는 "tracrRNA 메이트" 서열이 있다. 가이드 및 tracrRNA 메이트 서열은, 예를 들어, 바로 인접하거나, 1개, 2개, 3개, 4개 이상의 염기에 의해 이격될 수 있다. tracrRNA 메이트 서열은 tracrRNA의 5' 말단에, 예를 들어, 적어도 50%, 60%, 70%, 80%, 90%, 95%, 96%, 97%, 98%, 99%, 또는 100% 서열 상보성을 갖는다. 일반적으로, 상보성 정도는 tracrRNA 메이트 서열과 tracrRNA 서열의 5' 말단의 최적 정렬을 참고하여, 두 서열 중 더 짧은 것의 길이에 따를 수 있다. 본원의 tracrRNA 메이트 서열의 길이는, 예를 들어 적어도 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개 또는 18개의 리보뉴클레오티드 길이일 수 있고, tracrRNA의 5' 말단에서 동일하거나 유사한 길이 (예를 들어, 플러스 또는 마이너스 1개, 2개, 3개, 4개 또는 5개의 염기)의 서열과 혼성화된다. 본원의 crRNA의 길이는, 예를 들어, 적어도 약 18개, 20개, 22개, 24개, 26개, 28개, 30개, 32개, 34개, 36개, 38개, 40개, 42개, 44개, 46개 또는 48개의 리보뉴클레오티드; 또는 약 18개 내지 48개의 리보뉴클레오티드; 또는 약 25개 내지 50개의 리보뉴클레오티드일 수 있다.
tracrRNA는, II형 크리스퍼 시스템의 Cas9 단백질이 RGEN에 포함되는 구현예에서, crRNA와 함께 포함될 수 있다. 본원의 tracrRNA는 5'에서 3' 방향으로 (i) crRNA의 반복 영역(tracrRNA 메이트 서열)과 어닐링하는 서열 및 (ii) 스템 루프를 포함하는 부분을 포함한다. (i)의 서열의 길이는, 예를 들어, 위에 개시된 임의의 tracrRNA 메이트 서열의 길이와 동일하거나 유사할 수 있다(예를 들어, 플러스 또는 마이너스 1개, 2개, 3개, 4개 또는 5개의 염기). 본원의 tracrRNA의 총 길이(즉, 서열 성분 [i] 및 [ii])는, 예를 들어, 적어도 약 30개, 35개, 40개, 45개, 50개, 55개, 60개, 65개, 70개, 75개, 80개, 85개, 또는 90(또는 30 내지 90 사이의 임의의 정수)개의 리보뉴클레오티드일 수 있다. tracrRNA는 3'-말단에 1개, 2개, 3개, 4개, 5개 이상의 우라실 잔기를 더 포함할 수 있으며, 이는 전사 종결자 서열을 갖는 tracrRNA를 발현함으로써 존재할 수 있다.
본원의 tracrRNA는 스트렙토코커스 종(예를 들어, S. 피오제네스, S. 써모필러스)과 같은(그러나 이들로 한정되는 것은 아님) 박테리아 종으로부터 유래될 수 있거나, 본원에 참조로 포함되는 미국 특허 8697359호 및 Chylinski et al. (RNA Biology 10:726-737)에 개시된 것들을 포함할 수 있다.
용어 "리보자임", "리보핵산 효소" 및 "자가 절단 리보자임"은 본원에서 상호교환적으로 사용된다. 리보자임은 특정 부위에서, 특히, 리보자임 서열에 대해 시스 부위에서 RNA를 절단(즉, 자가 촉매적 또는 자가 절단)할 수 있는 2차, 3차, 및/또는 4차 구조(들)를 형성하는 하나 이상의 RNA 서열을 지칭한다. 리보자임 핵산 분해 활성의 일반적인 성질은 기술된 바 있다(예를 들어, Lilley, Biochem . Soc. Trans. 39:641-646). 본원에서 "망치머리 리보자임"(HHR)은 촉매 작용에 관여하는 3개의 염기쌍 형성된 스템 및 고도로 보존된, 비 상보적 뉴클레오티드의 코어로 구성되는 작은 촉매 RNA 모티프를 포함할 수 있다. 본원에 참조로 포함되는 Pley et al. (Nature 372:68-74) 및 Hammann et al. (RNA 18:871-885)은 망치머리 리보자임 구조와 활성을 개시하고 있다. 본원에서 망치머리 리보자임은, 예를 들어, 본원에 참조로 포함되는 Scott et al. (Cell 81:991-1002)에 개시된 바와 같은 "최소 망치머리" 서열을 포함할 수 있다.
용어 "표적화", "유전자 표적화", "DNA 표적화", "편집", "유전자 편집" 및 "DNA 편집"은 본원에서 상호교환적으로 사용된다. 본원에서 DNA 표적화는 세포의 염색체 또는 에피솜에서와 같은 특정 DNA 서열에서의 삽입-결실, 녹아웃 또는 녹인의 특이적 도입일 수 있다. 일반적으로, DNA 표적화는 본원에서 적합한 RNA 성분과 결합된 Cas 단백질을 사용하여 세포의 특정 DNA 서열에서 하나 또는 두 가닥을 절단함으로써 수행될 수 있다. 이러한 DNA 절단은, 이중 가닥 절단(DSB)의 경우 표적 부위에서 삽입-결실을 형성할 수 있는 NHEJ 공정을 유도할 수 있다. 또한, 절단이 단일-가닥 절단(SSB)인지 DSB인지에 관계없이, DNA 닉 또는 절단 부위에 적합한 폴리뉴클레오티드 변형 주형 또는 공여 DNA가 제공되는 경우 HR 공정은 유도될 수 있다. 이러한 HR 공정은 폴리뉴클레오티드 변형 주형의 서열에 따라 표적 부위에서 녹아웃 또는 녹인을 도입하는 데 사용될 수 있다. 대안적으로, 본원에서 DNA 표적화는 본원의 Cas/RNA 성분 복합체와 표적 DNA 서열의 특정 결합을 지칭할 수 있으며, 여기서 Cas 단백질은 (Cas 단백질의 엔도뉴클레오리틱 도메인의 상태에 따라) DNA 가닥을 절단하거나 절단하지 않는다.
본원에서 용어 "삽입-결실"은 염색체 또는 에피솜 내의 표적 DNA 서열에서의 뉴클레오티드 염기 또는 염기들의 삽입 또는 결실을 지칭한다. 이러한 삽입 또는 결실은, 예를 들어, 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개 이상의 염기일 수 있다. 특정 구현예에서, 삽입-결실은 훨씬 더 클 수 있고, 적어도 약 20, 30, 40, 50, 60, 70, 80, 90 또는 100개의 염기일 수 있다. 삽입-결실이 유전자의 오픈 리딩 프레임(ORF) 내에 도입되는 경우, 종종 이러한 삽입-결실은 프레임시프트 돌연변이를 생성하여 이러한 ORF에 의해 암호화되는 단백질의 야생형 발현을 방해한다.
용어 "녹아웃", "유전자 녹아웃" 및 "유전적 녹아웃"은 본원에서 상호교환적으로 사용된다. 녹아웃은 Cas 단백질로 표적화함으로써 부분적으로 또는 완전히 작동하지 않게 된 본원에서의 세포의 DNA 서열을 나타내며, 녹아웃 이전의 이러한 DNA 서열은, 예를 들어, 아미노산 서열을 암호화할 수 있었거나 조절 기능 (예를 들어, 프로모터)을 가졌을 수 있다. 녹아웃은 (Cas 매개성 절단에 의해 유발된 NHEJ에 의한) 삽입-결실에 의해 또는, 표적화 부위에서, 그 옆에서, 또는 그 부근에서 서열의 기능을 감소시키거나 완전히 파괴하는, (적합한 폴리뉴클레오티드 변형 주형도 사용되는 경우, Cas 매개성 절단 또는 닉킹에 의해 유발된 HR에 의한) 서열의 특이적 제거에 의해 생성될 수 있다. 본원에서 녹아웃된 DNA 폴리뉴클레오티드 서열은 대안적으로, 예를 들어, 부분적으로 또는 완전히 방해받거나 하향조절되는 것을 특징으로 할 수 있다.
용어 "녹인", "유전자 녹인" 및 "유전적 녹인"은 본원에서 상호교환적으로 사용된다. 녹인은 (적합한 공여 DNA도 사용되는 경우, Cas 매개성 절단 또는 닉킹에 의해 유발된 HR에 의한) Cas 단백질을 사용한 표적화에 의해 세포의 특정 DNA 서열에서 DNA 서열을 대체하거나 삽입하는 것을 나타낸다. 녹인의 예는, 유전자의 암호화 영역에 관심 있는 폴리뉴클레오티드, 이종 아미노산 암호화 서열을 특이적으로 삽입하거나, 유전자좌에 전사 조절 요소를 특이적으로 삽입하는 것이다.
용어 "재조합 DNA 분자", "재조합 작제물", "발현 작제물", "작제물", "작제물", 및 "재조합 DNA 작제물"은 본원에서 상호교환적으로 사용된다. 재조합 작제물은 핵산 단편, 예를 들어 자연에서 모두가 함께 발견되지는 않는 조절 서열 및 암호화 서열의 인공적인 조합을 포함한다. 예를 들어, 작제물은 상이한 공급원으로부터 유래된 조절 서열과 암호화 서열, 또는 동일한 공급원으로부터 유래되었지만, 자연에서 발견되는 것과 상이한 방식으로 배열된 조절 서열과 암호화 서열을 포함할 수 있다. 이러한 작제물은 단독으로 사용되거나 벡터 또는 플라스미드와 함께 사용될 수 있다. 당업자는 또한, 서로 다른 독립적인 유전자 편집 사건이 상이한 발현 수준 및 패턴을 초래할 수 있으므로(Jones et al., (1985) EMBO J 4:2411-2418; De Almeida et al., (1989) Mol Gen Genetics 218:78-86), 원하는 발현 수준 및 패턴을 나타내는 계통을 얻기 위해 일반적으로 여러 사건이 스크리닝된다는 것을 인식할 것이다. 이러한 스크리닝은 표준 분자 생물학적, 생화학적 분석, 및 DNA의 서던 분석, mRNA 발현의 노던 분석, PCR, 실시간 정량 PCR(qPCR), 역전사 PCR(RT-PCR), 단백질 발현의 면역블로팅 분석, 효소 또는 활성 분석, 및/또는 표현형 분석을 비롯한 기타 분석에 의해 달성될 수 있다.
본원에 사용된 용어 "발현”은 전구체 또는 성숙된 형태에서의 기능적 최종 산물(예를 들어, mRNA, 가이드 RNA, 또는 단백질)의 생성을 의미한다.
본원의 용어 "제공"은 핵산(예를 들어, 발현 작제물, 플라스미드) 또는 단백질을 세포 내에 제공(도입)하는 것을 의미한다. 제공은 핵산이 세포의 게놈에 혼입될 수 있는 진핵 또는 원핵 세포 내로의 핵산의 혼입에 대한 언급을 포함하며, 핵산 또는 단백질을 세포에 일시적으로 공급하는 것에 대한 언급을 포함한다. 제공은 전기천공(Green MR, Sambrook J. 2012. Molecular Cloning: A Laboratory Manual, Fourth Edition ed. Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY), 열 충격 처리(Green MR, Sambrook J. 2012. Molecular Cloning: A Laboratory Manual, Fourth Edition ed. Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY), 화학적 처리(Green MR, Sambrook J. 2012. Molecular Cloning: A Laboratory Manual, Fourth Edition ed. Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY), 파지 전달(Tyler BM, Goldberg RB. 1976. Transduction of chromosomal genes between enteric bacteria by bacteriophage P1. Journal of bacteriology 125:1105-1111), 결합, 접합 및 형질도입(Methods for General and Molecular Bacteriology. 1994. ASM Press, Washington D.C.)에 대한 언급을 포함한다. 핵산 단편(예를 들어, 재조합 DNA 작제물/발현 작제물)을 세포에 삽입하는 맥락에서의 제공은 "형질감염” 또는 "형질전환” 또는 "형질도입"을 포함하며, 핵산 단편이 세포의 게놈(예를 들어, 큰 원형 게놈, 플라스미드)에 혼입되거나, 자율적 레플리콘으로 변환되거나, 또는 일시적으로 발현될 수 있는 원핵 세포 내로의 핵산 단편의 혼입에 대한 언급을 포함한다.
유기체/세포 내로 제공된 핵산 분자는 유기체/세포에서 독자적으로 복제하거나, 유기체/세포의 게놈으로 통합되거나, 복제되거나 통합되지 않고 세포에 일시적으로 존재하는 것일 수 있다. 세포에 제공될 수 있는 핵산 분자의 비제한적인 예는 본원에 개시되어 있는데, 예컨대 플라스미드 및 선형 DNA 분자이다.
본원에 기재된 바와 같이, 가이드 RNA/Cas 엔도뉴클레아제 시스템은 공동으로 전달된 폴리뉴클레오티드 변형 주형과 함께 사용되어 관심 있는 게놈 뉴클레오티드 서열의 편집을 가능하게 한다. 또한, 본원에 기재된 바와 같이, 가이드 RNA/Cas 엔도뉴클레아제 시스템을 사용하는 각각의 구현예의 경우, 유사한 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템이 전개될 수 있는데, 가이드 폴리뉴클레오티드는 리보핵산을 단독으로 포함하는 것이 아니라, RNA-DNA 분자의 조합을 포함하거나, DNA 분자를 단독으로 포함한다.
"변형된 뉴클레오티드” 또는 "편집된 뉴클레오티드"는 변형되지 않은 뉴클레오티드 서열과 비교할 때 적어도 하나의 변경을 포함하는 관심 있는 뉴클레오티드 서열을 지칭한다. 이러한 "변경"은, 예를 들어, (i) 적어도 하나의 뉴클레오티드의 교체, (ii) 적어도 하나의 뉴클레오티드의 결실, (iii) 적어도 하나의 뉴클레오티드의 삽입, 또는 (iv) (i) 내지 (iii)의 임의의 조합을 포함한다.
용어 "폴리뉴클레오티드 변형 주형"은 편집될 뉴클레오티드 서열과 비교할 때 적어도 하나의 뉴클레오티드 변형을 포함하는 폴리뉴클레오티드를 지칭한다. 뉴클레오티드 변형은, 예를 들어, (i) 적어도 하나의 뉴클레오티드의 교체, (ii) 적어도 하나의 뉴클레오티드의 결실, (iii) 적어도 하나의 뉴클레오티드의 삽입, 또는 (iv) (i) 내지 (iii)의 임의의 조합을 포함할 수 있다. 선택적으로, 폴리뉴클레오티드 변형 주형은 적어도 하나의 뉴클레오티드 변형에 플랭킹한 상동 뉴클레오티드 서열을 더 포함할 수 있고, 플랭킹한 상동 뉴클레오티드 서열은 편집될 원하는 뉴클레오티드 서열과의 충분히 상동성을 제공한다.
본원에 사용된 "공여 DNA"는 Cas 엔도뉴클레아제의 표적 부위에 삽입될 관심 있는 폴리뉴클레오티드를 포함하는 DNA 작제물이다. 공여 DNA 작제물은 관심 있는 폴리뉴클레오티드에 플랭킹한 제1 상동 영역 및 제2 상동 영역을 더 포함할 수 있다. 공여 DNA의 제1 상동 영역 및 제2 상동 영역은 식물 게놈의 표적 부위에 존재하거나 거기에 플랭킹한 제1 게놈 영역 및 제2 게놈 영역에 대해 각각 상동성을 공유한다.
폴리뉴클레오티드 변형 주형 또는 공여 DNA는 DNA 표적 부위와 상동 재조합(HR)을 겪을 수 있다. 본원에서 폴리뉴클레오티드 변형 주형 또는 공여 DNA 내의 "상동 서열"은 예를 들어, 표적 부위 또는 그 부근의 서열과 100% 동일성, 또는 표적 부위 또는 그 부근의 서열과 적어도 약 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99% 동일성을 갖는, 예를 들어, 적어도 약 25개의 뉴클레오티드의 서열을 포함하거나 이로 구성될 수 있다.
폴리뉴클레오티드 변형 주형 또는 공여 DNA는 표적 부위의 서열과 이종성인 서열(또는 염기 쌍)에 의해 분리된 2개의 상동 서열을 가질 수 있다. 이러한 폴리뉴클레오티드 변형 주형 또는 공여 DNA의 이들 2개의 상동 서열은 이종 서열에 플랭킹한 "상동 암(arm)"으로 지칭될 수 있다. 2개의 상동 암을 가진 폴리뉴클레오티드 변형 주형 또는 공여 DNA와 표적 부위 간의 HR은 일반적으로 표적 부위에서 서열의 편집을 제공한다.
상동 영역은 절단된 표적 부위에서 상동 재조합을 촉진하기에 충분한 임의의 길이를 가질 수 있다. 예를 들어, 상동 영역이 해당 게놈 영역과 상동 재조합을 겪기에 충분한 상동성을 갖도록, 상동 영역은 적어도 5~10, 5~15, 5~20, 5~25, 5~30, 5~35, 5~40, 5~45, 5~50, 5~55, 5~60, 5~65, 5~70, 5~75, 5~80, 5~85, 5~90, 5~95, 5~100, 5~200, 5~300, 5~400, 5~500, 5~600, 5~700, 5~800, 5~900, 5~1000, 5~1100, 5~1200, 5~1300, 5~1400, 5~1500, 5~1600, 5~1700, 5~1800, 5~1900, 5~2000, 5~2100, 5~2200, 5~2300, 5~2400, 5~2500, 5~2600, 5~2700, 5~2800, 5~2900, 5~3000, 5~3100 이상의 염기 길이를 포함할 수 있다. "충분한 상동성"은 2개의 폴리뉴클레오티드 서열이 상동 재조합 반응을 위한 기질로서 작용하기에 충분한 구조적 유사성을 갖는다는 것을 의미한다. 구조적 유사성은 각각의 폴리뉴클레오티드 단편의 전체 길이, 뿐만 아니라 폴리뉴클레오티드의 서열 유사성을 포함한다. 서열 유사성은, 서열의 전체 길이에 걸친 백분율 서열 동일성, 및/또는 100% 서열 동일성을 갖는 연속된 뉴클레오티드와 같은 국부적 유사성을 포함하는 보존 영역, 및 서열의 일부 길이에 걸친 백분율 서열 동일성에 의해 설명될 수 있다.
표적 및 폴리뉴클레오티드 변형 주형 또는 공여 DNA가 공유하는 상동성의 양 또는 서열 동일성은 다를 수 있고, 약 1~20 bp, 20~50 bp, 50~100 bp, 75~150 bp, 100~250 bp, 150~300 bp, 200~400 bp, 250~500 bp, 300~600 bp, 350~750 bp, 400~800 bp, 450~900 bp, 500~1000 bp, 600~1250 bp, 700~1500 bp, 800~1750 bp, 900~2000 bp, 1~2.5 kb, 1.5-3 kb, 2~4 kb, 2.5~5 kb, 3~6 kb, 3.5~7 kb, 4~8 kb, 5~10 kb, 또는 표적 부위의 총 길이까지의 범위의 단위 정수값을 갖는 총 길이 및/또는 영역을 포함한다. 이들 범위는 범위 내 모든 정수를 포함하는데, 예를 들어, 1~20 bp의 범위는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 및 20 bp를 포함한다. 상동성의 양은 2개의 폴리뉴클레오티드의 전체 정렬 길이에 걸친 백분율 서열 동일성에 의해 설명될 수도 있는데, 이는 약 적어도 50%, 55%, 60%, 65%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%의 백분율 서열 동일성을 포함한다. 충분한 상동성은 폴리뉴클레오티드 길이, 전체 백분율 서열 동일성, 및 선택적으로, 연속된 뉴클레오티드의 보존 영역 또는 국소 백분율 서열 동일성의 임의의 조합을 포함하는데, 예를 들어, 충분한 상동성은 표적 유전자좌의 영역과 적어도 80% 서열 동일성을 갖는 75~150 bp의 영역으로써 설명될 수 있다. 충분한 상동성은 매우 엄격한 조건 하에서 2개의 폴리뉴클레오티드의 특이적 혼성화 능력 예측에 의해 설명될 수도 있다(예를 들어, Sambrook et al., (1989) Molecular Cloning: A Laboratory Manual, (Cold Spring Harbor Laboratory Press, NY); Current Protocols in Molecular Biology, Ausubel et al., Eds (1994) Current Protocols, (Greene Publishing Associates, Inc. 및 John Wiley & Sons, Inc.); 및, Tijssen (1993) Laboratory Techniques in Biochemistry and Molecular Biology--Hybridization with Nucleic Acid Probes, (Elsevier, New York) 참조).
일 구현예에서, 본 발명은, 대장균 세포의 게놈 내 뉴클레오티드 서열을 편집하는 방법으로서, 가이드 RNA를 암호화하는 DNA 서열을 포함하는 적어도 하나의 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형을, 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제 DNA 서열을 포함하는 대장균 세포에 제공하는 단계를 포함하되, 상기 Cas9 엔도뉴클레아제 DNA 서열은 상기 대장균 세포의 게놈 내 표적 부위에서 이중 가닥 절단을 도입할 수 있는 Cas9 엔도뉴클레아제를 암호화하고, 상기 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는 방법을 기술한다. 대장균 세포의 게놈 내 뉴클레오티드 서열은 프로모터 서열, 종결자 서열, 조절 요소 서열, 암호화 서열, 프로파지, 위유전자, 외인성 유전자, 내인성 유전자로 이루어진 군으로부터 선택될 수 있다. 가이드 RNA를 암호화하는 DNA 서열을 포함하는 재조합 DNA 작제물은 원형 플라스미드를 통해 제공될 수 있다. 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형은 별개의 플라스미드 상에 제공되거나 단일 플라스미드 상에 제공될 수 있다. 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형은 전기천공, 열 충격, 파지 전달, 결합, 접합 및 형질도입, 또는 이들의 임의의 조합으로 이루어진 군으로부터 선택되는 하나의 수단을 통해 제공될 수 있다.
편집될 뉴클레오티드 서열은 내인성 서열, 인공적 서열, 기존 서열, 또는 편집 중인 세포에 형질전환되는 서열일 수 있다. 예를 들어, 세포의 게놈 내 뉴클레오티드 서열은 천연 유전자, 돌연변이 유전자, 비 천연 유전자, 외래 유전자, 또는 세포의 게놈에 안정적으로 혼입된 이식유전자일 수 있다. 이러한 뉴클레오티드의 편집에 의해 더 바람직한 표현형 또는 유전자형을 얻을 수 있다.
일 구현예에서, 본 개시는, 대장균 세포의 게놈 내 뉴클레오티드 서열을 편집하는 방법으로서, 적어도, 가이드 RNA를 암호화하는 DNA 서열을 포함하는 제1 재조합 DNA 작제물, 원형 폴리뉴클레오티드 변형 주형, 및 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제를 암호화하는 DNA 서열을 포함하는 제2 재조합 DNA 작제물을, 대장균 세포에 제공하는 단계를 포함하되, Cas9 엔도뉴클레아제는 상기 대장균 세포의 게놈 내 표적 부위에서 이중 가닥 절단을 도입하고, 상기 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는 방법을 기술한다.
본 발명의 일 구현예에서, 상기 방법은, 대장균 세포의 게놈에 관심 있는 폴리뉴클레오티드 서열을 삽입하는 방법으로서, 가이드 RNA를 암호화하는 DNA 서열을 포함하는 적어도 하나의 재조합 DNA 작제물 및 원형 공여 DNA를, 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제 DNA 서열을 포함하는 대장균 세포에 제공하는 단계를 포함하되, 상기 Cas9 엔도뉴클레아제 DNA 서열은 상기 대장균 세포의 게놈 내 표적 부위에서 이중 가닥 절단을 도입할 수 있는 Cas9 엔도뉴클레아제를 암호화하고, 상기 공여 DNA는 폴리뉴클레오티드를 포함하는 방법을 포함한다.
대장균 내 표적 부위의 예는 당 활용 유전자(예를 들어, 갈락토키나제, galK), 대사 유전자(예를 들어, 이소시트레이트 데하이드로게나제, icd, (Kabir MM, Shimizu K. 2004. Applied microbiology and biotechnology 65:84-96)), 생합성 유전자(예를 들어, 티미딜레이트 합성 효소, thyA (Belfort M, Maley G, Pedersen-Lane J, Maley F. PNAS. 1983. 80(16):4914-18), 전사 조절자(예를 들어, 일반적인 스트레스 반응 조절자, rpoS (Notley-McRobb L, King T, Ferenci T (2002) J Bacteriol 184(3);806-11. PMID: 11790751), 신호 단백질(예를 들어, 무산소 산화 환원 조절 센서, arcB(Iuchi S, Matsuda Z, Fujiwara T, Lin EC (1990). Mol Microbiol 1990;4(5);715-27. PMID: 2201868), tRNA(예를 들어, tRNA 알라닌, alaU (Siekevitz P, Zamecnik PC (1981). Cell Biol 91(3 Pt 2);53s-65s. PMID: 7033244)), 스트레스 반응 단백질(예를 들어, 파지 쇼크 단백질 A, pspA (Adams H, Teertstra W, Demmers J, Boesten R, Tommassen J (2003). J Bacteriol 2003;185(4);1174-80. PMID: 12562786)), 리보솜 성분(예를 들어, S12 리보솜 단백질, rpsL,(Funatsu G, Yaguchi M, Wittmann-Liebold B (1977). "Primary stucture of protein S12 from the small Escherichia coli ribosomal subunit." FEBS Lett 73(1);12-7. PMID: 320034) 및 23s 리보솜 RNA, rrlD(Arkov AL, Hedenstierna KO, Murgola EJ (2002). "Mutational evidence for a functional connection between two domains of 23S rRNA in translation termination." J Bacteriol 184(18);5052-7. PMID: 12193621)), DNA 복제(e.g. DNA 폴리머라제 II, polB(Chen H, Bryan SK, Moses RE (1989). "Cloning the polB gene of Escherichia coli and identification of its product." J Biol Chem 264(34);20591-5. PMID: 2684981)), 전사 기구(예를 들어, RNA 폴리머라제의 β' 서브유닛, rpoC(Squires C, Krainer A, Barry G, Shen WF, Squires CL (1981). "Nucleotide sequence at the end of the gene for the RNA polymerase beta' subunit (rpoC)." Nucleic Acids Res 1981;9(24);6827-40. PMID: 6278450), 전달자(예를 들어, 락토스 투과효소, lacY(Buchel DE, Gronenborn B, Muller-Hill B (1980). "Sequence of the lactose permease gene." Nature 1980;283(5747);541-5. PMID: 6444453)), 파지 부착 부위(예를 들어, λ 부착 부위, attB (Landy A, Ross W (1977). "Viral integration and excision: structure of the lambda att sites." Science 197(4309);1147-60. PMID: 331474)), 프로파지 유전자(예를 들어, 세포 분열의 rac 프로파지 억제제, kilR(Conter A, Bouche JP, Dassain M (1996). "Identification of a new inhibitor of essential division gene ftsZ as the kil gene of defective prophage Rac." J Bacteriol 178(17);5100-4. PMID: 8752325)), 또는 세포 분열(예를 들어, 세포 분열 고리, ftsZ (Robinson AC, Kenan DJ, Hatfull GF, Sullivan NF, Spiegelberg R, Donachie WD (1984). "DNA sequence and transcriptional organization of essential cell division genes ftsQ and ftsA of Escherichia coli: evidence for overlapping transcriptional units." J Bacteriol 160(2);546-55. PMID: 6094474))을 포함한다. 표적 부위에 적합한 추가 유전자가 정의되었다(Karp PD, Weaver D, Paley S, Fulcher C, Kubo A, Kothari A, Krummenacker M, Subhraveti P, Weerasinghe D, Gama-Castro S, Huerta AM, Muniz-Rascado L, Bonavides-Martinez C, Weiss V, Peralta-Gil M, Santos-Zavaleta A, Schroder I, Mackie A, Gunsalus R, Collado-Vides J, Keseler IM, Paulsen I. 2014. The EcoCyc Database. EcoSal Plus 2014; Keseler IM, Collado-Vides J, Santos-Zavaleta A, Peralta-Gil M, Gama-Castro S, Muniz-Rascado L, Bonavides-Martinez C, Paley S, Krummenacker M, Altman T, Kaipa P, Spaulding A, Pacheco J, Latendresse M, Fulcher C, Sarker M, Shearer AG, Mackie A, Paulsen I, Gunsalus RP, Karp PD. 2011. EcoCyc: a comprehensive database of Escherichia coli biology. Nucleic acids research 39:D583-590.; Keseler IM, Bonavides-Martinez C, Collado-Vides J, Gama-Castro S, Gunsalus RP, Johnson DA, Krummenacker M, Nolan LM, Paley S, Paulsen IT, Peralta-Gil M, Santos-Zavaleta A, Shearer AG, Karp PD. 2009. EcoCyc: a comprehensive view of Escherichia coli biology. Nucleic acids research 37:D464-470;. Escherichia coli and Salmonella typhimurium: Cellular and Molecular Biology, 1987 First ed. American Society of Microbiology, Washington, DC.
용어 "세포 침투성 펩티드"(CPP) 및 "단백질 형질도입 도메인"(PTD)은 본원에서 상호교환적으로 사용된다. CPP는 단백질 화물, 특히, 본원에 기재된 하나 이상의 RGEN 단백질 성분(예컨대, Cas9 단백질)의 세포 흡수를 촉진할 수 있는, 일반적으로 길이가 약 5~60개 아미노산 잔기인 펩티드를 지칭한다. 이러한 단백질 화물은 공유 또는 비 공유 연결을 통해 하나 이상의 CPP들과 결합될 수 있다. 또한, 특정 구현예에서 CPP는 지질 이중층, 마이셀, 세포막, 세포 기관 막, 소포막, 또는 세포벽 중 하나 이상을 가로질러/통해 단백질 화물의 이동 또는 횡단을 촉진할 수 있는 것을 특징으로 할 수 있다. 본원의 CPP는 특정 구현예에서 양이온성, 양친매성, 또는 소수성일 수 있다(예를 들어, 본원에 참조로 포함되는 2014년 8월 13일 출원된 미국 가특허 출원 62/036652호 참조).
용어 "부피 기준 백분율", "부피 백분율", "vol %" 및 "v/v %"는 본원에서 상호교환적으로 사용된다. 용액 중의 용질의 부피 기준 백분율은 식: [(용질의 부피)/(용액의 부피)] × 100%를 이용하여 결정할 수 있다.
용어 "중량 기준 백분율", "중량 백분율(wt%)" 및 "중량-중량 백분율(% w/w)"은 본원에서 상호교환적으로 사용된다. 중량 기준 백분율은 재료가 조성물, 혼합물 또는 용액 중에 포함될 때 질량을 기준으로 한 재료의 백분율을 지칭한다.
용어 "폴리뉴클레오티드", "폴리뉴클레오티드 서열" 및 "핵산 서열"은 본원에서 상호교환적으로 사용된다. 이들 용어는 뉴클레오티드 서열 등을 포함한다. 폴리뉴클레오티드는 합성, 비 천연 또는 변경된 뉴클레오티드 염기를 선택적으로 포함하는 단일- 또는 이중-가닥인 DNA 또는 RNA의 중합체일 수 있다. 폴리뉴클레오티드는 cDNA, 게놈 DNA, 합성 DNA, 또는 이의 혼합물의 하나 이상의 세그먼트로 이루어질 수 있다. 뉴클레오티드(리보뉴클레오티드 또는 데옥시리보뉴클레오티드)는 다음과 같이 단일 문자 표기로 지칭될 수 있다: (각각 RNA 또는 DNA에 있어서) 아데닐레이트 또는 데옥시아데닐레이트는 "A", (각각 RNA 또는 DNA에 있어서) 시티딜레이트 또는 데옥시시티딜레이트는 "C", (각각 RNA 또는 DNA에 있어서) 구아닐레이트 또는 데옥시구아닐레이트는 "G", (RNA에 있어서) 유리딜레이트는 "U", (DNA에 있어서) 데옥시티미딜레이트는 "T", 퓨린(A 또는 G)은 "R", 피리미딘(C 또는 T)은 "Y", G 또는 T는 "K", A 또는 C 또는 T는 "H", 이노신은 "I", A 또는 T는 "W" 및 임의의 뉴클레오티드는 "N"(예를 들어, DNA 서열을 지칭하는 경우 N은 A, C, T 또는 G일 수 있고; RNA 서열을 지칭하는 경우 N은 A, C, U 또는 G일 수 있다). 본원에 개시된 임의의 RNA 서열(예를 들어, crRNA, tracrRNA, gRNA)은 적합한 DNA 서열에 의해 암호화될 수 있다.
용어 "단리된"은 이의 천연 공급원으로부터 완전히 또는 부분적으로 정제된 폴리뉴클레오티드 또는 폴리펩티드 분자를 지칭한다. 일부 경우에, 단리된 폴리뉴클레오티드 또는 폴리펩티드 분자는 더 큰 조성물, 완충액 시스템 또는 시약 믹스의 일부이다. 예를 들어, 단리된 폴리뉴클레오티드 또는 폴리펩티드 분자는 이종 방식으로 세포 또는 유기체 내에 포함될 수 있다.
용어 "유전자"는 암호화 영역으로부터 RNA(RNA는 DNA 폴리뉴클레오티드 서열로부터 전사됨)를 발현하는 DNA 폴리뉴클레오티드 서열을 지칭하며, RNA는 (단백질을 암호화하는) 메신저 RNA 또는 비-단백질-암호화 RNA (예를 들어, 본원의 crRNA, tracrRNA 또는 gRNA)일 수 있다. 유전자는 암호화 영역만을 지칭할 수 있거나, 암호화 영역(예를 들어, 프로모터, 5'-비해독 영역, 3'-전사 종결자 영역)의 상류 및/또는 하류의 조절 서열을 포함할 수 있다. 단백질을 암호화하는 암호화 영역은 본원에서 대안적으로 "오픈 리딩 프레임"(ORF)으로 지칭될 수 있다. "천연" 또는 "내인성"인 유전자는 자연에서 그 자체의 조절 서열을 가진 채 발견되는 유전자를 지칭하며, 이러한 유전자는 숙주 세포의 게놈에서 이의 자연적 위치에 위치한다. "키메라" 유전자는 자연에서 함께 발견되지 않는 조절 서열 및 암호화 서열을 포함하는, 천연 유전자가 아닌 임의의 유전자를 지칭한다(즉, 조절 영역과 암호화 영역이 서로 이종성이다). 따라서, 키메라 유전자는 상이한 공급원으로부터 유래된 조절 서열과 암호화 서열, 또는 동일한 공급원으로부터 유래되었지만, 자연에서 발견되는 것과 상이한 방식으로 배열된 조절 서열과 암호화 서열을 포함할 수 있다. "외래" 또는 "이종" 유전자는 유전자 전달에 의해 숙주 유기체 내로 도입된 유전자를 지칭한다. 외래/이종 유전자는 비 천연 유기체에 삽입된 천연 유전자, 천연 숙주 내의 새로운 위치로 도입된 천연 유전자, 또는 키메라 유전자를 포함할 수 있다. 본원에 개시된 특정 구현예에서 폴리뉴클레오티드 서열은 이종성이다. "코돈-최적화된" 오픈 리딩 프레임은 숙주 세포의 바람직한 코돈 사용 빈도를 모방하도록 설계된 코돈 사용 빈도를 나타낸다.
"변형된 유전자" 또는 "편집된 유전자"는 변형되지 않은 유전자 서열과 비교할 때 적어도 하나의 변경을 포함하는 관심 있는 유전자를 지칭한다. 이러한 "변경"은, 예를 들어, (i) 적어도 하나의 뉴클레오티드의 교체, (ii) 적어도 하나의 뉴클레오티드의 결실, (iii) 적어도 하나의 뉴클레오티드의 삽입, 또는 (iv) (i) 내지 (iii)의 임의의 조합을 포함한다.
본원에 사용된 "조절 서열"은 유전자의 전사 개시 부위(예를 들어, 프로모터), 5' 비해독 영역 및 3' 비 암호화 영역의 상류에 위치하며, 전사, 프로세싱 또는 안정성, 또는 유전자로부터 전사된 RNA의 번역에 영향을 줄 수 있는 뉴클레오티드 서열을 지칭한다. 본원의 조절 서열은 프로모터, 인핸서, 사일런서, 5' 비해독 선도 서열, 인트론, 폴리아데닐화 인식 서열, RNA 프로세싱 부위, 이펙터 결합 부위, 스템-루프 구조 및 유전자 발현의 조절에 관여하는 기타 요소를 포함할 수 있다. 본원의 하나 이상의 조절 요소는 본원의 암호화 영역에 대해 이종성일 수 있다.
본원에 사용된 "프로모터"는 유전자로부터의 RNA의 전사를 조절할 수 있는 DNA 서열을 지칭한다. 일반적으로, 프로모터 서열은 유전자의 전사 개시 부위의 상류에 있다. 프로모터는 천연 유전자로부터 그 전체가 유래될 수도 있거나, 자연에서 발견되는 상이한 프로모터들로부터 유래된 상이한 요소들로 구성될 수 있거나, 심지어 합성 DNA 세그먼트를 포함할 수 있다. 모든 환경하의 대부분의 경우에 세포에서 유전자가 발현되도록 하는 프로모터는 통상적으로 "항시성 프로모터(constitutive promoter)"라 지칭된다. 본원의 하나 이상의 프로모터는 본원의 암호화 영역에 대해 이종성일 수 있다.
본원에 사용된 "강력한 프로모터"는 단위 시간당 상대적으로 많은 수의 생산 개시를 이끌 수 있는 프로모터를 지칭하고/지칭하거나, 세포 내 유전자의 평균 전사 수준보다 더 높은 수준의 유전자 전사를 유도하는 프로모터이다.
항시성 대장균 프로모터는 당해 분야에 잘 알려져 있으며, 전사 인자에 의한 조절이 결여되고 RNA 폴리머라제만으로 인식되는 프로모터를 포함한다(Shimada T, Yamazaki Y, Tanaka K, Ishihama A. The whole set of constitutive promoters recognized by RNA polymerase RpoD holoenzyme of Escherichia coli. PLoS One. 2014. Mar 6; 9(3):e90447; Science 2002, Stochastic Gene Expression in a Single Cell Vol. 297 no. 5584 pp. 1183-1186).
본원에 사용된 용어 "3' 비 암호화 서열", "전사 종결자" 및 "종결자"는 암호화 서열의 하류에 위치한 DNA 서열을 지칭한다. 이는 폴리아데닐화 인식 서열 및 mRNA 프로세싱 또는 유전자 발현에 영향을 줄 수 있는 조절 신호를 암호화하는 기타 서열을 포함한다.
본원에 사용된 용어 "카세트"는 단백질 암호화 RNA 또는 비 단백질 암호화 RNA를 암호화하는 DNA 서열에 작동 가능하게 연결된 프로모터를 지칭한다. 카세트는 선택적으로 3' 비암호화 서열에 작동 가능하게 연결될 수 있다.
폴리뉴클레오티드와 관련하여 본원에 사용된 용어 "상류" 및 "하류"는 각각 "~의 5'" 및 "~의 3'"을 지칭한다.
본원에 사용된 용어 "발현"은 (i) 암호화 영역으로부터 RNA(예를 들어, mRNA, 또는 crRNA, tracrRNA 또는 gRNA와 같은 비 단백질 암호화 RNA)의 전사, 또는 (ii) mRNA로부터의 폴리펩티드의 번역을 지칭한다.
유전자 또는 폴리뉴클레오티드 서열의 발현을 설명하는 데 사용되는 경우, 용어 "하향 조절", "방해", "억제", "불활성화" 및 "침묵화"는 폴리뉴클레오티드 서열의 전사가 감소되거나 제거되는 경우를 지칭하도록 본원에서 상호교환적으로 사용된다. 이는 폴리뉴클레오티드 서열로부터의 RNA 전사물의 감소 또는 제거를 초래하며, 이는 (유전자가 ORF를 포함한 경우) 폴리뉴클레오티드 서열로부터 유래된 단백질 발현의 감소 또는 제거를 초래한다. 대안적으로, 하향 조절은 폴리뉴클레오티드 서열에 의해 생성된 전사물로부터의 단백질 번역이 감소되거나 제거된 경우를 지칭할 수 있다. 또한, 대안적으로, 하향 조절은 폴리뉴클레오티드 서열에 의해 발현된 단백질의 활성이 감소된 경우를 지칭할 수 있다. 세포에서 위의 공정(전사, 번역, 단백질 활성) 중 어느 하나의 감소는 적합한 대조 세포의 전사, 번역 또는 단백질 활성에 대하여 약 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 95% 또는 100%일 수 있다. 하향 조절은, 예를 들어, 본원에 개시된 바와 같은 표적화 이벤트(예를 들어, 삽입-결실, 녹아웃)의 결과일 수 있다.
용어 "대조 세포" 및 "적합한 대조 세포"는 본원에서 상호교환적으로 사용되며, 특정 변형(예를 들어, 폴리뉴클레오티드의 과발현, 폴리뉴클레오티드의 하향 조절)이 이루어진 세포(즉, "실험 세포")와 관련하여 언급될 수 있다. 대조 세포는 실험 세포의 특정 변형을 가지지 않거나 발현하지 않는 임의의 세포일 수 있다. 예를 들어, 대조 세포는 실험 세포의 직접적인 부모일 수 있으며, 직접적인 부모 세포는 실험 세포에 있는 특정 변형을 가지지 않는다. 대안적으로, 대조 세포는 하나 이상의 세대에 의해 제거되는 실험 세포의 부모일 수 있다. 또한, 대안적으로, 대조 세포는 실험 세포의 형제일 수 있으며, 형제 세포는 실험세포에 존재하는 특정 변형을 포함하지 않는다.
본원에 사용된 용어 "증가된"은 증가된 양 또는 활성이 비교되는 양 또는 활성보다 적어도 약 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11%, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 50%, 100%, 또는 200% 초과인 양 또는 활성을 지칭할 수 있다. 용어 "증가된", "상승된", "증진된", "보다 많은" 및 "개선된"은 본원에서 상호교환적으로 사용된다. 용어 "증가된"은 단백질을 암호화하는 폴리뉴클레오티드의 발현을 특성화하는 데 사용될 수 있는데, 예를 들어, "증가된 발현"은 또한 "과발현"을 의미할 수 있다.
본원에 사용된 용어 "작동 가능하게 연결된"은 하나의 기능이 다른 것에 의해 영향을 받는 둘 이상의 핵산 서열의 결합을 지칭한다. 예를 들어, 프로모터는 그것이 그 암호화 서열의 발현에 영향을 미칠 수 있는 경우에 암호화 서열에 작동 가능하게 연결된다. 다시 말하면, 암호화 서열은 프로모터의 전사적 조절하에 있다. 암호화 서열은, 예를 들어, 조절 서열에 작동 가능하게 연결될 수 있다. 또한, 예를 들어, crRNA는 crRNA의 tracrRNA 메이트 서열이 tracrRNA의 5' 서열과 어닐링하도록 본원의 tracrRNA에 작동 가능하게 연결(융합)될 수 있다.
본원에 사용된 용어 "재조합"은, 예를 들어, 화학적 합성에 의한 또는 유전자 조작 기술에 의해 분리된 핵산 세그먼트의 조작에 의한, 그렇지 않았다면 분리된 2개의 서열 세그먼트들의 인공적인 조합을 지칭한다.
본원의 재조합 작제물/벡터(예를 들어, 본원의 RNA 성분 카세트를 암호화하는 DNA 폴리뉴클레오티드, 또는 본원의 Cas 단백질 또는 Cas-CPP 융합 단백질을 암호화하는 DNA 폴리뉴클레오티드)를 제조하는 방법은 예를 들어, J. Sambrook 및 D. Russell (Molecular Cloning: A Laboratory Manual, 3rd Edition, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY, 2001); T.J. Silhavy et al. (Experiments with Gene Fusions, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY, 1984); 및 F.M. Ausubel et al. (Short Protocols in Molecular Biology, 5th Ed. Current Protocols, John Wiley and Sons, Inc., NY, 2002)에 기술된 바와 같은 표준 재조합 DNA 및 분자 클로닝 기술을 따를 수 있다.
"표현형 마커"는 시각적 마커 및 그것이 양성의 선택 가능한 마커든 음성의 선택 가능한 마커든 선택 가능한 마커를 포함하는, 스크리닝이 가능하거나 선택 가능한 마커이다. 임의의 표현형 마커가 이용될 수 있다. 구체적으로, 선택 가능하거나 스크리닝 가능한 마커는 종종 특정한 조건 하에서, 그것을 포함하는 분자 또는 세포를 확인할 수 있게 하거나, 그것을 포함하는 분자 또는 세포를 선택할 수 있게 하거나, 그것을 포함하는 분자 또는 세포에 대해 선택할 수 있게 하는 DNA 세그먼트를 포함한다. 이들 마커는 활성, 예컨대, RNA, 펩티드, 또는 단백질의 생산(그러나 이에 한정되지 않음)을 암호화할 수 있거나, RNA, 펩티드, 단백질, 무기 및 유기 화합물 또는 조성물 등을 위한 결합 부위를 제공할 수 있다.
대장균에 대한 선택 가능한 마커의 예는 항생제(암피실린, 카르베니실린, 페니실린, 클로람페니콜, 카나마이신, 테트라사이클린, 에리트로마이신, 스펙티노마이신, 스트렙토마이신)에 대한 저항성 및 영양요구성 마커(아미노산 생합성, 당 활용, 및 비타민 생합성)를 포함한다(Methods for General and Molecular Bacteriology. 1994. ASM Press, Washington D.C).
대장균 내 스크리닝 가능한 마커는 형광 단백질(GFP, RFP, CFP, YFP), 당 활용(락토스, 리보스, 글루코스, 수크로스, 갈락토스, 글리세롤)(Methods for General and Molecular Bacteriology. 1994. ASM Press, 워싱턴 D.C.) 및 특이한 프라이머 결합 부위의 생성을 포함한다.
폴리뉴클레오티드 또는 폴리펩티드 서열과 관련하여 본원에 사용된 용어 "서열 동일성" 또는 "동일성"은 소정의 비교창에서 최대 상응도로 정렬되는 경우에 동일한 두 서열 내의 핵산 잔기 또는 아미노산 잔기를 지칭한다. 따라서, "서열 동일성 백분율" 또는 "백분율 동일성"은 비교창에서 최적으로 정렬된 2개의 서열을 비교하여 결정된 값을 지칭하며, 이때, 비교창 내의 폴리뉴클레오티드 또는 폴리펩티드 서열의 부분은 2개의 서열의 최적 정렬을 위한 (삽입 또는 결실을 포함하지 않는) 기준 서열과 비교하여 삽입 또는 결실(즉, 갭)을 포함할 수 있다. 백분율은, 두 서열에서 동일한 핵산 염기 또는 아미노산 잔기가 나타나는 위치의 개수를 결정하여 일치하는 위치의 개수를 산출하고, 일치하는 위치의 개수를 비교창 내의 위치의 총 개수로 나누고, 그 결과에 100을 곱하여 서열 동일성의 백분율을 산출함으로써 계산한다. DNA 서열과 RNA 서열 사이의 서열 동일성을 계산하는 경우, DNA 서열의 T 잔기가 RNA 서열의 U 잔기와 정렬되며, 이와 "동일"하다고 간주될 수 있음을 이해할 것이다. 제1 폴리뉴클레오티드와 제2 폴리뉴클레오티드의 백분율 상보성을 결정하기 위해, 예를 들어 (i) 제1 폴리뉴클레오티드와 제2 폴리뉴클레오티드의 보체 서열(또는 그 반대) 사이의 백분율 동일성, 및/또는 (ii) 표준(canonical) 왓슨과 크릭 염기쌍을 생성할 제1 폴리뉴클레오티드와 제2 폴리뉴클레오티드 사이의 염기의 백분율을 결정함으로써 이를 얻을 수 있다.
예를 들어, 국립 생물공학 정보 센터(National Center for Biotechnology Information; NCBI) 웹사이트에서 온라인으로 이용 가능한 기본 국소 정렬 검색 도구(Basic Local Alignment Search Tool; BLAST) 알고리즘을 사용하여, 본원에 개시된 둘 이상의 폴리뉴클레오티드 서열(BLASTN 알고리즘) 또는 폴리펩티드 서열(BLASTP 알고리즘) 사이의 백분율 동일성을 측정할 수 있다. 대안적으로, 서열 사이의 백분율 동일성은 클러스탈(Clustal) 알고리즘(예를 들어, 클러스탈W 또는 클러스탈V)을 사용하여 수행될 수 있다. 클러스탈 정렬 방법을 사용하는 다중 정렬의 경우, 디폴트 값은 갭 페널티(GAP PENALTY)=10 및 갭 길이 페널티(GAP LENGTH PENALTY)=10에 상응할 수 있다. 클러스탈 방법을 사용하는 단백질 서열의 백분율 동일성의 계산 및 쌍 정렬을 위한 디폴트 파라미터는 케이터플(KTUPLE)=1, 갭 페널티=3, 윈도우(WINDOW)=5 및 다이아고날스 세이브드(DIAGONALS SAVED)=5일 수 있다. 핵산의 경우, 이들 파라미터는 케이터플=2, 갭 페널티=5, 윈도우=4 및 다이아고날스 세이브드=4일 수 있다. 또한, 대안적으로, 서열 사이의 백분율 동일성은 블로섬(BLOSUM) 매트릭스(예를 들어, 블로섬62)를 사용하는 갭 오픈(GAP OPEN)=10, 갭 연장(GAP EXTEND)=0.5, 엔드 갭 페널티(END GAP PENALTY)=false, 엔드 갭 오픈=10, 엔드 갭 연장=0.5와 같은 파라미터를 갖는 엠보스(EMBOSS) 알고리즘(예를 들어, 니들(needle))을 사용하여 수행될 수 있다.
본원에서, 제2 서열에 "상보적인" 제1 서열은 대안적으로 제2 서열에 대해 "안티센스(antisense)" 배향인 것으로 지칭될 수 있다.
다양한 폴리펩티드 아미노산 서열 및 폴리뉴클레오티드 서열은 개시된 본 발명의 특정 구현예의 특징으로서 본원에 개시되어 있다. 본원에 개시된 서열과 적어도 약 70 내지 85%, 85 내지 90%, 또는 90% 내지 95% 동일한 이들 서열의 변이체가 사용될 수 있다. 대안적으로, 변이체 아미노산 서열 또는 폴리뉴클레오티드 서열은 본원에 개시된 서열과 적어도 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99% 동일성을 가질 수 있다. 변이체 아미노산 서열 또는 폴리뉴클레오티드 서열은 개시된 서열과 동일한 기능/활성, 또는 개시된 서열의 기능/활성의 적어도 약 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99%를 갖는다.
본원의 Cas9 단백질의 각각의 아미노산 위치에서의 본원에 개시된 모든 아미노산 잔기는 예이다. 특정 아미노산이 서로 유사한 구조적 특징 및/또는 전하 특징을 공유함(즉, 보존)을 고려하면, Cas9의 각 위치에서의 아미노산은 개시된 서열에서 제공된 것과 같거나, 다음과 같이 보존된 아미노산 잔기로 치환될 수 있다("보존적 아미노산 치환"):
1. 다음과 같은 작은 지방족의 비극성 또는 약간 극성인 잔기가 서로를 대체할 수 있다: Ala (A), Ser (S), Thr(T), Pro (P), Gly (G);
2. 다음과 같은 극성의 음으로 하전된 잔기 및 그들의 아미드가 서로를 대체할 수 있다: Asp (D), Asn (N), Glu (E), Gln (Q);
3. 다음과 같은 극성의 양으로 하전된 잔기가 서로를 대체할 수 있다: His (H), Arg (R), Lys (K);
4. 다음과 같은 지방족의 비극성 잔기가 서로를 대체할 수 있다: Ala (A), Leu (L), Ile (I), Val (V), Cys (C), Met (M); 및
5. 다음과 같은 큰 방향족 잔기가 서로를 대체할 수 있다: Phe (F), Tyr (Y), Trp (W).
본원에서 대장균 세포와 같은 박테리아 세포의 게놈은 세포에 자율적으로 존재할 수 있는(복제할 수 있고 딸 세포로 전달할 수 있는) DNA 분자를 지칭한다. 게놈 DNA는 세포에 천연적이거나 이종성일 수 있다. 대장균 내 게놈 DNA의 예는 플라스미드 DNA뿐만 아니라 큰 원형 DNA 분자 상에 위치한 DNA를 포함한다.
본원의 용어 "세포"는 임의의 유형의 세포, 예컨대, 원핵 세포 또는 진핵 세포를 지칭한다. 진핵 세포는 핵 및 기타 막으로 둘러싸인 구조물(세포 기관)이 있지만, 원핵 세포는 핵이 없다. 특정 구현예에서의 세포는 포유류 세포 또는 비 포유류 세포일 수 있다. 비 포유류 세포는 진핵 또는 원핵일 수 있다. 예를 들어, 본원의 비 포유류 세포는 미생물 세포 또는 비 포유류의 다세포 유기체, 예컨대, 식물, 곤충, 선충, 조류 종, 양서류, 파충류, 또는 어류의 세포를 지칭할 수 있다. 본원의 미생물 세포는 예를 들어, 곰팡이 세포(예컨대, 효모 세포), 원핵 세포, 원생 세포(예컨대, 조류 세포), 유글레나 세포, 스트라메노필(stramenopile) 세포, 또는 난균 세포를 지칭할 수 있다. 본원의 원핵 세포는 예를 들어, 박테리아 세포 또는 고세균 세포를 지칭할 수 있다.
박테리아 세포는 구균, 간균, 스피로헤타, 스페로플라스트, 원형질체 등의 형태인 것들일 수 있다. 기타 비제한적인 박테리아의 예로는 그램 음성 및 그램 양성인 것들이 포함된다. 또 다른 비제한적인 박테리아의 예에는 살모넬라(예컨대, S. 티피(typhi), S. 엔테리티디스(enteritidis)), 시겔라(예컨대, S. 디스엔테리아에(dysenteriae))), 에스케리챠(예컨대, 대장균), 엔테로박터(Enterobacter), 세라티아(Serratia), 프로테우스(Proteus), 예시니아, 시트로박터(Citrobacter), 에드워드시엘라(Edwardsiella), 프로비덴시아(Providencia), 클레브시엘라(Klebsiella), 하프니아(Hafnia), 에윈겔라(Ewingella), 클루이베라(Kluyvera), 모르가넬라(Morganella), 플라노코커스(Planococcus), 스토마토코커스(Stomatococcus), 미크로코커스(Micrococcus), 스타필로코커스(예컨대, S. 아우레우스(aureus), S. 에피데르미디스(epidermidis)), 비브리오(예컨대, V. 콜레라에(cholerae)), 아에로모나스(Aeromonas), 플레스시오모나스(Plessiomonas), 해모필루스(Haemophilus)(예컨대, H. 인플루엔자), 악티노바실루스(Actinobacillus), 파스퇴렐라(Pasteurella), 마이코플라스마(Mycoplasma)(예컨대, M. 뉴모니아(pneumonia)), 우레아플라스마(Ureaplasma), 리케챠(Rickettsia), 콕시엘라(Coxiella), 로카리마에(Rochalimaea), 에르리키아(Ehrlichia), 스트렙토코커스(Streptococcus)(예컨대, S. 피오제네스, S. 뮤탄스, S. 뉴모니아에), 엔테로코커스(Enterococcus)(예컨대, E. 패칼리스(faecalis)), 애로코커스(Aerococcus), 게멜라(Gemella), 락토코커스(Lactococcus)(예컨대, L. 락티스(lactis)), 류코노스톡(Leuconostoc)(예컨대, L. 메센테로이데스(mesenteroides), 페디코커스(Pedicoccus), 바실루스(예컨대, B. 세레우스(cereus), B. 서브틸리스(subtilis), B. 튜린겐시스(thuringiensis)), 코리네박테리움(Corynebacterium)(예컨대, C. 디프테리아(diphtheriae)), 아르카노박테리움(Arcanobacterium), 악티노마이세스(Actinomyces), 로도코커스(Rhodococcus), 리스테리아(Listeria)(예컨대, L. 모노시토게네스(monocytogenes)), 에리시페로트릭스(Erysipelothrix), 가드네렐라(Gardnerella), 네이세리아(Neisseria)(예컨대, N. 메닌기티디스(meningitidis), N. 고노르호에(gonorrhoeae)), 캄필로박터(Campylobacter), 아르코박터(Arcobacter), 울리넬라(Wolinella), 헬리코박터(Helicobacter)(예컨대, H. 파일로리(pylori)), 아크로모박터(Achromobacter), 아시네토박터(Acinetobacter), 아그로박테리움(Agrobacterium)(예컨대, A. 투메파시엔스(tumefaciens)), 알카리게네스(Alcaligenes), 크리세오모나스(Chryseomonas), 코마모나스(Comamonas), 에이케넬라(Eikenella), 플라비모나스(Flavimonas), 플라보박테리움(Flavobacterium), 모라셀라(Moraxella), 올리겔라(Oligella), 슈도모나스(Pseudomonas)(예컨대, P. 애루기노사(aeruginosa)), 세와넬라(Shewanella), 위크셀라(Weeksella), 산토모나스(Xanthomonas), 보르데텔라(Bordetella), 프란시에셀라(Franciesella), 브루셀라(Brucella), 레지오넬라(Legionella), 아피피아(Afipia), 바르토넬라(Bartonella), 카림마토박테리움(Calymmatobacterium), 카르디오박테리움(Cardiobacterium), 스트렙토바실루스(Streptobacillus), 스피릴룸(Spirillum), 펩토스트렙토코커스(Peptostreptococcus), 펩토코커스(Peptococcus), 사르시니아(Sarcinia), 코프로코커스(Coprococcus), 루미노코커스(Ruminococcus), 프로피오니박테리움(Propionibacterium), 모비룬커스(Mobiluncus), 비피도박테리움(Bifidobacterium), 유박테리움(Eubacterium), 락토바실루스(Lactobacillus)(예컨대, L. 락티스(lactis), L. 아시도필루스(acidophilus)), 로티아(Rothia), 클로스트리듐(Clostridium)(예컨대, C. 보툴리눔(botulinum), C. 퍼프린겐스(perfringens)), 박테로이데스(Bacteroides), 포르피로모나스(Porphyromonas), 프레보텔라(Prevotella), 푸소박테리움(Fusobacterium), 빌로필라(Bilophila), 렙토트리키아(Leptotrichia), 울리넬라(Wolinella), 아시다미노코커스(Acidaminococcus), 메가스패라(Megasphaera), 베일로넬라(Veilonella), 노르카르디아(Norcardia), 악티노마두라(Actinomadura), 노르카디옵시스(Norcardiopsis), 스트렙토마이세스(Streptomyces), 마이크로폴리스포라스(Micropolysporas), 테르모악티노마이세테스(Thermoactinomycetes), 마이코박테리움(Mycobacterium)(예컨대, M. 튜버큘로시스(tuberculosis), M. 보비스(bovis), M. 레프라(leprae)), 트레포네마(Treponema), 보렐리아(Borrelia)(예컨대, B. 부르그도르페리(burgdorferi)), 렙토스피라(Leptospira) 및 클라미디아(Chlamydiae) 속의 것들을 들 수 있다. 특정 구현예에서 박테리아는 선택적으로 식물 또는 동물(예컨대, 인간)의 해충/병원균을 특징으로 할 수 있다. 박테리아는 특정 구현예에서 (예컨대, 기타 박테리아를 함유하거나 효모 및/또는 기타 박테리아를 함유하는) 혼합 미생물 집단 내에 포함될 수 있다.
특정 구현예에서 고세균 세포는 임의의 고세균 문(Archaeal phylum), 예컨대, 유리고세균(Euryarchaeota), 크렌고세균(Crenarchaeota), 나노고세균(Nanoarchaeota), 코르고세균(Korarchaeota), 아이가르고세균(Aigarchaeota), 또는 타움고세균(Thaumarchaeota)으로부터 유래할 수 있다. 본원의 고세균 세포는 예를 들어, 호극성일 수 있다(예컨대, 대부분의 생명체에 유해한 물리적으로 또는 지구화학적으로 극도의 조건에서 성장 및/또는 번식할 수 있다). 호극성 고세균의 일부 예에는 호온성(예컨대, 45~122℃의 온도에서 성장할 수 있음), 과호열성(예컨대, 80~122℃의 온도에서 성장할 수 있음), 호산성(예컨대, 3 이하의 pH 수준에서 성장할 수 있음), 호알칼리성(예컨대, 9 이상의 pH 수준에서 성장할 수 있음), 및/또는 호염성(예컨대, 고염 농도[예를 들어, 20~30% NaCl]에서 성장할 수 있음)인 것들이 포함된다. 고세균 종의 예로는 할로박테리움(Halobacterium)(예컨대, H. 볼카니이(volcanii)), 설폴로부스(Sulfolobus)(예컨대, S. 설파타리쿠스(solfataricus), S. 아시도칼다리우스(acidocaldarius)), 써모코커스(Thermococcus)(예컨대, T. 알칼리필루스(alcaliphilus), T. 셀레르(celer), T. 키토노파구스(chitonophagus), T. 감마톨레란스(gammatolerans), T. 하이드로써말리스(hydrothermalis), T. 코다카렌시스(kodakarensis), T. 리토랄리스(litoralis), T. 펩토노필루스(peptonophilus), T. 프로푼두스(profundus), T. 스테테리(stetteri)), 메타노칼도코커스(Methanocaldococcus)(예컨대, M. 써모리토트로피쿠스(thermolithotrophicus), M. 잔나스키이(jannaschii)), 메타노코커스(Methanococcus)(예컨대, M. 마리팔루디스(maripaludis)), 메타노써모박터(Methanothermobacter)(예컨대, M. 마르부르겐시스(marburgensis), M. 써마우토트로피쿠스(thermautotrophicus)), 아캐오글로부스(Archaeoglobus)(예컨대, A. 풀기두스(fulgidus), 니트로소푸밀루스(Nitrosopumilus)(예컨대, N. 마리티무스(maritimus)), 메탈로스패라(Metallosphaera)(예컨대, M. 세둘라(sedula)), 페로플라스마(Ferroplasma), 써모플라스마(Thermoplasma), 메타노브레비박터(Methanobrevibacter)(예컨대, M. 스미시(smithii)), 및 메타노스패라(Methanosphaera)(예컨대, M. 스타츠마나(stadtmanae)) 속의 것들이 포함된다.
리컴바이니어링(recombineering)은 선형 이중 및 단일 가닥 폴리뉴클레오티드 편집 주형을 이용한 박테리아 DNA의 편집을 가능하게 한다(Datsenko KA, Wanner BL. 2000. One-step inactivation of chromosomal genes in Escherichia coli K-12 using PCR products. Proceedings of the National Academy of Sciences of the United States of America 97:6640-6645; Thomason LC, Sawitzke JA, Li X, Costantino N, Court DL. 2014. Recombineering: genetic engineering in bacteria using homologous recombination. Current protocols in molecular biology / Frederick M. Ausubel et al. 편집, 106:1 16 11-11 16 39). 선형 또는 단일 가닥 편집 주형을 이용하기 위해서는 외인성 파지 재조합효소 단백질의 발현이 필요하다(Datsenko KA, Wanner BL. 2000. One-step inactivation of chromosomal genes in Escherichia coli K-12 using PCR products. Proceedings of the National Academy of Sciences of the United States of America 97:6640-6645; 본원에 참조로 포함되는 2010년 1월 15일 발행된 미국 특허 7,736,851 DNA cloning method). 일반적으로, 점 돌연변이 또는 결실과 같은 작은 변화는 짧은 단일 가닥 올리고뉴클레오티드 편집 주형을 사용하여 발생될 수 있다. 그러나, 더 큰 변화 또는 유전자 삽입의 경우, 재조합의 낮은 빈도(약 10-5 내지 10-7)로 인해 원하는 편집을 포함하는 콜로니를 분리하기 위해서는 폴리뉴클레오티드 편집 주형 상의 선택 가능한 마커의 존재가 필요하다. 일단 편집되면 선택 가능한 마커는 제거되어야 하며, 종종 게놈에 흔적을 남긴다(Datsenko KA, Wanner BL. 2000. One-step inactivation of chromosomal genes in Escherichia coli K-12 using PCR products. Proceedings of the National Academy of Sciences of the United States of America 97:6640-6645).
외인성 재조합효소는 세포 천연 상동 재조합 기구 외에 제공된(즉, 비 천연 수단을 통해 발현된) 상동 재조합 시스템의 단백질을 포함한다.
RecET 단백질은 Rac 프로파지의 ATP-독립적, recA-독립적 상동 재조합 경로의 단백질을 포함한다(Kuzminov A. 1999. Recombinational repair of DNA damage in Escherichia coli and bacteriophage lambda. Microbiology and molecular biology reviews : MMBR 63:751-813).
람다-레드 단백질은 파지 람다의 레드, 레드β, 및 레드γ 단백질을 포함한다(Smith GR. 1988. Homologous recombination in procaryotes. Microbiological reviews 52:1-28).
RecBCD 억제제는 RecBCD에 결합하여 그 기능을 억제하는 단백질(예를 들어, 람다 Gam 단백질을 포함한다(Murphy KC. 2007. The lambda Gam protein inhibits RecBCD binding to dsDNA ends. Journal of molecular biology 371:19-24).
(ii) 가이드 RNA 또는 Cas 엔도뉴클레아제를 암호화하는 뉴클레오티드 서열에 (i) 작동 가능하게 연결된 프로모터를 포함하는 DNA 폴리뉴클레오티드 서열은 일반적으로, 본원에 기재된 가이드 RNA 또는 cas 엔도뉴클레아제의 안정적이고/이거나 일시적인 발현을 위해 이용될 수 있다. 이러한 폴리뉴클레오티드 서열은 예를 들어, 플라스미드, 코스미드, 파지미드, 박테리아 인공 염색체(BAC), 바이러스, 또는 선형 DNA(예를 들어, 선형 PCR 산물), 또는 폴리뉴클레오티드 서열을 세포 내로 제공하는 데 유용한 임의의 기타 유형의 벡터 또는 작제물 내에 포함될 수 있다.
박테리아 프로모터는 박테리오파지 λ 프로모터 레프트(PL)(Menart V, Jevsevar S, Vilar M, Trobis A, Pavko A. 2003. Constitutive versus thermoinducible expression of heterologous proteins in Escherichia coli based on strong PR,PL promoters from phage lambda. Biotechnology and bioengineering 83:181-190), 박테리오파지 λ 프로모터 라이트(PR)(Menart V, Jevsevar S, Vilar M, Trobis A, Pavko A. 2003. Constitutive versus thermoinducible expression of heterologous proteins in Escherichia coli based on strong PR, PL promoters from phage lambda. Biotechnology and bioengineering 83:181-190), 아라비노오스 활용 오페론 프로모터(PBAD)(Guzman LM, Belin D, Carson MJ, Beckwith J. 1995. Tight regulation, modulation, and high-level expression by vectors containing the arabinose PBAD promoter. Journal of bacteriology 177:4121-4130), 파지 T7 RNA 폴리머라제 제어 프로모터(PT7)(Ikeda RA, Ligman CM, Warshamana S. 1992. T7 promoter contacts essential for promoter activity in vivo. Nucleic acids research 20:2517-2524), 대장균의 락토스 활용 오페론의 프로모터(Plac)(Gronenborn B. 1976. Overproduction of phage lambda repressor under control of the lac promotor of Escherichia coli. Molecular & general genetics : MGG 148:243-250), 하이브리드 trp 및 lac 프로모터(Ptac)(de Boer HA, Comstock LJ, Vasser M. 1983. The tac promoter: a functional hybrid derived from the trp and lac promoters. Proceedings of the National Academy of Sciences of the United States of America 80:21-25), 및 파지 T5 프로모터(PT5)(Bujard H, Gentz R, Lanzer M, Stueber D, Mueller M, Ibrahimi I, Haeuptle MT, Dobberstein B. 1987. A T5 promoter-based transcription-translation system for the analysis of proteins in vitro and in vivo. Methods in enzymology 155:416-433)를 포함한다. 박테리아에서의 발현을 위한 다른 적합한 프로모터가 기술되어 있다(Green MR, Sambrook J. 2012. Molecular Clonine: A Laboratory Manual, Fourth Edition ed. Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY; Karp PD, et al., 2014. The EcoCyc Database. EcoSal Plus 2014; Keseler IM et al., 2011. EcoCyc: a comprehensive database of Escherichia coli biology. Nucleic acids research 39:D583-590).
특정 구현예에서, RNA 성분을 발현하기 위한 카세트를 포함하는 DNA 폴리뉴클레오티드는 RNA 성분 서열의 하류에 적합한 전사 종결 서열을 포함한다. 본원에 유용한 전사 종결 서열의 예는 본원에 참조로 포함되는 미국 특허 출원 공개 2014/0186906호에 개시되어 있다. 이러한 구현예는 일반적으로, 종결자 서열의 선택에 따라, RNA 성분 서열의 말단 다음에, 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개, 30개 이상의 잔기를 포함한다. 이러한 추가적인 잔기는 종결자 서열의 선택에 따라, 전부 U 잔기이거나, 예를 들어, 적어도 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 또는 99% U 잔기일 수 있다. 대안적으로, 리보자임 서열(예컨대, 망치머리 또는 HDV 리보자임)은 예를 들어, RNA 성분 서열의 (하류의 예컨대, 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개 이상 뉴클레오티드의) 3'일 수 있다. 따라서, 3' 리보자임 서열은 그것이 RNA 성분 서열로부터 그 자신을 절단하도록 위치할 수 있고, 이러한 절단은 전사물이 RNA 성분 서열의 말단에서 정확하게, 또는 예를 들어, RNA 성분 서열의 말단 다음에 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개 이상의 잔기가 있도록 전사물을 종료시킬 것이다.
DNA 표적 부위 서열에 결합할 수 있지만 표적 부위 서열에서 임의의 가닥을 절단하지 않는 본원의 RGEN은 다른 구현예에서 DNA 표적화 방법에 이용될 수 있다. 기능장애 뉴클레아제 도메인만 가지고 있지만 특이적인 DNA 결합 활성을 보유하는 본원에 개시된 임의의 RGEN은 이러한 유형의 표적화 방법에 이용될 수 있다.
활성 인자 전사 인자 또는 이의 활성 인자 도메인에 연결되거나 융합된 RGEN은 하나 이상의 폴리뉴클레오티드 서열의 발현을 상향 조절하는 데 이용될 수 있다. 이러한 활성화 RGEN을 도입하는 방법은 선택적으로, 전사적 상향 조절 또는 활성화 방법을 특징으로 할 수 있다. 이러한 방법에서 전사적 상향 조절의 수준은 활성화 RGEN의 적용 전의 전사 수준과 비교하여, 예를 들어, 적어도 약 25%, 50%, 75%, 100%, 250%, 500%, 또는 1000%일 수 있다.
본원의 표적화 방법은 예를 들어, 둘 이상의 DNA 표적 부위가 표적화되는 방식으로 수행될 수 있다. 이러한 방법은 선택적으로 다중 방법을 특징으로 할 수 있다. 특정 구현예에서 둘, 셋, 넷, 다섯, 여섯, 일곱, 여덟, 아홉, 열 개 이상의 표적 부위가 동시에 표적화될 수 있다. 일반적으로 다중 방법은 복수의 상이한 RNA 성분들이 제공되며 각각 RGEN을 특유의 DNA 표적 부위로 유도하도록 설계된 본원의 표적화 방법에 의해 수행된다. 예를 들어, 둘 이상의 상이한 RNA 성분들이 (예컨대, RNA 성분을 RGEN 단백질-CPP 복합체와 결합시키기 위하여 본원에 개시된 절차에 따라) 시험관 내에서 RGEN-CPP 복합체의 혼합물을 제조하는 데 이용될 수 있으며, 그 후, 이러한 혼합물은 세포와 접촉된다.
본원의 다중 표적화의 또 다른 양태는 세포 내로 횡단했던 RGEN 단백질-CPP 복합체들의 RGEN 단백질 성분들과 결합하는 둘 이상의 상이한 RNA 성분들을 세포에 제공하는 것을 포함할 수 있다. 이러한 방법은 예를 들어, 세포에 (i) 각각이 특정한 RNA 성분을 발현하는 개별적인 DNA 폴리뉴클레오티드들, 및/또는 (ii) 둘 이상의 RNA 성분들을 암호화하는 적어도 하나의 DNA 폴리뉴클레오티드를 제공하는 것을 포함할 수 있다(예를 들어, 탠덤 리보자임-RNA 성분 카세트와 관련하여 아래의 개시 내용 참조).
다중 방법은 선택적으로, 동일한 서열(예를 들어, 프로모터 또는 오픈 리딩 프레임)과 매우 가까운 DNA 부위들, 및/또는 서로 멀리 있는 (예를 들어, 상이한 유전자 및/또는 염색체) 부위들을 표적화할 수 있다. 다른 구현예에서 다중 방법은 (엔도뉴클레아제 또는 닉카아제 능력이 있는 RGEN이 사용되는 경우) 원하는 표적화의 결과에 따라 적합한 폴리뉴클레오티드 변형 주형을 사용하거나(HR의 경우) 사용하지 않고(삽입-결실 및/또는 염기 치환을 초래하는 NHEJ의 경우) 수행될 수 있다. 또 다른 구현예에서, 다중 방법은 본원에 개시된 바와 같은 억제화 또는 활성화 RGEN으로 수행될 수 있다. 예를 들어, 유전자 세트들, 예컨대, 특정 대사 경로에 관여하는 유전자들을 하향 조절하는 다수의 억제화 RGEN이 제공될 수 있다.
본원에 개시된 조성물 및 방법의 비제한적 예는 다음을 포함한다:
1. 대장균 세포의 게놈 내 뉴클레오티드 서열을 편집하는 방법으로서, 가이드 RNA를 암호화하는 DNA 서열을 포함하는 적어도 하나의 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형을, 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제 DNA 서열을 포함하는 대장균 세포에 제공하는 단계를 포함하되, 상기 Cas9 엔도뉴클레아제 DNA 서열은 상기 대장균 세포의 게놈 내 표적 부위에서 이중 가닥 절단을 도입할 수 있는 Cas9 엔도뉴클레아제를 암호화하고, 상기 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는, 방법.
2. 구현예 1에 있어서, 대장균 세포의 게놈 내 뉴클레오티드 서열은 프로모터 서열, 종결자 서열, 조절 요소 서열, 암호화 서열, 프로파지, 위유전자, 외인성 유전자, 및 내인성 유전자로 이루어진 군으로부터 선택되는, 방법.
3. 구현예 1에 있어서, 가이드 RNA를 암호화하는 DNA 서열을 포함하는 상기 재조합 DNA 작제물은 원형 플라스미드를 통해 제공되는, 방법.
4. 구현예 1에 있어서, 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형은 각각 별개의 플라스미드 상에 제공되는, 방법.
5. 구현예 1에 있어서, 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형은 단일 플라스미드 상에 제공되는, 방법.
6. 구현예 1에 있어서, 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 주형은 전기천공, 열 충격, 파지 전달, 결합, 접합 및 형질도입으로 이루어진 군으로부터 선택되는 하나의 수단을 통해 제공되는, 방법.
7. 구현예 1에 있어서, 상기 표적 부위는 제1 게놈 영역 및 제2 게놈 영역에 의해 플랭킹되고, 원형 폴리뉴클레오티드 주형은 상기 제1 게놈 영역과 상동인 제1 영역 및 상기 제2 게놈 영역과 상동인 제2 영역을 더 포함하는, 방법.
8. 구현예 1에 있어서, 대장균 세포는 외인성 재조합효소 단백질을 발현하지 않는, 방법.
9. 구현예 1에 있어서, 대장균 세포는 RecET 단백질, 람다-레드 단백질, 및 RecBCD 억제제를 포함하는 군으로부터 선택되는 단백질을 발현하지 않는, 방법.
10. 구현예 1에 있어서, 상기 대장균 세포로부터 자손 세포를 성장시키는 단계를 더 포함하되, 자손 세포는 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는, 방법.
11. 구현예 1에 있어서, 표적 부위는 대장균 galK 유전자 내에 위치하는, 방법.
12. 구현예 1의 방법에 의해 제조된 대장균 세포.
13. 구현예 12의 대장균 세포로부터 제조된 대장균 균주.
14. galK 돌연변이 대장균 세포를 제조하는 방법으로서,
a) 가이드 RNA를 암호화하는 DNA 서열을 포함하는 적어도 하나의 원형 재조합 DNA 작제물 및 적어도 하나의 원형 폴리뉴클레오티드 변형 주형을, 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제 DNA 서열을 포함하는 대장균 세포에 제공하는 단계(상기 Cas9 엔도뉴클레아제 DNA 서열은 대장균 게놈의 galK 게놈 서열 내 표적 부위에서 이중 가닥 절단을 도입할 수 있는 Cas 엔도뉴클레아제를 암호화하고, 상기 원형 폴리뉴클레오티드 변형 주형은 상기 galK 게놈 서열의 적어도 하나의 뉴클레오티드 변형을 포함함);
b) (a)의 대장균 세포로부터 자손 세포를 성장시키는 단계; 및
c) 상기 적어도 하나의 뉴클레오티드 변형의 존재에 대해 (b)의 자손 세포를 평가하는 단계를 포함하는 방법.
15. 대장균 세포의 게놈 내 뉴클레오티드 서열을 편집하는 방법으로서, 적어도, 가이드 RNA를 암호화하는 DNA 서열을 포함하는 제1 재조합 DNA 작제물, 원형 폴리뉴클레오티드 변형 주형, 및 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제를 암호화하는 DNA 서열을 포함하는 제2 재조합 DNA 작제물을, 대장균 세포에 제공하는 단계를 포함하되, Cas9 엔도뉴클레아제는 상기 대장균 세포의 게놈 내 표적 부위에서 이중 가닥 절단을 도입하고, 상기 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는, 방법.
16. 구현예 15에 있어서, 제1 재조합 DNA 작제물, 제2 재조합 DNA 작제물, 및 원형 폴리뉴클레오티드 변형 주형은 각각 별개의 플라스미드 상에 제공되는, 방법.
17. 구현예 1에 있어서, 제1 재조합 DNA 작제물, 제2 재조합 DNA 작제물, 및 원형 폴리뉴클레오티드 변형 주형은 단일 플라스미드 상에 제공되는, 방법.
실시예
개시된 발명은 다음의 실시예들에서 더 정의된다. 이 실시예들은 본 발명의 바람직한 특정 양태를 나타내지만 단지 예시로 제공된다는 것을 이해해야 된다. 상기 설명 및 이 실시예들로부터, 당업자는 본 발명의 본질적 특징들을 확인할 수 있으며, 본 발명의 사상 및 범위를 벗어나지 않고 다양한 용도 및 조건에 적합하게 본 발명을 다양하게 변경하고 수정할 수 있다.
실시예
1
대장균에서 사용하기 위한
Cas9
엔도뉴클레아제
발현 벡터의
작제물
본 실시예에서는 대장균 내 게놈 편집을 위한 유도성 Cas9 발현 벡터를 제작하였다. 유도제에 대한 Cas9 발현을 확인하였다.
스트렙토코커스 피오제네스 M1 GAS SF370(서열 번호 1)으로부터의 Cas9 유전자는 당해 분야에 알려진 표준 기술에 따라 최적화된 야로위아 코돈(서열 번호 2)이었다. Cas9 단백질을 세포의 핵에 국재화하기 위해, 유인원 바이러스 40(SV40) 1부분(MAPKKKRKV, 서열 번호 3) 핵 국재화 신호를 Cas9 오픈 리딩 프레임의 카복시 말단에 도입시켰다. 야로위아 코돈 최적화된 Cas9 유전자를 표준 분자 생물학 기술에 의해 야로위아 항시성 프로모터, FBA1(서열 번호 4)에 융합시켰다. 항시성 FBA 프로모터, 야로위아 코돈 최적화된 Cas9, 및 SV40 핵 국재화 신호를 포함하는 야로위아 코돈 최적화된 Cas9 발현 카세트의 예(서열 번호 5). Cas9 발현 카세트를 플라스미드 pZuf에 클로닝하고 새로운 작제물을 pZufCas9(서열 번호 6)로 칭하였다.
야로위아 코돈 최적화된 Cas9-SV40 융합 유전자(서열 번호 7)를 표준 분자 생물학 기술을 이용하여 pZufCas9로부터 증폭하였다. 반응을 위한 프라이머는 융합체에 5' EcoRI 부위 및 a 3' HindIII 부위를 추가한 GGGGGAATTCGACAAGAAATACTCCATCGGCCTGG(정방향, 서열 번호 8) 및 CCCCAAGCTTAGCGGCCGCTTAGACCTTTCG(역방향, 서열 번호 9)였다. 표준 기술을 이용하여 PCR 산물(서열 번호 10)을 정제하였다. 정제된 단편을 life technologies로부터 입수한 pBAD/HisB(서열 번호 11)의 EcoRI 및 HindIII 부위에 클로닝하여 pRF48(서열 번호 12)을 생성하였다.
대장균 Top10 세포(Life technologies)를 pRF48로 형질전환시켰다. 형질전환된 세포를 L 부용(1% (w/v) 트립톤, 0.5% (w/v) 효모 추출물, 1% (w/v) NaCl) + 100 μg/ml 암피실린 + 0.4% (w/v) 글루코스상에 유지시켜 Cas9 단백질의 발현을 억제하였다. L 부용 + 100 μg/ml 암피실린 + 0.4% (w/v) 글루코스에서 220 RPM으로 세포를 37℃에서 밤새 성장시켰다. 세포를 2.8 L 페른바흐 플라스크에서 1 L의 2x YT 배지(1.6% 트립톤, 1.0% (w/v) 효모 추출물, 0.5% (w/v) NaCl)에 1:100으로 희석하였다. OD600이 0.438에 도달할 때까지 37℃, 220 RPM에서 배양물을 성장시켰다. 1 ml의 배양물을 펠렛화하고 43.8 μl의 1x 램리 완충액에 재현탁시키고 -20℃에서 동결시켰다. L-아라비노오스를 0.2% (w/v)의 최종 농도까지 첨가하여 야로위아 최적화된 Cas9 유전자를 유도하는 PBAD 프로모터를 유도하였다. 배양물을 18℃, 180 RPM으로 20시간 동안 이동시켰다.
L-아라비노오스에 의한 유도 후 OD600은 3.01이었다. 0.332 ml 분취량의 배양물을 펠렛화하였다. 세포를 100 μl의 1X 램리 완충액에 재현탁시켰다. 유도 전 샘플과 유도 후 샘플 둘 다를 5분 동안 95℃까지 가열하였고, 10 μl를 12.5%의 트리스-글리신 SDS 폴리아크릴아미드 겔 상에 로딩하였다. 겔에 200 볼트를 30분 동안 가하였다. 간단한 블루 염색을 이용하여 겔을 염색하여 단백질 밴드를 분리하였다. 아라비노오스 유도성 프로모터의 제어 하에 대장균에서의 야로위아 최적화된 Cas9 단백질의 발현은 강력했다(도 4).
실시예
2
대장균의
galK
유전자를
표적화하는
단일 가이드 RNA를 암호화하는 원형 발현 플라스미드의
작제물
대장균의 내인성 galK 유전자를 변형(편집)하기 위해, 대장균 galK 유전자 내 4개의 Cas9 엔도뉴클레아제 표적 부위를 동정하였다(도 5): galK-1 (서열 번호 13, 표 1), galK-2 (서열 번호 14, 표 1), galK-3 (서열 번호 15, 표 1), 및 galK-4 (서열 번호 16, 표 1).
[표 1]
대장균 내 galK 유전자 편집을 위한 표적화 서열
(표 1에 정의된) PAM 도메인이 결여된 게놈 galK1 표적 서열에 해당하는 DNA 단편을 스트렙토코커스 피오제네스 Cas 인식 도메인(서열 번호 17)으로 융합하여 단일 가이드 RNA를 위한 완전한 DNA 주형을 제조하였다. 가이드 RNA를 암호화하는 DNA 단편을 서열 번호 18~21에 나타내었다. gal1K-1 내지 gal1-K4를 위한 sgRNA를 서열 번호 22~25에 나타내었다.
대장균 세포에서 sgRNA를 발현시키기 위해 4개의 sgRNA 발현 카세트를 제작하였다(서열 번호 28~31). sgRNA를 박테리오파지 람다의 PL 프로모터(서열 번호 26)의 제어 하에 두었다. sgRNA의 전사 종결을 유도하기 위해 CR 도메인의 3' 말단을 강력한 박테리오파지 람다 종결자(서열 번호 27)로 융합하였다. GalK-1 sgRNA 발현 카세트(서열 번호 28)는 galK-1 게놈 표적 부위(서열 번호 13)를 표적화하도록 설계되었다. GalK-2 sgRNA 발현 카세트(서열 번호 29)는 galK-1 게놈 표적 부위(서열 번호 14)를 표적화하도록 설계되었다. GalK-3 sgRNA 발현 카세트(서열 번호 30)는 galK-3 게놈 표적 부위(서열 번호 15)를 표적화하도록 설계되었다. GalK-4 sgRNA 발현 카세트(서열 번호 31)는 galK-4 게놈 표적 부위(서열 번호 16)를 표적화하도록 설계되었다.
각각의 sgRNA 발현 카세트는 5' HinDIII 제한 부위(AAGCTT) 및 3' BamHI 제한 부위(GGATCC)를 포함하였다. 각각의 sgRNA 발현 카세트를 pACYC184(서열 번호 32)의 HinDIII/BamHI 부위에 클로닝하여 원형 플라스미드(도 1 및 도 2, 가이드 RNA 플라스미드 참조), pRF50(galK-1 표적화, 서열 번호 33), pRF51(galK-2 표적화, 서열 번호 34), pRF53(galK-3 표적화, 서열 번호 35), 및 pRF55(galK-4 표적화, 서열 번호 36)를 생성하였다.
실시예
3
대장균 내 유전자 편집을 위한 폴리뉴클레오티드 변형 주형을 포함하는 원형 플라스미드의 제작
(예를 들어 galK 유전자의 유전자 결실)을 이용하여 대장균에서 유전자 편집(변형)을 가능하게 하기 위해, 다음과 같이 (galK 결실 주형으로 지칭되는) galK 유전자의 일부가 결여된 폴리뉴클레오티드 변형 주형을 제조하였다:
클로닝을 위한 5' HinDIII 제한 부위를 추가한 정방향 프라이머(GGGaagcttggattatgttcagcgcgagc, 서열 번호 38) 및 galK 유전자의 정지 코돈의 3’ 방향에 있는 20 bp의 서열을 추가한 역방향 프라이머(tgccagtgcgggagtttcgtTTCTTACACTCCGGATTCGC, 서열 번호 39)를 이용하여 표준 PCR 기술로 대장균 galK 유전자의 번역 개시 부위의 5' 방향에 있는 454 bp 단편(서열 번호 37)을 증폭하여 상류 중첩 연장 산물(서열 번호 40)을 생성하였다. galK 유전자의 개시 코돈의 5' 방향에 있는 20 bp의 서열을 추가한 정방향 프라이머(GCGAATCCGGAGTGTAAGAAacgaaactcccgcactggca, 서열 번호 42) 및 3' HinDIII 제한 부위를 추가한 역방향 프라이머(GGGaagcttGCAAACAGCACCTGACGATCG, 서열 번호 43)를 이용하여 표준 PCR 기술로 대장균 galK 유전자의 번역 정지 부위의 3’ 방향에 있는 376 bp(서열 번호 41)를 증폭하여 하류 중첩 연장 산물(서열 번호 44)을 생성하였다. Zymo 정제 및 농축 컬럼을 사용하여 PCR 산물을 정제하였다. 5’ 단편에 대한 정방향 프라이머(GGGaagcttggattatgttcagcgcgagc, 서열 번호 38) 및 3’ 단편의 역방향 프라이머(GGGaagcttGCAAACAGCACCTGACGATCG, 서열 번호 43)를 이용하여 중첩 20 nt를 연장하기 위해 각각의 PCR 산물 10 ng을 사용하였다. galK 결실 주형(서열 번호 45)의 전체 길이를 조건부 복제 플라스미드 pkD3(서열 번호 46)의 HinDIII 부위에 클로닝하여 원형 galK 결실 주형 플라스미드 pRF113(서열 번호 47)을 생성하였다. (도 1 및 도 2에서 주형 플라스미드로 지칭되는) galK 결실 주형 플라스미드 pRF113은 Pi 단백질을 위한 발현 카세트가 없으므로(Inuzuka M. 1985. 플라스미드 암호화 개시 단백질은 시험관 내 플라스미드 R6K DNA 복제의 3개의 기점 모두에서 활성을 필요로 한다. FEBS letters 181:236-240) 자율적으로 복제할 수 없게 한다. 따라서, 이러한 원형 주형이 대장균 세포에 일단 제공되면, 그것은 RGEN 매개 유전자 편집을 위한 주형으로서 기능할 수 있지만 복제되지 않을 것이므로 상기 대장균 세포로부터 배양되는 어떤 자손 세포에도 존재하지 않을 것이다.
실시예
4
폴리뉴클레오티드 변형 주형을 포함하는 원형 플라스미드와 함께 가이드 RNA/Cas
엔도뉴클레아제
시스템을 이용한 대장균 내
galK
유전자의 효율적인 게놈 편집
대장균의 galE 유전자 결실을 포함하는 균주 EF44는 독성 산물 인-갈락토스의 축적으로 인해 성장 배지 내 갈락토스의 존재에 민감하다(Incorporate E. coli and S. typhimurium: Cellular and Molecular Biology 저자: Frederick C. Neidhardt, John L. Ingraham, Roy Curtiss III. ASM Press Washington D.C. 1987). 이러한 균주에서, 갈락토스 키나아제(galK)를 암호화하는 유전자의 기능 상실을 초래하는 돌연변이는 갈락토스 민감성을 복구시켜 갈락토스의 존재 하에 균주가 성장할 수 있도록 한다.
(도 1에 도시된 바와 같이) Cas9 발현 카세트를 포함하는 Cas9 플라스미드를 함유한 대장균 균주를 생성하기 위해, 플라스미드 pRF48을 다음과 같이 대장균 균주 EF44에 도입하였다. 균주 EF44 균주를 pRF48(서열 번호 12)로 형질전환시키고, Cas9 플라스미드를 함유한 대장균 균주 EF56(ΔgalE pRF48)를 생성하기 위해 pBAD 프로모터로부터 Cas9 유전자의 발현을 억제하도록 100 μg/ml의 암피실린 및 0.4% (W/V)의 글루코스를 함유한 L 부용 한천 플레이트 상에서 콜로니를 선택하였다.
EF56의 단일 콜로니를 100 μg/ml의 암피실린 및 0.4% (W/V)의 글루코스를 함유함 L 부용에 접종시키고, 37℃, 230 RPM에서 18시간 동안 성장시켰다. 이어서, 100 μg/ml의 암피실린을 함유한 새로운 L 부용에 균주를 희석시키고 37℃, 230 RPM에서 2시간 동안 성장시켰다. L-아라비노오스를 0.2% (W/V)의 최종 농도까지 첨가하여 PBAD 프로모터로부터 Cas9의 발현을 유도하고, 세포를 추가로 1시간 동안 성장시켰다. 표준 프로토콜을 통해 세포를 전기천공에 적합하도록 하였다. 유도된 전기천공에 적합한 EF56 세포 100 μl를 200 ng의 pACYC184(서열 번호 32), pRF50(서열 번호 33), pRF51(서열 번호 34), pRF53(서열 번호 35), 또는 pRF55(서열 번호 36) 및 1 μg의 pRF113(서열 번호 47), 1 μg의 선형 폴리뉴클레오티드 변형 주형(서열 번호 44), 또는 폴리뉴클레오티드 변형 주형이 없는 플라스미드 DNA로 형질전환시켰다. 세포를 1 mM 캡 큐벳에서 1750 볼트로 전기천공하였다. 1 ml의 SOC 배지를 첨가하고 37℃, 230 RPM에서 3시간 동안 세포를 회복시켰다. pRF48(서열 번호 12)와 해당 pACYC184(서열 번호 32) 둘 다, pRF50(서열 번호 33), pRF51(서열 번호 34), pRF53(서열 번호 35), 또는 pRF55(서열 번호 36)를 포함하는 세포를 선택하기 위해 100 μg/ml의 암피실린 및 25 μg/ml의 클로람페니콜을 함유한 1.5% (w/v) 한천으로 응고된 L 부용 플레이트 상에 세포를 플레이팅하였다. 플레이트를 37℃에서 20시간 동안 배양하였다.
갈락토스 저항성 분리물을 스크리닝하기 위해 평판 복제를 이용하여 콜로니를 L 부용 100 μg/ml 암피실린/25 μg/ml 클로람페니콜 플레이트로부터 0.2% (w/v) 글리세롤 및 0.2% (w/v) 갈락토스를 함유한 1.5% (w/v) 한천으로 응고된 최소 A 배지로 옮겼다. 각각의 형질전환에 대해, 갈락토스 저항성 콜로니의 수를 원래의 플레이트 상의 콜로니의 총 수로 나누어 갈락토스 저항성의 빈도를 계산하였다(표 2).
[표 2]
갈락토스 저항성 콜로니의 빈도
빈도는 표적 부위에 따라 달랐다. 상동 재조합의 빈도를 결정하기 위해, 정방향 프라이머(ggcgaagagaatcaacactgg, 서열 번호 49) 및 역방향 프라이머(GCAAACAGCACCTGACGATCG, 서열 번호 50)를 이용하여 표준 PCR 기술로 galK 유전자좌(서열 번호 48)를 증폭하였다. WT 균주에서, 전체 galK 유전자좌가 증폭되어(서열 번호 48) 1717 bp 길이의 PCR 산물이 된다. galK 유전자좌와 HR 폴리뉴클레오티드 변형 주형 pRF113 간에 재조합이 발생한 세포에서, PCR 산물의 길이는 569 bp이다(서열 번호 50). 도 6은 75%의 HR 빈도를 가진 pRF50/pRF113 편집 실험에서 콜로니의 증폭에 의한 겔을 나타낸다. galK의 결실 대립 유전자가 증폭되어 정확한 편집을 나타내는 콜로니의 수를 콜로니 PCR에 의해 분석된 콜로니의 총 수로 나누어 HR 빈도를 결정하였다. 폴리뉴클레오티드 변형 주형의 부재 하에서 GalR인 콜로니는 galK 유전자좌의 증폭을 허용하지 못한다.
본 실시예는 폴리뉴클레오티드 변형 주형을 포함하는 원형 플라스미드와 함께 가이드 RNA/Cas 엔도뉴클레아제 시스템을 이용하여 대장균 내 galK 유전자의 효율적인 게놈 편집이 성공적으로 달성되었음을 보여준다.
SEQUENCE LISTING
<110> E. I. du Pont de Nemours and Company
Frisch, Ryan L.
Jackson, Ethel N.
<120> COMPOSITIONS AND METHODS FOR EFFICIENT GENE EDITING IN E. COLI
USING GUIDE RNA/CAS ENDONUCLEASE SYSTEMS IN COMBINATION WITH
CIRCULAR POLYNUCLEOTIDE MODIFICATION TEMPLATES.
<130> CL6256 PCT
<150> 62/092914
<151> 2014-12-17
<160> 52
<170> PatentIn version 3.5
<210> 1
<211> 4107
<212> DNA
<213> Streptococcus pyogenes
<400> 1
atggataaga aatactcaat aggcttagat atcggcacaa atagcgtcgg atgggcggtg 60
atcactgatg aatataaggt tccgtctaaa aagttcaagg ttctgggaaa tacagaccgc 120
cacagtatca aaaaaaatct tataggggct cttttatttg acagtggaga gacagcggaa 180
gcgactcgtc tcaaacggac agctcgtaga aggtatacac gtcggaagaa tcgtatttgt 240
tatctacagg agattttttc aaatgagatg gcgaaagtag atgatagttt ctttcatcga 300
cttgaagagt cttttttggt ggaagaagac aagaagcatg aacgtcatcc tatttttgga 360
aatatagtag atgaagttgc ttatcatgag aaatatccaa ctatctatca tctgcgaaaa 420
aaattggtag attctactga taaagcggat ttgcgcttaa tctatttggc cttagcgcat 480
atgattaagt ttcgtggtca ttttttgatt gagggagatt taaatcctga taatagtgat 540
gtggacaaac tatttatcca gttggtacaa acctacaatc aattatttga agaaaaccct 600
attaacgcaa gtggagtaga tgctaaagcg attctttctg cacgattgag taaatcaaga 660
cgattagaaa atctcattgc tcagctcccc ggtgagaaga aaaatggctt atttgggaat 720
ctcattgctt tgtcattggg tttgacccct aattttaaat caaattttga tttggcagaa 780
gatgctaaat tacagctttc aaaagatact tacgatgatg atttagataa tttattggcg 840
caaattggag atcaatatgc tgatttgttt ttggcagcta agaatttatc agatgctatt 900
ttactttcag atatcctaag agtaaatact gaaataacta aggctcccct atcagcttca 960
atgattaaac gctacgatga acatcatcaa gacttgactc ttttaaaagc tttagttcga 1020
caacaacttc cagaaaagta taaagaaatc ttttttgatc aatcaaaaaa cggatatgca 1080
ggttatattg atgggggagc tagccaagaa gaattttata aatttatcaa accaatttta 1140
gaaaaaatgg atggtactga ggaattattg gtgaaactaa atcgtgaaga tttgctgcgc 1200
aagcaacgga cctttgacaa cggctctatt ccccatcaaa ttcacttggg tgagctgcat 1260
gctattttga gaagacaaga agacttttat ccatttttaa aagacaatcg tgagaagatt 1320
gaaaaaatct tgacttttcg aattccttat tatgttggtc cattggcgcg tggcaatagt 1380
cgttttgcat ggatgactcg gaagtctgaa gaaacaatta ccccatggaa ttttgaagaa 1440
gttgtcgata aaggtgcttc agctcaatca tttattgaac gcatgacaaa ctttgataaa 1500
aatcttccaa atgaaaaagt actaccaaaa catagtttgc tttatgagta ttttacggtt 1560
tataacgaat tgacaaaggt caaatatgtt actgaaggaa tgcgaaaacc agcatttctt 1620
tcaggtgaac agaagaaagc cattgttgat ttactcttca aaacaaatcg aaaagtaacc 1680
gttaagcaat taaaagaaga ttatttcaaa aaaatagaat gttttgatag tgttgaaatt 1740
tcaggagttg aagatagatt taatgcttca ttaggtacct accatgattt gctaaaaatt 1800
attaaagata aagatttttt ggataatgaa gaaaatgaag atatcttaga ggatattgtt 1860
ttaacattga ccttatttga agatagggag atgattgagg aaagacttaa aacatatgct 1920
cacctctttg atgataaggt gatgaaacag cttaaacgtc gccgttatac tggttgggga 1980
cgtttgtctc gaaaattgat taatggtatt agggataagc aatctggcaa aacaatatta 2040
gattttttga aatcagatgg ttttgccaat cgcaatttta tgcagctgat ccatgatgat 2100
agtttgacat ttaaagaaga cattcaaaaa gcacaagtgt ctggacaagg cgatagttta 2160
catgaacata ttgcaaattt agctggtagc cctgctatta aaaaaggtat tttacagact 2220
gtaaaagttg ttgatgaatt ggtcaaagta atggggcggc ataagccaga aaatatcgtt 2280
attgaaatgg cacgtgaaaa tcagacaact caaaagggcc agaaaaattc gcgagagcgt 2340
atgaaacgaa tcgaagaagg tatcaaagaa ttaggaagtc agattcttaa agagcatcct 2400
gttgaaaata ctcaattgca aaatgaaaag ctctatctct attatctcca aaatggaaga 2460
gacatgtatg tggaccaaga attagatatt aatcgtttaa gtgattatga tgtcgatcac 2520
attgttccac aaagtttcct taaagacgat tcaatagaca ataaggtctt aacgcgttct 2580
gataaaaatc gtggtaaatc ggataacgtt ccaagtgaag aagtagtcaa aaagatgaaa 2640
aactattgga gacaacttct aaacgccaag ttaatcactc aacgtaagtt tgataattta 2700
acgaaagctg aacgtggagg tttgagtgaa cttgataaag ctggttttat caaacgccaa 2760
ttggttgaaa ctcgccaaat cactaagcat gtggcacaaa ttttggatag tcgcatgaat 2820
actaaatacg atgaaaatga taaacttatt cgagaggtta aagtgattac cttaaaatct 2880
aaattagttt ctgacttccg aaaagatttc caattctata aagtacgtga gattaacaat 2940
taccatcatg cccatgatgc gtatctaaat gccgtcgttg gaactgcttt gattaagaaa 3000
tatccaaaac ttgaatcgga gtttgtctat ggtgattata aagtttatga tgttcgtaaa 3060
atgattgcta agtctgagca agaaataggc aaagcaaccg caaaatattt cttttactct 3120
aatatcatga acttcttcaa aacagaaatt acacttgcaa atggagagat tcgcaaacgc 3180
cctctaatcg aaactaatgg ggaaactgga gaaattgtct gggataaagg gcgagatttt 3240
gccacagtgc gcaaagtatt gtccatgccc caagtcaata ttgtcaagaa aacagaagta 3300
cagacaggcg gattctccaa ggagtcaatt ttaccaaaaa gaaattcgga caagcttatt 3360
gctcgtaaaa aagactggga tccaaaaaaa tatggtggtt ttgatagtcc aacggtagct 3420
tattcagtcc tagtggttgc taaggtggaa aaagggaaat cgaagaagtt aaaatccgtt 3480
aaagagttac tagggatcac aattatggaa agaagttcct ttgaaaaaaa tccgattgac 3540
tttttagaag ctaaaggata taaggaagtt aaaaaagact taatcattaa actacctaaa 3600
tatagtcttt ttgagttaga aaacggtcgt aaacggatgc tggctagtgc cggagaatta 3660
caaaaaggaa atgagctggc tctgccaagc aaatatgtga attttttata tttagctagt 3720
cattatgaaa agttgaaggg tagtccagaa gataacgaac aaaaacaatt gtttgtggag 3780
cagcataagc attatttaga tgagattatt gagcaaatca gtgaattttc taagcgtgtt 3840
attttagcag atgccaattt agataaagtt cttagtgcat ataacaaaca tagagacaaa 3900
ccaatacgtg aacaagcaga aaatattatt catttattta cgttgacgaa tcttggagct 3960
cccgctgctt ttaaatattt tgatacaaca attgatcgta aacgatatac gtctacaaaa 4020
gaagttttag atgccactct tatccatcaa tccatcactg gtctttatga aacacgcatt 4080
gatttgagtc agctaggagg tgactga 4107
<210> 2
<211> 4140
<212> DNA
<213> Artificial sequence
<220>
<223> Yarrowia optimized Cas9
<400> 2
atggacaaga aatactccat cggcctggac attggaacca actctgtcgg ctgggctgtc 60
atcaccgacg agtacaaggt gccctccaag aaattcaagg tcctcggaaa caccgatcga 120
cactccatca agaaaaacct cattggtgcc ctgttgttcg attctggcga gactgccgaa 180
gctaccagac tcaagcgaac tgctcggcga cgttacaccc gacggaagaa ccgaatctgc 240
tacctgcagg agatcttttc caacgagatg gccaaggtgg acgattcgtt ctttcatcga 300
ctggaggaat ccttcctcgt cgaggaagac aagaaacacg agcgtcatcc catctttggc 360
aacattgtgg acgaggttgc ttaccacgag aagtatccta ccatctacca cctgcgaaag 420
aaactcgtcg attccaccga caaggcggat ctcagactta tctacctcgc tctggcacac 480
atgatcaagt ttcgaggtca tttcctcatc gagggcgatc tcaatcccga caacagcgat 540
gtggacaagc tgttcattca gctcgttcag acctacaacc agctgttcga ggaaaacccc 600
atcaatgcct ccggagtcga tgcaaaggcc atcttgtctg ctcgactctc gaagagcaga 660
cgactggaga acctcattgc ccaacttcct ggcgagaaaa agaacggact gtttggcaac 720
ctcattgccc tttctcttgg tctcacaccc aacttcaagt ccaacttcga tctggcggag 780
gacgccaagc tccagctgtc caaggacacc tacgacgatg acctcgacaa cctgcttgca 840
cagattggcg atcagtacgc cgacctgttt ctcgctgcca agaacctttc ggatgctatt 900
ctcttgtctg acattctgcg agtcaacacc gagatcacaa aggctcccct ttctgcctcc 960
atgatcaagc gatacgacga gcaccatcag gatctcacac tgctcaaggc tcttgtccga 1020
cagcaactgc ccgagaagta caaggagatc tttttcgatc agtcgaagaa cggctacgct 1080
ggatacatcg acggcggagc ctctcaggaa gagttctaca agttcatcaa gccaattctc 1140
gagaagatgg acggaaccga ggaactgctt gtcaagctca atcgagagga tctgcttcgg 1200
aagcaacgaa ccttcgacaa cggcagcatt cctcatcaga tccacctcgg tgagctgcac 1260
gccattcttc gacgtcagga agacttctac ccctttctca aggacaaccg agagaagatc 1320
gagaagattc ttacctttcg aatcccctac tatgttggtc ctcttgccag aggaaactct 1380
cgatttgctt ggatgactcg aaagtccgag gaaaccatca ctccctggaa cttcgaggaa 1440
gtcgtggaca agggtgcctc tgcacagtcc ttcatcgagc gaatgaccaa cttcgacaag 1500
aatctgccca acgagaaggt tcttcccaag cattcgctgc tctacgagta ctttacagtc 1560
tacaacgaac tcaccaaagt caagtacgtt accgagggaa tgcgaaagcc tgccttcttg 1620
tctggcgaac agaagaaagc cattgtcgat ctcctgttca agaccaaccg aaaggtcact 1680
gttaagcagc tcaaggagga ctacttcaag aaaatcgagt gtttcgacag cgtcgagatt 1740
tccggagttg aggaccgatt caacgcctct ttgggcacct atcacgatct gctcaagatt 1800
atcaaggaca aggattttct cgacaacgag gaaaacgagg acattctgga ggacatcgtg 1860
ctcactctta ccctgttcga agatcgggag atgatcgagg aacgactcaa gacatacgct 1920
cacctgttcg acgacaaggt catgaaacaa ctcaagcgac gtagatacac cggctgggga 1980
agactttcgc gaaagctcat caacggcatc agagacaagc agtccggaaa gaccattctg 2040
gactttctca agtccgatgg ctttgccaac cgaaacttca tgcagctcat tcacgacgat 2100
tctcttacct tcaaggagga catccagaag gcacaagtgt ccggtcaggg cgacagcttg 2160
cacgaacata ttgccaacct ggctggttcg ccagccatca agaaaggcat tctccagact 2220
gtcaaggttg tcgacgagct ggtgaaggtc atgggacgtc acaagcccga gaacattgtg 2280
atcgagatgg ccagagagaa ccagacaact caaaagggtc agaaaaactc gcgagagcgg 2340
atgaagcgaa tcgaggaagg catcaaggag ctgggatccc agattctcaa ggagcatccc 2400
gtcgagaaca ctcaactgca gaacgagaag ctgtatctct actatctgca gaatggtcga 2460
gacatgtacg tggatcagga actggacatc aatcgtctca gcgactacga tgtggaccac 2520
attgtccctc aatcctttct caaggacgat tctatcgaca acaaggtcct tacacgatcc 2580
gacaagaaca gaggcaagtc ggacaacgtt cccagcgaag aggtggtcaa aaagatgaag 2640
aactactggc gacagctgct caacgccaag ctcattaccc agcgaaagtt cgacaatctt 2700
accaaggccg agcgaggcgg tctgtccgag ctcgacaagg ctggcttcat caagcgtcaa 2760
ctcgtcgaga ccagacagat cacaaagcac gtcgcacaga ttctcgattc tcggatgaac 2820
accaagtacg acgagaacga caagctcatc cgagaggtca aggtgattac tctcaagtcc 2880
aaactggtct ccgatttccg aaaggacttt cagttctaca aggtgcgaga gatcaacaat 2940
taccaccatg cccacgatgc ttacctcaac gccgtcgttg gcactgcgct catcaagaaa 3000
taccccaagc tcgaaagcga gttcgtttac ggcgattaca aggtctacga cgttcgaaag 3060
atgattgcca agtccgaaca ggagattggc aaggctactg ccaagtactt cttttactcc 3120
aacatcatga actttttcaa gaccgagatc accttggcca acggagagat tcgaaagaga 3180
ccacttatcg agaccaacgg cgaaactgga gagatcgtgt gggacaaggg tcgagacttt 3240
gcaaccgtgc gaaaggttct gtcgatgcct caggtcaaca tcgtcaagaa aaccgaggtt 3300
cagactggcg gattctccaa ggagtcgatt ctgcccaagc gaaactccga caagctcatc 3360
gctcgaaaga aagactggga tcccaagaaa tacggtggct tcgattctcc taccgtcgcc 3420
tattccgtgc ttgtcgttgc gaaggtcgag aagggcaagt ccaaaaagct caagtccgtc 3480
aaggagctgc tcggaattac catcatggag cgatcgagct tcgagaagaa tcccatcgac 3540
ttcttggaag ccaagggtta caaggaggtc aagaaagacc tcattatcaa gctgcccaag 3600
tactctctgt tcgaactgga gaacggtcga aagcgtatgc tcgcctccgc tggcgagctg 3660
cagaagggaa acgagcttgc cttgccttcg aagtacgtca actttctcta tctggcttct 3720
cactacgaga agctcaaggg ttctcccgag gacaacgaac agaagcaact cttcgttgag 3780
cagcacaaac attacctcga cgagattatc gagcagattt ccgagttttc gaagcgagtc 3840
atcctggctg atgccaactt ggacaaggtg ctctctgcct acaacaagca tcgggacaaa 3900
cccattcgag aacaggcgga gaacatcatt cacctgttta ctcttaccaa cctgggtgct 3960
cctgcagctt tcaagtactt cgataccact atcgaccgaa agcggtacac atccaccaag 4020
gaggttctcg atgccaccct gattcaccag tccatcactg gcctgtacga gacccgaatc 4080
gacctgtctc agcttggtgg cgactccaga gccgatccca agaaaaagcg aaaggtctaa 4140
<210> 3
<211> 9
<212> PRT
<213> Simian virus 40
<400> 3
Met Ala Pro Lys Lys Lys Arg Lys Val
1 5
<210> 4
<211> 546
<212> DNA
<213> Yarrowia lipolytica
<400> 4
tcgacgttta aaccatcatc taagggcctc aaaactacct cggaactgct gcgctgatct 60
ggacaccaca gaggttccga gcactttagg ttgcaccaaa tgtcccacca ggtgcaggca 120
gaaaacgctg gaacagcgtg tacagtttgt cttaacaaaa agtgagggcg ctgaggtcga 180
gcagggtggt gtgacttgtt atagccttta gagctgcgaa agcgcgtatg gatttggctc 240
atcaggccag attgagggtc tgtggacaca tgtcatgtta gtgtacttca atcgccccct 300
ggatatagcc ccgacaatag gccgtggcct catttttttg ccttccgcac atttccattg 360
ctcggtaccc acaccttgct tctcctgcac ttgccaacct taatactggt ttacattgac 420
caacatctta caagcggggg gcttgtctag ggtatatata aacagtggct ctcccaatcg 480
gttgccagtc tcttttttcc tttctttccc cacagattcg aaatctaaac tacacatcac 540
accatg 546
<210> 5
<211> 4683
<212> DNA
<213> artificial sequence
<220>
<223> Yarrowia optimized Cas9 expression cassette
<400> 5
tcgacgttta aaccatcatc taagggcctc aaaactacct cggaactgct gcgctgatct 60
ggacaccaca gaggttccga gcactttagg ttgcaccaaa tgtcccacca ggtgcaggca 120
gaaaacgctg gaacagcgtg tacagtttgt cttaacaaaa agtgagggcg ctgaggtcga 180
gcagggtggt gtgacttgtt atagccttta gagctgcgaa agcgcgtatg gatttggctc 240
atcaggccag attgagggtc tgtggacaca tgtcatgtta gtgtacttca atcgccccct 300
ggatatagcc ccgacaatag gccgtggcct catttttttg ccttccgcac atttccattg 360
ctcggtaccc acaccttgct tctcctgcac ttgccaacct taatactggt ttacattgac 420
caacatctta caagcggggg gcttgtctag ggtatatata aacagtggct ctcccaatcg 480
gttgccagtc tcttttttcc tttctttccc cacagattcg aaatctaaac tacacatcac 540
accatggaca agaaatactc catcggcctg gacattggaa ccaactctgt cggctgggct 600
gtcatcaccg acgagtacaa ggtgccctcc aagaaattca aggtcctcgg aaacaccgat 660
cgacactcca tcaagaaaaa cctcattggt gccctgttgt tcgattctgg cgagactgcc 720
gaagctacca gactcaagcg aactgctcgg cgacgttaca cccgacggaa gaaccgaatc 780
tgctacctgc aggagatctt ttccaacgag atggccaagg tggacgattc gttctttcat 840
cgactggagg aatccttcct cgtcgaggaa gacaagaaac acgagcgtca tcccatcttt 900
ggcaacattg tggacgaggt tgcttaccac gagaagtatc ctaccatcta ccacctgcga 960
aagaaactcg tcgattccac cgacaaggcg gatctcagac ttatctacct cgctctggca 1020
cacatgatca agtttcgagg tcatttcctc atcgagggcg atctcaatcc cgacaacagc 1080
gatgtggaca agctgttcat tcagctcgtt cagacctaca accagctgtt cgaggaaaac 1140
cccatcaatg cctccggagt cgatgcaaag gccatcttgt ctgctcgact ctcgaagagc 1200
agacgactgg agaacctcat tgcccaactt cctggcgaga aaaagaacgg actgtttggc 1260
aacctcattg ccctttctct tggtctcaca cccaacttca agtccaactt cgatctggcg 1320
gaggacgcca agctccagct gtccaaggac acctacgacg atgacctcga caacctgctt 1380
gcacagattg gcgatcagta cgccgacctg tttctcgctg ccaagaacct ttcggatgct 1440
attctcttgt ctgacattct gcgagtcaac accgagatca caaaggctcc cctttctgcc 1500
tccatgatca agcgatacga cgagcaccat caggatctca cactgctcaa ggctcttgtc 1560
cgacagcaac tgcccgagaa gtacaaggag atctttttcg atcagtcgaa gaacggctac 1620
gctggataca tcgacggcgg agcctctcag gaagagttct acaagttcat caagccaatt 1680
ctcgagaaga tggacggaac cgaggaactg cttgtcaagc tcaatcgaga ggatctgctt 1740
cggaagcaac gaaccttcga caacggcagc attcctcatc agatccacct cggtgagctg 1800
cacgccattc ttcgacgtca ggaagacttc tacccctttc tcaaggacaa ccgagagaag 1860
atcgagaaga ttcttacctt tcgaatcccc tactatgttg gtcctcttgc cagaggaaac 1920
tctcgatttg cttggatgac tcgaaagtcc gaggaaacca tcactccctg gaacttcgag 1980
gaagtcgtgg acaagggtgc ctctgcacag tccttcatcg agcgaatgac caacttcgac 2040
aagaatctgc ccaacgagaa ggttcttccc aagcattcgc tgctctacga gtactttaca 2100
gtctacaacg aactcaccaa agtcaagtac gttaccgagg gaatgcgaaa gcctgccttc 2160
ttgtctggcg aacagaagaa agccattgtc gatctcctgt tcaagaccaa ccgaaaggtc 2220
actgttaagc agctcaagga ggactacttc aagaaaatcg agtgtttcga cagcgtcgag 2280
atttccggag ttgaggaccg attcaacgcc tctttgggca cctatcacga tctgctcaag 2340
attatcaagg acaaggattt tctcgacaac gaggaaaacg aggacattct ggaggacatc 2400
gtgctcactc ttaccctgtt cgaagatcgg gagatgatcg aggaacgact caagacatac 2460
gctcacctgt tcgacgacaa ggtcatgaaa caactcaagc gacgtagata caccggctgg 2520
ggaagacttt cgcgaaagct catcaacggc atcagagaca agcagtccgg aaagaccatt 2580
ctggactttc tcaagtccga tggctttgcc aaccgaaact tcatgcagct cattcacgac 2640
gattctctta ccttcaagga ggacatccag aaggcacaag tgtccggtca gggcgacagc 2700
ttgcacgaac atattgccaa cctggctggt tcgccagcca tcaagaaagg cattctccag 2760
actgtcaagg ttgtcgacga gctggtgaag gtcatgggac gtcacaagcc cgagaacatt 2820
gtgatcgaga tggccagaga gaaccagaca actcaaaagg gtcagaaaaa ctcgcgagag 2880
cggatgaagc gaatcgagga aggcatcaag gagctgggat cccagattct caaggagcat 2940
cccgtcgaga acactcaact gcagaacgag aagctgtatc tctactatct gcagaatggt 3000
cgagacatgt acgtggatca ggaactggac atcaatcgtc tcagcgacta cgatgtggac 3060
cacattgtcc ctcaatcctt tctcaaggac gattctatcg acaacaaggt ccttacacga 3120
tccgacaaga acagaggcaa gtcggacaac gttcccagcg aagaggtggt caaaaagatg 3180
aagaactact ggcgacagct gctcaacgcc aagctcatta cccagcgaaa gttcgacaat 3240
cttaccaagg ccgagcgagg cggtctgtcc gagctcgaca aggctggctt catcaagcgt 3300
caactcgtcg agaccagaca gatcacaaag cacgtcgcac agattctcga ttctcggatg 3360
aacaccaagt acgacgagaa cgacaagctc atccgagagg tcaaggtgat tactctcaag 3420
tccaaactgg tctccgattt ccgaaaggac tttcagttct acaaggtgcg agagatcaac 3480
aattaccacc atgcccacga tgcttacctc aacgccgtcg ttggcactgc gctcatcaag 3540
aaatacccca agctcgaaag cgagttcgtt tacggcgatt acaaggtcta cgacgttcga 3600
aagatgattg ccaagtccga acaggagatt ggcaaggcta ctgccaagta cttcttttac 3660
tccaacatca tgaacttttt caagaccgag atcaccttgg ccaacggaga gattcgaaag 3720
agaccactta tcgagaccaa cggcgaaact ggagagatcg tgtgggacaa gggtcgagac 3780
tttgcaaccg tgcgaaaggt tctgtcgatg cctcaggtca acatcgtcaa gaaaaccgag 3840
gttcagactg gcggattctc caaggagtcg attctgccca agcgaaactc cgacaagctc 3900
atcgctcgaa agaaagactg ggatcccaag aaatacggtg gcttcgattc tcctaccgtc 3960
gcctattccg tgcttgtcgt tgcgaaggtc gagaagggca agtccaaaaa gctcaagtcc 4020
gtcaaggagc tgctcggaat taccatcatg gagcgatcga gcttcgagaa gaatcccatc 4080
gacttcttgg aagccaaggg ttacaaggag gtcaagaaag acctcattat caagctgccc 4140
aagtactctc tgttcgaact ggagaacggt cgaaagcgta tgctcgcctc cgctggcgag 4200
ctgcagaagg gaaacgagct tgccttgcct tcgaagtacg tcaactttct ctatctggct 4260
tctcactacg agaagctcaa gggttctccc gaggacaacg aacagaagca actcttcgtt 4320
gagcagcaca aacattacct cgacgagatt atcgagcaga tttccgagtt ttcgaagcga 4380
gtcatcctgg ctgatgccaa cttggacaag gtgctctctg cctacaacaa gcatcgggac 4440
aaacccattc gagaacaggc ggagaacatc attcacctgt ttactcttac caacctgggt 4500
gctcctgcag ctttcaagta cttcgatacc actatcgacc gaaagcggta cacatccacc 4560
aaggaggttc tcgatgccac cctgattcac cagtccatca ctggcctgta cgagacccga 4620
atcgacctgt ctcagcttgg tggcgactcc agagccgatc ccaagaaaaa gcgaaaggtc 4680
taa 4683
<210> 6
<211> 10706
<212> DNA
<213> artificial sequence
<220>
<223> pZufCas9CS
<400> 6
catggacaag aaatactcca tcggcctgga cattggaacc aactctgtcg gctgggctgt 60
catcaccgac gagtacaagg tgccctccaa gaaattcaag gtcctcggaa acaccgatcg 120
acactccatc aagaaaaacc tcattggtgc cctgttgttc gattctggcg agactgccga 180
agctaccaga ctcaagcgaa ctgctcggcg acgttacacc cgacggaaga accgaatctg 240
ctacctgcag gagatctttt ccaacgagat ggccaaggtg gacgattcgt tctttcatcg 300
actggaggaa tccttcctcg tcgaggaaga caagaaacac gagcgtcatc ccatctttgg 360
caacattgtg gacgaggttg cttaccacga gaagtatcct accatctacc acctgcgaaa 420
gaaactcgtc gattccaccg acaaggcgga tctcagactt atctacctcg ctctggcaca 480
catgatcaag tttcgaggtc atttcctcat cgagggcgat ctcaatcccg acaacagcga 540
tgtggacaag ctgttcattc agctcgttca gacctacaac cagctgttcg aggaaaaccc 600
catcaatgcc tccggagtcg atgcaaaggc catcttgtct gctcgactct cgaagagcag 660
acgactggag aacctcattg cccaacttcc tggcgagaaa aagaacggac tgtttggcaa 720
cctcattgcc ctttctcttg gtctcacacc caacttcaag tccaacttcg atctggcgga 780
ggacgccaag ctccagctgt ccaaggacac ctacgacgat gacctcgaca acctgcttgc 840
acagattggc gatcagtacg ccgacctgtt tctcgctgcc aagaaccttt cggatgctat 900
tctcttgtct gacattctgc gagtcaacac cgagatcaca aaggctcccc tttctgcctc 960
catgatcaag cgatacgacg agcaccatca ggatctcaca ctgctcaagg ctcttgtccg 1020
acagcaactg cccgagaagt acaaggagat ctttttcgat cagtcgaaga acggctacgc 1080
tggatacatc gacggcggag cctctcagga agagttctac aagttcatca agccaattct 1140
cgagaagatg gacggaaccg aggaactgct tgtcaagctc aatcgagagg atctgcttcg 1200
gaagcaacga accttcgaca acggcagcat tcctcatcag atccacctcg gtgagctgca 1260
cgccattctt cgacgtcagg aagacttcta cccctttctc aaggacaacc gagagaagat 1320
cgagaagatt cttacctttc gaatccccta ctatgttggt cctcttgcca gaggaaactc 1380
tcgatttgct tggatgactc gaaagtccga ggaaaccatc actccctgga acttcgagga 1440
agtcgtggac aagggtgcct ctgcacagtc cttcatcgag cgaatgacca acttcgacaa 1500
gaatctgccc aacgagaagg ttcttcccaa gcattcgctg ctctacgagt actttacagt 1560
ctacaacgaa ctcaccaaag tcaagtacgt taccgaggga atgcgaaagc ctgccttctt 1620
gtctggcgaa cagaagaaag ccattgtcga tctcctgttc aagaccaacc gaaaggtcac 1680
tgttaagcag ctcaaggagg actacttcaa gaaaatcgag tgtttcgaca gcgtcgagat 1740
ttccggagtt gaggaccgat tcaacgcctc tttgggcacc tatcacgatc tgctcaagat 1800
tatcaaggac aaggattttc tcgacaacga ggaaaacgag gacattctgg aggacatcgt 1860
gctcactctt accctgttcg aagatcggga gatgatcgag gaacgactca agacatacgc 1920
tcacctgttc gacgacaagg tcatgaaaca actcaagcga cgtagataca ccggctgggg 1980
aagactttcg cgaaagctca tcaacggcat cagagacaag cagtccggaa agaccattct 2040
ggactttctc aagtccgatg gctttgccaa ccgaaacttc atgcagctca ttcacgacga 2100
ttctcttacc ttcaaggagg acatccagaa ggcacaagtg tccggtcagg gcgacagctt 2160
gcacgaacat attgccaacc tggctggttc gccagccatc aagaaaggca ttctccagac 2220
tgtcaaggtt gtcgacgagc tggtgaaggt catgggacgt cacaagcccg agaacattgt 2280
gatcgagatg gccagagaga accagacaac tcaaaagggt cagaaaaact cgcgagagcg 2340
gatgaagcga atcgaggaag gcatcaagga gctgggatcc cagattctca aggagcatcc 2400
cgtcgagaac actcaactgc agaacgagaa gctgtatctc tactatctgc agaatggtcg 2460
agacatgtac gtggatcagg aactggacat caatcgtctc agcgactacg atgtggacca 2520
cattgtccct caatcctttc tcaaggacga ttctatcgac aacaaggtcc ttacacgatc 2580
cgacaagaac agaggcaagt cggacaacgt tcccagcgaa gaggtggtca aaaagatgaa 2640
gaactactgg cgacagctgc tcaacgccaa gctcattacc cagcgaaagt tcgacaatct 2700
taccaaggcc gagcgaggcg gtctgtccga gctcgacaag gctggcttca tcaagcgtca 2760
actcgtcgag accagacaga tcacaaagca cgtcgcacag attctcgatt ctcggatgaa 2820
caccaagtac gacgagaacg acaagctcat ccgagaggtc aaggtgatta ctctcaagtc 2880
caaactggtc tccgatttcc gaaaggactt tcagttctac aaggtgcgag agatcaacaa 2940
ttaccaccat gcccacgatg cttacctcaa cgccgtcgtt ggcactgcgc tcatcaagaa 3000
ataccccaag ctcgaaagcg agttcgttta cggcgattac aaggtctacg acgttcgaaa 3060
gatgattgcc aagtccgaac aggagattgg caaggctact gccaagtact tcttttactc 3120
caacatcatg aactttttca agaccgagat caccttggcc aacggagaga ttcgaaagag 3180
accacttatc gagaccaacg gcgaaactgg agagatcgtg tgggacaagg gtcgagactt 3240
tgcaaccgtg cgaaaggttc tgtcgatgcc tcaggtcaac atcgtcaaga aaaccgaggt 3300
tcagactggc ggattctcca aggagtcgat tctgcccaag cgaaactccg acaagctcat 3360
cgctcgaaag aaagactggg atcccaagaa atacggtggc ttcgattctc ctaccgtcgc 3420
ctattccgtg cttgtcgttg cgaaggtcga gaagggcaag tccaaaaagc tcaagtccgt 3480
caaggagctg ctcggaatta ccatcatgga gcgatcgagc ttcgagaaga atcccatcga 3540
cttcttggaa gccaagggtt acaaggaggt caagaaagac ctcattatca agctgcccaa 3600
gtactctctg ttcgaactgg agaacggtcg aaagcgtatg ctcgcctccg ctggcgagct 3660
gcagaaggga aacgagcttg ccttgccttc gaagtacgtc aactttctct atctggcttc 3720
tcactacgag aagctcaagg gttctcccga ggacaacgaa cagaagcaac tcttcgttga 3780
gcagcacaaa cattacctcg acgagattat cgagcagatt tccgagtttt cgaagcgagt 3840
catcctggct gatgccaact tggacaaggt gctctctgcc tacaacaagc atcgggacaa 3900
acccattcga gaacaggcgg agaacatcat tcacctgttt actcttacca acctgggtgc 3960
tcctgcagct ttcaagtact tcgataccac tatcgaccga aagcggtaca catccaccaa 4020
ggaggttctc gatgccaccc tgattcacca gtccatcact ggcctgtacg agacccgaat 4080
cgacctgtct cagcttggtg gcgactccag agccgatccc aagaaaaagc gaaaggtcta 4140
agcggccgca agtgtggatg gggaagtgag tgcccggttc tgtgtgcaca attggcaatc 4200
caagatggat ggattcaaca cagggatata gcgagctacg tggtggtgcg aggatatagc 4260
aacggatatt tatgtttgac acttgagaat gtacgataca agcactgtcc aagtacaata 4320
ctaaacatac tgtacatact catactcgta cccgggcaac ggtttcactt gagtgcagtg 4380
gctagtgctc ttactcgtac agtgtgcaat actgcgtatc atagtctttg atgtatatcg 4440
tattcattca tgttagttgc gtacgagccg gaagcataaa gtgtaaagcc tggggtgcct 4500
aatgagtgag ctaactcaca ttaattgcgt tgcgctcact gcccgctttc cagtcgggaa 4560
acctgtcgtg ccagctgcat taatgaatcg gccaacgcgc ggggagaggc ggtttgcgta 4620
ttgggcgctc ttccgcttcc tcgctcactg actcgctgcg ctcggtcgtt cggctgcggc 4680
gagcggtatc agctcactca aaggcggtaa tacggttatc cacagaatca ggggataacg 4740
caggaaagaa catgtgagca aaaggccagc aaaaggccag gaaccgtaaa aaggccgcgt 4800
tgctggcgtt tttccatagg ctccgccccc ctgacgagca tcacaaaaat cgacgctcaa 4860
gtcagaggtg gcgaaacccg acaggactat aaagatacca ggcgtttccc cctggaagct 4920
ccctcgtgcg ctctcctgtt ccgaccctgc cgcttaccgg atacctgtcc gcctttctcc 4980
cttcgggaag cgtggcgctt tctcatagct cacgctgtag gtatctcagt tcggtgtagg 5040
tcgttcgctc caagctgggc tgtgtgcacg aaccccccgt tcagcccgac cgctgcgcct 5100
tatccggtaa ctatcgtctt gagtccaacc cggtaagaca cgacttatcg ccactggcag 5160
cagccactgg taacaggatt agcagagcga ggtatgtagg cggtgctaca gagttcttga 5220
agtggtggcc taactacggc tacactagaa ggacagtatt tggtatctgc gctctgctga 5280
agccagttac cttcggaaaa agagttggta gctcttgatc cggcaaacaa accaccgctg 5340
gtagcggtgg tttttttgtt tgcaagcagc agattacgcg cagaaaaaaa ggatctcaag 5400
aagatccttt gatcttttct acggggtctg acgctcagtg gaacgaaaac tcacgttaag 5460
ggattttggt catgagatta tcaaaaagga tcttcaccta gatcctttta aattaaaaat 5520
gaagttttaa atcaatctaa agtatatatg agtaaacttg gtctgacagt taccaatgct 5580
taatcagtga ggcacctatc tcagcgatct gtctatttcg ttcatccata gttgcctgac 5640
tccccgtcgt gtagataact acgatacggg agggcttacc atctggcccc agtgctgcaa 5700
tgataccgcg agacccacgc tcaccggctc cagatttatc agcaataaac cagccagccg 5760
gaagggccga gcgcagaagt ggtcctgcaa ctttatccgc ctccatccag tctattaatt 5820
gttgccggga agctagagta agtagttcgc cagttaatag tttgcgcaac gttgttgcca 5880
ttgctacagg catcgtggtg tcacgctcgt cgtttggtat ggcttcattc agctccggtt 5940
cccaacgatc aaggcgagtt acatgatccc ccatgttgtg caaaaaagcg gttagctcct 6000
tcggtcctcc gatcgttgtc agaagtaagt tggccgcagt gttatcactc atggttatgg 6060
cagcactgca taattctctt actgtcatgc catccgtaag atgcttttct gtgactggtg 6120
agtactcaac caagtcattc tgagaatagt gtatgcggcg accgagttgc tcttgcccgg 6180
cgtcaatacg ggataatacc gcgccacata gcagaacttt aaaagtgctc atcattggaa 6240
aacgttcttc ggggcgaaaa ctctcaagga tcttaccgct gttgagatcc agttcgatgt 6300
aacccactcg tgcacccaac tgatcttcag catcttttac tttcaccagc gtttctgggt 6360
gagcaaaaac aggaaggcaa aatgccgcaa aaaagggaat aagggcgaca cggaaatgtt 6420
gaatactcat actcttcctt tttcaatatt attgaagcat ttatcagggt tattgtctca 6480
tgagcggata catatttgaa tgtatttaga aaaataaaca aataggggtt ccgcgcacat 6540
ttccccgaaa agtgccacct gacgcgccct gtagcggcgc attaagcgcg gcgggtgtgg 6600
tggttacgcg cagcgtgacc gctacacttg ccagcgccct agcgcccgct cctttcgctt 6660
tcttcccttc ctttctcgcc acgttcgccg gctttccccg tcaagctcta aatcgggggc 6720
tccctttagg gttccgattt agtgctttac ggcacctcga ccccaaaaaa cttgattagg 6780
gtgatggttc acgtagtggg ccatcgccct gatagacggt ttttcgccct ttgacgttgg 6840
agtccacgtt ctttaatagt ggactcttgt tccaaactgg aacaacactc aaccctatct 6900
cggtctattc ttttgattta taagggattt tgccgatttc ggcctattgg ttaaaaaatg 6960
agctgattta acaaaaattt aacgcgaatt ttaacaaaat attaacgctt acaatttcca 7020
ttcgccattc aggctgcgca actgttggga agggcgatcg gtgcgggcct cttcgctatt 7080
acgccagctg gcgaaagggg gatgtgctgc aaggcgatta agttgggtaa cgccagggtt 7140
ttcccagtca cgacgttgta aaacgacggc cagtgaattg taatacgact cactataggg 7200
cgaattgggt accgggcccc ccctcgaggt cgatggtgtc gataagcttg atatcgaatt 7260
catgtcacac aaaccgatct tcgcctcaag gaaacctaat tctacatccg agagactgcc 7320
gagatccagt ctacactgat taattttcgg gccaataatt taaaaaaatc gtgttatata 7380
atattatatg tattatatat atacatcatg atgatactga cagtcatgtc ccattgctaa 7440
atagacagac tccatctgcc gcctccaact gatgttctca atatttaagg ggtcatctcg 7500
cattgtttaa taataaacag actccatcta ccgcctccaa atgatgttct caaaatatat 7560
tgtatgaact tatttttatt acttagtatt attagacaac ttacttgctt tatgaaaaac 7620
acttcctatt taggaaacaa tttataatgg cagttcgttc atttaacaat ttatgtagaa 7680
taaatgttat aaatgcgtat gggaaatctt aaatatggat agcataaatg atatctgcat 7740
tgcctaattc gaaatcaaca gcaacgaaaa aaatcccttg tacaacataa atagtcatcg 7800
agaaatatca actatcaaag aacagctatt cacacgttac tattgagatt attattggac 7860
gagaatcaca cactcaactg tctttctctc ttctagaaat acaggtacaa gtatgtacta 7920
ttctcattgt tcatacttct agtcatttca tcccacatat tccttggatt tctctccaat 7980
gaatgacatt ctatcttgca aattcaacaa ttataataag atataccaaa gtagcggtat 8040
agtggcaatc aaaaagcttc tctggtgtgc ttctcgtatt tatttttatt ctaatgatcc 8100
attaaaggta tatatttatt tcttgttata taatcctttt gtttattaca tgggctggat 8160
acataaaggt attttgattt aattttttgc ttaaattcaa tcccccctcg ttcagtgtca 8220
actgtaatgg taggaaatta ccatactttt gaagaagcaa aaaaaatgaa agaaaaaaaa 8280
aatcgtattt ccaggttaga cgttccgcag aatctagaat gcggtatgcg gtacattgtt 8340
cttcgaacgt aaaagttgcg ctccctgaga tattgtacat ttttgctttt acaagtacaa 8400
gtacatcgta caactatgta ctactgttga tgcatccaca acagtttgtt ttgttttttt 8460
ttgttttttt tttttctaat gattcattac cgctatgtat acctacttgt acttgtagta 8520
agccgggtta ttggcgttca attaatcata gacttatgaa tctgcacggt gtgcgctgcg 8580
agttactttt agcttatgca tgctacttgg gtgtaatatt gggatctgtt cggaaatcaa 8640
cggatgctca atcgatttcg acagtaatta attaagtcat acacaagtca gctttcttcg 8700
agcctcatat aagtataagt agttcaacgt attagcactg tacccagcat ctccgtatcg 8760
agaaacacaa caacatgccc cattggacag atcatgcgga tacacaggtt gtgcagtatc 8820
atacatactc gatcagacag gtcgtctgac catcatacaa gctgaacaag cgctccatac 8880
ttgcacgctc tctatataca cagttaaatt acatatccat agtctaacct ctaacagtta 8940
atcttctggt aagcctccca gccagccttc tggtatcgct tggcctcctc aataggatct 9000
cggttctggc cgtacagacc tcggccgaca attatgatat ccgttccggt agacatgaca 9060
tcctcaacag ttcggtactg ctgtccgaga gcgtctccct tgtcgtcaag acccaccccg 9120
ggggtcagaa taagccagtc ctcagagtcg cccttaggtc ggttctgggc aatgaagcca 9180
accacaaact cggggtcgga tcgggcaagc tcaatggtct gcttggagta ctcgccagtg 9240
gccagagagc ccttgcaaga cagctcggcc agcatgagca gacctctggc cagcttctcg 9300
ttgggagagg ggactaggaa ctccttgtac tgggagttct cgtagtcaga gacgtcctcc 9360
ttcttctgtt cagagacagt ttcctcggca ccagctcgca ggccagcaat gattccggtt 9420
ccgggtacac cgtgggcgtt ggtgatatcg gaccactcgg cgattcggtg acaccggtac 9480
tggtgcttga cagtgttgcc aatatctgcg aactttctgt cctcgaacag gaagaaaccg 9540
tgcttaagag caagttcctt gagggggagc acagtgccgg cgtaggtgaa gtcgtcaatg 9600
atgtcgatat gggttttgat catgcacaca taaggtccga ccttatcggc aagctcaatg 9660
agctccttgg tggtggtaac atccagagaa gcacacaggt tggttttctt ggctgccacg 9720
agcttgagca ctcgagcggc aaaggcggac ttgtggacgt tagctcgagc ttcgtaggag 9780
ggcattttgg tggtgaagag gagactgaaa taaatttagt ctgcagaact ttttatcgga 9840
accttatctg gggcagtgaa gtatatgtta tggtaatagt tacgagttag ttgaacttat 9900
agatagactg gactatacgg ctatcggtcc aaattagaaa gaacgtcaat ggctctctgg 9960
gcgtcgcctt tgccgacaaa aatgtgatca tgatgaaagc cagcaatgac gttgcagctg 10020
atattgttgt cggccaaccg cgccgaaaac gcagctgtca gacccacagc ctccaacgaa 10080
gaatgtatcg tcaaagtgat ccaagcacac tcatagttgg agtcgtactc caaaggcggc 10140
aatgacgagt cagacagata ctcgtcgacg tttaaaccat catctaaggg cctcaaaact 10200
acctcggaac tgctgcgctg atctggacac cacagaggtt ccgagcactt taggttgcac 10260
caaatgtccc accaggtgca ggcagaaaac gctggaacag cgtgtacagt ttgtcttaac 10320
aaaaagtgag ggcgctgagg tcgagcaggg tggtgtgact tgttatagcc tttagagctg 10380
cgaaagcgcg tatggatttg gctcatcagg ccagattgag ggtctgtgga cacatgtcat 10440
gttagtgtac ttcaatcgcc ccctggatat agccccgaca ataggccgtg gcctcatttt 10500
tttgccttcc gcacatttcc attgctcggt acccacacct tgcttctcct gcacttgcca 10560
accttaatac tggtttacat tgaccaacat cttacaagcg gggggcttgt ctagggtata 10620
tataaacagt ggctctccca atcggttgcc agtctctttt ttcctttctt tccccacaga 10680
ttcgaaatct aaactacaca tcacac 10706
<210> 7
<211> 4144
<212> DNA
<213> artificial sequence
<220>
<223> Cas9-SV40 fusion
<400> 7
acaagaaata ctccatcggc ctggacattg gaaccaactc tgtcggctgg gctgtcatca 60
ccgacgagta caaggtgccc tccaagaaat tcaaggtcct cggaaacacc gatcgacact 120
ccatcaagaa aaacctcatt ggtgccctgt tgttcgattc tggcgagact gccgaagcta 180
ccagactcaa gcgaactgct cggcgacgtt acacccgacg gaagaaccga atctgctacc 240
tgcaggagat cttttccaac gagatggcca aggtggacga ttcgttcttt catcgactgg 300
aggaatcctt cctcgtcgag gaagacaaga aacacgagcg tcatcccatc tttggcaaca 360
ttgtggacga ggttgcttac cacgagaagt atcctaccat ctaccacctg cgaaagaaac 420
tcgtcgattc caccgacaag gcggatctca gacttatcta cctcgctctg gcacacatga 480
tcaagtttcg aggtcatttc ctcatcgagg gcgatctcaa tcccgacaac agcgatgtgg 540
acaagctgtt cattcagctc gttcagacct acaaccagct gttcgaggaa aaccccatca 600
atgcctccgg agtcgatgca aaggccatct tgtctgctcg actctcgaag agcagacgac 660
tggagaacct cattgcccaa cttcctggcg agaaaaagaa cggactgttt ggcaacctca 720
ttgccctttc tcttggtctc acacccaact tcaagtccaa cttcgatctg gcggaggacg 780
ccaagctcca gctgtccaag gacacctacg acgatgacct cgacaacctg cttgcacaga 840
ttggcgatca gtacgccgac ctgtttctcg ctgccaagaa cctttcggat gctattctct 900
tgtctgacat tctgcgagtc aacaccgaga tcacaaaggc tcccctttct gcctccatga 960
tcaagcgata cgacgagcac catcaggatc tcacactgct caaggctctt gtccgacagc 1020
aactgcccga gaagtacaag gagatctttt tcgatcagtc gaagaacggc tacgctggat 1080
acatcgacgg cggagcctct caggaagagt tctacaagtt catcaagcca attctcgaga 1140
agatggacgg aaccgaggaa ctgcttgtca agctcaatcg agaggatctg cttcggaagc 1200
aacgaacctt cgacaacggc agcattcctc atcagatcca cctcggtgag ctgcacgcca 1260
ttcttcgacg tcaggaagac ttctacccct ttctcaagga caaccgagag aagatcgaga 1320
agattcttac ctttcgaatc ccctactatg ttggtcctct tgccagagga aactctcgat 1380
ttgcttggat gactcgaaag tccgaggaaa ccatcactcc ctggaacttc gaggaagtcg 1440
tggacaaggg tgcctctgca cagtccttca tcgagcgaat gaccaacttc gacaagaatc 1500
tgcccaacga gaaggttctt cccaagcatt cgctgctcta cgagtacttt acagtctaca 1560
acgaactcac caaagtcaag tacgttaccg agggaatgcg aaagcctgcc ttcttgtctg 1620
gcgaacagaa gaaagccatt gtcgatctcc tgttcaagac caaccgaaag gtcactgtta 1680
agcagctcaa ggaggactac ttcaagaaaa tcgagtgttt cgacagcgtc gagatttccg 1740
gagttgagga ccgattcaac gcctctttgg gcacctatca cgatctgctc aagattatca 1800
aggacaagga ttttctcgac aacgaggaaa acgaggacat tctggaggac atcgtgctca 1860
ctcttaccct gttcgaagat cgggagatga tcgaggaacg actcaagaca tacgctcacc 1920
tgttcgacga caaggtcatg aaacaactca agcgacgtag atacaccggc tggggaagac 1980
tttcgcgaaa gctcatcaac ggcatcagag acaagcagtc cggaaagacc attctggact 2040
ttctcaagtc cgatggcttt gccaaccgaa acttcatgca gctcattcac gacgattctc 2100
ttaccttcaa ggaggacatc cagaaggcac aagtgtccgg tcagggcgac agcttgcacg 2160
aacatattgc caacctggct ggttcgccag ccatcaagaa aggcattctc cagactgtca 2220
aggttgtcga cgagctggtg aaggtcatgg gacgtcacaa gcccgagaac attgtgatcg 2280
agatggccag agagaaccag acaactcaaa agggtcagaa aaactcgcga gagcggatga 2340
agcgaatcga ggaaggcatc aaggagctgg gatcccagat tctcaaggag catcccgtcg 2400
agaacactca actgcagaac gagaagctgt atctctacta tctgcagaat ggtcgagaca 2460
tgtacgtgga tcaggaactg gacatcaatc gtctcagcga ctacgatgtg gaccacattg 2520
tccctcaatc ctttctcaag gacgattcta tcgacaacaa ggtccttaca cgatccgaca 2580
agaacagagg caagtcggac aacgttccca gcgaagaggt ggtcaaaaag atgaagaact 2640
actggcgaca gctgctcaac gccaagctca ttacccagcg aaagttcgac aatcttacca 2700
aggccgagcg aggcggtctg tccgagctcg acaaggctgg cttcatcaag cgtcaactcg 2760
tcgagaccag acagatcaca aagcacgtcg cacagattct cgattctcgg atgaacacca 2820
agtacgacga gaacgacaag ctcatccgag aggtcaaggt gattactctc aagtccaaac 2880
tggtctccga tttccgaaag gactttcagt tctacaaggt gcgagagatc aacaattacc 2940
accatgccca cgatgcttac ctcaacgccg tcgttggcac tgcgctcatc aagaaatacc 3000
ccaagctcga aagcgagttc gtttacggcg attacaaggt ctacgacgtt cgaaagatga 3060
ttgccaagtc cgaacaggag attggcaagg ctactgccaa gtacttcttt tactccaaca 3120
tcatgaactt tttcaagacc gagatcacct tggccaacgg agagattcga aagagaccac 3180
ttatcgagac caacggcgaa actggagaga tcgtgtggga caagggtcga gactttgcaa 3240
ccgtgcgaaa ggttctgtcg atgcctcagg tcaacatcgt caagaaaacc gaggttcaga 3300
ctggcggatt ctccaaggag tcgattctgc ccaagcgaaa ctccgacaag ctcatcgctc 3360
gaaagaaaga ctgggatccc aagaaatacg gtggcttcga ttctcctacc gtcgcctatt 3420
ccgtgcttgt cgttgcgaag gtcgagaagg gcaagtccaa aaagctcaag tccgtcaagg 3480
agctgctcgg aattaccatc atggagcgat cgagcttcga gaagaatccc atcgacttct 3540
tggaagccaa gggttacaag gaggtcaaga aagacctcat tatcaagctg cccaagtact 3600
ctctgttcga actggagaac ggtcgaaagc gtatgctcgc ctccgctggc gagctgcaga 3660
agggaaacga gcttgccttg ccttcgaagt acgtcaactt tctctatctg gcttctcact 3720
acgagaagct caagggttct cccgaggaca acgaacagaa gcaactcttc gttgagcagc 3780
acaaacatta cctcgacgag attatcgagc agatttccga gttttcgaag cgagtcatcc 3840
tggctgatgc caacttggac aaggtgctct ctgcctacaa caagcatcgg gacaaaccca 3900
ttcgagaaca ggcggagaac atcattcacc tgtttactct taccaacctg ggtgctcctg 3960
cagctttcaa gtacttcgat accactatcg accgaaagcg gtacacatcc accaaggagg 4020
ttctcgatgc caccctgatt caccagtcca tcactggcct gtacgagacc cgaatcgacc 4080
tgtctcagct tggtggcgac tccagagccg atcccaagaa aaagcgaaag gtctaagcgg 4140
ccgc 4144
<210> 8
<211> 35
<212> DNA
<213> Artificial sequence
<220>
<223> Cas9 forward primer
<400> 8
gggggaattc gacaagaaat actccatcgg cctgg 35
<210> 9
<211> 31
<212> DNA
<213> Artificial sequence
<220>
<223> Cas9 reverse primer
<400> 9
ccccaagctt agcggccgct tagacctttc g 31
<210> 10
<211> 4166
<212> DNA
<213> Artificial sequence
<220>
<223> Cas9 PCR product
<400> 10
gggggaattc gacaagaaat actccatcgg cctggacatt ggaaccaact ctgtcggctg 60
ggctgtcatc accgacgagt acaaggtgcc ctccaagaaa ttcaaggtcc tcggaaacac 120
cgatcgacac tccatcaaga aaaacctcat tggtgccctg ttgttcgatt ctggcgagac 180
tgccgaagct accagactca agcgaactgc tcggcgacgt tacacccgac ggaagaaccg 240
aatctgctac ctgcaggaga tcttttccaa cgagatggcc aaggtggacg attcgttctt 300
tcatcgactg gaggaatcct tcctcgtcga ggaagacaag aaacacgagc gtcatcccat 360
ctttggcaac attgtggacg aggttgctta ccacgagaag tatcctacca tctaccacct 420
gcgaaagaaa ctcgtcgatt ccaccgacaa ggcggatctc agacttatct acctcgctct 480
ggcacacatg atcaagtttc gaggtcattt cctcatcgag ggcgatctca atcccgacaa 540
cagcgatgtg gacaagctgt tcattcagct cgttcagacc tacaaccagc tgttcgagga 600
aaaccccatc aatgcctccg gagtcgatgc aaaggccatc ttgtctgctc gactctcgaa 660
gagcagacga ctggagaacc tcattgccca acttcctggc gagaaaaaga acggactgtt 720
tggcaacctc attgcccttt ctcttggtct cacacccaac ttcaagtcca acttcgatct 780
ggcggaggac gccaagctcc agctgtccaa ggacacctac gacgatgacc tcgacaacct 840
gcttgcacag attggcgatc agtacgccga cctgtttctc gctgccaaga acctttcgga 900
tgctattctc ttgtctgaca ttctgcgagt caacaccgag atcacaaagg ctcccctttc 960
tgcctccatg atcaagcgat acgacgagca ccatcaggat ctcacactgc tcaaggctct 1020
tgtccgacag caactgcccg agaagtacaa ggagatcttt ttcgatcagt cgaagaacgg 1080
ctacgctgga tacatcgacg gcggagcctc tcaggaagag ttctacaagt tcatcaagcc 1140
aattctcgag aagatggacg gaaccgagga actgcttgtc aagctcaatc gagaggatct 1200
gcttcggaag caacgaacct tcgacaacgg cagcattcct catcagatcc acctcggtga 1260
gctgcacgcc attcttcgac gtcaggaaga cttctacccc tttctcaagg acaaccgaga 1320
gaagatcgag aagattctta cctttcgaat cccctactat gttggtcctc ttgccagagg 1380
aaactctcga tttgcttgga tgactcgaaa gtccgaggaa accatcactc cctggaactt 1440
cgaggaagtc gtggacaagg gtgcctctgc acagtccttc atcgagcgaa tgaccaactt 1500
cgacaagaat ctgcccaacg agaaggttct tcccaagcat tcgctgctct acgagtactt 1560
tacagtctac aacgaactca ccaaagtcaa gtacgttacc gagggaatgc gaaagcctgc 1620
cttcttgtct ggcgaacaga agaaagccat tgtcgatctc ctgttcaaga ccaaccgaaa 1680
ggtcactgtt aagcagctca aggaggacta cttcaagaaa atcgagtgtt tcgacagcgt 1740
cgagatttcc ggagttgagg accgattcaa cgcctctttg ggcacctatc acgatctgct 1800
caagattatc aaggacaagg attttctcga caacgaggaa aacgaggaca ttctggagga 1860
catcgtgctc actcttaccc tgttcgaaga tcgggagatg atcgaggaac gactcaagac 1920
atacgctcac ctgttcgacg acaaggtcat gaaacaactc aagcgacgta gatacaccgg 1980
ctggggaaga ctttcgcgaa agctcatcaa cggcatcaga gacaagcagt ccggaaagac 2040
cattctggac tttctcaagt ccgatggctt tgccaaccga aacttcatgc agctcattca 2100
cgacgattct cttaccttca aggaggacat ccagaaggca caagtgtccg gtcagggcga 2160
cagcttgcac gaacatattg ccaacctggc tggttcgcca gccatcaaga aaggcattct 2220
ccagactgtc aaggttgtcg acgagctggt gaaggtcatg ggacgtcaca agcccgagaa 2280
cattgtgatc gagatggcca gagagaacca gacaactcaa aagggtcaga aaaactcgcg 2340
agagcggatg aagcgaatcg aggaaggcat caaggagctg ggatcccaga ttctcaagga 2400
gcatcccgtc gagaacactc aactgcagaa cgagaagctg tatctctact atctgcagaa 2460
tggtcgagac atgtacgtgg atcaggaact ggacatcaat cgtctcagcg actacgatgt 2520
ggaccacatt gtccctcaat cctttctcaa ggacgattct atcgacaaca aggtccttac 2580
acgatccgac aagaacagag gcaagtcgga caacgttccc agcgaagagg tggtcaaaaa 2640
gatgaagaac tactggcgac agctgctcaa cgccaagctc attacccagc gaaagttcga 2700
caatcttacc aaggccgagc gaggcggtct gtccgagctc gacaaggctg gcttcatcaa 2760
gcgtcaactc gtcgagacca gacagatcac aaagcacgtc gcacagattc tcgattctcg 2820
gatgaacacc aagtacgacg agaacgacaa gctcatccga gaggtcaagg tgattactct 2880
caagtccaaa ctggtctccg atttccgaaa ggactttcag ttctacaagg tgcgagagat 2940
caacaattac caccatgccc acgatgctta cctcaacgcc gtcgttggca ctgcgctcat 3000
caagaaatac cccaagctcg aaagcgagtt cgtttacggc gattacaagg tctacgacgt 3060
tcgaaagatg attgccaagt ccgaacagga gattggcaag gctactgcca agtacttctt 3120
ttactccaac atcatgaact ttttcaagac cgagatcacc ttggccaacg gagagattcg 3180
aaagagacca cttatcgaga ccaacggcga aactggagag atcgtgtggg acaagggtcg 3240
agactttgca accgtgcgaa aggttctgtc gatgcctcag gtcaacatcg tcaagaaaac 3300
cgaggttcag actggcggat tctccaagga gtcgattctg cccaagcgaa actccgacaa 3360
gctcatcgct cgaaagaaag actgggatcc caagaaatac ggtggcttcg attctcctac 3420
cgtcgcctat tccgtgcttg tcgttgcgaa ggtcgagaag ggcaagtcca aaaagctcaa 3480
gtccgtcaag gagctgctcg gaattaccat catggagcga tcgagcttcg agaagaatcc 3540
catcgacttc ttggaagcca agggttacaa ggaggtcaag aaagacctca ttatcaagct 3600
gcccaagtac tctctgttcg aactggagaa cggtcgaaag cgtatgctcg cctccgctgg 3660
cgagctgcag aagggaaacg agcttgcctt gccttcgaag tacgtcaact ttctctatct 3720
ggcttctcac tacgagaagc tcaagggttc tcccgaggac aacgaacaga agcaactctt 3780
cgttgagcag cacaaacatt acctcgacga gattatcgag cagatttccg agttttcgaa 3840
gcgagtcatc ctggctgatg ccaacttgga caaggtgctc tctgcctaca acaagcatcg 3900
ggacaaaccc attcgagaac aggcggagaa catcattcac ctgtttactc ttaccaacct 3960
gggtgctcct gcagctttca agtacttcga taccactatc gaccgaaagc ggtacacatc 4020
caccaaggag gttctcgatg ccaccctgat tcaccagtcc atcactggcc tgtacgagac 4080
ccgaatcgac ctgtctcagc ttggtggcga ctccagagcc gatcccaaga aaaagcgaaa 4140
ggtctaagcg gccgctaagc ttgggg 4166
<210> 11
<211> 4092
<212> DNA
<213> Artificial sequence
<220>
<223> pBAD/HisB
<400> 11
aagaaaccaa ttgtccatat tgcatcagac attgccgtca ctgcgtcttt tactggctct 60
tctcgctaac caaaccggta accccgctta ttaaaagcat tctgtaacaa agcgggacca 120
aagccatgac aaaaacgcgt aacaaaagtg tctataatca cggcagaaaa gtccacattg 180
attatttgca cggcgtcaca ctttgctatg ccatagcatt tttatccata agattagcgg 240
atcctacctg acgcttttta tcgcaactct ctactgtttc tccatacccg ttttttgggc 300
taacaggagg aattaaccat ggggggttct catcatcatc atcatcatgg tatggctagc 360
atgactggtg gacagcaaat gggtcgggat ctgtacgacg atgacgataa ggatccgagc 420
tcgagatctg cagctggtac catatgggaa ttcgaagctt ggctgttttg gcggatgaga 480
gaagattttc agcctgatac agattaaatc agaacgcaga agcggtctga taaaacagaa 540
tttgcctggc ggcagtagcg cggtggtccc acctgacccc atgccgaact cagaagtgaa 600
acgccgtagc gccgatggta gtgtggggtc tccccatgcg agagtaggga actgccaggc 660
atcaaataaa acgaaaggct cagtcgaaag actgggcctt tcgttttatc tgttgtttgt 720
cggtgaacgc tctcctgagt aggacaaatc cgccgggagc ggatttgaac gttgcgaagc 780
aacggcccgg agggtggcgg gcaggacgcc cgccataaac tgccaggcat caaattaagc 840
agaaggccat cctgacggat ggcctttttg cgtttctaca aactcttttg tttatttttc 900
taaatacatt caaatatgta tccgctcatg agacaataac cctgataaat gcttcaataa 960
tattgaaaaa ggaagagtat gagtattcaa catttccgtg tcgcccttat tccctttttt 1020
gcggcatttt gccttcctgt ttttgctcac ccagaaacgc tggtgaaagt aaaagatgct 1080
gaagatcagt tgggtgcacg agtgggttac atcgaactgg atctcaacag cggtaagatc 1140
cttgagagtt ttcgccccga agaacgtttt ccaatgatga gcacttttaa agttctgcta 1200
tgtggcgcgg tattatcccg tgttgacgcc gggcaagagc aactcggtcg ccgcatacac 1260
tattctcaga atgacttggt tgagtactca ccagtcacag aaaagcatct tacggatggc 1320
atgacagtaa gagaattatg cagtgctgcc ataaccatga gtgataacac tgcggccaac 1380
ttacttctga caacgatcgg aggaccgaag gagctaaccg cttttttgca caacatgggg 1440
gatcatgtaa ctcgccttga tcgttgggaa ccggagctga atgaagccat accaaacgac 1500
gagcgtgaca ccacgatgcc tgtagcaatg gcaacaacgt tgcgcaaact attaactggc 1560
gaactactta ctctagcttc ccggcaacaa ttaatagact ggatggaggc ggataaagtt 1620
gcaggaccac ttctgcgctc ggcccttccg gctggctggt ttattgctga taaatctgga 1680
gccggtgagc gtgggtctcg cggtatcatt gcagcactgg ggccagatgg taagccctcc 1740
cgtatcgtag ttatctacac gacggggagt caggcaacta tggatgaacg aaatagacag 1800
atcgctgaga taggtgcctc actgattaag cattggtaac tgtcagacca agtttactca 1860
tatatacttt agattgattt aaaacttcat ttttaattta aaaggatcta ggtgaagatc 1920
ctttttgata atctcatgac caaaatccct taacgtgagt tttcgttcca ctgagcgtca 1980
gaccccgtag aaaagatcaa aggatcttct tgagatcctt tttttctgcg cgtaatctgc 2040
tgcttgcaaa caaaaaaacc accgctacca gcggtggttt gtttgccgga tcaagagcta 2100
ccaactcttt ttccgaaggt aactggcttc agcagagcgc agataccaaa tactgtcctt 2160
ctagtgtagc cgtagttagg ccaccacttc aagaactctg tagcaccgcc tacatacctc 2220
gctctgctaa tcctgttacc agtggctgct gccagtggcg ataagtcgtg tcttaccggg 2280
ttggactcaa gacgatagtt accggataag gcgcagcggt cgggctgaac ggggggttcg 2340
tgcacacagc ccagcttgga gcgaacgacc tacaccgaac tgagatacct acagcgtgag 2400
ctatgagaaa gcgccacgct tcccgaaggg agaaaggcgg acaggtatcc ggtaagcggc 2460
agggtcggaa caggagagcg cacgagggag cttccagggg gaaacgcctg gtatctttat 2520
agtcctgtcg ggtttcgcca cctctgactt gagcgtcgat ttttgtgatg ctcgtcaggg 2580
gggcggagcc tatggaaaaa cgccagcaac gcggcctttt tacggttcct ggccttttgc 2640
tggccttttg ctcacatgtt ctttcctgcg ttatcccctg attctgtgga taaccgtatt 2700
accgcctttg agtgagctga taccgctcgc cgcagccgaa cgaccgagcg cagcgagtca 2760
gtgagcgagg aagcggaaga gcgcctgatg cggtattttc tccttacgca tctgtgcggt 2820
atttcacacc gcatatggtg cactctcagt acaatctgct ctgatgccgc atagttaagc 2880
cagtatacac tccgctatcg ctacgtgact gggtcatggc tgcgccccga cacccgccaa 2940
cacccgctga cgcgccctga cgggcttgtc tgctcccggc atccgcttac agacaagctg 3000
tgaccgtctc cgggagctgc atgtgtcaga ggttttcacc gtcatcaccg aaacgcgcga 3060
ggcagcagat caattcgcgc gcgaaggcga agcggcatgc ataatgtgcc tgtcaaatgg 3120
acgaagcagg gattctgcaa accctatgct actccgtcaa gccgtcaatt gtctgattcg 3180
ttaccaatta tgacaacttg acggctacat cattcacttt ttcttcacaa ccggcacgga 3240
actcgctcgg gctggccccg gtgcattttt taaatacccg cgagaaatag agttgatcgt 3300
caaaaccaac attgcgaccg acggtggcga taggcatccg ggtggtgctc aaaagcagct 3360
tcgcctggct gatacgttgg tcctcgcgcc agcttaagac gctaatccct aactgctggc 3420
ggaaaagatg tgacagacgc gacggcgaca agcaaacatg ctgtgcgacg ctggcgatat 3480
caaaattgct gtctgccagg tgatcgctga tgtactgaca agcctcgcgt acccgattat 3540
ccatcggtgg atggagcgac tcgttaatcg cttccatgcg ccgcagtaac aattgctcaa 3600
gcagatttat cgccagcagc tccgaatagc gcccttcccc ttgcccggcg ttaatgattt 3660
gcccaaacag gtcgctgaaa tgcggctggt gcgcttcatc cgggcgaaag aaccccgtat 3720
tggcaaatat tgacggccag ttaagccatt catgccagta ggcgcgcgga cgaaagtaaa 3780
cccactggtg ataccattcg cgagcctccg gatgacgacc gtagtgatga atctctcctg 3840
gcgggaacag caaaatatca cccggtcggc aaacaaattc tcgtccctga tttttcacca 3900
ccccctgacc gcgaatggtg agattgagaa tataaccttt cattcccagc ggtcggtcga 3960
taaaaaaatc gagataaccg ttggcctcaa tcggcgttaa acccgccacc agatgggcat 4020
taaacgagta tcccggcagc aggggatcat tttgcgcttc agccatactt ttcatactcc 4080
cgccattcag ag 4092
<210> 12
<211> 8237
<212> DNA
<213> Artificial sequence
<220>
<223> pRF48
<400> 12
aattcgacaa gaaatactcc atcggcctgg acattggaac caactctgtc ggctgggctg 60
tcatcaccga cgagtacaag gtgccctcca agaaattcaa ggtcctcgga aacaccgatc 120
gacactccat caagaaaaac ctcattggtg ccctgttgtt cgattctggc gagactgccg 180
aagctaccag actcaagcga actgctcggc gacgttacac ccgacggaag aaccgaatct 240
gctacctgca ggagatcttt tccaacgaga tggccaaggt ggacgattcg ttctttcatc 300
gactggagga atccttcctc gtcgaggaag acaagaaaca cgagcgtcat cccatctttg 360
gcaacattgt ggacgaggtt gcttaccacg agaagtatcc taccatctac cacctgcgaa 420
agaaactcgt cgattccacc gacaaggcgg atctcagact tatctacctc gctctggcac 480
acatgatcaa gtttcgaggt catttcctca tcgagggcga tctcaatccc gacaacagcg 540
atgtggacaa gctgttcatt cagctcgttc agacctacaa ccagctgttc gaggaaaacc 600
ccatcaatgc ctccggagtc gatgcaaagg ccatcttgtc tgctcgactc tcgaagagca 660
gacgactgga gaacctcatt gcccaacttc ctggcgagaa aaagaacgga ctgtttggca 720
acctcattgc cctttctctt ggtctcacac ccaacttcaa gtccaacttc gatctggcgg 780
aggacgccaa gctccagctg tccaaggaca cctacgacga tgacctcgac aacctgcttg 840
cacagattgg cgatcagtac gccgacctgt ttctcgctgc caagaacctt tcggatgcta 900
ttctcttgtc tgacattctg cgagtcaaca ccgagatcac aaaggctccc ctttctgcct 960
ccatgatcaa gcgatacgac gagcaccatc aggatctcac actgctcaag gctcttgtcc 1020
gacagcaact gcccgagaag tacaaggaga tctttttcga tcagtcgaag aacggctacg 1080
ctggatacat cgacggcgga gcctctcagg aagagttcta caagttcatc aagccaattc 1140
tcgagaagat ggacggaacc gaggaactgc ttgtcaagct caatcgagag gatctgcttc 1200
ggaagcaacg aaccttcgac aacggcagca ttcctcatca gatccacctc ggtgagctgc 1260
acgccattct tcgacgtcag gaagacttct acccctttct caaggacaac cgagagaaga 1320
tcgagaagat tcttaccttt cgaatcccct actatgttgg tcctcttgcc agaggaaact 1380
ctcgatttgc ttggatgact cgaaagtccg aggaaaccat cactccctgg aacttcgagg 1440
aagtcgtgga caagggtgcc tctgcacagt ccttcatcga gcgaatgacc aacttcgaca 1500
agaatctgcc caacgagaag gttcttccca agcattcgct gctctacgag tactttacag 1560
tctacaacga actcaccaaa gtcaagtacg ttaccgaggg aatgcgaaag cctgccttct 1620
tgtctggcga acagaagaaa gccattgtcg atctcctgtt caagaccaac cgaaaggtca 1680
ctgttaagca gctcaaggag gactacttca agaaaatcga gtgtttcgac agcgtcgaga 1740
tttccggagt tgaggaccga ttcaacgcct ctttgggcac ctatcacgat ctgctcaaga 1800
ttatcaagga caaggatttt ctcgacaacg aggaaaacga ggacattctg gaggacatcg 1860
tgctcactct taccctgttc gaagatcggg agatgatcga ggaacgactc aagacatacg 1920
ctcacctgtt cgacgacaag gtcatgaaac aactcaagcg acgtagatac accggctggg 1980
gaagactttc gcgaaagctc atcaacggca tcagagacaa gcagtccgga aagaccattc 2040
tggactttct caagtccgat ggctttgcca accgaaactt catgcagctc attcacgacg 2100
attctcttac cttcaaggag gacatccaga aggcacaagt gtccggtcag ggcgacagct 2160
tgcacgaaca tattgccaac ctggctggtt cgccagccat caagaaaggc attctccaga 2220
ctgtcaaggt tgtcgacgag ctggtgaagg tcatgggacg tcacaagccc gagaacattg 2280
tgatcgagat ggccagagag aaccagacaa ctcaaaaggg tcagaaaaac tcgcgagagc 2340
ggatgaagcg aatcgaggaa ggcatcaagg agctgggatc ccagattctc aaggagcatc 2400
ccgtcgagaa cactcaactg cagaacgaga agctgtatct ctactatctg cagaatggtc 2460
gagacatgta cgtggatcag gaactggaca tcaatcgtct cagcgactac gatgtggacc 2520
acattgtccc tcaatccttt ctcaaggacg attctatcga caacaaggtc cttacacgat 2580
ccgacaagaa cagaggcaag tcggacaacg ttcccagcga agaggtggtc aaaaagatga 2640
agaactactg gcgacagctg ctcaacgcca agctcattac ccagcgaaag ttcgacaatc 2700
ttaccaaggc cgagcgaggc ggtctgtccg agctcgacaa ggctggcttc atcaagcgtc 2760
aactcgtcga gaccagacag atcacaaagc acgtcgcaca gattctcgat tctcggatga 2820
acaccaagta cgacgagaac gacaagctca tccgagaggt caaggtgatt actctcaagt 2880
ccaaactggt ctccgatttc cgaaaggact ttcagttcta caaggtgcga gagatcaaca 2940
attaccacca tgcccacgat gcttacctca acgccgtcgt tggcactgcg ctcatcaaga 3000
aataccccaa gctcgaaagc gagttcgttt acggcgatta caaggtctac gacgttcgaa 3060
agatgattgc caagtccgaa caggagattg gcaaggctac tgccaagtac ttcttttact 3120
ccaacatcat gaactttttc aagaccgaga tcaccttggc caacggagag attcgaaaga 3180
gaccacttat cgagaccaac ggcgaaactg gagagatcgt gtgggacaag ggtcgagact 3240
ttgcaaccgt gcgaaaggtt ctgtcgatgc ctcaggtcaa catcgtcaag aaaaccgagg 3300
ttcagactgg cggattctcc aaggagtcga ttctgcccaa gcgaaactcc gacaagctca 3360
tcgctcgaaa gaaagactgg gatcccaaga aatacggtgg cttcgattct cctaccgtcg 3420
cctattccgt gcttgtcgtt gcgaaggtcg agaagggcaa gtccaaaaag ctcaagtccg 3480
tcaaggagct gctcggaatt accatcatgg agcgatcgag cttcgagaag aatcccatcg 3540
acttcttgga agccaagggt tacaaggagg tcaagaaaga cctcattatc aagctgccca 3600
agtactctct gttcgaactg gagaacggtc gaaagcgtat gctcgcctcc gctggcgagc 3660
tgcagaaggg aaacgagctt gccttgcctt cgaagtacgt caactttctc tatctggctt 3720
ctcactacga gaagctcaag ggttctcccg aggacaacga acagaagcaa ctcttcgttg 3780
agcagcacaa acattacctc gacgagatta tcgagcagat ttccgagttt tcgaagcgag 3840
tcatcctggc tgatgccaac ttggacaagg tgctctctgc ctacaacaag catcgggaca 3900
aacccattcg agaacaggcg gagaacatca ttcacctgtt tactcttacc aacctgggtg 3960
ctcctgcagc tttcaagtac ttcgatacca ctatcgaccg aaagcggtac acatccacca 4020
aggaggttct cgatgccacc ctgattcacc agtccatcac tggcctgtac gagacccgaa 4080
tcgacctgtc tcagcttggt ggcgactcca gagccgatcc caagaaaaag cgaaaggtct 4140
aagcggccgc taagcttggc tgttttggcg gatgagagaa gattttcagc ctgatacaga 4200
ttaaatcaga acgcagaagc ggtctgataa aacagaattt gcctggcggc agtagcgcgg 4260
tggtcccacc tgaccccatg ccgaactcag aagtgaaacg ccgtagcgcc gatggtagtg 4320
tggggtctcc ccatgcgaga gtagggaact gccaggcatc aaataaaacg aaaggctcag 4380
tcgaaagact gggcctttcg ttttatctgt tgtttgtcgg tgaacgctct cctgagtagg 4440
acaaatccgc cgggagcgga tttgaacgtt gcgaagcaac ggcccggagg gtggcgggca 4500
ggacgcccgc cataaactgc caggcatcaa attaagcaga aggccatcct gacggatggc 4560
ctttttgcgt ttctacaaac tcttttgttt atttttctaa atacattcaa atatgtatcc 4620
gctcatgaga caataaccct gataaatgct tcaataatat tgaaaaagga agagtatgag 4680
tattcaacat ttccgtgtcg cccttattcc cttttttgcg gcattttgcc ttcctgtttt 4740
tgctcaccca gaaacgctgg tgaaagtaaa agatgctgaa gatcagttgg gtgcacgagt 4800
gggttacatc gaactggatc tcaacagcgg taagatcctt gagagttttc gccccgaaga 4860
acgttttcca atgatgagca cttttaaagt tctgctatgt ggcgcggtat tatcccgtgt 4920
tgacgccggg caagagcaac tcggtcgccg catacactat tctcagaatg acttggttga 4980
gtactcacca gtcacagaaa agcatcttac ggatggcatg acagtaagag aattatgcag 5040
tgctgccata accatgagtg ataacactgc ggccaactta cttctgacaa cgatcggagg 5100
accgaaggag ctaaccgctt ttttgcacaa catgggggat catgtaactc gccttgatcg 5160
ttgggaaccg gagctgaatg aagccatacc aaacgacgag cgtgacacca cgatgcctgt 5220
agcaatggca acaacgttgc gcaaactatt aactggcgaa ctacttactc tagcttcccg 5280
gcaacaatta atagactgga tggaggcgga taaagttgca ggaccacttc tgcgctcggc 5340
ccttccggct ggctggttta ttgctgataa atctggagcc ggtgagcgtg ggtctcgcgg 5400
tatcattgca gcactggggc cagatggtaa gccctcccgt atcgtagtta tctacacgac 5460
ggggagtcag gcaactatgg atgaacgaaa tagacagatc gctgagatag gtgcctcact 5520
gattaagcat tggtaactgt cagaccaagt ttactcatat atactttaga ttgatttaaa 5580
acttcatttt taatttaaaa ggatctaggt gaagatcctt tttgataatc tcatgaccaa 5640
aatcccttaa cgtgagtttt cgttccactg agcgtcagac cccgtagaaa agatcaaagg 5700
atcttcttga gatccttttt ttctgcgcgt aatctgctgc ttgcaaacaa aaaaaccacc 5760
gctaccagcg gtggtttgtt tgccggatca agagctacca actctttttc cgaaggtaac 5820
tggcttcagc agagcgcaga taccaaatac tgtccttcta gtgtagccgt agttaggcca 5880
ccacttcaag aactctgtag caccgcctac atacctcgct ctgctaatcc tgttaccagt 5940
ggctgctgcc agtggcgata agtcgtgtct taccgggttg gactcaagac gatagttacc 6000
ggataaggcg cagcggtcgg gctgaacggg gggttcgtgc acacagccca gcttggagcg 6060
aacgacctac accgaactga gatacctaca gcgtgagcta tgagaaagcg ccacgcttcc 6120
cgaagggaga aaggcggaca ggtatccggt aagcggcagg gtcggaacag gagagcgcac 6180
gagggagctt ccagggggaa acgcctggta tctttatagt cctgtcgggt ttcgccacct 6240
ctgacttgag cgtcgatttt tgtgatgctc gtcagggggg cggagcctat ggaaaaacgc 6300
cagcaacgcg gcctttttac ggttcctggc cttttgctgg ccttttgctc acatgttctt 6360
tcctgcgtta tcccctgatt ctgtggataa ccgtattacc gcctttgagt gagctgatac 6420
cgctcgccgc agccgaacga ccgagcgcag cgagtcagtg agcgaggaag cggaagagcg 6480
cctgatgcgg tattttctcc ttacgcatct gtgcggtatt tcacaccgca tatggtgcac 6540
tctcagtaca atctgctctg atgccgcata gttaagccag tatacactcc gctatcgcta 6600
cgtgactggg tcatggctgc gccccgacac ccgccaacac ccgctgacgc gccctgacgg 6660
gcttgtctgc tcccggcatc cgcttacaga caagctgtga ccgtctccgg gagctgcatg 6720
tgtcagaggt tttcaccgtc atcaccgaaa cgcgcgaggc agcagatcaa ttcgcgcgcg 6780
aaggcgaagc ggcatgcata atgtgcctgt caaatggacg aagcagggat tctgcaaacc 6840
ctatgctact ccgtcaagcc gtcaattgtc tgattcgtta ccaattatga caacttgacg 6900
gctacatcat tcactttttc ttcacaaccg gcacggaact cgctcgggct ggccccggtg 6960
cattttttaa atacccgcga gaaatagagt tgatcgtcaa aaccaacatt gcgaccgacg 7020
gtggcgatag gcatccgggt ggtgctcaaa agcagcttcg cctggctgat acgttggtcc 7080
tcgcgccagc ttaagacgct aatccctaac tgctggcgga aaagatgtga cagacgcgac 7140
ggcgacaagc aaacatgctg tgcgacgctg gcgatatcaa aattgctgtc tgccaggtga 7200
tcgctgatgt actgacaagc ctcgcgtacc cgattatcca tcggtggatg gagcgactcg 7260
ttaatcgctt ccatgcgccg cagtaacaat tgctcaagca gatttatcgc cagcagctcc 7320
gaatagcgcc cttccccttg cccggcgtta atgatttgcc caaacaggtc gctgaaatgc 7380
ggctggtgcg cttcatccgg gcgaaagaac cccgtattgg caaatattga cggccagtta 7440
agccattcat gccagtaggc gcgcggacga aagtaaaccc actggtgata ccattcgcga 7500
gcctccggat gacgaccgta gtgatgaatc tctcctggcg ggaacagcaa aatatcaccc 7560
ggtcggcaaa caaattctcg tccctgattt ttcaccaccc cctgaccgcg aatggtgaga 7620
ttgagaatat aacctttcat tcccagcggt cggtcgataa aaaaatcgag ataaccgttg 7680
gcctcaatcg gcgttaaacc cgccaccaga tgggcattaa acgagtatcc cggcagcagg 7740
ggatcatttt gcgcttcagc catacttttc atactcccgc cattcagaga agaaaccaat 7800
tgtccatatt gcatcagaca ttgccgtcac tgcgtctttt actggctctt ctcgctaacc 7860
aaaccggtaa ccccgcttat taaaagcatt ctgtaacaaa gcgggaccaa agccatgaca 7920
aaaacgcgta acaaaagtgt ctataatcac ggcagaaaag tccacattga ttatttgcac 7980
ggcgtcacac tttgctatgc catagcattt ttatccataa gattagcgga tcctacctga 8040
cgctttttat cgcaactctc tactgtttct ccatacccgt tttttgggct aacaggagga 8100
attaaccatg gggggttctc atcatcatca tcatcatggt atggctagca tgactggtgg 8160
acagcaaatg ggtcgggatc tgtacgacga tgacgataag gatccgagct cgagatctgc 8220
agctggtacc atatggg 8237
<210> 13
<211> 23
<212> DNA
<213> Escherichia coli
<220>
<221> misc_feature
<222> (1)..(23)
<223> GalK-1 target site
<400> 13
atcagcggca atgtgccgca ggg 23
<210> 14
<211> 23
<212> DNA
<213> Escherichia coli
<220>
<221> misc_feature
<222> (1)..(23)
<223> GalK-2 target site
<400> 14
atgaccggcg gcggatttgg cgg 23
<210> 15
<211> 23
<212> DNA
<213> Escherichia coli
<220>
<221> misc_feature
<222> (1)..(23)
<223> GalK-3 target site
<400> 15
atagttttca tgtgcgacaa tgg 23
<210> 16
<211> 23
<212> DNA
<213> Escherichia coli
<220>
<221> misc_feature
<222> (1)..(23)
<223> GalK-4 target site
<400> 16
atgatctttc ttgccgagcg cgg 23
<210> 17
<211> 80
<212> DNA
<213> Streptococcus pyogenes
<400> 17
gttttagagc tagaaatagc aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt 60
ggcaccgagt cggtgctttt 80
<210> 18
<211> 100
<212> DNA
<213> Artificial sequence
<220>
<223> GalK-1 sgRNA template
<400> 18
atcagcggca atgtgccgca gttttagagc tagaaatagc aagttaaaat aaggctagtc 60
cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt 100
<210> 19
<211> 100
<212> DNA
<213> Artificial sequence
<220>
<223> GalK-2 sgRNA template
<400> 19
atgaccggcg gcggatttgg gttttagagc tagaaatagc aagttaaaat aaggctagtc 60
cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt 100
<210> 20
<211> 100
<212> DNA
<213> Artificial sequence
<220>
<223> GalK-3 sgRNA template
<400> 20
atagttttca tgtgcgacaa gttttagagc tagaaatagc aagttaaaat aaggctagtc 60
cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt 100
<210> 21
<211> 100
<212> DNA
<213> Artificial sequence
<220>
<223> GalK-4 sgRNA template
<400> 21
atgatctttc ttgccgagcg gttttagagc tagaaatagc aagttaaaat aaggctagtc 60
cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt 100
<210> 22
<211> 100
<212> RNA
<213> Artificial sequence
<220>
<223> GalK-1 sgRNA
<400> 22
aucagcggca augugccgca guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 23
<211> 100
<212> RNA
<213> Artificial sequence
<220>
<223> GalK-2 sgRNA
<400> 23
augaccggcg gcggauuugg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 24
<211> 100
<212> RNA
<213> Artificial sequence
<220>
<223> GalK-3 sgRNA
<400> 24
auaguuuuca ugugcgacaa guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 25
<211> 100
<212> RNA
<213> Artificial sequence
<220>
<223> GalK-4 sgRNA
<400> 25
augaucuuuc uugccgagcg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 26
<211> 52
<212> DNA
<213> bacteriophage lambda
<400> 26
ggttatctct ggcggtgttg acataaatac cactggcggt gatactgagc ac 52
<210> 27
<211> 43
<212> DNA
<213> bacteriophage lambda
<400> 27
gttaataaca ggcctgctgg taatcgcagg cctttttatt ttt 43
<210> 28
<211> 212
<212> DNA
<213> Artificial sequence
<220>
<223> GalK-1 sgRNA expression cassette
<400> 28
gggaagcttg gttatctctg gcggtgttga cataaatacc actggcggtg atactgagca 60
catcagcggc aatgtgccgc agttttagag ctagaaatag caagttaaaa taaggctagt 120
ccgttatcaa cttgaaaaag tggcaccgag tcggtggtgc gttaataaca ggcctgctgg 180
taatcgcagg cctttttatt tttggatccg gg 212
<210> 29
<211> 212
<212> DNA
<213> Artificial sequence
<220>
<223> GalK-2 sgRNA expression cassette
<400> 29
gggaagcttg gttatctctg gcggtgttga cataaatacc actggcggtg atactgagca 60
catgaccggc ggcggatttg ggttttagag ctagaaatag caagttaaaa taaggctagt 120
ccgttatcaa cttgaaaaag tggcaccgag tcggtggtgc gttaataaca ggcctgctgg 180
taatcgcagg cctttttatt tttggatccg gg 212
<210> 30
<211> 212
<212> DNA
<213> Artificial sequence
<220>
<223> GalK-3 sgRNA expression cassette
<400> 30
gggaagcttg gttatctctg gcggtgttga cataaatacc actggcggtg atactgagca 60
catagttttc atgtgcgaca agttttagag ctagaaatag caagttaaaa taaggctagt 120
ccgttatcaa cttgaaaaag tggcaccgag tcggtggtgc gttaataaca ggcctgctgg 180
taatcgcagg cctttttatt tttggatccg gg 212
<210> 31
<211> 212
<212> DNA
<213> Artificial sequence
<220>
<223> GalK-4 sgRNA expression cassette
<400> 31
gggaagcttg gttatctctg gcggtgttga cataaatacc actggcggtg atactgagca 60
catgatcttt cttgccgagc ggttttagag ctagaaatag caagttaaaa taaggctagt 120
ccgttatcaa cttgaaaaag tggcaccgag tcggtggtgc gttaataaca ggcctgctgg 180
taatcgcagg cctttttatt tttggatccg gg 212
<210> 32
<211> 4245
<212> DNA
<213> Artificial sequence
<220>
<223> pACYC184
<400> 32
gaattccgga tgagcattca tcaggcgggc aagaatgtga ataaaggccg gataaaactt 60
gtgcttattt ttctttacgg tctttaaaaa ggccgtaata tccagctgaa cggtctggtt 120
ataggtacat tgagcaactg actgaaatgc ctcaaaatgt tctttacgat gccattggga 180
tatatcaacg gtggtatatc cagtgatttt tttctccatt ttagcttcct tagctcctga 240
aaatctcgat aactcaaaaa atacgcccgg tagtgatctt atttcattat ggtgaaagtt 300
ggaacctctt acgtgccgat caacgtctca ttttcgccaa aagttggccc agggcttccc 360
ggtatcaaca gggacaccag gatttattta ttctgcgaag tgatcttccg tcacaggtat 420
ttattcggcg caaagtgcgt cgggtgatgc tgccaactta ctgatttagt gtatgatggt 480
gtttttgagg tgctccagtg gcttctgttt ctatcagctg tccctcctgt tcagctactg 540
acggggtggt gcgtaacggc aaaagcaccg ccggacatca gcgctagcgg agtgtatact 600
ggcttactat gttggcactg atgagggtgt cagtgaagtg cttcatgtgg caggagaaaa 660
aaggctgcac cggtgcgtca gcagaatatg tgatacagga tatattccgc ttcctcgctc 720
actgactcgc tacgctcggt cgttcgactg cggcgagcgg aaatggctta cgaacggggc 780
ggagatttcc tggaagatgc caggaagata cttaacaggg aagtgagagg gccgcggcaa 840
agccgttttt ccataggctc cgcccccctg acaagcatca cgaaatctga cgctcaaatc 900
agtggtggcg aaacccgaca ggactataaa gataccaggc gtttccccct ggcggctccc 960
tcgtgcgctc tcctgttcct gcctttcggt ttaccggtgt cattccgctg ttatggccgc 1020
gtttgtctca ttccacgcct gacactcagt tccgggtagg cagttcgctc caagctggac 1080
tgtatgcacg aaccccccgt tcagtccgac cgctgcgcct tatccggtaa ctatcgtctt 1140
gagtccaacc cggaaagaca tgcaaaagca ccactggcag cagccactgg taattgattt 1200
agaggagtta gtcttgaagt catgcgccgg ttaaggctaa actgaaagga caagttttgg 1260
tgactgcgct cctccaagcc agttacctcg gttcaaagag ttggtagctc agagaacctt 1320
cgaaaaaccg ccctgcaagg cggttttttc gttttcagag caagagatta cgcgcagacc 1380
aaaacgatct caagaagatc atcttattaa tcagataaaa tatttctaga tttcagtgca 1440
atttatctct tcaaatgtag cacctgaagt cagccccata cgatataagt tgtaattctc 1500
atgtttgaca gcttatcatc gataagcttt aatgcggtag tttatcacag ttaaattgct 1560
aacgcagtca ggcaccgtgt atgaaatcta acaatgcgct catcgtcatc ctcggcaccg 1620
tcaccctgga tgctgtaggc ataggcttgg ttatgccggt actgccgggc ctcttgcggg 1680
atatcgtcca ttccgacagc atcgccagtc actatggcgt gctgctagcg ctatatgcgt 1740
tgatgcaatt tctatgcgca cccgttctcg gagcactgtc cgaccgcttt ggccgccgcc 1800
cagtcctgct cgcttcgcta cttggagcca ctatcgacta cgcgatcatg gcgaccacac 1860
ccgtcctgtg gatcctctac gccggacgca tcgtggccgg catcaccggc gccacaggtg 1920
cggttgctgg cgcctatatc gccgacatca ccgatgggga agatcgggct cgccacttcg 1980
ggctcatgag cgcttgtttc ggcgtgggta tggtggcagg ccccgtggcc gggggactgt 2040
tgggcgccat ctccttgcat gcaccattcc ttgcggcggc ggtgctcaac ggcctcaacc 2100
tactactggg ctgcttccta atgcaggagt cgcataaggg agagcgtcga ccgatgccct 2160
tgagagcctt caacccagtc agctccttcc ggtgggcgcg gggcatgact atcgtcgccg 2220
cacttatgac tgtcttcttt atcatgcaac tcgtaggaca ggtgccggca gcgctctggg 2280
tcattttcgg cgaggaccgc tttcgctgga gcgcgacgat gatcggcctg tcgcttgcgg 2340
tattcggaat cttgcacgcc ctcgctcaag ccttcgtcac tggtcccgcc accaaacgtt 2400
tcggcgagaa gcaggccatt atcgccggca tggcggccga cgcgctgggc tacgtcttgc 2460
tggcgttcgc gacgcgaggc tggatggcct tccccattat gattcttctc gcttccggcg 2520
gcatcgggat gcccgcgttg caggccatgc tgtccaggca ggtagatgac gaccatcagg 2580
gacagcttca aggatcgctc gcggctctta ccagcctaac ttcgatcact ggaccgctga 2640
tcgtcacggc gatttatgcc gcctcggcga gcacatggaa cgggttggca tggattgtag 2700
gcgccgccct ataccttgtc tgcctccccg cgttgcgtcg cggtgcatgg agccgggcca 2760
cctcgacctg aatggaagcc ggcggcacct cgctaacgga ttcaccactc caagaattgg 2820
agccaatcaa ttcttgcgga gaactgtgaa tgcgcaaacc aacccttggc agaacatatc 2880
catcgcgtcc gccatctcca gcagccgcac gcggcgcatc tcgggcagcg ttgggtcctg 2940
gccacgggtg cgcatgatcg tgctcctgtc gttgaggacc cggctaggct ggcggggttg 3000
ccttactggt tagcagaatg aatcaccgat acgcgagcga acgtgaagcg actgctgctg 3060
caaaacgtct gcgacctgag caacaacatg aatggtcttc ggtttccgtg tttcgtaaag 3120
tctggaaacg cggaagtccc ctacgtgctg ctgaagttgc ccgcaacaga gagtggaacc 3180
aaccggtgat accacgatac tatgactgag agtcaacgcc atgagcggcc tcatttctta 3240
ttctgagtta caacagtccg caccgctgtc cggtagctcc ttccggtggg cgcggggcat 3300
gactatcgtc gccgcactta tgactgtctt ctttatcatg caactcgtag gacaggtgcc 3360
ggcagcgccc aacagtcccc cggccacggg gcctgccacc atacccacgc cgaaacaagc 3420
gccctgcacc attatgttcc ggatctgcat cgcaggatgc tgctggctac cctgtggaac 3480
acctacatct gtattaacga agcgctaacc gtttttatca ggctctggga ggcagaataa 3540
atgatcatat cgtcaattat tacctccacg gggagagcct gagcaaactg gcctcaggca 3600
tttgagaagc acacggtcac actgcttccg gtagtcaata aaccggtaaa ccagcaatag 3660
acataagcgg ctatttaacg accctgccct gaaccgacga ccgggtcgaa tttgctttcg 3720
aatttctgcc attcatccgc ttattatcac ttattcaggc gtagcaccag gcgtttaagg 3780
gcaccaataa ctgccttaaa aaaattacgc cccgccctgc cactcatcgc agtactgttg 3840
taattcatta agcattctgc cgacatggaa gccatcacag acggcatgat gaacctgaat 3900
cgccagcggc atcagcacct tgtcgccttg cgtataatat ttgcccatgg tgaaaacggg 3960
ggcgaagaag ttgtccatat tggccacgtt taaatcaaaa ctggtgaaac tcacccaggg 4020
attggctgag acgaaaaaca tattctcaat aaacccttta gggaaatagg ccaggttttc 4080
accgtaacac gccacatctt gcgaatatat gtgtagaaac tgccggaaat cgtcgtggta 4140
ttcactccag agcgatgaaa acgtttcagt ttgctcatgg aaaacggtgt aacaagggtg 4200
aacactatcc catatcacca gctcaccgtc tttcattgcc atacg 4245
<210> 33
<211> 4099
<212> DNA
<213> Artificial sequence
<220>
<223> pRF50
<400> 33
gatcctctac gccggacgca tcgtggccgg catcaccggc gccacaggtg cggttgctgg 60
cgcctatatc gccgacatca ccgatgggga agatcgggct cgccacttcg ggctcatgag 120
cgcttgtttc ggcgtgggta tggtggcagg ccccgtggcc gggggactgt tgggcgccat 180
ctccttgcat gcaccattcc ttgcggcggc ggtgctcaac ggcctcaacc tactactggg 240
ctgcttccta atgcaggagt cgcataaggg agagcgtcga ccgatgccct tgagagcctt 300
caacccagtc agctccttcc ggtgggcgcg gggcatgact atcgtcgccg cacttatgac 360
tgtcttcttt atcatgcaac tcgtaggaca ggtgccggca gcgctctggg tcattttcgg 420
cgaggaccgc tttcgctgga gcgcgacgat gatcggcctg tcgcttgcgg tattcggaat 480
cttgcacgcc ctcgctcaag ccttcgtcac tggtcccgcc accaaacgtt tcggcgagaa 540
gcaggccatt atcgccggca tggcggccga cgcgctgggc tacgtcttgc tggcgttcgc 600
gacgcgaggc tggatggcct tccccattat gattcttctc gcttccggcg gcatcgggat 660
gcccgcgttg caggccatgc tgtccaggca ggtagatgac gaccatcagg gacagcttca 720
aggatcgctc gcggctctta ccagcctaac ttcgatcact ggaccgctga tcgtcacggc 780
gatttatgcc gcctcggcga gcacatggaa cgggttggca tggattgtag gcgccgccct 840
ataccttgtc tgcctccccg cgttgcgtcg cggtgcatgg agccgggcca cctcgacctg 900
aatggaagcc ggcggcacct cgctaacgga ttcaccactc caagaattgg agccaatcaa 960
ttcttgcgga gaactgtgaa tgcgcaaacc aacccttggc agaacatatc catcgcgtcc 1020
gccatctcca gcagccgcac gcggcgcatc tcgggcagcg ttgggtcctg gccacgggtg 1080
cgcatgatcg tgctcctgtc gttgaggacc cggctaggct ggcggggttg ccttactggt 1140
tagcagaatg aatcaccgat acgcgagcga acgtgaagcg actgctgctg caaaacgtct 1200
gcgacctgag caacaacatg aatggtcttc ggtttccgtg tttcgtaaag tctggaaacg 1260
cggaagtccc ctacgtgctg ctgaagttgc ccgcaacaga gagtggaacc aaccggtgat 1320
accacgatac tatgactgag agtcaacgcc atgagcggcc tcatttctta ttctgagtta 1380
caacagtccg caccgctgtc cggtagctcc ttccggtggg cgcggggcat gactatcgtc 1440
gccgcactta tgactgtctt ctttatcatg caactcgtag gacaggtgcc ggcagcgccc 1500
aacagtcccc cggccacggg gcctgccacc atacccacgc cgaaacaagc gccctgcacc 1560
attatgttcc ggatctgcat cgcaggatgc tgctggctac cctgtggaac acctacatct 1620
gtattaacga agcgctaacc gtttttatca ggctctggga ggcagaataa atgatcatat 1680
cgtcaattat tacctccacg gggagagcct gagcaaactg gcctcaggca tttgagaagc 1740
acacggtcac actgcttccg gtagtcaata aaccggtaaa ccagcaatag acataagcgg 1800
ctatttaacg accctgccct gaaccgacga ccgggtcgaa tttgctttcg aatttctgcc 1860
attcatccgc ttattatcac ttattcaggc gtagcaccag gcgtttaagg gcaccaataa 1920
ctgccttaaa aaaattacgc cccgccctgc cactcatcgc agtactgttg taattcatta 1980
agcattctgc cgacatggaa gccatcacag acggcatgat gaacctgaat cgccagcggc 2040
atcagcacct tgtcgccttg cgtataatat ttgcccatgg tgaaaacggg ggcgaagaag 2100
ttgtccatat tggccacgtt taaatcaaaa ctggtgaaac tcacccaggg attggctgag 2160
acgaaaaaca tattctcaat aaacccttta gggaaatagg ccaggttttc accgtaacac 2220
gccacatctt gcgaatatat gtgtagaaac tgccggaaat cgtcgtggta ttcactccag 2280
agcgatgaaa acgtttcagt ttgctcatgg aaaacggtgt aacaagggtg aacactatcc 2340
catatcacca gctcaccgtc tttcattgcc atacggaatt ccggatgagc attcatcagg 2400
cgggcaagaa tgtgaataaa ggccggataa aacttgtgct tatttttctt tacggtcttt 2460
aaaaaggccg taatatccag ctgaacggtc tggttatagg tacattgagc aactgactga 2520
aatgcctcaa aatgttcttt acgatgccat tgggatatat caacggtggt atatccagtg 2580
atttttttct ccattttagc ttccttagct cctgaaaatc tcgataactc aaaaaatacg 2640
cccggtagtg atcttatttc attatggtga aagttggaac ctcttacgtg ccgatcaacg 2700
tctcattttc gccaaaagtt ggcccagggc ttcccggtat caacagggac accaggattt 2760
atttattctg cgaagtgatc ttccgtcaca ggtatttatt cggcgcaaag tgcgtcgggt 2820
gatgctgcca acttactgat ttagtgtatg atggtgtttt tgaggtgctc cagtggcttc 2880
tgtttctatc agctgtccct cctgttcagc tactgacggg gtggtgcgta acggcaaaag 2940
caccgccgga catcagcgct agcggagtgt atactggctt actatgttgg cactgatgag 3000
ggtgtcagtg aagtgcttca tgtggcagga gaaaaaaggc tgcaccggtg cgtcagcaga 3060
atatgtgata caggatatat tccgcttcct cgctcactga ctcgctacgc tcggtcgttc 3120
gactgcggcg agcggaaatg gcttacgaac ggggcggaga tttcctggaa gatgccagga 3180
agatacttaa cagggaagtg agagggccgc ggcaaagccg tttttccata ggctccgccc 3240
ccctgacaag catcacgaaa tctgacgctc aaatcagtgg tggcgaaacc cgacaggact 3300
ataaagatac caggcgtttc cccctggcgg ctccctcgtg cgctctcctg ttcctgcctt 3360
tcggtttacc ggtgtcattc cgctgttatg gccgcgtttg tctcattcca cgcctgacac 3420
tcagttccgg gtaggcagtt cgctccaagc tggactgtat gcacgaaccc cccgttcagt 3480
ccgaccgctg cgccttatcc ggtaactatc gtcttgagtc caacccggaa agacatgcaa 3540
aagcaccact ggcagcagcc actggtaatt gatttagagg agttagtctt gaagtcatgc 3600
gccggttaag gctaaactga aaggacaagt tttggtgact gcgctcctcc aagccagtta 3660
cctcggttca aagagttggt agctcagaga accttcgaaa aaccgccctg caaggcggtt 3720
ttttcgtttt cagagcaaga gattacgcgc agaccaaaac gatctcaaga agatcatctt 3780
attaatcaga taaaatattt ctagatttca gtgcaattta tctcttcaaa tgtagcacct 3840
gaagtcagcc ccatacgata taagttgtaa ttctcatgtt tgacagctta tcatcgataa 3900
gcttggttat ctctggcggt gttgacataa ataccactgg cggtgatact gagcacatca 3960
gcggcaatgt gccgcagttt tagagctaga aatagcaagt taaaataagg ctagtccgtt 4020
atcaacttga aaaagtggca ccgagtcggt ggtgcgttaa taacaggcct gctggtaatc 4080
gcaggccttt ttatttttg 4099
<210> 34
<211> 4099
<212> DNA
<213> artificial sequence
<220>
<223> pRF51
<400> 34
agcttggtta tctctggcgg tgttgacata aataccactg gcggtgatac tgagcacatg 60
accggcggcg gatttgggtt ttagagctag aaatagcaag ttaaaataag gctagtccgt 120
tatcaacttg aaaaagtggc accgagtcgg tggtgcgtta ataacaggcc tgctggtaat 180
cgcaggcctt tttatttttg gatcctctac gccggacgca tcgtggccgg catcaccggc 240
gccacaggtg cggttgctgg cgcctatatc gccgacatca ccgatgggga agatcgggct 300
cgccacttcg ggctcatgag cgcttgtttc ggcgtgggta tggtggcagg ccccgtggcc 360
gggggactgt tgggcgccat ctccttgcat gcaccattcc ttgcggcggc ggtgctcaac 420
ggcctcaacc tactactggg ctgcttccta atgcaggagt cgcataaggg agagcgtcga 480
ccgatgccct tgagagcctt caacccagtc agctccttcc ggtgggcgcg gggcatgact 540
atcgtcgccg cacttatgac tgtcttcttt atcatgcaac tcgtaggaca ggtgccggca 600
gcgctctggg tcattttcgg cgaggaccgc tttcgctgga gcgcgacgat gatcggcctg 660
tcgcttgcgg tattcggaat cttgcacgcc ctcgctcaag ccttcgtcac tggtcccgcc 720
accaaacgtt tcggcgagaa gcaggccatt atcgccggca tggcggccga cgcgctgggc 780
tacgtcttgc tggcgttcgc gacgcgaggc tggatggcct tccccattat gattcttctc 840
gcttccggcg gcatcgggat gcccgcgttg caggccatgc tgtccaggca ggtagatgac 900
gaccatcagg gacagcttca aggatcgctc gcggctctta ccagcctaac ttcgatcact 960
ggaccgctga tcgtcacggc gatttatgcc gcctcggcga gcacatggaa cgggttggca 1020
tggattgtag gcgccgccct ataccttgtc tgcctccccg cgttgcgtcg cggtgcatgg 1080
agccgggcca cctcgacctg aatggaagcc ggcggcacct cgctaacgga ttcaccactc 1140
caagaattgg agccaatcaa ttcttgcgga gaactgtgaa tgcgcaaacc aacccttggc 1200
agaacatatc catcgcgtcc gccatctcca gcagccgcac gcggcgcatc tcgggcagcg 1260
ttgggtcctg gccacgggtg cgcatgatcg tgctcctgtc gttgaggacc cggctaggct 1320
ggcggggttg ccttactggt tagcagaatg aatcaccgat acgcgagcga acgtgaagcg 1380
actgctgctg caaaacgtct gcgacctgag caacaacatg aatggtcttc ggtttccgtg 1440
tttcgtaaag tctggaaacg cggaagtccc ctacgtgctg ctgaagttgc ccgcaacaga 1500
gagtggaacc aaccggtgat accacgatac tatgactgag agtcaacgcc atgagcggcc 1560
tcatttctta ttctgagtta caacagtccg caccgctgtc cggtagctcc ttccggtggg 1620
cgcggggcat gactatcgtc gccgcactta tgactgtctt ctttatcatg caactcgtag 1680
gacaggtgcc ggcagcgccc aacagtcccc cggccacggg gcctgccacc atacccacgc 1740
cgaaacaagc gccctgcacc attatgttcc ggatctgcat cgcaggatgc tgctggctac 1800
cctgtggaac acctacatct gtattaacga agcgctaacc gtttttatca ggctctggga 1860
ggcagaataa atgatcatat cgtcaattat tacctccacg gggagagcct gagcaaactg 1920
gcctcaggca tttgagaagc acacggtcac actgcttccg gtagtcaata aaccggtaaa 1980
ccagcaatag acataagcgg ctatttaacg accctgccct gaaccgacga ccgggtcgaa 2040
tttgctttcg aatttctgcc attcatccgc ttattatcac ttattcaggc gtagcaccag 2100
gcgtttaagg gcaccaataa ctgccttaaa aaaattacgc cccgccctgc cactcatcgc 2160
agtactgttg taattcatta agcattctgc cgacatggaa gccatcacag acggcatgat 2220
gaacctgaat cgccagcggc atcagcacct tgtcgccttg cgtataatat ttgcccatgg 2280
tgaaaacggg ggcgaagaag ttgtccatat tggccacgtt taaatcaaaa ctggtgaaac 2340
tcacccaggg attggctgag acgaaaaaca tattctcaat aaacccttta gggaaatagg 2400
ccaggttttc accgtaacac gccacatctt gcgaatatat gtgtagaaac tgccggaaat 2460
cgtcgtggta ttcactccag agcgatgaaa acgtttcagt ttgctcatgg aaaacggtgt 2520
aacaagggtg aacactatcc catatcacca gctcaccgtc tttcattgcc atacggaatt 2580
ccggatgagc attcatcagg cgggcaagaa tgtgaataaa ggccggataa aacttgtgct 2640
tatttttctt tacggtcttt aaaaaggccg taatatccag ctgaacggtc tggttatagg 2700
tacattgagc aactgactga aatgcctcaa aatgttcttt acgatgccat tgggatatat 2760
caacggtggt atatccagtg atttttttct ccattttagc ttccttagct cctgaaaatc 2820
tcgataactc aaaaaatacg cccggtagtg atcttatttc attatggtga aagttggaac 2880
ctcttacgtg ccgatcaacg tctcattttc gccaaaagtt ggcccagggc ttcccggtat 2940
caacagggac accaggattt atttattctg cgaagtgatc ttccgtcaca ggtatttatt 3000
cggcgcaaag tgcgtcgggt gatgctgcca acttactgat ttagtgtatg atggtgtttt 3060
tgaggtgctc cagtggcttc tgtttctatc agctgtccct cctgttcagc tactgacggg 3120
gtggtgcgta acggcaaaag caccgccgga catcagcgct agcggagtgt atactggctt 3180
actatgttgg cactgatgag ggtgtcagtg aagtgcttca tgtggcagga gaaaaaaggc 3240
tgcaccggtg cgtcagcaga atatgtgata caggatatat tccgcttcct cgctcactga 3300
ctcgctacgc tcggtcgttc gactgcggcg agcggaaatg gcttacgaac ggggcggaga 3360
tttcctggaa gatgccagga agatacttaa cagggaagtg agagggccgc ggcaaagccg 3420
tttttccata ggctccgccc ccctgacaag catcacgaaa tctgacgctc aaatcagtgg 3480
tggcgaaacc cgacaggact ataaagatac caggcgtttc cccctggcgg ctccctcgtg 3540
cgctctcctg ttcctgcctt tcggtttacc ggtgtcattc cgctgttatg gccgcgtttg 3600
tctcattcca cgcctgacac tcagttccgg gtaggcagtt cgctccaagc tggactgtat 3660
gcacgaaccc cccgttcagt ccgaccgctg cgccttatcc ggtaactatc gtcttgagtc 3720
caacccggaa agacatgcaa aagcaccact ggcagcagcc actggtaatt gatttagagg 3780
agttagtctt gaagtcatgc gccggttaag gctaaactga aaggacaagt tttggtgact 3840
gcgctcctcc aagccagtta cctcggttca aagagttggt agctcagaga accttcgaaa 3900
aaccgccctg caaggcggtt ttttcgtttt cagagcaaga gattacgcgc agaccaaaac 3960
gatctcaaga agatcatctt attaatcaga taaaatattt ctagatttca gtgcaattta 4020
tctcttcaaa tgtagcacct gaagtcagcc ccatacgata taagttgtaa ttctcatgtt 4080
tgacagctta tcatcgata 4099
<210> 35
<211> 4099
<212> DNA
<213> artificial sequence
<220>
<223> pRF53
<400> 35
gatcctctac gccggacgca tcgtggccgg catcaccggc gccacaggtg cggttgctgg 60
cgcctatatc gccgacatca ccgatgggga agatcgggct cgccacttcg ggctcatgag 120
cgcttgtttc ggcgtgggta tggtggcagg ccccgtggcc gggggactgt tgggcgccat 180
ctccttgcat gcaccattcc ttgcggcggc ggtgctcaac ggcctcaacc tactactggg 240
ctgcttccta atgcaggagt cgcataaggg agagcgtcga ccgatgccct tgagagcctt 300
caacccagtc agctccttcc ggtgggcgcg gggcatgact atcgtcgccg cacttatgac 360
tgtcttcttt atcatgcaac tcgtaggaca ggtgccggca gcgctctggg tcattttcgg 420
cgaggaccgc tttcgctgga gcgcgacgat gatcggcctg tcgcttgcgg tattcggaat 480
cttgcacgcc ctcgctcaag ccttcgtcac tggtcccgcc accaaacgtt tcggcgagaa 540
gcaggccatt atcgccggca tggcggccga cgcgctgggc tacgtcttgc tggcgttcgc 600
gacgcgaggc tggatggcct tccccattat gattcttctc gcttccggcg gcatcgggat 660
gcccgcgttg caggccatgc tgtccaggca ggtagatgac gaccatcagg gacagcttca 720
aggatcgctc gcggctctta ccagcctaac ttcgatcact ggaccgctga tcgtcacggc 780
gatttatgcc gcctcggcga gcacatggaa cgggttggca tggattgtag gcgccgccct 840
ataccttgtc tgcctccccg cgttgcgtcg cggtgcatgg agccgggcca cctcgacctg 900
aatggaagcc ggcggcacct cgctaacgga ttcaccactc caagaattgg agccaatcaa 960
ttcttgcgga gaactgtgaa tgcgcaaacc aacccttggc agaacatatc catcgcgtcc 1020
gccatctcca gcagccgcac gcggcgcatc tcgggcagcg ttgggtcctg gccacgggtg 1080
cgcatgatcg tgctcctgtc gttgaggacc cggctaggct ggcggggttg ccttactggt 1140
tagcagaatg aatcaccgat acgcgagcga acgtgaagcg actgctgctg caaaacgtct 1200
gcgacctgag caacaacatg aatggtcttc ggtttccgtg tttcgtaaag tctggaaacg 1260
cggaagtccc ctacgtgctg ctgaagttgc ccgcaacaga gagtggaacc aaccggtgat 1320
accacgatac tatgactgag agtcaacgcc atgagcggcc tcatttctta ttctgagtta 1380
caacagtccg caccgctgtc cggtagctcc ttccggtggg cgcggggcat gactatcgtc 1440
gccgcactta tgactgtctt ctttatcatg caactcgtag gacaggtgcc ggcagcgccc 1500
aacagtcccc cggccacggg gcctgccacc atacccacgc cgaaacaagc gccctgcacc 1560
attatgttcc ggatctgcat cgcaggatgc tgctggctac cctgtggaac acctacatct 1620
gtattaacga agcgctaacc gtttttatca ggctctggga ggcagaataa atgatcatat 1680
cgtcaattat tacctccacg gggagagcct gagcaaactg gcctcaggca tttgagaagc 1740
acacggtcac actgcttccg gtagtcaata aaccggtaaa ccagcaatag acataagcgg 1800
ctatttaacg accctgccct gaaccgacga ccgggtcgaa tttgctttcg aatttctgcc 1860
attcatccgc ttattatcac ttattcaggc gtagcaccag gcgtttaagg gcaccaataa 1920
ctgccttaaa aaaattacgc cccgccctgc cactcatcgc agtactgttg taattcatta 1980
agcattctgc cgacatggaa gccatcacag acggcatgat gaacctgaat cgccagcggc 2040
atcagcacct tgtcgccttg cgtataatat ttgcccatgg tgaaaacggg ggcgaagaag 2100
ttgtccatat tggccacgtt taaatcaaaa ctggtgaaac tcacccaggg attggctgag 2160
acgaaaaaca tattctcaat aaacccttta gggaaatagg ccaggttttc accgtaacac 2220
gccacatctt gcgaatatat gtgtagaaac tgccggaaat cgtcgtggta ttcactccag 2280
agcgatgaaa acgtttcagt ttgctcatgg aaaacggtgt aacaagggtg aacactatcc 2340
catatcacca gctcaccgtc tttcattgcc atacggaatt ccggatgagc attcatcagg 2400
cgggcaagaa tgtgaataaa ggccggataa aacttgtgct tatttttctt tacggtcttt 2460
aaaaaggccg taatatccag ctgaacggtc tggttatagg tacattgagc aactgactga 2520
aatgcctcaa aatgttcttt acgatgccat tgggatatat caacggtggt atatccagtg 2580
atttttttct ccattttagc ttccttagct cctgaaaatc tcgataactc aaaaaatacg 2640
cccggtagtg atcttatttc attatggtga aagttggaac ctcttacgtg ccgatcaacg 2700
tctcattttc gccaaaagtt ggcccagggc ttcccggtat caacagggac accaggattt 2760
atttattctg cgaagtgatc ttccgtcaca ggtatttatt cggcgcaaag tgcgtcgggt 2820
gatgctgcca acttactgat ttagtgtatg atggtgtttt tgaggtgctc cagtggcttc 2880
tgtttctatc agctgtccct cctgttcagc tactgacggg gtggtgcgta acggcaaaag 2940
caccgccgga catcagcgct agcggagtgt atactggctt actatgttgg cactgatgag 3000
ggtgtcagtg aagtgcttca tgtggcagga gaaaaaaggc tgcaccggtg cgtcagcaga 3060
atatgtgata caggatatat tccgcttcct cgctcactga ctcgctacgc tcggtcgttc 3120
gactgcggcg agcggaaatg gcttacgaac ggggcggaga tttcctggaa gatgccagga 3180
agatacttaa cagggaagtg agagggccgc ggcaaagccg tttttccata ggctccgccc 3240
ccctgacaag catcacgaaa tctgacgctc aaatcagtgg tggcgaaacc cgacaggact 3300
ataaagatac caggcgtttc cccctggcgg ctccctcgtg cgctctcctg ttcctgcctt 3360
tcggtttacc ggtgtcattc cgctgttatg gccgcgtttg tctcattcca cgcctgacac 3420
tcagttccgg gtaggcagtt cgctccaagc tggactgtat gcacgaaccc cccgttcagt 3480
ccgaccgctg cgccttatcc ggtaactatc gtcttgagtc caacccggaa agacatgcaa 3540
aagcaccact ggcagcagcc actggtaatt gatttagagg agttagtctt gaagtcatgc 3600
gccggttaag gctaaactga aaggacaagt tttggtgact gcgctcctcc aagccagtta 3660
cctcggttca aagagttggt agctcagaga accttcgaaa aaccgccctg caaggcggtt 3720
ttttcgtttt cagagcaaga gattacgcgc agaccaaaac gatctcaaga agatcatctt 3780
attaatcaga taaaatattt ctagatttca gtgcaattta tctcttcaaa tgtagcacct 3840
gaagtcagcc ccatacgata taagttgtaa ttctcatgtt tgacagctta tcatcgataa 3900
gcttggttat ctctggcggt gttgacataa ataccactgg cggtgatact gagcacatag 3960
ttttcatgtg cgacaagttt tagagctaga aatagcaagt taaaataagg ctagtccgtt 4020
atcaacttga aaaagtggca ccgagtcggt ggtgcgttaa taacaggcct gctggtaatc 4080
gcaggccttt ttatttttg 4099
<210> 36
<211> 4099
<212> DNA
<213> Artificial sequence
<220>
<223> pRF55
<400> 36
agcttggtta tctctggcgg tgttgacata aataccactg gcggtgatac tgagcacatg 60
atctttcttg ccgagcggtt ttagagctag aaatagcaag ttaaaataag gctagtccgt 120
tatcaacttg aaaaagtggc accgagtcgg tggtgcgtta ataacaggcc tgctggtaat 180
cgcaggcctt tttatttttg gatcctctac gccggacgca tcgtggccgg catcaccggc 240
gccacaggtg cggttgctgg cgcctatatc gccgacatca ccgatgggga agatcgggct 300
cgccacttcg ggctcatgag cgcttgtttc ggcgtgggta tggtggcagg ccccgtggcc 360
gggggactgt tgggcgccat ctccttgcat gcaccattcc ttgcggcggc ggtgctcaac 420
ggcctcaacc tactactggg ctgcttccta atgcaggagt cgcataaggg agagcgtcga 480
ccgatgccct tgagagcctt caacccagtc agctccttcc ggtgggcgcg gggcatgact 540
atcgtcgccg cacttatgac tgtcttcttt atcatgcaac tcgtaggaca ggtgccggca 600
gcgctctggg tcattttcgg cgaggaccgc tttcgctgga gcgcgacgat gatcggcctg 660
tcgcttgcgg tattcggaat cttgcacgcc ctcgctcaag ccttcgtcac tggtcccgcc 720
accaaacgtt tcggcgagaa gcaggccatt atcgccggca tggcggccga cgcgctgggc 780
tacgtcttgc tggcgttcgc gacgcgaggc tggatggcct tccccattat gattcttctc 840
gcttccggcg gcatcgggat gcccgcgttg caggccatgc tgtccaggca ggtagatgac 900
gaccatcagg gacagcttca aggatcgctc gcggctctta ccagcctaac ttcgatcact 960
ggaccgctga tcgtcacggc gatttatgcc gcctcggcga gcacatggaa cgggttggca 1020
tggattgtag gcgccgccct ataccttgtc tgcctccccg cgttgcgtcg cggtgcatgg 1080
agccgggcca cctcgacctg aatggaagcc ggcggcacct cgctaacgga ttcaccactc 1140
caagaattgg agccaatcaa ttcttgcgga gaactgtgaa tgcgcaaacc aacccttggc 1200
agaacatatc catcgcgtcc gccatctcca gcagccgcac gcggcgcatc tcgggcagcg 1260
ttgggtcctg gccacgggtg cgcatgatcg tgctcctgtc gttgaggacc cggctaggct 1320
ggcggggttg ccttactggt tagcagaatg aatcaccgat acgcgagcga acgtgaagcg 1380
actgctgctg caaaacgtct gcgacctgag caacaacatg aatggtcttc ggtttccgtg 1440
tttcgtaaag tctggaaacg cggaagtccc ctacgtgctg ctgaagttgc ccgcaacaga 1500
gagtggaacc aaccggtgat accacgatac tatgactgag agtcaacgcc atgagcggcc 1560
tcatttctta ttctgagtta caacagtccg caccgctgtc cggtagctcc ttccggtggg 1620
cgcggggcat gactatcgtc gccgcactta tgactgtctt ctttatcatg caactcgtag 1680
gacaggtgcc ggcagcgccc aacagtcccc cggccacggg gcctgccacc atacccacgc 1740
cgaaacaagc gccctgcacc attatgttcc ggatctgcat cgcaggatgc tgctggctac 1800
cctgtggaac acctacatct gtattaacga agcgctaacc gtttttatca ggctctggga 1860
ggcagaataa atgatcatat cgtcaattat tacctccacg gggagagcct gagcaaactg 1920
gcctcaggca tttgagaagc acacggtcac actgcttccg gtagtcaata aaccggtaaa 1980
ccagcaatag acataagcgg ctatttaacg accctgccct gaaccgacga ccgggtcgaa 2040
tttgctttcg aatttctgcc attcatccgc ttattatcac ttattcaggc gtagcaccag 2100
gcgtttaagg gcaccaataa ctgccttaaa aaaattacgc cccgccctgc cactcatcgc 2160
agtactgttg taattcatta agcattctgc cgacatggaa gccatcacag acggcatgat 2220
gaacctgaat cgccagcggc atcagcacct tgtcgccttg cgtataatat ttgcccatgg 2280
tgaaaacggg ggcgaagaag ttgtccatat tggccacgtt taaatcaaaa ctggtgaaac 2340
tcacccaggg attggctgag acgaaaaaca tattctcaat aaacccttta gggaaatagg 2400
ccaggttttc accgtaacac gccacatctt gcgaatatat gtgtagaaac tgccggaaat 2460
cgtcgtggta ttcactccag agcgatgaaa acgtttcagt ttgctcatgg aaaacggtgt 2520
aacaagggtg aacactatcc catatcacca gctcaccgtc tttcattgcc atacggaatt 2580
ccggatgagc attcatcagg cgggcaagaa tgtgaataaa ggccggataa aacttgtgct 2640
tatttttctt tacggtcttt aaaaaggccg taatatccag ctgaacggtc tggttatagg 2700
tacattgagc aactgactga aatgcctcaa aatgttcttt acgatgccat tgggatatat 2760
caacggtggt atatccagtg atttttttct ccattttagc ttccttagct cctgaaaatc 2820
tcgataactc aaaaaatacg cccggtagtg atcttatttc attatggtga aagttggaac 2880
ctcttacgtg ccgatcaacg tctcattttc gccaaaagtt ggcccagggc ttcccggtat 2940
caacagggac accaggattt atttattctg cgaagtgatc ttccgtcaca ggtatttatt 3000
cggcgcaaag tgcgtcgggt gatgctgcca acttactgat ttagtgtatg atggtgtttt 3060
tgaggtgctc cagtggcttc tgtttctatc agctgtccct cctgttcagc tactgacggg 3120
gtggtgcgta acggcaaaag caccgccgga catcagcgct agcggagtgt atactggctt 3180
actatgttgg cactgatgag ggtgtcagtg aagtgcttca tgtggcagga gaaaaaaggc 3240
tgcaccggtg cgtcagcaga atatgtgata caggatatat tccgcttcct cgctcactga 3300
ctcgctacgc tcggtcgttc gactgcggcg agcggaaatg gcttacgaac ggggcggaga 3360
tttcctggaa gatgccagga agatacttaa cagggaagtg agagggccgc ggcaaagccg 3420
tttttccata ggctccgccc ccctgacaag catcacgaaa tctgacgctc aaatcagtgg 3480
tggcgaaacc cgacaggact ataaagatac caggcgtttc cccctggcgg ctccctcgtg 3540
cgctctcctg ttcctgcctt tcggtttacc ggtgtcattc cgctgttatg gccgcgtttg 3600
tctcattcca cgcctgacac tcagttccgg gtaggcagtt cgctccaagc tggactgtat 3660
gcacgaaccc cccgttcagt ccgaccgctg cgccttatcc ggtaactatc gtcttgagtc 3720
caacccggaa agacatgcaa aagcaccact ggcagcagcc actggtaatt gatttagagg 3780
agttagtctt gaagtcatgc gccggttaag gctaaactga aaggacaagt tttggtgact 3840
gcgctcctcc aagccagtta cctcggttca aagagttggt agctcagaga accttcgaaa 3900
aaccgccctg caaggcggtt ttttcgtttt cagagcaaga gattacgcgc agaccaaaac 3960
gatctcaaga agatcatctt attaatcaga taaaatattt ctagatttca gtgcaattta 4020
tctcttcaaa tgtagcacct gaagtcagcc ccatacgata taagttgtaa ttctcatgtt 4080
tgacagctta tcatcgata 4099
<210> 37
<211> 454
<212> DNA
<213> Escherichia coli
<220>
<221> misc_feature
<222> (1)..(454)
<223> 454bp 5' galK
<400> 37
ggattatgtt cagcgcgagc tggcagacgg tagccgtacc gttgtcgaaa ccgaacactg 60
gttagccgtc gtgccttact gggctgcctg gccgttcgaa acgctactgc tgcccaaagc 120
ccacgtttta cggatcaccg atttgaccga cgcccagcgc agcgatctgg cgctggcgtt 180
gaaaaagctg accagtcgtt atgacaacct cttccagtgc tccttcccct actctatggg 240
ctggcacggc gcgccattta atggcgaaga gaatcaacac tggcagctgc acgcgcactt 300
ttatccgcct ctgctgcgct ccgccaccgt acgtaaattt atggttggtt atgaaatgct 360
ggcagagacc cagcgagacc tgaccgcaga acaggcagca gagcgtttgc gcgcagtcag 420
cgatatccat tttcgcgaat ccggagtgta agaa 454
<210> 38
<211> 29
<212> DNA
<213> Artificial sequence
<220>
<223> 5' forward primer
<400> 38
gggaagcttg gattatgttc agcgcgagc 29
<210> 39
<211> 40
<212> DNA
<213> Artificial sequence
<220>
<223> 5' reverse primer
<400> 39
tgccagtgcg ggagtttcgt ttcttacact ccggattcgc 40
<210> 40
<211> 483
<212> DNA
<213> Artificial sequence
<220>
<223> upstream overlap extension product
<400> 40
gggaagcttg gattatgttc agcgcgagct ggcagacggt agccgtaccg ttgtcgaaac 60
cgaacactgg ttagccgtcg tgccttactg ggctgcctgg ccgttcgaaa cgctactgct 120
gcccaaagcc cacgttttac ggatcaccga tttgaccgac gcccagcgca gcgatctggc 180
gctggcgttg aaaaagctga ccagtcgtta tgacaacctc ttccagtgct ccttccccta 240
ctctatgggc tggcacggcg cgccatttaa tggcgaagag aatcaacact ggcagctgca 300
cgcgcacttt tatccgcctc tgctgcgctc cgccaccgta cgtaaattta tggttggtta 360
tgaaatgctg gcagagaccc agcgagacct gaccgcagaa caggcagcag agcgtttgcg 420
cgcagtcagc gatatccatt ttcgcgaatc cggagtgtaa gaaacgaaac tcccgcactg 480
gca 483
<210> 41
<211> 376
<212> DNA
<213> Escherichia coli
<220>
<221> misc_feature
<222> (1)..(376)
<223> 376bp 3' galK
<400> 41
acgaaactcc cgcactggca cccgatggtc agccgtaccg actgttaact ttgcgtaaca 60
acgcagggat ggtagtcacg ctgatggact ggggtgcgac tttactttcc gcccgtattc 120
cgctttccga tggcagcgtc cgcgaggcgc tgctcggctg tgccagcccg gaatgctatc 180
aggatcaggc cgcgtttctg ggggcctcta ttggtcgtta tgccaaccgt atcgccaata 240
gccgttatac ctttgacggt gaaaccgtga cgctttcgcc aagtcagggc gttaaccagc 300
tgcacggcgg gccggaaggg ttcgacaaac gtcgctggca gattgtgaac cagaacgatc 360
gtcaggtgct gtttgc 376
<210> 42
<211> 40
<212> DNA
<213> Artificial sequence
<220>
<223> 3' forward primer
<400> 42
gcgaatccgg agtgtaagaa acgaaactcc cgcactggca 40
<210> 43
<211> 30
<212> DNA
<213> Artificial sequence
<220>
<223> 3' reverse primer
<400> 43
gggaagcttg caaacagcac ctgacgatcg 30
<210> 44
<211> 405
<212> DNA
<213> Artificial Sequence
<220>
<223> downstream overlap extension product
<400> 44
gcgaatccgg agtgtaagaa acgaaactcc cgcactggca cccgatggtc agccgtaccg 60
actgttaact ttgcgtaaca acgcagggat ggtagtcacg ctgatggact ggggtgcgac 120
tttactttcc gcccgtattc cgctttccga tggcagcgtc cgcgaggcgc tgctcggctg 180
tgccagcccg gaatgctatc aggatcaggc cgcgtttctg ggggcctcta ttggtcgtta 240
tgccaaccgt atcgccaata gccgttatac ctttgacggt gaaaccgtga cgctttcgcc 300
aagtcagggc gttaaccagc tgcacggcgg gccggaaggg ttcgacaaac gtcgctggca 360
gattgtgaac cagaacgatc gtcaggtgct gtttgcaagc ttccc 405
<210> 45
<211> 848
<212> DNA
<213> Artificial sequence
<220>
<223> galK deletion polynucleotide modification template
<400> 45
gggaagcttg gattatgttc agcgcgagct ggcagacggt agccgtaccg ttgtcgaaac 60
cgaacactgg ttagccgtcg tgccttactg ggctgcctgg ccgttcgaaa cgctactgct 120
gcccaaagcc cacgttttac ggatcaccga tttgaccgac gcccagcgca gcgatctggc 180
gctggcgttg aaaaagctga ccagtcgtta tgacaacctc ttccagtgct ccttccccta 240
ctctatgggc tggcacggcg cgccatttaa tggcgaagag aatcaacact ggcagctgca 300
cgcgcacttt tatccgcctc tgctgcgctc cgccaccgta cgtaaattta tggttggtta 360
tgaaatgctg gcagagaccc agcgagacct gaccgcagaa caggcagcag agcgtttgcg 420
cgcagtcagc gatatccatt ttcgcgaatc cggagtgtaa gaaacgaaac tcccgcactg 480
gcacccgatg gtcagccgta ccgactgtta actttgcgta acaacgcagg gatggtagtc 540
acgctgatgg actggggtgc gactttactt tccgcccgta ttccgctttc cgatggcagc 600
gtccgcgagg cgctgctcgg ctgtgccagc ccggaatgct atcaggatca ggccgcgttt 660
ctgggggcct ctattggtcg ttatgccaac cgtatcgcca atagccgtta tacctttgac 720
ggtgaaaccg tgacgctttc gccaagtcag ggcgttaacc agctgcacgg cgggccggaa 780
gggttcgaca aacgtcgctg gcagattgtg aaccagaacg atcgtcaggt gctgtttgca 840
agcttccc 848
<210> 46
<211> 2804
<212> DNA
<213> Artificial sequence
<220>
<223> pKD3
<400> 46
agattgcagc attacacgtc ttgagcgatt gtgtaggctg gagctgcttc gaagttccta 60
tactttctag agaataggaa cttcggaata ggaacttcat ttaaatggcg cgccttacgc 120
cccgccctgc cactcatcgc agtactgttg tattcattaa gcatctgccg acatggaagc 180
catcacaaac ggcatgatga acctgaatcg ccagcggcat cagcaccttg tcgccttgcg 240
tataatattt gcccatggtg aaaacggggg cgaagaagtt gtccatattg gccacgttta 300
aatcaaaact ggtgaaactc acccagggat tggctgagac gaaaaacata ttctcaataa 360
accctttagg gaaataggcc aggttttcac cgtaacacgc cacatcttgc gaatatatgt 420
gtagaaactg ccggaaatcg tcgtggtatt cactccagag cgatgaaaac gtttcagttt 480
gctcatggaa aacggtgtaa caagggtgaa cactatccca tatcaccagc tcaccgtctt 540
tcattgccat acgtaattcc ggatgagcat tcatcaggcg ggcaagaatg tgaataaagg 600
ccggataaaa cttgtgctta tttttcttta cggtctttaa aaaggccgta atatccagct 660
gaacggtctg gttataggta cattgagcaa ctgactgaaa tgcctcaaaa tgttctttac 720
gatgccattg ggatatatca acggtggtat atccagtgat ttttttctcc attttagctt 780
ccttagctcc tgaaaatctc gacaactcaa aaaatacgcc cggtagtgat cttatttcat 840
tatggtgaaa gttggaacct cttacgtgcc gatcaacgtc tcattttcgc caaaagttgg 900
cccagggctt cccggtatca acagggacac caggatttat ttattctgcg aagtgatctt 960
ccgtcacagg taggcgcgcc gaagttccta tactttctag agaataggaa cttcggaata 1020
ggaactaagg aggatattca tatggaccat ggctaattcc catgtcagcc gttaagtgtt 1080
cctgtgtcac tgaaaattgc tttgagaggc tctaagggct tctcagtgcg ttacatccct 1140
ggcttgttgt ccacaaccgt taaaccttaa aagctttaaa agccttatat attctttttt 1200
ttcttataaa acttaaaacc ttagaggcta tttaagttgc tgatttatat taattttatt 1260
gttcaaacat gagagcttag tacgtgaaac atgagagctt agtacgttag ccatgagagc 1320
ttagtacgtt agccatgagg gtttagttcg ttaaacatga gagcttagta cgttaaacat 1380
gagagcttag tacgtgaaac atgagagctt agtacgtact atcaacaggt tgaactgcgg 1440
atcttgcggc cgcaaaaatt aaaaatgaag ttttaaatca atctaaagta tatatgagta 1500
aacttggtct gacagttacc aatgcttaat cagtgaggca cctatctcag cgatctgtct 1560
atttcgttca tccatagttg cctgactccc cgtcgtgtag ataactacga tacgggaggg 1620
cttaccatct ggccccagtg ctgcaatgat accgcgagac ccacgctcac cggctccaga 1680
tttatcagca ataaaccagc cagccggaag ggccgagcgc agaagtggtc ctgcaacttt 1740
atccgcctcc atccagtcta ttaattgttg ccgggaagct agagtaagta gttcgccagt 1800
taatagtttg cgcaacgttg ttgccattgc tacaggcatc gtggtgtcac gctcgtcgtt 1860
tggtatggct tcattcagct ccggttccca acgatcaagg cgagttacat gatcccccat 1920
gttgtgcaaa aaagcggtta gctccttcgg tcctccgatc gttgtcagaa gtaagttggc 1980
cgcagtgtta tcactcatgg ttatggcagc actgcataat tctcttactg tcatgccatc 2040
cgtaagatgc ttttctgtga ctggtgagta ctcaaccaag tcattctgag aatagtgtat 2100
gcggcgaccg agttgctctt gcccggcgtc aatacgggat aataccgcgc cacatagcag 2160
aactttaaaa gtgctcatca ttggaaaacg ttcttcgggg cgaaaactct caaggatctt 2220
accgctgttg agatccagtt cgatgtaacc cactcgtgca cccaactgat cttcagcatc 2280
ttttactttc accagcgttt ctgggtgagc aaaaacagga aggcaaaatg ccgcaaaaaa 2340
gggaataagg gcgacacgga aatgttgaat actcatactc ttcctttttc aatattattg 2400
aagcatttat cagggttatt gtctcatgag cggatacata tttgaatgta tttagaaaaa 2460
taaacaaata ggggttccgc gcacatttcc ccgaaaagtg ccacctgcat cgatggcccc 2520
ccgatggtag tgtggggtct ccccatgcga gagtagggaa ctgccaggca tcaaataaaa 2580
cgaaaggctc agtcgaaaga ctgggccttt cgttttatct gttgtttgtc ggtgaacgct 2640
ctcctgagta ggacaaatcc gccgggagcg gatttgaacg ttgcgaagca acggcccgga 2700
gggtggcggg caggacgccc gccataaact gccaggcatc aaattaagca gaaggccatc 2760
ctgacggatg gcctttttgc gtggccagtg ccaagcttgc atgc 2804
<210> 47
<211> 2458
<212> DNA
<213> Artificial sequence
<220>
<223> pRF113
<400> 47
agctttaaaa gccttatata ttcttttttt tcttataaaa cttaaaacct tagaggctat 60
ttaagttgct gatttatatt aattttattg ttcaaacatg agagcttagt acgtgaaaca 120
tgagagctta gtacgttagc catgagagct tagtacgtta gccatgaggg tttagttcgt 180
taaacatgag agcttagtac gttaaacatg agagcttagt acgtgaaaca tgagagctta 240
gtacgtacta tcaacaggtt gaactgcgga tcttgcggcc gcaaaaatta aaaatgaagt 300
tttaaatcaa tctaaagtat atatgagtaa acttggtctg acagttacca atgcttaatc 360
agtgaggcac ctatctcagc gatctgtcta tttcgttcat ccatagttgc ctgactcccc 420
gtcgtgtaga taactacgat acgggagggc ttaccatctg gccccagtgc tgcaatgata 480
ccgcgagacc cacgctcacc ggctccagat ttatcagcaa taaaccagcc agccggaagg 540
gccgagcgca gaagtggtcc tgcaacttta tccgcctcca tccagtctat taattgttgc 600
cgggaagcta gagtaagtag ttcgccagtt aatagtttgc gcaacgttgt tgccattgct 660
acaggcatcg tggtgtcacg ctcgtcgttt ggtatggctt cattcagctc cggttcccaa 720
cgatcaaggc gagttacatg atcccccatg ttgtgcaaaa aagcggttag ctccttcggt 780
cctccgatcg ttgtcagaag taagttggcc gcagtgttat cactcatggt tatggcagca 840
ctgcataatt ctcttactgt catgccatcc gtaagatgct tttctgtgac tggtgagtac 900
tcaaccaagt cattctgaga atagtgtatg cggcgaccga gttgctcttg cccggcgtca 960
atacgggata ataccgcgcc acatagcaga actttaaaag tgctcatcat tggaaaacgt 1020
tcttcggggc gaaaactctc aaggatctta ccgctgttga gatccagttc gatgtaaccc 1080
actcgtgcac ccaactgatc ttcagcatct tttactttca ccagcgtttc tgggtgagca 1140
aaaacaggaa ggcaaaatgc cgcaaaaaag ggaataaggg cgacacggaa atgttgaata 1200
ctcatactct tcctttttca atattattga agcatttatc agggttattg tctcatgagc 1260
ggatacatat ttgaatgtat ttagaaaaat aaacaaatag gggttccgcg cacatttccc 1320
cgaaaagtgc cacctgcatc gatggccccc cgatggtagt gtggggtctc cccatgcgag 1380
agtagggaac tgccaggcat caaataaaac gaaaggctca gtcgaaagac tgggcctttc 1440
gttttatctg ttgtttgtcg gtgaacgctc tcctgagtag gacaaatccg ccgggagcgg 1500
atttgaacgt tgcgaagcaa cggcccggag ggtggcgggc aggacgcccg ccataaactg 1560
ccaggcatca aattaagcag aaggccatcc tgacggatgg cctttttgcg tggccagtgc 1620
caagcttgga ttatgttcag cgcgagctgg cagacggtag ccgtaccgtt gtcgaaaccg 1680
aacactggtt agccgtcgtg ccttactggg ctgcctggcc gttcgaaacg ctactgctgc 1740
ccaaagccca cgttttacgg atcaccgatt tgaccgacgc ccagcgcagc gatctggcgc 1800
tggcgttgaa aaagctgacc agtcgttatg acaacctctt ccagtgctcc ttcccctact 1860
ctatgggctg gcacggcgcg ccatttaatg gcgaagagaa tcaacactgg cagctgcacg 1920
cgcactttta tccgcctctg ctgcgctccg ccaccgtacg taaatttatg gttggttatg 1980
aaatgctggc agagacccag cgagacctga ccgcagaaca ggcagcagag cgtttgcgcg 2040
cagtcagcga tatccatttt cgcgaatccg gagtgtaaga aacgaaactc ccgcactggc 2100
acccgatggt cagccgtacc gactgttaac tttgcgtaac aacgcaggga tggtagtcac 2160
gctgatggac tggggtgcga ctttactttc cgcccgtatt ccgctttccg atggcagcgt 2220
ccgcgaggcg ctgctcggct gtgccagccc ggaatgctat caggatcagg ccgcgtttct 2280
gggggcctct attggtcgtt atgccaaccg tatcgccaat agccgttata cctttgacgg 2340
tgaaaccgtg acgctttcgc caagtcaggg cgttaaccag ctgcacggcg ggccggaagg 2400
gttcgacaaa cgtcgctggc agattgtgaa ccagaacgat cgtcaggtgc tgtttgca 2458
<210> 48
<211> 1717
<212> DNA
<213> Escherichia coli
<220>
<221> misc_feature
<222> (1)..(1717)
<223> galK locus
<400> 48
ggcgaagaga atcaacactg gcagctgcac gcgcactttt atccgcctct gctgcgctcc 60
gccaccgtac gtaaatttat ggttggttat gaaatgctgg cagagaccca gcgagacctg 120
accgcagaac aggcagcaga gcgtttgcgc gcagtcagcg atatccattt tcgcgaatcc 180
ggagtgtaag aaatgagtct gaaagaaaaa acacaatctc tgtttgccaa cgcatttggc 240
taccctgcca ctcacaccat tcaggcgcct ggccgcgtga atttgattgg tgaacacacc 300
gactacaacg acggtttcgt tctgccctgc gcgattgatt atcaaaccgt gatcagttgt 360
gcaccacgcg atgaccgtaa agttcgcgtg atggcagccg attatgaaaa tcagctcgac 420
gagttttccc tcgatgcgcc cattgtcgca catgaaaact atcaatgggc taactacgtt 480
cgtggcgtgg tgaaacatct gcaactgcgt aacaacagct tcggcggcgt ggacatggtg 540
atcagcggca atgtgccgca gggtgccggg ttaagttctt ccgcttcact ggaagtcgcg 600
gtcggaaccg tattgcagca gctttatcat ctgccgctgg acggcgcaca aatcgcgctt 660
aacggtcagg aagcagaaaa ccagtttgta ggctgtaact gcgggatcat ggatcagcta 720
atttccgcgc tcggcaagaa agatcatgcc ttgctgatcg attgccgctc actggggacc 780
aaagcagttt ccatgcccaa aggtgtggct gtcgtcatca tcaacagtaa cttcaaacgt 840
accctggttg gcagcgaata caacacccgt cgtgaacagt gcgaaaccgg tgcgcgtttc 900
ttccagcagc cagccctgcg tgatgtcacc attgaagagt tcaacgctgt tgcgcatgaa 960
ctggacccga tcgtggcaaa acgcgtgcgt catatactga ctgaaaacgc ccgcaccgtt 1020
gaagctgcca gcgcgctgga gcaaggcgac ctgaaacgta tgggcgagtt gatggcggag 1080
tctcatgcct ctatgcgcga tgatttcgaa atcaccgtgc cgcaaattga cactctggta 1140
gaaatcgtca aagctgtgat tggcgacaaa ggtggcgtac gcatgaccgg cggcggattt 1200
ggcggctgta tcgtcgcgct gatcccggaa gagctggtgc ctgccgtaca gcaagctgtc 1260
gctgaacaat atgaagcaaa aacaggtatt aaagagactt tttacgtttg taaaccatca 1320
caaggagcag gacagtgctg aacgaaactc ccgcactggc acccgatggt cagccgtacc 1380
gactgttaac tttgcgtaac aacgcaggga tggtagtcac gctgatggac tggggtgcga 1440
ctttactttc cgcccgtatt ccgctttccg atggcagcgt ccgcgaggcg ctgctcggct 1500
gtgccagccc ggaatgctat caggatcagg ccgcgtttct gggggcctct attggtcgtt 1560
atgccaaccg tatcgccaat agccgttata cctttgacgg tgaaaccgtg acgctttcgc 1620
caagtcaggg cgttaaccag ctgcacggcg ggccggaagg gttcgacaaa cgtcgctggc 1680
agattgtgaa ccagaacgat cgtcaggtgc tgtttgc 1717
<210> 49
<211> 21
<212> DNA
<213> artificial sequence
<220>
<223> GalK forward
<400> 49
ggcgaagaga atcaacactg g 21
<210> 50
<211> 21
<212> DNA
<213> Artificial sequence
<220>
<223> GalK Reverse
<400> 50
gcaaacagca cctgacgatc g 21
<210> 51
<211> 1136
<212> DNA
<213> Escherichia coli
<220>
<221> misc_feature
<222> (1)..(1136)
<223> galK deletion
<400> 51
ggcgaagaga atcaacactg gcagctgcac gcgcactttt atccgcctct gctgcgctcc 60
gccaccgtac gtaaatttat ggttggttat gaaatgctgg cagagaccca gcgagacctg 120
accgcagaac aggcagcaga gcgtttgcgc gcagtcagcg atatccattt tcgcgaatcc 180
ggagtgtaag aaacgaaact cccgcactgg cacccgatgg tcagccgtac cgactgttaa 240
ctttgcgtaa caacgcaggg atggtagtca cgctgatgga ctggggtgcg actttacttt 300
ccgcccgtat tccgctttcc gatggcagcg tccgcgaggc gctgctcggc tgtgccagcc 360
cggaatgcta tcaggatcag gccgcgtttc tgggggcctc tattggtcgt tatgccaacc 420
gtatcgccaa tagccgttat acctttgacg gtgaaaccgt gacgctttcg ccaagtcagg 480
gcgttaacca gctgcacggc gggccggaag ggttcgacaa acgtcgctgg cagattgtga 540
accagaacga tcgtcaggtg ctgtttgcgg cgaagagaat caacactggc agctgcacgc 600
gcacttttat ccgcctctgc tgcgctccgc caccgtacgt aaatttatgg ttggttatga 660
aatgctggca gagacccagc gagacctgac cgcagaacag gcagcagagc gtttgcgcgc 720
agtcagcgat atccattttc gcgaatccgg agtgtaagaa acgaaactcc cgcactggca 780
cccgatggtc agccgtaccg actgttaact ttgcgtaaca acgcagggat ggtagtcacg 840
ctgatggact ggggtgcgac tttactttcc gcccgtattc cgctttccga tggcagcgtc 900
cgcgaggcgc tgctcggctg tgccagcccg gaatgctatc aggatcaggc cgcgtttctg 960
ggggcctcta ttggtcgtta tgccaaccgt atcgccaata gccgttatac ctttgacggt 1020
gaaaccgtga cgctttcgcc aagtcagggc gttaaccagc tgcacggcgg gccggaaggg 1080
ttcgacaaac gtcgctggca gattgtgaac cagaacgatc gtcaggtgct gtttgc 1136
<210> 52
<211> 23
<212> DNA
<213> unknown
<220>
<223> Example of a Cas9 target site:PAM sequence
<220>
<221> misc_feature
<222> (1)..(20)
<223> n = A, C, T, or G
<220>
<221> misc_feature
<222> (21)..(21)
<223> n = A, C, T, or G (indicated as an "X" in Specification)
<400> 52
nnnnnnnnnn nnnnnnnnnn ngg 23
Claims (17)
- 대장균 세포의 게놈 내 표적 서열을 편집하는 방법으로서, 가이드 RNA를 암호화하는 DNA 서열을 포함하는 적어도 하나의 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형을, 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제 DNA 서열을 포함하는 대장균 세포에 제공하는 단계를 포함하되, 상기 Cas9 엔도뉴클레아제 DNA 서열은 Cas9 엔도뉴클레아제를 암호화하고, 가이드 RNA와 Cas9 엔도뉴클레아제는, 표적 서열의 절단을 매개하여 상기 대장균 세포의 게놈 내 표적 부위에서 상동 재조합 매개 유전자 편집을 가능하게 할 수 있는 가이드 RNA/Cas9 엔도뉴클레아제 복합체(RGEN)를 형성할 수 있고, 상기 폴리뉴클레오티드 변형 주형은 상기 표적 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는, 방법.
- 제1항에 있어서, 대장균 세포의 게놈 내 표적 서열은 프로모터 서열, 종결자 서열, 조절 요소 서열, 암호화 서열, 프로파지, 위유전자, 및 외인성 유전자로 이루어진 군으로부터 선택되는, 방법.
- 제1항 또는 제2항에 있어서, 가이드 RNA를 암호화하는 DNA 서열을 포함하는 상기 재조합 DNA 작제물은 원형 플라스미드를 통해 제공되는, 방법.
- 제1항 또는 제2항에 있어서, 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 변형 주형은 각각 별개의 플라스미드 상에 제공되거나 단일 플라스미드 상에 제공되는, 방법.
- 제1항 또는 제2항에 있어서, 재조합 DNA 작제물 및 원형 폴리뉴클레오티드 주형은 전기천공, 열 충격, 파지 전달, 결합, 접합 및 형질도입으로 이루어진 군으로부터 선택되는 하나의 수단을 통해 제공되는, 방법.
- 제1항 또는 제2항에 있어서, 상기 표적 부위는 제1 게놈 영역 및 제2 게놈 영역에 의해 플랭킹되고, 원형 폴리뉴클레오티드 주형은 상기 제1 게놈 영역과 상동인 제1 영역 및 상기 제2 게놈 영역과 상동인 제2 영역을 더 포함하는, 방법.
- 제1항 또는 제2항에 있어서, 대장균 세포는 외인성 재조합효소 단백질을 발현하지 않는, 방법.
- 제1항 또는 제2항에 있어서, 대장균 세포는 RecET 단백질, 람다-레드 단백질, 및 RecBCD 억제제를 포함하는 군으로부터 선택되는 단백질을 발현하지 않는, 방법.
- 제1항 또는 제2항에 있어서, 상기 대장균 세포로부터 자손 세포를 성장시키는 단계를 더 포함하되, 자손 세포는 상기 표적 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는, 방법.
- 제1항 또는 제2항에 있어서, 표적 부위는 대장균 galK 유전자 내에 위치하는, 방법.
- 제1항에 있어서,
a) 가이드 RNA를 암호화하는 DNA 서열을 포함하는 적어도 하나의 원형 재조합 DNA 작제물 및 적어도 하나의 원형 폴리뉴클레오티드 변형 주형을, 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제 DNA 서열을 포함하는 대장균 세포에 제공하는 단계 - 상기 Cas9 엔도뉴클레아제 DNA 서열은 대장균 게놈의 galK 게놈 서열 내 표적 부위에서 이중 가닥 절단을 도입할 수 있는 Cas9 엔도뉴클레아제를 암호화하고, 상기 원형 폴리뉴클레오티드 변형 주형은 상기 galK 게놈 서열의 적어도 하나의 뉴클레오티드 변형을 포함함;
b) (a)의 대장균 세포로부터 자손 세포를 성장시키는 단계; 및
c) 상기 적어도 하나의 뉴클레오티드 변형의 존재에 대해 (b)의 자손 세포를 평가하는 단계를 포함하고,
galK 돌연변이 대장균 세포의 제조에 사용되는, 방법. - 제1항에 있어서, 적어도, 가이드 RNA를 암호화하는 DNA 서열을 포함하는 제1 재조합 DNA 작제물, 원형 폴리뉴클레오티드 변형 주형, 및 유도성 프로모터에 작동 가능하게 연결된 Cas9 엔도뉴클레아제를 암호화하는 DNA 서열을 포함하는 제2 재조합 DNA 작제물을, 대장균 세포에 제공하는 단계를 포함하되, Cas9 엔도뉴클레아제는 상기 대장균 세포의 게놈 내 표적 부위에서 이중 가닥 절단을 도입하고, 상기 폴리뉴클레오티드 변형 주형은 상기 표적 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는, 방법.
- 제12항에 있어서, 제1 재조합 DNA 작제물, 제2 재조합 DNA 작제물, 및 원형 폴리뉴클레오티드 변형 주형은 각각 별개의 플라스미드 상에 제공되거나, 단일 플라스미드 상에 제공되는, 방법.
- 삭제
- 삭제
- 삭제
- 삭제
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462092914P | 2014-12-17 | 2014-12-17 | |
US62/092,914 | 2014-12-17 | ||
PCT/US2015/063434 WO2016099887A1 (en) | 2014-12-17 | 2015-12-02 | Compositions and methods for efficient gene editing in e. coli using guide rna/cas endonuclease systems in combination with circular polynucleotide modification templates |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20170087959A KR20170087959A (ko) | 2017-07-31 |
KR102424626B1 true KR102424626B1 (ko) | 2022-07-25 |
Family
ID=55024260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020177019285A KR102424626B1 (ko) | 2014-12-17 | 2015-12-02 | 원형 폴리뉴클레오티드 변형 주형과 함께 가이드 RNA/Cas 엔도뉴클레아제 시스템을 이용하여 대장균에서 효율적으로 유전자 편집을 하기 위한 조성물 및 방법 |
Country Status (12)
Country | Link |
---|---|
US (1) | US20170369866A1 (ko) |
EP (1) | EP3234117B1 (ko) |
JP (1) | JP6839082B2 (ko) |
KR (1) | KR102424626B1 (ko) |
CN (1) | CN107250363B (ko) |
AU (1) | AU2015363113B2 (ko) |
BR (1) | BR112017012765A2 (ko) |
CA (1) | CA2971391C (ko) |
DK (1) | DK3234117T3 (ko) |
ES (1) | ES2865268T3 (ko) |
MX (1) | MX2017007907A (ko) |
WO (1) | WO2016099887A1 (ko) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2012333134B2 (en) | 2011-07-22 | 2017-05-25 | John Paul Guilinger | Evaluation and improvement of nuclease cleavage specificity |
US9163284B2 (en) | 2013-08-09 | 2015-10-20 | President And Fellows Of Harvard College | Methods for identifying a target site of a Cas9 nuclease |
US9359599B2 (en) | 2013-08-22 | 2016-06-07 | President And Fellows Of Harvard College | Engineered transcription activator-like effector (TALE) domains and uses thereof |
US9388430B2 (en) | 2013-09-06 | 2016-07-12 | President And Fellows Of Harvard College | Cas9-recombinase fusion proteins and uses thereof |
US9737604B2 (en) | 2013-09-06 | 2017-08-22 | President And Fellows Of Harvard College | Use of cationic lipids to deliver CAS9 |
US9340800B2 (en) | 2013-09-06 | 2016-05-17 | President And Fellows Of Harvard College | Extended DNA-sensing GRNAS |
US9068179B1 (en) | 2013-12-12 | 2015-06-30 | President And Fellows Of Harvard College | Methods for correcting presenilin point mutations |
AU2015217208B2 (en) | 2014-02-11 | 2018-08-30 | The Regents Of The University Of Colorado, A Body Corporate | CRISPR enabled multiplexed genome engineering |
AU2015298571B2 (en) | 2014-07-30 | 2020-09-03 | President And Fellows Of Harvard College | Cas9 proteins including ligand-dependent inteins |
WO2017070632A2 (en) | 2015-10-23 | 2017-04-27 | President And Fellows Of Harvard College | Nucleobase editors and uses thereof |
SG11201807025SA (en) * | 2016-02-26 | 2018-09-27 | Lanzatech New Zealand Ltd | Crispr/cas systems for c-1 fixing bacteria |
AU2017280353B2 (en) | 2016-06-24 | 2021-11-11 | Inscripta, Inc. | Methods for generating barcoded combinatorial libraries |
CA3032699A1 (en) | 2016-08-03 | 2018-02-08 | President And Fellows Of Harvard College | Adenosine nucleobase editors and uses thereof |
WO2018031683A1 (en) | 2016-08-09 | 2018-02-15 | President And Fellows Of Harvard College | Programmable cas9-recombinase fusion proteins and uses thereof |
CN110114461A (zh) | 2016-08-17 | 2019-08-09 | 博德研究所 | 新型crispr酶和系统 |
WO2018039438A1 (en) | 2016-08-24 | 2018-03-01 | President And Fellows Of Harvard College | Incorporation of unnatural amino acids into proteins using base editing |
EP3526320A1 (en) | 2016-10-14 | 2019-08-21 | President and Fellows of Harvard College | Aav delivery of nucleobase editors |
JP7182545B2 (ja) * | 2016-12-14 | 2022-12-02 | ヴァーヘニンゲン ユニヴェルシテット | 熱安定性cas9ヌクレアーゼ |
CN110312803B (zh) * | 2016-12-21 | 2024-04-30 | 许景焜 | 编辑核酸序列的组合物及方法 |
US10745677B2 (en) | 2016-12-23 | 2020-08-18 | President And Fellows Of Harvard College | Editing of CCR5 receptor gene to protect against HIV infection |
EP3592853A1 (en) | 2017-03-09 | 2020-01-15 | President and Fellows of Harvard College | Suppression of pain by gene editing |
JP2020510439A (ja) | 2017-03-10 | 2020-04-09 | プレジデント アンド フェローズ オブ ハーバード カレッジ | シトシンからグアニンへの塩基編集因子 |
KR102687373B1 (ko) | 2017-03-23 | 2024-07-23 | 프레지던트 앤드 펠로우즈 오브 하바드 칼리지 | 핵산 프로그램가능한 dna 결합 단백질을 포함하는 핵염기 편집제 |
WO2018204777A2 (en) | 2017-05-05 | 2018-11-08 | The Broad Institute, Inc. | Methods for identification and modification of lncrna associated with target genotypes and phenotypes |
WO2018209320A1 (en) | 2017-05-12 | 2018-11-15 | President And Fellows Of Harvard College | Aptazyme-embedded guide rnas for use with crispr-cas9 in genome editing and transcriptional activation |
WO2018226853A1 (en) * | 2017-06-07 | 2018-12-13 | The Rockefeller University | Enhancement of crispr gene editing or target destruction by co-expression of heterologous dna repair protein |
US9982279B1 (en) | 2017-06-23 | 2018-05-29 | Inscripta, Inc. | Nucleic acid-guided nucleases |
US10011849B1 (en) | 2017-06-23 | 2018-07-03 | Inscripta, Inc. | Nucleic acid-guided nucleases |
CN109295054B (zh) * | 2017-07-25 | 2024-02-06 | 广州普世利华科技有限公司 | 用于靶向病原体基因RNA的gRNA及基于C2c2的病原体基因的检测方法及试剂盒 |
EP3658573A1 (en) | 2017-07-28 | 2020-06-03 | President and Fellows of Harvard College | Methods and compositions for evolving base editors using phage-assisted continuous evolution (pace) |
WO2019139645A2 (en) | 2017-08-30 | 2019-07-18 | President And Fellows Of Harvard College | High efficiency base editors comprising gam |
CN111757937A (zh) | 2017-10-16 | 2020-10-09 | 布罗德研究所股份有限公司 | 腺苷碱基编辑器的用途 |
CN109971778B (zh) * | 2017-12-27 | 2022-11-18 | 北京蓝晶微生物科技有限公司 | 一种在盐单胞菌中快速基因编辑的载体组合及其应用 |
AU2019236210A1 (en) | 2018-03-14 | 2020-09-10 | Arbor Biotechnologies, Inc. | Novel CRISPR DNA targeting enzymes and systems |
CA3109083A1 (en) * | 2018-08-09 | 2020-02-13 | G+Flas Life Sciences | Compositions and methods for genome engineering with cas12a proteins |
IL292273B2 (en) | 2018-08-14 | 2023-10-01 | Inscripta Inc | Devices, modules and methods for improved detection of edited sequences in living cells |
US11965154B2 (en) * | 2018-08-30 | 2024-04-23 | Inscripta, Inc. | Detection of nuclease edited sequences in automated modules and instruments |
WO2020191249A1 (en) | 2019-03-19 | 2020-09-24 | The Broad Institute, Inc. | Methods and compositions for editing nucleotide sequences |
CA3136114A1 (en) | 2019-04-05 | 2020-10-08 | Danisco Us Inc. | Methods for integrating a donor dna sequence into the genome of bacillus using linear recombinant dna constructs and compositions thereof |
CA3136113A1 (en) | 2019-04-05 | 2020-10-08 | Danisco Us Inc. | Methods for polynucleotide integration into the genome of bacillus using dual circular recombinant dna constructs and compositions thereof |
WO2020236967A1 (en) | 2019-05-20 | 2020-11-26 | The Broad Institute, Inc. | Random crispr-cas deletion mutant |
US20220298501A1 (en) | 2019-08-30 | 2022-09-22 | The Broad Institute, Inc. | Crispr-associated mu transposase systems |
MX2022014008A (es) | 2020-05-08 | 2023-02-09 | Broad Inst Inc | Métodos y composiciones para la edición simultánea de ambas cadenas de una secuencia de nucleótidos de doble cadena objetivo. |
CN118541475A (zh) * | 2021-12-27 | 2024-08-23 | 亘喜生物科技(上海)有限公司 | 用于细胞修饰的系统和方法 |
WO2024118881A1 (en) | 2022-12-01 | 2024-06-06 | Genencor International Bv | Iterative muliplex genome engineering in microbial cells using a bidirectional selection marker system |
WO2024118882A1 (en) | 2022-12-01 | 2024-06-06 | Genencor International Bv | Iterative multiplex genome engineering in microbial cells using a selection marker swapping system |
WO2024118876A1 (en) | 2022-12-01 | 2024-06-06 | Genencor International Bv | Iterative multiplex genome engineering in microbial cells using a recombinant self-excisable selection marker system |
WO2024145743A1 (zh) * | 2023-01-03 | 2024-07-11 | 哈尔滨工业大学 | 一类rna引导的内切酶系统及其基因编辑应用 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030224521A1 (en) * | 2000-08-14 | 2003-12-04 | The Gov. Of The Usa Secretary Of The Department Of Health And Human Services | Enhanced homologous recombination mediated by lambda recombination proteins |
WO2013176772A1 (en) * | 2012-05-25 | 2013-11-28 | The Regents Of The University Of California | Methods and compositions for rna-directed target dna modification and for rna-directed modulation of transcription |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005056786A2 (en) * | 2003-12-05 | 2005-06-23 | Wisconsin Alumni Research Foundation | Sugar kinases with expanded substrate specificity and their use |
US20140113376A1 (en) * | 2011-06-01 | 2014-04-24 | Rotem Sorek | Compositions and methods for downregulating prokaryotic genes |
EP3825401A1 (en) * | 2012-12-12 | 2021-05-26 | The Broad Institute, Inc. | Crispr-cas component systems, methods and compositions for sequence manipulation |
US20150132263A1 (en) * | 2013-11-11 | 2015-05-14 | Radiant Genomics, Inc. | Compositions and methods for targeted gene disruption in prokaryotes |
-
2015
- 2015-12-02 MX MX2017007907A patent/MX2017007907A/es unknown
- 2015-12-02 KR KR1020177019285A patent/KR102424626B1/ko active IP Right Grant
- 2015-12-02 CN CN201580076439.5A patent/CN107250363B/zh active Active
- 2015-12-02 US US15/533,475 patent/US20170369866A1/en not_active Abandoned
- 2015-12-02 CA CA2971391A patent/CA2971391C/en active Active
- 2015-12-02 WO PCT/US2015/063434 patent/WO2016099887A1/en active Application Filing
- 2015-12-02 ES ES15816605T patent/ES2865268T3/es active Active
- 2015-12-02 DK DK15816605.8T patent/DK3234117T3/da active
- 2015-12-02 BR BR112017012765A patent/BR112017012765A2/pt not_active Application Discontinuation
- 2015-12-02 JP JP2017532700A patent/JP6839082B2/ja active Active
- 2015-12-02 EP EP15816605.8A patent/EP3234117B1/en active Active
- 2015-12-02 AU AU2015363113A patent/AU2015363113B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030224521A1 (en) * | 2000-08-14 | 2003-12-04 | The Gov. Of The Usa Secretary Of The Department Of Health And Human Services | Enhanced homologous recombination mediated by lambda recombination proteins |
WO2013176772A1 (en) * | 2012-05-25 | 2013-11-28 | The Regents Of The University Of California | Methods and compositions for rna-directed target dna modification and for rna-directed modulation of transcription |
Non-Patent Citations (1)
Title |
---|
nature biotechnology, 2013, Vol.31, No.3, pp.233-239 1부.* |
Also Published As
Publication number | Publication date |
---|---|
CA2971391C (en) | 2023-05-09 |
AU2015363113B2 (en) | 2021-03-11 |
JP2017538422A (ja) | 2017-12-28 |
US20170369866A1 (en) | 2017-12-28 |
AU2015363113A1 (en) | 2017-06-29 |
BR112017012765A2 (pt) | 2018-01-16 |
MX2017007907A (es) | 2017-09-18 |
CN107250363A (zh) | 2017-10-13 |
ES2865268T3 (es) | 2021-10-15 |
EP3234117A1 (en) | 2017-10-25 |
EP3234117B1 (en) | 2021-03-03 |
KR20170087959A (ko) | 2017-07-31 |
CN107250363B (zh) | 2021-03-30 |
DK3234117T3 (da) | 2021-06-07 |
JP6839082B2 (ja) | 2021-03-03 |
WO2016099887A1 (en) | 2016-06-23 |
CA2971391A1 (en) | 2016-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102424626B1 (ko) | 원형 폴리뉴클레오티드 변형 주형과 함께 가이드 RNA/Cas 엔도뉴클레아제 시스템을 이용하여 대장균에서 효율적으로 유전자 편집을 하기 위한 조성물 및 방법 | |
AU2019204429B2 (en) | Modified hematopoietic stem/progenitor and non-T effector cells, and uses thereof | |
KR102622910B1 (ko) | Pd-1 호밍 엔도뉴클레아제 변이체, 조성물 및 사용 방법 | |
KR102424721B1 (ko) | Rna-유도 엔도뉴클레아제의 세포 내로의 펩티드 매개성 전달 | |
JP2023082141A (ja) | CasZ組成物及び使用方法 | |
CN111465689B (zh) | Cas9变体和使用方法 | |
KR20210149060A (ko) | Tn7-유사 트랜스포존을 사용한 rna-유도된 dna 통합 | |
DK2663645T3 (da) | Gærstammer, der er modificeret til produktion af ethanol fra glycerol | |
TWI323284B (en) | Amplification process | |
CN106661573B (zh) | 多核苷酸文库的重组酶介导的整合 | |
CN116083398B (zh) | 分离的Cas13蛋白及其应用 | |
KR20240001708A (ko) | 유전적 장애의 치료를 위해 생체내 뉴클레아제-매개의 유전자 표적화를 위한 조성물 및 방법 | |
US20200017917A1 (en) | Mapping a Functional Cancer Genome Atlas of Tumor Suppressors Using AAV-CRISPR Mediated Direct In Vivo Screening | |
CN110241099B (zh) | 酿脓链球菌的CRISPR核酸酶SpCas9 的截短变异体及其应用 | |
CN112608932A (zh) | 一种大肠杆菌中高效表达禽腺病毒Fiber-2蛋白的方法 | |
KR102705104B1 (ko) | Cas9 변이체 및 사용 방법 | |
KR20220116512A (ko) | 박테로이데스의 게놈편집 | |
NL2028346B1 (en) | gRAMP protein for modulating a target mRNA | |
CN110016481A (zh) | 一种pX335-xCas9n载体及其构建方法和应用 | |
CN112538104B (zh) | 构建促融质粒优化禽腺病毒Fiber-2蛋白表达及纯化的方法 | |
KR20230029922A (ko) | 피루베이트 키나아제 결핍증(pkd) 유전자 편집 치료 방법 | |
RU2781083C2 (ru) | Варианты, композиции и методы применения хоминг-эндонуклеазы pd-1 | |
CN114292800B (zh) | 用于igf-1基因重组表达的重组细胞和重组表达方法 | |
CN115247186A (zh) | 一种构建af双基因突变的动脉粥样硬化模型猪核移植供体细胞的基因编辑系统及其应用 | |
KR20230150998A (ko) | Cas3 단백질을 제조하는 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |