KR102628801B1

KR102628801B1 - 세포내 유전자 변형 및 증가된 상동 재조합을 위한 보호 dna 주형 및 이용 방법

Info

Publication number: KR102628801B1
Application number: KR1020187012640A
Authority: KR
Inventors: 라이언 엘. 프리슈
Original assignee: 이아이디피, 인크.
Priority date: 2015-10-12
Filing date: 2016-10-11
Publication date: 2024-01-25
Also published as: AU2016338785B2; EP4144844A1; EP3362560A1; US20180273979A1; CA2999050A1; KR20180056772A; JP2018530352A; WO2017066175A1; JP7011590B2; BR112018007351A2; EP3362560B1; AU2016338785A1; DK3362560T3

Abstract

세포 게놈에서 뉴클레오티드 서열의 변형을 위한 조성물 및 방법이 제공된다. 이 방법 및 조성물은 뉴클레오티드 서열을 변형하고/하거나 상동 유도 복구 빈도를 증가시키기 위해 가이드 폴리뉴클레오티드, 보호 폴리뉴클레오티드 변형 주형 및 Cas 엔도뉴클레아제를 이용한다. 이 방법은 또한 임의의 변형 주형의 부위를 벗어난 통합 빈도를 감소시키기 위해 이용될 수 있다. 본 발명은 또한 그 게놈에 변형 표적 부위를 포함하는 세포의 선택 방법 및 그 게놈의 표적 부위에 삽입된 관심 폴리뉴클레오티드를 포함하는 세포의 선택 방법을 기술한다.

Description

세포내 유전자 변형 및 증가된 상동 재조합을 위한 보호 DNA 주형 및 이용 방법

본 발명은 분자 생물학 분야, 특히 세포 게놈을 변경하는 방법에 관한 것이다. 구체적으로, 본 발명은 세포 및 생물에서 유전자 변형을 위한 가이드 폴리뉴클레오티드/Cas 복합체와 조합되는 보호 DNA 주형의 용도에 대한 것이다.

전자적으로 제출된 서열 목록에 대한 참조

본 서열 목록의 공식 사본은 2016년 10월 7일 작성되고 크기가 188킬로바이트이며 본 명세서와 동시에 제출된, 파일명 CL6641WOPCT2_SEQLISTING.txt의 ASCII 형식의 서열 목록으로서 EFS-웹을 통해 전자적으로 제출되었다. 이러한 ASCII 형식의 서류에 포함된 서열 목록은 본 명세서의 일부이며, 그 전체가 본원에 참조로 포함된다.

관련 출원에 대한 상호 참조

본 출원은 2015년 10월 12일에 출원된 미국 가출원 62/240,140호의 이익을 주장한다.

재조합 DNA 기술은 DNA 서열 및 게놈 서열의 표적화된 위치에서 DNA 서열을 변형(편집), 삽입 및/또는 결실할 수 있게 하였다. 부위 특이적 재조합 시스템을 이용한 부위 특이적 통합 기술뿐만 아니라 다른 방식의 재조합 기술이 유전자 발현을 억제할 뿐만 아니라 다양한 생물에서 관심 폴리뉴클레오티드의 표적화된 변형을 생성하는 데 이용되어 왔다. 유전자 발현의 억제는, 예를 들어, 유전자의 "녹아웃"을 유발하는 유전자의 DNA 서열을 중단시키거나 결실시켜 달성될 수 있다(Austin et al., Nat. Genetics 36:921-924). 유전자 녹아웃은 대부분 박테리아에서 포유동물까지의 다양한 생물 전반에 걸쳐 적용할 수 있는 기술인 상동 재조합(HR)을 통해 수행되어 왔다. 유전적 "녹인"을 유발하는 DNA 서열의 게놈내 삽입도 HR에 의해 수행될 수 있다. 게놈-편집 기술, 예컨대 디자이너 징크 핑거 뉴클레아제(ZFN), 전사 활성화제-유사 이펙터 뉴클레아제(TALEN), 귀소 메가뉴클레아제, 또는 유도 Cas9 시스템을 표적화된 게놈 교란을 생성하기 위해 이용할 수 있다.

HR에 의한 유전자 변형은 강력한 도구이지만, 복잡하고, 노동-집약적인 과정일 수 있으며, 일반적으로 비용 효과적인 방식으로 스케일-업하기 어렵다. HR이 효율적이지 못한 생물에서는 이러한 어려움이 악화된다. 이러한 낮은 효율은 일반적으로 실시자로 하여금 원하는 HR 사건이 일어난 세포의 동정을 돕는 선택 가능한 표현형 또는 외인성 마커에 의존하게 만든다.

상동 재조합의 강도를 증가시키며 저렴하고, 설정이 용이하고, 스케일 조정이 가능하고, 생물 게놈 내의 여러 위치를 쉽게 표적화할 수 있는 새로운 게놈 조작 기술에 대한 필요성이 여전히 존재한다.

본 발명의 하나의 구현예에서, 이 방법은 그 게놈에 변형 뉴클레오티드 서열을 포함하는 세포의 선택 방법을 포함하며, 방법은 a) 세포에 가이드 폴리뉴클레오티드, 적어도 하나의 보호 폴리뉴클레오티드 변형 주형 및 Cas 엔도뉴클레아제를 제공하는 단계로서, 상기 Cas 엔도뉴클레아제 및 가이드 폴리뉴클레오티드는 상기 세포의 게놈 내 표적 부위에서 단일 또는 이중 가닥 절단을 도입할 수 있는 복합체를 형성할 수 있고, 상기 보호 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는 단계; 및 b) 상기 변형 뉴클레오티드 서열을 포함하는 단계 (a)로부터의 세포를 선택하는 단계를 포함한다. 보호 폴리뉴클레오티드 변형 주형은 그 5' 말단, 3' 말단, 또는 5' 및 3' 말단 둘 다에 적어도 하나의 보호 분자를 포함하는 선형 폴리뉴클레오티드일 수도 있고, 또는 원형 분자일 수도 있다. 보호 분자는 알칸 스페이서, 형광단, NHS 에스테르, 디곡시젠, 콜레스테릴-TEG, C6, C12, 헥시닐, 옥스타디이닐 dUTP, 바이오틴, 디티올, 역위 디데옥시-T 변형 또는 이의 임의의 한 조합으로 이루어진 군으로부터 선택될 수 있다. 보호 폴리뉴클레오티드 변형 주형은 적어도 한 가닥의 5'-말단에 적어도 하나의 포스포로티오에이트 결합을 포함하는 이중 가닥 선형 분자일 수 있다. 보호 폴리뉴클레오티드 변형 주형은 각 가닥의 5'-말단에 3탄소 알칼리성 스페이서를 포함하는 이중 가닥 선형 분자일 수 있다. 보호 폴리뉴클레오티드 주형의 적어도 하나의 뉴클레오티드 변형은 (i) 적어도 하나의 뉴클레오티드의 치환, (ii) 적어도 하나의 뉴클레오티드의 결실, (iii) 적어도 하나의 뉴클레오티드의 삽입, 및 (iv) (i) 내지 (iii)의 임의의 조합으로 이루어진 군으로부터 선택될 수 있다.

본 발명의 하나의 구현예에서, 이 방법은 상기 세포에서 상동 유도 복구(Homologous Directed Repair, HDR) 및 비-상동 말단 연결(Non-Homologous End Joining, NHEJ)의 빈도를 결정하는 단계를 추가로 포함한다.

본 발명의 하나의 구현예에서, 이 방법은 상기 세포에서 보호 폴리뉴클레오티드 변형 주형의 부위를 벗어난 통합 빈도를 결정하는 단계를 추가로 포함한다. 상기 세포에서 보호 폴리뉴클레오티드 변형 주형의 부위를 벗어난 통합 빈도는 비보호(대조군) 폴리뉴클레오티드 변형 주형을 사용한 것을 제외하고 상기 방법과 모두 동일한 성분 및 단계를 갖는 대조 방법에서 유도되는 부위를 벗어난 통합 빈도에 비해 감소될 수 있다.

본 발명의 하나의 구현예에서, 이 방법은 그 게놈의 표적 부위에 삽입된 관심 폴리뉴클레오티드를 포함하는 세포를 선택하는 방법을 포함하며, 이 방법은 a) 세포에 가이드 폴리뉴클레오티드, 보호 폴리뉴클레오티드 공여 DNA 및 Cas 엔도뉴클레아제를 제공하는 단계로서, 상기 Cas 엔도뉴클레아제 및 가이드 폴리뉴클레오티드는 상기 세포의 게놈 내 표적 부위에서 단일 또는 이중 가닥 절단을 도입할 수 있는 복합체를 형성할 수 있고, 상기 보호 폴리뉴클레오티드 공여 DNA는 상기 세포의 게놈 내로 삽입될 관심 폴리뉴클레오티드를 포함하는 단계; 및 b) 그 게놈의 표적 부위에 삽입된 관심 폴리뉴클레오티드를 포함하는 단계 (a)로부터의 세포를 선택하는 단계를 포함한다.

또한, 본원에 기술된 방법에 의해 생성된, 표적 부위가 변경되거나 관심 폴리뉴클레오티드가 변경된 핵산 작제물, 효모, 진균, 미생물, 식물, 식물 세포, 외식편, 종자 및 곡물이 제공된다. 본 발명의 방법 및 조성물의 추가적인 구현예가 본원에 제시된다.

도면의 간단한 설명 및 서열 목록
본 발명은 본 출원의 일부를 구성하는 첨부 도면 및 서열 목록 및 다음의 상세한 설명으로부터 더욱 완전하게 이해될 수 있다. 본원에 첨부된 서열 기술 및 서열 목록은 37 C.F.R. §§1.821-1.825에 명시된 바와 같이 특허 출원에서 뉴클레오티드 및 아미노산 서열 공개를 규율하는 규칙을 따른다. 서열 기술은 본원에 참조로 포함되는 37 C.F.R. §§ 1.821-1.825에 정의된 바와 같은 아미노산에 대한 3글자 코드를 포함한다.
도면
도 1은 고처리량 gRNA 클로닝 카세트의 구조를 도시한다(예를 들어, pRF291의 SEQ ID NO: 12를 포함하지만, 이에 한정되지는 않음. 카세트는 프로모터(검은색으로 채워 나타냄), 5' 리보자임을 암호화하는 DNA(회색으로 채워 나타냄), 2개의 제한 부위가 플랭킹한 역 선택 카세트(수평선으로 채워 나타냄), CER 도메인을 암호화하는 DNA(CER로 나타냄) 및 전사 종결자(점으로 채움)로 구성된다. 정확한 돌출부 말단(VT, 수직선으로 채워 나타냄)을 갖는 가변 표적화 도메인을 포함하는 DNA 듀플렉스가 제한 효소 및 DNA 리가아제의 존재 하에 카세트를 포함하는 플라스미드와 혼합되는 경우, 역 선택 카세트(수평선으로 채움)는 VT 도메인(수직선)에 의해 치환될 수 있다. 역 선택 카세트의 부재에 대해 선택하여 이러한 사건이 시험관내 선택될 수 있다. 생성물은 기능적 gRNA 발현 카세트이다.
도 2는 SEQ ID NO:19 및 SEQ ID NO:20)을 포함하는 고처리량 플라스미드 pRF291과 함께 사용하기 위한 가변 표적화 도메인 듀플렉스(SEQ ID NO:19 및 SEQ ID NO:20)를 도시한다.
도 3a~3d는 상이한 폴리뉴클레오티드 변형 주형을 도시한다. 도 3a는 상동성 암 1(검은색으로 채움) 및 상동성 암 2(사선으로 채움)가 플랭킹한 CAN1 오픈 리딩 프레임(수직선으로 채움)을 갖는 야생형(WT) CAN1 유전자좌를 도시한다. 도 3b는 2개의 상동성 암(암 1, 검은색으로 채움 및 암 2, 사선으로 채움)으로 구성된 비보호(비변형) 폴리뉴클레오티드 변형 주형을 도시한다. 도 3c는 DNA(점으로 채움)에 원하는 변형(보호)을 포함하는 5' 및 3' 말단을 갖는 2개의 상동성 암(암 1, 검은색으로 채움 및 암 2, 사선으로 채움)으로 구성된 보호 폴리뉴클레오티드 변형 주형을 도시한다. 도 3d는 원형 분자로 제조된, 2개의 상동성 암(암 1, 검은색으로 채움 및 암 2, 사선으로 채움)으로 구성된 보호 폴리뉴클레오티드 변형 주형을 도시한다.
도 4: pRF437로 처리된 세포로부터 URA3 유전자좌의 예시적 PCR은 WT URA3 유전자좌에 대해 예상 크기에 밴드를 갖는 삽입-결실 돌연변이를 포함하는 콜로니 및 더 작은 예상 밴드를 포함하는 HDR에 의한 URA3 ORF 결실을 포함하는 콜로니를 나타냄.

서열

핵산 및 단백질 SEQ ID 번호의 요약

설명	핵산 SEQ ID NO.	단백질 SEQ ID NO.
Cas9 엔도뉴클레아제, 스트렙토코커스 피오제네스(Streptococcus pyogenes)		1
야로위아(Yarrowia) 코돈 최적화 Cas9	2
SV40 핵 국재화 신호		3
FBA1 프로모터	4
야로위아 최적화 발현 카세트	5
pZufCas9	6
AarI-제거 1 프라이머	7
AarI-제거 2 프라이머	8
pRF109	9
Aar1-Cas9 ORF(Aar1-Cas9CG 유전자)	10
pRF141	11
고처리량 클로닝 카세트	12
yl52 프로모터	13
HDV 리보자임을 암호화하는 DNA	14
rpsL 역 선택 마커	15
Cas9 CER 도메인을 암호화하는 DNA	16
SUP4 종결자	17
pRF291	18
Can1-1F	19
Can1-1R	20
Can1-1 VT 도메인을 암호화하는 DNA	21
Can1-1 표적 부위	22
CAN1 유전자, 야로위아 리폴리티카(Yarrowia lipolytica)	23
pRF303	24
can1 상류 상동성 암	25
Can1 상류 전방	26
Can1 상류 후방	27
Can1 하류 상동성 암	28
Can1 하류 상동성 암 전방 프라이머	29
Can1 하류 상동성 암 후방 프라이머	30
Can1 폴리뉴클레오티드 변형 주형(편집 주형) 클로닝 단편	31
pUC18	32
pRF80	33
Can1 폴리뉴클레오티드 변형 주형	34
SEQ ID NO:35에 기재된 처음 5' 염기(A) 상류에 /5SpC3/을 갖는 C3S 전방(/5SpC3/AGCTTGCTACGTTAGGAGAA)	35
SEQ ID NO:36에 기재된 처음 5' 염기(T) 상류에 /5SpC3/을 갖는 C3S 후방(/5SpC3/TATGAGCTTATCCTGTATCG)	36
처음 5개 5' 뉴클레오티드가 변형된 PT 전방 프라이머(AGCTT*GCTACGTTAGGAGAA)	37
처음 5개 5' 뉴클레오티드가 변형된 PT 후방(TATGA*GCTTATCCTGTATCG)	38
CAN1 유전자좌(콜로니 PCR)	39
비변형 전방 프라이머	40
비변형 후방 프라이머	41
Can1 유전자좌 전방	42
Can1 유전자좌 후방	43
Can1 유전자좌 WT	44
Can1 유전자좌 결실	45
사본수 분석 단편	46
Can1 사본수 F	47
Can1 사본수 R	48
Can1 사본수 프로브(6FAM-CTTTTCGCCCCCACTGCAGCC-TAMRA)	49
TEF1 유전자좌	50
TEF1 전방	51
TEF1 후방	52
TEF1 프로브(6FAM-TGCTGGTGGTGTTGGTGAGTT-TAMRA)	53
pRF434	54
히그로마이신 저항성 카세트	55
URA3 유전자좌, 야로위아 리폴리티카	56
ura3-1 표적 부위, 야로위아 리폴리티카	57
ura3-1F	58
ura3-1R	59
Ura3-1 VT 도메인을 암호화하는 DNA	60
pRF421	61
URA3 상류 서열	62
URA3 하류 서열	63
URA3 결실 폴리뉴클레오티드 편집 주형	64
pRF263	65
HY007	66
올리고 297	67
EcoRI 플랭킹 URA3 결실 주형	68
pRF437	69
올리고 308	70
올리고 309	71
URA3 유전자좌 결실 PCR 생성물	72

세포 게놈에서 뉴클레오티드 서열의 변형을 위한 조성물 및 방법이 제공된다. 이 방법 및 조성물은 뉴클레오티드 서열을 변형하고/하거나 상동 유도 복구 빈도를 증가시키기 위해 가이드 폴리뉴클레오티드, 보호 폴리뉴클레오티드 변형 주형 및 Cas 엔도뉴클레아제를 이용한다. 이 방법은 또한 임의의 변형 주형이 부위를 벗어나 통합된 경우 그 빈도를 감소시키기 위해 이용될 수 있다.

비-상동 말단 연결(NHEJ)이 상동 유도 복구(HDR), 그리고 결과적으로 표적화된 DNA 절단의 복구에 기초하는 유전 편집에 비해 우세한 비 통상적인 효모, 식물, 동물을 포함하지만 이에 한정되지 않는 여러 세포 유형은 폴리뉴클레오티드 변형 주형에 기초하는 정확한 유전자 편집 외에도 높은 백그라운드 NHEJ 돌연변이를 가질 것이다. 정확한 편집(뉴클레오티드 변형) 및/또는 보호 변형 주형의 부위를 벗어난 통합 감소를 유도하는 HDR 빈도를 증가시키기 위해 보호 폴리뉴클레오티드 변형 주형을 사용하는 방법 및 조성물이 본원에 기술된다.

모든 인용된 특허 및 비 특허 문헌의 개시 내용은 그 전체가 참조로 본원에 포함된다.

본원의 용어 "세포"는 임의의 유형의 세포, 예컨대, 원핵 세포 또는 진핵 세포를 지칭한다. 진핵 세포는 핵 및 기타 막으로 둘러싸인 구조물(세포 기관)이 있지만, 원핵 세포는 핵이 없다. 특정 구현예에서의 세포는 포유류 세포 또는 비 포유류 세포일 수 있다. 비 포유류 세포는 진핵 또는 원핵일 수 있다. 예를 들어, 본원의 비 포유류 세포는 미생물 세포 또는 비 포유류의 다세포 생물, 예컨대, 식물, 곤충, 선충, 조류 종, 양서류, 파충류, 또는 어류의 세포를 지칭할 수 있다. 본원의 미생물 세포는 예를 들어, 진균 세포(예컨대, 효모 세포), 원핵 세포, 원생 세포(예컨대, 조류 세포), 유글레나 세포, 스트라메노필(stramenopile) 세포, 또는 난균 세포를 지칭할 수 있다. 본원의 원핵 세포는 예를 들어, 박테리아 세포 또는 고세균 세포를 지칭할 수 있다.

본원의 용어 "효모"는 주로 단세포 형태로 존재하는 진균 종을 지칭한다. 효모는 대안적으로 "효모 세포"로 지칭될 수 있다. 본원에서 효모는 예를 들어, 통상적인 효모 또는 비 통상적인 효모로 특징지어질 수 있다.

본원의 용어 "통상적인 효모"("모델 효모")는 일반적으로 사카로마이세스(Saccharomyces) 또는 스키조사카로마이세스(Schizosaccharomyces) 효모 종을 지칭한다. 특정 구현예에서 통상적인 효모는 비 상동 말단 연결(NHEJ)에 의해 매개되는 복구 프로세스보다 상동 재조합(HR) DNA 복구 프로세스를 선호하는 효모이다.

본원에서 용어 "비 통상적인 효모"는 "통상적인"("모델") 효모, 예컨대 사카로마이세스(예를 들어, 출아 효모, 빵 효모, 및/또는 맥주 효모로도 알려져 있는 S. 세레비시아(S. cerevisiae)) 또는 스키조사카로마이세스(예를 들어, 분열 효모로도 알려져 있는 S. 폼베(S. pombe)) 종이 아닌 임의의 효모를 지칭한다. 본원의 특정 양태에서 비 통상적인 효모는 무성으로(무성생식형) 또는 유성으로(유성생식형) 생식하는 것일 수 있다. 본원의 비 통상적인 효모는 일반적으로 단일세포 형태로 존재하지만, 이들 효모의 특정 유형은 선택적으로, 가성균사(일렬로 연결된 발아 세포)를 형성할 수 있다. 또 다른 양태에서, 비 통상적인 효모는 일배체 또는 이배체일 수 있고/있거나, 이들 배수성 형태 중 어느 하나로 존재하는 능력을 가질 수 있다. 비-통상적인 효모는 본원에 참조로 포함되는 Non-Conventional Yeasts in Genetics, Biochemistry and Biotechnology: Practical Protocols(K. Wolf, K.D. Breunig, G. Barth, Eds., Springer-Verlag, Berlin, Germany, 2003) 및 Spencer 등(Appl. Microbiol. Biotechnol. 58:147-156)에 기술되어 있다. 특정 구현예에서 비 통상적인 효모는 추가적으로(또는 대안적으로) HR에 의해 매개되는 복구 프로세스보다 NHEJ DNA 복구 프로세스를 선호하는 효모일 수 있다. 이러한 계통 - HR보다 NHEJ 선호 - 에 따른 비 통상적인 효모의 정의는 본원에 참조로 포함되는 Chen 등(PLoS ONE 8:e57952)에 의해 추가로 개시되어 있다. 본원에서 바람직한 비 통상적인 효모는 야로위아 속의 것들(예를 들어, 야로위아 리폴리티카)이다.

CRISPR 유전자좌(클러스터링된 규칙적으로 산재된 짧은 회문구조 반복, Clustered Regularly Interspaced Short Palindromic Repeats)(SPIDR - 스페이서 산재된 직접 반복 - 로도 알려져 있음)는 DNA 유전자좌 패밀리를 구성한다. CRISPR 유전자좌는 부분적으로 회문구조인, 짧고 고도로 보존된 DNA 반복(일반적으로 24 내지 40 bp, 1 내지 140회 반복됨 - CRISPR-반복으로도 지칭됨)으로 이루어진다. 반복 서열(보통 종에 대해 특이적임)은 일정한 길이의 가변 서열(CRISPR 유전자좌에 따라 일반적으로 20 내지 58 bp에 의해 산재되어 있다(WO2007/025097, 2007년 3월 1일 공개됨). 박테리아 및 고세균은 외래 핵산의 분해를 유도하기 위해 짧은 RNA를 이용하는 클러스터링된 규칙적으로 산재된 짧은 회문구조 반복(CRISPR)/CRISPR-결합(Cas) 시스템으로 명명된 적응 면역 방어를 진화시켰다((Horvath and Barrangou, Science 327:167-170; Karginov and Hannon, Mol. Cell 37:7-19). WO2007/025097, 2007년 3월 1일 공개됨). 박테리아로부터의 II형 CRISPR/Cas 시스템은 crRNA(CRISPR RNA) 및 tracrRNA(트랜스-활성화 CRISPR RNA)를 이용하여 Cas 엔도뉴클레아제를 그 DNA 표적으로 유도한다. crRNA는 이중 가닥 DNA 표적의 한 가닥에 상보적인 영역 및 Cas 엔도뉴클레아제가 DNA 표적을 절단하도록 유도하는 RNA 듀플렉스를 형성하는 tracrRNA(트랜스-활성화 CRISPR RNA)와 염기쌍을 이루는 영역을 포함한다.

Cas 유전자는 일반적으로 플랭킹 CRISPR 유전자좌에 커플링되거나 결합되거나 가까이 있거나, 또는 그 부근에 있는 유전자를 포함한다. 용어 "Cas 유전자", "CRISPR-결합(Cas) 유전자"는 본원에서 상호 교환적으로 사용된다. Cas 단백질 패밀리의 종합적인 검토는 Haft et al. (2005) Computational Biology, PLoS Comput Biol 1(6): e60. doi:10.1371/journal.pcbi.0010060에 기술되어 있다. 여기에 기술된 바와 같이, 이전에 공지된 4개의 유전자 패밀리 이외에 41개의 CRISPR-결합(Cas) 유전자 패밀리가 기술되어 있다. CRISPR 시스템은 상이한 반복 패턴, 유전자 세트, 및 종 범위를 갖는, 상이한 클래스에 속하는 것으로 나타난다. 주어진 CRISPR 유전자좌에서 Cas 유전자의 수는 종 간에 변할 수 있다.

본원에서 용어 Cas 엔도뉴클레아제는 Cas(CRISPR-결합) 유전자에 의해 암호화되는 단백질을 지칭한다. Cas 엔도뉴클레아제는, 적합한 폴리뉴클레오티드 성분과의 복합체인 경우, 특정 DNA 표적 서열의 전부 또는 일부를 인식하고 거기에 결합하고, 선택적으로 닉킹 또는 절단할 수 있다.

본원에 사용된 용어 "가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체", "가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템", "가이드 폴리뉴클레오티드/Cas 복합체", "가이드 폴리뉴클레오티드/Cas 시스템", "유도 Cas 시스템"은 본원에서 상호 교환적으로 사용되고, 복합체를 형성할 수 있는 적어도 하나의 가이드 폴리뉴클레오티드 및 적어도 하나의 Cas 엔도뉴클레아제를 지칭하며, 상기 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 Cas 엔도뉴클레아제를 DNA 표적 부위로 유도하여 Cas 엔도뉴클레아제가 DNA 표적 부위를 인식하고 거기에 결합하고, 선택적으로 닉킹 또는 절단(단일 또는 이중 가닥 절단을 도입)할 수 있게 할 수 있다. 본원의 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 4개의 알려진 CRISPR 시스템(Horvath and Barrangou, Science 327:167-170), 예컨대, I형, II형 또는 III형 CRISPR 시스템 중 어느 하나의 적합한 폴리뉴클레오티드 성분(들) 및 Cas 단백질(들)을 포함할 수 있다. Cas 엔도뉴클레아제는 표적 서열에서 DNA 듀플렉스를 풀고, Cas 단백질과의 복합체인 폴리뉴클레오티드(예컨대, 이에 한정되는 것은 아니지만, crRNA 또는 가이드 RNA)에 의한 표적 서열의 인식에 의해 매개되는 바와 같이, 적어도 하나의 DNA 가닥을 선택적으로 절단한다. 일반적으로 Cas 엔도뉴클레아제에 의한 이러한 표적 서열의 인식 및 절단은 정확한 프로토스페이서-인접 모티프(PAM)가 DNA 표적 서열의 3' 말단에 위치하거나 인접한 경우 발생한다. 대안적으로, 본원에서 Cas 단백질은 DNA 절단 또는 닉킹 활성이 없을 수 있지만, 적합한 RNA 성분과 복합체를 형성한 경우 여전히 DNA 표적 서열에 특이적으로 결합할 수 있다(둘 다 그 전체가 본원에 참조로 포함되는, 2015년 3월 19일 공개된 미국 특허 출원 US 2015-0082478 A1 및 2015년 2월 26일 공개된 US 2015-0059010 A1을 또한 참조.)

가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 DNA 표적 서열의 한 가닥 또는 두 가닥을 절단할 수 있다. DNA 표적 서열의 두 가닥을 절단할 수 있는 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 일반적으로 이의 엔도뉴클레아제 도메인 모두를 기능적 상태(functional state)로 가지는 Cas 단백질을 포함한다(예를 들어, 야생형 엔도뉴클레아제 도메인 또는 각각의 엔도뉴클레아제 도메인에서 일부 또는 모든 활성을 보유하는 이들의 변이체). 따라서, 야생형 Cas 단백질(예를 들어, 본원에 개시된 Cas9 단백질) 또는 Cas 단백질의 각각의 엔도뉴클레아제 도메인에서 일부 또는 모든 활성을 보유하는 이의 변이체는 DNA 표적 서열의 두 가닥을 절단할 수 있는 Cas 엔도뉴클레아제의 적절한 예이다. 기능적 RuvC 및 HNH 뉴클레아제 도메인을 포함하는 Cas9 단백질은 DNA 표적 서열의 두 가닥을 절단할 수 있는 Cas 단백질의 예이다. DNA 표적 서열의 한 가닥을 절단할 수 있는 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 본원에서 닉카아제 활성(예를 들어, 부분 절단 능력)을 갖는 것으로 특징지어질 수 있다. Cas 닉카아제는 일반적으로, Cas가 DNA 표적 서열 중 한 가닥만 절단하도록 하는(즉, 닉을 형성하도록 하는) 하나의 기능적 엔도뉴클레아제 도메인을 포함한다. 예를 들어, Cas9 닉카아제는 (i) 돌연변이 기능장애 RuvC 도메인 및 (ii) 기능적 HNH 도메인(예를 들어, 야생형 HNH 도메인)을 포함할 수 있다. 다른 예로서, Cas9 닉카아제는 (i) 기능적 RuvC 도메인(예를 들어, 야생형 RuvC 도메인) 및 (ii) 돌연변이 기능장애 HNH 도메인을 포함할 수 있다. 본원에 사용하기에 적합한 Cas9 닉카아제의 비제한적인 예는 본원에 참조로 포함되는 Gasiunas 등(Proc. Natl. Acad. Sci. U.S.A. 109:E2579-E2586), Jinek 등(Science 337:816-821), Sapranauskas 등(Nucleic Acids Res. 39:9275-9282) 및 U.S. 특허 출원 공개 2014/0189896호에 의해 개시되어 있다.

DNA 표적화의 특이성을 증가시키기 위해 한 쌍의 Cas9 닉카아제가 사용될 수 있다. 일반적으로, 이는, 상이한 가이드 서열을 갖는 RNA 성분들과 결합되어 있기 때문에, 원하는 표적화를 위한 영역에서 반대 가닥 상의 가까운 DNA 서열을 표적화하고 닉을 형성하는 2개의 Cas9 닉카아제를 제공함으로써 수행될 수 있다. 각각의 DNA 가닥의 이러한 가까운 절단은 이중 가닥 절단(즉, 단일-가닥 돌출부를 갖는 DSB)을 생성하고, 이는 이어서 비상동 말단 연결, NHEJ(삽입-결실 형성을 유도함) 또는 상동 재조합, HR을 위한 기질로서 인식된다. 이러한 구현예에서 각각의 닉은, 예를 들어, 서로 적어도 약 5, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90 또는 100(또는 5와 100 사이의 임의의 정수)개의 염기만큼 이격될 수 있다. 본원의 하나 또는 두 개의 Cas9 닉카아제 단백질이 Cas9 닉카아제 쌍에서 사용될 수 있다. 예를 들어, 돌연변이 RuvC 도메인을 갖지만 기능적 HNH 도메인을 갖는 Cas9 닉카아제(즉, Cas9 HNH+/RuvC-)(예를 들어, 스트렙토코커스 피오제네스 Cas9 HNH+/RuvC-)가 사용될 수 있다. 각각의 Cas9 닉카아제(예를 들어, Cas9 HNH+/RuvC-)는 각각의 닉카아제를 각각의 특정 DNA 부위로 표적화하는 가이드 RNA 서열을 갖는 본원의 적합한 RNA 성분들을 사용하여, 서로 가까운(100개 이하의 염기쌍만큼 이격된) 특정 DNA 부위로 유도될 것이다.

Cas 단백질은 하나 이상의 이종 단백질 도메인(예를 들어, Cas 단백질 외에도 1개, 2개, 3개 이상의 도메인)을 포함하는 융합 단백질의 일부일 수 있다. 이러한 융합 단백질은 임의의 추가적인 단백질 서열, 및 선택적으로 임의의 두 도메인 사이, 예컨대, Cas와 제1 이종 도메인 사이의 링커 서열을 포함할 수 있다. 본원의 Cas 단백질에 융합될 수 있는 단백질 도메인의 예는 에피토프 태그(예를 들어, 히스티딘 [His], V5, FLAG, 인플루엔자 혈구응집소 [HA], myc, VSV-G, 티오레독신 [Trx]), 리포터(예를 들어, 글루타티온-5-트랜스퍼라아제 [GST], 홀스래디쉬 퍼옥시다아제 [HRP], 클로람페니콜 아세틸트랜스퍼라아제 [CAT], 베타-갈락토시다아제, 베타-글루쿠로니다아제 [GUS], 루시퍼라아제, 녹색 형광 단백질 [GFP], HcRed, DsRed, 청록색 형광 단백질 [CFP], 황색 형광 단백질 [YFP], 청색 형광 단백질 [BFP]) 및 메틸라아제 활성, 탈메틸라아제 활성, 전사 활성화 활성(예를 들어, VP16 또는 VP64), 전사 억제 활성, 전사 방출 인자 활성, 히스톤 변형 활성, RNA 절단 활성 및 핵산 결합 활성 중 하나 이상을 갖는 도메인을 포함하지만 이에 한정되는 것은 아니다. Cas 단백질은 DNA 분자 또는 다른 분자에 결합하는 단백질, 예컨대, 말토스 결합 단백질(MBP), S-태그, Lex A DNA 결합 도메인(DBD), GAL4A DNA 결합 도메인 및 단순 헤르페스 바이러스(HSV) VP16과 융합될 수도 있다.

본원에서 Cas 단백질은 다음 속 중 임의의 것으로부터 유래될 수 있다: 애로피룸(Aeropyrum), 피로바쿨룸(Pyrobaculum), 술폴로부스(Sulfolobus), 아캐오글로부스(Archaeoglobus), 할로아르쿨라(Haloarcula), 메타노박테리움(Methanobacteriumn), 메타노코커스(Methanococcus), 메타노사르시나(Methanosarcina), 메타노피러스(Methanopyrus), 피로코커스(Pyrococcus), 피크로필러스(Picrophilus), 써니오플라스니아(Thernioplasnia), 코리네박테리움(Corynebacterium), 마이코박테리움(Mycobacterium), 스트렙토마이세스(Streptomyces), 아퀴프릭스(Aquifrx), 포르프브로모나스(Porphvromonas), 클로로비움(Chlorobium), 써머스(Thermus), 바실러스(Bacillus), 리스테리아(Listeria), 스타필로코커스(Staphylococcus), 클로스트리디움(Clostridium), 써모안애로박터(Thermoanaerobacter), 마이코플라스마(Mycoplasma), 푸소박테리움(Fusobacterium), 아자쿠스(Azarcus), 크로모박테리움(Chromobacterium), 네이세리아(Neisseria), 니트로소모나스(Nitrosomonas), 디설포비브리오(Desulfovibrio), 지오박터(Geobacter), 미로코커스(Myrococcus), 캄필로박터(Campylobacter), 볼리넬라(Wolinella), 아시네토박터(Acinetobacter), 에르위니아(Erwinia), 에스케리챠(Escherichia), 레지오넬라(Legionella), 메틸로코커스(Methylococcus), 파스퇴렐라(Pasteurella), 포토박테리움(Photobacterium), 살모넬라(Salmonella), 잔토모나스(Xanthomonas), 예시니아(Yersinia), 스트렙토코커스(Streptococcus), 트레포네마(Treponema), 프란시셀라(Francisella) 또는 써모토가(Thermotoga). 대안적으로, 본원의 Cas 단백질은, 예를 들어, 본원에 참조로 포함되는 미국 특허 출원 공개 2010/0093617호에 개시된 바와 같이, SEQ ID NO: 462 내지 465, 467 내지 472, 474 내지 477, 479 내지 487, 489 내지 492, 494 내지 497, 499 내지 503, 505 내지 508, 510 내지 516 또는 517 내지 521 중 임의의 것에 의해 암호화될 수 있다.

특정 구현예에서 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 DNA 표적 부위 서열에 결합할 수 있지만, 표적 부위 서열에서 임의의 가닥을 절단하지 않는다. 이러한 복합체는 모든 뉴클레아제 도메인이 돌연변이 기능장애인 Cas 단백질을 포함할 수 있다. 예를 들어, DNA 표적 부위 서열에 결합할 수 있지만, 표적 부위 서열에서 임의의 가닥을 절단하지 않는 본원의 Cas9 단백질은 돌연변이 기능장애 RuvC 도메인 및 돌연변이 기능장애 HNH 도메인을 모두 포함할 수 있다. 표적 DNA 서열에 결합하지만 절단하지 않는 본원의 Cas 단백질은 유전자 발현을 조절하는 데 사용될 수 있으며, 예를 들어, 이 경우 Cas 단백질은 전사 인자(또는 이의 일부)(예를 들어, 억제 인자 또는 활성 인자, 예컨대, 본원에 개시된 것들 중 임의의 것)와 융합될 수 있다.

Cas 엔도뉴클레아제 유전자는 2007년 3월 1일에 공개되고 본원에 참조로 포함되는 WO2007/025097의 SEQ ID NO: 462, 474, 489, 494, 499, 505, 및 518에 기재된 Cas9 유전자와 같은 II형 Cas9 엔도뉴클레아제를 암호화하는 유전자일 수 있지만, 이에 한정되는 것은 아니다. Cas 엔도뉴클레아제 유전자는 Cas 코돈 영역 상류의 SV40 핵 표적화 신호 및 Cas 코돈 영역 하류의 2부분 VirD2 핵 국재화 신호에 작동 가능하게 연결될 수 있다(Tinland et al. (1992) Proc. Natl. Acad. Sci. USA 89:7442-6). 본원의 "Cas9"(이전에는 Cas5, Csn1 또는 Csx12로 지칭됨)는 DNA 표적 서열의 전부 또는 일부를 특이적으로 인식하고 절단하기 위해, cr뉴클레오티드 및 tracr뉴클레오티드와, 또는 단일 가이드 폴리뉴클레오티드와 복합체를 형성하는 II형 CRISPR 시스템의 Cas 엔도뉴클레아제를 지칭한다. Cas9 단백질은 RuvC 뉴클레아제 도메인 및 HNH(H-N-H) 뉴클레아제 도메인을 포함하며, 이들 각각은 표적 서열에서 단일 DNA 가닥을 절단할 수 있다(두 도메인의 공동 작용은 DNA 이중 가닥 절단을 유도하는 반면, 하나의 도메인의 활성은 닉을 유도함). 일반적으로, RuvC 도메인은 서브도메인 I, II 및 III을 포함하며, 여기서 도메인 I은 Cas9의 N 말단 근처에 위치하고, 서브도메인 II 및 III은 HNH 도메인에 플랭킹한 단백질의 중간에 위치한다(Hsu et al, Cell 157:1262-1278). ). II형 CRISPR 시스템은 적어도 하나의 폴리뉴클레오티드 성분과의 복합체로 Cas9 엔도뉴클레아제를 활용하는 DNA 절단 시스템을 포함한다. 예를 들어, Cas9는 CRISPR RNA(crRNA) 및 트랜스-활성화 CRISPR RNA(tracrRNA)와의 복합체일 수 있다. 다른 예에서, Cas9는 단일 가이드 RNA와의 복합체일 수 있다.

본원에 기술된 Cas9 단백질뿐만 아니라 본원의 기타 특정 Cas 단백질의 아미노산 서열은 예를 들어, 스트렙토코커스(예를 들어, S. 피오제네스(pyogenes), S. 뉴모니아(pneumoniae), S. 써모필러스(thermophilus), S. 아갈락티아(agalactiae), S. 파라상귀니스(parasanguinis), S. 오랄리스(oralis), S. 살리바리우스(salivarius), S. 마카카(macacae), S. 디스갈락티아(dysgalactiae), S. 안지노서스(anginosus), S. 콘스텔라투스(constellatus), S. 슈도포르시누스(pseudoporcinus), S. 뮤탄스(mutans)), 리스테리아(예를 들어, L. 인노쿠아(innocua)), 스피로플라스마(Spiroplasma)(예를 들어, S. 아피스(apis), S. 시르피디콜라(syrphidicola)), 펩토스트렙토코카세아(Peptostreptococcaceae), 아토포비움(Atopobium), 포르피로모나스(Porphyromonas)(예를 들어, P. 카토니아(catoniae)), 프레보텔라(Prevotella)(예를 들어, P. 인테르메디아(intermedia)), 베일로넬라(Veillonella), 트레포네마(Treponema)(예를 들어, T. 소크란스키이(socranskii), T. 덴티콜라(denticola)), 카프노사이토파가(Capnocytophaga), 피네골디아(Finegoldia)(예를 들어, F. 마그나(magna)), 코리오박테리아세아(Coriobacteriaceae)(예를 들어, C. 박테리움(bacterium)), 올스넬라(Olsenella)(예를 들어, O. 프로푸사(profusa)), 헤모필루스(Haemophilus)(예를 들어, H. 스푸토룸(sputorum), H. 피트마니아(pittmaniae)), 파스퇴렐라(Pasteurella)(예를 들어, P. 베티아(bettyae)), 올리비박터(Olivibacter)(예를 들어, O. 시티엔시스(sitiensis)), 에필리토니모나스(Epilithonimonas)(예를 들어, E. 테낙스(tenax)), 메소니아(Mesonia)(예를 들어, M. 모빌리스(mobilis)), 락토바실러스(Lactobacillus), 예를 들어, L. 플란타룸(plantarum)), 바실러스(예를 들어, B. 세레우스(cereus)), 아퀴마리나(Aquimarina)(예를 들어, A. 무엘레리(muelleri)), 크리세오박테리움(Chryseobacterium)(예를 들어, C. 팔루스트레(palustre)), 박테로이데스(Bacteroides)(예를 들어, B. 그라미니솔벤스(graminisolvens)), 네이세리아(예를 들어, N. 메닝기티디스(meningitidis)), 프란시셀라(Francisella)(예를 들어, F. 노비시다(novicida)) 또는 플라보박테리움(Flavobacterium)(예를 들어, F. 프리기다리움(frigidarium), F. 솔리(soli)) 종으로부터 유래될 수 있다. 본원의 특정 양태에서 S. 피오제네스 Cas9가 바람직하다. 다른 예로서, Cas9 단백질은 본원에 참조로 포함되는, Chylinski 등(RNA Biology 10:726-737)에 개시된 임의의 Cas9 단백질일 수 있다.

따라서, 본원의 Cas9 단백질의 서열은, 예를 들어, 참조로 포함되는 진뱅크(GenBank) 등록번호 G3ECR1(S. 써모필러스), WP_026709422, WP_027202655, WP_027318179, WP_027347504, WP_027376815, WP_027414302, WP_027821588, WP_027886314, WP_027963583, WP_028123848, WP_028298935, Q03JI6(S. 써모필러스), EGP66723, EGS38969, EGV05092, EHI65578(S. 슈도포르시누스), EIC75614(S. 오랄리스), EID22027(S. 콘스텔라투스), EIJ69711, EJP22331(S. 오랄리스), EJP26004(S. 안지노서스), EJP30321, EPZ44001(S. 피오제네스), EPZ46028(S. 피오제네스), EQL78043(S. 피오제네스), EQL78548(S. 피오제네스), ERL10511, ERL12345, ERL19088(S. 피오제네스), ESA57807(S. 피오제네스), ESA59254(S. 피오제네스), ESU85303(S. 피오제네스), ETS96804, UC75522, EGR87316(S. 디스갈락티아), EGS33732, EGV01468(S. 오랄리스), EHJ52063(S. 마카카), EID26207(S. 오랄리스), EID33364, EIG27013(S. 파라상귀니스), EJF37476, EJO19166(스트렙토코커스 종 BS35b), EJU16049, EJU32481, YP_006298249, ERF61304, ERK04546, ETJ95568(S. 아갈락티아), TS89875, ETS90967(스트렙토코커스 종 SR4), ETS92439, EUB27844(스트렙토코커스 종 BS21), AFJ08616, EUC82735(스트렙토코커스 종 CM6), EWC92088, EWC94390, EJP25691, YP_008027038, YP_008868573, AGM26527, AHK22391, AHB36273, Q927P4, G3ECR1 또는 Q99ZW2(S. 피오제네스)에 개시된 Cas9 아미노산 서열 중 임의의 것을 포함할 수 있다. 이들 Cas9 단백질 서열 중 임의의 것의 변이체가 사용될 수 있지만, 본원의 RNA 성분과 결합할 경우 DNA에 대한 특이적 결합 활성 및 선택적으로 엔도뉴클레오리틱(endonucleolytic) 활성을 가져야 한다. 이러한 변이체는 기준 Cas9의 아미노산 서열과 적어도 약 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99% 동일한 아미노산 서열을 포함할 수 있다.

대안적으로, 본원의 Cas9 단백질은, 예를 들어, (본원에 참조로 포함된) 미국 출원 공개 2010/0093617호에 개시된 바와 같은 SEQ ID NO: 462(S. 써모필러스), 474(S. 써모필러스), 489(S. 아갈락티아), 494(S. 아갈락티아), 499(S. 뮤탄스), 505(S. 피오제네스) 또는 518(S. 피오제네스) 중 임의의 것에 의해 암호화될 수 있다. 또한, 대안적으로, Cas9 단백질은, 예를 들어, 전술한 아미노산 서열 중 임의의 것과 적어도 약 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99% 동일한 아미노산 서열을 포함할 수 있다. 이러한 변이체 Cas9 단백질은 본원의 RNA 성분과 결합할 경우 DNA에 대한 특이적 결합 활성, 및 선택적으로 절단 또는 닉킹 활성을 가져야 한다.

본원에 사용된 Cas 단백질(예를 들어, Cas9)의 기원은 RNA 성분(들)이 유래된 것과 동일한 종으로부터 유래될 수 있거나, 상이한 종으로부터 유래될 수 있다. 예를 들어, 스트렙토코커스 종(예를 들어, S. 피오제네스 또는 S. 써모필러스)으로부터 유래된 Cas9 단백질을 포함하는 RGEN은 동일한 스트렙토코커스 종으로부터 유래된 서열(예를 들어, crRNA 반복 서열, tracrRNA 서열)을 갖는 적어도 하나의 RNA 성분과 복합체를 형성할 수 있다. 대안적으로, 본원에 사용된 Cas 단백질(예를 들어, Cas9)의 기원은 RNA 성분(들)이 유래된 종과 상이한 종으로부터 유래될 수 있다(Cas 단백질 및 RNA 성분(들)은 서로 이종일 수 있다); 이러한 이종 Cas/RNA 성분 RGEN은 DNA 표적화 활성을 가져야 한다.

특정 표적 DNA 서열에 대한 본원의 Cas 단백질의 결합 활성 및/또는 엔도뉴클레오리틱 활성을 결정하는 것은 본원에 참조로 개시된 미국 특허 8697359호에 개시된 바와 같은, 당해 분야에 공지된 임의의 적합한 분석법에 의해 평가될 수 있다. 예를 들어, 비 통상적인 효모에서 Cas 단백질과 적합한 RNA 성분을 발현한 후, 삽입-결실의 존재에 대해 예측되는 DNA 표적 부위를 조사함으로써 결정이 이루어질 수 있다(이러한 특별한 분석법에서 Cas 단백질은 완전한 엔도뉴클레오리틱 활성[이중 가닥 절단 활성]을 가질 것이다). 예측되는 표적 부위에서 삽입-결실의 존재를 조사하는 것은, 예를 들어, DNA 시퀀싱 방법을 통해 또는 표적 서열의 기능 상실을 분석하여 삽입-결실의 형성을 추정함으로써 수행될 수 있다. 또 다른 예에서, Cas 단백질 활성은, 표적 부위 내, 표적 부위의 또는 그 부근의 서열에 상동인 서열을 포함하는 공여 DNA를 제공한 비 통상적인 효모에서 Cas 단백질과 적합한 RNA 성분을 발현시킴으로써 결정될 수 있다. (공여 서열과 표적 서열 사이의 성공적인 HR에 의해 예측되는 바와 같은) 표적 부위에서의 공여 DNA 서열의 존재는 표적화가 일어났음을 나타낼 것이다.

본원의 Cas 단백질, 예컨대, Cas9는 일반적으로 이종 핵 국재화 서열(NLS)을 또한 포함한다. 본원의 이종 NLS 아미노산 서열은, 예를 들어, 본원의 효모 세포의 핵에서 검출 가능한 양으로 Cas 단백질의 축적을 유도하기에 충분한 강도일 수 있다. NLS는 염기성의, 양으로 하전된 잔기(예를 들어, 라이신 및/또는 아르기닌)의 하나(1부분(monopartite)) 이상(예를 들어, 2부분(bipartite))의 짧은 서열(예를 들어, 2 내지 20개의 잔기)을 포함할 수 있으며, Cas 아미노산 서열 중 어디에도 위치할 수 있지만 단백질 표면 상에 노출되어야 한다. NLS는, 예를 들어, 본원의 Cas 단백질의 N 말단 또는 C 말단에 작동 가능하게 연결될 수 있다. 둘 이상의 NLS 서열이 Cas 단백질에 연결될 수 있는데, 예를 들어, Cas 단백질의 N 말단과 C 말단 모두에 연결될 수 있다. 본원에서 적합한 NLS 서열의 비제한적인 예는 둘 다 본원에 참조로 포함되는 미국 특허 6660830호 및 7309576호(예를 들어, 그 안의 표 1)에 개시된 것들을 포함한다.

Cas 엔도뉴클레아제는 Cas9 폴리펩티드의 변형된 형태를 포함할 수 있다. Cas9 폴리펩티드의 변형된 형태는 Cas9 단백질의 자연 발생적인 뉴클레아제 활성을 감소시키는 아미노산 변화(예를 들어, 결실, 삽입, 또는 치환)를 포함할 수 있다. 예를 들어, 일부 경우, Cas9 단백질의 변형된 형태는 해당 야생형 Cas9 폴리펩티드의 뉴클레아제 활성의 50% 미만, 40% 미만, 30% 미만, 20% 미만, 10% 미만, 5% 미만, 또는 1% 미만을 갖는다(2014년 3월 6일 공개된 미국 특허 출원 US20140068797 A1). 일부 경우, Cas9 폴리펩티드의 변형된 형태는 실질적인 뉴클레아제 활성을 갖지 않으며, 촉매적으로 "불활성화된 Cas9" 또는 "비활성화된 cas9(dCas9)"로 지칭된다. 촉매적으로 불활성화된 Cas9 변이체는 HNH 및 RuvC 뉴클레아제 도메인에 돌연변이를 포함하는 Cas9 변이체를 포함한다. 이러한 촉매적으로 불활성화된 Cas9 변이체는 sgRNA와 상호작용할 수 있고 생체내에서 표적 부위에 결합할 수 있지만, 표적 DNA의 어느 가닥도 절단할 수 없다.

촉매적으로 불활성인 Cas9는 이종 서열에 융합될 수 있다(2014년 3월 6일 공개된 미국 특허 출원 US20140068797 A1). 적합한 융합 상대는 표적 DNA 상에 또는 표적 DNA와 결합된 폴리펩티드(예를 들어, 히스톤 또는 다른 DNA-결합 단백질) 상에 직접 작용하여 전사를 간접적으로 증가시키는 활성을 제공하는 폴리펩티드를 포함하나, 이에 한정되는 것은 아니다. 추가적인 적합한 융합 상대는 메틸트랜스퍼라아제 활성, 탈메틸라아제 활성, 아세틸트랜스퍼라아제 활성, 탈아세틸라아제 활성, 키나아제 활성, 포스파타아제 활성, 유비퀴틴 리가아제 활성, 탈유비퀴틴화 활성, 아데닐화 활성, 탈아데닐화 활성, SUMO화 활성, 탈SUMO화 활성, 리보실화 활성, 탈리보실화 활성, 미리스토일화 활성, 또는 탈미리스토일화 활성을 제공하는 폴리펩티드를 포함하나, 이에 한정되는 것은 아니다. 또한 적합한 융합 상대는 표적 핵산의 증가된 전사를 직접적으로 제공하는 폴리펩티드(예를 들어, 전사 활성 인자 또는 이의 단편, 전사 활성 인자를 모집하는 단백질 또는 이의 단편, 작은 분자/약물 반응성 전사 조절자 등)를 포함하나, 이에 한정되는 것은 아니다. 촉매적으로 불활성인 Cas9는 또한 이중 가닥 절단을 생성하기 위해 FokI 뉴클레아제에 융합될 수 있다(Guilinger et al. Nature biotechnology, volume 32, number 6, June 2014).

임의의 유도 엔도뉴클레아제가 본원에 개시된 방법에서 사용될 수 있다. 이러한 엔도뉴클레아제는 Cas9 및 Cpf1 엔도뉴클레아제를 포함하나, 이에 한정되지 않는다. 특정 PAM 서열(예를 들어 - 2014년 3월 12일 출원된 미국 특허 출원 14/772711 및 Zetsche B et al. 2015. Cell 163, 1013 참조)을 인식하고 특정 위치에서 표적 DNA를 절단할 수 있는 여러 엔도뉴클레아제가 현재까지 기술되어 왔다. 유도 Cas 시스템을 활용하는 본원에 기술된 방법 및 구현예를 기초로, 이제는 임의의 유도 엔도뉴클레아제 시스템을 활용할 수 있도록 이들 방법을 조정할 수 있음은 이해된다.

용어 Cas 엔도뉴클레아제의 "기능적 단편", "기능적으로 동등한 단편" 및 "기능적 동등 단편"은 본원에서 상호 교환적으로 사용되며, 표적 부위를 인식하고 거기에 결합하고, 선택적으로 닉킹 또는 절단(단일 또는 이중 가닥 절단을 도입)하는 능력이 유지되는 본 발명의 Cas 엔도뉴클레아제 서열의 일부 또는 하위서열을 지칭한다.

용어 Cas 엔도뉴클레아제의 "기능적 변이체", "기능적으로 동등한 변이체" 및 "기능적 동등 변이체"는 본원에서 상호 교환적으로 사용되며, 표적 부위를 인식하고 거기에 결합하고, 선택적으로 닉킹 또는 절단(단일 또는 이중 가닥 절단을 도입)하는 능력이 유지되는 본 발명의 Cas 엔도뉴클레아제의 변이체를 지칭한다. 단편 및 변이체는 부위 특이적 돌연변이유발 및 합성 제조와 같은 방법을 통해 얻을 수 있다.

Cas 엔도뉴클레아제 유전자는 N(12-30)NGG 형태의 임의의 게놈 서열을 인식할 수 있는 야로위아 코돈 최적화 스트렙토코커스 피오제네스 Cas9 유전자를 포함하며, 원칙적으로 표적화되거나 브레비바실러스 라테로스포루스(Brevibacillus laterosporus), 락토바실러스 류테리(Lactobacillus reuteri) Mlc3, 락토바실러스 로시애(Lactobacillus rossiae) DSM 15814, 페디오코커스 펜토사세우스(Pediococcus pentosaceus) SL4, 락토바실러스 노덴시스(Lactobacillus nodensis) JCM 14932, 설푸로스피릴룸 종(Sulfurospirillum sp.) SCADC, 비피도박테리움 써모필룸(Bifidobacterium thermophilum) DSM 20210, 록타넬라 베스트폴덴시스(Loktanella vestfoldensis), 스핑고모나스 상샤니게넨스(Sphingomonas sanxanigenens) NX02, 에필리토니모나스 테낙스(Epilithonimonas tenax) DSM 16811, 스포로사이토파가 믹소코코이데스(Sporocytophaga myxococcoides) 및 사이크로플렉수스 토퀴스(Psychroflexus torquis) ATCC 700755로 이루어지는 군으로부터 선택된 생물에서 유래되는 Cas9 엔도뉴클레아제일 수 있고, 상기 Cas9 엔도뉴클레아제는 DNA 표적 서열의 전부 또는 일부를 인식하고, 거기에 결합하고, 선택적으로 닉킹 또는 절단할 수 있는 가이드 RNA/Cas 엔도뉴클레아제 복합체를 형성할 수 있다(US 특허 가출원 BB2475

Cas 엔도뉴클레아제는 당해 분야에 알려진 임의의 방법, 예를 들어 일시적 도입 방법, 형질감염 및/또는 국소 적용 또는 간접적으로 재조합 작제물을 통해 세포에 제공될 수 있지만, 이에 한정되는 것은 아니다.

엔도뉴클레아제는 폴리뉴클레오티드 사슬 내 포스포디에스테르 결합을 절단하는 효소로서, 염기를 손상시키지 않고 특정 부위에서 DNA를 절단하는 제한 엔도뉴클레아제를 포함한다. 제한 엔도뉴클레아제는 I형, II형, III형, 및 IV형 엔도뉴클레아제를 포함하고, 이들은 하위유형을 더 포함한다. I형 및 III형 시스템에서는, 메틸라아제 활성과 제한 활성 모두 단일 복합체에 포함된다. 엔도뉴클레아제는 귀소 엔도뉴클레아제(HEase)로도 알려진 메가뉴클레아제도 포함하는데, 이는 제한 엔도뉴클레아제처럼 특정 인식 부위에서 결합하고 이를 절단하지만, 메가뉴클레아제에 대한 인식 부위는 약 18 bp 이상으로 일반적으로 더 길다(2012년 3월 22일 출원된 특허 출원 WO-PCT PCT/US12/30061). 메가뉴클레아제는 보존된 서열 모티프에 기초하여 4개의 계열로 분류되었는데, 그 계열은 LAGLIDADG, GIY-YIG, H-N-H, 및 His-Cys 박스 계열이다. 이들 모티프는 금속 이온의 배위 및 포스포디에스테르 결합의 가수분해에 참여한다. HEase는 긴 인식 부위, 및 이의 DNA 기질에서 일부 서열 다형성을 관용하는 것으로 유명하다. 메가뉴클레아제에 대한 명명 규칙은 다른 제한 엔도뉴클레아제에 대한 규칙과 유사하다. 메가뉴클레아제는 또한, 독립형 ORF, 인트론, 및 인테인에 의해 각각 암호화되는 효소에 대한 접두사 F-, I-, 또는 PI-로 특징지어진다. 재조합 프로세스에서 하나의 단계는 인식 부위 또는 그 근처에서의 폴리뉴클레오티드 절단을 포함한다. 이 절단 활성은 이중 가닥 절단을 생성하는 데 이용될 수 있다. 부위 특이적 재조합효소 및 그 인식 부위에 대한 검토를 위해서는 Sauer (1994) Curr Op Biotechnol 5:521-7; 및 Sadowski (1993) FASEB 7:760-7을 참조한다. 일부 예에서, 재조합효소는 인테그라아제 또는 레솔바아제 계열에 속한다.

TAL 이펙터 뉴클레아제는 비 통상적인 효모 또는 다른 생물의 게놈의 특정 표적 서열에서 이중 가닥 절단을 생성하기 위해 사용될 수 있는 새로운 클래스의 서열-특이적 뉴클레아제이다(Miller et al. (2011) Nature Biotechnology 29:143-148). 징크 핑거 뉴클레아제(ZFN)는 징크 핑거 DNA 결합 도메인 및 이중 가닥 절단 유도제 도메인으로 구성된 조작된 이중 가닥 절단 유도제이다. 인식 부위 특이성은 징크 핑거 도메인에 의해 부여되며, 이는 일반적으로 2, 3, 또는 4개의 징크 핑거를 포함하고, 예를 들어, C2H2 구조를 갖지만, 다른 징크 핑거 구조는 알려져 있고 조작되었다. 징크 핑거 도메인은 선택된 폴리뉴클레오티드 인식 서열에 특이적으로 결합하는 폴리펩티드를 설계하는 데 쉽게 이용될 수 있다. ZFN은 비특이적 엔도뉴클레아제 도메인, 예를 들어, FokI와 같은 II형 엔도뉴클레아제로부터의 뉴클레아제 도메인에 연결된 조작된 DNA-결합 징크 핑거 도메인을 포함한다. 전사 활성 인자 도메인, 전사 억제 인자 도메인, 및 메틸라아제를 포함하여, 추가 기능이 징크 핑거 결합 도메인에 융합될 수 있다. 일부 예에서, 절단 활성을 위해 뉴클레아제 도메인의 이합체화가 요구된다. 각각의 징크 핑거는 표적 DNA에서 3개의 연속 염기쌍을 인식한다. 예를 들어, 뉴클레아제의 이합체화 요건 하에, 3-핑거 도메인은 9개 연속 뉴클레오티드의 서열을 인식하고, 18-뉴클레오티드 인식 서열을 결합시키는 데 두 세트의 징크 핑거 트리플렛이 사용된다.

본원에 사용된 용어 "가이드 폴리뉴클레오티드"는 Cas 엔도뉴클레아제와 복합체를 형성할 수 있고, Cas 엔도뉴클레아제가 DNA 표적 부위를 인식하고 거기에 결합하고, 선택적으로 절단할 수 있게 하는 폴리뉴클레오티드 서열에 관한 것이다. 가이드 폴리뉴클레오티드는 단일 분자 또는 이중 분자일 수 있다. 가이드 폴리뉴클레오티드 서열은 RNA 서열, DNA 서열, 또는 이의 조합(RNA-DNA 조합 서열)일 수 있다. 선택적으로, 가이드 폴리뉴클레오티드는 적어도 하나의 뉴클레오티드, 포스포디에스테르 결합 또는 연결 변형, 예컨대, 고정 핵산(LNA), 5-메틸 dC, 2,6-디아미노퓨린, 2'-플루오로 A, 2'-플루오로 U, 2'-O-메틸 RNA, 포스포로티오에이트 결합, 콜레스테롤 분자에 대한 연결, 폴리에틸렌 글리콜 분자에 대한 연결, 스페이서 18(헥사에틸렌 글리콜 사슬) 분자에 대한 연결, 또는 고리화를 초래하는 5'에서 3'으로의 공유 연결을 포함할 수 있으나, 이에 한정되는 것은 아니다. 단독으로 리보핵산을 포함하는 가이드 폴리뉴클레오티드는 "가이드 RNA" 또는 "gRNA"라고도 지칭된다(둘 다 그 전체가 본원에 참조로 포함되는, 2015년 3월 19일 공개된 미국 특허 출원 US 2015-0082478 A1 및 2015년 2월 26일 공개된 US 2015-0059010 A1을 또한 참조).

가이드 폴리뉴클레오티드는 cr뉴클레오티드 서열 및 tracr뉴클레오티드 서열을 포함하는 이중 분자(듀플렉스 가이드 폴리뉴클레오티드라고도 함)일 수 있다. cr뉴클레오티드는 표적 DNA의 뉴클레오티드 서열에 혼성화될 수 있는 제1 뉴클레오티드 서열 도메인(가변 표적화 도메인 또는 VT 도메인이라고 함) 및 Cas 엔도뉴클레아제 인식(CER) 도메인의 일부인 제2 뉴클레오티드 서열(tracr 메이트 서열이라고도 함)을 포함한다. tracr 메이트 서열은 상보성 영역을 따라 tracr뉴클레오티드에 혼성화될 수 있고, 함께 Cas 엔도뉴클레아제 인식 도메인 또는 CER 도메인을 형성할 수 있다. CER 도메인은 Cas 엔도뉴클레아제 폴리펩티드와 상호작용할 수 있다. 듀플렉스 가이드 폴리뉴클레오티드의 cr뉴클레오티드 및 tracr뉴클레오티드는 RNA, DNA, 및/또는 RNA-DNA-조합 서열일 수 있다. 일부 구현예에서, 듀플렉스 가이드 폴리뉴클레오티드의 cr뉴클레오티드 분자는 "crDNA"(연속된 DNA 뉴클레오티드들로 구성되는 경우) 또는 "crRNA"(연속된 RNA 뉴클레오티드들로 구성되는 경우) 또는 "crDNA-RNA"(DNA와 RNA 뉴클레오티드의 조합으로 구성되는 경우)로 지칭된다. cr뉴클레오티드는 박테리아 및 고세균에서 자연적으로 발생하는 cRNA의 단편을 포함할 수 있다. 박테리아 및 고세균에서 자연적으로 발생하고 본원에 개시된 cr뉴클레오티드에 존재할 수 있는 cRNA의 단편의 크기는 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20개 이상의 뉴클레오티드 범위를 가질 수 있지만, 이들 범위에 제한되는 것은 아니다. 일부 구현예에서, tracr뉴클레오티드는 "tracrRNA"(연속된 RNA 뉴클레오티드들로 구성되는 경우) 또는 "tracrDNA"(연속된 DNA 뉴클레오티드들로 구성되는 경우) 또는 "tracrDNA-RNA"(DNA와 RNA 뉴클레오티드의 조합으로 구성되는 경우로 지칭된다. 하나의 구현예에서, RNA/Cas9 엔도뉴클레아제 복합체를 유도하는 RNA는 듀플렉스 crRNA-tracrRNA를 포함하는 듀플렉스 RNA이다.

tracrRNA(트랜스-활성화 CRISPR RNA)는 5'에서 3' 방향으로 (i) CRISPR II형 crRNA의 반복 영역과 어닐링하는 서열 및 (ii) 스템 루프 수용부를 포함한다(Deltcheva et al., Nature 471:602-607). 듀플렉스 가이드 폴리뉴클레오티드는 Cas 엔도뉴클레아제와 복합체를 형성할 수 있으며, 상기 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체(가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템이라고도 함)는 Cas 엔도뉴클레아제를 게놈 표적 부위로 유도하여 Cas 엔도뉴클레아제가 표적 부위를 인식하고 거기에 결합하고, 선택적으로 닉킹 또는 절단(단일 또는 이중 가닥 절단을 도입)할 수 있게 할 수 있다(둘 다 그 전체가 본원에 참조로 포함되는, 2015년 3월 19일 공개된 미국 특허 출원 US 2015-0082478 A1 및 2015년 2월 26일 공개된 US 2015-0059010 A1을 또한 참조.)

가이드 폴리뉴클레오티드는 tracr뉴클레오티드 서열에 연결된 cr뉴클레오티드 서열을 포함하는 단일 분자(단일 가이드 폴리뉴클레오티드라고도 함)일 수도 있다. 단일 가이드 폴리뉴클레오티드는 표적 DNA의 뉴클레오티드 서열에 혼성화될 수 있는 제1 뉴클레오티드 서열 도메인(가변 표적화 도메인 또는 VT 도메인이라고 함) 및 Cas 엔도뉴클레아제 폴리펩티드와 상호작용하는 Cas 엔도뉴클레아제 인식 도메인(CER 도메인)을 포함한다. "도메인"은 RNA, DNA, 및/또는 RNA-DNA-조합 서열일 수 있는 뉴클레오티드들이 연속되어 있는 것을 의미한다. 단일 가이드 폴리뉴클레오티드의 VT 도메인 및/또는 CER 도메인은 RNA 서열, DNA 서열, 또는 RNA-DNA-조합 서열을 포함할 수 있다. cr뉴클레오티드 및 tracr뉴클레오티드로부터의 서열들로 구성되는 단일 가이드 폴리뉴클레오티드는 "단일 가이드 RNA"(연속된 RNA 뉴클레오티드들로 구성되는 경우) 또는 "단일 가이드 DNA"(연속된 DNA 뉴클레오티드들로 구성되는 경우) 또는 "단일 가이드 RNA-DNA"(RNA와 DNA 뉴클레오티드의 조합으로 구성되는 경우)로 지칭될 수 있다. 단일 가이드 폴리뉴클레오티드는 Cas 엔도뉴클레아제와 복합체를 형성할 수 있으며, 상기 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체(가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템이라고도 함)는 Cas 엔도뉴클레아제를 게놈 표적 부위로 유도하여 Cas 엔도뉴클레아제가 표적 부위를 인식하고 거기에 결합하고, 선택적으로 닉킹 또는 절단(단일 또는 이중 가닥 절단을 도입)할 수 있게 할 수 있다(둘 다 그 전체가 본원에 참조로 포함되는, 2015년 3월 19일 공개된 미국 특허 출원 US 2015-0082478 A1 및 2015년 2월 26일 공개된 US 2015-0059010 A1을 또한 참조.)

용어 "가변 표적화 도메인" 또는 "VT 도메인"은 본원에서 상호 교환적으로 사용되며, 이중 가닥 DNA 표적 부위의 한 가닥(뉴클레오티드 서열)에 혼성화될 수 있는(상보적인) 뉴클레오티드 서열을 포함한다. 제1 뉴클레오티드 서열 도메인(VT 도메인)과 표적 서열 사이의 상보성 백분율은 적어도 50%, 51%, 52%, 53%, 54%, 55%, 56%, 57%, 58%, 59%, 60%, 61%, 62%, 63%, 63%, 65%, 66%, 67%, 68%, 69%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%일 수 있다. 가변 표적화 도메인은 적어도 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개 또는 30개 뉴클레오티드의 길이일 수 있다. 일부 구현예에서, 이러한 가변 표적화 도메인은 연속된 12개 내지 30개의 뉴클레오티드를 포함한다. 가변 표적화 도메인은 DNA 서열, RNA 서열, 변형된 DNA 서열, 변형된 RNA 서열, 또는 이들의 임의의 조합으로 구성될 수 있다.

용어 (가이드 폴리뉴클레오티드의) "Cas 엔도뉴클레아제 인식 도메인" 또는 "CER 도메인"은 본원에서 상호 교환적으로 사용되며, Cas 엔도뉴클레아제 폴리펩티드와 상호작용하는 뉴클레오티드 서열을 포함한다. CER 도메인은 tracr뉴클레오티드 메이트 서열 다음에 tracr뉴클레오티드 서열을 포함한다. CER 도메인은 DNA 서열, RNA 서열, 변형된 DNA 서열, 변형된 RNA 서열(예를 들어, 그 전체가 본원에 참조로 포함되는, 2015년 2월 26일 공개된 US 2015-0059010 A1 참조), 또는 이의 임의의 조합으로 구성될 수 있다.

단일 가이드 폴리뉴클레오티드의 cr뉴클레오티드 및 tracr뉴클레오티드를 연결하는 뉴클레오티드 서열은 RNA 서열, DNA 서열, 또는 RNA-DNA 조합 서열을 포함할 수 있다. 하나의 구현예에서, 단일 가이드 폴리뉴클레오티드의 cr뉴클레오티드 및 tracr뉴클레오티드를 연결하는 뉴클레오티드 서열은 적어도 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99 또는 100개 뉴클레오티드의 길이일 수 있다. 다른 구현예에서, 단일 가이드 폴리뉴클레오티드의 cr뉴클레오티드 및 tracr뉴클레오티드를 연결하는 뉴클레오티드 서열은 테트라루프 서열, 예컨대, GAAA 테트라루프 서열을 포함할 수 있지만, 이에 한정되는 것은 아니다.

가이드 폴리뉴클레오티드, VT 도메인 및/또는 CER 도메인의 뉴클레오티드 서열 변형은 5' 캡, 3' 폴리아데닐화 테일, 리보스위치 서열, 안정성 제어 서열, dsRNA 듀플렉스를 형성하는 서열, 가이드 폴리뉴클레오티드를 세포내 위치에 표적화하는 변형 또는 서열, 추적을 제공하는 변형 또는 서열, 단백질을 위한 결합 부위를 제공하는 변형 또는 서열, 고정 핵산(LNA), 5-메틸 dC 뉴클레오티드, 2,6-디아미노퓨린 뉴클레오티드, 2'-플루오로 A 뉴클레오티드, 2'-플루오로 U 뉴클레오티드; 2'-O-메틸 RNA 뉴클레오티드, 포스포로티오에이트 결합, 콜레스테롤 분자에 대한 연결, 폴리에틸렌 글리콜 분자에 대한 연결, 스페이서 18 분자에 대한 연결, 5'에서 3'으로의 공유 연결, 또는 이들의 임의의 조합으로 이루어진 군으로부터 선택될 수 있지만, 이에 한정되는 것은 아니다. 이러한 변형은 적어도 하나의 추가적인 유익한 특징을 초래할 수 있고, 여기서 추가적인 유익한 특징은 변형 또는 조절된 안정성, 세포내 표적화, 추적, 형광 표지, 단백질 또는 단백질 복합체에 대한 결합 부위, 상보적인 표적 서열에 대한 변형된 결합 친화도, 세포 분해에 대한 변형된 저항성, 및 증가된 세포 투과성의 군으로부터 선택된다.

용어 가이드 RNA, crRNA 또는 tracrRNA의 "기능적 단편", "기능적으로 동등한 단편" 및 "기능적 동등 단편"은 본원에서 상호 교환적으로 사용되며, 각각 가이드 RNA, crRNA 또는 tracrRNA로서 기능하는 능력이 유지되는 본 발명의 가이드 RNA, crRNA 또는 tracrRNA 각각의 일부 또는 하위서열을 지칭한다.

용어 가이드 RNA, crRNA 또는 tracrRNA(각각)의 "기능적 변이체", "기능적으로 동등한 변이체" 및 "기능적 동등 변이체"는 본원에서 상호 교환적으로 사용되며, 각각 가이드 RNA, crRNA 또는 tracrRNA로서 기능하는 능력이 유지되는 본 발명의 가이드 RNA, crRNA 또는 tracrRNA 각각의 변이체를 지칭한다.

용어 "단일 가이드 RNA" 및 "sgRNA"는 본원에서 상호 교환적으로 사용되며, tracrRNA(트랜스-활성화 CRISPR RNA)에 융합된, (tracrRNA에 혼성화하는 tracr 메이트 서열에 연결된) 가변 표적화 도메인을 포함하는 crRNA(CRISPR RNA)인, 2개의 RNA 분자의 합성 융합에 관한 것이다. 단일 가이드 RNA는 II형 Cas 엔도뉴클레아제와 복합체를 형성할 수 있는 II형 CRISPR/Cas 시스템의 crRNA 또는 crRNA 단편 및 tracrRNA 또는 tracrRNA 단편을 포함할 수 있고, 상기 가이드 RNA/Cas 엔도뉴클레아제 복합체는 Cas 엔도뉴클레아제를 DNA 표적 부위로 유도하여 Cas 엔도뉴클레아제가 DNA 표적 부위를 인식하고 거기에 결합하고, 선택적으로 닉킹 또는 절단(단일 또는 이중 가닥 절단을 도입)할 수 있게 할 수 있다.

용어 "가이드 RNA/Cas 엔도뉴클레아제 복합체", "가이드 RNA/Cas 엔도뉴클레아제 시스템", "가이드 RNA/Cas 복합체", "가이드 RNA/Cas 시스템", "gRNA/Cas 복합체", "gRNA/Cas 시스템", "RNA-유도 엔도뉴클레아제", "RGEN"은 본원에서 상호 교환적으로 사용되고, 복합체를 형성할 수 있는 적어도 하나의 RNA 성분 및 적어도 하나의 Cas 엔도뉴클레아제를 지칭하며, 상기 가이드 RNA/Cas 엔도뉴클레아제 복합체는 Cas 엔도뉴클레아제를 DNA 표적 부위로 유도하여 Cas 엔도뉴클레아제가 DNA 표적 부위를 인식하고 거기에 결합하고, 선택적으로 닉킹 또는 절단(단일 또는 이중 가닥 절단을 도입)할 수 있게 할 수 있다. RGEN의 RNA 성분은 DNA 표적 서열의 가닥에 상보적인 리보뉴클레오티드 서열을 포함한다. 상기 상보적인 RNA 서열은 또한 본원에서 "가변 표적화 도메인" 서열로 지칭된다. 본원의 가이드 RNA/Cas 엔도뉴클레아제 복합체는 4개의 알려진 CRISPR 시스템(Horvath and Barrangou, Science 327:167-170), 예컨대, I형, II형 또는 III형 CRISPR 시스템 중 어느 하나의 적합한 RNA 성분(들) 및 Cas 단백질(들)을 포함할 수 있다. 가이드 RNA/Cas 엔도뉴클레아제 복합체는 II형 Cas9 엔도뉴클레아제 및 적어도 하나의 RNA 성분(예컨대, crRNA 및 tracrRNA, 또는 gRNA)을 포함할 수 있다(둘 다 그 전체가 본원에 참조로 포함되는, 2015년 3월 19일 공개된 미국 특허 출원 US 2015-0082478 A1 및 2015년 2월 26일 공개된 US 2015-0059010 A1을 또한 참조.)

가이드 폴리뉴클레오티드는 당해 분야에 알려진 임의의 방법, 예컨대, 이에 한정되는 것은 아니지만, 유전자총, 아그로박테리움 형질전환 또는 국소 처리법을 이용하여 단일 가닥 폴리뉴클레오티드 또는 이중 가닥 폴리뉴클레오티드로서 세포에 일시적으로 도입될 수 있다. 가이드 폴리뉴클레오티드는 세포에서 가이드 RNA를 전사시킬 수 있는 특정 프로모터에 작동 가능하게 연결된, 가이드 폴리뉴클레오티드를 암호화하는 이종 핵산 단편을 포함하는 재조합 DNA 분자를 (이에 한정되는 것은 아니지만, 유전자총 또는 아그로박테리움 형질전환과 같은 방법을 통해) 도입함으로써 상기 세포에 간접적으로 도입될 수도 있다. 특정 프로모터는 정확히 정의된, 비변형 5'- 및 3'-말단을 갖는 RNA의 전사를 허용하는 RNA 폴리머라제 III 프로모터일 수 있지만, 이에 한정되는 것은 아니다(DiCarlo et al., Nucleic Acids Res. 41: 4336-4343; Ma et al., Mol. Ther. Nucleic Acids 3:e161).

용어 "표적 부위", "표적 서열", "표적 부위 서열", "표적 DNA", "표적 유전자좌", "게놈 표적 부위", "게놈 표적 서열", "게놈 표적 유전자좌" 및 "프로토스페이서"는 본원에서 상호 교환적으로 사용되며, 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체가 인식하고 거기에 결합하고 선택적으로 닉킹 또는 절단할 수 있는 폴리뉴클레오티드 서열, 예컨대, 이에 한정되는 것은 아니지만, 세포 게놈 내 염색체, 에피솜, 또는 임의의 다른 DNA 분자(염색체 DNA, 엽록체 DNA, 미토콘드리아 DNA, 플라스미드 DNA를 포함) 상의 뉴클레오티드 서열을 지칭한다. 표적 부위는 세포 게놈 내의 내인성 부위일 수 있거나, 또는 대안적으로, 표적 부위가 세포에 이종이어서 세포의 게놈에서 자연 발생하지 않을 수 있거나, 또는 자연에서 일어나는 경우에 비해 이종 게놈 위치에서 표적 부위가 발견될 수 있다. 본원에 사용된 용어 "내인성 표적 서열" 및 "고유 표적 서열"은 본원에서 상호 교환적으로 사용되어 세포의 게놈에 내인성이거나 고유한 표적 서열로서, 세포 게놈 내 표적 서열의 내인성 또는 고유 위치에 있는 표적 서열을 지칭한다. 세포는 인간, 비인간, 동물, 박테리아, 고세균, 진균, 곤충, 효모, 비 통상적인 효모, 식물 세포, 식물, 종자뿐만 아니라 본원에 기술된 방법에 의해 생성된 미생물을 포함하나, 이에 한정되는 것은 아니다. "인공 표적 부위" 또는 "인공 표적 서열"은 본원에서 상호 교환적으로 사용되며, 세포 게놈에 도입된 표적 서열을 지칭한다. 이러한 인공 표적 서열은 세포 게놈 내의 내인성 또는 고유 표적 서열과 동일한 서열일 수 있지만, 세포 게놈에서 상이한 위치(즉, 비내인성 또는 비고유한 위치)에 위치할 수 있다.

"변경된 표적 부위", "변경된 표적 서열", "변형된 표적 부위", "변형된 표적 서열"은 본원에서 상호 교환적으로 사용되며, 변경되지 않은 표적 서열에 비해 적어도 하나의 변경을 포함하는 본원에 개시된 바와 같은 표적 서열을 지칭한다. 이러한 "변경"은, 예를 들어, (i) 적어도 하나의 뉴클레오티드의 치환, (ii) 적어도 하나의 뉴클레오티드의 결실, (iii) 적어도 하나의 뉴클레오티드의 삽입, 또는 (iv) (i) 내지 (iii)의 임의의 조합을 포함한다.

표적 DNA 서열(표적 부위)의 길이는 변할 수 있으며, 예를 들어, 길이가 적어도 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30개 이상 뉴클레오티드인 표적 부위를 포함한다. 표적 부위는 회문구조(palindromic)일 수도 있다, 즉, 한 가닥 상에 있는 서열은 상보적 가닥에서 반대 방향으로 동일하게 해독된다. 닉/절단 부위는 표적 서열 내에 존재할 수 있거나, 닉/절단 부위는 표적 서열 외부에 존재할 수 있다. 다른 변형예에서, 절단은 서로 바로 마주 보는 뉴클레오티드 위치에서 발생하여 블런트 엔드 컷을 생성할 수 있거나, 또는 다른 경우, 절개가 틀어져 5' 돌출부 또는 3' 돌출부일 수 있는, "접착성 말단"(sticky ends)이라고도 불리는, 단일 가닥 돌출부를 생성할 수 있다. 게놈 표적 부위의 활성 변이체가 사용될 수도 있다. 이러한 활성 변이체는 주어진 표적 부위와 적어도 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 이상의 서열 동일성을 포함할 수 있고, 활성 변이체는 생물학적 활성을 보유함으로써 Cas 엔도뉴클레아제에 의해 인식되고 절단될 수 있다. 엔도뉴클레아제에 의한 표적 부위의 단일 또는 이중 가닥 절단을 측정하기 위한 분석법은 당해 분야에 공지되어 있으며, 일반적으로 인식 부위를 포함하는 DNA 기질 상에서 작용제의 전체 활성 및 특이성을 측정한다.

본원에서 "에피솜"은 효모 세포의 염색체와 별도로 효모 세포에 자율적으로 존재할 수 있는 (복제할 수 있고 딸 세포로 전달할 수 있는) DNA 분자를 지칭한다. 에피솜 DNA는 효모 세포에 고유하거나 이종일 수 있다. 본원에서 고유 에피솜의 예는 미토콘드리아 DNA(mtDNA)를 포함한다. 본원에서 이종 에피솜의 예는 플라스미드 및 효모 인공 염색체(YAC)를 포함한다.

본원의 "프로토스페이서 인접 모티프"(PAM)는 본원에 기술된 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템에 의해 인식(표적화)되는 표적 서열(프로토스페이서)에 인접한 짧은 뉴클레오티드 서열을 지칭한다. 표적 DNA 서열 다음에 PAM 서열이 없는 경우 Cas 엔도뉴클레아제는 표적 DNA 서열을 성공적으로 인식하지 않을 수 있다. 본원의 PAM의 서열과 길이는 사용되는 Cas 단백질 또는 Cas 단백질 복합체에 따라 다를 수 있다. PAM 서열은 임의의 길이일 수 있지만, 일반적으로 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 또는 20개 뉴클레오티드의 길이이다.

용어 "5'-캡"과 "7-메틸구아닐레이트(m7G) 캡"은 본원에서 상호 교환적으로 사용된다. 7-메틸구아닐레이트 잔기는 진핵생물에서 메신저 RNA(mRNA)의 5' 말단에 위치한다. RNA 폴리머라제 II(Pol II)가 진핵생물에서 mRNA를 전사한다. 메신저 RNA 캡핑은 일반적으로 다음과 같이 일어난다: mRNA 전사물의 가장 말단 5' 포스페이트기가 RNA 말단 포스파타아제에 의해 제거되어, 2개의 말단 포스페이트를 남긴다. 구아노신 모노포스페이트(GMP)가 구아닐릴 트랜스퍼라아제에 의해 전사물의 말단 포스페이트에 부가되어, 전사물 말단에 5′-5′ 트리포스페이트-연결 구아닌을 남긴다. 마지막으로, 이 말단 구아닌의 7-질소가 메틸 트랜스퍼라아제에 의해 메틸화된다.

본원에 사용된 용어 “5’-캡을 갖지 않는”은, 예를 들어, 5’-캡 대신 5'-하이드록실기를 갖는 RNA를 지칭한다. 이러한 RNA는, 예를 들어 “캡핑되지 않은 RNA”로 지칭될 수 있다. 5'-캡핑된 RNA가 핵 외수송의 대상이기 때문에 캡핑되지 않은 RNA는 전사 후 핵에 더 잘 축적될 수 있다. 본원에서 하나 이상의 RNA 성분은 캡핑되지 않는다.

용어 "리보자임" 및 "리보핵산 효소"는 본원에서 상호 교환적으로 사용된다. 리보자임은 특정 부위에서 RNA를 절단할 수 있는 이차, 삼차, 및/또는 사차 구조(들)를 형성하는 하나 이상의 RNA 서열을 지칭한다. 본원의 리보자임은, 예를 들어, 망치머리(HH) 리보자임, 델타 간염 바이러스(HDV) 리보자임, 그룹 I 인트론 리보자임, RnaseP 리보자임, 또는 헤어핀 리보자임일 수 있다. 리보자임은 리보자임 서열에 대해 시스-부위에서 RNA를 절단할 수 있는(즉, 자가-촉매, 또는 자가-절단) "자가-절단 리보자임"을 포함한다. 리보자임 뉴클레오리틱 활성의 일반적 성질이 기술되었다(예를 들어, Lilley, Biochem. Soc. Trans. 39:641-646). 본원에서 "망치머리 리보자임"(HHR)은 3염기쌍 스템으로 이루어진 소형 촉매 RNA 모티프 및 촉매에 관여되는 고도로 보존된, 비-상보적인 뉴클레오티드 코어를 포함할 수 있다. 본원에 참조로 포함되는 Pley 등(Nature 372:68-74) 및 Hammann 등(RNA 18:871-885)은 망치머리 리보자임 구조 및 활성을 개시한다. 본원의 리보자임의 기타 비제한적인 예는 VS(Varkud satellite) 리보자임, 글루코사민-6-포스페이트 활성화 리보자임(glmS) 및 CPEB3 리보자임을 포함한다. Lilley(Biochem. Soc. Trans. 39:641-646)는 리보자임 구조 및 활성에 관한 정보를 개시한다. 본원에 사용하기에 적합한 리보자임의 예는 본원에 참조로 포함되는 EP0707638 및 미국 특허 6063566호, 5580967호, 5616459호, 및 5688670호에 개시된 리보자임을 포함한다.

본원에서 망치머리 리보자임은, 예를 들어 Scott 등(Cell 81:991-1002, 본원에 참조로 포함됨)에 의해 개시된 바와 같은 "최소 망치머리" 서열을 포함할 수 있다. 망치머리 리보자임은, 예를 들어 본원에 참조로 포함되는 Hammann 등(RNA 18:871-885)에 개시된 바와 같은 I형, II형 또는 III형 망치머리 리보자임일 수 있다. 망치머리 리보자임을 암호화하는 DNA를 동정하기 위한 여러 수단은 Hammann 등에 개시되어 있고, 이에 따라 본원에서 활용될 수 있다. 본원에서 망치머리 리보자임은, 예를 들어 바이러스, 바이로이드, 식물 바이러스 위성 RNA, 원핵생물(예를 들어, 고세균, 시아노박테리아, 애시도박테리아), 또는 진핵생물, 예컨대 식물(예를 들어, 아라비돕시스 탈리아나(Arabidopsis thaliana), 카네이션), 원생생물(예를 들어, 아메바, 유글레노이드), 진균(예를 들어, 아스퍼질러스(Aspergillus), Y. 리폴리티카), 양서류(예를 들어, 소형 도롱뇽, 개구리), 주혈 흡충, 곤충(예를 들어, 귀뚜라미), 연체동물, 포유류(예를 들어, 마우스, 인간), 또는 선충으로부터 유래될 수 있다.

본원에서 망치머리 리보자임은 일반적으로 각각 보존된 서열의 짧은 링커에 의해 구분되는 나선 I, II 및 III으로 지칭되는, 3염기쌍 나선을 포함한다. 3개 유형의 망치머리 리보자임(I~III)은 일반적으로 리보자임의 5' 및 3' 말단이 포함되는 나선에 기초한다. 예를 들어, 망치머리 리보자임 서열의 5’ 및 3’ 말단이 스템 I에 기여하는 경우, 이는 I형 망치머리 리보자임으로 지칭될 수 있다. 3개의 가능한 위상학적 유형 중, I형은 원핵생물, 진핵생물 및 RNA 식물 병원체의 게놈에서 확인될 수 있는 반면, II형 망치머리 리보자임은 원핵생물에서만 기술되었고, III형 망치머리 리보자임은 식물, 식물 병원체 및 원핵생물에서 주로 확인된다. 특정 구현예에서 망치머리 리보자임은 I형 망치머리 리보자임이다.

망치머리 리보자임을 암호화하는 서열은 적어도 약 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140 또는 150개(또는 40 내지 150개 사이의 임의의 정수) 뉴클레오티드, 40~100개 뉴클레오티드, 또는 40~60개 뉴클레오티드를 포함할 수 있다.

본 발명의 하나의 구현예에서, 이 방법은 비 통상적인 효모의 염색체 또는 에피솜에서 표적 부위 서열에 RNA-유도 엔도뉴클레아제(RGEN)를 표적화하는 방법을 포함하며, 상기 방법은 Cas 엔도뉴클레아제를 암호화하는 DNA 서열을 포함하는 제1 재조합 DNA 작제물, 보호 폴리뉴클레오티드 변형 주형, 및 RNA 성분 상류에 리보자임을 암호화하는 DNA 서열을 포함하는 적어도 제2 재조합 DNA 작제물을 상기 효모에 제공하는 단계를 포함하고, 제2 재조합 DNA 작제물로부터 전사된 RNA는 리보자임을 자가-촉매적으로 제거하여 상기 RNA 성분을 산출하고, RNA 성분 및 Cas9 엔도뉴클레아제는 표적 부위 서열의 전부 또는 일부에 결합할 수 있는 RGEN을 형성할 수 있다.

특정 구현예에서, 리보자임 가이드 RNA 카세트를 포함하는 DNA 폴리뉴클레오티드는 가이드 RNA 성분 서열 하류에 적합한 전사 종결 서열을 포함할 수 있다. 본원에서 유용한 전사 종결 서열의 예는 본원에 참조로 포함되는 미국 특허 출원 공개 2014/0186906호에 개시되어 있다. 예를 들어, S. 세레비시아 Sup4 유전자 전사 종결자 서열이 사용될 수 있다. 이러한 구현예는 일반적으로 리보자임-RNA 성분 카세트로부터 하류에 위치하는 리보자임 서열을 포함하지 않는다. 또한, 이러한 구현예는 일반적으로, 종결자 서열의 선택에 따라, RNA 성분 서열의 말단 다음에, 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개, 30개 이상의 잔기를 포함한다. 이러한 추가적인 잔기는 종결자 서열의 선택에 따라, 예를 들어 전부 U 잔기이거나, 적어도 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 또는 99% U 잔기일 수 있다. 대안적으로, 리보자임 서열(예를 들어, 망치머리 또는 HDV 리보자임)은 RNA 성분 서열의(예를 들어, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개 이상 뉴클레오티드의) 3'일 수 있다; 이러한 구현예에서 RNA 성분 서열에는 상류 및 하류 리보자임이 플랭킹한다. 따라서, 3' 리보자임 서열은 그것이 RNA 성분 서열로부터 그 자신을 절단하도록 위치할 수 있고, 이러한 절단은 전사물이 RNA 성분 서열의 말단에서 정확하게, 또는 예를 들어, RNA 성분 서열의 말단 다음에 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개 이상의 잔기가 있도록 전사물을 종료시킬 것이다.

용어 "표적화", "유전자 표적화" 및 "DNA 표적화"는 본원에서 상호 교환적으로 사용된다. 본원의 DNA 표적화는 세포의 염색체 또는 플라스미드에서와 같은 특정 DNA 서열에서의 녹아웃, 편집, 또는 녹인의 특이적 도입일 수 있다. 일반적으로, DNA 표적화는 본원에서 적합한 폴리뉴클레오티드 성분과 결합된 Cas 단백질을 사용하여 세포의 특정 DNA 서열에서 하나 또는 두 가닥을 절단함으로써 수행될 수 있다. 이러한 DNA 절단은, 이중 가닥 절단(DSB)의 경우 표적 부위에서 변형을 초래할 수 있는 NHEJ 또는 HDR 프로세스를 유도할 수 있다.

용어 "녹아웃", "유전자 녹아웃" 및 "유전적 녹아웃"은 본원에서 상호 교환적으로 사용된다. 녹아웃은 Cas 단백질로 표적화함으로써 부분적으로 또는 완전히 작동하지 않게 된 세포의 DNA 서열을 나타내며; 녹아웃 이전의 이러한 DNA 서열은, 예를 들어, 아미노산 서열을 암호화할 수 있었거나 조절 기능(예를 들어, 프로모터)을 가졌을 수 있다. 녹아웃은 삽입-결실(NHEJ를 통한 표적 DNA 서열에서의 뉴클레오티드 염기의 삽입 또는 결실)에 의해, 또는 표적화 부위 또는 그 근처에서 서열의 기능을 감소시키거나 완전히 파괴하는 서열의 특이적 제거에 의해 생성될 수 있다. 삽입-결실은, 예를 들어, 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개 이상의 염기일 수 있다. 특정 구현예에서 삽입-결실은 더욱 커서, 적어도 약 20, 30, 40, 50, 60, 70, 80, 90, 또는 100개 염기일 수 있다. 삽입-결실이 유전자의 오픈 리딩 프레임(ORF) 내에 도입되는 경우, 때때로 삽입-결실은 프레임이동 돌연변이를 생성하여 ORF에 의해 암호화되는 단백질의 야생형 발현을 방해한다.

가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템은 공동으로 전달된 폴리뉴클레오티드 변형 주형과 함께 사용되어 관심 게놈 뉴클레오티드 서열의 편집(변형)을 가능하게 한다(둘 다 그 전체가 본원에 참조로 포함되는, 2015년 3월 19일 공개된 미국 특허 출원 US 2015-0082478 A1 및 2015년 2월 26일 공개된 WO2015/026886 A1을 또한 참조.)

"변형된 뉴클레오티드" 또는 "편집된 뉴클레오티드"는 비변형 뉴클레오티드 서열에 비해 적어도 하나의 변경을 포함하는 관심 뉴클레오티드 서열을 지칭한다. 이러한 "변경"은, 예를 들어, (i) 적어도 하나의 뉴클레오티드의 치환, (ii) 적어도 하나의 뉴클레오티드의 결실, (iii) 적어도 하나의 뉴클레오티드의 삽입, 또는 (iv) (i) 내지 (iii)의 임의의 조합을 포함한다.

용어 "폴리뉴클레오티드 변형 주형"은 편집될 뉴클레오티드 서열에 비해 적어도 하나의 뉴클레오티드 변형을 포함하는 폴리뉴클레오티드를 포함한다. 뉴클레오티드 변형은 적어도 하나의 뉴클레오티드 치환(적어도 하나의 뉴클레오티드의 대체), 하나의 뉴클레오티드 부가(적어도 하나의 뉴클레오티드의 삽입), 적어도 하나의 뉴클레오티드의 결실, 또는 이의 임의의 조합일 수 있다. 선택적으로, 폴리뉴클레오티드 변형 주형은 적어도 하나의 뉴클레오티드 변형에 플랭킹한 상동 뉴클레오티드 서열을 더 포함할 수 있고, 플랭킹한 상동 뉴클레오티드 서열은 편집될 원하는 뉴클레오티드 서열에 충분한 상동성을 제공한다. 그 5' 또는 3' 말단에 보호를 포함하지 않는 폴리뉴클레오티드 변형 주형은 "비보호 폴리뉴클레오티드 변형 주형"으로 지칭된다.

용어 "보호 폴리뉴클레오티드 변형 주형" 또는 "보호 폴리뉴클레오티드 편집 주형"은 본원에서 상호 교환적으로 사용되며, 적어도 하나의 말단(그 5' 말단, 또는 그 3' 말단, 또는 그 5' 및 3' 말단 둘 다)에서 적어도 하나의 변형(보호 또는 보호 분자로 지칭됨)을 갖는 폴리뉴클레오티드 변형 주형 분자를 포함한다. 5' 또는 3'-말단에서의 보호는 증가된 HDR, 감소된 NHEJ, 또는 감소된 부위를 벗어난 통합, 또는 이의 임의의 하나의 조합에 의해 입증되는 바와 같이, 주형을 더욱 안정하게(보호되게) 만드는 폴리뉴클레오티드 변형 주형에 대한 임의의 변형을 포함한다. 보호 분자(변형)는 세포내 엑소뉴클레아제로부터 주형을 보호하여 주형 안정성을 변경하고/하거나 비-상동 말단-연결(NHEJ)을 위한 기질로 작용하는 주형의 능력을 변경할 수 있다. 하나의 대안으로서, 보호 폴리뉴클레오티드 변형 주형은 비보호 폴리뉴클레오티드 공여에 비해 상동 유도 복구 단백질과 더 잘 상호작용할 수도 있고 또는 비-상동 말단-연결 단백질과 더 불량하게 상호작용할 수도 있다. 보호 폴리뉴클레오티드는 단일 가닥 또는 이중 가닥 선형 또는 원형 분자일 수 있다. 선형 DNA 분자의 전형적인 5' 포스페이트기 및 3' 하이드록실기가 원형 분자에서의 다음 5' 또는 3' 염기에 대한 포스포디에스테르 결합으로 치환되므로, 원형 주형도 보호(변형) 말단을 포함한다.

일부 세포에서, 폴리뉴클레오티드 변형 주형은 DNA 손상의 다른 자연 위치 내로 혼입될 수 있다(예를 들어 NHEJ를 통해). NHEJ를 통한 DNA 단편의 혼입은 DNA 말단의 5' 포스페이트 및 3' 하이드록실기가 연결되는 최종 DNA 결찰 단계를 갖는다. 보호 폴리뉴클레오티드 변형 주형에서, 적합한 5' 포스페이트기를 이용할 수 없을 수도 있고 또는 변형에 의해 차단되어 주형의 부위를 벗어난 통합을 방지할 수도 있다.

본원에 사용된 용어 "증가된"은 증가된 양 또는 활성이 비교되는 양 또는 활성의 적어도 약 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11%, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 21%, 22%, 23%, 24%, 25%, 26%, 27%, 28%, 29%, 30%, 31%, 32%, 33%, 34%, 35%, 36%, 37%, 38%, 39%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 100%, 200%, 또는 250% 초과인 양 또는 활성을 지칭할 수 있다. 용어 "증가된", "상승된", "증진된", "보다 많은" 및 "개선된"은 본원에서 상호 교환적으로 사용된다. 용어 "증가된"은 단백질을 암호화하는 폴리뉴클레오티드의 발현을 특징지우는 데 사용될 수 있는데, 예를 들어, "증가된 발현"은 또한 "과발현"을 의미할 수 있다.

보호 폴리뉴클레오티드 변형 주형의 비제한적인 예로는 원형 DNA 폴리뉴클레오티드 변형 주형(이용할 수 있는 이중 가닥 말단 없음), 각 가닥의 5' 말단 상에 3탄소 알칸 스페이서로 이루어진 적어도 하나의 보호 분자를 포함하는 선형 이중 가닥 DNA 폴리뉴클레오티드 변형 주형, 및 각 가닥 상에서 포스포로티오에이트 결합으로 치환된 적어도 1, 2, 3, 4, 또는 5개의 가장 5' 포스포디에스테르 결합으로 이루어진 적어도 하나의 보호 분자를 포함하는 선형 폴리뉴클레오티드 변형 주형을 들 수 있다. 보호 폴리뉴클레오티드 변형 주형의 다른 비제한적 예는 보호 분자, 예컨대 알칸 스페이서, 형광단, NHS 에스테르, 디곡시젠, 콜레스테릴-TEG, C6, C12, 헥시닐, 옥스타디이닐 dUTP, 바이오틴, 디티올, 역위 디데옥시-T 변형 또는 이의 임의의 한 조합을 포함하는 주형을 포함하지만, 이에 한정되는 것은 아니다.

하나의 구현예에서, 본 발명은 그 게놈에 변형 뉴클레오티드 서열을 포함하는 세포를 선택하는 방법을 기술하며, 이 방법은

a) 세포에 가이드 폴리뉴클레오티드, 보호 폴리뉴클레오티드 변형 주형 및 Cas 엔도뉴클레아제를 제공하는 단계로서, 상기 Cas 엔도뉴클레아제 및 가이드 폴리뉴클레오티드는 상기 세포의 게놈 내 표적 부위에서 단일 또는 이중 가닥 절단을 도입할 수 있는 복합체를 형성할 수 있고, 상기 보호 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는 단계; 및 b) 상기 변형 뉴클레오티드 서열을 포함하는 단계 (a)로부터의 세포를 선택하는 단계를 포함한다. 이 방법은 상기 세포에서 상동 유도 복구(HDR) 및 비-상동 말단 연결(NHEJ)의 빈도를 결정하는 단계를 추가로 포함할 수 있다.

본원에 기술된 방법을 이용하여, HDR의 빈도는 비보호(대조군) 폴리뉴클레오티드 변형 주형을 사용한 것을 제외하고 본원에 기술된 방법과 모두 동일한 성분 및 단계를 갖는 대조 방법에서 유도되는 HDR 빈도에 비해 적어도 약 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11%, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 21%, 22%, 23%, 24%, 25%, 26%, 27%, 28%, 29%, 30%, 31%, 32%, 33%, 34%, 35%, 36%, 37%, 38%, 39%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 100%, 200%, 또는 250%만큼 증가될 수 있다.

본원에 기술된 방법을 이용하여, NHEJ의 빈도는 비보호(대조군) 폴리뉴클레오티드 변형 주형을 사용한 것을 제외하고 본원에 기술된 방법과 모두 동일한 성분 및 단계를 갖는 대조 방법에서 유도되는 NHEJ 빈도에 비해 적어도 약 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11%, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 21%, 22%, 23%, 24%, 25%, 26%, 27%, 28%, 29%, 30%, 31%, 32%, 33%, 34%, 35%, 36%, 37%, 38%, 39%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%만큼 감소될 수 있다.

하나의 구현예에서, 본 발명은 세포 게놈 내 뉴클레오티드 서열을 편집하는 방법을 기술하며, 이 방법은 가이드 폴리뉴클레오티드, 보호 폴리뉴클레오티드 변형 주형, 및 적어도 하나의 Cas 엔도뉴클레아제를 세포에 제공하는 단계로서, Cas 엔도뉴클레아제는 상기 세포의 게놈 내 표적 서열에서 단일 또는 이중 가닥 절단을 도입할 수 있고, 상기 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는 단계를 포함한다. 편집될 뉴클레오티드는 Cas 엔도뉴클레아제에 의해 인식되고 절단되는 표적 부위 내에 또는 외부에 위치할 수 있다. 하나의 구현예에서, 적어도 하나의 뉴클레오티드 변형은 Cas 엔도뉴클레아제에 의해 인식되고 절단되는 표적 부위에서의 변형이 아니다. 다른 구현예에서, 편집될 적어도 하나의 뉴클레오티드와 게놈 표적 부위 사이에는 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 30, 40, 50, 100, 200, 300, 400, 500, 600, 700, 900 또는 1000개의 뉴클레오티드가 존재한다.

세포는 인간, 비인간, 동물, 박테리아, 고세균, 진균, 미생물, 곤충, 효모, 및 식물 세포, 식물, 종자뿐만 아니라 본원에 기술된 방법에 의해 생성된 미생물을 포함하나, 이에 한정되는 것은 아니다. 본원의 효모의 예로 통상적인 효모와 비 통상적인 효모를 포함한다. 특정 구현예에서 통상적인 효모는 비 상동 말단 연결(NHEJ)에 의해 매개되는 복구 프로세스보다 상동 재조합(HR) DNA 복구 프로세스를 선호하는 효모이다. 본원에서 통상적인 효모의 예는 사카로마이세스 속의 종들(예를 들어, 출아 효모, 빵 효모, 및/또는 맥주 효모로도 알려져 있는 S. 세레비시아; S. 바야누스(S. bayanus); S. 보울라디이(S. boulardii); S. 불데리(S. bulderi); S. 카리오카누스(S. cariocanus); S. 카리오쿠스(S. cariocus); S. 케발리에리(S. chevalieri); S. 다이레넨시스(S. dairenensis); S. 엘립소이데우스(S. ellipsoideus); S. 유바야누스(S. eubayanus); S. 엑시구우스(S. exiguus); S. 플로렌티누스(S. florentinus); S. 클루이베리(S. kluyveri); S. 마르티니애(S. martiniae); S. 모나센시스(S. monacensis); S. 노르벤시스(S. norbensis); S. 파라독수스(S. paradoxus); S. 파스토리아누스(S. pastorianus); S. 스펜세로룸(S. spencerorum); S. 투리센시스(S. turicensis); S. 유니스포루스(S. unisporus); S. 우바룸(S. uvarum); S. 조나투스(S. zonatus)) 및 스키조사카로마이세스 속의 종들(예를 들어, 분열 효모로도 알려져 있는 S. 폼베(S. pombe); S. 크리오필루스(S. cryophilus); S. 자포니쿠스(S. japonicus); S. 옥토스포루스(S. octosporus))를 포함한다. 식물 세포는 옥수수, 벼, 수수, 호밀, 보리, 밀, 밀렛, 귀리, 사탕수수, 잔디, 또는 스위치그래스, 대두, 카놀라, 알팔파, 해바라기, 목화, 담배, 땅콩, 감자, 담배, 아라비돕시스, 및 잇꽃 세포로 이루어지는 군으로부터 선택된 세포를 포함한다.

본원의 비 통상적인 효모는 사카로마이세스(예컨대, S. 세레비시아) 또는 스키조사카로마이세스(예컨대, S. 폼베) 종과 같은 통상적인 효모가 아니다. 특정 구현예에서 비 통상적인 효모는 HR에 의해 매개되는 복구 프로세스보다 NHEJ DNA 복구 프로세스를 선호하는 효모일 수 있다. 통상적인 효모, 예컨대 S. 세레비시아 및 S. 폼베는 일반적으로 짧은 플랭킹 상동성 암(30~50 bp)을 갖는 공여 DNA와 보통 70%를 초과하는 효율로 특이적 통합을 나타내는 반면, 비 통상적인 효모, 예컨대 피키아 파스토리스(Pichia pastoris), 피키아 스티피티스(Pichia stipitis), 한세눌라 폴리모르파(Hansenula polymorpha), 야로위아 리폴리티카 및 클루이베로마이세스 락티스(Kluyveromyces lactis)는 보통 유사한 구조의 공여 DNA와 1% 미만의 효율로 특이적 통합을 나타낸다(Chen et al., PLoS ONE 8:e57952). 따라서, HR 프로세스에 대한 선호도는, 예를 들어, 효모를 적합한 공여 DNA로 형질전환시키고, 공여 DNA에 의해 표적화될 것으로 예측되는 게놈 부위와 특이적으로 재조합되는 정도를 결정함으로써 측정할 수 있다. 예를 들어, 이러한 분석법으로, 효모 게놈에서 높은 정도의 공여 DNA의 무작위적 통합이 산출되는 경우, NHEJ에 대한 선호도(또는 HR에 대한 낮은 선호도)가 명백할 것이다. 효모에서 DNA의 특이적(HR-매개) 및/또는 무작위적(NHEJ-매개) 통합 비율을 결정하기 위한 분석법은 당해 분야에 공지되어 있다(예를 들어, Ferreira and Cooper, Genes Dev. 18:2249-2254; Corrigan et al., PLoS ONE 8:e69628; Weaver et al., Proc. Natl. Acad. Sci. U.S.A. 78:6354-6358; Keeney and Boeke, Genetics 136:849-856).

이의 낮은 수준의 HR 활성을 고려하면, 본원의 비 통상적인 효모는 (i) 예를 들어, 약 1%, 2%, 3%, 4%, 5%, 6%, 7% 또는 8% 미만의 30 내지 50 bp의 플랭킹 상동성 암을 갖는 적합한 공여 DNA에 의한 특이적인 표적화 비율을 나타내고/내거나 (ii) 예를 들어, 약 65%, 66%, 67%, 68%, 69%, 70%, 71%, 72%, 73%, 74% 또는 75%를 초과하는 전술한 공여 DNA의 무작위적 통합 비율을 나타낼 수 있다. 적합한 공여 DNA의 (i) 특이적 표적화 및/또는 (ii) 무작위적 통합의 이러한 비율은 본원에 개시된 바와 같이 RGEN이 제공되기 전에 존재하는 그대로의 비 통상적인 효모를 특징지울 수 있다. 특정 구현예에서, 비 통상적인 효모에 RGEN을 제공하는 목적은 특정 부위에서 효모를 HR 쪽으로 편향시키기 위한 부위 특이적 DNA 단일 가닥 절단(SSB) 또는 이중 가닥 절단(DSB)을 생성하는 것이다. 따라서, 비 통상적인 효모에서 적합한 RGEN을 제공하는 것은 일반적으로 이러한 효모가 특정 공여 DNA와 증가된 HR 비율을 나타낼 수 있게 해야 한다. 이러한 증가된 비율은 적합한 대조군(예를 들어, 동일한 공여 DNA로 형질전환되었지만, 적합한 RGEN이 없는 동일한 비 통상적인 효모)에서의 HR 비율보다 적어도 약 2배, 3배, 4배, 5배, 6배, 7배, 8배, 9배 또는 10배 더 높을 수 있다.

본원에 기술된 방법 및 조성물은 뉴클레오티드 서열을 변형하고/하거나 상동 유도 복구 빈도를 증가시키기 위해 가이드 폴리뉴클레오티드, 보호 폴리뉴클레오티드 변형 주형 및 Cas 엔도뉴클레아제를 이용한다. 보호 폴리뉴클레오티드 주형은 적어도 하나의 이종 유전자 발현 카세트에 의해 구분되는 2개의 상동성 암을 포함할 수 있다. 이 방법은 또한 임의의 변형 주형이 부위를 벗어나 통합된 경우 그 빈도를 감소시키기 위해 이용될 수 있다.

하나의 구현예에서, 본 발명은 그 게놈에 변형 뉴클레오티드 서열을 포함하는 미생물 세포를 선택하는 방법을 기술하며, 이 방법은 a) 세포에 가이드 폴리뉴클레오티드, 적어도 하나의 보호 폴리뉴클레오티드 변형 주형 및 Cas 엔도뉴클레아제를 제공하는 단계로서, 상기 Cas 엔도뉴클레아제 및 가이드 폴리뉴클레오티드는 상기 세포의 게놈 내 표적 부위에서 단일 또는 이중 가닥 절단을 도입할 수 있는 복합체를 형성할 수 있고, 상기 보호 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는 단계; b) 상기 변형 뉴클레오티드 서열을 포함하는 단계 (a)로부터의 세포를 선택하는 단계, 및 c) 상기 세포에서 보호 폴리뉴클레오티드 변형 주형의 부위를 벗어난 통합 빈도를 추가로 결정하는 단계를 포함한다.

상기 세포에서 보호 폴리뉴클레오티드 변형 주형의 부위를 벗어난 통합 빈도는 비보호(대조군) 폴리뉴클레오티드 변형 주형을 사용한 것을 제외하고 본원에 기술된 방법과 모두 동일한 성분을 갖는 대조 방법에서 유도되는 부위를 벗어난 통합 빈도에 비해 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11%, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 21%, 22%, 23%, 24%, 25%, 26%, 27%, 28%, 29%, 30%, 31%, 32%, 33%, 34%, 35%, 36%, 37%, 38%, 39%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95% 또는 100%만큼 감소될 수 있다.

용어 "녹인", "유전자 녹인", "유전적 삽입" 및 "유전적 녹인"은 본원에서 상호 교환적으로 사용된다. 녹인은(적절한 공여 DNA 폴리뉴클레오티드도 사용되는 경우, HR에 의해) Cas 단백질로 표적화함으로써 세포의 특정 DNA 서열에서 DNA 서열을 치환하거나 삽입하는 것을 나타낸다. 녹인의 예는 유전자의 코딩 영역에 이종 아미노산 코딩 서열의 특이적 삽입, 또는 유전자좌에 전사 조절 요소의 특이적 삽입을 들 수 있다.

Cas 엔도뉴클레아제에 대한 표적 부위에 삽입되는 관심 폴리뉴클레오티드를 갖는 세포 또는 생물을 얻기 위해 다양한 방법 및 조성물을 이용할 수 있다. 이러한 방법은 상동 재조합을 이용하여 표적 부위에서 관심 폴리뉴클레오티드의 통합을 제공할 수 있다. 제공되는 하나의 방법에서, 관심 폴리뉴클레오티드는 공여 DNA 작제물로 생물 세포에 제공된다. 본원에 사용된 "공여 DNA" 또는 "공여 폴리뉴클레오티드"는 Cas 엔도뉴클레아제의 표적 부위에 삽입될 관심 폴리뉴클레오티드를 포함하는 DNA 작제물이다. 공여 DNA 작제물은 관심 폴리뉴클레오티드에 플랭킹한 제1 상동 영역 및 제2 상동 영역을 더 포함할 수 있다. 공여 DNA의 제1 상동 영역 및 제2 상동 영역은 세포 또는 생물 게놈의 표적 부위에 존재하거나 거기에 플랭킹한 제1 게놈 영역 및 제2 게놈 영역에 대해 각각 상동성을 공유한다. "상동성"이란 유사한 DNA 서열을 의미한다. 예를 들어, 공여 DNA에서 발견되는 "게놈 영역에 대한 상동 영역"은 세포 또는 생물 게놈의 주어진 "게놈 영역"과 유사한 서열을 갖는 DNA 영역이다. 상동 영역은 절단된 표적 부위에서 상동 재조합을 촉진시키기에 충분한 임의의 길이일 수 있다. 예를 들어, 상동 영역이 해당 게놈 영역과 상동 재조합을 겪기에 충분한 상동성을 갖도록, 상동 영역은 적어도 5~10, 5~15, 5~20, 5~25, 5~30, 5~35, 5~40, 5~45, 5~50, 5~55, 5~60, 5~65, 5~70, 5~75, 5~80, 5~85, 5~90, 5~95, 5~100, 5~200, 5~300, 5~400, 5~500, 5~600, 5~700, 5~800, 5~900, 5~1000, 5~1100, 5~1200, 5~1300, 5~1400, 5~1500, 5~1600, 5~1700, 5~1800, 5~1900, 5~2000, 5~2100, 5~2200, 5~2300, 5~2400, 5~2500, 5~2600, 5~2700, 5~2800, 5~2900, 5~3000, 5~3100개 이상 염기의 길이를 포함할 수 있다. "충분한 상동성"은 2개의 폴리뉴클레오티드 서열이 상동 재조합 반응을 위한 기질로서 작용하기에 충분한 구조적 유사성을 갖는다는 것을 나타낸다. 구조적 유사성은 각 폴리뉴클레오티드 단편의 전체 길이뿐만 아니라 폴리뉴클레오티드의 서열 유사성을 포함한다. 서열 유사성은 서열의 전체 길이에 걸쳐 서열 동일성 백분율 및/또는 100% 서열 동일성을 갖는 인접 뉴클레오티드와 같은 국소화된 유사성을 포함하는 보존된 영역 및 서열 길이의 일부분에 걸쳐 서열 동일성 백분율에 의해 기술될 수 있다.

표적 및 공여 폴리뉴클레오티드가 공유하는 상동성 또는 서열 동일성의 양은 변할 수 있으며, 약 1~20 bp, 20~50 bp, 50~100 bp, 75~150 bp, 100~250 bp, 150~300 bp, 200~400 bp, 250~500 bp, 300~600 bp, 350~750 bp, 400~800 bp, 450~900 bp, 500~1000 bp, 600~1250 bp, 700~1500 bp, 800~1750 bp, 900~2000 bp, 1~2.5 kb, 1.5~3 kb, 2~4 kb, 2.5~5 kb, 3~6 kb, 3.5~7 kb, 4~8 kb, 5~10 kb, 또는 표적 부위의 전체 길이까지를 포함하는 범위의 단위 적분 값을 갖는 총 길이 및/또는 영역을 포함한다. 이 범위에는 범위 내의 모든 정수가 포함되고, 예를 들어, 1~20 bp 범위는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 및 20 bp를 포함한다. 상동성의 양은 2개의 폴리뉴클레오티드의 전체 정렬 길이에 걸친 서열 동일성 백분율에 의해 기술될 수도 있는데, 이는 약 적어도 50%, 55%, 60%, 65%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%의 서열 동일성 백분율을 포함한다. 충분한 상동성은 폴리뉴클레오티드 길이, 전체 서열 동일성 백분율, 및 선택적으로, 연속된 뉴클레오티드의 보존 영역 또는 국소 서열 동일성 백분율의 임의의 조합을 포함하며, 예를 들어, 충분한 상동성은 표적 유전자좌의 영역과 적어도 80% 서열 동일성을 갖는 75~150 bp의 영역으로서 기술될 수 있다. 충분한 상동성은 또한 높은 엄격 조건 하에 특이적으로 혼성화할 것으로 예측되는 두 폴리뉴클레오티드의 능력으로 기술될 수 있다. 예를 들어, Sambrook et al., (1989) Molecular Cloning: A Laboratory Manual, (Cold Spring Harbor Laboratory Press, NY); Current Protocols in Molecular Biology, Ausubel et al., Eds (1994) Current Protocols, (Greene Publishing Associates, Inc. and John Wiley & Sons, Inc.); 및, Tijssen (1993) Laboratory Techniques in Biochemistry and Molecular Biology--Hybridization with Nucleic Acid Probes, (Elsevier, New York)를 참조한다.

공여 DNA 폴리뉴클레오티드는 표적 부위의 서열과 이종인 서열에 의해 분리된 2개의 상동성 서열을 가질 수 있다. 이러한 공여 폴리뉴클레오티드의 이들 2개의 상동성 서열은 이종 서열에 플랭킹한 "상동성 암(arm)"으로 지칭될 수 있다. 2개의 상동성 암을 갖는 공여 폴리뉴클레오티드와 표적 부위 사이의 HR은 일반적으로 표적 부위의 서열을 공여 폴리뉴클레오티드의 이종 서열로 치환한다(공여 폴리뉴클레오티드의 상동성 암에 상동성인 DNA 서열들 사이에 위치한 표적 부위 서열은 공여 폴리뉴클레오티드의 이종 서열에 의해 치환된다). 2개의 상동성 암을 갖는 공여 폴리뉴클레오티드에서, 이러한 암은 1개 이상의 뉴클레오티드에 의해 구분될 수 있다(즉, 공여 폴리뉴클레오티드의 이종 서열은 길이가 적어도 1개의 뉴클레오티드일 수 있다). 본원에서 비 통상적인 효모에서 수행될 수 있는 다양한 HR 절차는, 예를 들어, 본원에 참조로 포함되는 DNA Recombination: Methods and Protocols: 1st Edition (H. Tsubouchi, Ed., Springer-Verlag, New York, 2011)에 개시되어 있다.

본원에 사용된 "게놈 영역"은 표적 부위의 어느 한면에 존재하거나 대안적으로 표적 부위의 일부도 포함하는 세포 게놈 내 염색체의 분절이다. 게놈 영역이 해당 상동 영역과 상동 재조합을 겪기에 충분한 상동성을 갖도록, 게놈 영역은 적어도 5~10, 5~15, 5~20, 5~25, 5~30, 5~35, 5~40, 5~45, 5~50, 5~55, 5~60, 5~65, 5~70, 5~75, 5~80, 5~85, 5~90, 5~95, 5~100, 5~200, 5~300, 5~400, 5~500, 5~600, 5~700, 5~800, 5~900, 5~1000, 5~1100, 5~1200, 5~1300, 5~1400, 5~1500, 5~1600, 5~1700, 5~1800, 5~1900, 5~2000, 5~2100, 5~2200, 5~2300, 5~2400, 5~2500, 5~2600, 5~2700, 5~2800, 5~2900, 5~3000, 5~3100개 이상의 염기를 포함할 수 있다.

관심 폴리뉴클레오티드 및/또는 형질은, 둘 다 본원에 참조로 포함되는 2013년 10월 3일 공개된 US-2013-0263324-A1 및 2013년 1월 24일 공개된 PCT/US13/22891에 기재된 바와 같이, 복합 형질 유전자좌에 함께 쌓일 수 있다. 본원에 기술된 가이드 폴리뉴클레오티드/Cas9 엔도뉴클레아제 시스템은 이중 가닥 절단을 생성하는 데 효율적인 시스템을 제공하고, 복합 형질 유전자좌에 형질이 쌓이도록 할 수 있다.

가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템은 ((본원에 참조로 포함되는, 2014년 8월 20일에 출원된 미국 특허 출원 14/463,687호에 기술된 바와 같이 세포에 하나 이상의 가이드 폴리뉴클레오티드, 하나 이상의 Cas 엔도뉴클레아제, 및 선택적으로 하나 이상의 공여 DNA를 제공하여 하나 이상의 표적 부위 내로 하나 이상의 관심 폴리뉴클레오티드 또는 하나 이상의 관심 형질을 도입하기 위해 사용될 수 있다.

주어진 게놈 영역과 공여 DNA에서 발견되는 해당 상동 영역 사이의 구조적 유사성은 상동 재조합이 일어날 수 있게 하는 임의의 서열 동일성 정도일 수 있다. 예를 들어, 공여 DNA의 "상동 영역"과 생물 게놈의 "게놈 영역"이 공유하는 상동성 또는 서열 동일성의 양은 서열이 상동 재조합을 겪도록 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%의 서열 동일성을 가질 수 있다.

공여 DNA 상의 상동 영역은 표적 부위에 플랭킹한 임의의 서열과 상동성을 가질 수 있다. 일부 구현예에서 상동 영역들은 표적 부위 바로 옆의 게놈 서열과 상당한 서열 상동성을 공유하지만, 상동 영역은 표적 부위에 추가로 5' 또는 3'일 수 있는 영역에 충분한 상동성을 갖도록 설계될 수 있는 것으로 인식된다. 또 다른 구현예에서, 상동 영역은 하류 게놈 영역과 함께 표적 부위의 단편과 상동성을 가질 수도 있다. 하나의 구현예에서, 제1 상동 영역은 표적 부위의 제1 단편을 추가로 포함하고, 제2 상동 영역은 표적 부위의 제2 단편을 포함하며, 제1 단편 및 제 2 단편은 상이하다.

본원에 사용된 "상동 재조합"은 상동 부위에서 2개의 DNA 분자 간의 DNA 단편의 교체를 포함한다. 상동 재조합의 빈도는 여러 인자에 영향을 받는다. 서로 다른 생물은 상동 재조합의 양 및 상동 재조합과 비상동 재조합의 상대 비율이 다르다. 일반적으로, 상동 영역의 길이는 상동 재조합 사건의 빈도에 영향을 미친다: 상동 영역이 길수록 빈도는 더 커진다. 상동 재조합을 관찰하는 데 필요한 상동 영역의 길이도 종에 따라 다르다. 많은 경우에, 적어도 5 kb의 상동성이 이용되었지만, 상동 재조합은 25~50 bp만큼의 적은 상동성으로 관찰되었다. 또한, 예를 들어 Singer et al., (1982) Cell 31:25-33; Shen and Huang, (1986) Genetics 112:441-57; Watt et al., (1985) Proc. Natl. Acad. Sci. USA 82:4768-72, Sugawara and Haber, (1992) Mol Cell Biol 12:563-75, Rubnitz and Subramani, (1984) Mol Cell Biol 4:2253-8; Ayares et al., (1986) Proc. Natl. Acad. Sci. USA 83:5199-203; Liskay et al., (1987) Genetics 115:161-7을 참조한다.

상동성-유도 복구(homology-directed repair, HDR)는 이중 가닥 및 단일 가닥 DNA 절단을 복구하는 세포의 메커니즘이다. 상동성-유도 복구는 상동 재조합(HR) 및 단일-가닥 어닐링(SSA)을 포함한다(Lieber. 2010 Annu. Rev. Biochem . 79:181-211). 가장 일반적인 형태의 HDR은 상동 재조합(HR)이라고 하며, 공여 DNA와 수용 DNA 간의 가장 긴 서열 상동성 요건을 갖는다. 다른 형태의 HDR은 단일 가닥 어닐링(SSA) 및 절단 유도 복제를 포함하며, 이들은 HR에 비해 더 짧은 서열 상동성을 필요로 한다. 닉(단일-가닥 절단)에서의 상동-유도 복구는 이중-가닥 절단에서의 HDR과 다른 메커니즘을 통해 일어날 수 있다(Davis and Maizels. PNAS (0027-8424), 111 (10), p. E924-E932.

예를 들어, 상동 재조합(HR)을 통한 세포 게놈의 변경은 유전자 조작을 위한 강력한 도구이다. 식물에서의 상동 재조합에 대한 파라미터는 도입된 절단된 선택 가능한 마커 유전자를 구조하여 주로 조사되었다. 이 실험들에서, 상동 DNA 단편은 일반적으로 0.3 kb 내지 2 kb였다. 관찰된 상동 재조합 빈도는 10^-4 내지 10^-5 정도였다. 예를 들어, Halfter et al., (1992) Mol Gen Genet 231:186-93; Offringa et al., (1990) EMBO J 9:3077-84; Offringa et al., (1993) Proc. Natl. Acad. Sci. USA 90:7346-50; Paszkowski et al., (1988) EMBO J 7:4021-6; Hourda and Paszkowski, (1994) Mol Gen Genet 243:106-11; 및 Risseeuw et al., (1995) Plant J 7:109-19를 참조한다.

상동 재조합은 곤충에서 입증되었다. 초파리에서, Dray와 Gloor는 합리적인 효율로 DNA의 큰 비상동성 분절을 표적으로 복사하는 데 3 kb만큼의 적은 총 주형:표적 상동성이면 충분하다는 것을 발견하였다(Dray and Gloor, (1997) Genetics 147:689-99). 초파리의 표적 FRT에서 FLP 매개 DNA 통합을 이용하여, Golic 등은 공여체와 표적이 4.1 kb의 상동성을 공유했을 때 통합이 1.1 kb의 상동성에 비해 약 10배 더 효율적이었음을 보였다(Golic et al., (1997) Nucleic Acids Res 25:3665). 초파리로부터의 데이터는 2~4 kb의 상동성이 효율적 표적화를 위해 충분함을 나타내지만, 약 30 bp 내지 약 100 bp 정도의 훨씬 더 작은 상동성이면 충분할 수 있다는 일부 증거가 존재한다(Nassif and Engels, (1993) Proc. Natl. Acad. Sci. USA 90:1262-6; Keeler and Gloor, (1997) Mol Cell Biol 17:627-34).

상동 재조합은 다른 생물에서도 이루어졌다. 예를 들어, 기생 원생동물 리슈마니아에서의 상동 재조합에 적어도 150~200 bp의 상동성이 필요했다(Papadopoulou and Dumas, (1997) Nucleic Acids Res 25:4278-86). 사상균 아스퍼질러스 니둘란스에서, 50 bp만큼의 적은 플랭킹 상동성으로 유전자 치환이 이루어졌다(Chaveroche et al., (2000) Nucleic Acids Res 28:e97). 표적 유전자 치환은 섬모 테트라하이메나 써모필라에서도 입증되었다(Gaertig et al., (1994) Nucleic Acids Res 22:5391-8). 포유류에서, 상동 재조합은 배양물에서 자라고, 형질전환되고, 선택되어 마우스 배아에 도입될 수 있는 다능성 배아 줄기 세포주(ES)를 사용한 마우스에서 가장 성공적이었다. 삽입된 유전자이식 ES 세포를 지닌 배아는 유전적 자손으로 자란다. 선택된 유전자를 보유하는 동형접합 마우스가 형제 교배에 의해 얻어질 수 있다. 이 프로세스의 개요는 Watson et al., (1992) Recombinant DNA, 2nd Ed., (Scientific American Books distributed by WH Freeman & Co.); Capecchi, (1989) Trends Genet 5:70-6; 및 Bronson, (1994) J Biol Chem 269:27155-8에 제공되어 있다. 마우스 이외의 포유류에서 상동 재조합은 난모세포에 이식되거나 배아로 자랄 수 있는 줄기 세포가 부족하여 제한적이었다. 그러나, McCreath 등(Nature 405:1066-9 (2000))은 1차 배아 섬유아세포에서의 형질 전환 및 선택에 의해 양에서 성공적인 상동 재조합을 보고하였다.

오류가 발생하기 쉬운 DNA 복구 메커니즘은 이중 가닥 절단 부위에서 돌연변이를 일으킬 수 있다. 비상동 말단 연결(NHEJ) 경로는 절단 말단을 합치는 가장 일반적인 복구 메커니즘이다(Bleuyard et al., (2006) DNA Repair 5:1-12). 염색체의 구조적 완전성은 복구에 의해 일반적으로 보존되지만, 결실, 삽입, 또는 다른 재배열이 일어날 수 있다. 하나의 이중 가닥 절단의 두 말단이 NHEJ의 가장 우세한 기질이지만(Kirik et al., (2000) EMBO J 19:5562-6), 두 개의 상이한 이중 가닥 절단이 발생하는 경우, 상이한 절단의 자유 말단이 결찰되어 염색체 결실(Siebert and Puchta, (2002) Plant Cell 14:1121-31), 또는 상이한 염색체 간 염색체 전위(Pacher et al., (2007) Genetics 175:21-9)를 초래할 수 있다.

에피솜 DNA 분자가 이중 가닥 절단에 결찰, 예컨대, 염색체 이중 가닥 절단으로 T-DNA가 통합될 수도 있다(Chilton and Que, (2003) Plant Physiol 133:956-65; Salomon and Puchta, (1998) EMBO J 17:6086-95). 예를 들어, 이중 가닥 절단의 성숙과 관련된 엑소뉴클레아제 활성에 의해 이중 가닥 절단 주위의 서열이 일단 변경되면, 비분열 체세포에서의 상동 염색체, 또는 DNA 복제 후 자매 염색분체와 같은 상동 서열이 이용 가능한 경우 유전자 전환 경로는 원래의 구조를 복원할 수 있다(Molinier et al., (2004) Plant Cell 16:342-52). 이소성 및/또는 후성적 DNA 서열이 상동 재조합을 위한 DNA 복구 주형으로서 작용할 수도 있다(Puchta, (1999) Genetics 152:1173-81).

이중 가닥 절단이 DNA에 유도되면, 세포의 DNA 복구 메커니즘이 활성화되어 절단을 복구한다. 오류가 발생하기 쉬운 DNA 복구 메커니즘은 이중 가닥 절단 부위에서 돌연변이를 일으킬 수 있다. 절단된 말단을 하나로 합치는 가장 일반적인 복구 메커니즘은 비상동 말단 연결(NHEJ) 경로이다(Bleuyard et al., (2006) DNA Repair 5:1-12). 염색체의 구조적 완전성은 일반적으로 복구에 의해 보존되지만, 결실, 삽입 또는 다른 재배열이 가능하다(Siebert and Puchta, (2002) Plant Cell 14:1121-31, Pacher et al., (2007) Genetics 175:21-9).

대안적으로, 이중 가닥 절단은 상동 DNA 서열들 간의 상동 재조합에 의해 복구될 수 있다. 예를 들어, 이중 가닥 절단의 성숙과 관련된 엑소뉴클레아제 활성에 의해 이중 가닥 절단 주위의 서열이 일단 변경되면, 비분열 체세포에서의 상동 염색체, 또는 DNA 복제 후 자매 염색분체와 같은 상동 서열이 이용 가능한 경우 유전자 전환 경로는 원래의 구조를 복원할 수 있다(Molinier et al., (2004) Plant Cell 16:342-52). 이소성 및/또는 후성적 DNA 서열이 상동 재조합을 위한 DNA 복구 주형으로서 작용할 수도 있다(Puchta, (1999) Genetics 152:1173-81).

DNA 이중 가닥 절단은 상동 재조합 경로를 활발하게 하는 효과적인 인자일 것으로 보인다(Puchta et al., (1995) Plant Mol Biol 28:281-92; Tzfira and White, (2005) Trends Biotechnol 23:567-9; Puchta, (2005) J Exp Bot 56:1-14). DNA 절단제를 사용하여, 식물의 인공 작제 상동 DNA 반복 서열들 사이에서 상동 재조합의 2배 내지 9배 증가가 관찰되었다(Puchta et al., (1995) Plant Mol Biol 28:281-92). 옥수수 원형질체에서, 선형 DNA 분자를 이용한 실험을 통해 플라스미드들 간의 향상된 상동 재조합이 입증되었다(Lyznik et al., (1991) Mol Gen Genet 230:209-18).

공여 DNA는 당해 분야에 알려진 임의의 수단에 의해 도입될 수 있다. 공여 DNA는, 예를 들어, 아그로박테리움 매개 형질전환 또는 바이올리스틱 유전자총을 포함하여, 당해 분야에 알려진 임의의 형질전환 방법에 의해 제공될 수 있다. 공여 DNA는 세포에 일시적으로 존재할 수 있거나, 바이러스성 레플리콘을 통해 도입될 수 있다.

가이드 RNA/Cas 엔도뉴클레아제 시스템에 대한 추가 용도는 기술되어 있고(본원에 참조로 포함되는 2015년 3월 19일 공개된 미국 특허 출원 US 2015-0082478 A1, 2015년 2월 26일 공개된 WO2015/026886 A1, 2015년 2월 26일 공개된 US 2015-0059010 A1, 2014년 7월 7일 출원된 미국 출원 62/023246, 및 2014년 8월 13일 출원된 미국 출원 62/036,652 참조), 관심 뉴클레오티드 서열(예컨대, 조절 요소)의 변형 또는 치환, 관심 폴리뉴클레오티드의 삽입, 유전자 녹아웃, 유전자 녹인, 스플라이싱 부위의 변형 및/또는 대안적 스플라이싱 부위의 도입, 관심 단백질, 아미노산 및/또는 단백질 융합체를 암호화하는 뉴클레오티드 서열의 변형, 및 관심 유전자 내 역위 반복 서열 발현에 의한 유전자 침묵화를 포함하나, 이에 한정되는 것은 아니다.

본 발명의 하나의 구현예에서, 이 방법은 그 게놈에 변형 뉴클레오티드 서열을 포함하는 세포를 선택하는 방법을 포함하며, 이 방법은 a) 세포에 가이드 폴리뉴클레오티드, 보호 폴리뉴클레오티드 변형 주형 및 Cas 엔도뉴클레아제를 제공하는 단계로서, 상기 Cas 엔도뉴클레아제 및 가이드 폴리뉴클레오티드는 상기 세포의 게놈 내 표적 부위에서 단일 또는 이중 가닥 절단을 도입할 수 있는 복합체를 형성할 수 있고, 상기 보호 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는 단계; 및 b) 상기 변형 뉴클레오티드 서열을 포함하는 단계 (a)로부터의 세포를 선택하는 단계를 포함한다. 보호 폴리뉴클레오티드 변형 주형은 그 5' 말단, 3' 말단, 또는 5' 및 3' 말단 둘 다에 적어도 하나의 보호 분자를 포함하는 선형 폴리뉴클레오티드일 수도 있고, 또는 원형 분자일 수도 있다. 보호 분자는 알칸 스페이서, 형광단, NHS 에스테르, 디곡시젠, 콜레스테릴-TEG, C6, C12, 헥시닐, 옥스타디이닐 dUTP, 바이오틴, 디티올, 역위 디데옥시-T 변형 또는 이의 임의의 한 조합으로 이루어진 군으로부터 선택될 수 있다. 보호 폴리뉴클레오티드 변형 주형은 적어도 한 가닥의 5'-말단에 적어도 하나의 포스포로티오에이트 결합을 포함하는 이중 가닥 선형 분자일 수 있다. 보호 폴리뉴클레오티드 변형 주형은 각 가닥의 5'-말단에 3탄소 알칼리성 스페이서를 포함하는 이중 가닥 선형 분자일 수 있다. 보호 폴리뉴클레오티드 주형의 적어도 하나의 뉴클레오티드 변형은 (i) 적어도 하나의 뉴클레오티드의 치환, (ii) 적어도 하나의 뉴클레오티드의 결실, (iii) 적어도 하나의 뉴클레오티드의 삽입, 및 (iv) (i) 내지 (iii)의 임의의 조합으로 이루어진 군으로부터 선택될 수 있다.

본원에 기술된 방법 및 조성물은 가이드 폴리뉴클레오티드, 보호 폴리뉴클레오티드 변형 주형 및 Cas 엔도뉴클레아제를 이용하며, 게놈 조작(예컨대 관심 폴리뉴클레오티드의 도입, 유전자 편집 또는 대사 경로의 일부인 유전자의 변형을 위해 사용될 수 있다.

본원에 기술된 방법은 대사 경로 조작(대사 조작)을 위해 및/또는 유전적으로 조작된 재조합 미생물 세포를 생성하기 위해 사용될 수 있다. 특정 구현예에서 재조합 미생물 세포는 본원에 기술된 방법을 사용해서 대사 조작을 위해 유전자를 결실시켜 유전적으로 조작된 것일 수 있다. 특정 구현예에서 재조합 미생물 세포는 증가된 양의 총 지질 및/또는 지방산, 예컨대 PUFA를 생성하기 위해 유전적으로 조작된 것일 수 있다. 예를 들어, 지방산 또는 PUFA 생합성 경로, 또는 이의 일부는 특정 경로 효소, 예컨대 지방산 탈포화효소 및 연장효소의 코딩 서열을 삽입하여 생물에 도입될 수 있다. 다음 효소 중 하나 또는 그 조합은 내부에 PUFA 생합성 경로를 제공하기 위해 유성 효모 세포에 유전적으로 도입될 수 있다: 델타-4 탈포화효소, 델타-5 탈포화효소, 델타-6 탈포화효소, 델타-12 탈포화효소, 델타-15 탈포화효소, 델타-17 탈포화효소, 델타-9 탈포화효소, 델타-8 탈포화효소, 델타-9 연장효소, C14/16 연장효소, C16/18 연장효소, C18/20 연장효소, C20/22 연장효소. 하나 이상의 이들 효소는 이종 공급원으로부터 유래될 수 있다. 예시적인 PUFA 생합성 경로는 델타-9 연장효소 및 델타-8 탈포화효소(예를 들어, 본원에 참조로 포함되는 미국 특허 출원 공개 2011-0055973호 참조), 또는 델타-6 탈포화효소 및 델타-6 연장효소를 둘 다 포함할 수 있다. 대안적으로, 재조합 미생물 세포는 지방산 생합성을 조절하는 탈포화효소 또는 연장효소를 암호화하는 것 이외의 유전자를 도입하거나 결실시켜 총 지질 및/또는 PUFA 수준을 증가시키도록 변형될 수 있다.

특정 구현예에서 재조합 미생물 세포는 건조 세포 중량의 중량%로 측정되는 적어도 28% EPA를 포함하는 오일을 생성하고 Sou2 소르비톨 활용 단백질을 암호화하는 내인성 폴리뉴클레오티드 서열, 및 막-결합 O-아실트랜스퍼라아제 모티프에 적어도 하나의 아미노산 돌연변이를 포함하는 활성 LPCAT 효소를 암호화하는 적어도 하나의 폴리뉴클레오티드 서열의 하향-조절을 포함하는 야로위아 세포일 수 있다(본원에 참조로 포함되는, 2013년 12월 18일에 출원된 PCT/US2013/07895).

재조합 미생물 세포는 효모, 곰팡이, 진균, 난균, 박테리아, 조류, 스트라메노파일(stramenopile), 또는 원생생물(예를 들어, 유글레노이드)의 세포일 수 있다. 특정 구현예에서, 재조합 미생물 세포는 유성 미생물 세포, 예컨대 유성 효모 세포이다. 유성 효모의 예는 야로위아, 칸디다, 로도토룰라, 로도스포리디움(Rhodosporidium), 크립토코커스(Cryptococcus), 트리코스포론(Trichosporon) 및 리포마이세스(Lipomyces) 속의 종들을 포함한다. 유성 효모의 보다 구체적인 예는, 예를 들어 로도스포리디움 토룰로이데스(Rhodosporidium toruloides), 리포마이세스 스타케이이(Lipomyces starkeyii), L. 피로페루스(L. lipoferus), 칸디다 레브카우피(Candida revkaufi), C. 풀케리마(C. pulcherrima), C. 트로피칼리스, C. 유틸리스, 트리코스포론 풀란스(Trichosporon pullans), T. 쿠타네움, 로도토룰라 글루티누스(Rhodotorula glutinus) 및 R. 그라미니스를 포함한다. 특정 구현예에서 진균 세포의 예는 푸사리움 속(예를 들어, 푸사리움 라테리티움(Fusarium lateritium)), 모르티에렐라(Mortierella) 속(예를 들어, 모르티에렐라 알피나(Mortierella alpina)) 및 뮤코 속(예를 들어, 뮤코 룩시 및 뮤코 시르시넬로이데스)의 종들을 포함한다. 본 발명의 다른 구현예에서 미생물 세포는 엔토모프토라(Entomophthora), 피티움(Pythium) 및 포르피리디움(Porphyridium) 속의 세포일 수 있다.

관심 폴리뉴클레오티드는 본원에 더 기술되어 있으며, 상업 시장 및 작물 개발에 관여하는 자들의 이익을 반영하는 폴리뉴클레오티드를 포함한다. 관심 작물 및 시장은 변화하며, 개발 도상국이 세계 시장을 개방함에 따라 새로운 작물과 기술 또한 등장할 것이다. 또한, 수확량과 잡종 강세와 같은 작물학적 형질 및 특성에 대한 이해가 높아짐에 따라 유전자 조작을 위한 유전자의 선택은 그에 따라 변할 것이다.

또한, 표적 부위에 통합된 관심 폴리뉴클레오티드를 그 게놈에 포함하는 적어도 하나의 세포를 동정하는 방법이 제공된다. 선별 가능한 마커 표현형을 사용하지 않고 표적 부위 또는 그 근처에서 게놈 내 삽입을 갖는 세포를 동정하기 위해 다양한 방법을 이용할 수 있다. 이러한 방법은 PCR 방법, 시퀀싱 방법, 뉴클레아제 소화, 서던 블롯, 및 이들의 임의의 조합을 포함하지만 이에 한정되지 않으며, 표적 서열을 직접 분석하여 표적 서열에서 임의의 변화를 검출하는 것으로 볼 수 있다. 예를 들어, 본원에 기술된 방법에 필요한 정도로 본원에 참조로 포함되는 미국 특허 출원 12/147,834를 참조한다.

관심 폴리뉴클레오티드/폴리펩티드는 미생물 대사 경로 유전자, 제초제 저항성 코딩 서열, 살충 코딩 서열, 살선충 코딩 서열, 항균 코딩 서열, 항진균 코딩 서열, 항바이러스 코딩 서열, 무생물적 및 생물적 스트레스 관용성 코딩 서열, 또는 수확량, 곡물 품질, 양분 함량, 전분 품질 및 양, 질소 고정 및/또는 활용, 지방산, 및 기름 함량 및/또는 조성과 같은 식물 형질을 변형하는 서열을 포함하나, 이에 한정되는 것은 아니다. 관심 유전자의 일반적인 범주는, 예를 들어, 징크 핑거와 같은 정보 관련 유전자, 키나아제와 같은 전달 관련 유전자, 및 열충격 단백질과 같은 하우스키핑 관련 유전자를 포함한다. 보다 구체적인 이식유전자의 범주는, 예를 들어, 작물학적 특성, 곤충 저항성, 질병 저항성, 제초제 저항성, 번식성 또는 불임성, 곡물 특성 및 상업적 제품에 대한 중요한 형질을 암호화하는 유전자를 포함한다. 관심 유전자는 일반적으로, 기름, 전분, 탄수화물 또는 양분 대사 관련 유전자뿐만 아니라 본원에 기술된 다른 형질, 예컨대, 이에 한정되는 것은 아니지만, 제초제 저항성과 조합하여 쌓이거나 사용될 수 있는 커널 크기, 수크로오스 로딩 등에 영향을 미치는 유전자를 포함한다.

기름, 전분, 및 단백질 함량과 같은 작물학적으로 중요한 형질은 전통적인 육종 방법을 사용하는 것 외에도 유전적으로 변경될 수 있다. 변형은 올레산, 포화 및 불포화 기름 함량 증가, 라이신과 황 수준 증가, 필수 아미노산 제공, 및 전분의 변형도 포함한다. 호르도티오닌 단백질 변형은 본원에 참조로 포함되는 미국 특허 5,703,049호, 5,885,801호, 5,885,802호, 및 5,990,389호에 기술되어 있다.

또한, 관심 폴리뉴클레오티드는 표적화된 관심 유전자 서열에 대한 메신저 RNA(mRNA)의 적어도 일부에 상보적인 안티센스 서열을 포함할 수도 있는 것으로 인식된다. 안티센스 뉴클레오티드는 해당 mRNA와 혼성화되도록 구성된다. 안티센스 서열의 변형은 서열이 해당 mRNA와 혼성화되고 그 발현을 방해하는 한 이루어질 수 있다. 이러한 방식으로, 해당 안티센스 서열과 70%, 80%, 또는 85%의 서열 동일성을 갖는 안티센스 구성이 사용될 수 있다. 또한, 안티센스 뉴클레오티드의 일부는 표적 유전자의 발현을 방해하는 데 사용될 수 있다. 일반적으로, 적어도 50개 뉴클레오티드, 100개 뉴클레오티드, 200개 뉴클레오티드 이상의 서열이 사용될 수 있다.

또한, 관심 폴리뉴클레오티드는 관심 생물의 내인성 유전자 발현을 억제하기 위해 센스 방향으로 사용될 수도 있다. 폴리뉴클레오티드를 센스 방향으로 사용하여 미생물 및 식물의 유전자 발현을 억제하는 방법은 당해 분야에 알려져 있다. 본원에 참조로 포함되는 미국 특허 5,283,184호 및 5,034,323호를 참조한다.

관심 폴리뉴클레오티드는 표현형 마커일 수도 있다. "표현형 마커"는 시각적 마커 및 그것이 양성의 선별 가능한 마커든 음성의 선택 가능한 마커든 선택 가능한 마커를 포함하는, 선별이 가능하거나 선택 가능한 마커이다. 임의의 표현형 마커가 사용될 수 있다. 구체적으로, 선택 가능하거나 선별 가능한 마커는 종종 특정한 조건 하에서, 그것을 포함하는 분자 또는 세포를 동정할 수 있게 하거나, 그것에 있어서 또는 그것에 대해 선택할 수 있게 하는 DNA 분절을 포함한다. 이들 마커는 활성, 예컨대, RNA, 펩티드, 또는 단백질의 생성(그러나 이에 한정되는 것은 아님)을 암호화할 수 있거나, RNA, 펩티드, 단백질, 무기 및 유기 화합물 또는 조성물 등에 대한 결합 부위를 제공할 수 있다.

선택 가능한 마커의 예는 제한 효소 부위를 포함하는 DNA 분절; 항생제, 예컨대, 스펙티노마이신, 암피실린, 카나마이신, 테트라사이클린, 바스타(Basta), 네오마이신 포스포트랜스퍼라아제 II(NEO) 및 히그로마이신 포스포트랜스퍼라아제(HPT))를 포함하는 독성 화합물에 대해 저항성을 제공하는 생성물을 암호화하는 DNA 분절; 수용 세포에 없는 생성물을 암호화하는 DNA 분절(예컨대, tRNA 유전자, 영양요구성 마커); 용이하게 동정될 수 있는 생성물을 암호화하는 DNA 분절(예를 들어, 표현형 마커, 예컨대, β-갈락토시다아제, GUS; 형광 단백질, 예컨대, 녹색 형광 단백질(GFP), 청록색 형광 단백질(CFP), 황색 형광 단백질(YFP), 적색 형광 단백질(RFP) 및 세포 표면 단백질); PCR을 위한 새로운 프라이머 부위의 생성(예컨대, 이전에는 나란히 놓여있지 않았던 두 DNA 서열의 병치), 제한 엔도뉴클레아제 또는 기타 DNA 변형 효소, 화학물질 등에 의해 영향 받지 않거나 영향 받는 DNA 서열의 포함; 및 동정을 가능하게 하는 특이적인 변형(예컨대, 메틸화)에 필요한 DNA 서열의 포함을 포함하지만, 이에 한정되는 것은 아니다.

추가적인 선택 가능한 마커는 제초제 화합물, 예컨대, 글루포시네이트 암모늄, 브로목시닐, 이미다졸리논 및 2,4-디클로로페녹시아세테이트(2,4-D)에 대해 저항성을 부여하는 유전자를 포함한다. 예를 들어, Yarranton, (1992) Curr Opin Biotech 3:506-11; Christopherson et al., (1992) Proc. Natl. Acad. Sci. USA 89:6314-8; Yao et al., (1992) Cell 71:63-72; Reznikoff, (1992) Mol Microbiol 6:2419-22; Hu et al., (1987) Cell 48:555-66; Brown et al., (1987) Cell 49:603-12; Figge et al., (1988) Cell 52:713-22; Deuschle et al., (1989) Proc. Natl. Acad. Sci. USA 86:5400-4; Fuerst et al., (1989) Proc. Natl. Acad. Sci. USA 86:2549-53; Deuschle et al., (1990) Science 248:480-3; Gossen, (1993) Ph.D. Thesis, University of Heidelberg; Reines et al., (1993) Proc. Natl. Acad. Sci. USA 90:1917-21; Labow et al., (1990) Mol Cell Biol 10:3343-56; Zambretti et al., (1992) Proc. Natl. Acad. Sci. USA 89:3952-6; Baim et al., (1991) Proc. Natl. Acad. Sci. USA 88:5072-6; Wyborski et al., (1991) Nucleic Acids Res 19:4647-53; Hillen and Wissman, (1989) Topics Mol Struc Biol 10:143-62; Degenkolb et al., (1991) Antimicrob Agents Chemother 35:1591-5; Kleinschnidt et al., (1988) Biochemistry 27:1094-104; Bonin, (1993) Ph.D. Thesis, University of Heidelberg; Gossen et al., (1992) Proc. Natl. Acad. Sci. USA 89:5547-51; Oliva et al., (1992) Antimicrob Agents Chemother 36:913-9; Hlavka et al., (1985) Handbook of Experimental Pharmacology, Vol. 78 (Springer-Verlag, Berlin); Gill et al., (1988) Nature 334:721-4를 참조한다. 상업적 형질은, 예를 들어, 에탄올 생산을 위한 전분을 증가시키거나 단백질의 발현을 제공할 수 있는 유전자 또는 유전자들 상에 암호화될 수도 있다. 형질전환된 미생물 또는 식물의 다른 중요한 상업적 용도는 미국 특허 5,602,321호에 기술된 바와 같은 폴리머 및 바이오플라스틱의 생산이다. β-케토티올라아제, PHB아제(폴리하이드록시부티레이트 합성효소), 및 아세틸-CoA 환원효소(Schubert et al. (1988) J. Bacteriol. 170:5837-5847 참조)와 같은 유전자는 폴리하이드록시알카노에이트(PHA)의 발현을 촉진한다.

본원에 사용하기 위한 선택 방법으로는 카나마이신, 히그로마이신 및 아미노 글리코시드 G418에 대한 저항성뿐만 아니라, 우라실, 류신, 라이신, 트립토판 또는 히스티딘이 없는 배지에서 자라는 능력을 들 수 있다. 대안적 구현예에서, 5-플루오로오로트산(5-플루오로우라실-6-카복실산 모노하이드레이트 [5-FOA])이 효모 Ura 돌연변이(미국 특허 출원 공개 2009-0093543호)의 선택을 위해 사용되거나, 설포닐 요소 제초제 저항성을 부여하는 고유 아세토하이드록시산 합성효소(또는 아토세락테이트 합성효소; E.C. 4.1.3.18)(국제 출원 공개 WO 2006/052870호)가 형질전환체의 선택을 위해 이용된다. 부위-특이적 재조합효소 시스템을 사용하여, 다회의 순차적 형질전환에서 이의 사용을 위해 한 쌍의 바람직한 선택 마커를 "재생하는" 독특한 방법이 또한 미국 특허 출원 공개 2009-0093543호에 교시되어 있다.

전사, RNA 안정성, 번역, 단백질 안정성 및 단백질 위치, 산소 제한 및 숙주 세포로부터 분비의 양태를 제어하는 본 발명의 구현예에서는 여러 상이한 유전 요소를 조작하는 것이 바람직할 수 있다. 보다 구체적으로, 유전자 발현은 다음을 변경하여 제어될 수 있다: 관련 프로모터 및 종결자 서열의 성질; 클로닝된 유전자의 사본 수; 유전자가 플라스미드-기반인지 숙주 세포의 게놈 내로 통합되는지 여부; 합성 외래 단백질의 최종 세포 위치; 숙주 생물에서의 번역 효율; 숙주 세포내에서 클로닝된 유전자 단백질의 내재적 안정성; 및 그 빈도가 숙주 세포의 바람직한 코돈 사용 빈도에 접근하도록 하는, 클로닝된 유전자 내에서의 코돈 사용.

미생물 숙주 세포에서 이종 유전자의 발현을 유도하는 데 유용한 프로모터는 다수이며, 당업자에게 공지되어 있다. 발현은 유도된 또는 항시성 방식으로 달성될 수 있다. 유도된 발현은 관심 유전자에 작동 가능하게 연결된 조절 가능한 프로모터의 활성을 유도하여 달성될 수 있는 반면, 항시성 발현은 관심 유전자에 작동 가능하게 연결된 항시성 프로모터의 사용에 의해 달성될 수 있다. 유전자 발현을 유도할 수 있는 실질적으로 모든 프로모터(즉, 고유, 합성, 또는 키메라)가 적합하지만, 숙주 종으로부터의 전사 및 번역 조절 영역이 특히 유용할 수 있다.

일반적으로, 종결자는 프로모터가 수득되는 유전자의 3' 영역으로부터 또는 상이한 유전자로부터 유래될 수 있다. 다수의 종결자가 공지되어 있고, 이들이 유래되는 것과 동일한 및 상이한 속과 종에서 이용되는 경우 모두, 다양한 숙주에서 만족스럽게 기능한다. 종결자는 보통 임의의 특정 특성으로 인해서라기 보다는 편리함의 이유로 더 선택된다. 바람직하게는, 종결자는 효모 유전자로부터 유래된다. 당업자가 종결자를 설계하고 합성하기 위해 이용 가능한 정보를 활용할 수 있으므로, 종결자는 합성일 수도 있다. 종결자는 불필요할 수도 있지만, 바람직하다.

야로위아 속의 재조합 미생물 숙주 세포에서 사용하기 위해 바람직한 프로모터 및 종결자는 모두 본원에 참조로 포함되는 미국 특허 출원 공개 2009-0093543호, 2010-0068789호, 2011-0059496호, 2012-0252079호, 2012-0252093호, 2013-0089910호 및 2013-0089911호에 교시된 것들이지만, 이에 한정되는 것은 아니다.

이식유전자, 재조합 DNA 분자, 관심 DNA 서열, 및 관심 폴리뉴클레오티드는 유전자 침묵화를 위한 하나 이상의 DNA 서열을 포함할 수 있다. 세포 및 생물에서 DNA 서열의 발현을 포함하는 유전자 침묵화 방법은 당해 분야에 알려져 있으며, 공동억제, 안티센스 억제, 이중 가닥 RNA(dsRNA) 간섭, 헤어핀 RNA(hpRNA) 간섭, 인트론 함유 헤어핀 RNA(ihpRNA) 간섭, 전사 유전자 침묵화, 및 마이크로 RNA(miRNA) 간섭을 포함하나, 이에 한정되는 것은 아니다.

본원에 사용된 "핵산"은 폴리뉴클레오티드를 의미하고 데옥시리보뉴클레오티드 또는 리보뉴클레오티드 염기의 단일 가닥 폴리머 또는 이중 가닥 폴리머를 포함한다. 핵산은 단편 및 변형된 뉴클레오티드를 포함할 수도 있다.

용어 "폴리뉴클레오티드", "핵산 서열", "뉴클레오티드 서열" 및 "핵산 단편"은 단일 또는 이중 가닥인 RNA 및/또는 DNA의 폴리머를 나타내기 위해 상호 교환적으로 사용되며, 선택적으로 합성, 비천연 또는 변경된 뉴클레오티드 염기를 포함한다. (보통 이의 5'-모노포스페이트 형태로 발견되는) 뉴클레오티드는 다음과 같이 단일 문자 표시에 의해 지칭된다: 아데노신 또는 데옥시아데노신에 대해서(각각 RNA 또는 DNA에 있어서) “A”, 시토신 또는 데옥시시토신에 대해서 “C”, 구아노신 또는 데옥시구아노신에 대해서 "G", 유리딘에 대해서 “U”, 데옥시티미딘에 대해서 “T”, 퓨린(A 또는 G)에 대해서 “R”, 피리미딘(C 또는 T)에 대해서 “Y”, G 또는 T에 대해서 “K”, A 또는 C 또는 T에 대해서 “H”, 이노신에 대해서 “I”, 및 임의의 뉴클레오티드에 대해서 “N”(예를 들어, DNA 서열을 지칭하는 경우 N은 A, C, T, 또는 G일 수 있고; RNA 서열을 지칭하는 경우 N은 A, C, U, 또는 G일 수 있다). 본원에 개시된 임의의 RNA 서열(예를 들어, crRNA, tracrRNA, gRNA)은 적합한 DNA 서열에 의해 암호화될 수 있다.

"오픈 리딩 프레임"은 ORF로 약칭된다.

용어 "기능적으로 동등한 하위단편" 및 "기능적 동등 하위 단편"은 본원에서 상호 교환적으로 사용된다. 이들 용어는 단편 또는 하위단편이 활성 효소를 암호화하는지 여부에 관계없이 유전자 발현을 변경하거나 특정 표현형을 생성하는 능력이 유지되는 단리된 핵산 단편의 일부 또는 하위서열을 지칭한다. 예를 들어, 단편 또는 하위단편은 미생물 또는 식물에서 원하는 표현형을 생성하기 위한 유전자 설계에 사용될 수 있다. 유전자는 활성 효소를 암호화하는지에 관계없이 그 핵산 단편 또는 하위단편을 프로모터 서열에 대해 센스 방향 또는 안티센스 방향으로 연결함으로써 억제에 사용하도록 설계될 수 있다.

용어 "보존 도메인" 또는 "모티프"는 진화론적 관련 단백질의 정렬된 서열을 따라 특정 위치에 보존된 아미노산 세트를 의미한다. 다른 위치의 아미노산은 상동 단백질 간에 다양할 수 있는 반면, 특정 위치에 고도로 보존된 아미노산은 단백질의 구조, 안정성, 또는 활성에 필수적인 아미노산을 나타낸다. 이들은 단백질 상동체 군의 정렬된 서열에서 높은 보존 정도에 의해 동정되기 때문에, 새로 결정된 서열을 가진 단백질이 이전에 동정된 단백질 군에 속하는지를 결정하기 위한 식별자, 또는 "특징부"로서 사용될 수 있다.

폴리뉴클레오티드 및 폴리펩티드 서열, 이들의 변이체, 및 이 서열들의 구조적 관계는 본원에서 상호 교환적으로 사용되는 "상동성", "상동", "실질적으로 동일한", "실질적으로 유사한" 및 "실질적으로 대응하는"이란 용어에 의해 기술될 수 있다. 이들은 하나 이상의 아미노산 또는 뉴클레오티드 염기에서의 변화가 분자의 기능, 예컨대, 유전자 발현을 매개하거나 특정 표현형을 생성하는 능력에 영향을 미치지 않는 폴리펩티드 또는 핵산 단편을 지칭한다. 이들 용어는 또한, 초기의 비변형 단편에 비해 얻어진 핵산 단편의 기능적 특성을 실질적으로 변경하지 않는 핵산 단편의 변형(들)을 지칭한다. 이들 변형은 핵산 단편에서의 하나 이상의 뉴클레오티드의 결실, 치환, 및/또는 삽입을 포함한다.

포함되는 실질적으로 유사한 핵산 서열은 (적당히 엄격한 조건, 예컨대, 0.5X SSC, 0.1% SDS, 60℃에서) 본원에 예시된 서열과 혼성화하는 능력, 또는 본원에 개시된 뉴클레오티드 서열의 임의의 일부에 혼성화하는 능력에 의해 정의될 수 있고, 본원에 개시된 임의의 핵산 서열과 기능적으로 동등하다. 엄격 조건은 원연(distantly-related) 생물로부터의 상동 서열과 같은 적당히 유사한 단편을 매우 유사한 단편, 예컨대, 근연(closely-related) 생물로부터 기능적 효소를 복제하는 유전자로 선별하도록 조정될 수 있다. 혼성화 후 세척은 엄격 조건을 결정한다.

용어 "선택적으로 혼성화한다"는 엄격한 혼성화 조건 하에서, 비표적 핵산 서열에의 혼성화보다 검출 가능하게 더 큰 정도(예를 들어, 백그라운드에 비해 적어도 2배)의 핵산 서열의 특정 핵산 표적 서열에의 혼성화 및 비표적 핵산의 실질적 배제에 대한 언급을 포함한다. 선택적으로 혼성화하는 서열은 일반적으로 서로 약 적어도 80% 서열 동일성, 또는 90% 서열 동일성을 가지며, 100% 서열 동일성(즉, 완전히 상보적)까지를 포함한다.

용어 "엄격한 조건" 또는 "엄격한 혼성화 조건"은 시험관내 혼성화 분석에서 프로브가 그 표적 서열에 선택적으로 혼성화될 조건에 대한 언급을 포함한다. 엄격한 조건은 서열에 의존적이며 상황에 따라 다를 것이다. 혼성화 및/또는 세척 조건의 엄격성을 제어함으로써, 프로브에 100% 상보적인 표적 서열을 동정할 수 있다(상동성 프로빙). 대안적으로, 엄격 조건은 서열에서 일부 불일치를 허용하여 더 낮은 정도의 유사도가 검출되도록 조정될 수 있다(이종 프로빙). 일반적으로 프로브는 약 1000개 뉴클레오티드 미만의 길이, 선택적으로 500개 뉴클레오티드 미만의 길이이다.

일반적으로, 엄격한 조건은 pH 7.0 내지 8.3에서 그리고 짧은 프로브(예컨대, 10 내지 50개 뉴클레오티드)의 경우 적어도 약 30℃에서, 긴 프로브(예컨대, 50개 뉴클레오티드 초과)의 경우 적어도 약 60℃에서 염 농도가 약 1.5 M Na 이온 미만, 일반적으로는 약 0.01 내지 1.0 M Na 이온 농도(또는 다른 염(들))인 조건일 것이다. 엄격한 조건은 포름아미드와 같은 불안정화제의 첨가로 달성될 수도 있다. 예시적인 저 엄격 조건은 37℃에서 30 내지 35% 포름아미드, 1 M NaCl, 1% SDS(나트륨 도데실 설페이트) 완충 용액으로의 혼성화, 및 50 내지 55℃에서 1X 내지 2X SSC(20X SSC = 3.0 M NaCl/0.3 M 삼나트륨 시트레이트)로의 세척을 포함한다. 예시적인 적당한 엄격 조건은 37℃에서 40 내지 45% 포름아미드, 1 M NaCl, 1% SDS 중 혼성화, 및 55 내지 60℃에서 0.5X 내지 1X SSC 중 세척을 포함한다. 예시적인 고 엄격 조건은 37℃에서 50% 포름아미드, 1 M NaCl, 1% SDS 중 혼성화, 및 60 내지 65℃에서 0.1X SSC 중 세척을 포함한다.

핵산 또는 폴리펩티드 서열의 맥락에서 "서열 동일성" 또는 "동일성"은, 특정 비교 윈도우에 걸쳐 최대 일치를 위해 정렬될 때, 동일한 두 서열 내의 핵산 염기 또는 아미노산 잔기를 지칭한다.

용어 "서열 동일성 백분율"은 비교 윈도우에서 최적으로 정렬된 2개의 서열을 비교하여 결정된 값을 지칭하며, 이때, 비교 윈도우 내의 폴리뉴클레오티드 또는 폴리펩티드 서열의 일부는 2개의 서열의 최적 정렬을 위해 (삽입 또는 결실을 포함하지 않는) 기준 서열과 비교하여 부가 또는 결실(즉, 갭)을 포함할 수 있다. 백분율은, 두 서열에서 동일한 핵산 염기 또는 아미노산 잔기가 나타나는 위치의 개수를 결정하여 일치하는 위치의 개수를 산출하고, 일치하는 위치의 개수를 비교 윈도우 내의 위치의 총 개수로 나누고, 그 결과에 100을 곱하여 서열 동일성의 백분율을 산출함으로써 계산한다. 서열 동일성 백분율의 유용한 예는 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90% 또는 95%, 또는 50% 내지 100%의 임의의 정수 백분율을 포함하지만 이에 한정되는 것은 아니다. 이들 동일성은 본원에 기술된 프로그램 중 임의의 것을 사용하여 결정될 수 있다.

서열 정렬 및 동일성 또는 유사성 백분율 계산은 LASERGENE 생물정보학 컴퓨팅 세트(DNASTAR Inc., Madison, WI)의 MegAlign^TM 프로그램을 포함하지만 이에 한정되지 않는, 상동 서열을 검출하도록 설계된 다양한 비교 방법을 사용하여 결정될 수 있다. 본 출원의 맥락 내에서, 서열 분석 소프트웨어가 분석에 사용되는 경우, 달리 명시되지 않는 한, 분석 결과는 언급된 프로그램의 "디폴트 값"에 기초할 것이라는 것을 이해할 것이다. 본원에 사용된 "디폴트 값"은 최초로 초기화 될 때, 원래 소프트웨어와 함께 로딩되는 임의의 값 또는 파라미터 세트를 의미할 것이다.

"Clustal V 정렬 방법"은 Clustal V(Higgins and Sharp, (1989) CABIOS 5:151-153; Higgins et al., (1992) Comput Appl Biosci 8:189-191에 기술)로 명명되고 LASERGENE 생물정보학 컴퓨팅 세트(DNASTAR Inc., Madison, WI)의 MegAlign^TM 프로그램에서 발견되는 정렬 방법에 해당한다. 다중 정렬의 경우, 디폴트 값은 GAP PENALTY=10 및 GAP LENGTH PENALTY=10에 해당한다. Clustal 방법을 사용하는 단백질 서열의 동일성 백분율의 계산 및 쌍 정렬을 위한 디폴트 파라미터는 KTUPLE=1, GAP PENALTY=3, WINDOW=5 및 DIAGONALS SAVED=5이다. 핵산의 경우, 이들 파라미터는 KTUPLE=2, GAP PENALTY=5, WINDOW=4 및 DIAGONALS SAVED=4이다. Clustal V 프로그램을 사용하여 서열을 정렬한 후에는, 동일한 프로그램에서 "서열 거리"표를 보고 "동일성 백분율"을 얻을 수 있다.

"Clustal W 정렬 방법"은 Clustal W(Higgins and Sharp, (1989) CABIOS 5:151-153, Higgins et al., (1992) Comput Appl Biosci 8:189-191에 기술)로 명명되고 LASERGENE 생물정보학 컴퓨팅 세트(DNASTAR Inc., Madison, WI)의 MegAlign^TM v6.1 프로그램에서 발견되는 정렬 방법에 해당한다. 다중 정렬을 위한 디폴트 파라미터(GAP PENALTY=10, GAP LENGTH PENALTY=0.2, 지연 발산 서열(%)=30, DNA 전이 가중치=0.5, 단백질 가중치 매트릭스=Gonnet 시리즈, DNA 가중치 매트릭스=IUB). Clustal W 프로그램을 사용하여 서열을 정렬한 후에는, 동일한 프로그램에서 "서열 거리"표를 보고 "동일성 백분율"을 얻을 수 있다.

달리 명시되지 않는 한, 본원에 제공된 서열 동일성/유사성 값은 하기 파라미터를 사용하여, GAP 버전 10(GCG, Accelrys, San Diego, CA)을 사용하여 얻은 값을 지칭한다: 뉴클레오티드 서열에 대한 동일성% 및 유사성%는 갭 생성 페널티 가중치 50 및 갭 길이 연장 페널티 가중치 3, 및 nwsgapdna.cmp 점수 매트릭스를 사용; 아미노산 서열에 대한 동일성% 및 유사성%는 GAP 생성 페널티 가중치 8 및 갭 길이 연장 페널티 2, 및 BLOSUM62 점수 매트릭스를 사용(Henikoff and Henikoff, (1989) Proc. Natl. Acad. Sci. USA 89:10915). GAP는 Needleman and Wunsch, (1970) J Mol Biol 48:443-53의 알고리즘을 사용하여 일치의 수를 최대화하고 갭의 수를 최소화하는 두 개의 전체 서열의 정렬을 찾는다. GAP는 가능한 모든 정렬 및 갭 위치를 고려하고, 일치 염기 단위로 갭 생성 페널티 및 갭 연장 페널티를 사용하여 가장 많은 수의 일치 염기와 가장 적은 갭을 갖는 정렬을 생성한다.

"BLAST"는 미국 국립생물공학정보센터(NCBI)에서 제공하는, 생물학적 서열 간의 유사성 영역을 찾는 데 사용되는 검색 알고리즘이다. 이 프로그램은 뉴클레오티드 또는 단백질 서열을 서열 데이터베이스와 비교하고 일치의 통계적 유의성을 계산하여 유사성이 무작위로 발생한 것으로 예측되지 않도록 쿼리 서열과 충분한 유사성을 갖는 서열을 동정한다. BLAST는 동정된 서열 및 이들의 쿼리 서열에 대한 로컬 정렬을 보고한다.

여러 수준의 서열 동일성은 다른 종 유래 또는 천연 또는 합성적으로 변형된 폴리펩티드를 동정하는 데 유용하고, 이러한 폴리펩티드는 동일하거나 유사한 기능 또는 활성을 갖는다는 것은 당업자가 잘 이해한다. 동일성 백분율의 유용한 예는 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90% 또는 95%, 또는 50% 내지 100%의 임의의 정수 백분율을 포함하지만 이에 한정되는 것은 아니다. 실제로, 50% 내지 100%, 예컨대, 51%, 52%, 53%, 54%, 55%, 56%, 57%, 58%, 59%, 60%, 61%, 62%, 63%, 64%, 65%, 66%, 67%, 68%, 69%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99%의 임의의 정수의 아미노산 동일성은 본 발명을 설명하는 데 유용할 수 있다.

"유전자"는 코딩 서열 앞의 조절 서열(5' 비코딩 서열) 및 뒤의 조절 서열(3' 비코딩 서열)을 포함하는 특정 단백질과 같은, 그러나 이에 한정되지 않는 기능적 분자를 발현하는 핵산 단편을 포함한다. "고유 유전자"는 자신의 조절 서열과 함께 자연에서 발견되는 유전자를 지칭한다.

"돌연변이된 유전자"는 인간 개입을 통해 변경된 유전자이다. 이러한 "돌연변이된 유전자"는 적어도 하나의 뉴클레오티드 부가, 결실, 또는 치환에 의해 상응하는 비 돌연변이된 유전자의 서열과 상이한 서열을 갖는다. 본 발명의 특정 구현예에서, 돌연변이된 유전자는 본원에 개시된 바와 같은 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템을 이용하여 만들어진 변경을 포함한다. 돌연변이된 세포는 돌연변이된 유전자를 포함하는 세포이다.

본원에 사용된 "표적 돌연변이"는, 본원에 개시되거나 당해 분야에 공지된 바와 같이, 표적 서열의 DNA에서 이중 가닥 절단을 유도할 수 있는 이중 가닥 절단 유도제를 포함하는 방법을 사용하여 고유 유전자 내에서 표적 서열을 변경함으로써 만들어진 고유 유전자의 돌연변이이다.

가이드 RNA/Cas 엔도뉴클레아제 유도 표적 돌연변이는 Cas 엔도뉴클레아제에 의해 인식되고 절단되는 게놈 표적 부위 내에 또는 외부에 위치하는 뉴클레오티드 서열에서 발생할 수 있다.

세포에 적용시 용어 "게놈"은 핵 내에서 발견되는 염색체 DNA뿐만 아니라 세포의 세포내 성분(예컨대, 미토콘드리아, 또는 색소체) 내에서 발견되는 세포소기관 DNA를 포함한다.

"코돈 변형 유전자" 또는 "코돈 선호 유전자" 또는 "코돈 최적화 유전자"는 숙주 세포의 선호되는 코돈 사용의 빈도를 모방하도록 설계된 코돈 사용의 빈도를 갖는 유전자이다.

"대립 유전자"는 염색체 상의 주어진 유전자좌를 차지하는 유전자의 몇 가지 대안적 형태 중 하나이다. 염색체 상의 주어진 유전자좌에 존재하는 모든 대립 유전자가 동일한 경우, 그 생물은 그 유전자좌에서 동형접합적이다. 염색체 상의 주어진 유전자좌에 존재하는 대립 유전자가 상이한 경우, 그 생물은 그 유전자좌에서 이형접합적이다.

"코딩 서열"은 특정 아미노산 서열을 코딩하는 폴리뉴클레오티드 서열을 지칭한다. "조절 서열"은 코딩 서열의 상류에(5' 비코딩 서열), 내에, 또는 하류(3' 비코딩 서열)에 위치하여 관련 코딩 서열의 전사, RNA 가공 또는 안정성, 또는 번역에 영향을 주는 뉴클레오티드 서열을 지칭한다. 조절 서열은 프로모터, 번역 리더 서열, 5' 미번역 서열, 3' 미번역 서열, 인트론, 폴리아데닐화 표적 서열, RNA 가공 부위, 이펙터 결합 부위, 및 스템-루프 구조를 포함할 수 있지만, 이에 한정되는 것은 아니다.

프로모터는 RNA 중합효소 및 기타 전사 개시 단백질의 인식 및 결합에 관여하는 DNA의 영역이다. 프로모터 서열은 근위 상류 요소 및 더 원위의 상류 요소로 이루어지고, 후자의 요소는 종종 인핸서(enhancer)로 지칭된다. "인핸서"는 프로모터 활성을 자극할 수 있는 DNA 서열이고, 프로모터 고유의 요소 또는 프로모터의 수준 또는 조직 특이성을 향상시키기 위해 삽입된 이종 요소일 수 있다. 프로모터는 고유 유전자로부터 그 전체가 유래될 수 있거나, 자연에서 발견되는 상이한 프로모터들로부터 유래된 상이한 요소들로 구성될 수 있고/있거나, 합성 DNA 분절을 포함할 수 있다. 상이한 프로모터가 상이한 조직 또는 세포 유형으로, 또는 발달의 상이한 단계에서 또는 상이한 환경 조건에 반응하여 유전자의 발현을 유도할 수 있음은 당업자가 이해한다. 또한, 대부분의 경우, 조절 서열의 정확한 경계가 완전히 정의되지 않았기 때문에, 일부 변이체의 DNA 단편이 동일한 프로모터 활성을 가질 수 있는 것으로 인식된다. 대부분의 시점에 대부분의 세포 유형에서 유전자가 발현되게 하는 프로모터는 일반적으로 "항시성 프로모터"로 지칭된다.

본원에 사용된 "강력한 프로모터"는 단위 시간당 상대적으로 많은 수의 생산 개시를 이끌 수 있는 프로모터를 지칭하고/하거나, 세포내 유전자의 평균 전사 수준보다 더 높은 수준의 유전자 전사를 유도하는 프로모터이다.

식물 프로모터는 식물 세포에서 전사를 개시할 수 있는 프로모터이며, 식물 프로모터에 대한 검토는 Potenza et al., (2004) In Vitro Cell Dev Biol 40:1-22를 참조한다. 항시성 프로모터는, 예를 들어, Rsyn7 프로모터의 코어 프로모터 및 WO99/43838 및 미국 특허 6,072,050호에 개시된 기타 항시성 프로모터; 코어 CaMV 35S 프로모터(Odell et al., (1985) Nature 313:810-2); 벼 액틴(McElroy et al., (1990) Plant Cell 2:163-71); 유비퀴틴(Christensen et al., (1989) Plant Mol Biol 12:619-32; Christensen et al., (1992) Plant Mol Biol 18:675-89); pEMU(Last et al., (1991) Theor Appl Genet 81:581-8); MAS(Velten et al., (1984) EMBO J 3:2723-30); ALS 프로모터(미국 특허 5,659,026호) 등을 포함한다. 기타 항시성 프로모터는, 예를 들어, 미국 특허 5,608,149호; 5,608,144호; 5,604,121호; 5,569,597호; 5,466,785호; 5,399,680호; 5,268,463호; 5,608,142호 및 6,177,611호에 기술되어 있다. 일부 예에서는 유도성 프로모터가 사용될 수 있다. 병원균에 의한 감염 후에 유도되는 병원균 유도성 프로모터는 PR 단백질, SAR 단백질, 베타-1,3-글루카나아제, 키티나아제 등의 발현을 조절하는 것들을 포함하나, 이에 한정되는 것은 아니다.

화학적으로 조절되는 프로모터는 외인성 화학적 조절자의 적용을 통해 식물에서 유전자의 발현을 조절하는 데 사용될 수 있다. 이러한 프로모터는 화학물질의 적용이 유전자 발현을 유도하는 화학물질 유도성 프로모터, 또는 화학물질의 적용이 유전자 발현을 억제하는 화학물질 억제성 프로모터일 수 있다. 화학물질 유도성 프로모터는 벤젠 설폰아미드 제초제 약해경감제에 의해 활성화되는 옥수수 In2-2 프로모터(De Veylder et al., (1997) Plant Cell Physiol 38:568-77), 잡초 발아 전에 사용하는 제초제로서 사용되는 소수성 친전자성 화합물에 의해 활성화되는 옥수수 GST 프로모터(GST-II-27, WO93/01294) 및 살리실산에 의해 활성화되는 담배 PR-1a 프로모터(Ono et al., (2004) Biosci Biotechnol Biochem 68:803-7)를 포함하나, 이에 한정되는 것은 아니다. 다른 화학적으로 조절되는 프로모터는 스테로이드-반응성 프로모터(예를 들어, 글루코코르티코이드-유도성 프로모터(Schena et al., (1991) Proc. Natl. Acad. Sci. USA 88:10421-5; McNellis et al., (1998) Plant J 14:247-257 참조); 테트라사이클린-유도성 및 테트라사이클린-억제성 프로모터(Gatz et al., (1991) Mol Gen Genet 227:229-37; 미국 특허 5,814,618호 및 5,789,156호)를 포함한다.

조직 선호 프로모터는 특정 식물 조직 내에서 발현 증진을 목표로 하는 데 활용될 수 있다. 조직 선호 프로모터는, 예를 들어 Kawamata et al., (1997) Plant Cell Physiol 38:792-803; 및 Guevara-Garcia et al., (1993) Plant J 4:495-505를 포함한다. 종자 선호 프로모터는 종자 발달 중에 활성을 나타내는 종자 특이적 프로모터뿐만 아니라, 종자 발아 중에 활성을 나타내는 종자 발아 프로모터를 포함한다. Thompson et al., (1989) BioEssays 10:108을 참조한다.

용어 "유도성 프로모터"는, 예를 들어, 화학적 화합물(화학물질 유도제)에 의해 내인성 또는 외인성 자극의 존재에 반응하여, 또는 환경, 호르몬, 화학물질, 및/또는 발달 신호에 반응하여 코딩 서열 또는 기능적 RNA를 선택적으로 발현시키는 프로모터를 지칭한다. 유도성 또는 조절 프로모터는, 예를 들어, 빛, 열, 스트레스, 홍수 또는 가뭄, 염 스트레스, 삼투압 스트레스, 식물 호르몬, 상처, 또는 화학물질, 예컨대, 에탄올, 아브시스산(ABA), 자스모네이트, 살리실산, 또는 약해경감제에 의해 유도되거나 조절되는 프로모터를 포함한다. 스트레스 유도성인 하나의 예는 RD29A 프로모터이다(Kasuga et al. (1999) Nature Biotechnol. 17:287-91식물 세포에 유용한 여러 유형의 새로운 프로모터가 지속적으로 발견되고 있고; 많은 예들을 The Biochemistry of Plants, Vol. 115, Stumpf and Conn, eds (New York, NY: Academic Press), pp. 1-82에 있는 Okamuro and Goldberg(1989)에 의한 편집에서 찾을 수 있다.

"번역 리더 서열"은 유전자의 프로모터 서열과 코딩 서열 사이에 위치한 폴리뉴클레오티드 서열을 지칭한다. 번역 리더 서열은 번역 시작 서열의 상류 mRNA에 존재한다. 번역 리더 서열은 mRNA에 대한 1차 전사물의 가공, mRNA 안정성 또는 번역 효율에 영향을 미칠 수 있다. 번역 리더 서열의 예는 기술되어 있다(예를 들어, Turner and Foster, (1995) Mol Biotechnol 3:225-236).

"3' 비코딩 서열", "전사 종결자" 또는 "종결 서열"은 코딩 서열의 하류에 위치한 DNA 서열을 지칭하며, 폴리아데닐화 인식 서열, 및 mRNA 가공 또는 유전자 발현에 영향을 미칠 수 있는 조절 신호를 암호화하는 다른 서열을 포함한다. 폴리아데닐화 신호는 일반적으로, mRNA 전구체 3' 말단에의 폴리아데닐산 영역 부가에 영향을 주는 것을 특징으로 한다. 다른 3' 비코딩 서열의 사용은 Ingelbrecht et al., (1989) Plant Cell 1:671-680에 예시되어 있다.

"RNA 전사물"은 DNA 서열의 RNA 중합효소-촉매 전사로부터 만들어지는 생성물을 지칭한다. RNA 전사물이 DNA 서열의 완전한 상보적 사본인 경우, 이를 1차 전사물 또는 프리-mRNA라고 한다. RNA 전사물이 1차 전사물 프리 mRNAt의 전사후 가공으로부터 유래된 RNA 서열인 경우, 이를 성숙 RNA 또는 mRNA라고 한다. "메신저 RNA" 또는 "mRNA"는, 인트론이 없고 세포에 의해 단백질로 번역될 수 있는 RNA를 지칭한다. "cDNA"는 효소 역전사효소를 사용하는 mRNA 주형에 상보적이고 그로부터 합성되는 DNA를 지칭한다. cDNA는 단일 가닥이거나 DNA 폴리머라제 I의 Klenow 단편을 사용하여 이중 가닥으로 변환될 수 있다. "센스" RNA는 mRNA를 포함하는 RNA 전사물을 지칭하며 세포내 또는 시험관내 단백질로 번역될 수 있다. "안티센스 RNA"는, 표적 1차 전사물 또는 mRNA의 전부 또는 일부에 상보적이고 표적 유전자의 발현을 차단하는 RNA 전사물을 지칭한다(예를 들어, 미국 특허 5,107,065호 참조). 안티센스 RNA의 상보성은 특정 유전자 전사물의 임의의 부분, 즉 5' 비코딩 서열, 3' 비코딩 서열, 인트론 또는 코딩 서열과 함께 있을 수 있다. "기능적 RNA"는 번역되지 않을 수 있지만 세포 프로세스에 영향을 미치는 안티센스 RNA, 리보자임 RNA 또는 기타 RNA를 지칭한다. 용어 "상보체" 및 "역 상보체"는 mRNA 전사물에 대하여 본원에서 상호 교환적으로 사용되며, 메시지의 안티센스 RNA를 정의하기 위한 것이다.

용어 "대조 세포" 및 "적합한 대조 세포"는 본원에서 상호 교환적으로 사용되며, 특정 변형(예를 들어, 폴리뉴클레오티드의 과발현, 폴리뉴클레오티드의 하향 조절)이 이루어진 세포(즉, "실험 세포")와 관련하여 언급될 수 있다. 대조 세포는 실험 세포의 특정 변형을 가지지 않거나 발현하지 않는 임의의 세포일 수 있다. 따라서, 대조 세포는 형질전환되지 않은 야생형 세포일 수 있거나, 유전적으로 변형될 수 있지만 유전적 형질전환을 발현하지 않는다. 예를 들어, 대조 세포는 실험 세포의 직접적인 부모일 수 있으며, 직접적인 부모 세포는 실험 세포에 있는 특정 변형을 가지지 않는다. 대안적으로, 대조 세포는 하나 이상의 세대에 의해 제거되는 실험 세포의 부모일 수 있다. 또한, 대안적으로, 대조 세포는 실험 세포의 형제 세포일 수 있으며, 형제 세포는 실험 세포에 존재하는 특정 변형을 포함하지 않는다.

용어 "작동 가능하게 연결된"은 하나의 기능이 다른 하나에 의해 조절되도록 된 단일 핵산 단편 상에서의 핵산 서열들의 결합을 나타낸다. 예를 들어, 프로모터는, 코딩 서열의 발현을 조절할 수 있는 경우(즉, 코딩 서열이 프로모터의 전사 조절 하에 있을 때), 코딩 서열과 작동 가능하게 연결된다. 코딩 서열은 센스 또는 안티센스 방향으로 조절 서열에 작동 가능하게 연결될 수 있다. 다른 예에서, 상보적 RNA 영역은 표적 mRNA의 5', 또는 표적 mRNA의 3', 또는 표적 mRNA 내에, 직접 또는 간접적으로, 작동 가능하게 연결될 수 있거나, 제1 상보적 영역은 5'이고 그 보체는 표적 mRNA의 3'이다.

본원에 사용된 표준 재조합 DNA 및 분자 클로닝 기술은 당해 분야에 잘 알려져 있고 Sambrook et al., Molecular Cloning: A Laboratory Manual; Cold Spring Harbor Laboratory: Cold Spring Harbor, NY (1989)에 보다 자세히 기술되어 있다. 형질전환 방법은 당업자에게 잘 알려져 있고 아래에 기술된다.

"PCR" 또는 "중합효소 연쇄 반응"(polymerase chain reaction)은 특정 DNA 분절의 합성을 위한 기술이며, 일련의 반복적인 변성, 어닐링 및 확장 사이클로 이루어진다. 일반적으로, 이중 가닥 DNA는 열 변성되고, 표적 분절의 3' 경계에 상보적인 두 개의 프라이머는 저온에서 DNA에 어닐링된 후 중간 온도에서 확장된다. 이러한 3개의 연속 단계의 한 세트를 "사이클"이라고 한다.

용어 "재조합"은, 예를 들어, 유전자 조작 기술에 의해 단리된 핵산 분절의 조작, 또는 화학적 합성에 의한, 그렇지 않았다면 분리된 2개의 서열 분절의 인공 조합을 지칭한다.

용어 "플라스미드", "벡터" 및 "카세트"는 세포의 중심 물질대사의 일부가 아닌 유전자를 종종 운반하는, 일반적으로 이중 가닥 DNA 형태의 염색체외 요소를 지칭한다. 이러한 요소는 임의의 공급원으로부터 유래된 단일 또는 이중 가닥 DNA 또는 RNA의, 선형 또는 원형 형태의, 자율적 복제 서열, 게놈 통합 서열, 파지 또는 뉴클레오티드 서열일 수 있고, 다수의 뉴클레오티드 서열은 세포에 관심 폴리뉴클레오티드를 도입할 수 있는 고유의 구조로 연결되거나 재조합되어 있다. "형질전환 카세트"는 유전자를 포함하면서 유전자 이외에 특정 숙주 세포의 형질전환을 촉진하는 요소를 갖는 특정 벡터를 지칭한다. "발현 카세트"는 유전자를 포함하면서 유전자 이외에 숙주에서 그 유전자의 발현을 가능하게 하는 요소를 갖는 특정 벡터를 지칭한다.

본원에 사용된 용어 "형질전환"은 숙주 생물 내로의 핵산 분자의 전달을 지칭한다. 핵산 분자는 자율적으로 복제하는 플라스미드일 수도 있고, 또는 숙주 생물의 게놈 내로 통합될 수도 있다. 용어 "재조합 DNA 분자", "재조합 작제물", "발현 작제물", "작제물", "작제물", 및 "재조합 DNA 작제물"은 본원에서 상호 교환적으로 사용된다. 재조합 작제물은 핵산 단편, 예를 들어, 자연계에서 모두가 함께 발견되지는 않는 조절 서열 및 코딩 서열의 인공 조합을 포함한다. 예를 들어, 작제물은 상이한 공급원으로부터 유래된 조절 서열과 코딩 서열, 또는 동일한 공급원으로부터 유래되었지만 자연계에서 발견되는 것과는 다른 방식으로 배열된 조절 서열과 코딩 서열을 포함할 수 있다. 이러한 작제물은 자체적으로 사용되거나 벡터와 함께 사용될 수 있다. 벡터가 사용되는 경우, 벡터의 선택은 당업자에게 잘 알려진 바와 같이 숙주 세포를 형질전환시키는 데 사용될 방법에 의존한다. 예를 들어, 플라스미드 벡터가 사용될 수 있다. 당업자는 숙주 세포를 성공적으로 형질전환시키고 선택하고 증식시키기 위해 벡터에 존재해야 하는 유전 요소를 잘 알고 있다. 당업자는 또한, 서로 다른 독립적인 형질전환 사건이 상이한 발현 수준 및 패턴을 초래할 수 있으므로(Jones et al., (1985) EMBO J 4:2411-2418; De Almeida et al., (1989) Mol Gen Genetics 218:78-86), 원하는 발현 수준 및 패턴을 나타내는 계통을 얻기 위해 일반적으로 여러 사건이 선별된다는 것을 인식할 것이다. 이러한 선별은 표준 분자 생물학적, 생화학적 분석법, 및 DNA의 서던 분석, mRNA 발현의 노던 분석, PCR, 실시간 정량 PCR(qPCR), 역전사 PCR(RT-PCR), 단백질 발현의 면역블로팅 분석, 효소 또는 활성 분석, 및/또는 표현형 분석을 비롯한 기타 분석법에 의해 달성될 수 있다.

본원에 사용된 용어 "발현"은 전구체 또는 성숙 형태의 기능적 최종 생성물(예컨대, mRNA, 가이드 RNA 또는 단백질)의 생성을 지칭한다.

용어 "제공"은 핵산(예를 들어, 발현 작제물) 또는 펩티드, 폴리펩티드 또는 단백질을 세포에 제공하는 것을 포함한다. 제공은 핵산이 세포의 게놈에 혼입될 수 있는 진핵 또는 원핵 세포내로의 핵산 또는 폴리펩티드의 혼입에 대한 언급을 포함하며, 핵산 또는 단백질을 세포에 일시적으로 공급하는 것에 대한 언급을 포함한다. 제공은 안정적 또는 일시적 형질전환 방법, 형질감염, 형질도입, 미세주입, 전기천공, 바이러스 방법, 아그로박테리움-매개 형질전환, 탄도 입자 가속화뿐만 아니라 유성 교배에 대한 언급을 포함한다. 따라서, 핵산 단편(예를 들어, 재조합 DNA 작제물/발현 작제물, 가이드 RNA, 가이드 DNA, 주형 DNA, 공여 DNA)을 세포에 삽입하는 맥락에서의 "제공"은 "형질감염" 또는 "형질전환" 또는 "형질도입"을 포함하며, 핵산 단편이 세포의 게놈(예를 들어, 염색체, 플라스미드, 색소체, 또는 미토콘드리아 DNA)에 혼입되거나, 자율 레플리콘으로 변환되거나, 또는 일시적으로 발현될 수 있는(예를 들어, 형질감염된 mRNA) 진핵 또는 원핵 세포내로의 핵산 단편의 혼입에 대한 언급을 포함한다.

안정적 형질전환 방법, 일시적 형질전환 방법, 바이러스 매개 방법, 유성 교배 및 유성 육종을 포함하는, 조성물(예컨대 뉴클레오티드 서열, 펩티드 또는 폴리펩티드)을 생물에 접촉, 제공, 및/또는 도입하는 다양한 방법이 알려져 있다. 안정적 형질전환은 도입된 폴리뉴클레오티드가 생물의 게놈에 통합되고 그의 자손에 의해 유전될 수 있음을 나타낸다. 일시적 형질전환은 도입된 조성물이 생물에서 단지 일시적으로 발현되거나 존재함을 나타낸다.

세포 또는 생물에 폴리뉴클레오티드 및 폴리펩티드를 접촉, 제공, 도입하는 프로토콜은 알려져 있으며, 미세주입(Crossway et al., (1986) Biotechniques 4:320-34 및 미국 특허 6,300,543호), 분열조직(meristem) 형질전환(미국 특허 5,736,369호), 전기천공(Riggs et al., (1986) Proc. Natl. Acad. Sci. USA 83:5602-6, 아그로박테리움 매개 형질전환(미국 특허 5,563,055호 및 5,981,840호), 직접적 유전자 전달(Paszkowski et al., (1984) EMBO J 3:2717-22), 및 탄도 입자 가속화(미국 특허 4,945,050호; 5,879,918호; 5,886,244호; 5,932,782호; Tomes et al., (1995) "Direct DNA Transfer into Intact Plant Cells via Microprojectile Bombardment" in Plant Cell, Tissue, and Organ Culture: Fundamental Methods, ed. Gamborg & Phillips (Springer-Verlag, Berlin); McCabe et al., (1988) Biotechnology 6:923-6; Weissinger et al., (1988) Ann Rev Genet 22:421-77; Sanford et al., (1987) Particulate Science and Technology 5:27-37(양파); Christou et al., (1988) Plant Physiol 87:671-4(대두); Finer and McMullen, (1991) In Vitro Cell Dev Biol 27P:175-82(대두); Singh et al., (1998) Theor Appl Genet 96:319-24(대두); Datta et al., (1990) Biotechnology 8:736-40(벼); Klein et al., (1988) Proc. Natl. Acad. Sci. USA 85:4305-9(옥수수); Klein et al., (1988) Biotechnology 6:559-63(옥수수); 미국 특허 5,240,855호; 5,322,783호 및 5,324,646호; Klein et al., (1988) Plant Physiol 91:440-4(옥수수); Fromm et al., (1990) Biotechnology 8:833-9(옥수수); Hooykaas-Van Slogteren et al., (1984) Nature 311:763-4; 미국 특허 5,736,369호(곡물); Bytebier et al., (1987) Proc. Natl. Acad. Sci. USA 84:5345-9(릴리아세애(Liliaceae); De Wet et al., (1985) in The Experimental Manipulation of Ovule Tissues, ed. Chapman et al., (Longman, New York), pp. 197-209(꽃가루); Kaeppler et al., (1990) Plant Cell Rep 9:415-8) and Kaeppler et al., (1992) Theor Appl Genet 84:560-6(휘스커(whisker) 매개 형질전환); D'Halluin et al., (1992) Plant Cell 4:1495-505(전기천공); Li et al., (1993) Plant Cell Rep 12:250-5; Christou and Ford (1995) Annals Botany 75:407-13(벼) 및 Osjoda et al., (1996) Nat Biotechnol 14:745-50(아그로박테리움 투메파시엔스 매개 옥수수), 화학적 형질전환(리튬 아세테이트 형질전환[Methods in Enzymology, 194:186-187 (1991))을 포함한다. 하나의 예로서, 미국 특허 4,880,741호 및 5,071,764호, 그리고 Chen 등(1997, Appl. Microbiol. Biotechnol. 48:232-235)은 DNA의 선형화 단편에 기초하여, Y. 리폴리티카에 대한 통합 기술을 기술한다.

대안적으로, 폴리뉴클레오티드는 세포 또는 생물을 바이러스 또는 바이러스 핵산과 접촉시켜 세포 또는 생물에 도입될 수 있다. 일반적으로, 이러한 방법은 바이러스성 DNA 또는 RNA 분자 내에 폴리뉴클레오티드를 혼입시키는 것을 포함한다. 일부 예에서, 관심 폴리펩티드는 처음에 바이러스성 폴리단백질의 일부로서 합성될 수 있고, 후에 생체내 또는 시험관내에서 단백분해에 의해 처리되어 원하는 재조합 단백질을 생성한다. 바이러스성 DNA 또는 RNA 분자를 포함하는 폴리뉴클레오티드를 식물에 도입하고 거기에서 암호화된 단백질을 발현시키는 방법은 공지되어 있으며, 예를 들어, 미국 특허 5,889,191호, 5,889,190호, 5,866,785호, 5,589,367호 및 5,316,931호를 참조한다. 일시적 형질전환 방법은 이중 가닥 절단 유도제와 같은 폴리펩티드를 생물에 직접 도입하는 것, 생물에 DNA 및/또는 RNA 폴리뉴클레오티드와 같은 폴리뉴클레오티드를 도입하는 것, 및 이중 가닥 절단 유도제를 암호화하는 mRNA와 같은 RNA 전사물을 도입하는 것을 포함하나, 이에 한정되는 것은 아니다. 이러한 방법은, 예를 들어, 미세주입 또는 유전자총을 포함한다. 예를 들어, Crossway et al., (1986) Mol Gen Genet 202:179-85; Nomura et al., (1986) Plant Sci 44:53-8; Hepler et al., (1994) Proc. Natl. Acad. Sci. USA 91:2176-80; 및, Hush et al., (1994) J Cell Sci 107:775-84를 참조한다.

핵산 및 단백질은 유도 Cas 시스템의 임의의 또는 모든 성분(단백질 및/또는 핵산), 예컨대 세포-침투 펩티드, 나노담체의 흡수를 촉진하기 위한 분자를 사용하는 방법을 포함하지만 이에 한정되지 않는, 당해 분야에 알려진 임의의 방법에 의해 세포에 제공될 수 있다. 또한 본원에 참조로 포함되는 US20110035836 Nanocarier based plant transfection and transduction, 및 EP 2821486 A1, Method of introducing nucleic acid into plant cells를 참조한다.

가이드 RNA/Cas 엔도뉴클레아제 복합체의 세포로의 제공은 직접적으로 또는 재조합 작제물을 통해 세포에 상기 복합체의 개별 성분을 제공하는 단계를 포함하며, 전체 복합체를 세포에 제공하는 단계를 또한 포함한다.

"성숙" 단백질은 번역 후 가공된 폴리펩티드(즉, 1차 번역 생성물에 존재하는 임의의 프리펩티드 또는 프로펩티드가 제거된 것)를 지칭한다. "전구체" 단백질은 mRNA 번역의 1차 생성물(즉, 프리펩티드 및 프로펩티드가 여전히 존재하는 것)을 지칭한다. 프리펩티드 및 프로펩티드는 세포내 국재화 신호일 수 있지만, 이에 한정되는 것은 아니다.

"안정적 형질전환"은 핵 및 세포소기관 게놈을 비롯한 숙주 생물의 게놈 내로 핵산 단편이 전달되어 유전적으로 안정한 유전(inheritance)을 야기하는 것을 지칭한다. 한편, "일시적 형질전환"은 숙주 생물의 핵 또는 기타 DNA 함유 세포소기관 내에 핵산 단편이 전달되어 통합 또는 안정적 유전 없이 유전자 발현을 야기하는 것을 지칭한다. 형질전환된 핵산 단편을 포함하는 숙주 생물은 "유전자이식" 생물로 지칭된다.

용어 "식물"은 전체 식물, 식물 기관, 식물 조직, 종자, 식물 세포, 그 종자 및 자손을 지칭한다. 식물 세포는 종자로부터의 세포, 현탁액 배양물, 배아, 분열부, 캘러스 조직, 잎, 뿌리, 어린 싹, 배우체, 포자체, 꽃가루 및 미포자를 포함하지만 이에 한정되는 것은 아니다. 식물 부분은 뿌리, 줄기, 어린 싹, 잎, 꽃가루, 종자, 종양 조직 및 다양한 형태의 세포 및 배양물(예컨대, 단일 세포, 원형질체, 배아 및 캘러스 조직)을 포함하지만 이에 한정되지 않는 분화 및 미분화 조직을 포함한다. 식물 조직은 식물에, 또는 식물 기관, 조직, 또는 세포 배양물에 있을 수 있다. 용어 "식물 기관"은 형태학적으로 및 기능적으로 구별되는 식물의 부분을 구성하는 식물 조직 또는 조직들의 집합을 지칭한다. 용어 "게놈"은 생물의 각각의 세포 또는 바이러스 또는 세포소기관에 존재하는 유전 물질(유전자 및 비코딩 서열)의 전체 상보체; 및/또는 한쪽 모체로부터(일배체) 단위로서 유전된 완전한 염색체 세트를 지칭한다. "자손"은 식물의 임의의 후속 세대를 포함한다.

유전자이식 식물은, 예를 들어, 형질전환 단계에 의해 도입된 이종 폴리뉴클레오티드를 그 게놈 내에 포함하는 식물을 포함한다. 이종 폴리뉴클레오티드는 폴리뉴클레오티드가 후속 세대로 전달되도록 게놈에 안정적으로 통합될 수 있다. 이종 폴리뉴클레오티드는 단독으로 또는 재조합 DNA 작제물의 일부로서 게놈에 통합될 수 있다. 유전자이식 식물은 그 게놈 내에 하나보다 많은 이종 폴리뉴클레오티드를 포함할 수도 있다. 각각의 이종 폴리뉴클레오티드는 유전자이식 식물에 상이한 형질을 부여할 수 있다. 이종 폴리뉴클레오티드는 외래종으로부터 유래하는 서열을 포함할 수 있고, 또는 동일 종으로부터 유래하는 경우, 그 고유의 형태로부터 실질적으로 변형될 수 있다. 유전자이식체는 초기에 그렇게 변경된 유전자이식체뿐만 아니라 초기의 유전자이식체로부터 유성 교배 또는 무성 번식에 의해 생성된 것들을 비롯하여, 이종 핵산의 존재에 의해 유전형이 변경된 임의의 세포, 세포주, 캘러스, 조직, 식물 부분 또는 식물을 포함할 수 있다. 종래의 식물 육종법, 외래 폴리뉴클레오티드의 삽입을 초래하지 않는 본원에 기술된 게놈 편집 절차, 또는 자연적으로 발생하는 사건, 예컨대, 무작위 타가 수정, 비재조합 바이러스 감염, 비재조합 박테리아 형질전환, 비재조합 전위, 또는 자연 돌연변이에 의한 (염색체 또는 염색체외) 게놈의 변경은 유전자이식체로 간주되지 않는다.

번식성 식물은 생활성 웅성 및 자성 배우체를 생성하는 식물이며, 자가 수정한다. 이러한 자가 수정 식물은 임의의 기타 배우체 식물 및 그 안에 포함된 유전 물질의 기여 없이 자손 식물을 생성할 수 있다. 웅성 번식불능 식물은 생활성이거나 그렇지 않으면 번식할 수 있는 웅성 배우체를 생성하지 않는 식물을 포함한다. 자성 번식불능 식물은 생활성이거나 그렇지 않으면 번식할 수 있는 자성 배우체를 생성하지 않는 식물을 포함한다. 웅성 번식불능 및 자성 번식불능 식물은 각각 자성 번식성 및 웅성 번식성일 수 있는 것으로 인식된다. 또한, 웅성 번식성(이지만, 자성 불임성) 식물은 자성 번식성 식물과 교배될 때 생활성 자손을 생성할 수 있고, 자성 번식성(이지만, 웅성 불임성) 식물은 웅성 번식성 식물과 교배될 때 생활성 자손을 생성할 수 있는 것으로 인식된다.

통상적인 효모, 예컨대 사카로마이세스 세레비시아 및 스키조사카로마이세스 폼베는 일반적으로 짧은 플랭킹 상동성 암(30~50 bp)을 갖는 공여 DNA와 보통 70%를 초과하는 효율로 특이적 통합을 나타내는 반면, 비 통상적인 효모, 예컨대 피키아 파스토리스, 한세눌라 폴리모르파, 야로위아 리폴리티카, 피키아 스티피티스 및 클루이베로마이세스 락티스는 보통 유사한 구조의 공여 DNA와 1% 미만의 효율로 특이적 통합을 나타낸다(Chen et al., PLoS ONE 8:e57952). 따라서, HR 프로세스에 대한 선호도는, 예를 들어, 효모를 적합한 공여 DNA로 형질전환시키고, 공여 DNA에 의해 표적화될 것으로 예측되는 게놈 부위와 특이적으로 재조합되는 정도를 결정함으로써 측정할 수 있다. 예를 들어, 이러한 분석법 결과, 효모 게놈에서 높은 정도의 공여 DNA의 무작위적 통합이 산출되는 경우, NHEJ에 대한 선호도(또는 HR에 대한 낮은 선호도)가 명백할 것이다. 효모에서 DNA의 특이적(HR-매개) 및/또는 무작위적(NHEJ-매개) 통합 비율을 결정하기 위한 분석법은 당해 분야에 공지되어 있다(예를 들어, Ferreira and Cooper, Genes Dev. 18:2249-2254; Corrigan et al., PLoS ONE 8:e69628; Weaver et al., Proc. Natl. Acad. Sci. U.S.A. 78:6354-6358; Keeney and Boeke, Genetics 136:849-856).

낮은 수준의 HR 활성을 고려하면, 본원의 비 통상적인 효모는 (i) 예를 들어, 약 1%, 2%, 3%, 4%, 5%, 6%, 7% 또는 8% 미만인 30 내지 50 bp의 플랭킹 상동성 암을 갖는 적합한 공여 DNA 또는 적합한 주형에 의한 특이적인 표적화 비율을 나타내고/내거나 (ii) 예를 들어, 약 65%, 66%, 67%, 68%, 69%, 70%, 71%, 72%, 73%, 74% 또는 75%를 초과하는 전술한 공여 DNA의 무작위적 통합 비율을 나타낼 수 있다. 적합한 주형 또는 공여 DNA의 (i) 특이적 표적화 및/또는 (ii) 무작위적 통합의 이러한 비율은 본원에 개시된 바와 같이 유도 Cas 시스템이 제공되기 전에 존재하는 그대로의 비 통상적인 효모를 특징지울 수 있다.

본원의 비 통상적인 효모의 비제한적인 예는 다음 속의 효모를 포함한다: 야로위아, 피키아, 쉬반니오마이세스(Schwanniomyces), 클루이베로마이세스, 아르술라(Arxula), 트리코스포론, 칸디다, 유스틸라고(Ustilago), 토룰롭시스(Torulopsis), 자이고사카로마이세스(Zygosaccharomyces), 트리고놉시스(Trigonopsis), 크립토코커스, 로도토룰라, 파피아(Phaffia), 스포로볼로마이세스(Sporobolomyces), 및 파키솔렌(Pachysolen). 야로위아 종의 적합한 예는 Y. 리폴리티카이다. 피키아 종의 적합한 예는 P. 파스토리스, P. 메타놀리카(methanolica), P. 스티피티스, P. 아노말라(anomala) 및 P. 앙구스타(angusta)를 포함한다. 쉬반니오마이세스 종의 적합한 예는 S. 카스텔리이(castellii), S. 알루비우스(alluvius), S. 호미니스(hominis), S. 옥시덴탈리스(occidentalis), S. 카프리오티이(capriottii), S. 에트첼시이(etchellsii), S. 폴리모르푸스(polymorphus), S. 슈도폴리모르푸스(pseudopolymorphus), S. 반리자(vanrijiae) 및 S. 야마다(yamadae)를 포함한다. 클루이베로마이세스 종의 적합한 예는 K. 락티스, K. 마르시아누스(marxianus), K. 프라길리스(fragilis), K. 드로소필라룸(drosophilarum), K. 써모톨레란스(thermotolerans), K. 파세올로스포루스(phaseolosporus), K. 바누데니이(vanudenii), K. 왈티이(waltii), K. 아프리카누스(africanus) 및 K. 폴리스포루스(polysporus)를 포함한다. 아르술라 종의 적합한 예는 A. 아데니니보란스(adeninivorans) 및 A. 테레스트레(terrestre)를 포함한다. 트리코스포론 종의 적합한 예는 T. 쿠타네움(cutaneum), T. 카피타툼(capitatum), T. 인킨(inkin) 및 T. 비메리(beemeri)를 포함한다. 칸디다 종의 적합한 예는 C. 알비칸스(albicans), C. 아스칼라피다룸(ascalaphidarum), C. 암피시아(amphixiae), C. 안타르티카(antarctica), C. 아르젠티아(argentea), C. 아틀란티카(atlantica), C. 아트모스패리카(atmosphaerica), C. 블랏타(blattae), C. 브로멜리아세아룸(bromeliacearum), C. 카르포필라(carpophila), C. 카르바잘리스(carvajalis), C. 세람비시다룸(cerambycidarum), C. 차울리오데스(chauliodes), C. 코리달리(corydali), C. 도스세이(dosseyi), C. 듀블리니엔시스(dubliniensis), C. 얼가텐시스(ergatensis), C. 프룩투스(fructus), C. 글라브라타(glabrata), C. 퍼멘타티(fermentati), C. 귈리어몬디이(guilliermondii), C. 해뮬로니이(haemulonii), C. 인섹타멘스(insectamens), C. 인섹토룸(insectorum), C. 인터메디아(intermedia), C. 제프레시이(jeffresii), C. 케피르(kefyr), C. 케로세네아(keroseneae), C. 크루세이(krusei), C. 루시타니아(lusitaniae), C. 릭소소필라(lyxosophila), C. 말토사(maltosa), C. 마리나(marina), C. 멤브라니파시엔스(membranifaciens), C. 밀러리(milleri), C. 모기이(mogii), C. 올레오필라(oleophila), C. 오레고넨시스(oregonensis), C. 파라프실로시스(parapsilosis), C. 퀴어시트루사(quercitrusa), C. 루고사(rugosa), C. 사케(sake), C. 쉐하테아(shehatea), C. 템노칠라(temnochilae), C. 테누이스(tenuis), C. 테아(theae), C. 톨러란스(tolerans), C. 트로피칼리스(tropicalis), C. 츠시이아(tsuchiyae), C. 시놀라보란티움(sinolaborantium), C. 소자(sojae), C. 수브하쉬이(subhashii), C. 비스와나치이(viswanathii), C. 유틸리스(utilis), C. 우바투벤시스(ubatubensis) 및 C. 젬플리니나(zemplinina)를 포함한다. 유스틸라고 종의 적합한 예는 U. 아베나(avenae), U. 에스쿨렌타(esculenta), U. 호르데이(hordei), U. 마이디스(maydis), U. 누다(nuda) 및 U. 트리티치(tritici)를 포함한다. 토룰롭시스 종의 적합한 예는 T. 게오차레스(geochares), T. 아지마(azyma), T. 글라브라타(glabrata) 및 T. 칸디다를 포함한다. 자이고사카로마이세스 종의 적합한 예는 Z. 바일리이(bailii), Z. 비스포루스(bisporus), Z. 시드리(cidri), Z. 퍼멘타티(fermentati), Z. 플로렌티누스(florentinus), Z. 콤부차엔시스(kombuchaensis), Z. 렌투스(lentus), Z. 멜리스(mellis), Z. 미크로엘립소이데스(microellipsoides), Z. 엠라키이(mrakii), Z. 슈도룩시이(pseudorouxii) 및 Z. 룩시이(rouxii)를 포함한다. 트리고놉시스 종의 적합한 예는 T. 바리아빌리스(variabilis)를 포함한다. 크립토코커스 종의 적합한 예는 C. 라우렌티이(laurentii), C. 알비두스(albidus), C. 네오포르만스(neoformans), C. 가티이(gattii), C. 유니구툴라투스(uniguttulatus), C. 아델리엔시스(adeliensis), C. 아에리우스(aerius), C. 알비도시밀리스(albidosimilis), C. 안타르크티쿠스(antarcticus), C. 아쿠아티쿠스(aquaticus), C. 아테르(ater), C. 부타넨시스(bhutanensis), C. 콘소르티오니스(consortionis), C. 쿠르바투스(curvatus), C. 페놀리쿠스(phenolicus), C. 스킨네리(skinneri), C. 테레우스(terreus) 및 C. 비쉬니아치(vishniacci)를 포함한다. 로도토룰라 종의 적합한 예는 R. 아체니오룸(acheniorum), R. 툴라(tula), R. 아쿠타(acuta), R. 아메리카나(americana), R. 아라우카리아(araucariae), R. 아르티카(arctica), R. 아르메니아카(armeniaca), R. 아우란티아카(aurantiaca), R. 아우리쿨라리아(auriculariae), R. 바카룸(bacarum), R. 벤티카(benthica), R. 비오우르게이(biourgei), R. 보고리엔시스(bogoriensis), R. 브론치알리스(bronchialis), R. 부포니이(buffonii), R. 칼립토게나(calyptogenae), R. 충나멘시스(chungnamensis), R. 클라디엔시스(cladiensis), R. 코랄리나(corallina), R. 크레솔리카(cresolica), R. 크로세아(crocea), R. 사이클로클라스티카(cycloclastica), R. 다이레넨시스(dairenensis), R. 디플루덴스(diffluens), R. 에베르글라디엔시스(evergladiensis), R. 페룰리카(ferulica), R. 폴리오룸(foliorum), R. 프라가리아(fragaria), R. 푸지사넨시스(fujisanensis), R. 푸트로넨시스(futronensis), R. 겔라티노사(gelatinosa), R. 글라시알리스(glacialis), R. 글루티니스(glutinis), R. 그라실리스(gracilis), R. 그라미니스(graminis), R. 그린베르그시이(grinbergsii), R. 히말라옌시스(himalayensis), R. 힌눌레아(hinnulea), R. 히스톨리티카(histolytica), R. 힐로필리아(hylophila), R. 인카르나타(incarnata), R. 인게니오사(ingeniosa), R. 자바니카(javanica), R. 코이쉬카웬시스(koishikawensis), R. 락토사(lactosa), R. 라멜리브라치아(lamellibrachiae), R. 라린기스(laryngis), R. 리그노필라(lignophila), R. 리니(lini), R. 론기스시마(longissima), R. 루드위기이(ludwigii), R. 리시노필라(lysinophila), R. 마리나(marina), R. 마르티니아에-프라간티스(martyniae-fragantis), R. 마트리텐시스(matritensis), R. 멜리(meli), R. 미누타(minuta), R. 무실라기노사(mucilaginosa), R. 니텐스(nitens), R. 노쏘파기(nothofagi), R. 오리자(oryzae), R. 파시피카(pacifica), R. 팔리다(pallida), R. 페네아우스(peneaus), R. 필릴라(philyla), R. 필로플라나(phylloplana), R. 필라티이(pilatii), R. 필리마나(pilimanae), R. 피니콜라(pinicola), R. 플리카타(plicata), R. 폴리모르파(polymorpha), R. 사이크로페놀리카(psychrophenolica), R. 사이크로필라(psychrophila), R. 푸스툴라(pustula), R. 레티노필라(retinophila), R. 로사세아(rosacea), R. 로술라타(rosulata), R. 루베파시엔스(rubefaciens), R. 루벨라(rubella), R. 루베센스(rubescens), R. 루브라(rubra), R. 루브로루고사(rubrorugosa), R. 루풀라(rufula), R. 루틸라(rutila), R. 산귀네아(sanguinea), R. 산니에이(sanniei), R. 사르토리이(sartoryi), R. 실베스트리스(silvestris), R. 심플렉스(simplex), R. 시넨시스(sinensis), R. 슬루피아(slooffiae), R. 손키이(sonckii), R. 스트라미네아(straminea), R. 수베리콜라(subericola), R. 수가니이(suganii), R. 타이와넨시스(taiwanensis), R. 타이와니아나(taiwaniana), R. 테르페노이달리스(terpenoidalis), R. 테레아(terrea), R. 텍센시스(texensis), R. 토쿄엔시스(tokyoensis), R. 울자마(ulzamae), R. 바닐리카(vanillica), R. 부일레미니이(vuilleminii), R. 야로위이, R. 윤나넨시스(yunnanensis) 및 R. 졸티이(zsoltii)를 포함한다. 파피아 종의 적합한 예는 P. 로도지마(rhodozyma)를 포함한다. 스포로볼로마이세스 종의 적합한 예는 S. 알보루베센스(alborubescens), S. 반나엔시스(bannaensis), S. 베이징엔시스(beijingensis), S. 비스초피아(bischofiae), S. 클라바투스(clavatus), S. 코프로스마(coprosmae), S. 코프로스미콜라(coprosmicola), S. 코랄리누스(corallinus), S. 딤메나(dimmenae), S. 드라코필리(dracophylli), S. 에론가투스(elongatus), S. 그라실리스(gracilis), S. 이노시토필루스(inositophilus), S. 존소니이(johnsonii), S. 코알라(koalae), S. 마그니스포루스(magnisporus), S. 노보제알란디쿠스(novozealandicus), S. 오도루스(odorus), S. 파타고니쿠스(patagonicus), S. 프로덕투스(productus), S. 로세우스(roseus), S. 사시콜라(sasicola), S. 쉬바타누스(shibatanus), S. 신굴라리스(singularis), S. 수브룬네우스(subbrunneus), S. 심메트리쿠스(symmetricus), S. 시지기이(syzygii), S. 타우포엔시스(taupoensis), S. 츄가(tsugae), S. 잔투스(xanthus) 및 S. 윤나넨시스를 포함한다. 파키솔렌 종의 적합한 예는 P. 탄노필루스(P. tannophilus)를 포함한다.

야로위아 리폴리티카(Y. 리폴리티카)의 예는 아메리칸 타입 컬쳐 컬렉션(ATCC, Manassas, VA)에서 이용 가능한 다음 단리물을 포함한다: 균주 표시 ATCC #20362, #8862, #8661, #8662, #9773, #15586, #16617, #16618, #18942, #18943, #18944, #18945, #20114, #20177, #20182, #20225, #20226, #20228, #20327, #20255, #20287, #20297, #20315, #20320, #20324, #20336, #20341, #20346, #20348, #20363, #20364, #20372, #20373, #20383, #20390, #20400, #20460, #20461, #20462, #20496, #20510, #20628, #20688, #20774, #20775, #20776, #20777, #20778, #20779, #20780, #20781, #20794, #20795, #20875, #20241, #20422, #20423, #32338, #32339, #32340, #32341, #34342, #32343, #32935, #34017, #34018, #34088, #34922, #34922, #38295, #42281, #44601, #46025, #46026, #46027, #46028, #46067, #46068, #46069, #46070, #46330, #46482, #46483, #46484, #46436, #60594, #62385, #64042, #74234, #76598, #76861, #76862, #76982, #90716, #90811, #90812, #90813, #90814, #90903, #90904, #90905, #96028, #201241, #201242, #201243, #201244, #201245, #201246, #201247, #201249, 및/또는 #201847.

Y. 리폴리티카뿐만 아니라 본원에서 임의의 다른 비 통상적인 효모는 유성(예를 들어, 그 건조 세포 중량의 적어도 25%를 오일로 생성한다)이고/이거나 하나 이상의 다중불포화 지방산(예를 들어, 오메가-6 또는 오메가-3)을 생성할 수 있다. 이러한 유성체는 효모가 그 야생형 형태에 비해 증가된 양의 지질을 생성하도록 유전적으로 조작된 결과일 수 있다. 유성 Y. 리폴리티카 균주의 예는 본원에 참조로 포함되는 미국 특허 출원 공개 2009/0093543호, 2010/0317072호, 2012/0052537호 및 2014/0186906호에 개시되어 있다.

비 통상적인 효모에 대해 본원에 개시된 구현예는 진균과 같은 다른 미생물에도 적용될 수 있다. 특정 구현예에서 진균은 HR에 의해 매개되는 복구 프로세스보다 NHEJ DNA 복구 프로세스를 선호하는 진균일 수 있다. 본원의 진균은 담자균(Basidiomycetes), 접합균(Zygomycetes), 호상균(Chytridiomycetes) 또는 자낭균(Ascomycetes) 진균일 수 있다. 본원의 사상균류의 예는 트리코데르마, 크리소스포리움(Chrysosporium), 티엘라비아(Thielavia), 뉴로스포라(Neurospora)(예를 들어, N. 크라사(crassa), N. 시토필라(sitophila)), 크리포넥트리아(Cryphonectria)(예를 들어, C. 파라시티카(parasitica)), 아우레오바시디움(Aureobasidium)(예를 들어, A. 풀루란스(pullulans)), 필리바시디움(Filibasidium), 피로마이세스(Piromyces), 크리플로코커스(Cryplococcus), 아크레모니움(Acremonium), 톨리포클라디움(Tolypocladium), 시탈리디움(Scytalidium), 스키조필룸(Schizophyllum), 스포로트리쿰(Sporotrichum), 페니실리움(Penicillium)(예를 들어, P. 빌라이아(bilaiae), P. 카멤베르티(camemberti), P. 칸디둠(candidum), P. 크리소게눔(chrysogenum), P. 엑스펜숨(expansum), P. 퍼니쿨로섬(funiculosum), P. 글라우컴(glaucum), P. 마네페이(marneffei), P. 로커포르티(roqueforti), P. 베르루코숨(verrucosum), P. 비리디카툼(viridicatum)), 지베렐라(Gibberella)(예를 들어, G. 아쿠미나타(acuminata), G. 아베나세아(avenacea), G. 바카타(baccata), G. 키르키나타(circinata), G. 시아노게나(cyanogena), G. 푸지쿠로이(fujikuroi), G. 인트리칸스(intricans), G. 풀리카리스(pulicaris), G. 스틸보이데스(stilboides), G. 트리킨크타(tricincta), G. 제아(zeae)), 미셀리오프토라(Myceliophthora), 뮤코(Mucor)(예를 들어, M. 룩시, M. 시르시넬로이데스), 아스퍼질러스(예를 들어, A. 니거(niger), A. 오리자(oryzae), A. 니둘란스(nidulans), A. 플라버스(flavus), A. 렌툴루스(lentulus), A. 테레우스, A. 클라바투스, A. 푸미가투스(fumigatus)), 푸사리움(예를 들어, F. 그라미네아룸(graminearum), F. 옥시스포룸(oxysporum), F. 부비게눔(bubigenum), F. 솔라니, F. 옥시스포룸, F. 베르티실리오이데스(verticillioides), F. 프로리페라툼(proliferatum), F. 베네나툼(venenatum)) 및 후미콜라(Humicola) 속의 것들 및 이들의 무성 생식형과 유성 생식형을 포함한다. 본원의 진균의 속 및 종은 원하는 경우 Barnett and Hunter(Illustrated Genera of Imperfect Fungi, 3rd Edition, Burgess Publishing Company, 1972)에 개시된 바와 같은 형태에 의해 정의될 수 있다. 진균은 선택적으로 해충/병원체, 예컨대 동물(예를 들어, 인간)의 해충/병원체로 특징지어질 수 있다.

본원의 특정 양태에서 트리코데르마 종은 T. 아그레시범(aggressivum), T. 아마조니쿰(amazonicum), T. 아스페렐룸(asperellum), T. 아트로비리데(atroviride), T. 아우레오비리데(aureoviride), T. 아우스트로코닌기이(austrokoningii), T. 브레비콤팩툼(brevicompactum), T. 칸디둠, T. 카리배움(caribbaeum), T. 카톱트론(catoptron), T. 크레메움(cremeum), T. 세라미쿰(ceramicum), T. 세리넘(cerinum), T. 클로로스포룸(chlorosporum), T. 크로모스페르뭄(chromospermum), T. 신나모메움(cinnamomeum), T. 시트리노비리데(citrinoviride), T. 크라숨(crassum), T. 크레메움(cremeum), T. 딩글레예아(dingleyeae), T. 도로테아(dorotheae), T. 에푸숨(effusum), T. 에리나세움(erinaceum), T. 에스토니쿰(estonicum), T. 페르틸레(fertile), T. 겔라티노수스(gelatinosus), T. 가넨세(ghanense), T. 하마툼(hamatum), T. 하르지아눔(harzianum), T. 헬리쿰(helicum), T. 인트리카툼(intricatum), T. 코니랑브라(konilangbra), T. 코닌기이(koningii), T. 코닌지옵시스(koningiopsis), T. 론지브라치아툼(longibrachiatum), T. 론지필레(longipile), T. 미누티스포룸(minutisporum), T. 오블론지스포룸(oblongisporum), T. 오발리스포룸(ovalisporum), T. 페테르세니이(petersenii), T. 필로스타히디스(phyllostahydis), T. 필루리페룸(piluliferum), T. 플레우로티콜라(pleuroticola), T. 플레우로툼(pleurotum), T. 폴리스포룸(polysporum), T. 슈도코닌기이(pseudokoningii), T. 푸베센스(pubescens), T. 레세이(reesei), T. 로게르소니(rogersonii), T. 로시쿰(rossicum), T. 사투르니스포룸(saturnisporum), T. 시넨시스(sinensis), T. 시누오숨(sinuosum), T. 스피랄레(spirale), T. 스트라미네움(stramineum), T. 스트리고숨(strigosum), T. 스트로마티쿰(stromaticum), T. 수로툰둠(surrotundum), T. 타이와넨세(taiwanense), T. 타일랜디쿰(thailandicum), T. 텔레포리콜룸(thelephoricolum), T. 테오브로미콜라(theobromicola), T. 토멘토숨(tomentosum), T. 벨루티눔(velutinum), T. 비렌스(virens), T. 비리데(viride) 및 T. 비리데센스(viridescens)를 포함한다. 본원에서 트리코데르마 종은, 예를 들어 본원에 참조로 포함되는 Trichoderma: Biology and Applications (P.K. Mukherjee et al., Eds., CABI, Oxfordshire, UK, 2013)에 기술된 바와 같이 배양되고/되거나 조작될 수 있다.

특정 구현예에서, 미생물 세포는 조류 세포이다. 예를 들어, 조류 세포는 다음 중 임의의 것으로부터 유래될 수 있다: 클로로피타(Chlorophyta, 녹조류), 로도피타(Rhodophyta, 홍조류), 패오피세아(Phaeophyceae, 갈조류), 바실라리오피캐아(Bacillariophycaeae, 규조류) 및 디노플라겔라타(Dinoflagellata, 와편모충류(디노플라겔레이트(dinoflagellates, 와편모조류)). 다른 양태에서, 조류 세포는 미세조류(예를 들어, 식물성 플랑크톤, 미소식물 또는 플랑크톤 조류) 또는 거대조류(켈프, 해초)일 수 있다. 추가적인 예로, 본원의 조류 세포는 포르피라(Porphyra)(김), 팔마리아(Palmaria) 종, 예컨대 P. 팔마타(palmata)(덜스(dulse)), 아르트로스피라(Arthrospira) 종, 예컨대 A. 플라텐시스(platensis)(스피룰리나(spirulina)), 클로렐라(Chlorella)(예를 들어, C. 프로토테코이데스(protothecoides)), 콘드루스(Chondrus) 종, 예컨대 C. 크리스푸스(crispus)(아이리쉬 모스(Irish moss)), 아파니조메논(Aphanizomenon), 사르가쑴(Sargassum), 코차유요(Cochayuyo), 보트리오코커스(Botryococcus)(예를 들어, B. 브라우니이(braunii)), 두날리엘라(Dunaliella)(예를 들어, D. 테르티올렉타(tertiolecta)), 그라실라리아(Gracilaria), 플레우로크리시스(Pleurochrysis)(예를 들어, P. 카르테라(carterae)), 안키스트로데스무스(Ankistrodesmus), 시클로텔라(Cyclotella), 한츠슈이아(Hantzschia), 난노클로리스(Nannochloris), 난노클로롭시스(Nannochloropsis), 니츠키아(Nitzschia), 패오닥틸룸(Phaeodactylum)(예를 들어, P. 트리코누툼(tricornutum)), 세네데스무스(Scenedesmus), 스티코코커스(Stichococcus), 테트라셀미스(Tetraselmis)(예를 들어, T. 수에시카(suecica)), 탈라시오시라(Thalassiosira)(예를 들어, T. 슈도나나(pseudonana)), 크립테코디니움(Crypthecodinium)(예를 들어, C. 코흐니이(cohnii)), 네오클로리스(Neochloris)(예를 들어, N. 올레오아분단스(oleoabundans)) 또는 치오키트리움(Schiochytrium)일 수 있다. 본원에서 조류 종은, 예를 들어 본원에 참조로 포함되는 Thompson(Algal Cell Culture. Encyclopedia of Life Support System (EOLSS), Biotechnology Vol 1, eolss.net/sample-chapters 인터넷 사이트에서 이용할 수 있음)에 기술된 바와 같이 배양되고/되거나 조작될 수 있다.

본원의 원생생물 세포는 예를 들어, 섬모충강(예컨대, 테트라히메나(Tetrahymena), 파라메시움(Paramecium), 콜피디움(Colpidium), 콜포다(Colpoda), 글라우코마(Glaucoma), 플라티오프르야(Platyophrya), 보르티셀라(Vorticella), 포토마쿠스(Potomacus), 슈도코닐렘부스(Pseudocohnilembus), 유플로테스(Euplotes), 엔겔마니엘라(Engelmaniella) 및 스틸로니키아(Stylonichia) 속), 편모충아문(편모류), 식물성 편모충강(예컨대, 유글레나(Euglena), 아스타시아(Astasia), 해마토코커스(Haematococcus) 및 크립테코디니움(Crypthecodinium) 속), 동물성 편모충강, 근족충상강, 엽상근족충강(예컨대, 아메바(Amoeba) 속) 및 진동균충강(예컨대, 딕티오스텔리움(Dictyostelium) 및 피사룸(Physarum) 속)으로부터 선택될 수 있다. 본원의 특정 원생생물 종은, 예를 들어 본원에 참조로 포함되는 ATCC® Protistology Culture Guide: tips and techniques for propagating protozoa and algae(2013, 아메리칸 타입 컬쳐 컬렉션 인터넷 사이트에서 이용 가능함)에 기술된 바와 같이 배양되고/되거나 조작될 수 있다. 특정 구현예에서 원생생물은 선택적으로 식물 또는 동물(예컨대, 인간)의 해충/병원균으로 특징지어질 수 있다.

특정 구현예에서 박테리아 세포는 구균, 간균, 스피로헤타(spirochetes), 스페로플라스트(spheroplasts), 원형질체 등의 형태일 수 있다. 박테리아의 다른 예는 그람 음성 및 그람 양성 박테리아를 포함하지만, 이에 한정되는 것은 아니다. 박테리아의 또 다른 예는 살모넬라(예컨대, S. 티피(typhi), S. 엔테리티디스(enteritidis)), 시겔라(예컨대, S. 디스엔테리아(dysenteriae)), 에스케리챠(예컨대, 대장균), 엔테로박터(Enterobacter), 세라티아(Serratia), 프로테우스(Proteus), 예시니아, 시트로박터(Citrobacter), 에드워드시엘라(Edwardsiella), 프로비덴시아(Providencia), 클레브시엘라(Klebsiella), 하프니아(Hafnia), 에윈겔라(Ewingella), 클루이베라(Kluyvera), 모르가넬라(Morganella), 플라노코커스(Planococcus), 스토마토코커스(Stomatococcus), 미크로코커스(Micrococcus), 스타필로코커스(예컨대, S. 아우레우스(aureus), S. 에피데르미디스(epidermidis)), 비브리오(예컨대, V. 콜레라(cholerae)), 애로모나스(Aeromonas), 플레스시오모나스(Plessiomonas), 해모필루스(Haemophilus)(예컨대, H. 인플루엔자), 악티노바실러스(Actinobacillus), 파스퇴렐라(Pasteurella), 마이코플라스마(Mycoplasma)(예컨대, M. 뉴모니아(pneumonia)), 우레아플라스마(Ureaplasma), 리케챠(Rickettsia), 콕시엘라(Coxiella), 로칼리매아(Rochalimaea), 에를리키아(Ehrlichia), 스트렙토코커스(Streptococcus)(예컨대, S. 피오제네스, S. 뮤탄스, S. 뉴모니아), 엔테로코커스(Enterococcus)(예컨대, E. 패칼리스(faecalis)), 애로코커스(Aerococcus), 게멜라(Gemella), 락토코커스(Lactococcus)(예컨대, L. 락티스(lactis)), 류코노스톡(Leuconostoc)(예컨대, L. 메센테로이데스(mesenteroides)), 페디코커스(Pedicoccus), 바실러스(예컨대, B. 세레우스(cereus), B. 서브틸리스(subtilis), B. 튜린기엔시스(thuringiensis)), 코리네박테리움(Corynebacterium)(예컨대, C. 디프테리아(diphtheriae)), 아르카노박테리움(Arcanobacterium), 악티노마이세스(Actinomyces), 로도코커스(Rhodococcus), 리스테리아(Listeria)(예컨대, L. 모노시토게네스(monocytogenes)), 에리시페로트릭스(Erysipelothrix), 가드네렐라(Gardnerella), 네이세리아(Neisseria)(예컨대, N. 메닌기티디스(meningitidis), N. 고노레아(gonorrhoeae)), 캄필로박터(Campylobacter), 아르코박터(Arcobacter), 울리넬라(Wolinella), 헬리코박터(Helicobacter)(예컨대, H. 파일로리(pylori)), 아크로모박터(Achromobacter), 아시네토박터(Acinetobacter), 아그로박테리움(Agrobacterium)(예컨대, A. 투메파시엔스(tumefaciens)), 알카리게네스(Alcaligenes), 크리세오모나스(Chryseomonas), 코마모나스(Comamonas), 에이케넬라(Eikenella), 플라비모나스(Flavimonas), 플라보박테리움(Flavobacterium), 모락셀라(Moraxella), 올리겔라(Oligella), 슈도모나스(Pseudomonas)(예컨대, P. 애루기노사(aeruginosa)), 세와넬라(Shewanella), 위크셀라(Weeksella), 산토모나스(Xanthomonas), 보르데텔라(Bordetella), 프란시에셀라(Franciesella), 브루셀라(Brucella), 레지오넬라(Legionella), 아피피아(Afipia), 바르토넬라(Bartonella), 카림마토박테리움(Calymmatobacterium), 카르디오박테리움(Cardiobacterium), 스트렙토바실러스(Streptobacillus), 스피릴룸(Spirillum), 펩토스트렙토코커스(Peptostreptococcus), 펩토코커스(Peptococcus), 사르시니아(Sarcinia), 코프로코커스(Coprococcus), 루미노코커스(Ruminococcus), 프로피오니박테리움(Propionibacterium), 모빌룬커스(Mobiluncus), 비피도박테리움(Bifidobacterium), 유박테리움(Eubacterium), 락토바실러스(Lactobacillus)(예컨대, L. 락티스(lactis), L. 애시도필루스(acidophilus)), 로티아(Rothia), 클로스트리듐(Clostridium)(예컨대, C. 보툴리눔(botulinum), C. 퍼프린겐스(perfringens)), 박테로이데스(Bacteroides), 포르피로모나스(Porphyromonas), 프레보텔라(Prevotella), 푸소박테리움(Fusobacterium), 빌로필라(Bilophila), 렙토트리키아(Leptotrichia), 울리넬라(Wolinella), 애시드아미노코커스(Acidaminococcus), 메가스패라(Megasphaera), 베일로넬라(Veilonella), 노르카르디아(Norcardia), 악티노마두라(Actinomadura), 노르카디옵시스(Norcardiopsis), 스트렙토마이세스(Streptomyces), 마이크로폴리스포라스(Micropolysporas), 써모악티노마이세테스(Thermoactinomycetes), 마이코박테리움(Mycobacterium)(예컨대, M. 투베르쿨로시스(tuberculosis), M. 보비스(bovis), M. 레프라(leprae)), 트레포네마(Treponema), 보렐리아(Borrelia)(예컨대, B. 부르그도르페리(burgdorferi)), 렙토스피라(Leptospira) 및 클라미디아(Chlamydiae) 속의 것들을 포함하지만, 이에 한정되는 것은 아니다. 특정 구현예에서 박테리아는 선택적으로 식물 또는 동물(예컨대, 인간)의 해충/병원균으로서 특징지어질 수 있다. 특정 구현예에서 박테리아는 (예컨대, 기타 박테리아를 함유하거나 효모 및/또는 기타 박테리아를 함유하는) 혼합 미생물 집단 내에 포함될 수 있다.

특정 구현예에서 고세균 세포는 임의의 고세균 문, 예컨대, 유리고세균(Euryarchaeota), 크렌고세균(Crenarchaeota), 나노고세균(Nanoarchaeota), 코르고세균(Korarchaeota), 아이그고세균(Aigarchaeota), 또는 타움고세균(Thaumarchaeota)으로부터 유래될 수 있다. 본원의 고세균 세포는 예를 들어, 호극성일 수 있다(예컨대, 대부분의 생명체에 유해한 물리적으로 또는 지구화학적으로 극도의 조건에서 성장 및/또는 번식할 수 있다). 호극성 고세균의 일부 예는 호온성(예컨대, 45~122℃의 온도에서 성장할 수 있음), 과호열성(예컨대, 80~122℃의 온도에서 성장할 수 있음), 호산성(예컨대, 3 이하의 pH 수준에서 성장할 수 있음), 호알칼리성(예컨대, 9 이상의 pH 수준에서 성장할 수 있음), 및/또는 호염성(예컨대, 고염 농도[예를 들어, 20~30% NaCl]에서 성장할 수 있음)인 것들을 포함한다. 고세균 종의 예는 할로박테리움(Halobacterium)(예컨대, H. 볼카니이(volcanii)), 설폴로부스(Sulfolobus)(예컨대, S. 설파타리쿠스(solfataricus), S. 애시도칼다리우스(acidocaldarius)), 써모코커스(Thermococcus)(예컨대, T. 알칼리필루스(alcaliphilus), T. 셀레르(celer), T. 키토노파구스(chitonophagus), T. 감마톨레란스(gammatolerans), T. 하이드로써말리스(hydrothermalis), T. 코다카렌시스(kodakarensis), T. 리토랄리스(litoralis), T. 펩토노필루스(peptonophilus), T. 프로푼두스(profundus), T. 스테테리(stetteri)), 메타노칼도코커스(Methanocaldococcus)(예컨대, M. 써모리토트로피쿠스(thermolithotrophicus), M. 잔나스키이(jannaschii)), 메타노코커스(Methanococcus)(예컨대, M. 마리팔루디스(maripaludis)), 메타노써모박터(Methanothermobacter)(예컨대, M. 마르부르겐시스(marburgensis), M. 썸오토트로피쿠스(thermautotrophicus)), 아캐오글로부스(Archaeoglobus)(예컨대, A. 풀기두스(fulgidus)), 니트로소푸밀루스(Nitrosopumilus)(예컨대, N. 마리티무스(maritimus)), 메탈로스패라(Metallosphaera)(예컨대, M. 세둘라(sedula)), 페로플라스마(Ferroplasma), 써모플라스마(Thermoplasma), 메타노브레비박터(Methanobrevibacter)(예컨대, M. 스미시이(smithii)), 및 메타노스패라(Methanosphaera)(예컨대, M. 스타츠마나(stadtmanae)) 속의 것들을 포함한다.

특정 구현예에서, 포유류 세포는 인간, 비 인간 영장류(예컨대, 원숭이, 유인원), 설치류(예컨대, 마우스, 랫트, 햄스터, 기니 피그), 토끼, 개, 고양이, 소, 돼지, 말, 염소, 또는 양 세포일 수 있다. 본원의 포유류 세포의 기타 예는 1차 상피 세포(예컨대, 각질 세포, 자궁 경부 상피 세포, 기관지 상피 세포, 기관 상피 세포, 신장 상피 세포, 망막 상피 세포); 확립된 세포주(예컨대, 293 배아 신장 세포, HeLa 자궁 경부 상피 세포, PER-C6 망막 세포, MDBK 세포, CRFK 세포, MDCK 세포, CHO 세포, BeWo 세포, Chang 세포, Detroit 562 세포, Hep-2 세포, KB 세포, LS 180 세포, LS 174T 세포, NCI-H-548 세포, RPMI 2650 세포, SW-13 세포, T24 세포, WI-28 VA13 세포, 2RA 세포, WISH 세포, BS-C-I 세포, LLC-MK2 세포, 클론(Clone) M-3 세포, RAG 세포, TCMK-1 세포, LLC-PK1 세포, PK-15 세포, GH1 세포, GH3 세포, L2 세포, LLC-RC 256 세포, MH1C1 세포, XC 세포, MDOK 세포, VSW 세포, TH-I 세포, B1 세포); 임의의 조직 또는 기관(예컨대, 피부, 심장; 간; 신장; 결장; 장; 식도; 위; 신경 조직, 예컨대, 뇌 또는 척수; 폐; 혈관 조직; 림프양 조직, 예컨대, 림프샘, 아데노이드, 편도, 골수, 또는 혈액; 비장)으로부터의 임의의 상피 세포, 중간엽 세포(예컨대, 섬유아세포), 신경 세포, 또는 근육 세포; 및 섬유아세포 또는 섬유아세포 유사 세포주(예컨대, TRG-2 세포, IMR-33 세포, Don 세포, GHK-21 세포, 시트룰린혈증 세포, Dempsey 세포, Detroit 551 세포, Detroit 510 세포, Detroit 525 세포, Detroit 529 세포, Detroit 532 세포, Detroit 539 세포, Detroit 548 세포, Detroit 573 세포, HEL 299 세포, IMR-90 세포, MRC-5 세포, WI-38 세포, WI-26 세포, MiCl1 세포, CV-1 세포, COS-1 세포, COS-3 세포, COS-7 세포, Vero 세포, DBS-FrhL-2 세포, BALB/3T3 세포, F9 세포, SV-T2 세포, M-MSV-BALB/3T3 세포, K-BALB 세포, BLO-11 세포, NOR-10 세포, C3H/IOTI/2 세포, HSDM1C3 세포, KLN205 세포, McCoy 세포, 마우스 L 세포, SCC-PSA1, Swiss/3T3 세포, Indian muntjac 세포, SIRC 세포, Jensen 세포)를 포함한다. 포유류 세포주를 배양하고 조작하는 방법은 당해 분야에 공지되어 있다.

특정 구현예에서, 세포는 동물 또는 식물의 임의의 병원균 및/또는 해충일 수 있다. 이러한 병원균/해충의 예는 다양한 유형의 박테리아, 진균, 효모, 원생생물, 선충 및 곤충을 포함한다. 당업자라면 위에 개시된 이러한 병원균/해충의 예를 인식할 것이다.

"센티모건"(cM) 또는 "지도 단위"는 두 개의 연결된 유전자, 마커, 표적 부위, 유전자좌, 또는 이들의 임의의 쌍 간의 거리이고, 감수분열 생성물의 1%는 재조합체이다. 따라서, 센티모건은 두 개의 연결된 유전자, 마커, 표적 부위, 유전자좌, 또는 이들의 임의의 쌍 간의 1% 평균 재조합 빈도와 동일한 거리에 해당한다.

본원에 기술된 가이드 RNA/Cas 시스템은 뉴클레아제의 표적을 벗어난 절단이 표적 세포에 독성을 나타낼 수 있는 환경에서 게놈 조작, 특히 미생물 및 식물 게놈 조작에 특히 유용하다. 본원에 기술된 가이드 RNA/Cas 시스템의 하나의 구현예에서, 발현 최적화 Cas9 유전자는 표적 게놈, 예를 들어, 야로위아의 게놈 내로 안정적으로 통합된다. Cas9 유전자의 발현은 프로모터, 예를 들어 야로위아 프로모터의 제어 하에 있다. 가이드 RNA 또는 crRNA의 부재시, Cas9 단백질은 DNA를 자를 수 없으므로 세포에서 그 존재는 거의 또는 전혀 영향을 미치지 않을 것이다. 따라서, 본원에 기술된 가이드 RNA/Cas 시스템의 주요 장점은 세포 생활성에 거의 또는 전혀 영향을 미치지 않고 Cas9 단백질을 효율적으로 발현시킬 수 있는 세포주 또는 생물을 생성하고 유지하는 능력이다.

가이드 RNA/Cas 시스템 매개 유전자 표적화는 관심 유전자를 도입하기 위해 이중 가닥 절단 유도제를 사용하는 대신, 본원에 개시된 것과 같은 가이드 RNA/Cas 시스템을 사용하는 WO2013/0198888(2013년 8월 1일 공개)에 개시된 것과 유사한 방식으로 이식유전자 삽입을 유도하는 방법 및/또는 여러 이식유전자를 포함하는 복잡한 유전자이식 형질 유전자좌를 생성하는 방법에 사용될 수 있다. 복잡한 유전자이식 형질 유전자좌는 서로 유전적으로 연결된 여러 이식유전자를 갖는 게놈 유전자좌를 포함한다. 서로로부터 0.1, 0.2, 0.3, 0.4, 0.5, 1.0, 2, 또는 심지어 5센티모건(cM) 내에 독립적 이식유전자를 삽입함으로써, 이식유전자들은 단일 유전자좌로서 증식될 수 있다(예를 들어, 미국 특허 출원 13/427,138) 또는 PCT 출원 PCT/US2012/030061 참조.

관심 표현형 또는 형질과 상관관계가 있는 염색체 간격은 동정될 수 있다. 염색체 간격을 동정하기 위해 당해 분야에 잘 알려진 다양한 방법을 이용할 수 있다. 이러한 염색체 간격의 경계는 관심 형질을 제어하는 유전자에 연결될 마커를 포함하도록 정해진다. 다시 말해, 염색체 간격은 그 간격 내에 있는 임의의 마커(간격의 경계를 정의하는 말단 마커를 포함)가 노던 잎마름병 저항성을 위한 마커로서 사용될 수 있도록 정해진다. 하나의 구현예에서, 염색체 간격은 적어도 하나의 QTL을 포함하고, 또한 실제로 하나보다 많은 QTL을 포함할 수 있다. 하나의 마커는 하나보다 많은 QTL에 대한 연관을 나타낼 수 있으므로, 동일한 간격에서 여러 QTL의 가까운 근접성은 특정 마커와 특정 QTL의 상관관계를 모호하게 할 수 있다. 반대로, 예를 들어, 근접한 두 개의 마커가 원하는 표현형 형질과 공동 분리를 보이는 경우, 이들 각각의 마커가 동일한 QTL을 동정하는지 두 개의 다른 QTL을 동정하는지 때로는 불분명하다. 용어 "양적 형질 유전자좌" 또는 "QTL"은 적어도 하나의 유전적 배경, 예를 들어, 적어도 하나의 육종 개체군에서 양적 표현형 형질의 차별적 발현과 관련된 DNA의 영역을 지칭한다. QTL의 영역은 문제의 형질에 영향을 미치는 유전자 또는 유전자들을 포함하거나 이들에 가까이 연관된다. "QTL의 대립 유전자"는 일배체형과 같은 연속된 게놈 영역 또는 연관 그룹 내에 여러 유전자 또는 기타 유전 인자를 포함할 수 있다. QTL의 대립 유전자는 특정 윈도우 내의 일배체형을 나타낼 수 있으며, 상기 윈도우는 하나 이상의 다형성 마커의 세트로 정의되고 추적될 수 있는 연속된 게놈 영역이다. 일배체형은 특정 윈도우 내 각각의 마커에서 대립 유전자의 고유의 지문에 의해 정의될 수 있다.

선별 가능한 마커 표현형을 사용하지 않고 표적 부위 또는 그 근처에서 변경된 게놈을 갖는 세포를 동정하기 위해 다양한 방법을 이용할 수 있다. 이러한 방법은 PCR 방법, 시퀀싱 방법, 뉴클레아제 소화, 서던 블롯, 및 이들의 임의의 조합을 포함하지만 이에 한정되지 않으며, 표적 서열을 직접 분석하여 표적 서열에서 임의의 변화를 검출하는 것으로 볼 수 있다.

단백질은 아미노산 치환, 결실, 절단, 및 삽입을 비롯한 다양한 방식으로 변경될 수 있다. 이러한 조작 방법은 일반적으로 알려져 있다. 예를 들어, 단백질(들)의 아미노산 서열 변이체는 DNA의 돌연변이에 의해 제조될 수 있다. 돌연변이유발 및 뉴클레오티드 서열 변경 방법은, 예를 들어 Kunkel, (1985) Proc. Natl. Acad. Sci. USA 82:488-92; Kunkel et al., (1987) Meth Enzymol 154:367-82; 미국 특허 4,873,192호; Walker and Gaastra, eds. (1983) Techniques in Molecular Biology (MacMillan Publishing Company, New York) 및 여기에 인용된 참고문헌을 포함한다. 단백질의 생물학적 활성에 영향을 미치지 않을 것 같은 아미노산 치환에 관한 지침은, 예를 들어, Dayhoff et al., (1978) Atlas of Protein Sequence and Structure (Natl Biomed Res Found, Washington, D.C.)의 모델에서 발견된다. 하나의 아미노산을 유사한 성질을 갖는 다른 아미노산과 교환하는 것과 같은 보존적 치환이 바람직할 수 있다. 보존적 결실, 삽입 및 아미노산 치환은 단백질의 특성에 근본적인 변화를 일으킬 것으로 예상되지 않으며, 임의의 치환, 결실, 삽입, 또는 이들의 조합의 효과는 통상적인 선별 분석법에 의해 평가될 수 있다. 이중 가닥 절단 유도 활성에 대한 분석법은 알려져 있고, 일반적으로 표적 부위를 포함하는 DNA 기질 상에서 작용제의 전체 활성 및 특이성을 측정한다.

예를 들어, 형질전환, 유성 교배, 및 세포내 폴리펩티드, DNA, 또는 mRNA의 도입을 비롯하여, 뉴클레오티드 서열 및 폴리펩티드를 생물에 도입하기 위한 다양한 방법이 알려져 있다.

조성물을 다양한 생물에 접촉, 제공 및/또는 도입하는 방법은 공지되어 있고, 안정적 형질전환 방법, 일시적 형질전환 방법, 바이러스 매개 방법, 및 유성 육종을 포함하나, 이에 한정되는 것은 아니다. 안정적 형질전환은 도입된 폴리뉴클레오티드가 생물의 게놈에 통합되고 그의 자손에 의해 유전될 수 있음을 나타낸다. 일시적 형질전환은 도입된 조성물이 생물에서 단지 일시적으로 발현되거나 존재함을 나타낸다.

폴리뉴클레오티드 및 폴리펩티드를 식물에 도입하기 위한 프로토콜은 형질전환을 위해 표적화된 식물 또는 식물 세포의 유형, 예컨대 외떡잎 식물 또는 쌍떡잎 식물에 따라 달라질 수 있다. 폴리뉴클레오티드 및 폴리펩티드를 식물 세포에 도입하고 이어서 식물 게놈 내에 삽입하는 데 적합한 방법은 미세주입(Crossway et al., (1986) Biotechniques 4:320-34 및 미국 특허 6,300,543호), 분열조직 형질전환(미국 특허 5,736,369호), 전기천공(Riggs et al., (1986) Proc. Natl. Acad. Sci. USA 83:5602-6, 아그로박테리움 매개 형질전환(미국 특허 5,563,055호 및 5,981,840호), 직접적 유전자 전달(Paszkowski et al., (1984) EMBO J 3:2717-22), 및 탄도 입자 가속화(미국 특허 4,945,050호; 5,879,918호; 5,886,244호; 5,932,782호; Tomes et al., (1995) "Direct DNA Transfer into Intact Plant Cells via Microprojectile Bombardment" in Plant Cell, Tissue, and Organ Culture: Fundamental Methods, ed. Gamborg & Phillips (Springer-Verlag, Berlin); McCabe et al., (1988) Biotechnology 6:923-6; Weissinger et al., (1988) Ann Rev Genet 22:421-77; Sanford et al., (1987) Particulate Science and Technology 5:27-37(양파); Christou et al., (1988) Plant Physiol 87:671-4(대두); Finer and McMullen, (1991) In Vitro Cell Dev Biol 27P:175-82(대두); Singh et al., (1998) Theor Appl Genet 96:319-24(대두); Datta et al., (1990) Biotechnology 8:736-40(벼); Klein et al., (1988) Proc. Natl. Acad. Sci. USA 85:4305-9(옥수수); Klein et al., (1988) Biotechnology 6:559-63(옥수수); 미국 특허 5,240,855호; 5,322,783호 및 5,324,646호; Klein et al., (1988) Plant Physiol 91:440-4(옥수수); Fromm et al., (1990) Biotechnology 8:833-9(옥수수); Hooykaas-Van Slogteren et al., (1984) Nature 311:763-4; 미국 특허 5,736,369호(곡물); Bytebier et al., (1987) Proc. Natl. Acad. Sci. USA 84:5345-9(릴리아세아(Liliaceae)); De Wet et al., (1985) in The Experimental Manipulation of Ovule Tissues, ed. Chapman et al., (Longman, New York), pp. 197-209(꽃가루); Kaeppler et al., (1990) Plant Cell Rep 9:415-8) 및 Kaeppler et al., (1992) Theor Appl Genet 84:560-6(휘스커(whisker) 매개 형질전환); D'Halluin et al., (1992) Plant Cell 4:1495-505(전기천공); Li et al., (1993) Plant Cell Rep 12:250-5; Christou and Ford (1995) Annals Botany 75:407-13(벼) 및 Osjoda et al., (1996) Nat Biotechnol 14:745-50(아그로박테리움 투메파시엔스 매개 옥수수)을 포함한다.

대안적으로, 폴리뉴클레오티드는 식물을 바이러스 또는 바이러스성 핵산과 접촉시켜 식물에 도입될 수 있다. 일반적으로, 이러한 방법은 바이러스성 DNA 또는 RNA 분자 내에 폴리뉴클레오티드를 혼입시키는 것을 포함한다. 일부 예에서, 관심 폴리펩티드는 처음에 바이러스 폴리단백질의 일부로서 합성될 수 있고, 후에 생체내 또는 시험관내에서 단백분해에 의해 처리되어 원하는 재조합 단백질을 생성한다. 바이러스성 DNA 또는 RNA 분자를 포함하는 폴리뉴클레오티드를 식물에 도입하고 거기에서 암호화된 단백질을 발현시키는 방법은 공지되어 있으며, 예를 들어, 미국 특허 5,889,191호, 5,889,190호, 5,866,785호, 5,589,367호 및 5,316,931호를 참조한다. 일시적 형질전환 방법은 이중 가닥 절단 유도제와 같은 폴리펩티드를 생물에 직접 도입하는 것, 생물에 DNA 및/또는 RNA 폴리뉴클레오티드와 같은 폴리뉴클레오티드를 도입하는 것, 및 이중 가닥 절단 유도제를 암호화하는 mRNA와 같은 RNA 전사물을 도입하는 것을 포함하나, 이에 한정되는 것은 아니다. 이러한 방법은, 예를 들어, 미세주입 또는 유전자총을 포함한다. 예를 들어, Crossway et al., (1986) Mol Gen Genet 202:179-85; Nomura et al., (1986) Plant Sci 44:53-8; Hepler et al., (1994) Proc. Natl. Acad. Sci. USA 91:2176-80; 및, Hush et al., (1994) J Cell Sci 107:775-84를 참조한다.

용어 "쌍떡잎 식물"(dicot)은 "디코틸레도네아(dicotyledoneae)"로도 알려진 속씨 식물의 하위강을 지칭하며, 전체 식물, 식물 기관(예컨대, 잎, 줄기, 뿌리 등), 종자, 식물 세포, 및 그 자손에 대한 언급을 포함한다. 식물 세포는, 본원에 사용된 바와 같이, 종자, 현탁 배양물, 배아, 분열부, 캘러스 조직, 잎, 뿌리, 어린 싹, 배우체, 포자체, 꽃가루 및 미포자를 포함하지만 이에 한정되는 것은 아니다.

본 명세서의 맥락에서 용어 "교배"(crossed, cross, 또는 crossing)는 자손(즉, 세포, 종자, 또는 식물)을 생성하기 위한 수분을 통한 생식세포의 융합을 의미한다. 이 용어는 유성 교배(다른 식물에 의한 식물의 수분) 및 자가생식(자기 수분, 즉, 꽃가루 및 밑씨(또는 소포자 및 대포자)가 동일 식물 또는 유전적으로 동일한 식물로부터 유래된 경우)을 모두 포함한다.

용어 "이입"(introgression)은 유전자좌의 원하는 대립 유전자가 하나의 유전적 배경으로부터 다른 유전적 배경으로 전달되는 것을 지칭한다. 예를 들어, 특정 유전자좌에서의 원하는 대립 유전자의 이입은, 적어도 하나의 모체 식물이 그 게놈 내에 원하는 대립 유전자를 갖는 두 모체 식물 간의 유성 교배를 통해 적어도 하나의 자손 식물에 전달될 수 있다. 대안적으로, 예를 들어, 대립 유전자의 전달은, 예를 들어, 적어도 하나의 공여 원형질체가 그 게놈 내에 원하는 대립 유전자를 갖는 융합된 원형질체에서, 두 공여 게놈 간의 재조합에 의해 일어날 수 있다. 원하는 대립 유전자는, 예를 들어, 이식유전자, 변형된(돌연변이되거나 편집된) 고유의 대립 유전자, 또는 마커 또는 QTL의 선택된 대립 유전자일 수 있다.

표준 DNA 단리, 정제, 분자 클로닝, 벡터 작제, 및 검증/특성규명 방법은 잘 확립되어 있으며, 예를 들어 Sambrook et al., (1989) Molecular Cloning: A Laboratory Manual, (Cold Spring Harbor Laboratory Press, NY)를 참조한다. 벡터 및 작제물은 관심 폴리뉴클레오티드와 선택적으로 링커, 어댑터, 조절 또는 분석을 비롯한 다른 성분을 포함하는 선형 폴리뉴클레오티드 및 원형 플라스미드를 포함한다. 일부 예에서, 인식 부위 및/또는 표적 부위는 인트론, 코딩 서열, 5' UTR, 3' UTR, 및/또는 조절 영역 내에 포함될 수 있다.

외떡잎 식물 및 쌍떡잎 식물을 비롯한 임의의 식물이 사용될 수 있다. 사용될 수 있는 외떡잎 식물의 예는 옥수수(제아 메이스(Zea mays)), 벼(오리자 사티바(Oryza sativa)), 호밀(세칼레 세레알레(Secale cereale)), 수수(소르검 비칼라(Sorghum bicolor), 소르검 불가레(Sorghum vulgare)), 밀렛(예컨대, 펄 밀렛(페니세툼 글라쿰(Pennisetum glaucum)), 프로소 밀렛(파니쿰 밀리아세움(Panicum miliaceum)), 조(세타리아 이탈리카(Setaria italica)), 손가락조(엘류신 코라카나(Eleusine coracana)), 밀(트리티쿰 아에스티붐(Triticum aestivum)), 사탕수수(사카룸(Saccharum) 종), 귀리(아베나(Avena)), 보리(호르데움(Hordeum)), 스위치그래스(파니쿰 비르가툼(Panicum virgatum)), 파인애플(아나나스 코모수스(Ananas comosus)), 바나나(무사(Musa) 종), 야자, 관상용 식물, 잔디, 및 기타 풀을 포함하나, 이에 한정되는 것은 아니다. 사용될 수 있는 쌍떡잎 식물의 예는 대두(글리신 맥스(Glycine max)), 카놀라(브라시카 나푸스(Brassica napus) 및 B. 캠페스트리스(campestris)), 알팔파(메디카고 사티바(Medicago sativa)), 담배(니코티아나 타바쿰(Nicotiana tabacum)), 아라비돕시스(아라비돕시스 탈리아나(Arabidopsis thaliana)), 해바라기(헬리안투스 안누스(Helianthus annuus)), 목화(고시피움 아르보레움(Gossypium arboreum)), 땅콩(아라키스 하이포개아(Arachis hypogaea)), 토마토(솔라눔 리코페르시쿰(Solanum lycopersicum)) 및 감자(솔라눔 투베로숨(Solanum tuberosum)) 등을 포함하나, 이에 한정되는 것은 아니다.

약어의 의미는 다음과 같다: "sec"는 초, "min"은 분, "h"는 시간, "d"는 일, "㎕"는 마이크로리터, "mL"은 밀리리터, "L"은 리터, "μM"은 마이크로몰 농도, "mM"은 밀리몰 농도, "M"은 몰 농도, "mmol"은 밀리몰, "㎛ole"은 마이크로몰, "g"는 그램, "㎍"는 마이크로그램, "ng"는 나노그램, "U"는 단위, "bp"는 염기쌍, "kb"는 킬로염기를 의미한다.

본원에 개시된 조성물 및 방법의 비제한적인 예는 다음과 같다:

1. 그 게놈에 변형 뉴클레오티드 서열을 포함하는 세포를 선택하는 방법으로서, a) 세포에 가이드 폴리뉴클레오티드, 적어도 하나의 보호 폴리뉴클레오티드 변형 주형 및 Cas 엔도뉴클레아제를 제공하는 단계로서, 상기 Cas 엔도뉴클레아제 및 가이드 폴리뉴클레오티드는 상기 세포의 게놈 내 표적 부위에서 단일 또는 이중 가닥 절단을 도입할 수 있는 복합체를 형성할 수 있고, 상기 보호 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는 단계; 및 b) 상기 변형 뉴클레오티드 서열을 포함하는 단계 (a)로부터의 세포를 선택하는 단계를 포함하는 방법.

2. 구현예 1에 있어서, 보호 폴리뉴클레오티드 변형 주형이 그 5'-말단, 3'-말단, 또는 5' 및 3'-말단 둘 다에 적어도 하나의 보호 분자를 포함하는 선형 폴리뉴클레오티드인 방법.

3. 구현예 2에 있어서, 보호 분자가 알칸 스페이서, 형광단, NHS 에스테르, 디곡시젠, 콜레스테릴-TEG, C6, C12, 헥시닐, 옥스타디이닐 dUTP, 바이오틴, 디티올, 역위 디데옥시-T 변형 또는 이의 임의의 한 조합으로 이루어진 군으로부터 선택되는 방법.

4. 구현예 1에 있어서, 보호 폴리뉴클레오티드 변형 주형이 원형 폴리뉴클레오티드인 방법.

5. 구현예 1에 있어서, 상기 보호 폴리뉴클레오티드 변형 주형이 적어도 한 가닥의 5'-말단에 적어도 하나의 포스포로티오에이트 결합을 포함하는 단일 가닥 또는 이중 가닥 선형 분자인 방법.

6. 구현예 1에 있어서, 상기 보호 폴리뉴클레오티드 변형 주형이 각 가닥의 5'-말단에 3탄소 알칼리성 스페이서를 포함하는 단일 가닥 또는 이중 가닥 선형 분자인 방법.

7. 구현예 1 내지 6 중 어느 하나에 있어서, 보호 폴리뉴클레오티드 주형의 적어도 하나의 뉴클레오티드 변형이 (i) 적어도 하나의 뉴클레오티드의 치환, (ii) 적어도 하나의 뉴클레오티드의 결실, (iii) 적어도 하나의 뉴클레오티드의 삽입, 및 (iv) (i) 내지 (iii)의 임의의 조합으로 이루어진 군으로부터 선택되는 방법.

8. 구현예 1에 있어서, 상기 세포에서 상동 유도 복구(HDR) 및 비-상동 말단 연결(NHEJ)의 빈도를 결정하는 단계를 추가로 포함하는 방법.

9. 구현예 8에 있어서, HDR의 빈도가 비보호(대조군) 폴리뉴클레오티드 변형 주형을 사용한 것을 제외하고 구현예 1의 방법과 모두 동일한 성분 및 단계를 갖는 대조 방법에서 유도되는 HDR 빈도에 비해 적어도 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11%, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 21%, 22%, 23%, 24%, 25%, 26%, 27%, 28%, 29%, 30%, 31%, 32%, 33%, 34%, 35%, 36%, 37%, 38%, 39%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 100%, 200%, 또는 250%만큼 증가되는 방법.

10. 구현예 8에 있어서, NHEJ의 빈도가 비보호(대조군) 폴리뉴클레오티드 변형 주형을 사용한 것을 제외하고 구현예 1의 방법과 모두 동일한 성분 및 단계를 갖는 대조 방법에서 유도되는 NHEJ 빈도에 비해 적어도 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11%, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 21%, 22%, 23%, 24%, 25%, 26%, 27%, 28%, 29%, 30%, 31%, 32%, 33%, 34%, 35%, 36%, 37%, 38%, 39%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%만큼 감소되는 방법.

11. 구현예 1에 있어서, 상기 세포에서 보호 폴리뉴클레오티드 변형 주형의 부위를 벗어난 통합 빈도를 추가로 결정하는 방법.

12. 구현예 11에 있어서, 상기 세포에서 보호 폴리뉴클레오티드 변형 주형의 부위를 벗어난 통합 빈도가 비보호(대조군) 폴리뉴클레오티드 변형 주형을 사용한 것을 제외하고 구현예 1의 방법과 모두 동일한 성분 및 단계를 갖는 대조 방법에서 유도되는 부위를 벗어난 통합 빈도에 비해 감소되는 방법.

13. 그 게놈의 표적 부위에 삽입된 관심 폴리뉴클레오티드를 포함하는 세포를 선택하는 방법으로서, a) 세포에 가이드 폴리뉴클레오티드, 적어도 하나의 보호 폴리뉴클레오티드 공여 DNA 및 Cas 엔도뉴클레아제를 제공하는 단계로서, 상기 Cas 엔도뉴클레아제 및 가이드 폴리뉴클레오티드는 상기 세포의 게놈 내 표적 부위에서 단일 또는 이중 가닥 절단을 도입할 수 있는 복합체를 형성할 수 있고, 상기 보호 폴리뉴클레오티드 공여 DNA는 상기 세포의 게놈 내로 삽입될 관심 폴리뉴클레오티드를 포함하는 단계; 및 b) 그 게놈의 표적 부위에 삽입된 관심 폴리뉴클레오티드를 포함하는 단계 (a)로부터의 세포를 선택하는 단계를 포함하는 방법.

14. 그 게놈의 표적 부위에 삽입된 관심 폴리뉴클레오티드를 포함하는 미생물 세포를 선택하는 방법으로서, a) 세포에 가이드 폴리뉴클레오티드, 적어도 하나의 보호 폴리뉴클레오티드 공여 DNA 및 Cas 엔도뉴클레아제를 제공하는 단계로서, 상기 Cas 엔도뉴클레아제 및 가이드 폴리뉴클레오티드는 상기 세포의 게놈 내 표적 부위에서 단일 또는 이중 가닥 절단을 도입할 수 있는 복합체를 형성할 수 있고, 상기 보호 폴리뉴클레오티드 공여 DNA는 상기 세포의 게놈 내로 삽입될 관심 폴리뉴클레오티드를 포함하는 단계; 및 b) 그 게놈의 표적 부위에 삽입된 관심 폴리뉴클레오티드를 포함하는 단계 (a)로부터의 미생물 세포를 선택하는 단계를 포함하는 방법.

15. 구현예 1 및 13에 있어서, 세포가 인간, 비인간, 동물, 박테리아, 고세균, 진균, 곤충, 효모, 비 통상적인 효모, 식물 및 미생물 세포로 이루어지는 군으로부터 선택되는 방법.

16. 구현예 15에 있어서, 미생물 세포가 효모 세포 또는 비 통상적인 효모로부터의 세포인 방법.

17. 구현예 16에 있어서, 상기 효모가 야로위아, 피키아, 쉬반니오마이세스, 클루이베로마이세스, 아르술라, 트리코스포론, 칸디다, 유스틸라고, 토룰롭시스, 자이고사카로마이세스, 트리고놉시스, 크립토코커스, 로도토룰라, 파피아, 스포로볼로마이세스, 및 파키솔렌으로 이루어지는 군으로부터 선택된 속의 구성원인 비 통상적인 효모.

18. 구현예 13에 있어서, (b)의 세포로부터 식물을 생성하는 단계를 추가로 포함하는 방법.

실시예

다음 실시예들에서, 달리 언급되지 않는 한, 부(parts) 및 백분율은 중량 기준이고 도(degree)는 섭씨이다. 이 실시예들은 본 발명의 구현예들을 나타내지만, 예시로서만 제공되는 것임을 이해해야 한다. 상기 논의 및 이들 실시예로부터, 당업자는 다양한 용도 및 조건에 맞도록 본 발명을 다양하게 변화 및 변형시킬 수 있다. 이러한 변형도 첨부된 청구범위의 범위 내에 속하는 것으로 의도된다.

실시예 1

Can1을 표적화하는 Cas9 HDV-gRNA 발현 플라스미드.

본 실시예는 델타 간염 바이러스(HDV) 리보자임이 5' 말단에 플랭킹한 단일 가이드 RNA(sgRNA)의 용도에 대해 논의한다. HDV 리보자임은 그 자신 서열의 5'을 절단하여 임의의 앞 RNA 서열을 제거하지만, gRNA의 5' 말단에 융합된 HDV 서열은 남긴다.

야로위아에서 sgRNA/Cas 엔도뉴클레아제 시스템을 평가하기 위해, 스트렙토코커스 피오제네스 M1 GAS로부터의 Cas9 유전자(SF370(SEQ ID NO: 1)를 당해 분야에 공지된 표준 기법에 따라 야로위아 코돈 최적화하였다(SEQ ID NO: 2). Cas9 단백질을 세포의 핵으로 국재화하기 위해, 시미안 바이러스 40(SV40) 1부분(PKKKRKV, SEQ ID NO: 3) 핵 국재화 신호를 Cas9 단백질의 카복시 말단에 혼입하였다. 야로위아 코돈 최적화 Cas9 유전자를 표준 분자 생물학 기술에 의해 야로위아 항시성 프로모터, FBA1(SEQ ID NO: 4)에 융합하였다. FBA1 프로모터 및 야로위아 최적화 Cas9-NLS 융합을 포함하는 야로위아 코돈 최적화 Cas9 발현 카세트의 하나의 예를 SEQ ID NO: 5에 나타낸다. Cas9 발현 카세트를 플라스미드 pZuf 내에 클로닝하여 pZufCas9(SEQ ID NO 6)를 생성하였다.

pZuf-Cas9CS(SEQ ID NO: 6)에 존재하는 야로위아 코돈 최적화 Cas9 유전자(SEQ ID NO: 2)에 존재하는 내인성 AarI 부위를 제거하기 위해 Agilent QuickChange 및 다음 프라이머: AarI-제거-1(AGAAGTATCCTACCATCTACcatctccGAAAGAAACTCGTCGATTCC, SEQ ID NO: 7) 및 AarI-제거-2(GGAATCGACGAGTTTCTTTCggagatgGTAGATGGTAGGATACTTCT, SEQ ID NO: 8)를 사용하여 플라스미드 pZuf-Cas9CS(SEQ ID NO: 6)를 돌연변이화하여 pRF109(SEQ ID NO: 9)를 생성하였다. 변형 Aar1-Cas9CS 유전자(SEQ ID NO: 10)를 pRF109(SEQ ID NO: 9)로부터의 NcoI/NotI 단편으로서 pZufCas9CS(SEQU ID NO: 6)의 NcoI/NotI 부위 내로 클로닝하여 기존 Cas9 유전자(SEQ ID NO: 2)를 Aar1-Cas9 유전자(SEQ ID NO: 10)로 치환하고 pRF141(SEQ ID NO: 11)을 생성하였다.

고처리량 가변 표적화 도메인(VT) 클로닝 카세트(도 1, SEQ ID NO: 12)는 yl52 프로모터(SEQ ID NO: 13), HDV 리보자임을 암호화하는 DNA 서열(SEQ ID NO: 14), 대장균 역 선택 카세트 rpsL(SEQ ID NO: 15), Cas9 CER 도메인을 암호화하는 DNA(SEQ ID NO: 16) 및 S. 세레비시아 SUP4 종결자(SEQ ID NO: 17)로 구성된다. 고처리량 클로닝 카세트(SEQ ID NO: 12)의 말단에는 PacI 및 ClaI 제한 효소 인식 부위가 플랭킹한다. 고처리량 클로닝 카세트(SEQ ID NO: 12)를 pRF141(SEQ ID NO: 11)의 PacI/ClaI 부위 내로 클로닝하여 pRF291(SEQ ID NO 14)을 생성하였다. rpsL 역 선택 카세트(SEQ ID NO: 15)는 그 고유 프로모터 및 종결자와 함께 대장균 rpsL 유전자의 WT 사본을 포함한다. rpsL은 S12 리보솜 단백질 서브유닛을 암호화한다(Escherichia coli and Salmonella typhimurium: Cellular and Molecular Biology, 1987 American Society of Microbiology). S12 서브유닛에서의 일부 돌연변이는 rpsL 유전자의 야생형 사본이 존재하는 경우 균주 표현형이 스트렙토마이신에 민감하도록(Lederberg, J. (1951). "Streptomycin resistance; a genetically recessive mutation." J Bacteriol 61(5): 549-550.) 열성 방식으로(Lederberg, J. (1951). "Streptomycin resistance; a genetically recessive mutation." J Bacteriol 61(5): 549-550.) 항생제 스트렙토마이신에 대한 저항성을 유도한다(Ozaki, M., et al. (1969). "Identification and functional characterization of the protein controlled by the streptomycin-resistant locus in E. coli." Nature 222(5191): 333-339). 일반 클로닝 균주, 예컨대 Top10(Life technologies)은 세포가 스트렙토마이신에 저항성이도록 이의 염색체 상에 rpsL의 돌연변이된 사본을 갖는다.

가변 표적화 도메인의 pRF291 내로의 클로닝은 어닐링되는 경우, 이들이 원하는 가변 표적화 도메인뿐만 아니라 고처리량 클로닝 카세트에 존재하는 2개의 AarI 부위 내로의 클로닝을 위한 정확한 돌출부를 포함하는 2개의 부분 상보적인 올리고뉴클레오티드를 필요로 한다. 야로위아 리폴리티카의 CAN1 유전자(SEQ ID NO: 23)에서 Can1-1 표적 부위(SEQ ID NO: 22)를 표적화하는 가변 표적화 도메인 Can1-1을 암호화하는 DNA(SEQ ID NO: 21)를 포함하는 두 올리고뉴클레오티드, Can1-1F(AATGGGACtcaaacgattacccaccctcGTTT, SEQ ID NO: 19) 및 Can1-1R(TCTAAAACgagggtgggtaatcgtttgaGTCC, SEQ ID NO: 20)을 듀플렉스 완충액(30 mM HEPES pH 7.5, 100 mM 나트륨 아세테이트) 중 100 μM로 재현탁하였다. Can1-1F(SEQ ID NO: 19) 및 Can1-1R(SEQ ID NO: 20)을 단일 튜브에서 각각 50 μM의 최종 농도로 혼합하고, 5분 동안 95℃로 가열하고 0.1℃/분으로 25℃까지 냉각하여 두 올리고뉴클레오티드를 어닐링하여 소형 듀플렉스 DNA 분자(도 2)를 형성하였다. 20 ㎕ 최종 부피에 50 ng의 pRF291, Can1-1F(SEQ ID NO: 19) 및 Can1-1R(SEQ ID NO: 20)로 구성되는 2.5 μM의 소형 듀플렉스 DNA, 1x T4 리가아제 완충액(50 mM Tris-HCl, 10 mM MgCl₂, 1 mM ATP, 10 mM DTT pH 7.5), 0.5 μM AarI 올리고뉴클레오티드, 2단위 AarI, 40단위 T4 DNA 리가아제를 포함하는 단일 튜브 소화/결찰 반응물을 생성하였다. 듀플렉스화 Can1-1F 및 Can1-1R 듀플렉스가 없는 제2 대조군 반응물도 어셈블리하였다. 반응물을 30분 동안 37℃에서 인큐베이션하였다. 10 ㎕의 각 반응물을 이전에 기술된 바와 같이(Green, M. R. & Sambrook, J. Molecular Cloning: A Laboratory Manual. Fourth Edition edn, (Cold Spring Harbor Laboratory Press, 2012)) Top10 대장균 세포내로 형질전환하였다. Can1-1F(SEQ ID NO: 19) 및 Can1-1R(SEQ ID NO: 20) 듀플렉스가 AarI 제한 부위가 플랭킹한 rpsL 역 선택 마커를 치환한 pRF291의 존재를 선택하기 위해(도 1), 세포를 100 ㎍/ml 암피실린 및 50 ㎍/ml 스트렙토마이신을 포함하는 1.5%(w/v) Bacto 한천으로 고화된 용원 액체배지 상에 접종하였다. 고처리량 클로닝 카세트를 포함하는 pRF291의 존재는 표현형이 항생제 암피실린에 대해 저항성이지만 플라스미드 상의 역 선택 카세트의 존재로 인해 항생제 스트렙토마이신에 민감한 콜로니를 산출하였다. 그러나 AarI 효소를 통해 역 선택 카세트가 제거되고 듀플렉스 DNA를 포함하는 Can1-1 가변 표적화 도메인이 그 부위 내에 결찰된 경우(AarI에 대한 인식 서열을 제거함), 플라스미드로 형질전환된 세포는 암피실린 저항성, 스트렙토마이신 저항성 표현형을 가졌다(도 1). 역 선택 카세트를 치환하는 Can1-1 가변 표적화 도메인을 포함하는 pRF291은 SUP4 종결자(SEQ ID NO: 17)에 융합된, CER 도메인을 암호화하는 DNA(SEQ ID NO: 16)에 융합된, Can1-1 가변 표적화 도메인을 암호화하는 DNA(SEQ ID NO: 21)에 융합된, HDV 리보자임을 암호화하는 DNA(SEQ ID NO: 14)에 융합된, yl52 프로모터(SEQ ID NO: 13)를 포함하는 재조합 Can1-1 gRNA 발현 카세트(SEQ ID NO: 19)를 산출하였다. 상기 작제물을 포함하는 플라스미드, pRF303(SEQ ID NO: 24)을 사용하여 야로위아 리폴리티카의 CAN1 유전자(SEQ ID NO: 23)를 Cas9로 표적화하였다.

실시예 2

보호 폴리뉴클레오티드 변형 주형의 생성.

Cas9/gRNA 생성 DNA 이중 가닥 절단(DSB)의 복구 동안, 이중 가닥 DNA 절단(DSB)의 복구를 위한 비-상동 말단 연결 경로를 사용하는 데 대한 대부분의 진핵 세포 유형의 선호는 일반적으로 큰 백그라운드 NHEJ 유래 돌연변이(삽입-결실)를 산출하며, 소수의 콜로니만 절단을 복구하기 위해 상동-유도 재조합(HDR) 단백질을 사용한다. 이는 DSB에서 주형화된 변화를 일으키기 위해 주형을 사용하고 편집하는 전형적인 유전자 편집 실험에서, Cas9/gRNA 생성 DSB가 HDR을 사용해서 복구된 사건을 찾기 위해 여러 사건을 선별해야 함을 의미한다. 보호 폴리뉴클레오티드 편집 주형의 사용은 Cas9/gRNA 생성 DSB의 HDR 복구 빈도를 증가시키는 방법을 제공하여 원하는 편집을 포함하는 사건을 찾기 위해 선별해야 하는 사건의 수를 감소시킨다. 본 실시예는 "보호 폴리뉴클레오티드 변형 주형"으로 지칭되는, 분해되기 더 어렵게 만드는 변형 말단을 갖는 3가지 상이한 유형의 폴리뉴클레오티드 변형 주형 분자의 생성을 기술한다. 이러한 보호 폴리뉴클레오티드 변형 주형은 잠재적으로 세포내 엑소뉴클레아제 활성으로부터 주형을 보호하여 주형 안정성을 변경하고/하거나 비-상동 말단-연결(NHEJ)을 위한 기질로 작용하는 주형의 능력을 변경할 수 있다. 원하는 유전자 편집 사건이 두 상이한 상동성 암 사이 영역의 결실인 경우(도 3a) 편집 주형은 개재 서열 없이 연결된 2개의 상동성 암을 포함할 것이다(도 3b). 3가지 유형의 보호 폴리뉴클레오티드 변형 주형은 1) 이용 가능한 이중 가닥 말단을 갖지 않는 원형 DNA 주형(도 3d) 각 가닥의 5' 말단에서 3탄소 알칸 스페이서로 변형된 선형 이중 가닥 DNA 주형(도 3c), 및 3) 각 가닥에서 5개의 가장 5' 포스포디에스테르 결합이 포스포로티오에이트 결합으로 치환된 선형 이중 가닥 DNA 주형(도 3c)이다.

비보호(비변형) 폴리뉴클레오티드 변형 주형을 2개의 PCR 생성물을 제조하여 생성하였고, 하나는 표준 기법을 사용하여 야로위아 리폴리티카 ATCC20362 게놈 DNA로부터 증폭된 CAN1 오픈 리딩 프레임의 2 bp 5'으로 말단 형성되는 620 bp(SEQ ID NO: 25)이다(사용한 프라이머, GGGAAGCTTGCTACGTTAGGAGAAGACGC(전방, SEQ ID NO: 26) 및 GGAGAGAGCGTCGGGAGTGGTCGGATGGATGGAGACG(후방, SEQ ID NO:27)). 후방 프라이머는 CAN1 오픈 리딩 프레임의 3' 37 bp 서열에 상보적인 17개 뉴클레오티드를 부가하며, 전방 프라이머는 5’ HinDIII 인식 부위를 부가한다. 제2 PCR 생성물은 CAN1 오픈 리딩 프레임의 3' 37개 염기쌍에서 시작하는 637 bp로 이루어진다(SEQ ID NO: 28). 상기 PCR 생성물은 야로위아 리폴리티카 ATCC20362 게놈 DNA로부터 표준 기법을 사용하여 증폭하였다(사용한 프라이머, CGTCTCCATCCATCCGACCACTCCCGACGCTCTCTCC(전방, SEQ ID NO: 29) 및 CCATACATCCTTCCACCACTGC(후방, SEQ ID NO: 30)). 전방 프라이머는 CAN1 오픈 리딩 프레임의 5' 2 bp로 말단 형성되는 영역에 상보적인 20개 뉴클레오티드를 부가한다. 상류(SEQ ID NO: 25) 및 하류 PCR 생성물(SEQ ID NO:28)은 모두 Zymo clean and concentrate 컬럼을 사용하여 정제하였다. 10 ng의 각각의 PCR 생성물을 새로운 PCR 반응물과 혼합하였다. 상류 생성물의 3’ 37개 뉴클레오티드는 하류 생성물의 5’ 37개 뉴클레오티드와 동일하다. 상류 및 하류 단편을 서로 프라이밍하기 위해 사용하여 상류 및 하류 서열 둘 다를 포함하는 중복 말단으로부터의 합성에 의해 비보호 폴리뉴클레오티드 변형 주형(SEQ ID NO: 31)을 나타내는 단일 생성물을 생성하였다(Horton et al (2013) Biotechniques 54(3):129-133)(도 3b). 비보호(대조군) 폴리뉴클레오티드 변형 주형 전체를 HinDIII로 소화하고 표준 기법을 사용해서 pUC18(SEQ ID NO: 32)의 HinDIII 부위 내로 클로닝하여 플라스미드 pRF80(SEQ ID NO: 33)을 생성하였다. 플라스미드 pRF80은 상동 유도 복구(HDR)를 위한 주형으로 사용되는 경우 전체 CAN1 오픈 리딩 프레임의 결실을 일으킬 1210 bp DNA 단편(SEQ ID NO: 34)을 포함하는 이중 가닥 원형 보호 폴리뉴클레오티드 변형 주형을 나타낸다(도 3d).

선형 보호 폴리뉴클레오티드 변형 주형을 pRF80(SEQ ID NO: 33) 상의 클로닝된 주형으로부터 생성하였다. pRF80에 포함된 주형을 표준 기법 및 화학적으로 합성된 변형 올리고뉴클레오티드를 프라이머로 사용하여(IDT) PCR 증폭하였다. 알칸 스페이서로 변형된 5' 말단을 갖는 선형 보호 폴리뉴클레오티드 변형 주형을 생성하기 위해, pRF80으로부터의 주형을 증폭하여(사용한 프라이머: /5SpC3/AGCTTGCTACGTTAGGAGAA, 전방(SEQ ID NO: 35) 및 /5SpC3/TATGAGCTTATCCTGTATCG, 후방(SEQ ID NO:36)) 각 가닥의 5' 말단에 5' 알칸 스페이서를 갖는 CAN1 ORF 결실 주형을 포함하는 1215 bp PCR(SEQ ID NO: 34)을 생성하였다. PCR 주형으로 pRF80(SEQ ID NO: 33)을 사용하여 본질적으로 동일한 방식으로 제2 선형 보호 폴리뉴클레오티드 변형 주형을 생성하였다. 5개의 가장 5' 포스포디에스테르 결합이 포스포로티오에이트 결합(*)으로 치환된 선형 주형을 화학적으로 합성된 프라이머(ID)로 증폭하였다(사용한 프라이머; A*G*C*T*T*GCTACGTTAGGAGAA, 전방(SEQ ID NO: 37) 및 T*A*T*G*A*GCTTATCCTGTATCG, 후방(SEQ ID NO: 38)). 얻어진 생성물은 각 가닥의 가장 5' 말단에 5개의 포스포로티오에이트 결합을 포함하는 1215 bp CAN1 결실 보호 폴리뉴클레오티드 변형 주형(SEQ ID NO: 31)이다. 비변형(비보호, 대조군) 주형을 pRF80으로부터 변형을 포함하지 않는 화학적으로 합성된 올리고뉴클레오티드 프라이머 및 표준 기법을 사용하여 증폭하여(사용한 프라이머, AGCTTGCTACGTTAGGAGAA, 전방(SEQ ID NO: 40) 및 TATGAGCTTATCCTGTATCG, 후방(SEQ ID NO: 41)) 비보호 1215 bp 선형 CAN1 결실 폴리뉴클레오티드 변형 주형(편집 주형)(SEQ ID NO: 31)을 산출하였다. 선형 주형의 PCR 반응물을 Zymo clean and concentrate 25 컬럼을 사용하여 정제하고 25 ㎕의 10 mM Tris 1 mM EDTA pH 8.0 중 용출하였다.

실시예 3

Cas9/gRNA 표적화와 조합되는 보호 폴리뉴클레오티드 변형 주형을 사용한 정확한 유전자 편집

본 실시예에서는 야로위아 리폴리티카 세포를 보호 및 비보호(비변형) 폴리뉴클레오티드 변형 주형의 존재 및 부재 하에 표적화 플라스미드로 형절전환하여 HDR 및 NHEJ 빈도에 대한 보호 주형(비보호(대조군) 주형 대신)의 사용 효과를 결정하였다. HDR 빈도 증가 및 동시적인 NHEJ 빈도 감소는 전형적인 Cas9/gRNA 유전자 편집 실험에 존재하는 NHEJ-유래 백그라운드를 크게 감소시킬 것이다. 세포를 카나바닌(Canavanine) 저항성에 대해 표현형을 스코어 분석하여 전체 표적화 효율(NHEJ 빈도 + HDR 빈도를 대표함)을 결정하였다. CAN1 유전자좌(SEQ ID NO: 39)의 콜로니 PCR을 수행하여 HDR 및 NHEJ에 의한 Cas9/gRNA 생성 이중 가닥 절단의 복구 빈도를 결정하였다.

야로위아 리폴리티카 ATCC20362의 우라실 영양요구 균주를 30℃에서 YPD 배지 플레이트(Teknova) 상에서 24시간 동안 성장시켰다. 1루프의 세포를 형질전환 완충액(평균 분자량 3550의 35% 폴리에틸렌 글리콜, 100 mM 리튬 아세테이트, 100 mM 디티오트레이톨, 10 mM Tris, 1 mM EDTA pH 6.0) 중 재현탁하였다. 100 ㎕의 세포 현탁액을 폴리뉴클레오티드 변형 주형 없이, 또는 1 ㎍ 비보호 선형 폴리뉴클레오티드 변형 주형(SEQ ID NO: 31), 1 ㎍ C3S 보호 선형 폴리뉴클레오티드 변형 주형(SEQ ID NO: 31의 5' 말단에 3탄소 알칼리성 스페이서를 포함하는 주형), 1 ㎍ PT 보호 선형 폴리뉴클레오티드 변형 주형(SEQ ID NO: 31의 처음 5개 5' 뉴클레오티드에 포스포로티오에이트 결합을 포함하는 주형) 또는 5 ㎍의 원형 보호 폴리뉴클레오티드 변형 주형, pRF80(SEQ ID NO 33)과 함께, 100 ng의 pRF291(SEQ ID NO:18)(Cas9 발현, gRNA 비함유) 또는 pRF303(SEQ ID NO: 24)(Cas9 발현, Can1-1 gRNA 발현)과 혼합하였다. 형질전환 혼합물을 800 RPM에서 1시간 동안 39℃에서 인큐베이션하였다. 형질전환 혼합물을 우라실이 없는 완전 최소 배지 플레이트(Teknova) 상에 접종하여 플라스미드 DNA로 형질전환된 세포를 선택하였다. 플레이트를 48시간 동안 30℃에서 인큐베이션하였다. 각각의 형질전환으로부터 24개 콜로니를 단일 콜로니에 대해 우라실이 없는 완전 최소 배지(Teknova) 상에서 스트리킹하여 정제하였다. 각각의 스트리킹 정제 콜로니로부터 4개의 단일 콜로니(각각의 형질전환으로부터 96개)를 60 ㎍/ml L-카나바닌을 포함하는 아르기닌이 없는 완전 최소 배지에 패치 처리하였다. L-카나바닌은 세포로의 아르기닌 및 L-카나바닌 내수송체(importer)인 기능적 CAN1 유전자를 갖는 세포에 대해 독성이다. CAN1 유전자에서 기능 상실 대립 유전자를 포함하는 세포는 배지 중 L-카나바닌의 존재에 대해 저항성인 표현형일 것이며, L-카나바닌을 포함하는 플레이트 상에 콜로니를 형성할 것이다. CAN1 유전자의 야생형 사본을 포함하는 세포는 L-카나바닌을 포함하는 배지 상에서 성장할 수 없을 것이다. L-카나바닌의 작용 방식은 잘 알려져 있다(Rosenthal G.A., The Biological effects and mode of action of L-Canavanine, a structural analog of L-arginine, The quarterly review of biology, volume 52, 1977, 155-178). 형질전환 처리에 의한 카나바닌 저항성의 빈도를 표 2에 제공한다.

형질전환 처리에 의한 카나바닌 저항성.

플라스미드	폴리뉴클레오티드 변형 주형	카나바닌 저항성 빈도 ± 표준 편차¹
pRF291	없음	0±0
pRF291	비보호 선형(대조군)	0±0
pRF291	C3S 선형 보호	0.005±0.008
pRF291	PT 선형 보호	0±0
pRF291	pRF80 원형 보호	0±0
pRF303	없음	0.80±0.10
pRF303	비보호 선형(대조군)	0.72±0.11
pRF303	C3S 선형 보호	0.78±0.18
pRF303	PT 선형 보호	0.68±0.13
pRF303	pRF80 원형 보호	0.74±0.13

¹결과는 각 경우 적어도 2회의 독립적 반복에 대한 평균 및 표준 편차를 나타낸다. 각 실험은 총 80개 콜로니를 반복 선별하였다.

Cas9 발현 카세트를 운반하지만 CAN1 유전자를 표적화하는 기능적 gRNA가 없는 pRF(SEQ ID NO: 18)로 형질전환된 세포는 C3S 폴리뉴클레오티드 변형 주형으로 단일 실험에서 카나바닌 저항성 콜로니를 보인 1회 경우를 제외하고 카나바닌 저항성 세포를 생성하지 않았다(표 2). 비보호 또는 보호 폴리뉴클레오티드 변형 주형의 존재 또는 부재 하에 pRF303(SEQ ID NO: 24)으로 형질전환된 세포는 유사한 빈도의 카나바닌 저항성 콜로니를 제공하여(표 2) 형질전환 혼합물 중 폴리뉴클레오티드 변형 주형의 존재가 표적화된 이중 가닥 절단을 유도하는 Cas9/gRNA의 능력을 변경하지 않음을 제시하였다.

비보호(대조군) 또는 보호 폴리뉴클레오티드 변형 보호 변형 주형의 존재 하에 Can1-1 표적 부위에서 Cas9/gRNA에 의해 생성된 표적화된 이중 가닥 절단에 있어서 동종 유도 복구(HDR) 및 NHEJ의 빈도를 결정하기 위해, CAN1 유전자좌(SEQ ID NO: 44)의 야로위아 콜로니 PCR을 표준 기술을 사용하여 수행하였다(사용한 프라이머, GGAAGGCACATATGGCAAGG, 전방(SEQ ID N0: 42) 및 GTAAGAGTGGTTTGCTCCAGG, 후방(SEQ ID NO: 43)). CAN1 유전자좌가 변형되지 않았거나 NHEJ에 의해 생성된 작은 삽입-결실을 포함한 경우, 콜로니 PCR 결과는 2125 bp의 겉보기 크기에서 WT CAN1 유전자좌(SEQ ID NO: 44)와 유사한 크기의 밴드를 제공할 것이다. Cas9/gRNA 생성 이중 가닥 절단이 비보호 또는 보호 변형 주형을 사용하여 복구된 경우, PCR은 더 작은 CAN1 유전자좌 생성물 392 bp를 생성하여 전체 오픈 리딩 프레임의 결실을 나타낼 것이다(SEQ ID NO: 45). 콜로니 PCR을 주형의 존재 또는 부재 하에 pRF303으로 형질전환된 세포로부터의 모든 카나바닌 저항성 콜로니 상에서 수행하고, Cas9/gRNA 생성 이중 가닥 절단이 폴리뉴클레오티드 변형 주형을 이용해서 HDR 또는 NHEJ를 통해 복구된 세포 분율을 결정하였다(표 3).

폴리뉴클레오티드 변형 주형 유형에 의한 Cas9/gRNA 생성 이중 가닥 절단의 HDR 빈도.

폴리뉴클레오티드 변형 주형	HDR 빈도 ± 표준 편차²	NHEJ 빈도 ± 표준 편차²	보호 대 비보호 주형에서 HDR의 비
없음	0.00±0.00	1.00±0.00	-
비보호 선형	0.09±0.02	0.91±0.06	-
C3S 보호 선형	0.08±0.03	0.92±0.06	1.0
PT 보호 선형	0.19±0.05	0.81±0.12	2.1
pRF80 보호 원형	0.13±0.04	0.88±0.06	1.4

²결과는 각 경우 적어도 2회의 독립적 반복에 대한 평균 및 평균의 표준 오차를 나타낸다. 각 실험은 총 80개 콜로니를 반복 선별하였다.

비보호 폴리뉴클레오티드 변형 주형 또는 C3S 보호 선형 주형으로 처리된 세포는 HDR에 의한 Cas9/gRNA 생성 DSB의 유사한 복구 빈도를 가졌다(표 3). PT 선형 보호 변형 폴리뉴클레오티드 주형 또는 pRF80 원형 보호 변형 폴리뉴클레오티드 변형 주형으로 처리된 세포는 비보호(대조군) 선형 폴리뉴클레오티드 변형 주형보다 각각 2.1배 및 1.4배 더 높은 Cas9/gRNA 생성 DSB의 HDR 빈도를 가졌다. Cas9/gRNA 생성 이중 가닥 절단의 복구에서, 5' 포스포로티오에이트 변형을 포함하는 선형 보호 주형 또는 원형, 비-복제 보호 주형은 HDR을 통해 복구된 절단의 분율에서 비보호 선형 폴리뉴클레오티드 변형 주형 빈도의 200% 및 140%의 실질적 증가를 제공한다. NHEJ는 야로위아 리폴리티카를 포함하는 대부분의 진핵 세포에서 우세한 DNA DSB 복구 경로이다. 보호 DNA 변형 주형의 사용은 Cas9/gRNA 생성 DSB의 HDR 복구 빈도를 2배만큼 높게 증가시켜, 더 적은 수의 사건을 선별하여 DSB의 정확한, 주형 복구를 찾을 수 있게 만든다.

폴리뉴클레오티드 변형 주형을 사용하는 Cas9/gRNA 생성 이중 가닥 절단 복구의 추가적인 복잡성은 주형이 다른 DNA 손상 영역에서 NHEJ 경로에 의해 통합되어 부위를 벗어난 통합을 생성할 수 있다는 가능성에 있다. 이러한 부위를 벗어난 통합이 폴리뉴클레오티드 변형 주형으로 처리된 세포에서 일어나는 빈도를 결정하기 위해, 상대 사본수 분석을 수행하여 폴리뉴클레오티드 변형 주형의 62 bp 단편(SEQ ID NO: 46) 탐색을 수행하였다. 상대 사본수 분석을 pRF303(SEQ ID NO: 24) 및 선형 대조군 폴리뉴클레오티드 변형 폴리뉴클레오티드(SEQ ID NO: 34), 선형 보호 폴리뉴클레오티드 변형 주형, PT(SEQ ID NO: 34), 및 원형 보호 폴리뉴클레오티드 변형 주형, pRF80(SEQ ID NO: 33)으로 처리된 세포로부터의 콜로니 상에서 수행하였다. 폴리뉴클레오티드 변형 주형이 CAN1 유전자좌(SEQ ID NO: 39)에서 Cas9/gRNA 이중 가닥 절단의 HDR 동안만 혼입되는 경우, 세포는 사본수 분석 단편(SEQ ID NO: 46)의 단일 사본만을 운반할 것이다. 그러나 세포가 NHEJ 경로의 활성으로 인해 게놈 내 다른 곳에 폴리뉴클레오티드 변형 주형의 추가 사본을 혼입하는 경우, 단편의 추가 사본이 존재할 것이며 세포는 더 높은 상대 사본수를 돌려줄 것이다. 간략하게, 게놈 DNA를 표준 기술을 사용해서 Can1-1 Cas9/gRNA 표적화 이중 가닥 절단의 HDR에 대해 양성으로 스코어링된 콜로니로부터 단리하였다. 각 콜로니로부터 1 ㎕의 게놈 DNA를 CAN1 유전자좌(SEQ ID NO: 46),(사용한 프라이머, AGCGCCAAACCCAAAGC, 전방(SEQ ID NO: 47), CTTGCCATATGTGCCTTCCA, 후방(SEQ ID NO: 48), 및 6FAM-CTTTTCGCCCCCACTGCAGCC-TAMRA, 프로브(SEQ ID NO: 49)) 또는 대조군으로서 TEF1 유전자좌(SEQ ID NO: 50)(사용한 프라이머, CGACTGTGCCATCCTCATCA, 전방(SEQ ID NO: 51), TGACCGTCCTTGGAGATACCA, 후방(SEQ ID NO: 52) 및 6FAM-TGCTGGTGGTGTTGGTGAGTT-TAMRA, 프로브(SEQ ID NO: 53))에 대한 3개의 복제 qPCR 반응물에 첨가하였다. 다음 사이클링 조건: 95℃에서 10분, 이어서 95℃에서 15초, 60℃에서 1분으로 40사이클을 사용해서 life technologies Quant Studio 7 기기 상에서 TaqMAN 유니버설 PCR 마스터 믹스(ABI life technologies) 중에 반응을 수행하였다. 프로브로부터의 6FAM 형광을 40사이클 PCR 전반에 걸쳐 모니터링하고 Ct값을 수집하였다. ΔΔCt 방법(User Bulletin #2 ABI PRISM 7700 Sequence Detection System (Updated 2001))에 의해 상대 유전자 사본수를 결정하였다. 간략하게, TEF1 Ct값을 사용하여 게놈 DNA 샘플 간 세포 사본수 차이에 대한 데이터를 정상화하였다. 야생형 균주로부터의 게놈 DNA를 CAN1 사본수 단편(SEQ ID NO: 46)에 대한 상대 정량을 위한 기준으로 사용하였다. Quant studio 7의 소프트웨어로 야생형 균주 대비 각 샘플에 대한 상대 유전자 사본수 및 해당 오차를 계산하였다. 콜로니를 2 미만의 상대 사본을 갖는 것들과 2 이상의 상대 사본을 갖는 것들의 2개 bin으로 분리하였다. 첫 번째 bin은 폴리뉴클레오티드 변형 주형이 Can1-1 표적 부위(SEQ ID NO: 22)에서 Cas9/gRNA 생성 이중 가닥 절단의 HDR 복구를 위해서만 사용되었으며 NHEJ에 의해 게놈내 다른 곳에 통합되지 않았음을 나타낸다. 두 번째 bin은 폴리뉴클레오티드 변형 주형이 Can1-1 표적 부위(SEQ ID NO: 22)에서 Cas9/gRNA 생성 이중 가닥 절단을 복구하기 위해 사용되었으며 NHEJ 메커니즘을 통해 게놈내 다른 곳에 적어도 1회 통합되었음을 나타낸다. 사본수 분석 결과를 표 4에 나타낸다.

Cas9/gRNA 생성 D의 HDR 복구 콜로니 중 CAN1 유전자좌의 사본수 분석

편집 주형	CAN1의 단일 사본을 갖는 세포 분율(%)	CAN1의 2개 초과 사본을 갖는 세포 분율(%)
비보호 선형	63	37
PT 보호 선형	60	40
pRF80 보호 원형	100	0

야로위아 리폴리티카의 CAN1 유전자좌에 존재할뿐만 아니라 모든 폴리뉴클레오티드 변형 주형(보호 및 비보호)에 존재하는 qPCR 표적을 사용해서 사본수 분석을 수행하였다. 폴리뉴클레오티드 변형 주형을 세포내 CAN1 유전자좌의 HDR을 위해 사용한 경우, 표적의 사본수는 1을 유지할 것이다. 폴리뉴클레오티드 편집 주형이 야로위아 게놈 내 다른 곳에도 삽입된 경우, 사본 수는 CAN1 유전자좌에 존재하는 사본 및 게놈 내 다른 곳에 NHEJ에 의해 삽입된 폴리뉴클레오티드 편집 주형의 사본을 나타내는 적어도 2일 것이다.

비보호 선형 폴리뉴클레오티드 변형 주형 및 PT 주형은 둘 다 CAN1 폴리뉴클레오티드 변형 주형의 단일 사본을 갖는 대략 60%의 콜로니를 산출하여 폴리뉴클레오티드 변형 주형이 Cas9/gRNA 생성 DSB의 HDR을 위해 사용되었으나 게놈 내 통합되지 않았음을 나타낸다 표 4). 원형 보호 폴리뉴클레오티드 변형 주형, pRF80은 CAN1 유전자좌의 단일 사본만을 갖는 100% 콜로니를 실증하여, 원형 주형이 Can1-1에서 Cas9/gRNA 생성 절단의 HDR만을 위해 사용되었고 염색체의 다른 곳에 통합되지 않았음을 나타내었다.

보호 폴리뉴클레오티드 변형 주형은 놀라운 방식으로 비보호 폴리뉴클레오티드 변형 주형에 비해 더 우수한 결과를 제공하였다. 각 가닥에서 5개의 5' 포스포디에스테르 결합이 포스포로티오에이트 결합으로 치환된 선형 보호 주형은 염색체의 다른 곳에서 선형 주형의 통합에 변화를 유도하지 않으면서 비보호 주형에 비해 HDR을 통해 복구된 Cas9/gRNA 생성 DSB를 갖는 콜로니를 2배를 초과하여 더 많이 제공한다. 선형 대신 원형인 보호 폴리뉴클레오티드 변형 주형은 Can1-1에서 Cas9/gRNA 생성 이중 가닥 절단의 HDR 빈도에 40% 개선을 제공하였고(표 3) 폴리뉴클레오티드 변형 주형의 부위를 벗어난 통합 없이 콜로니 수에 60% 개선을 제공하였다(표 4).

실시예 4

Cas9/sgRNA 플라스미드에 포함된 보호 폴리뉴클레오티드 변형 주형을 사용하는 정확한 게놈 편집

본 실시예에서, 야로위아 리폴리티카의 URA3 유전자를 Cas9 발현 카세트 및 sgRNA 발현 카세트를 포함하는 원형 DNA 분자의 일부인 보호 폴리뉴클레오티드 편집 주형을 사용하는 정확한 게놈 편집에 대해 표적화한다.

PacI 및 PmeI 제한 부위 사이에서 pRF291(SEQ ID NO: 18)에 존재하는 URA3 선택 가능한 마커를 히그로마이신 저항성 발현 카세트(SEQ ID NO: 55)로 치환하여 플라스미드 pRF434(SEQ ID NO: 54)를 작제하였다. 이 플라스미드는 pRF291과 동일한 방식으로 가변 표적화 도메인의 고처리량 클로닝을 허용한다(도 1). 야로위아 리폴리티카 내에서 URA3 유전자좌(SEQ ID NO: 56)는 표적 부위 Ura3-1(SEQ ID NO: 57)이 존재한다. Ura3-1 표적 부위(SEQ ID NO: 57)에 해당하는 가변 표적화 도메인을 암호화하는 DNA를 포함하는 2개의 올리고 Ura3-1F(SEQ ID NO: 58) 및 URA3-1R(SEQ ID NO: 59)을 듀플렉스 완충액(30 mM HEPES pH 7.5, 100 mM 나트륨 아세테이트) 중 100 μM로 재현탁하였다. Ura3-1F(SEQ ID NO: 58) 및 Ura3-1R(SEQ ID NO: 59)을 단일 튜브에서 각각 50 μM의 최종 농도로 혼합하고, 5분 동안 95℃로 가열하고 0.1℃/분으로 25℃까지 냉각하여 두 뉴클레오티드를 어닐링하여 소형 듀플렉스 DNA 분자를 형성하였다. 20 ㎕의 최종 부피에 50 ng의 pRF434, Ura3-1F(SEQ ID NO: 58) 및 Ura3-1R(SEQ ID NO: 59)로 구성되는 2.5 μM의 소형 듀플렉스 DNA, 1x T4 리가아제 완충액(50 mM Tris-HCl, 10 mM MgCl₂, 1 mM ATP, 10 mM DTT pH 7.5), 0.5 μM AarI 올리고뉴클레오티드, 2단위 AarI, 40단위 T4 DNA 리가아제를 포함하는 단일 튜브 소화/결찰 반응물을 생성하였다. 대조군 반응물에는 Ura3-1F(SEQ ID NO: 58) 및 URA3-1R(SEQ ID NO: 59)의 소형 DNA 듀플렉스가 없었다. 반응물을 1시간 동안 37℃에서 인큐베이션한 뒤 이전에 기술된 바와 같이(Green, M. R. & Sambrook, J. Molecular Cloning: A Laboratory Manual. Fourth Edition edn, (Cold Spring Harbor Laboratory Press, 2012)) Top10 대장균 세포내로 형질전환하였다. Ura3-1F(SEQ ID NO: 58) 및 Ura3-1R(SEQ ID NO: 59) 듀플렉스가 AarI 제한 부위가 플랭킹한 rpsL 역 선택 마커를 치환한 pRF434의 존재를 선택하기 위해(도 1), 세포를 100 ㎍/ml 암피실린 및 50 ㎍/ml 스트렙토마이신을 포함하는 1.5%(w/v) Bacto 한천으로 고화된 용원 액체배지 상에 접종하였다. 고처리량 클로닝 카세트를 포함하는 pRF434(SEQ ID NO: 54)의 존재는 암피실린에 저항성이지만 역 선택 카세트로 인해 스트렙토마이신에는 민감성인 표현형의 콜로니를 산출하였고 스트렙토마이신의 존재 하에서는 콜로니를 형성하지 않는다. 그러나, 역 선택 카세트를 AarI 효소를 통해 제거하고 Ura3-1 듀플렉스 DNA를 그 부위 내로 결찰한 경우(AarI 인식 부위를 제거함) 형질전환된 세포는 암피실린 저항성, 스트렙토마이신 저항성 표현형을 가지며 암피실린 및 스트렙토마이신의 존재 하에 콜로니를 형성한다. AarI 부위에 Ura3-1 가변 표적화 도메인을 암호화하는 DNA를 포함하는 pRF434(SEQ ID NO: 54)는 SUP4 종결자(SEQ ID NO 17)에 융합된, CER 도메인을 암호화하는 DNA(SEQ ID NO: 16)에 융합된, Ura3-1 VT 도메인을 암호화하는 DNA(SEQ ID NO: 60)에 융합된, HDV 리보자임을 암호화하는 DNA(SEQ ID NO: 14)에 융합된, yl52 프로모터(SEQ ID NO: 13)를 포함하는 재조합 HDV-sgRNA 발현 카세트를 생성한다. 상기 작제물을 포함하는 플라스미드, pRF421(SEQ ID NO: 61)을 사용하여 야로위아 리폴리티카의 URA3 유전자좌(SEQ ID NO: 56)를 표적화하였다.

URA3 유전자좌(SEQ ID NO: 56)를 표적화하는 보호 폴리뉴클레오티드 편집 주형을 작제하기 위해, URA3 오픈 리딩 프레임의 378 bp 상류(SEQ ID NO: 62)를 URA3 정지 코돈 및 정지 코돈을 암호화하는 DNA의 255 bp 하류(SEQ ID NO: 63)와 융합하였다. 이 DNA는 URA3 오픈 리딩 프레임을 결실시켜 정지 코돈만을 남길 수 있는 폴리뉴클레오티드 변형 주형을 나타낸다. 폴리뉴클레오티드 편집 주형을 5’ EcoRI 및 3’ HinDIII 제한 부위를 포함하여 화학적으로 합성하였다(IDT)(SEQ ID NO: 64). 작제물을 pUC18(SEQ ID NO: 32)의 EcoRI/HinDIII 부위 내로 클로닝하여 플라스미드 pRF263(SEQ ID NO: 65)을 생성하였다. 폴리뉴클레오티드 편집 주형을 프라이머 HY007(SEQ ID NO: 66) 및 올리고 297(SEQ ID NO: 67)을 사용하여 pRF263으로부터 증폭해서 5' 및 3' EcoRI 부위가 플랭킹한 URA3 결실 폴리뉴클레오티드 변형 주형(SEQ ID NO: 68)을 생성하였다. EcoRI 플랭킹 URA3 결실 폴리뉴클레오티드 편집 주형을 pRF421(SEQ ID NO: 61)의 EcoRI 부위 내로 클로닝하여 pRF437(SEQ ID NO: 69)을 생성하였다.

기본영양 야로위아 리폴리티카 ATCC20362 세포를 30℃에서 YPD 배지 플레이트(Teknova) 상에 24시간 동안 성장시켰다. 1루프의 세포를 형질전환 완충액(평균 분자량 3550의 35% 폴리에틸렌 글리콜, 100 mM 리튬 아세테이트, 100 mM 디티오트레이톨, 10 mM Tris, 1 mM EDTA pH 6.0) 중 재현탁하였다. 100 ㎕의 세포 현탁액을 100 ng의 pRF421(SEQ ID NO: 61), pRF434(SEQ ID NO: 54), 또는 pRF437(SEQ ID NO: 69)과 혼합하거나, DNA와 혼합하지 않았다. 세포를 1시간 동안 39℃ 800 RPM에서 열 충격 처리하였다. 1 ml의 YPD 배지(Teknova)를 각각의 형질전환에 첨가하였다. 세포를 4시간 동안 30℃ 220 RPM에서 성장시켜 히그로마이신 저항성 카세트의 발현을 허용하였다. 세포를 250 mg/L의 히그로마이신 설페이트(calbiochem)를 포함하는 YPD 배지 상에 접종하였다. 콜로니가 30℃에서 형성하도록 두었다. 각각의 형질전환으로부터 48개 콜로니(콜로니가 0개였던 DNA를 포함하지 않은 경우를 제외하고)를 YPD 배지 플레이트(Teknova) 및 450 mg/L 5-플루오로오로트산(5FOA)을 포함하는 CM 플레이트에 패치 처리하였다. 5FOA는 기능적 URA3 유전자를 갖는 세포에 대해 선택한다. 패치로부터, pRF434(SEQ ID NO: 54), pRF421(SEQ ID NO: 61), 및 pRF437(SEQ ID NO 69)에 의한 URA3 불활성화 효율을 스코어링할 수 있었다(표 5).

pRF434, pRF421, 및 pRF437 형질전환체 중 5FOA 저항성 콜로니의 빈도.

플라스미드	VT 도메인	보호 변형 주형	5FOA 저항성 ± 범위¹
pRF434	없음	없음	0.00±0.00
pRF421	Ura3-1	없음	0.86±0.03
pRF437	Ura3-1	플라스미드 내에서 원형	0.84±0.11

¹결과는 각 경우 2회의 독립적 반복에 대한 평균 및 범위를 나타낸다. 각각의 복제물은 적어도 48개 콜로니를 선별하였다.

Cas9/sgRNA 플라스미드의 맥락 내에 보호 폴리뉴클레오티드 변형 주형의 존재는 Ura3-1 가변 표적화 도메인을 포함하는 sgRNA를 사용하는 URA3 유전자좌에서의 표적화 빈도에 영향을 미치지 않았다(표 5). 5FOA 저항성 빈도는 전체 표적화 빈도를 나타내며 NHEJ 경로 및 HDR 경로에 의한 Cas9/gRNA DSB의 복구에 의해 생성되는 돌연변이체를 포함한다. HDR 경로 및 NHEJ 경로에 의한 Cas9/sgRNA 생성 DSB의 복구 빈도를 결정하기 위해, 5FOA 저항성 콜로니에서 URA3 유전자좌의 PCR 증폭을 올리고뉴클레오티드 프라이머 308(SEQ ID NO: 70) 및 309(SEQ ID NO: 71)를 사용하여 수행하였다. 일반적으로 NHEJ 경로에 의해 복구된 Cas9/sgRNA 절단은 소수 뉴클레오티드의 결실 또는 삽입을 유발하여 소규모 삽입-결실을 생성하며 전체 유전자좌가 증폭되는 경우 생성물은 WT(SEQ ID NO: 56) 크기(1714 bp)로 나타난다. Cas9/sgRNA 생성 DSB가 보호 폴리뉴클레오티드 편집 주형으로 HDR을 통해 복구된 경우, 증폭된 URA3 유전자좌는 URA3 오픈 리딩 프레임의 결실로 인해 크기가 감소된다(859 bp)(SEQ ID NO: 72). pRF437(SEQ ID NO:69)로 형질전환된 세포로부터 5FOA 저항성 콜로니의 PCR의 하나의 예를 도 4에 나타낸다.

5FOA 저항성 콜로니 중 HDR의 전체 빈도를 표 6에 나타낸다.

보호 폴리뉴클레오티드 편집 주형을 사용하는 HDR.

플라스미드	VT 도메인	보호 변형 주형	HDR 빈도 ± 범위¹
pRF434	없음	없음	ND
pRF421	Ura3-1	없음	ND
pRF437	Ura3-1	플라스미드 내에서 원형	0.84±0.19

¹값은 2회의 독립적 복제물로부터의 평균 및 범위를 나타낸다. 각각의 복제물은 적어도 48개 콜로니를 선별하였다.

복제 원형 DNA 내에 폴리뉴클레오티드 편집 주형을 배치함으로써, 말단이 보호되고 세포에서 변형 주형이 지속되어 HDR 경로를 통한 Cas9/sgRNA 생성 DSB의 복구를 갖는 80% 초과 콜로니를, 이에 따라 NHEJ에 의한 Cas9/sgRNA 생성 절단을 복구한 15% 콜로니를 산출하였다.

SEQUENCE LISTING <110> E. I. du Pont de Nemours and Company Frisch, Ryan L. <120> PROTECTED DNA TEMPLATES FOR GENE MODIFICATION AND INCREASED HOMOLOGOUS RECOMBINATION IN CELLS AND METHODS OF USE <130> CL6441-WO-PCT <150> US 62/240,140 <151> 2015-10-12 <160> 72 <170> PatentIn version 3.5 <210> 1 <211> 1372 <212> PRT <213> Streptococcus pyogenes <400> 1 Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val 1 5 10 15 Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe 20 25 30 Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile 35 40 45 Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu 50 55 60 Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys 65 70 75 80 Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser 85 90 95 Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys 100 105 110 His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr 115 120 125 His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp 130 135 140 Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His 145 150 155 160 Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro 165 170 175 Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr 180 185 190 Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala 195 200 205 Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn 210 215 220 Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn 225 230 235 240 Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe 245 250 255 Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp 260 265 270 Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp 275 280 285 Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp 290 295 300 Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser 305 310 315 320 Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys 325 330 335 Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe 340 345 350 Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser 355 360 365 Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp 370 375 380 Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg 385 390 395 400 Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu 405 410 415 Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe 420 425 430 Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile 435 440 445 Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp 450 455 460 Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu 465 470 475 480 Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr 485 490 495 Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser 500 505 510 Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys 515 520 525 Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln 530 535 540 Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr 545 550 555 560 Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp 565 570 575 Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly 580 585 590 Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp 595 600 605 Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr 610 615 620 Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala 625 630 635 640 His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr 645 650 655 Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp 660 665 670 Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe 675 680 685 Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe 690 695 700 Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu 705 710 715 720 His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly 725 730 735 Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly 740 745 750 Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln 755 760 765 Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile 770 775 780 Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro 785 790 795 800 Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu 805 810 815 Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg 820 825 830 Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys 835 840 845 Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg 850 855 860 Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys 865 870 875 880 Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys 885 890 895 Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp 900 905 910 Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr 915 920 925 Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp 930 935 940 Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser 945 950 955 960 Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg 965 970 975 Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val 980 985 990 Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe 995 1000 1005 Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala 1010 1015 1020 Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe 1025 1030 1035 Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala 1040 1045 1050 Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu 1055 1060 1065 Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val 1070 1075 1080 Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr 1085 1090 1095 Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys 1100 1105 1110 Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro 1115 1120 1125 Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val 1130 1135 1140 Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys 1145 1150 1155 Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser 1160 1165 1170 Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys 1175 1180 1185 Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu 1190 1195 1200 Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly 1205 1210 1215 Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val 1220 1225 1230 Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser 1235 1240 1245 Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys 1250 1255 1260 His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys 1265 1270 1275 Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala 1280 1285 1290 Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn 1295 1300 1305 Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala 1310 1315 1320 Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser 1325 1330 1335 Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr 1340 1345 1350 Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp 1355 1360 1365 Ser Arg Ala Asp 1370 <210> 2 <211> 4140 <212> DNA <213> Artificial sequence <220> <223> Yarrowia codon optimized Cas9 <400> 2 atggacaaga aatactccat cggcctggac attggaacca actctgtcgg ctgggctgtc 60 atcaccgacg agtacaaggt gccctccaag aaattcaagg tcctcggaaa caccgatcga 120 cactccatca agaaaaacct cattggtgcc ctgttgttcg attctggcga gactgccgaa 180 gctaccagac tcaagcgaac tgctcggcga cgttacaccc gacggaagaa ccgaatctgc 240 tacctgcagg agatcttttc caacgagatg gccaaggtgg acgattcgtt ctttcatcga 300 ctggaggaat ccttcctcgt cgaggaagac aagaaacacg agcgtcatcc catctttggc 360 aacattgtgg acgaggttgc ttaccacgag aagtatccta ccatctacca tctccgaaag 420 aaactcgtcg attccaccga caaggcggat ctcagactta tctacctcgc tctggcacac 480 atgatcaagt ttcgaggtca tttcctcatc gagggcgatc tcaatcccga caacagcgat 540 gtggacaagc tgttcattca gctcgttcag acctacaacc agctgttcga ggaaaacccc 600 atcaatgcct ccggagtcga tgcaaaggcc atcttgtctg ctcgactctc gaagagcaga 660 cgactggaga acctcattgc ccaacttcct ggcgagaaaa agaacggact gtttggcaac 720 ctcattgccc tttctcttgg tctcacaccc aacttcaagt ccaacttcga tctggcggag 780 gacgccaagc tccagctgtc caaggacacc tacgacgatg acctcgacaa cctgcttgca 840 cagattggcg atcagtacgc cgacctgttt ctcgctgcca agaacctttc ggatgctatt 900 ctcttgtctg acattctgcg agtcaacacc gagatcacaa aggctcccct ttctgcctcc 960 atgatcaagc gatacgacga gcaccatcag gatctcacac tgctcaaggc tcttgtccga 1020 cagcaactgc ccgagaagta caaggagatc tttttcgatc agtcgaagaa cggctacgct 1080 ggatacatcg acggcggagc ctctcaggaa gagttctaca agttcatcaa gccaattctc 1140 gagaagatgg acggaaccga ggaactgctt gtcaagctca atcgagagga tctgcttcgg 1200 aagcaacgaa ccttcgacaa cggcagcatt cctcatcaga tccacctcgg tgagctgcac 1260 gccattcttc gacgtcagga agacttctac ccctttctca aggacaaccg agagaagatc 1320 gagaagattc ttacctttcg aatcccctac tatgttggtc ctcttgccag aggaaactct 1380 cgatttgctt ggatgactcg aaagtccgag gaaaccatca ctccctggaa cttcgaggaa 1440 gtcgtggaca agggtgcctc tgcacagtcc ttcatcgagc gaatgaccaa cttcgacaag 1500 aatctgccca acgagaaggt tcttcccaag cattcgctgc tctacgagta ctttacagtc 1560 tacaacgaac tcaccaaagt caagtacgtt accgagggaa tgcgaaagcc tgccttcttg 1620 tctggcgaac agaagaaagc cattgtcgat ctcctgttca agaccaaccg aaaggtcact 1680 gttaagcagc tcaaggagga ctacttcaag aaaatcgagt gtttcgacag cgtcgagatt 1740 tccggagttg aggaccgatt caacgcctct ttgggcacct atcacgatct gctcaagatt 1800 atcaaggaca aggattttct cgacaacgag gaaaacgagg acattctgga ggacatcgtg 1860 ctcactctta ccctgttcga agatcgggag atgatcgagg aacgactcaa gacatacgct 1920 cacctgttcg acgacaaggt catgaaacaa ctcaagcgac gtagatacac cggctgggga 1980 agactttcgc gaaagctcat caacggcatc agagacaagc agtccggaaa gaccattctg 2040 gactttctca agtccgatgg ctttgccaac cgaaacttca tgcagctcat tcacgacgat 2100 tctcttacct tcaaggagga catccagaag gcacaagtgt ccggtcaggg cgacagcttg 2160 cacgaacata ttgccaacct ggctggttcg ccagccatca agaaaggcat tctccagact 2220 gtcaaggttg tcgacgagct ggtgaaggtc atgggacgtc acaagcccga gaacattgtg 2280 atcgagatgg ccagagagaa ccagacaact caaaagggtc agaaaaactc gcgagagcgg 2340 atgaagcgaa tcgaggaagg catcaaggag ctgggatccc agattctcaa ggagcatccc 2400 gtcgagaaca ctcaactgca gaacgagaag ctgtatctct actatctgca gaatggtcga 2460 gacatgtacg tggatcagga actggacatc aatcgtctca gcgactacga tgtggaccac 2520 attgtccctc aatcctttct caaggacgat tctatcgaca acaaggtcct tacacgatcc 2580 gacaagaaca gaggcaagtc ggacaacgtt cccagcgaag aggtggtcaa aaagatgaag 2640 aactactggc gacagctgct caacgccaag ctcattaccc agcgaaagtt cgacaatctt 2700 accaaggccg agcgaggcgg tctgtccgag ctcgacaagg ctggcttcat caagcgtcaa 2760 ctcgtcgaga ccagacagat cacaaagcac gtcgcacaga ttctcgattc tcggatgaac 2820 accaagtacg acgagaacga caagctcatc cgagaggtca aggtgattac tctcaagtcc 2880 aaactggtct ccgatttccg aaaggacttt cagttctaca aggtgcgaga gatcaacaat 2940 taccaccatg cccacgatgc ttacctcaac gccgtcgttg gcactgcgct catcaagaaa 3000 taccccaagc tcgaaagcga gttcgtttac ggcgattaca aggtctacga cgttcgaaag 3060 atgattgcca agtccgaaca ggagattggc aaggctactg ccaagtactt cttttactcc 3120 aacatcatga actttttcaa gaccgagatc accttggcca acggagagat tcgaaagaga 3180 ccacttatcg agaccaacgg cgaaactgga gagatcgtgt gggacaaggg tcgagacttt 3240 gcaaccgtgc gaaaggttct gtcgatgcct caggtcaaca tcgtcaagaa aaccgaggtt 3300 cagactggcg gattctccaa ggagtcgatt ctgcccaagc gaaactccga caagctcatc 3360 gctcgaaaga aagactggga tcccaagaaa tacggtggct tcgattctcc taccgtcgcc 3420 tattccgtgc ttgtcgttgc gaaggtcgag aagggcaagt ccaaaaagct caagtccgtc 3480 aaggagctgc tcggaattac catcatggag cgatcgagct tcgagaagaa tcccatcgac 3540 ttcttggaag ccaagggtta caaggaggtc aagaaagacc tcattatcaa gctgcccaag 3600 tactctctgt tcgaactgga gaacggtcga aagcgtatgc tcgcctccgc tggcgagctg 3660 cagaagggaa acgagcttgc cttgccttcg aagtacgtca actttctcta tctggcttct 3720 cactacgaga agctcaaggg ttctcccgag gacaacgaac agaagcaact cttcgttgag 3780 cagcacaaac attacctcga cgagattatc gagcagattt ccgagttttc gaagcgagtc 3840 atcctggctg atgccaactt ggacaaggtg ctctctgcct acaacaagca tcgggacaaa 3900 cccattcgag aacaggcgga gaacatcatt cacctgttta ctcttaccaa cctgggtgct 3960 cctgcagctt tcaagtactt cgataccact atcgaccgaa agcggtacac atccaccaag 4020 gaggttctcg atgccaccct gattcaccag tccatcactg gcctgtacga gacccgaatc 4080 gacctgtctc agcttggtgg cgactccaga gccgatccca agaaaaagcg aaaggtctaa 4140 <210> 3 <211> 7 <212> PRT <213> SV40 <400> 3 Pro Lys Lys Lys Arg Lys Val 1 5 <210> 4 <211> 543 <212> DNA <213> YArrowia lipolytica <400> 4 tcgacgttta aaccatcatc taagggcctc aaaactacct cggaactgct gcgctgatct 60 ggacaccaca gaggttccga gcactttagg ttgcaccaaa tgtcccacca ggtgcaggca 120 gaaaacgctg gaacagcgtg tacagtttgt cttaacaaaa agtgagggcg ctgaggtcga 180 gcagggtggt gtgacttgtt atagccttta gagctgcgaa agcgcgtatg gatttggctc 240 atcaggccag attgagggtc tgtggacaca tgtcatgtta gtgtacttca atcgccccct 300 ggatatagcc ccgacaatag gccgtggcct catttttttg ccttccgcac atttccattg 360 ctcggtaccc acaccttgct tctcctgcac ttgccaacct taatactggt ttacattgac 420 caacatctta caagcggggg gcttgtctag ggtatatata aacagtggct ctcccaatcg 480 gttgccagtc tcttttttcc tttctttccc cacagattcg aaatctaaac tacacatcac 540 acc 543 <210> 5 <211> 4683 <212> DNA <213> Artificial sequence <220> <223> Yarrowia optimized expression cassette <400> 5 tcgacgttta aaccatcatc taagggcctc aaaactacct cggaactgct gcgctgatct 60 ggacaccaca gaggttccga gcactttagg ttgcaccaaa tgtcccacca ggtgcaggca 120 gaaaacgctg gaacagcgtg tacagtttgt cttaacaaaa agtgagggcg ctgaggtcga 180 gcagggtggt gtgacttgtt atagccttta gagctgcgaa agcgcgtatg gatttggctc 240 atcaggccag attgagggtc tgtggacaca tgtcatgtta gtgtacttca atcgccccct 300 ggatatagcc ccgacaatag gccgtggcct catttttttg ccttccgcac atttccattg 360 ctcggtaccc acaccttgct tctcctgcac ttgccaacct taatactggt ttacattgac 420 caacatctta caagcggggg gcttgtctag ggtatatata aacagtggct ctcccaatcg 480 gttgccagtc tcttttttcc tttctttccc cacagattcg aaatctaaac tacacatcac 540 accatggaca agaaatactc catcggcctg gacattggaa ccaactctgt cggctgggct 600 gtcatcaccg acgagtacaa ggtgccctcc aagaaattca aggtcctcgg aaacaccgat 660 cgacactcca tcaagaaaaa cctcattggt gccctgttgt tcgattctgg cgagactgcc 720 gaagctacca gactcaagcg aactgctcgg cgacgttaca cccgacggaa gaaccgaatc 780 tgctacctgc aggagatctt ttccaacgag atggccaagg tggacgattc gttctttcat 840 cgactggagg aatccttcct cgtcgaggaa gacaagaaac acgagcgtca tcccatcttt 900 ggcaacattg tggacgaggt tgcttaccac gagaagtatc ctaccatcta ccacctgcga 960 aagaaactcg tcgattccac cgacaaggcg gatctcagac ttatctacct cgctctggca 1020 cacatgatca agtttcgagg tcatttcctc atcgagggcg atctcaatcc cgacaacagc 1080 gatgtggaca agctgttcat tcagctcgtt cagacctaca accagctgtt cgaggaaaac 1140 cccatcaatg cctccggagt cgatgcaaag gccatcttgt ctgctcgact ctcgaagagc 1200 agacgactgg agaacctcat tgcccaactt cctggcgaga aaaagaacgg actgtttggc 1260 aacctcattg ccctttctct tggtctcaca cccaacttca agtccaactt cgatctggcg 1320 gaggacgcca agctccagct gtccaaggac acctacgacg atgacctcga caacctgctt 1380 gcacagattg gcgatcagta cgccgacctg tttctcgctg ccaagaacct ttcggatgct 1440 attctcttgt ctgacattct gcgagtcaac accgagatca caaaggctcc cctttctgcc 1500 tccatgatca agcgatacga cgagcaccat caggatctca cactgctcaa ggctcttgtc 1560 cgacagcaac tgcccgagaa gtacaaggag atctttttcg atcagtcgaa gaacggctac 1620 gctggataca tcgacggcgg agcctctcag gaagagttct acaagttcat caagccaatt 1680 ctcgagaaga tggacggaac cgaggaactg cttgtcaagc tcaatcgaga ggatctgctt 1740 cggaagcaac gaaccttcga caacggcagc attcctcatc agatccacct cggtgagctg 1800 cacgccattc ttcgacgtca ggaagacttc tacccctttc tcaaggacaa ccgagagaag 1860 atcgagaaga ttcttacctt tcgaatcccc tactatgttg gtcctcttgc cagaggaaac 1920 tctcgatttg cttggatgac tcgaaagtcc gaggaaacca tcactccctg gaacttcgag 1980 gaagtcgtgg acaagggtgc ctctgcacag tccttcatcg agcgaatgac caacttcgac 2040 aagaatctgc ccaacgagaa ggttcttccc aagcattcgc tgctctacga gtactttaca 2100 gtctacaacg aactcaccaa agtcaagtac gttaccgagg gaatgcgaaa gcctgccttc 2160 ttgtctggcg aacagaagaa agccattgtc gatctcctgt tcaagaccaa ccgaaaggtc 2220 actgttaagc agctcaagga ggactacttc aagaaaatcg agtgtttcga cagcgtcgag 2280 atttccggag ttgaggaccg attcaacgcc tctttgggca cctatcacga tctgctcaag 2340 attatcaagg acaaggattt tctcgacaac gaggaaaacg aggacattct ggaggacatc 2400 gtgctcactc ttaccctgtt cgaagatcgg gagatgatcg aggaacgact caagacatac 2460 gctcacctgt tcgacgacaa ggtcatgaaa caactcaagc gacgtagata caccggctgg 2520 ggaagacttt cgcgaaagct catcaacggc atcagagaca agcagtccgg aaagaccatt 2580 ctggactttc tcaagtccga tggctttgcc aaccgaaact tcatgcagct cattcacgac 2640 gattctctta ccttcaagga ggacatccag aaggcacaag tgtccggtca gggcgacagc 2700 ttgcacgaac atattgccaa cctggctggt tcgccagcca tcaagaaagg cattctccag 2760 actgtcaagg ttgtcgacga gctggtgaag gtcatgggac gtcacaagcc cgagaacatt 2820 gtgatcgaga tggccagaga gaaccagaca actcaaaagg gtcagaaaaa ctcgcgagag 2880 cggatgaagc gaatcgagga aggcatcaag gagctgggat cccagattct caaggagcat 2940 cccgtcgaga acactcaact gcagaacgag aagctgtatc tctactatct gcagaatggt 3000 cgagacatgt acgtggatca ggaactggac atcaatcgtc tcagcgacta cgatgtggac 3060 cacattgtcc ctcaatcctt tctcaaggac gattctatcg acaacaaggt ccttacacga 3120 tccgacaaga acagaggcaa gtcggacaac gttcccagcg aagaggtggt caaaaagatg 3180 aagaactact ggcgacagct gctcaacgcc aagctcatta cccagcgaaa gttcgacaat 3240 cttaccaagg ccgagcgagg cggtctgtcc gagctcgaca aggctggctt catcaagcgt 3300 caactcgtcg agaccagaca gatcacaaag cacgtcgcac agattctcga ttctcggatg 3360 aacaccaagt acgacgagaa cgacaagctc atccgagagg tcaaggtgat tactctcaag 3420 tccaaactgg tctccgattt ccgaaaggac tttcagttct acaaggtgcg agagatcaac 3480 aattaccacc atgcccacga tgcttacctc aacgccgtcg ttggcactgc gctcatcaag 3540 aaatacccca agctcgaaag cgagttcgtt tacggcgatt acaaggtcta cgacgttcga 3600 aagatgattg ccaagtccga acaggagatt ggcaaggcta ctgccaagta cttcttttac 3660 tccaacatca tgaacttttt caagaccgag atcaccttgg ccaacggaga gattcgaaag 3720 agaccactta tcgagaccaa cggcgaaact ggagagatcg tgtgggacaa gggtcgagac 3780 tttgcaaccg tgcgaaaggt tctgtcgatg cctcaggtca acatcgtcaa gaaaaccgag 3840 gttcagactg gcggattctc caaggagtcg attctgccca agcgaaactc cgacaagctc 3900 atcgctcgaa agaaagactg ggatcccaag aaatacggtg gcttcgattc tcctaccgtc 3960 gcctattccg tgcttgtcgt tgcgaaggtc gagaagggca agtccaaaaa gctcaagtcc 4020 gtcaaggagc tgctcggaat taccatcatg gagcgatcga gcttcgagaa gaatcccatc 4080 gacttcttgg aagccaaggg ttacaaggag gtcaagaaag acctcattat caagctgccc 4140 aagtactctc tgttcgaact ggagaacggt cgaaagcgta tgctcgcctc cgctggcgag 4200 ctgcagaagg gaaacgagct tgccttgcct tcgaagtacg tcaactttct ctatctggct 4260 tctcactacg agaagctcaa gggttctccc gaggacaacg aacagaagca actcttcgtt 4320 gagcagcaca aacattacct cgacgagatt atcgagcaga tttccgagtt ttcgaagcga 4380 gtcatcctgg ctgatgccaa cttggacaag gtgctctctg cctacaacaa gcatcgggac 4440 aaacccattc gagaacaggc ggagaacatc attcacctgt ttactcttac caacctgggt 4500 gctcctgcag ctttcaagta cttcgatacc actatcgacc gaaagcggta cacatccacc 4560 aaggaggttc tcgatgccac cctgattcac cagtccatca ctggcctgta cgagacccga 4620 atcgacctgt ctcagcttgg tggcgactcc agagccgatc ccaagaaaaa gcgaaaggtc 4680 taa 4683 <210> 6 <211> 10706 <212> DNA <213> Artificial sequence <220> <223> pZufCas9 <400> 6 catggacaag aaatactcca tcggcctgga cattggaacc aactctgtcg gctgggctgt 60 catcaccgac gagtacaagg tgccctccaa gaaattcaag gtcctcggaa acaccgatcg 120 acactccatc aagaaaaacc tcattggtgc cctgttgttc gattctggcg agactgccga 180 agctaccaga ctcaagcgaa ctgctcggcg acgttacacc cgacggaaga accgaatctg 240 ctacctgcag gagatctttt ccaacgagat ggccaaggtg gacgattcgt tctttcatcg 300 actggaggaa tccttcctcg tcgaggaaga caagaaacac gagcgtcatc ccatctttgg 360 caacattgtg gacgaggttg cttaccacga gaagtatcct accatctacc acctgcgaaa 420 gaaactcgtc gattccaccg acaaggcgga tctcagactt atctacctcg ctctggcaca 480 catgatcaag tttcgaggtc atttcctcat cgagggcgat ctcaatcccg acaacagcga 540 tgtggacaag ctgttcattc agctcgttca gacctacaac cagctgttcg aggaaaaccc 600 catcaatgcc tccggagtcg atgcaaaggc catcttgtct gctcgactct cgaagagcag 660 acgactggag aacctcattg cccaacttcc tggcgagaaa aagaacggac tgtttggcaa 720 cctcattgcc ctttctcttg gtctcacacc caacttcaag tccaacttcg atctggcgga 780 ggacgccaag ctccagctgt ccaaggacac ctacgacgat gacctcgaca acctgcttgc 840 acagattggc gatcagtacg ccgacctgtt tctcgctgcc aagaaccttt cggatgctat 900 tctcttgtct gacattctgc gagtcaacac cgagatcaca aaggctcccc tttctgcctc 960 catgatcaag cgatacgacg agcaccatca ggatctcaca ctgctcaagg ctcttgtccg 1020 acagcaactg cccgagaagt acaaggagat ctttttcgat cagtcgaaga acggctacgc 1080 tggatacatc gacggcggag cctctcagga agagttctac aagttcatca agccaattct 1140 cgagaagatg gacggaaccg aggaactgct tgtcaagctc aatcgagagg atctgcttcg 1200 gaagcaacga accttcgaca acggcagcat tcctcatcag atccacctcg gtgagctgca 1260 cgccattctt cgacgtcagg aagacttcta cccctttctc aaggacaacc gagagaagat 1320 cgagaagatt cttacctttc gaatccccta ctatgttggt cctcttgcca gaggaaactc 1380 tcgatttgct tggatgactc gaaagtccga ggaaaccatc actccctgga acttcgagga 1440 agtcgtggac aagggtgcct ctgcacagtc cttcatcgag cgaatgacca acttcgacaa 1500 gaatctgccc aacgagaagg ttcttcccaa gcattcgctg ctctacgagt actttacagt 1560 ctacaacgaa ctcaccaaag tcaagtacgt taccgaggga atgcgaaagc ctgccttctt 1620 gtctggcgaa cagaagaaag ccattgtcga tctcctgttc aagaccaacc gaaaggtcac 1680 tgttaagcag ctcaaggagg actacttcaa gaaaatcgag tgtttcgaca gcgtcgagat 1740 ttccggagtt gaggaccgat tcaacgcctc tttgggcacc tatcacgatc tgctcaagat 1800 tatcaaggac aaggattttc tcgacaacga ggaaaacgag gacattctgg aggacatcgt 1860 gctcactctt accctgttcg aagatcggga gatgatcgag gaacgactca agacatacgc 1920 tcacctgttc gacgacaagg tcatgaaaca actcaagcga cgtagataca ccggctgggg 1980 aagactttcg cgaaagctca tcaacggcat cagagacaag cagtccggaa agaccattct 2040 ggactttctc aagtccgatg gctttgccaa ccgaaacttc atgcagctca ttcacgacga 2100 ttctcttacc ttcaaggagg acatccagaa ggcacaagtg tccggtcagg gcgacagctt 2160 gcacgaacat attgccaacc tggctggttc gccagccatc aagaaaggca ttctccagac 2220 tgtcaaggtt gtcgacgagc tggtgaaggt catgggacgt cacaagcccg agaacattgt 2280 gatcgagatg gccagagaga accagacaac tcaaaagggt cagaaaaact cgcgagagcg 2340 gatgaagcga atcgaggaag gcatcaagga gctgggatcc cagattctca aggagcatcc 2400 cgtcgagaac actcaactgc agaacgagaa gctgtatctc tactatctgc agaatggtcg 2460 agacatgtac gtggatcagg aactggacat caatcgtctc agcgactacg atgtggacca 2520 cattgtccct caatcctttc tcaaggacga ttctatcgac aacaaggtcc ttacacgatc 2580 cgacaagaac agaggcaagt cggacaacgt tcccagcgaa gaggtggtca aaaagatgaa 2640 gaactactgg cgacagctgc tcaacgccaa gctcattacc cagcgaaagt tcgacaatct 2700 taccaaggcc gagcgaggcg gtctgtccga gctcgacaag gctggcttca tcaagcgtca 2760 actcgtcgag accagacaga tcacaaagca cgtcgcacag attctcgatt ctcggatgaa 2820 caccaagtac gacgagaacg acaagctcat ccgagaggtc aaggtgatta ctctcaagtc 2880 caaactggtc tccgatttcc gaaaggactt tcagttctac aaggtgcgag agatcaacaa 2940 ttaccaccat gcccacgatg cttacctcaa cgccgtcgtt ggcactgcgc tcatcaagaa 3000 ataccccaag ctcgaaagcg agttcgttta cggcgattac aaggtctacg acgttcgaaa 3060 gatgattgcc aagtccgaac aggagattgg caaggctact gccaagtact tcttttactc 3120 caacatcatg aactttttca agaccgagat caccttggcc aacggagaga ttcgaaagag 3180 accacttatc gagaccaacg gcgaaactgg agagatcgtg tgggacaagg gtcgagactt 3240 tgcaaccgtg cgaaaggttc tgtcgatgcc tcaggtcaac atcgtcaaga aaaccgaggt 3300 tcagactggc ggattctcca aggagtcgat tctgcccaag cgaaactccg acaagctcat 3360 cgctcgaaag aaagactggg atcccaagaa atacggtggc ttcgattctc ctaccgtcgc 3420 ctattccgtg cttgtcgttg cgaaggtcga gaagggcaag tccaaaaagc tcaagtccgt 3480 caaggagctg ctcggaatta ccatcatgga gcgatcgagc ttcgagaaga atcccatcga 3540 cttcttggaa gccaagggtt acaaggaggt caagaaagac ctcattatca agctgcccaa 3600 gtactctctg ttcgaactgg agaacggtcg aaagcgtatg ctcgcctccg ctggcgagct 3660 gcagaaggga aacgagcttg ccttgccttc gaagtacgtc aactttctct atctggcttc 3720 tcactacgag aagctcaagg gttctcccga ggacaacgaa cagaagcaac tcttcgttga 3780 gcagcacaaa cattacctcg acgagattat cgagcagatt tccgagtttt cgaagcgagt 3840 catcctggct gatgccaact tggacaaggt gctctctgcc tacaacaagc atcgggacaa 3900 acccattcga gaacaggcgg agaacatcat tcacctgttt actcttacca acctgggtgc 3960 tcctgcagct ttcaagtact tcgataccac tatcgaccga aagcggtaca catccaccaa 4020 ggaggttctc gatgccaccc tgattcacca gtccatcact ggcctgtacg agacccgaat 4080 cgacctgtct cagcttggtg gcgactccag agccgatccc aagaaaaagc gaaaggtcta 4140 agcggccgca agtgtggatg gggaagtgag tgcccggttc tgtgtgcaca attggcaatc 4200 caagatggat ggattcaaca cagggatata gcgagctacg tggtggtgcg aggatatagc 4260 aacggatatt tatgtttgac acttgagaat gtacgataca agcactgtcc aagtacaata 4320 ctaaacatac tgtacatact catactcgta cccgggcaac ggtttcactt gagtgcagtg 4380 gctagtgctc ttactcgtac agtgtgcaat actgcgtatc atagtctttg atgtatatcg 4440 tattcattca tgttagttgc gtacgagccg gaagcataaa gtgtaaagcc tggggtgcct 4500 aatgagtgag ctaactcaca ttaattgcgt tgcgctcact gcccgctttc cagtcgggaa 4560 acctgtcgtg ccagctgcat taatgaatcg gccaacgcgc ggggagaggc ggtttgcgta 4620 ttgggcgctc ttccgcttcc tcgctcactg actcgctgcg ctcggtcgtt cggctgcggc 4680 gagcggtatc agctcactca aaggcggtaa tacggttatc cacagaatca ggggataacg 4740 caggaaagaa catgtgagca aaaggccagc aaaaggccag gaaccgtaaa aaggccgcgt 4800 tgctggcgtt tttccatagg ctccgccccc ctgacgagca tcacaaaaat cgacgctcaa 4860 gtcagaggtg gcgaaacccg acaggactat aaagatacca ggcgtttccc cctggaagct 4920 ccctcgtgcg ctctcctgtt ccgaccctgc cgcttaccgg atacctgtcc gcctttctcc 4980 cttcgggaag cgtggcgctt tctcatagct cacgctgtag gtatctcagt tcggtgtagg 5040 tcgttcgctc caagctgggc tgtgtgcacg aaccccccgt tcagcccgac cgctgcgcct 5100 tatccggtaa ctatcgtctt gagtccaacc cggtaagaca cgacttatcg ccactggcag 5160 cagccactgg taacaggatt agcagagcga ggtatgtagg cggtgctaca gagttcttga 5220 agtggtggcc taactacggc tacactagaa ggacagtatt tggtatctgc gctctgctga 5280 agccagttac cttcggaaaa agagttggta gctcttgatc cggcaaacaa accaccgctg 5340 gtagcggtgg tttttttgtt tgcaagcagc agattacgcg cagaaaaaaa ggatctcaag 5400 aagatccttt gatcttttct acggggtctg acgctcagtg gaacgaaaac tcacgttaag 5460 ggattttggt catgagatta tcaaaaagga tcttcaccta gatcctttta aattaaaaat 5520 gaagttttaa atcaatctaa agtatatatg agtaaacttg gtctgacagt taccaatgct 5580 taatcagtga ggcacctatc tcagcgatct gtctatttcg ttcatccata gttgcctgac 5640 tccccgtcgt gtagataact acgatacggg agggcttacc atctggcccc agtgctgcaa 5700 tgataccgcg agacccacgc tcaccggctc cagatttatc agcaataaac cagccagccg 5760 gaagggccga gcgcagaagt ggtcctgcaa ctttatccgc ctccatccag tctattaatt 5820 gttgccggga agctagagta agtagttcgc cagttaatag tttgcgcaac gttgttgcca 5880 ttgctacagg catcgtggtg tcacgctcgt cgtttggtat ggcttcattc agctccggtt 5940 cccaacgatc aaggcgagtt acatgatccc ccatgttgtg caaaaaagcg gttagctcct 6000 tcggtcctcc gatcgttgtc agaagtaagt tggccgcagt gttatcactc atggttatgg 6060 cagcactgca taattctctt actgtcatgc catccgtaag atgcttttct gtgactggtg 6120 agtactcaac caagtcattc tgagaatagt gtatgcggcg accgagttgc tcttgcccgg 6180 cgtcaatacg ggataatacc gcgccacata gcagaacttt aaaagtgctc atcattggaa 6240 aacgttcttc ggggcgaaaa ctctcaagga tcttaccgct gttgagatcc agttcgatgt 6300 aacccactcg tgcacccaac tgatcttcag catcttttac tttcaccagc gtttctgggt 6360 gagcaaaaac aggaaggcaa aatgccgcaa aaaagggaat aagggcgaca cggaaatgtt 6420 gaatactcat actcttcctt tttcaatatt attgaagcat ttatcagggt tattgtctca 6480 tgagcggata catatttgaa tgtatttaga aaaataaaca aataggggtt ccgcgcacat 6540 ttccccgaaa agtgccacct gacgcgccct gtagcggcgc attaagcgcg gcgggtgtgg 6600 tggttacgcg cagcgtgacc gctacacttg ccagcgccct agcgcccgct cctttcgctt 6660 tcttcccttc ctttctcgcc acgttcgccg gctttccccg tcaagctcta aatcgggggc 6720 tccctttagg gttccgattt agtgctttac ggcacctcga ccccaaaaaa cttgattagg 6780 gtgatggttc acgtagtggg ccatcgccct gatagacggt ttttcgccct ttgacgttgg 6840 agtccacgtt ctttaatagt ggactcttgt tccaaactgg aacaacactc aaccctatct 6900 cggtctattc ttttgattta taagggattt tgccgatttc ggcctattgg ttaaaaaatg 6960 agctgattta acaaaaattt aacgcgaatt ttaacaaaat attaacgctt acaatttcca 7020 ttcgccattc aggctgcgca actgttggga agggcgatcg gtgcgggcct cttcgctatt 7080 acgccagctg gcgaaagggg gatgtgctgc aaggcgatta agttgggtaa cgccagggtt 7140 ttcccagtca cgacgttgta aaacgacggc cagtgaattg taatacgact cactataggg 7200 cgaattgggt accgggcccc ccctcgaggt cgatggtgtc gataagcttg atatcgaatt 7260 catgtcacac aaaccgatct tcgcctcaag gaaacctaat tctacatccg agagactgcc 7320 gagatccagt ctacactgat taattttcgg gccaataatt taaaaaaatc gtgttatata 7380 atattatatg tattatatat atacatcatg atgatactga cagtcatgtc ccattgctaa 7440 atagacagac tccatctgcc gcctccaact gatgttctca atatttaagg ggtcatctcg 7500 cattgtttaa taataaacag actccatcta ccgcctccaa atgatgttct caaaatatat 7560 tgtatgaact tatttttatt acttagtatt attagacaac ttacttgctt tatgaaaaac 7620 acttcctatt taggaaacaa tttataatgg cagttcgttc atttaacaat ttatgtagaa 7680 taaatgttat aaatgcgtat gggaaatctt aaatatggat agcataaatg atatctgcat 7740 tgcctaattc gaaatcaaca gcaacgaaaa aaatcccttg tacaacataa atagtcatcg 7800 agaaatatca actatcaaag aacagctatt cacacgttac tattgagatt attattggac 7860 gagaatcaca cactcaactg tctttctctc ttctagaaat acaggtacaa gtatgtacta 7920 ttctcattgt tcatacttct agtcatttca tcccacatat tccttggatt tctctccaat 7980 gaatgacatt ctatcttgca aattcaacaa ttataataag atataccaaa gtagcggtat 8040 agtggcaatc aaaaagcttc tctggtgtgc ttctcgtatt tatttttatt ctaatgatcc 8100 attaaaggta tatatttatt tcttgttata taatcctttt gtttattaca tgggctggat 8160 acataaaggt attttgattt aattttttgc ttaaattcaa tcccccctcg ttcagtgtca 8220 actgtaatgg taggaaatta ccatactttt gaagaagcaa aaaaaatgaa agaaaaaaaa 8280 aatcgtattt ccaggttaga cgttccgcag aatctagaat gcggtatgcg gtacattgtt 8340 cttcgaacgt aaaagttgcg ctccctgaga tattgtacat ttttgctttt acaagtacaa 8400 gtacatcgta caactatgta ctactgttga tgcatccaca acagtttgtt ttgttttttt 8460 ttgttttttt tttttctaat gattcattac cgctatgtat acctacttgt acttgtagta 8520 agccgggtta ttggcgttca attaatcata gacttatgaa tctgcacggt gtgcgctgcg 8580 agttactttt agcttatgca tgctacttgg gtgtaatatt gggatctgtt cggaaatcaa 8640 cggatgctca atcgatttcg acagtaatta attaagtcat acacaagtca gctttcttcg 8700 agcctcatat aagtataagt agttcaacgt attagcactg tacccagcat ctccgtatcg 8760 agaaacacaa caacatgccc cattggacag atcatgcgga tacacaggtt gtgcagtatc 8820 atacatactc gatcagacag gtcgtctgac catcatacaa gctgaacaag cgctccatac 8880 ttgcacgctc tctatataca cagttaaatt acatatccat agtctaacct ctaacagtta 8940 atcttctggt aagcctccca gccagccttc tggtatcgct tggcctcctc aataggatct 9000 cggttctggc cgtacagacc tcggccgaca attatgatat ccgttccggt agacatgaca 9060 tcctcaacag ttcggtactg ctgtccgaga gcgtctccct tgtcgtcaag acccaccccg 9120 ggggtcagaa taagccagtc ctcagagtcg cccttaggtc ggttctgggc aatgaagcca 9180 accacaaact cggggtcgga tcgggcaagc tcaatggtct gcttggagta ctcgccagtg 9240 gccagagagc ccttgcaaga cagctcggcc agcatgagca gacctctggc cagcttctcg 9300 ttgggagagg ggactaggaa ctccttgtac tgggagttct cgtagtcaga gacgtcctcc 9360 ttcttctgtt cagagacagt ttcctcggca ccagctcgca ggccagcaat gattccggtt 9420 ccgggtacac cgtgggcgtt ggtgatatcg gaccactcgg cgattcggtg acaccggtac 9480 tggtgcttga cagtgttgcc aatatctgcg aactttctgt cctcgaacag gaagaaaccg 9540 tgcttaagag caagttcctt gagggggagc acagtgccgg cgtaggtgaa gtcgtcaatg 9600 atgtcgatat gggttttgat catgcacaca taaggtccga ccttatcggc aagctcaatg 9660 agctccttgg tggtggtaac atccagagaa gcacacaggt tggttttctt ggctgccacg 9720 agcttgagca ctcgagcggc aaaggcggac ttgtggacgt tagctcgagc ttcgtaggag 9780 ggcattttgg tggtgaagag gagactgaaa taaatttagt ctgcagaact ttttatcgga 9840 accttatctg gggcagtgaa gtatatgtta tggtaatagt tacgagttag ttgaacttat 9900 agatagactg gactatacgg ctatcggtcc aaattagaaa gaacgtcaat ggctctctgg 9960 gcgtcgcctt tgccgacaaa aatgtgatca tgatgaaagc cagcaatgac gttgcagctg 10020 atattgttgt cggccaaccg cgccgaaaac gcagctgtca gacccacagc ctccaacgaa 10080 gaatgtatcg tcaaagtgat ccaagcacac tcatagttgg agtcgtactc caaaggcggc 10140 aatgacgagt cagacagata ctcgtcgacg tttaaaccat catctaaggg cctcaaaact 10200 acctcggaac tgctgcgctg atctggacac cacagaggtt ccgagcactt taggttgcac 10260 caaatgtccc accaggtgca ggcagaaaac gctggaacag cgtgtacagt ttgtcttaac 10320 aaaaagtgag ggcgctgagg tcgagcaggg tggtgtgact tgttatagcc tttagagctg 10380 cgaaagcgcg tatggatttg gctcatcagg ccagattgag ggtctgtgga cacatgtcat 10440 gttagtgtac ttcaatcgcc ccctggatat agccccgaca ataggccgtg gcctcatttt 10500 tttgccttcc gcacatttcc attgctcggt acccacacct tgcttctcct gcacttgcca 10560 accttaatac tggtttacat tgaccaacat cttacaagcg gggggcttgt ctagggtata 10620 tataaacagt ggctctccca atcggttgcc agtctctttt ttcctttctt tccccacaga 10680 ttcgaaatct aaactacaca tcacac 10706 <210> 7 <211> 47 <212> DNA <213> Artificial sequence <220> <223> AarI-removal 1 <400> 7 agaagtatcc taccatctac catctccgaa agaaactcgt cgattcc 47 <210> 8 <211> 47 <212> DNA <213> Artificial sequence <220> <223> AarI-removal 2 <400> 8 ggaatcgacg agtttctttc ggagatggta gatggtagga tacttct 47 <210> 9 <211> 10706 <212> DNA <213> Artificial sequence <220> <223> pRF109 <400> 9 catggacaag aaatactcca tcggcctgga cattggaacc aactctgtcg gctgggctgt 60 catcaccgac gagtacaagg tgccctccaa gaaattcaag gtcctcggaa acaccgatcg 120 acactccatc aagaaaaacc tcattggtgc cctgttgttc gattctggcg agactgccga 180 agctaccaga ctcaagcgaa ctgctcggcg acgttacacc cgacggaaga accgaatctg 240 ctacctgcag gagatctttt ccaacgagat ggccaaggtg gacgattcgt tctttcatcg 300 actggaggaa tccttcctcg tcgaggaaga caagaaacac gagcgtcatc ccatctttgg 360 caacattgtg gacgaggttg cttaccacga gaagtatcct accatctacc atctccgaaa 420 gaaactcgtc gattccaccg acaaggcgga tctcagactt atctacctcg ctctggcaca 480 catgatcaag tttcgaggtc atttcctcat cgagggcgat ctcaatcccg acaacagcga 540 tgtggacaag ctgttcattc agctcgttca gacctacaac cagctgttcg aggaaaaccc 600 catcaatgcc tccggagtcg atgcaaaggc catcttgtct gctcgactct cgaagagcag 660 acgactggag aacctcattg cccaacttcc tggcgagaaa aagaacggac tgtttggcaa 720 cctcattgcc ctttctcttg gtctcacacc caacttcaag tccaacttcg atctggcgga 780 ggacgccaag ctccagctgt ccaaggacac ctacgacgat gacctcgaca acctgcttgc 840 acagattggc gatcagtacg ccgacctgtt tctcgctgcc aagaaccttt cggatgctat 900 tctcttgtct gacattctgc gagtcaacac cgagatcaca aaggctcccc tttctgcctc 960 catgatcaag cgatacgacg agcaccatca ggatctcaca ctgctcaagg ctcttgtccg 1020 acagcaactg cccgagaagt acaaggagat ctttttcgat cagtcgaaga acggctacgc 1080 tggatacatc gacggcggag cctctcagga agagttctac aagttcatca agccaattct 1140 cgagaagatg gacggaaccg aggaactgct tgtcaagctc aatcgagagg atctgcttcg 1200 gaagcaacga accttcgaca acggcagcat tcctcatcag atccacctcg gtgagctgca 1260 cgccattctt cgacgtcagg aagacttcta cccctttctc aaggacaacc gagagaagat 1320 cgagaagatt cttacctttc gaatccccta ctatgttggt cctcttgcca gaggaaactc 1380 tcgatttgct tggatgactc gaaagtccga ggaaaccatc actccctgga acttcgagga 1440 agtcgtggac aagggtgcct ctgcacagtc cttcatcgag cgaatgacca acttcgacaa 1500 gaatctgccc aacgagaagg ttcttcccaa gcattcgctg ctctacgagt actttacagt 1560 ctacaacgaa ctcaccaaag tcaagtacgt taccgaggga atgcgaaagc ctgccttctt 1620 gtctggcgaa cagaagaaag ccattgtcga tctcctgttc aagaccaacc gaaaggtcac 1680 tgttaagcag ctcaaggagg actacttcaa gaaaatcgag tgtttcgaca gcgtcgagat 1740 ttccggagtt gaggaccgat tcaacgcctc tttgggcacc tatcacgatc tgctcaagat 1800 tatcaaggac aaggattttc tcgacaacga ggaaaacgag gacattctgg aggacatcgt 1860 gctcactctt accctgttcg aagatcggga gatgatcgag gaacgactca agacatacgc 1920 tcacctgttc gacgacaagg tcatgaaaca actcaagcga cgtagataca ccggctgggg 1980 aagactttcg cgaaagctca tcaacggcat cagagacaag cagtccggaa agaccattct 2040 ggactttctc aagtccgatg gctttgccaa ccgaaacttc atgcagctca ttcacgacga 2100 ttctcttacc ttcaaggagg acatccagaa ggcacaagtg tccggtcagg gcgacagctt 2160 gcacgaacat attgccaacc tggctggttc gccagccatc aagaaaggca ttctccagac 2220 tgtcaaggtt gtcgacgagc tggtgaaggt catgggacgt cacaagcccg agaacattgt 2280 gatcgagatg gccagagaga accagacaac tcaaaagggt cagaaaaact cgcgagagcg 2340 gatgaagcga atcgaggaag gcatcaagga gctgggatcc cagattctca aggagcatcc 2400 cgtcgagaac actcaactgc agaacgagaa gctgtatctc tactatctgc agaatggtcg 2460 agacatgtac gtggatcagg aactggacat caatcgtctc agcgactacg atgtggacca 2520 cattgtccct caatcctttc tcaaggacga ttctatcgac aacaaggtcc ttacacgatc 2580 cgacaagaac agaggcaagt cggacaacgt tcccagcgaa gaggtggtca aaaagatgaa 2640 gaactactgg cgacagctgc tcaacgccaa gctcattacc cagcgaaagt tcgacaatct 2700 taccaaggcc gagcgaggcg gtctgtccga gctcgacaag gctggcttca tcaagcgtca 2760 actcgtcgag accagacaga tcacaaagca cgtcgcacag attctcgatt ctcggatgaa 2820 caccaagtac gacgagaacg acaagctcat ccgagaggtc aaggtgatta ctctcaagtc 2880 caaactggtc tccgatttcc gaaaggactt tcagttctac aaggtgcgag agatcaacaa 2940 ttaccaccat gcccacgatg cttacctcaa cgccgtcgtt ggcactgcgc tcatcaagaa 3000 ataccccaag ctcgaaagcg agttcgttta cggcgattac aaggtctacg acgttcgaaa 3060 gatgattgcc aagtccgaac aggagattgg caaggctact gccaagtact tcttttactc 3120 caacatcatg aactttttca agaccgagat caccttggcc aacggagaga ttcgaaagag 3180 accacttatc gagaccaacg gcgaaactgg agagatcgtg tgggacaagg gtcgagactt 3240 tgcaaccgtg cgaaaggttc tgtcgatgcc tcaggtcaac atcgtcaaga aaaccgaggt 3300 tcagactggc ggattctcca aggagtcgat tctgcccaag cgaaactccg acaagctcat 3360 cgctcgaaag aaagactggg atcccaagaa atacggtggc ttcgattctc ctaccgtcgc 3420 ctattccgtg cttgtcgttg cgaaggtcga gaagggcaag tccaaaaagc tcaagtccgt 3480 caaggagctg ctcggaatta ccatcatgga gcgatcgagc ttcgagaaga atcccatcga 3540 cttcttggaa gccaagggtt acaaggaggt caagaaagac ctcattatca agctgcccaa 3600 gtactctctg ttcgaactgg agaacggtcg aaagcgtatg ctcgcctccg ctggcgagct 3660 gcagaaggga aacgagcttg ccttgccttc gaagtacgtc aactttctct atctggcttc 3720 tcactacgag aagctcaagg gttctcccga ggacaacgaa cagaagcaac tcttcgttga 3780 gcagcacaaa cattacctcg acgagattat cgagcagatt tccgagtttt cgaagcgagt 3840 catcctggct gatgccaact tggacaaggt gctctctgcc tacaacaagc atcgggacaa 3900 acccattcga gaacaggcgg agaacatcat tcacctgttt actcttacca acctgggtgc 3960 tcctgcagct ttcaagtact tcgataccac tatcgaccga aagcggtaca catccaccaa 4020 ggaggttctc gatgccaccc tgattcacca gtccatcact ggcctgtacg agacccgaat 4080 cgacctgtct cagcttggtg gcgactccag agccgatccc aagaaaaagc gaaaggtcta 4140 agcggccgca agtgtggatg gggaagtgag tgcccggttc tgtgtgcaca attggcaatc 4200 caagatggat ggattcaaca cagggatata gcgagctacg tggtggtgcg aggatatagc 4260 aacggatatt tatgtttgac acttgagaat gtacgataca agcactgtcc aagtacaata 4320 ctaaacatac tgtacatact catactcgta cccgggcaac ggtttcactt gagtgcagtg 4380 gctagtgctc ttactcgtac agtgtgcaat actgcgtatc atagtctttg atgtatatcg 4440 tattcattca tgttagttgc gtacgagccg gaagcataaa gtgtaaagcc tggggtgcct 4500 aatgagtgag ctaactcaca ttaattgcgt tgcgctcact gcccgctttc cagtcgggaa 4560 acctgtcgtg ccagctgcat taatgaatcg gccaacgcgc ggggagaggc ggtttgcgta 4620 ttgggcgctc ttccgcttcc tcgctcactg actcgctgcg ctcggtcgtt cggctgcggc 4680 gagcggtatc agctcactca aaggcggtaa tacggttatc cacagaatca ggggataacg 4740 caggaaagaa catgtgagca aaaggccagc aaaaggccag gaaccgtaaa aaggccgcgt 4800 tgctggcgtt tttccatagg ctccgccccc ctgacgagca tcacaaaaat cgacgctcaa 4860 gtcagaggtg gcgaaacccg acaggactat aaagatacca ggcgtttccc cctggaagct 4920 ccctcgtgcg ctctcctgtt ccgaccctgc cgcttaccgg atacctgtcc gcctttctcc 4980 cttcgggaag cgtggcgctt tctcatagct cacgctgtag gtatctcagt tcggtgtagg 5040 tcgttcgctc caagctgggc tgtgtgcacg aaccccccgt tcagcccgac cgctgcgcct 5100 tatccggtaa ctatcgtctt gagtccaacc cggtaagaca cgacttatcg ccactggcag 5160 cagccactgg taacaggatt agcagagcga ggtatgtagg cggtgctaca gagttcttga 5220 agtggtggcc taactacggc tacactagaa ggacagtatt tggtatctgc gctctgctga 5280 agccagttac cttcggaaaa agagttggta gctcttgatc cggcaaacaa accaccgctg 5340 gtagcggtgg tttttttgtt tgcaagcagc agattacgcg cagaaaaaaa ggatctcaag 5400 aagatccttt gatcttttct acggggtctg acgctcagtg gaacgaaaac tcacgttaag 5460 ggattttggt catgagatta tcaaaaagga tcttcaccta gatcctttta aattaaaaat 5520 gaagttttaa atcaatctaa agtatatatg agtaaacttg gtctgacagt taccaatgct 5580 taatcagtga ggcacctatc tcagcgatct gtctatttcg ttcatccata gttgcctgac 5640 tccccgtcgt gtagataact acgatacggg agggcttacc atctggcccc agtgctgcaa 5700 tgataccgcg agacccacgc tcaccggctc cagatttatc agcaataaac cagccagccg 5760 gaagggccga gcgcagaagt ggtcctgcaa ctttatccgc ctccatccag tctattaatt 5820 gttgccggga agctagagta agtagttcgc cagttaatag tttgcgcaac gttgttgcca 5880 ttgctacagg catcgtggtg tcacgctcgt cgtttggtat ggcttcattc agctccggtt 5940 cccaacgatc aaggcgagtt acatgatccc ccatgttgtg caaaaaagcg gttagctcct 6000 tcggtcctcc gatcgttgtc agaagtaagt tggccgcagt gttatcactc atggttatgg 6060 cagcactgca taattctctt actgtcatgc catccgtaag atgcttttct gtgactggtg 6120 agtactcaac caagtcattc tgagaatagt gtatgcggcg accgagttgc tcttgcccgg 6180 cgtcaatacg ggataatacc gcgccacata gcagaacttt aaaagtgctc atcattggaa 6240 aacgttcttc ggggcgaaaa ctctcaagga tcttaccgct gttgagatcc agttcgatgt 6300 aacccactcg tgcacccaac tgatcttcag catcttttac tttcaccagc gtttctgggt 6360 gagcaaaaac aggaaggcaa aatgccgcaa aaaagggaat aagggcgaca cggaaatgtt 6420 gaatactcat actcttcctt tttcaatatt attgaagcat ttatcagggt tattgtctca 6480 tgagcggata catatttgaa tgtatttaga aaaataaaca aataggggtt ccgcgcacat 6540 ttccccgaaa agtgccacct gacgcgccct gtagcggcgc attaagcgcg gcgggtgtgg 6600 tggttacgcg cagcgtgacc gctacacttg ccagcgccct agcgcccgct cctttcgctt 6660 tcttcccttc ctttctcgcc acgttcgccg gctttccccg tcaagctcta aatcgggggc 6720 tccctttagg gttccgattt agtgctttac ggcacctcga ccccaaaaaa cttgattagg 6780 gtgatggttc acgtagtggg ccatcgccct gatagacggt ttttcgccct ttgacgttgg 6840 agtccacgtt ctttaatagt ggactcttgt tccaaactgg aacaacactc aaccctatct 6900 cggtctattc ttttgattta taagggattt tgccgatttc ggcctattgg ttaaaaaatg 6960 agctgattta acaaaaattt aacgcgaatt ttaacaaaat attaacgctt acaatttcca 7020 ttcgccattc aggctgcgca actgttggga agggcgatcg gtgcgggcct cttcgctatt 7080 acgccagctg gcgaaagggg gatgtgctgc aaggcgatta agttgggtaa cgccagggtt 7140 ttcccagtca cgacgttgta aaacgacggc cagtgaattg taatacgact cactataggg 7200 cgaattgggt accgggcccc ccctcgaggt cgatggtgtc gataagcttg atatcgaatt 7260 catgtcacac aaaccgatct tcgcctcaag gaaacctaat tctacatccg agagactgcc 7320 gagatccagt ctacactgat taattttcgg gccaataatt taaaaaaatc gtgttatata 7380 atattatatg tattatatat atacatcatg atgatactga cagtcatgtc ccattgctaa 7440 atagacagac tccatctgcc gcctccaact gatgttctca atatttaagg ggtcatctcg 7500 cattgtttaa taataaacag actccatcta ccgcctccaa atgatgttct caaaatatat 7560 tgtatgaact tatttttatt acttagtatt attagacaac ttacttgctt tatgaaaaac 7620 acttcctatt taggaaacaa tttataatgg cagttcgttc atttaacaat ttatgtagaa 7680 taaatgttat aaatgcgtat gggaaatctt aaatatggat agcataaatg atatctgcat 7740 tgcctaattc gaaatcaaca gcaacgaaaa aaatcccttg tacaacataa atagtcatcg 7800 agaaatatca actatcaaag aacagctatt cacacgttac tattgagatt attattggac 7860 gagaatcaca cactcaactg tctttctctc ttctagaaat acaggtacaa gtatgtacta 7920 ttctcattgt tcatacttct agtcatttca tcccacatat tccttggatt tctctccaat 7980 gaatgacatt ctatcttgca aattcaacaa ttataataag atataccaaa gtagcggtat 8040 agtggcaatc aaaaagcttc tctggtgtgc ttctcgtatt tatttttatt ctaatgatcc 8100 attaaaggta tatatttatt tcttgttata taatcctttt gtttattaca tgggctggat 8160 acataaaggt attttgattt aattttttgc ttaaattcaa tcccccctcg ttcagtgtca 8220 actgtaatgg taggaaatta ccatactttt gaagaagcaa aaaaaatgaa agaaaaaaaa 8280 aatcgtattt ccaggttaga cgttccgcag aatctagaat gcggtatgcg gtacattgtt 8340 cttcgaacgt aaaagttgcg ctccctgaga tattgtacat ttttgctttt acaagtacaa 8400 gtacatcgta caactatgta ctactgttga tgcatccaca acagtttgtt ttgttttttt 8460 ttgttttttt tttttctaat gattcattac cgctatgtat acctacttgt acttgtagta 8520 agccgggtta ttggcgttca attaatcata gacttatgaa tctgcacggt gtgcgctgcg 8580 agttactttt agcttatgca tgctacttgg gtgtaatatt gggatctgtt cggaaatcaa 8640 cggatgctca atcgatttcg acagtaatta attaagtcat acacaagtca gctttcttcg 8700 agcctcatat aagtataagt agttcaacgt attagcactg tacccagcat ctccgtatcg 8760 agaaacacaa caacatgccc cattggacag atcatgcgga tacacaggtt gtgcagtatc 8820 atacatactc gatcagacag gtcgtctgac catcatacaa gctgaacaag cgctccatac 8880 ttgcacgctc tctatataca cagttaaatt acatatccat agtctaacct ctaacagtta 8940 atcttctggt aagcctccca gccagccttc tggtatcgct tggcctcctc aataggatct 9000 cggttctggc cgtacagacc tcggccgaca attatgatat ccgttccggt agacatgaca 9060 tcctcaacag ttcggtactg ctgtccgaga gcgtctccct tgtcgtcaag acccaccccg 9120 ggggtcagaa taagccagtc ctcagagtcg cccttaggtc ggttctgggc aatgaagcca 9180 accacaaact cggggtcgga tcgggcaagc tcaatggtct gcttggagta ctcgccagtg 9240 gccagagagc ccttgcaaga cagctcggcc agcatgagca gacctctggc cagcttctcg 9300 ttgggagagg ggactaggaa ctccttgtac tgggagttct cgtagtcaga gacgtcctcc 9360 ttcttctgtt cagagacagt ttcctcggca ccagctcgca ggccagcaat gattccggtt 9420 ccgggtacac cgtgggcgtt ggtgatatcg gaccactcgg cgattcggtg acaccggtac 9480 tggtgcttga cagtgttgcc aatatctgcg aactttctgt cctcgaacag gaagaaaccg 9540 tgcttaagag caagttcctt gagggggagc acagtgccgg cgtaggtgaa gtcgtcaatg 9600 atgtcgatat gggttttgat catgcacaca taaggtccga ccttatcggc aagctcaatg 9660 agctccttgg tggtggtaac atccagagaa gcacacaggt tggttttctt ggctgccacg 9720 agcttgagca ctcgagcggc aaaggcggac ttgtggacgt tagctcgagc ttcgtaggag 9780 ggcattttgg tggtgaagag gagactgaaa taaatttagt ctgcagaact ttttatcgga 9840 accttatctg gggcagtgaa gtatatgtta tggtaatagt tacgagttag ttgaacttat 9900 agatagactg gactatacgg ctatcggtcc aaattagaaa gaacgtcaat ggctctctgg 9960 gcgtcgcctt tgccgacaaa aatgtgatca tgatgaaagc cagcaatgac gttgcagctg 10020 atattgttgt cggccaaccg cgccgaaaac gcagctgtca gacccacagc ctccaacgaa 10080 gaatgtatcg tcaaagtgat ccaagcacac tcatagttgg agtcgtactc caaaggcggc 10140 aatgacgagt cagacagata ctcgtcgacg tttaaaccat catctaaggg cctcaaaact 10200 acctcggaac tgctgcgctg atctggacac cacagaggtt ccgagcactt taggttgcac 10260 caaatgtccc accaggtgca ggcagaaaac gctggaacag cgtgtacagt ttgtcttaac 10320 aaaaagtgag ggcgctgagg tcgagcaggg tggtgtgact tgttatagcc tttagagctg 10380 cgaaagcgcg tatggatttg gctcatcagg ccagattgag ggtctgtgga cacatgtcat 10440 gttagtgtac ttcaatcgcc ccctggatat agccccgaca ataggccgtg gcctcatttt 10500 tttgccttcc gcacatttcc attgctcggt acccacacct tgcttctcct gcacttgcca 10560 accttaatac tggtttacat tgaccaacat cttacaagcg gggggcttgt ctagggtata 10620 tataaacagt ggctctccca atcggttgcc agtctctttt ttcctttctt tccccacaga 10680 ttcgaaatct aaactacaca tcacac 10706 <210> 10 <211> 4140 <212> DNA <213> Artificial sequence <220> <223> Aar1- Cas9 ORF <400> 10 atggacaaga aatactccat cggcctggac attggaacca actctgtcgg ctgggctgtc 60 atcaccgacg agtacaaggt gccctccaag aaattcaagg tcctcggaaa caccgatcga 120 cactccatca agaaaaacct cattggtgcc ctgttgttcg attctggcga gactgccgaa 180 gctaccagac tcaagcgaac tgctcggcga cgttacaccc gacggaagaa ccgaatctgc 240 tacctgcagg agatcttttc caacgagatg gccaaggtgg acgattcgtt ctttcatcga 300 ctggaggaat ccttcctcgt cgaggaagac aagaaacacg agcgtcatcc catctttggc 360 aacattgtgg acgaggttgc ttaccacgag aagtatccta ccatctacca tctccgaaag 420 aaactcgtcg attccaccga caaggcggat ctcagactta tctacctcgc tctggcacac 480 atgatcaagt ttcgaggtca tttcctcatc gagggcgatc tcaatcccga caacagcgat 540 gtggacaagc tgttcattca gctcgttcag acctacaacc agctgttcga ggaaaacccc 600 atcaatgcct ccggagtcga tgcaaaggcc atcttgtctg ctcgactctc gaagagcaga 660 cgactggaga acctcattgc ccaacttcct ggcgagaaaa agaacggact gtttggcaac 720 ctcattgccc tttctcttgg tctcacaccc aacttcaagt ccaacttcga tctggcggag 780 gacgccaagc tccagctgtc caaggacacc tacgacgatg acctcgacaa cctgcttgca 840 cagattggcg atcagtacgc cgacctgttt ctcgctgcca agaacctttc ggatgctatt 900 ctcttgtctg acattctgcg agtcaacacc gagatcacaa aggctcccct ttctgcctcc 960 atgatcaagc gatacgacga gcaccatcag gatctcacac tgctcaaggc tcttgtccga 1020 cagcaactgc ccgagaagta caaggagatc tttttcgatc agtcgaagaa cggctacgct 1080 ggatacatcg acggcggagc ctctcaggaa gagttctaca agttcatcaa gccaattctc 1140 gagaagatgg acggaaccga ggaactgctt gtcaagctca atcgagagga tctgcttcgg 1200 aagcaacgaa ccttcgacaa cggcagcatt cctcatcaga tccacctcgg tgagctgcac 1260 gccattcttc gacgtcagga agacttctac ccctttctca aggacaaccg agagaagatc 1320 gagaagattc ttacctttcg aatcccctac tatgttggtc ctcttgccag aggaaactct 1380 cgatttgctt ggatgactcg aaagtccgag gaaaccatca ctccctggaa cttcgaggaa 1440 gtcgtggaca agggtgcctc tgcacagtcc ttcatcgagc gaatgaccaa cttcgacaag 1500 aatctgccca acgagaaggt tcttcccaag cattcgctgc tctacgagta ctttacagtc 1560 tacaacgaac tcaccaaagt caagtacgtt accgagggaa tgcgaaagcc tgccttcttg 1620 tctggcgaac agaagaaagc cattgtcgat ctcctgttca agaccaaccg aaaggtcact 1680 gttaagcagc tcaaggagga ctacttcaag aaaatcgagt gtttcgacag cgtcgagatt 1740 tccggagttg aggaccgatt caacgcctct ttgggcacct atcacgatct gctcaagatt 1800 atcaaggaca aggattttct cgacaacgag gaaaacgagg acattctgga ggacatcgtg 1860 ctcactctta ccctgttcga agatcgggag atgatcgagg aacgactcaa gacatacgct 1920 cacctgttcg acgacaaggt catgaaacaa ctcaagcgac gtagatacac cggctgggga 1980 agactttcgc gaaagctcat caacggcatc agagacaagc agtccggaaa gaccattctg 2040 gactttctca agtccgatgg ctttgccaac cgaaacttca tgcagctcat tcacgacgat 2100 tctcttacct tcaaggagga catccagaag gcacaagtgt ccggtcaggg cgacagcttg 2160 cacgaacata ttgccaacct ggctggttcg ccagccatca agaaaggcat tctccagact 2220 gtcaaggttg tcgacgagct ggtgaaggtc atgggacgtc acaagcccga gaacattgtg 2280 atcgagatgg ccagagagaa ccagacaact caaaagggtc agaaaaactc gcgagagcgg 2340 atgaagcgaa tcgaggaagg catcaaggag ctgggatccc agattctcaa ggagcatccc 2400 gtcgagaaca ctcaactgca gaacgagaag ctgtatctct actatctgca gaatggtcga 2460 gacatgtacg tggatcagga actggacatc aatcgtctca gcgactacga tgtggaccac 2520 attgtccctc aatcctttct caaggacgat tctatcgaca acaaggtcct tacacgatcc 2580 gacaagaaca gaggcaagtc ggacaacgtt cccagcgaag aggtggtcaa aaagatgaag 2640 aactactggc gacagctgct caacgccaag ctcattaccc agcgaaagtt cgacaatctt 2700 accaaggccg agcgaggcgg tctgtccgag ctcgacaagg ctggcttcat caagcgtcaa 2760 ctcgtcgaga ccagacagat cacaaagcac gtcgcacaga ttctcgattc tcggatgaac 2820 accaagtacg acgagaacga caagctcatc cgagaggtca aggtgattac tctcaagtcc 2880 aaactggtct ccgatttccg aaaggacttt cagttctaca aggtgcgaga gatcaacaat 2940 taccaccatg cccacgatgc ttacctcaac gccgtcgttg gcactgcgct catcaagaaa 3000 taccccaagc tcgaaagcga gttcgtttac ggcgattaca aggtctacga cgttcgaaag 3060 atgattgcca agtccgaaca ggagattggc aaggctactg ccaagtactt cttttactcc 3120 aacatcatga actttttcaa gaccgagatc accttggcca acggagagat tcgaaagaga 3180 ccacttatcg agaccaacgg cgaaactgga gagatcgtgt gggacaaggg tcgagacttt 3240 gcaaccgtgc gaaaggttct gtcgatgcct caggtcaaca tcgtcaagaa aaccgaggtt 3300 cagactggcg gattctccaa ggagtcgatt ctgcccaagc gaaactccga caagctcatc 3360 gctcgaaaga aagactggga tcccaagaaa tacggtggct tcgattctcc taccgtcgcc 3420 tattccgtgc ttgtcgttgc gaaggtcgag aagggcaagt ccaaaaagct caagtccgtc 3480 aaggagctgc tcggaattac catcatggag cgatcgagct tcgagaagaa tcccatcgac 3540 ttcttggaag ccaagggtta caaggaggtc aagaaagacc tcattatcaa gctgcccaag 3600 tactctctgt tcgaactgga gaacggtcga aagcgtatgc tcgcctccgc tggcgagctg 3660 cagaagggaa acgagcttgc cttgccttcg aagtacgtca actttctcta tctggcttct 3720 cactacgaga agctcaaggg ttctcccgag gacaacgaac agaagcaact cttcgttgag 3780 cagcacaaac attacctcga cgagattatc gagcagattt ccgagttttc gaagcgagtc 3840 atcctggctg atgccaactt ggacaaggtg ctctctgcct acaacaagca tcgggacaaa 3900 cccattcgag aacaggcgga gaacatcatt cacctgttta ctcttaccaa cctgggtgct 3960 cctgcagctt tcaagtactt cgataccact atcgaccgaa agcggtacac atccaccaag 4020 gaggttctcg atgccaccct gattcaccag tccatcactg gcctgtacga gacccgaatc 4080 gacctgtctc agcttggtgg cgactccaga gccgatccca agaaaaagcg aaaggtctaa 4140 <210> 11 <211> 10706 <212> DNA <213> Artificial sequence <220> <223> pRF141 <400> 11 catggacaag aaatactcca tcggcctgga cattggaacc aactctgtcg gctgggctgt 60 catcaccgac gagtacaagg tgccctccaa gaaattcaag gtcctcggaa acaccgatcg 120 acactccatc aagaaaaacc tcattggtgc cctgttgttc gattctggcg agactgccga 180 agctaccaga ctcaagcgaa ctgctcggcg acgttacacc cgacggaaga accgaatctg 240 ctacctgcag gagatctttt ccaacgagat ggccaaggtg gacgattcgt tctttcatcg 300 actggaggaa tccttcctcg tcgaggaaga caagaaacac gagcgtcatc ccatctttgg 360 caacattgtg gacgaggttg cttaccacga gaagtatcct accatctacc atctccgaaa 420 gaaactcgtc gattccaccg acaaggcgga tctcagactt atctacctcg ctctggcaca 480 catgatcaag tttcgaggtc atttcctcat cgagggcgat ctcaatcccg acaacagcga 540 tgtggacaag ctgttcattc agctcgttca gacctacaac cagctgttcg aggaaaaccc 600 catcaatgcc tccggagtcg atgcaaaggc catcttgtct gctcgactct cgaagagcag 660 acgactggag aacctcattg cccaacttcc tggcgagaaa aagaacggac tgtttggcaa 720 cctcattgcc ctttctcttg gtctcacacc caacttcaag tccaacttcg atctggcgga 780 ggacgccaag ctccagctgt ccaaggacac ctacgacgat gacctcgaca acctgcttgc 840 acagattggc gatcagtacg ccgacctgtt tctcgctgcc aagaaccttt cggatgctat 900 tctcttgtct gacattctgc gagtcaacac cgagatcaca aaggctcccc tttctgcctc 960 catgatcaag cgatacgacg agcaccatca ggatctcaca ctgctcaagg ctcttgtccg 1020 acagcaactg cccgagaagt acaaggagat ctttttcgat cagtcgaaga acggctacgc 1080 tggatacatc gacggcggag cctctcagga agagttctac aagttcatca agccaattct 1140 cgagaagatg gacggaaccg aggaactgct tgtcaagctc aatcgagagg atctgcttcg 1200 gaagcaacga accttcgaca acggcagcat tcctcatcag atccacctcg gtgagctgca 1260 cgccattctt cgacgtcagg aagacttcta cccctttctc aaggacaacc gagagaagat 1320 cgagaagatt cttacctttc gaatccccta ctatgttggt cctcttgcca gaggaaactc 1380 tcgatttgct tggatgactc gaaagtccga ggaaaccatc actccctgga acttcgagga 1440 agtcgtggac aagggtgcct ctgcacagtc cttcatcgag cgaatgacca acttcgacaa 1500 gaatctgccc aacgagaagg ttcttcccaa gcattcgctg ctctacgagt actttacagt 1560 ctacaacgaa ctcaccaaag tcaagtacgt taccgaggga atgcgaaagc ctgccttctt 1620 gtctggcgaa cagaagaaag ccattgtcga tctcctgttc aagaccaacc gaaaggtcac 1680 tgttaagcag ctcaaggagg actacttcaa gaaaatcgag tgtttcgaca gcgtcgagat 1740 ttccggagtt gaggaccgat tcaacgcctc tttgggcacc tatcacgatc tgctcaagat 1800 tatcaaggac aaggattttc tcgacaacga ggaaaacgag gacattctgg aggacatcgt 1860 gctcactctt accctgttcg aagatcggga gatgatcgag gaacgactca agacatacgc 1920 tcacctgttc gacgacaagg tcatgaaaca actcaagcga cgtagataca ccggctgggg 1980 aagactttcg cgaaagctca tcaacggcat cagagacaag cagtccggaa agaccattct 2040 ggactttctc aagtccgatg gctttgccaa ccgaaacttc atgcagctca ttcacgacga 2100 ttctcttacc ttcaaggagg acatccagaa ggcacaagtg tccggtcagg gcgacagctt 2160 gcacgaacat attgccaacc tggctggttc gccagccatc aagaaaggca ttctccagac 2220 tgtcaaggtt gtcgacgagc tggtgaaggt catgggacgt cacaagcccg agaacattgt 2280 gatcgagatg gccagagaga accagacaac tcaaaagggt cagaaaaact cgcgagagcg 2340 gatgaagcga atcgaggaag gcatcaagga gctgggatcc cagattctca aggagcatcc 2400 cgtcgagaac actcaactgc agaacgagaa gctgtatctc tactatctgc agaatggtcg 2460 agacatgtac gtggatcagg aactggacat caatcgtctc agcgactacg atgtggacca 2520 cattgtccct caatcctttc tcaaggacga ttctatcgac aacaaggtcc ttacacgatc 2580 cgacaagaac agaggcaagt cggacaacgt tcccagcgaa gaggtggtca aaaagatgaa 2640 gaactactgg cgacagctgc tcaacgccaa gctcattacc cagcgaaagt tcgacaatct 2700 taccaaggcc gagcgaggcg gtctgtccga gctcgacaag gctggcttca tcaagcgtca 2760 actcgtcgag accagacaga tcacaaagca cgtcgcacag attctcgatt ctcggatgaa 2820 caccaagtac gacgagaacg acaagctcat ccgagaggtc aaggtgatta ctctcaagtc 2880 caaactggtc tccgatttcc gaaaggactt tcagttctac aaggtgcgag agatcaacaa 2940 ttaccaccat gcccacgatg cttacctcaa cgccgtcgtt ggcactgcgc tcatcaagaa 3000 ataccccaag ctcgaaagcg agttcgttta cggcgattac aaggtctacg acgttcgaaa 3060 gatgattgcc aagtccgaac aggagattgg caaggctact gccaagtact tcttttactc 3120 caacatcatg aactttttca agaccgagat caccttggcc aacggagaga ttcgaaagag 3180 accacttatc gagaccaacg gcgaaactgg agagatcgtg tgggacaagg gtcgagactt 3240 tgcaaccgtg cgaaaggttc tgtcgatgcc tcaggtcaac atcgtcaaga aaaccgaggt 3300 tcagactggc ggattctcca aggagtcgat tctgcccaag cgaaactccg acaagctcat 3360 cgctcgaaag aaagactggg atcccaagaa atacggtggc ttcgattctc ctaccgtcgc 3420 ctattccgtg cttgtcgttg cgaaggtcga gaagggcaag tccaaaaagc tcaagtccgt 3480 caaggagctg ctcggaatta ccatcatgga gcgatcgagc ttcgagaaga atcccatcga 3540 cttcttggaa gccaagggtt acaaggaggt caagaaagac ctcattatca agctgcccaa 3600 gtactctctg ttcgaactgg agaacggtcg aaagcgtatg ctcgcctccg ctggcgagct 3660 gcagaaggga aacgagcttg ccttgccttc gaagtacgtc aactttctct atctggcttc 3720 tcactacgag aagctcaagg gttctcccga ggacaacgaa cagaagcaac tcttcgttga 3780 gcagcacaaa cattacctcg acgagattat cgagcagatt tccgagtttt cgaagcgagt 3840 catcctggct gatgccaact tggacaaggt gctctctgcc tacaacaagc atcgggacaa 3900 acccattcga gaacaggcgg agaacatcat tcacctgttt actcttacca acctgggtgc 3960 tcctgcagct ttcaagtact tcgataccac tatcgaccga aagcggtaca catccaccaa 4020 ggaggttctc gatgccaccc tgattcacca gtccatcact ggcctgtacg agacccgaat 4080 cgacctgtct cagcttggtg gcgactccag agccgatccc aagaaaaagc gaaaggtcta 4140 agcggccgca agtgtggatg gggaagtgag tgcccggttc tgtgtgcaca attggcaatc 4200 caagatggat ggattcaaca cagggatata gcgagctacg tggtggtgcg aggatatagc 4260 aacggatatt tatgtttgac acttgagaat gtacgataca agcactgtcc aagtacaata 4320 ctaaacatac tgtacatact catactcgta cccgggcaac ggtttcactt gagtgcagtg 4380 gctagtgctc ttactcgtac agtgtgcaat actgcgtatc atagtctttg atgtatatcg 4440 tattcattca tgttagttgc gtacgagccg gaagcataaa gtgtaaagcc tggggtgcct 4500 aatgagtgag ctaactcaca ttaattgcgt tgcgctcact gcccgctttc cagtcgggaa 4560 acctgtcgtg ccagctgcat taatgaatcg gccaacgcgc ggggagaggc ggtttgcgta 4620 ttgggcgctc ttccgcttcc tcgctcactg actcgctgcg ctcggtcgtt cggctgcggc 4680 gagcggtatc agctcactca aaggcggtaa tacggttatc cacagaatca ggggataacg 4740 caggaaagaa catgtgagca aaaggccagc aaaaggccag gaaccgtaaa aaggccgcgt 4800 tgctggcgtt tttccatagg ctccgccccc ctgacgagca tcacaaaaat cgacgctcaa 4860 gtcagaggtg gcgaaacccg acaggactat aaagatacca ggcgtttccc cctggaagct 4920 ccctcgtgcg ctctcctgtt ccgaccctgc cgcttaccgg atacctgtcc gcctttctcc 4980 cttcgggaag cgtggcgctt tctcatagct cacgctgtag gtatctcagt tcggtgtagg 5040 tcgttcgctc caagctgggc tgtgtgcacg aaccccccgt tcagcccgac cgctgcgcct 5100 tatccggtaa ctatcgtctt gagtccaacc cggtaagaca cgacttatcg ccactggcag 5160 cagccactgg taacaggatt agcagagcga ggtatgtagg cggtgctaca gagttcttga 5220 agtggtggcc taactacggc tacactagaa ggacagtatt tggtatctgc gctctgctga 5280 agccagttac cttcggaaaa agagttggta gctcttgatc cggcaaacaa accaccgctg 5340 gtagcggtgg tttttttgtt tgcaagcagc agattacgcg cagaaaaaaa ggatctcaag 5400 aagatccttt gatcttttct acggggtctg acgctcagtg gaacgaaaac tcacgttaag 5460 ggattttggt catgagatta tcaaaaagga tcttcaccta gatcctttta aattaaaaat 5520 gaagttttaa atcaatctaa agtatatatg agtaaacttg gtctgacagt taccaatgct 5580 taatcagtga ggcacctatc tcagcgatct gtctatttcg ttcatccata gttgcctgac 5640 tccccgtcgt gtagataact acgatacggg agggcttacc atctggcccc agtgctgcaa 5700 tgataccgcg agacccacgc tcaccggctc cagatttatc agcaataaac cagccagccg 5760 gaagggccga gcgcagaagt ggtcctgcaa ctttatccgc ctccatccag tctattaatt 5820 gttgccggga agctagagta agtagttcgc cagttaatag tttgcgcaac gttgttgcca 5880 ttgctacagg catcgtggtg tcacgctcgt cgtttggtat ggcttcattc agctccggtt 5940 cccaacgatc aaggcgagtt acatgatccc ccatgttgtg caaaaaagcg gttagctcct 6000 tcggtcctcc gatcgttgtc agaagtaagt tggccgcagt gttatcactc atggttatgg 6060 cagcactgca taattctctt actgtcatgc catccgtaag atgcttttct gtgactggtg 6120 agtactcaac caagtcattc tgagaatagt gtatgcggcg accgagttgc tcttgcccgg 6180 cgtcaatacg ggataatacc gcgccacata gcagaacttt aaaagtgctc atcattggaa 6240 aacgttcttc ggggcgaaaa ctctcaagga tcttaccgct gttgagatcc agttcgatgt 6300 aacccactcg tgcacccaac tgatcttcag catcttttac tttcaccagc gtttctgggt 6360 gagcaaaaac aggaaggcaa aatgccgcaa aaaagggaat aagggcgaca cggaaatgtt 6420 gaatactcat actcttcctt tttcaatatt attgaagcat ttatcagggt tattgtctca 6480 tgagcggata catatttgaa tgtatttaga aaaataaaca aataggggtt ccgcgcacat 6540 ttccccgaaa agtgccacct gacgcgccct gtagcggcgc attaagcgcg gcgggtgtgg 6600 tggttacgcg cagcgtgacc gctacacttg ccagcgccct agcgcccgct cctttcgctt 6660 tcttcccttc ctttctcgcc acgttcgccg gctttccccg tcaagctcta aatcgggggc 6720 tccctttagg gttccgattt agtgctttac ggcacctcga ccccaaaaaa cttgattagg 6780 gtgatggttc acgtagtggg ccatcgccct gatagacggt ttttcgccct ttgacgttgg 6840 agtccacgtt ctttaatagt ggactcttgt tccaaactgg aacaacactc aaccctatct 6900 cggtctattc ttttgattta taagggattt tgccgatttc ggcctattgg ttaaaaaatg 6960 agctgattta acaaaaattt aacgcgaatt ttaacaaaat attaacgctt acaatttcca 7020 ttcgccattc aggctgcgca actgttggga agggcgatcg gtgcgggcct cttcgctatt 7080 acgccagctg gcgaaagggg gatgtgctgc aaggcgatta agttgggtaa cgccagggtt 7140 ttcccagtca cgacgttgta aaacgacggc cagtgaattg taatacgact cactataggg 7200 cgaattgggt accgggcccc ccctcgaggt cgatggtgtc gataagcttg atatcgaatt 7260 catgtcacac aaaccgatct tcgcctcaag gaaacctaat tctacatccg agagactgcc 7320 gagatccagt ctacactgat taattttcgg gccaataatt taaaaaaatc gtgttatata 7380 atattatatg tattatatat atacatcatg atgatactga cagtcatgtc ccattgctaa 7440 atagacagac tccatctgcc gcctccaact gatgttctca atatttaagg ggtcatctcg 7500 cattgtttaa taataaacag actccatcta ccgcctccaa atgatgttct caaaatatat 7560 tgtatgaact tatttttatt acttagtatt attagacaac ttacttgctt tatgaaaaac 7620 acttcctatt taggaaacaa tttataatgg cagttcgttc atttaacaat ttatgtagaa 7680 taaatgttat aaatgcgtat gggaaatctt aaatatggat agcataaatg atatctgcat 7740 tgcctaattc gaaatcaaca gcaacgaaaa aaatcccttg tacaacataa atagtcatcg 7800 agaaatatca actatcaaag aacagctatt cacacgttac tattgagatt attattggac 7860 gagaatcaca cactcaactg tctttctctc ttctagaaat acaggtacaa gtatgtacta 7920 ttctcattgt tcatacttct agtcatttca tcccacatat tccttggatt tctctccaat 7980 gaatgacatt ctatcttgca aattcaacaa ttataataag atataccaaa gtagcggtat 8040 agtggcaatc aaaaagcttc tctggtgtgc ttctcgtatt tatttttatt ctaatgatcc 8100 attaaaggta tatatttatt tcttgttata taatcctttt gtttattaca tgggctggat 8160 acataaaggt attttgattt aattttttgc ttaaattcaa tcccccctcg ttcagtgtca 8220 actgtaatgg taggaaatta ccatactttt gaagaagcaa aaaaaatgaa agaaaaaaaa 8280 aatcgtattt ccaggttaga cgttccgcag aatctagaat gcggtatgcg gtacattgtt 8340 cttcgaacgt aaaagttgcg ctccctgaga tattgtacat ttttgctttt acaagtacaa 8400 gtacatcgta caactatgta ctactgttga tgcatccaca acagtttgtt ttgttttttt 8460 ttgttttttt tttttctaat gattcattac cgctatgtat acctacttgt acttgtagta 8520 agccgggtta ttggcgttca attaatcata gacttatgaa tctgcacggt gtgcgctgcg 8580 agttactttt agcttatgca tgctacttgg gtgtaatatt gggatctgtt cggaaatcaa 8640 cggatgctca atcgatttcg acagtaatta attaagtcat acacaagtca gctttcttcg 8700 agcctcatat aagtataagt agttcaacgt attagcactg tacccagcat ctccgtatcg 8760 agaaacacaa caacatgccc cattggacag atcatgcgga tacacaggtt gtgcagtatc 8820 atacatactc gatcagacag gtcgtctgac catcatacaa gctgaacaag cgctccatac 8880 ttgcacgctc tctatataca cagttaaatt acatatccat agtctaacct ctaacagtta 8940 atcttctggt aagcctccca gccagccttc tggtatcgct tggcctcctc aataggatct 9000 cggttctggc cgtacagacc tcggccgaca attatgatat ccgttccggt agacatgaca 9060 tcctcaacag ttcggtactg ctgtccgaga gcgtctccct tgtcgtcaag acccaccccg 9120 ggggtcagaa taagccagtc ctcagagtcg cccttaggtc ggttctgggc aatgaagcca 9180 accacaaact cggggtcgga tcgggcaagc tcaatggtct gcttggagta ctcgccagtg 9240 gccagagagc ccttgcaaga cagctcggcc agcatgagca gacctctggc cagcttctcg 9300 ttgggagagg ggactaggaa ctccttgtac tgggagttct cgtagtcaga gacgtcctcc 9360 ttcttctgtt cagagacagt ttcctcggca ccagctcgca ggccagcaat gattccggtt 9420 ccgggtacac cgtgggcgtt ggtgatatcg gaccactcgg cgattcggtg acaccggtac 9480 tggtgcttga cagtgttgcc aatatctgcg aactttctgt cctcgaacag gaagaaaccg 9540 tgcttaagag caagttcctt gagggggagc acagtgccgg cgtaggtgaa gtcgtcaatg 9600 atgtcgatat gggttttgat catgcacaca taaggtccga ccttatcggc aagctcaatg 9660 agctccttgg tggtggtaac atccagagaa gcacacaggt tggttttctt ggctgccacg 9720 agcttgagca ctcgagcggc aaaggcggac ttgtggacgt tagctcgagc ttcgtaggag 9780 ggcattttgg tggtgaagag gagactgaaa taaatttagt ctgcagaact ttttatcgga 9840 accttatctg gggcagtgaa gtatatgtta tggtaatagt tacgagttag ttgaacttat 9900 agatagactg gactatacgg ctatcggtcc aaattagaaa gaacgtcaat ggctctctgg 9960 gcgtcgcctt tgccgacaaa aatgtgatca tgatgaaagc cagcaatgac gttgcagctg 10020 atattgttgt cggccaaccg cgccgaaaac gcagctgtca gacccacagc ctccaacgaa 10080 gaatgtatcg tcaaagtgat ccaagcacac tcatagttgg agtcgtactc caaaggcggc 10140 aatgacgagt cagacagata ctcgtcgacg tttaaaccat catctaaggg cctcaaaact 10200 acctcggaac tgctgcgctg atctggacac cacagaggtt ccgagcactt taggttgcac 10260 caaatgtccc accaggtgca ggcagaaaac gctggaacag cgtgtacagt ttgtcttaac 10320 aaaaagtgag ggcgctgagg tcgagcaggg tggtgtgact tgttatagcc tttagagctg 10380 cgaaagcgcg tatggatttg gctcatcagg ccagattgag ggtctgtgga cacatgtcat 10440 gttagtgtac ttcaatcgcc ccctggatat agccccgaca ataggccgtg gcctcatttt 10500 tttgccttcc gcacatttcc attgctcggt acccacacct tgcttctcct gcacttgcca 10560 accttaatac tggtttacat tgaccaacat cttacaagcg gggggcttgt ctagggtata 10620 tataaacagt ggctctccca atcggttgcc agtctctttt ttcctttctt tccccacaga 10680 ttcgaaatct aaactacaca tcacac 10706 <210> 12 <211> 1048 <212> DNA <213> Artificial sequence <220> <223> high-throughput cloning cassette <400> 12 gcgcacgtta attaaatttt ttttgatttt cttttttgac cccgtcttca attacacttc 60 ccaactggga acacccctct ttatcgaccc attttaggta atttacccta gcccattgtc 120 tccataagga atattaccct aacccacagt ccagggtgcc caggtccttc tttggccaaa 180 ttttaacttc ggtcctatgg cacagcggta gcgcgtgaga ttgcaaatct taaggtcccg 240 agttcgaatc tcggtgggac ctagttattt ttgatagata atttcgtgat gattagaaac 300 ttaacgcaaa ataatggccg gcatggtccc agcctcctcg ctggcgccgg ctgggcaaca 360 tgcttcggca tggcgaatgg gacgcaggtg atggcgggat cgttgtatat ttcttgacac 420 cttttcggca tcgccctaaa ttcggcgtcc tcatattgtg tgaggacgtt ttattacgtg 480 tttacgaagc aaaagctaaa accaggagct atttaatggc aacagttaac cagctggtac 540 gcaaaccacg tgctcgcaaa gttgcgaaaa gcaacgtgcc tgcgctggaa gcatgcccgc 600 aaaaacgtgg cgtatgtact cgtgtatata ctaccactcc taaaaaaccg aactccgcgc 660 tgcgtaaagt atgccgtgtt cgtctgacta acggtttcga agtgacttcc tacatcggtg 720 gtgaaggtca caacctgcag gagcactccg tgatcctgat ccgtggcggt cgtgttaaag 780 acctcccggg tgttcgttac cacaccgtac gtggtgcgct tgactgctcc ggcgttaaag 840 accgtaagca ggctcgttcc aagtatggcg tgaagcgtcc taaggcttag gttaataaca 900 ggcctgctgg taatcgcagg cctttttatt tttacacctg cgttttagag ctagaaatag 960 caagttaaaa taaggctagt ccgttatcaa cttgaaaaag tggcaccgag tcggtgcttt 1020 tttttttgtt ttttatcgat gcgcgcac 1048 <210> 13 <211> 300 <212> DNA <213> Yarrowia lipolytica <400> 13 attttttttg attttctttt ttgaccccgt cttcaattac acttcccaac tgggaacacc 60 cctctttatc gacccatttt aggtaattta ccctagccca ttgtctccat aaggaatatt 120 accctaaccc acagtccagg gtgcccaggt ccttctttgg ccaaatttta acttcggtcc 180 tatggcacag cggtagcgcg tgagattgca aatcttaagg tcccgagttc gaatctcggt 240 gggacctagt tatttttgat agataatttc gtgatgatta gaaacttaac gcaaaataat 300 <210> 14 <211> 68 <212> DNA <213> Herpes Delta virus <400> 14 ggccggcatg gtcccagcct cctcgctggc gccggctggg caacatgctt cggcatggcg 60 aatgggac 68 <210> 15 <211> 544 <212> DNA <213> Escherischia coli <400> 15 atggcgggat cgttgtatat ttcttgacac cttttcggca tcgccctaaa ttcggcgtcc 60 tcatattgtg tgaggacgtt ttattacgtg tttacgaagc aaaagctaaa accaggagct 120 atttaatggc aacagttaac cagctggtac gcaaaccacg tgctcgcaaa gttgcgaaaa 180 gcaacgtgcc tgcgctggaa gcatgcccgc aaaaacgtgg cgtatgtact cgtgtatata 240 ctaccactcc taaaaaaccg aactccgcgc tgcgtaaagt atgccgtgtt cgtctgacta 300 acggtttcga agtgacttcc tacatcggtg gtgaaggtca caacctgcag gagcactccg 360 tgatcctgat ccgtggcggt cgtgttaaag acctcccggg tgttcgttac cacaccgtac 420 gtggtgcgct tgactgctcc ggcgttaaag accgtaagca ggctcgttcc aagtatggcg 480 tgaagcgtcc taaggcttag gttaataaca ggcctgctgg taatcgcagg cctttttatt 540 ttta 544 <210> 16 <211> 80 <212> DNA <213> Artificial sequence <220> <223> DNA encoding Cas9 CER domain <400> 16 gttttagagc tagaaatagc aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt 60 ggcaccgagt cggtgctttt 80 <210> 17 <211> 14 <212> DNA <213> Saccharomyces cerevisiae <400> 17 tttttttgtt tttt 14 <210> 18 <211> 11714 <212> DNA <213> Artificial sequence <220> <223> pRF291 <400> 18 cgataaaaaa caaaaaaaaa agcaccgact cggtgccact ttttcaagtt gataacggac 60 tagccttatt ttaacttgct atttctagct ctaaaacgca ggtgtaaaaa taaaaaggcc 120 tgcgattacc agcaggcctg ttattaacct aagccttagg acgcttcacg ccatacttgg 180 aacgagcctg cttacggtct ttaacgccgg agcagtcaag cgcaccacgt acggtgtggt 240 aacgaacacc cgggaggtct ttaacacgac cgccacggat caggatcacg gagtgctcct 300 gcaggttgtg accttcacca ccgatgtagg aagtcacttc gaaaccgtta gtcagacgaa 360 cacggcatac tttacgcagc gcggagttcg gttttttagg agtggtagta tatacacgag 420 tacatacgcc acgtttttgc gggcatgctt ccagcgcagg cacgttgctt ttcgcaactt 480 tgcgagcacg tggtttgcgt accagctggt taactgttgc cattaaatag ctcctggttt 540 tagcttttgc ttcgtaaaca cgtaataaaa cgtcctcaca caatatgagg acgccgaatt 600 tagggcgatg ccgaaaaggt gtcaagaaat atacaacgat cccgccatca cctgcgtccc 660 attcgccatg ccgaagcatg ttgcccagcc ggcgccagcg aggaggctgg gaccatgccg 720 gccattattt tgcgttaagt ttctaatcat cacgaaatta tctatcaaaa ataactaggt 780 cccaccgaga ttcgaactcg ggaccttaag atttgcaatc tcacgcgcta ccgctgtgcc 840 ataggaccga agttaaaatt tggccaaaga aggacctggg caccctggac tgtgggttag 900 ggtaatattc cttatggaga caatgggcta gggtaaatta cctaaaatgg gtcgataaag 960 aggggtgttc ccagttggga agtgtaattg aagacggggt caaaaaagaa aatcaaaaaa 1020 aatttaatta agtcatacac aagtcagctt tcttcgagcc tcatataagt ataagtagtt 1080 caacgtatta gcactgtacc cagcatctcc gtatcgagaa acacaacaac atgccccatt 1140 ggacagatca tgcggataca caggttgtgc agtatcatac atactcgatc agacaggtcg 1200 tctgaccatc atacaagctg aacaagcgct ccatacttgc acgctctcta tatacacagt 1260 taaattacat atccatagtc taacctctaa cagttaatct tctggtaagc ctcccagcca 1320 gccttctggt atcgcttggc ctcctcaata ggatctcggt tctggccgta cagacctcgg 1380 ccgacaatta tgatatccgt tccggtagac atgacatcct caacagttcg gtactgctgt 1440 ccgagagcgt ctcccttgtc gtcaagaccc accccggggg tcagaataag ccagtcctca 1500 gagtcgccct taggtcggtt ctgggcaatg aagccaacca caaactcggg gtcggatcgg 1560 gcaagctcaa tggtctgctt ggagtactcg ccagtggcca gagagccctt gcaagacagc 1620 tcggccagca tgagcagacc tctggccagc ttctcgttgg gagaggggac taggaactcc 1680 ttgtactggg agttctcgta gtcagagacg tcctccttct tctgttcaga gacagtttcc 1740 tcggcaccag ctcgcaggcc agcaatgatt ccggttccgg gtacaccgtg ggcgttggtg 1800 atatcggacc actcggcgat tcggtgacac cggtactggt gcttgacagt gttgccaata 1860 tctgcgaact ttctgtcctc gaacaggaag aaaccgtgct taagagcaag ttccttgagg 1920 gggagcacag tgccggcgta ggtgaagtcg tcaatgatgt cgatatgggt tttgatcatg 1980 cacacataag gtccgacctt atcggcaagc tcaatgagct ccttggtggt ggtaacatcc 2040 agagaagcac acaggttggt tttcttggct gccacgagct tgagcactcg agcggcaaag 2100 gcggacttgt ggacgttagc tcgagcttcg taggagggca ttttggtggt gaagaggaga 2160 ctgaaataaa tttagtctgc agaacttttt atcggaacct tatctggggc agtgaagtat 2220 atgttatggt aatagttacg agttagttga acttatagat agactggact atacggctat 2280 cggtccaaat tagaaagaac gtcaatggct ctctgggcgt cgcctttgcc gacaaaaatg 2340 tgatcatgat gaaagccagc aatgacgttg cagctgatat tgttgtcggc caaccgcgcc 2400 gaaaacgcag ctgtcagacc cacagcctcc aacgaagaat gtatcgtcaa agtgatccaa 2460 gcacactcat agttggagtc gtactccaaa ggcggcaatg acgagtcaga cagatactcg 2520 tcgacgttta aaccatcatc taagggcctc aaaactacct cggaactgct gcgctgatct 2580 ggacaccaca gaggttccga gcactttagg ttgcaccaaa tgtcccacca ggtgcaggca 2640 gaaaacgctg gaacagcgtg tacagtttgt cttaacaaaa agtgagggcg ctgaggtcga 2700 gcagggtggt gtgacttgtt atagccttta gagctgcgaa agcgcgtatg gatttggctc 2760 atcaggccag attgagggtc tgtggacaca tgtcatgtta gtgtacttca atcgccccct 2820 ggatatagcc ccgacaatag gccgtggcct catttttttg ccttccgcac atttccattg 2880 ctcggtaccc acaccttgct tctcctgcac ttgccaacct taatactggt ttacattgac 2940 caacatctta caagcggggg gcttgtctag ggtatatata aacagtggct ctcccaatcg 3000 gttgccagtc tcttttttcc tttctttccc cacagattcg aaatctaaac tacacatcac 3060 accatggaca agaaatactc catcggcctg gacattggaa ccaactctgt cggctgggct 3120 gtcatcaccg acgagtacaa ggtgccctcc aagaaattca aggtcctcgg aaacaccgat 3180 cgacactcca tcaagaaaaa cctcattggt gccctgttgt tcgattctgg cgagactgcc 3240 gaagctacca gactcaagcg aactgctcgg cgacgttaca cccgacggaa gaaccgaatc 3300 tgctacctgc aggagatctt ttccaacgag atggccaagg tggacgattc gttctttcat 3360 cgactggagg aatccttcct cgtcgaggaa gacaagaaac acgagcgtca tcccatcttt 3420 ggcaacattg tggacgaggt tgcttaccac gagaagtatc ctaccatcta ccatctccga 3480 aagaaactcg tcgattccac cgacaaggcg gatctcagac ttatctacct cgctctggca 3540 cacatgatca agtttcgagg tcatttcctc atcgagggcg atctcaatcc cgacaacagc 3600 gatgtggaca agctgttcat tcagctcgtt cagacctaca accagctgtt cgaggaaaac 3660 cccatcaatg cctccggagt cgatgcaaag gccatcttgt ctgctcgact ctcgaagagc 3720 agacgactgg agaacctcat tgcccaactt cctggcgaga aaaagaacgg actgtttggc 3780 aacctcattg ccctttctct tggtctcaca cccaacttca agtccaactt cgatctggcg 3840 gaggacgcca agctccagct gtccaaggac acctacgacg atgacctcga caacctgctt 3900 gcacagattg gcgatcagta cgccgacctg tttctcgctg ccaagaacct ttcggatgct 3960 attctcttgt ctgacattct gcgagtcaac accgagatca caaaggctcc cctttctgcc 4020 tccatgatca agcgatacga cgagcaccat caggatctca cactgctcaa ggctcttgtc 4080 cgacagcaac tgcccgagaa gtacaaggag atctttttcg atcagtcgaa gaacggctac 4140 gctggataca tcgacggcgg agcctctcag gaagagttct acaagttcat caagccaatt 4200 ctcgagaaga tggacggaac cgaggaactg cttgtcaagc tcaatcgaga ggatctgctt 4260 cggaagcaac gaaccttcga caacggcagc attcctcatc agatccacct cggtgagctg 4320 cacgccattc ttcgacgtca ggaagacttc tacccctttc tcaaggacaa ccgagagaag 4380 atcgagaaga ttcttacctt tcgaatcccc tactatgttg gtcctcttgc cagaggaaac 4440 tctcgatttg cttggatgac tcgaaagtcc gaggaaacca tcactccctg gaacttcgag 4500 gaagtcgtgg acaagggtgc ctctgcacag tccttcatcg agcgaatgac caacttcgac 4560 aagaatctgc ccaacgagaa ggttcttccc aagcattcgc tgctctacga gtactttaca 4620 gtctacaacg aactcaccaa agtcaagtac gttaccgagg gaatgcgaaa gcctgccttc 4680 ttgtctggcg aacagaagaa agccattgtc gatctcctgt tcaagaccaa ccgaaaggtc 4740 actgttaagc agctcaagga ggactacttc aagaaaatcg agtgtttcga cagcgtcgag 4800 atttccggag ttgaggaccg attcaacgcc tctttgggca cctatcacga tctgctcaag 4860 attatcaagg acaaggattt tctcgacaac gaggaaaacg aggacattct ggaggacatc 4920 gtgctcactc ttaccctgtt cgaagatcgg gagatgatcg aggaacgact caagacatac 4980 gctcacctgt tcgacgacaa ggtcatgaaa caactcaagc gacgtagata caccggctgg 5040 ggaagacttt cgcgaaagct catcaacggc atcagagaca agcagtccgg aaagaccatt 5100 ctggactttc tcaagtccga tggctttgcc aaccgaaact tcatgcagct cattcacgac 5160 gattctctta ccttcaagga ggacatccag aaggcacaag tgtccggtca gggcgacagc 5220 ttgcacgaac atattgccaa cctggctggt tcgccagcca tcaagaaagg cattctccag 5280 actgtcaagg ttgtcgacga gctggtgaag gtcatgggac gtcacaagcc cgagaacatt 5340 gtgatcgaga tggccagaga gaaccagaca actcaaaagg gtcagaaaaa ctcgcgagag 5400 cggatgaagc gaatcgagga aggcatcaag gagctgggat cccagattct caaggagcat 5460 cccgtcgaga acactcaact gcagaacgag aagctgtatc tctactatct gcagaatggt 5520 cgagacatgt acgtggatca ggaactggac atcaatcgtc tcagcgacta cgatgtggac 5580 cacattgtcc ctcaatcctt tctcaaggac gattctatcg acaacaaggt ccttacacga 5640 tccgacaaga acagaggcaa gtcggacaac gttcccagcg aagaggtggt caaaaagatg 5700 aagaactact ggcgacagct gctcaacgcc aagctcatta cccagcgaaa gttcgacaat 5760 cttaccaagg ccgagcgagg cggtctgtcc gagctcgaca aggctggctt catcaagcgt 5820 caactcgtcg agaccagaca gatcacaaag cacgtcgcac agattctcga ttctcggatg 5880 aacaccaagt acgacgagaa cgacaagctc atccgagagg tcaaggtgat tactctcaag 5940 tccaaactgg tctccgattt ccgaaaggac tttcagttct acaaggtgcg agagatcaac 6000 aattaccacc atgcccacga tgcttacctc aacgccgtcg ttggcactgc gctcatcaag 6060 aaatacccca agctcgaaag cgagttcgtt tacggcgatt acaaggtcta cgacgttcga 6120 aagatgattg ccaagtccga acaggagatt ggcaaggcta ctgccaagta cttcttttac 6180 tccaacatca tgaacttttt caagaccgag atcaccttgg ccaacggaga gattcgaaag 6240 agaccactta tcgagaccaa cggcgaaact ggagagatcg tgtgggacaa gggtcgagac 6300 tttgcaaccg tgcgaaaggt tctgtcgatg cctcaggtca acatcgtcaa gaaaaccgag 6360 gttcagactg gcggattctc caaggagtcg attctgccca agcgaaactc cgacaagctc 6420 atcgctcgaa agaaagactg ggatcccaag aaatacggtg gcttcgattc tcctaccgtc 6480 gcctattccg tgcttgtcgt tgcgaaggtc gagaagggca agtccaaaaa gctcaagtcc 6540 gtcaaggagc tgctcggaat taccatcatg gagcgatcga gcttcgagaa gaatcccatc 6600 gacttcttgg aagccaaggg ttacaaggag gtcaagaaag acctcattat caagctgccc 6660 aagtactctc tgttcgaact ggagaacggt cgaaagcgta tgctcgcctc cgctggcgag 6720 ctgcagaagg gaaacgagct tgccttgcct tcgaagtacg tcaactttct ctatctggct 6780 tctcactacg agaagctcaa gggttctccc gaggacaacg aacagaagca actcttcgtt 6840 gagcagcaca aacattacct cgacgagatt atcgagcaga tttccgagtt ttcgaagcga 6900 gtcatcctgg ctgatgccaa cttggacaag gtgctctctg cctacaacaa gcatcgggac 6960 aaacccattc gagaacaggc ggagaacatc attcacctgt ttactcttac caacctgggt 7020 gctcctgcag ctttcaagta cttcgatacc actatcgacc gaaagcggta cacatccacc 7080 aaggaggttc tcgatgccac cctgattcac cagtccatca ctggcctgta cgagacccga 7140 atcgacctgt ctcagcttgg tggcgactcc agagccgatc ccaagaaaaa gcgaaaggtc 7200 taagcggccg caagtgtgga tggggaagtg agtgcccggt tctgtgtgca caattggcaa 7260 tccaagatgg atggattcaa cacagggata tagcgagcta cgtggtggtg cgaggatata 7320 gcaacggata tttatgtttg acacttgaga atgtacgata caagcactgt ccaagtacaa 7380 tactaaacat actgtacata ctcatactcg tacccgggca acggtttcac ttgagtgcag 7440 tggctagtgc tcttactcgt acagtgtgca atactgcgta tcatagtctt tgatgtatat 7500 cgtattcatt catgttagtt gcgtacgagc cggaagcata aagtgtaaag cctggggtgc 7560 ctaatgagtg agctaactca cattaattgc gttgcgctca ctgcccgctt tccagtcggg 7620 aaacctgtcg tgccagctgc attaatgaat cggccaacgc gcggggagag gcggtttgcg 7680 tattgggcgc tcttccgctt cctcgctcac tgactcgctg cgctcggtcg ttcggctgcg 7740 gcgagcggta tcagctcact caaaggcggt aatacggtta tccacagaat caggggataa 7800 cgcaggaaag aacatgtgag caaaaggcca gcaaaaggcc aggaaccgta aaaaggccgc 7860 gttgctggcg tttttccata ggctccgccc ccctgacgag catcacaaaa atcgacgctc 7920 aagtcagagg tggcgaaacc cgacaggact ataaagatac caggcgtttc cccctggaag 7980 ctccctcgtg cgctctcctg ttccgaccct gccgcttacc ggatacctgt ccgcctttct 8040 cccttcggga agcgtggcgc tttctcatag ctcacgctgt aggtatctca gttcggtgta 8100 ggtcgttcgc tccaagctgg gctgtgtgca cgaacccccc gttcagcccg accgctgcgc 8160 cttatccggt aactatcgtc ttgagtccaa cccggtaaga cacgacttat cgccactggc 8220 agcagccact ggtaacagga ttagcagagc gaggtatgta ggcggtgcta cagagttctt 8280 gaagtggtgg cctaactacg gctacactag aaggacagta tttggtatct gcgctctgct 8340 gaagccagtt accttcggaa aaagagttgg tagctcttga tccggcaaac aaaccaccgc 8400 tggtagcggt ggtttttttg tttgcaagca gcagattacg cgcagaaaaa aaggatctca 8460 agaagatcct ttgatctttt ctacggggtc tgacgctcag tggaacgaaa actcacgtta 8520 agggattttg gtcatgagat tatcaaaaag gatcttcacc tagatccttt taaattaaaa 8580 atgaagtttt aaatcaatct aaagtatata tgagtaaact tggtctgaca gttaccaatg 8640 cttaatcagt gaggcaccta tctcagcgat ctgtctattt cgttcatcca tagttgcctg 8700 actccccgtc gtgtagataa ctacgatacg ggagggctta ccatctggcc ccagtgctgc 8760 aatgataccg cgagacccac gctcaccggc tccagattta tcagcaataa accagccagc 8820 cggaagggcc gagcgcagaa gtggtcctgc aactttatcc gcctccatcc agtctattaa 8880 ttgttgccgg gaagctagag taagtagttc gccagttaat agtttgcgca acgttgttgc 8940 cattgctaca ggcatcgtgg tgtcacgctc gtcgtttggt atggcttcat tcagctccgg 9000 ttcccaacga tcaaggcgag ttacatgatc ccccatgttg tgcaaaaaag cggttagctc 9060 cttcggtcct ccgatcgttg tcagaagtaa gttggccgca gtgttatcac tcatggttat 9120 ggcagcactg cataattctc ttactgtcat gccatccgta agatgctttt ctgtgactgg 9180 tgagtactca accaagtcat tctgagaata gtgtatgcgg cgaccgagtt gctcttgccc 9240 ggcgtcaata cgggataata ccgcgccaca tagcagaact ttaaaagtgc tcatcattgg 9300 aaaacgttct tcggggcgaa aactctcaag gatcttaccg ctgttgagat ccagttcgat 9360 gtaacccact cgtgcaccca actgatcttc agcatctttt actttcacca gcgtttctgg 9420 gtgagcaaaa acaggaaggc aaaatgccgc aaaaaaggga ataagggcga cacggaaatg 9480 ttgaatactc atactcttcc tttttcaata ttattgaagc atttatcagg gttattgtct 9540 catgagcgga tacatatttg aatgtattta gaaaaataaa caaatagggg ttccgcgcac 9600 atttccccga aaagtgccac ctgacgcgcc ctgtagcggc gcattaagcg cggcgggtgt 9660 ggtggttacg cgcagcgtga ccgctacact tgccagcgcc ctagcgcccg ctcctttcgc 9720 tttcttccct tcctttctcg ccacgttcgc cggctttccc cgtcaagctc taaatcgggg 9780 gctcccttta gggttccgat ttagtgcttt acggcacctc gaccccaaaa aacttgatta 9840 gggtgatggt tcacgtagtg ggccatcgcc ctgatagacg gtttttcgcc ctttgacgtt 9900 ggagtccacg ttctttaata gtggactctt gttccaaact ggaacaacac tcaaccctat 9960 ctcggtctat tcttttgatt tataagggat tttgccgatt tcggcctatt ggttaaaaaa 10020 tgagctgatt taacaaaaat ttaacgcgaa ttttaacaaa atattaacgc ttacaatttc 10080 cattcgccat tcaggctgcg caactgttgg gaagggcgat cggtgcgggc ctcttcgcta 10140 ttacgccagc tggcgaaagg gggatgtgct gcaaggcgat taagttgggt aacgccaggg 10200 ttttcccagt cacgacgttg taaaacgacg gccagtgaat tgtaatacga ctcactatag 10260 ggcgaattgg gtaccgggcc ccccctcgag gtcgatggtg tcgataagct tgatatcgaa 10320 ttcatgtcac acaaaccgat cttcgcctca aggaaaccta attctacatc cgagagactg 10380 ccgagatcca gtctacactg attaattttc gggccaataa tttaaaaaaa tcgtgttata 10440 taatattata tgtattatat atatacatca tgatgatact gacagtcatg tcccattgct 10500 aaatagacag actccatctg ccgcctccaa ctgatgttct caatatttaa ggggtcatct 10560 cgcattgttt aataataaac agactccatc taccgcctcc aaatgatgtt ctcaaaatat 10620 attgtatgaa cttattttta ttacttagta ttattagaca acttacttgc tttatgaaaa 10680 acacttccta tttaggaaac aatttataat ggcagttcgt tcatttaaca atttatgtag 10740 aataaatgtt ataaatgcgt atgggaaatc ttaaatatgg atagcataaa tgatatctgc 10800 attgcctaat tcgaaatcaa cagcaacgaa aaaaatccct tgtacaacat aaatagtcat 10860 cgagaaatat caactatcaa agaacagcta ttcacacgtt actattgaga ttattattgg 10920 acgagaatca cacactcaac tgtctttctc tcttctagaa atacaggtac aagtatgtac 10980 tattctcatt gttcatactt ctagtcattt catcccacat attccttgga tttctctcca 11040 atgaatgaca ttctatcttg caaattcaac aattataata agatatacca aagtagcggt 11100 atagtggcaa tcaaaaagct tctctggtgt gcttctcgta tttattttta ttctaatgat 11160 ccattaaagg tatatattta tttcttgtta tataatcctt ttgtttatta catgggctgg 11220 atacataaag gtattttgat ttaatttttt gcttaaattc aatcccccct cgttcagtgt 11280 caactgtaat ggtaggaaat taccatactt ttgaagaagc aaaaaaaatg aaagaaaaaa 11340 aaaatcgtat ttccaggtta gacgttccgc agaatctaga atgcggtatg cggtacattg 11400 ttcttcgaac gtaaaagttg cgctccctga gatattgtac atttttgctt ttacaagtac 11460 aagtacatcg tacaactatg tactactgtt gatgcatcca caacagtttg ttttgttttt 11520 ttttgttttt tttttttcta atgattcatt accgctatgt atacctactt gtacttgtag 11580 taagccgggt tattggcgtt caattaatca tagacttatg aatctgcacg gtgtgcgctg 11640 cgagttactt ttagcttatg catgctactt gggtgtaata ttgggatctg ttcggaaatc 11700 aacggatgct caat 11714 <210> 19 <211> 32 <212> DNA <213> Artificial sequence <220> <223> Can1-1F <400> 19 aatgggactc aaacgattac ccaccctcgt tt 32 <210> 20 <211> 32 <212> DNA <213> Artificial sequence <220> <223> Can1-1R <400> 20 tctaaaacga gggtgggtaa tcgtttgagt cc 32 <210> 21 <211> 20 <212> DNA <213> Artificial sequence <220> <223> DNA encoding Can1-1 VT domain <400> 21 tcaaacgatt acccaccctc 20 <210> 22 <211> 23 <212> DNA <213> Yarrowia lipolytica <400> 22 tcaaacgatt acccaccctc cgg 23 <210> 23 <211> 1719 <212> DNA <213> Yarrowia lipolytica <400> 23 atggaaaaga cattttcaaa cgattaccca ccctccggga ctgaggccca catccacatc 60 aaccacacgg cccactcgga tgactcagag gaggtgccct cgcacaagga aaattacaac 120 accagtggcc acgacctgga ggagtccgac ccggataacc atgtcggtga gaccctcgag 180 gtcaagcgag gtctcaagat gcgacacatc tccatgatct cgcttggagg aaccattggt 240 accggtctct tcattggtac cggaggagct ctccagcagg ccggtccctg tggcgccctc 300 gtcgcctacg tgttcatggc caccattgtc tactctgttg ccgagtctct tggagaactg 360 gctacgtaca ttcccatcac cggctccttt gccgtcttta ctacccgata tctgtcacag 420 tcgtttggtg cctccatggg ctggctatac tggttctcgt gggcgatcac cttcgccatc 480 gagctcaaca ccattggtcc cgtgattgag tactggactg acgccgttcc tactgctgcc 540 tggattgcca tcttcttcgt catcctcact accatcaact tcttccccgt gggcttctat 600 ggcgaagtcg agttctgggt ggcctccgtg aaggtcattg ccatcattgg atggctcatc 660 tacgcgctct gcatgacgtg tggagcaggt gtaacaggtc ctgtgggatt cagatactgg 720 aaccaccccg gacccatggg agacggaatc tggaccgacg gcgtgcccat tgtgcgaaac 780 gcgcccggtc gacgattcat gggatggctc aattcgctcg ttaacgccgc cttcacctac 840 cagggctgtg agctggtcgg agtcactgcc ggtgaggccc agaaccccag aaagtccgtc 900 cctcgagcca tcaaccgagt ctttgctcga atttgcatct tctacattgg ctctatcttc 960 ttcatgggca tgctcgtgcc ctttaacgac cccaagctga ccgatgactc ctccgtcatc 1020 gcctcctctc cttttgttat tgccattatc aactctggca ccaaggtgct ccctcacatt 1080 ttcaacgccg tcattctcat caccctgatt tcggcaggaa actccaacgt ctacattggc 1140 tcgcgagtgg tctacgccct ggctgactcc ggaaccgcac caaagttctt caagcgaacc 1200 accaagaagg gagtgccgta cgtggcagtc tgcttcacct cggcgtttgg tctgctggcc 1260 ttcatgtctg tgtccgagtc gtcgtccact gtcttcgact ggttcatcaa catctccgct 1320 gtggccggcc tcatctgttg ggccttcatc tctgcctccc acatccgatt catgcaagtg 1380 cttaagcaca gagggatctc cagagatacg ctgcccttca aggcacgatg gcagccattc 1440 tactcatggt acgcgctcgt ctccatcatc ttcatcactc tcatccaggg cttcacgtcc 1500 ttctggcact ttaccgccgc caagttcatg actgcataca tctccgtcat tgtctgggtc 1560 ggtttgtaca ttatcttcca gtgtctgttc cgatgcaagt tccttatccc tattgaggat 1620 gtggacattg acaccggccg acgagagatt gacgacgatg tgtgggagga gaagatcccc 1680 acaaagtggt acgagaagtt ttggaatatt attgcataa 1719 <210> 24 <211> 11176 <212> DNA <213> Artificial Sequence <220> <223> pRF303 <400> 24 tctaaaacga gggtgggtaa tcgtttgagt cccattcgcc atgccgaagc atgttgccca 60 gccggcgcca gcgaggaggc tgggaccatg ccggccatta ttttgcgtta agtttctaat 120 catcacgaaa ttatctatca aaaataacta ggtcccaccg agattcgaac tcgggacctt 180 aagatttgca atctcacgcg ctaccgctgt gccataggac cgaagttaaa atttggccaa 240 agaaggacct gggcaccctg gactgtgggt tagggtaata ttccttatgg agacaatggg 300 ctagggtaaa ttacctaaaa tgggtcgata aagaggggtg ttcccagttg ggaagtgtaa 360 ttgaagacgg ggtcaaaaaa gaaaatcaaa aaaaatttaa ttaagtcata cacaagtcag 420 ctttcttcga gcctcatata agtataagta gttcaacgta ttagcactgt acccagcatc 480 tccgtatcga gaaacacaac aacatgcccc attggacaga tcatgcggat acacaggttg 540 tgcagtatca tacatactcg atcagacagg tcgtctgacc atcatacaag ctgaacaagc 600 gctccatact tgcacgctct ctatatacac agttaaatta catatccata gtctaacctc 660 taacagttaa tcttctggta agcctcccag ccagccttct ggtatcgctt ggcctcctca 720 ataggatctc ggttctggcc gtacagacct cggccgacaa ttatgatatc cgttccggta 780 gacatgacat cctcaacagt tcggtactgc tgtccgagag cgtctccctt gtcgtcaaga 840 cccaccccgg gggtcagaat aagccagtcc tcagagtcgc ccttaggtcg gttctgggca 900 atgaagccaa ccacaaactc ggggtcggat cgggcaagct caatggtctg cttggagtac 960 tcgccagtgg ccagagagcc cttgcaagac agctcggcca gcatgagcag acctctggcc 1020 agcttctcgt tgggagaggg gactaggaac tccttgtact gggagttctc gtagtcagag 1080 acgtcctcct tcttctgttc agagacagtt tcctcggcac cagctcgcag gccagcaatg 1140 attccggttc cgggtacacc gtgggcgttg gtgatatcgg accactcggc gattcggtga 1200 caccggtact ggtgcttgac agtgttgcca atatctgcga actttctgtc ctcgaacagg 1260 aagaaaccgt gcttaagagc aagttccttg agggggagca cagtgccggc gtaggtgaag 1320 tcgtcaatga tgtcgatatg ggttttgatc atgcacacat aaggtccgac cttatcggca 1380 agctcaatga gctccttggt ggtggtaaca tccagagaag cacacaggtt ggttttcttg 1440 gctgccacga gcttgagcac tcgagcggca aaggcggact tgtggacgtt agctcgagct 1500 tcgtaggagg gcattttggt ggtgaagagg agactgaaat aaatttagtc tgcagaactt 1560 tttatcggaa ccttatctgg ggcagtgaag tatatgttat ggtaatagtt acgagttagt 1620 tgaacttata gatagactgg actatacggc tatcggtcca aattagaaag aacgtcaatg 1680 gctctctggg cgtcgccttt gccgacaaaa atgtgatcat gatgaaagcc agcaatgacg 1740 ttgcagctga tattgttgtc ggccaaccgc gccgaaaacg cagctgtcag acccacagcc 1800 tccaacgaag aatgtatcgt caaagtgatc caagcacact catagttgga gtcgtactcc 1860 aaaggcggca atgacgagtc agacagatac tcgtcgacgt ttaaaccatc atctaagggc 1920 ctcaaaacta cctcggaact gctgcgctga tctggacacc acagaggttc cgagcacttt 1980 aggttgcacc aaatgtccca ccaggtgcag gcagaaaacg ctggaacagc gtgtacagtt 2040 tgtcttaaca aaaagtgagg gcgctgaggt cgagcagggt ggtgtgactt gttatagcct 2100 ttagagctgc gaaagcgcgt atggatttgg ctcatcaggc cagattgagg gtctgtggac 2160 acatgtcatg ttagtgtact tcaatcgccc cctggatata gccccgacaa taggccgtgg 2220 cctcattttt ttgccttccg cacatttcca ttgctcggta cccacacctt gcttctcctg 2280 cacttgccaa ccttaatact ggtttacatt gaccaacatc ttacaagcgg ggggcttgtc 2340 tagggtatat ataaacagtg gctctcccaa tcggttgcca gtctcttttt tcctttcttt 2400 ccccacagat tcgaaatcta aactacacat cacaccatgg acaagaaata ctccatcggc 2460 ctggacattg gaaccaactc tgtcggctgg gctgtcatca ccgacgagta caaggtgccc 2520 tccaagaaat tcaaggtcct cggaaacacc gatcgacact ccatcaagaa aaacctcatt 2580 ggtgccctgt tgttcgattc tggcgagact gccgaagcta ccagactcaa gcgaactgct 2640 cggcgacgtt acacccgacg gaagaaccga atctgctacc tgcaggagat cttttccaac 2700 gagatggcca aggtggacga ttcgttcttt catcgactgg aggaatcctt cctcgtcgag 2760 gaagacaaga aacacgagcg tcatcccatc tttggcaaca ttgtggacga ggttgcttac 2820 cacgagaagt atcctaccat ctaccatctc cgaaagaaac tcgtcgattc caccgacaag 2880 gcggatctca gacttatcta cctcgctctg gcacacatga tcaagtttcg aggtcatttc 2940 ctcatcgagg gcgatctcaa tcccgacaac agcgatgtgg acaagctgtt cattcagctc 3000 gttcagacct acaaccagct gttcgaggaa aaccccatca atgcctccgg agtcgatgca 3060 aaggccatct tgtctgctcg actctcgaag agcagacgac tggagaacct cattgcccaa 3120 cttcctggcg agaaaaagaa cggactgttt ggcaacctca ttgccctttc tcttggtctc 3180 acacccaact tcaagtccaa cttcgatctg gcggaggacg ccaagctcca gctgtccaag 3240 gacacctacg acgatgacct cgacaacctg cttgcacaga ttggcgatca gtacgccgac 3300 ctgtttctcg ctgccaagaa cctttcggat gctattctct tgtctgacat tctgcgagtc 3360 aacaccgaga tcacaaaggc tcccctttct gcctccatga tcaagcgata cgacgagcac 3420 catcaggatc tcacactgct caaggctctt gtccgacagc aactgcccga gaagtacaag 3480 gagatctttt tcgatcagtc gaagaacggc tacgctggat acatcgacgg cggagcctct 3540 caggaagagt tctacaagtt catcaagcca attctcgaga agatggacgg aaccgaggaa 3600 ctgcttgtca agctcaatcg agaggatctg cttcggaagc aacgaacctt cgacaacggc 3660 agcattcctc atcagatcca cctcggtgag ctgcacgcca ttcttcgacg tcaggaagac 3720 ttctacccct ttctcaagga caaccgagag aagatcgaga agattcttac ctttcgaatc 3780 ccctactatg ttggtcctct tgccagagga aactctcgat ttgcttggat gactcgaaag 3840 tccgaggaaa ccatcactcc ctggaacttc gaggaagtcg tggacaaggg tgcctctgca 3900 cagtccttca tcgagcgaat gaccaacttc gacaagaatc tgcccaacga gaaggttctt 3960 cccaagcatt cgctgctcta cgagtacttt acagtctaca acgaactcac caaagtcaag 4020 tacgttaccg agggaatgcg aaagcctgcc ttcttgtctg gcgaacagaa gaaagccatt 4080 gtcgatctcc tgttcaagac caaccgaaag gtcactgtta agcagctcaa ggaggactac 4140 ttcaagaaaa tcgagtgttt cgacagcgtc gagatttccg gagttgagga ccgattcaac 4200 gcctctttgg gcacctatca cgatctgctc aagattatca aggacaagga ttttctcgac 4260 aacgaggaaa acgaggacat tctggaggac atcgtgctca ctcttaccct gttcgaagat 4320 cgggagatga tcgaggaacg actcaagaca tacgctcacc tgttcgacga caaggtcatg 4380 aaacaactca agcgacgtag atacaccggc tggggaagac tttcgcgaaa gctcatcaac 4440 ggcatcagag acaagcagtc cggaaagacc attctggact ttctcaagtc cgatggcttt 4500 gccaaccgaa acttcatgca gctcattcac gacgattctc ttaccttcaa ggaggacatc 4560 cagaaggcac aagtgtccgg tcagggcgac agcttgcacg aacatattgc caacctggct 4620 ggttcgccag ccatcaagaa aggcattctc cagactgtca aggttgtcga cgagctggtg 4680 aaggtcatgg gacgtcacaa gcccgagaac attgtgatcg agatggccag agagaaccag 4740 acaactcaaa agggtcagaa aaactcgcga gagcggatga agcgaatcga ggaaggcatc 4800 aaggagctgg gatcccagat tctcaaggag catcccgtcg agaacactca actgcagaac 4860 gagaagctgt atctctacta tctgcagaat ggtcgagaca tgtacgtgga tcaggaactg 4920 gacatcaatc gtctcagcga ctacgatgtg gaccacattg tccctcaatc ctttctcaag 4980 gacgattcta tcgacaacaa ggtccttaca cgatccgaca agaacagagg caagtcggac 5040 aacgttccca gcgaagaggt ggtcaaaaag atgaagaact actggcgaca gctgctcaac 5100 gccaagctca ttacccagcg aaagttcgac aatcttacca aggccgagcg aggcggtctg 5160 tccgagctcg acaaggctgg cttcatcaag cgtcaactcg tcgagaccag acagatcaca 5220 aagcacgtcg cacagattct cgattctcgg atgaacacca agtacgacga gaacgacaag 5280 ctcatccgag aggtcaaggt gattactctc aagtccaaac tggtctccga tttccgaaag 5340 gactttcagt tctacaaggt gcgagagatc aacaattacc accatgccca cgatgcttac 5400 ctcaacgccg tcgttggcac tgcgctcatc aagaaatacc ccaagctcga aagcgagttc 5460 gtttacggcg attacaaggt ctacgacgtt cgaaagatga ttgccaagtc cgaacaggag 5520 attggcaagg ctactgccaa gtacttcttt tactccaaca tcatgaactt tttcaagacc 5580 gagatcacct tggccaacgg agagattcga aagagaccac ttatcgagac caacggcgaa 5640 actggagaga tcgtgtggga caagggtcga gactttgcaa ccgtgcgaaa ggttctgtcg 5700 atgcctcagg tcaacatcgt caagaaaacc gaggttcaga ctggcggatt ctccaaggag 5760 tcgattctgc ccaagcgaaa ctccgacaag ctcatcgctc gaaagaaaga ctgggatccc 5820 aagaaatacg gtggcttcga ttctcctacc gtcgcctatt ccgtgcttgt cgttgcgaag 5880 gtcgagaagg gcaagtccaa aaagctcaag tccgtcaagg agctgctcgg aattaccatc 5940 atggagcgat cgagcttcga gaagaatccc atcgacttct tggaagccaa gggttacaag 6000 gaggtcaaga aagacctcat tatcaagctg cccaagtact ctctgttcga actggagaac 6060 ggtcgaaagc gtatgctcgc ctccgctggc gagctgcaga agggaaacga gcttgccttg 6120 ccttcgaagt acgtcaactt tctctatctg gcttctcact acgagaagct caagggttct 6180 cccgaggaca acgaacagaa gcaactcttc gttgagcagc acaaacatta cctcgacgag 6240 attatcgagc agatttccga gttttcgaag cgagtcatcc tggctgatgc caacttggac 6300 aaggtgctct ctgcctacaa caagcatcgg gacaaaccca ttcgagaaca ggcggagaac 6360 atcattcacc tgtttactct taccaacctg ggtgctcctg cagctttcaa gtacttcgat 6420 accactatcg accgaaagcg gtacacatcc accaaggagg ttctcgatgc caccctgatt 6480 caccagtcca tcactggcct gtacgagacc cgaatcgacc tgtctcagct tggtggcgac 6540 tccagagccg atcccaagaa aaagcgaaag gtctaagcgg ccgcaagtgt ggatggggaa 6600 gtgagtgccc ggttctgtgt gcacaattgg caatccaaga tggatggatt caacacaggg 6660 atatagcgag ctacgtggtg gtgcgaggat atagcaacgg atatttatgt ttgacacttg 6720 agaatgtacg atacaagcac tgtccaagta caatactaaa catactgtac atactcatac 6780 tcgtacccgg gcaacggttt cacttgagtg cagtggctag tgctcttact cgtacagtgt 6840 gcaatactgc gtatcatagt ctttgatgta tatcgtattc attcatgtta gttgcgtacg 6900 agccggaagc ataaagtgta aagcctgggg tgcctaatga gtgagctaac tcacattaat 6960 tgcgttgcgc tcactgcccg ctttccagtc gggaaacctg tcgtgccagc tgcattaatg 7020 aatcggccaa cgcgcgggga gaggcggttt gcgtattggg cgctcttccg cttcctcgct 7080 cactgactcg ctgcgctcgg tcgttcggct gcggcgagcg gtatcagctc actcaaaggc 7140 ggtaatacgg ttatccacag aatcagggga taacgcagga aagaacatgt gagcaaaagg 7200 ccagcaaaag gccaggaacc gtaaaaaggc cgcgttgctg gcgtttttcc ataggctccg 7260 cccccctgac gagcatcaca aaaatcgacg ctcaagtcag aggtggcgaa acccgacagg 7320 actataaaga taccaggcgt ttccccctgg aagctccctc gtgcgctctc ctgttccgac 7380 cctgccgctt accggatacc tgtccgcctt tctcccttcg ggaagcgtgg cgctttctca 7440 tagctcacgc tgtaggtatc tcagttcggt gtaggtcgtt cgctccaagc tgggctgtgt 7500 gcacgaaccc cccgttcagc ccgaccgctg cgccttatcc ggtaactatc gtcttgagtc 7560 caacccggta agacacgact tatcgccact ggcagcagcc actggtaaca ggattagcag 7620 agcgaggtat gtaggcggtg ctacagagtt cttgaagtgg tggcctaact acggctacac 7680 tagaaggaca gtatttggta tctgcgctct gctgaagcca gttaccttcg gaaaaagagt 7740 tggtagctct tgatccggca aacaaaccac cgctggtagc ggtggttttt ttgtttgcaa 7800 gcagcagatt acgcgcagaa aaaaaggatc tcaagaagat cctttgatct tttctacggg 7860 gtctgacgct cagtggaacg aaaactcacg ttaagggatt ttggtcatga gattatcaaa 7920 aaggatcttc acctagatcc ttttaaatta aaaatgaagt tttaaatcaa tctaaagtat 7980 atatgagtaa acttggtctg acagttacca atgcttaatc agtgaggcac ctatctcagc 8040 gatctgtcta tttcgttcat ccatagttgc ctgactcccc gtcgtgtaga taactacgat 8100 acgggagggc ttaccatctg gccccagtgc tgcaatgata ccgcgagacc cacgctcacc 8160 ggctccagat ttatcagcaa taaaccagcc agccggaagg gccgagcgca gaagtggtcc 8220 tgcaacttta tccgcctcca tccagtctat taattgttgc cgggaagcta gagtaagtag 8280 ttcgccagtt aatagtttgc gcaacgttgt tgccattgct acaggcatcg tggtgtcacg 8340 ctcgtcgttt ggtatggctt cattcagctc cggttcccaa cgatcaaggc gagttacatg 8400 atcccccatg ttgtgcaaaa aagcggttag ctccttcggt cctccgatcg ttgtcagaag 8460 taagttggcc gcagtgttat cactcatggt tatggcagca ctgcataatt ctcttactgt 8520 catgccatcc gtaagatgct tttctgtgac tggtgagtac tcaaccaagt cattctgaga 8580 atagtgtatg cggcgaccga gttgctcttg cccggcgtca atacgggata ataccgcgcc 8640 acatagcaga actttaaaag tgctcatcat tggaaaacgt tcttcggggc gaaaactctc 8700 aaggatctta ccgctgttga gatccagttc gatgtaaccc actcgtgcac ccaactgatc 8760 ttcagcatct tttactttca ccagcgtttc tgggtgagca aaaacaggaa ggcaaaatgc 8820 cgcaaaaaag ggaataaggg cgacacggaa atgttgaata ctcatactct tcctttttca 8880 atattattga agcatttatc agggttattg tctcatgagc ggatacatat ttgaatgtat 8940 ttagaaaaat aaacaaatag gggttccgcg cacatttccc cgaaaagtgc cacctgacgc 9000 gccctgtagc ggcgcattaa gcgcggcggg tgtggtggtt acgcgcagcg tgaccgctac 9060 acttgccagc gccctagcgc ccgctccttt cgctttcttc ccttcctttc tcgccacgtt 9120 cgccggcttt ccccgtcaag ctctaaatcg ggggctccct ttagggttcc gatttagtgc 9180 tttacggcac ctcgacccca aaaaacttga ttagggtgat ggttcacgta gtgggccatc 9240 gccctgatag acggtttttc gccctttgac gttggagtcc acgttcttta atagtggact 9300 cttgttccaa actggaacaa cactcaaccc tatctcggtc tattcttttg atttataagg 9360 gattttgccg atttcggcct attggttaaa aaatgagctg atttaacaaa aatttaacgc 9420 gaattttaac aaaatattaa cgcttacaat ttccattcgc cattcaggct gcgcaactgt 9480 tgggaagggc gatcggtgcg ggcctcttcg ctattacgcc agctggcgaa agggggatgt 9540 gctgcaaggc gattaagttg ggtaacgcca gggttttccc agtcacgacg ttgtaaaacg 9600 acggccagtg aattgtaata cgactcacta tagggcgaat tgggtaccgg gccccccctc 9660 gaggtcgatg gtgtcgataa gcttgatatc gaattcatgt cacacaaacc gatcttcgcc 9720 tcaaggaaac ctaattctac atccgagaga ctgccgagat ccagtctaca ctgattaatt 9780 ttcgggccaa taatttaaaa aaatcgtgtt atataatatt atatgtatta tatatataca 9840 tcatgatgat actgacagtc atgtcccatt gctaaataga cagactccat ctgccgcctc 9900 caactgatgt tctcaatatt taaggggtca tctcgcattg tttaataata aacagactcc 9960 atctaccgcc tccaaatgat gttctcaaaa tatattgtat gaacttattt ttattactta 10020 gtattattag acaacttact tgctttatga aaaacacttc ctatttagga aacaatttat 10080 aatggcagtt cgttcattta acaatttatg tagaataaat gttataaatg cgtatgggaa 10140 atcttaaata tggatagcat aaatgatatc tgcattgcct aattcgaaat caacagcaac 10200 gaaaaaaatc ccttgtacaa cataaatagt catcgagaaa tatcaactat caaagaacag 10260 ctattcacac gttactattg agattattat tggacgagaa tcacacactc aactgtcttt 10320 ctctcttcta gaaatacagg tacaagtatg tactattctc attgttcata cttctagtca 10380 tttcatccca catattcctt ggatttctct ccaatgaatg acattctatc ttgcaaattc 10440 aacaattata ataagatata ccaaagtagc ggtatagtgg caatcaaaaa gcttctctgg 10500 tgtgcttctc gtatttattt ttattctaat gatccattaa aggtatatat ttatttcttg 10560 ttatataatc cttttgttta ttacatgggc tggatacata aaggtatttt gatttaattt 10620 tttgcttaaa ttcaatcccc cctcgttcag tgtcaactgt aatggtagga aattaccata 10680 cttttgaaga agcaaaaaaa atgaaagaaa aaaaaaatcg tatttccagg ttagacgttc 10740 cgcagaatct agaatgcggt atgcggtaca ttgttcttcg aacgtaaaag ttgcgctccc 10800 tgagatattg tacatttttg cttttacaag tacaagtaca tcgtacaact atgtactact 10860 gttgatgcat ccacaacagt ttgttttgtt tttttttgtt tttttttttt ctaatgattc 10920 attaccgcta tgtataccta cttgtacttg tagtaagccg ggttattggc gttcaattaa 10980 tcatagactt atgaatctgc acggtgtgcg ctgcgagtta cttttagctt atgcatgcta 11040 cttgggtgta atattgggat ctgttcggaa atcaacggat gctcaatcga taaaaaacaa 11100 aaaaaaaagc accgactcgg tgccactttt tcaagttgat aacggactag ccttatttta 11160 acttgctatt tctagc 11176 <210> 25 <211> 655 <212> DNA <213> Artificial sequence <220> <223> can1 upstream homology arm <400> 25 gggaagcctt gctacgttag gagaagacgc acggcgatga tacgggtacc cctcatgaca 60 tcaatatccg ctgcccctct tgccagcaag gcgtcagcag gtgctttttt cgctattttc 120 accagaccac agcctttttc cttgtgtctc atcttggatt ccttcaaagg caactcaccg 180 cacctccgag tcgtgtgaac aatgtaataa taggctattg acttttttcc cacctgttta 240 gcgccaaacc caaagcgctt ttcgccccca ctgcagcccg atggaaggca catatggcaa 300 gggaaaagtc ttcaggtaat acatgcctgc tgcaactata tgtactctga ctcattccct 360 cagacgtggg tcatagacag ctgttttaaa ccgggcaaat caatctctgt cgcacaggta 420 tttctgccct tcaaaaccag gttgccacat cagattccat caaagttttt cagactaact 480 tcaatcttaa acggcatctc acaacaagcg aattggacgg aaaaaaagcg tctatcatta 540 ccggcaccta tccacactaa gacagtacta aaggacgacg ctccccacga aacgacgttt 600 cgaccttaac gaccctgccg tctccatcca tccgaccact cccgacgctc tctcc 655 <210> 26 <211> 29 <212> DNA <213> Artificial sequence <220> <223> Can1 upstream forward <400> 26 gggaagcttg ctacgttagg agaagacgc 29 <210> 27 <211> 37 <212> DNA <213> Artificial sequence <220> <223> Can1 upstream reverse <400> 27 ggagagagcg tcgggagtgg tcggatggat ggagacg 37 <210> 28 <211> 658 <212> DNA <213> Artificial sequence <220> <223> Can1 downstream homology arm <400> 28 cgtctccatc catccgacca ctcccgacgc tctctcctgg agcaaaccac tcttaccaag 60 catatagcat atataataac gtattgaatt tattaactga ttgaattgag agtaaagcca 120 gtagcgttgt acggctgtag ctttttagaa aagtggcaga tgagcgatgg tggatatgaa 180 agtaccttta cggcatgtag cgacacaaga tcgcttccaa gaactcgaca ttcaagccca 240 gctcgtacaa gaaaatgaac tagccaatca tatgaactag cacattgaag tcaccgcatc 300 atctctgttg gaaacgacgc gcatgtactc gtgcgtagta aatccgtatc tgtacactcg 360 aaagattaca gtatgtagta gtagcatgac taacgatgta acgtccaaat aacgctctgt 420 gcctactcct gtagatgcat tagaccacct gctaacgtct acacgttatg tccgttagct 480 ccaagattgc acttttccct caaagactct gctgggttac gtcatggtct ctttcgggtc 540 tctggtccgt tctctgcccg cccatatccg cccaggctgc tacgatacag gataagctca 600 taagcttaga ttatttttcc ggaatgacat cacgatgcag tggtggaagg atgtatgg 658 <210> 29 <211> 37 <212> DNA <213> Artificial sequence <220> <223> Can1 downstream homology arm forward primer <400> 29 cgtctccatc catccgacca ctcccgacgc tctctcc 37 <210> 30 <211> 22 <212> DNA <213> Yarrowia lipolytica <400> 30 ccatacatcc ttccaccact gc 22 <210> 31 <211> 1276 <212> DNA <213> Artificial sequence <220> <223> Can1 editing template clonign fragment <400> 31 gggaagcctt gctacgttag gagaagacgc acggcgatga tacgggtacc cctcatgaca 60 tcaatatccg ctgcccctct tgccagcaag gcgtcagcag gtgctttttt cgctattttc 120 accagaccac agcctttttc cttgtgtctc atcttggatt ccttcaaagg caactcaccg 180 cacctccgag tcgtgtgaac aatgtaataa taggctattg acttttttcc cacctgttta 240 gcgccaaacc caaagcgctt ttcgccccca ctgcagcccg atggaaggca catatggcaa 300 gggaaaagtc ttcaggtaat acatgcctgc tgcaactata tgtactctga ctcattccct 360 cagacgtggg tcatagacag ctgttttaaa ccgggcaaat caatctctgt cgcacaggta 420 tttctgccct tcaaaaccag gttgccacat cagattccat caaagttttt cagactaact 480 tcaatcttaa acggcatctc acaacaagcg aattggacgg aaaaaaagcg tctatcatta 540 ccggcaccta tccacactaa gacagtacta aaggacgacg ctccccacga aacgacgttt 600 cgaccttaac gaccctgccg tctccatcca tccgaccact cccgacgctc tctcctggag 660 caaaccactc ttaccaagca tatagcatat ataataacgt attgaattta ttaactgatt 720 gaattgagag taaagccagt agcgttgtac ggctgtagct ttttagaaaa gtggcagatg 780 agcgatggtg gatatgaaag tacctttacg gcatgtagcg acacaagatc gcttccaaga 840 actcgacatt caagcccagc tcgtacaaga aaatgaacta gccaatcata tgaactagca 900 cattgaagtc accgcatcat ctctgttgga aacgacgcgc atgtactcgt gcgtagtaaa 960 tccgtatctg tacactcgaa agattacagt atgtagtagt agcatgacta acgatgtaac 1020 gtccaaataa cgctctgtgc ctactcctgt agatgcatta gaccacctgc taacgtctac 1080 acgttatgtc cgttagctcc aagattgcac ttttccctca aagactctgc tgggttacgt 1140 catggtctct ttcgggtctc tggtccgttc tctgcccgcc catatccgcc caggctgcta 1200 cgatacagga taagctcata agcttagatt atttttccgg aatgacatca cgatgcagtg 1260 gtggaaggat gtatgg 1276 <210> 32 <211> 2686 <212> DNA <213> Artificial sequence <220> <223> pUC18 <400> 32 tcgcgcgttt cggtgatgac ggtgaaaacc tctgacacat gcagctcccg gagacggtca 60 cagcttgtct gtaagcggat gccgggagca gacaagcccg tcagggcgcg tcagcgggtg 120 ttggcgggtg tcggggctgg cttaactatg cggcatcaga gcagattgta ctgagagtgc 180 accatatgcg gtgtgaaata ccgcacagat gcgtaaggag aaaataccgc atcaggcgcc 240 attcgccatt caggctgcgc aactgttggg aagggcgatc ggtgcgggcc tcttcgctat 300 tacgccagct ggcgaaaggg ggatgtgctg caaggcgatt aagttgggta acgccagggt 360 tttcccagtc acgacgttgt aaaacgacgg ccagtgccaa gcttgcatgc ctgcaggtcg 420 actctagagg atccccgggt accgagctcg aattcgtaat catggtcata gctgtttcct 480 gtgtgaaatt gttatccgct cacaattcca cacaacatac gagccggaag cataaagtgt 540 aaagcctggg gtgcctaatg agtgagctaa ctcacattaa ttgcgttgcg ctcactgccc 600 gctttccagt cgggaaacct gtcgtgccag ctgcattaat gaatcggcca acgcgcgggg 660 agaggcggtt tgcgtattgg gcgctcttcc gcttcctcgc tcactgactc gctgcgctcg 720 gtcgttcggc tgcggcgagc ggtatcagct cactcaaagg cggtaatacg gttatccaca 780 gaatcagggg ataacgcagg aaagaacatg tgagcaaaag gccagcaaaa ggccaggaac 840 cgtaaaaagg ccgcgttgct ggcgtttttc cataggctcc gcccccctga cgagcatcac 900 aaaaatcgac gctcaagtca gaggtggcga aacccgacag gactataaag ataccaggcg 960 tttccccctg gaagctccct cgtgcgctct cctgttccga ccctgccgct taccggatac 1020 ctgtccgcct ttctcccttc gggaagcgtg gcgctttctc atagctcacg ctgtaggtat 1080 ctcagttcgg tgtaggtcgt tcgctccaag ctgggctgtg tgcacgaacc ccccgttcag 1140 cccgaccgct gcgccttatc cggtaactat cgtcttgagt ccaacccggt aagacacgac 1200 ttatcgccac tggcagcagc cactggtaac aggattagca gagcgaggta tgtaggcggt 1260 gctacagagt tcttgaagtg gtggcctaac tacggctaca ctagaaggac agtatttggt 1320 atctgcgctc tgctgaagcc agttaccttc ggaaaaagag ttggtagctc ttgatccggc 1380 aaacaaacca ccgctggtag cggtggtttt tttgtttgca agcagcagat tacgcgcaga 1440 aaaaaaggat ctcaagaaga tcctttgatc ttttctacgg ggtctgacgc tcagtggaac 1500 gaaaactcac gttaagggat tttggtcatg agattatcaa aaaggatctt cacctagatc 1560 cttttaaatt aaaaatgaag ttttaaatca atctaaagta tatatgagta aacttggtct 1620 gacagttacc aatgcttaat cagtgaggca cctatctcag cgatctgtct atttcgttca 1680 tccatagttg cctgactccc cgtcgtgtag ataactacga tacgggaggg cttaccatct 1740 ggccccagtg ctgcaatgat accgcgagac ccacgctcac cggctccaga tttatcagca 1800 ataaaccagc cagccggaag ggccgagcgc agaagtggtc ctgcaacttt atccgcctcc 1860 atccagtcta ttaattgttg ccgggaagct agagtaagta gttcgccagt taatagtttg 1920 cgcaacgttg ttgccattgc tacaggcatc gtggtgtcac gctcgtcgtt tggtatggct 1980 tcattcagct ccggttccca acgatcaagg cgagttacat gatcccccat gttgtgcaaa 2040 aaagcggtta gctccttcgg tcctccgatc gttgtcagaa gtaagttggc cgcagtgtta 2100 tcactcatgg ttatggcagc actgcataat tctcttactg tcatgccatc cgtaagatgc 2160 ttttctgtga ctggtgagta ctcaaccaag tcattctgag aatagtgtat gcggcgaccg 2220 agttgctctt gcccggcgtc aatacgggat aataccgcgc cacatagcag aactttaaaa 2280 gtgctcatca ttggaaaacg ttcttcgggg cgaaaactct caaggatctt accgctgttg 2340 agatccagtt cgatgtaacc cactcgtgca cccaactgat cttcagcatc ttttactttc 2400 accagcgttt ctgggtgagc aaaaacagga aggcaaaatg ccgcaaaaaa gggaataagg 2460 gcgacacgga aatgttgaat actcatactc ttcctttttc aatattattg aagcatttat 2520 cagggttatt gtctcatgag cggatacata tttgaatgta tttagaaaaa taaacaaata 2580 ggggttccgc gcacatttcc ccgaaaagtg ccacctgacg tctaagaaac cattattatc 2640 atgacattaa cctataaaaa taggcgtatc acgaggccct ttcgtc 2686 <210> 33 <211> 3901 <212> DNA <213> Artificial sequence <220> <223> pRF80 <400> 33 agcttgctac gttaggagaa gacgcacggc gatgatacgg gtacccctca tgacatcaat 60 atccgctgcc cctcttgcca gcaaggcgtc agcaggtgct tttttcgcta ttttcaccag 120 accacagcct ttttccttgt gtctcatctt ggattccttc aaaggcaact caccgcacct 180 ccgagtcgtg tgaacaatgt aataataggc tattgacttt tttcccacct gtttagcgcc 240 aaacccaaag cgcttttcgc ccccactgca gcccgatgga aggcacatat ggcaagggaa 300 aagtcttcag gtaatacatg cctgctgcaa ctatatgtac tctgactcat tccctcagac 360 gtgggtcata gacagctgtt ttaaaccggg caaatcaatc tctgtcgcac aggtatttct 420 gcccttcaaa accaggttgc cacatcagat tccatcaaag tttttcagac taacttcaat 480 cttaaacggc atctcacaac aagcgaattg gacggaaaaa aagcgtctat cattaccggc 540 acctatccac actaagacag tactaaagga cgacgctccc cacgaaacga cgtttcgacc 600 ttaacgaccc tgccgtctcc atccatccga ccactcccga cgctctctcc tggagcaaac 660 cactcttacc aagcatatag catatataat aacgtattga atttattaac tgattgaatt 720 gagagtaaag ccagtagcgt tgtacggctg tagcttttta gaaaagtggc agatgagcga 780 tggtggatat gaaagtacct ttacggcatg tagcgacaca agatcgcttc caagaactcg 840 acattcaagc ccagctcgta caagaaaatg aactagccaa tcatatgaac tagcacattg 900 aagtcaccgc atcatctctg ttggaaacga cgcgcatgta ctcgtgcgta gtaaatccgt 960 atctgtacac tcgaaagatt acagtatgta gtagtagcat gactaacgat gtaacgtcca 1020 aataacgctc tgtgcctact cctgtagatg cattagacca cctgctaacg tctacacgtt 1080 atgtccgtta gctccaagat tgcacttttc cctcaaagac tctgctgggt tacgtcatgg 1140 tctctttcgg gtctctggtc cgttctctgc ccgcccatat ccgcccaggc tgctacgata 1200 caggataagc tcataagctt gcatgcctgc aggtcgactc tagaggatcc ccgggtaccg 1260 agctcgaatt cgtaatcatg gtcatagctg tttcctgtgt gaaattgtta tccgctcaca 1320 attccacaca acatacgagc cggaagcata aagtgtaaag cctggggtgc ctaatgagtg 1380 agctaactca cattaattgc gttgcgctca ctgcccgctt tccagtcggg aaacctgtcg 1440 tgccagctgc attaatgaat cggccaacgc gcggggagag gcggtttgcg tattgggcgc 1500 tcttccgctt cctcgctcac tgactcgctg cgctcggtcg ttcggctgcg gcgagcggta 1560 tcagctcact caaaggcggt aatacggtta tccacagaat caggggataa cgcaggaaag 1620 aacatgtgag caaaaggcca gcaaaaggcc aggaaccgta aaaaggccgc gttgctggcg 1680 tttttccata ggctccgccc ccctgacgag catcacaaaa atcgacgctc aagtcagagg 1740 tggcgaaacc cgacaggact ataaagatac caggcgtttc cccctggaag ctccctcgtg 1800 cgctctcctg ttccgaccct gccgcttacc ggatacctgt ccgcctttct cccttcggga 1860 agcgtggcgc tttctcatag ctcacgctgt aggtatctca gttcggtgta ggtcgttcgc 1920 tccaagctgg gctgtgtgca cgaacccccc gttcagcccg accgctgcgc cttatccggt 1980 aactatcgtc ttgagtccaa cccggtaaga cacgacttat cgccactggc agcagccact 2040 ggtaacagga ttagcagagc gaggtatgta ggcggtgcta cagagttctt gaagtggtgg 2100 cctaactacg gctacactag aaggacagta tttggtatct gcgctctgct gaagccagtt 2160 accttcggaa aaagagttgg tagctcttga tccggcaaac aaaccaccgc tggtagcggt 2220 ggtttttttg tttgcaagca gcagattacg cgcagaaaaa aaggatctca agaagatcct 2280 ttgatctttt ctacggggtc tgacgctcag tggaacgaaa actcacgtta agggattttg 2340 gtcatgagat tatcaaaaag gatcttcacc tagatccttt taaattaaaa atgaagtttt 2400 aaatcaatct aaagtatata tgagtaaact tggtctgaca gttaccaatg cttaatcagt 2460 gaggcaccta tctcagcgat ctgtctattt cgttcatcca tagttgcctg actccccgtc 2520 gtgtagataa ctacgatacg ggagggctta ccatctggcc ccagtgctgc aatgataccg 2580 cgagacccac gctcaccggc tccagattta tcagcaataa accagccagc cggaagggcc 2640 gagcgcagaa gtggtcctgc aactttatcc gcctccatcc agtctattaa ttgttgccgg 2700 gaagctagag taagtagttc gccagttaat agtttgcgca acgttgttgc cattgctaca 2760 ggcatcgtgg tgtcacgctc gtcgtttggt atggcttcat tcagctccgg ttcccaacga 2820 tcaaggcgag ttacatgatc ccccatgttg tgcaaaaaag cggttagctc cttcggtcct 2880 ccgatcgttg tcagaagtaa gttggccgca gtgttatcac tcatggttat ggcagcactg 2940 cataattctc ttactgtcat gccatccgta agatgctttt ctgtgactgg tgagtactca 3000 accaagtcat tctgagaata gtgtatgcgg cgaccgagtt gctcttgccc ggcgtcaata 3060 cgggataata ccgcgccaca tagcagaact ttaaaagtgc tcatcattgg aaaacgttct 3120 tcggggcgaa aactctcaag gatcttaccg ctgttgagat ccagttcgat gtaacccact 3180 cgtgcaccca actgatcttc agcatctttt actttcacca gcgtttctgg gtgagcaaaa 3240 acaggaaggc aaaatgccgc aaaaaaggga ataagggcga cacggaaatg ttgaatactc 3300 atactcttcc tttttcaata ttattgaagc atttatcagg gttattgtct catgagcgga 3360 tacatatttg aatgtattta gaaaaataaa caaatagggg ttccgcgcac atttccccga 3420 aaagtgccac ctgacgtcta agaaaccatt attatcatga cattaaccta taaaaatagg 3480 cgtatcacga ggccctttcg tctcgcgcgt ttcggtgatg acggtgaaaa cctctgacac 3540 atgcagctcc cggagacggt cacagcttgt ctgtaagcgg atgccgggag cagacaagcc 3600 cgtcagggcg cgtcagcggg tgttggcggg tgtcggggct ggcttaacta tgcggcatca 3660 gagcagattg tactgagagt gcaccatatg cggtgtgaaa taccgcacag atgcgtaagg 3720 agaaaatacc gcatcaggcg ccattcgcca ttcaggctgc gcaactgttg ggaagggcga 3780 tcggtgcggg cctcttcgct attacgccag ctggcgaaag ggggatgtgc tgcaaggcga 3840 ttaagttggg taacgccagg gttttcccag tcacgacgtt gtaaaacgac ggccagtgcc 3900 a 3901 <210> 34 <211> 1210 <212> DNA <213> Artificial sequence <220> <223> Can1 polynucleotide modification (editing) template <400> 34 gctacgttag gagaagacgc acggcgatga tacgggtacc cctcatgaca tcaatatccg 60 ctgcccctct tgccagcaag gcgtcagcag gtgctttttt cgctattttc accagaccac 120 agcctttttc cttgtgtctc atcttggatt ccttcaaagg caactcaccg cacctccgag 180 tcgtgtgaac aatgtaataa taggctattg acttttttcc cacctgttta gcgccaaacc 240 caaagcgctt ttcgccccca ctgcagcccg atggaaggca catatggcaa gggaaaagtc 300 ttcaggtaat acatgcctgc tgcaactata tgtactctga ctcattccct cagacgtggg 360 tcatagacag ctgttttaaa ccgggcaaat caatctctgt cgcacaggta tttctgccct 420 tcaaaaccag gttgccacat cagattccat caaagttttt cagactaact tcaatcttaa 480 acggcatctc acaacaagcg aattggacgg aaaaaaagcg tctatcatta ccggcaccta 540 tccacactaa gacagtacta aaggacgacg ctccccacga aacgacgttt cgaccttaac 600 gaccctgccg tctccatcca tccgaccact cccgacgctc tctcctggag caaaccactc 660 ttaccaagca tatagcatat ataataacgt attgaattta ttaactgatt gaattgagag 720 taaagccagt agcgttgtac ggctgtagct ttttagaaaa gtggcagatg agcgatggtg 780 gatatgaaag tacctttacg gcatgtagcg acacaagatc gcttccaaga actcgacatt 840 caagcccagc tcgtacaaga aaatgaacta gccaatcata tgaactagca cattgaagtc 900 accgcatcat ctctgttgga aacgacgcgc atgtactcgt gcgtagtaaa tccgtatctg 960 tacactcgaa agattacagt atgtagtagt agcatgacta acgatgtaac gtccaaataa 1020 cgctctgtgc ctactcctgt agatgcatta gaccacctgc taacgtctac acgttatgtc 1080 cgttagctcc aagattgcac ttttccctca aagactctgc tgggttacgt catggtctct 1140 ttcgggtctc tggtccgttc tctgcccgcc catatccgcc caggctgcta cgatacagga 1200 taagctcata 1210 <210> 35 <211> 20 <212> DNA <213> Artificial sequence <220> <223> C3S forward <400> 35 agcttgctac gttaggagaa 20 <210> 36 <211> 20 <212> DNA <213> Artificial seqeunce <220> <223> C3S reverse <400> 36 tatgagctta tcctgtatcg 20 <210> 37 <211> 20 <212> DNA <213> Artificial sequence <220> <223> PT forward <400> 37 agcttgctac gttaggagaa 20 <210> 38 <211> 20 <212> DNA <213> Artificial sequence <220> <223> PT reverse <400> 38 tatgagctta tcctgtatcg 20 <210> 39 <211> 2125 <212> DNA <213> Artificial sequence <220> <223> CAN1 locus <400> 39 ggaaggcaca tatggcaagg gaaaagtctt caggtaatac atgcctgctg caactatatg 60 tactctgact cattccctca gacgtgggtc atagacagct gttttaaacc gggcaaatca 120 atctctgtcg cacaggtatt tctgcccttc aaaaccaggt tgccacatca gattccatca 180 aagtttttca gactaacttc aatcttaaac ggcatctcac aacaagcgaa ttggacggaa 240 aaaaagcgtc tatcattacc ggcacctatc cacactaaga cagtactaaa ggacgacgct 300 ccccacgaaa cgacgtttcg accttaacga ccctgccgtc tccatccatc cgaccacaat 360 ggaaaagaca ttttcaaacg attacccacc ctccgggact gaggcccaca tccacatcaa 420 ccacacggcc cactcggatg actcagagga ggtgccctcg cacaaggaaa attacaacac 480 cagtggccac gacctggagg agtccgaccc ggataaccat gtcggtgaga ccctcgaggt 540 caagcgaggt ctcaagatgc gacacatctc catgatctcg cttggaggaa ccattggtac 600 cggtctcttc attggtaccg gaggagctct ccagcaggcc ggtccctgtg gcgccctcgt 660 cgcctacgtg ttcatggcca ccattgtcta ctctgttgcc gagtctcttg gagaactggc 720 tacgtacatt cccatcaccg gctcctttgc cgtctttact acccgatatc tgtcacagtc 780 gtttggtgcc tccatgggct ggctatactg gttctcgtgg gcgatcacct tcgccatcga 840 gctcaacacc attggtcccg tgattgagta ctggactgac gccgttccta ctgctgcctg 900 gattgccatc ttcttcgtca tcctcactac catcaacttc ttccccgtgg gcttctatgg 960 cgaagtcgag ttctgggtgg cctccgtgaa ggtcattgcc atcattggat ggctcatcta 1020 cgcgctctgc atgacgtgtg gagcaggtgt aacaggtcct gtgggattca gatactggaa 1080 ccaccccgga cccatgggag acggaatctg gaccgacggc gtgcccattg tgcgaaacgc 1140 gcccggtcga cgattcatgg gatggctcaa ttcgctcgtt aacgccgcct tcacctacca 1200 gggctgtgag ctggtcggag tcactgccgg tgaggcccag aaccccagaa agtccgtccc 1260 tcgagccatc aaccgagtct ttgctcgaat ttgcatcttc tacattggct ctatcttctt 1320 catgggcatg ctcgtgccct ttaacgaccc caagctgacc gatgactcct ccgtcatcgc 1380 ctcctctcct tttgttattg ccattatcaa ctctggcacc aaggtgctcc ctcacatttt 1440 caacgccgtc attctcatca ccctgatttc ggcaggaaac tccaacgtct acattggctc 1500 gcgagtggtc tacgccctgg ctgactccgg aaccgcacca aagttcttca agcgaaccac 1560 caagaaggga gtgccgtacg tggcagtctg cttcacctcg gcgtttggtc tgctggcctt 1620 catgtctgtg tccgagtcgt cgtccactgt cttcgactgg ttcatcaaca tctccgctgt 1680 ggccggcctc atctgttggg ccttcatctc tgcctcccac atccgattca tgcaagtgct 1740 taagcacaga gggatctcca gagatacgct gcccttcaag gcacgatggc agccattcta 1800 ctcatggtac gcgctcgtct ccatcatctt catcactctc atccagggct tcacgtcctt 1860 ctggcacttt accgccgcca agttcatgac tgcatacatc tccgtcattg tctgggtcgg 1920 tttgtacatt atcttccagt gtctgttccg atgcaagttc cttatcccta ttgaggatgt 1980 ggacattgac accggccgac gagagattga cgacgatgtg tgggaggaga agatccccac 2040 aaagtggtac gagaagtttt ggaatattat tgcataagaa gatcggggat tcccgacgct 2100 ctctcctgga gcaaaccact cttac 2125 <210> 40 <211> 20 <212> DNA <213> Artificial sequence <220> <223> unmodified forward <400> 40 agcttgctac gttaggagaa 20 <210> 41 <211> 20 <212> DNA <213> Artificial sequence <220> <223> unmodified reverse <400> 41 tatgagctta tcctgtatcg 20 <210> 42 <211> 20 <212> DNA <213> Yarrowia lipolytica <400> 42 ggaaggcaca tatggcaagg 20 <210> 43 <211> 21 <212> DNA <213> Yarrowia lipolytica <400> 43 gtaagagtgg tttgctccag g 21 <210> 44 <211> 2125 <212> DNA <213> Yarrowia lipolytica <400> 44 ggaaggcaca tatggcaagg gaaaagtctt caggtaatac atgcctgctg caactatatg 60 tactctgact cattccctca gacgtgggtc atagacagct gttttaaacc gggcaaatca 120 atctctgtcg cacaggtatt tctgcccttc aaaaccaggt tgccacatca gattccatca 180 aagtttttca gactaacttc aatcttaaac ggcatctcac aacaagcgaa ttggacggaa 240 aaaaagcgtc tatcattacc ggcacctatc cacactaaga cagtactaaa ggacgacgct 300 ccccacgaaa cgacgtttcg accttaacga ccctgccgtc tccatccatc cgaccacaat 360 ggaaaagaca ttttcaaacg attacccacc ctccgggact gaggcccaca tccacatcaa 420 ccacacggcc cactcggatg actcagagga ggtgccctcg cacaaggaaa attacaacac 480 cagtggccac gacctggagg agtccgaccc ggataaccat gtcggtgaga ccctcgaggt 540 caagcgaggt ctcaagatgc gacacatctc catgatctcg cttggaggaa ccattggtac 600 cggtctcttc attggtaccg gaggagctct ccagcaggcc ggtccctgtg gcgccctcgt 660 cgcctacgtg ttcatggcca ccattgtcta ctctgttgcc gagtctcttg gagaactggc 720 tacgtacatt cccatcaccg gctcctttgc cgtctttact acccgatatc tgtcacagtc 780 gtttggtgcc tccatgggct ggctatactg gttctcgtgg gcgatcacct tcgccatcga 840 gctcaacacc attggtcccg tgattgagta ctggactgac gccgttccta ctgctgcctg 900 gattgccatc ttcttcgtca tcctcactac catcaacttc ttccccgtgg gcttctatgg 960 cgaagtcgag ttctgggtgg cctccgtgaa ggtcattgcc atcattggat ggctcatcta 1020 cgcgctctgc atgacgtgtg gagcaggtgt aacaggtcct gtgggattca gatactggaa 1080 ccaccccgga cccatgggag acggaatctg gaccgacggc gtgcccattg tgcgaaacgc 1140 gcccggtcga cgattcatgg gatggctcaa ttcgctcgtt aacgccgcct tcacctacca 1200 gggctgtgag ctggtcggag tcactgccgg tgaggcccag aaccccagaa agtccgtccc 1260 tcgagccatc aaccgagtct ttgctcgaat ttgcatcttc tacattggct ctatcttctt 1320 catgggcatg ctcgtgccct ttaacgaccc caagctgacc gatgactcct ccgtcatcgc 1380 ctcctctcct tttgttattg ccattatcaa ctctggcacc aaggtgctcc ctcacatttt 1440 caacgccgtc attctcatca ccctgatttc ggcaggaaac tccaacgtct acattggctc 1500 gcgagtggtc tacgccctgg ctgactccgg aaccgcacca aagttcttca agcgaaccac 1560 caagaaggga gtgccgtacg tggcagtctg cttcacctcg gcgtttggtc tgctggcctt 1620 catgtctgtg tccgagtcgt cgtccactgt cttcgactgg ttcatcaaca tctccgctgt 1680 ggccggcctc atctgttggg ccttcatctc tgcctcccac atccgattca tgcaagtgct 1740 taagcacaga gggatctcca gagatacgct gcccttcaag gcacgatggc agccattcta 1800 ctcatggtac gcgctcgtct ccatcatctt catcactctc atccagggct tcacgtcctt 1860 ctggcacttt accgccgcca agttcatgac tgcatacatc tccgtcattg tctgggtcgg 1920 tttgtacatt atcttccagt gtctgttccg atgcaagttc cttatcccta ttgaggatgt 1980 ggacattgac accggccgac gagagattga cgacgatgtg tgggaggaga agatccccac 2040 aaagtggtac gagaagtttt ggaatattat tgcataagaa gatcggggat tcccgacgct 2100 ctctcctgga gcaaaccact cttac 2125 <210> 45 <211> 392 <212> DNA <213> Artificial sequence <220> <223> Can1 locus deletion <400> 45 ggaaggcaca tatggcaagg gaaaagtctt caggtaatac atgcctgctg caactatatg 60 tactctgact cattccctca gacgtgggtc atagacagct gttttaaacc gggcaaatca 120 atctctgtcg cacaggtatt tctgcccttc aaaaccaggt tgccacatca gattccatca 180 aagtttttca gactaacttc aatcttaaac ggcatctcac aacaagcgaa ttggacggaa 240 aaaaagcgtc tatcattacc ggcacctatc cacactaaga cagtactaaa ggacgacgct 300 ccccacgaaa cgacgtttcg accttaacga ccctgccgtc tccatccatc cgaccactcc 360 cgacgctctc tcctggagca aaccactctt ac 392 <210> 46 <211> 62 <212> DNA <213> Yarrowia lipolytica <220> <221> misc_feature <222> (1)..(62) <223> Copy number analysis fragment <400> 46 agcgccaaac ccaaagcgct tttcgccccc actgcagccc gatggaaggc acatatggca 60 ag 62 <210> 47 <211> 17 <212> DNA <213> Artificial sequence <220> <223> Can1 copy number F <400> 47 agcgccaaac ccaaagc 17 <210> 48 <211> 20 <212> DNA <213> Artificial Seqeunce <220> <223> Can1 copy number R <400> 48 cttgccatat gtgccttcca 20 <210> 49 <211> 21 <212> DNA <213> Artificial sequence <220> <223> Can1 copy number probe <400> 49 cttttcgccc ccactgcagc c 21 <210> 50 <211> 69 <212> DNA <213> Yarrowia lipolytica <400> 50 tgaccgtcct tggagatacc agcctcgaac tcaccaacac caccagcaat gatgaggatg 60 gcacagtcg 69 <210> 51 <211> 20 <212> DNA <213> Artificial sequence <220> <223> TEF1 forward <400> 51 cgactgtgcc atcctcatca 20 <210> 52 <211> 21 <212> DNA <213> Artificial sequence <220> <223> TEF1 reverse <400> 52 tgaccgtcct tggagatacc a 21 <210> 53 <211> 21 <212> DNA <213> Yarrowia lipolytica <400> 53 tgctggtggt gttggtgagt t 21 <210> 54 <211> 12167 <212> DNA <213> Artificial sequence <220> <223> pRF434 <400> 54 cgataaaaaa caaaaaaaaa agcaccgact cggtgccact ttttcaagtt gataacggac 60 tagccttatt ttaacttgct atttctagct ctaaaacgca ggtgtaaaaa taaaaaggcc 120 tgcgattacc agcaggcctg ttattaacct aagccttagg acgcttcacg ccatacttgg 180 aacgagcctg cttacggtct ttaacgccgg agcagtcaag cgcaccacgt acggtgtggt 240 aacgaacacc cgggaggtct ttaacacgac cgccacggat caggatcacg gagtgctcct 300 gcaggttgtg accttcacca ccgatgtagg aagtcacttc gaaaccgtta gtcagacgaa 360 cacggcatac tttacgcagc gcggagttcg gttttttagg agtggtagta tatacacgag 420 tacatacgcc acgtttttgc gggcatgctt ccagcgcagg cacgttgctt ttcgcaactt 480 tgcgagcacg tggtttgcgt accagctggt taactgttgc cattaaatag ctcctggttt 540 tagcttttgc ttcgtaaaca cgtaataaaa cgtcctcaca caatatgagg acgccgaatt 600 tagggcgatg ccgaaaaggt gtcaagaaat atacaacgat cccgccatca cctgcgtccc 660 attcgccatg ccgaagcatg ttgcccagcc ggcgccagcg aggaggctgg gaccatgccg 720 gccattattt tgcgttaagt ttctaatcat cacgaaatta tctatcaaaa ataactaggt 780 cccaccgaga ttcgaactcg ggaccttaag atttgcaatc tcacgcgcta ccgctgtgcc 840 ataggaccga agttaaaatt tggccaaaga aggacctggg caccctggac tgtgggttag 900 ggtaatattc cttatggaga caatgggcta gggtaaatta cctaaaatgg gtcgataaag 960 aggggtgttc ccagttggga agtgtaattg aagacggggt caaaaaagaa aatcaaaaaa 1020 aatttaatta agactatgat aacttcgtat aatgtatgct atacgaacgg tagcacactg 1080 tacgagtaag agcactagcc actgcactca agtgaaaccg ttgcccgggt acgagtatga 1140 gtatgtacag tatgtttagt attgtacttg gacagtgctt gtatcgtaca ttctcaagtg 1200 tcaaacataa atatccgttg ctatatcctc gcaccaccac gtagctcgct atatccctgt 1260 gttgaatcca tccatcttgg attgccaatt gtgcacacag aaccgggcac tcacttcccc 1320 atccacactt gcggccgcta ttcctttgcc ctcggacgag tgctggggcg tcggtttcca 1380 ctatcggcga gtacttctac acagccatcg gtccagacgg ccgcgcttct gcgggcgatt 1440 tgtgtacgcc cgacagtccc ggctccggat cggacgattg cgtcgcatcg accctgcgcc 1500 caagctgcat catcgaaatt gccgtcaacc aagctctgat agagttggtc aagaccaatg 1560 cggagcatat acgcccggag ccgcggcgat cctgcaagct ccggatgcct ccgctcgaag 1620 tagcgcgtct gctgctccat acaagccaac cacggcctcc agaagaagat gttggcgacc 1680 tcgtattggg aatccccgaa catcgcctcg ctccagtcaa tgaccgctgt tatgcggcca 1740 ttgtccgtca ggacattgtt ggagccgaaa tccgcgtgca cgaggtgccg gacttcgggg 1800 cagtcctcgg cccaaagcat cagctcatcg agagcctgcg cgacggacgc actgacggtg 1860 tcgtccatca cagtttgcca gtgatacaca tggggatcag caatcgcgca tatgaaatca 1920 cgccatgtag tgtattgacc gattccttgc ggtccgaatg ggccgaaccc gctcgtctgg 1980 ctaagatcgg ccgcagcgat cgcatccata gcctccgcga ccggctgcag aacagcgggc 2040 agttcggttt caggcaggtc ttgcaacgtg acaccctgtg cacggcggga gatgcaatag 2100 gtcaggctct cgctgaactc cccaatgtca agcacttccg gaatcgggag cgcggccgat 2160 gcaaagtgcc gataaacata acgatctttg tagaaaccat cggcgcagct atttacccgc 2220 aggacatatc cacgccctcc tacatcgaag ctgaaagcac gagattcttc gccctccgag 2280 agctgcatca ggtcggagac gctgtcgaac ttttcgatca gaaacttctc gacagacgtc 2340 gcggtgagtt caggcttttt ggccatggtt gatgtgtgtt taattcaaga atgaatatag 2400 agaagagaag aagaaaaaag attcaattga gccggcgatg cagaccctta tataaatgtt 2460 gccttggaca gacggagcaa gcccgcccaa acctacgttc ggtataatat gttaagcttt 2520 ttaacacaaa ggtttggctt ggggtaacct gatgtggtgc aaaagaccgg gcgttggcga 2580 gccattgcgc gggcgaatgg ggccgtgact cgtctcaaat tcgagggcgt gcctcaattc 2640 gtgcccccgt ggctttttcc cgccgtttcc gccccgtttg caccactgca gccgcttctt 2700 tggttcggac accttgctgc gagctaggtg ccttgtgcta cttaaaaagt ggcctcccaa 2760 caccaacatg acatgagtgc gtgggccaag acacgttggc ggggtcgcag tcggctcaat 2820 ggcccggaaa aaacgctgct ggagctggtt cggacgcagt ccgccgcggc gtatggatat 2880 ccgcaaggtt ccatagcgcc attgccctcc gtcggcgtct atcccgcaac ctaccgttcg 2940 tataatgtat gctatacgaa gttatgagcg ggcttaaggt ttaaaccatc atctaagggc 3000 ctcaaaacta cctcggaact gctgcgctga tctggacacc acagaggttc cgagcacttt 3060 aggttgcacc aaatgtccca ccaggtgcag gcagaaaacg ctggaacagc gtgtacagtt 3120 tgtcttaaca aaaagtgagg gcgctgaggt cgagcagggt ggtgtgactt gttatagcct 3180 ttagagctgc gaaagcgcgt atggatttgg ctcatcaggc cagattgagg gtctgtggac 3240 acatgtcatg ttagtgtact tcaatcgccc cctggatata gccccgacaa taggccgtgg 3300 cctcattttt ttgccttccg cacatttcca ttgctcggta cccacacctt gcttctcctg 3360 cacttgccaa ccttaatact ggtttacatt gaccaacatc ttacaagcgg ggggcttgtc 3420 tagggtatat ataaacagtg gctctcccaa tcggttgcca gtctcttttt tcctttcttt 3480 ccccacagat tcgaaatcta aactacacat cacaccatgg acaagaaata ctccatcggc 3540 ctggacattg gaaccaactc tgtcggctgg gctgtcatca ccgacgagta caaggtgccc 3600 tccaagaaat tcaaggtcct cggaaacacc gatcgacact ccatcaagaa aaacctcatt 3660 ggtgccctgt tgttcgattc tggcgagact gccgaagcta ccagactcaa gcgaactgct 3720 cggcgacgtt acacccgacg gaagaaccga atctgctacc tgcaggagat cttttccaac 3780 gagatggcca aggtggacga ttcgttcttt catcgactgg aggaatcctt cctcgtcgag 3840 gaagacaaga aacacgagcg tcatcccatc tttggcaaca ttgtggacga ggttgcttac 3900 cacgagaagt atcctaccat ctaccatctc cgaaagaaac tcgtcgattc caccgacaag 3960 gcggatctca gacttatcta cctcgctctg gcacacatga tcaagtttcg aggtcatttc 4020 ctcatcgagg gcgatctcaa tcccgacaac agcgatgtgg acaagctgtt cattcagctc 4080 gttcagacct acaaccagct gttcgaggaa aaccccatca atgcctccgg agtcgatgca 4140 aaggccatct tgtctgctcg actctcgaag agcagacgac tggagaacct cattgcccaa 4200 cttcctggcg agaaaaagaa cggactgttt ggcaacctca ttgccctttc tcttggtctc 4260 acacccaact tcaagtccaa cttcgatctg gcggaggacg ccaagctcca gctgtccaag 4320 gacacctacg acgatgacct cgacaacctg cttgcacaga ttggcgatca gtacgccgac 4380 ctgtttctcg ctgccaagaa cctttcggat gctattctct tgtctgacat tctgcgagtc 4440 aacaccgaga tcacaaaggc tcccctttct gcctccatga tcaagcgata cgacgagcac 4500 catcaggatc tcacactgct caaggctctt gtccgacagc aactgcccga gaagtacaag 4560 gagatctttt tcgatcagtc gaagaacggc tacgctggat acatcgacgg cggagcctct 4620 caggaagagt tctacaagtt catcaagcca attctcgaga agatggacgg aaccgaggaa 4680 ctgcttgtca agctcaatcg agaggatctg cttcggaagc aacgaacctt cgacaacggc 4740 agcattcctc atcagatcca cctcggtgag ctgcacgcca ttcttcgacg tcaggaagac 4800 ttctacccct ttctcaagga caaccgagag aagatcgaga agattcttac ctttcgaatc 4860 ccctactatg ttggtcctct tgccagagga aactctcgat ttgcttggat gactcgaaag 4920 tccgaggaaa ccatcactcc ctggaacttc gaggaagtcg tggacaaggg tgcctctgca 4980 cagtccttca tcgagcgaat gaccaacttc gacaagaatc tgcccaacga gaaggttctt 5040 cccaagcatt cgctgctcta cgagtacttt acagtctaca acgaactcac caaagtcaag 5100 tacgttaccg agggaatgcg aaagcctgcc ttcttgtctg gcgaacagaa gaaagccatt 5160 gtcgatctcc tgttcaagac caaccgaaag gtcactgtta agcagctcaa ggaggactac 5220 ttcaagaaaa tcgagtgttt cgacagcgtc gagatttccg gagttgagga ccgattcaac 5280 gcctctttgg gcacctatca cgatctgctc aagattatca aggacaagga ttttctcgac 5340 aacgaggaaa acgaggacat tctggaggac atcgtgctca ctcttaccct gttcgaagat 5400 cgggagatga tcgaggaacg actcaagaca tacgctcacc tgttcgacga caaggtcatg 5460 aaacaactca agcgacgtag atacaccggc tggggaagac tttcgcgaaa gctcatcaac 5520 ggcatcagag acaagcagtc cggaaagacc attctggact ttctcaagtc cgatggcttt 5580 gccaaccgaa acttcatgca gctcattcac gacgattctc ttaccttcaa ggaggacatc 5640 cagaaggcac aagtgtccgg tcagggcgac agcttgcacg aacatattgc caacctggct 5700 ggttcgccag ccatcaagaa aggcattctc cagactgtca aggttgtcga cgagctggtg 5760 aaggtcatgg gacgtcacaa gcccgagaac attgtgatcg agatggccag agagaaccag 5820 acaactcaaa agggtcagaa aaactcgcga gagcggatga agcgaatcga ggaaggcatc 5880 aaggagctgg gatcccagat tctcaaggag catcccgtcg agaacactca actgcagaac 5940 gagaagctgt atctctacta tctgcagaat ggtcgagaca tgtacgtgga tcaggaactg 6000 gacatcaatc gtctcagcga ctacgatgtg gaccacattg tccctcaatc ctttctcaag 6060 gacgattcta tcgacaacaa ggtccttaca cgatccgaca agaacagagg caagtcggac 6120 aacgttccca gcgaagaggt ggtcaaaaag atgaagaact actggcgaca gctgctcaac 6180 gccaagctca ttacccagcg aaagttcgac aatcttacca aggccgagcg aggcggtctg 6240 tccgagctcg acaaggctgg cttcatcaag cgtcaactcg tcgagaccag acagatcaca 6300 aagcacgtcg cacagattct cgattctcgg atgaacacca agtacgacga gaacgacaag 6360 ctcatccgag aggtcaaggt gattactctc aagtccaaac tggtctccga tttccgaaag 6420 gactttcagt tctacaaggt gcgagagatc aacaattacc accatgccca cgatgcttac 6480 ctcaacgccg tcgttggcac tgcgctcatc aagaaatacc ccaagctcga aagcgagttc 6540 gtttacggcg attacaaggt ctacgacgtt cgaaagatga ttgccaagtc cgaacaggag 6600 attggcaagg ctactgccaa gtacttcttt tactccaaca tcatgaactt tttcaagacc 6660 gagatcacct tggccaacgg agagattcga aagagaccac ttatcgagac caacggcgaa 6720 actggagaga tcgtgtggga caagggtcga gactttgcaa ccgtgcgaaa ggttctgtcg 6780 atgcctcagg tcaacatcgt caagaaaacc gaggttcaga ctggcggatt ctccaaggag 6840 tcgattctgc ccaagcgaaa ctccgacaag ctcatcgctc gaaagaaaga ctgggatccc 6900 aagaaatacg gtggcttcga ttctcctacc gtcgcctatt ccgtgcttgt cgttgcgaag 6960 gtcgagaagg gcaagtccaa aaagctcaag tccgtcaagg agctgctcgg aattaccatc 7020 atggagcgat cgagcttcga gaagaatccc atcgacttct tggaagccaa gggttacaag 7080 gaggtcaaga aagacctcat tatcaagctg cccaagtact ctctgttcga actggagaac 7140 ggtcgaaagc gtatgctcgc ctccgctggc gagctgcaga agggaaacga gcttgccttg 7200 ccttcgaagt acgtcaactt tctctatctg gcttctcact acgagaagct caagggttct 7260 cccgaggaca acgaacagaa gcaactcttc gttgagcagc acaaacatta cctcgacgag 7320 attatcgagc agatttccga gttttcgaag cgagtcatcc tggctgatgc caacttggac 7380 aaggtgctct ctgcctacaa caagcatcgg gacaaaccca ttcgagaaca ggcggagaac 7440 atcattcacc tgtttactct taccaacctg ggtgctcctg cagctttcaa gtacttcgat 7500 accactatcg accgaaagcg gtacacatcc accaaggagg ttctcgatgc caccctgatt 7560 caccagtcca tcactggcct gtacgagacc cgaatcgacc tgtctcagct tggtggcgac 7620 tccagagccg atcccaagaa aaagcgaaag gtctaagcgg ccgcaagtgt ggatggggaa 7680 gtgagtgccc ggttctgtgt gcacaattgg caatccaaga tggatggatt caacacaggg 7740 atatagcgag ctacgtggtg gtgcgaggat atagcaacgg atatttatgt ttgacacttg 7800 agaatgtacg atacaagcac tgtccaagta caatactaaa catactgtac atactcatac 7860 tcgtacccgg gcaacggttt cacttgagtg cagtggctag tgctcttact cgtacagtgt 7920 gcaatactgc gtatcatagt ctttgatgta tatcgtattc attcatgtta gttgcgtacg 7980 agccggaagc ataaagtgta aagcctgggg tgcctaatga gtgagctaac tcacattaat 8040 tgcgttgcgc tcactgcccg ctttccagtc gggaaacctg tcgtgccagc tgcattaatg 8100 aatcggccaa cgcgcgggga gaggcggttt gcgtattggg cgctcttccg cttcctcgct 8160 cactgactcg ctgcgctcgg tcgttcggct gcggcgagcg gtatcagctc actcaaaggc 8220 ggtaatacgg ttatccacag aatcagggga taacgcagga aagaacatgt gagcaaaagg 8280 ccagcaaaag gccaggaacc gtaaaaaggc cgcgttgctg gcgtttttcc ataggctccg 8340 cccccctgac gagcatcaca aaaatcgacg ctcaagtcag aggtggcgaa acccgacagg 8400 actataaaga taccaggcgt ttccccctgg aagctccctc gtgcgctctc ctgttccgac 8460 cctgccgctt accggatacc tgtccgcctt tctcccttcg ggaagcgtgg cgctttctca 8520 tagctcacgc tgtaggtatc tcagttcggt gtaggtcgtt cgctccaagc tgggctgtgt 8580 gcacgaaccc cccgttcagc ccgaccgctg cgccttatcc ggtaactatc gtcttgagtc 8640 caacccggta agacacgact tatcgccact ggcagcagcc actggtaaca ggattagcag 8700 agcgaggtat gtaggcggtg ctacagagtt cttgaagtgg tggcctaact acggctacac 8760 tagaaggaca gtatttggta tctgcgctct gctgaagcca gttaccttcg gaaaaagagt 8820 tggtagctct tgatccggca aacaaaccac cgctggtagc ggtggttttt ttgtttgcaa 8880 gcagcagatt acgcgcagaa aaaaaggatc tcaagaagat cctttgatct tttctacggg 8940 gtctgacgct cagtggaacg aaaactcacg ttaagggatt ttggtcatga gattatcaaa 9000 aaggatcttc acctagatcc ttttaaatta aaaatgaagt tttaaatcaa tctaaagtat 9060 atatgagtaa acttggtctg acagttacca atgcttaatc agtgaggcac ctatctcagc 9120 gatctgtcta tttcgttcat ccatagttgc ctgactcccc gtcgtgtaga taactacgat 9180 acgggagggc ttaccatctg gccccagtgc tgcaatgata ccgcgagacc cacgctcacc 9240 ggctccagat ttatcagcaa taaaccagcc agccggaagg gccgagcgca gaagtggtcc 9300 tgcaacttta tccgcctcca tccagtctat taattgttgc cgggaagcta gagtaagtag 9360 ttcgccagtt aatagtttgc gcaacgttgt tgccattgct acaggcatcg tggtgtcacg 9420 ctcgtcgttt ggtatggctt cattcagctc cggttcccaa cgatcaaggc gagttacatg 9480 atcccccatg ttgtgcaaaa aagcggttag ctccttcggt cctccgatcg ttgtcagaag 9540 taagttggcc gcagtgttat cactcatggt tatggcagca ctgcataatt ctcttactgt 9600 catgccatcc gtaagatgct tttctgtgac tggtgagtac tcaaccaagt cattctgaga 9660 atagtgtatg cggcgaccga gttgctcttg cccggcgtca atacgggata ataccgcgcc 9720 acatagcaga actttaaaag tgctcatcat tggaaaacgt tcttcggggc gaaaactctc 9780 aaggatctta ccgctgttga gatccagttc gatgtaaccc actcgtgcac ccaactgatc 9840 ttcagcatct tttactttca ccagcgtttc tgggtgagca aaaacaggaa ggcaaaatgc 9900 cgcaaaaaag ggaataaggg cgacacggaa atgttgaata ctcatactct tcctttttca 9960 atattattga agcatttatc agggttattg tctcatgagc ggatacatat ttgaatgtat 10020 ttagaaaaat aaacaaatag gggttccgcg cacatttccc cgaaaagtgc cacctgacgc 10080 gccctgtagc ggcgcattaa gcgcggcggg tgtggtggtt acgcgcagcg tgaccgctac 10140 acttgccagc gccctagcgc ccgctccttt cgctttcttc ccttcctttc tcgccacgtt 10200 cgccggcttt ccccgtcaag ctctaaatcg ggggctccct ttagggttcc gatttagtgc 10260 tttacggcac ctcgacccca aaaaacttga ttagggtgat ggttcacgta gtgggccatc 10320 gccctgatag acggtttttc gccctttgac gttggagtcc acgttcttta atagtggact 10380 cttgttccaa actggaacaa cactcaaccc tatctcggtc tattcttttg atttataagg 10440 gattttgccg atttcggcct attggttaaa aaatgagctg atttaacaaa aatttaacgc 10500 gaattttaac aaaatattaa cgcttacaat ttccattcgc cattcaggct gcgcaactgt 10560 tgggaagggc gatcggtgcg ggcctcttcg ctattacgcc agctggcgaa agggggatgt 10620 gctgcaaggc gattaagttg ggtaacgcca gggttttccc agtcacgacg ttgtaaaacg 10680 acggccagtg aattgtaata cgactcacta tagggcgaat tgggtaccgg gccccccctc 10740 gaggtcgatg gtgtcgataa gcttgatatc gaattcatgt cacacaaacc gatcttcgcc 10800 tcaaggaaac ctaattctac atccgagaga ctgccgagat ccagtctaca ctgattaatt 10860 ttcgggccaa taatttaaaa aaatcgtgtt atataatatt atatgtatta tatatataca 10920 tcatgatgat actgacagtc atgtcccatt gctaaataga cagactccat ctgccgcctc 10980 caactgatgt tctcaatatt taaggggtca tctcgcattg tttaataata aacagactcc 11040 atctaccgcc tccaaatgat gttctcaaaa tatattgtat gaacttattt ttattactta 11100 gtattattag acaacttact tgctttatga aaaacacttc ctatttagga aacaatttat 11160 aatggcagtt cgttcattta acaatttatg tagaataaat gttataaatg cgtatgggaa 11220 atcttaaata tggatagcat aaatgatatc tgcattgcct aattcgaaat caacagcaac 11280 gaaaaaaatc ccttgtacaa cataaatagt catcgagaaa tatcaactat caaagaacag 11340 ctattcacac gttactattg agattattat tggacgagaa tcacacactc aactgtcttt 11400 ctctcttcta gaaatacagg tacaagtatg tactattctc attgttcata cttctagtca 11460 tttcatccca catattcctt ggatttctct ccaatgaatg acattctatc ttgcaaattc 11520 aacaattata ataagatata ccaaagtagc ggtatagtgg caatcaaaaa gcttctctgg 11580 tgtgcttctc gtatttattt ttattctaat gatccattaa aggtatatat ttatttcttg 11640 ttatataatc cttttgttta ttacatgggc tggatacata aaggtatttt gatttaattt 11700 tttgcttaaa ttcaatcccc cctcgttcag tgtcaactgt aatggtagga aattaccata 11760 cttttgaaga agcaaaaaaa atgaaagaaa aaaaaaatcg tatttccagg ttagacgttc 11820 cgcagaatct agaatgcggt atgcggtaca ttgttcttcg aacgtaaaag ttgcgctccc 11880 tgagatattg tacatttttg cttttacaag tacaagtaca tcgtacaact atgtactact 11940 gttgatgcat ccacaacagt ttgttttgtt tttttttgtt tttttttttt ctaatgattc 12000 attaccgcta tgtataccta cttgtacttg tagtaagccg ggttattggc gttcaattaa 12060 tcatagactt atgaatctgc acggtgtgcg ctgcgagtta cttttagctt atgcatgcta 12120 cttgggtgta atattgggat ctgttcggaa atcaacggat gctcaat 12167 <210> 55 <211> 1963 <212> DNA <213> Artificial sequence <220> <223> Hygromycin resistance cassette <400> 55 gtttaaacct taagcccgct cataacttcg tatagcatac attatacgaa cggtaggttg 60 cgggatagac gccgacggag ggcaatggcg ctatggaacc ttgcggatat ccatacgccg 120 cggcggactg cgtccgaacc agctccagca gcgttttttc cgggccattg agccgactgc 180 gaccccgcca acgtgtcttg gcccacgcac tcatgtcatg ttggtgttgg gaggccactt 240 tttaagtagc acaaggcacc tagctcgcag caaggtgtcc gaaccaaaga agcggctgca 300 gtggtgcaaa cggggcggaa acggcgggaa aaagccacgg gggcacgaat tgaggcacgc 360 cctcgaattt gagacgagtc acggccccat tcgcccgcgc aatggctcgc caacgcccgg 420 tcttttgcac cacatcaggt taccccaagc caaacctttg tgttaaaaag cttaacatat 480 tataccgaac gtaggtttgg gcgggcttgc tccgtctgtc caaggcaaca tttatataag 540 ggtctgcatc gccggctcaa ttgaatcttt tttcttcttc tcttctctat attcattctt 600 gaattaaaca cacatcaacc atggccaaaa agcctgaact caccgcgacg tctgtcgaga 660 agtttctgat cgaaaagttc gacagcgtct ccgacctgat gcagctctcg gagggcgaag 720 aatctcgtgc tttcagcttc gatgtaggag ggcgtggata tgtcctgcgg gtaaatagct 780 gcgccgatgg tttctacaaa gatcgttatg tttatcggca ctttgcatcg gccgcgctcc 840 cgattccgga agtgcttgac attggggagt tcagcgagag cctgacctat tgcatctccc 900 gccgtgcaca gggtgtcacg ttgcaagacc tgcctgaaac cgaactgccc gctgttctgc 960 agccggtcgc ggaggctatg gatgcgatcg ctgcggccga tcttagccag acgagcgggt 1020 tcggcccatt cggaccgcaa ggaatcggtc aatacactac atggcgtgat ttcatatgcg 1080 cgattgctga tccccatgtg tatcactggc aaactgtgat ggacgacacc gtcagtgcgt 1140 ccgtcgcgca ggctctcgat gagctgatgc tttgggccga ggactgcccc gaagtccggc 1200 acctcgtgca cgcggatttc ggctccaaca atgtcctgac ggacaatggc cgcataacag 1260 cggtcattga ctggagcgag gcgatgttcg gggattccca atacgaggtc gccaacatct 1320 tcttctggag gccgtggttg gcttgtatgg agcagcagac gcgctacttc gagcggaggc 1380 atccggagct tgcaggatcg ccgcggctcc gggcgtatat gctccgcatt ggtcttgacc 1440 aactctatca gagcttggtt gacggcaatt tcgatgatgc agcttgggcg cagggtcgat 1500 gcgacgcaat cgtccgatcc ggagccggga ctgtcgggcg tacacaaatc gcccgcagaa 1560 gcgcggccgt ctggaccgat ggctgtgtag aagtactcgc cgatagtgga aaccgacgcc 1620 ccagcactcg tccgagggca aaggaatagc ggccgcaagt gtggatgggg aagtgagtgc 1680 ccggttctgt gtgcacaatt ggcaatccaa gatggatgga ttcaacacag ggatatagcg 1740 agctacgtgg tggtgcgagg atatagcaac ggatatttat gtttgacact tgagaatgta 1800 cgatacaagc actgtccaag tacaatacta aacatactgt acatactcat actcgtaccc 1860 gggcaacggt ttcacttgag tgcagtggct agtgctctta ctcgtacagt gtgctaccgt 1920 tcgtatagca tacattatac gaagttatca tagtcttaat taa 1963 <210> 56 <211> 1714 <212> DNA <213> Yarrowia lipolytica <400> 56 catgacatgt gtccacagac cctcaatctg gcctgatgag ccaaatccat acgcgctttc 60 gcagctctaa aggctataac aagtcacacc accctgctcg acctcagcgc cctcactttt 120 tgttaagaca aactgtacac gctgttccag cgttttctgc ctgcacctgg tgggacattt 180 ggtgcaacct aaagtgctcg gaacctctgt ggtgtccaga tcagcgcagc agttccgagg 240 tagttttgag gcccttagat gatggtttaa acgtcgacga gtatctgtct gactcgtcat 300 tgccgccttt ggagtacgac tccaactatg agtgtgcttg gatcactttg acgatacatt 360 cttcgttgga ggctgtgggt ctgacagctg cgttttcggc gcggttggcc gacaacaata 420 tcagctgcaa cgtcattgct ggctttcatc atgatcacat ttttgtcggc aaaggcgacg 480 cccagagagc cattgacgtt ctttctaatt tggaccgata gccgtatagt ccagtctatc 540 tataagttca actaactcgt aactattacc ataacatata cttcactgcc ccagataagg 600 ttccgataaa aagttctgca gactaaattt atttcagtct cctcttcacc accaaaatgc 660 cctcctacga agctcgagct aacgtccaca agtccgcctt tgccgctcga gtgctcaagc 720 tcgtggcagc caagaaaacc aacctgtgtg cttctctgga tgttaccacc accaaggagc 780 tcattgagct tgccgataag gtcggacctt atgtgtgcat gatcaaaacc catatcgaca 840 tcattgacga cttcacctac gccggcactg tgctccccct caaggaactt gctcttaagc 900 acggtttctt cctgttcgag gacagaaagt tcgcagatat tggcaacact gtcaagcacc 960 agtaccggtg tcaccgaatc gccgagtggt ccgatatcac caacgcccac ggtgtacccg 1020 gaaccggaat cattgctggc ctgcgagctg gtgccgagga aactgtctct gaacagaaga 1080 aggaggacgt ctctgactac gagaactccc agtacaagga gttcctagtc ccctctccca 1140 acgagaagct ggccagaggt ctgctcatgc tggccgagct gtcttgcaag ggctctctgg 1200 ccactggcga gtactccaag cagaccattg agcttgcccg atccgacccc gagtttgtgg 1260 ttggcttcat tgcccagaac cgacctaagg gcgactctga ggactggctt attctgaccc 1320 ccggggtggg tcttgacgac aagggagacg ctctcggaca gcagtaccga actgttgagg 1380 atgtcatgtc taccggaacg gatatcataa ttgtcggccg aggtctgtac ggccagaacc 1440 gagatcctat tgaggaggcc aagcgatacc agaaggctgg ctgggaggct taccagaaga 1500 ttaactgtta gaggttagac tatggatatg taatttaact gtgtatatag agagcgtgca 1560 agtatggagc gcttgttcag cttgtatgat ggtcagacga cctgtctgat cgagtatgta 1620 tgatactgca caacctgtgt atccgcatga tctgtccaat ggggcatgtt gttgtgtttc 1680 tcgatacgga gatgctgggt acagtgctaa tacg 1714 <210> 57 <211> 23 <212> DNA <213> Yarrowia lipolytica <220> <221> misc_feature <222> (1)..(23) <223> ura3-1 target site <400> 57 cgctcgagtg ctcaagctcg tgg 23 <210> 58 <211> 34 <212> DNA <213> Artificial sequence <220> <223> ura3-1F <400> 58 aatgggacgc cgctcgagtg ctcaagctcg gttt 34 <210> 59 <211> 34 <212> DNA <213> Artificial sequence <220> <223> ura3-1R <400> 59 tctaaaaccg agcttgagca ctcgagcggc gtcc 34 <210> 60 <211> 20 <212> DNA <213> Artificial sequence <220> <223> DNA encoding Ura3-1 VT domain <400> 60 cgctcgagtg ctcaagctcg 20 <210> 61 <211> 11631 <212> DNA <213> Artificial sequence <220> <223> pRF421 <400> 61 taagactatg ataacttcgt ataatgtatg ctatacgaac ggtagcacac tgtacgagta 60 agagcactag ccactgcact caagtgaaac cgttgcccgg gtacgagtat gagtatgtac 120 agtatgttta gtattgtact tggacagtgc ttgtatcgta cattctcaag tgtcaaacat 180 aaatatccgt tgctatatcc tcgcaccacc acgtagctcg ctatatccct gtgttgaatc 240 catccatctt ggattgccaa ttgtgcacac agaaccgggc actcacttcc ccatccacac 300 ttgcggccgc tattcctttg ccctcggacg agtgctgggg cgtcggtttc cactatcggc 360 gagtacttct acacagccat cggtccagac ggccgcgctt ctgcgggcga tttgtgtacg 420 cccgacagtc ccggctccgg atcggacgat tgcgtcgcat cgaccctgcg cccaagctgc 480 atcatcgaaa ttgccgtcaa ccaagctctg atagagttgg tcaagaccaa tgcggagcat 540 atacgcccgg agccgcggcg atcctgcaag ctccggatgc ctccgctcga agtagcgcgt 600 ctgctgctcc atacaagcca accacggcct ccagaagaag atgttggcga cctcgtattg 660 ggaatccccg aacatcgcct cgctccagtc aatgaccgct gttatgcggc cattgtccgt 720 caggacattg ttggagccga aatccgcgtg cacgaggtgc cggacttcgg ggcagtcctc 780 ggcccaaagc atcagctcat cgagagcctg cgcgacggac gcactgacgg tgtcgtccat 840 cacagtttgc cagtgataca catggggatc agcaatcgcg catatgaaat cacgccatgt 900 agtgtattga ccgattcctt gcggtccgaa tgggccgaac ccgctcgtct ggctaagatc 960 ggccgcagcg atcgcatcca tagcctccgc gaccggctgc agaacagcgg gcagttcggt 1020 ttcaggcagg tcttgcaacg tgacaccctg tgcacggcgg gagatgcaat aggtcaggct 1080 ctcgctgaac tccccaatgt caagcacttc cggaatcggg agcgcggccg atgcaaagtg 1140 ccgataaaca taacgatctt tgtagaaacc atcggcgcag ctatttaccc gcaggacata 1200 tccacgccct cctacatcga agctgaaagc acgagattct tcgccctccg agagctgcat 1260 caggtcggag acgctgtcga acttttcgat cagaaacttc tcgacagacg tcgcggtgag 1320 ttcaggcttt ttggccatgg ttgatgtgtg tttaattcaa gaatgaatat agagaagaga 1380 agaagaaaaa agattcaatt gagccggcga tgcagaccct tatataaatg ttgccttgga 1440 cagacggagc aagcccgccc aaacctacgt tcggtataat atgttaagct ttttaacaca 1500 aaggtttggc ttggggtaac ctgatgtggt gcaaaagacc gggcgttggc gagccattgc 1560 gcgggcgaat ggggccgtga ctcgtctcaa attcgagggc gtgcctcaat tcgtgccccc 1620 gtggcttttt cccgccgttt ccgccccgtt tgcaccactg cagccgcttc tttggttcgg 1680 acaccttgct gcgagctagg tgccttgtgc tacttaaaaa gtggcctccc aacaccaaca 1740 tgacatgagt gcgtgggcca agacacgttg gcggggtcgc agtcggctca atggcccgga 1800 aaaaacgctg ctggagctgg ttcggacgca gtccgccgcg gcgtatggat atccgcaagg 1860 ttccatagcg ccattgccct ccgtcggcgt ctatcccgca acctaccgtt cgtataatgt 1920 atgctatacg aagttatgag cgggcttaag gtttaaacca tcatctaagg gcctcaaaac 1980 tacctcggaa ctgctgcgct gatctggaca ccacagaggt tccgagcact ttaggttgca 2040 ccaaatgtcc caccaggtgc aggcagaaaa cgctggaaca gcgtgtacag tttgtcttaa 2100 caaaaagtga gggcgctgag gtcgagcagg gtggtgtgac ttgttatagc ctttagagct 2160 gcgaaagcgc gtatggattt ggctcatcag gccagattga gggtctgtgg acacatgtca 2220 tgttagtgta cttcaatcgc cccctggata tagccccgac aataggccgt ggcctcattt 2280 ttttgccttc cgcacatttc cattgctcgg tacccacacc ttgcttctcc tgcacttgcc 2340 aaccttaata ctggtttaca ttgaccaaca tcttacaagc ggggggcttg tctagggtat 2400 atataaacag tggctctccc aatcggttgc cagtctcttt tttcctttct ttccccacag 2460 attcgaaatc taaactacac atcacaccat ggacaagaaa tactccatcg gcctggacat 2520 tggaaccaac tctgtcggct gggctgtcat caccgacgag tacaaggtgc cctccaagaa 2580 attcaaggtc ctcggaaaca ccgatcgaca ctccatcaag aaaaacctca ttggtgccct 2640 gttgttcgat tctggcgaga ctgccgaagc taccagactc aagcgaactg ctcggcgacg 2700 ttacacccga cggaagaacc gaatctgcta cctgcaggag atcttttcca acgagatggc 2760 caaggtggac gattcgttct ttcatcgact ggaggaatcc ttcctcgtcg aggaagacaa 2820 gaaacacgag cgtcatccca tctttggcaa cattgtggac gaggttgctt accacgagaa 2880 gtatcctacc atctaccatc tccgaaagaa actcgtcgat tccaccgaca aggcggatct 2940 cagacttatc tacctcgctc tggcacacat gatcaagttt cgaggtcatt tcctcatcga 3000 gggcgatctc aatcccgaca acagcgatgt ggacaagctg ttcattcagc tcgttcagac 3060 ctacaaccag ctgttcgagg aaaaccccat caatgcctcc ggagtcgatg caaaggccat 3120 cttgtctgct cgactctcga agagcagacg actggagaac ctcattgccc aacttcctgg 3180 cgagaaaaag aacggactgt ttggcaacct cattgccctt tctcttggtc tcacacccaa 3240 cttcaagtcc aacttcgatc tggcggagga cgccaagctc cagctgtcca aggacaccta 3300 cgacgatgac ctcgacaacc tgcttgcaca gattggcgat cagtacgccg acctgtttct 3360 cgctgccaag aacctttcgg atgctattct cttgtctgac attctgcgag tcaacaccga 3420 gatcacaaag gctccccttt ctgcctccat gatcaagcga tacgacgagc accatcagga 3480 tctcacactg ctcaaggctc ttgtccgaca gcaactgccc gagaagtaca aggagatctt 3540 tttcgatcag tcgaagaacg gctacgctgg atacatcgac ggcggagcct ctcaggaaga 3600 gttctacaag ttcatcaagc caattctcga gaagatggac ggaaccgagg aactgcttgt 3660 caagctcaat cgagaggatc tgcttcggaa gcaacgaacc ttcgacaacg gcagcattcc 3720 tcatcagatc cacctcggtg agctgcacgc cattcttcga cgtcaggaag acttctaccc 3780 ctttctcaag gacaaccgag agaagatcga gaagattctt acctttcgaa tcccctacta 3840 tgttggtcct cttgccagag gaaactctcg atttgcttgg atgactcgaa agtccgagga 3900 aaccatcact ccctggaact tcgaggaagt cgtggacaag ggtgcctctg cacagtcctt 3960 catcgagcga atgaccaact tcgacaagaa tctgcccaac gagaaggttc ttcccaagca 4020 ttcgctgctc tacgagtact ttacagtcta caacgaactc accaaagtca agtacgttac 4080 cgagggaatg cgaaagcctg ccttcttgtc tggcgaacag aagaaagcca ttgtcgatct 4140 cctgttcaag accaaccgaa aggtcactgt taagcagctc aaggaggact acttcaagaa 4200 aatcgagtgt ttcgacagcg tcgagatttc cggagttgag gaccgattca acgcctcttt 4260 gggcacctat cacgatctgc tcaagattat caaggacaag gattttctcg acaacgagga 4320 aaacgaggac attctggagg acatcgtgct cactcttacc ctgttcgaag atcgggagat 4380 gatcgaggaa cgactcaaga catacgctca cctgttcgac gacaaggtca tgaaacaact 4440 caagcgacgt agatacaccg gctggggaag actttcgcga aagctcatca acggcatcag 4500 agacaagcag tccggaaaga ccattctgga ctttctcaag tccgatggct ttgccaaccg 4560 aaacttcatg cagctcattc acgacgattc tcttaccttc aaggaggaca tccagaaggc 4620 acaagtgtcc ggtcagggcg acagcttgca cgaacatatt gccaacctgg ctggttcgcc 4680 agccatcaag aaaggcattc tccagactgt caaggttgtc gacgagctgg tgaaggtcat 4740 gggacgtcac aagcccgaga acattgtgat cgagatggcc agagagaacc agacaactca 4800 aaagggtcag aaaaactcgc gagagcggat gaagcgaatc gaggaaggca tcaaggagct 4860 gggatcccag attctcaagg agcatcccgt cgagaacact caactgcaga acgagaagct 4920 gtatctctac tatctgcaga atggtcgaga catgtacgtg gatcaggaac tggacatcaa 4980 tcgtctcagc gactacgatg tggaccacat tgtccctcaa tcctttctca aggacgattc 5040 tatcgacaac aaggtcctta cacgatccga caagaacaga ggcaagtcgg acaacgttcc 5100 cagcgaagag gtggtcaaaa agatgaagaa ctactggcga cagctgctca acgccaagct 5160 cattacccag cgaaagttcg acaatcttac caaggccgag cgaggcggtc tgtccgagct 5220 cgacaaggct ggcttcatca agcgtcaact cgtcgagacc agacagatca caaagcacgt 5280 cgcacagatt ctcgattctc ggatgaacac caagtacgac gagaacgaca agctcatccg 5340 agaggtcaag gtgattactc tcaagtccaa actggtctcc gatttccgaa aggactttca 5400 gttctacaag gtgcgagaga tcaacaatta ccaccatgcc cacgatgctt acctcaacgc 5460 cgtcgttggc actgcgctca tcaagaaata ccccaagctc gaaagcgagt tcgtttacgg 5520 cgattacaag gtctacgacg ttcgaaagat gattgccaag tccgaacagg agattggcaa 5580 ggctactgcc aagtacttct tttactccaa catcatgaac tttttcaaga ccgagatcac 5640 cttggccaac ggagagattc gaaagagacc acttatcgag accaacggcg aaactggaga 5700 gatcgtgtgg gacaagggtc gagactttgc aaccgtgcga aaggttctgt cgatgcctca 5760 ggtcaacatc gtcaagaaaa ccgaggttca gactggcgga ttctccaagg agtcgattct 5820 gcccaagcga aactccgaca agctcatcgc tcgaaagaaa gactgggatc ccaagaaata 5880 cggtggcttc gattctccta ccgtcgccta ttccgtgctt gtcgttgcga aggtcgagaa 5940 gggcaagtcc aaaaagctca agtccgtcaa ggagctgctc ggaattacca tcatggagcg 6000 atcgagcttc gagaagaatc ccatcgactt cttggaagcc aagggttaca aggaggtcaa 6060 gaaagacctc attatcaagc tgcccaagta ctctctgttc gaactggaga acggtcgaaa 6120 gcgtatgctc gcctccgctg gcgagctgca gaagggaaac gagcttgcct tgccttcgaa 6180 gtacgtcaac tttctctatc tggcttctca ctacgagaag ctcaagggtt ctcccgagga 6240 caacgaacag aagcaactct tcgttgagca gcacaaacat tacctcgacg agattatcga 6300 gcagatttcc gagttttcga agcgagtcat cctggctgat gccaacttgg acaaggtgct 6360 ctctgcctac aacaagcatc gggacaaacc cattcgagaa caggcggaga acatcattca 6420 cctgtttact cttaccaacc tgggtgctcc tgcagctttc aagtacttcg ataccactat 6480 cgaccgaaag cggtacacat ccaccaagga ggttctcgat gccaccctga ttcaccagtc 6540 catcactggc ctgtacgaga cccgaatcga cctgtctcag cttggtggcg actccagagc 6600 cgatcccaag aaaaagcgaa aggtctaagc ggccgcaagt gtggatgggg aagtgagtgc 6660 ccggttctgt gtgcacaatt ggcaatccaa gatggatgga ttcaacacag ggatatagcg 6720 agctacgtgg tggtgcgagg atatagcaac ggatatttat gtttgacact tgagaatgta 6780 cgatacaagc actgtccaag tacaatacta aacatactgt acatactcat actcgtaccc 6840 gggcaacggt ttcacttgag tgcagtggct agtgctctta ctcgtacagt gtgcaatact 6900 gcgtatcata gtctttgatg tatatcgtat tcattcatgt tagttgcgta cgagccggaa 6960 gcataaagtg taaagcctgg ggtgcctaat gagtgagcta actcacatta attgcgttgc 7020 gctcactgcc cgctttccag tcgggaaacc tgtcgtgcca gctgcattaa tgaatcggcc 7080 aacgcgcggg gagaggcggt ttgcgtattg ggcgctcttc cgcttcctcg ctcactgact 7140 cgctgcgctc ggtcgttcgg ctgcggcgag cggtatcagc tcactcaaag gcggtaatac 7200 ggttatccac agaatcaggg gataacgcag gaaagaacat gtgagcaaaa ggccagcaaa 7260 aggccaggaa ccgtaaaaag gccgcgttgc tggcgttttt ccataggctc cgcccccctg 7320 acgagcatca caaaaatcga cgctcaagtc agaggtggcg aaacccgaca ggactataaa 7380 gataccaggc gtttccccct ggaagctccc tcgtgcgctc tcctgttccg accctgccgc 7440 ttaccggata cctgtccgcc tttctccctt cgggaagcgt ggcgctttct catagctcac 7500 gctgtaggta tctcagttcg gtgtaggtcg ttcgctccaa gctgggctgt gtgcacgaac 7560 cccccgttca gcccgaccgc tgcgccttat ccggtaacta tcgtcttgag tccaacccgg 7620 taagacacga cttatcgcca ctggcagcag ccactggtaa caggattagc agagcgaggt 7680 atgtaggcgg tgctacagag ttcttgaagt ggtggcctaa ctacggctac actagaagga 7740 cagtatttgg tatctgcgct ctgctgaagc cagttacctt cggaaaaaga gttggtagct 7800 cttgatccgg caaacaaacc accgctggta gcggtggttt ttttgtttgc aagcagcaga 7860 ttacgcgcag aaaaaaagga tctcaagaag atcctttgat cttttctacg gggtctgacg 7920 ctcagtggaa cgaaaactca cgttaaggga ttttggtcat gagattatca aaaaggatct 7980 tcacctagat ccttttaaat taaaaatgaa gttttaaatc aatctaaagt atatatgagt 8040 aaacttggtc tgacagttac caatgcttaa tcagtgaggc acctatctca gcgatctgtc 8100 tatttcgttc atccatagtt gcctgactcc ccgtcgtgta gataactacg atacgggagg 8160 gcttaccatc tggccccagt gctgcaatga taccgcgaga cccacgctca ccggctccag 8220 atttatcagc aataaaccag ccagccggaa gggccgagcg cagaagtggt cctgcaactt 8280 tatccgcctc catccagtct attaattgtt gccgggaagc tagagtaagt agttcgccag 8340 ttaatagttt gcgcaacgtt gttgccattg ctacaggcat cgtggtgtca cgctcgtcgt 8400 ttggtatggc ttcattcagc tccggttccc aacgatcaag gcgagttaca tgatccccca 8460 tgttgtgcaa aaaagcggtt agctccttcg gtcctccgat cgttgtcaga agtaagttgg 8520 ccgcagtgtt atcactcatg gttatggcag cactgcataa ttctcttact gtcatgccat 8580 ccgtaagatg cttttctgtg actggtgagt actcaaccaa gtcattctga gaatagtgta 8640 tgcggcgacc gagttgctct tgcccggcgt caatacggga taataccgcg ccacatagca 8700 gaactttaaa agtgctcatc attggaaaac gttcttcggg gcgaaaactc tcaaggatct 8760 taccgctgtt gagatccagt tcgatgtaac ccactcgtgc acccaactga tcttcagcat 8820 cttttacttt caccagcgtt tctgggtgag caaaaacagg aaggcaaaat gccgcaaaaa 8880 agggaataag ggcgacacgg aaatgttgaa tactcatact cttccttttt caatattatt 8940 gaagcattta tcagggttat tgtctcatga gcggatacat atttgaatgt atttagaaaa 9000 ataaacaaat aggggttccg cgcacatttc cccgaaaagt gccacctgac gcgccctgta 9060 gcggcgcatt aagcgcggcg ggtgtggtgg ttacgcgcag cgtgaccgct acacttgcca 9120 gcgccctagc gcccgctcct ttcgctttct tcccttcctt tctcgccacg ttcgccggct 9180 ttccccgtca agctctaaat cgggggctcc ctttagggtt ccgatttagt gctttacggc 9240 acctcgaccc caaaaaactt gattagggtg atggttcacg tagtgggcca tcgccctgat 9300 agacggtttt tcgccctttg acgttggagt ccacgttctt taatagtgga ctcttgttcc 9360 aaactggaac aacactcaac cctatctcgg tctattcttt tgatttataa gggattttgc 9420 cgatttcggc ctattggtta aaaaatgagc tgatttaaca aaaatttaac gcgaatttta 9480 acaaaatatt aacgcttaca atttccattc gccattcagg ctgcgcaact gttgggaagg 9540 gcgatcggtg cgggcctctt cgctattacg ccagctggcg aaagggggat gtgctgcaag 9600 gcgattaagt tgggtaacgc cagggttttc ccagtcacga cgttgtaaaa cgacggccag 9660 tgaattgtaa tacgactcac tatagggcga attgggtacc gggccccccc tcgaggtcga 9720 tggtgtcgat aagcttgata tcgaattcat gtcacacaaa ccgatcttcg cctcaaggaa 9780 acctaattct acatccgaga gactgccgag atccagtcta cactgattaa ttttcgggcc 9840 aataatttaa aaaaatcgtg ttatataata ttatatgtat tatatatata catcatgatg 9900 atactgacag tcatgtccca ttgctaaata gacagactcc atctgccgcc tccaactgat 9960 gttctcaata tttaaggggt catctcgcat tgtttaataa taaacagact ccatctaccg 10020 cctccaaatg atgttctcaa aatatattgt atgaacttat ttttattact tagtattatt 10080 agacaactta cttgctttat gaaaaacact tcctatttag gaaacaattt ataatggcag 10140 ttcgttcatt taacaattta tgtagaataa atgttataaa tgcgtatggg aaatcttaaa 10200 tatggatagc ataaatgata tctgcattgc ctaattcgaa atcaacagca acgaaaaaaa 10260 tcccttgtac aacataaata gtcatcgaga aatatcaact atcaaagaac agctattcac 10320 acgttactat tgagattatt attggacgag aatcacacac tcaactgtct ttctctcttc 10380 tagaaataca ggtacaagta tgtactattc tcattgttca tacttctagt catttcatcc 10440 cacatattcc ttggatttct ctccaatgaa tgacattcta tcttgcaaat tcaacaatta 10500 taataagata taccaaagta gcggtatagt ggcaatcaaa aagcttctct ggtgtgcttc 10560 tcgtatttat ttttattcta atgatccatt aaaggtatat atttatttct tgttatataa 10620 tccttttgtt tattacatgg gctggataca taaaggtatt ttgatttaat tttttgctta 10680 aattcaatcc cccctcgttc agtgtcaact gtaatggtag gaaattacca tacttttgaa 10740 gaagcaaaaa aaatgaaaga aaaaaaaaat cgtatttcca ggttagacgt tccgcagaat 10800 ctagaatgcg gtatgcggta cattgttctt cgaacgtaaa agttgcgctc cctgagatat 10860 tgtacatttt tgcttttaca agtacaagta catcgtacaa ctatgtacta ctgttgatgc 10920 atccacaaca gtttgttttg tttttttttg tttttttttt ttctaatgat tcattaccgc 10980 tatgtatacc tacttgtact tgtagtaagc cgggttattg gcgttcaatt aatcatagac 11040 ttatgaatct gcacggtgtg cgctgcgagt tacttttagc ttatgcatgc tacttgggtg 11100 taatattggg atctgttcgg aaatcaacgg atgctcaatc gataaaaaac aaaaaaaaaa 11160 gcaccgactc ggtgccactt tttcaagttg ataacggact agccttattt taacttgcta 11220 tttctagctc taaaaccgag cttgagcact cgagcggcgt cccattcgcc atgccgaagc 11280 atgttgccca gccggcgcca gcgaggaggc tgggaccatg ccggccatta ttttgcgtta 11340 agtttctaat catcacgaaa ttatctatca aaaataacta ggtcccaccg agattcgaac 11400 tcgggacctt aagatttgca atctcacgcg ctaccgctgt gccataggac cgaagttaaa 11460 atttggccaa agaaggacct gggcaccctg gactgtgggt tagggtaata ttccttatgg 11520 agacaatggg ctagggtaaa ttacctaaaa tgggtcgata aagaggggtg ttcccagttg 11580 ggaagtgtaa ttgaagacgg ggtcaaaaaa gaaaatcaaa aaaaatttaa t 11631 <210> 62 <211> 378 <212> DNA <213> Yarrowia lipolytica <400> 62 gagtatctgt ctgactcgtc attgccgcct ttggagtacg actccaacta tgagtgtgct 60 tggatcactt tgacgataca ttcttcgttg gaggctgtgg gtctgacagc tgcgttttcg 120 gcgcggttgg ccgacaacaa tatcagctgc aacgtcattg ctggctttca tcatgatcac 180 atttttgtcg gcaaaggcga cgcccagaga gccattgacg ttctttctaa tttggaccga 240 tagccgtata gtccagtcta tctataagtt caactaactc gtaactatta ccataacata 300 tacttcactg ccccagataa ggttccgata aaaagttctg cagactaaat ttatttcagt 360 ctcctcttca ccaccaaa 378 <210> 63 <211> 258 <212> DNA <213> Yarrowia lipolytica <400> 63 tagaggttag actatggata tgtaatttaa ctgtgtatat agagagcgtg caagtatgga 60 gcgcttgttc agcttgtatg atggtcagac gacctgtctg atcgagtatg tatgatactg 120 cacaacctgt gtatccgcat gatctgtcca atggggcatg ttgttgtgtt tctcgatacg 180 gagatgctgg gtacagtgct aatacgttga actacttata cttatatgag gctcgaagaa 240 agctgacttg tgtatgac 258 <210> 64 <211> 648 <212> DNA <213> Artificial sequence <220> <223> URA3 deletion polynucleotide editing template <400> 64 gaattcgagt atctgtctga ctcgtcattg ccgcctttgg agtacgactc caactatgag 60 tgtgcttgga tcactttgac gatacattct tcgttggagg ctgtgggtct gacagctgcg 120 ttttcggcgc ggttggccga caacaatatc agctgcaacg tcattgctgg ctttcatcat 180 gatcacattt ttgtcggcaa aggcgacgcc cagagagcca ttgacgttct ttctaatttg 240 gaccgatagc cgtatagtcc agtctatcta taagttcaac taactcgtaa ctattaccat 300 aacatatact tcactgcccc agataaggtt ccgataaaaa gttctgcaga ctaaatttat 360 ttcagtctcc tcttcaccac caaatagagg ttagactatg gatatgtaat ttaactgtgt 420 atatagagag cgtgcaagta tggagcgctt gttcagcttg tatgatggtc agacgacctg 480 tctgatcgag tatgtatgat actgcacaac ctgtgtatcc gcatgatctg tccaatgggg 540 catgttgttg tgtttctcga tacggagatg ctgggtacag tgctaatacg ttgaactact 600 tatacttata tgaggctcga agaaagctga cttgtgtatg acaagctt 648 <210> 65 <211> 3277 <212> DNA <213> Artificial sequence <220> <223> pRF263 <400> 65 agcttgtcat acacaagtca gctttcttcg agcctcatat aagtataagt agttcaacgt 60 attagcactg tacccagcat ctccgtatcg agaaacacaa caacatgccc cattggacag 120 atcatgcgga tacacaggtt gtgcagtatc atacatactc gatcagacag gtcgtctgac 180 catcatacaa gctgaacaag cgctccatac ttgcacgctc tctatataca cagttaaatt 240 acatatccat agtctaacct ctatttggtg gtgaagagga gactgaaata aatttagtct 300 gcagaacttt ttatcggaac cttatctggg gcagtgaagt atatgttatg gtaatagtta 360 cgagttagtt gaacttatag atagactgga ctatacggct atcggtccaa attagaaaga 420 acgtcaatgg ctctctgggc gtcgcctttg ccgacaaaaa tgtgatcatg atgaaagcca 480 gcaatgacgt tgcagctgat attgttgtcg gccaaccgcg ccgaaaacgc agctgtcaga 540 cccacagcct ccaacgaaga atgtatcgtc aaagtgatcc aagcacactc atagttggag 600 tcgtactcca aaggcggcaa tgacgagtca gacagatact cgaattcgta atcatggtca 660 tagctgtttc ctgtgtgaaa ttgttatccg ctcacaattc cacacaacat acgagccgga 720 agcataaagt gtaaagcctg gggtgcctaa tgagtgagct aactcacatt aattgcgttg 780 cgctcactgc ccgctttcca gtcgggaaac ctgtcgtgcc agctgcatta atgaatcggc 840 caacgcgcgg ggagaggcgg tttgcgtatt gggcgctctt ccgcttcctc gctcactgac 900 tcgctgcgct cggtcgttcg gctgcggcga gcggtatcag ctcactcaaa ggcggtaata 960 cggttatcca cagaatcagg ggataacgca ggaaagaaca tgtgagcaaa aggccagcaa 1020 aaggccagga accgtaaaaa ggccgcgttg ctggcgtttt tccataggct ccgcccccct 1080 gacgagcatc acaaaaatcg acgctcaagt cagaggtggc gaaacccgac aggactataa 1140 agataccagg cgtttccccc tggaagctcc ctcgtgcgct ctcctgttcc gaccctgccg 1200 cttaccggat acctgtccgc ctttctccct tcgggaagcg tggcgctttc tcatagctca 1260 cgctgtaggt atctcagttc ggtgtaggtc gttcgctcca agctgggctg tgtgcacgaa 1320 ccccccgttc agcccgaccg ctgcgcctta tccggtaact atcgtcttga gtccaacccg 1380 gtaagacacg acttatcgcc actggcagca gccactggta acaggattag cagagcgagg 1440 tatgtaggcg gtgctacaga gttcttgaag tggtggccta actacggcta cactagaagg 1500 acagtatttg gtatctgcgc tctgctgaag ccagttacct tcggaaaaag agttggtagc 1560 tcttgatccg gcaaacaaac caccgctggt agcggtggtt tttttgtttg caagcagcag 1620 attacgcgca gaaaaaaagg atctcaagaa gatcctttga tcttttctac ggggtctgac 1680 gctcagtgga acgaaaactc acgttaaggg attttggtca tgagattatc aaaaaggatc 1740 ttcacctaga tccttttaaa ttaaaaatga agttttaaat caatctaaag tatatatgag 1800 taaacttggt ctgacagtta ccaatgctta atcagtgagg cacctatctc agcgatctgt 1860 ctatttcgtt catccatagt tgcctgactc cccgtcgtgt agataactac gatacgggag 1920 ggcttaccat ctggccccag tgctgcaatg ataccgcgag acccacgctc accggctcca 1980 gatttatcag caataaacca gccagccgga agggccgagc gcagaagtgg tcctgcaact 2040 ttatccgcct ccatccagtc tattaattgt tgccgggaag ctagagtaag tagttcgcca 2100 gttaatagtt tgcgcaacgt tgttgccatt gctacaggca tcgtggtgtc acgctcgtcg 2160 tttggtatgg cttcattcag ctccggttcc caacgatcaa ggcgagttac atgatccccc 2220 atgttgtgca aaaaagcggt tagctccttc ggtcctccga tcgttgtcag aagtaagttg 2280 gccgcagtgt tatcactcat ggttatggca gcactgcata attctcttac tgtcatgcca 2340 tccgtaagat gcttttctgt gactggtgag tactcaacca agtcattctg agaatagtgt 2400 atgcggcgac cgagttgctc ttgcccggcg tcaatacggg ataataccgc gccacatagc 2460 agaactttaa aagtgctcat cattggaaaa cgttcttcgg ggcgaaaact ctcaaggatc 2520 ttaccgctgt tgagatccag ttcgatgtaa cccactcgtg cacccaactg atcttcagca 2580 tcttttactt tcaccagcgt ttctgggtga gcaaaaacag gaaggcaaaa tgccgcaaaa 2640 aagggaataa gggcgacacg gaaatgttga atactcatac tcttcctttt tcaatattat 2700 tgaagcattt atcagggtta ttgtctcatg agcggataca tatttgaatg tatttagaaa 2760 aataaacaaa taggggttcc gcgcacattt ccccgaaaag tgccacctga cgtctaagaa 2820 accattatta tcatgacatt aacctataaa aataggcgta tcacgaggcc ctttcgtctc 2880 gcgcgtttcg gtgatgacgg tgaaaacctc tgacacatgc agctcccgga gacggtcaca 2940 gcttgtctgt aagcggatgc cgggagcaga caagcccgtc agggcgcgtc agcgggtgtt 3000 ggcgggtgtc ggggctggct taactatgcg gcatcagagc agattgtact gagagtgcac 3060 catatgcggt gtgaaatacc gcacagatgc gtaaggagaa aataccgcat caggcgccat 3120 tcgccattca ggctgcgcaa ctgttgggaa gggcgatcgg tgcgggcctc ttcgctatta 3180 cgccagctgg cgaaaggggg atgtgctgca aggcgattaa gttgggtaac gccagggttt 3240 tcccagtcac gacgttgtaa aacgacggcc agtgcca 3277 <210> 66 <211> 26 <212> DNA <213> Artificial sequence <220> <223> HY007 <400> 66 cgggcagtga gcgcaacgca attaat 26 <210> 67 <211> 29 <212> DNA <213> Artificial sequence <220> <223> oligo 297 <400> 67 ggggaattct gcaaggcgat taagttggg 29 <210> 68 <211> 873 <212> DNA <213> Artificial sequence <220> <223> EcoRI flanked URA3 deletion template <400> 68 cgggcagtga gcgcaacgca attaatgtga gttagctcac tcattaggca ccccaggctt 60 tacactttat gcttccggct cgtatgttgt gtggaattgt gagcggataa caatttcaca 120 caggaaacag ctatgaccat gattacgaat tcgagtatct gtctgactcg tcattgccgc 180 ctttggagta cgactccaac tatgagtgtg cttggatcac tttgacgata cattcttcgt 240 tggaggctgt gggtctgaca gctgcgtttt cggcgcggtt ggccgacaac aatatcagct 300 gcaacgtcat tgctggcttt catcatgatc acatttttgt cggcaaaggc gacgcccaga 360 gagccattga cgttctttct aatttggacc gatagccgta tagtccagtc tatctataag 420 ttcaactaac tcgtaactat taccataaca tatacttcac tgccccagat aaggttccga 480 taaaaagttc tgcagactaa atttatttca gtctcctctt caccaccaaa tagaggttag 540 actatggata tgtaatttaa ctgtgtatat agagagcgtg caagtatgga gcgcttgttc 600 agcttgtatg atggtcagac gacctgtctg atcgagtatg tatgatactg cacaacctgt 660 gtatccgcat gatctgtcca atggggcatg ttgttgtgtt tctcgatacg gagatgctgg 720 gtacagtgct aatacgttga actacttata cttatatgag gctcgaagaa agctgacttg 780 tgtatgacaa gcttggcact ggccgtcgtt ttacaacgtc gtgactggga aaaccctggc 840 gttacccaac ttaatcgcct tgcagaattc ccc 873 <210> 69 <211> 12349 <212> DNA <213> Artificial sequence <220> <223> pRF437 <400> 69 aattctgcaa ggcgattaag ttgggtaacg ccagggtttt cccagtcacg acgttgtaaa 60 acgacggcca gtgccaagct tgtcatacac aagtcagctt tcttcgagcc tcatataagt 120 ataagtagtt caacgtatta gcactgtacc cagcatctcc gtatcgagaa acacaacaac 180 atgccccatt ggacagatca tgcggataca caggttgtgc agtatcatac atactcgatc 240 agacaggtcg tctgaccatc atacaagctg aacaagcgct ccatacttgc acgctctcta 300 tatacacagt taaattacat atccatagtc taacctctat ttggtggtga agaggagact 360 gaaataaatt tagtctgcag aactttttat cggaacctta tctggggcag tgaagtatat 420 gttatggtaa tagttacgag ttagttgaac ttatagatag actggactat acggctatcg 480 gtccaaatta gaaagaacgt caatggctct ctgggcgtcg cctttgccga caaaaatgtg 540 atcatgatga aagccagcaa tgacgttgca gctgatattg ttgtcggcca accgcgccga 600 aaacgcagct gtcagaccca cagcctccaa cgaagaatgt atcgtcaaag tgatccaagc 660 acactcatag ttggagtcgt actccaaagg cggcaatgac gagtcagaca gatactcgaa 720 ttcatgtcac acaaaccgat cttcgcctca aggaaaccta attctacatc cgagagactg 780 ccgagatcca gtctacactg attaattttc gggccaataa tttaaaaaaa tcgtgttata 840 taatattata tgtattatat atatacatca tgatgatact gacagtcatg tcccattgct 900 aaatagacag actccatctg ccgcctccaa ctgatgttct caatatttaa ggggtcatct 960 cgcattgttt aataataaac agactccatc taccgcctcc aaatgatgtt ctcaaaatat 1020 attgtatgaa cttattttta ttacttagta ttattagaca acttacttgc tttatgaaaa 1080 acacttccta tttaggaaac aatttataat ggcagttcgt tcatttaaca atttatgtag 1140 aataaatgtt ataaatgcgt atgggaaatc ttaaatatgg atagcataaa tgatatctgc 1200 attgcctaat tcgaaatcaa cagcaacgaa aaaaatccct tgtacaacat aaatagtcat 1260 cgagaaatat caactatcaa agaacagcta ttcacacgtt actattgaga ttattattgg 1320 acgagaatca cacactcaac tgtctttctc tcttctagaa atacaggtac aagtatgtac 1380 tattctcatt gttcatactt ctagtcattt catcccacat attccttgga tttctctcca 1440 atgaatgaca ttctatcttg caaattcaac aattataata agatatacca aagtagcggt 1500 atagtggcaa tcaaaaagct tctctggtgt gcttctcgta tttattttta ttctaatgat 1560 ccattaaagg tatatattta tttcttgtta tataatcctt ttgtttatta catgggctgg 1620 atacataaag gtattttgat ttaatttttt gcttaaattc aatcccccct cgttcagtgt 1680 caactgtaat ggtaggaaat taccatactt ttgaagaagc aaaaaaaatg aaagaaaaaa 1740 aaaatcgtat ttccaggtta gacgttccgc agaatctaga atgcggtatg cggtacattg 1800 ttcttcgaac gtaaaagttg cgctccctga gatattgtac atttttgctt ttacaagtac 1860 aagtacatcg tacaactatg tactactgtt gatgcatcca caacagtttg ttttgttttt 1920 ttttgttttt tttttttcta atgattcatt accgctatgt atacctactt gtacttgtag 1980 taagccgggt tattggcgtt caattaatca tagacttatg aatctgcacg gtgtgcgctg 2040 cgagttactt ttagcttatg catgctactt gggtgtaata ttgggatctg ttcggaaatc 2100 aacggatgct caatcgataa aaaacaaaaa aaaaagcacc gactcggtgc cactttttca 2160 agttgataac ggactagcct tattttaact tgctatttct agctctaaaa ccgagcttga 2220 gcactcgagc ggcgtcccat tcgccatgcc gaagcatgtt gcccagccgg cgccagcgag 2280 gaggctggga ccatgccggc cattattttg cgttaagttt ctaatcatca cgaaattatc 2340 tatcaaaaat aactaggtcc caccgagatt cgaactcggg accttaagat ttgcaatctc 2400 acgcgctacc gctgtgccat aggaccgaag ttaaaatttg gccaaagaag gacctgggca 2460 ccctggactg tgggttaggg taatattcct tatggagaca atgggctagg gtaaattacc 2520 taaaatgggt cgataaagag gggtgttccc agttgggaag tgtaattgaa gacggggtca 2580 aaaaagaaaa tcaaaaaaaa tttaattaag actatgataa cttcgtataa tgtatgctat 2640 acgaacggta gcacactgta cgagtaagag cactagccac tgcactcaag tgaaaccgtt 2700 gcccgggtac gagtatgagt atgtacagta tgtttagtat tgtacttgga cagtgcttgt 2760 atcgtacatt ctcaagtgtc aaacataaat atccgttgct atatcctcgc accaccacgt 2820 agctcgctat atccctgtgt tgaatccatc catcttggat tgccaattgt gcacacagaa 2880 ccgggcactc acttccccat ccacacttgc ggccgctatt cctttgccct cggacgagtg 2940 ctggggcgtc ggtttccact atcggcgagt acttctacac agccatcggt ccagacggcc 3000 gcgcttctgc gggcgatttg tgtacgcccg acagtcccgg ctccggatcg gacgattgcg 3060 tcgcatcgac cctgcgccca agctgcatca tcgaaattgc cgtcaaccaa gctctgatag 3120 agttggtcaa gaccaatgcg gagcatatac gcccggagcc gcggcgatcc tgcaagctcc 3180 ggatgcctcc gctcgaagta gcgcgtctgc tgctccatac aagccaacca cggcctccag 3240 aagaagatgt tggcgacctc gtattgggaa tccccgaaca tcgcctcgct ccagtcaatg 3300 accgctgtta tgcggccatt gtccgtcagg acattgttgg agccgaaatc cgcgtgcacg 3360 aggtgccgga cttcggggca gtcctcggcc caaagcatca gctcatcgag agcctgcgcg 3420 acggacgcac tgacggtgtc gtccatcaca gtttgccagt gatacacatg gggatcagca 3480 atcgcgcata tgaaatcacg ccatgtagtg tattgaccga ttccttgcgg tccgaatggg 3540 ccgaacccgc tcgtctggct aagatcggcc gcagcgatcg catccatagc ctccgcgacc 3600 ggctgcagaa cagcgggcag ttcggtttca ggcaggtctt gcaacgtgac accctgtgca 3660 cggcgggaga tgcaataggt caggctctcg ctgaactccc caatgtcaag cacttccgga 3720 atcgggagcg cggccgatgc aaagtgccga taaacataac gatctttgta gaaaccatcg 3780 gcgcagctat ttacccgcag gacatatcca cgccctccta catcgaagct gaaagcacga 3840 gattcttcgc cctccgagag ctgcatcagg tcggagacgc tgtcgaactt ttcgatcaga 3900 aacttctcga cagacgtcgc ggtgagttca ggctttttgg ccatggttga tgtgtgttta 3960 attcaagaat gaatatagag aagagaagaa gaaaaaagat tcaattgagc cggcgatgca 4020 gacccttata taaatgttgc cttggacaga cggagcaagc ccgcccaaac ctacgttcgg 4080 tataatatgt taagcttttt aacacaaagg tttggcttgg ggtaacctga tgtggtgcaa 4140 aagaccgggc gttggcgagc cattgcgcgg gcgaatgggg ccgtgactcg tctcaaattc 4200 gagggcgtgc ctcaattcgt gcccccgtgg ctttttcccg ccgtttccgc cccgtttgca 4260 ccactgcagc cgcttctttg gttcggacac cttgctgcga gctaggtgcc ttgtgctact 4320 taaaaagtgg cctcccaaca ccaacatgac atgagtgcgt gggccaagac acgttggcgg 4380 ggtcgcagtc ggctcaatgg cccggaaaaa acgctgctgg agctggttcg gacgcagtcc 4440 gccgcggcgt atggatatcc gcaaggttcc atagcgccat tgccctccgt cggcgtctat 4500 cccgcaacct accgttcgta taatgtatgc tatacgaagt tatgagcggg cttaaggttt 4560 aaaccatcat ctaagggcct caaaactacc tcggaactgc tgcgctgatc tggacaccac 4620 agaggttccg agcactttag gttgcaccaa atgtcccacc aggtgcaggc agaaaacgct 4680 ggaacagcgt gtacagtttg tcttaacaaa aagtgagggc gctgaggtcg agcagggtgg 4740 tgtgacttgt tatagccttt agagctgcga aagcgcgtat ggatttggct catcaggcca 4800 gattgagggt ctgtggacac atgtcatgtt agtgtacttc aatcgccccc tggatatagc 4860 cccgacaata ggccgtggcc tcattttttt gccttccgca catttccatt gctcggtacc 4920 cacaccttgc ttctcctgca cttgccaacc ttaatactgg tttacattga ccaacatctt 4980 acaagcgggg ggcttgtcta gggtatatat aaacagtggc tctcccaatc ggttgccagt 5040 ctcttttttc ctttctttcc ccacagattc gaaatctaaa ctacacatca caccatggac 5100 aagaaatact ccatcggcct ggacattgga accaactctg tcggctgggc tgtcatcacc 5160 gacgagtaca aggtgccctc caagaaattc aaggtcctcg gaaacaccga tcgacactcc 5220 atcaagaaaa acctcattgg tgccctgttg ttcgattctg gcgagactgc cgaagctacc 5280 agactcaagc gaactgctcg gcgacgttac acccgacgga agaaccgaat ctgctacctg 5340 caggagatct tttccaacga gatggccaag gtggacgatt cgttctttca tcgactggag 5400 gaatccttcc tcgtcgagga agacaagaaa cacgagcgtc atcccatctt tggcaacatt 5460 gtggacgagg ttgcttacca cgagaagtat cctaccatct accatctccg aaagaaactc 5520 gtcgattcca ccgacaaggc ggatctcaga cttatctacc tcgctctggc acacatgatc 5580 aagtttcgag gtcatttcct catcgagggc gatctcaatc ccgacaacag cgatgtggac 5640 aagctgttca ttcagctcgt tcagacctac aaccagctgt tcgaggaaaa ccccatcaat 5700 gcctccggag tcgatgcaaa ggccatcttg tctgctcgac tctcgaagag cagacgactg 5760 gagaacctca ttgcccaact tcctggcgag aaaaagaacg gactgtttgg caacctcatt 5820 gccctttctc ttggtctcac acccaacttc aagtccaact tcgatctggc ggaggacgcc 5880 aagctccagc tgtccaagga cacctacgac gatgacctcg acaacctgct tgcacagatt 5940 ggcgatcagt acgccgacct gtttctcgct gccaagaacc tttcggatgc tattctcttg 6000 tctgacattc tgcgagtcaa caccgagatc acaaaggctc ccctttctgc ctccatgatc 6060 aagcgatacg acgagcacca tcaggatctc acactgctca aggctcttgt ccgacagcaa 6120 ctgcccgaga agtacaagga gatctttttc gatcagtcga agaacggcta cgctggatac 6180 atcgacggcg gagcctctca ggaagagttc tacaagttca tcaagccaat tctcgagaag 6240 atggacggaa ccgaggaact gcttgtcaag ctcaatcgag aggatctgct tcggaagcaa 6300 cgaaccttcg acaacggcag cattcctcat cagatccacc tcggtgagct gcacgccatt 6360 cttcgacgtc aggaagactt ctaccccttt ctcaaggaca accgagagaa gatcgagaag 6420 attcttacct ttcgaatccc ctactatgtt ggtcctcttg ccagaggaaa ctctcgattt 6480 gcttggatga ctcgaaagtc cgaggaaacc atcactccct ggaacttcga ggaagtcgtg 6540 gacaagggtg cctctgcaca gtccttcatc gagcgaatga ccaacttcga caagaatctg 6600 cccaacgaga aggttcttcc caagcattcg ctgctctacg agtactttac agtctacaac 6660 gaactcacca aagtcaagta cgttaccgag ggaatgcgaa agcctgcctt cttgtctggc 6720 gaacagaaga aagccattgt cgatctcctg ttcaagacca accgaaaggt cactgttaag 6780 cagctcaagg aggactactt caagaaaatc gagtgtttcg acagcgtcga gatttccgga 6840 gttgaggacc gattcaacgc ctctttgggc acctatcacg atctgctcaa gattatcaag 6900 gacaaggatt ttctcgacaa cgaggaaaac gaggacattc tggaggacat cgtgctcact 6960 cttaccctgt tcgaagatcg ggagatgatc gaggaacgac tcaagacata cgctcacctg 7020 ttcgacgaca aggtcatgaa acaactcaag cgacgtagat acaccggctg gggaagactt 7080 tcgcgaaagc tcatcaacgg catcagagac aagcagtccg gaaagaccat tctggacttt 7140 ctcaagtccg atggctttgc caaccgaaac ttcatgcagc tcattcacga cgattctctt 7200 accttcaagg aggacatcca gaaggcacaa gtgtccggtc agggcgacag cttgcacgaa 7260 catattgcca acctggctgg ttcgccagcc atcaagaaag gcattctcca gactgtcaag 7320 gttgtcgacg agctggtgaa ggtcatggga cgtcacaagc ccgagaacat tgtgatcgag 7380 atggccagag agaaccagac aactcaaaag ggtcagaaaa actcgcgaga gcggatgaag 7440 cgaatcgagg aaggcatcaa ggagctggga tcccagattc tcaaggagca tcccgtcgag 7500 aacactcaac tgcagaacga gaagctgtat ctctactatc tgcagaatgg tcgagacatg 7560 tacgtggatc aggaactgga catcaatcgt ctcagcgact acgatgtgga ccacattgtc 7620 cctcaatcct ttctcaagga cgattctatc gacaacaagg tccttacacg atccgacaag 7680 aacagaggca agtcggacaa cgttcccagc gaagaggtgg tcaaaaagat gaagaactac 7740 tggcgacagc tgctcaacgc caagctcatt acccagcgaa agttcgacaa tcttaccaag 7800 gccgagcgag gcggtctgtc cgagctcgac aaggctggct tcatcaagcg tcaactcgtc 7860 gagaccagac agatcacaaa gcacgtcgca cagattctcg attctcggat gaacaccaag 7920 tacgacgaga acgacaagct catccgagag gtcaaggtga ttactctcaa gtccaaactg 7980 gtctccgatt tccgaaagga ctttcagttc tacaaggtgc gagagatcaa caattaccac 8040 catgcccacg atgcttacct caacgccgtc gttggcactg cgctcatcaa gaaatacccc 8100 aagctcgaaa gcgagttcgt ttacggcgat tacaaggtct acgacgttcg aaagatgatt 8160 gccaagtccg aacaggagat tggcaaggct actgccaagt acttctttta ctccaacatc 8220 atgaactttt tcaagaccga gatcaccttg gccaacggag agattcgaaa gagaccactt 8280 atcgagacca acggcgaaac tggagagatc gtgtgggaca agggtcgaga ctttgcaacc 8340 gtgcgaaagg ttctgtcgat gcctcaggtc aacatcgtca agaaaaccga ggttcagact 8400 ggcggattct ccaaggagtc gattctgccc aagcgaaact ccgacaagct catcgctcga 8460 aagaaagact gggatcccaa gaaatacggt ggcttcgatt ctcctaccgt cgcctattcc 8520 gtgcttgtcg ttgcgaaggt cgagaagggc aagtccaaaa agctcaagtc cgtcaaggag 8580 ctgctcggaa ttaccatcat ggagcgatcg agcttcgaga agaatcccat cgacttcttg 8640 gaagccaagg gttacaagga ggtcaagaaa gacctcatta tcaagctgcc caagtactct 8700 ctgttcgaac tggagaacgg tcgaaagcgt atgctcgcct ccgctggcga gctgcagaag 8760 ggaaacgagc ttgccttgcc ttcgaagtac gtcaactttc tctatctggc ttctcactac 8820 gagaagctca agggttctcc cgaggacaac gaacagaagc aactcttcgt tgagcagcac 8880 aaacattacc tcgacgagat tatcgagcag atttccgagt tttcgaagcg agtcatcctg 8940 gctgatgcca acttggacaa ggtgctctct gcctacaaca agcatcggga caaacccatt 9000 cgagaacagg cggagaacat cattcacctg tttactctta ccaacctggg tgctcctgca 9060 gctttcaagt acttcgatac cactatcgac cgaaagcggt acacatccac caaggaggtt 9120 ctcgatgcca ccctgattca ccagtccatc actggcctgt acgagacccg aatcgacctg 9180 tctcagcttg gtggcgactc cagagccgat cccaagaaaa agcgaaaggt ctaagcggcc 9240 gcaagtgtgg atggggaagt gagtgcccgg ttctgtgtgc acaattggca atccaagatg 9300 gatggattca acacagggat atagcgagct acgtggtggt gcgaggatat agcaacggat 9360 atttatgttt gacacttgag aatgtacgat acaagcactg tccaagtaca atactaaaca 9420 tactgtacat actcatactc gtacccgggc aacggtttca cttgagtgca gtggctagtg 9480 ctcttactcg tacagtgtgc aatactgcgt atcatagtct ttgatgtata tcgtattcat 9540 tcatgttagt tgcgtacgag ccggaagcat aaagtgtaaa gcctggggtg cctaatgagt 9600 gagctaactc acattaattg cgttgcgctc actgcccgct ttccagtcgg gaaacctgtc 9660 gtgccagctg cattaatgaa tcggccaacg cgcggggaga ggcggtttgc gtattgggcg 9720 ctcttccgct tcctcgctca ctgactcgct gcgctcggtc gttcggctgc ggcgagcggt 9780 atcagctcac tcaaaggcgg taatacggtt atccacagaa tcaggggata acgcaggaaa 9840 gaacatgtga gcaaaaggcc agcaaaaggc caggaaccgt aaaaaggccg cgttgctggc 9900 gtttttccat aggctccgcc cccctgacga gcatcacaaa aatcgacgct caagtcagag 9960 gtggcgaaac ccgacaggac tataaagata ccaggcgttt ccccctggaa gctccctcgt 10020 gcgctctcct gttccgaccc tgccgcttac cggatacctg tccgcctttc tcccttcggg 10080 aagcgtggcg ctttctcata gctcacgctg taggtatctc agttcggtgt aggtcgttcg 10140 ctccaagctg ggctgtgtgc acgaaccccc cgttcagccc gaccgctgcg ccttatccgg 10200 taactatcgt cttgagtcca acccggtaag acacgactta tcgccactgg cagcagccac 10260 tggtaacagg attagcagag cgaggtatgt aggcggtgct acagagttct tgaagtggtg 10320 gcctaactac ggctacacta gaaggacagt atttggtatc tgcgctctgc tgaagccagt 10380 taccttcgga aaaagagttg gtagctcttg atccggcaaa caaaccaccg ctggtagcgg 10440 tggttttttt gtttgcaagc agcagattac gcgcagaaaa aaaggatctc aagaagatcc 10500 tttgatcttt tctacggggt ctgacgctca gtggaacgaa aactcacgtt aagggatttt 10560 ggtcatgaga ttatcaaaaa ggatcttcac ctagatcctt ttaaattaaa aatgaagttt 10620 taaatcaatc taaagtatat atgagtaaac ttggtctgac agttaccaat gcttaatcag 10680 tgaggcacct atctcagcga tctgtctatt tcgttcatcc atagttgcct gactccccgt 10740 cgtgtagata actacgatac gggagggctt accatctggc cccagtgctg caatgatacc 10800 gcgagaccca cgctcaccgg ctccagattt atcagcaata aaccagccag ccggaagggc 10860 cgagcgcaga agtggtcctg caactttatc cgcctccatc cagtctatta attgttgccg 10920 ggaagctaga gtaagtagtt cgccagttaa tagtttgcgc aacgttgttg ccattgctac 10980 aggcatcgtg gtgtcacgct cgtcgtttgg tatggcttca ttcagctccg gttcccaacg 11040 atcaaggcga gttacatgat cccccatgtt gtgcaaaaaa gcggttagct ccttcggtcc 11100 tccgatcgtt gtcagaagta agttggccgc agtgttatca ctcatggtta tggcagcact 11160 gcataattct cttactgtca tgccatccgt aagatgcttt tctgtgactg gtgagtactc 11220 aaccaagtca ttctgagaat agtgtatgcg gcgaccgagt tgctcttgcc cggcgtcaat 11280 acgggataat accgcgccac atagcagaac tttaaaagtg ctcatcattg gaaaacgttc 11340 ttcggggcga aaactctcaa ggatcttacc gctgttgaga tccagttcga tgtaacccac 11400 tcgtgcaccc aactgatctt cagcatcttt tactttcacc agcgtttctg ggtgagcaaa 11460 aacaggaagg caaaatgccg caaaaaaggg aataagggcg acacggaaat gttgaatact 11520 catactcttc ctttttcaat attattgaag catttatcag ggttattgtc tcatgagcgg 11580 atacatattt gaatgtattt agaaaaataa acaaataggg gttccgcgca catttccccg 11640 aaaagtgcca cctgacgcgc cctgtagcgg cgcattaagc gcggcgggtg tggtggttac 11700 gcgcagcgtg accgctacac ttgccagcgc cctagcgccc gctcctttcg ctttcttccc 11760 ttcctttctc gccacgttcg ccggctttcc ccgtcaagct ctaaatcggg ggctcccttt 11820 agggttccga tttagtgctt tacggcacct cgaccccaaa aaacttgatt agggtgatgg 11880 ttcacgtagt gggccatcgc cctgatagac ggtttttcgc cctttgacgt tggagtccac 11940 gttctttaat agtggactct tgttccaaac tggaacaaca ctcaacccta tctcggtcta 12000 ttcttttgat ttataaggga ttttgccgat ttcggcctat tggttaaaaa atgagctgat 12060 ttaacaaaaa tttaacgcga attttaacaa aatattaacg cttacaattt ccattcgcca 12120 ttcaggctgc gcaactgttg ggaagggcga tcggtgcggg cctcttcgct attacgccag 12180 ctggcgaaag ggggatgtgc tgcaaggcga ttaagttggg taacgccagg gttttcccag 12240 tcacgacgtt gtaaaacgac ggccagtgaa ttgtaatacg actcactata gggcgaattg 12300 ggtaccgggc cccccctcga ggtcgatggt gtcgataagc ttgatatcg 12349 <210> 70 <211> 20 <212> DNA <213> Artificial sequence <220> <223> oligo 308 <400> 70 cgtattagca ctgtacccag 20 <210> 71 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> oligo 309 <400> 71 catgacatgt gtccacagac 20 <210> 72 <211> 859 <212> DNA <213> Artificial sequence <220> <223> URA3 locus deletion PCR product <400> 72 catgacatgt gtccacagac cctcaatctg gcctgatgag ccaaatccat acgcgctttc 60 gcagctctaa aggctataac aagtcacacc accctgctcg acctcagcgc cctcactttt 120 tgttaagaca aactgtacac gctgttccag cgttttctgc ctgcacctgg tgggacattt 180 ggtgcaacct aaagtgctcg gaacctctgt ggtgtccaga tcagcgcagc agttccgagg 240 tagttttgag gcccttagat gatggtttaa acgtcgacga gtatctgtct gactcgtcat 300 tgccgccttt ggagtacgac tccaactatg agtgtgcttg gatcactttg acgatacatt 360 cttcgttgga ggctgtgggt ctgacagctg cgttttcggc gcggttggcc gacaacaata 420 tcagctgcaa cgtcattgct ggctttcatc atgatcacat ttttgtcggc aaaggcgacg 480 cccagagagc cattgacgtt ctttctaatt tggaccgata gccgtatagt ccagtctatc 540 tataagttca actaactcgt aactattacc ataacatata cttcactgcc ccagataagg 600 ttccgataaa aagttctgca gactaaattt atttcagtct cctcttcacc accaaaaggt 660 tagactatgg atatgtaatt taactgtgta tatagagagc gtgcaagtat ggagcgcttg 720 ttcagcttgt atgatggtca gacgacctgt ctgatcgagt atgtatgata ctgcacaacc 780 tgtgtatccg catgatctgt ccaatggggc atgttgttgt gtttctcgat acggagatgc 840 tgggtacagt gctaatacg 859

Claims

그 게놈에 변형 뉴클레오티드 서열을 포함하는 미생물 세포를 선택하는 방법으로서, a) 미생물 세포에 가이드 폴리뉴클레오티드, 적어도 하나의 보호 폴리뉴클레오티드 변형 주형 및 Cas 엔도뉴클레아제를 제공하는 단계로서, 상기 Cas 엔도뉴클레아제 및 가이드 폴리뉴클레오티드는 상기 미생물 세포의 게놈 내 표적 부위에서 단일 또는 이중 가닥 절단을 도입할 수 있는 복합체를 형성할 수 있고, 상기 보호 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는 단계; 및 b) 상기 변형 뉴클레오티드 서열을 포함하는 단계 (a)로부터의 미생물 세포를 선택하는 단계를 포함하고,
보호 폴리뉴클레오티드 변형 주형은 적어도 한 가닥의 5'-말단에 적어도 하나의 포스포로티오에이트 결합을 포함하는 이중 가닥 선형 분자, 또는 그 5'-말단에 적어도 하나의 포스포로티오에이트 결합을 포함하는 단일 가닥 선형 분자인 방법.
제1항에 있어서, 보호 폴리뉴클레오티드 주형의 적어도 하나의 뉴클레오티드 변형이 (i) 적어도 하나의 뉴클레오티드의 치환, (ii) 적어도 하나의 뉴클레오티드의 결실, (iii) 적어도 하나의 뉴클레오티드의 삽입, 및 (iv) (i) 내지 (iii)의 임의의 조합으로 이루어진 군으로부터 선택되는 방법.
제1항 또는 제2항에 있어서, 상기 미생물 세포에서 상동 유도 복구(HDR) 및/또는 비-상동 말단 연결(NHEJ)의 빈도를 추가로 결정하는 방법.
제3항에 있어서, HDR 빈도가 비보호(대조군) 폴리뉴클레오티드 변형 주형을 사용한 것을 제외하고 제1항의 방법과 모두 동일한 성분 및 단계를 갖는 대조 방법에서 유도되는 HDR 빈도에 비해 증가되는 방법.
제3항에 있어서, NHEJ 빈도가 비보호(대조군) 폴리뉴클레오티드 변형 주형을 사용한 것을 제외하고 제1항의 방법과 모두 동일한 성분 및 단계를 갖는 대조 방법에서 유도되는 NHEJ 빈도에 비해 감소되는 방법.
제1항 또는 제2항에 있어서, 상기 미생물 세포에서 보호 폴리뉴클레오티드 변형 주형의 부위를 벗어난 통합 빈도를 추가로 결정하는 방법.
제6항에 있어서, 상기 미생물 세포에서 보호 폴리뉴클레오티드 변형 주형의 부위를 벗어난 통합 빈도가 비보호(대조군) 폴리뉴클레오티드 변형 주형을 사용한 것을 제외하고 제1항의 방법과 모두 동일한 성분 및 단계를 갖는 대조 방법에서 유도되는 부위를 벗어난 통합 빈도에 비해 감소되는 방법.
그 게놈의 표적 부위에 삽입된 관심 폴리뉴클레오티드를 포함하는 미생물 세포를 선택하는 방법으로서, a) 미생물 세포에 가이드 폴리뉴클레오티드, 적어도 하나의 보호 폴리뉴클레오티드 공여 DNA 및 Cas 엔도뉴클레아제를 제공하는 단계로서, 상기 Cas 엔도뉴클레아제 및 가이드 폴리뉴클레오티드는 상기 미생물 세포의 게놈 내 표적 부위에서 단일 또는 이중 가닥 절단을 도입할 수 있는 복합체를 형성할 수 있고, 상기 보호 폴리뉴클레오티드 공여 DNA는 상기 미생물 세포의 게놈 내로 삽입될 관심 폴리뉴클레오티드를 포함하는 단계; 및 b) 그 게놈의 표적 부위에 삽입된 관심 폴리뉴클레오티드를 포함하는 단계 (a)로부터의 미생물 세포를 선택하는 단계를 포함하고,
보호 폴리뉴클레오티드 공여 DNA는 적어도 한 가닥의 5'-말단에 적어도 하나의 포스포로티오에이트 결합을 포함하는 이중 가닥 선형 분자, 또는 그 5'-말단에 적어도 하나의 포스포로티오에이트 결합을 포함하는 단일 가닥 선형 분자인 방법.
제1항, 제2항, 또는 제8항에 있어서, 미생물 세포가 비 통상적인 효모이며,
비 통상적인 효모는 사카로마이세스(Saccharomyces) 또는 스키조사카로마이세스(Schizosaccharomyces) 효모 종이 아닌 효모인 방법.
제9항에 있어서, 상기 효모가 야로위아, 피키아, 쉬반니오마이세스, 클루이베로마이세스, 아르술라, 트리코스포론, 칸디다, 유스틸라고, 토룰롭시스, 자이고사카로마이세스, 트리고놉시스, 크립토코커스, 로도토룰라, 파피아, 스포로볼로마이세스, 및 파키솔렌으로 이루어지는 군으로부터 선택된 속의 구성원인 비통상적인 효모인 방법.
삭제
삭제
삭제
삭제
삭제
삭제