KR20190131081A

KR20190131081A - 세포 내재성 dna 변형 효소를 사용하여 표적화된 dna의 핵산 염기를 특이적으로 변환시키는, 세포의 핵산 서열의 변환 방법 및 이에 사용하는 분자 복합체

Info

Publication number: KR20190131081A
Application number: KR1020197031042A
Authority: KR
Inventors: 케이지 니시다; 아키히코 콘도; 타카유키 아라조에; 신 요시오카
Original assignee: 고쿠리츠다이가쿠호진 고베다이가쿠
Priority date: 2017-03-22
Filing date: 2018-03-20
Publication date: 2019-11-25
Also published as: CA3057432A1; CA3057432C; EP3604519A1; JP7133856B2; WO2018174097A1; CN110446782A; US20240117384A1; JPWO2018174097A1; SG11201908782XA; CN110446782B; EP3604519A4; US11845953B2; KR102280546B1; US20200010856A1; CN118006597A; BR112019019673A2

Abstract

본 발명은, 세포에서 DNA의 표적화된 부위를 개변하는 방법으로서, 상기 세포에 내재성인 DNA 변형 효소를 유도하는 인자로 상기 세포를 자극하는 단계, 및 선택된 DNA 중의 표적 뉴클레오티드 서열과 특이적으로 결합하는 핵산 서열-인식 모듈과 DNA 변형 효소-결합 모듈이 결합된 복합체를 상기 DNA와 접촉시킴으로써, 상기 표적화된 부위의 하나 이상의 뉴클레오티드를 다른 하나 이상의 뉴클레오티드로 변환 또는 결실시키거나, 상기 표적화된 부위에 하나 이상의 뉴클레오티드를 삽입하는 단계를 포함하는, 방법을 제공한다.

Description

세포 내재성 DNA 변형 효소를 사용하여 표적화된 DNA의 핵산 염기를 특이적으로 변환시키는, 세포의 핵산 서열의 변환 방법 및 이에 사용하는 분자 복합체

본 발명은, 외인성 DNA 변형 효소 및 이를 코딩하는 핵산의 세포내로의 도입을 수행하지 않고서, 세포내 표적 DNA의 특정 영역 내의 핵산 염기의 개변을 가능하게 하는, 핵산 서열의 개변 방법 및 이에 사용하는 핵산 서열-인식 모듈과 DNA 변형 효소-결합 모듈의 복합체에 관한 것이다.

최근, 다양한 생물 종에서 목적 유전자 및 게놈 영역을 개변하는 기술로서 게놈 편집이 주목받고 있다. 종래, 게놈 편집 방법으로서는 서열 비의존적 DNA 절단능을 갖는 분자와 서열 인식 능력을 갖는 분자를 조합하여 포함하는 인공 뉴클레아제를 사용하는 방법이 제안되어 있다(비특허 문헌 1).

예를 들면, 징크 핑거 DNA 결합 도메인과 비특이적 DNA 절단 도메인을 연결한, 징크 핑거 뉴클레아제(ZFN)를 사용하여, 숙주로서 식물 세포 또는 곤충 세포에 DNA 중의 표적 유전자좌에서 재조합하는 방법(특허 문헌 1), 식물 병원균 크산토모나스(Xanthomonas) 속이 갖는 DNA 결합 모듈인 전사 활성화인자-유사(TAL) 이펙터(effector)와 DNA 엔도뉴클레아제를 연결한 TALEN을 사용하여, 특정 뉴클레오티드 서열 또는 이에 인접한 부위에서, 표적 유전자를 절단 또는 변형시키는 방법(특허 문헌 2), 또는 진정세균과 고세균이 갖는 획득 면역계에서 기능하는 DNA 서열 CRISPR(Clustered Regularly interspaced short palindromic repeats)와, CRISPR와 함께 중요한 역할을 가진 뉴클레아제 Cas(CRISPR-associated) 단백질 패밀리(family)를 조합한 CRISPR-Cas9 시스템을 사용하는 방법(특허 문헌 3) 등이 보고되어 있다. 또한 최근, CRISPR-Cas 시스템의 새로운 엔도뉴클레아제로서 Cpf1이 보고되었다(비특허 문헌 2). 또한, 35개의 아미노산으로 구성되고 1개의 핵산 염기를 인식하는 PPR 모티프의 연속에 의해, 특정 뉴클레오티드 서열을 인식하도록 구성된 PPR 단백질과 뉴클레아제를 연결한 인공 뉴클레아제를 사용하여, 특정 서열의 근방에서 표적 유전자를 절단하는 방법(특허 문헌 4)도 보고되어 있다.

또한, 최근, 본 발명자들은, 탈아미노화 반응을 촉매하는 데아미나제를 사용하고, 데아미나제와 DNA 서열 인식능을 갖는 분자를 연결시킨 복합체를 숙주 세포에 도입함으로써, 효모 및 대장균을 포함한 다양한 생물 종에서, DSB를 수반하지 않고서, 특정 DNA 서열을 포함하는 영역에서 핵산 염기 변환에 의한 게놈 서열의 개변에 성공했음을 보고하고 있다(특허 문헌 5, 비특허 문헌 3 ).

JP-B 제4968498호 국제특허출원 제2013-513389호의 국제공개공보 국제특허출원 제2010-519929호의 국제공개공보 JP-A 제2013-128413호 WO 제2015/133554호

Kelvin M Esvelt, Harris H Wang (2013) Genome-scale engineering for systems and synthetic biology, Molecular Systems Biology 9: 641 Bernd Zetsche et al. (2015) Cpf1 Is a Single RNA-Guided Endonuclease of a CRISPR-Cas System, Cell 163: 759-771 Nishida Keiji et al. (2016) Targeted nucleotide editing using hybrid prokaryotic and vertebrate adaptive immune systems, Science 6: 353 (6305)

그러나, 지금까지 제안되어 왔던 상기 게놈 편집 기술은, 외인성 DNA 변형 효소를 세포에 도입하는 것을 전제로 하고 있지만, 상기 DNA 변형 효소를 사용함으로써 유발되는, 세포 독성 등의 부작용과, 상기 DNA 변형 효소의 세포내 또는 표적 DNA 부위로의 절달의 과제와 연관된다. 따라서, 본 발명의 목적은, 세포-내재성 DNA 변형 효소를 사용함으로써 안전성을 높이고, 전달 제약을 회피할 수 있는, 신규한 DNA 편집, 특히 게놈 편집 방법, 및 이를 위한 핵산 서열-인식 모듈과 DNA 변형 효소-결합 모듈의 복합체를 제공하는 것이다.

본 발명자들은, 목적 DNA 서열을 표적화하는 핵산 서열-인식 모듈에, 세포-내재성 DNA 변형 효소와 결합하는 기능이 부여된 복합체를 생성하고, 복합체를 세포내에 도입하고, 그 세포를 상기 DNA 변형 효소를 유도하는 인자의 존재하에서 배양했다. 그 결과, 외인성 DNA 변형 효소를 사용하지 않고서, 목적 유전자의 표적 뉴클레오티드 서열 및 그 근방에 돌연변이를 도입하는 데 성공했다.

본 발명자들은, 이러한 지견에 기초하여 추가 연구를 수행한 결과, 본 발명을 완성하기에 이르렀다.

즉, 본 발명은 다음과 같다.

[1] 세포에서 DNA의 표적화된 부위를 개변하는 방법으로서, 상기 세포에 내재성인 DNA 변형 효소를 유도하는 인자로 상기 세포를 자극하는 단계, 및 제공된 DNA 중의 표적 뉴클레오티드 서열과 특이적으로 결합하는 핵산 서열-인식 모듈과 DNA 변형 효소-결합 모듈이 서로 결합된 복합체를 상기 DNA와 접촉시킴으로써, 상기 표적화된 부위의 하나 이상의 뉴클레오티드를 다른 하나 이상의 뉴클레오티드로 변환시키거나 하나 이상의 뉴클레오티드를 결실시키거나, 상기 표적화된 부위에 하나 이상의 뉴클레오티드를 삽입하는 단계를 포함하는, 방법.

[2] 상기 [1]에 있어서, 상기 표적화된 부위가 상기 DNA의 적어도 하나의 쇄(strand)를 절단하지 않고서 개변되는, 방법.

[3] 상기 [1] 또는 [2]에 있어서, 상기 핵산 서열-인식 모듈이, Cas의 적어도 하나의 DNA 절단능이 불활성화된 CRISPR-Cas 시스템, 징크 핑거 모티프(zinc finger motif), TAL 이펙터 및 PPR 모티프로 이루어진 그룹으로부터 선택되는, 방법.

[4] 상기 [1] 내지 [3] 중의 어느 하나에 있어서, 상기 핵산 서열-인식 모듈이, Cas의 적어도 하나의 DNA 절단능이 불활성화된 CRISPR-Cas 시스템인, 방법.

[5] 상기 [1] 내지 [4] 중의 어느 하나에 있어서, 상기 DNA 변형 효소-결합 모듈이 DNA 변형 효소에 대한 항체, DNA 변형 효소에 대한 펩티드 앱타머(aptamer) 및 DNA 변형 효소에 대한 핵산 앱타머로 이루어진 그룹으로부터 선택되는, 방법.

[6] 상기 [1] 내지 [4] 중의 어느 하나에 있어서, 상기 DNA 변형 효소-결합 모듈이 Vif, Bet 단백질, TopoIIβ, IQGAP2 및 ZNF335 및 이들의 단편으로 이루어진 그룹으로부터 선택되는 적어도 1종인, 방법.

[7] 상기 [1] 내지 [6] 중의 어느 하나에 있어서, 상기 DNA 변형 효소-결합 모듈의 표적 효소가 데아미나제인, 방법.

[8] 상기 [7]에 있어서, 상기 데아미나제가 APOBEC 패밀리에 속하는 단백질인, 방법.

[9] 상기 [7] 또는 [8]에 있어서, 핵산 서열-인식 모듈과 DNA 변형 효소-결합 모듈이 결합된 복합체가 이에 결합된 염기 제거 수복 억제제(base excision repair inhibitor)를 추가로 포함하는, 방법.

[10] 상기 [1] 내지 [9] 중의 어느 하나에 있어서, 상기 DNA 변형 효소를 유도하는 인자가 인터페론, 석신산 데하이드로게나제 억제제 및 저산소 조건으로 이루어진 그룹으로부터 선택되는 하나 이상인, 방법.

[11] 상기 [1] 내지 [10] 중의 어느 하나에 있어서, 상기 DNA와 상기 복합체가, 상기 세포에 상기 복합체를 코딩하는 핵산을 도입하고, 상기 세포를 배양하여 세포내에서 상기 복합체의 발현을 유발함으로써 접촉되는, 방법.

[12] 상기 [1] 내지 [11] 중의 어느 하나에 있어서, 상기 세포가, 상기 세포를 상기 인자의 존재하에서 인큐베이팅함으로써 DNA 변형 효소를 유도하는 인자로 자극되는, 방법.

[13] 상기 [1] 내지 [12] 중의 어느 하나에 있어서, 상기 세포가 척추동물 세포인, 방법.

[14] 상기 [13]에 있어서, 상기 척추동물 세포가 포유동물 세포인, 방법.

[15] 상기 [1] 내지 [14] 중의 어느 하나에 있어서, 상기 DNA가 이본쇄(double stranded) DNA인, 방법.

[16] DNA 중의 표적 뉴클레오티드 서열과 특이적으로 결합하는 핵산 서열-인식 모듈과 DNA 변형 효소-결합 모듈이 서로 결합된 복합체로서, 상기 핵산 서열-인식 모듈은 Cas의 적어도 하나의 DNA 절단능이 불활성화된 CRISPR-Cas 시스템이고, 상기 복합체는 상기 표적화된 부위의 하나 이상의 뉴클레오티드를 다른 하나 이상의 뉴클레오티드로 변환시키거나 하나 이상의 뉴클레오티드를 결실시키거나, 상기 표적화된 부위에 하나 이상의 뉴클레오티드를 삽입하는, 복합체.

[17] 상기 [16]에 따르는 복합체를 코딩하는 핵산.

[18] 상기 [16]에 따르는 복합체 또는 상기 [17]에 따르는 핵산을 포함하는, DNA의 표적화된 부위의 개변제(agent for altering).

[19] 세포에서 이본쇄 DNA의 표적화된 부위를 개변하는 방법으로서, 상기 세포에 내재성인 DNA 변형 효소를 유도하는 인자로 상기 세포를 자극하는 단계, 및 제공된 이본쇄 DNA 중의 표적 뉴클레오티드 서열과 특이적으로 결합하는 핵산 서열-인식 모듈을 상기 이본쇄 DNA와 접촉시켜 상기 표적화된 부위의 하나 이상의 뉴클레오티드를 다른 하나 이상의 뉴클레오티드로 변환시키거나 하나 이상의 뉴클레오티드를 결실시키거나, 상기 표적화된 부위에 하나 이상의 뉴클레오티드를 삽입하는 단계를 포함하는, 방법.

본 발명의 DNA 편집에 따르면, DNA의 변형 반응에 외래 인자를 사용하지 않기 때문에, 부작용 위험이 감소된다. 또한, DNA 편집에 사용하는 작제물을 소형화할 수 있기 때문에, 전달 효율의 향상이 가능해진다. 또한, 세포 내재성 DNA 변형 효소를 사용함으로써, 일시적 작용에 의한 활성의 조절이 가능하며, 오프-표적 작용의 위험을 감소시킬 수 있다.

도 1은, 실시예에서 사용한 본 발명의 DNA의 표적화 부위의 개변 방법의 메카니즘의 모식도를 나타낸다. 도 1 중, IFN은 인터페론(항바이러스 인자로서 특정 방어 유전자 발현을 유도하는 인자이다)이고, IFN 유도형의 내재성 데아미나제는 IFN에 의해 발현 유도되는 항바이러스성 데아미나제 그룹(Apobec 등)이고, dVif(Vif 변이체)는 내재성 데아미나제와 결합하는 어댑터 단백질이다.
도 2는, 실시예에서 사용된 DNA 편집용 플라스미드의 모식도를 나타낸다.
도 3은, 실시예에서 사용된 DNA 편집용 플라스미드의 모식도를 나타낸다.

본 발명은, 세포에 내재하는(본 명세서 중, "세포-내재성"이라고도 함) DNA 변형 효소를 사용하여, 상기 세포의 DNA 중의 표적 뉴클레오티드 서열 및 그 근방의 뉴클레오티드를 다른 뉴클레오티드로 변환함으로써, 세포에서 상기 DNA의 상기 표적화된 부위를 개변하는 방법(이하, "본 발명의 방법"이라고도 함)을 제공한다. 본원에서 사용되는 "세포에 내재하는", "세포-내재성"은 그 세포가 선천적으로 갖는 것을 의미한다.

본 발명의 방법은, 세포-내재성 DNA 변형 효소를 유도하는 인자(이하, "DNA 변형 효소 유도인자"라고도 함)로 상기 세포를 자극하는 단계, 및 상기 DNA 중의 표적 뉴클레오티드 서열과 특이적으로 결합하는 핵산 서열-인식 모듈과 DNA 변형 효소-결합 모듈이 서로 결합된 복합체(이하, "본 발명의 복합체"라고도 함)를 상기 세포내에서 상기 DNA와 접촉시킴으로써, 상기 표적화된 부위, 즉 표적 뉴클레오티드 서열 및 그 근방의 뉴클레오티드를 다른 뉴클레오티드로 변환하는 단계를 특징으로 한다.

본 발명에서 DNA의 "개변"은 DNA 쇄 상에 있는 뉴클레오티드(예를 들면, dC)가 다른 뉴클레오티드(예를 들면, dT, dA, dG 또는 dU)로 변환되거나 결실되는 것, 또는 DNA 쇄 상에 있는 뉴클레오티드 사이에 뉴클레오티드 또는 뉴클레오티드 서열이 삽입되는 것을 의미한다. 여기에서, 개변되는 DNA는 세포가 갖는(또는, 세포내에 존재하는) DNA이면 특별히 제한되지 않는다. 이는 세포-내재성 DNA(예를 들면, 염색체 DNA, 미토콘드리아 DNA, 엽록체 DNA; 이하, 이들을 포괄하여 "게놈 DNA"라고도 함)일 수도 있고, 외래 DNA(예를 들면, 세포에 감염된 바이러스 유래의 DNA)일 수도 있다. 또한, 상기 DNA는 일본쇄 DNA 또는 이본쇄 DNA일 수 있지만, 바람직하게는 이본쇄 DNA이다. 이본쇄 DNA로서는, 바람직하게는 게놈 DNA를 들 수 있다. 또한, DNA의 "표적화된 부위"는 핵산 서열-인식 모듈을 특이적으로 인식하고 결합하는 "표적 뉴클레오티드 서열"의 전부 또는 일부, 또는 당해 표적 뉴클레오티드 서열의 근방(5' 상류 및 3' 하류의 어느 한쪽 또는 양쪽)을 의미한다. 또한, "표적 뉴클레오티드 서열"이란 DNA 중의 핵산 서열-인식 모듈이 결합하는 서열을 의미한다.

본 발명에서, "DNA 변형 효소"는 DNA를 변형시킬 수 있는 세포-내재성 효소를 의미하고, 상기 변형에 의해 직접 또는 간접적으로 DNA의 개변이 발생한다. 이러한 DNA 변형 반응의 예는 DNA의 일본쇄 또는 이본쇄를 절단하는 반응(이하, "DNA 쇄 절단 반응"이라고도 함)과, DNA 쇄의 절단을 직접 수반하지 않는 반응인, 핵산 염기의 퓨린 또는 피리미딘 환 위의 치환기를 다른 그룹 또는 원자로 변환하는 반응(이하 "핵산 염기 변환 반응"이라고도 함)(예: 염기의 탈아미노화 반응), DNA의 N-글리코사이드 결합을 가수분해하는 반응(이하 "탈염기 반응"이라고도 함) 등을 포함한다.

본 발명에서, "DNA 변형 효소 유도인자"라 함은 직접 또는 간접적으로 세포-내재성 DNA 변형 효소의 발현을 상승시킬 수 있는 분자, 및/또는 상기 DNA 변형 효소를 활성화할 수 있는 인자(분자, 산소 농도, 광, 자외선, 온도, 산, 알칼리 등의 물리화학적 자극 등을 포함)을 의미한다. 이러한 기능을 갖는 한, 본 발명의 방법에 사용되는 DNA 변형 효소 유도인자에는 특히 제한은 없다. 이의 예는 단백질(펩티드를 포함, 이하 동일.)(예: 전사 인자, 인터페론(IFN), 인터류킨, 미토젠(Mitogen) 등), 저분자 화합물 등을 포함한다. DNA 변형 효소 유도인자는 시판의 것을 사용해도 좋고, 주지의 방법에 의해 생성한 것을 사용해도 좋다.

인터페론(IFN)은 병원체(특히 바이러스), 종양 세포 등의 이물질의 침입에 반응하여 세포가 분비하는 단백질이며, 세포를 IFN로 자극하는 것은 항바이러스 단백질(예: APOBEC(apolipoprotein B mRNA-editing enzyme catalytic polypeptide-like) 패밀리에 속하는 단백질 등)의 발현을 유도한다. 본 발명에 사용하는 인터페론으로는 특별히 한정되지 않지만, I형 인터페론(예: IFN-α, IFN-β, IFN-ω, IFN-ε, IFN-κ), II형 인터페론(예: IFN-γ), III형 인터페론(예: IFN-λ) 등이 있다. 특히, I형 인터페론이 바람직하고, IFN-α 및 IFN-β가 바람직하다. 인터페론은 천연형일 수도 있고 유전자 재조합형일 수도 있거나, 폴리에틸렌 글리콜(PEG) 등의 고분자 물질을 결합시킨 PEG화 인터페론일 수도 있다. 인터페론을 사용하는 경우에는, 숙주 세포와 인터페론의 유래가 되는 생물은 동일한 것이 바람직하다(예를 들면, 인간 세포를 사용하는 경우에는 인간 인터페론을 사용하는 것이 바람직하다.). 또한, IFN 생산을 유도하는 인자를 사용할 수 있다. 이러한 인자의 예는 바이러스 등의 (유사적) 감염, 백신, 외래 DNA와 RNA, 이본쇄 RNA 아날로그(double stranded RNA analog)[poly(I:C)](예를 들면, Trapp S1, et al. (2009) J. Virol, 83 (2): 884-895), 인터페론 유전자의 자극인자(stimulator), TANK 결합 키나제 1(TANK-binding kinase 1) 등을 포함한다.

본 발명에 사용하는 인터류킨의 예는 APOBEC 패밀리에 속하는 단백질(이하 "APOBEC"라고 약칭한다.)(특히, APOBEC3 패밀리에 속하는 단백질(이하 "APOBEC3"로 약칭한다))을 유도할 수 있는, 즉, 상기 단백질의 발현 및/또는 활성을 상승시킬 수 있는 것으로 알려져 있는 IL-2, IL-7, IL-15, IL-27 등을 포함한다.

본 발명에 사용하는 미토겐의 예는 APOBEC(특히 APOBEC3)을 유도할 수 있는 것으로 알려져 있는 포르볼 에스테르(예: 포르볼 미리스테이트 아세테이트(PMA), 피토헤마글루티닌(PHA) 등)(예를 들면, Stopak S. Kim, et al. (2007) J. Biol Chem., 282 (6): 3539-3546; Rose KM1, et al. (2004) J. Biol Chem., 279 (40): 41744-41749) 등을 포함한다.

본 발명에 사용하는 저분자 화합물의 예는 APOBEC(특히, APOBEC3)을 유도할 수 있는 것으로 알려져 있는, JP-A 제2011-231053호 공보에 기재된 화합물 또는 WO 제2016-164889호에 기재된 석신산 데하이드로게나제의 억제제(예: Atpenin A5, 말로네이트, 디아조사이드(DZX), 말레이트 및 옥살로아세테이트, 3-니트로프로피온산, 니토록실, 카복신, TTFA 등) 등을 포함한다.

DNA 변형 효소 유도인자는 이에 한정되지 않고, 당업자는, 표적 DNA 변형 효소의 종류에 따라, 공지의 단백질과 화합물, 물리화학적 자극 등을 적절하게 사용할 수 있다. DNA 변형 효소 유도인자는 1종류만 사용할 수도 있고, 2종류 이상 사용할 수도 있다(예를 들면, 인터페론과 석신산 데하이드로게나제 억제제의 병용, 인터페론과 저산소 조건의 병용 등).

DNA 변형 효소 유도인자로 세포를 자극하는 방법은 특별히 제한되지 않는다. 예를 들면, 세포를 DNA 변형 효소 유도인자의 존재하에 인큐베이팅하는 방법을 들 수 있다. 구체적으로는, 세포를 인큐베이팅하기 위한 배지 또는 완충액 중에 DNA 변형 효소 유도인자를 첨가하거나, 또는 상기 인자가 저산소 등의 물리화학적 자극인 경우에는 당해 자극이 존재하는 조건하에서 세포를 인큐베이팅함으로써 수행할 수 있다. 또한, DNA 변형 효소 유도인자를 코딩하는 핵산(바람직하게는 DNA)를 세포내에 도입하고, 상기 세포내에서 당해 인자를 발현시키는 방법도 들 수 있다.

또한, DNA 변형 효소 유도인자로 세포의 자극을 개시하는 시기에도 특별히 제한은 없고, 예를 들면, 세포내 표적 DNA와 본 발명의 복합체를, 상기 세포에 당해 복합체를 코딩하는 핵산을 도입하여 접촉시키는 경우, 상기 도입 공정의 전, 후 및 동시 중의 어느 하나일 수 있다. 본 발명의 방법에서, DNA 변형 효소 유도인자로 세포를 자극하는 기간을 조정함으로써 DNA의 변형 반응의 기간을 조정할 수 있다. 따라서, DNA의 변형 반응이 일어나고 표적화된 부위의 개변을 고정시키는 데 필요한 기간 동안 DNA 변형 효소 유도인자로 세포를 자극함으로써 숙주 게놈에서 오프-표적 작용의 위험을 회피하면서, 표적 서열 편집을 효율적으로 실현할 수 있다. 세포를 자극하는 기간 조정의 용이성의 관점에서, 상기 세포를 DNA 변형 효소 유도인자의 존재하에서 인큐베이팅하는 방법(예를 들면, DNA 변형 효소 유도인자가 단백질, 저분자 화합물 등인 경우, 배지 또는 완충액에 당해 인자를 첨가하는 방법)이 바람직하다. 배지 또는 완충액에 첨가하는 기간은 숙주 세포의 종류, 인큐베이션 조건, 표적으로 하는 DNA 변형 효소의 종류 등에 따라 상이하다. 개변되는 DNA가 세포-내재성 DNA의 경우에는, 보통 적어도 몇 세대의 세포 분열을 거칠 필요가 있기 때문에, 2-3일 정도는 필요하다고 생각된다. 한편, 변형되는 DNA가 외래 DNA인 경우에는, 일반적으로 세포 분열을 거칠 필요가 없기 때문에, 세포-내재성 DNA의 경우와 비교하여 기간을 단축할 수 있다. 당업자는 사용하는 배양 조건 등에 따라 바람직한 발현 유도 기간을 적절하게 결정할 수 있다.

배지에 첨가하는 DNA 변형 효소 유도인자의 함량은 표적 DNA의 개변이 이루어지는 한 특별히 제한되지 않는다. DNA 변형 효소 유도인자로서 인터페론을 사용하는 경우에는, 바람직하게는 10 내지 100000IU(국제 단위), 보다 바람직하게는 100 내지 20000IU, 더욱 바람직하게는 500 내지 5000IU가 되도록 배지에 첨가할 수 있다. 또한, DNA 변형 효소 유도인자로서 ApteninA5를 사용하는 경우에는, 바람직하게는 0.5μΜ 내지 10μΜ, 더욱 바람직하게는 1μΜ 내지 3μΜ이 되도록 배지에 첨가할 수 있다. 당업자는 사용하는 DNA 변형 효소 유도인자, 세포의 종류, 배양 조건 등에 따라 적합한 함량, 역가 등을 적절히 결정할 수 있다.

한편, DNA 변형 효소 유도인자가 물리화학적 자극인 경우, 바람직한 일례는 저산소 조건이다. 예를 들면, APOBEC 패밀리에 속하는 단백질은 저산소 조건에 노출된 경우에 활성화될 수 있는 것이 보고되어 있다(예를 들면, 국제공개공보 제2016-164889호). 세포를 저산소 조건에 노출하는 방법의 예는 저산소 상태의 분위기하에서 세포를 인큐베이팅하는 방법 등을 포함한다. 여기에서, "저산소 상태"라 함은 대기 중의 산소 농도보다 낮은 산소 농도를 의미한다. 이러한 산소 농도의 예는 15% 이하, 바람직하게는 10% 이하, 보다 바람직하게는 5% 이하, 더욱 바람직하게는 1% 이하이고, 또한 바람직하게는 0.1% 이상이다.

또는, DNA 변형 효소 유도인자를 코딩하는 핵산(바람직하게는 DNA)를 세포내에 도입하고, 상기 세포내에서 당해 인자를 발현시키는 경우, 후술하는 핵산 서열-인식 모듈 및/또는 DNA 변형 효소-결합 모듈을 코딩하는 핵산과 동일한 방식으로 세포내에 도입할 수 있다. DNA 변형 효소 유도인자를 코딩하는 DNA를 사용하는 경우, 상기 DNA를 유도성 조절 영역의 제어하에 두고, 세포를 인큐베이팅하는 배지 또는 완충액으로부터 상기 조절 영역을 활성화할 수 있는 물질을 첨가 및/또는 제거함으로써, 상기 세포내에서 DNA 변형 효소 유도인자의 발현 기간을 조정하고, 이를 통해 DNA의 변형 반응이 일어나는 기간을 조정할 수 있다. 상기 "유도성 조절 영역"으로는, 본 발명의 복합체를 코딩하는 핵산의 발현 조절에 관해서 후술하는 조절 영역을 동일하게 사용할 수 있다.

본 발명에서, "핵산 서열-인식 모듈"이라 함은 DNA 쇄 상의 특정 뉴클레오티드 서열(즉, 표적 뉴클레오티드 서열)을 특이적으로 인식하고 결합하는 능력을 갖는 분자 또는 분자 복합체를 의미한다. 핵산 서열-인식 모듈이 표적 뉴클레오티드 서열에 결합함으로써, 상기 모듈에 연결된 DNA 변형 효소-결합 모듈을 통해, 세포-내재성 DNA 변형 효소가 DNA의 표적화된 부위에 특이적으로 작용하는 것을 가능하게 한다.

본 발명에서, "DNA 변형 효소-결합 모듈"이라 함은 DNA 변형 효소와 결합하는 능력을 갖는 분자 또는 분자 복합체를 의미한다.

본 발명의 복합체는, 상기 핵산 서열-인식 모듈과 DNA 변형 효소-결합 모듈이 연결된 복합체를 포함하여 이루어지고, 특정 뉴클레오티드 서열 인식능 및 세포-내재성 DNA 변형 효소와의 결합능이 부여된 분자 복합체이다. 여기에서, "복합체"는 복수의 분자로 구성된 것뿐만 아니라, 융합 단백질과 같이 핵산 서열-인식 모듈과 DNA 변형 효소-결합 모듈을 단일 분자 내에 갖는 것도 포함된다.

본 발명에서, DNA 변형 효소-결합 모듈의 결합 표적으로서 세포-내재성 DNA 변형 효소(이하 "표적 효소"라고도 함)로서는 특별히 제한은 없다. 이들의 예는 뉴클레아제(예: 엔도뉴클레아제, 엑소뉴클레아제 등), 리콤비나제, DNA 기라제, DNA 폴리머라제, DNA 토포이소머라제, 텔로머라제, 트랜스포사제, 데아미나제, DNA 글리코실라제 등을 포함한다. 세포 독성의 경감의 관점에서, DNA의 개변은 이본쇄 DNA 쇄의 절단 반응이 아니라, 이본쇄 DNA의 적어도 하나의 쇄를 절단하지 않는 반응(예: DNA 상의 핵산 염기 변환 반응과 탈염기 반응)에 의해 실시하는 것이 바람직하다. 핵산 염기 변환 반응과 탈염기 반응을 촉매하는 DNA 변형 효소의 예는 아미노기를 카보닐기로 변환시키는 탈아미노화 반응을 촉매하는, 핵산/뉴클레오티드 아미나제 슈퍼패밀리에 속하는 데아미나제, DNA의 N-글리코사이드 결합의 가수분해를 촉매하는 DNA 글리코실라제(예: 티민 DNA 글리코실라제, 옥소구아닌 글리코실라제, 알킬아데닌 DNA 글리코실라제(예: 효모 3-메틸 아데닌-DNA 글리코실라제(MAG1)) 등) 등을 포함한다. 바람직한 데아미나제의 예는 시토신 또는 5-메틸시토신을 각각 우라실 또는 티민으로 변환할 수 있는 시티딘 데아미나제, 아데닌을 하이포크산틴으로 변환할 수 있는 아데노신 데아미나제, 구아닌을 크산틴으로 변환할 수 있는 구아노신 데아미나제 등을 포함한다. 시티딘 데아미나제로서, 보다 바람직하게는 APOBEC을 들 수 있다. 인간에서, APOBEC으로서는 APOBEC1, APOBEC2, APOBEC3(예: APOBEC3A, APOBEC3B, APOBEC3C, APOBEC3D(APOBEC3E), APOBEC3F, APOBEC3G, APOBEC3H), APOBEC4, 척추동물의 획득 면역에서 면역글로불린 유전자로 돌연변이를 도입하는 효소인 활성화-유도된 시티딘 데아미나제(AID) 등을 포함한다.

본 발명의 방법에 사용되는 DNA 변형 효소-결합 모듈은 상기한 바와 같은 세포-내재성 DNA 변형 효소와 결합할 수 있는 것이면 특별히 제한은 없다. 이의 예는 표적 DNA 변형 효소에 대한 항체, 펩티드 앱타머, 핵산 앱타머, 기타 DNA 변형 효소에 결합하는 단백질 등을 포함한다. DNA 변형 효소-결합 모듈은 표적 DNA 변형 효소의 종류에 따라 적절하게 선택할 수 있다. 이러한 DNA 변형 효소-결합 모듈은 표적 DNA 변형 효소와 결합하는 것으로 공지된 것을 사용할 수 있거나, 하기 설명한 방법에 의해 생성한 분자를 사용할 수도 있다. DNA 변형 효소-결합 모듈을 코딩하는 DNA는 목적 DNA 변형 효소-결합 모듈의 아미노산 서열과 핵산 서열 정보를 바탕으로 적절하게 생성할 수 있다.

본 발명의 방법에 사용되는 항체는 폴리클로날 항체 및 모노클로날 항체의 어느 것일 수도 있고, 항체는 항체 단편(예: F(ab')₂, Fab', Fab, Fv, scFv 등)도 포함된다. 항체는 주지의 면역학적 방법에 의해 제조할 수 있다. 펩티드 앱타머는 아미노산으로 구성되는 앱타머이고, 항체와 마찬가지로, 특정 표적 분자에 결합할 수 있는 펩티드 분자이다. 펩티드 앱타머는 파지 디스플레이 방법과 세포 표면 디스플레이 방법(예를 들면, Whaley, SR, et al. (2000), Nature, 405, 665-668)에 따라 스크리닝 또는 생성할 수 있다. 핵산 앱타머는 RNA, DNA, 변형 뉴클레오티드 또는 이들의 혼합물로 구성된 앱타머이다. 앱타머는 주지의 방법(Ellington et al. (1990), Nature, 346,818-822; Tuerk et al. (1990) Science, 249,505-510)에 따라 스크리닝 및 생성할 수 있다.

DNA 변형 효소에 결합하는 단백질의 예는 APOBEC(특히 APOBEC3)에 결합하는 것으로 공지되어 있는 인간 면역결핍 바이러스(HIV) 및 원숭이 면역결핍 바이러스(SIVmac)의 Vif(Virion Infectivity Factor), 포미(foamy) 바이러스 Bet(Bromodomain and extra-terminal) 단백질, TopoIIβ(Topoisomerase 2-beta), IQGAP2, ZNF335(별칭: NIF1), CD81, MLL, APOBEC3G의 C 말단(196-384번째 아미노산 잔기)(예를 들면, Schumacher, April Jean, Ph.D., UNIVERSITY OF MINNESOTA (2008) 199 pages; 3313466)과, 이들의 단편(이하에서는 특별히 명시하지 않는 한, 단백질은 그 단편도 포함되는 것으로 한다) 등을 포함하지만, 이에 한정되지 않는다. 이러한 단백질은 개변이 실시될 수도 있다(개변된 단백질을 단백질의 "변이체"라고 지칭하는 경우가 있다). 예를 들면, Vif는 E3 유비퀴틴 리가제 복합체와 결합하고 APOBEC3의 단백질분해를 촉진하는 것으로 알려져 있기 때문에(예를 들면, Stanley et al. (2008) Journal of virology, 8656-8663; Guo et al. (2014) Nature, 55, 229-233), Vif를 사용하는 경우에는, APOBEC3 이외의 단백질에 대한 결합성을 결손시키는 개변을 실시하는 것이 바람직하다. 이러한 개변의 예는 Vif 단백질(refseq 번호: AAF20197)의 N 말단에 수개(예를 들면, 11개, 10개, 9개, 8개, 7개 등)의 아미노산을 결실시키고, 145번째 류신 잔기를 다른 아미노산 잔기(예를 들면, 알라닌 잔기)로 치환하는 것 등을 포함하지만, 이러한 개변으로 한정되지 않는다. Vif 이외의 단백질을 사용하는 경우에도, 단백질의 기능, 표적 분자와의 결합 부위, 입체 구조 등에 따라 적절하게 개변을 실시할 수 있다. 상기 단백질의 단편으로는, DNA 변형 효소에 대한 결합 영역을 갖는 한 특별히 제한되지 않는다. 예를 들면, DNA 변형 효소에 대한 결합 영역 이외의 영역(예를 들면, 단백질의 촉매 활성을 갖는 영역)을 제외한 단편 등을 들 수 있다. 이러한 단편의 구체적 예는 TopoIIβ(refseq 번호: NP_001059)의 452 내지 591번째 아미노산 잔기로 이루어진 펩티드, IQGAP2(refseq 번호: NP_006624)의 466 내지 547번째 아미노산 잔기로 이루어진 펩티드, ZNF335(refseq 번호: NP_071378)의 745 내지 893번째 아미노산 잔기로 이루어진 펩티드 등을 포함한다. 이들은 단순한 예시이며, 당업자라면 적절히 단편을 설계할 수 있다. 또한, 후술의 실시예에서 알 수 있는 바와 같이, IQGAP2과 ZNF335를 조합한 경우에도, 표적화된 부위가 개변된다(표 2). 따라서, 상기의 DNA 변형 효소에 결합하는 단백질을 조합하여 사용할 수도 있다.

본 발명에서, "염기 제거 수복"은 생물의 DNA 수복 기구의 하나이며, 염기가 손상된 부분을 효소에 의해 절단하여 다시 조합시키는 것으로, 염기의 손상을 수복하는 기구를 의미한다. 손상된 염기의 제거는 DNA의 N-글리코사이드 결합을 가수분해하는 효소인 DNA 글리코실라제에 의해 수행된다. 당해 효소에 의한 탈염기 반응으로부터 생성된 염기가 없는 부위(apurinic/apyrimidic(AP) site)는 AP 엔도뉴클레아제, DNA 폴리머라제, DNA 리가제 등의 염기 제거 수복(BER) 경로의 하류 효소에 의해 처리된다. 이러한 BER 경로에 관여하는 유전자 또는 단백질의 예는 UNG(NM_003362), SMUG1( NM_014311), MBD4(NM_003925), TDG(NM_003211), OGG1(NM_002542), MYH(NM_012222), NTHL1(NM_002528), MPG(NM_002434), NEIL1(NM_024608), NEIL2(NM_145043), NEIL3(NM_018248), APE1(NM_001641), APE2(NM_014481), LIG3(NM_013975), XRCC1(NM_006297), ADPRT(PARP1)(NM_0016718) ADPRTL2(PARP2)(NM_005484) 등을 포함하지만(괄호 안은 각 유전자(cDNA)의 염기 서열 정보가 등록된 refseq 번호를 나타낸다.), 이에 제한되지 않는다.

본 발명에서, "염기 제거 수복의 억제제"는 상기 BER 경로 중의 어느 하나의 단계를 저해하거나, 해당 BER 경로에 동원되는 분자의 발현 자체를 저해하여, 결과적으로 BER을 저해하는 물질을 의미한다. 본 발명에 사용되는 염기 제거 수복의 억제제는, 결과적으로 BER을 저해하는 것이면 특별히 제한은 없지만, 효율성의 관점에서, BER 경로의 상류에 위치하는 DNA 글리코실라제 억제제가 바람직하다. 본 발명에서 사용되는 DNA 글리코실라제 억제제의 예는 티민 DNA 글리코실라제 억제제, 우라실 DNA 글리코실라제 억제제, 옥소구아닌 DNA 글리코실라제 억제제, 알킬 구아닌 DNA 글리코실라제 억제제 등을 포함하지만, 이에 제한되지 않는다. 예를 들면, DNA 변형 효소-결합 모듈의 표적 효소가 시티딘 데아미나제인 경우에는, 돌연변이에 의해 생성된 DNA의 U:G 또는 G:U 부정합의 수복를 억제하기 위해, 우라실 DNA 글리코실라제 억제제를 사용하는 것이 적합하다.

이러한 우라실 DNA 글리코실라제 억제제의 예는 고초균(Bacillus subtilis) 박테리오파지인 PBS1 유래의 우라실 DNA 글리코실라제 억제제(UGI) 또는 고초균 박테리오파지인 PBS2 유래의 우라실 DNA 글리코실라제 억제제(UGI)를 포함하지만(Wang, Z., and Mosbaugh, DW (1988) J. Bacteriol. 170, 1082-1091), 이에 제한되지 않는다. 상기 DNA의 부정합의 수복 억제제는 본 발명에 사용될 수 있다. 특히, PBS2 유래 UGI는 DNA 상의 C에서 T 이외의 돌연변이, 절단 및 재조합을 유발시키는 것을 어렵게 한다는 효과도 공지되어 있고, 따라서 PBS2 유래 UGI를 사용하는 것이 적합하다.

상술한 바와 같이, 염기 제거 수복(BER) 기구에서, DNA 글리코실라제에 의해 염기가 제거되면, AP 엔도뉴클레아제가 무염기 부위(AP 부위)에 닉을 도입하고, 추가로 엑소뉴클레아제에 의해 AP 부위는 완전히 제거된다. AP 부위가 제거되면, DNA 폴리머라제가 반대측 쇄의 염기를 주형으로 새로운 염기를 생성하고, 마지막으로 DNA 리가제가 닉을 메워 수복이 완료된다. 효소 활성을 상실했지만 AP 부위에 대한 결합능을 보유하고 있는 돌연변이 AP 엔도뉴클레아제는 경쟁적으로 BER을 저해하는 것으로 공지되어 있다. 따라서, 이러한 돌연변이 AP 엔도뉴클레아제도 본 발명의 염기 제거 수복의 억제제로서 사용할 수 있다. 돌연변이 AP 엔도뉴클레아제의 유래는 특별히 제한되지 않지만, 예를 들면, 대장균, 효모, 포유동물(예: 인간, 마우스, 돼지, 소, 말, 원숭이 등) 등 유래의 AP 엔도뉴클레아제를 사용할 수 있다. 예를 들면, 인간 Ape1의 아미노산 서열은 UniprotKB No. P27695로서 참조할 수 있다. 효소 활성을 상실했지만 AP 부위에 대한 결합능을 보유하고 있는 돌연변이 AP 엔도뉴클레아제의 예로는 활성 부위와 보조인자인 Mg 결합 부위가 돌연변이된 단백질을 포함한다. 예를 들면, 인간 Ape1의 경우, E96Q, Y171A, Y171F, Y171H, D210N, D210A, N212A 등을 들 수 있다.

본 발명의 복합체의 핵산 서열-인식 모듈에 의해 인식되는 DNA 중의 표적 뉴클레오티드 서열은 상기 모듈이 특이적으로 결합할 수 있는 한 특별히 제한되지 않고, DNA 중의 임의의 서열일 수 있다. 표적 뉴클레오티드 서열의 길이는 핵산 서열-인식 모듈이 특이적으로 결합하는 데 충분하면 좋다. 표적 DNA의 크기에 따라, 예를 들면, 12 뉴클레오티드 이상, 바람직하게는 15 뉴클레오티드 이상, 보다 바람직하게는 18 뉴클레오티드 이상이다. 길이의 상한은 특별히 제한되지 않지만, 바람직하게는 25 뉴클레오티드 이하, 보다 바람직하게는 22 뉴클레오티드 이하이다.

본 발명의 복합체의 핵산 서열-인식 모듈로는, 예를 들면, Cas의 적어도 하나의 DNA 절단능이 불활성화된 CRISPR-Cas 시스템(이하 "CRISPR-돌연변이 Cas"라고도 함), 징크 핑거 모티프, TAL 이펙터 및 PPR 모티프 등의 다른 제한 효소, 전사 인자, RNA 폴리머라제 등의 DNA와 특이적으로 결합할 수 있는 단백질의 DNA 결합 도메인을 포함하고, DNA 이본쇄 절단능을 갖지 않는 단편 등을 사용할 수 있지만, 상기 모듈은 이에 한정되지 않는다. 바람직하게는, CRISPR-돌연변이 Cas, 징크 핑거 모티프, TAL 이펙터, PPR 모티프 등을 들 수 있다.

징크 핑거 모티프는 Cys2His2형의 상이한 징크 핑거 유닛(1 핑거가 약 3 염기를 인식)을 3 내지 6개 연결시켜 구성하며, 9 내지 18 염기의 표적 뉴클레오티드 서열을 인식할 수 있다. 징크 핑거 모티프는 모듈 조립(Modular assembly) 방법(Nat Biotechnol (2002) 20: 135-141), OPEN 방법(Mol Cell (2008) 31: 294-301), CoDA 방법(Nat Methods (2011) 8: 67-69), 대장균 원-하이브리드(one-hybrid) 방법(Nat Biotechnol (2008) 26: 695-701) 등의 공지의 방법에 의해 제조할 수 있다. 징크 핑거 모티프의 생성에 대한 자세한 내용은 상기 특허 문헌 1을 참조할 수 있다.

TAL 이펙터는 약 34 아미노산을 단위로 한 모듈의 반복 구조를 갖고 있으며, 하나의 모듈의 12 및 13번째 아미노산 잔기(RVD라고도 함)에 의해, 결합 안정성과 염기 특이성이 결정된다. 각 모듈은 독립성이 높기 때문에, 모듈을 단순히 연결하는 것만으로 표적 뉴클레오티드 서열에 특이적인 TAL 이펙터를 생성하는 것이 가능하다. TAL 이펙터는 오픈 리소스를 사용한 생성 방법(REAL 방법(Curr Protoc Mol Biol (2012) Chapter 12: Unit 12.15), FLASH 방법(Nat Biotechnol (2012) 30: 460-465), Golden Gate 방법(Nucleic Acids Res (2011) 39: e82) 등)이 확립되어 있으며, 비교적 간편하게 표적 뉴클레오티드 서열에 대한 TAL 이펙터를 설계할 수 있다. TAL 이펙터의 생성에 대한 자세한 내용은 상기 특허 문헌 2를 참조할 수 있다.

PPR 모티프는, 35 아미노산으로 구성되어 하나의 핵산 염기를 인식하는 PPR 모티프의 연속에 의해 특정 뉴클레오티드 서열을 인식하도록 구성되어 있으며, 각 모티프의 1,4 및 ii(-2)번째 아미노산만으로 표적 염기를 인식한다. 모티프 구성에 의존성은 없고, 양쪽 모티프로부터의 간섭은 없다. 따라서, TAL 이펙터와 마찬가지로, PPR 모티프를 단순히 연결하는 것만으로 표적 뉴클레오티드 서열에 특이적인 PPR 단백질을 생성하는 것이 가능하다. PPR 모티프의 생성에 대한 자세한 내용은 상기 특허 문헌 4를 참조할 수 있다.

또한, 제한 효소, 전사 인자, RNA 폴리머라제 등의 단편을 사용하는 경우, 이러한 단백질의 DNA 결합 도메인은 주지이기 때문에, 해당 도메인을 포함하고 DNA 이본쇄 절단능을 갖지 않는 단편을 용이하게 설계하고 작제할 수 있다.

상기 어느 하나의 핵산 서열-인식 모듈은, 상기 DNA 변형 효소-결합 모듈이 단백질인 경우, 그것과의 융합 단백질로서 제공할 수도 있고, 또는 SH3 도메인, PDZ 도메인, GK 도메인, GB 도메인 등의 단백질 결합 도메인과 그들의 결합 파트너를 핵산 서열-인식 모듈과 DNA 변형 효소-결합 모듈에 각각 융합시켜, 해당 도메인과 결합 파트너와의 상호작용을 통해 단백질 복합체로서 제공할 수 있다. 또는, 핵산 서열-인식 모듈과 DNA 변형 효소-결합 모듈에 각각 인테인(intein)을 융합시켜, 각 단백질 합성 후의 결찰에 의해 양자를 연결하는 것도 가능하다.

핵산 서열-인식 모듈과 DNA 변형 효소-결합 모듈이 결합된 복합체(융합 단백질을 포함한다)을 포함하는 본 발명의 복합체와 DNA와의 접촉은 목적 DNA(예: 게놈 DNA)를 갖는 세포에 당해 복합체를 코딩하는 핵산을 도입하여 실시하는 것이 바람직하다.

따라서, 핵산 서열-인식 모듈과 DNA 변형 효소-결합 모듈은, 그 융합 단백질을 코딩하는 핵산으로서, 또는 결합 도메인과 인테인 등을 사용하여 단백질로 번역 후 숙주 세포 내에서 복합체를 형성할 수 있도록 하는 형태로, 또는 그들을 각각 코딩하는 핵산으로서 제조하는 것이 바람직하다. 여기에서 핵산은 DNA일 수도 있고 RNA일 수도 있지만, 바람직하게는 DNA이다. DNA의 경우, 바람직하게는 이본쇄 DNA이며, 숙주 세포 내에서 기능적 프로모터의 제어하에 배치한 발현 벡터의 형태로 제공된다.

핵산 서열-인식 모듈과 DNA 변형 효소-결합 모듈이 결합된 본 발명의 복합체는 독성이 낮은 DNA 편집이 가능하며, 본 발명의 유전자 개변 방법은 다양한 생물 재료에 적용할 수 있다. 따라서, 핵산 서열-인식 모듈 및/또는 DNA 변형 효소-결합 모듈을 코딩하는 핵산이 도입되는 세포는 원핵생물인 대장균 등의 세균, 하등 진핵생물인 효모 등의 미생물의 세포로부터, 인간 등의 포유동물을 포함한 척추동물, 곤충, 식물 등의 고등 진핵생물의 세포에 이르기까지, 모든 생물종의 세포도 포함할 수 있다.

징크 핑거 모티프, TAL 이펙터, PPR 모티프 등의 핵산 서열-인식 모듈을 코딩하는 DNA는, 각 모듈에 대해 상기 어느 하나의 방법에 의해 수득할 수 있다. 제한 효소, 전사 인자, RNA 폴리머라제 등의 서열-인식 모듈을 코딩하는 DNA는, 예를 들면, 그 cDNA 서열 정보에 따라 해당 단백질의 원하는 부분(즉, DNA 결합 도메인을 포함하는 부분)을 코딩하는 영역을 커버하는 올리고DNA 프라이머를 합성하고, 당해 단백질을 생산하는 세포로부터 제조한 전체 RNA 또는 mRNA 분획을 주형으로 사용하여, RT-PCR 방법에 의해 증폭하여 클로닝할 수 있다.

DNA 변형 효소-결합 모듈, DNA 변형 효소 유도인자 또는 염기 제거 수복 억제제를 코딩하는 DNA도, 동일하게, 사용되는 단백질 등의 cDNA 서열 정보를 바탕으로 올리고DNA 프라이머를 합성하고, 당해 단백질 등으로부터 제조한 전체 RNA 또는 mRNA 분획을 주형으로 사용하여, RT-PCR 방법에 의해 증폭하여 클로닝할 수 있다. 예를 들면, DNA 변형 효소-결합 모듈로서 HIV의 Vif를 사용하는 경우, 상기 단백질을 코딩하는 DNA는, NCBI 데이터베이스에 등록되어 있는 cDNA 서열(수탁 번호 AF200477)을 바탕으로, CDS의 상류 및 하류에 대하여 적당한 프라이머를 설계하고, HIV에 감염된 세포에서 추출한 RNA로부터 RT-PCR 방법에 의해 클로닝할 수 있다.

클로닝된 DNA는, 직접, 또는 목적에 따라 제한 효소로 소화하거나, 적당한 링커 및/또는 핵 국재화 시그날(목적 DNA가 미토콘드리아와 엽록체 DNA의 경우는 각 소기관 국재화 시그날)를 부가한 후, 핵산 서열-인식 모듈을 코딩하는 DNA와 결찰시켜, 융합 단백질을 코딩하는 DNA를 제조할 수 있다. 핵산 서열-인식 모듈과 DNA 변형 효소-결합 모듈을 융합 단백질로서 발현시키는 경우, 예를 들면, 융합 단백질의 양 말단, 또는 핵산 서열-인식 모듈과 DNA 변형 효소-결합 모듈 사이에 핵 국재화 시그날을 부가할 수 있다. 핵 국재화 시그날로서는 특별히 제한은 없지만, 예를 들면, SV40 유래 핵 국재화 시그날(예: 서열번호 7, 서열번호 9)을 들 수 있다.

또는, 핵산 서열-인식 모듈을 코딩하는 DNA, 및 DNA 변형 효소-결합 모듈을 코딩하는 DNA에, 각각 결합 도메인 또는 그 결합 파트너를 코딩하는 DNA를 융합시키거나, 각각의 DNA에 분리 인테인을 코딩하는 DNA를 융합시킴으로써, 핵산 서열-인식 모듈과 DNA 변형 효소-결합 모듈이, 숙주 세포내에서 번역된 후에 복합체를 형성할 수도 있다. 이러한 경우에도, 선택적으로 각각의 DNA의 적당한 위치에 링커 및/또는 핵 국재화 시그날을 연결할 수 있다.

핵산 서열-인식 모듈을 코딩하는 DNA, DNA 변형 효소-결합 모듈을 코딩하는 DNA(및 DNA 변형 효소 유도인자에 의한 세포의 자극을, 당해 인자를 코딩하는 DNA를 상기 세포에 도입하고, 세포에서 유도인자를 코딩하는 DNA를 발현시킴으로써 수행하는 경우, 당해 인자를 코딩하는 DNA; 이하 괄호로 기재하는 경우에도 동일함)는, 화학적으로 DNA 쇄를 합성하거나, 또는 합성한 일부 중첩하는 올리고DNA 단쇄를, PCR 방법 및 깁슨 조립(Gibson Assembly) 방법을 사용하여 연결함으로써 그 전장을 코딩하는 DNA를 작제함으로써 수득할 수 있다. 화학 합성 또는 PCR 방법 또는 깁슨 조립(Gibson Assembly) 방법의 조합으로 전장 DNA를 작제하는 장점은, 상기 DNA를 도입하는 숙주에 맞게 사용 코돈을 CDS 전장에 걸쳐 설계할 수 있다는 점이다. 이종 DNA의 발현에서, 그 DNA 서열을 숙주 생물에서 사용 빈도가 높은 코돈으로 변환함으로써, 단백질 발현량의 증대를 기대할 수 있다. 사용하는 숙주의 코돈 사용 빈도의 데이터는, 예를 들면, 가즈사(Kazusa) DNA 연구소 홈페이지에 공개되어 있는 유전 암호 사용 빈도 데이터베이스(http://www.kazusa.or.jp/codon/index.html)을 사용할 수 있으며, 또는 각 숙주의 코돈 사용 빈도를 기록한 문헌을 참조할 수 있다. 입수한 데이터 및 도입되는 DNA 서열를 참조하고, 상기 DNA 서열에 사용되는 코돈 중에서 숙주에서 사용 빈도가 낮은 코돈을, 동일한 아미노산을 코딩하고 사용 빈도가 높은 코돈으로 변환할 수도 있다. 예를 들면, 숙주 세포가 인간 세포인 경우, 인간의 코돈 사용에 최적화된 핵산 서열-인식 모듈 및/또는 DNA 변형 효소-결합 모듈을 코딩하는 서열을 사용할 수 있다. 염기 제거 수복 억제제를 코딩하는 DNA도 동일하게 작제할 수 있다.

핵산 서열-인식 모듈을 코딩하는 DNA 및/또는 DNA 변형 효소-결합 모듈을 코딩하는 DNA(및/또는 DNA 변형 효소 유도인자를 코딩하는 DNA)을 포함한 발현 벡터는, 예를 들면, 상기 DNA를 적당한 발현 벡터 중의 프로모터의 하류에 연결함으로써 제조할 수 있다. 또한, 상기 발현 벡터는 염기 제거 수복 억제제를 코딩하는 DNA를 포함하도록 하여 제조할 수 있다.

발현 벡터로서는, 대장균 유래 플라스미드(예: pBR322, pBR325, pUC12, pUC13); 고초균 유래의 플라스미드(예: pUB110, pTP5, pC194); 효모 유래 플라스미드(예: pSH19, pSH15); 곤충 세포 발현 플라스미드(예: pFast-Bac); 동물 세포 발현 플라스미드(예: pA1-11, pXT1, pRc/CMV, pRc/RSV, pcDNAI/Neo); λ 파지 등의 박테리오파지; 바큘로바이러스 등의 곤충 바이러스 벡터(예: BmNPV, AcNPV); 레트로바이러스, 우두 바이러스, 아데노바이러스 등의 동물 바이러스 벡터 등이 사용된다.

프로모터로서는, 유전자의 발현에 사용하는 숙주에 적절한 임의의 프로모터를 사용할 수 있다. DSB을 수반하는 종래 방법에서, 독성 때문에 숙주 세포의 생존율이 현저하게 저하될 수 있으므로, 유도 프로모터를 사용하여 유도 개시까지 세포 수를 증가시켜는 것이 바람직하다. 세포-내재성 DNA 변형 효소로서 DSB를 수반하지 않는 효소를 유도하는 경우에는, 본 발명의 복합체를 발현시켜도 충분한 세포 증식이 예상되기 때문에, 구성 프로모터도 또한 제한없이 사용할 수 있다.

예를 들면, 숙주가 동물 세포인 경우, SRα 프로모터, SV40 프로모터, LTR 프로모터, CMV(사이토메갈로바이러스) 프로모터, RSV(라우스 육종 바이러스) 프로모터, MoMuLV(몰로니 마우스 백혈병 바이러스) LTR, HSV-TK(단순포진 바이러스 티미딘 키나제) 프로모터 등이 사용된다. 그 중에서도, CMV 프로모터, SRα 프로모터 등이 바람직하다.

숙주가 대장균인 경우, trp 프로모터, lac 프로모터, recA 프로모터, λP_L 프로모터, lpp 프로모터, T7 프로모터 등이 바람직하다 .

숙주가 바실러스속 세균인 경우, SPO1 프로모터, SPO2 프로모터, penP 프로모터 등이 바람직하다.

숙주가 효모인 경우, Gal1/10 프로모터, PHO5 프로모터, PGK 프로모터, GAP 프로모터, ADH 프로모터 등이 바람직하다.

숙주가 곤충 세포인 경우, 폴리헤드린 프로모터, P10 프로모터 등이 바람직하다.

숙주가 식물 세포인 경우, CaMV35S 프로모터, CaMV19S 프로모터, NOS 프로모터 등이 바람직하다.

발현 벡터는, 필요한 경우, 터미네이터(예: NOS 터미네이터, 완두콩 rbcS3A 터미네이터, 열 충격 단백질(HSP) 17.3 터미네이터 등), 번역 인핸서(예: 벼 유래 알콜 데하이드로게나제 5' 비번역 영역(Os ADH-5' UTR), CaMV와 담배 모자이크 바이러스(TMV) 유래 Ω 서열 등), 3' 조절 영역(예: 벼 유래 액틴 유전자(Act1) 3' UTR 등), 폴리 A 부가 시그날, 약제 내성 유전자(예: G418 내성 유전자(nPtII), 하이그로마이신 내성 유전자(hpt) 등)의 선택 마커 등을 함유할 수 있다.

핵산 서열-인식 모듈을 코딩하는 RNA 및/또는 DNA 변형 효소-결합 모듈을 코딩하는 RNA(및/또는 DNA 변형 효소 유도인자를 코딩하는 RNA)는, 예를 들면, 상기한 핵산 서열-인식 모듈을 코딩하는 DNA 및/또는 DNA 변형 효소-결합 모듈을 코딩하는 DNA(및/또는 DNA 변형 효소 유도인자를 코딩하는 DNA)을 포함한 발현 벡터를 주형으로 사용하여, 자체 공지된 시험관내 전사 시스템에서 mRNA에 전사함으로써 제조할 수 있다. 염기 제거 수복 억제제를 코딩하는 RNA도 유사하게 제조할 수 있다.

핵산 서열-인식 모듈 및/또는 DNA 변형 효소-결합 모듈을 코딩하는 DNA를 포함하는 발현 벡터를 숙주 세포에 도입하고, 당해 숙주 세포를 배양하여 핵산 서열-인식 모듈과 DNA 변형 효소-결합 모듈의 복합체를 세포내에서 발현시킬 수 있다.

숙주로서는, 에스케리키아속 세균, 바실러스속 세균, 효모, 곤충 세포, 곤충, 동물 세포 등이 사용된다.

에스케리키아속 세균으로는, 에스케리키아 콜라이(Escherichia coli) K12·DH1[Proc. Natl. Acad. Sci. USA, 60,160 (1968)], 에스케리키아 콜라이 JM103[Nucleic Acids Research, 9,309 (1981)], 에스케리키아 콜라이 JA221[Journal of Molecular Biology, 120,517 (1978)], 에스케리키아 콜라이 HB101[Journal of Molecular Biology, 41,459 (1969)], 에스케리키아 콜라이 C600[Genetics, 39,440 (1954)] 등이 사용된다.

바실러스속 세균으로는, 바실러스 서브틸리스(Bacillus subtilis) MI114[Gene, 24, 255 (1983)], 바실러스 서브틸리스 207-21[Journal of Biochemistry, 95, 87 (1984)] 등이 사용된다.

효모로는, 사카로마이세스·세레비지에(Saccharomyces cerevisiae ) AH22, AH22R-, NA87-11A, DKD-5D, 20B-12, 시조사카로마이세스 폼베(Schizosaccharomyces pombe) NCYC1913, NCYC2036, 피키아·파스토리스(Pichia pastoris) KM71 등이 사용된다.

곤충 세포로는, 바이러스가 AcNPV인 경우, 스포도프테라 프루기페르다 유래의 주화세포(Spodoptera frugiperda cell; Sf 세포), 트리코플루시아 니(Trichoplusia ni)의 중장 유래의 MG1 세포, 트리코플루시아 니(Trichoplusia ni)의 난 유래 하이 파이브(High Five^TM) 세포, 마메스트라 브라시카에(Mamestra brassicae) 유래 세포, 에스티그메나 아크레아(Estigmena acrea) 유래 세포 등이 사용된다. 바이러스가 BmNPV인 경우, 곤충 세포로는 누에 유래 주화세포(Bombyx mori N 세포; BmN 세포) 등이 사용된다. 상기 Sf 세포로는, 예를 들면, Sf9 세포(ATCC CRL1711), Sf21 세포[이상, In Vivo, 13, 213-217 (1977)] 등이 사용된다.

곤충으로는, 예를 들면, 누에 유충, 초파리, 귀뚜라미 등이 사용된다[Nature, 315,592 (1985)].

동물 세포로는, 원숭이 COS-7 세포, 원숭이 Vero 세포, 차이니즈 햄스터 난소(CHO) 세포, dhfr 유전자 결손 CHO 세포, 마우스 L 세포, 마우스 AtT-20 세포, 마우스 미엘로마 세포, 랫트 GH3 세포, 인간 태아 신장 유래 세포(예: HEK293 세포), 인간 간암 유래 세포(예: HepG2), 인간 FL 세포 등의 세포주, 인간 및 다른 포유동물의 iPS 세포와 ES 세포 등의 다능성 줄기 세포, 다양한 조직에서 제조한 초대 배양 세포가 사용된다. 또한, 제브라 피쉬 배아, 아프리카 발톱 개구리 난모 세포 등을 사용할 수 있다.

식물 세포로는, 각종 식물(예: 벼, 밀, 옥수수 등의 곡물, 토마토, 오이, 가지 등의 상품 작물, 카네이션, 유스토마 루셀리아눔 등의 원예 식물, 담배, 애기 장대 등의 실험 식물 등)로부터 제조한 현탁 배양 세포, 캘러스, 원형질, 잎 절편, 뿌리 절편 등이 사용된다.

상기 어느 숙주 세포는 반수체(일배체)일 수도 있고, 배수체(예: 이배체, 삼배체, 사배체 등)일 수도 있다. 종래의 돌연변이 도입 방법에서, 돌연변이는 원칙적으로 상동 염색체의 1개에만 도입되어 이종 유전자형을 생성한다. 따라서, 우성 돌연변이가 발생하지 않는 한, 원하는 표현형이 발현되지 않고, 호모화하는 것에는 수고와 시간이 들고, 불편함이 많았다. 반면, 본 발명에 의하면, 표적 DNA의 개변을 CRISPR-돌연변이 Cas을 비롯한 핵산 서열-인식 모듈을 사용하는 본 발명의 방법에 의해 실시하는 경우에는, 게놈 내의 상동 염색체 상의 대립유전자 모두에 돌연변이를 도입할 수 있는 가능성이 있기 때문에, 열성 돌연변이도 당대에서 원하는 형질을 발현시킬 수 있으며, 종래 방법의 문제점을 극복할 수 있다.

발현 벡터는, 숙주의 종류에 따라, 공지의 방법(예를 들면, 리소자임 방법, 경쟁 방법, PEG 방법, CaCl₂ 공침전 방법, 전기천공 방법, 마이크로인젝션 방법, 입자 총 방법, 리포펙션 방법, 아그로박테리움 방법 등)에 따라 도입할 수 있다.

대장균은, 예를 들면, 문헌[참조: Proc. Natl. Acad. Sci. USA, 69,2110 (1972) and Gene, 17,107 (1982)] 등에 기재된 방법에 따라 형질전환할 수 있다.

바실러스속 세균은, 예를 들면, 문헌[참조: Molecular & General Genetics, 168,111 (1979)] 등에 기재된 방법에 따라 벡터에 도입할 수 있다.

효모는, 예를 들면, 문헌[참조: Methods in Enzymology 194, 182-187 (1991) Proc. Natl. Acad. Sci. USA, 75,1929 (1978)] 등에 기재된 방법에 따라 벡터에 도입할 수 있다.

곤충 세포 및 곤충은, 예를 들면, 문헌[참조: Bio/Technology, 6, 47-55 (1988)] 등에 기재된 방법에 따라 벡터에 도입할 수 있다.

동물 세포는, 예를 들면, 문헌[참조: Cell Engineering additional volume 8, New Cell Engineering Experiment Protocol, 263-267 (1995) (published by Shujunsha), and Virology, 52, 456 (1973)]에 기재된 방법에 따라 벡터에 도입할 수 있다.

벡터를 도입한 세포는 숙주의 종류에 따라 공지된 방법에 따라 배양할 수 있다.

예를 들면, 대장균 또는 바실러스속 세균을 배양하는 경우, 배양에 사용되는 배지로서는 액체 배지가 바람직하다. 또한, 배지는 형질전환체의 생육에 필요한 탄소원, 질소원, 무기물 등을 함유하는 것이 바람직하다. 탄소원의 예는 글루코즈, 덱스트린, 가용성 전분, 슈크로즈; 질소원의 예는 암모늄염류, 질산염류, 콘 스팁 액체, 펩톤, 카제인, 고기 추출물, 대두박, 포테이토 추출액 등의 무기 또는 유기 물질; 무기물의 예는 염화칼슘, 인산이수소나트륨, 염화마그네슘 등을 각각 포함한다. 또한, 배지에는 효모 추출물, 비타민, 성장 촉진 인자 등을 첨가할 수도 있다. 배지의 pH는 바람직하게는 약 5 내지 약 8이다.

대장균을 배양하는 배지로는, 예를 들면, 글루코즈, 카사미노산을 포함하는 M9 배지[Journal of Experiments in Molecular Genetics, 431-433, Cold Spring Harbor Laboratory, New York 1972]이 바람직하다. 필요에 따라, 프로모터를 효율적으로 기능시키기 위하여, 예를 들면, 3β-인돌릴아크릴산과 같은 약제를 배지에 첨가할 수도 있다. 대장균의 배양은 통상 약 15 내지 약 43℃에서 수행된다. 필요에 따라, 적절한 통기나 교반을 실시할 수도 있다.

바실러스속 세균의 배양은 통상 약 30 내지 40℃에서 수행된다. 필요에 따라, 통기나 교반을 실시할 수도 있다.

효모를 배양하는 배지의 예는 버크홀더(Burkholder) 최소 배지[참조: Proc. Natl. Acad. Sci. USA, 77,4505 (1980)]와 0.5% 카사미노산을 함유하는 SD 배지[참조: Proc. Natl. Acad. Sci. USA, 81,5330 (1984)] 등을 포함한다. 배지의 pH는 바람직하게는 약 5 내지 약 8이다. 배양은 통상 약 20℃ 내지 35℃에서 수행된다. 필요에 따라, 적절한 통기와 교반을 실시할 수도 있다.

곤충 세포 또는 곤충을 배양하는 경우의 배지로서는, 예를 들면, 그레이스 곤충 배지(Grace's Insect Medium)[참조: Nature, 195,788 (1962)]에 불활성화 10% 소 혈청 등의 첨가물을 적절히 첨가한 것 등이 사용된다. 배지의 pH는 바람직하게는 약 6.2 내지 약 6.4이다. 배양은 통상 약 27℃에서 수행된다. 필요에 따라, 통기와 교반을 실시할 수도 있다.

동물 세포를 배양하는 경우의 배지로서는, 예를 들면, 약 5 내지 20% 태소 혈청을 포함하는 최소 필수 배지(MEM)[참조: Science, 122, 501 (1952)], 둘베코(Dulbecco) 변형 이글 배지(DMEM)[참조: Virology, 8,396 (1959)], RPMI 1640 배지[참조: The Journal of the American Medical Association, 199,519 (1967)], 199 배지[참조: Proceeding of the Society for the Biological Medicine, 73,1 (1950)] 등이 사용된다. 배지의 pH는 바람직하게는 약 6 내지 8이다. 배양은 통상 약 30℃ 내지 약 40℃에서 실시된다. 필요에 따라, 통기와 교반을 실시할 수도 있다.

식물 세포를 배양하는 배지로는, 예를 들면, MS 배지, LS 배지, B5 배지 등이 사용된다. 배지의 pH는 바람직하게는 약 5 내지 약 8이다. 배양은 통상 약 20℃ 내지 30℃에서 실시된다. 필요에 따라, 통기나 교반을 수행할 수 있다.

이상과 같이 하여, 핵산 서열-인식 모듈과 DNA 변형 효소-결합 모듈의 복합체, 즉 본 발명의 복합체를 세포내에서 발현시킬 수 있다.

핵산 서열-인식 모듈 및/또는 DNA 변형 효소-결합 모듈을 코딩하는 RNA는 마이크로인젝션 방법, 리포펙션 방법 등에 의해 숙주 세포에 도입할 수 있다. RNA 도입은 1회 또는 적당한 간격을 두어 복수회(예: 2 내지 5회) 반복할 수 있다.

세포내에 도입된 발현 벡터에 의해 핵산 서열-인식 모듈과 DNA 변형 효소-결합 모듈의 복합체가 발현하면, 해당 핵산 서열-인식 모듈이 목적 DNA(예: 게놈 DNA)의 표적 뉴클레오티드 서열을 특이적으로 인식하여 결합한다. 그리고, 해당 핵산 서열-인식 모듈에 연결된 DNA 변형 효소-결합 모듈이 DNA 변형 효소 유도 인자에 의한 자극을 받아 유도된 세포-내재성 DNA 변형 효소와 결합하고, 상기 DNA 변형 효소의 작용에 의해, 표적화된 부위(표적 뉴클레오티드 서열의 전부 또는 일부 또는 그 근방)에서 DNA 쇄 또는 염기의 변형이 일어나는 것으로 생각된다.

표적 DNA가 이본쇄인 경우에는, 표적화된 부위의 센스 쇄 또는 안티센스 쇄에서 DNA의 변형이 일어난다. DNA의 변형이 DNA 쇄의 절단인 경우에는, 염기 제거 수복(BER), 뉴클레오티드 제거 수복(NER), 일본쇄 절단 수복, 비상동 말단 결합(NHEJ), 상동 재조합(HR) 등의 수복 기구에 의해 수복될 때, 다수의 돌연변이가 도입된다. DNA의 변형이 DNA 쇄의 절단을 직접 수반하지 않는 경우에는, 이본쇄 DNA 내에 부정합 또는 염기가 없는 부위(AP 부위)(apurinic/apyrimidic (AP) site)가 발생하고, 이를 수복하는 과정에서 돌연변이가 도입된다. 예를 들면, APOBEC 등의 시티딘 데아미나제에 결합할 수 있는 DNA 변형 효소-결합 모듈을 사용한 경우, 표적화된 부위의 센스 쇄 또는 안티센스 쇄 상의 시토신이 우라실로 변환되고, U:G 또는 G:U 부정합을 유발한다. 이 부정합이 정확하게 수복되지 않을 때, 반대측 쇄의 염기가, 변환한 쇄의 염기와 쌍을 형성하도록 수복되거나(상기의 예에서는 T=A 또는 A=T), 수복시에 또 다른 뉴클레오티드로 치환(예를 들면, U → A, G), 또는 1 내지 수십개 염기의 결실 또는 삽입을 발생시킴으로써 다양한 돌연변이가 도입된다. 예를 들면, DNA 글리코실라제에 결합할 수 있는 DNA 변형 효소-결합 모듈을 사용한 경우, 표적화된 부위의 센스 쇄 또는 안티센스 쇄에서 탈염기 반응이 일어나고, 이본쇄 DNA의 한쪽 쇄에 무염기 부위(AP 부위)가 발생한다. 이어서, 세포 내의 염기 제거 수복(BER) 시스템이 작동하고, 먼저 AP 엔도뉴클레아제가 AP 부위를 인식하여 DNA 단쇄의 인산 결합을 절단하고, 엑소뉴클레아가 탈염기시킨 뉴클레오티드를 제거한다. 이어서, DNA 폴리머라제가 반대측 쇄 DNA를 주형으로 하여 새로운 뉴클레오티드를 삽입하고, 최후로 DNA 리가제가 연결부를 수복한다. 이 BER 중의 어느 하나의 단계에서 수복 오류가 발생함으로써 다양한 돌연변이가 도입된다.

징크 핑거 모티프는, 표적 뉴클레오티드 서열에 특이적으로 결합하는 징크 핑거의 생성 효율이 높지 않고, 또한 결합 특이성이 높은 징크 핑거의 선별이 복잡하기 때문에, 실제로 기능하는 징크 핑거 모티프를 다수 생성하는 것은 쉽지 않다. TAL 이펙터 및 PPR 모티프는, 징크 핑거 모티프에 비해 표적 핵산 서열 인식의 자유도가 높지만, 표적 뉴클레오티드 서열에 따라 거대 단백질을 그때마다 설계하고, 작제할 필요가 있기 때문에, 효율면에서 문제가 남는다.

이에 대해, CRISPR-Cas 시스템은, 표적 뉴클레오티드 서열에 대하여 상보적 가이드 RNA에 의해 목적의 DNA 서열을 인식하므로, 표적 뉴클레오티드 서열과 특이적으로 하이브리드를 형성할 수 있는 올리고DNA를 합성하는 것만으로, 임의의 서열을 표적화할 수 있다.

따라서, 본 발명의 더 바람직한 실시양태에서, 핵산 서열-인식 모듈로서, Cas 이펙터 단백질의 적어도 하나의 DNA 절단능이 불활성화된 CRISPR-Cas 시스템인 CRISPR-돌연변이 Cas가 사용된다.

CRISPR-돌연변이 Cas를 사용한 본 발명의 핵산 서열-인식 모듈은, 표적 뉴클레오티드 서열과 상보적 서열을 포함하는 CRISPR-RNA(crRNA), 필요에 따라, 돌연변이 Cas 이펙터 단백질의 동원에 필요한 트랜스-활성화(trans-activating) RNA(tracrRNA)(tracrRNA이 필요한 경우, crRNA와의 키메라 RNA로서 제공될 수 있다), 돌연변이 Cas 이펙터 단백질과의 복합체로서 제공된다. 돌연변이 Cas 이펙터 단백질과 조합하여 핵산 서열-인식 모듈을 구성하는, crRNA 단독 또는 crRNA와 tracrRNA와의 키메라 RNA로 이루어진 RNA 분자를 "가이드 RNA"라고 총칭한다. DNA 변형 효소-결합 모듈로서 핵산 앱타머를 사용하는 경우, 핵산 앱타머는 가이드 RNA와 결합하는 것이 바람직하다. 가이드 RNA와 핵산 앱타머가 결합된 핵산은 주지의 방법(예를 들면, Mali et al. (2013), Nat Biotech nol 31 (9), 833-838)에 따라 제조할 수 있다.

본 발명에서 사용되는 Cas 이펙터 단백질은, 가이드 RNA와 복합체를 형성하여, 목적 유전자 중의 표적 뉴클레오티드 서열과 그에 인접한 프로토스페이서 인접 모티프(protospacer adjacent motif)(PAM)을 인식하고 결합할 수 있는 부류 2 CRISPR 시스템에 속하는 이펙터 단백질인 한, 특별히 제한은 없지만, 바람직하게는 Cas9 또는 Cpf1이다. Cas9의 예는 스트렙토콕쿠스 피오게네스(Streptococcus pyogenes) 유래 Cas9(SpCas9; PAM 서열(5'→ 3' 방향; 이하 동일) NGG(N은 A, G, T 또는 C. 이하 동일)), 스트렙토콕쿠스 써모필루스(Streptococcus thermophilus) 유래 Cas9(StCas9; PAM 서열 NNAGAAW), 나이세리아·메닝기티디스(Neisseria meningitidis) 유래 Cas9(MmCas9; PAM 서열 NNNNGATT) 등을 포함하지만, 이에 한정되지 않는다. 바람직하게는 PAM에 의한 제약이 적은 SpCas9이다(실질 2 염기이고, 이론상 게놈 상의 거의 어디서나 표적화할 수 있다). 또한, Cpf1의 예는 프란시셀라·노비시다(Francisella novicida) 유래 Cpf1(FnCpf1; PAM 서열 TTN), 악시다미노콕쿠스 종(Acidaminococcus sp.) 유래 Cpf1(AsCpf1; PAM 서열 TTTN), 락크노스리라세아에 세균(Lachnospiraceae bacterium) 유래 Cpf1(LbCpf1; PAM 서열 TTTN) 등을 포함하지만, 이에 한정되지 않는다. 본 발명에서 사용되는 돌연변이 Cas 이펙터 단백질(이하 "돌연변이 Cas"라고 약칭하는 경우가 있다)로서는, Cas 이펙터 단백질의 이본쇄 DNA의 양쪽 쇄의 절단능이 불활성화된 것과, 한쪽 쇄의 절단능만을 불활성화시킨 닉카제 활성을 갖는 것의 어느 것도 사용 가능하다. 예를 들면, SpCas9의 경우, 10번째 Asp 잔기가 Ala 잔기로 변환한, 가이드 RNA와 상보성 쇄를 형성하는 쇄의 반대측 쇄의 절단능을 결여하는(따라서, 가이드 RNA와 상보성 쇄를 형성하는 쇄에 대한 닉카제 활성을 갖는) D10A 돌연변이체, 또는 840번째 His 잔기가 Ala 잔기로 변환한, 가이드 RNA와 상보성 쇄를 형성하는 쇄의 절단능을 결여하는(따라서, 가이드 RNA와 상보성 쇄를 형성하는 쇄의 반대측 쇄에 대한 닉카제 활성을 갖는) H840A 돌연변이체, 추가로 그 이중 돌연변이체(dCas9)를 사용할 수 있다. 또한, FnCpf1의 경우, 917번째 Asp 잔기가 Ala 잔기(D917A)로, 또는 1006번째 Glu 잔기가 Ala 잔기(E1006A)로 변환하고 양쪽 쇄의 절단능을 결여하는 변이체를 사용할 수 있다. 이본쇄 DNA의 적어도 한쪽 쇄의 절단능을 결여하는 한, 다른 돌연변이 Cas도 유사하게 사용할 수 있다.

DNA 변형 효소-결합 모듈은, 상기 징크 핑거 등과의 연결 양식과 동일한 방법에 의해 돌연변이 Cas의 복합체로서 제공된다. 또는, DNA 변형 효소-결합 모듈 및 돌연변이 Cas를, RNA 앱타머인 MS2F6, PP7 등과 그들과의 결합 단백질에 의한 RNA 스캐폴드를 사용하여 결합시킬 수도 있다. 가이드 RNA 중의 표적화 서열이 표적 뉴클레오티드 서열과 상보성 쇄를 형성하고, 가이드 RNA 중의 다른 영역(즉, crRNA 중의 표적화 서열 이외의 서열 또는 crRNA에 계속하는 tracrRNA)에 돌연변이 Cas가 동원되어 PAM을 인식한다. 한쪽 또는 양쪽의 DNA를 절단할 수 없으며, 돌연변이 Cas에 연결된 DNA 변형 효소-결합 모듈의 작용에 기인하여, 표적화된 부위(표적 뉴클레오티드 서열의 전부 또는 일부를 포함하는 수백 염기의 범위 내에서 적절하게 조절할 수 있다)에서 염기 변환이 일어나고, 이본쇄 DNA에서 부정합이 일어난다. 부정합이 정확하게 수복되지 않고, 반대측 쇄의 염기가, 변환한 쇄의 염기와 쌍을 형성하도록 수복되거나, 수복할 때에 또 다른 뉴클레오티드로 변환, 또는 1 내지 수십 염기의 결실 또는 삽입을 발생시키는 경우, 다양한 돌연변이가 도입된다.

CRISPR-돌연변이 Cas를 핵산 서열-인식 모듈로서 사용하는 경우, 징크 핑거 등을 핵산 서열-인식 모듈로서 사용하는 경우와 마찬가지로, 핵산 서열-인식 모듈과 DNA 변형 효소-결합 모듈은, 그들을 코딩하는 핵산(바람직하게는 DNA)의 형태로, 목적 DNA를 갖는 세포에 도입하는 것이 바람직하다.

　Cas 이펙터 단백질(예: Cas9, Cpf1)을 코딩하는 DNA는, DNA 변형 효소-결합 모듈을 코딩하는 DNA에 대해 상기한 바와 동일한 방법으로 상기 단백질을 생산하는 세포에서 클로닝할 수 있다. 또한, 돌연변이 Cas는, 클론화된 Cas을 코딩하는 DNA에, 자체 공지된 부위 특이적 돌연변이 유발법을 사용하여, DNA 절단 활성에 중요한 부위의 아미노산 잔기(예: SpCas9의 경우, 10번째 Asp 잔기와 840번째 His 잔기, FnCpf1의 경우, 917번째 Asp 잔기, 1006번째 Glu 잔기 및 1255번째 Asp 잔기 등을 들 수 있으나, 이에 한정되지 않음)을 다른 아미노산으로 변환하도록 돌연변이를 도입함으로써 수득할 수 있다. 또한, 화학 합성 또는 PCR 방법 또는 깁슨 조립(Gibson Assembly) 방법과 조합하여 전장 DNA를 작제함으로써, 상기 DNA를 도입하는 숙주에 따라 사용 코돈을 CDS 전장에 걸쳐 설계할 수 있다. 예를 들면, 이러한 돌연변이가 도입된, 인간 세포에서의 발현에 적합한 코돈 사용을 갖는 SpCas9 DNA로서, 서열번호 4로 표시되는 뉴클레오티드 서열을 갖는 DNA를 들 수 있다.

수득된 돌연변이 Cas을 코딩하는 DNA 및/또는 DNA 변형 효소-결합 모듈을 코딩하는 DNA는, 숙주 세포에 따라, 상기와 동일한 발현 벡터의 프로모터의 하류에 삽입할 수 있다. 발현 벡터는, 상술한 바와 같이, 필요한 경우, 터미네이터, 번역 인핸서, 3' 조절 영역, 폴리 A 부가 시그날, 약제 내성 유전자 등의 선택 마커 등을 함유할 수 있다.

한편, 가이드 RNA를 코딩하는 DNA는, 표적 뉴클레오티드 서열에 대하여 상보성 뉴클레오티드 서열(본 명세서 중, "표적화 서열(targeting sequence)"이라고도 함)를 포함하는, crRNA 서열(예를 들면, Cas 이펙터 단백질로서 FnCpf1을 동원하는 경우, 표적화 서열의 5' 측에 서열번호 10; AAUUUCUACUGUUGUAGAU를 포함하는 crRNA을 사용할 수 있으며, 밑줄 부분의 서열이 서로 염기쌍을 형성하는 스템-루프 구조를 취한다)의 코드 서열, 또는 crRNA 코드 서열과 필요에 따라 기존의 tracrRNA 코드 서열(예를 들면, Cas 이펙터 단백질로서 Cas9을 동원하는 경우, tracrRNA 코드 서열로서, gttttagagctagaaatagcaagttaaaataaggctagtccgttatcaacttgaaaaagtggca ccgagtcggtgc; 서열번호 11)를 연결한 올리고DNA 서열을 설계하고, DNA/RNA 합성 장치를 사용하여, 화학적으로 합성할 수 있다. 표적 DNA가 이본쇄의 경우, crRNA 서열은 표적 뉴클레오티드 서열의 "표적 쇄(targeted strand)"에 대해 상보적 뉴클레오티드 서열을 포함한다.

여기에서 "표적 쇄"는 표적 뉴클레오티드 서열의 crRNA와 하이브리드를 형성하는 것의 쇄를 의미하고, 그 반대측 쇄로 표적 쇄와 crRNA과의 하이브리드 형성에 의해 일본쇄 상으로 되는 쇄를 "비표적 쇄(non-targeted strand)"라고 부르기로 한다. DNA의 변형 반응은 일반적으로 일본쇄로 된 비표적 쇄 상에서 일어나는 경우가 많다고 추정되므로, 표적 뉴클레오티드 서열을 한쪽 쇄로 표현하는 경우(예를 들면, PAM 서열을 표기하거나, 표적 뉴클레오티드 서열과 PAM과의 위치 관계를 나타내는 경우 등), 비표적 쇄의 서열로 표시하는 것으로 한다.

표적 서열의 길이는 표적 뉴클레오티드 서열에 대해 특이적으로 결합할 수 있는 한 특별히 제한은 없지만, 예를 들면, 15 내지 30 뉴클레오티드, 바람직하게는 18 내지 25 뉴클레오티드이다. 표적 뉴클레오티드 서열의 선택은, 상기 서열의 3' 측(Cas9의 경우) 또는 5' 측(Cpf1의 경우)에 인접하는 PAM의 존재에 의해 제한되지만, 효모 등의 연구 결과에 따르면, CRISPR-돌연변이 Cas9과 시티딘 데아미나제를 조합한 시스템에서는, 표적 뉴클레오티드 서열의 길이에 관계없이, 그 5' 말단에서 3' 방향으로 7 뉴클레오티드 이내의 위치에 있는 C를 치환시키는 것이 용이하다는 규칙성이 있기 때문에, 표적 뉴클레오티드 서열의 길이를 적절히 선택함으로써(이의 상보성 쇄로 서열을 표적화 함으로써), 돌연변이를 도입할 수 있는 염기 부위를 변화시킬 수도 있다. 따라서, PAM(SpCas9에서는 NGG)에 의한 제약을 적어도 부분적으로 제거할 수 있고, 돌연변이 도입의 자유도가 한층 더 높아질 것으로 기대된다.

표적 서열의 설계는, 예를 들면, Cas 이펙터 단백질로서 Cas9를 사용하는 경우, 공개 가이드 RNA 설계 웹사이트(CRISPR Design Tool, CRISPRdirect 등)을 사용하여, 목적 유전자의 CDS 서열 중에서 PAM(예: SpCas9의 경우, NGG)을 3' 측에 인접하는 20머 서열을 리스팅 업하고, 그의 5' 말단에서 3' 방향으로 7 뉴클레오티드 이내의 C를 T로 변환한 경우에, 목적 유전자가 코딩하는 단백질에 아미노산 변화를 발생하도록 서열을 선택하여 수행할 수 있다. 또한, 표적 서열의 길이를, 예를 들면, 18 내지 25 뉴클레오티드의 범위에서 변화시킨 경우, 마찬가지로, 그의 5' 말단에서 3' 방향으로 7 뉴클레오티드 이내로 T로의 염기 변환에 의해 아미노산 변화가 발생하는 C가 존재하는 서열을 선택한다. 이들 후보 중에서, 숙주의 게놈 중의 오프-표적 부위 수가 적은 후보 서열을 표적 서열로 사용할 수 있다. 사용하는 가이드 RNA 설계 소프트웨어에 숙주의 게놈의 오프-표적 부위를 검색하는 기능이 없는 경우, 예를 들면, 후보 서열의 3' 측의 8 내지 12 뉴클레오티드(표적 뉴클레오티드 서열의 식별능이 높은 시드 서열)에 대하여, 숙주의 게놈에 대해 블라스트(Blast) 검색을 적용함으로써, 오프 표적 부위를 검색할 수 있다.

가이드 RNA(예 crRNA 또는 crRNA-tracrRNA 키메라)를 코딩하는 DNA는, 표적 뉴클레오티드 서열의 표적 쇄에 대해 상보적 서열과, 공지된 tracrRNA 서열(Cas9을 동원하는 경우) 또는 crRNA의 직접 반복 서열(Cpf1을 동원하는 경우)을 연결한 올리고RNA 서열을 설계하고, DNA/RNA 합성 장치를 사용하여, 화학적으로 합성하여 수득할 수 있다. 가이드 RNA를 코딩하는 DNA도 상기와 동일한 발현 벡터에 삽입할 수 있지만, 프로모터로서는 pol III 시스템의 프로모터(예: SNR6, SNR52, SCR1, RPR1, U3, U6, H1 프로모터 등) 및 터미네이터(예: 폴리 T 서열(T₆ 서열; tttttt 등))을 사용하는 것이 바람직하다.

돌연변이 Cas를 코딩하는 DNA, DNA 변형 효소-결합 모듈을 코딩하는 DNA, 가이드 RNA를 코딩하는 DNA는, 숙주에 따라, 상기와 동일한 방법으로 숙주 세포에 도입할 수 있다.

본 발명자들은, 데아미나제와 핵산 서열-인식 모듈의 복합체를 사용한 게놈 편집(이하 "Target AID"라고 칭하는 경우가 있다.)(특허 문헌 5)에서, 상이한 쇄를 절단하는 2종의 닉카제 활성을 갖는 돌연변이 Cas의 효과를 비교한 결과, 한편으로는 돌연변이 부위가 표적 뉴클레오티드 서열의 중앙 부근에 집중한 반면, 다른 한편으로는 표적 뉴클레오티드 서열로부터 수백 염기에 걸친 영역에 다양한 돌연변이가 무작위로 도입된 것을 보고하고 있으며, 본 발명에 있어서도 동일한 효과를 기대할 수 있다. 따라서, 닛카제가 절단하는 쇄를 선택함으로써, 특정 뉴클레오티드 또는 뉴클레오티드 영역에 핀 포인트로 돌연변이를 도입하거나, 또는 비교적 넓은 범위에 다양한 돌연변이를 무작위로 도입할 수 있게 되어, 목적에 따라 구분할 수 있다. 예를 들면, 전자의 기술을 유전자 질환 iPS 세포에 응용하면, 환자 자신의 세포에서 생성한 iPS 세포에서 병원성 유전자의 돌연변이를 수복한 후, 목적 체세포로 분화시킴으로써, 거절의 위험이 보다 감소된 세포 이식 요법제를 생성하는 것이 가능해진다.

본 발명자들은 또한, Target AID에서, 근접하는 복수의 표적 뉴클레오티드 서열에 대해 서열-인식 모듈을 생성하고, 동시에 사용함으로써, 단독 뉴클레오티드 서열을 표적으로 하는 것보다, 돌연변이 도입 효율이 크게 상승하는 것을 출아 효모를 사용하여 확인하고, 본 발명에 있어서도 동일한 효과를 기대할 수 있다. 그 효과는, 두 표적 뉴클레오티드 서열의 일부가 중복하는 경우, 양자가 600bp 정도 떨어져 있는 경우에도 마찬가지로 돌연변이 유도를 실현한다. 또한, 표적 DNA가 이본쇄 DNA의 경우에는, 표적 뉴클레오티드 서열이 동일한 방향(즉, 표적 쇄가 동일한 쇄 상에 있다)인 경우와, 대향하는(즉, 이본쇄 DNA의 양쪽 쇄가 표적 쇄로 되는) 경우에서 모두 일어날 수 있다.

또한, 완전히 상이한 위치의 복수의 DNA 영역을 표적으로 하여 개변하는 것도 가능하다. 따라서, 본 발명의 바람직한 한 가지 실시형태에서, 상이한 표적 뉴클레오티드 서열(예를 들면, 표적 DNA가 세포-내재성 DNA의 경우에는 하나의 목적 유전자 내일 수도 있고, 상이한 2 이상의 목적 유전자 내일 수도 있다.)와 각각 특이적으로 결합하는, 2종 이상의 핵산 서열-인식 모듈을 사용할 수 있다. 이 경우, 이러한 핵산 서열-인식 모듈의 각각 하나와 DNA 변형 효소-결합 모듈이 복합체를 형성한다. 여기에서, DNA 변형 효소-결합 모듈은 공통의 것을 사용할 수 있다. 예를 들면, 핵산 서열-인식 모듈로서 CRISPR-Cas 시스템을 사용하는 경우, Cas 이펙터 단백질과 DNA 변형 효소-결합 모듈의 복합체(융합 단백질을 포함)은 공통의 것을 사용하고, 가이드 RNA로서, 상이한 표적 뉴클레오티드 서열과 각각 상보성 쇄를 형성하는 2 이상의 crRNA의 각각을 포함하는 2종 이상의 가이드 RNA를 생성하여 사용할 수 있다. 한편, 핵산 서열-인식 모듈로서 징크 핑거 모티프와 TAL 이펙터 등을 사용하는 경우에는, 예를 들면, 상이한 표적 뉴클레오티드와 특이적으로 결합하는 각 핵산 서열-인식 모듈에 DNA 변형 효소-결합 모듈을 융합시킬 수 있다.

본 발명의 복합체를 숙주 세포내에서 발현시키기 위해, 상술한 바와 같이, 핵산 서열-인식 모듈을 코딩하는 DNA와, DNA 변형 효소-결합 모듈을 코딩하는 DNA를 포함하는 발현 벡터(양 DNA는 별도의 벡터에 있을 수도 있고, 단일 벡터에 있을 수 있다), 또는 각 모듈을 코딩하는 RNA를 숙주 세포에 도입한다. 효율적으로 돌연변이를 도입하기 위해, 일정 기간 이상, 일정 수준 이상으로 본 발명의 복합체의 발현을 유지하는 것이 바람직하다. 이러한 관점에서, 숙주 세포내에서 자율 복제가능한 발현 벡터(예: 플라스미드 등)을 도입하는 것이 확실할 수 있다. 그러나, 상기 플라스미드 등은 외래 DNA이기 때문에, 성공적으로 돌연변이 도입이 달성된 후에는, 신속하게 제거하는 것이 바람직하다. 따라서, 숙주 세포의 종류 등에 따라 변동하지만, 예를 들면, 발현 벡터 도입으로부터 6시간 내지 2일 경과한 후에, 당해 기술분야에서 공지된 다양한 플라스미드 제거법을 사용하여, 숙주 세포로부터 도입한 플라스미드를 제거하는 것이 바람직하다.

한편, 숙주 게놈 DNA에 도입된 외래 DNA를 제거하기 위한 수단의 예는 Cre-loxP 시스템을 사용하는 방법이나 트랜스포손을 사용하는 방법 등을 포함한다.

　또는, 돌연변이 도입에 충분한 본 발명의 복합체의 발현이 수득되는 한, 숙주 세포내에서 자율 복제능을 갖지 않는 발현 벡터(예를 들면, 숙주 세포에서 기능하는 복제 기점 및/또는 복제에 필요한 단백질을 코딩하는 유전자를 결여하는 벡터 등) 또는 RNA를 사용하여, 일시적으로 발현시킴으로써 목적 DNA에 돌연변이를 도입하는 것도 바람직하다.

또는, 원하는 시기에 DNA의 변형 반응이 일어나고, 표적화된 부위의 개변이 고정되는 데 필요한 기간에만, 일시적으로 본 발명의 복합체를 숙주 세포내에서 발현시킴으로써, 오프-표적 작용의 위험을 회피하면서 숙주 DNA의 편집을 효율적으로 실현할 수 있다. DNA의 변형 반응이 일어나고, 표적화된 부위의 개변이 고정되는 데 필요한 기간은, 상기한 DNA 변형 효소 유도인자로 세포를 자극하는 기간과 동일하게 적절하게 결정할 수 있다. 본 발명의 복합체를 코딩하는 핵산의 발현 유도 기간은, 숙주 세포에 바람직하지 않은 부작용을 일으키지 않는 범위에서, 상기 기간을 초과하여 연장시킬 수도 있다.

본 발명의 복합체를, 원하는 시기에 원하는 기간 동안, 일시적으로 발현시키는 수단으로서, 상기 복합체를 코딩하는 DNA[즉, 핵산 서열-인식 모듈을 코딩하는 DNA(CRISPR-Cas 시스템에서는 가이드 RNA를 코딩하는 DNA와, 돌연변이 Cas을 코딩하는 DNA를 의미한다), 및 DNA 변형 효소-결합 모듈을 코딩하는 DNA(CRISPR-Cas 시스템에서는, DNA 변형 효소-결합 모듈을 코딩하는 DNA는 해당 모듈이 단백질 또는 RNA인지에 의해 각각 돌연변이 Cas을 코딩하는 DNA 또는 가이드 RNA를 코딩하는 DNA와 연결될 수도 있다)을, 해당 복합체의 발현 기간을 제어가능한 형태로 포함하는 작제물(발현 벡터)를 생성하고, 숙주 세포내로 도입하는 방법을 들 수 있다. "발현 기간을 제어가능한 형태"로서는, 구체적으로는, 본 발명의 복합체를 코딩하는 DNA를, 유도성의 조절 영역의 제어하에 두는 것을 들 수 있다. "유도성의 조절 영역"은 특별히 제한되지 않지만, 예를 들면, 세균(예: 대장균) 또는 효모 등의 미생물 세포에서는 온도 감수성(ts) 돌연변이 리프레서 및 이를 제어하는 오퍼레이터와의 오페론을 들 수 있다. ts 돌연변이 리프레서로서는, 예를 들면, λ 파지 유래의 cI 리프레서의 ts 돌연변이체를 들 수 있으나, 이에 한정되지 않는다. λ 파지 cI 리프레서(ts)의 경우, 30℃ 이하(예: 28℃)에서는 오퍼레이터에 결합하여 하류의 유전자 발현을 억제하고 있지만, 37℃ 이상(예: 42℃)의 고온에서는 오퍼레이터로부터 분리하기 때문에 유전자 발현이 유도된다. 따라서, 본 발명의 복합체를 코딩하는 DNA를 도입한 숙주 세포를, 일반적으로 30℃ 이하에서 배양하고, 적절한 시기에 온도를 37℃ 이상으로 상승시켜 일정 기간 배양하여 본 발명의 복합체를 발현시키고, 당해 복합체에 동원된 세포-내재성 DNA 변형 효소에 의해 DNA의 변형 반응을 수행하고, 표적 유전자에 돌연변이가 도입된 후에는, 즉시 30℃ 이하로 복원함으로써, 표적 유전자의 발현이 억제되는 기간을 최소화할 수 있다. 따라서, 숙주 세포에 대한 필수 유전자를 표적화하는 경우에도, 부작용을 억제하면서 효율적으로 편집할 수 있다.

온도 감수성 돌연변이를 사용하는 경우, 예를 들면, 벡터의 자율 복제에 필요한 단백질의 온도 감수성 돌연변이체를, 본 발명의 복합체를 코딩하는 DNA를 포함하는 벡터에 탑재하여, 상기 복합체의 발현 후, 즉시 자율 복제할 수 없으며, 세포 분열에 따라 상기 벡터는 자연스럽게 탈락한다. 이러한 온도 감수성 돌연변이 단백질로서는 pSC101 ori의 복제에 필요한 Rep101 ori의 온도 감수성 변이체를 들 수 있지만, 이에 한정되지 않는다. Rep101 ori(ts)는 30℃ 이하(예: 28℃)에서는 pSC101 ori에 작용하여 플라스미드의 자율 복제를 가능하게 하지만, 37℃ 이상(예: 42℃)으로 되면 기능을 상실하여, 플라스미드는 자율 복제할 수 없게 된다. 따라서, 상기 λ 파지의 cI 리프레서(ts)와 병용하는 것으로, 본 발명의 복합체의 일시적 발현 및 플라스미드 제거를 동시에 수행할 수 있다 .

한편, 동물 세포, 곤충 세포, 식물 세포 등의 고등 진핵 세포를 숙주 세포로 하는 경우에는, 본 발명의 복합체를 코딩하는 DNA를 유도 프로모터(예: 메탈로티오네인 프로모터(중금속 이온으로 유도), 열 충격 단백질 프로모터(열 충격으로 유도), Tet-ON/Tet-OFF 시스템 프로모터(테트라사이클린 또는 그 유도체의 첨가 또는 제거로 유도), 스테로이드 응답성 프로모터(스테로이드 호르몬 또는 그 유도체로 유도) 등)의 제어하에 숙주 세포에 도입하고, 적절한 시기에 배지에 유도 물질을 첨가(또는 배지로부터 제거)하여 상기 복합체의 발현을 유도하고, 일정 기간 배양하여 상기 복합체에 동원된 세포-내재성 DNA 변형 효소에 의해 DNA의 변형 반응을 수행하고, 표적 유전자에 돌연변이가 도입된 후, 상기 유도 물질을 배지로부터 제거(또는 배지에 첨가)함으로써, 본 발명의 복합체의 일시적 발현을 실현할 수 있다.

또한, 대장균 등의 원핵 세포에서도, 유도 프로모터를 사용할 수 있다. 이러한 유도 프로모터로서는, 예를 들면, lac 프로모터(IPTG 유도), cspA 프로모터(콜드 쇼크로 유도), araBAD 프로모터(아라비노즈로 유도) 등을 들 수 있으나, 이에 한정되지 않는다.

또는, 상기 유도 프로모터를, 동물 세포, 곤충 세포, 식물 세포 등의 고등 진핵 세포를 숙주 세포로 하는 경우의 벡터 제거 기구로서 사용할 수도 있다. 즉, 벡터에 숙주 세포에서 기능하는 복제 기점과 그 복제에 필요한 단백질을 코딩하는 핵산(예를 들면, 동물 세포이면, SV40 ori와 라지 T 항원, oriP과 EBNA-1 등)을 탑재시켜, 상기 단백질이 코딩하는 핵산의 발현를 상기 유도 프로모터에 의해 제어함으로써 유도 물질 존재하에서는 벡터는 자율 복제 가능하지만, 유도 물질을 제거하면 자율 복제할 수 없게 되며, 세포 분열에 따라, 벡터는 자연스럽게 탈락한다(Tet-OFF 시스템 벡터에서는 반대로 테트라사이클린이나 독시사이클린의 첨가에 의해 자율 복제할 수 없게 된다.)

본 발명자들의 연구에 따르면, DNA 변형 효소 유도인자를 사용하여 세포-내재성 DNA 변형 효소의 발현 및 활성을 충분히 상승시키면, DNA 변형 효소-결합 모듈을 사용하지 않고도, 핵산 서열-인식 모듈만을 사용하여 표적 DNA를 개변할 수 있는 경우가 있다. 어떠한 이론에도 구속되는 것을 바라지 않지만, 가능성이 있는 메카니즘으로서, 핵산 서열-인식 모듈이 결합할 때에 발생하는 표적 부위의 이중 나선 구조의 변형으로, 충분한 양으로 존재하는 상기 DNA 변형 효소가 접촉할 수 있는 빈도가 증가하고, 표적 부위에 작용하여 목적 DNA를 개변하는 것으로 생각된다.

따라서, 본 발명의 다른 양태에서, 세포에서 DNA의 표적화된 부위를 개변하는 방법으로서, 상기 세포에 내재성인 DNA 변형 효소를 유도하는 인자로 해당 세포를 자극하는 것, 및 선택된 이본쇄 DNA 중의 표적 뉴클레오티드 서열과 특이적으로 결합하는 핵산 서열-인식 모듈을, 상기 이본쇄 DNA와 접촉시킴으로써, 당해 표적화된 부위의 하나 이상의 뉴클레오티드를 다른 하나 이상의 뉴클레오티드로 변환 또는 결실시키거나, 당해 표적화된 부위에 하나 이상의 뉴클레오티드를 삽입하는 단계를 포함하는 방법이 제공된다.

이하, 본 발명을 실시예에 의해 설명한다. 그러나, 본 발명은 이러한 실시예에 한정되는 것은 아니다.

실시예

1. 벡터 작제

1-1. Cas9, nCas9, nCas9-dVif, dVif-nCas9 또는 nCas9-PmCDA1 발현 벡터

실시예에서 사용된 DNA 편집용 플라스미드 벡터의 개요를 도 1에 나타냈다. pNeo 벡터를 기반으로 하여, 인간 태아 신장 유래 세포(HEK293T 세포)로의 형질감염에 의해 유전자 도입을 수행하여 플라스미드 벡터를 작제했다. 플라스미드 벡터로서, 하이포크산틴-구아닌 포스포리보실-트랜스페라제(HPRT) 유전자의 Exon6을 표적으로 한 1907c(Cas9), 1907n(nCas9-PmCDA1), 1907n-cugi(nCas9-PmCDA1-UGI), 1921(nCas9), 1923(nCas9-dVif), 1924(dVif-nCas9) 및 대조군으로서 pNeo을 사용했다. 1907c(Cas9), 1907n(nCas9-PmCDA1), 1907n-cugi(nCas9-PmCDA1-UGI) 및 1921(nCas9)는, 비특허 문헌 3에서 사용된 벡터를 기초로, 가이드 RNA의 표적 서열을, HPRT 유전자의 엑손 6의 개시점에서 24번째 내지 43번째 서열(aatgcagactttgctttcct: 서열번호 12)(부위 3)로 변경하는 것에 의해 작제했다. nCas9(D10A)를 코딩하는 DNA로서, 서열번호 4로 표시되는 염기 서열로 이루어진 DNA를 사용했다. 1923(nCas9-dVif), 1924(dVif-nCas9)은 다음과 같이 생성했다. 첫째, 1921(nCas9)에 대해 제한 효소 부위의 추가 및 불필요한 서열의 제거를 수행한 벡터 1922을 작제했다(서열번호 13). HIV의 dVif 단편은, 데이터베이스 상의 Vif 서열인 GenBank: AF200477.1을 참조했다. 상기 서열의 ORF의 28 내지 576 염기에 대해, 433-435번째 염기(CTA)을 GCT로 개변함으로써, L145A 돌연변이가 도입된 인공 유전자(염기 서열을 서열번호 1에, 아미노산 서열을 서열번호 2에 나타낸다. 또한, 5' 측에 AvrII의 인식 부위를 부가하고, 3' 측에 NheI의 인식 부위를 부가한 염기 서열을 서열번호 3에 나타낸다.)을 합성하고, 1922에 대하여 제한 효소 절단과 결찰에 의해 삽입하여, 1923(nCas9-dVif) 및 1924(dVif-nCas9)을 생성했다. 도 2는, 생성된 벡터 1923(nCas9-dVif) 및 1924(dVif-nCas9)의 모식도를 나타낸다.

상기 벡터를 HEK293T 세포에 도입하고, 세포 내에서 발현시킴으로써 crRNA-tracrRNA과 Cas9, nCas9, nCas9-dVif, dVif-nCas9 또는 nCas9-PmCDA1과의 복합체를 형성시켰다.

1-2. UGI-nCas9-dVif, dVif-nCas9-UGI, TopBv2(TopoIIβ 이소형 2)-nCas9, nCas9-IQGAP2 _466-547 -ZNF335 _745-893 또는 nCas9-PmCDA1-UGI 발현 벡터

1-1.의 단계를 참고하여, HPRT 유전자의 특정 영역을 표적으로 한(표적 서열 (부위 1): tcgagatgtgatgaaggaga; 서열번호 27), 벡터 1923-2(UGI-nCas9-dVif: 서열번호 28), 벡터 1924-2(dVif-nCas9-UGI: 서열번호 29), 벡터 1931(TopBv2_452-591-nCas9: 서열번호 30) 및 벡터 1932(nCas9-IQGAP2_466-547-ZNF335_745-893: 서열번호 31)를 생성하고, 또한 비교 실험용으로 벡터 1907(nCas9-PmCDA1-UGI: 서열번호 32)를 생성했다. TopBv2, IQGAP2 및 ZNF335의 단편을 코딩하는 염기 서열은 각각 데이터베이스 상의 서열인 refseq 번호: NM_001068, NM_006633 및 NM_022095를 참조하여 설계했다. 도 3에, 생성된 벡터 1923-2, 1924-2, 1931 및 1932의 모식도를 나타낸다. UGI을 코딩하는 염기 서열 및 UGI의 아미노산 서열을 각각 서열번호 19 및 20에, TopBv2_452-591을 코딩하는 염기 서열 및 TopBv2_452-591의 아미노산 서열을 각각 서열번호 21 및 22에, IQGAP2_466-547을 코딩하는 염기 서열 및 IQGAP2_466-547의 아미노산 서열을 각각 서열번호 23 및 24에, ZNF335_745-893을 코딩하는 염기 서열 및 ZNF335_745-893의 아미노산 서열을 각각 서열번호 25 및 26에 나타낸다.

2. 세포주·배양·형질전환·발현 유도

2-1. 1-1의 벡터의 도입 시스템

상기 1-1의 벡터를 사용한 실험은 다음 단계를 수행했다. 인간 태아 신장 유래 세포(HEK293T 세포)를 사용했다. 세포를, 100㎍/mL 페니실린-스트렙토마이신(Life Technologies, Carlsbad, CA, USA) 및 10% 태아 소 혈청(FBS)(Biosera, Nuaille, France)를 첨가한 DME-글루타맥스 배지(Thermo Fisher Scientific, USA)를 사용하여, 37℃, 5% CO₂ 조건에서 배양했다. 세포의 회수는 5% 트립신을 사용했다.

냉동고에서 보존한 HEK293T 세포를 37℃의 수욕에 용해시키고, 5×10⁶ 세포로 되도록 75 T-플라스크에 파종했다. 1-3일간 배양한 후에 세포를 회수하고, 0.5×10⁵ 세포/웰로 되도록 24 웰 플레이트의 각 웰에 파종했다. 1-3일 배양 후에 60-80% 합류 상태의 각 웰의 세포에 대해, 약 1㎍의 상기 각 플라스미드 DNA를 3㎕의 리포펙타민 2000(Life Technologies, Carlsbad, USA)를 사용하여 형질감염시켰다. 형질감염 5시간 후에 G418(0.125mg/mL)(InvivoGen, USA)와 인터페론 α(IFNα)(2000 IU)(Takara Bio) 또는 인터페론 γ(2000 IU)(PeproTech, Inc.)를 포함하는 배지로 교환했다. 대조군으로서, G418만을 포함하는 배지를 사용했다.

2-2. 1-2의 벡터의 도입 시스템

상기 1-2의 벡터를 사용한 실험에서는 다음 단계를 수행했다. 세포(HEK293 또는 HepG2)를 1×10⁵ 세포/웰로 되도록 24 웰 플레이트의 각 웰에 파종하고, 하룻밤 배양했다. 이어서, FugeneHD(Promega)을 사용하여 형질감염(DNA 1㎍/웰, FugeneHD 1.5㎕/웰)시키고, 16시간 후에 배지를 교환했다. 이 때, HEK293의 경우는, OPTI-MEM로부터, DMEM+10% FBS+P/S(페니실린-스트렙토마이신)+퓨로마이신(1㎍/ml)+/-IFNα(10000U/ml)로 교환하고, HepG2의 경우는, OPTI-MEM로부터, DMEM+10% FBS+P/S+1% NEAA(비필수 아미노산)+퓨로마이신(1㎍/ml)+/-IFNα(10000U/ml)로 교환했다. 6일간 퓨로마이신에 의한 선택을 계속했다. 이 때, 48시간마다 배지를 교환했다.

3. 서열 분석

3-1. 1-1의 벡터의 도입 시스템

상기 2-1에 의해 회수한 세포는 다음 단계에 따라 게놈 DNA를 추출하고, 서열 분석을 실시했다. 서열 분석을 위해, 배양 3일 후에 각 세포를 회수하고, 게놈 DNA를 추출했다. 추출한 게놈 DNA를 주형으로 하여 HPRT 유전자의 Exon6을 표적으로 한 전방 프라이머(5'-ATTCCAGAATATCTCCATGTAGATTTTGGT-3': 서열번호 14) 및 역방향 프라이머(5'-AATTCCAGGAGGTCCAGATCTTCAGGGCCC-3': 서열번호 15)를 사용하여 표적 영역을 증폭시켰다. 증폭된 DNA 단편을 주형으로 하여 전방 프라이머(5'-TCTTTCCCTACACGACGCTCTTCCGATCTATTCCAGAATATCTCCATGTAGATTTTGGT-3': 서열번호 16) 및 역방향 프라이머(5'-GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTTAGGCAAGGAAGTGACTGTAATTATGAGC-3': 서열번호 17)를 사용하여, NGS 분석용 어댑터를 부가한 약 300bp의 증폭 단편을 수득했다. 각 샘플에 인덱스 서열을 부가한 후에, MiSeq Reagent Kit v3 및 MiSeq 서열분석 시스템(Illumina)을 사용하여 쌍형성-종료에 의한 딥 서열분석을 수행했다. 분석에는 CLC Genomics Workbench 7.0(Filgen)을 사용했다. 결과를 표 1에 나타낸다. 표 중, indel은 삽입 결실을 나타내고, 숫자는 뉴클레오티드의 치환 비율(%)을 나타낸다. nCas9과 dVif의 복합체를 발현시킨 세포를, 인터페론의 존재하에서 배양한 경우에, 삽입 결실 및/또는 염기 치환이 발생하고, 염기 치환의 대부분은 시토신으로부터 티민으로의 치환이었다. 또한, 삽입 결실 및 염기 치환 비율은 외인성 데아미나제를 사용한 종래의 방법(Target-AID)과 동일한 정도였다. 또한, 표 중의 핵산 염기의 19번째 T와 20번째 C에서, 염기의 치환이 다수 확인되었지만, pNeo에서도 치환이 높은 빈도로 확인되었으므로, 이들 돌연변이는 서열 에러인 것으로 생각된다.

3-2. 1-2의 벡터의 도입 시스템

상기 2.2에 의해 회수한 세포는 다음 단계에 따라 게놈 DNA를 추출하고, 서열분석을 수행했다. HEK293 세포는 6일 시점에서 회수하고, HepG2 세포는 48시간의 회복 배양 후에 회수하고, NucleoSpin Tissue XS(Takara Bio Inc)를 사용하여 게놈 DNA를 추출했다. 1차 PCR(DNA 폴리머라제: KOD FX NEO(Toyobo) 프라이머 세트: 전방 프라이머(5'-TTTGGTACTTGTTCAGCTTTATTCAAGTGG-3': 서열번호 33); 역방향 프라이머(5'-ACAATAGCTCTTCAGTCTGATAAAATCTAC-3': 서열번호 34))을 실시하여, 전기영동으로 밴드를 확인하고, Exo/Sap(Thermo Fisher Scientific)를 사용하여 정제하고, 1100bp의 증폭 단편을 수득했다. 이어서, 정제 후의 PCR 산물을 주형으로 하여, 2차 PCR(DNA 폴리머라제: KOD FX NEO 프라이머 세트: 전방 프라이머(5'-TCTTTCCCTACACGACGCTCTTCCGATCT TAGGACTGAACGTCTTGCTC-3': 서열번호 35); 역방향 프라이머(5'-GTGACTGGAGTTCAGA CGTGTGCTCTTCCGATCT CAGTCATAGGAATGGATCTATCAC-3': 서열번호 36))을 실시하여, 전기영동으로 밴드를 확인하고, Exo/Sap을 사용하여 정제하고, 220bp의 증폭 단편을 수득했다. 또한, 정제 후의 PCR 산물을 주형으로 하여, 3차 PCR(Q5 DNA 폴리머라제(New England Biolabs) 프라이머 세트: 서열번호 14 및 15)를 실시하여, AMPure XP(Beckman Coulter)를 사용하여 정제하고, NGS 분석용 어댑터를 부가한 약 150bp의 증폭 단편을 수득했다. AMPure XP를 사용하여 정제한 후의 샘플을 물티나(Multina)(SHIMADZU Corporation)로 밴드 확인했다. 샘플을 물티나(Multina)로 수득한 밴드(농도)를 참고로 풀링하고, Qubit(Thermo Fisher Scientific)를 사용하여 샘플의 농도를 측정하고, 샘플을 10nM로 되도록 희석하고, 10nM인 것을 Qubit로 확인했다. 10nM의 샘플을 1nM로 희석하고, 1nM의 샘플을 변성 처리했다. 그 후, 1.5pM로 되도록 희석했다. 0.4nM PhiX(Illumina)를 변성 처리하고, 그 후 1.5pM로 되도록 희석했다. 500㎕의 샘플(1.5pM)와 100㎕의 PhiX(1.5pM)를 혼합하고, 카트리지에 적용했다. Miniseq(Illumina)를 개시하고, 서열분석을 실시했다. 결과를 표 2에 나타낸다. 표 중, indel은 삽입 결실을 나타내고(그러나, 표 2에서는 indel은 검출되지 않았다), 숫자는 뉴클레오티드의 치환 비율(%)을 나타낸다. UGI, nCas9 및 dVif 복합체를 발현시킨 HEK293 세포를 인터페론의 존재하에서 배양한 경우에, 시토신으로부터 티민으로의 염기 치환이 발생했다. 마찬가지로, nCas9와, TopBv2 또는 IQGAP2 및 ZNF335의 복합체를 발현시킨 세포를 인터페론의 존재하에서 배양한 경우에, 시토신으로부터 티민으로의 염기 치환이 발생했다. 또한, UGI, nCas9 및 dVif의 복합체를 발현시킨 HepG2 세포를 인터페론의 존재하에서 배양한 경우에, 시토신으로부터 티민으로의 염기 치환이 발생했다. HepG2 세포를 사용한 경우에는, 염기 치환의 비율은 외인성 데아미나제를 사용한 종래의 방법(Target-AID)과 동일한 정도였다.

본 출원은 일본에서 출원된 특허출원 제2017-056727호(출원일: 2017년 3월 22일)을 기초로 하고 있으며, 그 내용은 본 명세서에 모두 포함되는 것이다.

산업상 이용가능성

본 발명에 의해, DNA의 개변 반응에서 외래의 효소를 사용하지 않기 때문에 안전하고, 게다가 DNA 편집에 사용하는 작제물의 소형화에 의해 전달 효율이 향상된 DNA 편집이 가능해져 매우 유용하다.

SEQUENCE LISTING <110> NATIONAL UNIVERSITY CORPORATION KOBE UNIVERSITY <120> METHOD FOR CONVERTING NUCLEIC ACID SEQUENCE OF CELL SPECIFICALLY CONVERTING NUCLEIC ACID BASE OF TARGETED DNA USING CELL ENDOGENOUS DNA MODIFYING ENZYME, AND MOLECULAR COMPLEX USED THEREIN <130> IPA191237-JP <150> JP 2017-056727 <151> 2017-03-22 <160> 37 <170> PatentIn version 3.5 <210> 1 <211> 549 <212> DNA <213> Human immunodeficiency virus <220> <221> CDS <222> (1)..(549) <220> <221> misc_difference <222> (406)..(408) <223> artificial mutation <400> 1 gtg tgg caa gta gac agg atg agg att aga aca tgg aac agt tta gta 48 Val Trp Gln Val Asp Arg Met Arg Ile Arg Thr Trp Asn Ser Leu Val 1 5 10 15 aaa cat cac atg tat atc tca aag aaa gca aaa aat tgg ttt tat aga 96 Lys His His Met Tyr Ile Ser Lys Lys Ala Lys Asn Trp Phe Tyr Arg 20 25 30 cat cac ttt gaa agc agt cat cca aga gta agt tca gaa gta cac atc 144 His His Phe Glu Ser Ser His Pro Arg Val Ser Ser Glu Val His Ile 35 40 45 cca cta ggg gat gct aga tta gta gta aga aca tat tgg ggt ctg cat 192 Pro Leu Gly Asp Ala Arg Leu Val Val Arg Thr Tyr Trp Gly Leu His 50 55 60 aca gga gaa aaa gat tgg cac ttg ggt aat ggg gtg tcc ata gaa tgg 240 Thr Gly Glu Lys Asp Trp His Leu Gly Asn Gly Val Ser Ile Glu Trp 65 70 75 80 aga cta aga aga tat agc aca caa ata gat cct gac ctg gca gac caa 288 Arg Leu Arg Arg Tyr Ser Thr Gln Ile Asp Pro Asp Leu Ala Asp Gln 85 90 95 cta att cat ctg cat tat ttt aat tgt ttt tca gac tct gcc ata agg 336 Leu Ile His Leu His Tyr Phe Asn Cys Phe Ser Asp Ser Ala Ile Arg 100 105 110 aaa gcc ata tta gga caa gta gtt aga cct aga tgt gac tat caa gca 384 Lys Ala Ile Leu Gly Gln Val Val Arg Pro Arg Cys Asp Tyr Gln Ala 115 120 125 gga cat aac aag gta gga tct gct caa tat ttg gca ctg aaa gca tta 432 Gly His Asn Lys Val Gly Ser Ala Gln Tyr Leu Ala Leu Lys Ala Leu 130 135 140 gta aca cca gta agg aca agg cca cct ttg cct agt gtt agg aaa tta 480 Val Thr Pro Val Arg Thr Arg Pro Pro Leu Pro Ser Val Arg Lys Leu 145 150 155 160 gca gag gac aga tgg aac aag ccc cag aaa acc agg ggt ccc aga ggg 528 Ala Glu Asp Arg Trp Asn Lys Pro Gln Lys Thr Arg Gly Pro Arg Gly 165 170 175 agc cat aca atg aat gga cat 549 Ser His Thr Met Asn Gly His 180 <210> 2 <211> 183 <212> PRT <213> Human immunodeficiency virus <400> 2 Val Trp Gln Val Asp Arg Met Arg Ile Arg Thr Trp Asn Ser Leu Val 1 5 10 15 Lys His His Met Tyr Ile Ser Lys Lys Ala Lys Asn Trp Phe Tyr Arg 20 25 30 His His Phe Glu Ser Ser His Pro Arg Val Ser Ser Glu Val His Ile 35 40 45 Pro Leu Gly Asp Ala Arg Leu Val Val Arg Thr Tyr Trp Gly Leu His 50 55 60 Thr Gly Glu Lys Asp Trp His Leu Gly Asn Gly Val Ser Ile Glu Trp 65 70 75 80 Arg Leu Arg Arg Tyr Ser Thr Gln Ile Asp Pro Asp Leu Ala Asp Gln 85 90 95 Leu Ile His Leu His Tyr Phe Asn Cys Phe Ser Asp Ser Ala Ile Arg 100 105 110 Lys Ala Ile Leu Gly Gln Val Val Arg Pro Arg Cys Asp Tyr Gln Ala 115 120 125 Gly His Asn Lys Val Gly Ser Ala Gln Tyr Leu Ala Leu Lys Ala Leu 130 135 140 Val Thr Pro Val Arg Thr Arg Pro Pro Leu Pro Ser Val Arg Lys Leu 145 150 155 160 Ala Glu Asp Arg Trp Asn Lys Pro Gln Lys Thr Arg Gly Pro Arg Gly 165 170 175 Ser His Thr Met Asn Gly His 180 <210> 3 <211> 573 <212> DNA <213> Artificial Sequence <220> <223> Vif variant construct <400> 3 cctaggggta ccgaaatggt gtggcaagta gacaggatga ggattagaac atggaacagt 60 ttagtaaaac atcacatgta tatctcaaag aaagcaaaaa attggtttta tagacatcac 120 tttgaaagca gtcatccaag agtaagttca gaagtacaca tcccactagg ggatgctaga 180 ttagtagtaa gaacatattg gggtctgcat acaggagaaa aagattggca cttgggtaat 240 ggggtgtcca tagaatggag actaagaaga tatagcacac aaatagatcc tgacctggca 300 gaccaactaa ttcatctgca ttattttaat tgtttttcag actctgccat aaggaaagcc 360 atattaggac aagtagttag acctagatgt gactatcaag caggacataa caaggtagga 420 tctgctcaat atttggcact gaaagcatta gtaacaccag taaggacaag gccacctttg 480 cctagtgtta ggaaattagc agaggacaga tggaacaagc cccagaaaac caggggtccc 540 agagggagcc atacaatgaa tggacatgct agc 573 <210> 4 <211> 4116 <212> DNA <213> Artificial Sequence <220> <223> Cas9 codon-optimized for human. <220> <221> CDS <222> (1)..(4116) <400> 4 atg gac aag aag tac tcc att ggg ctc gmt atc ggc aca aac agc gtc 48 Met Asp Lys Lys Tyr Ser Ile Gly Leu Xaa Ile Gly Thr Asn Ser Val 1 5 10 15 ggt tgg gcc gtc att acg gac gag tac aag gtg ccg agc aaa aaa ttc 96 Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe 20 25 30 aaa gtt ctg ggc aat acc gat cgc cac agc ata aag aag aac ctc att 144 Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile 35 40 45 ggc gcc ctc ctg ttc gac tcc ggg gag acg gcc gaa gcc acg cgg ctc 192 Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu 50 55 60 aaa aga aca gca cgg cgc aga tat acc cgc aga aag aat cgg atc tgc 240 Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys 65 70 75 80 tac ctg cag gag atc ttt agt aat gag atg gct aag gtg gat gac tct 288 Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser 85 90 95 ttc ttc cat agg ctg gag gag tcc ttt ttg gtg gag gag gat aaa aag 336 Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys 100 105 110 cac gag cgc cac cca atc ttt ggc aat atc gtg gac gag gtg gcg tac 384 His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr 115 120 125 cat gaa aag tac cca acc ata tat cat ctg agg aag aag ctt gta gac 432 His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp 130 135 140 agt act gat aag gct gac ttg cgg ttg atc tat ctc gcg ctg gcg cat 480 Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His 145 150 155 160 atg atc aaa ttt cgg gga cac ttc ctc atc gag ggg gac ctg aac cca 528 Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro 165 170 175 gac aac agc gat gtc gac aaa ctc ttt atc caa ctg gtt cag act tac 576 Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr 180 185 190 aat cag ctt ttc gaa gag aac ccg atc aac gca tcc gga gtt gac gcc 624 Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala 195 200 205 aaa gca atc ctg agc gct agg ctg tcc aaa tcc cgg cgg ctc gaa aac 672 Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn 210 215 220 ctc atc gca cag ctc cct ggg gag aag aag aac ggc ctg ttt ggt aat 720 Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn 225 230 235 240 ctt atc gcc ctg tca ctc ggg ctg acc ccc aac ttt aaa tct aac ttc 768 Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe 245 250 255 gac ctg gcc gaa gat gcc aag ctt caa ctg agc aaa gac acc tac gat 816 Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp 260 265 270 gat gat ctc gac aat ctg ctg gcc cag atc ggc gac cag tac gca gac 864 Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp 275 280 285 ctt ttt ttg gcg gca aag aac ctg tca gac gcc att ctg ctg agt gat 912 Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp 290 295 300 att ctg cga gtg aac acg gag atc acc aaa gct ccg ctg agc gct agt 960 Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser 305 310 315 320 atg atc aag cgc tat gat gag cac cac caa gac ttg act ttg ctg aag 1008 Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys 325 330 335 gcc ctt gtc aga cag caa ctg cct gag aag tac aag gaa att ttc ttc 1056 Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe 340 345 350 gat cag tct aaa aat ggc tac gcc gga tac att gac ggc gga gca agc 1104 Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser 355 360 365 cag gag gaa ttt tac aaa ttt att aag ccc atc ttg gaa aaa atg gac 1152 Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp 370 375 380 ggc acc gag gag ctg ctg gta aag ctt aac aga gaa gat ctg ttg cgc 1200 Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg 385 390 395 400 aaa cag cgc act ttc gac aat gga agc atc ccc cac cag att cac ctg 1248 Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu 405 410 415 ggc gaa ctg cac gct atc ctc agg cgg caa gag gat ttc tac ccc ttt 1296 Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe 420 425 430 ttg aaa gat aac agg gaa aag att gag aaa atc ctc aca ttt cgg ata 1344 Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile 435 440 445 ccc tac tat gta ggc ccc ctc gcc cgg gga aat tcc aga ttc gcg tgg 1392 Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp 450 455 460 atg act cgc aaa tca gaa gag acc atc act ccc tgg aac ttc gag gaa 1440 Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu 465 470 475 480 gtc gtg gat aag ggg gcc tct gcc cag tcc ttc atc gaa agg atg act 1488 Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr 485 490 495 aac ttt gat aaa aat ctg cct aac gaa aag gtg ctt cct aaa cac tct 1536 Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser 500 505 510 ctg ctg tac gag tac ttc aca gtt tat aac gag ctc acc aag gtc aaa 1584 Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys 515 520 525 tac gtc aca gaa ggg atg aga aag cca gca ttc ctg tct gga gag cag 1632 Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln 530 535 540 aag aaa gct atc gtg gac ctc ctc ttc aag acg aac cgg aaa gtt acc 1680 Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr 545 550 555 560 gtg aaa cag ctc aaa gaa gac tat ttc aaa aag att gaa tgt ttc gac 1728 Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp 565 570 575 tct gtt gaa atc agc gga gtg gag gat cgc ttc aac gca tcc ctg gga 1776 Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly 580 585 590 acg tat cac gat ctc ctg aaa atc att aaa gac aag gac ttc ctg gac 1824 Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp 595 600 605 aat gag gag aac gag gac att ctt gag gac att gtc ctc acc ctt acg 1872 Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr 610 615 620 ttg ttt gaa gat agg gag atg att gaa gaa cgc ttg aaa act tac gct 1920 Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala 625 630 635 640 cat ctc ttc gac gac aaa gtc atg aaa cag ctc aag agg cgc cga tat 1968 His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr 645 650 655 aca gga tgg ggg cgg ctg tca aga aaa ctg atc aat ggg atc cga gac 2016 Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp 660 665 670 aag cag agt gga aag aca atc ctg gat ttt ctt aag tcc gat gga ttt 2064 Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe 675 680 685 gcc aac cgg aac ttc atg cag ttg atc cat gat gac tct ctc acc ttt 2112 Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe 690 695 700 aag gag gac atc cag aaa gca caa gtt tct ggc cag ggg gac agt ctt 2160 Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu 705 710 715 720 cac gag cac atc gct aat ctt gca ggt agc cca gct atc aaa aag gga 2208 His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly 725 730 735 ata ctg cag acc gtt aag gtc gtg gat gaa ctc gtc aaa gta atg gga 2256 Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly 740 745 750 agg cat aag ccc gag aat atc gtt atc gag atg gcc cga gag aac caa 2304 Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln 755 760 765 act acc cag aag gga cag aag aac agt agg gaa agg atg aag agg att 2352 Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile 770 775 780 gaa gag ggt ata aaa gaa ctg ggg tcc caa atc ctt aag gaa cac cca 2400 Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro 785 790 795 800 gtt gaa aac acc cag ctt cag aat gag aag ctc tac ctg tac tac ctg 2448 Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu 805 810 815 cag aac ggc agg gac atg tac gtg gat cag gaa ctg gac atc aat cgg 2496 Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg 820 825 830 ctc tcc gac tac gac gtg gat smt atc gtg ccc cag tct ttt ctc aaa 2544 Leu Ser Asp Tyr Asp Val Asp Xaa Ile Val Pro Gln Ser Phe Leu Lys 835 840 845 gat gat tct att gat aat aaa gtg ttg aca aga tcc gat aaa aat aga 2592 Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg 850 855 860 ggg aag agt gat aac gtc ccc tca gaa gaa gtt gtc aag aaa atg aaa 2640 Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys 865 870 875 880 aat tat tgg cgg cag ctg ctg aac gcc aaa ctg atc aca caa cgg aag 2688 Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys 885 890 895 ttc gat aat ctg act aag gct gaa cga ggt ggc ctg tct gag ttg gat 2736 Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp 900 905 910 aaa gcc ggc ttc atc aaa agg cag ctt gtt gag aca cgc cag atc acc 2784 Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr 915 920 925 aag cac gtg gcc caa att ctc gat tca cgc atg aac acc aag tac gat 2832 Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp 930 935 940 gaa aat gac aaa ctg att cga gag gtg aaa gtt att act ctg aag tct 2880 Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser 945 950 955 960 aag ctg gtc tca gat ttc aga aag gac ttt cag ttt tat aag gtg aga 2928 Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg 965 970 975 gag atc aac aat tac cac cat gcg cat gat gcc tac ctg aat gca gtg 2976 Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val 980 985 990 gta ggc act gca ctt atc aaa aaa tat ccc aag ctt gaa tct gaa ttt 3024 Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe 995 1000 1005 gtt tac gga gac tat aaa gtg tac gat gtt agg aaa atg atc gca 3069 Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala 1010 1015 1020 aag tct gag cag gaa ata ggc aag gcc acc gct aag tac ttc ttt 3114 Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe 1025 1030 1035 tac agc aat att atg aat ttt ttc aag acc gag att aca ctg gcc 3159 Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala 1040 1045 1050 aat gga gag att cgg aag cga cca ctt atc gaa aca aac gga gaa 3204 Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu 1055 1060 1065 aca gga gaa atc gtg tgg gac aag ggt agg gat ttc gcg aca gtc 3249 Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val 1070 1075 1080 cgg aag gtc ctg tcc atg ccg cag gtg aac atc gtt aaa aag acc 3294 Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr 1085 1090 1095 gaa gta cag acc gga ggc ttc tcc aag gaa agt atc ctc ccg aaa 3339 Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys 1100 1105 1110 agg aac agc gac aag ctg atc gca cgc aaa aaa gat tgg gac ccc 3384 Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro 1115 1120 1125 aag aaa tac ggc gga ttc gat tct cct aca gtc gct tac agt gta 3429 Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val 1130 1135 1140 ctg gtt gtg gcc aaa gtg gag aaa ggg aag tct aaa aaa ctc aaa 3474 Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys 1145 1150 1155 agc gtc aag gaa ctg ctg ggc atc aca atc atg gag cga tca agc 3519 Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser 1160 1165 1170 ttc gaa aaa aac ccc atc gac ttt ctc gag gcg aaa gga tat aaa 3564 Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys 1175 1180 1185 gag gtc aaa aaa gac ctc atc att aag ctt ccc aag tac tct ctc 3609 Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu 1190 1195 1200 ttt gag ctt gaa aac ggc cgg aaa cga atg ctc gct agt gcg ggc 3654 Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly 1205 1210 1215 gag ctg cag aaa ggt aac gag ctg gca ctg ccc tct aaa tac gtt 3699 Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val 1220 1225 1230 aat ttc ttg tat ctg gcc agc cac tat gaa aag ctc aaa ggg tct 3744 Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser 1235 1240 1245 ccc gaa gat aat gag cag aag cag ctg ttc gtg gaa caa cac aaa 3789 Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys 1250 1255 1260 cac tac ctt gat gag atc atc gag caa ata agc gaa ttc tcc aaa 3834 His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys 1265 1270 1275 aga gtg atc ctc gcc gac gct aac ctc gat aag gtg ctt tct gct 3879 Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala 1280 1285 1290 tac aat aag cac agg gat aag ccc atc agg gag cag gca gaa aac 3924 Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn 1295 1300 1305 att atc cac ttg ttt act ctg acc aac ttg ggc gcg cct gca gcc 3969 Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala 1310 1315 1320 ttc aag tac ttc gac acc acc ata gac aga aag cgg tac acc tct 4014 Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser 1325 1330 1335 aca aag gag gtc ctg gac gcc aca ctg att cat cag tca att acg 4059 Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr 1340 1345 1350 ggg ctc tat gaa aca aga atc gac ctc tct cag ctc ggt gga gac 4104 Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp 1355 1360 1365 agc agg gct gac 4116 Ser Arg Ala Asp 1370 <210> 5 <211> 1372 <212> PRT <213> Artificial Sequence <220> <221> misc_feature <222> (10)..(10) <223> The 'Xaa' at location 10 stands for Asp, or Ala. <220> <221> misc_feature <222> (840)..(840) <223> The 'Xaa' at location 840 stands for Asp, Ala, His, or Pro. <220> <223> Synthetic Construct <400> 5 Met Asp Lys Lys Tyr Ser Ile Gly Leu Xaa Ile Gly Thr Asn Ser Val 1 5 10 15 Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe 20 25 30 Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile 35 40 45 Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu 50 55 60 Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys 65 70 75 80 Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser 85 90 95 Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys 100 105 110 His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr 115 120 125 His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp 130 135 140 Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His 145 150 155 160 Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro 165 170 175 Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr 180 185 190 Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala 195 200 205 Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn 210 215 220 Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn 225 230 235 240 Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe 245 250 255 Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp 260 265 270 Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp 275 280 285 Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp 290 295 300 Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser 305 310 315 320 Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys 325 330 335 Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe 340 345 350 Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser 355 360 365 Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp 370 375 380 Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg 385 390 395 400 Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu 405 410 415 Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe 420 425 430 Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile 435 440 445 Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp 450 455 460 Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu 465 470 475 480 Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr 485 490 495 Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser 500 505 510 Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys 515 520 525 Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln 530 535 540 Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr 545 550 555 560 Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp 565 570 575 Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly 580 585 590 Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp 595 600 605 Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr 610 615 620 Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala 625 630 635 640 His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr 645 650 655 Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp 660 665 670 Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe 675 680 685 Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe 690 695 700 Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu 705 710 715 720 His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly 725 730 735 Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly 740 745 750 Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln 755 760 765 Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile 770 775 780 Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro 785 790 795 800 Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu 805 810 815 Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg 820 825 830 Leu Ser Asp Tyr Asp Val Asp Xaa Ile Val Pro Gln Ser Phe Leu Lys 835 840 845 Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg 850 855 860 Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys 865 870 875 880 Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys 885 890 895 Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp 900 905 910 Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr 915 920 925 Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp 930 935 940 Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser 945 950 955 960 Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg 965 970 975 Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val 980 985 990 Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe 995 1000 1005 Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala 1010 1015 1020 Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe 1025 1030 1035 Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala 1040 1045 1050 Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu 1055 1060 1065 Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val 1070 1075 1080 Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr 1085 1090 1095 Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys 1100 1105 1110 Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro 1115 1120 1125 Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val 1130 1135 1140 Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys 1145 1150 1155 Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser 1160 1165 1170 Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys 1175 1180 1185 Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu 1190 1195 1200 Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly 1205 1210 1215 Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val 1220 1225 1230 Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser 1235 1240 1245 Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys 1250 1255 1260 His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys 1265 1270 1275 Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala 1280 1285 1290 Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn 1295 1300 1305 Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala 1310 1315 1320 Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser 1325 1330 1335 Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr 1340 1345 1350 Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp 1355 1360 1365 Ser Arg Ala Asp 1370 <210> 6 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> SV40-derived nuclear localization signal <220> <221> CDS <222> (1)..(21) <400> 6 cct aag aag aar mgk aar gtw 21 Pro Lys Lys Lys Xaa Lys Xaa 1 5 <210> 7 <211> 7 <212> PRT <213> Artificial Sequence <220> <221> misc_feature <222> (5)..(5) <223> The 'Xaa' at location 5 stands for Arg, or Ser. <220> <221> misc_feature <222> (7)..(7) <223> The 'Xaa' at location 7 stands for Val. <220> <223> Synthetic Construct <400> 7 Pro Lys Lys Lys Xaa Lys Xaa 1 5 <210> 8 <211> 51 <212> DNA <213> Artificial Sequence <220> <223> SV40-derived nuclear localization signal <220> <221> CDS <222> (1)..(51) <220> <221> misc_feature <222> (6)..(6) <223> n is a, c, g, or t <220> <221> misc_feature <222> (9)..(9) <223> n is a, c, g, or t <220> <221> misc_feature <222> (27)..(27) <223> n is a, c, g, or t <220> <221> misc_feature <222> (30)..(30) <223> n is a, c, g, or t <220> <221> misc_feature <222> (39)..(39) <223> n is a, c, g, or t <220> <221> misc_feature <222> (42)..(42) <223> n is a, c, g, or t <220> <221> misc_feature <222> (45)..(45) <223> n is a, c, g, or t <220> <221> misc_feature <222> (48)..(48) <223> n is a, c, g, or t <220> <221> misc_feature <222> (51)..(51) <223> n is a, c, g, or t <400> 8 atg gcn ccn aar aar aar agr aar gtn ggn ath cay ggn gtn ccn gcn 48 Met Ala Pro Lys Lys Lys Arg Lys Val Gly Ile His Gly Val Pro Ala 1 5 10 15 gcn 51 Ala <210> 9 <211> 17 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Construct <400> 9 Met Ala Pro Lys Lys Lys Arg Lys Val Gly Ile His Gly Val Pro Ala 1 5 10 15 Ala <210> 10 <211> 19 <212> RNA <213> Francisella novicida <220> <221> misc_structure <222> (1)..(19) <223> crRNA direct repeat sequence. <400> 10 aauuucuacu guuguagau 19 <210> 11 <211> 76 <212> DNA <213> Streptococcus pyogenes <220> <221> misc_structure <222> (1)..(76) <223> tracrRNA <400> 11 gttttagagc tagaaatagc aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt 60 ggcaccgagt cggtgc 76 <210> 12 <211> 20 <212> DNA <213> Homo sapiens <400> 12 aatgcagact ttgctttcct 20 <210> 13 <211> 8604 <212> DNA <213> Artificial Sequence <220> <223> Complete nucleotide sequence of vector 1922 <220> <221> promoter <222> (2233)..(2461) <223> H1 promoter <220> <221> misc_feature <222> (2462)..(2481) <223> Target(HPRT site 3) <220> <221> misc_structure <222> (2482)..(2557) <223> tracrRNA <220> <221> promoter <222> (2572)..(2826) <223> CMV promoter <220> <221> misc_feature <222> (3232)..(3237) <223> NheI recognition site <220> <221> misc_feature <222> (3241)..(3291) <223> NLS <220> <221> gene <222> (3292)..(7407) <223> nCas9 <220> <221> misc_feature <222> (7408)..(7428) <223> NLS <220> <221> misc_feature <222> (7444)..(7449) <223> AvrII recognition site <220> <221> misc_feature <222> (7453)..(7506) <223> T2A <220> <221> gene <222> (7513)..(7767) <223> NeoR <400> 13 ggccgccacc gcggtggagc tccagctttt gttcccttta gtgagggtta attgcgcgct 60 tggcgtaatc atggtcatag ctgtttcctg tgtgaaattg ttatccgctc acaattccac 120 acaacatacg agccggaagc ataaagtgta aagcctgggg tgcctaatga gtgagctaac 180 tcacattaat tgcgttgcgc tcactgcccg ctttccagtc gggaaacctg tcgtgccagc 240 tgcattaatg aatcggccaa cgcgcgggga gaggcggttt gcgtattggg cgctcttccg 300 cttcctcgct cactgactcg ctgcgctcgg tcgttcggct gcggcgagcg gtatcagctc 360 actcaaaggc ggtaatacgg ttatccacag aatcagggga taacgcagga aagaacatgt 420 gagcaaaagg ccagcaaaag gccaggaacc gtaaaaaggc cgcgttgctg gcgtttttcc 480 ataggctccg cccccctgac gagcatcaca aaaatcgacg ctcaagtcag aggtggcgaa 540 acccgacagg actataaaga taccaggcgt ttccccctgg aagctccctc gtgcgctctc 600 ctgttccgac cctgccgctt accggatacc tgtccgcctt tctcccttcg ggaagcgtgg 660 cgctttctca tagctcacgc tgtaggtatc tcagttcggt gtaggtcgtt cgctccaagc 720 tgggctgtgt gcacgaaccc cccgttcagc ccgaccgctg cgccttatcc ggtaactatc 780 gtcttgagtc caacccggta agacacgact tatcgccact ggcagcagcc actggtaaca 840 ggattagcag agcgaggtat gtaggcggtg ctacagagtt cttgaagtgg tggcctaact 900 acggctacac tagaaggaca gtatttggta tctgcgctct gctgaagcca gttaccttcg 960 gaaaaagagt tggtagctct tgatccggca aacaaaccac cgctggtagc ggtggttttt 1020 ttgtttgcaa gcagcagatt acgcgcagaa aaaaaggatc tcaagaagat cctttgatct 1080 tttctacggg gtctgacgct cagtggaacg aaaactcacg ttaagggatt ttggtcatga 1140 gattatcaaa aaggatcttc acctagatcc ttttaaatta aaaatgaagt tttaaatcaa 1200 tctaaagtat atatgagtaa acttggtctg acagttacca atgcttaatc agtgaggcac 1260 ctatctcagc gatctgtcta tttcgttcat ccatagttgc ctgactcccc gtcgtgtaga 1320 taactacgat acgggagggc ttaccatctg gccccagtgc tgcaatgata ccgcgagacc 1380 cacgctcacc ggctccagat ttatcagcaa taaaccagcc agccggaagg gccgagcgca 1440 gaagtggtcc tgcaacttta tccgcctcca tccagtctat taattgttgc cgggaagcta 1500 gagtaagtag ttcgccagtt aatagtttgc gcaacgttgt tgccattgct acaggcatcg 1560 tggtgtcacg ctcgtcgttt ggtatggctt cattcagctc cggttcccaa cgatcaaggc 1620 gagttacatg atcccccatg ttgtgcaaaa aagcggttag ctccttcggt cctccgatcg 1680 ttgtcagaag taagttggcc gcagtgttat cactcatggt tatggcagca ctgcataatt 1740 ctcttactgt catgccatcc gtaagatgct tttctgtgac tggtgagtac tcaaccaagt 1800 cattctgaga atagtgtatg cggcgaccga gttgctcttg cccggcgtca atacgggata 1860 ataccgcgcc acatagcaga actttaaaag tgctcatcat tggaaaacgt tcttcggggc 1920 gaaaactctc aaggatctta ccgctgttga gatccagttc gatgtaaccc actcgtgcac 1980 ccaactgatc ttcagcatct tttactttca ccagcgtttc tgggtgagca aaaacaggaa 2040 ggcaaaatgc cgcaaaaaag ggaataaggg cgacacggaa atgttgaata ctcatactct 2100 tcctttttca atattattga agcatttatc agggttattg tctcatgagc ggatacatat 2160 ttgaatgtat ttagaaaaat aaacaaatag gggttccgcg cacatttccc cgaaaagtgc 2220 caccggtgta ccaattcgaa cgctgacgtc atcaacccgc tccaaggaat cgcgggccca 2280 gtgtcactag gcgggaacac ccagcgcgcg tgcgccctgg caggaagatg gctgtgaggg 2340 acaggggagt ggcgccctgc aatatttgca tgtcgctatg tgttctggga aatcaccata 2400 aacgtgaaat gtctttggat ttgggaatct tataagttct gtatgaggac cacagatccc 2460 caatgcagac tttgctttcc tgttttagag ctagaaatag caagttaaaa taaggctagt 2520 ccgttatcaa cttgaaaaag tggcaccgag tcggtgcttt ttttacgcgt tgacattgat 2580 tattgactag ttattaatag taatcaatta cggggtcatt agttcatagc ccatatatgg 2640 agttccgcgt tacataactt acggtaaatg gcccgcctgg ctgaccgccc aacgaccccc 2700 gcccattgac gtcaataatg acgtatgttc ccatagtaac gccaataggg actttccatt 2760 gacgtcaatg ggtggagtat ttacggtaaa ctgcccactt ggcagtacat caagtgtatc 2820 atatgccaag tacgccccct attgacgtca atgacggtaa atggcccgcc tggcattatg 2880 cccagtacat gaccttatgg gactttccta cttggcagta catctacgta ttagtcatcg 2940 ctattaccat ggtgatgcgg ttttggcagt acatcaatgg gcgtggatag cggtttgact 3000 cacggggatt tccaagtctc caccccattg acgtcaatgg gagtttgttt tggcaccaaa 3060 atcaacggga ctttccaaaa tgtcgtaaca actccgcccc attgacgcaa atgggcggta 3120 ggcgtgtacg gtgggaggtc tatataagca gagctctctg gctaactaga gaacccactg 3180 cttactggct tatcgaaatt aatacgactc actataggga gacccaagct ggctagcgaa 3240 atggcaccga agaagaagcg taaagtcgga atccacggag ttcctgcggc aatggacaag 3300 aagtactcca ttgggctcgc tatcggcaca aacagcgtcg gttgggccgt cattacggac 3360 gagtacaagg tgccgagcaa aaaattcaaa gttctgggca ataccgatcg ccacagcata 3420 aagaagaacc tcattggcgc cctcctgttc gactccgggg agacggccga agccacgcgg 3480 ctcaaaagaa cagcacggcg cagatatacc cgcagaaaga atcggatctg ctacctgcag 3540 gagatcttta gtaatgagat ggctaaggtg gatgactctt tcttccatag gctggaggag 3600 tcctttttgg tggaggagga taaaaagcac gagcgccacc caatctttgg caatatcgtg 3660 gacgaggtgg cgtaccatga aaagtaccca accatatatc atctgaggaa gaagcttgta 3720 gacagtactg ataaggctga cttgcggttg atctatctcg cgctggcgca tatgatcaaa 3780 tttcggggac acttcctcat cgagggggac ctgaacccag acaacagcga tgtcgacaaa 3840 ctctttatcc aactggttca gacttacaat cagcttttcg aagagaaccc gatcaacgca 3900 tccggagttg acgccaaagc aatcctgagc gctaggctgt ccaaatcccg gcggctcgaa 3960 aacctcatcg cacagctccc tggggagaag aagaacggcc tgtttggtaa tcttatcgcc 4020 ctgtcactcg ggctgacccc caactttaaa tctaacttcg acctggccga agatgccaag 4080 cttcaactga gcaaagacac ctacgatgat gatctcgaca atctgctggc ccagatcggc 4140 gaccagtacg cagacctttt tttggcggca aagaacctgt cagacgccat tctgctgagt 4200 gatattctgc gagtgaacac ggagatcacc aaagctccgc tgagcgctag tatgatcaag 4260 cgctatgatg agcaccacca agacttgact ttgctgaagg cccttgtcag acagcaactg 4320 cctgagaagt acaaggaaat tttcttcgat cagtctaaaa atggctacgc cggatacatt 4380 gacggcggag caagccagga ggaattttac aaatttatta agcccatctt ggaaaaaatg 4440 gacggcaccg aggagctgct ggtaaagctt aacagagaag atctgttgcg caaacagcgc 4500 actttcgaca atggaagcat cccccaccag attcacctgg gcgaactgca cgctatcctc 4560 aggcggcaag aggatttcta cccctttttg aaagataaca gggaaaagat tgagaaaatc 4620 ctcacatttc ggatacccta ctatgtaggc cccctcgccc ggggaaattc cagattcgcg 4680 tggatgactc gcaaatcaga agagaccatc actccctgga acttcgagga agtcgtggat 4740 aagggggcct ctgcccagtc cttcatcgaa aggatgacta actttgataa aaatctgcct 4800 aacgaaaagg tgcttcctaa acactctctg ctgtacgagt acttcacagt ttataacgag 4860 ctcaccaagg tcaaatacgt cacagaaggg atgagaaagc cagcattcct gtctggagag 4920 cagaagaaag ctatcgtgga cctcctcttc aagacgaacc ggaaagttac cgtgaaacag 4980 ctcaaagaag actatttcaa aaagattgaa tgtttcgact ctgttgaaat cagcggagtg 5040 gaggatcgct tcaacgcatc cctgggaacg tatcacgatc tcctgaaaat cattaaagac 5100 aaggacttcc tggacaatga ggagaacgag gacattcttg aggacattgt cctcaccctt 5160 acgttgtttg aagataggga gatgattgaa gaacgcttga aaacttacgc tcatctcttc 5220 gacgacaaag tcatgaaaca gctcaagagg cgccgatata caggatgggg gcggctgtca 5280 agaaaactga tcaatgggat ccgagacaag cagagtggaa agacaatcct ggattttctt 5340 aagtccgatg gatttgccaa ccggaacttc atgcagttga tccatgatga ctctctcacc 5400 tttaaggagg acatccagaa agcacaagtt tctggccagg gggacagtct tcacgagcac 5460 atcgctaatc ttgcaggtag cccagctatc aaaaagggaa tactgcagac cgttaaggtc 5520 gtggatgaac tcgtcaaagt aatgggaagg cataagcccg agaatatcgt tatcgagatg 5580 gcccgagaga accaaactac ccagaaggga cagaagaaca gtagggaaag gatgaagagg 5640 attgaagagg gtataaaaga actggggtcc caaatcctta aggaacaccc agttgaaaac 5700 acccagcttc agaatgagaa gctctacctg tactacctgc agaacggcag ggacatgtac 5760 gtggatcagg aactggacat caatcggctc tccgactacg acgtggatca tatcgtgccc 5820 cagtcttttc tcaaagatga ttctattgat aataaagtgt tgacaagatc cgataaaaat 5880 agagggaaga gtgataacgt cccctcagaa gaagttgtca agaaaatgaa aaattattgg 5940 cggcagctgc tgaacgccaa actgatcaca caacggaagt tcgataatct gactaaggct 6000 gaacgaggtg gcctgtctga gttggataaa gccggcttca tcaaaaggca gcttgttgag 6060 acacgccaga tcaccaagca cgtggcccaa attctcgatt cacgcatgaa caccaagtac 6120 gatgaaaatg acaaactgat tcgagaggtg aaagttatta ctctgaagtc taagctggtc 6180 tcagatttca gaaaggactt tcagttttat aaggtgagag agatcaacaa ttaccaccat 6240 gcgcatgatg cctacctgaa tgcagtggta ggcactgcac ttatcaaaaa atatcccaag 6300 cttgaatctg aatttgttta cggagactat aaagtgtacg atgttaggaa aatgatcgca 6360 aagtctgagc aggaaatagg caaggccacc gctaagtact tcttttacag caatattatg 6420 aattttttca agaccgagat tacactggcc aatggagaga ttcggaagcg accacttatc 6480 gaaacaaacg gagaaacagg agaaatcgtg tgggacaagg gtagggattt cgcgacagtc 6540 cggaaggtcc tgtccatgcc gcaggtgaac atcgttaaaa agaccgaagt acagaccgga 6600 ggcttctcca aggaaagtat cctcccgaaa aggaacagcg acaagctgat cgcacgcaaa 6660 aaagattggg accccaagaa atacggcgga ttcgattctc ctacagtcgc ttacagtgta 6720 ctggttgtgg ccaaagtgga gaaagggaag tctaaaaaac tcaaaagcgt caaggaactg 6780 ctgggcatca caatcatgga gcgatcaagc ttcgaaaaaa accccatcga ctttctcgag 6840 gcgaaaggat ataaagaggt caaaaaagac ctcatcatta agcttcccaa gtactctctc 6900 tttgagcttg aaaacggccg gaaacgaatg ctcgctagtg cgggcgagct gcagaaaggt 6960 aacgagctgg cactgccctc taaatacgtt aatttcttgt atctggccag ccactatgaa 7020 aagctcaaag ggtctcccga agataatgag cagaagcagc tgttcgtgga acaacacaaa 7080 cactaccttg atgagatcat cgagcaaata agcgaattct ccaaaagagt gatcctcgcc 7140 gacgctaacc tcgataaggt gctttctgct tacaataagc acagggataa gcccatcagg 7200 gagcaggcag aaaacattat ccacttgttt actctgacca acttgggcgc gcctgcagcc 7260 ttcaagtact tcgacaccac catagacaga aagcggtaca cctctacaaa ggaggtcctg 7320 gacgccacac tgattcatca gtcaattacg gggctctatg aaacaagaat cgacctctct 7380 cagctcggtg gagacagcag ggctgacccc aagaagaaga ggaaggtggg tggaggaggt 7440 acccctagga ccgaaggcag gggaagcctt ctgacttgtg gggatgtgga agaaaaccct 7500 ggtccatcta gaatgattga acaagatgga ttgcacgcag gttctccggc cgcttgggtg 7560 gagaggctat tcggctatga ctgggcacaa cagacaatcg gctgctctga tgccgccgtg 7620 ttccggctgt cagcgcaggg gcgcccggtt ctttttgtca agaccgacct gtccggtgcc 7680 ctgaatgaac tgcaggacga ggcagcgcgg ctatcgtggc tggccacgac gggcgttcct 7740 tgcgcagctg tgctcgacgt tgtcactgaa gcgggaaggg actggctgct attgggcgaa 7800 gtgccggggc aggatctcct gtcatctcac cttgctcctg ccgagaaagt atccatcatg 7860 gctgatgcaa tgcggcggct gcatacgctt gatccggcta cctgcccatt cgaccaccaa 7920 gcgaaacatc gcatcgagcg agcacgtact cggatggaag ccggtcttgt cgatcaggat 7980 gatctggacg aagagcatca ggggctcgcg ccagccgaac tgttcgccag gctcaaggcg 8040 cgcatgcccg acggcgagga tctcgtcgtg acccatggcg atgcctgctt gccgaatatc 8100 atggtggaaa atggccgctt ttctggattc atcgactgtg gccggctggg tgtggcggac 8160 cgctatcagg acatagcgtt ggctacccgt gatattgctg aagagcttgg cggcgaatgg 8220 gctgaccgct tcctcgtgct ttacggtatc gccgctcccg attcgcagcg catcgccttc 8280 tatcgccttc ttgacgagtt cttctgagcg ggactctggg gttcgaaatg accgaccaag 8340 cgacgcccaa cctgccatca cgagatttcg attccaccgc cgccttctat gaaaggttgg 8400 gcttcggaat cgttttccgg gacgccggct ggatgatcct ccagcgcggg gatctcatgc 8460 tggagttctt cgcccacccc aacttgttta ttgcagctta taatggttac aaataaagca 8520 atagcatcac aaatttcaca aataaagcat ttttttcact gcattctagt tgtggtttgt 8580 ccaaactcat caatgtatct tagc 8604 <210> 14 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 14 attccagaat atctccatgt agattttggt 30 <210> 15 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 15 aattccagga ggtccagatc ttcagggccc 30 <210> 16 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 16 tctttcccta cacgacgctc ttccgatcta ttccagaata tctccatgta gattttggt 59 <210> 17 <211> 64 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 17 gtgactggag ttcagacgtg tgctcttccg atctttaggc aaggaagtga ctgtaattat 60 gagc 64 <210> 18 <211> 26 <212> DNA <213> Homo sapiens <400> 18 acaatgcaga ctttgctttc cttggt 26 <210> 19 <211> 252 <212> DNA <213> Artificial Sequence <220> <223> PBS2-derived Ugi CDS optimized for eucaryotic cell expression <220> <221> CDS <222> (1)..(252) <400> 19 atg acc aac ctt tcc gac atc ata gag aag gaa aca ggc aaa cag ttg 48 Met Thr Asn Leu Ser Asp Ile Ile Glu Lys Glu Thr Gly Lys Gln Leu 1 5 10 15 gtc atc caa gag tcg ata ctc atg ctt cct gaa gaa gtt gag gag gtc 96 Val Ile Gln Glu Ser Ile Leu Met Leu Pro Glu Glu Val Glu Glu Val 20 25 30 att ggg aat aag ccg gaa agt gac att ctc gta cac act gcg tat gat 144 Ile Gly Asn Lys Pro Glu Ser Asp Ile Leu Val His Thr Ala Tyr Asp 35 40 45 gag agc acc gat gag aac gtg atg ctg ctc acg tca gat gcc cca gag 192 Glu Ser Thr Asp Glu Asn Val Met Leu Leu Thr Ser Asp Ala Pro Glu 50 55 60 tac aaa ccc tgg gct ctg gtg att cag gac tct aat gga gag aac aag 240 Tyr Lys Pro Trp Ala Leu Val Ile Gln Asp Ser Asn Gly Glu Asn Lys 65 70 75 80 atc aag atg cta 252 Ile Lys Met Leu <210> 20 <211> 84 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Construct <400> 20 Met Thr Asn Leu Ser Asp Ile Ile Glu Lys Glu Thr Gly Lys Gln Leu 1 5 10 15 Val Ile Gln Glu Ser Ile Leu Met Leu Pro Glu Glu Val Glu Glu Val 20 25 30 Ile Gly Asn Lys Pro Glu Ser Asp Ile Leu Val His Thr Ala Tyr Asp 35 40 45 Glu Ser Thr Asp Glu Asn Val Met Leu Leu Thr Ser Asp Ala Pro Glu 50 55 60 Tyr Lys Pro Trp Ala Leu Val Ile Gln Asp Ser Asn Gly Glu Asn Lys 65 70 75 80 Ile Lys Met Leu <210> 21 <211> 420 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)..(420) <223> fragment of TopBv2 (452-591) <400> 21 aaa ggt att ccc aaa ctg gat gat gct aat gat gct ggt ggt aaa cat 48 Lys Gly Ile Pro Lys Leu Asp Asp Ala Asn Asp Ala Gly Gly Lys His 1 5 10 15 tcc ctg gag tgt aca ctg ata tta aca gag gga gac tct gcc aaa tca 96 Ser Leu Glu Cys Thr Leu Ile Leu Thr Glu Gly Asp Ser Ala Lys Ser 20 25 30 ctg gct gtg tct gga tta ggt gtg att gga cga gac aga tac gga gtt 144 Leu Ala Val Ser Gly Leu Gly Val Ile Gly Arg Asp Arg Tyr Gly Val 35 40 45 ttt cca ctc agg ggc aaa att ctt aat gta cgg gaa gct tct cat aaa 192 Phe Pro Leu Arg Gly Lys Ile Leu Asn Val Arg Glu Ala Ser His Lys 50 55 60 cag atc atg gaa aat gct gaa ata aat aat att att aaa ata gtt ggt 240 Gln Ile Met Glu Asn Ala Glu Ile Asn Asn Ile Ile Lys Ile Val Gly 65 70 75 80 cta caa tat aag aaa agt tac gat gat gca gaa tct ctg aaa acc tta 288 Leu Gln Tyr Lys Lys Ser Tyr Asp Asp Ala Glu Ser Leu Lys Thr Leu 85 90 95 cgc tat gga aag att atg att atg acc gat cag gat caa gat ggt tct 336 Arg Tyr Gly Lys Ile Met Ile Met Thr Asp Gln Asp Gln Asp Gly Ser 100 105 110 cac ata aaa ggc ctg ctt att aat ttc atc cat cac aat tgg cca tca 384 His Ile Lys Gly Leu Leu Ile Asn Phe Ile His His Asn Trp Pro Ser 115 120 125 ctt ttg aag cat ggt ttt ctt gaa gag ttc att act 420 Leu Leu Lys His Gly Phe Leu Glu Glu Phe Ile Thr 130 135 140 <210> 22 <211> 140 <212> PRT <213> Homo sapiens <400> 22 Lys Gly Ile Pro Lys Leu Asp Asp Ala Asn Asp Ala Gly Gly Lys His 1 5 10 15 Ser Leu Glu Cys Thr Leu Ile Leu Thr Glu Gly Asp Ser Ala Lys Ser 20 25 30 Leu Ala Val Ser Gly Leu Gly Val Ile Gly Arg Asp Arg Tyr Gly Val 35 40 45 Phe Pro Leu Arg Gly Lys Ile Leu Asn Val Arg Glu Ala Ser His Lys 50 55 60 Gln Ile Met Glu Asn Ala Glu Ile Asn Asn Ile Ile Lys Ile Val Gly 65 70 75 80 Leu Gln Tyr Lys Lys Ser Tyr Asp Asp Ala Glu Ser Leu Lys Thr Leu 85 90 95 Arg Tyr Gly Lys Ile Met Ile Met Thr Asp Gln Asp Gln Asp Gly Ser 100 105 110 His Ile Lys Gly Leu Leu Ile Asn Phe Ile His His Asn Trp Pro Ser 115 120 125 Leu Leu Lys His Gly Phe Leu Glu Glu Phe Ile Thr 130 135 140 <210> 23 <211> 246 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)..(246) <223> fragment of IQGAP2 (466-547) <400> 23 gaa ggg aat cct ttg agg act tta gaa act ttg ctc cta cct act gcg 48 Glu Gly Asn Pro Leu Arg Thr Leu Glu Thr Leu Leu Leu Pro Thr Ala 1 5 10 15 aat att agt gat gtg gac cca gcc cat gcc cag cac tac cag gat gtt 96 Asn Ile Ser Asp Val Asp Pro Ala His Ala Gln His Tyr Gln Asp Val 20 25 30 tta tac cat gct aaa tca cag aaa ctc gga gac tct gag agt gtt tcc 144 Leu Tyr His Ala Lys Ser Gln Lys Leu Gly Asp Ser Glu Ser Val Ser 35 40 45 aaa gtg ctt tgg ctg gat gag ata cag caa gcc gtc gat gat gcc aac 192 Lys Val Leu Trp Leu Asp Glu Ile Gln Gln Ala Val Asp Asp Ala Asn 50 55 60 gtg gac aag gac aga gca aaa caa tgg gtt act ctg gtg gtt gat gtt 240 Val Asp Lys Asp Arg Ala Lys Gln Trp Val Thr Leu Val Val Asp Val 65 70 75 80 aat cag 246 Asn Gln <210> 24 <211> 82 <212> PRT <213> Homo sapiens <400> 24 Glu Gly Asn Pro Leu Arg Thr Leu Glu Thr Leu Leu Leu Pro Thr Ala 1 5 10 15 Asn Ile Ser Asp Val Asp Pro Ala His Ala Gln His Tyr Gln Asp Val 20 25 30 Leu Tyr His Ala Lys Ser Gln Lys Leu Gly Asp Ser Glu Ser Val Ser 35 40 45 Lys Val Leu Trp Leu Asp Glu Ile Gln Gln Ala Val Asp Asp Ala Asn 50 55 60 Val Asp Lys Asp Arg Ala Lys Gln Trp Val Thr Leu Val Val Asp Val 65 70 75 80 Asn Gln <210> 25 <211> 447 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)..(447) <223> fragment of NIF-ZFN335_745-893 (466-547) <400> 25 agt tcc cca gga cct cct gag ata ccc cca gag gcg aca act ttc cag 48 Ser Ser Pro Gly Pro Pro Glu Ile Pro Pro Glu Ala Thr Thr Phe Gln 1 5 10 15 tca tct gag gct ccc tca ttg ctc tgt tct gac acc ctg ggc ggc gcc 96 Ser Ser Glu Ala Pro Ser Leu Leu Cys Ser Asp Thr Leu Gly Gly Ala 20 25 30 acc atc atc tac cag caa gga gct gag gag tcg aca gcg atg gcc acg 144 Thr Ile Ile Tyr Gln Gln Gly Ala Glu Glu Ser Thr Ala Met Ala Thr 35 40 45 cag aca gcc ttg gat ctt ctg ctg aac atg agt gct cag cgg gaa ctg 192 Gln Thr Ala Leu Asp Leu Leu Leu Asn Met Ser Ala Gln Arg Glu Leu 50 55 60 ggg ggc aca gcc ctg cag gtg gct gtg gtg aag tcg gaa gat gtg gaa 240 Gly Gly Thr Ala Leu Gln Val Ala Val Val Lys Ser Glu Asp Val Glu 65 70 75 80 gca ggg tta gca tcc cct ggt ggg cag ccc tcc cct gaa ggt gcc act 288 Ala Gly Leu Ala Ser Pro Gly Gly Gln Pro Ser Pro Glu Gly Ala Thr 85 90 95 cca cag gtc gtc acc ctc cac gtg gca gag cca ggg ggc ggt gca gca 336 Pro Gln Val Val Thr Leu His Val Ala Glu Pro Gly Gly Gly Ala Ala 100 105 110 gcc gag agc cag cta ggc cct cct gac cta ccg cag atc acc ctg gca 384 Ala Glu Ser Gln Leu Gly Pro Pro Asp Leu Pro Gln Ile Thr Leu Ala 115 120 125 cct ggt cca ttt ggt ggg act ggc tac agt gtc atc aca gca ccc cct 432 Pro Gly Pro Phe Gly Gly Thr Gly Tyr Ser Val Ile Thr Ala Pro Pro 130 135 140 atg gag gag gga aca 447 Met Glu Glu Gly Thr 145 <210> 26 <211> 149 <212> PRT <213> Homo sapiens <400> 26 Ser Ser Pro Gly Pro Pro Glu Ile Pro Pro Glu Ala Thr Thr Phe Gln 1 5 10 15 Ser Ser Glu Ala Pro Ser Leu Leu Cys Ser Asp Thr Leu Gly Gly Ala 20 25 30 Thr Ile Ile Tyr Gln Gln Gly Ala Glu Glu Ser Thr Ala Met Ala Thr 35 40 45 Gln Thr Ala Leu Asp Leu Leu Leu Asn Met Ser Ala Gln Arg Glu Leu 50 55 60 Gly Gly Thr Ala Leu Gln Val Ala Val Val Lys Ser Glu Asp Val Glu 65 70 75 80 Ala Gly Leu Ala Ser Pro Gly Gly Gln Pro Ser Pro Glu Gly Ala Thr 85 90 95 Pro Gln Val Val Thr Leu His Val Ala Glu Pro Gly Gly Gly Ala Ala 100 105 110 Ala Glu Ser Gln Leu Gly Pro Pro Asp Leu Pro Gln Ile Thr Leu Ala 115 120 125 Pro Gly Pro Phe Gly Gly Thr Gly Tyr Ser Val Ile Thr Ala Pro Pro 130 135 140 Met Glu Glu Gly Thr 145 <210> 27 <211> 20 <212> DNA <213> Homo sapiens <400> 27 tcgagatgtg atgaaggaga 20 <210> 28 <211> 9228 <212> DNA <213> Artificial Sequence <220> <223> Complete nucleotide sequence of vector 1923-2 <220> <221> misc_feature <222> (167)..(188) <223> CAP binding site <220> <221> rep_origin <222> (476)..(1064) <223> ori <220> <221> gene <222> (1235)..(2095) <223> AmpR <220> <221> promoter <222> (2096)..(2200) <223> AmpR promoter <220> <221> promoter <222> (2233)..(2461) <223> H1 promoter <220> <221> misc_feature <222> (2462)..(2481) <223> Target (HPRT site 1) <220> <221> misc_structure <222> (2482)..(2557) <223> tracrRNA <220> <221> enhancer <222> (2572)..(2951) <223> CMV enhancer <220> <221> promoter <222> (2952)..(3155) <223> CMV promoter <220> <221> promoter <222> (3200)..(3218) <223> T7 promoter <220> <221> gene <222> (3247)..(3498) <223> UGI <220> <221> misc_feature <222> (3502)..(3504) <223> kozac <220> <221> misc_feature <222> (3505)..(3555) <223> NLS unit <220> <221> misc_feature <222> (3511)..(3531) <223> SV40 NLS <220> <221> gene <222> (3556)..(7692) <223> nCas9 (D10A) <220> <221> misc_feature <222> (7672)..(7692) <223> SV40 NLS <220> <221> gene <222> (7714)..(8262) <223> dVif <220> <221> misc_feature <222> (7714)..(7722) <223> CBF beta binding <220> <221> misc_feature <222> (8272)..(8325) <223> T2A <220> <221> gene <222> (8332)..(8931) <223> PuroR <220> <221> polyA_signal <222> (9105)..(9226) <223> SV40 poly(A) signal <400> 28 ggccgccacc gcggtggagc tccagctttt gttcccttta gtgagggtta attgcgcgct 60 tggcgtaatc atggtcatag ctgtttcctg tgtgaaattg ttatccgctc acaattccac 120 acaacatacg agccggaagc ataaagtgta aagcctgggg tgcctaatga gtgagctaac 180 tcacattaat tgcgttgcgc tcactgcccg ctttccagtc gggaaacctg tcgtgccagc 240 tgcattaatg aatcggccaa cgcgcgggga gaggcggttt gcgtattggg cgctcttccg 300 cttcctcgct cactgactcg ctgcgctcgg tcgttcggct gcggcgagcg gtatcagctc 360 actcaaaggc ggtaatacgg ttatccacag aatcagggga taacgcagga aagaacatgt 420 gagcaaaagg ccagcaaaag gccaggaacc gtaaaaaggc cgcgttgctg gcgtttttcc 480 ataggctccg cccccctgac gagcatcaca aaaatcgacg ctcaagtcag aggtggcgaa 540 acccgacagg actataaaga taccaggcgt ttccccctgg aagctccctc gtgcgctctc 600 ctgttccgac cctgccgctt accggatacc tgtccgcctt tctcccttcg ggaagcgtgg 660 cgctttctca tagctcacgc tgtaggtatc tcagttcggt gtaggtcgtt cgctccaagc 720 tgggctgtgt gcacgaaccc cccgttcagc ccgaccgctg cgccttatcc ggtaactatc 780 gtcttgagtc caacccggta agacacgact tatcgccact ggcagcagcc actggtaaca 840 ggattagcag agcgaggtat gtaggcggtg ctacagagtt cttgaagtgg tggcctaact 900 acggctacac tagaaggaca gtatttggta tctgcgctct gctgaagcca gttaccttcg 960 gaaaaagagt tggtagctct tgatccggca aacaaaccac cgctggtagc ggtggttttt 1020 ttgtttgcaa gcagcagatt acgcgcagaa aaaaaggatc tcaagaagat cctttgatct 1080 tttctacggg gtctgacgct cagtggaacg aaaactcacg ttaagggatt ttggtcatga 1140 gattatcaaa aaggatcttc acctagatcc ttttaaatta aaaatgaagt tttaaatcaa 1200 tctaaagtat atatgagtaa acttggtctg acagttacca atgcttaatc agtgaggcac 1260 ctatctcagc gatctgtcta tttcgttcat ccatagttgc ctgactcccc gtcgtgtaga 1320 taactacgat acgggagggc ttaccatctg gccccagtgc tgcaatgata ccgcgagacc 1380 cacgctcacc ggctccagat ttatcagcaa taaaccagcc agccggaagg gccgagcgca 1440 gaagtggtcc tgcaacttta tccgcctcca tccagtctat taattgttgc cgggaagcta 1500 gagtaagtag ttcgccagtt aatagtttgc gcaacgttgt tgccattgct acaggcatcg 1560 tggtgtcacg ctcgtcgttt ggtatggctt cattcagctc cggttcccaa cgatcaaggc 1620 gagttacatg atcccccatg ttgtgcaaaa aagcggttag ctccttcggt cctccgatcg 1680 ttgtcagaag taagttggcc gcagtgttat cactcatggt tatggcagca ctgcataatt 1740 ctcttactgt catgccatcc gtaagatgct tttctgtgac tggtgagtac tcaaccaagt 1800 cattctgaga atagtgtatg cggcgaccga gttgctcttg cccggcgtca atacgggata 1860 ataccgcgcc acatagcaga actttaaaag tgctcatcat tggaaaacgt tcttcggggc 1920 gaaaactctc aaggatctta ccgctgttga gatccagttc gatgtaaccc actcgtgcac 1980 ccaactgatc ttcagcatct tttactttca ccagcgtttc tgggtgagca aaaacaggaa 2040 ggcaaaatgc cgcaaaaaag ggaataaggg cgacacggaa atgttgaata ctcatactct 2100 tcctttttca atattattga agcatttatc agggttattg tctcatgagc ggatacatat 2160 ttgaatgtat ttagaaaaat aaacaaatag gggttccgcg cacatttccc cgaaaagtgc 2220 caccggtgta ccaattcgaa cgctgacgtc atcaacccgc tccaaggaat cgcgggccca 2280 gtgtcactag gcgggaacac ccagcgcgcg tgcgccctgg caggaagatg gctgtgaggg 2340 acaggggagt ggcgccctgc aatatttgca tgtcgctatg tgttctggga aatcaccata 2400 aacgtgaaat gtctttggat ttgggaatct tataagttct gtatgaggac cacagatccc 2460 ctcgagatgt gatgaaggag agttttagag ctagaaatag caagttaaaa taaggctagt 2520 ccgttatcaa cttgaaaaag tggcaccgag tcggtgcttt ttttacgcgt tgacattgat 2580 tattgactag ttattaatag taatcaatta cggggtcatt agttcatagc ccatatatgg 2640 agttccgcgt tacataactt acggtaaatg gcccgcctgg ctgaccgccc aacgaccccc 2700 gcccattgac gtcaataatg acgtatgttc ccatagtaac gccaataggg actttccatt 2760 gacgtcaatg ggtggagtat ttacggtaaa ctgcccactt ggcagtacat caagtgtatc 2820 atatgccaag tacgccccct attgacgtca atgacggtaa atggcccgcc tggcattatg 2880 cccagtacat gaccttatgg gactttccta cttggcagta catctacgta ttagtcatcg 2940 ctattaccat ggtgatgcgg ttttggcagt acatcaatgg gcgtggatag cggtttgact 3000 cacggggatt tccaagtctc caccccattg acgtcaatgg gagtttgttt tggcaccaaa 3060 atcaacggga ctttccaaaa tgtcgtaaca actccgcccc attgacgcaa atgggcggta 3120 ggcgtgtacg gtgggaggtc tatataagca gagctctctg gctaactaga gaacccactg 3180 cttactggct tatcgaaatt aatacgactc actataggga gacccaagct ggctaggggt 3240 accgaaatga ccaacctttc cgacatcata gagaaggaaa caggcaaaca gttggtcatc 3300 caagagtcga tactcatgct tcctgaagaa gttgaggagg tcattgggaa taagccggaa 3360 agtgacattc tcgtacacac tgcgtatgat gagagcaccg atgagaacgt gatgctgctc 3420 acgtcagatg ccccagagta caaaccctgg gctctggtga ttcaggactc taatggagag 3480 aacaagatca agatgctagc cgaaatggca ccgaagaaga agcgtaaagt cggaatccac 3540 ggagttcctg cggcaatgga caagaagtac tccattgggc tcgctatcgg cacaaacagc 3600 gtcggttggg ccgtcattac ggacgagtac aaggtgccga gcaaaaaatt caaagttctg 3660 ggcaataccg atcgccacag cataaagaag aacctcattg gcgccctcct gttcgactcc 3720 ggggagacgg ccgaagccac gcggctcaaa agaacagcac ggcgcagata tacccgcaga 3780 aagaatcgga tctgctacct gcaggagatc tttagtaatg agatggctaa ggtggatgac 3840 tctttcttcc ataggctgga ggagtccttt ttggtggagg aggataaaaa gcacgagcgc 3900 cacccaatct ttggcaatat cgtggacgag gtggcgtacc atgaaaagta cccaaccata 3960 tatcatctga ggaagaagct tgtagacagt actgataagg ctgacttgcg gttgatctat 4020 ctcgcgctgg cgcatatgat caaatttcgg ggacacttcc tcatcgaggg ggacctgaac 4080 ccagacaaca gcgatgtcga caaactcttt atccaactgg ttcagactta caatcagctt 4140 ttcgaagaga acccgatcaa cgcatccgga gttgacgcca aagcaatcct gagcgctagg 4200 ctgtccaaat cccggcggct cgaaaacctc atcgcacagc tccctgggga gaagaagaac 4260 ggcctgtttg gtaatcttat cgccctgtca ctcgggctga cccccaactt taaatctaac 4320 ttcgacctgg ccgaagatgc caagcttcaa ctgagcaaag acacctacga tgatgatctc 4380 gacaatctgc tggcccagat cggcgaccag tacgcagacc tttttttggc ggcaaagaac 4440 ctgtcagacg ccattctgct gagtgatatt ctgcgagtga acacggagat caccaaagct 4500 ccgctgagcg ctagtatgat caagcgctat gatgagcacc accaagactt gactttgctg 4560 aaggcccttg tcagacagca actgcctgag aagtacaagg aaattttctt cgatcagtct 4620 aaaaatggct acgccggata cattgacggc ggagcaagcc aggaggaatt ttacaaattt 4680 attaagccca tcttggaaaa aatggacggc accgaggagc tgctggtaaa gcttaacaga 4740 gaagatctgt tgcgcaaaca gcgcactttc gacaatggaa gcatccccca ccagattcac 4800 ctgggcgaac tgcacgctat cctcaggcgg caagaggatt tctacccctt tttgaaagat 4860 aacagggaaa agattgagaa aatcctcaca tttcggatac cctactatgt aggccccctc 4920 gcccggggaa attccagatt cgcgtggatg actcgcaaat cagaagagac catcactccc 4980 tggaacttcg aggaagtcgt ggataagggg gcctctgccc agtccttcat cgaaaggatg 5040 actaactttg ataaaaatct gcctaacgaa aaggtgcttc ctaaacactc tctgctgtac 5100 gagtacttca cagtttataa cgagctcacc aaggtcaaat acgtcacaga agggatgaga 5160 aagccagcat tcctgtctgg agagcagaag aaagctatcg tggacctcct cttcaagacg 5220 aaccggaaag ttaccgtgaa acagctcaaa gaagactatt tcaaaaagat tgaatgtttc 5280 gactctgttg aaatcagcgg agtggaggat cgcttcaacg catccctggg aacgtatcac 5340 gatctcctga aaatcattaa agacaaggac ttcctggaca atgaggagaa cgaggacatt 5400 cttgaggaca ttgtcctcac ccttacgttg tttgaagata gggagatgat tgaagaacgc 5460 ttgaaaactt acgctcatct cttcgacgac aaagtcatga aacagctcaa gaggcgccga 5520 tatacaggat gggggcggct gtcaagaaaa ctgatcaatg ggatccgaga caagcagagt 5580 ggaaagacaa tcctggattt tcttaagtcc gatggatttg ccaaccggaa cttcatgcag 5640 ttgatccatg atgactctct cacctttaag gaggacatcc agaaagcaca agtttctggc 5700 cagggggaca gtcttcacga gcacatcgct aatcttgcag gtagcccagc tatcaaaaag 5760 ggaatactgc agaccgttaa ggtcgtggat gaactcgtca aagtaatggg aaggcataag 5820 cccgagaata tcgttatcga gatggcccga gagaaccaaa ctacccagaa gggacagaag 5880 aacagtaggg aaaggatgaa gaggattgaa gagggtataa aagaactggg gtcccaaatc 5940 cttaaggaac acccagttga aaacacccag cttcagaatg agaagctcta cctgtactac 6000 ctgcagaacg gcagggacat gtacgtggat caggaactgg acatcaatcg gctctccgac 6060 tacgacgtgg atcatatcgt gccccagtct tttctcaaag atgattctat tgataataaa 6120 gtgttgacaa gatccgataa aaatagaggg aagagtgata acgtcccctc agaagaagtt 6180 gtcaagaaaa tgaaaaatta ttggcggcag ctgctgaacg ccaaactgat cacacaacgg 6240 aagttcgata atctgactaa ggctgaacga ggtggcctgt ctgagttgga taaagccggc 6300 ttcatcaaaa ggcagcttgt tgagacacgc cagatcacca agcacgtggc ccaaattctc 6360 gattcacgca tgaacaccaa gtacgatgaa aatgacaaac tgattcgaga ggtgaaagtt 6420 attactctga agtctaagct ggtctcagat ttcagaaagg actttcagtt ttataaggtg 6480 agagagatca acaattacca ccatgcgcat gatgcctacc tgaatgcagt ggtaggcact 6540 gcacttatca aaaaatatcc caagcttgaa tctgaatttg tttacggaga ctataaagtg 6600 tacgatgtta ggaaaatgat cgcaaagtct gagcaggaaa taggcaaggc caccgctaag 6660 tacttctttt acagcaatat tatgaatttt ttcaagaccg agattacact ggccaatgga 6720 gagattcgga agcgaccact tatcgaaaca aacggagaaa caggagaaat cgtgtgggac 6780 aagggtaggg atttcgcgac agtccggaag gtcctgtcca tgccgcaggt gaacatcgtt 6840 aaaaagaccg aagtacagac cggaggcttc tccaaggaaa gtatcctccc gaaaaggaac 6900 agcgacaagc tgatcgcacg caaaaaagat tgggacccca agaaatacgg cggattcgat 6960 tctcctacag tcgcttacag tgtactggtt gtggccaaag tggagaaagg gaagtctaaa 7020 aaactcaaaa gcgtcaagga actgctgggc atcacaatca tggagcgatc aagcttcgaa 7080 aaaaacccca tcgactttct cgaggcgaaa ggatataaag aggtcaaaaa agacctcatc 7140 attaagcttc ccaagtactc tctctttgag cttgaaaacg gccggaaacg aatgctcgct 7200 agtgcgggcg agctgcagaa aggtaacgag ctggcactgc cctctaaata cgttaatttc 7260 ttgtatctgg ccagccacta tgaaaagctc aaagggtctc ccgaagataa tgagcagaag 7320 cagctgttcg tggaacaaca caaacactac cttgatgaga tcatcgagca aataagcgaa 7380 ttctccaaaa gagtgatcct cgccgacgct aacctcgata aggtgctttc tgcttacaat 7440 aagcacaggg ataagcccat cagggagcag gcagaaaaca ttatccactt gtttactctg 7500 accaacttgg gcgcgcctgc agccttcaag tacttcgaca ccaccataga cagaaagcgg 7560 tacacctcta caaaggaggt cctggacgcc acactgattc atcagtcaat tacggggctc 7620 tatgaaacaa gaatcgacct ctctcagctc ggtggagaca gcagggctga ccccaagaag 7680 aagaggaagg tgggtggagg aggtaccgaa atggtgtggc aagtagacag gatgaggatt 7740 agaacatgga acagtttagt aaaacatcac atgtatatct caaagaaagc aaaaaattgg 7800 ttttatagac atcactttga aagcagtcat ccaagagtaa gttcagaagt acacatccca 7860 ctaggggatg ctagattagt agtaagaaca tattggggtc tgcatacagg agaaaaagat 7920 tggcacttgg gtaatggggt gtccatagaa tggagactaa gaagatatag cacacaaata 7980 gatcctgacc tggcagacca actaattcat ctgcattatt ttaattgttt ttcagactct 8040 gccataagga aagccatatt aggacaagta gttagaccta gatgtgacta tcaagcagga 8100 cataacaagg taggatctgc tcaatatttg gcactgaaag cattagtaac accagtaagg 8160 acaaggccac ctttgcctag tgttaggaaa ttagcagagg acagatggaa caagccccag 8220 aaaaccaggg gtcccagagg gagccataca atgaatggac atgctaggac cgaaggcagg 8280 ggaagccttc tgacttgtgg ggatgtggaa gaaaaccctg gtccatctag aatgaccgag 8340 tacaagccca cggtgcgcct cgccacccgc gacgacgtcc cccgggccgt acgcaccctc 8400 gccgccgcgt tcgccgacta ccccgccacg cgccacaccg tcgacccgga ccgccacatc 8460 gagcgggtca ccgagctgca agaactcttc ctcacgcgcg tcgggctcga catcggcaag 8520 gtgtgggtcg cggacgacgg cgccgcggtg gcggtctgga ccacgccgga gagcgtcgaa 8580 gcgggggcgg tgttcgccga gatcggcccg cgcatggccg agttgagcgg ttcccggctg 8640 gccgcgcagc aacagatgga aggcctcctg gcgccgcacc ggcccaagga gcccgcgtgg 8700 ttcctggcca ccgtcggcgt ctcgcccgac caccagggca agggtctggg cagcgccgtc 8760 gtgctccccg gagtggaggc ggccgagcgc gccggggtgc ccgccttcct ggagacctcc 8820 gcgccccgca acctcccctt ctacgagcgg ctcggcttca ccgtcaccgc cgacgtcgag 8880 gtgcccgaag gaccgcgcac ctggtgcatg acccgcaagc ccggtgcctg agcgggactc 8940 tggggttcga aatgaccgac caagcgacgc ccaacctgcc atcacgagat ttcgattcca 9000 ccgccgcctt ctatgaaagg ttgggcttcg gaatcgtttt ccgggacgcc ggctggatga 9060 tcctccagcg cggggatctc atgctggagt tcttcgccca ccccaacttg tttattgcag 9120 cttataatgg ttacaaataa agcaatagca tcacaaattt cacaaataaa gcattttttt 9180 cactgcattc tagttgtggt ttgtccaaac tcatcaatgt atcttagc 9228 <210> 29 <211> 9198 <212> DNA <213> Artificial Sequence <220> <223> Complete nucleotide sequence of vector 1924-2 <220> <221> rep_origin <222> (476)..(1064) <223> ori <220> <221> gene <222> (1235)..(2095) <223> AmpR <220> <221> promoter <222> (2096)..(2200) <223> AmpR promoter <220> <221> promoter <222> (2233)..(2461) <223> H1 promoter <220> <221> gene <222> (2462)..(2481) <223> HPRT exon <220> <221> misc_feature <222> (2462)..(2481) <223> Target (HPRT site 1) <220> <221> misc_structure <222> (2482)..(2557) <223> tracrRNA <220> <221> enhancer <222> (2572)..(2951) <223> CMV enhancer <220> <221> promoter <222> (2952)..(3155) <223> CMV promoter <220> <221> promoter <222> (3200)..(3218) <223> T7 promoter <220> <221> gene <222> (3250)..(3798) <223> dVif <220> <221> misc_feature <222> (3250)..(3258) <223> CBF beta binding <220> <221> misc_feature <222> (3805)..(3807) <223> kozac <220> <221> misc_feature <222> (3808)..(3858) <223> NLS unit <220> <221> misc_feature <222> (3814)..(3834) <223> SV40 NLS <220> <221> gene <222> (3859)..(7962) <223> nCas9 (D10A) <220> <221> misc_feature <222> (7963)..(7983) <223> SV40 NLS <220> <221> gene <222> (7990)..(8241) <223> UGI <220> <221> misc_feature <222> (8242)..(8295) <223> T2A <220> <221> gene <222> (8302)..(8901) <223> PuroR <220> <221> polyA_signal <222> (9075)..(9196) <223> SV40 poly(A) signal <400> 29 ggccgccacc gcggtggagc tccagctttt gttcccttta gtgagggtta attgcgcgct 60 tggcgtaatc atggtcatag ctgtttcctg tgtgaaattg ttatccgctc acaattccac 120 acaacatacg agccggaagc ataaagtgta aagcctgggg tgcctaatga gtgagctaac 180 tcacattaat tgcgttgcgc tcactgcccg ctttccagtc gggaaacctg tcgtgccagc 240 tgcattaatg aatcggccaa cgcgcgggga gaggcggttt gcgtattggg cgctcttccg 300 cttcctcgct cactgactcg ctgcgctcgg tcgttcggct gcggcgagcg gtatcagctc 360 actcaaaggc ggtaatacgg ttatccacag aatcagggga taacgcagga aagaacatgt 420 gagcaaaagg ccagcaaaag gccaggaacc gtaaaaaggc cgcgttgctg gcgtttttcc 480 ataggctccg cccccctgac gagcatcaca aaaatcgacg ctcaagtcag aggtggcgaa 540 acccgacagg actataaaga taccaggcgt ttccccctgg aagctccctc gtgcgctctc 600 ctgttccgac cctgccgctt accggatacc tgtccgcctt tctcccttcg ggaagcgtgg 660 cgctttctca tagctcacgc tgtaggtatc tcagttcggt gtaggtcgtt cgctccaagc 720 tgggctgtgt gcacgaaccc cccgttcagc ccgaccgctg cgccttatcc ggtaactatc 780 gtcttgagtc caacccggta agacacgact tatcgccact ggcagcagcc actggtaaca 840 ggattagcag agcgaggtat gtaggcggtg ctacagagtt cttgaagtgg tggcctaact 900 acggctacac tagaaggaca gtatttggta tctgcgctct gctgaagcca gttaccttcg 960 gaaaaagagt tggtagctct tgatccggca aacaaaccac cgctggtagc ggtggttttt 1020 ttgtttgcaa gcagcagatt acgcgcagaa aaaaaggatc tcaagaagat cctttgatct 1080 tttctacggg gtctgacgct cagtggaacg aaaactcacg ttaagggatt ttggtcatga 1140 gattatcaaa aaggatcttc acctagatcc ttttaaatta aaaatgaagt tttaaatcaa 1200 tctaaagtat atatgagtaa acttggtctg acagttacca atgcttaatc agtgaggcac 1260 ctatctcagc gatctgtcta tttcgttcat ccatagttgc ctgactcccc gtcgtgtaga 1320 taactacgat acgggagggc ttaccatctg gccccagtgc tgcaatgata ccgcgagacc 1380 cacgctcacc ggctccagat ttatcagcaa taaaccagcc agccggaagg gccgagcgca 1440 gaagtggtcc tgcaacttta tccgcctcca tccagtctat taattgttgc cgggaagcta 1500 gagtaagtag ttcgccagtt aatagtttgc gcaacgttgt tgccattgct acaggcatcg 1560 tggtgtcacg ctcgtcgttt ggtatggctt cattcagctc cggttcccaa cgatcaaggc 1620 gagttacatg atcccccatg ttgtgcaaaa aagcggttag ctccttcggt cctccgatcg 1680 ttgtcagaag taagttggcc gcagtgttat cactcatggt tatggcagca ctgcataatt 1740 ctcttactgt catgccatcc gtaagatgct tttctgtgac tggtgagtac tcaaccaagt 1800 cattctgaga atagtgtatg cggcgaccga gttgctcttg cccggcgtca atacgggata 1860 ataccgcgcc acatagcaga actttaaaag tgctcatcat tggaaaacgt tcttcggggc 1920 gaaaactctc aaggatctta ccgctgttga gatccagttc gatgtaaccc actcgtgcac 1980 ccaactgatc ttcagcatct tttactttca ccagcgtttc tgggtgagca aaaacaggaa 2040 ggcaaaatgc cgcaaaaaag ggaataaggg cgacacggaa atgttgaata ctcatactct 2100 tcctttttca atattattga agcatttatc agggttattg tctcatgagc ggatacatat 2160 ttgaatgtat ttagaaaaat aaacaaatag gggttccgcg cacatttccc cgaaaagtgc 2220 caccggtgta ccaattcgaa cgctgacgtc atcaacccgc tccaaggaat cgcgggccca 2280 gtgtcactag gcgggaacac ccagcgcgcg tgcgccctgg caggaagatg gctgtgaggg 2340 acaggggagt ggcgccctgc aatatttgca tgtcgctatg tgttctggga aatcaccata 2400 aacgtgaaat gtctttggat ttgggaatct tataagttct gtatgaggac cacagatccc 2460 ctcgagatgt gatgaaggag agttttagag ctagaaatag caagttaaaa taaggctagt 2520 ccgttatcaa cttgaaaaag tggcaccgag tcggtgcttt ttttacgcgt tgacattgat 2580 tattgactag ttattaatag taatcaatta cggggtcatt agttcatagc ccatatatgg 2640 agttccgcgt tacataactt acggtaaatg gcccgcctgg ctgaccgccc aacgaccccc 2700 gcccattgac gtcaataatg acgtatgttc ccatagtaac gccaataggg actttccatt 2760 gacgtcaatg ggtggagtat ttacggtaaa ctgcccactt ggcagtacat caagtgtatc 2820 atatgccaag tacgccccct attgacgtca atgacggtaa atggcccgcc tggcattatg 2880 cccagtacat gaccttatgg gactttccta cttggcagta catctacgta ttagtcatcg 2940 ctattaccat ggtgatgcgg ttttggcagt acatcaatgg gcgtggatag cggtttgact 3000 cacggggatt tccaagtctc caccccattg acgtcaatgg gagtttgttt tggcaccaaa 3060 atcaacggga ctttccaaaa tgtcgtaaca actccgcccc attgacgcaa atgggcggta 3120 ggcgtgtacg gtgggaggtc tatataagca gagctctctg gctaactaga gaacccactg 3180 cttactggct tatcgaaatt aatacgactc actataggga gacccaagct ggctaggggt 3240 accgaaatgg tgtggcaagt agacaggatg aggattagaa catggaacag tttagtaaaa 3300 catcacatgt atatctcaaa gaaagcaaaa aattggtttt atagacatca ctttgaaagc 3360 agtcatccaa gagtaagttc agaagtacac atcccactag gggatgctag attagtagta 3420 agaacatatt ggggtctgca tacaggagaa aaagattggc acttgggtaa tggggtgtcc 3480 atagaatgga gactaagaag atatagcaca caaatagatc ctgacctggc agaccaacta 3540 attcatctgc attattttaa ttgtttttca gactctgcca taaggaaagc catattagga 3600 caagtagtta gacctagatg tgactatcaa gcaggacata acaaggtagg atctgctcaa 3660 tatttggcac tgaaagcatt agtaacacca gtaaggacaa ggccaccttt gcctagtgtt 3720 aggaaattag cagaggacag atggaacaag ccccagaaaa ccaggggtcc cagagggagc 3780 catacaatga atggacatgc tagcgaaatg gcaccgaaga agaagcgtaa agtcggaatc 3840 cacggagttc ctgcggcaat ggacaagaag tactccattg ggctcgctat cggcacaaac 3900 agcgtcggtt gggccgtcat tacggacgag tacaaggtgc cgagcaaaaa attcaaagtt 3960 ctgggcaata ccgatcgcca cagcataaag aagaacctca ttggcgccct cctgttcgac 4020 tccggggaga cggccgaagc cacgcggctc aaaagaacag cacggcgcag atatacccgc 4080 agaaagaatc ggatctgcta cctgcaggag atctttagta atgagatggc taaggtggat 4140 gactctttct tccataggct ggaggagtcc tttttggtgg aggaggataa aaagcacgag 4200 cgccacccaa tctttggcaa tatcgtggac gaggtggcgt accatgaaaa gtacccaacc 4260 atatatcatc tgaggaagaa gcttgtagac agtactgata aggctgactt gcggttgatc 4320 tatctcgcgc tggcgcatat gatcaaattt cggggacact tcctcatcga gggggacctg 4380 aacccagaca acagcgatgt cgacaaactc tttatccaac tggttcagac ttacaatcag 4440 cttttcgaag agaacccgat caacgcatcc ggagttgacg ccaaagcaat cctgagcgct 4500 aggctgtcca aatcccggcg gctcgaaaac ctcatcgcac agctccctgg ggagaagaag 4560 aacggcctgt ttggtaatct tatcgccctg tcactcgggc tgacccccaa ctttaaatct 4620 aacttcgacc tggccgaaga tgccaagctt caactgagca aagacaccta cgatgatgat 4680 ctcgacaatc tgctggccca gatcggcgac cagtacgcag accttttttt ggcggcaaag 4740 aacctgtcag acgccattct gctgagtgat attctgcgag tgaacacgga gatcaccaaa 4800 gctccgctga gcgctagtat gatcaagcgc tatgatgagc accaccaaga cttgactttg 4860 ctgaaggccc ttgtcagaca gcaactgcct gagaagtaca aggaaatttt cttcgatcag 4920 tctaaaaatg gctacgccgg atacattgac ggcggagcaa gccaggagga attttacaaa 4980 tttattaagc ccatcttgga aaaaatggac ggcaccgagg agctgctggt aaagcttaac 5040 agagaagatc tgttgcgcaa acagcgcact ttcgacaatg gaagcatccc ccaccagatt 5100 cacctgggcg aactgcacgc tatcctcagg cggcaagagg atttctaccc ctttttgaaa 5160 gataacaggg aaaagattga gaaaatcctc acatttcgga taccctacta tgtaggcccc 5220 ctcgcccggg gaaattccag attcgcgtgg atgactcgca aatcagaaga gaccatcact 5280 ccctggaact tcgaggaagt cgtggataag ggggcctctg cccagtcctt catcgaaagg 5340 atgactaact ttgataaaaa tctgcctaac gaaaaggtgc ttcctaaaca ctctctgctg 5400 tacgagtact tcacagttta taacgagctc accaaggtca aatacgtcac agaagggatg 5460 agaaagccag cattcctgtc tggagagcag aagaaagcta tcgtggacct cctcttcaag 5520 acgaaccgga aagttaccgt gaaacagctc aaagaagact atttcaaaaa gattgaatgt 5580 ttcgactctg ttgaaatcag cggagtggag gatcgcttca acgcatccct gggaacgtat 5640 cacgatctcc tgaaaatcat taaagacaag gacttcctgg acaatgagga gaacgaggac 5700 attcttgagg acattgtcct cacccttacg ttgtttgaag atagggagat gattgaagaa 5760 cgcttgaaaa cttacgctca tctcttcgac gacaaagtca tgaaacagct caagaggcgc 5820 cgatatacag gatgggggcg gctgtcaaga aaactgatca atgggatccg agacaagcag 5880 agtggaaaga caatcctgga ttttcttaag tccgatggat ttgccaaccg gaacttcatg 5940 cagttgatcc atgatgactc tctcaccttt aaggaggaca tccagaaagc acaagtttct 6000 ggccaggggg acagtcttca cgagcacatc gctaatcttg caggtagccc agctatcaaa 6060 aagggaatac tgcagaccgt taaggtcgtg gatgaactcg tcaaagtaat gggaaggcat 6120 aagcccgaga atatcgttat cgagatggcc cgagagaacc aaactaccca gaagggacag 6180 aagaacagta gggaaaggat gaagaggatt gaagagggta taaaagaact ggggtcccaa 6240 atccttaagg aacacccagt tgaaaacacc cagcttcaga atgagaagct ctacctgtac 6300 tacctgcaga acggcaggga catgtacgtg gatcaggaac tggacatcaa tcggctctcc 6360 gactacgacg tggatcatat cgtgccccag tcttttctca aagatgattc tattgataat 6420 aaagtgttga caagatccga taaaaataga gggaagagtg ataacgtccc ctcagaagaa 6480 gttgtcaaga aaatgaaaaa ttattggcgg cagctgctga acgccaaact gatcacacaa 6540 cggaagttcg ataatctgac taaggctgaa cgaggtggcc tgtctgagtt ggataaagcc 6600 ggcttcatca aaaggcagct tgttgagaca cgccagatca ccaagcacgt ggcccaaatt 6660 ctcgattcac gcatgaacac caagtacgat gaaaatgaca aactgattcg agaggtgaaa 6720 gttattactc tgaagtctaa gctggtctca gatttcagaa aggactttca gttttataag 6780 gtgagagaga tcaacaatta ccaccatgcg catgatgcct acctgaatgc agtggtaggc 6840 actgcactta tcaaaaaata tcccaagctt gaatctgaat ttgtttacgg agactataaa 6900 gtgtacgatg ttaggaaaat gatcgcaaag tctgagcagg aaataggcaa ggccaccgct 6960 aagtacttct tttacagcaa tattatgaat tttttcaaga ccgagattac actggccaat 7020 ggagagattc ggaagcgacc acttatcgaa acaaacggag aaacaggaga aatcgtgtgg 7080 gacaagggta gggatttcgc gacagtccgg aaggtcctgt ccatgccgca ggtgaacatc 7140 gttaaaaaga ccgaagtaca gaccggaggc ttctccaagg aaagtatcct cccgaaaagg 7200 aacagcgaca agctgatcgc acgcaaaaaa gattgggacc ccaagaaata cggcggattc 7260 gattctccta cagtcgctta cagtgtactg gttgtggcca aagtggagaa agggaagtct 7320 aaaaaactca aaagcgtcaa ggaactgctg ggcatcacaa tcatggagcg atcaagcttc 7380 gaaaaaaacc ccatcgactt tctcgaggcg aaaggatata aagaggtcaa aaaagacctc 7440 atcattaagc ttcccaagta ctctctcttt gagcttgaaa acggccggaa acgaatgctc 7500 gctagtgcgg gcgagctgca gaaaggtaac gagctggcac tgccctctaa atacgttaat 7560 ttcttgtatc tggccagcca ctatgaaaag ctcaaagggt ctcccgaaga taatgagcag 7620 aagcagctgt tcgtggaaca acacaaacac taccttgatg agatcatcga gcaaataagc 7680 gaattctcca aaagagtgat cctcgccgac gctaacctcg ataaggtgct ttctgcttac 7740 aataagcaca gggataagcc catcagggag caggcagaaa acattatcca cttgtttact 7800 ctgaccaact tgggcgcgcc tgcagccttc aagtacttcg acaccaccat agacagaaag 7860 cggtacacct ctacaaagga ggtcctggac gccacactga ttcatcagtc aattacgggg 7920 ctctatgaaa caagaatcga cctctctcag ctcggtggag accccaagaa gaaaagaaaa 7980 gtcggtacca tgaccaacct ttccgacatc atagagaagg aaacaggcaa acagttggtc 8040 atccaagagt cgatactcat gcttcctgaa gaagttgagg aggtcattgg gaataagccg 8100 gaaagtgaca ttctcgtaca cactgcgtat gatgagagca ccgatgagaa cgtgatgctg 8160 ctcacgtcag atgccccaga gtacaaaccc tgggctctgg tgattcagga ctctaatgga 8220 gagaacaaga tcaagatgct agaaggcagg ggaagccttc tgacttgtgg ggatgtggaa 8280 gaaaaccctg gtccatctag aatgaccgag tacaagccca cggtgcgcct cgccacccgc 8340 gacgacgtcc cccgggccgt acgcaccctc gccgccgcgt tcgccgacta ccccgccacg 8400 cgccacaccg tcgacccgga ccgccacatc gagcgggtca ccgagctgca agaactcttc 8460 ctcacgcgcg tcgggctcga catcggcaag gtgtgggtcg cggacgacgg cgccgcggtg 8520 gcggtctgga ccacgccgga gagcgtcgaa gcgggggcgg tgttcgccga gatcggcccg 8580 cgcatggccg agttgagcgg ttcccggctg gccgcgcagc aacagatgga aggcctcctg 8640 gcgccgcacc ggcccaagga gcccgcgtgg ttcctggcca ccgtcggcgt ctcgcccgac 8700 caccagggca agggtctggg cagcgccgtc gtgctccccg gagtggaggc ggccgagcgc 8760 gccggggtgc ccgccttcct ggagacctcc gcgccccgca acctcccctt ctacgagcgg 8820 ctcggcttca ccgtcaccgc cgacgtcgag gtgcccgaag gaccgcgcac ctggtgcatg 8880 acccgcaagc ccggtgcctg agcgggactc tggggttcga aatgaccgac caagcgacgc 8940 ccaacctgcc atcacgagat ttcgattcca ccgccgcctt ctatgaaagg ttgggcttcg 9000 gaatcgtttt ccgggacgcc ggctggatga tcctccagcg cggggatctc atgctggagt 9060 tcttcgccca ccccaacttg tttattgcag cttataatgg ttacaaataa agcaatagca 9120 tcacaaattt cacaaataaa gcattttttt cactgcattc tagttgtggt ttgtccaaac 9180 tcatcaatgt atcttagc 9198 <210> 30 <211> 8859 <212> DNA <213> Artificial Sequence <220> <223> Complete nucleotide sequence of vector 1931 <220> <221> rep_origin <222> (476)..(1064) <223> ori <220> <221> gene <222> (1235)..(2095) <223> AmpR <220> <221> promoter <222> (2096)..(2200) <223> AmpR promoter <220> <221> promoter <222> (2233)..(2461) <223> H1 promoter <220> <221> misc_feature <222> (2462)..(2481) <223> Target (HPRT site 1) <220> <221> misc_structure <222> (2482)..(2557) <223> tracrRNA <220> <221> enhancer <222> (2572)..(2951) <223> CMV enhancer <220> <221> promoter <222> (2952)..(3155) <223> CMV promoter <220> <221> gene <222> (3253)..(3672) <223> fragment of TopBv2 (452-591) <220> <221> misc_feature <222> (3691)..(3741) <223> NLS unit <220> <221> misc_feature <222> (3697)..(3717) <223> SV40 NLS <220> <221> gene <222> (3742)..(7878) <223> nCas9 (D10A) <220> <221> misc_feature <222> (7858)..(7878) <223> SV40 NLS <220> <221> misc_feature <222> (7903)..(7956) <223> T2A <220> <221> gene <222> (7963)..(8562) <223> PuroR <220> <221> polyA_signal <222> (8736)..(8857) <223> SV40 poly(A) siglan <400> 30 ggccgccacc gcggtggagc tccagctttt gttcccttta gtgagggtta attgcgcgct 60 tggcgtaatc atggtcatag ctgtttcctg tgtgaaattg ttatccgctc acaattccac 120 acaacatacg agccggaagc ataaagtgta aagcctgggg tgcctaatga gtgagctaac 180 tcacattaat tgcgttgcgc tcactgcccg ctttccagtc gggaaacctg tcgtgccagc 240 tgcattaatg aatcggccaa cgcgcgggga gaggcggttt gcgtattggg cgctcttccg 300 cttcctcgct cactgactcg ctgcgctcgg tcgttcggct gcggcgagcg gtatcagctc 360 actcaaaggc ggtaatacgg ttatccacag aatcagggga taacgcagga aagaacatgt 420 gagcaaaagg ccagcaaaag gccaggaacc gtaaaaaggc cgcgttgctg gcgtttttcc 480 ataggctccg cccccctgac gagcatcaca aaaatcgacg ctcaagtcag aggtggcgaa 540 acccgacagg actataaaga taccaggcgt ttccccctgg aagctccctc gtgcgctctc 600 ctgttccgac cctgccgctt accggatacc tgtccgcctt tctcccttcg ggaagcgtgg 660 cgctttctca tagctcacgc tgtaggtatc tcagttcggt gtaggtcgtt cgctccaagc 720 tgggctgtgt gcacgaaccc cccgttcagc ccgaccgctg cgccttatcc ggtaactatc 780 gtcttgagtc caacccggta agacacgact tatcgccact ggcagcagcc actggtaaca 840 ggattagcag agcgaggtat gtaggcggtg ctacagagtt cttgaagtgg tggcctaact 900 acggctacac tagaaggaca gtatttggta tctgcgctct gctgaagcca gttaccttcg 960 gaaaaagagt tggtagctct tgatccggca aacaaaccac cgctggtagc ggtggttttt 1020 ttgtttgcaa gcagcagatt acgcgcagaa aaaaaggatc tcaagaagat cctttgatct 1080 tttctacggg gtctgacgct cagtggaacg aaaactcacg ttaagggatt ttggtcatga 1140 gattatcaaa aaggatcttc acctagatcc ttttaaatta aaaatgaagt tttaaatcaa 1200 tctaaagtat atatgagtaa acttggtctg acagttacca atgcttaatc agtgaggcac 1260 ctatctcagc gatctgtcta tttcgttcat ccatagttgc ctgactcccc gtcgtgtaga 1320 taactacgat acgggagggc ttaccatctg gccccagtgc tgcaatgata ccgcgagacc 1380 cacgctcacc ggctccagat ttatcagcaa taaaccagcc agccggaagg gccgagcgca 1440 gaagtggtcc tgcaacttta tccgcctcca tccagtctat taattgttgc cgggaagcta 1500 gagtaagtag ttcgccagtt aatagtttgc gcaacgttgt tgccattgct acaggcatcg 1560 tggtgtcacg ctcgtcgttt ggtatggctt cattcagctc cggttcccaa cgatcaaggc 1620 gagttacatg atcccccatg ttgtgcaaaa aagcggttag ctccttcggt cctccgatcg 1680 ttgtcagaag taagttggcc gcagtgttat cactcatggt tatggcagca ctgcataatt 1740 ctcttactgt catgccatcc gtaagatgct tttctgtgac tggtgagtac tcaaccaagt 1800 cattctgaga atagtgtatg cggcgaccga gttgctcttg cccggcgtca atacgggata 1860 ataccgcgcc acatagcaga actttaaaag tgctcatcat tggaaaacgt tcttcggggc 1920 gaaaactctc aaggatctta ccgctgttga gatccagttc gatgtaaccc actcgtgcac 1980 ccaactgatc ttcagcatct tttactttca ccagcgtttc tgggtgagca aaaacaggaa 2040 ggcaaaatgc cgcaaaaaag ggaataaggg cgacacggaa atgttgaata ctcatactct 2100 tcctttttca atattattga agcatttatc agggttattg tctcatgagc ggatacatat 2160 ttgaatgtat ttagaaaaat aaacaaatag gggttccgcg cacatttccc cgaaaagtgc 2220 caccggtgta ccaattcgaa cgctgacgtc atcaacccgc tccaaggaat cgcgggccca 2280 gtgtcactag gcgggaacac ccagcgcgcg tgcgccctgg caggaagatg gctgtgaggg 2340 acaggggagt ggcgccctgc aatatttgca tgtcgctatg tgttctggga aatcaccata 2400 aacgtgaaat gtctttggat ttgggaatct tataagttct gtatgaggac cacagatccc 2460 ctcgagatgt gatgaaggag agttttagag ctagaaatag caagttaaaa taaggctagt 2520 ccgttatcaa cttgaaaaag tggcaccgag tcggtgcttt ttttacgcgt tgacattgat 2580 tattgactag ttattaatag taatcaatta cggggtcatt agttcatagc ccatatatgg 2640 agttccgcgt tacataactt acggtaaatg gcccgcctgg ctgaccgccc aacgaccccc 2700 gcccattgac gtcaataatg acgtatgttc ccatagtaac gccaataggg actttccatt 2760 gacgtcaatg ggtggagtat ttacggtaaa ctgcccactt ggcagtacat caagtgtatc 2820 atatgccaag tacgccccct attgacgtca atgacggtaa atggcccgcc tggcattatg 2880 cccagtacat gaccttatgg gactttccta cttggcagta catctacgta ttagtcatcg 2940 ctattaccat ggtgatgcgg ttttggcagt acatcaatgg gcgtggatag cggtttgact 3000 cacggggatt tccaagtctc caccccattg acgtcaatgg gagtttgttt tggcaccaaa 3060 atcaacggga ctttccaaaa tgtcgtaaca actccgcccc attgacgcaa atgggcggta 3120 ggcgtgtacg gtgggaggtc tatataagca gagctctctg gctaactaga gaacccactg 3180 cttactggct tatcgaaatt aatacgactc actataggga gacccaagct ggctagcgaa 3240 atgggtaccg gaaaaggtat tcccaaactg gatgatgcta atgatgctgg tggtaaacat 3300 tccctggagt gtacactgat attaacagag ggagactctg ccaaatcact ggctgtgtct 3360 ggattaggtg tgattggacg agacagatac ggagtttttc cactcagggg caaaattctt 3420 aatgtacggg aagcttctca taaacagatc atggaaaatg ctgaaataaa taatattatt 3480 aaaatagttg gtctacaata taagaaaagt tacgatgatg cagaatctct gaaaacctta 3540 cgctatggaa agattatgat tatgaccgat caggatcaag atggttctca cataaaaggc 3600 ctgcttatta atttcatcca tcacaattgg ccatcacttt tgaagcatgg ttttcttgaa 3660 gagttcatta ctggaggtga ccctagcgaa atggcaccga agaagaagcg taaagtcgga 3720 atccacggag ttcctgcggc aatggacaag aagtactcca ttgggctcgc tatcggcaca 3780 aacagcgtcg gttgggccgt cattacggac gagtacaagg tgccgagcaa aaaattcaaa 3840 gttctgggca ataccgatcg ccacagcata aagaagaacc tcattggcgc cctcctgttc 3900 gactccgggg agacggccga agccacgcgg ctcaaaagaa cagcacggcg cagatatacc 3960 cgcagaaaga atcggatctg ctacctgcag gagatcttta gtaatgagat ggctaaggtg 4020 gatgactctt tcttccatag gctggaggag tcctttttgg tggaggagga taaaaagcac 4080 gagcgccacc caatctttgg caatatcgtg gacgaggtgg cgtaccatga aaagtaccca 4140 accatatatc atctgaggaa gaagcttgta gacagtactg ataaggctga cttgcggttg 4200 atctatctcg cgctggcgca tatgatcaaa tttcggggac acttcctcat cgagggggac 4260 ctgaacccag acaacagcga tgtcgacaaa ctctttatcc aactggttca gacttacaat 4320 cagcttttcg aagagaaccc gatcaacgca tccggagttg acgccaaagc aatcctgagc 4380 gctaggctgt ccaaatcccg gcggctcgaa aacctcatcg cacagctccc tggggagaag 4440 aagaacggcc tgtttggtaa tcttatcgcc ctgtcactcg ggctgacccc caactttaaa 4500 tctaacttcg acctggccga agatgccaag cttcaactga gcaaagacac ctacgatgat 4560 gatctcgaca atctgctggc ccagatcggc gaccagtacg cagacctttt tttggcggca 4620 aagaacctgt cagacgccat tctgctgagt gatattctgc gagtgaacac ggagatcacc 4680 aaagctccgc tgagcgctag tatgatcaag cgctatgatg agcaccacca agacttgact 4740 ttgctgaagg cccttgtcag acagcaactg cctgagaagt acaaggaaat tttcttcgat 4800 cagtctaaaa atggctacgc cggatacatt gacggcggag caagccagga ggaattttac 4860 aaatttatta agcccatctt ggaaaaaatg gacggcaccg aggagctgct ggtaaagctt 4920 aacagagaag atctgttgcg caaacagcgc actttcgaca atggaagcat cccccaccag 4980 attcacctgg gcgaactgca cgctatcctc aggcggcaag aggatttcta cccctttttg 5040 aaagataaca gggaaaagat tgagaaaatc ctcacatttc ggatacccta ctatgtaggc 5100 cccctcgccc ggggaaattc cagattcgcg tggatgactc gcaaatcaga agagaccatc 5160 actccctgga acttcgagga agtcgtggat aagggggcct ctgcccagtc cttcatcgaa 5220 aggatgacta actttgataa aaatctgcct aacgaaaagg tgcttcctaa acactctctg 5280 ctgtacgagt acttcacagt ttataacgag ctcaccaagg tcaaatacgt cacagaaggg 5340 atgagaaagc cagcattcct gtctggagag cagaagaaag ctatcgtgga cctcctcttc 5400 aagacgaacc ggaaagttac cgtgaaacag ctcaaagaag actatttcaa aaagattgaa 5460 tgtttcgact ctgttgaaat cagcggagtg gaggatcgct tcaacgcatc cctgggaacg 5520 tatcacgatc tcctgaaaat cattaaagac aaggacttcc tggacaatga ggagaacgag 5580 gacattcttg aggacattgt cctcaccctt acgttgtttg aagataggga gatgattgaa 5640 gaacgcttga aaacttacgc tcatctcttc gacgacaaag tcatgaaaca gctcaagagg 5700 cgccgatata caggatgggg gcggctgtca agaaaactga tcaatgggat ccgagacaag 5760 cagagtggaa agacaatcct ggattttctt aagtccgatg gatttgccaa ccggaacttc 5820 atgcagttga tccatgatga ctctctcacc tttaaggagg acatccagaa agcacaagtt 5880 tctggccagg gggacagtct tcacgagcac atcgctaatc ttgcaggtag cccagctatc 5940 aaaaagggaa tactgcagac cgttaaggtc gtggatgaac tcgtcaaagt aatgggaagg 6000 cataagcccg agaatatcgt tatcgagatg gcccgagaga accaaactac ccagaaggga 6060 cagaagaaca gtagggaaag gatgaagagg attgaagagg gtataaaaga actggggtcc 6120 caaatcctta aggaacaccc agttgaaaac acccagcttc agaatgagaa gctctacctg 6180 tactacctgc agaacggcag ggacatgtac gtggatcagg aactggacat caatcggctc 6240 tccgactacg acgtggatca tatcgtgccc cagtcttttc tcaaagatga ttctattgat 6300 aataaagtgt tgacaagatc cgataaaaat agagggaaga gtgataacgt cccctcagaa 6360 gaagttgtca agaaaatgaa aaattattgg cggcagctgc tgaacgccaa actgatcaca 6420 caacggaagt tcgataatct gactaaggct gaacgaggtg gcctgtctga gttggataaa 6480 gccggcttca tcaaaaggca gcttgttgag acacgccaga tcaccaagca cgtggcccaa 6540 attctcgatt cacgcatgaa caccaagtac gatgaaaatg acaaactgat tcgagaggtg 6600 aaagttatta ctctgaagtc taagctggtc tcagatttca gaaaggactt tcagttttat 6660 aaggtgagag agatcaacaa ttaccaccat gcgcatgatg cctacctgaa tgcagtggta 6720 ggcactgcac ttatcaaaaa atatcccaag cttgaatctg aatttgttta cggagactat 6780 aaagtgtacg atgttaggaa aatgatcgca aagtctgagc aggaaatagg caaggccacc 6840 gctaagtact tcttttacag caatattatg aattttttca agaccgagat tacactggcc 6900 aatggagaga ttcggaagcg accacttatc gaaacaaacg gagaaacagg agaaatcgtg 6960 tgggacaagg gtagggattt cgcgacagtc cggaaggtcc tgtccatgcc gcaggtgaac 7020 atcgttaaaa agaccgaagt acagaccgga ggcttctcca aggaaagtat cctcccgaaa 7080 aggaacagcg acaagctgat cgcacgcaaa aaagattggg accccaagaa atacggcgga 7140 ttcgattctc ctacagtcgc ttacagtgta ctggttgtgg ccaaagtgga gaaagggaag 7200 tctaaaaaac tcaaaagcgt caaggaactg ctgggcatca caatcatgga gcgatcaagc 7260 ttcgaaaaaa accccatcga ctttctcgag gcgaaaggat ataaagaggt caaaaaagac 7320 ctcatcatta agcttcccaa gtactctctc tttgagcttg aaaacggccg gaaacgaatg 7380 ctcgctagtg cgggcgagct gcagaaaggt aacgagctgg cactgccctc taaatacgtt 7440 aatttcttgt atctggccag ccactatgaa aagctcaaag ggtctcccga agataatgag 7500 cagaagcagc tgttcgtgga acaacacaaa cactaccttg atgagatcat cgagcaaata 7560 agcgaattct ccaaaagagt gatcctcgcc gacgctaacc tcgataaggt gctttctgct 7620 tacaataagc acagggataa gcccatcagg gagcaggcag aaaacattat ccacttgttt 7680 actctgacca acttgggcgc gcctgcagcc ttcaagtact tcgacaccac catagacaga 7740 aagcggtaca cctctacaaa ggaggtcctg gacgccacac tgattcatca gtcaattacg 7800 gggctctatg aaacaagaat cgacctctct cagctcggtg gagacagcag ggctgacccc 7860 aagaagaaga ggaaggtggg tggaggaggt acccctagga ccgaaggcag gggaagcctt 7920 ctgacttgtg gggatgtgga agaaaaccct ggtccatcta gaatgaccga gtacaagccc 7980 acggtgcgcc tcgccacccg cgacgacgtc ccccgggccg tacgcaccct cgccgccgcg 8040 ttcgccgact accccgccac gcgccacacc gtcgacccgg accgccacat cgagcgggtc 8100 accgagctgc aagaactctt cctcacgcgc gtcgggctcg acatcggcaa ggtgtgggtc 8160 gcggacgacg gcgccgcggt ggcggtctgg accacgccgg agagcgtcga agcgggggcg 8220 gtgttcgccg agatcggccc gcgcatggcc gagttgagcg gttcccggct ggccgcgcag 8280 caacagatgg aaggcctcct ggcgccgcac cggcccaagg agcccgcgtg gttcctggcc 8340 accgtcggcg tctcgcccga ccaccagggc aagggtctgg gcagcgccgt cgtgctcccc 8400 ggagtggagg cggccgagcg cgccggggtg cccgccttcc tggagacctc cgcgccccgc 8460 aacctcccct tctacgagcg gctcggcttc accgtcaccg ccgacgtcga ggtgcccgaa 8520 ggaccgcgca cctggtgcat gacccgcaag cccggtgcct gagcgggact ctggggttcg 8580 aaatgaccga ccaagcgacg cccaacctgc catcacgaga tttcgattcc accgccgcct 8640 tctatgaaag gttgggcttc ggaatcgttt tccgggacgc cggctggatg atcctccagc 8700 gcggggatct catgctggag ttcttcgccc accccaactt gtttattgca gcttataatg 8760 gttacaaata aagcaatagc atcacaaatt tcacaaataa agcatttttt tcactgcatt 8820 ctagttgtgg tttgtccaaa ctcatcaatg tatcttagc 8859 <210> 31 <211> 9141 <212> DNA <213> Artificial Sequence <220> <223> Complete nucleotide sequence of vector 1932 <220> <221> rep_origin <222> (476)..(1064) <223> ori <220> <221> gene <222> (1235)..(2095) <223> AmpR <220> <221> promoter <222> (2096)..(2200) <223> AmpR promoter <220> <221> promoter <222> (2233)..(2461) <223> H1 promoter <220> <221> misc_feature <222> (2462)..(2481) <223> Target (HPRT site 1) <220> <221> misc_structure <222> (2482)..(2557) <223> tracrRNA <220> <221> enhancer <222> (2572)..(2951) <223> CMV enhancer <220> <221> promoter <222> (2952)..(3155) <223> CMV promoter <220> <221> misc_feature <222> (3241)..(3291) <223> NLS unit <220> <221> misc_feature <222> (3247)..(3267) <223> SV40 NLS <220> <221> gene <222> (3292)..(7428) <223> nCas9 (D10A) <220> <221> misc_feature <222> (7408)..(7428) <223> SV40 NLS <220> <221> gene <222> (7447)..(7692) <223> fragment of IQGAP2 (466-547) <220> <221> gene <222> (7717)..(8163) <223> fragment of NIF-ZFN335_745-893 (466-547) <220> <221> misc_feature <222> (8185)..(8238) <223> T2A <220> <221> gene <222> (8245)..(8844) <223> PuroR <220> <221> polyA_signal <222> (9018)..(9139) <223> SV40 poly(A) signal <400> 31 ggccgccacc gcggtggagc tccagctttt gttcccttta gtgagggtta attgcgcgct 60 tggcgtaatc atggtcatag ctgtttcctg tgtgaaattg ttatccgctc acaattccac 120 acaacatacg agccggaagc ataaagtgta aagcctgggg tgcctaatga gtgagctaac 180 tcacattaat tgcgttgcgc tcactgcccg ctttccagtc gggaaacctg tcgtgccagc 240 tgcattaatg aatcggccaa cgcgcgggga gaggcggttt gcgtattggg cgctcttccg 300 cttcctcgct cactgactcg ctgcgctcgg tcgttcggct gcggcgagcg gtatcagctc 360 actcaaaggc ggtaatacgg ttatccacag aatcagggga taacgcagga aagaacatgt 420 gagcaaaagg ccagcaaaag gccaggaacc gtaaaaaggc cgcgttgctg gcgtttttcc 480 ataggctccg cccccctgac gagcatcaca aaaatcgacg ctcaagtcag aggtggcgaa 540 acccgacagg actataaaga taccaggcgt ttccccctgg aagctccctc gtgcgctctc 600 ctgttccgac cctgccgctt accggatacc tgtccgcctt tctcccttcg ggaagcgtgg 660 cgctttctca tagctcacgc tgtaggtatc tcagttcggt gtaggtcgtt cgctccaagc 720 tgggctgtgt gcacgaaccc cccgttcagc ccgaccgctg cgccttatcc ggtaactatc 780 gtcttgagtc caacccggta agacacgact tatcgccact ggcagcagcc actggtaaca 840 ggattagcag agcgaggtat gtaggcggtg ctacagagtt cttgaagtgg tggcctaact 900 acggctacac tagaaggaca gtatttggta tctgcgctct gctgaagcca gttaccttcg 960 gaaaaagagt tggtagctct tgatccggca aacaaaccac cgctggtagc ggtggttttt 1020 ttgtttgcaa gcagcagatt acgcgcagaa aaaaaggatc tcaagaagat cctttgatct 1080 tttctacggg gtctgacgct cagtggaacg aaaactcacg ttaagggatt ttggtcatga 1140 gattatcaaa aaggatcttc acctagatcc ttttaaatta aaaatgaagt tttaaatcaa 1200 tctaaagtat atatgagtaa acttggtctg acagttacca atgcttaatc agtgaggcac 1260 ctatctcagc gatctgtcta tttcgttcat ccatagttgc ctgactcccc gtcgtgtaga 1320 taactacgat acgggagggc ttaccatctg gccccagtgc tgcaatgata ccgcgagacc 1380 cacgctcacc ggctccagat ttatcagcaa taaaccagcc agccggaagg gccgagcgca 1440 gaagtggtcc tgcaacttta tccgcctcca tccagtctat taattgttgc cgggaagcta 1500 gagtaagtag ttcgccagtt aatagtttgc gcaacgttgt tgccattgct acaggcatcg 1560 tggtgtcacg ctcgtcgttt ggtatggctt cattcagctc cggttcccaa cgatcaaggc 1620 gagttacatg atcccccatg ttgtgcaaaa aagcggttag ctccttcggt cctccgatcg 1680 ttgtcagaag taagttggcc gcagtgttat cactcatggt tatggcagca ctgcataatt 1740 ctcttactgt catgccatcc gtaagatgct tttctgtgac tggtgagtac tcaaccaagt 1800 cattctgaga atagtgtatg cggcgaccga gttgctcttg cccggcgtca atacgggata 1860 ataccgcgcc acatagcaga actttaaaag tgctcatcat tggaaaacgt tcttcggggc 1920 gaaaactctc aaggatctta ccgctgttga gatccagttc gatgtaaccc actcgtgcac 1980 ccaactgatc ttcagcatct tttactttca ccagcgtttc tgggtgagca aaaacaggaa 2040 ggcaaaatgc cgcaaaaaag ggaataaggg cgacacggaa atgttgaata ctcatactct 2100 tcctttttca atattattga agcatttatc agggttattg tctcatgagc ggatacatat 2160 ttgaatgtat ttagaaaaat aaacaaatag gggttccgcg cacatttccc cgaaaagtgc 2220 caccggtgta ccaattcgaa cgctgacgtc atcaacccgc tccaaggaat cgcgggccca 2280 gtgtcactag gcgggaacac ccagcgcgcg tgcgccctgg caggaagatg gctgtgaggg 2340 acaggggagt ggcgccctgc aatatttgca tgtcgctatg tgttctggga aatcaccata 2400 aacgtgaaat gtctttggat ttgggaatct tataagttct gtatgaggac cacagatccc 2460 ctcgagatgt gatgaaggag agttttagag ctagaaatag caagttaaaa taaggctagt 2520 ccgttatcaa cttgaaaaag tggcaccgag tcggtgcttt ttttacgcgt tgacattgat 2580 tattgactag ttattaatag taatcaatta cggggtcatt agttcatagc ccatatatgg 2640 agttccgcgt tacataactt acggtaaatg gcccgcctgg ctgaccgccc aacgaccccc 2700 gcccattgac gtcaataatg acgtatgttc ccatagtaac gccaataggg actttccatt 2760 gacgtcaatg ggtggagtat ttacggtaaa ctgcccactt ggcagtacat caagtgtatc 2820 atatgccaag tacgccccct attgacgtca atgacggtaa atggcccgcc tggcattatg 2880 cccagtacat gaccttatgg gactttccta cttggcagta catctacgta ttagtcatcg 2940 ctattaccat ggtgatgcgg ttttggcagt acatcaatgg gcgtggatag cggtttgact 3000 cacggggatt tccaagtctc caccccattg acgtcaatgg gagtttgttt tggcaccaaa 3060 atcaacggga ctttccaaaa tgtcgtaaca actccgcccc attgacgcaa atgggcggta 3120 ggcgtgtacg gtgggaggtc tatataagca gagctctctg gctaactaga gaacccactg 3180 cttactggct tatcgaaatt aatacgactc actataggga gacccaagct ggctagcgaa 3240 atggcaccga agaagaagcg taaagtcgga atccacggag ttcctgcggc aatggacaag 3300 aagtactcca ttgggctcgc tatcggcaca aacagcgtcg gttgggccgt cattacggac 3360 gagtacaagg tgccgagcaa aaaattcaaa gttctgggca ataccgatcg ccacagcata 3420 aagaagaacc tcattggcgc cctcctgttc gactccgggg agacggccga agccacgcgg 3480 ctcaaaagaa cagcacggcg cagatatacc cgcagaaaga atcggatctg ctacctgcag 3540 gagatcttta gtaatgagat ggctaaggtg gatgactctt tcttccatag gctggaggag 3600 tcctttttgg tggaggagga taaaaagcac gagcgccacc caatctttgg caatatcgtg 3660 gacgaggtgg cgtaccatga aaagtaccca accatatatc atctgaggaa gaagcttgta 3720 gacagtactg ataaggctga cttgcggttg atctatctcg cgctggcgca tatgatcaaa 3780 tttcggggac acttcctcat cgagggggac ctgaacccag acaacagcga tgtcgacaaa 3840 ctctttatcc aactggttca gacttacaat cagcttttcg aagagaaccc gatcaacgca 3900 tccggagttg acgccaaagc aatcctgagc gctaggctgt ccaaatcccg gcggctcgaa 3960 aacctcatcg cacagctccc tggggagaag aagaacggcc tgtttggtaa tcttatcgcc 4020 ctgtcactcg ggctgacccc caactttaaa tctaacttcg acctggccga agatgccaag 4080 cttcaactga gcaaagacac ctacgatgat gatctcgaca atctgctggc ccagatcggc 4140 gaccagtacg cagacctttt tttggcggca aagaacctgt cagacgccat tctgctgagt 4200 gatattctgc gagtgaacac ggagatcacc aaagctccgc tgagcgctag tatgatcaag 4260 cgctatgatg agcaccacca agacttgact ttgctgaagg cccttgtcag acagcaactg 4320 cctgagaagt acaaggaaat tttcttcgat cagtctaaaa atggctacgc cggatacatt 4380 gacggcggag caagccagga ggaattttac aaatttatta agcccatctt ggaaaaaatg 4440 gacggcaccg aggagctgct ggtaaagctt aacagagaag atctgttgcg caaacagcgc 4500 actttcgaca atggaagcat cccccaccag attcacctgg gcgaactgca cgctatcctc 4560 aggcggcaag aggatttcta cccctttttg aaagataaca gggaaaagat tgagaaaatc 4620 ctcacatttc ggatacccta ctatgtaggc cccctcgccc ggggaaattc cagattcgcg 4680 tggatgactc gcaaatcaga agagaccatc actccctgga acttcgagga agtcgtggat 4740 aagggggcct ctgcccagtc cttcatcgaa aggatgacta actttgataa aaatctgcct 4800 aacgaaaagg tgcttcctaa acactctctg ctgtacgagt acttcacagt ttataacgag 4860 ctcaccaagg tcaaatacgt cacagaaggg atgagaaagc cagcattcct gtctggagag 4920 cagaagaaag ctatcgtgga cctcctcttc aagacgaacc ggaaagttac cgtgaaacag 4980 ctcaaagaag actatttcaa aaagattgaa tgtttcgact ctgttgaaat cagcggagtg 5040 gaggatcgct tcaacgcatc cctgggaacg tatcacgatc tcctgaaaat cattaaagac 5100 aaggacttcc tggacaatga ggagaacgag gacattcttg aggacattgt cctcaccctt 5160 acgttgtttg aagataggga gatgattgaa gaacgcttga aaacttacgc tcatctcttc 5220 gacgacaaag tcatgaaaca gctcaagagg cgccgatata caggatgggg gcggctgtca 5280 agaaaactga tcaatgggat ccgagacaag cagagtggaa agacaatcct ggattttctt 5340 aagtccgatg gatttgccaa ccggaacttc atgcagttga tccatgatga ctctctcacc 5400 tttaaggagg acatccagaa agcacaagtt tctggccagg gggacagtct tcacgagcac 5460 atcgctaatc ttgcaggtag cccagctatc aaaaagggaa tactgcagac cgttaaggtc 5520 gtggatgaac tcgtcaaagt aatgggaagg cataagcccg agaatatcgt tatcgagatg 5580 gcccgagaga accaaactac ccagaaggga cagaagaaca gtagggaaag gatgaagagg 5640 attgaagagg gtataaaaga actggggtcc caaatcctta aggaacaccc agttgaaaac 5700 acccagcttc agaatgagaa gctctacctg tactacctgc agaacggcag ggacatgtac 5760 gtggatcagg aactggacat caatcggctc tccgactacg acgtggatca tatcgtgccc 5820 cagtcttttc tcaaagatga ttctattgat aataaagtgt tgacaagatc cgataaaaat 5880 agagggaaga gtgataacgt cccctcagaa gaagttgtca agaaaatgaa aaattattgg 5940 cggcagctgc tgaacgccaa actgatcaca caacggaagt tcgataatct gactaaggct 6000 gaacgaggtg gcctgtctga gttggataaa gccggcttca tcaaaaggca gcttgttgag 6060 acacgccaga tcaccaagca cgtggcccaa attctcgatt cacgcatgaa caccaagtac 6120 gatgaaaatg acaaactgat tcgagaggtg aaagttatta ctctgaagtc taagctggtc 6180 tcagatttca gaaaggactt tcagttttat aaggtgagag agatcaacaa ttaccaccat 6240 gcgcatgatg cctacctgaa tgcagtggta ggcactgcac ttatcaaaaa atatcccaag 6300 cttgaatctg aatttgttta cggagactat aaagtgtacg atgttaggaa aatgatcgca 6360 aagtctgagc aggaaatagg caaggccacc gctaagtact tcttttacag caatattatg 6420 aattttttca agaccgagat tacactggcc aatggagaga ttcggaagcg accacttatc 6480 gaaacaaacg gagaaacagg agaaatcgtg tgggacaagg gtagggattt cgcgacagtc 6540 cggaaggtcc tgtccatgcc gcaggtgaac atcgttaaaa agaccgaagt acagaccgga 6600 ggcttctcca aggaaagtat cctcccgaaa aggaacagcg acaagctgat cgcacgcaaa 6660 aaagattggg accccaagaa atacggcgga ttcgattctc ctacagtcgc ttacagtgta 6720 ctggttgtgg ccaaagtgga gaaagggaag tctaaaaaac tcaaaagcgt caaggaactg 6780 ctgggcatca caatcatgga gcgatcaagc ttcgaaaaaa accccatcga ctttctcgag 6840 gcgaaaggat ataaagaggt caaaaaagac ctcatcatta agcttcccaa gtactctctc 6900 tttgagcttg aaaacggccg gaaacgaatg ctcgctagtg cgggcgagct gcagaaaggt 6960 aacgagctgg cactgccctc taaatacgtt aatttcttgt atctggccag ccactatgaa 7020 aagctcaaag ggtctcccga agataatgag cagaagcagc tgttcgtgga acaacacaaa 7080 cactaccttg atgagatcat cgagcaaata agcgaattct ccaaaagagt gatcctcgcc 7140 gacgctaacc tcgataaggt gctttctgct tacaataagc acagggataa gcccatcagg 7200 gagcaggcag aaaacattat ccacttgttt actctgacca acttgggcgc gcctgcagcc 7260 ttcaagtact tcgacaccac catagacaga aagcggtaca cctctacaaa ggaggtcctg 7320 gacgccacac tgattcatca gtcaattacg gggctctatg aaacaagaat cgacctctct 7380 cagctcggtg gagacagcag ggctgacccc aagaagaaga ggaaggtggg tggaggaggt 7440 accggagaag ggaatccttt gaggacttta gaaactttgc tcctacctac tgcgaatatt 7500 agtgatgtgg acccagccca tgcccagcac taccaggatg ttttatacca tgctaaatca 7560 cagaaactcg gagactctga gagtgtttcc aaagtgcttt ggctggatga gatacagcaa 7620 gccgtcgatg atgccaacgt ggacaaggac agagcaaaac aatgggttac tctggtggtt 7680 gatgttaatc agggaggccc tagggaaatg ggaggcagtt ccccaggacc tcctgagata 7740 cccccagagg cgacaacttt ccagtcatct gaggctccct cattgctctg ttctgacacc 7800 ctgggcggcg ccaccatcat ctaccagcaa ggagctgagg agtcgacagc gatggccacg 7860 cagacagcct tggatcttct gctgaacatg agtgctcagc gggaactggg gggcacagcc 7920 ctgcaggtgg ctgtggtgaa gtcggaagat gtggaagcag ggttagcatc ccctggtggg 7980 cagccctccc ctgaaggtgc cactccacag gtcgtcaccc tccacgtggc agagccaggg 8040 ggcggtgcag cagccgagag ccagctaggc cctcctgacc taccgcagat caccctggca 8100 cctggtccat ttggtgggac tggctacagt gtcatcacag caccccctat ggaggaggga 8160 acaggagggt cacctactag gaccgaaggc aggggaagcc ttctgacttg tggggatgtg 8220 gaagaaaacc ctggtccatc tagaatgacc gagtacaagc ccacggtgcg cctcgccacc 8280 cgcgacgacg tcccccgggc cgtacgcacc ctcgccgccg cgttcgccga ctaccccgcc 8340 acgcgccaca ccgtcgaccc ggaccgccac atcgagcggg tcaccgagct gcaagaactc 8400 ttcctcacgc gcgtcgggct cgacatcggc aaggtgtggg tcgcggacga cggcgccgcg 8460 gtggcggtct ggaccacgcc ggagagcgtc gaagcggggg cggtgttcgc cgagatcggc 8520 ccgcgcatgg ccgagttgag cggttcccgg ctggccgcgc agcaacagat ggaaggcctc 8580 ctggcgccgc accggcccaa ggagcccgcg tggttcctgg ccaccgtcgg cgtctcgccc 8640 gaccaccagg gcaagggtct gggcagcgcc gtcgtgctcc ccggagtgga ggcggccgag 8700 cgcgccgggg tgcccgcctt cctggagacc tccgcgcccc gcaacctccc cttctacgag 8760 cggctcggct tcaccgtcac cgccgacgtc gaggtgcccg aaggaccgcg cacctggtgc 8820 atgacccgca agcccggtgc ctgagcggga ctctggggtt cgaaatgacc gaccaagcga 8880 cgcccaacct gccatcacga gatttcgatt ccaccgccgc cttctatgaa aggttgggct 8940 tcggaatcgt tttccgggac gccggctgga tgatcctcca gcgcggggat ctcatgctgg 9000 agttcttcgc ccaccccaac ttgtttattg cagcttataa tggttacaaa taaagcaata 9060 gcatcacaaa tttcacaaat aaagcatttt tttcactgca ttctagttgt ggtttgtcca 9120 aactcatcaa tgtatcttag c 9141 <210> 32 <211> 10219 <212> DNA <213> Artificial Sequence <220> <223> Complete nucleotide sequence of vector 1907 <220> <221> gene <222> (1238)..(2095) <223> AmpR <220> <221> promoter <222> (2882)..(3110) <223> H1 promoter <220> <221> misc_feature <222> (3111)..(3130) <223> Target (HPRT site 1) <220> <221> misc_structure <222> (3131)..(3206) <223> tracrRNA <220> <221> enhancer <222> (3221)..(3600) <223> CMV enhancer <220> <221> promoter <222> (3601)..(3804) <223> CMV promoter <220> <221> misc_feature <222> (3890)..(3940) <223> NLS unit <220> <221> misc_feature <222> (3896)..(3916) <223> SV40 NLS <220> <221> gene <222> (3941)..(8077) <223> nCas9 (D10A) <220> <221> misc_feature <222> (8057)..(8077) <223> SV40 NLS <220> <221> misc_feature <222> (8108)..(8278) <223> dead SH3 hs <220> <221> misc_feature <222> (8285)..(8350) <223> 3xFLAG hs <220> <221> gene <222> (8357)..(8980) <223> HsPmCDA1 <220> <221> misc_feature <222> (8984)..(9004) <223> SV40 NLS <220> <221> gene <222> (9011)..(9262) <223> UGI <220> <221> misc_feature <222> (9263)..(9316) <223> T2A <220> <221> gene <222> (9323)..(9922) <223> PuroR <220> <221> polyA_signal <222> (10096)..(10217) <223> SV40 poly(A) signal <400> 32 ggccgccacc gcggtggagc tccagctttt gttcccttta gtgagggtta attgcgcgct 60 tggcgtaatc atggtcatag ctgtttcctg tgtgaaattg ttatccgctc acaattccac 120 acaacatacg agccggaagc ataaagtgta aagcctgggg tgcctaatga gtgagctaac 180 tcacattaat tgcgttgcgc tcactgcccg ctttccagtc gggaaacctg tcgtgccagc 240 tgcattaatg aatcggccaa cgcgcgggga gaggcggttt gcgtattggg cgctcttccg 300 cttcctcgct cactgactcg ctgcgctcgg tcgttcggct gcggcgagcg gtatcagctc 360 actcaaaggc ggtaatacgg ttatccacag aatcagggga taacgcagga aagaacatgt 420 gagcaaaagg ccagcaaaag gccaggaacc gtaaaaaggc cgcgttgctg gcgtttttcc 480 ataggctccg cccccctgac gagcatcaca aaaatcgacg ctcaagtcag aggtggcgaa 540 acccgacagg actataaaga taccaggcgt ttccccctgg aagctccctc gtgcgctctc 600 ctgttccgac cctgccgctt accggatacc tgtccgcctt tctcccttcg ggaagcgtgg 660 cgctttctca tagctcacgc tgtaggtatc tcagttcggt gtaggtcgtt cgctccaagc 720 tgggctgtgt gcacgaaccc cccgttcagc ccgaccgctg cgccttatcc ggtaactatc 780 gtcttgagtc caacccggta agacacgact tatcgccact ggcagcagcc actggtaaca 840 ggattagcag agcgaggtat gtaggcggtg ctacagagtt cttgaagtgg tggcctaact 900 acggctacac tagaaggaca gtatttggta tctgcgctct gctgaagcca gttaccttcg 960 gaaaaagagt tggtagctct tgatccggca aacaaaccac cgctggtagc ggtggttttt 1020 ttgtttgcaa gcagcagatt acgcgcagaa aaaaaggatc tcaagaagat cctttgatct 1080 tttctacggg gtctgacgct cagtggaacg aaaactcacg ttaagggatt ttggtcatga 1140 gattatcaaa aaggatcttc acctagatcc ttttaaatta aaaatgaagt tttaaatcaa 1200 tctaaagtat atatgagtaa acttggtctg acagttacca atgcttaatc agtgaggcac 1260 ctatctcagc gatctgtcta tttcgttcat ccatagttgc ctgactcccc gtcgtgtaga 1320 taactacgat acgggagggc ttaccatctg gccccagtgc tgcaatgata ccgcgagacc 1380 cacgctcacc ggctccagat ttatcagcaa taaaccagcc agccggaagg gccgagcgca 1440 gaagtggtcc tgcaacttta tccgcctcca tccagtctat taattgttgc cgggaagcta 1500 gagtaagtag ttcgccagtt aatagtttgc gcaacgttgt tgccattgct acaggcatcg 1560 tggtgtcacg ctcgtcgttt ggtatggctt cattcagctc cggttcccaa cgatcaaggc 1620 gagttacatg atcccccatg ttgtgcaaaa aagcggttag ctccttcggt cctccgatcg 1680 ttgtcagaag taagttggcc gcagtgttat cactcatggt tatggcagca ctgcataatt 1740 ctcttactgt catgccatcc gtaagatgct tttctgtgac tggtgagtac tcaaccaagt 1800 cattctgaga atagtgtatg cggcgaccga gttgctcttg cccggcgtca atacgggata 1860 ataccgcgcc acatagcaga actttaaaag tgctcatcat tggaaaacgt tcttcggggc 1920 gaaaactctc aaggatctta ccgctgttga gatccagttc gatgtaaccc actcgtgcac 1980 ccaactgatc ttcagcatct tttactttca ccagcgtttc tgggtgagca aaaacaggaa 2040 ggcaaaatgc cgcaaaaaag ggaataaggg cgacacggaa atgttgaata ctcatactct 2100 tcctttttca atattattga agcatttatc agggttattg tctcatgagc ggatacatat 2160 ttgaatgtat ttagaaaaat aaacaaatag gggttccgcg cacatttccc cgaaaagtgc 2220 cacctaaatt gtaagcgtta atattttgtt aaaattcgcg ttaaattttt gttaaatcag 2280 ctcatttttt aaccaatagg ccgaaatcgg caaaatccct tataaatcaa aagaatagac 2340 cgagataggg ttgagtgttg ttccagtttg gaacaagagt ccactattaa agaacgtgga 2400 ctccaacgtc aaagggcgaa aaaccgtcta tcagggcgat ggcccactac gtgaaccatc 2460 accctaatca agttttttgg ggtcgaggtg ccgtaaagca ctaaatcgga accctaaagg 2520 gagcccccga tttagagctt gacggggaaa gccggcgaac gtggcgagaa aggaagggaa 2580 gaaagcgaaa ggagcgggcg ctagggcgct ggcaagtgta gcggtcacgc tgcgcgtaac 2640 caccacaccc gccgcgctta atgcgccgct acagggcgcg tcccattcgc cattcaggct 2700 gcgcaactgt tgggaagggc gatcggtgcg ggcctcttcg ctattacgcc agctggcgaa 2760 agggggatgt gctgcaaggc gattaagttg ggtaacgcca gggttttccc agtcacgacg 2820 ttgtaaaacg acggccagtg agcgcgcgta atacgactca ctatagggcg aattgggtac 2880 caattcgaac gctgacgtca tcaacccgct ccaaggaatc gcgggcccag tgtcactagg 2940 cgggaacacc cagcgcgcgt gcgccctggc aggaagatgg ctgtgaggga caggggagtg 3000 gcgccctgca atatttgcat gtcgctatgt gttctgggaa atcaccataa acgtgaaatg 3060 tctttggatt tgggaatctt ataagttctg tatgaggacc acagatcccc ccgagatgtc 3120 atgaaagaga gttttagagc tagaaatagc aagttaaaat aaggctagtc cgttatcaac 3180 ttgaaaaagt ggcaccgagt cggtgctttt tttacgcgtt gacattgatt attgactagt 3240 tattaatagt aatcaattac ggggtcatta gttcatagcc catatatgga gttccgcgtt 3300 acataactta cggtaaatgg cccgcctggc tgaccgccca acgacccccg cccattgacg 3360 tcaataatga cgtatgttcc catagtaacg ccaataggga ctttccattg acgtcaatgg 3420 gtggagtatt tacggtaaac tgcccacttg gcagtacatc aagtgtatca tatgccaagt 3480 acgcccccta ttgacgtcaa tgacggtaaa tggcccgcct ggcattatgc ccagtacatg 3540 accttatggg actttcctac ttggcagtac atctacgtat tagtcatcgc tattaccatg 3600 gtgatgcggt tttggcagta catcaatggg cgtggatagc ggtttgactc acggggattt 3660 ccaagtctcc accccattga cgtcaatggg agtttgtttt ggcaccaaaa tcaacgggac 3720 tttccaaaat gtcgtaacaa ctccgcccca ttgacgcaaa tgggcggtag gcgtgtacgg 3780 tgggaggtct atataagcag agctctctgg ctaactagag aacccactgc ttactggctt 3840 atcgaaatta atacgactca ctatagggag acccaagctg gctagcgaaa tggcaccgaa 3900 gaagaagcgt aaagtcggaa tccacggagt tcctgcggca atggacaaga agtactccat 3960 tgggctcgct atcggcacaa acagcgtcgg ttgggccgtc attacggacg agtacaaggt 4020 gccgagcaaa aaattcaaag ttctgggcaa taccgatcgc cacagcataa agaagaacct 4080 cattggcgcc ctcctgttcg actccgggga gacggccgaa gccacgcggc tcaaaagaac 4140 agcacggcgc agatataccc gcagaaagaa tcggatctgc tacctgcagg agatctttag 4200 taatgagatg gctaaggtgg atgactcttt cttccatagg ctggaggagt cctttttggt 4260 ggaggaggat aaaaagcacg agcgccaccc aatctttggc aatatcgtgg acgaggtggc 4320 gtaccatgaa aagtacccaa ccatatatca tctgaggaag aagcttgtag acagtactga 4380 taaggctgac ttgcggttga tctatctcgc gctggcgcat atgatcaaat ttcggggaca 4440 cttcctcatc gagggggacc tgaacccaga caacagcgat gtcgacaaac tctttatcca 4500 actggttcag acttacaatc agcttttcga agagaacccg atcaacgcat ccggagttga 4560 cgccaaagca atcctgagcg ctaggctgtc caaatcccgg cggctcgaaa acctcatcgc 4620 acagctccct ggggagaaga agaacggcct gtttggtaat cttatcgccc tgtcactcgg 4680 gctgaccccc aactttaaat ctaacttcga cctggccgaa gatgccaagc ttcaactgag 4740 caaagacacc tacgatgatg atctcgacaa tctgctggcc cagatcggcg accagtacgc 4800 agaccttttt ttggcggcaa agaacctgtc agacgccatt ctgctgagtg atattctgcg 4860 agtgaacacg gagatcacca aagctccgct gagcgctagt atgatcaagc gctatgatga 4920 gcaccaccaa gacttgactt tgctgaaggc ccttgtcaga cagcaactgc ctgagaagta 4980 caaggaaatt ttcttcgatc agtctaaaaa tggctacgcc ggatacattg acggcggagc 5040 aagccaggag gaattttaca aatttattaa gcccatcttg gaaaaaatgg acggcaccga 5100 ggagctgctg gtaaagctta acagagaaga tctgttgcgc aaacagcgca ctttcgacaa 5160 tggaagcatc ccccaccaga ttcacctggg cgaactgcac gctatcctca ggcggcaaga 5220 ggatttctac ccctttttga aagataacag ggaaaagatt gagaaaatcc tcacatttcg 5280 gataccctac tatgtaggcc ccctcgcccg gggaaattcc agattcgcgt ggatgactcg 5340 caaatcagaa gagaccatca ctccctggaa cttcgaggaa gtcgtggata agggggcctc 5400 tgcccagtcc ttcatcgaaa ggatgactaa ctttgataaa aatctgccta acgaaaaggt 5460 gcttcctaaa cactctctgc tgtacgagta cttcacagtt tataacgagc tcaccaaggt 5520 caaatacgtc acagaaggga tgagaaagcc agcattcctg tctggagagc agaagaaagc 5580 tatcgtggac ctcctcttca agacgaaccg gaaagttacc gtgaaacagc tcaaagaaga 5640 ctatttcaaa aagattgaat gtttcgactc tgttgaaatc agcggagtgg aggatcgctt 5700 caacgcatcc ctgggaacgt atcacgatct cctgaaaatc attaaagaca aggacttcct 5760 ggacaatgag gagaacgagg acattcttga ggacattgtc ctcaccctta cgttgtttga 5820 agatagggag atgattgaag aacgcttgaa aacttacgct catctcttcg acgacaaagt 5880 catgaaacag ctcaagaggc gccgatatac aggatggggg cggctgtcaa gaaaactgat 5940 caatgggatc cgagacaagc agagtggaaa gacaatcctg gattttctta agtccgatgg 6000 atttgccaac cggaacttca tgcagttgat ccatgatgac tctctcacct ttaaggagga 6060 catccagaaa gcacaagttt ctggccaggg ggacagtctt cacgagcaca tcgctaatct 6120 tgcaggtagc ccagctatca aaaagggaat actgcagacc gttaaggtcg tggatgaact 6180 cgtcaaagta atgggaaggc ataagcccga gaatatcgtt atcgagatgg cccgagagaa 6240 ccaaactacc cagaagggac agaagaacag tagggaaagg atgaagagga ttgaagaggg 6300 tataaaagaa ctggggtccc aaatccttaa ggaacaccca gttgaaaaca cccagcttca 6360 gaatgagaag ctctacctgt actacctgca gaacggcagg gacatgtacg tggatcagga 6420 actggacatc aatcggctct ccgactacga cgtggatcat atcgtgcccc agtcttttct 6480 caaagatgat tctattgata ataaagtgtt gacaagatcc gataaaaata gagggaagag 6540 tgataacgtc ccctcagaag aagttgtcaa gaaaatgaaa aattattggc ggcagctgct 6600 gaacgccaaa ctgatcacac aacggaagtt cgataatctg actaaggctg aacgaggtgg 6660 cctgtctgag ttggataaag ccggcttcat caaaaggcag cttgttgaga cacgccagat 6720 caccaagcac gtggcccaaa ttctcgattc acgcatgaac accaagtacg atgaaaatga 6780 caaactgatt cgagaggtga aagttattac tctgaagtct aagctggtct cagatttcag 6840 aaaggacttt cagttttata aggtgagaga gatcaacaat taccaccatg cgcatgatgc 6900 ctacctgaat gcagtggtag gcactgcact tatcaaaaaa tatcccaagc ttgaatctga 6960 atttgtttac ggagactata aagtgtacga tgttaggaaa atgatcgcaa agtctgagca 7020 ggaaataggc aaggccaccg ctaagtactt cttttacagc aatattatga attttttcaa 7080 gaccgagatt acactggcca atggagagat tcggaagcga ccacttatcg aaacaaacgg 7140 agaaacagga gaaatcgtgt gggacaaggg tagggatttc gcgacagtcc ggaaggtcct 7200 gtccatgccg caggtgaaca tcgttaaaaa gaccgaagta cagaccggag gcttctccaa 7260 ggaaagtatc ctcccgaaaa ggaacagcga caagctgatc gcacgcaaaa aagattggga 7320 ccccaagaaa tacggcggat tcgattctcc tacagtcgct tacagtgtac tggttgtggc 7380 caaagtggag aaagggaagt ctaaaaaact caaaagcgtc aaggaactgc tgggcatcac 7440 aatcatggag cgatcaagct tcgaaaaaaa ccccatcgac tttctcgagg cgaaaggata 7500 taaagaggtc aaaaaagacc tcatcattaa gcttcccaag tactctctct ttgagcttga 7560 aaacggccgg aaacgaatgc tcgctagtgc gggcgagctg cagaaaggta acgagctggc 7620 actgccctct aaatacgtta atttcttgta tctggccagc cactatgaaa agctcaaagg 7680 gtctcccgaa gataatgagc agaagcagct gttcgtggaa caacacaaac actaccttga 7740 tgagatcatc gagcaaataa gcgaattctc caaaagagtg atcctcgccg acgctaacct 7800 cgataaggtg ctttctgctt acaataagca cagggataag cccatcaggg agcaggcaga 7860 aaacattatc cacttgttta ctctgaccaa cttgggcgcg cctgcagcct tcaagtactt 7920 cgacaccacc atagacagaa agcggtacac ctctacaaag gaggtcctgg acgccacact 7980 gattcatcag tcaattacgg ggctctatga aacaagaatc gacctctctc agctcggtgg 8040 agacagcagg gctgacccca agaagaagag gaaggtgggt ggaggaggta ccggcggtgg 8100 aggctcagca gaatacgtac gagctctgtt tgacttcaat gggaatgacg aggaggatct 8160 cccctttaag aagggcgata ttctccgcat cagagataag cccgaagaac aatggtggaa 8220 tgccgaggat agcgaaggga aaaggggcat gattctggtg ccatatgtgg agaaatattc 8280 cggtgactac aaagaccatg atggggatta caaagaccac gacatcgact acaaagacga 8340 cgacgataaa tcagggatga cagacgccga gtacgtgcgc attcatgaga aactggatat 8400 ttacaccttc aagaagcagt tcttcaacaa caagaaatct gtgtcacacc gctgctacgt 8460 gctgtttgag ttgaagcgaa ggggcgaaag aagggcttgc ttttggggct atgccgtcaa 8520 caagccccaa agtggcaccg agagaggaat acacgctgag atattcagta tccgaaaggt 8580 ggaagagtat cttcgggata atcctgggca gtttacgatc aactggtatt ccagctggag 8640 tccttgcgct gattgtgccg agaaaattct ggaatggtat aatcaggaac ttcggggaaa 8700 cgggcacaca ttgaaaatct gggcctgcaa gctgtactac gagaagaatg cccggaacca 8760 gataggactc tggaatctga gggacaatgg tgtaggcctg aacgtgatgg tttccgagca 8820 ctatcagtgt tgtcggaaga ttttcatcca aagctctcat aaccagctca atgaaaaccg 8880 ctggttggag aaaacactga aacgtgcgga gaagcggaga tccgagctga gcatcatgat 8940 ccaggtcaag attctgcata ccactaagtc tccagccgtt ggtcccaaga agaaaagaaa 9000 agtcggtacc atgaccaacc tttccgacat catagagaag gaaacaggca aacagttggt 9060 catccaagag tcgatactca tgcttcctga agaagttgag gaggtcattg ggaataagcc 9120 ggaaagtgac attctcgtac acactgcgta tgatgagagc accgatgaga acgtgatgct 9180 gctcacgtca gatgccccag agtacaaacc ctgggctctg gtgattcagg actctaatgg 9240 agagaacaag atcaagatgc tagaaggcag gggaagcctt ctgacttgtg gggatgtgga 9300 agaaaaccct ggtccatcta gaatgaccga gtacaagccc acggtgcgcc tcgccacccg 9360 cgacgacgtc ccccgggccg tacgcaccct cgccgccgcg ttcgccgact accccgccac 9420 gcgccacacc gtcgacccgg accgccacat cgagcgggtc accgagctgc aagaactctt 9480 cctcacgcgc gtcgggctcg acatcggcaa ggtgtgggtc gcggacgacg gcgccgcggt 9540 ggcggtctgg accacgccgg agagcgtcga agcgggggcg gtgttcgccg agatcggccc 9600 gcgcatggcc gagttgagcg gttcccggct ggccgcgcag caacagatgg aaggcctcct 9660 ggcgccgcac cggcccaagg agcccgcgtg gttcctggcc accgtcggcg tctcgcccga 9720 ccaccagggc aagggtctgg gcagcgccgt cgtgctcccc ggagtggagg cggccgagcg 9780 cgccggggtg cccgccttcc tggagacctc cgcgccccgc aacctcccct tctacgagcg 9840 gctcggcttc accgtcaccg ccgacgtcga ggtgcccgaa ggaccgcgca cctggtgcat 9900 gacccgcaag cccggtgcct gagcgggact ctggggttcg aaatgaccga ccaagcgacg 9960 cccaacctgc catcacgaga tttcgattcc accgccgcct tctatgaaag gttgggcttc 10020 ggaatcgttt tccgggacgc cggctggatg atcctccagc gcggggatct catgctggag 10080 ttcttcgccc accccaactt gtttattgca gcttataatg gttacaaata aagcaatagc 10140 atcacaaatt tcacaaataa agcatttttt tcactgcatt ctagttgtgg tttgtccaaa 10200 ctcatcaatg tatcttagc 10219 <210> 33 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 33 tttggtactt gttcagcttt attcaagtgg 30 <210> 34 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 34 acaatagctc ttcagtctga taaaatctac 30 <210> 35 <211> 49 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 35 tctttcccta cacgacgctc ttccgatctt aggactgaac gtcttgctc 49 <210> 36 <211> 58 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 36 gtgactggag ttcagacgtg tgctcttccg atctcagtca taggaatgga tctatcac 58 <210> 37 <211> 21 <212> DNA <213> Homo sapiens <400> 37 ctcgagatgt gatgaaggag a 21

Claims

세포에서 DNA의 표적화된 부위를 개변하는 방법으로서,
상기 세포에 내재성인 DNA 변형 효소를 유도하는 인자로 상기 세포를 자극하는 단계, 및 제공된 DNA 중의 표적 뉴클레오티드 서열과 특이적으로 결합하는 핵산 서열-인식 모듈과 DNA 변형 효소-결합 모듈이 결합된 복합체를 상기 DNA와 서로 접촉시킴으로써, 상기 표적화된 부위의 하나 이상의 뉴클레오티드를 다른 하나 이상의 뉴클레오티드로 변환시키거나 하나 이상의 뉴클레오티드를 결실시키거나, 상기 표적화된 부위에 하나 이상의 뉴클레오티드를 삽입하는 단계를 포함하는, 방법.
제1항에 있어서, 상기 표적화된 부위가 상기 DNA의 적어도 하나의 쇄(strand)를 절단하지 않고서 개변되는, 방법.
제1항 또는 제2항에 있어서, 상기 핵산 서열-인식 모듈이, Cas의 적어도 하나의 DNA 절단능이 불활성화된 CRISPR-Cas 시스템, 징크 핑거 모티프(zinc finger motif), TAL 이펙터(effector) 및 PPR 모티프로 이루어진 그룹으로부터 선택되는, 방법.
제1항 내지 제3항 중의 어느 한 항에 있어서, 상기 핵산 서열-인식 모듈이, Cas의 적어도 하나의 DNA 절단능이 불활성화된 CRISPR-Cas 시스템인, 방법.
제1항 내지 제4항 중의 어느 한 항에 있어서, 상기 DNA 변형 효소-결합 모듈이 DNA 변형 효소에 대한 항체, DNA 변형 효소에 대한 펩티드 앱타머(aptamer) 및 DNA 변형 효소에 대한 핵산 앱타머로 이루어진 그룹으로부터 선택되는, 방법.
제1항 내지 제4항 중의 어느 한 항에 있어서, 상기 DNA 변형 효소-결합 모듈이 Vif, Bet 단백질, TopoIIβ, IQGAP2 및 ZNF335 및 이들의 단편으로 이루어진 그룹으로부터 선택되는 적어도 1종인, 방법.
제1항 내지 제6항 중의 어느 한 항에 있어서, 상기 DNA 변형 효소-결합 모듈의 표적 효소가 데아미나제인, 방법.
제7항에 있어서, 상기 데아미나제가 APOBEC 패밀리(family)에 속하는 단백질인, 방법.
제7항 또는 제8항에 있어서, 핵산 서열-인식 모듈과 DNA 변형 효소-결합 모듈이 결합된 복합체가 이에 결합된 염기 제거 수복 억제제(base excision repair inhibitor)를 추가로 포함하는, 방법.
제1항 내지 제9항 중의 어느 한 항에 있어서, 상기 DNA 변형 효소를 유도하는 인자가 인터페론, 석신산 데하이드로게나제 억제제 및 저산소 조건으로 이루어진 그룹으로부터 선택되는 하나 이상인, 방법.
제1항 내지 제10항 중의 어느 한 항에 있어서, 상기 DNA와 상기 복합체가, 상기 세포에 상기 복합체를 코딩하는 핵산을 도입하고, 상기 세포를 배양하여 세포내에서 상기 복합체의 발현을 유발함으로써 접촉되는, 방법.
제1항 내지 제11항 중의 어느 한 항에 있어서, 상기 세포가, 상기 세포를 상기 인자의 존재하에서 인큐베이팅함으로써 DNA 변형 효소를 유도하는 인자로 자극되는, 방법.
제1항 내지 제12항 중의 어느 한 항에 있어서, 상기 세포가 척추동물 세포인, 방법.
제13항에 있어서, 상기 척추동물 세포가 포유동물 세포인, 방법.
제1항 내지 제14항 중의 어느 한 항에 있어서, 상기 DNA가 이본쇄(double stranded) DNA인, 방법.
DNA 중의 표적 뉴클레오티드 서열과 특이적으로 결합하는 핵산 서열-인식 모듈과 DNA 변형 효소-결합 모듈이 서로 결합된 복합체로서,
상기 핵산 서열-인식 모듈은 Cas의 적어도 하나의 DNA 절단능이 불활성화된 CRISPR-Cas 시스템이고, 상기 복합체는 상기 표적화된 부위의 하나 이상의 뉴클레오티드를 다른 하나 이상의 뉴클레오티드로 변환시키거나 하나 이상의 뉴클레오티드를 결실시키거나, 상기 표적화된 부위에 하나 이상의 뉴클레오티드를 삽입하는, 복합체.
제16항에 따르는 복합체를 코딩하는 핵산.
제16항에 따르는 복합체 또는 제17항에 따르는 핵산을 포함하는, DNA의 표적화된 부위의 개변제(agent for altering).
세포에서 이본쇄 DNA의 표적화된 부위를 개변하는 방법으로서,
상기 세포에 내재성인 DNA 변형 효소를 유도하는 인자로 상기 세포를 자극하는 단계, 및 제공된 이본쇄 DNA 중의 표적 뉴클레오티드 서열과 특이적으로 결합하는 핵산 서열-인식 모듈을 상기 이본쇄 DNA와 접촉시켜 상기 표적화된 부위의 하나 이상의 뉴클레오티드를 다른 하나 이상의 뉴클레오티드로 변환시키거나 하나 이상의 뉴클레오티드를 결실시키거나, 상기 표적화된 부위에 하나 이상의 뉴클레오티드를 삽입하는 단계를 포함하는, 방법.