KR20180081811A

KR20180081811A - 표적화 dna 서열 중의 핵산 염기가 특이적으로 전환되어 있는 단자엽식물 게놈 서열을 전환시키는 방법, 및 그것에 사용되는 분자 복합체

Info

Publication number: KR20180081811A
Application number: KR1020187017539A
Authority: KR
Inventors: 케이지 니시다; 젠페이 시마타니; 아키히코 콘도
Original assignee: 고쿠리츠다이가쿠호진 고베다이가쿠
Priority date: 2015-11-27
Filing date: 2016-11-25
Publication date: 2018-07-17
Also published as: CN108495932B; BR112018010681A8; KR102061438B1; EP3382019B1; WO2017090761A1; JP6923205B2; BR112018010681A2; EP3382019A4; CN108495932A; EP3382019A1; HK1256888A1; US11220693B2; US20190085342A1; DK3382019T3; ES2914623T3; JPWO2017090761A1

Abstract

본 발명은, 단자엽식물 세포의 이본쇄 DNA의 표적 부위를 변형시키는 방법으로서, 소정 이본쇄 DNA 중의 표적 뉴클레오티드 서열에 특이적으로 결합하는 핵산 서열-인식 모듈 및 핵산 염기 전환 효소가 결합되어 있는 복합체를 상기 이본쇄 DNA와 접촉시켜, 표적 부위에서 상기 이본쇄 DNA 중의 적어도 하나의 쇄를 절단하지 않으면서, 표적 부위에서 하나 이상의 뉴클레오티드를 다른 하나 이상의 뉴클레오티드로 전환시키거나 하나 이상의 뉴클레오티드를 결실시키거나 하나 이상의 뉴클레오티드를 상기 표적 부위에 삽입하는 단계를 포함하고, 상기 이본쇄 DNA는, 상기 복합체를 코딩하는 핵산을 단자엽식물 세포에 도입하고, 상기 복합체를 세포내 발현시키기 위해 상기 단자엽식물 세포를 배양함으로써 상기 복합체와 접촉되는, 방법을 제공한다. 추가로, 단자엽식물 세포의 이본쇄 DNA 중의 표적 뉴클레오티드 서열에 특이적으로 결합하는 핵산 서열-인식 모듈 및 핵산 염기 전환 효소가 결합되어 있는, 상기 방법에 사용된 복합체가 또한 제공된다.

Description

표적화 DNA 서열 중의 핵산 염기가 특이적으로 전환되어 있는 단자엽식물 게놈 서열을 전환시키는 방법, 및 그것에 사용되는 분자 복합체

본 발명은, 이본쇄 DNA를 절단하지 않으면서, 즉 절단 또는 일본쇄 절단 없이, 단자엽식물 게놈((monocot genome)의 특정 영역에서 핵산 염기의 변형을 가능하게 하는 게놈 서열의 변형 방법, 및 이에 사용되는 핵산 서열-인식 모듈 및 핵산 염기 전환 효소의 복합체에 관한 것이다.

단자엽식물은 피자식물 중에서 1개의 자엽을 갖는 것을 특징으로 하는 식물의 그룹이고, 벼, 밀 및 옥수수의 3개 주요 곡물이 이것에서 분류된다. 따라서, 단자엽식물의 분자 육종은 광범위하게 연구되어 왔다. 그러나, 단자엽식물은 아그로박테리움의 숙주가 아니고, 가장 일반적인 식물 형질전환 방법인 아그로박테리움 방법은 장기간 이용될 수 없으며, 직접 도입 방법이 사용되어 왔다. 1990년대 중반에, 세포 분열 중의 세포를 아그로박테리움으로 감염시킴으로써 벼를 효율적으로 형질전환시킬 수 있는 것으로 보고되었다. 그 이래로, 도입유전자에 의한 단자엽식물의 분자 육종은 크게 진보되어 왔다.

최근에, 다양한 종에서 목적 유전자 및 게놈 영역을 변형시키는 기술로서 게놈 편집이 주목되고 있다. 종래, 게놈 편집 방법으로서, 서열-독립적 DNA 절단 능력을 갖는 분자와 서열 인식 능력을 갖는 분자를 조합하여 포함하는 인공 뉴클레아제를 이용하는 방법이 제안되어 있다(비특허 문헌 1).

예를 들면, 징크 핑거 DNA 결합 도메인 및 비-특이적 DNA 절단 도메인이 결합되어 있는, 징크 핑거 뉴클레아제(ZFN)를 사용함으로써 숙주로서 식물 세포 또는 곤충 세포에서 DNA의 표적 유전자좌에서의 재조합을 수행하는 방법(특허 문헌 1), 식물 병원성 세균 크산토모나스가 갖는 DNA 결합 모듈인 전사 활성화제-양(TAL) 이펙터 및 DNA 엔도뉴클레아제가 결합되어 있는, TALEN을 사용하여 특정 뉴클레오티드 서열 또는 이에 인접하는 부위에서 표적 유전자를 절단 또는 변형시키는 방법(특허 문헌 2), 진정세균 및 고세균에 의해 보유된 획득 면역계에서 기능하는 DNA 서열 CRISPR(Clustered Regularly interspaced short palindromic repeats), 및 CRISPR과 함께 중요한 기능을 갖는 뉴클레아제 Cas(CRISPR-연관된) 단백질 계열이 결합되어 있는 CRISPR-Cas9 시스템을 이용하는 방법(특허 문헌 3) 등이 보고되어 있다. 더욱이, 최근에, Cpf1은 CRISPR-Cas 시스템의 신규 엔도뉴클레아제로서 보고되었다(비특허 문헌 2). 더욱이, 각각 35개 아미노산으로 이루어지고 하나의 핵산 염기를 인식하는 PPR 모티프가 연속하여 특정 뉴클레오티드 서열을 인식하도록 구성된 PPR 단백질 및 뉴클레아제가 결합되어 있는 인공 뉴클레아제를 사용함으로써 특정 서열의 근방에서 표적 유전자를 절단하는 방법(특허 문헌 4)이 또한 보고되어 있다.

이들 게놈 편집 기술은 기본적으로 뉴클레아제에 의한 DNA 이본쇄 절단(DSB)을 상정한다. 그러나, DSB는 예상외의 게놈 변형을 수반하기 때문에, 강력한 세포독성 및 염색체 전좌 등의 부작용이 발생한다. 또한, 세포의 종류에 따라서는, 생존 세포 수가 극히 적고 유전자 변형 자체가 곤란하다는 문제가 있다.

상술한 과제를 감안하여, 본 발명자들은, DNA 서열 인식 능력을 갖는 분자에 탈아민화 반응을 촉매하는 데아미나제가 결합되어 있는 복합체를 숙주 세포에 도입함으로써, 효모 및 에스케리키아 콜라이를 포함하는 다양한 생물에서 특정의 DNA 서열을 함유하는 영역에서 뉴클레오염기 전환에 의해 DSB를 수반하지 않으면서, 게놈 서열이 성공적으로 변형되었음을 보고했다(특허 문헌 5).

이 방법을 단자엽식물 등의 고등 식물에 적용하는 경우, 돌연변이 도입 효율을 추가로 향상시키기 위해, 도입되는 분자 복합체의 구성 및 도입 후의 식물 세포의 배양 조건 등을 추가로 최적화하는 것이 바람직하다. 효모 및 원핵생물에서, 데아미나제의 사용으로부터 예상되는 바와 같이, 돌연변이 양식은 주로 염기 치환이고, 삽입/결실의 빈도는 낮다. 따라서, 상이한 종류의 돌연변이를 효율적으로 도입하는 기술의 개발이 또한 요망된다.

[문헌 목록]

[특허 문헌]

특허 문헌 1: JP-B-4968498

특허 문헌 2: 국제 특허 출원 제2013-513389호의 국제 공보

특허 문헌 3: 국제 특허 출원 제2010-519929호의 국제 공보

특허 문헌 4: JP-A-2013-128413

특허 문헌 5: WO 2015/133554

[비특허 문헌]

비특허 문헌 1: Kelvin M Esvelt, Harris H Wang (2013) Genome-scale engineering for systems and synthetic biology, Molecular systems Biology 9: 641

비특허 문헌 2: Bernd Zetsche et al. (2015) Cpf1 Is a Single RNA-Guided Endonuclease of a Class 2 CRISPR-Cas system, Cell 163: 759-771

따라서, 본 발명의 제1 목적은, DSB 없이, 즉 이본쇄 DNA의 비-절단 또는 일본쇄 절단에 의해 단자엽식물 게놈 유전자의 특정 서열의 핵산 염기를 효율적으로 변형시키기 위한 신규한 게놈 편집 방법, 및 보다 바람직하게는 이를 위해 사용되는 핵산 서열-인식 모듈 및 핵산 염기 전환 효소의 복합체를 제공하는 것이다. 또한, 본 발명의 제2 목적은, 데아미나제를 사용하는 DSB를 수반하지 않는 게놈 편집에서 염기 치환과는 상이한 방식으로 돌연변이를 숙주 세포에 효율적으로 도입할 수 있는 수단을 제공하는 것이다.

상술한 제1 목적을 달성하기 위해, 본 발명자들은, 먼저 인공 뉴클레아제로서 CRISPR/Cas9 시스템 중의 벼에 최적화된 표적 벡터 pZH_OsU6 gRNA_MMCas9(Plant Mol Biol (2015) 88:561-572) 및 데아미나제를 조합했다(도 1B 참조). 즉, 표적 DNA의 쇄 중의 둘 다 또는 하나의 절단 능력을 불활성화시키는 돌연변이를 상술한 표적 벡터에서 벼의 코돈의 사용을 위해 최적화된 Cas9 코딩 서열(OsCas9)에 도입하고, 코딩 서열을 식물 코돈의 사용을 위해 최적화된 시티딘 데아미나제 코딩 서열(AtPmCDA)과 융합했다. 세포질에서 합성된 Cas9/데아미나제 융합 단백질의 핵 내로의 전이 효율은 식물 세포가 효모 등보다 더 큰 세포 크기를 갖기 때문에 감소될 수 있다는 가설을 전제로 하여, 핵 국재화 신호(NLS)를 Cas9의 상류 뿐만 아니라 데아미나제의 양 말단에 부가했다. 개선된 벡터를 벼 칼루스 내로 도입한 결과, 표적 뉴클레오티드 서열 중의 목적 염기는 다른 염기에 의해 성공적으로 치환될 수 있다. 보다 놀랍게도, 표적 DNA의 1개 쇄의 절단 능력이 불활성화되어 있는(닉카제 활성을 갖는) CAS9(D10A)를 사용하는 경우, 데아미나제에 의해 탈아민화된 염기를 중심으로 하는 영역에서 결실 돌연변이가 주로 발생할 수 있다는 것이 명백해졌다.

또한, 본 발명자들은, 유전자-도입된 벼 칼루스를 돌연변이-도입된 균주의 선택 단계에서 통상 사용되는 배양 온도보다 낮은 온도에서 배양함으로써 돌연변이 도입 효율을 추가로 개선시키는 것에 성공했다.

본 발명자들은, 이들 발견에 기초하여 추가 검토를 수행하였고, 본 발명을 완성시켰다.

따라서, 본 발명은 이하를 제공한다.

[1] 단자엽식물 세포의 이본쇄 DNA의 표적 부위를 변형시키는 방법으로서,

소정 이본쇄 DNA 중의 표적 뉴클레오티드 서열에 특이적으로 결합하는 핵산 서열-인식 모듈 및 핵산 염기 전환 효소가 결합되어 있는 복합체를 상기 이본쇄 DNA와 접촉시켜, 표적 부위에서 상기 이본쇄 DNA 중의 적어도 하나의 쇄를 절단하지 않으면서, 표적 부위에서 하나 이상의 뉴클레오티드를 다른 하나 이상의 뉴클레오티드로 전환시키거나 하나 이상의 뉴클레오티드를 결실시키거나 하나 이상의 뉴클레오티드를 상기 표적 부위에 삽입하는 단계를 포함하고,

상기 이본쇄 DNA는, 상기 복합체를 코딩하는 핵산을 단자엽식물 세포에 도입하고, 상기 복합체를 세포내 발현시키기 위해 상기 단자엽식물 세포를 배양함으로써 상기 복합체와 접촉되는, 방법.

[2] 상기 [1]에 있어서, 상기 배양 단계가 상기 단자엽식물 세포의 최적 배양 온도보다 낮은 온도에서 적어도 부분적으로 수행되는, 방법

[3] 상기 [1] 또는 [2]에 있어서, 상기 핵산 서열-인식 모듈이, Cas의 적어도 하나의 DNA 절단 능력을 불활성화시킨 CRISPR-Cas 시스템, 징크 핑거 모티프, TAL 이펙터 및 PPR 모티프로 이루어진 그룹으로부터 선택되는, 방법.

[4] 상기 [1] 또는 [2]에 있어서, 상기 핵산 서열-인식 모듈이 Cas의 적어도 하나의 DNA 절단 능력을 불활성화시킨 CRISPR-Cas 시스템인, 방법.

[5] 상기 [4]에 있어서, 상기 핵산 서열-인식 모듈이, 가이드 RNA와의 상보성 쇄를 형성하는 쇄의 반대측 쇄의 절단 능력을 불활성화시킨 CRISPR-Cas 시스템인, 방법.

[6] 상기 [5]에 있어서, 상기 표적 부위의 하나 이상의 뉴클레오티드가 결실되는, 방법.

[7] 상기 [1] 내지 [6] 중의 어느 하나에 있어서, 상기 핵산 염기 전환 효소가 데아미나제인, 방법.

[8] 상기 [7]에 있어서, 상기 데아미나제가 시티딘 데아미나제인, 방법.

[9] 상기 [8]에 있어서, 상기 시티딘 데아미나제가 페트로마이존 마리누스로부터 유래하는 PmCDA1인, 방법.

[10] 상기 [1] 내지 [9] 중의 어느 하나에 있어서, 상기 핵산 서열-인식 모듈 및 상기 핵산 염기 전환 효소를 코딩하는 핵산 서열이 피자식물 및 단자엽식물의 코돈의 사용을 위해 최적화되는, 방법.

[11] 상기 [1] 내지 [10] 중의 어느 하나에 있어서, 핵 국재화 신호가 상기 핵산 서열-인식 모듈 및 핵산 염기 전환 효소의 양 말단에 부가되는, 방법.

[12] 상기 [1] 내지 [11] 중의 어느 하나에 있어서, 상기 단자엽식물이 벼, 밀 또는 옥수수인, 방법.

[13] 상기 [12]에 있어서, 상기 단자엽식물이 벼인, 방법.

[14] 핵산-변형 효소 복합체로서,

단자엽식물 세포의 이본쇄 DNA 중의 표적 뉴클레오티드 서열에 특이적으로 결합하는 핵산 서열-인식 모듈 및 핵산 염기 전환 효소가 결합되어 있고, 이는, 표적 부위에서 상기 이본쇄 DNA 중의 적어도 하나의 쇄를 절단하지 않으면서, 단자엽식물 세포에서 작용하고 표적 부위 중의 하나 이상의 뉴클레오티드를 다른 하나 이상의 뉴클레오티드로 전환시키거나 하나 이상의 뉴클레오티드를 결실시키거나 하나 이상의 뉴클레오티드를 상기 표적 부위에 삽입하는, 핵산-변형 효소 복합체.

[15] 상기 [14]에 있어서, 상기 핵산 서열-인식 모듈이, Cas의 적어도 하나의 DNA 절단 능력을 불활성화시킨 CRISPR-Cas 시스템이고, 상기 핵산 전환 효소가 시티딘 데아미나제인, 핵산 변형 효소 복합체.

[16] 상기 [14] 또는 [15]에 있어서, 핵 국재화 신호가 상기 핵산 서열-인식 모듈 및 핵산 염기 전환 효소의 양 말단에 부가되는, 핵산 변형 효소 복합체.

[17] 상기 [14] 내지 [16] 중의 어느 하나에 따르는 핵산 변형 효소 복합체를 코딩하는 핵산.

[18] 상기 [17]에 있어서, 상기 핵산 서열-인식 모듈 및 상기 핵산 염기 전환 효소를 코딩하는 핵산 서열이 피자식물 또는 단자엽식물의 코돈의 사용을 위해 최적화되는, 핵산.

본 발명의 게놈 편집 기술에 따르면, DNA 이본쇄의 절단을 수반하지 않기 때문에, 당해 기술은 안전성이 우수하고 돌연변이 도입 효율이 높은 단자엽식물의 유전자 변형이 가능해진다.

도 1은 실시예에 사용된 벡터 플라스미드의 구조를 모식적으로 나타낸다. A: 표적-AID 평가를 위한 벡터. B: 표적-AID 벡터.
도 2는 2종류의 표적-AID 평가용 벡터를 도입한 벼 칼루스에서 EGFP의 발현을 나타낸다.
도 3은 pRIT3-mEGFP 및 2409를 도입하여 수득한 이중 형질전환체의 PCR 분석에 의한 mEGFP 및 hpt 유전자의 도입의 확인 결과를 나타낸다.
도 4는 pRIT3-mEGFP 및 2409를 도입하여 수득한 이중 형질전환체 클론 No. 6의 EGFP 발현을 나타낸다.
도 5는 pRIT3-mEGFP 및 2409를 도입하여 수득한 이중 형질전환체 클론 No. 3의 EGFP 발현을 나타낸다.
도 6은 pRIT3-mEGFP 및 2409를 도입하여 수득한 2종류의 이중 형질전환체 클론(A 및 B)에서 표적 뉴클레오티드 서열의 근방에서 서열의 분석 결과를 나타낸다.
도 7은 pRIT3-mEGFP 및 2409를 도입하여 수득한 이중 형질전환체 클론 No. 39에서 표적 뉴클레오티드 서열의 근방에서 서열의 분석 결과를 나타낸다.
도 8은 pRIT3-mEGFP 및 2408를 도입하여 수득한 이중 형질전환체 클론 No. 1에서 표적 뉴클레오티드 서열의 근방에서 서열의 분석 결과를 나타낸다.
도 9는 pRIT3-mEGFP 및 2408를 도입하여 수득한 이중 형질전환체 클론 No. 2에서 표적 뉴클레오티드 서열의 근방에서 서열의 분석 결과를 나타낸다.
도 10은 pRIT3-mEGFP 및 2408를 도입하여 수득한 이중 형질전환체 클론 No. 4에서 표적 뉴클레오티드 서열의 근방에서 서열의 분석 결과를 나타낸다.
도 11은 pRIT3-mEGFP 및 2408를 도입하여 수득한 이중 형질전환체 클론 No. 1의 서브클론 No. 1D(GFP 신호 음성)에서 표적 뉴클레오티드 서열의 근방에서 서열의 분석 결과를 나타낸다.
도 12는 벼 칼루스에 대한 이마자목스의 유효 농도의 평가 결과를 나타낸다. 상부 패널은 이마자목스-첨가 배지에 벼 칼루스를 접종한 일의 사진이고, 하부 패널은 배양 28일 후의 사진이다.
도 13은 이마자목스 내성 부여 시험에 사용된 야생형 ALS 및 돌연변이형 ALS A96V의 발현 벡터의 모식도를 나타낸다.
도 14는 표적-AID에 의한 벼 ALS A96V 변형의 표적 서열을 나타낸다.
도 15는 표적-AID에 의한 벼 ALS 유전자의 변형을 나타낸다.
도 16은 표적-AID에 의한 벼 ALS A96V 변형 칼루스로부터 재분화된 T0 식물체의 사진이다.
도 17은 표적-AID에 의한 벼 ALS A96V 변형 칼루스로부터 재분화된 T0 식물체가 원래 칼루스와 동일한 ALS 유전자 변형을 보유하는 것을 나타낸다.
도 18은 표적-AID에 의한 복수 유전자의 동시 변형을 나타낸다.

본 발명은, 단자엽식물 세포에서 변형되는 이본쇄 DNA를 절단시키지 않으면서, 이본쇄 DNA에서 표적 뉴클레오티드 서열 및 그 근방의 뉴클레오티드를 다른 뉴클레오티드로 전환시킴으로써 이본쇄 DNA의 표적 부위를 변형시키는 방법(이하 "본 발명의 방법"이라고도 한다)을 제공한다. 상기 방법은, 이본쇄 DNA에서 표적 뉴클레오티드 서열에 특이적으로 결합하는 핵산 서열-인식 모듈 및 핵산 염기 전환 효소를 숙주 단자엽식물 세포 중의 이본쇄 DNA와 접촉시켜 표적 부위, 즉 표적 뉴클레오티드 서열 및 그 근방의 뉴클레오티드를 다른 뉴클레오티드로 전환시키는 복합체를 접촉시키는 단계를 특징적으로 함유한다.

본 발명의 방법에 유용한 단자엽식물은 특히 한정되지 않지만, 예를 들면, 벼, 밀, 옥수수, 보리, 호밀 등의 곡류, 백합 등의 원예 식물, 보다 바람직하게는 벼, 밀 또는 옥수수, 특히 바람직하게는 벼이다.

본 발명에서, 이본쇄 DNA의 "변형"은 DNA 쇄 상의 뉴클레오티드(예: dC)가 다른 뉴클레오티드(예: dT, dA 또는 dG)로 전환되거나, 결실되거나, 뉴클레오티드 또는 뉴클레오티드 서열이 DNA 쇄 상의 특정 뉴클레오티드 사이에 삽입되는 것을 의미한다. 변형되는 이본쇄 DNA는, 숙주 세포에 존재하는 이본쇄 DNA인 한, 특별히 제한되지 않지만, 바람직하게는 게놈 DNA, 특히 핵 게놈 DNA이다. 이본쇄 DNA의 "표적 부위"는, 핵산 서열-인식 모듈이 특이적으로 인식하거나 결합하는 전체 또는 부분 "표적 뉴클레오티드 서열", 또는 인접하는 표적 뉴클레오티드 서열(5' 상류 및 3' 하류 중의 하나 또는 둘 다)를 의미한다. 또한, "표적 뉴클레오티드 서열"은 이본쇄 DNA 중의 핵산 서열-인식 모듈이 결합하는 서열을 의미한다.

본 발명에서, "핵산 서열-인식 모듈"은 DNA 쇄 상의 특정 뉴클레오티드 서열(즉, 표적 뉴클레오티드 서열)을 특이적으로 인식하고 이에 결합하는 능력을 갖는 분자 또는 분자 복합체를 의미한다. 표적 뉴클레오티드 서열에 대한 핵산 서열-인식 모듈의 결합은 분자에 결합된 핵산 염기 전환 효소가 이본쇄 DNA의 표적 부위에 특이적으로 작용하는 것을 가능하게 한다.

본 발명에서, "핵산 염기 전환 효소"는, DNA 쇄를 절단시키지 않으면서, DNA 염기 상의 퓨린 또는 피리미딘 환 상의 치환체를 다른 그룹 또는 원자로 전환시키는 반응을 촉매함으로써 표적 뉴클레오티드를 다른 뉴클레오티드로 전환시킬 수 있는 효소를 의미한다.

본 발명에서, "핵산-변형 효소 복합체"는, 상기 핵산 서열-인식 모듈 및 핵산 염기 전환 효소를 연결시키고 핵산 염기 전환 효소 활성을 갖는 복합체를 포함하는 분자 복합체를 의미하고, 특정 뉴클레오티드 서열 인식 능력을 부여한다. 여기서 "복합체는 복수 분자로 이루어진 것 뿐만 아니라, 융합 단백질과 같이 핵산 서열-인식 모듈 및 핵산 염기 전환 효소를 단일 분자에 갖는 것도 포함한다.

본 발명의 방법에 사용되는 핵산 염기 전환 효소는, 상기 반응을 촉매하는 한, 특별히 한정되지 않고, 이의 예는 핵산/뉴클레오티드 데아미나제 상과에 속하는 데아미나제를 포함하고, 이는 아미노 그룹을 카보닐 그룹으로 전환시키는 탈아민화 반응을 촉매한다. 이의 바람직한 예는 티로신 또는 5-메틸시토신을 각각 우라실 또는 티민으로 전환시킬 수 있는 시티딘 데아미나제, 아데닌을 하이포크산틴으로 전환시킬 수 있는 아데노신 데아미나제, 구아닌을 크산틴으로 전환시킬 수 있는 구아노신 데아미나제 등을 포함한다. 시티딘 데아미나제로서는, 척추동물 등의 후천성 면역에서 면역글로불린 유전자에 돌연변이를 도입하는 효소인 활성화-유도된 시티딘 데아미나제(이하 AID로도 지칭된다)가 보다 바람직하다.

핵산 염기 전환 효소의 유도는 특히 한정되지 않지만, 예를 들면, 시티딘 데아미나제인 경우, 페트로마이존 마리누스로부터 유래하는 PmCDA1(페트로마이존 마리누스 시토신 데아미나제 1), 또는 척추동물(예를 들면, 인간, 돼지, 소, 개, 침팬지 등의 포유동물, 닭 등의 조류, 제노푸스 등의 양서류, 제브라피쉬, 은어, 수로 메기 등의 어류)로부터 유래하는 AID(활성화-유도된 시티딘 데아미나제; AICDA)를 사용할 수 있다.

본 발명의 핵산-변형 효소 복합체에서 핵산 서열-인식 모듈에 의해 인식되는 이본쇄 DNA 중의 표적 뉴클레오티드 서열은, 당해 모듈이 특이적으로 결합하는 한, 특별히 한정되지 않고, 이본쇄 DNA 중의 임의 서열일 수 있다. 표적 뉴클레오티드 서열의 길이는 단지 핵산 서열-인식 모듈의 특이적 결합에 충분하면 된다. 예를 들면, 단자엽식물의 게놈 크기에 따라, 12개 뉴클레오티드 이상, 바람직하게는 15개 뉴클레오티드 이상, 보다 바람직하게는 18개 뉴클레오티드 이상이다. 길이의 상한은 특별히 한정되지 않지만, 바람직하게는 25개 뉴클레오티드 이하, 보다 바람직하게는 22개 뉴클레오티드 이하이다.

본 발명의 핵산-변형 효소 복합체에서 핵산 서열-인식 모듈로서는, Cas의 적어도 하나의 DNA 절단 능력을 불활성화시킨 CRISPR-Cas 시스템(CRISPR-돌연변이 Cas), 징크 핑거 모티프, TAL 이펙터 및 PPR 모티프 등, 뿐만 아니라 DNA에 특이적으로 결합하는, 예를 들면, 제한 효소, 전사 인자, RNA 폴리머라제 등의 단백질의 DNA 결합 도메인을 함유하지만 DNA 이본쇄 절단 능력을 갖지 않는 단편 등을 사용할 수 있지만, 모듈은 이로써 한정되지 않는다. 바람직하게는, CRISPR-돌연변이 Cas, 징크 핑거 모티프, TAL 이펙터, PPR 모티프 등을 언급할 수 있다.

징크 핑거 모티프는 3 내지 6개의 상이한 Cys2His2형 징크 핑거 단위(1개 핑거는 약 3개 염기를 인식한다)의 결합에 의해 구성되고, 9 내지 18개 염기의 표적 뉴클레오티드 서열을 인식할 수 있다. 징크 핑거 모티프는 모듈라 어셈블리 방법(Nat Biotechnol (2002) 20: 135-141), OPEN 방법(Mol Cell (2008) 31: 294-301), CoDA 방법(Nat Methods (2011) 8: 67-69), 에스케리키아 콜라이 원-하이브리드 방법(Nat Biotechnol (2008) 26:695-701) 등과 같은 공지된 방법에 의해 생성할 수 있다. 상술한 특허 문헌 1은 징크 핑거 모티프 생성의 상세에 대해 언급하는 것일 수 있다.

TAL 이펙터는 약 34개의 아미노산을 단위로 갖는 모듈 반복 구조를 갖고, 1개 모듈의 제12 및 제13 아미노산 잔기(RVD로 불리움)은 결합 안정성 및 염기 특이성을 결정한다. 각 모듈은 고도로 독립적이기 때문에, 표적 뉴클레오티드 서열에 특이적인 TAL 이펙터는 모듈을 단순히 접속시킴으로써 생성할 수 있다. TAL 이펙터에 있어서, 오픈 리소스를 이용하는 생산 방법(REAL 방법)(Curr Protoc Mol Biol (2012) Chapter 12: Unit 12.15), FLASH 방법(Nat Biotechnol (2012) 30: 460-465) 및 골든 게이트 방법(Nucleic Acids Res (2011) 39: e82) 등은 확립되어 있고, 표적 뉴클레오티드 서열에 대한 TAL 이펙터는 비교적 간편하게 설계할 수 있다. 상기 특허 문헌 2는 TAL 이펙터의 생성의 상세에 대해 언급하는 것일 수 있다.

PPR 모티프는, 특정 뉴클레오티드 서열이 35개 아미노산으로 이루어지고 1개 핵산 염기를 인식하는 PPR 모티프의 연속에 의해 인식되고, 각 모티프의 1, 4, 및 ii(-2) 아미노산에 의해서만 표적 염기를 인식하도록 구성된다. 모티프 구성은 의존성이 없고, 양 측면 상의 모티프의 간섭이 없다. 따라서, TAL 이펙터와 같이, 표적 뉴클레오티드 서열에 특이적인 PPR 단백질은 PPR 모티프를 단순히 연결시킴으로써 생성할 수 있다. 상기 특허 문헌 4는 PPR 모티프의 생성의 상세에 대해 언급하는 것일 수 있다.

제한 효소, 전사 인자, RNA 폴리머라제 등의 단편을 사용하는 경우, 이들 단백질의 DNA 결합 도메인은 공지되어 있기 때문에, 도메인을 함유하고 DNA 이본쇄 절단 능력이 없는 단편을 용이하게 설계하고 작제할 수 있다.

임의의 상기 핵산 서열-인식 모듈은, 상기 핵산 염기 전환 효소와의 융합 단백질로서 제공될 수 있거나, SH3 도메인, PDZ 도메인, GK 도메인, GB 도메인 등의 단백질 결합 도메인 및 이의 결합 파트너는 각각 핵산 서열-인식 모듈 및 핵산 염기 전환 효소와 융합될 수 있고, 상기 도메인 및 이의 결합 파트너의 상호작용을 통해 단백질 복합체로서 제공될 수 있다. 또는, 핵산 서열-인식 모듈 및 핵산 염기 전환 효소를 각각 인테인과 융합시킬 수 있고, 단백질 합성 후에 결찰에 의해 연결시킬 수 있다.

핵산 서열-인식 모듈 및 핵산 염기 전환 효소가 결합되어 있는 복합체(융합 단백질을 포함)를 함유하는 본 발명의 핵산-변형 효소 복합체는 이본쇄 DNA와 접촉시킬 수 있다. 복합체를 코딩하는 핵산은 목적 이본쇄 DNA(예를 들면, 핵 게놈 DNA)를 갖는 단자엽식물 세포 내로 도입된다.

따라서, 핵산 서열-인식 모듈 및 핵산 염기 전환 효소는 이의 융합 단백질을 코딩하는 핵산으로서 제조되거나, 결합 도메인, 인테인 등을 이용하여 단백질 내로 번역된 후에 숙주 세포 내에서 복합체를 형성하는 형태로 제조되거나, 이들 각각을 코딩하는 핵산으로서 제조된다. 여기서 핵산은 DNA 또는 RNA, 바람직하게는 DNA일 수 있다. DNA인 경우, 바람직하게는 이본쇄 DNA이고, 숙주 세포에서 기능성 프로모터의 조절하에 배치된 발현 벡터의 형태로 제공된다.

핵산 서열-인식 모듈 및 핵산 염기 전환 효소가 결합되어 있는 본 발명의 복합체는 이본쇄 DNA 절단(DSB)을 수반하지 않기 때문에, 독성이 낮은 게놈 편집이 가능하고, 본 발명의 유전자 변형 방법은 일반적으로 광범위한 단자엽식물에 적용할 수 있다.

징크 핑거 모티프, TAL 이펙터, PPR 모티프 등의 핵산 서열-인식 모듈을 코딩하는 DNA는 각 모듈에 대해 상술한 임의의 방법에 의해 수득할 수 있다. 제한 효소, 전사 인자, RNA 폴리머라제 등의 서열-인식 모듈을 코딩하는 DNA는, 예를 들면, 이의 cDNA 서열 정보에 기초하여 목적하는 단백질 부분(DNA 결합 도메인을 함유하는 부분)을 코딩하는 영역을 커버하는 올리고DNA 프라이머를 합성하고, 단백질-생성 세포로부터 제조된 전체 RNA 또는 mRNA 분획을 주형으로 사용하여 RT-PCR 방법에 의해 증폭시킴으로써 클로닝할 수 있다.

핵산 염기 전환 효소를 코딩하는 DNA는 또한, 이의 cDNA 서열 정보에 기초하여 올리고DNA 프라이머를 합성하고, 효소-생성 세포로부터 제조한 전체 RNA 또는 mRNA 분획을 주형으로 사용하는 RT-PCR 방법에 의해 증폭시킴으로써 유사하게 클로닝할 수 있다. 예를 들면, 페트로마이존 마리누스의 PmCDA1을 코딩하는 DNA는 NCBI 데이터베이스에 등록된 cDNA 서열(수탁 번호 EF094822)에 기초하여 CDS의 상류 및 하류에 적합한 프라이머를 설계하고, RT-PCR 방법에 의해 페트로마이존 마리누스-유래된 mRNA로부터 클로닝함으로써 클로닝할 수 있다. 인간 AID를 코딩하는 DNA는 NCBI 데이터베이스에 등록된 cDNA 서열(수탁 번호 AB040431)에 기초하여 CDS의 상류 및 하류에 적합한 프라이머를 설계하고, 예를 들면, RT-PCR 방법에 의해 인간 림프절-유래된 mRNA로부터 클로닝함으로써 클로닝할 수 있다. 기타 척추동물로부터 유래된 AID 상동체는 공지된 cDNA 서열 정보(예를 들면, 돼지(수탁 번호 CU582981), 소(수탁 번호 NM_110138682), 개(수탁 번호 NM_001003380), 침팬지(수탁 번호 NM_001071809), 닭(수탁 번호 NM_001243222), 제노푸스(수탁 번호 NM_001095712), 제브라피쉬(수탁 번호 AAI62573), 은어(수탁 번호 AB619797), 수로 메기(수탁 번호 NM_001200185) 등)에 기초하여 상기와 동일한 방법으로 또한 클로닝할 수 있다.

클로닝된 DNA는 직접, 또는 필요에 따라 제한 효소로 소화시킨 후에, 또는 적합한 링커 및/또는 핵 국재화 신호(목적 이본쇄 DNA가 미토콘드리아 또는 엽록체 DNA인 경우, 각 세포소기관 전이 신호)의 부가 후에, 융합 단백질을 코딩하는 DNA를 제조하기 위해 핵산 서열-인식 모듈을 코딩하는 DNA와 결찰시킬 수 있다. 바람직한 실시형태에서, 핵 국재화 신호 등의 세포소기관 전이 신호를 코딩하는 DNA 서열은 핵산 서열-인식 모듈을 코딩하는 DNA 및 핵산 염기 전환 효소를 코딩하는 DNA의 양 말단에 바람직하게 부가된다. 단자엽식물 세포는 효모 세포와 비교하여 크기가 더 크기 때문에, 단백질이 합성되는 세포질과 핵 사이의 거리가 증가한다. 따라서, 핵산 서열-인식 모듈 및 핵산 염기 전환 효소의 복합체와 같이 고분자량을 갖는 단백질 분자를 핵에 효율적으로 수송하기 위해, 핵 국재화 신호는 바람직하게는 핵산 서열-인식 모듈 및 핵산 염기 전환 효소 둘 다에 부가된다. 핵산 서열-인식 모듈 및 핵산 염기 전환 효소가 융합 단백질로서 발현되는 경우, 핵 국재화 신호는 융합 단백질의 양 말단, 및 핵산 서열-인식 모듈 및 핵산 염기 전환 효소 사이에 부가할 수 있다. 핵 국재화 신호는, 이것이 단자엽식물에서 기능하는 한, 특별히 한정되지 않는다. 예를 들면, SV40-유래된 핵 국재화 신호(PKKKRKV; 서열번호 6)를 언급할 수 있다.

또는, 핵산 서열-인식 모듈을 코딩하는 DNA, 및 핵산 염기 전환 효소를 코딩하는 DNA는 각각 결합 도메인 또는 이의 결합 파트너를 코딩하는 DNA와 융합시킬 수 있거나, 양 DNA는 분리 인테인을 코딩하는 DNA와 융합시킬 수 있고, 이에 의해 핵산 서열-인식 전환 모듈 및 핵산 염기 전환 효소를 숙주 세포에서 번역하여 복합체를 형성한다. 이들 경우에, 링커 및/또는 핵 국재화 신호는 필요에 따라 한쪽 또는 양쪽 DNA의 적합한 위치에 연결시킬 수 있다.

핵산 서열-인식 모듈을 코딩하는 DNA 및 핵산 염기 전환 효소를 코딩하는 DNA는 DNA 쇄를 화학적으로 합성하거나, 이의 전체 길이를 코딩하는 DNA를 작제하기 위해 PCR 방법 및 깁슨 어셈블리(Gibson Assembly) 방법을 사용하여 합성된 부분 중첩 올리고DNA 단쇄를 연결함으로써 수득할 수 있다. 화학적 합성 또는 PCR 방법 또는 깁슨 어셈블리 방법의 조합에 의해 전장 DNA를 작제하는 잇점은 사용되는 코돈이, DNA가 도입되는 숙주에 따라 CDS 전장으로 설계될 수 있다는 것이다. 이종 DNA의 발현에서, 단백질 발현 수준은 이의 DNA 서열을 숙주 생물에서 매우 빈번하게 사용되는 코돈으로 전환함으로써 증가할 것으로 예상된다. 사용되는 숙주에서 코돈 사용 빈도의 데이터로서는, 예를 들면, 카즈사(Kazusa) DNA 연구소의 홈 페이지에 개시된 유전자 코드 사용 빈도 데이터베이스(http://www.kazusa.or.jp/codon/index.html)를 사용할 수 있거나, 각 숙주에서 코돈 사용 빈도를 나타내는 문서를 참조할 수 있다. 수득된 데이터 및 도입되는 DNA 서열을 참조함으로써, DNA 서열에 사용된 것들 중에서 숙주에서 낮은 사용 빈도를 나타내는 코돈은 동일한 아미노산을 코딩하고 높은 사용 빈도를 나타내는 코돈으로 전환할 수 있다. 예를 들면, 숙주 세포가 벼 세포인 경우, 벼 등의 단자엽식물, 또는 일반적으로 아라비돕시스 탈리아나 등의 피자 식물에서 코돈 사용을 위해 최적화된 핵산 서열-인식 모듈 및/또는 핵산 염기 전환 효소 코딩 서열을 사용할 수 있다. 예를 들면, 피자식물에서의 발현에 적합한 코돈을 사용하는 PmCDA1 DNA, 서열번호 1에 제시된 뉴클레오티드 서열을 갖는 DNA를 언급할 수 있다.

핵산 서열-인식 모듈 및/또는 핵산 염기 전환 효소를 코딩하는 DNA를 함유하는 발현 벡터는, 예를 들면, 프로모터를 함유하는 발현 벡터에서 단자엽식물 세포에서 기능가능한 프로모터의 하류에 DNA를 연결함으로써 제조할 수 있다.

단자엽식물 세포에서 복제가능한 벡터는, 단자엽식물 세포에서 기능하는 복제 기원(예를 들면, Ti 플라스미드, Ri 플라스미드 등의 ori)을 갖는 한, 특별히 한정되지 않는다. 바람직하게는, 이는 에스케리키아 콜라이의 복제 기원(예를 들면, ColE1 ori 등)을 함유한다. 아그로박테리움 방법이 유전자 전달 방법으로 사용되는 경우, Ti 플라스미드, Ri 플라스미드의 병원성 유전자가 제거된 T-DNA 단편(경계 서열 RB 및 LB를 포함)을 추가로 함유하는 것이 필요하다. 이의 예는, 이로써 한정되지 않지만, pBIN193-유래된 pBI101, pBI121(Clontech) 및 이를 골격으로 사용하는 개선된 벡터(예를 들면, pRI909, pRI910, pRI101, pRI201(Takara Bio Inc.) 등)를 포함한다.

프로모터로서는 단자엽식물 세포에서 기능할 수 있는 임의의 프로모터를 사용할 수 있다. DSB를 사용하는 종래의 방법에서, 숙주 세포의 생존 비율은 종종 독성에 기인하여 현저히 저하되기 때문에, 유도 프로모터(예를 들면, 손상, 살리실산 처리에 의해 유도된 PR1α 유전자 프로모터, 건조, 저온, 아브시스산 처리에 의해 유도된 rd29A 유전자 프로모터, 디클로르미드 처리 등에 의해 유도된 GST-27 유전자 프로모터)를 사용하여 유도 개시에 의해 세포 수를 증가시키는 것이 바람직하다. 그러나, 충분한 세포 증식은 본 발명의 핵산-변형 효소 복합체를 발현시킴으로써 제공될 수 있기 때문에, 구성 프로모터를 제한 없이 또한 사용할 수 있다. 구성 프로모터로서는 콜리플라워 모자이크 바이러스(CaMV)35S 프로모터, CaMV19S 프로모터, 노팔린 신세타제(NOS) 프로모터, 파슬리-유래된 우비퀴틴 프로모터(Pcubi4-2) 등을 언급할 수 있다. 탄뎀에 연결된 이들 프로모터 또는 이의 단편(예를 들면, 2x35S)을 또한 사용할 수 있다.

발현 벡터는, 필요한 경우, 터미네이터(예를 들면, NOS 터미네이터, 완두 rbcS3A 터미네이터, 열 충격 단백질(HSP)17.3 터미네이터 등), 번역 인핸서(예를 들면, 벼-유래된 알콜데하이드로게나제 5' 비번역된 영역(Os ADH-5'UTR), CaMV 또는 담배 모자이크 바이러스(TMV)-유래된 Ω 서열 등), 3' 조절 영역(예를 들면, 벼-유래된 액틴 유전자 (Act1)3'UTR 등), 폴리A-부가된 신호, 약물 내성 유전자의 선택 마커(예를 들면, G418 내성 유전자(nPtII), 하이그로마이신 내성 유전자(hpt) 등) 등을 함유할 수 있다.

핵산 서열-인식 모듈 및/또는 핵산 염기 전환 효소를 코딩하는 RNA는, 예를 들면, 상기 핵산 서열-인식 모듈 및/또는 핵산 염기 전환 효소를 코딩하는 DNA를 코딩하는 벡터를 주형으로 사용하여 자체로 공지된 시험관내 전사 시스템에서 mRNA로의 전사에 의해 제조할 수 있다.

핵산 서열-인식 모듈 및 핵산 염기 전환 효소의 복합체는 핵산 서열-인식 모듈 및/또는 핵산 염기 전환 효소를 코딩하는 DNA를 함유하는 발현 벡터를 숙주 단자엽식물 세포에 도입하고 숙주 세포를 배양함으로써 세포내 발현시킬 수 있다.

숙주인 단자엽식물로서는 벼, 밀, 옥수수, 보리, 호밀 등의 곡류, 백합 등의 개화 원예 식물 등으로부터 제조된 현탁 배양된 세포, 칼루스, 프로토플라스트, 엽 세그먼트, 뿌리 세그먼트, 종자(미성숙 배 등) 등이 사용된다.

단자엽식물 세포는 반수체(일배체), 또는 배수체(예를 들면, 이배체, 삼배체, 사배체 등)일 수 있다. 종래의 돌연변이 도입 방법에서, 돌연변이는 원칙적으로 1개의 상동성 염색체에 도입하여 헤테로 유전자형을 생성한다. 따라서, 우성 돌연변이가 발생하지 않는 한, 목적하는 표현형이 발현되지 않고, 호모접합은 불편하게 노동 및 시간을 필요로 한다. 대조적으로, 본 발명에 따르면, 돌연변이는 게놈 중의 상동성 염색체 상의 임의의 대립유전자에 도입될 수 있기 때문에, 열성 돌연변이의 경우에도 목적하는 표현형을 1세대로 발현시킬 수 있고, 종래 방법의 문제점을 해결할 수 있다.

발현 벡터는 단자엽식물의 종류에 따라 공지된 방법(예를 들면, 아그로박테리움 방법, PEG 방법, 전기천공 방법, 입자 총 방법 등)에 의해 적합한 조직(예를 들면, 칼루스, 뿌리, 잎, 종자, 영양점 등) 내로 도입될 수 있다. 예를 들면, 벼의 경우, 아그로박테리움 방법, 휘스커 직접 도입 방법 등이 일반적으로 사용되지만, 상기 방법은 이로써 한정되지 않는다. 예를 들면, 아그로박테리움 방법의 경우에, 칼루스를 통상의 방법에 따라 벼 종자로부터 유도하고, 핵산 서열-인식 모듈 및/또는 핵산 염기 전환 효소를 코딩하는 DNA의 발현 카세트를 아그로박테리움 발현 벡터의 T-DNA 단편에 도입하고, 아그로박테리움을 칼루스로 감염시키고, 세균은 3일 후에 제거한다. 한편, 휘스커 직접 도입 방법의 경우에, 발현 벡터를 폴리오르니틴과 혼합하여 복합체를 수득하고, 복합체를 칼륨 티타네이트로 제조된 휘스커와 함께 벼 칼루스에 첨가하고, 혼합하고, 초음파 처리한다.

밀 및 옥수수의 경우에, 예를 들면, 발현 벡터는 미성숙 종자로부터 수집한 미성숙 배를 식물 재료로서 사용하고 아그로박테리움 방법을 유사하에 사용하여 도입할 수 있다.

PEG 방법 및 전기천공 방법을 사용하는 경우, 프로토플라스트를 통상의 방법에 따라 적절한 세포 또는 조직으로부터 제조하고, 발현 벡터를 여기에 도입한다. 입자 총 방법의 경우에, 입자 총을 사용하여, 생장점 또는 액아에 존재하는 칼루스, 미성숙 배, 성장점 등에 금 미립자 상에 흡수된 발현 벡터를 도입할 수 있다.

입자 총 방법 및 아그로박테리움 방법에서, 도입유전자는 종종 키메라이다. 따라서, 상기 핵산을 생식 계열의 세포에 고빈도로 도입하는 샘플 세포를 형질전환에 사용할 필요가 있다. 예를 들면, 배, 배축 절편, 배발생 칼루스, 단리된 영양점 등을 언급할 수 있다.

벡터가 도입된 단자엽식물 세포는 이의 종류에 따라 공지된 방법에 따라 배양할 수 있다. 배양에 사용되는 배지로서는 고체 배지(예를 들면, 아가 배지, 아가로즈 배지, 젤란 검 배지 등)가 바람직하다. 배지는 바람직하게는 형질전환체의 성장에 필요한 탄소원, 질소원, 무기물 등을 함유한다. 예를 들면, N6 배지, MS 배지, LS 배지, B5 배지 등을 기본 배지로서 사용한다. 배지는 적절한 경우 식물 성장 물질(예를 들면, 옥신, 사이토키닌 등)을 함유할 수 있다. 배지의 pH는 바람직하게는 약 5 내지 약 8이다. 배양 온도는 단자엽식물 세포의 종류에 따라 적절하게는 약 20℃ 내지 약 35℃로부터 선택할 수 있다. 예를 들면, 벼 칼루스는 일반적으로 28 내지 33℃, 바람직하게는 30 내지 33℃에서 배양할 수 있다.

상기 언급한 바와 같이, 핵산 서열-인식 모듈 및 핵산 염기 전환 효소, 즉, 핵산-변형 효소 복합체는 세포내에서 발현시킬 수 있다.

도입된 핵산 서열-인식 모듈 및 핵산 염기 전환 효소를 안정하게 발현하는 형질전환체는 도입된 발현 벡터에 함유된 선택 마커 유전자(예를 들면, 약물 내성 유전자, 예를 들면, nptII, hpt 등)에 상응하는 약물이 보충된 배지 상에서 단자엽식물 세포를 배양하고 약물 내성 콜로니를 선택함으로써 선택할 수 있다. 선택 배양의 기간은 특별히 한정되지 않지만, 약물-내성 콜로니는 일반적으로 약 3 내지 6주이다.

목적 돌연변이 도입을 시각화하는 경우, 예를 들면, 돌연변이가 단자엽식물 세포에 약물 내성을 도입하거나 색소 생성 능력을 변화시키는 경우, 선택 마커를 사용하는 일차 스크리닝을 수행하지 않으면서, 목적 돌연변이 도입에 기인한 형질의 변화를 지표로 사용하여 돌연변이가 도입된 균주를 직접 선택할 수 있다.

형질전환체는 배양에 적합한 자체로 공지된 방법에 의해 계대배양할 수 있다. 예를 들면, 상기 형질전환체의 선택 배양에 사용된 것과 동일한 방법을 사용할 수 있다. 형질전환체를 일반 온도보다 낮은 온도(예를 들면, 벼 칼루스의 경우에 20 내지 26℃, 바람직하게는 약 25℃)에서 배양함으로써, 돌연변이 도입 효율을 증가시킬 수 있다. 어떠한 이론에도 구속시키는 것은 아니지만, 하나의 해석으로서, 본 발명의 바람직한 핵산 염기 전환 효소 중의 하나인 PmCDA1은 변온성인 페트로마이존 마리누스로부터 유래하기 때문에, PmCDA1의 활성의 최적 온도는 약 37℃(일반 효소의 최적 온도)보다 낮을 수 있고, 따라서 효소 활성은 저온 배양에 의해 증가하는 것으로 생각된다. 따라서, 본 발명의 한가지 바람직한 실시형태에서, PmCDA1은 핵산 염기 전환 효소로서 사용되고, 서열-인식 모듈/PmCDA1 복합체를 코딩하는 핵산이 도입된 단자엽식물 세포는 저온에서 배양된다.

돌연변이 도입 효율은 정상보다 높은 밀도 조건(예를 들면, 벼 칼루스의 경우에, 배지와의 접촉을 제한하기 위해 칼루스가 서로 접촉하는 것을 유발하는 밀도에 의해 세포가 스트레스를 받는 조건)하에 형질전환체를 배양함으로써 또한 증가시킬 수 있다.

돌연변이가 형질전환체의 표적 이본쇄 DNA에 성공적으로 도입되었는지는 표현형의 변화가 돌연변이의 도입에 의해 가시화될 수 있는 경우에 표현형을 검사함으로써 확인할 수 있다. 그러나, 최종 확인은 표적 뉴클레오티드 서열을 함유하는 표적 DNA 영역을 게놈 PCR에 의해 증폭시키고 증폭된 단편의 염기 서열을 결정함으로써 수행하는 것이 바람직하다. 단일 형질전환체 클론은 세포에 따라 상이한 돌연변이 도입 방식을 가질 수 있다. 예를 들면, 칼루스가 식물 재료로서 사용되는 경우, 예를 들면, 형질전환된 칼루스를 액체 배지에 현탁시키고 이를 고체 배지에 재파종하고 형성된 서브클론의 돌연변이 도입 방식을 확인하는 조작을 반복하고, 이에 의해 균일한 돌연변이 도입 방식을 갖는 클론을 수득할 수 있다.

돌연변이 도입이 확인된 형질전환 클론은 자체로 공지된 재분화 방법에 의해 식물에 재분화시킬 수 있다. 돌연변이가 이종접합으로 도입되는 경우, 수득된 식물체의 자가수분에 의해 수득된 R1 식물을 추가로 자가-수분시켜 R2 식물을 수득하고, 이에 의해 돌연변이가 호모접합에 의해 도입된 식물체를 수득할 수 있다.

핵산 서열-인식 모듈 및 핵산 염기 전환 효소의 복합체가 세포에 도입된 발현 벡터에 의해 발현되는 경우, 핵산 서열-인식 모듈은 목적하는 이본쇄 DNA(예를 들면, 게놈 DNA) 중의 표적 뉴클레오티드 서열을 특이적으로 인식하여 이에 결합하고, 핵산 서열-인식 모듈에 결합된 핵산 염기 전환 효소의 작용에 기인하여, 염기 전환이 표적 부위의 센스 쇄 또는 안티센스 쇄 또는 이의 근방에서 발생하고, 부정합이 이본쇄 DNA에서 발생한다(예를 들면, PmCDA1, AID 등의 시티딘 데아미나제가 핵산 염기 전환 효소로서 사용되는 경우, 표적 부위에서 센스 쇄 또는 안티센스 쇄 상의 시토신은 우라실로 전환되어 U:G 또는 G:U 부정합을 유발한다). 부정합이 정확하게 수복되지 않는 경우, 및 반대측 쇄의 염기가 전환된 쇄의 염기와 쌍을 형성(상기 예에서 T-A 또는 A-T)하도록 수득되는 경우, 또는 다른 뉴클레오티드가 추가로 치환되는 경우(예를 들면, U→A, G) 또는 1 내지 수십개의 염기가 수복 동안 결실 또는 삽입되는 경우, 다양한 돌연변이가 도입된다.

징크 핑거 모티프에 있어서, 표적 뉴클레오티드 서열에 특이적으로 결합하는 징크 핑거의 생성 효율은 높지 않고 고도의 결합 특이성을 갖는 징크 핑거의 선택은 복잡하기 때문에, 다수의 실제 기능가능한 징크 핑거 모티프의 생성은 용이하지 않다. TAL 이펙터 및 PPR 모티프는 징크 핑거 모티프와 비교하여 표적 핵산 서열 인식의 자유도가 높지만, 표적 뉴클레오티드 서열에 따라 매회 거대 단백질을 설계 및 작제할 필요가 있기 때문에, 효율에서 문제가 잔존한다.

대조적으로, CRISPR-Cas 시스템은 표적 뉴클레오티드 서열에 상보성인 가이드 RNA에 의해 목적 이본쇄 DNA 서열을 인식하기 때문에, 표적 뉴클레오티드 서열과의 하이브리드를 특이적으로 형성할 수 있는 올리고DNA를 단순히 합성함으로써 임의 서열을 표적화할 수 있다.

따라서, 본 발명의 보다 바람직한 실시형태에서, Cas 이펙터 단백질의 적어도 하나의 DNA 절단 능력을 불활성화시킨 CRISPR-Cas 시스템(CRISPR-돌연변이 Cas)이 핵산 서열-인식 모듈로서 사용된다.

CRISPR-돌연변이 Cas를 사용하는 본 발명의 핵산 서열-인식 모듈은 표적 뉴클레오티드 서열에 상보성인 서열을 함유하는 CRISPR-RNA(crRNA) 및, 필요한 경우, 돌연변이 Cas 이펙터 단백질(tracrRNA가 필요한 경우에 crRNA와의 키메라 RNA로서 임의로 제공됨)을 동원하는데 필요한 트랜스-활성화 RNA(tracrRNA), 및 돌연변이 Cas 이펙터 단백질의 복합체로서 제공된다. crRNA 단독, 또는 돌연변이 Cas 이펙터 단백질과 조합하에 핵산 서열-인식 모듈을 구성하는 crRNA와 tracrRNA의 키메라 RNA로 이루어진 RNA 분자는 총칭하여 "가이드 RNA"로서 지칭된다.

본 발명에 사용되는 Cas 이펙터 단백질은, 가이드 RNA와의 복합체를 형성하고, 목적 유전자 및 이에 인접한 프로토스페이서 인접 모티프(PAM) 중의 표적 뉴클레오티드 서열을 인식하고 이에 결합하는 한, 특별히 한정되지 않는다. Cas9 또는 Cpf1이 바람직하다. Cas9의 예는, 이로써 한정되지 않지만, 스트렙토콕쿠스 피오게네스-유래 Cas9(SpCas9; PAM 서열 NGG(N은 A, G, T 또는 C이다, 이하 동일), 스트렙토콕쿠스 써모필레스-유래 Cas9(StCas9; PAM 서열 NNAGAAW), 네이세리아 메닝기티데스-유래 Cas9(MmCas9; PAM 서열 NNNNGATT) 등을 포함한다. PAM에 의한 제한이 작은 SpCas9(실질적으로 2 염기, 이론적으로 게놈의 거의 어느 곳에서 표적화될 수 있음)가 바람직하다. Cpf1의 예는, 이로써 한정되지 않지만, 프란시셀라 노비시다-유래 Cpf1(FnCpf1; PAM 서열 NTT), 아시다미콕쿠스 종-유래 Cpf1(AsCpf1; PAM 서열 NTTT), 라흐노스피라세아에 세균-유래 Cpf1(LbCpf1; PAM 서열 NTTT) 등을 포함한다. 본 발명에 사용되는 돌연변이 Cas 이펙터 단백질(종종 돌연변이 Cas로서 약칭됨)로서는, 이본쇄 DNA의 양 쇄를 불활성화시킨 임의의 Cas 이펙터 단백질, 또는 하나의 쇄의 하나의 절단 능력만을 불활성화시킨 닉카제 활성을 갖는 것을 사용할 수 있다. 예를 들면, SpCas9의 경우에, 제10 Asp 잔기를 Ala 잔기로 전환시키고 가이드 RNA와의 상보성 쇄를 형성하는 쇄의 반대측 쇄의 절단 능력을 결여하는(따라서, 가이드 RNA에 상보성인 쇄를 형성하는 쇄를 갖는 닉카제 활성을 갖는) D10A 돌연변이체, 또는 제840 His 잔기를 Ala 잔기로 전환시키고 가이드 RNA에 상보성인 쇄를 형성하는 쇄의 절단 능력을 결여하는(따라서, 가이드 RNA에 상보성인 쇄를 형성하는 쇄의 반대측 쇄를 갖는 닉카제 활성을 갖는) H840A 돌연변이체, 또는 이의 이중 돌연변이체(dCas9)를 사용할 수 있고, 다른 돌연변이 Cas를 유사하게 사용할 수 있다. FnCpf1의 경우에, 제917 Asp 잔기를 Ala 잔기(D917A)로 전환시키거나 제1006 Glu 잔기를 Ala 잔기(E1006A)로 전환시킨 양 쇄의 절단 능력을 결여하는 변이체를 사용할 수 있다. 기타 돌연변이 Cas는, 이본쇄 DNA의 적어도 하나의 쇄의 절단 능력을 결여하는 한, 유사하게 사용할 수 있다.

핵산 염기 전환 효소는 상기 징크 핑거 등을 사용한 결합 방식과 유사한 방법에 의해 돌연변이 Cas와의 복합체로서 제공된다. 또는, 핵산 염기 전환 효소 및 돌연변이 Cas는 RNA 앱타머 MS2F6, PP7 등 및 RNA 스캐폴드를 사용하여 단백질을 이에 결합시킴으로써 또한 결합시킬 수 있다. 가이드 RNA 중의 표적 서열은 표적 뉴클레오티드 서열과 상보성 쇄를 형성하고, 돌연변이 Cas는 가이드 RNA 중의 다른 영역에 의해 동원되고(즉, crRNA, 또는 crRNA에 후속하는 tracrRNA 중의 표적화 서열 이외의 서열) PAM을 인식한다. 한쪽 또는 양쪽 DNA를 절단시킬 수 없고, 돌연변이 Cas에 연결된 핵산 염기 전환 효소의 작용에 기인하여, 염기 전환이 표적 부위(전체 또는 부분 표적 뉴클레오티드 서열을 포함하는 수백개 염기 이내에서 적절하게 조정됨)에서 발생하고 부정합이 이본쇄 DNA에서 발생한다. 부정합이 정확하게 수복되는 경우 및 반대측 쇄가 전환된 쇄의 염기와 쌍을 형성하는 경우, 또는 다른 뉴클레오티드가 추가로 전환되는 경우 또는 1 내지 수십개 염기가 수복 동안 결실 또는 삽입되는 경우, 다양한 돌연변이가 도입된다.

CRISPR-돌연변이 Cas가 핵산 서열-인식 모듈로서 사용되는 경우에도, 핵산 서열-인식 모듈 및 핵산 염기 전환 효소는, 징크 핑거 등이 핵산 서열-인식 모듈로서 사용되는 경우와 유사하게, 이를 코딩하는 핵산(바람직하게는 DNA)의 형태로, 목적하는 이본쇄 DNA를 갖는 단자엽식물 세포에 도입된다.

Cas 이펙터 단백질(예를 들면, Cas9, Cpf1)을 코딩하는 DNA는 효소를 생성하는 세포로부터 핵산 염기 전환 효소를 코딩하는 DNA에 대한 상기 방법과 유사한 방법으로 클로닝할 수 있다. 돌연변이 Cas는, DNA 절단 활성에 중요한 부분의 아미노산 잔기(예를 들면, 이로써 한정되지 않지만, SpCas9의 경우에 제10 Asp 잔기 및 제840 His 잔기, FnCpf1의 경우에 제917 Asp 잔기, 제1006 Glu 잔기 등)를 다른 아미노산으로 전환시키기 위해 돌연변이를 자체로 공지된 부위 특이적 돌연변이 유도 방법에 의해 클로닝된 Cas를 코딩하는 DNA에 도입함으로써 수득할 수 있다.

또는, 돌연변이 Cas를 코딩하는 DNA는, 핵산 서열-인식 모듈을 코딩하는 DNA 및 핵산 염기 전환 효소를 코딩하는 DNA에 대해 상술한 것들과 유사한 방법에 의해 및 화학적 합성의 조합 또는 PCR 방법 또는 깁슨 어셈블리 방법에 의해, 사용되는 숙주 단자엽식물 세포에서의 발현에 적합한 코돈 용도를 나타내는 DNA로서 또한 작제할 수 있다. 예를 들면, 벼에서의 발현에 적합한 코돈을 사용하는 SpCas9 DNA로서는 서열번호 3에 제시된 뉴클레오티드 서열을 갖는 DNA가 언급될 수 있다.

돌연변이 Cas를 코딩하는 DNA 및 핵산 염기 전환 효소를 코딩하는 DNA는 융합 단백질로서의 발현을 가능하게 하도록 결합시키거나, 결합 도메인, 인테인 등을 사용하여 별도로 발현되도록 설계할 수 있고, 단백질-단백질 상호작용 및 단백질 결찰을 통해 숙주 세포에서 복합체를 형성한다. 어느 경우에도, 돌연변이 Cas를 코딩하는 DNA 및 핵산 염기 전환 효소를 코딩하는 DNA는, 단자엽식물 세포에서 기능할 수 있는 핵 국재화 신호(NLS)를 코딩하는 서열(예를 들면, SV40-유래 NLS 코딩 서열; 서열번호 5)이 이의 양 말단에 부가될 수 있다. 돌연변이 Cas 및 핵산 염기 전환 효소가 융합 단백질로서 발현되는 경우, 이들은 한 단백질의 C-말단 및 다른 단백질의 N-말단에 부가되는 NLS로서 하나의 NLS 서열을 통상 가질 수 있다. CRISPR-Cas 기술이 진핵생물 세포에 적용되는 경우, NLS의 부가는 Cas 이펙터 단백질의 핵 전좌의 효율을 개선시키기 위한 종래의 수단이다. 본 발명에 따르면, 돌연변이 Cas를 핵산 염기 전환 효소와의 복합체로서 발현시키기 위해, 분자량이 커진다. 본 발명자들에 의해 이전에 보고된 효모 세포와 비교하여 거대 크기를 갖는 단자엽식물 세포를 숙주로서 사용하는 경우, 복합체의 핵 전좌의 효율은 저하될 수 있다. 복합체의 핵 전좌 효율을 개선시키기 위해, 본 발명자들은 돌연변이 Cas 이펙터 단백질 및 핵산 염기 전환 효소의 양 말단에 NLS를 부가하는 것을 생각했고, 이에 의해 본 발명의 게놈 편집 기술을 사용하여 단자엽식물 세포에서도 높은 돌연변이 도입 효율을 성공적으로 수득했다.

돌연변이 Cas 및/또는 핵산 염기 전환 효소를 코딩하는 수득된 DNA는 상기 언급된 것과 유사한 발현 벡터의 프로모터, 예를 들면, CaMV35S 프로모터, CaMV19S 프로모터, NOS 프로모터, Pcubi4-2 프로모터, 2x35S 프로모터 등의 하류에 삽입할 수 있다. 상술한 바와 같이, 발현 벡터는, 필요에 따라, 터미네이터(예를 들면, NOS 터미네이터, 피섬 사티붐 rbcS3A 터미네이터, 열 충격 단백질(HSP) 17.3 터미네이터 등)의 선택 마커, 번역 인핸서(예를 들면, 알콜데하이드로게나제 5' 비번역된 영역(Os ADH-5'UTR)으로부터 유래된 벼, CaMV로부터 유래된 Ω 서열 및 담배 모자이크 바이러스(TMV) 등), 3' 조절 영역(예를 들면, 액틴 유전자(Act1) 3'UTR 등으로부터 유래된 벼), 폴리A 부가 신호, 약물 내성 유전자(예를 들면, G418 내성 유전자(nPtII), 하이그로마이신 내성 유전자(hpt) 등) 등을 함유할 수 있다. 바람직한 실시형태에서, 단자엽식물 세포에서 번역 효율을 증강시키기 위해, Os ADH-5'UTR을 프로모터와, 돌연변이 Cas 및/또는 핵산 염기 전환 효소를 코딩하는 DNA 사이에 삽입할 수 있다.

한편, 가이드 RNA를 코딩하는 DNA는, 표적 뉴클레오티드 서열의 "표적화 쇄"에 상보성인 뉴클레오티드 서열(또한 "표적화 서열"로서 불리움)을 포함하는 crRNA 서열의 코딩 서열(예를 들면, FnCpf1이 Cas 이펙터 단백질로서 동원되는 경우, 표적화 서열의 5'-측면에 AAUUUCUACUGUUGUAGAU(서열번호 7; 밑줄친 서열은 줄기-루프 구조를 취하기 위해 염기 쌍을 형성한다)를 함유하는 crRNA가 사용될 수 있음), 또는 crRNA 코딩 서열 및, 필요한 경우, 공지된 tracrRNA 코딩 서열(예를 들면, Cas9이 Cas 이펙터 단백질로서 동원되는 경우에 tracrRNA 코딩 서열로서, gttttagagctagaaatagcaagttaaaataaggctagtccgttatcaacttgaaaaagtggcaccgagtcggtggtgctttt; 서열번호 8)을 결합시킨 올리고 DNA 서열을 설계하고 DNA/RNA 합성기에 의해 화학적으로 합성함으로써 수득할 수 있다.

본원에 사용된 바와 같이, "표적 쇄"는 표적 뉴클레오티드 서열의 crRNA와 하이브리드화하는 쇄를 의미하고, 표적 쇄 및 crRNA 사이의 하이브리드화에 의해 일본쇄로 되는 반대측 쇄는 "비-표적화 쇄"로서 불리운다. 핵산 염기 전환 반응은 일반적으로 일본쇄로 되는 비-표적화 쇄 상에서 종종 발생하는 것으로 상정된다. 따라서, 표적 뉴클레오티드 서열이 1개의 쇄로 표시되는 경우(예를 들면, PAM 서열이 지시되는 경우, 표적 뉴클레오티드 서열과 PAM 사이의 위치 관계가 제시되는 경우 등), 이는 비-표적화 쇄의 서열에 의해 표시된다.

표적화 서열의 길이는, 표적 뉴클레오티드 서열에 특이적으로 결합할 수 있는 한, 특별히 한정되지 않지만, 예를 들면, 15 내지 30개 뉴클레오티드, 바람직하게는 18 내지 25개 뉴클레오티드이다. 표적 뉴클레오티드 서열의 선택은 서열의 3'-측면(Cas9의 경우에) 또는 5'-측면(Cpf1의 경우에) 상에 인접한 PAM의 존재에 의해 제한된다. 효모 등의 발견에 따르면, CRISPR-돌연변이 Cas9 및 시티딘 데아미나제를 조합시킨 본 발명의 시스템에서, 표적 뉴클레오티드 서열의 길이와 무관하게, 이의 5'-말단으로부터 3' 방향으로 7개 뉴클레오티드에 위치하는 C는 용이하게 치환되는 규칙성이 있다. 따라서, 표적 뉴클레오티드 서열(이의 상보성 쇄로서 표적화 서열)의 길이를 적절히 선택함으로써, 돌연변이가 도입될 수 있는 염기의 부위를 이동시킬 수 있다. 그 결과, PAM(SpCas9에서 NGG)에 의한 제한을 적어도 부분적으로 상쇄시킬 수 있고, 이는 돌연변이 도입의 자유도를 추가로 증가시킨다.

Cas9가 Cas 이펙터 단백질로서 사용되는 경우, 표적화 서열은, 예를 들면, 공개된 가이드 RNA 설계 웹사이트(CRISPR Design Tool, CRISPRdirect 등)를 사용하여 대상 유전자의 CDS 서열로부터 3'-측면에 PAM에 인접하는 20머 서열(예를 들면, SpCas9의 경우에 NGG)을 수록하고, 이의 5'-말단으로부터 3' 방향으로 7개 뉴클레오티드 서열 중의 C가 T로 전환되는 경우에 대상 유전자에 의해 코딩된 단백질에서 아미노산 변화를 유발하는 서열을 선택함으로써 설계할 수 있다. 더욱이, 표적 서열의 길이가, 예를 들면, 18 내지 25개 뉴클레오티드 범위 내에서 변화되는 경우, 이의 5'-말단으로부터 3' 방향으로 7개 뉴클레오티드 내의 염기 전환에 의해 아미노산 변화를 유발하는 C를 함유하는 서열을 유사하게 선택한다. 이들 후보로부터, 대상 단자엽식물 게놈 중에 소수의 오프-표적 부위를 갖는 후보 서열을 표적 서열로서 사용할 수 있다. 사용되는 가이드 RNA 설계 소프트웨어가 단자엽식물 게놈의 오프-표적 부위를 검색하는 기능을 갖지 않는 경우, 오프-표적 부위는, 예를 들면, 블라스트 검색을 단자엽식물 게놈에 적용하여, 후보 서열의 3'-측면 상에 8 내지 12개 뉴클레오티드(표적 뉴클레오티드 서열의 식별 능력이 높은 씨드 서열)의 숙주로 되도록 함으로써 검색할 수 있다.

가이드 RNA를 코딩하는 DNA는 숙주에 따라 상기 언급한 것과 유사한 발현 벡터에 삽입할 수 있다. 프로모터로서는 pol III 시스템 프로모터(예를 들면, SNR6, SNR52, SCR1, RPR1, U3, U6, H1 프로모터 등) 및 터미네이터(예를 들면, 폴리 T 서열(T₆서열 등))가 바람직하게 사용된다. 예를 들면, 숙주 세포가 벼 세포인 경우, 벼-유래된 U6 또는 U3 프로모터, 보다 바람직하게는 U6 프로모터를 사용할 수 있다. pol III 시스템 프로모터가 사용되는 경우, 4개 이상의 연속 Ts를 갖는 뉴클레오티드 서열은 표적 서열로서 선택되지 않아야 한다.

가이드 RNA(crRNA 또는 crRNA-tracrRNA 키메라)를 코딩하는 DNA는, 표적 뉴클레오티드 서열의 표적 쇄 및 공지된 tracrRNA 서열(Cas9가 동원되는 경우) 또는 crRNA의 직접 반복 서열(Cpf1이 동원되는 경우)에 상보성인 올리고DNA 서열을 설계하고, DNA/RNA 합성장치를 사용하여 화학적으로 합성함으로써 수득할 수 있다.

돌연변이 Cas 및/또는 핵산 염기 전환 효소를 코딩하는 DNA 및 가이드 RNA(crRNA 또는 crRNA-tracrRNA 키메라)를 코딩하는 DNA는 숙주 단자엽식물 세포에 따라 상기와 유사한 방법에 의해 세포 내로 도입할 수 있다. 돌연변이 Cas 및 핵산 염기 전환 효소를 안정하게 발현하는 형질전환체의 선택, 및 선택된 형질전환체의 유지 배양도 상기 기재된 것과 동일한 방식으로 수행할 수 있다.

종래의 인공 뉴클레아제는 이본쇄 DNA 절단(DSB)을 수반하기 때문에, 염색체의 무질서한 절단(오프-표적 절단)에 의해 사실상 유발된 성장 및 세포 사멸의 억제는 게놈 중의 서열을 표적화함으로써 발생한다. 본 발명에서, 돌연변이는 DNA 절단에 의한 것이 아니라 DNA 상의 치환체의 전환 반응(특히 탈아민화 반응)에 의해 도입되고, 따라서 독성의 현저한 감소를 실현할 수 있다.

본 발명에서 이본쇄 DNA의 변형은 표적 부위 이외의 부위(전부 또는 일부 표적 뉴클레오티드 서열을 포함하는 수백개 염기 내에서 적절히 조정됨)에서 이본쇄 DNA의 절단의 발생을 방지한다. 그러나, 본 발명의 최대 잇점 중의 하나는 오프-표적 절단에 의한 독성의 회피이다. 따라서, 바람직한 한 가지 실시형태에서, 본 발명에서 이본쇄 DNA의 변형은 소정 이본쇄 DNA의 표적 부위 뿐만 아니라 그 이외의 부위에서 DNA 쇄의 절단을 수반하지 않는다.

하기 실시예에 제시된 바와 같이, 돌연변이 도입 방식의 경향은, 이본쇄 DNA의 쇄의 하나만을 절단할 수 있는 닉카제 활성을 갖는 Cas9가 돌연변이 Cas로서 사용되는 경우와, 양 쇄를 절단할 수 없는 돌연변이 Cas9가 돌연변이 Cas로서 사용되는 경우의 사이에서 현저히 상이하다. 가이드 RNA와의 상보성 쇄를 형성하는(따라서, 표적 쇄에 대해 닉카제 활성을 갖는) 쇄의 반대측 쇄(비-표적화 쇄)의 절단 능력을 결여하는 D10A가 돌연변이 Cas로서 사용되는 경우, 약 1 내지 20개 뉴클레오티드의 결실 돌연변이는 염기 치환보다 도입될 가능성이 높다. 결실은 종종, Cas에 의한 절단 부위(PAM의 2-3 뉴클레오티드 상류)보다 염기 치환 부위(표적 뉴클레오티드 서열의 5' 말단으로부터 3' 방향으로 7개 뉴클레오티드 이내)를 중심으로 하는 영역에서 발생한다. 결실과 동시에, 1 내지 수개의 뉴클레오티드의 삽입이 발생할 수도 있다. 어떠한 이론에도 구속되는 것은 아니지만, 비-표적화된 쇄 상의 염기 치환을 겪은 절단 수복 뉴클레오티드에서, 신장 반응은, 단자엽식물에서 주변 염기를 제거하면서, 주형으로서 반대측 쇄(표적 쇄)로 수행되는 것으로 고려된다. 이때, 표적 쇄가 닉(nick)을 함유하는 경우, 절단 수복 메카니즘은 표적 쇄 상에서 또한 작동하여, 뉴클레오티드가 양 쇄에서 탈락하고 정상 신장 반응을 수행하지 않으면서 강제 결찰이 발생하는 상태를 제공하고, 그 결과 결실 돌연변이가 발생하기 쉽다.

한편, 양 쇄가 절단불가능한 돌연변이 Cas9를 사용한 경우, 돌연변이 도입 방식은 출아 효모, 에스케리키아 콜라이 등의 경우와 같이 주로 염기 치환이었다. 그러나, 돌연변이 도입 부위의 범위는 출아 효모의 경우보다 다소 넓고, 표적 뉴클레오티드 서열의 5'-말단의 상류(예를 들면, PAM 서열의 21 뉴클레오티드 상류)에 도달한다. 어떠한 이론에도 구속되는 것은 아니지만, 상술된 가설에 기초하여, 표적 쇄 중의 닉의 부재 때문에, 표적 쇄를 주형으로 사용하는 신장 반응은 정상적으로 진행하고, 염기 치환은 주요 돌연변이로 되는 것으로 가정된다. 유사하게는, 표적 쇄의 절단 능력을 결여하는(따라서 비-표적화된 쇄에 대해 닉카제 활성을 갖는) H840A 돌연변이체가 사용되는 경우에도, 주형으로서 반대측 표적 쇄를 사용한 신장 반응은 정상적으로 진행하기 때문에, 돌연변이 도입 방식은 주로 염기 치환이다.

따라서, 돌연변이 Cas의 DNA 쇄 절단 능력을 적절히 선택함으로써, 염기 치환은 핀포인트에서 특정 뉴클레오티드 또는 뉴클레오티드 영역에 도입될 수 있거나, 염기 치환 부위를 중심으로 약 20개 뉴클레오티드 이내의 결실 돌연변이가 도입될 수 있고, 이는 대상체에 따라 적절히 채용될 수 있다.

본 발명자들은 또한, 인접한 복수의 표적 뉴클레오티드 서열에 대한 서열-인식 모듈을 생성하고 동시에 사용하는 경우, 돌연변이 도입 효율이 표적으로서 단일 뉴클레오티드 서열을 사용하는 것보다 현저히 증가하는 것을 확인했고, 유사한 효과는 단자엽식물 세포에서 예상할 수 있다. 이의 효과로서는, 표적 뉴클레오티드 서열이 부분적으로 중첩하거나 둘 다가 약 600bp 떨어져 있는 경우에도 유사하게 돌연변이 유도가 실현된다. 이는 표적 뉴클레오티드 서열이 동일한 방향으로 존재하는 경우(표적 쇄는 동일한 쇄이다) 및 이들의 반대측 방향인 경우(표적 쇄는 이본쇄 DNA의 양 쇄이다)에 발생할 수 있다.

또한, 표적으로서 완전히 상이한 위치에서 복수의 DNA 영역의 변형을 수행할 수 있다. 따라서, 본 발명의 한 가지 바람직한 실시형태에서, 상이한 표적 뉴클레오티드(이는 하나의 대상 유전자 또는 2개 이상의 상이한 대상 유전자에 존재할 수 있다)에 특이적으로 결합하는 2종 이상의 핵산-서열 인식 모듈을 사용할 수 있다. 이 경우에, 이들 핵산 서열-인식 모듈 및 핵산 염기 전환 효소의 각각은 핵산-변형 효소 복합체를 형성한다. 여기서, 통상의 핵산 염기 전환 효소가 사용될 수 있다. 예를 들면, CRISPR-Cas 시스템이 핵산 서열-인식 모듈로서 사용되는 경우, Cas 이펙터 단백질 및 핵산 염기 전환 효소(융합 단백질 포함)의 통상의 복합체가 사용되고, 상이한 표적 뉴클레오티드 서열과의 상보성 쇄를 각각 형성하는 2개 이상의 crRNA 및 tracrRNA 각각의 2개 이상의 crRNA 또는 2종 이상의 키메라 RNA가 생성되어 가이드 RNA(crRNA 또는 crRNA-tracrRNA 키메라)로서 사용된다. 한편, 징크 핑거 모티프, TAL 이펙터 등이 핵산 서열-인식 모듈로서 사용되는 경우, 예를 들면, 핵산 염기 전환 효소는 상이한 표적 뉴클레오티드에 특이적으로 결합하는 핵산 서열-인식 모듈과 융합될 수 있다.

본 발명의 핵산-변형 효소 복합체를 단자엽식물 세포에서 발현시키기 위해, 상기 언급한 바와 같이, 핵산-변형 효소 복합체를 코딩하는 DNA를 함유하는 발현 벡터가 숙주 세포 내로 도입된다. 돌연변이의 효율적 도입을 위해, 소정 기간 이상 동안 소정 수준 이상의 핵산-변형 효소 복합체의 발현을 유지하는 것이 바람직하다. 이러한 양태로부터, 발현 벡터는 숙주 게놈에 확실이 도입되지만, 핵산 변형 효소 복합체의 지속된 발현은 오프-표적 절단의 위험을 증가시키기 때문에, 돌연변이의 성공적 도입 후에 신속하게 제거하는 것이 바람직하다. 숙주 게놈 내로 도입된 DNA를 제거하는 수단으로서는 Cre-loxP 시스템을 사용하는 방법, 트랜스포손을 사용하는 방법 등이 언급될 수 있다.

또는, 숙주 게놈의 편집은, 목적하는 단계에서 핵산 염기 전환 반응을 유발하고 표적 부위의 변형을 고정시키는데 필요한 기간 동안 숙주 세포에서 본 발명의 핵산-변형 효소 복합체를 일시적으로 발현시킴으로써 오프-표적 절단의 위험을 회피하면서 효율적으로 실현할 수 있다. 핵산 염기 전환 반응 및 표적 부위의 변형을 고정시키는데 필요한 기간은 숙주 세포의 종류, 배양 조건 등에 따라 상이하지만, 적어도 수세대의 세포 분열을 수행할 필요가 있기 때문에, 약 2 내지 3일이 필요할 것으로 생각된다. 당해 기술분야의 숙련가는 사용되는 배양 조건 등에 기초하여 바람직한 발현 유도 기간을 적절히 결정할 수 있다. 본 발명의 핵산-변형 효소 복합체를 코딩하는 핵산의 발현 유도 기간은, 숙주 세포가 부작용을 갖지 않고 숙주 세포의 재분화 효능이 유지될 수 있는 한, 상술한 "표적 부위의 변형을 고정시키는데 필요한 기간"을 초과하여 연장될 수 있다.

목적하는 단계에서 목적하는 기간 동안 본 발명의 핵산-변형 효소 복합체를 일시적으로 발현시키는 수단으로서는, 핵산-변형 효소 복합체를 코딩하는 핵산(가이드 RNA를 코딩하는 DNA, 및 CRISPR-Cas 시스템에서 돌연변이 Cas 및 핵산 염기 치환 효소를 코딩하는 DNA)을 함유하는 작제물(발현 벡터)를, 발현 기간을 조절할 수 있는 형태로 생성하고 상기 작제물을 단자엽식물 세포에 도입하는 것을 포함하는 방법이 언급될 수 있다. "발현 기간을 조절할 수 있는 형태"는 구체적으로, 예를 들면, 유도 조절 영역의 조절하에 위치된 본 발명의 핵산-변형 효소 복합체를 코딩하는 DNA이다. "유도 조절 영역"은 특별히 한정되지 않지만, 예를 들면, 상술한 유도 프로모터(예를 들면, PR1α 유전자 프로모터, rd29A 유전자 프로모터, GST-27 유전자 프로모터 등)이다.

본 발명은 한정으로 해석되지 않는 실시예를 참조하여 이하에 설명된다.

[실시예]

1. 벡터 작제

(1) 표적-AID 평가를 위한 벡터의 작제

도 1A에 제시된 구조를 갖는 pRIT3-EGFP(EGFP ORF을 가짐; 서열번호 9) 및 pRIT3-mEGFP(EGFR 개시 코돈의 직후에 정지 코돈을 가짐; 서열번호 10)을 통상의 방법으로 생성했다.

(2) 표적-AID 벡터의 작제

도 1B에 제시된 구조를 갖는 표적-AID 벡터 2408(dCas9를 코딩함; 서열번호 11) 및 2409(D10A 돌연변이체를 코딩함; 서열번호 12)는, pZH_OsU6 gRNA_MMCas9의 OS Opt. Cas9(Plant Mol Biol (2015) 88:561-572)를 H840A 및 D10A 이중 돌연변이 또는 D10A 돌연변이 단독을 갖는 돌연변이 Cas9를 코딩하는 DND로 치환하고 이의 하류를 아라비돕시스 탈리아나의 코돈 사용을 위해 최적화된 PmCDA1을 코딩하고 양 말단에 부가된 SV40-유래된 핵 국재화 신호(NLS)를 코딩하는 서열을 갖는 DNA와 융합시킴으로써 생성했다.

2. 아그로박테리움 내로 표적-AID 및 평가 벡터의 도입

표적-AID 벡터 2408 및 2409(도 1B) 및 평가 벡터 pRIT3-EGFP 및 pRIT3-mEGFP(도 1A)를 전기천공(MicroPulser 전기천공 시스템, Bio Rad)에 의해 아그로박테리움(아그로박테리움 투메파시엔스 EHA101 균주)에 도입했다.

먼저, 아그로박테리움의 경쟁 세포를 하기 공정에 의해 생성했다.

아그로박테리움 균주를 YEB 아가 배지(비프 추출물 5g/L, 효모 추출물 1g/L, 박토 펩톤 1g/L, 슈크로즈 5g/L, MgSO₄ 2mM, 박토 아가 12g(1.2%)) 상에 확산시키고, 어두운 곳에서 2일 동안 28℃에서 배양했다. 수득된 단일 콜로니를 YEB 액체 배지(5mL)에 접종시키고, 진탕시키면서 어두운 곳에서 28℃에서 12시간 동안 배양했다. 현탁액(200μL)을 200mL의 YEB 액체 배지에 첨가하고, 진탕시키면서 어두운 곳에서 28℃로 배양하고, OD600=0.2-0.4로 증식시켰다. 이어서, 진균을 원심분리(3000rpm, 4℃, 10분)하고, 수거하고, 20mL의 10mM HEPES(pH 8.0)에 현탁시키고, 원심분리를 2 내지 3회 반복했다. 원심분리에 의해 회수한 진균을 멸균 10% 수성 글리세롤 용액(2mL)에 현탁시켜 경쟁 세포를 수득했다. 이어서, 하기 제시된 공정에 의해, 각 벡터를 아그로박테리움에 도입했다. 각 벡터를 멸균수에 1㎍/μL 농도로 용해시키고, 상술한 아그로박테리움 현탁액(50μL)과 혼합하고, 마이크로펄서 큐벳(0.1cm 갭, BioRad)으로 옮기고, 전기천공(2.2kV, 5.8ms)을 수행했다. 이어서, 이 액체에 800μL YEB 액체 배지를 첨가하고, 혼합물을 어두운 곳에서 28℃로 2시간 동안 배양하고, 100mg/L 스펙티노마이신을 함유하는 YEB 아가 배지 상에 확산시키고, 어두운 곳에서 28℃로 36 내지 48시간 동안 배양했다. 수득된 세균 콜로니는 100mg/L 스펙티노마이신을 함유하는 YEB 액체 배지(5mL)에서 증식시키고, 글리세롤(최종 농도 35%) 스톡으로서 미소관에 분주하고, -80℃에 보존했다.

3. 벼 배양된 세포 내로 표적-AID 평가 벡터의 도입

벼는 기본적으로 문헌[참조: Terada et al. (Terada, R., Urawa, H., Inagaki, Y., Tsugane, K., and Iida, S. (2002) Efficient gene targeting by homologous recombination in rice. Nat. Biotechnol. 20, 1030-1034]의 방법에 따라 형질전환시켰다.

3-1. 형질전환을 위해 벼 칼루스의 제조

왕겨 제거 후의 약 100개 벼 종자(Oryza sativa. L Japonica brand; Nipponbare)를 70% 에탄올에서 1분 동안 진탕시키고, 2.5% 아염소산나트륨에 20 내지 30분 동안 침지시켜 멸균시켰다. 이어서, 이들을 2N6 배지(N6 배지용의 혼합 염(Sigma-Aldrich Co. LLC.) 4.0g/L, Cas아미노산 300mg/L, 미오이노시톨 100mg/L, 니코틴산 0.5mg/L, 피리독신 HCl 0.5mg/L, 티아민 HCl 0.5mg/L, L-프롤린 2878mg/L, 슈크로즈 30.0g/L, 2,4-D(2,4-디클로로페녹시아세트산) 2mg/L, 겔라이트 4.0g/L, pH 5.8) 상에 접종된 멸균수로 세정하고, 어두운 곳에서 31.5℃로 3주 동안 배양하고, 이에 의해 배반 세포-유래된 탈분화 세포 응집물(칼루스)을 유도했다. 이어서, 세포 분열 활성이 높은 칼루스를 매달 선택하고, 계대 배양하고, 배양 개시로부터 4개월 후의 칼루스를 형질전환에 사용했다.

3-2. 형질전환을 위한 아그로박테리움의 제조

표적-AID 평가를 위한 벡터가 도입된 각 아그로박테리움 세균 배양액을 아이스 상에 용해시키고, 이의 300μL를 100mg/L 스펙티노마이신이 첨가된 AB 배지(NH₄Cl 1g/L, MgSO₄·7H₂0 3g/L, KCl 0.15g/L, CaCl₂·2H₂O 0.012g/L, FeSO₄·7H₂O 0.0025g/L, K₂HPO₄ 3g/L, NaH₂PO₄·H₂O 1.15g/L, 슈크로즈 5.5g/L, 아가로즈 6.0g/L, pH 7.2) 상에 확산시키고, 어두운 곳에서 28℃로 3일 동안 배양했다. 이어서, 증식된 아그로박테리움을 40mg/L 아세토시린곤(3',5'-디메톡시-4'-하이드록시-아세토페논)이 첨가된 AAI 액체 배지(MgSO₄·7H₂O 5g/L, CaCl₂·2H₂O 1.5g/L, NaH₂PO₄·H₂O 1.5g/L, KCl 29.5g/L, MnSO₄·4H₂O 10g/L, ZnSO₄·7H₂O 2g/L, H₃BO₃ 3g/L, KI 0.75g/L, Na₂MoO₄·2H₂O 0.25g/L, CoCl₂·6H₂O 25mg/L, CuSO₄·5H₂O 25mg/L, FeSO₄·7H₂O 13.9g/L, Na₂ EDTA 18.7g/L, 미오-이노시톨 100mg/L, 티아민 HCl 0.01g/L, 니코틴산 1mg/L, 피리독신 HCl 1mg/L)에 현탁시키고, 진탕시키면서 25℃에서 2시간 동안 배양했다. 현탁액을 40mg/ml 아세토시린곤을 함유하는 AAI 액체 배지로 희석시켜 현탁액(120ml)(OD600=0.008)을 제조했다.

3-3. 벼 칼루스(아그로박테리움 접종, 공배양, 세균 제거, 벼 재조합 칼루스 선택) 내로 pRIT3-EGFP, pRIT3-mEGFP의 도입

벼 칼루스(약 5g)를 멸균 유리 비이커에 수집하고, 각 벡터가 도입된 아그로박테리움 현탁액(앞서 언급됨)을 첨가하고, 진탕시키면서 3 내지 5분 동안 접종시켰다. 현탁액을 스테인레스 메쉬(조인트 개구부 1.5mm)를 통해 여과하고, 여분의 아그로박테리움을 제거했다. 이어서, 멸균 여과지를 2N6 공접종 배지(N6 배지용의 혼합 염(Sigma사 제조) 4.0g/L, Cas아미노산 300mg/L, 미오-이노시톨 100mg/L, 니코틴산 0.5mg/L, 피리독신 HCl 0.5mg/L, 티아민 HCl 0.5mg/L, 슈크로즈 30.0g/L, 글루코즈 10g/L, 2,4-D 2mg/L, 겔라이트 4.0g/L, 아세토시린곤 40mg/L, pH 5.2) 상에 위치시키고, 그 위에 칼루스를 족집게로 동일 거리에서 정렬시키고, 어두운 곳에서 25℃로 3일 동안 공배양했다. 이어서, 공배양 후의 칼루스로부터 아그로박테리움의 세균 제거를 위해, 칼루스를 500ml 비이커에 수집하고, 30분 동안 교반하면서 세균 제거 액체 1(반코마이신 200mg/L, 트윈 20 20μl/L를 함유하는 멸균수)(300ml)로 세척했다. 이어서, 칼루스를 스테인레스 메쉬 상에 수집하고, 칼루스 주위의 물을 페이퍼 타월로 제거하고, 세균 제거 조작을 세균 제거 액체 2(반코마이신 200mg/L, 트윈20 20μl/L를 함유하는 멸균수)(300ml)로 4회 반복했다. 이어서, 세균 제거 후의 칼루스를 5일 동안 2N6NU 배지(N6 배지용의 혼합 염[Sigma사 제조] 4.0g/L, Cas아미노산 300mg/L, 미오-이노시톨 100mg/L, 니코틴산 0.5mg/L, 피리독신 HCl 0.5mg/L, 티아민 HCl 0.5mg/L, L-프롤린 2878mg/L, 슈크로즈 30.0g/L, 2,4-D 2mg/L, 겔라이트 4.0g/L, 반코마이신 100mg/L, 메로페넴 25mg/L, pH 5.8)에서 배양했다. 이어서, 칼루스는 파로모마이신(50mg/L)를 함유하는 선택 배지 2N6SEPa50(N6 배지용의 혼합 염[Sigma사 제조] 4.0g/L, Cas아미노산 300mg/L, 미오-이노시톨 100mg/L, 니코틴산 0.5mg/L, 피리독신 HCl 0.5mg/L, 티아민 HCl 0.5mg/L, L-프롤린 2878mg/L, 슈크로즈 30.0g/L, 2,4-D 2mg/L, 아가로즈 8.0g/L, 반코마이신 100mg/L, 메로페넴 25mg/L, pH 5.8) 상에 동일한 거리에서 정렬시키고, 어두운 곳에서 31.5℃로 약 6주 동안 배양했다. 그 결과, 파로마이신 내성 칼루스의 복수 계통을 선택할 수 있었다.

3-4. pRIT3-EGFP, pRIT3-mEGFP가 도입된 벼 칼루스의 분석

96 계통은 pRIT3-EGFP의 도입 후 파로모마이신 내성을 나타낸 칼루스로부터 랜덤으로 선택하고, 이후의 분석에 사용했다. 게놈 DNA는 자동 핵산 추출 장치(Kurabo Industries PX-80)에 의해 각 계통의 칼루스의 일부로부터 추출했다. 프라이머 세트 "SbfI-p35S-F"(서열번호 13) 및 "EGFP-NotI-R"(서열번호 14)(표 1)을 사용한 PCR 분석 결과, pRIT3-EGFP로부터 유래된 1238bp DNA 단편을 검출했고, 유전자 재조합체를 확인할 수 있었다. 입체 형광 현미경을 사용한 이의 관찰 결과, EGFP 신호는 이들 모두에서 검출되었다(도 2). 유사한 분석을 pRIT3-mEGFP를 도입한 칼루스에 대해 수행하고, 유전자 재조합체를 PCR 분석에 의해 확인했다. 입체 형광 현미경을 사용한 이의 관찰 결과, EGFR 신호는 전혀 검출되지 않았다(도 2).

3-5. 벼 칼루스(아그로박테리움 접종, 공배양, 세균 제거, 벼 재조합체 칼루스 선택) 내로 pRIT3-mEGFP 및 2408, 또는 pRIT3-mEGFP 및 2409의 동시 도입

기본적 조작은 3-3을 따랐다. pRIT3-mEGFP를 갖는 아그로박테리움의 세균 배양액 및 2408 또는 2409를 갖는 아그로박테리움의 세균 배양액의 동일한 양을 혼합하고 벼 칼루스(약 30g)에 접종했다. 이후, 경화 배지까지의 조작은 상술한 것에 따른다. 선택 배양을 위해, 하이그로마이신 40mg/L, 파로모마이신 50mg/L를 함유하는 2N6SEH40Pa50 배지를 사용했다. 선택 배양의 약 6주 후, 하이그로마이신 및 파로모마이신에 대해 내성을 나타내는 칼루스를 복수의 계통에서 확인할 수 있었다. pRIT3-mEGFP 및 2408이 도입되는 경우, 14개 계통이 수득되었고, pRIT3-mEGFP 및 2409가 도입되는 경우, 56개 계통이 수득되었다.

3-6. pRIT3-mEGFP 및 2408, 또는 pRIT3-mEGFP 및 2409의 도입에 의한 벼 칼루스의 분석

게놈 DNA를 각 선택된 계통의 칼루스로부터 추출하고, 프라이머 세트 "SbfI-p35S-F" 및 "EGFP-NotI-R", 및 "Hmr-F"(서열번호 15) 및 "Hmr 2408 R-1"(서열번호 16)(표 1)을 사용한 PCR 분석을 수행했다. 그 결과, 269 계통은 pRIT3-mEGFP 및 2408을 도입한 이중 형질전환체를 함유했고, 264 계통은 pRIT3-mEGFP 및 2409를 도입한 것들을 함유했다(표 2, 도 3).

		칼루스 계통의 수
벡터 1	벡터 2	이중 형질전환체 선택 계통	GFP 신호 검출	빈도(%)
pRIT3-mEGFP (nptII)	2408 (hpt)	269	10	3.7
pRIT3-mEGFP (nptII)	2409 (hpt)	264	41	15.5

이어서, 모든 이중 형질전환체 칼루스는 입체 형광 현미경을 사용하여 관찰했다. 그 결과, EGFP 발현은 pRIT3-mEGFP 및 2409(도 4, 5)를 도입한 2개 계통(No. 6, 3)에서 확인되었다. 이들 칼루스에서 표적-AID에 의한 게놈 서열 변형을 확인하기 위해, 게놈 DNA를 각 계통에서 EGFP를 발현하는 칼루스로부터 추출하고, 프라이머 세트 "SbfI-p35S-F" 및 "EGFP-NotI-R"(표 1)을 사용한 PCR 생성물을 MonoFas DNA 정제 키트 I(GL Sciences Inc.)에 의해 정제하고, pCR4 블런트 TOPO 벡터(ThermoFisher Inc.)의 SbfI 및 NotI 부위 사이에 클로닝했다. 합계 111개 클론의 염기 서열은 DNA 시퀀서로 해독했다. 그 결과, 표적-AID에 의한 염기 서열 변형은 이의 일부에서 확인되었다(표 3, 도 6A, B). 닉카제 유형 2409에서, 짧은 결실 돌연변이(1-20 뉴클레오티드)의 빈도는 높았지만, 염기 치환 단독도 또한 발생할 수 있다(도 7).

분석된 클론의 수	염기 치환	결실	돌연변이 없음
111	3 (2.7%)	7 (6.3%)	101 (91.0%)

한편, 양 쇄의 절단 능력을 결여하는 Cas9(2408)이 사용되는 경우, 돌연변이 도입 방식은 주로 염기 치환(도 8, 9, 10)이고, 염기 치환이 발생한 영역은 출아 효모에 의한 것보다 더 넓었고, 표적 뉴클레오티드 서열(PAM 서열의 21 뉴클레오티드 상류) 외측에서 확인되었다(도 10). GFP 신호 음성 세포에서, 돌연변이는 표적 뉴클레오티드 서열 및 이의 근방에서 도입되지 않았다(도 11).

4. 벼의 내인성 유전자 ALS(아세토락테이트 신타제)의 변형

상기에서, 표적-AID에 의한 외인성 리포터 유전자의 변형은 성공적이었다. 이어서, 벼 내인성 유전자의 변형을 수행했다. 표적으로서는 ALS(아세토락테이트 신타제) 유전자를 선택했고, 유전자 서열 중의 표적 염기 치환을 통해 제96 아미노산이 알라닌(A)로부터 발린(V)로 변이된 돌연변이형 ALS 유전자(ALS A96V)의 생성을 시도했다. 다른 식물에 대한 이전 보고로부터, ALS A96V를 발현하는 벼의 식물체 및 칼루스는 다른 식물에서의 이전 보고로부터 제초제(Imazamox)에 대한 내성을 획득할 것으로 예측되지만, 선행하는 예는 없다. 이마자목스가 무균 배양 조건하에 벼 식물체 및 칼루스에 미치는 효과를 시험하는 사례도 없다. 따라서, 본 실시예에서, 예비 연구로서, 무균 배양 조건하에 벼 종자 및 칼루스에 대한 이마자목스 유효 농도 시험(하기 4-1, 4-2) 및 ALS A96V에 의한 이마자목스에 대한 내성 획득을 먼저 확인했고(하기 4-3), 표적-AID에 의한 ALS A96V 변형을 수행했다(하기 4-4).

4-1. 무균 배양 조건하에 벼 식물체에 대한 이마자목스의 유효 농도의 검증

1/2 MS 고체 배지(MS 혼합물(Sigma), 슈크로즈 15.0g/L, 겔라이트(Wako Pure Chemical Industries, Ltd.) 4.0g/L, pH 5.8)에 기초하여, 이마자목스 농도가 상이한 9단계의 배지(0mg/L, 0.5mg/L, 1mg/L, 2mg/L, 4mg/L, 5mg/L, 10mg/L, 20mg/L, 30mg/L)를 생성했다. 계속하여, 벼(Oryza sativa. L Japonica brand; Nipponbare) 종자의 왕겨를 제거하고, 종자를 70% 에탄올에서 1분 동안 진탕시키고, 침투시키면서 2.5% 아염소산나트륨에 20 내지 30분 동안 침지시켜 멸균시켰다. 멸균된 종자를 처리 면적당 24개 종자로 접종시키고, 25℃에서 11시간 광(8000 Lux)/7일 동안 13시간 암 상태로 배양하고, 발아 상황을 관찰했다. 그 결과, 24개 중의 23개 종자는 이마자목스를 함유하지 않는 1/2 MS 배지에서 발아했고, 안정한 성장을 나타냈다. 0.5mg/L 이상의 농도로 이마자목스가 첨가된 배지에서, 배축의 갈변 및 배축의 백색화가 모든 종자에서 확인되었고, 이는 약 5mm까지 신장했다(표 4).

상기로부터, 벼 식물체에 있어서 무균 배양 조건하에 이마자목스의 유효 농도는 0.5mg/L인 것으로 판명되었다.

벼 식물체에 대한 이마자목스의 유효 농도의 평가

종자의 수	1/2 MS 배지에 첨가된 이마자목스의 농도
	0mg/L	0.5mg/L	1mg/L	2mg/L	4mg/L	5mg/L	10mg/L	20mg/L	30mg/L
무균 파종	24	24	23	24	24	24	24	24	24
발아(7일 후)	23	0	0	0	0	0	0	0	0
생존율(%)	95.8	0	0	0	0	0	0	0	0

4-2. 무균 배양 조건하에 별 칼루스에 대한 이마자목스의 유효 농도의 검증

2N6 고체 배지(앞서 언급됨)에 기초하여, 이마자목스 농도가 상이한 4단계의 배지(0mg/L, 30mg/L, 50mg/L, 70mg/L)를 생성했다. 칼루스는 벼 종자(앞서 언급됨)의 배반 부분으로부터 유도했고, 이마자목스가 첨가된 2N6 고체 배지에 접종하고, 31.5℃에서 28일 동안 매일 암 상태로 배양하고, 칼루스의 증식 상태를 확인했다. 그 결과, 이마자목스 70mg/L가 첨가된 배지에서 칼루스는 어느 정도 팽윤했지만, 유사분열 증식은 억제되었다. 대조적으로, 50mg/L 이하의 농도에서는 칼루스의 유사분열 증식이 관찰되었다(도 12).

상기로부터, 벼 칼루스에 대한 이마자목스의 유효 농도는 70mg/L인 것으로 판명되었다.

4-3. 돌연변이형 ALS 유전자(ALS A96V)에 의한 벼 칼루스에 부여된 이마자목스 내성

돌연변이형 ALS A96V에 의한 벼 칼루스에 대한 이마자목스 내성을 평가하기 위해, pRIT4-ALS WT 및 pRIT4-ALS A96V를 작제했다(도 13). pRIT4는 벼 형질전환을 위한 이중 벡터이고, 식물에 대한 양성 마커 유전자로서 하이그로마이신 포스포트랜스퍼라제(hpt)를 갖는다. pRIT4-ALS WT는 야생형 벼(Oryza sativa. L Japonica brand; Nipponbare)로부터 추출된 게놈 DNA에 기초하고, ALS 유전자, 프로모터 및 이의 전사 종결 영역을 PCR 클로닝에 의해 단리하고 이들을 pRIT4에 도입하여 수득했다. pRIT4-ALS A96V는 A96V 돌연변이가 PCR을 통해 부위 특이적 돌연변이 도입 방법에 의해 인공적으로 도입된 ALS 유전자를 생성하고 이를 pRIT4에 도입함으로써 수득했다. 이들 2종류의 벡터를 벼 종자 배반으로부터 유래된 칼루스를 형질전환시키기 위해(앞서 언급됨) 아그로박테리움 EHA101 계통에 도입했다(앞서 언급됨). 이어서, 칼루스를 하이그로마이신 40mg/L가 첨가된 선택 배지(2N6SEH50; N6 배지용의 혼합 염[Sigma사 제조] 4.0g/L, Cas아미노산 1000mg/L, 미오-이노시톨 100mg/L, 니코틴산 0.5mg/L, 피리독신 HCl 0.5mg/L, 티아민 HCl 0.5mg/L, L-프롤린 2878mg/L, 슈크로즈 30.0g/L, 2,4-D 2mg/L, 겔라이트 4.0g/L, 반코마이신 100mg/L, 메로페넴 25mg/L, pH 5.8) 상에 동일한 거리에서 정렬시키고, 31.5℃에서 어두운 곳에서 약 4주 동안 배양했다. 그 결과, pRIT4-ALS WT가 도입된 칼루스의 169개 계통 및 pRIT4-ALS A96V가 도입된 칼루스의 263개 계통이 수득되었다(표 5). 후속 단계에서, 이들 칼루스를 각 계통에 대해 개별적으로 배양했다. 2N6SEH50 배지 상에서 증식된 각 칼루스 계통은, 이마자목스 70mg/L가 첨가된 2N6SEH40인 선택 배지(2N6SEH40IMZ70)에서 계대시키고, 31.5℃에서 어두운 곳에서 약 6주 동안 배양했다. 그 결과, pRIT4-ALS WT를 갖는 칼루스 중에서, 칼루스의 6개 계통(3.6%)은 이마자목스 70mg/L에 대해 내성을 나타냈다. pRIT4-ALS A96V가 도입되는 경우, 261개 계통(99.2%)은 내성을 나타냈다(표 5).

상기로부터, 돌연변이형 ALS A96V에 의해 벼 칼루스에 부여된 이마자목스 내성을 확인할 수 있었다.

돌연변이형 ALS A96V에 의해 벼 칼루스에 부여된 이마자목스 내성

	벡터	Hm 내성	IMZ 내성	(%)
ALS (WT)	pRIT4-ALS WT	169	6	3.6
ALS (A96V)	pRIT4-ALS A96V	263	261	99.2

4-4. 표적-AID에 의한 ALS A96V 변형

표적-AID 벡터 1476(dCas-AID) 및 1477(nCas-AID)는 벼 게놈에서 ALS 유전자에 대한 표적 염기 치환(C287T)을 통해 ALS A96V로 변형되도록 설계했다(도 14). 1476, 1477을 아그로박테리움 EHA101 계통에 도입하고(앞서 언급됨), 벼 종자 배로부터 유래된 칼루스(약 8g)로의 형질전환(앞서 언급됨)에 사용했다. 아그로박테리움 접종 및 세균 제거를 겪은 칼루스를 14일 동안 2N6NU 배지에서 경화 배양하고, 하이그로마이신 40mg/L가 첨가된 선택 배지(2N6SEH40) 상에 동일한 거리에서 정렬시키고, 31.5℃에서 어두운 곳에서 약 3주 동안 배양했다. 이어서, 이를 동일한 배지에서 계대시키고, 25℃에서 어두운 곳에서 약 10주 동안 배양하여 1476 도입을 갖는 칼루스의 155개 계통 및 1477 도입을 갖는 칼루스의 203개 계통을 수득했다. 후속 단계에서, 계통은 개별적으로 배양했다. 각 계통의 칼루스를 2개로 나누고, 하이그로마이신(50mg/L)이 첨가된 배지(2N6SEH50) 및 이마자목스 70mg/L가 첨가된 배지(2N6SEH50IMZ70)에서 계대시키고, 31.5℃에서 어두운 곳에서 약 6주 동안 선택 배양했다. 2N6SEH50 상에서 배양 결과, 모든 계통의 칼루스가 증식했다. 2N6SEH50IMZ70 상에서 배양하는 경우, 증식은 1476 도입을 갖는 칼루스의 3개 계통 및 1477 도입을 갖는 칼루스의 6개 계통에서 발견되었다. 칼루스의 이들 9개 계통에서 ALS 유전자 서열을 확인하기 위해, 게놈 DNA를 추출하고, 프라이머 세트 "ALS 클로닝-F"(서열번호 17) 및 "ALS 클로닝-R"(서열번호 18)을 사용한 PCR에 의해 DNA 단편을 증폭시키면서, SbfI 및 NotI 인식 부위를 부가했다. 수득된 PCR 생성물을 MonoFas DNA 정제 키트 I(GL Sciences Inc.)에 의해 정제하고, pDONRZeo(Thermo Fisher Scientific Inc.)을 변형시켜 수득한 클로닝 벡터의 SbfI-NotI 부위 사이에 클로닝했다. 수득된 플라스미드 클론의 염기 서열은 프라이머 "ALS F-1"(서열번호 19)을 사용한 DNA 시퀀서(ABI, 3130XL)에 의해 분석했다. 사용된 프라이머 서열은 표 1에 제시되어 있다.

그 결과, 1477의 도입을 갖고 이마자목스 내성을 나타내는 6개 계통 중에서, A96V 돌연변이는 4개 계통의 ALS 유전자에 도입되었다. 3개 계통에서, A96 돌연변이를 유발한 표적 염기의 치환(C287T)이 확인되었다(도 15B). 나머지 하나의 계통에서, 아미노산 서열의 변화가 없는 C285T는 C287T에 추가하여 또한 확인되었다(도 15C). 이들은 모두 벡터 1477의 표적 서열에서 C의 T로의 염기 치환이다. 이들 계통과 관련하여, ALS 유전자, 이의 프로모터 및 전사 종결 영역의 게놈 서열이 확인되었지만, C285T 및 C287T 이외의 돌연변이는 확인되지 않았다. 따라서, 표적-AID에 의한 벼 내인성 ALS 유전자의 변형 및 이에 의해 부여된 제초제 내성은 성공적인 것으로 판단되었다. ALS 유전자 내로 A96V 돌연변이의 도입에 성공한 4개 계통 중의 3개 계통에서, T0 식물체는 성공적으로 재분화했다(도 16). "ALS 클로닝-F" 및 "ALS 클로닝-R"을 사용한 PCR에 의해 증폭된 수득된 T0 식물체의 DNA 단편은 "ALS F-1"을 사용하여 직접 서열분석했다. 그 결과, 모든 T0 식물체가 유래하는 칼루스와 동일한 돌연변이(C287T 또는 C285T/C287T)가 확인되었다(도 17).

5. 표적-AID에 의한 복수 유전자의 동시 변형

표적-AID 벡터 2455(dCas-AID)는 pRIT3-mEGFP 상의 mEGFP 유전자 및 벼 내인성 ALS 유전자의 동시 변형을 위해 생성되었고, 각각 동일한 gRNA를 2408/2409 및 1476/1477로서 발현한다. 2455는, pRIT3-mEGFP가 도입되어 이중 형질전환체 계통의 124개 계통을 제공하는 칼루스(약 17g) 내로 상술된 방법에 의해 도입되었다. 이들은 입체 형광 현미경하에 관찰했고, EGFP의 발현이 3개 계통에서 확인되었다. 추가로, 칼루스의 이들 3개 계통을 2N6SEH40IMZ70 배지에서 계대시키고, 31.5℃에서 어두운 곳에서 약 6주 동안 배양했다. 그 결과, 모두는 이마자목스 내성을 나타냈고, 활성적으로 증식했다. 게놈 DNA를 칼루스의 3개 계통으로부터 추출하고, mEGFP 유전자 영역 및 ALS 유전자 영역은 프라이머 세트 "SbfI-p35S-F" 및 "EGFP-NotI-R", 또는 "ALS 클로닝-F" 및 "ALS 클로닝-R"을 사용하여 PCR에 의해 증폭시켰다. 수득된 PCR 생성물을 MonFas DNA 정제 키트 I(GL Sciences Inc.)에 의해 정제하고, 직접 서열분석에 제공했다. 그 결과, 표적-AID에 의한 표적 염기 치환은 하나의 계통 중의 mEGFP 유전자 및 ALS 유전자 둘 다에서 확인되었다(도 18). mEGFP 유전자의 개시 코돈 직후의 정지 코돈(TAG) 세트를 티로신에 상응하는 TAT로 변형시키고, 직후의 GTG를 메티오닌에 상응하는 ATG로 변형시켰다(도 18A). C287T는 ALS 유전자에서 확인되었다(도 18B).

상기로부터, 벼 게놈 중의 복수의 표적 서열은 표적-AID에 의해 동시에 변형시킬 수 있음이 실증되었다.

[산업상 이용가능성]

본 발명에 따르면, 부위 특이적 돌연변이는, DNA 이본쇄 절단을 수반하지 않고서, 임의의 단자엽식물에 안전하게 도입할 수 있다. 이렇게 수득된 유전적으로 변형된 단자엽식물은, 벼 등의 주요 곡물을 포함하는 단자엽식물의 분자 육종에 극히 유용하다.

본 출원은 일본에서 출원된 특허 출원 제2015-232379호(출원일: 2015년 11월 27일) 및 일본에서 출원된 특허 출원 제2016-134613호(출원일: 2016년 7월 6일)에 기초한 것이고, 이들 내용은 완전하게 본원에서 도입된다.

SEQUENCE LISTING <110> NATIONAL UNIVERSITY CORPORATION KOBE UNIVERSITY <120> METHOD FOR CONVERTING MONOCOT PLANT GENOME SEQUENCE IN WHICH NUCLEIC ACID BASE IN TARGETED DNA SEQUENCE IS SPECIFICALLY CONVERTED, AND MOLECULAR COMPLEX USED THEREIN <130> IPA180633-JP <150> JP 2015-232379 <151> 2015-11-27 <150> JP 2016-134613 <151> 2016-07-06 <160> 19 <170> PatentIn version 3.5 <210> 1 <211> 627 <212> DNA <213> Artificial Sequence <220> <223> PmCDA codon-optimized for Arabidopsis thaliana. <220> <221> CDS <222> (1)..(627) <400> 1 atg aca gat gct gaa tat gtc aga atc cac gaa aag ttg gac att tac 48 Met Thr Asp Ala Glu Tyr Val Arg Ile His Glu Lys Leu Asp Ile Tyr 1 5 10 15 acg ttt aag aag cag ttc ttc aac aac aag aaa tct gtt tcg cat agg 96 Thr Phe Lys Lys Gln Phe Phe Asn Asn Lys Lys Ser Val Ser His Arg 20 25 30 tgc tat gtg ctt ttc gaa cta aaa cgt cgt gga gaa aga cgg gct tgc 144 Cys Tyr Val Leu Phe Glu Leu Lys Arg Arg Gly Glu Arg Arg Ala Cys 35 40 45 ttt tgg ggt tac gcg gtt aac aaa cca caa tca ggt act gaa cga gga 192 Phe Trp Gly Tyr Ala Val Asn Lys Pro Gln Ser Gly Thr Glu Arg Gly 50 55 60 ata cac gct gaa atc ttt tct atc cga aag gtt gag gaa tat cta cgt 240 Ile His Ala Glu Ile Phe Ser Ile Arg Lys Val Glu Glu Tyr Leu Arg 65 70 75 80 gac aat cct gga cag ttc act atc aat tgg tat tct agc tgg tca cca 288 Asp Asn Pro Gly Gln Phe Thr Ile Asn Trp Tyr Ser Ser Trp Ser Pro 85 90 95 tgt gca gat tgt gct gag aag att ctc gaa tgg tac aat caa gag ctt 336 Cys Ala Asp Cys Ala Glu Lys Ile Leu Glu Trp Tyr Asn Gln Glu Leu 100 105 110 aga ggc aat gga cat aca ttg aaa ata tgg gca tgc aag ctc tac tac 384 Arg Gly Asn Gly His Thr Leu Lys Ile Trp Ala Cys Lys Leu Tyr Tyr 115 120 125 gaa aag aat gcc aga aac caa att ggg ctt tgg aac ttg agg gat aat 432 Glu Lys Asn Ala Arg Asn Gln Ile Gly Leu Trp Asn Leu Arg Asp Asn 130 135 140 gga gtt ggg ctt aat gtc atg gtt tct gag cac tat caa tgt tgt cgg 480 Gly Val Gly Leu Asn Val Met Val Ser Glu His Tyr Gln Cys Cys Arg 145 150 155 160 aag atc ttc ata caa agt tcc cat aac cag ttg aat gag aac aga tgg 528 Lys Ile Phe Ile Gln Ser Ser His Asn Gln Leu Asn Glu Asn Arg Trp 165 170 175 tta gag aaa acc ctt aaa aga gcc gag aag aga aga tcc gaa ctg agc 576 Leu Glu Lys Thr Leu Lys Arg Ala Glu Lys Arg Arg Ser Glu Leu Ser 180 185 190 att atg ata cag gtc aaa att ctg cat acc act aag agt cca gct gta 624 Ile Met Ile Gln Val Lys Ile Leu His Thr Thr Lys Ser Pro Ala Val 195 200 205 ggt 627 Gly <210> 2 <211> 209 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Construct <400> 2 Met Thr Asp Ala Glu Tyr Val Arg Ile His Glu Lys Leu Asp Ile Tyr 1 5 10 15 Thr Phe Lys Lys Gln Phe Phe Asn Asn Lys Lys Ser Val Ser His Arg 20 25 30 Cys Tyr Val Leu Phe Glu Leu Lys Arg Arg Gly Glu Arg Arg Ala Cys 35 40 45 Phe Trp Gly Tyr Ala Val Asn Lys Pro Gln Ser Gly Thr Glu Arg Gly 50 55 60 Ile His Ala Glu Ile Phe Ser Ile Arg Lys Val Glu Glu Tyr Leu Arg 65 70 75 80 Asp Asn Pro Gly Gln Phe Thr Ile Asn Trp Tyr Ser Ser Trp Ser Pro 85 90 95 Cys Ala Asp Cys Ala Glu Lys Ile Leu Glu Trp Tyr Asn Gln Glu Leu 100 105 110 Arg Gly Asn Gly His Thr Leu Lys Ile Trp Ala Cys Lys Leu Tyr Tyr 115 120 125 Glu Lys Asn Ala Arg Asn Gln Ile Gly Leu Trp Asn Leu Arg Asp Asn 130 135 140 Gly Val Gly Leu Asn Val Met Val Ser Glu His Tyr Gln Cys Cys Arg 145 150 155 160 Lys Ile Phe Ile Gln Ser Ser His Asn Gln Leu Asn Glu Asn Arg Trp 165 170 175 Leu Glu Lys Thr Leu Lys Arg Ala Glu Lys Arg Arg Ser Glu Leu Ser 180 185 190 Ile Met Ile Gln Val Lys Ile Leu His Thr Thr Lys Ser Pro Ala Val 195 200 205 Gly <210> 3 <211> 4104 <212> DNA <213> Artificial Sequence <220> <223> Cas9 codon-optimized for rice. <220> <221> CDS <222> (1)..(4101) <400> 3 atg gac aag aag tac tcg atc ggg ctg gmc atc gga aca aat tct gta 48 Met Asp Lys Lys Tyr Ser Ile Gly Leu Xaa Ile Gly Thr Asn Ser Val 1 5 10 15 ggc tgg gct gta ata acc gat gag tac aag gtg ccc tct aaa aaa ttt 96 Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe 20 25 30 aag gtc ctt ggc aat acg gat aga cat tcc ata aag aag aat ctt atc 144 Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile 35 40 45 ggt gcg ctg ctc ttt gac agc ggc gag acc gcg gag gcg acc cgg ttg 192 Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu 50 55 60 aaa cgc acc gcg aga cgc cgt tac aca agg cgt aag aat aga atc tgt 240 Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys 65 70 75 80 tat ctc cag gag ata ttc tct aat gaa atg gcg aag gta gac gat tcc 288 Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser 85 90 95 ttc ttt cac cgt ctg gag gaa agt ttt ctc gtt gag gaa gat aag aaa 336 Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys 100 105 110 cat gaa aga cac ccg atc ttc gga aac att gtc gac gag gtc gct tat 384 His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr 115 120 125 cat gaa aag tac cct acc atc tac cat ctt aga aag aaa ctt gtt gac 432 His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp 130 135 140 agc acg gat aag gct gat ctc agg ctg ata tac ctg gct ctg gca cat 480 Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His 145 150 155 160 atg att aag ttc aga ggg cat ttc ctt atc gaa ggc gac ctg aat cca 528 Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro 165 170 175 gat aat tca gat gta gac aag ctc ttc att caa ctt gtg cag act tat 576 Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr 180 185 190 aat cag ctc ttc gaa gaa aat cca ata aac gcg tcg ggt gta gac gca 624 Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala 195 200 205 aag gcc ata ctg tcc gct agg ctt tct aag tca cgt aga ctt gag aat 672 Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn 210 215 220 ctc att gcc caa ctc ccc ggc gag aag aag aac ggc ttg ttt gga aat 720 Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn 225 230 235 240 ctg ata gcg ctg tcc ctg ggt ctt aca cca aat ttc aag agt aat ttc 768 Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe 245 250 255 gat ttg gca gaa gat gct aag ttg cag ctc agt aaa gac acc tac gat 816 Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp 260 265 270 gac gat ctt gat aat ttg ttg gct cag att ggc gat cag tat gca gat 864 Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp 275 280 285 ctt ttc ttg gcc gct aag aat ttg tct gat gca att ctg ctt agc gac 912 Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp 290 295 300 att ttg agg gtt aat aca gaa atc acc aag gca ccc ttg tcg gcg tca 960 Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser 305 310 315 320 atg ata aag agg tat gat gag cac cac caa gac ctg acg ctc ctc aag 1008 Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys 325 330 335 gct ctt gtt cgg cag caa ttg ccg gag aag tac aaa gag atc ttc ttc 1056 Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe 340 345 350 gac cag tct aag aac gga tat gcg ggc tac ata gac ggt gga gcg agt 1104 Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser 355 360 365 cag gag gaa ttc tac aag ttc ata aag ccc att ctc gag aag atg gat 1152 Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp 370 375 380 ggt acg gaa gaa ctg ctt gtg aaa ctt aac aga gaa gat ctt ttg cgg 1200 Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg 385 390 395 400 aag cag aga act ttc gac aac gga agt ata cca cac cag ata cat ctc 1248 Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu 405 410 415 gga gag ctt cat gct att ctc aga aga caa gag gat ttc tac cct ttc 1296 Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe 420 425 430 ttg aag gat aac aga gaa aag ata gag aag atc ctc acg ttt agg atc 1344 Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile 435 440 445 cct tac tac gta ggt cct ctt gct cgc ggc aat agt agg ttc gcc tgg 1392 Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp 450 455 460 atg acc cgc aag tct gaa gaa act atc acc cct tgg aat ttc gaa gag 1440 Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu 465 470 475 480 gtt gta gac aaa ggt gct tca gca cag agt ttc att gag agg atg acc 1488 Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr 485 490 495 aac ttc gac aag aac ctc ccc aac gaa aag gtc ctg cct aag cac agc 1536 Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser 500 505 510 ctc ctc tac gaa tac ttt act gtc tat aat gag ctt aca aaa gtt aag 1584 Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys 515 520 525 tac gtg aca gag gga atg cgg aag ccc gca ttc ctt tcc gga gaa caa 1632 Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln 530 535 540 aag aag gcg atc gtg gat ctt ctc ttc aag acg aac cgc aag gtg acg 1680 Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr 545 550 555 560 gtt aaa cag ttg aag gaa gat tac ttc aag aag ata gaa tgt ttt gat 1728 Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp 565 570 575 agc gtg gaa atc agc ggc gtc gaa gat agg ttc aac gct tcc ctg gga 1776 Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly 580 585 590 acg tac cac gat ctc ctc aag att atc aaa gat aag gac ttt ctt gat 1824 Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp 595 600 605 aac gaa gag aat gag gac atc ttg gaa gac att gtt ctg acg ctc acc 1872 Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr 610 615 620 ctg ttc gaa gat cgc gag atg att gag gaa cgc ttg aag acc tac gca 1920 Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala 625 630 635 640 cac ctg ttc gat gac aag gtt atg aag caa ctt aaa cgg cgc cgg tat 1968 His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr 645 650 655 acg ggc tgg gga cgg ctt tcg cgg aag ctg ata aat gga atc cgt gac 2016 Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp 660 665 670 aag cag tct ggc aag aca ata ctc gac ttc ttg aag tcg gat ggt ttt 2064 Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe 675 680 685 gcc aat aga aat ttt atg caa ctc att cat gat gac tcg ctt act ttt 2112 Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe 690 695 700 aag gag gac atc cag aag gcc cag gta tca gga cag ggt gac tct ttg 2160 Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu 705 710 715 720 cac gaa cac atc gcg aac ctg gcg ggc tcc ccc gcg att aag aag gga 2208 His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly 725 730 735 att ttg cag act gtc aag gtg gtc gat gaa ctc gtg aag gtt atg gga 2256 Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly 740 745 750 cgt cat aag ccg gaa aat att gtg att gag atg gct cgc gag aat caa 2304 Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln 755 760 765 aca aca cag aag ggc caa aag aac agt aga gaa cgc atg aag cgc atc 2352 Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile 770 775 780 gaa gag ggc atc aaa gag ctg ggc agt cag atc ctt aaa gaa cat cca 2400 Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro 785 790 795 800 gtc gag aat aca cag ctt cag aac gaa aag ctg tac ctt tat tac ctt 2448 Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu 805 810 815 caa aat ggg cgt gat atg tat gtg gat cag gaa ctc gat atc aat agg 2496 Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg 820 825 830 ctg agt gac tat gat gtc gac smt atc gtc ccg caa agt ttc ctc aag 2544 Leu Ser Asp Tyr Asp Val Asp Xaa Ile Val Pro Gln Ser Phe Leu Lys 835 840 845 gac gac agt ata gac aac aaa gtt ctc aca cgg tca gat aag aat cgc 2592 Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg 850 855 860 ggc aag agc gat aat gta ccg tcg gag gag gta gtc aag aag atg aag 2640 Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys 865 870 875 880 aat tac tgg cgc cag ttg ctc aac gcc aag ctc atc act cag agg aaa 2688 Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys 885 890 895 ttt gac aac ctt acg aaa gcc gag cgg ggc gga ctc tct gaa ctg gac 2736 Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp 900 905 910 aag gcc ggt ttc ata aag cgc cag ctc gtt gag aca cgt caa att act 2784 Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr 915 920 925 aag cac gtc gct caa ata ttg gat tcc cgc atg aat act aag tac gat 2832 Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp 930 935 940 gag aat gat aag ctc ata cgt gaa gtt aag gtc att act ctc aag tcc 2880 Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser 945 950 955 960 aag ctt gta tcg gac ttc cgt aag gac ttc caa ttc tac aag gtc cgg 2928 Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg 965 970 975 gaa atc aat aat tat cac cat gcc cat gac gct tat ctg aac gcg gtc 2976 Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val 980 985 990 gtg ggc acg gca ctc att aag aaa tac cca aaa ctt gag tca gaa ttt 3024 Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe 995 1000 1005 gtt tac ggg gac tat aaa gtt tat gac gtg cgg aag atg ata gcg 3069 Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala 1010 1015 1020 aag tcg gaa caa gag ata gga aag gcg act gca aag tac ttt ttt 3114 Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe 1025 1030 1035 tac tcc aac ata atg aat ttc ttt aag acc gaa ata acc ctt gca 3159 Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala 1040 1045 1050 aac ggt gaa atc aga aag cgg cct ctg att gaa aca aat ggc gag 3204 Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu 1055 1060 1065 acg ggc gag atc gtc tgg gac aag ggg agg gac ttc gca acg gtt 3249 Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val 1070 1075 1080 cgc aag gtc ctt agc atg ccg caa gta aat ata gtt aag aag acg 3294 Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr 1085 1090 1095 gaa gtt cag acc ggc ggc ttt agt aaa gaa agc ata ctt cct aaa 3339 Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys 1100 1105 1110 agg aat tcc gac aaa ctg ata gcg cgc aag aag gac tgg gat cca 3384 Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro 1115 1120 1125 aag aag tat gga gga ttt gac tcc cca acc gtt gct tat agc gtg 3429 Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val 1130 1135 1140 ttg gta gta gcc aag gtg gaa aag ggt aag tct aag aaa ttg aag 3474 Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys 1145 1150 1155 tcg gtg aag gag ttg ttg ggg ata act ata atg gag cgg agt tcg 3519 Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser 1160 1165 1170 ttc gag aag aac cca att gac ttt ctc gaa gcc aaa ggc tac aag 3564 Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys 1175 1180 1185 gag gtc aag aag gac ctg att att aag ttg cca aag tac tcg ctc 3609 Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu 1190 1195 1200 ttc gaa ctc gag aac ggg aga aag cgt atg ctg gcg tcg gcg ggc 3654 Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly 1205 1210 1215 gag ctg cag aaa gga aac gag ctg gct ttg cca tcg aaa tac gta 3699 Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val 1220 1225 1230 aat ttc ctg tac ctc gcc tca cat tat gag aag ctt aaa ggg tct 3744 Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser 1235 1240 1245 cca gaa gac aat gaa cag aag cag ctg ttt gtt gaa cag cac aag 3789 Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys 1250 1255 1260 cac tac ttg gac gag att ata gaa caa atc tcc gag ttc tct aaa 3834 His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys 1265 1270 1275 cgg gtt atc ctt gca gac gcc aat ttg gat aag gtc ctc tcg gct 3879 Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala 1280 1285 1290 tat aat aag cat aga gat aag cca atc cgg gag cag gct gaa aat 3924 Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn 1295 1300 1305 atc ata cac ctc ttt acg ttg act aat ttg ggt gcg cca gcg gca 3969 Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala 1310 1315 1320 ttc aag tac ttc gat aca aca atc gat cgt aag cgc tac aca agc 4014 Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser 1325 1330 1335 act aag gaa gtc ctg gac gcg acg ctg ata cac cag tcc att act 4059 Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr 1340 1345 1350 gga ctg tat gaa acc aga ata gat ctt agc cag ctc ggc ggt gat 4104 Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly 1355 1360 1365 <210> 4 <211> 1367 <212> PRT <213> Artificial Sequence <220> <221> misc_feature <222> (10)..(10) <223> The 'Xaa' at location 10 stands for Asp, or Ala. <220> <221> misc_feature <222> (840)..(840) <223> The 'Xaa' at location 840 stands for Asp, Ala, His, or Pro. <220> <223> Synthetic Construct <400> 4 Met Asp Lys Lys Tyr Ser Ile Gly Leu Xaa Ile Gly Thr Asn Ser Val 1 5 10 15 Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe 20 25 30 Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile 35 40 45 Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu 50 55 60 Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys 65 70 75 80 Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser 85 90 95 Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys 100 105 110 His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr 115 120 125 His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp 130 135 140 Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His 145 150 155 160 Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro 165 170 175 Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr 180 185 190 Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala 195 200 205 Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn 210 215 220 Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn 225 230 235 240 Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe 245 250 255 Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp 260 265 270 Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp 275 280 285 Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp 290 295 300 Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser 305 310 315 320 Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys 325 330 335 Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe 340 345 350 Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser 355 360 365 Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp 370 375 380 Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg 385 390 395 400 Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu 405 410 415 Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe 420 425 430 Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile 435 440 445 Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp 450 455 460 Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu 465 470 475 480 Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr 485 490 495 Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser 500 505 510 Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys 515 520 525 Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln 530 535 540 Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr 545 550 555 560 Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp 565 570 575 Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly 580 585 590 Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp 595 600 605 Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr 610 615 620 Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala 625 630 635 640 His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr 645 650 655 Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp 660 665 670 Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe 675 680 685 Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe 690 695 700 Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu 705 710 715 720 His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly 725 730 735 Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly 740 745 750 Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln 755 760 765 Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile 770 775 780 Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro 785 790 795 800 Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu 805 810 815 Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg 820 825 830 Leu Ser Asp Tyr Asp Val Asp Xaa Ile Val Pro Gln Ser Phe Leu Lys 835 840 845 Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg 850 855 860 Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys 865 870 875 880 Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys 885 890 895 Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp 900 905 910 Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr 915 920 925 Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp 930 935 940 Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser 945 950 955 960 Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg 965 970 975 Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val 980 985 990 Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe 995 1000 1005 Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala 1010 1015 1020 Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe 1025 1030 1035 Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala 1040 1045 1050 Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu 1055 1060 1065 Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val 1070 1075 1080 Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr 1085 1090 1095 Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys 1100 1105 1110 Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro 1115 1120 1125 Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val 1130 1135 1140 Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys 1145 1150 1155 Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser 1160 1165 1170 Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys 1175 1180 1185 Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu 1190 1195 1200 Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly 1205 1210 1215 Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val 1220 1225 1230 Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser 1235 1240 1245 Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys 1250 1255 1260 His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys 1265 1270 1275 Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala 1280 1285 1290 Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn 1295 1300 1305 Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala 1310 1315 1320 Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser 1325 1330 1335 Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr 1340 1345 1350 Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly 1355 1360 1365 <210> 5 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> SV40-derived nuclear localization signal. <220> <221> CDS <222> (1)..(21) <400> 5 cct aag aag aar mgk aar gtw 21 Pro Lys Lys Lys Xaa Lys Xaa 1 5 <210> 6 <211> 7 <212> PRT <213> Artificial Sequence <220> <221> misc_feature <222> (5)..(5) <223> The 'Xaa' at location 5 stands for Arg, or Ser. <220> <221> misc_feature <222> (7)..(7) <223> The 'Xaa' at location 7 stands for Val. <220> <223> Synthetic Construct <400> 6 Pro Lys Lys Lys Xaa Lys Xaa 1 5 <210> 7 <211> 19 <212> RNA <213> Francisella novicida <220> <221> misc_structure <222> (1)..(19) <223> crRNA direct repeat sequence. <400> 7 aauuucuacu guuguagau 19 <210> 8 <211> 83 <212> DNA <213> Streptococcus pyogenes <220> <221> misc_structure <222> (1)..(83) <223> tracrRNA <400> 8 gttttagagc tagaaatagc aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt 60 ggcaccgagt cggtggtgct ttt 83 <210> 9 <211> 14551 <212> DNA <213> Artificial Sequence <220> <223> Complete nucleotide sequence of pRIT3-EGFP. <400> 9 agatggttgt tcaagacgat ctacgaacgc agtggcagcg ccggagagtt caagaagttc 60 tgtttcaccg tgcgcaagct gatcgggtca aatgacctgc cggagtacga tttgaaggag 120 gaggcggggc aggctggccc gatcctagtc atgcgctacc gcaacctgat cgagggcgaa 180 gcatccgccg gttcctaatg tacggagcag atgctagggc aaattgccct agcaggggaa 240 aaaggtcgaa aaggtctctt tcctgtggat agcacgtaca ttgggaaccc aaagccgtac 300 attgggaacc ggaacccgta cattgggaac ccaaagccgt acattgggaa ccggtcacac 360 atgtaagtga ctgatataaa agagaaaaaa ggcgattttt ccgcctaaaa ctctttaaaa 420 cttattaaaa ctcttaaaac ccgcctggcc tgtgcataac tgtctggcca gcgcacagcc 480 gaagagctgc aaaaagcgcc tacccttcgg tcgctgcgct ccctacgccc cgccgcttcg 540 cgtcggccta tcgcggccgc tggccgctca aaaatggctg gcctacggcc aggcaatcta 600 ccagggcgcg gacaagccgc gccgtcgcca ctcgaccgcc ggcgcccaca tcaaggcacc 660 ctgcctcgcg cgtttcggtg atgacggtga aaacctctga cacatgcagc tcccggagac 720 ggtcacagct tgtctgtaag cggatgccgg gagcagacaa gcccgtcagg gcgcgtcagc 780 gggtgttggc gggtgtcggg gcgcagccat gacccagtca cgtagcgata gcggagtgta 840 tactggctta actatgcggc atcagagcag attgtactga gagtgcacca tatgcggtgt 900 gaaataccgc acagatgcgt aaggagaaaa taccgcatca ggcgctcttc cgcttcctcg 960 ctcactgact cgctgcgctc ggtcgttcgg ctgcggcgag cggtatcagc tcactcaaag 1020 gcggtaatac ggttatccac agaatcaggg gataacgcag gaaagaacat gtgagcaaaa 1080 ggccagcaaa aggccaggaa ccgtaaaaag gccgcgttgc tggcgttttt ccataggctc 1140 cgcccccctg acgagcatca caaaaatcga cgctcaagtc agaggtggcg aaacccgaca 1200 ggactataaa gataccaggc gtttccccct ggaagctccc tcgtgcgctc tcctgttccg 1260 accctgccgc ttaccggata cctgtccgcc tttctccctt cgggaagcgt ggcgctttct 1320 catagctcac gctgtaggta tctcagttcg gtgtaggtcg ttcgctccaa gctgggctgt 1380 gtgcacgaac cccccgttca gcccgaccgc tgcgccttat ccggtaacta tcgtcttgag 1440 tccaacccgg taagacacga cttatcgcca ctggcagcag ccactggtaa caggattagc 1500 agagcgaggt atgtaggcgg tgctacagag ttcttgaagt ggtggcctaa ctacggctac 1560 actagaagga cagtatttgg tatctgcgct ctgctgaagc cagttacctt cggaaaaaga 1620 gttggtagct cttgatccgg caaacaaacc accgctggta gcggtggttt ttttgtttgc 1680 aagcagcaga ttacgcgcag aaaaaaagga tctcaagaag atcctttgat cttttctacg 1740 gggtctgacg ctcagtggaa cgaaaactca cgttaaggga ttttggtcat gagattatca 1800 aaaaggatct tcacctagat ccttttaaat taaaaatgaa gttttaaatc aatctaaagt 1860 atatatgagt aaacttggtc tgacagttac caatgcttaa tcagtgaggc acctatctca 1920 gcgatctgtc tatttcgttc atccatagtt gcctgactcc ccgtcgtgta gataactacg 1980 atacgggagg gcttaccatc tggccccagt gctgcaatga taccgcgaga cccacgctca 2040 ccggctccag atttatcagc aataaaccag ccagccggaa gggccgagcg cagaagtggt 2100 cctgcaactt tatccgcctc catccagtct attaattgtt gccgggaagc tagagtaagt 2160 agttcgccag ttaatagttt gcgcaacgtt gttgccattg ctacaggcat cgtggtgtca 2220 cgctcgtcgt ttggtatggc ttcattcagc tccggttccc aacgatcaag gcgagttaca 2280 tgatccccca tgttgtgcaa aaaagcggtt agctccttcg gtcctccgat cgttgtcaga 2340 agtaagttgg ccgcagtgtt atcactcatg gttatggcag cactgcataa ttctcttact 2400 gtcatgccat ccgtaagatg cttttctgtg actggtgagt actcaaccaa gtcattctga 2460 gaatagtgta tgcggcgacc gagttgctct tgcccggcgt caacacggga taataccgcg 2520 ccacatagca gaactttaaa agtgctcatc attggaaaac gttcttcggg gcgaaaactc 2580 tcaaggatct taccgctgtt gagatccagt tcgatgtaac ccactcgtgc acccaactga 2640 tcttcagcat cttttacttt caccagcgtt tctgggtgag caaaaacagg aaggcaaaat 2700 gccgcaaaaa agggaataag ggcgacacgg aaatgttgaa tactcatact cttccttttt 2760 caatattatt gaagcattta tcagggttat tgtctcatga gcggatacat atttgaatgt 2820 atttagaaaa ataaacaaat aggggttccg cgcacatttc cccgaaaagt gccacctgac 2880 gtctaagaaa ccattattat catgacatta acctataaaa ataggcgtat cacgaggccc 2940 tttcgtcttc gaataaatac ctgtgacgga agatcacttc gcagaataaa taaatcctgg 3000 tgtccctgtt gataccggga agccctgggc caacttttgg cgaaaatgag acgttgatcg 3060 gcacgtaaga ggttccaact ttcaccataa tgaaataaga tcactaccgg gcgtattttt 3120 tgagttatcg agattttcag gagctaagga agctaaaatg gagaaaaaaa tcactggata 3180 taccaccgtt gatatatccc aatggcatcg taaagaacat tttgaggcat ttcagtcagt 3240 tgctcaatgt acctataacc agaccgttcc tggatattac ggccttttta aagaccgtaa 3300 agaaaaataa gcacaagttt tatccggcct ttattcacat tcttgcccgc ctgatgaatg 3360 ctcatccgga ataattcgaa gctcggtccc gtgggtgttc tgtcgtctcg ttgtacaacg 3420 aaatccattc ccattccgcg ctcaagatgg cttcccctcg gcagttcatc agggctaaat 3480 caatctagcc gacttgtccg gtgaaatggg ctgcactcca acagaaacaa tcaaacaaac 3540 atacacagcg acttattcac acgagctcaa attacaacgg tatatatcct gccagtcagc 3600 atcatcacac caaaagttag gcccgaatag tttgaaatta gaaagctcgc aattgaggtc 3660 tacaggccaa attcgctctt agccgtacaa tattactcac cggtgcgatg ccccccatcg 3720 taggtgaagg tggaaattaa tgatccatct tgagaccaca ggcccacaac agctaccagt 3780 ttcctcaagg gtccaccaaa aacgtaagcg cttacgtaca tggtcgataa gaaaaggcaa 3840 tttgtagatg ttaattccca tcttgaaaga aatatagttt aaatatttat tgataaaata 3900 acaagtcagg tattatagtc caagcaaaaa cataaattta ttgatgcaag tttaaattca 3960 gaaatatttc aataactgat tatatcagct ggtacattgc cgtagatgaa agactgagtg 4020 cgatattatg tgtaatacat aaattgatga tatagctagc ttagctcatc gggggatccg 4080 tcgacctgca gccaagctgg gatcccagct gggatcccag cttgtcgacg gtaccccctc 4140 tagagttcct tctagacccg atctagtaac atagatgaca ccgcgcgcga taatttatcc 4200 tagtttgcgc gctatatttt gttttctatc gcgtattaaa tgtataattg cgggactcta 4260 atcataaaaa cccatctcat aaataacgtc atgcattaca tgttaattat tacatgctta 4320 acgtaattca acagaaatta tatgataatc atcgcaagac cggcaacagg attcaatctt 4380 aagaaacttt attgccaaat gtttgaacga tcggggatca tccgggtctg tggcgggaac 4440 tccacgaaaa tatccgaacg cagcaagata tcgcggtgca tctcggtctt gcctgggcag 4500 tcgccgccga cgccgttgat gtggacgccg ggcccgatca tattgtcgct caggatcgtg 4560 gcgttgtgct tgtcggccgt tgctgtcgta atgatatcgg caccttcgac cgcctgttcc 4620 gcagagatcc cgtgggcgaa gaactccagc atgagatccc cgcgctggag gatcatccag 4680 ccggcgtccc ggaaaacgat tccgaagccc aacctttcat agaaggcggc ggtggaatcg 4740 aaatctcgtg atggcaggtt gggcgtcgct tggtcggtca tttcgaaccc cagagtcccg 4800 ctcagaagaa ctcgtcaaga aggcgataga aggcgatgcg ctgcgaatcg ggagcggcga 4860 taccgtaaag cacgaggaag cggtcagccc attcgccgcc aagctcttca gcaatatcac 4920 gggtagccaa cgctatgtcc tgatagcggt ccgccacacc cagccggcca cagtcgatga 4980 atccagaaaa gcggccattt tccaccatga tattcggcaa gcaggcatcg ccatgggtca 5040 cgacgagatc atcgccgtcg ggcatgcgcg ccttgagcct ggcgaacagt tcggctggcg 5100 cgagcccctg atgctcttcg tccagatcat cctgatcgac aagaccggct tccatccgag 5160 tacgtgctcg ctcgatgcga tgtttcgctt ggtggtcgaa tgggcaggta gccggatcaa 5220 gcgtatgcag ccgccgcatt gcatcagcca tgatggatac tttctcggca ggagcaaggt 5280 gagatgacag gagatcctgc cccggcactt cgcccaatag cagccagtcc cttcccgctt 5340 cagtgacaac gtcgagcaca gctgcgcaag gaacgcccgt cgtggccagc cacgatagcc 5400 gcgctgcctc gtcctgcagt tcattcaggg caccggacag gtcggtcttg acaaaaagaa 5460 ccgggcgccc ctgcgctgac agccggaaca cggcggcatc agagcagccg attgtctgtt 5520 gtgcccagtc atagccgaat agcctctcca cccaagcggc cggagaacct gcgtgcaatc 5580 catcttgttc aatcatatct cattgccccc cggtctacct acaaaaaagc tccgcacgag 5640 gctgcatttg tcacaaatca tgaaaagaaa aactaccgat gaacaatgct gagggattca 5700 aattctaccc acaaaaagaa gaaagaaaga tctagcacat ctaagcctga cgaagcagca 5760 gaaatatata aaaatataaa ccatagtgcc cttttcccct cttcctgatc ttgtttagca 5820 tggcggaaat tttaaacccc ccatcatctc ccccaacaac ggcggatcgc agatctacat 5880 ccgagagccc cattccccgc gagatccggg ccggatccac gccggcgaga gccccagccg 5940 cgagatcccg cccctcccgc gcaccgatct gggcgcgcac gaagccgcct ctcgcccacc 6000 caaactacca aggccaaaga tcgagaccga gacggaaaaa aaaaacggag aaagaaagag 6060 gagaggggcg gggtggttac cggcgcggcg gcggcggagg gggagggggg aggagctcgt 6120 cgtccggcag cgagggggga ggaggtggag gtggtggtgg tggtggtggt agggttgggg 6180 ggatgggagg agaggggggg gtatgtatat agtggcgatg gggggcgttt ctttggaagc 6240 ggagggaggg ccggcctcgt cgctggctcg cgatcctcct cgcgtttccg gcccccacga 6300 cccggaccca cctgctgttt tttctttttc ttttttttct ttcttttttt ttttttggct 6360 gcgagacgtg cggtgcgtgc ggacaactca cggtgatagt gggggggtgt ggagactatt 6420 gtccagttgg ctggactggg gtgggttggg ttgggttggg ttgggctggg cttgctatgg 6480 atcgtggata gcactttggg ctttaggaac tttaggggtt gtttttgtaa atgttttgag 6540 tctaagttta tcttttattt ttactagaaa aaatacccat gcgctgcaac gggggaaagc 6600 tattttaatc ttattattgt tcattgtgag aattcgcctg aatatatatt tttctcaaaa 6660 attatgtcaa attagcatat gggttttttt aaagatattt cttatacaaa tccctctgta 6720 tttacaaaag caaacgaact taaaacccga ctcaaataca gatatgcatt tccaaaagcg 6780 aataaactta aaaaccaatt catacaaaaa tgacgtatca aagtaccgac aaaaacatcc 6840 tcaattttta taatagtaga aaagagtaaa tttcactttg ggccaccttt tattaccgat 6900 attttacttt ataccacctt ttaactgatg ttttcacttt tgaccaggta atcttacctt 6960 tgttttattt tggactatcc cgactctctt ctcaagcata tgaatgaccg tatgctagtg 7020 cggccgcaag cttgactact agtctctctt aaggtagcat cacaagtttg tacaaaaaag 7080 caggctcctg caggtgagac ttttcaacaa agggtaatat cgggaaacct cctcggattc 7140 cattgcccag ctatctgtca cttcatcgaa aggacagtag aaaaggaagg tggctcctac 7200 aaatgccatc attgcgataa aggaaaggct atcgttcaag atgcctctac cgacagtggt 7260 cccaaagatg gacccccacc cacgaggaac atcgtggaaa aagaagacgt tccaaccacg 7320 tcttcaaagc aagtggattg atgtgatatc tccactgacg taagggatga cgcacaatcc 7380 cactatcctt cgcaagaccc ttcctctata taaggaagtt catttcattt ggagaggaca 7440 ggcttcttga gatccttcaa caattaccaa caacaacaaa caacaaacaa cattacaatt 7500 actatttaca attacagtcg actctagagg atccatggtg agcaagggcg aggagctgtt 7560 caccggggtg gtgcccatcc tggtcgagct ggacggcgac gtaaacggcc acaagttcag 7620 cgtgtccggc gagggcgagg gcgatgccac ctacggcaag ctgaccctga agttcatctg 7680 caccaccggc aagctgcccg tgccctggcc caccctcgtg accaccttca cctacggcgt 7740 gcagtgcttc agccgctacc ccgaccacat gaagcagcac gacttcttca agtccgccat 7800 gcccgaaggc tacgtccagg agcgcaccat cttcttcaag gacgacggca actacaagac 7860 ccgcgccgag gtgaagttcg agggcgacac cctggtgaac cgcatcgagc tgaagggcat 7920 cgacttcaag gaggacggca acatcctggg gcacaagctg gagtacaact acaacagcca 7980 caacgtctat atcatggccg acaagcagaa gaacggcatc aaggtgaact tcaagatccg 8040 ccacaacatc gaggacggca gcgtgcagct cgccgaccac taccagcaga acacccccat 8100 cggcgacggc cccgtgctgc tgcccgacaa ccactacctg agcacccagt ccgccctgag 8160 caaagacccc aacgagaagc gcgatcacat ggtcctgctg gagttcgtga ccgccgccgg 8220 gatcactcac ggcatggacg agctgtacaa gtaaagcggc cgcccggctg cattcgagta 8280 ttatggcatt gggaaaactg tttttcttgt accatttgtt gtgcttgtaa tttactgtgt 8340 tttttattcg gttttcgcta tcgaactgtg aaatggaaat ggatggagaa gagttaatga 8400 atgatatggt ccttttgttc attctcaaat taatattatt tgttttttct cttatttgtt 8460 gtgtgttgaa tttgaaatta taagagatat gcaaacattt tgttttgagt aaaaatgtgt 8520 caaatcgtgg cctctaatga ccgaagttaa tatgaggagt aaaacactag acccagcttt 8580 cttgtacaaa gtggtgatgt tgtggtcgac ccatcgatgg gcatgcaagc tgggatccca 8640 gcttggtacc agatcttata attaaatggc cttcgctgcc catattattg gtaactcaac 8700 agcatcaatc acgggatttt tctcgaatta attgcgtcga atctcagcat cgaaatattc 8760 gcctttttcg tccattagac tatctattgt gatggtggat ttatcacaaa tgggacccgc 8820 cgccgacaga ggtgtgatgt taggccagga ctttgaaaat ttgcgcaact atcgtatagt 8880 ggccgacaaa ttgacgccga gttgacagac tgcctagcat ttgagtgaat tatgtaaggt 8940 aatgggctac actgaattgg tagctcaaac tgtcagtatt tatgtatatg agtgtatatt 9000 ttcgcataat ctcagaccaa tctgaagatg aaatgggtat ctgggaatgg cgaaatcaag 9060 gcatcgatcg tgaagtttct catctaagcc cccatttgga cgtgaatgta gacacgtcga 9120 aataaagatt tccgaattag aataatttgt ttattgcttt cgcctataaa tacgacggat 9180 cgtaatttgt cgttttatca aaatgtactt tcattttata ataacgctgc ggacatctac 9240 atttttgaat tgaaaaaaaa ttggtaatta ctctttcttt ttctccatat tgaccatcat 9300 actcattgct gatccatgta gatttcccgg acatgaagcc atttacaatt gaatatatcc 9360 tgccgccgct gccgctttgc acccggtgga gcttgcatgt tggtttctac gcagaactga 9420 gccggttagg cagataattt ccattgagaa ctgagccatg tgcaccttcc ccccaacacg 9480 gtgagcgacg gggcaacgga gtgatccaca tgggactttt aaacatcatc cgtcggatgg 9540 cgttgcgaga gaagcagtcg atccgtgaga tcagccgacg caccgggcag gcgcgcaaca 9600 cgatcgcaaa gtatttgaac gcaggtacaa tcgagccgac gttcacggta ccggaacgac 9660 caagcaagct agcttagtaa agccctcgct agattttaat gcggatgttg cgattacttc 9720 gccaactatt gcgataacaa gaaaaagcca gcctttcatg atatatctcc caatttgtgt 9780 agggcttatt atgcacgctt aaaaataata aaagcagact tgacctgata gtttggctgt 9840 gagcaattat gtgcttagtg catctaacgc ttgagttaag ccgcgccgcg aagcggcgtc 9900 ggcttgaacg aattgttaga cattatttgc cgactacctt ggtgatctcg cctttcacgt 9960 agtggacaaa ttcttccaac tgatctgcgc gcgaggccaa gcgatcttct tcttgtccaa 10020 gataagcctg tctagcttca agtatgacgg gctgatactg ggccggcagg cgctccattg 10080 cccagtcggc agcgacatcc ttcggcgcga ttttgccggt tactgcgctg taccaaatgc 10140 gggacaacgt aagcactaca tttcgctcat cgccagccca gtcgggcggc gagttccata 10200 gcgttaaggt ttcatttagc gcctcaaata gatcctgttc aggaaccgga tcaaagagtt 10260 cctccgccgc tggacctacc aaggcaacgc tatgttctct tgcttttgtc agcaagatag 10320 ccagatcaat gtcgatcgtg gctggctcga agatacctgc aagaatgtca ttgcgctgcc 10380 attctccaaa ttgcagttcg cgcttagctg gataacgcca cggaatgatg tcgtcgtgca 10440 caacaatggt gacttctaca gcgcggagaa tctcgctctc tccaggggaa gccgaagttt 10500 ccaaaaggtc gttgatcaaa gctcgccgcg ttgtttcatc aagccttacg gtcaccgtaa 10560 ccagcaaatc aatatcactg tgtggcttca ggccgccatc cactgcggag ccgtacaaat 10620 gtacggccag caacgtcggt tcgagatggc gctcgatgac gccaactacc tctgatagtt 10680 gagtcgatac ttcggcgatc accgcttccc tcatgatgtt taactttgtt ttagggcgac 10740 tgccctgctg cgtaacatcg ttgctgctcc ataacatcaa acatcgaccc acggcgtaac 10800 gcgcttgctg cttggatgcc cgaggcatag actgtacccc aaaaaaacag tcataacaag 10860 ccatgaaaac cgccactgcg ccgttaccac cgctgcgttc ggtcaaggtt ctggaccagt 10920 tgcgtgagcg catacgctac ttgcattaca gcttacgaac cgaacaggct tatgtccact 10980 gggttcgtgc cttcatccgt ttccacggtg tgcgtcaccc ggcaaccttg ggcagcagcg 11040 aagtcgaggc atttctgtcc tggctggcga acgagcgcaa ggtttcggtc tccacgcatc 11100 gtcaggcatt ggcggccttg ctgttcttct acggcaaggt gctgtgcacg gatctgccct 11160 ggcttcagga gatcggaaga cctcggccgt cgcggcgctt gccggtggtg ctgaccccgg 11220 atgaagtggt tcgcatcctc ggttttctgg aaggcgagca tcgtttgttc gcccagcttc 11280 tgtatggaac gggcatgcgg atcagtgagg gtttgcaact gcgggtcaag gatctggatt 11340 tcgatcacgg cacgatcatc gtgcgggagg gcaagggctc caaggatcgg gccttgatgt 11400 tacccgagag cttggcaccc agcctgcgcg agcaggatcg atccaacccc tccgctgcta 11460 tagtgcagtc ggcttctgac gttcagtgca gccgtcttct gaaaacgaca tgtcgcacaa 11520 gtcctaagtt acgcgacagg ctgccgccct gcccttttcc tggcgttttc ttgtcgcgtg 11580 ttttagtcgc ataaagtaga atacttgcga ctagaaccgg agacattacg ccatgaacaa 11640 gagcgccgcc gctggcctgc tgggctatgc ccgcgtcagc accgacgacc aggacttgac 11700 caaccaacgg gccgaactgc acgcggccgg ctgcaccaag ctgttttccg agaagatcac 11760 cggcaccagg cgcgaccgcc cggagctggc caggatgctt gaccacctac gccctggcga 11820 cgttgtgaca gtgaccaggc tagaccgcct ggcccgcagc acccgcgacc tactggacat 11880 tgccgagcgc atccaggagg ccggcgcggg cctgcgtagc ctggcagagc cgtgggccga 11940 caccaccacg ccggccggcc gcatggtgtt gaccgtgttc gccggcattg ccgagttcga 12000 gcgttcccta atcatcgacc gcacccggag cgggcgcgag gccgccaagg cccgaggcgt 12060 gaagtttggc ccccgcccta ccctcacccc ggcacagatc gcgcacgccc gcgagctgat 12120 cgaccaggaa ggccgcaccg tgaaagaggc ggctgcactg cttggcgtgc atcgctcgac 12180 cctgtaccgc gcacttgagc gcagcgagga agtgacgccc accgaggcca ggcggcgcgg 12240 tgccttccgt gaggacgcat tgaccgaggc cgacgccctg gcggccgccg agaatgaacg 12300 ccaagaggaa caagcatgaa accgcaccag gacggccagg acgaaccgtt tttcattacc 12360 gaagagatcg aggcggagat gatcgcggcc gggtacgtgt tcgagccgcc cgcgcacgtc 12420 tcaaccgtgc ggctgcatga aatcctggcc ggtttgtctg atgccaagct ggcggcctgg 12480 ccggccagct tggccgctga agaaaccgag cgccgccgtc taaaaaggtg atgtgtattt 12540 gagtaaaaca gcttgcgtca tgcggtcgct gcgtatatga tgcgatgagt aaataaacaa 12600 atacgcaagg ggaacgcatg aaggttatcg ctgtacttaa ccagaaaggc gggtcaggca 12660 agacgaccat cgcaacccat ctagcccgcg ccctgcaact cgccggggcc gatgttctgt 12720 tagtcgattc cgatccccag ggcagtgccc gcgattgggc ggccgtgcgg gaagatcaac 12780 cgctaaccgt tgtcggcatc gaccgcccga cgattgaccg cgacgtgaag gccatcggcc 12840 ggcgcgactt cgtagtgatc gacggagcgc cccaggcggc ggacttggct gtgtccgcga 12900 tcaaggcagc cgacttcgtg ctgattccgg tgcagccaag cccttacgac atatgggcca 12960 ccgccgacct ggtggagctg gttaagcagc gcattgaggt cacggatgga aggctacaag 13020 cggcctttgt cgtgtcgcgg gcgatcaaag gcacgcgcat cggcggtgag gttgccgagg 13080 cgctggccgg gtacgagctg cccattcttg agtcccgtat cacgcagcgc gtgagctacc 13140 caggcactgc cgccgccggc acaaccgttc ttgaatcaga acccgagggc gacgctgccc 13200 gcgaggtcca ggcgctggcc gctgaaatta aatcaaaact catttgagtt aatgaggtaa 13260 agagaaaatg agcaaaagca caaacacgct aagtgccggc cgtccgagcg cacgcagcag 13320 caaggctgca acgttggcca gcctggcaga cacgccagcc atgaagcggg tcaactttca 13380 gttgccggcg gaggatcaca ccaagctgaa gatgtacgcg gtacgccaag gcaagaccat 13440 taccgagctg ctatctgaat acatcgcgca gctaccagag taaatgagca aatgaataaa 13500 tgagtagatg aattttagcg gctaaaggag gcggcatgga aaatcaagaa caaccaggca 13560 ccgacgccgt ggaatgcccc atgtgtggag gaacgggcgg ttggccaggc gtaagcggct 13620 gggttgtctg ccggccctgc aatggcactg gaacccccaa gcccgaggaa tcggcgtgag 13680 cggtcgcaaa ccatccggcc cggtacaaat cggcgcggcg ctgggtgatg acctggtgga 13740 gaagttgaag gccgcgcagg ccgcccagcg gcaacgcatc gaggcagaag cacgccccgg 13800 tgaatcgtgg caagcggccg ctgatcgaat ccgcaaagaa tcccggcaac cgccggcagc 13860 cggtgcgccg tcgattagga agccgcccaa gggcgacgag caaccagatt ttttcgttcc 13920 gatgctctat gacgtgggca cccgcgatag tcgcagcatc atggacgtgg ccgttttccg 13980 tctgtcgaag cgtgaccgac gagctggcga ggtgatccgc tacgagcttc cagacgggca 14040 cgtagaggtt tccgcagggc cggccggcat ggccagtgtg tgggattacg acctggtact 14100 gatggcggtt tcccatctaa ccgaatccat gaaccgatac cgggaaggga agggagacaa 14160 gcccggccgc gtgttccgtc cacacgttgc ggacgtactc aagttctgcc ggcgagccga 14220 tggcggaaag cagaaagacg acctggtaga aacctgcatt cggttaaaca ccacgcacgt 14280 tgccatgcag cgtacgaaga aggccaagaa cggccgcctg gtgacggtat ccgagggtga 14340 agccttgatt agccgctaca agatcgtaaa gagcgaaacc gggcggccgg agtacatcga 14400 gatcgagcta gctgattgga tgtaccgcga gatcacagaa ggcaagaacc cggacgtgct 14460 gacggttcac cccgattact ttttgatcga tcccggcatc ggccgttttc tctaccgcct 14520 ggcacgccgc gccgcaggca aggcagaagc c 14551 <210> 10 <211> 14569 <212> DNA <213> Artificial Sequence <220> <223> Complete nucleotide sequence of pRIT3-mEGFP. <400> 10 agatggttgt tcaagacgat ctacgaacgc agtggcagcg ccggagagtt caagaagttc 60 tgtttcaccg tgcgcaagct gatcgggtca aatgacctgc cggagtacga tttgaaggag 120 gaggcggggc aggctggccc gatcctagtc atgcgctacc gcaacctgat cgagggcgaa 180 gcatccgccg gttcctaatg tacggagcag atgctagggc aaattgccct agcaggggaa 240 aaaggtcgaa aaggtctctt tcctgtggat agcacgtaca ttgggaaccc aaagccgtac 300 attgggaacc ggaacccgta cattgggaac ccaaagccgt acattgggaa ccggtcacac 360 atgtaagtga ctgatataaa agagaaaaaa ggcgattttt ccgcctaaaa ctctttaaaa 420 cttattaaaa ctcttaaaac ccgcctggcc tgtgcataac tgtctggcca gcgcacagcc 480 gaagagctgc aaaaagcgcc tacccttcgg tcgctgcgct ccctacgccc cgccgcttcg 540 cgtcggccta tcgcggccgc tggccgctca aaaatggctg gcctacggcc aggcaatcta 600 ccagggcgcg gacaagccgc gccgtcgcca ctcgaccgcc ggcgcccaca tcaaggcacc 660 ctgcctcgcg cgtttcggtg atgacggtga aaacctctga cacatgcagc tcccggagac 720 ggtcacagct tgtctgtaag cggatgccgg gagcagacaa gcccgtcagg gcgcgtcagc 780 gggtgttggc gggtgtcggg gcgcagccat gacccagtca cgtagcgata gcggagtgta 840 tactggctta actatgcggc atcagagcag attgtactga gagtgcacca tatgcggtgt 900 gaaataccgc acagatgcgt aaggagaaaa taccgcatca ggcgctcttc cgcttcctcg 960 ctcactgact cgctgcgctc ggtcgttcgg ctgcggcgag cggtatcagc tcactcaaag 1020 gcggtaatac ggttatccac agaatcaggg gataacgcag gaaagaacat gtgagcaaaa 1080 ggccagcaaa aggccaggaa ccgtaaaaag gccgcgttgc tggcgttttt ccataggctc 1140 cgcccccctg acgagcatca caaaaatcga cgctcaagtc agaggtggcg aaacccgaca 1200 ggactataaa gataccaggc gtttccccct ggaagctccc tcgtgcgctc tcctgttccg 1260 accctgccgc ttaccggata cctgtccgcc tttctccctt cgggaagcgt ggcgctttct 1320 catagctcac gctgtaggta tctcagttcg gtgtaggtcg ttcgctccaa gctgggctgt 1380 gtgcacgaac cccccgttca gcccgaccgc tgcgccttat ccggtaacta tcgtcttgag 1440 tccaacccgg taagacacga cttatcgcca ctggcagcag ccactggtaa caggattagc 1500 agagcgaggt atgtaggcgg tgctacagag ttcttgaagt ggtggcctaa ctacggctac 1560 actagaagga cagtatttgg tatctgcgct ctgctgaagc cagttacctt cggaaaaaga 1620 gttggtagct cttgatccgg caaacaaacc accgctggta gcggtggttt ttttgtttgc 1680 aagcagcaga ttacgcgcag aaaaaaagga tctcaagaag atcctttgat cttttctacg 1740 gggtctgacg ctcagtggaa cgaaaactca cgttaaggga ttttggtcat gagattatca 1800 aaaaggatct tcacctagat ccttttaaat taaaaatgaa gttttaaatc aatctaaagt 1860 atatatgagt aaacttggtc tgacagttac caatgcttaa tcagtgaggc acctatctca 1920 gcgatctgtc tatttcgttc atccatagtt gcctgactcc ccgtcgtgta gataactacg 1980 atacgggagg gcttaccatc tggccccagt gctgcaatga taccgcgaga cccacgctca 2040 ccggctccag atttatcagc aataaaccag ccagccggaa gggccgagcg cagaagtggt 2100 cctgcaactt tatccgcctc catccagtct attaattgtt gccgggaagc tagagtaagt 2160 agttcgccag ttaatagttt gcgcaacgtt gttgccattg ctacaggcat cgtggtgtca 2220 cgctcgtcgt ttggtatggc ttcattcagc tccggttccc aacgatcaag gcgagttaca 2280 tgatccccca tgttgtgcaa aaaagcggtt agctccttcg gtcctccgat cgttgtcaga 2340 agtaagttgg ccgcagtgtt atcactcatg gttatggcag cactgcataa ttctcttact 2400 gtcatgccat ccgtaagatg cttttctgtg actggtgagt actcaaccaa gtcattctga 2460 gaatagtgta tgcggcgacc gagttgctct tgcccggcgt caacacggga taataccgcg 2520 ccacatagca gaactttaaa agtgctcatc attggaaaac gttcttcggg gcgaaaactc 2580 tcaaggatct taccgctgtt gagatccagt tcgatgtaac ccactcgtgc acccaactga 2640 tcttcagcat cttttacttt caccagcgtt tctgggtgag caaaaacagg aaggcaaaat 2700 gccgcaaaaa agggaataag ggcgacacgg aaatgttgaa tactcatact cttccttttt 2760 caatattatt gaagcattta tcagggttat tgtctcatga gcggatacat atttgaatgt 2820 atttagaaaa ataaacaaat aggggttccg cgcacatttc cccgaaaagt gccacctgac 2880 gtctaagaaa ccattattat catgacatta acctataaaa ataggcgtat cacgaggccc 2940 tttcgtcttc gaataaatac ctgtgacgga agatcacttc gcagaataaa taaatcctgg 3000 tgtccctgtt gataccggga agccctgggc caacttttgg cgaaaatgag acgttgatcg 3060 gcacgtaaga ggttccaact ttcaccataa tgaaataaga tcactaccgg gcgtattttt 3120 tgagttatcg agattttcag gagctaagga agctaaaatg gagaaaaaaa tcactggata 3180 taccaccgtt gatatatccc aatggcatcg taaagaacat tttgaggcat ttcagtcagt 3240 tgctcaatgt acctataacc agaccgttcc tggatattac ggccttttta aagaccgtaa 3300 agaaaaataa gcacaagttt tatccggcct ttattcacat tcttgcccgc ctgatgaatg 3360 ctcatccgga ataattcgaa gctcggtccc gtgggtgttc tgtcgtctcg ttgtacaacg 3420 aaatccattc ccattccgcg ctcaagatgg cttcccctcg gcagttcatc agggctaaat 3480 caatctagcc gacttgtccg gtgaaatggg ctgcactcca acagaaacaa tcaaacaaac 3540 atacacagcg acttattcac acgagctcaa attacaacgg tatatatcct gccagtcagc 3600 atcatcacac caaaagttag gcccgaatag tttgaaatta gaaagctcgc aattgaggtc 3660 tacaggccaa attcgctctt agccgtacaa tattactcac cggtgcgatg ccccccatcg 3720 taggtgaagg tggaaattaa tgatccatct tgagaccaca ggcccacaac agctaccagt 3780 ttcctcaagg gtccaccaaa aacgtaagcg cttacgtaca tggtcgataa gaaaaggcaa 3840 tttgtagatg ttaattccca tcttgaaaga aatatagttt aaatatttat tgataaaata 3900 acaagtcagg tattatagtc caagcaaaaa cataaattta ttgatgcaag tttaaattca 3960 gaaatatttc aataactgat tatatcagct ggtacattgc cgtagatgaa agactgagtg 4020 cgatattatg tgtaatacat aaattgatga tatagctagc ttagctcatc gggggatccg 4080 tcgacctgca gccaagctgg gatcccagct gggatcccag cttgtcgacg gtaccccctc 4140 tagagttcct tctagacccg atctagtaac atagatgaca ccgcgcgcga taatttatcc 4200 tagtttgcgc gctatatttt gttttctatc gcgtattaaa tgtataattg cgggactcta 4260 atcataaaaa cccatctcat aaataacgtc atgcattaca tgttaattat tacatgctta 4320 acgtaattca acagaaatta tatgataatc atcgcaagac cggcaacagg attcaatctt 4380 aagaaacttt attgccaaat gtttgaacga tcggggatca tccgggtctg tggcgggaac 4440 tccacgaaaa tatccgaacg cagcaagata tcgcggtgca tctcggtctt gcctgggcag 4500 tcgccgccga cgccgttgat gtggacgccg ggcccgatca tattgtcgct caggatcgtg 4560 gcgttgtgct tgtcggccgt tgctgtcgta atgatatcgg caccttcgac cgcctgttcc 4620 gcagagatcc cgtgggcgaa gaactccagc atgagatccc cgcgctggag gatcatccag 4680 ccggcgtccc ggaaaacgat tccgaagccc aacctttcat agaaggcggc ggtggaatcg 4740 aaatctcgtg atggcaggtt gggcgtcgct tggtcggtca tttcgaaccc cagagtcccg 4800 ctcagaagaa ctcgtcaaga aggcgataga aggcgatgcg ctgcgaatcg ggagcggcga 4860 taccgtaaag cacgaggaag cggtcagccc attcgccgcc aagctcttca gcaatatcac 4920 gggtagccaa cgctatgtcc tgatagcggt ccgccacacc cagccggcca cagtcgatga 4980 atccagaaaa gcggccattt tccaccatga tattcggcaa gcaggcatcg ccatgggtca 5040 cgacgagatc atcgccgtcg ggcatgcgcg ccttgagcct ggcgaacagt tcggctggcg 5100 cgagcccctg atgctcttcg tccagatcat cctgatcgac aagaccggct tccatccgag 5160 tacgtgctcg ctcgatgcga tgtttcgctt ggtggtcgaa tgggcaggta gccggatcaa 5220 gcgtatgcag ccgccgcatt gcatcagcca tgatggatac tttctcggca ggagcaaggt 5280 gagatgacag gagatcctgc cccggcactt cgcccaatag cagccagtcc cttcccgctt 5340 cagtgacaac gtcgagcaca gctgcgcaag gaacgcccgt cgtggccagc cacgatagcc 5400 gcgctgcctc gtcctgcagt tcattcaggg caccggacag gtcggtcttg acaaaaagaa 5460 ccgggcgccc ctgcgctgac agccggaaca cggcggcatc agagcagccg attgtctgtt 5520 gtgcccagtc atagccgaat agcctctcca cccaagcggc cggagaacct gcgtgcaatc 5580 catcttgttc aatcatatct cattgccccc cggtctacct acaaaaaagc tccgcacgag 5640 gctgcatttg tcacaaatca tgaaaagaaa aactaccgat gaacaatgct gagggattca 5700 aattctaccc acaaaaagaa gaaagaaaga tctagcacat ctaagcctga cgaagcagca 5760 gaaatatata aaaatataaa ccatagtgcc cttttcccct cttcctgatc ttgtttagca 5820 tggcggaaat tttaaacccc ccatcatctc ccccaacaac ggcggatcgc agatctacat 5880 ccgagagccc cattccccgc gagatccggg ccggatccac gccggcgaga gccccagccg 5940 cgagatcccg cccctcccgc gcaccgatct gggcgcgcac gaagccgcct ctcgcccacc 6000 caaactacca aggccaaaga tcgagaccga gacggaaaaa aaaaacggag aaagaaagag 6060 gagaggggcg gggtggttac cggcgcggcg gcggcggagg gggagggggg aggagctcgt 6120 cgtccggcag cgagggggga ggaggtggag gtggtggtgg tggtggtggt agggttgggg 6180 ggatgggagg agaggggggg gtatgtatat agtggcgatg gggggcgttt ctttggaagc 6240 ggagggaggg ccggcctcgt cgctggctcg cgatcctcct cgcgtttccg gcccccacga 6300 cccggaccca cctgctgttt tttctttttc ttttttttct ttcttttttt ttttttggct 6360 gcgagacgtg cggtgcgtgc ggacaactca cggtgatagt gggggggtgt ggagactatt 6420 gtccagttgg ctggactggg gtgggttggg ttgggttggg ttgggctggg cttgctatgg 6480 atcgtggata gcactttggg ctttaggaac tttaggggtt gtttttgtaa atgttttgag 6540 tctaagttta tcttttattt ttactagaaa aaatacccat gcgctgcaac gggggaaagc 6600 tattttaatc ttattattgt tcattgtgag aattcgcctg aatatatatt tttctcaaaa 6660 attatgtcaa attagcatat gggttttttt aaagatattt cttatacaaa tccctctgta 6720 tttacaaaag caaacgaact taaaacccga ctcaaataca gatatgcatt tccaaaagcg 6780 aataaactta aaaaccaatt catacaaaaa tgacgtatca aagtaccgac aaaaacatcc 6840 tcaattttta taatagtaga aaagagtaaa tttcactttg ggccaccttt tattaccgat 6900 attttacttt ataccacctt ttaactgatg ttttcacttt tgaccaggta atcttacctt 6960 tgttttattt tggactatcc cgactctctt ctcaagcata tgaatgaccg tatgctagtg 7020 cggccgcaag cttgactact agtctctctt aaggtagcat cacaagtttg tacaaaaaag 7080 caggctcctg caggtgagac ttttcaacaa agggtaatat cgggaaacct cctcggattc 7140 cattgcccag ctatctgtca cttcatcgaa aggacagtag aaaaggaagg tggctcctac 7200 aaatgccatc attgcgataa aggaaaggct atcgttcaag atgcctctac cgacagtggt 7260 cccaaagatg gacccccacc cacgaggaac atcgtggaaa aagaagacgt tccaaccacg 7320 tcttcaaagc aagtggattg atgtgatatc tccactgacg taagggatga cgcacaatcc 7380 cactatcctt cgcaagaccc ttcctctata taaggaagtt catttcattt ggagaggaca 7440 ggcttcttga gatccttcaa caattaccaa caacaacaaa caacaaacaa cattacaatt 7500 actatttaca attacagtcg actctagagg atccggccca gttggaatgt aggtggtgag 7560 caagggcgag gagctgttca ccggggtggt gcccatcctg gtcgagctgg acggcgacgt 7620 aaacggccac aagttcagcg tgtccggcga gggcgagggc gatgccacct acggcaagct 7680 gaccctgaag ttcatctgca ccaccggcaa gctgcccgtg ccctggccca ccctcgtgac 7740 caccttcacc tacggcgtgc agtgcttcag ccgctacccc gaccacatga agcagcacga 7800 cttcttcaag tccgccatgc ccgaaggcta cgtccaggag cgcaccatct tcttcaagga 7860 cgacggcaac tacaagaccc gcgccgaggt gaagttcgag ggcgacaccc tggtgaaccg 7920 catcgagctg aagggcatcg acttcaagga ggacggcaac atcctggggc acaagctgga 7980 gtacaactac aacagccaca acgtctatat catggccgac aagcagaaga acggcatcaa 8040 ggtgaacttc aagatccgcc acaacatcga ggacggcagc gtgcagctcg ccgaccacta 8100 ccagcagaac acccccatcg gcgacggccc cgtgctgctg cccgacaacc actacctgag 8160 cacccagtcc gccctgagca aagaccccaa cgagaagcgc gatcacatgg tcctgctgga 8220 gttcgtgacc gccgccggga tcactcacgg catggacgag ctgtacaagt aaagcggccg 8280 cccggctgca ttcgagtatt atggcattgg gaaaactgtt tttcttgtac catttgttgt 8340 gcttgtaatt tactgtgttt tttattcggt tttcgctatc gaactgtgaa atggaaatgg 8400 atggagaaga gttaatgaat gatatggtcc ttttgttcat tctcaaatta atattatttg 8460 ttttttctct tatttgttgt gtgttgaatt tgaaattata agagatatgc aaacattttg 8520 ttttgagtaa aaatgtgtca aatcgtggcc tctaatgacc gaagttaata tgaggagtaa 8580 aacactagac ccagctttct tgtacaaagt ggtgatgttg tggtcgaccc atcgatgggc 8640 atgcaagctg ggatcccagc ttggtaccag atcttataat taaatggcct tcgctgccca 8700 tattattggt aactcaacag catcaatcac gggatttttc tcgaattaat tgcgtcgaat 8760 ctcagcatcg aaatattcgc ctttttcgtc cattagacta tctattgtga tggtggattt 8820 atcacaaatg ggacccgccg ccgacagagg tgtgatgtta ggccaggact ttgaaaattt 8880 gcgcaactat cgtatagtgg ccgacaaatt gacgccgagt tgacagactg cctagcattt 8940 gagtgaatta tgtaaggtaa tgggctacac tgaattggta gctcaaactg tcagtattta 9000 tgtatatgag tgtatatttt cgcataatct cagaccaatc tgaagatgaa atgggtatct 9060 gggaatggcg aaatcaaggc atcgatcgtg aagtttctca tctaagcccc catttggacg 9120 tgaatgtaga cacgtcgaaa taaagatttc cgaattagaa taatttgttt attgctttcg 9180 cctataaata cgacggatcg taatttgtcg ttttatcaaa atgtactttc attttataat 9240 aacgctgcgg acatctacat ttttgaattg aaaaaaaatt ggtaattact ctttcttttt 9300 ctccatattg accatcatac tcattgctga tccatgtaga tttcccggac atgaagccat 9360 ttacaattga atatatcctg ccgccgctgc cgctttgcac ccggtggagc ttgcatgttg 9420 gtttctacgc agaactgagc cggttaggca gataatttcc attgagaact gagccatgtg 9480 caccttcccc ccaacacggt gagcgacggg gcaacggagt gatccacatg ggacttttaa 9540 acatcatccg tcggatggcg ttgcgagaga agcagtcgat ccgtgagatc agccgacgca 9600 ccgggcaggc gcgcaacacg atcgcaaagt atttgaacgc aggtacaatc gagccgacgt 9660 tcacggtacc ggaacgacca agcaagctag cttagtaaag ccctcgctag attttaatgc 9720 ggatgttgcg attacttcgc caactattgc gataacaaga aaaagccagc ctttcatgat 9780 atatctccca atttgtgtag ggcttattat gcacgcttaa aaataataaa agcagacttg 9840 acctgatagt ttggctgtga gcaattatgt gcttagtgca tctaacgctt gagttaagcc 9900 gcgccgcgaa gcggcgtcgg cttgaacgaa ttgttagaca ttatttgccg actaccttgg 9960 tgatctcgcc tttcacgtag tggacaaatt cttccaactg atctgcgcgc gaggccaagc 10020 gatcttcttc ttgtccaaga taagcctgtc tagcttcaag tatgacgggc tgatactggg 10080 ccggcaggcg ctccattgcc cagtcggcag cgacatcctt cggcgcgatt ttgccggtta 10140 ctgcgctgta ccaaatgcgg gacaacgtaa gcactacatt tcgctcatcg ccagcccagt 10200 cgggcggcga gttccatagc gttaaggttt catttagcgc ctcaaataga tcctgttcag 10260 gaaccggatc aaagagttcc tccgccgctg gacctaccaa ggcaacgcta tgttctcttg 10320 cttttgtcag caagatagcc agatcaatgt cgatcgtggc tggctcgaag atacctgcaa 10380 gaatgtcatt gcgctgccat tctccaaatt gcagttcgcg cttagctgga taacgccacg 10440 gaatgatgtc gtcgtgcaca acaatggtga cttctacagc gcggagaatc tcgctctctc 10500 caggggaagc cgaagtttcc aaaaggtcgt tgatcaaagc tcgccgcgtt gtttcatcaa 10560 gccttacggt caccgtaacc agcaaatcaa tatcactgtg tggcttcagg ccgccatcca 10620 ctgcggagcc gtacaaatgt acggccagca acgtcggttc gagatggcgc tcgatgacgc 10680 caactacctc tgatagttga gtcgatactt cggcgatcac cgcttccctc atgatgttta 10740 actttgtttt agggcgactg ccctgctgcg taacatcgtt gctgctccat aacatcaaac 10800 atcgacccac ggcgtaacgc gcttgctgct tggatgcccg aggcatagac tgtaccccaa 10860 aaaaacagtc ataacaagcc atgaaaaccg ccactgcgcc gttaccaccg ctgcgttcgg 10920 tcaaggttct ggaccagttg cgtgagcgca tacgctactt gcattacagc ttacgaaccg 10980 aacaggctta tgtccactgg gttcgtgcct tcatccgttt ccacggtgtg cgtcacccgg 11040 caaccttggg cagcagcgaa gtcgaggcat ttctgtcctg gctggcgaac gagcgcaagg 11100 tttcggtctc cacgcatcgt caggcattgg cggccttgct gttcttctac ggcaaggtgc 11160 tgtgcacgga tctgccctgg cttcaggaga tcggaagacc tcggccgtcg cggcgcttgc 11220 cggtggtgct gaccccggat gaagtggttc gcatcctcgg ttttctggaa ggcgagcatc 11280 gtttgttcgc ccagcttctg tatggaacgg gcatgcggat cagtgagggt ttgcaactgc 11340 gggtcaagga tctggatttc gatcacggca cgatcatcgt gcgggagggc aagggctcca 11400 aggatcgggc cttgatgtta cccgagagct tggcacccag cctgcgcgag caggatcgat 11460 ccaacccctc cgctgctata gtgcagtcgg cttctgacgt tcagtgcagc cgtcttctga 11520 aaacgacatg tcgcacaagt cctaagttac gcgacaggct gccgccctgc ccttttcctg 11580 gcgttttctt gtcgcgtgtt ttagtcgcat aaagtagaat acttgcgact agaaccggag 11640 acattacgcc atgaacaaga gcgccgccgc tggcctgctg ggctatgccc gcgtcagcac 11700 cgacgaccag gacttgacca accaacgggc cgaactgcac gcggccggct gcaccaagct 11760 gttttccgag aagatcaccg gcaccaggcg cgaccgcccg gagctggcca ggatgcttga 11820 ccacctacgc cctggcgacg ttgtgacagt gaccaggcta gaccgcctgg cccgcagcac 11880 ccgcgaccta ctggacattg ccgagcgcat ccaggaggcc ggcgcgggcc tgcgtagcct 11940 ggcagagccg tgggccgaca ccaccacgcc ggccggccgc atggtgttga ccgtgttcgc 12000 cggcattgcc gagttcgagc gttccctaat catcgaccgc acccggagcg ggcgcgaggc 12060 cgccaaggcc cgaggcgtga agtttggccc ccgccctacc ctcaccccgg cacagatcgc 12120 gcacgcccgc gagctgatcg accaggaagg ccgcaccgtg aaagaggcgg ctgcactgct 12180 tggcgtgcat cgctcgaccc tgtaccgcgc acttgagcgc agcgaggaag tgacgcccac 12240 cgaggccagg cggcgcggtg ccttccgtga ggacgcattg accgaggccg acgccctggc 12300 ggccgccgag aatgaacgcc aagaggaaca agcatgaaac cgcaccagga cggccaggac 12360 gaaccgtttt tcattaccga agagatcgag gcggagatga tcgcggccgg gtacgtgttc 12420 gagccgcccg cgcacgtctc aaccgtgcgg ctgcatgaaa tcctggccgg tttgtctgat 12480 gccaagctgg cggcctggcc ggccagcttg gccgctgaag aaaccgagcg ccgccgtcta 12540 aaaaggtgat gtgtatttga gtaaaacagc ttgcgtcatg cggtcgctgc gtatatgatg 12600 cgatgagtaa ataaacaaat acgcaagggg aacgcatgaa ggttatcgct gtacttaacc 12660 agaaaggcgg gtcaggcaag acgaccatcg caacccatct agcccgcgcc ctgcaactcg 12720 ccggggccga tgttctgtta gtcgattccg atccccaggg cagtgcccgc gattgggcgg 12780 ccgtgcggga agatcaaccg ctaaccgttg tcggcatcga ccgcccgacg attgaccgcg 12840 acgtgaaggc catcggccgg cgcgacttcg tagtgatcga cggagcgccc caggcggcgg 12900 acttggctgt gtccgcgatc aaggcagccg acttcgtgct gattccggtg cagccaagcc 12960 cttacgacat atgggccacc gccgacctgg tggagctggt taagcagcgc attgaggtca 13020 cggatggaag gctacaagcg gcctttgtcg tgtcgcgggc gatcaaaggc acgcgcatcg 13080 gcggtgaggt tgccgaggcg ctggccgggt acgagctgcc cattcttgag tcccgtatca 13140 cgcagcgcgt gagctaccca ggcactgccg ccgccggcac aaccgttctt gaatcagaac 13200 ccgagggcga cgctgcccgc gaggtccagg cgctggccgc tgaaattaaa tcaaaactca 13260 tttgagttaa tgaggtaaag agaaaatgag caaaagcaca aacacgctaa gtgccggccg 13320 tccgagcgca cgcagcagca aggctgcaac gttggccagc ctggcagaca cgccagccat 13380 gaagcgggtc aactttcagt tgccggcgga ggatcacacc aagctgaaga tgtacgcggt 13440 acgccaaggc aagaccatta ccgagctgct atctgaatac atcgcgcagc taccagagta 13500 aatgagcaaa tgaataaatg agtagatgaa ttttagcggc taaaggaggc ggcatggaaa 13560 atcaagaaca accaggcacc gacgccgtgg aatgccccat gtgtggagga acgggcggtt 13620 ggccaggcgt aagcggctgg gttgtctgcc ggccctgcaa tggcactgga acccccaagc 13680 ccgaggaatc ggcgtgagcg gtcgcaaacc atccggcccg gtacaaatcg gcgcggcgct 13740 gggtgatgac ctggtggaga agttgaaggc cgcgcaggcc gcccagcggc aacgcatcga 13800 ggcagaagca cgccccggtg aatcgtggca agcggccgct gatcgaatcc gcaaagaatc 13860 ccggcaaccg ccggcagccg gtgcgccgtc gattaggaag ccgcccaagg gcgacgagca 13920 accagatttt ttcgttccga tgctctatga cgtgggcacc cgcgatagtc gcagcatcat 13980 ggacgtggcc gttttccgtc tgtcgaagcg tgaccgacga gctggcgagg tgatccgcta 14040 cgagcttcca gacgggcacg tagaggtttc cgcagggccg gccggcatgg ccagtgtgtg 14100 ggattacgac ctggtactga tggcggtttc ccatctaacc gaatccatga accgataccg 14160 ggaagggaag ggagacaagc ccggccgcgt gttccgtcca cacgttgcgg acgtactcaa 14220 gttctgccgg cgagccgatg gcggaaagca gaaagacgac ctggtagaaa cctgcattcg 14280 gttaaacacc acgcacgttg ccatgcagcg tacgaagaag gccaagaacg gccgcctggt 14340 gacggtatcc gagggtgaag ccttgattag ccgctacaag atcgtaaaga gcgaaaccgg 14400 gcggccggag tacatcgaga tcgagctagc tgattggatg taccgcgaga tcacagaagg 14460 caagaacccg gacgtgctga cggttcaccc cgattacttt ttgatcgatc ccggcatcgg 14520 ccgttttctc taccgcctgg cacgccgcgc cgcaggcaag gcagaagcc 14569 <210> 11 <211> 18695 <212> DNA <213> Artificial Sequence <220> <223> Complete nucleotide sequence of 2408. <400> 11 taaacgctct tttctcttag gtttacccgc caatatatcc tgtcaaacac tgatagttta 60 aactgaaggc gggaaacgac aatctgatcc aagctcaagc tccaatacgc aaaccgcctc 120 tccccgcgcg ttggccgatt cattaatgca gctggcacga caggtttccc gactggaaag 180 cgggcagtga gcgcaacgca attaatgtga gttagctcac tcattaggca ccccaggctt 240 tacactttat gcttccggct cgtatgttgt gtggaattgt gagcggataa caatttcaca 300 caggaaacag ctatgaccat gattacgaat ttcaggtgac tgatagtgac ctgttcgttg 360 caacaaattg atgagcaatg cttttttata atgccaactt tgtacaaaaa agcaggcggc 420 gcgtcctgca ggatagggat aacagggtaa tggcgcgcca agcttatcga taccgtcgac 480 ctcgagcggc cgccagtgtg atggatatct gcagaattgc ccttcgaagg gacaaaaaaa 540 gcaccgactc ggtgccactt tttcaagttg ataacggact agccttattt taacttgcta 600 tttctagctc taaaacgccc agttggaatg taggtgcaac acaagcgaca gcgcgcgggt 660 ttataagttg gtcgcgttcg agttagctgg gcaatgtggt actaaactgt tcctcccgcc 720 tctcgcgctc acactcgccc tgtgggccgc tcaccgtgca cgtacttggg cctcccgctc 780 ccccgcatgc atccagccca tcacagcgaa gagaatcggg cttttcttct ccccatctcc 840 ctacacaacc accaaataca gccaggccgt tggttcatga tccaagggca attccagcac 900 actggcggcc gttactagtg gatccgagct cggtacctta attaaattac cctgttatcc 960 ctatcctgca ggattaacac ccaacttttc tatccaagct tgccaacatg gtggagcacg 1020 acactctcgt ctactccaag aatatcaaag atacagtctc agaagaccaa agggctattg 1080 agacttttca acaaagggta atatcgggaa acctcctcgg attccattgc ccagctatct 1140 gtcacttcat caaaaggaca gtagaaaagg aaggtggcac ctacaaatgc catcattgcg 1200 ataaaggaaa ggctatcgtt caagatgcct ctgccgacag tggtcccaaa gatggacccc 1260 cacccacgag gagcatcgtg gaaaaagaag acgttccaac cacgtcttca aagcaagtgg 1320 attgatgtga taacatggtg gagcacgaca ctctcgtcta ctccaagaat atcaaagata 1380 cagtctcaga agaccaaagg gctattgaga cttttcaaca aagggtaata tcgggaaacc 1440 tcctcggatt ccattgccca gctatctgtc acttcatcaa aaggacagta gaaaaggaag 1500 gtggcaccta caaatgccat cattgcgata aaggaaaggc tatcgttcaa gatgcctctg 1560 ccgacagtgg tcccaaagat ggacccccac ccacgaggag catcgtggaa aaagaagacg 1620 ttccaaccac gtcttcaaag caagtggatt gatgtgatat ctccactgac gtaagggatg 1680 acgcacaatc ccactatcct tcgcaagacc cttcctctat ataaggaagt tcatttcatt 1740 tggagaggcc ggtctagaga attccaagca acgaactgcg agtgattcaa gaaaaaagaa 1800 aacctgagct ttcgatctct acggagtggt ttcttgttct ttgaaaaaga gggggattac 1860 atatggctcc taagaagaag cggaaggttg gtattcacgg ggtgcctgcg gctatggaca 1920 agaagtactc gatcgggctg gccatcggaa caaattctgt aggctgggct gtaataaccg 1980 atgagtacaa ggtgccctct aaaaaattta aggtccttgg caatacggat agacattcca 2040 taaagaagaa tcttatcggt gcgctgctct ttgacagcgg cgagaccgcg gaggcgaccc 2100 ggttgaaacg caccgcgaga cgccgttaca caaggcgtaa gaatagaatc tgttatctcc 2160 aggagatatt ctctaatgaa atggcgaagg tagacgattc cttctttcac cgtctggagg 2220 aaagttttct cgttgaggaa gataagaaac atgaaagaca cccgatcttc ggaaacattg 2280 tcgacgaggt cgcttatcat gaaaagtacc ctaccatcta ccatcttaga aagaaacttg 2340 ttgacagcac ggataaggct gatctcaggc tgatatacct ggctctggca catatgatta 2400 agttcagagg gcatttcctt atcgaaggcg acctgaatcc agataattca gatgtagaca 2460 agctcttcat tcaacttgtg cagacttata atcagctctt cgaagaaaat ccaataaacg 2520 cgtcgggtgt agacgcaaag gccatactgt ccgctaggct ttctaagtca cgtagacttg 2580 agaatctcat tgcccaactc cccggcgaga agaagaacgg cttgtttgga aatctgatag 2640 cgctgtccct gggtcttaca ccaaatttca agagtaattt cgatttggca gaagatgcta 2700 agttgcagct cagtaaagac acctacgatg acgatcttga taatttgttg gctcagattg 2760 gcgatcagta tgcagatctt ttcttggccg ctaagaattt gtctgatgca attctgctta 2820 gcgacatttt gagggttaat acagaaatca ccaaggcacc cttgtcggcg tcaatgataa 2880 agaggtatga tgagcaccac caagacctga cgctcctcaa ggctcttgtt cggcagcaat 2940 tgccggagaa gtacaaagag atcttcttcg accagtctaa gaacggatat gcgggctaca 3000 tagacggtgg agcgagtcag gaggaattct acaagttcat aaagcccatt ctcgagaaga 3060 tggatggtac ggaagaactg cttgtgaaac ttaacagaga agatcttttg cggaagcaga 3120 gaactttcga caacggaagt ataccacacc agatacatct cggagagctt catgctattc 3180 tcagaagaca agaggatttc taccctttct tgaaggataa cagagaaaag atagagaaga 3240 tcctcacgtt taggatccct tactacgtag gtcctcttgc tcgcggcaat agtaggttcg 3300 cctggatgac ccgcaagtct gaagaaacta tcaccccttg gaatttcgaa gaggttgtag 3360 acaaaggtgc ttcagcacag agtttcattg agaggatgac caacttcgac aagaacctcc 3420 ccaacgaaaa ggtcctgcct aagcacagcc tcctctacga atactttact gtctataatg 3480 agcttacaaa agttaagtac gtgacagagg gaatgcggaa gcccgcattc ctttccggag 3540 aacaaaagaa ggcgatcgtg gatcttctct tcaagacgaa ccgcaaggtg acggttaaac 3600 agttgaagga agattacttc aagaagatag aatgttttga tagcgtggaa atcagcggcg 3660 tcgaagatag gttcaacgct tccctgggaa cgtaccacga tctcctcaag attatcaaag 3720 ataaggactt tcttgataac gaagagaatg aggacatctt ggaagacatt gttctgacgc 3780 tcaccctgtt cgaagatcgc gagatgattg aggaacgctt gaagacctac gcacacctgt 3840 tcgatgacaa ggttatgaag caacttaaac ggcgccggta tacgggctgg ggacggcttt 3900 cgcggaagct gataaatgga atccgtgaca agcagtctgg caagacaata ctcgacttct 3960 tgaagtcgga tggttttgcc aatagaaatt ttatgcaact cattcatgat gactcgctta 4020 cttttaagga ggacatccag aaggcccagg tatcaggaca gggtgactct ttgcacgaac 4080 acatcgcgaa cctggcgggc tcccccgcga ttaagaaggg aattttgcag actgtcaagg 4140 tggtcgatga actcgtgaag gttatgggac gtcataagcc ggaaaatatt gtgattgaga 4200 tggctcgcga gaatcaaaca acacagaagg gccaaaagaa cagtagagaa cgcatgaagc 4260 gcatcgaaga gggcatcaaa gagctgggca gtcagatcct taaagaacat ccagtcgaga 4320 atacacagct tcagaacgaa aagctgtacc tttattacct tcaaaatggg cgtgatatgt 4380 atgtggatca ggaactcgat atcaataggc tgagtgacta tgatgtcgac gctatcgtcc 4440 cgcaaagttt cctcaaggac gacagtatag acaacaaagt tctcacacgg tcagataaga 4500 atcgcggcaa gagcgataat gtaccgtcgg aggaggtagt caagaagatg aagaattact 4560 ggcgccagtt gctcaacgcc aagctcatca ctcagaggaa atttgacaac cttacgaaag 4620 ccgagcgggg cggactctct gaactggaca aggccggttt cataaagcgc cagctcgttg 4680 agacacgtca aattactaag cacgtcgctc aaatattgga ttcccgcatg aatactaagt 4740 acgatgagaa tgataagctc atacgtgaag ttaaggtcat tactctcaag tccaagcttg 4800 tatcggactt ccgtaaggac ttccaattct acaaggtccg ggaaatcaat aattatcacc 4860 atgcccatga cgcttatctg aacgcggtcg tgggcacggc actcattaag aaatacccaa 4920 aacttgagtc agaatttgtt tacggggact ataaagttta tgacgtgcgg aagatgatag 4980 cgaagtcgga acaagagata ggaaaggcga ctgcaaagta ctttttttac tccaacataa 5040 tgaatttctt taagaccgaa ataacccttg caaacggtga aatcagaaag cggcctctga 5100 ttgaaacaaa tggcgagacg ggcgagatcg tctgggacaa ggggagggac ttcgcaacgg 5160 ttcgcaaggt ccttagcatg ccgcaagtaa atatagttaa gaagacggaa gttcagaccg 5220 gcggctttag taaagaaagc atacttccta aaaggaattc cgacaaactg atagcgcgca 5280 agaaggactg ggatccaaag aagtatggag gatttgactc cccaaccgtt gcttatagcg 5340 tgttggtagt agccaaggtg gaaaagggta agtctaagaa attgaagtcg gtgaaggagt 5400 tgttggggat aactataatg gagcggagtt cgttcgagaa gaacccaatt gactttctcg 5460 aagccaaagg ctacaaggag gtcaagaagg acctgattat taagttgcca aagtactcgc 5520 tcttcgaact cgagaacggg agaaagcgta tgctggcgtc ggcgggcgag ctgcagaaag 5580 gaaacgagct ggctttgcca tcgaaatacg taaatttcct gtacctcgcc tcacattatg 5640 agaagcttaa agggtctcca gaagacaatg aacagaagca gctgtttgtt gaacagcaca 5700 agcactactt ggacgagatt atagaacaaa tctccgagtt ctctaaacgg gttatccttg 5760 cagacgccaa tttggataag gtcctctcgg cttataataa gcatagagat aagccaatcc 5820 gggagcaggc tgaaaatatc atacacctct ttacgttgac taatttgggt gcgccagcgg 5880 cattcaagta cttcgataca acaatcgatc gtaagcgcta cacaagcact aaggaagtcc 5940 tggacgcgac gctgatacac cagtccatta ctggactgta tgaaaccaga atagatctta 6000 gccagctcgg cggtgatgga ggagggccta gggctgatcc taagaagaag aggaaggttg 6060 gaggagggcc aggagcagag tatgttagag cgttgtttga ttttaacggt aacgatgaag 6120 aggatttacc ctttaagaaa ggcgacattc tcaggattag ggataaacct gaagagcaat 6180 ggtggaatgc tgaggatagt gaaggcaaac gaggaatgat tttagtgccg tatgtggaga 6240 aatattcggg tgactacaaa gatcatgatg gtgattacaa agaccatgac atcgactaca 6300 aggatgatga tgataagtca gggatgacag atgctgaata tgtcagaatc cacgaaaagt 6360 tggacattta cacgtttaag aagcagttct tcaacaacaa gaaatctgtt tcgcataggt 6420 gctatgtgct tttcgaacta aaacgtcgtg gagaaagacg ggcttgcttt tggggttacg 6480 cggttaacaa accacaatca ggtactgaac gaggaataca cgctgaaatc ttttctatcc 6540 gaaaggttga ggaatatcta cgtgacaatc ctggacagtt cactatcaat tggtattcta 6600 gctggtcacc atgtgcagat tgtgctgaga agattctcga atggtacaat caagagctta 6660 gaggcaatgg acatacattg aaaatatggg catgcaagct ctactacgaa aagaatgcca 6720 gaaaccaaat tgggctttgg aacttgaggg ataatggagt tgggcttaat gtcatggttt 6780 ctgagcacta tcaatgttgt cggaagatct tcatacaaag ttcccataac cagttgaatg 6840 agaacagatg gttagagaaa acccttaaaa gagccgagaa gagaagatcc gaactgagca 6900 ttatgataca ggtcaaaatt ctgcatacca ctaagagtcc agctgtaggt cctaagaaga 6960 aacgtaaagt agggccctga tccaggcctc ccagctttcg tccgtatcat cggtttcgac 7020 aacgttcgtc aagttcaatg catcagtttc attgcccaca caccagaatc ctactaagtt 7080 tgagtattat ggcattggaa aagctgtttt cttctatcat ttgttctgct tgtaatttac 7140 tgtgttcttt cagtttttgt tttcggacat caaaatgcaa atggatggat aagagttaat 7200 aaatgatatg gtccttttgt tcattctcaa attattatta tctgttgttt ttactttaat 7260 gggttgaatt taagtaagaa aggaactaac agtgtgatat taaggtgcaa tgttagacat 7320 ataaaacagt ctttcacctc tctttggtta tgtcttgaat tggtttgttt cttcacttat 7380 ctgtgtaatc aagtttacta tgagtctatg atcaagtaat tatgcaatca agttaagtac 7440 agtataggct tgagctccct aggcccctag gtaattcttc ggacccaaga atgctaagcc 7500 aagaggagct gttatcgccg tcctcctgct tgtttctctc tttttgttgc tgtttcttca 7560 ttagcgtgga caaagttttc aaccggccta tctgttatca ttttcttcta ttcaaagact 7620 gtaataccta ttgctacctg tggttctcac ttgtgatttt ggacacatat gttcggttta 7680 ttcaaattta atcagatgcc tgatgagggt accagaaaaa atacgtgttc tggttgtttt 7740 tgagttgcga ttattctatg aaatgaataa catcgaagtt atcatcccag tattttcgca 7800 tgaatgttct tttcttctgt cttgtgcatc agtgatctag tgcatgggag tttgtattgt 7860 gatgttcgac atcacgtaac ttccactttg cctttgctgt tcgatatttt aatgacatgt 7920 cacacacact tctgatactt ttctttcttg gctattgtgc cagcatgatg caagatgcat 7980 cacagcatca gatatattct catcgtcagg ctttagcagc acacgagcac gctttgccgc 8040 ttaaaagttg tacggcgcag cttagacatc ccctgtagaa gtgataatct tttcactttt 8100 ccttaaacaa attgagaggg gaaatggaac catgtggatc agagaagctt ttgtttcttt 8160 acacaagaat atttggtaca gtgggggtcc tatgttcgtg ggttcgtggc ttggctgcct 8220 gtcttcaacc aagtgttttc agttcaacat gttagcgtgt agaaagagca caattctgtt 8280 tatctccaag gtaaaatgtg gcattctgtt aaagaacatg atcctgccaa ttttttaagt 8340 ttcaatggaa gaggaatgta aagctttcta tggtttgtgt acacaacaca gtggaagagg 8400 agtgcaagct ttctatggtt tgtgtgcgcg ttgtgtgtca gcacttcaat tttgttagaa 8460 aatgaaagaa aaaaaaggat gatcatgctt atagtaaatc actctttttc ctcgccttct 8520 gtacgttttg acttgacaag attttaaaat ctgtacatga cctttgtttt aaaattactt 8580 tatgtatttc catctttcaa gttatgcaga tgtcatcaca aattgttaca ccaatcacca 8640 ggctggctgt ttatatatta tcagaccagg ctatatagag tatactatac taactgttca 8700 tattatctgg aaatcttgct tgctacttga gcggtaaaag ggtatagata tgagggtccc 8760 cagattagcc ttttcaattt cagaaagaat gctaacccac agatggttag agaggcttac 8820 gcagcaggtc tcatcaagac gatctacccg agcaataatc tccaggaaat caaatacctt 8880 cccaagaagg ttaaagatgc agtcaaaaga ttcaggacta actgcatcaa gaacacagag 8940 aaagatatat ttctcaagat cagaagtact attccagtat ggacgattca aggcttgctt 9000 cacaaaccaa ggcaagtaat agagattgga gtctctaaaa aggtagttcc cactgaatca 9060 aaggccatgg agtcaaagat tcaaatagag gacctaacag aactcgccgt aaagactggc 9120 gaacagttca tacagagtct cttacgactc aatgacaaga agaaaatctt cgtcaacatg 9180 gtggagcacg acacacttgt ctactccaaa aatatcaaag atacagtctc agaagaccaa 9240 agggcaattg agacttttca acaaagggta atatccggaa acctcctcgg attccattgc 9300 ccagctatct gtcactttat tgtgaagata gtggaaaagg aaggtggctc ctacaaatgc 9360 catcattgcg ataaaggaaa ggccatcgtt gaagatgcct ctgccgacag tggtcccaaa 9420 gatggacccc cacccacgag gagcatcgtg gaaaaagaag acgttccaac cacgtcttca 9480 aagcaagtgg attgatgtga tatctccact gacgtaaggg atgacgcaca atcccactat 9540 ccttcgcaag acccttcctc tatataagga agttcatttc atttggagag aacacggggg 9600 actctagaat gaaaaagcct gaactcaccg cgacgtctgt cgagaagttt ctgatcgaaa 9660 agttcgacag cgtctccgac ctgatgcagc tctcggaggg cgaagaatct cgtgctttca 9720 gcttcgatgt aggagggcgt ggatatgtcc tgcgggtaaa tagctgcgcc gatggtttct 9780 acaaagatcg ttatgtttat cggcactttg catcggccgc gctcccgatt ccggaagtgc 9840 ttgacattgg ggagtttagc gagagcctga cctattgcat ctcccgccgt tcacagggtg 9900 tcacgttgca agacctgcct gaaaccgaac tgcccgctgt tctacaaccg gtcgcggagg 9960 ctatggatgc gatcgctgcg gccgatctta gccagacgag cgggttcggc ccattcggac 10020 cgcaaggaat cggtcaatac actacatggc gtgatttcat atgcgcgatt gctgatcccc 10080 atgtgtatca ctggcaaact gtgatggacg acaccgtcag tgcgtccgtc gcgcaggctc 10140 tcgatgagct gatgctttgg gccgaggact gccccgaagt ccggcacctc gtgcacgcgg 10200 atttcggctc caacaatgtc ctgacggaca atggccgcat aacagcggtc attgactgga 10260 gcgaggcgat gttcggggat tcccaatacg aggtcgccaa catcttcttc tggaggccgt 10320 ggttggcttg tatggagcag cagacgcgct acttcgagcg gaggcatccg gagcttgcag 10380 gatcgccacg actccgggcg tatatgctcc gcattggtct tgaccaactc tatcagagct 10440 tggttgacgg caatttcgat gatgcagctt gggcgcaggg tcgatgcgac gcaatcgtcc 10500 gatccggagc cgggactgtc gggcgtacac aaatcgcccg cagaagcgcg gccgtctgga 10560 ccgatggctg tgtagaagta ctcgccgata gtggaaaccg acgccccagc actcgtccga 10620 gggcaaagaa ataggagctc tgggctaatc taaaacgatt tatctgtggc ttcaagtgta 10680 tcgatcactt atgtgaggtg taattactgg tgtttttggt gtgctctggt tcctttcaag 10740 tgtgttgttg ccgctcgaac tactccgcta tgtaaaacgg taaaacctgt tgtctcatta 10800 tgaaagtgaa ctatattatg ttctactact actctactta gtcaattttc ttcaccttga 10860 ttagtgtaaa tatgaatctt atattcttat gtcttaagaa attagcacat gtgaagcctc 10920 caagtgcata ttttctcgat cgcgagacgc acaatgcgtg agaaattcag ctggttatac 10980 tcaaatatat taatatatct agcagcagct catggagatt caggaaactt ggcatcccta 11040 atccctacca tttccattct tccgagattg acagttcaat acaagtacag taatctcctg 11100 gtaagtttct tattaacttg acatgtagta gtaataattt gtacgtagca tagatacata 11160 gacacaaaaa tgtcctcccc attgagctag ccgattggag ccgaacaccg caggaatgaa 11220 tttacataat ctgcaaagaa taaatggaat gtgcctccac aggaaaacca gcggcagtgt 11280 ggcgttttca agagcagccg taagtcgaag cctattctga atcgtagaaa tcactggggc 11340 atggtgtaat tacatccgac tccaacatct gtaccaccct gtgcattgta ggccgctcct 11400 ctggcaaaga acttacacat tgtttagcaa gagaaagtag agcatccaag gtctcaatct 11460 gcactccctc acaatatgga tcgacaattt ccctctcccg attctcaccg accaggaaat 11520 tcaactgcca cagagcaagt agattatttc aagaatacat taaatcaatt gaaggcatac 11580 gtaattcata tcagaaaact gtggatatga aatggaagga cataaaggtc atacataccc 11640 atccaacaat gttcaatccc ttttcaataa atgatgcatc agtaggtcgt tttccgctta 11700 gtatttcaag tagcaaaact ccaaaactgt agacgtcagt cttttcggtg gctctgccac 11760 tttgcatata ctcctgcagg tcgaccatag tgactggata tgttgtgttt tacagtatta 11820 tgtagtctgt tttttatgca aaatctaatt taatatattg atatttatat cattttacgt 11880 ttctcgttca gctttcttgt acaaagtggt gatatcccgc ggaaatacgt agaattcggg 11940 aagcttggca ctggccgtcg ttttacaacg tcgtgactgg gaaaaccctg gcgttaccca 12000 acttaatcgc cttgcagcac atcccccttt cgccagctgg cgtaatagcg aagaggcccg 12060 caccgatcgc ccttcccaac agttgcgcag cctgaatggc gaatgctaga gcaattcggc 12120 gttaattcag tacattaaaa acgtccgcaa tgtgttatta agttgtctaa gcgtcaattt 12180 gtttacacca caatatatcc tgccaccagc cagccaacag ctccccgacc ggcagctcgg 12240 cacaaaatca ccactcgata caggcagccc atcagtccgg gacggcgtca gcgggagagc 12300 cgttgtaagg cggcagactt tgctcatgtt accgatgcta ttcggaagaa cggcaactaa 12360 gctgccgggt ttgaaacacg gatgatctcg cggagggtag catgttgatt gtaacgatga 12420 cagagcgttg ctgcctgtga tcaattcggg cacgaaccca gtggacataa gcctcgttcg 12480 gttcgtaagc tgtaatgcaa gtagcgtaac tgccgtcacg caactggtcc agaaccttga 12540 ccgaacgcag cggtggtaac ggcgcagtgg cggttttcat ggcttcttgt tatgacatgt 12600 ttttttgggg tacagtctat gcctcgggca tccaagcagc aagcgcgtta cgccgtgggt 12660 cgatgtttga tgttatggag cagcaacgat gttacgcagc agggcagtcg ccctaaaaca 12720 aagttaaaca tcatggggga agcggtgatc gccgaagtat cgactcaact atcagaggta 12780 gttggcgtca tcgagcgcca tctcgaaccg acgttgctgg ccgtacattt gtacggctcc 12840 gcagtggatg gcggcctgaa gccacacagt gatattgatt tgctggttac ggtgaccgta 12900 aggcttgatg aaacaacgcg gcgagctttg atcaacgacc ttttggaaac ttcggcttcc 12960 cctggagaga gcgagattct ccgcgctgta gaagtcacca ttgttgtgca cgacgacatc 13020 attccgtggc gttatccagc taagcgcgaa ctgcaatttg gagaatggca gcgcaatgac 13080 attcttgcag gtatcttcga gccagccacg atcgacattg atctggctat cttgctgaca 13140 aaagcaagag aacatagcgt tgccttggta ggtccagcgg cggaggaact ctttgatccg 13200 gttcctgaac aggatctatt tgaggcgcta aatgaaacct taacgctatg gaactcgccg 13260 cccgactggg ctggcgatga gcgaaatgta gtgcttacgt tgtcccgcat ttggtacagc 13320 gcagtaaccg gcaaaatcgc gccgaaggat gtcgctgccg actgggcaat ggagcgcctg 13380 ccggcccagt atcagcccgt catacttgaa gctagacagg cttatcttgg acaagaagaa 13440 gatcgcttgg cctcgcgcgc agatcagttg gaagaatttg tccactacgt gaaaggcgag 13500 atcaccaagg tagtcggcaa ataatgtcta gctagaaatt cgttcaagcc gacgccgctt 13560 cgccggcgtt aaatcaagcg attagatgca ctaagcacat aattgctcac agccaaacta 13620 tcaggtcaag tctgctttta ttatttttaa gcgtgcataa taagccctac acaaattggg 13680 agatatatca tgcatgacca aaatccctta acgtgagttt tcgttccact gagcgtcaga 13740 ccccgtagaa aagatcaaag gatcttcttg agatcctttt tttctgcgcg taatctgctg 13800 cttgcaaaca aaaaaaccac cgctaccagc ggtggtttgt ttgccggatc aagagctacc 13860 aactcttttt ccgaaggtaa ctggcttcag cagagcgcag ataccaaata ctgtccttct 13920 agtgtagccg tagttaggcc accacttcaa gaactctgta gcaccgccta catacctcgc 13980 tctgctaatc ctgttaccag tggctgctgc cagtggcgat aagtcgtgtc ttaccgggtt 14040 ggactcaaga cgatagttac cggataaggc gcagcggtcg ggctgaacgg ggggttcgtg 14100 cacacagccc agcttggagc gaacgaccta caccgaactg agatacctac agcgtgagct 14160 atgagaaagc gccacgcttc ccgaagggag aaaggcggac aggtatccgg taagcggcag 14220 ggtcggaaca ggagagcgca cgagggagct tccaggggga aacgcctggt atctttatag 14280 tcctgtcggg tttcgccacc tctgacttga gcgtcgattt ttgtgatgct cgtcaggggg 14340 gcggagccta tggaaaaacg ccagcaacgc ggccttttta cggttcctgg ccttttgctg 14400 gccttttgct cacatgttct ttcctgcgtt atcccctgat tctgtggata accgtattac 14460 cgcctttgag tgagctgata ccgctcgccg cagccgaacg accgagcgca gcgagtcagt 14520 gagcgaggaa gcggaagagc gcctgatgcg gtattttctc cttacgcatc tgtgcggtat 14580 ttcacaccgc atatggtgca ctctcagtac aatctgctct gatgccgcat agttaagcca 14640 gtatacactc cgctatcgct acgtgactgg gtcatggctg cgccccgaca cccgccaaca 14700 cccgctgacg cgccctgacg ggcttgtctg ctcccggcat ccgcttacag acaagctgtg 14760 accgtctccg ggagctgcat gtgtcagagg ttttcaccgt catcaccgaa acgcgcgagg 14820 cagggtgcct tgatgtgggc gccggcggtc gagtggcgac ggcgcggctt gtccgcgccc 14880 tggtagattg cctggccgta ggccagccat ttttgagcgg ccagcggccg cgataggccg 14940 acgcgaagcg gcggggcgta gggagcgcag cgaccgaagg gtaggcgctt tttgcagctc 15000 ttcggctgtg cgctggccag acagttatgc acaggccagg cgggttttaa gagttttaat 15060 aagttttaaa gagttttagg cggaaaaatc gccttttttc tcttttatat cagtcactta 15120 catgtgtgac cggttcccaa tgtacggctt tgggttccca atgtacgggt tccggttccc 15180 aatgtacggc tttgggttcc caatgtacgt gctatccaca ggaaagagac cttttcgacc 15240 tttttcccct gctagggcaa tttgccctag catctgctcc gtacattagg aaccggcgga 15300 tgcttcgccc tcgatcaggt tgcggtagcg catgactagg atcgggccag cctgccccgc 15360 ctcctccttc aaatcgtact ccggcaggtc atttgacccg atcagcttgc gcacggtgaa 15420 acagaacttc ttgaactctc cggcgctgcc actgcgttcg tagatcgtct tgaacaacca 15480 tctggcttct gccttgcctg cggcgcggcg tgccaggcgg tagagaaaac ggccgatgcc 15540 gggatcgatc aaaaagtaat cggggtgaac cgtcagcacg tccgggttct tgccttctgt 15600 gatctcgcgg tacatccaat cagctagctc gatctcgatg tactccggcc gcccggtttc 15660 gctctttacg atcttgtagc ggctaatcaa ggcttcaccc tcggataccg tcaccaggcg 15720 gccgttcttg gccttcttcg tacgctgcat ggcaacgtgc gtggtgttta accgaatgca 15780 ggtttctacc aggtcgtctt tctgctttcc gccatcggct cgccggcaga acttgagtac 15840 gtccgcaacg tgtggacgga acacgcggcc gggcttgtct cccttccctt cccggtatcg 15900 gttcatggat tcggttagat gggaaaccgc catcagtacc aggtcgtaat cccacacact 15960 ggccatgccg gccggccctg cggaaacctc tacgtgcccg tctggaagct cgtagcggat 16020 cacctcgcca gctcgtcggt cacgcttcga cagacggaaa acggccacgt ccatgatgct 16080 gcgactatcg cgggtgccca cgtcatagag catcggaacg aaaaaatctg gttgctcgtc 16140 gcccttgggc ggcttcctaa tcgacggcgc accggctgcc ggcggttgcc gggattcttt 16200 gcggattcga tcagcggccg cttgccacga ttcaccgggg cgtgcttctg cctcgatgcg 16260 ttgccgctgg gcggcctgcg cggccttcaa cttctccacc aggtcatcac ccagcgccgc 16320 gccgatttgt accgggccgg atggtttgcg accgtcacgc cgattcctcg ggcttggggg 16380 ttccagtgcc attgcagggc cggcagacaa cccagccgct tacgcctggc caaccgcccg 16440 ttcctccaca catggggcat tccacggcgt cggtgcctgg ttgttcttga ttttccatgc 16500 cgcctccttt agccgctaaa attcatctac tcatttattc atttgctcat ttactctggt 16560 agctgcgcga tgtattcaga tagcagctcg gtaatggtct tgccttggcg taccgcgtac 16620 atcttcagct tggtgtgatc ctccgccggc aactgaaagt tgacccgctt catggctggc 16680 gtgtctgcca ggctggccaa cgttgcagcc ttgctgctgc gtgcgctcgg acggccggca 16740 cttagcgtgt ttgtgctttt gctcattttc tctttacctc attaactcaa atgagttttg 16800 atttaatttc agcggccagc gcctggacct cgcgggcagc gtcgccctcg ggttctgatt 16860 caagaacggt tgtgccggcg gcggcagtgc ctgggtagct cacgcgctgc gtgatacggg 16920 actcaagaat gggcagctcg tacccggcca gcgcctcggc aacctcaccg ccgatgcgcg 16980 tgcctttgat cgcccgcgac acgacaaagg ccgcttgtag ccttccatcc gtgacctcaa 17040 tgcgctgctt aaccagctcc accaggtcgg cggtggccca tatgtcgtaa gggcttggct 17100 gcaccggaat cagcacgaag tcggctgcct tgatcgcgga cacagccaag tccgccgcct 17160 ggggcgctcc gtcgatcact acgaagtcgc gccggccgat ggccttcacg tcgcggtcaa 17220 tcgtcgggcg gtcgatgccg acaacggtta gcggttgatc ttcccgcacg gccgcccaat 17280 cgcgggcact gccctgggga tcggaatcga ctaacagaac atcggccccg gcgagttgca 17340 gggcgcgggc tagatgggtt gcgatggtcg tcttgcctga cccgcctttc tggttaagta 17400 cagcgataac cttcatgcgt tccccttgcg tatttgttta tttactcatc gcatcatata 17460 cgcagcgacc gcatgacgca agctgtttta ctcaaataca catcaccttt ttagacggcg 17520 gcgctcggtt tcttcagcgg ccaagctggc cggccaggcc gccagcttgg catcagacaa 17580 accggccagg atttcatgca gccgcacggt tgagacgtgc gcgggcggct cgaacacgta 17640 cccggccgcg atcatctccg cctcgatctc ttcggtaatg aaaaacggtt cgtcctggcc 17700 gtcctggtgc ggtttcatgc ttgttcctct tggcgttcat tctcggcggc cgccagggcg 17760 tcggcctcgg tcaatgcgtc ctcacggaag gcaccgcgcc gcctggcctc ggtgggcgtc 17820 acttcctcgc tgcgctcaag tgcgcggtac agggtcgagc gatgcacgcc aagcagtgca 17880 gccgcctctt tcacggtgcg gccttcctgg tcgatcagct cgcgggcgtg cgcgatctgt 17940 gccggggtga gggtagggcg ggggccaaac ttcacgcctc gggccttggc ggcctcgcgc 18000 ccgctccggg tgcggtcgat gattagggaa cgctcgaact cggcaatgcc ggcgaacacg 18060 gtcaacacca tgcggccggc cggcgtggtg gtgtcggccc acggctctgc caggctacgc 18120 aggcccgcgc cggcctcctg gatgcgctcg gcaatgtcca gtaggtcgcg ggtgctgcgg 18180 gccaggcggt ctagcctggt cactgtcaca acgtcgccag ggcgtaggtg gtcaagcatc 18240 ctggccagct ccgggcggtc gcgcctggtg ccggtgatct tctcggaaaa cagcttggtg 18300 cagccggccg cgtgcagttc ggcccgttgg ttggtcaagt cctggtcgtc ggtgctgacg 18360 cgggcatagc ccagcaggcc agcggcggcg ctcttgttca tggcgtaatg tctccggttc 18420 tagtcgcaag tattctactt tatgcgacta aaacacgcga caagaaaacg ccaggaaaag 18480 ggcagggcgg cagcctgtcg cgtaacttag gacttgtgcg acatgtcgtt ttcagaagac 18540 ggctgcactg aacgtcagaa gccgactgca ctatagcagc ggaggggttg gatcaaagta 18600 ctttgatccc gaggggaacc ctgtggttgg catgcacata caaatggacg aacggataaa 18660 ccttttcacg cccttttaaa tatccgttat tctaa 18695 <210> 12 <211> 18695 <212> DNA <213> Artificial Sequence <220> <223> Complete nucleotide sequence of 2409. <400> 12 taaacgctct tttctcttag gtttacccgc caatatatcc tgtcaaacac tgatagttta 60 aactgaaggc gggaaacgac aatctgatcc aagctcaagc tccaatacgc aaaccgcctc 120 tccccgcgcg ttggccgatt cattaatgca gctggcacga caggtttccc gactggaaag 180 cgggcagtga gcgcaacgca attaatgtga gttagctcac tcattaggca ccccaggctt 240 tacactttat gcttccggct cgtatgttgt gtggaattgt gagcggataa caatttcaca 300 caggaaacag ctatgaccat gattacgaat ttcaggtgac tgatagtgac ctgttcgttg 360 caacaaattg atgagcaatg cttttttata atgccaactt tgtacaaaaa agcaggcggc 420 gcgtcctgca ggatagggat aacagggtaa tggcgcgcca agcttatcga taccgtcgac 480 ctcgagcggc cgccagtgtg atggatatct gcagaattgc ccttcgaagg gacaaaaaaa 540 gcaccgactc ggtgccactt tttcaagttg ataacggact agccttattt taacttgcta 600 tttctagctc taaaacgccc agttggaatg taggtgcaac acaagcgaca gcgcgcgggt 660 ttataagttg gtcgcgttcg agttagctgg gcaatgtggt actaaactgt tcctcccgcc 720 tctcgcgctc acactcgccc tgtgggccgc tcaccgtgca cgtacttggg cctcccgctc 780 ccccgcatgc atccagccca tcacagcgaa gagaatcggg cttttcttct ccccatctcc 840 ctacacaacc accaaataca gccaggccgt tggttcatga tccaagggca attccagcac 900 actggcggcc gttactagtg gatccgagct cggtacctta attaaattac cctgttatcc 960 ctatcctgca ggattaacac ccaacttttc tatccaagct tgccaacatg gtggagcacg 1020 acactctcgt ctactccaag aatatcaaag atacagtctc agaagaccaa agggctattg 1080 agacttttca acaaagggta atatcgggaa acctcctcgg attccattgc ccagctatct 1140 gtcacttcat caaaaggaca gtagaaaagg aaggtggcac ctacaaatgc catcattgcg 1200 ataaaggaaa ggctatcgtt caagatgcct ctgccgacag tggtcccaaa gatggacccc 1260 cacccacgag gagcatcgtg gaaaaagaag acgttccaac cacgtcttca aagcaagtgg 1320 attgatgtga taacatggtg gagcacgaca ctctcgtcta ctccaagaat atcaaagata 1380 cagtctcaga agaccaaagg gctattgaga cttttcaaca aagggtaata tcgggaaacc 1440 tcctcggatt ccattgccca gctatctgtc acttcatcaa aaggacagta gaaaaggaag 1500 gtggcaccta caaatgccat cattgcgata aaggaaaggc tatcgttcaa gatgcctctg 1560 ccgacagtgg tcccaaagat ggacccccac ccacgaggag catcgtggaa aaagaagacg 1620 ttccaaccac gtcttcaaag caagtggatt gatgtgatat ctccactgac gtaagggatg 1680 acgcacaatc ccactatcct tcgcaagacc cttcctctat ataaggaagt tcatttcatt 1740 tggagaggcc ggtctagaga attccaagca acgaactgcg agtgattcaa gaaaaaagaa 1800 aacctgagct ttcgatctct acggagtggt ttcttgttct ttgaaaaaga gggggattac 1860 atatggctcc taagaagaag cggaaggttg gtattcacgg ggtgcctgcg gctatggaca 1920 agaagtactc gatcgggctg gccatcggaa caaattctgt aggctgggct gtaataaccg 1980 atgagtacaa ggtgccctct aaaaaattta aggtccttgg caatacggat agacattcca 2040 taaagaagaa tcttatcggt gcgctgctct ttgacagcgg cgagaccgcg gaggcgaccc 2100 ggttgaaacg caccgcgaga cgccgttaca caaggcgtaa gaatagaatc tgttatctcc 2160 aggagatatt ctctaatgaa atggcgaagg tagacgattc cttctttcac cgtctggagg 2220 aaagttttct cgttgaggaa gataagaaac atgaaagaca cccgatcttc ggaaacattg 2280 tcgacgaggt cgcttatcat gaaaagtacc ctaccatcta ccatcttaga aagaaacttg 2340 ttgacagcac ggataaggct gatctcaggc tgatatacct ggctctggca catatgatta 2400 agttcagagg gcatttcctt atcgaaggcg acctgaatcc agataattca gatgtagaca 2460 agctcttcat tcaacttgtg cagacttata atcagctctt cgaagaaaat ccaataaacg 2520 cgtcgggtgt agacgcaaag gccatactgt ccgctaggct ttctaagtca cgtagacttg 2580 agaatctcat tgcccaactc cccggcgaga agaagaacgg cttgtttgga aatctgatag 2640 cgctgtccct gggtcttaca ccaaatttca agagtaattt cgatttggca gaagatgcta 2700 agttgcagct cagtaaagac acctacgatg acgatcttga taatttgttg gctcagattg 2760 gcgatcagta tgcagatctt ttcttggccg ctaagaattt gtctgatgca attctgctta 2820 gcgacatttt gagggttaat acagaaatca ccaaggcacc cttgtcggcg tcaatgataa 2880 agaggtatga tgagcaccac caagacctga cgctcctcaa ggctcttgtt cggcagcaat 2940 tgccggagaa gtacaaagag atcttcttcg accagtctaa gaacggatat gcgggctaca 3000 tagacggtgg agcgagtcag gaggaattct acaagttcat aaagcccatt ctcgagaaga 3060 tggatggtac ggaagaactg cttgtgaaac ttaacagaga agatcttttg cggaagcaga 3120 gaactttcga caacggaagt ataccacacc agatacatct cggagagctt catgctattc 3180 tcagaagaca agaggatttc taccctttct tgaaggataa cagagaaaag atagagaaga 3240 tcctcacgtt taggatccct tactacgtag gtcctcttgc tcgcggcaat agtaggttcg 3300 cctggatgac ccgcaagtct gaagaaacta tcaccccttg gaatttcgaa gaggttgtag 3360 acaaaggtgc ttcagcacag agtttcattg agaggatgac caacttcgac aagaacctcc 3420 ccaacgaaaa ggtcctgcct aagcacagcc tcctctacga atactttact gtctataatg 3480 agcttacaaa agttaagtac gtgacagagg gaatgcggaa gcccgcattc ctttccggag 3540 aacaaaagaa ggcgatcgtg gatcttctct tcaagacgaa ccgcaaggtg acggttaaac 3600 agttgaagga agattacttc aagaagatag aatgttttga tagcgtggaa atcagcggcg 3660 tcgaagatag gttcaacgct tccctgggaa cgtaccacga tctcctcaag attatcaaag 3720 ataaggactt tcttgataac gaagagaatg aggacatctt ggaagacatt gttctgacgc 3780 tcaccctgtt cgaagatcgc gagatgattg aggaacgctt gaagacctac gcacacctgt 3840 tcgatgacaa ggttatgaag caacttaaac ggcgccggta tacgggctgg ggacggcttt 3900 cgcggaagct gataaatgga atccgtgaca agcagtctgg caagacaata ctcgacttct 3960 tgaagtcgga tggttttgcc aatagaaatt ttatgcaact cattcatgat gactcgctta 4020 cttttaagga ggacatccag aaggcccagg tatcaggaca gggtgactct ttgcacgaac 4080 acatcgcgaa cctggcgggc tcccccgcga ttaagaaggg aattttgcag actgtcaagg 4140 tggtcgatga actcgtgaag gttatgggac gtcataagcc ggaaaatatt gtgattgaga 4200 tggctcgcga gaatcaaaca acacagaagg gccaaaagaa cagtagagaa cgcatgaagc 4260 gcatcgaaga gggcatcaaa gagctgggca gtcagatcct taaagaacat ccagtcgaga 4320 atacacagct tcagaacgaa aagctgtacc tttattacct tcaaaatggg cgtgatatgt 4380 atgtggatca ggaactcgat atcaataggc tgagtgacta tgatgtcgac catatcgtcc 4440 cgcaaagttt cctcaaggac gacagtatag acaacaaagt tctcacacgg tcagataaga 4500 atcgcggcaa gagcgataat gtaccgtcgg aggaggtagt caagaagatg aagaattact 4560 ggcgccagtt gctcaacgcc aagctcatca ctcagaggaa atttgacaac cttacgaaag 4620 ccgagcgggg cggactctct gaactggaca aggccggttt cataaagcgc cagctcgttg 4680 agacacgtca aattactaag cacgtcgctc aaatattgga ttcccgcatg aatactaagt 4740 acgatgagaa tgataagctc atacgtgaag ttaaggtcat tactctcaag tccaagcttg 4800 tatcggactt ccgtaaggac ttccaattct acaaggtccg ggaaatcaat aattatcacc 4860 atgcccatga cgcttatctg aacgcggtcg tgggcacggc actcattaag aaatacccaa 4920 aacttgagtc agaatttgtt tacggggact ataaagttta tgacgtgcgg aagatgatag 4980 cgaagtcgga acaagagata ggaaaggcga ctgcaaagta ctttttttac tccaacataa 5040 tgaatttctt taagaccgaa ataacccttg caaacggtga aatcagaaag cggcctctga 5100 ttgaaacaaa tggcgagacg ggcgagatcg tctgggacaa ggggagggac ttcgcaacgg 5160 ttcgcaaggt ccttagcatg ccgcaagtaa atatagttaa gaagacggaa gttcagaccg 5220 gcggctttag taaagaaagc atacttccta aaaggaattc cgacaaactg atagcgcgca 5280 agaaggactg ggatccaaag aagtatggag gatttgactc cccaaccgtt gcttatagcg 5340 tgttggtagt agccaaggtg gaaaagggta agtctaagaa attgaagtcg gtgaaggagt 5400 tgttggggat aactataatg gagcggagtt cgttcgagaa gaacccaatt gactttctcg 5460 aagccaaagg ctacaaggag gtcaagaagg acctgattat taagttgcca aagtactcgc 5520 tcttcgaact cgagaacggg agaaagcgta tgctggcgtc ggcgggcgag ctgcagaaag 5580 gaaacgagct ggctttgcca tcgaaatacg taaatttcct gtacctcgcc tcacattatg 5640 agaagcttaa agggtctcca gaagacaatg aacagaagca gctgtttgtt gaacagcaca 5700 agcactactt ggacgagatt atagaacaaa tctccgagtt ctctaaacgg gttatccttg 5760 cagacgccaa tttggataag gtcctctcgg cttataataa gcatagagat aagccaatcc 5820 gggagcaggc tgaaaatatc atacacctct ttacgttgac taatttgggt gcgccagcgg 5880 cattcaagta cttcgataca acaatcgatc gtaagcgcta cacaagcact aaggaagtcc 5940 tggacgcgac gctgatacac cagtccatta ctggactgta tgaaaccaga atagatctta 6000 gccagctcgg cggtgatgga ggagggccta gggctgatcc taagaagaag aggaaggttg 6060 gaggagggcc aggagcagag tatgttagag cgttgtttga ttttaacggt aacgatgaag 6120 aggatttacc ctttaagaaa ggcgacattc tcaggattag ggataaacct gaagagcaat 6180 ggtggaatgc tgaggatagt gaaggcaaac gaggaatgat tttagtgccg tatgtggaga 6240 aatattcggg tgactacaaa gatcatgatg gtgattacaa agaccatgac atcgactaca 6300 aggatgatga tgataagtca gggatgacag atgctgaata tgtcagaatc cacgaaaagt 6360 tggacattta cacgtttaag aagcagttct tcaacaacaa gaaatctgtt tcgcataggt 6420 gctatgtgct tttcgaacta aaacgtcgtg gagaaagacg ggcttgcttt tggggttacg 6480 cggttaacaa accacaatca ggtactgaac gaggaataca cgctgaaatc ttttctatcc 6540 gaaaggttga ggaatatcta cgtgacaatc ctggacagtt cactatcaat tggtattcta 6600 gctggtcacc atgtgcagat tgtgctgaga agattctcga atggtacaat caagagctta 6660 gaggcaatgg acatacattg aaaatatggg catgcaagct ctactacgaa aagaatgcca 6720 gaaaccaaat tgggctttgg aacttgaggg ataatggagt tgggcttaat gtcatggttt 6780 ctgagcacta tcaatgttgt cggaagatct tcatacaaag ttcccataac cagttgaatg 6840 agaacagatg gttagagaaa acccttaaaa gagccgagaa gagaagatcc gaactgagca 6900 ttatgataca ggtcaaaatt ctgcatacca ctaagagtcc agctgtaggt cctaagaaga 6960 aacgtaaagt agggccctga tccaggcctc ccagctttcg tccgtatcat cggtttcgac 7020 aacgttcgtc aagttcaatg catcagtttc attgcccaca caccagaatc ctactaagtt 7080 tgagtattat ggcattggaa aagctgtttt cttctatcat ttgttctgct tgtaatttac 7140 tgtgttcttt cagtttttgt tttcggacat caaaatgcaa atggatggat aagagttaat 7200 aaatgatatg gtccttttgt tcattctcaa attattatta tctgttgttt ttactttaat 7260 gggttgaatt taagtaagaa aggaactaac agtgtgatat taaggtgcaa tgttagacat 7320 ataaaacagt ctttcacctc tctttggtta tgtcttgaat tggtttgttt cttcacttat 7380 ctgtgtaatc aagtttacta tgagtctatg atcaagtaat tatgcaatca agttaagtac 7440 agtataggct tgagctccct aggcccctag gtaattcttc ggacccaaga atgctaagcc 7500 aagaggagct gttatcgccg tcctcctgct tgtttctctc tttttgttgc tgtttcttca 7560 ttagcgtgga caaagttttc aaccggccta tctgttatca ttttcttcta ttcaaagact 7620 gtaataccta ttgctacctg tggttctcac ttgtgatttt ggacacatat gttcggttta 7680 ttcaaattta atcagatgcc tgatgagggt accagaaaaa atacgtgttc tggttgtttt 7740 tgagttgcga ttattctatg aaatgaataa catcgaagtt atcatcccag tattttcgca 7800 tgaatgttct tttcttctgt cttgtgcatc agtgatctag tgcatgggag tttgtattgt 7860 gatgttcgac atcacgtaac ttccactttg cctttgctgt tcgatatttt aatgacatgt 7920 cacacacact tctgatactt ttctttcttg gctattgtgc cagcatgatg caagatgcat 7980 cacagcatca gatatattct catcgtcagg ctttagcagc acacgagcac gctttgccgc 8040 ttaaaagttg tacggcgcag cttagacatc ccctgtagaa gtgataatct tttcactttt 8100 ccttaaacaa attgagaggg gaaatggaac catgtggatc agagaagctt ttgtttcttt 8160 acacaagaat atttggtaca gtgggggtcc tatgttcgtg ggttcgtggc ttggctgcct 8220 gtcttcaacc aagtgttttc agttcaacat gttagcgtgt agaaagagca caattctgtt 8280 tatctccaag gtaaaatgtg gcattctgtt aaagaacatg atcctgccaa ttttttaagt 8340 ttcaatggaa gaggaatgta aagctttcta tggtttgtgt acacaacaca gtggaagagg 8400 agtgcaagct ttctatggtt tgtgtgcgcg ttgtgtgtca gcacttcaat tttgttagaa 8460 aatgaaagaa aaaaaaggat gatcatgctt atagtaaatc actctttttc ctcgccttct 8520 gtacgttttg acttgacaag attttaaaat ctgtacatga cctttgtttt aaaattactt 8580 tatgtatttc catctttcaa gttatgcaga tgtcatcaca aattgttaca ccaatcacca 8640 ggctggctgt ttatatatta tcagaccagg ctatatagag tatactatac taactgttca 8700 tattatctgg aaatcttgct tgctacttga gcggtaaaag ggtatagata tgagggtccc 8760 cagattagcc ttttcaattt cagaaagaat gctaacccac agatggttag agaggcttac 8820 gcagcaggtc tcatcaagac gatctacccg agcaataatc tccaggaaat caaatacctt 8880 cccaagaagg ttaaagatgc agtcaaaaga ttcaggacta actgcatcaa gaacacagag 8940 aaagatatat ttctcaagat cagaagtact attccagtat ggacgattca aggcttgctt 9000 cacaaaccaa ggcaagtaat agagattgga gtctctaaaa aggtagttcc cactgaatca 9060 aaggccatgg agtcaaagat tcaaatagag gacctaacag aactcgccgt aaagactggc 9120 gaacagttca tacagagtct cttacgactc aatgacaaga agaaaatctt cgtcaacatg 9180 gtggagcacg acacacttgt ctactccaaa aatatcaaag atacagtctc agaagaccaa 9240 agggcaattg agacttttca acaaagggta atatccggaa acctcctcgg attccattgc 9300 ccagctatct gtcactttat tgtgaagata gtggaaaagg aaggtggctc ctacaaatgc 9360 catcattgcg ataaaggaaa ggccatcgtt gaagatgcct ctgccgacag tggtcccaaa 9420 gatggacccc cacccacgag gagcatcgtg gaaaaagaag acgttccaac cacgtcttca 9480 aagcaagtgg attgatgtga tatctccact gacgtaaggg atgacgcaca atcccactat 9540 ccttcgcaag acccttcctc tatataagga agttcatttc atttggagag aacacggggg 9600 actctagaat gaaaaagcct gaactcaccg cgacgtctgt cgagaagttt ctgatcgaaa 9660 agttcgacag cgtctccgac ctgatgcagc tctcggaggg cgaagaatct cgtgctttca 9720 gcttcgatgt aggagggcgt ggatatgtcc tgcgggtaaa tagctgcgcc gatggtttct 9780 acaaagatcg ttatgtttat cggcactttg catcggccgc gctcccgatt ccggaagtgc 9840 ttgacattgg ggagtttagc gagagcctga cctattgcat ctcccgccgt tcacagggtg 9900 tcacgttgca agacctgcct gaaaccgaac tgcccgctgt tctacaaccg gtcgcggagg 9960 ctatggatgc gatcgctgcg gccgatctta gccagacgag cgggttcggc ccattcggac 10020 cgcaaggaat cggtcaatac actacatggc gtgatttcat atgcgcgatt gctgatcccc 10080 atgtgtatca ctggcaaact gtgatggacg acaccgtcag tgcgtccgtc gcgcaggctc 10140 tcgatgagct gatgctttgg gccgaggact gccccgaagt ccggcacctc gtgcacgcgg 10200 atttcggctc caacaatgtc ctgacggaca atggccgcat aacagcggtc attgactgga 10260 gcgaggcgat gttcggggat tcccaatacg aggtcgccaa catcttcttc tggaggccgt 10320 ggttggcttg tatggagcag cagacgcgct acttcgagcg gaggcatccg gagcttgcag 10380 gatcgccacg actccgggcg tatatgctcc gcattggtct tgaccaactc tatcagagct 10440 tggttgacgg caatttcgat gatgcagctt gggcgcaggg tcgatgcgac gcaatcgtcc 10500 gatccggagc cgggactgtc gggcgtacac aaatcgcccg cagaagcgcg gccgtctgga 10560 ccgatggctg tgtagaagta ctcgccgata gtggaaaccg acgccccagc actcgtccga 10620 gggcaaagaa ataggagctc tgggctaatc taaaacgatt tatctgtggc ttcaagtgta 10680 tcgatcactt atgtgaggtg taattactgg tgtttttggt gtgctctggt tcctttcaag 10740 tgtgttgttg ccgctcgaac tactccgcta tgtaaaacgg taaaacctgt tgtctcatta 10800 tgaaagtgaa ctatattatg ttctactact actctactta gtcaattttc ttcaccttga 10860 ttagtgtaaa tatgaatctt atattcttat gtcttaagaa attagcacat gtgaagcctc 10920 caagtgcata ttttctcgat cgcgagacgc acaatgcgtg agaaattcag ctggttatac 10980 tcaaatatat taatatatct agcagcagct catggagatt caggaaactt ggcatcccta 11040 atccctacca tttccattct tccgagattg acagttcaat acaagtacag taatctcctg 11100 gtaagtttct tattaacttg acatgtagta gtaataattt gtacgtagca tagatacata 11160 gacacaaaaa tgtcctcccc attgagctag ccgattggag ccgaacaccg caggaatgaa 11220 tttacataat ctgcaaagaa taaatggaat gtgcctccac aggaaaacca gcggcagtgt 11280 ggcgttttca agagcagccg taagtcgaag cctattctga atcgtagaaa tcactggggc 11340 atggtgtaat tacatccgac tccaacatct gtaccaccct gtgcattgta ggccgctcct 11400 ctggcaaaga acttacacat tgtttagcaa gagaaagtag agcatccaag gtctcaatct 11460 gcactccctc acaatatgga tcgacaattt ccctctcccg attctcaccg accaggaaat 11520 tcaactgcca cagagcaagt agattatttc aagaatacat taaatcaatt gaaggcatac 11580 gtaattcata tcagaaaact gtggatatga aatggaagga cataaaggtc atacataccc 11640 atccaacaat gttcaatccc ttttcaataa atgatgcatc agtaggtcgt tttccgctta 11700 gtatttcaag tagcaaaact ccaaaactgt agacgtcagt cttttcggtg gctctgccac 11760 tttgcatata ctcctgcagg tcgaccatag tgactggata tgttgtgttt tacagtatta 11820 tgtagtctgt tttttatgca aaatctaatt taatatattg atatttatat cattttacgt 11880 ttctcgttca gctttcttgt acaaagtggt gatatcccgc ggaaatacgt agaattcggg 11940 aagcttggca ctggccgtcg ttttacaacg tcgtgactgg gaaaaccctg gcgttaccca 12000 acttaatcgc cttgcagcac atcccccttt cgccagctgg cgtaatagcg aagaggcccg 12060 caccgatcgc ccttcccaac agttgcgcag cctgaatggc gaatgctaga gcaattcggc 12120 gttaattcag tacattaaaa acgtccgcaa tgtgttatta agttgtctaa gcgtcaattt 12180 gtttacacca caatatatcc tgccaccagc cagccaacag ctccccgacc ggcagctcgg 12240 cacaaaatca ccactcgata caggcagccc atcagtccgg gacggcgtca gcgggagagc 12300 cgttgtaagg cggcagactt tgctcatgtt accgatgcta ttcggaagaa cggcaactaa 12360 gctgccgggt ttgaaacacg gatgatctcg cggagggtag catgttgatt gtaacgatga 12420 cagagcgttg ctgcctgtga tcaattcggg cacgaaccca gtggacataa gcctcgttcg 12480 gttcgtaagc tgtaatgcaa gtagcgtaac tgccgtcacg caactggtcc agaaccttga 12540 ccgaacgcag cggtggtaac ggcgcagtgg cggttttcat ggcttcttgt tatgacatgt 12600 ttttttgggg tacagtctat gcctcgggca tccaagcagc aagcgcgtta cgccgtgggt 12660 cgatgtttga tgttatggag cagcaacgat gttacgcagc agggcagtcg ccctaaaaca 12720 aagttaaaca tcatggggga agcggtgatc gccgaagtat cgactcaact atcagaggta 12780 gttggcgtca tcgagcgcca tctcgaaccg acgttgctgg ccgtacattt gtacggctcc 12840 gcagtggatg gcggcctgaa gccacacagt gatattgatt tgctggttac ggtgaccgta 12900 aggcttgatg aaacaacgcg gcgagctttg atcaacgacc ttttggaaac ttcggcttcc 12960 cctggagaga gcgagattct ccgcgctgta gaagtcacca ttgttgtgca cgacgacatc 13020 attccgtggc gttatccagc taagcgcgaa ctgcaatttg gagaatggca gcgcaatgac 13080 attcttgcag gtatcttcga gccagccacg atcgacattg atctggctat cttgctgaca 13140 aaagcaagag aacatagcgt tgccttggta ggtccagcgg cggaggaact ctttgatccg 13200 gttcctgaac aggatctatt tgaggcgcta aatgaaacct taacgctatg gaactcgccg 13260 cccgactggg ctggcgatga gcgaaatgta gtgcttacgt tgtcccgcat ttggtacagc 13320 gcagtaaccg gcaaaatcgc gccgaaggat gtcgctgccg actgggcaat ggagcgcctg 13380 ccggcccagt atcagcccgt catacttgaa gctagacagg cttatcttgg acaagaagaa 13440 gatcgcttgg cctcgcgcgc agatcagttg gaagaatttg tccactacgt gaaaggcgag 13500 atcaccaagg tagtcggcaa ataatgtcta gctagaaatt cgttcaagcc gacgccgctt 13560 cgccggcgtt aaatcaagcg attagatgca ctaagcacat aattgctcac agccaaacta 13620 tcaggtcaag tctgctttta ttatttttaa gcgtgcataa taagccctac acaaattggg 13680 agatatatca tgcatgacca aaatccctta acgtgagttt tcgttccact gagcgtcaga 13740 ccccgtagaa aagatcaaag gatcttcttg agatcctttt tttctgcgcg taatctgctg 13800 cttgcaaaca aaaaaaccac cgctaccagc ggtggtttgt ttgccggatc aagagctacc 13860 aactcttttt ccgaaggtaa ctggcttcag cagagcgcag ataccaaata ctgtccttct 13920 agtgtagccg tagttaggcc accacttcaa gaactctgta gcaccgccta catacctcgc 13980 tctgctaatc ctgttaccag tggctgctgc cagtggcgat aagtcgtgtc ttaccgggtt 14040 ggactcaaga cgatagttac cggataaggc gcagcggtcg ggctgaacgg ggggttcgtg 14100 cacacagccc agcttggagc gaacgaccta caccgaactg agatacctac agcgtgagct 14160 atgagaaagc gccacgcttc ccgaagggag aaaggcggac aggtatccgg taagcggcag 14220 ggtcggaaca ggagagcgca cgagggagct tccaggggga aacgcctggt atctttatag 14280 tcctgtcggg tttcgccacc tctgacttga gcgtcgattt ttgtgatgct cgtcaggggg 14340 gcggagccta tggaaaaacg ccagcaacgc ggccttttta cggttcctgg ccttttgctg 14400 gccttttgct cacatgttct ttcctgcgtt atcccctgat tctgtggata accgtattac 14460 cgcctttgag tgagctgata ccgctcgccg cagccgaacg accgagcgca gcgagtcagt 14520 gagcgaggaa gcggaagagc gcctgatgcg gtattttctc cttacgcatc tgtgcggtat 14580 ttcacaccgc atatggtgca ctctcagtac aatctgctct gatgccgcat agttaagcca 14640 gtatacactc cgctatcgct acgtgactgg gtcatggctg cgccccgaca cccgccaaca 14700 cccgctgacg cgccctgacg ggcttgtctg ctcccggcat ccgcttacag acaagctgtg 14760 accgtctccg ggagctgcat gtgtcagagg ttttcaccgt catcaccgaa acgcgcgagg 14820 cagggtgcct tgatgtgggc gccggcggtc gagtggcgac ggcgcggctt gtccgcgccc 14880 tggtagattg cctggccgta ggccagccat ttttgagcgg ccagcggccg cgataggccg 14940 acgcgaagcg gcggggcgta gggagcgcag cgaccgaagg gtaggcgctt tttgcagctc 15000 ttcggctgtg cgctggccag acagttatgc acaggccagg cgggttttaa gagttttaat 15060 aagttttaaa gagttttagg cggaaaaatc gccttttttc tcttttatat cagtcactta 15120 catgtgtgac cggttcccaa tgtacggctt tgggttccca atgtacgggt tccggttccc 15180 aatgtacggc tttgggttcc caatgtacgt gctatccaca ggaaagagac cttttcgacc 15240 tttttcccct gctagggcaa tttgccctag catctgctcc gtacattagg aaccggcgga 15300 tgcttcgccc tcgatcaggt tgcggtagcg catgactagg atcgggccag cctgccccgc 15360 ctcctccttc aaatcgtact ccggcaggtc atttgacccg atcagcttgc gcacggtgaa 15420 acagaacttc ttgaactctc cggcgctgcc actgcgttcg tagatcgtct tgaacaacca 15480 tctggcttct gccttgcctg cggcgcggcg tgccaggcgg tagagaaaac ggccgatgcc 15540 gggatcgatc aaaaagtaat cggggtgaac cgtcagcacg tccgggttct tgccttctgt 15600 gatctcgcgg tacatccaat cagctagctc gatctcgatg tactccggcc gcccggtttc 15660 gctctttacg atcttgtagc ggctaatcaa ggcttcaccc tcggataccg tcaccaggcg 15720 gccgttcttg gccttcttcg tacgctgcat ggcaacgtgc gtggtgttta accgaatgca 15780 ggtttctacc aggtcgtctt tctgctttcc gccatcggct cgccggcaga acttgagtac 15840 gtccgcaacg tgtggacgga acacgcggcc gggcttgtct cccttccctt cccggtatcg 15900 gttcatggat tcggttagat gggaaaccgc catcagtacc aggtcgtaat cccacacact 15960 ggccatgccg gccggccctg cggaaacctc tacgtgcccg tctggaagct cgtagcggat 16020 cacctcgcca gctcgtcggt cacgcttcga cagacggaaa acggccacgt ccatgatgct 16080 gcgactatcg cgggtgccca cgtcatagag catcggaacg aaaaaatctg gttgctcgtc 16140 gcccttgggc ggcttcctaa tcgacggcgc accggctgcc ggcggttgcc gggattcttt 16200 gcggattcga tcagcggccg cttgccacga ttcaccgggg cgtgcttctg cctcgatgcg 16260 ttgccgctgg gcggcctgcg cggccttcaa cttctccacc aggtcatcac ccagcgccgc 16320 gccgatttgt accgggccgg atggtttgcg accgtcacgc cgattcctcg ggcttggggg 16380 ttccagtgcc attgcagggc cggcagacaa cccagccgct tacgcctggc caaccgcccg 16440 ttcctccaca catggggcat tccacggcgt cggtgcctgg ttgttcttga ttttccatgc 16500 cgcctccttt agccgctaaa attcatctac tcatttattc atttgctcat ttactctggt 16560 agctgcgcga tgtattcaga tagcagctcg gtaatggtct tgccttggcg taccgcgtac 16620 atcttcagct tggtgtgatc ctccgccggc aactgaaagt tgacccgctt catggctggc 16680 gtgtctgcca ggctggccaa cgttgcagcc ttgctgctgc gtgcgctcgg acggccggca 16740 cttagcgtgt ttgtgctttt gctcattttc tctttacctc attaactcaa atgagttttg 16800 atttaatttc agcggccagc gcctggacct cgcgggcagc gtcgccctcg ggttctgatt 16860 caagaacggt tgtgccggcg gcggcagtgc ctgggtagct cacgcgctgc gtgatacggg 16920 actcaagaat gggcagctcg tacccggcca gcgcctcggc aacctcaccg ccgatgcgcg 16980 tgcctttgat cgcccgcgac acgacaaagg ccgcttgtag ccttccatcc gtgacctcaa 17040 tgcgctgctt aaccagctcc accaggtcgg cggtggccca tatgtcgtaa gggcttggct 17100 gcaccggaat cagcacgaag tcggctgcct tgatcgcgga cacagccaag tccgccgcct 17160 ggggcgctcc gtcgatcact acgaagtcgc gccggccgat ggccttcacg tcgcggtcaa 17220 tcgtcgggcg gtcgatgccg acaacggtta gcggttgatc ttcccgcacg gccgcccaat 17280 cgcgggcact gccctgggga tcggaatcga ctaacagaac atcggccccg gcgagttgca 17340 gggcgcgggc tagatgggtt gcgatggtcg tcttgcctga cccgcctttc tggttaagta 17400 cagcgataac cttcatgcgt tccccttgcg tatttgttta tttactcatc gcatcatata 17460 cgcagcgacc gcatgacgca agctgtttta ctcaaataca catcaccttt ttagacggcg 17520 gcgctcggtt tcttcagcgg ccaagctggc cggccaggcc gccagcttgg catcagacaa 17580 accggccagg atttcatgca gccgcacggt tgagacgtgc gcgggcggct cgaacacgta 17640 cccggccgcg atcatctccg cctcgatctc ttcggtaatg aaaaacggtt cgtcctggcc 17700 gtcctggtgc ggtttcatgc ttgttcctct tggcgttcat tctcggcggc cgccagggcg 17760 tcggcctcgg tcaatgcgtc ctcacggaag gcaccgcgcc gcctggcctc ggtgggcgtc 17820 acttcctcgc tgcgctcaag tgcgcggtac agggtcgagc gatgcacgcc aagcagtgca 17880 gccgcctctt tcacggtgcg gccttcctgg tcgatcagct cgcgggcgtg cgcgatctgt 17940 gccggggtga gggtagggcg ggggccaaac ttcacgcctc gggccttggc ggcctcgcgc 18000 ccgctccggg tgcggtcgat gattagggaa cgctcgaact cggcaatgcc ggcgaacacg 18060 gtcaacacca tgcggccggc cggcgtggtg gtgtcggccc acggctctgc caggctacgc 18120 aggcccgcgc cggcctcctg gatgcgctcg gcaatgtcca gtaggtcgcg ggtgctgcgg 18180 gccaggcggt ctagcctggt cactgtcaca acgtcgccag ggcgtaggtg gtcaagcatc 18240 ctggccagct ccgggcggtc gcgcctggtg ccggtgatct tctcggaaaa cagcttggtg 18300 cagccggccg cgtgcagttc ggcccgttgg ttggtcaagt cctggtcgtc ggtgctgacg 18360 cgggcatagc ccagcaggcc agcggcggcg ctcttgttca tggcgtaatg tctccggttc 18420 tagtcgcaag tattctactt tatgcgacta aaacacgcga caagaaaacg ccaggaaaag 18480 ggcagggcgg cagcctgtcg cgtaacttag gacttgtgcg acatgtcgtt ttcagaagac 18540 ggctgcactg aacgtcagaa gccgactgca ctatagcagc ggaggggttg gatcaaagta 18600 ctttgatccc gaggggaacc ctgtggttgg catgcacata caaatggacg aacggataaa 18660 ccttttcacg cccttttaaa tatccgttat tctaa 18695 <210> 13 <211> 35 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 13 atgcatcctg caggctctag aggatccccc ctcag 35 <210> 14 <211> 35 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 14 agccgggcgg ccgctttact tgtacagctc gtcca 35 <210> 15 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 15 atgaaaaagc ctgaactcac cgcgacgtct 30 <210> 16 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 16 cctcgctcca gtcaatgacc gctgttatgc 30 <210> 17 <211> 45 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 17 agtccctgca ggttaattaa cttgcgctgc gtttgtgcgg gtgcg 45 <210> 18 <211> 47 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 18 tgacggtacc actagttagt agtacccaat aagatcgacc gaagaga 47 <210> 19 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 19 ccgtaagaac caccagcgac accacgtcct 30

Claims

단자엽식물 세포(monocot cell)의 이본쇄 DNA의 표적 부위를 변형시키는 방법으로서,
소정 이본쇄 DNA 중의 표적 뉴클레오티드 서열에 특이적으로 결합하는 핵산 서열-인식 모듈 및 핵산 염기 전환 효소가 결합되어 있는 복합체를 상기 이본쇄 DNA와 접촉시켜, 표적 부위에서 상기 이본쇄 DNA 중의 적어도 하나의 쇄를 절단하지 않으면서, 표적 부위에서 하나 이상의 뉴클레오티드를 다른 하나 이상의 뉴클레오티드로 전환시키거나 하나 이상의 뉴클레오티드를 결실시키거나 하나 이상의 뉴클레오티드를 상기 표적 부위에 삽입하는 단계를 포함하고,
상기 이본쇄 DNA는, 상기 복합체를 코딩하는 핵산을 단자엽식물 세포에 도입하고, 상기 복합체를 세포내 발현시키기 위해 상기 단자엽식물 세포를 배양함으로써 상기 복합체와 접촉되는, 방법.
제1항에 있어서, 상기 배양 단계가 상기 단자엽식물 세포의 최적 배양 온도보다 낮은 온도에서 적어도 부분적으로 수행되는, 방법.
제1항 또는 제2항에 있어서, 상기 핵산 서열-인식 모듈이, Cas의 적어도 하나의 DNA 절단 능력을 불활성화시킨 CRISPR-Cas 시스템, 징크 핑거 모티프, TAL 이펙터 및 PPR 모티프로 이루어진 그룹으로부터 선택되는, 방법.
제1항 또는 제2항에 있어서, 상기 핵산 서열-인식 모듈이 Cas의 적어도 하나의 DNA 절단 능력을 불활성화시킨 CRISPR-Cas 시스템인, 방법.
제4항에 있어서, 상기 핵산 서열-인식 모듈이, 가이드 RNA와의 상보성 쇄를 형성하는 쇄의 반대측 쇄의 절단 능력을 불활성화시킨 CRISPR-Cas 시스템인, 방법.
제5항에 있어서, 상기 표적 부위의 하나 이상의 뉴클레오티드가 결실되는, 방법.
제1항 내지 제6항 중의 어느 한 항에 있어서, 상기 핵산 염기 전환 효소가 데아미나제인, 방법.
제7항에 있어서, 상기 데아미나제가 시티딘 데아미나제인, 방법.
제8항에 있어서, 상기 시티딘 데아미나제가 페트로마이존 마리누스로부터 유래하는 PmCDA1인, 방법.
제1항 내지 제9항 중의 어느 한 항에 있어서, 상기 핵산 서열-인식 모듈 및 상기 핵산 염기 전환 효소를 코딩하는 핵산 서열이 피자식물 및 단자엽식물의 코돈의 사용을 위해 최적화되는, 방법.
제1항 내지 제10항 중의 어느 한 항에 있어서, 핵 국재화 신호가 상기 핵산 서열-인식 모듈 및 핵산 염기 전환 효소의 양 말단에 부가되는, 방법.
제1항 내지 제11항 중의 어느 한 항에 있어서, 상기 단자엽식물이 벼, 밀 또는 옥수수인, 방법.
제12항에 있어서, 상기 단자엽식물이 벼인, 방법.
핵산-변형 효소 복합체로서,
단자엽식물 세포의 이본쇄 DNA 중의 표적 뉴클레오티드 서열에 특이적으로 결합하는 핵산 서열-인식 모듈 및 핵산 염기 전환 효소가 결합되어 있고, 이는, 표적 부위에서 상기 이본쇄 DNA 중의 적어도 하나의 쇄를 절단하지 않으면서, 단자엽식물 세포에서 작용하고 표적 부위 중의 하나 이상의 뉴클레오티드를 다른 하나 이상의 뉴클레오티드로 전환시키거나 하나 이상의 뉴클레오티드를 결실시키거나 하나 이상의 뉴클레오티드를 상기 표적 부위에 삽입하는, 핵산-변형 효소 복합체.
제14항에 있어서, 상기 핵산 서열-인식 모듈이, Cas의 적어도 하나의 DNA 절단 능력을 불활성화시킨 CRISPR-Cas 시스템이고, 상기 핵산 전환 효소가 시티딘 데아미나제인, 핵산-변형 효소 복합체.
제14항 또는 제15항에 있어서, 핵 국재화 신호가 상기 핵산 서열-인식 모듈 및 핵산 염기 전환 효소의 양 말단에 부가되는, 핵산-변형 효소 복합체.
제14항 내지 제16항 중의 어느 한 항에 따르는 핵산 변형 효소 복합체를 코딩하는 핵산.
제17항에 있어서, 상기 핵산 서열-인식 모듈 및 상기 핵산 염기 전환 효소를 코딩하는 핵산 서열이 피자식물 또는 단자엽식물의 코돈의 사용을 위해 최적화되는, 핵산.