KR20150105633A

KR20150105633A - 서열 조작을 위한 시스템, 방법 및 최적화된 가이드 조성물의 조작

Info

Publication number: KR20150105633A
Application number: KR1020157018614A
Authority: KR
Inventors: 펑 장; 레 콩; 패트릭 수; 페이 란
Original assignee: 더 브로드 인스티튜트, 인코퍼레이티드; 프레지던트 앤드 펠로우즈 오브 하바드 칼리지; 매사추세츠 인스티튜트 오브 테크놀로지
Priority date: 2012-12-12
Filing date: 2013-12-12
Publication date: 2015-09-17
Also published as: JP2016129516A; IL239344B2; RU2015128098A3; AU2022203762A1; IL239344A0; ES2598115T3; PL2771468T3; EP4279588A3; JP2019103510A; IL239344B1; JP7198328B2; HK1209153A1; PT2921557T; JP2018099131A; AU2016244241C1; HK1209154A1; JP6726225B2; ES2542015T3; JP2019103511A; DK2771468T3

Abstract

본 발명은 표적 서열의 서열 및/또는 활성의 조작을 위한 시스템, 방법 및 조성물을 제공한다. 일부가 CRISPR 복합체의 하나 이상의 성분을 인코딩하는 벡터 및 벡터 시스템, 및 이러한 벡터의 설계 및 사용 방법이 제공된다. 또한, 진핵 세포에서 CRISPR 복합체 형성의 유도 방법 및 CRISPR-Cas 시스템을 사용하여 정밀한 돌연변이를 도입함에 의한 특정 세포의 선택 방법이 제공된다.

Description

서열 조작을 위한 시스템, 방법 및 최적화된 가이드 조성물의 조작{ENGINEERING OF SYSTEMS, METHODS AND OPTIMIZED GUIDE COMPOSITIONS FOR SEQUENCE MANIPULATION}

관련 출원 및 참조에 의한 포함

본 출원은 2013년 6월 17일에 출원되고, 명칭이 "ENGINEERING OF SYSTEMS, METHODS AND OPTIMIZED COMPOSITIONS FOR SEQUENCE MANIPULATION"인 미국 가출원 제61/836,127호에 대한 우선권을 주장한다. 또한, 본 출원은 각각 2013년 1월 30일; 2013년 2월 25일; 2013년 3월 15일; 2013년 3월 28일; 2013년 4월 20일; 2013년 5월 6일; 및 2013년 5월 28일에 출원되고, 각각의 명칭이 "ENGINEERING AND OPTIMIZATION OF SYSTEMS, METHODS AND COMPOSITIONS FOR SEQUENCE MANIPULATION"인 미국 가출원 제61/758,468호; 제61/769,046호; 제61/802,174호; 제61/806,375호; 제61/814,263호; 제61/819,803호 및 제61/828,130호에 대한 우선권을 주장한다. 또한, 각각 2012년 12월 12일 및 2013년 1월 2일에 출원되고, 둘 모두 명칭이 "SYSTEMS METHODS AND COMPOSITIONS FOR SEQUENCE MANIPULATION"인 미국 가출원 제61/736,527호 및 제61/748,427호에 대한 우선권을 주장한다. 또한, 각각 2013년 3월 15일 및 2013년 6월 17일에 출원되고, 둘 모두 명칭이 BI-2011/008/44790.02.2003 및 BI-2011/008/44790.03.2003인 미국 가출원 제61/791,409호 및 제61/835,931호에 대한 우선권을 주장한다.

또한, 각각 2013년 6월 17일에 출원된 미국 가출원 제61/835,936호, 제61/836,101호, 제61/836,080호, 제61/836,123호 및 제61/835,973호를 참조한다.

전술한 출원, 및 상기 출원에 또는 상기 출원의 절차 중에 인용된 모든 문헌("출원 인용 문헌") 및 상기 출원 인용 문헌에 인용되거나 참고된 모든 문헌, 및 본원에서 인용되거나 참고된 모든 문헌("본원 인용 문헌") 및 본원 인용 문헌에 인용되거나 참고된 모든 문헌은, 본원에 언급되거나 본원에 참고로 포함된 임의의 문헌에 언급된 임의의 제품에 대한 임의의 제조사의 지침서, 설명서, 제품 명세서 및 제품 시트(sheet)와 함께, 본원에 참고로 포함되어 있으며, 그리고 본 발명의 실시에 사용될 수 있다. 더욱 구체적으로, 모든 참조된 문헌은 마치 각각의 개별 문헌을 참고로 포함하는 것으로 특정적으로 그리고 개별적으로 나타내는 것과 동일한 정도로 참고로 포함된다.

기술 분야

본 발명은 일반적으로 클러스터링되고 규칙적으로 산재된 짧은 팔린드로믹 반복부(Clustered Regularly Interspaced Short Palindromic Repeats; CRISPR) 및 그의 성분과 관련된 벡터 시스템을 사용할 수 있는 게놈 변동(genomic perturbation) 또는 유전자-교정(gene-editing)과 같이 서열 표적화를 수반하는 유전자 발현의 제어를 위해 사용되는 시스템, 방법 및 조성물에 관한 것이다.

연방 정부가 후원하는 연구에 대한 성명

본 발명은 미국 국립 보건원(National Institutes of Health)에 의해 지급된 정부 지원, NIH 파이오니어 어워드(Pioneer Award) DP1MH100706으로 수행되었다. 정부는 본 발명에 소정의 권리를 갖는다.

게놈 시퀀싱(sequencing) 기술 및 분석 방법의 최근의 진전에 의해, 다양한 생물학적 기능 및 질병(disease)과 관련된 유전적 요인을 분류하고 발견하는 능력이 상당히 가속화되었다. 개별 유전 요소의 선택적 변동을 가능하게 함으로써 원인이 되는 유전 변이의 체계적인 역의 조작을 가능하게 할 뿐 아니라, 합성 생물학, 생명공학 및 의학 응용을 진전시키기 위하여, 정밀한 게놈 표적화 기술이 필요하다. 게놈-교정 기술, 예를 들어, 디자이너 징크 핑거, 전사 활성화제-유사 이펙터(effector)(TALE) 또는 귀소 메가뉴클레아제(homing meganuclease)가 표적화된 게놈 변동을 생성하는데 이용가능하지만, 가격이 알맞고, 설립하기 용이하며, 확대가능하고, 진핵 게놈 내의 다수의 위치를 표적화하는데 부합되는 새로운 게놈 조작 기술이 필요하다.

발명의 요약

다수의 응용에서 대안의 강력한 서열 표적화 시스템 및 기술이 긴급하게 필요하다. 본 발명은 이러한 요구를 다루며, 관련 이점을 제공한다. CRISPR/Cas 또는 CRISPR-Cas 시스템(두 용어 모두는 본 출원에서 상호교환가능하게 사용된다)은 특정 서열을 표적화하기 위해 맞춤형 단백질의 생성을 필요로 하지 않고, 오히려, 단일의 Cas 효소가 짧은 RNA 분자에 의해 프로그램화되어, 특정 DNA 표적을 인식할 수 있으며, 다시 말하면, Cas 효소는 상기 짧은 RNA 분자를 사용하여 특정 DNA 표적에 동원될 수 있다. 게놈 시퀀싱(sequencing) 기술 및 분석 방법의 레퍼토리에 CRISPR-Cas 시스템을 부가하면, 방법을 상당히 단순화시킬 수 있으며, 다양한 생물학적 기능 및 질병과 관련된 유전적 요인을 분류하고 발견하는 능력을 가속화시킬 수 있다. 유해 영향 없이 게놈 교정을 위해 효율적으로 CRISPR-Cas 시스템을 사용하기 위하여, 조작의 양태, 및 청구된 발명의 양태인 이들 게놈 조작 도구의 최적화를 이해하는 것이 중요하다.

일 양태에서, 본 발명은 하나 이상의 벡터를 포함하는 벡터 시스템을 제공한다. 일부 구현예에서, 시스템은 (a) tracr 메이트(mate) 서열, 및 tracr 메이트 서열의 상류에 하나 이상의 가이드 서열을 삽입하기 위한 하나 이상의 삽입 부위에 작동가능하게 연결된 제1 조절 요소로서, 상기 가이드 서열은 발현되는 경우, 세포, 예를 들어, 진핵 세포 내의 표적 서열로의 CRISPR 복합체의 서열-특이적 결합을 유도하고, 상기 CRISPR 복합체는 (1) 상기 표적 서열에 혼성화되는 가이드 서열, 및 (2) 상기 tracr 서열에 혼성화되는 tracr 메이트 서열과 복합체화된 CRISPR 효소를 포함하는 제1 조절 요소; 및 (b) 핵 국소화 서열을 포함하는 상기 CRISPR 효소를 인코딩하는 효소-코딩 서열에 작동가능하게 연결된 제2 조절 요소를 포함하며; 성분 (a) 및 (b)는 상기 시스템의 동일한 또는 상이한 벡터에 위치한다. 일부 구현예에서, 성분 (a)는 제1 조절 요소의 제어 하에 tracr 메이트 서열의 하류의 tracr 서열을 더 포함한다. 일부 구현예에서, 성분 (a)는 제1 조절 요소에 작동가능하게 연결된 2개 이상의 가이드 서열을 더 포함하며, 2개 이상의 가이드 서열의 각각은 발현되는 경우, 진핵 세포 내의 상이한 표적 서열로의 CRISPR 복합체의 서열 특이적 결합을 지시한다. 일부 구현예에서, 상기 시스템은 제3 조절 요소, 예를 들어, 중합효소 III 프로모터의 제어 하에 tracr 서열을 포함한다. 일부 구현예에서, tracr 서열은 최적으로 정렬되는 경우, tracr 메이트 서열의 길이를 따라 적어도 50%, 60%, 70%, 80%, 90%, 95% 또는 99%의 서열 상보성을 나타낸다. 일부 구현예에서, CRISPR 복합체는 진핵 세포의 핵에서 검출가능한 양으로 상기 CRISPR 복합체의 축적을 유도하기에 충분한 세기의 하나 이상의 핵 국소화 서열을 포함한다. 이론에 구속되지 않으면서, 핵 국소화 서열은 진핵생물에서 CRISPR 복합체 활성에 필요하지 않지만, 이러한 서열을 포함하여, 시스템의 활성을 증진시켜, 특히 핵 내의 핵산 분자를 표적화하는 것으로 여겨진다. 일부 구현예에서, CRISPR 효소는 II형 CRISPR 시스템 효소이다. 일부 구현예에서, CRISPR 효소는 Cas9 효소이다. 일부 구현예에서, Cas9 효소는 사카로마이세스 뉴모니애(S. pneumoniae), 스트렙토코커스 피오게네스(S. pyogenes) 또는 스트렙토코커스 써모필러스(S. thermophilus) Cas9이며, 이들 유기체로부터 유래된 돌연변이된 Cas9를 포함할 수 있다. 효소는 Cas9 상동체 또는 오솔로그(ortholog)일 수 있다. 일부 구현예에서, CRISPR 효소는 진핵 세포에서의 발현을 위해 코돈-최적화된다. 일부 구현예에서, CRISPR 효소는 표적 서열의 위치에서 1개 또는 2개 가닥의 절단을 유도한다. 일부 구현예에서, CRISPR 효소에는 DNA 가닥 절단 활성이 결여된다. 일부 구현예에서, 제1 조절 요소는 중합효소 III 프로모터이다. 일부 구현예에서, 제2 조절 요소는 중합효소 II 프로모터이다. 일부 구현예에서, 가이드 서열은 적어도 15, 16, 17, 18, 19, 20, 25개 뉴클레오티드 또는 10 내지 30개 또는 15 내지 25개 또는 15 내지 20개 뉴클레오티드 길이이다. 일반적으로, 그리고 본원에서, 용어 "벡터"는 그것이 연결된 다른 핵산을 수송할 수 있는 핵산 분자를 지칭한다. 벡터는 단일-가닥, 이중-가닥 또는 부분 이중-가닥인 핵산 분자; 하나 이상의 자유 말단을 포함하거나, 자유 말단을 포함하지 않는(예를 들어, 환형) 핵산 분자; DNA, RNA 또는 둘 모두를 포함하는 핵산 분자; 및 당업계에 공지되어 있는 다른 종류의 폴리뉴클레오티드를 포함하나 이들에 한정되지 않는다. 하나의 유형의 벡터는 "플라스미드"이며, 이는 추가의 DNA 세그먼트가 예를 들어, 표준 분자 클로닝 기술에 의해 삽입될 수 있는 환형 이중 가닥 DNA 루프를 지칭한다. 다른 유형의 벡터는 바이러스 벡터이며, 여기서, 바이러스-유래 DNA 또는 RNA 서열은 바이러스(예를 들어, 레트로바이러스, 복제 결함 레트로바이러스, 아데노바이러스, 복제 결함 아데노바이러스 및 아데노-관련 바이러스)로의 패키징을 위한 벡터에 존재한다. 또한, 바이러스 벡터는 숙주 세포로의 트랜스펙션(transfection)을 위해 바이러스가 지니는 폴리뉴클레오티드도 포함한다. 특정 벡터(예를 들어, 박테리아 복제 원점을 갖는 박테리아 벡터 및 에피솜 포유동물 벡터)는 그들이 도입되는 숙주 세포에서 자가 복제할 수 있다. 기타 벡터(예를 들어, 비-에피솜 포유동물 벡터)는 숙주 세포로의 도입시에 숙주 세포의 게놈으로 통합되며, 이에 의해, 숙주 게놈과 함께 복제된다. 게다가, 특정 벡터는 그들이 작동가능하게 연결된 유전자의 발현을 유도할 수 있다. 이러한 벡터는 본원에서 "발현 벡터"로 지칭된다. 재조합 DNA 기술에 유용한 통상적인 발현 벡터는 종종 플라스미드의 형태로 존재한다.

재조합 발현 벡터는 숙주 세포에서의 핵산의 발현에 적절한 형태의 본 발명의 핵산을 포함할 수 있으며, 이는 재조합 발현 벡터가, 발현을 위해 사용될 숙주 세포에 기초하여 선택될 수 있는, 발현될 핵산 서열에 작동가능하게 연결된 하나 이상의 조절 요소를 포함하는 것을 의미한다. 재조합 발현 벡터 내에서, "작동가능하게 연결된"은 대상 뉴클레오티드 서열이 (예를 들어, 시험관내 전사/번역 시스템 내에서, 또는 벡터가 숙주 세포 내로 도입되는 경우 숙주 세포 내에서) 뉴클레오티드 서열의 발현을 가능하게 하는 방식으로 조절 요소(들)에 연결된 것을 의미하는 의도이다.

용어 "조절 요소"는 프로모터, 인핸서, 내부 리보솜 진입 부위(internal ribosomal entry site; IRES) 및 기타 발현 제어 요소(예를 들어, 전사 종결 신호, 예를 들어, 폴리아데닐화 신호 및 폴리-U 서열)를 포함하는 의도이다. 이러한 조절 요소는 예를 들어, 문헌[Goeddel, GENE EXPRESSION TECHNOLOGY: METHODS IN ENZYMOLOGY 185, Academic Press, San Diego, Calif. (1990)]에 기술되어 있다. 조절 요소는 많은 유형의 숙주 세포에서 뉴클레오티드 서열의 구성적 발현을 유도하는 조절 요소 및 특정 숙주 세포에서만 뉴클레오티드 서열의 발현을 유도하는 조절 요소(예를 들어, 조직-특이적 조절 서열)를 포함한다. 조직-특이적 프로모터는 요망되는 대상 조직, 예를 들어, 근육, 뉴런, 뼈, 피부, 혈액, 특정 기관(예를 들어, 간, 췌장) 또는 특정 세포 유형(예를 들어, 림프구)에서 주로 발현을 유도할 수 있다. 또한, 조절 요소는 시간-의존적 방식으로, 예를 들어, 세포-주기 의존적 또는 발생 단계-의존적 방식으로 발현을 유도할 수 있으며, 이는 조직 또는 세포-유형에 특이적이거나 그렇지 않을 수 있다. 일부 구현예에서, 벡터는 하나 이상의 pol III 프로모터(예를 들어, 1, 2, 3, 4, 5개 또는 그 이상의 pol III 프로모터), 하나 이상의 pol II 프로모터(예를 들어, 1, 2, 3, 4, 5개 또는 그 이상의 pol II 프로모터), 하나 이상의 pol I 프로모터(예를 들어, 1, 2, 3, 4, 5개 또는 그 이상의 pol I 프로모터) 또는 그들의 조합을 포함한다. pol III 프로모터의 예에는 U6 및 H1 프로모터가 포함되나 이들에 한정되지 않는다. pol II 프로모터의 예에는 레트로바이러스 라우스 육종 바이러스(RSV) LTR 프로모터(선택적으로 RSV 인핸서가 존재), 사이토메갈로바이러스(CMV) 프로모터(선택적으로 CMV 인핸서가 존재)[예를 들어, 문헌(Boshart et al, Cell, 41:521-530 (1985)) 참조], SV40 프로모터, 디하이드로폴레이트 환원효소 프로모터, β-액틴 프로모터, 포스포글리세롤 키나제(PGK) 프로모터 및 EF1α 프로모터가 포함되나 이들에 한정되지 않는다. 또한, 용어 "조절 요소"에는 인핸서 요소, 예를 들어, WPRE; CMV 인핸서; HTLV-I의 LTR 내의 R-U5' 세그먼트(문헌[Mol. Cell. Biol., Vol. 8(1), p. 466-472, 1988]); SV40 인핸서; 및 토끼 β-글로빈의 엑손 2와 3 사이의 인트론 서열(문헌[Proc. Natl. Acad. Sci. USA., Vol. 78(3), p. 1527-31, 1981])이 포함된다. 발현 벡터의 설계가 형질전환될 숙주 세포의 선택, 요망되는 발현 수준 등과 같은 인자에 따라 달라질 수 있음이 당업자에 의해 인식될 것이다. 벡터를 숙주 세포로 도입하여, 전사물, 본원에 기술된 바와 같은 핵산에 의해 인코딩된 융합 단백질 또는 펩티드를 포함하는 단백질 또는 펩티드(예를 들어, 클러스터링되고 규칙적으로 산재된 짧은 팔린드로믹 반복부(CRISPR) 전사물, 단백질, 효소, 그의 돌연변이체 형태, 그의 융합 단백질 등)를 생성할 수 있다.

유리한 벡터는 렌티바이러스 및 아데노-관련 바이러스를 포함하며, 또한, 이러한 벡터의 유형은 특정 세포 유형을 표적화하기 위해 선택될 수 있다.

일 양태에서, 본 발명은 하나 이상의 핵 국소화 서열을 포함하는, CRISPR 효소를 인코딩하는 효소-코딩 서열에 작동가능하게 연결된 조절 요소를 포함하는 벡터를 제공한다. 일부 구현예에서, 상기 조절 요소는 상기 CRISPR 효소가 진핵 세포의 핵에서 검출가능한 양으로 축적되도록 진핵 세포에서 CRISPR 효소의 전사를 유도한다. 일부 구현예에서, 조절 요소는 중합효소 II 프로모터이다. 일부 구현예에서, CRISPR 효소는 II형 CRISPR 시스템 효소이다. 일부 구현예에서, CRISPR 효소는 Cas9 효소이다. 일부 구현예에서, Cas9 효소는 스트렙토코커스 뉴모니애, 스트렙토코커스 피오게네스 또는 스트렙토코커스 써모필러스 Cas9이며, 이들 유기체로부터 유래된 돌연변이된 Cas9를 포함할 수 있다. 일부 구현예에서, CRISPR 효소는 진핵 세포에서의 발현을 위해 코돈-최적화된다. 일부 구현예에서, CRISPR 효소는 표적 서열의 위치에서 1개 또는 2개의 가닥의 절단을 유도한다. 일부 구현예에서, CRISPR 효소는 DNA 가닥 절단 활성이 결여된다.

일 양태에서, 본 발명은 진핵 세포의 핵에서 검출가능한 양의 상기 CRISPR 효소의 축적을 유도하기에 충분한 세기의 하나 이상의 핵 국소화 서열을 포함하는 CRISPR 효소를 제공한다. 일부 구현예에서, CRISPR 효소는 II형 CRISPR 시스템 효소이다. 일부 구현예에서, CRISPR 효소는 Cas9 효소이다. 일부 구현예에서, Cas9 효소는 스트렙토코커스 뉴모니애, 스트렙토코커스 피오게네스 또는 스트렙토코커스 써모필러스 Cas9이며, 이들 유기체로부터 유래된 돌연변이된 Cas9를 포함할 수 있다. 효소는 Cas9 상동체 또는 오솔로그일 수 있다. 일부 구현예에서, CRISPR 효소는 그것이 결합하는 표적 서열의 1개 이상의 가닥을 절단하는 능력이 결여된다.

일 양태에서, 본 발명은 (a) tracr 메이트 서열, 및 tracr 메이트 서열의 상류에 하나 이상의 가이드 서열을 삽입하기 위한 하나 이상의 삽입 부위에 작동가능하게 연결된 제1 조절 요소로서, 상기 가이드 서열은 발현되는 경우, 진핵 세포 내의 표적 서열로의 CRISPR 복합체의 서열-특이적 결합을 유도하고, 상기 CRISPR 복합체는 (1) 상기 표적 서열에 혼성화되는 가이드 서열, 및 (2) 상기 tracr 서열에 혼성화되는 tracr 메이트 서열과 복합체화된 CRISPR 효소를 포함하는 제1 조절 요소; 및/또는 (b) 핵 국소화 서열을 포함하는 상기 CRISPR 효소를 인코딩하는 효소-코딩 서열에 작동가능하게 연결된 제2 조절 요소를 포함하는 진핵 숙주 세포를 제공한다. 일부 구현예에서, 숙주 세포는 성분 (a) 및 (b)를 포함한다. 일부 구현예에서, 성분 (a), 성분 (b) 또는 성분 (a) 및 (b)는 숙주 진핵 세포의 게놈 내로 안정적으로 통합된다. 일부 구현예에서, 성분 (a)는 제1 조절 요소의 제어 하에 tracr 메이트 서열의 하류의 tracr 서열을 더 포함한다. 일부 구현예에서, 성분 (a)는 제1 조절 요소에 작동가능하게 연결된 2개 이상의 가이드 서열을 더 포함하며, 2개 이상의 가이드 서열의 각각은 발현되는 경우, 진핵 세포 내의 상이한 표적 서열로의 CRISPR 복합체의 서열 특이적 결합을 유도한다. 일부 구현예에서, 진핵 숙주 세포는 상기 tracr 서열에 작동가능하게 연결된 제3 조절 요소, 예를 들어, 중합효소 III 프로모터를 더 포함한다. 일부 구현예에서, tracr 서열은 최적으로 정렬되는 경우 tracr 메이트 서열의 길이를 따라 적어도 50%, 60%, 70%, 80%, 90%, 95% 또는 99%의 서열 상보성을 나타낸다. 일부 구현예에서, CRISPR 효소는 진핵 세포의 핵에서 검출가능한 양의 상기 CRISPR 효소의 축적을 유도하기에 충분한 세기의 하나 이상의 핵 국소화 서열을 하나 이상 포함한다. 일부 구현예에서, CRISPR 효소는 II형 CRISPR 시스템 효소이다. 일부 구현예에서, CRISPR 효소는 Cas9 효소이다. 일부 구현예에서, Cas9 효소는 스트렙토코커스 뉴모니애, 스트렙토코커스 피오게네스 또는 스트렙토코커스 써모필러스 Cas9이며, 이들 유기체로부터 유래된 돌연변이된 Cas9를 포함할 수 있다. 효소는 Cas9 상동체 또는 오솔로그일 수 있다. 일부 구현예에서, CRISPR 효소는 진핵 세포에서의 발현을 위해 코돈-최적화된다. 일부 구현예에서, CRISPR 효소는 표적 서열의 위치에서 1개 또는 2개의 가닥의 절단을 유도한다. 일부 구현예에서, CRISPR 효소는 DNA 가닥 절단 활성이 결여된다. 일부 구현예에서, 제1 조절 요소는 중합효소 III 프로모터이다. 일부 구현예에서, 제2 조절 요소는 중합효소 II 프로모터이다. 일부 구현예에서, 가이드 서열은 적어도 15, 16, 17, 18, 19, 20, 25개 뉴클레오티드 또는 10 내지 30개 또는 15 내지 25개 또는 15 내지 20개 뉴클레오티드 길이이다. 일 양태에서, 본 발명은 기술된 구현예 중 임의의 것에 따른 진핵 숙주 세포를 포함하는 비-인간 진핵 유기체; 바람직하게는 다세포 진핵 유기체를 제공한다. 다른 양태에서, 본 발명은 기술된 구현예 중 임의의 것에 따른 진핵 숙주 세포를 포함하는 진핵 유기체; 바람직하게는 다세포 진핵 유기체를 제공한다. 이들 양태의 일부 구현예에서 유기체는 동물; 예를 들어, 포유동물일 수 있다. 또한, 유기체는 절지동물, 예를 들어, 곤충일 수 있다. 또한, 유기체는 식물일 수도 있다. 추가로, 유기체는 진균일 수 있다.

일 양태에서, 본 발명은 본원에 기술된 성분 중 하나 이상을 포함하는 키트를 제공한다. 일부 구현예에서, 키트는 벡터 시스템 및 키트 사용 지침서를 포함한다. 일부 구현예에서, 벡터 시스템은 (a) tracr 메이트 서열, 및 tracr 메이트 서열의 상류에 하나 이상의 가이드 서열을 삽입하기 위한 하나 이상의 삽입 부위에 작동가능하게 연결된 제1 조절 요소로서, 상기 가이드 서열은 발현되는 경우, 진핵 세포 내의 표적 서열로의 CRISPR 복합체의 서열-특이적 결합을 유도하고, 상기 CRISPR 복합체는 (1) 상기 표적 서열에 혼성화되는 가이드 서열, 및 (2) 상기 tracr 서열에 혼성화되는 tracr 메이트 서열과 복합체화된 CRISPR 효소를 포함하는 제1 조절 요소; 및/또는 (b) 핵 국소화 서열을 포함하는 상기 CRISPR 효소를 인코딩하는 효소-코딩 서열에 작동가능하게 연결된 제2 조절 요소를 포함한다. 일부 구현예에서, 키트는 시스템의 동일한 또는 상이한 벡터에 위치한 성분 (a) 및 (b)를 포함한다. 일부 구현예에서, 성분 (a)는 제1 조절 요소의 제어 하에 tracr 메이트 서열의 하류의 tracr 서열을 더 포함한다. 일부 구현예에서, 성분 (a)는 제1 조절 요소에 작동가능하게 연결된 2개 이상의 가이드 서열을 더 포함하며, 2개 이상의 가이드 서열의 각각은 발현되는 경우, 진핵 세포 내의 상이한 표적 서열로의 CRISPR 복합체의 서열 특이적 결합을 유도한다. 일부 구현예에서, 시스템은 상기 tracr 서열에 작동가능하게 연결된 제3 조절 요소, 예를 들어, 중합효소 III 프로모터를 더 포함한다. 일부 구현예에서, tracr 서열은 최적으로 정렬되는 경우 tracr 메이트 서열의 길이를 따라 적어도 50%, 60%, 70%, 80%, 90%, 95% 또는 99%의 서열 상보성을 나타낸다. 일부 구현예에서, CRISPR 효소는 진핵 세포의 핵에서 검출가능한 양의 상기 CRISPR 효소의 축적을 유도하기에 충분한 세기의 하나 이상의 핵 국소화 서열을 포함한다. 일부 구현예에서, CRISPR 효소는 II형 CRISPR 시스템 효소이다. 일부 구현예에서, CRISPR 효소는 Cas9 효소이다. 일부 구현예에서, Cas9 효소는 스트렙토코커스 뉴모니애, 스트렙토코커스 피오게네스 또는 스트렙토코커스 써모필러스 Cas9이며, 이들 유기체로부터 유래된 돌연변이된 Cas9를 포함할 수 있다. 효소는 Cas9 상동체 또는 오솔로그일 수 있다. 일부 구현예에서, CRISPR 효소는 진핵 세포에서의 발현을 위해 코돈-최적화된다. 일부 구현예에서, CRISPR 효소는 표적 서열의 위치에서 1개 또는 2개의 가닥의 절단을 유도한다. 일부 구현예에서, CRISPR 효소는 DNA 가닥 절단 활성이 결여된다. 일부 구현예에서, 제1 조절 요소는 중합효소 III 프로모터이다. 일부 구현예에서, 제2 조절 요소는 중합효소 II 프로모터이다. 일부 구현예에서, 가이드 서열은 적어도 15, 16, 17, 18, 19, 20, 25개 뉴클레오티드 또는 10 내지 30개 또는 15 내지 25개 또는 15 내지 20개 뉴클레오티드 길이이다.

일 양태에서, 본 발명은 진핵 세포에서의 표적 폴리뉴클레오티드의 변경 방법을 제공한다. 일부 구현예에서, 상기 방법은 CRISPR 복합체가 표적 폴리뉴클레오티드에 결합하게 하여, 상기 표적 폴리뉴클레오티드의 절단을 초래하여, 표적 폴리뉴클레오티드를 변경시키는 단계를 포함하며, 여기서, CRISPR 복합체는 상기 표적 폴리뉴클레오티드 내의 표적 서열에 혼성화되는 가이드 서열과 복합체화된 CRISPR 효소를 포함하며, 상기 가이드 서열은 tracr 메이트 서열에 연결되며, tracr 메이트 서열은 차례로 tracr 서열에 혼성화된다. 일부 구현예에서, 상기 절단은 상기 CRISPR 효소에 의한, 표적 서열의 위치에서의 1개 또는 2개의 가닥의 절단을 포함한다. 일부 구현예에서, 상기 절단은 감소된 표적 유전자의 전사를 야기한다. 일부 구현예에서, 상기 방법은 외인성 주형 폴리뉴클레오티드와의 상동성 재조합에 의해 상기 절단된 표적 폴리뉴클레오티드를 수복하는 단계를 더 포함하며, 상기 수복은 상기 표적 폴리뉴클레오티드의 하나 이상의 뉴클레오티드의 삽입, 결실 또는 치환을 포함하는 돌연변이를 야기한다. 일부 구현예에서, 상기 돌연변이는 표적 서열을 포함하는 유전자로부터 발현되는 단백질의 하나 이상의 아미노산 변화를 야기한다. 일부 구현예에서, 상기 방법은 하나 이상의 벡터를 상기 진핵 세포로 전달하는 단계를 더 포함하며, 하나 이상의 벡터는 CRISPR 효소, tracr 메이트 서열에 연결된 가이드 서열 및 tracr 서열 중 하나 이상의 발현을 유도한다. 일부 구현예에서, 상기 벡터는 대상체 내의 진핵 세포로 전달된다. 일부 구현예에서, 상기 변경은 세포 배양물 중의 상기 진핵 세포에서 발생한다. 일부 구현예에서, 상기 방법은 상기 변경 전에 상기 진핵 세포를 대상체로부터 분리하는 단계를 더 포함한다. 일부 구현예에서, 상기 방법은 상기 진핵 세포 및/또는 그로부터 유래된 세포를 상기 대상체로 복귀시키는 단계를 더 포함한다.

일 양태에서, 본 발명은 진핵 세포에서의 폴리뉴클레오티드의 발현의 변경 방법을 제공한다. 일부 구현예에서, 상기 방법은 CRISPR 복합체가 폴리뉴클레오티드에 결합하게 하여, 상기 결합이 상기 폴리뉴클레오티드의 증가되거나 감소된 발현을 야기하도록 하는 단계를 포함하며; 여기서, CRISPR 복합체는 상기 폴리뉴클레오티드 내의 표적 서열에 혼성화되는 가이드 서열과 복합체화된 CRISPR 효소를 포함하고, 상기 가이드 서열은 tracr 메이트 서열에 연결되고, tracr 메이트 서열은 차례로 tracr 서열로 혼성화된다. 일부 구현예에서, 상기 방법은 하나 이상의 벡터를 상기 진핵 세포로 전달하는 단계를 더 포함하며, 여기서, 하나 이상의 벡터는 CRISPR 효소, tracr 메이트 서열에 연결된 가이드 서열 및 tracr 서열 중 하나 이상의 발현을 유도한다.

일 양태에서, 본 발명은 돌연변이된 질병 유전자를 포함하는 모델 진핵 세포의 생성 방법을 제공한다. 일부 구현예에서, 질병 유전자는 질병을 갖거나 질병이 발생할 위험의 증가와 관련된 임의의 유전자이다. 일부 구현예에서, 상기 방법은 (a) 하나 이상의 벡터를 진핵 세포로 도입하는 단계로서, 하나 이상의 벡터는 CRISPR 효소, tracr 메이트 서열에 연결된 가이드 서열 및 tracr 서열 중 하나 이상의 발현을 유도하는 단계; 및 (b) CRISPR 복합체가 표적 폴리뉴클레오티드에 결합하게 하여, 상기 질병 유전자 내의 표적 폴리뉴클레오티드의 절단을 야기하여, 돌연변이된 질병 유전자를 포함하는 모델 진핵 세포를 생성하는 단계로서, CRISPR 복합체가 (1) 표적 폴리뉴클레오티드 내의 표적 서열에 혼성화되는 가이드 서열, 및 (2) tracr 서열에 혼성화되는 tracr 메이트 서열과 복합체화되는 CRISPR 효소를 포함하는 단계를 포함한다. 일부 구현예에서, 상기 절단은 상기 CRISPR 효소에 의한, 표적 서열의 위치에서의 1개 또는 2개의 가닥의 절단을 포함한다. 일부 구현예에서, 상기 절단은 표적 유전자의 감소된 전사를 야기한다. 일부 구현예에서, 상기 방법은 외인성 주형 폴리뉴클레오티드와의 상동성 재조합에 의해 상기 절단된 표적 폴리뉴클레오티드를 수복하는 단계를 더 포함하며, 상기 수복은 상기 표적 폴리뉴클레오티드의 하나 이상의 뉴클레오티드의 삽입, 결실 또는 치환을 포함하는 돌연변이를 야기한다. 일부 구현예에서, 상기 돌연변이는 표적 서열을 포함하는 유전자로부터의 단백질 발현의 하나 이상의 아미노산 변화를 야기한다.

일 양태에서, 본 발명은 질병 유전자와 관련된 세포 신호전달 사건을 조절하는 생물학적 활성 작용제의 개발 방법을 제공한다. 일부 구현예에서, 질병 유전자는 질병을 갖거나 질병이 발생할 위험의 증가와 관련된 임의의 유전자이다. 일부 구현예에서, 상기 방법은 (a) 시험 화합물을 기술된 구현예 중 임의의 것의 모델 세포와 접촉시키는 단계; 및 (b) 상기 질병 유전자의 상기 돌연변이와 관련된 세포 신호전달 사건의 감소 또는 증가를 나타내는 판독치의 변화를 검출하여, 상기 질병 유전자와 관련된 상기 세포 신호전달 사건을 조절하는 상기 생물학적 활성 작용제를 개발하는 단계를 포함한다.

일 양태에서, 본 발명은 tracr 메이트 서열의 상류에 가이드 서열을 포함하는 재조합 폴리뉴클레오티드를 제공하며, 가이드 서열은 발현되는 경우, 진핵 세포에 존재하는 상응하는 표적 서열로의 CRISPR 복합체의 서열-특이적 결합을 유도한다. 일부 구현예에서, 표적 서열은 진핵 세포에 존재하는 바이러스 서열이다. 일부 구현예에서, 표적 서열은 원암유전자(proto-oncogene) 또는 암유전자이다.

일 양태에서, 본 발명은 하나 이상의 돌연변이를 하나 이상의 원핵 세포(들) 내의 유전자에 도입함에 의한 하나 이상의 원핵 세포(들)의 선택 방법을 제공하며, 상기 방법은 하나 이상의 벡터를 원핵 세포(들)로 도입하는 단계로서, 하나 이상의 벡터가 CRISPR 효소, tracr 메이트 서열에 연결된 가이드 서열, tracr 서열 및 교정 주형 중 하나 이상의 발현을 유도하고; 교정 주형이 CRISPR 효소 절단을 없애는 하나 이상의 돌연변이를 포함하는 단계; 선택될 세포(들)에서 교정 주형과 표적 폴리뉴클레오티드의 상동성 재조합을 가능하게 하는 단계; CRISPR 복합체가 표적 폴리뉴클레오티드에 결합되게 하여, 상기 유전자 내의 표적 폴리뉴클레오티드의 절단을 초래하는 단계로서, CRISPR 복합체는 (1) 표적 폴리뉴클레오티드 내의 표적 서열에 혼성화되는 가이드 서열 및 (2) tracr 서열에 혼성화되는 tracr 메이트 서열과 복합체화되는 CRISPR 효소를 포함하고, 표적 폴리뉴클레오티드로의 CRISPR 복합체의 결합이 세포사를 유도하여, 하나 이상의 돌연변이가 도입된 하나 이상의 원핵 세포(들)가 선택되게 하는 단계를 포함한다. 바람직한 구현예에서, CRISPR 효소는 Cas9이다. 본 발명의 다른 양태에서, 선택될 세포는 진핵 세포일 수 있다. 본 발명의 양태는 선택 마커 또는 반대-선택 시스템을 포함할 수 있는 2-단계 과정을 필요로 하지 않고 특정 세포의 선택을 가능하게 한다.

일부 양태에서, 본 발명은 CRISPR-Cas 시스템 키메라 RNA(chiRNA) 폴리뉴클레오티드 서열로서, 폴리뉴클레오티드 서열이 (a) 진핵 세포 내의 표적 서열에 혼성화할 수 있는 가이드 서열, (b) tracr 메이트 서열, 및 (c) tracr 서열을 포함하고, (a), (b) 및 (c)가 5'에서 3' 배향으로 배열되고, 전사되는 경우, tracr 메이트 서열이 tracr 서열에 혼성화되고, 가이드 서열이 표적 서열로의 CRISPR 복합체의 서열-특이적 결합을 유도하며, CRISPR 복합체가 (1) 표적 서열에 혼성화되는 가이드 서열, 및 (2) tracr 서열에 혼성화되는 tracr 메이트 서열과 복합체화되는 CRISPR 효소를 포함하는 CRISPR-Cas 시스템 키메라 RNA(chiRNA) 폴리뉴클레오티드 서열,

또는

CRISPR 효소 시스템으로서, 시스템이 I. CRISPR-Cas 시스템 키메라 RNA(chiRNA) 폴리뉴클레오티드 서열에 작동가능하게 연결된 제1 조절 요소로서, 폴리뉴클레오티드 서열이 (a) 진핵 세포 내의 하나 이상의 표적 서열에 혼성화할 수 있는 하나 이상의 가이드 서열, (b) tracr 메이트 서열, 및 (c) 하나 이상의 tracr 서열을 포함하는 제1 조절 요소, 및 II. 적어도 하나 이상의 핵 국소화 서열을 포함하는 CRISPR 효소를 인코딩하는 효소-코딩 서열에 작동가능하게 연결된 제2 조절 요소를 포함하는 하나 이상의 벡터를 포함하는 벡터 시스템에 의해 인코딩되고, 여기서, (a), (b) 및 (c)가 5'에서 3' 배향으로 배열되고, 성분 I 및 II가 시스템의 동일한 또는 상이한 벡터에 배치되며, 전사되는 경우, tracr 메이트 서열이 tracr 서열에 혼성화되고, 가이드 서열이 표적 서열로의 CRISPR 복합체의 서열-특이적 결합을 유도하며, CRISPR 복합체가 (1) 표적 서열에 혼성화되는 가이드 서열, 및 (2) tracr 서열에 혼성화되는 tracr 메이트 서열과 복합체화되는 CRISPR 효소를 포함하는 CRISPR 효소 시스템, 또는 다중화 CRISPR 효소 시스템으로서, 시스템이 I. (a) 세포 내의 표적 서열에 혼성화할 수 있는 하나 이상의 가이드 서열, 및 (b) 적어도 하나 이상의 tracr 메이트 서열에 작동가능하게 연결된 제1 조절 요소, II. CRISPR 효소를 인코딩하는 효소-코딩 서열에 작동가능하게 연결된 제2 조절 요소, 및 III. tracr 서열에 작동가능하게 연결된 제3 조절 요소를 포함하는 하나 이상의 벡터를 포함하는 벡터 시스템에 의해 인코딩되고, 성분 I, II 및 III이 시스템의 동일한 또는 상이한 벡터에 배치되고, 전사되는 경우, tracr 메이트 서열이 tracr 서열에 혼성화되고, 가이드 서열이 표적 서열로의 CRISPR 복합체의 서열-특이적 결합을 유도하며, CRISPR 복합체가 (1) 표적 서열에 혼성화되는 가이드 서열, 및 (2) tracr 서열에 혼성화되는 tracr 메이트 서열과 복합체화되는 CRISPR 효소를 포함하고, 다중화 시스템에서, 다중의 가이드 서열 및 단일의 tracr 서열이 사용되며, 가이드, tracr 및 tracr 메이트 서열 중 하나 이상을 변형시켜 안정성을 향상시킨 다중화 CRISPR 효소 시스템을 포함하는 비-천연 발생 또는 조작된 조성물을 제공한다.

본 발명의 양태에서, 변형은 조작된 2차 구조를 포함한다. 예를 들어, 변형은 tracr 메이트 서열과 tracr 서열 사이의 혼성화 영역의 감소를 포함할 수 있다. 예를 들어, 변형은 인공 루프를 통해 tracr 메이트 서열과 tracr 서열을 융합시키는 것을 포함할 수도 있다. 변형은 40 내지 120 bp의 길이를 갖는 tracr 서열을 포함할 수 있다. 본 발명의 구현예들에 있어서, tracr 서열은 40 bp 내지 전장의 tracr이다. 특정 구현예에서, tracRNA의 길이는 적어도 뉴클레오티드 1 내지 67, 일부 구현예에서, 적어도 야생형 tracRNA의 뉴클레오티드 1 내지 85를 포함한다. 일부 구현예에서, 적어도 야생형 스트렙토코커스 피오게네스 Cas9 tracRNA의 뉴클레오티드 1 내지 67 또는 1 내지 85에 상응하는 뉴클레오티드가 사용될 수 있다. CRISPR 시스템이 Cas9 이외의 또는 SpCas9 이외의 효소를 사용하는 경우, 관련 야생형 tracRNA에 상응하는 뉴클레오티드가 존재할 수 있다. 일부 구현예에서, tracRNA의 길이는 야생형 tracRNA의 뉴클레오티드 1 내지 67 또는 1 내지 85 이하를 포함한다. 변형은 서열 최적화를 포함할 수 있다. 특정 양태에서, 서열 최적화는 tracr 및/또는 tracr 메이트 서열 내의 폴리T 서열의 발생의 감소를 포함할 수 있다. 서열 최적화는 tracr 메이트 서열과 tracr 서열 사이의 혼성화의 영역의 감소; 예를 들어, 감소된 길이의 tracr 서열과 조합될 수 있다.

일 양태에서, 본 발명은 CRISPR-Cas 시스템 또는 CRISPR 효소 시스템을 제공하며, 여기서, 변형은 tracr 및/또는 tracr 메이트 서열 내의 폴리T 서열의 감소를 포함한다. 본 발명의 일부 양태에서, 관련 야생형 서열의 폴리-T 서열에 존재하는 하나 이상의 T(즉, 3, 4, 5, 6개 이상의 연속 T 염기의 스트레치; 일부 구현예에서, 10, 9, 8, 7, 6개 이하의 연속 T 염기의 스트레치)는 비-T 뉴클레오티드, 예를 들어, A로 치환되어, 스트링이 더 작은 T의 스트레치로 파단되고, 각 스트레치가 4개 또는 4개 미만(예를 들어, 3 또는 2개)의 연속 T를 갖게 할 수 있다. A 이외의 염기, 예를 들어, C 또는 G, 또는 비-천연 발생 뉴클레오티드 또는 변형된 뉴클레오티드가 치환을 위해 사용될 수 있다. T의 스트링이 헤어핀(또는 스템 루프)의 형성에 수반된다면, 비-T 염기에 상보적인 염기가 비-T 뉴클레오티드에 상보적이도록 변경되는 것이 유리하다. 예를 들어, 비-T 염기가 A라면, 예를 들어, 2차 구조를 보존하거나 그의 보존을 돕기 위하여 그의 상보물은 T로 변경될 수 있다. 예를 들어, 5'-TTTTT는 5'-TTTAT가 되도록 변경될 수 있고, 상보적인 5'-AAAAA는 5'-ATAAA로 변경될 수 있다.

일 양태에서, 본 발명은 CRISPR-Cas 시스템 또는 CRISPR 효소 시스템을 제공하며, 여기서, 변형은 폴리T 종결자 서열을 부가하는 것을 포함한다. 일 양태에서, 본 발명은 CRISPR-Cas 시스템 또는 CRISPR 효소 시스템을 제공하며, 여기서, 변형은 tracr 및/또는 tracr 메이트 서열에 폴리T 종결자 서열을 부가하는 것을 포함한다. 일 양태에서, 본 발명은 CRISPR-Cas 시스템 또는 CRISPR 효소 시스템을 제공하며, 여기서, 변형은 가이드 서열에 폴리T 종결자 서열을 부가하는 것을 포함한다. 폴리T 종결자 서열은 5개, 또는 5개 초과의 연속 T 염기를 포함할 수 있다.

일 양태에서, 본 발명은 CRISPR-Cas 시스템 또는 CRISPR 효소 시스템을 제공하며, 여기서, 변형은 루프 및/또는 헤어핀을 변경시키는 것을 포함한다. 일 양태에서, 본 발명은 CRISPR-Cas 시스템 또는 CRISPR 효소 시스템을 제공하며, 여기서, 변형은 가이드 서열에 최소 2개의 헤어핀을 제공하는 것을 포함한다. 일 양태에서, 본 발명은 CRISPR-Cas 시스템 또는 CRISPR 효소 시스템을 제공하며, 여기서, 변형은 tracr과 tracr 메이트(직접 반복부) 서열 간의 상보성에 의해 형성되는 헤어핀을 제공하는 것을 포함한다. 일 양태에서, 본 발명은 CRISPR-Cas 시스템 또는 CRISPR 효소 시스템을 제공하며, 여기서, 변형은 tracrRNA 서열의 3' 말단에서 또는 그를 향하여 하나 이상의 추가의 헤어핀(들)을 제공하는 것을 포함한다. 예를 들어, 헤어핀은 루프에 의해 연결된 tracRNA 서열 내에 자기 상보적 서열을 제공하여 자기 폴딩으로 헤어핀이 형성되게 함으로써 형성될 수 있다. 일 양태에서, 본 발명은 CRISPR-Cas 시스템 또는 CRISPR 효소 시스템을 제공하며, 여기서, 변형은 가이드 서열의 3'에 부가되는 추가의 헤어핀을 제공하는 것을 포함한다. 일 양태에서, 본 발명은 CRISPR-Cas 시스템 또는 CRISPR 효소 시스템을 제공하며, 여기서, 변형은 가이드 서열의 5' 말단을 연장시키는 것을 포함한다. 일 양태에서, 본 발명은 CRISPR-Cas 시스템 또는 CRISPR 효소 시스템을 제공하며, 여기서, 변형은 가이드 서열의 5' 말단에 하나 이상의 헤어핀을 제공하는 것을 포함한다. 일 양태에서, 본 발명은 CRISPR-Cas 시스템 또는 CRISPR 효소 시스템을 제공하며, 여기서, 변형은 가이드 서열의 5' 말단에 서열(5'-AGGACGAAGTCCTAA)을 부착하는 것을 포함한다. 헤어핀을 형성하는데 적절한 다른 서열은 당업자에게 공지되어 있을 것이며, 본 발명의 특정 양태에서 사용될 수 있다. 본 발명의 일부 양태에서, 적어도 2, 3, 4, 5개 이상의 추가의 헤어핀이 제공된다. 본 발명의 일부 양태에서, 10, 9, 8, 7, 6개 이하의 추가의 헤어핀이 제공된다. 일 양태에서, 본 발명은 CRISPR-Cas 시스템 또는 CRISPR 효소 시스템을 제공하며, 여기서, 변형은 2개의 헤어핀을 포함한다. 일 양태에서, 본 발명은 CRISPR-Cas 시스템 또는 CRISPR 효소 시스템을 제공하며, 여기서, 변형은 3개의 헤어핀을 포함한다. 일 양태에서, 본 발명은 CRISPR-Cas 시스템 또는 CRISPR 효소 시스템을 제공하며, 여기서, 변형은 최대 5개의 헤어핀을 포함한다.

일 양태에서, 본 발명은 CRISPR-Cas 시스템 또는 CRISPR 효소 시스템을 제공하며, 여기서, 변형은 가교를 제공하는 것 또는 폴리뉴클레오티드 서열에 하나 이상의 변형된 뉴클레오티드를 제공하는 것을 포함한다. 변형된 뉴클레오티드 및/또는 가교는 tracr, tracr 메이트 및/또는 가이드 서열 중 임의의 것 또는 모두에, 및/또는 효소 코딩 서열에 및/또는 벡터 서열에 제공될 수 있다. 변형은 적어도 하나의 비천연 발생 뉴클레오티드 또는 변형된 뉴클레오티드 또는 그의 유사체의 함유를 포함할 수 있다. 변형된 뉴클레오티드는 리보스, 포스페이트 및/또는 염기 모이어티에서 변형될 수 있다. 변형된 뉴클레오티드는 2'-O-메틸 유사체, 2'-데옥시 유사체 또는 2'-플루오로 유사체를 포함할 수 있다. 핵산 백본이 변형될 수 있으며, 예를 들어, 포스포로티오에이트 백본이 사용될 수 있다. 잠금 핵산(LNA) 또는 브리지드 핵산(BNA)의 사용도 또한 가능할 수 있다. 변형된 염기의 추가의 예에는 2-아미노퓨린, 5-브로모-우리딘, 슈도우리딘, 이노신, 7-메틸구아노신이 포함되나 이들에 한정되지 않는다.

상기 변형 중 임의의 것 또는 모두가 별개로, 또는 주어진 CRISPR-Cas 시스템 또는 CRISPR 효소 시스템과 조합하여 제공될 수 있음이 이해될 것이다. 이러한 시스템은 상기 변형 중 1개, 2개, 3개, 4개, 5개 이상을 포함할 수 있다.

일 양태에서, 본 발명은 CRISPR-Cas 시스템 또는 CRISPR 효소 시스템을 제공하며, 여기서, CRISPR 효소는 II형 CRISPR 시스템 효소, 예를 들어, Cas9 효소이다. 일 양태에서, 본 발명은 CRISPR-Cas 시스템 또는 CRISPR 효소 시스템을 제공하며, 여기서, CRISPR 효소는 1000개 미만의 아미노산 또는 4000개 미만의 아미노산으로 이루어진다. 일 양태에서, 본 발명은 CRISPR-Cas 시스템 또는 CRISPR 효소 시스템을 제공하며, 여기서, Cas9 효소는 StCas9 또는 St1Cas9이거나, Cas9 효소는 스트렙토코커스, 캄필로박터(Campylobacter), 니트라티프랙터(Nitratifractor), 스타필로코커스(Staphylococcus), 파비바쿨룸(Parvibaculum), 로세부리아(Roseburia), 네이세리아(Neisseria), 글루코나세토박터(Gluconacetobacter), 아조스피릴룸(Azospirillum), 스파에로카에타(Sphaerochaeta), 락토바실러스(Lactobacillus), 유박테리움(Eubacterium) 또는 코리네박터(Corynebacter) 속으로 이루어진 군으로부터 선택되는 유기체 유래의 Cas9 효소이다. 일 양태에서, 본 발명은 CRISPR-Cas 시스템 또는 CRISPR 효소 시스템을 제공하며, 여기서, CRISPR 효소는 표적 서열의 위치에서 둘 모두의 가닥의 절단을 유도하는 뉴클레아제이다.

일 양태에서, 본 발명은 CRISPR-Cas 시스템 또는 CRISPR 효소 시스템을 제공하며, 여기서, 제1 조절 요소는 중합효소 III 프로모터이다. 일 양태에서, 본 발명은 CRISPR-Cas 시스템 또는 CRISPR 효소 시스템을 제공하며, 여기서, 제2 조절 요소는 중합효소 II 프로모터이다.

일 양태에서, 본 발명은 CRISPR-Cas 시스템 또는 CRISPR 효소 시스템을 제공하며, 여기서, 가이드 서열은 적어도 15개의 뉴클레오티드를 포함한다.

일 양태에서, 본 발명은 CRISPR-Cas 시스템 또는 CRISPR 효소 시스템을 제공하며, 여기서, 변형은 최적화된 tracr 서열 및/또는 최적화된 가이드 서열 RNA 및/또는 tracr 서열 및/또는 tracr 메이트 서열(들)의 동시-폴드(co-fold) 구조 및/또는 tracr 서열의 2차 구조의 안정화 및/또는 염기-쌍형성의 영역이 감소된 tracr 서열 및/또는 tracr 서열 융합 RNA 요소를 포함하고/거나; 다중화 시스템에서, 하나의 tracer을 포함하고, 복수의 가이드를 포함하는 2개의 RNA, 또는 복수의 키메라를 포함하는 하나의 RNA가 존재한다.

본 발명의 양태에서, 키메라 RNA 구조는 돌연변이유발 연구의 결과에 따라 추가로 최적화된다. 2개 이상의 헤어핀이 있는 키메라 RNA에서, 헤어핀을 안정화시키기 위한 근위 직접 반복부 내의 돌연변이는 CRISPR 복합체 활성의 제거를 야기할 수 있다. 헤어핀을 단축시키거나 안정화시키기 위한 원위 직접 반복부 내의 돌연변이는 CRISPR 복합체 활성에 영향을 미치지 않을 수 있다. 근위 및 원위 반복부 사이의 벌지(bulge) 영역 내의 서열 무작위화는 CRISPR 복합체 활성을 상당히 감소시킬 수 있다. 헤어핀 사이의 링커 영역 내의 단일의 염기 쌍 변화 또는 서열 무작위화는 CRISPR 복합체 활성의 완전한 소실을 야기할 수 있다. 가이드 서열 이후의 제1 헤어핀 뒤에 오는 원위 헤어핀의 헤어핀 안정화는 CRISPR 복합체 활성의 유지 또는 향상을 야기할 수 있다. 따라서, 본 발명의 바람직한 구현예에서, 키메라 RNA 구조는 치료적 전달 옵션 및 다른 용도에 유리할 수 있는 보다 작은 키메라 RNA를 생성함으로써 추가로 최적화될 수 있으며, 이는 원위 직접 반복부를 변경시켜, 헤어핀을 단축시키거나 안정화되게 함으로써 달성될 수 있다. 본 발명의 추가의 바람직한 구현예에서, 키메라 RNA 구조는 원위 헤어핀 중 하나 이상을 안정화시킴으로써 추가로 최적화될 수 있다. 헤어핀의 안정화는 헤어핀을 형성하는데 적절한 서열을 변형시키는 것을 포함할 수 있다. 본 발명의 일부 양태에서, 적어도 2, 3, 4, 5개 이상의 추가의 헤어핀이 제공된다. 본 발명의 일부 양태에서, 10, 9, 8, 7, 6개 이하의 추가의 헤어핀이 제공된다. 본 발명의 일부 양태에서, 안정화는 가교 및 다른 변형일 수 있다. 변형은 적어도 하나의 비천연 발생 뉴클레오티드 또는 변형된 뉴클레오티드 또는 그의 유사체의 함유를 포함할 수 있다. 변형된 뉴클레오티드는 리보스, 포스페이트 및/또는 염기 모이어티에서 변형될 수 있다. 변형된 뉴클레오티드는 2'-O-메틸 유사체, 2'-데옥시 유사체, 또는 2'-플루오로 유사체를 포함할 수 있다. 핵산 백본이 변형될 수 있으며, 예를 들어, 포스포로티오에이트 백본이 사용될 수 있다. 잠금 핵산(LNA) 또는 브리지드 핵산(BNA)의 사용도 또한 가능할 수 있다. 변형된 염기의 추가의 예는 2-아미노퓨린, 5-브로모-우리딘, 슈도우리딘, 이노신, 7-메틸구아노신을 포함하나 이들에 한정되지 않는다.

일 양태에서, 본 발명은 CRISPR-Cas 시스템 또는 CRISPR 효소 시스템을 제공하며, 여기서, CRISPR 효소는 진핵 세포에서의 발현을 위해 코돈-최적화된다.

따라서, 본 발명의 일부 양태에서, 본 발명의 작제물, 예를 들어, 키메라 작제물에 필요한 tracRNA의 길이는 본질적으로 고정될 필요는 없고, 본 발명의 일부 양태에서, 그것은 40 내지 120 bp, 본 발명의 일부 양태에서, 최대 전장의 tracr, 예를 들어, 본 발명의 일부 양태에서, 박테리아 게놈 내의 전사 종결 신호에 의해 단속되는 tracr의 3' 말단까지 일 수 있다. 특정 구현예에서, tracRNA의 길이는 적어도 야생형 tracRNA의 뉴클레오티드 1 내지 67, 일부 구현예에서, 적어도 뉴클레오티드 1 내지 85를 포함한다. 일부 구현예에서, 적어도 야생형 스트렙토코커스 피오게네스 Cas9 tracRNA의 뉴클레오티드 1 내지 67 또는 1 내지 85에 상응하는 뉴클레오티드가 사용될 수 있다. CRISPR 시스템이 Cas9 이외의 또는 SpCas9 이외의 효소를 사용하는 경우, 관련 야생형 tracRNA 내에 상응하는 뉴클레오티드가 존재할 수 있다. 일부 구현예에서, tracRNA의 길이는 야생형 tracRNA의 뉴클레오티드 1 내지 67 또는 1 내지 85 이하를 포함한다. 서열 최적화(예를 들어, 폴리T 서열의 감소)에 관하여, 예를 들어, tracr 메이트(직접 반복부) 또는 tracrRNA 내부의 T의 스트링에 관하여, 본 발명의 일부 양태에서, 관련 야생형 서열의 폴리-T 서열에 존재하는 하나 이상의 T(즉, 3, 4, 5, 6개 이상의 연속 T 염기의 스트레치; 일부 구현예에서, 10, 9, 8, 7, 6개 이하의 연속 T 염기의 스트레치)는 비-T 뉴클레오티드, 예를 들어, A로 치환되어, 스트링이 보다 적은 T의 스트레치로 파단되고, 각 스트레치가 4개 또는 4개 미만(예를 들어, 3 또는 2개)의 연속 T를 갖게 할 수 있다. T의 스트링이 헤어핀(또는 스템 루프)의 형성에 수반된다면, 비-T 염기에 상보적인 염기가 비-T 뉴클레오티드에 상보적이도록 변경되는 것이 유리하다. 예를 들어, 비-T 염기가 A라면, 예를 들어, 2차 구조를 보존하거나 그의 보존을 돕기 위하여 그의 상보물은 T로 변경될 수 있다. 예를 들어, 5'-TTTTT는 5'-TTTAT가 되도록 변경될 수 있고, 상보적인 5'-AAAAA는 5'-ATAAA로 변경될 수 있다. tracr + tracr 메이트 전사물 내의 폴리T 종결자 서열, 예를 들어, 폴리T 종결자(TTTTT 이상)의 존재에 관하여, 본 발명의 일부 양태에서, 그것이 2개의 RNA(tracr 및 tracr 메이트)에 존재하든지 또는 단일의 가이드 RNA 형태에 존재하든지, 전사물의 말단에 부가되는 것이 유리하다. tracr 및 tracr 메이트 전사물 내의 루프 및 헤어핀에 관하여, 본 발명의 일부 양태에서, 최소 2개의 헤어핀이 키메라 가이드 RNA에 존재하는 것이 유리하다. 제1 헤어핀은 tracr 및 tracr 메이트(직접 반복부) 서열 사이의 상보성에 의해 형성되는 헤어핀일 수 있다. 제2 헤어핀은 tracrRNA 서열의 3' 말단에 존재할 수 있으며, 이는 Cas9와의 상호작용을 위한 2차 구조를 제공할 수 있다. 예를 들어, 본 발명의 일부 양태에서, 가이드 RNA의 안정성을 증가시키기 위하여, 추가의 헤어핀이 가이드 RNA의 3'에 부가될 수 있다. 또한, 본 발명의 일부 양태에서, 가이드 RNA의 5' 말단이 연장될 수 있다. 본 발명의 일부 양태에서, 5' 말단 내의 20 bp를 가이드 서열로 고려할 수 있다. 5' 부분은 연장될 수 있다. 하나 이상의 헤어핀은 5' 부분에 제공될 수 있으며, 예를 들어, 본 발명의 일부 양태에서, 이것은 가이드 RNA의 안정성을 향상시킬 수도 있다. 본 발명의 일부 양태에서, 서열 (5'-AGGACGAAGTCCTAA)을 가이드 서열의 5' 말단에 부착함으로써 특정 헤어핀이 제공될 수 있으며, 본 발명의 일부 양태에서, 이는 안정성의 향상에 도움을 줄 수 있다. 헤어핀을 형성하기에 적절한 다른 서열은 당업자에게 공지되어 있을 것이며, 본 발명의 특정 양태에서 사용될 수 있다. 본 발명의 일부 양태에서, 적어도 2, 3, 4, 5개 이상의 추가의 헤어핀이 제공된다. 본 발명의 일부 양태에서, 10, 9, 8, 7, 6개 이하의 추가의 헤어핀이 제공된다. 또한, 전술한 것은 가이드 서열에 2차 구조를 포함하는 본 발명의 양태를 제공한다. 본 발명의 일부 양태에서, 예를 들어, 안정성을 향상시키기 위한 가교 및 다른 변형이 존재할 수 있다. 변형은 적어도 하나의 비천연 발생 뉴클레오티드 또는 변형된 뉴클레오티드 또는 그의 유사체의 함유를 포함할 수 있다. 변형된 뉴클레오티드는 리보스, 포스페이트 및/또는 염기 모이어티에서 변형될 수 있다. 변형된 뉴클레오티드는 2'-O-메틸 유사체, 2'-데옥시 유사체 또는 2'-플루오로 유사체를 포함할 수 있다. 핵산 백본이 변형될 수 있으며, 예를 들어, 포스포로티오에이트 백본이 사용될 수 있다. 잠금 핵산(LNA) 또는 브리지드 핵산(BNA)의 사용도 또한 가능할 수 있다. 변형된 염기의 추가의 예에는 2-아미노퓨린, 5-브로모-우리딘, 슈도우리딘, 이노신, 7-메틸구아노신이 포함되나 이들에 한정되지 않는다. 이러한 변형 또는 가교는 가이드 서열, 또는 가이드 서열에 인접한 다른 서열에 존재할 수 있다.

따라서, 본 발명의 목적은 발명 내에 해당 출원인이 권리를 보유하고 있는 임의의 선행기술에서 공지된 제품, 그 제품의 제조 절차 또는 그 제품의 사용 방법을 포함하지 않으며, 이로써 임의의 선행기술에서 공지된 제품, 절차 및 방법에 대해서는 권리포기를 개시한다. 또한, 본 발명은 본 발명의 범위 내에 USPTO(35 U.S.C. § 112, 제1 단락) 또는 EPO(EPC의 제83조)의 기재된 사항 및 구현 요건을 충족하지 않는 임의의 제품, 절차 또는 그 제품의 제조 또는 그 제품의 사용 방법을 포함하지 않는 것을 의도로 하며, 이로써 해당 출원인이 권리를 유지하고 있는 임의의 선행기술에서 기재된 제품, 그 제품의 제조 방법 또는 그 제품의 사용 방법에 대한 권리 포기를 개시하는 것을 추가로 언급한다.

본 개시내용 및 특히 청구범위 및/또는 단락에서, "함유한다", "함유된", "함유하는" 등과 같은 용어가 미국 특허법에 귀속되는 의미를 가질 수 있고; 예를 들어, "포함한다", "포함된", "포함하는" 등을 의미할 수 있으며; "본질적으로 이루어지는" 및 "본질적으로 이루어진다"와 같은 용어가 미국 특허법에 귀속되는 의미를 갖고, 예를 들어, 명백하게 열거되지 않는 구성요소를 허용하지만, 선행 기술에서 발견되거나 본 발명의 기본적인 또는 새로운 특징에 영향을 미치는 구성요소를 배제함이 주목된다. 상기 및 기타 구현예는 하기 상세한 설명으로부터 개시되거나, 그로부터 명백하고 그에 의해 포함된다.

본 발명의 신규의 특징은 특히 첨부된 청구범위에 개시되어 있다. 본 발명의 원리가 이용된 예시적인 구현예에 기재되어 있는 하기의 상세한 설명을 참조함으로써 본 발명의 특징 및 장점을 더욱 잘 이해할 것이며, 첨부된 도면은 다음과 같다:
도 1은 CRISPR 시스템의 개략적 모델을 보여준다. 스트렙토코커스 피오게네스 유래의 Cas9 뉴클레아제(황색)는 20-nt 가이드 서열(청색) 및 스캐폴드(적색)로 이루어진 합성 가이드 RNA(sgRNA)에 의해 게놈 DNA에 표적화된다. 가이드 서열은 필수 5'-NGG 프로토스페이서 인접 모티프(protospacer adjacent motif, PAM; 진홍색)의 인접 상류의 DNA 표적(청색)과 염기쌍을 형성하며, Cas9는 PAM의 약 3 bp 상류(적색 삼각형)에서 이중 가닥 파단(DSB)을 매개한다.
도 2a 내지 도 2f는 예시적인 CRISPR 시스템, 가능한 작용 메카니즘, 진핵 세포에서의 발현을 위한 예시적인 적합화, 및 핵 국소화 및 CRISPR 활성을 평가하는 시험의 결과를 예시한다.
도 3A 내지 도 3C는 진핵 세포에서의 CRISPR 시스템 요소의 발현을 위한 예시적인 발현 카세트, 예시적인 가이드 서열의 예측된 구조, 및 진핵 및 원핵 세포에서 측정시 CRISPR 시스템 활성을 예시한다.
도 4a 내지 도 4d는 예시적인 대상체에 대한 SpCas9 특이성의 평가의 결과를 예시한다.
도 5a 내지 도 5g는 예시적인 벡터 시스템 및 진핵 세포에서 상동성 재조합의 유도에서의 그의 사용에 대한 결과를 예시한다.
도 6a 내지 도 6c는 Cas9-매개의 유전자 표적화를 위한 상이한 tracrRNA 전사물의 비교를 예시한다.
도 7a 내지 도 7d는 예시적인 CRISPR 시스템, 진핵 세포에서의 발현을 위한 예시적인 적합화 및 CRISPR 활성을 평가하는 시험의 결과를 예시한다.
도 8A 내지 도 8C는 포유동물 세포 내의 게놈 유전자좌의 표적화를 위한 CRISPR 시스템의 예시적인 조작을 예시한다.
도 9A 및 도 9B는 포유동물 세포에서 crRNA 가공의 노던 블롯(Northern blot) 분석의 결과를 예시한다.
도 10a 내지 도 10c는 키메라 RNA의 개략적 표현 및 진핵 세포에서의 CRISPR 시스템 활성에 대한 서베이어(SURVEYOR) 검정의 결과를 예시한다.
도 11a 및 도 11b는 진핵 세포에서 CRISPR 시스템 활성에 대한 서베이어 검정의 결과의 그래프 표현을 예시한다.
도 12는 가이드 서열, tracr 메이트 서열 및 tracr 서열을 포함하는 예시적인 키메라 RNA에 대한 예측된 2차 구조를 예시한다.
도 13은 Cas 유전자의 계통수이다.
도 14a 내지 도 14f는 3개 그룹의 큰 Cas9(약 1400개 아미노산) 및 2개 그룹의 작은 Cas9(약 1100개 아미노산)를 포함하는 5개 과의 Cas9를 보여주는 계통 분석을 보여준다.
도 15는 상이한 최적화된 가이드 RNA의 기능을 도시하는 그래프를 보여준다.
도 16은 상이한 가이드 키메라 RNA의 서열 및 구조를 보여준다.
도 17은 tracrRNA 및 직접 반복부의 동시-폴드 구조를 보여준다.
도 18a 및 도 18b는 시험관내 St1Cas9 키메라 가이드 RNA 최적화로부터의 데이터를 보여준다.
도 19a 및 도 19b는 SpCas9 세포 용해물에 의한 비메틸화 또는 메틸화 표적 중 어느 하나의 절단을 보여준다.
도 20a 내지 도 20g는 SpCas9-매개의 포유동물 게놈 교정을 위한 가이드 RNA 구조의 최적화를 보여준다. (a) 모든 이후의 실험을 위해 사용된 U6 프로모터-유도 단일의 가이드 RNA(sgRNA) 및 CBh 프로모터-유도 인간 코돈-최적화 스트렙토코커스 피오게네스 Cas9(hSpCas9)에 대한 비시스트로닉 발현 벡터(PX330)의 개략도. sgRNA는 표기된 다양한 위치에서 절단된 20-nt 가이드 서열(청색) 및 스캐폴드(적색)로 이루어진다. (b) 인간 EMX1 및 PVALB 유전자좌에서의 SpCas9-매개의 삽입-결실에 대한 서베이어 검정. 화살표는 예상되는 서베이어 단편을 나타낸다(n = 3). (c) 로딩 대조군으로서 U1과 함께, 4개의 sgRNA 절단 구조에 대한 노던 블롯 분석. (d) SpCas9의 야생형(wt) 또는 닉카아제 돌연변이체(D10A) 둘 모두는 인간 EMX1 유전자로의 HindIII 부위의 삽입을 증진시켰다. 게놈 서열과 비교하여 센스 또는 안티센스 방향 중 어느 하나로 배향된 단일 가닥 올리고뉴클레오티드(ssODN)를 상동성 재조합 주형으로 사용하였다. (e) 인간 SERPINB5 유전자좌의 개략도. sgRNA 및 PAM은 서열 위의 유색 막대에 의해 표기되며; 메틸시토신(Me)은 강조표시되어 있으며(분홍색) 및 전사 시작 부위(TSS, +1)와 비교하여 넘버링된다. (f) 16개 클론의 비설피트 시퀀싱에 의해 검정되는 SERPINB5의 메틸화 상태. 흑색 원, 메틸화된 CpG; 백색 원, 비메틸화된 CpG. (g) 딥 시퀀싱에 의해 검정되는, SERPINB5의 메틸화 영역을 표적화하는 3개의 sgRNA에 의한 변형 효율(n = 2). 오차 막대는 윌슨(Wilson) 간격을 나타낸다(온라인 방법).
도 21a 및 도 21b는 CRISPR-Cas sgRNA 구조의 추가의 최적화를 보여준다. (a) 4개의 추가의 sgRNA 구조, I-IV의 개략도. 각각은 tracrRNA(적색)에 혼성화되는 직접 반복부(DR, 회색)에 연결된 20-nt 가이드 서열(청색)로 이루어진다. 인공 GAAA 스템 루프가 있는 DR-tracrRNA 하이브리드는 표시된 바와 같이 +12 또는 +22에서 절단된다. tracrRNA 절단 위치는 tracrRNA에 대한 이전에 보고된 전사 시작 부위에 따라 넘버링된다. sgRNA 구조 II 및 IV는 그들의 폴리-U 트랙트(tract) 내에 돌연변이를 지니며, 이는 조기성숙 전사 종결자로 사용될 수 있다. (b) 표적 부위 1 내지 3에 대한 인간 EMX1 유전자좌에서의 SpCas9-매개의 삽입-결실에 대한 서베이어 검정. 화살표는 예상되는 서베이어 단편을 나타낸다(n = 3).
도 22는 인간 게놈 내의 일부 표적 부위의 가시화를 예시한다.
도 23A 및 도 23B는 (A) sgRNA의 개략도 및 (B) 절단 효율이 가장 높은 최적으로 절단된 구조에 대한 SaCas9에 대한 5개의 sgRNA 변이체의 서베이어 분석을 보여준다.
본원에서 도면은 오직 예시의 목적을 위한 것이며, 반드시 척도에 따라 도시된 것은 아니다.
상세한 설명
용어 "폴리뉴클레오티드", "뉴클레오티드", "뉴클레오티드 서열", "핵산" 및 "올리고뉴클레오티드"는 상호교환가능하게 사용된다. 그것들은 임의의 길이의 뉴클레오티드, 데옥시리보뉴클레오티드 또는 리보뉴클레오티드 중 어느 하나, 또는 그의 유사체의 중합체 형태를 말한다. 폴리뉴클레오티드는 임의의 3차원 구조를 가질 수 있으며, 기지의 또는 미지의 임의의 기능을 수행할 수 있다. 다음은 폴리뉴클레오티드의 비제한적인 예이다: 유전자 또는 유전자 단편의 코딩 또는 비-코딩 영역, 연관 분석으로부터 정의된 유전자좌들(유전자좌), 엑손, 인트론, 전령 RNA(mRNA), 운반 RNA, 리보솜 RNA, 짧은 간섭 RNA(siRNA), 짧은 헤어핀 RNA(shRNA), 마이크로-RNA(miRNA), 리보자임, cDNA, 재조합 폴리뉴클레오티드, 분지형 폴리뉴클레오티드, 플라스미드, 벡터, 임의의 서열의 분리된 DNA, 임의의 서열의 분리된 RNA, 핵산 프로브 및 프라이머. 폴리뉴클레오티드는 하나 이상의 변형된 뉴클레오티드, 예를 들어, 메틸화 뉴클레오티드 및 뉴클레오티드 유사체를 포함할 수 있다. 뉴클레오티드 구조에 대한 변형이 존재한다면, 중합체의 조립 전에 또는 후에 부여될 수 있다. 뉴클레오티드의 서열은 비-뉴클레오티드 성분에 의해 단속될 수 있다. 폴리뉴클레오티드는 중합화 후에, 예를 들어, 표지화 성분과의 컨쥬게이션에 의해 추가로 변형될 수 있다.
본 발명의 양태에서, 용어 "키메라 RNA", "키메라 가이드 RNA", "가이드 RNA", "단일의 가이드 RNA" 및 "합성 가이드 RNA"는 상호교환가능하게 사용되며, 가이드 서열, tracr 서열 및 tracr 메이트 서열을 포함하는 폴리뉴클레오티드 서열을 지칭한다. 용어 "가이드 서열"은 표적 부위를 지정하는 가이드 RNA 내의 약 20bp 서열을 지칭하며, 용어 "가이드" 또는 "스페이서"와 상호교환가능하게 사용될 수 있다. 또한, 용어 "tracr 메이트 서열"은 용어 "직접 반복부(들)"와 상호교환가능하게 사용될 수 있다.
본원에 사용되는 바와 같이, 용어 "야생형"은 당업자에 의해 이해되는 해당 분야의 용어이며, 그것이 돌연변이체 또는 변이체로부터 구별되는 정도로 천연에서 발생하는 것과 같은 전형적인 형태의 유기체, 균주, 유전자 또는 특징을 의미한다.
본원에 사용되는 바와 같이, 용어 "변이체"는 천연에서 발생하는 것에서 벗어난 패턴을 갖는 특성의 표현을 의미하는 것으로 이해해야 한다.
용어 "비-천연 발생" 또는 "조작된"은 상호교환가능하게 사용되며, 인간의 손의 개입을 나타낸다. 상기 용어는 핵산 분자 또는 폴리펩티드에 대하여 언급되는 경우, 핵산 분자 또는 폴리펩티드에 천연에서 천연적으로 관련되어 있고, 천연에서 관찰되는 적어도 하나의 다른 성분이 적어도 실질적으로 없음을 의미한다.
"상보성"은 통상의 왓슨-크릭(Watson-Crick) 염기-쌍형성 또는 기타 비-통상적 유형에 의해 다른 핵산 서열과 수소 결합(들)을 형성하는 핵산의 능력을 지칭한다. 상보성 백분율은 제2 핵산 서열과 수소 결합(예를 들어, 왓슨-크릭 염기 쌍형성)을 형성할 수 있는 핵산 분자 내의 잔기의 백분율을 나타낸다(예를 들어, 10개 중 5, 6, 7, 8, 9, 10개는 50%, 60%, 70%, 80%, 90% 및 100% 상보성임). "완전한 상보성"은 핵산 서열의 모든 연속 잔기가 동일한 수의 제2 핵산 서열 내의 연속 잔기와 수소 결합할 것임을 의미한다. 본원에 사용되는 바와 같이, "실질적인 상보성"은 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 30, 35, 40, 45, 50개 이상의 뉴클레오티드의 영역에 걸쳐 적어도 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 97%, 98%, 99% 또는 100%인 상보성 정도를 지칭하거나, 엄격한 조건 하에서 혼성화하는 2개의 핵산을 지칭한다.
본원에 사용되는 바와 같이, 혼성화를 위한 "엄격한 조건"은 표적 서열에 대하여 상보성을 갖는 핵산 서열이 대개 표적 서열과 혼성화하며, 비-표적 서열에는 실질적으로 혼성화하지 않는 조건을 지칭한다. 엄격한 조건은 일반적으로 서열-의존적이며, 다수의 요인에 따라 달라진다. 일반적으로, 서열이 길수록, 서열이 그의 표적 서열에 특이적으로 혼성화하는 온도가 더 높아진다. 엄격한 조건의 비제한적인 예는 문헌[Tijssen (1993), Laboratory Techniques In Biochemistry And Molecular Biology-Hybridization With Nucleic Acid Probes Part I, Second Chapter "Overview of principles of hybridization and the strategy of nucleic acid probe assay", Elsevier, N.Y.]에 상세히 기재되어 있다.
"혼성화"는 하나 이상의 폴리뉴클레오티드가 반응하여, 복합체를 형성하고, 이 복합체는 뉴클레오티드 잔기의 염기 사이의 수소 결합을 통해 안정화되는 반응을 지칭한다. 수소 결합은 왓슨 크릭 염기 쌍형성, 후그스타인(Hoogstein) 결합 또는 임의의 다른 서열 특이적 방식으로 발생할 수 있다. 복합체는 듀플렉스 구조를 형성하는 2개의 가닥, 다중 가닥 복합체를 형성하는 3개 이상의 가닥, 단일의 자가 혼성화 가닥 또는 이들의 임의의 조합을 포함할 수 있다. 혼성화 반응은 PCR의 개시 또는 효소에 의한 폴리뉴클레오티드의 절단과 같은 보다 광범위한 과정에서 하나의 단계를 이룰 수 있다. 주어진 서열과 혼성화할 수 있는 서열은 주어진 서열의 "상보물"로 지칭된다.
CRISPR 시스템의 성분에 관하여, 본원에 사용되는 바와 같은 "안정화" 또는 "안정성의 증가"는 분자의 구조를 보호하거나 안정시키는 것에 관한 것이다. 이는 단일의 또는 다중의 염기 쌍 변화, 헤어핀 수의 증가, 가교, 특정 뉴클레오티드의 스트레치의 파단 및 다른 변형을 포함하는 하나의 돌연변이 또는 돌연변이들의 도입에 의해 달성될 수 있다. 변형은 적어도 하나의 비천연 발생 뉴클레오티드 또는 변형된 뉴클레오티드 또는 그의 유사체의 함유를 포함할 수 있다. 변형된 뉴클레오티드는 리보스, 포스페이트 및/또는 염기 모이어티에서 변형될 수 있다. 변형된 뉴클레오티드는 2'-O-메틸 유사체, 2'-데옥시 유사체, 또는 2'-플루오로 유사체를 포함할 수 있다. 핵산 백본이 변형될 수 있으며, 예를 들어, 포스포로티오에이트 백본이 사용될 수 있다. 잠금 핵산(LNA) 또는 브리지드 핵산(BNA)의 사용도 또한 가능할 수 있다. 변형된 염기의 추가의 예는 2-아미노퓨린, 5-브로모-우리딘, 슈도우리딘, 이노신, 7-메틸구아노신을 포함하나 이들에 한정되지 않는다. 이들 변형은 CRISPR 시스템의 임의의 성분에 적용될 수 있다. 바람직한 구현예에서, 이들 변형은 RNA 성분, 예를 들어, 가이드 RNA 또는 키메라 폴리뉴클레오티드 서열에 이루어진다.
본원에 사용되는 바와 같이, "발현"은 폴리뉴클레오티드가 DNA 주형으로부터 (예를 들어, mRNA 또는 기타 RNA 전사물로) 전사되는 과정 및/또는 이후에 전사된 mRNA가 펩티드, 폴리펩티드 또는 단백질로 번역되는 과정을 지칭한다. 전사물 및 인코딩된 폴리펩티드는 집합적으로 "유전자 산물"로 지칭될 수 있다. 폴리뉴클레오티드가 게놈 DNA로부터 유래된다면, 발현은 진핵 세포에서의 mRNA의 스플라이싱을 포함할 수 있다.
용어 "폴리펩티드", "펩티드" 및 "단백질"은 본원에서 임의의 길이의 아미노산의 중합체를 지칭하기 위해 상호교환가능하게 사용된다. 중합체는 선형 또는 분지형일 수 있으며, 그것은 변형된 아미노산을 포함할 수 있고, 그것은 비-아미노산에 의해 단속될 수 있다. 또한, 상기 용어는 변형된 아미노산 중합체, 예를 들어, 이황화 결합 형성, 글리코실화, 지질화(lipidation), 아세틸화, 인산화 또는 임의의 기타 조작, 예를 들어, 표지화 성분과의 컨쥬게이션을 포함한다. 본원에 사용되는 바와 같이, 용어 "아미노산"은 글리신 및 D 또는 L 광학 이성질체 및 아미노산 유사체 및 펩티도미메틱을 포함하는 천연 및/또는 비천연 또는 합성 아미노산을 포함한다.
용어 "대상체", "개체" 및 "환자"는 척추동물, 바람직하게는 포유동물, 더욱 바람직하게는 인간을 지칭하기 위해 본원에서 상호교환가능하게 사용된다. 포유동물은 쥣과, 원숭이, 인간, 농장 동물, 스포츠 동물 및 애완동물을 포함하나 이들에 한정되지 않는다. 생체내에서 수득되거나 시험관내에서 배양된 생물학적 엔티티(entity)의 조직, 세포 및 그들의 자손도 또한 포함된다. 일부 구현예에서, 대상체는 무척추 동물, 예를 들어, 곤충 또는 선충일 수 있는 한편; 다른 경우에, 대상체는 식물 또는 진균일 수 있다.
용어 "치료제", "치료가능한 작용제" 또는 "치료 작용제"는 상호교환가능하게 사용되며, 대상체로의 투여 시에 몇몇 유리한 효과를 부여하는 분자 또는 화합물을 지칭한다. 유리한 효과는 진단적 결정을 가능하게 하는 것; 질병, 증상, 장애 또는 병태의 개선; 질병, 증상, 장애 또는 질환의 발병의 감소 또는 예방; 및 일반적으로 질병, 증상, 장애 또는 병태의 대응을 포함한다.
본원에 사용되는 바와 같이, "치료" 또는 "치료하는" 또는 "완화하는" 또는 "개선하는"은 상호교환가능하게 사용된다. 이들 용어는 치료 이익 및/또는 예방 이익을 포함하나 이들에 한정되지 않는 유리한 또는 요망되는 결과를 수득하는 방법을 지칭한다. 치료 이익은 치료 하의 하나 이상의 질병, 질환 또는 증상의 임의의 치료적으로 유의미한 개선 또는 그에 대한 효과를 의미한다. 예방 이익에 있어서, 조성물은 특정 질병, 질환 또는 증상이 발생할 위험이 있는 대상체에게 또는 질병, 질환 또는 증상이 아직 나타나지 않을지라도, 질병의 하나 이상의 생리학적 증상을 보고하는 대상체에게 투여될 수 있다.
용어 "유효량" 또는 "치료적 유효량"은 유리한 또는 요망되는 결과를 야기하기에 충분한 작용제의 양을 지칭한다. 치료적 유효량은 치료되는 대상체 및 병태, 대상체의 체중 및 연령, 병태의 중증도, 투여 방식 등 중 하나 이상에 따라 달라질 수 있으며, 이는 당업자에 의해 용이하게 결정될 수 있다. 또한, 상기 용어는 본원에 기술된 영상화 방법 중 임의의 것에 의한 검출을 위한 이미지를 제공할 용량에 적용된다. 특정 용량은 선택된 특정 작용제, 뒤따르는 투여 요법, 그것이 다른 화합물과 병용하여 투여되는지 여부, 투여 시기, 영상화되는 조직 및 그것을 운반하는 신체 전달 시스템 중 하나 이상에 따라 달라질 수 있다.
본 발명의 실시는 달리 나타내지 않는 한, 당업계의 기술 내에 있는 면역학, 생화학, 화학, 분자 생물학, 미생물학, 세포 생물학, 유전체학 및 재조합 DNA의 통상의 기술을 사용한다. 문헌[Sambrook, Fritsch and Maniatis, MOLECULAR CLONING: A LABORATORY MANUAL, 2nd edition (1989)]; 문헌[CURRENT PROTOCOLS IN MOLECULAR BIOLOGY (F. M. Ausubel, et al. eds., (1987))]; 시리즈 문헌[METHODS IN ENZYMOLOGY (Academic Press, Inc.): PCR 2: A PRACTICAL APPROACH (M.J. MacPherson, B.D. Hames and G.R. Taylor eds. (1995)), Harlow and Lane, eds. (1988) ANTIBODIES, A LABORATORY MANUAL, and ANIMAL CELL CULTURE (R.I. Freshney, ed. (1987))]을 참조한다.
본 발명의 몇몇 양태는 하나 이상의 벡터를 포함하는 벡터 시스템 또는 그와 같은 벡터에 관한 것이다. 벡터는 원핵 또는 진핵 세포에서 CRISPR 전사물(예를 들어, 핵산 전사물, 단백질 또는 효소)의 발현을 위해 설계될 수 있다. 예를 들어, CRISPR 전사물은 박테리아 세포, 예를 들어, 에스케리키아 콜라이, 곤충 세포(배큘로바이러스 발현 벡터 사용), 효모 세포 또는 포유동물 세포에서 발현될 수 있다. 적절한 숙주 세포는 문헌[Goeddel, GENE EXPRESSION TECHNOLOGY: METHODS IN ENZYMOLOGY 185, Academic Press, San Diego, Calif. (1990)]에 추가로 논의되어 있다. 대안적으로, 재조합 발현 벡터는 예를 들어, T7 프로모터 조절 서열 및 T7 중합효소를 사용하여 시험관내에서 전사되고 번역될 수 있다.
벡터는 원핵생물에 도입되고, 그에서 증식될 수 있다. 일부 구현예에서, 원핵생물은 진핵 세포로 도입되거나 또는 진핵 세포로 도입되는 벡터의 생성에서 중간체 벡터(예를 들어, 바이러스 벡터 패키징 시스템의 일부로서 플라스미드 증폭)로서 벡터의 카피를 증폭시키기 위해서 사용될 수 있다. 일부 구현예에서, 원핵생물은 벡터의 카피를 증폭시키고, 하나 이상의 핵산을 발현하기 위해, 예를 들어, 숙주 세포 또는 숙주 유기체로의 전달을 위한 하나 이상의 단백질의 공급원을 제공하기 위해 사용된다. 원핵생물에서의 단백질의 발현은 자주 융합 또는 비-융합 단백질 중 어느 하나의 발현을 유도하는 구성성 또는 유도성 프로모터를 함유하는 벡터를 사용하여 에스케리키아 콜라이에서 수행된다. 융합 벡터는 거기에 인코딩된 단백질로, 예를 들어, 재조합 단백질의 아미노 말단으로 수많은 아미노산을 부가한다. 이러한 융합 벡터는 다음과 같은 하나 이상의 목적을 제공할 수 있다: (i) 재조합 단백질의 발현의 증가; (ii) 재조합 단백질의 용해도의 증가; 및 (iii) 친화성 정제에서 리간드로 작용함으로써 재조합 단백질의 정제의 보조. 종종, 융합 발현 벡터에서, 단백질분해 절단 부위는 융합 모이어티와 재조합 단백질의 연접부에 도입되어, 융합 단백질의 정제 이후에 융합 모이어티로부터 재조합 단백질의 분리를 가능하게 한다. 이러한 효소 및 그들의 동족 인식 서열은 인자 Xa, 트롬빈 및 엔테로키나아제를 포함한다. 예시적인 융합 발현 벡터는 pGEX(파마시아 바이오테크 인코포레이티드(Pharmacia Biotech Inc); 문헌[Smith and Johnson, 1988. Gene 67: 31-40]), pMAL(미국 매사추세츠주 비벌리 소재의 뉴 잉글랜드 바이오랩스(New England Biolabs)) 및 pRIT5(미국 뉴저지주 피스카타웨이 소재의 파마시아(Pharmacia))를 포함하며, 이는 각각 글루타티온 S-트랜스퍼라제(GST), 말토스 E 결합 단백질 또는 단백질 A를 표적 재조합 단백질에 융합시킨다.
적절한 유도성 비-융합 에스케리키아 콜라이 발현 벡터의 예는 pTrc(문헌[Amrann et al., (1988) Gene 69:301-315]) 및 pET 11d(문헌[Studier et al., GENE EXPRESSION TECHNOLOGY: METHODS IN ENZYMOLOGY 185, Academic Press, San Diego, Calif. (1990) 60-89])를 포함한다.
일부 구현예에서, 벡터는 효모 발현 벡터이다. 효모 사카로마이세스 세레비지애에서의 발현을 위한 벡터의 예에는 pYepSec1(문헌[Baldari, et al., 1987. EMBO J. 6: 229-234]), pMFa(문헌[Kuijan and Herskowitz, 1982. Cell 30: 933-943]), pJRY88(문헌[Schultz et al., 1987. Gene 54: 113-123]), pYES2(미국 캘리포니아주 샌 디에고 소재의 인비트로겐 코포레이션) 및 picZ(미국 캘리포니아주 샌 디에고 소재의 인비트로겐 코포레이션)가 포함된다.
일부 구현예에서, 벡터는 배큘로바이러스 발현 벡터를 사용하여 곤충 세포에서 단백질 발현을 유도한다. 배양된 곤충 세포(예를 들어, SF9 세포)에서 단백질의 발현에 이용가능한 배큘로바이러스 벡터는 pAc 시리즈(문헌[Smith, et al., 1983. Mol. Cell. Biol. 3: 2156-2165]) 및 pVL 시리즈(문헌[Lucklow and Summers, 1989. Virology 170: 31-39])를 포함한다.
일부 구현예에서, 벡터는 포유동물 발현 벡터를 사용하여 포유동물 세포에서 하나 이상의 서열의 발현을 유도할 수 있다. 포유동물 발현 벡터의 예는 pCDM8(문헌[Seed, 1987. Nature 329: 840]) 및 pMT2PC(문헌[Kaufman, et al., 1987. EMBO J. 6: 187-195])를 포함한다. 포유동물 세포에서 사용되는 경우, 발현 벡터의 조절 기능은 전형적으로 하나 이상의 조절 요소에 의해 제공된다. 예를 들어, 통상적으로 사용되는 프로모터는 폴리오마, 아데노바이러스 2, 사이토메갈로바이러스, 유인원 바이러스 40 및 본원에 개시되고 당업계에 공지되어 있는 기타의 것으로부터 유래된다. 원핵 및 진핵 세포 둘 모두를 위한 다른 적절한 발현 시스템에 대하여, 예를 들어, 문헌[Sambrook, et al., MOLECULAR CLONING: A LABORATORY MANUAL. 2nd ed., Cold Spring Harbor Laboratory, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y., 1989]의 16 및 17장을 참조한다.
일부 구현예에서, 재조합 포유동물 발현 벡터는 특정 세포 유형에서 우선적으로 핵산의 발현을 유도할 수 있다(예를 들어, 핵산을 발현하기 위하여 조직-특이적 조절 요소가 사용됨). 조직-특이적 조절 요소가 해당 분야에 공지되어 있다. 적절한 조직-특이적 프로모터의 비제한적인 예에는 알부민 프로모터(간-특이적; 문헌[Pinkert, et al., 1987. Genes Dev. 1: 268-277]), 림프-특이적 프로모터(문헌[Calame and Eaton, 1988. Adv. Immunol. 43: 235-275]), 특히, T 세포 수용체(문헌[Winoto and Baltimore, 1989. EMBO J. 8: 729-733]) 및 면역글로불린의 프로모터(문헌[Baneiji, et al., 1983. Cell 33: 729-740]; 문헌[Queen and Baltimore, 1983. Cell 33: 741-748]), 뉴런-특이적 프로모터(예를 들어, 신경섬유 프로모터; 문헌[Byrne and Ruddle, 1989. Proc. Natl. Acad. Sci. USA 86: 5473-5477]), 췌장-특이적 프로모터(문헌[Edlund, et al., 1985. Science 230: 912-916]) 및 유선-특이적 프로모터(예를 들어, 유장(milk whey) 프로모터; 미국 특허 제4,873,316호 및 유럽 출원 공개 제264,166호)가 포함된다. 발생-조절 프로모터, 예를 들어, 쥣과 hox 프로모터(문헌[Kessel and Gruss, 1990. Science 249: 374-379]) 및 α-태아단백질 프로모터(문헌[Campes and Tilghman, 1989. Genes Dev. 3: 537-546])도 또한 포함된다.
일부 구현예에서, 조절 요소는 CRISPR 시스템의 하나 이상의 요소에 작동가능하게 연결되어 CRISPR 시스템의 하나 이상의 요소의 발현을 유도한다. 일반적으로, SPIDR(스페이서 산재 직접 반복부)로도 공지되어 있는 CRISPR(클러스터링되고 규칙적으로 산재된 짧은 팔린드로믹 반복부)은 통상 특정 박테리아 종에 특이적인 DNA 유전자좌의 과를 구성한다. CRISPR 유전자좌는 에스케리키아 콜라이에서 인식되는 별개의 부류의 산재된 짧은 서열 반복부(SSR) 및 관련 유전자를 포함한다(문헌[Ishino et al., J. Bacteriol., 169:5429-5433 [1987]]; 및 문헌[Nakata et al., J. Bacteriol., 171:3553-3556 [1989]]). 유사한 산재된 SSR이 할로페락스 메디테라네이(Haloferax mediterranei), 스트렙토코커스 피오게네스, 아나바에나(Anabaena) 및 마이코박테리움 튜베르큘로시스(Mycobacterium tuberculosis)에서 확인되었다(문헌[Groenen et al., Mol. Microbiol., 10:1057-1065 [1993]]; 문헌[Hoe et al., Emerg. Infect. Dis., 5:254-263 [1999]]; 문헌[Masepohl et al., Biochim. Biophys. Acta 1307:26-30 [1996]]; 및 문헌[Mojica et al., Mol. Microbiol., 17:85-93 [1995]] 참조). CRISPR 유전자좌는 전형적으로 SRSR(규칙적으로 산재된 짧은 반복부(short regularly spaced repeats))로 명명된 반복부의 구조가 다른 SSR과 상이하다(문헌[Janssen et al., OMICS J. Integ. Biol., 6:23-33 [2002]]; 및 문헌[Mojica et al., Mol. Microbiol., 36:244-246 [2000]]). 일반적으로, 반복부는 실질적으로 고정된 길이를 갖는 독특한 개재 서열에 의해 규칙적으로 산재된 클러스터에 존재하는 짧은 요소이다(상기 문헌[Mojica et al., [2000]]). 반복 서열이 균주들 간에 고도로 보존되어 있지만, 산재된 반복부의 수와 스페이서 영역의 서열은 전형적으로 균주마다 상이하다(문헌[van Embden et al., J. Bacteriol., 182:2393-2401 [2000]]). CRISPR 유전자좌는 아에로피룸(Aeropyrum), 피로바쿨룸(Pyrobaculum), 술폴로부스(Sulfolobus), 아캐오글로부스(Archaeoglobus), 할로카르쿨라(Halocarcula), 메타노박테리움(Methanobacterium), 메타노코커스(Methanococcus), 메타노사르시나(Methanosarcina), 메타노피러스(Methanopyrus), 피로코커스(Pyrococcus), 피크로필러스(Picrophilus), 써모플라스마(Thermoplasma), 코리네박테리움(Corynebacterium), 마이코박테리움(Mycobacterium), 스트렙토마이세스(Streptomyces), 아퀴펙스(Aquifex), 포르피로모나스(Porphyromonas), 클로로비움(Chlorobium), 써머스(Thermus), 바실러스(Bacillus), 리스테리아(Listeria), 스타필로코커스(Staphylococcus), 클로스트리디움(Clostridium), 써모아나에로박터(Thermoanaerobacter), 마이코플라스마(Mycoplasma), 푸소박테리움(Fusobacterium), 아자쿠스(Azarcus), 크로모박테리움(Chromobacterium), 네이세리아(Neisseria), 니트로소모나스(Nitrosomonas), 데설포비브리오(Desulfovibrio), 게오박터(Geobacter), 믹소코커스(Myxococcus), 캄필로박터, 볼리넬라(Wolinella), 아시네토박터(Acinetobacter), 에르위니아(Erwinia), 에스케리키아, 레지오넬라(Legionella), 메틸로코커스(Methylococcus), 파스퇴렐라(Pasteurella), 포토박테리움(Photobacterium), 살모넬라(Salmonella), 잔토모나스(Xanthomonas), 예르시니아(Yersinia), 트레포네마(Treponema) 및 써모토가(Thermotoga)를 포함하나 이들에 한정되지 않는 40개 초과의 원핵생물에서 확인되었다(예를 들어, 문헌[Jansen et al., Mol. Microbiol., 43:1565-1575 [2002]]; 및 문헌[Mojica et al., [2005]] 참조).
일반적으로, "CRISPR 시스템"은 집합적으로 Cas 유전자를 인코딩하는 서열, tracr(트랜스-활성화 CRISPR) 서열(예를 들어, tracrRNA 또는 활성 부분 tracrRNA), tracr-메이트 서열(내인성 CRISPR 시스템의 맥락에서 "직접 반복부" 및 tracrRNA-가공 부분 직접 반복부 포함), 가이드 서열(내인성 CRISPR 시스템의 맥락에서 "스페이서"로도 지칭) 또는 CRISPR 유전자좌로부터의 기타 서열 및 전사물을 포함하는 CRISPR-관련("Cas") 유전자의 발현에 수반되거나, 그의 활성을 유도하는 전사물 및 다른 요소를 지칭한다. 일부 구현예에서, CRISPR 시스템의 하나 이상의 요소는 I형, II형 또는 III형 CRISPR 시스템으로부터 유래된다. 일부 구현예에서, CRISPR 시스템의 하나 이상의 요소는 내인성 CRISPR 시스템을 포함하는 특정 유기체, 예를 들어, 스트렙토코커스 피오게네스로부터 유래된다. 일반적으로, CRISPR 시스템은 표적 서열의 부위에서 CRISPR 복합체의 형성을 증진시키는 요소(내인성 CRISPR 시스템의 맥락에서 프로토스페이서로도 지칭)를 특징으로 한다. CRISPR 복합체의 형성의 맥락에서, "표적 서열"은 가이드 서열이 상보성을 갖도록 설계된 서열을 지칭하며, 여기서, 표적 서열과 가이드 서열 간의 혼성화는 CRISPR 복합체의 형성을 증진시킨다. 본질적으로 완전한 상보성이 필요하지 않지만, 혼성화를 야기하고, CRISPR 복합체의 형성을 증진시키는 충분한 상보성이 존재한다. 표적 서열은 임의의 폴리뉴클레오티드, 예를 들어, DNA 또는 RNA 폴리뉴클레오티드를 포함할 수 있다. 일부 구현예에서, 표적 서열은 세포의 핵 또는 세포질 내에 위치한다. 일부 구현예에서, 표적 서열은 진핵 세포의 세포기관, 예를 들어, 미토콘드리아 또는 엽록체 내에 존재할 수 있다. 표적 서열을 포함하는 표적화된 유전자좌로의 재조합을 위해 사용될 수 있는 서열 또는 주형은 "교정 주형" 또는 "교정 폴리뉴클레오티드" 또는 "교정 서열"로 지칭된다. 본 발명의 양태에서, 외인성 주형 폴리뉴클레오티드는 교정 주형으로 지칭될 수 있다. 본 발명의 일 양태에서, 재조합은 상동성 재조합이다.
전형적으로, 내인성 CRISPR 시스템의 맥락에서, CRISPR 복합체(표적 서열에 혼성화되고, 하나 이상의 Cas 단백질과 복합체화되는 가이드 서열을 포함)의 형성은 표적 서열 내의 또는 그 근처의(예를 들어, 그로부터 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50개 이상의 염기쌍 내의) 하나의 또는 둘 모두의 가닥의 절단을 야기한다. 이론에 구속되지 않으면서, 야생형 tracr 서열의 전부 또는 그의 일부(예를 들어, 야생형 tracr 서열의 약 20, 26, 32, 45, 48, 54, 63, 67, 85개 이상의 뉴클레오티드)를 포함하거나 그로 이루어질 수 있는 tracr 서열은 또한, 가이드 서열에 작동가능하게 연결된 tracr 메이트 서열의 전부 또는 일부로의 tracr 서열의 적어도 일부분에 따른 혼성화에 의해서와 같이 CRISPR 복합체의 일부를 형성할 수 있다. 일부 구현예에서, tracr 서열은 혼성화하고, CRISPR 복합체의 형성에 참여하기에 충분한, tracr 메이트 서열에 대한 상보성을 갖는다. 표적 서열과 마찬가지로, 완전한 상보성이 필요하지 않지만, 작용성이기에 충분한 상보성이 존재하는 것으로 여겨진다. 일부 구현예에서, tracr 서열은 최적으로 정렬되는 경우 tracr 메이트 서열의 길이를 따라 적어도 50%, 60%, 70%, 80%, 90%, 95% 또는 99%의 서열 상보성을 갖는다. 일부 구현예에서, CRISPR 시스템의 하나 이상의 요소의 발현을 유도하는 하나 이상의 벡터는 CRISPR 시스템의 요소의 발현이 하나 이상의 표적 부위에서 CRISPR 복합체의 형성을 유도하도록 숙주 세포 내로 도입된다. 예를 들어, Cas 효소, tracr-메이트 서열에 연결된 가이드 서열 및 tracr 서열은 각각 개별 벡터 상의 개별 조절 요소에 작동가능하게 연결될 수 있다. 대안적으로, 동일하거나 상이한 조절 요소로부터 발현되는 요소 중 둘 이상은 단일의 벡터에서 조합될 수 있으며, 하나 이상의 추가의 벡터는 제1 벡터에 포함되지 않은 CRISPR 시스템의 임의의 성분을 제공한다. 단일의 벡터에서 조합되는 CRISPR 시스템 요소는 임의의 적절한 배향으로 배열될 수 있으며, 예를 들어, 하나의 요소는 제2 요소에 대하여 5'에(그의 "상류"에) 위치하거나 그에 대하여 3'에(그의 "하류"에) 위치한다. 하나의 요소의 코딩 서열은 제2 요소의 코딩 서열의 동일한 가닥 또는 반대 가닥에 위치할 수 있으며, 동일하거나 반대 방향으로 배향될 수 있다. 일부 구현예에서, 단일의 프로모터는 CRISPR 효소를 인코딩하는 전사물 및 하나 이상의 인트론 서열 내에(예를 들어, 각각이 상이한 인트론 내에, 2개 이상이 적어도 하나의 인트론 내에 또는 전부가 단일의 인트론 내에) 매립된 가이드 서열, tracr 메이트 서열(선택적으로 가이드 서열에 작동가능하게 연결), 및 tracr 서열 중 하나 이상의 발현을 유도한다. 일부 구현예에서, CRISPR 효소, 가이드 서열, tracr 메이트 서열 및 tracr 서열이 동일한 프로모터에 작동가능하게 연결되고, 그로부터 발현된다.
일부 구현예에서, 벡터는 하나 이상의 삽입 부위, 예를 들어, 제한 엔도뉴클레아제 인식 서열("클로닝 부위"로도 지칭)을 포함한다. 일부 구현예에서, 하나 이상의 삽입 부위(예를 들어, 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개 이상의 삽입 부위)는 하나 이상의 벡터의 하나 이상의 서열 요소의 상류 및/또는 하류에 위치한다. 일부 구현예에서, 벡터는 tracr 메이트 서열의 상류에 있고, 선택적으로 tracr 메이트 서열에 작동가능하게 연결된 조절 요소의 하류에 있는 삽입 부위를 포함하여, 삽입 부위로의 가이드 서열의 삽입 후에, 그리고 발현 시에, 가이드 서열이 진핵 세포 내의 표적 서열로의 CRISPR 복합체의 서열-특이적 결합을 유도하게 한다. 일부 구현예에서, 벡터는 2개 이상의 삽입 부위를 포함하며, 각각의 삽입 부위는 2개의 tracr 메이트 서열 사이에 위치하여, 각 부위에서 가이드 서열의 삽입을 가능하게 한다. 이러한 배열에서, 2개 이상의 가이드 서열은 단일의 가이드 서열의 2개 이상의 카피, 2개 이상의 상이한 가이드 서열 또는 이들의 조합을 포함할 수 있다. 다중의 상이한 가이드 서열이 사용되는 경우, 단일의 발현 작제물을 사용하여 세포 내의 다중의 상이한 상응하는 표적 서열에 CRISPR 활성을 표적화할 수 있다. 예를 들어, 단일의 벡터는 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20개 이상의 가이드 서열을 포함할 수 있다. 일부 구현예에서, 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개 이상의 이러한 가이드-서열-함유 벡터가 제공될 수 있으며, 선택적으로 세포로 전달될 수 있다.
일부 구현예에서, 벡터는 CRISPR 효소, 예를 들어, Cas 단백질을 인코딩하는 효소-코딩 서열에 작동가능하게 연결된 조절 요소를 포함한다. Cas 단백질의 비제한적인 예는 Cas1, Cas1B, Cas2, Cas3, Cas4, Cas5, Cas6, Cas7, Cas8, Cas9(Csn1 및 Csx12로도 알려짐), Cas10, Csy1, Csy2, Csy3, Cse1, Cse2, Csc1, Csc2, Csa5, Csn2, Csm2, Csm3, Csm4, Csm5, Csm6, Cmr1, Cmr3, Cmr4, Cmr5, Cmr6, Csb1, Csb2, Csb3, Csx17, Csx14, Csx10, Csx16, CsaX, Csx3, Csx1, Csx15, Csf1, Csf2, Csf3, Csf4, 그의 상동체 또는 그의 변형된 버전을 포함한다. 이들 효소가 알려져 있으며; 예를 들어, 스트렙토코커스 피오게네스 Cas9 단백질의 아미노산 서열은 수탁 번호 Q99ZW2 하에 스위스프로트(SwissProt) 데이터베이스에서 관찰될 수 있다. 일부 구현예에서, 비변형 CRISPR 효소, 예를 들어, Cas9는 DNA 절단 활성을 갖는다. 일부 구현예에서, CRISPR 효소는 Cas9이며, 스트렙토코커스 피오게네스 또는 스트렙토코커스 뉴모니애로부터의 Cas9일 수 있다. 일부 구현예에서, CRISPR 효소는 표적 서열 내 및/또는 표적 서열의 상보물 내에서와 같은 표적 서열의 위치에서 1개 또는 2개의 가닥의 절단을 유도한다. 일부 구현예에서, CRISPR 효소는 표적 서열의 처음 또는 마지막 뉴클레오티드로부터 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 50, 100, 200, 500개 이상의 염기쌍에서 1개 또는 2개의 가닥의 절단을 유도한다. 일부 구현예에서, 벡터는 상응하는 야생형 효소에 대하여 돌연변이되어, 돌연변이된 CRISPR 효소에 표적 서열을 함유하는 표적 폴리뉴클레오티드의 1개 또는 2개 모두의 가닥의 절단 능력이 결여되게 한 CRISPR 효소를 인코딩한다. 예를 들어, 스트렙토코커스 피오게네스로부터의 Cas9의 RuvC I 촉매 도메인 내에서의 아스파르트산에서 알라닌으로의 치환(D10A)은 Cas9를 둘 모두의 가닥을 절단하는 뉴클레아제에서 닉카아제(단일 가닥 절단)로 전환시킨다. Cas9가 닉카아제가 되게 하는 돌연변이의 다른 예는 제한 없이, H840A, N854A 및 N863A를 포함한다. 일부 구현예에서, Cas9 닉카아제는 가이드 서열(들), 예를 들어, 각각 DNA 표적의 센스 및 안티센스 가닥을 표적화하는 2개의 가이드 서열과 병용하여 사용될 수 있다. 이러한 조합은 둘 모두의 가닥에 닉(nick)이 생기게 하고, NHEJ를 유도하는데 사용되게 한다. 본 발명자들은 돌연변이유발 NHEJ의 유도에서 2개의 닉카아제 표적(즉, DNA의 동일한 위치에, 그러나, 상이한 가닥에 표적화된 sgRNA)의 효능을 입증하였다(데이터 미도시). 단일의 닉카아제(단일의 sgRNA가 있는 Cas9-D10A)는 NHEJ를 유도하고, 삽입-결실을 생성할 수 없지만, 본 발명자들은 이중 닉카아제(Cas9-D10A 및 동일한 위치에서 상이한 가닥에 표적화된 2개의 sgRNA)가 인간 배아 줄기 세포(hESC)에서 그럴 수 있음을 보였다. 효율은 hESC에서 뉴클레아제(즉, D10 돌연변이가 없는 보통의 Cas9)의 약 50%이다.
추가의 예로서, Cas9의 2개 이상의 촉매 도메인(RuvC I, RuvC II 및 RuvC III)을 돌연변이시켜, 모든 DNA 절단 활성이 실질적으로 결여된 돌연변이된 Cas9를 생성할 수 있다. 일부 구현예에서, D10A 돌연변이를 H840A, N854A 또는 N863A 돌연변이 중 하나 이상과 조합하여, 모든 DNA 절단 활성이 실질적으로 결여된 Cas9 효소를 생성한다. 일부 구현예에서, CRISPR 효소는 돌연변이된 효소의 DNA 절단 활성이 비-돌연변이 형태에 대하여 약 25%, 10%, 5%, 1%, 0.1%, 0.01% 이하인 경우 모든 DNA 절단 활성이 실질적으로 결여된 것으로 여겨진다. 다른 돌연변이가 유용할 수 있으며; 여기서, Cas9 또는 다른 CRISPR 효소는 스트렙토코커스 피오게네스 이외의 종으로부터의 것이며, 유사한 효과를 달성하기 위하여 상응하는 아미노산의 돌연변이가 이루어질 수 있다.
일부 구현예에서, CRISPR 효소를 인코딩하는 효소 코딩 서열은 특정 세포, 예를 들어, 진핵 세포에서의 발현을 위해 코돈 최적화된다. 진핵 세포는 인간, 마우스, 랫트, 토끼, 개 또는 비인간 영장류를 포함하나 이들에 한정되지 않는 특정 유기체, 예를 들어, 포유동물의 것이거나 그로부터 유래될 수 있다. 일반적으로, 코돈 최적화는 고유 서열의 적어도 하나의 코돈(예를 들어, 약 1, 2, 3, 4, 5, 10, 15, 20, 25, 50개 이상의 코돈)을 숙주 세포의 유전자에 더욱 빈번하게 또는 가장 빈번하게 사용되는 코돈으로 대체하면서, 고유 아미노산 서열을 유지함으로써 대상 숙주 세포에서의 발현의 증진을 위해 핵산 서열을 변형시키는 과정을 지칭한다. 다양한 종은 특정 아미노산의 특정 코돈에 대한 특정 편향을 나타낸다. 코돈 편향(유기체 간의 코돈 사용의 차이)은 종종 전령 RNA(mRNA)의 번역의 효율과 상호관련되며, 이는 차례로, 다른 것들 중에, 번역되는 코돈의 특성 및 특정 운반 RNA(tRNA) 분자의 이용가능성에 좌우되는 것으로 여겨진다. 세포에서의 선택된 tRNA의 우세는 일반적으로 펩티드 합성에 가장 빈번하게 사용되는 코돈을 반영하는 것이다. 따라서, 유전자는 코돈 최적화에 기초하여 주어진 유기체에서의 최적의 유전자 발현을 위해 맞춤화될 수 있다. 코돈 사용 표는 예를 들어, "코돈 사용 데이터베이스"에서 용이하게 이용가능하며, 이들 표는 다수의 방식으로 적합하게 될 수 있다. 문헌[Nakamura, Y., et al. "Codon usage tabulated from the international DNA sequence databases: status for the year 2000" Nucl. Acids Res. 28:292 (2000)]을 참조한다. 특정 숙주 세포에서의 발현을 위해 특정 서열을 코돈 최적화시키는 컴퓨터 알고리즘도 또한 이용가능하며, 예를 들어, 진 포르지(Gene Forge)(압타젠(Aptagen); 미국 펜실베니아주 야코부스)도 또한 이용가능하다. 일부 구현예에서, CRISPR 효소를 인코딩하는 효소 내의 하나 이상의 코돈(예를 들어, 1, 2, 3, 4, 5, 10, 15, 20, 25, 50개 이상 또는 모든 코돈)은 특정 아미노산에 대하여 가장 빈번하게 사용되는 코돈에 상응한다.
일부 구현예에서, 벡터는 하나 이상의 핵 국소화 서열(NLS), 예를 들어, 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개 이상의 NLS를 포함하는 CRISPR 효소를 인코딩한다. 일부 구현예에서, CRISPR 효소는 아미노-말단에 또는 그 근처에 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개 이상의 NLS, 카르복시-말단에 또는 그 근처에 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개 이상의 NLS, 또는 이들의 조합(예를 들어, 아미노 말단에 하나 이상의 NLS 및 카르복시 말단에 하나 이상의 NLS)을 포함한다. 1개 초과의 NLS가 존재하는 경우, 각각은 단일의 NLS가 1개 초과의 카피로 존재하고/거나 1개 이상의 카피로 존재하는 하나 이상의 다른 NLS와 함께 존재할 수 있도록 다른 것들로부터 독립적으로 선택될 수 있다. 본 발명의 바람직한 구현예에서, CRISPR 효소는 최대 6개의 NLS를 포함한다. 일부 구현예에서, NLS는 NLS의 가장 가까운 아미노산이 N- 또는 C-말단으로부터 폴리펩티드 쇄를 따라 약 1, 2, 3, 4, 5, 10, 15, 20, 25, 30, 40, 50개 이상의 아미노산 내에 존재하는 경우 N- 또는 C-말단 근처에 있는 것으로 여겨진다. 전형적으로, NLS는 단백질 표면에 노출된 양으로 하전된 라이신 또는 아르기닌이 있는 하나 이상의 짧은 서열로 이루어지나, 다른 유형의 NLS이 알려져 있다. NLS의 비제한적인 예는 하기로부터 유래된 NLS 서열을 포함한다: 아미노산 서열 PKKKRKV를 갖는 SV40 바이러스 대형 T-항원의 NLS; 뉴클레오플라스민(nucleoplasmin)으로부터의 NLS(예를 들어, 서열 KRPAATKKAGQAKKKK를 갖는 뉴클레오플라스민 이분(bipartite) NLS); 아미노산 서열 PAAKRVKLD 또는 RQRRNELKRSP를 갖는 c-myc NLS; 서열 NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY를 갖는 hRNPA1 M9 NLS; 임포틴-알파로부터의 IBB 도메인의 서열 RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV; 마이오마(myoma) T 단백질의 서열 VSRKRPRP 및 PPKKARED; 인간 p53의 서열 POPKKKPL; 마우스 c-abl IV의 서열 SALIKKKKKMAP; 인플루엔자 바이러스 NS1의 서열 DRLRR 및 PKQKKRK; 간염 바이러스 델타 항원의 서열 RKLKKKIKKL; 마우스 Mx1 단백질의 서열 REKKKFLKRR; 인간 폴리(ADP-리보스) 중합효소의 서열 KRKGDEVDGVDEVAKKKSKK; 및 스테로이드 호르몬 수용체(인간) 글루코코르티코이드의 서열 RKCLQAGMNLEARKTKK.
일반적으로, 하나 이상의 NLS는 진핵 세포의 핵에서 검출가능한 양의 CRISPR 효소의 축적을 유도하기에 충분한 세기의 것이다. 일반적으로, 핵 국소화 활성의 세기는 CRISPR 효소 내의 NLS의 수, 사용되는 특정 NLS(들) 또는 이들 인자의 조합으로부터 유래할 수 있다. 핵에서의 축적의 검출은 임의의 적절한 기술에 의해 수행될 수 있다. 예를 들어, 검출가능한 마커는 예를 들어, 핵의 위치를 검출하기 위한 수단(예를 들어, 핵에 특이적인 염색제, 예를 들어, DAPI)과 함께 세포 내의 위치가 가시화될 수 있도록 CRISPR 효소에 융합될 수 있다. 검출가능한 마커의 예는 형광 단백질(예를 들어, 녹색 형광 단백질 또는 GFP; RFP; CFP) 및 에피토프 태그(HA 태그, flag 태그, SNAP 태그)를 포함한다. 또한, 세포 핵을 세포로부터 분리할 수 있으며, 그 다음, 그의 내용물을 단백질을 검출하기 위한 임의의 적절한 과정, 예를 들어, 면역조직화학, 웨스턴 블롯 또는 효소 활성 검정에 의해 분석할 수 있다. 또한, 핵에서의 축적은 예를 들어, CRISPR 효소 또는 복합체에 노출되지 않거나, 하나 이상의 NLS가 결여된 CRISPR 효소에 노출된 대조군과 비교하여, 간접적으로, 예를 들어, CRISPR 복합체 형성의 영향에 대한 검정(예를 들어, 표적 서열에서의 DNA 절단 또는 돌연변이에 대한 검정, 또는 CRISPR 복합체 형성 및/또는 CRISPR 효소 활성에 의해 영향을 받는 변경된 유전자 발현 활성에 대한 검정)에 의해 결정될 수 있다.
일반적으로, 가이드 서열은 표적 서열과 혼성화하고, 표적 서열로의 CRISPR 복합체의 서열-특이적 결합을 유도하기에 충분한, 표적 폴리뉴클레오티드 서열과의 상보성을 갖는 임의의 폴리뉴클레오티드 서열이다. 일부 구현예에서, 가이드 서열과 그의 상응하는 표적 서열 간의 상보성의 정도는 적절한 정렬 알고리즘을 사용하여 최적으로 정렬되는 경우, 약 50%, 60%, 75%, 80%, 85%, 90%, 95%, 97.5%, 99% 이상이다. 최적의 정렬은 서열을 정렬하기에 적절한 임의의 알고리즘의 사용으로 결정될 수 있으며, 그의 비제한적인 예는 스미스-워터만(Smith-Waterman) 알고리즘, 니들만-분쉬(Needleman-Wunsch) 알고리즘, 버로우즈-휠러 트랜스폼(Burrows-Wheeler Transform)에 기초한 알고리즘(예를 들어, 버로우즈 휠러 얼라이너(Burrows Wheeler Aligner)), ClustalW, Clustal X, BLAT, 노보얼라인(Novoalign)(노보크라프트 테크놀로지즈(Novocraft Technologies), ELAND(일루미나(Illumina), 미국 캘리포니아주 샌 디에고), SOAP(soap.genomics.org.cn에서 이용가능) 및 Maq(maq.sourceforge.net에서 이용가능)를 포함한다. 일부 구현예에서, 가이드 서열은 약 5, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 35, 40, 45, 50, 75개 이상의 뉴클레오티드 길이이다. 일부 구현예에서, 가이드 서열은 약 75, 50, 45, 40, 35, 30, 25, 20, 15, 12개 이하의 뉴클레오티드 길이이다. 표적 서열로의 CRISPR 복합체의 서열-특이적 결합을 유도하는 가이드 서열의 능력은 임의의 적절한 검정에 의해 평가될 수 있다. 예를 들어, 시험되는 가이드 서열을 포함하는 CRISPR 복합체를 형성하기에 충분한 CRISPR 시스템의 성분은 예를 들어, CRISPR 서열의 성분을 인코딩하는 벡터로의 트랜스펙션 후에, 예를 들어, 본원에 기술된 바와 같은 서베이어 검정에 의한 표적 서열 내의 우선적인 절단의 평가에 의해서와 같이, 상응하는 표적 서열을 갖는 숙주 세포로 제공될 수 있다. 유사하게, 표적 폴리뉴클레오티드 서열의 절단은 표적 서열, 시험되는 가이드 서열 및 시험 가이드 서열과 상이한 대조군 가이드 서열을 포함하는 CRISPR 복합체의 성분을 제공하고, 표적 서열에서 시험 및 대조군 가이드 서열 반응 간의 결합 또는 절단 비율을 비교함으로써 시험관에서 평가될 수 있다. 다른 검정이 가능하며, 당업자에게 떠오를 것이다.
가이드 서열은 임의의 표적 서열을 표적화하도록 선택될 수 있다. 일부 구현예에서, 표적 서열은 세포의 게놈 내의 서열이다. 예시적인 표적 서열은 표적 게놈에서 독특한 것들을 포함한다. 예를 들어, 스트렙토코커스 피오게네스 Cas9에 대하여, 게놈 내의 독특한 표적 서열은 형태 MMMMMMMMNNNNNNNNNNNNXGG의 Cas9 표적 부위를 포함할 수 있으며, 여기서, NNNNNNNNNNNNXGG(N은 A, G, T 또는 C이며; X는 임의의 것일 수 있음)는 게놈 내에 단일의 존재를 갖는다. 게놈 내의 독특한 표적 서열은 형태 MMMMMMMMMNNNNNNNNNNNXGG의 스트렙토코커스 피오게네스 Cas9 표적 부위를 포함할 수 있으며, 여기서, NNNNNNNNNNNXGG(N은 A, G, T 또는 C이며; X는 임의의 것일 수 있음)는 게놈 내에 단일의 존재를 갖는다. 스트렙토코커스 써모필러스 CRISPR1 Cas9에 대하여, 게놈 내의 독특한 표적 서열은 형태 MMMMMMMMNNNNNNNNNNNNXXAGAAW의 Cas9 표적 부위를 포함할 수 있으며, 여기서, NNNNNNNNNNNNXXAGAAW(N은 A, G, T 또는 C이고; X는 임의의 것일 수 있으며; W는 A 또는 T임)는 게놈 내에 단일의 존재를 갖는다. 게놈 내의 독특한 표적 서열은 형태 MMMMMMMMMNNNNNNNNNNNXXAGAAW의 스트렙토코커스 써모필러스 CRISPR1 Cas9 표적 부위를 포함할 수 있으며, 여기서, NNNNNNNNNNNXXAGAAW(N은 A, G, T 또는 C이고; X는 임의의 것일 수 있으며; W는 A 또는 T임)는 게놈 내에 단일의 존재를 갖는다. 스트렙토코커스 피오게네스 Cas9에 대하여, 게놈 내의 독특한 표적 서열은 형태 MMMMMMMMNNNNNNNNNNNNXGGXG의 Cas9 표적 부위를 포함할 수 있으며, 여기서, NNNNNNNNNNNNXGGXG(N은 A, G, T 또는 C이고; X는 임의의 것일 수 있음)는 게놈 내에 단일의 존재를 갖는다. 게놈 내의 독특한 표적 서열은 형태 MMMMMMMMMNNNNNNNNNNNXGGXG의 스트렙토코커스 피오게네스 Cas9 표적 부위를 포함할 수 있으며, 여기서, NNNNNNNNNNNXGGXG(N은 A, G, T 또는 C이고; X는 임의의 것일 수 있음)는 게놈 내에 단일의 존재를 갖는다. 이들 서열 각각에서, "M"은 A, G, T 또는 C일 수 있으며, 서열을 독특한 것으로 확인하는데 고려될 필요는 없다.
일부 구현예에서, 가이드 서열은 가이드 서열 내의 2차 구조의 정도를 감소시키기 위해 선택된다. 2차 구조는 임의의 적절한 폴리뉴클레오티드 폴딩 알고리즘에 의해 결정될 수 있다. 일부 프로그램은 최소 깁스(Gibbs) 자유 에너지의 계산에 기초한다. 이러한 알고리즘의 일 예는 문헌[Zuker and Stiegler (Nucleic Acids Res. 9 (1981), 133-148)]에 기술된 바와 같은 mFold이다. 다른 예시적인 폴딩 알고리즘은 센트로이드 구조 예측 알고리즘(예를 들어, 문헌[A.R. Gruber et al., 2008, Cell 106(1): 23-24]; 및 문헌[PA Carr and GM Church, 2009, Nature Biotechnology 27(12): 1151-62] 참조)을 사용하는 비엔나 대학의 이론 화학 기관에서 개발된 온라인 웹서버 RNAfold이다. 추가의 알고리즘은 본원에 참조로 포함되는 미국 출원 번호 TBA(브로드 참조번호 BI-2012/084 44790.11.2022)에서 찾을 수 있다.
일반적으로, tracr 메이트 서열은 다음 중 하나 이상을 증진시키기에 충분한, tracr 서열과의 상보성을 갖는 임의의 서열을 포함한다: (1) 상응하는 tracr 서열을 함유하는 세포에서 tracr 메이트 서열이 측부 배치된 가이드 서열의 절제; 및 (2) 표적 서열에서의 CRISPR 복합체의 형성으로서, CRISPR 복합체가 tracr 서열에 혼성화되는 tracr 메이트 서열을 포함하는 표적 서열에서의 CRISPR 복합체의 형성. 일반적으로, 상보성의 정도는 2개의 서열 중 더 짧은 서열의 길이에 따른 tracr 메이트 서열과 tracr 서열의 최적의 정렬을 참조한다. 최적의 정렬은 임의의 적절한 정렬 알고리즘에 의해 결정될 수 있으며, tracr 서열 또는 tracr 메이트 서열 중 어느 하나에서의 자가-상보성과 같이 2차 구조를 추가로 설명할 수 있다. 일부 구현예에서, 2개 중 보다 짧은 것의 길이를 따른 tracr 서열과 tracr 메이트 서열 간의 상보성의 정도는 최적으로 정렬되는 경우, 약 25%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 95%, 97.5%, 99% 이상이다. tracr 서열과 tracr 메이트 서열 간의 최적의 정렬의 예시는 도 12b 및 도 13b에 제공되어 있다. 일부 구현예에서, tracr 서열은 약 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 40, 50개 이상의 뉴클레오티드 길이이다. 일부 구현예에서, tracr 서열 및 tracr 메이트 서열은 2개 간의 혼성화가 헤어핀과 같은 2차 구조를 갖는 전사물을 생성하도록 단일의 전사물 내에 함유된다. 헤어핀 구조에 사용하기에 바람직한 루프 형성 서열은 4개 뉴클레오티드 길이이며, 바람직하게는 서열 GAAA를 갖는다. 그러나, 대안적인 서열과 같이 더 길거나 더 짧은 루프 서열이 사용될 수 있다. 서열은 바람직하게는 뉴클레오티드 트리플렛(예를 들어, AAA) 및 추가의 뉴클레오티드(예를 들어, C 또는 G)를 포함한다. 루프 형성 서열의 예는 CAAA 및 AAAG를 포함한다. 본 발명의 일 구현예에서, 전사물 또는 전사된 폴리뉴클레오티드 서열은 적어도 2개 이상의 헤어핀을 갖는다. 바람직한 구현예에서, 전사물은 2, 3, 4 또는 5개의 헤어핀을 갖는다. 본 발명의 추가의 구현예에서, 전사물은 최대 5개의 헤어핀을 갖는다. 일부 구현예에서, 단일의 전사물은 전사 종결 서열을 더 포함하며; 바람직하게는 이것은 폴리T 서열, 예를 들어, 6개의 T 뉴클레오티드이다. 이러한 헤어핀 구조의 예는 도 13b의 하부에 제공되며, 여기서, 루프의 상류 및 마지막 "N"의 5' 서열의 부분은 tracr 메이트 서열에 상응하며, 루프의 3' 서열의 부분은 tracr 서열에 상응한다. 가이드 서열, tracr 메이트 서열 및 tracr 서열을 포함하는 단일의 폴리뉴클레오티드의 추가의 비제한적인 예는 하기와 같으며(5'에서 3'으로 표기), 여기서, "N"은 가이드 서열의 염기를 나타내고, 소문자의 제1 블록은 tracr 메이트 서열을 나타내며, 소문자의 제2 블록은 tracr 서열을 나타내고, 마지막 폴리-T 서열은 전사 종결자를 나타낸다:

일부 구현예에서, 서열 (1) 내지 (3)은 스트렙토코커스 써모필러스 CRISPR1 유래의 Cas9와 함께 사용된다. 일부 구현예에서, 서열 (4) 내지 (6)은 스트렙토코커스 피오게네스 유래의 Cas9와 함께 사용된다. 일부 구현예에서, tracr 서열은 tracr 메이트 서열을 포함하는 전사물과 별개의 전사물이다(예를 들어, 도 13b의 상부에 예시).
일부 구현예에서, 재조합 주형도 또한 제공된다. 재조합 주형은 개별 벡터에 포함되거나, 개별 폴리뉴클레오티드로서 제공되는 본원에 기술된 바와 같은 다른 벡터의 성분일 수 있다. 일부 구현예에서, 재조합 주형은 상동성 재조합에서, 예를 들어, CRISPR 복합체의 일부로서 CRISPR 효소에 의해 닉이 생기거나 절단되는 표적 서열 내 또는 그 근처에서 주형으로 소용되도록 설계된다. 주형 폴리뉴클레오티드는 임의의 적절한 길이, 예를 들어, 약 10, 15, 20, 25, 50, 75, 100, 150, 200, 500, 1000개 이상의 뉴클레오티드 길이의 것일 수 있다. 일부 구현예에서, 주형 폴리뉴클레오티드는 표적 서열을 포함하는 폴리뉴클레오티드의 부분에 상보적이다. 최적으로 정렬되는 경우, 주형 폴리뉴클레오티드는 표적 서열의 하나 이상의 뉴클레오티드(예를 들어, 약 1, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 60, 70, 80, 90, 100개 이상의 뉴클레오티드)와 중첩할 수 있다. 일부 구현예에서, 주형 서열 및 표적 서열을 포함하는 폴리뉴클레오티드가 최적으로 정렬되는 경우, 주형 폴리뉴클레오티드의 가장 가까운 뉴클레오티드는 표적 서열로부터 약 1, 5, 10, 15, 20, 25, 50, 75, 100, 200, 300, 400, 500, 1000, 5000, 10000개 이상의 뉴클레오티드 이내이다.
일부 구현예에서, CRISPR 효소는 하나 이상의 이종 단백질 도메인(예를 들어, CRISPR 효소에 더하여 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개 이상의 도메인)을 포함하는 융합 단백질의 부분이다. CRISPR 효소 융합 단백질은 임의의 추가의 단백질 서열 및 선택적으로 임의의 2개 도메인 사이의 링커 서열을 포함할 수 있다. CRISPR 효소에 융합될 수 있는 단백질 도메인의 예는 비제한적으로 에피토프 태그, 리포터 유전자 서열 및 하기의 활성 중 하나 이상을 갖는 단백질 도메인을 포함한다: 메틸라제 활성, 데메틸라제 활성, 전사 활성화 활성, 전사 억제 활성, 전사 방출 인자(transcription release factor) 활성, 히스톤 변형 활성, RNA 절단 활성 및 핵산 결합 활성. 에피토프 태그의 비제한적인 예는 히스티딘(His) 태그, V5 태그, FLAG 태그, 인플루엔자 헤마글루티닌(HA) 태그, Myc 태그, VSV-G 태그 및 티오레독신(Trx) 태그를 포함한다. 리포터 유전자의 예는 글루타티온-S-트랜스퍼라제(GST), 호스라디시(horseradish) 과산화효소(HRP), 클로람페니콜 아세틸트랜스퍼라제(CAT) 베타-갈락토시다제, 베타-글루쿠로니다제, 루시퍼라제, 녹색 형광 단백질(GFP), HcRed, DsRed, 청록색 형광 단백질(CFP), 황색 형광 단백질(YFP) 및 청색 형광 단백질(BFP)을 포함하는 자가형광 단백질을 포함하나 이들에 한정되지 않는다. CRISPR 효소는 DNA 분자에 결합하거나, 말토스 결합 단백질(MBP), S-태그, Lex A DNA 결합 도메인(DBD) 융합체, GAL4 DNA 결합 도메인 융합체 및 단순 포진 바이러스(HSV) BP16 단백질 융합체를 포함하나 이들에 한정되지 않는 다른 세포 분자에 결합하는 단백질 또는 단백질의 단편을 인코딩하는 유전자 서열에 융합될 수 있다. CRISPR 효소를 포함하는 융합 단백질의 부분을 형성할 수 있는 추가의 도메인은 본원에 참조로 포함되는 US20110059502호에 기술되어 있다. 일부 구현예에서, 태그가 부착된 CRISPR 효소를 사용하여 표적 서열의 위치를 확인한다.
일부 양태에서, 본 발명은 하나 이상의 폴리뉴클레오티드, 예를 들어, 본원에 기술된 바와 같은 하나 이상의 벡터, 그의 하나 이상의 전사물 및/또는 그로부터 전사된 하나의 단백질 또는 단백질들을 숙주 세포에 전달하는 단계를 포함한다. 일부 양태에서, 본 발명은 이러한 방법에 의해 생성된 세포, 및 이러한 세포를 포함하거나 이로부터 생성된 유기체(예를 들어, 동물, 식물 또는 진균)를 추가로 제공한다. 일부 구현예에서, 가이드 서열과 조합된(선택적으로 복합체화된) CRISPR 효소는 세포로 전달된다. 통상의 바이러스 및 비-바이러스 기반의 유전자 운반 방법을 사용하여 핵산을 포유동물 세포 또는 표적 조직에 도입할 수 있다. 이러한 방법을 사용하여 CRISPR 시스템의 성분을 인코딩하는 핵산을 배양물 중의 또는 숙주 유기체 내의 세포로 투여할 수 있다. 비-바이러스 벡터 전달 시스템은 DNA 플라스미드, RNA(예를 들어, 본원에 기술된 벡터의 전사물), 네이키드(naked) 핵산 및 전달 비히클, 예를 들어, 리포솜과 복합체화된 핵산을 포함한다. 바이러스 벡터 전달 시스템은 DNA 및 RNA 바이러스를 포함하며, 이는 세포로의 전달 후에 에피솜 또는 통합된 게놈을 갖는다. 유전자 치료법 절차의 개요에 대해서는 문헌[Anderson, Science 256:808-813 (1992)]; 문헌[Nabel & Felgner, TIBTECH 11:211-217 (1993)]; 문헌[Mitani & Caskey, TIBTECH 11:162-166 (1993)]; 문헌[Dillon, TIBTECH 11:167-175 (1993)]; 문헌[Miller, Nature 357:455-460 (1992)]; 문헌[Van Brunt, Biotechnology 6(10):1149-1154 (1988)]; 문헌[Vigne, Restorative Neurology and Neuroscience 8:35-36 (1995)]; 문헌[Kremer & Perricaudet, British Medical Bulletin 51(1):31-44 (1995)]; 문헌[Haddada et al., in Current Topics in Microbiology and Immunology Doerfler and Boehm (eds) (1995)]; 및 문헌[Yu et al., Gene Therapy 1:13-26 (1994)]을 참조한다.
핵산의 비-바이러스 전달 방법은 리포펙션(lipofection), 뉴클레오펙션(nucleofection), 미세주입, 비올리스틱스(biolistics), 비로좀(virosome), 리포솜, 면역리포솜, 다가양이온 또는 지질:핵산 컨쥬게이트, 네이키드 DNA, 인공 비리온 및 작용제-증진된 DNA의 흡수를 포함한다. 리포펙션은 예를 들어, 미국 특허 제5,049,386호, 제4,946,787호; 및 제4,897,355호에 기술되어 있으며, 리포펙션 시약은 상업적으로 시판된다(예를 들어, 트랜스펙탐(Transfectam)™ 및 리포펙틴(Lipofectin)™). 폴리뉴클레오티드의 효율적인 수용체-인식 리포펙션에 적절한 양이온 및 중성 지질은 펠그너(Felgner)의 WO 91/17424호; WO 91/16024호의 것들을 포함한다. 전달은 세포로(예를 들어, 시험관내 또는 생체외 투여) 또는 표적 조직으로(예를 들어, 생체내 투여) 이루어질 수 있다.
표적화된 리포솜, 예를 들어, 면역지질 복합체를 포함하는 지질:핵산 복합체의 제제는 당업자에게 널리 공지되어 있다(예를 들어, 문헌[Crystal, Science 270:404-410 (1995)]; 문헌[Blaese et al., Cancer Gene Ther. 2:291-297 (1995)]; 문헌[Behr et al., Bioconjugate Chem. 5:382-389 (1994)]; 문헌[Remy et al., Bioconjugate Chem. 5:647-654 (1994)]; 문헌[Gao et al., Gene Therapy 2:710-722 (1995)]; 문헌[Ahmad et al., Cancer Res. 52:4817-4820 (1992)]; 미국 특허 제4,186,183호, 제4,217,344호, 제4,235,871호, 제4,261,975호, 제4,485,054호, 제4,501,728호, 제4,774,085호, 제4,837,028호 및 제4,946,787호 참조).
핵산의 전달을 위한 RNA 또는 DNA 바이러스 기반의 시스템의 사용은 바이러스를 체내의 특정 세포에 표적화하고, 바이러스 페이로드(payload)를 핵에 수송하기 위한 고도로 발달된 과정을 이용한다. 바이러스 벡터를 환자에게 직접 투여하거나(생체내), 그들을 사용하여 시험관내에서 세포를 처리할 수 있으며, 변형된 세포가 선택적으로 환자에게 투여될 수 있다(생체외). 통상의 바이러스 기반의 시스템에는 유전자 운반을 위한 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-관련 및 단순 포진 바이러스 벡터가 포함될 수 있다. 레트로바이러스, 렌티바이러스 및 아데노-관련 바이러스 유전자 운반 방법을 사용하여 숙주 게놈으로의 통합이 가능하며, 종종 삽입된 트랜스유전자의 장기간 발현을 야기한다. 또한, 높은 형질도입 효율이 많은 상이한 세포 유형 및 표적 조직에서 관찰되었다.
레트로바이러스의 편향성은 외래 외피 단백질을 혼입시키고, 잠재적 표적 집단의 표적 세포를 증식시킴으로써 변경될 수 있다. 렌티바이러스 벡터는 비-분열 세포에 형질도입할 수 있거나, 그를 감염시킬 수 있으며, 전형적으로 높은 바이러스 역가를 생성하는 레트로바이러스 벡터이다. 따라서, 레트로바이러스 유전자 운반 시스템의 선택은 표적 조직에 따라 달라질 것이다. 레트로바이러스 벡터는 최대 6 내지 10kb의 외래 서열에 대하여 패키징 능력을 갖는 시스-작용성 긴 말단 반복부로 이루어진다. 최소 시스-작용성 LTR은 벡터의 복제 및 패키징에 충분하며, 이는 이어서, 치료적 유전자를 표적 세포로 통합시켜, 영구적인 트랜스유전자 발현을 제공하는데 사용된다. 널리 사용되는 레트로바이러스 벡터는 쥣과 백혈병 바이러스(MuLV), 긴팔원숭이 유인원 백혈병 바이러스(GaLV), 원숭이 면역 결핍 바이러스(SIV), 인간 면역 결핍 바이러스(HIV) 및 그들의 조합에 기초한 것들을 포함한다(예를 들어, 문헌[Buchscher et al., J. Virol. 66:2731-2739 (1992)]; 문헌[Johann et al., J. Virol. 66:1635-1640 (1992)]; 문헌[Sommnerfelt et al., Virol. 176:58-59 (1990)]; 문헌[Wilson et al., J. Virol. 63:2374-2378 (1989)]; 문헌[Miller et al., J. Virol. 65:2220-2224 (1991)]; PCT/US94/05700호 참조).
일시적 발현이 바람직한 출원에서, 아데노바이러스 기반의 시스템이 사용될 수 있다. 아데노바이러스 기반의 벡터는 많은 세포 유형에서 매우 높은 형질도입 효율을 가질 수 있으며, 세포 분열을 필요로 하지 않는다. 이러한 벡터를 사용하여, 높은 역가 및 발현 수준이 수득된다. 이러한 벡터는 비교적 간단한 시스템에서 대량 생성될 수 있다. 예를 들어, 핵산 및 펩티드의 시험관내 생성에서, 그리고 생체내 및 생체외 유전자 치료법 절차를 위하여, 아데노-관련 바이러스("AAV") 벡터를 사용하여, 표적 핵산으로 세포를 형질도입시킬 수도 있다(예를 들어, 문헌[West et al., Virology 160:38-47 (1987)]; 미국 특허 제4,797,368호; WO 93/24641호; 문헌[Kotin, Human Gene Therapy 5:793-801 (1994)]; 문헌[Muzyczka, J. Clin. Invest. 94:1351 (1994)] 참조). 재조합 AAV 벡터의 작제는 미국 특허 제5,173,414호; 문헌[Tratschin et al., Mol. Cell. Biol. 5:3251-3260 (1985)]; 문헌[Tratschin, et al., Mol. Cell. Biol. 4:2072-2081 (1984)]; 문헌[Hermonat & Muzyczka, PNAS 81:6466-6470 (1984)]; 및 문헌[Samulski et al., J. Virol. 63:03822-3828 (1989)]을 포함하는 수많은 간행물에 기술되어 있다.
패키징 세포는 전형적으로 숙주 세포를 감염시킬 수 있는 바이러스 입자를 형성하기 위해 사용된다. 이러한 세포는 아데노바이러스를 패키징하는 293 세포, 레트로바이러스를 패키징하는 ψ2 세포 또는 PA317 세포를 포함한다. 유전자 치료법에 사용되는 바이러스 벡터는 통상적으로 핵산 벡터를 바이러스 입자로 패키징하는 세포주를 생성함으로써 생성된다. 벡터는 전형적으로 패키징 및 이후의 숙주로의 통합에 필요한 최소 바이러스 서열을 함유하며, 다른 바이러스 서열은 발현될 폴리뉴클레오티드(들)에 대한 발현 카세트로 대체된다. 소실 바이러스 기능은 전형적으로 패키징 세포주에 의해 트랜스로 공급된다. 예를 들어, 유전자 치료법에 사용되는 AAV 벡터는 전형적으로 패키징 및 숙주 게놈으로의 통합에 필요한 AAV 게놈 유래의 ITR 서열만을 갖는다. 바이러스 DNA는 다른 AAV 유전자, 즉, rep 및 cap을 인코딩하나 ITR 서열이 결여된 헬퍼 플라스미드를 함유하는 세포주에서 패키징된다. 또한, 세포주는 헬퍼로서 아데노바이러스로 감염될 수 있다. 헬퍼 바이러스는 AAV 벡터의 복제 및 헬퍼 플라스미드로부터 AAV 유전자의 발현을 촉진시킨다. 헬퍼 플라스미드는 ITR 서열의 결여로 인해 충분한 양으로 패키징되지 않는다. 아데노바이러스로의 오염은 예를 들어, 아데노바이러스가 AAV보다 더 민감한 열 처리에 의해 감소될 수 있다. 세포로의 핵산의 전달을 위한 추가의 방법은 당업자에게 공지되어 있다. 예를 들어, 본원에 참조로 포함되는 US20030087817호를 참조한다.
일부 구현예에서, 숙주 세포는 본원에 기술된 하나 이상의 벡터로 일시적으로 또는 비-일시적으로 트랜스펙션된다. 일부 구현예에서, 세포는 그것이 대상체에서 천연적으로 발생한 대로 트랜스펙션된다. 일부 구현예에서, 트랜스펙션되는 세포는 대상체로부터 취해진다. 일부 구현예에서, 세포는 세포주와 같이 대상체로부터 취해진 세포로부터 유래된다. 조직 배양을 위한 매우 다양한 세포주가 당업계에 공지되어 있다. 세포주의 예는 C8161, CCRF-CEM, MOLT, mIMCD-3, NHDF, HeLa-S3, Huh1, Huh4, Huh7, HUVEC, HASMC, HEKn, HEKa, MiaPaCell, Panc1, PC-3, TF1, CTLL-2, C1R, Rat6, CV1, RPTE, A10, T24, J82, A375, ARH-77, Calu1, SW480, SW620, SKOV3, SK-UT, CaCo2, P388D1, SEM-K2, WEHI-231, HB56, TIB55, Jurkat, J45.01, LRMB, Bcl-1, BC-3, IC21, DLD2, Raw264.7, NRK, NRK-52E, MRC5, MEF, Hep G2, HeLa B, HeLa T4, COS, COS-1, COS-6, COS-M6A, BS-C-1 원숭이 신장 상피, BALB/3T3 마우스 배아 섬유아세포, 3T3 Swiss, 3T3-L1, 132-d5 인간 태아 섬유아세포; 10.1 마우스 섬유아세포, 293-T, 3T3, 721, 9L, A2780, A2780ADR, A2780cis, A172, A20, A253, A431, A-549, ALC, B16, B35, BCP-1 세포, BEAS-2B, bEnd.3, BHK-21, BR 293, BxPC3, C3H-10T1/2, C6/36, Cal-27, CHO, CHO-7, CHO-IR, CHO-K1, CHO-K2, CHO-T, CHO Dhfr -/-, COR-L23, COR-L23/CPR, COR-L23/5010, COR-L23/R23, COS-7, COV-434, CML T1, CMT, CT26, D17, DH82, DU145, DuCaP, EL4, EM2, EM3, EMT6/AR1, EMT6/AR10.0, FM3, H1299, H69, HB54, HB55, HCA2, HEK-293, HeLa, Hepa1c1c7, HL-60, HMEC, HT-29, Jurkat, JY 세포, K562 세포, Ku812, KCL22, KG1, KYO1, LNCap, Ma-Mel 1-48, MC-38, MCF-7, MCF-10A, MDA-MB-231, MDA-MB-468, MDA-MB-435, MDCK II, MDCK II, MOR/0.2R, MONO-MAC 6, MTD-1A, MyEnd, NCI-H69/CPR, NCI-H69/LX10, NCI-H69/LX20, NCI-H69/LX4, NIH-3T3, NALM-1, NW-145, OPCN / OPCT 세포주, Peer, PNT-1A / PNT 2, RenCa, RIN-5F, RMA/RMAS, Saos-2 세포, Sf-9, SkBr3, T2, T-47D, T84, THP1 세포주, U373, U87, U937, VCaP, Vero 세포, WM39, WT-49, X63, YAC-1, YAR 및 그의 트랜스제닉 변이형을 포함하나 이들에 한정되지 않는다. 세포주는 당업자에게 공지되어 있는 다양한 공급원으로부터 입수가능하다(예를 들어, 아메리칸 타입 컬쳐 콜렉션(American Type Culture Collection; ATCC)(미국 버지니아주 머내서스 소재) 참조). 일부 구현예에서, 본원에 기술된 하나 이상의 벡터로 트랜스펙션된 세포를 사용하여 하나 이상의 벡터-유래 서열을 포함하는 신규 세포주를 확립한다. 일부 구현예에서, 본원에 기술된 바와 같은 CRISPR 시스템의 성분이 일시적으로 트랜스펙션되고(예를 들어, 하나 이상의 벡터의 일시적 트랜스펙션 또는 RNA로의 트랜스펙션에 의해), CRISPR 복합체의 활성을 통해 변형된 세포를 사용하여, 변형을 포함하나 임의의 다른 외인성 서열이 결여된 세포를 포함하는 신규 세포주를 확립한다. 일부 구현예에서, 일시적으로 또는 비-일시적으로 본원에 기술된 하나 이상의 벡터로 트랜스펙션된 세포 또는 이러한 세포로부터 유래된 세포주가 하나 이상의 시험 화합물의 평가에서 사용된다.
일부 구현예에서, 본원에 기술된 하나 이상의 벡터를 사용하여 비-인간 트랜스제닉 동물 또는 트랜스제닉 식물을 생성한다. 일부 구현예에서, 트랜스제닉 동물은 포유동물, 예를 들어, 마우스, 랫트 또는 토끼이다. 특정 구현예에서, 유기체 또는 대상체는 식물이다. 특정 구현예에서, 유기체 또는 대상체 또는 식물은 조류이다. 트랜스제닉 식물 및 동물의 생성 방법은 당업계에 공지되어 있으며, 일반적으로 본원에 기술된 바와 같은 세포 트랜스펙션 방법으로 시작한다. 또한, 트랜스제닉 식물, 특히 농작물 및 조류와 같이, 트랜스제닉 동물도 제공된다. 트랜스제닉 동물 또는 식물은 질병 모델을 제공하는 것 이외의 응용에 유용할 수 있다. 이들은 예를 들어, 보통 야생형에서 관찰될 것보다 높은 수준의 단백질, 탄수화물, 영양소 또는 비타민의 발현을 통한 식품 또는 사료 생성을 포함할 수 있다. 이와 관련하여, 트랜스제닉 식물, 특히, 두류 및 덩이줄기, 및 동물, 특히, 포유동물, 예를 들어, 가축(소, 양, 염소 및 돼지)뿐 아니라 가금류 및 식용 곤충도 바람직하다.
트랜스제닉 조류 또는 다른 식물, 예를 들어, 유채가 예를 들어, 식물유 또는 바이오연료, 예를 들어, 알코올(특히, 메탄올 및 에탄올)의 생성에 특히 유용할 수 있다. 이들은 오일 또는 바이오연료 산업에 사용하기 위한 높은 수준의 오일 또는 알코올을 발현하거나 과발현하도록 조작될 수 있다.
일 양태에서, 본 발명은 진핵 세포에서의 표적 폴리뉴클레오티드의 변형 방법을 제공한다. 일부 구현예에서, 상기 방법은 CRISPR 복합체가 표적 폴리뉴클레오티드에 결합하게 하여, 상기 표적 폴리뉴클레오티드의 절단을 초래하여, 표적 폴리뉴클레오티드를 변형시키는 단계를 포함하며, 여기서, CRISPR 복합체는 상기 표적 폴리뉴클레오티드 내의 표적 서열에 혼성화된 가이드 서열과 복합체화된 CRISPR 효소를 포함하고, 상기 가이드 서열은 tracr 메이트 서열에 연결되며, tracr 메이트 서열은 차례로 tracr 서열에 혼성화된다.
일 양태에서, 본 발명은 진핵 세포에서의 표적 폴리뉴클레오티드의 발현의 변경 방법을 제공한다. 일부 구현예에서, 상기 방법은 CRISPR 복합체가 폴리뉴클레오티드에 결합하여, 상기 결합이 상기 폴리뉴클레오티드의 발현 증가 또는 감소를 야기하도록 하는 단계를 포함하며; 여기서, CRISPR 복합체는 상기 폴리뉴클레오티드 내의 표적 서열에 혼성화되는 가이드 서열과 복합체화된 CRISPR 효소를 포함하며, 상기 가이드 서열은 tracr 메이트 서열에 연결되며, tracr 메이트 서열은 차례로 tracr 서열에 혼성화된다.
작물 유전체학의 최근의 진전으로, 효율적이며 비용 효율이 높은 유전자 교정 및 조작을 수행하기 위한 CRISPR-Cas 시스템의 사용 능력은 단일 및 다중 유전자 조작의 신속한 선택과 비교를 가능하게 하여, 향상된 생성 및 증진된 특성을 위해 이러한 게놈을 형질전환시킬 것이다. 이와 관련하여, 다음의 미국 특허 및 간행물을 참조한다: 각각의 모든 내용 및 개시내용이 본원에 참조로 포함되는 미국 특허 제6,603,061호(Agrobacterium-Mediated Plant Transformation Method); 미국 특허 제7,868,149호(Plant Genome Sequences and Uses Thereof) 및 US 2009/0100536호(Transgenic Plants with Enhanced Agronomic Traits). 본 발명의 실시에 있어서, 문헌[Morrell et al "Crop genomics:advances and applications" Nat Rev Genet. 2011 Dec 29;13(2):85-96]의 내용 및 개시내용도 또한 그들 전문이 본원에 참조로 포함된다. 본 발명의 유리한 구현예에서, CRISPR/Cas9 시스템을 사용하여, 미세조류를 조작한다(실시예 14). 따라서, 본원에서 동물 세포에 대한 참고내용은 다르게 명백하지 않은 한, 필요한 부분만 약간 수정하여 식물 세포에도 적용할 수 있다.
일 양태에서, 본 발명은 생체내, 생체외 또는 시험관내에서 이루어질 수 있는 진핵 세포에서의 표적 폴리뉴클레오티드의 변형 방법을 제공한다. 일부 구현예에서, 상기 방법은 인간 또는 비-인간 동물 또는 식물(미세조류 포함)로부터 세포 또는 세포 집단을 샘플링하는 단계 및 세포 또는 세포들을 변형시키는 단계를 포함한다. 배양은 생체외에서 임의의 단계에서 일어날 수 있다. 세포 또는 세포들은 심지어 비-인간 동물 또는 식물(미세조류 포함)로 재도입될 수 있다.
일 양태에서, 본 발명은 상기 방법 및 조성물에 개시된 임의의 하나 이상의 요소를 함유하는 키트를 제공한다. 일부 구현예에서, 키트는 벡터 시스템 및 키트의 사용을 위한 지침서를 포함한다. 일부 구현예에서, 벡터 시스템은 (a) tracr 메이트 서열, 및 tracr 메이트 서열의 상류에 하나 이상의 가이드 서열을 삽입하기 위한 하나 이상의 삽입 부위에 작동가능하게 연결된 제1 조절 요소로서, 가이드 서열은 발현되는 경우, 진핵 세포 내의 표적 서열로의 CRISPR 복합체의 서열-특이적 결합을 유도하고, CRISPR 복합체는 (1) 표적 서열에 혼성화되는 가이드 서열, 및 (2) tracr 서열에 혼성화되는 tracr 메이트 서열과 복합체화된 CRISPR 효소를 포함하는 제1 조절 요소; 및/또는 (b) 핵 국소화 서열을 포함하는 상기 CRISPR 효소를 인코딩하는 효소-코딩 서열에 작동가능하게 연결된 제2 조절 요소를 포함한다. 요소는 개별적으로 또는 조합하여 제공될 수 있으며, 임의의 적절한 용기, 예를 들어, 바이얼, 병 또는 튜브에 제공될 수 있다. 일부 구현예에서, 키트는 1가지 이상의 언어, 예를 들어, 1가지 초과의 언어의 지침서를 포함한다.
일부 구현예에서, 키트는 본원에 기술된 요소 중 하나 이상을 사용하는 과정에 사용하기 위한 하나 이상의 시약을 포함한다. 시약은 임의의 적절한 용기에 제공될 수 있다. 예를 들어, 키트는 하나 이상의 반응 또는 저장 완충제를 제공할 수 있다. 시약은 특정 검정에 사용가능한 형태 또는 사용 전에 하나 이상의 다른 성분의 첨가를 필요로 하는 형태(예를 들어, 농축물 또는 동결건조 형태)로 제공될 수 있다. 완충제는 탄산나트륨 완충제, 중탄산나트륨 완충제, 붕산염 완충제, 트리스(Tris) 완충제, MOPS 완충제, HEPES 완충제 및 그들의 조합을 포함하나 이들에 한정되지 않는 임의의 완충제일 수 있다. 일부 구현예에서, 완충제는 알칼리성이다. 일부 구현예에서, 완충제는 약 7 내지 약 10의 pH를 갖는다. 일부 구현예에서, 키트는 가이드 서열과 조절 요소를 작동가능하게 연결하도록, 벡터에 삽입하기 위한 가이드 서열에 상응하는 하나 이상의 올리고뉴클레오티드를 포함한다. 일부 구현예에서, 키트는 상동성 재조합 주형 폴리뉴클레오티드를 포함한다.
일 양태에서, 본 발명은 CRISPR 시스템의 하나 이상의 요소의 사용 방법을 제공한다. 본 발명의 CRISPR 복합체는 효율적인 표적 폴리뉴클레오티드의 변형 수단을 제공한다. 본 발명의 CRISPR 복합체는 다수의 세포 유형에서 표적 폴리뉴클레오티드를 변형시키는(예를 들어, 결실시키는, 삽입하는, 전위시키는, 불활성화시키는, 활성화시키는) 것을 포함하는 매우 다양한 유용성을 갖는다. 이와 같이, 본 발명의 CRISPR 복합체는 예를 들어, 유전자 치료법, 약물 스크리닝, 질병 진단 및 예후에서 넓은 스펙트럼의 응용을 갖는다. 예시적인 CRISPR 복합체는 표적 폴리뉴클레오티드 내의 표적 서열에 혼성화되는 가이드 서열과 복합체화되는 CRISPR 효소를 포함한다. 가이드 서열은 tracr 메이트 서열에 연결되며, tracr 메이트 서열은 차례로 tracr 서열에 혼성화된다.
CRISPR 복합체의 표적 폴리뉴클레오티드는 진핵 세포에 대해 내인성이거나 외인성인 임의의 폴리뉴클레오티드일 수 있다. 예를 들어, 표적 폴리뉴클레오티드는 진핵 세포의 핵에 존재하는 폴리뉴클레오티드일 수 있다. 표적 폴리뉴클레오티드는 유전자 산물(예를 들어, 단백질)을 코딩하는 서열 또는 비-코딩 서열(예를 들어, 조절 폴리뉴클레오티드 또는 정크(junk) DNA)일 수 있다. 이론에 구속되지 않으면서, 표적 서열이 PAM(프로토스페이서 인접 모티프); 즉, CRISPR 복합체에 의해 인식되는 짧은 서열과 회합되어야 하는 것으로 여겨진다. PAM에 대한 정밀한 서열 및 길이 요건은 사용되는 CRISPR 효소에 따라 달라지지만, PAM은 전형적으로 프로토스페이서(즉, 표적 서열)에 인접한 2 내지 5개 염기쌍 서열이다. PAM 서열의 예는 하기 실시예 섹션에 제공되어 있으며, 당업자는 주어진 CRISPR 효소와 함께 사용하기 위한 추가의 PAM 서열을 확인할 수 있을 것이다.
CRISPR 복합체의 표적 폴리뉴클레오티드는 모두의 내용이 본원에 참조로 포함되는, 각각 브로드 참조번호 BI-2011/008/WSGR 사건 번호 44063-701.101 및 BI-2011/008/WSGR 사건 번호 44063-701.102를 갖고, 둘 모두 명칭이 SYSTEMS METHODS AND COMPOSITIONS FOR SEQUENCE MANIPULATION이고, 각각 2012년 12월 12일 및 2013년 1월 2일에 출원된 미국 가출원 제61/736,527호 및 제61/748,427호에 열거된 바와 같은 다수의 질병-관련 유전자 및 폴리뉴클레오티드, 및 신호전달 생화학 경로-관련 유전자 및 폴리뉴클레오티드를 포함할 수 있다.
표적 폴리뉴클레오티드의 예는 신호전달 생화학 경로와 관련된 서열, 예를 들어, 신호전달 생화학적 경로-관련 유전자 또는 폴리뉴클레오티드를 포함한다. 표적 폴리뉴클레오티드의 예는 질병 관련 유전자 또는 폴리뉴클레오티드를 포함한다. "질병-관련" 유전자 또는 폴리뉴클레오티드는 질병이 없는 대조군의 조직 또는 세포와 비교하여, 질병-발생 조직으로부터 유래된 세포에서 비정상적인 수준 또는 비정상적인 형태로 전사 또는 번역 산물을 생성하는 임의의 유전자 또는 폴리뉴클레오티드를 지칭한다. 그것은 비정상적으로 높은 수준으로 발현되는 유전자일 수 있으며; 그것은 비정상적으로 낮은 수준으로 발현되는 유전자일 수 있고, 여기서, 변경된 발현은 질병의 발생 및/또는 진행과 관련이 있다. 또한, 질병-관련 유전자는 질병의 병인에 직접적인 원인이 있거나, 그에 원인이 있는 유전자(들)와 연관 불균형이 있는 돌연변이(들) 또는 유전적 변이를 갖는 유전자를 지칭한다. 전사 또는 번역된 산물은 공지된 것이거나 미공지된 것일 수 있으며, 정상 또는 비정상 수준으로 존재할 수 있다.
질병-관련 유전자 및 폴리뉴클레오티드의 예는 맥쿠식-네이선스 유전의학연구소(McKusick-Nathans Institute of Genetic Medicine), 존스 홉킨스 대학(Johns Hopkins University)(미국 메릴랜드주 볼티모어) 및 미국 국립생물공학정보센터(National Center for Biotechnology Information), 국립 의학 도서관(미국 메릴랜드주 베데스다)로부터 이용가능하며, 월드 와이드 웹에서 이용가능하다.
질병-관련 유전자 및 폴리뉴클레오티드의 예는 표 A 및 B에 열거되어 있다. 질병 특이적 정보는 맥쿠식-네이선스 유전의학연구소, 존스 홉킨스 대학(미국 메릴랜드주 볼티모어) 및 미국 국립생물공학정보센터, 국립 의학 도서관(미국 메릴랜드주 베데스다)로부터 이용가능하며, 월드 와이드 웹에서 이용가능하다. 신호전달 생화학 경로-관련 유전자 및 폴리뉴클레오티드의 예는 표 C에 열거되어 있다.
이들 유전자 및 경로의 돌연변이는 기능에 영향을 미치는 부적절한 단백질 또는 부적절한 양의 단백질의 생성을 야기할 수 있다. 유전자, 질병 및 단백질의 추가의 예는 미국 가출원 제61/736,527호 및 제61/748,427호로부터 본원에 참고로 포함된다. 이러한 유전자, 단백질 및 경로는 CRISPR 복합체의 표적 폴리뉴클레오티드일 수 있다.
표 A

표 B:

표 C:

또한, 본 발명의 구현예는 유전자의 녹아웃, 유전자의 증폭 및 DNA 반복부 불안정성 및 신경계 장애와 관련된 특정 돌연변이의 수복에 관한 방법 및 조성물에 관한 것이다(문헌[Robert D. Wells, Tetsuo Ashizawa, Genetic Instabilities and Neurological Diseases, Second Edition, Academic Press, Oct 13, 2011 - Medical]). 연쇄 반복(tandem repeat) 서열의 특정 양태는 20개 초과의 인간 질병의 원인이 되는 것으로 관찰되었다(반복부 불안정성의 새로운 이해: RNA·DNA 하이브리드의 역할. 문헌[McIvor EI, Polak U, Napierala M. RNA Biol. 2010 Sep-Oct;7(5):551-8]). CRISPR-Cas 시스템은 이들 게놈 불안정성의 결함을 교정하도록 이용될 수 있다.
본 발명의 추가의 양태는 라포라 질병(Lafora disease)과 관련이 있는 것으로 확인된 EMP2A 및 EMP2B 유전자의 결함을 교정하기 위하여 CRISPR-Cas 시스템을 사용하는 것에 관한 것이다. 라포라 질병은 청소년기에 간질성 발작으로 시작할 수 있는 진행성 간대성근경련 간질을 특징으로 하는 상염색체 열성 질환이다. 소수의 경우의 질병이 아직 확인되지 않은 유전자의 돌연변이에 의해 유발될 수 있다. 질병은 발작, 근육연축, 보행곤란, 치매 및 결국에는 사망을 야기한다. 질병 진행에 대하여 효율적인 것으로 입증된 치료법이 현재 존재하지 않는다. 또한, 간질과 관련된 다른 유전자 이상은 CRISPR-Cas 시스템에 의해 표적화될 수 있으며, 근본이 되는 유전학은 문헌[Genetics of Epilepsy and Genetic Epilepsies, edited by Giuliano Avanzini, Jeffrey L. Noebels, Mariani Foundation Paediatric Neurology:20; 2009]에 추가로 기술되어 있다.
본 발명의 또 다른 양태에서, CRISPR-Cas 시스템을 사용하여 문헌[Genetic Diseases of the Eye, Second Edition, edited by Elias I. Traboulsi, Oxford University Press, 2012]에 추가로 기술된 몇몇 유전자 돌연변이로부터 야기되는 안구 결함을 교정할 수 있다.
본 발명의 몇몇 추가의 양태는 토픽 세부항목 유전 장애하에 국립보건원의 웹사이트에 추가로 기술된 매우 다양한 유전 질병과 관련된 결함을 교정하는 것에 관한 것이다. 유전적 뇌 질병은 부신백질이영양증, 뇌들보 무발생, 에카르디 증후군, 알퍼스병, 알츠하이머병, 바르트 증후군, 배튼병, CADASIL, 소뇌변성, 파브리병, 게르스트만 슈투로이슬러 샤잉커 병, 헌팅톤병 및 기타 3중 반복 장애, 라이병, 레슈-니한 증후군, 멘케스 질병, 사립체성 근병증 및 NINDS 거대후두각을 포함할 수 있으나 이들에 한정되지 않는다. 이들 질병은 세부항목 유전 뇌 장애하에 국립보건원의 웹사이트에 추가로 기술되어 있다.
일부 구현예에서, 질환은 신생물일 수 있다. 일부 구현예에서, 질환이 신생물인 경우, 표적화될 유전자는 표 A에 열거된 것들 중 임의의 것이다(이러한 경우에, PTEN 등). 일부 구현예에서, 질환은 연령-관련 황반 변성일 수 있다. 일부 구현예에서, 질환은 정신분열 장애일 수 있다. 일부 구현예에서, 질환은 트리뉴클레오티드 반복 장애일 수 있다. 일부 구현예에서, 질환은 유약 X 증후군일 수 있다. 일부 구현예에서, 질환은 세크레타제 관련 장애일 수 있다. 일부 구현예에서, 질환은 프리온-관련 장애일 수 있다. 일부 구현예에서, 질환은 ALS일 수 있다. 일부 구현예에서, 질환은 약물 중독일 수 있다. 일부 구현예에서, 질환은 자폐증일 수 있다. 일부 구현예에서, 질환은 알츠하이머병일 수 있다. 일부 구현예에서, 질환은 염증일 수 있다. 일부 구현예에서, 질환은 파킨슨병일 수 있다.
파킨슨병과 관련된 단백질의 예는 α-시누클레인, DJ-1, LRRK2, PINK1, Parkin, UCHL1, 신필린(Synphilin)-1 및 NURR1을 포함하나 이들에 한정되지 않는다.
중독 관련 단백질의 예는 예를 들어, ABAT를 포함할 수 있다.
염증-관련 단백질의 예는 예를 들어, Ccr2 유전자에 의해 인코딩된 단핵구 화학주성 단백질-1(MCP1), Ccr5 유전자에 의해 인코딩된 C-C 케모카인 수용체 5형(CCR5), Fcgr2b 유전자에 의해 인코딩된 IgG 수용체 IIB(FCGR2b, CD32로도 명명) 또는 Fcer1g 유전자에 의해 인코딩된 Fc 엡실론(epsilon) R1g(FCER1g) 단백질을 포함할 수 있다.
심혈관 질병 관련 단백질의 예는 예를 들어, IL1B(인터류킨 1, 베타), XDH(잔틴 데하이드로게나제), TP53(종양 단백질 p53), PTGIS(프로스타글란딘 I2(프로스타사이클린(prostacyclin)) 신타제), MB(미오글로빈), IL4(인터류킨 4), ANGPT1(안지오포이에틴 1), ABCG8(ATP-결합 카세트, 하위-과 G(WHITE), 구성원 8) 또는 CTSK(카텝신 K)를 포함할 수 있다.
알츠하이머병 관련 단백질의 예는 예를 들어, VLDLR 유전자에 의해 인코딩되는 극저밀도 리포단백질 수용체 단백질(VLDLR), UBA1 유전자에 의해 인코딩되는 유비퀴틴-유사 변형 활성화 효소(UBA1) 또는 UBA3 유전자에 의해 인코딩되는 NEDD8-활성화 효소 E1 촉매 서브유닛 단백질(UBE1C)을 포함할 수 있다.
자폐 스펙트럼 장애와 관련된 단백질의 예는 예를 들어, BZRAP1 유전자에 의해 인코딩되는 벤조디아자핀 수용체(주변) 관련 단백질 1(BZRAP1), AFF2 유전자(MFR2로도 명명)에 의해 인코딩되는 AF4/FMR2 과 구성원 2 단백질(AFF2), FXR1 유전자에 의해 인코딩되는 유약 X 정신 지체 상염색체 상동체 1 단백질(FXR1) 또는 FXR2 유전자에 의해 인코딩되는 유약 X 정신 지체 상염색체 상동체 2 단백질(FXR2)을 포함할 수 있다.
황반 변성과 관련된 단백질의 예는 예를 들어, ABCR 유전자에 의해 인코딩되는 ATP-결합 카세트, 하위과 A(ABC1) 구성원 4 단백질(ABCA4), APOE 유전자에 의해 인코딩되는 아포리포단백질 E 단백질(APOE) 또는 CCL2 유전자에 의해 인코딩되는 케모카인(C-C 모티프) 리간드 2 단백질(CCL2)을 포함할 수 있다.
정신분열증과 관련된 단백질의 예는 NRG1, ErbB4, CPLX1, TPH1, TPH2, NRXN1, GSK3A, BDNF, DISC1, GSK3B 및 그들의 조합을 포함할 수 있다.
종양 저해에 수반되는 단백질의 예는 예를 들어, ATM(돌연변이된 혈관확장성 운동실조증), ATR(혈관확장성 운동실조증 및 Rad3 관련), EGFR(상피 성장 인자 수용체), ERBB2(v-erb-b2 적혈모구성 백혈병 바이러스 암유전자 상동체 2), ERBB3(v-erb-b2 적혈모구성 백혈병 바이러스 암유전자 상동체 3), ERBB4(v-erb-b2 적혈모구성 백혈병 바이러스 암유전자 상동체 4), Notch 1, Notch2, Notch 3 또는 Notch 4를 포함할 수 있다.
세크레타제 장애와 관련된 단백질의 예는 예를 들어, PSENEN(프레세닐린 인핸서 2 상동체(C. 엘레간스(C. elegans)), CTSB(카텝신 B), PSEN1(프레세닐린 1), APP(아밀로이드 베타(A4) 전구체 단백질), APH1B(앞인두 결함 1 상동체 B(C. 엘레간스)), PSEN2(프레세닐린 2(알츠하이머병 4)) 또는 BACE1(베타-부위 APP-절단 효소 1)을 포함할 수 있다.
근위축성 측삭 경화증과 관련된 단백질의 예는 SOD1(슈퍼옥시드 디스뮤타제(dismutase) 1), ALS2(근위축성 측삭 경화증 2), FUS(육종에서 융합), TARDBP(TAR DNA 결합 단백질), VAGFA(혈관 내피 성장 인자 A), VAGFB(혈관 내피 성장 인자 B) 및 VAGFC(혈관 내피 성장 인자 C) 및 그들의 임의의 조합을 포함할 수 있다.
프리온 질병과 관련된 단백질의 예는 SOD1(슈퍼옥시드 디스뮤타제 1), ALS2(근위축성 측삭 경화증 2), FUS(육종에서 융합), TARDBP(TAR DNA 결합 단백질), VAGFA(혈관 내피 성장 인자 A), VAGFB(혈관 내피 성장 인자 B) 및 VAGFC(혈관 내피 성장 인자 C) 및 그들의 임의의 조합을 포함할 수 있다.
프리온 장애에서의 신경변성 질환과 관련된 단백질의 예는 예를 들어, A2M(알파-2-마크로글로불린), AATF(아폽토시스 길항작용 전사 인자), ACPP(전립선 산 포스파타제), ACTA2(액틴 알파 2 평활근 대동맥), ADAM22(ADAM 메탈로펩티다제 도메인), ADORA3(아데노신 A3 수용체) 또는 ADRA1D(알파-1D 아드레노수용체에 대한 알파-1D 아드레날린 작용성 수용체)를 포함할 수 있다.
면역결핍과 관련된 단백질의 예는 예를 들어, A2M[알파-2-마크로글로불린]; AANAT[아릴알킬아민 N-아세틸트랜스퍼라제]; ABCA1[ATP-결합 카세트, 하위과 A(ABC1), 구성원 1]; ABCA2[ATP-결합 카세트, 하위과 A(ABC1), 구성원 2]; 또는 ABCA3[ATP-결합 카세트, 하위과 A(ABC1), 구성원 3];을 포함할 수 있다.
트리뉴클레오티드 반복 장애와 관련된 단백질의 예는 예를 들어, AR(안드로겐 수용체), FMR1(유약 X 정신 지체 1), HTT(헌팅틴) 또는 DMPK(근긴장성 이영양증-단백질 키나제), FXN(프라탁신(frataxin)), ATXN2(아탁신(ataxin) 2)를 포함한다.
신경전달 장애와 관련된 단백질의 예는 예를 들어, SST(소마토스타틴), NOS1(산화질소 신타제 1(뉴런)), ADRA2A(아드레날린 작용성, 알파-2A-, 수용체), ADRA2C(아드레날린 작용성, 알파-2C-, 수용체), TACR1(타키키닌 수용체 1) 또는 HTR2c(5-하이드록시트립타민(세로토닌) 수용체 2C)를 포함한다.
신경발달-관련 서열의 예는 예를 들어, A2BP1[아탁신 2-결합 단백질 1], AADAT[아미노아디페이트 아미노트랜스퍼라제], AANAT[아릴알킬아민 N-아세틸트랜스퍼라제], ABAT[4-아미노부티레이트 아미노트랜스퍼라제], ABCA1[ATP-결합 카세트, 하위과 A(ABC1), 구성원 1] 또는 ABCA13[ATP-결합 카세트, 하위과 A(ABC1), 구성원 13]을 포함한다.
본 발명의 시스템으로 치료가능한 바람직한 질환의 추가의 예는 에카르디 고우티에레스(Aicardi-Goutieres) 증후군; 알렉산더병; 알란-헌든-두들리(Allan-Herndon-Dudley) 증후군; POLG-관련 장애; 알파-만노시도시스(Alpha-Mannosidosis)(II 및 III형); 알스트스트롬(Alstrom) 증후군; 안젤만(Angelman); 증후군; 혈관확장성 운동실조증; 신경 세로이드 리포푸신증; 베타-지중해빈혈; 양쪽성 시신경위축 및 (영아) 1형 시신경위축; 망막모세포종(양쪽성); 캐너번병; 뇌-눈-얼굴-골격 증후군 1[COFS1]; 뇌힘줄황색종증; 코넬리아디란지 증후군; MAPT-관련 장애; 유전적 프리온 질병; 드라벳 증후군; 조기-발병 가족성 알츠하이머병; 프리드리히 운동실조[FRDA]; 프린스 증후군; 푸코시드 축적증; 후쿠야마형 선천성 근이영양증; 갈락토시알리도시스; 고셰병; 유기 산혈증; 혈구탐식성 림프조직구증; 허친슨-길포오드 조로증 증후군; II형 뮤코리피드증; 유아 유리 시알산 축적병; PLA2G6-관련 신경변성; 제벨 랑쥐-닐슨 증후군; 연접부 수포성 표피박리증; 헌팅톤병; 크라베병(유아); 미토콘드리아 DNA-관련 레이 증후군 및 NARP; 레슈-니한 증후군; LIS1-관련 뇌회결손; 로우 증후군; 단풍시럽뇨병; MECP2 중복 증후군; ATP7A-관련 구리 수송 장애; LAMA2-관련 근이영양증; 아릴설파타제 A 결핍; I, II 또는 III형 점액다당류증; 퍼옥시좀 생물발생 장애; 젤웨거 증후군 스펙트럼; 뇌 철 축적 장애가 있는 신경변성; 산 스핑고미엘리나제 결핍; C형 니만 픽병; 글리신 뇌병증; ARX-관련 장애; 요소 사이클 장애; COL1A1/2-관련 불완전골형성; 미토콘드리아 DNA 결실 증후군; PLP1-관련 장애; 페리(Perry) 증후군; 펠란-맥더미드 증후군; II형 글리코겐 축적병(폼페병)(유아); MAPT-관련 장애; MECP2-관련 장애; 1형 어깨엉덩관절 점상 연골형성이상; 로버츠 증후군; 샌드호프병; 쉰들러병 - 1형; 아데노신 탈아미노효소 결핍; 스미스-렘리-오피츠 증후군; 척수성 근위축; 유아-발병 척수소뇌성 실조증; 헥소사미니다제 A 결핍; 1형 치사성 이형성증; VI형 콜라겐-관련 장애; I형 어셔 증후군; 선천성 근이영양증; 울프-허쉬호른 증후군; 리소좀산 리파제 결핍; 및 색소성 건피증으로부터 선택될 수 있다.
단백질 치료제의 만성적 투여는 특정 단백질에 대한 허용가능하지 않은 면역 반응을 야기할 수 있다. 단백질 약물의 면역원성은 소수의 면역우성 헬퍼 T 림프구(HTL) 에피토프의 결과일 수 있다. 이들 단백질에 함유된 이들 HTL 에피토프의 MHC 결합 친화성의 감소에 의해, 면역원성이 더 낮은 약물이 생성될 수 있다(문헌[Tangri S, et al. ("Rationally engineered therapeutic proteins with reduced immunogenicity" J Immunol. 2005 Mar 15;174(6):3187-96)]. 본 발명에서, 특히, CRISPR 효소의 면역원성은 에리트로포이에틴에 관하여 탄그리(Tangri) 등에서 먼저 시작되고, 이후에 개발된 방법에 따라 감소될 수 있다. 따라서, 유도 진화(directed evolution) 또는 합리적 설계를 사용하여 숙주 종(인간 또는 다른 종)에서 CRISPR 효소(예를 들어, Cas9)의 면역원성을 감소시킬 수 있다.
식물에서, 병원체는 종종 숙주-특이적이다. 예를 들어, 푸사리움 옥시스포룸(Fusarium oxysporum) f. sp. 리코페르시시(lycopersici)는 토마토 시듦을 야기하나 오직 토마토만을 공격하고, 푸사리움 옥시스포룸 f. 디안티이 푸키니아 그라미니스(dianthii Puccinia graminis) f. sp. 트리티시(tritici)는 오직 밀만을 공격한다. 식물은 대부분의 병원체에 저항하는 기존의 방어 및 유도된 방어를 갖는다. 식물 세대에 걸친 돌연변이 및 재조합 사건은 유전적 변이를 야기하며, 이는 특히 병원체가 식물보다 더 많은 빈도로 재생되기 때문에, 감수성이 생기게 한다. 식물에서는 비-숙주 저항성이 존재할 수 있는데, 예를 들어 숙주 및 병원체는 양립불가능하다. 또한, 수평 저항성, 예를 들어, 통상적으로 많은 유전자에 의해 제어되는 모든 종류의 병원체에 대한 불완전한 저항성, 및 수직 저항성, 예를 들어, 통상 소수의 유전자에 의해 제어되는 일부 종류의 병원체에 대해서는 완전하지만 다른 종류에 대해서는 그렇지 않은 저항성이 존재할 수 있다. 유전자 대 유전자(Gene-for-Gene) 수준에 있어서, 식물 및 병원체는 함께 진화하며, 하나의 균형의 유전적 변화는 다른 것을 변화시킨다. 따라서, 천연 가변성을 사용하여, 육종자는 수율, 품질, 균일성, 내한성, 저항성에 대해 가장 유용한 유전자를 조합한다. 저항성 유전자의 공급원은 고유 또는 외래 품종, 토종(Heirloom) 품종, 야생 식물 동류 및 유도된 돌연변이, 예를 들어 돌연변이유발 작용제로 식물 물질을 처리하는 것을 포함한다. 본 발명을 사용하여, 식물 육종자에게 돌연변이를 유도하는 신규 도구가 제공된다. 따라서, 당업자는 저항성 유전자 공급원의 게놈을 분석할 수 있으며, 요망되는 특징 또는 특성을 갖는 품종에서 본 발명을 이용하여 이전의 돌연변이유발 작용제보다 더 큰 정밀도로 저항성 유전자의 발생을 유도하여, 이에 따라 식물 육종 프로그램을 가속화시키고 향상시킬 수 있다.
명백한 바와 같이, 본 발명의 시스템이 임의의 대상 폴리뉴클레오티드 서열을 표적화하기 위해 사용될 수 있음이 예상된다. 본 발명의 시스템을 사용하여 유용하게 치료될 수 있는 질환 또는 질병의 일부 예는 상기 표에 포함되어 있으며, 그들 질환과 현재 관련되어 있는 유전자의 예도 또한 거기에 제공된다. 그러나, 예시된 유전자는 배타적인 것은 아니다.
실시예
하기의 실시예는 본 발명의 다양한 구현예를 예시할 목적으로 제공되며, 어떠한 방식으로든 본 발명을 제한하고자 하지 않는다. 본원에 기술된 방법과 함께 본 발명의 실시예는 본원에서 바람직한 구현예를 대표하는 것이며, 예시적이고, 본 발명의 범주에 대한 제한으로 의도되지 않는다. 거기에서의 변화 및 다른 용도는 청구범위의 범주에 의해 정의되는 바와 같은 본 발명의 목적에 포함되며, 당업자에게 수행될 것이다.
실시예 1: 진핵 세포의 핵에서의 CRISPR 복합체 활성
예시적인 II형 CRISPR 시스템은 스트렙토코커스 피오게네스 SF370 유래의 II형 CRISPR 유전자좌이며, 이는 4개 유전자, Cas9, Casl, Cas2 및 Csn1의 클러스터 뿐 아니라 2개의 비-코딩 RNA 요소, tracrRNA, 및 비-반복 서열의 짧은 스트레치(스페이서, 각각 30bp)에 의해 산재된 반복 서열의 특징적 어레이(직접 반복부)를 포함한다. 이러한 시스템에서, 표적화된 DNA 이중-가닥 파단(DSB)은 4개의 순차적 단계로 생성된다(도 2a). 먼저, 2개의 비-코딩 RNA, pre-crRNA 어레이 및 tracrRNA를 CRISPR 유전자좌로부터 전사시킨다. 두번째로, tracrRNA를 pre-crRNA 의 직접 반복부에 혼성화시키고, 이어서 개별 스페이서 서열을 함유하는 성숙 crRNA로 가공한다. 세 번째로, 성숙 crRNA:tracrRNA 복합체는 crRNA의 스페이서 영역과 프로토스페이서 DNA 사이의 헤테로듀플렉스 형성을 통해 Cas9를 프로토스페이서 및 상응하는 PAM으로 구성된 DNA 표적으로 유도한다. 마지막으로, Cas9는 PAM의 상류의 표적 DNA의 절단을 매개하여 프로토스페이서 내에 DSB를 생성한다(도 2a). 이러한 실시예는 진핵 세포의 핵에서 CRISPR 복합체 활성을 유도하기 위해 이러한 RNA-프로그램화가능 뉴클레아제 시스템을 조정하는 예시적인 과정을 기술한다.
포유동물 세포에서의 CRISPR 성분의 발현을 향상시키기 위하여, 스트렙토코커스 피오게네스(S. 피오게네스)의 SF370 유전자좌 1 유래의 2개의 유전자, Cas9(SpCas9) 및 RNase III(SpRNase III)를 코돈-최적화시켰다. 핵 국소화를 용이하게 하기 위하여, 핵 국소화 신호(NLS)를 SpCas9 및 SpRNase III 둘 모두의 아미노(N)- 또는 카르복실(C)-말단에 포함시켰다(도 2b). 또한, 단백질 발현의 가시화를 용이하게 하기 위하여, 형광 단백질 마커도 또한 단백질 둘 모두의 N- 또는 C-말단에 포함시켰다(도 2b). NLS가 N- 및 C-말단 둘 모두에 부착된 SpCas9의 버전(2xNLS-SpCas9)도 또한 생성하였다. NLS-융합 SpCas9 및 SpRNase III를 함유하는 작제물을 293FT 인간 배아 신장(HEK) 세포 내로 트랜스펙션시키고, SpCas9 및 SpRNase III에 대한 NLS의 상대적 위치지정이 그들의 핵 국소화 효율에 영향을 미치는 것으로 관찰되었다. C-말단 NLS는 SpRNase III를 핵에 표적화시키는데 충분하였지만, 단일의 카피의 이들 특정 NLS를 SpCas9의 N- 또는 C-말단 중 어느 하나로 부착하면, 이러한 시스템에서 적당한 핵 국소화를 달성할 수 없었다. 이러한 실시예에서, C-말단 NLS는 뉴클레오플라스민의 것이었으며(KRPAATKKAGQAKKKK), C-말단 NLS는 SV40 대형 T-항원의 것이었다(PKKKRKV). 시험한 SpCas9의 버전 중에, 오직 2xNLS-SpCas9만이 핵 국소화를 나타내었다(도 2b).
스트렙토코커스 피오게네스 SF370의 CRISPR 유전자좌로부터의 tracrRNA은 2개의 전사 시작 부위를 가져, 89-뉴클레오티드(nt) 및 171 nt의 2개의 전사물을 야기하며, 이는 이후에 동일한 75 nt 성숙 tracrRNA로 가공된다. 보다 짧은 89 nt tracrRNA를 포유동물 세포에서의 발현을 위해 선택하였다(도 6b에 나타낸 서베이어 검정의 결과에 의해 결정시 작용성이 있는 도 6에 예시된 발현 작제물). 전사 시작 부위는 +1로 표시되며, 전사 종결자 및 노던 블롯에 의해 프로빙되는 서열도 또한 표시되어 있다. 가공된 tracrRNA의 발현도 또한 노던 블롯에 의해 확인하였다. 도 7c는 긴 또는 짧은 tracrRNA, 및 SpCas9 및 DR-EMX1(1)-DR을 지니는 U6 발현 작제물이 트랜스펙션된 293FT 세포로부터 추출된 전체 RNA의 노던 블롯 분석의 결과를 보여준다. 좌측 및 우측 패널은 각각 SpRNase III의 부재 또는 존재 하에 트랜스펙션된 293FT 세포로부터의 것이다. U6은 인간 U6 snRNA를 표적화하는 프로브로 블롯팅된 로딩 대조군을 나타낸다. 짧은 tracrRNA 발현 작제물의 트랜스펙션은 풍부한 수준의 tracrRNA의 가공된 형태를 야기한다(약 75 bp). 매우 소량의 긴 tracrRNA가 노던 블롯에서 검출된다.
정밀한 전사 개시를 촉진시키기 위하여 RNA 중합효소 III 기반의 U6 프로모터를 선택하여, tracrRNA의 발현을 유도하였다(도 2c). 유사하게, U6 프로모터 기반의 작제물을 2개의 직접 반복부(DR, 또한 용어 "tracr-메이트 서열"에 포함; 도 2c)가 측부 배치된 단일의 스페이서로 구성된 pre-crRNA 어레이를 발현하도록 발생시켰다. 초기 스페이서를 대뇌 피질의 발생의 주요 유전자인 인간 EMX1 유전자좌 내의 33-염기-쌍(bp) 표적 부위(30-bp 프로토스페이서 + Cas9의 NGG 인식 모티프를 만족시키는 3-bp CRISPR 모티프(PAM) 서열)를 표적화하도록 설계하였다(도 2c).
포유동물 세포에서 CRISPR 시스템(SpCas9, SpRNase III, tracrRNA 및 pre-crRNA)의 이종 발현이 포유동물 염색체의 표적화된 절단을 달성할 수 있는지를 시험하기 위하여, HEK 293FT 세포를 CRISPR 성분의 조합으로 트랜스펙션시켰다. 포유동물 핵에서 DSB가 삽입-결실의 형성을 야기하는 비-상동 말단 연결(NHEJ) 경로에 의해 부분적으로 수복되기 때문에, 서베이어 검정을 사용하여, 표적 EMX1 유전자좌에서 잠재적인 절단 활성을 검출하였다(예를 들어, 문헌[Guschin et al., 2010, Methods Mol Biol 649: 247] 참조). 모든 4개의 CRISPR 성분의 동시-트랜스펙션은 프로토스페이서 최대 5.0% 절단을 유도할 수 있었다(도 2d 참조). 또한, SpRNase III을 제한 모든 CRISPR 성분의 동시-트랜스펙션에 의해, 프로토스페이서에서 최대 4.7% 삽입-결실이 유도되었으며, 이는 crRNA 성숙을 보조할 수 있는 내인성 포유동물 RNase, 예를 들어, 관련 Dicer 및 Drosha 효소가 존재할 수 있음을 시사한다. 남아 있는 3개 성분 중 임의의 것의 제거에 의해, CRISPR 시스템의 게놈 절단 활성이 없어졌다(도 2d). 표적 유전자좌를 함유하는 앰플리콘(amplicon)의 생거(Sanger) 시퀀싱에 의해, 절단 활성이 입증되었으며: 43개의 시퀀싱된 클론 중에, 5개의 돌연변이된 대립형질(11.6%)이 관찰되었다. 다양한 가이드 서열을 사용하는 유사한 실험에 의해, 29%만큼 높은 삽입-결실 백분율을 생성하였다(도 4 내지 8, 10 및 11 참조). 이들 결과는 포유동물 세포에서의 효율적인 CRISPR-매개의 게놈 변형을 위한 3-성분 시스템을 정의한다.
절단 효율을 최적화시키기 위하여, 본 발명자들은 또한 상이한 아이소형의 tracrRNA가 절단 효율에 영향을 미치는지를 시험하였으며, 이러한 예시적인 시스템에서, 오직 짧은(89-bp) 전사물 형태만이 인간 EMX1 게놈 유전자좌의 절단을 매개할 수 있는 것이 관찰되었다. 도 9는 포유동물 세포에서의 crRNA 가공의 추가의 노던 블롯 분석을 제공한다. 도 9A는 2개의 직접 반복부가 측부 배치된 단일의 스페이서(DR-EMX1(1)-DR)에 대한 발현 벡터를 보여주는 개략도를 예시한다. 인간 EMX1 유전자좌 프로토스페이서 1을 표적화하는 30 bp 스페이서 및 직접 반복부 서열은 도 9A 아래의 서열에 나타나 있다. 선은 역-상보 서열을 사용하여 EMX1(1) crRNA 검출을 위한 노던 블롯 프로브를 생성한 영역을 나타낸다. 도 9B는 DR-EMX1(1)-DR을 지니는 U6 발현 작제물로 트랜스펙션된 293FT 세포로부터 추출된 전체 RNA의 노던 블롯 분석을 보여준다. 좌측 및 우측 패널은 각각 SpRNase III의 부재 또는 존재 하에 트랜스펙션된 293FT 세포로부터의 것이다. DR-EMX1(1)-DR은 SpCas9 및 짧은 tracrRNA의 존재 하에서만 성숙 crRNA로 처리되었고, SpRNase III의 존재에 따라 달라지지 않았다. 트랜스펙션된 293FT 전체 RNA로부터 검출된 성숙 crRNA는 약 33 bp이며, 스트렙토코커스 피오게네스로부터의 39 내지 42 bp 성숙 crRNA보다 더 짧다. 이들 결과는 CRISPR 시스템이 진핵 세포로 이식될 수 있으며, 내인성 포유동물 표적 폴리뉴클레오티드의 절단을 용이하게 하도록 재프로그램화될 수 있음을 보여준다.
도 2는 이러한 실시예에 기술된 박테리아 CRISPR 시스템을 예시한다. 도 2a는 스트렙토코커스 피오게네스 SF370으로부터의 CRISPR 유전자좌 1 및 이러한 시스템에 의한 제안된 CRISPR-매개의 DNA 절단의 메카니즘을 보여주는 개략도를 예시한다. 직접 반복부-스페이서 어레이로부터 가공된 성숙 crRNA는 Cas9를 상보성 프로토스페이서 및 프로토스페이서-인접 모티프(PAM)로 구성된 게놈 표적에 지향시킨다. 표적-스페이서 염기 쌍형성 시에, Cas9는 표적 DNA에서 이중 가닥 파단을 매개한다. 도 2b는 포유동물 핵으로의 유입을 가능하게 하는 핵 국소화 신호(NLS)가 있는 스트렙토코커스 피오게네스 Cas9(SpCas9) 및 RNase III(SpRNase III)의 조작을 예시한다. 도 2c는 정밀한 전사 개시 및 종결을 촉진하기 위한 구성성 EF1a 프로모터에 의해 유도되는 SpCas9 및 SpRNase III 및 RNA Pol3 프로모터 U6에 의해 유도되는 tracrRNA 및 pre-crRNA 어레이(DR-스페이서-DR)의 포유동물 발현을 예시한다. 만족스러운 PAM 서열이 있는 인간 EMX1 유전자좌로부터의 프로토스페이서는 pre-crRNA 검정에서 스페이서로 사용된다. 도 2d는 SpCas9-매개의 최소 삽입 및 결실을 위한 서베이어 뉴클레아제 검정을 예시한다. SpRNase III, tracrRNA 및 EMX1-표적 스페이서를 지니는 pre-crRNA 어레이의 존재 및 부재 하에 SpCas9를 발현시켰다. 도 2e는 표적 유전자좌와 EMX1-표적화 crRNA 사이의 염기 쌍형성의 개략적 표현, 및 SpCas9 절단 부위에 인접한 마이크로 결실을 보이는 예시적인 크로마토그램을 예시한다. 도 2f는 다양한 마이크로 삽입 및 결실을 보이는 43개의 클론 앰플리콘의 시퀀싱 분석으로부터 확인된 돌연변이된 대립형질을 예시한다. 줄표는 결실된 염기를 나타내며, 비-정렬 또는 미스매치된 염기는 삽입 또는 돌연변이를 나타낸다. 스케일 바(scale bar) = 10 ㎛.
3-성분 시스템을 더욱 단순화시키기 위하여, 키메라 crRNA-tracrRNA 하이브리드 설계를 조정하였으며, 여기서, 성숙 crRNA(가이드 서열 포함)는 스템-루프를 통해 부분 tracrRNA에 융합되어, 천연 crRNA:tracrRNA 듀플렉스를 모방한다(도 3A).
가이드 서열은 어닐링된 올리고뉴클레오티드를 사용하여 BbsI 부위 사이에 삽입될 수 있다. 센스 및 안티-센스 가닥 상의 프로토스페이서는 각각 DNA 서열 상측 및 하측에 표기되어 있다. 인간 PVALB 및 마우스 Th 유전자좌 각각에 대하여 6.3% 및 0.75%의 변형률이 달성되었으며, 이는 다수의 유기체에 걸쳐 상이한 유전자좌의 변형에서의 CRISPR 시스템의 넓은 응용가능성을 입증한다. 키메라 작제물을 사용하여 각 유전자좌에 대하여 3개의 스페이서 중 1개에서만 절단이 검출되었지만, 동시-발현되는 pre-crRNA 배열을 사용하는 경우 27%에 미치는 삽입-결실 생성 효율로, 모든 표적 서열이 절단되었다(도 4 및 5).
도 5는 SpCas9가 포유동물 세포에서 다수의 게놈 유전자좌를 표적화하도록 재프로그램화될 수 있다는 추가의 예시를 제공한다. 도 5a는 5개의 프로토스페이서의 위치를 밑줄이 있는 서열로 나타내어 보여주는 인간 EMX1 유전자좌의 개략도를 제공한다. 도 5b는 pre-crRNA의 직접 반복부 영역과 tracrRNA 간의 혼성화를 보여주는 pre-crRNA/trcrRNA 복합체의 개략도(상측) 및 20 bp 가이드 서열, 및 헤어핀 구조로 혼성화되는 부분 직접 반복부 및 tracrRNA 서열로 구성된 tracr 메이트 서열 및 tracr 서열을 포함하는 키메라 RNA 설계의 개략도(하측)를 제공한다. 인간 EMX1 유전자좌 내의 5개의 프로토스페이서에서의 Cas9-매개의 절단의 효능을 비교하는 서베이어 검정의 결과는 도 5c에 예시되어 있다. 각각의 프로토스페이서는 가공된 pre-crRNA/tracrRNA 복합체(crRNA) 또는 키메라 RNA(chiRNA)를 사용하여 표적화된다.
RNA의 2차 구조가 분자간 상호작용에 결정적일 수 있기 때문에, 최소 자유 에너지 및 볼쯔만(Boltzmann)-가중 구조 앙상블에 기초한 구조 예측 알고리즘을 사용하여 본 발명자들의 게놈 표적화 실험에 사용되는 모든 가이드 서열의 추정상 2차 구조를 비교하였다(도 3B)(예를 들어, 문헌[Gruber et al., 2008, Nucleic Acids Research, 36: W70] 참조). 분석에 의해, 대부분의 경우에, 키메라 crRNA 맥락에서 효율적인 가이드 서열에 2차 구조 모티프가 실질적으로 없지만, 비효율적인 가이드 서열은 표적 프로토스페이서 DNA와의 염기 쌍형성을 막을 수 있는 내부 2차 구조를 형성할 가능성이 더 큰 것으로 드러났다. 따라서, 키메라 crRNA를 사용하는 경우, 스페이서 2차 구조의 가변성이 CRISPR-매개 간섭의 효율에 영향을 미칠 수 있다.
도 3은 예시적인 발현 벡터를 예시한다. 도 3A는 합성 crRNA-tracrRNA 키메라(키메라 RNA), 및 SpCas9의 발현을 유도하기 위한 비-시스트로닉 벡터의 개략도를 제공한다. 키메라 가이드 RNA는 게놈 표적 부위 내의 프로토스페이서에 상응하는 20-bp 가이드 서열을 함유한다. 도 3B는 인간 EMX1, PVALB, 및 마우스 Th 유전자좌를 표적화하는 가이드 서열, 및 그들의 예측된 2차 구조를 보여주는 개략도를 제공한다. 각 표적 부위에서의 변형 효율은 RNA 2차 구조 도면 아래에 표기되어 있다(EMX1, n = 216개 앰플리콘 시퀀싱 판독치; PVALB, n = 224개 판독치; Th, n = 265개 판독치). 폴딩 알고리즘에 의해, 레인보우 스케일로 표기시 각 염기가 예측되는 2차 구조의 그의 추정 확률에 따라 채색된 결과가 생성되었으며, 이는 도 3B에 그레이 스케일로 재현된다. 가이드 올리고에 대한 삽입 부위에 연결된 U6 프로모터 및 SpCas9 코딩 서열에 연결된 Cbh 프로모터를 혼입한 단일의 발현 벡터를 포함하는 SpCas9에 대한 추가의 벡터 설계는 도 3A에 나타나 있다.
천연적으로 CRISPR이 작동되는 원핵 세포에서 2차 구조를 함유하는 스페이서가 기능할 수 있는지를 시험하기 위하여, 프로토스페이서를 지니는 플라스미드의 형질전환 간섭을, 스트렙토코커스 피오게네스 SF370 CRISPR 유전자좌 1을 이종 발현하는 에스케리키아 콜라이 균주에서 시험하였다(도 3C). CRISPR 유전자좌를 저-카피 에스케리키아 콜라이 발현 벡터로 클로닝하고, crRNA 어레이를 DR의 쌍이 측부 배치된 단일의 스페이서로 대체하였다(pCRISPR). 상이한 pCRISPR 플라스미드를 지니는 에스케리키아 콜라이 균주를, 상응하는 프로토스페이서 및 PAM 서열을 함유하는 챌린지 플라스미드로 형질전환시켰다(도 3C). 박테리아 검정에서, 모든 스페이서는 효율적인 CRISPR 간섭을 촉진시켰다(도 3C). 이들 결과는 포유동물 세포에서 CRISPR 활성의 효율에 영향을 미치는 추가의 인자가 존재함을 시사한다.
CRISPR-매개의 절단의 특이성을 조사하기 위하여, 포유동물 게놈에서 프로토스페이서 절단에 대한 가이드 서열 내의 단일-뉴클레오티드 돌연변이의 영향을, 단일의 점 돌연변이가 있는 일련의 EMX1-표적화 키메라 crRNA를 사용하여 분석하였다(도 4a). 도 4b는 상이한 돌연변이 키메라 RNA와 쌍을 형성하는 경우, Cas9의 절단 효율을 비교하는 서베이어 뉴클레아제 검정의 결과를 예시한다. PAM의 최대 12-bp 5'의 단일-염기 미스매치는 SpCas9에 의한 게놈 절단을 없애는 한편, 더 먼 상류 위치에 돌연변이가 있는 스페이서는 원래의 프로토스페이서 표적에 대한 활성을 보유하였다(도 4b). PAM에 더하여, SpCas9는 마지막 12-bp의 스페이서 내에 단일-염기 특이성을 갖는다. 또한, CRISPR은 동일한 EMX1 프로토스페이서를 표적화하는 TALE 뉴클레아제(TALEN)의 쌍만큼 효율적으로 게놈 절단을 매개할 수 있다. 도 4c는 EMX1을 표적화하는 TALEN의 설계를 보여주는 개략도를 제공하며, 도 4d는 TALEN 및 Cas9의 효율을 비교하는 서베이어 겔을 보여준다(n=3).
오류-유발 NHEJ 메카니즘을 통해 포유동물 세포에서 CRISPR-매개의 유전자 교정을 달성하기 위한 성분의 세트를 확립하면, 상동성 재조합(HR), 게놈에서 정밀한 교정을 이루기 위한 고충실도 유전자 수복 경로를 자극하는 CRISPR의 능력을 시험하였다. 야생형 SpCas9는 부위-특이적 DSB를 매개할 수 있는데, 이는 NHEJ 및 HR 둘 모두를 통해 수복될 수 있다. 또한, SpCas9의 RuvC I 촉매 도메인에서의 아스파르트산염에서 알라닌으로의 치환(D10A)을 조작하여 뉴클레아제를 닉카아제로 전환시켜(SpCas9n; 도 5a에 예시)(예를 들어, 문헌[Sapranausaks et al., 2011, Cucleic Acis Research, 39: 9275]; 문헌[Gasiunas et al., 2012, Proc. Natl. Acad. Sci. USA, 109:E2579] 참조), 닉이 있는 게놈 DNA가 고-충실도 상동성-유도 수복(HDR)을 겪게 하였다. 서베이어 검정에 의해, SpCas9n이 EMX1 프로토스페이서 표적에서 삽입-결실을 생성하지 않음이 확인되었다. 도 5b에 예시된 바와 같이, EMX1-표적화 키메라 crRNA와 SpCas9의 동시-발현에 의해, 표적 부위에서 삽입-결실이 생성되는 한편, SpCas9n과의 동시-발현은 그렇지 않았다(n=3). 또한, 327개 앰플리콘의 시퀀싱에 의해, SpCas9n에 의해 유도되는 임의의 삽입-결실이 검출되지 않았다. 동일한 유전자좌를 선택하여, HEK 293FT 세포를 EMX1, hSpCas9 또는 hSpCas9n을 표적화하는 키메라 RNA, 및 프로토스페이서 근처에 제한 부위(HindIII 및 NheI)의 쌍을 도입하기 위한 HR 주형으로 동시-트랜스펙션시킴으로써 CRISPR-매개의 HR을 시험하였다. 도 5c는 재조합 지점 및 프라이머 어닐링 서열(화살표)의 상대적 위치와 함께, HR 전략의 개략적 예시를 제공한다. SpCas9 및 SpCas9n은 실제로 HR 주형이 EMX1 유전자좌로 통합되는 것을 촉매작용시킨다. 표적 영역의 PCR 증폭 후에, HindIII를 사용한 제한 분해에 의해, 예상되는 단편 크기(도 5d에 나타낸 제한 단편 길이 다형성 겔 분석에서 화살표)에 상응하는 절단 산물이 나타났으며, SpCas9 및 SpCas9n은 유사한 수준의 HR 효율을 매개한다. 본 발명자들은 게놈 앰플리콘의 생거 시퀀싱을 사용하여 HR을 추가로 입증하였다(도 5e). 이들 결과는 포유동물 게놈 내로의 표적화된 유전자 삽입을 촉진시키기 위한 CRISPR의 유용성을 입증한다. 야생형 SpCas9의 14-bp(스페이서로부터 12-bp 및 PAM으로부터 2-bp) 표적 특이성을 고려하여, 단일 가닥 파단이 오류-유발 NHEJ 경로에 대한 기질이 아니기 때문에, 닉카아제의 이용가능성은 표적외 변형 가능성을 상당히 감소시킬 수 있다.
배열된 스페이서가 있는 CRISPR 유전자좌의 천연 구조를 모방하는 발현 작제물(도 2a)을 작제하여, 다중 서열 표적화의 가능성을 시험하였다. EMX1- 및 PVALB-표적화 스페이서의 쌍을 인코딩하는 단일의 CRISPR 어레이를 사용하여, 둘 모두의 유전자좌에서의 효율적인 절단이 검출되었다(도 4f, crRNA 어레이의 개략적 설계 및 효율적인 절단의 매개를 보여주는 서베이어 블롯을 보여줌). 119 bp 만큼 이격된 EMX1 내의 2개의 표적에 대한 스페이서를 사용하여 동시 발생 DSB을 통한 보다 큰 게놈 영역의 표적화된 결실도 또한 시험하고, 1.6% 결실 효능(182개 앰플리콘 중 3개; 도 5g)을 검출하였다. 이는 CRISPR 시스템이 단일의 게놈 내에서 다중화 교정을 매개할 수 있음을 나타낸다.
실시예 2: CRISPR 시스템 변형 및 대안
서열-특이적 DNA 절단을 프로그램화시키기 위하여 RNA를 사용하는 능력은 다양한 연구 및 산업 응용을 위한 신규한 부류의 게놈 조작 도구를 정한다. CRISPR 시스템의 몇몇 양태를 추가로 향상시켜, CRISPR 표적화의 효율 및 다능성을 증가시킬 수 있다. 최적의 Cas9 활성은 포유동물 핵에 존재하는 것보다 더 높은 수준의 유리 Mg² ⁺의 이용가능성에 따라 달라질 수 있으며(예를 들어, 문헌[Jinek et al., 2012, Science, 337:816] 참조), 프로토스페이서의 인접 하류 NGG 모티프에 대한 선호는 인간 게놈에서 평균하여 12-bp 마다를 표적화하는 능력을 제한한다. 이들 제약 중 일부는 미생물 메타게놈에 걸친 CRISPR 유전자좌의 다양성을 연구함으로써 극복될 수 있다(예를 들어, 문헌[Makarova et al., 2011, Nat Rev Microbiol, 9:467] 참조). 다른 CRISPR 유전자좌는 실시예 1에 기술된 것과 유사한 과정에 의해 포유동물 세포 환경으로 이식될 수 있다. 각 표적 부위에서의 변형 효율은 RNA 2차 구조 아래에 표기되어 있다. 구조를 생성하는 알고리즘은 예측되는 2차 구조의 그의 추정 확률에 따라 각 염기를 채색한다. RNA 가이드 스페이서 1 및 2는 각각 14% 및 6.4%를 유도하였다. 이들 2개의 프로토스페이서 부위에서의 생물학적 반복 검증에 걸친 절단 활성의 통계적 분석도 또한 도 7에 제공된다.
실시예 3: 샘플 표적 서열 선택 알고리즘
소프트웨어 프로그램을 설계하여, 특정 CRISPR 효소에 대하여 요망되는 가이드 서열 길이 및 CRISPR 모티프 서열(PAM)에 기초하여 투입 DNA 서열의 둘 모두의 가닥에서 후보 CRISPR 표적 서열을 확인한다. 예를 들어, PAM 서열 NGG가 있는 스트렙토코커스 피오게네스 유래의 Cas9에 대한 표적 부위는 투입 서열, 및 투입 서열의 역-상보물 둘 모두에서 5'-N_x-NGG-3'을 검색함으로써 확인될 수 있다. 마찬가지로, PAM 서열 NNAGAAW가 있는 스트렙토코커스 써모필러스 CRISPR1의 Cas9에 대한 표적 부위는 투입 서열, 및 투입 서열의 역-상보물 둘 모두에서 5'-N_x-NNAGAAW-3'을 검색함으로써 확인될 수 있다. 마찬가지로, PAM 서열 NGGNG가 있는 스트렙토코커스 써모필러스 CRISPR3의 Cas9에 대한 표적 부위는 투입 서열, 및 투입 서열의 역-상보물 둘 모두에서 5'-N_x-NGGNG-3'을 검색함으로써 확인될 수 있다. N_x에서 값 "x"는 프로그램에 의해 고정되거나, 사용자에 의해 지정될 수 있으며, 예를 들어, 20일 수 있다.
게놈에서의 DNA 표적 부위의 다수의 존재가 비특이적인 게놈 교정을 야기할 수 있기 때문에, 모든 가능한 부위를 확인한 후에, 프로그램은 그들이 관련 참조 게놈에 나타나는 횟수에 기초하여 서열을 필터링한다. 서열 특이성이 '씨드(seed)' 서열, 예를 들어, PAM 서열 그 자체를 포함하여 PAM 서열로부터 5'의 11 내지 12 bp에 의해 결정되는 CRISPR 효소에 있어서, 필터링 단계는 씨드 서열에 기초하여 이루어질 수 있다. 따라서, 추가의 게놈 유전자좌에서 교정을 피하기 위하여, 결과는 관련 게놈에서의 씨드:PAM 서열의 발생 수에 기초하여 필터링된다. 사용자가 씨드 서열의 길이를 선택하게 할 수 있다. 또한, 필터를 통과시키기 위하여, 사용자가 게놈 내의 씨드:PAM 서열의 발생 수를 지정하게 할 수 있다. 디폴트는 독특한 서열에 대하여 스크리닝하는 것이다. 여과 수준은 씨드 서열의 길이와 게놈에서의 서열의 발생 수 둘 모두를 변화시킴으로써 변경된다. 프로그램은 추가로 또는 대안적으로, 확인된 표적 서열(들)의 역 상보물을 제공함으로써 보고된 표적 서열(들)에 상보적인 가이드 서열의 서열을 제공할 수 있다.
서열 선택을 최적화시키기 위한 방법 및 알고리즘의 추가의 상세사항은 본원에 참조로 포함되는 미국 출원 TBA(브로드 참조번호 BI-2012/084 44790.11.2022)에서 찾을 수 있다.
실시예 4: 다중 키메라 crRNA - tracrRNA 하이브리드의 평가
본 실시예는 상이한 길이의 야생형 tracrRNA 서열이 혼입된 tracr 서열을 갖는 키메라 RNA(chiRNA; 단일의 전사물에 가이드 서열, tracr 메이트 서열 및 tracr 서열을 포함)에 대해 수득된 결과를 기술한다. 도 18a는 키메라 RNA 및 Cas9에 대한 비시스트로닉 발현 벡터의 개략도를 예시한다. Cas9는 CBh 프로모터에 의해 유도되며, 키메라 RNA는 U6 프로모터에 의해 유도된다. 키메라 가이드 RNA는 표기된 바와 같은 다양한 위치에서 절단되는 tracr 서열(하부 가닥의 처음 "U"에서 전사물의 마지막까지 계속)에 연결된 20 bp 가이드 서열(N)로 구성된다. 가이드 및 tracr 서열은 tracr-메이트 서열 GUUUUAGAGCUA에 이어서 루프 서열 GAAA에 의해 분리된다. 인간 EMX1 및 PVALB 유전자좌에서의 Cas9-매개의 삽입-결실에 대한 서베이어 검정의 결과는 각각 도 18b 및 도 18c에 예시되어 있다. 화살표는 예상된 서베이어 단편을 나타낸다. chiRNA는 그들의 "+n" 표기로 표시되며, crRNA는 가이드 및 tracr 서열이 개별 전사물로서 발현되는 하이브리드 RNA를 지칭한다. 3벌로 수행되는 이들 결과의 정량화는 각각 도 10b 및 도 10c에 상응하는 도 11a 및 도 11b의 히스토그램에 의해 예시되어 있다("N.D."는 삽입-결실이 검출되지 않음을 나타낸다). 프로토스페이서 ID 및 그들의 상응하는 게놈 표적, 프로토스페이서 서열, PAM 서열 및 가닥 위치는 표 D에 제공되어 있다. 하이브리드 시스템에서 개별 전사물의 경우에는 전체 프로토스페이서 서열에 상보적이거나, 키메라 RNA의 경우에는 밑줄이 있는 부분에만 상보성이도록 가이드 서열을 설계하였다.

세포 배양 및 트랜스펙션 .
인간 배아 신장(HEK) 세포주 293FT(라이프 테크놀로지즈)를 10% 우태아혈청(하이클론), 2mM GlutaMAX(라이프 테크놀로지즈), 100U/㎖ 페니실린 및 100㎍/㎖ 스트렙토마이신이 보충된 둘베코 개질 이글스 배지(DMEM)에서 37℃에서 5% C0₂ 인큐베이션시키면서 유지시켰다. 293FT 세포를 웰마다 150,000개 세포의 밀도로 트랜스펙션 24시간 전에 24-웰 플레이트(코닝)에 씨딩하였다. 세포를 제조사의 권고된 프로토콜에 따라 리포펙타민 2000(라이프 테크놀로지즈)을 사용하여 트랜스펙션시켰다. 24-웰 플레이트의 각 웰에 대하여 총 500 ng의 플라스미드를 사용하였다.
게놈 변형에 대한 서베이어 검정
293FT 세포를 상기 기재한 바와 같이 플라스미드 DNA로 트랜스펙션하였다. 게놈 DNA 추출 전에, 트랜스펙션 후 72시간 동안 37℃에서 세포를 인큐베이션하였다. 게놈 DNA를 제조사의 프로토콜에 따라 퀵익스트랙트 DNA 추출 용액(에피센트레)을 사용하여 추출하였다. 간략하게, 펠렛화된 세포를 퀵익스트랙트 용액에 재현탁화시키고, 65℃에서 15분 동안 및 98℃에서 10분 동안 인큐베이션하였다. 각 유전자에 대한 CRISPR 표적 부위의 측부에 배치된 게놈 부위를 PCR 증폭시키고(표 E에 열거된 프라이머), 산물을 제조사의 프로토콜에 따라 퀴아퀵 스핀 컬럼(퀴아젠)을 사용하여 정제하였다. 총 400 ng의 정제된 PCR 산물을 2㎕ 10X Taq DNA 중합효소 PCR 완충제(엔자이머틱스) 및 초순수와 총 20 ㎕ 부피로 혼합하고, 재어닐링 과정을 거치게 하여 헤테로듀플렉스가 형성되게 하였다: 95℃에서 10분, 95℃에서 85℃(-2℃/초로 램핑), 85℃에서 25℃(-0.25℃/초), 및 25℃에서 1분 유지. 재어닐링 후, 산물을 제조사의 권고 프로토콜에 따라 서베이어 뉴클레아제 및 서베이어 인핸서 S(트랜스게노믹스)로 처리하고, 4 내지 20% 노벡스 TBE 폴리-아크릴아미드 겔(라이프 테크놀로지즈)에서 분석하였다. 겔을 SYBR 골드 DNA 염색제(라이프 테크놀로지즈)로 30분 동안 염색하고, Gel Doc 겔 영상화 시스템(바이오-라드)으로 영상화하였다. 정량화는 상대적 밴드 세기를 기반으로 하였다.

독특한 CRISPR 표적 부위의 컴퓨터에 의한 확인
인간, 마우스, 랫트, 제브라피시, 초파리 및 C. 엘레간스 게놈에서 스트렙토코커스 피오게네스 SF370 Cas9(SpCas9) 효소에 대한 독특한 표적 부위를 확인하기 위하여, 본 발명자들은 DNA 서열의 둘 모두의 가닥을 스캐닝하고, 모든 가능한 SpCas9 표적 부위를 확인하기 위한 소프트웨어 패키지를 개발하였다. 이러한 실시예에 있어서, 각각의 SpCas9 표적 부위는 작용에 있어서 NGG 프로토스페이서 인접 모티프(PAM) 서열이 뒤에 오는 20 bp 서열로서 정의되며, 본 발명자들은 모든 염색체에서 이러한 5'-N₂₀-NGG-3' 정의를 만족시키는 모든 서열을 확인하였다. 비-특이적인 게놈 교정을 방지하기 위하여, 모든 잠재적인 부위를 확인한 후에, 모든 표적 부위를 그들이 관련 참조 게놈에 나타나는 횟수에 기초하여 필터링하였다. 예를 들어, PAM 서열로부터 5'의 대략 11 내지 12 bp 서열일 수 있는 '씨드' 서열에 의해 부여되는 Cas9 활성의 서열 특이성을 이용하기 위하여, 5'-NNNNNNNNNN-NGG-3' 서열이 관련 게놈에서 독특한 것으로 선택되었다. 모든 게놈 서열을 UCSC 게놈 브라우저(Genome Browser)(인간 게놈 hg19, 마우스 게놈 mm9, 랫트 게놈 rn5, 제브라피시 게놈 danRer7, 드로소필라 멜라노개스터(D. melanogaster) 게놈 dm4 및 C. 엘레간스 게놈 ce10)로부터 다운로드하였다. UCSC 게놈 브라우저 정보를 사용하여 브라우징하기 위하여 전체 검색 결과가 이용가능하다. 인간 게놈 내의 몇몇 표적 부위의 예시적인 가시화가 도 22에 제공되어 있다.
먼저, 인간 HEK 293FT 세포에서 EMX1 유전자좌 내의 3개의 부위를 표적화시켰다. 각 chiRNA의 게놈 변형 효율을 서베이어 뉴클레아제 검정을 사용하여 평가하였으며, 이 검정은 DNA 이중-가닥 파단(DSB) 및 비-상동성 말단 연결(NHEJ) DNA 손상 수복 경로에 의한 그들의 이후의 수복으로부터 야기되는 돌연변이를 검출한다. chiRNA(+n)로 표기된 작제물은 야생형 tracrRNA의 최대 +n 뉴클레오티드가 키메라 RNA 작제물에 포함되는 것을 나타내며, 48, 54, 67 및 85의 값이 n에 대해 사용된다. 보다 긴 야생형 tracrRNA의 단편을 함유하는 키메라 RNA(chiRNA(+67) 및 chiRNA(+85))는 모든 3개의 EMX1 표적 부위에서 DNA 절단을 매개하며, chiRNA(+85)는 특히 개별 전사물에서 가이드 및 tracr 서열을 발현하는 상응하는 crRNA/tracrRNA 하이브리드보다 상당히 더 높은 수준의 DNA 절단을 나타낸다(도 10b 및 도 10a). 또한, 하이브리드 시스템(개별 전사물로 발현되는 가이드 서열 및 tracr 서열)을 사용하여 검출가능한 절단을 제공하지 않는 PVALB 유전자좌 내의 2개의 부위를 chiRNA를 사용하여 표적화하였다. chiRNA(+67) 및 chiRNA(+85)는 2개의 PVALB 프로토스페이서에서 상당한 절단을 매개할 수 있었다(도 10c 및 도 10b).
EMX1 및 PVALB 유전자좌 내의 모든 5개의 표적에 있어서, tracr 서열 길이의 증가와 일치하는 게놈 변형 효율의 증가가 관찰되었다. 임의의 이론에 구속되지 않고, tracrRNA의 3' 말단에 의해 형성되는 2차 구조는 CRISPR 복합체 형성 비율을 향상시키는데 역할을 수행할 수 있다. 본 실시예에 사용되는 키메라 RNA의 각각에 대하여 예측된 2차 구조의 예시는 도 21에 제공되어 있다. 2차 구조를 최소 자유 에너지 및 분배 함수 알고리즘을 사용하는 RNAfold(http://rna.tbi.univie.ac.at/cgi-bin/RNAfold.cgi)를 사용하여 예측하였다. 각 염기에 대한 의사 색채(pseudocolor)(그레이 스케일로 재현)는 쌍형성 가능성을 나타낸다. 보다 긴 tracr 서열을 갖는 chiRNA가 고유 CRISPR crRNA/tracrRNA 하이브리드에 의해 절단될 수 없었던 표적을 절단할 수 있기 때문에, 키메라 RNA가 그의 고유 하이브리드 대응물보다 더욱 효율적으로 Cas9에 로딩될 수 있다. 진핵 세포 및 유기체에서 부위-특이적 게놈 교정을 위한 Cas9의 응용을 용이하게 하기 위하여, 스트렙토코커스 피오게네스 Cas9에 대한 모든 예측된 독특한 표적 부위를 인간, 마우스, 랫트, 지브라피시, C. 엘레간스 및 드로소필라 멜라노개스터 게놈에서 컴퓨터로 확인하였다. 키메라 RNA를 다른 미생물 유래의 Cas9 효소를 위해 설계하여, CRISPR RNA-프로그램화가능한 뉴클레아제의 표적 공간을 확대할 수 있다.
도 11 및 도 21은 야생형 tracr RNA 서열의 최대 +85 뉴클레오티드 및 핵 국소화 서열이 있는 SpCas9를 포함하는 키메라 RNA의 발현을 위한 예시적인 비시스트로닉 발현 벡터를 예시한다. SpCas9는 CBh 프로모터로부터 발현되며, bGH 폴리A 신호(bGH pA)로 종결된다. 개략도 바로 아래에 예시되어 있는 확대된 서열은 가이드 서열 삽입 부위 주위의 영역에 상응하며, 5'에서 3'으로, U6 프로모터의 3'-부분(제1 음영 영역), BbsI 절단 부위(화살표), 부분 직접 반복부(tracr 메이트 서열 GTTTTAGAGCTA, 밑줄), 루프 서열 GAAA, 및 +85 tracr 서열(루프 서열 뒤의 밑줄이 있는 서열)을 포함한다. 예시적인 가이드 서열 삽입물은 가이드 서열 삽입 부위 아래에 예시되어 있으며, 선택된 표적에 대한 가이드 서열의 뉴클레오티드는 "N"으로 표시된다.
상기 실시예에 기술된 서열은 하기와 같다(폴리뉴클레오티드 서열은 5'에서 3'이다):
U6-짧은 tracrRNA(스트렙토코커스 피오게네스 SF370):

U6-긴 tracrRNA(스트렙토코커스 피오게네스 SF370):

U6-DR-BbsI 백본-DR(스트렙토코커스 피오게네스 SF370):

U6-키메라 RNA-BbsI 백본(스트렙토코커스 피오게네스 SF370)

NLS-SpCas9-EGFP:

SpCas9-EGFP-NLS:

NLS-SpCas9-EGFP-NLS:

NLS-SpCas9-NLS:

NLS-mCherry-SpRNase3:

SpRNase3-mCherry-NLS:

NLS-SpCas9n-NLS(D10A 닉카아제 돌연변이는 소문자임):

hEMX1-HR 주형-HindII-NheI:

NLS-StCsn1-NLS:

U6-St_tracrRNA(7-97):

U6-DR-스페이서-DR(스트렙토코커스 피오게네스 SF370)

+48 tracr RNA를 함유하는 키메라 RNA(스트렙토코커스 피오게네스 SF370)

+54 tracr RNA를 함유하는 키메라 RNA(스트렙토코커스 피오게네스 SF370)

+67 tracr RNA를 함유하는 키메라 RNA(스트렙토코커스 피오게네스 SF370)

+85 tracr RNA를 함유하는 키메라 RNA(스트렙토코커스 피오게네스 SF370)

CBh-NLS-SpCas9-NLS

스트렙토코커스 써모필러스 LMD-9 CRISPR1 Cas9에 대한 예시적인 키메라 RNA(NNAGAAW의 PAM 존재)

스트렙토코커스 써모필러스 LMD-9 CRISPR3 Cas9에 대한 예시적인 키메라 RNA(NGGNG의 PAM 존재)

스트렙토코커스 써모필러스 LMD-9 CRISPR3 유전자좌 유래의 Cas9의 코돈-최적화 버전(5' 및 3' 말단 둘 모두에 NLS 존재)

실시예 5: 스트렙토코커스 피오게네스 Cas9(SpCas9로 지칭)에 대한 가이드 RNA의 최적화
본 발명자들은 세포에서 RNA를 증가시키기 위하여 tracrRNA 및 직접 반복부 서열을 돌연변이시키거나 키메라 가이드 RNA를 돌연변이시켰다.
최적화는 tracrRNA 및 가이드 RNA 내에 티민(T)의 스트레치가 존재한다는 관찰을 기초로 한 것이며, 이는 pol 3 프로모터에 의한 조기 전사 종결을 야기할 수 있다. 따라서, 본 발명자들은 하기의 최적화된 서열을 생성하였다. 최적화된 tracrRNA 및 상응하는 최적화된 직접 반복부가 쌍으로 제시되어 있다.
최적화된 tracrRNA 1(돌연변이는 밑줄):

최적화된 직접 반복부 1(돌연변이는 밑줄):

최적화된 tracrRNA 2(돌연변이는 밑줄):

최적화된 직접 반복부 2(돌연변이는 밑줄):

또한, 본 발명자들은 진핵 세포에서의 최적의 활성을 위해 키메라 가이드 RNA를 최적화시켰다.
원래 가이드 RNA:

최적화된 키메라 가이드 RNA 서열 1:

최적화된 키메라 가이드 RNA 서열 2:

최적화된 키메라 가이드 RNA 서열 3:

본 발명자들은 최적화된 키메라 가이드 RNA가 도 9에 나타낸 바와 같이 더 잘 작동하는 것을 보여주었다. 293FT 세포를 Cas9 및 U6-가이드 RNA DNA 카세트로 동시-트랜스펙션시켜, 상기 나타낸 4개의 RNA 형태 중 하나를 발현함으로써 실험을 행하였다. 가이드 RNA의 표적은 인간 Emx1 유전자좌 내의 동일한 표적 부위이다: "GTCACCTCCAATGACTAGGG".
실시예 6: 스트렙토코커스 써모필러스 LMD -9 CRISPR1 Cas9(St1Cas9로 지칭)의 최적화
본 발명자들은 도 12에 나타낸 바와 같이 가이드 키메라 RNA를 설계하였다.
St1Cas9 가이드 RNA는 폴리 티민(T)의 스트레치를 파단시킴으로써, SpCas9 가이드 RNA에 대해서와 동일한 유형의 최적화를 겪을 수 있다.
실시예 7: 생체내 응용을 위한 Cas9 시스템의 향상
본 발명자들은 분자량이 작은 Cas9에 대한 메타게놈 검색을 행하였다. 대부분의 Cas9 상동체는 상당히 크다. 예를 들어, SpCas9는 대략 1368aa 길이이며, 이는 전달을 위해 바이러스 벡터로 용이하게 패키징되기에 너무 크다. 서열 중 일부는 잘못 주석 추가(mis-annotated)될 수 있으며, 이에 따라, 각 길이에 대한 정밀한 빈도는 본질적으로 정확하지 않을 수 있다. 그럼에도 불구하고, 그것은 Cas9 단백질의 분포의 일별을 제공하며, 보다 짧은 Cas9 상동체가 존재하는 것을 시사한다.
전산 분석을 통하여, 본 발명자들은 박테리아 균주 캄필로박터에서, 1000개 미만의 아미노산이 있는 2개의 Cas9 단백질이 존재하는 것을 관찰하였다. 캄필로박터 제주니(Campylobacter jejuni)로부터의 하나의 Cas9의 서열이 하기에 제시되어 있다. 이러한 길이에서, CjCas9는 일차 세포, 및 동물 모델에서 생체내로의 강력한 전달을 위해 AAV, 렌티바이러스, 아데노바이러스 및 다른 바이러스 벡터로 용이하게 패키징될 수 있다.
>캄필로박터 제주니 Cas9(CjCas9)

이러한 CjCas9에 대한 추정의 tracrRNA 요소는 하기와 같다:

직접 반복부 서열은 하기와 같다:

tracrRNA 및 직접 반복부의 동시-폴드 구조는 도 6에 제공되어 있다.
CjCas9에 대한 키메라 가이드RNA의 예는 하기와 같다:

또한, 본 발명자들은 시험관내 방법을 사용하여 Cas9 가이드 RNA를 최적화시켰다. 도 18은 시험관내 St1Cas9 키메라 가이드 RNA 최적화로부터의 데이터를 보여준다.
본 발명의 바람직한 구현예가 본원에 나타나고 기술되어 있지만, 이러한 구현예가 오직 예시로만 제공되는 것이 당업자에게 명백할 것이다. 수많은 변이, 변화 및 치환이 이제 본 발명으로부터 벗어남 없이, 당업자에게 일어날 것이다. 본원에 기술된 본 발명의 구현예에 대한 다양한 대안이 본 발명을 실시하는데 사용될 수 있음을 이해해야 한다. 하기의 청구범위가 본 발명의 범주를 한정하며, 이들 청구범위의 범주 내의 방법 및 구조, 및 그들의 등가물이 그에 의해 커버되는 것으로 의도된다.
실시예 8: Sa sgRNA 최적화
본 발명자들은 가장 높은 절단 효능이 있는 최적의 절단 구조를 위해, SaCas9에 대한 5개의 sgRNA 변이체를 설계하였다. 또한, 고유 직접 반복부:tracr 듀플렉스 시스템을 sgRNA와 함께 시험하였다. 표기된 길이가 있는 가이드를 SaCas9와 동시에 트랜스펙션시키고, 활성에 대하여 HEK 293FT 세포에서 시험하였다. 총 100ng의 sgRNA U6-PCR 앰플리콘(또는 50ng의 직접 반복부 및 50ng의 tracrRNA) 및 400ng의 SaCas9 플라스미드를 200,000개의 Hepa1-6 마우스 간세포로 동시-트랜스펙션시키고, DNA를 서베이어 분석을 위해 트랜스펙션후 72시간에 수집하였다. 결과는 도 23에 나타나 있다.
참조문헌

본 발명의 바람직한 구현예가 본원에 나타나고 기술되어 있지만, 이러한 구현예가 오직 예시로만 제공되는 것이 당업자에게 명백할 것이다. 수많은 변이, 변화 및 치환이 이제 본 발명으로부터 벗어남 없이, 당업자에게 일어날 것이다. 본원에 기술된 본 발명의 구현예에 대한 다양한 대안이 본 발명을 실시하는데 사용될 수 있음을 이해해야 한다.

SEQUENCE LISTING <110> THE BROAD INSTITUTE, INC. MASSACHUSETTS INSTITUTE OF TECHNOLOGY <120> ENGINEERING OF SYSTEMS, METHODS AND OPTIMIZED GUIDE COMPOSITIONS FOR SEQUENCE MANIPULATION <130> 44790.99.2047 <140> PCT/US2013/074819 <141> 2013-12-12 <150> 61/836,127 <151> 2013-06-17 <150> 61/835,931 <151> 2013-06-17 <150> 61/828,130 <151> 2013-05-28 <150> 61/819,803 <151> 2013-05-06 <150> 61/814,263 <151> 2013-04-20 <150> 61/806,375 <151> 2013-03-28 <150> 61/802,174 <151> 2013-03-15 <150> 61/791,409 <151> 2013-03-15 <150> 61/769,046 <151> 2013-02-25 <150> 61/758,468 <151> 2013-01-30 <150> 61/748,427 <151> 2013-01-02 <150> 61/736,527 <151> 2012-12-12 <160> 264 <170> PatentIn version 3.5 <210> 1 <211> 15 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 1 aggacgaagt cctaa 15 <210> 2 <211> 7 <212> PRT <213> Simian virus 40 <400> 2 Pro Lys Lys Lys Arg Lys Val 1 5 <210> 3 <211> 16 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: Nucleoplasmin bipartite NLS sequence" <400> 3 Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys Lys Lys 1 5 10 15 <210> 4 <211> 9 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: C-myc NLS sequence" <400> 4 Pro Ala Ala Lys Arg Val Lys Leu Asp 1 5 <210> 5 <211> 11 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: C-myc NLS sequence" <400> 5 Arg Gln Arg Arg Asn Glu Leu Lys Arg Ser Pro 1 5 10 <210> 6 <211> 38 <212> PRT <213> Homo sapiens <400> 6 Asn Gln Ser Ser Asn Phe Gly Pro Met Lys Gly Gly Asn Phe Gly Gly 1 5 10 15 Arg Ser Ser Gly Pro Tyr Gly Gly Gly Gly Gln Tyr Phe Ala Lys Pro 20 25 30 Arg Asn Gln Gly Gly Tyr 35 <210> 7 <211> 42 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: IBB domain from importin-alpha sequence" <400> 7 Arg Met Arg Ile Glx Phe Lys Asn Lys Gly Lys Asp Thr Ala Glu Leu 1 5 10 15 Arg Arg Arg Arg Val Glu Val Ser Val Glu Leu Arg Lys Ala Lys Lys 20 25 30 Asp Glu Gln Ile Leu Lys Arg Arg Asn Val 35 40 <210> 8 <211> 8 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: Myoma T protein sequence" <400> 8 Val Ser Arg Lys Arg Pro Arg Pro 1 5 <210> 9 <211> 8 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: Myoma T protein sequence" <400> 9 Pro Pro Lys Lys Ala Arg Glu Asp 1 5 <210> 10 <211> 8 <212> PRT <213> Homo sapiens <400> 10 Pro Gln Pro Lys Lys Lys Pro Leu 1 5 <210> 11 <211> 12 <212> PRT <213> Mus musculus <400> 11 Ser Ala Leu Ile Lys Lys Lys Lys Lys Met Ala Pro 1 5 10 <210> 12 <211> 5 <212> PRT <213> Influenza virus <400> 12 Asp Arg Leu Arg Arg 1 5 <210> 13 <211> 7 <212> PRT <213> Influenza virus <400> 13 Pro Lys Gln Lys Lys Arg Lys 1 5 <210> 14 <211> 10 <212> PRT <213> Hepatitus delta virus <400> 14 Arg Lys Leu Lys Lys Lys Ile Lys Lys Leu 1 5 10 <210> 15 <211> 10 <212> PRT <213> Mus musculus <400> 15 Arg Glu Lys Lys Lys Phe Leu Lys Arg Arg 1 5 10 <210> 16 <211> 20 <212> PRT <213> Homo sapiens <400> 16 Lys Arg Lys Gly Asp Glu Val Asp Gly Val Asp Glu Val Ala Lys Lys 1 5 10 15 Lys Ser Lys Lys 20 <210> 17 <211> 17 <212> PRT <213> Homo sapiens <400> 17 Arg Lys Cys Leu Gln Ala Gly Met Asn Leu Glu Ala Arg Lys Thr Lys 1 5 10 15 Lys <210> 18 <211> 27 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t or g <220> <221> modified_base <222> (21)..(22) <223> a, c, t, g, unknown or other <400> 18 nnnnnnnnnn nnnnnnnnnn nnagaaw 27 <210> 19 <211> 19 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <220> <221> modified_base <222> (1)..(12) <223> a, c, t or g <220> <221> modified_base <222> (13)..(14) <223> a, c, t, g, unknown or other <400> 19 nnnnnnnnnn nnnnagaaw 19 <210> 20 <211> 27 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t or g <220> <221> modified_base <222> (21)..(22) <223> a, c, t, g, unknown or other <400> 20 nnnnnnnnnn nnnnnnnnnn nnagaaw 27 <210> 21 <211> 18 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <220> <221> modified_base <222> (1)..(11) <223> a, c, t or g <220> <221> modified_base <222> (12)..(13) <223> a, c, t, g, unknown or other <400> 21 nnnnnnnnnn nnnagaaw 18 <210> 22 <211> 137 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 22 nnnnnnnnnn nnnnnnnnnn gtttttgtac tctcaagatt tagaaataaa tcttgcagaa 60 gctacaaaga taaggcttca tgccgaaatc aacaccctgt cattttatgg cagggtgttt 120 tcgttattta atttttt 137 <210> 23 <211> 123 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 23 nnnnnnnnnn nnnnnnnnnn gtttttgtac tctcagaaat gcagaagcta caaagataag 60 gcttcatgcc gaaatcaaca ccctgtcatt ttatggcagg gtgttttcgt tatttaattt 120 ttt 123 <210> 24 <211> 110 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 24 nnnnnnnnnn nnnnnnnnnn gtttttgtac tctcagaaat gcagaagcta caaagataag 60 gcttcatgcc gaaatcaaca ccctgtcatt ttatggcagg gtgttttttt 110 <210> 25 <211> 102 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 25 nnnnnnnnnn nnnnnnnnnn gttttagagc tagaaatagc aagttaaaat aaggctagtc 60 cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt tt 102 <210> 26 <211> 88 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 26 nnnnnnnnnn nnnnnnnnnn gttttagagc tagaaatagc aagttaaaat aaggctagtc 60 cgttatcaac ttgaaaaagt gttttttt 88 <210> 27 <211> 76 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 27 nnnnnnnnnn nnnnnnnnnn gttttagagc tagaaatagc aagttaaaat aaggctagtc 60 cgttatcatt tttttt 76 <210> 28 <211> 12 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 28 guuuuagagc ua 12 <210> 29 <211> 33 <212> DNA <213> Homo sapiens <400> 29 ggacatcgat gtcacctcca atgactaggg tgg 33 <210> 30 <211> 33 <212> DNA <213> Homo sapiens <400> 30 cattggaggt gacatcgatg tcctccccat tgg 33 <210> 31 <211> 33 <212> DNA <213> Homo sapiens <400> 31 ggaagggcct gagtccgagc agaagaagaa ggg 33 <210> 32 <211> 33 <212> DNA <213> Homo sapiens <400> 32 ggtggcgaga ggggccgaga ttgggtgttc agg 33 <210> 33 <211> 33 <212> DNA <213> Homo sapiens <400> 33 atgcaggagg gtggcgagag gggccgagat tgg 33 <210> 34 <211> 21 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <400> 34 aaaaccaccc ttctctctgg c 21 <210> 35 <211> 21 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <400> 35 ggagattgga gacacggaga g 21 <210> 36 <211> 20 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <400> 36 ctggaaagcc aatgcctgac 20 <210> 37 <211> 20 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <400> 37 ggcagcaaac tccttgtcct 20 <210> 38 <211> 12 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 38 gttttagagc ta 12 <210> 39 <211> 335 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 39 gagggcctat ttcccatgat tccttcatat ttgcatatac gatacaaggc tgttagagag 60 ataattggaa ttaatttgac tgtaaacaca aagatattag tacaaaatac gtgacgtaga 120 aagtaataat ttcttgggta gtttgcagtt ttaaaattat gttttaaaat ggactatcat 180 atgcttaccg taacttgaaa gtatttcgat ttcttggctt tatatatctt gtggaaagga 240 cgaaacaccg gaaccattca aaacagcata gcaagttaaa ataaggctag tccgttatca 300 acttgaaaaa gtggcaccga gtcggtgctt ttttt 335 <210> 40 <211> 423 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 40 gagggcctat ttcccatgat tccttcatat ttgcatatac gatacaaggc tgttagagag 60 ataattggaa ttaatttgac tgtaaacaca aagatattag tacaaaatac gtgacgtaga 120 aagtaataat ttcttgggta gtttgcagtt ttaaaattat gttttaaaat ggactatcat 180 atgcttaccg taacttgaaa gtatttcgat ttcttggctt tatatatctt gtggaaagga 240 cgaaacaccg gtagtattaa gtattgtttt atggctgata aatttctttg aatttctcct 300 tgattatttg ttataaaagt tataaaataa tcttgttgga accattcaaa acagcatagc 360 aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt 420 ttt 423 <210> 41 <211> 339 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 41 gagggcctat ttcccatgat tccttcatat ttgcatatac gatacaaggc tgttagagag 60 ataattggaa ttaatttgac tgtaaacaca aagatattag tacaaaatac gtgacgtaga 120 aagtaataat ttcttgggta gtttgcagtt ttaaaattat gttttaaaat ggactatcat 180 atgcttaccg taacttgaaa gtatttcgat ttcttggctt tatatatctt gtggaaagga 240 cgaaacaccg ggttttagag ctatgctgtt ttgaatggtc ccaaaacggg tcttcgagaa 300 gacgttttag agctatgctg ttttgaatgg tcccaaaac 339 <210> 42 <211> 309 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 42 gagggcctat ttcccatgat tccttcatat ttgcatatac gatacaaggc tgttagagag 60 ataattggaa ttaatttgac tgtaaacaca aagatattag tacaaaatac gtgacgtaga 120 aagtaataat ttcttgggta gtttgcagtt ttaaaattat gttttaaaat ggactatcat 180 atgcttaccg taacttgaaa gtatttcgat ttcttggctt tatatatctt gtggaaagga 240 cgaaacaccg ggtcttcgag aagacctgtt ttagagctag aaatagcaag ttaaaataag 300 gctagtccg 309 <210> 43 <211> 1648 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 43 Met Asp Tyr Lys Asp His Asp Gly Asp Tyr Lys Asp His Asp Ile Asp 1 5 10 15 Tyr Lys Asp Asp Asp Asp Lys Met Ala Pro Lys Lys Lys Arg Lys Val 20 25 30 Gly Ile His Gly Val Pro Ala Ala Asp Lys Lys Tyr Ser Ile Gly Leu 35 40 45 Asp Ile Gly Thr Asn Ser Val Gly Trp Ala Val Ile Thr Asp Glu Tyr 50 55 60 Lys Val Pro Ser Lys Lys Phe Lys Val Leu Gly Asn Thr Asp Arg His 65 70 75 80 Ser Ile Lys Lys Asn Leu Ile Gly Ala Leu Leu Phe Asp Ser Gly Glu 85 90 95 Thr Ala Glu Ala Thr Arg Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr 100 105 110 Arg Arg Lys Asn Arg Ile Cys Tyr Leu Gln Glu Ile Phe Ser Asn Glu 115 120 125 Met Ala Lys Val Asp Asp Ser Phe Phe His Arg Leu Glu Glu Ser Phe 130 135 140 Leu Val Glu Glu Asp Lys Lys His Glu Arg His Pro Ile Phe Gly Asn 145 150 155 160 Ile Val Asp Glu Val Ala Tyr His Glu Lys Tyr Pro Thr Ile Tyr His 165 170 175 Leu Arg Lys Lys Leu Val Asp Ser Thr Asp Lys Ala Asp Leu Arg Leu 180 185 190 Ile Tyr Leu Ala Leu Ala His Met Ile Lys Phe Arg Gly His Phe Leu 195 200 205 Ile Glu Gly Asp Leu Asn Pro Asp Asn Ser Asp Val Asp Lys Leu Phe 210 215 220 Ile Gln Leu Val Gln Thr Tyr Asn Gln Leu Phe Glu Glu Asn Pro Ile 225 230 235 240 Asn Ala Ser Gly Val Asp Ala Lys Ala Ile Leu Ser Ala Arg Leu Ser 245 250 255 Lys Ser Arg Arg Leu Glu Asn Leu Ile Ala Gln Leu Pro Gly Glu Lys 260 265 270 Lys Asn Gly Leu Phe Gly Asn Leu Ile Ala Leu Ser Leu Gly Leu Thr 275 280 285 Pro Asn Phe Lys Ser Asn Phe Asp Leu Ala Glu Asp Ala Lys Leu Gln 290 295 300 Leu Ser Lys Asp Thr Tyr Asp Asp Asp Leu Asp Asn Leu Leu Ala Gln 305 310 315 320 Ile Gly Asp Gln Tyr Ala Asp Leu Phe Leu Ala Ala Lys Asn Leu Ser 325 330 335 Asp Ala Ile Leu Leu Ser Asp Ile Leu Arg Val Asn Thr Glu Ile Thr 340 345 350 Lys Ala Pro Leu Ser Ala Ser Met Ile Lys Arg Tyr Asp Glu His His 355 360 365 Gln Asp Leu Thr Leu Leu Lys Ala Leu Val Arg Gln Gln Leu Pro Glu 370 375 380 Lys Tyr Lys Glu Ile Phe Phe Asp Gln Ser Lys Asn Gly Tyr Ala Gly 385 390 395 400 Tyr Ile Asp Gly Gly Ala Ser Gln Glu Glu Phe Tyr Lys Phe Ile Lys 405 410 415 Pro Ile Leu Glu Lys Met Asp Gly Thr Glu Glu Leu Leu Val Lys Leu 420 425 430 Asn Arg Glu Asp Leu Leu Arg Lys Gln Arg Thr Phe Asp Asn Gly Ser 435 440 445 Ile Pro His Gln Ile His Leu Gly Glu Leu His Ala Ile Leu Arg Arg 450 455 460 Gln Glu Asp Phe Tyr Pro Phe Leu Lys Asp Asn Arg Glu Lys Ile Glu 465 470 475 480 Lys Ile Leu Thr Phe Arg Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg 485 490 495 Gly Asn Ser Arg Phe Ala Trp Met Thr Arg Lys Ser Glu Glu Thr Ile 500 505 510 Thr Pro Trp Asn Phe Glu Glu Val Val Asp Lys Gly Ala Ser Ala Gln 515 520 525 Ser Phe Ile Glu Arg Met Thr Asn Phe Asp Lys Asn Leu Pro Asn Glu 530 535 540 Lys Val Leu Pro Lys His Ser Leu Leu Tyr Glu Tyr Phe Thr Val Tyr 545 550 555 560 Asn Glu Leu Thr Lys Val Lys Tyr Val Thr Glu Gly Met Arg Lys Pro 565 570 575 Ala Phe Leu Ser Gly Glu Gln Lys Lys Ala Ile Val Asp Leu Leu Phe 580 585 590 Lys Thr Asn Arg Lys Val Thr Val Lys Gln Leu Lys Glu Asp Tyr Phe 595 600 605 Lys Lys Ile Glu Cys Phe Asp Ser Val Glu Ile Ser Gly Val Glu Asp 610 615 620 Arg Phe Asn Ala Ser Leu Gly Thr Tyr His Asp Leu Leu Lys Ile Ile 625 630 635 640 Lys Asp Lys Asp Phe Leu Asp Asn Glu Glu Asn Glu Asp Ile Leu Glu 645 650 655 Asp Ile Val Leu Thr Leu Thr Leu Phe Glu Asp Arg Glu Met Ile Glu 660 665 670 Glu Arg Leu Lys Thr Tyr Ala His Leu Phe Asp Asp Lys Val Met Lys 675 680 685 Gln Leu Lys Arg Arg Arg Tyr Thr Gly Trp Gly Arg Leu Ser Arg Lys 690 695 700 Leu Ile Asn Gly Ile Arg Asp Lys Gln Ser Gly Lys Thr Ile Leu Asp 705 710 715 720 Phe Leu Lys Ser Asp Gly Phe Ala Asn Arg Asn Phe Met Gln Leu Ile 725 730 735 His Asp Asp Ser Leu Thr Phe Lys Glu Asp Ile Gln Lys Ala Gln Val 740 745 750 Ser Gly Gln Gly Asp Ser Leu His Glu His Ile Ala Asn Leu Ala Gly 755 760 765 Ser Pro Ala Ile Lys Lys Gly Ile Leu Gln Thr Val Lys Val Val Asp 770 775 780 Glu Leu Val Lys Val Met Gly Arg His Lys Pro Glu Asn Ile Val Ile 785 790 795 800 Glu Met Ala Arg Glu Asn Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser 805 810 815 Arg Glu Arg Met Lys Arg Ile Glu Glu Gly Ile Lys Glu Leu Gly Ser 820 825 830 Gln Ile Leu Lys Glu His Pro Val Glu Asn Thr Gln Leu Gln Asn Glu 835 840 845 Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly Arg Asp Met Tyr Val Asp 850 855 860 Gln Glu Leu Asp Ile Asn Arg Leu Ser Asp Tyr Asp Val Asp His Ile 865 870 875 880 Val Pro Gln Ser Phe Leu Lys Asp Asp Ser Ile Asp Asn Lys Val Leu 885 890 895 Thr Arg Ser Asp Lys Asn Arg Gly Lys Ser Asp Asn Val Pro Ser Glu 900 905 910 Glu Val Val Lys Lys Met Lys Asn Tyr Trp Arg Gln Leu Leu Asn Ala 915 920 925 Lys Leu Ile Thr Gln Arg Lys Phe Asp Asn Leu Thr Lys Ala Glu Arg 930 935 940 Gly Gly Leu Ser Glu Leu Asp Lys Ala Gly Phe Ile Lys Arg Gln Leu 945 950 955 960 Val Glu Thr Arg Gln Ile Thr Lys His Val Ala Gln Ile Leu Asp Ser 965 970 975 Arg Met Asn Thr Lys Tyr Asp Glu Asn Asp Lys Leu Ile Arg Glu Val 980 985 990 Lys Val Ile Thr Leu Lys Ser Lys Leu Val Ser Asp Phe Arg Lys Asp 995 1000 1005 Phe Gln Phe Tyr Lys Val Arg Glu Ile Asn Asn Tyr His His Ala 1010 1015 1020 His Asp Ala Tyr Leu Asn Ala Val Val Gly Thr Ala Leu Ile Lys 1025 1030 1035 Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val Tyr Gly Asp Tyr Lys 1040 1045 1050 Val Tyr Asp Val Arg Lys Met Ile Ala Lys Ser Glu Gln Glu Ile 1055 1060 1065 Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser Asn Ile Met Asn 1070 1075 1080 Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile Arg Lys 1085 1090 1095 Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile Val Trp 1100 1105 1110 Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser Met 1115 1120 1125 Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly 1130 1135 1140 Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys Leu 1145 1150 1155 Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe 1160 1165 1170 Asp Ser Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys Val 1175 1180 1185 Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu Leu 1190 1195 1200 Gly Ile Thr Ile Met Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile 1205 1210 1215 Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu Val Lys Lys Asp Leu 1220 1225 1230 Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe Glu Leu Glu Asn Gly 1235 1240 1245 Arg Lys Arg Met Leu Ala Ser Ala Gly Glu Leu Gln Lys Gly Asn 1250 1255 1260 Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn Phe Leu Tyr Leu Ala 1265 1270 1275 Ser His Tyr Glu Lys Leu Lys Gly Ser Pro Glu Asp Asn Glu Gln 1280 1285 1290 Lys Gln Leu Phe Val Glu Gln His Lys His Tyr Leu Asp Glu Ile 1295 1300 1305 Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val Ile Leu Ala Asp 1310 1315 1320 Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys His Arg Asp 1325 1330 1335 Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu Phe Thr 1340 1345 1350 Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe Asp Thr 1355 1360 1365 Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val Leu Asp 1370 1375 1380 Ala Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg 1385 1390 1395 Ile Asp Leu Ser Gln Leu Gly Gly Asp Ala Ala Ala Val Ser Lys 1400 1405 1410 Gly Glu Glu Leu Phe Thr Gly Val Val Pro Ile Leu Val Glu Leu 1415 1420 1425 Asp Gly Asp Val Asn Gly His Lys Phe Ser Val Ser Gly Glu Gly 1430 1435 1440 Glu Gly Asp Ala Thr Tyr Gly Lys Leu Thr Leu Lys Phe Ile Cys 1445 1450 1455 Thr Thr Gly Lys Leu Pro Val Pro Trp Pro Thr Leu Val Thr Thr 1460 1465 1470 Leu Thr Tyr Gly Val Gln Cys Phe Ser Arg Tyr Pro Asp His Met 1475 1480 1485 Lys Gln His Asp Phe Phe Lys Ser Ala Met Pro Glu Gly Tyr Val 1490 1495 1500 Gln Glu Arg Thr Ile Phe Phe Lys Asp Asp Gly Asn Tyr Lys Thr 1505 1510 1515 Arg Ala Glu Val Lys Phe Glu Gly Asp Thr Leu Val Asn Arg Ile 1520 1525 1530 Glu Leu Lys Gly Ile Asp Phe Lys Glu Asp Gly Asn Ile Leu Gly 1535 1540 1545 His Lys Leu Glu Tyr Asn Tyr Asn Ser His Asn Val Tyr Ile Met 1550 1555 1560 Ala Asp Lys Gln Lys Asn Gly Ile Lys Val Asn Phe Lys Ile Arg 1565 1570 1575 His Asn Ile Glu Asp Gly Ser Val Gln Leu Ala Asp His Tyr Gln 1580 1585 1590 Gln Asn Thr Pro Ile Gly Asp Gly Pro Val Leu Leu Pro Asp Asn 1595 1600 1605 His Tyr Leu Ser Thr Gln Ser Ala Leu Ser Lys Asp Pro Asn Glu 1610 1615 1620 Lys Arg Asp His Met Val Leu Leu Glu Phe Val Thr Ala Ala Gly 1625 1630 1635 Ile Thr Leu Gly Met Asp Glu Leu Tyr Lys 1640 1645 <210> 44 <211> 1625 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 44 Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val 1 5 10 15 Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe 20 25 30 Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile 35 40 45 Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu 50 55 60 Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys 65 70 75 80 Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser 85 90 95 Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys 100 105 110 His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr 115 120 125 His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp 130 135 140 Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His 145 150 155 160 Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro 165 170 175 Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr 180 185 190 Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala 195 200 205 Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn 210 215 220 Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn 225 230 235 240 Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe 245 250 255 Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp 260 265 270 Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp 275 280 285 Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp 290 295 300 Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser 305 310 315 320 Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys 325 330 335 Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe 340 345 350 Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser 355 360 365 Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp 370 375 380 Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg 385 390 395 400 Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu 405 410 415 Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe 420 425 430 Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile 435 440 445 Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp 450 455 460 Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu 465 470 475 480 Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr 485 490 495 Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser 500 505 510 Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys 515 520 525 Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln 530 535 540 Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr 545 550 555 560 Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp 565 570 575 Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly 580 585 590 Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp 595 600 605 Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr 610 615 620 Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala 625 630 635 640 His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr 645 650 655 Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp 660 665 670 Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe 675 680 685 Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe 690 695 700 Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu 705 710 715 720 His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly 725 730 735 Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly 740 745 750 Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln 755 760 765 Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile 770 775 780 Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro 785 790 795 800 Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu 805 810 815 Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg 820 825 830 Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys 835 840 845 Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg 850 855 860 Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys 865 870 875 880 Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys 885 890 895 Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp 900 905 910 Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr 915 920 925 Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp 930 935 940 Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser 945 950 955 960 Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg 965 970 975 Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val 980 985 990 Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe 995 1000 1005 Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala 1010 1015 1020 Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe 1025 1030 1035 Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala 1040 1045 1050 Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu 1055 1060 1065 Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val 1070 1075 1080 Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr 1085 1090 1095 Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys 1100 1105 1110 Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro 1115 1120 1125 Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val 1130 1135 1140 Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys 1145 1150 1155 Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser 1160 1165 1170 Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys 1175 1180 1185 Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu 1190 1195 1200 Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly 1205 1210 1215 Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val 1220 1225 1230 Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser 1235 1240 1245 Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys 1250 1255 1260 His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys 1265 1270 1275 Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala 1280 1285 1290 Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn 1295 1300 1305 Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala 1310 1315 1320 Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser 1325 1330 1335 Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr 1340 1345 1350 Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp 1355 1360 1365 Ala Ala Ala Val Ser Lys Gly Glu Glu Leu Phe Thr Gly Val Val 1370 1375 1380 Pro Ile Leu Val Glu Leu Asp Gly Asp Val Asn Gly His Lys Phe 1385 1390 1395 Ser Val Ser Gly Glu Gly Glu Gly Asp Ala Thr Tyr Gly Lys Leu 1400 1405 1410 Thr Leu Lys Phe Ile Cys Thr Thr Gly Lys Leu Pro Val Pro Trp 1415 1420 1425 Pro Thr Leu Val Thr Thr Leu Thr Tyr Gly Val Gln Cys Phe Ser 1430 1435 1440 Arg Tyr Pro Asp His Met Lys Gln His Asp Phe Phe Lys Ser Ala 1445 1450 1455 Met Pro Glu Gly Tyr Val Gln Glu Arg Thr Ile Phe Phe Lys Asp 1460 1465 1470 Asp Gly Asn Tyr Lys Thr Arg Ala Glu Val Lys Phe Glu Gly Asp 1475 1480 1485 Thr Leu Val Asn Arg Ile Glu Leu Lys Gly Ile Asp Phe Lys Glu 1490 1495 1500 Asp Gly Asn Ile Leu Gly His Lys Leu Glu Tyr Asn Tyr Asn Ser 1505 1510 1515 His Asn Val Tyr Ile Met Ala Asp Lys Gln Lys Asn Gly Ile Lys 1520 1525 1530 Val Asn Phe Lys Ile Arg His Asn Ile Glu Asp Gly Ser Val Gln 1535 1540 1545 Leu Ala Asp His Tyr Gln Gln Asn Thr Pro Ile Gly Asp Gly Pro 1550 1555 1560 Val Leu Leu Pro Asp Asn His Tyr Leu Ser Thr Gln Ser Ala Leu 1565 1570 1575 Ser Lys Asp Pro Asn Glu Lys Arg Asp His Met Val Leu Leu Glu 1580 1585 1590 Phe Val Thr Ala Ala Gly Ile Thr Leu Gly Met Asp Glu Leu Tyr 1595 1600 1605 Lys Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys 1610 1615 1620 Lys Lys 1625 <210> 45 <211> 1664 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 45 Met Asp Tyr Lys Asp His Asp Gly Asp Tyr Lys Asp His Asp Ile Asp 1 5 10 15 Tyr Lys Asp Asp Asp Asp Lys Met Ala Pro Lys Lys Lys Arg Lys Val 20 25 30 Gly Ile His Gly Val Pro Ala Ala Asp Lys Lys Tyr Ser Ile Gly Leu 35 40 45 Asp Ile Gly Thr Asn Ser Val Gly Trp Ala Val Ile Thr Asp Glu Tyr 50 55 60 Lys Val Pro Ser Lys Lys Phe Lys Val Leu Gly Asn Thr Asp Arg His 65 70 75 80 Ser Ile Lys Lys Asn Leu Ile Gly Ala Leu Leu Phe Asp Ser Gly Glu 85 90 95 Thr Ala Glu Ala Thr Arg Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr 100 105 110 Arg Arg Lys Asn Arg Ile Cys Tyr Leu Gln Glu Ile Phe Ser Asn Glu 115 120 125 Met Ala Lys Val Asp Asp Ser Phe Phe His Arg Leu Glu Glu Ser Phe 130 135 140 Leu Val Glu Glu Asp Lys Lys His Glu Arg His Pro Ile Phe Gly Asn 145 150 155 160 Ile Val Asp Glu Val Ala Tyr His Glu Lys Tyr Pro Thr Ile Tyr His 165 170 175 Leu Arg Lys Lys Leu Val Asp Ser Thr Asp Lys Ala Asp Leu Arg Leu 180 185 190 Ile Tyr Leu Ala Leu Ala His Met Ile Lys Phe Arg Gly His Phe Leu 195 200 205 Ile Glu Gly Asp Leu Asn Pro Asp Asn Ser Asp Val Asp Lys Leu Phe 210 215 220 Ile Gln Leu Val Gln Thr Tyr Asn Gln Leu Phe Glu Glu Asn Pro Ile 225 230 235 240 Asn Ala Ser Gly Val Asp Ala Lys Ala Ile Leu Ser Ala Arg Leu Ser 245 250 255 Lys Ser Arg Arg Leu Glu Asn Leu Ile Ala Gln Leu Pro Gly Glu Lys 260 265 270 Lys Asn Gly Leu Phe Gly Asn Leu Ile Ala Leu Ser Leu Gly Leu Thr 275 280 285 Pro Asn Phe Lys Ser Asn Phe Asp Leu Ala Glu Asp Ala Lys Leu Gln 290 295 300 Leu Ser Lys Asp Thr Tyr Asp Asp Asp Leu Asp Asn Leu Leu Ala Gln 305 310 315 320 Ile Gly Asp Gln Tyr Ala Asp Leu Phe Leu Ala Ala Lys Asn Leu Ser 325 330 335 Asp Ala Ile Leu Leu Ser Asp Ile Leu Arg Val Asn Thr Glu Ile Thr 340 345 350 Lys Ala Pro Leu Ser Ala Ser Met Ile Lys Arg Tyr Asp Glu His His 355 360 365 Gln Asp Leu Thr Leu Leu Lys Ala Leu Val Arg Gln Gln Leu Pro Glu 370 375 380 Lys Tyr Lys Glu Ile Phe Phe Asp Gln Ser Lys Asn Gly Tyr Ala Gly 385 390 395 400 Tyr Ile Asp Gly Gly Ala Ser Gln Glu Glu Phe Tyr Lys Phe Ile Lys 405 410 415 Pro Ile Leu Glu Lys Met Asp Gly Thr Glu Glu Leu Leu Val Lys Leu 420 425 430 Asn Arg Glu Asp Leu Leu Arg Lys Gln Arg Thr Phe Asp Asn Gly Ser 435 440 445 Ile Pro His Gln Ile His Leu Gly Glu Leu His Ala Ile Leu Arg Arg 450 455 460 Gln Glu Asp Phe Tyr Pro Phe Leu Lys Asp Asn Arg Glu Lys Ile Glu 465 470 475 480 Lys Ile Leu Thr Phe Arg Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg 485 490 495 Gly Asn Ser Arg Phe Ala Trp Met Thr Arg Lys Ser Glu Glu Thr Ile 500 505 510 Thr Pro Trp Asn Phe Glu Glu Val Val Asp Lys Gly Ala Ser Ala Gln 515 520 525 Ser Phe Ile Glu Arg Met Thr Asn Phe Asp Lys Asn Leu Pro Asn Glu 530 535 540 Lys Val Leu Pro Lys His Ser Leu Leu Tyr Glu Tyr Phe Thr Val Tyr 545 550 555 560 Asn Glu Leu Thr Lys Val Lys Tyr Val Thr Glu Gly Met Arg Lys Pro 565 570 575 Ala Phe Leu Ser Gly Glu Gln Lys Lys Ala Ile Val Asp Leu Leu Phe 580 585 590 Lys Thr Asn Arg Lys Val Thr Val Lys Gln Leu Lys Glu Asp Tyr Phe 595 600 605 Lys Lys Ile Glu Cys Phe Asp Ser Val Glu Ile Ser Gly Val Glu Asp 610 615 620 Arg Phe Asn Ala Ser Leu Gly Thr Tyr His Asp Leu Leu Lys Ile Ile 625 630 635 640 Lys Asp Lys Asp Phe Leu Asp Asn Glu Glu Asn Glu Asp Ile Leu Glu 645 650 655 Asp Ile Val Leu Thr Leu Thr Leu Phe Glu Asp Arg Glu Met Ile Glu 660 665 670 Glu Arg Leu Lys Thr Tyr Ala His Leu Phe Asp Asp Lys Val Met Lys 675 680 685 Gln Leu Lys Arg Arg Arg Tyr Thr Gly Trp Gly Arg Leu Ser Arg Lys 690 695 700 Leu Ile Asn Gly Ile Arg Asp Lys Gln Ser Gly Lys Thr Ile Leu Asp 705 710 715 720 Phe Leu Lys Ser Asp Gly Phe Ala Asn Arg Asn Phe Met Gln Leu Ile 725 730 735 His Asp Asp Ser Leu Thr Phe Lys Glu Asp Ile Gln Lys Ala Gln Val 740 745 750 Ser Gly Gln Gly Asp Ser Leu His Glu His Ile Ala Asn Leu Ala Gly 755 760 765 Ser Pro Ala Ile Lys Lys Gly Ile Leu Gln Thr Val Lys Val Val Asp 770 775 780 Glu Leu Val Lys Val Met Gly Arg His Lys Pro Glu Asn Ile Val Ile 785 790 795 800 Glu Met Ala Arg Glu Asn Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser 805 810 815 Arg Glu Arg Met Lys Arg Ile Glu Glu Gly Ile Lys Glu Leu Gly Ser 820 825 830 Gln Ile Leu Lys Glu His Pro Val Glu Asn Thr Gln Leu Gln Asn Glu 835 840 845 Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly Arg Asp Met Tyr Val Asp 850 855 860 Gln Glu Leu Asp Ile Asn Arg Leu Ser Asp Tyr Asp Val Asp His Ile 865 870 875 880 Val Pro Gln Ser Phe Leu Lys Asp Asp Ser Ile Asp Asn Lys Val Leu 885 890 895 Thr Arg Ser Asp Lys Asn Arg Gly Lys Ser Asp Asn Val Pro Ser Glu 900 905 910 Glu Val Val Lys Lys Met Lys Asn Tyr Trp Arg Gln Leu Leu Asn Ala 915 920 925 Lys Leu Ile Thr Gln Arg Lys Phe Asp Asn Leu Thr Lys Ala Glu Arg 930 935 940 Gly Gly Leu Ser Glu Leu Asp Lys Ala Gly Phe Ile Lys Arg Gln Leu 945 950 955 960 Val Glu Thr Arg Gln Ile Thr Lys His Val Ala Gln Ile Leu Asp Ser 965 970 975 Arg Met Asn Thr Lys Tyr Asp Glu Asn Asp Lys Leu Ile Arg Glu Val 980 985 990 Lys Val Ile Thr Leu Lys Ser Lys Leu Val Ser Asp Phe Arg Lys Asp 995 1000 1005 Phe Gln Phe Tyr Lys Val Arg Glu Ile Asn Asn Tyr His His Ala 1010 1015 1020 His Asp Ala Tyr Leu Asn Ala Val Val Gly Thr Ala Leu Ile Lys 1025 1030 1035 Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val Tyr Gly Asp Tyr Lys 1040 1045 1050 Val Tyr Asp Val Arg Lys Met Ile Ala Lys Ser Glu Gln Glu Ile 1055 1060 1065 Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser Asn Ile Met Asn 1070 1075 1080 Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile Arg Lys 1085 1090 1095 Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile Val Trp 1100 1105 1110 Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser Met 1115 1120 1125 Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly 1130 1135 1140 Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys Leu 1145 1150 1155 Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe 1160 1165 1170 Asp Ser Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys Val 1175 1180 1185 Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu Leu 1190 1195 1200 Gly Ile Thr Ile Met Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile 1205 1210 1215 Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu Val Lys Lys Asp Leu 1220 1225 1230 Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe Glu Leu Glu Asn Gly 1235 1240 1245 Arg Lys Arg Met Leu Ala Ser Ala Gly Glu Leu Gln Lys Gly Asn 1250 1255 1260 Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn Phe Leu Tyr Leu Ala 1265 1270 1275 Ser His Tyr Glu Lys Leu Lys Gly Ser Pro Glu Asp Asn Glu Gln 1280 1285 1290 Lys Gln Leu Phe Val Glu Gln His Lys His Tyr Leu Asp Glu Ile 1295 1300 1305 Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val Ile Leu Ala Asp 1310 1315 1320 Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys His Arg Asp 1325 1330 1335 Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu Phe Thr 1340 1345 1350 Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe Asp Thr 1355 1360 1365 Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val Leu Asp 1370 1375 1380 Ala Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg 1385 1390 1395 Ile Asp Leu Ser Gln Leu Gly Gly Asp Ala Ala Ala Val Ser Lys 1400 1405 1410 Gly Glu Glu Leu Phe Thr Gly Val Val Pro Ile Leu Val Glu Leu 1415 1420 1425 Asp Gly Asp Val Asn Gly His Lys Phe Ser Val Ser Gly Glu Gly 1430 1435 1440 Glu Gly Asp Ala Thr Tyr Gly Lys Leu Thr Leu Lys Phe Ile Cys 1445 1450 1455 Thr Thr Gly Lys Leu Pro Val Pro Trp Pro Thr Leu Val Thr Thr 1460 1465 1470 Leu Thr Tyr Gly Val Gln Cys Phe Ser Arg Tyr Pro Asp His Met 1475 1480 1485 Lys Gln His Asp Phe Phe Lys Ser Ala Met Pro Glu Gly Tyr Val 1490 1495 1500 Gln Glu Arg Thr Ile Phe Phe Lys Asp Asp Gly Asn Tyr Lys Thr 1505 1510 1515 Arg Ala Glu Val Lys Phe Glu Gly Asp Thr Leu Val Asn Arg Ile 1520 1525 1530 Glu Leu Lys Gly Ile Asp Phe Lys Glu Asp Gly Asn Ile Leu Gly 1535 1540 1545 His Lys Leu Glu Tyr Asn Tyr Asn Ser His Asn Val Tyr Ile Met 1550 1555 1560 Ala Asp Lys Gln Lys Asn Gly Ile Lys Val Asn Phe Lys Ile Arg 1565 1570 1575 His Asn Ile Glu Asp Gly Ser Val Gln Leu Ala Asp His Tyr Gln 1580 1585 1590 Gln Asn Thr Pro Ile Gly Asp Gly Pro Val Leu Leu Pro Asp Asn 1595 1600 1605 His Tyr Leu Ser Thr Gln Ser Ala Leu Ser Lys Asp Pro Asn Glu 1610 1615 1620 Lys Arg Asp His Met Val Leu Leu Glu Phe Val Thr Ala Ala Gly 1625 1630 1635 Ile Thr Leu Gly Met Asp Glu Leu Tyr Lys Lys Arg Pro Ala Ala 1640 1645 1650 Thr Lys Lys Ala Gly Gln Ala Lys Lys Lys Lys 1655 1660 <210> 46 <211> 1423 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 46 Met Asp Tyr Lys Asp His Asp Gly Asp Tyr Lys Asp His Asp Ile Asp 1 5 10 15 Tyr Lys Asp Asp Asp Asp Lys Met Ala Pro Lys Lys Lys Arg Lys Val 20 25 30 Gly Ile His Gly Val Pro Ala Ala Asp Lys Lys Tyr Ser Ile Gly Leu 35 40 45 Asp Ile Gly Thr Asn Ser Val Gly Trp Ala Val Ile Thr Asp Glu Tyr 50 55 60 Lys Val Pro Ser Lys Lys Phe Lys Val Leu Gly Asn Thr Asp Arg His 65 70 75 80 Ser Ile Lys Lys Asn Leu Ile Gly Ala Leu Leu Phe Asp Ser Gly Glu 85 90 95 Thr Ala Glu Ala Thr Arg Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr 100 105 110 Arg Arg Lys Asn Arg Ile Cys Tyr Leu Gln Glu Ile Phe Ser Asn Glu 115 120 125 Met Ala Lys Val Asp Asp Ser Phe Phe His Arg Leu Glu Glu Ser Phe 130 135 140 Leu Val Glu Glu Asp Lys Lys His Glu Arg His Pro Ile Phe Gly Asn 145 150 155 160 Ile Val Asp Glu Val Ala Tyr His Glu Lys Tyr Pro Thr Ile Tyr His 165 170 175 Leu Arg Lys Lys Leu Val Asp Ser Thr Asp Lys Ala Asp Leu Arg Leu 180 185 190 Ile Tyr Leu Ala Leu Ala His Met Ile Lys Phe Arg Gly His Phe Leu 195 200 205 Ile Glu Gly Asp Leu Asn Pro Asp Asn Ser Asp Val Asp Lys Leu Phe 210 215 220 Ile Gln Leu Val Gln Thr Tyr Asn Gln Leu Phe Glu Glu Asn Pro Ile 225 230 235 240 Asn Ala Ser Gly Val Asp Ala Lys Ala Ile Leu Ser Ala Arg Leu Ser 245 250 255 Lys Ser Arg Arg Leu Glu Asn Leu Ile Ala Gln Leu Pro Gly Glu Lys 260 265 270 Lys Asn Gly Leu Phe Gly Asn Leu Ile Ala Leu Ser Leu Gly Leu Thr 275 280 285 Pro Asn Phe Lys Ser Asn Phe Asp Leu Ala Glu Asp Ala Lys Leu Gln 290 295 300 Leu Ser Lys Asp Thr Tyr Asp Asp Asp Leu Asp Asn Leu Leu Ala Gln 305 310 315 320 Ile Gly Asp Gln Tyr Ala Asp Leu Phe Leu Ala Ala Lys Asn Leu Ser 325 330 335 Asp Ala Ile Leu Leu Ser Asp Ile Leu Arg Val Asn Thr Glu Ile Thr 340 345 350 Lys Ala Pro Leu Ser Ala Ser Met Ile Lys Arg Tyr Asp Glu His His 355 360 365 Gln Asp Leu Thr Leu Leu Lys Ala Leu Val Arg Gln Gln Leu Pro Glu 370 375 380 Lys Tyr Lys Glu Ile Phe Phe Asp Gln Ser Lys Asn Gly Tyr Ala Gly 385 390 395 400 Tyr Ile Asp Gly Gly Ala Ser Gln Glu Glu Phe Tyr Lys Phe Ile Lys 405 410 415 Pro Ile Leu Glu Lys Met Asp Gly Thr Glu Glu Leu Leu Val Lys Leu 420 425 430 Asn Arg Glu Asp Leu Leu Arg Lys Gln Arg Thr Phe Asp Asn Gly Ser 435 440 445 Ile Pro His Gln Ile His Leu Gly Glu Leu His Ala Ile Leu Arg Arg 450 455 460 Gln Glu Asp Phe Tyr Pro Phe Leu Lys Asp Asn Arg Glu Lys Ile Glu 465 470 475 480 Lys Ile Leu Thr Phe Arg Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg 485 490 495 Gly Asn Ser Arg Phe Ala Trp Met Thr Arg Lys Ser Glu Glu Thr Ile 500 505 510 Thr Pro Trp Asn Phe Glu Glu Val Val Asp Lys Gly Ala Ser Ala Gln 515 520 525 Ser Phe Ile Glu Arg Met Thr Asn Phe Asp Lys Asn Leu Pro Asn Glu 530 535 540 Lys Val Leu Pro Lys His Ser Leu Leu Tyr Glu Tyr Phe Thr Val Tyr 545 550 555 560 Asn Glu Leu Thr Lys Val Lys Tyr Val Thr Glu Gly Met Arg Lys Pro 565 570 575 Ala Phe Leu Ser Gly Glu Gln Lys Lys Ala Ile Val Asp Leu Leu Phe 580 585 590 Lys Thr Asn Arg Lys Val Thr Val Lys Gln Leu Lys Glu Asp Tyr Phe 595 600 605 Lys Lys Ile Glu Cys Phe Asp Ser Val Glu Ile Ser Gly Val Glu Asp 610 615 620 Arg Phe Asn Ala Ser Leu Gly Thr Tyr His Asp Leu Leu Lys Ile Ile 625 630 635 640 Lys Asp Lys Asp Phe Leu Asp Asn Glu Glu Asn Glu Asp Ile Leu Glu 645 650 655 Asp Ile Val Leu Thr Leu Thr Leu Phe Glu Asp Arg Glu Met Ile Glu 660 665 670 Glu Arg Leu Lys Thr Tyr Ala His Leu Phe Asp Asp Lys Val Met Lys 675 680 685 Gln Leu Lys Arg Arg Arg Tyr Thr Gly Trp Gly Arg Leu Ser Arg Lys 690 695 700 Leu Ile Asn Gly Ile Arg Asp Lys Gln Ser Gly Lys Thr Ile Leu Asp 705 710 715 720 Phe Leu Lys Ser Asp Gly Phe Ala Asn Arg Asn Phe Met Gln Leu Ile 725 730 735 His Asp Asp Ser Leu Thr Phe Lys Glu Asp Ile Gln Lys Ala Gln Val 740 745 750 Ser Gly Gln Gly Asp Ser Leu His Glu His Ile Ala Asn Leu Ala Gly 755 760 765 Ser Pro Ala Ile Lys Lys Gly Ile Leu Gln Thr Val Lys Val Val Asp 770 775 780 Glu Leu Val Lys Val Met Gly Arg His Lys Pro Glu Asn Ile Val Ile 785 790 795 800 Glu Met Ala Arg Glu Asn Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser 805 810 815 Arg Glu Arg Met Lys Arg Ile Glu Glu Gly Ile Lys Glu Leu Gly Ser 820 825 830 Gln Ile Leu Lys Glu His Pro Val Glu Asn Thr Gln Leu Gln Asn Glu 835 840 845 Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly Arg Asp Met Tyr Val Asp 850 855 860 Gln Glu Leu Asp Ile Asn Arg Leu Ser Asp Tyr Asp Val Asp His Ile 865 870 875 880 Val Pro Gln Ser Phe Leu Lys Asp Asp Ser Ile Asp Asn Lys Val Leu 885 890 895 Thr Arg Ser Asp Lys Asn Arg Gly Lys Ser Asp Asn Val Pro Ser Glu 900 905 910 Glu Val Val Lys Lys Met Lys Asn Tyr Trp Arg Gln Leu Leu Asn Ala 915 920 925 Lys Leu Ile Thr Gln Arg Lys Phe Asp Asn Leu Thr Lys Ala Glu Arg 930 935 940 Gly Gly Leu Ser Glu Leu Asp Lys Ala Gly Phe Ile Lys Arg Gln Leu 945 950 955 960 Val Glu Thr Arg Gln Ile Thr Lys His Val Ala Gln Ile Leu Asp Ser 965 970 975 Arg Met Asn Thr Lys Tyr Asp Glu Asn Asp Lys Leu Ile Arg Glu Val 980 985 990 Lys Val Ile Thr Leu Lys Ser Lys Leu Val Ser Asp Phe Arg Lys Asp 995 1000 1005 Phe Gln Phe Tyr Lys Val Arg Glu Ile Asn Asn Tyr His His Ala 1010 1015 1020 His Asp Ala Tyr Leu Asn Ala Val Val Gly Thr Ala Leu Ile Lys 1025 1030 1035 Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val Tyr Gly Asp Tyr Lys 1040 1045 1050 Val Tyr Asp Val Arg Lys Met Ile Ala Lys Ser Glu Gln Glu Ile 1055 1060 1065 Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser Asn Ile Met Asn 1070 1075 1080 Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile Arg Lys 1085 1090 1095 Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile Val Trp 1100 1105 1110 Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser Met 1115 1120 1125 Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly 1130 1135 1140 Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys Leu 1145 1150 1155 Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe 1160 1165 1170 Asp Ser Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys Val 1175 1180 1185 Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu Leu 1190 1195 1200 Gly Ile Thr Ile Met Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile 1205 1210 1215 Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu Val Lys Lys Asp Leu 1220 1225 1230 Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe Glu Leu Glu Asn Gly 1235 1240 1245 Arg Lys Arg Met Leu Ala Ser Ala Gly Glu Leu Gln Lys Gly Asn 1250 1255 1260 Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn Phe Leu Tyr Leu Ala 1265 1270 1275 Ser His Tyr Glu Lys Leu Lys Gly Ser Pro Glu Asp Asn Glu Gln 1280 1285 1290 Lys Gln Leu Phe Val Glu Gln His Lys His Tyr Leu Asp Glu Ile 1295 1300 1305 Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val Ile Leu Ala Asp 1310 1315 1320 Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys His Arg Asp 1325 1330 1335 Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu Phe Thr 1340 1345 1350 Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe Asp Thr 1355 1360 1365 Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val Leu Asp 1370 1375 1380 Ala Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg 1385 1390 1395 Ile Asp Leu Ser Gln Leu Gly Gly Asp Lys Arg Pro Ala Ala Thr 1400 1405 1410 Lys Lys Ala Gly Gln Ala Lys Lys Lys Lys 1415 1420 <210> 47 <211> 483 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 47 Met Phe Leu Phe Leu Ser Leu Thr Ser Phe Leu Ser Ser Ser Arg Thr 1 5 10 15 Leu Val Ser Lys Gly Glu Glu Asp Asn Met Ala Ile Ile Lys Glu Phe 20 25 30 Met Arg Phe Lys Val His Met Glu Gly Ser Val Asn Gly His Glu Phe 35 40 45 Glu Ile Glu Gly Glu Gly Glu Gly Arg Pro Tyr Glu Gly Thr Gln Thr 50 55 60 Ala Lys Leu Lys Val Thr Lys Gly Gly Pro Leu Pro Phe Ala Trp Asp 65 70 75 80 Ile Leu Ser Pro Gln Phe Met Tyr Gly Ser Lys Ala Tyr Val Lys His 85 90 95 Pro Ala Asp Ile Pro Asp Tyr Leu Lys Leu Ser Phe Pro Glu Gly Phe 100 105 110 Lys Trp Glu Arg Val Met Asn Phe Glu Asp Gly Gly Val Val Thr Val 115 120 125 Thr Gln Asp Ser Ser Leu Gln Asp Gly Glu Phe Ile Tyr Lys Val Lys 130 135 140 Leu Arg Gly Thr Asn Phe Pro Ser Asp Gly Pro Val Met Gln Lys Lys 145 150 155 160 Thr Met Gly Trp Glu Ala Ser Ser Glu Arg Met Tyr Pro Glu Asp Gly 165 170 175 Ala Leu Lys Gly Glu Ile Lys Gln Arg Leu Lys Leu Lys Asp Gly Gly 180 185 190 His Tyr Asp Ala Glu Val Lys Thr Thr Tyr Lys Ala Lys Lys Pro Val 195 200 205 Gln Leu Pro Gly Ala Tyr Asn Val Asn Ile Lys Leu Asp Ile Thr Ser 210 215 220 His Asn Glu Asp Tyr Thr Ile Val Glu Gln Tyr Glu Arg Ala Glu Gly 225 230 235 240 Arg His Ser Thr Gly Gly Met Asp Glu Leu Tyr Lys Gly Ser Lys Gln 245 250 255 Leu Glu Glu Leu Leu Ser Thr Ser Phe Asp Ile Gln Phe Asn Asp Leu 260 265 270 Thr Leu Leu Glu Thr Ala Phe Thr His Thr Ser Tyr Ala Asn Glu His 275 280 285 Arg Leu Leu Asn Val Ser His Asn Glu Arg Leu Glu Phe Leu Gly Asp 290 295 300 Ala Val Leu Gln Leu Ile Ile Ser Glu Tyr Leu Phe Ala Lys Tyr Pro 305 310 315 320 Lys Lys Thr Glu Gly Asp Met Ser Lys Leu Arg Ser Met Ile Val Arg 325 330 335 Glu Glu Ser Leu Ala Gly Phe Ser Arg Phe Cys Ser Phe Asp Ala Tyr 340 345 350 Ile Lys Leu Gly Lys Gly Glu Glu Lys Ser Gly Gly Arg Arg Arg Asp 355 360 365 Thr Ile Leu Gly Asp Leu Phe Glu Ala Phe Leu Gly Ala Leu Leu Leu 370 375 380 Asp Lys Gly Ile Asp Ala Val Arg Arg Phe Leu Lys Gln Val Met Ile 385 390 395 400 Pro Gln Val Glu Lys Gly Asn Phe Glu Arg Val Lys Asp Tyr Lys Thr 405 410 415 Cys Leu Gln Glu Phe Leu Gln Thr Lys Gly Asp Val Ala Ile Asp Tyr 420 425 430 Gln Val Ile Ser Glu Lys Gly Pro Ala His Ala Lys Gln Phe Glu Val 435 440 445 Ser Ile Val Val Asn Gly Ala Val Leu Ser Lys Gly Leu Gly Lys Ser 450 455 460 Lys Lys Leu Ala Glu Gln Asp Ala Ala Lys Asn Ala Leu Ala Gln Leu 465 470 475 480 Ser Glu Val <210> 48 <211> 483 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 48 Met Lys Gln Leu Glu Glu Leu Leu Ser Thr Ser Phe Asp Ile Gln Phe 1 5 10 15 Asn Asp Leu Thr Leu Leu Glu Thr Ala Phe Thr His Thr Ser Tyr Ala 20 25 30 Asn Glu His Arg Leu Leu Asn Val Ser His Asn Glu Arg Leu Glu Phe 35 40 45 Leu Gly Asp Ala Val Leu Gln Leu Ile Ile Ser Glu Tyr Leu Phe Ala 50 55 60 Lys Tyr Pro Lys Lys Thr Glu Gly Asp Met Ser Lys Leu Arg Ser Met 65 70 75 80 Ile Val Arg Glu Glu Ser Leu Ala Gly Phe Ser Arg Phe Cys Ser Phe 85 90 95 Asp Ala Tyr Ile Lys Leu Gly Lys Gly Glu Glu Lys Ser Gly Gly Arg 100 105 110 Arg Arg Asp Thr Ile Leu Gly Asp Leu Phe Glu Ala Phe Leu Gly Ala 115 120 125 Leu Leu Leu Asp Lys Gly Ile Asp Ala Val Arg Arg Phe Leu Lys Gln 130 135 140 Val Met Ile Pro Gln Val Glu Lys Gly Asn Phe Glu Arg Val Lys Asp 145 150 155 160 Tyr Lys Thr Cys Leu Gln Glu Phe Leu Gln Thr Lys Gly Asp Val Ala 165 170 175 Ile Asp Tyr Gln Val Ile Ser Glu Lys Gly Pro Ala His Ala Lys Gln 180 185 190 Phe Glu Val Ser Ile Val Val Asn Gly Ala Val Leu Ser Lys Gly Leu 195 200 205 Gly Lys Ser Lys Lys Leu Ala Glu Gln Asp Ala Ala Lys Asn Ala Leu 210 215 220 Ala Gln Leu Ser Glu Val Gly Ser Val Ser Lys Gly Glu Glu Asp Asn 225 230 235 240 Met Ala Ile Ile Lys Glu Phe Met Arg Phe Lys Val His Met Glu Gly 245 250 255 Ser Val Asn Gly His Glu Phe Glu Ile Glu Gly Glu Gly Glu Gly Arg 260 265 270 Pro Tyr Glu Gly Thr Gln Thr Ala Lys Leu Lys Val Thr Lys Gly Gly 275 280 285 Pro Leu Pro Phe Ala Trp Asp Ile Leu Ser Pro Gln Phe Met Tyr Gly 290 295 300 Ser Lys Ala Tyr Val Lys His Pro Ala Asp Ile Pro Asp Tyr Leu Lys 305 310 315 320 Leu Ser Phe Pro Glu Gly Phe Lys Trp Glu Arg Val Met Asn Phe Glu 325 330 335 Asp Gly Gly Val Val Thr Val Thr Gln Asp Ser Ser Leu Gln Asp Gly 340 345 350 Glu Phe Ile Tyr Lys Val Lys Leu Arg Gly Thr Asn Phe Pro Ser Asp 355 360 365 Gly Pro Val Met Gln Lys Lys Thr Met Gly Trp Glu Ala Ser Ser Glu 370 375 380 Arg Met Tyr Pro Glu Asp Gly Ala Leu Lys Gly Glu Ile Lys Gln Arg 385 390 395 400 Leu Lys Leu Lys Asp Gly Gly His Tyr Asp Ala Glu Val Lys Thr Thr 405 410 415 Tyr Lys Ala Lys Lys Pro Val Gln Leu Pro Gly Ala Tyr Asn Val Asn 420 425 430 Ile Lys Leu Asp Ile Thr Ser His Asn Glu Asp Tyr Thr Ile Val Glu 435 440 445 Gln Tyr Glu Arg Ala Glu Gly Arg His Ser Thr Gly Gly Met Asp Glu 450 455 460 Leu Tyr Lys Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys 465 470 475 480 Lys Lys Lys <210> 49 <211> 1423 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 49 Met Asp Tyr Lys Asp His Asp Gly Asp Tyr Lys Asp His Asp Ile Asp 1 5 10 15 Tyr Lys Asp Asp Asp Asp Lys Met Ala Pro Lys Lys Lys Arg Lys Val 20 25 30 Gly Ile His Gly Val Pro Ala Ala Asp Lys Lys Tyr Ser Ile Gly Leu 35 40 45 Ala Ile Gly Thr Asn Ser Val Gly Trp Ala Val Ile Thr Asp Glu Tyr 50 55 60 Lys Val Pro Ser Lys Lys Phe Lys Val Leu Gly Asn Thr Asp Arg His 65 70 75 80 Ser Ile Lys Lys Asn Leu Ile Gly Ala Leu Leu Phe Asp Ser Gly Glu 85 90 95 Thr Ala Glu Ala Thr Arg Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr 100 105 110 Arg Arg Lys Asn Arg Ile Cys Tyr Leu Gln Glu Ile Phe Ser Asn Glu 115 120 125 Met Ala Lys Val Asp Asp Ser Phe Phe His Arg Leu Glu Glu Ser Phe 130 135 140 Leu Val Glu Glu Asp Lys Lys His Glu Arg His Pro Ile Phe Gly Asn 145 150 155 160 Ile Val Asp Glu Val Ala Tyr His Glu Lys Tyr Pro Thr Ile Tyr His 165 170 175 Leu Arg Lys Lys Leu Val Asp Ser Thr Asp Lys Ala Asp Leu Arg Leu 180 185 190 Ile Tyr Leu Ala Leu Ala His Met Ile Lys Phe Arg Gly His Phe Leu 195 200 205 Ile Glu Gly Asp Leu Asn Pro Asp Asn Ser Asp Val Asp Lys Leu Phe 210 215 220 Ile Gln Leu Val Gln Thr Tyr Asn Gln Leu Phe Glu Glu Asn Pro Ile 225 230 235 240 Asn Ala Ser Gly Val Asp Ala Lys Ala Ile Leu Ser Ala Arg Leu Ser 245 250 255 Lys Ser Arg Arg Leu Glu Asn Leu Ile Ala Gln Leu Pro Gly Glu Lys 260 265 270 Lys Asn Gly Leu Phe Gly Asn Leu Ile Ala Leu Ser Leu Gly Leu Thr 275 280 285 Pro Asn Phe Lys Ser Asn Phe Asp Leu Ala Glu Asp Ala Lys Leu Gln 290 295 300 Leu Ser Lys Asp Thr Tyr Asp Asp Asp Leu Asp Asn Leu Leu Ala Gln 305 310 315 320 Ile Gly Asp Gln Tyr Ala Asp Leu Phe Leu Ala Ala Lys Asn Leu Ser 325 330 335 Asp Ala Ile Leu Leu Ser Asp Ile Leu Arg Val Asn Thr Glu Ile Thr 340 345 350 Lys Ala Pro Leu Ser Ala Ser Met Ile Lys Arg Tyr Asp Glu His His 355 360 365 Gln Asp Leu Thr Leu Leu Lys Ala Leu Val Arg Gln Gln Leu Pro Glu 370 375 380 Lys Tyr Lys Glu Ile Phe Phe Asp Gln Ser Lys Asn Gly Tyr Ala Gly 385 390 395 400 Tyr Ile Asp Gly Gly Ala Ser Gln Glu Glu Phe Tyr Lys Phe Ile Lys 405 410 415 Pro Ile Leu Glu Lys Met Asp Gly Thr Glu Glu Leu Leu Val Lys Leu 420 425 430 Asn Arg Glu Asp Leu Leu Arg Lys Gln Arg Thr Phe Asp Asn Gly Ser 435 440 445 Ile Pro His Gln Ile His Leu Gly Glu Leu His Ala Ile Leu Arg Arg 450 455 460 Gln Glu Asp Phe Tyr Pro Phe Leu Lys Asp Asn Arg Glu Lys Ile Glu 465 470 475 480 Lys Ile Leu Thr Phe Arg Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg 485 490 495 Gly Asn Ser Arg Phe Ala Trp Met Thr Arg Lys Ser Glu Glu Thr Ile 500 505 510 Thr Pro Trp Asn Phe Glu Glu Val Val Asp Lys Gly Ala Ser Ala Gln 515 520 525 Ser Phe Ile Glu Arg Met Thr Asn Phe Asp Lys Asn Leu Pro Asn Glu 530 535 540 Lys Val Leu Pro Lys His Ser Leu Leu Tyr Glu Tyr Phe Thr Val Tyr 545 550 555 560 Asn Glu Leu Thr Lys Val Lys Tyr Val Thr Glu Gly Met Arg Lys Pro 565 570 575 Ala Phe Leu Ser Gly Glu Gln Lys Lys Ala Ile Val Asp Leu Leu Phe 580 585 590 Lys Thr Asn Arg Lys Val Thr Val Lys Gln Leu Lys Glu Asp Tyr Phe 595 600 605 Lys Lys Ile Glu Cys Phe Asp Ser Val Glu Ile Ser Gly Val Glu Asp 610 615 620 Arg Phe Asn Ala Ser Leu Gly Thr Tyr His Asp Leu Leu Lys Ile Ile 625 630 635 640 Lys Asp Lys Asp Phe Leu Asp Asn Glu Glu Asn Glu Asp Ile Leu Glu 645 650 655 Asp Ile Val Leu Thr Leu Thr Leu Phe Glu Asp Arg Glu Met Ile Glu 660 665 670 Glu Arg Leu Lys Thr Tyr Ala His Leu Phe Asp Asp Lys Val Met Lys 675 680 685 Gln Leu Lys Arg Arg Arg Tyr Thr Gly Trp Gly Arg Leu Ser Arg Lys 690 695 700 Leu Ile Asn Gly Ile Arg Asp Lys Gln Ser Gly Lys Thr Ile Leu Asp 705 710 715 720 Phe Leu Lys Ser Asp Gly Phe Ala Asn Arg Asn Phe Met Gln Leu Ile 725 730 735 His Asp Asp Ser Leu Thr Phe Lys Glu Asp Ile Gln Lys Ala Gln Val 740 745 750 Ser Gly Gln Gly Asp Ser Leu His Glu His Ile Ala Asn Leu Ala Gly 755 760 765 Ser Pro Ala Ile Lys Lys Gly Ile Leu Gln Thr Val Lys Val Val Asp 770 775 780 Glu Leu Val Lys Val Met Gly Arg His Lys Pro Glu Asn Ile Val Ile 785 790 795 800 Glu Met Ala Arg Glu Asn Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser 805 810 815 Arg Glu Arg Met Lys Arg Ile Glu Glu Gly Ile Lys Glu Leu Gly Ser 820 825 830 Gln Ile Leu Lys Glu His Pro Val Glu Asn Thr Gln Leu Gln Asn Glu 835 840 845 Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly Arg Asp Met Tyr Val Asp 850 855 860 Gln Glu Leu Asp Ile Asn Arg Leu Ser Asp Tyr Asp Val Asp His Ile 865 870 875 880 Val Pro Gln Ser Phe Leu Lys Asp Asp Ser Ile Asp Asn Lys Val Leu 885 890 895 Thr Arg Ser Asp Lys Asn Arg Gly Lys Ser Asp Asn Val Pro Ser Glu 900 905 910 Glu Val Val Lys Lys Met Lys Asn Tyr Trp Arg Gln Leu Leu Asn Ala 915 920 925 Lys Leu Ile Thr Gln Arg Lys Phe Asp Asn Leu Thr Lys Ala Glu Arg 930 935 940 Gly Gly Leu Ser Glu Leu Asp Lys Ala Gly Phe Ile Lys Arg Gln Leu 945 950 955 960 Val Glu Thr Arg Gln Ile Thr Lys His Val Ala Gln Ile Leu Asp Ser 965 970 975 Arg Met Asn Thr Lys Tyr Asp Glu Asn Asp Lys Leu Ile Arg Glu Val 980 985 990 Lys Val Ile Thr Leu Lys Ser Lys Leu Val Ser Asp Phe Arg Lys Asp 995 1000 1005 Phe Gln Phe Tyr Lys Val Arg Glu Ile Asn Asn Tyr His His Ala 1010 1015 1020 His Asp Ala Tyr Leu Asn Ala Val Val Gly Thr Ala Leu Ile Lys 1025 1030 1035 Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val Tyr Gly Asp Tyr Lys 1040 1045 1050 Val Tyr Asp Val Arg Lys Met Ile Ala Lys Ser Glu Gln Glu Ile 1055 1060 1065 Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser Asn Ile Met Asn 1070 1075 1080 Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile Arg Lys 1085 1090 1095 Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile Val Trp 1100 1105 1110 Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser Met 1115 1120 1125 Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly 1130 1135 1140 Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys Leu 1145 1150 1155 Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe 1160 1165 1170 Asp Ser Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys Val 1175 1180 1185 Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu Leu 1190 1195 1200 Gly Ile Thr Ile Met Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile 1205 1210 1215 Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu Val Lys Lys Asp Leu 1220 1225 1230 Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe Glu Leu Glu Asn Gly 1235 1240 1245 Arg Lys Arg Met Leu Ala Ser Ala Gly Glu Leu Gln Lys Gly Asn 1250 1255 1260 Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn Phe Leu Tyr Leu Ala 1265 1270 1275 Ser His Tyr Glu Lys Leu Lys Gly Ser Pro Glu Asp Asn Glu Gln 1280 1285 1290 Lys Gln Leu Phe Val Glu Gln His Lys His Tyr Leu Asp Glu Ile 1295 1300 1305 Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val Ile Leu Ala Asp 1310 1315 1320 Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys His Arg Asp 1325 1330 1335 Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu Phe Thr 1340 1345 1350 Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe Asp Thr 1355 1360 1365 Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val Leu Asp 1370 1375 1380 Ala Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg 1385 1390 1395 Ile Asp Leu Ser Gln Leu Gly Gly Asp Lys Arg Pro Ala Ala Thr 1400 1405 1410 Lys Lys Ala Gly Gln Ala Lys Lys Lys Lys 1415 1420 <210> 50 <211> 2012 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 50 gaatgctgcc ctcagacccg cttcctccct gtccttgtct gtccaaggag aatgaggtct 60 cactggtgga tttcggacta ccctgaggag ctggcacctg agggacaagg ccccccacct 120 gcccagctcc agcctctgat gaggggtggg agagagctac atgaggttgc taagaaagcc 180 tcccctgaag gagaccacac agtgtgtgag gttggagtct ctagcagcgg gttctgtgcc 240 cccagggata gtctggctgt ccaggcactg ctcttgatat aaacaccacc tcctagttat 300 gaaaccatgc ccattctgcc tctctgtatg gaaaagagca tggggctggc ccgtggggtg 360 gtgtccactt taggccctgt gggagatcat gggaacccac gcagtgggtc ataggctctc 420 tcatttacta ctcacatcca ctctgtgaag aagcgattat gatctctcct ctagaaactc 480 gtagagtccc atgtctgccg gcttccagag cctgcactcc tccaccttgg cttggctttg 540 ctggggctag aggagctagg atgcacagca gctctgtgac cctttgtttg agaggaacag 600 gaaaaccacc cttctctctg gcccactgtg tcctcttcct gccctgccat ccccttctgt 660 gaatgttaga cccatgggag cagctggtca gaggggaccc cggcctgggg cccctaaccc 720 tatgtagcct cagtcttccc atcaggctct cagctcagcc tgagtgttga ggccccagtg 780 gctgctctgg gggcctcctg agtttctcat ctgtgcccct ccctccctgg cccaggtgaa 840 ggtgtggttc cagaaccgga ggacaaagta caaacggcag aagctggagg aggaagggcc 900 tgagtccgag cagaagaaga agggctccca tcacatcaac cggtggcgca ttgccacgaa 960 gcaggccaat ggggaggaca tcgatgtcac ctccaatgac aagcttgcta gcggtgggca 1020 accacaaacc cacgagggca gagtgctgct tgctgctggc caggcccctg cgtgggccca 1080 agctggactc tggccactcc ctggccaggc tttggggagg cctggagtca tggccccaca 1140 gggcttgaag cccggggccg ccattgacag agggacaagc aatgggctgg ctgaggcctg 1200 ggaccacttg gccttctcct cggagagcct gcctgcctgg gcgggcccgc ccgccaccgc 1260 agcctcccag ctgctctccg tgtctccaat ctcccttttg ttttgatgca tttctgtttt 1320 aatttatttt ccaggcacca ctgtagttta gtgatcccca gtgtccccct tccctatggg 1380 aataataaaa gtctctctct taatgacacg ggcatccagc tccagcccca gagcctgggg 1440 tggtagattc cggctctgag ggccagtggg ggctggtaga gcaaacgcgt tcagggcctg 1500 ggagcctggg gtggggtact ggtggagggg gtcaagggta attcattaac tcctctcttt 1560 tgttggggga ccctggtctc tacctccagc tccacagcag gagaaacagg ctagacatag 1620 ggaagggcca tcctgtatct tgagggagga caggcccagg tctttcttaa cgtattgaga 1680 ggtgggaatc aggcccaggt agttcaatgg gagagggaga gtgcttccct ctgcctagag 1740 actctggtgg cttctccagt tgaggagaaa ccagaggaaa ggggaggatt ggggtctggg 1800 ggagggaaca ccattcacaa aggctgacgg ttccagtccg aagtcgtggg cccaccagga 1860 tgctcacctg tccttggaga accgctgggc aggttgagac tgcagagaca gggcttaagg 1920 ctgagcctgc aaccagtccc cagtgactca gggcctcctc agcccaagaa agagcaacgt 1980 gccagggccc gctgagctct tgtgttcacc tg 2012 <210> 51 <211> 1153 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 51 Met Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys Lys 1 5 10 15 Lys Ser Asp Leu Val Leu Gly Leu Asp Ile Gly Ile Gly Ser Val Gly 20 25 30 Val Gly Ile Leu Asn Lys Val Thr Gly Glu Ile Ile His Lys Asn Ser 35 40 45 Arg Ile Phe Pro Ala Ala Gln Ala Glu Asn Asn Leu Val Arg Arg Thr 50 55 60 Asn Arg Gln Gly Arg Arg Leu Ala Arg Arg Lys Lys His Arg Arg Val 65 70 75 80 Arg Leu Asn Arg Leu Phe Glu Glu Ser Gly Leu Ile Thr Asp Phe Thr 85 90 95 Lys Ile Ser Ile Asn Leu Asn Pro Tyr Gln Leu Arg Val Lys Gly Leu 100 105 110 Thr Asp Glu Leu Ser Asn Glu Glu Leu Phe Ile Ala Leu Lys Asn Met 115 120 125 Val Lys His Arg Gly Ile Ser Tyr Leu Asp Asp Ala Ser Asp Asp Gly 130 135 140 Asn Ser Ser Val Gly Asp Tyr Ala Gln Ile Val Lys Glu Asn Ser Lys 145 150 155 160 Gln Leu Glu Thr Lys Thr Pro Gly Gln Ile Gln Leu Glu Arg Tyr Gln 165 170 175 Thr Tyr Gly Gln Leu Arg Gly Asp Phe Thr Val Glu Lys Asp Gly Lys 180 185 190 Lys His Arg Leu Ile Asn Val Phe Pro Thr Ser Ala Tyr Arg Ser Glu 195 200 205 Ala Leu Arg Ile Leu Gln Thr Gln Gln Glu Phe Asn Pro Gln Ile Thr 210 215 220 Asp Glu Phe Ile Asn Arg Tyr Leu Glu Ile Leu Thr Gly Lys Arg Lys 225 230 235 240 Tyr Tyr His Gly Pro Gly Asn Glu Lys Ser Arg Thr Asp Tyr Gly Arg 245 250 255 Tyr Arg Thr Ser Gly Glu Thr Leu Asp Asn Ile Phe Gly Ile Leu Ile 260 265 270 Gly Lys Cys Thr Phe Tyr Pro Asp Glu Phe Arg Ala Ala Lys Ala Ser 275 280 285 Tyr Thr Ala Gln Glu Phe Asn Leu Leu Asn Asp Leu Asn Asn Leu Thr 290 295 300 Val Pro Thr Glu Thr Lys Lys Leu Ser Lys Glu Gln Lys Asn Gln Ile 305 310 315 320 Ile Asn Tyr Val Lys Asn Glu Lys Ala Met Gly Pro Ala Lys Leu Phe 325 330 335 Lys Tyr Ile Ala Lys Leu Leu Ser Cys Asp Val Ala Asp Ile Lys Gly 340 345 350 Tyr Arg Ile Asp Lys Ser Gly Lys Ala Glu Ile His Thr Phe Glu Ala 355 360 365 Tyr Arg Lys Met Lys Thr Leu Glu Thr Leu Asp Ile Glu Gln Met Asp 370 375 380 Arg Glu Thr Leu Asp Lys Leu Ala Tyr Val Leu Thr Leu Asn Thr Glu 385 390 395 400 Arg Glu Gly Ile Gln Glu Ala Leu Glu His Glu Phe Ala Asp Gly Ser 405 410 415 Phe Ser Gln Lys Gln Val Asp Glu Leu Val Gln Phe Arg Lys Ala Asn 420 425 430 Ser Ser Ile Phe Gly Lys Gly Trp His Asn Phe Ser Val Lys Leu Met 435 440 445 Met Glu Leu Ile Pro Glu Leu Tyr Glu Thr Ser Glu Glu Gln Met Thr 450 455 460 Ile Leu Thr Arg Leu Gly Lys Gln Lys Thr Thr Ser Ser Ser Asn Lys 465 470 475 480 Thr Lys Tyr Ile Asp Glu Lys Leu Leu Thr Glu Glu Ile Tyr Asn Pro 485 490 495 Val Val Ala Lys Ser Val Arg Gln Ala Ile Lys Ile Val Asn Ala Ala 500 505 510 Ile Lys Glu Tyr Gly Asp Phe Asp Asn Ile Val Ile Glu Met Ala Arg 515 520 525 Glu Thr Asn Glu Asp Asp Glu Lys Lys Ala Ile Gln Lys Ile Gln Lys 530 535 540 Ala Asn Lys Asp Glu Lys Asp Ala Ala Met Leu Lys Ala Ala Asn Gln 545 550 555 560 Tyr Asn Gly Lys Ala Glu Leu Pro His Ser Val Phe His Gly His Lys 565 570 575 Gln Leu Ala Thr Lys Ile Arg Leu Trp His Gln Gln Gly Glu Arg Cys 580 585 590 Leu Tyr Thr Gly Lys Thr Ile Ser Ile His Asp Leu Ile Asn Asn Ser 595 600 605 Asn Gln Phe Glu Val Asp His Ile Leu Pro Leu Ser Ile Thr Phe Asp 610 615 620 Asp Ser Leu Ala Asn Lys Val Leu Val Tyr Ala Thr Ala Asn Gln Glu 625 630 635 640 Lys Gly Gln Arg Thr Pro Tyr Gln Ala Leu Asp Ser Met Asp Asp Ala 645 650 655 Trp Ser Phe Arg Glu Leu Lys Ala Phe Val Arg Glu Ser Lys Thr Leu 660 665 670 Ser Asn Lys Lys Lys Glu Tyr Leu Leu Thr Glu Glu Asp Ile Ser Lys 675 680 685 Phe Asp Val Arg Lys Lys Phe Ile Glu Arg Asn Leu Val Asp Thr Arg 690 695 700 Tyr Ala Ser Arg Val Val Leu Asn Ala Leu Gln Glu His Phe Arg Ala 705 710 715 720 His Lys Ile Asp Thr Lys Val Ser Val Val Arg Gly Gln Phe Thr Ser 725 730 735 Gln Leu Arg Arg His Trp Gly Ile Glu Lys Thr Arg Asp Thr Tyr His 740 745 750 His His Ala Val Asp Ala Leu Ile Ile Ala Ala Ser Ser Gln Leu Asn 755 760 765 Leu Trp Lys Lys Gln Lys Asn Thr Leu Val Ser Tyr Ser Glu Asp Gln 770 775 780 Leu Leu Asp Ile Glu Thr Gly Glu Leu Ile Ser Asp Asp Glu Tyr Lys 785 790 795 800 Glu Ser Val Phe Lys Ala Pro Tyr Gln His Phe Val Asp Thr Leu Lys 805 810 815 Ser Lys Glu Phe Glu Asp Ser Ile Leu Phe Ser Tyr Gln Val Asp Ser 820 825 830 Lys Phe Asn Arg Lys Ile Ser Asp Ala Thr Ile Tyr Ala Thr Arg Gln 835 840 845 Ala Lys Val Gly Lys Asp Lys Ala Asp Glu Thr Tyr Val Leu Gly Lys 850 855 860 Ile Lys Asp Ile Tyr Thr Gln Asp Gly Tyr Asp Ala Phe Met Lys Ile 865 870 875 880 Tyr Lys Lys Asp Lys Ser Lys Phe Leu Met Tyr Arg His Asp Pro Gln 885 890 895 Thr Phe Glu Lys Val Ile Glu Pro Ile Leu Glu Asn Tyr Pro Asn Lys 900 905 910 Gln Ile Asn Glu Lys Gly Lys Glu Val Pro Cys Asn Pro Phe Leu Lys 915 920 925 Tyr Lys Glu Glu His Gly Tyr Ile Arg Lys Tyr Ser Lys Lys Gly Asn 930 935 940 Gly Pro Glu Ile Lys Ser Leu Lys Tyr Tyr Asp Ser Lys Leu Gly Asn 945 950 955 960 His Ile Asp Ile Thr Pro Lys Asp Ser Asn Asn Lys Val Val Leu Gln 965 970 975 Ser Val Ser Pro Trp Arg Ala Asp Val Tyr Phe Asn Lys Thr Thr Gly 980 985 990 Lys Tyr Glu Ile Leu Gly Leu Lys Tyr Ala Asp Leu Gln Phe Glu Lys 995 1000 1005 Gly Thr Gly Thr Tyr Lys Ile Ser Gln Glu Lys Tyr Asn Asp Ile 1010 1015 1020 Lys Lys Lys Glu Gly Val Asp Ser Asp Ser Glu Phe Lys Phe Thr 1025 1030 1035 Leu Tyr Lys Asn Asp Leu Leu Leu Val Lys Asp Thr Glu Thr Lys 1040 1045 1050 Glu Gln Gln Leu Phe Arg Phe Leu Ser Arg Thr Met Pro Lys Gln 1055 1060 1065 Lys His Tyr Val Glu Leu Lys Pro Tyr Asp Lys Gln Lys Phe Glu 1070 1075 1080 Gly Gly Glu Ala Leu Ile Lys Val Leu Gly Asn Val Ala Asn Ser 1085 1090 1095 Gly Gln Cys Lys Lys Gly Leu Gly Lys Ser Asn Ile Ser Ile Tyr 1100 1105 1110 Lys Val Arg Thr Asp Val Leu Gly Asn Gln His Ile Ile Lys Asn 1115 1120 1125 Glu Gly Asp Lys Pro Lys Leu Asp Phe Lys Arg Pro Ala Ala Thr 1130 1135 1140 Lys Lys Ala Gly Gln Ala Lys Lys Lys Lys 1145 1150 <210> 52 <211> 340 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 52 gagggcctat ttcccatgat tccttcatat ttgcatatac gatacaaggc tgttagagag 60 ataattggaa ttaatttgac tgtaaacaca aagatattag tacaaaatac gtgacgtaga 120 aagtaataat ttcttgggta gtttgcagtt ttaaaattat gttttaaaat ggactatcat 180 atgcttaccg taacttgaaa gtatttcgat ttcttggctt tatatatctt gtggaaagga 240 cgaaacaccg ttacttaaat cttgcagaag ctacaaagat aaggcttcat gccgaaatca 300 acaccctgtc attttatggc agggtgtttt cgttatttaa 340 <210> 53 <211> 360 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (288)..(317) <223> a, c, t, g, unknown or other <400> 53 gagggcctat ttcccatgat tccttcatat ttgcatatac gatacaaggc tgttagagag 60 ataattggaa ttaatttgac tgtaaacaca aagatattag tacaaaatac gtgacgtaga 120 aagtaataat ttcttgggta gtttgcagtt ttaaaattat gttttaaaat ggactatcat 180 atgcttaccg taacttgaaa gtatttcgat ttcttggctt tatatatctt gtggaaagga 240 cgaaacaccg ggttttagag ctatgctgtt ttgaatggtc ccaaaacnnn nnnnnnnnnn 300 nnnnnnnnnn nnnnnnngtt ttagagctat gctgttttga atggtcccaa aacttttttt 360 <210> 54 <211> 318 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (250)..(269) <223> a, c, t, g, unknown or other <400> 54 gagggcctat ttcccatgat tccttcatat ttgcatatac gatacaaggc tgttagagag 60 ataattggaa ttaatttgac tgtaaacaca aagatattag tacaaaatac gtgacgtaga 120 aagtaataat ttcttgggta gtttgcagtt ttaaaattat gttttaaaat ggactatcat 180 atgcttaccg taacttgaaa gtatttcgat ttcttggctt tatatatctt gtggaaagga 240 cgaaacaccn nnnnnnnnnn nnnnnnnnng ttttagagct agaaatagca agttaaaata 300 aggctagtcc gttttttt 318 <210> 55 <211> 325 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (250)..(269) <223> a, c, t, g, unknown or other <400> 55 gagggcctat ttcccatgat tccttcatat ttgcatatac gatacaaggc tgttagagag 60 ataattggaa ttaatttgac tgtaaacaca aagatattag tacaaaatac gtgacgtaga 120 aagtaataat ttcttgggta gtttgcagtt ttaaaattat gttttaaaat ggactatcat 180 atgcttaccg taacttgaaa gtatttcgat ttcttggctt tatatatctt gtggaaagga 240 cgaaacaccn nnnnnnnnnn nnnnnnnnng ttttagagct agaaatagca agttaaaata 300 aggctagtcc gttatcattt ttttt 325 <210> 56 <211> 337 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (250)..(269) <223> a, c, t, g, unknown or other <400> 56 gagggcctat ttcccatgat tccttcatat ttgcatatac gatacaaggc tgttagagag 60 ataattggaa ttaatttgac tgtaaacaca aagatattag tacaaaatac gtgacgtaga 120 aagtaataat ttcttgggta gtttgcagtt ttaaaattat gttttaaaat ggactatcat 180 atgcttaccg taacttgaaa gtatttcgat ttcttggctt tatatatctt gtggaaagga 240 cgaaacaccn nnnnnnnnnn nnnnnnnnng ttttagagct agaaatagca agttaaaata 300 aggctagtcc gttatcaact tgaaaaagtg ttttttt 337 <210> 57 <211> 352 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (250)..(269) <223> a, c, t, g, unknown or other <400> 57 gagggcctat ttcccatgat tccttcatat ttgcatatac gatacaaggc tgttagagag 60 ataattggaa ttaatttgac tgtaaacaca aagatattag tacaaaatac gtgacgtaga 120 aagtaataat ttcttgggta gtttgcagtt ttaaaattat gttttaaaat ggactatcat 180 atgcttaccg taacttgaaa gtatttcgat ttcttggctt tatatatctt gtggaaagga 240 cgaaacaccn nnnnnnnnnn nnnnnnnnng ttttagagct agaaatagca agttaaaata 300 aggctagtcc gttatcaact tgaaaaagtg gcaccgagtc ggtgcttttt tt 352 <210> 58 <211> 5101 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 58 cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60 gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc attgacgtca 120 atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt atcatatgcc 180 aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt atgcccagta 240 catgacctta tgggactttc ctacttggca gtacatctac gtattagtca tcgctattac 300 catggtcgag gtgagcccca cgttctgctt cactctcccc atctcccccc cctccccacc 360 cccaattttg tatttattta ttttttaatt attttgtgca gcgatggggg cggggggggg 420 gggggggcgc gcgccaggcg gggcggggcg gggcgagggg cggggcgggg cgaggcggag 480 aggtgcggcg gcagccaatc agagcggcgc gctccgaaag tttcctttta tggcgaggcg 540 gcggcggcgg cggccctata aaaagcgaag cgcgcggcgg gcgggagtcg ctgcgacgct 600 gccttcgccc cgtgccccgc tccgccgccg cctcgcgccg cccgccccgg ctctgactga 660 ccgcgttact cccacaggtg agcgggcggg acggcccttc tcctccgggc tgtaattagc 720 tgagcaagag gtaagggttt aagggatggt tggttggtgg ggtattaatg tttaattacc 780 tggagcacct gcctgaaatc actttttttc aggttggacc ggtgccacca tggactataa 840 ggaccacgac ggagactaca aggatcatga tattgattac aaagacgatg acgataagat 900 ggccccaaag aagaagcgga aggtcggtat ccacggagtc ccagcagccg acaagaagta 960 cagcatcggc ctggacatcg gcaccaactc tgtgggctgg gccgtgatca ccgacgagta 1020 caaggtgccc agcaagaaat tcaaggtgct gggcaacacc gaccggcaca gcatcaagaa 1080 gaacctgatc ggagccctgc tgttcgacag cggcgaaaca gccgaggcca cccggctgaa 1140 gagaaccgcc agaagaagat acaccagacg gaagaaccgg atctgctatc tgcaagagat 1200 cttcagcaac gagatggcca aggtggacga cagcttcttc cacagactgg aagagtcctt 1260 cctggtggaa gaggataaga agcacgagcg gcaccccatc ttcggcaaca tcgtggacga 1320 ggtggcctac cacgagaagt accccaccat ctaccacctg agaaagaaac tggtggacag 1380 caccgacaag gccgacctgc ggctgatcta tctggccctg gcccacatga tcaagttccg 1440 gggccacttc ctgatcgagg gcgacctgaa ccccgacaac agcgacgtgg acaagctgtt 1500 catccagctg gtgcagacct acaaccagct gttcgaggaa aaccccatca acgccagcgg 1560 cgtggacgcc aaggccatcc tgtctgccag actgagcaag agcagacggc tggaaaatct 1620 gatcgcccag ctgcccggcg agaagaagaa tggcctgttc ggcaacctga ttgccctgag 1680 cctgggcctg acccccaact tcaagagcaa cttcgacctg gccgaggatg ccaaactgca 1740 gctgagcaag gacacctacg acgacgacct ggacaacctg ctggcccaga tcggcgacca 1800 gtacgccgac ctgtttctgg ccgccaagaa cctgtccgac gccatcctgc tgagcgacat 1860 cctgagagtg aacaccgaga tcaccaaggc ccccctgagc gcctctatga tcaagagata 1920 cgacgagcac caccaggacc tgaccctgct gaaagctctc gtgcggcagc agctgcctga 1980 gaagtacaaa gagattttct tcgaccagag caagaacggc tacgccggct acattgacgg 2040 cggagccagc caggaagagt tctacaagtt catcaagccc atcctggaaa agatggacgg 2100 caccgaggaa ctgctcgtga agctgaacag agaggacctg ctgcggaagc agcggacctt 2160 cgacaacggc agcatccccc accagatcca cctgggagag ctgcacgcca ttctgcggcg 2220 gcaggaagat ttttacccat tcctgaagga caaccgggaa aagatcgaga agatcctgac 2280 cttccgcatc ccctactacg tgggccctct ggccagggga aacagcagat tcgcctggat 2340 gaccagaaag agcgaggaaa ccatcacccc ctggaacttc gaggaagtgg tggacaaggg 2400 cgcttccgcc cagagcttca tcgagcggat gaccaacttc gataagaacc tgcccaacga 2460 gaaggtgctg cccaagcaca gcctgctgta cgagtacttc accgtgtata acgagctgac 2520 caaagtgaaa tacgtgaccg agggaatgag aaagcccgcc ttcctgagcg gcgagcagaa 2580 aaaggccatc gtggacctgc tgttcaagac caaccggaaa gtgaccgtga agcagctgaa 2640 agaggactac ttcaagaaaa tcgagtgctt cgactccgtg gaaatctccg gcgtggaaga 2700 tcggttcaac gcctccctgg gcacatacca cgatctgctg aaaattatca aggacaagga 2760 cttcctggac aatgaggaaa acgaggacat tctggaagat atcgtgctga ccctgacact 2820 gtttgaggac agagagatga tcgaggaacg gctgaaaacc tatgcccacc tgttcgacga 2880 caaagtgatg aagcagctga agcggcggag atacaccggc tggggcaggc tgagccggaa 2940 gctgatcaac ggcatccggg acaagcagtc cggcaagaca atcctggatt tcctgaagtc 3000 cgacggcttc gccaacagaa acttcatgca gctgatccac gacgacagcc tgacctttaa 3060 agaggacatc cagaaagccc aggtgtccgg ccagggcgat agcctgcacg agcacattgc 3120 caatctggcc ggcagccccg ccattaagaa gggcatcctg cagacagtga aggtggtgga 3180 cgagctcgtg aaagtgatgg gccggcacaa gcccgagaac atcgtgatcg aaatggccag 3240 agagaaccag accacccaga agggacagaa gaacagccgc gagagaatga agcggatcga 3300 agagggcatc aaagagctgg gcagccagat cctgaaagaa caccccgtgg aaaacaccca 3360 gctgcagaac gagaagctgt acctgtacta cctgcagaat gggcgggata tgtacgtgga 3420 ccaggaactg gacatcaacc ggctgtccga ctacgatgtg gaccatatcg tgcctcagag 3480 ctttctgaag gacgactcca tcgacaacaa ggtgctgacc agaagcgaca agaaccgggg 3540 caagagcgac aacgtgccct ccgaagaggt cgtgaagaag atgaagaact actggcggca 3600 gctgctgaac gccaagctga ttacccagag aaagttcgac aatctgacca aggccgagag 3660 aggcggcctg agcgaactgg ataaggccgg cttcatcaag agacagctgg tggaaacccg 3720 gcagatcaca aagcacgtgg cacagatcct ggactcccgg atgaacacta agtacgacga 3780 gaatgacaag ctgatccggg aagtgaaagt gatcaccctg aagtccaagc tggtgtccga 3840 tttccggaag gatttccagt tttacaaagt gcgcgagatc aacaactacc accacgccca 3900 cgacgcctac ctgaacgccg tcgtgggaac cgccctgatc aaaaagtacc ctaagctgga 3960 aagcgagttc gtgtacggcg actacaaggt gtacgacgtg cggaagatga tcgccaagag 4020 cgagcaggaa atcggcaagg ctaccgccaa gtacttcttc tacagcaaca tcatgaactt 4080 tttcaagacc gagattaccc tggccaacgg cgagatccgg aagcggcctc tgatcgagac 4140 aaacggcgaa accggggaga tcgtgtggga taagggccgg gattttgcca ccgtgcggaa 4200 agtgctgagc atgccccaag tgaatatcgt gaaaaagacc gaggtgcaga caggcggctt 4260 cagcaaagag tctatcctgc ccaagaggaa cagcgataag ctgatcgcca gaaagaagga 4320 ctgggaccct aagaagtacg gcggcttcga cagccccacc gtggcctatt ctgtgctggt 4380 ggtggccaaa gtggaaaagg gcaagtccaa gaaactgaag agtgtgaaag agctgctggg 4440 gatcaccatc atggaaagaa gcagcttcga gaagaatccc atcgactttc tggaagccaa 4500 gggctacaaa gaagtgaaaa aggacctgat catcaagctg cctaagtact ccctgttcga 4560 gctggaaaac ggccggaaga gaatgctggc ctctgccggc gaactgcaga agggaaacga 4620 actggccctg ccctccaaat atgtgaactt cctgtacctg gccagccact atgagaagct 4680 gaagggctcc cccgaggata atgagcagaa acagctgttt gtggaacagc acaagcacta 4740 cctggacgag atcatcgagc agatcagcga gttctccaag agagtgatcc tggccgacgc 4800 taatctggac aaagtgctgt ccgcctacaa caagcaccgg gataagccca tcagagagca 4860 ggccgagaat atcatccacc tgtttaccct gaccaatctg ggagcccctg ccgccttcaa 4920 gtactttgac accaccatcg accggaagag gtacaccagc accaaagagg tgctggacgc 4980 caccctgatc caccagagca tcaccggcct gtacgagaca cggatcgacc tgtctcagct 5040 gggaggcgac tttctttttc ttagcttgac cagctttctt agtagcagca ggacgcttta 5100 a 5101 <210> 59 <211> 137 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 59 nnnnnnnnnn nnnnnnnnnn gtttttgtac tctcaagatt tagaaataaa tcttgcagaa 60 gctacaaaga taaggcttca tgccgaaatc aacaccctgt cattttatgg cagggtgttt 120 tcgttattta atttttt 137 <210> 60 <211> 123 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 60 nnnnnnnnnn nnnnnnnnnn gtttttgtac tctcagaaat gcagaagcta caaagataag 60 gcttcatgcc gaaatcaaca ccctgtcatt ttatggcagg gtgttttcgt tatttaattt 120 ttt 123 <210> 61 <211> 110 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 61 nnnnnnnnnn nnnnnnnnnn gtttttgtac tctcagaaat gcagaagcta caaagataag 60 gcttcatgcc gaaatcaaca ccctgtcatt ttatggcagg gtgttttttt 110 <210> 62 <211> 137 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 62 nnnnnnnnnn nnnnnnnnnn gttattgtac tctcaagatt tagaaataaa tcttgcagaa 60 gctacaaaga taaggcttca tgccgaaatc aacaccctgt cattttatgg cagggtgttt 120 tcgttattta atttttt 137 <210> 63 <211> 123 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 63 nnnnnnnnnn nnnnnnnnnn gttattgtac tctcagaaat gcagaagcta caaagataag 60 gcttcatgcc gaaatcaaca ccctgtcatt ttatggcagg gtgttttcgt tatttaattt 120 ttt 123 <210> 64 <211> 110 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 64 nnnnnnnnnn nnnnnnnnnn gttattgtac tctcagaaat gcagaagcta caaagataag 60 gcttcatgcc gaaatcaaca ccctgtcatt ttatggcagg gtgttttttt 110 <210> 65 <211> 137 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 65 nnnnnnnnnn nnnnnnnnnn gttattgtac tctcaagatt tagaaataaa tcttgcagaa 60 gctacaatga taaggcttca tgccgaaatc aacaccctgt cattttatgg cagggtgttt 120 tcgttattta atttttt 137 <210> 66 <211> 123 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 66 nnnnnnnnnn nnnnnnnnnn gttattgtac tctcagaaat gcagaagcta caatgataag 60 gcttcatgcc gaaatcaaca ccctgtcatt ttatggcagg gtgttttcgt tatttaattt 120 ttt 123 <210> 67 <211> 110 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 67 nnnnnnnnnn nnnnnnnnnn gttattgtac tctcagaaat gcagaagcta caatgataag 60 gcttcatgcc gaaatcaaca ccctgtcatt ttatggcagg gtgttttttt 110 <210> 68 <211> 107 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 68 nnnnnnnnnn nnnnnnnnnn gttttagagc tgtggaaaca cagcgagtta aaataaggct 60 tagtccgtac tcaacttgaa aaggtggcac cgattcggtg ttttttt 107 <210> 69 <211> 4263 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 69 atgaaaaggc cggcggccac gaaaaaggcc ggccaggcaa aaaagaaaaa gaccaagccc 60 tacagcatcg gcctggacat cggcaccaat agcgtgggct gggccgtgac caccgacaac 120 tacaaggtgc ccagcaagaa aatgaaggtg ctgggcaaca cctccaagaa gtacatcaag 180 aaaaacctgc tgggcgtgct gctgttcgac agcggcatta cagccgaggg cagacggctg 240 aagagaaccg ccagacggcg gtacacccgg cggagaaaca gaatcctgta tctgcaagag 300 atcttcagca ccgagatggc taccctggac gacgccttct tccagcggct ggacgacagc 360 ttcctggtgc ccgacgacaa gcgggacagc aagtacccca tcttcggcaa cctggtggaa 420 gagaaggcct accacgacga gttccccacc atctaccacc tgagaaagta cctggccgac 480 agcaccaaga aggccgacct gagactggtg tatctggccc tggcccacat gatcaagtac 540 cggggccact tcctgatcga gggcgagttc aacagcaaga acaacgacat ccagaagaac 600 ttccaggact tcctggacac ctacaacgcc atcttcgaga gcgacctgtc cctggaaaac 660 agcaagcagc tggaagagat cgtgaaggac aagatcagca agctggaaaa gaaggaccgc 720 atcctgaagc tgttccccgg cgagaagaac agcggaatct tcagcgagtt tctgaagctg 780 atcgtgggca accaggccga cttcagaaag tgcttcaacc tggacgagaa agccagcctg 840 cacttcagca aagagagcta cgacgaggac ctggaaaccc tgctgggata tatcggcgac 900 gactacagcg acgtgttcct gaaggccaag aagctgtacg acgctatcct gctgagcggc 960 ttcctgaccg tgaccgacaa cgagacagag gccccactga gcagcgccat gattaagcgg 1020 tacaacgagc acaaagagga tctggctctg ctgaaagagt acatccggaa catcagcctg 1080 aaaacctaca atgaggtgtt caaggacgac accaagaacg gctacgccgg ctacatcgac 1140 ggcaagacca accaggaaga tttctatgtg tacctgaaga agctgctggc cgagttcgag 1200 ggggccgact actttctgga aaaaatcgac cgcgaggatt tcctgcggaa gcagcggacc 1260 ttcgacaacg gcagcatccc ctaccagatc catctgcagg aaatgcgggc catcctggac 1320 aagcaggcca agttctaccc attcctggcc aagaacaaag agcggatcga gaagatcctg 1380 accttccgca tcccttacta cgtgggcccc ctggccagag gcaacagcga ttttgcctgg 1440 tccatccgga agcgcaatga gaagatcacc ccctggaact tcgaggacgt gatcgacaaa 1500 gagtccagcg ccgaggcctt catcaaccgg atgaccagct tcgacctgta cctgcccgag 1560 gaaaaggtgc tgcccaagca cagcctgctg tacgagacat tcaatgtgta taacgagctg 1620 accaaagtgc ggtttatcgc cgagtctatg cgggactacc agttcctgga ctccaagcag 1680 aaaaaggaca tcgtgcggct gtacttcaag gacaagcgga aagtgaccga taaggacatc 1740 atcgagtacc tgcacgccat ctacggctac gatggcatcg agctgaaggg catcgagaag 1800 cagttcaact ccagcctgag cacataccac gacctgctga acattatcaa cgacaaagaa 1860 tttctggacg actccagcaa cgaggccatc atcgaagaga tcatccacac cctgaccatc 1920 tttgaggacc gcgagatgat caagcagcgg ctgagcaagt tcgagaacat cttcgacaag 1980 agcgtgctga aaaagctgag cagacggcac tacaccggct ggggcaagct gagcgccaag 2040 ctgatcaacg gcatccggga cgagaagtcc ggcaacacaa tcctggacta cctgatcgac 2100 gacggcatca gcaaccggaa cttcatgcag ctgatccacg acgacgccct gagcttcaag 2160 aagaagatcc agaaggccca gatcatcggg gacgaggaca agggcaacat caaagaagtc 2220 gtgaagtccc tgcccggcag ccccgccatc aagaagggaa tcctgcagag catcaagatc 2280 gtggacgagc tcgtgaaagt gatgggcggc agaaagcccg agagcatcgt ggtggaaatg 2340 gctagagaga accagtacac caatcagggc aagagcaaca gccagcagag actgaagaga 2400 ctggaaaagt ccctgaaaga gctgggcagc aagattctga aagagaatat ccctgccaag 2460 ctgtccaaga tcgacaacaa cgccctgcag aacgaccggc tgtacctgta ctacctgcag 2520 aatggcaagg acatgtatac aggcgacgac ctggatatcg accgcctgag caactacgac 2580 atcgaccata ttatccccca ggccttcctg aaagacaaca gcattgacaa caaagtgctg 2640 gtgtcctccg ccagcaaccg cggcaagtcc gatgatgtgc ccagcctgga agtcgtgaaa 2700 aagagaaaga ccttctggta tcagctgctg aaaagcaagc tgattagcca gaggaagttc 2760 gacaacctga ccaaggccga gagaggcggc ctgagccctg aagataaggc cggcttcatc 2820 cagagacagc tggtggaaac ccggcagatc accaagcacg tggccagact gctggatgag 2880 aagtttaaca acaagaagga cgagaacaac cgggccgtgc ggaccgtgaa gatcatcacc 2940 ctgaagtcca ccctggtgtc ccagttccgg aaggacttcg agctgtataa agtgcgcgag 3000 atcaatgact ttcaccacgc ccacgacgcc tacctgaatg ccgtggtggc ttccgccctg 3060 ctgaagaagt accctaagct ggaacccgag ttcgtgtacg gcgactaccc caagtacaac 3120 tccttcagag agcggaagtc cgccaccgag aaggtgtact tctactccaa catcatgaat 3180 atctttaaga agtccatctc cctggccgat ggcagagtga tcgagcggcc cctgatcgaa 3240 gtgaacgaag agacaggcga gagcgtgtgg aacaaagaaa gcgacctggc caccgtgcgg 3300 cgggtgctga gttatcctca agtgaatgtc gtgaagaagg tggaagaaca gaaccacggc 3360 ctggatcggg gcaagcccaa gggcctgttc aacgccaacc tgtccagcaa gcctaagccc 3420 aactccaacg agaatctcgt gggggccaaa gagtacctgg accctaagaa gtacggcgga 3480 tacgccggca tctccaatag cttcaccgtg ctcgtgaagg gcacaatcga gaagggcgct 3540 aagaaaaaga tcacaaacgt gctggaattt caggggatct ctatcctgga ccggatcaac 3600 taccggaagg ataagctgaa ctttctgctg gaaaaaggct acaaggacat tgagctgatt 3660 atcgagctgc ctaagtactc cctgttcgaa ctgagcgacg gctccagacg gatgctggcc 3720 tccatcctgt ccaccaacaa caagcggggc gagatccaca agggaaacca gatcttcctg 3780 agccagaaat ttgtgaaact gctgtaccac gccaagcgga tctccaacac catcaatgag 3840 aaccaccgga aatacgtgga aaaccacaag aaagagtttg aggaactgtt ctactacatc 3900 ctggagttca acgagaacta tgtgggagcc aagaagaacg gcaaactgct gaactccgcc 3960 ttccagagct ggcagaacca cagcatcgac gagctgtgca gctccttcat cggccctacc 4020 ggcagcgagc ggaagggact gtttgagctg acctccagag gctctgccgc cgactttgag 4080 ttcctgggag tgaagatccc ccggtacaga gactacaccc cctctagtct gctgaaggac 4140 gccaccctga tccaccagag cgtgaccggc ctgtacgaaa cccggatcga cctggctaag 4200 ctgggcgagg gaaagcgtcc tgctgctact aagaaagctg gtcaagctaa gaaaaagaaa 4260 taa 4263 <210> 70 <211> 84 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 70 ggaaccattc ataacagcat agcaagttat aataaggcta gtccgttatc aacttgaaaa 60 agtggcaccg agtcggtgct tttt 84 <210> 71 <211> 36 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 71 gttatagagc tatgctgtta tgaatggtcc caaaac 36 <210> 72 <211> 84 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 72 ggaaccattc aatacagcat agcaagttaa tataaggcta gtccgttatc aacttgaaaa 60 agtggcaccg agtcggtgct tttt 84 <210> 73 <211> 36 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 73 gtattagagc tatgctgtat tgaatggtcc caaaac 36 <210> 74 <211> 103 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 74 nnnnnnnnnn nnnnnnnnnn gttttagagc tagaaatagc aagttaaaat aaggctagtc 60 cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt ttt 103 <210> 75 <211> 103 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 75 nnnnnnnnnn nnnnnnnnnn gtattagagc tagaaatagc aagttaatat aaggctagtc 60 cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt ttt 103 <210> 76 <211> 123 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 76 nnnnnnnnnn nnnnnnnnnn gttttagagc tatgctgttt tggaaacaaa acagcatagc 60 aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt 120 ttt 123 <210> 77 <211> 123 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 77 nnnnnnnnnn nnnnnnnnnn gtattagagc tatgctgtat tggaaacaat acagcatagc 60 aagttaatat aaggctagtc cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt 120 ttt 123 <210> 78 <211> 20 <212> DNA <213> Homo sapiens <400> 78 gtcacctcca atgactaggg 20 <210> 79 <211> 984 <212> PRT <213> Campylobacter jejuni <400> 79 Met Ala Arg Ile Leu Ala Phe Asp Ile Gly Ile Ser Ser Ile Gly Trp 1 5 10 15 Ala Phe Ser Glu Asn Asp Glu Leu Lys Asp Cys Gly Val Arg Ile Phe 20 25 30 Thr Lys Val Glu Asn Pro Lys Thr Gly Glu Ser Leu Ala Leu Pro Arg 35 40 45 Arg Leu Ala Arg Ser Ala Arg Lys Arg Leu Ala Arg Arg Lys Ala Arg 50 55 60 Leu Asn His Leu Lys His Leu Ile Ala Asn Glu Phe Lys Leu Asn Tyr 65 70 75 80 Glu Asp Tyr Gln Ser Phe Asp Glu Ser Leu Ala Lys Ala Tyr Lys Gly 85 90 95 Ser Leu Ile Ser Pro Tyr Glu Leu Arg Phe Arg Ala Leu Asn Glu Leu 100 105 110 Leu Ser Lys Gln Asp Phe Ala Arg Val Ile Leu His Ile Ala Lys Arg 115 120 125 Arg Gly Tyr Asp Asp Ile Lys Asn Ser Asp Asp Lys Glu Lys Gly Ala 130 135 140 Ile Leu Lys Ala Ile Lys Gln Asn Glu Glu Lys Leu Ala Asn Tyr Gln 145 150 155 160 Ser Val Gly Glu Tyr Leu Tyr Lys Glu Tyr Phe Gln Lys Phe Lys Glu 165 170 175 Asn Ser Lys Glu Phe Thr Asn Val Arg Asn Lys Lys Glu Ser Tyr Glu 180 185 190 Arg Cys Ile Ala Gln Ser Phe Leu Lys Asp Glu Leu Lys Leu Ile Phe 195 200 205 Lys Lys Gln Arg Glu Phe Gly Phe Ser Phe Ser Lys Lys Phe Glu Glu 210 215 220 Glu Val Leu Ser Val Ala Phe Tyr Lys Arg Ala Leu Lys Asp Phe Ser 225 230 235 240 His Leu Val Gly Asn Cys Ser Phe Phe Thr Asp Glu Lys Arg Ala Pro 245 250 255 Lys Asn Ser Pro Leu Ala Phe Met Phe Val Ala Leu Thr Arg Ile Ile 260 265 270 Asn Leu Leu Asn Asn Leu Lys Asn Thr Glu Gly Ile Leu Tyr Thr Lys 275 280 285 Asp Asp Leu Asn Ala Leu Leu Asn Glu Val Leu Lys Asn Gly Thr Leu 290 295 300 Thr Tyr Lys Gln Thr Lys Lys Leu Leu Gly Leu Ser Asp Asp Tyr Glu 305 310 315 320 Phe Lys Gly Glu Lys Gly Thr Tyr Phe Ile Glu Phe Lys Lys Tyr Lys 325 330 335 Glu Phe Ile Lys Ala Leu Gly Glu His Asn Leu Ser Gln Asp Asp Leu 340 345 350 Asn Glu Ile Ala Lys Asp Ile Thr Leu Ile Lys Asp Glu Ile Lys Leu 355 360 365 Lys Lys Ala Leu Ala Lys Tyr Asp Leu Asn Gln Asn Gln Ile Asp Ser 370 375 380 Leu Ser Lys Leu Glu Phe Lys Asp His Leu Asn Ile Ser Phe Lys Ala 385 390 395 400 Leu Lys Leu Val Thr Pro Leu Met Leu Glu Gly Lys Lys Tyr Asp Glu 405 410 415 Ala Cys Asn Glu Leu Asn Leu Lys Val Ala Ile Asn Glu Asp Lys Lys 420 425 430 Asp Phe Leu Pro Ala Phe Asn Glu Thr Tyr Tyr Lys Asp Glu Val Thr 435 440 445 Asn Pro Val Val Leu Arg Ala Ile Lys Glu Tyr Arg Lys Val Leu Asn 450 455 460 Ala Leu Leu Lys Lys Tyr Gly Lys Val His Lys Ile Asn Ile Glu Leu 465 470 475 480 Ala Arg Glu Val Gly Lys Asn His Ser Gln Arg Ala Lys Ile Glu Lys 485 490 495 Glu Gln Asn Glu Asn Tyr Lys Ala Lys Lys Asp Ala Glu Leu Glu Cys 500 505 510 Glu Lys Leu Gly Leu Lys Ile Asn Ser Lys Asn Ile Leu Lys Leu Arg 515 520 525 Leu Phe Lys Glu Gln Lys Glu Phe Cys Ala Tyr Ser Gly Glu Lys Ile 530 535 540 Lys Ile Ser Asp Leu Gln Asp Glu Lys Met Leu Glu Ile Asp His Ile 545 550 555 560 Tyr Pro Tyr Ser Arg Ser Phe Asp Asp Ser Tyr Met Asn Lys Val Leu 565 570 575 Val Phe Thr Lys Gln Asn Gln Glu Lys Leu Asn Gln Thr Pro Phe Glu 580 585 590 Ala Phe Gly Asn Asp Ser Ala Lys Trp Gln Lys Ile Glu Val Leu Ala 595 600 605 Lys Asn Leu Pro Thr Lys Lys Gln Lys Arg Ile Leu Asp Lys Asn Tyr 610 615 620 Lys Asp Lys Glu Gln Lys Asn Phe Lys Asp Arg Asn Leu Asn Asp Thr 625 630 635 640 Arg Tyr Ile Ala Arg Leu Val Leu Asn Tyr Thr Lys Asp Tyr Leu Asp 645 650 655 Phe Leu Pro Leu Ser Asp Asp Glu Asn Thr Lys Leu Asn Asp Thr Gln 660 665 670 Lys Gly Ser Lys Val His Val Glu Ala Lys Ser Gly Met Leu Thr Ser 675 680 685 Ala Leu Arg His Thr Trp Gly Phe Ser Ala Lys Asp Arg Asn Asn His 690 695 700 Leu His His Ala Ile Asp Ala Val Ile Ile Ala Tyr Ala Asn Asn Ser 705 710 715 720 Ile Val Lys Ala Phe Ser Asp Phe Lys Lys Glu Gln Glu Ser Asn Ser 725 730 735 Ala Glu Leu Tyr Ala Lys Lys Ile Ser Glu Leu Asp Tyr Lys Asn Lys 740 745 750 Arg Lys Phe Phe Glu Pro Phe Ser Gly Phe Arg Gln Lys Val Leu Asp 755 760 765 Lys Ile Asp Glu Ile Phe Val Ser Lys Pro Glu Arg Lys Lys Pro Ser 770 775 780 Gly Ala Leu His Glu Glu Thr Phe Arg Lys Glu Glu Glu Phe Tyr Gln 785 790 795 800 Ser Tyr Gly Gly Lys Glu Gly Val Leu Lys Ala Leu Glu Leu Gly Lys 805 810 815 Ile Arg Lys Val Asn Gly Lys Ile Val Lys Asn Gly Asp Met Phe Arg 820 825 830 Val Asp Ile Phe Lys His Lys Lys Thr Asn Lys Phe Tyr Ala Val Pro 835 840 845 Ile Tyr Thr Met Asp Phe Ala Leu Lys Val Leu Pro Asn Lys Ala Val 850 855 860 Ala Arg Ser Lys Lys Gly Glu Ile Lys Asp Trp Ile Leu Met Asp Glu 865 870 875 880 Asn Tyr Glu Phe Cys Phe Ser Leu Tyr Lys Asp Ser Leu Ile Leu Ile 885 890 895 Gln Thr Lys Asp Met Gln Glu Pro Glu Phe Val Tyr Tyr Asn Ala Phe 900 905 910 Thr Ser Ser Thr Val Ser Leu Ile Val Ser Lys His Asp Asn Lys Phe 915 920 925 Glu Thr Leu Ser Lys Asn Gln Lys Ile Leu Phe Lys Asn Ala Asn Glu 930 935 940 Lys Glu Val Ile Ala Lys Ser Ile Gly Ile Gln Asn Leu Lys Val Phe 945 950 955 960 Glu Lys Tyr Ile Val Ser Ala Leu Gly Glu Val Thr Lys Ala Glu Phe 965 970 975 Arg Gln Arg Glu Asp Phe Lys Lys 980 <210> 80 <211> 91 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 80 tataatctca taagaaattt aaaaagggac taaaataaag agtttgcggg actctgcggg 60 gttacaatcc cctaaaaccg cttttaaaat t 91 <210> 81 <211> 36 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 81 attttaccat aaagaaattt aaaaagggac taaaac 36 <210> 82 <211> 95 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, u, g, unknown or other <400> 82 nnnnnnnnnn nnnnnnnnnn guuuuagucc cgaaagggac uaaaauaaag aguuugcggg 60 acucugcggg guuacaaucc ccuaaaaccg cuuuu 95 <210> 83 <211> 69 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 83 gucaccucca augacuaggg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60 cguuuuuuu 69 <210> 84 <211> 69 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 84 gacaucgaug uccuccccau guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60 cguuuuuuu 69 <210> 85 <211> 69 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 85 gaguccgagc agaagaagaa guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60 cguuuuuuu 69 <210> 86 <211> 69 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 86 ggggccgaga uuggguguuc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60 cguuuuuuu 69 <210> 87 <211> 69 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 87 guggcgagag gggccgagau guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60 cguuuuuuu 69 <210> 88 <211> 76 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 88 gucaccucca augacuaggg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60 cguuaucauu uuuuuu 76 <210> 89 <211> 76 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 89 gacaucgaug uccuccccau guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60 cguuaucauu uuuuuu 76 <210> 90 <211> 76 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 90 gaguccgagc agaagaagaa guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60 cguuaucauu uuuuuu 76 <210> 91 <211> 76 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 91 ggggccgaga uuggguguuc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60 cguuaucauu uuuuuu 76 <210> 92 <211> 76 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 92 guggcgagag gggccgagau guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60 cguuaucauu uuuuuu 76 <210> 93 <211> 88 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 93 gucaccucca augacuaggg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60 cguuaucaac uugaaaaagu guuuuuuu 88 <210> 94 <211> 88 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 94 gacaucgaug uccuccccau guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60 cguuaucaac uugaaaaagu guuuuuuu 88 <210> 95 <211> 88 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 95 gaguccgagc agaagaagaa guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60 cguuaucaac uugaaaaagu guuuuuuu 88 <210> 96 <211> 88 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 96 ggggccgaga uuggguguuc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60 cguuaucaac uugaaaaagu guuuuuuu 88 <210> 97 <211> 88 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 97 guggcgagag gggccgagau guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60 cguuaucaac uugaaaaagu guuuuuuu 88 <210> 98 <211> 103 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 98 gucaccucca augacuaggg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60 cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu uuu 103 <210> 99 <211> 103 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 99 gacaucgaug uccuccccau guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60 cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu uuu 103 <210> 100 <211> 103 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 100 gaguccgagc agaagaagaa guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60 cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu uuu 103 <210> 101 <211> 103 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 101 ggggccgaga uuggguguuc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60 cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu uuu 103 <210> 102 <211> 103 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 102 guggcgagag gggccgagau guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60 cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu uuu 103 <210> 103 <211> 102 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 103 gttttagagc tatgctgttt tgaatggtcc caaaacggaa gggcctgagt ccgagcagaa 60 gaagaagttt tagagctatg ctgttttgaa tggtcccaaa ac 102 <210> 104 <211> 100 <212> DNA <213> Homo sapiens <400> 104 cggaggacaa agtacaaacg gcagaagctg gaggaggaag ggcctgagtc cgagcagaag 60 aagaagggct cccatcacat caaccggtgg cgcattgcca 100 <210> 105 <211> 50 <212> DNA <213> Homo sapiens <400> 105 agctggagga ggaagggcct gagtccgagc agaagaagaa gggctcccac 50 <210> 106 <211> 30 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 106 gaguccgagc agaagaagaa guuuuagagc 30 <210> 107 <211> 49 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 107 agctggagga ggaagggcct gagtccgagc agaagagaag ggctcccat 49 <210> 108 <211> 53 <212> DNA <213> Homo sapiens <400> 108 ctggaggagg aagggcctga gtccgagcag aagaagaagg gctcccatca cat 53 <210> 109 <211> 52 <212> DNA <213> Homo sapiens <400> 109 ctggaggagg aagggcctga gtccgagcag aagagaaggg ctcccatcac at 52 <210> 110 <211> 54 <212> DNA <213> Homo sapiens <400> 110 ctggaggagg aagggcctga gtccgagcag aagaaagaag ggctcccatc acat 54 <210> 111 <211> 50 <212> DNA <213> Homo sapiens <400> 111 ctggaggagg aagggcctga gtccgagcag aagaagggct cccatcacat 50 <210> 112 <211> 47 <212> DNA <213> Homo sapiens <400> 112 ctggaggagg aagggcctga gcccgagcag aagggctccc atcacat 47 <210> 113 <211> 66 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <220> <221> source <223> /note="Description of Combined DNA/RNA Molecule: Synthetic oligonucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 113 nnnnnnnnnn nnnnnnnnnn guuuuagagc uagaaauagc aaguuaaaau aaggctagtc 60 cguuuu 66 <210> 114 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 114 gaguccgagc agaagaagaa 20 <210> 115 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 115 gacaucgaug uccuccccau 20 <210> 116 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 116 gucaccucca augacuaggg 20 <210> 117 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 117 auuggguguu cagggcagag 20 <210> 118 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 118 guggcgagag gggccgagau 20 <210> 119 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 119 ggggccgaga uuggguguuc 20 <210> 120 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 120 gugccauuag cuaaaugcau 20 <210> 121 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 121 guaccaccca caggugccag 20 <210> 122 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 122 gaaagccucu gggccaggaa 20 <210> 123 <211> 48 <212> DNA <213> Homo sapiens <400> 123 ctggaggagg aagggcctga gtccgagcag aagaagaagg gctcccat 48 <210> 124 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 124 gaguccgagc agaagaagau 20 <210> 125 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 125 gaguccgagc agaagaagua 20 <210> 126 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 126 gaguccgagc agaagaacaa 20 <210> 127 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 127 gaguccgagc agaagaugaa 20 <210> 128 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 128 gaguccgagc agaaguagaa 20 <210> 129 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 129 gaguccgagc agaugaagaa 20 <210> 130 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 130 gaguccgagc acaagaagaa 20 <210> 131 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 131 gaguccgagg agaagaagaa 20 <210> 132 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 132 gaguccgugc agaagaagaa 20 <210> 133 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 133 gagucggagc agaagaagaa 20 <210> 134 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 134 gagaccgagc agaagaagaa 20 <210> 135 <211> 24 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 135 aatgacaagc ttgctagcgg tggg 24 <210> 136 <211> 39 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 136 aaaacggaag ggcctgagtc cgagcagaag aagaagttt 39 <210> 137 <211> 39 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 137 aaacaggggc cgagattggg tgttcagggc agaggtttt 39 <210> 138 <211> 38 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 138 aaaacggaag ggcctgagtc cgagcagaag aagaagtt 38 <210> 139 <211> 40 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 139 aacggaggga ggggcacaga tgagaaactc agggttttag 40 <210> 140 <211> 38 <212> DNA <213> Homo sapiens <400> 140 agcccttctt cttctgctcg gactcaggcc cttcctcc 38 <210> 141 <211> 40 <212> DNA <213> Homo sapiens <400> 141 cagggaggga ggggcacaga tgagaaactc aggaggcccc 40 <210> 142 <211> 80 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 142 ggcaatgcgc caccggttga tgtgatggga gcccttctag gaggccccca gagcagccac 60 tggggcctca acactcaggc 80 <210> 143 <211> 98 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 143 ggacgaaaca ccggaaccat tcaaaacagc atagcaagtt aaaataaggc tagtccgtta 60 tcaacttgaa aaagtggcac cgagtcggtg cttttttt 98 <210> 144 <211> 186 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 144 ggacgaaaca ccggtagtat taagtattgt tttatggctg ataaatttct ttgaatttct 60 ccttgattat ttgttataaa agttataaaa taatcttgtt ggaaccattc aaaacagcat 120 agcaagttaa aataaggcta gtccgttatc aacttgaaaa agtggcaccg agtcggtgct 180 tttttt 186 <210> 145 <211> 46 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <220> <221> modified_base <222> (1)..(19) <223> a, c, u, g, unknown or other <400> 145 nnnnnnnnnn nnnnnnnnng uuauuguacu cucaagauuu auuuuu 46 <210> 146 <211> 91 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 146 guuacuuaaa ucuugcagaa gcuacaaaga uaaggcuuca ugccgaaauc aacacccugu 60 cauuuuaugg caggguguuu ucguuauuua a 91 <210> 147 <211> 70 <212> DNA <213> Homo sapiens <400> 147 ttttctagtg ctgagtttct gtgactcctc tacattctac ttctctgtgt ttctgtatac 60 tacctcctcc 70 <210> 148 <211> 122 <212> DNA <213> Homo sapiens <400> 148 ggaggaaggg cctgagtccg agcagaagaa gaagggctcc catcacatca accggtggcg 60 cattgccacg aagcaggcca atggggagga catcgatgtc acctccaatg actagggtgg 120 gc 122 <210> 149 <211> 48 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <220> <221> modified_base <222> (3)..(32) <223> a, c, u, g, unknown or other <400> 149 acnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnguuuuaga gcuaugcu 48 <210> 150 <211> 67 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <220> <221> source <223> /note="Description of Combined DNA/RNA Molecule: Synthetic oligonucleotide" <400> 150 agcauagcaa guuaaaauaa ggctaguccg uuaucaacuu gaaaaagugg caccgagucg 60 gugcuuu 67 <210> 151 <211> 62 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, u, g, unknown or other <400> 151 nnnnnnnnnn nnnnnnnnnn guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60 cg 62 <210> 152 <211> 73 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 152 tgaatggtcc caaaacggaa gggcctgagt ccgagcagaa gaagaagttt tagagctatg 60 ctgttttgaa tgg 73 <210> 153 <211> 99 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, u, g, unknown or other <400> 153 nnnnnnnnnn nnnnnnnnnn guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60 cguuaucaac uugaaaaagu ggcaccgagu cggugcuuu 99 <210> 154 <211> 127 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 154 guuuuuguac ucucaagauu uaaguaacug uacaacguua cuuaaaucuu gcagaagcua 60 caaagauaag gcuucaugcc gaaaucaaca cccugucauu uuauggcagg guguuuucgu 120 uauuuaa 127 <210> 155 <211> 56 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 155 nnnnnnnnnn nnnnnnnnnn gtttttgtac tctcaagatt taagtaactg tacaac 56 <210> 156 <211> 91 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 156 gttacttaaa tcttgcagaa gctacaaaga taaggcttca tgccgaaatc aacaccctgt 60 cattttatgg cagggtgttt tcgttattta a 91 <210> 157 <211> 134 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 157 nnnnnnnnnn nnnnnnnnnn gtttttgtac tctcaagatt taaggaaact aaatcttgca 60 gaagctacaa agataaggct tcatgccgaa atcaacaccc tgtcatttta tggcagggtg 120 ttttcgttat ttaa 134 <210> 158 <211> 131 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 158 nnnnnnnnnn nnnnnnnnnn gtttttgtac tctcaagatt tagaaataaa tcttgcagaa 60 gctacaaaga taaggcttca tgccgaaatc aacaccctgt cattttatgg cagggtgttt 120 tcgttattta a 131 <210> 159 <211> 125 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 159 nnnnnnnnnn nnnnnnnnnn gtttttgtac tctcaagatg aaaatcttgc agaagctaca 60 aagataaggc ttcatgccga aatcaacacc ctgtcatttt atggcagggt gttttcgtta 120 tttaa 125 <210> 160 <211> 112 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 160 nnnnnnnnnn nnnnnnnnnn gtttttgtac tctgaaaaga agctacaaag ataaggcttc 60 atgccgaaat caacaccctg tcattttatg gcagggtgtt ttcgttattt aa 112 <210> 161 <211> 107 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 161 nnnnnnnnnn nnnnnnnnnn gtttttgtac tgaaaagcta caaagataag gcttcatgcc 60 gaaatcaaca ccctgtcatt ttatggcagg gtgttttcgt tatttaa 107 <210> 162 <211> 108 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 162 nnnnnnnnnn nnnnnnnnnn gtttttgtac tctcaagatt tagaaataaa tcttgcagaa 60 gctacaaaga taaggcttca tgccgaaatc aacaccctgt cattttat 108 <210> 163 <211> 86 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 163 nnnnnnnnnn nnnnnnnnnn gtttttgtac tctcaagatt tagaaataaa tcttgcagaa 60 gctacaaaga taaggcttca tgccga 86 <210> 164 <211> 79 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 164 nnnnnnnnnn nnnnnnnnnn gtttttgtac tctcaagatt tagaaataaa tcttgcagaa 60 gctacaaaga taaggcttc 79 <210> 165 <211> 73 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, t, g, unknown or other <400> 165 nnnnnnnnnn nnnnnnnnnn gtttttgtac tctcaagatt tagaaataaa tcttgcagaa 60 gctacaaaga taa 73 <210> 166 <211> 125 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 166 guuuuagucc cuuuuuaaau uucuuuaugg uaaaauuaua aucucauaag aaauuuaaaa 60 agggacuaaa auaaagaguu ugcgggacuc ugcgggguua caauccccua aaaccgcuuu 120 uaaaa 125 <210> 167 <211> 91 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 167 guuacuuaaa ucuugcagaa gcuacaaaga uaaggcuuca ugccgaaauc aacacccugu 60 cauuuuaugg caggguguuu ucguuauuua a 91 <210> 168 <211> 56 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 168 gggacucaac caagucauuc guuuuuguac ucucaagauu uaaguaacug uacaac 56 <210> 169 <211> 147 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 169 gggacucaac caagucauuc guuuuuguac ucucaagauu uaaguaacug uacaacguua 60 cuuaaaucuu gcagaagcua caaagauaag gcuucaugcc gaaaucaaca cccugucauu 120 uuauggcagg guguuuucgu uauuuaa 147 <210> 170 <211> 70 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 170 cuugcagaag cuacaaagau aaggcuucau gccgaaauca acacccuguc auuuuauggc 60 aggguguuuu 70 <210> 171 <211> 42 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 171 gggacucaac caagucauuc guuuuuguac ucucaagauu ua 42 <210> 172 <211> 112 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 172 gggacucaac caagucauuc guuuuuguac ucucaagauu uacuugcaga agcuacaaag 60 auaaggcuuc augccgaaau caacacccug ucauuuuaug gcaggguguu uu 112 <210> 173 <211> 116 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 173 gggacucaac caagucauuc guuuuuguac ucucaagauu uagaaacuug cagaagcuac 60 aaagauaagg cuucaugccg aaaucaacac ccugucauuu uauggcaggg uguuuu 116 <210> 174 <211> 116 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 174 gggacucaac caagucauuc guuuuuguac ucucaagauu uagaaacuug cagaagcuac 60 aaagauaagg cuucaugccg aaaucaacac ccugucauuu uauggcaggg uguuuu 116 <210> 175 <211> 102 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 175 gggacucaac caagucauuc guuuuuguag aaauacaaag auaaggcuuc augccgaaau 60 caacacccug ucauuuuaug gcaggguguu uucguuauuu aa 102 <210> 176 <211> 102 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 176 gggacucaac caagucauuc guuuuuguag aaauacaaag auaaggcuuc augccgaaau 60 caacacccug ucauuuuaug gcaggguguu uucguuauuu aa 102 <210> 177 <211> 57 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 177 gggacucaac caagucauuc guuuuuguag aaauacaaag auaaggcuuc augccga 57 <210> 178 <211> 57 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 178 gggacucaac caagucauuc guuuuuguag aaauacaaag auaaggcuuc augccga 57 <210> 179 <211> 23 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 179 gtggtgtcac gctcgtcgtt tgg 23 <210> 180 <211> 23 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 180 tccagtctat taattgttgc cgg 23 <210> 181 <211> 64 <212> DNA <213> Homo sapiens <400> 181 caagaggctt gagtaggaga ggagtgccgc cgaggcgggg cggggcgggg cgtggagctg 60 ggct 64 <210> 182 <211> 99 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, u, g, unknown or other <400> 182 nnnnnnnnnn nnnnnnnnnn guauuagagc uagaaauagc aaguuaauau aaggcuaguc 60 cguuaucaac uugaaaaagu ggcaccgagu cggugcuuu 99 <210> 183 <211> 119 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, u, g, unknown or other <400> 183 nnnnnnnnnn nnnnnnnnnn guuuuagagc uaugcuguuu uggaaacaaa acagcauagc 60 aaguuaaaau aaggcuaguc cguuaucaac uugaaaaagu ggcaccgagu cggugcuuu 119 <210> 184 <211> 119 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, u, g, unknown or other <400> 184 nnnnnnnnnn nnnnnnnnnn guauuagagc uaugcuguau uggaaacaau acagcauagc 60 aaguuaauau aaggcuaguc cguuaucaac uugaaaaagu ggcaccgagu cggugcuuu 119 <210> 185 <211> 12 <212> DNA <213> Homo sapiens <400> 185 tagcgggtaa gc 12 <210> 186 <211> 12 <212> DNA <213> Homo sapiens <400> 186 tcggtgacat gt 12 <210> 187 <211> 12 <212> DNA <213> Homo sapiens <400> 187 actccccgta gg 12 <210> 188 <211> 12 <212> DNA <213> Homo sapiens <400> 188 actgcgtgtt aa 12 <210> 189 <211> 12 <212> DNA <213> Homo sapiens <400> 189 acgtcgcctg at 12 <210> 190 <211> 12 <212> DNA <213> Homo sapiens <400> 190 taggtcgacc ag 12 <210> 191 <211> 12 <212> DNA <213> Homo sapiens <400> 191 ggcgttaatg at 12 <210> 192 <211> 12 <212> DNA <213> Homo sapiens <400> 192 tgtcgcatgt ta 12 <210> 193 <211> 12 <212> DNA <213> Homo sapiens <400> 193 atggaaacgc at 12 <210> 194 <211> 12 <212> DNA <213> Homo sapiens <400> 194 gccgaattcc tc 12 <210> 195 <211> 12 <212> DNA <213> Homo sapiens <400> 195 gcatggtacg ga 12 <210> 196 <211> 12 <212> DNA <213> Homo sapiens <400> 196 cggtactctt ac 12 <210> 197 <211> 12 <212> DNA <213> Homo sapiens <400> 197 gcctgtgccg ta 12 <210> 198 <211> 12 <212> DNA <213> Homo sapiens <400> 198 tacggtaagt cg 12 <210> 199 <211> 12 <212> DNA <213> Homo sapiens <400> 199 cacgaaatta cc 12 <210> 200 <211> 12 <212> DNA <213> Homo sapiens <400> 200 aaccaagata cg 12 <210> 201 <211> 12 <212> DNA <213> Homo sapiens <400> 201 gagtcgatac gc 12 <210> 202 <211> 12 <212> DNA <213> Homo sapiens <400> 202 gtctcacgat cg 12 <210> 203 <211> 12 <212> DNA <213> Homo sapiens <400> 203 tcgtcgggtg ca 12 <210> 204 <211> 12 <212> DNA <213> Homo sapiens <400> 204 actccgtagt ga 12 <210> 205 <211> 12 <212> DNA <213> Homo sapiens <400> 205 caggacgtcc gt 12 <210> 206 <211> 12 <212> DNA <213> Homo sapiens <400> 206 tcgtatccct ac 12 <210> 207 <211> 12 <212> DNA <213> Homo sapiens <400> 207 tttcaaggcc gg 12 <210> 208 <211> 12 <212> DNA <213> Homo sapiens <400> 208 cgccggtgga at 12 <210> 209 <211> 12 <212> DNA <213> Homo sapiens <400> 209 gaacccgtcc ta 12 <210> 210 <211> 12 <212> DNA <213> Homo sapiens <400> 210 gattcatcag cg 12 <210> 211 <211> 12 <212> DNA <213> Homo sapiens <400> 211 acaccggtct tc 12 <210> 212 <211> 12 <212> DNA <213> Homo sapiens <400> 212 atcgtgccct aa 12 <210> 213 <211> 12 <212> DNA <213> Homo sapiens <400> 213 gcgtcaatgt tc 12 <210> 214 <211> 12 <212> DNA <213> Homo sapiens <400> 214 ctccgtatct cg 12 <210> 215 <211> 12 <212> DNA <213> Homo sapiens <400> 215 ccgattcctt cg 12 <210> 216 <211> 12 <212> DNA <213> Homo sapiens <400> 216 tgcgcctcca gt 12 <210> 217 <211> 12 <212> DNA <213> Homo sapiens <400> 217 taacgtcgga gc 12 <210> 218 <211> 12 <212> DNA <213> Homo sapiens <400> 218 aaggtcgccc at 12 <210> 219 <211> 12 <212> DNA <213> Homo sapiens <400> 219 gtcggggact at 12 <210> 220 <211> 12 <212> DNA <213> Homo sapiens <400> 220 ttcgagcgat tt 12 <210> 221 <211> 12 <212> DNA <213> Homo sapiens <400> 221 tgagtcgtcg ag 12 <210> 222 <211> 12 <212> DNA <213> Homo sapiens <400> 222 tttacgcaga gg 12 <210> 223 <211> 12 <212> DNA <213> Homo sapiens <400> 223 aggaagtatc gc 12 <210> 224 <211> 12 <212> DNA <213> Homo sapiens <400> 224 actcgatacc at 12 <210> 225 <211> 12 <212> DNA <213> Homo sapiens <400> 225 cgctacatag ca 12 <210> 226 <211> 12 <212> DNA <213> Homo sapiens <400> 226 ttcataaccg gc 12 <210> 227 <211> 12 <212> DNA <213> Homo sapiens <400> 227 ccaaacggtt aa 12 <210> 228 <211> 12 <212> DNA <213> Homo sapiens <400> 228 cgattccttc gt 12 <210> 229 <211> 12 <212> DNA <213> Homo sapiens <400> 229 cgtcatgaat aa 12 <210> 230 <211> 12 <212> DNA <213> Homo sapiens <400> 230 agtggcgatg ac 12 <210> 231 <211> 12 <212> DNA <213> Homo sapiens <400> 231 cccctacggc ac 12 <210> 232 <211> 12 <212> DNA <213> Homo sapiens <400> 232 gccaacccgc ac 12 <210> 233 <211> 12 <212> DNA <213> Homo sapiens <400> 233 tgggacaccg gt 12 <210> 234 <211> 12 <212> DNA <213> Homo sapiens <400> 234 ttgactgcgg cg 12 <210> 235 <211> 12 <212> DNA <213> Homo sapiens <400> 235 actatgcgta gg 12 <210> 236 <211> 12 <212> DNA <213> Homo sapiens <400> 236 tcacccaaag cg 12 <210> 237 <211> 12 <212> DNA <213> Homo sapiens <400> 237 gcaggacgtc cg 12 <210> 238 <211> 12 <212> DNA <213> Homo sapiens <400> 238 acaccgaaaa cg 12 <210> 239 <211> 12 <212> DNA <213> Homo sapiens <400> 239 cggtgtattg ag 12 <210> 240 <211> 12 <212> DNA <213> Homo sapiens <400> 240 cacgaggtat gc 12 <210> 241 <211> 12 <212> DNA <213> Homo sapiens <400> 241 taaagcgacc cg 12 <210> 242 <211> 12 <212> DNA <213> Homo sapiens <400> 242 cttagtcggc ca 12 <210> 243 <211> 12 <212> DNA <213> Homo sapiens <400> 243 cgaaaacgtg gc 12 <210> 244 <211> 12 <212> DNA <213> Homo sapiens <400> 244 cgtgccctga ac 12 <210> 245 <211> 12 <212> DNA <213> Homo sapiens <400> 245 tttaccatcg aa 12 <210> 246 <211> 12 <212> DNA <213> Homo sapiens <400> 246 cgtagccatg tt 12 <210> 247 <211> 12 <212> DNA <213> Homo sapiens <400> 247 cccaaacggt ta 12 <210> 248 <211> 12 <212> DNA <213> Homo sapiens <400> 248 gcgttatcag aa 12 <210> 249 <211> 12 <212> DNA <213> Homo sapiens <400> 249 tcgatggtaa ac 12 <210> 250 <211> 12 <212> DNA <213> Homo sapiens <400> 250 cgactttttg ca 12 <210> 251 <211> 12 <212> DNA <213> Homo sapiens <400> 251 tcgacgactc ac 12 <210> 252 <211> 12 <212> DNA <213> Homo sapiens <400> 252 acgcgtcaga ta 12 <210> 253 <211> 12 <212> DNA <213> Homo sapiens <400> 253 cgtacggcac ag 12 <210> 254 <211> 12 <212> DNA <213> Homo sapiens <400> 254 ctatgccgtg ca 12 <210> 255 <211> 12 <212> DNA <213> Homo sapiens <400> 255 cgcgtcagat at 12 <210> 256 <211> 12 <212> DNA <213> Homo sapiens <400> 256 aagatcggta gc 12 <210> 257 <211> 12 <212> DNA <213> Homo sapiens <400> 257 cttcgcaagg ag 12 <210> 258 <211> 12 <212> DNA <213> Homo sapiens <400> 258 gtcgtggact ac 12 <210> 259 <211> 12 <212> DNA <213> Homo sapiens <400> 259 ggtcgtcatc aa 12 <210> 260 <211> 12 <212> DNA <213> Homo sapiens <400> 260 gttaacagcg tg 12 <210> 261 <211> 12 <212> DNA <213> Homo sapiens <400> 261 tagctaaccg tt 12 <210> 262 <211> 12 <212> DNA <213> Homo sapiens <400> 262 agtaaaggcg ct 12 <210> 263 <211> 12 <212> DNA <213> Homo sapiens <400> 263 ggtaatttcg tg 12 <210> 264 <211> 147 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <220> <221> modified_base <222> (1)..(20) <223> a, c, u, g, unknown or other <400> 264 nnnnnnnnnn nnnnnnnnnn guuuuaguac ucuguaauuu uagguaugag guagacgaaa 60 auuguacuua uaccuaaaau uacagaaucu acuaaaacaa ggcaaaaugc cguguuuauc 120 ucgucaacuu guuggcgaga uuuuuuu 147

Claims

A) CRISPR-Cas 시스템 키메라 RNA(chiRNA) 폴리뉴클레오티드 서열로서, 상기 폴리뉴클레오티드 서열이
(a) 진핵 세포 내의 표적 서열에 혼성화할 수 있는 가이드 서열,
(b) tracr 메이트(mate) 서열, 및
(c) tracr 서열을 포함하고,
(a), (b) 및 (c)가 5'에서 3' 배향으로 배열되며,
전사되는 경우, 상기 tracr 메이트 서열이 상기 tracr 서열에 혼성화되고, 상기 가이드 서열이 상기 표적 서열로의 CRISPR 복합체의 서열-특이적 결합을 유도하며,
상기 CRISPR 복합체가 (1) 상기 표적 서열에 혼성화되는 가이드 서열, 및 (2) 상기 tracr 서열에 혼성화되는 tracr 메이트 서열과 복합체화되는 CRISPR 효소를 포함하는 CRISPR-Cas 시스템 키메라 RNA(chiRNA) 폴리뉴클레오티드 서열,
또는
B) CRISPR 효소 시스템으로서, 상기 시스템이
I. CRISPR-Cas 시스템 키메라 RNA(chiRNA) 폴리뉴클레오티드 서열에 작동가능하게 연결된 제1 조절 요소로서, 상기 폴리뉴클레오티드 서열이
(a) 진핵 세포 내의 하나 이상의 표적 서열에 혼성화할 수 있는 하나 이상의 가이드 서열,
(b) tracr 메이트 서열, 및
(c) 하나 이상의 tracr 서열을 포함하는 제1 조절 요소, 및
II. 적어도 하나 이상의 핵 국소화 서열을 포함하는 CRISPR 효소를 인코딩하는 효소-코딩 서열에 작동가능하게 연결된 제2 조절 요소를 포함하는 하나 이상의 벡터를 포함하는 벡터 시스템에 의해 인코딩되고,
(a), (b) 및 (c)가 5'에서 3' 배향으로 배열되며,
성분 I 및 II가 상기 시스템의 동일한 또는 상이한 벡터에 배치되고,
전사되는 경우, 상기 tracr 메이트 서열이 상기 tracr 서열에 혼성화되며, 상기 가이드 서열이 상기 표적 서열로의 CRISPR 복합체의 서열-특이적 결합을 유도하고,
상기 CRISPR 복합체가 (1) 상기 표적 서열에 혼성화되는 가이드 서열, 및 (2) 상기 tracr 서열에 혼성화되는 tracr 메이트 서열과 복합체화되는 CRISPR 효소를 포함하는 CRISPR 효소 시스템,
또는
C) 다중화 CRISPR 효소 시스템으로서, 상기 시스템이
I. CRISPR-Cas 시스템 키메라 RNA(chiRNA) 폴리뉴클레오티드 서열에 작동가능하게 연결된 제1 조절 요소로서, 상기 폴리뉴클레오티드 서열이
(a) 진핵 세포 내의 하나 이상의 표적 서열에 혼성화할 수 있는 하나 이상의 가이드 서열,
(b) tracr 메이트 서열, 및
(c) 하나 이상의 tracr 서열을 포함하는 제1 조절 요소, 및
II. 적어도 하나 이상의 핵 국소화 서열을 포함하는 CRISPR 효소를 인코딩하는 효소-코딩 서열에 작동가능하게 연결된 제2 조절 요소를 포함하는 하나 이상의 벡터를 포함하는 벡터 시스템에 의해 암호화되고,
(a), (b) 및 (c)가 5'에서 3' 배향으로 배열되며,
성분 I 및 II가 상기 시스템의 동일한 또는 상이한 벡터에 배치되고,
전사되는 경우, 상기 tracr 메이트 서열이 상기 tracr 서열에 혼성화되며, 상기 가이드 서열이 상기 표적 서열로의 CRISPR 복합체의 서열-특이적 결합을 유도하고,
상기 CRISPR 복합체가 (1) 상기 표적 서열에 혼성화되는 가이드 서열, 및 (2) 상기 tracr 서열에 혼성화되는 tracr 메이트 서열과 복합체화되는 CRISPR 효소를 포함하며,
상기 다중화 시스템에서, 다중의 chiRNA 폴리뉴클레오티드 서열이 사용되는 다중화 CRISPR 효소 시스템,
또는
D) 다중화 CRISPR 효소 시스템으로서, 상기 시스템이
I. (a) 세포 내의 표적 서열에 혼성화할 수 있는 하나 이상의 가이드 서열, 및
(b) 적어도 하나 이상의 tracr 메이트 서열에 작동가능하게 연결된 제1 조절 요소,
II. CRISPR 효소를 인코딩하는 효소-코딩 서열에 작동가능하게 연결된 제2 조절 요소, 및
III. tracr 서열에 작동가능하게 연결된 제3 조절 요소를 포함하는 하나 이상의 벡터를 포함하는 벡터 시스템에 의해 인코딩되고,
성분 I, II 및 III이 시스템의 동일한 또는 상이한 벡터에 배치되며,
전사되는 경우, 상기 tracr 메이트 서열이 상기 tracr 서열에 혼성화되고, 상기 가이드 서열이 상기 표적 서열로의 CRISPR 복합체의 서열-특이적 결합을 유도하며,
상기 CRISPR 복합체가 (1) 상기 표적 서열에 혼성화되는 가이드 서열, 및 (2) 상기 tracr 서열에 혼성화되는 tracr 메이트 서열과 복합체화되는 CRISPR 효소를 포함하고,
상기 다중화 시스템에서, 다중의 가이드 서열 및 단일의 tracr 서열이 사용되는 다중화 CRISPR 효소 시스템을 포함하는 비-천연 발생 또는 조작된 조성물로서,
A)의 폴리뉴클레오티드 서열에서, 또는 B), C) 또는 D)의 시스템에서, 가이드, tracr 및 tracr 메이트 서열 중 하나 이상을 변형시켜, 안정성을 향상시킨 비-천연 발생 또는 조작된 조성물.
제1항에 있어서, 상기 변형이 조작된 2차 구조를 포함하는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 또는 제2항에 있어서, 상기 변형이 상기 tracr 메이트 서열과 상기 tracr 서열 간의 혼성화 영역의 감소를 포함하는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 변형이 인공 루프를 통해 tracr 메이트 서열과 tracr 서열을 융합시키는 것을 포함하는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 내지 제4항 중 어느 한 항에 있어서, 상기 변형이 40 내지 120 bp의 길이를 갖는 tracr 서열을 포함하는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 tracr 서열이 40 bp 내지 전장의 tracr인 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 내지 제6항 중 어느 한 항에 있어서, 상기 tracr 서열이 적어도 상응하는 야생형 tracRNA의 뉴클레오티드 1 내지 67을 포함하는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 내지 제7항 중 어느 한 항에 있어서, 상기 tracr 서열이 적어도 상응하는 야생형 tracRNA의 뉴클레오티드 1 내지 85를 포함하는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 내지 제8항 중 어느 한 항에 있어서, 상기 tracr 서열이 야생형 스트렙토코커스 피오게네스(S. pyogenes) Cas9 tracRNA의 뉴클레오티드 1 내지 67에 상응하는 뉴클레오티드를 포함하는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 내지 제9항 중 어느 한 항에 있어서, 상기 tracr 서열이 야생형 스트렙토코커스 피오게네스 Cas9 tracRNA의 뉴클레오티드 1 내지 85에 상응하는 뉴클레오티드를 포함하는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제9항에 있어서, 상기 tracr 서열이 본질적으로 야생형 스트렙토코커스 피오게네스 Cas9 tracRNA의 뉴클레오티드 1 내지 67에 상응하는 뉴클레오티드로 이루어진 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제10항에 있어서, 상기 tracr 서열이 본질적으로 야생형 스트렙토코커스 피오게네스 Cas9 tracRNA의 뉴클레오티드 1 내지 85에 상응하는 뉴클레오티드로 이루어진 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 내지 제12항 중 어느 한 항에 있어서, 상기 변형이 서열 최적화를 포함하는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제13항에 있어서, 상기 변형이 상기 tracr 및/또는 상기 tracr 메이트 서열 내의 폴리T 서열의 감소를 포함하는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제14항에 있어서, 관련 야생형 서열의 폴리-T 서열에 존재하는 하나 이상의 T가 비-T 뉴클레오티드로 치환되는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제13항, 제14항 또는 제15항에 있어서, 상기 변형된 서열이 4개 초과의 연속 T를 갖는 임의의 폴리T 서열을 포함하지 않는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 내지 제16항 중 어느 한 항에 있어서, 상기 변형이 폴리T 종결자 서열을 부가하는 것을 포함하는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제17항에 있어서, 상기 변형이 tracr 및/또는 tracr 메이트 서열 내에 폴리T 종결자 서열을 부가하는 것을 포함하는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제17항 또는 제18항에 있어서, 상기 변형이 가이드 서열에 폴리T 종결자 서열을 부가하는 것을 포함하는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 내지 제19항 중 어느 한 항에 있어서, 상기 변형이 루프 및/또는 헤어핀을 변경시키는 것을 포함하는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제20항에 있어서, 상기 변형이 상기 가이드 서열에 최소 2개의 헤어핀을 제공하는 것을 포함하는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제20항 또는 제21항에 있어서, 상기 변형이 tracr과 tracr 메이트 서열 간의 상보성에 의해 형성되는 헤어핀을 제공하는 것을 포함하는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제20항 내지 제22항 중 어느 한 항에 있어서, 상기 변형이 tracrRNA 서열의 3' 말단에 하나 이상의 추가의 헤어핀(들)을 제공하는 것을 포함하는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제20항 내지 제23항 중 어느 한 항에 있어서, 상기 변형이 상기 가이드 서열의 3'에 부가된 하나 이상의 추가의 헤어핀(들)을 제공하는 것을 포함하는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 내지 제24항 중 어느 한 항에 있어서, 상기 변형이 상기 가이드 서열의 5' 말단을 연장하는 것을 포함하는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제25항에 있어서, 상기 변형이 상기 가이드 서열의 5' 말단에 하나 이상의 헤어핀을 제공하는 것을 포함하는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제25항 또는 제26항에 있어서, 상기 변형이 상기 가이드 서열의 5' 말단에 서열(5'-AGGACGAAGTCCTAA)을 부착시키는 것을 포함하는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 내지 제27항 중 어느 한 항에 있어서, 상기 변형이 가교를 제공하거나 상기 폴리뉴클레오티드 서열에 하나 이상의 변형된 뉴클레오티드를 제공하는 것을 포함하는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제28항에 있어서, 변형된 뉴클레오티드가 상기 tracr, tracr 메이트 및/또는 가이드 서열 중 임의의 것 또는 모두에, 및/또는 효소 코딩 서열에, 및/또는 벡터 서열에 제공되는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제28항 또는 제29항에 있어서, 변형된 뉴클레오티드를 제공하는 것이 적어도 하나의 비천연 발생 뉴클레오티드 또는 변형된 뉴클레오티드 또는 그의 유사체의 함유를 포함하는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제30항에 있어서, 상기 변형된 뉴클레오티드가 리보스, 포스페이트 및/또는 염기 모이어티(moiety)에서 변형되는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제30항에 있어서, 상기 변형된 뉴클레오티드가 2'-O-메틸 유사체, 2'-데옥시 유사체 또는 2'-플루오로 유사체로 이루어진 군으로부터 선택되는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제30항에 있어서, 상기 변형된 뉴클레오티드가 2-아미노퓨린, 5-브로모-우리딘, 슈도우리딘, 이노신, 7-메틸구아노신으로 이루어진 군으로부터 선택되는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 내지 제33항 중 어느 한 항에 있어서, 상기 변형이 2개의 헤어핀을 포함하는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 내지 제34항 중 어느 한 항에 있어서, 상기 변형이 3개의 헤어핀을 포함하는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 내지 제35항 중 어느 한 항에 있어서, 상기 변형이 최대 5개의 헤어핀을 포함하는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 내지 제36항 중 어느 한 항에 있어서, 상기 CRISPR 효소가 II형 CRISPR 시스템 효소인 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 내지 제37항 중 어느 한 항에 있어서, 상기 CRISPR 효소가 Cas9 효소인 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 내지 제38항 중 어느 한 항에 있어서, 상기 CRISPR 효소가 1000개 미만의 아미노산으로 이루어진 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 내지 제38항 중 어느 한 항에 있어서, 상기 CRISPR 효소가 4000개 미만의 아미노산으로 이루어진 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 내지 제40항 중 어느 한 항에 있어서, 상기 Cas9 효소가 StCas9 또는 St1Cas9인 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 내지 제41항 중 어느 한 항에 있어서, 상기 Cas9 효소가 스트렙토코커스(Streptococcus), 캄필로박터(Campylobacter), 니트라티프랙터(Nitratifractor), 스타필로코커스(Staphylococcus), 파비바쿨룸(Parvibaculum), 로세부리아(Roseburia), 네이세리아(Neisseria), 글루코나세토박터(Gluconacetobacter), 아조스피릴룸(Azospirillum), 스파에로카에타(Sphaerochaeta), 락토바실러스(Lactobacillus), 유박테리움(Eubacterium) 또는 코리네박터(Corynebacter) 속으로 이루어진 군으로부터 선택되는 유기체로부터의 Cas9 효소인 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 내지 제42항 중 어느 한 항에 있어서, 상기 CRISPR 효소가 상기 표적 서열의 위치에서 둘 모두의 가닥의 절단을 유도하는 뉴클레아제인 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 내지 제43항 중 어느 한 항에 있어서, 상기 제1 조절 요소가 중합효소 III 프로모터인 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 내지 제44항 중 어느 한 항에 있어서, 상기 제2 조절 요소가 중합효소 II 프로모터인 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 내지 제45항 중 어느 한 항에 있어서, 상기 가이드 서열이 적어도 15개의 뉴클레오티드를 포함하는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 내지 제46항 중 어느 한 항에 있어서, 상기 변형이 최적화된 tracr 서열 및/또는 최적화된 가이드 서열 RNA 및/또는 tracr 서열 및/또는 tracr 메이트 서열(들)의 동시-폴드 구조 및/또는 tracr 서열의 2차 구조의 안정화 및/또는 염기-쌍형성 영역이 감소된 tracr 서열 및/또는 tracr 서열 융합 RNA 요소를 포함하고/거나; 다중화 시스템에서, 하나의 tracer을 포함하고, 복수의 가이드를 포함하는 2개의 RNA가 존재하거나 복수의 키메라를 포함하는 하나의 RNA가 존재하는 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 내지 제47항 중 어느 한 항에 있어서, 상기 CRISPR 효소가 진핵 세포에서의 발현을 위해 코돈-최적화된 CRISPR-Cas 시스템 chiRNA 또는 CRISPR 효소 시스템.
제1항 내지 제48항 중 어느 한 항에 있어서, 상기 조성물이 CRISPR-Cas 시스템 키메라 RNA(chiRNA) 폴리뉴클레오티드 서열을 포함하는 조성물.
제49항에 있어서, 상기 조성물이 적어도 하나 이상의 핵 국소화 서열을 포함하는 CRISPR 효소를 인코딩하는 폴리뉴클레오티드 서열을 더 포함하는 조성물.
제1항 내지 제50항 중 어느 한 항의 CRISPR 효소 시스템.
제1항 내지 제51항 중 어느 한 항의 다중화 CRISPR 효소 시스템.
제49항 또는 제50항의 조성물, 제51항의 CRISPR 효소 시스템 또는 제52항의 다중화 CRISPR 효소 시스템의 전사 또는 번역 산물.