KR20230021081A - 에피게놈 편집을 위한 조성물 및 방법 - Google Patents

에피게놈 편집을 위한 조성물 및 방법 Download PDF

Info

Publication number
KR20230021081A
KR20230021081A KR1020237000254A KR20237000254A KR20230021081A KR 20230021081 A KR20230021081 A KR 20230021081A KR 1020237000254 A KR1020237000254 A KR 1020237000254A KR 20237000254 A KR20237000254 A KR 20237000254A KR 20230021081 A KR20230021081 A KR 20230021081A
Authority
KR
South Korea
Prior art keywords
seq
fusion protein
ser
amino acid
leu
Prior art date
Application number
KR1020237000254A
Other languages
English (en)
Inventor
루크 길버트
조나단 와이즈먼
제임스 누네즈
그레그 포미어
Original Assignee
더 리전츠 오브 더 유니버시티 오브 캘리포니아
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 더 리전츠 오브 더 유니버시티 오브 캘리포니아 filed Critical 더 리전츠 오브 더 유니버시티 오브 캘리포니아
Publication of KR20230021081A publication Critical patent/KR20230021081A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K19/00Hybrid peptides, i.e. peptides covalently bound to nucleic acids, or non-covalently bound protein-protein complexes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/0004Oxidoreductases (1.)
    • C12N9/0071Oxidoreductases (1.) acting on paired donors with incorporation of molecular oxygen (1.14)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y114/00Oxidoreductases acting on paired donors, with incorporation or reduction of molecular oxygen (1.14)
    • C12Y114/11Oxidoreductases acting on paired donors, with incorporation or reduction of molecular oxygen (1.14) with 2-oxoglutarate as one donor, and incorporation of one atom each of oxygen into both donors (1.14.11)
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/01Fusion polypeptide containing a localisation/targetting motif
    • C07K2319/09Fusion polypeptide containing a localisation/targetting motif containing a nuclear localisation signal
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/70Fusion polypeptide containing domain for protein-protein interaction
    • C07K2319/73Fusion polypeptide containing domain for protein-protein interaction containing coiled-coiled motif (leucine zippers)
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/80Fusion polypeptide containing a DNA binding domain, e.g. Lacl or Tet-repressor
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/85Fusion polypeptide containing an RNA binding domain
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/50Physical structure
    • C12N2310/53Physical structure partially self-complementary or closed
    • C12N2310/531Stem-loop; Hairpin

Abstract

특히, 유전자 발현의 변조를 위한 조성물 및 방법이 본원에서 제공된다.

Description

에피게놈 편집을 위한 조성물 및 방법
관련 출원의 상호 참조
본 출원은 2020년 11월 27일 출원된 미국 출원 번호 63/118,832 및 2020년 6월 5일 출원된 미국 출원 번호 63/035,431에 대한 우선권을 주장하며, 이들의 개시내용은 그 전체가 본원에 참조로 포함된다.
연방정부의 지원을 받는 연구 및 개발 하에 이루어진 발명에 대한 권리에 관한 진술
본 발명은 방위 고등 연구 계획국(The Defense Advanced Research Projects Agency)이 수여하는 DARPA-BAA-16-59 부여 하에 정부 지원으로 이루어졌다. 정부는 본 발명에 대해 특정 권리를 갖는다.
"서열 목록", 표, 또는 ASCII 파일로 제출된 컴퓨터 프로그램 목록 부록에 대한 참조
파일 048536-690001WO_SequenceListing_ST25.txt (2021년 생성, x 바이트, 기계 형식 IBM-PC, MS Windows 운영 체제)에 작성된 서열 목록이 본원에 참조로 포함된다.
배경
CRISPR-기반 기술을 사용하는 유전자 편집은 질환, 특히 유전적으로 정의된 질환의 치료에 대한 유망한 접근이지만, CRISPR-기반 유전자 편집은 DNA 절단 또는 염기 편집에 의존하고, 이는 표적외(off-target) 변형, 세포 독성, 또는 예측불가능한 DNA 복구 결과를 초래할 수 있다. 또한, 대부분의 CRISPR-기반 기술은 게놈-편집으로 제한되고 비가역적인 해로운 변화를 생성할 수 있다. 대조적으로, 후생유전학적(epigenetic) 편집을 통해 이루어진 변형은 장기적일 수 있고 가역적이고, 그에 따라 유전자 발현을 변조하기 위한 보다 안전한 접근을 제공한다. 후생유전학적 편집은 또한 DNA 후생유전학적 코드 및 히스톤 코드 둘 다를 변환하기 위한 기회를 제공하여, 상이한 양식을 사용하고 다양한 세포 및 유전적 맥락 내에 있는 편집을 가능하게 한다. 특히, 이들 및 당업계의 다른 문제에 대한 해결책이 본원에서 제공된다.
간단한 요약
하나의 양태에서는, N-말단으로부터 C-말단까지, 탈메틸화 도메인, XTEN 링커, 및 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소 또는 뉴클레아제-결핍 엔도뉴클레아제 효소를 포함하는 융합 단백질이 제공된다. 양태들에서, 융합 단백질은 전사 활성화제를 추가로 포함한다. 양태들에서, 전사 활성화제는 VP64, p65, Rta, 또는 이들 둘 이상의 조합이다. 양태들에서, 융합 단백질은 핵 국소화 서열을 추가로 포함한다. 구현예들에서, 융합 단백질은 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소를 포함한다. 구현예들에서, 융합 단백질은 뉴클레아제-결핍 DNA 엔도뉴클레아제 효소를 포함한다.
하나의 양태에서는, N-말단으로부터 C-말단까지, RNA-결합 서열, XTEN 링커, 및 전사 활성화제를 포함하는 융합 단백질이 제공된다. 양태들에서, 전사 활성화제는 VP64, p65, Rta, 또는 이들 둘 이상의 조합이다. 양태들에서, 융합 단백질은 탈메틸화 도메인, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소 또는 뉴클레아제-결핍 엔도뉴클레아제 효소, 핵 국소화 서열, 이들 둘 이상의 조합을 포함한다. 구현예들에서, 융합 단백질은 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소를 포함한다. 구현예들에서, 융합 단백질은 뉴클레아제-결핍 DNA 엔도뉴클레아제 효소를 포함한다.
하나의 양태에서는, N-말단으로부터 C-말단까지, 탈메틸화 도메인, XTEN 링커, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소 또는 뉴클레아제-결핍 엔도뉴클레아제 효소, 및 전사 활성화제를 포함하는 융합 단백질이 제공된다. 양태들에서, 전사 활성화제는 VP64, p65, Rta, 또는 이들 둘 이상의 조합이다. 양태들에서, 융합 단백질은 핵 국소화 서열을 추가로 포함한다. 구현예들에서, 융합 단백질은 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소를 포함한다. 구현예들에서, 융합 단백질은 뉴클레아제-결핍 DNA 엔도뉴클레아제 효소를 포함한다.
하나의 양태에서는, N-말단으로부터 C-말단까지, 탈메틸화 도메인, XTEN 링커, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소 또는 뉴클레아제-결핍 엔도뉴클레아제 효소, 및 핵 국소화 서열을 포함하는 융합 단백질이 제공된다. 양태들에서, 융합 단백질은 전사 활성화제를 추가로 포함한다. 양태들에서, 전사 활성화제는 VP64, p65, Rta, 또는 이들 둘 이상의 조합이다. 구현예들에서, 융합 단백질은 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소를 포함한다. 구현예들에서, 융합 단백질은 뉴클레아제-결핍 DNA 엔도뉴클레아제 효소를 포함한다.
하나의 양태에서는, (i) 그의 구현예를 포함한 본원에 기재된 융합 단백질을 인코딩하는 제1 폴리뉴클레오티드를 사일런싱(silencing)된 표적 핵산을 함유하는 세포로 전달하는 단계; 및 (ii) (a) sgRNA 또는 (b) cr:tracrRNA를 포함하는 제2 폴리뉴클레오티드를 세포로 전달하고; 이로써 세포에서 사일런싱된 표적 핵산 서열을 재활성화하는 단계를 포함하는, 세포에서의 표적 핵산 서열의 활성화 방법이 제공된다. 양태들에서, sgRNA는 적어도 하나의 MS2 스템 루프를 포함한다. 양태들에서, 제2 폴리뉴클레오티드는 전사 활성화제를 포함한다. 양태들에서, 제2 폴리뉴클레오티드는 둘 이상의 sgRNA를 포함한다. 양태들에서, 표적 핵산 서열은 CpG 섬(island)을 포함한다. 양태들에서, 표적 핵산 서열은 비-CpG 섬을 포함한다. 구현예들에서, 융합 단백질은 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소를 포함한다. 구현예들에서, 융합 단백질이 뉴클레아제-결핍 DNA 엔도뉴클레아제 효소를 포함하는 경우, 방법은 단계 (ii)를 포함하지 않는다.
하나의 양태에서는, 그의 구현예를 포함한 본원에 기재된 융합 단백질을 인코딩하는 폴리뉴클레오티드를 사일런싱된 표적 핵산을 함유하는 세포로 전달하고; 이로써 세포에서 사일런싱된 표적 핵산 서열을 재활성화하는 것을 포함하는, 세포에서의 표적 핵산 서열의 활성화 또는 사일런싱된 표적 핵산 서열의 재활성화 방법이 제공된다. 구현예들에서, 융합 단백질은 탈메틸화 도메인, XTEN 링커, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소, sgRNA, 및 전사 활성화제를 포함한다. 양태들에서, 표적 핵산 서열은 CpG 섬을 포함한다. 양태들에서, 표적 핵산 서열은 비-CpG 섬을 포함한다.
개시내용의 이들 및 다른 구현예 및 양태가 본원에 상세히 기재된다.
도 1은 DNMT1의 Cas9-매개된 녹아웃 9일 후 CRISPRoff-사일런싱된 H2B, Snrpn-GFP, 또는 CLTA를 재활성화하는 HEK293T 세포의 막대 플롯이다. 에러 바는 3개의 독립적 실험으로부터의 SD이다.
도 2는 CRISPRoff에 의해 사일런싱된 CLTA를 갖는 HEK293T 세포에서 5-aza-dC의 용량 증가 후 CLTA 재활성화의 시간 경과 측정을 제공한다. 재활성화된 CLTA를 갖는 세포 퍼센트가 나타나 있다. 이 플롯은 세포가 DNA 탈메틸화를 통해 CLTA의 발현을 재활성화할 수 있음을 보여준다.
도 3은 CRISPRoff에 의해 사일런싱된 CLTA를 갖는 HEK293T 세포에서 5-aza-dC의 용량 증가 후 CLTA 재활성화의 중간값 CLTA-GFP 형광을 제공한다.
도 4는 유전자 재활성화 실험의 개략도이다. CRISPRoff-사일런싱된 CLTA-GFP를 인코딩하는 세포를 dCas9-TET1 및 sgRNA를 인코딩하는 플라스미드로 트랜스펙션하였다.
도 5는 CRISPRon 유전자 재활성화에 대해 시험된 dCas9 (v1-v4)에 대한 4개의 TET1 융합의 개략도이다.
도 6은 CLTA를 표적화하는 sgRNA의 풀(pool)로의 도 5에 나타낸 4개의 TET 융합의 트랜스펙션 후 CLTA 재활성화의 시간 경과를 보여주는 그래프이다. CLTA 유전자는 CpG 섬을 갖는다.
도 7은 하나의 sgRNA 서열 또는 3개의 sgRNA의 풀로 공동-트랜스펙션된 도 5에서의 4개의 TET 융합을 사용한 CLTA 재활성화의 비교를 보여주는 막대 그래프이다. 에러 바는 2개의 기술 복제의 범위를 나타낸다.
도 8은 표적화 sgRNA 및 TETv4의 트랜스펙션-후 28일에 측정된 CLTA 재활성화의 대표적 FACS 플롯이다.
도 9a는 CRISPRoff 사일런싱된 CLTA (흑색 원)에 비해 높은 수준의 시토신 탈메틸화 (백색 원)를 보여주는 TET1 재활성화 후 CLTA CGI의 비술파이트-PCR 분석이다. 각각의 행은 하나의 시퀀싱 판독을 나타낸다. 자리의 퍼센트 메틸화는 수평 막대 그래프로 표시된다.
도 9b는 주석화(annotation)된 sgRNA 결합 부위 (a, b, c)를 갖는 CLTA CGI (녹색)의 개략도를 제공한다. 롤리팝 플롯 음영은, 비술파이트-PCR에 의해 측정된, 메틸화된 시토신을 갖는 각각의 CpG 디뉴클레오티드의 퍼센트를 나타낸다. 프로모터, 스플라이싱, 및 CGI 주석화는 UCSC Genome Browser로부터 얻었다.
도 10은 2개의 MS2 RNA 압타머를 인코딩하는 sgRNA에 의해 매개된 TETv4 및 전이활성화제(transactivator) 리보뉴클레오단백질 복합체의 개략도이다. 전이활성화제 도메인은 VP16 사량체 VP64, RELA 활성화 도메인 (p65), 및 바이러스 전사 활성화제 Rta의 단일부분(monopartite), 2부분(bipartite), 및 3부분(tripartite) 아키텍처를 포함한다.
도 11은 다양한 전사 활성화제에 대한 CLTA-표적화 sgRNA 및 MS2 코트 단백질 (MCP) 융합을 발현하는 벡터의 개략도이다.
도 12는 내생적으로 발현된 CLTA-GFP로의 세포로의 CLTA 및 dCas9 또는 dCas9 및 MCP-융합 전이활성화제를 표적화하는 sgRNA의 트랜스펙션-후 2일의 중간값 CLTA-GFP 형광을 나타내는 바이올린 플롯이다.
도 13은 TETv4 및 MCP-융합된 전이활성화제의 트랜스펙션-후 2일에 측정된 CLTA-GFP 재활성화된 세포의 분율에서의 배수 변화의 비교를 보여주는 막대 그래프이다. 데이터는, 2개의 기술 복제의 평균으로부터 계산된, TETv4 단독에 비해 배수 변화로서 표시된다.
도 14는 전이활성화제와 조합된 TET1이 유전자 발현을 재활성화함을 보여주는 막대 그래프를 나타낸다. 유전자 및 플라스미드 발현 수준을 트랜스펙션-후 다수의 시점에 측정하였다.
도 15a-15b는 Rta, p65-Rta 및 VP64-p65 전이활성화제의 일시적 발현이 재활성화된 세포 내의 단일 세포 유전자 발현을 현저히 증가시켰음을 보여주는 바이올린 플롯이다. 도 15b는, 트랜스펙션-후 28일에 측정된, 재활성화된 CLTA-GFP를 갖는 단일 세포의 중간값 형광의 비교를 제공한다. 데이터는 2개의 기술 복제를 대표하는 것이다. * p 값 < 0.05, ** p 값 < 0.0005, *** p 값, 1e-15, Wilcoxon 순위-합계 시험에 의한 TETv4 조건에서의 GFP 포지티브 집단에 대한 것.
도 16은 이전에 사일런싱된 유전자를 갖는 세포에서 TET1 융합 단백질의 유전자 재활성화를 보여주는 막대 그래프이다. DYNC2LI1 및 LAMP2는 정준 CpG 섬을 갖지 않는다.
도 17은, CLTA 및 단지 TETv4, 또는 다양한 MCP-융합 전이활성화제 도메인과 함께 TETv4를 표적화하는 sgRNA의, CRISPRoff-사일런싱 CLTA를 갖는 세포로의 트랜스펙션 후 CLTA-GFP 재활성화를 갖는 HEK293T 세포의 시간 경과를 제공한다. 처리되지 않은 세포는 백색 원으로 표시된다. 에러 바는 3개의 독립적 실험으로부터의 SD이다.
도 18은 CLTA 및 dCas9-VPR 또는 다양한 MCP-융합 전이활성화제 도메인과 함께 dCas9를 표적화하는 sgRNA의 트랜스펙션 후 CLTA-GFP 재활성화를 갖는 HEK293T 세포, 또는 트랜스펙션되지 않은 세포의 시간 경과를 제공한다. DNA 탈메틸화의 부재 하에 지속적인 유전자 활성화를 측정하기 위해 TETv4의 부재 하에 트랜스펙션을 수행하였다. 에러 바는 3개의 독립적 실험으로부터의 SD이다.
도 19a-19d는 융합 단백질 및 그의 유전자 재활성화를 나타낸다. 도 19d는, GCP21 (서열 번호:102), JKNp146 (서열 번호:99), 및 JKNp147 (서열 번호:101)을 포함한, 본원에 기재된 융합 단백질을 보여주는 그래프이다. 도 19b-19d는, 트랜스펙션-후 13일에 측정된, 융합 단백질의 트랜스펙션 후 CLTA 유전자, DYNC2LI1 유전자, 및 히스톤 H2B 유전자 (각각)의 유전자 재활성화를 나타낸다.
상세한 설명
정의
달리 정의되지 않는 한, 본원에서 사용되는 모든 기술적 및 과학적 용어는 본 발명이 속하는 기술분야의 통상의 기술자에 의해 통상적으로 이해되는 의미를 갖는다. 하기 참조문헌은 본 발명에서 사용되는 많은 용어의 일반적 정의를 당업자에게 제공한다: Singleton 등, Dictionary of Microbiology and Molecular Biology (2nd ed. 1994); Cambridge Dictionary of Science and Technology (Walker ed., 1988); The Glossary of Genetics, 5th Ed., R. Rieger 등 (eds.), Springer Verlag (1991); and Hale & Marham, The Harper Collins Dictionary of Biology (1991). 본원에서 사용되는 바와 같이, 하기 용어는 달리 특정되지 않는 한 그에 주어진 의미를 갖는다.
본 개시내용 및 하기 청구항에서 단수형 부정 관사 또는 정관사 (예: "a", "an", "the" 등)의 사용은, 특정 경우에 문맥으로부터 그 용어가 그 특정 경우에 구체적으로 하나 및 단지 하나를 의미하도록 의도되는 것이 명백하지 않은 한, "적어도 하나"를 의미하는 특허에서의 전형적인 접근을 따른다. 마찬가지로, 용어 "포함하는"은 개방적이며, 추가의 항목, 특징, 구성요소 등을 배제하지 않는다. 본원에서 식별된 참조문헌은 달리 지시되지 않는 한 명시적으로 그 전체가 본원에 참조로 포함된다.
용어 "포함하다(comprise, include)", 및 "갖다", 및 그의 파생어는 포괄적, 개방적 용어로서 본원에서 상호교환가능하게 사용된다. 예를 들어, "포함하는(comprising, including)", 또는 "갖는"의 사용은, 어떠한 요소가 구성되거나 갖거나 포함되든, 그것이 동사를 함유하는 절의 주어에 포함되는 유일한 요소는 아님을 의미한다.
"핵산"은 단일-, 이중- 또는 다중-가닥 형태의 뉴클레오티드 (예: 데옥시리보뉴클레오티드 또는 리보뉴클레오티드) 및 그의 중합체, 또는 그의 보체를 지칭한다. 용어 "폴리뉴클레오티드", "올리고뉴클레오티드", "올리고" 등은, 통상적 및 관습적 의미에서, 뉴클레오티드의 선형 서열을 지칭한다. 용어 "뉴클레오티드"는, 통상적 및 관습적 의미에서, 폴리뉴클레오티드의 단일 단위, 즉, 단량체를 지칭한다. 뉴클레오티드는 리보뉴클레오티드, 데옥시리보뉴클레오티드, 또는 그의 변형된 버전일 수 있다. 본원에서 고려되는 폴리뉴클레오티드의 예는 단일 및 이중 가닥 DNA, 단일 및 이중 가닥 RNA, 및 단일 및 이중 가닥 DNA 및 RNA의 혼합물을 갖는 하이브리드 분자를 포함한다. 본원에서 고려되는 핵산, 예를 들어 폴리뉴클레오티드의 예는, 임의의 유형의 RNA, 예를 들어, mRNA, siRNA, miRNA, sgRNA, 및 가이드 RNA 및 임의의 유형의 DNA, 게놈 DNA, 플라스미드 DNA, 및 미니서클 DNA, 및 임의의 이들의 단편을 포함하나, 이에 제한되지는 않는다. 양태들에서, 핵산은 메신저 RNA이다. 양태들에서, 메신저 RNA는 메신저 리보뉴클레오단백질 (RNP)이다. 폴리뉴클레오티드와 관련하여 용어 "듀플렉스"는, 통상적 및 관습적 의미에서, 이중 가닥성을 지칭한다. 핵산은 선형이거나 분지화될 수 있다. 예를 들어, 핵산은 뉴클레오티드의 선형 사슬일 수 있거나, 또는 핵산은, 예를 들어, 핵산이 뉴클레오티드의 하나 이상의 아암(arm) 또는 분지를 포함하도록, 분지화될 수 있다. 임의로, 분지화된 핵산은 반복적으로 분지화되어 고도로 질서화된 구조, 예컨대 덴드리머 등을 형성한다.
본원에서 사용될 수 있는 바와 같이, 용어 "핵산", "핵산 분자", "핵산 올리고머", "올리고뉴클레오티드", "핵산 서열", "핵산 단편" 및 "폴리뉴클레오티드"는 상호교환가능하고, 데옥시리보뉴클레오티드 또는 리보뉴클레오티드인, 다양한 길이를 가질 수 있는 함께 공유 연결된 뉴클레오티드의 중합체 형태, 또는 그의 유사체, 유도체 또는 변형을 포함하도록 의도되나, 이에 제한되지는 않는다. 상이한 폴리뉴클레오티드는 상이한 3-차원 구조를 가질 수 있고, 알려진 또는 알려지지 않은 다양한 기능을 수행할 수 있다. 폴리뉴클레오티드의 비-제한적 예는 유전자, 유전자 단편, 엑손, 인트론, 유전자간 DNA (제한 없이, 이색 DNA), 메신저 RNA (mRNA), 전이 RNA, 리보솜 RNA, 리보자임, cDNA, 재조합 폴리뉴클레오티드, 분지화된 폴리뉴클레오티드, 플라스미드, 벡터, 서열의 단리된 DNA, 서열의 단리된 RNA, sgRNA, 가이드 RNA, 핵산 프로브, 및 프라이머를 포함한다. 개시내용의 방법에서 유용한 폴리뉴클레오티드는 천연 핵산 서열 및 그의 변이체, 인공 핵산 서열, 또는 이러한 서열의 조합을 포함할 수 있다.
폴리뉴클레오티드는 전형적으로 4개 뉴클레오티드 염기의 특정 서열로 구성된다: 아데닌 (A); 시토신 (C); 구아닌 (G); 및 티민 (T) (폴리뉴클레오티드가 RNA인 경우 티민 (T)에 대하여 우라실 (U)). 따라서, 용어 "폴리뉴클레오티드 서열"은 폴리뉴클레오티드 분자의 알파벳 표시이고; 대안적으로, 용어는 폴리뉴클레오티드 분자 자체에 적용될 수 있다. 이 알파벳 표시는 중앙 처리 장치를 갖는 컴퓨터의 데이터베이스에 입력되고 기능 유전체학 및 상동성 검색과 같은 생물정보학 응용에 사용될 수 있다. 폴리뉴클레오티드는 임의로 하나 이상의 비-표준 뉴클레오티드(들), 뉴클레오티드 유사체(들) 및/또는 변형된 뉴클레오티드를 포함할 수 있다.
예를 들어, 포스포티오에이트 백본을 갖는 핵산을 포함한 핵산은 하나 이상의 반응성 모이어티를 포함할 수 있다. 본원에서 사용되는 바와 같이, 용어 반응성 모이어티는, 공유, 비-공유 또는 다른 상호작용을 통해, 또 다른 분자, 예를 들어 핵산 또는 폴리펩티드와 반응할 수 있는 임의의 기를 포함한다. 예로서, 핵산은, 공유, 비-공유 또는 다른 상호작용을 통해, 단백질 또는 폴리펩티드 상의 아미노산과 반응하는 아미노산 반응성 모이어티를 포함할 수 있다.
용어는 또한, 참조 핵산과 유사한 결합 특성을 갖고, 참조 뉴클레오티드와 유사한 방식으로 대사되는, 합성, 자연 발생, 및 비-자연 발생인, 알려진 뉴클레오티드 유사체 또는 변형된 백본 잔기 또는 연결을 함유하는 핵산을 포함한다. 이러한 유사체의 예는, 제한 없이, 예를 들어, 하기를 포함한 포스포디에스테르 유도체: 포스포르아미데이트, 포스포로디아미데이트, 포스포로티오에이트 (또한 포스페이트에서 산소를 대체하는 이중 결합 황을 갖는 포스포로티오에이트로서 공지됨), 포스포로디티오에이트, 포스포노카르복실산, 포스포노카르복실레이트, 포스포노아세트산, 포스포노포름산, 메틸 포스포네이트, 보론 포스포네이트, 또는 O-메틸포스포로아미다이트 연결 (하기 문헌 참조: Eckstein, Oligonucleotides and Analogues: A Practical Approach, Oxford University Press) 뿐만 아니라 5-메틸 시티딘 또는 슈도우리딘에서와 같은 뉴클레오티드 염기에 대한 변형; 및 펩티드 핵산 백본 및 연결을 포함한다. 다른 유사체 핵산은 양성 백본; 비-이온성 백본, 변형된 당, 및 비-리보스 백본을 갖는 것들 (예: 당업계에 공지된 바와 같은 포스포로디아미데이트 모르폴리노 올리고 또는 락킹된 핵산 (LNA))을 포함하며, 이는 하기 문헌에 기재된 것들을 포함한다: 미국 특허 번호 5,235,033 및 5,034,506, 및 Chapters 6 and 7, ASC Symposium Series 580, Carbohydrate Modifications in Antisense Research, Sanghui & Cook, eds. 하나 이상의 카르보시클릭 당을 함유하는 핵산 또한 핵산의 하나의 정의 내에 포함된다. 리보스-포스페이트 백본의 변형은, 다양한 이유로, 예를 들어, 바이오칩 상의 프로브로서 또는 생리학적 환경에서 이러한 분자의 안정성 및 반감기를 증가시키기 위해 수행될 수 있다. 자연 발생 핵산 및 유사체의 혼합물이 제조될 수 있고; 대안적으로, 상이한 핵산 유사체의 혼합물, 자연 발생 핵산 및 유사체의 혼합물이 제조될 수 있다. 양태들에서, DNA에서의 뉴클레오티드간 연결은 포스포디에스테르, 포스포디에스테르 유도체, 또는 이들 둘 다의 조합이다.
핵산은 비특이적 서열을 포함할 수 있다. 본원에서 사용되는 바와 같이, 용어 "비특이적 서열"은 임의의 다른 핵산 서열에 대해 상보적이 되도록 디자인되지 않은 또는 단지 부분적으로 상보적인 일련의 잔기를 함유하는 핵산 서열을 지칭한다. 예로서, 비특이적 핵산 서열은 세포 또는 유기체와 접촉할 때 억제 핵산으로서 기능하지 않는 핵산 잔기의 서열이다.
용어 "상보적인" 또는 "상보성"은 핵산이 전형적인 왓슨-크릭(Watson-Crick) 또는 다른 비-전형적 유형에 의해 또 다른 핵산 서열과 수소 결합(들)을 형성하는 능력을 지칭한다. 예를 들어, 서열 A-G-T는 서열 T-C-A에 대해 상보적이다. 퍼센트 상보성은 제2 핵산 서열과 수소 결합 (예: 왓슨-크릭 염기 쌍형성)을 형성할 수 있는 핵산 분자 내의 잔기의 백분율을 나타낸다 (예를 들어, 10개 중 5, 6, 7, 8, 9, 10개는 각각 50%, 60%, 70%, 80%, 90%, 및 100% 상보적임). "완벽히 상보적인"은, 핵산 서열의 모든 인접 잔기가 제2 핵산 서열 내의 동일한 수의 인접 잔기와 수소 결합할 것임을 의미한다. 본원에서 사용되는 바와 같이 "실질적으로 상보적인"은 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 30, 35, 40, 45, 50개, 또는 그 초과의 뉴클레오티드의 영역 상에서 적어도 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%. 97%, 98%, 99%, 또는 100%인 상보성의 정도를 지칭하거나, 엄격한 조건 (즉, 엄격한 하이브리드화 조건)하에 하이브리드화되는 2개의 핵산을 지칭한다.
어구 "엄격한 하이브리드화 조건"은, 프로브가, 전형적으로 핵산의 복합체 혼합물에서, 그의 표적 부분서열에 하이브리드화되지만, 다른 서열에는 하이브리드화되지 않을 조건을 지칭한다. 엄격한 조건은 서열-의존적이고, 상이한 상황에서 상이할 것이다. 보다 긴 서열은 보다 고온에서 특이적으로 하이브리드화된다. 핵산의 하이브리드화에 대한 광범위한 가이드는 하기 문헌에 나타나 있다: Tijssen, Techniques in Biochemistry and Molecular Biology--Hybridization with Nucleic Probes, "Overview of principles of hybridization and the strategy of nucleic acid assays" (1993). 일반적으로, 엄격한 조건은 정의된 이온 강도 pH에서 특정 서열에 대하여 열 융점 (Tm)보다 약 5-10℃ 낮게 되도록 선택된다. Tm은 표적에 대해 상보적인 프로브의 50%가 평형에서 표적 서열에 하이브리드화되는 온도 (정의된 이온 강도, pH, 및 핵산 농도 하에)이다 (표적 서열이 과량으로 존재함에 따라, Tm에서, 프로브의 50%는 평형에서 점유됨). 엄격한 조건은 또한 포름아미드 등의 탈안정화제의 첨가로 달성될 수 있다. 선택적 또는 특이적 하이브리드화를 위해, 포지티브 신호는 백그라운드의 적어도 2배, 바람직하게는 백그라운드 하이브리드화의 10배이다. 예시적 엄격한 하이브리드화 조건은 하기와 같을 수 있다: 50% 포름아미드, 5x SSC, 및 1% SDS, 42℃에서 인큐베이션, 또는, 5x SSC, 1% SDS, 65℃에서 인큐베이션, 이와 함께 65℃에서 0.2x SSC, 및 0.1% SDS 중에서의 세척.
엄격한 조건 하에 서로에 대해 하이브리드화하지 않는 핵산은, 이들이 인코딩하는 폴리펩티드가 실질적으로 동일하다면, 여전히 실질적으로 동일하다. 이는, 예를 들어, 유전자 코드에 의해 허용되는 최대 코돈 축퇴를 사용하여 핵산의 카피가 생성될 때 나타난다. 이러한 경우, 핵산은 전형적으로 적당히 엄격한 하이브리드화 조건 하에 하이브리드화한다. 예시적 "적당히 엄격한 하이브리드화 조건"은 37℃에서 40% 포름아미드, 1 M NaCl, 1% SDS의 완충제 중에서의 하이브리드화, 및 45℃에서 1X SSC 중에서의 세척을 포함한다. 포지티브 하이브리드화는 백그라운드의 적어도 2배이다. 당업자는, 유사한 엄격성의 조건을 제공하기 위해 대안적 하이브리드화 및 세척 조건이 활용될 수 있음을 용이하게 인식할 것이다. 많은 참조문헌, 예를 들어, 문헌 [Current Protocols in Molecular Biology, ed. Ausubel, 등, supra]에 하이브리드화 파라미터를 결정하기 위한 추가의 가이드라인이 제공되어 있다.
용어 "유전자"는 단백질 생성에 관여하는 DNA의 세그먼트를 의미하고; 이는 코딩 영역 이전 및 이후의 영역 (리더 및 트레일러) 뿐만 아니라 개개의 코딩 세그먼트 (엑손) 사이의 개재 서열 (인트론)을 포함한다. 리더, 트레일러 뿐만 아니라 인트론은 유전자의 전사 및 번역 동안 필수적인 조절 요소를 포함한다. 또한, "단백질 유전자 생성물"은 특정 유전자로부터 발현되는 단백질이다.
유전자와 관련하여 본원에서 사용되는 바와 같이 단어 "발현" 또는 "발현된"은 그 유전자의 전사 및/또는 번역 생성물을 의미한다. 세포에서의 DNA 분자의 발현 수준은 세포 내에 존재하는 상응하는 mRNA의 양 또는 세포에 의해 생성된 그 DNA에 의해 인코딩된 단백질의 양에 기초하여 결정될 수 있다. 비-코딩 핵산 분자 (예: sgRNA)의 발현 수준은 당업계에 널리 공지된 표준 PCR 또는 노던(Northern) 블롯 방법에 의해 검출될 수 있다. 하기 문헌 참조: Sambrook 등, 1989 Molecular Cloning: A Laboratory Manual, 18.1-18.88.
본원에서 제공되는 바와 같이 용어 "전사 조절 서열"은 유기체 내의 특정 유전자의 전사 (예: 발현)를 증가 또는 감소시킬 수 있는 DNA의 세그먼트를 지칭한다. 전사 조절 서열의 비-제한적 예는 프로모터, 인핸서, 및 사일렌서를 포함한다.
용어 "전사 출발 부위" 및 전사 개시 부위"는 본원에서 RNA 폴리머라제 (예: DNA-지향된 RNA 폴리머라제)가 RNA 전사체 합성을 시작하는 유전자 서열 (예: DNA 서열)의 5' 말단을 지칭하기 위해 상호교환가능하게 사용될 수 있다. 전사 출발 부위는 RNA 폴리머라제가 RNA 전사체 합성을 시작하는 전사된 DNA 서열의 제1 뉴클레오티드일 수 있다. 당업자는 일상적 실험 및 분석을 통해, 예를 들어 유출 전사 검정을 수행함으로써 또는 FANTOM5 데이터베이스에 따른 정의에 의해 전사 출발 부위를 결정할 수 있다.
본원에서 사용되는 바와 같이 용어 "프로모터"는 특정 유전자의 전사를 개시하는 DNA의 영역을 지칭한다. 프로모터는 전형적으로 유전자의 전사 출발 부위 근처, 유전자의 상류 및 DNA 상의 동일한 가닥 (즉, 센스 가닥 상의 5') 상에 위치한다. 프로모터는 길이가 약 100 내지 약 1000개의 염기 쌍일 수 있다.
본원에서 제공되는 바와 같이 "가이드 RNA" 또는 "gRNA"는 표적 서열과 하이브리드화하기 위한 표적 폴리뉴클레오티드 서열과의 충분한 상보성 및 표적 서열에 대한 CRISPR 복합체의 직접적 서열-특이적 결합을 갖는 임의의 폴리뉴클레오티드 서열을 지칭한다. 양태들에서, 가이드 서열과 그의 상응하는 표적 서열 사이의 상보성의 정도는, 적합한 정렬 알고리즘을 사용하여 최적 정렬시, 약 50%, 60%, 75%, 80%, 85%, 90%, 95%, 97.5%, 99%, 또는 그 초과이거나 이보다 크다.
구현예들에서, 폴리뉴클레오티드 (예: gRNA)는 단일-가닥 리보핵산이다. 양태들에서, 폴리뉴클레오티드 (예: gRNA)는 길이가 약 10 내지 약 200개의 핵산 잔기이다. 양태들에서, 폴리뉴클레오티드 (예: gRNA)는 길이가 약 50 내지 약 150개의 핵산 잔기이다. 양태들에서, 폴리뉴클레오티드 (예: gRNA)는 길이가 약 80 내지 약 140개의 핵산 잔기이다. 양태들에서, 폴리뉴클레오티드 (예: gRNA)는 길이가 약 90 내지 약 130개의 핵산 잔기이다. 양태들에서, 폴리뉴클레오티드 (예: gRNA)는 길이가 약 100 내지 약 120개의 핵산 잔기이다. 양태들에서, 폴리뉴클레오티드 (예: gRNA)의 길이는 길이가 약 113개의 핵산 잔기이다.
일반적으로, 가이드 서열 (즉, DNA-표적화 서열)은 표적 서열 (예: 게놈 또는 미토콘드리아 DNA 표적 서열)과 하이브리드화하기 위한 표적 폴리뉴클레오티드 서열과의 충분한 상보성 및 표적 서열에 대한 복합체 (예: CRISPR 복합체)의 직접적 서열-특이적 결합을 갖는 임의의 폴리뉴클레오티드 서열이다. 양태들에서, 가이드 서열과 그의 상응하는 표적 서열 사이의 상보성의 정도는, 적합한 정렬 알고리즘을 사용하여 최적 정렬시, 약 50%, 60%, 75%, 80%, 85%, 90%, 95%, 97.5%, 99%, 또는 그 초과이거나 이보다 크다. 양태들에서, 가이드 서열과 그의 상응하는 표적 서열 사이의 상보성의 정도는, 적합한 정렬 알고리즘을 사용하여 최적 정렬시, 적어도 약 80%, 85%, 90%, 95%, 또는 100%이다. 양태들에서, 상보성의 정도는 적어도 90%이다. 최적 정렬은 서열 정렬을 위한 임의의 적합한 알고리즘의 사용으로 결정될 수 있고, 그의 비-제한적 예는 Smith-Waterman 알고리즘, Needleman-Wunsch 알고리즘, Burrows-Wheeler 변환에 기초한 알고리즘 (예: Burrows Wheeler Aligner), ClustalW, Clustal X, BLAT, Novoalign (Novocraft Technologies, ELAND (미국 캘리포니아주 샌디에고 일루미나), SOAP (soap.genomics.org.cn에서 이용가능), 및 Maq (maq.sourceforge.net에서 이용가능)를 포함한다. 양태들에서, 가이드 서열은 길이가 약 10, 20, 30, 35, 40, 45, 50, 75개, 또는 그 초과의 뉴클레오티드이거나 이보다 크다. 양태들에서, 가이드 서열은 길이가 약 10 내지 약 150, 약 15 내지 약 100개 뉴클레오티드이다. 양태들에서, 가이드 서열은 길이가 약 75, 50, 45, 40, 35, 30, 25, 20, 15, 12개 미만의 뉴클레오티드이거나 이보다 작다. 양태들에서, 가이드 서열은 길이가 약 20개 뉴클레오티드 또는 그 초과이다. 가이드 서열이 표적 서열에 대한 복합체 (예: CRISPR 복합체)의 서열-특이적 결합을 지향시키는 능력은 임의의 적합한 검정에 의해 평가될 수 있다. 예를 들어, 시험되는 가이드 서열을 포함한, 복합체 (예: CRISPR 복합체)를 형성하기에 충분한 CRISPR 시스템의 구성요소가, CRISPR 서열의 구성요소를 인코딩하는 벡터로의 트랜스펙션 후, 표적 서열 내의 우선적 절단의 평가에 의해, 예컨대 당업계에 공지된 Surveyor 검정에 의한 것 등으로, 상응하는 표적 서열을 갖는 숙주 세포에 제공될 수 있다. 유사하게, 표적 서열, 시험되는 가이드 서열 및 시험 가이드 서열과 상이한 대조 가이드 서열을 포함한, 복합체 (예: CRISPR 복합체)의 구성요소를 제공하고, 시험 및 대조 가이드 서열 반응 사이의 표적 서열에서의 절단의 비율 또는 결합을 비교함으로써, 표적 폴리뉴클레오티드 서열의 절단을 시험관에서 평가할 수 있다. 다른 검정도 가능하고, 당업자에게 나타날 것이다.
용어 "sgRNA", "단일 가이드 RNA", 및 "단일 가이드 RNA 서열"은 상호교환가능하게 사용되고, crRNA 서열 및 임의로 tracrRNA 서열을 포함한 폴리뉴클레오티드 서열을 지칭한다. crRNA 서열은 가이드 서열 (즉, "가이드" 또는 "스페이서") 및 tracr 메이트 서열 (즉, 직접적 반복(들)")을 포함한다. 용어 "가이드 서열"은 표적 부위를 특정하는 서열을 지칭한다. 양태들에서, 2개의 RNA는 2개의 RNA 분자로서 crRNA 및 tracrRNA에 의해 별도로 인코딩될 수 있고, 이는 이어서 crRNA와 tracrRNA 사이의 상보적인 염기 쌍형성으로 인해 RNA/RNA 복합체를 형성한다 (즉, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소에 결합하는 능력을 갖지 전에). 양태들에서, 제1 핵산은 tracrRNA 서열을 포함하고, 별도의 제2 핵산은 tracrRNA 서열이 없는 gRNA 서열을 포함한다. 양태들에서, tracrRNA 서열을 포함하는 제1 핵산 및 gRNA 서열을 포함하는 제2 핵산은 서로 상호작용하고, 임의로 복합체 (예: CRISPR 복합체)에 포함된다. 예시적 sgRNA, 및 그의 표적화된 서열이 표 2, 3, 및 4에 나타나 있다.
표 2
Figure pct00001
표 3
Figure pct00002
표 4
Figure pct00003
표 2, 3, 및 4의 서열은 표적화 crRNA 서열이다. 일례로, 서열 번호:38에 대한 전체 단일 가이드 RNA (sgRNA)는 하기와 같다: GACGCUCAAAUUUCCGCAGUGUUUAAGAGCUAAGCUGGAAACAGCAUAGCAAGUUUAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU (서열 번호:114). Sp Cas9에 대한 각각의 단일 가이드의 공통 tracr 서열은 하기와 같다: GUUUAAGAGCUAAGCUGGAAACAGCAUAGCAAGUUUAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU (서열 번호:115). 당업자는, 표 2, 3, 및 4의 sgRNA 서열이 19개의 염기 쌍이고 각각의 sgRNA가 전사의 개시를 위해 pol-III 프로모터로부터 발현되는 경우 요구되는 G로 출발함을 반영하지 않음을 인지할 것이다. 따라서, 서열 번호:38에 대하여, 서열은 ACGCUCAAAUUUCCGCAGU (서열 번호:38)보다는 GACGCUCAAAUUUCCGCAGU (서열 번호:116)이다. 구현예들에서, 서열 번호:38, 40, 42, 44, 46, 48, 50, 52, 54, 56, 58, 60, 62, 64, 66, 68, 70, 72, 74, 76, 78, 80, 82, 84, 86, 88, 90, 92, 94, 및 96은 각각 제1 뉴클레오티드로서 G를 함유한다.
일반적으로, tracr 메이트 서열은 하기 중 하나 이상을 촉진하도록 tracrRNA 서열과 충분한 상보성을 갖는 임의의 서열을 포함한다: (1) 상응하는 tracr 서열을 함유하는 세포에서의 tracr 메이트 서열에 의해 플랭킹된 가이드 서열의 삭제; 및 (2) 표적 서열에서의 복합체 (예: CRISPR 복합체)의 형성, 여기서 복합체 (예: CRISPR 복합체)는 tracr 서열에 대해 하이브리드화된 tracr 메이트 서열을 포함한다. 일반적으로, 상보성의 정도는, tracr 메이트 서열 및 tracrRNA 서열의, 두 서열 중 더 짧은 것의 길이를 따르는, 최적 정렬에 대한 것이다. 최적 정렬은 임의의 적합한 알고리즘에 의해 결정될 수 있고, tracrRNA 서열 또는 tracr 메이트 서열 내의 자가-상보성과 같은, 2차 구조를 추가로 설명할 수 있다. 양태들에서, tracrRNA 서열과 tracr 메이트 서열 사이의, 둘 중 더 짧은 것의 길이를 따르는, 상보성의 정도는, 최적 정렬시, 약 25%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 95%, 97.5%, 99%, 또는 그 초과이거나 이보다 크다. 양태들에서, 상보성의 정도는 약 또는 적어도 약 80%, 90%, 95%, 또는 100%이다. 양태들에서, tracrRNA 서열은 길이가 약 5, 10, 15, 20, 30, 40, 50개, 또는 그 초과의 뉴클레오티드이거나 이보다 크다. 양태들에서, tracrRNA 서열 및 tracr 메이트 서열은, 둘 사이의 하이브리드화가 헤어핀과 같은 2차 구조를 갖는 전사체를 생성하도록, 단일 전사 내에 함유된다.
용어 "아미노산"은 자연 발생 및 합성 아미노산, 뿐만 아니라 아미노산 유사체 및 자연 발생 아미노산과 유사한 방식으로 기능하는 아미노산 모방체를 지칭한다. 자연 발생 아미노산은 유전 코드에 의해 인코딩된 것들, 뿐만 아니라 이후에 변형된 아미노산, 예를 들어, 히드록시프롤린, γ-카르복시글루타메이트, 및 O-포스포세린이다. 아미노산 유사체는 자연 발생 아미노산과 동일한 기본 화학 구조, 즉, 수소에 결합된 α 탄소, 카르복실 기, 아미노 기, 및 R 기를 갖는 화합물, 예를 들어, 호모세린, 노르류신, 메티오닌 술폭시드, 메티오닌 메틸 술포늄을 지칭한다. 이러한 유사체는 변형된 R 기 (예: 노르류신) 또는 변형된 펩티드 백본을 갖지만, 자연 발생 아미노산과 동일한 기본 화학 구조를 보유한다. 아미노산 모방체는 아미노산의 일반적 화학 구조와 상이한 구조를 갖지만 자연 발생 아미노산과 유사한 방식으로 기능하는 화학적 화합물을 지칭한다. 용어 "비-자연 발생 아미노산" 및 "비자연적 아미노산"은 자연에서 나타나지 않는 아미노산 유사체, 합성 아미노산, 및 아미노산 모방체를 지칭한다.
아미노산은 그의 통상적으로 공지된 3개 문자 기호에 의해 또는 IUPAC-IUB 생화학 명명법 위원회에 의해 권고되는 1개-문자 기호에 의해 본원에서 언급될 수 있다. 뉴클레오티드도, 마찬가지로, 그의 통상적으로 허용되는 단일-문자 코드에 의해 언급될 수 있다.
용어 "폴리펩티드", "펩티드" 및 "단백질"은 아미노산 잔기의 중합체를 지칭하기 위해 본원에서 상호교환가능하게 사용되며, 여기서 중합체는, 양태들에서, 아미노산으로 이루어지지 않은 모이어티에 컨쥬게이션될 수 있다. 용어는, 하나 이상의 아미노산 잔기가 상응하는 자연 발생 아미노산의 인공 화학 모방체인 아미노산 중합체, 뿐만 아니라 자연 발생 아미노산 중합체 및 비-자연 발생 아미노산 중합체에 적용된다. "융합 단백질"은 단일 모이어티로서 재조합 발현되는 2개 이상의 별도의 단백질 서열을 인코딩하는 키메라 단백질을 지칭한다.
"보존적으로 변형된 변이체"는 아미노산 및 핵산 서열 둘 다에 적용된다. 특정 핵산 서열에 대하여, "보존적으로 변형된 변이체"는 동일한 또는 본질적으로 동일한 아미노산 서열을 인코딩하는 핵산을 지칭한다. 유전 코드의 축퇴로 인해, 많은 핵산 서열이 임의의 주어진 단백질을 인코딩할 수 있다. 예를 들어, 코돈 GCA, GCC, GCG 및 GCU는 모두 아미노산 알라닌을 인코딩한다. 따라서, 알라닌이 코돈에 의해 특정되는 모든 위치에서, 코돈은 인코딩된 폴리펩티드를 변경시키지 않으면서 기재된 상응하는 코돈 중 임의의 것으로 변경될 수 있다. 이러한 핵산 변이는, 보존적으로 변형된 변이의 일종인 "사일런트 변이"이다. 폴리펩티드를 인코딩하는 본원에서의 모든 핵산 서열은 또한 핵산의 모든 가능한 사일런트 변이를 기재한다. 당업자는 핵산 내의 각각의 코돈 (통상적으로 메티오닌에 대한 유일한 코돈인 AUG, 및 통상적으로 트립토판에 대한 유일한 코돈인 TGG 제외)이 변형되어 기능적으로 동일한 분자를 제공할 수 있음을 인식할 것이다. 따라서, 폴리펩티드를 인코딩하는 핵산의 각각의 사일런트 변이는 각각의 기재된 서열 내에 내포된다.
아미노산 서열에 대하여, 당업자는, 인코딩된 서열에서 단일 아미노산 또는 작은 백분율의 아미노산을 변경시키거나, 부가하거나 또는 결실시키는 핵산, 펩티드, 폴리펩티드, 또는 단백질 서열에 대한 개개의 치환, 결실 또는 부가는, 변경이 아미노산의 화학적으로 유사한 아미노산으로의 치환을 제공하는 경우 "보존적으로 변형된 변이체"임을 인식할 것이다. 기능적으로 유사한 아미노산을 제공하는 보존적 치환 표는 당업계에 널리 공지되어 있다. 이러한 보존적으로 변형된 변이체는 개시내용의 다형성 변이체, 종간 상동체 및 대립유전자에 추가되며 이를 배제하지 않는다. 하기 8개 그룹 각각은 서로에 대하여 보존적 치환인 아미노산을 함유한다: (1) 알라닌 (A), 글리신 (G); (2) 아스파르트산 (D), 글루탐산 (E); (3) 아스파라긴 (N), 글루타민 (Q); (4) 아르기닌 (R), 리신 (K); (5) 이소류신 (I), 류신 (L), 메티오닌 (M), 발린 (V); (6) 페닐알라닌 (F), 티로신 (Y), 트립토판 (W); (7) 세린 (S), 트레오닌 (T); 및 (8) 시스테인 (C), 메티오닌 (M) (예를 들어, 하기 문헌 참조: Creighton, Proteins (1984)).
"서열 동일성의 백분율"은 비교 윈도우 상에서 2개의 최적 정렬된 서열을 비교함으로써 결정되며, 여기서 비교 윈도우 내의 폴리뉴클레오티드 또는 폴리펩티드 서열의 부분은 두 서열의 최적 정렬에 대하여 참조 서열 (부가 또는 결실을 포함하지 않음)에 비해 부가 또는 결실 (즉, 갭)을 포함할 수 있다. 동일한 핵산 염기 또는 아미노산 잔기가 두 서열 모두에서 나타나는 위치의 수를 결정하여 매칭된 위치의 수를 얻고, 매칭된 위치의 수를 비교 윈도우에서의 위치의 총 수로 나누고, 결과에 100을 곱하여 서열 동일성의 백분율을 얻음으로써 백분율이 계산된다.
둘 이상의 핵산 또는 폴리펩티드 서열과 관련하여, 용어 "동일한" 또는 퍼센트 "동일성"은, 하기에 기재되는 디폴트 파라미터로 BLAST 또는 BLAST 2.0 서열 비교 알고리즘을 사용하여, 또는 수동 정렬 및 가시적 검사에 의해 측정된, 동일한 또는 동일한 아미노산 잔기 또는 뉴클레오티드의 특정된 백분율 (즉, 비교 윈도우 또는 지정된 영역 상에서의 최대 대응을 위해 비교 및 정렬시, 특정된 영역 상에서 약 60% 동일성, 바람직하게는 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, 또는 그 초과의 동일성)을 갖는 둘 이상의 서열 또는 부분서열을 지칭한다 (예를 들어, NCBI 웹 사이트 ncbi.nlm.nih.gov/BLAST/ 등 참조). 이에 따라 이러한 서열은 "실질적으로 동일한" 것으로 언급된다. 이 정의는 또한, 시험 서열의 상보성을 지칭하거나 이에 적용될 수 있다. 정의는 또한 결실 및/또는 부가를 갖는 서열, 뿐만 아니라 치환을 갖는 것들을 포함한다. 하기에 기재되는 바와 같이, 바람직한 알고리즘은 갭 등을 설명할 수 있다. 바람직하게는, 동일성은 길이가 적어도 약 25개 아미노산 또는 뉴클레오티드인 영역 상에서, 또는 보다 바람직하게는 길이가 50-100개 아미노산 또는 뉴클레오티드인 영역 상에서 존재한다.
아미노산 또는 뉴클레오티드 염기 "위치"는 N-말단 (또는 5'-말단)에 대한 그의 위치에 기초하여 참조 서열 내의 각각의 아미노산 (또는 뉴클레오티드 염기)을 연속적으로 식별하는 번호로 표시된다. 최적 정렬 결정시 고려되어야 하는 결실, 삽입, 절단, 융합 등으로 인해, 일반적으로 단순히 N-말단으로부터 카운팅하여 결정된 시험 서열 내의 아미노산 잔기 번호는 참조 서열 내의 그의 상응하는 위치의 번호와 반드시 동일하지는 않을 것이다. 예를 들어, 변이체가 정렬된 참조 서열에 대하여 결실을 갖는 경우, 결실 부위에서의 참조 서열 내의 위치에 상응하는 변이체 내의 아미노산은 존재하지 않을 것이다. 정렬된 참조 서열에서 삽입이 존재하는 경우, 그 삽입은 참조 서열 내의 번호부여된 아미노산 위치에 상응하지 않을 것이다. 절단 또는 융합의 경우, 상응하는 서열 내의 임의의 아미노산에 상응하지 않는 참조 또는 정렬된 서열 내의 아미노산 스트레치가 존재할 수 있다.
주어진 아미노산 또는 폴리뉴클레오티드 서열의 번호부여와 관련하여 사용시, 용어 "~에 대하여 번호부여된" 또는 "~에 상응하는"은, 주어진 아미노산 또는 폴리뉴클레오티드 서열과 참조 서열 비교시 특정된 참조 서열의 잔기의 번호부여를 지칭한다.
본원에 기재된 특정 단백질 (예: TET1, dCas9)에 대하여, 명명된 단백질은 단백질 활성 (예를 들어, 네이티브 단백질에 비해 적어도 50%, 80%, 90%, 95%, 96%, 97%, 98%, 99% 또는 100% 활성 이내)을 유지하는 단백질의 자연 발생 형태, 또는 변이체 또는 상동체 중 임의의 것을 포함한다. 양태들에서, 변이체 또는 상동체는 자연 발생 형태에 비해 전체 서열 또는 서열의 부분 (예: 50, 100, 150 또는 200개의 연속 아미노산 부분)에 걸쳐 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 96%, 97%, 98%, 99% 또는 100% 아미노산 서열 동일성을 갖는다. 양태들에서, 단백질은 그의 NCBI 서열 참조에 의해 식별된 단백질이다. 양태들에서, 단백질은 그의 NCBI 서열 참조에 의해 식별된 단백질 또는 그의 기능적 단편 또는 상동체이다.
용어 "RNA-가이드된 DNA 엔도뉴클레아제" 등은, 통상적 및 관습적 의미에서, DNA 폴리뉴클레오티드 내의 포스포디에스테르 결합을 절단하는 효소를 지칭하며, 여기서 포스포디에스테르 결합의 인식은 별도의 RNA 서열 (예를 들어, 단일 가이드 RNA)에 의해 용이해진다.
용어 "클래스 II CRISPR 엔도뉴클레아제"는 Cas9와 유사한 엔도뉴클레아제 활성을 갖고 클래스 II CRISPR 시스템에 참여하는 엔도뉴클레아제를 지칭한다. 클래스 II CRISPR 시스템의 일례는, 4개의 유전자 Cas9, Cas1, Cas2, 및 Csn1, 뿐만 아니라 2개의 비-코딩 RNA 요소, tracrRNA 및 비-반복적 서열 (스페이서, 각각 약 30 bp)의 짧은 스트레치 사이에 배치된 반복 서열 (직접 반복)의 특징적 어레이의 클러스터를 함유하는 스트렙토콕쿠스 프요게네스(Streptococcus pyogenes) SF370으로부터의 유형 II CRISPR 자리이다. Cpf1 효소는 추정 유형 V CRISPR-Cas 시스템에 속한다. 유형 II 및 유형 V 시스템 둘 다 CRISPR-Cas 시스템의 클래스 II에 포함된다.
"핵 국소화 서열" 또는 "핵 국소화 신호" 또는 "NLS"는 단백질을 핵으로 지향시키는 펩티드이다. 양태들에서, NLS는 5개의 염기성, 양으로 대전된 아미노산을 포함한다. NLS는 펩티드 사슬 상의 어디든 위치할 수 있다. 양태들에서, NLS는 SV40으로부터 유래된 NLS이다. 양태들에서, NLS는 서열 번호:4로 기재된 서열을 포함한다. 양태들에서, NLS는 서열 번호:4로 기재된 서열이다. 양태들에서, NLS는 서열 번호:4와 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, NLS는 서열 번호:4와 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, NLS는 서열 번호:4와 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, NLS는 서열 번호:4와 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, NLS는 서열 번호:4와 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, NLS는 서열 번호:4와 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, NLS는 서열 번호:4의 아미노산 서열을 갖는다.
본원에서 사용되는 바와 같이 "세포"는 그의 게놈 DNA를 보존하거나 복제하기에 충분한 대사 또는 다른 기능을 수행하는 세포를 지칭한다. 세포는, 예를 들어, 온전한 멤브레인의 존재, 특정 염료에 의한 염색, 후손을 생산하는 능력, 또는 배우자의 경우 제2 배우자와 조합하여 생존가능 자손을 생산하는 능력을 포함한, 당업계에 널리 공지된 방법에 의해 식별될 수 있다. 세포는 원핵 및 진핵 세포를 포함할 수 있다. 원핵 세포는 박테리아를 포함하나 이에 제한되지는 않는다. 진핵 세포는 효모 세포 및 식물 및 동물, 예를 들어 포유동물, 곤충 (예: 스포도프테라(spodoptera)) 및 인간 세포로부터 유래된 세포를 포함하나 이에 제한되지는 않는다. 세포는 자연적으로 비부착성이거나 표면에 부착되지 않도록 처리 (예를 들어, 트립신 처리)된 경우에 유용할 수 있다.
본원에서 사용되는 바와 같이, 용어 "벡터"는 그것이 연결된 또 다른 핵산을 수송할 수 있는 핵산 분자를 지칭한다. 벡터의 하나의 유형은 "플라스미드"이고, 이는 추가의 DNA 세그먼트가 결찰될 수 있는 선형 또는 원형 이중 가닥 DNA 루프를 지칭한다. 벡터의 또 다른 유형은 바이러스 벡터이며, 여기서 추가의 DNA 세그먼트는 바이러스 게놈으로 결찰될 수 있다. 특정 벡터는 이들이 도입되는 숙주 세포에서 자율적 복제가 가능하다 (예를 들어, 박테리아 복제 기점을 갖는 박테리아 벡터 및 에피솜 포유동물 벡터). 다른 벡터 (예: 비-에피솜 포유동물 벡터)는 숙주 세포 내로 도입됨에 따라 숙주 세포의 게놈에 통합되고, 이로써 숙주 게놈과 함께 복제된다. 또한, 특정 벡터는 이들이 작동가능하게 연결되는 유전자의 발현을 지향할 수 있다. 이러한 벡터는 본원에서 "발현 벡터"로서 언급된다. 일반적으로, 재조합 DNA 기술에서 유용성을 갖는 발현 벡터는 종종 플라스미드의 형태이다. 본 명세서에서, "플라스미드" 및 "벡터"는, 플라스미드가 벡터의 가장 통상적으로 사용되는 형태임에 따라, 상호교환가능하게 사용될 수 있다. 그러나, 본 발명은 동등한 기능을 제공하는 이러한 다른 형태의 발현 벡터, 예컨대 바이러스 벡터 (예: 복제 결함 레트로바이러스, 아데노바이러스 및 아데노-관련 바이러스)를 포함하도록 의도된다. 추가로, 일부 바이러스 벡터는 특정 세포 유형을 특이적으로 또는 비-특이적으로 표적화할 수 있다. 복제-무능 바이러스 벡터 또는 복제-결함 바이러스 벡터는 그의 표적 세포를 감염시키고 그의 바이러스 페이로드를 전달할 수 있지만, 이어서 세포 용해 및 사멸로 이어지는 전형적인 용해 경로를 계속하지 못하는 바이러스 벡터를 지칭한다.
용어 "트랜스펙션", "형질도입", "트랜스펙션하는" 또는 "형질도입하는"은 상호교환가능하게 사용되며, 핵산 분자 및/또는 단백질이 세포로 도입되는 과정으로서 정의된다. 핵산은 비-바이러스 또는 바이러스-기반 방법을 사용하여 세포로 도입될 수 있다. 핵산 분자는 완전 단백질 또는 그의 기능적 부분을 인코딩하는 서열일 수 있다. 전형적으로, 핵산 벡터는 단백질 발현을 위해 필수적인 요소 (예: 프로모터, 전사 출발 부위 등)를 포함한다. 트랜스펙션의 비-바이러스 방법은 핵산 분자를 세포 내로 도입하기 위한 전달 시스템으로서 바이러스 DNA 또는 바이러스 입자를 사용하지 않는 임의의 적절한 방법을 포함한다. 예시적 비-바이러스 트랜스펙션 방법은 융합 단백질을 인코딩하는 핵산의 나노입자 캡슐화 (예: 지질 나노입자, 금 나노입자 등), 인산칼슘 트랜스펙션, 리포솜 트랜스펙션, 뉴클레오펙션, 소노포레이션, 열 충격을 통한 트랜스펙션, 자기감염 및 전기천공을 포함한다. 바이러스-기반 방법의 경우, 임의의 유용한 바이러스 벡터가 본원에 기재된 방법에서 사용될 수 있다. 바이러스 벡터의 예는 레트로바이러스, 아데노바이러스, 렌티바이러스 및 아데노-관련 바이러스 벡터를 포함하나, 이에 제한되지는 않는다. 양태들에서, 핵산 분자는 당업계에 널리 공지된 표준 절차에 따라 레트로바이러스 벡터를 사용하여 세포 내로 도입된다. 용어 "트랜스펙션" 또는 "형질도입"은 또한 외부 환경으로부터 세포 내로 단백질을 도입하는 것을 지칭한다. 전형적으로, 단백질의 형질도입 또는 트랜스펙션은 관심 단백질에 대한 세포 멤브레인을 교차할 수 있는 펩티드 또는 단백질의 부착에 의존한다. 예를 들어, 하기 문헌 참조: Ford 등 (2001) Gene Therapy 8:1-4 및 Prochiantz (2007) Nat. Methods 4:119-20.
본원에 제공되는 바와 같은 "펩티드 링커"는 펩티드 모이어티를 포함한 링커이다. 구현예들에서, 펩티드 링커는 N-말단 및 C-말단에서 화합물의 나머지 부분에 부착된 아미노산 서열과 같은 2가 펩티드이다 (예: 본원에서 제공되는 융합 단백질. 펩티드 링커는 절단될 수 있는 펩티드 모이어티 (2가 펩티드 모이어티)일 수 있다 (예: P2A 절단가능 폴리펩티드). 본원에서 제공되는 바와 같은 펩티드 링커는 또한 상호교환가능하게 아미노산 링커로서 언급될 수 있다. 양태들에서, 펩티드 링커는 1 내지 약 80개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 1 내지 약 70개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 1 내지 약 60개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 1 내지 약 50개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 1 내지 약 40개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 1 내지 약 30개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 1 내지 약 25개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 1 내지 약 20개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 2 내지 약 20개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 2 내지 약 19개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 2 내지 약 18개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 2 내지 약 17개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 2 내지 약 16개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 2 내지 약 15개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 2 내지 약 14개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 2 내지 약 13개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 2 내지 약 12개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 2 내지 약 11개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 2 내지 약 10개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 2 내지 약 9개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 2 내지 약 8개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 2 내지 약 7개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 2 내지 약 6개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 2 내지 약 5개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 2 내지 약 4개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 2 내지 약 3개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 3 내지 약 19개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 3 내지 약 18개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 3 내지 약 17개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 3 내지 약 16개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 3 내지 약 15개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 3 내지 약 14개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 3 내지 약 13개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 3 내지 약 12개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 3 내지 약 11개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 3 내지 약 10개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 3 내지 약 9개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 3 내지 약 8개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 3 내지 약 7개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 3 내지 약 6개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 3 내지 약 5개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 3 내지 약 4개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 10 내지 약 20개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 15 내지 약 20개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 2개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 3개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 4개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 5개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 6개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 7개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 8개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 9개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 10개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 11개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 12개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 13개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 14개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 15개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 16개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 17개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 18개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 19개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 20개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 21개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 22개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 23개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 24개의 아미노산 잔기를 포함한다. 양태들에서, 펩티드 링커는 약 25개의 아미노산 잔기를 포함한다.
본원에서 사용되는 바와 같이 용어 "XTEN", "XTEN 링커", 또는 "XTEN 폴리펩티드"는 소수성 아미노산 잔기를 갖지 않는 재조합 폴리펩티드 (예: 구조화되지 않은 재조합 펩티드)를 지칭한다. XTEN의 개발 및 사용은, 예를 들어, 하기 문헌에서 찾아볼 수 있다: Schellenberger 등, Nature Biotechnology 27, 1186-1190 (2009). 양태들에서, XTEN 링커는 서열 번호:5, 6, 또는 98로 기재된 서열을 포함한다.
"에피토프 택"은, 재조합 단백질로 유전자 조작된, 또한 상업적으로 입수가능한 검정 또는 항체에 의해 용이하게 검출되고 단백질의 고유 구조 또는 기능을 손상시키지 않는 범용 에피토프로서 기능하는, 펩티드 등의 생물학적 모이어티를 지칭한다.
"검출가능 작용제" 또는 "검출가능 모이어티"는 분광학적, 광화학적, 생화학적, 면역화학적, 화학적, 자기 공명 이미징, 또는 다른 물리적 수단 등의 적절한 수단에 의해 검출가능한 조성물이다. 예를 들어, 유용한 검출가능 작용제는 18F, 32P, 33P, 45Ti, 47Sc, 52Fe, 59Fe, 62Cu, 64Cu, 67Cu, 67Ga, 68Ga, 77As, 86Y, 90Y. 89Sr, 89Zr, 94Tc, 94Tc, 99mTc, 99Mo, 105Pd, 105Rh, 111Ag, 111In, 123I, 124I, 125I, 131I, 142Pr, 143Pr, 149Pm, 153Sm, 154-1581Gd, 161Tb, 166Dy, 166Ho, 169Er, 175Lu, 177Lu, 186Re, 188Re, 189Re, 194Ir, 198Au, 199Au, 211At, 211Pb, 212Bi, 212Pb, 213Bi, 223Ra, 225Ac, Cr, V, Mn, Fe, Co, Ni, Cu, La, Ce, Pr, Nd, Pm, Sm, Eu, Gd, Tb, Dy, Ho, Er, Tm, Yb, Lu, 32P, 형광단 (예: 형광 염료), 전자-치밀 시약, 효소 (예를 들어, ELISA에서 통상적으로 사용되는 것), 비오틴, 디곡시제닌, 상자성 분자, 상자성 나노입자, 초소형 초상자성 산화철 ("USPIO") 나노입자, USPIO 나노입자 응집물, 초상자성 산화철 ("SPIO") 나노입자, SPIO 나노입자 응집물, 단결정 산화철 나노입자, 단결정 산화철, 나노입자 조영제, 리포솜 또는 가돌리늄 킬레이트 ("Gd-킬레이트") 분자를 함유하는 다른 전달 비히클, 가돌리늄, 방사성동위원소, 방사성핵종 (예: 탄소-11, 질소-13, 산소-15, 플루오린-18, 루비듐-82), 플루오로데옥시글루코스 (예: 플루오린-18 라벨링됨), 임의의 감마선 방출 방사성핵종, 양전자-방출 방사성핵종, 방사성라벨링된 글루코스, 방사성라벨링된 물, 방사성라벨링된 암모니아, 바이오콜로이드, 마이크로버블 (예를 들어, 알부민, 갈락토스, 지질, 및/또는 중합체를 포함한 마이크로버블 쉘; 공기, 중가스(들), 퍼플루오르탄소, 질소, 옥타플루오로프로판, 퍼플렉산 지질 마이크로스피어, 퍼플루트렌 등을 포함한 마이크로버블 가스 코어 포함), 아이오딘화된 조영제 (예: 이오헥솔, 이오딕사놀, 이오베르솔, 이오파미돌, 이옥실란, 이오프로미드, 디아트리조에이트, 메트리조에이트, 이옥사글레이트), 황산바륨, 삼산화토륨, 금, 금 나노입자, 금 나노입자 응집물, 형광단, 2-광자 형광단, 또는 합텐 및 예를 들어 표적 펩티드와 특이적으로 반응성인 펩티드 또는 항체에 방사성라벨을 혼입함으로써 검출가능해질 수 있는 단백질 또는 다른 엔티티(entity)를 포함한다.
검출가능 모이어티는 1가 검출가능 작용제 또는 또 다른 조성물과 결합을 형성할 수 있는 검출가능 작용제이다. 양태들에서, 검출가능 작용제는 에피토프 택이다. 양태들에서, 에피토프 택은 HA 택이다. 양태들에서, HA 택은 서열 번호:7로 기재된 서열을 포함한다. 양태들에서, HA 택은 서열 번호:7로 기재된 서열이다. 양태들에서, HA 택은 서열 번호:7과 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, HA 택은 서열 번호:7과 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, HA 택은 서열 번호:7과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, HA 택은 서열 번호:7과 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다.
양태들에서, 검출가능 작용제는 형광 단백질이다. 양태들에서, 형광 단백질은 청색 형광 단백질 (BFP)이다. 양태들에서, BFP는 서열 번호:8로 기재된 서열을 포함한다. 양태들에서, BFP는 서열 번호:8로 기재된 서열이다. 양태들에서, BFP는 서열 번호:8과 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, BFP는 서열 번호:8과 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, BFP는 서열 번호:8과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, BFP는 서열 번호:8과 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다.
개시내용의 양태에 따른 이미징 및/또는 라벨링 작용제로서 사용될 수 있는 방사성 물질 (예: 방사성동위원소)은 18F, 32P, 33P, 45Ti, 47Sc, 52Fe, 59Fe, 62Cu, 64Cu, 67Cu, 67Ga, 68Ga, 77As, 86Y, 90Y. 89Sr, 89Zr, 94Tc, 94Tc, 99mTc, 99Mo, 105Pd, 105Rh, 111Ag, 111In, 123I, 124I, 125I, 131I, 142Pr, 143Pr, 149Pm, 153Sm, 154-1581Gd, 161Tb, 166Dy, 166Ho, 169Er, 175Lu, 177Lu, 186Re, 188Re, 189Re, 194Ir, 198Au, 199Au, 211At, 211Pb, 212Bi, 212Pb, 213Bi, 223Ra 및 225Ac를 포함하나, 이에 제한되지는 않는다. 개시내용의 양태에 따른 추가의 이미징 작용제로서 사용될 수 있는 상자성 이온은 전이 및 란타나이드 금속 (예: 21-29, 42, 43, 44, 또는 57-71의 원자 번호를 갖는 금속)의 이온을 포함하나, 이에 제한되지는 않는다. 이들 금속은 Cr, V, Mn, Fe, Co, Ni, Cu, La, Ce, Pr, Nd, Pm, Sm, Eu, Gd, Tb, Dy, Ho, Er, Tm, Yb 및 Lu의 이온을 포함한다.
"접촉"은 그의 단순한 통상적 의미에 따라 사용되고, 적어도 2개의 별개의 종이 반응하거나 상호작용하거나 물리적으로 닿기에 충분히 근접하게 되는 것을 가능하게 하는 과정을 지칭한다. 그러나, 생성된 반응 생성물은 첨가된 시약 사이의 반응으로부터 직접 또는 반응 혼합물로 생성될 수 있는 첨가된 시약 중 하나 이상으로부터 중간체로부터 생성될 수 있음을 인지하여야 한다.
용어 "접촉"은 2개의 종이 반응하거나 상호작용하거나 물리적으로 닿는 것을 가능하게 하는 것을 포함할 수 있으며, 여기서 2개의 종은, 예를 들어, 본원에서 제공되는 바와 같은 융합 단백질 및 핵산 서열 (예: 표적 DNA 서열)일 수 있다.
본원에서 정의된 바와 같이, 용어 "활성화", "활성화하다", "활성화하는", "향상시키다", "재활성화", "재활성화하다", "재활성화하는" 등은, 본원에서 제공되는 바와 같은 조성물 (예: 융합 단백질, 복합체, 핵산, 벡터)과 관련하여 사용시, 조성물 (예: 융합 단백질, 복합체, 핵산, 벡터)의 부재 하에 핵산 서열의 활성 (예: 유전자의 전사)에 비해 핵산 서열의 활성 (예: 전사)에 긍정적으로 영향을 주는 (예를 들어, 이를 증가시키는) (예를 들어, 유전자의 전사를 증가시키는) 것을 지칭한다. 따라서, 활성화 또는 재활성화는, 적어도 부분적으로 발현 (예: 전사)의 증가 또는 상향조절, 또는 핵산 서열의 발현 (예: 전사)의 감소 또는 지연의 방지 또는 역전을 포함한다. 활성화된 또는 재활성화된 활성 (예: 전사)은 대조군에서의 것보다 90%, 80%, 70%, 60%, 50%, 40%, 30%, 20%, 10%, 또는 그 초과로 더 클 수 있다. 양태들에서, 활성화 또는 재활성화는 대조군과 비교하여 1.5배, 2배, 3배, 4배, 5배, 10배, 또는 그 초과이다. 구현예들에서, 활성화는 이전에 사일런싱되었던 유전자의 활성화일 수 있다. 구현예들에서, 재활성화는 이전에 사일런싱 되었던 유전자의 재활성화일 수 있다.
본원에서 사용되는 바와 같이 용어 "인핸서" 또는 "활성화제"는, 유전자의 전사가 일어날 가능성을 증가시키기 위해 단백질 (예: 전사 활성화제) 및/또는 폴리뉴클레오티드에 의해 결합될 수 있는 DNA의 영역을 지칭한다. 인핸서는 길이가 약 50 내지 약 35,000개의 염기 쌍일 수 있다. 구현예들에서, 인핸서는 길이가 약 50 내지 약 1500개의 염기 쌍일 수 있다. 인핸서는 이것이 조절하는 전사 개시 부위의 하류 또는 상류에 위치할 수 있고, 전사 개시 부위로부터 수백 내지 적어도 백만개의 염기 쌍으로 떨어져 있을 수 있다. 구현예들에서, 인핸서는 전사 개시 부위로부터 수백개의 염기 쌍으로 떨어져 있을 수 있다. 구현예들에서, 인핸서는 적어도 하나의 전사 활성화제 (예: VP64, p65, Rta)에 의해 결합될 수 있다. 구현예들에서, 인핸서는 에피게놈 편집에 적합한 표적 폴리뉴클레오티드 서열일 수 있다. 구현예들에서, 인핸서는 유전자의 전사를 활성화 또는 재활성화할 수 있는 하나 이상의 단백질 및/또는 폴리뉴클레오티드에 의해 표적화될 수 있다.
본원에서 정의된 바와 같이, 용어 "억제", "억제하다", "억제하는", "억압", 억압하는", "사일런싱하는", "사일런싱하다" 등은, 본원에서 제공되는 바와 같은 조성물 (예: 융합 단백질, 복합체, 핵산, 벡터)과 관련하여 사용시, 조성물 (예: 융합 단백질, 복합체, 핵산, 벡터)의 부재 하에 핵산 서열의 활성 (예: 유전자의 전사)에 비해 핵산 서열의 활성 (예: 전사)에 부정적으로 영향을 주는 (예를 들어, 이를 감소시키는) (예를 들어, 유전자의 전사를 감소시키는) 것을 지칭한다. 양태들에서, 억제는 질환 또는 질환의 증상 (예: 암)의 감소를 지칭한다. 따라서, 억제는, 적어도 부분적으로, 활성화 (예: 전사)를 부분적으로 또는 전적으로 차단하는 것, 또는 핵산 서열의 활성화 (예: 전사)를 감소시키거나, 방지하거나, 지연시키는 것을 포함한다. 억제된 활성 (예: 전사)은 대조군에서의 것보다 90%, 80%, 70%, 60%, 50%, 40%, 30%, 20%, 10%, 또는 그 미만으로 더 작을 수 있다. 양태들에서, 억제는 대조군에 비해 1.5배, 2배, 3배, 4배, 5배, 10배, 또는 그 초과이다.
본원에서 사용되는 바와 같이 용어 "사일렌서"는 억압제로서 공지된 전사 조절 인자에 결합함으로써 유전자의 전사에 부정적으로 영향을 줄 수 있는 DNA 서열을 지칭한다. 사일렌서 DNA 서열은, 그것이 유전자의 전사를 억압 (예를 들어, 유전자 발현을 사일런싱)하도록 작용하는 표적 유전자의 상류를 포함하나 이에 제한되지는 않는 DNA 전반에 걸쳐 많은 상이한 위치에서 나타날 수 있다.
"대조군" 샘플 또는 값은, 시험 샘플과의 비교를 위한, 참조, 통상적으로 공지된 참조의 역할을 하는 샘플을 지칭한다. 예를 들어, 시험 샘플은, 예를 들어, 시험 화합물의 존재 하에, 시험 조건으로부터 채취되고, 공지된 조건으로부터의, 예를 들어, 시험 화합물의 부재 하에 (네가티브 대조군) 또는 공지된 화합물의 존재 하에 (포지티브 대조군) 샘플과 비교될 수 있다. 대조군은 또한 많은 시험 또는 결과로부터 모아진 평균 값을 나타낼 수 있다. 당업자는, 대조군이 임의의 수의 파라미터의 평가에 대해 디자인될 수 있음을 인식할 것이다. 예를 들어, 대조군은 약리학적 데이터 (예: 반감기) 또는 치료 조치에 기초하여 치료적 이점을 비교 (예: 부작용의 비교)하기 위해 고안될 수 있다. 당업자는, 어떠한 대조군이 주어진 상황에서 가치 있고 대조군 값과의 비교에 기초하여 데이터를 분석할 수 있는지를 이해할 것이다. 대조군은 또한, 데이터의 중요성을 결정하는 데 있어 가치가 있다. 예를 들어, 주어진 파라미터에 대한 값이 대조군에서 폭넓게 달라지는 경우, 시험 샘플에서의 변동은 중요한 것으로 고려되지 않을 것이다.
용어 "탈메틸화 도메인"은 DNA 탈메틸화가 가능한 단백질 서열 또는 구조의 부분을 지칭한다. 예를 들어, 탈메틸화 도메인은 핵염기로부터 메틸 기를 제거할 수 있다 (즉, 5-메틸시토신의 시토신으로의 전환). 구현예들에서, 탈메틸화 도메인은 10-11 전좌 (TET) 효소 또는 TET 효소의 기능적 도메인을 포함한다. 구현예들에서, 탈메틸화 도메인은 박테리아 DNA 데메틸라제이다.
용어 "10-11 전좌" 또는 "TET"는 TET1, TET2 및 TET3을 포함한 효소의 패밀리를 지칭한다. 임의의 이론에 의해 국한되도록 의도하지 않으며, TET 효소는 억압 5mC 마크를 제거하고/거나 5-메틸시토신 (5mC)의 메틸 기의 산화를 촉매하여 5-히드록시메틸시토신 (5hmC) 및 다른 산화된 메틸시토신을 생성하여, 탈메틸화를 촉진할 수 있다.
본원에서 제공되는 바와 같이 용어 "TET1" 또는 "TET1 단백질"은, 메틸시토신 디옥시게나제 TET1로서 또한 공지된, 10-11 전좌 메틸시토신 디옥시게나제 1 (TET1)의 재조합 또는 자연-발생 형태, CXXC-유형 아연 핑거 단백질 6, CXXC 도메인을 갖는 백혈병-관련 단백질, 또는 TET1 단백질 활성 (예를 들어, TET1 단백질에 비해 적어도 50%, 80%, 90%, 95%, 96%, 97%, 98%, 99% 또는 100% 활성 이내)을 유지하는 그의 변이체 또는 상동체 중 임의의 것을 포함한다. 양태들에서, 변이체 또는 상동체는 자연 발생 TET1 단백질 폴리펩티드에 비해 전체 서열 또는 서열의 부분 (예: 50, 100, 150 또는 200개의 연속 아미노산 부분)에 걸쳐 적어도 90%, 95%, 96%, 97%, 98%, 99% 또는 100% 아미노산 서열 동일성을 갖는다. 구현예들에서, TET1 단백질은 UniProt 참조 번호 Q8NFU7로 식별되는 단백질, 또는 그의 변이체, 상동체 또는 기능적 단편이다. 양태들에서, TET1은 서열 번호:1의 아미노산 서열을 포함한다. 양태들에서, TET1은 서열 번호:1의 아미노산 서열을 갖는다. 양태들에서, TET1은 서열 번호:1과 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, TET1은 서열 번호:1과 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, TET1은 서열 번호:1과 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, TET1은 서열 번호:1과 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, TET1은 서열 번호:1과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, TET1은 서열 번호:1과 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, TET1은 서열 번호:86의 아미노산 서열을 포함한다. 양태들에서, TET1은 서열 번호:86의 아미노산 서열을 갖는다. 양태들에서, TET1은 서열 번호:86과 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, TET1은 서열 번호:86과 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, TET1은 서열 번호:86과 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, TET1은 서열 번호:86과 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, TET1은 서열 번호:86과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, TET1은 서열 번호:86과 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, TET1은 서열 번호:97의 아미노산 서열을 포함한다. 양태들에서, TET1은 서열 번호:97의 아미노산 서열을 갖는다. 양태들에서, TET1은 서열 번호:97과 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, TET1은 서열 번호:97과 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, TET1은 서열 번호:97과 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, TET1은 서열 번호:97과 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, TET1은 서열 번호:97과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, TET1은 서열 번호:97과 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다.
본원에서 제공되는 바와 같이 용어 "TET2" 또는 "TET2 단백질"은, 메틸시토신 디옥시게나제 TET2로서 또한 공지된, 10-11 전좌 메틸시토신 디옥시게나제 2 (TET2)의 재조합 또는 자연-발생 형태, 또는 TET2 단백질 활성 (예를 들어, TET2 단백질에 비해 적어도 50%, 80%, 90%, 95%, 96%, 97%, 98%, 99% 또는 100% 활성 이내)을 유지하는 그의 변이체 또는 상동체 중 임의의 것을 포함한다. 양태들에서, 변이체 또는 상동체는 자연 발생 TET2 단백질 폴리펩티드에 비해 전체 서열 또는 서열의 부분 (예: 50, 100, 150 또는 200개의 연속 아미노산 부분)에 걸쳐 적어도 90%, 95%, 96%, 97%, 98%, 99% 또는 100% 아미노산 서열 동일성을 갖는다. 구현예들에서, TET2 단백질은 UniProt 참조 번호 Q6N021로 식별되는 단백질, 또는 그의 변이체, 상동체 또는 기능적 단편이다. 양태들에서, TET2는 서열 번호:2의 아미노산 서열을 포함한다. 양태들에서, TET2는 서열 번호:2의 아미노산 서열을 갖는다. 양태들에서, TET2는 서열 번호:2와 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, TET2는 서열 번호:2와 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, TET2는 서열 번호:2와 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, TET2는 서열 번호:2와 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, TET2는 서열 번호:2와 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, TET2는 서열 번호:2와 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다.
본원에서 제공되는 바와 같은 용어 "TET3" 또는 "TET3 단백질"은, 메틸시토신 디옥시게나제 TET3으로서 또한 공지된, 10-11 전좌 메틸시토신 디옥시게나제 3 (TET3)의 재조합 또는 자연-발생 형태, 또는 TET3 단백질 활성 (예를 들어, TET3 단백질에 비해 적어도 50%, 80%, 90%, 95%, 96%, 97%, 98%, 99% 또는 100% 활성 이내)을 유지하는 그의 변이체 또는 상동체 중 임의의 것을 포함한다. 양태들에서, 변이체 또는 상동체는 자연 발생 TET3 단백질 폴리펩티드에 비해 전체 서열 또는 서열의 부분 (예: 50, 100, 150 또는 200개의 연속 아미노산 부분)에 걸쳐 적어도 90%, 95%, 96%, 97%, 98%, 99% 또는 100% 아미노산 서열 동일성을 갖는다. 구현예들에서, TET3 단백질은 UniProt 참조 번호 O43151로 식별되는 단백질, 또는 그의 변이체, 상동체 또는 기능적 단편이다. 양태들에서, TET3은 서열 번호:3의 아미노산 서열을 포함한다. 양태들에서, TET3은 서열 번호:3의 아미노산 서열을 갖는다. 양태들에서, TET3은 서열 번호:3과 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, TET3은 서열 번호:3과 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, TET3은 서열 번호:3과 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, TET3은 서열 번호:3과 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, TET3은 서열 번호:3과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, TET3은 서열 번호:3과 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다.
용어 "전사 활성화제", "활성화제" 등은, 통상적 및 관습적 의미에서, 유전자 또는 유전자의 세트의 유전자 전사를 증가시키는 단백질 (즉, 전사 인자)을 지칭한다. 예를 들어, 전사 활성화제는 인핸서 또는 프로모터-근위 요소에 결합하는 DNA-결합 단백질일 수 있다. 구현예들에서, 전사 활성화제는 VP64, p65, 또는 Rta이다. 구현예들에서, 전사 활성화제는 이전에 사일런싱되었던 유전자 또는 유전자의 세트의 유전자 전사를 증가시킬 수 있다. 전사 활성화제 및 그의 용도는, 예를 들어, 그 전체가 모든 목적상 본원에 참조로 포함되는 하기 문헌에서 찾아볼 수 있다: Tanenbaum 등, A Protein-Tagging System for Signal Amplification in Gene Expression and Fluorescence Imaging. Cell. 2014 Oct 23;159(3):635-46 및 Zalatan 등, Engineering Complex Synthetic Transcriptional Programs With CRISPR RNA Scaffolds. Cell. 2015 Jan 15;160(1-2):339-50.
본원에서 제공되는 바와 같은 용어 "p65" 또는 "p65 단백질"은, 핵 인자 NF-카파-B p65 서브유닛으로서 또한 공지된 전사 인자 p65 (p65)의 재조합 또는 자연-발생 형태, 또는 p65 단백질 활성 (예를 들어, p65 단백질에 비해 적어도 50%, 80%, 90%, 95%, 96%, 97%, 98%, 99% 또는 100% 활성 이내)을 유지하는 그의 변이체 또는 상동체 중 임의의 것을 포함한다. 양태들에서, 변이체 또는 상동체는 자연 발생 p65 단백질 폴리펩티드에 비해 전체 서열 또는 서열의 부분 (예: 50, 100, 150 또는 200개의 연속 아미노산 부분)에 걸쳐 적어도 90%, 95%, 96%, 97%, 98%, 99% 또는 100% 아미노산 서열 동일성을 갖는다. 구현예들에서, p65 단백질은 UniProt 참조 번호 Q04206으로 식별되는 단백질, 또는 그의 변이체, 상동체 또는 기능적 단편이다. 양태들에서, p65는 서열 번호:13의 아미노산 서열을 포함한다. 양태들에서, p65는 서열 번호:13의 아미노산 서열을 갖는다. 양태들에서, p65는 서열 번호:13과 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, p65는 서열 번호:13과 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, p65는 서열 번호:13과 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, p65는 서열 번호:13과 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, p65는 서열 번호:13과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, p65는 서열 번호:13과 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, p65는 서열 번호:14의 아미노산 서열을 포함한다. 양태들에서, p65는 서열 번호:14의 아미노산 서열을 갖는다. 양태들에서, p65는 서열 번호:14와 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, p65는 서열 번호:14와 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, p65는 서열 번호:14와 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, p65는 서열 번호:14와 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, p65는 서열 번호:14와 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, p65는 서열 번호:14와 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, p65는 서열 번호:100의 아미노산 서열을 포함한다. 양태들에서, p65는 서열 번호:100의 아미노산 서열을 갖는다. 양태들에서, p65는 서열 번호:100과 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, p65는 서열 번호:100과 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, p65는 서열 번호:100과 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, p65는 서열 번호:100과 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, p65는 서열 번호:100과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, p65는 서열 번호:100과 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다.
본원에서 제공되는 바와 같은 용어 "Rta" 또는 "Rta 단백질"은, R 전이활성화제로서 또한 공지된 복제 및 전사 활성화제 (Rta)의 재조합 또는 자연-발생 형태, 즉각-초기(Immediate-early) 단백질 Rta, 또는 Rta 단백질 활성 (예를 들어, Rta 단백질에 비해 적어도 50%, 80%, 90%, 95%, 96%, 97%, 98%, 99% 또는 100% 활성 이내)을 유지하는 그의 변이체 또는 상동체 중 임의의 것을 포함한다. 양태들에서, 변이체 또는 상동체는 자연 발생 Rta 단백질 폴리펩티드에 비해 전체 서열 또는 서열의 부분 (예: 50, 100, 150 또는 200개의 연속 아미노산 부분)에 걸쳐 적어도 90%, 95%, 96%, 97%, 98%, 99% 또는 100% 아미노산 서열 동일성을 갖는다. 구현예들에서, Rta 단백질은 UniProt 참조 번호 P03209로 식별되는 단백질, 또는 그의 변이체, 상동체 또는 기능적 단편이다. 양태들에서, Rta는 서열 번호:15의 아미노산 서열을 포함한다. 양태들에서, Rta는 서열 번호:15의 아미노산 서열을 갖는다. 양태들에서, Rta는 서열 번호:15와 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, Rta는 서열 번호:15와 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, Rta는 서열 번호:15와 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, Rta는 서열 번호:15와 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, Rta는 서열 번호:15와 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, Rta는 서열 번호:15와 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, Rta는 서열 번호:16의 아미노산 서열을 포함한다. 양태들에서, Rta는 서열 번호:16의 아미노산 서열을 갖는다. 양태들에서, Rta는 서열 번호:16과 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, Rta는 서열 번호:16과 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, Rta는 서열 번호:16과 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, Rta는 서열 번호:16과 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, Rta는 서열 번호:16과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, Rta는 서열 번호:16과 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다.
본원에서 제공되는 바와 같은 용어 "VP64" 또는 "VP64 단백질"은, 알파 트랜스-유도 단백질로서 또한 공지된 외피(Tegument) 단백질 VP16 (VP64)의 재조합 또는 자연-발생 형태, 알파-TIF, 또는 VP64 단백질 활성 (예를 들어, VP64 단백질에 비해 적어도 50%, 80%, 90%, 95%, 96%, 97%, 98%, 99% 또는 100% 활성 이내)을 유지하는 그의 변이체 또는 상동체 중 임의의 것을 포함한다. 양태들에서, 변이체 또는 상동체는 자연 발생 VP64 단백질 폴리펩티드에 비해 전체 서열 또는 서열의 부분 (예: 50, 100, 150 또는 200개의 연속 아미노산 부분)에 걸쳐 적어도 90%, 95%, 96%, 97%, 98%, 99% 또는 100% 아미노산 서열 동일성을 갖는다. 구현예들에서, VP64 단백질은 UniProt 참조 번호 P06492로 식별되는 단백질, 또는 그의 변이체, 상동체 또는 기능적 단편이다. 양태들에서, VP64는 서열 번호:17의 아미노산 서열을 포함한다. 양태들에서, VP64는 서열 번호:17의 아미노산 서열을 갖는다. 양태들에서, VP64는 서열 번호:17과 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, VP64는 서열 번호:17과 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, VP64는 서열 번호:17과 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, VP64는 서열 번호:17과 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, VP64는 서열 번호:17과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, VP64는 서열 번호:17과 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, VP64는 서열 번호:18의 아미노산 서열을 포함한다. 양태들에서, VP64는 서열 번호:18의 아미노산 서열을 갖는다. 양태들에서, VP64는 서열 번호:18과 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, VP64는 서열 번호:18과 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, VP64는 서열 번호:18과 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, VP64는 서열 번호:18과 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, VP64는 서열 번호:18과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, VP64 서열 번호:18과 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다.
본원에서 제공되는 바와 같은 용어 "MCP " 또는 "MCP 단백질"은, CP로서 또한 공지된 캡시드 단백질 (MCP)의 재조합 또는 자연-발생 형태, 코트 단백질, 또는 MCP 단백질 활성 (예를 들어, MCP 단백질에 비해 적어도 50%, 80%, 90%, 95%, 96%, 97%, 98%, 99% 또는 100% 활성 이내)을 유지하는 그의 변이체 또는 상동체 중 임의의 것을 포함한다. 양태들에서, 변이체 또는 상동체는 자연 발생 MCP 단백질 폴리펩티드에 비해 전체 서열 또는 서열의 부분 (예: 50, 100, 150 또는 200개의 연속 아미노산 부분)에 걸쳐 적어도 90%, 95%, 96%, 97%, 98%, 99% 또는 100% 아미노산 서열 동일성을 갖는다. 구현예들에서, MCP 단백질은 UniProt 참조 번호 P03612로 식별되는 단백질, 또는 그의 변이체, 상동체 또는 기능적 단편이다. 양태들에서, MCP는 서열 번호:21의 아미노산 서열을 포함한다. 양태들에서, MCP는 서열 번호:21의 아미노산 서열을 갖는다. 양태들에서, MCP는 서열 번호:21과 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, MCP는 서열 번호:21과 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, MCP는 서열 번호:21과 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, MCP는 서열 번호:21과 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, MCP는 서열 번호:21과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, MCP는 서열 번호:21과 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다.
용어 "뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소" 등은, 통상적 및 관습적 의미에서, DNA 폴리뉴클레오티드 내의 특정 포스포디에스테르 결합을 표적화하는 RNA-가이드된 DNA 엔도뉴클레아제 (예: 자연 발생 RNA-가이드된 DNA 엔도뉴클레아제의 돌연변이 형태)를 지칭하며, 여기서 포스포디에스테르 결합의 인식은 별도의 폴리뉴클레오티드 서열 (예를 들어, RNA 서열 (예: 단일 가이드 RNA (sgRNA))에 의해 용이해지지만, 이는 표적 포스포디에스테르 결합을 유의한 정도로 절단할 수는 없다 (예를 들어, 생리학적 조건 하에 포스포디에스테르 결합의 측정가능한 절단이 존재하지 않음). 따라서 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제는, 폴리뉴클레오티드 (예: sgRNA)와 복합체화시 DNA-결합능 (예를 들어, 표적 서열에 대한 특이적 결합)을 보유하지만, 유의한 엔도뉴클레아제 활성 (예: 임의의 양의 검출가능 엔도뉴클레아제 활성)은 없다. 양태들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 CRISPR-관련 단백질이다. 양태들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 dCas9, dCas12a, dCpfl, ddCpf1, Cas-phi, 뉴클레아제-결핍 Cas9 변이체, 뉴클레아제-결핍 클래스 II CRISPR 엔도뉴클레아제, 류신 지퍼 도메인, 날개형 나선 도메인, 나선-회전(turn)-나선 모티프, 나선-루프-나선 도메인, HMB-박스 도메인, Wor3 도메인, OB-폴드 도메인, 면역글로불린 도메인, 또는 B3 도메인이다. 양태들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 류신 지퍼 도메인, 날개형 나선 도메인, 나선-회전-나선 모티프, 나선-루프-나선 도메인, HMB-박스 도메인, Wor3 도메인, OB-폴드 도메인, 면역글로불린 도메인, 또는 B3 도메인이다. 양태들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 류신 지퍼 도메인이다. 양태들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 날개형 나선 도메인이다. 양태들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 나선-회전-나선 모티프이다. 양태들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 나선-루프-나선 도메인이다. 양태들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 HMB-박스 도메인이다. 양태들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 Wor3 도메인이다. 양태들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 OB-폴드 도메인이다. 양태들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 면역글로불린 도메인이다. 양태들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 B3 도메인이다. 양태들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 dCas9, dCas12a, ddCpf1, Cas-phi, 뉴클레아제-결핍 Cas9 변이체, 또는 뉴클레아제-결핍 클래스 II CRISPR 엔도뉴클레아제이다. 양태들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 dCas9이다. 양태들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 에스. 프요게네스로부터의 dCas9이다. 양태들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 에스. 아우레우스(S. aureus)로부터의 dCas9이다. 양태들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 dCas12a이다. 양태들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 라크노스피라세아에 박테리움(Lachnospiraceae bacterium)으로부터의 dCas12a이다. 양태들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 dCas12이다. 양태들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 ddCas12a이다. 양태들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 Cas-phi이다.
용어 "CRISPR-관련 단백질" 또는 "CRISPR 단백질"은 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소로서 기능하는 임의의 CRISPR 단백질, 즉, 엔도뉴클레아제 활성에 대한 촉매작용 부위가 결함을 갖거나 활성이 결핍된 CRISPR 단백질을 지칭한다. 예시적 CRISPR 단백질은 dCas9, dCpfl, ddCpf1, dCas12, ddCas12, dCas12Cas-phi, 뉴클레아제-결핍 Cas9 변이체, 뉴클레아제-결핍 클래스 II CRISPR 엔도뉴클레아제 등을 포함한다.
용어 "뉴클레아제-결핍 DNA 엔도뉴클레아제 효소"는 DNA 폴리뉴클레오티드 내의 특정 포스포디에스테르 결합을 표적화하지만 RNA 가이드를 필요로 하지 않는 DNA 엔도뉴클레아제 (예: 자연 발생 DNA 엔도뉴클레아제의 돌연변이 형태)를 지칭한다. 구현예들에서, "뉴클레아제-결핍 DNA 엔도뉴클레아제 효소"는 아연 핑거 도메인 또는 전사 활성화제-유사 이펙터 (TALE)이다.
구현예들에서, 뉴클레아제-결핍 DNA 엔도뉴클레아제 효소는 "아연 핑거 도메인"이다. 용어 "아연 핑거 도메인" 또는 "아연 핑거 결합 도메인" 또는 "아연 핑거 DNA 결합 도메인"은 상호교환가능하게 사용되며, 그 구조가 아연 이온의 배위를 통해 안정화되는 결합 도메인 내의 아미노산 서열의 영역인, 하나 이상의 아연 핑거를 통해 서열-특이적 방식으로 DNA에 결합하는 단백질, 또는 보다 큰 단백질 내의 도메인을 지칭한다. 구현예들에서, 아연 핑거 도메인은 선택 표적 부위에 결합하도록 조작된다는 점에서 비-자연 발생이다. 양태들에서, 아연 핑거 결합 도메인은, 아연 핑거의 C2H2 유형, CCHC 유형, PHD 유형, 또는 RING 유형 등의, 당업계에 공지된 임의의 아연 핑거에 결합할 수 있는 단백질, 보다 큰 단백질 내의 도메인, 또는 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소를 지칭한다.
본원에서 사용되는 바와 같이, "아연 핑거"는 결합된 아연 양이온 주위에서 폴딩된 폴리펩티드 구조적 모티프이다. 구현예들에서, 아연 핑거의 폴리펩티드는 형태 X3-Cys-X2-4 -Cys-X12-His-X3-5-His-X4의 서열을 가지며, 여기서 X는 임의의 아미노산이다 (예를 들어, X2-4는 길이가 2-4개의 아미노산인 올리고펩티드를 나타냄). 일반적으로, 공지된 아연 핑거 폴리펩티드의 28-31개 아미노산에서 폭넓은 범위의 서열 변동이 존재한다. 중심 아연 원자에 결합된 2개의 공통 히스티딘 잔기 및 2개의 공통 시스테인 잔기만이 불변이다. 나머지 잔기 중, 3 내지 5개는 고도로 보존되지만, 다른 잔기 사이에는 상당한 변동이 존재할 수 있다. 폴리펩티드에서의 폭넓은 범위의 서열 변동에도 불구하고, 이 유형의 아연 핑거는 유사한 3차원 구조를 갖는다. 그러나, 상이한 아연 핑거 사이에는 폭넓은 범위의 결합 특이성이 존재하며, 즉 상이한 아연 핑거가 폭넓은 범위의 뉴클레오티드 서열을 갖는 이중 가닥 폴리뉴클레오티드에 결합한다. 양태들에서, 아연 핑거는 C2H2 유형이다. 양태들에서, 아연 핑거는 CCHC 유형이다. 양태들에서, 아연 핑거는 PHD 유형이다. 양태들에서, 아연 핑거는 RING 유형이다.
구현예들에서, 뉴클레아제-결핍 DNA 엔도뉴클레아제 효소는 TALE이다. "TALE" 또는 "전사 활성화제-유사 이펙터"는 DNA 절단 도메인에 TAL 이펙터 DNA 결합 도메인을 융합시킴으로써 생성된 인공 제한 효소를 지칭한다. TALE는 효율적인, 프로그램가능, 및 특이적 DNA 절단을 가능하게 하고 계내 게놈 편집을 위한 강력한 도구를 나타낸다. 전사 활성화제-유사 이펙터 (TALE)는 사실상 임의의 DNA 서열에 결합하도록 빠르게 조작될 수 있다. 본원에서 사용되는 바와 같이, 용어 TALE는 광범위하고 또 다른 TALE로부터의 보조 없이 이중 가닥 DNA를 절단할 수 있는 단량체 TALE를 포함한다. 용어 TALE는 또한, 함께 작용하여 동일한 부위에서 DNA를 절단하도록 조작되는 한 쌍의 TALE의 하나 또는 둘 다의 구성원을 지칭하기 위해 사용된다. 함께 작용하는 TALE는 DNA의 손잡이성(handedness)을 참조하는 좌측-TALE 및 우측-TALE로서 언급될 수 있다. TALE는 크산토모나스(Xanthomonas) 박테리아에 의해 분비되는 단백질이다. DNA 결합 도메인은 제12 및 제13 아미노산을 제외하고는 고도로 보존된 33-34개의 아미노산 서열을 함유한다. 이들 두 위치는 고도로 가변성이고 (반복 가변 2-잔기 (RVD)) 특정 뉴클레오티드 인식과 강한 상관성을 나타낸다. 아미노산 서열과 DNA 인식 사이의 이러한 단순한 관계는 적절한 RVD를 함유하는 반복 세그먼트의 조합을 선택함으로써 특정 DNA 결합 도메인의 조작을 가능하게 하였다.
구현예들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 dCas9이다. 본원에서 언급되는 바와 같은 용어 "dCas9" 또는 "dCas9 단백질"은 엔도뉴클레아제 활성에 대한 두 촉매작용 부위가 모두 결함을 갖거나 활성이 결핍된 Cas9 단백질이다. 양태들에서, dCas9 단백질은 에스. 프요게네스 Cas9의 D10A 및 H840A에 상응하는 위치에서 돌연변이를 갖는다. 양태들에서, dCas9 단백질은 야생형 Cas9의 두 엔도뉴클레아제 촉매작용 부위 모두 (RuvC 및 HNH)에서 점 돌연변이로 인해 엔도뉴클레아제 활성이 결핍된다. 점 돌연변이는 D10A 및 H840A일 수 있다. 양태들에서, dCas9는 검출가능 엔도뉴클레아제 (예: 엔도데옥시리보뉴클레아제) 활성을 실질적으로 갖지 않는다. 양태들에서, dCas9는 서열 번호:9의 아미노산 서열을 포함한다. 양태들에서, dCas9는 서열 번호:9의 아미노산 서열을 갖는다. 양태들에서, dCas9는 서열 번호:9와 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, dCas9는 서열 번호:9와 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, dCas9는 서열 번호:9와 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, dCas9는 서열 번호:9와 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, dCas9는 서열 번호:9와 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, dCas9는 서열 번호:9와 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다.
본원에서 언급되는 바와 같은 "CRISPR 관련 단백질 9", "Cas9", "Csn1" 또는 "Cas9 단백질"은 Cas9 엔도뉴클레아제의 재조합 또는 자연-발생 형태 또는 Cas9 엔도뉴클레아제 효소 활성 (예: Cas9에 비해 적어도 50%, 80%, 90%, 95%, 96%, 97%, 98%, 99% 또는 100% 활성 이내)을 유지하는 그의 변이체 또는 상동체 중 임의의 것을 포함한다. 양태들에서, 변이체 또는 상동체는 자연 발생 Cas9 단백질에 비해 전체 서열 또는 서열의 부분 (예: 50, 100, 150 또는 200개의 연속 아미노산 부분)에 걸쳐 적어도 90%, 95%, 96%, 97%, 98%, 99% 또는 100% 아미노산 서열 동일성을 갖는다. 양태들에서, Cas9 단백질은 UniProt 참조 번호 Q99ZW2로 식별되는 단백질 또는 그와 상당한 동일성을 갖는 변이체 또는 상동체와 실질적으로 동일하다. 양태들에서, Cas9 단백질은 UniProt 참조 번호 Q99ZW2로 식별되는 단백질의 아미노산 서열과 적어도 75% 서열 동일성을 갖는다. 양태들에서, Cas9 단백질은 UniProt 참조 번호 Q99ZW2로 식별되는 단백질의 아미노산 서열과 적어도 80% 서열 동일성을 갖는다. 양태들에서, Cas9 단백질은 UniProt 참조 번호 Q99ZW2로 식별되는 단백질의 아미노산 서열과 적어도 85% 서열 동일성을 갖는다. 양태들에서, Cas9 단백질은 UniProt 참조 번호 Q99ZW2로 식별되는 단백질의 아미노산 서열과 적어도 90% 서열 동일성을 갖는다. 양태들에서, Cas9 단백질은 UniProt 참조 번호 Q99ZW2로 식별되는 단백질의 아미노산 서열과 적어도 95% 서열 동일성을 갖는다.
구현예들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 "ddCpf1" 또는 "ddCas12a"이다. 용어 "DNAse-사멸 Cpf1" 또는 "ddCpf1"은 Cpf1 DNAse 활성의 불활성화를 초래하는 돌연변이된 아시다미노콕쿠스종(Acidaminococcus sp.) Cpf1 (AsCpf1)을 지칭한다. 양태들에서, ddCpf1은 AsCpf1의 RuvC 도메인에서의 E993A 돌연변이를 포함한다. 양태들에서, ddCpf1은 검출가능한 엔도뉴클레아제 (예: 엔도데옥시리보뉴클레아제) 활성을 실질적으로 갖지 않는다. 양태들에서, ddCpf1은 서열 번호:10의 아미노산 서열을 포함한다. 양태들에서, ddCpf1은 서열 번호:10의 아미노산 서열을 갖는다. 양태들에서, ddCpf1은 서열 번호:10과 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, ddCpf1은 서열 번호:10과 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, ddCpf1은 서열 번호:10과 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, ddCpf1은 서열 번호:10과 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, ddCpf1은 서열 번호:10과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, ddCpf1은 서열 번호:10과 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다.
구현예들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 dLbCpf1이다. 용어 "dLbCpf1:은 DNAse 활성이 결핍된 라크노스피라세아에 박테리움 ND2006으로부터의 돌연변이된 Cpf1 (LbCpf1)을 지칭한다. 양태들에서, dLbCpf1은 D832A 돌연변이를 포함한다. 양태들에서, dLbCpf1은 검출가능한 엔도뉴클레아제 (예: 엔도데옥시리보-뉴클레아제) 활성을 실질적으로 갖지 않는다. 양태들에서, dLbCpf1은 서열 번호:11의 아미노산 서열을 포함한다. 양태들에서, dLbCpf1은 서열 번호:11의 아미노산 서열을 갖는다. 양태들에서, dLbCpf1은 서열 번호:11과 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, dLbCpf1은 서열 번호:11과 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, dLbCpf1은 서열 번호:11과 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, dLbCpf1은 서열 번호:11과 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, dLbCpf1은 서열 번호:11과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, dLbCpf1은 서열 번호:11과 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다.
구현예들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 dFnCpf1이다. 용어 "dFnCpf1"은 DNAse 활성이 결핍된 프란시셀라 노비시다(Francisella novicida) U112로부터의 돌연변이된 Cpf1 (FnCpf1)을 지칭한다. 양태들에서, dFnCpf1은 D917A 돌연변이를 포함한다. 양태들에서, dFnCpf1은 검출가능한 엔도뉴클레아제 (예: 엔도데옥시리보-뉴클레아제) 활성을 실질적으로 갖지 않는다. 양태들에서, dFnCpf1은 서열 번호: 12의 아미노산 서열을 포함한다. 양태들에서, dFnCpf1은 서열 번호:12의 아미노산 서열을 갖는다. 양태들에서, dFnCpf1은 서열 번호:12와 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, dFnCpf1은 서열 번호:12와 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, dFnCpf1은 서열 번호:12와 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, dFnCpf1은 서열 번호:12와 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, dFnCpf1은 서열 번호:12와 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, dFnCpf1은 서열 번호:12와 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다.
본원에서 언급되는 바와 같은 "Cpf1" 또는 " Cpf1 단백질"은 Cpf1 (프레보텔라(Prevotella) 및 프란시셀라 1로부터의 CRISPR) 엔도뉴클레아제의 재조합 또는 자연-발생 형태 또는 Cpf1 엔도뉴클레아제 효소 활성 (예: Cpf1에 비해 적어도 50%, 80%, 90%, 95%, 96%, 97%, 98%, 99% 또는 100% 활성 이내)을 유지하는 그의 변이체 또는 상동체 중 임의의 것을 포함한다. 양태들에서, 변이체 또는 상동체는 자연 발생 Cpf1 단백질에 비해 전체 서열 또는 서열의 부분 (예: 50, 100, 150 또는 200개의 연속 아미노산 부분)에 걸쳐 적어도 90%, 95%, 96%, 97%, 98%, 99% 또는 100% 아미노산 서열 동일성을 갖는다. 양태들에서, Cpf1 단백질은 UniProt 참조 번호 U2UMQ6으로 식별되는 단백질 또는 그와 상당한 동일성을 갖는 변이체 또는 상동체와 실질적으로 동일하다. 양태들에서, Cpf1 단백질은 UniProt 참조 번호 U2UMQ6으로 식별되는 단백질과 동일하다. 양태들에서, Cpf1 단백질은 UniProt 참조 번호 U2UMQ6으로 식별되는 단백질의 아미노산 서열과 적어도 75% 서열 동일성을 갖는다. 양태들에서, Cpf1 단백질은 UniProt 참조 번호 U2UMQ6으로 식별되는 단백질의 아미노산 서열과 적어도 80% 서열 동일성을 갖는다. 양태들에서, Cpf1 단백질은 UniProt 참조 번호 U2UMQ6으로 식별되는 단백질과 동일하다. 양태들에서, Cpf1 단백질은 UniProt 참조 번호 U2UMQ6으로 식별되는 단백질의 아미노산 서열과 적어도 85% 서열 동일성을 갖는다. 양태들에서, Cpf1 단백질은 UniProt 참조 번호 U2UMQ6으로 식별되는 단백질과 동일하다. 양태들에서, Cpf1 단백질은 UniProt 참조 번호 U2UMQ6으로 식별되는 단백질의 아미노산 서열과 적어도 90% 서열 동일성을 갖는다. 양태들에서, Cpf1 단백질은 UniProt 참조 번호 U2UMQ6으로 식별되는 단백질과 동일하다. 양태들에서, Cpf1 단백질은 UniProt 참조 번호 U2UMQ6으로 식별되는 단백질의 아미노산 서열과 적어도 95% 서열 동일성을 갖는다.
구현예들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 뉴클레아제-결핍 Cas9 변이체이다. 용어 "뉴클레아제-결핍 Cas9 변이체"는 야생형 Cas9에 비해 PAM에 대한 그의 결합 특이성을 증가시키고 단백질을 심하게 손상된 엔도뉴클레아제 활성을 갖게 또는 이것이 불가능하게 만드는 돌연변이를 추가로 포함하는 하나 이상의 돌연변이를 갖는 Cas9 단백질을 지칭한다. 이론에 의해 국한되길 바라지 않으며, 표적 서열은 PAM (프로토스페이서 인접 모티프); 즉, CRISPR 복합체에 의해 인식되는 짧은 서열과 관련되어야 하는 것으로 믿어진다. PAM에 대한 정확한 서열 및 길이 요건은 사용되는 CRISPR 효소에 따라 달라지지만, PAM은 전형적으로 프로토스페이서 (즉, 표적 서열)에 인접한 2-5개의 염기 쌍 서열이다. PAM에 대한 뉴클레아제-결핍 Cas9 변이체의 결합 특이성은 당업계에 공지된 임의의 방법에 의해 결정될 수 있다. 공지된 Cas9 변이체에 대한 설명 및 용도는, 예를 들어, 그 전체가 모든 목적상 본원에 참조로 포함되는 하기 문헌에서 찾아볼 수 있다: Shmakov 등, Diversity and evolution of class 2 CRISPR-Cas systems. Nat. Rev. Microbiol. 15, 2017 및 Cebrian-Serrano 등, CRISPR-Cas orthologues and variants: optimizing the repertoire, specificity and delivery of genome engineering tools. Mamm. Genome 7-8, 2017. 예시적 Cas9 변이체가 하기 표 1에 열거된다.
표 1
Figure pct00004
구현예들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 뉴클레아제-결핍 클래스 II CRISPR 엔도뉴클레아제이다. 본원에서 사용되는 바와 같이, 용어 "뉴클레아제-결핍 클래스 II CRISPR 엔도뉴클레아제"는 감소된, 손상된, 또는 불활성 엔도뉴클레아제 활성을 초래하는 돌연변이를 갖는 임의의 클래스 II CRISPR 엔도뉴클레아제를 지칭한다.
구현예들에서, 펩티드 링커는 XTEN 링커이다. 양태들에서, XTEN 링커는 약 16 내지 약 864개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 16 내지 약 80개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 17 내지 약 80개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 18 내지 약 80개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 19 내지 약 80개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 20 내지 약 80개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 30 내지 약 80개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 40 내지 약 80개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 50 내지 약 80개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 60 내지 약 80개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 70 내지 약 80개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 16 내지 약 70개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 16 내지 약 60개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 16 내지 약 50개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 16 내지 약 40개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 16 내지 약 35개의 아미노산 잔기. 양태들에서, XTEN 링커는 약 16 내지 약 30개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 16 내지 약 25개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 16 내지 약 20개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 16개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 17개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 18개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 19개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 20개의 아미노산 잔기를 포함한다.
양태들에서, 융합 단백질은 동일하거나 상이한 적어도 2개의 XTEN 링커를 포함한다. 양태들에서, 융합 단백질은 제2 XTEN 링커보다 더 많은 아미노산 잔기를 갖는 제1 XTEN 링커를 포함한다. 양태들에서, 융합 단백질은 제2 XTEN 링커보다 10 내지 150개의 아미노산 잔기를 갖는 제1 XTEN 링커를 포함한다. 양태들에서, 융합 단백질은 제2 XTEN 링커보다 20 내지 120개의 아미노산 잔기를 갖는 제1 XTEN 링커를 포함한다. 양태들에서, 융합 단백질은 제2 XTEN 링커보다 30 내지 110개의 아미노산 잔기를 갖는 제1 XTEN 링커를 포함한다. 양태들에서, 융합 단백질은 제2 XTEN 링커보다 40 내지 110개의 아미노산 잔기를 갖는 제1 XTEN 링커를 포함한다. 양태들에서, 융합 단백질은 제2 XTEN 링커보다 50 내지 100개의 아미노산 잔기를 갖는 제1 XTEN 링커를 포함한다. 양태들에서, 융합 단백질은 제2 XTEN 링커보다 60 내지 100개의 아미노산 잔기를 갖는 제1 XTEN 링커를 포함한다.
구현예들에서, XTEN 링커는 약 50 내지 약 864개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 50 내지 약 200개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 55 내지 약 180개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 60 내지 약 150개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 60 내지 약 120개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 60 내지 약 110개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 60 내지 약 100개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 70 내지 약 90개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 75 내지 약 85개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 80개의 아미노산 잔기를 포함한다. 양태들에서, 융합 단백질이 적어도 2개의 XTEN 펩티드 링커를 포함하는 경우, 약 50 내지 약 200개의 아미노산 잔기를 포함하는 XTEN 링커가 제1 XTEN 펩티드 링커로서 언급된다.
구현예들에서, XTEN 링커는 약 5 내지 약 55개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 5 내지 약 50개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 5 내지 약 40개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 10 내지 약 30개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 10 내지 약 25개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 10 내지 약 20개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 14 내지 약 18개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 16개의 아미노산 잔기를 포함한다. 양태들에서, 융합 단백질이 적어도 2개의 XTEN 펩티드 링커를 포함하는 경우, 약 5 내지 약 55개의 아미노산 잔기를 포함하는 XTEN 링커가 제2 XTEN 펩티드 링커로서 언급된다.
구현예들에서, XTEN 링커는 서열 번호:5로 기재된 서열을 포함한다. 양태들에서, XTEN 링커는 서열 번호:5로 기재된 서열이다. 양태들에서, XTEN 링커는 서열 번호:5와 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, XTEN 링커는 서열 번호:5와 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, XTEN 링커는 서열 번호:5와 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, XTEN 링커는 서열 번호:5와 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, XTEN 링커는 서열 번호:5와 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, XTEN 링커는 서열 번호:5와 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다.
구현예들에서, XTEN 링커는 서열 번호:6으로 기재된 서열을 포함한다. 양태들에서, XTEN 링커는 서열 번호:6으로 기재된 서열이다. 양태들에서, XTEN 링커는 서열 번호:6과 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, XTEN 링커는 서열 번호:6과 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, XTEN 링커는 서열 번호:6과 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, XTEN 링커는 서열 번호:6과 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, XTEN 링커는 서열 번호:6과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, XTEN 링커는 서열 번호:6과 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다.
구현예들에서, XTEN 링커는 서열 번호:98로 기재된 서열을 포함한다. 양태들에서, XTEN 링커는 서열 번호:98로 기재된 서열이다. 양태들에서, XTEN 링커는 서열 번호:98과 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, XTEN 링커는 서열 번호:98과 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, XTEN 링커는 서열 번호:98과 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, XTEN 링커는 서열 번호:98과 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, XTEN 링커는 서열 번호:98과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, XTEN 링커는 서열 번호:98과 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다.
융합 단백질은 세포의 특정 영역 (예: 세포질, 핵)에 대하여 융합 단백질을 표적화하기에 유용한 아미노산 서열을 포함할 수 있다. 따라서, 양태들에서, 융합 단백질은 핵 국소화 신호 (NLS) 펩티드를 추가로 포함한다. 양태들에서, NLS는 서열 번호:4로 기재된 서열을 포함한다. 양태들에서, NLS는 서열 번호:4로 기재된 서열이다. 양태들에서, NLS는 서열 번호:4와 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, NLS는 서열 번호:4와 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, NLS는 서열 번호:4와 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, NLS는 서열 번호:4와 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, NLS는 서열 번호:4와 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, NLS는 서열 번호:4와 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다.
융합 단백질
특히, 인간 유전자의 발현을 장기적으로 활성화하기 위해 인간 게놈의 임의의 자리에 표적화될 수 있고 (즉, 다수의 세포 분열을 통해 유전됨), mRNA, DNA, 또는 RNP로서 일시적으로 전달될 수 있는 융합 단백질이 본원에서 제공된다. 융합 단백질은 전사를 활성화하기 위한 다중 후생유전학적 편집 능력을 갖고, 핵염기 상의 메틸 기와 억압 히스톤 변형을 포함한 후생유전학적 표지를 제거함으로써 전사를 제어한다. 본원에서 제공되는 융합 단백질은 전사를 강건하게 활성화하기 위해 협력하여 작용하는 다중 도메인을 추가로 포함한다.
구현예들에서, 개시내용은 N-말단으로부터 C-말단까지, 탈메틸화 도메인, 및 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소를 포함하는 융합 단백질을 제공한다. 구현예들에서, 융합 단백질은 N-말단으로부터 C-말단까지, 탈메틸화 도메인, XTEN 링커, 및 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소를 포함한다. 구현예들에서, 뉴클레아제-결핍 RNA-가이드된 엔도뉴클레아제 효소는 CRISPR-관련 단백질이다. 구현예들에서, 탈메틸화 도메인은 TET1 도메인, TET2 도메인, TET3 도메인, 또는 이들 둘 이상의 조합이다. 구현예들에서, 탈메틸화 도메인은 TET1 도메인이다. 구현예들에서, 탈메틸화 도메인은 TET2 도메인이다. 구현예들에서, 탈메틸화 도메인은 TET3 도메인이다. 양태들에서, 융합 단백질은 핵 국소화 서열을 추가로 포함한다. 양태들에서, 융합 단백질은 2 또는 3개의 핵 국소화 서열을 추가로 포함한다. 구현예들에서, 융합 단백질은 화학식 (I): R1-L1-R2의 화합물과 적어도 85% 서열 동일성을 갖고; 여기서 R1은 서열 번호:1, 서열 번호:2, 서열 번호:3, 서열 번호:86, 또는 서열 번호:97을 포함하고; L1은 부재하거나, 서열 번호:5, 서열 번호:6, 또는 서열 번호:98이고; R2는 서열 번호:9를 포함한다. 구현예들에서, 융합 단백질은 화학식 (I)의 화합물과 적어도 90% 서열 동일성을 갖는다. 구현예들에서, 융합 단백질은 화학식 (I)의 화합물과 적어도 92% 서열 동일성을 갖는다. 구현예들에서, 융합 단백질은 화학식 (I)의 화합물과 적어도 94% 서열 동일성을 갖는다. 구현예들에서, 융합 단백질은 화학식 (I)의 화합물과 적어도 95% 서열 동일성을 갖는다. 구현예들에서, 융합 단백질은 화학식 (I)의 화합물과 적어도 96% 서열 동일성을 갖는다. 구현예들에서, 융합 단백질은 화학식 (I)의 화합물과 적어도 98% 서열 동일성을 갖는다.
구현예들에서, 개시내용은 N-말단으로부터 C-말단까지, RNA-결합 서열, 및 적어도 하나의 전사 활성화제를 포함하는 융합 단백질을 제공한다. 구현예들에서, 융합 단백질은 N-말단으로부터 C-말단까지, RNA-결합 서열, XTEN 링커, 및 적어도 하나의 전사 활성화제를 포함한다. 구현예들에서, 융합 단백질은 N-말단으로부터 C-말단까지, RNA-결합 서열, XTEN 링커, 및 VP64, p65, Rta, 또는 이들 둘 이상의 조합으로 이루어진 군으로부터 선택된 적어도 하나의 전사 활성화제를 포함한다. 구현예들에서, 전사 활성화제는 VP64, p65, Rta, 또는 이들 둘 이상의 조합이다. 구현예들에서, 전사 활성화제는 VP64이다. 구현예들에서, 전사 활성화제는 p65이다. 구현예들에서, 전사 활성화제는 Rta이다. 구현예들에서, 전사 활성화제는 VP64, p65, Rta, 또는 이들 둘 이상의 조합을 포함한다. 구현예들에서, 전사 활성화제는 VP64를 포함한다. 구현예들에서, 전사 활성화제는 p65를 포함한다. 구현예들에서, 전사 활성화제는 Rta를 포함한다. 구현예들에서, 전사 활성화제는 VP64 및 p65를 포함한다. 구현예들에서, 전사 활성화제는 VP64 및 Rta를 포함한다. 구현예들에서, 전사 활성화제는 p65 및 Rta를 포함한다. 구현예들에서, 전사 활성화제는 VP64, p65, 및 Rta를 포함한다. 구현예들에서, 융합 단백질은 화학식 (II): R4-L1-R3의 화합물과 적어도 85% 서열 동일성을 갖고; 여기서 R4는 서열 번호:21을 포함하고; L1은 부재하거나, 서열 번호:5, 서열 번호:6, 또는 서열 번호:98이고; R3은 서열 번호:13, 서열 번호:14, 서열 번호:15, 서열 번호:16, 서열 번호:17, 서열 번호:18, 서열 번호:100, 또는 이들 둘 이상의 조합을 포함한다. 구현예들에서, R3은 서열 번호:14, 서열 번호:15, 서열 번호:17, 서열 번호:100, 또는 이들 둘 이상의 조합을 포함한다. 구현예들에서, 융합 단백질은 화학식 (II)의 화합물과 적어도 90% 서열 동일성을 갖는다. 구현예들에서, 융합 단백질은 화학식 (II)의 화합물과 적어도 92% 서열 동일성을 갖는다. 구현예들에서, 융합 단백질은 화학식 (II)의 화합물과 적어도 94% 서열 동일성을 갖는다. 구현예들에서, 융합 단백질은 화학식 (II)의 화합물과 적어도 95% 서열 동일성을 갖는다. 구현예들에서, 융합 단백질은 화학식 (II)의 화합물과 적어도 96% 서열 동일성을 갖는다. 구현예들에서, 융합 단백질은 화학식 (III)의 화합물과 적어도 98% 서열 동일성을 갖는다.
구현예들에서, N-말단으로부터 C-말단까지, RNA-결합 서열, XTEN 링커, 및 적어도 하나의 전사 활성화제를 갖는 융합 단백질은 서열 번호:104, 서열 번호:105, 서열 번호:106, 서열 번호:107, 서열 번호:108, 서열 번호:109, 또는 서열 번호:110을 포함한다. 양태들에서, 융합 단백질은 서열 번호:104, 서열 번호:105, 서열 번호:106, 서열 번호:107, 서열 번호:108, 서열 번호:109, 또는 서열 번호:110과 적어도 80% 서열 동일성을 갖는 아미노산 서열을 포함한다. 양태들에서, 융합 단백질은 서열 번호:104, 서열 번호:105, 서열 번호:106, 서열 번호:107, 서열 번호:108, 서열 번호:109, 또는 서열 번호:110과 적어도 85% 서열 동일성을 갖는 아미노산 서열을 포함한다. 양태들에서, 융합 단백질은 서열 번호:104, 서열 번호:105, 서열 번호:106, 서열 번호:107, 서열 번호:108, 서열 번호:109, 또는 서열 번호:110과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 포함한다. 양태들에서, 융합 단백질은 서열 번호:104, 서열 번호:105, 서열 번호:106, 서열 번호:107, 서열 번호:108, 서열 번호:109, 또는 서열 번호:110과 적어도 95% 서열 동일성을 갖는 아미노산 서열을 포함한다.
구현예들에서, 개시내용은 N-말단으로부터 C-말단까지, 탈메틸화 도메인, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소, 및 전사 활성화제를 포함하는 융합 단백질을 제공한다. 구현예들에서, 융합 단백질은 N-말단으로부터 C-말단까지, 탈메틸화 도메인, XTEN 링커, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소, 및 전사 활성화제를 포함한다. 구현예들에서, 뉴클레아제-결핍 RNA-가이드된 엔도뉴클레아제 효소는 CRISPR-관련 단백질이다. 구현예들에서, 탈메틸화 도메인은 TET1 도메인, TET2 도메인, TET3 도메인, 또는 이들 둘 이상의 조합이다. 구현예들에서, 탈메틸화 도메인은 TET1 도메인이다. 구현예들에서, 탈메틸화 도메인은 TET2 도메인이다. 구현예들에서, 탈메틸화 도메인은 TET3 도메인이다. 구현예들에서, 전사 활성화제는 VP64, p65, Rta, 또는 이들 둘 이상의 조합을 포함한다. 구현예들에서, 전사 활성화제는 VP64, p65, Rta, 또는 이들 둘 이상의 조합을 포함한다. 구현예들에서, 전사 활성화제는 VP64를 포함한다. 구현예들에서, 전사 활성화제는 p65를 포함한다. 구현예들에서, 전사 활성화제는 Rta를 포함한다. 구현예들에서, 전사 활성화제는 VP64 및 p65를 포함한다. 구현예들에서, 전사 활성화제는 VP64 및 Rta를 포함한다. 구현예들에서, 전사 활성화제는 p65 및 Rta를 포함한다. 구현예들에서, 전사 활성화제는 VP64, p65, 및 Rta를 포함한다. 양태들에서, 융합 단백질은 핵 국소화 서열을 추가로 포함한다. 양태들에서, 융합 단백질은 2 또는 3개의 핵 국소화 서열을 추가로 포함한다. 구현예들에서, 융합 단백질은 화학식 (III): R1-L1-R2-R3의 화합물과 적어도 85% 서열 동일성을 갖고; 여기서 R1은 서열 번호:1, 서열 번호:2, 서열 번호:3, 서열 번호:86, 서열 번호:97을 포함하고; L1은 부재하거나, 서열 번호:5, 서열 번호:6, 또는 서열 번호:98이고; R2는 서열 번호:9를 포함하고; R3은 서열 번호:13, 서열 번호:14, 서열 번호:15, 서열 번호:16, 서열 번호:17, 서열 번호:18, 서열 번호:100, 또는 이들 둘 이상의 조합을 포함한다. 구현예들에서, R3은 서열 번호:14, 서열 번호:15, 서열 번호:17, 서열 번호:100, 또는 이들 둘 이상의 조합을 포함한다. 구현예들에서, 융합 단백질은 화학식 (III)의 화합물과 적어도 90% 서열 동일성을 갖는다. 구현예들에서, 융합 단백질은 화학식 (III)의 화합물과 적어도 92% 서열 동일성을 갖는다. 구현예들에서, 융합 단백질은 화학식 (III)의 화합물과 적어도 94% 서열 동일성을 갖는다. 구현예들에서, 융합 단백질은 화학식 (III)의 화합물과 적어도 95% 서열 동일성을 갖는다. 구현예들에서, 융합 단백질은 화학식 (III)의 화합물과 적어도 96% 서열 동일성을 갖는다. 구현예들에서, 융합 단백질은 화학식 (III)의 화합물과 적어도 98% 서열 동일성을 갖는다.
구현예들에서, 융합 단백질은 N-말단으로부터 C-말단까지, 탈메틸화 도메인, XTEN 링커, 및 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소를 포함한다. 구현예들에서, 뉴클레아제-결핍 RNA-가이드된 엔도뉴클레아제 효소는 CRISPR-관련 단백질이다. 구현예들에서, 탈메틸화 도메인은 TET1 도메인, TET2 도메인, TET3 도메인, 또는 이들 둘 이상의 조합이다. 구현예들에서, 탈메틸화 도메인은 TET1 도메인이다. 구현예들에서, 탈메틸화 도메인은 TET2 도메인이다. 구현예들에서, 탈메틸화 도메인은 TET3 도메인이다. 구현예들에서, 융합 단백질은 전사 활성화제를 추가로 포함한다. 구현예들에서, 전사 활성화제는 VP64, p65, Rta, 또는 이들 둘 이상의 조합을 포함한다. 양태들에서, 융합 단백질은 핵 국소화 서열을 추가로 포함한다. 양태들에서, 융합 단백질은 2 또는 3개의 핵 국소화 서열을 추가로 포함한다.
구현예들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 dCas9, dCas12a, dCpf1, 아연 핑거 도메인, 류신 지퍼 도메인, 날개형 나선 도메인, TALE, 나선-회전-나선 모티프, 나선-루프-나선 도메인, HMB-박스 도메인, Wor3 도메인, OB-폴드 도메인, 면역글로불린 도메인, 또는 B3 도메인이다. 구현예들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 CRISPR-관련 단백질이다. 구현예들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 dCas9이다. 구현예들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 dCpf1이다. 구현예들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 Cas-phi이다. 구현예들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 류신 지퍼 도메인이다. 구현예들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 날개형 나선 도메인이다. 구현예들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 나선-회전-나선 모티프이다. 구현예들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 나선-루프-나선 도메인이다. 구현예들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 HMB-박스 도메인이다. 구현예들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 Wor3 도메인이다. 구현예들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 OB-폴드 도메인이다. 구현예들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 면역글로불린 도메인이다. 구현예들에서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 B3 도메인이다.
구현예들에서, 융합 단백질은 N-말단으로부터 C-말단까지, 탈메틸화 도메인, XTEN 링커, 및 뉴클레아제-결핍 DNA 엔도뉴클레아제 효소를 포함한다. 구현예들에서, 뉴클레아제-결핍 엔도뉴클레아제 효소는 아연 핑거 도메인이다. 구현예들에서, 뉴클레아제-결핍 엔도뉴클레아제 효소는 TALE이다. 구현예들에서, 탈메틸화 도메인은 TET1 도메인, TET2 도메인, TET3 도메인, 또는 이들 둘 이상의 조합이다. 구현예들에서, 탈메틸화 도메인은 TET1 도메인이다. 구현예들에서, 탈메틸화 도메인은 TET2 도메인이다. 구현예들에서, 탈메틸화 도메인은 TET3 도메인이다. 양태들에서, 융합 단백질은 핵 국소화 서열을 추가로 포함한다. 양태들에서, 융합 단백질은 2 또는 3개의 핵 국소화 서열을 추가로 포함한다.
구현예들에서, 융합 단백질은 N-말단으로부터 C-말단까지, 탈메틸화 도메인, XTEN 링커, 뉴클레아제-결핍 DNA 엔도뉴클레아제 효소, 및 전사 활성화제를 포함한다. 구현예들에서, 뉴클레아제-결핍 엔도뉴클레아제 효소는 아연 핑거 도메인이다. 구현예들에서, 뉴클레아제-결핍 엔도뉴클레아제 효소는 TALE이다. 구현예들에서, 탈메틸화 도메인은 TET1 도메인, TET2 도메인, TET3 도메인, 또는 이들 둘 이상의 조합이다. 구현예들에서, 탈메틸화 도메인은 TET1 도메인이다. 구현예들에서, 탈메틸화 도메인은 TET2 도메인이다. 구현예들에서, 탈메틸화 도메인은 TET3 도메인이다. 구현예들에서, 전사 활성화제는 VP64, p65, Rta, 또는 이들 둘 이상의 조합을 포함한다. 구현예들에서, 전사 활성화제는 VP64, p65, Rta, 또는 이들 둘 이상의 조합을 포함한다. 구현예들에서, 전사 활성화제는 VP64를 포함한다. 구현예들에서, 전사 활성화제는 p65를 포함한다. 구현예들에서, 전사 활성화제는 Rta를 포함한다. 구현예들에서, 전사 활성화제는 VP64 및 p65를 포함한다. 구현예들에서, 전사 활성화제는 VP64 및 Rta를 포함한다. 구현예들에서, 전사 활성화제는 p65 및 Rta를 포함한다. 구현예들에서, 전사 활성화제는 VP64, p65, 및 Rta를 포함한다. 양태들에서, 융합 단백질은 핵 국소화 서열을 추가로 포함한다. 양태들에서, 융합 단백질은 2 또는 3개의 핵 국소화 서열을 추가로 포함한다.
구현예들에서, 융합 단백질은 N-말단으로부터 C-말단까지, 탈메틸화 도메인, XTEN 링커, 및 뉴클레아제-결핍 DNA 엔도뉴클레아제 효소를 포함한다. 구현예들에서, 뉴클레아제-결핍 엔도뉴클레아제 효소는 아연 핑거 도메인이다. 구현예들에서, 뉴클레아제-결핍 엔도뉴클레아제 효소는 TALE이다. 구현예들에서, 탈메틸화 도메인은 TET1 도메인, TET2 도메인, TET3 도메인, 또는 이들 둘 이상의 조합이다. 구현예들에서, 탈메틸화 도메인은 TET1 도메인이다. 구현예들에서, 탈메틸화 도메인은 TET2 도메인이다. 구현예들에서, 탈메틸화 도메인은 TET3 도메인이다. 구현예들에서, 융합 단백질은 전사 활성화제를 추가로 포함한다. 구현예들에서, 전사 활성화제는 VP64, p65, Rta, 또는 이들 둘 이상의 조합을 포함한다. 양태들에서, 융합 단백질은 핵 국소화 서열을 추가로 포함한다. 양태들에서, 융합 단백질은 2 또는 3개의 핵 국소화 서열을 추가로 포함한다.
구현예들에서, XTEN 링커는 약 5 내지 약 864개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 10 내지 약 864개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 20 내지 약 864개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 30 내지 약 864개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 40 내지 약 864개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 50 내지 약 200개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 55 내지 약 180개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 60 내지 약 150개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 60 내지 약 120개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 60 내지 약 110개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 60 내지 약 100개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 70 내지 약 90개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 75 내지 약 85개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 80개의 아미노산 잔기를 포함한다. 양태들에서, 융합 단백질이 적어도 2개의 XTEN 펩티드 링커를 포함하는 경우, 약 50 내지 약 200개의 아미노산 잔기를 포함하는 XTEN 링커가 제1 XTEN 펩티드 링커로서 언급된다.
구현예들에서, XTEN 링커는 약 5 내지 약 55개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 5 내지 약 50개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 5 내지 약 40개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 10 내지 약 30개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 10 내지 약 25개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 10 내지 약 20개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 14 내지 약 18개의 아미노산 잔기를 포함한다. 양태들에서, XTEN 링커는 약 16개의 아미노산 잔기를 포함한다. 양태들에서, 융합 단백질이 적어도 2개의 XTEN 펩티드 링커를 포함하는 경우, 약 5 내지 약 55개의 아미노산 잔기를 포함하는 XTEN 링커가 제2 XTEN 펩티드 링커로서 언급된다.
본원에서 제공되는 융합 단백질에 대하여, 구현예들에서, 융합 단백질은 에피토프 택, 2A 펩티드, 형광 단백질 택, 핵 국소화 신호 펩티드, 또는 이들 둘 이상의 조합을 추가로 포함한다. 구현예들에서, 융합 단백질은 에피토프 택을 추가로 포함한다. 구현예들에서, 융합 단백질은 2A 펩티드를 추가로 포함한다. 구현예들에서, 융합 단백질은 형광 단백질 택을 추가로 포함한다. 구현예들에서, 융합 단백질은 핵 국소화 신호 펩티드를 추가로 포함한다.
본원에서 제공되는 융합 단백질에 대하여, 구현예들에서, 융합 단백질은 적어도 하나의 전사 활성화제를 추가로 포함한다. 구현예들에서, 전사 활성화제는 VP64, p65, Rta, 또는 이들 둘 이상의 조합을 포함한다. 구현예들에서, 전사 활성화제는 VP64, p65, Rta, 또는 이들 둘 이상의 조합을 포함한다. 구현예들에서, 전사 활성화제는 VP64를 포함한다. 구현예들에서, 전사 활성화제는 p65를 포함한다. 구현예들에서, 전사 활성화제는 Rta를 포함한다. 구현예들에서, 전사 활성화제는 VP64 및 p65를 포함한다. 구현예들에서, 전사 활성화제는 VP64 및 Rta를 포함한다. 구현예들에서, 전사 활성화제는 p65 및 Rta를 포함한다. 구현예들에서, 전사 활성화제는 VP64, p65, 및 Rta를 포함한다.
구현예들에서, RNA-결합 서열은 MS2 RNA-결합 서열이다. 구현예들에서, MS2 RNA-결합 서열은 MCP 단백질을 포함한다.
융합 단백질은 본원에 기재된 바와 같은 XTEN 링커를 포함할 수 있다. 구현예들에서, XTEN 링커는 약 10개의 아미노산 잔기 내지 약 864개의 아미노산 잔기를 포함한다.
구현예들에서, 융합 단백질은, N-말단으로부터 C-말단까지, TET1 도메인, XTEN 링커, CRISPR-관련 단백질, XTEN 링커, 핵 국소화 서열, 전사 활성화제, 및 핵 국소화 서열을 포함한다. 구현예들에서, 융합 단백질은, N-말단으로부터 C-말단까지, TET1 도메인, XTEN 링커, 아연 핑거 도메인, XTEN 링커, 핵 국소화 서열, 전사 활성화제, 및 핵 국소화 서열을 포함한다. 구현예들에서, 융합 단백질은, N-말단으로부터 C-말단까지, TET1 도메인, XTEN 링커, TALE, XTEN 링커, 핵 국소화 서열, Rta, 및 핵 국소화 서열을 포함한다. 구현예들에서, 융합 단백질은, N-말단으로부터 C-말단까지, TET1 도메인, XTEN 링커, dCas9, XTEN 링커, 핵 국소화 서열, 전사 활성화제, 및 핵 국소화 서열을 포함한다. 구현예들에서, 전사 활성화제는 VP64, p65, Rta, 또는 이들 둘 이상의 조합을 포함한다. 구현예들에서, 전사 활성화제는 Rta를 포함한다. 구현예들에서, 전사 활성화제는 VP64를 포함한다. 구현예들에서, 전사 활성화제는 p65를 포함한다. 구현예들에서, 전사 활성화제는 VP64 및 p65를 포함한다. 구현예들에서, 전사 활성화제는 VP64 및 Rta를 포함한다. 구현예들에서, 전사 활성화제는 p65 및 Rta를 포함한다. 구현예들에서, 전사 활성화제는 VP64, p65, 및 Rta를 포함한다. 구현예들에서, 융합 단백질은, N-말단으로부터 C-말단까지, 서열 번호:97, 서열 번호:98, 서열 번호:9, 서열 번호:6, 서열 번호:4, 서열 번호:15, 및 서열 번호:4를 포함한다. 구현예들에서, 융합 단백질은 서열 번호:99를 포함한다. 구현예들에서, 융합 단백질은 서열 번호:99이다. 양태들에서, 융합 단백질은 서열 번호:99와 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:99와 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:99와 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:99와 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:99와 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:99와 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다.
구현예들에서, 융합 단백질은, N-말단으로부터 C-말단까지, TET1 도메인, XTEN 링커, CRISPR-관련 단백질, XTEN 링커, 핵 국소화 서열, 2개의 전사 활성화제, 및 핵 국소화 서열을 포함한다. 구현예들에서, 융합 단백질은, N-말단으로부터 C-말단까지, TET1 도메인, XTEN 링커, 아연 핑거 도메인, XTEN 링커, 핵 국소화 서열, p65, Rta, 및 핵 국소화 서열을 포함한다. 구현예들에서, 융합 단백질은, N-말단으로부터 C-말단까지, TET1 도메인, XTEN 링커, TALE, XTEN 링커, 핵 국소화 서열, 2개의 전사 활성화제, 및 핵 국소화 서열을 포함한다. 구현예들에서, 융합 단백질은, N-말단으로부터 C-말단까지, TET1 도메인, XTEN 링커, dCas9, XTEN 링커, 핵 국소화 서열, 2개의 전사 활성화제, 및 핵 국소화 서열을 포함한다. 구현예들에서, 전사 활성화제는 VP64, p65, 및 Rta 중 적어도 2개를 포함한다. 구현예들에서, 전사 활성화제는 VP64 및 p65를 포함한다. 구현예들에서, 전사 활성화제는 VP64 및 Rta를 포함한다. 구현예들에서, 전사 활성화제는 p65 및 Rta를 포함한다. 구현예들에서, 전사 활성화제는 VP64, p65, 및 Rta를 포함한다. 구현예들에서, 융합 단백질은, N-말단으로부터 C-말단까지, 서열 번호:97, 서열 번호:98, 서열 번호:9, 서열 번호:6, 서열 번호:4, 서열 번호:100, 서열 번호:15, 및 서열 번호:4를 포함한다. 구현예들에서, 융합 단백질은 서열 번호:101을 포함한다. 구현예들에서, 융합 단백질은 서열 번호:101이다. 양태들에서, 융합 단백질은 서열 번호:101과 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:101과 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:101과 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:101과 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:101과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:101과 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다.
구현예들에서, 융합 단백질은, N-말단으로부터 C-말단까지, TET1 도메인, XTEN 링커, CAS-관련 단백질, 및 1 내지 3개의 핵 국소화 서열을 포함한다. 구현예들에서, 융합 단백질은, N-말단으로부터 C-말단까지, TET1 도메인, XTEN 링커, 아연 핑거 도메인, 및 1 내지 3개의 핵 국소화 서열을 포함한다. 구현예들에서, 융합 단백질은, N-말단으로부터 C-말단까지, TET1 도메인, XTEN 링커, TALE, 및 1 내지 3개의 핵 국소화 서열을 포함한다. 구현예들에서, 융합 단백질은, N-말단으로부터 C-말단까지, TET1 도메인, XTEN 링커, dCas9, 및 1 내지 3개의 핵 국소화 서열을 포함한다. 구현예들에서, 융합 단백질은 전사 활성화제를 추가로 포함한다. 구현예들에서, 융합 단백질은, N-말단으로부터 C-말단까지, 서열 번호:97, 서열 번호:98, 서열 번호:9, 및 서열 번호:4를 포함한다. 구현예들에서, 융합 단백질은 서열 번호:102를 포함한다. 구현예들에서, 융합 단백질은 서열 번호:102이다. 양태들에서, 융합 단백질은 서열 번호:102와 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:102와 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:102와 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:102와 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:102와 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:102와 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다.
구현예들에서, 융합 단백질은 서열 번호:103을 포함한다. 구현예들에서, 융합 단백질은 서열 번호:103이다. 양태들에서, 융합 단백질은 서열 번호:103과 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:103과 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:103과 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:103과 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:103과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:103과 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다.
구현예들에서, 융합 단백질은 서열 번호:111을 포함한다. 구현예들에서, 융합 단백질은 서열 번호:111이다. 양태들에서, 융합 단백질은 서열 번호:111과 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:111과 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:111과 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:111과 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:111과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:111과 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다.
구현예들에서, 융합 단백질은 서열 번호:112를 포함한다. 구현예들에서, 융합 단백질은 서열 번호:112이다. 양태들에서, 융합 단백질은 서열 번호:112와 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:112와 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:112와 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:112와 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:112와 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:112와 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다.
구현예들에서, 융합 단백질은 서열 번호:113을 포함한다. 구현예들에서, 융합 단백질은 서열 번호:113이다. 양태들에서, 융합 단백질은 서열 번호:113과 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:113과 적어도 75% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:113과 적어도 80% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:113과 적어도 85% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:113과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는다. 양태들에서, 융합 단백질은 서열 번호:113과 적어도 95% 서열 동일성을 갖는 아미노산 서열을 갖는다.
화학식 (III)의 화합물 또는 화학식 (III)의 화합물과 적어도 85% 서열 동일성을 갖는 화합물이 본원에서 제공되며, 여기서 화학식 (III)의 화합물은 R10-L1-R11-R12-L2-L3-(R13-L4)x-R14-X1-L5-X2-L6-X3-L7-R15이다. 구현예들에서, 화합물은 화학식 (III)의 화합물과 적어도 90% 서열 동일성을 갖는다. 구현예들에서, 화합물은 화학식 (III)의 화합물과 적어도 92% 서열 동일성을 갖는다. 구현예들에서, 화합물은 화학식 (III)의 화합물과 적어도 94% 서열 동일성을 갖는다. 구현예들에서, 화합물은 화학식 (III)의 화합물과 적어도 95% 서열 동일성을 갖는다. 구현예들에서, 화합물은 화학식 (III)의 화합물과 적어도 96% 서열 동일성을 갖는다. 구현예들에서, 화합물은 화학식 (III)의 화합물과 적어도 98% 서열 동일성을 갖는다. 구현예들에서, 화합물은 화학식 (III)을 갖는다. R10은 탈메틸화 도메인이다. 구현예들에서, R10은 서열 번호:1, 2, 3, 86, 97 (그의 구현예 포함)을 포함한다. 구현예들에서, R10은 서열 번호:97 (그의 구현예 포함)을 포함한다. L1은 결합 또는 펩티드 링커이다. 구현예들에서, L1은 결합이다. R11은 XTEN 링커이다. 구현예들에서, R11은 서열 번호:5, 6, 또는 98 (그의 구현예 포함을 포함한다. 구현예들에서, R11은 서열 번호:5 (그의 구현예 포함을 포함한다. 구현예들에서, R11은 서열 번호:6 (그의 구현예 포함을 포함한다. 구현예들에서, R11은 서열 번호:98 (그의 구현예 포함)을 포함한다. R12는 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소 또는 뉴클레아제-결핍 엔도뉴클레아제 효소를 포함한다. 구현예들에서, R12는 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소를 포함한다. 구현예들에서, R12는 CRISPR-관련 단백질을 포함한다. 구현예들에서, R12는 서열 번호:9 (그의 구현예 포함)를 포함한다. 구현예들에서, R12는 뉴클레아제-결핍 엔도뉴클레아제 효소를 포함한다. 구현예들에서, R12는 아연 핑거 도메인 또는 TALE를 포함한다. 구현예들에서, R12는 아연 핑거 도메인이다. 구현예들에서, R12는 TALE를 포함한다. L2는 결합 또는 XTEN 링커이다. 구현예들에서, L2는 결합 또는 XTEN 링커이다. 구현예들에서, L2는 결합이다. 구현예들에서, L2는 XTEN 링커이다. 구현예들에서, L2는 서열 번호:5, 6, 또는 98 (그의 구현예 포함)을 포함한다. 구현예들에서, L2는 서열 번호:5 (그의 구현예 포함을 포함한다. 구현예들에서, L2는 서열 번호:6 (그의 구현예 포함을 포함한다. 구현예들에서, L2는 서열 번호:98 (그의 구현예 포함)을 포함한다. L3은 결합 또는 펩티드 링커이다. 구현예들에서, L3은 결합이다. 구현예들에서, L3은 펩티드 링커이다. 구현예들에서, L3은 1개의 아미노산 내지 약 10개의 아미노산을 포함하는 펩티드 링커이다. 구현예들에서, L3은 3개의 아미노산 내지 약 5개의 아미노산을 포함하는 펩티드 링커이다. R13은 핵 국소화 서열을 포함한다. 구현예들에서, R13은 서열 번호:4 (그의 구현예 포함)를 포함한다. L4는 부재하거나 펩티드 링커이다. 구현예들에서, L4는 부재한다. 구현예들에서, L4는 펩티드 링커이다. 구현예들에서, L4는 1개의 아미노산 내지 약 10개의 아미노산을 포함하는 펩티드 링커이다. 구현예들에서, L4는 1개의 아미노산 내지 약 5개의 아미노산을 포함하는 펩티드 링커이다. 구현예들에서, L4는 1개의 아미노산 내지 약 4개의 아미노산을 포함하는 펩티드 링커이다. x는 0 내지 4의 정수이다. 구현예들에서, x는 0이다. 구현예들에서, x는 1이다. 구현예들에서, x는 2이다. 구현예들에서, x는 3이다. R14는 부재하거나 핵 국소화 서열이다. 구현예들에서, R14는 부재한다. 구현예들에서, R14는 핵 국소화 서열이다. 구현예들에서, R14는 서열 번호:4 (그의 구현예 포함)를 포함한다. X1, X2, 및 X3은 독립적으로 부재하거나 전사 활성화제이다. 구현예들에서, X1, X2, 및 X3은 독립적으로 전사 활성화제이다. 구현예들에서, X1, X2, 및 X3은 독립적으로 p65, Rta, 또는 VP64이다. 구현예들에서, X1, X2, 및 X3은 독립적으로 p65, Rta, 또는 VP64이며, 여기서 X1, X2, 및 X3은 각각 상이하다. 구현예들에서, X1 및 X2는 독립적으로 p65, Rta, 또는 VP64이고, X3은 부재한다. 구현예들에서, X1 및 X2는 독립적으로 p65, Rta, 또는 VP64이고; X3은 부재하고; X1 및 X2는 상이하다. 구현예들에서, X1은 p65, Rta, 또는 VP64이고; X2는 부재하고; X3은 부재한다. 구현예들에서, p65는 서열 번호:13, 14, 또는 100 (그의 구현예 포함)을 포함한다. 구현예들에서, p65는 서열 번호:13 (그의 구현예 포함)을 포함한다. 구현예들에서, p65는 서열 번호:14 (그의 구현예 포함)를 포함한다. 구현예들에서, p65는 서열 번호:100 (그의 구현예 포함)을 포함한다. 구현예들에서, Rta는 서열 번호:15 또는 16 (그의 구현예 포함)을 포함한다. 구현예들에서, Rta는 서열 번호:15 (그의 구현예 포함)를 포함한다. 구현예들에서, Rta는 서열 번호:16 (그의 구현예 포함)을 포함한다. 구현예들에서, VP64는 서열 번호:17 또는 18 (그의 구현예 포함)을 포함한다. 구현예들에서, VP64는 서열 번호:17 (그의 구현예 포함)을 포함한다. 구현예들에서, VP64는 서열 번호:18 (그의 구현예 포함)을 포함한다. L5는 부재하거나 펩티드 링커이다. 구현예들에서, L5는 부재한다. 구현예들에서, L5는 펩티드 링커를 포함한다. 구현예들에서, 펩티드 링커는 1개의 아미노산 내지 약 10개의 아미노산을 포함한다. 구현예들에서, 펩티드 링커는 3개의 아미노산 내지 약 5개의 아미노산을 포함한다. L6은 부재하거나 펩티드 링커이다. 구현예들에서, L6은 부재한다. 구현예들에서, L6은 펩티드 링커를 포함한다. 구현예들에서, 펩티드 링커는 1개의 아미노산 내지 약 10개의 아미노산을 포함한다. 구현예들에서, 펩티드 링커는 3개의 아미노산 내지 약 5개의 아미노산을 포함한다. L7은 부재하거나 펩티드 링커이다. 구현예들에서, L7은 부재한다. 구현예들에서, L7은 펩티드 링커를 포함한다. 구현예들에서, 펩티드 링커는 1개의 아미노산 내지 약 10개의 아미노산을 포함한다. 구현예들에서, 펩티드 링커는 3개의 아미노산 내지 약 5개의 아미노산을 포함한다. 구현예들에서, X1가 부재하는 경우, L5는 부재한다. 구현예들에서, X2가 부재하는 경우, L6은 부재한다. 구현예들에서, X3이 부재하는 경우, L7은 부재한다. 구현예들에서, X2가 부재하는 경우, X3은 부재하고, L6 및 L7은 부재한다. 구현예들에서, X1가 부재하는 경우, X2 및 X3은 부재하고, L5, L6, 및 L7은 부재한다. R15는 부재하거나 핵 국소화 서열이다. 구현예들에서, R15는 부재한다. 구현예들에서, R15는 핵 국소화 서열이다. 구현예들에서, R15는 서열 번호:4 (그의 구현예 포함)를 포함한다.
본원에 열거된 서열에서, 당업자는 번역을 개시하기 위해 단백질의 N-말단 상에 메티오닌 (M)이 존재할 수 있음을 인지할 것이다. 따라서, 본원에 기재된 서열은 임의로 N-말단 상에 메티오논을 추가로 포함할 수 있다.
복합체
융합 단백질이 에피게놈 편집을 수행하기 위해, 융합 단백질은 표적 폴리뉴클레오티드 서열 (예: 편집되는 표적 DNA 서열)에 대해 상보적이고 본원에 기재된 바와 같은 융합 단백질의 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소가 결합할 수 있는 서열 (즉, 결합 서열)을 추가로 포함하는 폴리뉴클레오티드 (예: sgRNA)와 상호작용한다 (예를 들어, 그에 비-공유적으로 결합함). 양태들에서, 표적 폴리뉴클레오티드 서열 (예: 편집되는 표적 게놈 DNA 서열)에 대해 상보적이고 본원에 기재된 바와 같은 융합 단백질의 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소가 결합할 수 있는 결합 서열을 추가로 포함하는 폴리뉴클레오티드는 sgRNA이다. 양태들에서, 표적 폴리뉴클레오티드 서열 (예: 편집되는 표적 게놈 DNA 서열)에 대해 상보적이고 본원에 기재된 바와 같은 융합 단백질의 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소가 결합할 수 있는 결합 서열을 추가로 포함하는 폴리뉴클레오티드는 cr:tracrRNA이다. 이 복합체를 형성함으로써, 융합 단백질은 에피게놈 편집을 수행하도록 적절히 배치된다. 용어 "복합체"는, 둘 이상의 성분을 포함하며, 여기서 성분들은 함께 결합하여 기능적 단위를 만드는 것인 조성물을 지칭한다. 양태들에서, 본원에 기재된 복합체는 본원에 기재된 융합 단백질 및 본원에 기재된 폴리뉴클레오티드를 포함한다. 따라서, 하나의 양태에서는, 그의 구현예 및 양태를 포함한, 본원에 기재된 바와 같은 융합 단백질, 및 sgRNA 또는 cr:tracrRNA (즉, (1) 표적 폴리뉴클레오티드 서열에 대해 상보적인 DNA-표적화 서열; 및 (2) 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소에 대한 결합 서열을 포함하며, 여기서 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소는 결합 서열 (예: DNA-표적화 서열에 결합할 수 있는 아미노산 서열)을 통해 폴리뉴클레오티드에 결합되는 것인, 폴리뉴클레오티드)가 제공된다. 양태들에서, 폴리뉴클레오티드는 적어도 하나의 MS2 루프를 포함한다.
양태들에서, 본원에 기재된 복합체는 본원에 기재된 융합 단백질, 본원에 기재된 폴리뉴클레오티드, 및 본원에 기재된 제2 융합 단백질을 포함한다. 양태들에서, 제2 융합 단백질은 본원에 기재된 전사 활성화제를 포함한다.
DNA-표적화 서열은 표적 폴리뉴클레오티드 서열 (DNA 또는 RNA)에 대해 상보적인 뉴클레오티드 서열을 포함하는 폴리뉴클레오티드를 지칭한다. 양태들에서, DNA-표적화 서열은 "단일-가이드 RNA", 또는 "sgRNA"를 포함할 수 있는 단일 RNA 분자 (단일 RNA 폴리뉴클레오티드)일 수 있다. 양태들에서, DNA-표적화 서열은 가이드 RNA (gRNA)로서 언급되는 2개의 RNA 분자 (예: 2개의 sgRNA) (예를 들어, 결합 서열 (예: dCas9-결합 서열)에서 하이브리드화를 통해 함께 연합된 것을 포함한다. 양태들에서, DNA-표적화 서열 (예: sgRNA)은 표적 폴리뉴클레오티드 서열에 대해 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 96%, 97%, 98% 또는 99% 상보적이다. 양태들에서, DNA-표적화 서열 (예: sgRNA)은 세포 유전자의 서열에 대해 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 96%, 97%, 98% 또는 99% 상보적이다. 양태들에서, DNA-표적화 서열 (예: sgRNA)은 세포 유전자 서열에 결합한다. 양태들에서, DNA-표적화 서열 (예: sgRNA)은 세포 유전자의 서열에 대해 적어도 75% 상보적이다. 양태들에서, DNA-표적화 서열 (예: sgRNA)은 세포 유전자의 서열에 대해 적어도 80% 상보적이다. 양태들에서, DNA-표적화 서열 (예: sgRNA)은 세포 유전자 서열에 결합한다. 양태들에서, DNA-표적화 서열 (예: sgRNA)은 세포 유전자의 서열에 대해 적어도 85% 상보적이다. 양태들에서, DNA-표적화 서열 (예: sgRNA)은 세포 유전자 서열에 결합한다. 양태들에서, DNA-표적화 서열 (예: sgRNA)은 세포 유전자의 서열에 대해 적어도 90% 상보적이다. 양태들에서, DNA-표적화 서열 (예: sgRNA)은 세포 유전자 서열에 결합한다. 양태들에서, DNA-표적화 서열 (예: sgRNA)은 세포 유전자의 서열에 대해 적어도 95% 상보적이다. 양태들에서, DNA-표적화 서열 (예: sgRNA)은 세포 유전자 서열에 결합한다. 양태들에서, DNA-표적화 서열 (예: sgRNA)은 적어도 하나의 MS2 스템 루프를 포함한다. 구현예들에서, MS2 스템 루프는 서열 번호:19의 서열을 포함한다. 구현예들에서, MS2 스템 루프는 서열 번호:19의 서열을 갖는다. 양태들에서, MS2 스템 루프는 서열 번호:19와 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 서열을 갖는다.
본원에서 제공되는 바와 같은 "표적 폴리뉴클레오티드 서열"은 가이드 서열 (또는 DNA-표적화 서열)이 상보성을 갖도록 디자인된 세포 내에 존재하는 또는 그에 의해 발현되는 핵산 서열이며, 여기서 표적 서열과 가이드 서열 (또는 DNA-표적화 서열) 사이의 하이브리드화는 복합체 (예: CRISPR 복합체)의 형성을 촉진하다. 완전한 상보성이 필수적으로 요구되지는 않으며, 단 하이브리드화를 유발하고 복합체 (예: CRISPR 복합체)의 형성을 촉진하기에 충분한 상보성이 존재한다. 양태들에서, 표적 폴리뉴클레오티드 서열은 외생적 핵산 서열이다. 양태들에서, 표적 폴리뉴클레오티드 서열은 내생적 핵산 서열이다.
표적 폴리뉴클레오티드 서열은 에피게놈 편집에 적합한 폴리뉴클레오티드 (예: DNA 서열)의 임의의 영역일 수 있다. 양태들에서, 표적 폴리뉴클레오티드 서열은 유전자의 부분이다. 양태들에서, 표적 폴리뉴클레오티드 서열은 전사 조절 서열의 부분이다. 양태들에서, 표적 폴리뉴클레오티드 서열은 프로모터, 인핸서 또는 사일렌서의 부분이다. 양태들에서, 표적 폴리뉴클레오티드 서열은 프로모터의 부분이다. 양태들에서, 표적 폴리뉴클레오티드 서열은 인핸서의 부분이다. 양태들에서, 표적 폴리뉴클레오티드 서열은 사일렌서의 부분이다.
구현예들에서, 표적 폴리뉴클레오티드 서열은 과메틸화된 핵산 서열이다. "과메틸화된 핵산 서열"은 당업계의 표준 의미에 따라 본원에서 사용되며 시토신의 5-메틸시토신으로의 빈번한 메틸화 (예를 들어 CpG에서)를 지칭한다. 메틸 기의 빈도 또는 발생은 표준 대조군에 대한 것일 수 있다. 과메틸화는, 예를 들어, 각각, 비-암 세포에 대하여 암 (예를 들어, DNA 복구 또는 아팝토시스 경로에서)에서 나타날 수 있다. 따라서, 복합체는 정상적 (예를 들어, 비-질환 상태의) 메틸화 수준을 재확립하기에 유용할 수 있다.
구현예들에서, 표적 폴리뉴클레오티드 서열은 전사 출발 부위 내에 또는 그에 인접하여 있다. 양태들에서, 표적 폴리뉴클레오티드 서열은 전사 출발 부위를 플랭킹하는 약 3000, 2500, 2000, 1500, 500, 100, 80, 70, 60, 50, 40, 30, 20, 10개, 또는 그 미만의 염기 쌍 (bp) 내에 있다.
구현예들에서, 표적 폴리뉴클레오티드 서열은 프로모터 서열에, 그 근처에, 또는 그 안에 있다. 양태들에서, 표적 폴리뉴클레오티드 서열은 CpG 섬 내에 있다. 양태들에서, 표적 폴리뉴클레오티드 서열은 비-CpG 섬 내에 있다. 양태들에서, 표적 폴리뉴클레오티드 서열은 DNA 과메틸화 또는 저메틸화를 특징으로 하는 질환 또는 병태와 관련되는 것으로 공지되어 있다.
구현예들에서, 복합체는 폴리뉴클레오티드의 결합 서열의 결합 및 그에 의한 리보뉴클레오단백질 복합체의 형성을 통해 폴리뉴클레오티드에 결합된 dCas9이다. 양태들에서, 결합 서열은 헤어핀 구조를 형성한다. 양태들에서, 결합 서열은 길이가 10-200 nt, 15-150 nt, 20-140 nt, 30-100 nt이다.
구현예들에서, 결합 서열 (예: Cas9-결합 서열)은 Cas9 단백질 (예: dCas9 단백질)과 상호작용하거나 그에 결합하고, 이들은 함께 DNA-표적화 서열에 의해 인식된 표적 폴리뉴클레오티드 서열에 결합한다. 결합 서열 (예: Cas9-결합 서열)은 서로에 대해 하이브리드화되어 이중 가닥 RNA 듀플렉스 (dsRNA 듀플렉스)를 형성하는 뉴클레오티드의 2개의 상보적 스트레치를 포함한다. 뉴클레오티드의 이들 2개의 상보적 스트레치는 링커로서 공지된 개재 뉴클레오티드 또는 링커 뉴클레오티드 (예를 들어, 단일-분자 폴리뉴클레오티드의 경우)에 의해 공유 연결되고, 하이브리드화되어 결합 서열 (예: Cas9-결합 서열)의 이중 가닥 RNA 듀플렉스 (dsRNA 듀플렉스, 또는 "Cas9-결합 헤어핀")를 형성하고, 그에 따라 스템-루프 구조를 생성할 수 있다. 대안적으로, 일부 양태에서, 뉴클레오티드의 2개의 상보적 스트레치는 공유 연결되지 않을 수 있지만, 대신에 상보적 서열 (예: 2-분자 폴리뉴클레오티드) 사이의 하이브리드화에 의해 함께 유지된다.
결합 서열 (예: Cas9-결합 서열)은 10개 뉴클레오티드 내지 200개 뉴클레오티드, 예를 들어, 20개 뉴클레오티드 (nt) 내지 150 nt의 길이를 가질 수 있다. 양태들에서, 결합 서열은 80개 뉴클레오티드 (nt) 내지 100 nt의 길이를 갖는다. 결합 서열 (예: Cas9-결합 서열)의 dsRNA 듀플렉스는 6개 염기 쌍 (bp) 내지 200 bp의 길이를 가질 수 있다. 예를 들어, 결합 서열 (예: Cas9-결합 서열)의 dsRNA 듀플렉스는 6 bp 내지 200 bp, 10 bp 내지 180 bp, 10 bp 내지 150 bp, 80 bp 내지 100 bp 등의 길이를 가질 수 있다.
핵산 및 벡터
그의 구현예를 포함한 본원에 기재된 융합 단백질은, 당업계에 공지된 다양한 방법으로 세포로 전달될 수 있다. 융합 단백질은 바이러스 전달 방법의 필요성을 우회하여 일시적으로 발현될 수 있다. 융합 단백질은 변형된 또는 변형되지 않은 RNA 또는 플라스미드 DNA로서 세포로 전달된 RNA 또는 DNA 상에 인코딩될 수 있다. 단백질을 인코딩하는 RNA 또는 DNA는 트랜스펙션, 지질 나노입자, 바이러스 유사 입자 (VLP) 또는 바이러스에 의해 전달될 수 있다. 이론적으로, 단백질은 또한 트랜스펙션 또는 지질 나노입자 또는 VLP를 통해 직접 전달될 수 있다.
그의 구현예 및 양태를 포함한 본원에 기재된 융합 단백질은, 융합 단백질에 대해 코딩하는 핵산 서열로서 제공될 수 있다. 따라서, 하나의 양태에서는, 그의 구현예 및 양태를 포함한 본원에 기재된 융합 단백질을 인코딩하는 핵산 서열이 제공된다. 하나의 양태에서는, 그의 구현예 및 양태를 포함한 본원에 기재된 융합 단백질을 인코딩하는 핵산 서열 (DNA-표적화 서열 포함)이 제공된다. 양태들에서, 핵산 서열은, 본원에 기재된 특정 % 서열 동일성을 갖는 아미노산 서열을 갖는 융합 단백질을 포함한 본원에 기재된 융합 단백질에 대해 인코딩한다. 양태들에서, 핵산은 RNA이다. 양태들에서, 핵산은 메신저 RNA이다. 양태들에서, 융합 단백질은 DNA, mRNA, 단백질 또는 RNP로서 전달된다. RNP에 대하여 단백질은 dCas9이고 RNA는 sgRNA를 인코딩한다. 유사하게 sgRNA는 프로모터 및 sgRNA를 인코딩하는 DNA, 프로모터 및 sgRNA를 인코딩하는 RNA로서 전달될 수 있다. 양태들에서, 핵산 서열은 그의 구현예 및 양태를 포함한 본원에 기재된 융합 단백질에 대해 인코딩한다.
양태들에서, 그의 구현예를 포함한 본원에서 제공되는 융합 단백질 및 sgRNA 또는 cr:tracrRNA는 융합 단백질 및 sgRNA 또는 cr:tracrRNA에 대해 인코딩하는 단일 핵산으로서 제공될 수 있다. 양태들에서, 그의 구현예를 포함한 본원에서 제공되는 융합 단백질 및 sgRNA 또는 cr:tracrRNA는 융합 단백질 및 sgRNA 또는 cr:tracrRNA에 대해 인코딩하는 다중 핵산으로서 제공될 수 있다. 구현예들에서, 융합 단백질 및 sgRNA 또는 cr:tracrRNA는 별도의 전사체로서 제공된다.
하나의 양태에서는, 탈메틸화 도메인, XTEN 링커, 및 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소를 포함하는 융합 단백질을 인코딩하는 핵산이 제공된다.
하나의 양태에서는, sgRNA 또는 cr:tracrRNA를 인코딩하는 제2 핵산이 제공된다. 구현예들에서, sgRNA는 적어도 하나의 MS2 서열을 포함한다. 구현예들에서, sgRNA는 2개의 MS2 서열을 포함한다. 구현예들에서, 제2 핵산 서열은 MS2-RNA 결합 서열, 및 본원에서 제공되는 적어도 하나의 전사 활성화제를 추가로 인코딩한다.
하나의 양태에서는, 전사 활성화제를 인코딩하는 제3 핵산이 제공된다. 구현예들에서, 제3 핵산은 RNA-결합 서열 및 XTEN 링커를 추가로 인코딩한다. 구현예들에서, RNA-결합 서열은 MS2 RNA-결합 서열이다.
그의 구현예 및 양태를 포함한 본원에 기재된 바와 같은 융합 단백질을 인코딩하는 핵산 서열은 벡터 중에 포함될 수 있음이 추가로 고려된다. 따라서, 하나의 양태에서는, 그의 구현예 및 양태를 포함한 본원에 기재된 바와 같은 핵산 서열을 포함한 벡터가 제공된다. 양태들에서, 벡터는 본원에 기재된 특정 % 서열 동일성을 갖는 아미노산 서열을 갖는 융합 단백질을 포함한 본원에 기재된 융합 단백질에 대해 인코딩하는 핵산 서열을 포함한다. 양태들에서, 핵산은 메신저 RNA이다. 양태들에서, 메신저 RNA는 메신저 RNP이다.
구현예들에서, 벡터는 폴리뉴클레오티드를 추가로 포함하며, 여기서 폴리뉴클레오티드는 (1) 표적 폴리뉴클레오티드 서열에 대해 상보적인 DNA-표적화 서열; 및 (2) 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소에 대한 결합 서열을 포함한다. 양태들에서, 벡터는 폴리뉴클레오티드를 추가로 포함하며, 여기서 폴리뉴클레오티드는 sgRNA를 포함한다. 양태들에서, 벡터는 폴리뉴클레오티드를 추가로 포함하며, 여기서 폴리뉴클레오티드는 cr:tracrRNA를 포함한다. 따라서, 하나 이상의 벡터는 에피게놈 편집을 수행하기 위한 모든 필수적 성분을 포함할 수 있다.
세포
본원에 기재된 조성물은 세포 내에 혼입될 수 있다. 세포 내부에서, 그의 구현예 및 양태를 포함한 본원에 기재된 바와 같은 조성물은 에피게놈 편집을 수행할 수 있다. 따라서, 하나의 양태에서는, 그의 구현예 및 양태를 포함한 본원에 기재된 바와 같은 융합 단백질, 그의 구현예 및 양태를 포함한 본원에 기재된 바와 같은 핵산, 그의 구현예 및 양태를 포함한 본원에 기재된 바와 같은 복합체, 또는 그의 구현예 및 양태를 포함한 본원에 기재된 바와 같은 벡터를 포함한 세포가 제공된다. 양태들에서, 그의 구현예 및 양태를 포함한 본원에 기재된 바와 같은 융합 단백질을 포함한 세포가 제공된다. 양태들에서, 그의 구현예 및 양태를 포함한 본원에 기재된 바와 같은 핵산을 포함한 세포가 제공된다. 양태들에서, 그의 구현예 및 양태를 포함한 본원에 기재된 바와 같은 복합체를 포함한 세포가 제공된다. 양태들에서, 그의 구현예 및 양태를 포함한 본원에 기재된 바와 같은 벡터를 포함한 세포가 제공된다. 양태들에서, 세포는 진핵 세포이다.
양태들에서, 세포는 포유동물 세포이다. 구현예들에서, 포유동물 세포는 HEK293T 세포이다. 구현예들에서, 포유동물 세포는 T 세포이다. 구현예들에서, 포유동물 세포는 조혈 줄기 세포이다. 구현예들에서, 포유동물 세포는 유도 만능 줄기 세포이다. 구현예들에서, 포유동물 세포는 배아 줄기 세포이다.
방법
본원에 기재된 방법은 에피게놈 편집, 또한 보다 구체적으로 표적 핵산 서열 (예: 유전자)의 활성화 또는 재활성화를 제공하는 에피게놈 편집에 사용될 수 있음이 고려된다. 본원에서 제공되는 방법은 DNA 후생유전학적 코드 및 히스톤 코드의 다중 편집을 위한 하나 이상의 융합 단백질의 모집을 포함한다. 방법은 전사의 장기적이지만 가역적인 활성화를 가능하게 하며, 이전에 사일런싱된 유전자를 활성화하기 위해 사용될 수 있다. 본원에서 제공되는 방법은 치료 목적으로 사용될 수 있다. 예를 들어, 본원에서 제공되는 하나 이상의 융합 단백질의 모집은 네가티브 조절 서열의 편집에 의해 유전자 발현을 활성화할 수 있다. 이 방법은 유전자의 발현을 차단하는 서열의 편집에 사용될 수 있다.
본원에 기재된 융합 단백질은 시간에 따라 유전자 활성화의 내구성 있는 기억을 프로그래밍한다. 유전자 활성화 (또는 재활성화)는 본원에 기재된 융합 단백질을 인코딩하는 mRNA의 트랜스펙션에 의해 달성된다. 따라서, 융합 단백질의 일시적인 발현은 효과적인 유전자 활성화 (또는 재활성화)를 초래한다. 본원에 기재된 융합 단백질을 사용한 CRISPRon 후생유전학적 기억은 지속된 이식유전자 발현보다는 세포에 의해 전파된다.
구현예들에서, 개시내용은, (i) (예를 들어, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소를 포함하는) 그의 모든 구현예 및 양태를 포함한 본원에 기재된 바와 같은 융합 단백질을 인코딩하는 제1 폴리뉴클레오티드를, 표적 핵산을 함유하는 세포로 전달하는 단계; 및 (ii) (a) sgRNA 또는 (b) cr:tracrRNA를 포함하는 제2 폴리뉴클레오티드를 세포로 전달하고; 이로써 세포에서 표적 핵산 서열을 활성화하는 단계를 포함하는, 세포에서의 표적 핵산 서열의 활성화 방법을 제공한다. 구현예들에서, 제2 폴리뉴클레오티드는 sgRNA를 포함한다. 구현예들에서, sgRNA는 적어도 하나의 MS2 스템 루프를 포함한다. 구현예들에서, sgRNA는 2개의 MS2 스템 루프를 포함한다. 양태들에서, 표적 핵산 서열은 CpG 섬을 포함한다. 양태들에서, 표적 핵산 서열은 비-CpG 섬을 포함한다.
구현예들에서, 개시내용은, (예를 들어, 뉴클레아제-결핍 DNA 엔도뉴클레아제 효소를 포함하는) 그의 모든 구현예 및 양태를 포함한 본원에 기재된 바와 같은 융합 단백질을 인코딩하는 폴리뉴클레오티드를, 표적 핵산을 함유하는 세포로 전달하고; 이로써 세포에서 표적 핵산 서열을 활성화하는 것을 포함하는, 세포에서의 표적 핵산 서열의 활성화 방법을 제공한다. 양태들에서, 표적 핵산 서열은 CpG 섬을 포함한다. 양태들에서, 표적 핵산 서열은 비-CpG 섬을 포함한다.
구현예들에서, 개시내용은, (i) (예를 들어, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소를 포함하는) 그의 모든 구현예 및 양태를 포함한 본원에 기재된 바와 같은 융합 단백질을 인코딩하는 제1 폴리뉴클레오티드를, 사일런싱된 표적 핵산을 함유하는 세포로 전달하는 단계; 및 (ii) (a) sgRNA 또는 (b) cr:tracrRNA를 포함하는 제2 폴리뉴클레오티드를 세포로 전달하고; 이로써 세포에서 사일런싱된 표적 핵산 서열을 재활성화하는 단계를 포함하는, 세포에서의 사일런싱된 표적 핵산 서열의 재활성화 방법을 제공한다. 구현예들에서, 제2 폴리뉴클레오티드는 sgRNA를 포함한다. 구현예들에서, sgRNA는 적어도 하나의 MS2 스템 루프를 포함한다. 구현예들에서, sgRNA는 2개의 MS2 스템 루프를 포함한다. 양태들에서, 표적 핵산 서열은 CpG 섬을 포함한다. 양태들에서, 표적 핵산 서열은 비-CpG 섬을 포함한다.
구현예들에서, 개시내용은, (예를 들어, 뉴클레아제-결핍 DNA 엔도뉴클레아제 효소를 포함하는) 그의 모든 구현예 및 양태를 포함한 본원에 기재된 바와 같은 융합 단백질을 인코딩하는 폴리뉴클레오티드를, 표적 핵산을 함유하는 세포로 전달하고; 이로써 세포에서 표적 핵산 서열을 재활성화하는 것을 포함하는, 세포에서의 표적 핵산 서열의 재활성화 방법을 제공한다. 양태들에서, 표적 핵산 서열은 CpG 섬을 포함한다. 양태들에서, 표적 핵산 서열은 비-CpG 섬을 포함한다.
구현예들에서, 개시내용은, (i) (예를 들어, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소를 포함하는) 그의 모든 구현예 및 양태를 포함한 본원에 기재된 바와 같은 융합 단백질을 인코딩하는 폴리뉴클레오티드를, 표적 핵산을 함유하는 세포로 전달하며; 여기서 폴리뉴클레오티드는 (a) sgRNA 또는 (b) cr:tracrRNA를 추가로 인코딩하고; 이로써 세포에서 표적 핵산 서열을 활성화하는 것을 포함하는, 세포에서의 표적 핵산 서열의 활성화 방법을 제공한다. 구현예들에서, 폴리뉴클레오티드는 sgRNA를 포함한다. 구현예들에서, sgRNA는 적어도 하나의 MS2 스템 루프를 포함한다. 구현예들에서, sgRNA는 2개의 MS2 스템 루프를 포함한다. 양태들에서, 표적 핵산 서열은 CpG 섬을 포함한다. 양태들에서, 표적 핵산 서열은 비-CpG 섬을 포함한다.
구현예들에서, 개시내용은, (예를 들어, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소를 포함하는) 그의 모든 구현예 및 양태를 포함한 본원에 기재된 바와 같은 융합 단백질을 인코딩하는 폴리뉴클레오티드를, 사일런싱된 표적 핵산을 함유하는 세포로 전달하며; 여기서 폴리뉴클레오티드는 (a) sgRNA 또는 (b) cr:tracrRNA를 추가로 인코딩하고; 이로써 세포에서 사일런싱된 표적 핵산 서열을 재활성화하는 것을 포함하는, 세포에서의 사일런싱된 표적 핵산 서열의 재활성화 방법을 제공한다. 구현예들에서, 폴리뉴클레오티드는 sgRNA를 포함한다. 구현예들에서, sgRNA는 적어도 하나의 MS2 스템 루프를 포함한다. 구현예들에서, sgRNA는 2개의 MS2 스템 루프를 포함한다. 양태들에서, 표적 핵산 서열은 CpG 섬을 포함한다. 양태들에서, 표적 핵산 서열은 비-CpG 섬을 포함한다.
본원에 기재된 표적 핵산 서열의 활성화 또는 사일런싱된 표적 핵산 서열의 재활성화 방법에서, 표적 핵산은 CpG 섬 및 비-CpG 섬을 포함한다. "CpG 섬을 포함함" 또는 "비-CpG 섬을 포함함"은 각각 하나 이상의 CpG 섬 또는 비-CpG 섬을 지칭한다. 양태들에서, 표적 핵산 서열은 복수의 CpG 섬 (예: 2, 3, 4, 5개, 또는 그 초과의 CpG 섬)을 포함한다. 양태들에서, 표적 핵산 서열은 복수의 비-CpG 섬 (예: 2, 3, 4, 5개, 또는 그 초과의 비-CpG 섬)을 포함한다. 양태들에서, 표적 핵산 서열은 CpG 섬을 포함하지 않고 비-CpG 섬을 포함하지 않는다.
구현예들에서, MS2 스템 루프는 서열 번호:19의 서열을 포함한다. 구현예들에서, MS2 스템 루프는 서열 번호:19의 서열을 갖는다. 양태들에서, MS2 스템 루프는 서열 번호:19와 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 서열을 갖는다. 양태들에서, MS2 스템 루프는 서열 번호:19와 적어도 85% 서열 동일성을 갖는 서열을 갖는다. 양태들에서, MS2 스템 루프는 서열 번호:19와 적어도 90% 서열 동일성을 갖는 서열을 갖는다. 양태들에서, MS2 스템 루프는 서열 번호:19와 적어도 95% 서열 동일성을 갖는 서열을 갖는다. 양태들에서, MS2 스템 루프는 서열 번호:20과 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 서열을 갖는다. 양태들에서, MS2 스템 루프는 서열 번호:20과 적어도 85% 서열 동일성을 갖는 서열을 갖는다. 양태들에서, MS2 스템 루프는 서열 번호:20과 적어도 90% 서열 동일성을 갖는 서열을 갖는다. 양태들에서, MS2 스템 루프는 서열 번호:20과 적어도 95% 서열 동일성을 갖는 서열을 갖는다.
구현예들에서, 제2 폴리뉴클레오티드는 전사 활성화제를 포함하는 제2 융합 단백질을 추가로 인코딩한다. 구현예들에서, 전사 활성화제는 VP64, p65, Rta, 또는 이들 둘 이상의 조합이다. 구현예들에서, 전사 활성화제는 VP64이다. 구현예들에서, 전사 활성화제는 p65이다. 구현예들에서, 전사 활성화제는 Rta이다. 구현예들에서, 전사 활성화제는 VP64, p65, Rta, 또는 이들 둘 이상의 조합을 포함한다. 구현예들에서, 전사 활성화제는 VP64를 포함한다. 구현예들에서, 전사 활성화제는 p65를 포함한다. 구현예들에서, 전사 활성화제는 Rta를 포함한다. 구현예들에서, 전사 활성화제는 VP64 및 p65를 포함한다. 구현예들에서, 전사 활성화제는 VP64 및 Rta를 포함한다. 구현예들에서, 전사 활성화제는 p65 및 Rta를 포함한다. 구현예들에서, 전사 활성화제는 VP64, p65, 및 Rta를 포함한다.
구현예들에서, 제2 융합 단백질은 MS2 RNA-결합 서열을 포함한다. 구현예들에서, MS2 RNA-결합 서열은 MCP 단백질 또는 그의 기능적 단편을 포함한다.
구현예들에서, 방법은 전사 활성화제를 포함하는 제2 융합 단백질을 인코딩하는 제3 폴리뉴클레오티드를 세포로 전달하는 것을 추가로 포함한다. 구현예들에서, 전사 활성화제는 VP64, p65, Rta, 또는 이들 둘 이상의 조합이다. 구현예들에서, 전사 활성화제는 VP64이다. 구현예들에서, 전사 활성화제는 p65이다. 구현예들에서, 전사 활성화제는 Rta이다. 구현예들에서, 전사 활성화제는 VP64, p65, Rta, 또는 이들 둘 이상의 조합을 포함한다. 구현예들에서, 전사 활성화제는 VP64를 포함한다. 구현예들에서, 전사 활성화제는 p65를 포함한다. 구현예들에서, 전사 활성화제는 Rta를 포함한다. 구현예들에서, 전사 활성화제는 VP64 및 p65를 포함한다. 구현예들에서, 전사 활성화제는 VP64 및 Rta를 포함한다. 구현예들에서, 전사 활성화제는 p65 및 Rta를 포함한다. 구현예들에서, 전사 활성화제는 VP64, p65, 및 Rta를 포함한다.
본원에서 제공되는 방법에 대하여, 구현예들에서, 제2 융합 단백질은 XTEN 링커, 에피토프 택, 2A 펩티드, 형광 단백질 택, 핵 국소화 신호 펩티드, 또는 이들 둘 이상의 조합을 추가로 포함한다. 구현예들에서, 제2 융합 단백질은 XTEN 링커를 추가로 포함한다. 구현예들에서, 제2 융합 단백질은 에피토프 택을 추가로 포함한다. 구현예들에서, 제2 융합 단백질은 2A 펩티드를 추가로 포함한다. 구현예들에서, 제2 융합 단백질은 형광 단백질 택을 추가로 포함한다. 구현예들에서, 제2 융합 단백질은 핵 국소화 신호 펩티드를 추가로 포함한다.
용어 "CpG 섬"은 서로 인접한 뉴클레오티드 G 및 C (즉, CpG 디뉴클레오티드)의 높은 빈도를 갖는 핵산 내의 영역을 지칭하기 위해 그의 통상적 의미로 사용된다. 양태들에서, CpG 섬은 적어도 200개의 염기 쌍 및 50% 초과의 GC 함량을 가지며, 관찰-대-예상 CpG 비율이 60% 초과인 핵산 서열의 영역을 지칭한다. 백분율 CpG는 길이에 대한 CpG 뉴클레오티드 염기 (CpG 카운트의 2배)의 비율이다. 관찰 대 예상 CpG의 비율은 하기 식에 따라 계산되며:
Obs/Exp CpG = CpG의 수 * N / (C의 수 * G의 수),
여기서 N = 서열의 길이이다. 하기 문헌 참조: Gardiner-Garden 등, Journal of Molecular Biology, 196(2):261-282 (1987)).
어구 "표적 핵산은 CpG 섬을 포함하지 않음" 또는 "CpG 섬을 포함하지 않는 표적 핵산" 또는 "비-CpG 섬"은, 그 용어가 본원에서 정의되는 바와 같은 "CpG 섬"을 함유하지 않는 표적 핵산을 지칭한다. 이 영역은 포유동물 (예: 인간) 게놈에 의해 인코딩되는 임의의 영역일 수 있다. 양태들에서, 어구 "표적 핵산은 CpG 섬을 포함하지 않음"은 서로 인접한 뉴클레오티드 G 및 C (즉, CpG 디뉴클레오티드)를 갖지 않는 또는 서로 인접한 뉴클레오티드 G 및 C의 낮은 빈도를 갖는 표적 핵산 내의 영역을 지칭한다. 양태들에서, 비-CpG 섬은 50% 미만의 GC 디뉴클레오티드 함량을 가지며, 관찰-대-예상 CpG 비율이 60% 미만인 영역을 갖는 표적 핵산의 영역을 지칭한다. 양태들에서, 비-CpG 섬은 50% 미만의 GC 디뉴클레오티드 함량을 가지며, 관찰-대-예상 CpG 비율이 60% 미만인 표적 핵산의 영역을 지칭한다. 양태들에서, 비-CpG 섬은 50% 미만의 GC 디뉴클레오티드 함량을 가지며, 관찰-대-예상 CpG 비율이 60% 미만인 표적 핵산의 영역을 지칭한다. 양태들에서, 비-CpG 섬은 50% 미만의 GC 디뉴클레오티드 함량을 가지며, 관찰-대-예상 CpG 비율이 60% 미만인 표적 핵산의 영역을 지칭한다. 양태들에서, 비-CpG 섬은 50% 미만의 GC 디뉴클레오티드 함량을 가지며, 관찰-대-예상 CpG 비율이 60% 미만인 표적 핵산의 영역을 지칭한다. 양태들에서, 비-CpG 섬은 45% 미만의 GC 디뉴클레오티드 함량을 가지며, 관찰-대-예상 CpG 비율이 55% 미만인 표적 핵산의 영역을 지칭한다. 양태들에서, 비-CpG 섬은 40% 미만의 GC 디뉴클레오티드 함량을 가지며, 관찰-대-예상 CpG 비율이 50% 미만인 표적 핵산의 영역을 지칭한다. 양태들에서, 비-CpG 섬은 1% 내지 45%의 GC 디뉴클레오티드 함량을 가지며, 관찰-대-예상 CpG 비율이 60% 미만인 표적 핵산의 영역을 지칭한다. 양태들에서, 비-CpG 섬은 1% 내지 45%의 GC 디뉴클레오티드 함량을 가지며, 관찰-대-예상 CpG 비율이 55% 미만인 표적 핵산의 영역을 지칭한다. 양태들에서, 비-CpG 섬은 1% 내지 45%의 GC 디뉴클레오티드 함량을 가지며, 관찰-대-예상 CpG 비율이 50% 미만인 표적 핵산의 영역을 지칭한다. 양태들에서, 비-CpG 섬은 5% 내지 40%의 GC 디뉴클레오티드 함량을 가지며, 관찰-대-예상 CpG 비율이 60% 미만인 표적 핵산의 영역을 지칭한다. 양태들에서, 비-CpG 섬은 5% 내지 40%의 GC 디뉴클레오티드 함량을 가지며, 관찰-대-예상 CpG 비율이 55% 미만인 표적 핵산의 영역을 지칭한다. 양태들에서, 비-CpG 섬은 5% 내지 40%의 GC 디뉴클레오티드 함량을 가지며, 관찰-대-예상 CpG 비율이 50% 미만인 표적 핵산의 영역을 지칭한다. 양태들에서, 비-CpG 섬은 10% 내지 40%의 GC 디뉴클레오티드 함량을 가지며, 관찰-대-예상 CpG 비율이 60% 미만인 표적 핵산의 영역을 지칭한다. 양태들에서, 비-CpG 섬은 10% 내지 40%의 GC 디뉴클레오티드 함량을 가지며, 관찰-대-예상 CpG 비율이 55% 미만인 표적 핵산의 영역을 지칭한다. 양태들에서, 비-CpG 섬은 10% 내지 40%의 GC 디뉴클레오티드 함량을 가지며, 관찰-대-예상 CpG 비율이 50% 미만인 표적 핵산의 영역을 지칭한다. 양태들에서, CpG 섬을 포함하지 않는 표적 핵산은 200개 미만의 염기 쌍을 갖는다.
구현예 1-69.
구현예 1. N-말단으로부터 C-말단까지, 탈메틸화 도메인, XTEN 링커, 및 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소를 포함하는 융합 단백질.
구현예 2. 탈메틸화 도메인이 TET1 도메인, TET2 도메인, TET3 도메인, 또는 이들 둘 이상의 조합인, 구현예 1의 융합 단백질.
구현예 3. 탈메틸화 도메인이 TET1 도메인인, 구현예 2의 융합 단백질.
구현예 4. TET1 도메인이 서열 번호:1, 서열 번호:86, 또는 서열 번호:97과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 포함하는 것인, 구현예 2의 융합 단백질.
구현예 5. 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소가 dCas9, dCas12a, dCpf1, Cas-phi, 나선-회전-나선 모티프, 나선-루프-나선 도메인, HMB-박스 도메인, Wor3 도메인, OB-폴드 도메인, 면역글로불린 도메인, 또는 B3 도메인인, 구현예 1 내지 4 중 어느 하나의 융합 단백질.
구현예 6. 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소가 dCas9인, 구현예 5의 융합 단백질.
구현예 7. XTEN 링커가 약 10개의 아미노산 잔기 내지 약 864개의 아미노산 잔기를 포함하는 것인, 구현예 1 내지 6 중 어느 하나의 융합 단백질.
구현예 8. XTEN 링커가 서열 번호:5, 서열 번호:6 또는 서열 번호:98과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 포함하는 것인, 구현예 7의 융합 단백질.
구현예 9. 에피토프 택, 2A 펩티드, 형광 단백질 택, 핵 국소화 신호 펩티드, 또는 이들 둘 이상의 조합을 추가로 포함하는, 구현예 1 내지 8 중 어느 하나의 융합 단백질.
구현예 10. N-말단으로부터 C-말단까지, RNA-결합 서열, XTEN 링커, 및 적어도 하나의 전사 활성화제를 포함하는 융합 단백질.
구현예 11. 전사 활성화제가 VP64, p65, Rta, 또는 이들 둘 이상의 조합인, 구현예 10의 융합 단백질.
구현예 12. p65가 서열 번호:13, 서열 번호:14, 또는 서열 번호:100과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 포함하는 것인, 구현예 11의 융합 단백질.
구현예 13. Rta가 서열 번호:15 또는 서열 번호:16과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 포함하는 것인, 구현예 11 또는 12의 융합 단백질.
구현예 14. VP64가 서열 번호:17 또는 서열 번호:18과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 포함하는 것인, 구현예 11 내지 13 중 어느 하나의 융합 단백질.
구현예 15. RNA-결합 서열이 MS2 RNA-결합 서열인, 구현예 10 내지 14 중 어느 하나의 융합 단백질.
구현예 16. MS2 RNA-결합 서열이 서열 번호:21의 아미노산 서열을 포함하는 것인, 구현예 15의 융합 단백질.
구현예 17. XTEN 링커가 약 10개의 아미노산 잔기 내지 약 864개의 아미노산 잔기를 포함하는 것인, 구현예 10 내지 16 중 어느 하나의 융합 단백질.
구현예 18. 서열 번호:104, 서열 번호:105, 서열 번호:106, 서열 번호:107, 서열 번호:108, 서열 번호:109, 또는 서열 번호:110과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는 구현예 10의 융합 단백질.
구현예 19. 에피토프 택, 2A 펩티드, 형광 단백질 택, 핵 국소화 신호 펩티드, 또는 이들 둘 이상의 조합을 추가로 포함하는 구현예 10 내지 18 중 어느 하나의 융합 단백질.
구현예 20. N-말단으로부터 C-말단까지, 탈메틸화 도메인, 제1 XTEN 링커, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소, 제2 XTEN 링커, 및 전사 활성화제를 포함하는 융합 단백질.
구현예 21. 전사 활성화제가 VP64, p65, Rta, 또는 이들 둘 이상의 조합인, 구현예 20의 융합 단백질.
구현예 22. N-말단으로부터 C-말단까지, 탈메틸화 도메인, XTEN 링커, 및 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소를 포함하는 융합 단백질.
구현예 23. 핵 국소화 서열을 추가로 포함하는 구현예 20 내지 22 중 어느 하나의 융합 단백질.
구현예 24. 탈메틸화 도메인이 TET1 도메인, TET2 도메인, TET3 도메인, 또는 이들 둘 이상의 조합인, 구현예 20 내지 23 중 어느 하나의 융합 단백질.
구현예 25. 탈메틸화 도메인이 TET1 도메인인, 구현예 24의 융합 단백질.
구현예 26. 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소가 dCas9, dCas12a, dCpf1, Cas-phi, 류신 지퍼 도메인, 날개형 나선 도메인, 나선-회전-나선 모티프, 나선-루프-나선 도메인, HMB-박스 도메인, Wor3 도메인, OB-폴드 도메인, 면역글로불린 도메인, 또는 B3 도메인인, 구현예 20 내지 25 중 어느 하나의 융합 단백질.
구현예 27. 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소가 dCas9인, 구현예 26의 융합 단백질.
구현예 28. 제1 XTEN 링커 및 제2 XTEN 링커가 각각 독립적으로 약 10개의 아미노산 잔기 내지 약 864개의 아미노산 잔기를 포함하는 것인, 구현예 20 내지 27 중 어느 하나의 융합 단백질.
구현예 29. 에피토프 택, 2A 펩티드, 형광 단백질 택, 또는 이들 둘 이상의 조합을 추가로 포함하는 구현예 20 내지 28 중 어느 하나의 융합 단백질.
구현예 30. 서열 번호:99, 서열 번호:101, 서열 번호:102, 서열 번호:111, 서열 번호:112, 또는 서열 번호:113과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 포함하는 융합 단백질.
구현예 31. 서열 번호:99, 서열 번호:101, 서열 번호:102, 서열 번호:111, 서열 번호:112, 또는 서열 번호:113과 적어도 95% 서열 동일성을 갖는 아미노산 서열을 포함하는 구현예 30의 융합 단백질.
구현예 32. 서열 번호:99, 서열 번호:101, 서열 번호:102, 서열 번호:111, 서열 번호:112, 또는 서열 번호:113을 포함하는 구현예 31의 융합 단백질.
구현예 33. (i) 구현예 1 내지 32 중 어느 하나의 융합 단백질을 인코딩하는 제1 폴리뉴클레오티드를 표적 핵산을 함유하는 세포로 전달하는 단계; 및 (ii) (a) sgRNA 또는 (b) cr:tracrRNA를 포함하는 제2 폴리뉴클레오티드를 세포로 전달하고; 이로써 세포에서 표적 핵산 서열을 활성화 또는 재활성화하는 단계를 포함하는, 세포에서의 표적 핵산 서열의 활성화 또는 재활성화 방법.
구현예 34. 표적 핵산 서열이 CpG 섬을 포함하는 것인, 구현예 32의 방법.
구현예 35. 표적 핵산 서열이 비-CpG 섬을 포함하는 것인, 구현예 32의 방법.
구현예 36. 제2 폴리뉴클레오티드가 sgRNA를 포함하는 것인, 구현예 32 내지 35 중 어느 하나의 방법.
구현예 37. sgRNA가 적어도 하나의 MS2 스템 루프를 포함하는 것인, 구현예 32 내지 36 중 어느 하나의 방법.
구현예 38. sgRNA가 2개의 MS2 스템 루프를 포함하는 것인, 구현예 37의 방법.
구현예 39. 제2 폴리뉴클레오티드가 전사 활성화제를 인코딩하는 것인, 구현예 32 내지 38 중 어느 하나의 방법.
구현예 40. 전사 활성화제가 VP64, p65, Rta, 또는 이들 둘 이상의 조합인, 구현예 39의 방법.
구현예 41. 제2 폴리뉴클레오티드가 MS2 RNA-결합 서열을 추가로 인코딩하는 것인, 구현예 32 내지 40 중 어느 하나의 방법.
구현예 42. MS2 RNA-결합 서열이 서열 번호:21의 아미노산 서열을 포함하는 것인, 구현예 41의 방법.
구현예 43. 제2 폴리뉴클레오티드가 XTEN 링커, 에피토프 택, 2A 펩티드, 형광 단백질 택, 핵 국소화 신호 펩티드, 또는 이들 둘 이상의 조합에 대하여 추가로 인코딩하는 것인, 구현예 32 내지 42 중 어느 하나의 방법.
구현예 44. 전사 활성화제를 포함하는 제2 융합 단백질을 인코딩하는 제3 폴리뉴클레오티드를 세포로 전달하는 것을 추가로 포함하는, 구현예 32 내지 43 중 어느 하나의 방법.
구현예 45. 전사 활성화제가 VP64, p65, Rta, 또는 이들 둘 이상의 조합인, 구현예 44의 방법.
구현예 46. 제2 융합 단백질이 MS2 RNA-결합 서열을 추가로 포함하는 것인, 구현예 44 또는 45의 방법.
구현예 47. MS2 RNA-결합 서열이 서열 번호:21의 아미노산 서열을 포함하는 것인, 구현예 46의 방법.
구현예 48. 제2 융합 단백질이 XTEN 링커, 에피토프 택, 2A 펩티드, 형광 단백질 택, 핵 국소화 신호 펩티드, 또는 이들 둘 이상의 조합을 추가로 포함하는 것인, 구현예 44 내지 47 중 어느 하나의 방법.
구현예 49. N-말단으로부터 C-말단까지, 탈메틸화 도메인, XTEN 링커, 및 뉴클레아제-결핍 DNA 엔도뉴클레아제 효소를 포함하는 융합 단백질.
구현예 50. 탈메틸화 도메인이 TET1 도메인, TET2 도메인, TET3 도메인, 또는 이들 둘 이상의 조합인, 구현예 49의 융합 단백질.
구현예 51. 탈메틸화 도메인이 TET1 도메인인, 구현예 49의 융합 단백질.
구현예 52. TET1 도메인이 서열 번호:1, 서열 번호:86, 또는 서열 번호:97과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 포함하는 것인, 구현예 51의 융합 단백질.
구현예 53. 뉴클레아제-결핍 DNA 엔도뉴클레아제 효소가 아연 핑거 도메인인, 구현예 49 내지 52 중 어느 하나의 융합 단백질.
구현예 54. 뉴클레아제-결핍 DNA 엔도뉴클레아제 효소가 TALE인, 구현예 49 내지 52 중 어느 하나의 융합 단백질.
구현예 55. XTEN 링커가 약 10개의 아미노산 잔기 내지 약 864개의 아미노산 잔기를 포함하는 것인, 구현예 49 내지 54 중 어느 하나의 융합 단백질.
구현예 56. XTEN 링커가 서열 번호:5, 서열 번호:6 또는 서열 번호:98과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 포함하는 것인, 구현예 55의 융합 단백질.
구현예 57. 에피토프 택, 2A 펩티드, 형광 단백질 택, 핵 국소화 신호 펩티드, 또는 이들 둘 이상의 조합을 추가로 포함하는 구현예 49 내지 56 중 어느 하나의 융합 단백질.
구현예 58. N-말단으로부터 C-말단까지, 탈메틸화 도메인, 제1 XTEN 링커, 뉴클레아제-결핍 DNA 엔도뉴클레아제 효소, 제2 XTEN 링커, 및 전사 활성화제를 포함하는 융합 단백질.
구현예 59. 전사 활성화제가 VP64, p65, Rta, 또는 이들 둘 이상의 조합인, 구현예 58의 융합 단백질.
구현예 60. N-말단으로부터 C-말단까지, 탈메틸화 도메인, XTEN 링커, 및 뉴클레아제-결핍 DNA 엔도뉴클레아제 효소를 포함하는 융합 단백질.
구현예 61. 핵 국소화 서열을 추가로 포함하는 구현예 58 내지 60 중 어느 하나의 융합 단백질.
구현예 62. 탈메틸화 도메인이 TET1 도메인, TET2 도메인, TET3 도메인, 또는 이들 둘 이상의 조합인, 구현예 58 내지 61 중 어느 하나의 융합 단백질.
구현예 63. 탈메틸화 도메인이 TET1 도메인인, 구현예 62의 융합 단백질.
구현예 64. 뉴클레아제-결핍 DNA 엔도뉴클레아제 효소가 아연 핑거 도메인인, 구현예 58 내지 63 중 어느 하나의 융합 단백질.
구현예 65. 뉴클레아제-결핍 DNA 엔도뉴클레아제 효소가 TALE인, 구현예 58 내지 63 중 어느 하나의 융합 단백질.
구현예 66. 제1 XTEN 링커 및 제2 XTEN 링커가 각각 독립적으로 약 10개의 아미노산 잔기 내지 약 864개의 아미노산 잔기를 포함하는 것인, 구현예 58 내지 65 중 어느 하나의 융합 단백질.
구현예 67. 에피토프 택, 2A 펩티드, 형광 단백질 택, 또는 이들 둘 이상의 조합을 추가로 포함하는 구현예 58 내지 66 중 어느 하나의 융합 단백질.
구현예 68. 구현예 58 내지 67 중 어느 하나의 융합 단백질을 인코딩하는 폴리뉴클레오티드를 표적 핵산을 함유하는 세포로 전달하고; 이로써 세포에서 표적 핵산 서열을 활성화 또는 재활성화하는 것을 포함하는, 세포에서의 표적 핵산 서열의 활성화 또는 재활성화 방법.
구현예 69. 전사 활성화제가 VP64, p65, Rta, 또는 이들 둘 이상의 조합인, 구현예 68의 방법.
실시예
본원에서의 구현예 및 양태를 하기 실시예에 의해 추가로 예시한다. 실시예는 단지 구현예 및 양태를 예시하도록 의도되며, 본원의 범위를 제한하는 것으로 해석되어선 안된다.
실시예 1
유전자 사일런싱은 표적화된 DNA 메틸화에 의해 가역적이다.
에피게놈 편집의 매력적인 특성은 인공 편집자에 의해 유도된 후생유전학적 변화를 역전시킬 수 있는 능력이다. CRISPRoff-매개된 유전자 사일런싱의 가역성을 시험하기 위해, 본 발명자들은 먼저 세포 분열 동안 DNA 메틸화 유지를 차단하는 전반적 방법을 활용하였다. 본 발명자들은 이전에 사일런싱된 H2B, CLTA, 또는 Snrpn-GFP를 갖는 HEK293T 세포에서 DNMT1 (포유동물 세포의 주요 DNA 메틸화 유지 효소)을 불활성화하기 위해 Cas9 유전자 편집을 사용하였다. DNMT1의 녹아웃 9일 후, 세포의 60-80%는 유전자 발현을 재활성화한다. 필수 유전자인 DNMT1의 손실은 눈에 띄는 세포독성 효과를 가지며 CRISPRoff-사일런싱된 유전자를 재활성화하는 실행가능한 방법으로서 DNMT1 녹아웃을 배제한다 (도 1). 유사하게, 5-aza-2'-데옥시시티딘 (5-aza-dC)인 DNMT1의 소분자 억제제로의 세포 처리는 CLTA 유전자 발현을 재활성화하였지만 DNMT1 녹아웃에 비해 효율은 더 낮았다 (도 2-3). 이들 결과는, DNA 메틸화의 결핍이 CRISPRoff 유전자 사일런싱을 역전시키기 위해 충분함을 입증한다. 따라서, 본 발명자들은 CRISPRoff-사일런싱된 유전자의 재활성화를 위한 유전자-특이적이고 프로그램가능한 도구를 조작하는 것을 추구하였다.
실시예 2
시토신-구아닌 다이애드(dyad) 내의 시토신의 DNA 메틸화는, 유전자 활성화를 위한 인간 유전자 프로모터의 프로그래밍가능 탈메틸화를 위해 용도가 변경된 TET (10-11 전좌) 패밀리 효소에 의해 능동적으로 제거될 수 있다. 본 발명자들은, 본 발명자들이 1년 초과 동안 사일런싱시킨 유전자, CLTA의 표적화된 DNA 탈메틸화에 의해 CRISPRoff-사일런싱된 유전자를 재활성화할 수 있는지의 여부를 시험하였다. 초기에, 본 발명들은 TET1 DNA 데메틸라제 촉매작용 도메인 (TETv1)에 대한 이전에 보고된 dCas9 융합을 사용하였다 (Liu 등, Cell, 167-233-247 (2016)). 본 발명자들은 CLTA 프로모터를 표적화하는 TETv1 및 sgRNA를 발현하는 플라스미드를 공동-트랜스펙션하고, 시간에 따라 CLTA 단백질 수준 (GFP)을 측정하였다. (도 4-5). 본 발명자들의 결과는 TETv1 재활성화된 유전자 발현에 의한 표적화된 DNA 탈메틸화를 입증하였지만, 트랜스펙션-후 28일에, 트랜스펙션된 세포의 단지 약 20%가 이전 연구에서 전형적인 가변적 재활성화와 일치하는 CLTA 발현을 유지한다. (도 6) 재활성화를 개선하기 위해, 본 발명자들은 dCas9와 TET1 사이의 XTEN 링커를 인코딩함으로써 융합 단백질을 최적화하고, dCas9의 N-말단에 TET1을 재배치하였다. 16개 아미노산 XTEN16 링커 (TETv3)와의 N-말단에서의 TET1의 배치는 CLTA 재활성화를 세포의 약 50%까지 개선하였다. 또한, 80개의 아미노산 XTEN80 링커 (TETv4)로의 TET1 및 dCas9의 분리는 세포의 70% 초과에서 안정적인 CLTA 재활성화를 제공하였다. CLTA 재활성화는 트랜스펙션-후 적어도 28일 동안 안정적이었다 (도 6-8). 유전자 재활성화는 하나의 sgRNA 서열로 TETv4-트랜스펙션된 세포의 최대 60%에서 달성되었지만, 유전자 프로모터에 걸쳐 3개의 sgRNA를 풀링함으로써 개선되었다 (도 7).
사일런싱된 유전자에 걸친 DNA 탈메틸화의 정도를 평가하기 위해, 본 발명자들은 dCas9-TET-매개된 재활성화 전과 후에 CLTA 자리의 비술파이트 시퀀싱을 수행하였다. 본 발명자들은, sgRNA 결합 부위의 하류 >400 bp를 포함한, CRISPRoff-매개된 사일런싱 후 전체 CLTA CGI를 따라 높은 수준의 DNA 메틸화를 관찰하였다. (도 9a-9b) TET1-매개된 유전자 재활성화 후, CGI는 CLTA 발현의 완전 재활성화와 상관되는 거의 완전한 상태로 탈메틸화된다 (도 9a).
본 발명자들은, CLTA 재활성화가 TET1 처리-후 9일에 출발하여 지속적으로 피크에 도달하고 안정화됨을 관찰하였다. (도 6). 본 발명자들은, TET1v4에 대한 전사 활성제 도메인의 모집에 의해 유전자 발현이 보다 조기 시점에 재활성화될 수 있다는 가설을 세웠다. 유전자 재활성화의 동역학을 변조하기 위한 노력으로, 본 발명자들은 전사 전이활성화제 도메인 VP64, p65 (p65-AD), 및 Rta의 다양한 조합에 융합된 TETv4, 이전에 보고된 2개의 MS2 줄기 서열을 인코딩하는 변형된 sgRNA, 및 MS2 코트 단백질 (MCP)로 구성된, CRISPRon이라 불리는 시스템을 디자인하였다 (Konermann 등, 2015a) (도 10-11). 본 발명자들은 먼저, dCas9 및 MCP-전이활성화제 융합 단백질의 공동-발현이 TET1의 부재 하에 유전자 발현을 증가시킬 수 있음을 확인하였고, 본 발명자들은 도메인을 MS2 코트 단백질 (MCP)에 융합시키고 MS2 루프를 인코딩하는 sgRNA로 내생적 발현된 CLTA의 프로모터에 대해 표적화된 dCas9에 대한 융합을 모집하였다. dCas9, MCP 융합, 및 sgRNA의 트랜스펙션 2일 후, 본 발명자들은 VPR 및 p65-Rta를 사용하여 최고 재활성화를 갖는 각각의 전이활성화제 조합으로 CLTA 유전자의 증가된 내생적 발현을 검출하였고 (도 12), 이는 이들 단백질이 전사 기계 모집에 있어 기능적임을 나타낸다.
이어서 본 발명자들은 CLTA 사일런싱된 세포에서 단지 TETv4 또는 다양한 CRISPRon 조합과 함께 CLTA-표적화 sgRNA (sg-A) 또는 네가티브 대조군 (NT)을 발현시키고, 시간에 따른 CLTA 발현을 모니터링하였다. 예상외로, 본 발명자들은, 선택 CRISPRon 조합, 예컨대 TETv4와 p65-Rta 및 TETv4와 VPR이, 2일 내에 CLTA 발현을 강건하게 재활성화시킴을 관찰하였다. 한편, TETv4는 이 시점에 유전자 재활성화를 거의 나타내지 않았다 (도 13 및 17). 본 발명자들은 다음으로 CRISPRoff-사일런싱된 CLTA 프로모터에 대하여 전이활성화제 및 TETv4를 공동-모집하였다. 트랜스펙션 2일 후, CLTA 발현은 단지 TETv4 및 전이활성화제의 존재 하에 재활성화된다 (도 13 및 14). 각각의 전이활성화제 조합은 단지 TETv4에 비해 2- 내지 46배 범위의 다양한 수준으로 재활성화된 CLTA를 갖는 세포의 분율을 증가시키며, VPR 및 p65-Rta는 최고 수준의 CLTA 발현을 끌어낸다. 트랜스펙션 후 8일까지, 단일부분 Rta 또는 VP64-p65의 모집은 다른 전이활성화제에 비해 재활성화된 세포의 분율에서 최고 증가를 제공한다 (도 14 및 15a). TETv4 및 sgRNA-공동활성화제는 이 시점에 세포에서 낮은 수준으로 존재하며 (세포의 <10%), 이는 p65-Rta 또는 VP64-p65와 TETv4를 사용한 재활성화된 유전자의 증가된 발현이 세포에 의해 유전되고 기억됨을 의미한다. 트랜스펙션-후 28일까지, 재활성화된 CLTA-GFP의 중간값 형광은 단지 TETv4에 비해 TETv4와 Rta 및 TETv4와 p65-Rta의 CRISPRon 조합에서 상당히 더 높았다 (도 15b). 본 발명자들은 이 시점에 TETv4 또는 MCP 융합 단백질 발현을 검출하지 않는다. 추가의 대조군으로서, 단일 융합 dCas9-VPR, 또는 dCas9와 MCP 전이활성화제 융합 (TET 없음)의 공동-발현은 단지 CLTA의 일시적인 활성화를 나타내었고, 트랜스펙션-후 10일까지, CLTA 수준은 사일런싱된 상태로 역전된다 (도 18). 종합하여, 이들 결과는, 본 발명자들의 최적화된 TET1-dCas9 융합 단백질이 전사 기억의 형태로 CRISPRoff-사일런싱된 유전자를 강건하게 재활성화시킬 수 있고, 재활성화의 역학이 본 발명자들의 CRISPRon 조합을 사용하여 추가로 변조될 수 있음을 보여준다. 종합하여, 이들 데이터는, CRISPRoff-사일런싱된 유전자의 재활성화의 역학을 변조하고, 히트-앤-런(hit-and-run) CRISPRa와 유사하게, 유전자 발현의 세포 기억을 인코딩하는 본 발명자들의 능력을 강조한다.
실시예 3
CpG 주석화가 없는 유전자의 사일런싱 및 재활성화
CRISPRoff가 주석화된 CGI 없이 유전자를 턴오프(turn off)할 수 있다는 본 발명자들의 관찰을 검증하기 위해, 본 발명자들은 mNeonGreen (mNG)으로 HEK293T에서 주석화된 CGI가 없는 5개의 유전자를 내생적으로 태깅하고 CRISPRoff에 의한 내구성 있는 사일런싱을 평가하였다. 트랜스펙션-후 9일에, 본 발명자들은 DYNC2LI1, LAMP2, MYL6, 및 VPS25를 턴오프한 높은 백분율의 세포를 검출한다. DYNC2LI1 및 LAMP2의 사일런싱은 트랜스펙션-후 14일 동안 안정적으로 남아 있고, MYL6 및 VPS25는 녹다운에 따라 세포 성장 결함을 나타내었다. CRISPRoff Dnmt3A 돌연변이체의 트랜스펙션은 유전자 사일런싱을 지속하지 않고, 따라서 관찰된 내구성 있는 표현형은 DNA 메틸화-의존적이다. 대조적으로, CALD1-mNG 세포로의 CRISPRoff 트랜스펙션은 CRISPRoff 또는 CRISPRoff 돌연변이체로 사일런싱을 일으키지 않았으며, 이는 유전자가 DNA 메틸화-의존적 히트-앤-런 에피게놈 편집에 적합하지 않음을 시사한다.
본 발명자들은 CRISPRoff에 의해 LAMP2, DYNC2LI1, 및 MYL6을 턴오프한 세포를 단리하였고, 비술파이트 시퀀싱에 의해 프로모터의 DNA 메틸화 상태를 프로파일링하였다. CG 컨텍스트 내의 시토신의 분석은 사일런싱된 세포에서 고도로 메틸화되었다. 또한, 본 발명자들은 DYNC2LI1 및 LAMP2-오프(off) 세포를 TETv4로 처리하였고, 세포의 약 70%가 TETv4의 트랜스펙션 후 14일까지 사일런싱된 유전자를 재활성화한다 (도 16).
실시예에서의 물질 및 방법
플라스미드 디자인 및 구축
TETv1 디자인을 Fuw-dCas9-Tet1CD (Addgene #84475)로부터의 dCas9-TET1CD 서열의 PCR 증폭에 의해 구축하였고 CAG-발현 플라스미드로 조립하였다. XTEN 링커 서열은 이전에 공개되었다 (Schellenberger 등). 모든 CRISPRoff 및 TET1 융합 단백질은 유동 세포계측에 의해 트랜스펙션 효율을 측정하도록 BFP를 직접 융합으로서 또는 P2A-절단 서열과 함께 포함한다. dSaCas9 (D10A, N508A) 서열은 pX603 (Addgene #61594)으로부터 PCR 증폭되었고, dLbCas12a 서열은 Tak 등로부터 PCR 증폭되었다. VP64, p65, 및 Rta는 SP-dCas9-VPR (Addgene #63798)로부터 PCR 증폭되었다. GAPDH-Snrpn-GFP 렌티바이러스 리포터는 Addgene #70148로부터 유래되었다 (Liu 등, 2016; Stelzer 등, 2015).
sgRNA 플라스미드를, 이전에 기재된 바와 같이, BstXI 및 BlpI 절단 부위를 사용하여 U6 프로모터 하류의 프로토스페이서의 제한 클로닝에 의해 구축하였다. sgRNA 발현 플라스미드는 또한 트랜스펙션 효율을 측정하도록 T2A-mCherry 마커를 발현한다. CRISPRoff 및 CRISPRon 실험에 사용된 sgRNA 서열은 표 1에 열거되어 있다. sgRNA 서열은 활성 CRISPRi sgRNA를 예측하기 위한 본 발명자들의 이전 알고리즘에 기초하여 선택하였다 (Horlbeck 등, 2016).
먼저 mU6 프로모터-sgRNA-EF1a-퓨로마이신-T2A-mCherry 카세트를 제한 클로닝에 의해 비-렌티바이러스 벡터로 전이시킴으로써 MS2 플라스미드를 구축하였다. MCP-XTEN80-NLS-(전이활성화제 도메인)-2xP2A 카세트는 4개의 gBlocks (IDT)로 주문되었고 Gibson 어셈블리에 의해 상기 언급된 비-렌티바이러스 플라스미드로 클로닝되었다. sgRNA-MS2 루프 서열은 본 발명자들의 이전 mU6 sgRNA 발현 디자인 (Addgene #84832)으로부터 통합된 BstXI 및 BlpI 제한 부위를 갖는 SAM 시스템 (Konermann 등, 2015b)에 기초하여 디자인하였다. MS2-sgRNA 스캐폴드를 인코딩하는 DNA 서열은 서열 번호:117이다. 전이활성화제 플라스미드의 구축을 위해, 각각의 도메인 또는 도메인의 조합을 PCR 증폭시키고 Gibson 어셈블리에 의해 sgRNA 및 MS2 코트 단백질 (MCP)을 인코딩하는 플라스미드로 클로닝하였다. 가이드 서열은 이전에 기재된 바와 같이 이중 분해(digest) 및 어닐링된 올리고의 결찰에 의해 클로닝하였다.
모든 mRNA 구축물은 mMESSAGE mMachineTM T7 울트라 전사 키트 (Thermo Fisher Scientific)를 사용하여 합성하였다. T7 프로모터 서열 (서열 번호:118)을 먼저 CRISPRoff 서열의 상류에서 클로닝하였다. T7-CRISPRoff 서열을 PCR 증폭시키고 시험관내 합성 반응을 위한 템플레이트로서 사용하였다. 합성을 위한 제조업체 프로토콜에 따라, 반응물을 클로로포름 추출 및 이소프로판올 침전에 의해 세정하였다.
세포 배양, DNA 트랜스펙션, 및 유동 세포계측
모든 세포 라인을 5% CO2 조직 배양 인큐베이터로 37℃에서 배양하였다. HEK293T (암컷), HeLa (암컷), 및 U2OS (암컷) 세포를 10% FBS (HyClone), 100 단위/mL 스트렙토마이신, 100 μg/ml 페니실린, 및 2 mM 글루타민 중에서 둘베코 변형 이글 배지 (DMEM)에서 배양하였다. K562 (암컷) 세포를 25 mM HEPES 및 10% FBS 중 2.0 g/L NaHCo3, 2 mM 글루타민, 100 단위/mL 스트렙토마이신, 및 100 mg/mL 페니실린과 RPMI-1640 중에서 유지하였다. WTC Gen1c iPSC (수컷)를 성장 인자-감소된 Matrigel (BD Biosciences) 상에서 무공급(feeder-free) 조건 하에 mTESR 배지 (STEMCELL Technologies)에서 배양하였다. 세포를 Accutase (STEMCELL Technologies)를 사용하여 패시징하고 p16-Rho-관련 코일드-코일(coiled-coil) 키나제 (ROCK) 억제제 Y-27632 (10 μM; Selleckchem)가 보충된 mTESR 배지로 Matrigel 코팅된 플레이트에 시딩하였다.
TransIT-LT1 트랜스펙션 시약 (Mirus, MIR2306)을 사용하여 표준 패키징 벡터를 HEK293T로 트랜스펙션함으로써 렌티바이러스 입자를 생성하였다. 배지를 15 mM HEPES가 보충된 완전 DMEM으로 트랜스펙션-후 24시간에 교체하였다. 바이러스 상청액을 트랜스펙션 48-60시간 후에 수확하고, 0.45 μm PVDF 시린지 필터를 통해 여과하였다. 렌티바이러스 감염은 폴리브렌 (8 μg/ml)을 포함하였다.
CRISPRon
모든 CRISPRon 실험을 24-웰 플레이트에서 수행하였다. 요약하면, 1x105 CLTA-GFP-사일런싱된 HEK293T 세포를 각각의 웰에서 시딩하였다. 다음날 세포가 60-80% 컨플루언시(confluency)에 도달하면, 세포를 500 ng의 dCas9 플라스미드 (dCas9 또는 TETv1-4) 및 300 ng의 sgRNA-전이활성화제 플라스미드 (단지 sgRNA, VP64, p65, Rta, VP64-p65, p65-Rta, 또는 VPR)로 트랜스펙션하였다. 세포를 트랜스펙션 24시간 후 BFP (dCas9 또는 TETv1-4) 및 mCherry (가이드-전이활성화제) 발현에 대해 모니터링하였다. 트랜스펙션-후 2일에, BD FACSAria 융합 선별기를 사용하여 7.5x104 BFP 및 mCherry 이중 포지티브 세포를 선별하였다. 세포를 선별 후 4일 동안 회수시키고 이어서 Attune NxT 세포계측기 (Thermo Fisher Scientific) 상에서 유동 세포계측을 사용하여 2-3일마다 분석하였다. 모든 유동 세포계측 데이터는 Flowjo를 사용하여 분석하였다.
RNA 시퀀싱
표적 유전자의 안정적인 사일런싱을 유지한 HEK293T 세포를 CRISPRoff 트랜스펙션 후 33일 (ITGB1, CD81, 및 CD151 ) 또는 28일 (CLTA, HIST2H2BE, RAB11A, 및 VIM)에 수확하였다. 세포를 PBS로 플레이트로부터 제거하고, 500 × g로 5 min 동안 원심분리하고, 다시 PBS로 세척하였다. 총 RNA를 Direct-zol RNA MiniPrep (Zymo R2051)을 사용하여 추출하였다. 1000 ng 총 RNA로부터 출발하여, TruSeq 가닥 mRNA 라이브러리 준비 키트 (Illumina RS-111-2101)를 사용하여 라이브러리 준비를 수행하였다. 최종 라이브러리를 2100 Bioanalyzer (Agilent)를 사용하여 평가하고, Qubit dsDNA HS 검정 키트 (Thermo Fisher Scientific)를 사용하여 정량화하고, HiSeq 4000 (Illumina) 상에서 단일 말단 50개의 염기 쌍 판독으로 시퀀싱하였다. 시퀀싱 판독을 처리하기 위해, FASTX-클리퍼 (FASTX-Toolkit)를 사용하여 링커 서열 (서열 번호:119)을 제거하였다. 이어서 Gencode Gene V24lift37 전사체 주석화에 대하여 STAR (Spliced Transcripts Alignment to a Reference, 버전 2.5) 정렬기를 사용하여 판독값을 인간 게놈 (GRCh37)에 대해 정렬하였다. 판독 정량화를 featureCounts (Liao 등, 2014)로 수행하였다. 모든 하류 분석은 Numpy (v1.12.1), Pandas (v0.17.1), 및 Scipy (v0.17.0) 라이브러리의 조합을 사용하여 Python (버전 2.7)으로 수행하였다. 실험 샘플에 대한 백만 당 유전자 전사 (TPM)를 대조군 (비-표적화) 샘플의 평균 TPM으로 정규화함으로써 녹다운 효율을 계산하였다. DESeq2 (Love 등, 2014)를 사용하여 차등 발현 분석을 수행하였다.
정량적 PCR
정량적 PCR (qPCR) 측정을 위해, 세포로부터 RNeasy 마이크로 키트 (Qiagen)를 사용하여 총 RNA를 먼저 추출하였다. RNaseOutTM 재조합 리보뉴클레아제 억제제 (Thermo Fisher Scientific)가 보충된 SuperscriptTM III 역전사효소 키트 (Thermo Fisher Scientific)를 사용하여 1 μg 총 RNA의 역전사를 수행하였다. 올리고(dT)20을 사용하여 역전사를 프라이밍하였다. KAPA SYBR FAST qPCR 마스터 믹스 (2X)로 정량적 PCR 반응을 준비하고, LightCycler 480 기기 (Roche) 상에서 실행시켰다. qPCR 실험을 위한 프라이머 서열이 표 2에 열거되어 있다.
비술파이트 시퀀싱 PCR
CLTA CGI의 메틸화 분석을 위해, ~2x106 CRISPRoff-사일런싱된 세포 및 TET-재활성화된 세포를 FACS에 의해 단리하였다. PureLink 게놈 DNA 미니 키트 (Invitrogen)를 사용하여 제조업체의 지시에 따라 세포로부터 게놈 DNA를 추출하였다. 각각의 조건에 대하여, EpiTect 비술파이트 키트 (Qiagen)를 사용하여 제조업체의 지시에 따라 1 ug 게놈 DNA를 비술파이트 전환 및 클린업에 적용하였다. 중첩된(nested) PCR 방법 (Liu 등, 2016)과 함께 EpiMark Hot Start Taq (NEB)를 사용하여 정제된 비술파이트-전환된 DNA를 증폭시켰다. 겔 DNA 회수 키트 (Zymo)를 사용하여 앰플리콘을 겔 정제하고, EpiMark Hot Start Taq를 사용하여 다시 PCR 증폭시켰다. TOPO TA 클로닝 키트 (Invitrogen)를 사용하여 제조업체의 지시에 따라 앰플리콘을 pCR2.1 TOPO 벡터로 클로닝하였다. 클로닝 생성물을 Stellar 대장균(E. coli) 세포 (Takara)로 형질전환시키고, 청백색 카르베니실린 플레이트 상에 플레이팅하였다. 조건 당 20개의 콜로니를 선택하고 Sanger 시퀀싱에 의해 시퀀싱하였다. 비술파이트-PCR 증폭을 위한 프라이머 서열이 표 2에 열거되어 있다. GAPDH-Snrpn 단편의 증폭을 위한 프라이머 서열은 Liu 등로부터 얻었다.
Cas9 게놈 편집 및 5-aza-dC 처리
에스. 프요게네스로부터의 Cas9를 발현하는 렌티바이러스 입자를, CRISPRoff-사일런싱된 Snrpn-GFP 또는 GFP-태깅된 CLTAH2B를 갖는 HEK293T 세포로 형질도입하였다. 렌티바이러스 벡터에서 BFP 형광에 의해 마킹된 Cas9-발현 세포를 FACS-선별하였다. 불활성 DNMT1에 대하여, DNMT1을 표적화하는 sgRNA를 발현하는 렌티바이러스 입자를 세포 라인으로 감염시켰다. 사일런싱된 유전자의 재활성화를 GFP 활성화에 의해 평가하고, 유동 세포계측에 의해 측정하였다. 최종 시점은 sgRNA 감염 9일 후에 취하였는데, 이는 세포 생존능이 이 시점을 지나면서 심하게 감소하였기 때문이다.
5-aza-dC 처리를 위해, 1x105 CRISPRoff-사일런싱된 CLTA-GFP HEK293T 세포를 24-웰 플레이트의 각각의 웰에 시딩하였다. 24시간 후, 배지를 흡인하고, 웰 당 500 ml의 최종 부피에 대해 수성 5-아자-2'-데옥시시티딘 (5-aza-dC)이 보충된 배지로 교체하였다. 다음날, 5-aza-dC-함유 배지를 흡인하고, 세포를 탈착시키고, Attune NxT 유동 세포계측기 (Thermo Fisher Scientific) 상에서 생존능 및 GFP 활성화에 대해 분석하였다. 이어서 세포를 2-3일마다 신선한 배지로 패시징하고 Attune 세포계측기 상에서 분석하였다.
본 발명의 다양한 구현예 및 양태를 본원에 나타내고 기재하였지만, 이러한 구현예 및 양태는 단지 예로서 제공된 것임이 당업자에게 명백할 것이다. 이제 본 발명으로부터 벗어나지 않는 수많은 변형, 변화, 및 치환이 당업자에게 나타날 것이다. 본원에 기재된 본 발명의 구현예에 대한 다양한 대안이 본 발명의 실행에서 사용될 수 있음이 이해되어야 한다.
본원에서 사용된 섹션 제목은 단지 조직적 목적을 위한 것이며 기재된 주제를 제한하는 것으로 해석되어선 안된다. 제한 없이, 특허, 특허 출원, 기사, 서적, 매뉴얼, 및 논문을 포함한, 본 출원에서 인용된 모든 문헌, 또는 문헌의 부분은 임의의 목적상 명시적으로 그 전체가 본원에 참조로 포함된다.
참조문헌
Figure pct00005
Figure pct00006
Figure pct00007
Figure pct00008
비공식 서열 목록
본원에 열거된 서열에서, 당업자는 번역을 개시하기 위해 단백질의 N-말단 상에 메티오닌 (M)이 존재할 수 있음을 인지할 것이다. 따라서, 본원에 기재된 서열은 임의로 N-말단 상에 메티오논을 추가로 포함할 수 있다.
서열 번호: 1 = TET1 (UniProt: Q8NFU7)
Figure pct00009
Figure pct00010
서열 번호: 2 = TET2 (UniProt Q6N021)
Figure pct00011
Figure pct00012
서열 번호:3 = TET3 (Uniprot O43151)
Figure pct00013
서열 번호:4 (SV40 NLS)
Figure pct00014
서열 번호:5 (XTEN16 (16개 아미노산 서열))
Figure pct00015
서열 번호:6 (XTEN80 (80개 아미노산 서열))
Figure pct00016
서열 번호:7 (HA 택)
Figure pct00017
서열 번호:8 (BFP)
Figure pct00018
서열 번호:9 (dCas9)
Figure pct00019
서열 번호:10 (ddAsCfp1)
Figure pct00020
Figure pct00021
서열 번호:11 (ddLbCfp1)
Figure pct00022
서열 번호:12 (ddFnCfp1)
Figure pct00023
Figure pct00024
서열 번호:13 (p65; UniProt: Q04206)
Figure pct00025
서열 번호:14 (p65; Addgene으로부터)
Figure pct00026
서열 번호:15 (Rta; Addgene으로부터)
Figure pct00027
서열 번호:16 (Rta; UniProt P03209)
Figure pct00028
서열 번호: 17 (VP64; Addgene으로부터)
Figure pct00029
서열 번호: 18 (전장 외피 단백질 VP16; VP64; UniProt P06492)
Figure pct00030
서열 번호:19 (MS2 스템 루프 1)
Figure pct00031
서열 번호:20 (MS2 스템 루프 2)
Figure pct00032
서열 번호:21 (MS2 코트 단백질 (MCP))
Figure pct00033
서열 번호: 86 (TET1 촉매작용 도메인 (TET1CD))
Figure pct00034
서열 번호:97 (TET1)
Figure pct00035
Figure pct00036
서열 번호:98 XTEN100
Figure pct00037
서열 번호:99 융합 단백질 JKNp146
Figure pct00038
Figure pct00039
서열 번호:99는 하기 서열 번호 및 스페이서를 포함한다:
97-98-9-6-GSG-4-AGS-15-ASGSG-4; 여기서 GSG, AGS, 및 ASGSG는 펩티드 링커임.
서열 번호:100 (p65)
Figure pct00040
서열 번호:101 융합 단백질 JKNp147
Figure pct00041
Figure pct00042
서열 번호:101은 하기 서열 번호 및 스페이서를 포함한다:
97-98-9-6-GSG-4-AGS-100-GSGSGS-15-ASGSG-4; 여기서 GSG, AGS, GSGSGS, 및 ASGSG는 펩티드 링커임.
서열 번호:102 융합 단백질 GCP21
Figure pct00043
Figure pct00044
서열 번호:102는 하기 서열 번호 및 스페이서를 포함한다:
97-98-9-GGGGS-4-D-4-D-4; 여기서 GGGGS, D, 및 D는 펩티드 링커임.
서열 번호:103 - JKNp84: dCas9-TET1
Figure pct00045
Figure pct00046
서열 번호:103은 하기 서열 번호 및 스페이서를 포함한다:
9-GGGGS-4-D-4-D-4-GS-86; 여기서 GGGGS, D, D, 및 GS는 펩티드 링커임.
서열 번호:104 = GCPp3: MCP-XTEN80-VP64
Figure pct00047
서열 번호:104는 하기 서열 번호 및 스페이서를 포함한다:
21-6-GSG-4-AGS-17-ASGSGPKKKRKV; 여기서 GSG, AGS, 및 ASGSGPKKKRKV는 펩티드 링커임.
서열 번호:105 = GCPp4: MCP-XTEN80-VP64-p65
Figure pct00048
Figure pct00049
서열 번호:105는 하기 서열 번호 및 스페이서를 포함한다:
21-6-GSG-4-AGS-17-INSRSSGS-4-G-100-ASGSG-4; 여기서 GSG, AGS, INSRSSGS, G, 및 ASGSG는 펩티드 링커임.
서열 번호:106 = GCPp5: MCP-XTEN80-VP64-p65p-Rta
Figure pct00050
서열 번호:106은 하기 서열 번호 및 스페이서를 포함한다:
21-6-GSG-4-AGS-17-INSRSSGS-4-G-100-GSGSGS-15-ASGSG-4; 여기서 GSG, AGS, INSRSSGS, G, GSGSGS, 및 ASGSG는 펩티드 링커임.
서열 번호:107 = GCPp6: MCP-XTEN80-p65
Figure pct00051
서열 번호:107은 하기 서열 번호 및 스페이서를 포함한다:
21-6-GSG-4-AGS-100-ASGSG-4; 여기서 GSG, AGS, 및 ASGSG는 펩티드 링커임.
서열 번호:108 = GCPp7: MCP-XTEN80-Rta
Figure pct00052
서열 번호:108은 하기 서열 번호 및 스페이서를 포함한다:
21-6-GSG-4-AGS-15-ASGSG-4; 여기서 GSG, AGS, 및 ASGSG는 펩티드 링커임.
서열 번호:109 = GCPp8: MCP-XTEN80-p65-Rta
Figure pct00053
서열 번호:109는 하기 서열 번호 및 스페이서를 포함한다:
21-6-GSG-4-AGS-100-GSGSGS-15-ASGSG-4; 여기서 GSG, AGS, GSGSGS, 및 ASGSG는 펩티드 링커임.
서열 번호:110 = GCPp9: MCP-XTEN80-NLS
Figure pct00054
서열 번호:110은 하기 서열 번호 및 스페이서를 포함한다:
21-6-GSG-4-AGSASGSG-4; 여기서 GSG 및 AGSASGSG는 펩티드 링커임.
서열 번호:111 = GCPp11: dCas9-XTEN16-TET1
Figure pct00055
서열 번호:111은 하기 서열 번호 및 스페이서를 포함한다:
9-GGGGS-4-D-4-D-4-G-5-86; 여기서 GGGGS, D, D, 및 G는 펩티드 링커임.
서열 번호:112 = GCPp16: TET1-XTEN16-dCas9
Figure pct00056
Figure pct00057
서열 번호:112는 하기 서열 번호 및 스페이서를 포함한다:
97-5-9-GGGGS-4-D-4-D-4; 여기서 GGGGS, D, 및 D는 펩티드 링커임.
서열 번호:113 = GCP20: TET1-XTEN80-dCas9
Figure pct00058
Figure pct00059
서열 번호:113은 하기 서열 번호 및 스페이서를 포함한다:
97-6-9-GGGGS-4-D-4-D-4; 여기서 GGGGS, D, 및 D는 펩티드 링커임.
서열 번호:114
Figure pct00060
서열 번호:115
Figure pct00061
서열 번호:116
Figure pct00062
서열 번호:117 (MS2-sgRNA 스캐폴드를 인코딩하는 DNA 서열)
Figure pct00063
서열 번호:118 (T7 프로모터 서열)
Figure pct00064
서열 번호:119
Figure pct00065
SEQUENCE LISTING <110> The Regents of the University of California <120> COMPOSITIONS AND METHODS FOR EPIGENOME EDITING <130> 048536-690001WO <140> PCT/US21/35937 <141> 2021-06-04 <150> US 63/118,832 <151> 2020-11-27 <150> US 63/035,431 <151> 2020-06-05 <160> 120 <170> PatentIn version 3.5 <210> 1 <211> 2136 <212> PRT <213> Homo sapiens <400> 1 Met Ser Arg Ser Arg His Ala Arg Pro Ser Arg Leu Val Arg Lys Glu 1 5 10 15 Asp Val Asn Lys Lys Lys Lys Asn Ser Gln Leu Arg Lys Thr Thr Lys 20 25 30 Gly Ala Asn Lys Asn Val Ala Ser Val Lys Thr Leu Ser Pro Gly Lys 35 40 45 Leu Lys Gln Leu Ile Gln Glu Arg Asp Val Lys Lys Lys Thr Glu Pro 50 55 60 Lys Pro Pro Val Pro Val Arg Ser Leu Leu Thr Arg Ala Gly Ala Ala 65 70 75 80 Arg Met Asn Leu Asp Arg Thr Glu Val Leu Phe Gln Asn Pro Glu Ser 85 90 95 Leu Thr Cys Asn Gly Phe Thr Met Ala Leu Arg Ser Thr Ser Leu Ser 100 105 110 Arg Arg Leu Ser Gln Pro Pro Leu Val Val Ala Lys Ser Lys Lys Val 115 120 125 Pro Leu Ser Lys Gly Leu Glu Lys Gln His Asp Cys Asp Tyr Lys Ile 130 135 140 Leu Pro Ala Leu Gly Val Lys His Ser Glu Asn Asp Ser Val Pro Met 145 150 155 160 Gln Asp Thr Gln Val Leu Pro Asp Ile Glu Thr Leu Ile Gly Val Gln 165 170 175 Asn Pro Ser Leu Leu Lys Gly Lys Ser Gln Glu Thr Thr Gln Phe Trp 180 185 190 Ser Gln Arg Val Glu Asp Ser Lys Ile Asn Ile Pro Thr His Ser Gly 195 200 205 Pro Ala Ala Glu Ile Leu Pro Gly Pro Leu Glu Gly Thr Arg Cys Gly 210 215 220 Glu Gly Leu Phe Ser Glu Glu Thr Leu Asn Asp Thr Ser Gly Ser Pro 225 230 235 240 Lys Met Phe Ala Gln Asp Thr Val Cys Ala Pro Phe Pro Gln Arg Ala 245 250 255 Thr Pro Lys Val Thr Ser Gln Gly Asn Pro Ser Ile Gln Leu Glu Glu 260 265 270 Leu Gly Ser Arg Val Glu Ser Leu Lys Leu Ser Asp Ser Tyr Leu Asp 275 280 285 Pro Ile Lys Ser Glu His Asp Cys Tyr Pro Thr Ser Ser Leu Asn Lys 290 295 300 Val Ile Pro Asp Leu Asn Leu Arg Asn Cys Leu Ala Leu Gly Gly Ser 305 310 315 320 Thr Ser Pro Thr Ser Val Ile Lys Phe Leu Leu Ala Gly Ser Lys Gln 325 330 335 Ala Thr Leu Gly Ala Lys Pro Asp His Gln Glu Ala Phe Glu Ala Thr 340 345 350 Ala Asn Gln Gln Glu Val Ser Asp Thr Thr Ser Phe Leu Gly Gln Ala 355 360 365 Phe Gly Ala Ile Pro His Gln Trp Glu Leu Pro Gly Ala Asp Pro Val 370 375 380 His Gly Glu Ala Leu Gly Glu Thr Pro Asp Leu Pro Glu Ile Pro Gly 385 390 395 400 Ala Ile Pro Val Gln Gly Glu Val Phe Gly Thr Ile Leu Asp Gln Gln 405 410 415 Glu Thr Leu Gly Met Ser Gly Ser Val Val Pro Asp Leu Pro Val Phe 420 425 430 Leu Pro Val Pro Pro Asn Pro Ile Ala Thr Phe Asn Ala Pro Ser Lys 435 440 445 Trp Pro Glu Pro Gln Ser Thr Val Ser Tyr Gly Leu Ala Val Gln Gly 450 455 460 Ala Ile Gln Ile Leu Pro Leu Gly Ser Gly His Thr Pro Gln Ser Ser 465 470 475 480 Ser Asn Ser Glu Lys Asn Ser Leu Pro Pro Val Met Ala Ile Ser Asn 485 490 495 Val Glu Asn Glu Lys Gln Val His Ile Ser Phe Leu Pro Ala Asn Thr 500 505 510 Gln Gly Phe Pro Leu Ala Pro Glu Arg Gly Leu Phe His Ala Ser Leu 515 520 525 Gly Ile Ala Gln Leu Ser Gln Ala Gly Pro Ser Lys Ser Asp Arg Gly 530 535 540 Ser Ser Gln Val Ser Val Thr Ser Thr Val His Val Val Asn Thr Thr 545 550 555 560 Val Val Thr Met Pro Val Pro Met Val Ser Thr Ser Ser Ser Ser Tyr 565 570 575 Thr Thr Leu Leu Pro Thr Leu Glu Lys Lys Lys Arg Lys Arg Cys Gly 580 585 590 Val Cys Glu Pro Cys Gln Gln Lys Thr Asn Cys Gly Glu Cys Thr Tyr 595 600 605 Cys Lys Asn Arg Lys Asn Ser His Gln Ile Cys Lys Lys Arg Lys Cys 610 615 620 Glu Glu Leu Lys Lys Lys Pro Ser Val Val Val Pro Leu Glu Val Ile 625 630 635 640 Lys Glu Asn Lys Arg Pro Gln Arg Glu Lys Lys Pro Lys Val Leu Lys 645 650 655 Ala Asp Phe Asp Asn Lys Pro Val Asn Gly Pro Lys Ser Glu Ser Met 660 665 670 Asp Tyr Ser Arg Cys Gly His Gly Glu Glu Gln Lys Leu Glu Leu Asn 675 680 685 Pro His Thr Val Glu Asn Val Thr Lys Asn Glu Asp Ser Met Thr Gly 690 695 700 Ile Glu Val Glu Lys Trp Thr Gln Asn Lys Lys Ser Gln Leu Thr Asp 705 710 715 720 His Val Lys Gly Asp Phe Ser Ala Asn Val Pro Glu Ala Glu Lys Ser 725 730 735 Lys Asn Ser Glu Val Asp Lys Lys Arg Thr Lys Ser Pro Lys Leu Phe 740 745 750 Val Gln Thr Val Arg Asn Gly Ile Lys His Val His Cys Leu Pro Ala 755 760 765 Glu Thr Asn Val Ser Phe Lys Lys Phe Asn Ile Glu Glu Phe Gly Lys 770 775 780 Thr Leu Glu Asn Asn Ser Tyr Lys Phe Leu Lys Asp Thr Ala Asn His 785 790 795 800 Lys Asn Ala Met Ser Ser Val Ala Thr Asp Met Ser Cys Asp His Leu 805 810 815 Lys Gly Arg Ser Asn Val Leu Val Phe Gln Gln Pro Gly Phe Asn Cys 820 825 830 Ser Ser Ile Pro His Ser Ser His Ser Ile Ile Asn His His Ala Ser 835 840 845 Ile His Asn Glu Gly Asp Gln Pro Lys Thr Pro Glu Asn Ile Pro Ser 850 855 860 Lys Glu Pro Lys Asp Gly Ser Pro Val Gln Pro Ser Leu Leu Ser Leu 865 870 875 880 Met Lys Asp Arg Arg Leu Thr Leu Glu Gln Val Val Ala Ile Glu Ala 885 890 895 Leu Thr Gln Leu Ser Glu Ala Pro Ser Glu Asn Ser Ser Pro Ser Lys 900 905 910 Ser Glu Lys Asp Glu Glu Ser Glu Gln Arg Thr Ala Ser Leu Leu Asn 915 920 925 Ser Cys Lys Ala Ile Leu Tyr Thr Val Arg Lys Asp Leu Gln Asp Pro 930 935 940 Asn Leu Gln Gly Glu Pro Pro Lys Leu Asn His Cys Pro Ser Leu Glu 945 950 955 960 Lys Gln Ser Ser Cys Asn Thr Val Val Phe Asn Gly Gln Thr Thr Thr 965 970 975 Leu Ser Asn Ser His Ile Asn Ser Ala Thr Asn Gln Ala Ser Thr Lys 980 985 990 Ser His Glu Tyr Ser Lys Val Thr Asn Ser Leu Ser Leu Phe Ile Pro 995 1000 1005 Lys Ser Asn Ser Ser Lys Ile Asp Thr Asn Lys Ser Ile Ala Gln 1010 1015 1020 Gly Ile Ile Thr Leu Asp Asn Cys Ser Asn Asp Leu His Gln Leu 1025 1030 1035 Pro Pro Arg Asn Asn Glu Val Glu Tyr Cys Asn Gln Leu Leu Asp 1040 1045 1050 Ser Ser Lys Lys Leu Asp Ser Asp Asp Leu Ser Cys Gln Asp Ala 1055 1060 1065 Thr His Thr Gln Ile Glu Glu Asp Val Ala Thr Gln Leu Thr Gln 1070 1075 1080 Leu Ala Ser Ile Ile Lys Ile Asn Tyr Ile Lys Pro Glu Asp Lys 1085 1090 1095 Lys Val Glu Ser Thr Pro Thr Ser Leu Val Thr Cys Asn Val Gln 1100 1105 1110 Gln Lys Tyr Asn Gln Glu Lys Gly Thr Ile Gln Gln Lys Pro Pro 1115 1120 1125 Ser Ser Val His Asn Asn His Gly Ser Ser Leu Thr Lys Gln Lys 1130 1135 1140 Asn Pro Thr Gln Lys Lys Thr Lys Ser Thr Pro Ser Arg Asp Arg 1145 1150 1155 Arg Lys Lys Lys Pro Thr Val Val Ser Tyr Gln Glu Asn Asp Arg 1160 1165 1170 Gln Lys Trp Glu Lys Leu Ser Tyr Met Tyr Gly Thr Ile Cys Asp 1175 1180 1185 Ile Trp Ile Ala Ser Lys Phe Gln Asn Phe Gly Gln Phe Cys Pro 1190 1195 1200 His Asp Phe Pro Thr Val Phe Gly Lys Ile Ser Ser Ser Thr Lys 1205 1210 1215 Ile Trp Lys Pro Leu Ala Gln Thr Arg Ser Ile Met Gln Pro Lys 1220 1225 1230 Thr Val Phe Pro Pro Leu Thr Gln Ile Lys Leu Gln Arg Tyr Pro 1235 1240 1245 Glu Ser Ala Glu Glu Lys Val Lys Val Glu Pro Leu Asp Ser Leu 1250 1255 1260 Ser Leu Phe His Leu Lys Thr Glu Ser Asn Gly Lys Ala Phe Thr 1265 1270 1275 Asp Lys Ala Tyr Asn Ser Gln Val Gln Leu Thr Val Asn Ala Asn 1280 1285 1290 Gln Lys Ala His Pro Leu Thr Gln Pro Ser Ser Pro Pro Asn Gln 1295 1300 1305 Cys Ala Asn Val Met Ala Gly Asp Asp Gln Ile Arg Phe Gln Gln 1310 1315 1320 Val Val Lys Glu Gln Leu Met His Gln Arg Leu Pro Thr Leu Pro 1325 1330 1335 Gly Ile Ser His Glu Thr Pro Leu Pro Glu Ser Ala Leu Thr Leu 1340 1345 1350 Arg Asn Val Asn Val Val Cys Ser Gly Gly Ile Thr Val Val Ser 1355 1360 1365 Thr Lys Ser Glu Glu Glu Val Cys Ser Ser Ser Phe Gly Thr Ser 1370 1375 1380 Glu Phe Ser Thr Val Asp Ser Ala Gln Lys Asn Phe Asn Asp Tyr 1385 1390 1395 Ala Met Asn Phe Phe Thr Asn Pro Thr Lys Asn Leu Val Ser Ile 1400 1405 1410 Thr Lys Asp Ser Glu Leu Pro Thr Cys Ser Cys Leu Asp Arg Val 1415 1420 1425 Ile Gln Lys Asp Lys Gly Pro Tyr Tyr Thr His Leu Gly Ala Gly 1430 1435 1440 Pro Ser Val Ala Ala Val Arg Glu Ile Met Glu Asn Arg Tyr Gly 1445 1450 1455 Gln Lys Gly Asn Ala Ile Arg Ile Glu Ile Val Val Tyr Thr Gly 1460 1465 1470 Lys Glu Gly Lys Ser Ser His Gly Cys Pro Ile Ala Lys Trp Val 1475 1480 1485 Leu Arg Arg Ser Ser Asp Glu Glu Lys Val Leu Cys Leu Val Arg 1490 1495 1500 Gln Arg Thr Gly His His Cys Pro Thr Ala Val Met Val Val Leu 1505 1510 1515 Ile Met Val Trp Asp Gly Ile Pro Leu Pro Met Ala Asp Arg Leu 1520 1525 1530 Tyr Thr Glu Leu Thr Glu Asn Leu Lys Ser Tyr Asn Gly His Pro 1535 1540 1545 Thr Asp Arg Arg Cys Thr Leu Asn Glu Asn Arg Thr Cys Thr Cys 1550 1555 1560 Gln Gly Ile Asp Pro Glu Thr Cys Gly Ala Ser Phe Ser Phe Gly 1565 1570 1575 Cys Ser Trp Ser Met Tyr Phe Asn Gly Cys Lys Phe Gly Arg Ser 1580 1585 1590 Pro Ser Pro Arg Arg Phe Arg Ile Asp Pro Ser Ser Pro Leu His 1595 1600 1605 Glu Lys Asn Leu Glu Asp Asn Leu Gln Ser Leu Ala Thr Arg Leu 1610 1615 1620 Ala Pro Ile Tyr Lys Gln Tyr Ala Pro Val Ala Tyr Gln Asn Gln 1625 1630 1635 Val Glu Tyr Glu Asn Val Ala Arg Glu Cys Arg Leu Gly Ser Lys 1640 1645 1650 Glu Gly Arg Pro Phe Ser Gly Val Thr Ala Cys Leu Asp Phe Cys 1655 1660 1665 Ala His Pro His Arg Asp Ile His Asn Met Asn Asn Gly Ser Thr 1670 1675 1680 Val Val Cys Thr Leu Thr Arg Glu Asp Asn Arg Ser Leu Gly Val 1685 1690 1695 Ile Pro Gln Asp Glu Gln Leu His Val Leu Pro Leu Tyr Lys Leu 1700 1705 1710 Ser Asp Thr Asp Glu Phe Gly Ser Lys Glu Gly Met Glu Ala Lys 1715 1720 1725 Ile Lys Ser Gly Ala Ile Glu Val Leu Ala Pro Arg Arg Lys Lys 1730 1735 1740 Arg Thr Cys Phe Thr Gln Pro Val Pro Arg Ser Gly Lys Lys Arg 1745 1750 1755 Ala Ala Met Met Thr Glu Val Leu Ala His Lys Ile Arg Ala Val 1760 1765 1770 Glu Lys Lys Pro Ile Pro Arg Ile Lys Arg Lys Asn Asn Ser Thr 1775 1780 1785 Thr Thr Asn Asn Ser Lys Pro Ser Ser Leu Pro Thr Leu Gly Ser 1790 1795 1800 Asn Thr Glu Thr Val Gln Pro Glu Val Lys Ser Glu Thr Glu Pro 1805 1810 1815 His Phe Ile Leu Lys Ser Ser Asp Asn Thr Lys Thr Tyr Ser Leu 1820 1825 1830 Met Pro Ser Ala Pro His Pro Val Lys Glu Ala Ser Pro Gly Phe 1835 1840 1845 Ser Trp Ser Pro Lys Thr Ala Ser Ala Thr Pro Ala Pro Leu Lys 1850 1855 1860 Asn Asp Ala Thr Ala Ser Cys Gly Phe Ser Glu Arg Ser Ser Thr 1865 1870 1875 Pro His Cys Thr Met Pro Ser Gly Arg Leu Ser Gly Ala Asn Ala 1880 1885 1890 Ala Ala Ala Asp Gly Pro Gly Ile Ser Gln Leu Gly Glu Val Ala 1895 1900 1905 Pro Leu Pro Thr Leu Ser Ala Pro Val Met Glu Pro Leu Ile Asn 1910 1915 1920 Ser Glu Pro Ser Thr Gly Val Thr Glu Pro Leu Thr Pro His Gln 1925 1930 1935 Pro Asn His Gln Pro Ser Phe Leu Thr Ser Pro Gln Asp Leu Ala 1940 1945 1950 Ser Ser Pro Met Glu Glu Asp Glu Gln His Ser Glu Ala Asp Glu 1955 1960 1965 Pro Pro Ser Asp Glu Pro Leu Ser Asp Asp Pro Leu Ser Pro Ala 1970 1975 1980 Glu Glu Lys Leu Pro His Ile Asp Glu Tyr Trp Ser Asp Ser Glu 1985 1990 1995 His Ile Phe Leu Asp Ala Asn Ile Gly Gly Val Ala Ile Ala Pro 2000 2005 2010 Ala His Gly Ser Val Leu Ile Glu Cys Ala Arg Arg Glu Leu His 2015 2020 2025 Ala Thr Thr Pro Val Glu His Pro Asn Arg Asn His Pro Thr Arg 2030 2035 2040 Leu Ser Leu Val Phe Tyr Gln His Lys Asn Leu Asn Lys Pro Gln 2045 2050 2055 His Gly Phe Glu Leu Asn Lys Ile Lys Phe Glu Ala Lys Glu Ala 2060 2065 2070 Lys Asn Lys Lys Met Lys Ala Ser Glu Gln Lys Asp Gln Ala Ala 2075 2080 2085 Asn Glu Gly Pro Glu Gln Ser Ser Glu Val Asn Glu Leu Asn Gln 2090 2095 2100 Ile Pro Ser His Lys Ala Leu Thr Leu Thr His Asp Asn Val Val 2105 2110 2115 Thr Val Ser Pro Tyr Ala Leu Thr His Val Ala Gly Pro Tyr Asn 2120 2125 2130 His Trp Val 2135 <210> 2 <211> 1942 <212> PRT <213> Homo sapiens <400> 2 Tyr Gly Ile Pro Cys Met Lys Gly Ser Gln Asn Ser Arg Val Ser Pro 1 5 10 15 Asp Phe Thr Gln Glu Ser Arg Gly Tyr Ser Lys Cys Leu Gln Asn Gly 20 25 30 Gly Ile Lys Arg Thr Val Ser Glu Pro Ser Leu Ser Gly Leu Leu Gln 35 40 45 Ile Lys Lys Leu Lys Gln Asp Gln Lys Ala Asn Gly Glu Arg Arg Asn 50 55 60 Phe Gly Val Ser Gln Glu Arg Asn Pro Gly Glu Ser Ser Gln Pro Asn 65 70 75 80 Val Ser Asp Leu Ser Asp Lys Lys Glu Ser Val Ser Ser Val Ala Gln 85 90 95 Glu Asn Ala Val Lys Asp Phe Thr Ser Phe Ser Thr His Asn Cys Ser 100 105 110 Gly Pro Glu Asn Pro Glu Leu Gln Ile Leu Asn Glu Gln Glu Gly Lys 115 120 125 Ser Ala Asn Tyr His Asp Lys Asn Ile Val Leu Leu Lys Asn Lys Ala 130 135 140 Val Leu Met Pro Asn Gly Ala Thr Val Ser Ala Ser Ser Val Glu His 145 150 155 160 Thr His Gly Glu Leu Leu Glu Lys Thr Leu Ser Gln Tyr Tyr Pro Asp 165 170 175 Cys Val Ser Ile Ala Val Gln Lys Thr Thr Ser His Ile Asn Ala Ile 180 185 190 Asn Ser Gln Ala Thr Asn Glu Leu Ser Cys Glu Ile Thr His Pro Ser 195 200 205 His Thr Ser Gly Gln Ile Asn Ser Ala Gln Thr Ser Asn Ser Glu Leu 210 215 220 Pro Pro Lys Pro Ala Ala Val Val Ser Glu Ala Cys Asp Ala Asp Asp 225 230 235 240 Ala Asp Asn Ala Ser Lys Leu Ala Ala Met Leu Asn Thr Cys Ser Phe 245 250 255 Gln Lys Pro Glu Gln Leu Gln Gln Gln Lys Ser Val Phe Glu Ile Cys 260 265 270 Pro Ser Pro Ala Glu Asn Asn Ile Gln Gly Thr Thr Lys Leu Ala Ser 275 280 285 Gly Glu Glu Phe Cys Ser Gly Ser Ser Ser Asn Leu Gln Ala Pro Gly 290 295 300 Gly Ser Ser Glu Arg Tyr Leu Lys Gln Asn Glu Met Asn Gly Ala Tyr 305 310 315 320 Phe Lys Gln Ser Ser Val Phe Thr Lys Asp Ser Phe Ser Ala Thr Thr 325 330 335 Thr Pro Pro Pro Pro Ser Gln Leu Leu Leu Ser Pro Pro Pro Pro Leu 340 345 350 Pro Gln Val Pro Gln Leu Pro Ser Glu Gly Lys Ser Thr Leu Asn Gly 355 360 365 Gly Val Leu Glu Glu His His His Tyr Pro Asn Gln Ser Asn Thr Thr 370 375 380 Leu Leu Arg Glu Val Lys Ile Glu Gly Lys Pro Glu Ala Pro Pro Ser 385 390 395 400 Gln Ser Pro Asn Pro Ser Thr His Val Cys Ser Pro Ser Pro Met Leu 405 410 415 Ser Glu Arg Pro Gln Asn Asn Cys Val Asn Arg Asn Asp Ile Gln Thr 420 425 430 Ala Gly Thr Met Thr Val Pro Leu Cys Ser Glu Lys Thr Arg Pro Met 435 440 445 Ser Glu His Leu Lys His Asn Pro Pro Ile Phe Gly Ser Ser Gly Glu 450 455 460 Leu Gln Asp Asn Cys Gln Gln Leu Met Arg Asn Lys Glu Gln Glu Ile 465 470 475 480 Leu Lys Gly Arg Asp Lys Glu Gln Thr Arg Asp Leu Val Pro Pro Thr 485 490 495 Gln His Tyr Leu Lys Pro Gly Trp Ile Glu Leu Lys Ala Pro Arg Phe 500 505 510 His Gln Ala Glu Ser His Leu Lys Arg Asn Glu Ala Ser Leu Pro Ser 515 520 525 Ile Leu Gln Tyr Gln Pro Asn Leu Ser Asn Gln Met Thr Ser Lys Gln 530 535 540 Tyr Thr Gly Asn Ser Asn Met Pro Gly Gly Leu Pro Arg Gln Ala Tyr 545 550 555 560 Thr Gln Lys Thr Thr Gln Leu Glu His Lys Ser Gln Met Tyr Gln Val 565 570 575 Glu Met Asn Gln Gly Gln Ser Gln Gly Thr Val Asp Gln His Leu Gln 580 585 590 Phe Gln Lys Pro Ser His Gln Val His Phe Ser Lys Thr Asp His Leu 595 600 605 Pro Lys Ala His Val Gln Ser Leu Cys Gly Thr Arg Phe His Phe Gln 610 615 620 Gln Arg Ala Asp Ser Gln Thr Glu Lys Leu Met Ser Pro Val Leu Lys 625 630 635 640 Gln His Leu Asn Gln Gln Ala Ser Glu Thr Glu Pro Phe Ser Asn Ser 645 650 655 His Leu Leu Gln His Lys Pro His Lys Gln Ala Ala Gln Thr Gln Pro 660 665 670 Ser Gln Ser Ser His Leu Pro Gln Asn Gln Gln Gln Gln Gln Lys Leu 675 680 685 Gln Ile Lys Asn Lys Glu Glu Ile Leu Gln Thr Phe Pro His Pro Gln 690 695 700 Ser Asn Asn Asp Gln Gln Arg Glu Gly Ser Phe Phe Gly Gln Thr Lys 705 710 715 720 Val Glu Glu Cys Phe His Gly Glu Asn Gln Tyr Ser Lys Ser Ser Glu 725 730 735 Phe Glu Thr His Asn Val Gln Met Gly Leu Glu Glu Val Gln Asn Ile 740 745 750 Asn Arg Arg Asn Ser Pro Tyr Ser Gln Thr Met Lys Ser Ser Ala Cys 755 760 765 Lys Ile Gln Val Ser Cys Ser Asn Asn Thr His Leu Val Ser Glu Asn 770 775 780 Lys Glu Gln Thr Thr His Pro Glu Leu Phe Ala Gly Asn Lys Thr Gln 785 790 795 800 Asn Leu His His Met Gln Tyr Phe Pro Asn Asn Val Ile Pro Lys Gln 805 810 815 Asp Leu Leu His Arg Cys Phe Gln Glu Gln Glu Gln Lys Ser Gln Gln 820 825 830 Ala Ser Val Leu Gln Gly Tyr Lys Asn Arg Asn Gln Asp Met Ser Gly 835 840 845 Gln Gln Ala Ala Gln Leu Ala Gln Gln Arg Tyr Leu Ile His Asn His 850 855 860 Ala Asn Val Phe Pro Val Pro Asp Gln Gly Gly Ser His Thr Gln Thr 865 870 875 880 Pro Pro Gln Lys Asp Thr Gln Lys His Ala Ala Leu Arg Trp His Leu 885 890 895 Leu Gln Lys Gln Glu Gln Gln Gln Thr Gln Gln Pro Gln Thr Glu Ser 900 905 910 Cys His Ser Gln Met His Arg Pro Ile Lys Val Glu Pro Gly Cys Lys 915 920 925 Pro His Ala Cys Met His Thr Ala Pro Pro Glu Asn Lys Thr Trp Lys 930 935 940 Lys Val Thr Lys Gln Glu Asn Pro Pro Ala Ser Cys Asp Asn Val Gln 945 950 955 960 Gln Lys Ser Ile Ile Glu Thr Met Glu Gln His Leu Lys Gln Phe His 965 970 975 Ala Lys Ser Leu Phe Asp His Lys Ala Leu Thr Leu Lys Ser Gln Lys 980 985 990 Gln Val Lys Val Glu Met Ser Gly Pro Val Thr Val Leu Thr Arg Gln 995 1000 1005 Thr Thr Ala Ala Glu Leu Asp Ser His Thr Pro Ala Leu Glu Gln 1010 1015 1020 Gln Thr Thr Ser Ser Glu Lys Thr Pro Thr Lys Arg Thr Ala Ala 1025 1030 1035 Ser Val Leu Asn Asn Phe Ile Glu Ser Pro Ser Lys Leu Leu Asp 1040 1045 1050 Thr Pro Ile Lys Asn Leu Leu Asp Thr Pro Val Lys Thr Gln Tyr 1055 1060 1065 Asp Phe Pro Ser Cys Arg Cys Val Glu Gln Ile Ile Glu Lys Asp 1070 1075 1080 Glu Gly Pro Phe Tyr Thr His Leu Gly Ala Gly Pro Asn Val Ala 1085 1090 1095 Ala Ile Arg Glu Ile Met Glu Glu Arg Phe Gly Gln Lys Gly Lys 1100 1105 1110 Ala Ile Arg Ile Glu Arg Val Ile Tyr Thr Gly Lys Glu Gly Lys 1115 1120 1125 Ser Ser Gln Gly Cys Pro Ile Ala Lys Trp Val Val Arg Arg Ser 1130 1135 1140 Ser Ser Glu Glu Lys Leu Leu Cys Leu Val Arg Glu Arg Ala Gly 1145 1150 1155 His Thr Cys Glu Ala Ala Val Ile Val Ile Leu Ile Leu Val Trp 1160 1165 1170 Glu Gly Ile Pro Leu Ser Leu Ala Asp Lys Leu Tyr Ser Glu Leu 1175 1180 1185 Thr Glu Thr Leu Arg Lys Tyr Gly Thr Leu Thr Asn Arg Arg Cys 1190 1195 1200 Ala Leu Asn Glu Glu Arg Thr Cys Ala Cys Gln Gly Leu Asp Pro 1205 1210 1215 Glu Thr Cys Gly Ala Ser Phe Ser Phe Gly Cys Ser Trp Ser Met 1220 1225 1230 Tyr Tyr Asn Gly Cys Lys Phe Ala Arg Ser Lys Ile Pro Arg Lys 1235 1240 1245 Phe Lys Leu Leu Gly Asp Asp Pro Lys Glu Glu Glu Lys Leu Glu 1250 1255 1260 Ser His Leu Gln Asn Leu Ser Thr Leu Met Ala Pro Thr Tyr Lys 1265 1270 1275 Lys Leu Ala Pro Asp Ala Tyr Asn Asn Gln Ile Glu Tyr Glu His 1280 1285 1290 Arg Ala Pro Glu Cys Arg Leu Gly Leu Lys Glu Gly Arg Pro Phe 1295 1300 1305 Ser Gly Val Thr Ala Cys Leu Asp Phe Cys Ala His Ala His Arg 1310 1315 1320 Asp Leu His Asn Met Gln Asn Gly Ser Thr Leu Val Cys Thr Leu 1325 1330 1335 Thr Arg Glu Asp Asn Arg Glu Phe Gly Gly Lys Pro Glu Asp Glu 1340 1345 1350 Gln Leu His Val Leu Pro Leu Tyr Lys Val Ser Asp Val Asp Glu 1355 1360 1365 Phe Gly Ser Val Glu Ala Gln Glu Glu Lys Lys Arg Ser Gly Ala 1370 1375 1380 Ile Gln Val Leu Ser Ser Phe Arg Arg Lys Val Arg Met Leu Ala 1385 1390 1395 Glu Pro Val Lys Thr Cys Arg Gln Arg Lys Leu Glu Ala Lys Lys 1400 1405 1410 Ala Ala Ala Glu Lys Leu Ser Ser Leu Glu Asn Ser Ser Asn Lys 1415 1420 1425 Asn Glu Lys Glu Lys Ser Ala Pro Ser Arg Thr Lys Gln Thr Glu 1430 1435 1440 Asn Ala Ser Gln Ala Lys Gln Leu Ala Glu Leu Leu Arg Leu Ser 1445 1450 1455 Gly Pro Val Met Gln Gln Ser Gln Gln Pro Gln Pro Leu Gln Lys 1460 1465 1470 Gln Pro Pro Gln Pro Gln Gln Gln Gln Arg Pro Gln Gln Gln Gln 1475 1480 1485 Pro His His Pro Gln Thr Glu Ser Val Asn Ser Tyr Ser Ala Ser 1490 1495 1500 Gly Ser Thr Asn Pro Tyr Met Arg Arg Pro Asn Pro Val Ser Pro 1505 1510 1515 Tyr Pro Asn Ser Ser His Thr Ser Asp Ile Tyr Gly Ser Thr Ser 1520 1525 1530 Pro Met Asn Phe Tyr Ser Thr Ser Ser Gln Ala Ala Gly Ser Tyr 1535 1540 1545 Leu Asn Ser Ser Asn Pro Met Asn Pro Tyr Pro Gly Leu Leu Asn 1550 1555 1560 Gln Asn Thr Gln Tyr Pro Ser Tyr Gln Cys Asn Gly Asn Leu Ser 1565 1570 1575 Val Asp Asn Cys Ser Pro Tyr Leu Gly Ser Tyr Ser Pro Gln Ser 1580 1585 1590 Gln Pro Met Asp Leu Tyr Arg Tyr Pro Ser Gln Asp Pro Leu Ser 1595 1600 1605 Lys Leu Ser Leu Pro Pro Ile His Thr Leu Tyr Gln Pro Arg Phe 1610 1615 1620 Gly Asn Ser Gln Ser Phe Thr Ser Lys Tyr Leu Gly Tyr Gly Asn 1625 1630 1635 Gln Asn Met Gln Gly Asp Gly Phe Ser Ser Cys Thr Ile Arg Pro 1640 1645 1650 Asn Val His His Val Gly Lys Leu Pro Pro Tyr Pro Thr His Glu 1655 1660 1665 Met Asp Gly His Phe Met Gly Ala Thr Ser Arg Leu Pro Pro Asn 1670 1675 1680 Leu Ser Asn Pro Asn Met Asp Tyr Lys Asn Gly Glu His His Ser 1685 1690 1695 Pro Ser His Ile Ile His Asn Tyr Ser Ala Ala Pro Gly Met Phe 1700 1705 1710 Asn Ser Ser Leu His Ala Leu His Leu Gln Asn Lys Glu Asn Asp 1715 1720 1725 Met Leu Ser His Thr Ala Asn Gly Leu Ser Lys Met Leu Pro Ala 1730 1735 1740 Leu Asn His Asp Arg Thr Ala Cys Val Gln Gly Gly Leu His Lys 1745 1750 1755 Leu Ser Asp Ala Asn Gly Gln Glu Lys Gln Pro Leu Ala Leu Val 1760 1765 1770 Gln Gly Val Ala Ser Gly Ala Glu Asp Asn Asp Glu Val Trp Ser 1775 1780 1785 Asp Ser Glu Gln Ser Phe Leu Asp Pro Asp Ile Gly Gly Val Ala 1790 1795 1800 Val Ala Pro Thr His Gly Ser Ile Leu Ile Glu Cys Ala Lys Arg 1805 1810 1815 Glu Leu His Ala Thr Thr Pro Leu Lys Asn Pro Asn Arg Asn His 1820 1825 1830 Pro Thr Arg Ile Ser Leu Val Phe Tyr Gln His Lys Ser Met Asn 1835 1840 1845 Glu Pro Lys His Gly Leu Ala Leu Trp Glu Ala Lys Met Ala Glu 1850 1855 1860 Lys Ala Arg Glu Lys Glu Glu Glu Cys Glu Lys Tyr Gly Pro Asp 1865 1870 1875 Tyr Val Pro Gln Lys Ser His Gly Lys Lys Val Lys Arg Glu Pro 1880 1885 1890 Ala Glu Pro His Glu Thr Ser Glu Pro Thr Tyr Leu Arg Phe Ile 1895 1900 1905 Lys Ser Leu Ala Glu Arg Thr Met Ser Val Thr Thr Asp Ser Thr 1910 1915 1920 Val Thr Thr Ser Pro Tyr Ala Phe Thr Arg Val Thr Gly Pro Tyr 1925 1930 1935 Asn Arg Tyr Ile 1940 <210> 3 <211> 1795 <212> PRT <213> Homo sapiens <400> 3 Met Ser Gln Phe Gln Val Pro Leu Ala Val Gln Pro Asp Leu Pro Gly 1 5 10 15 Leu Tyr Asp Phe Pro Gln Arg Gln Val Met Val Gly Ser Phe Pro Gly 20 25 30 Ser Gly Leu Ser Met Ala Gly Ser Glu Ser Gln Leu Arg Gly Gly Gly 35 40 45 Asp Gly Arg Lys Lys Arg Lys Arg Cys Gly Thr Cys Glu Pro Cys Arg 50 55 60 Arg Leu Glu Asn Cys Gly Ala Cys Thr Ser Cys Thr Asn Arg Arg Thr 65 70 75 80 His Gln Ile Cys Lys Leu Arg Lys Cys Glu Val Leu Lys Lys Lys Val 85 90 95 Gly Leu Leu Lys Glu Val Glu Ile Lys Ala Gly Glu Gly Ala Gly Pro 100 105 110 Trp Gly Gln Gly Ala Ala Val Lys Thr Gly Ser Glu Leu Ser Pro Val 115 120 125 Asp Gly Pro Val Pro Gly Gln Met Asp Ser Gly Pro Val Tyr His Gly 130 135 140 Asp Ser Arg Gln Leu Ser Ala Ser Gly Val Pro Val Asn Gly Ala Arg 145 150 155 160 Glu Pro Ala Gly Pro Ser Leu Leu Gly Thr Gly Gly Pro Trp Arg Val 165 170 175 Asp Gln Lys Pro Asp Trp Glu Ala Ala Pro Gly Pro Ala His Thr Ala 180 185 190 Arg Leu Glu Asp Ala His Asp Leu Val Ala Phe Ser Ala Val Ala Glu 195 200 205 Ala Val Ser Ser Tyr Gly Ala Leu Ser Thr Arg Leu Tyr Glu Thr Phe 210 215 220 Asn Arg Glu Met Ser Arg Glu Ala Gly Asn Asn Ser Arg Gly Pro Arg 225 230 235 240 Pro Gly Pro Glu Gly Cys Ser Ala Gly Ser Glu Asp Leu Asp Thr Leu 245 250 255 Gln Thr Ala Leu Ala Leu Ala Arg His Gly Met Lys Pro Pro Asn Cys 260 265 270 Asn Cys Asp Gly Pro Glu Cys Pro Asp Tyr Leu Glu Trp Leu Glu Gly 275 280 285 Lys Ile Lys Ser Val Val Met Glu Gly Gly Glu Glu Arg Pro Arg Leu 290 295 300 Pro Gly Pro Leu Pro Pro Gly Glu Ala Gly Leu Pro Ala Pro Ser Thr 305 310 315 320 Arg Pro Leu Leu Ser Ser Glu Val Pro Gln Ile Ser Pro Gln Glu Gly 325 330 335 Leu Pro Leu Ser Gln Ser Ala Leu Ser Ile Ala Lys Glu Lys Asn Ile 340 345 350 Ser Leu Gln Thr Ala Ile Ala Ile Glu Ala Leu Thr Gln Leu Ser Ser 355 360 365 Ala Leu Pro Gln Pro Ser His Ser Thr Pro Gln Ala Ser Cys Pro Leu 370 375 380 Pro Glu Ala Leu Ser Pro Pro Ala Pro Phe Arg Ser Pro Gln Ser Tyr 385 390 395 400 Leu Arg Ala Pro Ser Trp Pro Val Val Pro Pro Glu Glu His Ser Ser 405 410 415 Phe Ala Pro Asp Ser Ser Ala Phe Pro Pro Ala Thr Pro Arg Thr Glu 420 425 430 Phe Pro Glu Ala Trp Gly Thr Asp Thr Pro Pro Ala Thr Pro Arg Ser 435 440 445 Ser Trp Pro Met Pro Arg Pro Ser Pro Asp Pro Met Ala Glu Leu Glu 450 455 460 Gln Leu Leu Gly Ser Ala Ser Asp Tyr Ile Gln Ser Val Phe Lys Arg 465 470 475 480 Pro Glu Ala Leu Pro Thr Lys Pro Lys Val Lys Val Glu Ala Pro Ser 485 490 495 Ser Ser Pro Ala Pro Ala Pro Ser Pro Val Leu Gln Arg Glu Ala Pro 500 505 510 Thr Pro Ser Ser Glu Pro Asp Thr His Gln Lys Ala Gln Thr Ala Leu 515 520 525 Gln Gln His Leu His His Lys Arg Ser Leu Phe Leu Glu Gln Val His 530 535 540 Asp Thr Ser Phe Pro Ala Pro Ser Glu Pro Ser Ala Pro Gly Trp Trp 545 550 555 560 Pro Pro Pro Ser Ser Pro Val Pro Arg Leu Pro Asp Arg Pro Pro Lys 565 570 575 Glu Lys Lys Lys Lys Leu Pro Thr Pro Ala Gly Gly Pro Val Gly Thr 580 585 590 Glu Lys Ala Ala Pro Gly Ile Lys Pro Ser Val Arg Lys Pro Ile Gln 595 600 605 Ile Lys Lys Ser Arg Pro Arg Glu Ala Gln Pro Leu Phe Pro Pro Val 610 615 620 Arg Gln Ile Val Leu Glu Gly Leu Arg Ser Pro Ala Ser Gln Glu Val 625 630 635 640 Gln Ala His Pro Pro Ala Pro Leu Pro Ala Ser Gln Gly Ser Ala Val 645 650 655 Pro Leu Pro Pro Glu Pro Ser Leu Ala Leu Phe Ala Pro Ser Pro Ser 660 665 670 Arg Asp Ser Leu Leu Pro Pro Thr Gln Glu Met Arg Ser Pro Ser Pro 675 680 685 Met Thr Ala Leu Gln Pro Gly Ser Thr Gly Pro Leu Pro Pro Ala Asp 690 695 700 Asp Lys Leu Glu Glu Leu Ile Arg Gln Phe Glu Ala Glu Phe Gly Asp 705 710 715 720 Ser Phe Gly Leu Pro Gly Pro Pro Ser Val Pro Ile Gln Asp Pro Glu 725 730 735 Asn Gln Gln Thr Cys Leu Pro Ala Pro Glu Ser Pro Phe Ala Thr Arg 740 745 750 Ser Pro Lys Gln Ile Lys Ile Glu Ser Ser Gly Ala Val Thr Val Leu 755 760 765 Ser Thr Thr Cys Phe His Ser Glu Glu Gly Gly Gln Glu Ala Thr Pro 770 775 780 Thr Lys Ala Glu Asn Pro Leu Thr Pro Thr Leu Ser Gly Phe Leu Glu 785 790 795 800 Ser Pro Leu Lys Tyr Leu Asp Thr Pro Thr Lys Ser Leu Leu Asp Thr 805 810 815 Pro Ala Lys Arg Ala Gln Ala Glu Phe Pro Thr Cys Asp Cys Val Glu 820 825 830 Gln Ile Val Glu Lys Asp Glu Gly Pro Tyr Tyr Thr His Leu Gly Ser 835 840 845 Gly Pro Thr Val Ala Ser Ile Arg Glu Leu Met Glu Glu Arg Tyr Gly 850 855 860 Glu Lys Gly Lys Ala Ile Arg Ile Glu Lys Val Ile Tyr Thr Gly Lys 865 870 875 880 Glu Gly Lys Ser Ser Arg Gly Cys Pro Ile Ala Lys Trp Val Ile Arg 885 890 895 Arg His Thr Leu Glu Glu Lys Leu Leu Cys Leu Val Arg His Arg Ala 900 905 910 Gly His His Cys Gln Asn Ala Val Ile Val Ile Leu Ile Leu Ala Trp 915 920 925 Glu Gly Ile Pro Arg Ser Leu Gly Asp Thr Leu Tyr Gln Glu Leu Thr 930 935 940 Asp Thr Leu Arg Lys Tyr Gly Asn Pro Thr Ser Arg Arg Cys Gly Leu 945 950 955 960 Asn Asp Asp Arg Thr Cys Ala Cys Gln Gly Lys Asp Pro Asn Thr Cys 965 970 975 Gly Ala Ser Phe Ser Phe Gly Cys Ser Trp Ser Met Tyr Phe Asn Gly 980 985 990 Cys Lys Tyr Ala Arg Ser Lys Thr Pro Arg Lys Phe Arg Leu Ala Gly 995 1000 1005 Asp Asn Pro Lys Glu Glu Glu Val Leu Arg Lys Ser Phe Gln Asp 1010 1015 1020 Leu Ala Thr Glu Val Ala Pro Leu Tyr Lys Arg Leu Ala Pro Gln 1025 1030 1035 Ala Tyr Gln Asn Gln Val Thr Asn Glu Glu Ile Ala Ile Asp Cys 1040 1045 1050 Arg Leu Gly Leu Lys Glu Gly Arg Pro Phe Ala Gly Val Thr Ala 1055 1060 1065 Cys Met Asp Phe Cys Ala His Ala His Lys Asp Gln His Asn Leu 1070 1075 1080 Tyr Asn Gly Cys Thr Val Val Cys Thr Leu Thr Lys Glu Asp Asn 1085 1090 1095 Arg Cys Val Gly Lys Ile Pro Glu Asp Glu Gln Leu His Val Leu 1100 1105 1110 Pro Leu Tyr Lys Met Ala Asn Thr Asp Glu Phe Gly Ser Glu Glu 1115 1120 1125 Asn Gln Asn Ala Lys Val Gly Ser Gly Ala Ile Gln Val Leu Thr 1130 1135 1140 Ala Phe Pro Arg Glu Val Arg Arg Leu Pro Glu Pro Ala Lys Ser 1145 1150 1155 Cys Arg Gln Arg Gln Leu Glu Ala Arg Lys Ala Ala Ala Glu Lys 1160 1165 1170 Lys Lys Ile Gln Lys Glu Lys Leu Ser Thr Pro Glu Lys Ile Lys 1175 1180 1185 Gln Glu Ala Leu Glu Leu Ala Gly Ile Thr Ser Asp Pro Gly Leu 1190 1195 1200 Ser Leu Lys Gly Gly Leu Ser Gln Gln Gly Leu Lys Pro Ser Leu 1205 1210 1215 Lys Val Glu Pro Gln Asn His Phe Ser Ser Phe Lys Tyr Ser Gly 1220 1225 1230 Asn Ala Val Val Glu Ser Tyr Ser Val Leu Gly Asn Cys Arg Pro 1235 1240 1245 Ser Asp Pro Tyr Ser Met Asn Ser Val Tyr Ser Tyr His Ser Tyr 1250 1255 1260 Tyr Ala Gln Pro Ser Leu Thr Ser Val Asn Gly Phe His Ser Lys 1265 1270 1275 Tyr Ala Leu Pro Ser Phe Ser Tyr Tyr Gly Phe Pro Ser Ser Asn 1280 1285 1290 Pro Val Phe Pro Ser Gln Phe Leu Gly Pro Gly Ala Trp Gly His 1295 1300 1305 Ser Gly Ser Ser Gly Ser Phe Glu Lys Lys Pro Asp Leu His Ala 1310 1315 1320 Leu His Asn Ser Leu Ser Pro Ala Tyr Gly Gly Ala Glu Phe Ala 1325 1330 1335 Glu Leu Pro Ser Gln Ala Val Pro Thr Asp Ala His His Pro Thr 1340 1345 1350 Pro His His Gln Gln Pro Ala Tyr Pro Gly Pro Lys Glu Tyr Leu 1355 1360 1365 Leu Pro Lys Ala Pro Leu Leu His Ser Val Ser Arg Asp Pro Ser 1370 1375 1380 Pro Phe Ala Gln Ser Ser Asn Cys Tyr Asn Arg Ser Ile Lys Gln 1385 1390 1395 Glu Pro Val Asp Pro Leu Thr Gln Ala Glu Pro Val Pro Arg Asp 1400 1405 1410 Ala Gly Lys Met Gly Lys Thr Pro Leu Ser Glu Val Ser Gln Asn 1415 1420 1425 Gly Gly Pro Ser His Leu Trp Gly Gln Tyr Ser Gly Gly Pro Ser 1430 1435 1440 Met Ser Pro Lys Arg Thr Asn Gly Val Gly Gly Ser Trp Gly Val 1445 1450 1455 Phe Ser Ser Gly Glu Ser Pro Ala Ile Val Pro Asp Lys Leu Ser 1460 1465 1470 Ser Phe Gly Ala Ser Cys Leu Ala Pro Ser His Phe Thr Asp Gly 1475 1480 1485 Gln Trp Gly Leu Phe Pro Gly Glu Gly Gln Gln Ala Ala Ser His 1490 1495 1500 Ser Gly Gly Arg Leu Arg Gly Lys Pro Trp Ser Pro Cys Lys Phe 1505 1510 1515 Gly Asn Ser Thr Ser Ala Leu Ala Gly Pro Ser Leu Thr Glu Lys 1520 1525 1530 Pro Trp Ala Leu Gly Ala Gly Asp Phe Asn Ser Ala Leu Lys Gly 1535 1540 1545 Ser Pro Gly Phe Gln Asp Lys Leu Trp Asn Pro Met Lys Gly Glu 1550 1555 1560 Glu Gly Arg Ile Pro Ala Ala Gly Ala Ser Gln Leu Asp Arg Ala 1565 1570 1575 Trp Gln Ser Phe Gly Leu Pro Leu Gly Ser Ser Glu Lys Leu Phe 1580 1585 1590 Gly Ala Leu Lys Ser Glu Glu Lys Leu Trp Asp Pro Phe Ser Leu 1595 1600 1605 Glu Glu Gly Pro Ala Glu Glu Pro Pro Ser Lys Gly Ala Val Lys 1610 1615 1620 Glu Glu Lys Gly Gly Gly Gly Ala Glu Glu Glu Glu Glu Glu Leu 1625 1630 1635 Trp Ser Asp Ser Glu His Asn Phe Leu Asp Glu Asn Ile Gly Gly 1640 1645 1650 Val Ala Val Ala Pro Ala His Gly Ser Ile Leu Ile Glu Cys Ala 1655 1660 1665 Arg Arg Glu Leu His Ala Thr Thr Pro Leu Lys Lys Pro Asn Arg 1670 1675 1680 Cys His Pro Thr Arg Ile Ser Leu Val Phe Tyr Gln His Lys Asn 1685 1690 1695 Leu Asn Gln Pro Asn His Gly Leu Ala Leu Trp Glu Ala Lys Met 1700 1705 1710 Lys Gln Leu Ala Glu Arg Ala Arg Ala Arg Gln Glu Glu Ala Ala 1715 1720 1725 Arg Leu Gly Leu Gly Gln Gln Glu Ala Lys Leu Tyr Gly Lys Lys 1730 1735 1740 Arg Lys Trp Gly Gly Thr Val Val Ala Glu Pro Gln Gln Lys Glu 1745 1750 1755 Lys Lys Gly Val Val Pro Thr Arg Gln Ala Leu Ala Val Pro Thr 1760 1765 1770 Asp Ser Ala Val Thr Val Ser Ser Tyr Ala Tyr Thr Lys Val Thr 1775 1780 1785 Gly Pro Tyr Ser Arg Trp Ile 1790 1795 <210> 4 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> Synthetic polypeptide <400> 4 Pro Lys Lys Lys Arg Lys Val 1 5 <210> 5 <211> 16 <212> PRT <213> Artificial Sequence <220> <223> Synthetic polypeptide <400> 5 Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser 1 5 10 15 <210> 6 <211> 80 <212> PRT <213> Artificial Sequence <220> <223> Synthetic polypeptide <400> 6 Gly Gly Pro Ser Ser Gly Ala Pro Pro Pro Ser Gly Gly Ser Pro Ala 1 5 10 15 Gly Ser Pro Thr Ser Thr Glu Glu Gly Thr Ser Glu Ser Ala Thr Pro 20 25 30 Glu Ser Gly Pro Gly Thr Ser Thr Glu Pro Ser Glu Gly Ser Ala Pro 35 40 45 Gly Ser Pro Ala Gly Ser Pro Thr Ser Thr Glu Glu Gly Thr Ser Thr 50 55 60 Glu Pro Ser Glu Gly Ser Ala Pro Gly Thr Ser Thr Glu Pro Ser Glu 65 70 75 80 <210> 7 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> Synthetic polypeptide <400> 7 Tyr Pro Tyr Asp Val Pro Asp Tyr Ala 1 5 <210> 8 <211> 232 <212> PRT <213> Artificial Sequence <220> <223> Synthetic polypeptide <400> 8 Ser Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu Gly 1 5 10 15 Thr Val Asp Asn His His Phe Lys Cys Thr Ser Glu Gly Glu Gly Lys 20 25 30 Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly Gly 35 40 45 Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr Gly 50 55 60 Ser Lys Thr Phe Ile Asn His Thr Gln Gly Ile Pro Asp Phe Phe Lys 65 70 75 80 Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Tyr Glu 85 90 95 Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp Gly 100 105 110 Cys Leu Ile Tyr Asn Val Lys Ile Arg Gly Val Asn Phe Thr Ser Asn 115 120 125 Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr Glu 130 135 140 Thr Leu Tyr Pro Ala Asp Gly Gly Leu Glu Gly Arg Asn Asp Met Ala 145 150 155 160 Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala Asn Ile Lys Thr Thr 165 170 175 Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val Tyr 180 185 190 Tyr Val Asp Tyr Arg Leu Glu Arg Ile Lys Glu Ala Asn Asn Glu Thr 195 200 205 Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Cys Asp Leu Pro 210 215 220 Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 9 <211> 1368 <212> PRT <213> Artificial Sequence <220> <223> Synthetic polypeptide <400> 9 Met Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val 1 5 10 15 Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe 20 25 30 Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile 35 40 45 Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu 50 55 60 Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys 65 70 75 80 Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser 85 90 95 Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys 100 105 110 His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr 115 120 125 His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp 130 135 140 Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His 145 150 155 160 Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro 165 170 175 Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr 180 185 190 Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala 195 200 205 Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn 210 215 220 Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn 225 230 235 240 Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe 245 250 255 Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp 260 265 270 Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp 275 280 285 Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp 290 295 300 Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser 305 310 315 320 Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys 325 330 335 Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe 340 345 350 Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser 355 360 365 Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp 370 375 380 Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg 385 390 395 400 Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu 405 410 415 Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe 420 425 430 Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile 435 440 445 Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp 450 455 460 Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu 465 470 475 480 Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr 485 490 495 Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser 500 505 510 Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys 515 520 525 Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln 530 535 540 Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr 545 550 555 560 Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp 565 570 575 Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly 580 585 590 Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp 595 600 605 Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr 610 615 620 Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala 625 630 635 640 His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr 645 650 655 Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp 660 665 670 Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe 675 680 685 Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe 690 695 700 Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu 705 710 715 720 His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly 725 730 735 Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly 740 745 750 Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln 755 760 765 Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile 770 775 780 Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro 785 790 795 800 Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu 805 810 815 Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg 820 825 830 Leu Ser Asp Tyr Asp Val Asp Ala Ile Val Pro Gln Ser Phe Leu Lys 835 840 845 Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg 850 855 860 Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys 865 870 875 880 Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys 885 890 895 Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp 900 905 910 Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr 915 920 925 Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp 930 935 940 Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser 945 950 955 960 Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg 965 970 975 Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val 980 985 990 Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe 995 1000 1005 Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala 1010 1015 1020 Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe 1025 1030 1035 Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala 1040 1045 1050 Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu 1055 1060 1065 Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val 1070 1075 1080 Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr 1085 1090 1095 Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys 1100 1105 1110 Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro 1115 1120 1125 Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val 1130 1135 1140 Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys 1145 1150 1155 Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser 1160 1165 1170 Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys 1175 1180 1185 Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu 1190 1195 1200 Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly 1205 1210 1215 Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val 1220 1225 1230 Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser 1235 1240 1245 Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys 1250 1255 1260 His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys 1265 1270 1275 Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala 1280 1285 1290 Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn 1295 1300 1305 Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala 1310 1315 1320 Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser 1325 1330 1335 Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr 1340 1345 1350 Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp 1355 1360 1365 <210> 10 <211> 1307 <212> PRT <213> Artificial Sequence <220> <223> Synthetic polypeptide <400> 10 Met Thr Gln Phe Glu Gly Phe Thr Asn Leu Tyr Gln Val Ser Lys Thr 1 5 10 15 Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Lys His Ile Gln 20 25 30 Glu Gln Gly Phe Ile Glu Glu Asp Lys Ala Arg Asn Asp His Tyr Lys 35 40 45 Glu Leu Lys Pro Ile Ile Asp Arg Ile Tyr Lys Thr Tyr Ala Asp Gln 50 55 60 Cys Leu Gln Leu Val Gln Leu Asp Trp Glu Asn Leu Ser Ala Ala Ile 65 70 75 80 Asp Ser Tyr Arg Lys Glu Lys Thr Glu Glu Thr Arg Asn Ala Leu Ile 85 90 95 Glu Glu Gln Ala Thr Tyr Arg Asn Ala Ile His Asp Tyr Phe Ile Gly 100 105 110 Arg Thr Asp Asn Leu Thr Asp Ala Ile Asn Lys Arg His Ala Glu Ile 115 120 125 Tyr Lys Gly Leu Phe Lys Ala Glu Leu Phe Asn Gly Lys Val Leu Lys 130 135 140 Gln Leu Gly Thr Val Thr Thr Thr Glu His Glu Asn Ala Leu Leu Arg 145 150 155 160 Ser Phe Asp Lys Phe Thr Thr Tyr Phe Ser Gly Phe Tyr Glu Asn Arg 165 170 175 Lys Asn Val Phe Ser Ala Glu Asp Ile Ser Thr Ala Ile Pro His Arg 180 185 190 Ile Val Gln Asp Asn Phe Pro Lys Phe Lys Glu Asn Cys His Ile Phe 195 200 205 Thr Arg Leu Ile Thr Ala Val Pro Ser Leu Arg Glu His Phe Glu Asn 210 215 220 Val Lys Lys Ala Ile Gly Ile Phe Val Ser Thr Ser Ile Glu Glu Val 225 230 235 240 Phe Ser Phe Pro Phe Tyr Asn Gln Leu Leu Thr Gln Thr Gln Ile Asp 245 250 255 Leu Tyr Asn Gln Leu Leu Gly Gly Ile Ser Arg Glu Ala Gly Thr Glu 260 265 270 Lys Ile Lys Gly Leu Asn Glu Val Leu Asn Leu Ala Ile Gln Lys Asn 275 280 285 Asp Glu Thr Ala His Ile Ile Ala Ser Leu Pro His Arg Phe Ile Pro 290 295 300 Leu Phe Lys Gln Ile Leu Ser Asp Arg Asn Thr Leu Ser Phe Ile Leu 305 310 315 320 Glu Glu Phe Lys Ser Asp Glu Glu Val Ile Gln Ser Phe Cys Lys Tyr 325 330 335 Lys Thr Leu Leu Arg Asn Glu Asn Val Leu Glu Thr Ala Glu Ala Leu 340 345 350 Phe Asn Glu Leu Asn Ser Ile Asp Leu Thr His Ile Phe Ile Ser His 355 360 365 Lys Lys Leu Glu Thr Ile Ser Ser Ala Leu Cys Asp His Trp Asp Thr 370 375 380 Leu Arg Asn Ala Leu Tyr Glu Arg Arg Ile Ser Glu Leu Thr Gly Lys 385 390 395 400 Ile Thr Lys Ser Ala Lys Glu Lys Val Gln Arg Ser Leu Lys His Glu 405 410 415 Asp Ile Asn Leu Gln Glu Ile Ile Ser Ala Ala Gly Lys Glu Leu Ser 420 425 430 Glu Ala Phe Lys Gln Lys Thr Ser Glu Ile Leu Ser His Ala His Ala 435 440 445 Ala Leu Asp Gln Pro Leu Pro Thr Thr Leu Lys Lys Gln Glu Glu Lys 450 455 460 Glu Ile Leu Lys Ser Gln Leu Asp Ser Leu Leu Gly Leu Tyr His Leu 465 470 475 480 Leu Asp Trp Phe Ala Val Asp Glu Ser Asn Glu Val Asp Pro Glu Phe 485 490 495 Ser Ala Arg Leu Thr Gly Ile Lys Leu Glu Met Glu Pro Ser Leu Ser 500 505 510 Phe Tyr Asn Lys Ala Arg Asn Tyr Ala Thr Lys Lys Pro Tyr Ser Val 515 520 525 Glu Lys Phe Lys Leu Asn Phe Gln Met Pro Thr Leu Ala Ser Gly Trp 530 535 540 Asp Val Asn Lys Glu Lys Asn Asn Gly Ala Ile Leu Phe Val Lys Asn 545 550 555 560 Gly Leu Tyr Tyr Leu Gly Ile Met Pro Lys Gln Lys Gly Arg Tyr Lys 565 570 575 Ala Leu Ser Phe Glu Pro Thr Glu Lys Thr Ser Glu Gly Phe Asp Lys 580 585 590 Met Tyr Tyr Asp Tyr Phe Pro Asp Ala Ala Lys Met Ile Pro Lys Cys 595 600 605 Ser Thr Gln Leu Lys Ala Val Thr Ala His Phe Gln Thr His Thr Thr 610 615 620 Pro Ile Leu Leu Ser Asn Asn Phe Ile Glu Pro Leu Glu Ile Thr Lys 625 630 635 640 Glu Ile Tyr Asp Leu Asn Asn Pro Glu Lys Glu Pro Lys Lys Phe Gln 645 650 655 Thr Ala Tyr Ala Lys Lys Thr Gly Asp Gln Lys Gly Tyr Arg Glu Ala 660 665 670 Leu Cys Lys Trp Ile Asp Phe Thr Arg Asp Phe Leu Ser Lys Tyr Thr 675 680 685 Lys Thr Thr Ser Ile Asp Leu Ser Ser Leu Arg Pro Ser Ser Gln Tyr 690 695 700 Lys Asp Leu Gly Glu Tyr Tyr Ala Glu Leu Asn Pro Leu Leu Tyr His 705 710 715 720 Ile Ser Phe Gln Arg Ile Ala Glu Lys Glu Ile Met Asp Ala Val Glu 725 730 735 Thr Gly Lys Leu Tyr Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ala Lys 740 745 750 Gly His His Gly Lys Pro Asn Leu His Thr Leu Tyr Trp Thr Gly Leu 755 760 765 Phe Ser Pro Glu Asn Leu Ala Lys Thr Ser Ile Lys Leu Asn Gly Gln 770 775 780 Ala Glu Leu Phe Tyr Arg Pro Lys Ser Arg Met Lys Arg Met Ala His 785 790 795 800 Arg Leu Gly Glu Lys Met Leu Asn Lys Lys Leu Lys Asp Gln Lys Thr 805 810 815 Pro Ile Pro Asp Thr Leu Tyr Gln Glu Leu Tyr Asp Tyr Val Asn His 820 825 830 Arg Leu Ser His Asp Leu Ser Asp Glu Ala Arg Ala Leu Leu Pro Asn 835 840 845 Val Ile Thr Lys Glu Val Ser His Glu Ile Ile Lys Asp Arg Arg Phe 850 855 860 Thr Ser Asp Lys Phe Phe Phe His Val Pro Ile Thr Leu Asn Tyr Gln 865 870 875 880 Ala Ala Asn Ser Pro Ser Lys Phe Asn Gln Arg Val Asn Ala Tyr Leu 885 890 895 Lys Glu His Pro Glu Thr Pro Ile Ile Gly Ile Asp Arg Gly Glu Arg 900 905 910 Asn Leu Ile Tyr Ile Thr Val Ile Asp Ser Thr Gly Lys Ile Leu Glu 915 920 925 Gln Arg Ser Leu Asn Thr Ile Gln Gln Phe Asp Tyr Gln Lys Lys Leu 930 935 940 Asp Asn Arg Glu Lys Glu Arg Val Ala Ala Arg Gln Ala Trp Ser Val 945 950 955 960 Val Gly Thr Ile Lys Asp Leu Lys Gln Gly Tyr Leu Ser Gln Val Ile 965 970 975 His Glu Ile Val Asp Leu Met Ile His Tyr Gln Ala Val Val Val Leu 980 985 990 Ala Asn Leu Asn Phe Gly Phe Lys Ser Lys Arg Thr Gly Ile Ala Glu 995 1000 1005 Lys Ala Val Tyr Gln Gln Phe Glu Lys Met Leu Ile Asp Lys Leu 1010 1015 1020 Asn Cys Leu Val Leu Lys Asp Tyr Pro Ala Glu Lys Val Gly Gly 1025 1030 1035 Val Leu Asn Pro Tyr Gln Leu Thr Asp Gln Phe Thr Ser Phe Ala 1040 1045 1050 Lys Met Gly Thr Gln Ser Gly Phe Leu Phe Tyr Val Pro Ala Pro 1055 1060 1065 Tyr Thr Ser Lys Ile Asp Pro Leu Thr Gly Phe Val Asp Pro Phe 1070 1075 1080 Val Trp Lys Thr Ile Lys Asn His Glu Ser Arg Lys His Phe Leu 1085 1090 1095 Glu Gly Phe Asp Phe Leu His Tyr Asp Val Lys Thr Gly Asp Phe 1100 1105 1110 Ile Leu His Phe Lys Met Asn Arg Asn Leu Ser Phe Gln Arg Gly 1115 1120 1125 Leu Pro Gly Phe Met Pro Ala Trp Asp Ile Val Phe Glu Lys Asn 1130 1135 1140 Glu Thr Gln Phe Asp Ala Lys Gly Thr Pro Phe Ile Ala Gly Lys 1145 1150 1155 Arg Ile Val Pro Val Ile Glu Asn His Arg Phe Thr Gly Arg Tyr 1160 1165 1170 Arg Asp Leu Tyr Pro Ala Asn Glu Leu Ile Ala Leu Leu Glu Glu 1175 1180 1185 Lys Gly Ile Val Phe Arg Asp Gly Ser Asn Ile Leu Pro Lys Leu 1190 1195 1200 Leu Glu Asn Asp Asp Ser His Ala Ile Asp Thr Met Val Ala Leu 1205 1210 1215 Ile Arg Ser Val Leu Gln Met Arg Asn Ser Asn Ala Ala Thr Gly 1220 1225 1230 Glu Asp Tyr Ile Asn Ser Pro Val Arg Asp Leu Asn Gly Val Cys 1235 1240 1245 Phe Asp Ser Arg Phe Gln Asn Pro Glu Trp Pro Met Asp Ala Asp 1250 1255 1260 Ala Asn Gly Ala Tyr His Ile Ala Leu Lys Gly Gln Leu Leu Leu 1265 1270 1275 Asn His Leu Lys Glu Ser Lys Asp Leu Lys Leu Gln Asn Gly Ile 1280 1285 1290 Ser Asn Gln Asp Trp Leu Ala Tyr Ile Gln Glu Leu Arg Asn 1295 1300 1305 <210> 11 <211> 1228 <212> PRT <213> Artificial Sequence <220> <223> Synthetic polypeptide <400> 11 Met Ser Lys Leu Glu Lys Phe Thr Asn Cys Tyr Ser Leu Ser Lys Thr 1 5 10 15 Leu Arg Phe Lys Ala Ile Pro Val Gly Lys Thr Gln Glu Asn Ile Asp 20 25 30 Asn Lys Arg Leu Leu Val Glu Asp Glu Lys Arg Ala Glu Asp Tyr Lys 35 40 45 Gly Val Lys Lys Leu Leu Asp Arg Tyr Tyr Leu Ser Phe Ile Asn Asp 50 55 60 Val Leu His Ser Ile Lys Leu Lys Asn Leu Asn Asn Tyr Ile Ser Leu 65 70 75 80 Phe Arg Lys Lys Thr Arg Thr Glu Lys Glu Asn Lys Glu Leu Glu Asn 85 90 95 Leu Glu Ile Asn Leu Arg Lys Glu Ile Ala Lys Ala Phe Lys Gly Asn 100 105 110 Glu Gly Tyr Lys Ser Leu Phe Lys Lys Asp Ile Ile Glu Thr Ile Leu 115 120 125 Pro Glu Phe Leu Asp Asp Lys Asp Glu Ile Ala Leu Val Asn Ser Phe 130 135 140 Asn Gly Phe Thr Thr Ala Phe Thr Gly Phe Phe Asp Asn Arg Glu Asn 145 150 155 160 Met Phe Ser Glu Glu Ala Lys Ser Thr Ser Ile Ala Phe Arg Cys Ile 165 170 175 Asn Glu Asn Leu Thr Arg Tyr Ile Ser Asn Met Asp Ile Phe Glu Lys 180 185 190 Val Asp Ala Ile Phe Asp Lys His Glu Val Gln Glu Ile Lys Glu Lys 195 200 205 Ile Leu Asn Ser Asp Tyr Asp Val Glu Asp Phe Phe Glu Gly Glu Phe 210 215 220 Phe Asn Phe Val Leu Thr Gln Glu Gly Ile Asp Val Tyr Asn Ala Ile 225 230 235 240 Ile Gly Gly Phe Val Thr Glu Ser Gly Glu Lys Ile Lys Gly Leu Asn 245 250 255 Glu Tyr Ile Asn Leu Tyr Asn Gln Lys Thr Lys Gln Lys Leu Pro Lys 260 265 270 Phe Lys Pro Leu Tyr Lys Gln Val Leu Ser Asp Arg Glu Ser Leu Ser 275 280 285 Phe Tyr Gly Glu Gly Tyr Thr Ser Asp Glu Glu Val Leu Glu Val Phe 290 295 300 Arg Asn Thr Leu Asn Lys Asn Ser Glu Ile Phe Ser Ser Ile Lys Lys 305 310 315 320 Leu Glu Lys Leu Phe Lys Asn Phe Asp Glu Tyr Ser Ser Ala Gly Ile 325 330 335 Phe Val Lys Asn Gly Pro Ala Ile Ser Thr Ile Ser Lys Asp Ile Phe 340 345 350 Gly Glu Trp Asn Val Ile Arg Asp Lys Trp Asn Ala Glu Tyr Asp Asp 355 360 365 Ile His Leu Lys Lys Lys Ala Val Val Thr Glu Lys Tyr Glu Asp Asp 370 375 380 Arg Arg Lys Ser Phe Lys Lys Ile Gly Ser Phe Ser Leu Glu Gln Leu 385 390 395 400 Gln Glu Tyr Ala Asp Ala Asp Leu Ser Val Val Glu Lys Leu Lys Glu 405 410 415 Ile Ile Ile Gln Lys Val Asp Glu Ile Tyr Lys Val Tyr Gly Ser Ser 420 425 430 Glu Lys Leu Phe Asp Ala Asp Phe Val Leu Glu Lys Ser Leu Lys Lys 435 440 445 Asn Asp Ala Val Val Ala Ile Met Lys Asp Leu Leu Asp Ser Val Lys 450 455 460 Ser Phe Glu Asn Tyr Ile Lys Ala Phe Phe Gly Glu Gly Lys Glu Thr 465 470 475 480 Asn Arg Asp Glu Ser Phe Tyr Gly Asp Phe Val Leu Ala Tyr Asp Ile 485 490 495 Leu Leu Lys Val Asp His Ile Tyr Asp Ala Ile Arg Asn Tyr Val Thr 500 505 510 Gln Lys Pro Tyr Ser Lys Asp Lys Phe Lys Leu Tyr Phe Gln Asn Pro 515 520 525 Gln Phe Met Gly Gly Trp Asp Lys Asp Lys Glu Thr Asp Tyr Arg Ala 530 535 540 Thr Ile Leu Arg Tyr Gly Ser Lys Tyr Tyr Leu Ala Ile Met Asp Lys 545 550 555 560 Lys Tyr Ala Lys Cys Leu Gln Lys Ile Asp Lys Asp Asp Val Asn Gly 565 570 575 Asn Tyr Glu Lys Ile Asn Tyr Lys Leu Leu Pro Gly Pro Asn Lys Met 580 585 590 Leu Pro Lys Val Phe Phe Ser Lys Lys Trp Met Ala Tyr Tyr Asn Pro 595 600 605 Ser Glu Asp Ile Gln Lys Ile Tyr Lys Asn Gly Thr Phe Lys Lys Gly 610 615 620 Asp Met Phe Asn Leu Asn Asp Cys His Lys Leu Ile Asp Phe Phe Lys 625 630 635 640 Asp Ser Ile Ser Arg Tyr Pro Lys Trp Ser Asn Ala Tyr Asp Phe Asn 645 650 655 Phe Ser Glu Thr Glu Lys Tyr Lys Asp Ile Ala Gly Phe Tyr Arg Glu 660 665 670 Val Glu Glu Gln Gly Tyr Lys Val Ser Phe Glu Ser Ala Ser Lys Lys 675 680 685 Glu Val Asp Lys Leu Val Glu Glu Gly Lys Leu Tyr Met Phe Gln Ile 690 695 700 Tyr Asn Lys Asp Phe Ser Asp Lys Ser His Gly Thr Pro Asn Leu His 705 710 715 720 Thr Met Tyr Phe Lys Leu Leu Phe Asp Glu Asn Asn His Gly Gln Ile 725 730 735 Arg Leu Ser Gly Gly Ala Glu Leu Phe Met Arg Arg Ala Ser Leu Lys 740 745 750 Lys Glu Glu Leu Val Val His Pro Ala Asn Ser Pro Ile Ala Asn Lys 755 760 765 Asn Pro Asp Asn Pro Lys Lys Thr Thr Thr Leu Ser Tyr Asp Val Tyr 770 775 780 Lys Asp Lys Arg Phe Ser Glu Asp Gln Tyr Glu Leu His Ile Pro Ile 785 790 795 800 Ala Ile Asn Lys Cys Pro Lys Asn Ile Phe Lys Ile Asn Thr Glu Val 805 810 815 Arg Val Leu Leu Lys His Asp Asp Asn Pro Tyr Val Ile Gly Ile Ala 820 825 830 Arg Gly Glu Arg Asn Leu Leu Tyr Ile Val Val Val Asp Gly Lys Gly 835 840 845 Asn Ile Val Glu Gln Tyr Ser Leu Asn Glu Ile Ile Asn Asn Phe Asn 850 855 860 Gly Ile Arg Ile Lys Thr Asp Tyr His Ser Leu Leu Asp Lys Lys Glu 865 870 875 880 Lys Glu Arg Phe Glu Ala Arg Gln Asn Trp Thr Ser Ile Glu Asn Ile 885 890 895 Lys Glu Leu Lys Ala Gly Tyr Ile Ser Gln Val Val His Lys Ile Cys 900 905 910 Glu Leu Val Glu Lys Tyr Asp Ala Val Ile Ala Leu Ala Asp Leu Asn 915 920 925 Ser Gly Phe Lys Asn Ser Arg Val Lys Val Glu Lys Gln Val Tyr Gln 930 935 940 Lys Phe Glu Lys Met Leu Ile Asp Lys Leu Asn Tyr Met Val Asp Lys 945 950 955 960 Lys Ser Asn Pro Cys Ala Thr Gly Gly Ala Leu Lys Gly Tyr Gln Ile 965 970 975 Thr Asn Lys Phe Glu Ser Phe Lys Ser Met Ser Thr Gln Asn Gly Phe 980 985 990 Ile Phe Tyr Ile Pro Ala Trp Leu Thr Ser Lys Ile Asp Pro Ser Thr 995 1000 1005 Gly Phe Val Asn Leu Leu Lys Thr Lys Tyr Thr Ser Ile Ala Asp 1010 1015 1020 Ser Lys Lys Phe Ile Ser Ser Phe Asp Arg Ile Met Tyr Val Pro 1025 1030 1035 Glu Glu Asp Leu Phe Glu Phe Ala Leu Asp Tyr Lys Asn Phe Ser 1040 1045 1050 Arg Thr Asp Ala Asp Tyr Ile Lys Lys Trp Lys Leu Tyr Ser Tyr 1055 1060 1065 Gly Asn Arg Ile Arg Ile Phe Arg Asn Pro Lys Lys Asn Asn Val 1070 1075 1080 Phe Asp Trp Glu Glu Val Cys Leu Thr Ser Ala Tyr Lys Glu Leu 1085 1090 1095 Phe Asn Lys Tyr Gly Ile Asn Tyr Gln Gln Gly Asp Ile Arg Ala 1100 1105 1110 Leu Leu Cys Glu Gln Ser Asp Lys Ala Phe Tyr Ser Ser Phe Met 1115 1120 1125 Ala Leu Met Ser Leu Met Leu Gln Met Arg Asn Ser Ile Thr Gly 1130 1135 1140 Arg Thr Asp Val Asp Phe Leu Ile Ser Pro Val Lys Asn Ser Asp 1145 1150 1155 Gly Ile Phe Tyr Asp Ser Arg Asn Tyr Glu Ala Gln Glu Asn Ala 1160 1165 1170 Ile Leu Pro Lys Asn Ala Asp Ala Asn Gly Ala Tyr Asn Ile Ala 1175 1180 1185 Arg Lys Val Leu Trp Ala Ile Gly Gln Phe Lys Lys Ala Glu Asp 1190 1195 1200 Glu Lys Leu Asp Lys Val Lys Ile Ala Ile Ser Asn Lys Glu Trp 1205 1210 1215 Leu Glu Tyr Ala Gln Thr Ser Val Lys His 1220 1225 <210> 12 <211> 1314 <212> PRT <213> Artificial Sequence <220> <223> Synthetic polypeptide <400> 12 Met Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Ser Gly Ser Gly Met Ser 1 5 10 15 Ile Tyr Gln Glu Phe Val Asn Lys Tyr Ser Leu Ser Lys Thr Leu Arg 20 25 30 Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Glu Asn Ile Lys Ala Arg 35 40 45 Gly Leu Ile Leu Asp Asp Glu Lys Arg Ala Lys Asp Tyr Lys Lys Ala 50 55 60 Lys Gln Ile Ile Asp Lys Tyr His Gln Phe Phe Ile Glu Glu Ile Leu 65 70 75 80 Ser Ser Val Cys Ile Ser Glu Asp Leu Leu Gln Asn Tyr Ser Asp Val 85 90 95 Tyr Phe Lys Leu Lys Lys Ser Asp Asp Asp Asn Leu Gln Lys Asp Phe 100 105 110 Lys Ser Ala Lys Asp Thr Ile Lys Lys Gln Ile Ser Glu Tyr Ile Lys 115 120 125 Asp Ser Glu Lys Phe Lys Asn Leu Phe Asn Gln Asn Leu Ile Asp Ala 130 135 140 Lys Lys Gly Gln Glu Ser Asp Leu Ile Leu Trp Leu Lys Gln Ser Lys 145 150 155 160 Asp Asn Gly Ile Glu Leu Phe Lys Ala Asn Ser Asp Ile Thr Asp Ile 165 170 175 Asp Glu Ala Leu Glu Ile Ile Lys Ser Phe Lys Gly Trp Thr Thr Tyr 180 185 190 Phe Lys Gly Phe His Glu Asn Arg Lys Asn Val Tyr Ser Ser Asn Asp 195 200 205 Ile Pro Thr Ser Ile Ile Tyr Arg Ile Val Asp Asp Asn Leu Pro Lys 210 215 220 Phe Leu Glu Asn Lys Ala Lys Tyr Glu Ser Leu Lys Asp Lys Ala Pro 225 230 235 240 Glu Ala Ile Asn Tyr Glu Gln Ile Lys Lys Asp Leu Ala Glu Glu Leu 245 250 255 Thr Phe Asp Ile Asp Tyr Lys Thr Ser Glu Val Asn Gln Arg Val Phe 260 265 270 Ser Leu Asp Glu Val Phe Glu Ile Ala Asn Phe Asn Asn Tyr Leu Asn 275 280 285 Gln Ser Gly Ile Thr Lys Phe Asn Thr Ile Ile Gly Gly Lys Phe Val 290 295 300 Asn Gly Glu Asn Thr Lys Arg Lys Gly Ile Asn Glu Tyr Ile Asn Leu 305 310 315 320 Tyr Ser Gln Gln Ile Asn Asp Lys Thr Leu Lys Lys Tyr Lys Met Ser 325 330 335 Val Leu Phe Lys Gln Ile Leu Ser Asp Thr Glu Ser Lys Ser Phe Val 340 345 350 Ile Asp Lys Leu Glu Asp Asp Ser Asp Val Val Thr Thr Met Gln Ser 355 360 365 Phe Tyr Glu Gln Ile Ala Ala Phe Lys Thr Val Glu Glu Lys Ser Ile 370 375 380 Lys Glu Thr Leu Ser Leu Leu Phe Asp Asp Leu Lys Ala Gln Lys Leu 385 390 395 400 Asp Leu Ser Lys Ile Tyr Phe Lys Asn Asp Lys Ser Leu Thr Asp Leu 405 410 415 Ser Gln Gln Val Phe Asp Asp Tyr Ser Val Ile Gly Thr Ala Val Leu 420 425 430 Glu Tyr Ile Thr Gln Gln Ile Ala Pro Lys Asn Leu Asp Asn Pro Ser 435 440 445 Lys Lys Glu Gln Glu Leu Ile Ala Lys Lys Thr Glu Lys Ala Lys Tyr 450 455 460 Leu Ser Leu Glu Thr Ile Lys Leu Ala Leu Glu Glu Phe Asn Lys His 465 470 475 480 Arg Asp Ile Asp Lys Gln Cys Arg Phe Glu Glu Ile Leu Ala Asn Phe 485 490 495 Ala Ala Ile Pro Met Ile Phe Asp Glu Ile Ala Gln Asn Lys Asp Asn 500 505 510 Leu Ala Gln Ile Ser Ile Lys Tyr Gln Asn Gln Gly Lys Lys Asp Leu 515 520 525 Leu Gln Ala Ser Ala Glu Asp Asp Val Lys Ala Ile Lys Asp Leu Leu 530 535 540 Asp Gln Thr Asn Asn Leu Leu His Lys Leu Lys Ile Phe His Ile Ser 545 550 555 560 Gln Ser Glu Asp Lys Ala Asn Ile Leu Asp Lys Asp Glu His Phe Tyr 565 570 575 Leu Val Phe Glu Glu Cys Tyr Phe Glu Leu Ala Asn Ile Val Pro Leu 580 585 590 Tyr Asn Lys Ile Arg Asn Tyr Ile Thr Gln Lys Pro Tyr Ser Asp Glu 595 600 605 Lys Phe Lys Leu Asn Phe Glu Asn Ser Thr Leu Ala Asn Gly Trp Asp 610 615 620 Lys Asn Lys Glu Pro Asp Asn Thr Ala Ile Leu Phe Ile Lys Asp Asp 625 630 635 640 Lys Tyr Tyr Leu Gly Val Met Asn Lys Lys Asn Asn Lys Ile Phe Asp 645 650 655 Asp Lys Ala Ile Lys Glu Asn Lys Gly Glu Gly Tyr Lys Lys Ile Val 660 665 670 Tyr Lys Leu Leu Pro Gly Ala Asn Lys Met Leu Pro Lys Val Phe Phe 675 680 685 Ser Ala Lys Ser Ile Lys Phe Tyr Asn Pro Ser Glu Asp Ile Leu Arg 690 695 700 Ile Arg Asn His Ser Thr His Thr Lys Asn Gly Ser Pro Gln Lys Gly 705 710 715 720 Tyr Glu Lys Phe Glu Phe Asn Ile Glu Asp Cys Arg Lys Phe Ile Asp 725 730 735 Phe Tyr Lys Gln Ser Ile Ser Lys His Pro Glu Trp Lys Asp Phe Gly 740 745 750 Phe Arg Phe Ser Asp Thr Gln Arg Tyr Asn Ser Ile Asp Glu Phe Tyr 755 760 765 Arg Glu Val Glu Asn Gln Gly Tyr Lys Leu Thr Phe Glu Asn Ile Ser 770 775 780 Glu Ser Tyr Ile Asp Ser Val Val Asn Gln Gly Lys Leu Tyr Leu Phe 785 790 795 800 Gln Ile Tyr Asn Lys Asp Phe Ser Ala Tyr Ser Lys Gly Arg Pro Asn 805 810 815 Leu His Thr Leu Tyr Trp Lys Ala Leu Phe Asp Glu Arg Asn Leu Gln 820 825 830 Asp Val Val Tyr Lys Leu Asn Gly Glu Ala Glu Leu Phe Tyr Arg Lys 835 840 845 Gln Ser Ile Pro Lys Lys Ile Thr His Pro Ala Lys Glu Ala Ile Ala 850 855 860 Asn Lys Asn Lys Asp Asn Pro Lys Lys Glu Ser Val Phe Glu Tyr Asp 865 870 875 880 Leu Ile Lys Asp Lys Arg Phe Thr Glu Asp Lys Phe Phe Phe His Cys 885 890 895 Pro Ile Thr Ile Asn Phe Lys Ser Ser Gly Ala Asn Lys Phe Asn Asp 900 905 910 Glu Ile Asn Leu Leu Leu Lys Glu Lys Ala Asn Asp Val His Ile Leu 915 920 925 Ser Ile Ala Arg Gly Glu Arg His Leu Ala Tyr Tyr Thr Leu Val Asp 930 935 940 Gly Lys Gly Asn Ile Ile Lys Gln Asp Thr Phe Asn Ile Ile Gly Asn 945 950 955 960 Asp Arg Met Lys Thr Asn Tyr His Asp Lys Leu Ala Ala Ile Glu Lys 965 970 975 Asp Arg Asp Ser Ala Arg Lys Asp Trp Lys Lys Ile Asn Asn Ile Lys 980 985 990 Glu Met Lys Glu Gly Tyr Leu Ser Gln Val Val His Glu Ile Ala Lys 995 1000 1005 Leu Val Ile Glu Tyr Asn Ala Ile Val Val Phe Glu Asp Leu Asn 1010 1015 1020 Phe Gly Phe Lys Arg Gly Arg Phe Lys Val Glu Lys Gln Val Tyr 1025 1030 1035 Gln Lys Leu Glu Lys Met Leu Ile Glu Lys Leu Asn Tyr Leu Val 1040 1045 1050 Phe Lys Asp Asn Glu Phe Asp Lys Thr Gly Gly Val Leu Arg Ala 1055 1060 1065 Tyr Gln Leu Thr Ala Pro Phe Glu Thr Phe Lys Lys Met Gly Lys 1070 1075 1080 Gln Thr Gly Ile Ile Tyr Tyr Val Pro Ala Gly Phe Thr Ser Lys 1085 1090 1095 Ile Cys Pro Val Thr Gly Phe Val Asn Gln Leu Tyr Pro Lys Tyr 1100 1105 1110 Glu Ser Val Ser Lys Ser Gln Glu Phe Phe Ser Lys Phe Asp Lys 1115 1120 1125 Ile Cys Tyr Asn Leu Asp Lys Gly Tyr Phe Glu Phe Ser Phe Asp 1130 1135 1140 Tyr Lys Asn Phe Gly Asp Lys Ala Ala Lys Gly Lys Trp Thr Ile 1145 1150 1155 Ala Ser Phe Gly Ser Arg Leu Ile Asn Phe Arg Asn Ser Asp Lys 1160 1165 1170 Asn His Asn Trp Asp Thr Arg Glu Val Tyr Pro Thr Lys Glu Leu 1175 1180 1185 Glu Lys Leu Leu Lys Asp Tyr Ser Ile Glu Tyr Gly His Gly Glu 1190 1195 1200 Cys Ile Lys Ala Ala Ile Cys Gly Glu Ser Asp Lys Lys Phe Phe 1205 1210 1215 Ala Lys Leu Thr Ser Val Leu Asn Thr Ile Leu Gln Met Arg Asn 1220 1225 1230 Ser Lys Thr Gly Thr Glu Leu Asp Tyr Leu Ile Ser Pro Val Ala 1235 1240 1245 Asp Val Asn Gly Asn Phe Phe Asp Ser Arg Gln Ala Pro Lys Asn 1250 1255 1260 Met Pro Gln Asp Ala Asp Ala Asn Gly Ala Tyr His Ile Gly Leu 1265 1270 1275 Lys Gly Leu Met Leu Leu Gly Arg Ile Lys Asn Asn Gln Glu Gly 1280 1285 1290 Lys Lys Leu Asn Leu Val Ile Lys Asn Glu Glu Tyr Phe Glu Phe 1295 1300 1305 Val Gln Asn Arg Asn Asn 1310 <210> 13 <211> 551 <212> PRT <213> Homo sapiens <400> 13 Met Asp Glu Leu Phe Pro Leu Ile Phe Pro Ala Glu Pro Ala Gln Ala 1 5 10 15 Ser Gly Pro Tyr Val Glu Ile Ile Glu Gln Pro Lys Gln Arg Gly Met 20 25 30 Arg Phe Arg Tyr Lys Cys Glu Gly Arg Ser Ala Gly Ser Ile Pro Gly 35 40 45 Glu Arg Ser Thr Asp Thr Thr Lys Thr His Pro Thr Ile Lys Ile Asn 50 55 60 Gly Tyr Thr Gly Pro Gly Thr Val Arg Ile Ser Leu Val Thr Lys Asp 65 70 75 80 Pro Pro His Arg Pro His Pro His Glu Leu Val Gly Lys Asp Cys Arg 85 90 95 Asp Gly Phe Tyr Glu Ala Glu Leu Cys Pro Asp Arg Cys Ile His Ser 100 105 110 Phe Gln Asn Leu Gly Ile Gln Cys Val Lys Lys Arg Asp Leu Glu Gln 115 120 125 Ala Ile Ser Gln Arg Ile Gln Thr Asn Asn Asn Pro Phe Gln Val Pro 130 135 140 Ile Glu Glu Gln Arg Gly Asp Tyr Asp Leu Asn Ala Val Arg Leu Cys 145 150 155 160 Phe Gln Val Thr Val Arg Asp Pro Ser Gly Arg Pro Leu Arg Leu Pro 165 170 175 Pro Val Leu Ser His Pro Ile Phe Asp Asn Arg Ala Pro Asn Thr Ala 180 185 190 Glu Leu Lys Ile Cys Arg Val Asn Arg Asn Ser Gly Ser Cys Leu Gly 195 200 205 Gly Asp Glu Ile Phe Leu Leu Cys Asp Lys Val Gln Lys Glu Asp Ile 210 215 220 Glu Val Tyr Phe Thr Gly Pro Gly Trp Glu Ala Arg Gly Ser Phe Ser 225 230 235 240 Gln Ala Asp Val His Arg Gln Val Ala Ile Val Phe Arg Thr Pro Pro 245 250 255 Tyr Ala Asp Pro Ser Leu Gln Ala Pro Val Arg Val Ser Met Gln Leu 260 265 270 Arg Arg Pro Ser Asp Arg Glu Leu Ser Glu Pro Met Glu Phe Gln Tyr 275 280 285 Leu Pro Asp Thr Asp Asp Arg His Arg Ile Glu Glu Lys Arg Lys Arg 290 295 300 Thr Tyr Glu Thr Phe Lys Ser Ile Met Lys Lys Ser Pro Phe Ser Gly 305 310 315 320 Pro Thr Asp Pro Arg Pro Pro Pro Arg Arg Ile Ala Val Pro Ser Arg 325 330 335 Ser Ser Ala Ser Val Pro Lys Pro Ala Pro Gln Pro Tyr Pro Phe Thr 340 345 350 Ser Ser Leu Ser Thr Ile Asn Tyr Asp Glu Phe Pro Thr Met Val Phe 355 360 365 Pro Ser Gly Gln Ile Ser Gln Ala Ser Ala Leu Ala Pro Ala Pro Pro 370 375 380 Gln Val Leu Pro Gln Ala Pro Ala Pro Ala Pro Ala Pro Ala Met Val 385 390 395 400 Ser Ala Leu Ala Gln Ala Pro Ala Pro Val Pro Val Leu Ala Pro Gly 405 410 415 Pro Pro Gln Ala Val Ala Pro Pro Ala Pro Lys Pro Thr Gln Ala Gly 420 425 430 Glu Gly Thr Leu Ser Glu Ala Leu Leu Gln Leu Gln Phe Asp Asp Glu 435 440 445 Asp Leu Gly Ala Leu Leu Gly Asn Ser Thr Asp Pro Ala Val Phe Thr 450 455 460 Asp Leu Ala Ser Val Asp Asn Ser Glu Phe Gln Gln Leu Leu Asn Gln 465 470 475 480 Gly Ile Pro Val Ala Pro His Thr Thr Glu Pro Met Leu Met Glu Tyr 485 490 495 Pro Glu Ala Ile Thr Arg Leu Val Thr Gly Ala Gln Arg Pro Pro Asp 500 505 510 Pro Ala Pro Ala Pro Leu Gly Ala Pro Gly Leu Pro Asn Gly Leu Leu 515 520 525 Ser Gly Asp Glu Asp Phe Ser Ser Ile Ala Asp Met Asp Phe Ser Ala 530 535 540 Leu Leu Ser Gln Ile Ser Ser 545 550 <210> 14 <211> 119 <212> PRT <213> Pan paniscus <400> 14 Pro Thr Gln Ala Gly Glu Gly Thr Leu Ser Glu Ala Leu Leu Gln Leu 1 5 10 15 Gln Phe Asp Asp Glu Asp Leu Gly Ala Leu Leu Gly Asn Ser Thr Asp 20 25 30 Pro Ala Val Phe Thr Asp Leu Ala Ser Val Asp Asn Ser Glu Phe Gln 35 40 45 Gln Leu Leu Asn Gln Gly Ile Pro Val Ala Pro His Thr Thr Glu Pro 50 55 60 Met Leu Met Glu Tyr Pro Glu Ala Ile Thr Arg Leu Val Thr Gly Ala 65 70 75 80 Gln Arg Pro Pro Asp Pro Ala Pro Ala Pro Leu Gly Ala Pro Gly Leu 85 90 95 Pro Asn Gly Leu Leu Ser Gly Asp Glu Asp Phe Ser Ser Ile Ala Asp 100 105 110 Met Asp Phe Ser Ala Leu Leu 115 <210> 15 <211> 190 <212> PRT <213> Human gammaherpesvirus 4 <400> 15 Arg Asp Ser Arg Glu Gly Met Phe Leu Pro Lys Pro Glu Ala Gly Ser 1 5 10 15 Ala Ile Ser Asp Val Phe Glu Gly Arg Glu Val Cys Gln Pro Lys Arg 20 25 30 Ile Arg Pro Phe His Pro Pro Gly Ser Pro Trp Ala Asn Arg Pro Leu 35 40 45 Pro Ala Ser Leu Ala Pro Thr Pro Thr Gly Pro Val His Glu Pro Val 50 55 60 Gly Ser Leu Thr Pro Ala Pro Val Pro Gln Pro Leu Asp Pro Ala Pro 65 70 75 80 Ala Val Thr Pro Glu Ala Ser His Leu Leu Glu Asp Pro Asp Glu Glu 85 90 95 Thr Ser Gln Ala Val Lys Ala Leu Arg Glu Met Ala Asp Thr Val Ile 100 105 110 Pro Gln Lys Glu Glu Ala Ala Ile Cys Gly Gln Met Asp Leu Ser His 115 120 125 Pro Pro Pro Arg Gly His Leu Asp Glu Leu Thr Thr Thr Leu Glu Ser 130 135 140 Met Thr Glu Asp Leu Asn Leu Asp Ser Pro Leu Thr Pro Glu Leu Asn 145 150 155 160 Glu Ile Leu Asp Thr Phe Leu Asn Asp Glu Cys Leu Leu His Ala Met 165 170 175 His Ile Ser Thr Gly Leu Ser Ile Phe Asp Thr Ser Leu Phe 180 185 190 <210> 16 <211> 605 <212> PRT <213> Human gammaherpesvirus 4 <400> 16 Met Arg Pro Lys Lys Asp Gly Leu Glu Asp Phe Leu Arg Leu Thr Pro 1 5 10 15 Glu Ile Lys Lys Gln Leu Gly Ser Leu Val Ser Asp Tyr Cys Asn Val 20 25 30 Leu Asn Lys Glu Phe Thr Ala Gly Ser Val Glu Ile Thr Leu Arg Ser 35 40 45 Tyr Lys Ile Cys Lys Ala Phe Ile Asn Glu Ala Lys Ala His Gly Arg 50 55 60 Glu Trp Gly Gly Leu Met Ala Thr Leu Asn Ile Cys Asn Phe Trp Ala 65 70 75 80 Ile Leu Arg Asn Asn Arg Val Arg Arg Arg Ala Glu Asn Ala Gly Asn 85 90 95 Asp Ala Cys Ser Ile Ala Cys Pro Ile Val Met Arg Tyr Val Leu Asp 100 105 110 His Leu Ile Val Val Thr Asp Arg Phe Phe Ile Gln Ala Pro Ser Asn 115 120 125 Arg Val Met Ile Pro Ala Thr Ile Gly Thr Ala Met Tyr Lys Leu Leu 130 135 140 Lys His Ser Arg Val Arg Ala Tyr Thr Tyr Ser Lys Val Leu Gly Val 145 150 155 160 Asp Arg Ala Ala Ile Met Ala Ser Gly Lys Gln Val Val Glu His Leu 165 170 175 Asn Arg Met Glu Lys Glu Gly Leu Leu Ser Ser Lys Phe Lys Ala Phe 180 185 190 Cys Lys Trp Val Phe Thr Tyr Pro Val Leu Glu Glu Met Phe Gln Thr 195 200 205 Met Val Ser Ser Lys Thr Gly His Leu Thr Asp Asp Val Lys Asp Val 210 215 220 Arg Ala Leu Ile Lys Thr Leu Pro Arg Ala Ser Tyr Ser Ser His Ala 225 230 235 240 Gly Gln Arg Ser Tyr Val Ser Gly Val Leu Pro Ala Cys Leu Leu Ser 245 250 255 Thr Lys Ser Lys Ala Val Glu Thr Pro Ile Leu Val Ser Gly Ala Asp 260 265 270 Arg Met Asp Glu Glu Leu Met Gly Asn Asp Gly Gly Ala Ser His Thr 275 280 285 Glu Ala Arg Tyr Ser Glu Ser Gly Gln Phe His Ala Phe Thr Asp Glu 290 295 300 Leu Glu Ser Leu Pro Ser Pro Thr Met Pro Leu Lys Pro Gly Ala Gln 305 310 315 320 Ser Ala Asp Cys Gly Asp Ser Ser Ser Ser Ser Ser Asp Ser Gly Asn 325 330 335 Ser Asp Thr Glu Gln Ser Glu Arg Glu Glu Ala Arg Ala Glu Ala Pro 340 345 350 Arg Leu Arg Ala Pro Lys Ser Arg Arg Thr Ser Arg Pro Asn Arg Gly 355 360 365 Gln Thr Pro Cys Pro Ser Asn Ala Ala Glu Pro Glu Gln Pro Trp Ile 370 375 380 Ala Ala Val His Gln Glu Ser Asp Glu Arg Pro Ile Phe Pro His Pro 385 390 395 400 Ser Lys Pro Thr Phe Leu Pro Pro Val Lys Arg Lys Lys Gly Leu Arg 405 410 415 Asp Ser Arg Glu Gly Met Phe Leu Pro Lys Pro Glu Ala Gly Ser Ala 420 425 430 Ile Ser Asp Val Phe Glu Gly Arg Glu Val Cys Gln Pro Lys Arg Ile 435 440 445 Arg Pro Phe His Pro Pro Gly Ser Pro Trp Ala Asn Arg Pro Leu Pro 450 455 460 Ala Ser Leu Ala Pro Thr Pro Thr Gly Pro Val His Glu Pro Val Gly 465 470 475 480 Ser Leu Thr Pro Ala Pro Val Pro Gln Pro Leu Asp Pro Ala Pro Ala 485 490 495 Val Thr Pro Glu Ala Ser His Leu Leu Glu Asp Pro Asp Glu Glu Thr 500 505 510 Ser Gln Ala Val Lys Ala Leu Arg Glu Met Ala Asp Thr Val Ile Pro 515 520 525 Gln Lys Glu Glu Ala Ala Ile Cys Gly Gln Met Asp Leu Ser His Pro 530 535 540 Pro Pro Arg Gly His Leu Asp Glu Leu Thr Thr Thr Leu Glu Ser Met 545 550 555 560 Thr Glu Asp Leu Asn Leu Asp Ser Pro Leu Thr Pro Glu Leu Asn Glu 565 570 575 Ile Leu Asp Thr Phe Leu Asn Asp Glu Cys Leu Leu His Ala Met His 580 585 590 Ile Ser Thr Gly Leu Ser Ile Phe Asp Thr Ser Leu Phe 595 600 605 <210> 17 <211> 50 <212> PRT <213> Artificial Sequence <220> <223> Synthetic polypeptide <400> 17 Asp Ala Leu Asp Asp Phe Asp Leu Asp Met Leu Gly Ser Asp Ala Leu 1 5 10 15 Asp Asp Phe Asp Leu Asp Met Leu Gly Ser Asp Ala Leu Asp Asp Phe 20 25 30 Asp Leu Asp Met Leu Gly Ser Asp Ala Leu Asp Asp Phe Asp Leu Asp 35 40 45 Met Leu 50 <210> 18 <211> 490 <212> PRT <213> Human herpesvirus 1 <400> 18 Met Asp Leu Leu Val Asp Glu Leu Phe Ala Asp Met Asn Ala Asp Gly 1 5 10 15 Ala Ser Pro Pro Pro Pro Arg Pro Ala Gly Gly Pro Lys Asn Thr Pro 20 25 30 Ala Ala Pro Pro Leu Tyr Ala Thr Gly Arg Leu Ser Gln Ala Gln Leu 35 40 45 Met Pro Ser Pro Pro Met Pro Val Pro Pro Ala Ala Leu Phe Asn Arg 50 55 60 Leu Leu Asp Asp Leu Gly Phe Ser Ala Gly Pro Ala Leu Cys Thr Met 65 70 75 80 Leu Asp Thr Trp Asn Glu Asp Leu Phe Ser Ala Leu Pro Thr Asn Ala 85 90 95 Asp Leu Tyr Arg Glu Cys Lys Phe Leu Ser Thr Leu Pro Ser Asp Val 100 105 110 Val Glu Trp Gly Asp Ala Tyr Val Pro Glu Arg Thr Gln Ile Asp Ile 115 120 125 Arg Ala His Gly Asp Val Ala Phe Pro Thr Leu Pro Ala Thr Arg Asp 130 135 140 Gly Leu Gly Leu Tyr Tyr Glu Ala Leu Ser Arg Phe Phe His Ala Glu 145 150 155 160 Leu Arg Ala Arg Glu Glu Ser Tyr Arg Thr Val Leu Ala Asn Phe Cys 165 170 175 Ser Ala Leu Tyr Arg Tyr Leu Arg Ala Ser Val Arg Gln Leu His Arg 180 185 190 Gln Ala His Met Arg Gly Arg Asp Arg Asp Leu Gly Glu Met Leu Arg 195 200 205 Ala Thr Ile Ala Asp Arg Tyr Tyr Arg Glu Thr Ala Arg Leu Ala Arg 210 215 220 Val Leu Phe Leu His Leu Tyr Leu Phe Leu Thr Arg Glu Ile Leu Trp 225 230 235 240 Ala Ala Tyr Ala Glu Gln Met Met Arg Pro Asp Leu Phe Asp Cys Leu 245 250 255 Cys Cys Asp Leu Glu Ser Trp Arg Gln Leu Ala Gly Leu Phe Gln Pro 260 265 270 Phe Met Phe Val Asn Gly Ala Leu Thr Val Arg Gly Val Pro Ile Glu 275 280 285 Ala Arg Arg Leu Arg Glu Leu Asn His Ile Arg Glu His Leu Asn Leu 290 295 300 Pro Leu Val Arg Ser Ala Ala Thr Glu Glu Pro Gly Ala Pro Leu Thr 305 310 315 320 Thr Pro Pro Thr Leu His Gly Asn Gln Ala Arg Ala Ser Gly Tyr Phe 325 330 335 Met Val Leu Ile Arg Ala Lys Leu Asp Ser Tyr Ser Ser Phe Thr Thr 340 345 350 Ser Pro Ser Glu Ala Val Met Arg Glu His Ala Tyr Ser Arg Ala Arg 355 360 365 Thr Lys Asn Asn Tyr Gly Ser Thr Ile Glu Gly Leu Leu Asp Leu Pro 370 375 380 Asp Asp Asp Ala Pro Glu Glu Ala Gly Leu Ala Ala Pro Arg Leu Ser 385 390 395 400 Phe Leu Pro Ala Gly His Thr Arg Arg Leu Ser Thr Ala Pro Pro Thr 405 410 415 Asp Val Ser Leu Gly Asp Glu Leu His Leu Asp Gly Glu Asp Val Ala 420 425 430 Met Ala His Ala Asp Ala Leu Asp Asp Phe Asp Leu Asp Met Leu Gly 435 440 445 Asp Gly Asp Ser Pro Gly Pro Gly Phe Thr Pro His Asp Ser Ala Pro 450 455 460 Tyr Gly Ala Leu Asp Met Ala Asp Phe Glu Phe Glu Gln Met Phe Thr 465 470 475 480 Asp Ala Leu Gly Ile Asp Glu Tyr Gly Gly 485 490 <210> 19 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 19 agccaacatg aggatcaccc atgtctgcag ggc 33 <210> 20 <211> 34 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 20 ggccaacatg aggatcaccc atgtctgcag ggcc 34 <210> 21 <211> 130 <212> PRT <213> Bacteriophage MS2 <400> 21 Met Ala Ser Asn Phe Thr Gln Phe Val Leu Val Asp Asn Gly Gly Thr 1 5 10 15 Gly Asp Val Thr Val Ala Pro Ser Asn Phe Ala Asn Gly Val Ala Glu 20 25 30 Trp Ile Ser Ser Asn Ser Arg Ser Gln Ala Tyr Lys Val Thr Cys Ser 35 40 45 Val Arg Gln Ser Ser Ala Gln Lys Arg Lys Tyr Thr Ile Lys Val Glu 50 55 60 Val Pro Lys Val Ala Thr Gln Thr Val Gly Gly Val Glu Leu Pro Val 65 70 75 80 Ala Ala Trp Arg Ser Tyr Leu Asn Met Glu Leu Thr Ile Pro Ile Phe 85 90 95 Ala Thr Asn Ser Asp Cys Glu Leu Ile Val Lys Ala Met Gln Gly Leu 100 105 110 Leu Lys Asp Gly Asn Pro Ile Pro Ser Ala Ile Ala Ala Asn Ser Gly 115 120 125 Ile Tyr 130 <210> 22 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 22 actgcggaaa tttgagcgt 19 <210> 23 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 23 acgctcaaat ttccgcagt 19 <210> 24 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 24 aggcaatggc tgcacatgc 19 <210> 25 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 25 gcatgtgcag ccattgcct 19 <210> 26 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 26 gacgcttggt tctgaggag 19 <210> 27 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 27 ctcctcagaa ccaagcgtc 19 <210> 28 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 28 tccggaaacg cattcctct 19 <210> 29 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 29 agaggaatgc gtttccgga 19 <210> 30 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 30 ccgcgtcagc ccggcccgg 19 <210> 31 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 31 ccgggccggg ctgacgcgg 19 <210> 32 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 32 cgactcccgc tgggcctct 19 <210> 33 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 33 agaggcccag cgggagtcg 19 <210> 34 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 34 ccgttgcgcg ctcgctctc 19 <210> 35 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 35 gagagcgagc gcgcaacgg 19 <210> 36 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 36 ccgcgcatcc tgccaggcc 19 <210> 37 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 37 actgcggaaa tttgagcgt 19 <210> 38 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 38 acgcucaaau uuccgcagu 19 <210> 39 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 39 aggcaatggc tgcacatgc 19 <210> 40 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 40 gcaugugcag ccauugccu 19 <210> 41 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 41 gacgcttggt tctgaggag 19 <210> 42 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 42 cuccucagaa ccaagcguc 19 <210> 43 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 43 tccggaaacg cattcctct 19 <210> 44 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 44 agaggaaugc guuuccgga 19 <210> 45 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 45 ccgcgtcagc ccggcccgg 19 <210> 46 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 46 ccgggccggg cugacgcgg 19 <210> 47 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 47 cgactcccgc tgggcctct 19 <210> 48 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 48 agaggcccag cgggagucg 19 <210> 49 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 49 ccgttgcgcg ctcgctctc 19 <210> 50 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 50 gagagcgagc gcgcaacgg 19 <210> 51 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 51 ccgcgcatcc tgccaggcc 19 <210> 52 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 52 ggccuggcag gaugcgcgg 19 <210> 53 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 53 ccaacttggc gcgtttcgg 19 <210> 54 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 54 ccgaaacgcg ccaaguugg 19 <210> 55 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 55 accacgcgtc cgagtccgg 19 <210> 56 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 56 ccggacucgg acgcguggu 19 <210> 57 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 57 tgctcattgt ccctggaca 19 <210> 58 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 58 uguccaggga caaugagca 19 <210> 59 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 59 ggacaccctg ctcattgtc 19 <210> 60 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 60 gacaaugagc agggugucc 19 <210> 61 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 61 accggcagcc tgcgcgtcc 19 <210> 62 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 62 ggacgcgcag gcugccggu 19 <210> 63 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 63 cgatgggcac ccactgctc 19 <210> 64 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 64 gagcaguggg ugcccaucg 19 <210> 65 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 65 ccttcacgtg gacgcgcag 19 <210> 66 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 66 cugcgcgucc acgugaagg 19 <210> 67 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 67 cgtgaaggtg gaagccttc 19 <210> 68 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 68 gaaggcuucc accuucacg 19 <210> 69 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 69 ctccttggtc aggcgccgg 19 <210> 70 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 70 ccggcgccug accaaggag 19 <210> 71 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 71 tggtcaggcg ccggttccg 19 <210> 72 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 72 cggaaccggc gccugacca 19 <210> 73 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 73 tagaggtcgc cttctcctc 19 <210> 74 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 74 gaggagaagg cgaccucua 19 <210> 75 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 75 cgacgctcgg gtcgcggtg 19 <210> 76 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 76 caccgcgacc cgagcgucg 19 <210> 77 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 77 atgctgtcgc cgcgcgggg 19 <210> 78 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 78 ccccgcgcgg cgacagcau 19 <210> 79 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 79 ctcaccctca ccggagcca 19 <210> 80 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 80 uggcuccggu gagggugag 19 <210> 81 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 81 ccgcaaactt tactcctta 19 <210> 82 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 82 uaaggaguaa aguuugcgg 19 <210> 83 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 83 ctcctaagat tggcttcac 19 <210> 84 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 84 gugaagccaa ucuuaggag 19 <210> 85 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 85 ccggagccac tcctaagat 19 <210> 86 <211> 718 <212> PRT <213> Homo sapiens <400> 86 Leu Pro Thr Cys Ser Cys Leu Asp Arg Val Ile Gln Lys Asp Lys Gly 1 5 10 15 Pro Tyr Tyr Thr His Leu Gly Ala Gly Pro Ser Val Ala Ala Val Arg 20 25 30 Glu Ile Met Glu Asn Arg Tyr Gly Gln Lys Gly Asn Ala Ile Arg Ile 35 40 45 Glu Ile Val Val Tyr Thr Gly Lys Glu Gly Lys Ser Ser His Gly Cys 50 55 60 Pro Ile Ala Lys Trp Val Leu Arg Arg Ser Ser Asp Glu Glu Lys Val 65 70 75 80 Leu Cys Leu Val Arg Gln Arg Thr Gly His His Cys Pro Thr Ala Val 85 90 95 Met Val Val Leu Ile Met Val Trp Asp Gly Ile Pro Leu Pro Met Ala 100 105 110 Asp Arg Leu Tyr Thr Glu Leu Thr Glu Asn Leu Lys Ser Tyr Asn Gly 115 120 125 His Pro Thr Asp Arg Arg Cys Thr Leu Asn Glu Asn Arg Thr Cys Thr 130 135 140 Cys Gln Gly Ile Asp Pro Glu Thr Cys Gly Ala Ser Phe Ser Phe Gly 145 150 155 160 Cys Ser Trp Ser Met Tyr Phe Asn Gly Cys Lys Phe Gly Arg Ser Pro 165 170 175 Ser Pro Arg Arg Phe Arg Ile Asp Pro Ser Ser Pro Leu His Glu Lys 180 185 190 Asn Leu Glu Asp Asn Leu Gln Ser Leu Ala Thr Arg Leu Ala Pro Ile 195 200 205 Tyr Lys Gln Tyr Ala Pro Val Ala Tyr Gln Asn Gln Val Glu Tyr Glu 210 215 220 Asn Val Ala Arg Glu Cys Arg Leu Gly Ser Lys Glu Gly Arg Pro Phe 225 230 235 240 Ser Gly Val Thr Ala Cys Leu Asp Phe Cys Ala His Pro His Arg Asp 245 250 255 Ile His Asn Met Asn Asn Gly Ser Thr Val Val Cys Thr Leu Thr Arg 260 265 270 Glu Asp Asn Arg Ser Leu Gly Val Ile Pro Gln Asp Glu Gln Leu His 275 280 285 Val Leu Pro Leu Tyr Lys Leu Ser Asp Thr Asp Glu Phe Gly Ser Lys 290 295 300 Glu Gly Met Glu Ala Lys Ile Lys Ser Gly Ala Ile Glu Val Leu Ala 305 310 315 320 Pro Arg Arg Lys Lys Arg Thr Cys Phe Thr Gln Pro Val Pro Arg Ser 325 330 335 Gly Lys Lys Arg Ala Ala Met Met Thr Glu Val Leu Ala His Lys Ile 340 345 350 Arg Ala Val Glu Lys Lys Pro Ile Pro Arg Ile Lys Arg Lys Asn Asn 355 360 365 Ser Thr Thr Thr Asn Asn Ser Lys Pro Ser Ser Leu Pro Thr Leu Gly 370 375 380 Ser Asn Thr Glu Thr Val Gln Pro Glu Val Lys Ser Glu Thr Glu Pro 385 390 395 400 His Phe Ile Leu Lys Ser Ser Asp Asn Thr Lys Thr Tyr Ser Leu Met 405 410 415 Pro Ser Ala Pro His Pro Val Lys Glu Ala Ser Pro Gly Phe Ser Trp 420 425 430 Ser Pro Lys Thr Ala Ser Ala Thr Pro Ala Pro Leu Lys Asn Asp Ala 435 440 445 Thr Ala Ser Cys Gly Phe Ser Glu Arg Ser Ser Thr Pro His Cys Thr 450 455 460 Met Pro Ser Gly Arg Leu Ser Gly Ala Asn Ala Ala Ala Ala Asp Gly 465 470 475 480 Pro Gly Ile Ser Gln Leu Gly Glu Val Ala Pro Leu Pro Thr Leu Ser 485 490 495 Ala Pro Val Met Glu Pro Leu Ile Asn Ser Glu Pro Ser Thr Gly Val 500 505 510 Thr Glu Pro Leu Thr Pro His Gln Pro Asn His Gln Pro Ser Phe Leu 515 520 525 Thr Ser Pro Gln Asp Leu Ala Ser Ser Pro Met Glu Glu Asp Glu Gln 530 535 540 His Ser Glu Ala Asp Glu Pro Pro Ser Asp Glu Pro Leu Ser Asp Asp 545 550 555 560 Pro Leu Ser Pro Ala Glu Glu Lys Leu Pro His Ile Asp Glu Tyr Trp 565 570 575 Ser Asp Ser Glu His Ile Phe Leu Asp Ala Asn Ile Gly Gly Val Ala 580 585 590 Ile Ala Pro Ala His Gly Ser Val Leu Ile Glu Cys Ala Arg Arg Glu 595 600 605 Leu His Ala Thr Thr Pro Val Glu His Pro Asn Arg Asn His Pro Thr 610 615 620 Arg Leu Ser Leu Val Phe Tyr Gln His Lys Asn Leu Asn Lys Pro Gln 625 630 635 640 His Gly Phe Glu Leu Asn Lys Ile Lys Phe Glu Ala Lys Glu Ala Lys 645 650 655 Asn Lys Lys Met Lys Ala Ser Glu Gln Lys Asp Gln Ala Ala Asn Glu 660 665 670 Gly Pro Glu Gln Ser Ser Glu Val Asn Glu Leu Asn Gln Ile Pro Ser 675 680 685 His Lys Ala Leu Thr Leu Thr His Asp Asn Val Val Thr Val Ser Pro 690 695 700 Tyr Ala Leu Thr His Val Ala Gly Pro Tyr Asn His Trp Val 705 710 715 <210> 87 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 87 ttctctaccc tacgtctca 19 <210> 88 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 88 ugagacguag gguagagaa 19 <210> 89 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 89 tacgtctcat tctccgcaa 19 <210> 90 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 90 uugcggagaa ugagacgua 19 <210> 91 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 91 gctaggcctc cagcccttc 19 <210> 92 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 92 gaagggcugg aggccuagc 19 <210> 93 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 93 acaggtggcg ccgcaactt 19 <210> 94 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 94 aaguugcggc gccaccugu 19 <210> 95 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 95 agccggaggc gcgagagtc 19 <210> 96 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 96 gacucucgcg ccuccggcu 19 <210> 97 <211> 720 <212> PRT <213> Artificial Sequence <220> <223> Synthetic polypeptide <400> 97 Met Ala Leu Pro Thr Cys Ser Cys Leu Asp Arg Val Ile Gln Lys Asp 1 5 10 15 Lys Gly Pro Tyr Tyr Thr His Leu Gly Ala Gly Pro Ser Val Ala Ala 20 25 30 Val Arg Glu Ile Met Glu Asn Arg Tyr Gly Gln Lys Gly Asn Ala Ile 35 40 45 Arg Ile Glu Ile Val Val Tyr Thr Gly Lys Glu Gly Lys Ser Ser His 50 55 60 Gly Cys Pro Ile Ala Lys Trp Val Leu Arg Arg Ser Ser Asp Glu Glu 65 70 75 80 Lys Val Leu Cys Leu Val Arg Gln Arg Thr Gly His His Cys Pro Thr 85 90 95 Ala Val Met Val Val Leu Ile Met Val Trp Asp Gly Ile Pro Leu Pro 100 105 110 Met Ala Asp Arg Leu Tyr Thr Glu Leu Thr Glu Asn Leu Lys Ser Tyr 115 120 125 Asn Gly His Pro Thr Asp Arg Arg Cys Thr Leu Asn Glu Asn Arg Thr 130 135 140 Cys Thr Cys Gln Gly Ile Asp Pro Glu Thr Cys Gly Ala Ser Phe Ser 145 150 155 160 Phe Gly Cys Ser Trp Ser Met Tyr Phe Asn Gly Cys Lys Phe Gly Arg 165 170 175 Ser Pro Ser Pro Arg Arg Phe Arg Ile Asp Pro Ser Ser Pro Leu His 180 185 190 Glu Lys Asn Leu Glu Asp Asn Leu Gln Ser Leu Ala Thr Arg Leu Ala 195 200 205 Pro Ile Tyr Lys Gln Tyr Ala Pro Val Ala Tyr Gln Asn Gln Val Glu 210 215 220 Tyr Glu Asn Val Ala Arg Glu Cys Arg Leu Gly Ser Lys Glu Gly Arg 225 230 235 240 Pro Phe Ser Gly Val Thr Ala Cys Leu Asp Phe Cys Ala His Pro His 245 250 255 Arg Asp Ile His Asn Met Asn Asn Gly Ser Thr Val Val Cys Thr Leu 260 265 270 Thr Arg Glu Asp Asn Arg Ser Leu Gly Val Ile Pro Gln Asp Glu Gln 275 280 285 Leu His Val Leu Pro Leu Tyr Lys Leu Ser Asp Thr Asp Glu Phe Gly 290 295 300 Ser Lys Glu Gly Met Glu Ala Lys Ile Lys Ser Gly Ala Ile Glu Val 305 310 315 320 Leu Ala Pro Arg Arg Lys Lys Arg Thr Cys Phe Thr Gln Pro Val Pro 325 330 335 Arg Ser Gly Lys Lys Arg Ala Ala Met Met Thr Glu Val Leu Ala His 340 345 350 Lys Ile Arg Ala Val Glu Lys Lys Pro Ile Pro Arg Ile Lys Arg Lys 355 360 365 Asn Asn Ser Thr Thr Thr Asn Asn Ser Lys Pro Ser Ser Leu Pro Thr 370 375 380 Leu Gly Ser Asn Thr Glu Thr Val Gln Pro Glu Val Lys Ser Glu Thr 385 390 395 400 Glu Pro His Phe Ile Leu Lys Ser Ser Asp Asn Thr Lys Thr Tyr Ser 405 410 415 Leu Met Pro Ser Ala Pro His Pro Val Lys Glu Ala Ser Pro Gly Phe 420 425 430 Ser Trp Ser Pro Lys Thr Ala Ser Ala Thr Pro Ala Pro Leu Lys Asn 435 440 445 Asp Ala Thr Ala Ser Cys Gly Phe Ser Glu Arg Ser Ser Thr Pro His 450 455 460 Cys Thr Met Pro Ser Gly Arg Leu Ser Gly Ala Asn Ala Ala Ala Ala 465 470 475 480 Asp Gly Pro Gly Ile Ser Gln Leu Gly Glu Val Ala Pro Leu Pro Thr 485 490 495 Leu Ser Ala Pro Val Met Glu Pro Leu Ile Asn Ser Glu Pro Ser Thr 500 505 510 Gly Val Thr Glu Pro Leu Thr Pro His Gln Pro Asn His Gln Pro Ser 515 520 525 Phe Leu Thr Ser Pro Gln Asp Leu Ala Ser Ser Pro Met Glu Glu Asp 530 535 540 Glu Gln His Ser Glu Ala Asp Glu Pro Pro Ser Asp Glu Pro Leu Ser 545 550 555 560 Asp Asp Pro Leu Ser Pro Ala Glu Glu Lys Leu Pro His Ile Asp Glu 565 570 575 Tyr Trp Ser Asp Ser Glu His Ile Phe Leu Asp Ala Asn Ile Gly Gly 580 585 590 Val Ala Ile Ala Pro Ala His Gly Ser Val Leu Ile Glu Cys Ala Arg 595 600 605 Arg Glu Leu His Ala Thr Thr Pro Val Glu His Pro Asn Arg Asn His 610 615 620 Pro Thr Arg Leu Ser Leu Val Phe Tyr Gln His Lys Asn Leu Asn Lys 625 630 635 640 Pro Gln His Gly Phe Glu Leu Asn Lys Ile Lys Phe Glu Ala Lys Glu 645 650 655 Ala Lys Asn Lys Lys Met Lys Ala Ser Glu Gln Lys Asp Gln Ala Ala 660 665 670 Asn Glu Gly Pro Glu Gln Ser Ser Glu Val Asn Glu Leu Asn Gln Ile 675 680 685 Pro Ser His Lys Ala Leu Thr Leu Thr His Asp Asn Val Val Thr Val 690 695 700 Ser Pro Tyr Ala Leu Thr His Val Ala Gly Pro Tyr Asn His Trp Val 705 710 715 720 <210> 98 <211> 100 <212> PRT <213> Artificial Sequence <220> <223> Synthetic polypeptide <400> 98 Gly Gly Ser Pro Ala Gly Ser Pro Thr Ser Thr Glu Glu Gly Thr Ser 1 5 10 15 Glu Ser Ala Thr Pro Glu Ser Gly Pro Gly Thr Ser Thr Glu Pro Ser 20 25 30 Glu Gly Ser Ala Pro Gly Ser Pro Ala Gly Ser Pro Thr Ser Thr Glu 35 40 45 Glu Gly Thr Ser Thr Glu Pro Ser Glu Gly Ser Ala Pro Gly Thr Ser 50 55 60 Thr Glu Pro Ser Glu Gly Ser Ala Pro Gly Thr Ser Glu Ser Ala Thr 65 70 75 80 Pro Glu Ser Gly Pro Gly Ser Glu Pro Ala Thr Ser Gly Ser Glu Thr 85 90 95 Pro Gly Ser Glu 100 <210> 99 <211> 2483 <212> PRT <213> Artificial Sequence <220> <223> Synthetic polypeptide <400> 99 Met Ala Leu Pro Thr Cys Ser Cys Leu Asp Arg Val Ile Gln Lys Asp 1 5 10 15 Lys Gly Pro Tyr Tyr Thr His Leu Gly Ala Gly Pro Ser Val Ala Ala 20 25 30 Val Arg Glu Ile Met Glu Asn Arg Tyr Gly Gln Lys Gly Asn Ala Ile 35 40 45 Arg Ile Glu Ile Val Val Tyr Thr Gly Lys Glu Gly Lys Ser Ser His 50 55 60 Gly Cys Pro Ile Ala Lys Trp Val Leu Arg Arg Ser Ser Asp Glu Glu 65 70 75 80 Lys Val Leu Cys Leu Val Arg Gln Arg Thr Gly His His Cys Pro Thr 85 90 95 Ala Val Met Val Val Leu Ile Met Val Trp Asp Gly Ile Pro Leu Pro 100 105 110 Met Ala Asp Arg Leu Tyr Thr Glu Leu Thr Glu Asn Leu Lys Ser Tyr 115 120 125 Asn Gly His Pro Thr Asp Arg Arg Cys Thr Leu Asn Glu Asn Arg Thr 130 135 140 Cys Thr Cys Gln Gly Ile Asp Pro Glu Thr Cys Gly Ala Ser Phe Ser 145 150 155 160 Phe Gly Cys Ser Trp Ser Met Tyr Phe Asn Gly Cys Lys Phe Gly Arg 165 170 175 Ser Pro Ser Pro Arg Arg Phe Arg Ile Asp Pro Ser Ser Pro Leu His 180 185 190 Glu Lys Asn Leu Glu Asp Asn Leu Gln Ser Leu Ala Thr Arg Leu Ala 195 200 205 Pro Ile Tyr Lys Gln Tyr Ala Pro Val Ala Tyr Gln Asn Gln Val Glu 210 215 220 Tyr Glu Asn Val Ala Arg Glu Cys Arg Leu Gly Ser Lys Glu Gly Arg 225 230 235 240 Pro Phe Ser Gly Val Thr Ala Cys Leu Asp Phe Cys Ala His Pro His 245 250 255 Arg Asp Ile His Asn Met Asn Asn Gly Ser Thr Val Val Cys Thr Leu 260 265 270 Thr Arg Glu Asp Asn Arg Ser Leu Gly Val Ile Pro Gln Asp Glu Gln 275 280 285 Leu His Val Leu Pro Leu Tyr Lys Leu Ser Asp Thr Asp Glu Phe Gly 290 295 300 Ser Lys Glu Gly Met Glu Ala Lys Ile Lys Ser Gly Ala Ile Glu Val 305 310 315 320 Leu Ala Pro Arg Arg Lys Lys Arg Thr Cys Phe Thr Gln Pro Val Pro 325 330 335 Arg Ser Gly Lys Lys Arg Ala Ala Met Met Thr Glu Val Leu Ala His 340 345 350 Lys Ile Arg Ala Val Glu Lys Lys Pro Ile Pro Arg Ile Lys Arg Lys 355 360 365 Asn Asn Ser Thr Thr Thr Asn Asn Ser Lys Pro Ser Ser Leu Pro Thr 370 375 380 Leu Gly Ser Asn Thr Glu Thr Val Gln Pro Glu Val Lys Ser Glu Thr 385 390 395 400 Glu Pro His Phe Ile Leu Lys Ser Ser Asp Asn Thr Lys Thr Tyr Ser 405 410 415 Leu Met Pro Ser Ala Pro His Pro Val Lys Glu Ala Ser Pro Gly Phe 420 425 430 Ser Trp Ser Pro Lys Thr Ala Ser Ala Thr Pro Ala Pro Leu Lys Asn 435 440 445 Asp Ala Thr Ala Ser Cys Gly Phe Ser Glu Arg Ser Ser Thr Pro His 450 455 460 Cys Thr Met Pro Ser Gly Arg Leu Ser Gly Ala Asn Ala Ala Ala Ala 465 470 475 480 Asp Gly Pro Gly Ile Ser Gln Leu Gly Glu Val Ala Pro Leu Pro Thr 485 490 495 Leu Ser Ala Pro Val Met Glu Pro Leu Ile Asn Ser Glu Pro Ser Thr 500 505 510 Gly Val Thr Glu Pro Leu Thr Pro His Gln Pro Asn His Gln Pro Ser 515 520 525 Phe Leu Thr Ser Pro Gln Asp Leu Ala Ser Ser Pro Met Glu Glu Asp 530 535 540 Glu Gln His Ser Glu Ala Asp Glu Pro Pro Ser Asp Glu Pro Leu Ser 545 550 555 560 Asp Asp Pro Leu Ser Pro Ala Glu Glu Lys Leu Pro His Ile Asp Glu 565 570 575 Tyr Trp Ser Asp Ser Glu His Ile Phe Leu Asp Ala Asn Ile Gly Gly 580 585 590 Val Ala Ile Ala Pro Ala His Gly Ser Val Leu Ile Glu Cys Ala Arg 595 600 605 Arg Glu Leu His Ala Thr Thr Pro Val Glu His Pro Asn Arg Asn His 610 615 620 Pro Thr Arg Leu Ser Leu Val Phe Tyr Gln His Lys Asn Leu Asn Lys 625 630 635 640 Pro Gln His Gly Phe Glu Leu Asn Lys Ile Lys Phe Glu Ala Lys Glu 645 650 655 Ala Lys Asn Lys Lys Met Lys Ala Ser Glu Gln Lys Asp Gln Ala Ala 660 665 670 Asn Glu Gly Pro Glu Gln Ser Ser Glu Val Asn Glu Leu Asn Gln Ile 675 680 685 Pro Ser His Lys Ala Leu Thr Leu Thr His Asp Asn Val Val Thr Val 690 695 700 Ser Pro Tyr Ala Leu Thr His Val Ala Gly Pro Tyr Asn His Trp Val 705 710 715 720 Gly Gly Ser Pro Ala Gly Ser Pro Thr Ser Thr Glu Glu Gly Thr Ser 725 730 735 Glu Ser Ala Thr Pro Glu Ser Gly Pro Gly Thr Ser Thr Glu Pro Ser 740 745 750 Glu Gly Ser Ala Pro Gly Ser Pro Ala Gly Ser Pro Thr Ser Thr Glu 755 760 765 Glu Gly Thr Ser Thr Glu Pro Ser Glu Gly Ser Ala Pro Gly Thr Ser 770 775 780 Thr Glu Pro Ser Glu Gly Ser Ala Pro Gly Thr Ser Glu Ser Ala Thr 785 790 795 800 Pro Glu Ser Gly Pro Gly Ser Glu Pro Ala Thr Ser Gly Ser Glu Thr 805 810 815 Pro Gly Ser Glu Met Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly 820 825 830 Thr Asn Ser Val Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro 835 840 845 Ser Lys Lys Phe Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys 850 855 860 Lys Asn Leu Ile Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu 865 870 875 880 Ala Thr Arg Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys 885 890 895 Asn Arg Ile Cys Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys 900 905 910 Val Asp Asp Ser Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu 915 920 925 Glu Asp Lys Lys His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp 930 935 940 Glu Val Ala Tyr His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys 945 950 955 960 Lys Leu Val Asp Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu 965 970 975 Ala Leu Ala His Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly 980 985 990 Asp Leu Asn Pro Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu 995 1000 1005 Val Gln Thr Tyr Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala 1010 1015 1020 Ser Gly Val Asp Ala Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys 1025 1030 1035 Ser Arg Arg Leu Glu Asn Leu Ile Ala Gln Leu Pro Gly Glu Lys 1040 1045 1050 Lys Asn Gly Leu Phe Gly Asn Leu Ile Ala Leu Ser Leu Gly Leu 1055 1060 1065 Thr Pro Asn Phe Lys Ser Asn Phe Asp Leu Ala Glu Asp Ala Lys 1070 1075 1080 Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp Asp Leu Asp Asn Leu 1085 1090 1095 Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu Phe Leu Ala Ala 1100 1105 1110 Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile Leu Arg Val 1115 1120 1125 Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met Ile Lys 1130 1135 1140 Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys Ala Leu 1145 1150 1155 Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp 1160 1165 1170 Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser 1175 1180 1185 Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met 1190 1195 1200 Asp Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu 1205 1210 1215 Leu Arg Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln 1220 1225 1230 Ile His Leu Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp 1235 1240 1245 Phe Tyr Pro Phe Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile 1250 1255 1260 Leu Thr Phe Arg Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly 1265 1270 1275 Asn Ser Arg Phe Ala Trp Met Thr Arg Lys Ser Glu Glu Thr Ile 1280 1285 1290 Thr Pro Trp Asn Phe Glu Glu Val Val Asp Lys Gly Ala Ser Ala 1295 1300 1305 Gln Ser Phe Ile Glu Arg Met Thr Asn Phe Asp Lys Asn Leu Pro 1310 1315 1320 Asn Glu Lys Val Leu Pro Lys His Ser Leu Leu Tyr Glu Tyr Phe 1325 1330 1335 Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr Val Thr Glu Gly 1340 1345 1350 Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys Lys Ala Ile 1355 1360 1365 Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val Lys Gln 1370 1375 1380 Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser Val 1385 1390 1395 Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr 1400 1405 1410 Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp 1415 1420 1425 Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu 1430 1435 1440 Thr Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr 1445 1450 1455 Tyr Ala His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg 1460 1465 1470 Arg Arg Tyr Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn 1475 1480 1485 Gly Ile Arg Asp Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu 1490 1495 1500 Lys Ser Asp Gly Phe Ala Asn Arg Asn Phe Met Gln Leu Ile His 1505 1510 1515 Asp Asp Ser Leu Thr Phe Lys Glu Asp Ile Gln Lys Ala Gln Val 1520 1525 1530 Ser Gly Gln Gly Asp Ser Leu His Glu His Ile Ala Asn Leu Ala 1535 1540 1545 Gly Ser Pro Ala Ile Lys Lys Gly Ile Leu Gln Thr Val Lys Val 1550 1555 1560 Val Asp Glu Leu Val Lys Val Met Gly Arg His Lys Pro Glu Asn 1565 1570 1575 Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr Thr Gln Lys Gly 1580 1585 1590 Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile Glu Glu Gly Ile 1595 1600 1605 Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val Glu Asn 1610 1615 1620 Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn 1625 1630 1635 Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu 1640 1645 1650 Ser Asp Tyr Asp Val Asp Ala Ile Val Pro Gln Ser Phe Leu Lys 1655 1660 1665 Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn 1670 1675 1680 Arg Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys 1685 1690 1695 Met Lys Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr 1700 1705 1710 Gln Arg Lys Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu 1715 1720 1725 Ser Glu Leu Asp Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu 1730 1735 1740 Thr Arg Gln Ile Thr Lys His Val Ala Gln Ile Leu Asp Ser Arg 1745 1750 1755 Met Asn Thr Lys Tyr Asp Glu Asn Asp Lys Leu Ile Arg Glu Val 1760 1765 1770 Lys Val Ile Thr Leu Lys Ser Lys Leu Val Ser Asp Phe Arg Lys 1775 1780 1785 Asp Phe Gln Phe Tyr Lys Val Arg Glu Ile Asn Asn Tyr His His 1790 1795 1800 Ala His Asp Ala Tyr Leu Asn Ala Val Val Gly Thr Ala Leu Ile 1805 1810 1815 Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val Tyr Gly Asp Tyr 1820 1825 1830 Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys Ser Glu Gln Glu 1835 1840 1845 Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser Asn Ile Met 1850 1855 1860 Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile Arg 1865 1870 1875 Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile Val 1880 1885 1890 Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser 1895 1900 1905 Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly 1910 1915 1920 Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys 1925 1930 1935 Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly 1940 1945 1950 Phe Asp Ser Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys 1955 1960 1965 Val Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu 1970 1975 1980 Leu Gly Ile Thr Ile Met Glu Arg Ser Ser Phe Glu Lys Asn Pro 1985 1990 1995 Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu Val Lys Lys Asp 2000 2005 2010 Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe Glu Leu Glu Asn 2015 2020 2025 Gly Arg Lys Arg Met Leu Ala Ser Ala Gly Glu Leu Gln Lys Gly 2030 2035 2040 Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn Phe Leu Tyr Leu 2045 2050 2055 Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro Glu Asp Asn Glu 2060 2065 2070 Gln Lys Gln Leu Phe Val Glu Gln His Lys His Tyr Leu Asp Glu 2075 2080 2085 Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val Ile Leu Ala 2090 2095 2100 Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys His Arg 2105 2110 2115 Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu Phe 2120 2125 2130 Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe Asp 2135 2140 2145 Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val Leu 2150 2155 2160 Asp Ala Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr 2165 2170 2175 Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp Gly Gly Pro Ser Ser 2180 2185 2190 Gly Ala Pro Pro Pro Ser Gly Gly Ser Pro Ala Gly Ser Pro Thr 2195 2200 2205 Ser Thr Glu Glu Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser Gly 2210 2215 2220 Pro Gly Thr Ser Thr Glu Pro Ser Glu Gly Ser Ala Pro Gly Ser 2225 2230 2235 Pro Ala Gly Ser Pro Thr Ser Thr Glu Glu Gly Thr Ser Thr Glu 2240 2245 2250 Pro Ser Glu Gly Ser Ala Pro Gly Thr Ser Thr Glu Pro Ser Glu 2255 2260 2265 Gly Ser Gly Pro Lys Lys Lys Arg Lys Val Ala Gly Ser Arg Asp 2270 2275 2280 Ser Arg Glu Gly Met Phe Leu Pro Lys Pro Glu Ala Gly Ser Ala 2285 2290 2295 Ile Ser Asp Val Phe Glu Gly Arg Glu Val Cys Gln Pro Lys Arg 2300 2305 2310 Ile Arg Pro Phe His Pro Pro Gly Ser Pro Trp Ala Asn Arg Pro 2315 2320 2325 Leu Pro Ala Ser Leu Ala Pro Thr Pro Thr Gly Pro Val His Glu 2330 2335 2340 Pro Val Gly Ser Leu Thr Pro Ala Pro Val Pro Gln Pro Leu Asp 2345 2350 2355 Pro Ala Pro Ala Val Thr Pro Glu Ala Ser His Leu Leu Glu Asp 2360 2365 2370 Pro Asp Glu Glu Thr Ser Gln Ala Val Lys Ala Leu Arg Glu Met 2375 2380 2385 Ala Asp Thr Val Ile Pro Gln Lys Glu Glu Ala Ala Ile Cys Gly 2390 2395 2400 Gln Met Asp Leu Ser His Pro Pro Pro Arg Gly His Leu Asp Glu 2405 2410 2415 Leu Thr Thr Thr Leu Glu Ser Met Thr Glu Asp Leu Asn Leu Asp 2420 2425 2430 Ser Pro Leu Thr Pro Glu Leu Asn Glu Ile Leu Asp Thr Phe Leu 2435 2440 2445 Asn Asp Glu Cys Leu Leu His Ala Met His Ile Ser Thr Gly Leu 2450 2455 2460 Ser Ile Phe Asp Thr Ser Leu Phe Ala Ser Gly Ser Gly Pro Lys 2465 2470 2475 Lys Lys Arg Lys Val 2480 <210> 100 <211> 261 <212> PRT <213> Artificial Sequence <220> <223> Synthetic polypeptide <400> 100 Ser Gln Tyr Leu Pro Asp Thr Asp Asp Arg His Arg Ile Glu Glu Lys 1 5 10 15 Arg Lys Arg Thr Tyr Glu Thr Phe Lys Ser Ile Met Lys Lys Ser Pro 20 25 30 Phe Ser Gly Pro Thr Asp Pro Arg Pro Pro Pro Arg Arg Ile Ala Val 35 40 45 Pro Ser Arg Ser Ser Ala Ser Val Pro Lys Pro Ala Pro Gln Pro Tyr 50 55 60 Pro Phe Thr Ser Ser Leu Ser Thr Ile Asn Tyr Asp Glu Phe Pro Thr 65 70 75 80 Met Val Phe Pro Ser Gly Gln Ile Ser Gln Ala Ser Ala Leu Ala Pro 85 90 95 Ala Pro Pro Gln Val Leu Pro Gln Ala Pro Ala Pro Ala Pro Ala Pro 100 105 110 Ala Met Val Ser Ala Leu Ala Gln Ala Pro Ala Pro Val Pro Val Leu 115 120 125 Ala Pro Gly Pro Pro Gln Ala Val Ala Pro Pro Ala Pro Lys Pro Thr 130 135 140 Gln Ala Gly Glu Gly Thr Leu Ser Glu Ala Leu Leu Gln Leu Gln Phe 145 150 155 160 Asp Asp Glu Asp Leu Gly Ala Leu Leu Gly Asn Ser Thr Asp Pro Ala 165 170 175 Val Phe Thr Asp Leu Ala Ser Val Asp Asn Ser Glu Phe Gln Gln Leu 180 185 190 Leu Asn Gln Gly Ile Pro Val Ala Pro His Thr Thr Glu Pro Met Leu 195 200 205 Met Glu Tyr Pro Glu Ala Ile Thr Arg Leu Val Thr Gly Ala Gln Arg 210 215 220 Pro Pro Asp Pro Ala Pro Ala Pro Leu Gly Ala Pro Gly Leu Pro Asn 225 230 235 240 Gly Leu Leu Ser Gly Asp Glu Asp Phe Ser Ser Ile Ala Asp Met Asp 245 250 255 Phe Ser Ala Leu Leu 260 <210> 101 <211> 2750 <212> PRT <213> Artificial Sequence <220> <223> Synthetic polypeptide <400> 101 Met Ala Leu Pro Thr Cys Ser Cys Leu Asp Arg Val Ile Gln Lys Asp 1 5 10 15 Lys Gly Pro Tyr Tyr Thr His Leu Gly Ala Gly Pro Ser Val Ala Ala 20 25 30 Val Arg Glu Ile Met Glu Asn Arg Tyr Gly Gln Lys Gly Asn Ala Ile 35 40 45 Arg Ile Glu Ile Val Val Tyr Thr Gly Lys Glu Gly Lys Ser Ser His 50 55 60 Gly Cys Pro Ile Ala Lys Trp Val Leu Arg Arg Ser Ser Asp Glu Glu 65 70 75 80 Lys Val Leu Cys Leu Val Arg Gln Arg Thr Gly His His Cys Pro Thr 85 90 95 Ala Val Met Val Val Leu Ile Met Val Trp Asp Gly Ile Pro Leu Pro 100 105 110 Met Ala Asp Arg Leu Tyr Thr Glu Leu Thr Glu Asn Leu Lys Ser Tyr 115 120 125 Asn Gly His Pro Thr Asp Arg Arg Cys Thr Leu Asn Glu Asn Arg Thr 130 135 140 Cys Thr Cys Gln Gly Ile Asp Pro Glu Thr Cys Gly Ala Ser Phe Ser 145 150 155 160 Phe Gly Cys Ser Trp Ser Met Tyr Phe Asn Gly Cys Lys Phe Gly Arg 165 170 175 Ser Pro Ser Pro Arg Arg Phe Arg Ile Asp Pro Ser Ser Pro Leu His 180 185 190 Glu Lys Asn Leu Glu Asp Asn Leu Gln Ser Leu Ala Thr Arg Leu Ala 195 200 205 Pro Ile Tyr Lys Gln Tyr Ala Pro Val Ala Tyr Gln Asn Gln Val Glu 210 215 220 Tyr Glu Asn Val Ala Arg Glu Cys Arg Leu Gly Ser Lys Glu Gly Arg 225 230 235 240 Pro Phe Ser Gly Val Thr Ala Cys Leu Asp Phe Cys Ala His Pro His 245 250 255 Arg Asp Ile His Asn Met Asn Asn Gly Ser Thr Val Val Cys Thr Leu 260 265 270 Thr Arg Glu Asp Asn Arg Ser Leu Gly Val Ile Pro Gln Asp Glu Gln 275 280 285 Leu His Val Leu Pro Leu Tyr Lys Leu Ser Asp Thr Asp Glu Phe Gly 290 295 300 Ser Lys Glu Gly Met Glu Ala Lys Ile Lys Ser Gly Ala Ile Glu Val 305 310 315 320 Leu Ala Pro Arg Arg Lys Lys Arg Thr Cys Phe Thr Gln Pro Val Pro 325 330 335 Arg Ser Gly Lys Lys Arg Ala Ala Met Met Thr Glu Val Leu Ala His 340 345 350 Lys Ile Arg Ala Val Glu Lys Lys Pro Ile Pro Arg Ile Lys Arg Lys 355 360 365 Asn Asn Ser Thr Thr Thr Asn Asn Ser Lys Pro Ser Ser Leu Pro Thr 370 375 380 Leu Gly Ser Asn Thr Glu Thr Val Gln Pro Glu Val Lys Ser Glu Thr 385 390 395 400 Glu Pro His Phe Ile Leu Lys Ser Ser Asp Asn Thr Lys Thr Tyr Ser 405 410 415 Leu Met Pro Ser Ala Pro His Pro Val Lys Glu Ala Ser Pro Gly Phe 420 425 430 Ser Trp Ser Pro Lys Thr Ala Ser Ala Thr Pro Ala Pro Leu Lys Asn 435 440 445 Asp Ala Thr Ala Ser Cys Gly Phe Ser Glu Arg Ser Ser Thr Pro His 450 455 460 Cys Thr Met Pro Ser Gly Arg Leu Ser Gly Ala Asn Ala Ala Ala Ala 465 470 475 480 Asp Gly Pro Gly Ile Ser Gln Leu Gly Glu Val Ala Pro Leu Pro Thr 485 490 495 Leu Ser Ala Pro Val Met Glu Pro Leu Ile Asn Ser Glu Pro Ser Thr 500 505 510 Gly Val Thr Glu Pro Leu Thr Pro His Gln Pro Asn His Gln Pro Ser 515 520 525 Phe Leu Thr Ser Pro Gln Asp Leu Ala Ser Ser Pro Met Glu Glu Asp 530 535 540 Glu Gln His Ser Glu Ala Asp Glu Pro Pro Ser Asp Glu Pro Leu Ser 545 550 555 560 Asp Asp Pro Leu Ser Pro Ala Glu Glu Lys Leu Pro His Ile Asp Glu 565 570 575 Tyr Trp Ser Asp Ser Glu His Ile Phe Leu Asp Ala Asn Ile Gly Gly 580 585 590 Val Ala Ile Ala Pro Ala His Gly Ser Val Leu Ile Glu Cys Ala Arg 595 600 605 Arg Glu Leu His Ala Thr Thr Pro Val Glu His Pro Asn Arg Asn His 610 615 620 Pro Thr Arg Leu Ser Leu Val Phe Tyr Gln His Lys Asn Leu Asn Lys 625 630 635 640 Pro Gln His Gly Phe Glu Leu Asn Lys Ile Lys Phe Glu Ala Lys Glu 645 650 655 Ala Lys Asn Lys Lys Met Lys Ala Ser Glu Gln Lys Asp Gln Ala Ala 660 665 670 Asn Glu Gly Pro Glu Gln Ser Ser Glu Val Asn Glu Leu Asn Gln Ile 675 680 685 Pro Ser His Lys Ala Leu Thr Leu Thr His Asp Asn Val Val Thr Val 690 695 700 Ser Pro Tyr Ala Leu Thr His Val Ala Gly Pro Tyr Asn His Trp Val 705 710 715 720 Gly Gly Ser Pro Ala Gly Ser Pro Thr Ser Thr Glu Glu Gly Thr Ser 725 730 735 Glu Ser Ala Thr Pro Glu Ser Gly Pro Gly Thr Ser Thr Glu Pro Ser 740 745 750 Glu Gly Ser Ala Pro Gly Ser Pro Ala Gly Ser Pro Thr Ser Thr Glu 755 760 765 Glu Gly Thr Ser Thr Glu Pro Ser Glu Gly Ser Ala Pro Gly Thr Ser 770 775 780 Thr Glu Pro Ser Glu Gly Ser Ala Pro Gly Thr Ser Glu Ser Ala Thr 785 790 795 800 Pro Glu Ser Gly Pro Gly Ser Glu Pro Ala Thr Ser Gly Ser Glu Thr 805 810 815 Pro Gly Ser Glu Met Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly 820 825 830 Thr Asn Ser Val Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro 835 840 845 Ser Lys Lys Phe Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys 850 855 860 Lys Asn Leu Ile Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu 865 870 875 880 Ala Thr Arg Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys 885 890 895 Asn Arg Ile Cys Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys 900 905 910 Val Asp Asp Ser Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu 915 920 925 Glu Asp Lys Lys His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp 930 935 940 Glu Val Ala Tyr His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys 945 950 955 960 Lys Leu Val Asp Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu 965 970 975 Ala Leu Ala His Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly 980 985 990 Asp Leu Asn Pro Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu 995 1000 1005 Val Gln Thr Tyr Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala 1010 1015 1020 Ser Gly Val Asp Ala Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys 1025 1030 1035 Ser Arg Arg Leu Glu Asn Leu Ile Ala Gln Leu Pro Gly Glu Lys 1040 1045 1050 Lys Asn Gly Leu Phe Gly Asn Leu Ile Ala Leu Ser Leu Gly Leu 1055 1060 1065 Thr Pro Asn Phe Lys Ser Asn Phe Asp Leu Ala Glu Asp Ala Lys 1070 1075 1080 Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp Asp Leu Asp Asn Leu 1085 1090 1095 Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu Phe Leu Ala Ala 1100 1105 1110 Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile Leu Arg Val 1115 1120 1125 Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met Ile Lys 1130 1135 1140 Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys Ala Leu 1145 1150 1155 Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp 1160 1165 1170 Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser 1175 1180 1185 Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met 1190 1195 1200 Asp Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu 1205 1210 1215 Leu Arg Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln 1220 1225 1230 Ile His Leu Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp 1235 1240 1245 Phe Tyr Pro Phe Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile 1250 1255 1260 Leu Thr Phe Arg Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly 1265 1270 1275 Asn Ser Arg Phe Ala Trp Met Thr Arg Lys Ser Glu Glu Thr Ile 1280 1285 1290 Thr Pro Trp Asn Phe Glu Glu Val Val Asp Lys Gly Ala Ser Ala 1295 1300 1305 Gln Ser Phe Ile Glu Arg Met Thr Asn Phe Asp Lys Asn Leu Pro 1310 1315 1320 Asn Glu Lys Val Leu Pro Lys His Ser Leu Leu Tyr Glu Tyr Phe 1325 1330 1335 Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr Val Thr Glu Gly 1340 1345 1350 Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys Lys Ala Ile 1355 1360 1365 Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val Lys Gln 1370 1375 1380 Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser Val 1385 1390 1395 Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr 1400 1405 1410 Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp 1415 1420 1425 Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu 1430 1435 1440 Thr Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr 1445 1450 1455 Tyr Ala His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg 1460 1465 1470 Arg Arg Tyr Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn 1475 1480 1485 Gly Ile Arg Asp Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu 1490 1495 1500 Lys Ser Asp Gly Phe Ala Asn Arg Asn Phe Met Gln Leu Ile His 1505 1510 1515 Asp Asp Ser Leu Thr Phe Lys Glu Asp Ile Gln Lys Ala Gln Val 1520 1525 1530 Ser Gly Gln Gly Asp Ser Leu His Glu His Ile Ala Asn Leu Ala 1535 1540 1545 Gly Ser Pro Ala Ile Lys Lys Gly Ile Leu Gln Thr Val Lys Val 1550 1555 1560 Val Asp Glu Leu Val Lys Val Met Gly Arg His Lys Pro Glu Asn 1565 1570 1575 Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr Thr Gln Lys Gly 1580 1585 1590 Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile Glu Glu Gly Ile 1595 1600 1605 Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val Glu Asn 1610 1615 1620 Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn 1625 1630 1635 Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu 1640 1645 1650 Ser Asp Tyr Asp Val Asp Ala Ile Val Pro Gln Ser Phe Leu Lys 1655 1660 1665 Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn 1670 1675 1680 Arg Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys 1685 1690 1695 Met Lys Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr 1700 1705 1710 Gln Arg Lys Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu 1715 1720 1725 Ser Glu Leu Asp Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu 1730 1735 1740 Thr Arg Gln Ile Thr Lys His Val Ala Gln Ile Leu Asp Ser Arg 1745 1750 1755 Met Asn Thr Lys Tyr Asp Glu Asn Asp Lys Leu Ile Arg Glu Val 1760 1765 1770 Lys Val Ile Thr Leu Lys Ser Lys Leu Val Ser Asp Phe Arg Lys 1775 1780 1785 Asp Phe Gln Phe Tyr Lys Val Arg Glu Ile Asn Asn Tyr His His 1790 1795 1800 Ala His Asp Ala Tyr Leu Asn Ala Val Val Gly Thr Ala Leu Ile 1805 1810 1815 Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val Tyr Gly Asp Tyr 1820 1825 1830 Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys Ser Glu Gln Glu 1835 1840 1845 Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser Asn Ile Met 1850 1855 1860 Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile Arg 1865 1870 1875 Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile Val 1880 1885 1890 Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser 1895 1900 1905 Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly 1910 1915 1920 Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys 1925 1930 1935 Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly 1940 1945 1950 Phe Asp Ser Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys 1955 1960 1965 Val Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu 1970 1975 1980 Leu Gly Ile Thr Ile Met Glu Arg Ser Ser Phe Glu Lys Asn Pro 1985 1990 1995 Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu Val Lys Lys Asp 2000 2005 2010 Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe Glu Leu Glu Asn 2015 2020 2025 Gly Arg Lys Arg Met Leu Ala Ser Ala Gly Glu Leu Gln Lys Gly 2030 2035 2040 Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn Phe Leu Tyr Leu 2045 2050 2055 Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro Glu Asp Asn Glu 2060 2065 2070 Gln Lys Gln Leu Phe Val Glu Gln His Lys His Tyr Leu Asp Glu 2075 2080 2085 Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val Ile Leu Ala 2090 2095 2100 Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys His Arg 2105 2110 2115 Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu Phe 2120 2125 2130 Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe Asp 2135 2140 2145 Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val Leu 2150 2155 2160 Asp Ala Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr 2165 2170 2175 Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp Gly Gly Pro Ser Ser 2180 2185 2190 Gly Ala Pro Pro Pro Ser Gly Gly Ser Pro Ala Gly Ser Pro Thr 2195 2200 2205 Ser Thr Glu Glu Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser Gly 2210 2215 2220 Pro Gly Thr Ser Thr Glu Pro Ser Glu Gly Ser Ala Pro Gly Ser 2225 2230 2235 Pro Ala Gly Ser Pro Thr Ser Thr Glu Glu Gly Thr Ser Thr Glu 2240 2245 2250 Pro Ser Glu Gly Ser Ala Pro Gly Thr Ser Thr Glu Pro Ser Glu 2255 2260 2265 Gly Ser Gly Pro Lys Lys Lys Arg Lys Val Ala Gly Ser Ser Gln 2270 2275 2280 Tyr Leu Pro Asp Thr Asp Asp Arg His Arg Ile Glu Glu Lys Arg 2285 2290 2295 Lys Arg Thr Tyr Glu Thr Phe Lys Ser Ile Met Lys Lys Ser Pro 2300 2305 2310 Phe Ser Gly Pro Thr Asp Pro Arg Pro Pro Pro Arg Arg Ile Ala 2315 2320 2325 Val Pro Ser Arg Ser Ser Ala Ser Val Pro Lys Pro Ala Pro Gln 2330 2335 2340 Pro Tyr Pro Phe Thr Ser Ser Leu Ser Thr Ile Asn Tyr Asp Glu 2345 2350 2355 Phe Pro Thr Met Val Phe Pro Ser Gly Gln Ile Ser Gln Ala Ser 2360 2365 2370 Ala Leu Ala Pro Ala Pro Pro Gln Val Leu Pro Gln Ala Pro Ala 2375 2380 2385 Pro Ala Pro Ala Pro Ala Met Val Ser Ala Leu Ala Gln Ala Pro 2390 2395 2400 Ala Pro Val Pro Val Leu Ala Pro Gly Pro Pro Gln Ala Val Ala 2405 2410 2415 Pro Pro Ala Pro Lys Pro Thr Gln Ala Gly Glu Gly Thr Leu Ser 2420 2425 2430 Glu Ala Leu Leu Gln Leu Gln Phe Asp Asp Glu Asp Leu Gly Ala 2435 2440 2445 Leu Leu Gly Asn Ser Thr Asp Pro Ala Val Phe Thr Asp Leu Ala 2450 2455 2460 Ser Val Asp Asn Ser Glu Phe Gln Gln Leu Leu Asn Gln Gly Ile 2465 2470 2475 Pro Val Ala Pro His Thr Thr Glu Pro Met Leu Met Glu Tyr Pro 2480 2485 2490 Glu Ala Ile Thr Arg Leu Val Thr Gly Ala Gln Arg Pro Pro Asp 2495 2500 2505 Pro Ala Pro Ala Pro Leu Gly Ala Pro Gly Leu Pro Asn Gly Leu 2510 2515 2520 Leu Ser Gly Asp Glu Asp Phe Ser Ser Ile Ala Asp Met Asp Phe 2525 2530 2535 Ser Ala Leu Leu Gly Ser Gly Ser Gly Ser Arg Asp Ser Arg Glu 2540 2545 2550 Gly Met Phe Leu Pro Lys Pro Glu Ala Gly Ser Ala Ile Ser Asp 2555 2560 2565 Val Phe Glu Gly Arg Glu Val Cys Gln Pro Lys Arg Ile Arg Pro 2570 2575 2580 Phe His Pro Pro Gly Ser Pro Trp Ala Asn Arg Pro Leu Pro Ala 2585 2590 2595 Ser Leu Ala Pro Thr Pro Thr Gly Pro Val His Glu Pro Val Gly 2600 2605 2610 Ser Leu Thr Pro Ala Pro Val Pro Gln Pro Leu Asp Pro Ala Pro 2615 2620 2625 Ala Val Thr Pro Glu Ala Ser His Leu Leu Glu Asp Pro Asp Glu 2630 2635 2640 Glu Thr Ser Gln Ala Val Lys Ala Leu Arg Glu Met Ala Asp Thr 2645 2650 2655 Val Ile Pro Gln Lys Glu Glu Ala Ala Ile Cys Gly Gln Met Asp 2660 2665 2670 Leu Ser His Pro Pro Pro Arg Gly His Leu Asp Glu Leu Thr Thr 2675 2680 2685 Thr Leu Glu Ser Met Thr Glu Asp Leu Asn Leu Asp Ser Pro Leu 2690 2695 2700 Thr Pro Glu Leu Asn Glu Ile Leu Asp Thr Phe Leu Asn Asp Glu 2705 2710 2715 Cys Leu Leu His Ala Met His Ile Ser Thr Gly Leu Ser Ile Phe 2720 2725 2730 Asp Thr Ser Leu Phe Ala Ser Gly Ser Gly Pro Lys Lys Lys Arg 2735 2740 2745 Lys Val 2750 <210> 102 <211> 2216 <212> PRT <213> Artificial Sequence <220> <223> Synthetic polypeptide <400> 102 Met Ala Leu Pro Thr Cys Ser Cys Leu Asp Arg Val Ile Gln Lys Asp 1 5 10 15 Lys Gly Pro Tyr Tyr Thr His Leu Gly Ala Gly Pro Ser Val Ala Ala 20 25 30 Val Arg Glu Ile Met Glu Asn Arg Tyr Gly Gln Lys Gly Asn Ala Ile 35 40 45 Arg Ile Glu Ile Val Val Tyr Thr Gly Lys Glu Gly Lys Ser Ser His 50 55 60 Gly Cys Pro Ile Ala Lys Trp Val Leu Arg Arg Ser Ser Asp Glu Glu 65 70 75 80 Lys Val Leu Cys Leu Val Arg Gln Arg Thr Gly His His Cys Pro Thr 85 90 95 Ala Val Met Val Val Leu Ile Met Val Trp Asp Gly Ile Pro Leu Pro 100 105 110 Met Ala Asp Arg Leu Tyr Thr Glu Leu Thr Glu Asn Leu Lys Ser Tyr 115 120 125 Asn Gly His Pro Thr Asp Arg Arg Cys Thr Leu Asn Glu Asn Arg Thr 130 135 140 Cys Thr Cys Gln Gly Ile Asp Pro Glu Thr Cys Gly Ala Ser Phe Ser 145 150 155 160 Phe Gly Cys Ser Trp Ser Met Tyr Phe Asn Gly Cys Lys Phe Gly Arg 165 170 175 Ser Pro Ser Pro Arg Arg Phe Arg Ile Asp Pro Ser Ser Pro Leu His 180 185 190 Glu Lys Asn Leu Glu Asp Asn Leu Gln Ser Leu Ala Thr Arg Leu Ala 195 200 205 Pro Ile Tyr Lys Gln Tyr Ala Pro Val Ala Tyr Gln Asn Gln Val Glu 210 215 220 Tyr Glu Asn Val Ala Arg Glu Cys Arg Leu Gly Ser Lys Glu Gly Arg 225 230 235 240 Pro Phe Ser Gly Val Thr Ala Cys Leu Asp Phe Cys Ala His Pro His 245 250 255 Arg Asp Ile His Asn Met Asn Asn Gly Ser Thr Val Val Cys Thr Leu 260 265 270 Thr Arg Glu Asp Asn Arg Ser Leu Gly Val Ile Pro Gln Asp Glu Gln 275 280 285 Leu His Val Leu Pro Leu Tyr Lys Leu Ser Asp Thr Asp Glu Phe Gly 290 295 300 Ser Lys Glu Gly Met Glu Ala Lys Ile Lys Ser Gly Ala Ile Glu Val 305 310 315 320 Leu Ala Pro Arg Arg Lys Lys Arg Thr Cys Phe Thr Gln Pro Val Pro 325 330 335 Arg Ser Gly Lys Lys Arg Ala Ala Met Met Thr Glu Val Leu Ala His 340 345 350 Lys Ile Arg Ala Val Glu Lys Lys Pro Ile Pro Arg Ile Lys Arg Lys 355 360 365 Asn Asn Ser Thr Thr Thr Asn Asn Ser Lys Pro Ser Ser Leu Pro Thr 370 375 380 Leu Gly Ser Asn Thr Glu Thr Val Gln Pro Glu Val Lys Ser Glu Thr 385 390 395 400 Glu Pro His Phe Ile Leu Lys Ser Ser Asp Asn Thr Lys Thr Tyr Ser 405 410 415 Leu Met Pro Ser Ala Pro His Pro Val Lys Glu Ala Ser Pro Gly Phe 420 425 430 Ser Trp Ser Pro Lys Thr Ala Ser Ala Thr Pro Ala Pro Leu Lys Asn 435 440 445 Asp Ala Thr Ala Ser Cys Gly Phe Ser Glu Arg Ser Ser Thr Pro His 450 455 460 Cys Thr Met Pro Ser Gly Arg Leu Ser Gly Ala Asn Ala Ala Ala Ala 465 470 475 480 Asp Gly Pro Gly Ile Ser Gln Leu Gly Glu Val Ala Pro Leu Pro Thr 485 490 495 Leu Ser Ala Pro Val Met Glu Pro Leu Ile Asn Ser Glu Pro Ser Thr 500 505 510 Gly Val Thr Glu Pro Leu Thr Pro His Gln Pro Asn His Gln Pro Ser 515 520 525 Phe Leu Thr Ser Pro Gln Asp Leu Ala Ser Ser Pro Met Glu Glu Asp 530 535 540 Glu Gln His Ser Glu Ala Asp Glu Pro Pro Ser Asp Glu Pro Leu Ser 545 550 555 560 Asp Asp Pro Leu Ser Pro Ala Glu Glu Lys Leu Pro His Ile Asp Glu 565 570 575 Tyr Trp Ser Asp Ser Glu His Ile Phe Leu Asp Ala Asn Ile Gly Gly 580 585 590 Val Ala Ile Ala Pro Ala His Gly Ser Val Leu Ile Glu Cys Ala Arg 595 600 605 Arg Glu Leu His Ala Thr Thr Pro Val Glu His Pro Asn Arg Asn His 610 615 620 Pro Thr Arg Leu Ser Leu Val Phe Tyr Gln His Lys Asn Leu Asn Lys 625 630 635 640 Pro Gln His Gly Phe Glu Leu Asn Lys Ile Lys Phe Glu Ala Lys Glu 645 650 655 Ala Lys Asn Lys Lys Met Lys Ala Ser Glu Gln Lys Asp Gln Ala Ala 660 665 670 Asn Glu Gly Pro Glu Gln Ser Ser Glu Val Asn Glu Leu Asn Gln Ile 675 680 685 Pro Ser His Lys Ala Leu Thr Leu Thr His Asp Asn Val Val Thr Val 690 695 700 Ser Pro Tyr Ala Leu Thr His Val Ala Gly Pro Tyr Asn His Trp Val 705 710 715 720 Gly Gly Ser Pro Ala Gly Ser Pro Thr Ser Thr Glu Glu Gly Thr Ser 725 730 735 Glu Ser Ala Thr Pro Glu Ser Gly Pro Gly Thr Ser Thr Glu Pro Ser 740 745 750 Glu Gly Ser Ala Pro Gly Ser Pro Ala Gly Ser Pro Thr Ser Thr Glu 755 760 765 Glu Gly Thr Ser Thr Glu Pro Ser Glu Gly Ser Ala Pro Gly Thr Ser 770 775 780 Thr Glu Pro Ser Glu Gly Ser Ala Pro Gly Thr Ser Glu Ser Ala Thr 785 790 795 800 Pro Glu Ser Gly Pro Gly Ser Glu Pro Ala Thr Ser Gly Ser Glu Thr 805 810 815 Pro Gly Ser Glu Met Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly 820 825 830 Thr Asn Ser Val Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro 835 840 845 Ser Lys Lys Phe Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys 850 855 860 Lys Asn Leu Ile Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu 865 870 875 880 Ala Thr Arg Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys 885 890 895 Asn Arg Ile Cys Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys 900 905 910 Val Asp Asp Ser Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu 915 920 925 Glu Asp Lys Lys His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp 930 935 940 Glu Val Ala Tyr His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys 945 950 955 960 Lys Leu Val Asp Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu 965 970 975 Ala Leu Ala His Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly 980 985 990 Asp Leu Asn Pro Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu 995 1000 1005 Val Gln Thr Tyr Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala 1010 1015 1020 Ser Gly Val Asp Ala Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys 1025 1030 1035 Ser Arg Arg Leu Glu Asn Leu Ile Ala Gln Leu Pro Gly Glu Lys 1040 1045 1050 Lys Asn Gly Leu Phe Gly Asn Leu Ile Ala Leu Ser Leu Gly Leu 1055 1060 1065 Thr Pro Asn Phe Lys Ser Asn Phe Asp Leu Ala Glu Asp Ala Lys 1070 1075 1080 Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp Asp Leu Asp Asn Leu 1085 1090 1095 Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu Phe Leu Ala Ala 1100 1105 1110 Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile Leu Arg Val 1115 1120 1125 Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met Ile Lys 1130 1135 1140 Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys Ala Leu 1145 1150 1155 Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp 1160 1165 1170 Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser 1175 1180 1185 Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met 1190 1195 1200 Asp Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu 1205 1210 1215 Leu Arg Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln 1220 1225 1230 Ile His Leu Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp 1235 1240 1245 Phe Tyr Pro Phe Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile 1250 1255 1260 Leu Thr Phe Arg Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly 1265 1270 1275 Asn Ser Arg Phe Ala Trp Met Thr Arg Lys Ser Glu Glu Thr Ile 1280 1285 1290 Thr Pro Trp Asn Phe Glu Glu Val Val Asp Lys Gly Ala Ser Ala 1295 1300 1305 Gln Ser Phe Ile Glu Arg Met Thr Asn Phe Asp Lys Asn Leu Pro 1310 1315 1320 Asn Glu Lys Val Leu Pro Lys His Ser Leu Leu Tyr Glu Tyr Phe 1325 1330 1335 Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr Val Thr Glu Gly 1340 1345 1350 Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys Lys Ala Ile 1355 1360 1365 Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val Lys Gln 1370 1375 1380 Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser Val 1385 1390 1395 Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr 1400 1405 1410 Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp 1415 1420 1425 Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu 1430 1435 1440 Thr Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr 1445 1450 1455 Tyr Ala His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg 1460 1465 1470 Arg Arg Tyr Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn 1475 1480 1485 Gly Ile Arg Asp Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu 1490 1495 1500 Lys Ser Asp Gly Phe Ala Asn Arg Asn Phe Met Gln Leu Ile His 1505 1510 1515 Asp Asp Ser Leu Thr Phe Lys Glu Asp Ile Gln Lys Ala Gln Val 1520 1525 1530 Ser Gly Gln Gly Asp Ser Leu His Glu His Ile Ala Asn Leu Ala 1535 1540 1545 Gly Ser Pro Ala Ile Lys Lys Gly Ile Leu Gln Thr Val Lys Val 1550 1555 1560 Val Asp Glu Leu Val Lys Val Met Gly Arg His Lys Pro Glu Asn 1565 1570 1575 Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr Thr Gln Lys Gly 1580 1585 1590 Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile Glu Glu Gly Ile 1595 1600 1605 Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val Glu Asn 1610 1615 1620 Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn 1625 1630 1635 Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu 1640 1645 1650 Ser Asp Tyr Asp Val Asp Ala Ile Val Pro Gln Ser Phe Leu Lys 1655 1660 1665 Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn 1670 1675 1680 Arg Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys 1685 1690 1695 Met Lys Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr 1700 1705 1710 Gln Arg Lys Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu 1715 1720 1725 Ser Glu Leu Asp Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu 1730 1735 1740 Thr Arg Gln Ile Thr Lys His Val Ala Gln Ile Leu Asp Ser Arg 1745 1750 1755 Met Asn Thr Lys Tyr Asp Glu Asn Asp Lys Leu Ile Arg Glu Val 1760 1765 1770 Lys Val Ile Thr Leu Lys Ser Lys Leu Val Ser Asp Phe Arg Lys 1775 1780 1785 Asp Phe Gln Phe Tyr Lys Val Arg Glu Ile Asn Asn Tyr His His 1790 1795 1800 Ala His Asp Ala Tyr Leu Asn Ala Val Val Gly Thr Ala Leu Ile 1805 1810 1815 Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val Tyr Gly Asp Tyr 1820 1825 1830 Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys Ser Glu Gln Glu 1835 1840 1845 Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser Asn Ile Met 1850 1855 1860 Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile Arg 1865 1870 1875 Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile Val 1880 1885 1890 Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser 1895 1900 1905 Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly 1910 1915 1920 Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys 1925 1930 1935 Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly 1940 1945 1950 Phe Asp Ser Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys 1955 1960 1965 Val Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu 1970 1975 1980 Leu Gly Ile Thr Ile Met Glu Arg Ser Ser Phe Glu Lys Asn Pro 1985 1990 1995 Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu Val Lys Lys Asp 2000 2005 2010 Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe Glu Leu Glu Asn 2015 2020 2025 Gly Arg Lys Arg Met Leu Ala Ser Ala Gly Glu Leu Gln Lys Gly 2030 2035 2040 Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn Phe Leu Tyr Leu 2045 2050 2055 Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro Glu Asp Asn Glu 2060 2065 2070 Gln Lys Gln Leu Phe Val Glu Gln His Lys His Tyr Leu Asp Glu 2075 2080 2085 Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val Ile Leu Ala 2090 2095 2100 Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys His Arg 2105 2110 2115 Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu Phe 2120 2125 2130 Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe Asp 2135 2140 2145 Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val Leu 2150 2155 2160 Asp Ala Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr 2165 2170 2175 Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp Gly Gly Gly Gly Ser 2180 2185 2190 Pro Lys Lys Lys Arg Lys Val Asp Pro Lys Lys Lys Arg Lys Val 2195 2200 2205 Asp Pro Lys Lys Lys Arg Lys Val 2210 2215 <210> 103 <211> 2116 <212> PRT <213> Artificial Sequence <220> <223> Synthetic polypeptide <400> 103 Met Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val 1 5 10 15 Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe 20 25 30 Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile 35 40 45 Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu 50 55 60 Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys 65 70 75 80 Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser 85 90 95 Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys 100 105 110 His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr 115 120 125 His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp 130 135 140 Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His 145 150 155 160 Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro 165 170 175 Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr 180 185 190 Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala 195 200 205 Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn 210 215 220 Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn 225 230 235 240 Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe 245 250 255 Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp 260 265 270 Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp 275 280 285 Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp 290 295 300 Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser 305 310 315 320 Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys 325 330 335 Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe 340 345 350 Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser 355 360 365 Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp 370 375 380 Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg 385 390 395 400 Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu 405 410 415 Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe 420 425 430 Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile 435 440 445 Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp 450 455 460 Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu 465 470 475 480 Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr 485 490 495 Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser 500 505 510 Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys 515 520 525 Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln 530 535 540 Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr 545 550 555 560 Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp 565 570 575 Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly 580 585 590 Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp 595 600 605 Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr 610 615 620 Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala 625 630 635 640 His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr 645 650 655 Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp 660 665 670 Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe 675 680 685 Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe 690 695 700 Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu 705 710 715 720 His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly 725 730 735 Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly 740 745 750 Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln 755 760 765 Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile 770 775 780 Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro 785 790 795 800 Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu 805 810 815 Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg 820 825 830 Leu Ser Asp Tyr Asp Val Asp Ala Ile Val Pro Gln Ser Phe Leu Lys 835 840 845 Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg 850 855 860 Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys 865 870 875 880 Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys 885 890 895 Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp 900 905 910 Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr 915 920 925 Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp 930 935 940 Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser 945 950 955 960 Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg 965 970 975 Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val 980 985 990 Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe 995 1000 1005 Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala 1010 1015 1020 Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe 1025 1030 1035 Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala 1040 1045 1050 Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu 1055 1060 1065 Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val 1070 1075 1080 Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr 1085 1090 1095 Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys 1100 1105 1110 Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro 1115 1120 1125 Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val 1130 1135 1140 Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys 1145 1150 1155 Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser 1160 1165 1170 Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys 1175 1180 1185 Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu 1190 1195 1200 Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly 1205 1210 1215 Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val 1220 1225 1230 Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser 1235 1240 1245 Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys 1250 1255 1260 His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys 1265 1270 1275 Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala 1280 1285 1290 Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn 1295 1300 1305 Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala 1310 1315 1320 Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser 1325 1330 1335 Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr 1340 1345 1350 Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp 1355 1360 1365 Gly Gly Gly Gly Ser Pro Lys Lys Lys Arg Lys Val Asp Pro Lys 1370 1375 1380 Lys Lys Arg Lys Val Asp Pro Lys Lys Lys Arg Lys Val Gly Ser 1385 1390 1395 Leu Pro Thr Cys Ser Cys Leu Asp Arg Val Ile Gln Lys Asp Lys 1400 1405 1410 Gly Pro Tyr Tyr Thr His Leu Gly Ala Gly Pro Ser Val Ala Ala 1415 1420 1425 Val Arg Glu Ile Met Glu Asn Arg Tyr Gly Gln Lys Gly Asn Ala 1430 1435 1440 Ile Arg Ile Glu Ile Val Val Tyr Thr Gly Lys Glu Gly Lys Ser 1445 1450 1455 Ser His Gly Cys Pro Ile Ala Lys Trp Val Leu Arg Arg Ser Ser 1460 1465 1470 Asp Glu Glu Lys Val Leu Cys Leu Val Arg Gln Arg Thr Gly His 1475 1480 1485 His Cys Pro Thr Ala Val Met Val Val Leu Ile Met Val Trp Asp 1490 1495 1500 Gly Ile Pro Leu Pro Met Ala Asp Arg Leu Tyr Thr Glu Leu Thr 1505 1510 1515 Glu Asn Leu Lys Ser Tyr Asn Gly His Pro Thr Asp Arg Arg Cys 1520 1525 1530 Thr Leu Asn Glu Asn Arg Thr Cys Thr Cys Gln Gly Ile Asp Pro 1535 1540 1545 Glu Thr Cys Gly Ala Ser Phe Ser Phe Gly Cys Ser Trp Ser Met 1550 1555 1560 Tyr Phe Asn Gly Cys Lys Phe Gly Arg Ser Pro Ser Pro Arg Arg 1565 1570 1575 Phe Arg Ile Asp Pro Ser Ser Pro Leu His Glu Lys Asn Leu Glu 1580 1585 1590 Asp Asn Leu Gln Ser Leu Ala Thr Arg Leu Ala Pro Ile Tyr Lys 1595 1600 1605 Gln Tyr Ala Pro Val Ala Tyr Gln Asn Gln Val Glu Tyr Glu Asn 1610 1615 1620 Val Ala Arg Glu Cys Arg Leu Gly Ser Lys Glu Gly Arg Pro Phe 1625 1630 1635 Ser Gly Val Thr Ala Cys Leu Asp Phe Cys Ala His Pro His Arg 1640 1645 1650 Asp Ile His Asn Met Asn Asn Gly Ser Thr Val Val Cys Thr Leu 1655 1660 1665 Thr Arg Glu Asp Asn Arg Ser Leu Gly Val Ile Pro Gln Asp Glu 1670 1675 1680 Gln Leu His Val Leu Pro Leu Tyr Lys Leu Ser Asp Thr Asp Glu 1685 1690 1695 Phe Gly Ser Lys Glu Gly Met Glu Ala Lys Ile Lys Ser Gly Ala 1700 1705 1710 Ile Glu Val Leu Ala Pro Arg Arg Lys Lys Arg Thr Cys Phe Thr 1715 1720 1725 Gln Pro Val Pro Arg Ser Gly Lys Lys Arg Ala Ala Met Met Thr 1730 1735 1740 Glu Val Leu Ala His Lys Ile Arg Ala Val Glu Lys Lys Pro Ile 1745 1750 1755 Pro Arg Ile Lys Arg Lys Asn Asn Ser Thr Thr Thr Asn Asn Ser 1760 1765 1770 Lys Pro Ser Ser Leu Pro Thr Leu Gly Ser Asn Thr Glu Thr Val 1775 1780 1785 Gln Pro Glu Val Lys Ser Glu Thr Glu Pro His Phe Ile Leu Lys 1790 1795 1800 Ser Ser Asp Asn Thr Lys Thr Tyr Ser Leu Met Pro Ser Ala Pro 1805 1810 1815 His Pro Val Lys Glu Ala Ser Pro Gly Phe Ser Trp Ser Pro Lys 1820 1825 1830 Thr Ala Ser Ala Thr Pro Ala Pro Leu Lys Asn Asp Ala Thr Ala 1835 1840 1845 Ser Cys Gly Phe Ser Glu Arg Ser Ser Thr Pro His Cys Thr Met 1850 1855 1860 Pro Ser Gly Arg Leu Ser Gly Ala Asn Ala Ala Ala Ala Asp Gly 1865 1870 1875 Pro Gly Ile Ser Gln Leu Gly Glu Val Ala Pro Leu Pro Thr Leu 1880 1885 1890 Ser Ala Pro Val Met Glu Pro Leu Ile Asn Ser Glu Pro Ser Thr 1895 1900 1905 Gly Val Thr Glu Pro Leu Thr Pro His Gln Pro Asn His Gln Pro 1910 1915 1920 Ser Phe Leu Thr Ser Pro Gln Asp Leu Ala Ser Ser Pro Met Glu 1925 1930 1935 Glu Asp Glu Gln His Ser Glu Ala Asp Glu Pro Pro Ser Asp Glu 1940 1945 1950 Pro Leu Ser Asp Asp Pro Leu Ser Pro Ala Glu Glu Lys Leu Pro 1955 1960 1965 His Ile Asp Glu Tyr Trp Ser Asp Ser Glu His Ile Phe Leu Asp 1970 1975 1980 Ala Asn Ile Gly Gly Val Ala Ile Ala Pro Ala His Gly Ser Val 1985 1990 1995 Leu Ile Glu Cys Ala Arg Arg Glu Leu His Ala Thr Thr Pro Val 2000 2005 2010 Glu His Pro Asn Arg Asn His Pro Thr Arg Leu Ser Leu Val Phe 2015 2020 2025 Tyr Gln His Lys Asn Leu Asn Lys Pro Gln His Gly Phe Glu Leu 2030 2035 2040 Asn Lys Ile Lys Phe Glu Ala Lys Glu Ala Lys Asn Lys Lys Met 2045 2050 2055 Lys Ala Ser Glu Gln Lys Asp Gln Ala Ala Asn Glu Gly Pro Glu 2060 2065 2070 Gln Ser Ser Glu Val Asn Glu Leu Asn Gln Ile Pro Ser His Lys 2075 2080 2085 Ala Leu Thr Leu Thr His Asp Asn Val Val Thr Val Ser Pro Tyr 2090 2095 2100 Ala Leu Thr His Val Ala Gly Pro Tyr Asn His Trp Val 2105 2110 2115 <210> 104 <211> 285 <212> PRT <213> Artificial Sequence <220> <223> Synthetic polypeptide <400> 104 Met Ala Ser Asn Phe Thr Gln Phe Val Leu Val Asp Asn Gly Gly Thr 1 5 10 15 Gly Asp Val Thr Val Ala Pro Ser Asn Phe Ala Asn Gly Val Ala Glu 20 25 30 Trp Ile Ser Ser Asn Ser Arg Ser Gln Ala Tyr Lys Val Thr Cys Ser 35 40 45 Val Arg Gln Ser Ser Ala Gln Lys Arg Lys Tyr Thr Ile Lys Val Glu 50 55 60 Val Pro Lys Val Ala Thr Gln Thr Val Gly Gly Val Glu Leu Pro Val 65 70 75 80 Ala Ala Trp Arg Ser Tyr Leu Asn Met Glu Leu Thr Ile Pro Ile Phe 85 90 95 Ala Thr Asn Ser Asp Cys Glu Leu Ile Val Lys Ala Met Gln Gly Leu 100 105 110 Leu Lys Asp Gly Asn Pro Ile Pro Ser Ala Ile Ala Ala Asn Ser Gly 115 120 125 Ile Tyr Gly Gly Pro Ser Ser Gly Ala Pro Pro Pro Ser Gly Gly Ser 130 135 140 Pro Ala Gly Ser Pro Thr Ser Thr Glu Glu Gly Thr Ser Glu Ser Ala 145 150 155 160 Thr Pro Glu Ser Gly Pro Gly Thr Ser Thr Glu Pro Ser Glu Gly Ser 165 170 175 Ala Pro Gly Ser Pro Ala Gly Ser Pro Thr Ser Thr Glu Glu Gly Thr 180 185 190 Ser Thr Glu Pro Ser Glu Gly Ser Ala Pro Gly Thr Ser Thr Glu Pro 195 200 205 Ser Glu Gly Ser Gly Pro Lys Lys Lys Arg Lys Val Ala Gly Ser Asp 210 215 220 Ala Leu Asp Asp Phe Asp Leu Asp Met Leu Gly Ser Asp Ala Leu Asp 225 230 235 240 Asp Phe Asp Leu Asp Met Leu Gly Ser Asp Ala Leu Asp Asp Phe Asp 245 250 255 Leu Asp Met Leu Gly Ser Asp Ala Leu Asp Asp Phe Asp Leu Asp Met 260 265 270 Leu Ala Ser Gly Ser Gly Pro Lys Lys Lys Arg Lys Val 275 280 285 <210> 105 <211> 562 <212> PRT <213> Artificial Sequence <220> <223> Synthetic polypeptide <400> 105 Met Ala Ser Asn Phe Thr Gln Phe Val Leu Val Asp Asn Gly Gly Thr 1 5 10 15 Gly Asp Val Thr Val Ala Pro Ser Asn Phe Ala Asn Gly Val Ala Glu 20 25 30 Trp Ile Ser Ser Asn Ser Arg Ser Gln Ala Tyr Lys Val Thr Cys Ser 35 40 45 Val Arg Gln Ser Ser Ala Gln Lys Arg Lys Tyr Thr Ile Lys Val Glu 50 55 60 Val Pro Lys Val Ala Thr Gln Thr Val Gly Gly Val Glu Leu Pro Val 65 70 75 80 Ala Ala Trp Arg Ser Tyr Leu Asn Met Glu Leu Thr Ile Pro Ile Phe 85 90 95 Ala Thr Asn Ser Asp Cys Glu Leu Ile Val Lys Ala Met Gln Gly Leu 100 105 110 Leu Lys Asp Gly Asn Pro Ile Pro Ser Ala Ile Ala Ala Asn Ser Gly 115 120 125 Ile Tyr Gly Gly Pro Ser Ser Gly Ala Pro Pro Pro Ser Gly Gly Ser 130 135 140 Pro Ala Gly Ser Pro Thr Ser Thr Glu Glu Gly Thr Ser Glu Ser Ala 145 150 155 160 Thr Pro Glu Ser Gly Pro Gly Thr Ser Thr Glu Pro Ser Glu Gly Ser 165 170 175 Ala Pro Gly Ser Pro Ala Gly Ser Pro Thr Ser Thr Glu Glu Gly Thr 180 185 190 Ser Thr Glu Pro Ser Glu Gly Ser Ala Pro Gly Thr Ser Thr Glu Pro 195 200 205 Ser Glu Gly Ser Gly Pro Lys Lys Lys Arg Lys Val Ala Gly Ser Asp 210 215 220 Ala Leu Asp Asp Phe Asp Leu Asp Met Leu Gly Ser Asp Ala Leu Asp 225 230 235 240 Asp Phe Asp Leu Asp Met Leu Gly Ser Asp Ala Leu Asp Asp Phe Asp 245 250 255 Leu Asp Met Leu Gly Ser Asp Ala Leu Asp Asp Phe Asp Leu Asp Met 260 265 270 Leu Ile Asn Ser Arg Ser Ser Gly Ser Pro Lys Lys Lys Arg Lys Val 275 280 285 Gly Ser Gln Tyr Leu Pro Asp Thr Asp Asp Arg His Arg Ile Glu Glu 290 295 300 Lys Arg Lys Arg Thr Tyr Glu Thr Phe Lys Ser Ile Met Lys Lys Ser 305 310 315 320 Pro Phe Ser Gly Pro Thr Asp Pro Arg Pro Pro Pro Arg Arg Ile Ala 325 330 335 Val Pro Ser Arg Ser Ser Ala Ser Val Pro Lys Pro Ala Pro Gln Pro 340 345 350 Tyr Pro Phe Thr Ser Ser Leu Ser Thr Ile Asn Tyr Asp Glu Phe Pro 355 360 365 Thr Met Val Phe Pro Ser Gly Gln Ile Ser Gln Ala Ser Ala Leu Ala 370 375 380 Pro Ala Pro Pro Gln Val Leu Pro Gln Ala Pro Ala Pro Ala Pro Ala 385 390 395 400 Pro Ala Met Val Ser Ala Leu Ala Gln Ala Pro Ala Pro Val Pro Val 405 410 415 Leu Ala Pro Gly Pro Pro Gln Ala Val Ala Pro Pro Ala Pro Lys Pro 420 425 430 Thr Gln Ala Gly Glu Gly Thr Leu Ser Glu Ala Leu Leu Gln Leu Gln 435 440 445 Phe Asp Asp Glu Asp Leu Gly Ala Leu Leu Gly Asn Ser Thr Asp Pro 450 455 460 Ala Val Phe Thr Asp Leu Ala Ser Val Asp Asn Ser Glu Phe Gln Gln 465 470 475 480 Leu Leu Asn Gln Gly Ile Pro Val Ala Pro His Thr Thr Glu Pro Met 485 490 495 Leu Met Glu Tyr Pro Glu Ala Ile Thr Arg Leu Val Thr Gly Ala Gln 500 505 510 Arg Pro Pro Asp Pro Ala Pro Ala Pro Leu Gly Ala Pro Gly Leu Pro 515 520 525 Asn Gly Leu Leu Ser Gly Asp Glu Asp Phe Ser Ser Ile Ala Asp Met 530 535 540 Asp Phe Ser Ala Leu Leu Ala Ser Gly Ser Gly Pro Lys Lys Lys Arg 545 550 555 560 Lys Val <210> 106 <211> 758 <212> PRT <213> Artificial Sequence <220> <223> Synthetic polypeptide <400> 106 Met Ala Ser Asn Phe Thr Gln Phe Val Leu Val Asp Asn Gly Gly Thr 1 5 10 15 Gly Asp Val Thr Val Ala Pro Ser Asn Phe Ala Asn Gly Val Ala Glu 20 25 30 Trp Ile Ser Ser Asn Ser Arg Ser Gln Ala Tyr Lys Val Thr Cys Ser 35 40 45 Val Arg Gln Ser Ser Ala Gln Lys Arg Lys Tyr Thr Ile Lys Val Glu 50 55 60 Val Pro Lys Val Ala Thr Gln Thr Val Gly Gly Val Glu Leu Pro Val 65 70 75 80 Ala Ala Trp Arg Ser Tyr Leu Asn Met Glu Leu Thr Ile Pro Ile Phe 85 90 95 Ala Thr Asn Ser Asp Cys Glu Leu Ile Val Lys Ala Met Gln Gly Leu 100 105 110 Leu Lys Asp Gly Asn Pro Ile Pro Ser Ala Ile Ala Ala Asn Ser Gly 115 120 125 Ile Tyr Gly Gly Pro Ser Ser Gly Ala Pro Pro Pro Ser Gly Gly Ser 130 135 140 Pro Ala Gly Ser Pro Thr Ser Thr Glu Glu Gly Thr Ser Glu Ser Ala 145 150 155 160 Thr Pro Glu Ser Gly Pro Gly Thr Ser Thr Glu Pro Ser Glu Gly Ser 165 170 175 Ala Pro Gly Ser Pro Ala Gly Ser Pro Thr Ser Thr Glu Glu Gly Thr 180 185 190 Ser Thr Glu Pro Ser Glu Gly Ser Ala Pro Gly Thr Ser Thr Glu Pro 195 200 205 Ser Glu Gly Ser Gly Pro Lys Lys Lys Arg Lys Val Ala Gly Ser Asp 210 215 220 Ala Leu Asp Asp Phe Asp Leu Asp Met Leu Gly Ser Asp Ala Leu Asp 225 230 235 240 Asp Phe Asp Leu Asp Met Leu Gly Ser Asp Ala Leu Asp Asp Phe Asp 245 250 255 Leu Asp Met Leu Gly Ser Asp Ala Leu Asp Asp Phe Asp Leu Asp Met 260 265 270 Leu Ile Asn Ser Arg Ser Ser Gly Ser Pro Lys Lys Lys Arg Lys Val 275 280 285 Gly Ser Gln Tyr Leu Pro Asp Thr Asp Asp Arg His Arg Ile Glu Glu 290 295 300 Lys Arg Lys Arg Thr Tyr Glu Thr Phe Lys Ser Ile Met Lys Lys Ser 305 310 315 320 Pro Phe Ser Gly Pro Thr Asp Pro Arg Pro Pro Pro Arg Arg Ile Ala 325 330 335 Val Pro Ser Arg Ser Ser Ala Ser Val Pro Lys Pro Ala Pro Gln Pro 340 345 350 Tyr Pro Phe Thr Ser Ser Leu Ser Thr Ile Asn Tyr Asp Glu Phe Pro 355 360 365 Thr Met Val Phe Pro Ser Gly Gln Ile Ser Gln Ala Ser Ala Leu Ala 370 375 380 Pro Ala Pro Pro Gln Val Leu Pro Gln Ala Pro Ala Pro Ala Pro Ala 385 390 395 400 Pro Ala Met Val Ser Ala Leu Ala Gln Ala Pro Ala Pro Val Pro Val 405 410 415 Leu Ala Pro Gly Pro Pro Gln Ala Val Ala Pro Pro Ala Pro Lys Pro 420 425 430 Thr Gln Ala Gly Glu Gly Thr Leu Ser Glu Ala Leu Leu Gln Leu Gln 435 440 445 Phe Asp Asp Glu Asp Leu Gly Ala Leu Leu Gly Asn Ser Thr Asp Pro 450 455 460 Ala Val Phe Thr Asp Leu Ala Ser Val Asp Asn Ser Glu Phe Gln Gln 465 470 475 480 Leu Leu Asn Gln Gly Ile Pro Val Ala Pro His Thr Thr Glu Pro Met 485 490 495 Leu Met Glu Tyr Pro Glu Ala Ile Thr Arg Leu Val Thr Gly Ala Gln 500 505 510 Arg Pro Pro Asp Pro Ala Pro Ala Pro Leu Gly Ala Pro Gly Leu Pro 515 520 525 Asn Gly Leu Leu Ser Gly Asp Glu Asp Phe Ser Ser Ile Ala Asp Met 530 535 540 Asp Phe Ser Ala Leu Leu Gly Ser Gly Ser Gly Ser Arg Asp Ser Arg 545 550 555 560 Glu Gly Met Phe Leu Pro Lys Pro Glu Ala Gly Ser Ala Ile Ser Asp 565 570 575 Val Phe Glu Gly Arg Glu Val Cys Gln Pro Lys Arg Ile Arg Pro Phe 580 585 590 His Pro Pro Gly Ser Pro Trp Ala Asn Arg Pro Leu Pro Ala Ser Leu 595 600 605 Ala Pro Thr Pro Thr Gly Pro Val His Glu Pro Val Gly Ser Leu Thr 610 615 620 Pro Ala Pro Val Pro Gln Pro Leu Asp Pro Ala Pro Ala Val Thr Pro 625 630 635 640 Glu Ala Ser His Leu Leu Glu Asp Pro Asp Glu Glu Thr Ser Gln Ala 645 650 655 Val Lys Ala Leu Arg Glu Met Ala Asp Thr Val Ile Pro Gln Lys Glu 660 665 670 Glu Ala Ala Ile Cys Gly Gln Met Asp Leu Ser His Pro Pro Pro Arg 675 680 685 Gly His Leu Asp Glu Leu Thr Thr Thr Leu Glu Ser Met Thr Glu Asp 690 695 700 Leu Asn Leu Asp Ser Pro Leu Thr Pro Glu Leu Asn Glu Ile Leu Asp 705 710 715 720 Thr Phe Leu Asn Asp Glu Cys Leu Leu His Ala Met His Ile Ser Thr 725 730 735 Gly Leu Ser Ile Phe Asp Thr Ser Leu Phe Ala Ser Gly Ser Gly Pro 740 745 750 Lys Lys Lys Arg Lys Val 755 <210> 107 <211> 496 <212> PRT <213> Artificial Sequence <220> <223> Synthetic polypeptide <400> 107 Met Ala Ser Asn Phe Thr Gln Phe Val Leu Val Asp Asn Gly Gly Thr 1 5 10 15 Gly Asp Val Thr Val Ala Pro Ser Asn Phe Ala Asn Gly Val Ala Glu 20 25 30 Trp Ile Ser Ser Asn Ser Arg Ser Gln Ala Tyr Lys Val Thr Cys Ser 35 40 45 Val Arg Gln Ser Ser Ala Gln Lys Arg Lys Tyr Thr Ile Lys Val Glu 50 55 60 Val Pro Lys Val Ala Thr Gln Thr Val Gly Gly Val Glu Leu Pro Val 65 70 75 80 Ala Ala Trp Arg Ser Tyr Leu Asn Met Glu Leu Thr Ile Pro Ile Phe 85 90 95 Ala Thr Asn Ser Asp Cys Glu Leu Ile Val Lys Ala Met Gln Gly Leu 100 105 110 Leu Lys Asp Gly Asn Pro Ile Pro Ser Ala Ile Ala Ala Asn Ser Gly 115 120 125 Ile Tyr Gly Gly Pro Ser Ser Gly Ala Pro Pro Pro Ser Gly Gly Ser 130 135 140 Pro Ala Gly Ser Pro Thr Ser Thr Glu Glu Gly Thr Ser Glu Ser Ala 145 150 155 160 Thr Pro Glu Ser Gly Pro Gly Thr Ser Thr Glu Pro Ser Glu Gly Ser 165 170 175 Ala Pro Gly Ser Pro Ala Gly Ser Pro Thr Ser Thr Glu Glu Gly Thr 180 185 190 Ser Thr Glu Pro Ser Glu Gly Ser Ala Pro Gly Thr Ser Thr Glu Pro 195 200 205 Ser Glu Gly Ser Gly Pro Lys Lys Lys Arg Lys Val Ala Gly Ser Ser 210 215 220 Gln Tyr Leu Pro Asp Thr Asp Asp Arg His Arg Ile Glu Glu Lys Arg 225 230 235 240 Lys Arg Thr Tyr Glu Thr Phe Lys Ser Ile Met Lys Lys Ser Pro Phe 245 250 255 Ser Gly Pro Thr Asp Pro Arg Pro Pro Pro Arg Arg Ile Ala Val Pro 260 265 270 Ser Arg Ser Ser Ala Ser Val Pro Lys Pro Ala Pro Gln Pro Tyr Pro 275 280 285 Phe Thr Ser Ser Leu Ser Thr Ile Asn Tyr Asp Glu Phe Pro Thr Met 290 295 300 Val Phe Pro Ser Gly Gln Ile Ser Gln Ala Ser Ala Leu Ala Pro Ala 305 310 315 320 Pro Pro Gln Val Leu Pro Gln Ala Pro Ala Pro Ala Pro Ala Pro Ala 325 330 335 Met Val Ser Ala Leu Ala Gln Ala Pro Ala Pro Val Pro Val Leu Ala 340 345 350 Pro Gly Pro Pro Gln Ala Val Ala Pro Pro Ala Pro Lys Pro Thr Gln 355 360 365 Ala Gly Glu Gly Thr Leu Ser Glu Ala Leu Leu Gln Leu Gln Phe Asp 370 375 380 Asp Glu Asp Leu Gly Ala Leu Leu Gly Asn Ser Thr Asp Pro Ala Val 385 390 395 400 Phe Thr Asp Leu Ala Ser Val Asp Asn Ser Glu Phe Gln Gln Leu Leu 405 410 415 Asn Gln Gly Ile Pro Val Ala Pro His Thr Thr Glu Pro Met Leu Met 420 425 430 Glu Tyr Pro Glu Ala Ile Thr Arg Leu Val Thr Gly Ala Gln Arg Pro 435 440 445 Pro Asp Pro Ala Pro Ala Pro Leu Gly Ala Pro Gly Leu Pro Asn Gly 450 455 460 Leu Leu Ser Gly Asp Glu Asp Phe Ser Ser Ile Ala Asp Met Asp Phe 465 470 475 480 Ser Ala Leu Leu Ala Ser Gly Ser Gly Pro Lys Lys Lys Arg Lys Val 485 490 495 <210> 108 <211> 425 <212> PRT <213> Artificial Sequence <220> <223> Synthetic polypeptide <400> 108 Met Ala Ser Asn Phe Thr Gln Phe Val Leu Val Asp Asn Gly Gly Thr 1 5 10 15 Gly Asp Val Thr Val Ala Pro Ser Asn Phe Ala Asn Gly Val Ala Glu 20 25 30 Trp Ile Ser Ser Asn Ser Arg Ser Gln Ala Tyr Lys Val Thr Cys Ser 35 40 45 Val Arg Gln Ser Ser Ala Gln Lys Arg Lys Tyr Thr Ile Lys Val Glu 50 55 60 Val Pro Lys Val Ala Thr Gln Thr Val Gly Gly Val Glu Leu Pro Val 65 70 75 80 Ala Ala Trp Arg Ser Tyr Leu Asn Met Glu Leu Thr Ile Pro Ile Phe 85 90 95 Ala Thr Asn Ser Asp Cys Glu Leu Ile Val Lys Ala Met Gln Gly Leu 100 105 110 Leu Lys Asp Gly Asn Pro Ile Pro Ser Ala Ile Ala Ala Asn Ser Gly 115 120 125 Ile Tyr Gly Gly Pro Ser Ser Gly Ala Pro Pro Pro Ser Gly Gly Ser 130 135 140 Pro Ala Gly Ser Pro Thr Ser Thr Glu Glu Gly Thr Ser Glu Ser Ala 145 150 155 160 Thr Pro Glu Ser Gly Pro Gly Thr Ser Thr Glu Pro Ser Glu Gly Ser 165 170 175 Ala Pro Gly Ser Pro Ala Gly Ser Pro Thr Ser Thr Glu Glu Gly Thr 180 185 190 Ser Thr Glu Pro Ser Glu Gly Ser Ala Pro Gly Thr Ser Thr Glu Pro 195 200 205 Ser Glu Gly Ser Gly Pro Lys Lys Lys Arg Lys Val Ala Gly Ser Arg 210 215 220 Asp Ser Arg Glu Gly Met Phe Leu Pro Lys Pro Glu Ala Gly Ser Ala 225 230 235 240 Ile Ser Asp Val Phe Glu Gly Arg Glu Val Cys Gln Pro Lys Arg Ile 245 250 255 Arg Pro Phe His Pro Pro Gly Ser Pro Trp Ala Asn Arg Pro Leu Pro 260 265 270 Ala Ser Leu Ala Pro Thr Pro Thr Gly Pro Val His Glu Pro Val Gly 275 280 285 Ser Leu Thr Pro Ala Pro Val Pro Gln Pro Leu Asp Pro Ala Pro Ala 290 295 300 Val Thr Pro Glu Ala Ser His Leu Leu Glu Asp Pro Asp Glu Glu Thr 305 310 315 320 Ser Gln Ala Val Lys Ala Leu Arg Glu Met Ala Asp Thr Val Ile Pro 325 330 335 Gln Lys Glu Glu Ala Ala Ile Cys Gly Gln Met Asp Leu Ser His Pro 340 345 350 Pro Pro Arg Gly His Leu Asp Glu Leu Thr Thr Thr Leu Glu Ser Met 355 360 365 Thr Glu Asp Leu Asn Leu Asp Ser Pro Leu Thr Pro Glu Leu Asn Glu 370 375 380 Ile Leu Asp Thr Phe Leu Asn Asp Glu Cys Leu Leu His Ala Met His 385 390 395 400 Ile Ser Thr Gly Leu Ser Ile Phe Asp Thr Ser Leu Phe Ala Ser Gly 405 410 415 Ser Gly Pro Lys Lys Lys Arg Lys Val 420 425 <210> 109 <211> 692 <212> PRT <213> Artificial Sequence <220> <223> Synthetic polypeptide <400> 109 Met Ala Ser Asn Phe Thr Gln Phe Val Leu Val Asp Asn Gly Gly Thr 1 5 10 15 Gly Asp Val Thr Val Ala Pro Ser Asn Phe Ala Asn Gly Val Ala Glu 20 25 30 Trp Ile Ser Ser Asn Ser Arg Ser Gln Ala Tyr Lys Val Thr Cys Ser 35 40 45 Val Arg Gln Ser Ser Ala Gln Lys Arg Lys Tyr Thr Ile Lys Val Glu 50 55 60 Val Pro Lys Val Ala Thr Gln Thr Val Gly Gly Val Glu Leu Pro Val 65 70 75 80 Ala Ala Trp Arg Ser Tyr Leu Asn Met Glu Leu Thr Ile Pro Ile Phe 85 90 95 Ala Thr Asn Ser Asp Cys Glu Leu Ile Val Lys Ala Met Gln Gly Leu 100 105 110 Leu Lys Asp Gly Asn Pro Ile Pro Ser Ala Ile Ala Ala Asn Ser Gly 115 120 125 Ile Tyr Gly Gly Pro Ser Ser Gly Ala Pro Pro Pro Ser Gly Gly Ser 130 135 140 Pro Ala Gly Ser Pro Thr Ser Thr Glu Glu Gly Thr Ser Glu Ser Ala 145 150 155 160 Thr Pro Glu Ser Gly Pro Gly Thr Ser Thr Glu Pro Ser Glu Gly Ser 165 170 175 Ala Pro Gly Ser Pro Ala Gly Ser Pro Thr Ser Thr Glu Glu Gly Thr 180 185 190 Ser Thr Glu Pro Ser Glu Gly Ser Ala Pro Gly Thr Ser Thr Glu Pro 195 200 205 Ser Glu Gly Ser Gly Pro Lys Lys Lys Arg Lys Val Ala Gly Ser Ser 210 215 220 Gln Tyr Leu Pro Asp Thr Asp Asp Arg His Arg Ile Glu Glu Lys Arg 225 230 235 240 Lys Arg Thr Tyr Glu Thr Phe Lys Ser Ile Met Lys Lys Ser Pro Phe 245 250 255 Ser Gly Pro Thr Asp Pro Arg Pro Pro Pro Arg Arg Ile Ala Val Pro 260 265 270 Ser Arg Ser Ser Ala Ser Val Pro Lys Pro Ala Pro Gln Pro Tyr Pro 275 280 285 Phe Thr Ser Ser Leu Ser Thr Ile Asn Tyr Asp Glu Phe Pro Thr Met 290 295 300 Val Phe Pro Ser Gly Gln Ile Ser Gln Ala Ser Ala Leu Ala Pro Ala 305 310 315 320 Pro Pro Gln Val Leu Pro Gln Ala Pro Ala Pro Ala Pro Ala Pro Ala 325 330 335 Met Val Ser Ala Leu Ala Gln Ala Pro Ala Pro Val Pro Val Leu Ala 340 345 350 Pro Gly Pro Pro Gln Ala Val Ala Pro Pro Ala Pro Lys Pro Thr Gln 355 360 365 Ala Gly Glu Gly Thr Leu Ser Glu Ala Leu Leu Gln Leu Gln Phe Asp 370 375 380 Asp Glu Asp Leu Gly Ala Leu Leu Gly Asn Ser Thr Asp Pro Ala Val 385 390 395 400 Phe Thr Asp Leu Ala Ser Val Asp Asn Ser Glu Phe Gln Gln Leu Leu 405 410 415 Asn Gln Gly Ile Pro Val Ala Pro His Thr Thr Glu Pro Met Leu Met 420 425 430 Glu Tyr Pro Glu Ala Ile Thr Arg Leu Val Thr Gly Ala Gln Arg Pro 435 440 445 Pro Asp Pro Ala Pro Ala Pro Leu Gly Ala Pro Gly Leu Pro Asn Gly 450 455 460 Leu Leu Ser Gly Asp Glu Asp Phe Ser Ser Ile Ala Asp Met Asp Phe 465 470 475 480 Ser Ala Leu Leu Gly Ser Gly Ser Gly Ser Arg Asp Ser Arg Glu Gly 485 490 495 Met Phe Leu Pro Lys Pro Glu Ala Gly Ser Ala Ile Ser Asp Val Phe 500 505 510 Glu Gly Arg Glu Val Cys Gln Pro Lys Arg Ile Arg Pro Phe His Pro 515 520 525 Pro Gly Ser Pro Trp Ala Asn Arg Pro Leu Pro Ala Ser Leu Ala Pro 530 535 540 Thr Pro Thr Gly Pro Val His Glu Pro Val Gly Ser Leu Thr Pro Ala 545 550 555 560 Pro Val Pro Gln Pro Leu Asp Pro Ala Pro Ala Val Thr Pro Glu Ala 565 570 575 Ser His Leu Leu Glu Asp Pro Asp Glu Glu Thr Ser Gln Ala Val Lys 580 585 590 Ala Leu Arg Glu Met Ala Asp Thr Val Ile Pro Gln Lys Glu Glu Ala 595 600 605 Ala Ile Cys Gly Gln Met Asp Leu Ser His Pro Pro Pro Arg Gly His 610 615 620 Leu Asp Glu Leu Thr Thr Thr Leu Glu Ser Met Thr Glu Asp Leu Asn 625 630 635 640 Leu Asp Ser Pro Leu Thr Pro Glu Leu Asn Glu Ile Leu Asp Thr Phe 645 650 655 Leu Asn Asp Glu Cys Leu Leu His Ala Met His Ile Ser Thr Gly Leu 660 665 670 Ser Ile Phe Asp Thr Ser Leu Phe Ala Ser Gly Ser Gly Pro Lys Lys 675 680 685 Lys Arg Lys Val 690 <210> 110 <211> 235 <212> PRT <213> Artificial Sequence <220> <223> Synthetic polypeptide <400> 110 Met Ala Ser Asn Phe Thr Gln Phe Val Leu Val Asp Asn Gly Gly Thr 1 5 10 15 Gly Asp Val Thr Val Ala Pro Ser Asn Phe Ala Asn Gly Val Ala Glu 20 25 30 Trp Ile Ser Ser Asn Ser Arg Ser Gln Ala Tyr Lys Val Thr Cys Ser 35 40 45 Val Arg Gln Ser Ser Ala Gln Lys Arg Lys Tyr Thr Ile Lys Val Glu 50 55 60 Val Pro Lys Val Ala Thr Gln Thr Val Gly Gly Val Glu Leu Pro Val 65 70 75 80 Ala Ala Trp Arg Ser Tyr Leu Asn Met Glu Leu Thr Ile Pro Ile Phe 85 90 95 Ala Thr Asn Ser Asp Cys Glu Leu Ile Val Lys Ala Met Gln Gly Leu 100 105 110 Leu Lys Asp Gly Asn Pro Ile Pro Ser Ala Ile Ala Ala Asn Ser Gly 115 120 125 Ile Tyr Gly Gly Pro Ser Ser Gly Ala Pro Pro Pro Ser Gly Gly Ser 130 135 140 Pro Ala Gly Ser Pro Thr Ser Thr Glu Glu Gly Thr Ser Glu Ser Ala 145 150 155 160 Thr Pro Glu Ser Gly Pro Gly Thr Ser Thr Glu Pro Ser Glu Gly Ser 165 170 175 Ala Pro Gly Ser Pro Ala Gly Ser Pro Thr Ser Thr Glu Glu Gly Thr 180 185 190 Ser Thr Glu Pro Ser Glu Gly Ser Ala Pro Gly Thr Ser Thr Glu Pro 195 200 205 Ser Glu Gly Ser Gly Pro Lys Lys Lys Arg Lys Val Ala Gly Ser Ala 210 215 220 Ser Gly Ser Gly Pro Lys Lys Lys Arg Lys Val 225 230 235 <210> 111 <211> 2132 <212> PRT <213> Artificial Sequence <220> <223> Synthetic polypeptide <400> 111 Met Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val 1 5 10 15 Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe 20 25 30 Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile 35 40 45 Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu 50 55 60 Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys 65 70 75 80 Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser 85 90 95 Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys 100 105 110 His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr 115 120 125 His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp 130 135 140 Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His 145 150 155 160 Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro 165 170 175 Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr 180 185 190 Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala 195 200 205 Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn 210 215 220 Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn 225 230 235 240 Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe 245 250 255 Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp 260 265 270 Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp 275 280 285 Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp 290 295 300 Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser 305 310 315 320 Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys 325 330 335 Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe 340 345 350 Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser 355 360 365 Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp 370 375 380 Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg 385 390 395 400 Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu 405 410 415 Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe 420 425 430 Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile 435 440 445 Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp 450 455 460 Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu 465 470 475 480 Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr 485 490 495 Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser 500 505 510 Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys 515 520 525 Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln 530 535 540 Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr 545 550 555 560 Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp 565 570 575 Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly 580 585 590 Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp 595 600 605 Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr 610 615 620 Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala 625 630 635 640 His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr 645 650 655 Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp 660 665 670 Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe 675 680 685 Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe 690 695 700 Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu 705 710 715 720 His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly 725 730 735 Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly 740 745 750 Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln 755 760 765 Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile 770 775 780 Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro 785 790 795 800 Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu 805 810 815 Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg 820 825 830 Leu Ser Asp Tyr Asp Val Asp Ala Ile Val Pro Gln Ser Phe Leu Lys 835 840 845 Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg 850 855 860 Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys 865 870 875 880 Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys 885 890 895 Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp 900 905 910 Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr 915 920 925 Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp 930 935 940 Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser 945 950 955 960 Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg 965 970 975 Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val 980 985 990 Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe 995 1000 1005 Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala 1010 1015 1020 Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe 1025 1030 1035 Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala 1040 1045 1050 Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu 1055 1060 1065 Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val 1070 1075 1080 Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr 1085 1090 1095 Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys 1100 1105 1110 Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro 1115 1120 1125 Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val 1130 1135 1140 Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys 1145 1150 1155 Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser 1160 1165 1170 Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys 1175 1180 1185 Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu 1190 1195 1200 Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly 1205 1210 1215 Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val 1220 1225 1230 Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser 1235 1240 1245 Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys 1250 1255 1260 His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys 1265 1270 1275 Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala 1280 1285 1290 Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn 1295 1300 1305 Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala 1310 1315 1320 Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser 1325 1330 1335 Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr 1340 1345 1350 Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp 1355 1360 1365 Gly Gly Gly Gly Ser Pro Lys Lys Lys Arg Lys Val Asp Pro Lys 1370 1375 1380 Lys Lys Arg Lys Val Asp Pro Lys Lys Lys Arg Lys Val Gly Ser 1385 1390 1395 Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser 1400 1405 1410 Ser Leu Pro Thr Cys Ser Cys Leu Asp Arg Val Ile Gln Lys Asp 1415 1420 1425 Lys Gly Pro Tyr Tyr Thr His Leu Gly Ala Gly Pro Ser Val Ala 1430 1435 1440 Ala Val Arg Glu Ile Met Glu Asn Arg Tyr Gly Gln Lys Gly Asn 1445 1450 1455 Ala Ile Arg Ile Glu Ile Val Val Tyr Thr Gly Lys Glu Gly Lys 1460 1465 1470 Ser Ser His Gly Cys Pro Ile Ala Lys Trp Val Leu Arg Arg Ser 1475 1480 1485 Ser Asp Glu Glu Lys Val Leu Cys Leu Val Arg Gln Arg Thr Gly 1490 1495 1500 His His Cys Pro Thr Ala Val Met Val Val Leu Ile Met Val Trp 1505 1510 1515 Asp Gly Ile Pro Leu Pro Met Ala Asp Arg Leu Tyr Thr Glu Leu 1520 1525 1530 Thr Glu Asn Leu Lys Ser Tyr Asn Gly His Pro Thr Asp Arg Arg 1535 1540 1545 Cys Thr Leu Asn Glu Asn Arg Thr Cys Thr Cys Gln Gly Ile Asp 1550 1555 1560 Pro Glu Thr Cys Gly Ala Ser Phe Ser Phe Gly Cys Ser Trp Ser 1565 1570 1575 Met Tyr Phe Asn Gly Cys Lys Phe Gly Arg Ser Pro Ser Pro Arg 1580 1585 1590 Arg Phe Arg Ile Asp Pro Ser Ser Pro Leu His Glu Lys Asn Leu 1595 1600 1605 Glu Asp Asn Leu Gln Ser Leu Ala Thr Arg Leu Ala Pro Ile Tyr 1610 1615 1620 Lys Gln Tyr Ala Pro Val Ala Tyr Gln Asn Gln Val Glu Tyr Glu 1625 1630 1635 Asn Val Ala Arg Glu Cys Arg Leu Gly Ser Lys Glu Gly Arg Pro 1640 1645 1650 Phe Ser Gly Val Thr Ala Cys Leu Asp Phe Cys Ala His Pro His 1655 1660 1665 Arg Asp Ile His Asn Met Asn Asn Gly Ser Thr Val Val Cys Thr 1670 1675 1680 Leu Thr Arg Glu Asp Asn Arg Ser Leu Gly Val Ile Pro Gln Asp 1685 1690 1695 Glu Gln Leu His Val Leu Pro Leu Tyr Lys Leu Ser Asp Thr Asp 1700 1705 1710 Glu Phe Gly Ser Lys Glu Gly Met Glu Ala Lys Ile Lys Ser Gly 1715 1720 1725 Ala Ile Glu Val Leu Ala Pro Arg Arg Lys Lys Arg Thr Cys Phe 1730 1735 1740 Thr Gln Pro Val Pro Arg Ser Gly Lys Lys Arg Ala Ala Met Met 1745 1750 1755 Thr Glu Val Leu Ala His Lys Ile Arg Ala Val Glu Lys Lys Pro 1760 1765 1770 Ile Pro Arg Ile Lys Arg Lys Asn Asn Ser Thr Thr Thr Asn Asn 1775 1780 1785 Ser Lys Pro Ser Ser Leu Pro Thr Leu Gly Ser Asn Thr Glu Thr 1790 1795 1800 Val Gln Pro Glu Val Lys Ser Glu Thr Glu Pro His Phe Ile Leu 1805 1810 1815 Lys Ser Ser Asp Asn Thr Lys Thr Tyr Ser Leu Met Pro Ser Ala 1820 1825 1830 Pro His Pro Val Lys Glu Ala Ser Pro Gly Phe Ser Trp Ser Pro 1835 1840 1845 Lys Thr Ala Ser Ala Thr Pro Ala Pro Leu Lys Asn Asp Ala Thr 1850 1855 1860 Ala Ser Cys Gly Phe Ser Glu Arg Ser Ser Thr Pro His Cys Thr 1865 1870 1875 Met Pro Ser Gly Arg Leu Ser Gly Ala Asn Ala Ala Ala Ala Asp 1880 1885 1890 Gly Pro Gly Ile Ser Gln Leu Gly Glu Val Ala Pro Leu Pro Thr 1895 1900 1905 Leu Ser Ala Pro Val Met Glu Pro Leu Ile Asn Ser Glu Pro Ser 1910 1915 1920 Thr Gly Val Thr Glu Pro Leu Thr Pro His Gln Pro Asn His Gln 1925 1930 1935 Pro Ser Phe Leu Thr Ser Pro Gln Asp Leu Ala Ser Ser Pro Met 1940 1945 1950 Glu Glu Asp Glu Gln His Ser Glu Ala Asp Glu Pro Pro Ser Asp 1955 1960 1965 Glu Pro Leu Ser Asp Asp Pro Leu Ser Pro Ala Glu Glu Lys Leu 1970 1975 1980 Pro His Ile Asp Glu Tyr Trp Ser Asp Ser Glu His Ile Phe Leu 1985 1990 1995 Asp Ala Asn Ile Gly Gly Val Ala Ile Ala Pro Ala His Gly Ser 2000 2005 2010 Val Leu Ile Glu Cys Ala Arg Arg Glu Leu His Ala Thr Thr Pro 2015 2020 2025 Val Glu His Pro Asn Arg Asn His Pro Thr Arg Leu Ser Leu Val 2030 2035 2040 Phe Tyr Gln His Lys Asn Leu Asn Lys Pro Gln His Gly Phe Glu 2045 2050 2055 Leu Asn Lys Ile Lys Phe Glu Ala Lys Glu Ala Lys Asn Lys Lys 2060 2065 2070 Met Lys Ala Ser Glu Gln Lys Asp Gln Ala Ala Asn Glu Gly Pro 2075 2080 2085 Glu Gln Ser Ser Glu Val Asn Glu Leu Asn Gln Ile Pro Ser His 2090 2095 2100 Lys Ala Leu Thr Leu Thr His Asp Asn Val Val Thr Val Ser Pro 2105 2110 2115 Tyr Ala Leu Thr His Val Ala Gly Pro Tyr Asn His Trp Val 2120 2125 2130 <210> 112 <211> 2132 <212> PRT <213> Artificial Sequence <220> <223> Synthetic polypeptide <400> 112 Met Ala Leu Pro Thr Cys Ser Cys Leu Asp Arg Val Ile Gln Lys Asp 1 5 10 15 Lys Gly Pro Tyr Tyr Thr His Leu Gly Ala Gly Pro Ser Val Ala Ala 20 25 30 Val Arg Glu Ile Met Glu Asn Arg Tyr Gly Gln Lys Gly Asn Ala Ile 35 40 45 Arg Ile Glu Ile Val Val Tyr Thr Gly Lys Glu Gly Lys Ser Ser His 50 55 60 Gly Cys Pro Ile Ala Lys Trp Val Leu Arg Arg Ser Ser Asp Glu Glu 65 70 75 80 Lys Val Leu Cys Leu Val Arg Gln Arg Thr Gly His His Cys Pro Thr 85 90 95 Ala Val Met Val Val Leu Ile Met Val Trp Asp Gly Ile Pro Leu Pro 100 105 110 Met Ala Asp Arg Leu Tyr Thr Glu Leu Thr Glu Asn Leu Lys Ser Tyr 115 120 125 Asn Gly His Pro Thr Asp Arg Arg Cys Thr Leu Asn Glu Asn Arg Thr 130 135 140 Cys Thr Cys Gln Gly Ile Asp Pro Glu Thr Cys Gly Ala Ser Phe Ser 145 150 155 160 Phe Gly Cys Ser Trp Ser Met Tyr Phe Asn Gly Cys Lys Phe Gly Arg 165 170 175 Ser Pro Ser Pro Arg Arg Phe Arg Ile Asp Pro Ser Ser Pro Leu His 180 185 190 Glu Lys Asn Leu Glu Asp Asn Leu Gln Ser Leu Ala Thr Arg Leu Ala 195 200 205 Pro Ile Tyr Lys Gln Tyr Ala Pro Val Ala Tyr Gln Asn Gln Val Glu 210 215 220 Tyr Glu Asn Val Ala Arg Glu Cys Arg Leu Gly Ser Lys Glu Gly Arg 225 230 235 240 Pro Phe Ser Gly Val Thr Ala Cys Leu Asp Phe Cys Ala His Pro His 245 250 255 Arg Asp Ile His Asn Met Asn Asn Gly Ser Thr Val Val Cys Thr Leu 260 265 270 Thr Arg Glu Asp Asn Arg Ser Leu Gly Val Ile Pro Gln Asp Glu Gln 275 280 285 Leu His Val Leu Pro Leu Tyr Lys Leu Ser Asp Thr Asp Glu Phe Gly 290 295 300 Ser Lys Glu Gly Met Glu Ala Lys Ile Lys Ser Gly Ala Ile Glu Val 305 310 315 320 Leu Ala Pro Arg Arg Lys Lys Arg Thr Cys Phe Thr Gln Pro Val Pro 325 330 335 Arg Ser Gly Lys Lys Arg Ala Ala Met Met Thr Glu Val Leu Ala His 340 345 350 Lys Ile Arg Ala Val Glu Lys Lys Pro Ile Pro Arg Ile Lys Arg Lys 355 360 365 Asn Asn Ser Thr Thr Thr Asn Asn Ser Lys Pro Ser Ser Leu Pro Thr 370 375 380 Leu Gly Ser Asn Thr Glu Thr Val Gln Pro Glu Val Lys Ser Glu Thr 385 390 395 400 Glu Pro His Phe Ile Leu Lys Ser Ser Asp Asn Thr Lys Thr Tyr Ser 405 410 415 Leu Met Pro Ser Ala Pro His Pro Val Lys Glu Ala Ser Pro Gly Phe 420 425 430 Ser Trp Ser Pro Lys Thr Ala Ser Ala Thr Pro Ala Pro Leu Lys Asn 435 440 445 Asp Ala Thr Ala Ser Cys Gly Phe Ser Glu Arg Ser Ser Thr Pro His 450 455 460 Cys Thr Met Pro Ser Gly Arg Leu Ser Gly Ala Asn Ala Ala Ala Ala 465 470 475 480 Asp Gly Pro Gly Ile Ser Gln Leu Gly Glu Val Ala Pro Leu Pro Thr 485 490 495 Leu Ser Ala Pro Val Met Glu Pro Leu Ile Asn Ser Glu Pro Ser Thr 500 505 510 Gly Val Thr Glu Pro Leu Thr Pro His Gln Pro Asn His Gln Pro Ser 515 520 525 Phe Leu Thr Ser Pro Gln Asp Leu Ala Ser Ser Pro Met Glu Glu Asp 530 535 540 Glu Gln His Ser Glu Ala Asp Glu Pro Pro Ser Asp Glu Pro Leu Ser 545 550 555 560 Asp Asp Pro Leu Ser Pro Ala Glu Glu Lys Leu Pro His Ile Asp Glu 565 570 575 Tyr Trp Ser Asp Ser Glu His Ile Phe Leu Asp Ala Asn Ile Gly Gly 580 585 590 Val Ala Ile Ala Pro Ala His Gly Ser Val Leu Ile Glu Cys Ala Arg 595 600 605 Arg Glu Leu His Ala Thr Thr Pro Val Glu His Pro Asn Arg Asn His 610 615 620 Pro Thr Arg Leu Ser Leu Val Phe Tyr Gln His Lys Asn Leu Asn Lys 625 630 635 640 Pro Gln His Gly Phe Glu Leu Asn Lys Ile Lys Phe Glu Ala Lys Glu 645 650 655 Ala Lys Asn Lys Lys Met Lys Ala Ser Glu Gln Lys Asp Gln Ala Ala 660 665 670 Asn Glu Gly Pro Glu Gln Ser Ser Glu Val Asn Glu Leu Asn Gln Ile 675 680 685 Pro Ser His Lys Ala Leu Thr Leu Thr His Asp Asn Val Val Thr Val 690 695 700 Ser Pro Tyr Ala Leu Thr His Val Ala Gly Pro Tyr Asn His Trp Val 705 710 715 720 Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser 725 730 735 Met Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val 740 745 750 Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe 755 760 765 Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile 770 775 780 Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu 785 790 795 800 Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys 805 810 815 Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser 820 825 830 Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys 835 840 845 His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr 850 855 860 His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp 865 870 875 880 Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His 885 890 895 Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro 900 905 910 Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr 915 920 925 Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala 930 935 940 Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn 945 950 955 960 Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn 965 970 975 Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe 980 985 990 Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp 995 1000 1005 Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala 1010 1015 1020 Asp Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu 1025 1030 1035 Ser Asp Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu 1040 1045 1050 Ser Ala Ser Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu 1055 1060 1065 Thr Leu Leu Lys Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr 1070 1075 1080 Lys Glu Ile Phe Phe Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr 1085 1090 1095 Ile Asp Gly Gly Ala Ser Gln Glu Glu Phe Tyr Lys Phe Ile Lys 1100 1105 1110 Pro Ile Leu Glu Lys Met Asp Gly Thr Glu Glu Leu Leu Val Lys 1115 1120 1125 Leu Asn Arg Glu Asp Leu Leu Arg Lys Gln Arg Thr Phe Asp Asn 1130 1135 1140 Gly Ser Ile Pro His Gln Ile His Leu Gly Glu Leu His Ala Ile 1145 1150 1155 Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu Lys Asp Asn Arg 1160 1165 1170 Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro Tyr Tyr Val 1175 1180 1185 Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp Met Thr Arg 1190 1195 1200 Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu Val Val 1205 1210 1215 Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr Asn 1220 1225 1230 Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser 1235 1240 1245 Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val 1250 1255 1260 Lys Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly 1265 1270 1275 Glu Gln Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg 1280 1285 1290 Lys Val Thr Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile 1295 1300 1305 Glu Cys Phe Asp Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe 1310 1315 1320 Asn Ala Ser Leu Gly Thr Tyr His Asp Leu Leu Lys Ile Ile Lys 1325 1330 1335 Asp Lys Asp Phe Leu Asp Asn Glu Glu Asn Glu Asp Ile Leu Glu 1340 1345 1350 Asp Ile Val Leu Thr Leu Thr Leu Phe Glu Asp Arg Glu Met Ile 1355 1360 1365 Glu Glu Arg Leu Lys Thr Tyr Ala His Leu Phe Asp Asp Lys Val 1370 1375 1380 Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr Gly Trp Gly Arg Leu 1385 1390 1395 Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp Lys Gln Ser Gly Lys 1400 1405 1410 Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe Ala Asn Arg Asn 1415 1420 1425 Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe Lys Glu Asp 1430 1435 1440 Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu His Glu 1445 1450 1455 His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly Ile 1460 1465 1470 Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly 1475 1480 1485 Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn 1490 1495 1500 Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys 1505 1510 1515 Arg Ile Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys 1520 1525 1530 Glu His Pro Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr 1535 1540 1545 Leu Tyr Tyr Leu Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu 1550 1555 1560 Leu Asp Ile Asn Arg Leu Ser Asp Tyr Asp Val Asp Ala Ile Val 1565 1570 1575 Pro Gln Ser Phe Leu Lys Asp Asp Ser Ile Asp Asn Lys Val Leu 1580 1585 1590 Thr Arg Ser Asp Lys Asn Arg Gly Lys Ser Asp Asn Val Pro Ser 1595 1600 1605 Glu Glu Val Val Lys Lys Met Lys Asn Tyr Trp Arg Gln Leu Leu 1610 1615 1620 Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe Asp Asn Leu Thr Lys 1625 1630 1635 Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys Ala Gly Phe Ile 1640 1645 1650 Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys His Val Ala 1655 1660 1665 Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu Asn Asp 1670 1675 1680 Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser Lys Leu 1685 1690 1695 Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu 1700 1705 1710 Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val 1715 1720 1725 Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu 1730 1735 1740 Phe Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile 1745 1750 1755 Ala Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe 1760 1765 1770 Phe Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu 1775 1780 1785 Ala Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly 1790 1795 1800 Glu Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr 1805 1810 1815 Val Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys 1820 1825 1830 Thr Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro 1835 1840 1845 Lys Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp 1850 1855 1860 Pro Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser 1865 1870 1875 Val Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu 1880 1885 1890 Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser 1895 1900 1905 Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr 1910 1915 1920 Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser 1925 1930 1935 Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala 1940 1945 1950 Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr 1955 1960 1965 Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly 1970 1975 1980 Ser Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His 1985 1990 1995 Lys His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser 2000 2005 2010 Lys Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser 2015 2020 2025 Ala Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu 2030 2035 2040 Asn Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala 2045 2050 2055 Ala Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr 2060 2065 2070 Ser Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile 2075 2080 2085 Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly 2090 2095 2100 Asp Gly Gly Gly Gly Ser Pro Lys Lys Lys Arg Lys Val Asp Pro 2105 2110 2115 Lys Lys Lys Arg Lys Val Asp Pro Lys Lys Lys Arg Lys Val 2120 2125 2130 <210> 113 <211> 2196 <212> PRT <213> Artificial Sequence <220> <223> Synthetic polypeptide <400> 113 Met Ala Leu Pro Thr Cys Ser Cys Leu Asp Arg Val Ile Gln Lys Asp 1 5 10 15 Lys Gly Pro Tyr Tyr Thr His Leu Gly Ala Gly Pro Ser Val Ala Ala 20 25 30 Val Arg Glu Ile Met Glu Asn Arg Tyr Gly Gln Lys Gly Asn Ala Ile 35 40 45 Arg Ile Glu Ile Val Val Tyr Thr Gly Lys Glu Gly Lys Ser Ser His 50 55 60 Gly Cys Pro Ile Ala Lys Trp Val Leu Arg Arg Ser Ser Asp Glu Glu 65 70 75 80 Lys Val Leu Cys Leu Val Arg Gln Arg Thr Gly His His Cys Pro Thr 85 90 95 Ala Val Met Val Val Leu Ile Met Val Trp Asp Gly Ile Pro Leu Pro 100 105 110 Met Ala Asp Arg Leu Tyr Thr Glu Leu Thr Glu Asn Leu Lys Ser Tyr 115 120 125 Asn Gly His Pro Thr Asp Arg Arg Cys Thr Leu Asn Glu Asn Arg Thr 130 135 140 Cys Thr Cys Gln Gly Ile Asp Pro Glu Thr Cys Gly Ala Ser Phe Ser 145 150 155 160 Phe Gly Cys Ser Trp Ser Met Tyr Phe Asn Gly Cys Lys Phe Gly Arg 165 170 175 Ser Pro Ser Pro Arg Arg Phe Arg Ile Asp Pro Ser Ser Pro Leu His 180 185 190 Glu Lys Asn Leu Glu Asp Asn Leu Gln Ser Leu Ala Thr Arg Leu Ala 195 200 205 Pro Ile Tyr Lys Gln Tyr Ala Pro Val Ala Tyr Gln Asn Gln Val Glu 210 215 220 Tyr Glu Asn Val Ala Arg Glu Cys Arg Leu Gly Ser Lys Glu Gly Arg 225 230 235 240 Pro Phe Ser Gly Val Thr Ala Cys Leu Asp Phe Cys Ala His Pro His 245 250 255 Arg Asp Ile His Asn Met Asn Asn Gly Ser Thr Val Val Cys Thr Leu 260 265 270 Thr Arg Glu Asp Asn Arg Ser Leu Gly Val Ile Pro Gln Asp Glu Gln 275 280 285 Leu His Val Leu Pro Leu Tyr Lys Leu Ser Asp Thr Asp Glu Phe Gly 290 295 300 Ser Lys Glu Gly Met Glu Ala Lys Ile Lys Ser Gly Ala Ile Glu Val 305 310 315 320 Leu Ala Pro Arg Arg Lys Lys Arg Thr Cys Phe Thr Gln Pro Val Pro 325 330 335 Arg Ser Gly Lys Lys Arg Ala Ala Met Met Thr Glu Val Leu Ala His 340 345 350 Lys Ile Arg Ala Val Glu Lys Lys Pro Ile Pro Arg Ile Lys Arg Lys 355 360 365 Asn Asn Ser Thr Thr Thr Asn Asn Ser Lys Pro Ser Ser Leu Pro Thr 370 375 380 Leu Gly Ser Asn Thr Glu Thr Val Gln Pro Glu Val Lys Ser Glu Thr 385 390 395 400 Glu Pro His Phe Ile Leu Lys Ser Ser Asp Asn Thr Lys Thr Tyr Ser 405 410 415 Leu Met Pro Ser Ala Pro His Pro Val Lys Glu Ala Ser Pro Gly Phe 420 425 430 Ser Trp Ser Pro Lys Thr Ala Ser Ala Thr Pro Ala Pro Leu Lys Asn 435 440 445 Asp Ala Thr Ala Ser Cys Gly Phe Ser Glu Arg Ser Ser Thr Pro His 450 455 460 Cys Thr Met Pro Ser Gly Arg Leu Ser Gly Ala Asn Ala Ala Ala Ala 465 470 475 480 Asp Gly Pro Gly Ile Ser Gln Leu Gly Glu Val Ala Pro Leu Pro Thr 485 490 495 Leu Ser Ala Pro Val Met Glu Pro Leu Ile Asn Ser Glu Pro Ser Thr 500 505 510 Gly Val Thr Glu Pro Leu Thr Pro His Gln Pro Asn His Gln Pro Ser 515 520 525 Phe Leu Thr Ser Pro Gln Asp Leu Ala Ser Ser Pro Met Glu Glu Asp 530 535 540 Glu Gln His Ser Glu Ala Asp Glu Pro Pro Ser Asp Glu Pro Leu Ser 545 550 555 560 Asp Asp Pro Leu Ser Pro Ala Glu Glu Lys Leu Pro His Ile Asp Glu 565 570 575 Tyr Trp Ser Asp Ser Glu His Ile Phe Leu Asp Ala Asn Ile Gly Gly 580 585 590 Val Ala Ile Ala Pro Ala His Gly Ser Val Leu Ile Glu Cys Ala Arg 595 600 605 Arg Glu Leu His Ala Thr Thr Pro Val Glu His Pro Asn Arg Asn His 610 615 620 Pro Thr Arg Leu Ser Leu Val Phe Tyr Gln His Lys Asn Leu Asn Lys 625 630 635 640 Pro Gln His Gly Phe Glu Leu Asn Lys Ile Lys Phe Glu Ala Lys Glu 645 650 655 Ala Lys Asn Lys Lys Met Lys Ala Ser Glu Gln Lys Asp Gln Ala Ala 660 665 670 Asn Glu Gly Pro Glu Gln Ser Ser Glu Val Asn Glu Leu Asn Gln Ile 675 680 685 Pro Ser His Lys Ala Leu Thr Leu Thr His Asp Asn Val Val Thr Val 690 695 700 Ser Pro Tyr Ala Leu Thr His Val Ala Gly Pro Tyr Asn His Trp Val 705 710 715 720 Gly Gly Pro Ser Ser Gly Ala Pro Pro Pro Ser Gly Gly Ser Pro Ala 725 730 735 Gly Ser Pro Thr Ser Thr Glu Glu Gly Thr Ser Glu Ser Ala Thr Pro 740 745 750 Glu Ser Gly Pro Gly Thr Ser Thr Glu Pro Ser Glu Gly Ser Ala Pro 755 760 765 Gly Ser Pro Ala Gly Ser Pro Thr Ser Thr Glu Glu Gly Thr Ser Thr 770 775 780 Glu Pro Ser Glu Gly Ser Ala Pro Gly Thr Ser Thr Glu Pro Ser Glu 785 790 795 800 Met Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val 805 810 815 Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe 820 825 830 Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile 835 840 845 Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu 850 855 860 Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys 865 870 875 880 Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser 885 890 895 Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys 900 905 910 His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr 915 920 925 His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp 930 935 940 Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His 945 950 955 960 Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro 965 970 975 Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr 980 985 990 Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala 995 1000 1005 Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu 1010 1015 1020 Asn Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe 1025 1030 1035 Gly Asn Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys 1040 1045 1050 Ser Asn Phe Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys 1055 1060 1065 Asp Thr Tyr Asp Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly 1070 1075 1080 Asp Gln Tyr Ala Asp Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp 1085 1090 1095 Ala Ile Leu Leu Ser Asp Ile Leu Arg Val Asn Thr Glu Ile Thr 1100 1105 1110 Lys Ala Pro Leu Ser Ala Ser Met Ile Lys Arg Tyr Asp Glu His 1115 1120 1125 His Gln Asp Leu Thr Leu Leu Lys Ala Leu Val Arg Gln Gln Leu 1130 1135 1140 Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp Gln Ser Lys Asn Gly 1145 1150 1155 Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln Glu Glu Phe Tyr 1160 1165 1170 Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp Gly Thr Glu Glu 1175 1180 1185 Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys Gln Arg 1190 1195 1200 Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu Gly Glu 1205 1210 1215 Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu 1220 1225 1230 Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile 1235 1240 1245 Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala 1250 1255 1260 Trp Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe 1265 1270 1275 Glu Glu Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu 1280 1285 1290 Arg Met Thr Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu 1295 1300 1305 Pro Lys His Ser Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu 1310 1315 1320 Leu Thr Lys Val Lys Tyr Val Thr Glu Gly Met Arg Lys Pro Ala 1325 1330 1335 Phe Leu Ser Gly Glu Gln Lys Lys Ala Ile Val Asp Leu Leu Phe 1340 1345 1350 Lys Thr Asn Arg Lys Val Thr Val Lys Gln Leu Lys Glu Asp Tyr 1355 1360 1365 Phe Lys Lys Ile Glu Cys Phe Asp Ser Val Glu Ile Ser Gly Val 1370 1375 1380 Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr Tyr His Asp Leu Leu 1385 1390 1395 Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn Glu Glu Asn Glu 1400 1405 1410 Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr Leu Phe Glu Asp 1415 1420 1425 Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala His Leu Phe 1430 1435 1440 Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr Gly 1445 1450 1455 Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp Lys 1460 1465 1470 Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe 1475 1480 1485 Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr 1490 1495 1500 Phe Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp 1505 1510 1515 Ser Leu His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile 1520 1525 1530 Lys Lys Gly Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val 1535 1540 1545 Lys Val Met Gly Arg His Lys Pro Glu Asn Ile Val Ile Glu Met 1550 1555 1560 Ala Arg Glu Asn Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg 1565 1570 1575 Glu Arg Met Lys Arg Ile Glu Glu Gly Ile Lys Glu Leu Gly Ser 1580 1585 1590 Gln Ile Leu Lys Glu His Pro Val Glu Asn Thr Gln Leu Gln Asn 1595 1600 1605 Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly Arg Asp Met Tyr 1610 1615 1620 Val Asp Gln Glu Leu Asp Ile Asn Arg Leu Ser Asp Tyr Asp Val 1625 1630 1635 Asp Ala Ile Val Pro Gln Ser Phe Leu Lys Asp Asp Ser Ile Asp 1640 1645 1650 Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly Lys Ser Asp 1655 1660 1665 Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn Tyr Trp 1670 1675 1680 Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe Asp 1685 1690 1695 Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys 1700 1705 1710 Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr 1715 1720 1725 Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr 1730 1735 1740 Asp Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu 1745 1750 1755 Lys Ser Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr 1760 1765 1770 Lys Val Arg Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr 1775 1780 1785 Leu Asn Ala Val Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys 1790 1795 1800 Leu Glu Ser Glu Phe Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val 1805 1810 1815 Arg Lys Met Ile Ala Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr 1820 1825 1830 Ala Lys Tyr Phe Phe Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr 1835 1840 1845 Glu Ile Thr Leu Ala Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile 1850 1855 1860 Glu Thr Asn Gly Glu Thr Gly Glu Ile Val Trp Asp Lys Gly Arg 1865 1870 1875 Asp Phe Ala Thr Val Arg Lys Val Leu Ser Met Pro Gln Val Asn 1880 1885 1890 Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly Phe Ser Lys Glu 1895 1900 1905 Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys 1910 1915 1920 Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr 1925 1930 1935 Val Ala Tyr Ser Val Leu Val Val Ala Lys Val Glu Lys Gly Lys 1940 1945 1950 Ser Lys Lys Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile 1955 1960 1965 Met Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu 1970 1975 1980 Ala Lys Gly Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu 1985 1990 1995 Pro Lys Tyr Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met 2000 2005 2010 Leu Ala Ser Ala Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu 2015 2020 2025 Pro Ser Lys Tyr Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu 2030 2035 2040 Lys Leu Lys Gly Ser Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe 2045 2050 2055 Val Glu Gln His Lys His Tyr Leu Asp Glu Ile Ile Glu Gln Ile 2060 2065 2070 Ser Glu Phe Ser Lys Arg Val Ile Leu Ala Asp Ala Asn Leu Asp 2075 2080 2085 Lys Val Leu Ser Ala Tyr Asn Lys His Arg Asp Lys Pro Ile Arg 2090 2095 2100 Glu Gln Ala Glu Asn Ile Ile His Leu Phe Thr Leu Thr Asn Leu 2105 2110 2115 Gly Ala Pro Ala Ala Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg 2120 2125 2130 Lys Arg Tyr Thr Ser Thr Lys Glu Val Leu Asp Ala Thr Leu Ile 2135 2140 2145 His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser 2150 2155 2160 Gln Leu Gly Gly Asp Gly Gly Gly Gly Ser Pro Lys Lys Lys Arg 2165 2170 2175 Lys Val Asp Pro Lys Lys Lys Arg Lys Val Asp Pro Lys Lys Lys 2180 2185 2190 Arg Lys Val 2195 <210> 114 <211> 113 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 114 gacgctcaaa tttccgcagt gtttaagagc taagctggaa acagcatagc aagtttaaat 60 aaggctagtc cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt ttt 113 <210> 115 <211> 93 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 115 gtttaagagc taagctggaa acagcatagc aagtttaaat aaggctagtc cgttatcaac 60 ttgaaaaagt ggcaccgagt cggtgctttt ttt 93 <210> 116 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 116 gacgctcaaa tttccgcagt 20 <210> 117 <211> 143 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 117 gtttaagagc taagccaaca tgaggatcac ccatgtctgc agggcatagc aagtttaaat 60 aaggctagtc cgttatcaac ttggccaaca tgaggatcac ccatgtctgc agggccaagt 120 ggcaccgagt cggtgctttt ttt 143 <210> 118 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 118 taatacgact cactatagg 19 <210> 119 <211> 27 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 119 agatcggaag agcacacgtc tgaactc 27 <210> 120 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <400> 120 aucuuaggag uggcuccgg 19

Claims (69)

  1. N-말단으로부터 C-말단까지, 탈메틸화 도메인, XTEN 링커, 및 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소를 포함하는 융합 단백질.
  2. 제1항에 있어서, 탈메틸화 도메인이 TET1 도메인, TET2 도메인, TET3 도메인, 또는 이들 둘 이상의 조합인 융합 단백질.
  3. 제2항에 있어서, 탈메틸화 도메인이 TET1 도메인인 융합 단백질.
  4. 제2항에 있어서, TET1 도메인이 서열 번호:1, 서열 번호:86, 또는 서열 번호:97과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 포함하는 것인 융합 단백질.
  5. 제1항에 있어서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소가 dCas9, dCas12a, dCpf1, Cas-phi, 나선-회전-나선 모티프, 나선-루프-나선 도메인, HMB-박스 도메인, Wor3 도메인, OB-폴드 도메인, 면역글로불린 도메인, 또는 B3 도메인인 융합 단백질.
  6. 제5항에 있어서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소가 dCas9인 융합 단백질.
  7. 제1항에 있어서, XTEN 링커가 약 10개의 아미노산 잔기 내지 약 864개의 아미노산 잔기를 포함하는 것인 융합 단백질.
  8. 제7항에 있어서, XTEN 링커가 서열 번호:5, 서열 번호:6 또는 서열 번호:98과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 포함하는 것인 융합 단백질.
  9. 제1항에 있어서, 에피토프 택, 2A 펩티드, 형광 단백질 택, 핵 국소화 신호 펩티드, 또는 이들 둘 이상의 조합을 추가로 포함하는 융합 단백질.
  10. N-말단으로부터 C-말단까지, RNA-결합 서열, XTEN 링커, 및 적어도 하나의 전사 활성화제를 포함하는 융합 단백질.
  11. 제10항에 있어서, 전사 활성화제가 VP64, p65, Rta, 또는 이들 둘 이상의 조합인 융합 단백질.
  12. 제11항에 있어서, p65가 서열 번호:13, 서열 번호:14, 또는 서열 번호:100과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 포함하는 것인 융합 단백질.
  13. 제11항에 있어서, Rta가 서열 번호:15 또는 서열 번호:16과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 포함하는 것인 융합 단백질.
  14. 제11항에 있어서, VP64가 서열 번호:17 또는 서열 번호:18과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 포함하는 것인 융합 단백질.
  15. 제10항에 있어서, RNA-결합 서열이 MS2 RNA-결합 서열인 융합 단백질.
  16. 제15항에 있어서, MS2 RNA-결합 서열이 서열 번호:21의 아미노산 서열을 포함하는 것인 융합 단백질.
  17. 제10항에 있어서, XTEN 링커가 약 10개의 아미노산 잔기 내지 약 864개의 아미노산 잔기를 포함하는 것인 융합 단백질.
  18. 제10항에 있어서, 서열 번호:104, 서열 번호:105, 서열 번호:106, 서열 번호:107, 서열 번호:108, 서열 번호:109, 또는 서열 번호:110과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 갖는 융합 단백질.
  19. 제10항에 있어서, 에피토프 택, 2A 펩티드, 형광 단백질 택, 핵 국소화 신호 펩티드, 또는 이들 둘 이상의 조합을 추가로 포함하는 융합 단백질.
  20. N-말단으로부터 C-말단까지, 탈메틸화 도메인, 제1 XTEN 링커, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소, 제2 XTEN 링커, 및 전사 활성화제를 포함하는 융합 단백질.
  21. 제20항에 있어서, 전사 활성화제가 VP64, p65, Rta, 또는 이들 둘 이상의 조합인 융합 단백질.
  22. N-말단으로부터 C-말단까지, 탈메틸화 도메인, XTEN 링커, 및 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소를 포함하는 융합 단백질.
  23. 제20항에 있어서, 핵 국소화 서열을 추가로 포함하는 융합 단백질.
  24. 제20항에 있어서, 탈메틸화 도메인이 TET1 도메인, TET2 도메인, TET3 도메인, 또는 이들 둘 이상의 조합인 융합 단백질.
  25. 제24항에 있어서, 탈메틸화 도메인이 TET1 도메인인 융합 단백질.
  26. 제20항에 있어서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소가 dCas9, dCas12a, dCpf1, Cas-phi, 류신 지퍼 도메인, 날개형 나선 도메인, 나선-회전-나선 모티프, 나선-루프-나선 도메인, HMB-박스 도메인, Wor3 도메인, OB-폴드 도메인, 면역글로불린 도메인, 또는 B3 도메인인 융합 단백질.
  27. 제26항에 있어서, 뉴클레아제-결핍 RNA-가이드된 DNA 엔도뉴클레아제 효소가 dCas9인 융합 단백질.
  28. 제20항에 있어서, 제1 XTEN 링커 및 제2 XTEN 링커가 각각 독립적으로 약 10개의 아미노산 잔기 내지 약 864개의 아미노산 잔기를 포함하는 것인 융합 단백질.
  29. 제20항에 있어서, 에피토프 택, 2A 펩티드, 형광 단백질 택, 또는 이들 둘 이상의 조합을 추가로 포함하는 융합 단백질.
  30. 서열 번호:99, 서열 번호:101, 서열 번호:102, 서열 번호:111, 서열 번호:112, 또는 서열 번호:113과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 포함하는 융합 단백질.
  31. 제30항에 있어서, 서열 번호:99, 서열 번호:101, 서열 번호:102, 서열 번호:111, 서열 번호:112, 또는 서열 번호:113과 적어도 95% 서열 동일성을 갖는 아미노산 서열을 포함하는 융합 단백질.
  32. 제31항에 있어서, 서열 번호:99, 서열 번호:101, 서열 번호:102, 서열 번호:111, 서열 번호:112, 또는 서열 번호:113을 포함하는 융합 단백질.
  33. (i) 제1항의 융합 단백질을 인코딩하는 제1 폴리뉴클레오티드를 표적 핵산을 함유하는 세포로 전달하는 단계; 및
    (ii) (a) sgRNA 또는 (b) cr:tracrRNA를 포함하는 제2 폴리뉴클레오티드를 세포로 전달하고;
    이로써 세포에서 표적 핵산 서열을 활성화 또는 재활성화하는 단계
    를 포함하는, 세포에서의 표적 핵산 서열의 활성화 또는 재활성화하는 방법.
  34. 제32항에 있어서, 표적 핵산 서열이 CpG 섬을 포함하는 것인 방법.
  35. 제32항에 있어서, 표적 핵산 서열이 비-CpG 섬을 포함하는 것인 방법.
  36. 제32항에 있어서, 제2 폴리뉴클레오티드가 sgRNA를 포함하는 것인 방법.
  37. 제32항에 있어서, sgRNA가 적어도 하나의 MS2 스템 루프를 포함하는 것인 방법.
  38. 제37항에 있어서, sgRNA가 2개의 MS2 스템 루프를 포함하는 것인 방법.
  39. 제32항에 있어서, 제2 폴리뉴클레오티드가 전사 활성화제를 인코딩하는 것인 방법.
  40. 제39항에 있어서, 전사 활성화제가 VP64, p65, Rta, 또는 이들 둘 이상의 조합인 방법.
  41. 제32항에 있어서, 제2 폴리뉴클레오티드가 MS2 RNA-결합 서열을 추가로 인코딩하는 것인 방법.
  42. 제41항에 있어서, MS2 RNA-결합 서열이 서열 번호:21의 아미노산 서열을 포함하는 것인 방법.
  43. 제32항에 있어서, 제2 폴리뉴클레오티드가 XTEN 링커, 에피토프 택, 2A 펩티드, 형광 단백질 택, 핵 국소화 신호 펩티드, 또는 이들 둘 이상의 조합에 대하여 추가로 인코딩하는 것인 방법.
  44. 제32항에 있어서, 전사 활성화제를 포함하는 제2 융합 단백질을 인코딩하는 제3 폴리뉴클레오티드를 세포로 전달하는 것을 추가로 포함하는 방법.
  45. 제44항에 있어서, 전사 활성화제가 VP64, p65, Rta, 또는 이들 둘 이상의 조합인 방법.
  46. 제44항에 있어서, 제2 융합 단백질이 MS2 RNA-결합 서열을 추가로 포함하는 것인 방법.
  47. 제46항에 있어서, MS2 RNA-결합 서열이 서열 번호:21의 아미노산 서열을 포함하는 것인 방법.
  48. 제44항에 있어서, 제2 융합 단백질이 XTEN 링커, 에피토프 택, 2A 펩티드, 형광 단백질 택, 핵 국소화 신호 펩티드, 또는 이들 둘 이상의 조합을 추가로 포함하는 것인 방법.
  49. N-말단으로부터 C-말단까지, 탈메틸화 도메인, XTEN 링커, 및 뉴클레아제-결핍 DNA 엔도뉴클레아제 효소를 포함하는 융합 단백질.
  50. 제49항에 있어서, 탈메틸화 도메인이 TET1 도메인, TET2 도메인, TET3 도메인, 또는 이들 둘 이상의 조합인 융합 단백질.
  51. 제49항에 있어서, 탈메틸화 도메인이 TET1 도메인인 융합 단백질.
  52. 제51항에 있어서, TET1 도메인이 서열 번호:1, 서열 번호:86, 또는 서열 번호:97과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 포함하는 것인 융합 단백질.
  53. 제49항에 있어서, 뉴클레아제-결핍 DNA 엔도뉴클레아제 효소가 아연 핑거 도메인인 융합 단백질.
  54. 제49항에 있어서, 뉴클레아제-결핍 DNA 엔도뉴클레아제 효소가 TALE인 융합 단백질.
  55. 제49항에 있어서, XTEN 링커가 약 10개의 아미노산 잔기 내지 약 864개의 아미노산 잔기를 포함하는 것인 융합 단백질.
  56. 제55항에 있어서, XTEN 링커가 서열 번호:5, 서열 번호:6 또는 서열 번호:98과 적어도 90% 서열 동일성을 갖는 아미노산 서열을 포함하는 것인 융합 단백질.
  57. 제49항에 있어서, 에피토프 택, 2A 펩티드, 형광 단백질 택, 핵 국소화 신호 펩티드, 또는 이들 둘 이상의 조합을 추가로 포함하는 융합 단백질.
  58. N-말단으로부터 C-말단까지, 탈메틸화 도메인, 제1 XTEN 링커, 뉴클레아제-결핍 DNA 엔도뉴클레아제 효소, 제2 XTEN 링커, 및 전사 활성화제를 포함하는 융합 단백질.
  59. 제58항에 있어서, 전사 활성화제가 VP64, p65, Rta, 또는 이들 둘 이상의 조합인 융합 단백질.
  60. N-말단으로부터 C-말단까지, 탈메틸화 도메인, XTEN 링커, 및 뉴클레아제-결핍 DNA 엔도뉴클레아제 효소를 포함하는 융합 단백질.
  61. 제58항에 있어서, 핵 국소화 서열을 추가로 포함하는 융합 단백질.
  62. 제58항에 있어서, 탈메틸화 도메인이 TET1 도메인, TET2 도메인, TET3 도메인, 또는 이들 둘 이상의 조합인 융합 단백질.
  63. 제62항에 있어서, 탈메틸화 도메인이 TET1 도메인인 융합 단백질.
  64. 제58항에 있어서, 뉴클레아제-결핍 DNA 엔도뉴클레아제 효소가 아연 핑거 도메인인 융합 단백질.
  65. 제58항에 있어서, 뉴클레아제-결핍 DNA 엔도뉴클레아제 효소가 TALE인 융합 단백질.
  66. 제58항에 있어서, 제1 XTEN 링커 및 제2 XTEN 링커가 각각 독립적으로 약 10개의 아미노산 잔기 내지 약 864개의 아미노산 잔기를 포함하는 것인 융합 단백질.
  67. 제58항에 있어서, 에피토프 택, 2A 펩티드, 형광 단백질 택, 또는 이들 둘 이상의 조합을 추가로 포함하는 융합 단백질.
  68. 제58항의 융합 단백질을 인코딩하는 폴리뉴클레오티드를 표적 핵산을 함유하는 세포로 전달하고; 이로써 세포에서 표적 핵산 서열을 활성화 또는 재활성화하는 단계를 포함하는, 세포에서의 표적 핵산 서열의 활성화 또는 재활성화 방법.
  69. 제68항에 있어서, 전사 활성화제가 VP64, p65, Rta, 또는 이들 둘 이상의 조합인 방법.
KR1020237000254A 2020-06-05 2021-06-04 에피게놈 편집을 위한 조성물 및 방법 KR20230021081A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063035431P 2020-06-05 2020-06-05
US63/035,431 2020-06-05
US202063118832P 2020-11-27 2020-11-27
US63/118,832 2020-11-27
PCT/US2021/035937 WO2021248023A2 (en) 2020-06-05 2021-06-04 Compositions and methods for epigenome editing

Publications (1)

Publication Number Publication Date
KR20230021081A true KR20230021081A (ko) 2023-02-13

Family

ID=78831718

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237000254A KR20230021081A (ko) 2020-06-05 2021-06-04 에피게놈 편집을 위한 조성물 및 방법

Country Status (12)

Country Link
US (1) US20230212323A1 (ko)
EP (1) EP4162054A2 (ko)
JP (1) JP2023529844A (ko)
KR (1) KR20230021081A (ko)
CN (1) CN116057180A (ko)
AU (1) AU2021282659A1 (ko)
BR (1) BR112022024747A2 (ko)
CA (1) CA3184882A1 (ko)
GB (1) GB2612466A (ko)
IL (1) IL298605A (ko)
MX (1) MX2022015284A (ko)
WO (1) WO2021248023A2 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113846019B (zh) * 2021-03-05 2023-08-01 海南师范大学 一种海洋微拟球藻靶向表观基因组遗传调控方法
WO2023218021A1 (en) * 2022-05-13 2023-11-16 Integra Therapeutics Use of transposases for improving transgene expression and nuclear localization

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016022363A2 (en) * 2014-07-30 2016-02-11 President And Fellows Of Harvard College Cas9 proteins including ligand-dependent inteins
EP3574102A4 (en) * 2017-01-26 2020-09-30 The Regents of The University of California TARGETED GENE METHYLATION IN PLANTS

Also Published As

Publication number Publication date
US20230212323A1 (en) 2023-07-06
EP4162054A2 (en) 2023-04-12
GB202219608D0 (en) 2023-02-08
IL298605A (en) 2023-01-01
MX2022015284A (es) 2023-01-19
CN116057180A (zh) 2023-05-02
AU2021282659A1 (en) 2023-01-05
CA3184882A1 (en) 2021-12-09
BR112022024747A2 (pt) 2023-03-07
WO2021248023A2 (en) 2021-12-09
WO2021248023A3 (en) 2022-01-27
GB2612466A (en) 2023-05-03
JP2023529844A (ja) 2023-07-12

Similar Documents

Publication Publication Date Title
CN109072235B (zh) 通过核递送crispr/cas9追踪并操纵细胞rna
JP7038079B2 (ja) Crisprハイブリッドdna/rnaポリヌクレオチドおよび使用方法
US20230124253A1 (en) Compositions and Methods for Gene Editing
US10093910B2 (en) Engineered CRISPR-Cas9 nucleases
KR102285485B1 (ko) Rna-가이드된 유전자 조절 및 편집을 위한 직교 cas9 단백질
KR102512979B1 (ko) Rna-가이드된 전사 조절
JP2023529611A (ja) ゲノム編集のための組成物及び方法
Van Houten Nucleotide excision repair in Escherichia coli
KR102602047B1 (ko) Rna-안내 게놈 편집을 위해 특이성을 증가시키기 위한 절단된 안내 rna(tru-grnas)의 이용
WO2017023974A1 (en) Cas9 genome editing and transcriptional regulation
GB2617658A (en) Class II, type V CRISPR systems
KR20230021081A (ko) 에피게놈 편집을 위한 조성물 및 방법
RU2804665C2 (ru) Композиции и способы редактирования генов
CN116724058A (zh) 用于基因编辑的组合物和方法
CN117242184A (zh) 向导RNA设计及用于V型Cas系统的复合物
CN117062912A (zh) 用于基于crispr的转录抑制的融合蛋白