KR20210023832A - 프로그래밍가능한 염기 편집기 시스템을 이용하여 단일염기다형성을 편집하는 방법 - Google Patents
프로그래밍가능한 염기 편집기 시스템을 이용하여 단일염기다형성을 편집하는 방법 Download PDFInfo
- Publication number
- KR20210023832A KR20210023832A KR1020207035000A KR20207035000A KR20210023832A KR 20210023832 A KR20210023832 A KR 20210023832A KR 1020207035000 A KR1020207035000 A KR 1020207035000A KR 20207035000 A KR20207035000 A KR 20207035000A KR 20210023832 A KR20210023832 A KR 20210023832A
- Authority
- KR
- South Korea
- Prior art keywords
- base editor
- polynucleotide
- cell
- domain
- snp
- Prior art date
Links
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61K—PREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
- A61K31/00—Medicinal preparations containing organic active ingredients
- A61K31/70—Carbohydrates; Sugars; Derivatives thereof
- A61K31/7088—Compounds having three or more nucleosides or nucleotides
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61K—PREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
- A61K38/00—Medicinal preparations containing peptides
- A61K38/16—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
- A61K38/43—Enzymes; Proenzymes; Derivatives thereof
- A61K38/46—Hydrolases (3)
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61K—PREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
- A61K38/00—Medicinal preparations containing peptides
- A61K38/16—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
- A61K38/43—Enzymes; Proenzymes; Derivatives thereof
- A61K38/46—Hydrolases (3)
- A61K38/465—Hydrolases (3) acting on ester bonds (3.1), e.g. lipases, ribonucleases
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61K—PREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
- A61K38/00—Medicinal preparations containing peptides
- A61K38/16—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
- A61K38/43—Enzymes; Proenzymes; Derivatives thereof
- A61K38/46—Hydrolases (3)
- A61K38/50—Hydrolases (3) acting on carbon-nitrogen bonds, other than peptide bonds (3.5), e.g. asparaginase
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61K—PREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
- A61K38/00—Medicinal preparations containing peptides
- A61K38/16—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
- A61K38/55—Protease inhibitors
- A61K38/57—Protease inhibitors from animals; from humans
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61K—PREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
- A61K48/00—Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy
- A61K48/0008—Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy characterised by an aspect of the 'non-active' part of the composition delivered, e.g. wherein such 'non-active' part is not delivered simultaneously with the 'active' part of the composition
- A61K48/0025—Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy characterised by an aspect of the 'non-active' part of the composition delivered, e.g. wherein such 'non-active' part is not delivered simultaneously with the 'active' part of the composition wherein the non-active part clearly interacts with the delivered nucleic acid
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61P—SPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
- A61P1/00—Drugs for disorders of the alimentary tract or the digestive system
- A61P1/16—Drugs for disorders of the alimentary tract or the digestive system for liver or gallbladder disorders, e.g. hepatoprotective agents, cholagogues, litholytics
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61P—SPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
- A61P3/00—Drugs for disorders of the metabolism
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K14/00—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
- C07K14/435—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
- C07K14/46—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates
- C07K14/47—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/102—Mutagenizing nucleic acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
- C12N15/111—General methods applicable to biologically active non-coding nucleic acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
- C12N15/113—Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/87—Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
- C12N15/90—Stable introduction of foreign DNA into chromosome
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/87—Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
- C12N15/90—Stable introduction of foreign DNA into chromosome
- C12N15/902—Stable introduction of foreign DNA into chromosome using homologous recombination
- C12N15/907—Stable introduction of foreign DNA into chromosome using homologous recombination in mammalian cells
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N5/00—Undifferentiated human, animal or plant cells, e.g. cell lines; Tissues; Cultivation or maintenance thereof; Culture media therefor
- C12N5/06—Animal cells or tissues; Human cells or tissues
- C12N5/0602—Vertebrate cells
- C12N5/0618—Cells of the nervous system
- C12N5/0619—Neurons
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N5/00—Undifferentiated human, animal or plant cells, e.g. cell lines; Tissues; Cultivation or maintenance thereof; Culture media therefor
- C12N5/06—Animal cells or tissues; Human cells or tissues
- C12N5/0602—Vertebrate cells
- C12N5/067—Hepatocytes
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N9/00—Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
- C12N9/14—Hydrolases (3)
- C12N9/16—Hydrolases (3) acting on ester bonds (3.1)
- C12N9/22—Ribonucleases RNAses, DNAses
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N9/00—Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
- C12N9/14—Hydrolases (3)
- C12N9/78—Hydrolases (3) acting on carbon to nitrogen bonds other than peptide bonds (3.5)
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Y—ENZYMES
- C12Y305/00—Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5)
- C12Y305/04—Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5) in cyclic amidines (3.5.4)
- C12Y305/04004—Adenosine deaminase (3.5.4.4)
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61K—PREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
- A61K48/00—Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy
- A61K48/005—Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy characterised by an aspect of the 'active' part of the composition delivered, i.e. the nucleic acid delivered
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K2319/00—Fusion polypeptide
- C07K2319/80—Fusion polypeptide containing a DNA binding domain, e.g. Lacl or Tet-repressor
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2310/00—Structure or type of the nucleic acid
- C12N2310/10—Type of nucleic acid
- C12N2310/20—Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2320/00—Applications; Uses
- C12N2320/30—Special therapeutic applications
- C12N2320/34—Allele or polymorphism specific uses
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2506/00—Differentiation of animal cells from one lineage to another; Differentiation of pluripotent cells
- C12N2506/45—Differentiation of animal cells from one lineage to another; Differentiation of pluripotent cells from artificially induced pluripotent stem cells
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2800/00—Nucleic acids vectors
- C12N2800/80—Vectors containing sites for inducing double-stranded breaks, e.g. meganuclease restriction sites
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Genetics & Genomics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Organic Chemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biotechnology (AREA)
- Molecular Biology (AREA)
- Biochemistry (AREA)
- Medicinal Chemistry (AREA)
- Microbiology (AREA)
- Veterinary Medicine (AREA)
- Public Health (AREA)
- Animal Behavior & Ethology (AREA)
- Pharmacology & Pharmacy (AREA)
- Biophysics (AREA)
- Plant Pathology (AREA)
- Physics & Mathematics (AREA)
- Gastroenterology & Hepatology (AREA)
- Epidemiology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Immunology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- General Chemical & Material Sciences (AREA)
- Cell Biology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Mycology (AREA)
- Neurology (AREA)
- Diabetes (AREA)
- Hematology (AREA)
- Obesity (AREA)
- Neurosurgery (AREA)
- Toxicology (AREA)
Abstract
가이드 폴리뉴클레오티드와 연계하여 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인 및 핵염기 편집 도메인을 포함하는 염기 편집기를 이용하는 조성물 및 방법이 본 명세서에 제공된다. 또한, 표적 뉴클레오티드 서열의 핵염기를 편집하기 위한 염기 편집기 시스템이 본 명세서에 제공된다.
Description
관련 출원
본 출원은 2018년 8월 11일에 출원된 미국 가출원 제62/670,588호 및 2018년 12월 17일에 출원된 미국 가출원 제62/780,838호, 및 2019년 3월 13일에 출원된 미국 가출원 제62/817,986호에 대한 우선권과 그 이익을 주장하며, 이들 각각은 그 전문이 본 명세서에 참고로 포함된다.
본 개시의 배경
대부분의 알려진 유전성 질병(genetic diseases)의 경우, 질병의 근본 원인을 연구하거나 해결하기 위해, 유전자의 확률론적 파괴보다는, 표적 유전자좌의 점 돌연변이 교정이 필요하다. 일정한 간격을 두고 규칙적으로 분포하는 짧은 회문 반복부(CRISPR; clustered regular interspaced short palindromic repeat) 시스템을 이용하는 현재의 게놈 편집 기술은 유전자 교정의 첫 번째 단계로 표적 유전자좌에서 이중-가닥 DNA 파손(breaks)을 도입한다. 이중-가닥 DNA 파손에 대한 반응으로, 세포 DNA 복구 프로세스는 대부분 비상동 말단 결합(non-homologous end joining)을 통해 DNA 절단 부위에서 무작위 삽입 또는 결실(인델(indels))을 초래한다. 대부분의 유전성 질병은 점 돌연변이로 발생하지만, 점 돌연변이 교정에 대한 현재의 접근 방식은 비효율적이며 일반적으로 dsDNA 파손에 대한 세포 반응으로 인해 표적 유전자좌에서 많은 무작위 삽입 및 결실(인델)을 유도한다. 따라서, 더 효율적이고 확률론적 삽입 또는 결실(인델) 또는 전좌(translocations)와 같은 원치 않는 생성물이 훨씬 적은 개선된 형태의 게놈 편집이 필요하다.
알파-1 항트립신 결핍(A1AD)은 알파-1 항트립신(A1AT) 단백질을 코딩하는 SERPINA1 유전자의 병원성 돌연변이가 이 질병을 앓고 있는 개체의 단백질 생산을 감소시키는 유전성 질병이다. A1AT는 호중구 엘라스타제의 특히 양호한 억제제이며 엘라스틴 분해로부터 폐와 같은 조직과 기관을 보호한다. 결과적으로, A1AD 환자의 폐에 있는 엘라스틴은 호중구 엘라스타제에 의해 더 쉽게 분해되고, 시간이 지남에 따라 폐 탄력성 손실은 만성 폐쇄성 폐 질환(COPD)으로 발전하게 된다. 건강한 개체에서, A1AT는 간 내의 간세포에 의해 생산되며, 이 단백질은 프로테아제 억제제로 기능하는 전신 순환계 내로 분비된다.
가장 흔한 병원성 A1AT 변이체는 SERPINA1 유전자의 구아닌에서 아데닌(G→A)로의 돌연변이이며, A1AT 단백질의 아미노산 342에서 글루타메이트에서 라이신으로의 치환을 초래한다. 이러한 치환은 단백질이 간세포 내에서 미스폴딩되고 중합체화되도록 하며, 궁극적으로, 독성 응집체는 간 손상과 간경변을 야기시킬 수 있다. 간 독성은 잠재적으로 유전자 녹아웃(CRISPR/ZFN/TALEN) 또는 유전자 녹다운(siRNA)에 의해 해결될 수 있지만, 이러한 접근법 중 어느 것도 폐 병리를 해결하지 못한다. 폐 병리가 단백질 대체 요법으로 해결될 수 있지만, 이 요법은 간 독성을 해결하지 못한다. 유전자 치료는 또한 A1AT 유전적 결함을 해결하기에 부적절하다. A1AD 환자의 간은 이미 내인성 A1AT 응집으로 인한 심각한 질병 부담을 안고 있기 때문에, 간에서 A1AT를 증가시키는 유전자 치료는 역효과를 나타낼 것이다. 따라서, A1AD 환자를 치료하는 방법은 이 질병에 수반되는 폐 병리와 간 독성 둘 다를 해결하는 것을 필요로 한다.
참조에 의한 통합
본 명세서에 언급된 모든 간행물, 특허, 및 특허출원은 각각의 개별 간행물, 특허, 또는 특허출원이 구체적으로 또 개별적으로 참조로 포함되는 것으로 표시된 것과 동일한 정도로 본 명세서에 참조로 포함된다. 별도로 특정 다른 표시가 없으면, 본 명세서에 언급된 간행물, 특허, 및 특허 출원은 그 전문이 참조로 본 명세서에 통합된다.
본 개시의 요약
본 명세서에 기재된 바와 같이, 프로그래밍가능한 핵염기 편집기를 이용하여 질병 또는 장애와 관련된 단백질에서 병원성 아미노산에 대한 정밀 교정을 위한 조성물 및 방법이 제공된다. 특정 양상에서, 기재된 조성물 및 방법은 알파-1 항트립신 결핍(A1AD)의 치료에 유용하다. 일 실시형태에서, A1AD를 치료하기 위한 기재된 조성물 및 방법은 내인성(endogenous) SERPINA1 유전자에서 유해한 단일 뉴클레오티드 다형성(SNP)을 정밀하게 교정하기 위해 아데노신(A) 염기 편집기(ABE-(NGC 변이체))를 이용한다. 일 실시형태에서, 조성물 및 방법은 코딩된 알파-1 항트립신(A1AT) 단백질의 활성 및 기능에 영향을 미치는, 유해한 돌연변이인, E342K를 교정한다. 이 교정은 간에서 병원성 단백질 부담을 제거하는 동시에 기능성 단백질을 폐로 복원시킨다.
일 양상에서, 알파 1 항-트립신 결핍(A1AD)과 관련된 단일 뉴클레오티드 다형성(SNP)을 포함하는 SERPINA1 폴리뉴클레오티드를 편집하는 방법이 제공되며, 이 방법은 SERPINA1 폴리뉴클레오티드를 하나 이상의 가이드 폴리뉴클레오티드와의 복합체로 염기 편집기와 접촉시키는 단계를 포함하며, 상기 염기 편집기는 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 및 아데노신 데아미나제 도메인을 함유하고, 하나 이상의 상기 가이드 폴리뉴클레오티드는, A1AD와 관련된, 상기 SERPINA1 중의 A·T에서 G·C로의 변경을 수행하도록 상기 염기 편집기 시스템을 표적화한다. 일 실시형태에서, 이 방법은 세포, 예를 들어, 진핵 세포, 포유류(mammalian) 세포, 또는 인간 세포를 접촉시키는 단계를 포함한다. 또 다른 실시형태에서, 세포는 생체내(in vivo) 또는 생체외(ex vivo)이다.
또 다른 양상에서, 본 발명은 세포 내로, 염기 편집기, 상기 염기 편집기를 코딩하는 폴리뉴클레오티드를 도입하여 생성된 세포, 또는 이의 전구체(progenitor)를 특징으로 하며, 상기 염기 편집기는 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 및 아데노신 데아미나제 도메인; 및 A1AD와 관련된, 유전자, 예를 들어, SERPINA1 유전자 중의 SNP의 A·T에서 G·C로의 변경을 수행하도록 상기 염기 편집기 시스템을 표적화 하는 하나 이상의 가이드 폴리뉴클레오티드를 함유한다. 일 실시형태에서, 생산된 세포는 간세포이다. 또 다른 실시형태에서, 세포 또는 이의 전구체는 배아 줄기 세포, 유도된 만능 줄기 세포(induced pluripotent stem cell), 또는 간세포이다. 또 다른 실시형태에서, 간세포는 A1AT 폴리펩티드를 발현한다. 다른 실시형태에서, 세포는 A1AD를 지니는 대상체로부터 유래된다. 여전히 또 다른 실시형태에서, 세포는 포유류 세포 또는 인간 세포이다.
또 다른 양상에서, 본 발명은 상기 기술된 양상 및 실시형태에 기재된 바와 같은 세포를 이를 필요로 하는 대상체에게 투여하는 단계를 포함하는 대상체에서 A1AD를 치료하는 방법을 특징으로 한다. 일 실시형태에서, 세포는 대상체에 대해 자가발생성(autologous) 또는 동종발생성(allogeneic) 또는 이종발생성(xenogeneic)이다.
또 다른 양상에서, 본 발명은 임의의 상기 기술된 양상의 세포로부터 증식 또는 증대된(expanded) 단리된 세포 또는 세포 집단을 특징으로 한다.
또 다른 양상에서, 본 발명은 대상체에서 A1AD를 치료하는 방법을 특징으로 하며, 이 방법은 이를 필요로 하는 대상체에게 염기 편집기, 또는 상기 염기 편집기를 코딩하는 폴리뉴클레오티드를 투여하는 단계를 포함하며, 상기 염기 편집기는 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 및 아데노신 데아미나제 도메인; 및 A1AD와 관련된 유전자, 예를 들어, SERPINA1 유전자 내의 SNP의 A·T에서 G·C로의 변경을 수행하도록 상기 염기 편집기를 표적화 하는 하나 이상의 가이드 폴리뉴클레오티드를 함유한다. 일 실시형태에서, 대상체는 포유동물 또는 인간이다. 또 다른 실시형태에서, 이 방법은 염기 편집기, 또는 상기 염기 편집기를 코딩하는 폴리뉴클레오티드, 및 상기 하나 이상의 가이드 폴리뉴클레오티드를 상기 대상체의 세포에 전달하는 단계를 포함한다. 또 다른 실시형태에서, 세포는 간세포이다. 또 다른 실시형태에서, 세포는 간세포의 전구체이다. 여전히 또 다른 실시형태에서, 간세포는 돌연변이를 함유하는 A1AT 폴리펩티드를 발현한다.
또 다른 양상에서, 본 발명은 간세포 또는 이의 전구체를 생산하는 방법을 특징으로 하며, 이 방법은, (a) A1AD와 관련된 유전자, 예를 들어, SERPINA1 유전자 중의 SNP를 함유하는 유도 만능 줄기 세포 또는 간세포 전구체 내로, 염기 편집기, 또는 상기 염기 편집기를 코딩하는 폴리뉴클레오티드, 여기서 상기 염기 편집기는 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인 및 아데노신 데아미나제 도메인을 포함하는 것임; 및 하나 이상의 가이드 폴리뉴클레오티드, 여기서 상기 하나 이상의 가이드 폴리뉴클레오티드는 A1AD와 관련된 상기 SNP의 A·T에서 G·C로의 변경을 수행하도록 상기 염기 편집기를 표적화 하는 것임,을 도입하는 단계; 및 (b) 상기 유도된 만능 줄기 세포 또는 간세포 전구 세포를 간세포로 분화시키는 단계를 포함한다. 일 실시형태에서, 이 방법은 유도된 만능 줄기 세포를 간세포 또는 이의 전구 세포로 분화시키는 단계를 포함한다. 또 다른 실시형태에서, 유도된 만능 줄기 세포는 E342K 돌연변이를 포함한다. 또 다른 실시형태에서, 간세포 전구체는 A1AD를 지니는 대상체로부터 수득된다. 여전히 또 다른 실시형태에서, 간세포 또는 간세포 전구체는 포유류 세포 또는 인간 세포이다.
또 다른 양상에서, 기재된 조성물 및 방법에 사용되는 염기 편집기(BE)는 다음 아미노산 서열, (i):
또 다른 양상에서, 본 발명은 하기로부터의 핵산 서열을 포함하는 가이드 RNA (gRNA)를 특징으로 한다:
또 다른 양상에서, 본 발명은 본 명세서에 기술된 임의의 상기 양상 또는 실시형태의 염기 편집기 및 가이드 RNA를 함유하는 단백질 핵산 복합체를 특징으로 한다.
본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, A1AD와 관련된 SNP에서의 A·T에서 G·C로의 변경은 A1AT 폴리펩티드에서 라이신을 글루탐산으로 변화시킨다. 본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, A1AD와 관련된 SNP는 아미노산 위치 342에 라이신을 갖는 A1AT 폴리펩티드의 발현을 초래한다. 또 다른 실시형태에서, 염기 편집기 교정은 A1AD와 관련된 A1AT 폴리펩티드의 위치 342에서 라이신을 글루탐산으로 교체한다. 본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인은 변형된(modified) 스트렙토코커스 피오게네스(Streptococcus pyogenes) Cas9(SpCas9), 또는 이의 변이체이다.
본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, 폴리뉴클레오티드 프로그래밍 가능 DNA 결합 도메인은 변경된(altered) 프로토스페이서-인접 모티프(PAM) 특이성을 갖는 변형된 SpCas9를 함유한다. 본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, 변형된 SpCas9는 핵산 서열 5'-AGC-3'에 대한 특이성을 갖는다. 본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, 변형된 SpCas9는 아미노산 치환 D1332A, 및 D1135M, S1136Q, G1218K, E1219F, D1332A, R1335E, 및 T1337R의 하나 이상, 또는 이들의 상응하는 아미노산 치환을 포함한다. 본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인은 변경된 프로토스페이서-인접 모티프(PAM) 특이성을 갖는 SpCas9의 변이체를 함유한다. 본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, SpCas9의 변이체는 핵산 서열 5'-NGC-3'에 대한 특이성을 갖는다. 본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, 변형된 SpCas9는 아미노산 치환 D1135M, S1136Q, G1218K, E1219F, A1322R, D1332A, R1335E, 및 T1337R, 또는 이들의 상응하는 아미노산 치환을 함유한다. 본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인은 뉴클레아제 비활성 또는 닉카아제 변이체이다. 본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, 닉카아제 변이체는 아미노산 치환 D10A 또는 이의 상응하는 아미노산 치환을 함유한다. 본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, 아데노신 데아미나제 도메인은 데옥시리보핵산(DNA)에서 아데노신을 탈아미노화할 수 있다. 본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, 아데노신 데아미나제는 자연에서 발생하지 않는 변형된 아데노신 데아미나제이다. 본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, 아데노신 데아미나제는 TadA 데아미나제(예를 들어, TadA *7.10)이다. 본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, 상기 하나 이상의 가이드 RNA는 CRISPR RNA(crRNA) 및 트랜스-코딩된 소형 RNA(tracrRNA)를 함유하며, 여기서 상기 crRNA는 A1AD와 관련된 상기 SNP를 함유하는 SERPINA1 핵산 서열에 대해 상보적인 핵산 서열을 함유한다. 상기 양상의 다양한 실시형태에서, 염기 편집기는 A1AD와 관련된 상기 SNP를 함유하는 SERPINA1 핵산 서열에 대해 상보적인 핵산 서열을 함유하는 단일 가이드 RNA(sgRNA)와의 복합체로 있다.
또 다른 양상에서, 본 명세서에서는 유전자 내의 병원성 단일 뉴클레오티드 다형성(SNP)을 교정하기 위한 염기 편집기 시스템이 제공되며, 여기서 상기 염기 편집기 시스템은, (a) (i) 폴리뉴클레오티드-프로그래밍 가능 DNA-결합 도메인, 및 (ii) 병원성 SNP 또는 이의 상보체(complement) 핵염기를 탈아미노화할 수 있는 데아미나제 도메인,을 포함하는 염기 편집기; 및 (b) 폴리뉴클레오티드-프로그래밍가능한 DNA-결합 도메인과 연계(conjunction)하여 가이드 폴리뉴클레오티드, 여기서 상기 가이드 폴리뉴클레오티드는, 적어도 이의 일부가 유전자 또는 이의 역 상보체(reverse complement)에 위치하는 표적 폴리뉴클레오티드 서열에 상기 염기 편집기를 표적화하는 것임,을 포함하고; 상기 병원성 SNP 또는 이의 상보체 핵염기의 탈아미노화는 상기 병원성 SNP를 이의 야생형 대립유전자로의 전환을 초래하며, 그로 인해 병원성 돌연변이, 예컨대, 본 명세서의 표 3A 및 3B에 열거된 것들을 교정한다.
또 다른 양상에서, 본 명세서에서는 유전자 내의 병원성 단일 뉴클레오티드 다형성(SNP)을 교정하는 방법이 제공되며, 이 방법은, 적어도 이의 일부가 상기 유전자 또는 이의 상보체 내에 위치하는 표적 뉴클레오티드 서열을, (i) 염기 편집기를, 적어도 이의 일부가 상기 유전자 또는 이의 역 상보체 내에 위치하는 상기 표적 폴리뉴클레오티드 서열로 표적화하는 가이드 폴리뉴클레오티드와 연계하여 폴리뉴클레오티드-프로그래밍가능한 DNA-결합 도메인, 및 (ii) 병원성 SNP 또는 이의 상보체 핵염기를 탈아미노화할 수 있는 데아미나제 도메인,을 포함하는 염기 편집기와 접촉시키는 단계; 및 상기 표적 뉴클레오티드 서열에 대한 상기 염기 편집기의 표적화시 상기 병원성 SNP 또는 이의 상보체 핵염기를 탈아미노화함으로써 상기 병원성 SNP를 편집하는 단계를 포함하고, 상기 병원성 SNP 또는 이의 상보체 핵염기의 탈아미노화는 상기 병원성 SNP를 이의 야생형 대립유전자로의 전환을 초래하며, 그로 인해 병원성 돌연변이, 예컨대, 본 명세서의 표 3A 또는 표 3B에 열거된 것들을 교정한다.
또 다른 양상에서, 본 명세서에서는 유전자에서 병원성 단일 뉴클레오티드 다형성(SNP)을 교정함으로써 대상체에서 유전성 장애(genetic disorder)를 치료하는 방법이 제공되며, 이 방법은 이를 필요로 하는 대상체에게, 염기 편집기, 또는 상기 염기 편집기를 코딩하는 폴리뉴클레오티드를 투여하는 단계로서, 상기 염기 편집기는 (i) 폴리뉴클레오티드-프로그래밍가능한 DNA-결합 도메인, 및 (ii) 병원성 SNP 또는 이의 상보체 핵염기를 탈아미노화할 수 있는 데아미나제 도메인을 포함하는 것인, 단계; 및 가이드 폴리뉴클레오티드를 대상체에게 투여하는 단계로서, 상기 가이드 폴리뉴클레오티드는, 적어도 이의 일부가 유전자 또는 이의 역 상보체 내에 위치하는 표적 뉴클레오티드 서열에 상기 염기 편집기를 표적화하는 것인, 단계; 및 상기 표적 뉴클레오티드 서열에 대한 상기 염기 편집기의 표적화시 상기 병원성 SNP 또는 이의 상보체 핵염기를 탈아미노화함으로써 상기 병원성 SNP를 편집하는 단계를 포함하고, 상기 병원성 SNP 또는 이의 상보체 핵염기의 탈아미노화는 상기 병원성 SNP를 야생형 대립유전자로의 전환을 초래하고, 그로 인해 병원성 돌연변이, 예컨대 표 3A 또는 3B에 열거된 것들을 교정하고, 상기 유전성 장애를 치료한다.
본 명세서에서는 세포, 조직 또는, 기관의 유전자에서 병원성 단일 염기 다형성(SNP)을 교정하여 이를 필요로 하는 개체의 유전성 장애를 치료하기 위한 세포, 조직 또는 기관을 생산하는 방법을 제공하며, 이 방법은 상기 세포, 조직 또는 기관을 염기 편집기와 접촉시키는 단계로서, 상기 염기 편집기는 (i) 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인, 및 (ii) 병원성 SNP 또는 이의 상보체 핵염기를 탈아미노화할 수 있는 데아미나제 도메인을 포함하는 것인, 단계; 및 상기 세포, 조직 또는 기관을 가이드 폴리뉴클레오티드와 접촉시키는 단계로서, 상기 가이드 폴리뉴클레오티드는, 적어도 이의 일부가 유전자 또는 이의 역 상보체에 위치하는 표적 뉴클레오티드 서열에 상기 염기 편집기를 표적화하는 것인, 단계; 및 상기 표적 뉴클레오티드 서열에 대한 상기 염기 편집기의 표적화시 상기 병원성 SNP 또는 이의 상보체 핵염기를 탈아미노화함으로써 상기 병원성 SNP를 편집하는 단계를 포함하고, 상기 병원성 SNP 또는 이의 상보체 핵염기의 탈아미노화는 상기 병원성 SNP의 야생형 대립유전자로의 전환을 초래하며, 그로 인해 병원성 돌연변이, 예컨대 표 3A 또는 3B에 열거된 것들을 교정하고, 유전성 장애를 치료하기 위한 세포, 조직, 또는 기관을 생산한다. 일부 실시형태에서, 이 방법은 세포, 조직, 또는 기관을 대상체에게 투여하는 단계를 추가로 포함한다. 일부 실시형태에서, 세포, 조직, 또는 기관은 대상체에 대해 자가발생성이다. 일부 실시형태에서, 세포, 조직, 또는 기관은 대상체에 대해 동종발생성이다. 일부 실시형태에서, 세포, 조직, 또는 기관은 대상체에 대해 이종발생성이다
일부 실시형태에서, 병원성 SNP는 스타가르트병(Stargardt disease)과 관련이 있으며; 임의로, 병원성 SNP는 ABCA4 유전자에 있으며; 임의로, 병원성 돌연변이는 A1038V, L541P, G1961E, 또는 이들의 조합을 포함한다. 일부 실시형태에서, 병원성 SNP는 신축성 가황 색 종종(pseudoxanthoma elasticum)과 관련이 있으며; 임의로, 병원성 SNP는 ABCC6 유전자에 있고; 임의로, 병원성 돌연변이는 R1141*을 포함한다. 일부 실시형태에서, 병원성 SNP는 중쇄 아실-CoA 탈수소효소 결핍(medium-chain acyl-CoA dehydrogenase deficiency)과 관련되어 있으며; 임의로, 병원성 SNP는 ACADM 유전자에 있으며; 임의로, 병원성 돌연변이는 K329E를 포함한다. 일부 실시형태에서, 병원성 SNP는 중증 복합 면역결핍(severe combined immunodeficiency)과 관련이 있으며; 임의로, 병원성 SNP는 ADA 유전자에 있고; 임의로, 병원성 돌연변이는 G216R, Q3*, 또는 이들의 조합을 포함한다.
일부 실시형태에서, 병원성 SNP는 원발성 저산소증(primary hypoxaluria)와 관련이 있으며; 임의로, 병원성 SNP는 AGXT 유전자에 있으며; 임의로, 병원성 돌연변이는 G170R을 포함한다. 일부 실시형태에서, 병원성 SNP는 상염색체 열성 고콜레스테롤혈증(dehyautosomal recessive hypercholesterolemia)과 관련이 있으며; 임의로; 임의로, 병원성 SNP는 ARH 유전자에 있고; 임의로, 병원성 돌연변이는 Q136*을 포함한다. 일부 실시형태에서, 병원성 SNP는 이염성백질이영양증(metachromatic leukodystrophy)과 관련이 있으며; 임의로, 병원성 SNP는 ARSA 유전자에 있고; 임의로, 병원성 돌연변이는 P426L, c.459+1G> A, 또는 이들의 조합을 포함한다. 일부 실시형태에서, 병원성 SNP는 마로토-라미 증후군(Marteauz-Lamy Syndrome)(MSPVI)과 관련이 있으며; 임의로, 병원성 SNP는 ARSB 유전자에 있고; 임의로, 병원성 돌연변이는 Y210C를 포함한다. 일부 실시형태에서, 병원성 SNP는 시트룰린혈증(Citrullinemia) 유형 I와 관련이 있으며; 임의로, 병원성 SNP는 ASS 유전자에 있으며; 임의로, 병원성 돌연변이는 G390R을 포함한다. 일부 실시형태에서, 병원성 SNP는 다리어병(Darier disease)과 관련이 있으며; 임의로, 병원성 SNP는 ATP2A2 유전자에 있고; 임의로, 병원성 돌연변이는 N767S를 포함한다.
일부 실시형태에서, 병원성 SNP는 고전적 호모시스테인뇨증(classic homocysteinuria)과 관련이 있으며; 임의로, 병원성 SNP는 CBS 유전자에 있고; 임의로, 병원성 돌연변이는 G307S, T191M, 또는 이들의 조합을 포함한다. 일부 실시형태에서, 병원성 SNP는 낭포성 섬유증(cystic fibrosis)과 관련이 있으며; 임의로, 병원성 SNP는 CFTR 유전자에 있고; 임의로, 병원성 돌연변이는 G551D, W1282*, R553*, R117H, 또는 이들의 조합을 포함한다. 일부 실시형태에서, 병원성 SNP는 맥락막혈증(choroideremia)과 관련이 있으며; 임의로, 병원성 SNP는 CHM 유전자에 있으며; 임의로, 병원성 돌연변이는 R293*, R270*, A117A, 또는 이들의 조합을 포함한다. 일부 실시형태에서, 병원성 SNP는 신경 세로이드 리포푸스신증(NCL; Neuronal ceroid lipofuscinosis)과 관련이 있으며; 임의로, 병원성 SNP는 CLN2 유전자에 있고; 임의로, 병원성 돌연변이는 R208*을 포함한다. 일부 실시형태에서, 병원성 SNP는 상염색체 우성 난청(autosomal dominant deafness)과 관련이 있으며; 임의로, 병원성 SNP는 COCH 유전자에 있고; 임의로, 병원성 돌연변이는 G88E를 포함한다. 일부 실시형태에서, 병원성 SNP는 카르니틴 팔미토일트랜스퍼라제 II 결핍(carnitine palmitoyltransferase II deficiency)과 관련이 있으며; 임의로, 병원성 SNP는 CPT2 유전자에 있고; 임의로, 병원성 돌연변이는 S113L을 포함한다.
일부 실시형태에서, 병원성 SNP는 시스틴축적병(cystinosis)과 관련이 있으며; 임의로, 병원성 SNP는 CTNS 유전자에 있고; 임의로, 병원성 돌연변이는 W138*을 포함한다. 일부 실시형태에서, 병원성 SNP는 상염색체 열성 난청(autosomal recessive deafness)과 관련이 있으며; 임의로, 병원성 SNP는 CX30 유전자에 있으며; 임의로, 병원성 돌연변이는 T5M을 포함한다. 일부 실시형태에서, 병원성 SNP는 상염색체 열성 난청과 관련이 있으며; 임의로, 병원성 SNP는 DFNB59 유전자에 있고; 임의로, 병원성 돌연변이는 R183W를 포함한다. 일부 실시형태에서, 병원성 SNP는 단리된 무감마글로불린혈증(agammaglobulinemia)과 관련이 있으며; 임의로, 병원성 SNP는 E47 유전자에 있고; 임의로, 병원성 돌연변이는 E555K를 포함한다. 일부 실시형태에서, 병원성 SNP는 선천성 인자 XI 결핍(congenital factor XI deficiency)과 관련이 있으며; 임의로, 병원성 SNP는 F11 유전자에 있고; 임의로, 병원성 돌연변이는 E117*, F283L, 또는 이들의 조합을 포함한다. 일부 실시형태에서, 병원성 SNP는 선천성 인자 V 결핍과 관련이 있으며; 임의로, 병원성 SNP는 F5 유전자에 있고; 임의로, 병원성 돌연변이는 R506Q, R534Q, 또는 이들의 조합을 포함한다. 일부 실시형태에서, 병원성 SNP는 선천성 인자 VII 결핍과 관련이 있으며; 임의로, 병원성 SNP는 F7 유전자에 있고; 임의로, 병원성 돌연변이는 A294V, C310F, R304Q, Q100R, 또는 이들의 조합을 포함한다.
일부 실시형태에서, 병원성 SNP는 혈우병(hemophilia) A와 관련이 있으며; 임의로, 병원성 SNP는 F8 유전자에 있고; 임의로, 병원성 돌연변이는 R2169H, R1985Q, R2178C, R550C, 또는 이들의 조합을 포함한다. 일부 실시형태에서, 병원성 SNP는 혈우병 B와 관련이 있으며; 임의로, 병원성 SNP는 F9 유전자에 있고; 임의로, 병원성 돌연변이는 T342M, R294Q, R43Q, R191H, G106S, A279T, R75*, R294*, R379Q, 또는 이들의 조합을 포함한다. 일부 실시형태에서, 병원성 SNP는 티로신혈증(tyrosinemia) 유형 1과 관련이 있으며; 임의로, 병원성 SNP는 FAH 유전자에 있고; 임의로, 병원성 돌연변이는 P261L을 포함한다. 일부 실시형태에서, 병원성 SNP는 상염색체 우성 저인산혈구루병(autosomal dominant hypophosphatemic rickets)과 관련이 있으며; 임의로, 병원성 SNP는 FGF23 유전자에 있으며; 임의로, 병원성 돌연변이는 R176Q를 포함한다.
일부 실시형태에서, 병원성 SNP는 폰 기르케병(von Gierke disease)과 관련이 있으며; 임의로, 병원성 SNP는 G6PC 유전자에 있고; 임의로, 병원성 돌연변이는 Q347*을 포함한다. 일부 실시형태에서, 병원성 SNP는 지중해성 G6PD 결핍(Mediterranean G6PD deficiency)과 관련이 있으며; 임의로, 병원성 SNP는 G6PD 유전자에 있고; 임의로, 병원성 돌연변이는 S188D를 포함한다. 일부 실시형태에서, 병원성 SNP는 모르퀴오 증후군(Morquio Syndrome)(MPSIVA)과 관련이 있으며; 임의로, 병원성 SNP는 GALNS 유전자에 있고; 임의로, 병원성 돌연변이는 R386C를 포함한다. 일부 실시형태에서, 병원성 SNP는 고전적 갈락토스혈증(classic galactosemia)과 관련이 있으며; 임의로, 병원성 SNP는 GALT 유전자에 있고; 임의로, 병원성 돌연변이는 Q188R을 포함한다.
일부 실시형태에서, 병원성 SNP는 고셔병(Gaucher disease)과 관련이 있으며; 임의로, 병원성 SNP는 GBA 유전자에 있고; 임의로, 병원성 돌연변이는 N370S, L444P, 또는 이들의 조합을 포함한다. 일부 실시형태에서, 병원성 SNP는 글루타릴-CoA 탈수소효소 결핍(glutaryl-CoA dehydrogenase deficiency)과 관련이 있으며; 임의로, 병원성 SNP는 GCDH 유전자에 있고; 임의로, 병원성 돌연변이는 R138G, M263V, R402W, 또는 이들의 조합을 포함한다. 일부 실시형태에서, 병원성 SNP는 글라이신뇌병증(glycine encephalopathy)과 관련이 있으며; 임의로, 병원성 SNP는 GLDC 유전자에 있으며; 임의로, 병원성 돌연변이는 A389V, G771R, T269M, 또는 이들의 조합을 포함한다. 일부 실시형태에서, 병원성 SNP는 추체-간체 이영양증(cone-rod dystrophy)과 관련이 있으며; 임의로, 병원성 SNP는 GUCY2D 유전자에 있고; 임의로, 병원성 돌연변이는 R838C를 포함한다. 일부 실시형태에서, 병원성 SNP는 슬라이 증후군(Sly Syndrome)(MPSVII))과 관련이 있으며; 임의로, 병원성 SNP는 GUSB 유전자에 있으며; 임의로, 병원성 돌연변이는 L175F를 포함한다.
일부 실시형태에서, 병원성 SNP는 겸상 적혈구 질환(sickle cell disease)과 관련이 있으며; 임의로, 병원성 SNP는 HBB 유전자에 있으며; 임의로, 병원성 돌연변이는 E26K; E7K; c. -138C>T; IVS2, 654C>T; 또는 이들의 조합을 포함한다. 일부 실시형태에서, 병원성 SNP는 간헐성 포르피린증(intermitent porphyria)과 관련이 있으며; 임의로, 병원성 SNP는 HMBS 유전자에 있고; 임의로, 병원성 돌연변이는 R173W를 포함한다. 일부 실시형태에서, 병원성 SNP는 레쉬-니아 증후군(Lesch-Nyhan syndrome)과 관련이 있으며; 임의로, 병원성 SNP는 HPRT1 유전자에 있고; 임의로, 병원성 돌연변이는 R51*, R170*, 또는 이들의 조합을 포함한다. 일부 실시형태에서, 병원성 SNP는 헌터 증후군(Hunter syndrome)과 관련이 있으며; 임의로, 병원성 SNP는 IDS 유전자에 있고; 임의로, 병원성 돌연변이는 R88C, G374G, 또는 이들의 조합을 포함한다. 일부 실시형태에서, 병원성 SNP는 헐러 증후군(Hurler syndrome)(MPS1)과 관련이 있으며; 임의로, 병원성 SNP는 IDUA 유전자에 있고; 임의로, 병원성 돌연변이는 Q70*을 포함한다.
일부 실시형태에서, 병원성 SNP는 색소성망막염(retinitis pigmentosa)과 관련이 있으며; 임의로, 병원성 SNP는 IMPDH1 유전자에 있으며; 임의로, 병원성 돌연변이는 D226N을 포함한다. 일부 실시형태에서, 병원성 SNP는 안데르센-타윌 증후군(Andersen-Tawil syndrome)과 관련이 있으며; 임의로, 병원성 SNP는 KCNJ2 유전자에 있으며; 임의로, 병원성 돌연변이는 R218W를 포함한다. 일부 실시형태에서, 병원성 SNP는 미스만 상피 각막 이영양증(Meesmann epithelial corneal dystrophy)와 관련이 있으며; 임의로, 병원성 SNP는 KRT12 유전자에 있고; 임의로, 병원성 돌연변이는 L132P를 포함한다. 일부 실시형태에서, 병원성 SNP는 파킨슨병(Parkinson's disease)과 관련이 있으며; 임의로, 병원성 SNP는 LRRK2 유전자에 있으며; 임의로, 병원성 돌연변이는 G2109S를 포함한다. 일부 실시형태에서, 병원성 SNP는 레트 증후군(Rett syndrome)과 관련이 있으며; 임의로, 병원성 SNP는 MECP2 유전자에 있으며; 임의로, 병원성 돌연변이는 R106W, R133C, R306C, R168*, R255*, 또는 이들의 조합을 포함한다. 일부 실시형태에서, 병원성 SNP는 B형 산 필리포 증후군(Sanfilippo syndrome B)(MPSIIIB); 임의로, 병원성 SNP는 NAGLU 유전자에 있고; 임의로, 병원성 돌연변이는 R297*, Y140C, 또는 이들의 조합을 포함한다.
일부 실시형태에서, 병원성 SNP는 CADASIL 증후군(CADASIL syndrome)과 관련이 있으며; 임의로, 병원성 SNP는 NOTCH3 유전자에 있으며; 임의로, 병원성 돌연변이는 R90C, R141C 또는 이들의 조합을 포함한다. 일부 실시형태에서, 병원성 SNP는 블루콘 단색증(blue-cone monochromatism)과 관련이 있으며; 임의로, 병원성 SNP는 OPN1LW 유전자에 있고; 임의로, 병원성 돌연변이는 C203R을 포함한다. 일부 실시형태에서, 병원성 SNP는 페닐케톤뇨증(phenylketonuria)과 관련이 있으며; 임의로, 병원성 SNP는 PAH 유전자에 있고; 임의로, 병원성 돌연변이는 R408W, I65T, R261Q, IVS10-11G>A, 또는 이들의 조합을 포함한다. 일부 실시형태에서, 병원성 SNP는 어셔 증후군 유형 1F(Usher syndrome type 1F)과 관련이 있으며; 임의로, 병원성 SNP는 PCDH15 유전자에 있고; 임의로, 병원성 돌연변이는 R245*를 포함한다. 일부 실시형태에서, 병원성 SNP는 색소성망막염과 관련이 있으며; 임의로, 병원성 SNP는 PDE6A 유전자에 있고; 임의로, 병원성 돌연변이는 V685M, D670G, 또는 이들의 조합을 포함한다.
일부 실시형태에서, 병원성 SNP는 펜드레드 증후군(Pendred syndrome)과 관련이 있으며; 임의로, 병원성 SNP는 PDS 유전자에 있고; 임의로, 병원성 돌연변이는 L236P; 코돈(c.) 1001+1G> A; IVS8, +1G> A, 또는 이들의 조합을 포함한다. 일부 실시형태에서, 병원성 SNP는 반문상 포르피린증(variegate porphyria)과 관련이 있으며; 임의로, 병원성 SNP는 PPOX 유전자에 있고; 임의로, 병원성 돌연변이는 R59W를 포함한다. 일부 실시형태에서, 병원성 SNP는 신경 세로이드 리포푸스신증 1과 관련이 있으며; 임의로, 병원성 SNP는 PPT1 유전자에 있으며; 임의로, 병원성 돌연변이는 R151*을 포함한다. 일부 실시형태에서, 병원성 SNP는 크로이츠펠트-야콥병(Creutzfeldt-Jakob disease)(CJD)과 관련이 있으며; 임의로, 병원성 SNP는 PRNP 유전자에 있으며; 임의로, 병원성 돌연변이는 M129V, P102L, D178N, 또는 이들의 조합을 포함한다. 일부 실시형태에서, 병원성 SNP는 색소성망막염과 관련이 있으며; 임의로, 병원성 SNP는 PRPF3 유전자에 있고; 임의로, 병원성 돌연변이는 T494M을 포함한다. 일부 실시형태에서, 병원성 SNP는 색소성망막염과 관련이 있으며; 임의로, 병원성 SNP는 PRPF8 유전자에 있고; 임의로, 병원성 돌연변이는 H2309R을 포함한다.
일부 실시형태에서, 병원성 SNP는 유전성 만성 췌장염(hereditary chronic pancreatitis)과 관련이 있으며; 임의로, 병원성 SNP는 PRSS1 유전자에 있고; 임의로, 병원성 돌연변이는 R122H를 포함한다. 일부 실시형태에서, 병원성 SNP는 색소성망막염과 관련이 있으며; 임의로, 병원성 SNP는 RHO 유전자에 있고; 임의로, 병원성 돌연변이는 P347L, D190N, 또는 이들의 조합을 포함한다. 일부 실시형태에서, 병원성 SNP는 색소성망막염과 관련이 있으며; 임의로, 병원성 SNP는 RP1 유전자에 있고; 임의로, 병원성 돌연변이는 R667 *을 포함한다. 일부 실시형태에서, 병원성 SNP는 레베르선천성흑암시(Leber congenital amaurosis) 2와 관련이 있으며; 임의로, 병원성 SNP는 RPE65 유전자에 있고; 임의로, 병원성 돌연변이는 R44*; IVS1, G-A, +5; 또는 이들의 조합을 포함한다. 일부 실시형태에서, 병원성 SNP는 블랙판-다이아몬드 빈혈(Blackfan-Diamond anemia)과 관련이 있으며; 임의로, 병원성 SNP는 RPS19 유전자에 있으며; 임의로, 병원성 돌연변이는 R62Q를 포함한다.
일부 실시형태에서, 병원성 SNP는 X-연관 망막분열증(X-linked retinoschisis)과 관련이 있으며; 임의로, 병원성 SNP는 레티노스키신(retinoschisin)(RS1) 유전자에 있고; 임의로, 병원성 돌연변이는 R102W, R141C, 또는 이들의 조합을 포함한다. 일부 실시형태에서, 병원성 SNP는 A1AD와 관련이 있으며; 임의로, 병원성 SNP는 SERPINA1 유전자에 있으며; 임의로, 병원성 돌연변이는 E342K, R48C(R79C), 또는 이들의 조합을 포함한다. 일부 실시형태에서, 병원성 SNP는 A형 산필리포 증후군(MPSIIIA); 임의로, 병원성 SNP는 SGSH 유전자에 있으며; 임의로, 병원성 돌연변이는 R74C를 포함한다. 일부 실시형태에서, 병원성 SNP는 니만-픽병 타입 A(Neimann-Pick disease type A)와 관련이 있으며; 임의로, 병원성 SNP는 SMPD1 유전자에 있고; 임의로, 병원성 돌연변이는 L302P를 포함한다.
일부 실시형태에서, 병원성 SNP는 상염색체 우성 파킨슨병(autosomal dominant Parkinson's disease)과 관련이 있으며; 임의로, 병원성 SNP는 SNCA 유전자에 있고; 임의로, 병원성 돌연변이는 A53T를 포함한다. 일부 실시형태에서, 병원성 SNP는 가족성 근위축성 측삭경화증(familial amyotrophic lateral sclerosis)(ALS)과 관련이 있으며; 임의로, 병원성 SNP는 슈퍼옥사이드 디스뮤타제 1(SOD1) 유전자에 있으며; 임의로, 병원성 돌연변이는 A4V, H46R, G37R, 또는 이들의 조합을 포함한다. 일부 실시형태에서, 병원성 SNP는 상염색체 우성 난청과 관련이 있으며; 임의로, 병원성 SNP는 TECTA 유전자에 있고; 임의로, 병원성 돌연변이는 Y1870C를 포함한다. 일부 실시형태에서, 병원성 SNP는 상염색체 열성 난청과 관련이 있으며; 임의로, 병원성 SNP는 TMC1 유전자에 있으며; 임의로, 병원성 돌연변이는 Y182C를 포함한다. 일부 실시형태에서, 병원성 SNP는 ATTR 아밀로이드증(amyloidosis)과 관련이 있으며; 임의로, 병원성 SNP는 TTR 유전자에 있고; 임의로, 병원성 돌연변이는 V50M/V30M을 포함한다. 일부 실시형태에서, 병원성 SNP는 색소성망막염/어셔 증후군 유형 1C(Usher syndrome type 1C)와 관련이 있으며; 임의로, 병원성 SNP는 USH1C 유전자에 있으며; 임의로, 병원성 돌연변이는 V72V를 포함한다.
일부 실시형태에서, 병원성 SNP는 색소성망막염과 관련이 있으며; 선택적으로 병원성 SNP는 USH2a 유전자에 있고; 임의로, 병원성 돌연변이는 C759F를 포함한다. 일부 실시형태에서, 병원성 SNP는 근세관성근증(myotubular myopathy)과 관련이 있으며; 선택적으로 병원성 SNP는 MTM1 유전자에 있고; 임의로, 병원성 돌연변이는 c. 1261-10A>G를 포함한다.
일부 실시형태에서, 본 명세서에 제공된 임의의 염기 편집기 시스템 또는 방법은 추가 핵염기의 편집을 위한 제2 가이드 폴리뉴클레오티드를 추가로 포함할 수 있다. 일부 실시형태에서, 추가 핵염기는 유전자에 위치하지 않는다. 일부 실시형태에서, 추가 핵염기는 유전자에 위치한다. 일부 실시형태에서, 추가 핵염기는 단백질 코딩 영역에 위치한다. 일부 실시형태에서, 추가 핵염기는 단백질 비-코딩 영역에 위치한다. 일부 실시형태에서, 단백질 비-코딩 영역은 유전자 조절 요소이다. 일부 실시형태에서, 데아미나제 도메인은 시티딘 데아미나제 도메인 또는 아데노신 데아미나제 도메인이다. 일부 실시형태에서, 데아미나제 도메인은 시티딘 데아미나제 도메인이다. 일부 실시형태에서, 데아미나제 도메인은 아데노신 데아미나제 도메인이다. 일부 실시형태에서, 아데노신 데아미나제 도메인은 데옥시리보핵산(DNA)에서 아데닌을 탈아미노화할 수 있다. 일부 실시형태에서, 가이드 폴리뉴클레오티드는 리보핵산(RNA), 또는 데옥시리보핵산(DNA)을 포함한다. 일부 실시형태에서, 가이드 폴리뉴클레오티드는 CRISPR RNA(crRNA) 서열, 트랜스-활성화 CRISPR RNA(tracrRNA) 서열, 또는 이들의 조합을 포함한다.
일부 실시형태에서, 본 명세서에 제공된 임의의 염기 편집기 시스템 또는 방법은 제2 가이드 폴리뉴클레오티드를 추가로 포함한다. 일부 실시형태에서, 제2 가이드 폴리뉴클레오티드는 리보핵산(RNA) 또는 데옥시리보핵산(DNA)을 포함한다. 일부 실시형태에서, 제2 가이드 폴리뉴클레오티드는 CRISPR RNA(crRNA) 서열, 트랜스-활성화 CRISPR RNA(tracrRNA) 서열, 또는 이들의 조합을 포함한다. 일부 실시형태에서, 제2 가이드 폴리뉴클레오티드는 염기 편집기를 제2 표적 뉴클레오티드 서열에 표적화한다.
일부 실시형태에서, 본 명세서에 제공된 임의의 염기 편집기 시스템 또는 방법에서, 폴리뉴클레오티드-프로그래밍가능한 DNA-결합 도메인은 Cas9 도메인, Cpf1 도메인, CasX 도메인, CasY 도메인, Cas12b/C2c1 도메인 또는 Cas12c/C2c3 도메인을 포함한다. 일부 실시형태에서, 폴리뉴클레오티드-프로그래밍가능한 DNA-결합 도메인은 뉴클레아제 멸실된(nuclease dead) 것이다. 일부 실시형태에서, 폴리뉴클레오티드-프로그래밍가능한 DNA-결합 도메인은 닉카아제이다. 일부 실시형태에서, 폴리뉴클레오티드-프로그래밍가능한 DNA-결합 도메인은 Cas9 도메인을 포함한다. 일부 실시형태에서, Cas9 도메인은 뉴클레아제 멸실된 Cas9(dCas9), Cas9 닉카아제(nCas9), 또는 뉴클레아제 활성 Cas9를 포함한다. 일부 실시형태에서, Cas9 도메인은 Cas9 닉카아제를 포함한다. 일부 실시형태에서, 폴리뉴클레오티드-프로그래밍가능한 DNA-결합 도메인은 조작되거나 변형된 폴리뉴클레오티드-프로그래밍가능한 DNA-결합 도메인이다.
일부 실시형태에서, 본 명세서에 제공된 임의의 염기 편집기 시스템 또는 방법은 제2 염기 편집기를 추가로 포함할 수 있다. 일부 실시형태에서, 제2 염기 편집기는 상기 염기 편집기와 다른 데아미나제 도메인을 포함한다.
일부 실시형태에서, 본 명세서에 제공된 임의의 방법에서, 염기 편집은 20 % 미만의 인델 형성을 초래한다. 일부 실시형태에서, 편집은 15 % 미만의 인델 형성을 초래한다. 일부 실시형태에서, 편집은 10 % 미만의 인델 형성을 초래한다. 일부 실시형태에서, 편집은 5 % 미만의 인델 형성을 초래한다. 일부 실시형태에서, 편집은 4 % 미만의 인델 형성을 초래한다. 일부 실시형태에서, 편집은 3 % 미만의 인델 형성을 초래한다. 일부 실시형태에서, 편집은 2 % 미만의 인델 형성을 초래한다. 일부 실시형태에서, 편집은 1 % 미만의 인델 형성을 초래한다. 일부 실시형태에서, 편집은 0.5 % 미만의 인델 형성을 초래한다. 일부 실시형태에서, 편집은 0.1 % 미만의 인델 형성을 초래한다. 일부 실시형태에서, 편집은 전좌를 초래하지 않는다.
일 양상에서, 본 발명은 글리코겐 저장 장애(glycogen storage disorder) 유형 1a (GSD1a)와 관련된 단일 뉴클레오티드 다형성(SNP)을 포함하는 G6PC 폴리뉴클레오티드를 편집하는 방법을 제공하며, 이 방법은 G6PC 폴리뉴클레오티드를 하나 이상의 가이드 폴리뉴클레오티드와의 복합체로 상기 염기 편집기와 접촉시키는 단계를 포함하며, 여기서 상기 염기 편집기는 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 및 아데노신 데아미나제 도메인을 포함하고, 여기서 하나 이상의 상기 가이드 폴리뉴클레오티드는 GSD1a와 관련된 상기 SNP의 A·T에서 G·C로의 변경을 수행하도록 상기 염기 편집기를 표적화 한다. 일 실시형태에서, 글리코겐 저장 장애 유형 1a(GSD1a)와 관련된 상기 SNP에서 A·T에서 G·C로의 변경은 글루타민(Q)을 비-글루타민(X) 아미노산으로 변화시킨다. 본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, 글리코겐 저장 장애 유형 1a(GSD1a)와 관련된 상기 SNP에서의 A·T에서 G·C로의 변경은 G6PC 폴리펩티드에서 아르기닌(R)을 비-아르기닌(X) 으로 변화시킨다.
본 명세서에 기술된 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, GSD1a와 관련된 SNP는 위치 347에 비-글루타민(X) 아미노산 또는 위치 83에 비-아르기닌(X) 아미노산을 갖는 G6PC 폴리펩티드의 발현을 초래한다. 일 실시형태에서, 염기 편집기 교정은 위치 347에서 글루타민을 비-글루타민 아미노산(X)으로 교체한다. 또 다른 실시형태에서, 염기 편집기 교정은 위치 83에서 아르기닌을 비-아르기닌 아미노산(X)으로 교체한다.
본 명세서에 기술된 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인은 변형된 스트렙토코커스 피오게네스 Cas9(SpCas9), 또는 이의 변이체이다. 본 명세서에 기술된 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인은 변경된 프로토스페이서-인접 모티프(PAM) 특이성을 갖는 변형된 SpCas9를 포함한다. 일 실시형태에서, 변형된 SpCas9는 핵산 서열 5'-NGA-3' 또는 5'-NGG-3'에 대한 특이성을 갖는다. 본 명세서에 기술된 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, 아데노신 데아미나제는 ABE7.10이다.
일 양상에서, 세포는 하기를 세포 또는 이의 전구체 내로 도입함으로써 생산된다: 상기 세포에 대한, 염기 편집기, 상기 염기 편집기를 코딩하는 폴리뉴클레오티드, 여기서 상기 염기 편집기는 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 및 아데노신 데아미나제 도메인; 및 글리코겐 저장 장애 유형 1a(GSD1a)와 관련된 SNP의 A·T에서 G·C로의 변경을 수행하도록 상기 염기 편집기를 표적화 하는 하나 이상의 가이드 폴리뉴클레오티드. 본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, 세포는 간세포, 간세포 전구체, 또는 iPSc-유래 간세포이다.
본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, 세포는 GSD1a를 지니는 대상체로부터 유래된다. 본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, 세포는 Q347X 돌연변이를 내포한다. 본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, GSD1a와 관련된 SNP에서의 A·T에서 G·C로의 변경은 글루타민을 비-글루타민(X) 아미노산으로 변경한다. 본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, GSD1a와 관련된 SNP에서의 A·T에서 G·C로의 변경은 G6PC 폴리펩티드에서 아르기닌을 비-아르기닌(X) 아미노산으로 변화시킨다. 본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, GSD1a와 관련된 SNP는 위치 347에 비-글루타민(X) 아미노산 또는 위치 83에 비-아르기닌(X) 아미노산을 갖는 G6PC 폴리펩티드의 발현을 초래한다.
일 양상에서, 본 발명은 이를 필요로 하는 대상체에서 글리코겐 저장 장애 유형 1a(GSD1a) 또는 폰 기르케병을 치료하는 방법을 제공하며, 이 방법은 본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태의 세포를 대상체에게 투여하는 단계를 포함한다.
또 다른 양상에서, 본 발명은 간세포, 또는 이의 전구체를 생산하는 방법을 제공하며, 이 방법은 (a) GSD1a와 관련된 SNP를 포함하는 유도된 만능 줄기 세포 또는 간세포 전구체 내로, 염기 편집기, 또는 상기 염기 편집기를 코딩하는 폴리뉴클레오티드, 여기서 상기 염기 편집기는 폴리뉴클레오티드-프로그래밍가능한 뉴클레오티드-결합 도메인 및 아데노신 데아미나제 도메인을 포함하는 것임; 및 하나 이상의 가이드 폴리뉴클레오티드, 여기서 상기 하나 이상의 가이드 폴리뉴클레오티드는 GSD1a와 관련된 SNP의 A·T에서 G·C로의 변경을 수행하도록 상기 염기 편집기를 표적화하는 것임,을 도입하는 단계; 및 (b) 상기 유도된 만능 줄기 세포 또는 간세포 전구체를 간세포로 분화시키는 단계를 포함한다. 추가 양상에서, 이 방법은 유도된 만능 줄기 세포를 간세포 또는 이의 전구체로 분화시키는 단계를 포함한다. 다양한 실시형태에서, 단계 (a)의 유도된 만능 줄기 세포는 Q347X 돌연변이를 포함한다.
본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, 간세포 전구체는 GSD1a를 지니는 대상체로부터 수득된다. 다양한 실시형태에서, 간세포 또는 간세포 전구체는 포유류 세포 또는 인간 세포이다. 본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, GSD1a와 관련된 SNP에서의 A·T에서 G·C로의 변경은 G6PC 폴리펩티드에서 글루타민을 비-글루타민(X) 아미노산으로 변화시키거나, 아르기닌을 비-아르기닌(X) 아미노산으로 변화시킨다. 다양한 실시형태에서, GSD1a와 관련된 SNP는 위치 347에 비-글루타민(X) 아미노산을 갖는 G6PC 폴리펩티드의 발현을 초래한다. 다양한 실시형태에서, GSD1a와 관련된 SNP는 위치 83에 비-아르기닌(X) 아미노산을 갖는 G6PC 폴리펩티드의 발현을 초래한다. 다양한 실시형태에서, GSD1a와 관련된 SNP는 글루타민을 비-글루타민(X) 아미노산으로 치환한다. 다양한 실시형태에서, GSD1a와 관련된 SNP는 아르기닌을 비-아르기닌(X) 아미노산으로 치환한다. 본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, 세포는 GSD1a와 관련된 SNP의 A·T에서 G·C로의 변경을 위해 선택된다.
일 양상에서, 본 발명은 점액다당류증 유형 1(MPS1)과 관련된 단일 뉴클레오티드 다형성(SNP)을 포함하는 IDUA 폴리뉴클레오티드를 편집하는 방법을 제공하며, 이 방법은 IDUA 폴리뉴클레오티드를 하나 이상의 가이드 폴리뉴클레오티드와의 복합체로 염기 편집기와 접촉시키는 단계를 포함하며, 여기서 상기 염기 편집기는 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 및 아데노신 데아미나제 도메인을 포함하고, 여기서 하나 이상의 상기 가이드 폴리뉴클레오티드는 MPS1과 관련된 상기 SNP의 A·T에서 G·C로의 변경을 수행하도록 상기 염기 편집기를 표적화 한다. 일 실시형태에서, 상기 폴리뉴클레오티드-프로그래밍가능한 DNA 결합 도메인은 변형된 스트렙토코커스 피오게네스 Cas9(SpCas9), 또는 이의 변이체이다. 추가 실시형태에서, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인은 변경된 프로토스페이서-인접 모티프(PAM) 특이성을 갖는 변형된 SpCas9를 포함한다. 본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, 변형된 SpCas9는 핵산 서열 5'-NGG-3'에 대한 특이성을 갖는다. 본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, 아데노신 데아미나제는 ABE7.10이다. 다양한 실시형태에서, 가이드 폴리뉴클레오티드는 인간 핵산 서열 ACTCTaGGCAGAGGTCTCAA AGG를 포함한다. 다양한 실시형태에서, 가이드 폴리뉴클레오티드는 마우스 핵산 서열 GCTCTaGGCCGAAGTGTCGC AGG를 포함한다.
일 양상에서, 세포는 하기를 상기 세포, 또는 이의 전구체 내로 도입함으로써 생산된다: 염기 편집기, 상기 염기 편집기를 코딩하는 폴리뉴클레오티드, 여기서 상기 염기 편집기는 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 및 아데노신 데아미나제 도메인을 포함하는 것임; 및 점액다당류증 유형 1(MPS1)과 관련된 SNP의 A·T에서 G·C로의 변경을 수행하도록 상기 염기 편집기를 표적화 하는 하나 이상의 가이드 폴리뉴클레오티드. 다양한 실시형태에서, 세포는 줄기 세포, 줄기 세포 전구체, 또는 유도된 만능 줄기 세포(iPSC)이다. 본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태에서, 세포는 MPS1을 지니는 대상체로부터 유래된다.
또 다른 양상에서, 본 발명은 이를 필요로 하는 대상체에서 MPS1을 치료하는 방법을 제공하며, 이 방법은 상기 대상체에게 본 명세서에 기술된 본 발명의 상기 양상 또는 임의의 다른 양상의 다양한 실시형태의 세포를 투여하는 단계를 포함한다.
본 개시의 특징은 첨부된 청구항에서 구체적으로 설명된다. 본 개시의 원리가 이용되는, 예시적인 실시형태를 제시하는 다음의 상세한 설명 및 첨부 도면을 참조하여 본 발명의 특징 및 이점에 대한 더 나은 이해를 얻을 수 있다:
도 1은 건강한 대상체와 항트립신 결핍(A1AD)이 있는 환자를 비교하는 개략도이다. 건강한 대상체에서 알파-1 항트립신(A1AT)은 프로테아제 손상으로부터 폐를 보호하고 간은 알파-1 항트립신을 혈액으로 방출한다. A1AD가 있는 환자에서 정상적으로 기능하는 A1AT 단백질의 결핍은 폐 조직 손상을 야기한다. 또한 간세포에 비정상적인 A1AT의 축적은 간경변을 야기한다.
도 2는 다양한 유전자형(정상(MM), 알파-1 항트립신 결핍의 이형접합(MZ, SZ) 보인자 및 동형접합(SS, ZZ) 결핍에 대한 알파-1 항트립신(A1AT) 혈청 수준의 전형적인 범위를 보여준다. 알파-1 항트립신(AAT) 혈청 농도는 왼쪽 "y" 축에서 μM로 표시되며, 이는 문헌에서 일반적이다. 오른쪽 "y" 축은 일반적으로 임상 실험실 및 다양한 측정 기술(비탁측정법(nephelometry) 또는 방사 면역확산)에 의해 보고된 바와 같이, 혈청 AAT 농도를 ㎎/dL 단위로 어림 환산한 것을 보여준다.
도 3a 내지 3c는 염기 편집 표적 서열, 및 A1AT 단백질을 코딩하는 SERPINA1 유전자 내의 병원성 돌연변이의 정밀 교정과 관련된 그래프를 나타낸다. 도 3a는 A1AT를 코딩하는 SERPINA1 유전자의 돌연변이에 대한 정밀 교정 염기 편집 전략을 보여준다. A7("표적 A")은 야생형(WT) 표현형을 복원하기 위해 편집될 수 있다. 일부 경우에, "A" 핵염기 A5/A7은 아미노산 D341G를 A1AT 단백질 내로 도입하기 위해 편집될 수 있다. 일부 경우에, A7/A8은 아미노산 E342G를 A1AT 단백질 내로 도입하기 위해 편집될 수 있다. 도 3b는 SERPINA1 유전자 내의 표적 A 핵염기의 위치를 보여주는 핵산 서열 및 코딩된 아미노산뿐만 아니라, 야생형(WT), 또는 E342K, D341G 또는 E342G를 포함하는 A1AT 변이체를 발현하는 HEK293T 세포로부터 분비된 A1AT(ng/㎖) 수준을 보여주는 그래프를 제공한다. 도 3c는 야생형(WT) A1AT 단백질의 엘라스타제 활성 대비 E342K 또는 D341G를 함유하는 A1AT 변이체의 활성을 보여주는 그래프이다.
도 4는 TadA에서 출발하여 DNA 데옥시아데노신 데아미나제를 진화시키는 전략을 보여주는 개략도이다. E. 콜라이(E. coli) 라이브러리에는 dCas9에 융합된 돌연변이체 ecTadA(TadA*) 유전자의 플라스미드 라이브러리와 항생제 내성 유전자를 복구하기 위해 표적화된 A·T에서 G·C 돌연변이를 필요로 하는 선별 플라스미드가 내포되어 있다. 인간 세포에서의 염기 편집을 위해 살아남은 TadA* 변이체로부터의 돌연변이를 ABE 아키텍처 내로 가져 왔다.
도 5는 SERPINA1 유전자 내의 표적 "A" 핵염기의 위치를 보여주는 핵산 서열과 코딩된 아미노산뿐만 아니라, 가이드 RNA 길이의 함수로서 SERPINA1 유전자 내의 위치 A5 또는 A7에서의 편집 백분율을 보여주는 그래프를 제공한다.
도 6a 및 6b는 Cas9의 PAM-상호작용(PI) 도메인 내의 돌연변이를 풍부하게 하기 위해 생성된 SpCas9 돌연변이체의 라이브러리를 도시한다. 이 라이브러리는 변경된 PAM 특이성을 갖는 SpCas9을 위해 스크리닝될 수 있다.
도 7은 NGG 및 NGA PAM 인식 서열을 사용하여 표적화된 부위(강조 표시됨)에서 A>G로 전환시키기 위해 염기 편집기를 이용하여 Q347X 돌연변이를 교정하는 전략을 보여주는 개략도이다. 정밀 교정은 TAG>CAG(중지 코돈> 글루타민) 전환을 생성할 것이다.
도 8a 및 8b는 GSD1a iPSc-유래 간세포에 대한 성숙주기를 기반으로 한 형질감염 일정을 제공한다. 도 8a는 플레이팅, 형질 감염, 및 세포 수확을 위한 대표적인 시점을 보여주는 형질감염 일정의 타임 라인을 제공한다. 도 8b는 5일 및 7일에 성숙 GSD1a iPSc-유래 간세포의 이미지를 보여준다.
도 9a 및 9b는 GSD1a에 대한 G6PC Q347X의 염기 편집 정밀 교정을 보여주는 데이터를 제공한다. 도 9a는 G6PC 유전자 내의 표적 적중(on target) 및 방관자(bystander) "A" 핵염기 및 상응하는 NGG 및 NGA PAM 서열의 위치를 보여주는 핵산 서열뿐만 아니라, ABE-표적 적중, ABE-방관자, 인델, 및 NGA PAM 또는 NGG PAM을 사용하는 뉴클레아제-인델에 대한 HEK293T 세포에서 G6PC Q347X의 염기 편집 효율의 백분율을 보여주는 그래프를 제공한다. 도 9b는 ABE-표적 적중, ABE-방관자, 인델, 및 NGA PAM 또는 NGG PAM을 사용하는 뉴클레아아제-인델에 대한 환자 iPSc-유래 간세포에서 G6PC Q347X의 염기 편집 효율을 보여주는 그래프를 제공한다. 실선은 실험의 평균을 나타낸다.
도 10은 G6PC 유전자 내의 표적 적중 및 방관자 "A" 핵염기의 위치를 보여주는 핵산 서열 및 상응하는 GGA PAM 서열뿐만 아니라, ABE-표적 적중, ABE-방관자, 및 mRNA 변이체를 사용하는 인델에 대한 환자 iPSc-유래 간세포에서 G6PC Q347X의 A>G 염기 편집 백분율을 보여주는 그래프를 제공한다.
도 11은 ABE7.10 염기 편집기를 이용한 마우스 및 인간 IDUA 유전자에서의 염기 편집 효율의 백분율을 보여주는 그래프를 제공한다.
도 1은 건강한 대상체와 항트립신 결핍(A1AD)이 있는 환자를 비교하는 개략도이다. 건강한 대상체에서 알파-1 항트립신(A1AT)은 프로테아제 손상으로부터 폐를 보호하고 간은 알파-1 항트립신을 혈액으로 방출한다. A1AD가 있는 환자에서 정상적으로 기능하는 A1AT 단백질의 결핍은 폐 조직 손상을 야기한다. 또한 간세포에 비정상적인 A1AT의 축적은 간경변을 야기한다.
도 2는 다양한 유전자형(정상(MM), 알파-1 항트립신 결핍의 이형접합(MZ, SZ) 보인자 및 동형접합(SS, ZZ) 결핍에 대한 알파-1 항트립신(A1AT) 혈청 수준의 전형적인 범위를 보여준다. 알파-1 항트립신(AAT) 혈청 농도는 왼쪽 "y" 축에서 μM로 표시되며, 이는 문헌에서 일반적이다. 오른쪽 "y" 축은 일반적으로 임상 실험실 및 다양한 측정 기술(비탁측정법(nephelometry) 또는 방사 면역확산)에 의해 보고된 바와 같이, 혈청 AAT 농도를 ㎎/dL 단위로 어림 환산한 것을 보여준다.
도 3a 내지 3c는 염기 편집 표적 서열, 및 A1AT 단백질을 코딩하는 SERPINA1 유전자 내의 병원성 돌연변이의 정밀 교정과 관련된 그래프를 나타낸다. 도 3a는 A1AT를 코딩하는 SERPINA1 유전자의 돌연변이에 대한 정밀 교정 염기 편집 전략을 보여준다. A7("표적 A")은 야생형(WT) 표현형을 복원하기 위해 편집될 수 있다. 일부 경우에, "A" 핵염기 A5/A7은 아미노산 D341G를 A1AT 단백질 내로 도입하기 위해 편집될 수 있다. 일부 경우에, A7/A8은 아미노산 E342G를 A1AT 단백질 내로 도입하기 위해 편집될 수 있다. 도 3b는 SERPINA1 유전자 내의 표적 A 핵염기의 위치를 보여주는 핵산 서열 및 코딩된 아미노산뿐만 아니라, 야생형(WT), 또는 E342K, D341G 또는 E342G를 포함하는 A1AT 변이체를 발현하는 HEK293T 세포로부터 분비된 A1AT(ng/㎖) 수준을 보여주는 그래프를 제공한다. 도 3c는 야생형(WT) A1AT 단백질의 엘라스타제 활성 대비 E342K 또는 D341G를 함유하는 A1AT 변이체의 활성을 보여주는 그래프이다.
도 4는 TadA에서 출발하여 DNA 데옥시아데노신 데아미나제를 진화시키는 전략을 보여주는 개략도이다. E. 콜라이(E. coli) 라이브러리에는 dCas9에 융합된 돌연변이체 ecTadA(TadA*) 유전자의 플라스미드 라이브러리와 항생제 내성 유전자를 복구하기 위해 표적화된 A·T에서 G·C 돌연변이를 필요로 하는 선별 플라스미드가 내포되어 있다. 인간 세포에서의 염기 편집을 위해 살아남은 TadA* 변이체로부터의 돌연변이를 ABE 아키텍처 내로 가져 왔다.
도 5는 SERPINA1 유전자 내의 표적 "A" 핵염기의 위치를 보여주는 핵산 서열과 코딩된 아미노산뿐만 아니라, 가이드 RNA 길이의 함수로서 SERPINA1 유전자 내의 위치 A5 또는 A7에서의 편집 백분율을 보여주는 그래프를 제공한다.
도 6a 및 6b는 Cas9의 PAM-상호작용(PI) 도메인 내의 돌연변이를 풍부하게 하기 위해 생성된 SpCas9 돌연변이체의 라이브러리를 도시한다. 이 라이브러리는 변경된 PAM 특이성을 갖는 SpCas9을 위해 스크리닝될 수 있다.
도 7은 NGG 및 NGA PAM 인식 서열을 사용하여 표적화된 부위(강조 표시됨)에서 A>G로 전환시키기 위해 염기 편집기를 이용하여 Q347X 돌연변이를 교정하는 전략을 보여주는 개략도이다. 정밀 교정은 TAG>CAG(중지 코돈> 글루타민) 전환을 생성할 것이다.
도 8a 및 8b는 GSD1a iPSc-유래 간세포에 대한 성숙주기를 기반으로 한 형질감염 일정을 제공한다. 도 8a는 플레이팅, 형질 감염, 및 세포 수확을 위한 대표적인 시점을 보여주는 형질감염 일정의 타임 라인을 제공한다. 도 8b는 5일 및 7일에 성숙 GSD1a iPSc-유래 간세포의 이미지를 보여준다.
도 9a 및 9b는 GSD1a에 대한 G6PC Q347X의 염기 편집 정밀 교정을 보여주는 데이터를 제공한다. 도 9a는 G6PC 유전자 내의 표적 적중(on target) 및 방관자(bystander) "A" 핵염기 및 상응하는 NGG 및 NGA PAM 서열의 위치를 보여주는 핵산 서열뿐만 아니라, ABE-표적 적중, ABE-방관자, 인델, 및 NGA PAM 또는 NGG PAM을 사용하는 뉴클레아제-인델에 대한 HEK293T 세포에서 G6PC Q347X의 염기 편집 효율의 백분율을 보여주는 그래프를 제공한다. 도 9b는 ABE-표적 적중, ABE-방관자, 인델, 및 NGA PAM 또는 NGG PAM을 사용하는 뉴클레아아제-인델에 대한 환자 iPSc-유래 간세포에서 G6PC Q347X의 염기 편집 효율을 보여주는 그래프를 제공한다. 실선은 실험의 평균을 나타낸다.
도 10은 G6PC 유전자 내의 표적 적중 및 방관자 "A" 핵염기의 위치를 보여주는 핵산 서열 및 상응하는 GGA PAM 서열뿐만 아니라, ABE-표적 적중, ABE-방관자, 및 mRNA 변이체를 사용하는 인델에 대한 환자 iPSc-유래 간세포에서 G6PC Q347X의 A>G 염기 편집 백분율을 보여주는 그래프를 제공한다.
도 11은 ABE7.10 염기 편집기를 이용한 마우스 및 인간 IDUA 유전자에서의 염기 편집 효율의 백분율을 보여주는 그래프를 제공한다.
본 개시의 상세한 설명
본 명세서의 설명 및 실시예는 본 발명의 실시형태를 상세히 예시한다. 본 개시는 여기에 설명된 특정 실시형태에 제한되지 않고 그 자체가 변동될 수 있음을 이해해야 한다. 당업자는 본 개시의 범위 내에 포함되는 다양한 수정과 변형이 있음을 인식할 것이다.
모든 용어는 당업자에 의해 이해되는 바와 같이 이해되도록 의도된다. 달리 정의되지 않는 한, 본 명세서에서 사용되는 모든 기술적 및 과학적 용어는 본 개시가 속하는 기술 분야의 통상의 기술자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다.
본 명세서에 개시된 일부 실시형태의 실행은 달리 지시되지 않는 한, 당업계의 기술 내에 있는 면역학, 생화학, 화학, 분자생물학, 미생물학, 세포생물학, 게놈, 및 재조합 DNA의 통상적인 기술을 사용한다. 예를 들어, 다음 문헌을 참조: Sambrook and Green, Molecular Cloning: A Laboratory Manual, 4th Edition (2012); Current Protocols in Molecular Biology 시리즈(F. M. Ausubel, et al. eds.); Methods In Enzymology 시리즈(Academic Press, Inc.), PCR 2: A Practical Approach (M.J. MacPherson, B.D. Hames and G.R. Taylor eds. (1995)), Harlow and Lane, eds. (1988) Antibodies, A Laboratory Manual, and Culture of Animal Cells: A Manual of Basic Technique and Specialized Applications, 6th Edition (R.I. Freshney, ed. (2010)).
본 명세서에 사용된 섹션 제목은 구성 목적일 뿐이며 설명된 주제를 제한하는 것으로 해석되어서는 안된다.
본 개시의 다양한 특징이 단일 실시형태의 맥락에서 설명될 수 있지만, 특징은 또한 개별적으로 또는 임의의 적합한 조합으로 제공될 수 있다. 반대로, 본 개시는 명확성을 위해 별개 실시형태의 맥락에서 본 명세서에서 설명될 수 있지만, 본 개시는 또한 단일 실시형태로 구현될 수 있다.
정의
아래 정의는 당업계의 정의를 보완하며 현재의 출원에 대한 것이고, 예를 들어, 임의의 관련 또는 비관련 사건, 예를 들어, 공동 소유의 특허 또는 출원에 귀속되어서는 아니된다. 본 명세서에 기재된 것과 유사하거나 동등한 임의의 방법 및 물질이 본 개시의 시험을 위한 실시에 사용될 수 있지만, 바람직한 물질 및 방법이 본 명세서에 기재된다. 따라서, 본 명세서에서 사용된 용어는 특정 실시형태를 설명하기 위한 것이며 제한하려는 의도가 아니다.
달리 정의되지 않는 한, 본 명세서에서 사용되는 모든 기술 및 과학 용어는 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미를 갖는다. 다음 참고 문헌은 본 발명에서 사용되는 많은 용어의 일반적인 정의를 당업자에게 제공한다: Singleton et al., Dictionary of Microbiology and Molecular Biology (2nd ed. 1994); Cambridge Dictionary of Science and Technology (Walker ed., 1988); The Glossary of Genetics, 5th Ed., R. Rieger et al. (eds.), Springer Verlag (1991); 및 Hale & Marham, The Harper Collins Dictionary of Biology (1991).
본 출원에서, 단수의 사용은 특별히 달리 명시하지 않는 한 복수를 포함한다. 본 명세서에서 사용된 것과 같은, 단수 형태 "a", "an" 및 "the"는 문맥상 명백하게 달리 지시하지 않는 한 복수의 지시 대상을 포함한다는 점에 유의해야 한다. 본 출원에서, "또는"의 사용은 달리 명시되지 않는 한 "및/또는"을 의미한다. 더욱이, "포함하는(including)"이라는 용어뿐만 아니라 "포함하다(include)", "포함하다(includes)" 및 "포함된(included)"과 같은 다른 형태의 사용은 제한되지 않는다.
본 명세서 및 청구항(들)에서 사용된 바와 같이, "포함하는(comprising)는"(및 "포함하다(comprise)" 및 "포함하다(comprises)"와 같은 포함하는의 임의의 형태), "갖는(having)"(및 "갖다(have)" 및 "갖다(has)"와 같은 "갖는"의 임의의 형태), "포함하는(including)"(및 "포함하다(includes)" 및 "포함하다(include)"와 같은 포함하는의 임의의 형태) 또는 "함유하는(containing)"(및 "함유하다(contains)" 및 "함유하다(contain)"와 같은 함유하는의 임의의 형태)은 포괄적이거나 개방형이며, 추가의, 언급되지 않은 요소 또는 방법 단계를 배제하지 않는다. 본 명세서에서 논의된 임의의 실시형태는 본 개시의 임의의 방법 또는 구성과 관련하여 구현될 수 있고, 그 반대도 가능하다는 것이 고려된다. 더욱이, 본 개시의 조성물은 본 개시의 방법을 달성하기 위해 사용될 수 있다.
용어 "약" 또는 "대략"은 당업자에 의해 결정된 특정 값에 대해 허용가능한 오차 범위 내를 의미하며, 이는 값이 측정 또는 결정되는 방법, 즉 측정 시스템의 한계에 부분적으로 의존할 것이다. 예를 들어, "약"은 당업계의 관행에 따라, 1 또는 1 초과의 표준 편차 이내를 의미할 수 있다. 대안적으로, "약"은 주어진 값의 최대 20 %, 최대 10 %, 최대 5 % 또는 최대 1 %의 범위를 의미할 수 있다. 대안적으로, 특히 생물학적 시스템 또는 과정과 관련하여, 이 용어는 해당 규모의 수준 이내, 바람직하게는 값의 5배 이내, 더욱 바람직하게는 2배 이내를 의미할 수 있다. 특정 값이 출원 및 청구범위에 기술되어 있는 경우, 달리 언급되지 않는 한, 용어 "약"은 특정 값에 대해 허용가능한 오차 범위 내를 의미한다고 가정해야 한다.
명세서에서 "일부 실시형태", "일(a) 실시형태", "일(one) 실시형태" 또는 "다른 실시형태"에 대한 언급은 해당 실시형태와 관련하여 설명된 특정 특징, 구조 또는 특성이, 반드시 모든 실시형태에 그런 것은 아니지만, 본 개시의 적어도 일부 실시형태에 포함된다는 것을 의미한다.
"아데노신 데아미나제"는 아데닌(A)의 이노신(I)으로의 가수분해성 탈아미노화를 촉매할 수 있는, 데아미나제를 의미한다. 일부 실시형태에서, 데아미나제 또는 데아미나제 도메인은 아데노신의 이노신으로의 또는 데옥시아데노신을 데옥시이노신으로의 각각의 가수분해성 탈아미노화를 촉매할 수 있는 아데노신 데아미나제이다. 일부 실시형태에서, 아데노신 데아미나제는 데옥시리보핵산(DNA)에서 아데노신의 가수분해성 탈아미노화를 촉매한다. 본 명세서에서 제공되는 아데노신 데아미나제(예를 들어, 조작된 아데노신 데아미나제, 진화된(evolved) 아데노신 데아미나제)는 임의의 유기체, 예컨대 박테리아로부터 유래될 수 있다.
"작용제(agent)"는 임의의 소분자 화합물, 항체, 핵산 분자 또는 폴리펩티드, 또는 이의 단편을 의미한다.
"개선하다(ameliorate)"는 질병의 발병 또는 진행을 감소, 억제, 약화, 감소, 정지, 또는 안정화시키는 것을 의미한다.
"변경(alteration)"은 본 명세서에 기술된 것과 같은 표준 기술 공지 방법에 의해 검출되는 것과 같은 유전자 또는 폴리펩티드의 발현 수준 또는 활성의 변화(증가 또는 감소)를 의미한다. 본 명세서에 사용된 변경은 발현 수준에서의 10 % 변화, 바람직하게는 발현 수준에서의 25 % 변화, 더 바람직하게는 40 % 변화, 가장 바람직하게는 50 % 이상의 변화를 포함한다.
"유사체(analog)"는 동일하지는 않지만 유사한 기능적 또는 구조적 특징을 갖는 분자를 의미한다. 예를 들어, 폴리펩티드 유사체는 상응하는 자연적으로 발생하는 폴리펩티드의 생물학적 활성을 유지하면서 자연적으로 발생하는 폴리펩티드에 비해 유사체의 기능을 향상시키는 특정 생화학적 변형을 가진다. 이러한 생화학적 변형은, 예를 들어, 리간드 결합을 변경하지 않고 아날로그의 단백질 분해 효소 저항성, 막 투과성 또는 반감기를 증가시킬 수 있다. 유사체는 비천연 아미노산을 포함할 수 있다.
"투여하는"은 본 명세서에 기재된 하나 이상의 조성물을 환자 또는 대상체에게 제공하는 것으로 본 명세서에서 지칭된다. 예시의 일환으로 또 제한됨이 없이, 조성물 투여, 예를 들어, 주사는 정맥내(i.v.) 주사, 피하(s.c.) 주사, 피내(i.d.) 주사, 복강내(i.p.) 주사 또는 근육내(i.m.) 주사에 의해 수행될 수 있다. 이러한 경로를 하나 이상 이용할 수 있다. 비경구 투여는, 예를 들어, 볼루스 주사 또는 시간에 따른 점진적 관류에 의한 것일 수 있다. 대안적으로 또는 동시에, 투여는 경구 경로에 의해 이루어질 수 있다.
"알파-1 항트립신(A1AT) 단백질"은 UniProt 수탁번호 P01009의 아미노산 서열에 대해 적어도 약 95 % 아미노산 서열 동일성(identity)을 갖는 폴리펩티드 또는 이의 단편을 의미한다. 특정 실시형태에서, A1AT 단백질은 다음 참조 서열에 비해 하나 이상의 변경을 포함한다. 한 특정 실시형태에서, A1AD와 관련된 A1AT 단백질은 E342K 돌연변이를 포함한다. 예시적인 A1AT 아미노산 서열이 아래에 제공된다. 예시적인 A1AT 아미노산 서열(>sp|P01009|A1AT_HUMAN Alpha-1-antitrypsin OS=Homo sapiens OX=9606 GN=SERPINA1 PE=1 SV=3)이 아래에 제공된다:
"염기 편집기(BE)"또는 "핵염기 편집기(NBE)"는 폴리뉴클레오티드에 결합하고 핵염기 변형 활성(nucleobase modifying activity)을 갖는 작용제를 의미한다. 다양한 실시형태에서, 염기 편집기는 가이드 폴리뉴클레오티드(예를 들어, 가이드 RNA)와 연계하여 핵염기 변형 폴리펩티드(예를 들어, 데아미나제) 및 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인을 포함한다. 다양한 실시형태에서, 작용제는 염기 편집 활성을 갖는 단백질 도메인, 즉 핵산 분자(예를 들어, DNA) 내의 염기(예를 들어, A, T, C, G, 또는 U)를 변형할 수 있는 도메인을 포함하는 생체 분자 복합체이다. 일부 실시형태에서, 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인은 융합되거나 데아미나제 도메인에 연결된다. 한 실시형태에서, 작용제는 염기 편집 활성을 갖는 도메인을 포함하는 융합 단백질이다. 또 다른 실시형태에서, 염기 편집 활성을 갖는 단백질 도메인은 (예를 들어, 가이드 RNA 상의 RNA 결합 모티프 및 데아미나제에 융합된 RNA 결합 도메인을 통해) 가이드 RNA에 연결된다. 일부 실시형태에서, 염기 편집 활성을 갖는 도메인은 핵산 분자 내의 염기를 탈아미노화할 수 있다. 일부 실시형태에서, 염기 편집기는 DNA 분자 내의 염기를 탈아미노화할 수 있다. 일부 실시형태에서, 염기 편집기는 DNA 내의 시토신(C) 또는 아데노신(A)을 탈아미노화할 수 있다. 일부 실시형태에서, 염기 편집기는 시티딘 염기 편집기(CBE)이다. 일부 실시형태에서, 염기 편집기는 아데노신 염기 편집기(ABE)이다. 일부 실시형태에서, 아데노신 데아미나제는 TadA로부터 진화된다. 일부 실시형태에서, 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인은 CRISPR 관련(예를 들어, Cas 또는 Cpf1) 효소이다. 일부 실시형태에서, 염기 편집기는 데아미나제 도메인에 융합된 촉매적으로 멸실된 Cas9(dCas9)이다. 일부 실시형태에서, 염기 편집기는 데아미나제 도메인에 융합 된 Cas9 닉카아제(nCas9)이다. 일부 실시형태에서, 염기 편집기는 염기 절제 복구(BER)의 억제제에 융합된다. 일부 실시형태에서, 염기 절제 복구의 억제제는 우라실 DNA 글리코실라제 억제제(UGI)이다. 일부 실시형태에서, 염기 절제 복구의 억제제는 이노신 염기 절제 복구 억제제이다. 염기 편집기에 대한 상세 내용은 PCT 국제출원 번호 PCT/2017/045381(WO2018/027078) 및 PCT/US2016/058344(WO2017/070632)에 설명되어 있으며, 이들 각각은 그 전체가 본 명세서에 참조로 포함된다. 또한, 이들의 전체 내용이 본 명세서에 참조로 포함되는, 다음 문헌 참조: Komor, A.C., et al., "Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage" Nature 533, 420-424 (2016); Gaudelli, N.M., et al., "Programmable base editing of A·T to G·C in genomic DNA without DNA cleavage" Nature 551, 464-471 (2017); Komor, A.C., et al., "Improved base excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity" Science Advances 3:eaao4774 (2017); 및 Rees, H.A., et al., "Base editing: precision chemistry on the genome and transcriptome of living cells." Nat Rev Genet. 2018 Dec;19(12):770-788. doi: 10.1038/s41576-018-0059-1.
예시의 일환으로, 본 명세서에 기재된 염기 편집 조성물, 시스템 및 방법에 이용되는 시티딘 염기 편집기 CBE는 아래에 제공된 것과 같은 다음 핵산 서열(8877개 염기쌍)을 갖는다(Addgene, Watertown, MA.; Komor AC, et al., 2017, Sci Adv., 30;3(8):eaao4774. doi:10.1126/sciadv.aao4774). BE4 핵산 서열에 대해 적어도 95 % 이상의 동일성을 갖는 폴리뉴클레오티드 서열도 포함된다.
일부 실시형태에서, BE4 핵산 서열은 다음 중 하나로부터 선택된다:
본래의 BE4
BE4 코돈 최적화 1
BE4 코돈 최적화 2
"염기 편집 활성"은 폴리뉴클레오티드 내의 염기를 화학적으로 변경시키는 작용을 지칭한다. 일 실시형태에서, 제1 염기는 제2 염기로 전환된다. 일 실시형태에서, 염기 편집 활성은, 예를 들어, 표적 C·G를 T·A로 전환하는, 시티딘 데아미나제 활성이다. 다른 실시형태에서, 염기 편집 활성은, 예를 들어, A·T를 G·C로 전환하는, 아데노신 또는 아데닌 데아미나제 활성이다.
용어 "염기 편집기 시스템"은 표적 뉴클레오티드 서열의 핵염기를 편집하기 위한 시스템을 지칭한다. 다양한 실시형태에서, 염기 편집기(BE) 시스템은, (1) 상기 핵염기를 탈아미노화하기 위한 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인 및 데아미나제 도메인; 및 (2) 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인과 연계하여 가이드 폴리뉴클레오티드(예를 들어, 가이드 RNA)를 포함한다. 일부 실시형태에서, 염기 편집기 시스템은, (1) 상기 핵염기를 탈아미노화하기 위한 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인 및 데아미나제 도메인을 포함하는 염기 편집기(BE); 및 (2) 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 DNA 결합 도메인과 연계하여 가이드 RNA를 포함한다. 일부 실시형태에서, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인은 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인이다. 일부 실시형태에서, 염기 편집기는 시티딘 염기 편집기(CBE)이다. 일부 실시형태에서, 염기 편집기는 아데노신 염기 편집기(ABE)이다.
용어 "보존적 아미노산 치환" 또는 "보존적 돌연변이"는 한 아미노산을 공통 특성을 갖는 또 다른 아미노산으로 대체하는 것을 지칭한다. 개별 아미노산 간의 공통 특성을 정의하는 기능적 방법은 상동 유기체의 해당 단백질 간의 아미노산 변화의 정규화된 빈도를 분석하는 것이다(Schulz, G. E. and Schirmer, R. H., Principles of Protein Structure, Springer-Verlag, New York (1979)). 이러한 분석에 따르면, 그룹 내의 아미노산이 서로 우선적으로 교환되는 위치에서의 아미노산 그룹을 정의할 수 있고, 그래서 전체 단백질 구조에 미치는 이들의 영향이 서로 가장 유사하게 된다(Schulz, G. E. and Schirmer, R. H., 전게서 ). 보존적 돌연변이의 비제한적인 예는 아미노산의 아미노산 치환, 예를 들어, 양전하가 유지될 수 있도록, 아르기닌에 대한 라이신 및 그 반대의 경우; 음전하가 유지될 수 있도록, 아스파르트산에 대한 글루탐산 및 그 반대의 경우; 유리 -OH가 유지될 수 있도록, 트레오닌에 대한 세린; 및 유리 -NH2가 유지될 수 있도록 아스파라긴에 대한 글루타민을 포함한다.
본 명세서에서 상호교환적으로 사용되는, 용어 "코딩 서열" 또는 "단백질 코딩 서열"은, 단백질을 코딩하는 폴리뉴클레오티드의 세그먼트를 지칭한다. 영역 또는 서열은 시작 코돈에 의해 5' 말단에 더 가깝게, 중지 코돈에 의해 3' 말단에 더 가깝게 경계지워진다. 코딩 서열은 오픈 리딩 프레임으로도 지칭된다.
"시티딘 데아미나제"는 아미노 기를 카보닐 기로 전환시키는 탈아미노 반응을 촉매할 수 있는 폴리펩티드 또는 이의 단편을 의미한다. 일 실시형태에서, 시티딘 데아미나제는 시토신을 우라실로 또는 5-메틸시토신을 티민으로 전환시킨다. 페트로미존 마리누스(Petromyzon marinus)에서 유래된 PmCDA1(페트로미존 마리누스 시토신 데아미나제1, "PmCDA1"), 포유동물(예를 들어, 인간, 돼지, 소, 말, 원숭이 등)에서 유래된, AID(활성화-유도 시티딘 데아미나제; AICDA), 및 APOBEC는 예시적인 시티딘 데아미나제이다.
본 명세서에 사용된, 용어 "데아미나제" 또는 "데아미나제 도메인"은 탈아미 노화 반응을 촉매하는 단백질 또는 효소를 지칭한다. 일부 실시형태에서, 데아미나제 또는 데아미나제 도메인은 시티딘 데아미나제이며, 이는 시티딘 또는 데옥시시티딘 각각의 우리딘 또는 데옥시우리딘으로의 가수분해성 탈아미노화를 촉매한다. 일부 실시형태에서, 데아미나제 또는 데아미나제 도메인은 시토신 데아미나제이며, 이는 시토신의 우라실로의 가수분해성 탈아미노화를 촉매한다. 일부 실시형태에서, 데아미나제는 아데노신 데아미나제이고, 이는 아데닌의 하이포크산틴으로의 가수분해성 탈아미노화를 촉매한다. 일부 실시형태에서, 데아미나제는 아데노신 데아미나제이고, 이는 아데노신 또는 아데닌(A)의 이노신(I)으로의 가수분해성 탈아미노화를 촉매한다. 일부 실시형태에서, 데아미나제 또는 데아미나제 도메인은, 아데노신 또는 데옥시아데노신 각각의 이노신 또는 데옥시이노신으로의 가수분해성 탈아미노화를 촉매하는, 아데노신 데아미나제이다. 일부 실시형태에서, 아데노신 데아미나제는 데옥시리보핵산(DNA)에서 아데노신의 가수분해성 탈아미노화를 촉매한다. 본 명세서에서 제공되는 아데노신 데아미나제(예를 들어, 조작된 아데노신 데아미나제, 진화된 아데노신 데아미나제)는 임의의 유기체, 예컨대 박테리아로부터 유래될 수 있다. 일부 실시형태에서, 아데노신 데아미나제는 E. 콜라이(E. coli), S 아우레스(S. aureus), S 티피(S. typhi), S. 푸트레파시엔스(S. putrefaciens), H. 인플루엔자(H. influenzae), 또는 C. 크레센투스(C. crescentus)와 같은 박테리아에서 유래한다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 데아미나제이다. 일부 실시형태에서, 데아미나제 또는 데아미나제 도메인은 인간, 침팬지, 고릴라, 원숭이, 소, 개, 랫트, 또는 마우스와 같은 유기체로부터의 자연적으로 발생하는 데아미나제의 변이체이다. 일부 실시형태에서, 데아미나제 또는 데아미나제 도메인은 자연에서 발생하지 않는다. 예를 들어, 일부 실시형태에서, 데아미나제 또는 데아미나제 도메인은 자연적으로 발생하는 데아미나제에 대해 적어도 50 %, 적어도 55 %, 적어도 60 %, 적어도 65 %, 적어도 70 %, 적어도 75 %, 적어도 80 %, 적어도 85 %, 적어도 90 %, 적어도 91 %, 적어도 92 %, 적어도 93 %, 적어도 94 %, 적어도 95 %, 적어도 96 %, 적어도 97 %, 적어도 98 %, 적어도 99 %, 적어도 991 %, 적어도 99.2 %, 적어도 99.3 %, 적어도 99.4 %, 적어도 99.5 %, 적어도 99.6 %, 적어도 99.7 %, 적어도 99.8 %, 또는 적어도 99.9 % 동일하다. 예를 들어, 데아미나제 도메인은 PCT 국제 출원 번호 PCT/2017/045381(WO2018/027078) 및 PCT/US2016/058344(WO2017/070632)에 설명되어 있으며, 이들 각각은 그 전문이 본 명세서에 참조로 포함된다. 또한, 전체 내용이 본 명세서에 참고로 포함되는, 다음 문헌 참조: Komor, A.C., et al., “Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage” Nature 533, 420-424 (2016); Gaudelli, N.M., et al., “Programmable base editing of A·T to G·C in genomic DNA without DNA cleavage” Nature 551, 464-471 (2017); Komor, A.C., et al., “Improved base excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity” Science Advances 3:eaao4774 (2017); 및 Rees, H.A., et al., "Base editing: precision chemistry on the genome and transcriptome of living cells" Nat Rev Genet. 2018 Dec;19(12):770-788 doi: 10.1038/s41576-018-0059-1.
"검출가능한 표지"는 관심 분자에 연결된 경우, 분광, 광화학, 생화학, 면역화학, 또는 화학적 수단을 통해, 상기 분자를 검출가능하게 하는 조성물을 의미한다. 예를 들어, 유용한 표지로는 방사성 동위 원소, 자기 비드, 금속 비드, 콜로이드 입자, 형광 염료, 전자 밀도 시약, 효소(예를 들어, ELISA에서 일반적으로 사용됨), 비오틴, 디곡시게닌, 또는 합텐을 포함한다.
"질병"은 세포, 조직, 또는 기관의 정상적인 기능을 손상시키거나 방해하는 임의의 상태 또는 장애를 의미한다. 질병의 예로는 색소성망막염, 어셔 증후군, 겸상 적혈구 질환, 베타-지중해 빈혈(beta-thalassemia), 알파-1 항트립신 결핍(A1AD), 간 포르피린증(hepatic porphyria), 중쇄 아실-CoA 탈수소효소(ACADM) 결핍, 리소좀산 리파아제(LAL; lysosomal acid lipase) 결핍, 페닐케톤뇨증, 혈색소침착증(hemochromatosis), 폰 기르케병, 폼페병(Pompe disease), 고셔병, 헐러 증후군(Hurler syndrome), 낭포성 섬유증, 또는 만성 통증(chronic pain)을 포함한다. 일 실시형태에서, 질병은 A1AD이다.
"유효량"은 치료되지 않은 환자, 또는 질병이 없는 개체, 즉 건강한 개체에 비해, 질병의 증상을 개선하는 데 필요한 작용제 또는 활성 화합물, 예를 들어, 본 명세서에 기재된 바와 같은 염기 편집기의 양을 의미한다. 질병의 치료적 치료를 위해 기재된 본 방법을 실시하는 데 사용되는 활성 화합물(들)의 유효량은 투여 방식, 연령, 체중, 및 대상체의 전반적인 건강에 따라 달라진다. 궁극적으로, 주치의 또는 수의사가 적절한 양과 투여량 요법(dosage regimen)을 결정한다. 이러한 양을 "유효한" 양이라고 지칭한다. 일 실시형태에서, 유효량은 세포(예를 들어, 시험관내 또는 생체내 세포)에서 관심 유전 내에 변경을 도입하기에 충분한 본 발명의 염기 편집기의 양이다. 일 실시형태에서, 유효량은 치료적 효과를 달성(예를 들어, 색소성망막염, 어셔 증후군, 겸상 적혈구 질환(SCD), 베타-지중해 빈혈, 알파-1 항트립신 결핍(A1AD), 간 포르피린증, 중쇄 아실-CoA 탈수소효소(ACADM) 결핍, 리소좀산 리파제(LAL) 결핍, 페닐케톤뇨증, 혈색소침착증, 폰 기르케병, 폼페병, 고셔병, 헐러 증후군, 낭포성 섬유증, 또는 만성 통증, 또는 이의 증상 또는 병태를 감소 또는 제어)하기 위해 필요한 염기 편집기의 양이다. 이러한 치료적 효과는 대상체, 조직 또는 기관 내에 존재하는 모든 세포에서 병원성 유전자를 변경하는 데 충분할 필요는 없으며, 대상체, 조직 또는 기관 내에 존재하는 세포의 약 1 %, 5 %, 10 %, 25 %, 50 %, 75 % 또는 그 이상에서 병원성 유전자를 변경하기만 하면 충분하다. 일 실시형태에서, 유효량은 질병의 하나 이상의 증상(예를 들어, 색소성망막염, 어셔 증후군, 겸상 적혈구 질환, 베타-지중해 빈혈, 알파-1 항트립신 결핍증(A1AD), 간 포르피린증, 중쇄 아실-CoA 탈수소 효소(MCAD) 결핍, 리소좀산 리파제(LAL) 결핍, 페닐케톤뇨증, 혈색소침착증, 폰 기르케병, 폼페병, 고셔병, 헐러 증후군, 낭포성 섬유증, 또는 만성 통증)을 개선하기에 충분하다.
"단편"은 폴리펩티드 또는 핵산 분자의 일부를 의미한다. 이러한 일부는 바람직하게는 참조 핵산 분자 또는 폴리펩티드의 전체 길이의 적어도 10 %, 20 %, 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 또는 90 %를 함유한다. 단편은 10개, 20개, 30개, 40개, 50개, 60개, 70개, 80개, 90개, 또는 100개, 200개, 300개, 400개, 500개, 600개, 700개, 800개, 900개, 또는 1000개의 뉴클레오티드 또는 아미노산을 함유할 수 있다.
"혼성화(hybridization)"는 상보적인 핵염기들 사이의, 왓슨-크릭, 후그스틴 또는 역(reversed) 후그스틴 수소 결합일 수 있는, 수소 결합을 의미한다. 예를 들어, 아데닌과 티민은 수소 결합 형성을 통해 쌍을 이루는 상보적인 핵염기이다.
용어 "염기 복구의 억제제", "염기 복구 억제제", "IBR" 또는 이들의 문법적 동등물은 핵산 복구 효소, 예를 들어, 염기 절제 복구 효소의 활성을 억제할 수 있는 단백질을 지칭한다. 일부 실시형태에서, IBR은 이노신 염기 절제 복구의 억제제이다. 예시적인 염기 복구의 억제제는 APE1, Endo III, Endo IV, Endo V, Endo VIII, Fpg, hOGG1, hNEIL1, T7 Endol, T4PDG, UDG, hSMUG1, 및 hAAG의 억제제를 포함한다. 일부 실시형태에서, IBR은 Endo V 또는 hAAG의 억제제이다. 일부 실시형태에서, IBR은 촉매적으로 비활성인 EndoV 또는 촉매적으로 비활성인 hAAG이다. 일부 실시형태에서, 염기 복구 억제제는 Endo V 또는 hAAG의 억제제이다. 일부 실시형태에서, 염기 복구 억제제는 촉매적으로 비활성인 EndoV 또는 촉매적으로 비활성인 hAAG이다. 일부 실시형태에서, 염기 복구 억제제는 우라실 글리코실라제 억제제(UGI)이다. UGI는 우라실-DNA 글리코실라제 염기-절단 복구 효소를 억제할 수 있는 단백질을 지칭한다. 일부 실시형태에서, UGI 도메인은 야생형 UGI 또는 야생형 UGI의 단편을 포함한다. 일부 실시형태에서, 본 명세서에서 제공된 UGI 단백질은 UGI의 단편 및 UGI 또는 UGI 단편에 상동성인 단백질을 포함한다. 일부 실시형태에서, 염기 복구 억제제는 이노신 염기 절제 복구의 억제제이다. 일부 실시형태에서, 염기 복구 억제제는 "촉매적으로 비활성인 이노신 특이적 뉴클레아제" 또는 "멸실된 이노신 특이적 뉴클레아제"이다. 임의의 특정 이론에 구속되는 것을 원치 않으면서, 촉매적으로 비활성인 이노신 글리코실라제(예를 들어, 알킬 아데닌 글리코실라제(AAG))는 이노신에 결합할 수 있지만, 무염기(abasic) 부위를 생성하거나 이노신을 제거할 수 없으며, 그로 인해 새로 형성된 이노신 모이어티를 DNA 손상/복구 메커니즘으로부터 입체적으로(sterically) 차단한다. 일부 실시형태에서, 촉매적으로 비활성인 이노신 특이적 뉴클레아제는 핵산에서 이노신에 결합할 수 있지만 핵산을 절단하지는 않는다. 촉매적으로 비활성인 이노신 특이적 뉴클레아제의 비제한적인 예로는, 예를 들어, 인간으로부터의 촉매적으로 비활성인 알킬 아데노신 글리코실라아제(AAG 뉴클레아제) 및, 예를 들어, E. 콜라이로부터의 촉매적으로 비활성인 엔도뉴클레아제 V(EndoV 뉴클레아제)를 포함한다. 일부 실시형태에서, 촉매적으로 비활성인 AAG 뉴클레아제는 E125Q 돌연변이 또는 또 다른 AAG 뉴클레아제에서의 상응하는 돌연변이를 포함한다.
용어 "단리된", "정제된" 또는 "생물학적으로 순수한"은 이의 천연 상태에서 발견되는 것과 같이, 일반적으로 동반되는 구성요소(components)가 다양한 정도로 없는 물질을 지칭한다. "단리하다"는 원래의 소스 또는 주변과의 분리 정도를 나타낸다. "정제하다"는 분리보다 더 높은 분리 정도를 나타낸다. "정제된" 또는 "생물학적으로 순수한" 단백질은 불순물이 단백질의 생물학적 특성에 실질적으로 영향을 미치거나 다른 부작용을 일으키지 않도록 다른 물질이 충분히 포함되어 있지 않다. 즉, 본 발명의 핵산 또는 펩티드는 재조합 DNA 기술에 의해 생산될 때 세포 물질, 바이러스 물질 또는 배양 배지가 실질적으로 없거나, 화학적으로 합성될 때 화학적 전구체 또는 기타 화학 물질이 없는 경우 정제된 것이다. 순도 및 균질성은 일반적으로 분석 화학 기술(예를 들어, 폴리아크릴아미드 겔 전기영동 또는 고성능 액체 크로마토그래피)을 사용하여 결정된다. 용어 "정제된"은 핵산 또는 단백질이 전기 영동 겔에서 본질적으로 하나의 밴드를 생성함을 나타낼 수 있다. 예를 들어, 인산화 또는 글리코실화와 같은 변형을 겪게 될 수 있는 단백질의 경우, 다른 변형은 다른 분리된 단백질을 생성할 수 있으며, 이는 별도로 정제될 수 있다.
"단리된 폴리뉴클레오티드"는, 본 발명의 핵산 분자가 유래된, 유기체의 자연적으로-발생하는 게놈에서, 해당 유전자에 측접한 유전자들이 없는 핵산(예를 들어, DNA)을 의미한다. 따라서, 이 용어는, 예를 들어, 벡터 내로; 자율 복제 플라스미드 또는 바이러스 내로; 또는 원핵 생물 또는 진핵 생물의 게놈 DNA 내로 통합되거나; 또는 다른 서열과 무관하게 별도의 분자(예를 들어, PCR 또는 제한 엔도뉴클레아제 분해에 의해 생성된 cDNA, 또는 게놈 또는 cDNA 단편)로 존재하는 재조합 DNA를 포함한다. 또한, 이 용어는 DNA 분자로부터 전사된 RNA 분자뿐만 아니라, 추가 폴리펩티드 서열을 코딩하는 하이브리드 유전자의 일부인 재조합 DNA를 포함한다.
"단리된 폴리펩티드"는 자연적으로 동반되는 구성요소로부터 분리된 본 발명의 폴리펩티드를 의미한다. 전형적으로, 폴리펩티드는 단백질 및 이와 자연적으로 결합한 자연적으로 발생하는 유기 분자가 중량을 기준으로 적어도 60 % 없을 때 단리된 것이다. 바람직하게는, 제조물(preparation)에는 본 발명의 폴리펩티드가 중량 기준으로 적어도 75 %, 더 바람직하게는 적어도 90 %, 가장 바람직하게는 적어도 99 % 존재한다. 본 발명의 단리된 폴리펩티드는, 예를 들어, 천연 공급원으로부터 추출에 의해, 이러한 폴리펩티드를 코딩하는 재조합 핵산의 발현에 의해; 또는 단백질을 화학적으로 합성함으로써 수 득될 수 있다. 순도는 적절한 방법, 예를 들어, 컬럼 크로마토그래피, 폴리아크릴 아미드 겔 전기 영동, 또는 HPLC 분석에 의해 측정할 수 있다.
본 명세서에 사용된, 용어 "링커"는 공유 링커(예를 들어, 공유 결합), 비공유 링커, 화학기, 또는 두 분자 또는 모이어티, 예를 들어, 단백질 복합체 또는 리보뉴클레오 복합체의 두 구성요소, 또는, 예를 들어, 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인(예를 들어, dCas9) 및 데아미나제 도메인(예를 들어, 아데노신 데아미나제 또는 시티딘 데아미나제)과 같은 융합 단백질의 두 도메인을 연결하는 분자를 지칭할 수 있다. 링커는 염기 편집기 시스템의 다른 구성요소, 또는 이의 구성요소의 다른 부분을 결합시킬 수 있다. 예를 들어, 일부 실시형태에서, 링커는 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인의 가이드 폴리뉴클레오티드 결합 도메인 및 데아미나제의 촉매 도메인을 결합시킬 수 있다. 일부 실시형태에서, 링커는 CRISPR 폴리펩티드 및 데아미나제에 결합시킬 수 있다. 일부 실시형태에서, 링커는 Cas9 및 데아미나제를 결합시킬 수 있다. 일부 실시형태에서, 링커는 dCas9 및 데아미나제를 결합시킬 수 있다. 일부 실시형태에서, 링커는 nCas9 및 데아미나제를 결합시킬 수 있다. 일부 실시형태에서, 링커는 가이드 폴리뉴클레오티드 및 데아미나제를 결합시킬 수 있다. 일부 실시형태에서, 링커는 염기 편집기 시스템의 탈아미노화 구성요소 및 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 구성요소를 결합시킬 수 있다. 일부 실시형태에서, 링커는 염기 편집기 시스템의 탈아미노화 구성요소의 RNA-결합 부분과 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 구성요소를 결합시킬 수 있다. 일부 실시형태에서, 링커는 염기 편집기 시스템의 탈아미노화 구성요소의 RNA 결합 부분 및 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 구성요소의 RNA 결합 부분을 결합시킬 수 있다. 링커는 두개의 기, 분자 또는 기타 모이어티 사이에 위치하거나, 이들에 의해 측접되고, 공유 결합 또는 비공유 상호작용을 통해 각각에 연결되며, 그리하여 이들을 연결할 수 있다. 일부 실시형태에서, 링커는 유기 분자, 기, 중합체, 또는 화학적 모이어티일 수 있다. 일부 실시형태에서, 링커는 폴리뉴클레오티드일 수 있다. 일부 실시형태에서, 링커는 DNA 링커일 수 있다. 일부 실시형태에서, 링커는 RNA 링커일 수 있다. 일부 실시형태에서, 링커는 리간드에 결합 할 수 있는 압타머를 포함할 수 있다. 일부 실시형태에서, 리간드는 탄수화물, 펩티드, 단백질 또는 핵산일 수 있다. 일부 실시형태에서, 링커는 리보스위치로부터 유래될 수 있는 압타머를 포함할 수 있다. 압타머가 유래된 리보스위치는 테오필린 리보스위치, 티아민 피로포스페이트(TPP) 리보스위치, 아데노신 코발라민(AdoCbl) 리보스위치, S-아데노실 메티오닌(SAM) 리보스위치, SAH 리보스위치, 플라빈 모노뉴클레오티드(FMN) 리보스위치, 테트라하이드로폴레이트 리보스위치, 라이신 리보스위치, 글라이신 리보스위치, 퓨린 리보스위치, GlmS 리보스위치, 또는 프리-퀘오신1(PreQ1) 리보스위치 중에서 선택될 수 있다. 일부 실시형태에서, 링커는 폴리펩티드 또는 단백질 도메인, 예컨대 폴리펩티드 리간드에 결합된 압타머를 포함할 수 있다. 일부 실시형태에서, 폴리펩티드 리간드는 K 상동성(KH) 도메인, MS2 코트 단백질 도메인, PP7 코트 단백질 도메인, SfMu Com 코트 단백질 도메인, 멸균(steril) 알파 모티프, 텔로머라제 Ku 결합 모티프 및 Ku 단백질, 텔로머라제 Sm7 결합 모티프 및 Sm7 단백질, 또는 RNA 인식 모티프일 수 있다. 일부 실시형태에서, 폴리펩티드 리간드는 염기 편집기 시스템 구성요소의 일부일 수 있다. 예를 들어, 핵염기 편집 구성요소는 데아미나제 도메인 및 RNA 인식 모티프를 포함할 수 있다.
일부 실시형태에서, 링커는 아미노산 또는 복수의 아미노산(예를 들어, 펩티드 또는 단백질)일 수 있다. 일부 실시형태에서, 링커는 약 5 내지 100개의 아미노산 길이, 예를 들어, 약 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 20-30개, 30-40개, 40-50개, 50-60개, 60-70개, 70-80개, 80-90개, 또는 90-100개 아미노산 길이일 수 있다. 일부 실시형태에서, 링커는 약 100-150개, 150-200개, 200-250개, 250-300개, 300-350개, 350-400개, 400-450개, 또는 450-500개 아미노산 길이일 수 있다. 더 길거나 더 짧은 링커가 또한 고려될 수 있다.
일부 실시형태에서, 링커는, Cas9 도메인을 포함하는, RNA-프로그래밍가능한 뉴클레아제의 gRNA 결합 도메인, 및 핵산 편집 단백질(예를 들어, 시티딘 또는 아데노신 데아미나제)의 촉매 도메인을 결합시킨다. 일부 실시형태에서, 링커는 dCas9 및 핵산 편집 단백질을 결합시킨다. 예를 들어, 링커는 두 기, 분자, 또는 다른 모이어티 사이에 위치하거나, 측접하며, 공유 결합을 통해 각각에 연결되며, 그리하여 두 그룹을 연결한다. 일부 실시형태에서, 링커는 아미노산 또는 복수의 아미노산(예를 들어, 펩티드 또는 단백질)이다. 일부 실시형태에서, 링커는 유기 분자, 기, 중합체, 또는 화학적 모이어티이다. 일부 실시형태에서, 링커는 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 25개, 35개, 45개, 50개, 55개, 60개, 60개, 65개, 70개, 70개, 75개, 80개, 85개, 90개, 90개, 95개, 100개, 101개, 102개, 103개, 104개, 105개, 110개, 120개, 130개, 140개, 150개, 160개, 175개, 180개, 190개, 또는 200개의 아미노산 길이일 수 있다. 더 길거나 더 짧은 링커도 고려된다. 일부 실시형태에서, 링커는 XTEN 링커로도 지칭될 수 있는, 아미노산 서열 SGSETPGTSESATPES를 포함한다. 일부 실시형태에서, 링커는 아미노산 서열 SGGS를 포함한다. 일부 실시형태에서, 링커는 (SGGS)n, (GGGS)n, (GGGGS)n, (G)n, (EAAAK)n, (GGS)n, SGSETPGTSESATPES, 또는 (XP)n 모티프, 또는 이들의 조합을 포함한다. n은 독립적으로 1과 30 사이의 정수이고, X는 아미노산이다. 일부 실시형태에서, n은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14 또는 15이다. 일부 실시형태에서, 링커는 복수의 프롤린 잔기를 포함하고, 길이는 5-21개, 5-14개, 5-9개, 5-7개 아미노산, 예를 들어, PAPAP, PAPAPA, PAPAPAP, PAPAPAPA, P(AP)4, P(AP)7, P(AP)10이다. 이러한 프롤린이 풍부한 링커는 "강성(rigid)" 링커라고도 한다.
일부 실시형태에서, 염기 편집기의 도메인은 SGGSSGSETPGTSESATPESSGGS, SGGSSGGSSGSETPGTSESATPESSGGSSGGS, 또는 GGSGGSPGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSPAGSPTSTEEGTSTE PSEGSAPGTSTEPSEGSAPGTSESATPESGPGSEPATSGGSGGS의 아미노산 서열을 포함하는 링커를 통해 융합된다. 일부 실시형태에서, 염기 편집기의 도메인은 XTEN 링커로도 지칭될 수 있는, 아미노산 서열 SGSETPGTSESATPES를 포함하는 링커를 통해 융합된다. 일부 실시형태에서, 링커는 24개 길이의 아미노산이다. 일부 실시형태에서, 링커는 아미노산 서열 SGGSSGGSSGSETPGTSESATPES를 포함한다. 일부 실시형태에서, 링커는 40개 길이의 아미노산이다. 일부 실시형태에서, 링커는 아미노산 서열 SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSGGS를 포함한다. 일부 실시형태에서, 링커는 64개 길이의 아미노산이다. 일부 실시형태에서, 링커는 아미노산 서열 SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSGGSSGSETPGTSESATPESSGGSSGGS를 포함한다. 일부 실시형태에서, 링커는 92개 길이의 아미노산이다. 일부 실시형태에서, 링커는 아미노산 서열 PGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSPAGSPTSTEEGTSTEPSEGSAP GTSTEPSEGSAPGTSESATPESGPGSEPATS를 포함한다.
본 명세서에 사용된, 용어 "돌연변이"는 서열, 예를 들어, 핵산 또는 아미노산 서열 내의 잔기의 또 다른 잔기로의 치환, 또는 서열 내의 하나 이상의 잔기의 결실 또는 삽입을 지칭한다. 돌연변이는 본 명세서에서 전형적으로 원래의 잔기, 이어서 서열 내 잔기의 위치를 확인하고 새롭게 치환된 잔기의 동일성에 의해 설명된다. 본 명세서에 제공된 아미노산 치환(돌연변이)을 만드는 다양한 방법은 당업계에 잘 알려져 있으며, 예를 들어, 문헌[Green and Sambrook, Molecular Cloning:A Laboratory Manual (4th ed, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY (2012))에 제공되어 있다. 일부 실시형태에서, 본 명세서에 개시된 염기 편집기는, 상당한 수의 비의도된 돌연변이, 예컨대, 비의도된 점 돌연변이를 생성하지 않고 핵산(예를 들어, 대상체의 게놈 내의 핵산)에서 "의도된 돌연변이", 예컨대 점 돌연변이를 효율적으로 생성할 수 있다. 일부 실시형태에서, 의도된 돌연변이는 의도된 돌연변이를 생성하도록 특별히 설계된 가이드 폴리뉴클레오티드(예를 들어, gRNA)에 결합된 특정 염기 편집기(예를 들어, 시티딘 염기 편집기 또는 아데노신 염기 편집기)에 의해 생성되는 돌연변이이다.
일반적으로, 서열(예를 들어, 본 명세서에 기재된 아미노산 서열)에서 만들어 지거나 확인된 돌연변이는 참조(또는 야생형) 서열, 즉 돌연변이를 포함하지 않는 서열과 관련하여 번호가 매겨진다. 당업자는 참조 서열과 비교하여 아미노산 및 핵산 서열에서 돌연변이의 위치를 결정하는 방법을 쉽게 이해할 것이다.
"비-보존적 돌연변이"라는 용어는 서로 다른 그룹 간의 아미노산 치환, 예를 들어, 트립토판에 대한 라이신, 세린에 대한 페닐알라닌 등을 포함한다. 이 경우, 비-보존적 아미노산 치환은, 기능적 변이체의 생물학적 활성을 방해하거나, 억제하지 않는 것이 바람직하다. 비보존적 아미노산 치환은, 기능적 변이체의 생물학적 활성이 야생형 단백질에 비해 증가되도록, 기능적 변이체의 생물학적 활성을 향상시킬 수 있다.
용어 "핵 위치결정 서열(nuclear localization sequence)", "핵 위치결정 신호" 또는 "NLS"는 단백질의 세포 핵으로의 도입을 촉진하는 아미노산 서열을 지칭한다. 핵 위치결정 서열은 당업계에 공지되어 있으며, 예를 들어, 2001년 5월 31일에 WO/2001/038547로 공개된, Plank 등이 2000년 11월 23일에 출원한, PCT 국제 출원 PCT/EP2000/011690에 기재되어 있으며, 이들의 내용은 예시적인 핵 위치결정 서열의 개시를 위해 본 명세서에 참고로 포함된다. 다른 실시형태에서, NLS는, 예를 들어, 문헌[Koblan et al., Nature Biotech. 2018 doi:10.1038/nbt.4172]에 기술된 최적화된 NLS이다. 일부 실시형태에서, NLS는 아미노산 서열 를 포함한다.
본 명세서에서 상호교환적으로 사용되는, 용어 "핵염기", "질소성 염기", 또는 "염기"는 뉴클레오시드를 형성하는 질소-함유 생물학적 화합물을 지칭하며, 이는 차례로 뉴클레오티드의 구성요소이다. 염기쌍을 형성하고 서로 스택킹되는 핵염기의 능력은 리보핵산(RNA) 및 데옥시리보핵산(DNA)과 같은 장쇄 나선형 구조를 직접 유도한다. 아데닌(A), 시토신(C), 구아닌(G), 티민(T) 및 우라실(U)의 다섯가지 핵염기는, 1차(primary) 또는 표준(canonical)으로 지칭된다. 아데닌과 구아닌은 퓨린에서 파생되고 시토신, 우라실 및 티민은 피리미딘에서 파생된다. DNA와 RNA는 변형된 다른(1차가 아닌) 염기도 포함할 수 있다. 변형된 핵염기의 비제한적인 예시로는 하이포크산틴, 크산틴, 7-메틸구아닌, 5,6-디하이드로우라실, 5-메틸시토신(m5C), 및 5-하이드로메틸시토신을 포함할 수 있다. 하이포크산틴과 크산틴은 돌연변이 유발물질의 존재를 통해, 둘 다 탈아미노화(아민 기를 카보닐 기로 대체)를 통해 생성될 수 있다. 하이포크산틴은 아데닌에서 변형될 수 있다. 크산틴은 구아닌에서 변형될 수 있다. 우라실은 시토신의 탈아미노화로 인해 발생할 수 있다. "뉴클레오시드"는 핵염기와 5개의 탄소 당(리보스 또는 데옥시리보스)으로 구성된다. 뉴클레오시드의 예는 아데노신, 구아노신, 우리딘, 시티딘, 5-메틸우리딘(m5U), 데옥시아데노신, 데옥시구아노신, 티미딘, 데옥시우리딘, 및 데옥시시티딘을 포함한다. 변형된 핵염기를 갖는 뉴클레오시드의 예는 이노신(I), 크산토신(X), 7-메틸구아노신(m7G), 디하이드로우리딘(D), 5-메틸시티딘(m5C), 및 슈도우리딘(Ψ)을 포함한다. "뉴클레오티드"는 핵염기, 5탄소 당(리보스 또는 데옥시리보스), 및 적어도 하나의 포스페이트 기로 구성된다.
본 명세서에 사용된, 용어 "핵산" 및 "핵산 분자"는 핵염기 및 산성 모이어티를 포함하는 화합물, 예를 들어, 뉴클레오시드, 뉴클레오티드, 또는 뉴클레오티드 중합체를 지칭한다. 전형적으로, 중합체성 핵산, 예를 들어, 3개 이상의 뉴클레오티드를 포함하는 핵산 분자는, 인접한 뉴클레오티드가 포스포디에스터 연결을 통해 서로 연결되는, 선형 분자이다. 일부 실시형태에서, "핵산"은, 개별 핵산 잔기(예를 들어, 뉴클레오티드 및/또는 뉴클레오시드)를 지칭한다. 일부 실시형태에서, "핵산"은 3개 이상의 개별 뉴클레오티드 잔기를 포함하는 올리고뉴클레오티드 사슬을 지칭한다. 본 명세서에 사용된, 용어 "올리고뉴클레오티드", "폴리뉴클레오티드" 및 "폴리핵산"은 뉴클레오티드의 중합체(예를 들어, 적어도 3개의 뉴클레오티드의 스트링)를 지칭하기 위해 상호교환적으로 사용될 수 있다. 일부 실시형태에서, "핵산"은 단일 및/또는 이중 가닥 DNA뿐만 아니라, RNA를 포함한다. 핵산은, 예를 들어 게놈, 전사체, mRNA, tRNA, rRNA, siRNA, snRNA, 플라스미드, 코스미드, 염색체, 염색분체(chromatid), 또는 기타 자연적으로 발생하는 핵산 분자의 맥락에서 자연적으로 발생할 수 있다. 반면에, 핵산 분자는 비-자연적으로 발생하는 분자일 수 있는데, 예를 들어, 재조합 DNA 또는 RNA, 인공 염색체, 조작된 게놈, 또는 이의 단편 또는 합성 DNA, RNA, DNA/RNA 하이브리드이거나, 또는 비-자연적으로 발생하는 뉴클레오티드 또는 뉴클레오시드를 포함한다. 또한, 용어 "핵산", "DNA", "RNA", 및/또는 유사한 용어는 핵산 유사체, 예를 들어, 포스포디에스터 백본 이외의 것을 갖는 유사체를 포함한다. 핵산은 천연 공급원으로부터 정제할 수 있고, 재조합 발현 시스템을 사용하여 생산하고 임의로 정제하거나, 화학적 합성 등으로 얻을 수 있다. 적절한 경우, 예를 들어, 화학적으로 합성된 분자의 경우, 핵산은 화학적으로 변형된 염기 또는 당, 및 골격 변형을 갖는 유사체와 같은 뉴클레오시드 유사체를 포함할 수 있다. 핵산 서열은 달리 명시되지 않는 한, 5'에서 3' 방향으로 제시된다. 일부 실시형태에서, 핵산은 천연 뉴클레오시드(예를 들어, 아데노신, 티미딘, 구아노신, 시티딘, 우리딘, 데옥시아데노신, 데옥시티미딘, 데옥시구아노신 및 데옥시시티딘); 뉴클레오시드 유사체(예를 들어, 2-아미노아데노신, 2-티오티미딘, 이노신, 피롤로피리미딘, 3-메틸아데노신, 5-메틸시티딘, 2-아미노아데노신, C5-브로모리 딘, C5-플루오로우리딘, C5-아이오도우리딘, C5-프로피닐-우리딘, C5-프로피닐-시티딘, C5-메틸시티딘, 2-아미노아데노신, 7-데아자아데노신, 7-데아자구아노신, 8-옥소아데노신, 8-옥소구아노신, O6-메틸구아닌, 및 2-티오시티딘); 화학적으로 변형된 염기; 생물학적으로 변형된 염기(예를 들어, 메틸화된 염기); 삽입된(intercalated) 염기; 변형된 당(예를 들어, 2'-플루오로리보스, 리보스, 2'-데옥시리보스, 아라비노스, 및 헥소스); 및/또는 개질된 포스페이트 그룹(예를 들어, 포스포로티오에이트 및 5'-N-포스포라미다이트 연결)이거나 이를 포함한다.
용어 "핵산 프로그래밍가능한 DNA 결합 단백질" 또는 "napDNAbp"는, napDNAbp를 특정 핵산 서열로 가이드하는, 가이드 핵산과 같은, 핵산(예를 들어, DNA 또는 RNA)과 결합하는 단백질을 지칭하기 위해 "폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인"과 상호교환적으로 사용될 수 있다. 예를 들어, Cas9 단백질은 Cas9 단백질을 가이드 RNA에 상보적인 특정 DNA 서열로 가이드하는 가이드 RNA와 연관될 수 있다. 일부 실시형태에서, napDNAbp는 Cas9 도메인, 예를 들어, 뉴클레아제 활성 Cas9, Cas9 닉카아제(nCas9), 또는 뉴클레아제 비활성 Cas9(dCas9)이다. 핵산 프로그래밍가능한 DNA 결합 단백질의 예는 제한없이 Cas9(예를 들어, dCas9 및 nCas9), Cas12a/Cpf1, Cas12b/C2c1, Cas12c/C2c3, Cas12d/CasY, Cas12e/CasX, Cas12g, Cas12h, 및 Cas12i를 포함한다. 다른 핵산 프로그래밍가능한 DNA 결합 단백질도 본 개시에 구체적으로 열거되지 않을 수 있지만, 본 개시의 범위 내에 있다. 예를 들어, 각각의 전체 내용이 본 명세서에 참조3로 포함되는, 다음 문헌을 참조: Makarova et al., "Classification and Nomenclature of CRISPR-Cas Systems: Where from Here?" CRISPR J. 2018 Oct;1:325-336 doi: 10.1089/crispr.2018.0033; Yan et al., "Functionally diverse type V CRISPR-Cas systems" Science. 2019 Jan 4;363(6422):88-91 doi:10.1126/science.aav7271.
본 명세서에 사용된, 용어 "핵염기 편집 도메인" 또는 "핵염기 편집 단백질"은 RNA 또는 DNA에서의 핵염기 변형, 예컨대 시토신(또는 시티딘)에서 우라실(또는 우리딘) 또는 티민(또는 티미딘), 아데닌(또는 아데노신)에서 하이포크산틴(또는 이노신) 탈아미노화뿐만 아니라, 비-주형(non-templated) 뉴클레오티드 추가 및 삽입을 촉매할 수 있는 단백질 또는 효소를 의미한다. 일부 실시형태에서, 핵염기 편집 도메인은 데아미나제 도메인(예를 들어, 시티딘 데아미나제, 시토신 데아미나제, 아데닌 데아미나제, 또는 아데노신 데아미나제)이다. 일부 실시형태에서, 핵염기 편집 도메인은 자연적으로 발생하는 핵염기 편집 도메인일 수 있다. 일부 실시형태에서, 핵염기 편집 도메인은 자연적으로 발생하는 핵염기 편집 도메인으로부터의 조작되거나 진화된 핵염기 편집 도메인일 수 있다. 핵염기 편집 도메인은 박테리아, 인간, 침팬지, 고릴라, 원숭이, 소, 개, 랫트, 또는 마우스와 같은 임의의 유기체에서 유래할 수 있다. 예를 들어, 핵염기 편집 단백질은 PCT 국제 출원 번호 PCT/2017/045381(WO2018/027078) 및 PCT/US2016/058344(WO2017/070632)에 설명되어 있으며, 이들 각각은 그 전문이 본 명세서에 참조로 포함된다. 또한, 이들의 전체 내용이 본 명세서 참조로 포함되는, 다음 문헌 참조: Komor, A.C., et al., "Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage" Nature 533, 420-424 (2016); Gaudelli, N.M., et al., "Programmable base editing of A·T to G·C in genomic DNA without DNA cleavage" Nature 551, 464-471 (2017); 및 Komor, A.C., et al., "Improved base excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity" Science Advances 3:eaao4774 (2017).
본 명세서에 사용된, "작용제를 수득하는"에서와 같이 "수득하는"은 작용제를 합성, 구매, 단리, 또는 달리 획득하는 것을 포함한다.
본 명세서에 사용된 것과 같은, "환자" 또는 "대상체"는 질병 또는 장애를 갖거나, 발병할 위험이 있거나, 발병할 것으로 의심되는, 포유류 대상체 또는 개체를 지칭한다. 일부 실시형태에서, 용어 "환자"는 질병 또는 장애가 발생할 가능성이 평균보다 높은 포유류 대상체를 지칭한다. 예시적인 환자는 본 명세서에 개시된 요법으로부터 이익을 얻을 수 있는 인간, 비인간 영장류, 고양이, 개, 돼지, 소, 고양이, 말, 낙타, 라마, 염소, 양, 설치류(예를 들어, 마우스, 토끼, 랫트, 또는 기니피그) 및 다른 포유류일 수 있다. 예시적인 인간 환자는 남성 및/또는 여성일 수 있다.
"필요로 하는 환자" 또는 "필요로 하는 대상체"는 본 명세서에서, 예를 들어, 알파-1 항트립신 결핍(A1AD)으로 제한되지 않지만, 질병 또는 장애가 있는 것으로 진단되거나 이를 앓고 있는 것으로 의심되는 환자로 지칭된다.
용어 "병원성 돌연변이", "병원성 변이체", "질병 유발(또는 질병-관련) 돌연변이", "질병 유발(또는 질병-관련) 변이체", "유해한 돌연변이" 또는 "소인 돌연변이(predisposing mutation)"는 특정 질병이나 장애에 대한 개체의 감수성 또는 소인을 증가시키는 유전적 변형 또는 돌연변이를 지칭한다. 일부 실시형태에서, 병원성 돌연변이는 유전자에 의해 코딩되는 단백질에서 적어도 하나의 병원성 아미노산에 의해 치환된 적어도 하나의 야생형 아미노산을 포함한다.
용어 "단백질", "펩티드", "폴리펩티드", 및 이들의 문법적 동등물은 본 명세서에서 상호교환적으로 사용되며 펩티드(아미드) 결합에 의해 함께 연결된 아미노산 잔기의 중합체를 지칭한다. 용어는 모든 크기, 구조 또는 기능의 단백질, 펩티드, 또는 폴리펩티드를 의미한다. 일반적으로 단백질, 펩티드 또는 폴리펩티드는 아미노산 길이가 3개 이상이다. 단백질, 펩티드 또는 폴리펩티드는 개별 단백질 또는 단백질 집합을 나타낼 수 있다. 단백질, 펩티드 또는 폴리펩티드 중의 하나 이상의 아미노산은, 예를 들어, 탄수화물 기, 하이드록실 기, 포스페이트 기, 파르네실기, 이소파르네실 기, 지방산 기, 접합, 관능화 또는 기타 변형을 위한 링커 등의 부가에 의해 변형될 수 있다. 단백질, 펩티드, 또는 폴리펩티드는 단일 분자일 수도 있고 다중-분자 복합체일 수도 있다. 단백질, 펩티드, 또는 폴리펩티드는 자연적으로 발생하는 단백질 또는 펩티드의 단편일 수 있다. 단백질, 펩티드, 또는 폴리펩티드는 자연적으로 발생한 것, 재조합 또는 합성된 것, 또는 이들의 임의의 조합일 수 있다. 본 명세서에 사용된 용어 "융합 단백질"은 적어도 2개의 상이한 단백질로부터의 단백질 도메인을 포함하는 하이브리드 폴리펩티드를 지칭한다. 하나의 단백질은 융합 단백질의 아미노-말단(N-말단) 부분 또는 단백질의 카복시-말단(C-말단)에 위치하여, 각각, 아미노-말단 융합 단백질 또는 카복시-말단 융합 단백질을 형성할 수 있다. 단백질은 다른 도메인, 예를 들어, 핵산 결합 도메인(예를 들어, 단백질의 표적 부위에 대한 결합을 유도하는 Cas9의 gRNA 결합 도메인) 및 핵산 절단 도메인, 또는 핵산 편집 단백질의 촉매 도메인을 포함할 수 있다. 일부 실시형태에서, 단백질은 단백질성 부분, 예를 들어, 핵산 결합 도메인을 구성하는 아미노산 서열, 및 유기 화합물, 예를 들어, 핵산 절단 작용제로서 작용할 수 있는 화합물을 포함한다. 일부 실시형태에서, 단백질은 핵산, 예를 들어, RNA 또는 DNA와 복합체로 존재하거나 이와 연관되어 있다. 본 명세서에 제공된 임의의 단백질은 당업계에 공지된 임의의 방법에 의해 생성될 수 있다. 예를 들어, 본 명세서에 제공된 단백질은 재조합 단백질 발현 및 정제를 통해 생산될 수 있으며, 이는 특히 펩티드 링커를 포함하는 융합 단백질에 적합하다. 재조합 단백질 발현 및 정제 방법은 잘 알려져 있으며, 문헌[Green and Sambrook, Molecular Cloning: A Laboratory Manual (4th ed, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY (2012)]에 기재된 것들을 포함하며, 상기 문헌은 이의 전체 내용이 본 명세서에 참조로 포함된다.
본 명세서에 개시된 폴리펩티드 및 단백질(이의 기능적 부분 및 기능적 변이체 포함)은 하나 이상의 자연적으로-발생하는 아미노산 대신 합성 아미노산을 포함할 수 있다. 이러한 합성 아미노산은 당업계에 공지되어 있으며, 예를 들어, 아미노사이클로헥산 카복실산, 노르류신, α-아미노 n-데칸산, 호모세린, S-아세틸아미노메틸-시스테인, 트랜스-3- 및 트랜스-4-하이드록시프롤린, 4-아미노페닐알라닌, 4-니트로페닐알라닌, 4-클로로 페닐알라닌, 4-카복시페닐알라닌, β-페닐세린 β-하이드록시페닐알라닌, 페닐글라이신, α-나프틸알라닌, 사이클로헥실알라닌, 사이클로헥실글라이신, 인돌린-2-카복실산, 1,2,3,4-테트라히드로이소퀴놀린-3-카복실산, 아미노말론산, 아미노말론산모노아미드, N'-벤질-N'-메틸-라이신, N',N'-디벤질-라이신, 6-하이드록시라이신, 오르니틴, α-아미노사이클로펜탄카복실산, α-아미노사이클로헥산카복실산, α-아미노사이클로헵탄카복실산, α-(2-아미노-2-노르보르난)-카복실산, α,γ-디아미노부티르산, α,β-디아미노프로피온산, 호모페닐알라닌, 및 α-tert-부틸글라이신을 포함한다. 폴리펩티드 및 단백질은 폴리펩티드 구조체의 하나 이상의 아미노산의 번역 후 변형과 연관될 수 있다. 번역 후 변형의 비제한적인 예는 인산화, 아세틸화 및 포밀화를 포함하는 아실화, 글리코실화(N-연결 및 O-연결 포함), 아미드화, 히드록실화, 메틸화 및 에틸화를 포함하는 알킬화, 유비퀴틸화, 피롤리돈 카복실산의 첨가, 이황화 가교 형성, 황화, 미리스토일화, 팔미토일화, 아이소프레닐화(isoprenylation), 파르네실화(farnesylation), 제라닐화, 글리피화(glypiation), 리포일화(lipoylation) 및 요오드화(iodination)를 포함한다.
용어 "폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인"은, 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인을 특정 핵산 서열에 가이드하는, 가이드 폴리뉴클레오티드(예를 들어, 가이드 RNA)와 같은 핵산(예를 들어, DNA 또는 RNA)과 연관되는 단백질을 의미한다. 일부 실시형태에서, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인은 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인이다. 일부 실시형태에서, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인은 폴리뉴클레오티드 프로그래밍가능한 RNA 결합 도메인이다. 일부 실시형태에서, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인은 Cas9 단백질이다. Cas9 단백질은 Cas9 단백질을 가이드 RNA에 상보적인 특정 DNA 서열로 안내하는 가이드 RNA와 연관될 수 있다. 일부 실시형태에서, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인은 Cas9 도메인, 예를 들어, 뉴클레아제 활성 Cas9, Cas9 닉카아제(nCas9) 또는 뉴클레아제 비활성 Cas9(dCas9)이다. 핵산 프로그래밍가능한 DNA 결합 단백질의 비제한적인 예는 Cas9(예를 들어, dCas9 및 nCas9), Cas12a/Cpfl, Cas12b/C2cl, Cas12c/C2c3, Cas12d/CasY, Cas12e/CasX, Cas12g, Cas12h, 및 Cas12i를 포함한다. Cas 효소의 비제한적인 예는 Cas1, Cas1B, Cas2, Cas3, Cas4, Cas5, Cas5d, Cas5t, Cas5h, Cas5a, Cas6, Cas7, Cas8, Cas8a, Cas8b, Cas8c, Cas9(Csn1 또는 Csx12라고도 공지되어 있음), Cas10, Cas10d, Cas12a/Cpfl, Cas12b/C2cl, Cas12c/C2c3, Cas12d/CasY, Cas12e/CasX, Cas12g, Cas12h, Cas12i, Csy1, Csy2, Csy3, Csy4, Cse1, Cse2, Cse3, Cse4, Cse5e, Csc2, Csa5, Csn1, Csn2, Csm1, Csm2, Csm3, Csm4, Csm5, Csm6, Cmr1, Cmr3, Cmr4, Cmr5, Cmr6, Csb1, Csb2, Csb3, Csx17, Csx14, Csx10, Csx14, Csx10, Csx1S, Csx11, Csf1, Csf2, CsO, Csf4, Csd1, Csd2, Cst1, Cst2, Csh1, Csh2, Csa1, Csa2, Csa3, Csa4, Csa5, Type II Cas 이펙터(effector) 단백질, Type V Cas 이펙터 단백질, Type VI Cas 이펙터 단백질, CARF, DinG, 이의 상동체, 또는 이들의 변형 또는 조작된 버전을 포함한다. 다른 핵산 프로그래밍가능한 DNA 결합 단백질이 또한 본 개시 내에 구체적으로 열거되지는 않지만, 이들도 본 개시의 범위 내에 있다.
단백질 또는 핵산과 관련하여 본 명세서에서 사용된 것과 같은 용어 "재조합"은 자연에서 발생하지 않지만, 인간 조작의 생성물인 단백질 또는 핵산을 의미한다. 예를 들어, 일부 실시형태에서, 재조합 단백질 또는 핵산 분자는 자연적으로 발생하는 서열과 비교하여 적어도 1개, 적어도 2개, 적어도 3개, 적어도 4개, 적어도 5개, 적어도 6개, 또는 적어도 7개의 돌연변이를 포함하는 아미노산 또는 뉴클레오티드 서열을 포함한다.
"감소하다"는 적어도 10 %, 25 %, 50 %, 75 %, 또는 100 %의 음성적인 변경을 의미한다.
"참조"는 표준 또는 대조 조건을 의미한다. 일 실시형태에서, 참조는 야생형 또는 건강한 세포이다.
"참조 서열"은 서열 비교를 위한 기초로 사용되는 정의된 서열이다. 참조 서열은 특정 서열의 서브세트 또는 전체일 수 있으며; 예를 들어, 전체-길이 cDNA 또는 유전자 서열의 세그먼트, 또는 완전한 cDNA 또는 유전자 서열일 수 있다. 폴리펩티드의 경우, 참조 폴리펩티드 서열의 길이는 일반적으로 적어도 약 16개 아미노산, 바람직하게는 적어도 약 20개 아미노산, 보다 바람직하게는 적어도 약 25개 아미노산, 더욱더 바람직하게는 약 35개 아미노산, 약 50개 아미노산, 또는 약 100개의 아미노산일 것이다. 핵산의 경우, 참조 핵산 서열의 길이는 일반적으로 적어도 약 50개의 뉴클레오티드, 바람직하게는 적어도 약 60개의 뉴클레오티드, 더욱 바람직하게는 적어도 약 75개의 뉴클레오티드, 훨씬 더 바람직하게는 약 100개 뉴클레오티드 또는 약 300개 뉴클레오티드 또는 상기 수치 부근 또는 그 사이의 임의의 정수일 것이다.
용어 "RNA-프로그래밍가능한 뉴클레아제" 및 "RNA-가이드된(guided) 뉴클레아제"는 절단을 위한 표적이 아닌 하나 이상의 RNA(들)와 함께 사용(예를 들어, 이에 결합하거나 이와 연관)된다. 일부 실시형태에서, RNA-프로그래밍가능한 뉴클레아제는, RNA와의 복합체로 있을 때, 뉴클레아제:RNA 복합체로 지칭될 수 있다. 전형적으로, 결합된 RNA(들)는 가이드 RNA(gRNA)라고 지칭된다. 가이드 RNA(gRNA)는 2개 이상의 RNA의 복합체, 또는 단일 RNA 분자로 존재할 수 있다. 단일 RNA 분자로 존재하는 gRNA는 단일 가이드 RNA(sgRNA)로 지칭될 수 있지만, "gRNA"는 단일 분자 또는 둘 이상의 분자의 복합체로 존재하는 가이드 RNA를 지칭하기 위해 상호교환적으로 사용된다. 전형적으로, 단일 RNA 종으로 존재하는 gRNA는 다음 2개의 도메인을 포함한다: (1) 표적 핵산에 대한 상동성을 공유하는 (또, 예를 들어, Cas9 복합체의 표적에 대한 결합을 유도하는) 도메인; 및 (2) Cas9 단백질에 결합하는 도메인. 일부 실시형태에서, 도메인 (2)는 tracrRNA로 알려진 서열에 상응하고, 스템-루프 구조를 포함한다. 예를 들어, 일부 실시형태에서, 도메인 (2)는, 이의 전체 내용이 본 명세서에 참조로 포함되는 문헌[Jinek et al., Science 337:816-821(2012)]에 제공된 tracrRNA와 동일하거나 상동성이다. gRNA의 다른 예(예를 들어, 도메인 2를 포함하는 것)는 2013년 9월 6일에 "스위치가능한 Cas9 뉴클레아제 및 그 용도"라는 발명의 명칭으로 출원된 미국 특허 가출원 U.S.S.N 제61/874,682호 및 2013년 9월 6일에 "기능성 뉴클레아제를 위한 전달 시스템"이라는 발명의 명칭으로 출원된, 미국 특허 가출원 U.S.S.N 제61/874,746호에서 찾을 수 있으며, 상기 가출원 각각의 전체 내용은 참조로 본 명세서에 포함된다. 일부 실시형태에서, gRNA는 2개 이상의 도메인 (1) 및 (2)를 포함하고, "확장된(extended) gRNA"로 지칭될 수 있다. 예를 들어, 확장된 gRNA는, 예를 들어, 2개 이상의 Cas9 단백질에 결합하고, 본 명세서에 기재된 바와 같이, 2개 이상의 별개의 영역에서 표적 핵산에 결합할 것이다. gRNA는 표적 부위에 상보적인 뉴클레오티드 서열을 포함하며, 이는 표적 부위에 대한 뉴클레아제/RNA 복합체의 결합을 매개하여, 뉴클레아제:RNA 복합체의 서열특이성을 제공한다. 일부 실시형태에서, RNA-프로그래밍가능한 뉴클레아제는 (CRISPR-연관 시스템) Cas9 엔도뉴클레아제, 예를 들어, 스트렙토코커스 피오게네스로부터의 Cas9(Csn1)이다(예를 들어, 다음 문헌 참조: "Complete genome sequence of an M1 strain of Streptococcus pyogenes." Ferretti J.J., McShan W.M., Ajdic D.J., Savic D.J., Savic G., Lyon K., Primeaux C, Sezate S., Suvorov A.N., Kenton S., Lai H.S., Lin S.P., Qian Y., Jia H.G., Najar F.Z., Ren Q., Zhu H., Song L., White J., Yuan X., Clifton S.W., Roe B.A., McLaughlin R.E., Proc. Natl. Acad. Sci. U.S.A. 98:4658-4663(2001); "CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III." Deltcheva E., Chylinski K., Sharma CM., Gonzales K., Chao Y., Pirzada Z.A., Eckert M.R., Vogel J., Charpentier E., Nature 471:602-607(2011)).
용어 "단일 뉴클레오티드 다형성(SNP)"은 게놈의 특정 위치에서 발생하는 단일 뉴클레오티드의 변이로서, 각 변이는 집단 내에서 어느 정도 상당한 정도로 존재한다(예를 들어, >1 %) 예를 들어, 인간 게놈의 특정 염기 위치에서 C 뉴클레오티드는 대부분의 개인에게 나타날 수 있지만, 소수의 개인에서는 해당 위치는 A에 의해 점유된다. 이는 이 특정 위치에 SNP가 있음을 의미하며, 2가지 가능한 뉴클레오티드 변이인, C 또는 A가 이 위치에 대한 대립유전자가 되는 것으로 말해진다. SNP는 질병에 대한 감수성 차이의 근간이 된다. 질병의 심각성과 우리 몸이 치료에 반응하는 방식도 유전적 변이의 징후이다. SNP는 유전자의 코딩 영역, 유전자의 비코딩 영역, 또는 유전자간(intergenic) 영역(유전자 사이의 영역)에 속할 수 있다. 일부 실시형태에서, 코딩 서열 내의 SNP는, 유전자 코드의 축퇴성으로 인해, 생산되는 단백질의 아미노산 서열을 반드시 변화시키는 것은 아니다. 코딩 영역의 SNP에는 다음 2가지 유형이 있다: 동의성(synonymous) 및 비동의성(nonsynonymous). SNP 동의성 SNP는 단백질 서열에 영향을 미치지 않는 반면, 비동의성 SNP는 단백질의 아미노산 서열을 변화시킨다. 비동의성 SNP는 두 가지 유형이 있다: 미스센스및 넌센스. 단백질 코딩 영역에 없는 SNP는 여전히 유전자 스플라이싱, 전사 인자 결합, 메신저 RNA 분해, 또는 비-코딩 RNA의 서열에 영향을 미칠 수 있다. 이러한 유형의 SNP에 의해 영향을 받는 유전자 발현은 eSNP(발현 SNP)라고 지칭되며, 유전자의 상류 또는 하류에 있을 수 있다. 단일 뉴클레오티드 변이(SNV)는 임의의 빈도 제한없이 단일 뉴클레오티드에서의 변이이며 체세포에서 발생할 수 있다. 체세포 단일 뉴클레오티드 변이(예를 들어, 암에 의해 유발된 것)는 단일-뉴클레오티드 변경이라고도 한다.
"SERPINA1 폴리뉴클레오티드"는 A1AT 단백질 또는 이의 단편을 코딩하는 핵산 분자를 의미한다. NCBI 수탁 번호 NM_000295로 입수가능한, 예시적인 SERPINA1 폴리뉴클레오티드의 서열은 아래에 제공된다:
PAM 서열은 이탤릭체와 이중 밑줄로 나타나 있으며, 아데노신 염기 편집 후 교정된 서열이 나타나 있다.
"특이적으로 결합한다"는 핵산 분자, 폴리펩티드, 또는 이의 복합체(예를 들어, 핵산 프로그래밍가능한 DNA 결합 도메인 및 가이드 핵산), 화합물, 또는 분자가 본 발명의 폴리펩티드 및/또는 핵산 분자를 인식하고 이에 결합하지만, 샘플, 예를 들어, 생물학적 샘플 내의 다른 분자를 실질적으로 인식하고 이에 결합하지 않는다는 것을 의미한다.
본 발명의 방법에 유용한 핵산 분자는 본 발명의 폴리펩티드 또는 이의 단편을 코딩하는 임의의 핵산 분자를 포함한다. 이러한 핵산 분자는 내인성 핵산 서열과 100 % 동일할 필요는 없지만, 일반적으로 실질적인 동일성을 나타낸다. 내인성 서열에 대해 "실질적인 동일성"을 갖는 폴리뉴클레오티드는 전형적으로 이중 가닥 핵산 분자의 적어도 하나의 가닥과 혼성화할 수 있다. 본 발명의 방법에 유용한 핵산 분자는 본 발명의 폴리펩티드 또는 이의 단편을 코딩하는 임의의 핵산 분자를 포함한다. 이러한 핵산 분자는 내인성 핵산 서열과 100 % 동일할 필요는 없지만, 일반적으로 실질적인 동일성을 나타낸다. 내인성 서열에 대해 "실질적인 동일성"을 갖는 폴리뉴클레오티드는 전형적으로 이중-가닥 핵산 분자의 적어도 하나의 가닥과 혼성화할 수 있다. "혼성화하다"는 다양한 엄격도(stringency) 조건 하에서 상보적 폴리뉴클레오티드 서열(예를 들어, 본 명세서에 기재된 유전자) 또는 이의 일부 사이에 이중-가닥 분자를 형성하는 쌍을 의미한다. (예를 들어, 문헌[Wahl, G. M. and S. L. Berger (1987) Methods Enzymol. 152:399; Kimmel, A. R. (1987) Methods Enzymol. 152:507] 참조).
예를 들어, 엄격한 염 농도는 일반적으로 NaCl 약 750 mM 및 트리소듐 시트레이트 75 mM 이하, 바람직하게는 NaCl 약 500 mM 및 트리소듐 시트레이트 50 mM 이하, 보다 바람직하게는 NaCl 약 250 mM 및 트리소듐 시트레이트 25 mM 이하일 것이다. 낮은 엄격도 혼성화는 유기 용매, 예를 들어, 포름아미드의 부재시 얻을 수 있는 반면, 높은 엄격도 혼성화는 적어도 약 35 % 포름아미드, 더 바람직하게는 적어도 약 50 % 포름아미드의 존재시에 얻을 수 있다. 엄격한 온도 조건은 일반적으로 적어도 약 30℃, 더 바람직하게는 적어도 약 37℃, 가장 바람직하게는 적어도 약 42℃의 온도를 포함한다. 혼성화 시간, 세제, 예를 들어, 소듐 도데실 설페이트(SDS) 농도와 같은 다양한 추가 파라미터, 및 담체 DNA의 포함 또는 배제가, 당업자에게 잘 알려져 있다. 필요에 따라 이러한 다양한 조건을 결합하여 다양한 수준의 엄격도가 달성된다. 일 실시형태에서, 혼성화는 750 mM NaCl, 75 mM 트리소듐 시트레이트, 및 1 % SDS 중에서 30℃에서 일어날 것이다. 또 다른 실시형태에서, 혼성화는 500 mM NaCl, 50 mM 트리소듐 시트레이트, 1 % SDS, 35 % 포름아미드, 및 100 ㎍/㎖ 변성된 연어 정자 DNA(ssDNA) 중에서 37℃에서 일어날 것이다. 또 다른 실시형태에서, 혼성화는 250 mM NaCl, 25 mM 트리소듐 시트레이트, 1 % SDS, 50 % 포름아미드, 및 200 ㎍/㎖ ssDNA 중에서 42℃에서 일어난다. 이러한 조건에 대한 유용한 변경은 당업자에게 쉽게 명백할 것이다.
대부분의 적용에서, 혼성화에 뒤이은 세척 단계는 또한 엄격도에 있어서 다양할 것이다. 세척 엄격도 조건은 염분 농도와 온도로 정의할 수 있다. 위와 같이 염분 농도를 낮추거나 온도를 높여 세척 엄격도를 높일 수 있다. 예를 들어, 세척 단계에 대한 엄격한 염 농도는 NaCl 약 30 mM 및 트리소듐 시트레이트 3 mM 이하일 것이고, NaCl 약 15 mM 및 트리소듐 시트레이트 1.5 mM 이하일 수 있다. 세척 단계에 대한 엄격한 온도 조건은 일반적으로 적어도 약 25℃, 보다 바람직하게는 적어도 약 42℃, 더욱더 바람직하게는 적어도 약 68℃의 온도를 포함할 것이다. 바람직한 실시형태에서, 세척 단계는 30 mM NaCl, 3 mM 트리소듐 시트레이트 및 0.1 % SDS 중에서 25℃에서 일어날 것이다. 보다 바람직한 실시형태에서, 세척 단계는 15 mM NaCl, 1.5 mM 트리소듐 시트레이트 및 0.1 % SDS 중에서 42 C에서 일어난다. 보다 바람직한 실시형태에서, 세척 단계는 15 mM NaCl, 1.5 mM 트리소듐 시트레이트, 및 0.1 % SDS에서 68℃에서 일어난다. 이러한 조건에 대한 추가 변형은 당업자에게 자명할 것이다. 혼성화 기술은 당업자에게 잘 알려져 있으며, 예를 들어, 다음 문헌에 기재되어 있다: Benton and Davis (Science 196:180, 1977); Grunstein and Hogness (Proc. Natl. Acad. Sci., USA 72:3961, 1975); Ausubel et al. (Current Protocols in Molecular Biology, Wiley Interscience, New York, 2001); Berger and Kimmel (Guide to Molecular Cloning Techniques, 1987, Academic Press, New York); 및 Sambrook et al., Molecular Cloning: A Laboratory Manual, Cold Spring Harbor Laboratory Press, New York.
"실질적으로 동일한"은 참조 아미노산 서열(예를 들어, 본 명세서에 기재된 아미노산 서열 중 임의의 하나) 또는 핵산 서열(예를 들어, 본 명세서에 기재된 핵산 서열 중 어느 하나)에 대해 적어도 50 % 동일성을 나타내는 폴리펩티드 또는 핵산 분자를 지칭한다. 바람직하게는, 이러한 서열은 비교에 사용된 서열과 아미노산 수준 또는 핵산에서 적어도 60 %, 더 바람직하게는 80 % 또는 85 %, 더욱 바람직하게는 90 %, 95 % 또는 심지어 99 % 동일하다.
서열 동일성은 전형적으로 서열 분석 소프트웨어(예를 들어, 53705, 위스콘신, 메디슨, 유니버시티 애브뉴 1710 소재, 위스콘신 대학교 생명 공학 센터, 유전학 컴퓨터 그룹의 시퀀싱 소프트웨어 패키지, BLAST, BESTFIT, GAP, 또는 PILEUP/PRETTYBOX 프로그램)를 사용하여 측정된다. 이러한 소프트웨어는 다양한 치환, 결실, 및/또는 기타 변형에 대해 상동성의 정도를 할당하여 동일하거나 유사한 서열을 일치시킨다. 보존적 치환은 일반적으로 다음 그룹 내의 치환을 포함한다: 글라이신, 알라닌; 발린, 이소류신, 류신; 아스파르트산, 글루탐산, 아스파라긴, 글루타민; 세린, 트레오닌; 라이신, 아르기닌; 및 페닐알라닌, 티로신. 동일성의 정도를 결정하는 예시적인 접근법에서, 밀접하게 관련된 서열을 나타내는 e-3과 e-100 사이의 확률 점수와 함께, BLAST 프로그램이 사용될 수 있다. 예를 들어, COBALT는 다음 파라미터와 함께 사용된다.
a) 정렬 파라미터: 갭 패널티 -11, -1 및 엔드 갭(End-Gap) 패널티 -5, -1,
b) CDD 파라미터: RPS BLAST 사용 켬(on); 블래스트 E-값 0.003; 보존된 컬럼 찾기 및 재계산(Recompute) 켬, 및
c) 퀘리 클러스터링 파라미터: 퀘리 클러스터 사용 켬; 단어 크기 4; 최대 클러스터 거리 0.8; 알파벳 일반(Regular).
EMBOSS Needle은, 예를 들어, 다음 파라미터와 함께 사용된다.
a) 매트릭스: BLOSUM62;
b) 갭 오픈(GAP OPEN): 10;
c) 갭 확장(GAP EXTEND): 0.5;
d) 출력 형식: 쌍;
e) 엔드 갭 패널티: 거짓;
f) 엔드 갭 오픈: 10; 및
g) 엔드 갭 확장: 0.5.
"대상체"는 인간 또는 비인간 포유동물, 예컨대 소(bovine), 말(equine), 개(canine), 양(ovine), 또는 고양이(feline)를 포함하나, 이에 제한되지 않는, 포유동물을 의미한다.
용어 "표적 부위"는 핵염기 편집기에 의해 변형된 핵산 분자 내의 서열을 의미한다. 일 실시형태에서, 표적 부위는 데아미나제 또는 데아미나제(예를 들어, 시티딘 또는 아데닌 데아미나제)를 포함하는 융합 단백질에 의해 탈아미노화된다.
RNA-프로그래밍가능한 뉴클레아제(예를 들어, Cas9)는 RNA:DNA 혼성화를 사용하여 DNA 절단 부위를 표적으로 하기 때문에, 이러한 단백질은 원칙적으로 가이드 RNA에 의해 특정되는 임의의 서열로 표적화될 수 있다. 부위-특이적 절단(예를 들어, 게놈을 변형하기 위해)을 위해 Cas9와 같은 RNA-프로그래밍가능한 뉴클레아제를 사용하는 방법은 당업계에 공지되어 있다(예를 들어, 각각의 전체 내용이 참조로 본 명세서에 포함되는, 다음 문헌 참조: Cong, L. et al., Multiplex genome engineering using CRISPR/Cas systems. Science 339, 819-823 (2013); Mali, P. et al., RNA-guided human genome engineering via Cas9. Science 339, 823-826 (2013); Hwang, W.Y. et al., Efficient genome editing in zebrafish using a CRISPR-Cas system. Nature biotechnology 31, 227-229 (2013); Jinek, M. et al., RNA-programmed genome editing in human cells. eLife 2, e00471 (2013); Dicarlo, J.E. et al., Genome engineering in Saccharomyces cerevisiae using CRISPR-Cas systems. Nucleic acids research (2013); Jiang, W. et al., RNA-guided editing of bacterial genomes using CRISPR-Cas systems. Nature biotechnology 31, 233-239 (2013).
본 명세서에 사용된, 용어 "치료하다", "치료하는", "치료" 등은 질병 또는 장애 및/또는 이와 관련된 증상을 감소 또는 개선하거나, 원하는 약리학적 및/또는 생리적 효과를 얻는 것을 의미한다. 배제되지는 않지만, 장애 또는 상태를 치료하는 것은 이와 관련된 장애, 상태 또는 증상이 완전히 제거될 것을 요구하지 않는다는 것이 이해될 것이다. 일부 실시형태에서, 효과는 치료적이며, 즉, 제한됨이 없이, 이 효과는 질환 또는 장애 및/또는 질환에 기인하는 부작용을 부분적으로 또는 완전히 감소, 약화, 폐기, 감퇴, 경감, 이의 강도의 저하(decrease), 또는 치료한다. 일부 실시형태에서, 효과는 예방적이며, 즉, 효과는 질환, 장애, 또는 상태의 발생 또는 재발을 보호하거나 예방한다. 이를 위해, 본 명세서에 개시된 방법은 본 명세서에 기술된 조성물의 치료적 유효량을 투여하는 것을 포함한다.
"우라실 글리코실라제 억제제"는 우라실-절제 복구 시스템을 억제하는 작용제를 의미한다. 일 실시형태에서, 이 작용제는 숙주 우라실-DNA 글리코실라제에 결합하고 DNA로부터 우라실 잔기의 제거를 방지하는 단백질 또는 이의 단편이다.
본 명세서에 제공된 범위는, 맨 처음과 마지막 값뿐만 아니라, 이들 사이의 값을 포함하는, 해당 범위 내의 모든 값에 대한 약칭으로 이해된다. 예를 들어, 1에서 50까지의 범위는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 50으로 이루어진 군으로부터의 임의의 숫자, 숫자 조합, 또는 하위 범위를 포함하는 것으로 이해된다.
본 명세서의 변수에 관한 임의의 정의에서 화학 그룹 목록의 인용(recitation)에는 임의의 단일 그룹 또는 나열된 그룹의 조합으로서 해당 변수의 정의가 포함된다. 본 명세서의 변수 또는 양상에 대한 실시형태의 인용은 임의의 단일 실시형태로서 또는 임의의 다른 실시형태 또는 이들의 부분과 조합된 실시형태를 포함한다.
본 명세서에 제공된 임의의 조성물 또는 방법은 본 명세서에 제공된 임의의 다른 조성물 및 방법 중 하나 이상과 조합될 수 있다.
DNA 편집은 유전자 수준에서 병원성 돌연변이를 교정하여 질병 상태를 변경하는 실행가능한 수단으로 등장했다. 최근까지, 모든 DNA 편집 플랫폼은 특정 게놈 부위에서 DNA 이중 가닥 파손(DSB)을 유도함으로써 기능을 발휘했고, 내인성 DNA 복구 경로에 의존하여 반(semi)-확률적 방식으로 생성물 결과를 결정했으며, 복잡한 유전자 생성물 집단을 초래했다. 정밀하고, 사용자-정의된 복구 결과는 상동성 직접 복구(HDR; homology directed repair) 경로를 통해 달성될 수 있지만, 많은 문제로 인해 치료 관련 세포 유형에서 HDR을 사용한 고효율 복구는 억제되었다. 실제로, 이 경로는 경쟁하는, 오류-빈번 비-상동 말단 결합 경로(error-prone non-homologous end joining pathway)에 비해 비효율적이다. 또한 HDR은 세포주기의 G1 및 S 단계로 엄격하게 제한되어 유사 분열 후 세포에서 DSB의 정확한 복구를 방지한다. 결과적으로, 이러한 집단에서 높은 효율성으로 사용자-정의된, 프로그래밍가능한 방식으로 게놈 서열을 변경하는 것은 어렵거나 불가능한 것으로 입증되었다.
핵염기
편집기
폴리뉴클레오티드의 표적 뉴클레오티드 서열을 편집, 변형 또는 변경하기 위한 염기 편집기 또는 핵염기 편집기가 본 명세서에 개시된다. 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인 및 핵염기 편집 도메인을 포함하는 핵염기 편집기 또는 염기 편집기가 본 명세서에 기재된다. 결합된 가이드 폴리뉴클레오티드(예를 들어, gRNA)와 함께 연계될 때 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인은 표적 폴리뉴클레오티드 서열에 특이적으로 (즉, 결합된 가이드 핵산의 염기와 표적 폴리뉴클레오티드의 염기 사이의 상보적 염기쌍을 통해) 결합할 수 있으며, 그로 인해 염기 편집기를 편집하고자 하는 표적 핵산 서열에 대해 위치화(localization)시킨다. 일부 실시형태에서, 표적 폴리뉴클레오티드 서열은 단일-가닥 DNA 또는 이중-가닥 DNA를 포함한다. 일부 실시형태에서, 표적 폴리뉴클레오티드 서열은 RNA를 포함한다. 일부 실시형태에서, 표적 폴리뉴클레오티드 서열은 DNA-RNA 하이브리드를 포함한다.
폴리뉴클레오티드
프로그래밍가능한
뉴클레오티드 결합 도메인
용어 "폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인"은 특정 핵산 서열에 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인을 가이드하는, 가이드 폴리뉴클레오티드(예를 들어, 가이드 RNA)와 같은 핵산(예를 들어, DNA 또는 RNA)과 연관되는 단백질을 의미한다. 일부 실시형태에서, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인은 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인이다. 일부 실시형태에서, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인은 폴리뉴클레오티드 프로그래밍가능한 RNA 결합 도메인이다. 일부 실시형태에서, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인은 Cas9 단백질이다. 일부 실시형태에서, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인은 Cpf1 단백질이다.
폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인은 또한 RNA에 결합하는 핵산 프로그래밍가능한 단백질을 포함할 수 있음을 이해해야 한다. 예를 들어, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인은 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인을 RNA로 가이드하는 핵산과 연관될 수 있다. 본 개시 내에 구체적으로 열거되지 않지만, 다른 핵산 프로그래밍가능한 DNA 결합 단백질도 또한 본 개시의 범위 내에 있다.
염기 편집기의 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인은 그 자체로 하나 이상의 도메인을 포함할 수 있다. 예를 들어, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인은 하나 이상의 뉴클레아제 도메인을 포함할 수 있다. 일부 실시형태에서, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인의 뉴클레아제 도메인은 엔도뉴클레아제 또는 엑소뉴클레아제를 포함할 수 있다. 본 명세서에서, 용어 "엑소뉴클레아제"는 자유 말단으로부터 핵산(예를 들어, RNA 또는 DNA)을 소화할 수 있는 단백질 또는 폴리펩티드를 지칭하고, 용어 "엔도뉴클레아제"는 핵산(예를 들어, DNA 또는 RNA) 내의 내부 영역을 촉매화(예를 들어, 절단)할 수 있는 단백질 또는 폴리펩티드를 지칭한다. 일부 실시형태에서, 엔도뉴클레아제는 이중-가닥 핵산의 단일 가닥을 절단할 수 있다. 일부 실시형태에서, 엔도뉴클레아제는 이중-가닥 핵산 분자의 두 가닥 모두를 절단할 수 있다. 일부 실시형태에서, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인은 데옥시리보뉴클레아제일 수 있다. 일부 실시형태에서, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인은 리보뉴클레아제일 수 있다.
일부 실시형태에서, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인의 뉴클레아제 도메인은 표적 폴리뉴클레오티드의 0개, 1개, 또는 2개의 가닥을 절단할 수 있다. 일부 경우에, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인은 닉카아제 도메인을 포함할 수 있다. 본 명세서에서 용어 "닉카아제"는 이중나선화된(duplexed) 핵산 분자(예를 들어, DNA)에서 2개의 가닥 중 한 가닥만을 절단할 수 있는 뉴클레아제 도메인을 포함하는 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인을 지칭한다. 일부 실시형태에서, 닉카아제는 하나 이상의 돌연변이를 활성 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인에 도입함으로써 완전히 촉매적으로 활성인(예를 들어, 천연) 형태의 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인으로부터 유래될 수 있다. 예를 들어, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인이 Cas9에서 유래된 닉카아제 도메인을 포함하는 경우, Cas9-유래 닉카아제 도메인은 D10A 돌연변이 및 위치 840에 히스티딘(H)을 포함할 수 있다. 이러한 경우, 잔기 H840은 촉매 활성을 보유하고, 그로 인해 핵산 이중나선의 단일 가닥을 절단할 수 있다. 또 다른 예에서, Cas9-유래 닉카아제 도메인은 H840A 돌연변이를 포함할 수 있는 반면, 위치 10의 아미노산 잔기는 D로 유지된다. 일부 실시형태에서, 닉카아제는 닉카아제 활성에 필요하지 않은 뉴클레아제 도메인의 전부 또는 일부를 제거함으로써 완전히 촉매적으로 활성인(예를 들어, 천연) 형태의 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인으로부터 유래될 수 있다. 예를 들어, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인이 Cas9로부터 유래된 닉카아제 도메인을 포함하는 경우, Cas9-유래 닉카아제 도메인은 RuvC 도메인 또는 HNH 도메인의 전부 또는 일부의 결실을 포함할 수 있다.
예시적인 촉매적으로 활성인 Cas9의 아미노산 서열은 다음과 같다:
닉카아제 도메인을 포함하는 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인을 포함하는 염기 편집기는 그리하여 (예를 들어, 결합된 가이드 핵산의 상보적 서열에 의해 결정되는) 특정 폴리뉴클레오티드 표적 서열에서 단일 가닥 DNA 절단(닉)을 생성할 수 있다. 일부 실시형태에서, 닉카아제 도메인(예를 들어, Cas9-유래 닉카아제 도메인)을 포함하는 염기 편집기에 의해 절단되는 핵산 이중나선 표적 폴리뉴클레오티드 서열의 가닥은 염기 편집기에 의해 편집되지 않은 가닥이다(즉, 염기 편집기에 의해 절단된 가닥은 편집할 염기를 포함하는 가닥에 대해 반대이다). 다른 실시형태에서, 닉카아제 도메인(예를 들어, Cas9-유래 닉카아제 도메인)을 포함하는 염기 편집기는 편집을 위해 표적화되는 DNA 분자의 가닥을 절단할 수 있다. 이러한 경우, 비-표적 가닥은 절단되지 않는다.
또한 촉매적으로 멸실된(즉, 표적 폴리뉴클레오티드 서열을 절단할 수 없는) 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인을 포함하는 염기 편집기가 본 명세서에서 제공된다. 본 명세서에서 용어 "촉매적으로 멸실된" 및 "뉴클레아제 멸실된"은 핵산 가닥을 절단할 수 없도록 불능을 초래하는 하나 이상의 돌연변이 및/또는 결실을 갖는 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인을 지칭하기 위해 상호교환적으로 사용된다. 일부 실시형태에서, 촉매적으로 멸실된 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인 염기 편집기는 하나 이상의 뉴클레아제 도메인에서 특정 점 돌연변이의 결과로 뉴클레아제 활성이 결여될 수 있다. 예를 들어, Cas9 도메인을 포함하는 염기 편집기의 경우, Cas9는 D10A 돌연변이 및 H840A 돌연변이 둘 다를 포함할 수 있다. 이러한 돌연변이는 두 뉴클레아제 도메인을 모두 비활성화시켜, 그로 인해 뉴클레아제 활성의 손실을 초래한다. 다른 실시형태에서, 촉매적으로 멸실된 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인은 촉매 도메인(예를 들어, RuvC1 및/또는 HNH 도메인)의 전부 또는 일부의 하나 이상의 결실을 포함할 수 있다. 추가 실시형태에서, 촉매적으로 멸실된 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인은 점 돌연변이(예를 들어, D10A 또는 H840A)뿐만 아니라 뉴클레아제 도메인의 전부 또는 일부의 결실을 포함한다.
또한, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인의 이전의 기능적 버전으로부터 촉매적으로 멸실된 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인을 생성할 수 있는 돌연변이가 본 명세서에서 고려된다. 예를 들어, 촉매적으로 멸실된 Cas9("dCas9")의 경우, D10A 및 H840A 이외의 돌연변이를 갖는 변이체가 제공되며, 뉴클레아제 비활성화된 Cas9를 초래한다. 예시의 일환으로, 이러한 돌연변이는 D10 및 H840에서의 다른 아미노산 치환, 또는 Cas9의 뉴클레아제 도메인 내의 다른 치환(예를 들어, HNH 뉴클레아제 서브도메인 및/또는 RuvC1 서브도메인에서의 치환)을 포함한다. 추가의 적합한 뉴클레아제-비활성 dCas9 도메인은 본 개시 및 당해 기술 분야의 지식에 기초하여 당업자에게 명백할 수 있고, 본 개시의 범위 내에 있다. 이러한 추가의 예시적인 적합한 뉴클레아제-비활성 Cas9 도메인은 D10A/H840A, D10A/D839A/H840A, 및 D10A/D839A/H840A/N863A 돌연변이 도메인을 포함하지만, 이로만 제한되는 것은 아니다. (예를 들어, 이의 전체 내용이 본 명세서에 참조로 포함되는, 문헌[Prashant et al., CAS9 transcriptional activators for target specificity screening and paired nickases for cooperative genome engineering Nature Biotechnology. 2013; 31(9): 833-838] 참조).
염기 편집기에 통합될 수 있는 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인의 비제한적인 예는 CRISPR 단백질-유래 도메인, 제한 뉴클레아제, 메가뉴클레아제, TAL 뉴클레아제(TALEN), 및 징크 핑거 뉴클레아제(ZFN)를 포함한다. 일부 경우에, 염기 편집기는, 결합된 가이드 핵산을 통해 핵산의 CRISPR(즉, 일정한 간격을 두고 규칙적으로 분포하는 짧은 회문 반복부)-매개된 변형 동안 핵산 서열에 결합할 수 있는 천연 또는 변형된 단백질 또는 이의 일부를 포함하는 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인을 포함한다. 이러한 단백질은 본 명세서에서 "CRISPR 단백질"로 지칭된다. 따라서, 본 명세서에서는 CRISPR 단백질의 전부 또는 일부를 포함하는 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인을 포함하는 염기 편집기(즉, 염기 편집기의 "CRISPR 단백질-유래 도메인"으로도 지칭되는, CRISPR 단백질의 전부 또는 일부를 도메인으로서 포함하는 염기 편집기)를 개시한다. 염기 편집기에 통합된 CRISPR 단백질-유래 도메인은 CRISPR 단백질의 야생형 또는 천연 버전과 비교하여 변형될 수 있다. 예를 들어, 아래에서 설명하는 바와 같이, CRISPR 단백질-유래 도메인은 야생형 또는 천연 버전의 CRISPR 단백질에 비해 하나 이상의 돌연변이, 삽입, 결실, 재배열 및/또는 재조합을 포함할 수 있다.
CRISPR은 이동성(mobile) 유전 요소(바이러스, 트랜스포저블 요소 및 접합 플라스미드)에 대한 보호를 제공하는 적응 면역 시스템이다. CRISPR 클러스터는 스페이서, 선행 이동 요소에 상보적인 서열, 및 표적 침입 핵산을 포함한다. CRISPR 클러스터는 CRISPR RNA(crRNA)로 전사되고 가공(processing)된다. II형 CRISPR 시스템에서 pre-crRNA의 올바른 가공에는 트랜스-코딩된 소형 RNA(tracrRNA), 내인성 리보뉴클레아제3(rnc) 및 Cas9 단백질을 필요로 한다. tracrRNA는 pre-crRNA에 대한 리보뉴클레아제3-보조(aided) 가공을 위한 가이드로서 역할을 한다. 이어서, Cas9/crRNA/tracrRNA는 스페이서에 상보적인 선형 또는 원형 dsDNA 표적을 핵산내부분해방식으로(endonucleolytically) 절단한다. crRNA에 상보적이지 않은 표적 가닥은 먼저 핵산내부분해방식으로 절단된 다음 3'-5' 핵산외부분해방식으로(exonucleolytically) 트리밍된다. 천연에서, DNA 결합 및 절단에는 일반적으로 단백질과 두 RNA가 모두 필요하다. 그러나, 단일 가이드 RNA("sgRNA" 또는 간단히 "gRNA")는 crRNA 및 tracrRNA의 두 양상이 단일 RNA 종에 통합되도록 하기 위해 조작될 수 있다. 예를 들어, 이의 전체 내용이 본 명세서에 참조로 포함되는, 다음 문헌 참조: Jinek M., Chylinski K., Fonfara I., Hauer M., Doudna J. A., Charpentier E Science 337:816-821(2012). Cas9는 CRISPR 반복 서열(PAM 또는 프로토스페이서 인접 모티프)에서 짧은 모티프를 인식하여 "자기" 및 "비-자기" 구별을 돕는다.
일부 실시형태에서, 본 명세서에 기재된 방법은 조작된 Cas 단백질을 이용할 수 있다. 가이드 RNA(gRNA)는 Cas-결합에 필요한 스캐폴드 서열과 변형될 게놈 표적을 정의하는 사용자-정의된(user-defined) ~20개 뉴클레오티드 스페이서로 구성된 짧은 합성 RNA이다. 따라서, Cas 단백질 특이성의 게놈 표적을 변경하는 것은 게놈의 나머지와 비교하여 게놈 표적에 대한 gRNA 표적화 서열의 특이성에 의해 부분적으로 결정된다는 것을 이해할 것이다.
일부 실시형태에서, gRNA 스캐폴드 서열은 다음과 같다: GUUUUAGAGC UAGAAAUAGC AAGUUAAAAU AAGGCUAGUC CGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU.
일부 실시형태에서, 염기 편집기에 통합된 CRISPR 단백질-유래 도메인은 결합된 가이드 핵산과 연계시에 표적 폴리뉴클레오티드에 결합할 수 있는 엔도뉴클레아제(예를 들어, 데옥시리보뉴클레아제 또는 리보뉴클레아제)이다. 일부 실시형태에서, 염기 편집기에 통합된 CRISPR 단백질-유래 도메인은 결합된 가이드 핵산과 연계시에 표적 폴리뉴클레오티드에 결합할 수 있는 닉카아제이다. 일부 실시형태에서, 염기 편집기에 통합된 CRISPR 단백질-유래 도메인은 결합된 가이드 핵산과 연계시에 표적 폴리뉴클레오티드에 결합할 수 있는 촉매적으로 멸실된 도메인이다. 일부 실시형태에서, 염기 편집기의 CRISPR 단백질 유래 도메인에 의해 결합된 표적 폴리뉴클레오티드는 DNA이다. 일부 실시형태에서, 염기 편집기의 CRISPR 단백질-유래 도메인에 의해 결합된 표적 폴리뉴클레오티드는 RNA이다.
본 명세서에서 사용될 수 있는 Cas 단백질은 클래스 1 및 클래스 2를 포함한다. Cas 단백질의 비제한적인 예는 Cas1, Cas1B, Cas2, Cas3, Cas4, Cas5, Cas5d, Cas5t, Cas5h, Cas5a, Cas6, Cas7, Cas8, Cas9(Csn1 또는 Csx12로도 공지됨), Cas10, Csy1, Csy2, Csy3, Csy4, Cse1, Cse2, Cse3, Cse4, Cse5e, Csc1, Csc2, Csa5, Csn1, Csn2, Csm1, Csm2, Csm3, Csm4, Csm5, Csm6, Cmr1, Cmr3, Cmr4, Cmr5, Cmr6, Csb1, Csb2, Csb3, Csx17, Csx14, Csx10, Csx16, CsaX, Csx3, Csx1, Csx1S, Csf1, Csf2, CsO, Csf4, Csd1, Csd2, Cst1, Cst2, Csh1, Csh2, Csa1, Csa2, Csa3, Csa4, Csa5, Cas12a/Cpfl, Cas12b/C2cl, Cas12c/C2c3, Cas12d/CasY, Cas12e/CasX, Cas12g, Cas12h, 및 Cas12i CARF, DinG, 이들의 동족체, 또는 이들의 변형된 버전을 포함한다. 변형되지 않은 CRISPR 효소는 2개의 기능적 엔도뉴클레아제 도메인, RuvC 및 HNH를 갖는, Cas9와 같이, DNA 절단 활성을 가질 수 있다. CRISPR 효소는, 표적 서열 내 및/또는 표적 서열의 상보체(complement) 내와 같은, 표적 서열 내의 한 또는 두 가닥의 절단을 유도할 수 있다. 예를 들어, CRISPR 효소는 표적 서열의 첫 번째 또는 마지막 뉴클레오티드로부터의 약 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 15개, 20개, 25개, 50개, 100개, 200개, 500개, 또는 그 이상의 염기쌍 내에서 하나 또는 두 가닥의 절단을 유도할 수 있다.
돌연변이된 CRISPR 효소가 표적 서열을 포함하는 표적 폴리뉴클레오티드의 하나 또는 두 가닥을 절단하는 활성이 결여되도록 상응하는 야생형 효소에 대해 돌연변이된 CRISPR 효소를 코딩하는 벡터를 사용할 수 있다. Cas9는 예시적인 야생형 Cas9 폴리펩티드(예를 들어, S. 피오게네스로부터의 Cas9)에 대해 적어도 또는 적어도 약 50 %, 60 %, 70 %, 80 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 %, 99 % 또는 100 % 서열 동일성 및/또는 서열 상동성을 갖는 폴리펩티드를 지칭할 수 있다. Cas9는 (예를 들어, S. 피오게네스로부터의) 야생형 예시 Cas9 폴리펩티드에 대해 최대(at most) 또는 최대 약 50 %, 60 %, 70 %, 80 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 %, 99 %, 또는 100 % 서열 동일성 및/또는 서열 상동성을 갖는 폴리펩티드를 지칭할 수 있다. Cas9는 결실, 삽입, 치환, 변이체, 돌연변이, 융합, 키메라, 또는 이의 임의의 조합과 같은 아미노산 변화를 포함할 수 있는 Cas9 단백질의 야생형 또는 변형된 형태를 지칭할 수 있다.
일부 실시형태에서, 염기 편집기의 CRISPR 단백질-유래 도메인은 코리네박테리움 울세란스(Corynebacterium ulcerans)(NCBI 참조: NC_015683.1, NC_017317.1); 코리네박테리움 디프테리아(Corynebacterium diphtheria)(NCBI 참조: NC_016782.1, NC_016786.1); 스피로플라스마 시르피디콜라(Spiroplasma syrphidicola)(NCBI 참조: NC_021284.1); 프레보텔라 인터메디아(Prevotella intermedia)(NCBI 참조: NC_017861.1); 스피로플라스마 타이와넨세(Spiroplasma taiwanense)(NCBI 참조: NC_021846.1); 스트렙토코커스 이니애(Streptococcus iniae)(NCBI 참조: NC_021314.1); 벨리엘라 발티카(Belliella baltica)(NCBI 참조: NC_018010.1); 사이크로플렉수스 토르퀴스(Psychroflexus torquis)I(NCBI 참조: NC_018721.1); 스트렙토코커스 써모필러스(Streptococcus thermophilus)(NCBI 참조: YP_820832.1); 리스테리아 인노쿠아(Listeria innocua)(NCBI 참조: NP_472073.1); 캄필로박터 제주니(Campylobacter jejuni)(NCBI 참조: YP_002344900.1); 나이세리아 메닌지티디스(Neisseria meningitidis)(NCBI 참조: YP_002342100.1), 스트렙토코커스 피오게네스(Streptococcus pyogenes), 또는 스타필로코커스 아우레우스(Staphylococcus aureus)로부터의 Cas9의 전부 또는 일부를 포함할 수 있다.
핵염기
편집기의
Cas9
도메인
용어 "Cas9" 또는 "Cas9 도메인"은 Cas9 단백질 또는 이의 단편(예를 들어, Cas9의 활성, 비활성, 또는 부분 활성 DNA 절단(cleavage) 도메인을 포함하는 단백질, 및/또는 또는 Cas9의 gRNA 결합 도메인)을 포함하는 RNA 가이드된 뉴클레아제로 지칭한다. Cas9 뉴클레아제는 때때로 casn1 뉴클레아제 또는 CRISPR(clustered regularly interspaced short palindromic repeat) 관련 뉴클레아제로 또한 지칭된다. 예시적인 Cas9는, 스트렙토코커스 피오게네스(Streptococcus pyogenes) Cas9(SaCas9)이며, 이의 아미노산 서열은 아래에 제공된다:
Cas9 뉴클레아제 서열 및 구조는 당업자에게 잘 알려져 있다(예를 들어, 이들 각각의 전체 내용이 본 명세서에 참조로 포함되는, 다음 문헌 참조: "Complete genome sequence of an M1 strain of Streptococcus pyogenes." Ferretti et al., J.J., McShan W.M., Ajdic D.J., Savic D.J., Savic G., Lyon K., Primeaux C, Sezate S., Suvorov A.N., Kenton S., Lai H.S., Lin S.P., Qian Y., Jia H.G., Najar F.Z., Ren Q., Zhu H., Song L., White J., Yuan X., Clifton S.W., Roe B.A., McLaughlin R.E., Proc. Natl. Acad. Sci. U.S.A. 98:4658-4663(2001); "CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III." Deltcheva E., Chylinski K., Sharma C.M., Gonzales K., Chao Y., Pirzada Z.A., Eckert M.R., Vogel J., Charpentier E., Nature 471:602-607(2011); 및 "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity." Jinek M., Chylinski K., Fonfara I., Hauer M., Doudna J.A., Charpentier E. Science 337:816-821(2012)). Cas9 오르쏘로그(orthologs)는 S. 피오게네스(S. pyogenes) 및 S. 써모필루스(S. thermophilus)를 포함하지만, 이로만 제한되지 않는, 다양한 종에서 설명되었다. 추가의 적합한 Cas9 뉴클레아제 및 서열은 본 개시에 기초하여 당업자에게 명백할 것이고, 이러한 Cas9 뉴클레아제 및 서열은, 이의 전체 내용이 본 명세서에 참조로 포함되는, 문헌[Chylinski, Rhun, and Charpentier, "The tracrRNA and Cas9 families of type II CRISPR-Cas immunity systems" (2013) RNA Biology 10:5, 726-737]에 개시된 유기체 및 유전자좌로부터의 Cas9 서열을 포함한다.
일부 양상에서, 핵산 프로그래밍가능한 DNA 결합 단백질(napDNAbp)은 Cas9 도메인이다. Cas9 도메인의 비제한적인 예시가 본 명세서에 제공된다. Cas9 도메인은 뉴클레아제 활성 Cas9 도메인, 뉴클레아제 비활성 Cas9 도메인 또는 Cas9 닉카아제일 수 있다. 일부 실시형태에서, Cas9 도메인은 뉴클레아제 활성 도메인이다. 예를 들어, Cas9 도메인은 이중나선화된 핵산의 두 가닥(예를 들어, 이중나선화된 DNA 분자의 두 가닥)을 절단하는 Cas9 도메인일 수 있다. 일부 실시형태에서, Cas9 도메인은 본 명세서에 기재된 아미노산 서열 중 어느 하나를 포함한다. 일부 실시형태에서, Cas9 도메인은, 본 명세서에 제시된 아미노산 서열 중 어느 하나와 적어도 60 %, 적어도 65 %, 적어도 70 %, 적어도 75 %, 적어도 80 %, 적어도 85 %, 적어도 90 %, 적어도 95 %, 적어도 96 %, 적어도 97 %, 적어도 98 %, 적어도 99 % 또는 적어도 99.5 % 동일한 아미노산 서열을 포함한다. 일부 실시형태에서, Cas9 도메인은 본 명세서에 제시된 아미노산 서열 중 어느 하나와 비교하여 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 21개, 24개, 25개, 26개, 27개, 28개, 29개, 30개, 31개, 32개, 33개, 34개, 35개, 36개, 37개, 38개, 39개, 40개, 41개, 42개, 43개, 44개, 45개, 46개, 47개, 48개, 49개, 50개, 또는 그 이상의 돌연변이를 갖는 아미노산 서열을 포함한다. 일부 실시형태에서, Cas9 도메인은 본 명세서에 제시된 아미노산 서열 중 어느 하나와 비교하여 적어도 10개, 적어도 15개, 적어도 20개, 적어도 30개, 적어도 40개, 적어도 50개, 적어도 60개, 적어도 70개, 적어도 80개, 적어도 90개, 적어도 100개, 적어도 150개, 적어도 200개, 적어도 250개, 적어도 300개, 적어도 350개, 적어도 400개, 적어도 500개, 적어도 600개, 적어도 700개, 적어도 800개, 900개, 적어도 1000개, 적어도 1100개, 또는 적어도 1200개의 동일한 연속(contiguous) 아미노산 잔기를 포함한다.
일부 실시형태에서, Cas9의 단편을 포함하는 단백질이 제공된다. 예를 들어, 일부 실시형태에서, 단백질은 다음 2개의 Cas9 도메인 중 하나를 포함한다: (1) Cas9의 gRNA 결합 도메인; 또는 (2) Cas9의 DNA 절단 도메인. 일부 실시형태에서, Cas9 또는 이의 단편을 포함하는 단백질은 "Cas9 변이체"로 지칭된다. Cas9 변이체는 Cas9, 또는 이의 단편에 대한 상동성을 공유한다. 예를 들어, Cas9 변이체는 야생형 Cas9와 적어도 약 70 % 동일, 적어도 약 80 % 동일, 적어도 약 90 % 동일, 적어도 약 95 % 동일, 적어도 약 96 % 동일, 적어도 약 97 %, 적어도 약 98 % 동일, 적어도 약 99 % 동일, 적어도 약 99.5 %, 또는 적어도 약 99.9 % 동일하다. 일부 실시형태에서, Cas9 변이체는 야생형 Cas9과 비교하여 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 21개, 24개, 25개, 26개, 27개, 28개, 29개, 30개, 31개, 32개, 33개, 34개, 35개, 36개, 37개, 38개, 39개, 40개, 41개, 42개, 43개, 44개, 45개, 46개, 47개, 48개, 49개, 50개, 또는 그 이상의 아미노산 변화를 가질 수 있다. 일부 실시형태에서, Cas9 변이체는 Cas9의 단편(예를 들어, gRNA 결합 도메인 또는 DNA-절단 도메인)을 포함하여, 단편이 야생형 Cas9의 상응하는 단편에 대해 적어도 약 70 % 동일, 적어도 약 80 % 동일, 적어도 약 90 % 동일, 적어도 약 95 % 동일, 적어도 약 96 % 동일, 적어도 약 97 % 동일, 적어도 약 98 % 동일, 적어도 약 99 % 동일, 적어도 약 99.5 % 동일, 또는 적어도 약 99.9 % 동일하다. 일부 실시형태에서, 단편은 야생형 Cas9의 상응하는 아미노산 길이의 적어도 30 %, 적어도 35 %, 적어도 40 %, 적어도 45 %, 적어도 50 %, 적어도 55 %, 적어도 60 %, 적어도 65 %, 적어도 70 이상 %, 적어도 75 %, 적어도 80 %, 적어도 85 %, 적어도 90 %, 적어도 95 %, 적어도 96 %, 적어도 97 %, 적어도 98 %, 적어도 99 %, 또는 적어도 99.5 %이다. 일부 실시형태에서, 단편은 적어도 100개 아미노산 길이이다. 일부 실시형태에서, 단편은 적어도 100개, 150개, 200개, 250개, 300개, 350개, 400개, 450개, 500개, 550개, 600개, 650개, 700개, 750개, 800개, 850개, 900개, 950개, 1000개, 1050개, 1100개, 1150개, 1200개, 1250개, 또는 적어도 1300개의 아미노산 길이이다.
일부 실시형태에서, 본 명세서에 제공된 Cas9 융합 단백질은 Cas9 단백질의 전체-길이 아미노산 서열, 예를 들어, 본 명세서에 제공된 Cas9 서열 중 하나를 포함한다. 그러나, 다른 실시형태에서, 본 명세서에 제공된 융합 단백질은 전체-길이 Cas9 서열을 포함하지 않고 단지 하나 이상의 이의 단편을 포함한다. 적합한 Cas9 도메인 및 Cas9 단편의 예시적인 아미노산 서열이 본 명세서에 제공되고, Cas9 도메인 및 단편의 추가의 적합한 서열은 당업자에게 명백할 것이다.
Cas9 단백질은 Cas9 단백질을 가이드 RNA에 상보적인 특정 DNA 서열로 가이드하는 가이드 RNA와 결합할 수 있다. 일부 실시형태에서, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인은 Cas9 도메인, 예를 들어, 뉴클레아제 활성 Cas9, Cas9 닉카아제(nCas9) 또는 뉴클레아제 비활성 Cas9(dCas9)이다. 핵산 프로그래밍가능한 DNA 결합 단백질의 예는, 제한됨이 없이, Cas9(예를 들어, dCas9 및 nCas9), CasX, CasY, Cpf1, Cas12b/C2c1, 및 Cas12c/C2c3을 포함한다.
일부 실시형태에서, 야생형 Cas9는 스트렙토코커스 피오게네스(Streptococcus pyogenes)의 Cas9에 상응한다(NCBI 참조 서열: NC_017053.1, 뉴클레오티드 및 아미노산 서열은 아래와 같음).
(단일 밑줄: HNH 도메인; 이중 밑줄: RuvC 도메인).
일부 실시형태에서, 야생형 Cas9는 아래 뉴클레오티드 및/또는 아미노산 서열에 상응하거나, 이를 포함한다:
일부 실시형태에서, 야생형 Cas9는 스트렙토코커스 피오게네스로부터의 Cas9(NCBI 참조 서열: NC_002737.2(아래와 같은 뉴클레오티드 서열); 및 Uniprot 참조 서열: Q99ZW2(아래와 같은 아미노산 서열))에 상응한다:
일부 실시형태에서, Cas9는, 코리네박테리움 울세란스(Corynebacterium ulcerans)(NCBI 참조: NC_0156831, NC_017317.1); 코리네박테리움 디프테리아(Corynebacterium diphtheria)(NCBI 참조: NC_016782.1, NC_016786.1); 스피로플라스마 시르피디콜라(Spiroplasma syrphidicola)(NCBI 참조: NC_021284.1); 프레보텔라 인터메디아(Prevotella intermedia)(NCBI 참조: NC_017861.1); 스피로플라스마 타이와넨세(Spiroplasma taiwanense)(NCBI 참조:NC_021846.1); 스트렙토코커스 이니애(Streptococcus iniae)(NCBI 참조: NC_021314.1); 벨리엘라 발티카(Belliella baltica)(NCBI 참조: NC_018010.1); 사이크로플렉수스 토르퀴스(Psychroflexus torquis)I(NCBI 참조: NC_018721.1); 스트렙토코커스 써모필러스(Streptococcus thermophilus)(NCBI 참조: YP_820832.1), 리스테리아 인노쿠아(Listeria innocua)(NCBI 참조: NP_472073.1), 캄필로박터 제주니(Campylobacter jejuni)(NCBI 참조: YP_002344900.1) 또는 나이세리아 메닌지티디스(Neisseria meningitidis)(NCBI 참조: YP_002342100.1)으로부터의 Cas9 또는 임의의 다른 유기체로부터의 Cas9을 지칭한다.
이들의 변이체 및 상동체를 포함하는, 추가 Cas9 단백질(예를 들어, 뉴클레아제 멸실된 Cas9(dCas9), Cas9 닉카아제(nCas9), 또는 뉴클레아제 활성 Cas9)가, 본 개시의 범위 내에 있음을 이해해야 한다. 예시적인 Cas9 단백질은, 제한됨이 없이, 아래에 제공된 것들을 포함한다. 일부 실시형태에서, Cas9 단백질은 뉴클레아제 멸실된 Cas9(dCas9)이다. 일부 실시형태에서, Cas9 단백질은 Cas9 닉카아제(nCas9)이다. 일부 실시형태에서, Cas9 단백질은 뉴클레아제 활성 Cas9이다.
일부 실시형태에서, Cas9 도메인은 뉴클레아제-비활성 Cas9 도메인(dCas9)이다. 예를 들어, dCas9 도메인은 이중나선화된 핵산 분자의 어느 한 가닥을 절단하지 않고 이중나선화된 핵산 분자(예를 들어, gRNA 분자를 통해)에 결합할 수 있다. 일부 실시형태에서, 뉴클레아제-비활성 dCas9 도메인은 본 명세서에 제시된 아미노산 서열의 D10X 돌연변이 및 H840X 돌연변이, 또는 본 명세서에 제공된 임의의 아미노산 서열에서의 상응하는 돌연변이를 포함하며, 여기서 X는 임의의 아미노산 변화이다. 일부 실시형태에서, 뉴클레아제-비활성 dCas9 도메인은 본 명세서에 제시된 아미노산 서열의 D10A 돌연변이 및 H840A 돌연변이, 또는 본 명세서에 제공된 임의의 아미노산 서열에서의 상응하는 돌연변이를 포함한다. 일 예로서, 뉴클레아제-비활성 Cas9 도메인은 클로닝 벡터 pPlatTET-gRNA2(수탁 번호 BAV54124)에 제시된 아미노산 서열을 포함한다
예시적인 촉매적으로 비활성인 Cas9(dCas9)의 아미노산 서열은 다음과 같다:
(예를 들어, 이의 전체 내용이 본 명세서에 참조로 포함되는, 문헌[Qi et al., "Repurposing CRISPR as an RNA-guided platform for sequence-specific control of gene expression." Cell. 2013; 152(5):1173-83] 참조).
일부 실시형태에서, Cas9 뉴클레아제는 비활성(예를 들어, 비활성화된) DNA 절단 도메인을 갖고, 즉 Cas9는 "nCas9"단백질("닉카아제" Cas9의 경우)으로 지칭되는 닉카아제이다. 뉴클레아제-비활성화된 Cas9 단백질은 "dCas9" 단백질(뉴클레아제-"멸실된" Cas9의 경우) 또는 촉매적으로 비활성인 Cas9로 상호교환적으로 지칭될 수 있다. 비활성 DNA 절단 도메인을 갖는 Cas9 단백질(또는 이의 단편)을 생성하는 방법은 공지되어 있다(예를 들어, 각각의 전체 내용이 본 명세서에 참고로 포함되는, 다음 문헌 참조: Jinek et al., Science 337:816-821(2012); Qi et al., “Repurposing CRISPR as an RNA-Guided Platform for Sequence-Specific Control of Gene Expression” (2013) Cell 28;152(5):1173-83). 예를 들어, Cas9의 DNA 절단 도메인은 HNH 뉴클레아제 서브도메인과 RuvC1 서브도메인의 두개의 서브도메인을 포함하는 것으로 알려져 있다. HNH 서브 도메인은 gRNA에 상보적인 가닥을 절단하는 반면, RuvC1 서브 도메인은 비-상보적인 가닥을 절단한다. 이러한 서브도메인 내의 돌연변이는 Cas9의 뉴클레아제 활성을 침묵시킬 수 있다. 예를 들어, 돌연변이 D10A 및 H840A는 S. 피오게네스 Cas9의 뉴클레아제 활성을 완전히 비활성화시킨다(Jinek et al., Science 337:816-821(2012); Qi et al., Cell 28;152(5):1173-83 (2013)).
일부 실시형태에서, dCas9 도메인은 본 명세서에 제시된 dCas9 도메인 중 어느 하나와 적어도 60 %, 적어도 65 %, 적어도 70 %, 적어도 75 %, 적어도 80 %, 적어도 85 %, 적어도 90 %, 적어도 95 %, 적어도 96 %, 적어도 97 %, 적어도 98 %, 적어도 99 %, 또는 적어도 99.5 % 동일하다. 일부 실시형태에서, Cas9 도메인은 본 명세서에 제시된 아미노산 서열 중 어느 하나와 비교하여 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 21개, 24개, 25개, 26개, 27개, 28개, 29개, 30개, 31개, 32개, 33개, 34개, 35, 36개, 37개, 38개, 39개, 40개, 41개, 42개, 43개, 44개, 45개, 46개, 47개, 48개, 49개, 50개 또는 그 이상의 돌연변이를 갖는 아미노산 서열을 포함한다. 일부 실시형태에서, Cas9 도메인은 본 명세서에 제시된 아미노산 서열 중 어느 하나와 비교하여 적어도 10개, 적어도 15개, 적어도 20개, 적어도 30개, 적어도 40개, 적어도 50개, 적어도 60개, 적어도 70개, 적어도 80개, 적어도 90개, 적어도 100개, 적어도 150개, 적어도 200개, 적어도 250개, 적어도 300개, 적어도 350개, 적어도 400개, 적어도 500개, 적어도 600개, 적어도 700개, 적어도 800개, 900개, 적어도 1000개, 적어도 1100개, 또는 적어도 1200개의 동일한 인접 아미노산 잔기를 갖는 아미노산 서열을 포함한다.
일부 실시형태에서, dCas9는 Cas9 뉴클레아제 활성을 비활성화시키는 하나 이상의 돌연변이를 갖는 Cas9 아미노산 서열에 상응하거나, 부분적으로 또는 전체적으로 이를 포함한다. 예를 들어, 일부 실시형태에서, dCas9 도메인은 D10A 및 H840A 돌연변이 또는 또 다른 Cas9에서의 상응하는 돌연변이들을 포함한다.
일부 실시형태에서, dCas9는 dCas9(D10A 및 H840A)의 아미노산 서열을 포함한다:
일부 실시형태에서, Cas9 도메인은 D10A 돌연변이를 포함하는 반면, 위치 840의 잔기는 상기 제공된 아미노산 서열에서, 또는 본 명세서에 제공된 임의의 아미노산 서열 중의 상응하는 위치에서 히스티딘으로 유지된다.
다른 실시형태에서, D10A 및 H840A 이외의 돌연변이를 갖는 dCas9 변이체가 제공되며, 이는, 예를 들어, 뉴클레아제 비활성화된 Cas9(dCas9)를 초래한다. 예시의 일환으로, 이러한 돌연변이는 D10 및 H840에서의 다른 아미노산 치환, 또는 Cas9의 뉴클레아제 도메인 내의 다른 치환(예를 들어, HNH 뉴클레아제 서브도메인 및/또는 RuvC1 서브도메인에서의 치환)을 포함한다. 일부 실시형태에서, dCas9의 변이체 또는 상동체(homologues)는 적어도 약 70 % 동일, 적어도 약 80 % 동일, 적어도 약 90 % 동일, 적어도 약 95 % 동일, 적어도 약 98 % 동일, 적어도 약 99 % 동일, 적어도 약 99.5 % 동일, 또는 적어도 약 99.9 % 동일한 것으로 제공된다. 일부 실시형태에서, 약 5개 아미노산, 약 10개 아미노산, 약 15개 아미노산, 약 20개 아미노산, 약 25개 아미노산, 약 30 아미노산, 약 40 아미노산, 약 50개 아미노산, 약 75개 아미노산, 약 100개 아미노산 또는 그 이상 만큼 더 짧거나 더 긴, 아미노산 서열을 갖는 dCas9의 변이체가 제공된다.
일부 실시형태에서, Cas9 도메인은 Cas9 닉카아제이다. Cas9 닉카아제는 이중나선화된 핵산 분자(예를 들어, 이중나선화된 DNA 분자)의 한 가닥만 절단할 수 있는 Cas9 단백질 일 수 있다. 일부 실시형태에서, Cas9 닉카아제는 이중나선화된 핵산 분자의 표적 가닥을 절단하는데, 이는 Cas9 닉카아제가 Cas9에 결합된 gRNA(예를 들어, sgRNA)에 대해 (상보적인) 염기쌍을 이루는 가닥을 절단함을 의미한다. 일부 실시형태에서, Cas9 닉카아제는 D10A 돌연변이를 포함하고 위치 840에 히스티딘을 갖는다. 일부 실시형태에서, Cas9 닉카아제는 이중나선화된 핵산 분자의 비-표적, 비-염기-편집 가닥을 절단하며, 이는 Cas9 닉카아제가 Cas9에 결합된 gRNA(예를 들어, sgRNA)에 염기쌍이 아닌 가닥을 절단함을 의미한다. 일부 실시형태에서, Cas9 닉카아제는 H840A 돌연변이를 포함하고 위치 10에 아스파르트산 잔기 또는 상응하는 돌연변이를 갖는다. 일부 실시형태에서, Cas9 닉카아제는 본 명세서에 제공된 Cas9 닉카아제 중 어느 하나와 적어도 60 %, 적어도 65 %, 적어도 70 %, 적어도 75 %, 적어도 80 %, 적어도 85 %, 적어도 90 %, 적어도 95 %, 적어도 96 %, 적어도 97 %, 적어도 98 %, 적어도 99 % 또는 적어도 99.5 % 동일하다. 추가의 적합한 Cas9 닉카아제는 본 개시 및 해당 분야의 지식에 기초하여 당업자에게 명백할 것이며, 본 개시의 범위 내에 있다.
예시적인 촉매적으로 Cas9 닉카아제(nCas9)의 아미노산 서열은 다음과 같다:
일부 실시형태에서, Cas9는 단일-세포 원핵 미생물의 도메인 및 킹덤을 구성하는 고세균(예를 들어, 나노고세균(nanoarchaea)으로부터의 Cas9를 지칭한다. 일부 실시형태에서, 프로그래밍가능한 뉴클레오티드 결합 단백질은 CasX 또는 CasY 단백질일 수 있으며, 이는, 예를 들어, 이의 전체 내용이 본 명세서에 참조로 포함되는, 문헌[Burstein et al., "New CRISPR-Cas systems from uncultivated microbes" Cell Res. 2017 Feb 21 doi: 10.1038/cr.2017.21]에 기재된 것이다. 게놈-해체 메타유전체학(genome-resolved metagenomics)을 사용하여, 생명의 고세균 도메인에서 처음으로 보고된 Cas9를 포함하는, 다수의 CRISPR-Cas 시스템이 확인되었다. 이 분기된 Cas9 단백질은 활성 CRISPR-Cas 시스템의 일부로 거의 연구되지 않은 나노고세균에서 발견되었다. 박테리아에서, 이전에 알려지지 않은 2가지 시스템인, CRISPR-CasX 및 CRISPR-CasY가 발견되었으며, 이들은 지금까지 발견된 가장 컴팩트한 시스템 중 하나이다. 일부 실시형태에서, 본 명세서에 기재된 염기 편집기 시스템에서 Cas9는 CasX, 또는 CasX의 변이체로 대체된다. 일부 실시형태에서, 본 명세서에 기재된 염기 편집기 시스템에서 Cas9는 CasY, 또는 CasY의 변이체로 대체된다. 다른 RNA-가이드된 DNA 결합 단백질이 핵산 프로그래밍가능한 DNA 결합 단백질(napDNAbp)로 사용될 수 있으며, 본 개시의 범위 내에 있음을 이해해야 한다.
일부 실시형태에서, 본 명세서에서 제공된 임의의 융합 단백질의 핵산 프로그래밍가능한 DNA 결합 단백질(napDNAbp)은 CasX 또는 CasY일 수 있다. 일부 실시형태에서, napDNAbp은 CasX 단백질이다. 일부 실시형태에서, napDNAbp은 CasY 단백질이다. 일부 실시형태에서, napDNAbp은 자연적으로-발생하는 CasX 또는 CasY 단백질과 적어도 85 %, 적어도 90 %, 적어도 91 %, 적어도 92 %, 적어도 93 %, 적어도 94 %, 적어도 95 %, 적어도 96 %, 적어도 97 %, 적어도 98 %, 적어도 99 %, 또는 적어도 99.5 % 동일한 아미노산 서열을 포함한다. 일부 실시형태에서, 프로그래밍가능한 뉴클레오티드 결합 단백질은 자연적으로-발생하는 CasX 또는 CasY 단백질이다. 일부 실시형태에서, 프로그래밍가능한 뉴클레오티드 결합 단백질은 본 명세서에 기재된 임의의 CasX 또는 CasY 단백질과 적어도 85 %, 적어도 90 %, 적어도 91 %, 적어도 92 %, 적어도 93 %, 적어도 94 %, 적어도 95 %, 적어도 96 %, 적어도 97 %, 적어도 98 %, 적어도 99 %, 또는 적어도 99.5 % 동일한 아미노산 서열을 포함한다. 다른 박테리아 종으로부터의 CasX 및 CasY도 본 개시에 따라 사용될 수 있음을 이해해야 한다.
예시적인 CasX((uniprot.org/uniprot/F0NN87; uniprot.org/uniprot/F0NH53) tr|F0NN87|F0NN87_SULIHCRISPR-associatedCasx protein OS = Sulfolobus islandicus (strain HVE10/4) GN = SiH_0402 PE=4 SV=1) 아미노산 서열은 다음과 같다:
예시적인 CasX(>tr|F0NH53|F0NH53_SULIR CRISPR associated protein, Casx OS = Sulfolobus islandicus (strain REY15A) GN=SiRe_0771 PE=4 SV=1) 아미노산 서열은 다음과 같다:
델타프로테오박테리아 CasX
예시적인 CasY((ncbi.nlm.nih.gov/protein/APG80656.1) >APG80656.1 CRISPR-associated protein CasY [uncultured Parcubacteria group bacterium]) 아미노산 서열은 다음과 같다:
일부 실시형태에서, 핵산 프로그래밍가능한 DNA 결합 단백질(napDNAbp)은 미생물 CRISPR-Cas 시스템의 단일 이펙터이다. 미생물 CRISPR-Cas 시스템의 단일 이펙터는 Cas9, Cpf1, Cas12b/C2c1, 및 Cas12c/C2c3을 포함하나, 이로만 제한되는 것은 아니다. 전형적으로, 미생물 CRISPR-Cas 시스템은 클래스 1 및 클래스 2 시스템으로 구분된다. 클래스 1 시스템은 다중서브유닛 이펙터 복합체를 갖는 반면, 클래스 2 시스템은 단일 단백질 이펙터를 갖는다. 예를 들어, Cas9 및 Cpf1은 클래스 2 이펙터이다. Cas9 및 Cpf1 외에도 3개의 별개의 클래스 2 CRISPR-Cas 시스템(Cas12b/C2c1 및 Cas12c/C2c3)이, 이의 전체 내용이 본 명세서에 참조로 포함되는, 문헌[Shmakov et al., "Discovery and Functional Characterization of Diverse Class 2 CRISPR Cas Systems", Mol Cell, 2015 Nov 5; 60(3): 385-397]에 기재되어 있다. 시스템의 두 이펙터인, Cas12b/C2c1 및 Cas12c/C2c3은, Cpf1과 관련된 RuvC-유사 엔도뉴클레아제 도메인을 함유한다. 세 번째 시스템은, 2개의 예측된 HEPN RNase 도메인이 있는 이펙터를 포함한다. 성숙한 CRISPR RNA의 생산은 Cas12b/C2c1에 의한 CRISPR RNA의 생산과 달리 tracrRNA에 독립적이다. Cas12b/C2c1은 DNA 절단을 위해 CRISPR RNA와 tracrRNA 둘 다에 의존적이다.
알리사이클로바실러스 애시도테레스트리스(Alicyclobaccillus acidoterrastris) Cas12b/C2c1(AacC2c1)의 결정 구조는 키메라 단일 분자 가이드 RNA(sgRNA)와의 복합체를 이루는 것으로 밝혀졌다. 예를 들어, 이의 전체 내용이 본 명세서에 참조로 포함되는, 문헌[Liu et al., "C2c1-sgRNA Complex Structure Reveals RNA-Guided DNA Cleavage Mechanism", Mol Cell, 2017 Jan 19; 65(2):310-322] 참조. 결정 구조는 3원(ternary) 복합체로서 표적 DNA에 결합된 알리사이클로바실러스 애시도테레스트리스(Alicyclobacillus acidoterrestris) C2c1에서도 보고되었다. 예를 들어, 이의 전체 내용이 본 명세서에 참조로 포함되는, 문헌[Yang et al., "PAM-dependent Target DNA Recognition and Cleavage by C2C1 CRISPR-Cas endonuclease", Cell, 2016 Dec 15; 167(7):1814-1828] 참조. 표적 가닥 및 비-표적 DNA 가닥 둘 다를 가진, AacC2c1의 촉매적으로 적격인 입체형태(conformations)는 단일 RuvC 촉매 포켓 내에 독립적으로 포획되어, Cas12b/C2c1-매개 절단으로 표적 DNA의 엇갈린(staggered) 7개-뉴클레오티드 파손(break)을 초래한다. Cas12b/C2c1 3원 복합체와 이전에 확인된 Cas9 및 Cpf1 대응물 간의 구조적 비교는 CRISPR-Cas9 시스템에서 사용되는 메커니즘의 다양성을 입증한다.
일부 실시형태에서, 본 명세서에 제공된 임의의 융합 단백질의 핵산 프로그래밍가능한 DNA 결합 단백질(napDNAbp)은 Cas12b/C2c1, 또는 Cas12c/C2c3 단백질일 수 있다. 일부 실시형태에서, napDNAbp는 Cas12b/C2c1 단백질이다. 일부 실시형태에서, napDNAbp는 Cas12c/C2c3 단백질이다. 일부 실시형태에서, napDNAbp는 자연적으로-발생하는 Cas12b/C2c1 또는 Cas12c/C2c3 단백질과 적어도 85 %, 적어도 90 %, 적어도 91 %, 적어도 92 %, 적어도 93 %, 적어도 94 %, 적어도 95 %, 적어도 96 %, 적어도 97 %, 적어도 98 %, 적어도 99 %, 또는 적어도 99.5 % 동일한 아미노산 서열을 포함한다. 일부 실시형태에서, napDNAbp는 자연적으로-발생하는 Cas12b/C2c1 또는 Cas12c/C2c3 단백질이다. 일부 실시형태에서, napDNAbp는 본 명세서에 제공된 napDNAbp 서열 중 어느 하나와 적어도 85 %, 적어도 90 %, 적어도 91 %, 적어도 92 %, 적어도 93 %, 적어도 94 %, 적어도 95 %, 적어도 96 %, 적어도 97 %, 적어도 98 %, 적어도 99 %, 또는 적어도 99.5 % 동일한 아미노산 서열을 포함한다. 다른 박테리아 종으로부터의 Cas12b/C2c1 또는 Cas12c/C2c3도 본 개시에 따라 사용될 수 있음을 이해해야 한다.
Cas12b/C2c1((uniprot.org/uniprot/T0D7A2#2) sp|T0D7A2|C2C1_ALIAG CRISPR-associated endonuclease C2c1 OS = Alicyclobacillus acido - terrestris (strain ATCC 49025/DSM 3922/CIP 106132/NCIMB 13137/GD3B) GN=c2c1 PE=1 SV=1) 아미노산 서열은 다음과 같다:
BhCas12b(Bacillus hisashii) NCBI 참조 서열: WP_095142515
일부 실시형태에서, Cas12b는 BvCas12B이고, 이는 BhCas12b의 변이체이며 BhCas12B에 비해 다음의 변화를 포함한다: S893R, K846R 및 E837G.
BvCas12b(Bacillus sp. V3-13) NCBI 참조 서열: WP_101661451.1
Cas9 뉴클레아제는 다음 두 가지 기능적 엔도뉴클레아제 도메인을 가지고 있다: RuvC 및 HNH. Cas9는 표적 DNA의 반대 가닥을 절단하도록 뉴클레아제 도메인을 위치시키는 표적 결합시 두 번째 입체형태 변화를 겪는다. Cas9-매개 DNA 절단의 최종 결과는 표적 DNA 내의 이중 가닥 절단(DSB)이다(PAM 서열의 상류에서 약 3-4개 뉴클레오티드) 생성된 DSB는 다음 두 가지 일반적인 복구 경로 중 하나에 의해 복구된다: (1) 효율적이지만 오류-빈번한 비상동성 말단 결합(NHEJ) 경로; 또는 (2) 덜 효율적이지만 고-충실도 상동성 직접 복구(HDR) 경로.
비상동성 말단 결합(NHEJ) 및/또는 상동성 직접 복구(HDR)의 "효율"은 임의의 편리한 방법으로 계산할 수 있다. 예를 들어, 일부 경우에, 성공적인 HDR의 백분율의 관점에서 효율을 나타낼 수 있다. 예를 들어, 조사자(surveyor) 뉴클레아제 분석을 사용하여 절단 산물을 생성할 수 있으며 생성물 대 기질의 비율을 이용하여 백분율을 계산할 수 있다. 예를 들어, 성공적인 HDR의 결과로 새롭게 통합된 제한 서열을 포함하는 DNA를 직접 절단하는 조사자 뉴클레아제 효소를 사용할 수 있다. 더 많은 절단된 기질은 더 높은 HDR 백분율을 나타낸다(HDR의 효율이 더 높음). 예시적인 일예로서, HDR의 비율(fraction)(백분율)은 다음 방정식을 사용하여 계산할 수 있다: [(절단 생성물)/(기질 + 절단 생성물)](예를 들어, (b + c)/(a + b + c), 여기서 "a"는 DNA 기질의 밴드 강도이고 "b" 및 "c"는 절단 생성물이다).
일부 경우에, 효율은 성공적인 NHEJ의 백분율의 관점에서 나타낼 수 있다. 예를 들어, T7 엔도뉴클레아제 I 분석을 사용하여 절단 생성물을 생성할 수 있으며 생성물 대 기질의 비율을 사용하여 NHEJ 백분율을 계산할 수 있다. T7 엔도뉴클레아제 I은 야생형 및 돌연변이 DNA 가닥의 혼성화로 인해 발생하는 불일치된 이종이중나선(heteroduplex) DNA를 절단한다(NHEJ는 본래의 절단 부위에서 작은 무작위 삽입 또는 결실(인델)을 생성한다). 더 많은 절단은 더 높은 NHEJ 백분율(NHEJ의 더 높은 효율)을 나타낸다. 예시적인 예로서, NHEJ의 비율(백분율)은 다음 방정식을 사용하여 계산할 수 있다: (1-(1-(b+c)/(a+b+c))1/2) × 100, 여기서 "a"는 DNA 기질의 밴드 강도이고, "b" 및 "c"는 절단 생성물이다(Ran et al., Cell 2013 Sep 12; 154(6):1380-9; 및 Ran et al., Nat Protoc 2013 Nov; 8(11): 2281-2308.
NHEJ 복구 경로는 가장 활동적인 복구 메커니즘이며, DSB 부위에 작은 뉴클레오티드 삽입 또는 결실(인델)을 자주 발생시킨다. NHEJ-매개 DSB 복구의 무작위성은, Cas9 및 gRNA 또는 가이드 폴리뉴클레오티드를 발현하는 세포 집단이 다양한 돌연변이 배열(arrays)을 초래할 수 있기 때문에, 중요한 실제적인 영향(implications)을 미친다. 대부분의 경우에, NHEJ는 표적 DNA에서 작은 인델을 생성하여 아미노산 결실, 삽입, 또는 프레임 이동 돌연변이를 일으켜 표적 유전자의 오픈 리딩 프레임(ORF) 내에서 조기 정지 코돈을 야기한다. 이상적인 최종 결과는 표적 유전자 내의 기능소실(loss-of-function) 돌연변이이다.
NHEJ-매개 DSB 복구는 종종 유전자의 오픈 리딩 프레임을 파괴하지만, 상동성 직접 복구(HDR)는 단일 뉴클레오티드 변화에서 형광단 또는 태그 추가와 같은 거대 삽입에 이르는 특정 뉴클레오티드 변화를 생성하는 데 사용할 수 있다.
유전자 편집을 위해 HDR을 활용하기 위해, 원하는 서열을 포함하는 DNA 복구 주형을 gRNA(들) 및 Cas9 또는 Cas9 닉카아제와 함께 관심 세포 유형 내로 전달할 수 있다. 복구 주형은 원하는 편집물(edit)뿐만 아니라 표적의 상류 및 하류에 바로 추가 상동 서열(왼쪽 & 오른쪽 상동성 암이라고 함)을 포함할 수 있다. 각 상동성 암의 길이는 도입되는 변경의 크기에 따라 달라질 수 있으며, 더 큰 삽입에는 더 긴 상동성 암을 필요로 한다. 복구 주형은 단일-가닥 올리고뉴클레오티드, 이중-가닥 올리고뉴클레오티드, 또는 이중-가닥 DNA 플라스미드일 수 있다. HDR의 효율은 일반적으로 Cas9, gRNA 및 외인성(exogenous) 복구 주형을 발현하는 세포에서 조차 낮다(변형된 대립유전자의 < 10 %). HDR은 세포 주기의 S 및 G2 단계에서 발생하기 때문에, 세포를 동기화하여 HDR의 효율을 향상시킬 수 있다. NHEJ에 관여하는 유전자를 화학적으로 또는 유전적으로 억제하면 HDR 빈도를 또한 증가시킬 수 있다.
일부 실시형태에서, Cas9는 변형된 Cas9이다. 주어진 gRNA 표적화 서열은 부분 상동성이 존재하는 게놈 전체에 추가 부위를 가질 수 있다. 이러한 부위를 표적-이탈 부위(off-targets)라고 하며, gRNA를 설계할 때 고려해야 한다. gRNA 디자인을 최적화하는 것 외에도, Cas9에 대한 변형을 통해 CRISPR 특이성을 높일 수 있다. Cas9는 두개의 뉴클레아제 도메인, RuvC 및 HNH의 조합된 활성을 통해 이중 가닥 절단(DSB)을 생성한다. SpCas9의 D10A 돌연변이체인, Cas9 닉카아제는 하나의 뉴클레아제 도메인을 보유하고, DSB보다 DNA 닉을 생성한다. 닉카아제 시스템은 특정 유전자 편집을 위해 HDR-매개 유전자 편집과 조합될 수도 있다.
일부 경우에, Cas9는 변이체 Cas9 단백질이다. 변이체 Cas9 폴리펩티드는 야생형 Cas9 단백질의 아미노산 서열과 비교할 때, 하나의 아미노산이 다른(예를 들어, 결실, 삽입, 치환, 융합을 갖는) 아미노산 서열을 갖는다. 일부 경우에, 변이체 Cas9 폴리펩티드는 Cas9 폴리펩티드의 뉴클레아제 활성을 감소시키는 아미노산 변화(예를 들어, 결실, 삽입 또는 치환)를 갖는다. 예를 들어, 일부 경우에, 변이체 Cas9 폴리펩티드는 상응하는 야생형 Cas9 단백질 활성의 50 % 미만, 40 % 미만, 30 % 미만, 20 % 미만, 10 % 미만, 5 % 미만, 또는 1 % 미만의 뉴클레아제를 가진다. 일부 경우에, 변이체 Cas9 단백질은 실질적인 뉴클레아제 활성이 없다. 대상 Cas9 단백질이 실질적인 뉴클레아제 활성을 갖지 않는 변이체 Cas9 단백질인 경우, "dCas9"로 지칭될 수 있다.
일부 경우에, 변이체 Cas9 단백질은 감소된 뉴클레아제 활성을 갖는다. 예를 들어, 변이체 Cas9 단백질은 야생형 Cas9 단백질, 예를 들어, 야생형 Cas9 단백질의 엔도뉴클레아제 활성의 약 20 % 미만, 약 15 % 미만, 약 10 % 미만, 약 5 % 미만, 약 1 % 미만, 또는 약 0.1 % 미만을 나타낸다.
일부 경우에, 변이체 Cas9 단백질은 가이드 표적 서열의 상보적 가닥을 절단할 수 있지만 이중 가닥 가이드 표적 서열의 비-상보적 가닥을 절단하는 활성이 감소된다. 예를 들어, 변이체 Cas9 단백질은 RuvC 도메인의 기능을 감소시키는 돌연변이(아미노산 치환)를 가질 수 있다. 비제한적인 예로서, 일부 실시형태에서, 변이체 Cas9 단백질은 D10A(아미노산 위치 10에 아스파르테이트에서 알라닌)를 갖고, 그리하여 이중 가닥 가이드 표적 서열의 상보적 가닥을 절단할 수 있지만, 이중 가닥 가이드 표적 서열의 비-상보적 가닥을 절단하는 활성이 감소된다(따라서 변이체 Cas9 단백질은 이중 가닥 표적 핵산을 절단할 때, 이중 가닥 절단(DSB) 대신 단일 가닥 절단(SSB)을 초래한다)(예를 들어, 문헌[Jinek et al., Science 2012 Aug 17; 337(6096):816-21] 참조).
일부 경우에, 변이체 Cas9 단백질은 이중 가닥 가이드 표적 서열의 비-상보적 가닥을 절단할 수 있지만, 가이드 표적 서열의 상보적 가닥을 절단하는 활성이 감소된다. 예를 들어, 변이체 Cas9 단백질은 HNH 도메인(RuvC/HNH/RuvC 도메인 모티프)의 기능을 감소시키는 돌연변이(아미노산 치환)를 가질 수 있다. 비제한적인 예로서, 일부 실시형태에서, 변이체 Cas9 단백질은 H840A(아미노산 위치 840에서 히스티딘에서 알라닌으로) 돌연변이를 갖고, 따라서 가이드 표적 서열의 비-상보성 가닥을 절단할 수 있지만, 가이드 표적 서열의 상보적 가닥을 절단하는 활성이 감소된다(따라서 변이체 Cas9 단백질은 이중 가닥 가이드 표적 서열을 절단할 때 DSB 대신 SSB를 초래한다). 이러한 Cas9 단백질은 가이드 표적 서열(예를 들어, 단일 가닥 가이드 표적 서열)을 절단하는 감소된 활성을 갖지만, 가이드 표적 서열(예를 들어, 단일 가닥 가이드 표적 서열)에 결합하는 활성을 보유한다.
일부 경우에, 변이체 Cas9 단백질은 이중 가닥 표적 DNA의 상보적 및 비-상보적 가닥 둘 다를 절단하는 활성이 감소된다. 비제한적인 예로서, 일부 경우에, 변이체 Cas9 단백질은 D10A 및 H840A 돌연변이 둘 다를 보유하여 폴리펩티드가 이중 가닥 표적 DNA의 상보적 및 비-상보적 가닥 둘 다를 절단하는 활성이 감소된다. 이러한 Cas9 단백질은 표적 DNA(예를 들어, 단일 가닥 표적 DNA)를 절단하는 활성이 감소되지만 표적 DNA(예를 들어, 단일 가닥 표적 DNA)에 결합하는 활성을 보유한다.
또 다른 비제한적 예로서, 일부 경우에, 변이체 Cas9 단백질은 W476A 및 W1126A 돌연변이를 보유하여 폴리펩티드가 표적 DNA를 절단하는 활성이 감소된다. 이러한 Cas9 단백질은 표적 DNA(예를 들어, 단일 가닥 표적 DNA)를 절단하는 활성이 감소되지만 표적 DNA(예를 들어, 단일 가닥 표적 DNA)에 결합하는 활성을 보유한다.
또 다른 비제한적 예로서, 일부 경우에, 폴리펩티드가 표적 DNA를 절단하는 활성이 감소되도록 변이체 Cas9 단백질은 P475A, W476A, N477A, D1125A, W1126A, 및 D1127A 돌연변이를 보유한다. 이러한 Cas9 단백질은 표적 DNA(예를 들어, 단일 가닥 표적 DNA)를 절단하는 활성이 감소되지만 표적 DNA(예를 들어, 단일 가닥 표적 DNA)에 결합하는 활성을 보유한다.
또 다른 비제한적 예로서, 일부 경우에, 변이체 Cas9 단백질은 폴리펩티드가 표적 DNA를 절단하는 활성이 감소되도록 H840A, W476A, 및 W1126A, 돌연변이를 내포한다. 이러한 Cas9 단백질은 표적 DN (예를 들어, 단일 가닥 표적 DNA)를 절단하는 활성이 감소되지만 표적 DNA(예를 들어, 단일 가닥 표적 DNA)에 결합하는 활성을 보유한다. 또 다른 비제한적 예로서, 일부 경우에, 변이체 Cas9 단백질은 폴리펩티드가 표적 DNA를 절단하는 활성이 감소되도록 H840A, D10A, W476A, 및 W1126A, 돌연변이를 내포한다. 이러한 Cas9 단백질은 표적 DNA(예를 들어, 단일 가닥 표적 DNA)를 절단하는 활성이 감소되지만 표적 DNA(예를 들어, 단일 가닥 표적 DNA)에 결합하는 활성을 보유한다. 일부 실시형태에서, 변이체 Cas9는 Cas9 HNH 도메인의 위치 840에 회복된 촉매 His 잔기를 갖는다(A840H).
또 다른 비제한적 예로서, 일부 경우에, 변이체 Cas9 단백질은 폴리펩티드가 표적 DNA를 절단하는 활성이 감소되도록 H840A, P475A, W476A, N477A, D1125A, W1126A, 및 D1127A 돌연변이를 내포한다. 이러한 Cas9 단백질은 표적 DNA(예를 들어, 단일 가닥 표적 DNA)를 절단하는 활성이 감소되지만 표적 DNA(예를 들어, 단일 가닥 표적 DNA)에 결합하는 활성을 보유한다. 또 다른 비제한적 예로서, 일부 경우에, 변이체 Cas9 단백질은 폴리펩티드가 표적 DNA를 절단하는 활성이 감소되도록 D10A, H840A, P475A, W476A, N477A, D1125A, W1126A, 및 D1127A 돌연변이를 내포한다. 이러한 Cas9 단백질은 표적 DNA(예를 들어, 단일 가닥 표적 DNA)를 절단하는 활성이 감소되지만 표적 DNA(예를 들어, 단일 가닥 표적 DNA)에 결합하는 활성을 보유한다. 일부 경우에, 변이체 Cas9 단백질이 W476A 및 W1126A 돌연변이를 내포하거나 변이체 Cas9 단백질이 P475A, W476A, N477A, D1125A, W1126A, 및 D1127A 돌연변이를 내포할 때, 변이체 Cas9 단백질은 PAM 서열에 효율적으로 결합하지 않는다. 따라서, 이러한 일부 경우에, 이러한 변이체 Cas9 단백질이, 결합 방법에 사용되는 경우, 이 방법은 PAM 서열을 필요로 하지 않는다. 달리 말해서, 일부 경우에, 이러한 변이체 Cas9 단백질이 결합 방법에 사용되는 경우, 이 방법은 가이드 RNA를 포함할 수 있지만, 방법은 PAM 서열의 부재하에 수행될 수 있다(결합의 특이성은 그리하여 가이드 RNA의 표적화 세그먼트에 의해 제공된다). 상기 효과를 달성(즉, 하나 또는 다른 뉴클레아제 부분을 비활성화)하기 위해, 다른 잔기를 돌연변이시킬 수 있다. 비제한적인 예로서, 잔기 D10, G12, G17, E762, H840, N854, N863, H982, H983, A984, D986, 및/또는 A987은 변경(즉, 치환)될 수 있다. 또한, 알라닌 치환 이외의 돌연변이가 적합하다.
일부 실시형태에서, 감소된 촉매 활성을 갖는 변이체 Cas9 단백질(예를 들어, Cas9 단백질이 D10, G12, G17, E762, H840, N854, N863, H982, H983, A984, D986, 및/또는 A987 돌연변이, 예를 들어, D10A, G12A, G17A, E762A, H840A, N854A, N863A, H982A, H983A, A984A, 및/또는 D986A를 갖는 경우)은, 가이드 RNA와 상호작용할 수 있는 활성을 보유하는 한, (가이드 RNA에 의해 표적 DNA 서열로 여전히 가이드되기 때문에) 여전히 부위-특이적 방식으로 표적 DNA에 결합할 수 있다.
일부 실시형태에서, 변이체 Cas 단백질은 spCas9, spCas9-VRQR, spCas9-VRER, xCas9(sp), saCas9, saCas9-KKH, spCas9-MQKSER, spCas9-LRKIQK, 또는 spCas9-LRVSQL일 수 있다.
S. 피오게네스(S. pyogenes) Cas9의 대안은 포유류 세포에서 절단 활성을 나타내는 Cpf1 패밀리의 RNA-가이드된 엔도뉴클레아제를 포함할 수 있다. 프레보텔라(Prevotella) 및 프란시셀라(Francisella) 1(CRISPR/Cpf1)의 CRISPR은 CRISPR/Cas9 시스템과 유사한 DNA 편집 기술이다. Cpf1은 클래스 II CRISPR/Cas 시스템의 RNA-가이드 엔도 뉴클레아제이다. 이 후천성(acquired) 면역 메커니즘은 프레보텔라(Prevotella) 및 프란시셀라(Francisella) 박테리아에서 발견된다. Cpf1 유전자는 CRISPR 유전자좌와 연관되어, 가이드 RNA를 이용하여 바이러스 DNA를 찾고 절단하는 엔도뉴클레아제를 코딩한다. Cpf1은 Cas9보다 작고 단순한 엔도뉴클레아제이기 때문에, CRISPR/Cas9 시스템의 일부 제한을 극복할 수 있다. Cas9 뉴클레아제와 달리, Cpf1-매개 DNA 절단의 결과는 짧은 3' 오버행(overhang)이 있는 이중 가닥 파손이다. Cpf1의 엇갈린 절단 패턴은 전형적인 제한 효소 클로닝과 유사한, 방향성 유전자 전달 가능성을 열어 두어, 유전자 편집의 효율성을 증가시킬 수 있다. 위에서 설명한 Cas9 변이체 및 오르쏘로그와 마찬가지로, Cpf1은, CRISPR에 의해 표적화될 수 있는 부위의 수를 SpCas9가 선호하는 NGG PAM 부위가 없는 AT-풍부 영역 또는 AT-풍부 게놈으로 확장할 수도 있다. Cpf1 유전자좌는 혼합된 알파/베타 도메인, RuvC-I 다음에 나선형 영역, RuvC-II 및 징크 핑거-유사 도메인을 포함한다. Cpf1 단백질은 Cas9의 RuvC 도메인과 유사한 RuvC-유사 엔도뉴클레아제 도메인을 갖는다. 또한, Cpf1에는 HNH 엔도뉴클레아제 도메인이 없고, Cpf1의 N-말단에는 Cas9의 알파-나선 인식 로브가 없다. Cpf1 CRISPR-Cas 도메인 아키텍처는 Cpf1이 기능적으로 독특함을 보여주며, 이는 클래스 2, 타입 V CRISPR 시스템으로 분류되는 것임을 보여준다. Cpf1 유전자좌는 유형 II 시스템에서보다 유형 I 및 III와 더 유사한 Cas1, Cas2 및 Cas4 단백질을 코딩한다. 기능성 Cpf1은 트랜스-활성화 CRISPR RNA(tracrRNA)를 필요로 하지 않으며, 그리하여, CRISPR(crRNA)만 필요로 한다. 이는 Cpf1이 Cas9보다 작을 뿐만 아니라, 더 적은 sgRNA 분자(Cas9의 뉴클레오티드 수의 대략 절반)를 가지기 때문에, 게놈 편집에 도움이 된다. Cpf1-crRNA 복합체는 Cas9에 의해 표적화된 G-풍부 PAM과 대조적으로 모티프 5'-YTN-3'에 인접한 프로토스페이서의 식별에 의해 표적 DNA 또는 RNA를 절단한다. PAM의 식별 후, Cpf1은 4개 또는 5개의 뉴클레오티드 오버행의 점착-말단-유사(sticky-end-like) DNA 이중 가닥 절단을 도입한다.
본 개시의 일부 양상은, 단백질을 특정 핵산(예를 들어, DNA 또는 RNA) 서열로 가이드하는 데 사용될 수 있는, 핵산 프로그래밍가능한 DNA 결합 단백질, 예컨대, 염기 편집기로 작용하는 도메인을 포함하는 융합 단백질을 제공한다. 특정 실시형태에서, 융합 단백질은 핵산 프로그래밍가능한 DNA 결합 단백질 도메인 및 데아미나제 도메인을 포함한다. DNA 결합 단백질은, 제한됨이 없이, Cas9(예를 들어, dCas9 및 nCas9), Cas12a/Cpfl, Cas12b/C2cl, Cas12c/C2c3, Cas12d/CasY, Cas12e/CasX, Cas12g, Cas12h, 및 Cas12i를 포함한다. Cas9와 다른 PAM 특이성을 갖는 프로그래밍가능한 폴리뉴클레오티드 결합 단백질의 한 예는 프레보텔라(Prevotella) 및 프란시셀라(Francisella) 1(Cpf1)의 일정한 간격을 두고 규칙적으로 분포하는 짧은 회문 반복부이다. Cas9와 유사하게, Cpf1은 클래스 2 CRISPR 이펙터이기도 하다. Cpf1은 Cas9와는 다른 특징으로 강력한(roboust) DNA 간섭을 매개하는 것으로 밝혀졌다. Cpf1은 tracrRNA가 결여된 단일 RNA-가이드 엔도뉴클레아제이며, T가 풍부한 프로토스페이서 인접 모티프(TTN, TTTN, 또는 YTN)를 사용한다. 또한, Cpf1은 엇갈린 DNA 이중-가닥 파손을 통해 DNA를 절단한다. 16개의 Cpf1 계열 단백질 중 애시드아미노코쿠스(Acidaminococcus)와 라크노스피라세애(Lachnospiraceae)의 두 효소가 인간 세포에서 효율적인 게놈 편집 활성을 갖는 것으로 밝혀졌다. Cpf1 단백질은 당업계에 공지되어 있으며, 예를 들어, 이의 전체 내용이 본 명세서에 참조로 포함되는, 문헌[Yamano et al., "Crystal structure of Cpf1 in complex with guide RNA and target DNA." Cell (165) 2016, p 949-962]에 이미 설명되었다.
또한 본 조성물 및 방법에서 가이드 뉴클레오티드 서열-프로그래밍가능한 DNA 결합 단백질 도메인으로 사용될 수 있는 뉴클레아제-비활성 Cpf1(dCpf1) 변이체가 유용하다. Cpf1 단백질은 Cas9의 RuvC 도메인과 유사하지만 HNH 엔도뉴클레아제 도메인이 없는 RuvC-유사 엔도뉴클레아제 도메인을 가지며, Cpf1의 N-말단에는 Cas9의 α-나선 인식 로브가 없다. 문헌[Zetsche et al., Cell, 163, 759-771, 2015](본 명세서에 참고로 포함됨)에서 Cpf1의 RuvC-유사 도메인이 DNA 두 가닥을 절단하는 것을 담당하고 RuvC-유사 도메인의 비활성화는 Cpf1 뉴클레아제 활성을 비활성화한다 것을 밝혀냈다. 예를 들어, 프란시엘라 노비시다(Francisella novicida) Cpf1의 D917A, E1006A, 또는 D1255A에 상응하는 돌연변이는 Cpf1 뉴클레아제 활성을 비활성화한다. 일부 실시형태에서, 본 개시의 dCpf1은 D917A, E1006A, D1255A, D917A/E1006A, D917A/D1255A, E1006A/D1255A, 또는 D917A/E1006A/D1255A에 상응하는 돌연변이를 포함한다. 임의의 돌연변이, 예를 들어, Cpf1의 RuvC 도메인을 비활성화하는 치환 돌연변이, 결실, 또는 삽입이 본 개시에 따라 사용될 수 있음을 이해해야 한다.
일부 실시형태에서, 본 명세서에 제공된 임의의 융합 단백질의 핵산 프로그래밍가능한 뉴클레오티드 결합 단백질은 Cpf1 단백질일 수 있다. 일부 실시형태에서, Cpf1 단백질은 Cpf1 닉카아제(nCpf1)이다. 일부 실시형태에서, Cpf1 단백질은 뉴클레아제 비활성 Cpf1(dCpf1)이다. 일부 실시형태에서, Cpf1, nCpf1, 또는 dCpf1은 본 명세서에 개시된 Cpf1 서열과 적어도 85 %, 적어도 90 %, 적어도 91 %, 적어도 92 %, 적어도 93 %, 적어도 94 %, 적어도 95 %, 적어도 96 %, 적어도 97 %, 적어도 98 %, 적어도 99 %, 또는 적어도 99.5 % 동일한 아미노산 서열을 포함한다. 일부 실시형태에서, dCpf1은 본 명세서에 개시된 Cpf1 서열과 적어도 85 %, 적어도 90 %, 적어도 91 %, 적어도 92 %, 적어도 93 %, 적어도 94 %, 적어도 95 %, 적어도 96 %, 적어도 97 %, 적어도 98 %, 적어도 99 %, 또는 적어도 99.5 % 동일한 아미노산 서열을 포함하며, D917A, E1006A, D1255A, D917A/E1006A, D917A/D1255A, E1006A/D1255A, 또는 D917A/E1006A/D1255A에 상응하는 돌연변이를 포함한다. 다른 박테리아 종으로부터의 Cpf1도 본 개시에 따라 사용될 수 있음을 이해해야 한다.
야생형 프란시엘라 노비시다(Francisella novicida) Cpf1의 아미노산 서열은 다음과 같다. D917, E1006, 및 D1255는 굵은 글씨로 기재되고 밑줄이 그어져 있다.
프란시엘라 노비시다(Francisella novicida) Cpf1 D917A의 아미노산 서열은 다음과 같다. (A917, E1006, 및 D1255는 굵은 글씨로 기재되고 밑줄이 그어져 있음).
프란시엘라 노비시다(Francisella novicida) Cpf1 E1006A의 아미노산 서열은 다음과 같다. (D917, A1006, 및 D1255는 굵은 글씨로 기재되고 밑줄이 그어져 있음).
프란시엘라 노비시다(Francisella novicida) Cpf1 D1255A의 아미노산 서열은 다음과 같다. (D917, E1006, 및 A1255는 굵은 글씨로 기재되고 밑줄이 그어져 있음).
프란시엘라 노비시다(Francisella novicida) Cpf1 D917A/E1006A의 아미노산 서열은 다음과 같다. (A917, A1006, 및 D1255는 굵은 글씨로 기재되고 밑줄이 그어져 있음).
프란시엘라 노비시다(Francisella novicida) Cpf1 D917A/D1255A의 아미노산 서열은 다음과 같다. (A917, E1006, 및 A1255는 굵은 글씨로 기재되고 밑줄이 그어져 있음).
프란시엘라 노비시다(Francisella novicida) Cpf1 E1006A/D1255A의 아미노산 서열은 다음과 같다. (D917, A1006, 및 A1255는 굵은 글씨로 기재되고 밑줄이 그어져 있음).
프란시엘라 노비시다(Francisella novicida) Cpf1 D917A/E1006A/D1255A의 아미노산 서열은 다음과 같다. (A917, A1006, 및 A1255는 굵은 글씨로 기재되고 밑줄이 그어져 있음).
일부 실시형태에서, 융합 단백질에 존재하는 Cas9 도메인 중 하나는 PAM 서열에 대한 요구사항(requirements)이 없는 가이드 뉴클레오티드 서열-프로그래밍가능한 DNA 결합 단백질 도메인으로 대체될 수 있다.
일부 실시형태에서, Cas9 도메인은 스타필로코커스 아우레우스(Staphylococcus aureus)(SaCas9)의 Cas9 도메인이다. 일부 실시형태에서, SaCas9 도메인은 뉴클레아제 활성 SaCas9, 뉴클레아제 비활성 SaCas9(SaCas9d), 또는 SaCas9 닉카아제(SaCas9n)이다. 일부 실시형태에서, SaCas9는 N579A 돌연변이, 또는 본 명세서에 제공된 임의의 아미노산 서열에서의 상응하는 돌연변이를 포함한다.
일부 실시형태에서, SaCas9 도메인, SaCas9d 도메인, 또는 SaCas9n 도메인은 비-정규 PAM을 갖는 핵산 서열에 결합할 수 있다. 일부 실시형태에서, SaCas9 도메인, SaCas9d 도메인, 또는 SaCas9n 도메인은 NNGRRT 또는 NNNRRT PAM 서열을 갖는 핵산 서열에 결합할 수 있다. 일부 실시형태에서, SaCas9 도메인은 하나 이상의 E781X, N967X, 및 R1014X 돌연변이, 또는 본 명세서에 제공된 임의의 아미노산 서열에서의 상응하는 돌연변이를 포함하며, 여기서 X는 임의의 아미노산이다. 일부 실시형태에서, SaCas9 도메인은 하나 이상의 E781K, N967K, 및 R1014H 돌연변이, 또는 본 명세서에 제공된 임의의 아미노산 서열에서의 하나 이상의 상응하는 돌연변이들을 포함한다. 일부 실시형태에서, SaCas9 도메인은 E781K, N967K, 또는 R1014H 돌연변이, 또는 본 명세서에 제공된 임의의 아미노산 서열에서의 상응하는 돌연변이를 포함한다.
예시적인 saCas9의 아미노산 서열은 다음과 같다:
예시적인 SaCas9n의 아미노산 서열은 다음과 같다:
이 서열에서, SaCas9 닉카아제를 생성하기 위해 N579로부터 돌연변이될 수 있는, 잔기 A579는 밑줄이 그어져 있고 굵은 글씨로 기재되어 있다.
예시적인 SaKKH Cas9의 아미노산 서열은 다음과 같다:
SaCas9 닉카아제를 생성하기 위해 N579로부터 돌연변이될 수 있는, 상기 잔기 A579는 밑줄이 그어져 있고 굵은 글씨로 기재되어 있다. SaKKH Cas9을 생성하기 위해 E781, N967, 및 R1014로부터 돌연변이될 수 있는, 상기 잔기 K781, K967, 및 H1014는 밑줄이 그어져 있고 이탤릭체로 기재되어 있다.
고 충실도
Cas9
도메인
본 개시의 일부 양상은 고 충실도 Cas9 도메인을 제공한다. 일부 실시형태에서, 고 충실도 Cas9 도메인은, 상응하는 야생형 Cas9 도메인에 비해, Cas9 도메인과 DNA의 당-포스페이트 백본 사이의 정전기 상호작용을 감소시키는 하나 이상의 돌연변이를 포함하는 조작된 Cas9 도메인이다. 특정 이론에 구속되는 것을 원치않으면서, DNA의 당-포스페이트 백본과의 정전기적 상호작용을 감소시킨 고 충실도 Cas9 도메인은 표적-이탈 효과가 더 적을 수 있다. 일부 실시형태에서, Cas9 도메인(예를 들어, 야생형 Cas9 도메인)은 Cas9 도메인과 DNA의 당-포스페이트 백본 사이의 연관성(association)을 감소시키는 하나 이상의 돌연변이를 포함한다. 일부 실시형태에서, Cas9 도메인은 Cas9 도메인과 DNA의 당-포스페이트 백본 사이의 연관성을 적어도 1 %, 적어도 2 %, 적어도 3 %, 적어도 4 %, 적어도 5 %, 적어도 10 %, 적어도 15 %, 적어도 20 %, 적어도 25 %, 적어도 30 %, 적어도 35 %, 적어도 40 %, 적어도 45 %, 적어도 50 %, 적어도 55 %, 적어도 60 %, 적어도 65 %, 또는 적어도 70 % 감소시키는 하나 이상의 돌연변이를 포함한다.
일부 실시형태에서, 본 명세서에 제공된 임의의 Cas9 융합 단백질은 N497X, R661X, Q695X, 및/또는 Q926X 돌연변이 중 하나 이상, 또는 본 명세서에 제공된 임의의 아미노산 서열에서의 상응하는 돌연변이를 포함하며. 여기서 X는 임의의 아미노산이다. 일부 실시형태에서, 본 명세서에 제공된 임의의 Cas9 융합 단백질은 N497A, R661A, Q695A, 및/또는 Q926A 돌연변이 중 하나 이상, 또는 본 명세서에 제공된 임의의 아미노산 서열에서의 상응하는 돌연변이를 포함한다. 일부 실시형태에서, Cas9 도메인은 본 명세서에 제공된 임의의 아미노산 서열에서 D10A 돌연변이 또는 상응하는 돌연변이를 포함한다. 고 충실도를 갖는 Cas9 도메인은 당업계에 공지되어 있으며 숙련된 기술자에게 명백할 것이다. 예를 들어, 고 충실도를 갖는 Cas9 도메인은, 각각의 전체 내용이 본 명세서에 참조로 포함되는, 다음 문헌에 기재되어 있다: Kleinstiver, B.P., et al. "High-fidelity CRISPR-Cas9 nucleases with no detectable genome-wide off-target effects." Nature 529, 490-495 (2016); 및 Slaymaker, I.M., et al. "Rationally engineered Cas9 nucleases with improved specificity." Science 351, 84-88 (2015).
일부 실시형태에서, 상기 변형된 Cas9는 고 충실도 Cas9 효소이다. 일부 실시형태에서, 고 충실도 Cas9 효소는 SpCas9(K855A), eSpCas9(1.1), SpCas9-HF1, 또는 초정밀 Cas9 변이체(HypaCas9)이다. 변형된 Cas9 eSpCas9(1.1)은 HNH/RuvC 그루브(groove)와 비-표적 DNA 가닥 사이의 상호작용을 약화시켜, 가닥 분리를 방지하고 표적-이탈 부위에서 절단하는, 알라닌 치환을 포함한다. 유사하게, SpCas9-HF1은 Cas9와 DNA 포스페이트 백본의 상호작용을 파괴하는 알라닌 치환을 통해 표적-이탈 편집을 저하시킨다. HypaCas9는 Cas9 교정 및 표적 식별을 증가시키는 REC3 도메인에 돌연변이(SpCas9 N692A/M694A/Q695A/H698A)를 포함한다. 3종의 고 충실도 효소 모두 야생형 Cas9보다 표적-이탈 편집을 덜 생성한다.
예시적인 고 충실도 Cas9은 아래에 제공된다. 참조 Cas9에 비해 고 충실도 Cas9 도메인 돌연변이는 굵은 글씨로 표시되고 밑줄이 그어져 있다.
가이드 폴리뉴클레오티드
본 명세서에 사용된, 용어 "가이드 폴리뉴클레오티드(들)"은 표적 서열에 대해 특이적일 수 있고 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인 단백질(예를 들어, Cas9 또는 Cpf1)과 복합체를 형성할 수 있는 폴리뉴클레오티드를 지칭한다. 일 실시형태에서, 가이드 폴리뉴클레오티드는 가이드 RNA이다. 본 명세서에 사용된, 용어 "가이드 RNA(gRNA)" 및 이의 문법적 등가물은 표적 DNA에 특이적일 수 있고, Cas 단백질과 복합체를 형성할 수 있는 RNA를 지칭할 수 있다. RNA/Cas 복합체는 Cas 단백질을 표적 DNA로 "가이드(guiding)"하는 데 도움을 줄 수 있다. Cas9/crRNA/tracrRNA는 스페이서에 상보적인 선형 또는 원형 dsDNA 표적을 핵산내부분해적으로 절단한다. crRNA에 상보적이지 않은 표적 가닥은 먼저 핵산내부분해적으로 절단된 다음 3'-5' 핵산외부분해적으로 트리밍된다. 천연에서, DNA 결합 및 절단에는 일반적으로 단백질과 두 RNA가 모두 필요하다. 그러나, 단일 가이드 RNA("sgRNA" 또는 간단히 "gNRA")는 crRNA 및 tracrRNA 두 양상을 단일 RNA 종에 통합되도록 하기 위해 조작될 수 있다. 예를 들어, 이의 전체 내용이 본 명세서에 참조로 포함되는, 문헌[Jinek M. et al., Science 337: 816-821 (2012)] 참조. Cas9는 CRISPR 반복 서열(PAM 또는 프로토스페이서 인접 모티프)에서 짧은 모티프를 인식하여 자기와 비-자기 구별을 돕는다. Cas9 뉴클레아제 서열 및 구조는 당업자에게 잘 알려져 있다(예를 들어, 이들 각각의 전체 내용이 본 명세서에 참조로 포함되는, 다음 문헌 참조: "Complete genome sequence of an M1 strain of Streptococcus pyogenes." Ferretti, J.J. et al., Natl. Acad. Sci. U.S.A. 98:4658-4663(2001); "CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III." Deltcheva E. et al., Nature 471:602-607(2011); 및 "Programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity." Jinek M. et al, Science 337:816-821(2012)). Cas9 오르쏘로그(orthologs)는 S. 피오게네스(S. pyogenes) 및 S. 써모필러스(S. thermophilus)를 포함하지만, 이로만 제한되지 않는, 다양한 종에서 설명되었다. 추가의 적합한 Cas9 뉴클레아제 및 서열은 본 개시에 기초하여 당업자에게 명백할 수 있고, 이러한 Cas9 뉴클레아제 및 서열은, 그 전체 내용이 본 명세서에 참조로 포함되는, 문헌[Chylinski, Rhun, and Charpentier, "The tracrRNA and Cas9 families of type II CRISPR-Cas immunity systems" (2013) RNA Biology 10:5, 726-737]에 개시된 유기체 및 유전자좌로부터의 Cas9 서열을 포함한다. 일부 실시형태에서, Cas9 뉴클레아제는 비활성(예를 들어, 비활성화된) DNA 절단 도메인을 가지며, 즉 Cas9는 닉카아제이다.
일부 실시형태에서, 가이드 폴리뉴클레오티드는 적어도 하나의 단일 가이드 RNA("sgRNA" 또는 "gNRA")이다. 일부 실시형태에서, 가이드 폴리뉴클레오티드는 적어도 하나의 tracrRNA이다. 일부 실시형태에서, 가이드 폴리뉴클레오티드는 폴리뉴클레오티드-프로그래밍가능한 DNA-결합 도메인(예를 들어, Cas9 또는 Cpf1)을 표적 뉴클레오티드 서열로 가이드하기 위해 PAM 서열을 필요로 하지 않는다.
본 명세서에 개시된 염기 편집기의 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인(예를 들어, CRISPR-유래 도메인)은 가이드 폴리뉴클레오티드와 결합하여 표적 폴리뉴클레오티드 서열을 인식할 수 있다. 가이드 폴리뉴클레오티드(예를 들어, gRNA)는 일반적으로 단일 가닥이며 폴리뉴클레오티드의 표적 서열에 부위-특이적으로 결합(즉, 상보적 염기 쌍을 통해)하도록 프로그래밍되며, 그로 인해 가이드 핵산 서열과 연계된 염기 편집기를 표적 서열로 유도할 수 있다. 가이드 폴리뉴클레오티드는 DNA일 수 있다. 가이드 폴리뉴클레오티드는 RNA일 수 있다. 일부 경우에, 가이드 폴리뉴클레오티드는 천연 뉴클레오티드(예를 들어, 아데노신)를 포함한다. 일부 경우에, 가이드 폴리뉴클레오티드는 비-천연(또는 비천연) 뉴클레오티드(예를 들어, 펩티드 핵산 또는 뉴클레오티드 유사체)를 포함한다. 일부 경우에, 가이드 핵산 서열의 표적화 영역은 적어도 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개, 또는 30개 뉴클레오티드 길이일 수 있다. 가이드 핵산의 표적화 영역은 10-30개 뉴클레오티드 길이, 15-25개 뉴클레오티드 길이, 또는 15-20개 뉴클레오티드 길이일 수 있다.
일부 실시형태에서, 가이드 폴리뉴클레오티드는, 예를 들어, 상보적 염기 쌍(예를 들어, 이중 가이드 폴리뉴클레오티드)을 통해 서로 상호작용할 수 있는, 2개 이상의 개별 폴리뉴클레오티드를 포함한다. 예를 들어, 가이드 폴리뉴클레오티드는 CRISPR RNA(crRNA) 및 트랜스-활성화 CRISPR RNA(tracrRNA)를 포함할 수 있다. 예를 들어, 가이드 폴리뉴클레오티드는 하나 이상의 트랜스-활성화 CRISPR RNA(tracrRNA)를 포함할 수 있다.
II형 CRISPR 시스템에서, CRISPR 단백질(예를 들어, Cas9)에 의한 핵산의 표적화는 일반적으로 표적 서열을 인식하는 서열을 포함하는 제1 RNA 분자(crRNA)와 가이드 RNA-CRISPR 단백질 복합체를 안정화시키는 스캐폴드 영역을 형성하는 반복 서열을 포함하는 제2 RNA 분자(trRNA) 사이에 상보적인 염기 을 필요로 한다. 이러한 이중 가이드 RNA 시스템은 가이드본 명세서에 개시된 염기 편집기를 표적 폴리뉴클레오티드 서열로 유도할 수 있다.
일부 실시형태에서, 본 명세서에 제공된 염기 편집기는 단일 가이드 폴리뉴클레오티드(예를 들어, gRNA)를 사용한다. 일부 실시형태에서, 본 명세서에 제공된 염기 편집기는 이중 가이드 폴리뉴클레오티드(예를 들어, 이중 gRNA)를 사용한다. 일부 실시형태에서, 본 명세서에 제공된 염기 편집기는 하나 이상의 가이드 폴리뉴클레오티드(예를 들어, 다중 gRNA)를 이용한다. 일부 실시형태에서, 단일 가이드 폴리뉴클레오티드는 본 명세서에 기재된 상이한 염기 편집기를 위해 이용된다. 예를 들어, 시티딘 염기 편집기 및 아데노신 염기 편집기에 단일 가이드 폴리뉴클레오티드를 사용할 수 있다.
다른 실시형태에서, 가이드 폴리뉴클레오티드는 단일 분자(즉, 단일 분자 가이드 핵산)에서 핵산의 폴리뉴클레오티드 표적화 부분 및 핵산의 스캐폴드 부분 둘 모두를 포함할 수 있다. 예를 들어, 단일-분자 가이드 폴리뉴클레오티드는 단일 가이드 RNA(sgRNA 또는 gRNA)일 수 있다. 본 명세서에서 용어 가이드 폴리뉴클레오티드 서열은 염기 편집기와 상호작용할 수 있고 표적 폴리뉴클레오티드 서열에 대해 유도할 수 있는 임의의 단일, 이중 또는 다중 분자 핵산을 고려한다.
전형적으로, 가이드 폴리뉴클레오티드(예를 들어, crRNA/trRNA 복합체 또는 gRNA)는 표적 폴리뉴클레오티드 서열을 인식하고 이에 결합할 수 있는 서열을 포함하는 "폴리뉴클레오티드-표적화 세그먼트" 및 "단백질-결합 세그먼트"를 포함한다. 이는 염기 편집기의 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인 구성요소 내에서 가이드 폴리뉴클레오티드를 안정화시킨다. 일부 실시형태에서, 가이드 폴리뉴클레오티드의 폴리뉴클레오티드 표적화 세그먼트는 DNA 폴리뉴클레오티드를 인식하고 이에 결합하여 DNA에서 염기의 편집을 용이하게 한다. 다른 경우, 가이드 폴리뉴클레오티드의 폴리뉴클레오티드 표적화 세그먼트는 RNA 폴리뉴클레오티드를 인식하고 결합하여 RNA에서 염기의 편집을 용이하게 한다. 본 명세서에서 "세그먼트"는 분자의 섹션 또는 영역, 예를 들어, 가이드 폴리뉴클레오티드에서 뉴클레오티드의 연속적인 스트레치를 지칭한다. 세그먼트는 또한 세그먼트가 하나 이상의 영역을 포함할 수 있도록 복합체의 영역/섹션을 지칭할 수 있다. 예를 들어, 가이드 폴리뉴클레오티드가 다중 핵산 분자를 포함하는 경우, 단백질 결합 세그먼트는, 예를 들어, 상보성 영역을 따라 혼성화된 다중 개별 분자의 전부 또는 일부를 포함할 수 있다. 일부 실시형태에서, 2개의 개별 분자를 포함하는 DNA-표적화 RNA의 단백질-결합 세그먼트는 (i) 100개 염기쌍 길이인 제1 RNA 분자의 염기쌍 40-75개; 및 (ii) 50 염기쌍 길이인 제2 RNA 분자의 염기쌍 10-25개. 특정 맥락에서 달리 구체적으로 정의되지 않는 한, "세그먼트"의 정의는 특정 수의 총 염기 쌍으로 제한되지 않으며, 주어진 RNA 분자로부터의 임의의 특정 수의 염기 쌍으로 제한되지 않으며, 복합체 내에서 특정 수의 분리된 분자로 제한되지 않으며, 임의의 총 길이인 RNA 분자의 영역을 포함할 수 있으며 다른 분자와 상보적인 영역을 포함할 수 있다.
가이드 RNA 또는 가이드 폴리뉴클레오티드는 2개 이상의 RNA, 예를 들어, CRISPR RNA(crRNA) 및 트랜스 활성화 crRNA(tracrRNA)를 포함할 수 있다. 가이드 RNA 또는 가이드 폴리뉴클레오티드는 때때로 단일-사슬 RNA, 또는 crRNA와 tracrRNA의 일부(예를 들어, 기능적 부분)의 융합에 의해 형성된 단일 가이드 RNA(sgRNA)를 포함할 수 있다. 가이드 RNA 또는 가이드 폴리뉴클레오티드는 또한 crRNA 및 tracrRNA를 포함하는 이중 RNA일 수 있다. 또한 crRNA는 표적 DNA와 혼성화할 수 있다.
위에서 논의된 바와 같이, 가이드 RNA 또는 가이드 폴리뉴클레오티드는 발현 생성물일 수 있다. 예를 들어, 가이드 RNA를 코딩하는 DNA는 가이드 RNA를 코딩하는 서열을 포함하는 벡터일 수 있다. 가이드 RNA 또는 가이드 폴리뉴클레오티드는 가이드 RNA 및 프로모터를 코딩하는 서열을 포함하는 분리된 가이드 RNA 또는 플라스미드 DNA로 세포를 형질 감염시킴으로써 세포로 전달될 수 있다. 가이드 RNA 또는 가이드 폴리뉴클레오티드는 바이러스-매개 유전자 전달을 사용하는 것과 같은, 다른 방식으로 세포로 전달될 수도 있다.
가이드 RNA 또는 가이드 폴리뉴클레오티드는 단리될 수 있다. 예를 들어, 가이드 RNA는 단리된 RNA의 형태로 세포 또는 유기체에 형질감염될 수 있다. 가이드 RNA는 당업계에 공지된 임의의 시험관내 전사 시스템을 이용하여 시험관내 전사에 의해 제조될 수 있다. 가이드 RNA는 가이드 RNA를위한 코딩 서열을 포함하는 플라스미드 형태가 아니라 단리된 RNA 형태로 세포로 전달될 수 있다.
가이드 RNA 또는 가이드 폴리뉴클레오티드는 다음 3개의 영역을 포함할 수 있다: 염색체 서열에서 표적 부위에 상보적일 수 있는 5' 말단의 제1 영역, 줄기 루프 구조를 형성할 수 있는 제2 내부 영역, 및 단일 가닥이 될 수 있는 제3 3' 영역. 각 가이드 RNA의 제1 영역은 각 가이드 RNA가 융합 단백질을 특정 표적 부위로 가이드하도록 하기 위해 상이할 수도 있다. 또한, 각 가이드 RNA의 제2 및 제3 영역은 모든 가이드 RNA에서 동일할 수 있다.
가이드 RNA 또는 가이드 폴리뉴클레오티드의 제1 영역은 가이드 RNA의 제1 영역이 표적 부위와 염기 쌍을 이룰 수 있도록 염색체 서열에서 표적 부위의 서열에 상보적일 수 있다. 일부 경우에, 가이드 RNA의 제1 영역은 약 10개 뉴클레오티드 내지 25개 뉴클레오티드(즉, 10개 뉴클레오티드 내지 뉴클레오티드; 또는 약 10개 뉴클레오티드 내지 약 25개 뉴클레오티드; 또는 10개 뉴클레오티드 내지 약 25개 뉴클레오티드; 또는 약 10개 뉴클레오티드 내지 25개 뉴클레오티드) 또는 그 이상을 포함할 수 있다. 예를 들어, 염색체 서열에서 가이드 RNA의 제1 영역과 표적 부위 사이의 염기 쌍 형성 영역은 약 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 22개, 23개, 24개, 25개, 또는 그 이상의 뉴클레오티드 길이일 수 있다. 때때로, 가이드 RNA의 제1 영역은 약 19개, 20개, 또는 21개 뉴클레오티드 길이일 수 있다.
가이드 RNA 또는 가이드 폴리뉴클레오티드는 또한 2차 구조를 형성하는 제2 영역을 포함할 수 있다. 예를 들어, 가이드 RNA에 의해 형성된 이차 구조는 스템(또는 헤어핀)과 루프를 포함할 수 있다. 루프와 스템의 길이는 다를 수 있다. 예를 들어, 루프는 약 3개 내지 10개 뉴클레오티드 길이 범위일 수 있고, 스템은 길이가 약 6개 내지 20개 염기쌍 범위일 수 있다. 스템은 1개 내지 10개 또는 약 10개 뉴클레오티드의 하나 이상의 벌지(bulges)를 포함할 수 있다. 제2 영역의 전체 길이는 약 16 내지 60개 뉴클레오티드 길이 범위일 수 있다. 예를 들어, 루프는 길이가 약 4개 뉴클레오티드 길이일 수 있거나 이 길이가 될 수 있고, 스템은 약 12개 염기쌍 길이일 수 있거나 이 길이가 될 수 있다.
가이드 RNA 또는 가이드 폴리뉴클레오티드는 또한 본질적으로 단일-가닥일 수 있는 3' 말단에 제3 영역을 포함할 수 있다. 예를 들어, 제3 영역은 때때로 관심있는 세포의 염색체 서열에 대해 상보성이 없고, 때로는 나머지 가이드 RNA에 대한 상보성이 없다. 또한, 제3 영역의 길이는 다를 수 있다. 제3 영역은 약 4개 이상의 뉴클레오티드 길이일 수 있다. 예를 들어, 제3 영역의 길이는 약 5 내지 60개 뉴클레오티드 길이 범위일 수 있다.
가이드 RNA 또는 가이드 폴리뉴클레오티드는 유전자 표적의 임의의 엑손 또는 인트론을 표적화할 수 있다. 일부 경우에, 가이드가 유전자의 엑손 1 또는 2를 표적으로 삼을 수 있다. 가이드는 유전자의 엑손 3 또는 4를 표적으로 삼을 수 있다. 조성물은 모두 동일한 엑손을 표적화하는 다중 가이드 RNA 또는 일부 경우에 상이한 엑손을 표적화할 수 있는 다중 가이드 RNA를 포함할 수 있다. 유전자의 엑손과 인트론이 표적화될 수 있다.
가이드 RNA 또는 가이드 폴리뉴클레오티드는 약 20개 뉴클레오티드의 핵산 서열을 표적으로 할 수 있다. 표적 핵산은 약 20개 미만의 뉴클레오티드일 수 있다. 표적 핵산은 적어도 또는 적어도 약 5개, 10개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 30개, 또는 1 내지 100개 뉴클레오티드 길이일 수 있다. 표적 핵산은 최대(at most) 또는 최대 약 5개, 10개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 30개, 40개, 50개, 또는 1 내지 100개 사이의 어느 뉴클레오티드 길이도 될 수 있다. 표적 핵산 서열은 PAM의 첫 번째 뉴클레오티드의 5' 바로 옆에 있는 약 20개의 염기일 수 있다. 가이드 RNA는 핵산 서열을 표적으로 삼을 수 있다. 표적 핵산은 적어도 또는 적어도 약 1 내지 10개, 1 내지 20개, 1 내지 30개, 1 내지 40개, 1 내지 50개, 1 내지 60개, 1 내지 70개, 1 내지 80개, 1 내지 90개, 또는 1 내지 100개의 뉴클레오티드일 수 있다.
가이드 폴리뉴클레오티드, 예를 들어, 가이드 RNA는 또 다른 핵산, 예를 들어 세포 게놈의 표적 핵산 또는 프로토스페이서에 혼성화할 수 있는 핵산을 지칭할 수 있다. 가이드 폴리뉴클레오티드는 RNA일 수 있다. 가이드 폴리뉴클레오티드는 DNA일 수 있다. 가이드 폴리뉴클레오티드는 핵산 부위에 특이적으로 결합하도록 프로그래밍되거나 설계될 수 있다. 가이드 폴리뉴클레오티드는 폴리뉴클레오티드 사슬을 포함할 수 있으며 단일 가이드 폴리뉴클레오티드로 지칭될 수 있다. 가이드 폴리뉴클레오티드는 2개의 폴리뉴클레오티드 사슬을 포함할 수 있으며 이중 가이드 폴리뉴클레오티드라고 불릴 수 있다. 가이드 RNA는 RNA 분자로서 세포 또는 배아에 도입될 수 있다. 예를 들어, RNA 분자는 시험관내에서 전사될 수 있고/있거나 화학적으로 합성될 수 있다. RNA는 합성 DNA 분자, 예를 들어, gBlocks® 유전자 단편에서 전사될 수 있다. 가이드 RNA는 RNA 분자로서 세포 또는 배아에 도입될 수 있다. 가이드 RNA는 또한 비-RNA 핵산 분자, 예를 들어 DNA 분자의 형태로 세포 또는 배아에 도입될 수 있다. 예를 들어, 가이드 RNA를 코딩하는 DNA는 관심있는 세포 또는 배아에서 가이드 RNA의 발현을 위해 프로모터 제어 서열에 작동가능하게 연결될 수 있다. RNA 코딩 서열은 RNA 중합효소 III(Pol III)에 의해 인식되는 프로모터 서열에 작동가능하게 연결될 수 있다. 가이드 RNA를 발현하는 데 사용될 수 있는 플라스미드 벡터는 px330 벡터 및 px333 벡터를 포함하지만, 이로만 제한되는 것은 아니다. 일부 경우에, 플라스미드 벡터(예를 들어, px333 벡터)는 적어도 2개의 가이드 RNA-코딩 DNA 서열을 포함할 수 있다.
가이드 폴리뉴클레오티드, 예를 들어, 가이드 RNA 및 표적화 서열을 선택, 설계, 및 검증하는 방법은 본 명세서에 기재되어 있고 당업자에게 공지되어 있다. 예를 들어, 핵염기 편집기 시스템에서 데아미나제 도메인(예를 들어, AID 도메인)의 잠재적인 기질 난잡함의 영향을 최소화하기 위해, 비의도적으로 탈아미노화 대상이 될 수 있는 잔기(예를 들어, 잠재적으로 표적 핵산 유전자좌 내의 ssDNA에 상주할 수 있는 표적-이탈 C 잔기)의 수를 최소화할 수 있다. 또한, 소프트웨어 도구를 사용하여 표적 핵산 서열에 해당하는 gRNA를 최적화할 수 있다. 예를 들어, 게놈 전반에 걸친 총 표적-이탈 활성을 최소화할 수 있다. 예를 들어, S. 피오게네스 Cas9를 사용하는 각각의 가능한 표적화 도메인 선택의 경우, 모든 표적-이탈 서열(앞서 선택된 PAM, 예를 들어, NAG 또는 NGG)은 미스매칭된 염기-쌍을 특정 수(예를 들어, 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개)까지 포함하는 게놈 전체에서 식별될 수 있다. 표적 부위에 상보적인 gRNA의 제1 영역을 식별할 수 있으며, 모든 제1 영역(예를 들어, crRNA)은 총 예상 표적-이탈 점수에 따라 순위를 매길 수 있다. 최상위 표적화 도메인은 표적-적중(on-target) 활성(activity)이 가장 많고 표적-이탈 활성이 가장 적은 도메인을 나타낸다. gRNA를 표적화하는 후보는 당업계에 공지된 방법 및/또는 본 명세서에 기재된 방법을 이용하여 기능적으로 평가될 수 있다.
비제한적인 예로서, Cas9와 함께 사용하기 위한 가이드 RNA의 crRNA에서 표적 DNA 혼성화 서열은 DNA 서열 검색 알고리즘을 사용하여 식별될 수 있다. gRNA 디자인은 문헌[Bae S., Park J., & Kim J.-S. Cas-OFFinder: A fast and versatile algorithm that searches for potential off-target sites of Cas9 RNA-guided endonucleases. Bioinformatics 30, 1473-1475 (2014)]에 기재된 공개 도구 cas-offinder를 기반으로 하는 맞춤형 gRNA 디자인 소프트웨어를 사용하여 수행할 수 있다. 이 소프트웨어는 게놈-전체의(genome-wide) 표적-이탈 성향을 계산한 후 가이드(guides) 점수를 매긴다. 일반적으로 완벽한 일치에서 7개의 불일치에 이르는 일치가 17 내지 24 범위의 길이인 가이드에 대해 고려된다. 표적-이탈 부위가 전산적으로 결정되면, 각 가이드에 대해 집계 점수가 계산되고 웹-인터페이스를 사용하여 표 형식의 출력(output)으로 요약된다. PAM 서열에 인접한 잠재적 표적 부위를 식별하는 것 외에도, 소프트웨어는 선택된 표적 부위와 1개, 2개, 3개, 또는 3개 이상의 뉴클레오티드가 다른 모든 PAM 인접 서열을 식별한다. 표적 핵산 서열에 대한 게놈 DNA 서열, 예를 들어, 표적 유전자를 획득하고 반복 요소를 공개적으로 이용 가능한 도구, 예를 들어 RepeatMasker 프로그램을 사용하여 스크리닝할 수 있다. RepeatMasker는 입력 DNA 서열에서 반복되는 요소와 복잡성이 낮은 영역을 검색한다. 출력은 주어진 쿼리 서열에 있는 반복에 대한 상세한 주석이다.
식별 후, 가이드 RNA의 제1 영역, 예를 들어, crRNA는, 표적 부위까지의 이들의 거리, 이들의 직교성 및 관련 PAM 서열과의 근접 일치를 위해 5' 뉴클레오티드의 존재에 기초하여 계층(tiers)으로 순위매겨질 수 있다(예를 들어, 관련 PAM, 예를 들어, S. 피오게네스의 경우 NGG PAM, S. 아우레우스의 경우 NNGRRT 또는 NNGRRV PAM을 포함하는 인간 게놈 내 밀접한 일치의 확인에 기초한 5' G). 본 명세서에 사용된, 직교성은 표적 서열에 대한 최소 수의 불일치를 포함하는 인간 게놈 내의 서열 수를 의미한다. "높은 수준의 직교성" 또는 "양호한 직교성"은, 예를 들어, 의도된 표적 이외에 인간 게놈 내에 동일한 서열을 가지지 않는 20-머(mer) 표적화 도메인, 또는 표적 서열 내에 하나 또는 두개의 불일치를 함유하는 임의의 서열을 지칭할 수 있다. 양호한 직교성을 갖는 표적화 도메인은 표적-이탈 DNA 절단을 최소화하기 위해 선택될 수 있다.
일부 실시형태에서, 리포터 시스템은 염기 편집 활성을 검출하고 후보 가이드 폴리뉴클레오티드를 테스트하는 데 사용될 수 있다. 일부 실시형태에서, 리포터 시스템은 염기 편집 활성이 리포터 유전자의 발현을 유도하는 리포터 유전자 기반 분석을 포함할 수 있다. 예를 들어, 리포터 시스템은 비활성화된 시작 코돈, 예를 들어, 주형 가닥 상의 3'-TAC-5'에서 3'-CAC-5'로의 돌연변이를 포함하는 리포터 유전자를 포함할 수 있다. 표적 C가 성공적으로 탈아미노화되면, 해당 mRNA가 5'-GUG-3'대신 5'-AUG-3'로 전사되어, 리포터 유전자의 번역이 가능하다. 적합한 리포터 유전자는 당업자에게 명백할 것이다. 리포터 유전자의 비제한적인 예는 녹색 형광 단백질(GFP), 적색 형광 단백질(RFP), 루시퍼라제, 분비 알칼리성 포스파타제(SEAP), 또는 발현이 검출가능하고 당업자에게 명백한 임의의 다른 유전자를 코딩하는 유전자를 포함한다. 리포터 시스템은, 예를 들어, 각각의 데아미나제가 표적화할 표적 DNA 서열과 관련하여 어떤 잔기(들)를 결정하기 위해 많은 다양한 gRNA를 시험하는 데 사용할 수 있다. 비-주형 가닥을 표적화하는 sgRNA는 또한 특정 염기 편집 단백질, 예를 들어, Cas9 데아미나제 융합 단백질의 표적-이탈 효과를 평가하기 위해 시험될 수 있다. 일부 실시형태에서, 이러한 gRNA는 돌연변이된 개시 코돈이 gRNA와 염기-쌍을 이루지 않도록 설계될 수 있다. 가이드 폴리뉴클레오티드는 표준 리보뉴클레오티드, 상기 변형된 리보뉴클레오티드(예를 들어, 슈도우리딘), 리보뉴클레오티드 이성질체, 및/또는 리보뉴클레오티드 유사체를 포함할 수 있다. 일부 실시형태에서, 가이드 폴리뉴클레오티드는 적어도 하나의 검출가능한 표지를 포함할 수 있다. 검출가능한 표지는 형광단(예를 들어, FAM, TMR, Cy3, Cy5, 텍사스 레드, 오레곤 그린, 알렉사 플루오르(Alexa Fluors), 할로(Halo) 태그, 또는 적합한 형광 염료), 검출 태그(예를 들어, 비오틴, 디곡시게닌 등), 양자점 또는 금 입자일 수 있다.
가이드 폴리뉴클레오티드는 화학적으로 합성되거나, 효소적으로 합성되거나, 이들의 조합으로 합성될 수 있다. 예를 들어, 가이드 RNA는 표준 포스포라미다이트-기반 고체상 합성 방법을 이용하여 합성할 수 있다. 대안적으로, 가이드 RNA는 가이드 RNA를 코딩하는 DNA를 파지 RNA 중합효소에 의해 인식되는 프로모터 제어 서열에 작동가능하게 연결함으로써 시험관내에서 합성될 수 있다. 적합한 파지 프로모터 서열의 예는 T7, T3, SP6 프로모터 서열, 또는 이의 변이체를 포함한다. 가이드 RNA가 2개의 개별 분자(예를 들어, crRNA 및 tracrRNA)를 포함하는 실시형태에서, crRNA는 화학적으로 합성될 수 있고 tracrRNA는 효소적으로 합성될 수 있다.
일부 실시형태에서, 염기 편집기 시스템은, 예를 들어, 다수의 가이드 폴리뉴클레오티드, 예를 들어, gRNA를 포함할 수 있다. 예를 들어, gRNA는 염기 편집기 시스템 내에 포함된 하나 이상의 표적 유전자좌(예를 들어, 적어도 1개의 gRNA, 적어도 2개의 gRNA, 적어도 5개의 gRNA, 적어도 10개의 gRNA, 적어도 20개의 gRNA, 적어도 30개의 gRNA, 적어도 50개의 gRNA)를 표적으로 할 수 있다. 상기 다수의 gRNA 서열은 직렬로 배열될 수 있고, 바람직하게는 직접 반복에 의해 분리된다.
가이드 RNA 또는 가이드 폴리뉴클레오티드를 코딩하는 DNA 서열은 또한 벡터의 일부일 수 있다. 추가로, 벡터는 추가 발현 조절 서열(예를 들어, 인핸서 서열, 코작(Kozak) 서열, 폴리아데닐화 서열, 전사 종결 서열 등), 선택가능한 마커 서열(예를 들어, GFP 또는 퓨로 마이신과 같은 항생제 내성 유전자), 복제 기점 등을 포함할 수 있다. 가이드 RNA를 코딩하는 DNA 분자는 선형일 수도 있다. 가이드 RNA 또는 가이드 폴리뉴클레오티드를 코딩하는 DNA 분자는 원형일 수도 있다.
일부 실시형태에서, 염기 편집기 시스템의 하나 이상의 구성요소는 DNA 서열에 의해 코딩될 수 있다. 이러한 DNA 서열은, 예를 들어, 함께 또는 개별적으로, 발현 시스템, 예를 들어, 세포에 도입될 수 있다. 예를 들어, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인 및 가이드 RNA를 코딩하는 DNA 서열은 세포 내로 도입될 수 있으며, 각 DNA 서열은 별도의 분자(예를 들어, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인 코딩 서열을 포함하는 하나의 벡터 및 가이드 RNA 코딩 서열을 포함하는 제2 벡터) 또는 둘 다가 동일 분자(예를 들어, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인 및 가이드 RNA 둘 다에 대한 코딩(및 조절) 서열을 포함하는 하나의 벡터)의 일부일 수 있다.
가이드 폴리뉴클레오티드는 핵산에 새롭거나 향상된 특징을 제공하기 위한 하나 이상의 변형을 포함할 수 있다. 가이드 폴리뉴클레오티드는 핵산 친화성 태그를 포함할 수 있다. 가이드 폴리뉴클레오티드는 합성 뉴클레오티드, 합성 뉴클레오티드 유사체, 뉴클레오티드 유도체 및/또는 변형된 뉴클레오티드를 포함할 수 있다.
일부 경우에, gRNA 또는 가이드 폴리뉴클레오티드는 변형을 포함할 수 있다. gRNA 또는 가이드 폴리뉴클레오티드의 임의의 위치에서 변형이 이루어질 수 있다. 단일 gRNA 또는 가이드 폴리뉴클레오티드에 대해 하나 이상의 변형이 이루어질 수 있다. gRNA 또는 가이드 폴리뉴클레오티드는 변형 후 품질 관리될 수 있다. 일부 경우에, 품질 관리는 PAGE, HPLC, MS, 또는 이들의 조합을 포함할 수 있다.
gRNA 또는 가이드 폴리뉴클레오티드의 변형은 치환, 삽입, 결실, 화학적 변형, 물리적 변형, 안정화, 정제, 또는 이들의 임의의 조합일 수 있다.
gRNA 또는 가이드 폴리뉴클레오티드는 5' 아데닐레이트, 5' 구아노신-트리 포스페이트 캡, 5' N7-메틸구아노신-트리포스페이트 캡, 5' 트리포스페이트 캡, 3' 포스페이트, 3' 티오포스페이트, 5' 포스페이트, 5' 티오포스페이트, Cis-Syn 티미딘 이량체, 삼량체, C12 스페이서, C3 스페이서, C6 스페이서, dSpacer, PC 스페이서, r스페이서, 스페이서 18, 스페이서 9, 3'-3' 변형, 5'-5' 변형, 무염기, 아크리딘, 아조벤젠, 비오틴, 비오틴 BB, 비오틴 TEG, 콜레스테릴 TEG, 데스티오비오틴(desthiobiotin) TEG, DNP TEG, DNP-X, DOTA, dT-비오틴, 이중 비오틴, PC 비오틴, 소랄렌 C2, 소랄렌 C6, TINA, 3'댑실(DABCYL), 블랙홀 ??쳐(black hole quencher) 1, 블랙홀 ??쳐 2, 댑실 SE, dT-댑실, IRDye QC-1, QSY-21, QSY-35, QSY-7, QSY-9, 카복실 링커, 티올 링커, 2'-데옥시리보뉴클레오시드 유사체(analog) 퓨린, 2'-데옥시리보뉴클레오시드 유사체 피리미딘, 리보뉴클레오시드 유사체, 2'-O-메틸리보뉴클레오시드 유사체, 당 변형 유사체, 와블/유니버설 염기, 형광 염료 라벨, 2'-플루오로 RNA, 2'-O-메틸 RNA, 메틸포스포네이트, 포스포디에스터 DNA, 포스포디에스터 RNA, 포스포티오에이트 DNA, 포스포로티오에이트 RNA, UNA, 슈도우리딘-5'-트리포스페이트, 5'-메틸시티딘-5'-트리포스페이트, 또는 이들의 조합에 의해 변형될 수도 있다.
일부 경우에, 변형은 영구적이다. 다른 경우에, 변형은 일시적이다. 일부 경우에, gRNA 또는 가이드 폴리뉴클레오티드에 다수의 변형이 이루어진다. gRNA 또는 가이드 폴리뉴클레오티드 변형은 입체형태, 극성, 소수성, 화학적 반응성, 염기쌍-형성(base-pairing) 상호작용, 또는 이들의 임의의 조합과 같은, 뉴클레오티드의 물리화학적 특성을 변경할 수 있다.
변형은 또한 포스포로티오에이트 대체물일 수 있다. 일부 경우에, 천연 포스포디에스터 결합이 세포에 의해 급속히 분해될 수 있으며; 포스포로티오에이트 (PS) 결합 대체물을 사용한 뉴클레오티드 간 연결의 변형은 세포 분해에 의한 가수 분해에 대해 더 안정적일 수 있다. 변형은 gRNA 또는 가이드 폴리뉴클레오티드의 안정성을 증가시킬 수 있다. 변형은 또한 생물학적 활동을 향상시킬 수 있다. 일부 경우에, 포스포로티오에이트 강화 RNA gRNA는 RNase A, RNase T1, 송아지 혈청 뉴클레아제 또는 이들의 임의의 조합을 억제할 수 있다. 이러한 특성은 PS-RNA gRNA를 사용하여 생체내 또는 시험관내에서 높은 확률로 뉴클레아제에 대해 노출되는 응용 분야에 사용될 수 있다. 예를 들어, 포스포로티오에이트(PS) 결합은 엑소뉴클레아제 분해를 억제할 수 있은 gRNA의 5'- 또는 ''-말단에서 마지막 3-5개 뉴클레오티드 사이에 도입될 수 있다. 일부 경우에, 포스포로티오에이트 결합을 전체 gRNA에 추가하여 엔도뉴클레아제에 의한 공격을 감소시킬 수 있다.
프로토스페이서
인접 모티프
용어 "프로토스페이서 인접 모티프(PAM)" 또는 PAM-유사 모티프는 CRISPR 박테리아 적응성 면역계에서 Cas9 뉴클레아제에 의해 표적화된 DNA 서열 바로 뒤의 2-6개 염기쌍 DNA 서열을 지칭한다. 일부 실시형태에서, PAM은 5' PAM(즉, 프로토스페이서의 5' 단부의 상류에 위치하는 것)일 수 있다. 다른 실시형태에서, PAM은 3' PAM(즉, 프로토스페이서의 5' 단부의 하류에 위치하는 것)일 수 있다.
프로토스페이서 인접 모티프(PAM) 또는 PAM-유사 모티프는 CRISPR 박테리아 적응 면역 시스템에서 Cas9 뉴클레아제에 의해 표적화된 DNA 서열 바로 뒤의 2-6개 염기쌍 DNA 서열을 의미한다. 일부 실시형태에서, PAM은 5' PAM(즉, 프로토스페이서의 5' 말단의 상류에 위치함)일 수 있다. 다른 실시형태에서, PAM은 3' PAM(즉, 프로토스페이서의 5' 단부의 하류에 위치함)일 수 있다. PAM 서열은 표적 결합에 필수적이지만 정확한 서열은 Cas 단백질의 유형에 따라 다르다.
본 명세서에서 제공되는 염기 편집기는 표준 또는 비표준 프로토스페이서 인접 모티프(PAM) 서열을 함유하는 뉴클레오티드 서열에 결합할 수 있는 CRISPR 단백질 유래 도메인을 포함할 수 있다. PAM 부위는 표적 폴리뉴클레오티드 서열에 근접한 뉴클레오티드 서열이다. 본 개시의 일부 양상은 상이한 PAM 특이성을 갖는 CRISPR 단백질의 전부 또는 일부를 포함하는 염기 편집기를 제공한다. 예를 들어, S. 피오게네스의 Cas9(spCas9)와 같은, Cas9 단백질은 일반적으로 특정 핵산 영역에 결합하기 위해 표준 NGG PAM 서열을 필요로 하며, 여기서 "NGG"의 "N"은 아데닌(A), 티민(T), 구아닌(G) 또는 시토신(C)이고, G는 구아닌이다. PAM은 CRISPR 단백질 특이적일 수 있으며, 다른 CRISPR 단백질 유래 도메인을 포함하는 다른 염기 편집기 간에 다를 수 있다. PAM은 표적 서열의 5' 또는 3'일 수 있다. PAM은 표적 서열의 상류 또는 하류에 있을 수 있다. PAM은 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개 또는 그 이상의 뉴클레오티드 길이일 수 있다. 종종, PAM은 길이가 2 내지 6개 뉴클레오티드 사이이다.
일부 실시형태에서, Cas9 도메인은 스트렙토코커스 피오게네스(SpCas9)로부터의 Cas9 도메인이다. 일부 실시형태에서, SpCas9 도메인은 뉴클레아제 활성 SpCas9, 뉴클레아제 비활성 SpCas9(SpCas9d), 또는 SpCas9 닉카아제(SpCas9n)이다. 일부 실시형태에서, SpCas9는 본 명세서에 제공된 임의의 아미노산 서열에서의 D9X 돌연변이 또는 상응하는 돌연변이를 포함하며, 여기서 X는 D를 제외한 임의의 아미노산이다. 일부 실시형태에서, SpCas9는 D9A 돌연변이, 또는 본 명세서에 제공된 임의의 아미노산 서열에서의 상응하는 돌연변이를 포함한다. 일부 실시형태에서, SpCas9 도메인, SpCas9d 도메인, 또는 SpCas9n 도메인은 비-정규 PAM을 갖는 핵산 서열에 결합할 수 있다. 일부 실시형태에서, SpCas9 도메인, SpCas9d 도메인, 또는 SpCas9n 도메인은 NGG, NGA, 또는 NGCG PAM 서열을 갖는 핵산 서열에 결합할 수 있다. 일부 실시형태에서, SpCas9 도메인은 하나 이상의 D1135X, R1335X, 및 T1336X 돌연변이, 또는 본 명세서에 제공된 임의의 아미노산 서열에서 상응하는 돌연변이를 포함하며, 여기서 X는 임의의 아미노산이다. 일부 실시형태에서, SpCas9 도메인은 하나 이상의 D1135E, R1335Q, 및 T1336R 돌연변이, 또는 본 명세서에 제공된 임의의 아미노산 서열에서의 상응하는 돌연변이를 포함한다. 일부 실시형태에서, SpCas9 도메인은 D1135E, R1335Q, 및 T1337R 돌연변이, 또는 본 명세서에 제공된 임의의 아미노산 서열에서의 상응하는 돌연변이를 포함한다. 일부 실시형태에서, SpCas9 도메인은 하나 이상의 D1135X, R1335X, 및 T1336X 돌연변이, 또는 본 명세서에 제공된 임의의 아미노산 서열에서의 상응하는 돌연변이를 포함하며, 여기서 X는 임의의 아미노산이다. 일부 실시형태에서, SpCas9 도메인은 하나 이상의 D1135V, R1335Q, 및 T1336R 돌연변이, 또는 본 명세서에 제공된 아미노산 서열 중 임의의 서열에서의 상응하는 돌연변이를 포함한다. 일부 실시형태에서, SpCas9 도메인은 D1135V, R1335Q, 및 T1336R 돌연변이, 또는 본 명세서에 제공된 임의의 아미노산 서열에서의 상응하는 돌연변이를 포함한다. 일부 실시형태에서, SpCas9 도메인은 하나 이상의 D1135X, G1217X, R1335X, 및 T1336X 돌연변이, 또는 본 명세서에 제공된 임의의 아미노산 서열에서의 상응하는 돌연변이를 포함하며, 여기서 X는 임의의 아미노산이다. 일부 실시형태에서, SpCas9 도메인은 하나 이상의 D1135V, G1217R, R1335Q, 및 T1336R 돌연변이, 또는 본 명세서에 제공된 임의의 아미노산 서열에서의 상응하는 돌연변이를 포함한다. 일부 실시형태에서, SpCas9 도메인은 D1135V, G1217R, R1335Q, 및 T1336R 돌연변이, 또는 본 명세서에 제공된 임의의 아미노산 서열에서의 상응하는 돌연변이를 포함한다.
일부 실시형태에서, 본 명세서에 제공된 임의의 융합 단백질의 Cas9 도메인은 본 명세서에 기재된 Cas9 폴리펩티드와 적어도 60 %, 적어도 65 %, 적어도 70 %, 적어도 75 %, 적어도 80 %, 적어도 85 %, 적어도 90 %, 적어도 95 %, 적어도 96 %, 적어도 97 %, 적어도 98 %, 적어도 99 %, 또는 적어도 99.5 % 동일하다. 일부 실시형태에서, 본 명세서에 제공된 임의의 융합 단백질의 Cas9 도메인은 본 명세서에 기재된 임의의 Cas9 폴리펩티드의 아미노산 서열을 포함한다. 일부 실시형태에서, 본 명세서에 제공된 임의의 융합 단백질의 Cas9 도메인은 본 명세서에 기재된 임의의 Cas9 폴리펩티드의 아미노산 서열로 구성된다.
예시적인 PAM-결합 SpCas9의 아미노산 서열은 다음과 같다:
예시적인 PAM-결합 SpCas9n의 아미노산 서열은 다음과 같다:
예시적인 PAM-결합 SpEQR Cas9의 아미노산 서열은 다음과 같다:
이 서열에서, SpEQR Cas9를 생성하기 위해 D1135, R1335, 및 T1337로부터 돌연변이될 수 있는, 잔기 E1135, Q1335, 및 R1337은 밑줄이 그어져 있고 굵은 글씨체로 표시되어 있다.
예시적인 PAM-결합 SpVQR Cas9의 아미노산 서열은 다음과 같다:
이 서열에서, SpVQR Cas9를 생성하기 위해 D1135, R1335, 및 T1336로부터 돌연변이될 수 있는, 잔기 V1135, Q1335, 및 R1336은 밑줄이 그어져 있으며 굵은 글씨체로 표시되어 있다.
예시적인 PAM-결합 SpVRER Cas9의 아미노산 서열은 다음과 같다:
일부 실시형태에서, Cas9 도메인은 재조합 Cas9 도메인이다. 일부 실시형태에서, 재조합 Cas9 도메인은 SpyMacCas9 도메인이다. 일부 실시형태에서, SpyMacCas9 도메인은 뉴클레아제 활성 SpyMacCas9, 뉴클레아제 비활성 SpyMacCas9(SpyMacCas9d), 또는 SpyMacCas9 닉카아제(SpyMacCas9n)이다. 일부 실시형태에서, SaCas9 도메인, SaCas9d 도메인, 또는 SaCas9n 도메인은 비-정규 PAM을 갖는 핵산 서열에 결합할 수 있다. 일부 실시형태에서, SpyMacCas9 도메인, SpCas9d 도메인, 또는 SpCas9n 도메인은 NAA PAM 서열을 갖는 핵산 서열에 결합할 수 있다.
예시적인
SpyMacCas9
일부 경우에, 변이체 Cas9 단백질은, 폴리펩티드가 표적 DNA 또는 RNA를 절단하는 활성이 감소되도록 H840A, P475A, W476A, N477A, D1125A, W1126A, 및 D1128A 돌연변이를 내포한다. 이러한 Cas9 단백질은 표적 DNA(예를 들어, 단일 가닥 표적 DNA)를 절단하는 활성이 감소되지만 표적 DNA(예를 들어, 단일 가닥 표적 DNA)에 결합하는 활성을 보유한다. 또 다른 비제한적 예로서, 일부 경우에, 변이체 Cas9 단백질은 폴리펩티드가 표적 DNA를 절단하는 감소된 활성을 갖도록 D10A, H840A, P475A, W476A, N477A, D1125A, W1126A, 및 D1128A 돌연변이를 내포한다. 이러한 Cas9 단백질은 표적 DNA(예를 들어, 단일 가닥 표적 DNA)를 절단하는 활성이 감소되지만 표적 DNA(예를 들어, 단일 가닥 표적 DNA)에 결합하는 활성을 보유한다. 일부 경우에, 변이체 Cas9 단백질이 W476A 및 W1126A 돌연변이를 내포하거나 변이체 Cas9 단백질이 P475A, W476A, N477A, D1125A, W1126A, 및 D1128A 돌연변이를 내포할 때, 변이체 Cas9 단백질은 PAM 서열에 효율적으로 결합하지 않는다. 따라서, 이러한 일부 경우에, 이러한 변이체 Cas9 단백질이 결합 방법에 사용되는 경우, 방법은 PAM 서열을 필요로 하지 않는다. 즉, 일부 경우에, 이러한 변이체 Cas9 단백질을 결합 방법에 사용하는 경우 방법은 가이드 RNA를 포함할 수 있지만, 방법은 PAM 서열의 부재하에 수행될 수 있다(결합의 특이성은 따라서 가이드 RNA의 표적화 세그먼트에 의해 제공됨). 상기 효과를 달성하기 위해(즉, 하나 또는 다른 뉴클레아제 부분을 비활성화하기 위해) 다른 잔기를 돌연변이시킬 수 있다. 비제한적인 예로서, 잔기 D10, G12, G17, E762, H840, N854, N863, H982, H983, A984, D986, 및/또는 A987은 변경(즉, 치환)될 수 있다. 또한, 알라닌 치환 이외의 돌연변이가 적합하다.
일부 실시형태에서, 염기 편집기의 CRISPR 단백질-유래 도메인은 정규 PAM 서열(NGG)을 갖는 Cas9 단백질의 전부 또는 일부를 포함할 수 있다. 다른 실시형태에서, 염기 편집기의 Cas9 유래 도메인은 비-정규 PAM 서열을 사용할 수 있다. 이러한 서열은 당업계에 기술되어 있으며 숙련된 기술자에게 명백할 것이다. 예를 들어, 비-정규 PAM 서열에 결합하는 Cas9 도메인은, 각각의 전체 내용이 본 명세서에 참조로 포함되는, 다음 문헌에 기재되어 있다: Kleinstiver, B. P., et al., “Engineered CRISPR-Cas9 nucleases with altered PAM specificities” Nature 523, 481-485 (2015); 및 Kleinstiver, B. P., et al., “Broadening the targeting range of Staphylococcus aureus CRISPR-Cas9 by modifying PAM recognition” Nature Biotechnology 33, 1293-1298 (2015).
일부 예에서, 본 명세서에 개시된 염기 편집기의 CRISPR 단백질-유래 도메인에 의해 인식되는 PAM은 염기 편집기를 코딩하는 삽입물(예를 들어, AAV 삽입물)에 대한 별도의 올리고뉴클레오티드 상의 세포에 제공될 수 있다. 이러한 경우, 별도의 올리고뉴클레오티드에 PAM을 제공하면, 인접한 PAM이 표적 서열과 동일한 폴리뉴클레오티드에 존재하지 않기 때문에, 그렇지 않으면 절단될 수 없는 표적 서열의 절단을 가능하게 할 수 있다.
일 실시형태에서, S. 피오게네스 Cas9(SpCas9)를 게놈 조작을 위한 CRISPR 엔도뉴클레아제로 사용할 수 있다. 그러나, 다른 것이 사용될 수 있다. 일부 경우에, 특정 게놈 표적을 표적으로 하기 위해 다른 엔도뉴클레아제를 사용할 수 있다. 일부 경우에, 비-NGG PAM 서열을 갖는 합성 SpCas9-유래 변이체를 사용할 수 있다. 추가로, 다양한 종으로부터의 다른 Cas9 오르쏘로그가 확인되었으며 이러한 "비-SpCas9"는 본 개시에 또한 유용할 수 있는 다양한 PAM 서열에 결합할 수 있다. 예를 들어, 상대적으로 큰 크기의 SpCas9(약 4kb 코딩 서열)는 세포에서 효율적으로 발현될 수 없는 SpCas9 cDNA를 운반하는 플라스미드를 야기할 수 있다. 반대로 스태필로코커스 아우레우스(Staphylococcus aureus) Cas9(SaCas9)에 대한 코딩 서열은 SpCas9보다 길이가 대략 1 킬로베이스 더 짧아, 세포에서 효율적으로 발현될 수 있다. SpCas9와 유사하게 SaCas9 엔도뉴클레아제는 시험관내 포유류 세포와 생체내 마우스에서 표적 유전자를 변형할 수 있다. 일부 경우에, Cas 단백질은 다른 PAM 서열을 표적으로 삼을 수 있다. 일부 경우에, 표적 유전자는, 예를 들어, Cas9 PAM, 5'-NGG에 인접할 수 있다. 다른 경우에, 다른 Cas9 오르쏘로그는 다른 PAM 요구사항을 가질 수 있다. 예를 들어 S. 써모필러스(S. thermophilus)(CRISPR1의 경우 5'-NNAGAA, CRISPR3의 경우 5'-NGGNG) 및 나이세리아 메닌지티디스(Neisseria meningiditis)(5'-NNNNGATT)와 같은 다른 PAM도 표적 유전자 옆에서 발견될 수 있다.
일부 실시형태에서, S. 피오게네스 시스템의 경우, 표적 유전자 서열은 5'-NGG PAM에 선행(즉, 이에 대해 5'임)할 수 있고, 20-nt 가이드 RNA 서열은 반대 가닥과 염기쌍을 이루어 PAM에 인접한 Cas9 절단을 매개할 수 있다. 일부 경우에, 인접한 절단은 PAM의 상류에 있는 약 3개의 염기쌍일 수 있거나 될 수 있다. 일부 경우에, 인접한 절단은 PAM의 상류에 있는 약 10개의 염기쌍일 수 있거나 될 수 있다. 일부 경우에, 인접한 절단은 PAM의 상류에 약 0 내지 20개의 염기쌍일 수 있거나 될 수 있다. 예를 들어, 인접한 절단은 PAM의 상류의 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개, 또는 30개 염기쌍 다음에 있을 수 있다. 인접한 절단은 1 내지 30개의 염기쌍만큼 PAM의 하류에 있을 수도 있다.
핵 위치결정 서열(
NLS
)을 포함하는 융합 단백질
일부 실시형태에서, 본 명세서에 제공된 융합 단백질은 하나 이상(예를 들어, 2개, 3개, 4개, 5개) 핵 표적화 서열, 예를 들어, 핵 위치결정 서열(NLS)을 추가로 포함한다. 일 실시형태에서, 이분(bipartite) NLS가 사용된다. 일부 실시형태에서, NLS는 NLS를 포함하는 단백질의 세포 핵으로의 (예를 들어, 핵 수송에 의해) 도입을 촉진하는 아미노산 서열을 포함한다. 일부 실시형태에서, 본 명세서에 제공된 임의의 융합 단백질은 핵 위치결정 서열(NLS)을 추가로 포함한다. 일부 실시형태에서, NLS는 융합 단백질의 N-말단에 융합된다. 일부 실시형태에서, NLS는 융합 단백질의 C-말단에 융합된다. 일부 실시형태에서, NLS는 Cas9 도메인의 N-말단에 융합된다. 일부 실시형태에서, NLS는 nCas9 도메인 또는 dCas9 도메인의 C-말단에 융합된다. 일부 실시형태에서, NLS는 데아미나제의 N-말단에 융합된다. 일부 실시형태에서, NLS는 데아미나제의 C-말단에 융합된다. 일부 실시형태에서, NLS는 하나 이상의 링커를 통해 융합 단백질에 융합된다. 일부 실시형태에서, NLS는 링커없이 융합 단백질에 융합된다. 일부 실시형태에서, NLS는 본 명세서에서 제공되거나 참조된 NLS 서열 중 어느 하나의 아미노산 서열을 포함한다. 추가의 핵 위치결정 서열은 당업계에 공지되어 있고 숙련된 기술자에게 명백할 것이다. 예를 들어, NLS 서열은 Plank 등의 PCT/EP2000/011690에 기재되어 있으며, 그 내용은 예시적인 핵 위치결정 서열의 개시를 위해 본 명세서에 참조로 포함된다. 일부 실시형태에서, NLS는 아미노산 서열 PKKKRKVEGADKRTADGSEFES PKKKRKV, KRTADGSEFESPKKKRKV, KRPAATKKAGQAKKKK, KKTELQTTNAENKTKKL, KRGINDRNDSLFWRGENGRKTR, MKSNRGRKKKRKVLCKRPRKPKKKKRKVKRPRKPKKKKRKVKRPRKPKKKKRKVKRPRKPKKKKRKVKRPRKPKKKVKVKRPKKRKV를 포함한다. 일부 실시형태에서, NLS는 링커 내에 존재하거나 NLS는 링커, 예를 들어, 본 명세서에 기재된 링커에 의해 측접된다. 일부 실시형태에서, N-말단 또는 C-말단 NLS는 이분 NLS이다. 이분 NLS는 비교적 짧은 스페이서 서열로 분리된 2개의 염기성(basic) 아미노산 클러스터를 포함한다(따라서 이분 - 2개 부분인 반면, 단분(monopartite) NLS는 그렇지 않다). 뉴클레오플라스민의 NLS인, KR [PAATKKAGQA] KKKK는 편재성(ubiquitous) 이분 신호의 원형(prototype)이며: 약 10개 아미노산의 스페이서로 분리된, 2개의 염기성 아미노산 클러스터이다. 예시적인 이분 NLS의 서열은 다음과 같다: PKKKRKVEGADKRTADGSEFES PKKKRKV.
일부 실시형태에서, 본 발명의 융합 단백질은 링커 서열을 포함하지 않는다. 일부 실시형태에서, 하나 이상의 도메인 또는 단백질 사이에 링커 서열이 존재한다.
본 개시의 융합 단백질은 하나 이상의 추가 특징을 포함할 수 있음을 이해해야 한다. 예를 들어, 일부 실시형태에서, 융합 단백질은 억제제, 세포질 위치결정 서열, 핵외수송서열(nuclear export sequences)과 같은 수송 서열, 또는 다른 위치결정 서열뿐만 아니라, 융합 단백질의 가용화, 정제, 또는 검출에 유용한 서열 태그를 포함할 수 있다. 본 명세서에 제공된 적합한 단백질 태그는, 이로만 제한되는 것은 아니지만, 비오틴 카복실라제 운반 단백질(BCCP; biotin carboxylase carrier protein) 태그, myc-태그, 칼모둘린-태그, FLAG-태그, 헤마글루티닌(HA)-태그, 폴리히스티딘 태그(히스티딘 태그라고도 함) 또는 His-태그, 말토스 결합 단백질(MBP)-태그, nus-태그, 글루타티온-S-트랜스퍼라제(GST)-태그, 녹색 형광 단백질(GFP)-태그, 티오레독신-태그, S-태그, Softags(예를 들어, Softag 1, Softag 3), 연쇄상 태그, 비오틴 리가아제 태그, FlAsH 태그, V5 태그, 및 SBP 태그를 포함한다. 추가의 적절한 서열은 해당 기술분야의 당업자에게 명백할 것이다. 일부 실시형태에서, 융합 단백질은 하나 이상의 His 태그를 포함한다.
하나 이상의 핵 위치결정 서열(NLS)을 포함하는 CRISPR 효소를 코딩하는 벡터가 사용될 수 있다. 예를 들어, 약 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개일 수 있는 NLS가 사용될 수 있다. CRISPR 효소는 아미노-말단 또는 그 근처에, 또는 카복시-말단 또는 그 근처에, 약 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개 또는 그 이상의 NLS, 또는 이들의 조합(예를 들어, 아미노 말단에 하나 이상의 NLS 및 카복시 말단에 하나 이상의 NLS)을 포함할 수 있다. 하나 이상의 NLS가 존재할 때, 각각은 다른 것들과 독립적으로 선택될 수 있으며, 그래서 단일 NLS는 하나 이상의 사본(copy)으로 존재하고/하거나 하나 이상의 사본 내에 존재하는 하나 이상의 다른 NLS와 조합하여 존재할 수 있다.
상기 방법에 사용된 CRISPR 효소는 약 6개의 NLS를 포함할 수 있다. NLS에 가장 가까운 아미노산이 N- 또는 C-말단으로부터 폴리펩티드 사슬을 따라 약 50개 아미노산 이내, 예를 들어, 1개, 2개, 3개, 4개, 5개, 10개, 15개, 20개, 25개, 30개, 40개, 또는 50개의 아미노산 이내인 경우, NLS는 N- 또는 C-말단 근처인 것으로 간주된다.
일부 실시형태에서, NLS는 아미노산 서열 PKKKRKVEGADKRTADGSEFES PKKKRKV, KRTADGSEFESPKKKRKV, KRPAATKKAGQAKKKK, KKTELQTTNAENKTKKL, KRGINDRNFWRGENGRKTR, RKSGKIAAIVVKRPRKPKKKRKV, 또는 MDSLLMNRRKFLYQFKNVRWAKGRRETYLC를 포함한다.
일부 실시형태에서, NLS는 링커 내에 존재하거나, NLS는 링커, 예를 들어, 본 명세서에 기재된 링커에 의해 측접된다. 일부 실시형태에서, N-말단 또는 C-말단 NLS는 이분 NLS이다. 이분 NLS는 비교적 짧은 스페이서 서열로 분리된 2개의 염기성 아미노산 클러스터를 포함한다(그래서, 이분 - 2개 부분인 반면, 단분 NLS는 그렇지 않다). 뉴클레오플라스민의 NLS인, KR[PAATKKAGQA] KKKK는 편재성 이분 신호의 원형이며: 약 10개 아미노산의 스페이서로 분리된 2개의 염기성 아미노산 클러스터이다. 예시적인 이분 NLS의 서열은 다음과 같다: PKKKRKVEGADKRTADGSEFES PKKKRKV.
일부 실시형태에서, 본 발명의 융합 단백질은 링커 서열을 포함하지 않는다. 일부 실시형태에서, 하나 이상의 도메인 또는 단백질 사이에 링커 서열이 존재한다.
PAM 서열은 당업계에 공지된 임의의 PAM 서열일 수 있다. 적합한 PAM 서열은, 이로만 제한되는 것은 아니지만, NGG, NGA, NGC, NGN, NGT, NGCG, NGAG, NGAN, NGNG, NGCN, NGCG, NGTN, NNGRRT, NNNRRT, NNGRR(N), TTTV, TYCV, TYCV, TATV, NNNNGATT, NNAGAAW, 또는 NAAAAC를 포함한다. Y는 피리미딘이고; N은 임의의 뉴클레오티드 염기이고; W는 A 또는 T이다.
핵염기
편집 도메인
폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인 및 핵염기 편집 도메인(예를 들어, 데아미나제 도메인)을 포함하는 융합 단백질을 포함하는 염기 편집기가 본 명세서에 설명된다. 염기 편집기는 표적 서열을 인식할 수 있는 가이드 폴리뉴클레오티드와 상호작용함으로써 표적 폴리뉴클레오티드 서열에서 하나 이상의 염기를 편집하도록 프로그래밍될 수 있다. 표적 서열이 인식되면, 염기 편집기는 편집이 발생하는 폴리뉴클레오티드에 고정되고, 그런 다음 염기 편집기의 데아미나제 도메인 구성요소는 표적 염기를 편집할 수 있다.
일부 실시형태에서, 핵염기 편집 도메인은 데아미나제 도메인이다. 일부 실시형태에서, 데아미나제 도메인은 시토신 데아미나제 또는 시티딘 데아미나제일 수 있다. 일부 실시형태에서, 용어 "시토신 데아미나제" 및 "시티딘 데아미나제"는 상호교환적으로 사용될 수 있다. 일부 경우에, 데아미나제 도메인은 아데닌 데아미나제 또는 아데노신 데아미나제일 수 있다. 일부 실시형태에서, 용어 "아데닌 데아미나제" 및 "아데노신 데아미나제"는 상호교환적으로 사용될 수 있다. 핵염기 편집 단백질의 상세내용은 PCT 국제출원 번호 PCT/2017/045381(WO2018/027078) 및 PCT/US2016/058344(WO2017/070632)에 설명되어 있으며, 이들 각각은 그 전체가 본 명세서에 참조로 포함된다. 또한, 그 전체 내용이 본 명세서에 참조로 포함되는, 다음 문헌 참조: Komor, A.C., et al., "Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage" Nature 533, 420-424 (2016); Gaudelli, N.M., et al., "Programmable base editing of A·T to G·C in genomic DNA without DNA cleavage" Nature 551, 464-471 (2017); 및 Komor, A.C., et al., "Improved base excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity" Science Advances 3:eaao4774 (2017).
C에서 T로의 편집
일부 실시형태에서, 본 명세서에 개시된 염기 편집기는 폴리뉴클레오티드의 표적 시티딘(C) 염기를 탈아미노화하여, 티민의 염기쌍형성 특성을 갖는, 우리딘(U)을 생성할 수 있는 시티딘 데아미나제를 포함하는 융합 단백질을 포함한다. 일부 실시형태에서, 예를 들어, 폴리뉴클레오티드가 이중-가닥(예를 들어, DNA)인 경우, 우리딘 염기는 C:G에서 T:A로의 전이를 발생시키기 위해 티미딘 염기로 (예를 들어, 세포 복구기구에 의해) 치환될 수 있다. 다른 실시형태에서, 염기 편집기에 의한 핵산 중의 C에서 U로의 탈아미노화는 U에서 T로의 치환을 수반할 수 없다.
U를 발생시키는 폴리뉴클레오티드에서의 표적 C의 탈아미노화는 본 명세서에 기재된 염기 편집기에 의해 실행될 수 있는 염기 편집 유형의 비제한적인 예이다. 또 다른 예에서, 시티딘 데아미나제 도메인을 포함하는 염기 편집기는 시토신(C) 염기의 구아닌(G) 염기로의 전환을 매개할 수 있다. 예를 들어, 염기 편집기의 시티딘 데아미나제 도메인에 의한 시티딘의 탈아미노화에 의해 생성된 폴리뉴클레오티드의 U는 염기 절제 복구 메커니즘에 의해(예를 들어, 우라실 DNA 글리코실라제(UDG) 도메인에 의해) 폴리뉴클레오티드로부터 절제될 수 있으며, 무염기성 부위를 생성한다. 무염기성 부위 반대편의 핵염기는, 예를 들어, 번역 중합효소에 의해(예를 들어, 염기 복구 기구에 의해), C와 같은, 또 다른 염기로 치환될 수 있다. 무염기성 부위 반대편의 핵염기가 C로 대체되는 것이 일반적이지만 다른 치환(예를 들어, A, G 또는 T)도 발생할 수 있다.
따라서, 일부 실시형태에서 본 명세서에 기재된 염기 편집기는 폴리뉴클레오티드에서 표적 C를 U로 탈아미노화할 수 있는 탈아미노화 도메인(예를 들어, 시티딘 데아미나제 도메인)을 포함한다. 추가로, 아래에 설명된 바와 같이, 염기 편집기는 탈아미노화로부터 생성된 U의, 일부 실시형태에서, T 또는 G로의 전환을 촉진하는 추가 도메인을 포함할 수 있다. 예를 들어, 시티딘 데아미나제 도메인을 포함하는 염기 편집기는 우라실을 추가로 포함할 수 있다. 글리코실라제 억제제(UGI) 도메인은 T에 의한 U의 치환을 매개하여, C-에서-T 염기 편집 이벤트를 완료한다. 또 다른 예에서, 염기 편집기는 C-에서-G 염기 편집의 효율성을 개선하기 위해 번역 중합효소를 통합을 촉진할 수 있는데, 이는 번역 중합효소가 무염기성 부위 반대편에 C의 통합을 촉진할 수 있기 때문이다(즉, 무염기성 부위에서 G의 통합을 초래하여, C-에서-G 염기 편집 이벤트를 완료함).
도메인으로서 시티딘 데아미나제를 포함하는 염기 편집기는, DNA, RNA, 및 DNA-RNA 하이브리드를 포함하는, 임의의 폴리뉴클레오티드에서 표적 C를 탈아미노화시킬 수 있다. 전형적으로, 시티딘 데아미나제는 폴리뉴클레오티드의 단일-가닥 부분과 관련하여 위치하는 C 핵염기를 촉매한다. 일부 실시형태에서, 표적 C를 포함하는 전체 폴리뉴클레오티드는 단일 가닥일 수 있다. 예를 들어, 염기 편집기에 통합된 시티딘 데아미나제는 단일 가닥 RNA 폴리뉴클레오티드에서 표적 C를 탈아미노화할 수 있다. 다른 실시형태에서, 시티딘 데아미나제 도메인을 포함하는 염기 편집기는 이중-가닥 폴리뉴클레오티드에 작용할 수 있지만, 표적 C는 탈아미노화 반응시 단일 가닥 상태에 있는 폴리뉴클레오티드의 일부에 위치할 수 있다. 예를 들어, NAGPB 도메인이 Cas9 도메인을 포함하는 실시형태에서, Cas9-gRNA-표적 DNA 복합체가 형성되는 동안, 여러 뉴클레오티드가 쌍을 이루지 않은 채로 남아, Cas9 "R-루프 복합체" 형성을 초래할 수 있다. 이러한 짝을 이루지 않은 뉴클레오티드는 단일-가닥 특이적 뉴클레오티드 데아미나제 효소(예를 들어, 시티딘 데아미나아제)의 기질로 작용할 수 있는 단일-가닥 DNA의 버블(bubble)을 형성할 수 있다.
일부 실시형태에서, 염기 편집기의 시티딘 데아미나제는 아포리포단백질 B mRNA 편집 복합체(APOBEC) 패밀리 데아미나제의 전부 또는 일부를 포함할 수 있다. APOBEC는 진화적으로 보존된 시티딘 데아미나제 패밀리이다. 이 패밀리의 구성원은 C-에서-U 편집 효소이다. APOBEC 유사 단백질의 N-말단 도메인은 촉매 도메인이고 C-말단 도메인은 유사 촉매 도메인이다. 보다 구체적으로, 촉매 도메인은 아연 의존성 시티딘 데아미나제 도메인이며, 시티딘 탈아미노화에 중요하다. APOBEC 패밀리 구성원은 APOBEC1, APOBEC2, APOBEC3A, APOBEC3B, APOBEC3C, APOBEC3D("APOBEC3E", 현재 이로 지칭됨), APOBEC3F, APOBEC3G, APOBEC3H, APOBEC4, 및 활성화-유도(시티딘) 데아미나제를 포함한다. 일부 실시형태에서, 염기 편집기에 통합된 데아미나제는 APOBEC1 데아미나제의 전부 또는 일부를 포함한다. 일부 실시형태에서, 염기 편집기에 통합된 데아미나제는 APOBEC2 데아미나제의 전부 또는 일부를 포함한다. 일부 실시형태에서, 염기 편집기에 통합된 데아미나제는 APOBEC3 데아미나제의 전부 또는 일부를 포함한다. 일부 실시형태에서, 염기 편집기에 통합된 데아미나제는 APOBEC3A 데아미나제의 전부 또는 일부를 포함한다. 일부 실시형태에서, 염기 편집기로 통합된 데아미나제는 APOBEC3B 데아미나제의 전부 또는 일부를 포함한다. 일부 실시형태에서, 염기 편집기에 통합된 데아미나제는 APOBEC3C 데아미나제의 전부 또는 일부를 포함한다. 일부 실시형태에서, 염기 편집기에 통합된 데아미나제는 APOBEC3D 데아미나제의 전부 또는 일부를 포함한다. 일부 실시형태에서, 염기 편집기에 통합된 데아미나제는 APOBEC3E 데아미나제의 전부 또는 일부를 포함한다. 일부 실시형태에서, 염기 편집기에 통합된 데아미나제는 APOBEC3F 데아미나제의 전부 또는 일부를 포함한다. 일부 실시형태에서, 염기 편집기에 통합된 데아미나제는 APOBEC3G 데아미나제의 전부 또는 일부를 포함한다. 일부 실시형태에서, 염기 편집기에 통합된 데아미나제는 APOBEC3H 데아미나제의 전부 또는 일부를 포함한다. 일부 실시형태에서, 염기 편집기에 통합된 데아미나제는 APOBEC4 데아미나제의 전부 또는 일부를 포함한다. 일부 실시형태에서, 염기 편집기에 통합된 데아미나제는 활성화-유도 데아미나제(AID)의 전부 또는 일부를 포함한다. 일부 실시형태에서, 염기 편집기에 통합된 데아미나제는 시티딘 데아미나제1(CDA1)의 전부 또는 일부를 포함한다. 염기 편집기는 임의의 적합한 유기체(예를 들어, 인간 또는 랫트)로부터의 데아미나제를 포함할 수 있음을 이해해야 한다. 일부 실시형태에서, 염기 편집기의 데아미나제 도메인은 인간, 침팬지, 고릴라, 원숭이, 소, 개, 랫트, 또는 마우스에서 유래한다. 일부 실시형태에서, 염기 편집기의 데아미나제 도메인은 랫트(예를 들어, 랫트 APOBEC1)로부터 유래된다. 일부 실시형태에서, 염기 편집기의 데아미나제 도메인은 인간 APOBEC1이다. 일부 실시형태에서, 염기 편집기의 데아미나제 도메인은 pmCDA1이다.
PmCDA1의 아미노산 및 핵산 서열이 아래에 제시되어 있다.
>tr|A5H718|A5H718_PETMA Cytosine deaminase OS=Petromyzon marinus OX=7757 PE=2 SV=1 아미노산 서열:
핵산 서열: >EF094822.1 Petromyzon marinus isolate PmCDA.21 cytosine deaminase mRNA, complete cds:
인간 활성화-유도 시티딘 데아미나제(AID)의 코딩 서열(CDS)의 아미노산 및 핵산 서열은 아래에 제시되어 있다.
>tr|Q6QJ80|Q6QJ80_HUMAN Activation-induced cytidine deaminase OS=Homo sapiens OX=9606 GN=AICDA PE=2 SV=1 아미노산 서열:
인간 활성화-유도 시티딘 데아미나제(AID)의 코딩 서열(CDS)의 아미노산 및 핵산 서열은 아래에 제시되어 있다.
>tr|Q6QJ80|Q6QJ80_HUMAN Activation-induced cytidine deaminase OS=Homo sapiens OX=9606 GN=AICDA PE=2 SV=1 아미노산 서열:
핵산 서열: >NG_011588.1:5001-15681 Homo sapiens activation induced cytidine deaminase (AICDA), RefSeqGene (LRG_17) on chromosome 12:
본 개시의 양상에 따라 Cas9에 융합될 수 있는 다른 예시적인 데아미나제가 아래에 제공된다. 일부 실시형태에서, 각각의 서열의 활성 도메인, 예를 들어, 위치결정(localizing) 신호가 없는 도메인(핵 위치결정 서열, 핵외수송신호가 없는, 세포질 위치결정 신호)이 사용될 수 있음을 이해해야 한다).
인간 AID:
(밑줄: 핵 위치결정 서열; 이중 밑줄: 핵외수송신호)
마우스 AID:
(밑줄: 핵 위치결정 서열; 이중 밑줄: 핵외수송신호)
개 AID:
(밑줄: 핵 위치결정 서열; 이중 밑줄: 핵외수송신호)
소 AID:
(밑줄: 핵 위치결정 서열; 이중 밑줄: 핵외수송신호)
랫트 AID
(밑줄: 핵 위치결정 서열; 이중 밑줄: 핵외수송신호)
마우스 APOBEC-3
(이탤릭: 핵산 편집 도메인)
랫트 APOBEC-3:
(이탤릭: 핵산 편집 도메인)
붉은털 원숭이(Rhesus macaque) APOBEC-3G:
(이탤릭: 핵산 편집 도메인; 밑줄: 세포질 위치결정 신호)
침팬지 APOBEC-3G:
(이탤릭: 핵산 편집 도메인; 밑줄: 세포질 위치결정 신호)
녹색 원숭이 APOBEC-3G:
(이탤릭: 핵산 편집 도메인; 밑줄: 세포질 위치결정 신호)
인간 APOBEC-3G:
(이탤릭: 핵산 편집 도메인; 밑줄: 세포질 위치결정 신호)
인간 APOBEC-3F:
(이탤릭: 핵산 편집 도메인)
인간 APOBEC-3B:
(이탤릭: 핵산 편집 도메인)
랫트 APOBEC-3B:
소 APOBEC-3B:
침팬지 APOBEC-3B:
인간 APOBEC-3C:
(이탤릭: 핵산 편집 도메인)
고릴라 APOBEC-3C
인간 APOBEC-3A:
(이탤릭: 핵산 편집 도메인)
붉은털 원숭이 APOBEC-3A:
(이탤릭: 핵산 편집 도메인)
소 APOBEC-3A:
(이탤릭: 핵산 편집 도메인)
인간 APOBEC-3H:
(이탤릭: 핵산 편집 도메인)
붉은털 원숭이 APOBEC-3H:
인간 APOBEC-3D:
(이탤릭: 핵산 편집 도메인)
인간 APOBEC-1:
마우스 APOBEC-1:
랫트 APOBEC-1:
인간 APOBEC-2:
마우스 APOBEC-2:
랫트 APOBEC-2:
소 APOBEC-2:
칠성 장어(Petromyzon marinus) CDA1 (pmCDAl):
인간 APOBEC3G D316R D317R
인간 APOBEC3G 사슬 A:
인간 APOBEC3G 사슬 A D120R D121R:
본 개시의 일부 양상은, 예를 들어, 데아미나제 도메인에서 점 돌연변이를 생성함으로써, 본 명세서에 기재된 임의의 융합 단백질의 데아미나제 도메인 촉매 활성을 조절하는 것이 융합 단백질(예를 들어, 염기 편집기)의 가공성(processivity)에 영향을 미친다는 인식에 기초한다. 예를 들어, 염기 편집 융합 단백질 내에서 데아미나제 도메인의 촉매 활성을 감소시키지만 제거하지 않는 돌연변이는 데아미나제 도메인이 표적 잔기에 인접한 잔기의 탈아미노화를 촉매할 가능성을 낮출 수 있으므로, 그로 인해 탈아미노화 윈도우를 좁힌다. 탈아미노화 윈도우를 좁히는 활성은 특정 표적 잔기에 인접한 잔기의 원치 않는 탈아미노화를 방지할 수 있으며, 이는 표적-이탈 효과를 줄이거나 방지할 수 있다.
예를 들어, 일부 실시형태에서, 염기 편집기에 통합된 APOBEC 데아미나제는 rAPOBEC1의 H121X, H122X, R126X, R126X, R118X, W90X, W90X, 및 R132X로 이루어진 군으로부터 선택된 하나 이상의 돌연변이, 또는 또 다른 APOBEC 데아미나제에서의 하나 이상의 상응하는 돌연변이들을 포함할 수 있으며, 여기서 X는 임의의 아미노산이다. 일부 실시형태에서, 염기 편집기에 통합된 APOBEC 데아미나제는 rAPOBEC1의 H121R, H122R, R126A, R126E, R118A, W90A, W90Y, 및 R132E로 이루어진 군으로부터 선택된 하나 이상의 돌연변이, 또는 또 다른 APOBEC 데아미나제에서의 하나 이상의 상응하는 돌연변이들을 포함할 수 있다.
일부 실시형태에서, 염기 편집기에 통합된 APOBEC 데아미나제는 hAPOBEC3G의 D316X, D317X, R320X, R320X, R313X, W285X, W285X, R326X로 이루어진 군에서 선택된 하나 이상의 돌연변이, 또는 또 다른 APOBEC 데아미나제에서의 하나 이상의 상응하는 돌연변이들을 포함할 수 있으며, 여기서 X는 임의의 아미노산이다. 일부 실시형태에서, 본 명세서에 제공된 임의의 융합 단백질은 hAPOBEC3G의 D316R, D317R, R320A, R320E, R313A, W285A, W285Y, R326E으로 이루어진 군에서 선택된 하나 이상의 돌연변이, 또는 또 다른 APOBEC 데아미나제에서의 하나 이상의 상응하는 돌연변이들을 포함할 수 있다.
일부 실시형태에서, 염기 편집기에 통합된 APOBEC 데아미나제는 rAPOBEC1의 H121R 및 H122R 돌연변이, 또는 또 다른 APOBEC 데아미나제에서의 하나 이상의 상응하는 돌연변이들을 포함할 수 있다. 일부 실시형태에서, 염기 편집기에 통합된 APOBEC 데아미나제는 rAPOBEC1의 R126A 돌연변이, 또는 또 다른 APOBEC 데아미나제에서의 하나 이상의 상응하는 돌연변이들을 포함하는 APOBEC 데아미나제를 포함할 수 있다. 일부 실시형태에서, 염기 편집기에 통합된 APOBEC 데아미나제는 rAPOBEC1의 R126E 돌연변이, 또는 또 다른 APOBEC 데아미나제에서의 하나 이상의 상응하는 돌연변이들을 포함하는 APOBEC 데아미나제를 포함할 수 있다. 일부 실시형태에서, 염기 편집기에 통합된 APOBEC 데아미나제는 rAPOBEC1의 R118A 돌연변이, 또는 또 다른 APOBEC 데아미나제에서의 하나 이상의 상응하는 돌연변이들을 포함하는 APOBEC 데아미나제를 포함할 수 있다. 일부 실시형태에서, 염기 편집기에 통합된 APOBEC 데아미나제는 rAPOBEC1의 W90A 돌연변이, 또는 또 다른 APOBEC 데아미나제에서의 하나 이상의 상응하는 돌연변이들을 포함하는 APOBEC 데아미나제를 포함할 수 있다. 일부 실시형태에서, 염기 편집기에 통합된 APOBEC 데아미나제는 rAPOBEC1의 W90Y 돌연변이, 또는 또 다른 APOBEC 데아미나제에서의 하나 이상의 상응하는 돌연변이들을 포함하는 APOBEC 데아미나제를 포함할 수 있다. 일부 실시형태에서, 염기 편집기에 통합된 APOBEC 데아미나제는 rAPOBEC1의 R132E 돌연변이, 또는 또 다른 APOBEC 데아미나제에서의 하나 이상의 상응하는 돌연변이들을 포함하는 APOBEC 데아미나제를 포함할 수 있다. 일부 실시형태에서, 염기 편집기에 통합된 APOBEC 데아미나제는 rAPOBEC1의 W90Y 및 R126E 돌연변이, 또는 또 다른 APOBEC 데아미나제에서의 하나 이상의 상응하는 돌연변이들을 포함하는 APOBEC 데아미나제를 포함할 수 있다. 일부 실시형태에서, 염기 편집기에 통합된 APOBEC 데아미나제는 rAPOBEC1의 R126E 및 R132E 돌연변이, 또는 또 다른 APOBEC 데아미나제에서의 하나 이상의 상응하는 돌연변이들을 포함하는 APOBEC 데아미나제를 포함할 수 있다. 일부 실시형태에서, 염기 편집기에 통합된 APOBEC 데아미나제는 rAPOBEC1의 W90Y 및 R132E 돌연변이, 또는 또 다른 APOBEC 데아미나제에서의 하나 이상의 상응하는 돌연변이들을 포함하는 APOBEC 데아미나제를 포함할 수 있다. 일부 실시형태에서, 염기 편집기에 통합된 APOBEC 데아미나제는 rAPOBEC1의 W90Y, R126E, 및 R132E 돌연변이, 또는 또 다른 APOBEC 데아미나제에서의 하나 이상의 상응하는 돌연변이들을 포함하는 APOBEC 데아미나제를 포함할 수 있다.
일부 실시형태에서, 염기 편집기에 통합된 APOBEC 데아미나제는 hAPOBEC3G의 D316R 및 D317R 돌연변이, 또는 또 다른 APOBEC 데아미나제에서의 하나 이상의 상응하는 돌연변이들을 포함하는 APOBEC 데아미나제를 포함할 수 있다. 일부 실시형태에서, 본 명세서에 제공된 임의의 융합 단백질은 hAPOBEC3G의 R320A 돌연변이, 또는 또 다른 APOBEC 데아미나제에서의 하나 이상의 상응하는 돌연변이들을 포함하는 APOBEC 데아미나제를 포함한다. 일부 실시형태에서, 염기 편집기에 통합된 APOBEC 데아미나제는 hAPOBEC3G의 R320E 돌연변이, 또는 또 다른 APOBEC 데아미나제에서의 하나 이상의 상응하는 돌연변이들을 포함하는 APOBEC 데아미나제를 포함할 수 있다. 일부 실시형태에서, 염기 편집기에 통합된 APOBEC 데아미나제는 hAPOBEC3G의 R313A 돌연변이, 또는 또 다른 APOBEC 데아미나제에서의 하나 이상의 상응하는 돌연변이들을 포함하는 APOBEC 데아미나제를 포함할 수 있다. 일부 실시형태에서, 염기 편집기에 통합된 APOBEC 데아미나제는 hAPOBEC3G의 W285A 돌연변이, 또는 또 다른 APOBEC 데아미나제에서의 하나 이상의 상응하는 돌연변이들을 포함하는 APOBEC 데아미나제를 포함할 수 있다. 일부 실시형태에서, 염기 편집기에 통합된 APOBEC 데아미나제는 hAPOBEC3G의 W285Y 돌연변이, 또는 또 다른 APOBEC 데아미나제에서의 하나 이상의 상응하는 돌연변이들을 포함하는 APOBEC 데아미나제를 포함할 수 있다. 일부 실시형태에서, 염기 편집기에 통합된 APOBEC 데아미나제는 hAPOBEC3G의 R326E 돌연변이, 또는 또 다른 APOBEC 데아미나제에서의 하나 이상의 상응하는 돌연변이들을 포함하는 APOBEC 데아미나제를 포함할 수 있다. 일부 실시형태에서, 염기 편집기에 통합된 APOBEC 데아미나제는 hAPOBEC3G의 W285Y 및 R320E 돌연변이, 또는 또 다른 APOBEC 데아미나제에서의 하나 이상의 상응하는 돌연변이들을 포함하는 APOBEC 데아미나제를 포함할 수 있다. 일부 실시형태에서, 염기 편집기에 통합된 APOBEC 데아미나제는 hAPOBEC3G의 R320E 및 R326E 돌연변이, 또는 또 다른 APOBEC 데아미나제에서의 하나 이상의 상응하는 돌연변이들을 포함하는 APOBEC 데아미나제를 포함할 수 있다. 일부 실시형태에서, 염기 편집기에 통합된 APOBEC 데아미나제는 hAPOBEC3G의 W285Y 및 R326E 돌연변이, 또는 또 다른 APOBEC 데아미나제에서의 하나 이상의 상응하는 돌연변이들을 포함하는 APOBEC 데아미나제를 포함할 수 있다. 일부 실시형태에서, 염기 편집기에 통합된 APOBEC 데아미나제는 hAPOBEC3G의 W285Y, R320E, 및 R326E 돌연변이, 또는 또 다른 APOBEC 데아미나제에서의 하나 이상의 상응하는 돌연변이들을 포함하는 APOBEC 데아미나제를 포함할 수 있다.
Addgene(플라스미드 85169, 85170, 85171, 85172, 85173, 85174, 85175, 85176, 85177)로부터 입수가능한, SaBE3, SaKKH-BE3, VQR-BE3, EQR-BE3, VRER-BE3, YE1-BE3, EE-BE3, YE2-BE3, 및 YEE-BE3를 포함하나, 이로만 제한되는 것은 아닌, 다수의 변형된 시티딘 데아미나제가 상업적으로 입수가능하다.
C에서 T로의 핵염기 편집 단백질에 관한 상세 내용은, 이의 전체 내용이 본 명세서에 참조로 포함되는, PCT 국제 출원 번호 PCT/US2016/058344(WO2017/070632) 및 문헌[Komor, A.C., et al., "Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage" Nature 533, 420-424 (2016)]에 설명되어 있다.
A에서 G로의 편집
일부 실시형태에서, 본 명세서에 기재된 염기 편집기는 아데노신 데아미나제를 포함하는 데아미나제 도메인을 포함할 수 있다. 염기 편집기의 이러한 아데노신 데아미나제 도메인은 A를 탈아미노화하여, G의 염기쌍 특성을 나타내는, 이노신(I)을 형성함으로써 아데닌(A) 핵염기를 구아닌(G) 핵염기로 편집하는 것을 용이하게 할 수 있다. 아데노신 데아미나제는 데옥시리보핵산(DNA)에서 데옥시아데노신 잔기의 아데닌을 탈아미노화(즉, 아민 그룹 제거)할 수 있다.
일부 실시형태에서, 본 명세서에 제공된 핵염기 편집기는 하나 이상의 단백질 도메인과 함께 융합하여, 융합 단백질을 생성함으로써 제조될 수 있다. 특정 실시형태에서, 본 명세서에 제공된 융합 단백질은 융합 단백질의 염기 편집 활성(예를 들어, 효율, 선택성, 및 특이성)을 개선하는 하나 이상의 특징을 포함한다. 예를 들어, 본 명세서에 제공된 융합 단백질은 감소된 뉴클레아제 활성을 갖는 Cas9 도메인을 포함할 수 있다. 일부 실시형태에서, 본 명세서에 제공된 융합 단백질은 뉴클레아제 활성을 갖지 않는 Cas9 도메인(dCas9), 또는 Cas9 닉카아제(nCas9)로 지칭되는 이중나선화된 DNA 분자의 한 가닥을 절단하는 Cas9 도메인을 가질 수 있다. 특정 이론에 구속됨을 원치 않으면서, 촉매 잔기(예를 들어, H840)의 존재는 Cas9의 활성을 유지하여 표적 A 반대편에 있는 T를 포함하는 편집되지 않은 (예를 들어, 손상되지 않은) 가닥을 절단한다. Cas9의 촉매 잔기의 돌연변이(예를 들어, D10에서 A10)는 표적화된 A 잔기를 포함하는 편집된 가닥의 절단을 방지한다. 이러한 Cas9 변이체는 gRNA-정의된 표적 서열을 기반으로 특정 위치에서 단일 가닥 DNA 파손(nick)을 생성할 수 있으며, 이는 비-편집된 가닥을 복구하여 궁극적으로 비-편집된 가닥에서 T에서 C로의 변경을 초래한다. 일부 실시형태에서, A-에서-G 염기편집기는 이노신 염기 절제 복구의 억제제, 예를 들어, 우라실 글리코실라제 억제제(UGI) 도메인 또는 촉매적으로 비활성인 이노신 특이적 뉴클레아제를 추가로 포함한다. 특정 이론에 구속됨을 원치 않으면서, UGI 도메인 또는 촉매적으로 비활성인 이노신 특이적 뉴클레아제는 탈아미노화된 아데노신 잔기(예를 들어, 이노신)의 염기 절제 복구를 억제하거나 방지할 수 있으며, 이는 염기 편집기의 활성 또는 효율성을 개선할 수 있다.
아데노신 데아미나제를 포함하는 염기 편집기는 DNA, RNA 및 DNA-RNA 하이브리드를 포함하는, 임의의 폴리뉴클레오티드에 작용할 수 있다. 특정 실시형태에서, 아데노신 데아미나제를 포함하는 염기 편집기는 RNA를 포함하는 폴리뉴클레오티드의 표적 A를 탈아미노화시킬 수 있다. 예를 들어, 염기 편집기는 RNA 폴리뉴클레오티드 및/또는 DNA-RNA 하이브리드 폴리뉴클레오티드의 표적 A를 탈아미노화할 수 있는 아데노신 데아미나제 도메인을 포함할 수 있다. 일 실시형태에서, 염기 편집기에 통합된 아데노신 데아미나제는 RNA에 작용하는 아데노신 데아미나제(ADAR, 예를 들어, ADAR1 또는 ADAR2)의 전부 또는 일부를 포함한다. 또 다른 실시형태에서, 염기 편집기에 통합된 아데노신 데아미나제는 tRNA(ADAT)에 작용하는 아데노신 데아미나제의 전부 또는 일부를 포함한다. 아데노신 데아미나제 도메인을 포함하는 염기 편집기는 또한 DNA 폴리뉴클레오티드의 A 핵염기를 탈아미노화할 수 있다. 일 실시형태에서, 염기 편집기의 아데노신 데아미나제 도메인은 ADAT가 DNA에서 표적 A를 탈아미노화하도록 허용하는 하나 이상의 돌연변이를 포함하는 ADAT의 전부 또는 일부를 포함한다. 예를 들어, 염기 편집기는 하기 돌연변이들 중 하나 이상을 포함하는 에스케리치아 콜라이(Escherichia coli)로부터의 ADAT(EcTadA)의 전부 또는 일부를 포함할 수 있다: D108N, A106V, D147Y, E155V, L84F, H123Y, I157F, 또는 또 다른 아데노신 데아미나제에서의 상응하는 돌연변이.
아데노신 데아미나제는 임의의 적합한 유기체(예를 들어, E. 콜라이)로부터 유래될 수 있다. 일부 실시형태에서, 아데닌 데아미나제는 본 명세서에 제공된 임의의 돌연변이(예를 들어, ecTadA에서의 돌연변이)에 상응하는 하나 이상의 돌연변이를 포함하는 자연적으로 발생하는 아데노신 데아미나제이다. 임의의 상동성 단백질에서 상응하는 잔기는, 예를 들어, 서열 정렬 및 상동성 잔기의 결정에 의해 확인될 수 있다. 본 명세서에 기재된 임의의 돌연변이(예를 들어, ecTadA에서 식별된 임의의 돌연변이)에 상응하는 임의의 자연적으로-발생하는 아데노신 데아미나제(예를 들어, ecTadA에 상동성을 갖는 것)에서의 돌연변이는 그에 따라 생성될 수 있다.
TadA
특정 실시형태에서, TadA는 그 전문이 본 명세서에 참조로 포함되는, PCT/US2017/045381(WO 2018/027078)에 기재된 TadA 중 임의의 하나이다.
일 실시형태에서, 본 발명의 융합 단백질은, Cas9 닉카아제에 연결된, TadA7.10에 연결된 야생형 TadA를 포함한다. 특정 실시형태에서, 융합 단백질은 단일 TadA7.10 도메인(예를 들어, 단량체로 제공됨)을 포함한다. 다른 실시형태에서, ABE7.10 편집기는 이종이량체(heterodimers)를 형성할 수 있는, TadA7.10 및 TadA(wt)를 포함한다. "TadA 참조 서열" 또는 야생형 TadA(TadA(wt)로 지칭되는, 관련 아미노산 서열은 다음과 같다:
TadA7.10:
일부 실시형태에서, 아데노신 데아미나제는 본 명세서에 제공된 아데노신 데아미나제 중 어느 하나에 제시된 아미노산 서열 중 어느 하나와 적어도 60 %, 적어도 65 %, 적어도 70 %, 적어도 75 %, 적어도 80 %, 적어도 85 %, 적어도 90 %, 적어도 95 %, 적어도 96 %, 적어도 97 %, 적어도 98 %, 적어도 99 %, 또는 적어도 99.5 % 동일한 아미노산 서열을 포함한다. 본 명세서에 제공된 아데노신 데아미나제는 하나 이상의 돌연변이(예를 들어, 본 명세서에 제공된 임의의 돌연변이)를 포함할 수 있음을 이해해야 한다. 본 개시는 특정 백분율 동일성 및 본 명세서에 기재된 임의의 돌연변이 또는 이들의 조합을 갖는 임의의 데아미나제 도메인을 제공한다. 일부 실시형태에서, 아데노신 데아미나제는 참조 서열, 또는 본 명세서에 제공된 아데노신 데아미나제와 비교하여 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 21개, 24개, 25개, 26개, 27개, 28개, 29개, 30개, 31개, 32개, 33개, 34개, 35개, 36개, 37개, 38개, 39개, 40개, 41개, 42개, 43개, 44개, 45개, 46개, 47개, 48개, 49개, 50개, 또는 그 이상의 돌연변이를 갖는 아미노산 서열을 포함한다. 일부 실시형태에서, 아데노신 데아미나제는 당업계에 공지되거나 본 명세서에 기재된 아미노산 서열 중 어느 하나와 비교하여 적어도 5개, 적어도 10개, 적어도 15개, 적어도 20개, 적어도 30개, 적어도 35개, 적어도 40개, 적어도 45개, 적어도 50개, 적어도 60개, 적어도 70개, 적어도 80개, 적어도 90개, 적어도 100개, 적어도 110개, 적어도 120개, 적어도 130개, 적어도 140개, 적어도 150개, 적어도 160개, 또는 적어도 170개의 동일한 연속(contiguous) 아미노산 잔기를 포함한다.
일부 실시형태에서 TadA 데아미나제는 전체-길이 E. 콜라이(E. coli) TadA 데아미나제이다. 예를 들어, 특정 실시형태에서, 아데노신 데아미나제는 다음 아미노산 서열을 포함한다:
본 출원에 유용한 추가적인 아데노신 데아미나제는 당업자에게 명백할 것이며 본 개시의 범위 내에 있다는 것이 이해될 것이다. 예를 들어, 아데노신 데아미나아제는 tRNA(ADAT)에 작용하는 아데노신 데아미나아제의 상동체일 수 있다. 제한됨이 없이, 예시적인 AD AT 상동체의 아미노산 서열은 다음을 포함한다:
스타필로코커스 아우레우스(Staphylococcus aureus) TadA:
바실러스 서브틸리스(Bacillus subtilis) TadA:
살모넬라 티피뮤리움(S. typhimurium) TadA:
슈와넬라 퓨트레파시엔스(S. putrefaciens) TadA:
해모필러스 인플루엔자 F3031(H. influenzae) F3031 TadA:
카울로박터 크레스센투스(C. crescentus) TadA:
지오박터 설퍼레두센스(G. sulfurreducens) TadA:
E. 콜라이(E. coli) TadA(ecTadA)의 일 실시형태는 다음을 포함한다:
일부 실시형태에서, 아데노신 데아미나제는 원핵생물(prokaryote)로부터의 것이다. 일부 실시형태에서, 아데노신 데아미나제는 박테리아로부터의 것이다. 일부 실시형태에서, 아데노신 데아미나제는 에스케리치아 콜라이(Escherichia coli), 스타필로코커스 아우레우스(Staphylococcus aureus), 살모넬라 티피(Salmonella typhi), 슈와넬라 퓨트레파시엔스(Shewanella putrefaciens), 해모필러스 인플루엔자(Haemophilus influenzae), 카울로박터 크레스센투스(Caulobacter crescentus), 또는 바실러스 서브틸리스(Bacillus subtilis)로부터의 것이다. 일부 실시형태에서, 아데노신 데아미나제는 E. 콜라이(E. coli)로부터의 것이다.
일 실시형태에서, 본 발명의 융합 단백질은, Cas9 닉카아제에 연결된, TadA7.10에 연결된 야생형 TadA를 포함한다. 특정 실시형태에서, 융합 단백질은 단일 TadA7.10 도메인(예를 들어, 단량체로 제공됨)을 포함한다. 다른 실시형태에서, ABE7.10 편집기는 이종이량체(heterodimers)를 형성할 수있는, TadA7.10 및 TadA(wt)를 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 본 명세서에 제공된 아데노신 데아미나제 중 어느 하나에 제시된 아미노산 서열 중 어느 하나와 적어도 60 %, 적어도 65 %, 적어도 70 %, 적어도 75 %, 적어도 80 %, 적어도 85 %, 적어도 90 %, 적어도 95 %, 적어도 96 %, 적어도 97 %, 적어도 98 %, 적어도 99 %, 또는 적어도 99.5 % 동일한 아미노산 서열을 포함한다. 본 명세서에 제공된 아데노신 데아미나제는 하나 이상의 돌연변이(예를 들어, 본 명세서에 제공된 임의의 돌연변이)를 포함할 수 있음을 이해해야 한다. 본 개시는 특정 백분율 동일성 및 본 명세서에 기재된 임의의 돌연변이 또는 이들의 조합을 갖는 임의의 데아미나제 도메인을 제공한다. 일부 실시형태에서, 아데노신 데아미나제는 참조 서열, 또는 본 명세서에 제공된 아데노신 데아미나제와 비교하여 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 21개, 24개, 25개, 26개, 27개, 28개, 29개, 30개, 31개, 32개, 33개, 34개, 35개, 36개, 37개, 38개, 39개, 40개, 41개, 42개, 43개, 44개, 45개, 46개, 47개, 48개, 49개, 50개, 또는 그 이상의 돌연변이를 갖는 아미노산 서열을 포함한다. 일부 실시형태에서, 아데노신 데아미나제는 당업계에 공지되거나 본 명세서에 기재된 아미노산 서열 중 어느 하나와 비교하여 적어도 5개, 적어도 10개, 적어도 15개, 적어도 20개, 적어도 30개, 적어도 35개, 적어도 40개, 적어도 45개, 적어도 50개, 적어도 60개, 적어도 70개, 적어도 80개, 적어도 90개, 적어도 100개, 적어도 110개, 적어도 120개, 적어도 130개, 적어도 140개, 적어도 150개, 적어도 160개, 또는 적어도 170개의 동일한 연속(contiguous) 아미노산 잔기를 포함한다.
본 명세서에 제공된 임의의 돌연변이(예를 들어, TadA 참조 서열 아미노산 서열에 기초한 것)는 다른 아데노신 데아미나제, 예컨대, E. 콜라이 TadA(ecTadA), S. 아우레우스 TadA(saTadA), 또는 다른 아데노신 데아미나제(예를 들어, 박테리아 아데노신 데아미나제)에 도입될 수 있음을 인식해야 한다. 추가의 데아미나제가 본 명세서에 제공된 것과 같은 돌연변이될 수 있는 상동성 아미노산 잔기를 식별하기 위해 유사하게 정렬될 수 있음은 당업자에게 자명할 것이다. 따라서, TadA 참조 서열에서 식별된 임의의 돌연변이는 상동성 아미노산 잔기를 갖는 다른 아데노신 데아미나제(예를 들어, ecTada)에서 만들어질 수 있다. 또한, 본 명세서에 제공된 임의의 돌연변이는 TadA 참조 서열 또는 또 다른 아데노신 데아미나제에서 개별적으로 또는 임의의 조합으로 만들어질 수 있음을 인식해야 한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 D108X 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서의 상응하는 아미노산 이외의 임의의 아미노산을 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 D108G, D108N, D108V, D108A, 또는 D108Y 돌연변이, 또는 또 다른 아데노신 데아미나제에서의 상응하는 돌연변이를 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 A106X 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서의 상응하는 아미노산 이외의 임의의 아미노산을 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 A106V 돌연변이, 또는 다른 아데노신 데아미나제(예를 들어, 야생형 TadA 또는 ecTadA)에서의 상응하는 돌연변이를 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 E155X 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함하며, 여기서 X의 존재는 야생형 아데노신 데아미나제에서의 상응하는 아미노산 이외의 임의의 아미노산을 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 E155D, E155G, 또는 E155V 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 D147X 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함하며, 여기서 X의 존재는 야생형 아데노신 데아미나제에서의 상응하는 아미노산 이외의 임의의 아미노산을 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 D147Y 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함한다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 A106X, E155X, 또는 D147X 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서의 상응하는 아미노산 이외의 임의의 아미노산을 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 E155D, E155G, 또는 E155V 돌연변이를 포함한다. 일부 실시형태에서, 아데노신 데아미나제는 D147Y를 포함한다.
예를 들어, 아데노신 데아미나제는 TadA 참조 서열에서의 D108N, A106V, E155V, 및/또는 D147Y 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 함유할 수 있다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 다음의 돌연변이 그룹(돌연변이 그룹은 ";"로 분리됨), 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함한다: D108N 및 A106V; D108N 및 E155V; D108N 및 D147Y; A106V 및 E155V; A106V 및 D147Y; E155V 및 D147Y; D108N, A106V, 및 E55V; D108N, A106V, 및 D147Y; D108N, E55V, 및 D147Y; A106V, E55V, 및 D 147Y; 및 D108N, A106V, E55V, 및 D147Y. 그러나, 본 명세서에 제공된 상응하는 돌연변이의 임의의 조합은 아데노신 데아미나제(예를 들어, ecTadA)에서 만들어질 수 있음을 인식해야 한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 하나 이상의 H8X, T17X, L18X, W23X, L34X, W45X, R51X, A56X, E59X, E85X, M94X, I95X, V102X, F104X, A106X, R107X, D108X, K110X, M118X, N127X, A138X, F149X, M151X, R153X, Q154X, I156X, 및/또는 K157X 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 하나 이상의 상응하는 돌연변이들을 포함하며, 여기서 X의 존재는 야생형 아데노신 데아미나제에서의 상응하는 아미노산 이외의 임의의 아미노를 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 하나 이상의 H8Y, T17S, L18E, W23L, L34S, W45L, R51H, A56E, 또는 A56S, E59G, E85K, 또는 E85G, M94L, 1951, V102A, F104L, A106V, R107C, 또는 R107H, 또는 R107P, D108G, 또는 D108N, 또는 D108V, 또는 D108A, 또는 D108Y, Kl10I , Ml18K, N127S, A138V, F149Y, M151V, R153C, Q154L, I156D, 및/또는 K157R 돌연변이, 또는 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 하나 이상의 상응하는 돌연변이들을 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 하나 이상의 H8X, D108X, 및/또는 N127X 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 하나 이상의 상응하는 돌연변이들을 포함하며, 여기서 X는 임의의 아미노산의 존재를 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 하나 이상의 H8Y, D108N, 및/또는 N127S 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 하나 이상의 상응하는 돌연변이들을 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 하나 이상의 H8X, R26X, M61X, L68X, M70X, A106X, D108X, A109X, N127X, D147X, R152X, Q154X, E155X, K161X, Q163X, 및/또는 T166X 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 하나 이상의 상응하는 돌연변이들을 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서의 상응하는 아미노산 이외의 임의의 아미노산의 존재를 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 하나 이상의 H8Y, R26W, M61I, L68Q, M70V, A106T, D108N, A109T, N127S, D147Y, R152C, Q154H 또는 Q154R, E155G 또는 E155V 또는 E155D, K161Q, Q163H, 및/또는 T166P 돌연변이, 또는 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 하나 이상의 상응하는 돌연변이들을 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 H8X, D108X, N127X, D147X, R152X, 및 Q154X로 이루어진 군으로부터 선택된 1개, 2개, 3개, 4개, 5개, 또는 6개의 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이 또는 돌연변이들을 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서 상응하는 아미노산 이외의 임의의 아미노산의 존재를 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 H8X, M61X, M70X, D108X, N127X, Q154X, E155X, 및 Q163X로 이루어진 군으로부터 선택된 1개, 2개, 3개, 4개, 5개, 6개, 7개, 또는 8개의 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이 또는 돌연변이들을 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서 상응하는 아미노산 이외의 아미노산의 존재를 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 H8X, D108X, N127X, E155X, 및 T166X로 이루어진 군으로부터 선택된 1개, 2개, 3개, 4개, 또는 5개의 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 돌연변이 또는 돌연변이들을 포함하며, 여기서 X는 야생형 아데노신 데아미나제에 상응하는 아미노산 이외의 아미노산의 존재를 나타낸다.
일부 실시형태에서, 아데노신 데아미나제는 H8X, A106X, D108X로 이루어진 군으로부터 선택된 1개, 2개, 3개, 4개, 5개, 또는 6개의 돌연변이, 또 또 다른 아데노신 데아미나제에서의 돌연변이 또는 돌연변이들을 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서의 상응하는 아미노산 이외의 임의의 아미노산의 존재를 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 H8X, R126X, L68X, D108X, N127X, D147X, 및 E155X로 이루어진 군으로부터 선택된 1개, 2개, 3개, 4개, 5개, 6개, 7개, 또는 8개의 돌연변이, 또는 또 다른 아데노신 데아미나제에서의 상응하는 돌연변이 또는 돌연변이들을 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서의 상응하는 아미노산 이외의 임의의 아미노산의 존재를 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 H8X, D108X, A109X, N127X, 및 E155X로 이루어진 군으로부터 선택된 1개, 2개, 3개, 4개, 또는 5개의 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이 또는 돌연변이들을 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서의 상응하는 아미노산 이외의 임의의 아미노산의 존재를 나타낸다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 H8Y, D108N, N127S, D147Y, R152C, 및 Q154H로 이루어진 군으로부터 선택된 1개, 2개, 3개, 4개, 5개, 또는 6개의 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이 또는 돌연변이들을 포함한다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 H8Y, M61I, M70V, D108N, N127S, Q154R, E155G, 및 Q163H로 이루어진 군으로부터 선택된 1개, 2개, 3개, 4개, 5개, 6개, 7개, 또는 8개의 돌연변이, 또는 또 다른 아데노신 데아미나제에서의 상응하는 돌연변이 또는 돌연변이들을 포함한다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 H8Y, D108N, N127S, E155V, 및 T166P로 이루어진 군으로부터 선택된 1개, 2개, 3개, 4개, 또는 5개의 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이 또는 돌연변이들을 포함한다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 H8Y, A106T, D108N, N127S, E155D, 및 K161Q로 이루어진 군으로부터 선택된 1개, 2개, 3개, 4개, 5개, 또는 6개의 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이 또는 돌연변이들을 포함한다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 H8Y, R126W, L68Q, D108N, N127S, D147Y, 및 E155V로 이루어진 군으로부터 선택된 1개, 2개, 3개, 4개, 5개, 6개, 7개, 또는 8개의 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이 또는 돌연변이들을 포함한다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 H8Y, D108N, A109T, N127S, 및 E155G로 이루어진 군으로부터 선택된 1개, 2개, 3개, 4개, 또는 5개의 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이 또는 돌연변이들을 포함한다.
본 명세서에 제공된 임의의 돌연변이 및 임의의 추가 돌연변이(예를 들어, ecTadA 아미노산 서열에 기초한 것)는 임의의 다른 아데노신 데아미나제 내로 도입될 수 있다. 본 명세서에 제공된 임의의 돌연변이는 TadA 참조 서열 또는 다른 아데노신 데아미나제(예를 들어, ecTadA)에서 개별적으로 또는 임의의 조합으로 만들어질 수 있다.
A에서 G로의 핵염기 편집 단백질에 대한 상세 사항은, 전체 내용이 본 명세서에 참조로 포함되는, PCT 국제출원 PCT/2017/045381(WO 2018/027078) 및 문헌[Gaudelli, N.M., et al., "Programmable base editing of A·T to G·C in genomic DNA without DNA cleavage" Nature, 551, 464-471 (2017)]에 설명되어 있다.
일부 실시형태에서, 아데노신 데아미나제는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 하나 이상의 상응하는 돌연변이를 포함한다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 D108N, D108G 또는 D108V 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함한다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 A106V 및 D108N 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이들을 포함한다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 R107C 및 D108N 돌연변이, 또는 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함한다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 H8Y, D108N, N127S, D147Y, 및 Q154H 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이들을 포함한다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 H8Y, R24W, D108N, N127S, D147Y, 및 E155V 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이들을 포함한다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 D108N, D147Y, 및 E155V 돌연변이, 또는 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이들을 포함한다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 H8Y, D108N, 및 N127S 돌연변이, 또는 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이들을 포함한다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 A106V, D108N, D147Y, 및 E155V 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이들을 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 하나 이상의 S2X, H8X, I49X, L84X, H123X, N127X, I156X, 및/또는 K160X 돌연변이, 또는 또 다른 아데노신 데아미나제에서의 하나 이상의 상응하는 돌연변이들을 포함하며, 여기서 X의 존재는 야생형 아데노신 데아미나제에서의 상응하는 아미노산 이외의 임의의 아미노산을 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 하나 이상의 S2A, H8Y, I49F, L84F, H123Y, N127S, I156F, 및/또는 K160S 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 하나 이상의 상응하는 돌연변이들을 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 L84X 돌연변이 아데노신 데아미나제를 포함하고, 여기서 X는 야생형 아데노신 데아미나제에서의 상응하는 아미노산 이외의 임의의 아미노산을 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 L84F 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 H123X 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서의 상응하는 아미노산 이외의 임의의 아미노산을 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 H123Y 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 I157X 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서의 상응하는 아미노산 이외의 임의의 아미노산을 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 I157F 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 L84X, A106X, D108X, H123X, D147X, E155X, 및 I156X로 이루어진 군으로부터 선택된 1개, 2개, 3개, 4개, 5개, 6개, 또는 7개의 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이 또는 돌연변이들을 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서 상응하는 아미노산 이외의 임의의 아미노산의 존재를 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 S2X, I49X, A106X, D108X, D147X, 및 E155X로 이루어진 군으로부터 선택된 1개, 2개, 3개, 4개, 5개, 또는 6개의 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 돌연변이 또는 돌연변이들을 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서 상응하는 아미노산 이외의 임의의 아미노산의 존재를 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 H8X, A106X, D108X, N127X, 및 K160X로 이루어진 군으로부터 선택된 1개, 2개, 3개, 4개, 또는 5개의 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 돌연변이 또는 돌연변이들을 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서의 상응하는 아미노산 이외의 아미노산의 존재를 나타낸다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 L84F, A106V, D108N, H123Y, D147Y, E155V, 및 I156F로 이루어진 군으로부터 선택된 1개, 2개, 3개, 4개, 5개, 6개, 또는 7개의 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이 또는 돌연변이들을 포함한다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 S2A, I49F, A106V, D108N, D147Y, 및 E155V로 이루어진 군으로부터 선택된 1개, 2개, 3개, 4개, 5개, 또는 6개의 돌연변이를 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 H8Y, A106T, D108N, N127S, 및 K160S로 이루어진 군으로부터 선택된 1개, 2개, 3개, 4개, 또는 5개의 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이 또는 돌연변이들을 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 하나 이상의 E25X, R26X, R107X, A142X, 및/또는 A143X 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 하나 이상의 상응하는 돌연변이들을 포함하며, X는 야생형 아데노신 데아미나제에서의 상응하는 아미노산 이외의 모든 아미노산을 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 E25M, E25D, E25A, E25R, E25V, E25S, E25Y, R26G, R26N, R26Q, R26C, R26L, R26K, R107P, R07K, R107A, R107N, R107W, R107H, R107S, A142N, A142D, A142G, A143D, A143G, A143E, A143L, A143W, A143M, A143S, A143Q, 및/또는 A143R 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 하나 이상의 상응하는 돌연변이들을 포함한다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에 상응하는 본 명세서에 기재된 하나 이상의 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 하나 이상의 상응하는 돌연변이들을 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 E25X 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서 상응하는 아미노산 이외의 임의의 아미노산을 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 E25M, E25D, E25A, E25R, E25V, E25S, 또는 E25Y 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 R26X 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서 상응하는 아미노산 이외의 임의의 아미노산을 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 R26G, R26N, R26Q, R26C, R26L, 또는 R26K 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 R107X 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서의 상응하는 아미노산 이외의 임의의 아미노산을 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 R107P, R07K, R107A, R107N, R107W, R107H, 또는 R107S 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 A142X 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서 상응하는 아미노산 이외의 임의의 아미노산을 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 A142N, A142D, A142G 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 A143X 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서의 상응하는 아미노산 이외의 임의의 아미노산을 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 A143D, A143G, A143E, A143L, A143W, A143M, A143S, A143Q, 및/또는 A143R 돌연변이, 또는 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 하나 이상의 H36X, N37X, P48X, I49X, R51X, M70X, N72X, D77X, E134X, S146X, Q154X, K157X, 및/또는 K161X 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 하나 이상의 상응하는 돌연변이들을 포함하며, 여기서 X의 존재는 야생형 아데노신 데아미나제에서의 상응하는 아미노산 이외의 임의의 아미노산을 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 하나 이상의 H36L, N37T, N37S, P48T, P48L, I49V, R51H, R51L, M70L, N72S, D77G, E134G, S146R, S146C, Q154H, K157N, 및/또는 K161T 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 하나 이상의 상응하는 돌연변이들을 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 H36X 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서 상응하는 아미노산 이외의 임의의 아미노산을 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 H36L 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 N37X 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서의 상응하는 아미노산 이외의 임의의 아미노산을 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 N37T, 또는 N37S 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 P48X 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서의 상응하는 아미노산 이외의 임의의 아미노산을 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 P48T, 또는 P48L 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 R51X 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서의 상응하는 아미노산 이외의 임의의 아미노산을 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 R51H, 또는 R51L 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 S146X 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서의 상응하는 아미노산 이외의 임의의 아미노산을 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 S146R, 또는 S146C 돌연변이, 또는 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 K157X 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서의 상응하는 아미노산 이외의 임의의 아미노산을 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 K157N 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 P48X 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서 상응하는 아미노산 이외의 임의의 아미노산을 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 P48S, P48T, 또는 P48A 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 A142X 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서의 상응하는 아미노산 이외의 임의의 아미노산을 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 A142N 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 W23X 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서의 상응하는 아미노산 이외의 임의의 아미노산을 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 W23R, 또는 W23L 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함한다.
일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 R152X 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)에서의 상응하는 돌연변이를 포함하며, 여기서 X는 야생형 아데노신 데아미나제에서의 상응하는 아미노산 이외의 임의의 아미노산을 나타낸다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에서의 R152P, 또는 R52H 돌연변이, 또는 또 다른 아데노신 데아미나제(예를 들어, ecTadA)의 상응하는 돌연변이를 포함한다.
일 실시형태에서, 아데노신 데아미나제는 돌연변이 H36L, R51L, L84F, A106V, D108N, H123Y, S146C, D147Y, E155V, I156F, 및 K157N을 포함할 수 있다. 일부 실시형태에서, 아데노신 데아미나제는 TadA 참조 서열에 비해 다음과 같은 돌연변이 조합을 포함하며, 조합의 각 돌연변이는 "_"로 분리되고 돌연변이의 각 조합은 괄호 내에 있다:
특정 실시형태에서, 본 명세서에 제공된 융합 단백질은 융합 단백질의 염기 편집 활성을 개선하는 하나 이상의 특징을 포함한다. 예를 들어, 본 명세서에 제공된 임의의 융합 단백질은 감소된 뉴클레아제 활성을 갖는 Cas9 도메인을 포함할 수 있다. 일부 실시형태에서, 본 명세서에 제공된 임의의 융합 단백질은 뉴클레아제 활성을 갖지 않는 Cas9 도메인(dCas9), 또는 Cas9 닉카아제(nCas9)로 지칭되는, 이중나선화된 DNA 분자의 한 가닥을 절단하는 Cas9 도메인을 가질 수 있다.
시티딘
데아미나제
일 실시형태에서, 본 발명의 융합 단백질은 시티딘 데아미나제를 포함한다. 일부 실시형태에서, 본 명세서에 제공된 시티딘 데아미나제는 시토신 또는 5-메틸시토신을 우라실 또는 티민으로 탈아미노화할 수 있다. 일부 실시형태에서, 본 명세서에 제공된 시토신 데아미나제는 DNA에서 시토신을 탈아미노화할 수 있다. 시티딘 데아미나제는 임의의 적합한 유기체로부터 유래될 수 있다. 일부 실시형태에서, 시티딘 데아미나제는 본 명세서에 제공된 임의의 돌연변이에 상응하는 하나 이상의 돌연변이를 포함하는 자연적으로-발생하는 시티딘 데아미나제이다. 당업자는, 예를 들어, 서열 정렬 및 상동성 잔기의 결정에 의해 임의의 상동성 단백질에서 상응하는 잔기를 확인할 수 있을 것이다. 따라서, 당업자는 본 명세서에 기재된 임의의 돌연변이에 상응하는 임의의 자연적으로-발생하는 시티딘 데아미나제에서 돌연변이를 생성할 수 있을 것이다. 일부 실시형태에서, 시티딘 데아미나제는 원핵 생물로부터 유래된다. 일부 실시형태에서, 시티딘 데아미나제는 박테리아로부터 유래된다. 일부 실시형태에서, 시티딘 데아미나제는 포유동물(예를 들어, 인간) 유래이다.
일부 실시형태에서, 시티딘 데아미나제는 본 명세서에 제시된 시티딘 데아미나제 아미노산 서열 중 어느 하나와 적어도 60 %, 적어도 65 %, 적어도 70 %, 적어도 75 %, 적어도 80 %, 적어도 85 %, 적어도 90 %, 적어도 95 %, 적어도 96 %, 적어도 97 %, 적어도 98 %, 적어도 99 %, 또는 적어도 99.5 % 동일한 아미노산 서열을 포함한다. 본 명세서에 제공된 시티딘 데아미나제는 하나 이상의 돌연변이(예를 들어, 본 명세서에 제공된 임의의 돌연변이)를 포함할 수 있음을 이해해야 한다. 본 개시는 특정 백분율 동일성에 추가하여 본 명세서에 기재된 임의의 돌연변이 또는 그의 조합을 갖는 임의의 데아미나제 도메인을 제공한다. 일부 실시형태에서, 시티딘 데아미나제는 참조 서열과 비교하여 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 21개, 24개, 25개, 26개, 27개, 28개, 29개, 30개, 31개, 32개, 33개, 34개, 35개, 36개, 37개, 38개, 39개, 40개, 41개, 42개, 43개, 44개, 45개, 46개, 47개, 48개, 49개, 50개, 또는 그 이상의 돌연변이를 갖는 아미노산 서열, 또는 본 명세서에 제공된 시티딘 데아미나제 중 임의의 것을 포함한다. 일부 실시형태에서, 시티딘 데아미나제는 당업계에 공지되거나 본 명세서에 기재된 아미노산 서열 중 어느 하나와 비교하여 적어도 5개, 적어도 10개, 적어도 15개, 적어도 20개, 적어도 25개, 적어도 30개, 적어도 35개, 적어도 40개, 적어도 45개, 적어도 50개, 적어도 60개, 적어도 70개, 적어도 80개, 적어도 90개, 적어도 100개, 적어도 110개, 적어도 120개, 적어도 130개, 적어도 140개, 적어도 150개, 적어도 160개, 또는 적어도 170개의 동일한 연속 아미노산 잔기를 갖는 아미노산 서열을 포함한다.
본 발명의 융합 단백질은 핵산 편집 도메인을 포함한다. 일부 실시형태에서, 핵산 편집 도메인은 C에서 U로의 염기 변화를 촉매할 수 있다. 일부 실시형태에서, 핵산 편집 도메인은 데아미나제 도메인이다. 일부 실시형태에서, 데아미나제는 시티딘 데아미나제 또는 아데노신 데아미나제이다. 일부 실시형태에서, 데아미나제는 아포리포단백질 B mRNA-편집 복합체(APOBEC) 패밀리 데아미나제이다. 일부 실시형태에서, 데아미나제는 APOBECl 데아미나제이다. 일부 실시형태에서, 데아미나제는 APOBEC2 데아미나제이다. 일부 실시형태에서, 데아미나제는 APOBEC3 데아미나제이다. 일부 실시형태에서, 데아미나제는 APOBEC3A 데아미나제이다. 일부 실시형태에서, 데아미나제는 APOBEC3B 데아미나제이다. 일부 실시형태에서, 데아미나제는 APOBEC3C 데아미나제이다. 일부 실시형태에서, 데아미나제는 APOBEC3D 데아미나제이다. 일부 실시형태에서, 데아미나제는 APOBEC3E 데아미나제이다. 일부 실시형태에서, 데아미나제는 APOBEC3F 데아미나제이다. 일부 실시형태에서, 데아미나제는 APOBEC3G 데아미나제이다. 일부 실시형태에서, 데아미나제는 APOBEC3H 데아미나제이다. 일부 실시형태에서, 데아미나제는 APOBEC4 데아미나제이다. 일부 실시형태에서, 데아미나제는 활성화-유도된 데아미나제(AID)이다. 일부 실시형태에서, 데아미나제는 척추 동물 데아미나제이다. 일부 실시형태에서, 데아미나제는 무척추 동물 데아미나제이다. 일부 실시형태에서, 데아미나제는 인간, 침팬지, 고릴라, 원숭이, 소, 개, 랫트, 또는 마우스 데아미나제이다. 일부 실시형태에서, 데아미나제는 인간 데아미나제이다. 일부 실시형태에서, 데아미나제는 랫트 데아미나제, 예를 들어, rAPOBEC1이다. 일부 실시형태에서, 데아미나제는 칠성장어(Petromyzon marinus) 시티딘 데아미나제1(pmCDAl)이다. 일부 실시형태에서, 데아미나제는 인간 APOBEC3G이다. 일부 실시형태에서, 데아미나제는 인간 APOBEC3G의 단편이다. 일부 실시형태에서, 데아미나제는 D316R D317R 돌연변이를 포함하는 인간 APOBEC3G 변이체이다. 일부 실시형태에서, 데아미나제는 인간 APOBEC3G의 단편이고 D316R D317R 돌연변이에 상응하는 돌연변이를 포함한다. 일부 실시형태에서, 핵산 편집 도메인은 본 명세서에 기재된 임의의 데아미나제 도메인에 대해 적어도 80 %, 적어도 85 %, 적어도 90 %, 적어도 92 %, 적어도 95 %, 적어도 96 %, 적어도 97 %, 적어도 98 %, 적어도 99 %, 또는 적어도 99.5 % 동일하다.
배타성(exclusivity)이
감소된
Cas9
도메인
전형적으로, S. 피오게네스(spCas9)로부터의 Cas9와 같은 Cas9 단백질은 특정 핵산 영역에 결합하기 위해 표준 NGG PAM 서열을 필요로 하며, 여기서 "NGG"의 "N"은 아데노신(A), 티미딘(T), 또는 시토신(C)이고, G는 구아노신이다. 이것은 게놈 내에서 원하는 염기를 편집하는 활성을 제한할 수 있다. 일부 실시형태에서, 본 명세서에 제공된 염기 편집 융합 단백질은 정확한 위치, 예를 들어, PAM의 상류에 있는 표적 염기를 포함하는 영역에 배치될 필요가 있을 수 있다. 예를 들어, 이의 전체 내용이 본 명세서에 참조로 포함되는, 문헌[Komor, A.C., et al., "Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage" Nature 533, 420-424 (2016)] 참조. 따라서, 일부 실시형태에서, 본 명세서에 제공된 임의의 융합 단백질은 정규(예를 들어, NGG) PAM 서열을 함유하지 않는 뉴클레오티드 서열에 결합할 수 있는 Cas9 도메인을 함유할 수 있다. 비-정규 PAM 서열에 결합하는 Cas9 도메인은 당업계에 설명되어 있으며 숙련된 기술자에게 명백할 것이다. 예를 들어, 비-정규 PAM 서열에 결합하는 Cas9 도메인은, 각각의 전체 내용이 본 명세서에 참조로 포함되는, 다음 문헌에 설명되어 있다: Kleinstiver, B. P., et al., "Engineered CRISPR-Cas9 nucleases with altered PAM specificities" Nature 523, 481-485 (2015); Kleinstiver, B. P., et al., "Broadening the targeting range of Staphylococcus aureus CRISPR-Cas9 by modifying PAM recognition" Nature Biotechnology 33, 1293-1298 (2015); Nishimasu, H., et al., "Engineered CRISPR-Cas9 nuclease with expanded targeting space" Science. 2018 Sep 21;361(6408):1259-1262; 및 Chatterjee, P., et al., "Minimal PAM specificity of a highly similar SpCas9 ortholog" Sci Adv. 2018 Oct 24;4(10):eaau0766.doi: 10.1126/sciadv.aau0766. 여러 PAM 변이체의 몇몇 비제한적 예가 아래 표 1에 기재되어 있다:
표 1.
Cas9
단백질 및 상응하는 PAM 서열
가이드 RNA가 있는
Cas9
복합체
본 개시의 일부 양상은 본 명세서에 제공된 임의의 융합 단백질, 및 가이드 RNA(예를 들어, SERPINA1을 표적화하는 가이드)를 포함하는 복합체를 제공한다. 일부 실시형태에서, 가이드 핵산(예를 들어, 가이드 RNA)은 15개 내지 100개 뉴클레오티드 길이이고, 표적 서열에 상보적인 적어도 10개의 연속 뉴클레오티드 서열을 포함한다. 일부 실시형태에서, 가이드 RNA는 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개, 30개, 31개, 32개, 33개, 34개, 35개, 36개, 37개, 38개, 39개, 40개, 41개, 42개, 43개, 44개, 45개, 46개, 47개, 48개, 49개 또는 50개의 뉴클레오티드 길이이다. 일부 실시형태에서, 가이드 RNA는 표적 서열에 상보적인 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개, 30개, 31개, 32개, 33개, 34개, 35개, 36개, 37개, 38개, 39개, 40개의 연속 뉴클레오티드를 포함한다. 일부 실시형태에서, 표적 서열은 DNA 서열이다. 일부 실시형태에서, 표적 서열은 박테리아, 효모, 진균, 곤충, 식물, 또는 동물의 게놈 내의 서열이다. 일부 실시형태에서, 표적 서열은 인간 게놈의 서열이다. 일부 실시형태에서, 표적 서열의 3' 말단은 정규 PAM 서열(NGG)에 바로 인접해 있다. 일부 실시형태에서, 표적 서열의 3' 말단은 비-정규 PAM 서열(예를 들어, 표 1에 열거된 서열 또는 5'-NAA-3')에 바로 인접해 있다. 일부 실시형태에서, 가이드 핵산(예를 들어, 가이드 RNA)은 관심있는 유전자(예를 들어, SERPINA1)의 서열에 상보적이다.
본 개시의 일부 양상은 본 명세서에 제공된 융합 단백질 또는 복합체를 이용하는 방법을 제공한다. 예를 들어, 본 개시의 일부 양상은 DNA 분자를 본 명세서에 제공된 임의의 융합 단백질 및 적어도 하나의 가이드 RNA와 접촉시키는 단계를 포함하는 방법을 제공하며, 여기서 가이드 RNA는 약 15개 내지 100개 뉴클레오티드 길이이고 표적 서열에 상보적인 적어도 10개의 연속 뉴클레오티드 서열을 포함한다. 일부 실시형태에서, 표적 서열의 3' 말단은 AGC, GAG, TTT, GTG, 또는 CAA 서열에 바로 인접해 있다. 일부 실시형태에서, 표적 서열의 3' 말단은 NGA, NAA, NGCG, NGN, NNGRRT, NNNRRT, NGCG, NGCN, NGTN, NGTN, NGTN, 또는 5'(TTTV) 서열에 바로 인접해 있다.
각각의 서열에서 특정 위치 또는 잔기의 번호 매기기는 사용된 특정 단백질 및 번호 매기기 체계에 의존한다는 것을 이해할 것이다. 번호 매기기는, 예를 들어, 성숙 단백질의 전구체와 성숙 단백질 자체에서 다를 수 있으며, 종에서 종마다의 서열의 차이가 번호 매기기에 영향을 미칠 수 있다. 당업자는, 예를 들어, 서열 정렬 및 상동성 잔기의 결정에 의해 당업계에 잘 알려진 방법에 의해 임의의 상동성 단백질 및 각각의 코딩 핵산에서 각각의 잔기를 확인할 수 있을 것이다.
본 명세서에 개시된 임의의 융합 단백질을 표적 부위, 예를 들어, 편집될 돌연변이를 포함하는 부위로 표적화하기 위해, 전형적으로 가이드 RNA와 함께 융합 단백질을 공동-발현시키는 것이 필요하다는 것은 당업자에게 명백할 것이다. 본 명세서의 다른 곳에서 더 자세히 설명된 바와 같이, 가이드 RNA는 전형적으로 Cas9 결합을 허용하는 tracrRNA 프레임워크 및 Cas9:핵산 편집 효소/도메인 융합 단백질에 서열 특이성을 부여하는 가이드 서열을 포함한다. 대안적으로, 가이드 RNA 및 tracrRNA는 2개의 핵산 분자로서, 별개로 제공될 수 있다. 일부 실시형태에서, 가이드 RNA는 구조를 포함하고, 여기서 가이드 서열은 표적 서열에 상보적인 서열을 포함한다. 가이드 서열은 전형적으로 20개 뉴클레오티드 길이이다. Cas9:핵산 편집 효소/도메인 융합 단백질을 특정 게놈 표적 부위로 표적화하기 위한 적합한 가이드 RNA의 서열은 본 개시에 기초하여 당업자에게 명백할 것이다. 이러한 적합한 가이드 RNA 서열은 전형적으로 편집될 표적 뉴클레오티드의 상류 또는 하류에 있는 50개 뉴클레오티드 내의 핵산 서열에 상보적인 가이드 서열을 포함한다. 제공된 융합 단백질 중 임의의 것을 특정 표적 서열로 표적화하기에 적합한 일부 예시적인 가이드 RNA 서열이 본 명세서에서 제공된다.
추가 도메인
본 명세서에 기재된 염기 편집기는 폴리뉴클레오티드의 핵염기의 핵염기 편집, 변형 또는 변경을 용이하게 하는 데 도움이 되는 임의의 도메인을 포함할 수 있다. 일부 실시형태에서, 염기 편집기는 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인(예를 들어, Cas9), 핵염기 편집 도메인(예를 들어, 데아미나제 도메인) 및 하나 이상의 추가 도메인을 포함한다. 일부 경우에, 추가 도메인은 염기 편집기의 효소적 또는 촉매적 기능, 염기 편집기의 결합 기능을 촉진하거나 원하는 염기 편집 결과를 방해할 수 있는 세포기구(예를 들어, 효소)의 억제제일 수 있다. 일부 실시형태에서, 염기 편집기는 뉴클레아제, 닉카아제, 재조합 효소, 데아미나제, 메틸트랜스퍼라제, 메틸라제, 아세틸라제, 아세틸트랜스퍼라제, 전사 액티베이터, 또는 전사 리프레서 도메인을 포함할 수 있다.
일부 실시형태에서, 염기 편집기는 우라실 글리코실라제 억제제(UGI) 도메인을 포함할 수 있다. UGI 도메인은, 예를 들어, C의 탈아미노화에 의해 형성된 U를 C 핵염기로 복귀시키는 전환을 억제함으로써 시티딘 데아미나제 도메인을 포함하는 염기 편집기의 효율성을 향상시킬 수 있다. 일부 경우에, U:G 이종이중나선 DNA의 존재에 대한 세포 DNA 복구 반응이 세포에서 핵염기 편집 효율을 감소시키는 원인이 될 수 있다. 이러한 경우 우라실 DNA 글리코실라제(UDG)는 세포의 DNA에서 U 제거를 촉매할 수 있으며, 이는 염기 절제 복구(BER)를 시작할 수 있으며, 대부분 U:G 쌍을 C:G 쌍으로 복귀시킨다. 이러한 경우, BER은 단일 가닥에 결합하고, 편집된 염기를 차단하고, UGI를 억제하고, BER을 억제하고, 편집된 염기를 보호하고/하거나 비-편집된 가닥의 복구를 촉진하는 하나 이상의 도메인을 포함하는 염기 편집기에서 억제될 수 있다. 따라서, 본 개시는 UGI 도메인을 포함하는 염기 편집기 융합 단백질을 고려한다.
일부 실시형태에서, 염기 편집기는 도메인으로서 이중 가닥 파손(DSB) 결합 단백질의 전부 또는 일부를 포함한다. 예를 들어, DSB 결합 단백질은 DSB의 말단에 결합할 수 있고 분해로부터 보호할 수 있는 박테리오파지 Mu의 Gam 단백질을 포함할 수 있다. 이의 전체 내용이 본 명세서에 참조로 포함되는, 문헌[Komor, A.C., et al., "Improved base excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity" Science Advances 3:eaao4774 (2017)] 참조.
일부 실시형태에서, 염기 편집기는 핵산 중합효소(NAP)의 전부 또는 일부를 도메인으로서 포함할 수 있다. 예를 들어, 염기 편집기는 진핵 NAP의 전부 또는 일부를 포함할 수 있다. 일부 실시형태에서, 염기 편집기에 통합된 NAP 또는 이의 일부는 DNA 중합효소이다. 일부 실시형태에서, 염기 편집기에 통합된 NAP 또는 이의 일부는 손상통과(translesion) 중합효소 활성을 갖는다. 일부 경우에, 염기 편집기에 통합된 NAP 또는 이의 일부는 손상통과 DNA 중합효소이다. 일부 실시형태에서, 염기 편집기에 통합된 NAP 또는 이의 일부는 Rev7, Rev1 복합체, 중합효소 이오타(iota), 중합효소 카파, 또는 중합효소 에타이다. 일부 실시형태에서, 염기 편집기에 통합된 NAP 또는 이의 일부는 진핵 중합효소 알파, 베타, 감마, 델타, 엡실론, 감마, 에타, 이오타, 카파, 람다, 뮤(mu), 또는 누(nu) 구성성분이다. 일부 실시형태에서, 염기 편집기에 통합된 NAP 또는 이의 일부는 핵산 중합효소(예를 들어, 손상통과 DNA 중합효소)와 적어도 75 %, 80 %, 85 %, 90 %, 95 %, 96 %, 97 %, 98 %, 99 %, 또는 99.5 % 동일한 아미노산 서열을 포함한다.
염기 편집기 시스템
본 명세서에 제공된 염기 편집기 시스템의 사용은 다음 단계를 포함한다: (a) 대상체의 폴리뉴클레오티드(예를 들어, 이중-가닥 DNA 또는 RNA, 단일-가닥 DNA 또는 RNA)의 표적 뉴클레오티드 서열을, 핵염기 편집기(예를 들어, 아데노신 염기 편집기 또는 시티딘 염기 편집기) 및 가이드 폴리핵산(예를 들어, gRNA)을 포함하는, 염기 편집기 시스템과 접촉시키는 단계로서, 여기서 상기 표적 뉴클레오티드 서열은 표적화된 핵염기쌍을 포함하는 것인, 단계; (b) 표적 영역의 가닥 분리를 유도하는 단계; (c) 표적 영역의 단일 가닥에서 표적 핵염기쌍의 제1 핵염기를 제2 핵염기로 전환하는 단계; 및 (d) 표적 영역의 1개 이하의 가닥을 절단하는 단계로서, 여기서 상기 제1 핵염기 염기에 상보적인 제3 핵염기는 상기 제2 핵염기에 상보적인 제4 핵염기로 교체되는 단계. 일부 실시형태에서, 단계 (b)는 생략된다는 것을 이해해야 한다. 일부 실시형태에서, 표적화된 핵염기쌍은 하나 이상의 유전자에서 복수의 핵염기쌍이다. 일부 실시형태에서, 본 명세서에 제공된 염기 편집기 시스템은 하나 이상의 유전자에서 복수의 핵염기쌍을 다중 편집할 수 있다. 일부 실시형태에서, 복수의 핵염기쌍은 동일한 유전자에 위치한다. 일부 실시형태에서, 복수의 핵염기쌍은 하나 이상의 유전자에 위치하며, 여기서 적어도 하나의 유전자는 상이한 유전자좌에 위치한다.
일부 실시형태에서, 절단된 단일 가닥(니킹된 가닥)은 가이드 핵산에 혼성화된다. 일부 실시형태에서, 절단된 단일 가닥은 제1 핵염기를 포함하는 가닥과 반대되는 것이다. 일부 실시형태에서, 염기 편집기는 Cas9 도메인을 포함한다. 일부 실시형태에서, 제1 염기는 아데닌이고, 제2 염기는 G, C, A, 또는 T가 아니다. 일부 실시형태에서, 제2 염기는 이노신이다.
본 명세서에서 제공되는 염기 편집 시스템은, 이중-가닥 DNA 파손을 생성함이 없이, 도너 DNA 주형을 필요로 함이 없이, 과도한 확률적 삽입 및 결실을 유도함이 없이, DNA에서의 프로그래밍가능한 단일 뉴클레오티드(C → T 또는 A → G) 변화를 유도하기 위해 촉매적으로 결함있는(defective) 스트렙토코커스 피오게네스(Streptococcus pyogenes) Cas9, 시티딘 데아미나제, 및 염기 절제 복구의 억제제를 함유하는 융합 단백질을 이용하는 게놈 편집에 대한 새로운 접근법을 제공한다.
본 명세서에서는 염기 편집기 시스템을 사용하여 핵염기를 편집하기 위한 시스템, 조성물 및 방법이 제공된다. 일부 실시형태에서, 염기 편집기 시스템은 (1) 핵염기를 편집하기 위한 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인 및 핵염기 편집 도메인(예를 들어, 데아미나제 도메인)을 포함하는 염기 편집기(BE); 및 (2) 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인과 연계하여 가이드 폴리뉴클레오티드(예를 들어, 가이드 RNA)를 포함한다. 일부 실시형태에서, 염기 편집기 시스템은 시토신 염기 편집기(CBE)를 포함한다. 일부 실시형태에서, 염기 편집기 시스템은 아데노신 염기 편집기(ABE)를 포함한다. 일부 실시형태에서, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인은 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인이다. 일부 실시형태에서, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인은 폴리뉴클레오티드 프로그래밍가능한 RNA 결합 도메인이다. 일부 실시형태에서, 핵염기 편집 도메인은 데아미나제 도메인이다. 일부 경우에, 데아미나제 도메인은 시토신 데아미나제 또는 시티딘 데아미나제일 수 있다. 일부 실시형태에서, 용어 "시토신 데아미나제" 및 "시티딘 데아미나제"는 상호교환적으로 사용될 수 있다. 일부 경우에, 데아미나제 도메인은 아데닌 데아미나제 또는 아데노신 데아미나제일 수 있다. 일부 실시형태에서, 용어 "아데닌 데아미나제" 및 "아데노신 데아미나제"는 상호교환적으로 사용될 수 있다. 핵염기 편집 단백질에 대한 상세 내용은 PCT 국제출원 번호 PCT/2017/045381(WO2018/027078) 및 PCT/US2016/058344(WO2017/070632)에 설명되어 있으며, 이들 각각은 그 전문이 본 명세서에 참조로 포함된다. 또한 이의 전체 내용이 본 명세서에 참조로 포함되는, 다음 문헌 참조: Komor, A.C., et al., "Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage" Nature 533, 420-424 (2016); Gaudelli, N.M., et al., "Programmable base editing of A·T to G·C in genomic DNA without DNA cleavage" Nature 551, 464-471 (2017); 및 Komor, A.C., et al., "Improved base excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity"Science Advances 3:eaao4774 (2017).
일부 실시형태에서, 핵염기 편집기 시스템은 하나 이상의 염기 편집 구성요소(component)를 포함할 수 있다. 예를 들어, 핵염기 편집기 시스템은 하나 이상의 데아미나제를 포함할 수 있다. 일부 실시형태에서, 뉴클레아제 염기 편집기 시스템은 하나 이상의 시티딘 데아미나제 및/또는 하나 이상의 아데노신 데아미나제를 포함할 수 있다. 일부 실시형태에서, 단일 가이드 폴리뉴클레오티드는 표적 핵산 서열에 대해 상이한 데아미나제를 표적화하기 위해 이용될 수 있다. 일부 실시형태에서, 표적 핵산 서열에 대해 상이한 데아미나제를 표적화하기 위해 단일 쌍의 가이드 폴리뉴클레오티드를 사용할 수 있다.
염기 편집기 시스템의 핵염기 구성요소와 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 구성요소는 서로 공유적으로 또는 비공유적으로 연관될 수 있다. 예를 들어, 일부 실시형태에서, 데아미나제 도메인은 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인에 의해 표적 뉴클레오티드 서열로 표적화될 수 있다. 일부 실시형태에서, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인은 데아미나제 도메인에 융합되거나 연결될 수 있다. 일부 실시형태에서, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인은 데아미나제 도메인과 비-공유적으로 상호작용하거나, 이와 연관됨으로써 표적 뉴클레오티드 서열에 대해 데아미나제 도메인을 표적화할 수 있다. 예를 들어, 일부 실시형태에서, 핵염기 편집 구성요소, 예를 들어, 데아미나제 구성요소는 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인의 일부인 추가의 이종성(heterologous) 부분 또는 도메인과 상호작용할 수 있거나, 이와 결합할 수 있거나, 또는 이와 복합체를 형성할 수 있는 추가의 이종성 부분 또는 도메인을 포함할 수 있다. 일부 실시형태에서, 추가의 이종성 부분은 폴리펩티드에 결합하거나, 이와 상호작용하거나, 이와 연관되거나, 또는 이와 복합체를 형성할 수 있다. 일부 실시형태에서, 추가의 이종성 부분은 폴리뉴클레오티드에 결합하거나, 이와 상호작용하거나, 이와 연관되거나, 또는 이와 복합체를 형성할 수 있다. 일부 실시형태에서, 추가의 이종성 부분은 가이드 폴리뉴클레오티드에 결합할 수 있다. 일부 실시형태에서, 추가의 이종성 부분은 폴리펩티드 링커에 결합할 수 있다. 일부 실시형태에서, 추가의 이종성 부분은 폴리뉴클레오티드 링커에 결합할 수 있다. 추가의 이종성 부분은 단백질 도메인일 수 있다. 일부 실시형태에서, 추가의 이종성 부분은 K 상동성(KH) 도메인, MS2 코트 단백질 도메인, PP7 코트 단백질 도메인, SfMu Com 코트 단백질 도메인, 멸균 알파 모티프, 텔로머라제 Ku 결합 모티프 및 Ku 단백질, 텔로머라제 Sm7 결합 모티프 및 Sm7 단백질, 또는 RNA 인식 모티프일 수 있다.
염기 편집기 시스템은 가이드 폴리뉴클레오티드 구성요소를 더 포함할 수 있다. 염기 편집기 시스템의 구성요소는 공유 결합, 비공유 상호작용, 또는 이들 연관(associations) 및 상호작용의 조합을 통해 서로 관련될 수 있음을 이해해야 한다. 일부 실시형태에서, 데아미나제 도메인은 가이드 폴리뉴클레오티드에 의해 표적 뉴클레오티드 서열을 표적으로 할 수 있다. 예를 들어, 일부 실시형태에서, 염기 편집기 시스템의 핵염기 편집 구성요소, 예를 들어, 디아미나제 구성요소는 가이드 폴리뉴클레오티드의 부분 또는 세그먼트(예를 들어, 폴리뉴클레오 모티프)와 상호작용하거나, 이와 연관되거나, 또는 이와 복합체를 형성할 수 있는, 추가의 이종성 부분 또는 도메인(예를 들어, RNA 또는 DNA 결합 단백질과 같은 폴리뉴클레오티드 결합 도메인)을 포함할 수 있다. 일부 실시형태에서, 추가의 이종성 부분 또는 도메인(예를 들어, RNA 또는 DNA 결합 단백질과 같은 폴리뉴클레오티드 결합 도메인)은 데아미나제 도메인에 융합되거나 연결될 수 있다. 일부 실시형태에서, 추가의 이종성 부분은 폴리펩티드에 결합하거나, 이와 상호작용하거나, 이와 연관되거나, 또는 이와 복합체를 형성할 수 있다. 일부 실시형태에서, 추가의 이종성 부분은 폴리뉴클레오티드에 결합하거나, 이와 상호작용하거나, 이와 연관되거나, 또는 이와 복합체를 형성할 수 있다. 일부 실시형태에서, 추가의 이종성 부분은 가이드 폴리뉴클레오티드에 결합할 수 있다. 일부 실시형태에서, 추가의 이종성 부분은 폴리펩티드 링커에 결합할 수 있다. 일부 실시형태에서, 추가의 이종성 부분은 폴리뉴클레오티드 링커에 결합할 수 있다. 추가 이종부는 단백질 도메인일 수 있다. 일부 실시형태에서, 추가의 이종성 부분은 K 상동성(KH) 도메인, MS2 코트 단백질 도메인, PP7 코트 단백질 도메인, SfMu Com 코트 단백질 도메인, 멸균 알파 모티프, 텔로머라아제 Ku 결합 모티프 및 Ku 단백질, 텔로머라아제 Sm7 결합 모티프 및 Sm7 단백질, 또는 RNA 인식 모티프일 수 있다.
일부 실시형태에서, 염기 편집기 시스템은 염기 절제 복구(BER) 구성요소의 억제제를 추가로 포함할 수 있다. 염기 편집기 시스템의 구성요소는 공유 결합, 비공유 상호작용, 또는 이들 연관 및 상호작용의 임의의 조합을 통해 서로 연관될 수 있음을 이해해야 한다. BER 구성요소의 억제제는 염기 절제 복구 억제제를 포함할 수 있다. 일부 실시형태에서, 염기 절제 복구 억제제는 우라실 DNA 글리코실라제 억제제(UGI)일 수 있다. 일부 실시형태에서, 염기 절제 복구 억제제는 이노신 염기 절제 복구 억제제일 수 있다. 일부 실시형태에서, 염기 절제 복구의 억제제는 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인에 의해 표적 뉴클레오티드 서열에 표적화될 수 있다. 일부 실시형태에서, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인은 염기 절제 복구의 억제제에 융합되거나 연결될 수 있다. 일부 실시형태에서, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인은 데아미나제 도메인 및 염기 절제 복구의 억제제에 융합되거나 연결될 수 있다. 일부 실시형태에서, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인은 염기 절제 복구 억제제와 비공유적으로 상호작용하거나 이와 연관됨으로써 염기 절제 복구 억제제를 표적 뉴클레오티드 서열로 표적화할 수 있다. 예를 들어, 일부 실시형태에서, 염기 절제 복구 구성요소의 억제제는 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인인 추가의 이종성 부분 또는 도메인의 일부와 상호작용하거나, 이와 연관되거나, 또는 이와 복합체를 형성할 수 있는 추가의 이종성 부분 또는 도메인을 포함할 수 있다. 일부 실시형태에서, 염기 절제 복구의 억제제는 가이드 폴리뉴클레오티드에 의해 표적 뉴클레오티드 서열에 표적화될 수 있다. 예를 들어, 일부 실시형태에서, 염기 절제 복구 억제제는 가이드 폴리뉴클레오티드의 일부 또는 세그먼트(예를 들어, 폴리뉴클레오티드 모티프)와 상호작용하거나, 이와 연관되거나, 또는 이와 복합체를 형성할 수 있는 추가의 이종성 부분 또는 도메인(예를 들어, RNA 또는 DNA 결합 단백질과 같은 폴리뉴클레오티드 결합 도메인)을 포함할 수 있다. 일부 실시형태에서, 가이드 폴리뉴클레오티드의 추가의 이종성 부분 또는 도메인(예를 들어, RNA 또는 DNA 결합 단백질과 같은 폴리뉴클레오티드 결합 도메인)은 염기 절제 복구 억제제에 융합되거나 연결될 수 있다. 일부 실시형태에서, 추가의 이종성 부분은 폴리뉴클레오티드에 결합하거나, 이와 상호작용하거나, 이와 연관되거나, 또는 이와 복합체를 형성할 수 있다. 일부 실시형태에서, 추가의 이종성 부분은 가이드 폴리뉴클레오티드에 결합할 수 있다. 일부 실시형태에서, 추가의 이종성 부분은 폴리펩티드 링커에 결합할 수 있다. 일부 실시형태에서, 추가의 이종성 부분은 폴리뉴클레오티드 링커에 결합할 수 있다. 추가의 이종성 부분은 단백질 도메인일 수 있다. 일부 실시형태에서, 추가의 이종성 부분은 K 상동성(KH) 도메인, MS2 코트 단백질 도메인, PP7 코트 단백질 도메인, SfMu Com 코트 단백질 도메인, 멸균 알파 모티프, 텔로머라제 Ku 결합 모티프 및 Ku 단백질, 텔로머라제 Sm7 결합 모티프 및 Sm7 단백질, 또는 RNA 인식 모티프일 수 있다.
일부 실시형태에서, 염기 편집기는 편집된 가닥의 염기 절제 복구를 억제한다. 일부 실시형태에서, 염기 편집기는 비-편집된 가닥을 보호하거나 결합한다. 일부 실시형태에서, 염기 편집기는 UGI 활성을 포함한다. 일부 실시형태에서, 염기 편집기는 촉매적으로 비활성인 이노신-특이적 뉴클레아제를 포함한다. 일부 실시형태에서, 염기 편집기는 닉카아제 활성을 포함한다. 일부 실시형태에서, 염기쌍의 의도된 편집은 PAM 부위의 상류이다. 일부 실시형태에서, 염기쌍의 의도된 편집은 PAM 부위의 상류에 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 또는 20개 뉴클레오티드이다. 일부 실시형태에서, 의도된 염기-쌍 편집은 PAM 사이트의 하류이다. 일부 실시형태에서, 의도된 편집되는 염기쌍은 PAM 부위의 뉴클레오티드 하류 스트림의 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 또는 20개 뉴클레오티드이다.
일부 실시형태에서, 방법은 정규(예를 들어, NGG) PAM 부위를 필요로 하지 않는다. 일부 실시형태에서, 핵염기 편집기는 링커 또는 스페이서를 포함한다. 일부 실시형태에서, 링커 또는 스페이서는 1개 내지 25개 아미노산 길이이다. 일부 실시형태에서, 링커 또는 스페이서는 5개 내지 20개 아미노산 길이이다. 일부 실시형태에서, 링커 또는 스페이서는 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 또는 20개 아미노산 길이이다.
일부 실시형태에서, 표적 영역은 표적 윈도우를 포함하고, 여기서 표적 윈도우는 표적 핵염기쌍을 포함한다. 일부 실시형태에서, 표적 윈도우는 1개 내지 10개의 뉴클레오티드를 포함한다. 일부 실시형태에서, 표적 윈도우는 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 또는 20개 뉴클레오티드 길이이다. 일부 실시형태에서, 염기쌍의 의도된 편집은 표적 윈도우 내에 있다. 일부 실시형태에서, 표적 윈도우는 의도된 염기쌍 편집을 포함한다. 일부 실시형태에서, 본 방법은 본 명세서에 제공된 임의의 염기 편집기를 사용하여 수행된다. 일부 실시형태에서, 표적 윈도우는 탈아미노화 윈도우이다.
일부 실시형태에서, 염기 편집기는 시티딘 염기 편집기(CBE)이다. 일부 실시형태에서, 비제한적인 예시적 CBE는 BE1(APOBEC1-XTEN-dCas9), BE2(APOBEC1-XTEN-dCas9-UGI), BE3(APOBEC1-XTEN-dCas9(A840H)-UGI), BE3-Gam, saBE3, saBE4-Gam, BE4, BE4-Gam, saBE4, 또는 saB4E-Gam이다. BE4는 APOBEC1-Cas9n(D10A) 링커를 32개 아미노산으로 그리고 Cas9n-UGI 링커를 9개 아미노산으로 확장하고, UGI의 두번째 사본을 구축물의 C 말단에 또 다른 9개-아미노산 링커와 함께 단일 염기 편집기 구축물에 추가한다. 염기 편집기 saBE3 및 saBE4는 더 작은 S. 아우레우스(S. aureus) Cas9n(D10A)으로 교체된 S. 피오게네스(S. pyogenes) Cas9n(D10A)을 갖는다. BE3-Gam, saBE3-Gam, BE4-Gam, 및 saBE4-Gam은 16개-아미노산 XTEN 링커를 통해 BE3, saBE3, BE4, 및 saBE4의 N-말단에 융합된 174개 잔기의 Gam 단백질을 갖는다.
일부 실시형태에서, 염기 편집기는 아데노신 염기 편집기(ABE)이다. 일부 실시형태에서, 아데노신 염기 편집기는 DNA에서 아데닌을 탈아미노화할 수 있다. 일부 실시형태에서, 아데노신 염기 편집기는 RNA에서 아데닌을 탈아미노화할 수 있다. 일부 실시형태에서, ABE는 BE3의 APOBEC1 구성요소를 천연 또는 조작된 E 콜라이(E. coli) TadA, 인간 ADAR2, 마우스 ADA, 또는 인간 ADAT2로 대체함으로써 생성된다. 일부 실시형태에서, ABE는 진화된 TadA 변이체를 포함한다. 일부 실시형태에서, ABE는 ABE1.2(TadA*-XTEN-nCas9-NLS)이다. 일부 실시형태에서, TadA*는 A106V 및 D108N 돌연변이를 포함한다.
일부 실시형태에서, ABE는 2세대 ABE이다. 일부 실시형태에서, ABE는, TadA*(TadA* 2.1)에서 추가 돌연변이 D147Y 및 E155V를 포함하는, ABE2.1이다. 일부 실시형태에서, ABE는 ABE2.2, 인간 알킬아데닌 DNA 글리코실라제(E125Q 돌연변이를 갖는 AAG)의 촉매적으로 비활성화된 버전에 융합된 ABE2.1이다. 일부 실시형태에서, ABE는 ABE2.3, 촉매적으로 비활성화된 E 콜라이(E. coli) Endo V(D35A 돌연변이로 비활성화됨) 버전에 융합된 ABE2.1이다. 일부 실시형태에서, ABE는 ABE2.1에서 링커보다 2배 긴 링커(32개 아미노산, (SGGS)2-XTEN-(SGGS)2)를 갖는, ABE2.6이다. 일부 실시형태에서, ABE는, 추가 야생형 TadA 단량체와 테더된(tethered) ABE2.1인, ABE2.7이다. 일부 실시형태에서, ABE는 ABE28이며, 이는 추가 TadA* 2.1 단량체와 테더된 ABE2.1이다. 일부 실시형태에서, ABE는 ABE2.9이며, 이는 ABE2.1의 N-말단에 진화된 TadA(TadA* 2.1)의 직접 융합체이다. 일부 실시형태에서, ABE는 ABE2.10이며, 이는 야생형 TadA의 ABE2.1의 N-말단에 대한 직접 융합체이다. 일부 실시형태에서, ABE는 ABE2.11이고, 이는 TadA* 단량체의 N-말단에서 비활성화 E59A 돌연변이를 갖는 ABE2.9이다. 일부 실시형태에서, ABE는 ABE2.12이며, 이는 내부 TadA* 단량체에 비활성화 E59A 돌연변이를 갖는 ABE2.9이다.
일부 실시형태에서, ABE는 3세대 ABE이다. 일부 실시형태에서, ABE는 ABE3.1이고, 이는 3개의 추가 TadA 돌연변이(L84F, H123Y, 및 I157F)를 갖는 ABE2.3이다.
일부 실시형태에서, ABE는 4세대 ABE이다. 일부 실시형태에서, ABE는 ABE4.3이며, 이는 추가적인 TadA 돌연변이 A142N(TadA* 4.3)을 갖는 ABE3.1이다.
일부 실시형태에서, ABE는 5세대 ABE이다. 일부 실시형태에서, ABE는 ABE5.1이며, 이는 생존 클론(H36L, R51L, S146C, 및 K157N)에서 공통 돌연변이 세트를 ABE3.1로 유입시킴으로써 생성된다. 일부 실시형태에서, ABE는 내부 진화된 TadA*에 융합된 야생형 E. 콜라이(E. coli) TadA를 함유하는 이종이량체 구축물을 갖는, ABE5.3이다. 일부 실시형태에서, ABE는, 아래 표 2에 나타낸 것과 같은, ABE5.2, ABE5.4, ABE5.5, ABE5.6, ABE5.7, ABE5.8, ABE5.9, ABE5.10, ABE5.11, ABE5.12, ABE5.13, 또는 ABE5.14이다. 일부 실시형태에서, ABE는 6세대 ABE이다. 일부 실시형태에서, ABE는, 아래 표 2에 나타낸 것과 같은, ABE6.1, ABE6.2, ABE6.3, ABE6.4, ABE6.5, 또는 ABE6.6이다. 일부 실시형태에서, ABE는 7세대 ABE이다. 일부 실시형태에서, ABE는, 아래 표 2에 나타낸 것과 같은, ABE7.1, ABE7.2, ABE7.3, ABE7.4, ABE7.5, ABE7.6, ABE7.7, ABE7.8, ABE 7.9, 또는 ABE7.10이다.
표 2.
ABEs의
유전자형
일부 실시형태에서, 염기 편집기는 핵염기 편집 도메인(예를 들어, 데아미나제 도메인의 전부 또는 일부)에 융합된 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인(예를 들어, Cas9-유래 도메인)을 포함하는 융합 단백질이다. 일부 실시형태에서, 염기 편집기는 우라실 글리코실라제 억제제(UGI)의 전부 또는 일부를 포함하는 도메인을 추가로 포함한다. 일부 실시형태에서, 염기 편집기는 우라실 결합 단백질(UBP), 예컨대, 우라실 DNA 글리코실라제(UDG)의 전부 또는 일부를 포함하는 도메인을 포함한다. 일부 실시형태에서, 염기 편집기는 핵산 중합효소의 전부 또는 일부를 포함하는 도메인을 포함한다. 일부 실시형태에서, 염기 편집기에 통합된 핵산 중합효소 또는 이의 일부는 손상통과 DNA 중합효소이다.
일부 실시형태에서, 염기 편집기의 도메인은 다수의 도메인을 포함할 수 있다. 예를 들어, Cas9로부터 유래된 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인을 포함하는 염기 편집기는 야생형 또는 천연 Cas9의 REC 로브 및 NUC 로브에 상응하는 REC 로브(lobe) 및 NUC 로브를 포함할 수 있다. 또 다른 예에서, 염기 편집기는 RuvCI 도메인, BH 도메인, REC1 도메인, REC2 도메인, RuvCII 도메인, L1 도메인, HNH 도메인, L2 도메인, RuvCIII 도메인, WED 도메인, TOPO 도메인, 또는 CTD 도메인 중 하나 이상을 포함할 수 있다. 일부 실시형태에서, 염기 편집기의 하나 이상의 도메인은 도메인을 포함하는 폴리펩티드의 야생형 버전에 비해 돌연변이(예를 들어, 치환, 삽입, 결실)를 포함한다. 예를 들어, 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인의 HNH 도메인은 H840A 치환을 포함할 수 있다. 또 다른 예에서, 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인의 RuvCI 도메인은 D10A 치환을 포함할 수 있다.
본 명세서에 개시된 염기 편집기의 상이한 도메인(예를 들어, 인접 도메인)은 하나 이상의 링커 도메인(예를 들어, XTEN 링커 도메인)을 사용하거나 사용하지 않고 서로 연결될 수 있다. 일부 경우에, 링커 도메인은 결합(예를 들어, 공유 결합), 화학 기, 또는 두 분자 또는 모이어티, 예를 들어, 융합 단백질의 두 도메인, 예컨대, 제1 도메인(예를 들어, Cas9-유래 도메인) 및 제2 도메인(예를 들어, 시티딘 데아미나제 도메인 또는 상기 아데노신 데아미나제 도메인)을 연결하는 분자일 수 있다. 일부 실시형태에서, 링커는 공유 결합(예를 들어, 탄소-탄소 결합, 이황화 결합, 탄소-헤테로 원자 결합 등)이다. 특정 실시형태에서, 링커는 아미드 결합의 탄소 질소 결합이다. 특정 실시형태에서, 링커는 환형 또는 비환형, 치환 또는 비치환, 분지 또는 비분지 지방족 또는 헤테로 지방족 링커이다. 특정 실시형태에서, 링커는 중합체성이다(예를 들어, 폴리에틸렌, 폴리에틸렌 글리콜, 폴리아미드, 폴리에스터 등). 특정 실시형태에서, 링커는 아미노 알칸산의 단량체, 이량체 또는 중합체를 포함한다. 일부 실시형태에서, 링커는 아미노알칸산(예를 들어, 글라이신, 에탄산, 알라닌, 베타-알라닌, 3-아미노프로판산, 4-아미노부탄산, 5-펜탄산 등)을 포함한다. 일부 실시형태에서, 링커는 아미노 헥산산(Ahx)의 단량체, 이량체 또는 중합체를 포함한다. 특정 실시형태에서, 링커는 카보시클릭 모이어티(예를 들어, 사이클로펜탄, 사이클로헥산)를 기반으로 한다. 다른 실시형태에서, 링커는 폴리에틸렌글리콜 모이어티(PEG)를 포함한다. 특정 실시형태에서, 링커는 아릴 또는 헤테로아릴 모이어티를 포함한다. 특정 실시형태에서, 링커는 페닐 고리를 기반으로 한다. 링커는 펩티드로부터 링커로의 친핵체(예를 들어, 티올, 아미노)의 부착을 용이하게하는 기능화된 모이어티를 포함할 수 있다. 모든 친전자체는 링커의 일부로 사용할 수 있다. 예시적인 친전자체는 활성화된 에스터, 활성화된 아미드, 마이클(Michael) 수용체, 알킬 할라이드, 아릴 할라이드, 아실 할라이드, 및 이소티오시아네이트를 포함하지만, 이로만 제한되는 것은 아니다. 일부 실시형태에서, 링커는 Cas9 뉴클레아제 도메인을 포함하는 RNA-프로그래밍가능한 뉴클레아제의 gRNA 결합 도메인 및 핵산 편집 단백질의 촉매 도메인에 연결된다. 일부 실시형태에서, 링커는 dCas9 및 제2 도메인(예를 들어, 시티딘 데아미나제, UGI 등)에 연결된다.
전형적으로, 링커는 두 그룹, 분자, 또는 다른 모이어티 사이에 위치하거나, 이들에 의해 측접되며, 공유 결합을 통해 각각에 연결되어, 두 그룹을 연결한다. 전형적으로, 링커는, 그에 따라 둘을 연결한다. 일부 실시형태에서, 링커는 아미노산 또는 복수의 아미노산(예를 들어, 펩티드 또는 단백질)이다. 일부 실시형태에서, 링커는 유기 분자, 기, 중합체, 또는 화학적 모이어티이다. 일부 실시형태에서, 링커는 2 내지 100개의 아미노산 길이, 예를 들어 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개, 30개, 30-35개, 35-40개, 40-45개, 45-50개, 50-60개, 60-70개, 70-80개, 80-90개, 90-100개, 100-150개, 또는 150-200개 아미노산 길이이다. 일부 실시형태에서, 링커는 약 3 내지 104개(예를 들어, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개, 30개, 31개, 32개, 33개, 34개, 35개, 36개, 37개, 38개, 39개, 40개, 41개, 42개, 43개, 44개, 45개, 46개, 47개, 48개, 49개, 50개, 55개, 60개, 65개, 70개, 75개, 80개, 85개, 90개, 95개, 또는 100개) 아미노산 길이이다. 더 길거나 더 짧은 링커도 고려된다. 일부 실시형태에서, 링커 도메인은, XTEN 링커로도 지칭될 수 있는, 아미노산 서열 SGSETPGTSESATPES를 포함한다. 핵염기 편집기의 활성을 위한 최적의 길이를 달성하기 위해, 융합 단백질 도메인을 연결하는 임의의 방법이 사용될 수 있다(예를 들어, (SGGS)n, (GGGS)n, (GGGGS)n, 및 (G)n 형태의 매우 유연한 링커로부터, (EAAAK)n, (SGGS)n, SGSETPGTSESATPES(예를 들어, 전체 내용이 본 명세서에 참조로 포함되는, 문헌[Guilinger JP, Thompson DB, Liu DR Fusion of catalytically inactive Cas9 to FokI nuclease improves the specificity of genome modification Nat Biotechnol 2014; 32(6): 577-82] 참조), 또는 (XP)n 모티프, 또는 이들의 임의의 조합 형태의 더 강직한 링커에 이르는 범위에 있는 것, 여기서 n은 독립적으로 1 내지 30 사이의 정수이고, 여기서 X는 임의의 아미노산임). 일부 실시형태에서, n은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 또는 15이다. 일부 실시형태에서, 링커는 (GGS)n 모티프를 포함하며, 여기서 n은 1, 3, 또는 7이다. 일부 실시형태에서, 본 명세서에 제공된 융합 단백질의 Cas9 도메인은 아미노산 서열 SGSETPGTSESATPES를 포함하는 링커를 통해 융합된다. 일부 실시형태에서, 링커는 복수의 프롤린 잔기를 포함하고, 5-21개, 5-14개, 5-9개, 5-7개 아미노산 길이, 예를 들어, PAPAP, PAPAPA, PAPAPAP, PAPAPAPA, P(AP)4, P(AP)7, P(AP)10이다(예를 들어, 전제 내용이 본 명세서에 참조로 포함되는, 문헌[Tan J, Zhang F, Karcher D, Bock R. Engineering of high-precision base editors for site-specific single nucleotide replacement. Nat Commun. 2019 Jan 25;10(1):439] 참조). 이러한 프롤린-풍부 링커는 "강성(rigid)" 링커라고도 지칭된다.
본 명세서에 개시된 염기 편집기의 도메인은 임의의 순서로 배열될 수 있다. 예를 들어, 폴리뉴클레오티드-프로그래밍가능한 뉴클레오티드-결합 도메인 및 데아미나제 도메인을 포함하는 융합 단백질을 포함하는 염기 편집기의 비제한적인 예는, 다음과 같이 배열될 수 있다:
NH2-[핵염기 편집 도메인]-링커1-[예를 들어, Cas9 유래 도메인]-COOH;
NH2-[예를 들어, 시티딘 데아미나제]-링커1-[예를 들어, Cas9 유래 도메인]-COOH;
NH2-[예를 들어, 시티딘 데아미나제]-링커1-[예를 들어, Cas9 유래 도메인]-링커2-[UGI]-COOH;
NH2-[예를 들어, APOBEC]-링커1-[예를 들어, Cas9 유래 도메인]-COOH;
NH2-[예를 들어, 시티딘 데아미나제]-링커1-[예를 들어, Cas9 유래 도메인]-COOH;
NH2-[예를 들어, APOBEC]-링커1-[예를 들어, Cas9 유래 도메인]-COOH;
NH2-[예를 들어, APOBEC]-링커1-[예를 들어, Cas9 유래 도메인]-링커2-[UGI]-COOH;
NH2-[예를 들어, 아데노신 데아미나제]-[예를 들어, Cas9 유래 도메인]-COOH;
NH2-[예를 들어, Cas9 유래 도메인]-[예를 들어, 아데노신 데아미나제]-COOH;
NH2-[예를 들어, 아데노신 데아미나제]-[예를 들어, Cas9 유래 도메인]-[이노신 BER 억제제]-COOH;
NH2-[예를 들어, 아데노신 데아미나제]-[이노신 BER 억제제]-[예를 들어, Cas9 유래 도메인]-COOH;
NH2-[이노신 BER 억제제]-[예를 들어, 아데노신 데아미나제]-[예를 들어, Cas9 유래 도메인]-COOH;
NH2-[예를 들어, Cas9 유래 도메인]-[예를 들어, 아데노신 데아미나제]-[이노신 BER 억제제]-COOH;
NH2-[예를 들어, Cas9 유래 도메인]-[이노신 BER 억제제]-[예를 들어, 아데노신 데아미나제]-COOH; 또는
NH2-[이노신 BER 억제제]-[예를 들어, Cas9 유래 도메인]-[예를 들어, 아데노신 데아미나제]-COOH.
또한, 일부 경우에, Gam 단백질은 염기 편집기의 N 말단에 융합될 수 있다. 일부 경우에, Gam 단백질은 염기 편집기의 C 말단에 융합될 수 있다. 박테리오파지 Mu의 Gam 단백질은 이중 가닥 파손(DSB)의 말단에 결합하여 분해로부터 보호할 수 있다. 일부 실시형태에서, DSB의 자유 말단에 결합하도록 하기 위해 Gam을 사용하는 것은 염기 편집 프로세스 동안 인델 형성을 감소시킬 수 있다. 일부 실시형태에서, 174-잔기 Gam 단백질은 염기 편집기의 N 말단에 융합된다. 예를 들어, 문헌[Komor, A.C., et al., "Improved base excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity" Science Advances 3:eaao4774 (2017)] 참조. 일부 경우에, 돌연변이 또는 돌연변이들은 야생형 도메인에 비해 염기 편집기 도메인의 길이를 변경할 수 있다. 예를 들어, 하나 이상의 도메인에서 하나 이상의 아미노산의 결실은 염기 편집기의 길이를 감소시킬 수 있다. 또 다른 경우, 돌연변이 또는 돌연변이들은 야생형 도메인에 비해 도메인의 길이를 변경하지 않는다. 예를 들어, 임의 도메인에서의 치환은 염기 편집기의 길이를 변경하지 않는다. 모든 도메인의 길이가 야생형 도메인과 동일한 그러한 염기 편집기의 비제한적인 예는, 다음을 포함할 수 있다:
NH2-[APOBEC1]-링커1-[Cas9(D10A)]-링커2-[UGI]-COOH;
NH2-[CDA1]-링커1-[Cas9(D10A)]-링커2-[UGI]-COOH;
NH2-[AID]-링커1-[Cas9(D10A)]-링커2-[UGI]-COOH;
NH2-[APOBEC1]-링커1-[Cas9(D10A)]-링커2-[SSB]-COOH;
NH2-[UGI]-링커1-[ABOBEC1]-링커2-[Cas9(D10A)]-COOH;
NH2-[APOBEC1]-링커1-[Cas9(D10A)]-링커2-[UGI]-링커3-[UGI]-COOH;
NH2-[Cas9(D10A)]-링커1-[CDA1]-링커2-[UGI]-COOH;
NH2-[Gam]-링커1-[APOBEC1]-링커2-[Cas9(D10A)]-링커3-[UGI]-COOH;
NH2-[Gam]-링커1-[APOBEC1]-링커2-[Cas9(D10A)]-링커3-[UGI]-링커4-[UGI]-COOH;
NH2-[APOBEC1]-링커1-[dCas9(D10A, H840A)]-링커2-[UGI]-COOH; 또는
NH2-[APOBEC1]-링커1-[dCas9(D10A, H840A)]-COOH.
일부 실시형태에서, 본 명세서에 제공된 염기 편집 융합 단백질은, 예를 들어, 표적 염기가 정의된 영역(예를 들어, "탈아미노화 윈도우") 내에 배치되는, 정확한 위치에 자리할 필요가 있다. 일부 경우에, 표적은 4-염기 영역 내에 있을 수 있다. 일부 경우에, 이러한 정의된 타겟 영역은 PAM의 상류의 약 15개 염기일 수 있다. 예를 들어, 이의 전체 내용이 본 명세서에 참조로 포함되는, 다음 문헌 참조: Komor, A.C., et al., "Programmable editing of a target base in genomic DNA without doublestranded DNA cleavage" Nature 533, 420-424 (2016); Gaudelli, N.M., et al., "Programmable base editing of A·T to G·C in genomic DNA without DNA cleavage" Nature 551, 464-471 (2017); 및 Komor, A.C., et al., "Improved base excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity" Science Advances 3:eaao4774 (2017).
정의된 표적 영역은 탈아미노화 윈도우일 수 있다. 탈아미노화 윈도우는 염기 편집기가 표적 뉴클레오티드에 대해 작용하고 탈아미노화하는 정의된 영역일 수 있다. 일부 실시형태에서, 탈아미노화 윈도우는 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 또는 10개의 염기 영역 내에 있다. 일부 실시형태에서, 탈아미노화 윈도우는 PAM 상류의 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 또는 25개 염기이다.
본 개시의 염기 편집기는 표적 폴리뉴클레오티드 서열의 편집을 용이하게 하는 임의의 도메인, 특징 또는 아미노산 서열을 포함할 수 있다. 예를 들어, 일부 실시형태에서, 염기 편집기는 핵 위치결정 서열(NLS)을 포함한다. 일부 실시형태에서, 염기 편집기의 NLS는 데아미나제 도메인과 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인 사이에 위치결정된다. 일부 실시형태에서, 염기 편집기의 NLS는 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인에 대해 위치결정된 C-말단이다.
본 명세서에 개시된 바와 같이 염기 편집기에 존재할 수 있는 다른 예시적인 특징은 세포질 위치결정 서열과 같은 위치결정 서열, 핵외수송서열과 같은 수송 서열, 또는 다른 위치결정 서열뿐만 아니라 융합 단백질의 용해, 정제, 또는 검출에 유용한 서열 태그이다. 본 명세서에 제공된 적합한 단백질 태그에는, 이로만 제한되는 것은 아니지만, 비오틴 카복실라제 운반 단백질(BCCP) 태그, myc-태그, 칼 모둘린-태그, FLAG-태그, 헤마글루티닌(HA)-태그, 히스티딘 태그 또는 또는 His-태그로도 지칭되는, 폴리히스티딘 태그, 말토오스 결합 단백질(MBP)-태그, nus-태그, 글루타티온-S-트랜스퍼라제(GST)-태그, 녹색 형광 단백질(GFP)-태그, 티오레 독신-태그, S-태그, 소프태그(Softags)(예를 들어, 소프태그 1, 소프태그 3), 스트렙(strep)-태그, 비오틴 리가아제 태그, FlAsH 태그, V5 태그 및 SBP-태그를 포함한다. 추가의 적절한 서열은 당업자에게 명백할 것이다.
융합 단백질에 포함될 수 있는 단백질 도메인의 비제한적인 예로는 데아미나제 도메인(예를 들어, 시티딘 데아미나제 및/또는 아데노신 데아미나제), 우라실 글리코실라제 억제제(UGI) 도메인, 에피토프 태그, 리포터 유전자 서열, 및/또는 다음 활성 중 하나 이상을 갖는 단백질 도메인을 포함한다: 메틸라제 활성, 데메틸라제 활성, 전사 활성화 활성, 전사 억제 활성, 전사 방출 인자 활성, 히스톤 변형활성, RNA 절단 활성 및 핵산 결합 활성. 추가 도메인은 이종성(heterologous) 기능 도메인일 수 있다. 이러한 이종성 기능성 도메인은 DNA 메틸화, DNA 손상, DNA 복구, 표적 DNA(예를 들어, 히스톤, DNA-결합 단백질 등)와 관련된 표적 폴리펩티드의 변형과 같은, 기능적 활성을 부여할 수 있으며, 이는, 예를 들어, 히스톤 메틸화, 히스톤 아세틸화, 히스톤 유비퀴틴화 등을 야기한다.
부여된 다른 기능은 메틸트랜스퍼라제 활성, 데메틸라제 활성, 탈아미노화 활성, 디스뮤타제 활성, 알킬화 활성, 탈퓨린화(depurination) 활성, 산화 활성, 피리미딘이량체 형성 활성, 인테그라제 활성, 트랜스포사제 활성, 재조합효소 활성, 중합효소 활성, 리가아제 활성, 헬리카제 활성, 포토리아제(photolyase) 활성 또는 글리코실라제 활성, 아세틸트랜스퍼라제 활성, 데아세틸라제 활성, 키나아제 활성, 포스파타제 활성, 유비퀴틴 리가아제 활성, 탈유비퀴틴화(deubiquitinating) 활성, 아데닐화 활성, 탈아데닐화(deadenylation) 활성, 수모일화(SUMOylating) 활성, 탈수모일화(deSUMOylating) 활성, 리보실화(ribosylation) 활성, 탈리보실화(deribosylation) 활성, 미리스토일화(myristoylation) 활성, 리모델링 활성, 프로테아제 활성, 옥시도리덕타제 활성, 트랜스퍼라제 활성, 하이드롤라제 활성, 리아제(lyase) 활성, 이소머라제 활성, 신타제 활성, 신테타제 활성, 및 탈미리스토일화 활성, 또는 이들의 임의의 조합을 포함한다.
에피토프 태그의 비제한적인 예는 히스티딘(His) 태그, V5 태그, FLAG 태그, 인플루엔자 혈구응집소(HA) 태그, Myc 태그, VSV-G 태그 및 티오레독신(Trx) 태그를 포함한다. 리포터 유전자의 예는, 이로만 제한되는 것은 아니지만, 글루타티온-5-트랜스퍼라제(GST), 호스래디쉬 퍼옥시다제(HRP), 클로람페니콜 아세틸트랜스퍼라제(CAT) 베타-갈락토시다제, 베타-글루쿠로니다제, 루시퍼라제, 녹색 형광 단백질(GFP), HcRed, DsRed, 시안 형광 단백질(CFP), 노란색 형광 단백질(YFP), 및 청색 형광 단백질(BFP)을 포함하는 자가형광 단백질을 포함한다. 추가 단백질 서열은, 이로만 제한되는 것은 아니지만, 말토오스 결합 단백질(MBP), S-태그, Lex A DNA 결합 도메인(DBD) 융합물, GAL4 DNA 결합 도메인 융합물, 및 단순 헤르페스 바이러스(HSV) BP16 단백질 융합물을 포함하는, DNA 분자에 결합하거나 다른 세포 분자에 결합하는 아미노산 서열을 포함할 수 있다.
염기 편집기 효율
CRISPR-Cas9 뉴클레아제는 표적화된 게놈 편집을 매개하기 위해 널리 사용되어 왔다. 대부분의 게놈 편집 적용에서, Cas9는 가이드 폴리뉴클레오티드(예를 들어, 단일 가이드 RNA(sgRNA))와 복합체를 형성하고 sgRNA 서열에 의해 지정된 표적 부위에서 이중-가닥 DNA 파손(DSB)을 유도한다. 세포는 주로 비-상동 말단-접합(NHEJ) 복구 경로를 통해 이 DSB에 반응하며, 이는 유전자를 파괴하는 프레임 이동 돌연변이를 유발할 수 있는 확률적 삽입 또는 결실(인델)을 초래한다. DSB에 측접한 서열에 대해 높은 수준의 상동성을 가진 도너 DNA 주형의 존재시, 상동성 직접 복구(HDR)로 알려진 대체 경로를 통해 유전자 교정을 수행할 수 있다. 불행히도, 대부분의 비섭동(non-perturbative) 조건에서 HDR은 비효율적이며, 세포 상태 및 세포 유형에 의존적이며, 더 큰 빈도의 인델에 의해 압도된다. 인간 질병과 관련된 알려진 유전적 변이의 대부분은 점 돌연변이이기 때문에 보다 효율적이고 명확하게 정확한 점 돌연변이를 만들 수 있는 방법이 필요하다. 본 명세서에서 제공되는 염기 편집 시스템은, 이중-가닥 DNA 파손을 생성함이 없이, 도너 DNA 주형을 필요로 함이 없이, 과도한 확률적 삽입 및 결실을 유도함이 없이, 게놈 편집을 편집하는 새로운 방법을 제공한다.
본 명세서에 제공된 염기 편집기는, 상당한 비율의 인델을 생성함이 없이, 특정 뉴클레오티드 염기를 변형할 수 있다. 본 명세서에 사용된 용어 "인델(들)"은 핵산 내의 뉴클레오티드 염기의 삽입 또는 결실을 지칭한다. 이러한 삽입 또는 결실은 유전자의 코딩 영역 내에서 프레임 이동 돌연변이를 유발할 수 있다. 일부 실시형태에서, 표적 뉴클레오티드 서열에서 다수의 삽입 또는 결실(즉, 인델)을 생성함이 없이, 핵산 내의 특정 뉴클레오티드를 효율적으로 변형(예를 들어, 돌연변이 또는 탈아미노화)하는 염기 편집기를 생성하는 것이 바람직하다. 특정 실시형태에서, 본 명세서에 제공된 임의의 염기 편집기는 인델 대비(versus) 더 큰 비율의 의도된 변형(예를 들어, 점 돌연변이 또는 탈아미노화)을 생성할 수 있다.
일부 실시형태에서, 본 명세서에 제공된 임의의 염기 편집기 시스템은 표적 폴리뉴클레오티드 서열에서 50 % 미만, 40 % 미만, 30 % 미만, 20 % 미만, 19 % 미만, 18 % 미만, 17 % 미만, 16 % 미만, 15 % 미만, 14 % 미만, 13 % 미만, 12 % 미만, 11 % 미만, 10 % 미만, 9 % 미만, 8 % 미만, 7 % 미만 , 6 % 미만, 5 % 미만, 4 % 미만, 3 % 미만, 2 % 미만, 1 % 미만, 0.9 % 미만, 0.8 % 미만, 0.7 % 미만, 0.6 % 미만 , 0.5 % 미만, 0.4 % 미만, 0.3 % 미만, 0.2 % 미만, 0.1 % 미만, 0.09 % 미만, 0.08 % 미만, 0.07 % 미만, 0.06 % 미만, 0.05 % 미만, 0.04 % 미만, 0.03 % 미만, 0.02 % 미만, 또는 0.01 % 미만의 인델 형성을 초래한다.
본 개시의 일부 양상은 본 명세서에 제공된 임의의 염기 편집기가, 비의도된 상당한 수의 돌연변이, 예컨대, 비의도된 점 돌연변이를 생성함이 없이, 핵산(예를 들어, 대상체의 게놈 내의 핵산)에서 의도된 돌연변이, 예컨대 점 돌연변이를 효율적으로 생성할 수 있다는 인식에 기초한다.
일부 실시형태에서, 본 명세서에 제공된 임의의 염기 편집기는 적어도 0.01 %의 의도된 돌연변이를 생성할 수 있다(즉, 적어도 0.01 %의 염기 편집 효율) 일부 실시형태에서, 본 명세서에 제공된 임의의 염기 편집기는 적어도 0.01 %, 1 %, 2 %, 3 %, 4 %, 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 40 %, 45 %, 50 %, 60 %, 70 %, 80 %, 90 %, 95 %, 또는 99 %의 의도된 돌연변이를 생성할 수 있다.
일부 실시형태에서, 본 명세서에 제공된 염기 편집기는 1:1을 초과하는 의도된 점 돌연변이 대 인델의 비율을 생성할 수 있다. 일부 실시형태에서, 본 명세서에 제공된 염기 편집기는 적어도 1.5:1, 적어도 2:1, 적어도 2.5:1, 적어도 3:1, 적어도 3.5:1, 적어도 4:1, 적어도 4.5:1, 적어도 5:1, 적어도 5.5:1, 적어도 6:1, 적어도 6.5:1, 적어도 7:1, 적어도 7.5:1, 적어도 8:1, 적어도 8.5:1, 적어도 9:1, 적어도 10:1, 적어도 11:1, 적어도 12:1, 적어도 13:1, 적어도 14:1, 적어도 15:1, 적어도 20:1, 적어도 25:1, 적어도 30:1, 적어도 40:1, 적어도 50:1, 적어도 100:1, 적어도 200:1, 적어도 300:1, 적어도 400:1, 적어도 500:1, 적어도 600:1, 적어도 700:1, 적어도 800:1, 적어도 900:1, 또는 적어도 1000:1, 또는 그 이상의 의도된 점 돌연변이 대 인델의 비율을 생성할 수 있다.
의도된 돌연변이 및 인델의 수는, 예를 들어, 이의 전체 내용이 본 명세서에 참조로 포함되는, 다음 문헌에 설명된 바와 같이 임의의 적절한 방법을 사용하여 결정될 수 있다: PCT 국제출원 번호 PCT/2017/045381(WO2018/027078) 및 PCT/US2016/058344(WO2017/070632); Komor, A.C., et al., "Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage" Nature 533, 420-424 (2016); Gaudelli, N.M., et al., "Programmable base editing of A·T to G·C in genomic DNA without DNA cleavage" Nature 551, 464-471 (2017); 및 Komor, A.C., et al., "Improved base excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity" Science Advances 3:eaao4774 (2017).
일부 실시형태에서, 인델 빈도를 계산하기 위해, 인델이 발생할 수 있는 윈도우의 양쪽 측부(sides)에 측접하는 2개의 10-bp 서열에 대한 정확한 일치에 대해 시퀀싱 판독(reads)이 스캔된다. 정확히 일치하는 항목이 없으면 판독은 분석에서 제외된다. 이 인델 윈도우의 길이가 참조 서열과 정확히 일치하면, 판독은 인델을 포함하지 않는 것으로 분류된다. 인델 윈도우가 참조 서열보다 두 개 이상의 염기가 길거나 짧으면 시퀀싱 판독은 각각 삽입 또는 결실로 분류된다. 일부 실시형태에서, 본 명세서에 제공된 염기 편집기는 핵산 영역에서 인델의 형성을 제한할 수 있다. 일부 실시형태에서, 영역은 염기 편집기에 의해 표적화된 뉴클레오티드 또는 염기 편집기에 의해 표적화된 뉴클레오티드의 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 또는 10개 뉴클레오티드 내의 영역에 있다.
표적 뉴클레오티드 영역에서 형성된 인델의 수는 핵산(예를 들어, 세포의 게놈 내의 핵산)이 염기 편집기에 노출되는 시간에 따라 달라질 수 있다. 일부 실시형태에서, 인델의 수 또는 비율은 염기 편집기에 대해 적어도 1시간, 적어도 2시간, 적어도 6시간, 적어도 12시간, 적어도 24시간, 적어도 36시간, 적어도 48시간, 적어도 3일, 적어도 4일, 적어도 5일, 적어도 7일, 적어도 10일, 또는 적어도 14일 동안 표적 뉴클레오티드 서열(예를 들어, 세포의 게놈 내의 핵산)을 노출시킨 후 결정된다. 본 명세서에 기재된 바와 같은 염기 편집기의 특징은 임의의 융합 단백질, 또는 본 명세서에 제공된 융합 단백질을 사용하는 방법에 적용될 수 있음을 이해해야 한다.
다중 편집
일부 실시형태에서, 본 명세서에 제공된 염기 편집기 시스템은 하나 이상의 유전자에서 복수의 핵염기쌍을 다중 편집할 수 있다. 일부 실시형태에서, 복수의 핵염기쌍은 동일한 유전자에 위치한다. 일부 실시형태에서, 복수의 핵염기쌍은 하나 이상의 유전자에 위치하며, 여기서 적어도 하나의 유전자는 상이한 유전자좌에 위치한다. 일부 실시형태에서, 다중 편집은 하나 이상의 가이드 폴리뉴클레오티드를 포함할 수 있다. 일부 실시형태에서, 다중 편집은 하나 이상의 염기 편집기 시스템을 포함할 수 있다. 일부 실시형태에서, 다중 편집은 단일 가이드 폴리뉴클레오티드를 갖는 하나 이상의 염기 편집기 시스템을 포함할 수 있다. 일부 실시형태에서, 다중 편집은 복수의 가이드 폴리뉴클레오티드를 갖는 하나 이상의 염기 편집기 시스템을 포함할 수 있다. 일부 실시형태에서, 다중 편집은 단일 염기 편집기 시스템을 갖는 하나 이상의 가이드 폴리뉴클레오티드를 포함할 수 있다. 일부 실시형태에서, 다중 편집은 표적 폴리뉴클레오티드 서열에 대한 결합을 표적화하기 위해 PAM 서열을 필요로 하지 않는 적어도 하나의 가이드 폴리뉴클레오티드를 포함할 수 있다. 일부 실시형태에서, 다중 편집은 표적 폴리뉴클레오티드 서열에 대한 결합을 표적화하기 위해 PAM 서열을 필요로 하는 적어도 하나의 가이드 폴리뉴클레오티드를 포함할 수 있다. 일부 실시형태에서, 다중 편집은 표적 폴리뉴클레오티드 서열에 대한 결합을 표적화하기 위해 PAM 서열을 필요로 하지 않는 적어도 하나의 가이드 폴리뉴클레오티드 및 표적 폴리뉴클레오티드 서열에 대한 결합을 표적화하기 위해 PAM 서열을 필요로 하는 적어도 하나의 가이드 폴리뉴클레오티드의 혼합을 포함할 수 있다. 본 명세서에 기술된 임의의 염기 편집기를 사용하는 다중 편집의 특성은 본 명세서에 제공된 임의의 염기 편집기를 사용하는 방법의 임의의 조합에 적용될 수 있음을 이해해야 한다. 본 명세서에 기재된 바와 같은 임의의 염기 편집기를 사용한 다중 편집은 복수의 핵염기쌍의 순차적 편집을 포함할 수 있음을 또한 이해해야 한다.
본 명세서에 제공된 방법은 다음 단계를 포함한다: (a) 대상체의 폴리뉴클레오티드의 표적 뉴클레오티드 서열(예를 들어, 이중-가닥 DNA 서열)을, 핵염기 편집기(예를 들어, 아데노신 염기 편집기 또는 시티딘 염기 편집기) 및 가이드 폴리핵산(예를 들어, gRNA)을 포함하는, 염기 편집기 시스템과 접촉시키는 단계로서, 상기 표적 뉴클레오티드 서열은 표적화된 핵염기쌍을 포함하는 것인, 단계; (b) 표적 영역의 가닥 분리를 유도하는 단계; (c) 상기 표적 영역의 단일 가닥에서 표적 핵염기쌍의 제1 핵염기를 제2 핵염기로 편집하는 단계; 및 (d) 표적 영역의 하나 이하의 가닥을 절단하는 단계로서, 여기서 상기 제1 핵염기 염기에 상보적인 제3 핵염기가 상기 제2 핵염기에 상보적인 제4 핵염기로 교체되는 단계.
일부 실시형태에서, 복수의 핵염기쌍은 하나 이상의 유전자에 존재한다. 일부 실시형태에서, 복수의 핵염기쌍은 동일한 유전자에 존재한다. 일부 실시형태에서, 하나 이상의 유전자 중 하나 이상의 유전자는 상이한 유전자좌에 위치한다.
일부 실시형태에서, 염기 편집은 적어도 하나의 단백질 코딩 영역에서의 복수의 핵염기쌍의 편집을 수반한다. 일부 실시형태에서, 염기 편집에는 적어도 하나의 단백질 비-코딩 영역에서의 복수의 핵염기쌍의 편집을 수반한다. 일부 실시형태에서, 염기 편집은 적어도 하나의 단백질 코딩 영역 및 적어도 하나의 단백질 비-코딩 영역에서의 복수의 핵염기쌍의 편집을 수반한다.
일부 실시형태에서, 편집은 하나 이상의 가이드 폴리뉴클레오티드와 연계된다. 일부 실시형태에서, 염기 편집기 시스템은 하나 이상의 염기 편집기 시스템을 포함할 수 있다. 일부 실시형태에서, 염기 편집기 시스템은 단일 가이드 폴리뉴클레오티드와 연계하여 하나 이상의 염기 편집기 시스템을 포함할 수 있다. 일부 실시형태에서, 염기 편집기 시스템은 복수의 가이드 폴리뉴클레오티드와 연계하여 하나 이상의 염기 편집기 시스템을 포함할 수 있다. 일부 실시형태에서, 편집은 단일 염기 편집기 시스템을 갖는 하나 이상의 가이드 폴리뉴클레오티드와 연계하여 이루어진다. 일부 실시형태에서, 편집은 표적 폴리뉴클레오티드 서열에 대한 결합을 표적화하기 위해 PAM 서열을 필요로 하지 않는 적어도 하나의 가이드 폴리뉴클레오티드와 연계된다. 일부 실시형태에서, 편집은 표적 폴리뉴클레오티드 서열에 대한 결합을 표적화하기 위해 PAM 서열을 필요로 하는 적어도 하나의 가이드 폴리뉴클레오티드와 연계된다. 일부 실시형태에서, 편집은 표적 폴리뉴클레오티드 서열에 대한 결합을 표적화하기 위해 PAM 서열을 필요로 하지 않는 적어도 하나의 가이드 폴리뉴클레오티드 및 표적 폴리뉴클레오티드 서열에 대한 결합을 표적화하기 위해 PAM 서열을 필요로 하는 적어도 하나의 가이드 폴리뉴클레오티드의 혼합(mix)과 연계된다. 본 명세서에 기재된 임의의 염기 편집기를 사용하는 다중 편집의 특성은 본 명세서에 제공된 임의의 염기 편집기를 사용하는 방법의 임의의 조합에 적용될 수 있음을 이해해야 한다. 편집은 복수의 핵염기쌍의 순차적 편집을 포함할 수 있음을 또한 이해해야 한다.
염기 편집기 이용 방법
질병-관련 유전자 및 대립유전자에서 점 돌연변이의 교정은 치료제(therapeutics) 및 기초 연구에서의 응용과 함께 유전자 교정을 위한 새로운 전략을 제시한다.
본 개시는 본 명세서에 제공된 염기 편집기 시스템에 의해 교정될 수 있는 점 돌연변이와 관련되거나 이에 의해 야기되는 질병으로 진단된 대상체의 치료를 위한 방법을 제공한다. 예를 들어, 일부 실시형태에서, 이러한 질병, 예를 들어, 유전적 돌연변이에 의해 유발된 질환을 갖는 대상체에게, 상기 질병 관련 유전자 내의 점 돌연변이를 교정하는 유효량의 핵염기 편집기(예를 들어, 아데노신 데아미나제 염기 편집기 또는 시티딘 데아미나제 염기 편집기)를 투여하는 단계를 포함하는 방법이 제공된다.
다양한 실시형태에서, 질병은 증식성 질병이다. 일부 실시형태에서, 질병은 유전성 질병이다. 일부 실시형태에서, 질병은 신생물성 질병이다. 일부 실시형태에서, 질병은 대사성 질병이다. 일부 실시형태에서, 질병은 리소좀 축적 질병이다. 예시적인 적합한 질환 및 장애는, 제함됨이 없이, 색소성 망막염(예를 들어, adRP-PRPF3, adRP-RHO), 어셔 증후군 유형 1F, 겸상 적혈구 질환, 알파-1 항트립신 결핍(A1AD), 간 포르피린증, MCAD 결핍, LAL 결핍, 페닐케톤뇨증(PKU), 혈색소 침착증, 폰 기르케병(GSD1a), 폼페병(GSDII), 고셔병, 헐러 증후군(MPS1), 낭포성 섬유증, 호모시스틴뇨증(HCUL; homocystinuria) 또는 만성 통증을 포함한다. 점 돌연변이를 교정하거나 질병 관련 유전자에 비활성화 돌연변이를 도입함으로써 치료할 수 있는 다른 질병은 당업자에게 공지되어 있으며, 본 개시는 이러한 양상에서 제한되지 않는다. 추가 질환 또는 장애, 예를 들어, 데아미나제 매개 유전자 편집에 의해 교정될 수 있는 점 돌연변이에 의해 야기되거나 연관될 수 있는 질환 또는 장애의 치료 방법이 제공된다. 이러한 질병은 본 명세서에 기재되어 있으며, 본 명세서에 제공된 전략 및 융합 단백질로 치료할 수 있는 추가적인 적합한 질병은 본 개시에 기초하여 당업자에게 명백할 것이다.
특정 양상에서, 점 돌연변이(예를 들어, A1AT 단백질을 코딩하는 SERPINA1 유전자에서)와 관련되거나 이에 의해 유발되고, 데아미나제 매개 유전자 편집에 의해 교정될 수 있는, A1AD의 치료를 위한 방법이 제공된다.
각각의 서열, 예를 들어, 질병-관련 유전자 또는 이의 코딩된 단백질의 폴리뉴클레오티드 또는 아미노산 서열에서 특정 위치 또는 잔기의 번호 매기기는, 각각, 특정 단백질 및 사용된 번호 매기기 체계에 따라 달라진다는 것이 이해될 것이다. 번호 매기기는, 예를 들어, 성숙 단백질의 전구체와 성숙 단백질 자체에서 다를 수 있으며, 종에서 종마다의 서열의 차이가 번호 매기기에 영향을 미칠 수 있다. 해당 기술분야의 당업자는, 해당 기술 분야에 잘 알려진 방법에 의해, 예를 들어, 서열 정렬 및 상동성 잔기의 결정에 의해, 임의의 상동성 단백질 및 각각의 코딩 핵산 서열 내에서 각각의 잔기를 확인할 수 있다.
질병 또는 장애와 연관된 표적 뉴클레오티드 서열에서 핵염기를 편집하기 위해 염기 편집기 또는 염기 편집기 시스템을 이용하는 방법이 본 명세서에 제공된다. 일부 실시형태에서, 염기 편집기(예를 들어, 아데노신 데아미나제 및 Cas9 도메인을 포함함)의 활성은 점 돌연변이의 교정을 초래한다. 일부 실시형태에서, 표적 DNA 서열은 질환 또는 장애와 관련된 G → A 점 돌연변이를 포함하고, 여기서 돌연변이체 A 염기의 탈아미노화는 질환 또는 장애와 관련되지 않은 서열을 생성한다. 일부 실시형태에서, 표적 DNA 서열은 질환 또는 장애와 관련된 T → C 점 돌연변이를 포함하고, 여기서 돌연변이체 C 염기의 탈아미노화는 질환 또는 장애와 관련되지 않은 서열을 초래한다.
일부 실시형태에서, 표적 DNA 서열은 단백질을 코딩하고, 점 돌연변이는 코돈에 있으며 야생형 코돈과 비교하여 돌연변이 코돈에 의해 코딩되는 아미노산의 변화를 초래한다. 일부 실시형태에서, 돌연변이체 A의 탈아미노화는 돌연변이 코돈에 의해 코딩되는 아미노산의 변화를 초래한다. 일부 실시형태에서, 돌연변이체 A의 탈아미노화는 야생형 아미노산을 코딩하는 코돈을 생성한다. 일부 실시형태에서, 돌연변이체 C의 탈아미노화는 돌연변이체 코돈에 의해 코딩되는 아미노산의 변화를 초래한다. 일부 실시형태에서, 돌연변이체 C의 탈아미노화는 야생형 아미노산을 코딩하는 코돈을 생성한다. 일부 실시형태에서, 대상체는 질병 또는 장애를 앓고 있거나 진단받은 적이 있다.
일부 실시형태에서, 본 명세서에 제공된 아데노신 데아미나제는 DNA의 데옥시아데노신 잔기의 아데닌을 탈아미노화할 수 있다. 본 개시의 다른 양상은 아데노신 데아미나제(예를 들어, 본 명세서에 기재된 바와 같이 DNA에서 데옥시아데노신을 탈아미노화시키는 아데노신 데아미나제) 및 특정 뉴클레오티드 서열에 결합 할 수 있는 도메인(예를 들어, Cas9 또는 Cpf1 단백질)을 포함하는 융합 단백질을 제공한다. 예를 들어, 아데노신은 일반적으로 시토신 잔기와 염기쌍을 이루는 이노신 잔기로 전환될 수 있다. 이러한 융합 단백질은 특히(inter alia) 핵산 서열의 표적화된 편집에 유용하다. 그러한 융합 단백질은, 예를 들어, 돌연변이 세포 또는 동물의 생성을 위해, 시험관내에서(in vitro) DNA의 표적 편집을 위해; 예를 들어, 동일하거나 또는 다른 대상체에게 후속적으로 재-도입되는 대상체로부터 수득된 세포에서, 세포내 유전적 결함의 교정을 위해, 생체외에서(ex vivo) 표적화된 돌연변이의 도입을 위해; 그리고, 예를 들어, 본 명세서에 제공된 핵염기 편집기를 사용하여 치료할 수 있는 유전적 결함의 교정 또는 G에서 A로의, 또는 T에서 C로의 돌연변이로 질병-관련 유전자 중에 비활성화 돌연변이의 도입을 위해, 생체내에서(in vivo) 표적화된 돌연변이의 도입을 위해 사용될 수 있다. 본 개시는 데아미나제 및 핵염기 편집기를 이용하는 데아미나제, 융합 단백질, 핵산, 벡터, 세포, 조성물, 방법, 키트, 시스템 등을 제공한다.
SERPINA1
유전자 내의 뉴클레오티드를 표적으로 하기 위한
핵염기
편집기의 사용
SERPINA1 유전자 내의 뉴클레오티드를 표적으로 하는 핵염기 편집기의 적합성은 본 명세서에 기재된 바와 같이 평가된다. 일 실시형태에서, 관심있는 단일 세포는 리포터(예를 들어, GFP)를 코딩하는 소량의 벡터와 함께 본 명세서에 기재된 핵염기 편집기를 코딩하는 핵산 분자 또는 분자로 형질감염, 형질도입, 또는 달리 변형된다. 이러한 세포는 293T 세포, K562 세포, 또는 U20S 세포와 같은 불멸화된 인간 세포주일 수 있다. 대안적으로, 1차 인간 세포, 예를 들어 CD34+ 세포가 사용될 수 있다. 세포는 또한 조직 생검, 수술, 혈액, 혈장, 혈청, 또는 기타 생물학적 유체와 같은, 대상체 또는 개인으로부터 얻을 수 있다. 이러한 세포는 최종 세포 표적과 관련이 있을 수 있다.
전달은 아래에 추가로 기재한 것과 같이 바이러스 벡터를 사용하여 수행될 수 있다. 일 실시형태에서, 형질감염은 지질 형질감염(예를 들어, 리포펙타민(Lipofectamine) 또는 퓨젠(Fugene))을 사용하거나 전기천공에 의해 수행될 수 있다. 형질감염 후, 일관되고 높은 수준의 형질감염을 확인하기 위해 GFP의 발현은 형광 현미경 또는 유세포 분석 중 어느 하나에 의해 결정될 수 있다. 이러한 예비 형질감염은 가장 큰 활성을 제공하는 편집기 조합을 결정하기 위해 상이한 핵염기 편집기를 포함할 수 있다.
핵염기 편집기의 활성은 본 명세서에 기재된 바와 같이, 즉, 표적 서열의 변경을 검출하기 위해 표적 유전자를 시퀀싱(sequencing)함으로써 평가된다. 생어(Sanger) 시퀀싱의 경우, 정제된 PCR 앰플리콘은 플라스미드 백본으로 복제되고, 단일 프라이머로 형질전환되고, 미니프렙화되며(miniprepped) 및 시퀀싱된다. 시퀀싱은 또한 차세대 시퀀싱 기술을 사용하여 수행될 수 있다. 차세대 시퀀싱을 사용할 때, 앰플리콘은 의도된 절단 부위가 비대칭으로 배치된 300-500 bp일 수 있다. PCR 후, 예를 들어, (예를 들어, Illumina MiSeq 상에서) 고 처리량 시퀀싱에 사용하기 위한, 차세대 시퀀싱 어댑터 및 바코드(예를 들어, Illumina 멀티플렉스 어댑터 및 인덱스)를 앰플리콘의 말단에 추가할 수 있다.
초기 시험에서 가장 높은 수준의 표적 특이적 변경을 유도하는 융합 단백질은 추가 평가를 위해 선택될 수 있다.
특정 실시형태에서, 핵염기 편집기는 관심있는 폴리뉴클레오티드를 표적으로 하기 위해 사용된다. 한 실시형태에서, 본 발명의 핵염기 편집기는 핵산 서열, 예를 들어, SERPINA1 폴리뉴클레오티드 내포(harboring) AIAD-관련 돌연변이를 표적화하는 데 사용되는 가이드 RNA와 연계하여 세포(예를 들어, 간 세포)에 전달되며, 그로 인해 표적 유전자, 즉 SERPINA1를 변경시킨다.
일부 실시형태에서, 염기 편집기는 관심있는 유전자의 서열에 하나 이상의 편집을 도입하기 위해 가이드 RNA에 의해 표적화된다. 일부 실시형태에서, SERPINA1 또는 SERPINC1 유전자 내로 도입된 하나 이상의 변경은 하기(infra) 표 3A 및 표 3B에 제시된 것과 같다.
의도된 돌연변이 생성
일부 실시형태에서, 본 명세서에 제공된 방법의 목적은 유전자 편집을 통해 기능장애(dysfunctional) 유전자의 기능을 회복시키는 것이다. 일부 실시형태에서, 기능 장애 유전자의 기능은 의도된 돌연변이를 도입함으로써 회복된다. 본 명세서에서 제공되는 핵염기 편집 단백질은, 예를 들어, 인간 세포 배양에서 질병 연관 돌연변이를 교정함으로써, 시험관내에서 유전자 편집-기반 인간 치료제에 대해 검증될 수 있다. 당업자는 본 명세서에 제공된 핵염기 편집 단백질, 예를 들어, 폴리뉴클레오티드 프로그래밍가능한 뉴클레오티드 결합 도메인(예를 들어, Cas9) 및 핵염기 편집 도메인(예를 들어, 아데노신 데아미나제 도메인 또는 시티딘 데아미나제 도메인)을 포함하는 융합 단백질이 단일 지점 A에서 G로 또는 C에서 T로의 돌연변이를 교정하는 데 사용할 수 있음을 이해할 것이다. 첫 번째 경우, 돌연변이체 A에서 I로의 탈아미노화는 돌연변이를 교정하고, 후자의 경우, 돌연변이체 T와 염기쌍을 이루는 A의 탈아미노화와, 후속하여 복제 라운드가, 돌연변이를 교정한다.
일부 실시형태에서, 본 개시는, 상당한 수의 비의도된 돌연변이, 예컨대, 비의도된 점 돌연변이를 생성함이 없이 핵산(예를 들어, 대상체의 게놈 내의 핵산)에서, 의도된 돌연변이, 예컨대, 점 돌연변이를 효율적으로 생성할 수 있는 염기 편집기를 제공한다. 일부 실시형태에서, 의도된 돌연변이는 의도된 돌연변이를 생성하도록 특별히 설계된 가이드 폴리뉴클레오티드(예를 들어, gRNA)에 결합된 특정 염기 편집기(예를 들어, 시티딘 염기 편집기 또는 아데노신 염기 편집기)에 의해 생성되는 돌연변이이다. 일부 실시형태에서, 의도된 돌연변이는 질병 또는 장애와 관련된 돌연변이이다. 일부 실시형태에서, 의도된 돌연변이는 질병 또는 장애와 관련된 아데닌(A)에서 구아닌(G)으로의 점 돌연변이이다. 일부 실시형태에서, 의도된 돌연변이는 질환 또는 장애와 관련된 시토신(C)에서 티민(T)으로의 점 돌연변이이다. 일부 실시형태에서, 의도된 돌연변이는 유전자의 코딩 영역 또는 비-코딩 영역 내의 아데닌(A)에서 구아닌(G)으로의 점 돌연변이이다. 일부 실시형태에서, 의도된 돌연변이는 유전자의 코딩 영역 또는 비-코딩 영역 내의 시토신(C)에서 티민(T)으로의 점 돌연변이이다. 일부 실시형태에서, 의도된 돌연변이는 정지 코돈, 예를 들어, 유전자의 코딩 영역 내의 조기 정지 코돈을 생성하는 점 돌연변이이다. 일부 실시형태에서, 의도된 돌연변이는 정지 코돈을 제거하는 돌연변이이다.
일부 실시형태에서, 본 명세서에 제공된 임의의 염기 편집기는 1:1을 초과하는 의도된 돌연변이 대 비의도된 돌연변이(예를 들어, 의도된 점 돌연변이:비의도된 점 돌연변이)의 비율을 생성할 수 있다. 일부 실시형태에서, 임의의 본 명세서에 제공된 염기 편집기는 적어도 1.5:1, 적어도 2:1, 적어도 2.5:1, 적어도 3:1, 적어도 3.5:1, 적어도 4:1, 적어도 4.5:1, 적어도 5:1, 적어도 5.5:1, 적어도 6:1, 적어도 6.5:1, 적어도 7:1, 적어도 7.5:1, 적어도 8:1, 적어도 10:1, 적어도 12:1, 적어도 15:1, 적어도 20:1, 적어도 25:1, 적어도 30:1 , 적어도 40:1, 적어도 50:1, 적어도 100:1, 적어도 150:1, 적어도 200:1, 적어도 250:1, 적어도 500:1, 또는 적어도 1000:1, 또는 그 이상인 의도된 돌연변이 대 비의도된 돌연변이(예를 들어, 의도된 점 돌연변이:비의도된 점 돌연변이)의 비율을 생성할 수 있다.
염기 편집기 효율에 대한 상세 내용은, 각각이 전문으로 본 명세서에 참조로 포함되는, PCT 국제출원 번호 PCT/2017/045381(WO2018/027078) 및 PCT/US2016/058344(WO2017/070632)에 설명되어 있다. 또한, 이의 전체 내용이 본 명세서에 참조로 포함되는, 다음 문헌 참조: Komor, A.C., et al., "Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage" Nature 533, 420-424 (2016); Gaudelli, N.M., et al., "Programmable base editing of A·T to G·C in genomic DNA without DNA cleavage" Nature 551, 464-471 (2017); 및 Komor, A.C., et al., "Improved base excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity" Science Advances 3:eaao4774 (2017).
일부 실시형태에서, 하나 이상의 유전자 내의 복수의 핵염기쌍의 편집은 적어도 하나의 의도된 돌연변이를 초래한다. 일부 실시형태에서, 적어도 하나의 의도된 돌연변이의 형성은 질병 유발 돌연변이의 정밀 교정을 초래한다. 본 명세서에 설명된 것과 같은 염기 편집기의 다중 편집의 특징은 본 명세서에 제공된 염기 편집기를 이용하는 방법의 임의의 조합에 적용될 수 있음을 이해해야 한다.
병원성 돌연변이의 정밀 교정
일부 실시형태에서, 의도된 돌연변이는 질병 또는 병리(pathology)와 관련된 유전자 내의 병원성 돌연변이 또는 질병-유발 돌연변이의 정밀 교정이다. 병원성 돌연변이는 병원성 단일 뉴클레오티드 다형성(SNP)일 수 있거나, 또는 SNP에 의해 유발될 수 있다. 예를 들어, 병원성 돌연변이는 유전자에 의해 코딩된 단백질 내의 아미노산 변화일 수 있다. 또 다른 예에서, 병원성 돌연변이는 유전자 내의 병원성 SNP일 수 있다. 정밀 교정은 병원성 돌연변이를 이의 야생형 상태로 되돌려 복귀시킬 수 있다. 일부 실시형태에서, 병원성 돌연변이는 질병 또는 장애와 관련된 G → A 점 돌연변이이고, 여기서 A-에서-G 염기 편집기(ABE)를 이용한 돌연변이체 A 염기의 탈아미노화는 질병 또는 장애와 관련되지 않은 서열을 초래한다. 일부 실시형태에서, 병원성 돌연변이는 C → T 점 돌연변이이다. C → T 점 돌연변이는, 예를 들어, A-에서-G 염기 편집기(ABE)를 반대 가닥으로 표적화하고 병원성 T 핵염기의 상보체(complement) A를 편집함으로써 교정될 수 있다. 일부 실시형태에서, 병원성 돌연변이는 질병 또는 장애와 관련된 T → C 점 돌연변이이고, 여기서 C-에서-T 염기 편집기(BE 또는 CBE)를 이용한 돌연변이 C 염기의 탈아미노화는 질병 또는 장애와 관련되지 않은 서열을 초래한다. 일부 실시형태에서, 병원성 돌연변이는 A → G 점 돌연변이이다. A → G 점 돌연변이는, 예를 들어, CBE를 반대 가닥으로 표적화하고 병원성 G 핵염기의 상보체 C를 편집함으로써 교정될 수 있다. 병원성 돌연변이 또는 질병-유발 돌연변이의 비제한적인 예는, 병원성 돌연변이를 이의 야생형 상태로 되돌리는 편집에 의해 돌연변이를 교정하는 데 사용할 수 있는 염기 편집기와 함께, 본 명세서의 표 3A 및 3B에 열거되어 있다. 제시된 염기 편집기는 병원성 SNP에, 또는 병원성 SNP의 상보체에 표적화될 수 있다. 돌연변이 또는 기타 서열 변이에 대한 명명법, 설명은, 이의 전체 내용이 본 명세서에 참조로 포함되는, 문헌[den Dunnen, J.T. and Antonarakis, S.E., "Mutation Nomenclature Extensions and Suggestions to Describe Complex Mutations: A Discussion." Human Mutation 15:712 (2000)]에 기재되어 있다.
표 3A :
SERPINA1
또는
SERPINC1
유전자에서 병원성 돌연변이의 정밀 교정
표 3B: 질병-관련 유전자의 병원성
돌연변이에 대한 정밀 교정
일부 실시형태에서, 질병 또는 장애는 알파-1 항트립신 결핍(A1AD)이다. 일부 실시형태에서, 병원성 돌연변이는 A1AT 단백질을 코딩하는 SERPINA1 유전자에 있다. 일부 실시형태에서, SERPINA1-코딩된 A1AT 단백질의 돌연변이는 E342K(PiZ 대립유전자)이다(도 3a). 일부 실시형태에서, SERPINA1 대립유전자의 위치 7에서 핵염기 "A"는 PiZ 대립유전자를 야생형 대립 유전자로 복원하기 위해 "G"로 편집된다. (도 3b 및 3c).
전달 시스템
본 명세서에 개시된 염기 편집기는 바이러스 벡터에 함유된 핵산 상에서 코딩될 수 있다. 바이러스 벡터에는 렌티바이러스, 아데노바이러스, 레트로바이러스, 및 아데노-관련 바이러스(AAV)가 포함될 수 있다. 애플리케이션에 따라 바이러스 벡터를 선택할 수 있다. 예를 들어, AAV는 약한 면역원성으로 인해 생체내에서 유전자 전달에 일반적으로 사용된다. 아데노바이러스는 이들이 유도하는 강한 면역원성 반응 때문에 일반적으로 백신으로 사용된다. 바이러스 벡터의 패키징 용량은 벡터에 패키징될 수 있는 염기 편집기의 크기를 제한할 수 있다. 예를 들어, AAV의 패키징 용량은 2개의 145개 염기 반전 말단 반복부(ITR; inverted terminal repeats)를 포함하여 ~4.5kb이다.
AAV는 파보 바이러스 패밀리에 속하는 작은 단일-가닥 DNA 의존성 바이러스이다. ~4.7 kb의 야생형(wt) AAV 게놈은, 각각, 4개의 복제 단백질과 3개의 캡시드 단백질을 코딩하는 2개의 유전자로 구성되며, 각 측부 상에 145-bp 반전 말단 반복부(ITR)가 측접하고 있다. 비리온은 동일한 오픈 리딩 프레임에서, 그러나 차등 스플라이싱(Vp1) 및 대체 번역 시작 부위(각각, Vp2 및 Vp3)에서 1:1:10 비율로 생성되는, 세가지 캡시드 단백질인 Vp1, Vp2 및 Vp3로 구성된다. Vp3는 비리온에서 가장 풍부한 서브유닛이며 바이러스의 향성(tropism)을 정의하는 세포 표면에서의 수용체 인식에 참여한다. 바이러스 감염성에서 기능하는, 포스포리파제 도메인은 Vp1의 고유한 N 말단에서 확인되었다.
야생형(wt) AAV와 유사하게, 재조합 AAV(rAAV)는 시스(cis)-작용 145-bp ITR을 이용하여 벡터 도입유전자(transgene) 카세트를 측접시켜, 외래 DNA의 패키징을 위해 최대 4.5kb를 제공한다. 감염에 뒤이어, rAAV는 본 발명의 융합 단백질을 발현할 수 있고 원형 머리-꼬리(head-to-tail) 콘카티머(concatemers)에 에피솜으로 존재함으로써 숙주 게놈으로 통합되지 않고 지속될 수 있다. 시험관내 및 생체내에서, 이 시스템을 이용하는 rAAV 성공에 관한 다수의 예가 존재하지만, 제한된 패키징 용량은, 유전자의 코딩 서열의 길이가 wt AAV 게놈 크기와 같거나 클 때, AAV-매개 유전자 전달의 사용을 제한시켰다.
AAV 벡터의 작은 패키징 용량은 이 크기를 초과하는 많은 유전자의 전달 및/또는 큰 생리적 조절 요소의 사용을 어렵게 만든다. 이러한 문제는, 예를 들어, 전달될 단백질(들)을 2개 이상의 단편으로 분할하여 해결할 수 있으며, 여기서 N-말단 단편은 분할된 인테인-N에 융합되고 C-말단 단편은 분할된 인테인-C에 융합된다. 이러한 단편은 두 개 이상의 AAV 벡터로 패키징된다. 본 명세서에 사용된 "인테인"은 양상 N-말단 및 C-말단 엑스테인(예를 들어, 결합될 단편)을 결찰하는 자가-스플라이싱 단백질 인트론(예를 들어, 펩티드)을 지칭한다. 이종 단백질 단편을 연결하기 위한 특정 인테인의 사용은, 예를 들어, 문헌[Wood et al., J. Biol. Chem. 289(21); 14512-9 (2014)]에 기재되어 있다. 예를 들어, 분리된 단백질 단편에 융합될 때, 인테인 IntN 및 IntC는 서로를 인식하고, 스스로 스플라이스하며, 이들이 융합된 단백질 단편의 측접 N- 및 C-말단 엑스테인을 동시에 결찰시켜, 그로 인해 두 단백질 단편으로부터 전체-길이를 재구성한다. 다른 적합한 인테인은 당업자에게 명백할 것이다.
본 발명의 융합 단백질의 단편은 길이가 다양할 수 있다. 일부 실시형태에서, 단백질 단편은 길이가 2개 아미노산 내지 약 1000개 아미노산 범위이다. 일부 실시형태에서, 단백질 단편은 길이가 약 5개 아미노산 내지 약 500개 아미노산 범위이다. 일부 실시형태에서, 단백질 단편은 길이가 약 20개 아미노산 내지 약 200개 아미노산 범위이다. 일부 실시형태에서, 단백질 단편은 길이가 약 10개 아미노산 내지 약 100개 아미노산 범위이다. 다른 길이의 적합한 단백질 단편은 당업자에게 명백 할 것이다.
일부 실시형태에서, 뉴클레아제(예를 들어, Cas9)의 일부 또는 단편은 인테인에 융합된다. 뉴클레아제는 인테인의 N- 말단 또는 C-말단에 융합될 수 있다. 일부 실시형태에서, 융합 단백질의 일부 또는 단편은 인테인에 융합되고 AAV 캡시드 단백질에 융합된다. 인테인, 뉴클레아제 및 캡시드 단백질은 임의의 배열(예를 들어, 뉴클레아제-인테인-캡시드, 인테인-뉴클레아제-캡시드, 캡시드-인테인-뉴클레아제 등)으로 함께 융합될 수 있다. 일부 실시형태에서, 인테인의 N-말단은 융합 단백질의 C-말단에 융합되고 인테인의 C-말단은 AAV 캡시드 단백질의 N-말단에 융합된다.
일 실시형태에서, 이중 AAV 벡터는 거대 도입유전자 발현 카세트를 2개의 분리된 절반(5' 및 3' 말단, 또는 머리와 꼬리)으로 분할함으로써 생성되며, 카세트의 각 절반은 (< 5kb의) 단일 AAV 벡터에 패키징된다. 전체-길이 도입유전자 발현 카세트의 재조립은 두 개의 이중 AAV 벡터에 의해 동일한 세포를 공동-감염시, 후속하여 하기에 의해 달성된다:(1) 5'와 3' 게놈 사이의 상동 재조합(HR)(이중 AAV 중첩 벡터); (2) 5' 및 3' 게놈의 ITR-매개 꼬리-머리 콘카티머형성(이중 AAV 트랜스-스플라이싱 벡터); 또는 (3) 이들 두 메커니즘의 조합(이중 AAV 하이브리드 벡터). 생체내에서 이중 AAV 벡터의 사용은 전체-길이 단백질을 초래한다. 이중 AAV 벡터 플랫폼의 사용은 크기가 >4.7kb인 도입유전자에 대한 효율적이고 실행가능한 유전자 전달 전략을 제시한다.
염기 편집기를 설계하기 위한 개시된 전략은 바이러스 벡터로 패키징될 수 있는 염기 편집기를 생성하는 데 유용할 수 있다. 염기 편집기의 전달을 위한 RNA 또는 DNA 바이러스 기반 시스템의 사용은 바이러스를 배양 또는 숙주의 특정 세포로 표적화하고 바이러스 페이로드를 핵 또는 숙주 세포 게놈으로 트래피킹하는 고도로 진화된 프로세스를 활용한다. 바이러스 벡터는 배양물 중의 세포, 환자(생체내)에 직접 투여될 수 있거나, 시험관내 세포 치료에 사용될 수 있으며, 상기 변형된 세포는 임의로, 환자에게(생체외) 투여될 수 있다. 통상적인 바이러스 기반 시스템에는 유전자 전달을 위한 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-관련 및 단순헤르페스바이러스 벡터가 포함될 수 있다. 숙주 게놈에의 통합은 레트로바이러스, 렌티바이러스, 및 아데노-관련 바이러스 유전자 전달 방법으로 가능하며, 종종 삽입된 도입유전자의 장기간 발현을 초래한다. 또한, 많은 다른 세포 유형 및 표적 조직에서 높은 형질도입 효율이 관찰되었다.
레트로바이러스의 향성은 외래 외피 단백질을 통합함으로써 변경될 수 있으며, 표적 세포의 잠재적인 표적 집단을 확장시킬 수 있다. 렌티바이러스 벡터는 비 분열 세포를 형질도입하거나 감염시킬 수 있고, 일반적으로 높은 바이러스 역가를 생성할 수 있는 레트로바이러스 벡터이다. 따라서 레트로바이러스 유전자 전달 시스템의 선택은 표적 조직에 따라 달라진다. 레트로바이러스 벡터는 최대 6-10kb의 외래 서열에 대한 패키징 용량을 가진 시스-작용 긴 말단 반복부로 구성된다. 최소 시스-작용 LTR은 벡터의 복제 및 패키징에 충분하며, 이는 영구적인 도입유전자 발현을 제공하기 위해 치료 유전자를 표적 세포에 통합하는 데 사용된다. 널리 사용되는 레트로바이러스 벡터에는 뮤린 백혈병 바이러스(MuLV), 긴팔 원숭이 백혈병 바이러스(GaLV), 시미안 면역결핍 바이러스(SIV), 인간 면역 결핍 바이러스(HIV), 및 이들의 조합에 기반한 것들이 포함된다(예를 들어, 다음 문헌 참조: Buchscher et al., J. Virol. 66:2731-2739 (1992); Johann et al., J. Virol. 66:1635-1640 (1992); Sommnerfelt et al., Virol. 176:58-59 (1990); Wilson et al., J. Virol. 63:2374-2378 (1989); Miller et al., J. Virol. 65:2220-2224 (1991); PCT/US94/05700).
레트로바이러스 벡터, 특히 렌티바이러스 벡터는, 표적 세포로의 효율적인 통합을 위해 주어진 길이보다 작은 폴리뉴클레오티드 서열을 필요로 할 수 있다. 예를 들어, 길이가 9kb보다 큰 레트로 바이러스 벡터는 더 작은 크기에 비해 바이러스 역가가 낮을 수 있다. 일부 양상에서, 본 개시의 염기 편집기는 레트로 바이러스 벡터를 통해 표적 세포로의 효율적인 패키징 및 전달을 가능하게하기에 충분한 크기이다. 일부 경우에, 염기 편집기는 가이드 핵산 및/또는 표적가능한 뉴클레아제 시스템의 다른 구성요소와 함께 발현되는 경우에도 효율적인 패킹 및 전달을 허용할 수 있는 크기이다.
일시적인 발현이 선호되는 응용에서, 아데노바이러스 기반 시스템이 사용될 수 있다. 아데노바이러스 기반 벡터는 많은 세포 유형에서 매우 높은 형질도입 효율이 가능하며 세포 분열을 필요로 하지 않는다. 이러한 벡터로 높은 역가 및 발현 수준이 획득되었다. 이 벡터는 비교적 간단한 시스템에서 대량으로 생성될 수 있다. 아데노-관련 바이러스("AAV") 벡터는 또한, 예를 들어, 핵산 및 펩티드의 시험관내(in vitro) 생산에서, 그리고 생체내(in vivo) 및 생체외(ex vivo) 유전자 치료 절차에서 표적 핵산으로 세포를 형질도입하는 데 사용될 수 있다(예를 들어, 다음 문헌 참조: West et al., Virology 160:38-47 (1987); 미국 특허 제4,797,368호; WO 93/24641; Kotin, Human Gene Therapy 5:793-801 (1994); Muzyczka, J. Clin. Invest. 94:1351 (1994)). 재조합 AAV 벡터의 구성은, 다음 문헌을 포함하는, 다수의 간행물에 기재되어 있다: 미국 특허 제5,173,414호; Tratschin et al., Mol. Cell. Biol. 5:3251-3260 (1985); Tratschin, et al., Mol. Cell. Biol. 4:2072-2081 (1984); Hermonat & Muzyczka, PNAS 81:6466-6470 (1984); 및 Samulski et al., J. Virol. 63:03822-3828 (1989).
따라서, 본 명세서에 기재된 염기 편집기는 바이러스 벡터와 함께 전달될 수 있다. 염기 편집기 시스템의 하나 이상의 구성요소는 하나 이상의 바이러스 벡터에서 코딩될 수 있다. 예를 들어, 염기 편집기 및 가이드 핵산은 단일 바이러스 벡터에서 코딩될 수 있다. 다른 경우에, 염기 편집기와 가이드 핵산이 서로 다른 바이러스 벡터에서 코딩된다. 두 경우 모두에, 염기 편집기 및 가이드 핵산은 각각 프로모터 및 종결인자(terminator)에 작동가능하게 연결될 수 있다.
바이러스 벡터에 코딩된 구성요소의 조합은 선택된 바이러스 벡터의 카고(cargo) 크기 제약에 의해 결정될 수 있다.
염기 편집기의 비-바이러스 전달
염기 편집기를 위한 비-바이러스 전달 방식도 이용할 수 있다. 비-바이러스 핵산 벡터의 중요한 범주 중 하나는 유기성 또는 무기성일 수 있는 나노 입자이다. 나노 입자는 당업계에 잘 알려져 있다. 게놈 편집 시스템 구성요소 또는 이러한 구성요소를 코딩하는 핵산을 전달하는 데 적합한 나노 입자 디자인을 이용할 수 있다. 예를 들어, 유기(예를 들어, 지질 및/또는 중합체) 나노 입자는 본 개시의 특정 실시형태에서 전달 비히클로서 사용하기에 적합할 수 있다. 나노 입자 제형 및/또는 유전자 전달에 사용하기 위한 예시적인 지질은 표 4(아래)에 제시되어 있다.
표 4
표 5는 유전자 전달 및/또는 나노 입자 제형에 사용하기 위한 예시적인 중합체를 열거한다.
표 5
표 6은 본 명세서에 기재된 융합 단백질을 코딩하는 폴리뉴클레오티드의 전달 방법을 요약한다.
표 6
또 다른 양상에서, 게놈 편집 시스템 구성요소 또는 이러한 구성요소를 코딩하는 핵산, 예를 들어, Cas9 또는 이의 변이체와 같은 핵산 결합 단백질, 및 관심있는 게놈 핵산 서열을 표적으로 하는 gRNA의 전달은 세포에 리보핵단백질(RNP)을 전달함으로써 달성될 수 있다. RNP는 표적화 gRNA와의 복합체로, 핵산 결합 단백질, 예를 들어, Cas9를 포함한다. RNP는 전기천공, 뉴클레오펙션(nucleofection), 또는 예를 들어, 문헌[Zuris, J.A. et al., 2015, Nat. Biotechnology, 33(1):73-80]에 보고된 것과 같은, 양이온성 지질-매개 방법과 같은, 공지된 방법을 사용하여 세포에 전달될 수 있다. RNP는 CRISPR 염기 편집 시스템, 특히 1차 세포와 같이, 형질감염이 어려운 세포에 사용하기에 유리하다. 또한, RNP는 특히 CRISPR 플라스미드에 사용될 수 있는, CMV 또는 EF1A와 같은, 진핵 프로모터가 잘 발현되지 않을 때, 세포에서 단백질 발현으로 발생할 수 있는 어려움을 완화할 수 있다. 유리하게는, RNP의 사용은 외래 DNA의 세포로의 전달을 필요로 하지 않는다. 더욱이, 핵산 결합 단백질과 gRNA 복합체를 포함하는 RNP는 시간이 지남에 따라 분해되기 때문에, RNP의 사용은 표적-이탈 효과를 제한할 가능성이 있다. 플라스미드 기반 기술과 유사한 방식으로, RNP를 사용하여 결합 단백질(예를 들어, Cas9 변이체)을 전달하고 상동성 직접 복구(HDR)를 유도할 수 있다.
핵산 분자 발현을 코딩하는 염기 편집기를 구동하는 데 사용되는 프로모터는 AAV ITR을 포함할 수 있다. 이는, 벡터에서 공간을 차지할 수 있는, 추가 프로모터 요소의 필요성을 제거하는 데 유리할 수 있다. 비워진 추가 공간은 가이드 핵산 또는 선택가능한 마커와 같은 추가 요소의 발현을 유도하는 데 사용될 수 있다. ITR 활성은 상대적으로 약하기 때문에, 선택된 뉴클레아제의 과발현으로 인한 잠재적 독성을 줄이는 데 사용할 수 있다.
임의의 적합한 프로모터를 사용하여 염기 편집기 및 적절한 경우 가이드 핵산의 발현을 유도할 수 있다. 편재성 발현의 경우, 사용할 수 있는 프로모터로는 CMV, CAG, CBh, PGK, SV40, 페리틴(Ferritin) 중쇄 또는 경쇄 등을 포함한다. 뇌 또는 기타 CNS 세포 발현의 경우, 적합한 프로모터로는 다음을 포함할 수 있다: 모든 뉴런에 대한 시냅신(Synapsin)I, 흥분성 뉴런에 대한 CaMKII알파, GABA성(GABAergic) 뉴런에 대한 GAD67 또는 GAD65 또는 VGAT 등. 간 세포 발현의 경우, 적합한 프로모터로는 알부민 프로모터를 포함한다. 폐 세포 발현을 위해 적합한 프로모터로는 SP-B를 포함할 수 있다. 내피 세포의 경우, 적합한 프로모터로는 ICAM을 포함할 수 있다. 조혈 세포의 경우, 적합한 프로모터로는 IFN 베타 또는 CD45를 포함할 수 있다. 조골 세포의 경우, 적합한 프로모터로는 OG-2를 포함할 수 있다.
일부 경우에, 본 개시의 염기 편집기는 별도의 프로모터가 동일한 핵산 분자 내에서 염기 편집기 및 호환가능한 가이드 핵산의 발현을 유도할 수 있을 정도로 충분히 작은 크기이다. 예를 들어, 벡터 또는 바이러스 벡터는 염기 편집기를 코딩하는 핵산에 작동가능하게 연결된 제1 프로모터 및 가이드 핵산에 작동가능하게 연결된 제2 프로모터를 포함할 수 있다.
가이드 핵산의 발현을 유도하는 데 사용되는 프로모터는 다음을 포함할 수 있다: U6 또는 H1과 같은 Pol III 프로모터 Pol II 프로모터 및 인트론 카세트를 사용하여 gRNA 아데노-관련 바이러스(AAV)를 발현.
하나 이상의 가이드 핵산을 포함하거나 포함하지 않는 본 명세서에 기재된 염기 편집기는 아데노-관련 바이러스(AAV), 렌티바이러스, 아데노바이러스 또는 기타 플라스미드 또는 바이러스 벡터 유형을 사용하여, 특히, 예를 들어, 미국 특허 제8,454,972호(아데노바이러스에 대한 제형, 용량), 미국 특허 제8,404,658호(AAV에 대한 제형, 용량) 및 미국 특허 제5,846,946호(DNA 플라스미드에 대한 제형, 용량) 및 렌티 바이러스, AAV 및 아데노바이러스 관련 임상 시험과 관련된 임상 시험 및 간행물로부터의 제형 및 용량을 사용하여 전달될 수 있다. 예를 들어, AAV의 경우, 투여 경로, 제형 및 용량은 미국 특허 제8,454,972호 및 AAV를 포함하는 임상 시험에서와 같을 수 있다. 아데노 바이러스의 경우, 투여 경로, 제형 및 용량은 미국 특허 제8,404,658호 및 아데노 바이러스를 포함하는 임상 시험에서와 같을 수 있다. 플라스미드 전달의 경우, 투여 경로, 제형 및 용량은 미국 특허 제5,846,946호 및 플라스미드를 포함하는 임상 연구에서와 같을 수 있다. 용량은 평균 70kg 개체(예를 들어, 성인 남성)를 기준으로 하거나 외삽할 수 있으며, 체중과 종이 다른 환자, 대상체, 포유동물에 맞게 조정할 수 있다. 투여 빈도는 연령, 성별, 일반적인 건강 상태, 환자 또는 대상체의 기타 상태 및 해결되는 특정 상태 또는 증상을 포함한 일반적인 요인에 따라 의료 또는 수의 시술자(예를 들어, 의사, 수의사)의 영역 내에 있다. 바이러스 벡터는 관심 조직에 주입될 수 있다. 세포 유형 특이적 염기 편집의 경우, 염기 편집기 및 선택적 가이드 핵산의 발현은 세포 유형 특이 적 프로모터에 의해 구동될 수 있다.
생체내(in vivo) 전달의 경우, AAV는 다른 바이러스 벡터보다 유리할 수 있다. 경우에 따라, AAV는 낮은 독성을 허용하는데, 이는 면역 반응을 활성화할 수 있는 세포 입자의 초원심 분리를 필요로 하지 않는 정제 방법 때문일 수 있다. 일부 경우에, AAV는 숙주 게놈에 통합되지 않기 때문에, 삽입 돌연변이생성을 유발할 가능성이 낮다.
AAV는 4.5 또는 4.75 Kb의 패키징 한계를 가지고 있다. 이는 공개된 염기 편집기뿐만 아니라 프로모터 및 전사 종결자가 단일 바이러스 벡터에 들어갈 수 있음을 의미한다. 4.5 또는 4.75 Kb보다 큰 구축물은 바이러스 생산을 크게 감소시킬 수 있다. 예를 들어, SpCas9는 상당히 크고 유전자 자체가 4.1Kb 이상이므로 AAV로 패킹하기가 어렵다. 따라서, 본 개시의 실시형태는 종래의 염기 편집기보다 길이가 더 짧은 개시된 염기 편집기를 이용하는 것을 포함한다. 일부 실시형태에서, 염기 편집기는 4kb 이하이다. 개시된 염기 편집기는 4.5kb, 4.4kb, 4.3kb, 4.2kb, 4.1kb, 4kb, 3.9kb, 3.8kb, 3.7kb, 3.6kb, 3.5kb, 3.4kb, 3.3kb, 3.2kb, 3.1kb, 3kb, 2.9kb, 2.8kb, 2.7kb, 2.6kb, 2.5kb, 2kb, 또는 1.5kb 이하일 수 있다. 일부 경우에, 개시된 염기 편집기의 길이는 4.5kb 이하이다.
AAV는 AAV1, AAV2, AAV5, 또는 이들의 임의의 조합일 수 있다. 표적화할 세포와 관련하여 AAV 유형을 선택할 수 있다. 예를 들어, 뇌 또는 신경 세포를 표적화하기 위해 AAV 혈청형 1, 2, 5 또는 하이브리드 캡시드 AAV1, AAV2, AAV5 또는 이들의 임의의 조합을 선택할 수 있으며; 심장 조직을 표적으로하기 위해 AAV4를 선택할 수 있다. AAV8은 간으로의 전달에 유용하다. 이들 세포에 대한 특정 AAV 혈청형의 표목록(tabulation)은 문헌[Grimm, D. et al., J. Virol. 82: 5887-5911 (2008)]에서 찾을 수 있다.
렌티바이러스는 유사 분열 및 유사 분열 후 세포 모두에서 자신의 유전자를 감염시키고 발현시키는 능력을 갖는 복합 레트로바이러스이다. 가장 일반적으로 알려진 렌티바이러스는 인간 면역 결핍 바이러스(HIV)로, 다른 바이러스의 외피 당단백질을 사용하여 광범위한 세포 유형을 표적으로 삼는다.
렌티바이러스는 다음과 같이 제조할 수 있다. pCasES10(렌티바이러스 전달 플라스미드 백본 포함)을 클로닝한 후, 낮은 계대(p = 5)에서 HEK293FT를 형질감염 전날 50 % 컨플루언시(confluence)에서 항생제없이 10 % 소 태아 혈청과 함께 DMEM이 있는 T-75 플라스크에 시딩했다. 20시간 후, 배지를 OptiMEM(무 혈청) 배지로 변경하고 4 시간 후에 형질감염을 수행했다. 세포를 10 ㎍의 렌티바이러스 전달 플라스미드(pCasES10) 및 다음 패키징 플라스미드로 형질감염시켰다: 5 ㎍의 pMD2.G(VSV-g 유사형) 및 7.5 ㎍의 psPAX2(gag/pol/rev/tat). 형질감염은 양이온 성 지질 전달 작용제(50 ㎕ Lipofectamine 2000 및 100 ㎕ Plus 시약)를 사용하여 4 ㎖ OptiMEM에서 수행할 수 있다. 6시간 후, 배지를 10 % 소 태아 혈청을 함유한 항생제가 없는 DMEM으로 교체한다. 이러한 방법은 세포 배양 중에 혈청을 사용하지만, 무-혈청 방법이 선호된다.
렌티바이러스는 다음과 같이 정제할 수 있다. 바이러스성 상청액을 48시간 후 수확한다. 상청액을 먼저 이물질을 제거하고 0.45 ㎛ 저 단백질 결합(PVDF) 필터를 통해 여과시킨다. 그런 다음 24,000 rpm에서 2시간 동안 초원심 분리기에서 회전시킨다. 바이러스 펠렛을 4℃에서 밤새 50 ㎕의 DMEM에 재현탁시킨다. 그런 다음, 분취한 후 즉시 -80℃에서 냉동한다.
또 다른 실시형태에서, 말 감염성 빈혈 바이러스(EIAV)에 기초한 최소 비-영장류 렌티바이러스 벡터가 또한 고려된다. 다른 실시형태에서, RetinoStat.RTM., 혈관생성억제성(angiostatic) 단백질 엔도스타틴 및 안지오스타틴을 발현하는 말 감염성 빈혈 바이러스 기반 렌티바이러스 유전자 치료 벡터가 망막하 주사를 통해 전달되는 것으로 고려된다. 또 다른 실시형태에서,자가-비활성화 렌티바이러스 벡터의 사용이 고려된다.
시스템의 임의의 RNA, 예를 들어, 가이드 RNA 또는 염기 편집기-코딩 mRNA는 RNA 형태로 전달될 수 있다. 염기 편집기 코딩 mRNA는 시험관내 전사를 사용하여 생성될 수 있다. 예를 들어, 뉴클레아제 mRNA는 다음 요소를 함유하는 PCR 카세트를 사용하여 합성할 수 있다: T7 프로모터, 선택적 코작 서열(GCCACC), 뉴클레아제 서열 및 베타 글로빈-폴리A 테일의 3' UTR과 같은 3' UTR. 카세트는 T7 중합효소에 의한 전사에 사용될 수 있다. 가이드 폴리뉴클레오티드(예를 들어, gRNA)는 또한 T7 프로모터, 이어서 서열 "GG", 및 가이드 폴리뉴클레오티드 서열을 함유하는 카세트로부터의 시험관내 전사를 사용하여 전사될 수 있다.
발현을 향상시키고 있을 수 있는 독성을 감소시키기 위해, 염기 편집기-암호화 서열 및/또는 가이드 핵산은, 예를 들어, 슈도(pseudo)-U 또는 5-메틸-C를 사용하여, 하나 이상의 변형된 뉴클레오시드를 포함하도록 변형될 수 있다. 일부 실시형태에서, gRNA 분자는 첫 번째 및 마지막 3개의 염기에 대해 포스포로티오에이트 연결 및 2'O-Me 변형을 갖는다.
일부 실시형태에서, 본 개시는 세포 또는 유기체를 변형하는 방법을 이해한다. 세포는 원핵 세포 또는 진핵 세포일 수 있다. 세포는 포유류 세포일 수 있다. 포유류 세포는 인간이 아닌 영장류, 소, 돼지, 설치류, 또는 마우스 세포일 수 있다. 본 개시의 염기 편집기, 조성물 및 방법에 의해 세포에 도입된 변형은 세포 및 세포의 자손이 항체, 전분, 알코올 또는 기타 원하는 세포 산출물(output)과 같은 생물학적 생성물의 개선된 생산을 위해 변경되도록 할 수 있다. 본 개시의 방법에 의해 세포에 도입된 변형은 세포 및 세포의 자손이 생산된 생물학적 생성물을 변화시키는 변형을 포함하도록 할 수 있다.
시스템은 하나 이상의 상이한 벡터를 포함할 수 있다. 일 양상에서, 염기 편집기는 원하는 세포 유형, 우선적으로 진핵 세포, 바람직하게는 포유류 세포 또는 인간 세포의 발현을 위해 코돈 최적화된다.
일반적으로, 코돈 최적화는 천연 서열의 적어도 하나의 코돈(예를 들어, 약 1개, 2개, 3개, 4개, 5개, 10개, 15개, 20개, 25개, 50개, 또는 그 이상의 코돈)을 천연 아미노산 서열을 유지하면서 숙주 세포의 유전자에서 더 자주 또는 가장 빈번하게 사용되는 코돈으로 대체함으로써 관심 숙주 세포에서 발현을 향상시키기 위해 핵산 서열을 변형시키는 과정을 의미한다. 다양한 종은 특별한 아미노산의 특정 코돈에 대해 특별한 편향을 나타낸다. 코돈 편향(유기체 간 코돈 사용의 차이)은 종종 메신저 RNA(mRNA)의 번역 효율성과 관련이 있으며, 이는 결과적으로, 다른 무엇보다도, 번역되는 코돈의 특성 및 특정 전사 RNA(tRNA) 분자의 가용성에 의존하는 것으로 여겨진다. 세포에서 선택된 tRNA의 우세는 일반적으로 펩티드 합성에서 가장 빈번하게 사용되는 코돈의 반영이다. 따라서, 유전자는 코돈 최적화를 기반으로 주어진 유기체에서 최적의 유전자 발현을 위해 조정될 수 있다. 코돈 사용 테이블은, 예를 들어, www.kazusa.orjp/codon/(2002년 7월 9일 방문)에서 입수가능한 "코돈 사용 데이터베이스"에서 쉽게 사용할 수 있으며, 이러한 테이블은 여러 가지 방법으로 조정할 수 있다. 문헌[Nakamura, Y., et al. "Codon usage tabulated from the international DNA sequence databases: status for the year 2000" Nucl. Acids Res. 28:292 (2000)] 참조. Gene Forge(Aptagen; Jacobus, Pa.)와 같은, 특정 숙주 세포에서 발현을 위해 특정 서열을 최적화하는 코돈을 위한 컴퓨터 알고리즘도 또한 이용가능하다. 일부 실시형태에서, 조작된 뉴클레아제를 코딩하는 서열 내의 하나 이상의 코돈(예를 들어, 1개, 2개, 3개, 4개, 5개, 10개, 15개, 20개, 25개, 50개 또는 그 이상, 또는 모든 코돈)은 특정 아미노산에 대한 가장 빈번하게 사용되는 코돈에 상응한다.
패키징 세포는 전형적으로 숙주 세포를 감염시킬 수 있는 바이러스 입자를 형성하는 데 사용된다. 이러한 세포는 아데노바이러스를 포장하는, 293 세포와 레트로바이러스를 포장하는, psi.2 세포 또는 PA317 세포를 포함한다. 유전자 치료에 사용되는 바이러스 벡터는 일반적으로 핵산 벡터를 바이러스 입자로 패키징하는 세포주를 생성하여 생성된다. 벡터는 전형적으로 패키징 및 숙주로의 후속 통합에 필요한 최소 바이러스 서열을 포함하고, 다른 바이러스 서열은 발현될 폴리뉴클레오티드(들)에 대한 발현 카세트로 대체된다. 누락된 바이러스 기능은 일반적으로 패키징 세포주에 의해 트랜스(trans)로 공급된다. 예를 들어, 유전자 치료에 사용되는 AAV 벡터는 일반적으로 숙주 게놈으로의 패키징 및 통합에 필요한 AAV 게놈의 ITR 서열만 보유한다. 바이러스 DNA는 다른 AAV 유전자, 즉 rep 및 cap을 코딩하지만, ITR 서열이 없는 헬퍼 플라스미드를 함유하는, 세포주에 패키징될 수 있다. 세포주는 헬퍼로서 아데노바이러스로 감염될 수도 있다. 헬퍼 바이러스는 헬퍼 플라스미드로부터 AAV 벡터의 복제 및 AAV 유전자의 발현을 촉진할 수 있다. 일부 경우에, 헬퍼 플라스미드는 ITR 서열의 결여로 인해 상당한 양으로 패키징되지 않는다. 예를 들어, AAV보다 더 민감한 아데노바이러스에 대한 열처리에 의해, 아데노바이러스로의 오염을 감소시킬 수 있다.
약제학적 조성물
본 개시의 다른 양상은 본 명세서에 기재된 임의의 염기 편집기, 융합 단백질, 또는 융합 단백질-가이드 폴리뉴클레오티드 복합체를 포함하는 약제학적 조성물에 관한 것이다. 본 명세서에 사용된, 용어 "약제학적 조성물"은 약제학적 용도로 제형화된 조성물을 지칭한다. 일부 실시형태에서, 약제학적 조성물은 약제학적으로 허용가능한 담체를 추가로 포함한다. 일부 실시형태에서, 약제학적 조성물은 (예를 들어, 특이적 전달, 반감기 증가, 또는 다른 치료 화합물을 위한) 추가 작용제를 포함한다.
본 명세서에 사용된, 용어 "약제학적으로 허용가능한 담체"는 약제학적으로 허용가능한 물질, 조성물 또는 비히클, 예컨대 액체 또는 고체 충전제, 희석제, 부형제, 제조 보조제(예를 들어, 윤활제, 활석 마그네슘, 칼슘 또는 징크 스테아레이트, 또는 스테르산), 또는 화합물을 신체의 한 부위(예를 들어, 전달 부위)로부터 다른 부위(예를 들어, 기관, 조직 또는 신체의 일부)로 운반 또는 수송하는 데 관여하는, 용매 캡슐화 물질을 의미한다. 약제학적으로 허용가능한 담체는 제형의 다른 성분과 양립할 수 있고 대상체의 조직에 해를 끼치지 않는다는 의미에서 "허용가능"하다(예를 들어, 생리학적으로 양립가능, 멸균, 생리학적 pH 등).
약제학적으로 허용가능한 담체로 작용할 수 있는 물질의 일부 비제한적인 예는 다음을 포함한다: (1) 락토스, 글루코스 및 수크로스와 같은 당; (2) 옥수수 전분 및 감자 전분과 같은 전분; (3) 셀룰로오스 및 그 유도체, 예컨대 나트륨 카복시 메틸셀룰로오스, 메틸셀룰로오스, 에틸셀룰로오스, 미정질 셀룰로오스 및 셀룰로오스 아세테이트; (4) 분말화된 트라가칸트; (5) 맥아; (6) 젤라틴; (7) 마그네슘 스테아레이트, 나트륨 라우릴설페이트 및 탈크와 같은 윤활제; (8) 코코아 버터 및 좌약 왁스와 같은 부형제; (9) 땅콩유, 면실유, 홍화유, 참기름, 올리브유, 옥수수 유 및 대두유와 같은 오일; (10) 프로필렌 글리콜과 같은 글리콜; (11) 글리세린, 소르비톨, 만니톨 및 폴리에틸렌 글리콜(PEG)과 같은 폴리올; (12) 에틸올레에이트 및 에틸라우레이트와 같은 에스터; (13) 한천; (14) 수산화 마그네슘 및 수산화 알루미늄과 같은 완충제; (15) 알긴산; (16) 발열원이 없는 물; (17) 등장 식염수; (18) 링거 용액; (19) 에틸 알코올; (20) pH 완충 용액; (21) 폴리에스터, 폴리카보네이트 및/또는 폴리무수물; (22) 폴리펩타이드 및 아미노산과 같은 증량제(bulking agents) (23) 에탄올과 같은 혈청 알코올; 및 (23) 약제학적 제형에 사용되는 기타 무독성 양립성 물질. 습윤제, 착색제, 방출제(release agents), 코팅제, 감미제, 향미제, 방향제, 방부제, 및 항산화제가 또한 제형에 존재할 수 있다. "부형제", "담체", "약제학적으로 허용가능한 담체", "비히클" 등과 같은 용어는 본 명세서에서 상호교환적으로 사용된다.
약제학적 조성물은 약 5.0 내지 약 8.0 범위와 같은, 생리학적 pH를 반영하는 미리결정된 수준으로 제형의 pH를 유지하기 위해 하나 이상의 pH 완충 화합물을 포함할 수 있다. 수성 액체 제형에 사용되는 pH 완충 화합물은 아미노산 또는 아미노산 혼합물, 예컨대, 히스티딘 또는 히스티딘 및 글라이신과 같은, 아미노산 혼합물일 수 있다. 대안적으로, pH 완충 화합물은 바람직하게는 제형의 pH를 미리결정된 수준, 예컨대, 약 5.0 내지 약 8.0 범위로 유지하고, 칼슘 이온을 킬레이팅하지 않는 작용제이다. 이러한 pH 완충 화합물의 예시적인 예는, 이로만 제한되는 것은 아니지만, 이미다졸 및 아세테이트 이온을 포함한다. pH 완충 화합물은 제형의 pH를 미리결정된 수준으로 유지하기에 적합한 임의의 양으로 존재할 수 있다.
약제학적 조성물은 또한 하나 이상의 삼투 조절제, 즉 제형의 삼투 특성(예를 들어, 긴장성, 삼투질농도(osmolality), 및/또는 삼투압)을 수혈받는 개체(recipient individuals)의 혈류 및 혈액 세포에 허용되는 수준으로 조절하는 화합물을 함유할 수 있다. 삼투 조절제는 칼슘 이온을 킬레이팅하지 않는 작용제일 수 있다. 삼투 조절제는 제형의 삼투 특성을 조절하는 당업자에게 공지되거나 입수가능한 임의의 화합물일 수 있다. 당업자는 본 발명의 제형에 사용하기 위한 주어진 삼투 조절제의 적합성을 경험적으로 결정할 수 있다. 적절한 유형의 삼투 조절제의 예시적인 예는, 이로만 제한되는 것은 아니지만, 염화나트륨 및 아세트산 나트륨과 같은, 염; 수크로스, 덱스트로스 및 만니톨과 같은, 당; 글라이신과 같은 아미노산; 및 하나 이상의 이들 작용제 및/또는 여러 유형의 혼합물을 포함한다. 삼투 조절제(들)는 제형의 삼투 특성을 조절하기에 충분한 임의의 농도로 존재할 수 있다.
일부 실시형태에서, 약제학적 조성물은, 예를 들어, 유전자 편집 또는 염기 편집을 위해 대상체에게 전달하기 위해 제형화된다. 본 명세서에 기재된 약제학적 조성물의 적절한 투여 경로는, 제한됨이 없이, 다음을 포함한다: 국소, 피하, 경피, 피내, 병변내, 관절내, 복강내, 방광내, 경점막, 치은(gingival), 치내, 달팽이관내, 경막, 기관내, 경막내, 척수강내, 근육내, 정맥내, 혈관내, 골내(intraosseus), 안구내, 종양내, 뇌내, 및 뇌실내(intracerebroventricular) 투여.
일부 실시형태에서, 본 명세서에 기재된 약제학적 조성물은 질병 부위(예를 들어, 종양 부위)에 국소 투여된다. 일부 실시형태에서, 본 명세서에 기재된 약제학적 조성물은 주사, 카테터, 좌약 또는 임플란트에 의해 대상체에게 투여되며, 임플란트는 막, 예컨대 시알성(sialastic) 막, 또는 섬유를 포함하는, 다공성, 비다공성, 또는 젤라틴성 물질로 되어 있다.
다른 실시형태에서, 본 명세서에 기재된 약제학적 조성물은 제어 방출 시스템으로 전달된다. 일 실시형태에서, 펌프가 사용될 수 있다(예를 들어, 문헌[Langer, 1990, Science 249: 1527-1533; Sefton, 1989, CRC Crit. Ref. Biomed. Eng. 14:201; Buchwald et al., 1980, Surgery 88:507; Saudek et al., 1989, N. Engl. J. Med. 321:574] 참조). 다른 실시형태에서, 중합체 재료가 사용될 수 있다. (예를 들어, 다음 문헌 참조: Medical Applications of Controlled Release (Langer and Wise eds., CRC Press, Boca Raton, Fla., 1974); Controlled Drug Bioavailability, Drug Product Design and Performance (Smolen and Ball eds, Wiley, New York, 1984); Ranger and Peppas, 1983, Macromol Sci Rev Macromol Chem 23:61). 또한, 다음 문헌 참조: Levy et al., 1985, Science 228: 190; During et al., 1989, Ann. Neurol. 25:351; Howard et al., 1989, J. Neurosurg. 71: 105. 다른 제어 방출 시스템은, 예를 들어, Langer(전게서)에 논의되어 있다.
일부 실시형태에서, 약제학적 조성물은 대상체, 예를 들어, 인간에게 정맥내 또는 피하 투여에 적합한 조성물로서 일상적인 절차에 따라 제제화된다. 일부 실시형태에서, 주사 투여용 약제학적 조성물은 가용화제로서 멸균 등장성 사용시의 용액 및 주사 부위의 통증을 완화하기 위한 리그노카인과 같은 국소 마취제이다. 일반적으로, 성분은 활성제의 양을 표시하는 앰플 또는 샤쉐(sachette)와 같은 밀폐된 용기에 건조 동결건조 분말 또는 물이 없는 농축물과 같이 단위 투여 형태로 별도로 공급되거나 함께 혼합된다. 약제가 주입으로 투여되는 경우, 멸균된 약제 등급의 물 또는 식염수가 들어 있는 주입병(infusion bottle)으로 조제할 수 있다. 약제학적 조성물이 주사로 투여되는 경우, 주사용 멸균수 또는 식염수의 앰플이 제공되어 투여 전에 성분이 혼합될 수 있다.
전신 투여용 약제학적 조성물은 액체, 예를 들어, 멸균 식염수, 젖산 링거 또는 행크 용액일 수 있다. 또한, 약제학적 조성물은 고체 형태일 수 있고 사용 직전에 재용해되거나 현탁될 수 있다. 동결건조된 형태도 고려된다. 약제학적 조성물은 비경구 투여에도 적합한 리포솜 또는 미세 결정과 같은 지질 입자 또는 비히클 내에 포함될 수 있다. 입자는 조성물이 내부에 함유되어 있는 한 단층라멜라(unilamellar) 또는 복층라멜라(plurilamellar)와 같은 임의의 적합한 구조일 수 있다. 화합물은 융합성 지질 다이올레오일포스파티딜에탄올아민(DOPE), 낮은 수준(5 내지 10 몰%)의 양이온성 지질을 포함하는 "안정화된 플라스미드-지질 입자"(SPLP)에 포획될 수 있으며, 폴리에틸렌 글리콜(PEG) 코팅에 의해 안정화될 수 있다(Zhang Y. P. et al., Gene Ther 1999, 6:1438-47). N-[1-(2,3-다이올레오일옥시)프로필]-N,N,N-트리메틸-암모늄메틸설페이트, 또는 "DOTAP"과 같이 양으로 하전된 지질이 이러한 입자 및 비히클에 특히 바람직하다. 이러한 지질 입자의 제조는 잘 알려져 있다. 예를 들어, 각각이 본 명세서에 참조로 포함되는 다음 문헌 참조: 미국 특허 제4,880,635호; 제4,906,477호; 제4,911,928호; 제4,917,951호; 제4,920,016호; 및 제4,921,757호.
본 명세서에 기재된 약제학적 조성물은, 예를 들어, 단위 용량으로 투여되거나 패키징될 수 있다. 본 개시의 약제학적 조성물과 관련하여 사용될 때, 용어 "단위 용량(unit dose)"은 대상체에 대한 단일 용량으로 적합한 물리적으로 분리된 단위를 지칭하며, 각 단위는 필요한 희석제; 즉, 담체, 또는 비히클과 관련하여 원하는 치료 효과를 생성하도록 계산된 미리결정된 양의 활성 물질을 함유한다.
또한, 약제학적 조성물은 (a) 동결건조된 형태로 본 발명의 화합물을 함유하는 용기 및 (b) (예를 들어, 본 발명의 동결건조 화합물의 재구성 또는 희석을 위해 사용되는 멸균된) 약제학적으로 허용가능한 희석제를 함유하는 제2 용기를 포함하는 제약 키트로서 제공될 수 있다. 임의로, 이러한 용기와 관련하여 의약품 또는 생물학적 제품의 제조, 사용 또는 판매를 규제하는 정부기관이 규정한 형식의 통지가 있을 수 있으며, 이 통지는 인간 투여를 위한 제조, 사용 또는 판매에 관한 정부기관의 승인을 반영한다.
또 다른 양상에서, 상기 기재된 질병의 치료에 유용한 물질을 함유하는 제조 물품이 포함된다. 일부 실시형태에서, 제조 물품은 용기 및 라벨을 포함한다. 적합한 용기는, 예를 들어, 병, 바이알, 주사기 및 시험관을 포함한다. 용기는 유리 또는 플라스틱과 같은 다양한 재료로 형성될 수 있다. 일부 실시형태에서, 용기는 본 명세서에 기재된 질병을 치료하는 데 효과적이며, 멸균 접근 포트를 가질 수 있는 조성물을 보유한다. 예를 들어, 용기는 정맥내 용액 백 또는 피하 주사 바늘로 뚫을 수 있는 마개가 있는 바이알일 수 있다. 조성물의 활성제는 본 발명의 화합물이다. 일부 실시형태에서, 용기 상의 또는 용기와 관련된 라벨은 조성물이 선택된 질환을 치료하기 위해 사용됨을 나타낸다. 제조 물품은 포스페이트 완충 식염수, 링거 용액 또는 덱스트로스 용액과 같은 약제학적으로 허용가능한 완충액을 포함하는 제2 용기를 추가로 포함할 수 있다. 다른 완충제, 희석제, 필터, 바늘, 주사기 및 사용 설명서가 있는 패키지 삽입물을 포함하여 상업적 및 사용자 관점에서 바람직한 다른 물질을 추가로 포함할 수 있다.
일부 실시형태에서, 본 명세서에 기재된 임의의 융합 단백질, gRNA 및/또는 복합체는 약제학적 조성물의 일부로서 제공된다. 일부 실시형태에서, 약제학적 조성물은 본 명세서에 제공된 임의의 융합 단백질을 포함한다. 일부 실시형태에서, 약제학적 조성물은 본 명세서에 제공된 임의의 복합체를 포함한다. 일부 실시형태에서, 약제학적 조성물은 gRNA 및 양이온성 지질과 복합체를 형성하는 RNA-가이드 뉴클레아제(예를 들어, Cas9)를 포함하는 리보핵단백질 복합체를 포함한다. 일부 실시형태에서, 약제학적 조성물은 gRNA, 핵산 프로그래밍가능한 DNA 결합 단백질, 양이온성 지질 및 약제학적으로 허용가능한 부형제를 포함한다. 약제학적 조성물은 임의로, 하나 이상의 추가 치료 활성 물질을 포함할 수 있다.
A1AD
치료 방법
또한, 본 명세서에 기재된 염기 편집기 시스템(예를 들어, 염기 편집기 및 gRNA)을 코딩하는 폴리뉴클레오티드를 포함하는 약제학적 조성물의 치료적 유효량을 대상체(예를 들어, 인간과 같은 포유동물)에게 투여하는 것을 포함하는, A1AD를 유발하는 SERPINA1에서의 A1AD 및/또는 유전적 돌연변이를 치료하는 방법이 제공된다. 일부 실시형태에서, 염기 편집기는 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 및 아데노신 데아미나제 도메인 또는 시티딘 데아미나제 도메인을 포함하는 융합 단백질이다. 대상체의 세포는 염기 편집기, 및 SERPINA1 유전자 내의 돌연변이를 함유하는 핵산 서열에서의 A·T에서 G·C로의 변경(세포가 아데노신 데아미나제 도메인으로 형질도입된 경우) 또는 C·G에서 U·A로의 변경(세포가 시티딘 데아미나제 도메인으로 형질도입된 경우)을 수행하도록 상기 염기 편집기를 표적으로 하는 하나 이상의 가이드 폴리뉴클레오티드로 형질도입된다.
본 명세서의 방법은 본 명세서에 기재된 유효량의 조성물을 대상체(그러한 치료를 필요로 하는 것으로 확인된 대상체, 또는 질병의 위험이 있는 것으로 의심되고 그러한 치료를 필요로 하는 대상체를 포함함)에게 투여하는 것을 포함한다. 그러한 치료가 필요한 대상체를 확인하는 것은 대상체 또는 건강 관리 전문가의 판단에 따라 이루어질 수 있으며 주관적(예를 들어, 의견) 또는 객관적(예를 들어, 시험 또는 진단 방법으로 측정가능)일 수 있다.
일반적으로, 치료적 방법은, 예를 들어, 염기 편집기를 코딩하는 벡터 및 이를 필요로 하는 대상체(예를 들어, 인간 환자)의 SERPINA1 유전자를 표적으로 하는 gRNA를 포함하는 약제학적 조성물의 치료적 유효량의 투여를 포함한다. 이러한 치료는 A1AD를 앓고 있거나, 지니고 있거나, 이에 감수성이거나, 또는 위험에 처한 대상체, 특히 인간 대상체에게 적합하게 투여될 것이다. 본 명세서의 조성물은 또한 A1AD가 연루되어 있을 수 있는 임의의 다른 장애의 치료에 사용될 수 있다.
일 실시형태에서, 치료 진행을 모니터링하는 방법이 제공된다. 이 방법은 질병 또는 이의 증상을 치료하기에 충분한 치료량의 본 명세서의 조성물을 투여받은 대상체에서의 장애와 관련된 특정 유전자와 관련된 장애 또는 이의 증상을 앓고 있거나, 또는 이에 감수성인 대상체 내의 진단 마커(마커(Marker))(예를 들어, 본 명세서에 기재된 것과 같은 질병-관련 유전자와 관련된 SNP) 또는 진단 측정(예를 들어, 스크리닝, 분석)의 수준을 결정하는 단계를 포함한다. 이 방법에서 결정된 마커(Marker) 수준은 건강한 정상 대조군 또는 다른 영향을 받은 환자에서 알려진 마커(Marker) 수준과 비교하여 대상체의 질병 상태를 확인할 수 있습니다. 바람직한 실시형태에서, 대상체 내 마커(Marker)의 제2 수준은 제1 수준의 결정 시점에 비해 늦은 시점에 결정되고, 두 수준은 질병 경과 또는 치료의 효능을 모니터링하기 위해 비교된다. 특정 바람직한 실시형태에서, 대상체에서 마커(Marker)의 전처리 수준은 본 발명에 따른 치료를 시작하기 전에 결정되며; 이후 치료의 효능을 결정하기 위해, 마커(Marker)의 이러한 전처리 수준은 치료가 개시된 후 대상체의 마커 수준과 비교될 수 있다.
일부 실시형태에서, 본 명세서에 제공된 조성물은 대상체 내에서 표적화된 게놈 변형을 수행하기 위해 대상체, 예를 들어, 인간 대상체에게 투여된다. 일부 실시형태에서, 세포는 대상체로부터 수득되고 본 명세서에 제공된 임의의 제약 조성물과 접촉된다. 일부 실시형태에서, 대상체로부터 제거되고 생체외에서 약제학적 조성물과 접촉된 세포는 임의로 원하는 게놈 변형이 세포에서 수행되거나 검출된 후에 대상체에게 재도입된다. 뉴클레아제를 포함하는 약제학적 조성물을 전달하는 방법은 공지되어 있으며, 예를 들어, 이들 모두의 개시가 그 전문으로 본 명세서에 참조로 포함되는, 미국 특허 제6,453,242호; 제6,503,717호; 제6,534,261호; 제6,599,692호; 제6,607,882호; 제6,689,558호; 제6,824,978호; 제6,933,113호; 제6,979,539호; 제7,013,219호; 및 제7,163,824호에 기재되어 있다. 본 명세서에 제공된 약제학적 조성물에 대한 설명은 주로 인간에게 투여하기에 적합한 약제학적 조성물에 관한 것이지만, 이러한 조성물은 일반적으로 모든 종류의 동물 또는 유기체에 투여하기에 적합하다는 것을 당업자는 이해할 것이다.
다양한 동물에 투여하기에 적합한 조성물을 만들기 위해 인간에게 투여하기에 적합한 약제학적 조성물의 변형은 잘 이해되고 있으며, 통상의 숙련된 수의학 약리학자는, 필요하다면, 단지 통상적인 실험으로 이러한 변형을 설계 및/또는 수행할 수 있다. 약제학적 조성물의 투여가 고려되는 대상체는, 이로만 제한되는 것은 아니지만, 인간 및/또는 비인간 영장류, 포유동물, 가축, 애완 동물, 및 상업적으로 관련된 포유동물, 예컨대 소, 돼지, 말, 양, 고양이, 개, 마우스 및/또는 랫트; 및/또는 닭, 오리, 거위 및/또는 칠면조와 같은 상업적으로 관련된 새를 포함한 새를 포함한다.
본 명세서에 기재된 약제학적 조성물의 제형은 공지된 또는 이후 약리학 분야에서 개발되는 임의의 방법에 의해 제조될 수 있다. 일반적으로, 이러한 제조 방법은 활성 성분(들)을 부형제 및/또는 하나 이상의 다른 보조 성분과 결합시키는 단계를 포함하고, 그런 다음 필요 및/또는 바람직하다면, 제품을 원하는 단일 또는 다중-용량 단위로 성형 및/또는 포장하는 단계를 포함한다. 약제학적 제형은 약제 학적으로 허용되는 부형제를 추가로 포함할 수 있으며, 이는 본 명세서에 사용된, 임의의 및 모든 용매, 분산 매질, 희석제 또는 기타 액체 비히클, 분산 또는 현탁 보조제, 표면 활성제, 등장화제, 증점제 또는 유화제, 보존제, 고체 결합제, 윤활제 및 원하는 특정 투여 형태에 적합한, 기타의 것을 포함한다. 그 전문이 본 명세서에 참고로 포함되는, 문헌[Remington's The Science and Practice of Pharmacy, 21st Edition, A. R. Gennaro (Lippincott, Williams & Wilkins, Baltimore, MD, 2006]은 약제학적 조성물의 제형화에 사용되는 다양한 부형제 및 그의 제조를 위한 공지된 기술을 개시한다. 뉴클레아제를 포함하는 약제학적 조성물을 제조하기 위한 추가의 적합한 방법, 시약, 부형제 및 용매에 대해서는 또한 본 명세서에 그 전문이 참조로 포함되는, PCT 출원 PCT/US2010/055131(공개 번호 WO2011053982 A8, 2010년 11월 2일에 출원됨)을 참조.
임의의 통상적인 부형제 매질이 임의의 바람직하지 않은 생물학적 효과를 생성하거나 그렇지 않으면 약제학적 조성물의 임의의 다른 성분(들)과 유해한 방식으로 상호작용함으로써 물질 또는 그 유도체와 양립할 수 없는 경우를 제외하고, 그 사용이 본 개시의 범위 내에 있는 것으로 고려된다.
상기 기재된 바와 같은 조성물은 유효량으로 투여될 수 있다. 유효량은 투여 방식, 치료할 특정 상태 및 원하는 결과에 따라 달라진다. 또한 상태의 단계, 대상체의 연령 및 신체 상태, 동시 요법의 성격(있는 경우) 및 의사에게 잘 알려진 유사한 요인에 따라 달라질 수 있다. 치료적 적용의 경우, 이것은 의학적으로 바람직한 결과를 얻기에 충분한 양이다.
일부 실시형태에서, 본 개시에 따른 조성물은 임의의 다양한 질환, 장애 및/ 또는 상태의 치료에 사용될 수 있으며, 이로만 제한되는 것은 아니지만, 다음 중 하나 이상을 포함한다: 자가면역 장애(예를 들어, 당뇨병, 루푸스, 다발성 경화증, 건선, 류마티스 관절염); 염증성 장애(예를 들어, 관절염, 골반 염증성 질환); 감염성 질환(예를 들어, 바이러스 감염(예를 들어, HIV, HCV, RSV), 박테리아 감염, 진균 감염, 패혈증); 신경학적 장애(예를 들어, 알츠하이머병, 헌팅턴병, 자폐증, 뒤쉔 근이영양증); 심혈관 장애(예를 들어, 죽상경화증(atherosclerosis), 고콜레스테롤혈증, 혈전증, 응고장애, 황반변성과 같은 혈관형성 장애); 증식성 장애(예를 들어, 암, 양성 신생물); 호흡기 장애(예를 들어, 만성 폐쇄성 폐 질환); 소화 장애(예를 들어, 염증성 장 질환, 궤양); 근골격계 장애(예를 들어, 섬유근통, 관절염); 내분비, 대사, 및 영양 장애(예를 들어, 당뇨병, 골다공증); 비뇨기과 장애(예를 들어, 신장 질환); 심리적 장애(예를 들어, 우울증, 조현병); 피부 장애(예를 들어, 상처, 습진); 혈액 및 림프 장애(예를 들어, 빈혈, 혈우병); 기타.
키트
본 개시의 다양한 양상은 염기 편집기 시스템을 포함하는 키트를 제공한다. 일 실시형태에서, 키트는 핵염기 편집기 융합 단백질을 코딩하는 뉴클레오티드 서열을 포함하는 핵산 구축물을 포함한다. 융합 단백질은 데아미나제(예를 들어, 시티딘 데아미나제 또는 아데닌 데아미나제) 및 핵산 프로그래밍가능한 DNA 결합 단백질(napDNAbp)을 포함한다. 일부 실시형태에서, 키트는 관심 핵산 분자, 예를 들어, A1AD-관련 돌연변이를 표적화할 수 있는 적어도 하나의 가이드 RNA를 포함한다. 일부 실시형태에서, 키트는 적어도 하나의 가이드 RNA를 코딩하는 뉴클레오티드 서열을 포함하는 핵산 구축물을 포함한다.
키트는 일부 실시형태에서, A1AD-관련 돌연변이를 편집하기 위해 키트를 사용하기 위한 지침서(instructions)를 제공한다. 지침서에는 일반적으로 핵산 분자를 편집하기 위한 키트 사용에 대한 정보가 포함된다. 다른 실시형태에서, 지침은 다음 중 적어도 하나를 포함한다: 예방 조치; 경고; 임상 연구; 및/또는 참조. 지침서는 용기(존재시)에 직접 인쇄되거나, 용기에 부착된 라벨로, 또는 용기 내에 또는 이와 함께 제공된 별도의 시트, 팜플렛, 카드 또는 폴더로 인쇄될 수 있다. 추가 실시형태에서, 키트는 적절한 작동 파라미터를위한 라벨 또는 별도의 삽입물(패키지 삽입물) 형태의 지침서를 포함할 수 있다. 또 다른 실시형태에서, 키트는 검출, 보정 또는 정규화를 위한 표준(들)으로 사용되는 적절한 양성 및 음성 대조군 또는 대조군 샘플이있는 하나 이상의 용기를 포함할 수 있다. 키트는 (멸균) 포스페이트-완충 식염수, 링거 용액 또는 덱스트로스 용액과 같은 약제학적으로 허용가능한 완충액을 포함하는 제2 용기를 추가로 포함할 수 있다. 다른 완충제, 희석제, 필터, 바늘, 주사기 및 사용 지침서가 있는 패키지 삽입물을 포함하여 상업적 및 사용자 관점에서 바람직한 다른 물질을 추가로 포함할 수 있다.
특정 실시형태에서, 키트는 알파-1 항트립신 결핍(A1AD)을 갖는 대상체의 치료에 유용하다.
염기 편집기 시스템 및 용도에 관한 방법 및 조성물을 포괄하는 아래 번호매겨진 추가 실시형태가 본 명세서에서 구상된다:
1.
필요로 하는 대상체에서 알파-1 항트립신 결핍(A1AD)을 치료하는 방법으로서, 대상체에게,
가이드 폴리뉴클레오티드 또는 상기 가이드 폴리뉴클레오티드를 코딩하는 핵산;
폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 또는 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인을 코딩하는 핵산, 및
아데노신 데아미나제 도메인 또는 상기 아데노신 데아미나제 도메인을 코딩하는 핵산,
을 포함하는 염기 편집기 시스템을 투여하는 단계를 포함하고,
상기 가이드 폴리뉴클레오티드는 상기 대상체 내의 세포의 SERPINA1 폴리뉴클레오티드 중의 단일 뉴클레오티드 다형성(SNP)의 A·T에서 G·C로의 변경을 수행하도록 상기 염기 편집기 시스템을 표적화하며, 그로 인해 A1AD를 치료할 수 있고;
상기 SNP는 A1AD의 원인이 되는, 방법.
2.
필요로 하는 대상체에서 알파-1 항트립신 결핍(A1AD)을 치료하는 방법으로서,
(a) 세포 내로,
가이드 폴리뉴클레오티드 또는 상기 가이드 폴리뉴클레오티드를 코딩하는 핵산;
폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 또는 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인을 코딩하는 핵산, 및
아데노신 데아미나제 도메인 또는 상기 아데노신 데아미나제 도메인을 코딩하는 핵산,
을 포함하는 염기 편집기 시스템을 도입하는 단계, 및
(b) 상기 세포를 상기 대상체에게 투여하는 단계를 포함하고,
상기 가이드 폴리뉴클레오티드는 상기 세포 내의 SERPINA1 폴리뉴클레오티드 중의 단일 뉴클레오티드 다형성(SNP)의 A·T에서 G·C로의 변경을 수행하도록 상기 염기 편집기 시스템을 표적화하며, 그로 인해 A1AD를 치료할 수 있고;
상기 SNP는 A1AD의 원인이 되는, 방법.
3.
실시형태 2에 있어서, 상기 세포가 간세포 또는 이의 전구체(progenitor)인, 방법.
4.
실시형태 2 또는 3에 있어서, 상기 세포가 상기 대상체에 대해 자가발생성(autologous), 동종발생성(allogenic), 또는 이종발생성(xenogenic)인, 방법.
5.
SERPINA1 폴리뉴클레오티드 중의 알파-1 항트립신 결핍(A1AD)의 원인이 되는 단일 뉴클레오티드 다형성(SNP)을 교정하는 방법으로서,
상기 SERPINA1 폴리뉴클레오티드를
가이드 폴리뉴클레오티드;
폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인, 및
아데노신 데아미나제 도메인,
을 포함하는 염기 편집기 시스템과 접촉시키는 단계를 포함하고,
상기 가이드 폴리뉴클레오티드는 상기 SERPINA1 폴리뉴클레오티드 중의 상기 SNP의 A·T에서 G·C를 수행하도록 상기 염기 편집기 시스템을 표적화하며, 그로 인해 상기 SNP를 교정할 수 있는, 방법.
6.
알파-1 항트립신 결핍(A1AD)의 치료를 위해 변형된 세포를 생산하는 방법으로서,
세포 내로,
가이드 폴리뉴클레오티드 또는 상기 가이드 폴리뉴클레오티드를 코딩하는 핵산;
폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 또는 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인을 코딩하는 핵산, 및
아데노신 데아미나제 도메인 또는 상기 아데노신 데아미나제 도메인을 코딩하는 핵산,
을 포함하는 염기 편집기 시스템을 도입하는 단계를 포함하고,
상기 가이드 폴리뉴클레오티드는 세포 내의 SERPINA1 폴리뉴클레오티드 중의 A1AD의 원인이 되는 단일 뉴클레오티드 다형성(SNP)의 A·T에서 G·C로의 변경을 수행하도록 상기 염기 편집기 시스템을 표적화할 수 있는, 방법.
7.
실시형태 6에 있어서, 상기 도입이 생체내(in vivo)인, 방법.
8.
실시형태 6에 있어서, 상기 도입이 생체외(ex vivo)인, 방법.
9.
실시형태 6 내지 8 중 어느 한 실시형태에 있어서, 상기 세포가 간세포 또는 이의 전구체인, 방법.
10.
실시형태 6 내지 9 중 어느 한 실시형태에 있어서, 상기 세포가 A1AD를 지니는 대상체로부터 수득되는, 방법.
11.
앞의 실시형태들 중 어느 한 실시형태에 있어서, SERPINA1 폴리뉴클레오티드가 상기 SNP로부터 초래되는 위치 342에 라이신을 포함하는 A1AT 단백질을 코딩하는, 방법.
12.
실시형태 11에 있어서, 상기 A·T에서 G·C로의 변경이 상기 라이신을 야생형 아미노산으로 치환하는 것인, 방법.
13.
필요로 하는 대상체에서 알파-1 항트립신 결핍(A1AD)을 치료하는 방법으로서, 상기 대상체에게,
가이드 폴리뉴클레오티드 또는 상기 가이드 폴리뉴클레오티드를 코딩하는 핵산;
폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 또는 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인을 코딩하는 핵산, 및
아데노신 데아미나제 도메인 또는 상기 아데노신 데아미나제 도메인을 코딩하는 핵산,
을 포함하는 염기 편집기 시스템을 투여하는 단계를 포함하고,
상기 가이드 폴리뉴클레오티드는 상기 대상체 내의 세포의 SERPINA1 폴리뉴클레오티드 중의 A1AD의 원인이 되는 단일 뉴클레오티드 다형성(SNP)의 A·T에서 G·C로의 변경을 수행하도록 상기 염기 편집기 시스템을 표적화할 수 있으며,
상기 SERPINA1 폴리뉴클레오티드는 상기 SNP로부터 초래된 위치 342에 라이신 산을 포함하는 A1AT 단백질을 코딩하고,
상기 A·T에서 G·C로의 변경은 상기 라이신을 야생형 아미노산으로 치환하며, 그로 인해 A1AD를 치료하는, 방법.
14.
필요로 하는 대상체에서 알파-1 항트립신 결핍(A1AD)을 치료하는 방법으로서,
(a) 세포를,
가이드 폴리뉴클레오티드 또는 상기 가이드 폴리뉴클레오티드를 코딩하는 핵산;
폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 또는 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인을 코딩하는 핵산, 및
아데노신 데아미나제 도메인 또는 상기 아데노신 데아미나제 도메인을 코딩하는 핵산,
을 포함하는 염기 편집기 시스템과 접촉시키는 단계,
(b) 상기 세포를 상기 대상체에 투여하는 단계;를 포함하고,
상기 가이드 폴리뉴클레오티드는 상기 세포 내의 SERPINA1 폴리뉴클레오티드 중의 A1AD의 원인이 되는 단일 뉴클레오티드 다형성(SNP)의 A·T에서 G·C로의 변경을 수행하도록 상기 염기 편집기 시스템을 표적화할 수 있으며,
상기 SERPINA1 폴리뉴클레오티드는 상기 SNP로부터 초래된 위치 342에서 라이신을 포함하는 A1AT 단백질을 코딩하고,
상기 A·T에서 G·C로의 변경은 상기 라이신을 야생형 아미노산으로 치환하며, 그로 인해 A1AD를 치료하는, 방법.
15.
실시형태 14에 있어서, 상기 세포가 간세포 또는 이의 전구체인, 방법.
16.
실시형태 14 내지 15에 있어서, 상기 세포가 상기 대상체에 대해 자가발생성, 동종발생성, 또는 이종발생성인, 방법..
17.
SERPINA1 폴리뉴클레오티드 중의 알파-1 항트립신 결핍(A1AD)의 원인이되는 단일 뉴클레오티드 다형성(SNP)을 교정하는 방법으로서,
상기 SERPINA1 폴리뉴클레오티드를,
가이드 폴리뉴클레오티드;
폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인, 및
아데노신 데아미나제 도메인,
을 포함하는 염기 편집기 시스템과 접촉시키는 단계;를 포함하고,
상기 가이드 폴리뉴클레오티드는 상기 SNP의 A·T에서 G·C로의 수행하도록 상기 염기 편집기 시스템을 표적화할 수 있으며,
상기 SERPINA1 폴리뉴클레오티드는 상기 SNP로부터 초래된 위치 342에서 라이신을 포함하는 A1AT 단백질을 코딩하고,
상기 A·T에서 G·C로의 변경은 상기 라이신을 야생형 아미노산으로 치환하며, 그로 인해 SNP를 교정하는, 방법.
18.
A1AD의 치료를 위한 변형된 세포를 생산하는 방법으로서,
세포 내로,
가이드 폴리뉴클레오티드 또는 상기 가이드 폴리뉴클레오티드를 코딩하는 핵산;
폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 또는 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인을 코딩하는 핵산, 및
아데노신 데아미나제 도메인 또는 상기 아데노신 데아미나제 도메인을 코딩하는 핵산,
을 포함하는 염기 편집기 시스템을 도입하는 단계;를 포함하고,
상기 가이드 폴리뉴클레오티드는 상기 세포 내의 SERPINA1 폴리뉴클레오티드 중의 A1AD의 원인이 되는 단일 뉴클레오티드 다형성(SNP)의 A·T에서 G·C로의 변경을 수행하도록 상기 염기 편집기 시스템을 표적화할 수 있으며,
상기 SERPINA1 폴리뉴클레오티드는 상기 SNP로부터 초래된 위치 342에서 라이신을 포함하는 A1AT 단백질을 코딩하고,
상기 A·T에서 G·C로의 변경은 상기 라이신을 야생형 아미노산으로 치환하는, 방법.
19.
실시형태 18에 있어서, 상기 도입이 생체내인, 방법.
20.
실시형태 18에 있어서, 상기 도입이 생체외인, 방법.
21.
실시형태 18 내지 20중 어느 한 실시형태에 있어서, 상기 세포가 간세포 또는 이의 전구체인, 방법.
22.
실시형태 18 내지 21 중 어느 한 실시형태에 있어서, 상기 세포가 A1AD를 지니는 대상체로부터 수득되는, 방법.
23.
실시형태 12 내지 22 중 어느 한 실시형태에 있어서, 상기 야생형 아미노산이 글루탐산인, 방법.
24.
앞의 실시형태들 중 어느 한 실시형태에 있어서, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인이 Cas9 도메인인, 방법.
25.
실시형태 24에 있어서, 상기 Cas9 도메인이 뉴클레아제 비활성 Cas9 도메인인, 방법.
26.
실시형태 24에 있어서, 상기 Cas9 도메인이 Cas9 닉카아제 도메인인, 방법.
27.
실시형태 24 내지 26 중 어느 한 실시형태에 있어서, 상기 Cas9 도메인이 SpCas9 도메인을 포함하는, 방법.
28.
실시형태 27에 있어서, 상기 SpCas9 도메인이 D10A 및/또는 H840A 아미노산 치환 또는 이들의 상응하는 아미노산 치환을 포함하는, 방법.
29.
실시형태 27 또는 28에 있어서, 상기 SpCas9 도메인이 NGG PAM에 대한 특이성을 갖는, 방법.
30.
실시형태 27 내지 29 중 어느 한 실시형태에 있어서, 상기 SpCas9 도메인이 NGA PAM, NGT PAM, 또는 NGC PAM에 대한 특이성을 갖는, 방법.
31.
실시형태 27 내지 30 중 어느 한 실시형태에 있어서, 상기 SpCas9 도메인이 아미노산 치환 L1111R, D1135V, G1218R, E1219F, A1322R, R1335V, T1337R 및 하나 이상의 L1111, D1135L, S1136R, G1218S, E1219V, D1332A, R1335Q, T1337I, T1337V, T1337F, 및 T1337M 또는 이들의 상응하는 아미노산 치환을 포함하는, 방법.
32.
실시형태 27 내지 31 중 어느 한 실시형태에 있어서, 상기 SpCas9 도메인이 아미노산 치환 L1111R, D1135V, G1218R, E1219F, A1322R, R1335V, T1337R 및 하나 이상의 L1111, D1135L, S1136R, G1218S, E1219V, D1332A, D1332S, D1332T, D1332V, D1332L, D1332K, D1332R, R1335Q, T1337I, T1337V, T1337F, T1337S, T1337N, T1337K, T1337R, T1337H, T1337Q, 및 T1337M 또는 이들의 상응하는 아미노산 치환을 포함하는, 방법.
33.
실시형태 27 내지 32 중 어느 한 실시형태에 있어서, 상기 SpCas9 도메인이 아미노산 치환 D1135L, S1136R, G1218S, E1219V, A1322R, R1335Q, T1337, 및 A1322R, 및 하나 이상의 L1111, D1135L, S1136R, G1218S, E1219V, D1332A, D1332S, D1332T, D1332V, D1332L, D1332K, D1332R, R1335Q, T1337I, T1337V, T1337F, T1337S, T1337N, T1337K, T1337R, T1337H, T1337Q, 및 T1337M 또는 이들의 상응하는 아미노산 치환을 포함하는, 방법.
34.
실시형태 27 내지 33 중 어느 한 실시형태에 있어서 , 상기 SpCas9 도메인이 아미노산 치환 D1135M, S1136Q, G1218K, E1219F, A1322R, D1332A, R1335E, 및 T1337R, 또는 이들의 상응하는 아미노산 치환을 포함하는, 방법.
35.
실시형태 27 내지 34 중 어느 한 실시형태에 있어서, 상기 SpCas9 도메인이 NG PAM, NNG PAM, GAA PAM, GAT PAM, 또는 CAA PAM에 대한 특이성을 갖는, 방법.
36.
실시형태 35에 있어서, 상기 SpCas9 도메인이 아미노산 치환 E480K, E543K, 및 E1219V, 또는 이들의 상응하는 아미노산 치환을 포함하는, 방법.
37.
실시형태 27 내지 29 중 어느 한 실시형태에 있어서, 상기 Cas9 도메인이 SaCas9 도메인을 포함하는, 방법.
38.
실시형태 27에 있어서, 상기 SaCas9 도메인이 NNNRRT PAM에 대한 특이성을 갖는, 방법.
39.
실시형태 38에 있어서, 상기 St1Cas9 도메인이 NNGRRT PAM에 대한 특이성을 갖는, 방법.
40.
실시형태 37 내지 39 중 어느 한 실시형태에 있어서, 상기 SaCas9 도메인이 아미노산 치환 N579A 또는 이의 상응하는 아미노산 치환을 포함하는, 방법.
41.
실시형태 37 내지 40 중 어느 한 실시형태에 있어서, 상기 SaCas9 도메인이 아미노산 치환 E782K, N968K, 및 R1015H, 또는 이들의 상응하는 아미노산 치환을 포함하는, 방법.
42.
실시형태 27 내지 29 중 어느 한 실시형태에 있어서, 상기 Cas9 도메인이 St1Cas9 도메인을 포함하는, 방법:
43.
실시형태 40에 있어서, 상기 St1Cas9 도메인이 NNACCA PAM에 대한 특이성을 갖는, 방법.
44.
앞의 실시형태들 중 어느 한 실시형태에 있어서, 상기 아데노신 데아미나제 도메인이 자연에서 발생하지 않는 변형된 아데노신 데아미나제 도메인인, 방법.
45.
실시형태 44에 있어서, 상기 아데노신 데아미나제 도메인이 TadA 도메인을 포함하는, 방법.
46.
실시형태 45에 있어서, 상기 TadA 도메인이 TadA 7.10의 아미노산 서열을 포함하는, 방법.
47.
앞의 실시형태들 중 어느 한 실시형태에 있어서, 상기 염기 편집기 시스템이 징크 핑거 도메인을 추가로 포함하는, 방법.
48.
실시형태 47에 있어서, 상기 징크 핑거 도메인이 인식 나선 서열 RNEHLEV, QSTTLKR, 및 RTEHLAR 또는 인식 나선 서열 RGEHLRQ, QSGTLKR, 및 RNDKLVP를 포함하는, 방법.
49.
실시형태 47 또는 48에 있어서, 상기 징크 핑거 도메인이 zf1ra 또는 zf1rb인, 방법.
50.
앞의 실시형태들 중 어느 한 실시형태에 있어서, 상기 염기 편집기 시스템이 핵내 위치결정 신호(NLS; nuclear localization signal)를 더 포함하는, 방법.
51.
앞의 실시형태들 중 어느 한 실시형태에 있어서, 상기 염기 편집기 시스템이 하나 이상의 링커를 추가로 포함하는, 방법.
52.
실시형태 51에 있어서, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인, 상기 아데노신 데아미나제 도메인, 상기 징크 핑거 도메인, 및 상기 NLS 중 2개 이상이 링커를 통해 연결되는, 방법.
53.
실시형태 52에 있어서, 상기 링커가 펩티드 링커이고, 이에 의해 염기 편집 융합 단백질을 형성하는, 방법.
54.
실시형태 53에 있어서, 상기 펩티드 링커가,
55.
실시형태 53 또는 54에 있어서, 상기 염기 편집 융합 단백질이,
56.
앞의 실시형태들 중 어느 한 실시형태에 있어서, 상기 가이드 폴리뉴클레오티드가 2개의 개별 폴리뉴클레오티드를 포함하고, 상기 2개의 개별 폴리뉴클레오티드는 2개의 DNA, 2개의 RNA, 또는 1개의 DNA와 1개의 RNA인, 방법.
57.
앞의 실시형태들 중 어느 한 실시형태에 있어서, 상기 가이드 폴리뉴클레오티드가 crRNA 및 tracrRNA를 포함하고, 상기 crRNA는 상기 SERPINA1 폴리뉴클레오티드 중의 표적 서열에 상보적인 핵산 서열을 포함하는, 방법.
58.
실시형태 57에 있어서, 상기 표적 서열이 GACAAGAAAGGGACTGAAGC, ATCGACAAGAAAGGGACTGA, 및 ACACACCGGTTGGTGGCCTC, 또는 이의 상보체(complementary)로부터 선택된 서열을 포함하는, 방법.
59.
실시형태 57 또는 58에 있어서, 상기 염기 편집기 시스템이 단일 가이드 RNA(sgRNA)를 포함하는, 방법.
60.
실시형태 59에 있어서, 상기 sgRNA가 ACTCTaGGCAGAGGTCTCAAAGG 및 GCTCTaGGCCGAAGTGTCGCAGG로 이루어진 군에서 선택된 서열을 포함하는, 방법.
61.
앞의 실시형태들 중 어느 한 실시형태에 있어서, 상기 염기 편집기 시스템이 상기 가이드 폴리뉴클레오티드, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인, 및 상기 데아미나제 도메인 중 하나 이상을 포함하는 벡터를 포함하는, 방법.
62.
실시형태 61에 있어서, 상기 벡터가 아데노바이러스 벡터, AAV 벡터, 렌티바이러스 벡터, 또는 레트로바이러스 벡터인, 방법.
63.
변형된 세포로서,
가이드 폴리뉴클레오티드 또는 상기 가이드 폴리뉴클레오티드를 코딩하는 핵산;
폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 또는 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인을 코딩하는 핵산, 및
아데노신 데아미나제 도메인 또는 상기 아데노신 데아미나제 도메인을 코딩하는 핵산,
을 포함하는 염기 편집기 시스템을 포함하고,
상기 가이드 폴리뉴클레오티드는 상기 세포 내의 SERPINA1 폴리뉴클레오티드 중의 알파-1 항트립신 결핍(A1AD)의 원인이 되는 단일 뉴클레오티드 다형성(SNP)의 A·T 에서 G·C로의 변경을 수행하도록 상기 염기 편집기 시스템을 표적화할 수 있는, 변형된 세포.
64.
변형된 세포로서,
가이드 폴리뉴클레오티드 또는 상기 가이드 폴리뉴클레오티드를 코딩하는 핵산;
폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 또는 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인을 코딩하는 핵산, 및
아데노신 데아미나제 도메인 또는 상기 아데노신 데아미나제 도메인을 코딩하는 핵산,
을 포함하는 염기 편집기 시스템을 포함하고,
상기 가이드 폴리뉴클레오티드는 상기 세포 내의 SERPINA1 폴리뉴클레오티드 중의 알파-1 항트립신 결핍(A1AD)의 원인이 되는 단일 뉴클레오티드 다형성(SNP)의 A·T에서 G·C로의 변경을 수행하도록 상기 염기 편집기 시스템을 표적화할 수 있으며,
상기 SERPINA1 폴리뉴클레오티드는 상기 SNP로부터 초래된 위치 324에 라이신을 포함하는 A1AT 단백질을 코딩하고,
상기 A·T에서 G·C로의 변경은 상기 라이신을 야생형 아미노산으로 치환하는, 변형된 세포.
65.
실시형태 63에 있어서, 상기 SERPINA1 폴리뉴클레오티드가 상기 SNP로부터 초래된 위치 342에 라이신을 포함하는 A1AT 단백질을 코딩하는, 변형된 세포.
66.
실시형태 65에 있어서, 상기 A·T에서 G·C로의 변경이 상기 라이신을 야생형 아미노산으로 치환하는 것인, 변형된 세포.
67.
실시형태 63 내지 66 중 어느 한 실시형태에 있어서, 상기 세포가 간세포 또는 이의 전구체인, 변형된 세포.
68.
실시형태 67에 있어서, 상기 세포가 A1AD를 지니는 대상체로부터 수득되는, 변형된 세포.
69.
실시형태 66 내지 68 중 어느 한 실시형태에 있어서, 상기 야생형 아미노산이 글루탐산인, 변형된 세포.
70.
실시형태 63 내지 66 중 어느 한 실시형태에 있어서, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인이 Cas9 도메인인, 변형된 세포.
71.
실시형태 70에 있어서, 상기 Cas9 도메인이 뉴클레아제 비활성 Cas9 도메인인, 변형된 세포.
72.
실시형태 71에 있어서, 상기 Cas9 도메인이 Cas9 닉카아제 도메인인, 변형된 세포.
73.
실시형태 70 내지 72 중 어느 한 실시형태에 있어서, 상기 Cas9 도메인이 SpCas9 도메인을 포함하는, 변형된 세포.
74.
실시형태 73에 있어서, 상기 SpCas9 도메인이 D10A 및/또는 H840A 아미노산 치환 또는 이들의 상응하는 아미노산 치환을 포함하는, 변형된 세포.
75.
실시형태 73 또는 74에 있어서, 상기 SpCas9 도메인이 NGG PAM에 대한 특이성을 갖는, 변형된 세포.
76.
실시형태 73 내지 75 중 어느 한 실시형태에 있어서, 상기 SpCas9 도메인이 NGA PAM, NGT PAM, 또는 NGC PAM에 대한 특이성을 갖는, 변형된 세포.
77.
실시형태 73 내지 76 중 어느 한 실시형태에 있어서, 상기 SpCas9 도메인이 아미노산 치환 L1111R, D1135V, G1218R, E1219F, A1322R, R1335V, T1337R 및 하나 이상의 L1111, D1135L, S1136R, G1218S, E1219V, D1332A, R1335Q, T1337I, T1337V, T1337F, 및 T1337M 또는 이들의 상응하는 아미노산 치환을 포함하는, 변형된 세포.
78.
실시형태 73 내지 76 중 어느 한 실시형태에 있어서, 상기 SpCas9 도메인이 아미노산 치환 L1111R, D1135V, G1218R, E1219F, A1322R, R1335V, T1337R 및 하나 이상의 L1111, D1135L, S1136R, G1218S, E1219V, D1332A, D1332S, D1332T, D1332V, D1332L, D1332K, D1332R, R1335Q, T1337I, T1337V, T1337F, T1337S, T1337N, T1337K, T1337R, T1337H, T1337Q, 및 T1337M 또는 이들의 상응하는 아미노산 치환을 포함하는, 변형된 세포.
79.
실시형태 73 내지 76 중 어느 한 실시형태에 있어서, 상기 SpCas9 도메인이 아미노산 치환 D1135L, S1136R, G1218S, E1219V, A1322R, R1335Q, T1337, 및 A1322R, 및 하나 이상의 L1111, D1135L, S1136R, G1218S, E1219V, D1332A, D1332S, D1332T, D1332V, D1332L, D1332K, D1332R, R1335Q, T1337I, T1337V, T1337F, T1337S, T1337N, T1337K, T1337R, T1337H, T1337Q, 및 T1337M 또는 이들의 상응하는 아미노산 치환을 포함하는, 변형된 세포.
80.
실시형태 73 내지 76중 어느 한 실시형태에 있어서, 상기 SpCas9 도메인이 아미노산 치환 D1135M, S1136Q, G1218K, E1219F, A1322R, D1332A, R1335E, 및 T1337R, 또는 이들의 상응하는 아미노산 치환을 포함하는, 변형된 세포.
81.
실시형태 73 내지 75 중 어느 한 실시형태에 있어서, 상기 SpCas9 도메인이 NG PAM, NNG PAM, GAA PAM, GAT PAM, 또는 CAA PAM에 대한 특이성을 갖는, 변형된 세포.
82.
실시형태 81에 있어서, 상기 SpCas9 도메인이 아미노산 치환 E480K, E543K, 및 E1219V 또는 이들의 상응하는 아미노산 치환을 포함하는, 변형된 세포.
83.
실시형태 70 내지 72중 어느 한 실시형태에 있어서, 상기 Cas9 도메인이 SaCas9 도메인을 포함하는, 변형된 세포.
84.
실시형태 83에 있어서, 상기 SaCas9 도메인이 NNNRRT PAM에 대한 특이성을 갖는, 변형된 세포.
85.
실시형태 84에 있어서, 상기 SaCas9 도메인이 NNGRRT PAM에 대한 특이성을 갖는, 변형된 세포.
86.
실시형태 83 내지 85 중 어느 한 실시형태에 있어서, 상기 SaCas9 도메인이 아미노산 치환 N579A 또는 이의 상응하는 아미노산 치환을 포함하는, 변형된 세포.
87.
실시형태 83 내지 86 중 어느 한 실시형태에 있어서, 상기 SaCas9 도메인이 아미노산 치환 E782K, N968K, 및 R1015H, 또는 이들의 상응하는 아미노산 치환을 포함하는, 변형된 세포.
88.
실시형태 70 내지 72중 어느 한 실시형태에 있어서, 상기 Cas9 도메인이 St1Cas9 도메인을 포함하는, 변형된 세포:
89.
실시형태 88에 있어서, 상기 St1Cas9 도메인이 NNACCA PAM에 대한 특이성을 갖는, 변형된 세포.
90.
앞의 실시형태들 중 어느 한 실시형태에 있어서, 상기 아데노신 데아미나제 도메인이 자연에서 발생하지 않는 변형된 아데노신 데아미나제 도메인인, 변형된 세포.
91.
실시형태 90에 있어서, 상기 아데노신 데아미나제 도메인이 TadA 도메인을 포함하는, 변형된 세포.
92.
실시형태 91에 있어서, 상기 TadA 도메인이 TadA 7.10의 아미노산 서열을 포함하는, 변형된 세포.
93.
실시형태 63 내지 92 중 어느 한 실시형태에 있어서, 상기 염기 편집기 시스템이 징크 핑거 도메인을 추가로 포함하는, 변형된 세포.
94.
실시형태 93에 있어서, 상기 징크 핑거 도메인이 인식 나선 서열 RNEHLEV, QSTTLKR, 및 RTEHLAR 또는 인식 나선 서열 RGEHLRQ, QSGTLKR, 및 RNDKLVP를 포함하는, 변형된 세포.
95.
실시형태 93 또는 94에 있어서, 상기 징크 핑거 도메인이 zf1ra 또는 zf1rb인, 변형된 세포.
96.
앞의 실시형태들 중 어느 한 실시형태에 있어서, 상기 염기 편집기 시스템이 핵내 위치결정 신호(NLS)를 추가로 포함하는, 변형된 세포.
97.
실시형태 63 내지 96 중 어느 한 실시형태에 있어서, 상기 염기 편집기 시스템이 하나 이상의 링커를 추가로 포함하는, 변형된 세포.
98.
실시형태 97에 있어서, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인, 상기 아데노신 데아미나제 도메인, 상기 징크 핑거 도메인, 및 상기 NLS 중 2개 이상이 링커를 통해 연결되는, 변형된 세포.
99.
실시형태 98에 있어서, 상기 링커가 펩티드 링커이고, 이에 의해 염기 편집 융합 단백질을 형성하는, 변형된 세포.
100.
실시형태 99에 있어서, 상기 펩티드 링커가,
101.
실시형태 99 또는 100에 있어서, 상기 염기 편집 융합 단백질이,
102.
실시형태 63 내지 101 중 어느 한 실시형태에 있어서, 상기 가이드 폴리뉴클레오티드가 2개의 개별 폴리뉴클레오티드를 포함하고, 상기 2개의 개별 폴리뉴클레오티드는 2개의 DNA, 2개의 RNA, 또는 1개의 DNA와 1개의 RNA인, 변형된 세포.
103.
앞의 실시형태들 중 어느 한 실시형태에 있어서, 상기 가이드 폴리뉴클레오티드가 crRNA 및 tracrRNA를 포함하고, 상기 crRNA는 SERPINA1 폴리뉴클레오티드 중의 표적 서열에 상보적인 핵산 서열을 포함하는, 변형된 세포.
104.
실시형태 103에 있어서, 상기 표적 서열이, GACAAGAAAGGGACTGAAGC, ATCGACAAGAAAGGGACTGA, 및 ACACACCGGTTGGTGGCCTC로 이루어진 군에서 선택된 서열, 또는 이의 상보체(complementary)를 포함하는, 변형된 세포.
105.
실시형태 102 또는 103에 있어서, 상기 염기 편집기 시스템이 단일 가이드 RNA(sgRNA)를 포함하는, 변형된 세포.
106.
실시형태 105에 있어서, 상기 SgRNA가 ACTCTaGGCAGAGGTCTCAAAGG 및 GCTCTaGGCCGAAGTGTCGCAGG로 이루어진 군에서 선택된 서열을 포함하는, 변형된 세포.
107.
실시형태 63 내지 106 중 어느 한 실시형태에 있어서, 상기 염기 편집기 시스템이 상기 가이드 폴리뉴클레오티드, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인, 및 상기 데아미나제 도메인 중 하나 이상을 포함하는 벡터를 포함하는, 변형된 세포.
108.
실시형태 107에 있어서, 상기 벡터가 아데노바이러스 벡터, AAV 벡터, 렌티바이러스 벡터, 또는 레트로바이러스 벡터인, 변형된 세포.
109.
염기 편집기 시스템으로서,
가이드 폴리뉴클레오티드 또는 상기 가이드 폴리뉴클레오티드를 코딩하는 핵산;
폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 또는 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인을 코딩하는 핵산, 및
아데노신 데아미나제 도메인 또는 상기 아데노신 데아미나제 도메인을 코딩하는 핵산,
을 포함하고,
상기 가이드 폴리뉴클레오티드는 SERPINA1 폴리뉴클레오티드 중의 알파-1 항트립신 결핍(A1AD)의 원인이 되는 단일 뉴클레오티드 다형성(SNP)의 A·T에서 G·C로의 변경을 수행하도록 상기 염기 편집기 시스템을 표적화할 수 있는, 염기 편집기 시스템.
110.
염기 편집기 시스템으로서,
가이드 폴리뉴클레오티드 또는 상기 가이드 폴리뉴클레오티드를 코딩하는 핵산;
폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 또는 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인을 코딩하는 핵산, 및
아데노신 데아미나제 도메인 또는 상기 아데노신 데아미나제 도메인을 코딩하는 핵산,
을 포함하고,
상기 가이드 폴리뉴클레오티드는 SERPINA1 폴리뉴클레오티드 중의 알파-1 항트립신 결핍(A1AD)의 원인이 되는 단일 뉴클레오티드 다형성(SNP)의 A·T에서 G·C로의 변경을 수행하도록 상기 염기 편집기 시스템을 표적화할 수 있으며,
상기 SERPINA1 폴리뉴클레오티드는 상기 SNP로부터 초래된 위치 324에 라이신을 포함하는 A1AT 단백질을 코딩하고,
상기 A·T에서 G·C로의 변경은 상기 라이신을 야생형 아미노산으로 치환하는, 염기 편집기 시스템.
111.
실시형태 109에 있어서, 상기 SERPINA1 폴리뉴클레오티드가 상기 SNP로부터 초래된 위치 342에 라이신을 포함하는 A1AT 단백질을 코딩하는, 염기 편집기 시스템.
112.
실시형태 111에 있어서, 상기 A·T에서 G·C로의 변경이 상기 라이신을 야생형 아미노산으로 치환하는 것인, 염기 편집기 시스템.
113.
실시형태 110 또는 112에 있어서, 상기 야생형 아미노산이 글루탐산인, 염기 편집기 시스템.
114.
실시형태 109 내지 113 중 어느 한 실시형태에서, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인이 Cas9 도메인인, 염기 편집기 시스템.
115.
실시형태 114에 있어서, 상기 Cas9 도메인이 뉴클레아제 비활성 Cas9 도메인인, 염기 편집기 시스템.
116.
실시형태 114에 있어서, 상기 Cas9 도메인이 Cas9 닉카아제 도메인인, 염기 편집기 시스템.
117.
실시형태 114 내지 116 중 어느 한 실시형태에서, 상기 Cas9 도메인이 SpCas9 도메인을 포함하는, 염기 편집기 시스템.
118.
실시형태 117에 있어서, 상기 SpCas9 도메인이 D10A 및/또는 H840A 아미노산 치환 또는 이들의 상응하는 아미노산 치환을 포함하는, 염기 편집기 시스템.
119.
실시형태 117 또는 118에 있어서, 상기 SpCas9 도메인이 NGG PAM에 대한 특이성을 갖는, 염기 편집기 시스템.
120.
실시형태 117 내지 119 중 어느 한 실시형태에서, 상기 SpCas9 도메인이 NGA PAM, NGT PAM, 또는 NGC PAM에 대한 특이성을 갖는, 염기 편집기 시스템.
121.
실시형태 117 내지 119 중 어느 한 실시형태에서, 상기 SpCas9 도메인이 아미노산 치환 L1111R, D1135V, G1218R, E1219F, A1322R, R1335V, T1337R 및 하나 이상의 L1111, D1135L, S1136R, G1218S, E1219V, D1332A, R1335Q, T1337I, T1337V, T1337F, 및 T1337M 또는 이들의 상응하는 아미노산 치환을 포함하는, 염기 편집기 시스템.
122.
실시형태 117 내지 119 중 어느 한 실시형태에서, 상기 SpCas9 도메인이 아미노산 치환 L1111R, D1135V, G1218R, E1219F, A1322R, R1335V, T1337R 및 하나 이상의 L1111, D1135L, S1136R, G1218S, E1219V, D1332A, D1332S, D1332T, D1332V, D1332L, D1332K, D1332R, R1335Q, T1337I, T1337V, T1337F, T1337S, T1337N, T1337K, T1337R, T1337H, T1337Q, 및 T1337M 또는 이들의 상응하는 아미노산 치환을 포함하는, 염기 편집기 시스템.
123.
실시형태 117 내지 119 중 어느 한 실시형태에서, 상기 SpCas9 도메인이 아미노산 치환 D1135L, S1136R, G1218S, E1219V, A1322R, R1335Q, T1337, 및 A1322R, 및 하나 이상의 L1111, D1135L, S1136R, G1218S, E1219V, D1332A, D1332S, D1332T, D1332V, D1332L, D1332K, D1332R, R1335Q, T1337I, T1337V, T1337F, T1337S, T1337N, T1337K, T1337R, T1337H, T1337Q, 및 T1337M 또는 이들의 상응하는 아미노산 치환을 포함하는, 염기 편집기 시스템.
124.
실시형태 117 내지 119 중 어느 한 실시형태에서, 상기 SpCas9 도메인이 아미노산 치환 D1135M, S1136Q, G1218K, E1219F, A1322R, D1332A, R1335E, 및 T1337R, 또는 이들의 상응하는 아미노산 치환을 포함하는, 염기 편집기 시스템.
125.
실시형태 117 내지 119 중 어느 한 실시형태에서, 상기 SpCas9 도메인이 NG PAM, NNG PAM, GAA PAM, GAT PAM, 또는 CAA PAM에 대한 특이성을 갖는, 염기 편집기 시스템.
126.
실시형태 125에 있어서, 상기 SaCas9 도메인이 아미노산 치환 E782K, N968K, 및 R1015H, 또는 이들의 상응하는 아미노산 치환을 포함하는, 염기 편집기 시스템.
127.
실시형태 114 내지 116 중 어느 한 실시형태에서, 상기 Cas9 도메인이 SaCas9 도메인을 포함하는, 염기 편집기 시스템.
128.
실시형태 127에 있어서, 상기 SaCas9 도메인이 NNNRRT PAM에 대한 특이성을 갖는, 염기 편집기 시스템.
129.
실시형태 128에 있어서, 상기 SaCas9 도메인이 NNGRRT PAM에 대한 특이성을 갖는, 염기 편집기 시스템.
130.
실시형태 127 내지 129 중 어느 한 실시형태에서, 상기 SaCas9 도메인이 아미노산 치환 N579A 또는 이의 상응하는 아미노산 치환을 포함하는, 염기 편집기 시스템.
131.
실시형태 127 내지 130 중 어느 한 실시형태에서, 상기 SaCas9 도메인이 아미노산 치환 E782K, N968K, 및 R1015H, 또는 이들의 상응하는 아미노산 치환을 포함하는, 염기 편집기 시스템.
132.
실시형태 117 내지 119 중 어느 한 실시형태에서, 상기 Cas9 도메인이 St1Cas9 도메인을 포함하는, 염기 편집기 시스템:
133.
실시형태 132에 있어서, 상기 St1Cas9 도메인이 NNACCA PAM에 대한 특이성을 갖는, 염기 편집기 시스템.
134.
앞의 실시형태들 중 어느 한 실시형태에서, 상기 아데노신 데아미나제 도메인이 자연에서 발생하지 않는 변형된 아데노신 데아미나제 도메인인, 염기 편집기 시스템.
135.
실시형태 90에 있어서, 상기 아데노신 데아미나제 도메인이 TadA 도메인을 포함하는, 염기 편집기 시스템.
136.
실시형태 91에 있어서, 상기 TadA 도메인이 TadA7.10의 아미노산 서열을 포함하는, 염기 편집기 시스템.
137.
실시형태 109 내지 136 중 어느 한 실시형태에서, 상기 염기 편집기 시스템이 징크 핑거 도메인을 더 포함하는, 염기 편집기 시스템.
138.
실시형태 137에 있어서, 상기 징크 핑거 도메인이 인식 나선 서열 RNEHLEV, QSTTLKR, 및 RTEHLAR 또는 인식 나선 서열 RGEHLRQ, QSGTLKR, 및 RNDKLVP를 포함하는, 염기 편집기 시스템.
139.
실시형태 136 또는 137에 있어서, 상기 징크 핑거 도메인이 zf1ra 또는 zf1rb인, 염기 편집기 시스템.
140.
앞의 실시형태들 중 어느 한 실시형태에 있어서, 상기 염기 편집기 시스템이 핵 위치결정 신호(NLS)를 추가로 포함하는, 염기 편집기 시스템.
141.
실시형태 109 내지 140 중 어느 한 실시형태에서, 상기 염기 편집기 시스템이 하나 이상의 링커를 추가로 포함하는, 염기 편집기 시스템.
142.
실시형태 141에 있어서, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합도메인, 상기 아데노신 데아미나제 도메인, 상기 징크 핑거 도메인, 및 상기 NLS 중 2개 이상이 링커를 통해 연결되는, 염기 편집기 시스템.
143.
실시형태 142에 있어서, 상기 링커가 펩티드 링커이고, 이에 의해 염기 편집 융합 단백질을 형성하는, 염기 편집기 시스템.
144.
실시형태 143에 있어서, 상기 펩티드 링커가,
145.
실시형태 143 또는 144에 있어서, 상기 염기 편집 융합 단백질이,
146.
앞의 실시형태들 중 어느 한 실시형태에 있어서, 상기 가이드 폴리뉴클레오티드가 2개의 개별 폴리뉴클레오티드를 포함하고, 2개의 개별 폴리뉴클레오티드는 2개의 DNA, 2개의 RNA, 또는 1개의 DNA와 1개의 RNA인, 염기 편집기 시스템.
147.
실시형태 109 내지 146 중 어느 한 실시형태에 있어서, 상기 가이드 폴리뉴클레오티드가 crRNA 및 tracrRNA를 포함하고, 상기 crRNA는 상기 SERPINA1 폴리뉴클레오티드 중의 표적 서열에 상보적인 핵산 서열을 포함하는, 염기 편집기 시스템.
148.
실시형태 147에 있어서, 상기 표적 서열이, GACAAGAAAGGGACUGAAGC, AUCGACAAGAAAGGGACUGA, 및 ACACACCGGUUGGUGGCCUC 또는 이의 상보체(complementary)로 이루어진 군에서 선택된 서열을 포함하는, 염기 편집기 시스템.
149.
실시형태 147 또는 148에 있어서, 상기 염기 편집기 시스템이 단일 가이드 RNA(sgRNA)를 포함하는, 염기 편집기 시스템.
150.
실시형태 149에 있어서, 상기 sgRNA가 ACTCTaGGCAGAGGTCTCAAAGG 및 GCTCTaGGCCGAAGTGTCGCAGG이루어진 군에서 선택된 서열을 포함하는, 염기 편집기 시스템.
151.
실시형태 109 내지 150 중 어느 한 실시형태에 있어서, 상기 염기 편집기 시스템이 상기 가이드 폴리뉴클레오티드, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인, 및 상기 데아미나제 도메인 중 하나 이상을 포함하는 벡터를 포함하는, 염기 편집기 시스템.
152.
실시형태 151에 있어서, 상기 벡터가 아데노바이러스 벡터, AAV 벡터, 렌티바이러스 벡터, 또는 레트로바이러스 벡터인, 염기 편집기 시스템.
153.
필요로 하는 대상체의 질병을 치료하는 방법으로서,
상기 대상체에게,
가이드 폴리뉴클레오티드 또는 상기 가이드 폴리뉴클레오티드를 코딩하는 핵산;
폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 또는 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인을 코딩하는 핵산, 및
데아미나제 도메인 또는 상기 아데노신 데아미나제 도메인을 코딩하는 핵산,
을 포함하는 염기 편집기 시스템을 투여하는 단계;를 포함하고,
상기 가이드 폴리뉴클레오티드는 상기 대상체 내의 세포의 표적 폴리뉴클레오티드 중의 병원성 단일 뉴클레오티드 다형성(SNP)의 탈아미노화를 수행하도록 상기 염기 편집기 시스템을 표적화할 수 있으며,
상기 병원성 SNP는 표 3A 또는 표 3B에서 병원성 아미노산 돌연변이의 원인이 되고, 상기 병원성 SNP의 탈아미노화는 상기 병원성 SNP를 이의 야생형 대립유전자로의 전환을 초래하며, 그로 인해 상기 질병을 치료하는, 방법.
154.
필요로 하는 대상체에서 질환을 치료하는 방법으로서,
(a) 세포 내로,
가이드 폴리뉴클레오티드 또는 상기 가이드 폴리뉴클레오티드를 코딩하는 핵산;
폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 또는 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인을 코딩하는 핵산, 및
데아미나제 도메인 또는 상기 데아미나제 도메인을 코딩하는 핵산
을 포함하는 염기 편집기 시스템을 도입하는 단계, 및
(b) 상기 세포를 상기 대상체에게 투여하는 단계;를 포함하고,
상기 가이드 폴리뉴클레오티드는 상기 대상체 내의 세포의 표적 폴리뉴클레오티드 중의 병원성 단일 뉴클레오티드 다형성(SNP)의 탈아미노화를 수행하도록 상기 염기 편집기 시스템을 표적화할 수 있으며,
상기 병원성 SNP는 표 3A 또는 표 3B의 병원성 아미노산 돌연변이의 원인이 되고, 상기 병원성 SNP의 탈아미노화는 상기 병원성 SNP를 이의 야생형 대립유전자로의 전환을 초래하며, 그로 인해 상기 질병을 치료하는, 방법.
155.
표적 폴리뉴클레오티드 중의 질병의 원인이 되는 SNP를 교정하는 방법으로서,
상기 표적 폴리뉴클레오티드를,
가이드 폴리뉴클레오티드;
폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인, 및
데아미나제 도메인,
을 포함하는 염기 편집기 시스템과 접촉시키는 단계;를 포함하고,
상기 가이드 폴리뉴클레오티드는 상기 대상체 내의 세포의 표적 폴리뉴클레오티드 중의 병원성 단일 뉴클레오티드 다형성(SNP)의 탈아미노화를 수행하도록 상기 염기 편집기 시스템을 표적화할 수 있으며,
상기 병원성 SNP는 표 3A 또는 표 3B의 병원성 아미노산 돌연변이의 원인이 되고, 상기 병원성 SNP의 탈아미노화는 상기 병원성 SNP를 이의 야생형 대립 유전자로의 전환을 초래하며, 그로 인해 상기 표적 폴리뉴클레오티드 중의 상기 병원성 SNP를 교정하는, 방법.
156.
질병 치료를 위한 변형된 세포를 생산하는 방법으로서,
세포 내로,
가이드 폴리뉴클레오티드 또는 상기 가이드 폴리뉴클레오티드를 코딩하는 핵산;
폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 또는 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인을 코딩하는 핵산, 및
데아미나제 도메인 또는 상기 데아미나제 도메인을 코딩하는 핵산,
을 포함하는 염기 편집기 시스템을 도입하는 단계;를 포함하고,
상기 가이드 폴리뉴클레오티드는 상기 대상체 내의 세포의 표적 폴리뉴클레오티드 중의 병원성 단일 뉴클레오티드 다형성(SNP)의 탈아미노화를 수행하도록 상기 염기 편집기 시스템을 표적화할 수 있으며,
상기 병원성 SNP는 표 3A 또는 표 3B의 병원성 아미노산 돌연변이의 원인이 되고, 상기 SNP의 탈아미노화는 상기 병원성 SNP를 이의 야생형 대립유전자로의 전환을 초래하며, 그로 인해 표적 폴리뉴클레오티드 중의 상기 병원성 SNP를 교정하는, 방법.
157.
실시형태 156에 있어서, 상기 도입이 생체내 또는 생체외인, 방법.
158.
실시형태 156 또는 157에 있어서, 상기 세포가 상기 질병을 지니는 대상체로부터 수득되는, 방법.
159.
실시형태 156 내지 158 중 어느 한 실시형태에 있어서, 상기 질병이,
스타가르트 병(Stargardt disease), 탄력섬유성가황색종(pseudoxanthoma elasticum), 중쇄 아실-CoA 탈수소효소 결핍, 중증 복합 면역 결핍(severe combined immunodeficiency), 원발성 저산소증(primary hypoxaluria), 상염색체 열성 고콜레스테롤혈증(dehyautosomal recessive hypercholesterolemia), 이염성백질이영양증(metachromatic leukodystrophy), 마로토-라미 증후군(MSPVI; Marteauz-Lamy Syndrome), 시트룰린혈증(Citrullinemia) 유형 I, 다리어병(Darier disease), 고전적 호모시스테인뇨증(classic homocysteinuria), 낭포성 섬유증(cystic fibrosis), 신경 세로이드 리포푸스신증(Neuronal ceroid lipofuscinosis), 상염색체 우성 난청(autosomal dominant deafness), 카르니틴 팔미토일트랜스퍼라제 II 결핍(carnitine palmitoyltransferase II deficiency), 시스틴축적병(cystinosis), 상염색체 열성 난청(autosomal recessive deafness), 무감마글로불린혈증(agammaglobulinemia), 선천성 인자 XI 결핍(congenital factor XI deficiency), 선천성 인자 V 결핍, 선천성 인자 VII 결핍, 혈우병(hemophilia) A, 혈우병 B, 티로신혈증(tyrosinemia) 유형 1, 상염색체 우성 저인산혈구루병(autosomal dominant hypophosphatemic rickets), 폰 기르케병(von Gierke disease), 지중해성 G6PD 결핍(Mediterranean G6PD deficiency), 모르퀴오 증후군(Morquio Syndrome)(MPSIVA), 고전적 갈락토스혈증(classic galactosemia), 고셔병(Gaucher disease), 글루타릴-CoA 탈수소효소 결핍(glutaryl-CoA dehydrogenase deficiency), 글라이신뇌병증(glycine encephalopathy), 추체-간체 이영양증(cone-rod dystrophy), 슬라이 증후군(Sly Syndrome)(MPSVII), 겸상 적혈구 질환(sickle cell disease), 간헐성 포르피린증(intermitent porphyria), 레쉬-니아 증후군(Lesch-Nyhan syndrome), 헌터 증후군(Hunter syndrome), 헐러 증후군(Hurler syndrome)(MSPII), 색소성망막염(retinitis pigmentosa), 안데르센-타윌 증후군(Andersen-Tawil syndrome), 미스만 상피 각막 이영양증(Meesmann epithelial corneal dystrophy), 파킨슨병(Parkinson's disease), B형 산필리포 증후군(Sanfilippo syndrome B)(MPSIIIB), CADASIL 증후군(CADASIL syndrome), 블루콘 단색증(blue-cone monochromatism), 페닐케톤뇨증(phenylketonuria), 펜드레드 증후군(Pendred syndrome), 반문상 포르피린증(variegate porphyria), 신경 세로이드 리포푸스신증 1, 크로이츠펠트-야콥병(Creutzfeldt-Jakob disease)(CJD), 유전성 만성 췌장염(hereditary chronic pancreatitis), 레베르선천성흑암시(Leber congenital amaurosis) 2, 블랙판-다이아몬드 빈혈(Blackfan-Diamond anemia), A형 산필리포 증후군(Sanfilippo syndrome A)(MPSIIIA), 니만-픽병 유형 A(Neimann-Pick disease type A), ATTR 아밀로이드증(amyloidosis), 색소성망막염/어셔 증후군 유형 1C(Usher syndrome type 1C), 및 근세관성근증(myotubular myopathy)으로 이루어진 군에서 선택되는, 방법.
160.
실시형태 156 내지 159중 어느 한 실시형태에 있어서, 상기 표적 폴리뉴클레오티드가 표 3A 또는 표 3B의 유전자를 포함하는, 방법.
161.
실시형태 156 내지 160 중 어느 한 실시형태에 있어서, 상기 병원성 아미노산 돌연변이가 표 3A 또는 표 3B의 병원성 돌연변이를 포함하는, 방법.
162.
실시형태 156 내지 161 중 어느 한 실시형태에 있어서, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인이 Cas9 도메인인, 방법.
163.
실시형태 162에 있어서, 상기 Cas9 도메인이 뉴클레아제 비활성 Cas9 도메인 또는 Cas9 닉카아제 도메인, 방법.
164.
실시형태 162 또는 163에 있어서, 상기 Cas9 도메인이 SpCas9 도메인을 포함하는, 방법.
165.
실시형태 164에 있어서, 상기 SpCas9 도메인이 D10A 및/또는 H840A 아미노산 치환 또는 이들의 상응하는 아미노산 치환을 포함하는, 방법.
166.
실시형태 164 또는 165에 있어서, 상기 SpCas9 도메인이 NGN PAM에 대한 특이성을 갖는, 방법.
167.
실시형태 164 내지 166 중 어느 한 실시형태에 있어서, 상기 Cas9 도메인이 아미노산 치환 D1135M, S1136Q, G1218K, E1219F, A1322R, D1332A, R1335E, 및 T1337R, 또는 이들의 상응하는 아미노산 치환을 포함하는, 방법.
168.
실시형태 164 또는 165에 있어서, 상기 SpCas9 도메인이 NG PAM, NNG PAM, GAA PAM, GAT PAM, 또는 CAA PAM에 대한 특이성을 갖는, 방법.
169.
실시형태 168에 있어서, 상기 Cas9 도메인이 아미노산 치환 E480K, E543K, 및 E1219V, 또는 이들의 상응하는 아미노산 치환을 포함하는, 방법.
170.
실시형태 162 또는 163에 있어서, 상기 Cas9 도메인이 SaCas9 도메인을 포함하는, 방법.
171.
실시형태 170에 있어서, 상기 SaCas9 도메인이 NNNRRT PAM에 대한 특이성을 갖는, 방법.
172.
실시형태 170 또는 171에 있어서, 상기 SaCas9 도메인이 아미노산 치환 N579A 또는 이의 상응하는 아미노산 치환을 포함하는, 방법.
173.
실시형태 170 내지 172 중 어느 한 실시형태에 있어서, 상기 Cas9 도메인이 아미노산 치환 E782K, N968K, 및 R1015H, 또는 이들의 상응하는 아미노산 치환을 포함하는, 방법.
174.
실시형태 162 또는 163에 있어서, 상기 Cas9 도메인이 St1Cas9 도메인을 포함하는, 방법.
175.
실시형태 174에 있어서, 상기 St1Cas9 도메인이 NNACCA PAM에 대한 특이성을 갖는, 방법.
176.
실시형태 156 내지 175 중 어느 한 실시형태에 있어서, 상기 데아미나제 도메인이 시티딘 데아미나제 도메인을 포함하는, 방법.
177.
실시형태 176에 있어서, 상기 시티딘 데아미나제 도메인이 APOBEC1 도메인을 포함하는, 방법.
178.
실시형태 156 내지 175 중 어느 한 실시형태에 있어서, 상기 데아미나제 도메인이 아데노신 데아미나제 도메인을 포함하는, 방법.
179.
실시형태 178에 있어서, 상기 아데노신 데아미나제 도메인이 TadA 7.10 도메인을 포함하는, 방법.
180.
실시형태 156 내지 179 중 어느 한 실시형태에 있어서, 상기 염기 편집기 시스템이 UGI 도메인을 추가로 포함하는, 방법.
181.
실시형태 156 내지 180 중 어느 한 실시형태에 있어서, 상기 염기 편집기 시스템이 징크 핑거 도메인을 추가로 포함하는, 방법.
182.
실시형태 156 내지 181 중 어느 한 실시형태에 있어서, 상기 염기 편집기 시스템이 하나 이상의 링커를 더 포함하는, 방법.
183.
실시형태 182에 있어서, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인, 상기 아데노신 데아미나제 도메인, 상기 UGI 도메인 및 상기 징크 핑거 도메인 중 2개 이상이 링커를 통해 연결되는, 방법.
184.
실시형태 183에 있어서, 상기 링커가 펩티드 링커이고, 이에 의해 염기 편집 융합 단백질을 형성하는, 방법.
185.
실시형태 184에 있어서, 상기 염기 편집 융합 단백질이 BE4의 아미노산 서열을 포함하는, 방법.
186.
실시형태 184에 있어서, 상기 염기 편집 융합 단백질이,
187.
실시형태 156 내지 186 중 어느 한 실시형태에 있어서, 상기 탈아미노화가 10 % 미만의 인델(indel) 형성을 초래하는, 방법.
188.
염기 편집기 시스템으로서,
가이드 폴리뉴클레오티드 또는 상기 가이드 폴리뉴클레오티드를 코딩하는 핵산;
폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 또는 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인을 코딩하는 핵산, 및
데아미나제 도메인 또는 상기 아데노신 데아미나제 도메인을 코딩하는 핵산,
을 포함하고,
상기 가이드 폴리뉴클레오티드는 표적 폴리뉴클레오티드 중의 병원성 단일 뉴클레오티드 다형성(SNP)의 탈아미노화를 수행하도록 상기 염기 편집기 시스템을 표적화할 수 있으며,
상기 병원성 SNP는 표 3A 또는 표 3B의 병원성 아미노산 돌연변이의 원인이 되고, 상기 병원성 SNP의 탈아미노화는 상기 병원성 SNP를 이의 야생형 대립 유전자로의 전환을 초래하며, 상기 표적 폴리뉴클레오티드는 표 3A 또는 표 3B의 표적화 서열(targeting sequence)을 포함하는, 염기 편집기 시스템.
실시예
이하의 실시예는 예시의 목적으로만 제공되며, 본 명세서에 제공된 청구범위의 범위를 제한하려는 의도는 아니다.
실시예
1. 염기 편집기의 PAM
변이체
검증
새로운 CRISPR 시스템 및 PAM 변이체는 염기 편집기가 표적 SNP에서 정확한 교정을 할 수 있도록 한다. 몇 가지 새로운 PAM 변이체가 평가되고 검증되었다. PAM 평가 및 염기 편집기에 관한 상세 내용은, 예를 들어, PCT 국제출원 PCT/ 2017/045381(WO2018/027078) 및 PCT/US2016/058344(WO2017/070632)에 설명되어 있으며, 이들 각각은 그 전문이 참조로 본 명세서에 포함된다. 또한 각각의 전체 내용이 본 명세서에 참조로 포함되는, 다음 문헌을 참고: Komor, A.C., et al., "Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage" Nature 533, 420-424 (2016); Gaudelli, N.M., et al., "Programmable base editing of A·T to G·C in genomic DNA without DNA cleavage" Nature 551, 464-471 (2017); 및 Komor, A.C., et al., "Improved base excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity" Science Advances 3:eaao4774 (2017).
실시예
2. 알파-1
항트립신
결핍(
A1AD
)을 교정하기 위한 유전자 편집
알파-1 항트립신(A1A 또는 A1AT)은 염색체 14의 SERPINA1 유전자에 의해 코딩되는 프로테아제 억제제이다. 이 당단백질은 주로 간에서 합성되고, 혈액으로 분비되며, 건강한 성인에서 혈청 농도는 1.5-3.0 g/L(20-52 μmol/L)이다(도 1). A1AT는 폐 간질 및 폐포 내막 액으로 확산되며, 호중구 엘라스타제를 비활성화하여, 폐 조직을 프로테아제-매개된 손상으로부터 보호한다. 알파-1 항트립신 결핍(A1AD)은 상염색체 공동우성 방식으로 유전된다.
SERPINA1 유전자의 100개 이상의 유전적 변이체가 밝혀졌지만, 모두가 질병과 관련되어 있는 것은 아니다. 이러한 변이체에 대한 알파벳 지정은 겔 전기 영동에서 이동 속도를 기반으로 한다. 가장 흔한 변이체는 M(중간 이동성) 대립유전자이며, 가장 빈번한 두 가지 결핍 대립유전자는 PiS와 PiZ(후자는 이동 속도가 가장 느림)이다. 측정가능한 혈청 단백질을 생성하지 않는 몇몇 돌연변이가 밝혀졌으며; 이들은 "null" 대립유전자로 지칭된다. 가장 흔한 유전자형은 MM으로, 정상적인 혈청 수준의 알파-1 항트립신을 생성한다. 심각한 결핍이 있는 대부분의 사람들은 Z 대립유전자(ZZ)에 대해 동형접합이다. Z 단백질은 간세포의 소포체에서 생산되는 동안 미스폴딩되고 중합체화되며; 이러한 비정상적인 중합체는 간 내에 갇혀, 알파-1 항트립신의 혈청 수준을 크게 감소시킨다. 알파-1 항트립신 결핍이 있는 환자에서 나타나는 간질환은 간세포에 비정상적인 알파-1 항트립신 단백질의 축적과, 자가포식, 소포체 스트레스 반응 및 아폽토시스를 포함하는, 그 결과에 따른 세포 반응으로 인해 야기된다. 도 2는 가장 흔한 유전자형들(MM, MZ, SS, SZ and ZZ)과 알파-1 항트립신 각각의 혈청 수준을 보여준다. 감소된 순환 수준의 알파-1 항트립신은 폐에서 호중구 엘라스타제 활성을 증가시키며; 프로테아제 및 항프로테아제 활성의 이러한 불균형은 이 상태와 관련된 폐 질환을 초래한다(도 1).
알파-1 항트립신 결핍(A1AD)은 백인에서 가장 흔하며, 이는 폐와 간에 가장 빈번하게 영향을 미친다. 폐에서 가장 흔한 증상은 폐 기저부에서 가장 두드러지는 조기 발병(30대 및 40대 환자) 범세엽성 폐기종(panacinar emphysema)이다. 그러나, 기관지확장증(bronchiectasis)과 마찬가지로, 미만성 또는 상부엽성 폐기종이 발생할 수 있다. 가장 자주 설명되는 증상으로는 호흡곤란(dyspnea), 천명(wheezing), 기침 등이 있다. 폐기능 검사는 COPD와 일치하는 결과를 보여주며; 그러나, 기관지확장제(bronchodilator) 반응이 관찰될 수 있으며 천식으로 오진될 수 있다.
ZZ 유전자형에 의해 유발되는 간 질환은 다양한 방식으로 나타난다. 영향을 받은 영아는 신생아기에 담즙정체성 황달(cholestatic jaundice)과, 때로는 무혈성 변(창백하거나 점토-색)과 간비대(hepatomegaly)가 나타날 수 있다. 혈액 내 공액 빌리루빈, 트랜스아미나제 및 감마-글루타밀 전이효소 수치가 상승된다. 나이를 더 먹은 어린이와 성인에서의 간 질환은 상승된 트랜스아미나제의 우연한 발견과 함께, 또는 정맥류 출혈이나 복수를 포함하는, 확립된 간경변(cirrhosis)의 징후와 함께 나타날 수 있다. 알파-1 항트립신 결핍은 또한 환자를 간세포 암종에 취약하게 만든다. 동형접합 ZZ 유전자형은 간 질환이 발달하는 데 필요하지만, 이형접합 Z 돌연변이는 C형 간염 감염 및 낭포성 섬유증 간 질환과 같은, 더 심각한 간 질환의 위험을 훨씬 더 많이 부여함으로써 다른 질병의 유전적 변형자로서 역할할 수 있다.
A1AD의 가장 흔한 두 가지 임상 변이는 E264V(PiS)와 E342K(PiZ) 대립유전자이다. A1AD 환자의 절반 이상이 적어도 하나의 E342K 대립유전자 돌연변이 사본을 내포하고 있다. 상동성 직접 복구(HDR)를 통한 뉴클레아제 게놈 편집은 비효율적이며, 풍부한 인델은 순환 수준을 저하시키고 폐 증상을 악화시킬 수 있다. AAV를 통한 간에 대한 유전자 치료는 추가적인 미스폴딩된 단백질의 생성으로 인해 간 병리를 악화시킨다. 야생형 A1AT 및 E342K A1AT를 녹다운시키는 siRNA를 둘 다 코딩하는 AAV는 두 병리를 모두 해결할 수 있는 가능성을 보여준다.
도 3a는 SERPINA1 유전자의 돌연변이에 대한 정밀 교정 염기 편집 전략을 보여준다. 서열 중의 위치 7에 "A" 핵염기(A7)인, "표적 A"는 야생형을 회복하도록 편집될 수 있다. 도 3b는 DNA 편집기(E342K, D341G, E342G)에 의해 생성된 대체 대립유전자의 기능으로서 A1AT 단백질 분비에 대한 특성화를 나타낸다. HEK293T를, A1AT 변이체를 코딩하는 벡터로 형질감염시키고, 상청액을 A1AT 함량에 대해 ELISA로 평가했다. 이 분석으로 WT A1AT에 비해 E342K-함유 A1AT의 감소된 분비를 특징으로 했다. 결과는 PAM 옵션이 AGCT인 것을 나타냈으며, 이는 SERPINA1 서열의 위치 5 및/또는 위치 7(A5 및/또는 A7)에서 "A"의 편집을 초래할 것으로 예상된다. A1AT 기능은 A7 편집이 야생형 단백질을 생성했을 때 회복되는 것으로 밝혀졌으며; A5 및 A7 편집 시에는 위치 342에 글루탐산(E), D341G가 초래되었고; A7 및 A8 경우에는, WT 및 E342G로 전환되었다. 재조합 돌연변이 A1AT의 평가된 표현형(활성/기능)은 세포로부터의 단백질 분비와 호중구 엘라스타제의 억제를 모두 포함했다. A1AT 변이체의 기능적 활성은 도 3c(엘라스타제의 억제)에 도시되어 있다. 흥미롭게도, D341G 돌연변이는 상당한 엘라스타제 활성을 나타냈으며, 이는 A5 및 A7 편집에 대한 회복적 결과를 확인시킨다. 도 4는 폴리펩티드 변이체(예를 들어, 아데노신 데아미나제 변이체)를 생성하기 위한 전략을 보여준다.
실시예
3.
HEK298T
세포에서 염기 편집
HEK298T 세포에서 다양한 유전자에서 다양한 SNP의 염기 편집 효율을 시험했다(표 7). 플라스미드 형질감염의 경우, HEK293T 세포를 250 ng의 gRNA 플라스미드와 750 ng의 염기 편집기 플라스미드를 이용하여 HEK293 세포에 최적화된 고효율, 저독성 DNA 형질감염 시약인, Mirus TransIT293으로 3 ㎕ : 1㎕ 비율로 일시적으로 형질감염시켰다. mRNA 형질감염의 경우, HEK293T 세포를 2개의 20 ms 펄스를 사용하여 1150V에서 Neon System을 사용하여 총 RNA 3 ㎍으로 전기천공시켰다. 플라스미드 형질감염 4일 및 RNA 전기천공 2일 후, 0.05 % SDS, 25 ㎍/㎖ 프로테이나제(proteinase) K, 10 mM Tris pH 8.0을 함유하는 간단한 용해 완충액으로 세포에서 게놈 DNA를 추출하고 이어서 85℃에서 열 비활성화시켰다. 게놈 부위를 PCR 증폭시키고 MiSeq에서 시퀀싱했다. 결과를 각 위치의 염기 빈도 및 인델 백분율에 대해 설명한 바와 같이 분석했다. 예를 들어, 인델 계산의 상세 내용은 국제 PCT 국제출원 PCT/2017/045381(WO2018/027078) 및 PCT/US2016/058344(WO2017/070632)에 설명되어 있으며, 이들 각각은 전체가 본 명세서에 참조로 포함된다. 또한, 이들의 전체 내용이 본 명세서에 참조로 포함되는, 다음 문헌 참조: Komor, A.C., et al., "Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage" Nature 533, 420-424 (2016); Gaudelli, N.M., et al., "Programmable base editing of A·C to G·C in genomic DNA without DNA cleavage" Nature 551, 464-471 (2017); 및 Komor, A.C., et al., "Improved base excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity" Science Advances 3:eaao4774 (2017).
표 7. SNP 교정의 간 표적 편집
실시예
4. 돌연변이
셔플링에
의해 생성된 개선된
NGC
-PAM ABE
E342K를 함유하는 A1AT 변이체를 발현하는 PiZ ORF의 통합 렌티바이러스 카세트를 함유하는 HEK293T 세포(HEK293T-E342K)를 Lipo2000을 사용하여 변이체 ABE를 발현하는 플라스미드로 형질감염시켰다. 형질감염 후, A1AT에서의 염기 편집을 특성결정했다. 이 접근법으로, 다음 아미노산 서열을 갖는, Var-3을 포함하는, 다수의 개선된 ABE를 확인했다:
HHEK293T-E342K를 2.5 ㎍ Var-3 ABE mRNA와 1000 ng gRNA 191 길이 20 nt를 사용하여 Neon 전기천공법으로 형질감염시켰다.
spCas9 염기 편집기를 위한 sgRNA로 제공되는 gRNA 백본은 다음과 같다:
본 발명의 방법에 유용한 gRNA는 다음을 포함한다:
mRNA와 sgRNA를 이용한 편집은 A5와 A7에서 주로 연결해제되었다. Var-3 ABE는 다른 변종 ABE보다 훨씬 뛰어난 성능을 나타냈으며 35 % 이상(A7 만 = WT) + (A5 + A7 = WT+D341G - 분비에서의 변화 없음)의 총 유익한 교정을 초래했다.
실시예
5.
HEK293T
세포에서
E342K
교정을 위한
gRNA
길이 최적화
ABE Var-3에 대한 Synthego gRNA와 mRNA를 Neon System을 사용하여 HEK293T-E342K로 중복으로(duplicate) 형질감염시켰다. 18개 및 19개 뉴클레오티드의 표적 상보적 길이를 갖는 gRNA는 A5 위치와 비교하여 원하는 A7 위치에서 더 나은 편집 백분율을 산출했다(도 5). 이 패턴은 절두된 gRNA가 R-루프의 접근가능한 영역을 단축시켜 gRNA의 말단에 가까운 위치들에 대한 편집을 낮추는 메커니즘과 일치한다.
18개 및 19개 뉴클레오티드 gRNA 및 ABE Var-3을 유도된 만능 줄기 세포-유래 E342 간세포 및 PiZZ 마우스 모델에서 E342K 돌연변이를 교정하는 이들의 활성에 대해 시험했다. 변경된 PAM 결합 특이성을 갖는 SpCas9 돌연변이체를 NGC PAM 진화를 이용하여 생성시켰다(도 6a, 6b). 이러한 SpCas9 돌연변이체는 Cas9의 PAM-상호작용(PI) 도메인 내의 돌연변이를 풍부하게 하기 위해 선택되었다. 라이브러리를 변경된 PAM 특이성을 갖는 SpCas9에 대해 스크리닝한다.
실시예
6. 글리코겐 저장 장애 유형 1a(폰
기르케병
)를 교정하기 위한 유전자 편집
글리코겐 저장 장애 유형 1(GSD1 또는 폰 기르케병으로도 알려짐)은, 조직에 글리코겐이 축적되어 글리코겐분해(glycogenolysis) 및 글루코스생성(gluconeogenesis)에서의 결핍이 초래되어, 심각한 저혈당증(hypoglycemia)과 잠재적인 CNS 손상을 동반한 젖산산증(lactic acidosis)을 유발하는 유전되는 장애이다. 미국의 신생아 100,000 명 중 약 1 명이 GSD1을 가지고 태어난다.
GSD1에는 1a 유형(GSD1a)과 1b 유형(GSD1b)의 두가지 유형이 있으며, 이들은 상이한 유전자 돌연변이에 의해 유발된다. GSD1a는 글루코스-6-포스파타제(G6PC)의 돌연변이로 인해 발생하며 GSD1 환자의 약 80 %에 영향을 미친다. 백인 환자의 약 25 %가 열성 돌연변이 Q347*을 가지고 있다. 현재의 치료 요법(regimen)은 식사 사이에 정기적 또는 지속적인 옥수수 전분 공급하는 것을 포함한다(아밀라아제는 전분을 직접 포도당으로 전환시킴).
Q347X
돌연변이의 교정을 위한 염기 편집 전략
G6PC의 발현을 회복하고 포도당 대사를 정상화하기 위해 Q347*를 직접적으로 교정한다. 염기 편집기는 표적화된 부위에서 A>G를 효율적으로 전환하여 Q347X의 교정에 이용할 수 있다. 대표적인 표적 부위(강조표시됨)가 도 7에 도시되어 있다. 이 부위에서 정밀 교정은 다음과 같은 전환을 양산할 수 있다: TAG > CAG(정지 코돈 > 글루타민). 염기 편집기는 NGG PAM 인식 서열 또는 NGA PAM 인식 서열을 사용할 수 있다. 조직 및 전달 전략에는 간 지질 나노입자(LNP) 전달을 포함할 수 있다.
Q347X
돌연변이를 내포하는
iPSc
-유래 간세포의
시험관내
형질 감염
iPSc-유래 간세포(Definigen, Lot 00419 F 002)에서 시험관내 형질감염 방법을 이용하여 염기 편집을 시험했다. GSD1a iPSc-유래 간세포는 복합 이형 접합(Q347X/G222R)이며 Q347X 돌연변이를 내포하고 있다. GSD1a 세포를 플레이팅하고 성숙시켰다.
도 8a 및 도 8b에 도시된 바와 같이, GSD1a iPSc-유래 간세포에 대한 알려진 성숙 주기를 기반으로 형질감염 일정을 선택했다. 도 8a는 플레이팅, 형질감염 및 세포 수확을위한 대표적인 시점을 보여주는 형질감염 일정의 타임 라인을 제공한다. 도 8b는 5일 및 7일에 성숙 GSD1a iPSc-유래 간세포의 대표적인 이미지를 보여준다. 성숙 후(예를 들어, 12 일), GSD1a 세포를 염기 편집기 ABE7.10 VRQR/gRNA 272로 형질감염시켰다. 형질 감염 48 내지 72시간(예를 들어, 14 일째)에, GSD1a 형질 감염된 세포를 gDNA를 위해 수확했다.
GSD1a에 대한 G6PC Q347X의 대표적인 염기 편집 정밀 교정 데이터는 도 9a 및 9b에 도시되어 있다. 도 9a에서, ABE-표적 적중(ON target), ABE-방관자(Bystander), 인델(Indels), 및 뉴클레아제-인델(Nuclease-Indels)에 대한 HEK293T 세포에서의 G6PC Q347X의 염기 편집 효율을 NGA PAM 또는 NGG PAM 서열을 사용하여 조사했다. NGG PAM을 사용하는 G6PC의 표적화된/삽입 서열은 아래와 같다:
상기 표적/삽입 서열은 방관자(이탤릭체 및 밑줄로 표시됨) 및 표적 적중(굵은 글씨체 및 밑줄로 표시됨)에 해당하는 2개의 "a" 핵염기를 포함한다.
NGA PAM을 사용하는 G6PC의 표적/삽입 서열은 아래와 같다:
상기 표적/삽입 서열은 방관자(이탤릭체 및 밑줄로 표시됨) 및 표적 적중(굵은 글씨체 및 밑줄로 표시됨)에 해당하는 두 개의 "a"핵염기를 포함한다.
NGA PAM gRNA 272는 낮은 인델과 검출가능한 방관자 V384A 없이 HEK293T 세포에서 Q347X에 대한 >40 % 정확한 교정을 양산했다(도 9a). 따라서, HEK293 세포를 사용하여 높은 염기 편집 효율이 달성되었다.
도 9b에서, ABE-표적 적중, ABE-방관자, 인델, 및 뉴클레아제-인델에 대한 환자 iPSc-유래 간세포에서 G6PC Q347X의 염기 편집 효율을 NGA PAM 또는 NGG PAM 서열을 사용하여 조사했다. 환자 iPSc-유래 간세포에서 G6PC Q347X의 유사한 편집은 NGA(n = 4) 및 NGG(n = 2) 둘 다에서 무시할 수 있는 인델, 방관자 V384A와 함께 관찰되었다. 도 9b에 도시된 바와 같이, 이형접합 환자 iPS-유래 Q347X 간세포에서의 정밀 교정은 약 8 % 내지 15 % A> G 전환 효율을 초래했다. HEK293 세포보다 낮지만, Q347X iPSc 간세포에서의 염기 편집은 방관자에 비해 더 깨끗한 결과를 생성했다.
환자
iPSc
-유래 간세포에서 ABE
변이체에
대한 A-에서-G 전환 효율
A-에서-G 전환 효율을 G6PC Q347X 환자 iPSc-유래 간세포에서 ABE 변이체에 대해 시험했다. mRNA 변이체(TriLink pBxt464, MSP464, MSP465, MSP471)를 생성시키고 배양 12일째에 GSD1a 환자 iPSc-유래 간세포로 형질감염시켰다. 14일에, 세포를 gDNA 분리를 위해 수확하고 PAS 염색을 수행했다.
GGA PAM을 사용하는 G6PC의 표적화된/삽입 서열은 다음과 같다:
상기 표적/삽입 서열은 방관자(이탤릭체 및 밑줄로 표시됨) 및 표적(굵은 글씨체 및 밑줄로 표시됨)에 해당하는 두 개의 "a"핵염기를 포함한다.
Q347X의 염기 편집 교정 효율의 백분율은 이형 접합 서열에 대한 약 10 %의 A-에서-G 전환 효율로 mRNA 변이체들 간에 유사했다(도 10).
실시예
7.
점액다당류증
유형 1(헐러 증후군)을 교정하기 위한 유전자 편집
점액다당류증 유형 1(MPS1 또는 헐러 증후군이라고도 함)은 신생아 20만명 중 약 1명에서 발생하는 희귀한 상염색체 열성 리소좀 축적 장애이다. MPS1은 골격 이상, 인지 손상(cognitive impairment), 심장 질환(heart disease), 호흡기 문제, 간 및 비장 비대, 기대 수명 감소를 특징으로 한다. MPS1은 알파-L-이두로니다아제 유전자(IDUA; alpha-L-iduronidase)의 돌연변이로 인해 발생하며, 이는 리소좀에서 글리코사미노글리칸(glycosaminoglycans)의 분해에 필수적인 알파-L-이두로니다아제의 결핍으로 이어진다.
NCBI 참조 서열 번호 NP_032351.2에서 확인되는, 대표적인 마우스 알파-L-이두로니다제(IDUA) 단백질의 아미노산 서열은 아래에 제공된다:
NCBI 참조 서열 번호 NM_008325.4에서 확인되는, 대표적인 마우스 알파-L-이두로니다제(IDUA) 핵산 서열은 아래에 제공된다:
NCBI 참조 서열 번호 NP_000194.2에서 확인되는, 대표적인 인간 알파-L-이두로니다제(IDUA) 단백질의 아미노산 서열은 아래에 제공된다:
NCBI 참조 서열 번호 NM_000203에서 확인되는, 대표적인 인간 알파-L-이두로니다제(IDUA) 핵산 서열이 아래에 제공된다:
염기 편집을 마우스 및 인간 IDUA 표적 서열을 사용하여 HEK293T 세포주에서 시험했다(도 11). 마우스 IDUA에 대한 표적화된/삽입 서열은 아래에 제시되어 있으며, 위에 제시된 마우스 IDUA 유전자 서열의 핵산 1612-1824에 상응한다.
상기 마우스 표적/삽입 서열은 "a"핵염기(굵은 글씨체 및 밑줄로 표시됨)를 포함하는 반면, 마우스 IDUA 유전자 서열은 IDUA 서열의 위치 1627에 "g" 핵염기를 포함한다.
인간 IDUA 폴리뉴클레오티드 서열의 표적화된/삽입 서열은 아래에 제시되어 있으며, 상기 제시된 인간 IDUA 유전자 서열의 핵산 1231-1324에 상응한다.
상기 인간 표적/삽입 서열은 "a" 핵염기(굵은 글씨체 및 밑줄로 표시됨)를 포함하는 반면, 인간 IDUA 유전자 서열은 IDUA 서열의 위치 1246에 "g" 핵 기를 포함한다.
플라스미드 형질감염의 경우, HEK293T 세포를 48-웰 플레이트의 웰당 30,000개 세포에서 250 ng의 gRNA 플라스미드와 750ng의 염기 편집기 플라스미드로 형질감염시켰다. NGG PAM 서열을 갖는 염기 편집기 SpCas9-ABE7.10을 사용했다. 마우스 gRNA 서열은 아래에 제시되어 있으며, "a" 핵염기를 포함한다(굵은 글씨체 및 밑줄로 표시됨).:
인간 gRNA 서열은 아래에 제시되어 있으며, "a"핵염기를 포함한다(굵은 글씨체 및 밑줄로 표시됨):
실시예
8. 재료
및 방법
본 명세서에 기재된 실시예에서 제공된 결과는 다음 재료 및 방법을 사용하여 획득하였다.
클로닝
.
사용된 표적 폴리뉴클레오티드 및 gRNA 및 프라이머의 DNA 서열이 본 명세서에 기재되어 있다. gRNA의 경우, 다음 스캐폴드 서열이 제공된다: GUUUUAGAGC UAGAAAUAGC AAGUUAAAAU AAGGCUAGUC CGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU. 이 스캐폴드는 본 명세서의 표에 제시된 PAM, 예를 들어, NGG, NGA, NGC, NGT PAM에 사용되었으며, gRNA는 본 명세서에서 제공되거나 숙련된 당업자의 지식을 기반으로 결정되고 숙련된 당업자가 이해하는 바와 같이 질병-관련 유전자(예를 들어, 표 3A 및 3B)에 대한 스캐폴드 서열 및 스페이서 서열(표적 서열)을 포함한다. (예를 들어, 다음 문헌 참조: Komor, A.C., et al., "Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage" Nature 533, 420-424 (2016); Gaudelli, N.M., et al., "Programmable base editing of A·T to G·C in genomic DNA without DNA cleavage" Nature 551, 464-471 (2017); Komor, A.C., et al., "Improved base excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity" Science Advances 3:eaao4774 (2017), and Rees, H.A., et al., "Base editing: precision chemistry on the genome and transcriptome of living cells." Nat Rev Genet. 2018 Dec;19(12):770-788. doi: 10.1038/s41576-018-0059-1).
VeraSeq ULtra DNA 중합효소(Enzymatics), 또는 Q5 Hot Start High-Fidelity DNA 중합효소(New England Biolabs)를 사용하여 PCR을 수행했다. 염기 편집기(BE) 플라스미드를 USER 클로닝(New England Biolabs)을 이용하여 구축했다. 데아미나제 유전자를 gBlocks Gene Fragments(Integrated DNA Technologies)로 합성했다. 사용된 Cas9 유전자는 아래에 열거되어 있다. Cas9 유전자를 이전에 보고된 플라스미드에서 획득했다. 데아미나제 및 융합 유전자를 pCMV(포유류 코돈 최적화됨) 또는 pET28b(E. 콜라이 코돈-최적화됨) 백본에 클로닝했다. sgRNA 발현 플라스미드를 부위-지정 돌연변이유발을 사용하여 구축했다.
요약하면, 본 명세서에 열거된 프라이머를 제조업체의 지침에 따라 T4 Polynucleotide Kinase(New England Biolabs)를 사용하여 5' 인산화시켰다. 다음으로, 인산화된 프라이머와 주형으로서 관심있는 유전자를 코딩하는 플라스미드와 함께 Q5 Hot Start High-Fidelity Polymerase(New England Biolabs)를 사용하여 제조업체의 지침에 따라 PCR을 수행했다. PCR 생성물을 DpnI(20 U, New England Biolabs)와 함께 37℃에서 1시간 동안 배양하고 QIAprep 스핀 컬럼(Qiagen)에서 정제하고, 제조업체의 지침에 따라 QuickLigase(New England Biolabs)를 사용하여 결찰시켰다. DNA 벡터 증폭을 Mach1 적격(competent) 세포(ThermoFisher Scientific)를 사용하여 수행했다.
ssDNA에 대한 시험관내 데아미나제 분석.
모든 ssDNA 기질의 서열은 아래에 제공되어 있다. 모든 Cy3-표지된 기질을 Integrated DNA Technologies(IDT)에서 입수했다. 데아미나제를 1 ㎍의 플라스미드를 사용하는 제조업체의 지침에 따라 TNT T7 Quick Coupled Transcription/Translation Kit(Promega)를 사용하여 시험관 내에서 발현시켰다. 단백질 발현 후, 5 ㎕의 용해물을 CutSmart 완충액(New England Biolabs)(50 mM 칼륨 아세테이트, 29 mM 트리스-아세테이트, 10 mM 마그네슘 아세테이트, 100 μg ㎖-1 BSA, pH 7.9) 35 ㎕의 ssDNA(1.8 μM) 및 USER 효소(1 유닛)와 합하고, 37℃에서 2시간 동안 인큐베이션했다. 절단된 U-함유 기질을 10 % TBE-우레아 겔(Bio-Rad)에서 전체-길이의 변형되지 않은 기질로부터 분리했다.
His6
-
rAPOBEC1
-링커-
dCas9
융합물의
발현 및 정제.
E. 콜라이 BL21 STAR(DE3)-적격 세포(ThermoFisher Scientific)를 플라스미드(예를 들어, pET28b-His6-rAPOBEC1-링커-dCas9를 코딩하는 플라스미드)로 형질전환시켰다. 생성된 발현 균주를 37℃에서 100 ㎍ ㎖-1의 카나마이신을 함유하는 LB(Luria-Bertani) 브로쓰에서 밤새 성장시켰다. 세포를 동일한 성장 배지에 1:100으로 희석하고 37℃에서 OD600 = ~0.6까지 성장시켰다. 배양물을 2시간에 걸쳐 4℃로 냉각시키고, 단백질 발현을 유도하기 위해 0.5 mM에서 이소프로필-β-d-1-티오갈락토피라노사이드(IPTG)를 첨가했다. ~16시간 후, 세포를 4,000 g에서 원심 분리하여 수집하고 용해 완충액(50 mM 트리스(하이드록시메틸)-아미노 메탄(Tris)-HCl(pH 7.5), 1 M NaCl, 20 % 글리세롤, 10 mM 트리스(2-카복시에틸) 포스핀(TCEP, Soltec Ventures))에 재현탁시켰다. 세포를 초음파 처리(총 6W 출력에서 총 8분 동안 20초간 펄스-온, 20초간 펄스-오프)에 의해 용해시키고 용해물 상청액을 15분 동안 25,000 g에서 원심분리한 후 분리했다. 용해물을 His-Pur 니켈-니트릴로아세트산(니켈-NTA) 수지(ThermoFisher Scientific)와 함께 4℃에서 1시간 동안 인큐베이션하여 His-태그가 부착된 융합 단백질을 포획했다. 수지를 컬럼으로 옮기고 40 ㎖의 용해 완충액으로 세척했다. His-태그가 붙은 융합 단백질을 285 mM 이미다졸이 보충된 용해 완충액에서 용리시키고, 한외여과(Amicon-Millipore, 100-kDa 분자량 컷오프)로 총 부피 1 ㎖로 농축시켰다. 단백질을 50 mM 트리스(하이드록시메틸)-아미노메탄(Tris)-HCl(pH 7.0), 0.1 M NaCl, 20 % 글리세롤, 10 mM TCEP를 포함하는 저염 정제 완충액에서 20 ㎖로 희석하고 SP Sepharose Fast Flow 수지(GE Life Sciences)에 로드했다. 이 수지를 저염 완충액 40 ㎖로 세척하고, 단백질을 50 mM 트리스(하이드록시메틸)-아미노메탄(Tris)-HCl(pH 7.0), 0.5M NaCl, 20 % 글리세롤, 10 mM TCEP을 함유하는 5 ㎖의 활성 완충액으로 용출시켰다. 용출된 단백질을 SDS-PAGE로 정량했다.
sgRNA의
시험관내
전사.
T7 프로모터 다음에 20-bp sgRNA 표적 서열을 포함하는 선형 DNA 단편을 제조업체의 지침에 따라 TranscriptAid T7 High Yield Transcription Kit(ThermoFisher Scientific)를 사용하여 시험관내에서 전사시켰다. sgRNA 생성물을 제조업체의 지침에 따라 MEGAclear Kit(ThermoFisher Scientific)를 사용하여 정제하고 UV 흡광도로 정량했다.
Cy3
-
컨주게이션된
dsDNA
기질의 제조.
전형적으로, 예를 들어, 길이가 80-nt인, 표지되지 않은 가닥의 서열을 Integrated DNA Technologies(IDT)에 PAGE-정제된 올리고뉴클레오티드로 주문했다. 각 80-nt 기질의 3' 말단에 상보적인 25-nt의 Cy3-표지된 프라이머를 IDT에 HPLC-정제된 올리고뉴클레오티드로 주문했다. Cy3-표지된 dsDNA 기질을 생성하기 위해, 80-nt 가닥(100 μM 용액 5 ㎕)을 NEBuffer 2(38.25 ㎕의 50 mM NaCl, 10 mM Tris-HCl, 10 mM MgCl2, 1 mM DTT, pH 7.9 용액, New England Biolabs) 중의 Cy3-표지된 프라이머(100 μM 용액 5 ㎕)와 dNTP(075 ㎕의 100 mM 용액)를 합하고, 95℃로 5분 동안 가열한 다음, 이어서 초당 0.1℃의 속도로 45 ℃까지 점진적으로 냉각했다. 이 어닐링 기간 후, Klenow exo-(5 U, New England Biolabs)를 첨가하고 반응을 37 ℃에서 1시간 동안 인큐베이션했다. 용액을 완충액 PB(250 ㎕, Qiagen) 및 이소프로판올(50 ㎕)로 희석하고, 50 ㎕의 Tris 완충액으로 용리하여, QIAprep 스핀 컬럼(Qiagen)에서 정제했다. dsDNA에 대한 데아미나제 분석. 정제된 융합 단백질(1.9 μM 활성 완충액 중의 20 ㎕)을 1 당량의 적절한 sgRNA와 합하고 주위 온도에서 5분 동안 배양했다. Cy3-표지된 dsDNA 기질을 125 nM의 최종 농도로 첨가하고 생성된 용액을 37℃에서 2시간 동안 인큐베이션했다. dsDNA를 완충액 PB(100 ㎕, Qiagen) 및 이소프로판올(25 ㎕)을 첨가하여 상기 융합물에서 분리시키고, 20 ㎕의 CutSmart 완충액(New England Biolabs)으로 용리시켜, EconoSpin 마이크로 스핀 컬럼(Epoch Life Science)에서 정제했다. USER 효소(1 U, New England Biolabs)를 정제하고,용리시킨 dsDNA에 첨가하고 37℃에서 1시간 동안 인큐베이션했다. Cy3-표지된 가닥을 5 ㎕의 반응 용액과 15 ㎕의 DMSO-기반 로딩 버퍼(5 mM Tris, 0.5 mM EDTA, 12.5 % 글리세롤, 0.02 % 브로모페놀 블루, 0.02 % 자일렌 시안, 80 % DMSO)를 합하여 이의 보체로부터 완전히 변성시켰다. 전체-길이 C-함유 기질을 10 % TBE-우레아 겔(Bio-Rad)에서 임의의 절단된 U-함유 편집된 기질로부터 분리시키고, GE Amersham Typhoon 이미저에서 이미지화했다.
고-처리량 시퀀싱을 위한 시험관내 -편집된 dsDNA의 제조.
올리고뉴클레오티드를 IDT로부터 입수했다. 상보 서열을 Tris 완충액에서 합하고(100 μM 용액 5 ㎕) 5분 동안 95℃로 가열하여 어닐링한 다음, 이어서 초당 0.1℃의 속도로 45℃까지 점진적으로 냉각하여 60-bp dsDNA 기질을 생성시켰다. 정제된 융합 단백질(1.9 μM 활성 완충액 중 20 ㎕)을 1 당량의 적절한 sgRNA와 합하고 주위 온도에서 5분 동안 인큐베이션했다. 60-머(mer) dsDNA 기질을 125 nM의 최종 농도로 첨가하고 생성된 용액을 37℃에서 2시간 동안 인큐베이션했다. dsDNA를 완충액 PB(100 ㎕, Qiagen) 및 이소프로판올(25 ㎕)을 첨가하여 융합물에서 분리시키고, 20 ㎕의 Tris 완충액으로 용출시켜, EconoSpin 마이크로 스핀 컬럼(Epoch Life Science)에서 정제했다. 생성된 편집된 DNA(1 ㎕를 주형으로 사용하였음)를 제조업체의 지침에 따라 고-처리량 시퀀싱 프라이머 쌍과 VeraSeq Ultra(Enzymatics)를 사용하여 PCR을 통해 13회 증폭 사이클로 증폭시켰다. PCR 반응 생성물을 RapidTips(Diffinity Genomics)를 사용하여 정제하고, 정제된 DNA를 시퀀싱 어댑터가 포함된 프라이머를 사용하여 PCR로 증폭하고, 정제하고, 앞서 설명한 것과 같이 MiSeq 고-처리량 DNA 시퀀서(Illumina)에서 시퀀싱했다.
세포 배양.
HEK293T(ATCC CRL-3216) 및 U2OS(ATCC HTB-96)를 5 % CO2와 함께 37 ℃에서 10 %(v/v) 우태아 혈청(FBS)이 보충된 둘베코 변형 이글 배지(Dulbecco's Modified Eagle's Medium) 플러스 GlutaMax(ThermoFisher)에서 유지했다. HCC1954 세포(ATCC CRL-2338)를, 전술한 바와 같이 보충된 RPMI-1640 배지(ThermoFisher Scientific)에서 유지했다. 관심있는 유전자(예를 들어, SERPINA1, G6PC, IDUA 등)(Taconic Biosciences)를 포함하는 불멸화된 세포를 10 %(v/v) 우태아 혈청(FBS) 및 200 ㎍ ㎖-1 Geneticin(ThermoFisher Scientific)이 보충된 둘베코 변형 이글 배지 플러스 GlutaMax(ThermoFisher Scientific)에서 배양했다.
형질감염.
HEK293T를 48-웰 콜라겐-코팅된 BioCoat 플레이트(Corning)에 시딩하고 대략 85 % 컨플루언시(confluency)에서 형질감염시켰다. 요약하면, 제조업체의 프로토콜에 따라 웰당 1.5 ㎕의 Lipofectamine 2000(ThermoFisher Scientific)을 사용하여 750 ng의 BE 및 250 ng의 sgRNA 발현 플라스미드를 형질감염시켰다. HEK293T 세포를 제조업체의 지침(HEK293T 세포에 대해 프로그램 Q-001을 사용하는 V 키트)에 따라 적절한 Amaxa Nucleofector II 프로그램을 사용하여 형질감염시켰다.
게놈 DNA 샘플의 고-처리량 DNA 시퀀싱.
형질감염된 세포를 3일 후 채취하고 제조업체의 지침에 따라 Agencourt DNAdvance Genomic DNA Isolation Kit(Beckman Coulter)를 사용하여 게놈 DNA를 단리했다. 관심 대상 표적-적중 및 표적-이탈 게놈 영역을 측접(flanking) 고-처리량 시퀀싱 프라이머 쌍을 사용하여 PCR에 의해 증폭시켰다. PCR 증폭을 5 ng의 게놈 DNA를 주형으로 사용하여 제조업체의 지침에 따라 Phusion 고-신뢰도 DNA 중합효소(ThermoFisher)로 수행했다. 반응이 선형 증폭 범위에서 중단되도록 보장하기 위해 각 프라이머 쌍에 대해 사이클수(numbers)를 개별적으로 결정했다. RapidTips(Diffinity Genomics)를 사용하여 PCR 생성물을 정제했다. 정제된 DNA를 프라이머 함유 시퀀싱 어댑터를 사용하여 PCR로 증폭시켰다. 생성물을 Quant-iT PicoGreen dsDNA Assay Kit(ThermoFisher) 및 KAPA Library Quantification Kit-Illumina(KAPA Biosystems)를 사용하여 겔 정제 및 정량했다. 샘플을 이전에 설명한대로 Illumina MiSeq에서 시퀀싱했다(Pattanayak, Nature Biotechnol 31, 839-843 (2013)).
데이터 분석.
시퀀싱 판독(reads)을 MiSeq Reporter(Illumina)를 사용하여 자동으로 역다중화(demultiplex)시켰고 개별 FASTQ 파일을 맞춤형 Matlab으로 분석했다. 각 판독을 Smith-Waterman 알고리즘을 사용하여 적절한 참조 서열에 짝맞춤방식으로(pairwise) 정렬시켰다. Q-점수가 31 미만인 염기 호출(calls)은 N으로 대체되었으며, 그리하여 뉴클레오티드 빈도 계산에서 제외되었다. 이 처리로 예상 MiSeq 염기-호출 오류율은 대략 1,000분의 1로 된다. 판독 및 참조 서열이 갭을 포함하지 않는 정렬된 서열은 각 유전자좌에 대해 염기 빈도를 표로 만들 수 있는 정렬 테이블로 저장되었다. 인델(Indel) 빈도는 이전에 설명한 기준을 사용하여 맞춤 Matlab 스크립트로 정량화되었다(Zuris, et al., Nature Biotechnol. 33, 73-80 (2015)). 시퀀싱 판독을 인델이 발생할 수 있는 윈도우의 양쪽 양상에 측접한 2개의 10-bp 서열과의 정확한 일치에 관해 스캐닝했다. 정확한 일치가 존재하지 않으면, 해당 판독을 분석에서 제외했다. 이 인델 윈도우의 길이가 참조 서열과 정확히 일치하면, 해당 판독을 인델을 포함하지 않는 것으로 분류했다. 인델 윈도우가 참조 서열에 비해 염기가 2개 이상 더 길거나 더 짧으면, 해당 시퀀싱 판독을, 각각, 삽입 또는 결실로 분류했다.
서열
아래의 표 8은 설명된 실시형태들에서 이용된 것과 같은 야생형 및 변이체(E342K) SERPINA1-코딩된 아미노산 서열, 및 야생형 및 변이체(E342K) SERPINA1 폴리뉴클레오티드의 오픈 리딩 프레임(ORF) 핵산 서열의 대표적인 목록을 제시한다.
표 8. 예시적인 서열
SEQUENCE LISTING
<110> BEAM THERAPEUTICS INC.
<120> METHODS OF EDITING SINGLE NUCLEOTIDE POLYMORPHISM USING
PROGRAMMABLE BASE EDITOR SYSTEMS
<130> 52885-729.601
<140> PCT/US2019/031898
<141> 2019-05-11
<150> 62/817,986
<151> 2019-03-13
<150> 62/780,838
<151> 2018-12-17
<150> 62/670,588
<151> 2018-05-11
<160> 315
<170> PatentIn version 3.5
<210> 1
<211> 1785
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
Base editor sequence
<400> 1
Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu
1 5 10 15
Thr Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala
20 25 30
Val Leu Val His Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro
35 40 45
Ile Gly Arg His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg
50 55 60
Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu
65 70 75 80
Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His
85 90 95
Ser Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly
100 105 110
Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His
115 120 125
Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu
130 135 140
Leu Ser Asp Phe Phe Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys
145 150 155 160
Lys Ala Gln Ser Ser Thr Asp Ser Gly Gly Ser Ser Gly Gly Ser Ser
165 170 175
Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser Ser
180 185 190
Gly Gly Ser Ser Gly Gly Ser Ser Glu Val Glu Phe Ser His Glu Tyr
195 200 205
Trp Met Arg His Ala Leu Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg
210 215 220
Glu Val Pro Val Gly Ala Val Leu Val Leu Asn Asn Arg Val Ile Gly
225 230 235 240
Glu Gly Trp Asn Arg Ala Ile Gly Leu His Asp Pro Thr Ala His Ala
245 250 255
Glu Ile Met Ala Leu Arg Gln Gly Gly Leu Val Met Gln Asn Tyr Arg
260 265 270
Leu Ile Asp Ala Thr Leu Tyr Val Thr Phe Glu Pro Cys Val Met Cys
275 280 285
Ala Gly Ala Met Ile His Ser Arg Ile Gly Arg Val Val Phe Gly Val
290 295 300
Arg Asn Ala Lys Thr Gly Ala Ala Gly Ser Leu Met Asp Val Leu His
305 310 315 320
Tyr Pro Gly Met Asn His Arg Val Glu Ile Thr Glu Gly Ile Leu Ala
325 330 335
Asp Glu Cys Ala Ala Leu Leu Cys Tyr Phe Phe Arg Met Pro Arg Gln
340 345 350
Val Phe Asn Ala Gln Lys Lys Ala Gln Ser Ser Thr Asp Ser Gly Gly
355 360 365
Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser
370 375 380
Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser Asp Lys Lys
385 390 395 400
Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val Gly Trp Ala Val
405 410 415
Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys Val Leu Gly
420 425 430
Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile Gly Ala Leu Leu
435 440 445
Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu Lys Arg Thr Ala
450 455 460
Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr Leu Gln Glu
465 470 475 480
Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser Phe Phe His Arg
485 490 495
Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys His Glu Arg His
500 505 510
Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr His Glu Lys Tyr
515 520 525
Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp Ser Thr Asp Lys
530 535 540
Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His Met Ile Lys Phe
545 550 555 560
Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp Asn Ser Asp
565 570 575
Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn Gln Leu Phe
580 585 590
Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala Lys Ala Ile Leu
595 600 605
Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu Ile Ala Gln
610 615 620
Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu Ile Ala Leu
625 630 635 640
Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp Leu Ala Glu
645 650 655
Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp Asp Leu Asp
660 665 670
Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu Phe Leu Ala
675 680 685
Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile Leu Arg Val
690 695 700
Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met Ile Lys Arg
705 710 715 720
Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys Ala Leu Val Arg
725 730 735
Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp Gln Ser Lys
740 745 750
Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln Glu Glu Phe
755 760 765
Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp Gly Thr Glu Glu
770 775 780
Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys Gln Arg Thr
785 790 795 800
Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu Gly Glu Leu His
805 810 815
Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu Lys Asp Asn
820 825 830
Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro Tyr Tyr Val
835 840 845
Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp Met Thr Arg Lys
850 855 860
Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu Val Val Asp Lys
865 870 875 880
Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr Asn Phe Asp Lys
885 890 895
Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser Leu Leu Tyr Glu
900 905 910
Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr Val Thr Glu
915 920 925
Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys Lys Ala Ile
930 935 940
Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val Lys Gln Leu
945 950 955 960
Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser Val Glu Ile
965 970 975
Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr Tyr His Asp
980 985 990
Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn Glu Glu Asn
995 1000 1005
Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr Leu Phe Glu
1010 1015 1020
Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala His Leu
1025 1030 1035
Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr
1040 1045 1050
Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
1055 1060 1065
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly
1070 1075 1080
Phe Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu
1085 1090 1095
Thr Phe Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly
1100 1105 1110
Asp Ser Leu His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala
1115 1120 1125
Ile Lys Lys Gly Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu
1130 1135 1140
Val Lys Val Met Gly Arg His Lys Pro Glu Asn Ile Val Ile Glu
1145 1150 1155
Met Ala Arg Glu Asn Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser
1160 1165 1170
Arg Glu Arg Met Lys Arg Ile Glu Glu Gly Ile Lys Glu Leu Gly
1175 1180 1185
Ser Gln Ile Leu Lys Glu His Pro Val Glu Asn Thr Gln Leu Gln
1190 1195 1200
Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly Arg Asp Met
1205 1210 1215
Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu Ser Asp Tyr Asp
1220 1225 1230
Val Asp His Ile Val Pro Gln Ser Phe Leu Lys Asp Asp Ser Ile
1235 1240 1245
Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly Lys Ser
1250 1255 1260
Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn Tyr
1265 1270 1275
Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe
1280 1285 1290
Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp
1295 1300 1305
Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile
1310 1315 1320
Thr Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys
1325 1330 1335
Tyr Asp Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr
1340 1345 1350
Leu Lys Ser Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe
1355 1360 1365
Tyr Lys Val Arg Glu Ile Asn Asn Tyr His His Ala His Asp Ala
1370 1375 1380
Tyr Leu Asn Ala Val Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro
1385 1390 1395
Lys Leu Glu Ser Glu Phe Val Tyr Gly Asp Tyr Lys Val Tyr Asp
1400 1405 1410
Val Arg Lys Met Ile Ala Lys Ser Glu Gln Glu Ile Gly Lys Ala
1415 1420 1425
Thr Ala Lys Tyr Phe Phe Tyr Ser Asn Ile Met Asn Phe Phe Lys
1430 1435 1440
Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile Arg Lys Arg Pro Leu
1445 1450 1455
Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile Val Trp Asp Lys Gly
1460 1465 1470
Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser Met Pro Gln Val
1475 1480 1485
Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly Phe Ser Lys
1490 1495 1500
Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys Leu Ile Ala Arg
1505 1510 1515
Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe Met Gln Pro
1520 1525 1530
Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys Val Glu Lys Gly
1535 1540 1545
Lys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr
1550 1555 1560
Ile Met Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu
1565 1570 1575
Glu Ala Lys Gly Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys
1580 1585 1590
Leu Pro Lys Tyr Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg
1595 1600 1605
Met Leu Ala Ser Ala Lys Phe Leu Gln Lys Gly Asn Glu Leu Ala
1610 1615 1620
Leu Pro Ser Lys Tyr Val Asn Phe Leu Tyr Leu Ala Ser His Tyr
1625 1630 1635
Glu Lys Leu Lys Gly Ser Pro Glu Asp Asn Glu Gln Lys Gln Leu
1640 1645 1650
Phe Val Glu Gln His Lys His Tyr Leu Asp Glu Ile Ile Glu Gln
1655 1660 1665
Ile Ser Glu Phe Ser Lys Arg Val Ile Leu Ala Asp Ala Asn Leu
1670 1675 1680
Asp Lys Val Leu Ser Ala Tyr Asn Lys His Arg Asp Lys Pro Ile
1685 1690 1695
Arg Glu Gln Ala Glu Asn Ile Ile His Leu Phe Thr Leu Thr Asn
1700 1705 1710
Leu Gly Ala Pro Arg Ala Phe Lys Tyr Phe Asp Thr Thr Ile Ala
1715 1720 1725
Arg Lys Glu Tyr Arg Ser Thr Lys Glu Val Leu Asp Ala Thr Leu
1730 1735 1740
Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu
1745 1750 1755
Ser Gln Leu Gly Gly Asp Glu Gly Ala Asp Lys Arg Thr Ala Asp
1760 1765 1770
Gly Ser Glu Phe Glu Ser Pro Lys Lys Lys Arg Lys
1775 1780 1785
<210> 2
<211> 80
<212> RNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 2
guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc cguuaucaac uugaaaaagu 60
ggcaccgagu cggugcuuuu 80
<210> 3
<211> 103
<212> RNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polynucleotide
<400> 3
accaucgaca agaaagggac ugaguuuuag agcuagaaau agcaaguuaa aauaaggcua 60
guccguuauc aacuugaaaa aguggcaccg agucggugcu uuu 103
<210> 4
<211> 102
<212> RNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polynucleotide
<400> 4
ccaucgacaa gaaagggacu gaguuuuaga gcuagaaaua gcaaguuaaa auaaggcuag 60
uccguuauca acuugaaaaa guggcaccga gucggugcuu uu 102
<210> 5
<211> 101
<212> RNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polynucleotide
<400> 5
caucgacaag aaagggacug aguuuuagag cuagaaauag caaguuaaaa uaaggcuagu 60
ccguuaucaa cuugaaaaag uggcaccgag ucggugcuuu u 101
<210> 6
<211> 100
<212> RNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polynucleotide
<400> 6
aucgacaaga aagggacuga guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 7
<211> 99
<212> RNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 7
ucgacaagaa agggacugag uuuuagagcu agaaauagca aguuaaaaua aggcuagucc 60
guuaucaacu ugaaaaagug gcaccgaguc ggugcuuuu 99
<210> 8
<211> 98
<212> RNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 8
cgacaagaaa gggacugagu uuuagagcua gaaauagcaa guuaaaauaa ggcuaguccg 60
uuaucaacuu gaaaaagugg caccgagucg gugcuuuu 98
<210> 9
<211> 23
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 9
actctaggca gaggtctcaa agg 23
<210> 10
<211> 23
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 10
gctctaggcc gaagtgtcgc agg 23
<210> 11
<211> 418
<212> PRT
<213> Homo sapiens
<400> 11
Met Pro Ser Ser Val Ser Trp Gly Ile Leu Leu Leu Ala Gly Leu Cys
1 5 10 15
Cys Leu Val Pro Val Ser Leu Ala Glu Asp Pro Gln Gly Asp Ala Ala
20 25 30
Gln Lys Thr Asp Thr Ser His His Asp Gln Asp His Pro Thr Phe Asn
35 40 45
Lys Ile Thr Pro Asn Leu Ala Glu Phe Ala Phe Ser Leu Tyr Arg Gln
50 55 60
Leu Ala His Gln Ser Asn Ser Thr Asn Ile Phe Phe Ser Pro Val Ser
65 70 75 80
Ile Ala Thr Ala Phe Ala Met Leu Ser Leu Gly Thr Lys Ala Asp Thr
85 90 95
His Asp Glu Ile Leu Glu Gly Leu Asn Phe Asn Leu Thr Glu Ile Pro
100 105 110
Glu Ala Gln Ile His Glu Gly Phe Gln Glu Leu Leu Arg Thr Leu Asn
115 120 125
Gln Pro Asp Ser Gln Leu Gln Leu Thr Thr Gly Asn Gly Leu Phe Leu
130 135 140
Ser Glu Gly Leu Lys Leu Val Asp Lys Phe Leu Glu Asp Val Lys Lys
145 150 155 160
Leu Tyr His Ser Glu Ala Phe Thr Val Asn Phe Gly Asp Thr Glu Glu
165 170 175
Ala Lys Lys Gln Ile Asn Asp Tyr Val Glu Lys Gly Thr Gln Gly Lys
180 185 190
Ile Val Asp Leu Val Lys Glu Leu Asp Arg Asp Thr Val Phe Ala Leu
195 200 205
Val Asn Tyr Ile Phe Phe Lys Gly Lys Trp Glu Arg Pro Phe Glu Val
210 215 220
Lys Asp Thr Glu Glu Glu Asp Phe His Val Asp Gln Val Thr Thr Val
225 230 235 240
Lys Val Pro Met Met Lys Arg Leu Gly Met Phe Asn Ile Gln His Cys
245 250 255
Lys Lys Leu Ser Ser Trp Val Leu Leu Met Lys Tyr Leu Gly Asn Ala
260 265 270
Thr Ala Ile Phe Phe Leu Pro Asp Glu Gly Lys Leu Gln His Leu Glu
275 280 285
Asn Glu Leu Thr His Asp Ile Ile Thr Lys Phe Leu Glu Asn Glu Asp
290 295 300
Arg Arg Ser Ala Ser Leu His Leu Pro Lys Leu Ser Ile Thr Gly Thr
305 310 315 320
Tyr Asp Leu Lys Ser Val Leu Gly Gln Leu Gly Ile Thr Lys Val Phe
325 330 335
Ser Asn Gly Ala Asp Leu Ser Gly Val Thr Glu Glu Ala Pro Leu Lys
340 345 350
Leu Ser Lys Ala Val His Lys Ala Val Leu Thr Ile Asp Glu Lys Gly
355 360 365
Thr Glu Ala Ala Gly Ala Met Phe Leu Glu Ala Ile Pro Met Ser Ile
370 375 380
Pro Pro Glu Val Lys Phe Asn Lys Pro Phe Val Phe Leu Met Ile Glu
385 390 395 400
Gln Asn Thr Lys Ser Pro Leu Phe Met Gly Lys Val Val Asn Pro Thr
405 410 415
Gln Lys
<210> 12
<211> 8877
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
BE4 sequence
<400> 12
atatgccaag tacgccccct attgacgtca atgacggtaa atggcccgcc tggcattatg 60
cccagtacat gaccttatgg gactttccta cttggcagta catctacgta ttagtcatcg 120
ctattaccat ggtgatgcgg ttttggcagt acatcaatgg gcgtggatag cggtttgact 180
cacggggatt tccaagtctc caccccattg acgtcaatgg gagtttgttt tggcaccaaa 240
atcaacggga ctttccaaaa tgtcgtaaca actccgcccc attgacgcaa atgggcggta 300
ggcgtgtacg gtgggaggtc tatataagca gagctggttt agtgaaccgt cagatccgct 360
agagatccgc ggccgctaat acgactcact atagggagag ccgccaccat gagctcagag 420
actggcccag tggctgtgga ccccacattg agacggcgga tcgagcccca tgagtttgag 480
gtattcttcg atccgagaga gctccgcaag gagacctgcc tgctttacga aattaattgg 540
gggggccggc actccatttg gcgacataca tcacagaaca ctaacaagca cgtcgaagtc 600
aacttcatcg agaagttcac gacagaaaga tatttctgtc cgaacacaag gtgcagcatt 660
acctggtttc tcagctggag cccatgcggc gaatgtagta gggccatcac tgaattcctg 720
tcaaggtatc cccacgtcac tctgtttatt tacatcgcaa ggctgtacca ccacgctgac 780
ccccgcaatc gacaaggcct gcgggatttg atctcttcag gtgtgactat ccaaattatg 840
actgagcagg agtcaggata ctgctggaga aactttgtga attatagccc gagtaatgaa 900
gcccactggc ctaggtatcc ccatctgtgg gtacgactgt acgttcttga actgtactgc 960
atcatactgg gcctgcctcc ttgtctcaac attctgagaa ggaagcagcc acagctgaca 1020
ttctttacca tcgctcttca gtcttgtcat taccagcgac tgcccccaca cattctctgg 1080
gccaccgggt tgaaatctgg tggttcttct ggtggttcta gcggcagcga gactcccggg 1140
acctcagagt ccgccacacc cgaaagttct ggtggttctt ctggtggttc tgataaaaag 1200
tattctattg gtttagccat cggcactaat tccgttggat gggctgtcat aaccgatgaa 1260
tacaaagtac cttcaaagaa atttaaggtg ttggggaaca cagaccgtca ttcgattaaa 1320
aagaatctta tcggtgccct cctattcgat agtggcgaaa cggcagaggc gactcgcctg 1380
aaacgaaccg ctcggagaag gtatacacgt cgcaagaacc gaatatgtta cttacaagaa 1440
atttttagca atgagatggc caaagttgac gattctttct ttcaccgttt ggaagagtcc 1500
ttccttgtcg aagaggacaa gaaacatgaa cggcacccca tctttggaaa catagtagat 1560
gaggtggcat atcatgaaaa gtacccaacg atttatcacc tcagaaaaaa gctagttgac 1620
tcaactgata aagcggacct gaggttaatc tacttggctc ttgcccatat gataaagttc 1680
cgtgggcact ttctcattga gggtgatcta aatccggaca actcggatgt cgacaaactg 1740
ttcatccagt tagtacaaac ctataatcag ttgtttgaag agaaccctat aaatgcaagt 1800
ggcgtggatg cgaaggctat tcttagcgcc cgcctctcta aatcccgacg gctagaaaac 1860
ctgatcgcac aattacccgg agagaagaaa aatgggttgt tcggtaacct tatagcgctc 1920
tcactaggcc tgacaccaaa ttttaagtcg aacttcgact tagctgaaga tgccaaattg 1980
cagcttagta aggacacgta cgatgacgat ctcgacaatc tactggcaca aattggagat 2040
cagtatgcgg acttattttt ggctgccaaa aaccttagcg atgcaatcct cctatctgac 2100
atactgagag ttaatactga gattaccaag gcgccgttat ccgcttcaat gatcaaaagg 2160
tacgatgaac atcaccaaga cttgacactt ctcaaggccc tagtccgtca gcaactgcct 2220
gagaaatata aggaaatatt ctttgatcag tcgaaaaacg ggtacgcagg ttatattgac 2280
ggcggagcga gtcaagagga attctacaag tttatcaaac ccatattaga gaagatggat 2340
gggacggaag agttgcttgt aaaactcaat cgcgaagatc tactgcgaaa gcagcggact 2400
ttcgacaacg gtagcattcc acatcaaatc cacttaggcg aattgcatgc tatacttaga 2460
aggcaggagg atttttatcc gttcctcaaa gacaatcgtg aaaagattga gaaaatccta 2520
acctttcgca taccttacta tgtgggaccc ctggcccgag ggaactctcg gttcgcatgg 2580
atgacaagaa agtccgaaga aacgattact ccatggaatt ttgaggaagt tgtcgataaa 2640
ggtgcgtcag ctcaatcgtt catcgagagg atgaccaact ttgacaagaa tttaccgaac 2700
gaaaaagtat tgcctaagca cagtttactt tacgagtatt tcacagtgta caatgaactc 2760
acgaaagtta agtatgtcac tgagggcatg cgtaaacccg cctttctaag cggagaacag 2820
aagaaagcaa tagtagatct gttattcaag accaaccgca aagtgacagt taagcaattg 2880
aaagaggact actttaagaa aattgaatgc ttcgattctg tcgagatctc cggggtagaa 2940
gatcgattta atgcgtcact tggtacgtat catgacctcc taaagataat taaagataag 3000
gacttcctgg ataacgaaga gaatgaagat atcttagaag atatagtgtt gactcttacc 3060
ctctttgaag atcgggaaat gattgaggaa agactaaaaa catacgctca cctgttcgac 3120
gataaggtta tgaaacagtt aaagaggcgt cgctatacgg gctggggacg attgtcgcgg 3180
aaacttatca acgggataag agacaagcaa agtggtaaaa ctattctcga ttttctaaag 3240
agcgacggct tcgccaatag gaactttatg cagctgatcc atgatgactc tttaaccttc 3300
aaagaggata tacaaaaggc acaggtttcc ggacaagggg actcattgca cgaacatatt 3360
gcgaatcttg ctggttcgcc agccatcaaa aagggcatac tccagacagt caaagtagtg 3420
gatgagctag ttaaggtcat gggacgtcac aaaccggaaa acattgtaat cgagatggca 3480
cgcgaaaatc aaacgactca gaaggggcaa aaaaacagtc gagagcggat gaagagaata 3540
gaagagggta ttaaagaact gggcagccag atcttaaagg agcatcctgt ggaaaatacc 3600
caattgcaga acgagaaact ttacctctat tacctacaaa atggaaggga catgtatgtt 3660
gatcaggaac tggacataaa ccgtttatct gattacgacg tcgatcacat tgtaccccaa 3720
tcctttttga aggacgattc aatcgacaat aaagtgctta cacgctcgga taagaaccga 3780
gggaaaagtg acaatgttcc aagcgaggaa gtcgtaaaga aaatgaagaa ctattggcgg 3840
cagctcctaa atgcgaaact gataacgcaa agaaagttcg ataacttaac taaagctgag 3900
aggggtggct tgtctgaact tgacaaggcc ggatttatta aacgtcagct cgtggaaacc 3960
cgccaaatca caaagcatgt tgcacagata ctagattccc gaatgaatac gaaatacgac 4020
gagaacgata agctgattcg ggaagtcaaa gtaatcactt taaagtcaaa attggtgtcg 4080
gacttcagaa aggattttca attctataaa gttagggaga taaataacta ccaccatgcg 4140
cacgacgctt atcttaatgc cgtcgtaggg accgcactca ttaagaaata cccgaagcta 4200
gaaagtgagt ttgtgtatgg tgattacaaa gtttatgacg tccgtaagat gatcgcgaaa 4260
agcgaacagg agataggcaa ggctacagcc aaatacttct tttattctaa cattatgaat 4320
ttctttaaga cggaaatcac tctggcaaac ggagagatac gcaaacgacc tttaattgaa 4380
accaatgggg agacaggtga aatcgtatgg gataagggcc gggacttcgc gacggtgaga 4440
aaagttttgt ccatgcccca agtcaacata gtaaagaaaa ctgaggtgca gaccggaggg 4500
ttttcaaagg aatcgattct tccaaaaagg aatagtgata agctcatcgc tcgtaaaaag 4560
gactgggacc cgaaaaagta cggtggcttc gatagcccta cagttgccta ttctgtccta 4620
gtagtggcaa aagttgagaa gggaaaatcc aagaaactga agtcagtcaa agaattattg 4680
gggataacga ttatggagcg ctcgtctttt gaaaagaacc ccatcgactt ccttgaggcg 4740
aaaggttaca aggaagtaaa aaaggatctc ataattaaac taccaaagta tagtctgttt 4800
gagttagaaa atggccgaaa acggatgttg gctagcgccg gagagcttca aaaggggaac 4860
gaactcgcac taccgtctaa atacgtgaat ttcctgtatt tagcgtccca ttacgagaag 4920
ttgaaaggtt cacctgaaga taacgaacag aagcaacttt ttgttgagca gcacaaacat 4980
tatctcgacg aaatcataga gcaaatttcg gaattcagta agagagtcat cctagctgat 5040
gccaatctgg acaaagtatt aagcgcatac aacaagcaca gggataaacc catacgtgag 5100
caggcggaaa atattatcca tttgtttact cttaccaacc tcggcgctcc agccgcattc 5160
aagtattttg acacaacgat agatcgcaaa cgatacactt ctaccaagga ggtgctagac 5220
gcgacactga ttcaccaatc catcacggga ttatatgaaa ctcggataga tttgtcacag 5280
cttgggggtg actctggtgg ttctggagga tctggtggtt ctactaatct gtcagatatt 5340
attgaaaagg agaccggtaa gcaactggtt atccaggaat ccatcctcat gctcccagag 5400
gaggtggaag aagtcattgg gaacaagccg gaaagcgata tactcgtgca caccgcctac 5460
gacgagagca ccgacgagaa tgtcatgctt ctgactagcg acgcccctga atacaagcct 5520
tgggctctgg tcatacagga tagcaacggt gagaacaaga ttaagatgct ctctggtggt 5580
tctggaggat ctggtggttc tactaatctg tcagatatta ttgaaaagga gaccggtaag 5640
caactggtta tccaggaatc catcctcatg ctcccagagg aggtggaaga agtcattggg 5700
aacaagccgg aaagcgatat actcgtgcac accgcctacg acgagagcac cgacgagaat 5760
gtcatgcttc tgactagcga cgcccctgaa tacaagcctt gggctctggt catacaggat 5820
agcaacggtg agaacaagat taagatgctc tctggtggtt ctcccaagaa gaagaggaaa 5880
gtctaaccgg tcatcatcac catcaccatt gagtttaaac ccgctgatca gcctcgactg 5940
tgccttctag ttgccagcca tctgttgttt gcccctcccc cgtgccttcc ttgaccctgg 6000
aaggtgccac tcccactgtc ctttcctaat aaaatgagga aattgcatcg cattgtctga 6060
gtaggtgtca ttctattctg gggggtgggg tggggcagga cagcaagggg gaggattggg 6120
aagacaatag caggcatgct ggggatgcgg tgggctctat ggcttctgag gcggaaagaa 6180
ccagctgggg ctcgataccg tcgacctcta gctagagctt ggcgtaatca tggtcatagc 6240
tgtttcctgt gtgaaattgt tatccgctca caattccaca caacatacga gccggaagca 6300
taaagtgtaa agcctagggt gcctaatgag tgagctaact cacattaatt gcgttgcgct 6360
cactgcccgc tttccagtcg ggaaacctgt cgtgccagct gcattaatga atcggccaac 6420
gcgcggggag aggcggtttg cgtattgggc gctcttccgc ttcctcgctc actgactcgc 6480
tgcgctcggt cgttcggctg cggcgagcgg tatcagctca ctcaaaggcg gtaatacggt 6540
tatccacaga atcaggggat aacgcaggaa agaacatgtg agcaaaaggc cagcaaaagg 6600
ccaggaaccg taaaaaggcc gcgttgctgg cgtttttcca taggctccgc ccccctgacg 6660
agcatcacaa aaatcgacgc tcaagtcaga ggtggcgaaa cccgacagga ctataaagat 6720
accaggcgtt tccccctgga agctccctcg tgcgctctcc tgttccgacc ctgccgctta 6780
ccggatacct gtccgccttt ctcccttcgg gaagcgtggc gctttctcat agctcacgct 6840
gtaggtatct cagttcggtg taggtcgttc gctccaagct gggctgtgtg cacgaacccc 6900
ccgttcagcc cgaccgctgc gccttatccg gtaactatcg tcttgagtcc aacccggtaa 6960
gacacgactt atcgccactg gcagcagcca ctggtaacag gattagcaga gcgaggtatg 7020
taggcggtgc tacagagttc ttgaagtggt ggcctaacta cggctacact agaagaacag 7080
tatttggtat ctgcgctctg ctgaagccag ttaccttcgg aaaaagagtt ggtagctctt 7140
gatccggcaa acaaaccacc gctggtagcg gtggtttttt tgtttgcaag cagcagatta 7200
cgcgcagaaa aaaaggatct caagaagatc ctttgatctt ttctacgggg tctgacgctc 7260
agtggaacga aaactcacgt taagggattt tggtcatgag attatcaaaa aggatcttca 7320
cctagatcct tttaaattaa aaatgaagtt ttaaatcaat ctaaagtata tatgagtaaa 7380
cttggtctga cagttaccaa tgcttaatca gtgaggcacc tatctcagcg atctgtctat 7440
ttcgttcatc catagttgcc tgactccccg tcgtgtagat aactacgata cgggagggct 7500
taccatctgg ccccagtgct gcaatgatac cgcgagaccc acgctcaccg gctccagatt 7560
tatcagcaat aaaccagcca gccggaaggg ccgagcgcag aagtggtcct gcaactttat 7620
ccgcctccat ccagtctatt aattgttgcc gggaagctag agtaagtagt tcgccagtta 7680
atagtttgcg caacgttgtt gccattgcta caggcatcgt ggtgtcacgc tcgtcgtttg 7740
gtatggcttc attcagctcc ggttcccaac gatcaaggcg agttacatga tcccccatgt 7800
tgtgcaaaaa agcggttagc tccttcggtc ctccgatcgt tgtcagaagt aagttggccg 7860
cagtgttatc actcatggtt atggcagcac tgcataattc tcttactgtc atgccatccg 7920
taagatgctt ttctgtgact ggtgagtact caaccaagtc attctgagaa tagtgtatgc 7980
ggcgaccgag ttgctcttgc ccggcgtcaa tacgggataa taccgcgcca catagcagaa 8040
ctttaaaagt gctcatcatt ggaaaacgtt cttcggggcg aaaactctca aggatcttac 8100
cgctgttgag atccagttcg atgtaaccca ctcgtgcacc caactgatct tcagcatctt 8160
ttactttcac cagcgtttct gggtgagcaa aaacaggaag gcaaaatgcc gcaaaaaagg 8220
gaataagggc gacacggaaa tgttgaatac tcatactctt cctttttcaa tattattgaa 8280
gcatttatca gggttattgt ctcatgagcg gatacatatt tgaatgtatt tagaaaaata 8340
aacaaatagg ggttccgcgc acatttcccc gaaaagtgcc acctgacgtc gacggatcgg 8400
gagatcgatc tcccgatccc ctagggtcga ctctcagtac aatctgctct gatgccgcat 8460
agttaagcca gtatctgctc cctgcttgtg tgttggaggt cgctgagtag tgcgcgagca 8520
aaatttaagc tacaacaagg caaggcttga ccgacaattg catgaagaat ctgcttaggg 8580
ttaggcgttt tgcgctgctt cgcgatgtac gggccagata tacgcgttga cattgattat 8640
tgactagtta ttaatagtaa tcaattacgg ggtcattagt tcatagccca tatatggagt 8700
tccgcgttac ataacttacg gtaaatggcc cgcctggctg accgcccaac gacccccgcc 8760
cattgacgtc aataatgacg tatgttccca tagtaacgcc aatagggact ttccattgac 8820
gtcaatgggt ggagtattta cggtaaactg cccacttggc agtacatcaa gtgtatc 8877
<210> 13
<211> 5514
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
BE4 sequence
<400> 13
atgagctcag agactggccc agtggctgtg gaccccacat tgagacggcg gatcgagccc 60
catgagtttg aggtattctt cgatccgaga gagctccgca aggagacctg cctgctttac 120
gaaattaatt gggggggccg gcactccatt tggcgacata catcacagaa cactaacaag 180
cacgtcgaag tcaacttcat cgagaagttc acgacagaaa gatatttctg tccgaacaca 240
aggtgcagca ttacctggtt tctcagctgg agcccatgcg gcgaatgtag tagggccatc 300
actgaattcc tgtcaaggta tccccacgtc actctgttta tttacatcgc aaggctgtac 360
caccacgctg acccccgcaa tcgacaaggc ctgcgggatt tgatctcttc aggtgtgact 420
atccaaatta tgactgagca ggagtcagga tactgctgga gaaactttgt gaattatagc 480
ccgagtaatg aagcccactg gcctaggtat ccccatctgt gggtacgact gtacgttctt 540
gaactgtact gcatcatact gggcctgcct ccttgtctca acattctgag aaggaagcag 600
ccacagctga cattctttac catcgctctt cagtcttgtc attaccagcg actgccccca 660
cacattctct gggccaccgg gttgaaatct ggtggttctt ctggtggttc tagcggcagc 720
gagactcccg ggacctcaga gtccgccaca cccgaaagtt ctggtggttc ttctggtggt 780
tctgataaaa agtattctat tggtttagcc atcggcacta attccgttgg atgggctgtc 840
ataaccgatg aatacaaagt accttcaaag aaatttaagg tgttggggaa cacagaccgt 900
cattcgatta aaaagaatct tatcggtgcc ctcctattcg atagtggcga aacggcagag 960
gcgactcgcc tgaaacgaac cgctcggaga aggtatacac gtcgcaagaa ccgaatatgt 1020
tacttacaag aaatttttag caatgagatg gccaaagttg acgattcttt ctttcaccgt 1080
ttggaagagt ccttccttgt cgaagaggac aagaaacatg aacggcaccc catctttgga 1140
aacatagtag atgaggtggc atatcatgaa aagtacccaa cgatttatca cctcagaaaa 1200
aagctagttg actcaactga taaagcggac ctgaggttaa tctacttggc tcttgcccat 1260
atgataaagt tccgtgggca ctttctcatt gagggtgatc taaatccgga caactcggat 1320
gtcgacaaac tgttcatcca gttagtacaa acctataatc agttgtttga agagaaccct 1380
ataaatgcaa gtggcgtgga tgcgaaggct attcttagcg cccgcctctc taaatcccga 1440
cggctagaaa acctgatcgc acaattaccc ggagagaaga aaaatgggtt gttcggtaac 1500
cttatagcgc tctcactagg cctgacacca aattttaagt cgaacttcga cttagctgaa 1560
gatgccaaat tgcagcttag taaggacacg tacgatgacg atctcgacaa tctactggca 1620
caaattggag atcagtatgc ggacttattt ttggctgcca aaaaccttag cgatgcaatc 1680
ctcctatctg acatactgag agttaatact gagattacca aggcgccgtt atccgcttca 1740
atgatcaaaa ggtacgatga acatcaccaa gacttgacac ttctcaaggc cctagtccgt 1800
cagcaactgc ctgagaaata taaggaaata ttctttgatc agtcgaaaaa cgggtacgca 1860
ggttatattg acggcggagc gagtcaagag gaattctaca agtttatcaa acccatatta 1920
gagaagatgg atgggacgga agagttgctt gtaaaactca atcgcgaaga tctactgcga 1980
aagcagcgga ctttcgacaa cggtagcatt ccacatcaaa tccacttagg cgaattgcat 2040
gctatactta gaaggcagga ggatttttat ccgttcctca aagacaatcg tgaaaagatt 2100
gagaaaatcc taacctttcg cataccttac tatgtgggac ccctggcccg agggaactct 2160
cggttcgcat ggatgacaag aaagtccgaa gaaacgatta ctccatggaa ttttgaggaa 2220
gttgtcgata aaggtgcgtc agctcaatcg ttcatcgaga ggatgaccaa ctttgacaag 2280
aatttaccga acgaaaaagt attgcctaag cacagtttac tttacgagta tttcacagtg 2340
tacaatgaac tcacgaaagt taagtatgtc actgagggca tgcgtaaacc cgcctttcta 2400
agcggagaac agaagaaagc aatagtagat ctgttattca agaccaaccg caaagtgaca 2460
gttaagcaat tgaaagagga ctactttaag aaaattgaat gcttcgattc tgtcgagatc 2520
tccggggtag aagatcgatt taatgcgtca cttggtacgt atcatgacct cctaaagata 2580
attaaagata aggacttcct ggataacgaa gagaatgaag atatcttaga agatatagtg 2640
ttgactctta ccctctttga agatcgggaa atgattgagg aaagactaaa aacatacgct 2700
cacctgttcg acgataaggt tatgaaacag ttaaagaggc gtcgctatac gggctgggga 2760
cgattgtcgc ggaaacttat caacgggata agagacaagc aaagtggtaa aactattctc 2820
gattttctaa agagcgacgg cttcgccaat aggaacttta tgcagctgat ccatgatgac 2880
tctttaacct tcaaagagga tatacaaaag gcacaggttt ccggacaagg ggactcattg 2940
cacgaacata ttgcgaatct tgctggttcg ccagccatca aaaagggcat actccagaca 3000
gtcaaagtag tggatgagct agttaaggtc atgggacgtc acaaaccgga aaacattgta 3060
atcgagatgg cacgcgaaaa tcaaacgact cagaaggggc aaaaaaacag tcgagagcgg 3120
atgaagagaa tagaagaggg tattaaagaa ctgggcagcc agatcttaaa ggagcatcct 3180
gtggaaaata cccaattgca gaacgagaaa ctttacctct attacctaca aaatggaagg 3240
gacatgtatg ttgatcagga actggacata aaccgtttat ctgattacga cgtcgatcac 3300
attgtacccc aatccttttt gaaggacgat tcaatcgaca ataaagtgct tacacgctcg 3360
gataagaacc gagggaaaag tgacaatgtt ccaagcgagg aagtcgtaaa gaaaatgaag 3420
aactattggc ggcagctcct aaatgcgaaa ctgataacgc aaagaaagtt cgataactta 3480
actaaagctg agaggggtgg cttgtctgaa cttgacaagg ccggatttat taaacgtcag 3540
ctcgtggaaa cccgccaaat cacaaagcat gttgcacaga tactagattc ccgaatgaat 3600
acgaaatacg acgagaacga taagctgatt cgggaagtca aagtaatcac tttaaagtca 3660
aaattggtgt cggacttcag aaaggatttt caattctata aagttaggga gataaataac 3720
taccaccatg cgcacgacgc ttatcttaat gccgtcgtag ggaccgcact cattaagaaa 3780
tacccgaagc tagaaagtga gtttgtgtat ggtgattaca aagtttatga cgtccgtaag 3840
atgatcgcga aaagcgaaca ggagataggc aaggctacag ccaaatactt cttttattct 3900
aacattatga atttctttaa gacggaaatc actctggcaa acggagagat acgcaaacga 3960
cctttaattg aaaccaatgg ggagacaggt gaaatcgtat gggataaggg ccgggacttc 4020
gcgacggtga gaaaagtttt gtccatgccc caagtcaaca tagtaaagaa aactgaggtg 4080
cagaccggag ggttttcaaa ggaatcgatt cttccaaaaa ggaatagtga taagctcatc 4140
gctcgtaaaa aggactggga cccgaaaaag tacggtggct tcgatagccc tacagttgcc 4200
tattctgtcc tagtagtggc aaaagttgag aagggaaaat ccaagaaact gaagtcagtc 4260
aaagaattat tggggataac gattatggag cgctcgtctt ttgaaaagaa ccccatcgac 4320
ttccttgagg cgaaaggtta caaggaagta aaaaaggatc tcataattaa actaccaaag 4380
tatagtctgt ttgagttaga aaatggccga aaacggatgt tggctagcgc cggagagctt 4440
caaaagggga acgaactcgc actaccgtct aaatacgtga atttcctgta tttagcgtcc 4500
cattacgaga agttgaaagg ttcacctgaa gataacgaac agaagcaact ttttgttgag 4560
cagcacaaac attatctcga cgaaatcata gagcaaattt cggaattcag taagagagtc 4620
atcctagctg atgccaatct ggacaaagta ttaagcgcat acaacaagca cagggataaa 4680
cccatacgtg agcaggcgga aaatattatc catttgttta ctcttaccaa cctcggcgct 4740
ccagccgcat tcaagtattt tgacacaacg atagatcgca aacgatacac ttctaccaag 4800
gaggtgctag acgcgacact gattcaccaa tccatcacgg gattatatga aactcggata 4860
gatttgtcac agcttggggg tgactctggt ggttctggag gatctggtgg ttctactaat 4920
ctgtcagata ttattgaaaa ggagaccggt aagcaactgg ttatccagga atccatcctc 4980
atgctcccag aggaggtgga agaagtcatt gggaacaagc cggaaagcga tatactcgtg 5040
cacaccgcct acgacgagag caccgacgag aatgtcatgc ttctgactag cgacgcccct 5100
gaatacaagc cttgggctct ggtcatacag gatagcaacg gtgagaacaa gattaagatg 5160
ctctctggtg gttctggagg atctggtggt tctactaatc tgtcagatat tattgaaaag 5220
gagaccggta agcaactggt tatccaggaa tccatcctca tgctcccaga ggaggtggaa 5280
gaagtcattg ggaacaagcc ggaaagcgat atactcgtgc acaccgccta cgacgagagc 5340
accgacgaga atgtcatgct tctgactagc gacgcccctg aatacaagcc ttgggctctg 5400
gtcatacagg atagcaacgg tgagaacaag attaagatgc tctctggtgg ttctaaaagg 5460
acggcggacg gatcagagtt cgagagtccg aaaaaaaaac gaaaggtcga ataa 5514
<210> 14
<211> 5514
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polynucleotide
<400> 14
atgtcatccg aaaccgggcc agtggccgta gacccaacac tcaggaggcg gatagaaccc 60
catgagtttg aagtgttctt cgaccccaga gagctgcgca aagagacttg cctcctgtat 120
gaaataaatt gggggggtcg ccattcaatt tggaggcaca ctagccagaa tactaacaaa 180
cacgtggagg taaattttat cgagaagttt accaccgaaa gatacttttg ccccaataca 240
cggtgttcaa ttacctggtt tctgtcatgg agtccatgtg gagaatgtag tagagcgata 300
actgagttcc tgtctcgata tcctcacgtc acgttgttta tatacatcgc tcggctttat 360
caccatgcgg acccgcggaa caggcaaggt cttcgggacc tcatatcctc tggggtgacc 420
atccagataa tgacggagca agagagcgga tactgctggc gaaactttgt taactacagc 480
ccaagcaatg aggcacactg gcctagatat ccgcatctct gggttcgact gtatgtcctt 540
gaactgtact gcataattct gggacttccg ccatgcttga acattctgcg gcggaaacaa 600
ccacagctga cctttttcac gattgctctc caaagttgtc actaccagcg attgccaccc 660
cacatcttgt gggctactgg actcaagtct ggaggaagtt caggcggaag cagcgggtct 720
gaaacgcccg gaacctcaga gagcgcaacg cccgaaagct ctggagggtc aagtggtggt 780
agtgataaga aatactccat cggcctcgcc atcggtacga attctgtcgg ttgggccgtt 840
atcaccgatg agtacaaggt cccttctaag aaattcaagg ttttgggcaa tacagaccgc 900
cattctataa aaaaaaacct gatcggcgcc cttttgtttg acagtggtga gactgctgaa 960
gcgactcgcc tgaagcgaac tgccaggagg cggtatacga ggcgaaaaaa ccgaatttgt 1020
tacctccagg agattttctc aaatgaaatg gccaaggtag atgatagttt ttttcaccgc 1080
ttggaagaaa gttttctcgt tgaggaggac aaaaagcacg agaggcaccc aatctttggc 1140
aacatagtcg atgaggtcgc ataccatgag aaatatccta cgatctatca tctccgcaag 1200
aagctggtcg atagcacgga taaagctgac ctccggctga tctaccttgc tcttgctcac 1260
atgattaaat tcaggggcca tttcctgata gaaggagacc tcaatcccga caattctgat 1320
gtcgacaaac tgtttattca gctcgttcag acctataatc aactctttga ggagaacccc 1380
atcaatgctt caggggtgga cgcaaaggcc attttgtccg cgcgcttgag taaatcacga 1440
cgcctcgaga atttgatagc tcaactgccg ggtgagaaga aaaacgggtt gtttgggaat 1500
ctcatagcgt tgagtttggg acttacgcca aactttaagt ctaactttga tttggccgaa 1560
gatgccaaat tgcagctgtc caaagatacc tatgatgacg acttggataa ccttcttgcg 1620
cagattggtg accaatacgc ggatctgttt cttgccgcaa aaaatctgtc cgacgccata 1680
ctcttgtccg atatactgcg cgtcaatact gagataacta aggctcccct cagcgcgtcc 1740
atgattaaaa gatacgatga gcaccaccaa gatctcactc tgttgaaagc cctggttcgc 1800
cagcagcttc cagagaagta taaggagata tttttcgacc aatctaaaaa cggctatgcg 1860
ggttacattg acggtggcgc ctctcaagaa gaattctaca agtttataaa gccgatactt 1920
gagaaaatgg acggtacaga ggaattgttg gttaagctca atcgcgagga cttgttgaga 1980
aagcagcgca catttgacaa tggtagtatt ccacaccaga ttcatctggg cgagttgcat 2040
gccattctta gaagacaaga agatttttat ccgtttctga aagataacag agaaaagatt 2100
gaaaagatac ttacctttcg cataccgtat tatgtaggtc ccctggctag agggaacagt 2160
cgcttcgctt ggatgactcg aaaatcagaa gaaacaataa ccccctggaa ttttgaagaa 2220
gtggtagata aaggtgcgag tgcccaatct tttattgagc ggatgacaaa ttttgacaag 2280
aatctgccta acgaaaaggt gcttcccaag cattcccttt tgtatgaata ctttacagta 2340
tataatgaac tgactaaagt gaagtacgtt accgagggga tgcgaaagcc agcttttctc 2400
agtggcgagc agaaaaaagc aatagttgac ctgctgttca agacgaatag gaaggttacc 2460
gtcaaacagc tcaaagaaga ttactttaaa aagatcgaat gttttgattc agttgagata 2520
agcggagtag aggatagatt taacgcaagt cttggaactt atcatgacct tttgaagatc 2580
atcaaggata aagatttttt ggacaacgag gagaatgaag atatcctgga agatatagta 2640
cttaccttga cgctttttga agatcgagag atgatcgagg agcgacttaa gacgtacgca 2700
catctctttg acgataaggt tatgaaacaa ttgaaacgcc ggcggtatac tggctggggc 2760
aggctttctc gaaagctgat taatggtatc cgcgataagc agtctggaaa gacaatcctt 2820
gactttctga aaagtgatgg atttgcaaat agaaacttta tgcagcttat acatgatgac 2880
tctttgacgt tcaaggaaga catccagaag gcacaggtat ccggccaagg ggatagcctc 2940
catgaacaca tagccaacct ggccggctca ccagctatta aaaagggaat attgcaaacc 3000
gttaaggttg ttgacgaact cgttaaggtt atgggccgac acaaaccaga gaatatcgtg 3060
attgagatgg ctagggagaa tcagaccact caaaaaggtc agaaaaattc tcgcgaaagg 3120
atgaagcgaa ttgaagaggg aatcaaagaa cttggctctc aaattttgaa agagcacccg 3180
gtagaaaaca ctcagctgca gaatgaaaag ctgtatctgt attatctgca gaatggtcga 3240
gatatgtacg ttgatcagga gctggatatc aataggctca gtgactacga tgtcgaccac 3300
atcgttcctc aatctttcct gaaagatgac tctatcgaca acaaagtgtt gacgcgatca 3360
gataagaacc ggggaaaatc cgacaatgta ccctcagaag aagttgtcaa gaagatgaaa 3420
aactattgga gacaattgct gaacgccaag ctcataacac aacgcaagtt cgataacttg 3480
acgaaagccg aaagaggtgg gttgtcagaa ttggacaaag ctggctttat taagcgccaa 3540
ttggtggaga cccggcagat tacgaaacac gtagcacaaa ttttggattc acgaatgaat 3600
accaaatacg acgaaaacga caaattgata cgcgaggtga aagtgattac gcttaagagt 3660
aagttggttt ccgatttcag gaaggatttt cagttttaca aagtaagaga aataaacaac 3720
taccaccacg cccatgatgc ttacctcaac gcggtagttg gcacagctct tatcaaaaaa 3780
tatccaaagc tggaaagcga gttcgtttac ggtgactata aagtatacga cgttcggaag 3840
atgatagcca aatcagagca ggaaattggg aaggcaaccg caaaatactt cttctattca 3900
aacatcatga acttctttaa gacggagatt acgctcgcga acggcgaaat acgcaagagg 3960
cccctcatag agactaacgg cgaaaccggg gagatcgtat gggacaaagg acgggacttt 4020
gcgaccgtta gaaaagtact ttcaatgcca caagtgaata ttgttaaaaa gacagaagta 4080
caaacagggg ggttcagtaa ggaatccatt ttgcccaagc ggaacagtga taaattgata 4140
gcaaggaaaa aagattggga ccctaagaag tacggtggtt tcgactctcc taccgttgca 4200
tattcagtcc ttgtagttgc gaaagtggaa aaggggaaaa gtaagaagct taagagtgtt 4260
aaagagcttc tgggcataac cataatggaa cggtctagct tcgagaaaaa tccaattgac 4320
tttctcgagg ctaaaggtta caaggaggta aaaaaggacc tgataattaa actcccaaag 4380
tacagtctct tcgagttgga gaatgggagg aagagaatgt tggcatctgc aggggagctc 4440
caaaagggga acgagctggc tctgccttca aaatacgtga actttctgta cctggccagc 4500
cactacgaga aactcaaggg ttctcctgag gataacgagc agaaacagct gtttgtagag 4560
cagcacaagc attacctgga cgagataatt gagcaaatta gtgagttctc aaaaagagta 4620
atccttgcag acgcgaatct ggataaagtt ctttccgcct ataataagca ccgggacaag 4680
cctatacgag aacaagccga gaacatcatt cacctcttta cccttactaa tctgggcgcg 4740
ccggccgcct tcaaatactt cgacaccacg atagacagga aaaggtatac gagtaccaaa 4800
gaagtacttg acgccactct catccaccag tctataacag ggttgtacga aacgaggata 4860
gatttgtccc agctcggcgg cgactcagga gggtcaggcg gctccggtgg atcaacgaat 4920
ctttccgaca taatcgagaa agaaaccggc aaacagttgg tgatccaaga atcaatcctg 4980
atgctgcctg aagaagtaga agaggtgatt ggcaacaaac ctgagtctga cattcttgtc 5040
cacaccgcgt atgacgagag cacggacgag aacgttatgc ttctcactag cgacgcccct 5100
gagtataaac catgggcgct ggtcatccaa gattccaatg gggaaaacaa gattaagatg 5160
cttagtggtg ggtctggagg gagcggtggg tccacgaacc tcagcgacat tattgaaaaa 5220
gagactggta aacaacttgt aatacaagag tctattctga tgttgcctga agaggtggag 5280
gaggtgattg ggaacaaacc ggagtctgat atacttgttc ataccgccta tgacgaatct 5340
actgatgaga atgtgatgct tttaacgtca gacgctcccg agtacaaacc ctgggctctg 5400
gtgattcagg acagcaatgg tgagaataag attaaaatgt tgagtggggg ctcaaagcgc 5460
acggctgacg gtagcgaatt tgagagcccc aaaaaaaaac gaaaggtcga ataa 5514
<210> 15
<211> 5514
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polynucleotide
<400> 15
atgagcagcg agacaggccc tgtggctgtg gatcctacac tgcggagaag aatcgagccc 60
cacgagttcg aggtgttctt cgaccccaga gagctgcgga aagagacatg cctgctgtac 120
gagatcaact ggggcggcag acactctatc tggcggcaca caagccagaa caccaacaag 180
cacgtggaag tgaactttat cgagaagttt acgaccgagc ggtacttctg ccccaacacc 240
agatgcagca tcacctggtt tctgagctgg tccccttgcg gcgagtgcag cagagccatc 300
accgagtttc tgtccagata tccccacgtg accctgttca tctatatcgc ccggctgtac 360
caccacgccg atcctagaaa tagacaggga ctgcgcgacc tgatcagcag cggagtgacc 420
atccagatca tgaccgagca agagagcggc tactgctggc ggaacttcgt gaactacagc 480
cccagcaacg aagcccactg gcctagatat cctcacctgt gggtccgact gtacgtgctg 540
gaactgtact gcatcatcct gggcctgcct ccatgcctga acatcctgag aagaaagcag 600
cctcagctga ccttcttcac aatcgccctg cagagctgcc actaccagag actgcctcca 660
cacatcctgt gggccaccgg acttaagagc ggaggatcta gcggcggctc tagcggatct 720
gagacacctg gcacaagcga gtctgccaca cctgagagta gcggcggatc ttctggcggc 780
tccgacaaga agtactctat cggactggcc atcggcacca actctgttgg atgggccgtg 840
atcaccgacg agtacaaggt gcccagcaag aaattcaagg tgctgggcaa caccgaccgg 900
cacagcatca agaagaatct gatcggcgcc ctgctgttcg actctggcga aacagccgaa 960
gccaccagac tgaagagaac cgccaggcgg agatacaccc ggcggaagaa ccggatctgc 1020
tacctgcaag agatcttcag caacgagatg gccaaggtgg acgacagctt cttccacaga 1080
ctggaagagt ccttcctggt ggaagaggac aagaagcacg agcggcaccc catcttcggc 1140
aacatcgtgg atgaggtggc ctaccacgag aagtacccca ccatctacca cctgagaaag 1200
aaactggtgg acagcaccga caaggccgac ctgagactga tctacctggc tctggcccac 1260
atgatcaagt tccggggcca ctttctgatc gagggcgatc tgaaccccga caacagcgac 1320
gtggacaagc tgttcatcca gctggtgcag acctacaacc agctgttcga ggaaaacccc 1380
atcaacgcct ctggcgtgga cgccaaggct atcctgtctg ccagactgag caagagcaga 1440
aggctggaaa acctgatcgc ccagctgcct ggcgagaaga agaatggcct gttcggcaac 1500
ctgattgccc tgagcctggg actgacccct aacttcaaga gcaacttcga cctggccgag 1560
gatgccaaac tgcagctgag caaggacacc tacgacgacg acctggacaa tctgctggcc 1620
cagatcggcg atcagtacgc cgacttgttt ctggccgcca agaacctgtc cgacgccatc 1680
ctgctgagcg atatcctgag agtgaacacc gagatcacaa aggcccctct gagcgcctct 1740
atgatcaaga gatacgacga gcaccaccag gatctgaccc tgctgaaggc cctcgttaga 1800
cagcagctgc cagagaagta caaagagatt ttcttcgatc agtccaagaa cggctacgcc 1860
ggctacattg atggcggagc cagccaagag gaattctaca agttcatcaa gcccatcctg 1920
gaaaagatgg acggcaccga ggaactgctg gtcaagctga acagagagga cctgctgcgg 1980
aagcagcgga ccttcgacaa tggctctatc cctcaccaga tccacctggg agagctgcac 2040
gccattctgc ggagacaaga ggacttttac ccattcctga aggacaaccg ggaaaagatc 2100
gagaagatcc tgaccttcag gatcccctac tacgtgggac cactggccag aggcaatagc 2160
agattcgcct ggatgaccag aaagagcgag gaaaccatca caccctggaa cttcgaggaa 2220
gtggtggaca agggcgccag cgctcagtcc ttcatcgagc ggatgaccaa cttcgataag 2280
aacctgccta acgagaaggt gctgcccaag cactccctgc tgtatgagta cttcaccgtg 2340
tacaacgagc tgaccaaagt gaaatacgtg accgagggaa tgagaaagcc cgcctttctg 2400
agcggcgagc agaaaaaggc cattgtggat ctgctgttca agaccaaccg gaaagtgacc 2460
gtgaagcagc tgaaagagga ctacttcaag aaaatcgagt gcttcgacag cgtggaaatc 2520
agcggcgtgg aagatcggtt caatgccagc ctgggcacat accacgacct gctgaaaatt 2580
atcaaggaca aggacttcct ggacaacgaa gagaacgagg acattctcga ggacatcgtg 2640
ctgaccctga cactgtttga ggacagagag atgatcgagg aacggctgaa aacatacgcc 2700
cacctgttcg acgacaaagt gatgaagcaa ctgaagcgga ggcggtacac aggctggggc 2760
agactgtctc ggaagctgat caacggcatc cgggataagc agtccggcaa gacaatcctg 2820
gatttcctga agtccgacgg cttcgccaac agaaacttca tgcagctgat ccacgacgac 2880
agcctgacct ttaaagagga catccagaaa gcccaggtgt ccggccaagg cgattctctg 2940
cacgagcaca ttgccaacct ggccggatct cccgccatta agaagggcat cctgcagaca 3000
gtgaaggtgg tggacgagct tgtgaaagtg atgggcagac acaagcccga gaacatcgtg 3060
atcgaaatgg ccagagagaa ccagaccaca cagaagggcc agaagaacag ccgcgagaga 3120
atgaagcgga tcgaagaggg catcaaagag ctgggcagcc agatcctgaa agaacacccc 3180
gtggaaaaca cccagctgca gaacgagaag ctgtacctgt actacctgca gaatggacgg 3240
gatatgtacg tggaccaaga gctggacatc aaccggctga gcgactacga tgtggaccat 3300
atcgtgcccc agagctttct gaaggacgac tccatcgata acaaggtcct gaccagaagc 3360
gacaagaacc ggggcaagag cgataacgtg ccctccgaag aggtggtcaa gaagatgaag 3420
aactactggc gacagctgct gaacgccaag ctgattaccc agcggaagtt cgataacctg 3480
accaaggccg agagaggcgg cctgagcgaa cttgataagg ccggcttcat taagcggcag 3540
ctggtggaaa cccggcagat caccaaacac gtggcacaga ttctggactc ccggatgaac 3600
actaagtacg acgagaatga caagctgatc cgggaagtga aagtcatcac cctgaagtct 3660
aagctggtgt ccgatttccg gaaggatttc cagttctaca aagtgcggga aatcaacaac 3720
taccatcacg cccacgacgc ctacctgaat gccgttgttg gaacagccct gatcaagaag 3780
tatcccaagc tggaaagcga gttcgtgtac ggcgactaca aggtgtacga cgtgcggaag 3840
atgatcgcca agagcgaaca agagatcggc aaggctaccg ccaagtactt tttctacagc 3900
aacatcatga actttttcaa gacagagatc accctggcca acggcgagat ccggaaaaga 3960
cccctgatcg agacaaacgg cgaaaccggg gagatcgtgt gggataaggg cagagatttt 4020
gccacagtgc ggaaagtgct gagcatgccc caagtgaata tcgtgaagaa aaccgaggtg 4080
cagacaggcg gcttcagcaa agagtctatc ctgcctaagc ggaacagcga taagctgatc 4140
gccagaaaga aggactggga ccctaagaag tacggcggct tcgatagccc taccgtggcc 4200
tattctgtgc tggtggtggc caaagtggaa aagggcaagt ccaaaaagct caagagcgtg 4260
aaagagctgc tggggatcac catcatggaa agaagcagct ttgagaagaa cccgatcgac 4320
tttctggaag ccaagggcta caaagaagtc aagaaggacc tcatcatcaa gctccccaag 4380
tacagcctgt tcgagctgga aaatggccgg aagcggatgc tggcctcagc aggcgaactg 4440
cagaaaggca atgaactggc cctgcctagc aaatacgtca acttcctgta cctggccagc 4500
cactatgaga agctgaaggg cagccccgag gacaatgagc aaaagcagct gtttgtggaa 4560
cagcacaagc actacctgga cgagatcatc gagcagatca gcgagttctc caagagagtg 4620
atcctggccg acgctaacct ggataaggtg ctgtctgcct ataacaagca ccgggacaag 4680
cctatcagag agcaggccga gaatatcatc cacctgttta ccctgaccaa cctgggagcc 4740
cctgccgcct tcaagtactt cgacaccacc atcgaccgga agaggtacac cagcaccaaa 4800
gaggtgctgg acgccacact gatccaccag tctatcaccg gcctgtacga aacccggatc 4860
gacctgtctc agctcggcgg cgattctggt ggttctggcg gaagtggcgg atccaccaat 4920
ctgagcgaca tcatcgaaaa agagacaggc aagcagctcg tgatccaaga atccatcctg 4980
atgctgcctg aagaggttga ggaagtgatc ggcaacaagc ctgagtccga catcctggtg 5040
cacaccgcct acgatgagag caccgatgag aacgtcatgc tgctgacaag cgacgcccct 5100
gagtacaagc cttgggctct cgtgattcag gacagcaatg gggagaacaa gatcaagatg 5160
ctgagcggag gtagcggagg cagtggcgga agcacaaacc tgtctgatat cattgaaaaa 5220
gaaaccggga agcaactggt cattcaagag tccattctca tgctcccgga agaagtcgag 5280
gaagtcattg gaaacaaacc cgagagcgat attctggtcc acacagccta tgacgagtct 5340
acagacgaaa acgtgatgct cctgacctct gacgctcccg agtataagcc ctgggcactt 5400
gttatccagg actctaacgg ggaaaacaaa atcaaaatgt tgtccggcgg cagcaagcgg 5460
acagccgatg gatctgagtt cgagagcccc aagaagaaac ggaaggtgga gtaa 5514
<210> 16
<211> 16
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 16
Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser
1 5 10 15
<210> 17
<211> 4
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 17
Ser Gly Gly Ser
1
<210> 18
<211> 120
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polypeptide
<220>
<221> MISC_FEATURE
<222> (1)..(120)
<223> This sequence may encompass 1-30 "Ser Gly Gly Ser"
repeating units
<400> 18
Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Gly Ser
1 5 10 15
Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Gly Ser
20 25 30
Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Gly Ser
35 40 45
Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Gly Ser
50 55 60
Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Gly Ser
65 70 75 80
Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Gly Ser
85 90 95
Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Gly Ser
100 105 110
Ser Gly Gly Ser Ser Gly Gly Ser
115 120
<210> 19
<211> 120
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polypeptide
<220>
<221> MISC_FEATURE
<222> (1)..(120)
<223> This sequence may encompass 1-30 "Gly Gly Gly Ser"
repeating units
<400> 19
Gly Gly Gly Ser Gly Gly Gly Ser Gly Gly Gly Ser Gly Gly Gly Ser
1 5 10 15
Gly Gly Gly Ser Gly Gly Gly Ser Gly Gly Gly Ser Gly Gly Gly Ser
20 25 30
Gly Gly Gly Ser Gly Gly Gly Ser Gly Gly Gly Ser Gly Gly Gly Ser
35 40 45
Gly Gly Gly Ser Gly Gly Gly Ser Gly Gly Gly Ser Gly Gly Gly Ser
50 55 60
Gly Gly Gly Ser Gly Gly Gly Ser Gly Gly Gly Ser Gly Gly Gly Ser
65 70 75 80
Gly Gly Gly Ser Gly Gly Gly Ser Gly Gly Gly Ser Gly Gly Gly Ser
85 90 95
Gly Gly Gly Ser Gly Gly Gly Ser Gly Gly Gly Ser Gly Gly Gly Ser
100 105 110
Gly Gly Gly Ser Gly Gly Gly Ser
115 120
<210> 20
<211> 150
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polypeptide
<220>
<221> MISC_FEATURE
<222> (1)..(150)
<223> This sequence may encompass 1-30 "Gly Gly Gly Gly Ser"
repeating units
<400> 20
Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly
1 5 10 15
Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly
20 25 30
Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly
35 40 45
Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly
50 55 60
Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser
65 70 75 80
Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly
85 90 95
Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly
100 105 110
Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly
115 120 125
Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly
130 135 140
Ser Gly Gly Gly Gly Ser
145 150
<210> 21
<211> 30
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polypeptide
<220>
<221> MISC_FEATURE
<222> (1)..(30)
<223> This sequence may encompass 1-30 residues
<400> 21
Gly Gly Gly Gly Gly Gly Gly Gly Gly Gly Gly Gly Gly Gly Gly Gly
1 5 10 15
Gly Gly Gly Gly Gly Gly Gly Gly Gly Gly Gly Gly Gly Gly
20 25 30
<210> 22
<211> 150
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polypeptide
<220>
<221> MISC_FEATURE
<222> (1)..(150)
<223> This sequence may encompass 1-30 "Glu Ala Ala Ala Lys"
repeating units
<400> 22
Glu Ala Ala Ala Lys Glu Ala Ala Ala Lys Glu Ala Ala Ala Lys Glu
1 5 10 15
Ala Ala Ala Lys Glu Ala Ala Ala Lys Glu Ala Ala Ala Lys Glu Ala
20 25 30
Ala Ala Lys Glu Ala Ala Ala Lys Glu Ala Ala Ala Lys Glu Ala Ala
35 40 45
Ala Lys Glu Ala Ala Ala Lys Glu Ala Ala Ala Lys Glu Ala Ala Ala
50 55 60
Lys Glu Ala Ala Ala Lys Glu Ala Ala Ala Lys Glu Ala Ala Ala Lys
65 70 75 80
Glu Ala Ala Ala Lys Glu Ala Ala Ala Lys Glu Ala Ala Ala Lys Glu
85 90 95
Ala Ala Ala Lys Glu Ala Ala Ala Lys Glu Ala Ala Ala Lys Glu Ala
100 105 110
Ala Ala Lys Glu Ala Ala Ala Lys Glu Ala Ala Ala Lys Glu Ala Ala
115 120 125
Ala Lys Glu Ala Ala Ala Lys Glu Ala Ala Ala Lys Glu Ala Ala Ala
130 135 140
Lys Glu Ala Ala Ala Lys
145 150
<210> 23
<211> 90
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polypeptide
<220>
<221> MISC_FEATURE
<222> (1)..(90)
<223> This sequence may encompass 1-30 "Gly Gly Ser"
repeating units
<400> 23
Gly Gly Ser Gly Gly Ser Gly Gly Ser Gly Gly Ser Gly Gly Ser Gly
1 5 10 15
Gly Ser Gly Gly Ser Gly Gly Ser Gly Gly Ser Gly Gly Ser Gly Gly
20 25 30
Ser Gly Gly Ser Gly Gly Ser Gly Gly Ser Gly Gly Ser Gly Gly Ser
35 40 45
Gly Gly Ser Gly Gly Ser Gly Gly Ser Gly Gly Ser Gly Gly Ser Gly
50 55 60
Gly Ser Gly Gly Ser Gly Gly Ser Gly Gly Ser Gly Gly Ser Gly Gly
65 70 75 80
Ser Gly Gly Ser Gly Gly Ser Gly Gly Ser
85 90
<210> 24
<211> 60
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polypeptide
<220>
<221> MOD_RES
<222> (1)..(1)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (3)..(3)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (5)..(5)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (7)..(7)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (9)..(9)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (11)..(11)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (13)..(13)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (15)..(15)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (17)..(17)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (19)..(19)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (21)..(21)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (23)..(23)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (25)..(25)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (27)..(27)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (29)..(29)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (31)..(31)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (33)..(33)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (35)..(35)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (37)..(37)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (39)..(39)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (41)..(41)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (43)..(43)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (45)..(45)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (47)..(47)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (49)..(49)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (51)..(51)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (53)..(53)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (55)..(55)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (57)..(57)
<223> Any amino acid
<220>
<221> MOD_RES
<222> (59)..(59)
<223> Any amino acid
<220>
<221> MISC_FEATURE
<222> (1)..(60)
<223> This sequence may encompass 1-30 "Xaa Pro"
repeating units
<400> 24
Xaa Pro Xaa Pro Xaa Pro Xaa Pro Xaa Pro Xaa Pro Xaa Pro Xaa Pro
1 5 10 15
Xaa Pro Xaa Pro Xaa Pro Xaa Pro Xaa Pro Xaa Pro Xaa Pro Xaa Pro
20 25 30
Xaa Pro Xaa Pro Xaa Pro Xaa Pro Xaa Pro Xaa Pro Xaa Pro Xaa Pro
35 40 45
Xaa Pro Xaa Pro Xaa Pro Xaa Pro Xaa Pro Xaa Pro
50 55 60
<210> 25
<211> 5
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 25
Pro Ala Pro Ala Pro
1 5
<210> 26
<211> 6
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 26
Pro Ala Pro Ala Pro Ala
1 5
<210> 27
<211> 7
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 27
Pro Ala Pro Ala Pro Ala Pro
1 5
<210> 28
<211> 8
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 28
Pro Ala Pro Ala Pro Ala Pro Ala
1 5
<210> 29
<211> 9
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 29
Pro Ala Pro Ala Pro Ala Pro Ala Pro
1 5
<210> 30
<211> 15
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 30
Pro Ala Pro Ala Pro Ala Pro Ala Pro Ala Pro Ala Pro Ala Pro
1 5 10 15
<210> 31
<211> 21
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 31
Pro Ala Pro Ala Pro Ala Pro Ala Pro Ala Pro Ala Pro Ala Pro Ala
1 5 10 15
Pro Ala Pro Ala Pro
20
<210> 32
<211> 24
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 32
Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala
1 5 10 15
Thr Pro Glu Ser Ser Gly Gly Ser
20
<210> 33
<211> 32
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polypeptide
<400> 33
Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr
1 5 10 15
Ser Glu Ser Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser
20 25 30
<210> 34
<211> 104
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polypeptide
<400> 34
Gly Gly Ser Gly Gly Ser Pro Gly Ser Pro Ala Gly Ser Pro Thr Ser
1 5 10 15
Thr Glu Glu Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser Gly Pro Gly
20 25 30
Thr Ser Thr Glu Pro Ser Glu Gly Ser Ala Pro Gly Ser Pro Ala Gly
35 40 45
Ser Pro Thr Ser Thr Glu Glu Gly Thr Ser Thr Glu Pro Ser Glu Gly
50 55 60
Ser Ala Pro Gly Thr Ser Thr Glu Pro Ser Glu Gly Ser Ala Pro Gly
65 70 75 80
Thr Ser Glu Ser Ala Thr Pro Glu Ser Gly Pro Gly Ser Glu Pro Ala
85 90 95
Thr Ser Gly Gly Ser Gly Gly Ser
100
<210> 35
<211> 24
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 35
Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr
1 5 10 15
Ser Glu Ser Ala Thr Pro Glu Ser
20
<210> 36
<211> 40
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polypeptide
<400> 36
Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr
1 5 10 15
Ser Glu Ser Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser
20 25 30
Ser Gly Gly Ser Ser Gly Gly Ser
35 40
<210> 37
<211> 64
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polypeptide
<400> 37
Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr
1 5 10 15
Ser Glu Ser Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser
20 25 30
Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr
35 40 45
Ser Glu Ser Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser
50 55 60
<210> 38
<211> 92
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polypeptide
<400> 38
Pro Gly Ser Pro Ala Gly Ser Pro Thr Ser Thr Glu Glu Gly Thr Ser
1 5 10 15
Glu Ser Ala Thr Pro Glu Ser Gly Pro Gly Thr Ser Thr Glu Pro Ser
20 25 30
Glu Gly Ser Ala Pro Gly Ser Pro Ala Gly Ser Pro Thr Ser Thr Glu
35 40 45
Glu Gly Thr Ser Thr Glu Pro Ser Glu Gly Ser Ala Pro Gly Thr Ser
50 55 60
Thr Glu Pro Ser Glu Gly Ser Ala Pro Gly Thr Ser Glu Ser Ala Thr
65 70 75 80
Pro Glu Ser Gly Pro Gly Ser Glu Pro Ala Thr Ser
85 90
<210> 39
<211> 1785
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
Base editor sequence
<400> 39
Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu
1 5 10 15
Thr Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala
20 25 30
Val Leu Val His Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro
35 40 45
Ile Gly Arg His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg
50 55 60
Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu
65 70 75 80
Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His
85 90 95
Ser Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly
100 105 110
Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His
115 120 125
Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu
130 135 140
Leu Ser Asp Phe Phe Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys
145 150 155 160
Lys Ala Gln Ser Ser Thr Asp Ser Gly Gly Ser Ser Gly Gly Ser Ser
165 170 175
Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser Ser
180 185 190
Gly Gly Ser Ser Gly Gly Ser Ser Glu Val Glu Phe Ser His Glu Tyr
195 200 205
Trp Met Arg His Ala Leu Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg
210 215 220
Glu Val Pro Val Gly Ala Val Leu Val Leu Asn Asn Arg Val Ile Gly
225 230 235 240
Glu Gly Trp Asn Arg Ala Ile Gly Leu His Asp Pro Thr Ala His Ala
245 250 255
Glu Ile Met Ala Leu Arg Gln Gly Gly Leu Val Met Gln Asn Tyr Arg
260 265 270
Leu Ile Asp Ala Thr Leu Tyr Val Thr Phe Glu Pro Cys Val Met Cys
275 280 285
Ala Gly Ala Met Ile His Ser Arg Ile Gly Arg Val Val Phe Gly Val
290 295 300
Arg Asn Ala Lys Thr Gly Ala Ala Gly Ser Leu Met Asp Val Leu His
305 310 315 320
Tyr Pro Gly Met Asn His Arg Val Glu Ile Thr Glu Gly Ile Leu Ala
325 330 335
Asp Glu Cys Ala Ala Leu Leu Cys Tyr Phe Phe Arg Met Pro Arg Gln
340 345 350
Val Phe Asn Ala Gln Lys Lys Ala Gln Ser Ser Thr Asp Ser Gly Gly
355 360 365
Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser
370 375 380
Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser Asp Lys Lys
385 390 395 400
Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val Gly Trp Ala Val
405 410 415
Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys Val Leu Gly
420 425 430
Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile Gly Ala Leu Leu
435 440 445
Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu Lys Arg Thr Ala
450 455 460
Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr Leu Gln Glu
465 470 475 480
Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser Phe Phe His Arg
485 490 495
Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys His Glu Arg His
500 505 510
Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr His Glu Lys Tyr
515 520 525
Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp Ser Thr Asp Lys
530 535 540
Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His Met Ile Lys Phe
545 550 555 560
Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp Asn Ser Asp
565 570 575
Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn Gln Leu Phe
580 585 590
Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala Lys Ala Ile Leu
595 600 605
Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu Ile Ala Gln
610 615 620
Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu Ile Ala Leu
625 630 635 640
Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp Leu Ala Glu
645 650 655
Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp Asp Leu Asp
660 665 670
Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu Phe Leu Ala
675 680 685
Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile Leu Arg Val
690 695 700
Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met Ile Lys Arg
705 710 715 720
Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys Ala Leu Val Arg
725 730 735
Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp Gln Ser Lys
740 745 750
Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln Glu Glu Phe
755 760 765
Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp Gly Thr Glu Glu
770 775 780
Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys Gln Arg Thr
785 790 795 800
Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu Gly Glu Leu His
805 810 815
Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu Lys Asp Asn
820 825 830
Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro Tyr Tyr Val
835 840 845
Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp Met Thr Arg Lys
850 855 860
Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu Val Val Asp Lys
865 870 875 880
Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr Asn Phe Asp Lys
885 890 895
Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser Leu Leu Tyr Glu
900 905 910
Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr Val Thr Glu
915 920 925
Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys Lys Ala Ile
930 935 940
Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val Lys Gln Leu
945 950 955 960
Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser Val Glu Ile
965 970 975
Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr Tyr His Asp
980 985 990
Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn Glu Glu Asn
995 1000 1005
Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr Leu Phe Glu
1010 1015 1020
Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala His Leu
1025 1030 1035
Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr
1040 1045 1050
Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
1055 1060 1065
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly
1070 1075 1080
Phe Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu
1085 1090 1095
Thr Phe Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly
1100 1105 1110
Asp Ser Leu His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala
1115 1120 1125
Ile Lys Lys Gly Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu
1130 1135 1140
Val Lys Val Met Gly Arg His Lys Pro Glu Asn Ile Val Ile Glu
1145 1150 1155
Met Ala Arg Glu Asn Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser
1160 1165 1170
Arg Glu Arg Met Lys Arg Ile Glu Glu Gly Ile Lys Glu Leu Gly
1175 1180 1185
Ser Gln Ile Leu Lys Glu His Pro Val Glu Asn Thr Gln Leu Gln
1190 1195 1200
Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly Arg Asp Met
1205 1210 1215
Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu Ser Asp Tyr Asp
1220 1225 1230
Val Asp His Ile Val Pro Gln Ser Phe Leu Lys Asp Asp Ser Ile
1235 1240 1245
Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly Lys Ser
1250 1255 1260
Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn Tyr
1265 1270 1275
Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe
1280 1285 1290
Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp
1295 1300 1305
Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile
1310 1315 1320
Thr Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys
1325 1330 1335
Tyr Asp Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr
1340 1345 1350
Leu Lys Ser Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe
1355 1360 1365
Tyr Lys Val Arg Glu Ile Asn Asn Tyr His His Ala His Asp Ala
1370 1375 1380
Tyr Leu Asn Ala Val Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro
1385 1390 1395
Lys Leu Glu Ser Glu Phe Val Tyr Gly Asp Tyr Lys Val Tyr Asp
1400 1405 1410
Val Arg Lys Met Ile Ala Lys Ser Glu Gln Glu Ile Gly Lys Ala
1415 1420 1425
Thr Ala Lys Tyr Phe Phe Tyr Ser Asn Ile Met Asn Phe Phe Lys
1430 1435 1440
Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile Arg Lys Arg Pro Leu
1445 1450 1455
Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile Val Trp Asp Lys Gly
1460 1465 1470
Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser Met Pro Gln Val
1475 1480 1485
Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly Phe Ser Lys
1490 1495 1500
Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys Leu Ile Ala Arg
1505 1510 1515
Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe Met Gln Pro
1520 1525 1530
Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys Val Glu Lys Gly
1535 1540 1545
Lys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr
1550 1555 1560
Ile Met Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu
1565 1570 1575
Glu Ala Lys Gly Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys
1580 1585 1590
Leu Pro Lys Tyr Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg
1595 1600 1605
Met Leu Ala Ser Ala Lys Phe Leu Gln Lys Gly Asn Glu Leu Ala
1610 1615 1620
Leu Pro Ser Lys Tyr Val Asn Phe Leu Tyr Leu Ala Ser His Tyr
1625 1630 1635
Glu Lys Leu Lys Gly Ser Pro Glu Asp Asn Glu Gln Lys Gln Leu
1640 1645 1650
Phe Val Glu Gln His Lys His Tyr Leu Asp Glu Ile Ile Glu Gln
1655 1660 1665
Ile Ser Glu Phe Ser Lys Arg Val Ile Leu Ala Asp Ala Asn Leu
1670 1675 1680
Asp Lys Val Leu Ser Ala Tyr Asn Lys His Arg Asp Lys Pro Ile
1685 1690 1695
Arg Glu Gln Ala Glu Asn Ile Ile His Leu Phe Thr Leu Thr Asn
1700 1705 1710
Leu Gly Ala Pro Arg Ala Phe Lys Tyr Phe Asp Thr Thr Ile Ala
1715 1720 1725
Arg Lys Glu Tyr Arg Ser Thr Lys Glu Val Leu Asp Ala Thr Leu
1730 1735 1740
Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu
1745 1750 1755
Ser Gln Leu Gly Gly Asp Glu Gly Ala Asp Lys Arg Thr Ala Asp
1760 1765 1770
Gly Ser Glu Phe Glu Ser Pro Lys Lys Lys Arg Lys
1775 1780 1785
<210> 40
<211> 18
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 40
Lys Arg Thr Ala Asp Gly Ser Glu Phe Glu Ser Pro Lys Lys Lys Arg
1 5 10 15
Lys Val
<210> 41
<211> 16
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 41
Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys Lys Lys
1 5 10 15
<210> 42
<211> 17
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 42
Lys Lys Thr Glu Leu Gln Thr Thr Asn Ala Glu Asn Lys Thr Lys Lys
1 5 10 15
Leu
<210> 43
<211> 19
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 43
Lys Arg Gly Ile Asn Asp Arg Asn Phe Trp Arg Gly Glu Asn Gly Arg
1 5 10 15
Lys Thr Arg
<210> 44
<211> 16
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 44
Arg Lys Ser Gly Lys Ile Ala Ala Ile Val Val Lys Arg Pro Arg Lys
1 5 10 15
<210> 45
<211> 7
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 45
Pro Lys Lys Lys Arg Lys Val
1 5
<210> 46
<211> 30
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polypeptide
<400> 46
Met Asp Ser Leu Leu Met Asn Arg Arg Lys Phe Leu Tyr Gln Phe Lys
1 5 10 15
Asn Val Arg Trp Ala Lys Gly Arg Arg Glu Thr Tyr Leu Cys
20 25 30
<210> 47
<211> 3220
<212> DNA
<213> Homo sapiens
<400> 47
acaatgactc ctttcggtaa gtgcagtgga agctgtacac tgcccaggca aagcgtccgg 60
gcagcgtagg cgggcgactc agatcccagc cagtggactt agcccctgtt tgctcctccg 120
ataactgggg tgaccttggt taatattcac cagcagcctc ccccgttgcc cctctggatc 180
cactgcttaa atacggacga ggacagggcc ctgtctcctc agcttcaggc accaccactg 240
acctgggaca gtgaatcgac aatgccgtct tctgtctcgt ggggcatcct cctgctggca 300
ggcctgtgct gcctggtccc tgtctccctg gctgaggatc cccagggaga tgctgcccag 360
aagacagata catcccacca tgatcaggat cacccaacct tcaacaagat cacccccaac 420
ctggctgagt tcgccttcag cctataccgc cagctggcac accagtccaa cagcaccaat 480
atcttcttct ccccagtgag catcgctaca gcctttgcaa tgctctccct ggggaccaag 540
gctgacactc acgatgaaat cctggagggc ctgaatttca acctcacgga gattccggag 600
gctcagatcc atgaaggctt ccaggaactc ctccgtaccc tcaaccagcc agacagccag 660
ctccagctga ccaccggcaa tggcctgttc ctcagcgagg gcctgaagct agtggataag 720
tttttggagg atgttaaaaa gttgtaccac tcagaagcct tcactgtcaa cttcggggac 780
accgaagagg ccaagaaaca gatcaacgat tacgtggaga agggtactca agggaaaatt 840
gtggatttgg tcaaggagct tgacagagac acagtttttg ctctggtgaa ttacatcttc 900
tttaaaggca aatgggagag accctttgaa gtcaaggaca ccgaggaaga ggacttccac 960
gtggaccagg tgaccaccgt gaaggtgcct atgatgaagc gtttaggcat gtttaacatc 1020
cagcactgta agaagctgtc cagctgggtg ctgctgatga aatacctggg caatgccacc 1080
gccatcttct tcctgcctga tgaggggaaa ctacagcacc tggaaaatga actcacccac 1140
gatatcatca ccaagttcct ggaaaatgaa gacagaaggt ctgccagctt acatttaccc 1200
aaactgtcca ttactggaac ctatgatctg aagagcgtcc tgggtcaact gggcatcact 1260
aaggtcttca gcaatggggc tgacctctcc ggggtcacag aggaggcacc cctgaagctc 1320
tccaaggccg tgcataaggc tgtgctgacc atcgacgaga aagggactga agctgctggg 1380
gccatgtttt tagaggccat acccatgtct atcccccccg aggtcaagtt caacaaaccc 1440
tttgtcttct taatgattga acaaaatacc aagtctcccc tcttcatggg aaaagtggtg 1500
aatcccaccc aaaaataact gcctctcgct cctcaacccc tcccctccat ccctggcccc 1560
ctccctggat gacattaaag aagggttgag ctggtccctg cctgcatgtg actgtaaatc 1620
cctcccatgt tttctctgag tctccctttg cctgctgagg ctgtatgtgg gctccaggta 1680
acagtgctgt cttcgggccc cctgaactgt gttcatggag catctggctg ggtaggcaca 1740
tgctgggctt gaatccaggg gggactgaat cctcagctta cggacctggg cccatctgtt 1800
tctggagggc tccagtcttc cttgtcctgt cttggagtcc ccaagaagga atcacagggg 1860
aggaaccaga taccagccat gaccccaggc tccaccaagc atcttcatgt ccccctgctc 1920
atcccccact cccccccacc cagagttgct catcctgcca gggctggctg tgcccacccc 1980
aaggctgccc tcctgggggc cccagaactg cctgatcgtg ccgtggccca gttttgtggc 2040
atctgcagca acacaagaga gaggacaatg tcctcctctt gacccgctgt cacctaacca 2100
gactcgggcc ctgcacctct caggcacttc tggaaaatga ctgaggcaga ttcttcctga 2160
agcccattct ccatggggca acaaggacac ctattctgtc cttgtccttc catcgctgcc 2220
ccagaaagcc tcacatatct ccgtttagaa tcaggtccct tctccccaga tgaagaggag 2280
ggtctctgct ttgttttctc tatctcctcc tcagacttga ccaggcccag caggccccag 2340
aagaccatta ccctatatcc cttctcctcc ctagtcacat ggccataggc ctgctgatgg 2400
ctcaggaagg ccattgcaag gactcctcag ctatgggaga ggaagcacat cacccattga 2460
cccccgcaac ccctcccttt cctcctctga gtcccgactg gggccacatg cagcctgact 2520
tctttgtgcc tgttgctgtc cctgcagtct tcagagggcc accgcagctc cagtgccacg 2580
gcaggaggct gttcctgaat agcccctgtg gtaagggcca ggagagtcct tccatcctcc 2640
aaggccctgc taaaggacac agcagccagg aagtcccctg ggcccctagc tgaaggacag 2700
cctgctccct ccgtctctac caggaatggc cttgtcctat ggaaggcact gccccatccc 2760
aaactaatct aggaatcact gtctaaccac tcactgtcat gaatgtgtac ttaaaggatg 2820
aggttgagtc ataccaaata gtgatttcga tagttcaaaa tggtgaaatt agcaattcta 2880
catgattcag tctaatcaat ggataccgac tgtttcccac acaagtctcc tgttctctta 2940
agcttactca ctgacagcct ttcactctcc acaaatacat taaagatatg gccatcacca 3000
agccccctag gatgacacca gacctgagag tctgaagacc tggatccaag ttctgacttt 3060
tccccctgac agctgtgtga ccttcgtgaa gtcgccaaac ctctctgagc cccagtcatt 3120
gctagtaaga cctgcctttg agttggtatg atgttcaagt tagataacaa aatgtttata 3180
cccattagaa cagagaataa atagaactac atttcttgca 3220
<210> 48
<211> 1368
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polypeptide
<400> 48
Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe
20 25 30
Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser
85 90 95
Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys
100 105 110
His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr
115 120 125
His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp
130 135 140
Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His
145 150 155 160
Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro
165 170 175
Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr
180 185 190
Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala
195 200 205
Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn
210 215 220
Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn
225 230 235 240
Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe
245 250 255
Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp
260 265 270
Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp
275 280 285
Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp
290 295 300
Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser
305 310 315 320
Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys
325 330 335
Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe
340 345 350
Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser
355 360 365
Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp
370 375 380
Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg
385 390 395 400
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
405 410 415
Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe
420 425 430
Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile
435 440 445
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp
450 455 460
Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu
465 470 475 480
Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr
485 490 495
Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser
500 505 510
Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
515 520 525
Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln
530 535 540
Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr
545 550 555 560
Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp
565 570 575
Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly
580 585 590
Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp
595 600 605
Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr
610 615 620
Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala
625 630 635 640
His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr
645 650 655
Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
660 665 670
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe
675 680 685
Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe
690 695 700
Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu
705 710 715 720
His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly
725 730 735
Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly
740 745 750
Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln
755 760 765
Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile
770 775 780
Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro
785 790 795 800
Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu
805 810 815
Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg
820 825 830
Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys
835 840 845
Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg
850 855 860
Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys
865 870 875 880
Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys
885 890 895
Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp
900 905 910
Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr
915 920 925
Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp
930 935 940
Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser
945 950 955 960
Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg
965 970 975
Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val
980 985 990
Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe
995 1000 1005
Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala
1010 1015 1020
Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe
1025 1030 1035
Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala
1040 1045 1050
Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu
1055 1060 1065
Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val
1070 1075 1080
Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr
1085 1090 1095
Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys
1100 1105 1110
Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro
1115 1120 1125
Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val
1130 1135 1140
Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys
1145 1150 1155
Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser
1160 1165 1170
Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys
1175 1180 1185
Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu
1190 1195 1200
Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly
1205 1210 1215
Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val
1220 1225 1230
Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser
1235 1240 1245
Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys
1250 1255 1260
His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys
1265 1270 1275
Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala
1280 1285 1290
Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn
1295 1300 1305
Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala
1310 1315 1320
Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser
1325 1330 1335
Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr
1340 1345 1350
Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1355 1360 1365
<210> 49
<211> 80
<212> RNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 49
guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc cguuaucaac uugaaaaagu 60
ggcaccgagu cggugcuuuu 80
<210> 50
<211> 1367
<212> PRT
<213> Streptococcus pyogenes
<400> 50
Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Ile Thr Asp Asp Tyr Lys Val Pro Ser Lys Lys Phe
20 25 30
Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Gly Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser
85 90 95
Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys
100 105 110
His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr
115 120 125
His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Ala Asp
130 135 140
Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His
145 150 155 160
Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro
165 170 175
Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Ile Tyr
180 185 190
Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Arg Val Asp Ala
195 200 205
Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn
210 215 220
Leu Ile Ala Gln Leu Pro Gly Glu Lys Arg Asn Gly Leu Phe Gly Asn
225 230 235 240
Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe
245 250 255
Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp
260 265 270
Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp
275 280 285
Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp
290 295 300
Ile Leu Arg Val Asn Ser Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser
305 310 315 320
Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys
325 330 335
Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe
340 345 350
Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser
355 360 365
Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp
370 375 380
Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg
385 390 395 400
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
405 410 415
Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe
420 425 430
Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile
435 440 445
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp
450 455 460
Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu
465 470 475 480
Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr
485 490 495
Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser
500 505 510
Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
515 520 525
Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln
530 535 540
Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr
545 550 555 560
Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp
565 570 575
Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly
580 585 590
Ala Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp
595 600 605
Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr
610 615 620
Leu Phe Glu Asp Arg Gly Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala
625 630 635 640
His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr
645 650 655
Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
660 665 670
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe
675 680 685
Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe
690 695 700
Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly His Ser Leu
705 710 715 720
His Glu Gln Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly
725 730 735
Ile Leu Gln Thr Val Lys Ile Val Asp Glu Leu Val Lys Val Met Gly
740 745 750
His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr
755 760 765
Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile Glu
770 775 780
Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val
785 790 795 800
Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln
805 810 815
Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu
820 825 830
Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Ile Lys Asp
835 840 845
Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly
850 855 860
Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn
865 870 875 880
Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe
885 890 895
Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys
900 905 910
Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys
915 920 925
His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu
930 935 940
Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser Lys
945 950 955 960
Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu
965 970 975
Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val Val
980 985 990
Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val
995 1000 1005
Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys
1010 1015 1020
Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr
1025 1030 1035
Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn
1040 1045 1050
Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr
1055 1060 1065
Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg
1070 1075 1080
Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu
1085 1090 1095
Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg
1100 1105 1110
Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys
1115 1120 1125
Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val Leu
1130 1135 1140
Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser
1145 1150 1155
Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser Phe
1160 1165 1170
Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu
1175 1180 1185
Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe
1190 1195 1200
Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly Glu
1205 1210 1215
Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn
1220 1225 1230
Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro
1235 1240 1245
Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His
1250 1255 1260
Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg
1265 1270 1275
Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr
1280 1285 1290
Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile
1295 1300 1305
Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe
1310 1315 1320
Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr
1325 1330 1335
Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr Gly
1340 1345 1350
Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1355 1360 1365
<210> 51
<211> 4104
<212> DNA
<213> Streptococcus pyogenes
<400> 51
atggataaga aatactcaat aggcttagat atcggcacaa atagcgtcgg atgggcggtg 60
atcactgatg attataaggt tccgtctaaa aagttcaagg ttctgggaaa tacagaccgc 120
cacagtatca aaaaaaatct tataggggct cttttatttg gcagtggaga gacagcggaa 180
gcgactcgtc tcaaacggac agctcgtaga aggtatacac gtcggaagaa tcgtatttgt 240
tatctacagg agattttttc aaatgagatg gcgaaagtag atgatagttt ctttcatcga 300
cttgaagagt cttttttggt ggaagaagac aagaagcatg aacgtcatcc tatttttgga 360
aatatagtag atgaagttgc ttatcatgag aaatatccaa ctatctatca tctgcgaaaa 420
aaattggcag attctactga taaagcggat ttgcgcttaa tctatttggc cttagcgcat 480
atgattaagt ttcgtggtca ttttttgatt gagggagatt taaatcctga taatagtgat 540
gtggacaaac tatttatcca gttggtacaa atctacaatc aattatttga agaaaaccct 600
attaacgcaa gtagagtaga tgctaaagcg attctttctg cacgattgag taaatcaaga 660
cgattagaaa atctcattgc tcagctcccc ggtgagaaga gaaatggctt gtttgggaat 720
ctcattgctt tgtcattggg attgacccct aattttaaat caaattttga tttggcagaa 780
gatgctaaat tacagctttc aaaagatact tacgatgatg atttagataa tttattggcg 840
caaattggag atcaatatgc tgatttgttt ttggcagcta agaatttatc agatgctatt 900
ttactttcag atatcctaag agtaaatagt gaaataacta aggctcccct atcagcttca 960
atgattaagc gctacgatga acatcatcaa gacttgactc ttttaaaagc tttagttcga 1020
caacaacttc cagaaaagta taaagaaatc ttttttgatc aatcaaaaaa cggatatgca 1080
ggttatattg atgggggagc tagccaagaa gaattttata aatttatcaa accaatttta 1140
gaaaaaatgg atggtactga ggaattattg gtgaaactaa atcgtgaaga tttgctgcgc 1200
aagcaacgga cctttgacaa cggctctatt ccccatcaaa ttcacttggg tgagctgcat 1260
gctattttga gaagacaaga agacttttat ccatttttaa aagacaatcg tgagaagatt 1320
gaaaaaatct tgacttttcg aattccttat tatgttggtc cattggcgcg tggcaatagt 1380
cgttttgcat ggatgactcg gaagtctgaa gaaacaatta ccccatggaa ttttgaagaa 1440
gttgtcgata aaggtgcttc agctcaatca tttattgaac gcatgacaaa ctttgataaa 1500
aatcttccaa atgaaaaagt actaccaaaa catagtttgc tttatgagta ttttacggtt 1560
tataacgaat tgacaaaggt caaatatgtt actgagggaa tgcgaaaacc agcatttctt 1620
tcaggtgaac agaagaaagc cattgttgat ttactcttca aaacaaatcg aaaagtaacc 1680
gttaagcaat taaaagaaga ttatttcaaa aaaatagaat gttttgatag tgttgaaatt 1740
tcaggagttg aagatagatt taatgcttca ttaggcgcct accatgattt gctaaaaatt 1800
attaaagata aagatttttt ggataatgaa gaaaatgaag atatcttaga ggatattgtt 1860
ttaacattga ccttatttga agataggggg atgattgagg aaagacttaa aacatatgct 1920
cacctctttg atgataaggt gatgaaacag cttaaacgtc gccgttatac tggttgggga 1980
cgtttgtctc gaaaattgat taatggtatt agggataagc aatctggcaa aacaatatta 2040
gattttttga aatcagatgg ttttgccaat cgcaatttta tgcagctgat ccatgatgat 2100
agtttgacat ttaaagaaga tattcaaaaa gcacaggtgt ctggacaagg ccatagttta 2160
catgaacaga ttgctaactt agctggcagt cctgctatta aaaaaggtat tttacagact 2220
gtaaaaattg ttgatgaact ggtcaaagta atggggcata agccagaaaa tatcgttatt 2280
gaaatggcac gtgaaaatca gacaactcaa aagggccaga aaaattcgcg agagcgtatg 2340
aaacgaatcg aagaaggtat caaagaatta ggaagtcaga ttcttaaaga gcatcctgtt 2400
gaaaatactc aattgcaaaa tgaaaagctc tatctctatt atctacaaaa tggaagagac 2460
atgtatgtgg accaagaatt agatattaat cgtttaagtg attatgatgt cgatcacatt 2520
gttccacaaa gtttcattaa agacgattca atagacaata aggtactaac gcgttctgat 2580
aaaaatcgtg gtaaatcgga taacgttcca agtgaagaag tagtcaaaaa gatgaaaaac 2640
tattggagac aacttctaaa cgccaagtta atcactcaac gtaagtttga taatttaacg 2700
aaagctgaac gtggaggttt gagtgaactt gataaagctg gttttatcaa acgccaattg 2760
gttgaaactc gccaaatcac taagcatgtg gcacaaattt tggatagtcg catgaatact 2820
aaatacgatg aaaatgataa acttattcga gaggttaaag tgattacctt aaaatctaaa 2880
ttagtttctg acttccgaaa agatttccaa ttctataaag tacgtgagat taacaattac 2940
catcatgccc atgatgcgta tctaaatgcc gtcgttggaa ctgctttgat taagaaatat 3000
ccaaaacttg aatcggagtt tgtctatggt gattataaag tttatgatgt tcgtaaaatg 3060
attgctaagt ctgagcaaga aataggcaaa gcaaccgcaa aatatttctt ttactctaat 3120
atcatgaact tcttcaaaac agaaattaca cttgcaaatg gagagattcg caaacgccct 3180
ctaatcgaaa ctaatgggga aactggagaa attgtctggg ataaagggcg agattttgcc 3240
acagtgcgca aagtattgtc catgccccaa gtcaatattg tcaagaaaac agaagtacag 3300
acaggcggat tctccaagga gtcaatttta ccaaaaagaa attcggacaa gcttattgct 3360
cgtaaaaaag actgggatcc aaaaaaatat ggtggttttg atagtccaac ggtagcttat 3420
tcagtcctag tggttgctaa ggtggaaaaa gggaaatcga agaagttaaa atccgttaaa 3480
gagttactag ggatcacaat tatggaaaga agttcctttg aaaaaaatcc gattgacttt 3540
ttagaagcta aaggatataa ggaagttaaa aaagacttaa tcattaaact acctaaatat 3600
agtctttttg agttagaaaa cggtcgtaaa cggatgctgg ctagtgccgg agaattacaa 3660
aaaggaaatg agctggctct gccaagcaaa tatgtgaatt ttttatattt agctagtcat 3720
tatgaaaagt tgaagggtag tccagaagat aacgaacaaa aacaattgtt tgtggagcag 3780
cataagcatt atttagatga gattattgag caaatcagtg aattttctaa gcgtgttatt 3840
ttagcagatg ccaatttaga taaagttctt agtgcatata acaaacatag agacaaacca 3900
atacgtgaac aagcagaaaa tattattcat ttatttacgt tgacgaatct tggagctccc 3960
gctgctttta aatattttga tacaacaatt gatcgtaaac gatatacgtc tacaaaagaa 4020
gttttagatg ccactcttat ccatcaatcc atcactggtc tttatgaaac acgcattgat 4080
ttgagtcagc taggaggtga ctga 4104
<210> 52
<211> 1367
<212> PRT
<213> Streptococcus pyogenes
<400> 52
Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Ile Thr Asp Asp Tyr Lys Val Pro Ser Lys Lys Phe
20 25 30
Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Gly Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser
85 90 95
Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys
100 105 110
His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr
115 120 125
His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Ala Asp
130 135 140
Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His
145 150 155 160
Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro
165 170 175
Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Ile Tyr
180 185 190
Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Arg Val Asp Ala
195 200 205
Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn
210 215 220
Leu Ile Ala Gln Leu Pro Gly Glu Lys Arg Asn Gly Leu Phe Gly Asn
225 230 235 240
Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe
245 250 255
Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp
260 265 270
Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp
275 280 285
Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp
290 295 300
Ile Leu Arg Val Asn Ser Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser
305 310 315 320
Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys
325 330 335
Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe
340 345 350
Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser
355 360 365
Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp
370 375 380
Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg
385 390 395 400
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
405 410 415
Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe
420 425 430
Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile
435 440 445
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp
450 455 460
Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu
465 470 475 480
Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr
485 490 495
Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser
500 505 510
Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
515 520 525
Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln
530 535 540
Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr
545 550 555 560
Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp
565 570 575
Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly
580 585 590
Ala Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp
595 600 605
Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr
610 615 620
Leu Phe Glu Asp Arg Gly Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala
625 630 635 640
His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr
645 650 655
Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
660 665 670
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe
675 680 685
Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe
690 695 700
Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly His Ser Leu
705 710 715 720
His Glu Gln Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly
725 730 735
Ile Leu Gln Thr Val Lys Ile Val Asp Glu Leu Val Lys Val Met Gly
740 745 750
His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr
755 760 765
Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile Glu
770 775 780
Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val
785 790 795 800
Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln
805 810 815
Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu
820 825 830
Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Ile Lys Asp
835 840 845
Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly
850 855 860
Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn
865 870 875 880
Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe
885 890 895
Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys
900 905 910
Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys
915 920 925
His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu
930 935 940
Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser Lys
945 950 955 960
Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu
965 970 975
Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val Val
980 985 990
Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val
995 1000 1005
Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys
1010 1015 1020
Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr
1025 1030 1035
Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn
1040 1045 1050
Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr
1055 1060 1065
Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg
1070 1075 1080
Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu
1085 1090 1095
Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg
1100 1105 1110
Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys
1115 1120 1125
Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val Leu
1130 1135 1140
Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser
1145 1150 1155
Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser Phe
1160 1165 1170
Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu
1175 1180 1185
Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe
1190 1195 1200
Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly Glu
1205 1210 1215
Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn
1220 1225 1230
Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro
1235 1240 1245
Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His
1250 1255 1260
Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg
1265 1270 1275
Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr
1280 1285 1290
Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile
1295 1300 1305
Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe
1310 1315 1320
Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr
1325 1330 1335
Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr Gly
1340 1345 1350
Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1355 1360 1365
<210> 53
<211> 4212
<212> DNA
<213> Streptococcus pyogenes
<400> 53
atggataaaa agtattctat tggtttagac atcggcacta attccgttgg atgggctgtc 60
ataaccgatg aatacaaagt accttcaaag aaatttaagg tgttggggaa cacagaccgt 120
cattcgatta aaaagaatct tatcggtgcc ctcctattcg atagtggcga aacggcagag 180
gcgactcgcc tgaaacgaac cgctcggaga aggtatacac gtcgcaagaa ccgaatatgt 240
tacttacaag aaatttttag caatgagatg gccaaagttg acgattcttt ctttcaccgt 300
ttggaagagt ccttccttgt cgaagaggac aagaaacatg aacggcaccc catctttgga 360
aacatagtag atgaggtggc atatcatgaa aagtacccaa cgatttatca cctcagaaaa 420
aagctagttg actcaactga taaagcggac ctgaggttaa tctacttggc tcttgcccat 480
atgataaagt tccgtgggca ctttctcatt gagggtgatc taaatccgga caactcggat 540
gtcgacaaac tgttcatcca gttagtacaa acctataatc agttgtttga agagaaccct 600
ataaatgcaa gtggcgtgga tgcgaaggct attcttagcg cccgcctctc taaatcccga 660
cggctagaaa acctgatcgc acaattaccc ggagagaaga aaaatgggtt gttcggtaac 720
cttatagcgc tctcactagg cctgacacca aattttaagt cgaacttcga cttagctgaa 780
gatgccaaat tgcagcttag taaggacacg tacgatgacg atctcgacaa tctactggca 840
caaattggag atcagtatgc ggacttattt ttggctgcca aaaaccttag cgatgcaatc 900
ctcctatctg acatactgag agttaatact gagattacca aggcgccgtt atccgcttca 960
atgatcaaaa ggtacgatga acatcaccaa gacttgacac ttctcaaggc cctagtccgt 1020
cagcaactgc ctgagaaata taaggaaata ttctttgatc agtcgaaaaa cgggtacgca 1080
ggttatattg acggcggagc gagtcaagag gaattctaca agtttatcaa acccatatta 1140
gagaagatgg atgggacgga agagttgctt gtaaaactca atcgcgaaga tctactgcga 1200
aagcagcgga ctttcgacaa cggtagcatt ccacatcaaa tccacttagg cgaattgcat 1260
gctatactta gaaggcagga ggatttttat ccgttcctca aagacaatcg tgaaaagatt 1320
gagaaaatcc taacctttcg cataccttac tatgtgggac ccctggcccg agggaactct 1380
cggttcgcat ggatgacaag aaagtccgaa gaaacgatta ctccatggaa ttttgaggaa 1440
gttgtcgata aaggtgcgtc agctcaatcg ttcatcgaga ggatgaccaa ctttgacaag 1500
aatttaccga acgaaaaagt attgcctaag cacagtttac tttacgagta tttcacagtg 1560
tacaatgaac tcacgaaagt taagtatgtc actgagggca tgcgtaaacc cgcctttcta 1620
agcggagaac agaagaaagc aatagtagat ctgttattca agaccaaccg caaagtgaca 1680
gttaagcaat tgaaagagga ctactttaag aaaattgaat gcttcgattc tgtcgagatc 1740
tccggggtag aagatcgatt taatgcgtca cttggtacgt atcatgacct cctaaagata 1800
attaaagata aggacttcct ggataacgaa gagaatgaag atatcttaga agatatagtg 1860
ttgactctta ccctctttga agatcgggaa atgattgagg aaagactaaa aacatacgct 1920
cacctgttcg acgataaggt tatgaaacag ttaaagaggc gtcgctatac gggctgggga 1980
cgattgtcgc ggaaacttat caacgggata agagacaagc aaagtggtaa aactattctc 2040
gattttctaa agagcgacgg cttcgccaat aggaacttta tgcagctgat ccatgatgac 2100
tctttaacct tcaaagagga tatacaaaag gcacaggttt ccggacaagg ggactcattg 2160
cacgaacata ttgcgaatct tgctggttcg ccagccatca aaaagggcat actccagaca 2220
gtcaaagtag tggatgagct agttaaggtc atgggacgtc acaaaccgga aaacattgta 2280
atcgagatgg cacgcgaaaa tcaaacgact cagaaggggc aaaaaaacag tcgagagcgg 2340
atgaagagaa tagaagaggg tattaaagaa ctgggcagcc agatcttaaa ggagcatcct 2400
gtggaaaata cccaattgca gaacgagaaa ctttacctct attacctaca aaatggaagg 2460
gacatgtatg ttgatcagga actggacata aaccgtttat ctgattacga cgtcgatcac 2520
attgtacccc aatccttttt gaaggacgat tcaatcgaca ataaagtgct tacacgctcg 2580
gataagaacc gagggaaaag tgacaatgtt ccaagcgagg aagtcgtaaa gaaaatgaag 2640
aactattggc ggcagctcct aaatgcgaaa ctgataacgc aaagaaagtt cgataactta 2700
actaaagctg agaggggtgg cttgtctgaa cttgacaagg ccggatttat taaacgtcag 2760
ctcgtggaaa cccgccaaat cacaaagcat gttgcacaga tactagattc ccgaatgaat 2820
acgaaatacg acgagaacga taagctgatt cgggaagtca aagtaatcac tttaaagtca 2880
aaattggtgt cggacttcag aaaggatttt caattctata aagttaggga gataaataac 2940
taccaccatg cgcacgacgc ttatcttaat gccgtcgtag ggaccgcact cattaagaaa 3000
tacccgaagc tagaaagtga gtttgtgtat ggtgattaca aagtttatga cgtccgtaag 3060
atgatcgcga aaagcgaaca ggagataggc aaggctacag ccaaatactt cttttattct 3120
aacattatga atttctttaa gacggaaatc actctggcaa acggagagat acgcaaacga 3180
cctttaattg aaaccaatgg ggagacaggt gaaatcgtat gggataaggg ccgggacttc 3240
gcgacggtga gaaaagtttt gtccatgccc caagtcaaca tagtaaagaa aactgaggtg 3300
cagaccggag ggttttcaaa ggaatcgatt cttccaaaaa ggaatagtga taagctcatc 3360
gctcgtaaaa aggactggga cccgaaaaag tacggtggct tcgatagccc tacagttgcc 3420
tattctgtcc tagtagtggc aaaagttgag aagggaaaat ccaagaaact gaagtcagtc 3480
aaagaattat tggggataac gattatggag cgctcgtctt ttgaaaagaa ccccatcgac 3540
ttccttgagg cgaaaggtta caaggaagta aaaaaggatc tcataattaa actaccaaag 3600
tatagtctgt ttgagttaga aaatggccga aaacggatgt tggctagcgc cggagagctt 3660
caaaagggga acgaactcgc actaccgtct aaatacgtga atttcctgta tttagcgtcc 3720
cattacgaga agttgaaagg ttcacctgaa gataacgaac agaagcaact ttttgttgag 3780
cagcacaaac attatctcga cgaaatcata gagcaaattt cggaattcag taagagagtc 3840
atcctagctg atgccaatct ggacaaagta ttaagcgcat acaacaagca cagggataaa 3900
cccatacgtg agcaggcgga aaatattatc catttgttta ctcttaccaa cctcggcgct 3960
ccagccgcat tcaagtattt tgacacaacg atagatcgca aacgatacac ttctaccaag 4020
gaggtgctag acgcgacact gattcaccaa tccatcacgg gattatatga aactcggata 4080
gatttgtcac agcttggggg tgacggatcc cccaagaaga agaggaaagt ctcgagcgac 4140
tacaaagacc atgacggtga ttataaagat catgacatcg attacaagga tgacgatgac 4200
aaggctgcag ga 4212
<210> 54
<211> 1368
<212> PRT
<213> Streptococcus pyogenes
<400> 54
Met Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe
20 25 30
Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser
85 90 95
Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys
100 105 110
His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr
115 120 125
His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp
130 135 140
Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His
145 150 155 160
Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro
165 170 175
Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr
180 185 190
Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala
195 200 205
Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn
210 215 220
Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn
225 230 235 240
Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe
245 250 255
Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp
260 265 270
Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp
275 280 285
Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp
290 295 300
Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser
305 310 315 320
Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys
325 330 335
Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe
340 345 350
Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser
355 360 365
Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp
370 375 380
Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg
385 390 395 400
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
405 410 415
Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe
420 425 430
Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile
435 440 445
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp
450 455 460
Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu
465 470 475 480
Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr
485 490 495
Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser
500 505 510
Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
515 520 525
Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln
530 535 540
Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr
545 550 555 560
Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp
565 570 575
Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly
580 585 590
Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp
595 600 605
Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr
610 615 620
Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala
625 630 635 640
His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr
645 650 655
Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
660 665 670
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe
675 680 685
Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe
690 695 700
Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu
705 710 715 720
His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly
725 730 735
Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly
740 745 750
Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln
755 760 765
Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile
770 775 780
Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro
785 790 795 800
Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu
805 810 815
Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg
820 825 830
Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys
835 840 845
Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg
850 855 860
Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys
865 870 875 880
Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys
885 890 895
Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp
900 905 910
Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr
915 920 925
Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp
930 935 940
Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser
945 950 955 960
Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg
965 970 975
Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val
980 985 990
Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe
995 1000 1005
Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala
1010 1015 1020
Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe
1025 1030 1035
Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala
1040 1045 1050
Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu
1055 1060 1065
Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val
1070 1075 1080
Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr
1085 1090 1095
Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys
1100 1105 1110
Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro
1115 1120 1125
Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val
1130 1135 1140
Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys
1145 1150 1155
Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser
1160 1165 1170
Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys
1175 1180 1185
Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu
1190 1195 1200
Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly
1205 1210 1215
Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val
1220 1225 1230
Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser
1235 1240 1245
Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys
1250 1255 1260
His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys
1265 1270 1275
Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala
1280 1285 1290
Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn
1295 1300 1305
Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala
1310 1315 1320
Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser
1325 1330 1335
Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr
1340 1345 1350
Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1355 1360 1365
<210> 55
<211> 4107
<212> DNA
<213> Streptococcus pyogenes
<400> 55
atggataaga aatactcaat aggcttagat atcggcacaa atagcgtcgg atgggcggtg 60
atcactgatg aatataaggt tccgtctaaa aagttcaagg ttctgggaaa tacagaccgc 120
cacagtatca aaaaaaatct tataggggct cttttatttg acagtggaga gacagcggaa 180
gcgactcgtc tcaaacggac agctcgtaga aggtatacac gtcggaagaa tcgtatttgt 240
tatctacagg agattttttc aaatgagatg gcgaaagtag atgatagttt ctttcatcga 300
cttgaagagt cttttttggt ggaagaagac aagaagcatg aacgtcatcc tatttttgga 360
aatatagtag atgaagttgc ttatcatgag aaatatccaa ctatctatca tctgcgaaaa 420
aaattggtag attctactga taaagcggat ttgcgcttaa tctatttggc cttagcgcat 480
atgattaagt ttcgtggtca ttttttgatt gagggagatt taaatcctga taatagtgat 540
gtggacaaac tatttatcca gttggtacaa acctacaatc aattatttga agaaaaccct 600
attaacgcaa gtggagtaga tgctaaagcg attctttctg cacgattgag taaatcaaga 660
cgattagaaa atctcattgc tcagctcccc ggtgagaaga aaaatggctt atttgggaat 720
ctcattgctt tgtcattggg tttgacccct aattttaaat caaattttga tttggcagaa 780
gatgctaaat tacagctttc aaaagatact tacgatgatg atttagataa tttattggcg 840
caaattggag atcaatatgc tgatttgttt ttggcagcta agaatttatc agatgctatt 900
ttactttcag atatcctaag agtaaatact gaaataacta aggctcccct atcagcttca 960
atgattaaac gctacgatga acatcatcaa gacttgactc ttttaaaagc tttagttcga 1020
caacaacttc cagaaaagta taaagaaatc ttttttgatc aatcaaaaaa cggatatgca 1080
ggttatattg atgggggagc tagccaagaa gaattttata aatttatcaa accaatttta 1140
gaaaaaatgg atggtactga ggaattattg gtgaaactaa atcgtgaaga tttgctgcgc 1200
aagcaacgga cctttgacaa cggctctatt ccccatcaaa ttcacttggg tgagctgcat 1260
gctattttga gaagacaaga agacttttat ccatttttaa aagacaatcg tgagaagatt 1320
gaaaaaatct tgacttttcg aattccttat tatgttggtc cattggcgcg tggcaatagt 1380
cgttttgcat ggatgactcg gaagtctgaa gaaacaatta ccccatggaa ttttgaagaa 1440
gttgtcgata aaggtgcttc agctcaatca tttattgaac gcatgacaaa ctttgataaa 1500
aatcttccaa atgaaaaagt actaccaaaa catagtttgc tttatgagta ttttacggtt 1560
tataacgaat tgacaaaggt caaatatgtt actgaaggaa tgcgaaaacc agcatttctt 1620
tcaggtgaac agaagaaagc cattgttgat ttactcttca aaacaaatcg aaaagtaacc 1680
gttaagcaat taaaagaaga ttatttcaaa aaaatagaat gttttgatag tgttgaaatt 1740
tcaggagttg aagatagatt taatgcttca ttaggtacct accatgattt gctaaaaatt 1800
attaaagata aagatttttt ggataatgaa gaaaatgaag atatcttaga ggatattgtt 1860
ttaacattga ccttatttga agatagggag atgattgagg aaagacttaa aacatatgct 1920
cacctctttg atgataaggt gatgaaacag cttaaacgtc gccgttatac tggttgggga 1980
cgtttgtctc gaaaattgat taatggtatt agggataagc aatctggcaa aacaatatta 2040
gattttttga aatcagatgg ttttgccaat cgcaatttta tgcagctgat ccatgatgat 2100
agtttgacat ttaaagaaga cattcaaaaa gcacaagtgt ctggacaagg cgatagttta 2160
catgaacata ttgcaaattt agctggtagc cctgctatta aaaaaggtat tttacagact 2220
gtaaaagttg ttgatgaatt ggtcaaagta atggggcggc ataagccaga aaatatcgtt 2280
attgaaatgg cacgtgaaaa tcagacaact caaaagggcc agaaaaattc gcgagagcgt 2340
atgaaacgaa tcgaagaagg tatcaaagaa ttaggaagtc agattcttaa agagcatcct 2400
gttgaaaata ctcaattgca aaatgaaaag ctctatctct attatctcca aaatggaaga 2460
gacatgtatg tggaccaaga attagatatt aatcgtttaa gtgattatga tgtcgatcac 2520
attgttccac aaagtttcct taaagacgat tcaatagaca ataaggtctt aacgcgttct 2580
gataaaaatc gtggtaaatc ggataacgtt ccaagtgaag aagtagtcaa aaagatgaaa 2640
aactattgga gacaacttct aaacgccaag ttaatcactc aacgtaagtt tgataattta 2700
acgaaagctg aacgtggagg tttgagtgaa cttgataaag ctggttttat caaacgccaa 2760
ttggttgaaa ctcgccaaat cactaagcat gtggcacaaa ttttggatag tcgcatgaat 2820
actaaatacg atgaaaatga taaacttatt cgagaggtta aagtgattac cttaaaatct 2880
aaattagttt ctgacttccg aaaagatttc caattctata aagtacgtga gattaacaat 2940
taccatcatg cccatgatgc gtatctaaat gccgtcgttg gaactgcttt gattaagaaa 3000
tatccaaaac ttgaatcgga gtttgtctat ggtgattata aagtttatga tgttcgtaaa 3060
atgattgcta agtctgagca agaaataggc aaagcaaccg caaaatattt cttttactct 3120
aatatcatga acttcttcaa aacagaaatt acacttgcaa atggagagat tcgcaaacgc 3180
cctctaatcg aaactaatgg ggaaactgga gaaattgtct gggataaagg gcgagatttt 3240
gccacagtgc gcaaagtatt gtccatgccc caagtcaata ttgtcaagaa aacagaagta 3300
cagacaggcg gattctccaa ggagtcaatt ttaccaaaaa gaaattcgga caagcttatt 3360
gctcgtaaaa aagactggga tccaaaaaaa tatggtggtt ttgatagtcc aacggtagct 3420
tattcagtcc tagtggttgc taaggtggaa aaagggaaat cgaagaagtt aaaatccgtt 3480
aaagagttac tagggatcac aattatggaa agaagttcct ttgaaaaaaa tccgattgac 3540
tttttagaag ctaaaggata taaggaagtt aaaaaagact taatcattaa actacctaaa 3600
tatagtcttt ttgagttaga aaacggtcgt aaacggatgc tggctagtgc cggagaatta 3660
caaaaaggaa atgagctggc tctgccaagc aaatatgtga attttttata tttagctagt 3720
cattatgaaa agttgaaggg tagtccagaa gataacgaac aaaaacaatt gtttgtggag 3780
cagcataagc attatttaga tgagattatt gagcaaatca gtgaattttc taagcgtgtt 3840
attttagcag atgccaattt agataaagtt cttagtgcat ataacaaaca tagagacaaa 3900
ccaatacgtg aacaagcaga aaatattatt catttattta cgttgacgaa tcttggagct 3960
cccgctgctt ttaaatattt tgatacaaca attgatcgta aacgatatac gtctacaaaa 4020
gaagttttag atgccactct tatccatcaa tccatcactg gtctttatga aacacgcatt 4080
gatttgagtc agctaggagg tgactga 4107
<210> 56
<211> 1368
<212> PRT
<213> Streptococcus pyogenes
<400> 56
Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe
20 25 30
Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser
85 90 95
Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys
100 105 110
His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr
115 120 125
His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp
130 135 140
Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His
145 150 155 160
Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro
165 170 175
Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr
180 185 190
Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala
195 200 205
Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn
210 215 220
Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn
225 230 235 240
Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe
245 250 255
Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp
260 265 270
Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp
275 280 285
Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp
290 295 300
Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser
305 310 315 320
Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys
325 330 335
Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe
340 345 350
Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser
355 360 365
Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp
370 375 380
Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg
385 390 395 400
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
405 410 415
Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe
420 425 430
Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile
435 440 445
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp
450 455 460
Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu
465 470 475 480
Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr
485 490 495
Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser
500 505 510
Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
515 520 525
Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln
530 535 540
Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr
545 550 555 560
Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp
565 570 575
Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly
580 585 590
Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp
595 600 605
Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr
610 615 620
Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala
625 630 635 640
His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr
645 650 655
Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
660 665 670
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe
675 680 685
Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe
690 695 700
Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu
705 710 715 720
His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly
725 730 735
Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly
740 745 750
Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln
755 760 765
Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile
770 775 780
Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro
785 790 795 800
Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu
805 810 815
Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg
820 825 830
Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys
835 840 845
Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg
850 855 860
Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys
865 870 875 880
Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys
885 890 895
Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp
900 905 910
Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr
915 920 925
Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp
930 935 940
Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser
945 950 955 960
Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg
965 970 975
Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val
980 985 990
Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe
995 1000 1005
Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala
1010 1015 1020
Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe
1025 1030 1035
Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala
1040 1045 1050
Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu
1055 1060 1065
Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val
1070 1075 1080
Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr
1085 1090 1095
Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys
1100 1105 1110
Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro
1115 1120 1125
Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val
1130 1135 1140
Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys
1145 1150 1155
Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser
1160 1165 1170
Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys
1175 1180 1185
Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu
1190 1195 1200
Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly
1205 1210 1215
Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val
1220 1225 1230
Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser
1235 1240 1245
Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys
1250 1255 1260
His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys
1265 1270 1275
Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala
1280 1285 1290
Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn
1295 1300 1305
Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala
1310 1315 1320
Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser
1325 1330 1335
Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr
1340 1345 1350
Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1355 1360 1365
<210> 57
<211> 1368
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polypeptide
<400> 57
Met Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe
20 25 30
Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser
85 90 95
Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys
100 105 110
His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr
115 120 125
His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp
130 135 140
Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His
145 150 155 160
Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro
165 170 175
Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr
180 185 190
Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala
195 200 205
Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn
210 215 220
Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn
225 230 235 240
Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe
245 250 255
Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp
260 265 270
Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp
275 280 285
Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp
290 295 300
Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser
305 310 315 320
Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys
325 330 335
Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe
340 345 350
Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser
355 360 365
Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp
370 375 380
Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg
385 390 395 400
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
405 410 415
Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe
420 425 430
Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile
435 440 445
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp
450 455 460
Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu
465 470 475 480
Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr
485 490 495
Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser
500 505 510
Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
515 520 525
Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln
530 535 540
Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr
545 550 555 560
Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp
565 570 575
Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly
580 585 590
Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp
595 600 605
Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr
610 615 620
Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala
625 630 635 640
His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr
645 650 655
Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
660 665 670
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe
675 680 685
Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe
690 695 700
Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu
705 710 715 720
His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly
725 730 735
Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly
740 745 750
Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln
755 760 765
Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile
770 775 780
Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro
785 790 795 800
Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu
805 810 815
Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg
820 825 830
Leu Ser Asp Tyr Asp Val Asp Ala Ile Val Pro Gln Ser Phe Leu Lys
835 840 845
Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg
850 855 860
Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys
865 870 875 880
Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys
885 890 895
Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp
900 905 910
Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr
915 920 925
Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp
930 935 940
Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser
945 950 955 960
Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg
965 970 975
Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val
980 985 990
Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe
995 1000 1005
Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala
1010 1015 1020
Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe
1025 1030 1035
Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala
1040 1045 1050
Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu
1055 1060 1065
Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val
1070 1075 1080
Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr
1085 1090 1095
Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys
1100 1105 1110
Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro
1115 1120 1125
Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val
1130 1135 1140
Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys
1145 1150 1155
Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser
1160 1165 1170
Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys
1175 1180 1185
Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu
1190 1195 1200
Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly
1205 1210 1215
Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val
1220 1225 1230
Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser
1235 1240 1245
Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys
1250 1255 1260
His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys
1265 1270 1275
Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala
1280 1285 1290
Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn
1295 1300 1305
Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala
1310 1315 1320
Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser
1325 1330 1335
Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr
1340 1345 1350
Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1355 1360 1365
<210> 58
<211> 1368
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polypeptide
<400> 58
Met Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe
20 25 30
Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser
85 90 95
Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys
100 105 110
His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr
115 120 125
His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp
130 135 140
Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His
145 150 155 160
Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro
165 170 175
Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr
180 185 190
Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala
195 200 205
Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn
210 215 220
Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn
225 230 235 240
Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe
245 250 255
Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp
260 265 270
Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp
275 280 285
Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp
290 295 300
Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser
305 310 315 320
Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys
325 330 335
Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe
340 345 350
Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser
355 360 365
Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp
370 375 380
Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg
385 390 395 400
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
405 410 415
Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe
420 425 430
Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile
435 440 445
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp
450 455 460
Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu
465 470 475 480
Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr
485 490 495
Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser
500 505 510
Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
515 520 525
Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln
530 535 540
Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr
545 550 555 560
Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp
565 570 575
Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly
580 585 590
Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp
595 600 605
Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr
610 615 620
Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala
625 630 635 640
His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr
645 650 655
Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
660 665 670
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe
675 680 685
Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe
690 695 700
Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu
705 710 715 720
His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly
725 730 735
Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly
740 745 750
Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln
755 760 765
Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile
770 775 780
Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro
785 790 795 800
Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu
805 810 815
Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg
820 825 830
Leu Ser Asp Tyr Asp Val Asp Ala Ile Val Pro Gln Ser Phe Leu Lys
835 840 845
Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg
850 855 860
Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys
865 870 875 880
Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys
885 890 895
Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp
900 905 910
Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr
915 920 925
Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp
930 935 940
Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser
945 950 955 960
Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg
965 970 975
Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val
980 985 990
Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe
995 1000 1005
Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala
1010 1015 1020
Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe
1025 1030 1035
Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala
1040 1045 1050
Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu
1055 1060 1065
Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val
1070 1075 1080
Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr
1085 1090 1095
Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys
1100 1105 1110
Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro
1115 1120 1125
Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val
1130 1135 1140
Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys
1145 1150 1155
Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser
1160 1165 1170
Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys
1175 1180 1185
Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu
1190 1195 1200
Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly
1205 1210 1215
Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val
1220 1225 1230
Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser
1235 1240 1245
Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys
1250 1255 1260
His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys
1265 1270 1275
Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala
1280 1285 1290
Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn
1295 1300 1305
Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala
1310 1315 1320
Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser
1325 1330 1335
Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr
1340 1345 1350
Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1355 1360 1365
<210> 59
<211> 1368
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polypeptide
<400> 59
Met Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe
20 25 30
Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser
85 90 95
Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys
100 105 110
His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr
115 120 125
His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp
130 135 140
Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His
145 150 155 160
Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro
165 170 175
Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr
180 185 190
Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala
195 200 205
Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn
210 215 220
Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn
225 230 235 240
Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe
245 250 255
Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp
260 265 270
Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp
275 280 285
Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp
290 295 300
Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser
305 310 315 320
Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys
325 330 335
Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe
340 345 350
Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser
355 360 365
Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp
370 375 380
Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg
385 390 395 400
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
405 410 415
Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe
420 425 430
Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile
435 440 445
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp
450 455 460
Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu
465 470 475 480
Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr
485 490 495
Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser
500 505 510
Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
515 520 525
Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln
530 535 540
Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr
545 550 555 560
Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp
565 570 575
Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly
580 585 590
Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp
595 600 605
Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr
610 615 620
Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala
625 630 635 640
His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr
645 650 655
Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
660 665 670
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe
675 680 685
Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe
690 695 700
Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu
705 710 715 720
His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly
725 730 735
Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly
740 745 750
Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln
755 760 765
Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile
770 775 780
Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro
785 790 795 800
Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu
805 810 815
Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg
820 825 830
Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys
835 840 845
Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg
850 855 860
Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys
865 870 875 880
Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys
885 890 895
Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp
900 905 910
Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr
915 920 925
Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp
930 935 940
Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser
945 950 955 960
Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg
965 970 975
Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val
980 985 990
Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe
995 1000 1005
Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala
1010 1015 1020
Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe
1025 1030 1035
Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala
1040 1045 1050
Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu
1055 1060 1065
Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val
1070 1075 1080
Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr
1085 1090 1095
Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys
1100 1105 1110
Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro
1115 1120 1125
Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val
1130 1135 1140
Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys
1145 1150 1155
Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser
1160 1165 1170
Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys
1175 1180 1185
Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu
1190 1195 1200
Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly
1205 1210 1215
Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val
1220 1225 1230
Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser
1235 1240 1245
Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys
1250 1255 1260
His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys
1265 1270 1275
Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala
1280 1285 1290
Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn
1295 1300 1305
Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala
1310 1315 1320
Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser
1325 1330 1335
Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr
1340 1345 1350
Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1355 1360 1365
<210> 60
<211> 345
<212> PRT
<213> Sulfolobus islandicus
<400> 60
Met Glu Val Pro Leu Tyr Asn Ile Phe Gly Asp Asn Tyr Ile Ile Gln
1 5 10 15
Val Ala Thr Glu Ala Glu Asn Ser Thr Ile Tyr Asn Asn Lys Val Glu
20 25 30
Ile Asp Asp Glu Glu Leu Arg Asn Val Leu Asn Leu Ala Tyr Lys Ile
35 40 45
Ala Lys Asn Asn Glu Asp Ala Ala Ala Glu Arg Arg Gly Lys Ala Lys
50 55 60
Lys Lys Lys Gly Glu Glu Gly Glu Thr Thr Thr Ser Asn Ile Ile Leu
65 70 75 80
Pro Leu Ser Gly Asn Asp Lys Asn Pro Trp Thr Glu Thr Leu Lys Cys
85 90 95
Tyr Asn Phe Pro Thr Thr Val Ala Leu Ser Glu Val Phe Lys Asn Phe
100 105 110
Ser Gln Val Lys Glu Cys Glu Glu Val Ser Ala Pro Ser Phe Val Lys
115 120 125
Pro Glu Phe Tyr Glu Phe Gly Arg Ser Pro Gly Met Val Glu Arg Thr
130 135 140
Arg Arg Val Lys Leu Glu Val Glu Pro His Tyr Leu Ile Ile Ala Ala
145 150 155 160
Ala Gly Trp Val Leu Thr Arg Leu Gly Lys Ala Lys Val Ser Glu Gly
165 170 175
Asp Tyr Val Gly Val Asn Val Phe Thr Pro Thr Arg Gly Ile Leu Tyr
180 185 190
Ser Leu Ile Gln Asn Val Asn Gly Ile Val Pro Gly Ile Lys Pro Glu
195 200 205
Thr Ala Phe Gly Leu Trp Ile Ala Arg Lys Val Val Ser Ser Val Thr
210 215 220
Asn Pro Asn Val Ser Val Val Arg Ile Tyr Thr Ile Ser Asp Ala Val
225 230 235 240
Gly Gln Asn Pro Thr Thr Ile Asn Gly Gly Phe Ser Ile Asp Leu Thr
245 250 255
Lys Leu Leu Glu Lys Arg Tyr Leu Leu Ser Glu Arg Leu Glu Ala Ile
260 265 270
Ala Arg Asn Ala Leu Ser Ile Ser Ser Asn Met Arg Glu Arg Tyr Ile
275 280 285
Val Leu Ala Asn Tyr Ile Tyr Glu Tyr Leu Thr Gly Ser Lys Arg Leu
290 295 300
Glu Asp Leu Leu Tyr Phe Ala Asn Arg Asp Leu Ile Met Asn Leu Asn
305 310 315 320
Ser Asp Asp Gly Lys Val Arg Asp Leu Lys Leu Ile Ser Ala Tyr Val
325 330 335
Asn Gly Glu Leu Ile Arg Gly Glu Gly
340 345
<210> 61
<211> 345
<212> PRT
<213> Sulfolobus islandicus
<400> 61
Met Glu Val Pro Leu Tyr Asn Ile Phe Gly Asp Asn Tyr Ile Ile Gln
1 5 10 15
Val Ala Thr Glu Ala Glu Asn Ser Thr Ile Tyr Asn Asn Lys Val Glu
20 25 30
Ile Asp Asp Glu Glu Leu Arg Asn Val Leu Asn Leu Ala Tyr Lys Ile
35 40 45
Ala Lys Asn Asn Glu Asp Ala Ala Ala Glu Arg Arg Gly Lys Ala Lys
50 55 60
Lys Lys Lys Gly Glu Glu Gly Glu Thr Thr Thr Ser Asn Ile Ile Leu
65 70 75 80
Pro Leu Ser Gly Asn Asp Lys Asn Pro Trp Thr Glu Thr Leu Lys Cys
85 90 95
Tyr Asn Phe Pro Thr Thr Val Ala Leu Ser Glu Val Phe Lys Asn Phe
100 105 110
Ser Gln Val Lys Glu Cys Glu Glu Val Ser Ala Pro Ser Phe Val Lys
115 120 125
Pro Glu Phe Tyr Lys Phe Gly Arg Ser Pro Gly Met Val Glu Arg Thr
130 135 140
Arg Arg Val Lys Leu Glu Val Glu Pro His Tyr Leu Ile Met Ala Ala
145 150 155 160
Ala Gly Trp Val Leu Thr Arg Leu Gly Lys Ala Lys Val Ser Glu Gly
165 170 175
Asp Tyr Val Gly Val Asn Val Phe Thr Pro Thr Arg Gly Ile Leu Tyr
180 185 190
Ser Leu Ile Gln Asn Val Asn Gly Ile Val Pro Gly Ile Lys Pro Glu
195 200 205
Thr Ala Phe Gly Leu Trp Ile Ala Arg Lys Val Val Ser Ser Val Thr
210 215 220
Asn Pro Asn Val Ser Val Val Ser Ile Tyr Thr Ile Ser Asp Ala Val
225 230 235 240
Gly Gln Asn Pro Thr Thr Ile Asn Gly Gly Phe Ser Ile Asp Leu Thr
245 250 255
Lys Leu Leu Glu Lys Arg Asp Leu Leu Ser Glu Arg Leu Glu Ala Ile
260 265 270
Ala Arg Asn Ala Leu Ser Ile Ser Ser Asn Met Arg Glu Arg Tyr Ile
275 280 285
Val Leu Ala Asn Tyr Ile Tyr Glu Tyr Leu Thr Gly Ser Lys Arg Leu
290 295 300
Glu Asp Leu Leu Tyr Phe Ala Asn Arg Asp Leu Ile Met Asn Leu Asn
305 310 315 320
Ser Asp Asp Gly Lys Val Arg Asp Leu Lys Leu Ile Ser Ala Tyr Val
325 330 335
Asn Gly Glu Leu Ile Arg Gly Glu Gly
340 345
<210> 62
<211> 987
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
Deltaproteobacteria CasX sequence
<400> 62
Met Glu Lys Arg Ile Asn Lys Ile Arg Lys Lys Leu Ser Ala Asp Asn
1 5 10 15
Ala Thr Lys Pro Val Ser Arg Ser Gly Pro Met Lys Thr Leu Leu Val
20 25 30
Arg Val Met Thr Asp Asp Leu Lys Lys Arg Leu Glu Lys Arg Arg Lys
35 40 45
Lys Pro Glu Val Met Pro Gln Val Ile Ser Asn Asn Ala Ala Asn Asn
50 55 60
Leu Arg Met Leu Leu Asp Asp Tyr Thr Lys Met Lys Glu Ala Ile Leu
65 70 75 80
Gln Val Tyr Trp Gln Glu Phe Lys Asp Asp His Val Gly Leu Met Cys
85 90 95
Lys Phe Ala Gln Pro Ala Ser Lys Lys Ile Asp Gln Asn Lys Leu Lys
100 105 110
Pro Glu Met Asp Glu Lys Gly Asn Leu Thr Thr Ala Gly Phe Ala Cys
115 120 125
Ser Gln Cys Gly Gln Pro Leu Phe Val Tyr Lys Leu Glu Gln Val Ser
130 135 140
Glu Lys Gly Lys Ala Tyr Thr Asn Tyr Phe Gly Arg Cys Asn Val Ala
145 150 155 160
Glu His Glu Lys Leu Ile Leu Leu Ala Gln Leu Lys Pro Val Lys Asp
165 170 175
Ser Asp Glu Ala Val Thr Tyr Ser Leu Gly Lys Phe Gly Gln Arg Ala
180 185 190
Leu Asp Phe Tyr Ser Ile His Val Thr Lys Glu Ser Thr His Pro Val
195 200 205
Lys Pro Leu Ala Gln Ile Ala Gly Asn Arg Tyr Ala Ser Gly Pro Val
210 215 220
Gly Lys Ala Leu Ser Asp Ala Cys Met Gly Thr Ile Ala Ser Phe Leu
225 230 235 240
Ser Lys Tyr Gln Asp Ile Ile Ile Glu His Gln Lys Val Val Lys Gly
245 250 255
Asn Gln Lys Arg Leu Glu Ser Leu Arg Glu Leu Ala Gly Lys Glu Asn
260 265 270
Leu Glu Tyr Pro Ser Val Thr Leu Pro Pro Gln Pro His Thr Lys Glu
275 280 285
Gly Val Asp Phe Ala Tyr Asn Glu Val Ile Ala Arg Val Arg Met Trp
290 295 300
Val Asn Leu Asn Leu Trp Gln Lys Leu Lys Leu Ser Arg Asp Asp Ala
305 310 315 320
Lys Pro Leu Leu Arg Leu Lys Gly Phe Pro Ser Phe Pro Val Val Glu
325 330 335
Arg Arg Glu Asn Glu Val Asp Trp Trp Asn Thr Ile Asn Glu Val Lys
340 345 350
Lys Leu Ile Asp Ala Lys Arg Asp Met Gly Arg Val Phe Trp Ser Gly
355 360 365
Val Thr Ala Glu Lys Arg Asn Thr Ile Leu Glu Gly Tyr Asn Tyr Leu
370 375 380
Pro Asn Glu Asn Asp His Lys Lys Arg Glu Gly Ser Leu Glu Asn Pro
385 390 395 400
Lys Lys Pro Ala Lys Arg Gln Phe Gly Asp Leu Leu Leu Tyr Leu Glu
405 410 415
Lys Lys Tyr Ala Gly Asp Trp Gly Lys Val Phe Asp Glu Ala Trp Glu
420 425 430
Arg Ile Asp Lys Lys Ile Ala Gly Leu Thr Ser His Ile Glu Arg Glu
435 440 445
Glu Ala Arg Asn Ala Glu Asp Ala Gln Ser Lys Ala Val Leu Thr Asp
450 455 460
Trp Leu Arg Ala Lys Ala Ser Phe Val Leu Glu Arg Leu Lys Glu Met
465 470 475 480
Asp Glu Lys Glu Phe Tyr Ala Cys Glu Ile Gln Leu Gln Lys Trp Tyr
485 490 495
Gly Asp Leu Arg Gly Asn Pro Phe Ala Val Glu Ala Glu Asn Arg Val
500 505 510
Val Asp Ile Ser Gly Phe Ser Ile Gly Ser Asp Gly His Ser Ile Gln
515 520 525
Tyr Arg Asn Leu Leu Ala Trp Lys Tyr Leu Glu Asn Gly Lys Arg Glu
530 535 540
Phe Tyr Leu Leu Met Asn Tyr Gly Lys Lys Gly Arg Ile Arg Phe Thr
545 550 555 560
Asp Gly Thr Asp Ile Lys Lys Ser Gly Lys Trp Gln Gly Leu Leu Tyr
565 570 575
Gly Gly Gly Lys Ala Lys Val Ile Asp Leu Thr Phe Asp Pro Asp Asp
580 585 590
Glu Gln Leu Ile Ile Leu Pro Leu Ala Phe Gly Thr Arg Gln Gly Arg
595 600 605
Glu Phe Ile Trp Asn Asp Leu Leu Ser Leu Glu Thr Gly Leu Ile Lys
610 615 620
Leu Ala Asn Gly Arg Val Ile Glu Lys Thr Ile Tyr Asn Lys Lys Ile
625 630 635 640
Gly Arg Asp Glu Pro Ala Leu Phe Val Ala Leu Thr Phe Glu Arg Arg
645 650 655
Glu Val Val Asp Pro Ser Asn Ile Lys Pro Val Asn Leu Ile Gly Val
660 665 670
Ala Arg Gly Glu Asn Ile Pro Ala Val Ile Ala Leu Thr Asp Pro Glu
675 680 685
Gly Cys Pro Leu Pro Glu Phe Lys Asp Ser Ser Gly Gly Pro Thr Asp
690 695 700
Ile Leu Arg Ile Gly Glu Gly Tyr Lys Glu Lys Gln Arg Ala Ile Gln
705 710 715 720
Ala Ala Lys Glu Val Glu Gln Arg Arg Ala Gly Gly Tyr Ser Arg Lys
725 730 735
Phe Ala Ser Lys Ser Arg Asn Leu Ala Asp Asp Met Val Arg Asn Ser
740 745 750
Ala Arg Asp Leu Phe Tyr His Ala Val Thr His Asp Ala Val Leu Val
755 760 765
Phe Ala Asn Leu Ser Arg Gly Phe Gly Arg Gln Gly Lys Arg Thr Phe
770 775 780
Met Thr Glu Arg Gln Tyr Thr Lys Met Glu Asp Trp Leu Thr Ala Lys
785 790 795 800
Leu Ala Tyr Glu Gly Leu Thr Ser Lys Thr Tyr Leu Ser Lys Thr Leu
805 810 815
Ala Gln Tyr Thr Ser Lys Thr Cys Ser Asn Cys Gly Phe Thr Ile Thr
820 825 830
Tyr Ala Asp Met Asp Val Met Leu Val Arg Leu Lys Lys Thr Ser Asp
835 840 845
Gly Trp Ala Thr Thr Leu Asn Asn Lys Glu Leu Lys Ala Glu Tyr Gln
850 855 860
Ile Thr Tyr Tyr Asn Arg Tyr Lys Arg Gln Thr Val Glu Lys Glu Leu
865 870 875 880
Ser Ala Glu Leu Asp Arg Leu Ser Glu Glu Ser Gly Asn Asn Asp Ile
885 890 895
Ser Lys Trp Thr Lys Gly Arg Arg Asp Glu Ala Leu Phe Leu Leu Lys
900 905 910
Lys Arg Phe Ser His Arg Pro Val Gln Glu Gln Phe Val Cys Leu Asp
915 920 925
Cys Gly His Glu Val His Ala Ala Glu Gln Ala Ala Leu Asn Ile Ala
930 935 940
Arg Ser Trp Leu Phe Leu Asn Ser Asn Ser Thr Glu Phe Lys Ser Tyr
945 950 955 960
Lys Ser Gly Lys Gln Pro Phe Val Gly Ala Trp Gln Ala Phe Tyr Lys
965 970 975
Arg Arg Leu Lys Glu Val Trp Lys Pro Asn Ala
980 985
<210> 63
<211> 1210
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
Uncultured Parcubacteria group bacterium
<400> 63
Met Ser Lys Arg His Pro Arg Ile Ser Gly Val Lys Gly Tyr Arg Leu
1 5 10 15
His Ala Gln Arg Leu Glu Tyr Thr Gly Lys Ser Gly Ala Met Arg Thr
20 25 30
Ile Lys Tyr Pro Leu Tyr Ser Ser Pro Ser Gly Gly Arg Thr Val Pro
35 40 45
Arg Glu Ile Val Ser Ala Ile Asn Asp Asp Tyr Val Gly Leu Tyr Gly
50 55 60
Leu Ser Asn Phe Asp Asp Leu Tyr Asn Ala Glu Lys Arg Asn Glu Glu
65 70 75 80
Lys Val Tyr Ser Val Leu Asp Phe Trp Tyr Asp Cys Val Gln Tyr Gly
85 90 95
Ala Val Phe Ser Tyr Thr Ala Pro Gly Leu Leu Lys Asn Val Ala Glu
100 105 110
Val Arg Gly Gly Ser Tyr Glu Leu Thr Lys Thr Leu Lys Gly Ser His
115 120 125
Leu Tyr Asp Glu Leu Gln Ile Asp Lys Val Ile Lys Phe Leu Asn Lys
130 135 140
Lys Glu Ile Ser Arg Ala Asn Gly Ser Leu Asp Lys Leu Lys Lys Asp
145 150 155 160
Ile Ile Asp Cys Phe Lys Ala Glu Tyr Arg Glu Arg His Lys Asp Gln
165 170 175
Cys Asn Lys Leu Ala Asp Asp Ile Lys Asn Ala Lys Lys Asp Ala Gly
180 185 190
Ala Ser Leu Gly Glu Arg Gln Lys Lys Leu Phe Arg Asp Phe Phe Gly
195 200 205
Ile Ser Glu Gln Ser Glu Asn Asp Lys Pro Ser Phe Thr Asn Pro Leu
210 215 220
Asn Leu Thr Cys Cys Leu Leu Pro Phe Asp Thr Val Asn Asn Asn Arg
225 230 235 240
Asn Arg Gly Glu Val Leu Phe Asn Lys Leu Lys Glu Tyr Ala Gln Lys
245 250 255
Leu Asp Lys Asn Glu Gly Ser Leu Glu Met Trp Glu Tyr Ile Gly Ile
260 265 270
Gly Asn Ser Gly Thr Ala Phe Ser Asn Phe Leu Gly Glu Gly Phe Leu
275 280 285
Gly Arg Leu Arg Glu Asn Lys Ile Thr Glu Leu Lys Lys Ala Met Met
290 295 300
Asp Ile Thr Asp Ala Trp Arg Gly Gln Glu Gln Glu Glu Glu Leu Glu
305 310 315 320
Lys Arg Leu Arg Ile Leu Ala Ala Leu Thr Ile Lys Leu Arg Glu Pro
325 330 335
Lys Phe Asp Asn His Trp Gly Gly Tyr Arg Ser Asp Ile Asn Gly Lys
340 345 350
Leu Ser Ser Trp Leu Gln Asn Tyr Ile Asn Gln Thr Val Lys Ile Lys
355 360 365
Glu Asp Leu Lys Gly His Lys Lys Asp Leu Lys Lys Ala Lys Glu Met
370 375 380
Ile Asn Arg Phe Gly Glu Ser Asp Thr Lys Glu Glu Ala Val Val Ser
385 390 395 400
Ser Leu Leu Glu Ser Ile Glu Lys Ile Val Pro Asp Asp Ser Ala Asp
405 410 415
Asp Glu Lys Pro Asp Ile Pro Ala Ile Ala Ile Tyr Arg Arg Phe Leu
420 425 430
Ser Asp Gly Arg Leu Thr Leu Asn Arg Phe Val Gln Arg Glu Asp Val
435 440 445
Gln Glu Ala Leu Ile Lys Glu Arg Leu Glu Ala Glu Lys Lys Lys Lys
450 455 460
Pro Lys Lys Arg Lys Lys Lys Ser Asp Ala Glu Asp Glu Lys Glu Thr
465 470 475 480
Ile Asp Phe Lys Glu Leu Phe Pro His Leu Ala Lys Pro Leu Lys Leu
485 490 495
Val Pro Asn Phe Tyr Gly Asp Ser Lys Arg Glu Leu Tyr Lys Lys Tyr
500 505 510
Lys Asn Ala Ala Ile Tyr Thr Asp Ala Leu Trp Lys Ala Val Glu Lys
515 520 525
Ile Tyr Lys Ser Ala Phe Ser Ser Ser Leu Lys Asn Ser Phe Phe Asp
530 535 540
Thr Asp Phe Asp Lys Asp Phe Phe Ile Lys Arg Leu Gln Lys Ile Phe
545 550 555 560
Ser Val Tyr Arg Arg Phe Asn Thr Asp Lys Trp Lys Pro Ile Val Lys
565 570 575
Asn Ser Phe Ala Pro Tyr Cys Asp Ile Val Ser Leu Ala Glu Asn Glu
580 585 590
Val Leu Tyr Lys Pro Lys Gln Ser Arg Ser Arg Lys Ser Ala Ala Ile
595 600 605
Asp Lys Asn Arg Val Arg Leu Pro Ser Thr Glu Asn Ile Ala Lys Ala
610 615 620
Gly Ile Ala Leu Ala Arg Glu Leu Ser Val Ala Gly Phe Asp Trp Lys
625 630 635 640
Asp Leu Leu Lys Lys Glu Glu His Glu Glu Tyr Ile Asp Leu Ile Glu
645 650 655
Leu His Lys Thr Ala Leu Ala Leu Leu Leu Ala Val Thr Glu Thr Gln
660 665 670
Leu Asp Ile Ser Ala Leu Asp Phe Val Glu Asn Gly Thr Val Lys Asp
675 680 685
Phe Met Lys Thr Arg Asp Gly Asn Leu Val Leu Glu Gly Arg Phe Leu
690 695 700
Glu Met Phe Ser Gln Ser Ile Val Phe Ser Glu Leu Arg Gly Leu Ala
705 710 715 720
Gly Leu Met Ser Arg Lys Glu Phe Ile Thr Arg Ser Ala Ile Gln Thr
725 730 735
Met Asn Gly Lys Gln Ala Glu Leu Leu Tyr Ile Pro His Glu Phe Gln
740 745 750
Ser Ala Lys Ile Thr Thr Pro Lys Glu Met Ser Arg Ala Phe Leu Asp
755 760 765
Leu Ala Pro Ala Glu Phe Ala Thr Ser Leu Glu Pro Glu Ser Leu Ser
770 775 780
Glu Lys Ser Leu Leu Lys Leu Lys Gln Met Arg Tyr Tyr Pro His Tyr
785 790 795 800
Phe Gly Tyr Glu Leu Thr Arg Thr Gly Gln Gly Ile Asp Gly Gly Val
805 810 815
Ala Glu Asn Ala Leu Arg Leu Glu Lys Ser Pro Val Lys Lys Arg Glu
820 825 830
Ile Lys Cys Lys Gln Tyr Lys Thr Leu Gly Arg Gly Gln Asn Lys Ile
835 840 845
Val Leu Tyr Val Arg Ser Ser Tyr Tyr Gln Thr Gln Phe Leu Glu Trp
850 855 860
Phe Leu His Arg Pro Lys Asn Val Gln Thr Asp Val Ala Val Ser Gly
865 870 875 880
Ser Phe Leu Ile Asp Glu Lys Lys Val Lys Thr Arg Trp Asn Tyr Asp
885 890 895
Ala Leu Thr Val Ala Leu Glu Pro Val Ser Gly Ser Glu Arg Val Phe
900 905 910
Val Ser Gln Pro Phe Thr Ile Phe Pro Glu Lys Ser Ala Glu Glu Glu
915 920 925
Gly Gln Arg Tyr Leu Gly Ile Asp Ile Gly Glu Tyr Gly Ile Ala Tyr
930 935 940
Thr Ala Leu Glu Ile Thr Gly Asp Ser Ala Lys Ile Leu Asp Gln Asn
945 950 955 960
Phe Ile Ser Asp Pro Gln Leu Lys Thr Leu Arg Glu Glu Val Lys Gly
965 970 975
Leu Lys Leu Asp Gln Arg Arg Gly Thr Phe Ala Met Pro Ser Thr Lys
980 985 990
Ile Ala Arg Ile Arg Glu Ser Leu Val His Ser Leu Arg Asn Arg Ile
995 1000 1005
His His Leu Ala Leu Lys His Lys Ala Lys Ile Val Tyr Glu Leu
1010 1015 1020
Glu Val Ser Arg Phe Glu Glu Gly Lys Gln Lys Ile Lys Lys Val
1025 1030 1035
Tyr Ala Thr Leu Lys Lys Ala Asp Val Tyr Ser Glu Ile Asp Ala
1040 1045 1050
Asp Lys Asn Leu Gln Thr Thr Val Trp Gly Lys Leu Ala Val Ala
1055 1060 1065
Ser Glu Ile Ser Ala Ser Tyr Thr Ser Gln Phe Cys Gly Ala Cys
1070 1075 1080
Lys Lys Leu Trp Arg Ala Glu Met Gln Val Asp Glu Thr Ile Thr
1085 1090 1095
Thr Gln Glu Leu Ile Gly Thr Val Arg Val Ile Lys Gly Gly Thr
1100 1105 1110
Leu Ile Asp Ala Ile Lys Asp Phe Met Arg Pro Pro Ile Phe Asp
1115 1120 1125
Glu Asn Asp Thr Pro Phe Pro Lys Tyr Arg Asp Phe Cys Asp Lys
1130 1135 1140
His His Ile Ser Lys Lys Met Arg Gly Asn Ser Cys Leu Phe Ile
1145 1150 1155
Cys Pro Phe Cys Arg Ala Asn Ala Asp Ala Asp Ile Gln Ala Ser
1160 1165 1170
Gln Thr Ile Ala Leu Leu Arg Tyr Val Lys Glu Glu Lys Lys Val
1175 1180 1185
Glu Asp Tyr Phe Glu Arg Phe Arg Lys Leu Lys Asn Ile Lys Val
1190 1195 1200
Leu Gly Gln Met Lys Lys Ile
1205 1210
<210> 64
<211> 1129
<212> PRT
<213> Alicyclobacillus acidoterrestris
<400> 64
Met Ala Val Lys Ser Ile Lys Val Lys Leu Arg Leu Asp Asp Met Pro
1 5 10 15
Glu Ile Arg Ala Gly Leu Trp Lys Leu His Lys Glu Val Asn Ala Gly
20 25 30
Val Arg Tyr Tyr Thr Glu Trp Leu Ser Leu Leu Arg Gln Glu Asn Leu
35 40 45
Tyr Arg Arg Ser Pro Asn Gly Asp Gly Glu Gln Glu Cys Asp Lys Thr
50 55 60
Ala Glu Glu Cys Lys Ala Glu Leu Leu Glu Arg Leu Arg Ala Arg Gln
65 70 75 80
Val Glu Asn Gly His Arg Gly Pro Ala Gly Ser Asp Asp Glu Leu Leu
85 90 95
Gln Leu Ala Arg Gln Leu Tyr Glu Leu Leu Val Pro Gln Ala Ile Gly
100 105 110
Ala Lys Gly Asp Ala Gln Gln Ile Ala Arg Lys Phe Leu Ser Pro Leu
115 120 125
Ala Asp Lys Asp Ala Val Gly Gly Leu Gly Ile Ala Lys Ala Gly Asn
130 135 140
Lys Pro Arg Trp Val Arg Met Arg Glu Ala Gly Glu Pro Gly Trp Glu
145 150 155 160
Glu Glu Lys Glu Lys Ala Glu Thr Arg Lys Ser Ala Asp Arg Thr Ala
165 170 175
Asp Val Leu Arg Ala Leu Ala Asp Phe Gly Leu Lys Pro Leu Met Arg
180 185 190
Val Tyr Thr Asp Ser Glu Met Ser Ser Val Glu Trp Lys Pro Leu Arg
195 200 205
Lys Gly Gln Ala Val Arg Thr Trp Asp Arg Asp Met Phe Gln Gln Ala
210 215 220
Ile Glu Arg Met Met Ser Trp Glu Ser Trp Asn Gln Arg Val Gly Gln
225 230 235 240
Glu Tyr Ala Lys Leu Val Glu Gln Lys Asn Arg Phe Glu Gln Lys Asn
245 250 255
Phe Val Gly Gln Glu His Leu Val His Leu Val Asn Gln Leu Gln Gln
260 265 270
Asp Met Lys Glu Ala Ser Pro Gly Leu Glu Ser Lys Glu Gln Thr Ala
275 280 285
His Tyr Val Thr Gly Arg Ala Leu Arg Gly Ser Asp Lys Val Phe Glu
290 295 300
Lys Trp Gly Lys Leu Ala Pro Asp Ala Pro Phe Asp Leu Tyr Asp Ala
305 310 315 320
Glu Ile Lys Asn Val Gln Arg Arg Asn Thr Arg Arg Phe Gly Ser His
325 330 335
Asp Leu Phe Ala Lys Leu Ala Glu Pro Glu Tyr Gln Ala Leu Trp Arg
340 345 350
Glu Asp Ala Ser Phe Leu Thr Arg Tyr Ala Val Tyr Asn Ser Ile Leu
355 360 365
Arg Lys Leu Asn His Ala Lys Met Phe Ala Thr Phe Thr Leu Pro Asp
370 375 380
Ala Thr Ala His Pro Ile Trp Thr Arg Phe Asp Lys Leu Gly Gly Asn
385 390 395 400
Leu His Gln Tyr Thr Phe Leu Phe Asn Glu Phe Gly Glu Arg Arg His
405 410 415
Ala Ile Arg Phe His Lys Leu Leu Lys Val Glu Asn Gly Val Ala Arg
420 425 430
Glu Val Asp Asp Val Thr Val Pro Ile Ser Met Ser Glu Gln Leu Asp
435 440 445
Asn Leu Leu Pro Arg Asp Pro Asn Glu Pro Ile Ala Leu Tyr Phe Arg
450 455 460
Asp Tyr Gly Ala Glu Gln His Phe Thr Gly Glu Phe Gly Gly Ala Lys
465 470 475 480
Ile Gln Cys Arg Arg Asp Gln Leu Ala His Met His Arg Arg Arg Gly
485 490 495
Ala Arg Asp Val Tyr Leu Asn Val Ser Val Arg Val Gln Ser Gln Ser
500 505 510
Glu Ala Arg Gly Glu Arg Arg Pro Pro Tyr Ala Ala Val Phe Arg Leu
515 520 525
Val Gly Asp Asn His Arg Ala Phe Val His Phe Asp Lys Leu Ser Asp
530 535 540
Tyr Leu Ala Glu His Pro Asp Asp Gly Lys Leu Gly Ser Glu Gly Leu
545 550 555 560
Leu Ser Gly Leu Arg Val Met Ser Val Asp Leu Gly Leu Arg Thr Ser
565 570 575
Ala Ser Ile Ser Val Phe Arg Val Ala Arg Lys Asp Glu Leu Lys Pro
580 585 590
Asn Ser Lys Gly Arg Val Pro Phe Phe Phe Pro Ile Lys Gly Asn Asp
595 600 605
Asn Leu Val Ala Val His Glu Arg Ser Gln Leu Leu Lys Leu Pro Gly
610 615 620
Glu Thr Glu Ser Lys Asp Leu Arg Ala Ile Arg Glu Glu Arg Gln Arg
625 630 635 640
Thr Leu Arg Gln Leu Arg Thr Gln Leu Ala Tyr Leu Arg Leu Leu Val
645 650 655
Arg Cys Gly Ser Glu Asp Val Gly Arg Arg Glu Arg Ser Trp Ala Lys
660 665 670
Leu Ile Glu Gln Pro Val Asp Ala Ala Asn His Met Thr Pro Asp Trp
675 680 685
Arg Glu Ala Phe Glu Asn Glu Leu Gln Lys Leu Lys Ser Leu His Gly
690 695 700
Ile Cys Ser Asp Lys Glu Trp Met Asp Ala Val Tyr Glu Ser Val Arg
705 710 715 720
Arg Val Trp Arg His Met Gly Lys Gln Val Arg Asp Trp Arg Lys Asp
725 730 735
Val Arg Ser Gly Glu Arg Pro Lys Ile Arg Gly Tyr Ala Lys Asp Val
740 745 750
Val Gly Gly Asn Ser Ile Glu Gln Ile Glu Tyr Leu Glu Arg Gln Tyr
755 760 765
Lys Phe Leu Lys Ser Trp Ser Phe Phe Gly Lys Val Ser Gly Gln Val
770 775 780
Ile Arg Ala Glu Lys Gly Ser Arg Phe Ala Ile Thr Leu Arg Glu His
785 790 795 800
Ile Asp His Ala Lys Glu Asp Arg Leu Lys Lys Leu Ala Asp Arg Ile
805 810 815
Ile Met Glu Ala Leu Gly Tyr Val Tyr Ala Leu Asp Glu Arg Gly Lys
820 825 830
Gly Lys Trp Val Ala Lys Tyr Pro Pro Cys Gln Leu Ile Leu Leu Glu
835 840 845
Glu Leu Ser Glu Tyr Gln Phe Asn Asn Asp Arg Pro Pro Ser Glu Asn
850 855 860
Asn Gln Leu Met Gln Trp Ser His Arg Gly Val Phe Gln Glu Leu Ile
865 870 875 880
Asn Gln Ala Gln Val His Asp Leu Leu Val Gly Thr Met Tyr Ala Ala
885 890 895
Phe Ser Ser Arg Phe Asp Ala Arg Thr Gly Ala Pro Gly Ile Arg Cys
900 905 910
Arg Arg Val Pro Ala Arg Cys Thr Gln Glu His Asn Pro Glu Pro Phe
915 920 925
Pro Trp Trp Leu Asn Lys Phe Val Val Glu His Thr Leu Asp Ala Cys
930 935 940
Pro Leu Arg Ala Asp Asp Leu Ile Pro Thr Gly Glu Gly Glu Ile Phe
945 950 955 960
Val Ser Pro Phe Ser Ala Glu Glu Gly Asp Phe His Gln Ile His Ala
965 970 975
Asp Leu Asn Ala Ala Gln Asn Leu Gln Gln Arg Leu Trp Ser Asp Phe
980 985 990
Asp Ile Ser Gln Ile Arg Leu Arg Cys Asp Trp Gly Glu Val Asp Gly
995 1000 1005
Glu Leu Val Leu Ile Pro Arg Leu Thr Gly Lys Arg Thr Ala Asp
1010 1015 1020
Ser Tyr Ser Asn Lys Val Phe Tyr Thr Asn Thr Gly Val Thr Tyr
1025 1030 1035
Tyr Glu Arg Glu Arg Gly Lys Lys Arg Arg Lys Val Phe Ala Gln
1040 1045 1050
Glu Lys Leu Ser Glu Glu Glu Ala Glu Leu Leu Val Glu Ala Asp
1055 1060 1065
Glu Ala Arg Glu Lys Ser Val Val Leu Met Arg Asp Pro Ser Gly
1070 1075 1080
Ile Ile Asn Arg Gly Asn Trp Thr Arg Gln Lys Glu Phe Trp Ser
1085 1090 1095
Met Val Asn Gln Arg Ile Glu Gly Tyr Leu Val Lys Gln Ile Arg
1100 1105 1110
Ser Arg Val Pro Leu Gln Asp Ser Ala Cys Glu Asn Thr Gly Asp
1115 1120 1125
Ile
<210> 65
<211> 1140
<212> PRT
<213> Bacillus hisashii
<400> 65
Met Ala Pro Lys Lys Lys Arg Lys Val Gly Ile His Gly Val Pro Ala
1 5 10 15
Ala Ala Thr Arg Ser Phe Ile Leu Lys Ile Glu Pro Asn Glu Glu Val
20 25 30
Lys Lys Gly Leu Trp Lys Thr His Glu Val Leu Asn His Gly Ile Ala
35 40 45
Tyr Tyr Met Asn Ile Leu Lys Leu Ile Arg Gln Glu Ala Ile Tyr Glu
50 55 60
His His Glu Gln Asp Pro Lys Asn Pro Lys Lys Val Ser Lys Ala Glu
65 70 75 80
Ile Gln Ala Glu Leu Trp Asp Phe Val Leu Lys Met Gln Lys Cys Asn
85 90 95
Ser Phe Thr His Glu Val Asp Lys Asp Glu Val Phe Asn Ile Leu Arg
100 105 110
Glu Leu Tyr Glu Glu Leu Val Pro Ser Ser Val Glu Lys Lys Gly Glu
115 120 125
Ala Asn Gln Leu Ser Asn Lys Phe Leu Tyr Pro Leu Val Asp Pro Asn
130 135 140
Ser Gln Ser Gly Lys Gly Thr Ala Ser Ser Gly Arg Lys Pro Arg Trp
145 150 155 160
Tyr Asn Leu Lys Ile Ala Gly Asp Pro Ser Trp Glu Glu Glu Lys Lys
165 170 175
Lys Trp Glu Glu Asp Lys Lys Lys Asp Pro Leu Ala Lys Ile Leu Gly
180 185 190
Lys Leu Ala Glu Tyr Gly Leu Ile Pro Leu Phe Ile Pro Tyr Thr Asp
195 200 205
Ser Asn Glu Pro Ile Val Lys Glu Ile Lys Trp Met Glu Lys Ser Arg
210 215 220
Asn Gln Ser Val Arg Arg Leu Asp Lys Asp Met Phe Ile Gln Ala Leu
225 230 235 240
Glu Arg Phe Leu Ser Trp Glu Ser Trp Asn Leu Lys Val Lys Glu Glu
245 250 255
Tyr Glu Lys Val Glu Lys Glu Tyr Lys Thr Leu Glu Glu Arg Ile Lys
260 265 270
Glu Asp Ile Gln Ala Leu Lys Ala Leu Glu Gln Tyr Glu Lys Glu Arg
275 280 285
Gln Glu Gln Leu Leu Arg Asp Thr Leu Asn Thr Asn Glu Tyr Arg Leu
290 295 300
Ser Lys Arg Gly Leu Arg Gly Trp Arg Glu Ile Ile Gln Lys Trp Leu
305 310 315 320
Lys Met Asp Glu Asn Glu Pro Ser Glu Lys Tyr Leu Glu Val Phe Lys
325 330 335
Asp Tyr Gln Arg Lys His Pro Arg Glu Ala Gly Asp Tyr Ser Val Tyr
340 345 350
Glu Phe Leu Ser Lys Lys Glu Asn His Phe Ile Trp Arg Asn His Pro
355 360 365
Glu Tyr Pro Tyr Leu Tyr Ala Thr Phe Cys Glu Ile Asp Lys Lys Lys
370 375 380
Lys Asp Ala Lys Gln Gln Ala Thr Phe Thr Leu Ala Asp Pro Ile Asn
385 390 395 400
His Pro Leu Trp Val Arg Phe Glu Glu Arg Ser Gly Ser Asn Leu Asn
405 410 415
Lys Tyr Arg Ile Leu Thr Glu Gln Leu His Thr Glu Lys Leu Lys Lys
420 425 430
Lys Leu Thr Val Gln Leu Asp Arg Leu Ile Tyr Pro Thr Glu Ser Gly
435 440 445
Gly Trp Glu Glu Lys Gly Lys Val Asp Ile Val Leu Leu Pro Ser Arg
450 455 460
Gln Phe Tyr Asn Gln Ile Phe Leu Asp Ile Glu Glu Lys Gly Lys His
465 470 475 480
Ala Phe Thr Tyr Lys Asp Glu Ser Ile Lys Phe Pro Leu Lys Gly Thr
485 490 495
Leu Gly Gly Ala Arg Val Gln Phe Asp Arg Asp His Leu Arg Arg Tyr
500 505 510
Pro His Lys Val Glu Ser Gly Asn Val Gly Arg Ile Tyr Phe Asn Met
515 520 525
Thr Val Asn Ile Glu Pro Thr Glu Ser Pro Val Ser Lys Ser Leu Lys
530 535 540
Ile His Arg Asp Asp Phe Pro Lys Val Val Asn Phe Lys Pro Lys Glu
545 550 555 560
Leu Thr Glu Trp Ile Lys Asp Ser Lys Gly Lys Lys Leu Lys Ser Gly
565 570 575
Ile Glu Ser Leu Glu Ile Gly Leu Arg Val Met Ser Ile Asp Leu Gly
580 585 590
Gln Arg Gln Ala Ala Ala Ala Ser Ile Phe Glu Val Val Asp Gln Lys
595 600 605
Pro Asp Ile Glu Gly Lys Leu Phe Phe Pro Ile Lys Gly Thr Glu Leu
610 615 620
Tyr Ala Val His Arg Ala Ser Phe Asn Ile Lys Leu Pro Gly Glu Thr
625 630 635 640
Leu Val Lys Ser Arg Glu Val Leu Arg Lys Ala Arg Glu Asp Asn Leu
645 650 655
Lys Leu Met Asn Gln Lys Leu Asn Phe Leu Arg Asn Val Leu His Phe
660 665 670
Gln Gln Phe Glu Asp Ile Thr Glu Arg Glu Lys Arg Val Thr Lys Trp
675 680 685
Ile Ser Arg Gln Glu Asn Ser Asp Val Pro Leu Val Tyr Gln Asp Glu
690 695 700
Leu Ile Gln Ile Arg Glu Leu Met Tyr Lys Pro Tyr Lys Asp Trp Val
705 710 715 720
Ala Phe Leu Lys Gln Leu His Lys Arg Leu Glu Val Glu Ile Gly Lys
725 730 735
Glu Val Lys His Trp Arg Lys Ser Leu Ser Asp Gly Arg Lys Gly Leu
740 745 750
Tyr Gly Ile Ser Leu Lys Asn Ile Asp Glu Ile Asp Arg Thr Arg Lys
755 760 765
Phe Leu Leu Arg Trp Ser Leu Arg Pro Thr Glu Pro Gly Glu Val Arg
770 775 780
Arg Leu Glu Pro Gly Gln Arg Phe Ala Ile Asp Gln Leu Asn His Leu
785 790 795 800
Asn Ala Leu Lys Glu Asp Arg Leu Lys Lys Met Ala Asn Thr Ile Ile
805 810 815
Met His Ala Leu Gly Tyr Cys Tyr Asp Val Arg Lys Lys Lys Trp Gln
820 825 830
Ala Lys Asn Pro Ala Cys Gln Ile Ile Leu Phe Glu Asp Leu Ser Asn
835 840 845
Tyr Asn Pro Tyr Glu Glu Arg Ser Arg Phe Glu Asn Ser Lys Leu Met
850 855 860
Lys Trp Ser Arg Arg Glu Ile Pro Arg Gln Val Ala Leu Gln Gly Glu
865 870 875 880
Ile Tyr Gly Leu Gln Val Gly Glu Val Gly Ala Gln Phe Ser Ser Arg
885 890 895
Phe His Ala Lys Thr Gly Ser Pro Gly Ile Arg Cys Ser Val Val Thr
900 905 910
Lys Glu Lys Leu Gln Asp Asn Arg Phe Phe Lys Asn Leu Gln Arg Glu
915 920 925
Gly Arg Leu Thr Leu Asp Lys Ile Ala Val Leu Lys Glu Gly Asp Leu
930 935 940
Tyr Pro Asp Lys Gly Gly Glu Lys Phe Ile Ser Leu Ser Lys Asp Arg
945 950 955 960
Lys Cys Val Thr Thr His Ala Asp Ile Asn Ala Ala Gln Asn Leu Gln
965 970 975
Lys Arg Phe Trp Thr Arg Thr His Gly Phe Tyr Lys Val Tyr Cys Lys
980 985 990
Ala Tyr Gln Val Asp Gly Gln Thr Val Tyr Ile Pro Glu Ser Lys Asp
995 1000 1005
Gln Lys Gln Lys Ile Ile Glu Glu Phe Gly Glu Gly Tyr Phe Ile
1010 1015 1020
Leu Lys Asp Gly Val Tyr Glu Trp Val Asn Ala Gly Lys Leu Lys
1025 1030 1035
Ile Lys Lys Gly Ser Ser Lys Gln Ser Ser Ser Glu Leu Val Asp
1040 1045 1050
Ser Asp Ile Leu Lys Asp Ser Phe Asp Leu Ala Ser Glu Leu Lys
1055 1060 1065
Gly Glu Lys Leu Met Leu Tyr Arg Asp Pro Ser Gly Asn Val Phe
1070 1075 1080
Pro Ser Asp Lys Trp Met Ala Ala Gly Val Phe Phe Gly Lys Leu
1085 1090 1095
Glu Arg Ile Leu Ile Ser Lys Leu Thr Asn Gln Tyr Ser Ile Ser
1100 1105 1110
Thr Ile Glu Asp Asp Ser Ser Lys Gln Ser Met Lys Arg Pro Ala
1115 1120 1125
Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys Lys Lys
1130 1135 1140
<210> 66
<211> 1112
<212> PRT
<213> Bacillus sp.
<400> 66
Met Ala Ile Arg Ser Ile Lys Leu Lys Met Lys Thr Asn Ser Gly Thr
1 5 10 15
Asp Ser Ile Tyr Leu Arg Lys Ala Leu Trp Arg Thr His Gln Leu Ile
20 25 30
Asn Glu Gly Ile Ala Tyr Tyr Met Asn Leu Leu Thr Leu Tyr Arg Gln
35 40 45
Glu Ala Ile Gly Asp Lys Thr Lys Glu Ala Tyr Gln Ala Glu Leu Ile
50 55 60
Asn Ile Ile Arg Asn Gln Gln Arg Asn Asn Gly Ser Ser Glu Glu His
65 70 75 80
Gly Ser Asp Gln Glu Ile Leu Ala Leu Leu Arg Gln Leu Tyr Glu Leu
85 90 95
Ile Ile Pro Ser Ser Ile Gly Glu Ser Gly Asp Ala Asn Gln Leu Gly
100 105 110
Asn Lys Phe Leu Tyr Pro Leu Val Asp Pro Asn Ser Gln Ser Gly Lys
115 120 125
Gly Thr Ser Asn Ala Gly Arg Lys Pro Arg Trp Lys Arg Leu Lys Glu
130 135 140
Glu Gly Asn Pro Asp Trp Glu Leu Glu Lys Lys Lys Asp Glu Glu Arg
145 150 155 160
Lys Ala Lys Asp Pro Thr Val Lys Ile Phe Asp Asn Leu Asn Lys Tyr
165 170 175
Gly Leu Leu Pro Leu Phe Pro Leu Phe Thr Asn Ile Gln Lys Asp Ile
180 185 190
Glu Trp Leu Pro Leu Gly Lys Arg Gln Ser Val Arg Lys Trp Asp Lys
195 200 205
Asp Met Phe Ile Gln Ala Ile Glu Arg Leu Leu Ser Trp Glu Ser Trp
210 215 220
Asn Arg Arg Val Ala Asp Glu Tyr Lys Gln Leu Lys Glu Lys Thr Glu
225 230 235 240
Ser Tyr Tyr Lys Glu His Leu Thr Gly Gly Glu Glu Trp Ile Glu Lys
245 250 255
Ile Arg Lys Phe Glu Lys Glu Arg Asn Met Glu Leu Glu Lys Asn Ala
260 265 270
Phe Ala Pro Asn Asp Gly Tyr Phe Ile Thr Ser Arg Gln Ile Arg Gly
275 280 285
Trp Asp Arg Val Tyr Glu Lys Trp Ser Lys Leu Pro Glu Ser Ala Ser
290 295 300
Pro Glu Glu Leu Trp Lys Val Val Ala Glu Gln Gln Asn Lys Met Ser
305 310 315 320
Glu Gly Phe Gly Asp Pro Lys Val Phe Ser Phe Leu Ala Asn Arg Glu
325 330 335
Asn Arg Asp Ile Trp Arg Gly His Ser Glu Arg Ile Tyr His Ile Ala
340 345 350
Ala Tyr Asn Gly Leu Gln Lys Lys Leu Ser Arg Thr Lys Glu Gln Ala
355 360 365
Thr Phe Thr Leu Pro Asp Ala Ile Glu His Pro Leu Trp Ile Arg Tyr
370 375 380
Glu Ser Pro Gly Gly Thr Asn Leu Asn Leu Phe Lys Leu Glu Glu Lys
385 390 395 400
Gln Lys Lys Asn Tyr Tyr Val Thr Leu Ser Lys Ile Ile Trp Pro Ser
405 410 415
Glu Glu Lys Trp Ile Glu Lys Glu Asn Ile Glu Ile Pro Leu Ala Pro
420 425 430
Ser Ile Gln Phe Asn Arg Gln Ile Lys Leu Lys Gln His Val Lys Gly
435 440 445
Lys Gln Glu Ile Ser Phe Ser Asp Tyr Ser Ser Arg Ile Ser Leu Asp
450 455 460
Gly Val Leu Gly Gly Ser Arg Ile Gln Phe Asn Arg Lys Tyr Ile Lys
465 470 475 480
Asn His Lys Glu Leu Leu Gly Glu Gly Asp Ile Gly Pro Val Phe Phe
485 490 495
Asn Leu Val Val Asp Val Ala Pro Leu Gln Glu Thr Arg Asn Gly Arg
500 505 510
Leu Gln Ser Pro Ile Gly Lys Ala Leu Lys Val Ile Ser Ser Asp Phe
515 520 525
Ser Lys Val Ile Asp Tyr Lys Pro Lys Glu Leu Met Asp Trp Met Asn
530 535 540
Thr Gly Ser Ala Ser Asn Ser Phe Gly Val Ala Ser Leu Leu Glu Gly
545 550 555 560
Met Arg Val Met Ser Ile Asp Met Gly Gln Arg Thr Ser Ala Ser Val
565 570 575
Ser Ile Phe Glu Val Val Lys Glu Leu Pro Lys Asp Gln Glu Gln Lys
580 585 590
Leu Phe Tyr Ser Ile Asn Asp Thr Glu Leu Phe Ala Ile His Lys Arg
595 600 605
Ser Phe Leu Leu Asn Leu Pro Gly Glu Val Val Thr Lys Asn Asn Lys
610 615 620
Gln Gln Arg Gln Glu Arg Arg Lys Lys Arg Gln Phe Val Arg Ser Gln
625 630 635 640
Ile Arg Met Leu Ala Asn Val Leu Arg Leu Glu Thr Lys Lys Thr Pro
645 650 655
Asp Glu Arg Lys Lys Ala Ile His Lys Leu Met Glu Ile Val Gln Ser
660 665 670
Tyr Asp Ser Trp Thr Ala Ser Gln Lys Glu Val Trp Glu Lys Glu Leu
675 680 685
Asn Leu Leu Thr Asn Met Ala Ala Phe Asn Asp Glu Ile Trp Lys Glu
690 695 700
Ser Leu Val Glu Leu His His Arg Ile Glu Pro Tyr Val Gly Gln Ile
705 710 715 720
Val Ser Lys Trp Arg Lys Gly Leu Ser Glu Gly Arg Lys Asn Leu Ala
725 730 735
Gly Ile Ser Met Trp Asn Ile Asp Glu Leu Glu Asp Thr Arg Arg Leu
740 745 750
Leu Ile Ser Trp Ser Lys Arg Ser Arg Thr Pro Gly Glu Ala Asn Arg
755 760 765
Ile Glu Thr Asp Glu Pro Phe Gly Ser Ser Leu Leu Gln His Ile Gln
770 775 780
Asn Val Lys Asp Asp Arg Leu Lys Gln Met Ala Asn Leu Ile Ile Met
785 790 795 800
Thr Ala Leu Gly Phe Lys Tyr Asp Lys Glu Glu Lys Asp Arg Tyr Lys
805 810 815
Arg Trp Lys Glu Thr Tyr Pro Ala Cys Gln Ile Ile Leu Phe Glu Asn
820 825 830
Leu Asn Arg Tyr Leu Phe Asn Leu Asp Arg Ser Arg Arg Glu Asn Ser
835 840 845
Arg Leu Met Lys Trp Ala His Arg Ser Ile Pro Arg Thr Val Ser Met
850 855 860
Gln Gly Glu Met Phe Gly Leu Gln Val Gly Asp Val Arg Ser Glu Tyr
865 870 875 880
Ser Ser Arg Phe His Ala Lys Thr Gly Ala Pro Gly Ile Arg Cys His
885 890 895
Ala Leu Thr Glu Glu Asp Leu Lys Ala Gly Ser Asn Thr Leu Lys Arg
900 905 910
Leu Ile Glu Asp Gly Phe Ile Asn Glu Ser Glu Leu Ala Tyr Leu Lys
915 920 925
Lys Gly Asp Ile Ile Pro Ser Gln Gly Gly Glu Leu Phe Val Thr Leu
930 935 940
Ser Lys Arg Tyr Lys Lys Asp Ser Asp Asn Asn Glu Leu Thr Val Ile
945 950 955 960
His Ala Asp Ile Asn Ala Ala Gln Asn Leu Gln Lys Arg Phe Trp Gln
965 970 975
Gln Asn Ser Glu Val Tyr Arg Val Pro Cys Gln Leu Ala Arg Met Gly
980 985 990
Glu Asp Lys Leu Tyr Ile Pro Lys Ser Gln Thr Glu Thr Ile Lys Lys
995 1000 1005
Tyr Phe Gly Lys Gly Ser Phe Val Lys Asn Asn Thr Glu Gln Glu
1010 1015 1020
Val Tyr Lys Trp Glu Lys Ser Glu Lys Met Lys Ile Lys Thr Asp
1025 1030 1035
Thr Thr Phe Asp Leu Gln Asp Leu Asp Gly Phe Glu Asp Ile Ser
1040 1045 1050
Lys Thr Ile Glu Leu Ala Gln Glu Gln Gln Lys Lys Tyr Leu Thr
1055 1060 1065
Met Phe Arg Asp Pro Ser Gly Tyr Phe Phe Asn Asn Glu Thr Trp
1070 1075 1080
Arg Pro Gln Lys Glu Tyr Trp Ser Ile Val Asn Asn Ile Ile Lys
1085 1090 1095
Ser Cys Leu Lys Lys Lys Ile Leu Ser Asn Lys Val Glu Leu
1100 1105 1110
<210> 67
<211> 1300
<212> PRT
<213> Francisella novicida
<400> 67
Met Ser Ile Tyr Gln Glu Phe Val Asn Lys Tyr Ser Leu Ser Lys Thr
1 5 10 15
Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Glu Asn Ile Lys
20 25 30
Ala Arg Gly Leu Ile Leu Asp Asp Glu Lys Arg Ala Lys Asp Tyr Lys
35 40 45
Lys Ala Lys Gln Ile Ile Asp Lys Tyr His Gln Phe Phe Ile Glu Glu
50 55 60
Ile Leu Ser Ser Val Cys Ile Ser Glu Asp Leu Leu Gln Asn Tyr Ser
65 70 75 80
Asp Val Tyr Phe Lys Leu Lys Lys Ser Asp Asp Asp Asn Leu Gln Lys
85 90 95
Asp Phe Lys Ser Ala Lys Asp Thr Ile Lys Lys Gln Ile Ser Glu Tyr
100 105 110
Ile Lys Asp Ser Glu Lys Phe Lys Asn Leu Phe Asn Gln Asn Leu Ile
115 120 125
Asp Ala Lys Lys Gly Gln Glu Ser Asp Leu Ile Leu Trp Leu Lys Gln
130 135 140
Ser Lys Asp Asn Gly Ile Glu Leu Phe Lys Ala Asn Ser Asp Ile Thr
145 150 155 160
Asp Ile Asp Glu Ala Leu Glu Ile Ile Lys Ser Phe Lys Gly Trp Thr
165 170 175
Thr Tyr Phe Lys Gly Phe His Glu Asn Arg Lys Asn Val Tyr Ser Ser
180 185 190
Asn Asp Ile Pro Thr Ser Ile Ile Tyr Arg Ile Val Asp Asp Asn Leu
195 200 205
Pro Lys Phe Leu Glu Asn Lys Ala Lys Tyr Glu Ser Leu Lys Asp Lys
210 215 220
Ala Pro Glu Ala Ile Asn Tyr Glu Gln Ile Lys Lys Asp Leu Ala Glu
225 230 235 240
Glu Leu Thr Phe Asp Ile Asp Tyr Lys Thr Ser Glu Val Asn Gln Arg
245 250 255
Val Phe Ser Leu Asp Glu Val Phe Glu Ile Ala Asn Phe Asn Asn Tyr
260 265 270
Leu Asn Gln Ser Gly Ile Thr Lys Phe Asn Thr Ile Ile Gly Gly Lys
275 280 285
Phe Val Asn Gly Glu Asn Thr Lys Arg Lys Gly Ile Asn Glu Tyr Ile
290 295 300
Asn Leu Tyr Ser Gln Gln Ile Asn Asp Lys Thr Leu Lys Lys Tyr Lys
305 310 315 320
Met Ser Val Leu Phe Lys Gln Ile Leu Ser Asp Thr Glu Ser Lys Ser
325 330 335
Phe Val Ile Asp Lys Leu Glu Asp Asp Ser Asp Val Val Thr Thr Met
340 345 350
Gln Ser Phe Tyr Glu Gln Ile Ala Ala Phe Lys Thr Val Glu Glu Lys
355 360 365
Ser Ile Lys Glu Thr Leu Ser Leu Leu Phe Asp Asp Leu Lys Ala Gln
370 375 380
Lys Leu Asp Leu Ser Lys Ile Tyr Phe Lys Asn Asp Lys Ser Leu Thr
385 390 395 400
Asp Leu Ser Gln Gln Val Phe Asp Asp Tyr Ser Val Ile Gly Thr Ala
405 410 415
Val Leu Glu Tyr Ile Thr Gln Gln Ile Ala Pro Lys Asn Leu Asp Asn
420 425 430
Pro Ser Lys Lys Glu Gln Glu Leu Ile Ala Lys Lys Thr Glu Lys Ala
435 440 445
Lys Tyr Leu Ser Leu Glu Thr Ile Lys Leu Ala Leu Glu Glu Phe Asn
450 455 460
Lys His Arg Asp Ile Asp Lys Gln Cys Arg Phe Glu Glu Ile Leu Ala
465 470 475 480
Asn Phe Ala Ala Ile Pro Met Ile Phe Asp Glu Ile Ala Gln Asn Lys
485 490 495
Asp Asn Leu Ala Gln Ile Ser Ile Lys Tyr Gln Asn Gln Gly Lys Lys
500 505 510
Asp Leu Leu Gln Ala Ser Ala Glu Asp Asp Val Lys Ala Ile Lys Asp
515 520 525
Leu Leu Asp Gln Thr Asn Asn Leu Leu His Lys Leu Lys Ile Phe His
530 535 540
Ile Ser Gln Ser Glu Asp Lys Ala Asn Ile Leu Asp Lys Asp Glu His
545 550 555 560
Phe Tyr Leu Val Phe Glu Glu Cys Tyr Phe Glu Leu Ala Asn Ile Val
565 570 575
Pro Leu Tyr Asn Lys Ile Arg Asn Tyr Ile Thr Gln Lys Pro Tyr Ser
580 585 590
Asp Glu Lys Phe Lys Leu Asn Phe Glu Asn Ser Thr Leu Ala Asn Gly
595 600 605
Trp Asp Lys Asn Lys Glu Pro Asp Asn Thr Ala Ile Leu Phe Ile Lys
610 615 620
Asp Asp Lys Tyr Tyr Leu Gly Val Met Asn Lys Lys Asn Asn Lys Ile
625 630 635 640
Phe Asp Asp Lys Ala Ile Lys Glu Asn Lys Gly Glu Gly Tyr Lys Lys
645 650 655
Ile Val Tyr Lys Leu Leu Pro Gly Ala Asn Lys Met Leu Pro Lys Val
660 665 670
Phe Phe Ser Ala Lys Ser Ile Lys Phe Tyr Asn Pro Ser Glu Asp Ile
675 680 685
Leu Arg Ile Arg Asn His Ser Thr His Thr Lys Asn Gly Ser Pro Gln
690 695 700
Lys Gly Tyr Glu Lys Phe Glu Phe Asn Ile Glu Asp Cys Arg Lys Phe
705 710 715 720
Ile Asp Phe Tyr Lys Gln Ser Ile Ser Lys His Pro Glu Trp Lys Asp
725 730 735
Phe Gly Phe Arg Phe Ser Asp Thr Gln Arg Tyr Asn Ser Ile Asp Glu
740 745 750
Phe Tyr Arg Glu Val Glu Asn Gln Gly Tyr Lys Leu Thr Phe Glu Asn
755 760 765
Ile Ser Glu Ser Tyr Ile Asp Ser Val Val Asn Gln Gly Lys Leu Tyr
770 775 780
Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ser Ala Tyr Ser Lys Gly Arg
785 790 795 800
Pro Asn Leu His Thr Leu Tyr Trp Lys Ala Leu Phe Asp Glu Arg Asn
805 810 815
Leu Gln Asp Val Val Tyr Lys Leu Asn Gly Glu Ala Glu Leu Phe Tyr
820 825 830
Arg Lys Gln Ser Ile Pro Lys Lys Ile Thr His Pro Ala Lys Glu Ala
835 840 845
Ile Ala Asn Lys Asn Lys Asp Asn Pro Lys Lys Glu Ser Val Phe Glu
850 855 860
Tyr Asp Leu Ile Lys Asp Lys Arg Phe Thr Glu Asp Lys Phe Phe Phe
865 870 875 880
His Cys Pro Ile Thr Ile Asn Phe Lys Ser Ser Gly Ala Asn Lys Phe
885 890 895
Asn Asp Glu Ile Asn Leu Leu Leu Lys Glu Lys Ala Asn Asp Val His
900 905 910
Ile Leu Ser Ile Asp Arg Gly Glu Arg His Leu Ala Tyr Tyr Thr Leu
915 920 925
Val Asp Gly Lys Gly Asn Ile Ile Lys Gln Asp Thr Phe Asn Ile Ile
930 935 940
Gly Asn Asp Arg Met Lys Thr Asn Tyr His Asp Lys Leu Ala Ala Ile
945 950 955 960
Glu Lys Asp Arg Asp Ser Ala Arg Lys Asp Trp Lys Lys Ile Asn Asn
965 970 975
Ile Lys Glu Met Lys Glu Gly Tyr Leu Ser Gln Val Val His Glu Ile
980 985 990
Ala Lys Leu Val Ile Glu Tyr Asn Ala Ile Val Val Phe Glu Asp Leu
995 1000 1005
Asn Phe Gly Phe Lys Arg Gly Arg Phe Lys Val Glu Lys Gln Val
1010 1015 1020
Tyr Gln Lys Leu Glu Lys Met Leu Ile Glu Lys Leu Asn Tyr Leu
1025 1030 1035
Val Phe Lys Asp Asn Glu Phe Asp Lys Thr Gly Gly Val Leu Arg
1040 1045 1050
Ala Tyr Gln Leu Thr Ala Pro Phe Glu Thr Phe Lys Lys Met Gly
1055 1060 1065
Lys Gln Thr Gly Ile Ile Tyr Tyr Val Pro Ala Gly Phe Thr Ser
1070 1075 1080
Lys Ile Cys Pro Val Thr Gly Phe Val Asn Gln Leu Tyr Pro Lys
1085 1090 1095
Tyr Glu Ser Val Ser Lys Ser Gln Glu Phe Phe Ser Lys Phe Asp
1100 1105 1110
Lys Ile Cys Tyr Asn Leu Asp Lys Gly Tyr Phe Glu Phe Ser Phe
1115 1120 1125
Asp Tyr Lys Asn Phe Gly Asp Lys Ala Ala Lys Gly Lys Trp Thr
1130 1135 1140
Ile Ala Ser Phe Gly Ser Arg Leu Ile Asn Phe Arg Asn Ser Asp
1145 1150 1155
Lys Asn His Asn Trp Asp Thr Arg Glu Val Tyr Pro Thr Lys Glu
1160 1165 1170
Leu Glu Lys Leu Leu Lys Asp Tyr Ser Ile Glu Tyr Gly His Gly
1175 1180 1185
Glu Cys Ile Lys Ala Ala Ile Cys Gly Glu Ser Asp Lys Lys Phe
1190 1195 1200
Phe Ala Lys Leu Thr Ser Val Leu Asn Thr Ile Leu Gln Met Arg
1205 1210 1215
Asn Ser Lys Thr Gly Thr Glu Leu Asp Tyr Leu Ile Ser Pro Val
1220 1225 1230
Ala Asp Val Asn Gly Asn Phe Phe Asp Ser Arg Gln Ala Pro Lys
1235 1240 1245
Asn Met Pro Gln Asp Ala Asp Ala Asn Gly Ala Tyr His Ile Gly
1250 1255 1260
Leu Lys Gly Leu Met Leu Leu Gly Arg Ile Lys Asn Asn Gln Glu
1265 1270 1275
Gly Lys Lys Leu Asn Leu Val Ile Lys Asn Glu Glu Tyr Phe Glu
1280 1285 1290
Phe Val Gln Asn Arg Asn Asn
1295 1300
<210> 68
<211> 1300
<212> PRT
<213> Francisella novicida
<400> 68
Met Ser Ile Tyr Gln Glu Phe Val Asn Lys Tyr Ser Leu Ser Lys Thr
1 5 10 15
Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Glu Asn Ile Lys
20 25 30
Ala Arg Gly Leu Ile Leu Asp Asp Glu Lys Arg Ala Lys Asp Tyr Lys
35 40 45
Lys Ala Lys Gln Ile Ile Asp Lys Tyr His Gln Phe Phe Ile Glu Glu
50 55 60
Ile Leu Ser Ser Val Cys Ile Ser Glu Asp Leu Leu Gln Asn Tyr Ser
65 70 75 80
Asp Val Tyr Phe Lys Leu Lys Lys Ser Asp Asp Asp Asn Leu Gln Lys
85 90 95
Asp Phe Lys Ser Ala Lys Asp Thr Ile Lys Lys Gln Ile Ser Glu Tyr
100 105 110
Ile Lys Asp Ser Glu Lys Phe Lys Asn Leu Phe Asn Gln Asn Leu Ile
115 120 125
Asp Ala Lys Lys Gly Gln Glu Ser Asp Leu Ile Leu Trp Leu Lys Gln
130 135 140
Ser Lys Asp Asn Gly Ile Glu Leu Phe Lys Ala Asn Ser Asp Ile Thr
145 150 155 160
Asp Ile Asp Glu Ala Leu Glu Ile Ile Lys Ser Phe Lys Gly Trp Thr
165 170 175
Thr Tyr Phe Lys Gly Phe His Glu Asn Arg Lys Asn Val Tyr Ser Ser
180 185 190
Asn Asp Ile Pro Thr Ser Ile Ile Tyr Arg Ile Val Asp Asp Asn Leu
195 200 205
Pro Lys Phe Leu Glu Asn Lys Ala Lys Tyr Glu Ser Leu Lys Asp Lys
210 215 220
Ala Pro Glu Ala Ile Asn Tyr Glu Gln Ile Lys Lys Asp Leu Ala Glu
225 230 235 240
Glu Leu Thr Phe Asp Ile Asp Tyr Lys Thr Ser Glu Val Asn Gln Arg
245 250 255
Val Phe Ser Leu Asp Glu Val Phe Glu Ile Ala Asn Phe Asn Asn Tyr
260 265 270
Leu Asn Gln Ser Gly Ile Thr Lys Phe Asn Thr Ile Ile Gly Gly Lys
275 280 285
Phe Val Asn Gly Glu Asn Thr Lys Arg Lys Gly Ile Asn Glu Tyr Ile
290 295 300
Asn Leu Tyr Ser Gln Gln Ile Asn Asp Lys Thr Leu Lys Lys Tyr Lys
305 310 315 320
Met Ser Val Leu Phe Lys Gln Ile Leu Ser Asp Thr Glu Ser Lys Ser
325 330 335
Phe Val Ile Asp Lys Leu Glu Asp Asp Ser Asp Val Val Thr Thr Met
340 345 350
Gln Ser Phe Tyr Glu Gln Ile Ala Ala Phe Lys Thr Val Glu Glu Lys
355 360 365
Ser Ile Lys Glu Thr Leu Ser Leu Leu Phe Asp Asp Leu Lys Ala Gln
370 375 380
Lys Leu Asp Leu Ser Lys Ile Tyr Phe Lys Asn Asp Lys Ser Leu Thr
385 390 395 400
Asp Leu Ser Gln Gln Val Phe Asp Asp Tyr Ser Val Ile Gly Thr Ala
405 410 415
Val Leu Glu Tyr Ile Thr Gln Gln Ile Ala Pro Lys Asn Leu Asp Asn
420 425 430
Pro Ser Lys Lys Glu Gln Glu Leu Ile Ala Lys Lys Thr Glu Lys Ala
435 440 445
Lys Tyr Leu Ser Leu Glu Thr Ile Lys Leu Ala Leu Glu Glu Phe Asn
450 455 460
Lys His Arg Asp Ile Asp Lys Gln Cys Arg Phe Glu Glu Ile Leu Ala
465 470 475 480
Asn Phe Ala Ala Ile Pro Met Ile Phe Asp Glu Ile Ala Gln Asn Lys
485 490 495
Asp Asn Leu Ala Gln Ile Ser Ile Lys Tyr Gln Asn Gln Gly Lys Lys
500 505 510
Asp Leu Leu Gln Ala Ser Ala Glu Asp Asp Val Lys Ala Ile Lys Asp
515 520 525
Leu Leu Asp Gln Thr Asn Asn Leu Leu His Lys Leu Lys Ile Phe His
530 535 540
Ile Ser Gln Ser Glu Asp Lys Ala Asn Ile Leu Asp Lys Asp Glu His
545 550 555 560
Phe Tyr Leu Val Phe Glu Glu Cys Tyr Phe Glu Leu Ala Asn Ile Val
565 570 575
Pro Leu Tyr Asn Lys Ile Arg Asn Tyr Ile Thr Gln Lys Pro Tyr Ser
580 585 590
Asp Glu Lys Phe Lys Leu Asn Phe Glu Asn Ser Thr Leu Ala Asn Gly
595 600 605
Trp Asp Lys Asn Lys Glu Pro Asp Asn Thr Ala Ile Leu Phe Ile Lys
610 615 620
Asp Asp Lys Tyr Tyr Leu Gly Val Met Asn Lys Lys Asn Asn Lys Ile
625 630 635 640
Phe Asp Asp Lys Ala Ile Lys Glu Asn Lys Gly Glu Gly Tyr Lys Lys
645 650 655
Ile Val Tyr Lys Leu Leu Pro Gly Ala Asn Lys Met Leu Pro Lys Val
660 665 670
Phe Phe Ser Ala Lys Ser Ile Lys Phe Tyr Asn Pro Ser Glu Asp Ile
675 680 685
Leu Arg Ile Arg Asn His Ser Thr His Thr Lys Asn Gly Ser Pro Gln
690 695 700
Lys Gly Tyr Glu Lys Phe Glu Phe Asn Ile Glu Asp Cys Arg Lys Phe
705 710 715 720
Ile Asp Phe Tyr Lys Gln Ser Ile Ser Lys His Pro Glu Trp Lys Asp
725 730 735
Phe Gly Phe Arg Phe Ser Asp Thr Gln Arg Tyr Asn Ser Ile Asp Glu
740 745 750
Phe Tyr Arg Glu Val Glu Asn Gln Gly Tyr Lys Leu Thr Phe Glu Asn
755 760 765
Ile Ser Glu Ser Tyr Ile Asp Ser Val Val Asn Gln Gly Lys Leu Tyr
770 775 780
Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ser Ala Tyr Ser Lys Gly Arg
785 790 795 800
Pro Asn Leu His Thr Leu Tyr Trp Lys Ala Leu Phe Asp Glu Arg Asn
805 810 815
Leu Gln Asp Val Val Tyr Lys Leu Asn Gly Glu Ala Glu Leu Phe Tyr
820 825 830
Arg Lys Gln Ser Ile Pro Lys Lys Ile Thr His Pro Ala Lys Glu Ala
835 840 845
Ile Ala Asn Lys Asn Lys Asp Asn Pro Lys Lys Glu Ser Val Phe Glu
850 855 860
Tyr Asp Leu Ile Lys Asp Lys Arg Phe Thr Glu Asp Lys Phe Phe Phe
865 870 875 880
His Cys Pro Ile Thr Ile Asn Phe Lys Ser Ser Gly Ala Asn Lys Phe
885 890 895
Asn Asp Glu Ile Asn Leu Leu Leu Lys Glu Lys Ala Asn Asp Val His
900 905 910
Ile Leu Ser Ile Ala Arg Gly Glu Arg His Leu Ala Tyr Tyr Thr Leu
915 920 925
Val Asp Gly Lys Gly Asn Ile Ile Lys Gln Asp Thr Phe Asn Ile Ile
930 935 940
Gly Asn Asp Arg Met Lys Thr Asn Tyr His Asp Lys Leu Ala Ala Ile
945 950 955 960
Glu Lys Asp Arg Asp Ser Ala Arg Lys Asp Trp Lys Lys Ile Asn Asn
965 970 975
Ile Lys Glu Met Lys Glu Gly Tyr Leu Ser Gln Val Val His Glu Ile
980 985 990
Ala Lys Leu Val Ile Glu Tyr Asn Ala Ile Val Val Phe Glu Asp Leu
995 1000 1005
Asn Phe Gly Phe Lys Arg Gly Arg Phe Lys Val Glu Lys Gln Val
1010 1015 1020
Tyr Gln Lys Leu Glu Lys Met Leu Ile Glu Lys Leu Asn Tyr Leu
1025 1030 1035
Val Phe Lys Asp Asn Glu Phe Asp Lys Thr Gly Gly Val Leu Arg
1040 1045 1050
Ala Tyr Gln Leu Thr Ala Pro Phe Glu Thr Phe Lys Lys Met Gly
1055 1060 1065
Lys Gln Thr Gly Ile Ile Tyr Tyr Val Pro Ala Gly Phe Thr Ser
1070 1075 1080
Lys Ile Cys Pro Val Thr Gly Phe Val Asn Gln Leu Tyr Pro Lys
1085 1090 1095
Tyr Glu Ser Val Ser Lys Ser Gln Glu Phe Phe Ser Lys Phe Asp
1100 1105 1110
Lys Ile Cys Tyr Asn Leu Asp Lys Gly Tyr Phe Glu Phe Ser Phe
1115 1120 1125
Asp Tyr Lys Asn Phe Gly Asp Lys Ala Ala Lys Gly Lys Trp Thr
1130 1135 1140
Ile Ala Ser Phe Gly Ser Arg Leu Ile Asn Phe Arg Asn Ser Asp
1145 1150 1155
Lys Asn His Asn Trp Asp Thr Arg Glu Val Tyr Pro Thr Lys Glu
1160 1165 1170
Leu Glu Lys Leu Leu Lys Asp Tyr Ser Ile Glu Tyr Gly His Gly
1175 1180 1185
Glu Cys Ile Lys Ala Ala Ile Cys Gly Glu Ser Asp Lys Lys Phe
1190 1195 1200
Phe Ala Lys Leu Thr Ser Val Leu Asn Thr Ile Leu Gln Met Arg
1205 1210 1215
Asn Ser Lys Thr Gly Thr Glu Leu Asp Tyr Leu Ile Ser Pro Val
1220 1225 1230
Ala Asp Val Asn Gly Asn Phe Phe Asp Ser Arg Gln Ala Pro Lys
1235 1240 1245
Asn Met Pro Gln Asp Ala Asp Ala Asn Gly Ala Tyr His Ile Gly
1250 1255 1260
Leu Lys Gly Leu Met Leu Leu Gly Arg Ile Lys Asn Asn Gln Glu
1265 1270 1275
Gly Lys Lys Leu Asn Leu Val Ile Lys Asn Glu Glu Tyr Phe Glu
1280 1285 1290
Phe Val Gln Asn Arg Asn Asn
1295 1300
<210> 69
<211> 1300
<212> PRT
<213> Francisella novicida
<400> 69
Met Ser Ile Tyr Gln Glu Phe Val Asn Lys Tyr Ser Leu Ser Lys Thr
1 5 10 15
Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Glu Asn Ile Lys
20 25 30
Ala Arg Gly Leu Ile Leu Asp Asp Glu Lys Arg Ala Lys Asp Tyr Lys
35 40 45
Lys Ala Lys Gln Ile Ile Asp Lys Tyr His Gln Phe Phe Ile Glu Glu
50 55 60
Ile Leu Ser Ser Val Cys Ile Ser Glu Asp Leu Leu Gln Asn Tyr Ser
65 70 75 80
Asp Val Tyr Phe Lys Leu Lys Lys Ser Asp Asp Asp Asn Leu Gln Lys
85 90 95
Asp Phe Lys Ser Ala Lys Asp Thr Ile Lys Lys Gln Ile Ser Glu Tyr
100 105 110
Ile Lys Asp Ser Glu Lys Phe Lys Asn Leu Phe Asn Gln Asn Leu Ile
115 120 125
Asp Ala Lys Lys Gly Gln Glu Ser Asp Leu Ile Leu Trp Leu Lys Gln
130 135 140
Ser Lys Asp Asn Gly Ile Glu Leu Phe Lys Ala Asn Ser Asp Ile Thr
145 150 155 160
Asp Ile Asp Glu Ala Leu Glu Ile Ile Lys Ser Phe Lys Gly Trp Thr
165 170 175
Thr Tyr Phe Lys Gly Phe His Glu Asn Arg Lys Asn Val Tyr Ser Ser
180 185 190
Asn Asp Ile Pro Thr Ser Ile Ile Tyr Arg Ile Val Asp Asp Asn Leu
195 200 205
Pro Lys Phe Leu Glu Asn Lys Ala Lys Tyr Glu Ser Leu Lys Asp Lys
210 215 220
Ala Pro Glu Ala Ile Asn Tyr Glu Gln Ile Lys Lys Asp Leu Ala Glu
225 230 235 240
Glu Leu Thr Phe Asp Ile Asp Tyr Lys Thr Ser Glu Val Asn Gln Arg
245 250 255
Val Phe Ser Leu Asp Glu Val Phe Glu Ile Ala Asn Phe Asn Asn Tyr
260 265 270
Leu Asn Gln Ser Gly Ile Thr Lys Phe Asn Thr Ile Ile Gly Gly Lys
275 280 285
Phe Val Asn Gly Glu Asn Thr Lys Arg Lys Gly Ile Asn Glu Tyr Ile
290 295 300
Asn Leu Tyr Ser Gln Gln Ile Asn Asp Lys Thr Leu Lys Lys Tyr Lys
305 310 315 320
Met Ser Val Leu Phe Lys Gln Ile Leu Ser Asp Thr Glu Ser Lys Ser
325 330 335
Phe Val Ile Asp Lys Leu Glu Asp Asp Ser Asp Val Val Thr Thr Met
340 345 350
Gln Ser Phe Tyr Glu Gln Ile Ala Ala Phe Lys Thr Val Glu Glu Lys
355 360 365
Ser Ile Lys Glu Thr Leu Ser Leu Leu Phe Asp Asp Leu Lys Ala Gln
370 375 380
Lys Leu Asp Leu Ser Lys Ile Tyr Phe Lys Asn Asp Lys Ser Leu Thr
385 390 395 400
Asp Leu Ser Gln Gln Val Phe Asp Asp Tyr Ser Val Ile Gly Thr Ala
405 410 415
Val Leu Glu Tyr Ile Thr Gln Gln Ile Ala Pro Lys Asn Leu Asp Asn
420 425 430
Pro Ser Lys Lys Glu Gln Glu Leu Ile Ala Lys Lys Thr Glu Lys Ala
435 440 445
Lys Tyr Leu Ser Leu Glu Thr Ile Lys Leu Ala Leu Glu Glu Phe Asn
450 455 460
Lys His Arg Asp Ile Asp Lys Gln Cys Arg Phe Glu Glu Ile Leu Ala
465 470 475 480
Asn Phe Ala Ala Ile Pro Met Ile Phe Asp Glu Ile Ala Gln Asn Lys
485 490 495
Asp Asn Leu Ala Gln Ile Ser Ile Lys Tyr Gln Asn Gln Gly Lys Lys
500 505 510
Asp Leu Leu Gln Ala Ser Ala Glu Asp Asp Val Lys Ala Ile Lys Asp
515 520 525
Leu Leu Asp Gln Thr Asn Asn Leu Leu His Lys Leu Lys Ile Phe His
530 535 540
Ile Ser Gln Ser Glu Asp Lys Ala Asn Ile Leu Asp Lys Asp Glu His
545 550 555 560
Phe Tyr Leu Val Phe Glu Glu Cys Tyr Phe Glu Leu Ala Asn Ile Val
565 570 575
Pro Leu Tyr Asn Lys Ile Arg Asn Tyr Ile Thr Gln Lys Pro Tyr Ser
580 585 590
Asp Glu Lys Phe Lys Leu Asn Phe Glu Asn Ser Thr Leu Ala Asn Gly
595 600 605
Trp Asp Lys Asn Lys Glu Pro Asp Asn Thr Ala Ile Leu Phe Ile Lys
610 615 620
Asp Asp Lys Tyr Tyr Leu Gly Val Met Asn Lys Lys Asn Asn Lys Ile
625 630 635 640
Phe Asp Asp Lys Ala Ile Lys Glu Asn Lys Gly Glu Gly Tyr Lys Lys
645 650 655
Ile Val Tyr Lys Leu Leu Pro Gly Ala Asn Lys Met Leu Pro Lys Val
660 665 670
Phe Phe Ser Ala Lys Ser Ile Lys Phe Tyr Asn Pro Ser Glu Asp Ile
675 680 685
Leu Arg Ile Arg Asn His Ser Thr His Thr Lys Asn Gly Ser Pro Gln
690 695 700
Lys Gly Tyr Glu Lys Phe Glu Phe Asn Ile Glu Asp Cys Arg Lys Phe
705 710 715 720
Ile Asp Phe Tyr Lys Gln Ser Ile Ser Lys His Pro Glu Trp Lys Asp
725 730 735
Phe Gly Phe Arg Phe Ser Asp Thr Gln Arg Tyr Asn Ser Ile Asp Glu
740 745 750
Phe Tyr Arg Glu Val Glu Asn Gln Gly Tyr Lys Leu Thr Phe Glu Asn
755 760 765
Ile Ser Glu Ser Tyr Ile Asp Ser Val Val Asn Gln Gly Lys Leu Tyr
770 775 780
Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ser Ala Tyr Ser Lys Gly Arg
785 790 795 800
Pro Asn Leu His Thr Leu Tyr Trp Lys Ala Leu Phe Asp Glu Arg Asn
805 810 815
Leu Gln Asp Val Val Tyr Lys Leu Asn Gly Glu Ala Glu Leu Phe Tyr
820 825 830
Arg Lys Gln Ser Ile Pro Lys Lys Ile Thr His Pro Ala Lys Glu Ala
835 840 845
Ile Ala Asn Lys Asn Lys Asp Asn Pro Lys Lys Glu Ser Val Phe Glu
850 855 860
Tyr Asp Leu Ile Lys Asp Lys Arg Phe Thr Glu Asp Lys Phe Phe Phe
865 870 875 880
His Cys Pro Ile Thr Ile Asn Phe Lys Ser Ser Gly Ala Asn Lys Phe
885 890 895
Asn Asp Glu Ile Asn Leu Leu Leu Lys Glu Lys Ala Asn Asp Val His
900 905 910
Ile Leu Ser Ile Asp Arg Gly Glu Arg His Leu Ala Tyr Tyr Thr Leu
915 920 925
Val Asp Gly Lys Gly Asn Ile Ile Lys Gln Asp Thr Phe Asn Ile Ile
930 935 940
Gly Asn Asp Arg Met Lys Thr Asn Tyr His Asp Lys Leu Ala Ala Ile
945 950 955 960
Glu Lys Asp Arg Asp Ser Ala Arg Lys Asp Trp Lys Lys Ile Asn Asn
965 970 975
Ile Lys Glu Met Lys Glu Gly Tyr Leu Ser Gln Val Val His Glu Ile
980 985 990
Ala Lys Leu Val Ile Glu Tyr Asn Ala Ile Val Val Phe Ala Asp Leu
995 1000 1005
Asn Phe Gly Phe Lys Arg Gly Arg Phe Lys Val Glu Lys Gln Val
1010 1015 1020
Tyr Gln Lys Leu Glu Lys Met Leu Ile Glu Lys Leu Asn Tyr Leu
1025 1030 1035
Val Phe Lys Asp Asn Glu Phe Asp Lys Thr Gly Gly Val Leu Arg
1040 1045 1050
Ala Tyr Gln Leu Thr Ala Pro Phe Glu Thr Phe Lys Lys Met Gly
1055 1060 1065
Lys Gln Thr Gly Ile Ile Tyr Tyr Val Pro Ala Gly Phe Thr Ser
1070 1075 1080
Lys Ile Cys Pro Val Thr Gly Phe Val Asn Gln Leu Tyr Pro Lys
1085 1090 1095
Tyr Glu Ser Val Ser Lys Ser Gln Glu Phe Phe Ser Lys Phe Asp
1100 1105 1110
Lys Ile Cys Tyr Asn Leu Asp Lys Gly Tyr Phe Glu Phe Ser Phe
1115 1120 1125
Asp Tyr Lys Asn Phe Gly Asp Lys Ala Ala Lys Gly Lys Trp Thr
1130 1135 1140
Ile Ala Ser Phe Gly Ser Arg Leu Ile Asn Phe Arg Asn Ser Asp
1145 1150 1155
Lys Asn His Asn Trp Asp Thr Arg Glu Val Tyr Pro Thr Lys Glu
1160 1165 1170
Leu Glu Lys Leu Leu Lys Asp Tyr Ser Ile Glu Tyr Gly His Gly
1175 1180 1185
Glu Cys Ile Lys Ala Ala Ile Cys Gly Glu Ser Asp Lys Lys Phe
1190 1195 1200
Phe Ala Lys Leu Thr Ser Val Leu Asn Thr Ile Leu Gln Met Arg
1205 1210 1215
Asn Ser Lys Thr Gly Thr Glu Leu Asp Tyr Leu Ile Ser Pro Val
1220 1225 1230
Ala Asp Val Asn Gly Asn Phe Phe Asp Ser Arg Gln Ala Pro Lys
1235 1240 1245
Asn Met Pro Gln Asp Ala Asp Ala Asn Gly Ala Tyr His Ile Gly
1250 1255 1260
Leu Lys Gly Leu Met Leu Leu Gly Arg Ile Lys Asn Asn Gln Glu
1265 1270 1275
Gly Lys Lys Leu Asn Leu Val Ile Lys Asn Glu Glu Tyr Phe Glu
1280 1285 1290
Phe Val Gln Asn Arg Asn Asn
1295 1300
<210> 70
<211> 1300
<212> PRT
<213> Francisella novicida
<400> 70
Met Ser Ile Tyr Gln Glu Phe Val Asn Lys Tyr Ser Leu Ser Lys Thr
1 5 10 15
Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Glu Asn Ile Lys
20 25 30
Ala Arg Gly Leu Ile Leu Asp Asp Glu Lys Arg Ala Lys Asp Tyr Lys
35 40 45
Lys Ala Lys Gln Ile Ile Asp Lys Tyr His Gln Phe Phe Ile Glu Glu
50 55 60
Ile Leu Ser Ser Val Cys Ile Ser Glu Asp Leu Leu Gln Asn Tyr Ser
65 70 75 80
Asp Val Tyr Phe Lys Leu Lys Lys Ser Asp Asp Asp Asn Leu Gln Lys
85 90 95
Asp Phe Lys Ser Ala Lys Asp Thr Ile Lys Lys Gln Ile Ser Glu Tyr
100 105 110
Ile Lys Asp Ser Glu Lys Phe Lys Asn Leu Phe Asn Gln Asn Leu Ile
115 120 125
Asp Ala Lys Lys Gly Gln Glu Ser Asp Leu Ile Leu Trp Leu Lys Gln
130 135 140
Ser Lys Asp Asn Gly Ile Glu Leu Phe Lys Ala Asn Ser Asp Ile Thr
145 150 155 160
Asp Ile Asp Glu Ala Leu Glu Ile Ile Lys Ser Phe Lys Gly Trp Thr
165 170 175
Thr Tyr Phe Lys Gly Phe His Glu Asn Arg Lys Asn Val Tyr Ser Ser
180 185 190
Asn Asp Ile Pro Thr Ser Ile Ile Tyr Arg Ile Val Asp Asp Asn Leu
195 200 205
Pro Lys Phe Leu Glu Asn Lys Ala Lys Tyr Glu Ser Leu Lys Asp Lys
210 215 220
Ala Pro Glu Ala Ile Asn Tyr Glu Gln Ile Lys Lys Asp Leu Ala Glu
225 230 235 240
Glu Leu Thr Phe Asp Ile Asp Tyr Lys Thr Ser Glu Val Asn Gln Arg
245 250 255
Val Phe Ser Leu Asp Glu Val Phe Glu Ile Ala Asn Phe Asn Asn Tyr
260 265 270
Leu Asn Gln Ser Gly Ile Thr Lys Phe Asn Thr Ile Ile Gly Gly Lys
275 280 285
Phe Val Asn Gly Glu Asn Thr Lys Arg Lys Gly Ile Asn Glu Tyr Ile
290 295 300
Asn Leu Tyr Ser Gln Gln Ile Asn Asp Lys Thr Leu Lys Lys Tyr Lys
305 310 315 320
Met Ser Val Leu Phe Lys Gln Ile Leu Ser Asp Thr Glu Ser Lys Ser
325 330 335
Phe Val Ile Asp Lys Leu Glu Asp Asp Ser Asp Val Val Thr Thr Met
340 345 350
Gln Ser Phe Tyr Glu Gln Ile Ala Ala Phe Lys Thr Val Glu Glu Lys
355 360 365
Ser Ile Lys Glu Thr Leu Ser Leu Leu Phe Asp Asp Leu Lys Ala Gln
370 375 380
Lys Leu Asp Leu Ser Lys Ile Tyr Phe Lys Asn Asp Lys Ser Leu Thr
385 390 395 400
Asp Leu Ser Gln Gln Val Phe Asp Asp Tyr Ser Val Ile Gly Thr Ala
405 410 415
Val Leu Glu Tyr Ile Thr Gln Gln Ile Ala Pro Lys Asn Leu Asp Asn
420 425 430
Pro Ser Lys Lys Glu Gln Glu Leu Ile Ala Lys Lys Thr Glu Lys Ala
435 440 445
Lys Tyr Leu Ser Leu Glu Thr Ile Lys Leu Ala Leu Glu Glu Phe Asn
450 455 460
Lys His Arg Asp Ile Asp Lys Gln Cys Arg Phe Glu Glu Ile Leu Ala
465 470 475 480
Asn Phe Ala Ala Ile Pro Met Ile Phe Asp Glu Ile Ala Gln Asn Lys
485 490 495
Asp Asn Leu Ala Gln Ile Ser Ile Lys Tyr Gln Asn Gln Gly Lys Lys
500 505 510
Asp Leu Leu Gln Ala Ser Ala Glu Asp Asp Val Lys Ala Ile Lys Asp
515 520 525
Leu Leu Asp Gln Thr Asn Asn Leu Leu His Lys Leu Lys Ile Phe His
530 535 540
Ile Ser Gln Ser Glu Asp Lys Ala Asn Ile Leu Asp Lys Asp Glu His
545 550 555 560
Phe Tyr Leu Val Phe Glu Glu Cys Tyr Phe Glu Leu Ala Asn Ile Val
565 570 575
Pro Leu Tyr Asn Lys Ile Arg Asn Tyr Ile Thr Gln Lys Pro Tyr Ser
580 585 590
Asp Glu Lys Phe Lys Leu Asn Phe Glu Asn Ser Thr Leu Ala Asn Gly
595 600 605
Trp Asp Lys Asn Lys Glu Pro Asp Asn Thr Ala Ile Leu Phe Ile Lys
610 615 620
Asp Asp Lys Tyr Tyr Leu Gly Val Met Asn Lys Lys Asn Asn Lys Ile
625 630 635 640
Phe Asp Asp Lys Ala Ile Lys Glu Asn Lys Gly Glu Gly Tyr Lys Lys
645 650 655
Ile Val Tyr Lys Leu Leu Pro Gly Ala Asn Lys Met Leu Pro Lys Val
660 665 670
Phe Phe Ser Ala Lys Ser Ile Lys Phe Tyr Asn Pro Ser Glu Asp Ile
675 680 685
Leu Arg Ile Arg Asn His Ser Thr His Thr Lys Asn Gly Ser Pro Gln
690 695 700
Lys Gly Tyr Glu Lys Phe Glu Phe Asn Ile Glu Asp Cys Arg Lys Phe
705 710 715 720
Ile Asp Phe Tyr Lys Gln Ser Ile Ser Lys His Pro Glu Trp Lys Asp
725 730 735
Phe Gly Phe Arg Phe Ser Asp Thr Gln Arg Tyr Asn Ser Ile Asp Glu
740 745 750
Phe Tyr Arg Glu Val Glu Asn Gln Gly Tyr Lys Leu Thr Phe Glu Asn
755 760 765
Ile Ser Glu Ser Tyr Ile Asp Ser Val Val Asn Gln Gly Lys Leu Tyr
770 775 780
Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ser Ala Tyr Ser Lys Gly Arg
785 790 795 800
Pro Asn Leu His Thr Leu Tyr Trp Lys Ala Leu Phe Asp Glu Arg Asn
805 810 815
Leu Gln Asp Val Val Tyr Lys Leu Asn Gly Glu Ala Glu Leu Phe Tyr
820 825 830
Arg Lys Gln Ser Ile Pro Lys Lys Ile Thr His Pro Ala Lys Glu Ala
835 840 845
Ile Ala Asn Lys Asn Lys Asp Asn Pro Lys Lys Glu Ser Val Phe Glu
850 855 860
Tyr Asp Leu Ile Lys Asp Lys Arg Phe Thr Glu Asp Lys Phe Phe Phe
865 870 875 880
His Cys Pro Ile Thr Ile Asn Phe Lys Ser Ser Gly Ala Asn Lys Phe
885 890 895
Asn Asp Glu Ile Asn Leu Leu Leu Lys Glu Lys Ala Asn Asp Val His
900 905 910
Ile Leu Ser Ile Asp Arg Gly Glu Arg His Leu Ala Tyr Tyr Thr Leu
915 920 925
Val Asp Gly Lys Gly Asn Ile Ile Lys Gln Asp Thr Phe Asn Ile Ile
930 935 940
Gly Asn Asp Arg Met Lys Thr Asn Tyr His Asp Lys Leu Ala Ala Ile
945 950 955 960
Glu Lys Asp Arg Asp Ser Ala Arg Lys Asp Trp Lys Lys Ile Asn Asn
965 970 975
Ile Lys Glu Met Lys Glu Gly Tyr Leu Ser Gln Val Val His Glu Ile
980 985 990
Ala Lys Leu Val Ile Glu Tyr Asn Ala Ile Val Val Phe Glu Asp Leu
995 1000 1005
Asn Phe Gly Phe Lys Arg Gly Arg Phe Lys Val Glu Lys Gln Val
1010 1015 1020
Tyr Gln Lys Leu Glu Lys Met Leu Ile Glu Lys Leu Asn Tyr Leu
1025 1030 1035
Val Phe Lys Asp Asn Glu Phe Asp Lys Thr Gly Gly Val Leu Arg
1040 1045 1050
Ala Tyr Gln Leu Thr Ala Pro Phe Glu Thr Phe Lys Lys Met Gly
1055 1060 1065
Lys Gln Thr Gly Ile Ile Tyr Tyr Val Pro Ala Gly Phe Thr Ser
1070 1075 1080
Lys Ile Cys Pro Val Thr Gly Phe Val Asn Gln Leu Tyr Pro Lys
1085 1090 1095
Tyr Glu Ser Val Ser Lys Ser Gln Glu Phe Phe Ser Lys Phe Asp
1100 1105 1110
Lys Ile Cys Tyr Asn Leu Asp Lys Gly Tyr Phe Glu Phe Ser Phe
1115 1120 1125
Asp Tyr Lys Asn Phe Gly Asp Lys Ala Ala Lys Gly Lys Trp Thr
1130 1135 1140
Ile Ala Ser Phe Gly Ser Arg Leu Ile Asn Phe Arg Asn Ser Asp
1145 1150 1155
Lys Asn His Asn Trp Asp Thr Arg Glu Val Tyr Pro Thr Lys Glu
1160 1165 1170
Leu Glu Lys Leu Leu Lys Asp Tyr Ser Ile Glu Tyr Gly His Gly
1175 1180 1185
Glu Cys Ile Lys Ala Ala Ile Cys Gly Glu Ser Asp Lys Lys Phe
1190 1195 1200
Phe Ala Lys Leu Thr Ser Val Leu Asn Thr Ile Leu Gln Met Arg
1205 1210 1215
Asn Ser Lys Thr Gly Thr Glu Leu Asp Tyr Leu Ile Ser Pro Val
1220 1225 1230
Ala Asp Val Asn Gly Asn Phe Phe Asp Ser Arg Gln Ala Pro Lys
1235 1240 1245
Asn Met Pro Gln Asp Ala Ala Ala Asn Gly Ala Tyr His Ile Gly
1250 1255 1260
Leu Lys Gly Leu Met Leu Leu Gly Arg Ile Lys Asn Asn Gln Glu
1265 1270 1275
Gly Lys Lys Leu Asn Leu Val Ile Lys Asn Glu Glu Tyr Phe Glu
1280 1285 1290
Phe Val Gln Asn Arg Asn Asn
1295 1300
<210> 71
<211> 1300
<212> PRT
<213> Francisella novicida
<400> 71
Met Ser Ile Tyr Gln Glu Phe Val Asn Lys Tyr Ser Leu Ser Lys Thr
1 5 10 15
Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Glu Asn Ile Lys
20 25 30
Ala Arg Gly Leu Ile Leu Asp Asp Glu Lys Arg Ala Lys Asp Tyr Lys
35 40 45
Lys Ala Lys Gln Ile Ile Asp Lys Tyr His Gln Phe Phe Ile Glu Glu
50 55 60
Ile Leu Ser Ser Val Cys Ile Ser Glu Asp Leu Leu Gln Asn Tyr Ser
65 70 75 80
Asp Val Tyr Phe Lys Leu Lys Lys Ser Asp Asp Asp Asn Leu Gln Lys
85 90 95
Asp Phe Lys Ser Ala Lys Asp Thr Ile Lys Lys Gln Ile Ser Glu Tyr
100 105 110
Ile Lys Asp Ser Glu Lys Phe Lys Asn Leu Phe Asn Gln Asn Leu Ile
115 120 125
Asp Ala Lys Lys Gly Gln Glu Ser Asp Leu Ile Leu Trp Leu Lys Gln
130 135 140
Ser Lys Asp Asn Gly Ile Glu Leu Phe Lys Ala Asn Ser Asp Ile Thr
145 150 155 160
Asp Ile Asp Glu Ala Leu Glu Ile Ile Lys Ser Phe Lys Gly Trp Thr
165 170 175
Thr Tyr Phe Lys Gly Phe His Glu Asn Arg Lys Asn Val Tyr Ser Ser
180 185 190
Asn Asp Ile Pro Thr Ser Ile Ile Tyr Arg Ile Val Asp Asp Asn Leu
195 200 205
Pro Lys Phe Leu Glu Asn Lys Ala Lys Tyr Glu Ser Leu Lys Asp Lys
210 215 220
Ala Pro Glu Ala Ile Asn Tyr Glu Gln Ile Lys Lys Asp Leu Ala Glu
225 230 235 240
Glu Leu Thr Phe Asp Ile Asp Tyr Lys Thr Ser Glu Val Asn Gln Arg
245 250 255
Val Phe Ser Leu Asp Glu Val Phe Glu Ile Ala Asn Phe Asn Asn Tyr
260 265 270
Leu Asn Gln Ser Gly Ile Thr Lys Phe Asn Thr Ile Ile Gly Gly Lys
275 280 285
Phe Val Asn Gly Glu Asn Thr Lys Arg Lys Gly Ile Asn Glu Tyr Ile
290 295 300
Asn Leu Tyr Ser Gln Gln Ile Asn Asp Lys Thr Leu Lys Lys Tyr Lys
305 310 315 320
Met Ser Val Leu Phe Lys Gln Ile Leu Ser Asp Thr Glu Ser Lys Ser
325 330 335
Phe Val Ile Asp Lys Leu Glu Asp Asp Ser Asp Val Val Thr Thr Met
340 345 350
Gln Ser Phe Tyr Glu Gln Ile Ala Ala Phe Lys Thr Val Glu Glu Lys
355 360 365
Ser Ile Lys Glu Thr Leu Ser Leu Leu Phe Asp Asp Leu Lys Ala Gln
370 375 380
Lys Leu Asp Leu Ser Lys Ile Tyr Phe Lys Asn Asp Lys Ser Leu Thr
385 390 395 400
Asp Leu Ser Gln Gln Val Phe Asp Asp Tyr Ser Val Ile Gly Thr Ala
405 410 415
Val Leu Glu Tyr Ile Thr Gln Gln Ile Ala Pro Lys Asn Leu Asp Asn
420 425 430
Pro Ser Lys Lys Glu Gln Glu Leu Ile Ala Lys Lys Thr Glu Lys Ala
435 440 445
Lys Tyr Leu Ser Leu Glu Thr Ile Lys Leu Ala Leu Glu Glu Phe Asn
450 455 460
Lys His Arg Asp Ile Asp Lys Gln Cys Arg Phe Glu Glu Ile Leu Ala
465 470 475 480
Asn Phe Ala Ala Ile Pro Met Ile Phe Asp Glu Ile Ala Gln Asn Lys
485 490 495
Asp Asn Leu Ala Gln Ile Ser Ile Lys Tyr Gln Asn Gln Gly Lys Lys
500 505 510
Asp Leu Leu Gln Ala Ser Ala Glu Asp Asp Val Lys Ala Ile Lys Asp
515 520 525
Leu Leu Asp Gln Thr Asn Asn Leu Leu His Lys Leu Lys Ile Phe His
530 535 540
Ile Ser Gln Ser Glu Asp Lys Ala Asn Ile Leu Asp Lys Asp Glu His
545 550 555 560
Phe Tyr Leu Val Phe Glu Glu Cys Tyr Phe Glu Leu Ala Asn Ile Val
565 570 575
Pro Leu Tyr Asn Lys Ile Arg Asn Tyr Ile Thr Gln Lys Pro Tyr Ser
580 585 590
Asp Glu Lys Phe Lys Leu Asn Phe Glu Asn Ser Thr Leu Ala Asn Gly
595 600 605
Trp Asp Lys Asn Lys Glu Pro Asp Asn Thr Ala Ile Leu Phe Ile Lys
610 615 620
Asp Asp Lys Tyr Tyr Leu Gly Val Met Asn Lys Lys Asn Asn Lys Ile
625 630 635 640
Phe Asp Asp Lys Ala Ile Lys Glu Asn Lys Gly Glu Gly Tyr Lys Lys
645 650 655
Ile Val Tyr Lys Leu Leu Pro Gly Ala Asn Lys Met Leu Pro Lys Val
660 665 670
Phe Phe Ser Ala Lys Ser Ile Lys Phe Tyr Asn Pro Ser Glu Asp Ile
675 680 685
Leu Arg Ile Arg Asn His Ser Thr His Thr Lys Asn Gly Ser Pro Gln
690 695 700
Lys Gly Tyr Glu Lys Phe Glu Phe Asn Ile Glu Asp Cys Arg Lys Phe
705 710 715 720
Ile Asp Phe Tyr Lys Gln Ser Ile Ser Lys His Pro Glu Trp Lys Asp
725 730 735
Phe Gly Phe Arg Phe Ser Asp Thr Gln Arg Tyr Asn Ser Ile Asp Glu
740 745 750
Phe Tyr Arg Glu Val Glu Asn Gln Gly Tyr Lys Leu Thr Phe Glu Asn
755 760 765
Ile Ser Glu Ser Tyr Ile Asp Ser Val Val Asn Gln Gly Lys Leu Tyr
770 775 780
Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ser Ala Tyr Ser Lys Gly Arg
785 790 795 800
Pro Asn Leu His Thr Leu Tyr Trp Lys Ala Leu Phe Asp Glu Arg Asn
805 810 815
Leu Gln Asp Val Val Tyr Lys Leu Asn Gly Glu Ala Glu Leu Phe Tyr
820 825 830
Arg Lys Gln Ser Ile Pro Lys Lys Ile Thr His Pro Ala Lys Glu Ala
835 840 845
Ile Ala Asn Lys Asn Lys Asp Asn Pro Lys Lys Glu Ser Val Phe Glu
850 855 860
Tyr Asp Leu Ile Lys Asp Lys Arg Phe Thr Glu Asp Lys Phe Phe Phe
865 870 875 880
His Cys Pro Ile Thr Ile Asn Phe Lys Ser Ser Gly Ala Asn Lys Phe
885 890 895
Asn Asp Glu Ile Asn Leu Leu Leu Lys Glu Lys Ala Asn Asp Val His
900 905 910
Ile Leu Ser Ile Ala Arg Gly Glu Arg His Leu Ala Tyr Tyr Thr Leu
915 920 925
Val Asp Gly Lys Gly Asn Ile Ile Lys Gln Asp Thr Phe Asn Ile Ile
930 935 940
Gly Asn Asp Arg Met Lys Thr Asn Tyr His Asp Lys Leu Ala Ala Ile
945 950 955 960
Glu Lys Asp Arg Asp Ser Ala Arg Lys Asp Trp Lys Lys Ile Asn Asn
965 970 975
Ile Lys Glu Met Lys Glu Gly Tyr Leu Ser Gln Val Val His Glu Ile
980 985 990
Ala Lys Leu Val Ile Glu Tyr Asn Ala Ile Val Val Phe Ala Asp Leu
995 1000 1005
Asn Phe Gly Phe Lys Arg Gly Arg Phe Lys Val Glu Lys Gln Val
1010 1015 1020
Tyr Gln Lys Leu Glu Lys Met Leu Ile Glu Lys Leu Asn Tyr Leu
1025 1030 1035
Val Phe Lys Asp Asn Glu Phe Asp Lys Thr Gly Gly Val Leu Arg
1040 1045 1050
Ala Tyr Gln Leu Thr Ala Pro Phe Glu Thr Phe Lys Lys Met Gly
1055 1060 1065
Lys Gln Thr Gly Ile Ile Tyr Tyr Val Pro Ala Gly Phe Thr Ser
1070 1075 1080
Lys Ile Cys Pro Val Thr Gly Phe Val Asn Gln Leu Tyr Pro Lys
1085 1090 1095
Tyr Glu Ser Val Ser Lys Ser Gln Glu Phe Phe Ser Lys Phe Asp
1100 1105 1110
Lys Ile Cys Tyr Asn Leu Asp Lys Gly Tyr Phe Glu Phe Ser Phe
1115 1120 1125
Asp Tyr Lys Asn Phe Gly Asp Lys Ala Ala Lys Gly Lys Trp Thr
1130 1135 1140
Ile Ala Ser Phe Gly Ser Arg Leu Ile Asn Phe Arg Asn Ser Asp
1145 1150 1155
Lys Asn His Asn Trp Asp Thr Arg Glu Val Tyr Pro Thr Lys Glu
1160 1165 1170
Leu Glu Lys Leu Leu Lys Asp Tyr Ser Ile Glu Tyr Gly His Gly
1175 1180 1185
Glu Cys Ile Lys Ala Ala Ile Cys Gly Glu Ser Asp Lys Lys Phe
1190 1195 1200
Phe Ala Lys Leu Thr Ser Val Leu Asn Thr Ile Leu Gln Met Arg
1205 1210 1215
Asn Ser Lys Thr Gly Thr Glu Leu Asp Tyr Leu Ile Ser Pro Val
1220 1225 1230
Ala Asp Val Asn Gly Asn Phe Phe Asp Ser Arg Gln Ala Pro Lys
1235 1240 1245
Asn Met Pro Gln Asp Ala Asp Ala Asn Gly Ala Tyr His Ile Gly
1250 1255 1260
Leu Lys Gly Leu Met Leu Leu Gly Arg Ile Lys Asn Asn Gln Glu
1265 1270 1275
Gly Lys Lys Leu Asn Leu Val Ile Lys Asn Glu Glu Tyr Phe Glu
1280 1285 1290
Phe Val Gln Asn Arg Asn Asn
1295 1300
<210> 72
<211> 1300
<212> PRT
<213> Francisella novicida
<400> 72
Met Ser Ile Tyr Gln Glu Phe Val Asn Lys Tyr Ser Leu Ser Lys Thr
1 5 10 15
Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Glu Asn Ile Lys
20 25 30
Ala Arg Gly Leu Ile Leu Asp Asp Glu Lys Arg Ala Lys Asp Tyr Lys
35 40 45
Lys Ala Lys Gln Ile Ile Asp Lys Tyr His Gln Phe Phe Ile Glu Glu
50 55 60
Ile Leu Ser Ser Val Cys Ile Ser Glu Asp Leu Leu Gln Asn Tyr Ser
65 70 75 80
Asp Val Tyr Phe Lys Leu Lys Lys Ser Asp Asp Asp Asn Leu Gln Lys
85 90 95
Asp Phe Lys Ser Ala Lys Asp Thr Ile Lys Lys Gln Ile Ser Glu Tyr
100 105 110
Ile Lys Asp Ser Glu Lys Phe Lys Asn Leu Phe Asn Gln Asn Leu Ile
115 120 125
Asp Ala Lys Lys Gly Gln Glu Ser Asp Leu Ile Leu Trp Leu Lys Gln
130 135 140
Ser Lys Asp Asn Gly Ile Glu Leu Phe Lys Ala Asn Ser Asp Ile Thr
145 150 155 160
Asp Ile Asp Glu Ala Leu Glu Ile Ile Lys Ser Phe Lys Gly Trp Thr
165 170 175
Thr Tyr Phe Lys Gly Phe His Glu Asn Arg Lys Asn Val Tyr Ser Ser
180 185 190
Asn Asp Ile Pro Thr Ser Ile Ile Tyr Arg Ile Val Asp Asp Asn Leu
195 200 205
Pro Lys Phe Leu Glu Asn Lys Ala Lys Tyr Glu Ser Leu Lys Asp Lys
210 215 220
Ala Pro Glu Ala Ile Asn Tyr Glu Gln Ile Lys Lys Asp Leu Ala Glu
225 230 235 240
Glu Leu Thr Phe Asp Ile Asp Tyr Lys Thr Ser Glu Val Asn Gln Arg
245 250 255
Val Phe Ser Leu Asp Glu Val Phe Glu Ile Ala Asn Phe Asn Asn Tyr
260 265 270
Leu Asn Gln Ser Gly Ile Thr Lys Phe Asn Thr Ile Ile Gly Gly Lys
275 280 285
Phe Val Asn Gly Glu Asn Thr Lys Arg Lys Gly Ile Asn Glu Tyr Ile
290 295 300
Asn Leu Tyr Ser Gln Gln Ile Asn Asp Lys Thr Leu Lys Lys Tyr Lys
305 310 315 320
Met Ser Val Leu Phe Lys Gln Ile Leu Ser Asp Thr Glu Ser Lys Ser
325 330 335
Phe Val Ile Asp Lys Leu Glu Asp Asp Ser Asp Val Val Thr Thr Met
340 345 350
Gln Ser Phe Tyr Glu Gln Ile Ala Ala Phe Lys Thr Val Glu Glu Lys
355 360 365
Ser Ile Lys Glu Thr Leu Ser Leu Leu Phe Asp Asp Leu Lys Ala Gln
370 375 380
Lys Leu Asp Leu Ser Lys Ile Tyr Phe Lys Asn Asp Lys Ser Leu Thr
385 390 395 400
Asp Leu Ser Gln Gln Val Phe Asp Asp Tyr Ser Val Ile Gly Thr Ala
405 410 415
Val Leu Glu Tyr Ile Thr Gln Gln Ile Ala Pro Lys Asn Leu Asp Asn
420 425 430
Pro Ser Lys Lys Glu Gln Glu Leu Ile Ala Lys Lys Thr Glu Lys Ala
435 440 445
Lys Tyr Leu Ser Leu Glu Thr Ile Lys Leu Ala Leu Glu Glu Phe Asn
450 455 460
Lys His Arg Asp Ile Asp Lys Gln Cys Arg Phe Glu Glu Ile Leu Ala
465 470 475 480
Asn Phe Ala Ala Ile Pro Met Ile Phe Asp Glu Ile Ala Gln Asn Lys
485 490 495
Asp Asn Leu Ala Gln Ile Ser Ile Lys Tyr Gln Asn Gln Gly Lys Lys
500 505 510
Asp Leu Leu Gln Ala Ser Ala Glu Asp Asp Val Lys Ala Ile Lys Asp
515 520 525
Leu Leu Asp Gln Thr Asn Asn Leu Leu His Lys Leu Lys Ile Phe His
530 535 540
Ile Ser Gln Ser Glu Asp Lys Ala Asn Ile Leu Asp Lys Asp Glu His
545 550 555 560
Phe Tyr Leu Val Phe Glu Glu Cys Tyr Phe Glu Leu Ala Asn Ile Val
565 570 575
Pro Leu Tyr Asn Lys Ile Arg Asn Tyr Ile Thr Gln Lys Pro Tyr Ser
580 585 590
Asp Glu Lys Phe Lys Leu Asn Phe Glu Asn Ser Thr Leu Ala Asn Gly
595 600 605
Trp Asp Lys Asn Lys Glu Pro Asp Asn Thr Ala Ile Leu Phe Ile Lys
610 615 620
Asp Asp Lys Tyr Tyr Leu Gly Val Met Asn Lys Lys Asn Asn Lys Ile
625 630 635 640
Phe Asp Asp Lys Ala Ile Lys Glu Asn Lys Gly Glu Gly Tyr Lys Lys
645 650 655
Ile Val Tyr Lys Leu Leu Pro Gly Ala Asn Lys Met Leu Pro Lys Val
660 665 670
Phe Phe Ser Ala Lys Ser Ile Lys Phe Tyr Asn Pro Ser Glu Asp Ile
675 680 685
Leu Arg Ile Arg Asn His Ser Thr His Thr Lys Asn Gly Ser Pro Gln
690 695 700
Lys Gly Tyr Glu Lys Phe Glu Phe Asn Ile Glu Asp Cys Arg Lys Phe
705 710 715 720
Ile Asp Phe Tyr Lys Gln Ser Ile Ser Lys His Pro Glu Trp Lys Asp
725 730 735
Phe Gly Phe Arg Phe Ser Asp Thr Gln Arg Tyr Asn Ser Ile Asp Glu
740 745 750
Phe Tyr Arg Glu Val Glu Asn Gln Gly Tyr Lys Leu Thr Phe Glu Asn
755 760 765
Ile Ser Glu Ser Tyr Ile Asp Ser Val Val Asn Gln Gly Lys Leu Tyr
770 775 780
Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ser Ala Tyr Ser Lys Gly Arg
785 790 795 800
Pro Asn Leu His Thr Leu Tyr Trp Lys Ala Leu Phe Asp Glu Arg Asn
805 810 815
Leu Gln Asp Val Val Tyr Lys Leu Asn Gly Glu Ala Glu Leu Phe Tyr
820 825 830
Arg Lys Gln Ser Ile Pro Lys Lys Ile Thr His Pro Ala Lys Glu Ala
835 840 845
Ile Ala Asn Lys Asn Lys Asp Asn Pro Lys Lys Glu Ser Val Phe Glu
850 855 860
Tyr Asp Leu Ile Lys Asp Lys Arg Phe Thr Glu Asp Lys Phe Phe Phe
865 870 875 880
His Cys Pro Ile Thr Ile Asn Phe Lys Ser Ser Gly Ala Asn Lys Phe
885 890 895
Asn Asp Glu Ile Asn Leu Leu Leu Lys Glu Lys Ala Asn Asp Val His
900 905 910
Ile Leu Ser Ile Ala Arg Gly Glu Arg His Leu Ala Tyr Tyr Thr Leu
915 920 925
Val Asp Gly Lys Gly Asn Ile Ile Lys Gln Asp Thr Phe Asn Ile Ile
930 935 940
Gly Asn Asp Arg Met Lys Thr Asn Tyr His Asp Lys Leu Ala Ala Ile
945 950 955 960
Glu Lys Asp Arg Asp Ser Ala Arg Lys Asp Trp Lys Lys Ile Asn Asn
965 970 975
Ile Lys Glu Met Lys Glu Gly Tyr Leu Ser Gln Val Val His Glu Ile
980 985 990
Ala Lys Leu Val Ile Glu Tyr Asn Ala Ile Val Val Phe Glu Asp Leu
995 1000 1005
Asn Phe Gly Phe Lys Arg Gly Arg Phe Lys Val Glu Lys Gln Val
1010 1015 1020
Tyr Gln Lys Leu Glu Lys Met Leu Ile Glu Lys Leu Asn Tyr Leu
1025 1030 1035
Val Phe Lys Asp Asn Glu Phe Asp Lys Thr Gly Gly Val Leu Arg
1040 1045 1050
Ala Tyr Gln Leu Thr Ala Pro Phe Glu Thr Phe Lys Lys Met Gly
1055 1060 1065
Lys Gln Thr Gly Ile Ile Tyr Tyr Val Pro Ala Gly Phe Thr Ser
1070 1075 1080
Lys Ile Cys Pro Val Thr Gly Phe Val Asn Gln Leu Tyr Pro Lys
1085 1090 1095
Tyr Glu Ser Val Ser Lys Ser Gln Glu Phe Phe Ser Lys Phe Asp
1100 1105 1110
Lys Ile Cys Tyr Asn Leu Asp Lys Gly Tyr Phe Glu Phe Ser Phe
1115 1120 1125
Asp Tyr Lys Asn Phe Gly Asp Lys Ala Ala Lys Gly Lys Trp Thr
1130 1135 1140
Ile Ala Ser Phe Gly Ser Arg Leu Ile Asn Phe Arg Asn Ser Asp
1145 1150 1155
Lys Asn His Asn Trp Asp Thr Arg Glu Val Tyr Pro Thr Lys Glu
1160 1165 1170
Leu Glu Lys Leu Leu Lys Asp Tyr Ser Ile Glu Tyr Gly His Gly
1175 1180 1185
Glu Cys Ile Lys Ala Ala Ile Cys Gly Glu Ser Asp Lys Lys Phe
1190 1195 1200
Phe Ala Lys Leu Thr Ser Val Leu Asn Thr Ile Leu Gln Met Arg
1205 1210 1215
Asn Ser Lys Thr Gly Thr Glu Leu Asp Tyr Leu Ile Ser Pro Val
1220 1225 1230
Ala Asp Val Asn Gly Asn Phe Phe Asp Ser Arg Gln Ala Pro Lys
1235 1240 1245
Asn Met Pro Gln Asp Ala Ala Ala Asn Gly Ala Tyr His Ile Gly
1250 1255 1260
Leu Lys Gly Leu Met Leu Leu Gly Arg Ile Lys Asn Asn Gln Glu
1265 1270 1275
Gly Lys Lys Leu Asn Leu Val Ile Lys Asn Glu Glu Tyr Phe Glu
1280 1285 1290
Phe Val Gln Asn Arg Asn Asn
1295 1300
<210> 73
<211> 1300
<212> PRT
<213> Francisella novicida
<400> 73
Met Ser Ile Tyr Gln Glu Phe Val Asn Lys Tyr Ser Leu Ser Lys Thr
1 5 10 15
Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Glu Asn Ile Lys
20 25 30
Ala Arg Gly Leu Ile Leu Asp Asp Glu Lys Arg Ala Lys Asp Tyr Lys
35 40 45
Lys Ala Lys Gln Ile Ile Asp Lys Tyr His Gln Phe Phe Ile Glu Glu
50 55 60
Ile Leu Ser Ser Val Cys Ile Ser Glu Asp Leu Leu Gln Asn Tyr Ser
65 70 75 80
Asp Val Tyr Phe Lys Leu Lys Lys Ser Asp Asp Asp Asn Leu Gln Lys
85 90 95
Asp Phe Lys Ser Ala Lys Asp Thr Ile Lys Lys Gln Ile Ser Glu Tyr
100 105 110
Ile Lys Asp Ser Glu Lys Phe Lys Asn Leu Phe Asn Gln Asn Leu Ile
115 120 125
Asp Ala Lys Lys Gly Gln Glu Ser Asp Leu Ile Leu Trp Leu Lys Gln
130 135 140
Ser Lys Asp Asn Gly Ile Glu Leu Phe Lys Ala Asn Ser Asp Ile Thr
145 150 155 160
Asp Ile Asp Glu Ala Leu Glu Ile Ile Lys Ser Phe Lys Gly Trp Thr
165 170 175
Thr Tyr Phe Lys Gly Phe His Glu Asn Arg Lys Asn Val Tyr Ser Ser
180 185 190
Asn Asp Ile Pro Thr Ser Ile Ile Tyr Arg Ile Val Asp Asp Asn Leu
195 200 205
Pro Lys Phe Leu Glu Asn Lys Ala Lys Tyr Glu Ser Leu Lys Asp Lys
210 215 220
Ala Pro Glu Ala Ile Asn Tyr Glu Gln Ile Lys Lys Asp Leu Ala Glu
225 230 235 240
Glu Leu Thr Phe Asp Ile Asp Tyr Lys Thr Ser Glu Val Asn Gln Arg
245 250 255
Val Phe Ser Leu Asp Glu Val Phe Glu Ile Ala Asn Phe Asn Asn Tyr
260 265 270
Leu Asn Gln Ser Gly Ile Thr Lys Phe Asn Thr Ile Ile Gly Gly Lys
275 280 285
Phe Val Asn Gly Glu Asn Thr Lys Arg Lys Gly Ile Asn Glu Tyr Ile
290 295 300
Asn Leu Tyr Ser Gln Gln Ile Asn Asp Lys Thr Leu Lys Lys Tyr Lys
305 310 315 320
Met Ser Val Leu Phe Lys Gln Ile Leu Ser Asp Thr Glu Ser Lys Ser
325 330 335
Phe Val Ile Asp Lys Leu Glu Asp Asp Ser Asp Val Val Thr Thr Met
340 345 350
Gln Ser Phe Tyr Glu Gln Ile Ala Ala Phe Lys Thr Val Glu Glu Lys
355 360 365
Ser Ile Lys Glu Thr Leu Ser Leu Leu Phe Asp Asp Leu Lys Ala Gln
370 375 380
Lys Leu Asp Leu Ser Lys Ile Tyr Phe Lys Asn Asp Lys Ser Leu Thr
385 390 395 400
Asp Leu Ser Gln Gln Val Phe Asp Asp Tyr Ser Val Ile Gly Thr Ala
405 410 415
Val Leu Glu Tyr Ile Thr Gln Gln Ile Ala Pro Lys Asn Leu Asp Asn
420 425 430
Pro Ser Lys Lys Glu Gln Glu Leu Ile Ala Lys Lys Thr Glu Lys Ala
435 440 445
Lys Tyr Leu Ser Leu Glu Thr Ile Lys Leu Ala Leu Glu Glu Phe Asn
450 455 460
Lys His Arg Asp Ile Asp Lys Gln Cys Arg Phe Glu Glu Ile Leu Ala
465 470 475 480
Asn Phe Ala Ala Ile Pro Met Ile Phe Asp Glu Ile Ala Gln Asn Lys
485 490 495
Asp Asn Leu Ala Gln Ile Ser Ile Lys Tyr Gln Asn Gln Gly Lys Lys
500 505 510
Asp Leu Leu Gln Ala Ser Ala Glu Asp Asp Val Lys Ala Ile Lys Asp
515 520 525
Leu Leu Asp Gln Thr Asn Asn Leu Leu His Lys Leu Lys Ile Phe His
530 535 540
Ile Ser Gln Ser Glu Asp Lys Ala Asn Ile Leu Asp Lys Asp Glu His
545 550 555 560
Phe Tyr Leu Val Phe Glu Glu Cys Tyr Phe Glu Leu Ala Asn Ile Val
565 570 575
Pro Leu Tyr Asn Lys Ile Arg Asn Tyr Ile Thr Gln Lys Pro Tyr Ser
580 585 590
Asp Glu Lys Phe Lys Leu Asn Phe Glu Asn Ser Thr Leu Ala Asn Gly
595 600 605
Trp Asp Lys Asn Lys Glu Pro Asp Asn Thr Ala Ile Leu Phe Ile Lys
610 615 620
Asp Asp Lys Tyr Tyr Leu Gly Val Met Asn Lys Lys Asn Asn Lys Ile
625 630 635 640
Phe Asp Asp Lys Ala Ile Lys Glu Asn Lys Gly Glu Gly Tyr Lys Lys
645 650 655
Ile Val Tyr Lys Leu Leu Pro Gly Ala Asn Lys Met Leu Pro Lys Val
660 665 670
Phe Phe Ser Ala Lys Ser Ile Lys Phe Tyr Asn Pro Ser Glu Asp Ile
675 680 685
Leu Arg Ile Arg Asn His Ser Thr His Thr Lys Asn Gly Ser Pro Gln
690 695 700
Lys Gly Tyr Glu Lys Phe Glu Phe Asn Ile Glu Asp Cys Arg Lys Phe
705 710 715 720
Ile Asp Phe Tyr Lys Gln Ser Ile Ser Lys His Pro Glu Trp Lys Asp
725 730 735
Phe Gly Phe Arg Phe Ser Asp Thr Gln Arg Tyr Asn Ser Ile Asp Glu
740 745 750
Phe Tyr Arg Glu Val Glu Asn Gln Gly Tyr Lys Leu Thr Phe Glu Asn
755 760 765
Ile Ser Glu Ser Tyr Ile Asp Ser Val Val Asn Gln Gly Lys Leu Tyr
770 775 780
Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ser Ala Tyr Ser Lys Gly Arg
785 790 795 800
Pro Asn Leu His Thr Leu Tyr Trp Lys Ala Leu Phe Asp Glu Arg Asn
805 810 815
Leu Gln Asp Val Val Tyr Lys Leu Asn Gly Glu Ala Glu Leu Phe Tyr
820 825 830
Arg Lys Gln Ser Ile Pro Lys Lys Ile Thr His Pro Ala Lys Glu Ala
835 840 845
Ile Ala Asn Lys Asn Lys Asp Asn Pro Lys Lys Glu Ser Val Phe Glu
850 855 860
Tyr Asp Leu Ile Lys Asp Lys Arg Phe Thr Glu Asp Lys Phe Phe Phe
865 870 875 880
His Cys Pro Ile Thr Ile Asn Phe Lys Ser Ser Gly Ala Asn Lys Phe
885 890 895
Asn Asp Glu Ile Asn Leu Leu Leu Lys Glu Lys Ala Asn Asp Val His
900 905 910
Ile Leu Ser Ile Asp Arg Gly Glu Arg His Leu Ala Tyr Tyr Thr Leu
915 920 925
Val Asp Gly Lys Gly Asn Ile Ile Lys Gln Asp Thr Phe Asn Ile Ile
930 935 940
Gly Asn Asp Arg Met Lys Thr Asn Tyr His Asp Lys Leu Ala Ala Ile
945 950 955 960
Glu Lys Asp Arg Asp Ser Ala Arg Lys Asp Trp Lys Lys Ile Asn Asn
965 970 975
Ile Lys Glu Met Lys Glu Gly Tyr Leu Ser Gln Val Val His Glu Ile
980 985 990
Ala Lys Leu Val Ile Glu Tyr Asn Ala Ile Val Val Phe Ala Asp Leu
995 1000 1005
Asn Phe Gly Phe Lys Arg Gly Arg Phe Lys Val Glu Lys Gln Val
1010 1015 1020
Tyr Gln Lys Leu Glu Lys Met Leu Ile Glu Lys Leu Asn Tyr Leu
1025 1030 1035
Val Phe Lys Asp Asn Glu Phe Asp Lys Thr Gly Gly Val Leu Arg
1040 1045 1050
Ala Tyr Gln Leu Thr Ala Pro Phe Glu Thr Phe Lys Lys Met Gly
1055 1060 1065
Lys Gln Thr Gly Ile Ile Tyr Tyr Val Pro Ala Gly Phe Thr Ser
1070 1075 1080
Lys Ile Cys Pro Val Thr Gly Phe Val Asn Gln Leu Tyr Pro Lys
1085 1090 1095
Tyr Glu Ser Val Ser Lys Ser Gln Glu Phe Phe Ser Lys Phe Asp
1100 1105 1110
Lys Ile Cys Tyr Asn Leu Asp Lys Gly Tyr Phe Glu Phe Ser Phe
1115 1120 1125
Asp Tyr Lys Asn Phe Gly Asp Lys Ala Ala Lys Gly Lys Trp Thr
1130 1135 1140
Ile Ala Ser Phe Gly Ser Arg Leu Ile Asn Phe Arg Asn Ser Asp
1145 1150 1155
Lys Asn His Asn Trp Asp Thr Arg Glu Val Tyr Pro Thr Lys Glu
1160 1165 1170
Leu Glu Lys Leu Leu Lys Asp Tyr Ser Ile Glu Tyr Gly His Gly
1175 1180 1185
Glu Cys Ile Lys Ala Ala Ile Cys Gly Glu Ser Asp Lys Lys Phe
1190 1195 1200
Phe Ala Lys Leu Thr Ser Val Leu Asn Thr Ile Leu Gln Met Arg
1205 1210 1215
Asn Ser Lys Thr Gly Thr Glu Leu Asp Tyr Leu Ile Ser Pro Val
1220 1225 1230
Ala Asp Val Asn Gly Asn Phe Phe Asp Ser Arg Gln Ala Pro Lys
1235 1240 1245
Asn Met Pro Gln Asp Ala Ala Ala Asn Gly Ala Tyr His Ile Gly
1250 1255 1260
Leu Lys Gly Leu Met Leu Leu Gly Arg Ile Lys Asn Asn Gln Glu
1265 1270 1275
Gly Lys Lys Leu Asn Leu Val Ile Lys Asn Glu Glu Tyr Phe Glu
1280 1285 1290
Phe Val Gln Asn Arg Asn Asn
1295 1300
<210> 74
<211> 1300
<212> PRT
<213> Francisella novicida
<400> 74
Met Ser Ile Tyr Gln Glu Phe Val Asn Lys Tyr Ser Leu Ser Lys Thr
1 5 10 15
Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Glu Asn Ile Lys
20 25 30
Ala Arg Gly Leu Ile Leu Asp Asp Glu Lys Arg Ala Lys Asp Tyr Lys
35 40 45
Lys Ala Lys Gln Ile Ile Asp Lys Tyr His Gln Phe Phe Ile Glu Glu
50 55 60
Ile Leu Ser Ser Val Cys Ile Ser Glu Asp Leu Leu Gln Asn Tyr Ser
65 70 75 80
Asp Val Tyr Phe Lys Leu Lys Lys Ser Asp Asp Asp Asn Leu Gln Lys
85 90 95
Asp Phe Lys Ser Ala Lys Asp Thr Ile Lys Lys Gln Ile Ser Glu Tyr
100 105 110
Ile Lys Asp Ser Glu Lys Phe Lys Asn Leu Phe Asn Gln Asn Leu Ile
115 120 125
Asp Ala Lys Lys Gly Gln Glu Ser Asp Leu Ile Leu Trp Leu Lys Gln
130 135 140
Ser Lys Asp Asn Gly Ile Glu Leu Phe Lys Ala Asn Ser Asp Ile Thr
145 150 155 160
Asp Ile Asp Glu Ala Leu Glu Ile Ile Lys Ser Phe Lys Gly Trp Thr
165 170 175
Thr Tyr Phe Lys Gly Phe His Glu Asn Arg Lys Asn Val Tyr Ser Ser
180 185 190
Asn Asp Ile Pro Thr Ser Ile Ile Tyr Arg Ile Val Asp Asp Asn Leu
195 200 205
Pro Lys Phe Leu Glu Asn Lys Ala Lys Tyr Glu Ser Leu Lys Asp Lys
210 215 220
Ala Pro Glu Ala Ile Asn Tyr Glu Gln Ile Lys Lys Asp Leu Ala Glu
225 230 235 240
Glu Leu Thr Phe Asp Ile Asp Tyr Lys Thr Ser Glu Val Asn Gln Arg
245 250 255
Val Phe Ser Leu Asp Glu Val Phe Glu Ile Ala Asn Phe Asn Asn Tyr
260 265 270
Leu Asn Gln Ser Gly Ile Thr Lys Phe Asn Thr Ile Ile Gly Gly Lys
275 280 285
Phe Val Asn Gly Glu Asn Thr Lys Arg Lys Gly Ile Asn Glu Tyr Ile
290 295 300
Asn Leu Tyr Ser Gln Gln Ile Asn Asp Lys Thr Leu Lys Lys Tyr Lys
305 310 315 320
Met Ser Val Leu Phe Lys Gln Ile Leu Ser Asp Thr Glu Ser Lys Ser
325 330 335
Phe Val Ile Asp Lys Leu Glu Asp Asp Ser Asp Val Val Thr Thr Met
340 345 350
Gln Ser Phe Tyr Glu Gln Ile Ala Ala Phe Lys Thr Val Glu Glu Lys
355 360 365
Ser Ile Lys Glu Thr Leu Ser Leu Leu Phe Asp Asp Leu Lys Ala Gln
370 375 380
Lys Leu Asp Leu Ser Lys Ile Tyr Phe Lys Asn Asp Lys Ser Leu Thr
385 390 395 400
Asp Leu Ser Gln Gln Val Phe Asp Asp Tyr Ser Val Ile Gly Thr Ala
405 410 415
Val Leu Glu Tyr Ile Thr Gln Gln Ile Ala Pro Lys Asn Leu Asp Asn
420 425 430
Pro Ser Lys Lys Glu Gln Glu Leu Ile Ala Lys Lys Thr Glu Lys Ala
435 440 445
Lys Tyr Leu Ser Leu Glu Thr Ile Lys Leu Ala Leu Glu Glu Phe Asn
450 455 460
Lys His Arg Asp Ile Asp Lys Gln Cys Arg Phe Glu Glu Ile Leu Ala
465 470 475 480
Asn Phe Ala Ala Ile Pro Met Ile Phe Asp Glu Ile Ala Gln Asn Lys
485 490 495
Asp Asn Leu Ala Gln Ile Ser Ile Lys Tyr Gln Asn Gln Gly Lys Lys
500 505 510
Asp Leu Leu Gln Ala Ser Ala Glu Asp Asp Val Lys Ala Ile Lys Asp
515 520 525
Leu Leu Asp Gln Thr Asn Asn Leu Leu His Lys Leu Lys Ile Phe His
530 535 540
Ile Ser Gln Ser Glu Asp Lys Ala Asn Ile Leu Asp Lys Asp Glu His
545 550 555 560
Phe Tyr Leu Val Phe Glu Glu Cys Tyr Phe Glu Leu Ala Asn Ile Val
565 570 575
Pro Leu Tyr Asn Lys Ile Arg Asn Tyr Ile Thr Gln Lys Pro Tyr Ser
580 585 590
Asp Glu Lys Phe Lys Leu Asn Phe Glu Asn Ser Thr Leu Ala Asn Gly
595 600 605
Trp Asp Lys Asn Lys Glu Pro Asp Asn Thr Ala Ile Leu Phe Ile Lys
610 615 620
Asp Asp Lys Tyr Tyr Leu Gly Val Met Asn Lys Lys Asn Asn Lys Ile
625 630 635 640
Phe Asp Asp Lys Ala Ile Lys Glu Asn Lys Gly Glu Gly Tyr Lys Lys
645 650 655
Ile Val Tyr Lys Leu Leu Pro Gly Ala Asn Lys Met Leu Pro Lys Val
660 665 670
Phe Phe Ser Ala Lys Ser Ile Lys Phe Tyr Asn Pro Ser Glu Asp Ile
675 680 685
Leu Arg Ile Arg Asn His Ser Thr His Thr Lys Asn Gly Ser Pro Gln
690 695 700
Lys Gly Tyr Glu Lys Phe Glu Phe Asn Ile Glu Asp Cys Arg Lys Phe
705 710 715 720
Ile Asp Phe Tyr Lys Gln Ser Ile Ser Lys His Pro Glu Trp Lys Asp
725 730 735
Phe Gly Phe Arg Phe Ser Asp Thr Gln Arg Tyr Asn Ser Ile Asp Glu
740 745 750
Phe Tyr Arg Glu Val Glu Asn Gln Gly Tyr Lys Leu Thr Phe Glu Asn
755 760 765
Ile Ser Glu Ser Tyr Ile Asp Ser Val Val Asn Gln Gly Lys Leu Tyr
770 775 780
Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ser Ala Tyr Ser Lys Gly Arg
785 790 795 800
Pro Asn Leu His Thr Leu Tyr Trp Lys Ala Leu Phe Asp Glu Arg Asn
805 810 815
Leu Gln Asp Val Val Tyr Lys Leu Asn Gly Glu Ala Glu Leu Phe Tyr
820 825 830
Arg Lys Gln Ser Ile Pro Lys Lys Ile Thr His Pro Ala Lys Glu Ala
835 840 845
Ile Ala Asn Lys Asn Lys Asp Asn Pro Lys Lys Glu Ser Val Phe Glu
850 855 860
Tyr Asp Leu Ile Lys Asp Lys Arg Phe Thr Glu Asp Lys Phe Phe Phe
865 870 875 880
His Cys Pro Ile Thr Ile Asn Phe Lys Ser Ser Gly Ala Asn Lys Phe
885 890 895
Asn Asp Glu Ile Asn Leu Leu Leu Lys Glu Lys Ala Asn Asp Val His
900 905 910
Ile Leu Ser Ile Ala Arg Gly Glu Arg His Leu Ala Tyr Tyr Thr Leu
915 920 925
Val Asp Gly Lys Gly Asn Ile Ile Lys Gln Asp Thr Phe Asn Ile Ile
930 935 940
Gly Asn Asp Arg Met Lys Thr Asn Tyr His Asp Lys Leu Ala Ala Ile
945 950 955 960
Glu Lys Asp Arg Asp Ser Ala Arg Lys Asp Trp Lys Lys Ile Asn Asn
965 970 975
Ile Lys Glu Met Lys Glu Gly Tyr Leu Ser Gln Val Val His Glu Ile
980 985 990
Ala Lys Leu Val Ile Glu Tyr Asn Ala Ile Val Val Phe Ala Asp Leu
995 1000 1005
Asn Phe Gly Phe Lys Arg Gly Arg Phe Lys Val Glu Lys Gln Val
1010 1015 1020
Tyr Gln Lys Leu Glu Lys Met Leu Ile Glu Lys Leu Asn Tyr Leu
1025 1030 1035
Val Phe Lys Asp Asn Glu Phe Asp Lys Thr Gly Gly Val Leu Arg
1040 1045 1050
Ala Tyr Gln Leu Thr Ala Pro Phe Glu Thr Phe Lys Lys Met Gly
1055 1060 1065
Lys Gln Thr Gly Ile Ile Tyr Tyr Val Pro Ala Gly Phe Thr Ser
1070 1075 1080
Lys Ile Cys Pro Val Thr Gly Phe Val Asn Gln Leu Tyr Pro Lys
1085 1090 1095
Tyr Glu Ser Val Ser Lys Ser Gln Glu Phe Phe Ser Lys Phe Asp
1100 1105 1110
Lys Ile Cys Tyr Asn Leu Asp Lys Gly Tyr Phe Glu Phe Ser Phe
1115 1120 1125
Asp Tyr Lys Asn Phe Gly Asp Lys Ala Ala Lys Gly Lys Trp Thr
1130 1135 1140
Ile Ala Ser Phe Gly Ser Arg Leu Ile Asn Phe Arg Asn Ser Asp
1145 1150 1155
Lys Asn His Asn Trp Asp Thr Arg Glu Val Tyr Pro Thr Lys Glu
1160 1165 1170
Leu Glu Lys Leu Leu Lys Asp Tyr Ser Ile Glu Tyr Gly His Gly
1175 1180 1185
Glu Cys Ile Lys Ala Ala Ile Cys Gly Glu Ser Asp Lys Lys Phe
1190 1195 1200
Phe Ala Lys Leu Thr Ser Val Leu Asn Thr Ile Leu Gln Met Arg
1205 1210 1215
Asn Ser Lys Thr Gly Thr Glu Leu Asp Tyr Leu Ile Ser Pro Val
1220 1225 1230
Ala Asp Val Asn Gly Asn Phe Phe Asp Ser Arg Gln Ala Pro Lys
1235 1240 1245
Asn Met Pro Gln Asp Ala Ala Ala Asn Gly Ala Tyr His Ile Gly
1250 1255 1260
Leu Lys Gly Leu Met Leu Leu Gly Arg Ile Lys Asn Asn Gln Glu
1265 1270 1275
Gly Lys Lys Leu Asn Leu Val Ile Lys Asn Glu Glu Tyr Phe Glu
1280 1285 1290
Phe Val Gln Asn Arg Asn Asn
1295 1300
<210> 75
<211> 1052
<212> PRT
<213> Staphylococcus aureus
<400> 75
Lys Arg Asn Tyr Ile Leu Gly Leu Asp Ile Gly Ile Thr Ser Val Gly
1 5 10 15
Tyr Gly Ile Ile Asp Tyr Glu Thr Arg Asp Val Ile Asp Ala Gly Val
20 25 30
Arg Leu Phe Lys Glu Ala Asn Val Glu Asn Asn Glu Gly Arg Arg Ser
35 40 45
Lys Arg Gly Ala Arg Arg Leu Lys Arg Arg Arg Arg His Arg Ile Gln
50 55 60
Arg Val Lys Lys Leu Leu Phe Asp Tyr Asn Leu Leu Thr Asp His Ser
65 70 75 80
Glu Leu Ser Gly Ile Asn Pro Tyr Glu Ala Arg Val Lys Gly Leu Ser
85 90 95
Gln Lys Leu Ser Glu Glu Glu Phe Ser Ala Ala Leu Leu His Leu Ala
100 105 110
Lys Arg Arg Gly Val His Asn Val Asn Glu Val Glu Glu Asp Thr Gly
115 120 125
Asn Glu Leu Ser Thr Lys Glu Gln Ile Ser Arg Asn Ser Lys Ala Leu
130 135 140
Glu Glu Lys Tyr Val Ala Glu Leu Gln Leu Glu Arg Leu Lys Lys Asp
145 150 155 160
Gly Glu Val Arg Gly Ser Ile Asn Arg Phe Lys Thr Ser Asp Tyr Val
165 170 175
Lys Glu Ala Lys Gln Leu Leu Lys Val Gln Lys Ala Tyr His Gln Leu
180 185 190
Asp Gln Ser Phe Ile Asp Thr Tyr Ile Asp Leu Leu Glu Thr Arg Arg
195 200 205
Thr Tyr Tyr Glu Gly Pro Gly Glu Gly Ser Pro Phe Gly Trp Lys Asp
210 215 220
Ile Lys Glu Trp Tyr Glu Met Leu Met Gly His Cys Thr Tyr Phe Pro
225 230 235 240
Glu Glu Leu Arg Ser Val Lys Tyr Ala Tyr Asn Ala Asp Leu Tyr Asn
245 250 255
Ala Leu Asn Asp Leu Asn Asn Leu Val Ile Thr Arg Asp Glu Asn Glu
260 265 270
Lys Leu Glu Tyr Tyr Glu Lys Phe Gln Ile Ile Glu Asn Val Phe Lys
275 280 285
Gln Lys Lys Lys Pro Thr Leu Lys Gln Ile Ala Lys Glu Ile Leu Val
290 295 300
Asn Glu Glu Asp Ile Lys Gly Tyr Arg Val Thr Ser Thr Gly Lys Pro
305 310 315 320
Glu Phe Thr Asn Leu Lys Val Tyr His Asp Ile Lys Asp Ile Thr Ala
325 330 335
Arg Lys Glu Ile Ile Glu Asn Ala Glu Leu Leu Asp Gln Ile Ala Lys
340 345 350
Ile Leu Thr Ile Tyr Gln Ser Ser Glu Asp Ile Gln Glu Glu Leu Thr
355 360 365
Asn Leu Asn Ser Glu Leu Thr Gln Glu Glu Ile Glu Gln Ile Ser Asn
370 375 380
Leu Lys Gly Tyr Thr Gly Thr His Asn Leu Ser Leu Lys Ala Ile Asn
385 390 395 400
Leu Ile Leu Asp Glu Leu Trp His Thr Asn Asp Asn Gln Ile Ala Ile
405 410 415
Phe Asn Arg Leu Lys Leu Val Pro Lys Lys Val Asp Leu Ser Gln Gln
420 425 430
Lys Glu Ile Pro Thr Thr Leu Val Asp Asp Phe Ile Leu Ser Pro Val
435 440 445
Val Lys Arg Ser Phe Ile Gln Ser Ile Lys Val Ile Asn Ala Ile Ile
450 455 460
Lys Lys Tyr Gly Leu Pro Asn Asp Ile Ile Ile Glu Leu Ala Arg Glu
465 470 475 480
Lys Asn Ser Lys Asp Ala Gln Lys Met Ile Asn Glu Met Gln Lys Arg
485 490 495
Asn Arg Gln Thr Asn Glu Arg Ile Glu Glu Ile Ile Arg Thr Thr Gly
500 505 510
Lys Glu Asn Ala Lys Tyr Leu Ile Glu Lys Ile Lys Leu His Asp Met
515 520 525
Gln Glu Gly Lys Cys Leu Tyr Ser Leu Glu Ala Ile Pro Leu Glu Asp
530 535 540
Leu Leu Asn Asn Pro Phe Asn Tyr Glu Val Asp His Ile Ile Pro Arg
545 550 555 560
Ser Val Ser Phe Asp Asn Ser Phe Asn Asn Lys Val Leu Val Lys Gln
565 570 575
Glu Glu Asn Ser Lys Lys Gly Asn Arg Thr Pro Phe Gln Tyr Leu Ser
580 585 590
Ser Ser Asp Ser Lys Ile Ser Tyr Glu Thr Phe Lys Lys His Ile Leu
595 600 605
Asn Leu Ala Lys Gly Lys Gly Arg Ile Ser Lys Thr Lys Lys Glu Tyr
610 615 620
Leu Leu Glu Glu Arg Asp Ile Asn Arg Phe Ser Val Gln Lys Asp Phe
625 630 635 640
Ile Asn Arg Asn Leu Val Asp Thr Arg Tyr Ala Thr Arg Gly Leu Met
645 650 655
Asn Leu Leu Arg Ser Tyr Phe Arg Val Asn Asn Leu Asp Val Lys Val
660 665 670
Lys Ser Ile Asn Gly Gly Phe Thr Ser Phe Leu Arg Arg Lys Trp Lys
675 680 685
Phe Lys Lys Glu Arg Asn Lys Gly Tyr Lys His His Ala Glu Asp Ala
690 695 700
Leu Ile Ile Ala Asn Ala Asp Phe Ile Phe Lys Glu Trp Lys Lys Leu
705 710 715 720
Asp Lys Ala Lys Lys Val Met Glu Asn Gln Met Phe Glu Glu Lys Gln
725 730 735
Ala Glu Ser Met Pro Glu Ile Glu Thr Glu Gln Glu Tyr Lys Glu Ile
740 745 750
Phe Ile Thr Pro His Gln Ile Lys His Ile Lys Asp Phe Lys Asp Tyr
755 760 765
Lys Tyr Ser His Arg Val Asp Lys Lys Pro Asn Arg Glu Leu Ile Asn
770 775 780
Asp Thr Leu Tyr Ser Thr Arg Lys Asp Asp Lys Gly Asn Thr Leu Ile
785 790 795 800
Val Asn Asn Leu Asn Gly Leu Tyr Asp Lys Asp Asn Asp Lys Leu Lys
805 810 815
Lys Leu Ile Asn Lys Ser Pro Glu Lys Leu Leu Met Tyr His His Asp
820 825 830
Pro Gln Thr Tyr Gln Lys Leu Lys Leu Ile Met Glu Gln Tyr Gly Asp
835 840 845
Glu Lys Asn Pro Leu Tyr Lys Tyr Tyr Glu Glu Thr Gly Asn Tyr Leu
850 855 860
Thr Lys Tyr Ser Lys Lys Asp Asn Gly Pro Val Ile Lys Lys Ile Lys
865 870 875 880
Tyr Tyr Gly Asn Lys Leu Asn Ala His Leu Asp Ile Thr Asp Asp Tyr
885 890 895
Pro Asn Ser Arg Asn Lys Val Val Lys Leu Ser Leu Lys Pro Tyr Arg
900 905 910
Phe Asp Val Tyr Leu Asp Asn Gly Val Tyr Lys Phe Val Thr Val Lys
915 920 925
Asn Leu Asp Val Ile Lys Lys Glu Asn Tyr Tyr Glu Val Asn Ser Lys
930 935 940
Cys Tyr Glu Glu Ala Lys Lys Leu Lys Lys Ile Ser Asn Gln Ala Glu
945 950 955 960
Phe Ile Ala Ser Phe Tyr Asn Asn Asp Leu Ile Lys Ile Asn Gly Glu
965 970 975
Leu Tyr Arg Val Ile Gly Val Asn Asn Asp Leu Leu Asn Arg Ile Glu
980 985 990
Val Asn Met Ile Asp Ile Thr Tyr Arg Glu Tyr Leu Glu Asn Met Asn
995 1000 1005
Asp Lys Arg Pro Pro Arg Ile Ile Lys Thr Ile Ala Ser Lys Thr
1010 1015 1020
Gln Ser Ile Lys Lys Tyr Ser Thr Asp Ile Leu Gly Asn Leu Tyr
1025 1030 1035
Glu Val Lys Ser Lys Lys His Pro Gln Ile Ile Lys Lys Gly
1040 1045 1050
<210> 76
<211> 1052
<212> PRT
<213> Staphylococcus aureus
<400> 76
Lys Arg Asn Tyr Ile Leu Gly Leu Asp Ile Gly Ile Thr Ser Val Gly
1 5 10 15
Tyr Gly Ile Ile Asp Tyr Glu Thr Arg Asp Val Ile Asp Ala Gly Val
20 25 30
Arg Leu Phe Lys Glu Ala Asn Val Glu Asn Asn Glu Gly Arg Arg Ser
35 40 45
Lys Arg Gly Ala Arg Arg Leu Lys Arg Arg Arg Arg His Arg Ile Gln
50 55 60
Arg Val Lys Lys Leu Leu Phe Asp Tyr Asn Leu Leu Thr Asp His Ser
65 70 75 80
Glu Leu Ser Gly Ile Asn Pro Tyr Glu Ala Arg Val Lys Gly Leu Ser
85 90 95
Gln Lys Leu Ser Glu Glu Glu Phe Ser Ala Ala Leu Leu His Leu Ala
100 105 110
Lys Arg Arg Gly Val His Asn Val Asn Glu Val Glu Glu Asp Thr Gly
115 120 125
Asn Glu Leu Ser Thr Lys Glu Gln Ile Ser Arg Asn Ser Lys Ala Leu
130 135 140
Glu Glu Lys Tyr Val Ala Glu Leu Gln Leu Glu Arg Leu Lys Lys Asp
145 150 155 160
Gly Glu Val Arg Gly Ser Ile Asn Arg Phe Lys Thr Ser Asp Tyr Val
165 170 175
Lys Glu Ala Lys Gln Leu Leu Lys Val Gln Lys Ala Tyr His Gln Leu
180 185 190
Asp Gln Ser Phe Ile Asp Thr Tyr Ile Asp Leu Leu Glu Thr Arg Arg
195 200 205
Thr Tyr Tyr Glu Gly Pro Gly Glu Gly Ser Pro Phe Gly Trp Lys Asp
210 215 220
Ile Lys Glu Trp Tyr Glu Met Leu Met Gly His Cys Thr Tyr Phe Pro
225 230 235 240
Glu Glu Leu Arg Ser Val Lys Tyr Ala Tyr Asn Ala Asp Leu Tyr Asn
245 250 255
Ala Leu Asn Asp Leu Asn Asn Leu Val Ile Thr Arg Asp Glu Asn Glu
260 265 270
Lys Leu Glu Tyr Tyr Glu Lys Phe Gln Ile Ile Glu Asn Val Phe Lys
275 280 285
Gln Lys Lys Lys Pro Thr Leu Lys Gln Ile Ala Lys Glu Ile Leu Val
290 295 300
Asn Glu Glu Asp Ile Lys Gly Tyr Arg Val Thr Ser Thr Gly Lys Pro
305 310 315 320
Glu Phe Thr Asn Leu Lys Val Tyr His Asp Ile Lys Asp Ile Thr Ala
325 330 335
Arg Lys Glu Ile Ile Glu Asn Ala Glu Leu Leu Asp Gln Ile Ala Lys
340 345 350
Ile Leu Thr Ile Tyr Gln Ser Ser Glu Asp Ile Gln Glu Glu Leu Thr
355 360 365
Asn Leu Asn Ser Glu Leu Thr Gln Glu Glu Ile Glu Gln Ile Ser Asn
370 375 380
Leu Lys Gly Tyr Thr Gly Thr His Asn Leu Ser Leu Lys Ala Ile Asn
385 390 395 400
Leu Ile Leu Asp Glu Leu Trp His Thr Asn Asp Asn Gln Ile Ala Ile
405 410 415
Phe Asn Arg Leu Lys Leu Val Pro Lys Lys Val Asp Leu Ser Gln Gln
420 425 430
Lys Glu Ile Pro Thr Thr Leu Val Asp Asp Phe Ile Leu Ser Pro Val
435 440 445
Val Lys Arg Ser Phe Ile Gln Ser Ile Lys Val Ile Asn Ala Ile Ile
450 455 460
Lys Lys Tyr Gly Leu Pro Asn Asp Ile Ile Ile Glu Leu Ala Arg Glu
465 470 475 480
Lys Asn Ser Lys Asp Ala Gln Lys Met Ile Asn Glu Met Gln Lys Arg
485 490 495
Asn Arg Gln Thr Asn Glu Arg Ile Glu Glu Ile Ile Arg Thr Thr Gly
500 505 510
Lys Glu Asn Ala Lys Tyr Leu Ile Glu Lys Ile Lys Leu His Asp Met
515 520 525
Gln Glu Gly Lys Cys Leu Tyr Ser Leu Glu Ala Ile Pro Leu Glu Asp
530 535 540
Leu Leu Asn Asn Pro Phe Asn Tyr Glu Val Asp His Ile Ile Pro Arg
545 550 555 560
Ser Val Ser Phe Asp Asn Ser Phe Asn Asn Lys Val Leu Val Lys Gln
565 570 575
Glu Glu Ala Ser Lys Lys Gly Asn Arg Thr Pro Phe Gln Tyr Leu Ser
580 585 590
Ser Ser Asp Ser Lys Ile Ser Tyr Glu Thr Phe Lys Lys His Ile Leu
595 600 605
Asn Leu Ala Lys Gly Lys Gly Arg Ile Ser Lys Thr Lys Lys Glu Tyr
610 615 620
Leu Leu Glu Glu Arg Asp Ile Asn Arg Phe Ser Val Gln Lys Asp Phe
625 630 635 640
Ile Asn Arg Asn Leu Val Asp Thr Arg Tyr Ala Thr Arg Gly Leu Met
645 650 655
Asn Leu Leu Arg Ser Tyr Phe Arg Val Asn Asn Leu Asp Val Lys Val
660 665 670
Lys Ser Ile Asn Gly Gly Phe Thr Ser Phe Leu Arg Arg Lys Trp Lys
675 680 685
Phe Lys Lys Glu Arg Asn Lys Gly Tyr Lys His His Ala Glu Asp Ala
690 695 700
Leu Ile Ile Ala Asn Ala Asp Phe Ile Phe Lys Glu Trp Lys Lys Leu
705 710 715 720
Asp Lys Ala Lys Lys Val Met Glu Asn Gln Met Phe Glu Glu Lys Gln
725 730 735
Ala Glu Ser Met Pro Glu Ile Glu Thr Glu Gln Glu Tyr Lys Glu Ile
740 745 750
Phe Ile Thr Pro His Gln Ile Lys His Ile Lys Asp Phe Lys Asp Tyr
755 760 765
Lys Tyr Ser His Arg Val Asp Lys Lys Pro Asn Arg Glu Leu Ile Asn
770 775 780
Asp Thr Leu Tyr Ser Thr Arg Lys Asp Asp Lys Gly Asn Thr Leu Ile
785 790 795 800
Val Asn Asn Leu Asn Gly Leu Tyr Asp Lys Asp Asn Asp Lys Leu Lys
805 810 815
Lys Leu Ile Asn Lys Ser Pro Glu Lys Leu Leu Met Tyr His His Asp
820 825 830
Pro Gln Thr Tyr Gln Lys Leu Lys Leu Ile Met Glu Gln Tyr Gly Asp
835 840 845
Glu Lys Asn Pro Leu Tyr Lys Tyr Tyr Glu Glu Thr Gly Asn Tyr Leu
850 855 860
Thr Lys Tyr Ser Lys Lys Asp Asn Gly Pro Val Ile Lys Lys Ile Lys
865 870 875 880
Tyr Tyr Gly Asn Lys Leu Asn Ala His Leu Asp Ile Thr Asp Asp Tyr
885 890 895
Pro Asn Ser Arg Asn Lys Val Val Lys Leu Ser Leu Lys Pro Tyr Arg
900 905 910
Phe Asp Val Tyr Leu Asp Asn Gly Val Tyr Lys Phe Val Thr Val Lys
915 920 925
Asn Leu Asp Val Ile Lys Lys Glu Asn Tyr Tyr Glu Val Asn Ser Lys
930 935 940
Cys Tyr Glu Glu Ala Lys Lys Leu Lys Lys Ile Ser Asn Gln Ala Glu
945 950 955 960
Phe Ile Ala Ser Phe Tyr Asn Asn Asp Leu Ile Lys Ile Asn Gly Glu
965 970 975
Leu Tyr Arg Val Ile Gly Val Asn Asn Asp Leu Leu Asn Arg Ile Glu
980 985 990
Val Asn Met Ile Asp Ile Thr Tyr Arg Glu Tyr Leu Glu Asn Met Asn
995 1000 1005
Asp Lys Arg Pro Pro Arg Ile Ile Lys Thr Ile Ala Ser Lys Thr
1010 1015 1020
Gln Ser Ile Lys Lys Tyr Ser Thr Asp Ile Leu Gly Asn Leu Tyr
1025 1030 1035
Glu Val Lys Ser Lys Lys His Pro Gln Ile Ile Lys Lys Gly
1040 1045 1050
<210> 77
<211> 1052
<212> PRT
<213> Staphylococcus aureus
<400> 77
Lys Arg Asn Tyr Ile Leu Gly Leu Asp Ile Gly Ile Thr Ser Val Gly
1 5 10 15
Tyr Gly Ile Ile Asp Tyr Glu Thr Arg Asp Val Ile Asp Ala Gly Val
20 25 30
Arg Leu Phe Lys Glu Ala Asn Val Glu Asn Asn Glu Gly Arg Arg Ser
35 40 45
Lys Arg Gly Ala Arg Arg Leu Lys Arg Arg Arg Arg His Arg Ile Gln
50 55 60
Arg Val Lys Lys Leu Leu Phe Asp Tyr Asn Leu Leu Thr Asp His Ser
65 70 75 80
Glu Leu Ser Gly Ile Asn Pro Tyr Glu Ala Arg Val Lys Gly Leu Ser
85 90 95
Gln Lys Leu Ser Glu Glu Glu Phe Ser Ala Ala Leu Leu His Leu Ala
100 105 110
Lys Arg Arg Gly Val His Asn Val Asn Glu Val Glu Glu Asp Thr Gly
115 120 125
Asn Glu Leu Ser Thr Lys Glu Gln Ile Ser Arg Asn Ser Lys Ala Leu
130 135 140
Glu Glu Lys Tyr Val Ala Glu Leu Gln Leu Glu Arg Leu Lys Lys Asp
145 150 155 160
Gly Glu Val Arg Gly Ser Ile Asn Arg Phe Lys Thr Ser Asp Tyr Val
165 170 175
Lys Glu Ala Lys Gln Leu Leu Lys Val Gln Lys Ala Tyr His Gln Leu
180 185 190
Asp Gln Ser Phe Ile Asp Thr Tyr Ile Asp Leu Leu Glu Thr Arg Arg
195 200 205
Thr Tyr Tyr Glu Gly Pro Gly Glu Gly Ser Pro Phe Gly Trp Lys Asp
210 215 220
Ile Lys Glu Trp Tyr Glu Met Leu Met Gly His Cys Thr Tyr Phe Pro
225 230 235 240
Glu Glu Leu Arg Ser Val Lys Tyr Ala Tyr Asn Ala Asp Leu Tyr Asn
245 250 255
Ala Leu Asn Asp Leu Asn Asn Leu Val Ile Thr Arg Asp Glu Asn Glu
260 265 270
Lys Leu Glu Tyr Tyr Glu Lys Phe Gln Ile Ile Glu Asn Val Phe Lys
275 280 285
Gln Lys Lys Lys Pro Thr Leu Lys Gln Ile Ala Lys Glu Ile Leu Val
290 295 300
Asn Glu Glu Asp Ile Lys Gly Tyr Arg Val Thr Ser Thr Gly Lys Pro
305 310 315 320
Glu Phe Thr Asn Leu Lys Val Tyr His Asp Ile Lys Asp Ile Thr Ala
325 330 335
Arg Lys Glu Ile Ile Glu Asn Ala Glu Leu Leu Asp Gln Ile Ala Lys
340 345 350
Ile Leu Thr Ile Tyr Gln Ser Ser Glu Asp Ile Gln Glu Glu Leu Thr
355 360 365
Asn Leu Asn Ser Glu Leu Thr Gln Glu Glu Ile Glu Gln Ile Ser Asn
370 375 380
Leu Lys Gly Tyr Thr Gly Thr His Asn Leu Ser Leu Lys Ala Ile Asn
385 390 395 400
Leu Ile Leu Asp Glu Leu Trp His Thr Asn Asp Asn Gln Ile Ala Ile
405 410 415
Phe Asn Arg Leu Lys Leu Val Pro Lys Lys Val Asp Leu Ser Gln Gln
420 425 430
Lys Glu Ile Pro Thr Thr Leu Val Asp Asp Phe Ile Leu Ser Pro Val
435 440 445
Val Lys Arg Ser Phe Ile Gln Ser Ile Lys Val Ile Asn Ala Ile Ile
450 455 460
Lys Lys Tyr Gly Leu Pro Asn Asp Ile Ile Ile Glu Leu Ala Arg Glu
465 470 475 480
Lys Asn Ser Lys Asp Ala Gln Lys Met Ile Asn Glu Met Gln Lys Arg
485 490 495
Asn Arg Gln Thr Asn Glu Arg Ile Glu Glu Ile Ile Arg Thr Thr Gly
500 505 510
Lys Glu Asn Ala Lys Tyr Leu Ile Glu Lys Ile Lys Leu His Asp Met
515 520 525
Gln Glu Gly Lys Cys Leu Tyr Ser Leu Glu Ala Ile Pro Leu Glu Asp
530 535 540
Leu Leu Asn Asn Pro Phe Asn Tyr Glu Val Asp His Ile Ile Pro Arg
545 550 555 560
Ser Val Ser Phe Asp Asn Ser Phe Asn Asn Lys Val Leu Val Lys Gln
565 570 575
Glu Glu Ala Ser Lys Lys Gly Asn Arg Thr Pro Phe Gln Tyr Leu Ser
580 585 590
Ser Ser Asp Ser Lys Ile Ser Tyr Glu Thr Phe Lys Lys His Ile Leu
595 600 605
Asn Leu Ala Lys Gly Lys Gly Arg Ile Ser Lys Thr Lys Lys Glu Tyr
610 615 620
Leu Leu Glu Glu Arg Asp Ile Asn Arg Phe Ser Val Gln Lys Asp Phe
625 630 635 640
Ile Asn Arg Asn Leu Val Asp Thr Arg Tyr Ala Thr Arg Gly Leu Met
645 650 655
Asn Leu Leu Arg Ser Tyr Phe Arg Val Asn Asn Leu Asp Val Lys Val
660 665 670
Lys Ser Ile Asn Gly Gly Phe Thr Ser Phe Leu Arg Arg Lys Trp Lys
675 680 685
Phe Lys Lys Glu Arg Asn Lys Gly Tyr Lys His His Ala Glu Asp Ala
690 695 700
Leu Ile Ile Ala Asn Ala Asp Phe Ile Phe Lys Glu Trp Lys Lys Leu
705 710 715 720
Asp Lys Ala Lys Lys Val Met Glu Asn Gln Met Phe Glu Glu Lys Gln
725 730 735
Ala Glu Ser Met Pro Glu Ile Glu Thr Glu Gln Glu Tyr Lys Glu Ile
740 745 750
Phe Ile Thr Pro His Gln Ile Lys His Ile Lys Asp Phe Lys Asp Tyr
755 760 765
Lys Tyr Ser His Arg Val Asp Lys Lys Pro Asn Arg Lys Leu Ile Asn
770 775 780
Asp Thr Leu Tyr Ser Thr Arg Lys Asp Asp Lys Gly Asn Thr Leu Ile
785 790 795 800
Val Asn Asn Leu Asn Gly Leu Tyr Asp Lys Asp Asn Asp Lys Leu Lys
805 810 815
Lys Leu Ile Asn Lys Ser Pro Glu Lys Leu Leu Met Tyr His His Asp
820 825 830
Pro Gln Thr Tyr Gln Lys Leu Lys Leu Ile Met Glu Gln Tyr Gly Asp
835 840 845
Glu Lys Asn Pro Leu Tyr Lys Tyr Tyr Glu Glu Thr Gly Asn Tyr Leu
850 855 860
Thr Lys Tyr Ser Lys Lys Asp Asn Gly Pro Val Ile Lys Lys Ile Lys
865 870 875 880
Tyr Tyr Gly Asn Lys Leu Asn Ala His Leu Asp Ile Thr Asp Asp Tyr
885 890 895
Pro Asn Ser Arg Asn Lys Val Val Lys Leu Ser Leu Lys Pro Tyr Arg
900 905 910
Phe Asp Val Tyr Leu Asp Asn Gly Val Tyr Lys Phe Val Thr Val Lys
915 920 925
Asn Leu Asp Val Ile Lys Lys Glu Asn Tyr Tyr Glu Val Asn Ser Lys
930 935 940
Cys Tyr Glu Glu Ala Lys Lys Leu Lys Lys Ile Ser Asn Gln Ala Glu
945 950 955 960
Phe Ile Ala Ser Phe Tyr Lys Asn Asp Leu Ile Lys Ile Asn Gly Glu
965 970 975
Leu Tyr Arg Val Ile Gly Val Asn Asn Asp Leu Leu Asn Arg Ile Glu
980 985 990
Val Asn Met Ile Asp Ile Thr Tyr Arg Glu Tyr Leu Glu Asn Met Asn
995 1000 1005
Asp Lys Arg Pro Pro His Ile Ile Lys Thr Ile Ala Ser Lys Thr
1010 1015 1020
Gln Ser Ile Lys Lys Tyr Ser Thr Asp Ile Leu Gly Asn Leu Tyr
1025 1030 1035
Glu Val Lys Ser Lys Lys His Pro Gln Ile Ile Lys Lys Gly
1040 1045 1050
<210> 78
<211> 1368
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polypeptide
<400> 78
Met Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe
20 25 30
Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser
85 90 95
Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys
100 105 110
His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr
115 120 125
His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp
130 135 140
Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His
145 150 155 160
Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro
165 170 175
Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr
180 185 190
Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala
195 200 205
Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn
210 215 220
Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn
225 230 235 240
Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe
245 250 255
Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp
260 265 270
Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp
275 280 285
Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp
290 295 300
Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser
305 310 315 320
Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys
325 330 335
Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe
340 345 350
Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser
355 360 365
Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp
370 375 380
Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg
385 390 395 400
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
405 410 415
Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe
420 425 430
Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile
435 440 445
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp
450 455 460
Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu
465 470 475 480
Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr
485 490 495
Ala Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser
500 505 510
Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
515 520 525
Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln
530 535 540
Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr
545 550 555 560
Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp
565 570 575
Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly
580 585 590
Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp
595 600 605
Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr
610 615 620
Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala
625 630 635 640
His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr
645 650 655
Thr Gly Trp Gly Ala Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
660 665 670
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe
675 680 685
Ala Asn Arg Asn Phe Met Ala Leu Ile His Asp Asp Ser Leu Thr Phe
690 695 700
Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu
705 710 715 720
His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly
725 730 735
Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly
740 745 750
Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln
755 760 765
Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile
770 775 780
Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro
785 790 795 800
Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu
805 810 815
Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg
820 825 830
Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys
835 840 845
Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg
850 855 860
Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys
865 870 875 880
Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys
885 890 895
Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp
900 905 910
Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Ala Ile Thr
915 920 925
Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp
930 935 940
Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser
945 950 955 960
Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg
965 970 975
Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val
980 985 990
Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe
995 1000 1005
Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala
1010 1015 1020
Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe
1025 1030 1035
Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala
1040 1045 1050
Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu
1055 1060 1065
Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val
1070 1075 1080
Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr
1085 1090 1095
Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys
1100 1105 1110
Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro
1115 1120 1125
Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val
1130 1135 1140
Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys
1145 1150 1155
Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser
1160 1165 1170
Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys
1175 1180 1185
Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu
1190 1195 1200
Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly
1205 1210 1215
Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val
1220 1225 1230
Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser
1235 1240 1245
Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys
1250 1255 1260
His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys
1265 1270 1275
Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala
1280 1285 1290
Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn
1295 1300 1305
Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala
1310 1315 1320
Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser
1325 1330 1335
Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr
1340 1345 1350
Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1355 1360 1365
<210> 79
<211> 1368
<212> PRT
<213> Streptococcus pyogenes
<400> 79
Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe
20 25 30
Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser
85 90 95
Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys
100 105 110
His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr
115 120 125
His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp
130 135 140
Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His
145 150 155 160
Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro
165 170 175
Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr
180 185 190
Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala
195 200 205
Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn
210 215 220
Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn
225 230 235 240
Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe
245 250 255
Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp
260 265 270
Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp
275 280 285
Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp
290 295 300
Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser
305 310 315 320
Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys
325 330 335
Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe
340 345 350
Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser
355 360 365
Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp
370 375 380
Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg
385 390 395 400
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
405 410 415
Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe
420 425 430
Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile
435 440 445
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp
450 455 460
Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu
465 470 475 480
Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr
485 490 495
Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser
500 505 510
Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
515 520 525
Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln
530 535 540
Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr
545 550 555 560
Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp
565 570 575
Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly
580 585 590
Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp
595 600 605
Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr
610 615 620
Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala
625 630 635 640
His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr
645 650 655
Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
660 665 670
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe
675 680 685
Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe
690 695 700
Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu
705 710 715 720
His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly
725 730 735
Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly
740 745 750
Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln
755 760 765
Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile
770 775 780
Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro
785 790 795 800
Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu
805 810 815
Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg
820 825 830
Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys
835 840 845
Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg
850 855 860
Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys
865 870 875 880
Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys
885 890 895
Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp
900 905 910
Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr
915 920 925
Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp
930 935 940
Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser
945 950 955 960
Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg
965 970 975
Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val
980 985 990
Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe
995 1000 1005
Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala
1010 1015 1020
Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe
1025 1030 1035
Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala
1040 1045 1050
Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu
1055 1060 1065
Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val
1070 1075 1080
Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr
1085 1090 1095
Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys
1100 1105 1110
Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro
1115 1120 1125
Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val
1130 1135 1140
Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys
1145 1150 1155
Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser
1160 1165 1170
Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys
1175 1180 1185
Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu
1190 1195 1200
Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly
1205 1210 1215
Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val
1220 1225 1230
Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser
1235 1240 1245
Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys
1250 1255 1260
His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys
1265 1270 1275
Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala
1280 1285 1290
Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn
1295 1300 1305
Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala
1310 1315 1320
Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser
1325 1330 1335
Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr
1340 1345 1350
Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1355 1360 1365
<210> 80
<211> 1368
<212> PRT
<213> Streptococcus pyogenes
<400> 80
Met Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe
20 25 30
Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser
85 90 95
Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys
100 105 110
His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr
115 120 125
His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp
130 135 140
Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His
145 150 155 160
Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro
165 170 175
Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr
180 185 190
Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala
195 200 205
Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn
210 215 220
Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn
225 230 235 240
Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe
245 250 255
Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp
260 265 270
Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp
275 280 285
Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp
290 295 300
Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser
305 310 315 320
Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys
325 330 335
Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe
340 345 350
Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser
355 360 365
Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp
370 375 380
Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg
385 390 395 400
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
405 410 415
Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe
420 425 430
Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile
435 440 445
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp
450 455 460
Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu
465 470 475 480
Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr
485 490 495
Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser
500 505 510
Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
515 520 525
Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln
530 535 540
Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr
545 550 555 560
Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp
565 570 575
Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly
580 585 590
Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp
595 600 605
Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr
610 615 620
Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala
625 630 635 640
His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr
645 650 655
Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
660 665 670
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe
675 680 685
Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe
690 695 700
Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu
705 710 715 720
His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly
725 730 735
Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly
740 745 750
Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln
755 760 765
Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile
770 775 780
Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro
785 790 795 800
Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu
805 810 815
Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg
820 825 830
Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys
835 840 845
Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg
850 855 860
Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys
865 870 875 880
Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys
885 890 895
Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp
900 905 910
Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr
915 920 925
Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp
930 935 940
Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser
945 950 955 960
Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg
965 970 975
Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val
980 985 990
Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe
995 1000 1005
Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala
1010 1015 1020
Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe
1025 1030 1035
Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala
1040 1045 1050
Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu
1055 1060 1065
Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val
1070 1075 1080
Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr
1085 1090 1095
Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys
1100 1105 1110
Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro
1115 1120 1125
Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val
1130 1135 1140
Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys
1145 1150 1155
Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser
1160 1165 1170
Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys
1175 1180 1185
Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu
1190 1195 1200
Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly
1205 1210 1215
Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val
1220 1225 1230
Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser
1235 1240 1245
Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys
1250 1255 1260
His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys
1265 1270 1275
Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala
1280 1285 1290
Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn
1295 1300 1305
Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala
1310 1315 1320
Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser
1325 1330 1335
Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr
1340 1345 1350
Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1355 1360 1365
<210> 81
<211> 1367
<212> PRT
<213> Streptococcus pyogenes
<400> 81
Met Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe
20 25 30
Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser
85 90 95
Phe Phe His Arg Leu Glu Glu Ser Phe Val Glu Glu Asp Lys Lys His
100 105 110
Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr His
115 120 125
Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp Ser
130 135 140
Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His Met
145 150 155 160
Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp
165 170 175
Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn
180 185 190
Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala Lys
195 200 205
Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu
210 215 220
Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu
225 230 235 240
Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp
245 250 255
Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp
260 265 270
Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu
275 280 285
Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile
290 295 300
Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met
305 310 315 320
Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys Ala
325 330 335
Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp
340 345 350
Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln
355 360 365
Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp Gly
370 375 380
Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys
385 390 395 400
Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu Gly
405 410 415
Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu
420 425 430
Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro
435 440 445
Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp Met
450 455 460
Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu Val
465 470 475 480
Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr Asn
485 490 495
Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser Leu
500 505 510
Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr
515 520 525
Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys
530 535 540
Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val
545 550 555 560
Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser
565 570 575
Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr
580 585 590
Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn
595 600 605
Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr Leu
610 615 620
Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala His
625 630 635 640
Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr
645 650 655
Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp Lys
660 665 670
Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe Ala
675 680 685
Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe Lys
690 695 700
Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu His
705 710 715 720
Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly Ile
725 730 735
Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly Arg
740 745 750
His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr
755 760 765
Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile Glu
770 775 780
Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val
785 790 795 800
Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln
805 810 815
Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu
820 825 830
Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys Asp
835 840 845
Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly
850 855 860
Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn
865 870 875 880
Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe
885 890 895
Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys
900 905 910
Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys
915 920 925
His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu
930 935 940
Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser Lys
945 950 955 960
Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu
965 970 975
Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val Val
980 985 990
Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val
995 1000 1005
Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys
1010 1015 1020
Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr
1025 1030 1035
Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn
1040 1045 1050
Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr
1055 1060 1065
Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg
1070 1075 1080
Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu
1085 1090 1095
Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg
1100 1105 1110
Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys
1115 1120 1125
Lys Tyr Gly Gly Phe Glu Ser Pro Thr Val Ala Tyr Ser Val Leu
1130 1135 1140
Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser
1145 1150 1155
Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser Phe
1160 1165 1170
Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu
1175 1180 1185
Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe
1190 1195 1200
Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly Glu
1205 1210 1215
Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn
1220 1225 1230
Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro
1235 1240 1245
Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His
1250 1255 1260
Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg
1265 1270 1275
Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr
1280 1285 1290
Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile
1295 1300 1305
Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe
1310 1315 1320
Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Gln Tyr Arg Ser Thr
1325 1330 1335
Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr Gly
1340 1345 1350
Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1355 1360 1365
<210> 82
<211> 1368
<212> PRT
<213> Streptococcus pyogenes
<400> 82
Met Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe
20 25 30
Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser
85 90 95
Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys
100 105 110
His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr
115 120 125
His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp
130 135 140
Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His
145 150 155 160
Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro
165 170 175
Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr
180 185 190
Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala
195 200 205
Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn
210 215 220
Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn
225 230 235 240
Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe
245 250 255
Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp
260 265 270
Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp
275 280 285
Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp
290 295 300
Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser
305 310 315 320
Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys
325 330 335
Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe
340 345 350
Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser
355 360 365
Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp
370 375 380
Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg
385 390 395 400
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
405 410 415
Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe
420 425 430
Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile
435 440 445
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp
450 455 460
Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu
465 470 475 480
Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr
485 490 495
Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser
500 505 510
Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
515 520 525
Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln
530 535 540
Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr
545 550 555 560
Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp
565 570 575
Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly
580 585 590
Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp
595 600 605
Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr
610 615 620
Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala
625 630 635 640
His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr
645 650 655
Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
660 665 670
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe
675 680 685
Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe
690 695 700
Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu
705 710 715 720
His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly
725 730 735
Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly
740 745 750
Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln
755 760 765
Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile
770 775 780
Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro
785 790 795 800
Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu
805 810 815
Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg
820 825 830
Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys
835 840 845
Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg
850 855 860
Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys
865 870 875 880
Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys
885 890 895
Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp
900 905 910
Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr
915 920 925
Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp
930 935 940
Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser
945 950 955 960
Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg
965 970 975
Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val
980 985 990
Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe
995 1000 1005
Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala
1010 1015 1020
Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe
1025 1030 1035
Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala
1040 1045 1050
Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu
1055 1060 1065
Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val
1070 1075 1080
Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr
1085 1090 1095
Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys
1100 1105 1110
Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro
1115 1120 1125
Lys Lys Tyr Gly Gly Phe Val Ser Pro Thr Val Ala Tyr Ser Val
1130 1135 1140
Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys
1145 1150 1155
Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser
1160 1165 1170
Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys
1175 1180 1185
Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu
1190 1195 1200
Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly
1205 1210 1215
Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val
1220 1225 1230
Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser
1235 1240 1245
Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys
1250 1255 1260
His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys
1265 1270 1275
Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala
1280 1285 1290
Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn
1295 1300 1305
Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala
1310 1315 1320
Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Gln Tyr Arg Ser
1325 1330 1335
Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr
1340 1345 1350
Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1355 1360 1365
<210> 83
<211> 1368
<212> PRT
<213> Streptococcus pyogenes
<400> 83
Met Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe
20 25 30
Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser
85 90 95
Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys
100 105 110
His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr
115 120 125
His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp
130 135 140
Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His
145 150 155 160
Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro
165 170 175
Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr
180 185 190
Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala
195 200 205
Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn
210 215 220
Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn
225 230 235 240
Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe
245 250 255
Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp
260 265 270
Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp
275 280 285
Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp
290 295 300
Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser
305 310 315 320
Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys
325 330 335
Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe
340 345 350
Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser
355 360 365
Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp
370 375 380
Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg
385 390 395 400
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
405 410 415
Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe
420 425 430
Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile
435 440 445
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp
450 455 460
Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu
465 470 475 480
Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr
485 490 495
Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser
500 505 510
Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
515 520 525
Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln
530 535 540
Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr
545 550 555 560
Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp
565 570 575
Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly
580 585 590
Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp
595 600 605
Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr
610 615 620
Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala
625 630 635 640
His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr
645 650 655
Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
660 665 670
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe
675 680 685
Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe
690 695 700
Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu
705 710 715 720
His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly
725 730 735
Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly
740 745 750
Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln
755 760 765
Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile
770 775 780
Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro
785 790 795 800
Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu
805 810 815
Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg
820 825 830
Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys
835 840 845
Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg
850 855 860
Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys
865 870 875 880
Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys
885 890 895
Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp
900 905 910
Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr
915 920 925
Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp
930 935 940
Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser
945 950 955 960
Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg
965 970 975
Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val
980 985 990
Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe
995 1000 1005
Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala
1010 1015 1020
Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe
1025 1030 1035
Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala
1040 1045 1050
Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu
1055 1060 1065
Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val
1070 1075 1080
Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr
1085 1090 1095
Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys
1100 1105 1110
Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro
1115 1120 1125
Lys Lys Tyr Gly Gly Phe Val Ser Pro Thr Val Ala Tyr Ser Val
1130 1135 1140
Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys
1145 1150 1155
Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser
1160 1165 1170
Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys
1175 1180 1185
Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu
1190 1195 1200
Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Arg
1205 1210 1215
Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val
1220 1225 1230
Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser
1235 1240 1245
Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys
1250 1255 1260
His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys
1265 1270 1275
Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala
1280 1285 1290
Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn
1295 1300 1305
Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala
1310 1315 1320
Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Glu Tyr Arg Ser
1325 1330 1335
Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr
1340 1345 1350
Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1355 1360 1365
<210> 84
<211> 1359
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polypeptide
<400> 84
Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Ile Thr Asp Asp Tyr Lys Val Pro Ser Lys Lys Phe
20 25 30
Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Gly Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser
85 90 95
Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys
100 105 110
His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr
115 120 125
His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Ala Asp
130 135 140
Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His
145 150 155 160
Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro
165 170 175
Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Ile Tyr
180 185 190
Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Arg Val Asp Ala
195 200 205
Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn
210 215 220
Leu Ile Ala Gln Leu Pro Gly Glu Lys Arg Asn Gly Leu Phe Gly Asn
225 230 235 240
Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe
245 250 255
Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp
260 265 270
Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp
275 280 285
Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp
290 295 300
Ile Leu Arg Val Asn Ser Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser
305 310 315 320
Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys
325 330 335
Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe
340 345 350
Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser
355 360 365
Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp
370 375 380
Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg
385 390 395 400
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
405 410 415
Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe
420 425 430
Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile
435 440 445
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp
450 455 460
Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu
465 470 475 480
Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr
485 490 495
Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser
500 505 510
Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
515 520 525
Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln
530 535 540
Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr
545 550 555 560
Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp
565 570 575
Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly
580 585 590
Ala Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp
595 600 605
Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr
610 615 620
Leu Phe Glu Asp Arg Gly Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala
625 630 635 640
His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr
645 650 655
Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
660 665 670
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe
675 680 685
Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe
690 695 700
Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly His Ser Leu
705 710 715 720
His Glu Gln Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly
725 730 735
Ile Leu Gln Thr Val Lys Ile Val Asp Glu Leu Val Lys Val Met Gly
740 745 750
His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr
755 760 765
Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile Glu
770 775 780
Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val
785 790 795 800
Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln
805 810 815
Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu
820 825 830
Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Ile Lys Asp
835 840 845
Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly
850 855 860
Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn
865 870 875 880
Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe
885 890 895
Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys
900 905 910
Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys
915 920 925
His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu
930 935 940
Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser Lys
945 950 955 960
Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu
965 970 975
Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val Val
980 985 990
Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val
995 1000 1005
Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys
1010 1015 1020
Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr
1025 1030 1035
Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn
1040 1045 1050
Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr
1055 1060 1065
Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg
1070 1075 1080
Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu
1085 1090 1095
Ile Gln Thr Val Gly Gln Asn Gly Gly Leu Phe Asp Asp Asn Pro
1100 1105 1110
Lys Ser Pro Leu Glu Val Thr Pro Ser Lys Leu Val Pro Leu Lys
1115 1120 1125
Lys Glu Leu Asn Pro Lys Lys Tyr Gly Gly Tyr Gln Lys Pro Thr
1130 1135 1140
Thr Ala Tyr Pro Val Leu Leu Ile Thr Asp Thr Lys Gln Leu Ile
1145 1150 1155
Pro Ile Ser Val Met Asn Lys Lys Gln Phe Glu Gln Asn Pro Val
1160 1165 1170
Lys Phe Leu Arg Asp Arg Gly Tyr Gln Gln Val Gly Lys Asn Asp
1175 1180 1185
Phe Ile Lys Leu Pro Lys Tyr Thr Leu Val Asp Ile Gly Asp Gly
1190 1195 1200
Ile Lys Arg Leu Trp Ala Ser Ser Lys Glu Ile His Lys Gly Asn
1205 1210 1215
Gln Leu Val Val Ser Lys Lys Ser Gln Ile Leu Leu Tyr His Ala
1220 1225 1230
His His Leu Asp Ser Asp Leu Ser Asn Asp Tyr Leu Gln Asn His
1235 1240 1245
Asn Gln Gln Phe Asp Val Leu Phe Asn Glu Ile Ile Ser Phe Ser
1250 1255 1260
Lys Lys Cys Lys Leu Gly Lys Glu His Ile Gln Lys Ile Glu Asn
1265 1270 1275
Val Tyr Ser Asn Lys Lys Asn Ser Ala Ser Ile Glu Glu Leu Ala
1280 1285 1290
Glu Ser Phe Ile Lys Leu Leu Gly Phe Thr Gln Leu Gly Ala Thr
1295 1300 1305
Ser Pro Phe Asn Phe Leu Gly Val Lys Leu Asn Gln Lys Gln Tyr
1310 1315 1320
Lys Gly Lys Lys Asp Tyr Ile Leu Pro Cys Thr Glu Gly Thr Leu
1325 1330 1335
Ile Arg Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg Val Asp Leu
1340 1345 1350
Ser Lys Ile Gly Glu Asp
1355
<210> 85
<211> 29
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 85
Pro Lys Lys Lys Arg Lys Val Glu Gly Ala Asp Lys Arg Thr Ala Asp
1 5 10 15
Gly Ser Glu Phe Glu Ser Pro Lys Lys Lys Arg Lys Val
20 25
<210> 86
<211> 23
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 86
Arg Lys Ser Gly Lys Ile Ala Ala Ile Val Val Lys Arg Pro Arg Lys
1 5 10 15
Pro Lys Lys Lys Arg Lys Val
20
<210> 87
<211> 208
<212> PRT
<213> Petromyzon marinus
<400> 87
Met Thr Asp Ala Glu Tyr Val Arg Ile His Glu Lys Leu Asp Ile Tyr
1 5 10 15
Thr Phe Lys Lys Gln Phe Phe Asn Asn Lys Lys Ser Val Ser His Arg
20 25 30
Cys Tyr Val Leu Phe Glu Leu Lys Arg Arg Gly Glu Arg Arg Ala Cys
35 40 45
Phe Trp Gly Tyr Ala Val Asn Lys Pro Gln Ser Gly Thr Glu Arg Gly
50 55 60
Ile His Ala Glu Ile Phe Ser Ile Arg Lys Val Glu Glu Tyr Leu Arg
65 70 75 80
Asp Asn Pro Gly Gln Phe Thr Ile Asn Trp Tyr Ser Ser Trp Ser Pro
85 90 95
Cys Ala Asp Cys Ala Glu Lys Ile Leu Glu Trp Tyr Asn Gln Glu Leu
100 105 110
Arg Gly Asn Gly His Thr Leu Lys Ile Trp Ala Cys Lys Leu Tyr Tyr
115 120 125
Glu Lys Asn Ala Arg Asn Gln Ile Gly Leu Trp Asn Leu Arg Asp Asn
130 135 140
Gly Val Gly Leu Asn Val Met Val Ser Glu His Tyr Gln Cys Cys Arg
145 150 155 160
Lys Ile Phe Ile Gln Ser Ser His Asn Gln Leu Asn Glu Asn Arg Trp
165 170 175
Leu Glu Lys Thr Leu Lys Arg Ala Glu Lys Arg Arg Ser Glu Leu Ser
180 185 190
Ile Met Ile Gln Val Lys Ile Leu His Thr Thr Lys Ser Pro Ala Val
195 200 205
<210> 88
<211> 766
<212> DNA
<213> Petromyzon marinus
<400> 88
tgacacgaca cagccgtgta tatgaggaag ggtagctgga tggggggggg gggaatacgt 60
tcagagagga cattagcgag cgtcttgttg gtggccttga gtctagacac ctgcagacat 120
gaccgacgct gagtacgtga gaatccatga gaagttggac atctacacgt ttaagaaaca 180
gtttttcaac aacaaaaaat ccgtgtcgca tagatgctac gttctctttg aattaaaacg 240
acggggtgaa cgtagagcgt gtttttgggg ctatgctgtg aataaaccac agagcgggac 300
agaacgtgga attcacgccg aaatctttag cattagaaaa gtcgaagaat acctgcgcga 360
caaccccgga caattcacga taaattggta ctcatcctgg agtccttgtg cagattgcgc 420
tgaaaagatc ttagaatggt ataaccagga gctgcggggg aacggccaca ctttgaaaat 480
ctgggcttgc aaactctatt acgagaaaaa tgcgaggaat caaattgggc tgtggaacct 540
cagagataac ggggttgggt tgaatgtaat ggtaagtgaa cactaccaat gttgcaggaa 600
aatattcatc caatcgtcgc acaatcaatt gaatgagaat agatggcttg agaagacttt 660
gaagcgagct gaaaaacgac ggagcgagtt gtccattatg attcaggtaa aaatactcca 720
caccactaag agtcctgctg tttaagaggc tatgcggatg gttttc 766
<210> 89
<211> 145
<212> PRT
<213> Homo sapiens
<400> 89
Met Asp Ser Leu Leu Met Asn Arg Arg Lys Phe Leu Tyr Gln Phe Lys
1 5 10 15
Asn Val Arg Trp Ala Lys Gly Arg Arg Glu Thr Tyr Leu Cys Tyr Val
20 25 30
Val Lys Arg Arg Asp Ser Ala Thr Ser Phe Ser Leu Asp Phe Gly Tyr
35 40 45
Leu Arg Asn Lys Asn Gly Cys His Val Glu Leu Leu Phe Leu Arg Tyr
50 55 60
Ile Ser Asp Trp Asp Leu Asp Pro Gly Arg Cys Tyr Arg Val Thr Trp
65 70 75 80
Phe Thr Ser Trp Ser Pro Cys Tyr Asp Cys Ala Arg His Val Ala Asp
85 90 95
Phe Leu Arg Gly Asn Pro Asn Leu Ser Leu Arg Ile Phe Thr Ala Arg
100 105 110
Leu Tyr Phe Cys Glu Asp Arg Lys Ala Glu Pro Glu Gly Leu Arg Arg
115 120 125
Leu His Arg Ala Gly Val Gln Ile Ala Ile Met Thr Phe Lys Ala Pro
130 135 140
Val
145
<210> 90
<211> 145
<212> PRT
<213> Homo sapiens
<400> 90
Met Asp Ser Leu Leu Met Asn Arg Arg Lys Phe Leu Tyr Gln Phe Lys
1 5 10 15
Asn Val Arg Trp Ala Lys Gly Arg Arg Glu Thr Tyr Leu Cys Tyr Val
20 25 30
Val Lys Arg Arg Asp Ser Ala Thr Ser Phe Ser Leu Asp Phe Gly Tyr
35 40 45
Leu Arg Asn Lys Asn Gly Cys His Val Glu Leu Leu Phe Leu Arg Tyr
50 55 60
Ile Ser Asp Trp Asp Leu Asp Pro Gly Arg Cys Tyr Arg Val Thr Trp
65 70 75 80
Phe Thr Ser Trp Ser Pro Cys Tyr Asp Cys Ala Arg His Val Ala Asp
85 90 95
Phe Leu Arg Gly Asn Pro Asn Leu Ser Leu Arg Ile Phe Thr Ala Arg
100 105 110
Leu Tyr Phe Cys Glu Asp Arg Lys Ala Glu Pro Glu Gly Leu Arg Arg
115 120 125
Leu His Arg Ala Gly Val Gln Ile Ala Ile Met Thr Phe Lys Ala Pro
130 135 140
Val
145
<210> 91
<211> 10681
<212> DNA
<213> Homo sapiens
<400> 91
agagaaccat cattaattga agtgagattt ttctggcctg agacttgcag ggaggcaaga 60
agacactctg gacaccacta tggacaggta aagaggcagt cttctcgtgg gtgattgcac 120
tggccttcct ctcagagcaa atctgagtaa tgagactggt agctatccct ttctctcatg 180
taactgtctg actgataaga tcagcttgat caatatgcat atatattttt tgatctgtct 240
ccttttcttc tattcagatc ttatacgctg tcagcccaat tctttctgtt tcagacttct 300
cttgatttcc ctctttttca tgtggcaaaa gaagtagtgc gtacaatgta ctgattcgtc 360
ctgagatttg taccatggtt gaaactaatt tatggtaata atattaacat agcaaatctt 420
tagagactca aatcatgaaa aggtaatagc agtactgtac taaaaacggt agtgctaatt 480
ttcgtaataa ttttgtaaat attcaacagt aaaacaactt gaagacacac tttcctaggg 540
aggcgttact gaaataattt agctatagta agaaaatttg taattttaga aatgccaagc 600
attctaaatt aattgcttga aagtcactat gattgtgtcc attataagga gacaaattca 660
ttcaagcaag ttatttaatg ttaaaggccc aattgttagg cagttaatgg cacttttact 720
attaactaat ctttccattt gttcagacgt agcttaactt acctcttagg tgtgaatttg 780
gttaaggtcc tcataatgtc tttatgtgca gtttttgata ggttattgtc atagaactta 840
ttctattcct acatttatga ttactatgga tgtatgagaa taacacctaa tccttatact 900
ttacctcaat ttaactcctt tataaagaac ttacattaca gaataaagat tttttaaaaa 960
tatatttttt tgtagagaca gggtcttagc ccagccgagg ctggtctcta agtcctggcc 1020
caagcgatcc tcctgcctgg gcctcctaaa gtgctggaat tatagacatg agccatcaca 1080
tccaatatac agaataaaga tttttaatgg aggatttaat gttcttcaga aaattttctt 1140
gaggtcagac aatgtcaaat gtctcctcag tttacactga gattttgaaa acaagtctga 1200
gctataggtc cttgtgaagg gtccattgga aatacttgtt caaagtaaaa tggaaagcaa 1260
aggtaaaatc agcagttgaa attcagagaa agacagaaaa ggagaaaaga tgaaattcaa 1320
caggacagaa gggaaatata ttatcattaa ggaggacagt atctgtagag ctcattagtg 1380
atggcaaaat gacttggtca ggattatttt taacccgctt gtttctggtt tgcacggctg 1440
gggatgcagc tagggttctg cctcagggag cacagctgtc cagagcagct gtcagcctgc 1500
aagcctgaaa cactccctcg gtaaagtcct tcctactcag gacagaaatg acgagaacag 1560
ggagctggaa acaggcccct aaccagagaa gggaagtaat ggatcaacaa agttaactag 1620
caggtcagga tcacgcaatt catttcactc tgactggtaa catgtgacag aaacagtgta 1680
ggcttattgt attttcatgt agagtaggac ccaaaaatcc acccaaagtc ctttatctat 1740
gccacatcct tcttatctat acttccagga cactttttct tccttatgat aaggctctct 1800
ctctctccac acacacacac acacacacac acacacacac acacacacac acaaacacac 1860
accccgccaa ccaaggtgca tgtaaaaaga tgtagattcc tctgcctttc tcatctacac 1920
agcccaggag ggtaagttaa tataagaggg atttattggt aagagatgat gcttaatctg 1980
tttaacactg ggcctcaaag agagaatttc ttttcttctg tacttattaa gcacctatta 2040
tgtgttgagc ttatatatac aaagggttat tatatgctaa tatagtaata gtaatggtgg 2100
ttggtactat ggtaattacc ataaaaatta ttatcctttt aaaataaagc taattattat 2160
tggatctttt ttagtattca ttttatgttt tttatgtttt tgatttttta aaagacaatc 2220
tcaccctgtt acccaggctg gagtgcagtg gtgcaatcat agctttctgc agtcttgaac 2280
tcctgggctc aagcaatcct cctgccttgg cctcccaaag tgttgggata cagtcatgag 2340
ccactgcatc tggcctagga tccatttaga ttaaaatatg cattttaaat tttaaaataa 2400
tatggctaat ttttacctta tgtaatgtgt atactggcaa taaatctagt ttgctgccta 2460
aagtttaaag tgctttccag taagcttcat gtacgtgagg ggagacattt aaagtgaaac 2520
agacagccag gtgtggtggc tcacgcctgt aatcccagca ctctgggagg ctgaggtggg 2580
tggatcgctt gagccctgga gttcaagacc agcctgagca acatggcaaa acgctgtttc 2640
tataacaaaa attagccggg catggtggca tgtgcctgtg gtcccagcta ctagggggct 2700
gaggcaggag aatcgttgga gcccaggagg tcaaggctgc actgagcagt gcttgcgcca 2760
ctgcactcca gcctgggtga caggaccaga ccttgcctca aaaaaataag aagaaaaatt 2820
aaaaataaat ggaaacaact acaaagagct gttgtcctag atgagctact tagttaggct 2880
gatattttgg tatttaactt ttaaagtcag ggtctgtcac ctgcactaca ttattaaaat 2940
atcaattctc aatgtatatc cacacaaaga ctggtacgtg aatgttcata gtacctttat 3000
tcacaaaacc ccaaagtaga gactatccaa atatccatca acaagtgaac aaataaacaa 3060
aatgtgctat atccatgcaa tggaatacca ccctgcagta caaagaagct acttggggat 3120
gaatcccaaa gtcatgacgc taaatgaaag agtcagacat gaaggaggag ataatgtatg 3180
ccatacgaaa ttctagaaaa tgaaagtaac ttatagttac agaaagcaaa tcagggcagg 3240
catagaggct cacacctgta atcccagcac tttgagaggc cacgtgggaa gattgctaga 3300
actcaggagt tcaagaccag cctgggcaac acagtgaaac tccattctcc acaaaaatgg 3360
gaaaaaaaga aagcaaatca gtggttgtcc tgtggggagg ggaaggactg caaagaggga 3420
agaagctctg gtggggtgag ggtggtgatt caggttctgt atcctgactg tggtagcagt 3480
ttggggtgtt tacatccaaa aatattcgta gaattatgca tcttaaatgg gtggagttta 3540
ctgtatgtaa attatacctc aatgtaagaa aaaataatgt gtaagaaaac tttcaattct 3600
cttgccagca aacgttattc aaattcctga gccctttact tcgcaaattc tctgcacttc 3660
tgccccgtac cattaggtga cagcactagc tccacaaatt ggataaatgc atttctggaa 3720
aagactaggg acaaaatcca ggcatcactt gtgctttcat atcaaccatg ctgtacagct 3780
tgtgttgctg tctgcagctg caatggggac tcttgatttc tttaaggaaa cttgggttac 3840
cagagtattt ccacaaatgc tattcaaatt agtgcttatg atatgcaaga cactgtgcta 3900
ggagccagaa aacaaagagg aggagaaatc agtcattatg tgggaacaac atagcaagat 3960
atttagatca ttttgactag ttaaaaaagc agcagagtac aaaatcacac atgcaatcag 4020
tataatccaa atcatgtaaa tatgtgcctg tagaaagact agaggaataa acacaagaat 4080
cttaacagtc attgtcatta gacactaagt ctaattatta ttattagaca ctatgatatt 4140
tgagatttaa aaaatcttta atattttaaa atttagagct cttctatttt tccatagtat 4200
tcaagtttga caatgatcaa gtattactct ttcttttttt tttttttttt ttttttttga 4260
gatggagttt tggtcttgtt gcccatgctg gagtggaatg gcatgaccat agctcactgc 4320
aacctccacc tcctgggttc aagcaaagct gtcgcctcag cctcccgggt agatgggatt 4380
acaggcgccc accaccacac tcggctaatg tttgtatttt tagtagagat ggggtttcac 4440
catgttggcc aggctggtct caaactcctg acctcagagg atccacctgc ctcagcctcc 4500
caaagtgctg ggattacaga tgtaggccac tgcgcccggc caagtattgc tcttatacat 4560
taaaaaacag gtgtgagcca ctgcgcccag ccaggtattg ctcttataca ttaaaaaata 4620
ggccggtgca gtggctcacg cctgtaatcc cagcactttg ggaagccaag gcgggcagaa 4680
cacccgaggt caggagtcca aggccagcct ggccaagatg gtgaaacccc gtctctatta 4740
aaaatacaaa cattacctgg gcatgatggt gggcgcctgt aatcccagct actcaggagg 4800
ctgaggcagg aggatccgcg gagcctggca gatctgcctg agcctgggag gttgaggcta 4860
cagtaagcca agatcatgcc agtatacttc agcctgggcg acaaagtgag accgtaacaa 4920
aaaaaaaaaa atttaaaaaa agaaatttag atcaagatcc aactgtaaaa agtggcctaa 4980
acaccacatt aaagagtttg gagtttattc tgcaggcaga agagaaccat cagggggtct 5040
tcagcatggg aatggcatgg tgcacctggt ttttgtgaga tcatggtggt gacagtgtgg 5100
ggaatgttat tttggaggga ctggaggcag acagaccggt taaaaggcca gcacaacaga 5160
taaggaggaa gaagatgagg gcttggaccg aagcagagaa gagcaaacag ggaaggtaca 5220
aattcaagaa atattggggg gtttgaatca acacatttag atgattaatt aaatatgagg 5280
actgaggaat aagaaatgag tcaaggatgg ttccaggctg ctaggctgct tacctgaggt 5340
ggcaaagtcg ggaggagtgg cagtttagga cagggggcag ttgaggaata ttgttttgat 5400
cattttgagt ttgaggtaca agttggacac ttaggtaaag actggagggg aaatctgaat 5460
atacaattat gggactgagg aacaagttta ttttattttt tgtttcgttt tcttgttgaa 5520
gaacaaattt aattgtaatc ccaagtcatc agcatctaga agacagtggc aggaggtgac 5580
tgtcttgtgg gtaagggttt ggggtccttg atgagtatct ctcaattggc cttaaatata 5640
agcaggaaaa ggagtttatg atggattcca ggctcagcag ggctcaggag ggctcaggca 5700
gccagcagag gaagtcagag catcttcttt ggtttagccc aagtaatgac ttccttaaaa 5760
agctgaagga aaatccagag tgaccagatt ataaactgta ctcttgcatt ttctctccct 5820
cctctcaccc acagcctctt gatgaaccgg aggaagtttc tttaccaatt caaaaatgtc 5880
cgctgggcta agggtcggcg tgagacctac ctgtgctacg tagtgaagag gcgtgacagt 5940
gctacatcct tttcactgga ctttggttat cttcgcaata aggtatcaat taaagtcggc 6000
tttgcaagca gtttaatggt caactgtgag tgcttttaga gccacctgct gatggtatta 6060
cttccatcct tttttggcat ttgtgtctct atcacattcc tcaaatcctt ttttttattt 6120
ctttttccat gtccatgcac ccatattaga catggcccaa aatatgtgat ttaattcctc 6180
cccagtaatg ctgggcaccc taataccact ccttccttca gtgccaagaa caactgctcc 6240
caaactgttt accagctttc ctcagcatct gaattgcctt tgagattaat taagctaaaa 6300
gcatttttat atgggagaat attatcagct tgtccaagca aaaattttaa atgtgaaaaa 6360
caaattgtgt cttaagcatt tttgaaaatt aaggaagaag aatttgggaa aaaattaacg 6420
gtggctcaat tctgtcttcc aaatgatttc ttttccctcc tactcacatg ggtcgtaggc 6480
cagtgaatac attcaacatg gtgatcccca gaaaactcag agaagcctcg gctgatgatt 6540
aattaaattg atctttcggc tacccgagag aattacattt ccaagagact tcttcaccaa 6600
aatccagatg ggtttacata aacttctgcc cacgggtatc tcctctctcc taacacgctg 6660
tgacgtctgg gcttggtgga atctcaggga agcatccgtg gggtggaagg tcatcgtctg 6720
gctcgttgtt tgatggttat attaccatgc aattttcttt gcctacattt gtattgaata 6780
catcccaatc tccttcctat tcggtgacat gacacattct atttcagaag gctttgattt 6840
tatcaagcac tttcatttac ttctcatggc agtgcctatt acttctctta caatacccat 6900
ctgtctgctt taccaaaatc tatttcccct tttcagatcc tcccaaatgg tcctcataaa 6960
ctgtcctgcc tccacctagt ggtccaggta tatttccaca atgttacatc aacaggcact 7020
tctagccatt ttccttctca aaaggtgcaa aaagcaactt cataaacaca aattaaatct 7080
tcggtgaggt agtgtgatgc tgcttcctcc caactcagcg cacttcgtct tcctcattcc 7140
acaaaaaccc atagccttcc ttcactctgc aggactagtg ctgccaaggg ttcagctcta 7200
cctactggtg tgctcttttg agcaagttgc ttagcctctc tgtaacacaa ggacaatagc 7260
tgcaagcatc cccaaagatc attgcaggag acaatgacta aggctaccag agccgcaata 7320
aaagtcagtg aattttagcg tggtcctctc tgtctctcca gaacggctgc cacgtggaat 7380
tgctcttcct ccgctacatc tcggactggg acctagaccc tggccgctgc taccgcgtca 7440
cctggttcac ctcctggagc ccctgctacg actgtgcccg acatgtggcc gactttctgc 7500
gagggaaccc caacctcagt ctgaggatct tcaccgcgcg cctctacttc tgtgaggacc 7560
gcaaggctga gcccgagggg ctgcggcggc tgcaccgcgc cggggtgcaa atagccatca 7620
tgaccttcaa aggtgcgaaa gggccttccg cgcaggcgca gtgcagcagc ccgcattcgg 7680
gattgcgatg cggaatgaat gagttagtgg ggaagctcga ggggaagaag tgggcgggga 7740
ttctggttca cctctggagc cgaaattaaa gattagaagc agagaaaaga gtgaatggct 7800
cagagacaag gccccgagga aatgagaaaa tggggccagg gttgcttctt tcccctcgat 7860
ttggaacctg aactgtcttc tacccccata tccccgcctt tttttccttt tttttttttt 7920
gaagattatt tttactgctg gaatactttt gtagaaaacc acgaaagaac tttcaaagcc 7980
tgggaagggc tgcatgaaaa ttcagttcgt ctctccagac agcttcggcg catccttttg 8040
gtaaggggct tcctcgcttt ttaaattttc tttctttctc tacagtcttt tttggagttt 8100
cgtatatttc ttatattttc ttattgttca atcactctca gttttcatct gatgaaaact 8160
ttatttctcc tccacatcag ctttttcttc tgctgtttca ccattcagag ccctctgcta 8220
aggttccttt tccctccctt ttctttcttt tgttgtttca catctttaaa tttctgtctc 8280
tccccagggt tgcgtttcct tcctggtcag aattcttttc tccttttttt tttttttttt 8340
tttttttttt aaacaaacaa acaaaaaacc caaaaaaact ctttcccaat ttactttctt 8400
ccaacatgtt acaaagccat ccactcagtt tagaagactc tccggcccca ccgaccccca 8460
acctcgtttt gaagccattc actcaatttg cttctctctt tctctacagc ccctgtatga 8520
ggttgatgac ttacgagacg catttcgtac tttgggactt tgatagcaac ttccaggaat 8580
gtcacacacg atgaaatatc tctgctgaag acagtggata aaaaacagtc cttcaagtct 8640
tctctgtttt tattcttcaa ctctcacttt cttagagttt acagaaaaaa tatttatata 8700
cgactcttta aaaagatcta tgtcttgaaa atagagaagg aacacaggtc tggccaggga 8760
cgtgctgcaa ttggtgcagt tttgaatgca acattgtccc ctactgggaa taacagaact 8820
gcaggacctg ggagcatcct aaagtgtcaa cgtttttcta tgacttttag gtaggatgag 8880
agcagaaggt agatcctaaa aagcatggtg agaggatcaa atgtttttat atcaacatcc 8940
tttattattt gattcatttg agttaacagt ggtgttagtg atagattttt ctattctttt 9000
cccttgacgt ttactttcaa gtaacacaaa ctcttccatc aggccatgat ctataggacc 9060
tcctaatgag agtatctggg tgattgtgac cccaaaccat ctctccaaag cattaatatc 9120
caatcatgcg ctgtatgttt taatcagcag aagcatgttt ttatgtttgt acaaaagaag 9180
attgttatgg gtggggatgg aggtatagac catgcatggt caccttcaag ctactttaat 9240
aaaggatctt aaaatgggca ggaggactgt gaacaagaca ccctaataat gggttgatgt 9300
ctgaagtagc aaatcttctg gaaacgcaaa ctcttttaag gaagtcccta atttagaaac 9360
acccacaaac ttcacatatc ataattagca aacaattgga aggaagttgc ttgaatgttg 9420
gggagaggaa aatctattgg ctctcgtggg tctcttcatc tcagaaatgc caatcaggtc 9480
aaggtttgct acattttgta tgtgtgtgat gcttctccca aaggtatatt aactatataa 9540
gagagttgtg acaaaacaga atgataaagc tgcgaaccgt ggcacacgct catagttcta 9600
gctgcttggg aggttgagga gggaggatgg cttgaacaca ggtgttcaag gccagcctgg 9660
gcaacataac aagatcctgt ctctcaaaaa aaaaaaaaaa aaaaagaaag agagagggcc 9720
gggcgtggtg gctcacgcct gtaatcccag cactttggga ggccgagccg ggcggatcac 9780
ctgtggtcag gagtttgaga ccagcctggc caacatggca aaaccccgtc tgtactcaaa 9840
atgcaaaaat tagccaggcg tggtagcagg cacctgtaat cccagctact tgggaggctg 9900
aggcaggaga atcgcttgaa cccaggaggt ggaggttgca gtaagctgag atcgtgccgt 9960
tgcactccag cctgggcgac aagagcaaga ctctgtctca gaaaaaaaaa aaaaaaagag 10020
agagagagag aaagagaaca atatttggga gagaaggatg gggaagcatt gcaaggaaat 10080
tgtgctttat ccaacaaaat gtaaggagcc aataagggat ccctatttgt ctcttttggt 10140
gtctatttgt ccctaacaac tgtctttgac agtgagaaaa atattcagaa taaccatatc 10200
cctgtgccgt tattacctag caacccttgc aatgaagatg agcagatcca caggaaaact 10260
tgaatgcaca actgtcttat tttaatctta ttgtacataa gtttgtaaaa gagttaaaaa 10320
ttgttacttc atgtattcat ttatatttta tattattttg cgtctaatga ttttttatta 10380
acatgatttc cttttctgat atattgaaat ggagtctcaa agcttcataa atttataact 10440
ttagaaatga ttctaataac aacgtatgta attgtaacat tgcagtaatg gtgctacgaa 10500
gccatttctc ttgattttta gtaaactttt atgacagcaa atttgcttct ggctcacttt 10560
caatcagtta aataaatgat aaataatttt ggaagctgtg aagataaaat accaaataaa 10620
ataatataaa agtgatttat atgaagttaa aataaaaaat cagtatgatg gaataaactt 10680
g 10681
<210> 92
<211> 198
<212> PRT
<213> Homo sapiens
<400> 92
Met Asp Ser Leu Leu Met Asn Arg Arg Lys Phe Leu Tyr Gln Phe Lys
1 5 10 15
Asn Val Arg Trp Ala Lys Gly Arg Arg Glu Thr Tyr Leu Cys Tyr Val
20 25 30
Val Lys Arg Arg Asp Ser Ala Thr Ser Phe Ser Leu Asp Phe Gly Tyr
35 40 45
Leu Arg Asn Lys Asn Gly Cys His Val Glu Leu Leu Phe Leu Arg Tyr
50 55 60
Ile Ser Asp Trp Asp Leu Asp Pro Gly Arg Cys Tyr Arg Val Thr Trp
65 70 75 80
Phe Thr Ser Trp Ser Pro Cys Tyr Asp Cys Ala Arg His Val Ala Asp
85 90 95
Phe Leu Arg Gly Asn Pro Asn Leu Ser Leu Arg Ile Phe Thr Ala Arg
100 105 110
Leu Tyr Phe Cys Glu Asp Arg Lys Ala Glu Pro Glu Gly Leu Arg Arg
115 120 125
Leu His Arg Ala Gly Val Gln Ile Ala Ile Met Thr Phe Lys Asp Tyr
130 135 140
Phe Tyr Cys Trp Asn Thr Phe Val Glu Asn His Glu Arg Thr Phe Lys
145 150 155 160
Ala Trp Glu Gly Leu His Glu Asn Ser Val Arg Leu Ser Arg Gln Leu
165 170 175
Arg Arg Ile Leu Leu Pro Leu Tyr Glu Val Asp Asp Leu Arg Asp Ala
180 185 190
Phe Arg Thr Leu Gly Leu
195
<210> 93
<211> 198
<212> PRT
<213> Mus sp.
<400> 93
Met Asp Ser Leu Leu Met Lys Gln Lys Lys Phe Leu Tyr His Phe Lys
1 5 10 15
Asn Val Arg Trp Ala Lys Gly Arg His Glu Thr Tyr Leu Cys Tyr Val
20 25 30
Val Lys Arg Arg Asp Ser Ala Thr Ser Cys Ser Leu Asp Phe Gly His
35 40 45
Leu Arg Asn Lys Ser Gly Cys His Val Glu Leu Leu Phe Leu Arg Tyr
50 55 60
Ile Ser Asp Trp Asp Leu Asp Pro Gly Arg Cys Tyr Arg Val Thr Trp
65 70 75 80
Phe Thr Ser Trp Ser Pro Cys Tyr Asp Cys Ala Arg His Val Ala Glu
85 90 95
Phe Leu Arg Trp Asn Pro Asn Leu Ser Leu Arg Ile Phe Thr Ala Arg
100 105 110
Leu Tyr Phe Cys Glu Asp Arg Lys Ala Glu Pro Glu Gly Leu Arg Arg
115 120 125
Leu His Arg Ala Gly Val Gln Ile Gly Ile Met Thr Phe Lys Asp Tyr
130 135 140
Phe Tyr Cys Trp Asn Thr Phe Val Glu Asn Arg Glu Arg Thr Phe Lys
145 150 155 160
Ala Trp Glu Gly Leu His Glu Asn Ser Val Arg Leu Thr Arg Gln Leu
165 170 175
Arg Arg Ile Leu Leu Pro Leu Tyr Glu Val Asp Asp Leu Arg Asp Ala
180 185 190
Phe Arg Met Leu Gly Phe
195
<210> 94
<211> 198
<212> PRT
<213> Canis sp.
<400> 94
Met Asp Ser Leu Leu Met Lys Gln Arg Lys Phe Leu Tyr His Phe Lys
1 5 10 15
Asn Val Arg Trp Ala Lys Gly Arg His Glu Thr Tyr Leu Cys Tyr Val
20 25 30
Val Lys Arg Arg Asp Ser Ala Thr Ser Phe Ser Leu Asp Phe Gly His
35 40 45
Leu Arg Asn Lys Ser Gly Cys His Val Glu Leu Leu Phe Leu Arg Tyr
50 55 60
Ile Ser Asp Trp Asp Leu Asp Pro Gly Arg Cys Tyr Arg Val Thr Trp
65 70 75 80
Phe Thr Ser Trp Ser Pro Cys Tyr Asp Cys Ala Arg His Val Ala Asp
85 90 95
Phe Leu Arg Gly Tyr Pro Asn Leu Ser Leu Arg Ile Phe Ala Ala Arg
100 105 110
Leu Tyr Phe Cys Glu Asp Arg Lys Ala Glu Pro Glu Gly Leu Arg Arg
115 120 125
Leu His Arg Ala Gly Val Gln Ile Ala Ile Met Thr Phe Lys Asp Tyr
130 135 140
Phe Tyr Cys Trp Asn Thr Phe Val Glu Asn Arg Glu Lys Thr Phe Lys
145 150 155 160
Ala Trp Glu Gly Leu His Glu Asn Ser Val Arg Leu Ser Arg Gln Leu
165 170 175
Arg Arg Ile Leu Leu Pro Leu Tyr Glu Val Asp Asp Leu Arg Asp Ala
180 185 190
Phe Arg Thr Leu Gly Leu
195
<210> 95
<211> 199
<212> PRT
<213> Bos sp.
<400> 95
Met Asp Ser Leu Leu Lys Lys Gln Arg Gln Phe Leu Tyr Gln Phe Lys
1 5 10 15
Asn Val Arg Trp Ala Lys Gly Arg His Glu Thr Tyr Leu Cys Tyr Val
20 25 30
Val Lys Arg Arg Asp Ser Pro Thr Ser Phe Ser Leu Asp Phe Gly His
35 40 45
Leu Arg Asn Lys Ala Gly Cys His Val Glu Leu Leu Phe Leu Arg Tyr
50 55 60
Ile Ser Asp Trp Asp Leu Asp Pro Gly Arg Cys Tyr Arg Val Thr Trp
65 70 75 80
Phe Thr Ser Trp Ser Pro Cys Tyr Asp Cys Ala Arg His Val Ala Asp
85 90 95
Phe Leu Arg Gly Tyr Pro Asn Leu Ser Leu Arg Ile Phe Thr Ala Arg
100 105 110
Leu Tyr Phe Cys Asp Lys Glu Arg Lys Ala Glu Pro Glu Gly Leu Arg
115 120 125
Arg Leu His Arg Ala Gly Val Gln Ile Ala Ile Met Thr Phe Lys Asp
130 135 140
Tyr Phe Tyr Cys Trp Asn Thr Phe Val Glu Asn His Glu Arg Thr Phe
145 150 155 160
Lys Ala Trp Glu Gly Leu His Glu Asn Ser Val Arg Leu Ser Arg Gln
165 170 175
Leu Arg Arg Ile Leu Leu Pro Leu Tyr Glu Val Asp Asp Leu Arg Asp
180 185 190
Ala Phe Arg Thr Leu Gly Leu
195
<210> 96
<211> 239
<212> PRT
<213> Rattus sp.
<400> 96
Met Ala Val Gly Ser Lys Pro Lys Ala Ala Leu Val Gly Pro His Trp
1 5 10 15
Glu Arg Glu Arg Ile Trp Cys Phe Leu Cys Ser Thr Gly Leu Gly Thr
20 25 30
Gln Gln Thr Gly Gln Thr Ser Arg Trp Leu Arg Pro Ala Ala Thr Gln
35 40 45
Asp Pro Val Ser Pro Pro Arg Ser Leu Leu Met Lys Gln Arg Lys Phe
50 55 60
Leu Tyr His Phe Lys Asn Val Arg Trp Ala Lys Gly Arg His Glu Thr
65 70 75 80
Tyr Leu Cys Tyr Val Val Lys Arg Arg Asp Ser Ala Thr Ser Phe Ser
85 90 95
Leu Asp Phe Gly Tyr Leu Arg Asn Lys Ser Gly Cys His Val Glu Leu
100 105 110
Leu Phe Leu Arg Tyr Ile Ser Asp Trp Asp Leu Asp Pro Gly Arg Cys
115 120 125
Tyr Arg Val Thr Trp Phe Thr Ser Trp Ser Pro Cys Tyr Asp Cys Ala
130 135 140
Arg His Val Ala Asp Phe Leu Arg Gly Asn Pro Asn Leu Ser Leu Arg
145 150 155 160
Ile Phe Thr Ala Arg Leu Thr Gly Trp Gly Ala Leu Pro Ala Gly Leu
165 170 175
Met Ser Pro Ala Arg Pro Ser Asp Tyr Phe Tyr Cys Trp Asn Thr Phe
180 185 190
Val Glu Asn His Glu Arg Thr Phe Lys Ala Trp Glu Gly Leu His Glu
195 200 205
Asn Ser Val Arg Leu Ser Arg Arg Leu Arg Arg Ile Leu Leu Pro Leu
210 215 220
Tyr Glu Val Asp Asp Leu Arg Asp Ala Phe Arg Thr Leu Gly Leu
225 230 235
<210> 97
<211> 429
<212> PRT
<213> Mus sp.
<400> 97
Met Gly Pro Phe Cys Leu Gly Cys Ser His Arg Lys Cys Tyr Ser Pro
1 5 10 15
Ile Arg Asn Leu Ile Ser Gln Glu Thr Phe Lys Phe His Phe Lys Asn
20 25 30
Leu Gly Tyr Ala Lys Gly Arg Lys Asp Thr Phe Leu Cys Tyr Glu Val
35 40 45
Thr Arg Lys Asp Cys Asp Ser Pro Val Ser Leu His His Gly Val Phe
50 55 60
Lys Asn Lys Asp Asn Ile His Ala Glu Ile Cys Phe Leu Tyr Trp Phe
65 70 75 80
His Asp Lys Val Leu Lys Val Leu Ser Pro Arg Glu Glu Phe Lys Ile
85 90 95
Thr Trp Tyr Met Ser Trp Ser Pro Cys Phe Glu Cys Ala Glu Gln Ile
100 105 110
Val Arg Phe Leu Ala Thr His His Asn Leu Ser Leu Asp Ile Phe Ser
115 120 125
Ser Arg Leu Tyr Asn Val Gln Asp Pro Glu Thr Gln Gln Asn Leu Cys
130 135 140
Arg Leu Val Gln Glu Gly Ala Gln Val Ala Ala Met Asp Leu Tyr Glu
145 150 155 160
Phe Lys Lys Cys Trp Lys Lys Phe Val Asp Asn Gly Gly Arg Arg Phe
165 170 175
Arg Pro Trp Lys Arg Leu Leu Thr Asn Phe Arg Tyr Gln Asp Ser Lys
180 185 190
Leu Gln Glu Ile Leu Arg Pro Cys Tyr Ile Pro Val Pro Ser Ser Ser
195 200 205
Ser Ser Thr Leu Ser Asn Ile Cys Leu Thr Lys Gly Leu Pro Glu Thr
210 215 220
Arg Phe Cys Val Glu Gly Arg Arg Met Asp Pro Leu Ser Glu Glu Glu
225 230 235 240
Phe Tyr Ser Gln Phe Tyr Asn Gln Arg Val Lys His Leu Cys Tyr Tyr
245 250 255
His Arg Met Lys Pro Tyr Leu Cys Tyr Gln Leu Glu Gln Phe Asn Gly
260 265 270
Gln Ala Pro Leu Lys Gly Cys Leu Leu Ser Glu Lys Gly Lys Gln His
275 280 285
Ala Glu Ile Leu Phe Leu Asp Lys Ile Arg Ser Met Glu Leu Ser Gln
290 295 300
Val Thr Ile Thr Cys Tyr Leu Thr Trp Ser Pro Cys Pro Asn Cys Ala
305 310 315 320
Trp Gln Leu Ala Ala Phe Lys Arg Asp Arg Pro Asp Leu Ile Leu His
325 330 335
Ile Tyr Thr Ser Arg Leu Tyr Phe His Trp Lys Arg Pro Phe Gln Lys
340 345 350
Gly Leu Cys Ser Leu Trp Gln Ser Gly Ile Leu Val Asp Val Met Asp
355 360 365
Leu Pro Gln Phe Thr Asp Cys Trp Thr Asn Phe Val Asn Pro Lys Arg
370 375 380
Pro Phe Trp Pro Trp Lys Gly Leu Glu Ile Ile Ser Arg Arg Thr Gln
385 390 395 400
Arg Arg Leu Arg Arg Ile Lys Glu Ser Trp Gly Leu Gln Asp Leu Val
405 410 415
Asn Asp Phe Gly Asn Leu Gln Leu Gly Pro Pro Met Ser
420 425
<210> 98
<211> 430
<212> PRT
<213> Rattus sp.
<400> 98
Met Gly Pro Phe Cys Leu Gly Cys Ser His Arg Lys Cys Tyr Ser Pro
1 5 10 15
Ile Arg Asn Leu Ile Ser Gln Glu Thr Phe Lys Phe His Phe Lys Asn
20 25 30
Arg Leu Arg Tyr Ala Ile Asp Arg Lys Asp Thr Phe Leu Cys Tyr Glu
35 40 45
Val Thr Arg Lys Asp Cys Asp Ser Pro Val Ser Leu His His Gly Val
50 55 60
Phe Lys Asn Lys Asp Asn Ile His Ala Glu Ile Cys Phe Leu Tyr Trp
65 70 75 80
Phe His Asp Lys Val Leu Lys Val Leu Ser Pro Arg Glu Glu Phe Lys
85 90 95
Ile Thr Trp Tyr Met Ser Trp Ser Pro Cys Phe Glu Cys Ala Glu Gln
100 105 110
Val Leu Arg Phe Leu Ala Thr His His Asn Leu Ser Leu Asp Ile Phe
115 120 125
Ser Ser Arg Leu Tyr Asn Ile Arg Asp Pro Glu Asn Gln Gln Asn Leu
130 135 140
Cys Arg Leu Val Gln Glu Gly Ala Gln Val Ala Ala Met Asp Leu Tyr
145 150 155 160
Glu Phe Lys Lys Cys Trp Lys Lys Phe Val Asp Asn Gly Gly Arg Arg
165 170 175
Phe Arg Pro Trp Lys Lys Leu Leu Thr Asn Phe Arg Tyr Gln Asp Ser
180 185 190
Lys Leu Gln Glu Ile Leu Arg Pro Cys Tyr Ile Pro Val Pro Ser Ser
195 200 205
Ser Ser Ser Thr Leu Ser Asn Ile Cys Leu Thr Lys Gly Leu Pro Glu
210 215 220
Thr Arg Phe Cys Val Glu Arg Arg Arg Val His Leu Leu Ser Glu Glu
225 230 235 240
Glu Phe Tyr Ser Gln Phe Tyr Asn Gln Arg Val Lys His Leu Cys Tyr
245 250 255
Tyr His Gly Val Lys Pro Tyr Leu Cys Tyr Gln Leu Glu Gln Phe Asn
260 265 270
Gly Gln Ala Pro Leu Lys Gly Cys Leu Leu Ser Glu Lys Gly Lys Gln
275 280 285
His Ala Glu Ile Leu Phe Leu Asp Lys Ile Arg Ser Met Glu Leu Ser
290 295 300
Gln Val Ile Ile Thr Cys Tyr Leu Thr Trp Ser Pro Cys Pro Asn Cys
305 310 315 320
Ala Trp Gln Leu Ala Ala Phe Lys Arg Asp Arg Pro Asp Leu Ile Leu
325 330 335
His Ile Tyr Thr Ser Arg Leu Tyr Phe His Trp Lys Arg Pro Phe Gln
340 345 350
Lys Gly Leu Cys Ser Leu Trp Gln Ser Gly Ile Leu Val Asp Val Met
355 360 365
Asp Leu Pro Gln Phe Thr Asp Cys Trp Thr Asn Phe Val Asn Pro Lys
370 375 380
Arg Pro Phe Trp Pro Trp Lys Gly Leu Glu Ile Ile Ser Arg Arg Thr
385 390 395 400
Gln Arg Arg Leu His Arg Ile Lys Glu Ser Trp Gly Leu Gln Asp Leu
405 410 415
Val Asn Asp Phe Gly Asn Leu Gln Leu Gly Pro Pro Met Ser
420 425 430
<210> 99
<211> 370
<212> PRT
<213> Macaca mulatta
<400> 99
Met Val Glu Pro Met Asp Pro Arg Thr Phe Val Ser Asn Phe Asn Asn
1 5 10 15
Arg Pro Ile Leu Ser Gly Leu Asn Thr Val Trp Leu Cys Cys Glu Val
20 25 30
Lys Thr Lys Asp Pro Ser Gly Pro Pro Leu Asp Ala Lys Ile Phe Gln
35 40 45
Gly Lys Val Tyr Ser Lys Ala Lys Tyr His Pro Glu Met Arg Phe Leu
50 55 60
Arg Trp Phe His Lys Trp Arg Gln Leu His His Asp Gln Glu Tyr Lys
65 70 75 80
Val Thr Trp Tyr Val Ser Trp Ser Pro Cys Thr Arg Cys Ala Asn Ser
85 90 95
Val Ala Thr Phe Leu Ala Lys Asp Pro Lys Val Thr Leu Thr Ile Phe
100 105 110
Val Ala Arg Leu Tyr Tyr Phe Trp Lys Pro Asp Tyr Gln Gln Ala Leu
115 120 125
Arg Ile Leu Cys Gln Lys Arg Gly Gly Pro His Ala Thr Met Lys Ile
130 135 140
Met Asn Tyr Asn Glu Phe Gln Asp Cys Trp Asn Lys Phe Val Asp Gly
145 150 155 160
Arg Gly Lys Pro Phe Lys Pro Arg Asn Asn Leu Pro Lys His Tyr Thr
165 170 175
Leu Leu Gln Ala Thr Leu Gly Glu Leu Leu Arg His Leu Met Asp Pro
180 185 190
Gly Thr Phe Thr Ser Asn Phe Asn Asn Lys Pro Trp Val Ser Gly Gln
195 200 205
His Glu Thr Tyr Leu Cys Tyr Lys Val Glu Arg Leu His Asn Asp Thr
210 215 220
Trp Val Pro Leu Asn Gln His Arg Gly Phe Leu Arg Asn Gln Ala Pro
225 230 235 240
Asn Ile His Gly Phe Pro Lys Gly Arg His Ala Glu Leu Cys Phe Leu
245 250 255
Asp Leu Ile Pro Phe Trp Lys Leu Asp Gly Gln Gln Tyr Arg Val Thr
260 265 270
Cys Phe Thr Ser Trp Ser Pro Cys Phe Ser Cys Ala Gln Glu Met Ala
275 280 285
Lys Phe Ile Ser Asn Asn Glu His Val Ser Leu Cys Ile Phe Ala Ala
290 295 300
Arg Ile Tyr Asp Asp Gln Gly Arg Tyr Gln Glu Gly Leu Arg Ala Leu
305 310 315 320
His Arg Asp Gly Ala Lys Ile Ala Met Met Asn Tyr Ser Glu Phe Glu
325 330 335
Tyr Cys Trp Asp Thr Phe Val Asp Arg Gln Gly Arg Pro Phe Gln Pro
340 345 350
Trp Asp Gly Leu Asp Glu His Ser Gln Ala Leu Ser Gly Arg Leu Arg
355 360 365
Ala Ile
370
<210> 100
<211> 384
<212> PRT
<213> Pan sp.
<400> 100
Met Lys Pro His Phe Arg Asn Pro Val Glu Arg Met Tyr Gln Asp Thr
1 5 10 15
Phe Ser Asp Asn Phe Tyr Asn Arg Pro Ile Leu Ser His Arg Asn Thr
20 25 30
Val Trp Leu Cys Tyr Glu Val Lys Thr Lys Gly Pro Ser Arg Pro Pro
35 40 45
Leu Asp Ala Lys Ile Phe Arg Gly Gln Val Tyr Ser Lys Leu Lys Tyr
50 55 60
His Pro Glu Met Arg Phe Phe His Trp Phe Ser Lys Trp Arg Lys Leu
65 70 75 80
His Arg Asp Gln Glu Tyr Glu Val Thr Trp Tyr Ile Ser Trp Ser Pro
85 90 95
Cys Thr Lys Cys Thr Arg Asp Val Ala Thr Phe Leu Ala Glu Asp Pro
100 105 110
Lys Val Thr Leu Thr Ile Phe Val Ala Arg Leu Tyr Tyr Phe Trp Asp
115 120 125
Pro Asp Tyr Gln Glu Ala Leu Arg Ser Leu Cys Gln Lys Arg Asp Gly
130 135 140
Pro Arg Ala Thr Met Lys Ile Met Asn Tyr Asp Glu Phe Gln His Cys
145 150 155 160
Trp Ser Lys Phe Val Tyr Ser Gln Arg Glu Leu Phe Glu Pro Trp Asn
165 170 175
Asn Leu Pro Lys Tyr Tyr Ile Leu Leu His Ile Met Leu Gly Glu Ile
180 185 190
Leu Arg His Ser Met Asp Pro Pro Thr Phe Thr Ser Asn Phe Asn Asn
195 200 205
Glu Leu Trp Val Arg Gly Arg His Glu Thr Tyr Leu Cys Tyr Glu Val
210 215 220
Glu Arg Leu His Asn Asp Thr Trp Val Leu Leu Asn Gln Arg Arg Gly
225 230 235 240
Phe Leu Cys Asn Gln Ala Pro His Lys His Gly Phe Leu Glu Gly Arg
245 250 255
His Ala Glu Leu Cys Phe Leu Asp Val Ile Pro Phe Trp Lys Leu Asp
260 265 270
Leu His Gln Asp Tyr Arg Val Thr Cys Phe Thr Ser Trp Ser Pro Cys
275 280 285
Phe Ser Cys Ala Gln Glu Met Ala Lys Phe Ile Ser Asn Asn Lys His
290 295 300
Val Ser Leu Cys Ile Phe Ala Ala Arg Ile Tyr Asp Asp Gln Gly Arg
305 310 315 320
Cys Gln Glu Gly Leu Arg Thr Leu Ala Lys Ala Gly Ala Lys Ile Ser
325 330 335
Ile Met Thr Tyr Ser Glu Phe Lys His Cys Trp Asp Thr Phe Val Asp
340 345 350
His Gln Gly Cys Pro Phe Gln Pro Trp Asp Gly Leu Glu Glu His Ser
355 360 365
Gln Ala Leu Ser Gly Arg Leu Arg Ala Ile Leu Gln Asn Gln Gly Asn
370 375 380
<210> 101
<211> 377
<212> PRT
<213> Chlorocebus sabaeus
<400> 101
Met Asn Pro Gln Ile Arg Asn Met Val Glu Gln Met Glu Pro Asp Ile
1 5 10 15
Phe Val Tyr Tyr Phe Asn Asn Arg Pro Ile Leu Ser Gly Arg Asn Thr
20 25 30
Val Trp Leu Cys Tyr Glu Val Lys Thr Lys Asp Pro Ser Gly Pro Pro
35 40 45
Leu Asp Ala Asn Ile Phe Gln Gly Lys Leu Tyr Pro Glu Ala Lys Asp
50 55 60
His Pro Glu Met Lys Phe Leu His Trp Phe Arg Lys Trp Arg Gln Leu
65 70 75 80
His Arg Asp Gln Glu Tyr Glu Val Thr Trp Tyr Val Ser Trp Ser Pro
85 90 95
Cys Thr Arg Cys Ala Asn Ser Val Ala Thr Phe Leu Ala Glu Asp Pro
100 105 110
Lys Val Thr Leu Thr Ile Phe Val Ala Arg Leu Tyr Tyr Phe Trp Lys
115 120 125
Pro Asp Tyr Gln Gln Ala Leu Arg Ile Leu Cys Gln Glu Arg Gly Gly
130 135 140
Pro His Ala Thr Met Lys Ile Met Asn Tyr Asn Glu Phe Gln His Cys
145 150 155 160
Trp Asn Glu Phe Val Asp Gly Gln Gly Lys Pro Phe Lys Pro Arg Lys
165 170 175
Asn Leu Pro Lys His Tyr Thr Leu Leu His Ala Thr Leu Gly Glu Leu
180 185 190
Leu Arg His Val Met Asp Pro Gly Thr Phe Thr Ser Asn Phe Asn Asn
195 200 205
Lys Pro Trp Val Ser Gly Gln Arg Glu Thr Tyr Leu Cys Tyr Lys Val
210 215 220
Glu Arg Ser His Asn Asp Thr Trp Val Leu Leu Asn Gln His Arg Gly
225 230 235 240
Phe Leu Arg Asn Gln Ala Pro Asp Arg His Gly Phe Pro Lys Gly Arg
245 250 255
His Ala Glu Leu Cys Phe Leu Asp Leu Ile Pro Phe Trp Lys Leu Asp
260 265 270
Asp Gln Gln Tyr Arg Val Thr Cys Phe Thr Ser Trp Ser Pro Cys Phe
275 280 285
Ser Cys Ala Gln Lys Met Ala Lys Phe Ile Ser Asn Asn Lys His Val
290 295 300
Ser Leu Cys Ile Phe Ala Ala Arg Ile Tyr Asp Asp Gln Gly Arg Cys
305 310 315 320
Gln Glu Gly Leu Arg Thr Leu His Arg Asp Gly Ala Lys Ile Ala Val
325 330 335
Met Asn Tyr Ser Glu Phe Glu Tyr Cys Trp Asp Thr Phe Val Asp Arg
340 345 350
Gln Gly Arg Pro Phe Gln Pro Trp Asp Gly Leu Asp Glu His Ser Gln
355 360 365
Ala Leu Ser Gly Arg Leu Arg Ala Ile
370 375
<210> 102
<211> 384
<212> PRT
<213> Homo sapiens
<400> 102
Met Lys Pro His Phe Arg Asn Thr Val Glu Arg Met Tyr Arg Asp Thr
1 5 10 15
Phe Ser Tyr Asn Phe Tyr Asn Arg Pro Ile Leu Ser Arg Arg Asn Thr
20 25 30
Val Trp Leu Cys Tyr Glu Val Lys Thr Lys Gly Pro Ser Arg Pro Pro
35 40 45
Leu Asp Ala Lys Ile Phe Arg Gly Gln Val Tyr Ser Glu Leu Lys Tyr
50 55 60
His Pro Glu Met Arg Phe Phe His Trp Phe Ser Lys Trp Arg Lys Leu
65 70 75 80
His Arg Asp Gln Glu Tyr Glu Val Thr Trp Tyr Ile Ser Trp Ser Pro
85 90 95
Cys Thr Lys Cys Thr Arg Asp Met Ala Thr Phe Leu Ala Glu Asp Pro
100 105 110
Lys Val Thr Leu Thr Ile Phe Val Ala Arg Leu Tyr Tyr Phe Trp Asp
115 120 125
Pro Asp Tyr Gln Glu Ala Leu Arg Ser Leu Cys Gln Lys Arg Asp Gly
130 135 140
Pro Arg Ala Thr Met Lys Ile Met Asn Tyr Asp Glu Phe Gln His Cys
145 150 155 160
Trp Ser Lys Phe Val Tyr Ser Gln Arg Glu Leu Phe Glu Pro Trp Asn
165 170 175
Asn Leu Pro Lys Tyr Tyr Ile Leu Leu His Ile Met Leu Gly Glu Ile
180 185 190
Leu Arg His Ser Met Asp Pro Pro Thr Phe Thr Phe Asn Phe Asn Asn
195 200 205
Glu Pro Trp Val Arg Gly Arg His Glu Thr Tyr Leu Cys Tyr Glu Val
210 215 220
Glu Arg Met His Asn Asp Thr Trp Val Leu Leu Asn Gln Arg Arg Gly
225 230 235 240
Phe Leu Cys Asn Gln Ala Pro His Lys His Gly Phe Leu Glu Gly Arg
245 250 255
His Ala Glu Leu Cys Phe Leu Asp Val Ile Pro Phe Trp Lys Leu Asp
260 265 270
Leu Asp Gln Asp Tyr Arg Val Thr Cys Phe Thr Ser Trp Ser Pro Cys
275 280 285
Phe Ser Cys Ala Gln Glu Met Ala Lys Phe Ile Ser Lys Asn Lys His
290 295 300
Val Ser Leu Cys Ile Phe Thr Ala Arg Ile Tyr Asp Asp Gln Gly Arg
305 310 315 320
Cys Gln Glu Gly Leu Arg Thr Leu Ala Glu Ala Gly Ala Lys Ile Ser
325 330 335
Ile Met Thr Tyr Ser Glu Phe Lys His Cys Trp Asp Thr Phe Val Asp
340 345 350
His Gln Gly Cys Pro Phe Gln Pro Trp Asp Gly Leu Asp Glu His Ser
355 360 365
Gln Asp Leu Ser Gly Arg Leu Arg Ala Ile Leu Gln Asn Gln Glu Asn
370 375 380
<210> 103
<211> 373
<212> PRT
<213> Homo sapiens
<400> 103
Met Lys Pro His Phe Arg Asn Thr Val Glu Arg Met Tyr Arg Asp Thr
1 5 10 15
Phe Ser Tyr Asn Phe Tyr Asn Arg Pro Ile Leu Ser Arg Arg Asn Thr
20 25 30
Val Trp Leu Cys Tyr Glu Val Lys Thr Lys Gly Pro Ser Arg Pro Arg
35 40 45
Leu Asp Ala Lys Ile Phe Arg Gly Gln Val Tyr Ser Gln Pro Glu His
50 55 60
His Ala Glu Met Cys Phe Leu Ser Trp Phe Cys Gly Asn Gln Leu Pro
65 70 75 80
Ala Tyr Lys Cys Phe Gln Ile Thr Trp Phe Val Ser Trp Thr Pro Cys
85 90 95
Pro Asp Cys Val Ala Lys Leu Ala Glu Phe Leu Ala Glu His Pro Asn
100 105 110
Val Thr Leu Thr Ile Ser Ala Ala Arg Leu Tyr Tyr Tyr Trp Glu Arg
115 120 125
Asp Tyr Arg Arg Ala Leu Cys Arg Leu Ser Gln Ala Gly Ala Arg Val
130 135 140
Lys Ile Met Asp Asp Glu Glu Phe Ala Tyr Cys Trp Glu Asn Phe Val
145 150 155 160
Tyr Ser Glu Gly Gln Pro Phe Met Pro Trp Tyr Lys Phe Asp Asp Asn
165 170 175
Tyr Ala Phe Leu His Arg Thr Leu Lys Glu Ile Leu Arg Asn Pro Met
180 185 190
Glu Ala Met Tyr Pro His Ile Phe Tyr Phe His Phe Lys Asn Leu Arg
195 200 205
Lys Ala Tyr Gly Arg Asn Glu Ser Trp Leu Cys Phe Thr Met Glu Val
210 215 220
Val Lys His His Ser Pro Val Ser Trp Lys Arg Gly Val Phe Arg Asn
225 230 235 240
Gln Val Asp Pro Glu Thr His Cys His Ala Glu Arg Cys Phe Leu Ser
245 250 255
Trp Phe Cys Asp Asp Ile Leu Ser Pro Asn Thr Asn Tyr Glu Val Thr
260 265 270
Trp Tyr Thr Ser Trp Ser Pro Cys Pro Glu Cys Ala Gly Glu Val Ala
275 280 285
Glu Phe Leu Ala Arg His Ser Asn Val Asn Leu Thr Ile Phe Thr Ala
290 295 300
Arg Leu Tyr Tyr Phe Trp Asp Thr Asp Tyr Gln Glu Gly Leu Arg Ser
305 310 315 320
Leu Ser Gln Glu Gly Ala Ser Val Glu Ile Met Gly Tyr Lys Asp Phe
325 330 335
Lys Tyr Cys Trp Glu Asn Phe Val Tyr Asn Asp Asp Glu Pro Phe Lys
340 345 350
Pro Trp Lys Gly Leu Lys Tyr Asn Phe Leu Phe Leu Asp Ser Lys Leu
355 360 365
Gln Glu Ile Leu Glu
370
<210> 104
<211> 382
<212> PRT
<213> Homo sapiens
<400> 104
Met Asn Pro Gln Ile Arg Asn Pro Met Glu Arg Met Tyr Arg Asp Thr
1 5 10 15
Phe Tyr Asp Asn Phe Glu Asn Glu Pro Ile Leu Tyr Gly Arg Ser Tyr
20 25 30
Thr Trp Leu Cys Tyr Glu Val Lys Ile Lys Arg Gly Arg Ser Asn Leu
35 40 45
Leu Trp Asp Thr Gly Val Phe Arg Gly Gln Val Tyr Phe Lys Pro Gln
50 55 60
Tyr His Ala Glu Met Cys Phe Leu Ser Trp Phe Cys Gly Asn Gln Leu
65 70 75 80
Pro Ala Tyr Lys Cys Phe Gln Ile Thr Trp Phe Val Ser Trp Thr Pro
85 90 95
Cys Pro Asp Cys Val Ala Lys Leu Ala Glu Phe Leu Ser Glu His Pro
100 105 110
Asn Val Thr Leu Thr Ile Ser Ala Ala Arg Leu Tyr Tyr Tyr Trp Glu
115 120 125
Arg Asp Tyr Arg Arg Ala Leu Cys Arg Leu Ser Gln Ala Gly Ala Arg
130 135 140
Val Thr Ile Met Asp Tyr Glu Glu Phe Ala Tyr Cys Trp Glu Asn Phe
145 150 155 160
Val Tyr Asn Glu Gly Gln Gln Phe Met Pro Trp Tyr Lys Phe Asp Glu
165 170 175
Asn Tyr Ala Phe Leu His Arg Thr Leu Lys Glu Ile Leu Arg Tyr Leu
180 185 190
Met Asp Pro Asp Thr Phe Thr Phe Asn Phe Asn Asn Asp Pro Leu Val
195 200 205
Leu Arg Arg Arg Gln Thr Tyr Leu Cys Tyr Glu Val Glu Arg Leu Asp
210 215 220
Asn Gly Thr Trp Val Leu Met Asp Gln His Met Gly Phe Leu Cys Asn
225 230 235 240
Glu Ala Lys Asn Leu Leu Cys Gly Phe Tyr Gly Arg His Ala Glu Leu
245 250 255
Arg Phe Leu Asp Leu Val Pro Ser Leu Gln Leu Asp Pro Ala Gln Ile
260 265 270
Tyr Arg Val Thr Trp Phe Ile Ser Trp Ser Pro Cys Phe Ser Trp Gly
275 280 285
Cys Ala Gly Glu Val Arg Ala Phe Leu Gln Glu Asn Thr His Val Arg
290 295 300
Leu Arg Ile Phe Ala Ala Arg Ile Tyr Asp Tyr Asp Pro Leu Tyr Lys
305 310 315 320
Glu Ala Leu Gln Met Leu Arg Asp Ala Gly Ala Gln Val Ser Ile Met
325 330 335
Thr Tyr Asp Glu Phe Glu Tyr Cys Trp Asp Thr Phe Val Tyr Arg Gln
340 345 350
Gly Cys Pro Phe Gln Pro Trp Asp Gly Leu Glu Glu His Ser Gln Ala
355 360 365
Leu Ser Gly Arg Leu Arg Ala Ile Leu Gln Asn Gln Gly Asn
370 375 380
<210> 105
<211> 395
<212> PRT
<213> Rattus sp.
<400> 105
Met Gln Pro Gln Gly Leu Gly Pro Asn Ala Gly Met Gly Pro Val Cys
1 5 10 15
Leu Gly Cys Ser His Arg Arg Pro Tyr Ser Pro Ile Arg Asn Pro Leu
20 25 30
Lys Lys Leu Tyr Gln Gln Thr Phe Tyr Phe His Phe Lys Asn Val Arg
35 40 45
Tyr Ala Trp Gly Arg Lys Asn Asn Phe Leu Cys Tyr Glu Val Asn Gly
50 55 60
Met Asp Cys Ala Leu Pro Val Pro Leu Arg Gln Gly Val Phe Arg Lys
65 70 75 80
Gln Gly His Ile His Ala Glu Leu Cys Phe Ile Tyr Trp Phe His Asp
85 90 95
Lys Val Leu Arg Val Leu Ser Pro Met Glu Glu Phe Lys Val Thr Trp
100 105 110
Tyr Met Ser Trp Ser Pro Cys Ser Lys Cys Ala Glu Gln Val Ala Arg
115 120 125
Phe Leu Ala Ala His Arg Asn Leu Ser Leu Ala Ile Phe Ser Ser Arg
130 135 140
Leu Tyr Tyr Tyr Leu Arg Asn Pro Asn Tyr Gln Gln Lys Leu Cys Arg
145 150 155 160
Leu Ile Gln Glu Gly Val His Val Ala Ala Met Asp Leu Pro Glu Phe
165 170 175
Lys Lys Cys Trp Asn Lys Phe Val Asp Asn Asp Gly Gln Pro Phe Arg
180 185 190
Pro Trp Met Arg Leu Arg Ile Asn Phe Ser Phe Tyr Asp Cys Lys Leu
195 200 205
Gln Glu Ile Phe Ser Arg Met Asn Leu Leu Arg Glu Asp Val Phe Tyr
210 215 220
Leu Gln Phe Asn Asn Ser His Arg Val Lys Pro Val Gln Asn Arg Tyr
225 230 235 240
Tyr Arg Arg Lys Ser Tyr Leu Cys Tyr Gln Leu Glu Arg Ala Asn Gly
245 250 255
Gln Glu Pro Leu Lys Gly Tyr Leu Leu Tyr Lys Lys Gly Glu Gln His
260 265 270
Val Glu Ile Leu Phe Leu Glu Lys Met Arg Ser Met Glu Leu Ser Gln
275 280 285
Val Arg Ile Thr Cys Tyr Leu Thr Trp Ser Pro Cys Pro Asn Cys Ala
290 295 300
Arg Gln Leu Ala Ala Phe Lys Lys Asp His Pro Asp Leu Ile Leu Arg
305 310 315 320
Ile Tyr Thr Ser Arg Leu Tyr Phe Trp Arg Lys Lys Phe Gln Lys Gly
325 330 335
Leu Cys Thr Leu Trp Arg Ser Gly Ile His Val Asp Val Met Asp Leu
340 345 350
Pro Gln Phe Ala Asp Cys Trp Thr Asn Phe Val Asn Pro Gln Arg Pro
355 360 365
Phe Arg Pro Trp Asn Glu Leu Glu Lys Asn Ser Trp Arg Ile Gln Arg
370 375 380
Arg Leu Arg Arg Ile Lys Glu Ser Trp Gly Leu
385 390 395
<210> 106
<211> 226
<212> PRT
<213> Bos sp.
<400> 106
Asp Gly Trp Glu Val Ala Phe Arg Ser Gly Thr Val Leu Lys Ala Gly
1 5 10 15
Val Leu Gly Val Ser Met Thr Glu Gly Trp Ala Gly Ser Gly His Pro
20 25 30
Gly Gln Gly Ala Cys Val Trp Thr Pro Gly Thr Arg Asn Thr Met Asn
35 40 45
Leu Leu Arg Glu Val Leu Phe Lys Gln Gln Phe Gly Asn Gln Pro Arg
50 55 60
Val Pro Ala Pro Tyr Tyr Arg Arg Lys Thr Tyr Leu Cys Tyr Gln Leu
65 70 75 80
Lys Gln Arg Asn Asp Leu Thr Leu Asp Arg Gly Cys Phe Arg Asn Lys
85 90 95
Lys Gln Arg His Ala Glu Arg Phe Ile Asp Lys Ile Asn Ser Leu Asp
100 105 110
Leu Asn Pro Ser Gln Ser Tyr Lys Ile Ile Cys Tyr Ile Thr Trp Ser
115 120 125
Pro Cys Pro Asn Cys Ala Asn Glu Leu Val Asn Phe Ile Thr Arg Asn
130 135 140
Asn His Leu Lys Leu Glu Ile Phe Ala Ser Arg Leu Tyr Phe His Trp
145 150 155 160
Ile Lys Ser Phe Lys Met Gly Leu Gln Asp Leu Gln Asn Ala Gly Ile
165 170 175
Ser Val Ala Val Met Thr His Thr Glu Phe Glu Asp Cys Trp Glu Gln
180 185 190
Phe Val Asp Asn Gln Ser Arg Pro Phe Gln Pro Trp Asp Lys Leu Glu
195 200 205
Gln Tyr Ser Ala Ser Ile Arg Arg Arg Leu Gln Arg Ile Leu Thr Ala
210 215 220
Pro Ile
225
<210> 107
<211> 490
<212> PRT
<213> Pan sp.
<400> 107
Met Asn Pro Gln Ile Arg Asn Pro Met Glu Trp Met Tyr Gln Arg Thr
1 5 10 15
Phe Tyr Tyr Asn Phe Glu Asn Glu Pro Ile Leu Tyr Gly Arg Ser Tyr
20 25 30
Thr Trp Leu Cys Tyr Glu Val Lys Ile Arg Arg Gly His Ser Asn Leu
35 40 45
Leu Trp Asp Thr Gly Val Phe Arg Gly Gln Met Tyr Ser Gln Pro Glu
50 55 60
His His Ala Glu Met Cys Phe Leu Ser Trp Phe Cys Gly Asn Gln Leu
65 70 75 80
Ser Ala Tyr Lys Cys Phe Gln Ile Thr Trp Phe Val Ser Trp Thr Pro
85 90 95
Cys Pro Asp Cys Val Ala Lys Leu Ala Lys Phe Leu Ala Glu His Pro
100 105 110
Asn Val Thr Leu Thr Ile Ser Ala Ala Arg Leu Tyr Tyr Tyr Trp Glu
115 120 125
Arg Asp Tyr Arg Arg Ala Leu Cys Arg Leu Ser Gln Ala Gly Ala Arg
130 135 140
Val Lys Ile Met Asp Asp Glu Glu Phe Ala Tyr Cys Trp Glu Asn Phe
145 150 155 160
Val Tyr Asn Glu Gly Gln Pro Phe Met Pro Trp Tyr Lys Phe Asp Asp
165 170 175
Asn Tyr Ala Phe Leu His Arg Thr Leu Lys Glu Ile Ile Arg His Leu
180 185 190
Met Asp Pro Asp Thr Phe Thr Phe Asn Phe Asn Asn Asp Pro Leu Val
195 200 205
Leu Arg Arg His Gln Thr Tyr Leu Cys Tyr Glu Val Glu Arg Leu Asp
210 215 220
Asn Gly Thr Trp Val Leu Met Asp Gln His Met Gly Phe Leu Cys Asn
225 230 235 240
Glu Ala Lys Asn Leu Leu Cys Gly Phe Tyr Gly Arg His Ala Glu Leu
245 250 255
Arg Phe Leu Asp Leu Val Pro Ser Leu Gln Leu Asp Pro Ala Gln Ile
260 265 270
Tyr Arg Val Thr Trp Phe Ile Ser Trp Ser Pro Cys Phe Ser Trp Gly
275 280 285
Cys Ala Gly Gln Val Arg Ala Phe Leu Gln Glu Asn Thr His Val Arg
290 295 300
Leu Arg Ile Phe Ala Ala Arg Ile Tyr Asp Tyr Asp Pro Leu Tyr Lys
305 310 315 320
Glu Ala Leu Gln Met Leu Arg Asp Ala Gly Ala Gln Val Ser Ile Met
325 330 335
Thr Tyr Asp Glu Phe Glu Tyr Cys Trp Asp Thr Phe Val Tyr Arg Gln
340 345 350
Gly Cys Pro Phe Gln Pro Trp Asp Gly Leu Glu Glu His Ser Gln Ala
355 360 365
Leu Ser Gly Arg Leu Arg Ala Ile Leu Gln Val Arg Ala Ser Ser Leu
370 375 380
Cys Met Val Pro His Arg Pro Pro Pro Pro Pro Gln Ser Pro Gly Pro
385 390 395 400
Cys Leu Pro Leu Cys Ser Glu Pro Pro Leu Gly Ser Leu Leu Pro Thr
405 410 415
Gly Arg Pro Ala Pro Ser Leu Pro Phe Leu Leu Thr Ala Ser Phe Ser
420 425 430
Phe Pro Pro Pro Ala Ser Leu Pro Pro Leu Pro Ser Leu Ser Leu Ser
435 440 445
Pro Gly His Leu Pro Val Pro Ser Phe His Ser Leu Thr Ser Cys Ser
450 455 460
Ile Gln Pro Pro Cys Ser Ser Arg Ile Arg Glu Thr Glu Gly Trp Ala
465 470 475 480
Ser Val Ser Lys Glu Gly Arg Asp Leu Gly
485 490
<210> 108
<211> 190
<212> PRT
<213> Homo sapiens
<400> 108
Met Asn Pro Gln Ile Arg Asn Pro Met Lys Ala Met Tyr Pro Gly Thr
1 5 10 15
Phe Tyr Phe Gln Phe Lys Asn Leu Trp Glu Ala Asn Asp Arg Asn Glu
20 25 30
Thr Trp Leu Cys Phe Thr Val Glu Gly Ile Lys Arg Arg Ser Val Val
35 40 45
Ser Trp Lys Thr Gly Val Phe Arg Asn Gln Val Asp Ser Glu Thr His
50 55 60
Cys His Ala Glu Arg Cys Phe Leu Ser Trp Phe Cys Asp Asp Ile Leu
65 70 75 80
Ser Pro Asn Thr Lys Tyr Gln Val Thr Trp Tyr Thr Ser Trp Ser Pro
85 90 95
Cys Pro Asp Cys Ala Gly Glu Val Ala Glu Phe Leu Ala Arg His Ser
100 105 110
Asn Val Asn Leu Thr Ile Phe Thr Ala Arg Leu Tyr Tyr Phe Gln Tyr
115 120 125
Pro Cys Tyr Gln Glu Gly Leu Arg Ser Leu Ser Gln Glu Gly Val Ala
130 135 140
Val Glu Ile Met Asp Tyr Glu Asp Phe Lys Tyr Cys Trp Glu Asn Phe
145 150 155 160
Val Tyr Asn Asp Asn Glu Pro Phe Lys Pro Trp Lys Gly Leu Lys Thr
165 170 175
Asn Phe Arg Leu Leu Lys Arg Arg Leu Arg Glu Ser Leu Gln
180 185 190
<210> 109
<211> 190
<212> PRT
<213> Gorilla sp.
<400> 109
Met Asn Pro Gln Ile Arg Asn Pro Met Lys Ala Met Tyr Pro Gly Thr
1 5 10 15
Phe Tyr Phe Gln Phe Lys Asn Leu Trp Glu Ala Asn Asp Arg Asn Glu
20 25 30
Thr Trp Leu Cys Phe Thr Val Glu Gly Ile Lys Arg Arg Ser Val Val
35 40 45
Ser Trp Lys Thr Gly Val Phe Arg Asn Gln Val Asp Ser Glu Thr His
50 55 60
Cys His Ala Glu Arg Cys Phe Leu Ser Trp Glu Cys Asp Asp Ile Leu
65 70 75 80
Ser Pro Asn Thr Asn Tyr Gln Val Thr Trp Tyr Thr Ser Trp Ser Pro
85 90 95
Cys Pro Glu Cys Ala Gly Glu Val Ala Glu Phe Leu Ala Arg His Ser
100 105 110
Asn Val Asn Leu Thr Ile Phe Thr Ala Arg Leu Tyr Tyr Phe Gln Asp
115 120 125
Thr Asp Tyr Gln Glu Gly Leu Arg Ser Leu Ser Gln Glu Gly Val Ala
130 135 140
Val Lys Ile Met Asp Tyr Lys Asp Phe Lys Tyr Cys Trp Glu Asn Phe
145 150 155 160
Val Tyr Asn Asp Asp Glu Pro Phe Lys Pro Trp Lys Gly Leu Lys Tyr
165 170 175
Asn Phe Arg Phe Leu Lys Arg Arg Leu Gln Glu Ile Leu Glu
180 185 190
<210> 110
<211> 199
<212> PRT
<213> Homo sapiens
<400> 110
Met Glu Ala Ser Pro Ala Ser Gly Pro Arg His Leu Met Asp Pro His
1 5 10 15
Ile Phe Thr Ser Asn Phe Asn Asn Gly Ile Gly Arg His Lys Thr Tyr
20 25 30
Leu Cys Tyr Glu Val Glu Arg Leu Asp Asn Gly Thr Ser Val Lys Met
35 40 45
Asp Gln His Arg Gly Phe Leu His Asn Gln Ala Lys Asn Leu Leu Cys
50 55 60
Gly Phe Tyr Gly Arg His Ala Glu Leu Arg Phe Leu Asp Leu Val Pro
65 70 75 80
Ser Leu Gln Leu Asp Pro Ala Gln Ile Tyr Arg Val Thr Trp Phe Ile
85 90 95
Ser Trp Ser Pro Cys Phe Ser Trp Gly Cys Ala Gly Glu Val Arg Ala
100 105 110
Phe Leu Gln Glu Asn Thr His Val Arg Leu Arg Ile Phe Ala Ala Arg
115 120 125
Ile Tyr Asp Tyr Asp Pro Leu Tyr Lys Glu Ala Leu Gln Met Leu Arg
130 135 140
Asp Ala Gly Ala Gln Val Ser Ile Met Thr Tyr Asp Glu Phe Lys His
145 150 155 160
Cys Trp Asp Thr Phe Val Asp His Gln Gly Cys Pro Phe Gln Pro Trp
165 170 175
Asp Gly Leu Asp Glu His Ser Gln Ala Leu Ser Gly Arg Leu Arg Ala
180 185 190
Ile Leu Gln Asn Gln Gly Asn
195
<210> 111
<211> 202
<212> PRT
<213> Macaca mulatta
<400> 111
Met Asp Gly Ser Pro Ala Ser Arg Pro Arg His Leu Met Asp Pro Asn
1 5 10 15
Thr Phe Thr Phe Asn Phe Asn Asn Asp Leu Ser Val Arg Gly Arg His
20 25 30
Gln Thr Tyr Leu Cys Tyr Glu Val Glu Arg Leu Asp Asn Gly Thr Trp
35 40 45
Val Pro Met Asp Glu Arg Arg Gly Phe Leu Cys Asn Lys Ala Lys Asn
50 55 60
Val Pro Cys Gly Asp Tyr Gly Cys His Val Glu Leu Arg Phe Leu Cys
65 70 75 80
Glu Val Pro Ser Trp Gln Leu Asp Pro Ala Gln Thr Tyr Arg Val Thr
85 90 95
Trp Phe Ile Ser Trp Ser Pro Cys Phe Arg Arg Gly Cys Ala Gly Gln
100 105 110
Val Arg Val Phe Leu Gln Glu Asn Lys His Val Arg Leu Arg Ile Phe
115 120 125
Ala Ala Arg Ile Tyr Asp Tyr Asp Pro Leu Tyr Gln Glu Ala Leu Arg
130 135 140
Thr Leu Arg Asp Ala Gly Ala Gln Val Ser Ile Met Thr Tyr Glu Glu
145 150 155 160
Phe Lys His Cys Trp Asp Thr Phe Val Asp Arg Gln Gly Arg Pro Phe
165 170 175
Gln Pro Trp Asp Gly Leu Asp Glu His Ser Gln Ala Leu Ser Gly Arg
180 185 190
Leu Arg Ala Ile Leu Gln Asn Gln Gly Asn
195 200
<210> 112
<211> 185
<212> PRT
<213> Bos sp.
<400> 112
Met Asp Glu Tyr Thr Phe Thr Glu Asn Phe Asn Asn Gln Gly Trp Pro
1 5 10 15
Ser Lys Thr Tyr Leu Cys Tyr Glu Met Glu Arg Leu Asp Gly Asp Ala
20 25 30
Thr Ile Pro Leu Asp Glu Tyr Lys Gly Phe Val Arg Asn Lys Gly Leu
35 40 45
Asp Gln Pro Glu Lys Pro Cys His Ala Glu Leu Tyr Phe Leu Gly Lys
50 55 60
Ile His Ser Trp Asn Leu Asp Arg Asn Gln His Tyr Arg Leu Thr Cys
65 70 75 80
Phe Ile Ser Trp Ser Pro Cys Tyr Asp Cys Ala Gln Lys Leu Thr Thr
85 90 95
Phe Leu Lys Glu Asn His His Ile Ser Leu His Ile Leu Ala Ser Arg
100 105 110
Ile Tyr Thr His Asn Arg Phe Gly Cys His Gln Ser Gly Leu Cys Glu
115 120 125
Leu Gln Ala Ala Gly Ala Arg Ile Thr Ile Met Thr Phe Glu Asp Phe
130 135 140
Lys His Cys Trp Glu Thr Phe Val Asp His Lys Gly Lys Pro Phe Gln
145 150 155 160
Pro Trp Glu Gly Leu Asn Val Lys Ser Gln Ala Leu Cys Thr Glu Leu
165 170 175
Gln Ala Ile Leu Lys Thr Gln Gln Asn
180 185
<210> 113
<211> 200
<212> PRT
<213> Homo sapiens
<400> 113
Met Ala Leu Leu Thr Ala Glu Thr Phe Arg Leu Gln Phe Asn Asn Lys
1 5 10 15
Arg Arg Leu Arg Arg Pro Tyr Tyr Pro Arg Lys Ala Leu Leu Cys Tyr
20 25 30
Gln Leu Thr Pro Gln Asn Gly Ser Thr Pro Thr Arg Gly Tyr Phe Glu
35 40 45
Asn Lys Lys Lys Cys His Ala Glu Ile Cys Phe Ile Asn Glu Ile Lys
50 55 60
Ser Met Gly Leu Asp Glu Thr Gln Cys Tyr Gln Val Thr Cys Tyr Leu
65 70 75 80
Thr Trp Ser Pro Cys Ser Ser Cys Ala Trp Glu Leu Val Asp Phe Ile
85 90 95
Lys Ala His Asp His Leu Asn Leu Gly Ile Phe Ala Ser Arg Leu Tyr
100 105 110
Tyr His Trp Cys Lys Pro Gln Gln Lys Gly Leu Arg Leu Leu Cys Gly
115 120 125
Ser Gln Val Pro Val Glu Val Met Gly Phe Pro Lys Phe Ala Asp Cys
130 135 140
Trp Glu Asn Phe Val Asp His Glu Lys Pro Leu Ser Phe Asn Pro Tyr
145 150 155 160
Lys Met Leu Glu Glu Leu Asp Lys Asn Ser Arg Ala Ile Lys Arg Arg
165 170 175
Leu Glu Arg Ile Lys Ile Pro Gly Val Arg Ala Gln Gly Arg Tyr Met
180 185 190
Asp Ile Leu Cys Asp Ala Glu Val
195 200
<210> 114
<211> 210
<212> PRT
<213> Macaca mulatta
<400> 114
Met Ala Leu Leu Thr Ala Lys Thr Phe Ser Leu Gln Phe Asn Asn Lys
1 5 10 15
Arg Arg Val Asn Lys Pro Tyr Tyr Pro Arg Lys Ala Leu Leu Cys Tyr
20 25 30
Gln Leu Thr Pro Gln Asn Gly Ser Thr Pro Thr Arg Gly His Leu Lys
35 40 45
Asn Lys Lys Lys Asp His Ala Glu Ile Arg Phe Ile Asn Lys Ile Lys
50 55 60
Ser Met Gly Leu Asp Glu Thr Gln Cys Tyr Gln Val Thr Cys Tyr Leu
65 70 75 80
Thr Trp Ser Pro Cys Pro Ser Cys Ala Gly Glu Leu Val Asp Phe Ile
85 90 95
Lys Ala His Arg His Leu Asn Leu Arg Ile Phe Ala Ser Arg Leu Tyr
100 105 110
Tyr His Trp Arg Pro Asn Tyr Gln Glu Gly Leu Leu Leu Leu Cys Gly
115 120 125
Ser Gln Val Pro Val Glu Val Met Gly Leu Pro Glu Phe Thr Asp Cys
130 135 140
Trp Glu Asn Phe Val Asp His Lys Glu Pro Pro Ser Phe Asn Pro Ser
145 150 155 160
Glu Lys Leu Glu Glu Leu Asp Lys Asn Ser Gln Ala Ile Lys Arg Arg
165 170 175
Leu Glu Arg Ile Lys Ser Arg Ser Val Asp Val Leu Glu Asn Gly Leu
180 185 190
Arg Ser Leu Gln Leu Gly Pro Val Thr Pro Ser Ser Ser Ile Arg Asn
195 200 205
Ser Arg
210
<210> 115
<211> 386
<212> PRT
<213> Homo sapiens
<400> 115
Met Asn Pro Gln Ile Arg Asn Pro Met Glu Arg Met Tyr Arg Asp Thr
1 5 10 15
Phe Tyr Asp Asn Phe Glu Asn Glu Pro Ile Leu Tyr Gly Arg Ser Tyr
20 25 30
Thr Trp Leu Cys Tyr Glu Val Lys Ile Lys Arg Gly Arg Ser Asn Leu
35 40 45
Leu Trp Asp Thr Gly Val Phe Arg Gly Pro Val Leu Pro Lys Arg Gln
50 55 60
Ser Asn His Arg Gln Glu Val Tyr Phe Arg Phe Glu Asn His Ala Glu
65 70 75 80
Met Cys Phe Leu Ser Trp Phe Cys Gly Asn Arg Leu Pro Ala Asn Arg
85 90 95
Arg Phe Gln Ile Thr Trp Phe Val Ser Trp Asn Pro Cys Leu Pro Cys
100 105 110
Val Val Lys Val Thr Lys Phe Leu Ala Glu His Pro Asn Val Thr Leu
115 120 125
Thr Ile Ser Ala Ala Arg Leu Tyr Tyr Tyr Arg Asp Arg Asp Trp Arg
130 135 140
Trp Val Leu Leu Arg Leu His Lys Ala Gly Ala Arg Val Lys Ile Met
145 150 155 160
Asp Tyr Glu Asp Phe Ala Tyr Cys Trp Glu Asn Phe Val Cys Asn Glu
165 170 175
Gly Gln Pro Phe Met Pro Trp Tyr Lys Phe Asp Asp Asn Tyr Ala Ser
180 185 190
Leu His Arg Thr Leu Lys Glu Ile Leu Arg Asn Pro Met Glu Ala Met
195 200 205
Tyr Pro His Ile Phe Tyr Phe His Phe Lys Asn Leu Leu Lys Ala Cys
210 215 220
Gly Arg Asn Glu Ser Trp Leu Cys Phe Thr Met Glu Val Thr Lys His
225 230 235 240
His Ser Ala Val Phe Arg Lys Arg Gly Val Phe Arg Asn Gln Val Asp
245 250 255
Pro Glu Thr His Cys His Ala Glu Arg Cys Phe Leu Ser Trp Phe Cys
260 265 270
Asp Asp Ile Leu Ser Pro Asn Thr Asn Tyr Glu Val Thr Trp Tyr Thr
275 280 285
Ser Trp Ser Pro Cys Pro Glu Cys Ala Gly Glu Val Ala Glu Phe Leu
290 295 300
Ala Arg His Ser Asn Val Asn Leu Thr Ile Phe Thr Ala Arg Leu Cys
305 310 315 320
Tyr Phe Trp Asp Thr Asp Tyr Gln Glu Gly Leu Cys Ser Leu Ser Gln
325 330 335
Glu Gly Ala Ser Val Lys Ile Met Gly Tyr Lys Asp Phe Val Ser Cys
340 345 350
Trp Lys Asn Phe Val Tyr Ser Asp Asp Glu Pro Phe Lys Pro Trp Lys
355 360 365
Gly Leu Gln Thr Asn Phe Arg Leu Leu Lys Arg Arg Leu Arg Glu Ile
370 375 380
Leu Gln
385
<210> 116
<211> 236
<212> PRT
<213> Homo sapiens
<400> 116
Met Thr Ser Glu Lys Gly Pro Ser Thr Gly Asp Pro Thr Leu Arg Arg
1 5 10 15
Arg Ile Glu Pro Trp Glu Phe Asp Val Phe Tyr Asp Pro Arg Glu Leu
20 25 30
Arg Lys Glu Ala Cys Leu Leu Tyr Glu Ile Lys Trp Gly Met Ser Arg
35 40 45
Lys Ile Trp Arg Ser Ser Gly Lys Asn Thr Thr Asn His Val Glu Val
50 55 60
Asn Phe Ile Lys Lys Phe Thr Ser Glu Arg Asp Phe His Pro Ser Met
65 70 75 80
Ser Cys Ser Ile Thr Trp Phe Leu Ser Trp Ser Pro Cys Trp Glu Cys
85 90 95
Ser Gln Ala Ile Arg Glu Phe Leu Ser Arg His Pro Gly Val Thr Leu
100 105 110
Val Ile Tyr Val Ala Arg Leu Phe Trp His Met Asp Gln Gln Asn Arg
115 120 125
Gln Gly Leu Arg Asp Leu Val Asn Ser Gly Val Thr Ile Gln Ile Met
130 135 140
Arg Ala Ser Glu Tyr Tyr His Cys Trp Arg Asn Phe Val Asn Tyr Pro
145 150 155 160
Pro Gly Asp Glu Ala His Trp Pro Gln Tyr Pro Pro Leu Trp Met Met
165 170 175
Leu Tyr Ala Leu Glu Leu His Cys Ile Ile Leu Ser Leu Pro Pro Cys
180 185 190
Leu Lys Ile Ser Arg Arg Trp Gln Asn His Leu Thr Phe Phe Arg Leu
195 200 205
His Leu Gln Asn Cys His Tyr Gln Thr Ile Pro Pro His Ile Leu Leu
210 215 220
Ala Thr Gly Leu Ile His Pro Ser Val Ala Trp Arg
225 230 235
<210> 117
<211> 229
<212> PRT
<213> Mus sp.
<400> 117
Met Ser Ser Glu Thr Gly Pro Val Ala Val Asp Pro Thr Leu Arg Arg
1 5 10 15
Arg Ile Glu Pro His Glu Phe Glu Val Phe Phe Asp Pro Arg Glu Leu
20 25 30
Arg Lys Glu Thr Cys Leu Leu Tyr Glu Ile Asn Trp Gly Gly Arg His
35 40 45
Ser Val Trp Arg His Thr Ser Gln Asn Thr Ser Asn His Val Glu Val
50 55 60
Asn Phe Leu Glu Lys Phe Thr Thr Glu Arg Tyr Phe Arg Pro Asn Thr
65 70 75 80
Arg Cys Ser Ile Thr Trp Phe Leu Ser Trp Ser Pro Cys Gly Glu Cys
85 90 95
Ser Arg Ala Ile Thr Glu Phe Leu Ser Arg His Pro Tyr Val Thr Leu
100 105 110
Phe Ile Tyr Ile Ala Arg Leu Tyr His His Thr Asp Gln Arg Asn Arg
115 120 125
Gln Gly Leu Arg Asp Leu Ile Ser Ser Gly Val Thr Ile Gln Ile Met
130 135 140
Thr Glu Gln Glu Tyr Cys Tyr Cys Trp Arg Asn Phe Val Asn Tyr Pro
145 150 155 160
Pro Ser Asn Glu Ala Tyr Trp Pro Arg Tyr Pro His Leu Trp Val Lys
165 170 175
Leu Tyr Val Leu Glu Leu Tyr Cys Ile Ile Leu Gly Leu Pro Pro Cys
180 185 190
Leu Lys Ile Leu Arg Arg Lys Gln Pro Gln Leu Thr Phe Phe Thr Ile
195 200 205
Thr Leu Gln Thr Cys His Tyr Gln Arg Ile Pro Pro His Leu Leu Trp
210 215 220
Ala Thr Gly Leu Lys
225
<210> 118
<211> 229
<212> PRT
<213> Rattus sp.
<400> 118
Met Ser Ser Glu Thr Gly Pro Val Ala Val Asp Pro Thr Leu Arg Arg
1 5 10 15
Arg Ile Glu Pro His Glu Phe Glu Val Phe Phe Asp Pro Arg Glu Leu
20 25 30
Arg Lys Glu Thr Cys Leu Leu Tyr Glu Ile Asn Trp Gly Gly Arg His
35 40 45
Ser Ile Trp Arg His Thr Ser Gln Asn Thr Asn Lys His Val Glu Val
50 55 60
Asn Phe Ile Glu Lys Phe Thr Thr Glu Arg Tyr Phe Cys Pro Asn Thr
65 70 75 80
Arg Cys Ser Ile Thr Trp Phe Leu Ser Trp Ser Pro Cys Gly Glu Cys
85 90 95
Ser Arg Ala Ile Thr Glu Phe Leu Ser Arg Tyr Pro His Val Thr Leu
100 105 110
Phe Ile Tyr Ile Ala Arg Leu Tyr His His Ala Asp Pro Arg Asn Arg
115 120 125
Gln Gly Leu Arg Asp Leu Ile Ser Ser Gly Val Thr Ile Gln Ile Met
130 135 140
Thr Glu Gln Glu Ser Gly Tyr Cys Trp Arg Asn Phe Val Asn Tyr Ser
145 150 155 160
Pro Ser Asn Glu Ala His Trp Pro Arg Tyr Pro His Leu Trp Val Arg
165 170 175
Leu Tyr Val Leu Glu Leu Tyr Cys Ile Ile Leu Gly Leu Pro Pro Cys
180 185 190
Leu Asn Ile Leu Arg Arg Lys Gln Pro Gln Leu Thr Phe Phe Thr Ile
195 200 205
Ala Leu Gln Ser Cys His Tyr Gln Arg Leu Pro Pro His Ile Leu Trp
210 215 220
Ala Thr Gly Leu Lys
225
<210> 119
<211> 224
<212> PRT
<213> Homo sapiens
<400> 119
Met Ala Gln Lys Glu Glu Ala Ala Val Ala Thr Glu Ala Ala Ser Gln
1 5 10 15
Asn Gly Glu Asp Leu Glu Asn Leu Asp Asp Pro Glu Lys Leu Lys Glu
20 25 30
Leu Ile Glu Leu Pro Pro Phe Glu Ile Val Thr Gly Glu Arg Leu Pro
35 40 45
Ala Asn Phe Phe Lys Phe Gln Phe Arg Asn Val Glu Tyr Ser Ser Gly
50 55 60
Arg Asn Lys Thr Phe Leu Cys Tyr Val Val Glu Ala Gln Gly Lys Gly
65 70 75 80
Gly Gln Val Gln Ala Ser Arg Gly Tyr Leu Glu Asp Glu His Ala Ala
85 90 95
Ala His Ala Glu Glu Ala Phe Phe Asn Thr Ile Leu Pro Ala Phe Asp
100 105 110
Pro Ala Leu Arg Tyr Asn Val Thr Trp Tyr Val Ser Ser Ser Pro Cys
115 120 125
Ala Ala Cys Ala Asp Arg Ile Ile Lys Thr Leu Ser Lys Thr Lys Asn
130 135 140
Leu Arg Leu Leu Ile Leu Val Gly Arg Leu Phe Met Trp Glu Glu Pro
145 150 155 160
Glu Ile Gln Ala Ala Leu Lys Lys Leu Lys Glu Ala Gly Cys Lys Leu
165 170 175
Arg Ile Met Lys Pro Gln Asp Phe Glu Tyr Val Trp Gln Asn Phe Val
180 185 190
Glu Gln Glu Glu Gly Glu Ser Lys Ala Phe Gln Pro Trp Glu Asp Ile
195 200 205
Gln Glu Asn Phe Leu Tyr Tyr Glu Glu Lys Leu Ala Asp Ile Leu Lys
210 215 220
<210> 120
<211> 224
<212> PRT
<213> Mus sp.
<400> 120
Met Ala Gln Lys Glu Glu Ala Ala Glu Ala Ala Ala Pro Ala Ser Gln
1 5 10 15
Asn Gly Asp Asp Leu Glu Asn Leu Glu Asp Pro Glu Lys Leu Lys Glu
20 25 30
Leu Ile Asp Leu Pro Pro Phe Glu Ile Val Thr Gly Val Arg Leu Pro
35 40 45
Val Asn Phe Phe Lys Phe Gln Phe Arg Asn Val Glu Tyr Ser Ser Gly
50 55 60
Arg Asn Lys Thr Phe Leu Cys Tyr Val Val Glu Val Gln Ser Lys Gly
65 70 75 80
Gly Gln Ala Gln Ala Thr Gln Gly Tyr Leu Glu Asp Glu His Ala Gly
85 90 95
Ala His Ala Glu Glu Ala Phe Phe Asn Thr Ile Leu Pro Ala Phe Asp
100 105 110
Pro Ala Leu Lys Tyr Asn Val Thr Trp Tyr Val Ser Ser Ser Pro Cys
115 120 125
Ala Ala Cys Ala Asp Arg Ile Leu Lys Thr Leu Ser Lys Thr Lys Asn
130 135 140
Leu Arg Leu Leu Ile Leu Val Ser Arg Leu Phe Met Trp Glu Glu Pro
145 150 155 160
Glu Val Gln Ala Ala Leu Lys Lys Leu Lys Glu Ala Gly Cys Lys Leu
165 170 175
Arg Ile Met Lys Pro Gln Asp Phe Glu Tyr Ile Trp Gln Asn Phe Val
180 185 190
Glu Gln Glu Glu Gly Glu Ser Lys Ala Phe Glu Pro Trp Glu Asp Ile
195 200 205
Gln Glu Asn Phe Leu Tyr Tyr Glu Glu Lys Leu Ala Asp Ile Leu Lys
210 215 220
<210> 121
<211> 224
<212> PRT
<213> Rattus sp.
<400> 121
Met Ala Gln Lys Glu Glu Ala Ala Glu Ala Ala Ala Pro Ala Ser Gln
1 5 10 15
Asn Gly Asp Asp Leu Glu Asn Leu Glu Asp Pro Glu Lys Leu Lys Glu
20 25 30
Leu Ile Asp Leu Pro Pro Phe Glu Ile Val Thr Gly Val Arg Leu Pro
35 40 45
Val Asn Phe Phe Lys Phe Gln Phe Arg Asn Val Glu Tyr Ser Ser Gly
50 55 60
Arg Asn Lys Thr Phe Leu Cys Tyr Val Val Glu Ala Gln Ser Lys Gly
65 70 75 80
Gly Gln Val Gln Ala Thr Gln Gly Tyr Leu Glu Asp Glu His Ala Gly
85 90 95
Ala His Ala Glu Glu Ala Phe Phe Asn Thr Ile Leu Pro Ala Phe Asp
100 105 110
Pro Ala Leu Lys Tyr Asn Val Thr Trp Tyr Val Ser Ser Ser Pro Cys
115 120 125
Ala Ala Cys Ala Asp Arg Ile Leu Lys Thr Leu Ser Lys Thr Lys Asn
130 135 140
Leu Arg Leu Leu Ile Leu Val Ser Arg Leu Phe Met Trp Glu Glu Pro
145 150 155 160
Glu Val Gln Ala Ala Leu Lys Lys Leu Lys Glu Ala Gly Cys Lys Leu
165 170 175
Arg Ile Met Lys Pro Gln Asp Phe Glu Tyr Leu Trp Gln Asn Phe Val
180 185 190
Glu Gln Glu Glu Gly Glu Ser Lys Ala Phe Glu Pro Trp Glu Asp Ile
195 200 205
Gln Glu Asn Phe Leu Tyr Tyr Glu Glu Lys Leu Ala Asp Ile Leu Lys
210 215 220
<210> 122
<211> 224
<212> PRT
<213> Bos sp.
<400> 122
Met Ala Gln Lys Glu Glu Ala Ala Ala Ala Ala Glu Pro Ala Ser Gln
1 5 10 15
Asn Gly Glu Glu Val Glu Asn Leu Glu Asp Pro Glu Lys Leu Lys Glu
20 25 30
Leu Ile Glu Leu Pro Pro Phe Glu Ile Val Thr Gly Glu Arg Leu Pro
35 40 45
Ala His Tyr Phe Lys Phe Gln Phe Arg Asn Val Glu Tyr Ser Ser Gly
50 55 60
Arg Asn Lys Thr Phe Leu Cys Tyr Val Val Glu Ala Gln Ser Lys Gly
65 70 75 80
Gly Gln Val Gln Ala Ser Arg Gly Tyr Leu Glu Asp Glu His Ala Thr
85 90 95
Asn His Ala Glu Glu Ala Phe Phe Asn Ser Ile Met Pro Thr Phe Asp
100 105 110
Pro Ala Leu Arg Tyr Met Val Thr Trp Tyr Val Ser Ser Ser Pro Cys
115 120 125
Ala Ala Cys Ala Asp Arg Ile Val Lys Thr Leu Asn Lys Thr Lys Asn
130 135 140
Leu Arg Leu Leu Ile Leu Val Gly Arg Leu Phe Met Trp Glu Glu Pro
145 150 155 160
Glu Ile Gln Ala Ala Leu Arg Lys Leu Lys Glu Ala Gly Cys Arg Leu
165 170 175
Arg Ile Met Lys Pro Gln Asp Phe Glu Tyr Ile Trp Gln Asn Phe Val
180 185 190
Glu Gln Glu Glu Gly Glu Ser Lys Ala Phe Glu Pro Trp Glu Asp Ile
195 200 205
Gln Glu Asn Phe Leu Tyr Tyr Glu Glu Lys Leu Ala Asp Ile Leu Lys
210 215 220
<210> 123
<211> 208
<212> PRT
<213> Petromyzon marinus
<400> 123
Met Thr Asp Ala Glu Tyr Val Arg Ile His Glu Lys Leu Asp Ile Tyr
1 5 10 15
Thr Phe Lys Lys Gln Phe Phe Asn Asn Lys Lys Ser Val Ser His Arg
20 25 30
Cys Tyr Val Leu Phe Glu Leu Lys Arg Arg Gly Glu Arg Arg Ala Cys
35 40 45
Phe Trp Gly Tyr Ala Val Asn Lys Pro Gln Ser Gly Thr Glu Arg Gly
50 55 60
Ile His Ala Glu Ile Phe Ser Ile Arg Lys Val Glu Glu Tyr Leu Arg
65 70 75 80
Asp Asn Pro Gly Gln Phe Thr Ile Asn Trp Tyr Ser Ser Trp Ser Pro
85 90 95
Cys Ala Asp Cys Ala Glu Lys Ile Leu Glu Trp Tyr Asn Gln Glu Leu
100 105 110
Arg Gly Asn Gly His Thr Leu Lys Ile Trp Ala Cys Lys Leu Tyr Tyr
115 120 125
Glu Lys Asn Ala Arg Asn Gln Ile Gly Leu Trp Asn Leu Arg Asp Asn
130 135 140
Gly Val Gly Leu Asn Val Met Val Ser Glu His Tyr Gln Cys Cys Arg
145 150 155 160
Lys Ile Phe Ile Gln Ser Ser His Asn Gln Leu Asn Glu Asn Arg Trp
165 170 175
Leu Glu Lys Thr Leu Lys Arg Ala Glu Lys Arg Arg Ser Glu Leu Ser
180 185 190
Phe Met Ile Gln Val Lys Ile Leu His Thr Thr Lys Ser Pro Ala Val
195 200 205
<210> 124
<211> 381
<212> PRT
<213> Homo sapiens
<400> 124
Met Lys Pro His Phe Arg Asn Thr Val Glu Arg Met Tyr Arg Asp Thr
1 5 10 15
Phe Ser Tyr Asn Phe Tyr Asn Arg Pro Ile Leu Ser Arg Arg Asn Thr
20 25 30
Val Trp Leu Cys Tyr Glu Val Lys Thr Lys Gly Pro Ser Arg Pro Pro
35 40 45
Leu Asp Ala Lys Ile Phe Arg Gly Gln Val Tyr Ser Glu Leu Lys Tyr
50 55 60
His Pro Glu Met Arg Phe Phe His Trp Phe Ser Lys Trp Arg Lys Leu
65 70 75 80
His Arg Asp Gln Glu Tyr Glu Val Thr Trp Tyr Ile Ser Trp Ser Pro
85 90 95
Cys Thr Lys Cys Thr Arg Asp Met Ala Thr Phe Leu Ala Glu Asp Pro
100 105 110
Lys Val Thr Leu Thr Ile Phe Val Ala Arg Leu Tyr Tyr Phe Trp Asp
115 120 125
Pro Asp Tyr Gln Glu Ala Leu Arg Ser Leu Cys Gln Lys Arg Asp Gly
130 135 140
Pro Arg Ala Thr Met Lys Phe Asn Tyr Asp Glu Phe Gln His Cys Trp
145 150 155 160
Ser Lys Phe Val Tyr Ser Gln Arg Glu Leu Phe Glu Pro Trp Asn Asn
165 170 175
Leu Pro Lys Tyr Tyr Ile Leu Leu His Phe Met Leu Gly Glu Ile Leu
180 185 190
Arg His Ser Met Asp Pro Pro Thr Phe Thr Phe Asn Phe Asn Asn Glu
195 200 205
Pro Trp Val Arg Gly Arg His Glu Thr Tyr Leu Cys Tyr Glu Val Glu
210 215 220
Arg Met His Asn Asp Thr Trp Val Leu Leu Asn Gln Arg Arg Gly Phe
225 230 235 240
Leu Cys Asn Gln Ala Pro His Lys His Gly Phe Leu Glu Gly Arg His
245 250 255
Ala Glu Leu Cys Phe Leu Asp Val Ile Pro Phe Trp Lys Leu Asp Leu
260 265 270
Asp Gln Asp Tyr Arg Val Thr Cys Phe Thr Ser Trp Ser Pro Cys Phe
275 280 285
Ser Cys Ala Gln Glu Met Ala Lys Phe Ile Ser Lys Lys His Val Ser
290 295 300
Leu Cys Ile Phe Thr Ala Arg Ile Tyr Arg Arg Gln Gly Arg Cys Gln
305 310 315 320
Glu Gly Leu Arg Thr Leu Ala Glu Ala Gly Ala Lys Ile Ser Phe Thr
325 330 335
Tyr Ser Glu Phe Lys His Cys Trp Asp Thr Phe Val Asp His Gln Gly
340 345 350
Cys Pro Phe Gln Pro Trp Asp Gly Leu Asp Glu His Ser Gln Asp Leu
355 360 365
Ser Gly Arg Leu Arg Ala Ile Leu Gln Asn Gln Glu Asn
370 375 380
<210> 125
<211> 182
<212> PRT
<213> Homo sapiens
<400> 125
Met Asp Pro Pro Thr Phe Thr Phe Asn Phe Asn Asn Glu Pro Trp Trp
1 5 10 15
Gly Arg His Glu Thr Tyr Leu Cys Tyr Glu Val Glu Arg Met His Asn
20 25 30
Asp Thr Trp Val Leu Leu Asn Gln Arg Arg Gly Phe Leu Cys Asn Gln
35 40 45
Ala Pro His Lys His Gly Phe Leu Glu Gly Arg His Ala Glu Leu Cys
50 55 60
Phe Leu Asp Val Ile Pro Phe Trp Lys Leu Asp Leu Asp Gln Asp Tyr
65 70 75 80
Arg Val Thr Cys Phe Thr Ser Trp Ser Pro Cys Phe Ser Cys Ala Gln
85 90 95
Glu Met Ala Lys Phe Ile Ser Lys Asn Lys His Val Ser Leu Cys Ile
100 105 110
Phe Thr Ala Arg Ile Tyr Asp Asp Gln Gly Arg Cys Gln Glu Gly Leu
115 120 125
Arg Thr Leu Ala Glu Ala Gly Ala Lys Ile Ser Phe Thr Tyr Ser Glu
130 135 140
Phe Lys His Cys Trp Asp Thr Phe Val Asp His Gln Gly Cys Pro Phe
145 150 155 160
Gln Pro Trp Asp Gly Leu Asp Glu His Ser Gln Asp Leu Ser Gly Arg
165 170 175
Leu Arg Ala Ile Leu Gln
180
<210> 126
<211> 184
<212> PRT
<213> Homo sapiens
<400> 126
Met Asp Pro Pro Thr Phe Thr Phe Asn Phe Asn Asn Glu Pro Trp Val
1 5 10 15
Arg Gly Arg His Glu Thr Tyr Leu Cys Tyr Glu Val Glu Arg Met His
20 25 30
Asn Asp Thr Trp Val Leu Leu Asn Gln Arg Arg Gly Phe Leu Cys Asn
35 40 45
Gln Ala Pro His Lys His Gly Phe Leu Glu Gly Arg His Ala Glu Leu
50 55 60
Cys Phe Leu Asp Val Ile Pro Phe Trp Lys Leu Asp Leu Asp Gln Asp
65 70 75 80
Tyr Arg Val Thr Cys Phe Thr Ser Trp Ser Pro Cys Phe Ser Cys Ala
85 90 95
Gln Glu Met Ala Lys Phe Ile Ser Lys Asn Lys His Val Ser Leu Cys
100 105 110
Ile Phe Thr Ala Arg Ile Tyr Arg Arg Gln Gly Arg Cys Gln Glu Gly
115 120 125
Leu Arg Thr Leu Ala Glu Ala Gly Ala Lys Ile Ser Phe Met Thr Tyr
130 135 140
Ser Glu Phe Lys His Cys Trp Asp Thr Phe Val Asp His Gln Gly Cys
145 150 155 160
Pro Phe Gln Pro Trp Asp Gly Leu Asp Glu His Ser Gln Asp Leu Ser
165 170 175
Gly Arg Leu Arg Ala Ile Leu Gln
180
<210> 127
<211> 167
<212> PRT
<213> Unknown
<220>
<223> Description of Unknown:
TadA sequence
<400> 127
Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu
1 5 10 15
Thr Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala
20 25 30
Val Leu Val His Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro
35 40 45
Ile Gly Arg His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg
50 55 60
Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu
65 70 75 80
Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His
85 90 95
Ser Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly
100 105 110
Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His
115 120 125
Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu
130 135 140
Leu Ser Asp Phe Phe Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys
145 150 155 160
Lys Ala Gln Ser Ser Thr Asp
165
<210> 128
<211> 167
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polypeptide
<400> 128
Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu
1 5 10 15
Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala
20 25 30
Val Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala
35 40 45
Ile Gly Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg
50 55 60
Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu
65 70 75 80
Tyr Val Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His
85 90 95
Ser Arg Ile Gly Arg Val Val Phe Gly Val Arg Asn Ala Lys Thr Gly
100 105 110
Ala Ala Gly Ser Leu Met Asp Val Leu His Tyr Pro Gly Met Asn His
115 120 125
Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu
130 135 140
Leu Cys Tyr Phe Phe Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys
145 150 155 160
Lys Ala Gln Ser Ser Thr Asp
165
<210> 129
<211> 178
<212> PRT
<213> Escherichia coli
<400> 129
Met Arg Arg Ala Phe Ile Thr Gly Val Phe Phe Leu Ser Glu Val Glu
1 5 10 15
Phe Ser His Glu Tyr Trp Met Arg His Ala Leu Thr Leu Ala Lys Arg
20 25 30
Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala Val Leu Val His Asn
35 40 45
Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro Ile Gly Arg His Asp
50 55 60
Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg Gln Gly Gly Leu Val
65 70 75 80
Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu Tyr Val Thr Leu Glu
85 90 95
Pro Cys Val Met Cys Ala Gly Ala Met Ile His Ser Arg Ile Gly Arg
100 105 110
Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly Ala Ala Gly Ser Leu
115 120 125
Met Asp Val Leu His His Pro Gly Met Asn His Arg Val Glu Ile Thr
130 135 140
Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu Leu Ser Asp Phe Phe
145 150 155 160
Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys Lys Ala Gln Ser Ser
165 170 175
Thr Asp
<210> 130
<211> 160
<212> PRT
<213> Staphylococcus aureus
<400> 130
Met Gly Ser His Met Thr Asn Asp Ile Tyr Phe Met Thr Leu Ala Ile
1 5 10 15
Glu Glu Ala Lys Lys Ala Ala Gln Leu Gly Glu Val Pro Ile Gly Ala
20 25 30
Ile Ile Thr Lys Asp Asp Glu Val Ile Ala Arg Ala His Asn Leu Arg
35 40 45
Glu Thr Leu Gln Gln Pro Thr Ala His Ala Glu His Ile Ala Ile Glu
50 55 60
Arg Ala Ala Lys Val Leu Gly Ser Trp Arg Leu Glu Gly Cys Thr Leu
65 70 75 80
Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Thr Ile Val Met
85 90 95
Ser Arg Ile Pro Arg Val Val Tyr Gly Ala Asp Asp Pro Lys Gly Gly
100 105 110
Cys Ser Gly Ser Leu Met Asn Leu Leu Gln Gln Ser Asn Phe Asn His
115 120 125
Arg Ala Ile Val Asp Lys Gly Val Leu Lys Glu Ala Cys Ser Thr Leu
130 135 140
Leu Thr Thr Phe Phe Lys Asn Leu Arg Ala Asn Lys Lys Ser Thr Asn
145 150 155 160
<210> 131
<211> 161
<212> PRT
<213> Bacillus subtilis
<400> 131
Met Thr Gln Asp Glu Leu Tyr Met Lys Glu Ala Ile Lys Glu Ala Lys
1 5 10 15
Lys Ala Glu Glu Lys Gly Glu Val Pro Ile Gly Ala Val Leu Val Ile
20 25 30
Asn Gly Glu Ile Ile Ala Arg Ala His Asn Leu Arg Glu Thr Glu Gln
35 40 45
Arg Ser Ile Ala His Ala Glu Met Leu Val Ile Asp Glu Ala Cys Lys
50 55 60
Ala Leu Gly Thr Trp Arg Leu Glu Gly Ala Thr Leu Tyr Val Thr Leu
65 70 75 80
Glu Pro Cys Pro Met Cys Ala Gly Ala Val Val Leu Ser Arg Val Glu
85 90 95
Lys Val Val Phe Gly Ala Phe Asp Pro Lys Gly Gly Cys Ser Gly Thr
100 105 110
Leu Met Asn Leu Leu Gln Glu Glu Arg Phe Asn His Gln Ala Glu Val
115 120 125
Val Ser Gly Val Leu Glu Glu Glu Cys Gly Gly Met Leu Ser Ala Phe
130 135 140
Phe Arg Glu Leu Arg Lys Lys Lys Lys Ala Ala Arg Lys Asn Leu Ser
145 150 155 160
Glu
<210> 132
<211> 183
<212> PRT
<213> Salmonella typhimurium
<400> 132
Met Pro Pro Ala Phe Ile Thr Gly Val Thr Ser Leu Ser Asp Val Glu
1 5 10 15
Leu Asp His Glu Tyr Trp Met Arg His Ala Leu Thr Leu Ala Lys Arg
20 25 30
Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala Val Leu Val His Asn
35 40 45
His Arg Val Ile Gly Glu Gly Trp Asn Arg Pro Ile Gly Arg His Asp
50 55 60
Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg Gln Gly Gly Leu Val
65 70 75 80
Leu Gln Asn Tyr Arg Leu Leu Asp Thr Thr Leu Tyr Val Thr Leu Glu
85 90 95
Pro Cys Val Met Cys Ala Gly Ala Met Val His Ser Arg Ile Gly Arg
100 105 110
Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly Ala Ala Gly Ser Leu
115 120 125
Ile Asp Val Leu His His Pro Gly Met Asn His Arg Val Glu Ile Ile
130 135 140
Glu Gly Val Leu Arg Asp Glu Cys Ala Thr Leu Leu Ser Asp Phe Phe
145 150 155 160
Arg Met Arg Arg Gln Glu Ile Lys Ala Leu Lys Lys Ala Asp Arg Ala
165 170 175
Glu Gly Ala Gly Pro Ala Val
180
<210> 133
<211> 164
<212> PRT
<213> Shewanella putrefaciens
<400> 133
Met Asp Glu Tyr Trp Met Gln Val Ala Met Gln Met Ala Glu Lys Ala
1 5 10 15
Glu Ala Ala Gly Glu Val Pro Val Gly Ala Val Leu Val Lys Asp Gly
20 25 30
Gln Gln Ile Ala Thr Gly Tyr Asn Leu Ser Ile Ser Gln His Asp Pro
35 40 45
Thr Ala His Ala Glu Ile Leu Cys Leu Arg Ser Ala Gly Lys Lys Leu
50 55 60
Glu Asn Tyr Arg Leu Leu Asp Ala Thr Leu Tyr Ile Thr Leu Glu Pro
65 70 75 80
Cys Ala Met Cys Ala Gly Ala Met Val His Ser Arg Ile Ala Arg Val
85 90 95
Val Tyr Gly Ala Arg Asp Glu Lys Thr Gly Ala Ala Gly Thr Val Val
100 105 110
Asn Leu Leu Gln His Pro Ala Phe Asn His Gln Val Glu Val Thr Ser
115 120 125
Gly Val Leu Ala Glu Ala Cys Ser Ala Gln Leu Ser Arg Phe Phe Lys
130 135 140
Arg Arg Arg Asp Glu Lys Lys Ala Leu Lys Leu Ala Gln Arg Ala Gln
145 150 155 160
Gln Gly Ile Glu
<210> 134
<211> 173
<212> PRT
<213> Haemophilus influenzae
<400> 134
Met Asp Ala Ala Lys Val Arg Ser Glu Phe Asp Glu Lys Met Met Arg
1 5 10 15
Tyr Ala Leu Glu Leu Ala Asp Lys Ala Glu Ala Leu Gly Glu Ile Pro
20 25 30
Val Gly Ala Val Leu Val Asp Asp Ala Arg Asn Ile Ile Gly Glu Gly
35 40 45
Trp Asn Leu Ser Ile Val Gln Ser Asp Pro Thr Ala His Ala Glu Ile
50 55 60
Ile Ala Leu Arg Asn Gly Ala Lys Asn Ile Gln Asn Tyr Arg Leu Leu
65 70 75 80
Asn Ser Thr Leu Tyr Val Thr Leu Glu Pro Cys Thr Met Cys Ala Gly
85 90 95
Ala Ile Leu His Ser Arg Ile Lys Arg Leu Val Phe Gly Ala Ser Asp
100 105 110
Tyr Lys Thr Gly Ala Ile Gly Ser Arg Phe His Phe Phe Asp Asp Tyr
115 120 125
Lys Met Asn His Thr Leu Glu Ile Thr Ser Gly Val Leu Ala Glu Glu
130 135 140
Cys Ser Gln Lys Leu Ser Thr Phe Phe Gln Lys Arg Arg Glu Glu Lys
145 150 155 160
Lys Ile Glu Lys Ala Leu Leu Lys Ser Leu Ser Asp Lys
165 170
<210> 135
<211> 161
<212> PRT
<213> Caulobacter crescentus
<400> 135
Met Arg Thr Asp Glu Ser Glu Asp Gln Asp His Arg Met Met Arg Leu
1 5 10 15
Ala Leu Asp Ala Ala Arg Ala Ala Ala Glu Ala Gly Glu Thr Pro Val
20 25 30
Gly Ala Val Ile Leu Asp Pro Ser Thr Gly Glu Val Ile Ala Thr Ala
35 40 45
Gly Asn Gly Pro Ile Ala Ala His Asp Pro Thr Ala His Ala Glu Ile
50 55 60
Ala Ala Met Arg Ala Ala Ala Ala Lys Leu Gly Asn Tyr Arg Leu Thr
65 70 75 80
Asp Leu Thr Leu Val Val Thr Leu Glu Pro Cys Ala Met Cys Ala Gly
85 90 95
Ala Ile Ser His Ala Arg Ile Gly Arg Val Val Phe Gly Ala Asp Asp
100 105 110
Pro Lys Gly Gly Ala Val Val His Gly Pro Lys Phe Phe Ala Gln Pro
115 120 125
Thr Cys His Trp Arg Pro Glu Val Thr Gly Gly Val Leu Ala Asp Glu
130 135 140
Ser Ala Asp Leu Leu Arg Gly Phe Phe Arg Ala Arg Arg Lys Ala Lys
145 150 155 160
Ile
<210> 136
<211> 179
<212> PRT
<213> Geobacter sulfurreducens
<400> 136
Met Ser Ser Leu Lys Lys Thr Pro Ile Arg Asp Asp Ala Tyr Trp Met
1 5 10 15
Gly Lys Ala Ile Arg Glu Ala Ala Lys Ala Ala Ala Arg Asp Glu Val
20 25 30
Pro Ile Gly Ala Val Ile Val Arg Asp Gly Ala Val Ile Gly Arg Gly
35 40 45
His Asn Leu Arg Glu Gly Ser Asn Asp Pro Ser Ala His Ala Glu Met
50 55 60
Ile Ala Ile Arg Gln Ala Ala Arg Arg Ser Ala Asn Trp Arg Leu Thr
65 70 75 80
Gly Ala Thr Leu Tyr Val Thr Leu Glu Pro Cys Leu Met Cys Met Gly
85 90 95
Ala Ile Ile Leu Ala Arg Leu Glu Arg Val Val Phe Gly Cys Tyr Asp
100 105 110
Pro Lys Gly Gly Ala Ala Gly Ser Leu Tyr Asp Leu Ser Ala Asp Pro
115 120 125
Arg Leu Asn His Gln Val Arg Leu Ser Pro Gly Val Cys Gln Glu Glu
130 135 140
Cys Gly Thr Met Leu Ser Asp Phe Phe Arg Asp Leu Arg Arg Arg Lys
145 150 155 160
Lys Ala Lys Ala Thr Pro Ala Leu Phe Ile Asp Glu Arg Lys Val Pro
165 170 175
Pro Glu Pro
<210> 137
<211> 167
<212> PRT
<213> Escherichia coli
<400> 137
Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu
1 5 10 15
Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala
20 25 30
Val Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala
35 40 45
Ile Gly Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg
50 55 60
Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu
65 70 75 80
Tyr Val Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His
85 90 95
Ser Arg Ile Gly Arg Val Val Phe Gly Val Arg Asn Ala Lys Thr Gly
100 105 110
Ala Ala Gly Ser Leu Met Asp Val Leu His Tyr Pro Gly Met Asn His
115 120 125
Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu
130 135 140
Leu Cys Tyr Phe Phe Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys
145 150 155 160
Lys Ala Gln Ser Ser Thr Asp
165
<210> 138
<211> 8
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 138
Ser Gly Gly Ser Ser Gly Gly Ser
1 5
<210> 139
<211> 21
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<220>
<221> MISC_FEATURE
<222> (1)..(21)
<223> This sequence may encompass 1, 3 or 7 "Gly Gly Ser"
repeating units
<400> 139
Gly Gly Ser Gly Gly Ser Gly Gly Ser Gly Gly Ser Gly Gly Ser Gly
1 5 10 15
Gly Ser Gly Gly Ser
20
<210> 140
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 140
gacaagaaag ggacugaagc 20
<210> 141
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 141
aucgacaaga aagggacuga 20
<210> 142
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 142
acacaccggu ugguggccuc 20
<210> 143
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 143
cuccagcugg accuccuccu 20
<210> 144
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 144
ucccaggagg agguccagcu 20
<210> 145
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 145
cucuccacug gaggaaaaca 20
<210> 146
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 146
cugugugucg aaguucgccc 20
<210> 147
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 147
ugugugucga aguucgcccu 20
<210> 148
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 148
gucgaaguuc gcccuggaga 20
<210> 149
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 149
ugucgaaguu cgcccuggag 20
<210> 150
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 150
guucagaaug cccggaccac 20
<210> 151
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 151
ucaacuucca uugccauuuc 20
<210> 152
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 152
cuuccauugc cauuucagcc 20
<210> 153
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 153
gccagggagg ugggcucggc 20
<210> 154
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 154
ccacgccagg gaggugggcu 20
<210> 155
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 155
ucuaggccau ggugcccucg 20
<210> 156
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 156
gcuucaggga acucugccac 20
<210> 157
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 157
ugcuagcucu gggcgaugua 20
<210> 158
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 158
gcaggggcuc augagcaguc 20
<210> 159
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 159
gaacacauau uuuuauaucc 20
<210> 160
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 160
augccaccag guucaucaac 20
<210> 161
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 161
cgcuggacga gaugagguag 20
<210> 162
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 162
ccccgacgcu ggacgagaug 20
<210> 163
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 163
acgcuggacg agaugaggua 20
<210> 164
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 164
gugggcaucc ucacaaucuc 20
<210> 165
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 165
cugaguggag aucaacgagc 20
<210> 166
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 166
caacagugaa ggaaagccuu 20
<210> 167
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 167
gcucauugac cuccacucag 20
<210> 168
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 168
cacucuaucg cgauuuaucu 20
<210> 169
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 169
cucauccuuc ucgaaaugca 20
<210> 170
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 170
cugcagcgca ccagcuucuu 20
<210> 171
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 171
uaucacuuac ggaucacaga 20
<210> 172
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 172
gggaaccugu acgagucuau 20
<210> 173
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 173
uacccaaaau guagcuugua 20
<210> 174
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 174
ugcagcaucc cccaauccau 20
<210> 175
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 175
uuacccacau ugcuuccccu 20
<210> 176
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 176
gcggaagcgg gugcgcgugc 20
<210> 177
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 177
uuggcauuau ugagcacucu 20
<210> 178
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 178
ugaucucuug ggagaagaac 20
<210> 179
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 179
ggcaaggaau acagguauuu 20
<210> 180
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 180
uccucgccug uccagggauc 20
<210> 181
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 181
gagcuccagg accguggcgc 20
<210> 182
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 182
gcaggaaguc cugggucauc 20
<210> 183
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 183
cgugccccag cugaugaccc 20
<210> 184
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 184
gcaguaccgc ucacagccgc 20
<210> 185
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 185
gugcaaaugc uauaaugagu 20
<210> 186
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 186
uaauagcagg ucaggcaccg 20
<210> 187
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 187
auguucaugu auuccuuguc 20
<210> 188
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 188
agcaaaagca aaaugugauu 20
<210> 189
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 189
aauggcagca guugcaagga 20
<210> 190
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 190
guugucacag guaaauacac 20
<210> 191
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 191
cauuucacuu uugcucugua 20
<210> 192
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 192
uugaccaagc cacaugucuu 20
<210> 193
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 193
caccacccac agagagacag 20
<210> 194
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 194
cggcagcaca cccggagcgc 20
<210> 195
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 195
gaccuaggcg aggcaguagg 20
<210> 196
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 196
ggaccuaggc gaggcaguag 20
<210> 197
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 197
aggaccuagg cgaggcagua 20
<210> 198
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 198
caguauggac acuguccaaa 20
<210> 199
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 199
ggagaagaug ugguuggaca 20
<210> 200
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 200
ucgccacagu aauagaagau 20
<210> 201
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 201
uuacccggca gugggggugg 20
<210> 202
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 202
uacaggaggc ucuaggguaa 20
<210> 203
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 203
aggcucuagg guaaggacaa 20
<210> 204
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 204
aacgacccgg acgcaguggc 20
<210> 205
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 205
cgacccggac gcaguggcac 20
<210> 206
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 206
gaugaucacg ccuguggcug 20
<210> 207
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 207
gugccagauc acgugauacu 20
<210> 208
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 208
auucaccaag agggccuaaa 20
<210> 209
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 209
cccaucagag uguaaguucu 20
<210> 210
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 210
ccccuccaug ucuggguacu 20
<210> 211
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 211
gcacacggag gagcuggagc 20
<210> 212
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 212
gugaaugugu uguugauggc 20
<210> 213
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 213
uuggugguaa ggcccugggc 20
<210> 214
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 214
ugguaaggcc cugggcaggu 20
<210> 215
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 215
acuccuaagg agaagucugc 20
<210> 216
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 216
gccagguguu gagguuuccc 20
<210> 217
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 217
aucacaucuc aagcaagacg 20
<210> 218
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 218
uucauggggu ccuuuucacc 20
<210> 219
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 219
uucucaccug ccuccggaag 20
<210> 220
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 220
cugcuagucc cagcugagga 20
<210> 221
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 221
accaaccuga agaagaaccg 20
<210> 222
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 222
uuuuccaaag auugcccacu 20
<210> 223
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 223
caaaauccua augauagauu 20
<210> 224
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 224
acuacagcau ugcucaguac 20
<210> 225
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 225
cucucacagg aagaggcucc 20
<210> 226
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 226
cacgaaagag cagcuuugcg 20
<210> 227
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 227
gacuucacgc ggcccagacg 20
<210> 228
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 228
aagggccaag guauuguggc 20
<210> 229
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 229
acacugaauc uagaccuucu 20
<210> 230
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 230
cuuccaaguc uuccacugca 20
<210> 231
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 231
uggugguuca ccucucauuc 20
<210> 232
<211> 21
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 232
uggugguggu ucaccucuca u 21
<210> 233
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 233
uucaccucuc auucagauuu 20
<210> 234
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 234
aaagaucaug gaucagucua 20
<210> 235
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 235
cagccaaaga uuguccucaa 20
<210> 236
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 236
uccccaaggu ccaagcucaa 20
<210> 237
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 237
caccaagacc gacguuaaga 20
<210> 238
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 238
uucccagcac guagccgcca 20
<210> 239
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 239
cucagcuugu uccacugacu 20
<210> 240
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 240
gugcacaacu gcgucaauau 20
<210> 241
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 241
accuucaugg ggucuugaac 20
<210> 242
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 242
gggccugcgc accucguggu 20
<210> 243
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 243
gucuuaggcc agggccaccu 20
<210> 244
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 244
uaggccaggg ccaccuggcu 20
<210> 245
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 245
aaucaacuac uacacgcuca 20
<210> 246
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 246
ucaagauuuu uucuucuuuu 20
<210> 247
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 247
acaucaaagg agacugccgg 20
<210> 248
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 248
gcgcagcacc uguaccuccg 20
<210> 249
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 249
cuguugagcc aggccuuguu 20
<210> 250
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 250
augucacagc accccugggu 20
<210> 251
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 251
gacaagaaag ggacugaagc 20
<210> 252
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 252
aucgacaaga aagggacuga 20
<210> 253
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 253
acacaccggu ugguggccuc 20
<210> 254
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 254
ggcgcagcug ggagagcagc 20
<210> 255
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 255
caccugugag gaaguuccug 20
<210> 256
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 256
ugacaacagg uaagcuccau 20
<210> 257
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 257
cgaccuucgu cgccauaacu 20
<210> 258
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 258
caugaacacg gaauccaugc 20
<210> 259
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 259
uaaaagacug acugaaggcc 20
<210> 260
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 260
ucauguauaa aaacacacuc 20
<210> 261
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 261
ggccaugcau guguucagaa 20
<210> 262
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 262
ccagguagaa uaugaucagc 20
<210> 263
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 263
ggauugaaga auuuguucac 20
<210> 264
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 264
aacugaugaa gauaauuugu 20
<210> 265
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 265
ucacuuaggg ccuacaguac 20
<210> 266
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 266
gggaugagug ugguguuccu 20
<210> 267
<211> 20
<212> RNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 267
cgaccagaua ggaaccaccc 20
<210> 268
<211> 7
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 268
Arg Asn Glu His Leu Glu Val
1 5
<210> 269
<211> 7
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 269
Gln Ser Thr Thr Leu Lys Arg
1 5
<210> 270
<211> 7
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 270
Arg Thr Glu His Leu Ala Arg
1 5
<210> 271
<211> 7
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 271
Arg Gly Glu His Leu Arg Gln
1 5
<210> 272
<211> 7
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 272
Gln Ser Gly Thr Leu Lys Arg
1 5
<210> 273
<211> 7
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 273
Arg Asn Asp Lys Leu Val Pro
1 5
<210> 274
<211> 1544
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polypeptide
<400> 274
Met Pro Lys Lys Lys Arg Lys Val Ser Glu Val Glu Phe Ser His Glu
1 5 10 15
Tyr Trp Met Arg His Ala Leu Thr Leu Ala Lys Arg Ala Trp Asp Glu
20 25 30
Arg Glu Val Pro Val Gly Ala Val Leu Val His Asn Asn Arg Val Ile
35 40 45
Gly Glu Gly Trp Asn Arg Pro Ile Gly Arg His Asp Pro Thr Ala His
50 55 60
Ala Glu Ile Met Ala Leu Arg Gln Gly Gly Leu Val Met Gln Asn Tyr
65 70 75 80
Arg Leu Ile Asp Ala Thr Leu Tyr Val Thr Leu Glu Pro Cys Val Met
85 90 95
Cys Ala Gly Ala Met Ile His Ser Arg Ile Gly Arg Val Val Phe Gly
100 105 110
Ala Arg Asp Ala Lys Thr Gly Ala Ala Gly Ser Leu Met Asp Val Leu
115 120 125
His His Pro Gly Met Asn His Arg Val Glu Ile Thr Glu Gly Ile Leu
130 135 140
Ala Asp Glu Cys Ala Ala Leu Leu Ser Asp Phe Phe Arg Met Arg Arg
145 150 155 160
Gln Glu Ile Lys Ala Gln Lys Lys Ala Gln Ser Ser Thr Asp Ser Gly
165 170 175
Gly Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu
180 185 190
Ser Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser Ser Glu
195 200 205
Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu Thr Leu Ala
210 215 220
Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala Val Leu Val
225 230 235 240
Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala Ile Gly Leu
245 250 255
His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg Gln Gly Gly
260 265 270
Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu Tyr Val Thr
275 280 285
Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His Ser Arg Ile
290 295 300
Gly Arg Val Val Phe Gly Val Arg Asn Ala Lys Thr Gly Ala Ala Gly
305 310 315 320
Ser Leu Met Asp Val Leu His Tyr Pro Gly Met Asn His Arg Val Glu
325 330 335
Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu Leu Cys Tyr
340 345 350
Phe Phe Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys Lys Ala Gln
355 360 365
Ser Ser Thr Asp Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Ser Glu
370 375 380
Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser Asp Leu Val Leu
385 390 395 400
Gly Leu Ala Ile Gly Ile Gly Ser Val Gly Val Gly Ile Leu Asn Lys
405 410 415
Val Thr Gly Glu Ile Ile His Lys Asn Ser Arg Ile Phe Pro Ala Ala
420 425 430
Gln Ala Glu Asn Asn Leu Val Arg Arg Thr Asn Arg Gln Gly Arg Arg
435 440 445
Leu Ala Arg Arg Lys Lys His Arg Arg Val Arg Leu Asn Arg Leu Phe
450 455 460
Glu Glu Ser Gly Leu Ile Thr Asp Phe Thr Lys Ile Ser Ile Asn Leu
465 470 475 480
Asn Pro Tyr Gln Leu Arg Val Lys Gly Leu Thr Asp Glu Leu Ser Asn
485 490 495
Glu Glu Leu Phe Ile Ala Leu Lys Asn Met Val Lys His Arg Gly Ile
500 505 510
Ser Tyr Leu Asp Asp Ala Ser Asp Asp Gly Asn Ser Ser Val Gly Asp
515 520 525
Tyr Ala Gln Ile Val Lys Glu Asn Ser Lys Gln Leu Glu Thr Lys Thr
530 535 540
Pro Gly Gln Ile Gln Leu Glu Arg Tyr Gln Thr Tyr Gly Gln Leu Arg
545 550 555 560
Gly Asp Phe Thr Val Glu Lys Asp Gly Lys Lys His Arg Leu Ile Asn
565 570 575
Val Phe Pro Thr Ser Ala Tyr Arg Ser Glu Ala Leu Arg Ile Leu Gln
580 585 590
Thr Gln Gln Glu Phe Asn Pro Gln Ile Thr Asp Glu Phe Ile Asn Arg
595 600 605
Tyr Leu Glu Ile Leu Thr Gly Lys Arg Lys Tyr Tyr His Gly Pro Gly
610 615 620
Asn Glu Lys Ser Arg Thr Asp Tyr Gly Arg Tyr Arg Thr Ser Gly Glu
625 630 635 640
Thr Leu Asp Asn Ile Phe Gly Ile Leu Ile Gly Lys Cys Thr Phe Tyr
645 650 655
Pro Asp Glu Phe Arg Ala Ala Lys Ala Ser Tyr Thr Ala Gln Glu Phe
660 665 670
Asn Leu Leu Asn Asp Leu Asn Asn Leu Thr Val Pro Thr Glu Thr Lys
675 680 685
Lys Leu Ser Lys Glu Gln Lys Asn Gln Ile Ile Asn Tyr Val Lys Asn
690 695 700
Glu Lys Ala Met Gly Pro Ala Lys Leu Phe Lys Tyr Ile Ala Lys Leu
705 710 715 720
Leu Ser Cys Asp Val Ala Asp Ile Lys Gly Tyr Arg Ile Asp Lys Ser
725 730 735
Gly Lys Ala Glu Ile His Thr Phe Glu Ala Tyr Arg Lys Met Lys Thr
740 745 750
Leu Glu Thr Leu Asp Ile Glu Gln Met Asp Arg Glu Thr Leu Asp Lys
755 760 765
Leu Ala Tyr Val Leu Thr Leu Asn Thr Glu Arg Glu Gly Ile Gln Glu
770 775 780
Ala Leu Glu His Glu Phe Ala Asp Gly Ser Phe Ser Gln Lys Gln Val
785 790 795 800
Asp Glu Leu Val Gln Phe Arg Lys Ala Asn Ser Ser Ile Phe Gly Lys
805 810 815
Gly Trp His Asn Phe Ser Val Lys Leu Met Met Glu Leu Ile Pro Glu
820 825 830
Leu Tyr Glu Thr Ser Glu Glu Gln Met Thr Ile Leu Thr Arg Leu Gly
835 840 845
Lys Gln Lys Thr Thr Ser Ser Ser Asn Lys Thr Lys Tyr Ile Asp Glu
850 855 860
Lys Leu Leu Thr Glu Glu Ile Tyr Asn Pro Val Val Ala Lys Ser Val
865 870 875 880
Arg Gln Ala Ile Lys Ile Val Asn Ala Ala Ile Lys Glu Tyr Gly Asp
885 890 895
Phe Asp Asn Ile Val Ile Glu Met Ala Arg Glu Thr Asn Glu Asp Asp
900 905 910
Glu Lys Lys Ala Ile Gln Lys Ile Gln Lys Ala Asn Lys Asp Glu Lys
915 920 925
Asp Ala Ala Met Leu Lys Ala Ala Asn Gln Tyr Asn Gly Lys Ala Glu
930 935 940
Leu Pro His Ser Val Phe His Gly His Lys Gln Leu Ala Thr Lys Ile
945 950 955 960
Arg Leu Trp His Gln Gln Gly Glu Arg Cys Leu Tyr Thr Gly Lys Thr
965 970 975
Ile Ser Ile His Asp Leu Ile Asn Asn Ser Asn Gln Phe Glu Val Asp
980 985 990
His Ile Leu Pro Leu Ser Ile Thr Phe Asp Asp Ser Leu Ala Asn Lys
995 1000 1005
Val Leu Val Tyr Ala Thr Ala Asn Gln Glu Lys Gly Gln Arg Thr
1010 1015 1020
Pro Tyr Gln Ala Leu Asp Ser Met Asp Asp Ala Trp Ser Phe Arg
1025 1030 1035
Glu Leu Lys Ala Phe Val Arg Glu Ser Lys Thr Leu Ser Asn Lys
1040 1045 1050
Lys Lys Glu Tyr Leu Leu Thr Glu Glu Asp Ile Ser Lys Phe Asp
1055 1060 1065
Val Arg Lys Lys Phe Ile Glu Arg Asn Leu Val Asp Thr Leu Tyr
1070 1075 1080
Ala Ser Arg Val Val Leu Asn Ala Leu Gln Glu His Phe Arg Ala
1085 1090 1095
His Lys Ile Asp Thr Lys Val Ser Val Val Arg Gly Gln Phe Thr
1100 1105 1110
Ser Gln Leu Arg Arg His Trp Gly Ile Glu Lys Thr Arg Asp Thr
1115 1120 1125
Tyr His His His Ala Val Asp Ala Leu Ile Ile Ala Ala Ser Ser
1130 1135 1140
Gln Leu Asn Leu Trp Lys Lys Gln Lys Asn Thr Leu Val Ser Tyr
1145 1150 1155
Ser Glu Asp Gln Leu Leu Asp Ile Glu Thr Gly Glu Leu Ile Ser
1160 1165 1170
Asp Asp Glu Tyr Lys Glu Ser Val Phe Lys Ala Pro Tyr Gln His
1175 1180 1185
Phe Val Asp Thr Leu Lys Ser Lys Glu Phe Glu Asp Ser Ile Leu
1190 1195 1200
Phe Ser Tyr Gln Val Asp Ser Lys Phe Asn Arg Lys Ile Ser Asp
1205 1210 1215
Ala Thr Ile Tyr Ala Thr Arg Gln Ala Lys Val Gly Lys Asp Lys
1220 1225 1230
Ala Asp Glu Thr Tyr Val Leu Gly Lys Ile Lys Asp Ile Tyr Thr
1235 1240 1245
Gln Asp Gly Tyr Asp Ala Phe Met Lys Ile Tyr Lys Lys Asp Lys
1250 1255 1260
Ser Lys Phe Leu Met Tyr Arg His Asp Pro Gln Thr Phe Glu Lys
1265 1270 1275
Val Ile Glu Pro Ile Leu Glu Asn Tyr Pro Asn Lys Gln Ile Asn
1280 1285 1290
Asp Lys Gly Lys Glu Val Pro Cys Asn Pro Phe Leu Lys Tyr Lys
1295 1300 1305
Glu Glu His Gly Tyr Ile Arg Lys Tyr Ser Lys Lys Gly Asn Gly
1310 1315 1320
Pro Glu Ile Lys Ser Leu Lys Tyr Tyr Asp Ser Lys Leu Gly Asn
1325 1330 1335
His Ile Asp Ile Thr Pro Lys Asp Ser Asn Asn Lys Val Val Leu
1340 1345 1350
Gln Ser Val Ser Pro Trp Arg Ala Asp Val Tyr Phe Asn Lys Thr
1355 1360 1365
Thr Gly Lys Tyr Glu Ile Leu Gly Leu Lys Tyr Ala Asp Leu Gln
1370 1375 1380
Phe Asp Lys Gly Thr Gly Thr Tyr Lys Ile Ser Gln Glu Lys Tyr
1385 1390 1395
Asn Asp Ile Lys Lys Lys Glu Gly Val Asp Ser Asp Ser Glu Phe
1400 1405 1410
Lys Phe Thr Leu Tyr Lys Asn Asp Leu Leu Leu Val Lys Asp Thr
1415 1420 1425
Glu Thr Lys Glu Gln Gln Leu Phe Arg Phe Leu Ser Arg Thr Met
1430 1435 1440
Pro Lys Gln Lys His Tyr Val Glu Leu Lys Pro Tyr Asp Lys Gln
1445 1450 1455
Lys Phe Glu Gly Gly Glu Ala Leu Ile Lys Val Leu Gly Asn Val
1460 1465 1470
Ala Asn Ser Gly Gln Cys Lys Lys Gly Leu Gly Lys Ser Asn Ile
1475 1480 1485
Ser Ile Tyr Lys Val Arg Thr Asp Val Leu Gly Asn Gln His Ile
1490 1495 1500
Ile Lys Asn Glu Gly Asp Lys Pro Lys Leu Asp Phe Pro Lys Lys
1505 1510 1515
Lys Arg Lys Val Glu Gly Ala Asp Lys Arg Thr Ala Asp Gly Ser
1520 1525 1530
Glu Phe Glu Ser Pro Lys Lys Lys Arg Lys Val
1535 1540
<210> 275
<211> 1471
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polypeptide
<400> 275
Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu
1 5 10 15
Thr Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala
20 25 30
Val Leu Val His Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro
35 40 45
Ile Gly Arg His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg
50 55 60
Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu
65 70 75 80
Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His
85 90 95
Ser Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly
100 105 110
Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His
115 120 125
Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu
130 135 140
Leu Ser Asp Phe Phe Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys
145 150 155 160
Lys Ala Gln Ser Ser Thr Asp Ser Gly Gly Ser Ser Gly Gly Ser Ser
165 170 175
Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser Ser
180 185 190
Gly Gly Ser Ser Gly Gly Ser Ser Glu Val Glu Phe Ser His Glu Tyr
195 200 205
Trp Met Arg His Ala Leu Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg
210 215 220
Glu Val Pro Val Gly Ala Val Leu Val Leu Asn Asn Arg Val Ile Gly
225 230 235 240
Glu Gly Trp Asn Arg Ala Ile Gly Leu His Asp Pro Thr Ala His Ala
245 250 255
Glu Ile Met Ala Leu Arg Gln Gly Gly Leu Val Met Gln Asn Tyr Arg
260 265 270
Leu Ile Asp Ala Thr Leu Tyr Val Thr Phe Glu Pro Cys Val Met Cys
275 280 285
Ala Gly Ala Met Ile His Ser Arg Ile Gly Arg Val Val Phe Gly Val
290 295 300
Arg Asn Ala Lys Thr Gly Ala Ala Gly Ser Leu Met Asp Val Leu His
305 310 315 320
Tyr Pro Gly Met Asn His Arg Val Glu Ile Thr Glu Gly Ile Leu Ala
325 330 335
Asp Glu Cys Ala Ala Leu Leu Cys Tyr Phe Phe Arg Met Pro Arg Gln
340 345 350
Val Phe Asn Ala Gln Lys Lys Ala Gln Ser Ser Thr Asp Ser Gly Gly
355 360 365
Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser
370 375 380
Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser Lys Arg Asn
385 390 395 400
Tyr Ile Leu Gly Leu Ala Ile Gly Ile Thr Ser Val Gly Tyr Gly Ile
405 410 415
Ile Asp Tyr Glu Thr Arg Asp Val Ile Asp Ala Gly Val Arg Leu Phe
420 425 430
Lys Glu Ala Asn Val Glu Asn Asn Glu Gly Arg Arg Ser Lys Arg Gly
435 440 445
Ala Arg Arg Leu Lys Arg Arg Arg Arg His Arg Ile Gln Arg Val Lys
450 455 460
Lys Leu Leu Phe Asp Tyr Asn Leu Leu Thr Asp His Ser Glu Leu Ser
465 470 475 480
Gly Ile Asn Pro Tyr Glu Ala Arg Val Lys Gly Leu Ser Gln Lys Leu
485 490 495
Ser Glu Glu Glu Phe Ser Ala Ala Leu Leu His Leu Ala Lys Arg Arg
500 505 510
Gly Val His Asn Val Asn Glu Val Glu Glu Asp Thr Gly Asn Glu Leu
515 520 525
Ser Thr Lys Glu Gln Ile Ser Arg Asn Ser Lys Ala Leu Glu Glu Lys
530 535 540
Tyr Val Ala Glu Leu Gln Leu Glu Arg Leu Lys Lys Asp Gly Glu Val
545 550 555 560
Arg Gly Ser Ile Asn Arg Phe Lys Thr Ser Asp Tyr Val Lys Glu Ala
565 570 575
Lys Gln Leu Leu Lys Val Gln Lys Ala Tyr His Gln Leu Asp Gln Ser
580 585 590
Phe Ile Asp Thr Tyr Ile Asp Leu Leu Glu Thr Arg Arg Thr Tyr Tyr
595 600 605
Glu Gly Pro Gly Glu Gly Ser Pro Phe Gly Trp Lys Asp Ile Lys Glu
610 615 620
Trp Tyr Glu Met Leu Met Gly His Cys Thr Tyr Phe Pro Glu Glu Leu
625 630 635 640
Arg Ser Val Lys Tyr Ala Tyr Asn Ala Asp Leu Tyr Asn Ala Leu Asn
645 650 655
Asp Leu Asn Asn Leu Val Ile Thr Arg Asp Glu Asn Glu Lys Leu Glu
660 665 670
Tyr Tyr Glu Lys Phe Gln Ile Ile Glu Asn Val Phe Lys Gln Lys Lys
675 680 685
Lys Pro Thr Leu Lys Gln Ile Ala Lys Glu Ile Leu Val Asn Glu Glu
690 695 700
Asp Ile Lys Gly Tyr Arg Val Thr Ser Thr Gly Lys Pro Glu Phe Thr
705 710 715 720
Asn Leu Lys Val Tyr His Asp Ile Lys Asp Ile Thr Ala Arg Lys Glu
725 730 735
Ile Ile Glu Asn Ala Glu Leu Leu Asp Gln Ile Ala Lys Ile Leu Thr
740 745 750
Ile Tyr Gln Ser Ser Glu Asp Ile Gln Glu Glu Leu Thr Asn Leu Asn
755 760 765
Ser Glu Leu Thr Gln Glu Glu Ile Glu Gln Ile Ser Asn Leu Lys Gly
770 775 780
Tyr Thr Gly Thr His Asn Leu Ser Leu Lys Ala Ile Asn Leu Ile Leu
785 790 795 800
Asp Glu Leu Trp His Thr Asn Asp Asn Gln Ile Ala Ile Phe Asn Arg
805 810 815
Leu Lys Leu Val Pro Lys Lys Val Asp Leu Ser Gln Gln Lys Glu Ile
820 825 830
Pro Thr Thr Leu Val Asp Asp Phe Ile Leu Ser Pro Val Val Lys Arg
835 840 845
Ser Phe Ile Gln Ser Ile Lys Val Ile Asn Ala Ile Ile Lys Lys Tyr
850 855 860
Gly Leu Pro Asn Asp Ile Ile Ile Glu Leu Ala Arg Glu Lys Asn Ser
865 870 875 880
Lys Asp Ala Gln Lys Met Ile Asn Glu Met Gln Lys Arg Asn Arg Gln
885 890 895
Thr Asn Glu Arg Ile Glu Glu Ile Ile Arg Thr Thr Gly Lys Glu Asn
900 905 910
Ala Lys Tyr Leu Ile Glu Lys Ile Lys Leu His Asp Met Gln Glu Gly
915 920 925
Lys Cys Leu Tyr Ser Leu Glu Ala Ile Pro Leu Glu Asp Leu Leu Asn
930 935 940
Asn Pro Phe Asn Tyr Glu Val Asp His Ile Ile Pro Arg Ser Val Ser
945 950 955 960
Phe Asp Asn Ser Phe Asn Asn Lys Val Leu Val Lys Gln Glu Glu Asn
965 970 975
Ser Lys Lys Gly Asn Arg Thr Pro Phe Gln Tyr Leu Ser Ser Ser Asp
980 985 990
Ser Lys Ile Ser Tyr Glu Thr Phe Lys Lys His Ile Leu Asn Leu Ala
995 1000 1005
Lys Gly Lys Gly Arg Ile Ser Lys Thr Lys Lys Glu Tyr Leu Leu
1010 1015 1020
Glu Glu Arg Asp Ile Asn Arg Phe Ser Val Gln Lys Asp Phe Ile
1025 1030 1035
Asn Arg Asn Leu Val Asp Thr Arg Tyr Ala Thr Arg Gly Leu Met
1040 1045 1050
Asn Leu Leu Arg Ser Tyr Phe Arg Val Asn Asn Leu Asp Val Lys
1055 1060 1065
Val Lys Ser Ile Asn Gly Gly Phe Thr Ser Phe Leu Arg Arg Lys
1070 1075 1080
Trp Lys Phe Lys Lys Glu Arg Asn Lys Gly Tyr Lys His His Ala
1085 1090 1095
Glu Asp Ala Leu Ile Ile Ala Asn Ala Asp Phe Ile Phe Lys Glu
1100 1105 1110
Trp Lys Lys Leu Asp Lys Ala Lys Lys Val Met Glu Asn Gln Met
1115 1120 1125
Phe Glu Glu Lys Gln Ala Glu Ser Met Pro Glu Ile Glu Thr Glu
1130 1135 1140
Gln Glu Tyr Lys Glu Ile Phe Ile Thr Pro His Gln Ile Lys His
1145 1150 1155
Ile Lys Asp Phe Lys Asp Tyr Lys Tyr Ser His Arg Val Asp Lys
1160 1165 1170
Lys Pro Asn Arg Lys Leu Ile Asn Asp Thr Leu Tyr Ser Thr Arg
1175 1180 1185
Lys Asp Asp Lys Gly Asn Thr Leu Ile Val Asn Asn Leu Asn Gly
1190 1195 1200
Leu Tyr Asp Lys Asp Asn Asp Lys Leu Lys Lys Leu Ile Asn Lys
1205 1210 1215
Ser Pro Glu Lys Leu Leu Met Tyr His His Asp Pro Gln Thr Tyr
1220 1225 1230
Gln Lys Leu Lys Leu Ile Met Glu Gln Tyr Gly Asp Glu Lys Asn
1235 1240 1245
Pro Leu Tyr Lys Tyr Tyr Glu Glu Thr Gly Asn Tyr Leu Thr Lys
1250 1255 1260
Tyr Ser Lys Lys Asp Asn Gly Pro Val Ile Lys Lys Ile Lys Tyr
1265 1270 1275
Tyr Gly Asn Lys Leu Asn Ala His Leu Asp Ile Thr Asp Asp Tyr
1280 1285 1290
Pro Asn Ser Arg Asn Lys Val Val Lys Leu Ser Leu Lys Pro Tyr
1295 1300 1305
Arg Phe Asp Val Tyr Leu Asp Asn Gly Val Tyr Lys Phe Val Thr
1310 1315 1320
Val Lys Asn Leu Asp Val Ile Lys Lys Glu Asn Tyr Tyr Glu Val
1325 1330 1335
Asn Ser Lys Cys Tyr Glu Glu Ala Lys Lys Leu Lys Lys Ile Ser
1340 1345 1350
Asn Gln Ala Glu Phe Ile Ala Ser Phe Tyr Lys Asn Asp Leu Ile
1355 1360 1365
Lys Ile Asn Gly Glu Leu Tyr Arg Val Ile Gly Val Asn Asn Asp
1370 1375 1380
Leu Leu Asn Arg Ile Glu Val Asn Met Ile Asp Ile Thr Tyr Arg
1385 1390 1395
Glu Tyr Leu Glu Asn Met Asn Asp Lys Arg Pro Pro His Ile Ile
1400 1405 1410
Lys Thr Ile Ala Ser Lys Thr Gln Ser Ile Lys Lys Tyr Ser Thr
1415 1420 1425
Asp Ile Leu Gly Asn Leu Tyr Glu Val Lys Ser Lys Lys His Pro
1430 1435 1440
Gln Ile Ile Lys Lys Gly Glu Gly Ala Asp Lys Arg Thr Ala Asp
1445 1450 1455
Gly Ser Glu Phe Glu Ser Pro Lys Lys Lys Arg Lys Val
1460 1465 1470
<210> 276
<211> 1591
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polypeptide
<400> 276
Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu
1 5 10 15
Thr Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala
20 25 30
Val Leu Val His Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro
35 40 45
Ile Gly Arg His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg
50 55 60
Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu
65 70 75 80
Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His
85 90 95
Ser Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly
100 105 110
Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His
115 120 125
Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu
130 135 140
Leu Ser Asp Phe Phe Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys
145 150 155 160
Lys Ala Gln Ser Ser Thr Asp Ser Gly Gly Ser Ser Gly Gly Ser Ser
165 170 175
Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser Ser
180 185 190
Gly Gly Ser Ser Gly Gly Ser Ser Glu Val Glu Phe Ser His Glu Tyr
195 200 205
Trp Met Arg His Ala Leu Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg
210 215 220
Glu Val Pro Val Gly Ala Val Leu Val Leu Asn Asn Arg Val Ile Gly
225 230 235 240
Glu Gly Trp Asn Arg Ala Ile Gly Leu His Asp Pro Thr Ala His Ala
245 250 255
Glu Ile Met Ala Leu Arg Gln Gly Gly Leu Val Met Gln Asn Tyr Arg
260 265 270
Leu Ile Asp Ala Thr Leu Tyr Val Thr Phe Glu Pro Cys Val Met Cys
275 280 285
Ala Gly Ala Met Ile His Ser Arg Ile Gly Arg Val Val Phe Gly Val
290 295 300
Arg Asn Ala Lys Thr Gly Ala Ala Gly Ser Leu Met Asp Val Leu His
305 310 315 320
Tyr Pro Gly Met Asn His Arg Val Glu Ile Thr Glu Gly Ile Leu Ala
325 330 335
Asp Glu Cys Ala Ala Leu Leu Cys Tyr Phe Phe Arg Met Pro Arg Gln
340 345 350
Val Phe Asn Ala Gln Lys Lys Ala Gln Ser Ser Thr Asp Ser Gly Gly
355 360 365
Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser
370 375 380
Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser Lys Arg Asn
385 390 395 400
Tyr Ile Leu Gly Leu Ala Ile Gly Ile Thr Ser Val Gly Tyr Gly Ile
405 410 415
Ile Asp Tyr Glu Thr Arg Asp Val Ile Asp Ala Gly Val Arg Leu Phe
420 425 430
Lys Glu Ala Asn Val Glu Asn Asn Glu Gly Arg Arg Ser Lys Arg Gly
435 440 445
Ala Arg Arg Leu Lys Arg Arg Arg Arg His Arg Ile Gln Arg Val Lys
450 455 460
Lys Leu Leu Phe Asp Tyr Asn Leu Leu Thr Asp His Ser Glu Leu Ser
465 470 475 480
Gly Ile Asn Pro Tyr Glu Ala Arg Val Lys Gly Leu Ser Gln Lys Leu
485 490 495
Ser Glu Glu Glu Phe Ser Ala Ala Leu Leu His Leu Ala Lys Arg Arg
500 505 510
Gly Val His Asn Val Asn Glu Val Glu Glu Asp Thr Gly Asn Glu Leu
515 520 525
Ser Thr Lys Glu Gln Ile Ser Arg Asn Ser Lys Ala Leu Glu Glu Lys
530 535 540
Tyr Val Ala Glu Leu Gln Leu Glu Arg Leu Lys Lys Asp Gly Glu Val
545 550 555 560
Arg Gly Ser Ile Asn Arg Phe Lys Thr Ser Asp Tyr Val Lys Glu Ala
565 570 575
Lys Gln Leu Leu Lys Val Gln Lys Ala Tyr His Gln Leu Asp Gln Ser
580 585 590
Phe Ile Asp Thr Tyr Ile Asp Leu Leu Glu Thr Arg Arg Thr Tyr Tyr
595 600 605
Glu Gly Pro Gly Glu Gly Ser Pro Phe Gly Trp Lys Asp Ile Lys Glu
610 615 620
Trp Tyr Glu Met Leu Met Gly His Cys Thr Tyr Phe Pro Glu Glu Leu
625 630 635 640
Arg Ser Val Lys Tyr Ala Tyr Asn Ala Asp Leu Tyr Asn Ala Leu Asn
645 650 655
Asp Leu Asn Asn Leu Val Ile Thr Arg Asp Glu Asn Glu Lys Leu Glu
660 665 670
Tyr Tyr Glu Lys Phe Gln Ile Ile Glu Asn Val Phe Lys Gln Lys Lys
675 680 685
Lys Pro Thr Leu Lys Gln Ile Ala Lys Glu Ile Leu Val Asn Glu Glu
690 695 700
Asp Ile Lys Gly Tyr Arg Val Thr Ser Thr Gly Lys Pro Glu Phe Thr
705 710 715 720
Asn Leu Lys Val Tyr His Asp Ile Lys Asp Ile Thr Ala Arg Lys Glu
725 730 735
Ile Ile Glu Asn Ala Glu Leu Leu Asp Gln Ile Ala Lys Ile Leu Thr
740 745 750
Ile Tyr Gln Ser Ser Glu Asp Ile Gln Glu Glu Leu Thr Asn Leu Asn
755 760 765
Ser Glu Leu Thr Gln Glu Glu Ile Glu Gln Ile Ser Asn Leu Lys Gly
770 775 780
Tyr Thr Gly Thr His Asn Leu Ser Leu Lys Ala Ile Asn Leu Ile Leu
785 790 795 800
Asp Glu Leu Trp His Thr Asn Asp Asn Gln Ile Ala Ile Phe Asn Arg
805 810 815
Leu Lys Leu Val Pro Lys Lys Val Asp Leu Ser Gln Gln Lys Glu Ile
820 825 830
Pro Thr Thr Leu Val Asp Asp Phe Ile Leu Ser Pro Val Val Lys Arg
835 840 845
Ser Phe Ile Gln Ser Ile Lys Val Ile Asn Ala Ile Ile Lys Lys Tyr
850 855 860
Gly Leu Pro Asn Asp Ile Ile Ile Glu Leu Ala Arg Glu Lys Asn Ser
865 870 875 880
Lys Asp Ala Gln Lys Met Ile Asn Glu Met Gln Lys Arg Asn Arg Gln
885 890 895
Thr Asn Glu Arg Ile Glu Glu Ile Ile Arg Thr Thr Gly Lys Glu Asn
900 905 910
Ala Lys Tyr Leu Ile Glu Lys Ile Lys Leu His Asp Met Gln Glu Gly
915 920 925
Lys Cys Leu Tyr Ser Leu Glu Ala Ile Pro Leu Glu Asp Leu Leu Asn
930 935 940
Asn Pro Phe Asn Tyr Glu Val Asp His Ile Ile Pro Arg Ser Val Ser
945 950 955 960
Phe Asp Asn Ser Phe Asn Asn Lys Val Leu Val Lys Gln Glu Glu Asn
965 970 975
Ser Lys Lys Gly Asn Arg Thr Pro Phe Gln Tyr Leu Ser Ser Ser Asp
980 985 990
Ser Lys Ile Ser Tyr Glu Thr Phe Lys Lys His Ile Leu Asn Leu Ala
995 1000 1005
Lys Gly Lys Gly Arg Ile Ser Lys Thr Lys Lys Glu Tyr Leu Leu
1010 1015 1020
Glu Glu Arg Asp Ile Asn Arg Phe Ser Val Gln Lys Asp Phe Ile
1025 1030 1035
Asn Arg Asn Leu Val Asp Thr Arg Tyr Ala Thr Arg Gly Leu Met
1040 1045 1050
Asn Leu Leu Arg Ser Tyr Phe Arg Val Asn Asn Leu Asp Val Lys
1055 1060 1065
Val Lys Ser Ile Asn Gly Gly Phe Thr Ser Phe Leu Arg Arg Lys
1070 1075 1080
Trp Lys Phe Lys Lys Glu Arg Asn Lys Gly Tyr Lys His His Ala
1085 1090 1095
Glu Asp Ala Leu Ile Ile Ala Asn Ala Asp Phe Ile Phe Lys Glu
1100 1105 1110
Trp Lys Lys Leu Asp Lys Ala Lys Lys Val Met Glu Asn Gln Met
1115 1120 1125
Phe Glu Glu Lys Gln Ala Glu Ser Met Pro Glu Ile Glu Thr Glu
1130 1135 1140
Gln Glu Tyr Lys Glu Ile Phe Ile Thr Pro His Gln Ile Lys His
1145 1150 1155
Ile Lys Asp Phe Lys Asp Tyr Lys Tyr Ser His Arg Val Asp Lys
1160 1165 1170
Lys Pro Asn Arg Lys Leu Ile Asn Asp Thr Leu Tyr Ser Thr Arg
1175 1180 1185
Lys Asp Asp Lys Gly Asn Thr Leu Ile Val Asn Asn Leu Asn Gly
1190 1195 1200
Leu Tyr Asp Lys Asp Asn Asp Lys Leu Lys Lys Leu Ile Asn Lys
1205 1210 1215
Ser Pro Glu Lys Leu Leu Met Tyr His His Asp Pro Gln Thr Tyr
1220 1225 1230
Gln Lys Leu Lys Leu Ile Met Glu Gln Tyr Gly Asp Glu Lys Asn
1235 1240 1245
Pro Leu Tyr Lys Tyr Tyr Glu Glu Thr Gly Asn Tyr Leu Thr Lys
1250 1255 1260
Tyr Ser Lys Lys Asp Asn Gly Pro Val Ile Lys Lys Ile Lys Tyr
1265 1270 1275
Tyr Gly Asn Lys Leu Asn Ala His Leu Asp Ile Thr Asp Asp Tyr
1280 1285 1290
Pro Asn Ser Arg Asn Lys Val Val Lys Leu Ser Leu Lys Pro Tyr
1295 1300 1305
Arg Phe Asp Val Tyr Leu Asp Asn Gly Val Tyr Lys Phe Val Thr
1310 1315 1320
Val Lys Asn Leu Asp Val Ile Lys Lys Glu Asn Tyr Tyr Glu Val
1325 1330 1335
Asn Ser Lys Cys Tyr Glu Glu Ala Lys Lys Leu Lys Lys Ile Ser
1340 1345 1350
Asn Gln Ala Glu Phe Ile Ala Ser Phe Tyr Lys Asn Asp Leu Ile
1355 1360 1365
Lys Ile Asn Gly Glu Leu Tyr Arg Val Ile Gly Val Asn Asn Asp
1370 1375 1380
Leu Leu Asn Arg Ile Glu Val Asn Met Ile Asp Ile Thr Tyr Arg
1385 1390 1395
Glu Tyr Leu Glu Asn Met Asn Asp Lys Arg Pro Pro His Ile Ile
1400 1405 1410
Lys Thr Ile Ala Ser Lys Thr Gln Ser Ile Lys Lys Tyr Ser Thr
1415 1420 1425
Asp Ile Leu Gly Asn Leu Tyr Glu Val Lys Ser Lys Lys His Pro
1430 1435 1440
Gln Ile Ile Lys Lys Gly Glu Gly Ala Asp Lys Arg Thr Ala Asp
1445 1450 1455
Gly Ser Glu Phe Glu Ser Pro Lys Lys Lys Arg Lys Val Ser Ser
1460 1465 1470
Gly Asn Ser Asn Ala Asn Ser Arg Gly Pro Ser Phe Ser Ser Gly
1475 1480 1485
Leu Val Pro Leu Ser Leu Arg Gly Ser His Ser Arg Pro Gly Glu
1490 1495 1500
Arg Pro Phe Gln Cys Arg Ile Cys Met Arg Asn Phe Ser Arg Asn
1505 1510 1515
Glu His Leu Glu Val His Thr Arg Thr His Thr Gly Glu Lys Pro
1520 1525 1530
Phe Gln Cys Arg Ile Cys Met Arg Asn Phe Ser Gln Ser Thr Thr
1535 1540 1545
Leu Lys Arg His Leu Arg Thr His Thr Gly Glu Lys Pro Phe Gln
1550 1555 1560
Cys Arg Ile Cys Met Arg Asn Phe Ser Arg Thr Glu His Leu Ala
1565 1570 1575
Arg His Leu Lys Thr His Leu Arg Gly Ser Ser Ala Gln
1580 1585 1590
<210> 277
<211> 1591
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polypeptide
<400> 277
Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu
1 5 10 15
Thr Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala
20 25 30
Val Leu Val His Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro
35 40 45
Ile Gly Arg His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg
50 55 60
Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu
65 70 75 80
Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His
85 90 95
Ser Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly
100 105 110
Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His
115 120 125
Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu
130 135 140
Leu Ser Asp Phe Phe Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys
145 150 155 160
Lys Ala Gln Ser Ser Thr Asp Ser Gly Gly Ser Ser Gly Gly Ser Ser
165 170 175
Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser Ser
180 185 190
Gly Gly Ser Ser Gly Gly Ser Ser Glu Val Glu Phe Ser His Glu Tyr
195 200 205
Trp Met Arg His Ala Leu Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg
210 215 220
Glu Val Pro Val Gly Ala Val Leu Val Leu Asn Asn Arg Val Ile Gly
225 230 235 240
Glu Gly Trp Asn Arg Ala Ile Gly Leu His Asp Pro Thr Ala His Ala
245 250 255
Glu Ile Met Ala Leu Arg Gln Gly Gly Leu Val Met Gln Asn Tyr Arg
260 265 270
Leu Ile Asp Ala Thr Leu Tyr Val Thr Phe Glu Pro Cys Val Met Cys
275 280 285
Ala Gly Ala Met Ile His Ser Arg Ile Gly Arg Val Val Phe Gly Val
290 295 300
Arg Asn Ala Lys Thr Gly Ala Ala Gly Ser Leu Met Asp Val Leu His
305 310 315 320
Tyr Pro Gly Met Asn His Arg Val Glu Ile Thr Glu Gly Ile Leu Ala
325 330 335
Asp Glu Cys Ala Ala Leu Leu Cys Tyr Phe Phe Arg Met Pro Arg Gln
340 345 350
Val Phe Asn Ala Gln Lys Lys Ala Gln Ser Ser Thr Asp Ser Gly Gly
355 360 365
Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser
370 375 380
Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser Lys Arg Asn
385 390 395 400
Tyr Ile Leu Gly Leu Ala Ile Gly Ile Thr Ser Val Gly Tyr Gly Ile
405 410 415
Ile Asp Tyr Glu Thr Arg Asp Val Ile Asp Ala Gly Val Arg Leu Phe
420 425 430
Lys Glu Ala Asn Val Glu Asn Asn Glu Gly Arg Arg Ser Lys Arg Gly
435 440 445
Ala Arg Arg Leu Lys Arg Arg Arg Arg His Arg Ile Gln Arg Val Lys
450 455 460
Lys Leu Leu Phe Asp Tyr Asn Leu Leu Thr Asp His Ser Glu Leu Ser
465 470 475 480
Gly Ile Asn Pro Tyr Glu Ala Arg Val Lys Gly Leu Ser Gln Lys Leu
485 490 495
Ser Glu Glu Glu Phe Ser Ala Ala Leu Leu His Leu Ala Lys Arg Arg
500 505 510
Gly Val His Asn Val Asn Glu Val Glu Glu Asp Thr Gly Asn Glu Leu
515 520 525
Ser Thr Lys Glu Gln Ile Ser Arg Asn Ser Lys Ala Leu Glu Glu Lys
530 535 540
Tyr Val Ala Glu Leu Gln Leu Glu Arg Leu Lys Lys Asp Gly Glu Val
545 550 555 560
Arg Gly Ser Ile Asn Arg Phe Lys Thr Ser Asp Tyr Val Lys Glu Ala
565 570 575
Lys Gln Leu Leu Lys Val Gln Lys Ala Tyr His Gln Leu Asp Gln Ser
580 585 590
Phe Ile Asp Thr Tyr Ile Asp Leu Leu Glu Thr Arg Arg Thr Tyr Tyr
595 600 605
Glu Gly Pro Gly Glu Gly Ser Pro Phe Gly Trp Lys Asp Ile Lys Glu
610 615 620
Trp Tyr Glu Met Leu Met Gly His Cys Thr Tyr Phe Pro Glu Glu Leu
625 630 635 640
Arg Ser Val Lys Tyr Ala Tyr Asn Ala Asp Leu Tyr Asn Ala Leu Asn
645 650 655
Asp Leu Asn Asn Leu Val Ile Thr Arg Asp Glu Asn Glu Lys Leu Glu
660 665 670
Tyr Tyr Glu Lys Phe Gln Ile Ile Glu Asn Val Phe Lys Gln Lys Lys
675 680 685
Lys Pro Thr Leu Lys Gln Ile Ala Lys Glu Ile Leu Val Asn Glu Glu
690 695 700
Asp Ile Lys Gly Tyr Arg Val Thr Ser Thr Gly Lys Pro Glu Phe Thr
705 710 715 720
Asn Leu Lys Val Tyr His Asp Ile Lys Asp Ile Thr Ala Arg Lys Glu
725 730 735
Ile Ile Glu Asn Ala Glu Leu Leu Asp Gln Ile Ala Lys Ile Leu Thr
740 745 750
Ile Tyr Gln Ser Ser Glu Asp Ile Gln Glu Glu Leu Thr Asn Leu Asn
755 760 765
Ser Glu Leu Thr Gln Glu Glu Ile Glu Gln Ile Ser Asn Leu Lys Gly
770 775 780
Tyr Thr Gly Thr His Asn Leu Ser Leu Lys Ala Ile Asn Leu Ile Leu
785 790 795 800
Asp Glu Leu Trp His Thr Asn Asp Asn Gln Ile Ala Ile Phe Asn Arg
805 810 815
Leu Lys Leu Val Pro Lys Lys Val Asp Leu Ser Gln Gln Lys Glu Ile
820 825 830
Pro Thr Thr Leu Val Asp Asp Phe Ile Leu Ser Pro Val Val Lys Arg
835 840 845
Ser Phe Ile Gln Ser Ile Lys Val Ile Asn Ala Ile Ile Lys Lys Tyr
850 855 860
Gly Leu Pro Asn Asp Ile Ile Ile Glu Leu Ala Arg Glu Lys Asn Ser
865 870 875 880
Lys Asp Ala Gln Lys Met Ile Asn Glu Met Gln Lys Arg Asn Arg Gln
885 890 895
Thr Asn Glu Arg Ile Glu Glu Ile Ile Arg Thr Thr Gly Lys Glu Asn
900 905 910
Ala Lys Tyr Leu Ile Glu Lys Ile Lys Leu His Asp Met Gln Glu Gly
915 920 925
Lys Cys Leu Tyr Ser Leu Glu Ala Ile Pro Leu Glu Asp Leu Leu Asn
930 935 940
Asn Pro Phe Asn Tyr Glu Val Asp His Ile Ile Pro Arg Ser Val Ser
945 950 955 960
Phe Asp Asn Ser Phe Asn Asn Lys Val Leu Val Lys Gln Glu Glu Asn
965 970 975
Ser Lys Lys Gly Asn Arg Thr Pro Phe Gln Tyr Leu Ser Ser Ser Asp
980 985 990
Ser Lys Ile Ser Tyr Glu Thr Phe Lys Lys His Ile Leu Asn Leu Ala
995 1000 1005
Lys Gly Lys Gly Arg Ile Ser Lys Thr Lys Lys Glu Tyr Leu Leu
1010 1015 1020
Glu Glu Arg Asp Ile Asn Arg Phe Ser Val Gln Lys Asp Phe Ile
1025 1030 1035
Asn Arg Asn Leu Val Asp Thr Arg Tyr Ala Thr Arg Gly Leu Met
1040 1045 1050
Asn Leu Leu Arg Ser Tyr Phe Arg Val Asn Asn Leu Asp Val Lys
1055 1060 1065
Val Lys Ser Ile Asn Gly Gly Phe Thr Ser Phe Leu Arg Arg Lys
1070 1075 1080
Trp Lys Phe Lys Lys Glu Arg Asn Lys Gly Tyr Lys His His Ala
1085 1090 1095
Glu Asp Ala Leu Ile Ile Ala Asn Ala Asp Phe Ile Phe Lys Glu
1100 1105 1110
Trp Lys Lys Leu Asp Lys Ala Lys Lys Val Met Glu Asn Gln Met
1115 1120 1125
Phe Glu Glu Lys Gln Ala Glu Ser Met Pro Glu Ile Glu Thr Glu
1130 1135 1140
Gln Glu Tyr Lys Glu Ile Phe Ile Thr Pro His Gln Ile Lys His
1145 1150 1155
Ile Lys Asp Phe Lys Asp Tyr Lys Tyr Ser His Arg Val Asp Lys
1160 1165 1170
Lys Pro Asn Arg Lys Leu Ile Asn Asp Thr Leu Tyr Ser Thr Arg
1175 1180 1185
Lys Asp Asp Lys Gly Asn Thr Leu Ile Val Asn Asn Leu Asn Gly
1190 1195 1200
Leu Tyr Asp Lys Asp Asn Asp Lys Leu Lys Lys Leu Ile Asn Lys
1205 1210 1215
Ser Pro Glu Lys Leu Leu Met Tyr His His Asp Pro Gln Thr Tyr
1220 1225 1230
Gln Lys Leu Lys Leu Ile Met Glu Gln Tyr Gly Asp Glu Lys Asn
1235 1240 1245
Pro Leu Tyr Lys Tyr Tyr Glu Glu Thr Gly Asn Tyr Leu Thr Lys
1250 1255 1260
Tyr Ser Lys Lys Asp Asn Gly Pro Val Ile Lys Lys Ile Lys Tyr
1265 1270 1275
Tyr Gly Asn Lys Leu Asn Ala His Leu Asp Ile Thr Asp Asp Tyr
1280 1285 1290
Pro Asn Ser Arg Asn Lys Val Val Lys Leu Ser Leu Lys Pro Tyr
1295 1300 1305
Arg Phe Asp Val Tyr Leu Asp Asn Gly Val Tyr Lys Phe Val Thr
1310 1315 1320
Val Lys Asn Leu Asp Val Ile Lys Lys Glu Asn Tyr Tyr Glu Val
1325 1330 1335
Asn Ser Lys Cys Tyr Glu Glu Ala Lys Lys Leu Lys Lys Ile Ser
1340 1345 1350
Asn Gln Ala Glu Phe Ile Ala Ser Phe Tyr Lys Asn Asp Leu Ile
1355 1360 1365
Lys Ile Asn Gly Glu Leu Tyr Arg Val Ile Gly Val Asn Asn Asp
1370 1375 1380
Leu Leu Asn Arg Ile Glu Val Asn Met Ile Asp Ile Thr Tyr Arg
1385 1390 1395
Glu Tyr Leu Glu Asn Met Asn Asp Lys Arg Pro Pro His Ile Ile
1400 1405 1410
Lys Thr Ile Ala Ser Lys Thr Gln Ser Ile Lys Lys Tyr Ser Thr
1415 1420 1425
Asp Ile Leu Gly Asn Leu Tyr Glu Val Lys Ser Lys Lys His Pro
1430 1435 1440
Gln Ile Ile Lys Lys Gly Glu Gly Ala Asp Lys Arg Thr Ala Asp
1445 1450 1455
Gly Ser Glu Phe Glu Ser Pro Lys Lys Lys Arg Lys Val Ser Ser
1460 1465 1470
Gly Asn Ser Asn Ala Asn Ser Arg Gly Pro Ser Phe Ser Ser Gly
1475 1480 1485
Leu Val Pro Leu Ser Leu Arg Gly Ser His Ser Arg Pro Gly Glu
1490 1495 1500
Arg Pro Phe Gln Cys Arg Ile Cys Met Arg Asn Phe Ser Arg Gly
1505 1510 1515
Glu His Leu Arg Gln His Thr Arg Thr His Thr Gly Glu Lys Pro
1520 1525 1530
Phe Gln Cys Arg Ile Cys Met Arg Asn Phe Ser Gln Ser Gly Thr
1535 1540 1545
Leu Lys Arg His Leu Arg Thr His Thr Gly Glu Lys Pro Phe Gln
1550 1555 1560
Cys Arg Ile Cys Met Arg Asn Phe Ser Arg Asn Asp Lys Leu Val
1565 1570 1575
Pro His Leu Lys Thr His Leu Arg Gly Ser Ser Ala Gln
1580 1585 1590
<210> 278
<211> 20
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 278
gacaagaaag ggactgaagc 20
<210> 279
<211> 20
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 279
atcgacaaga aagggactga 20
<210> 280
<211> 20
<212> DNA
<213> Unknown
<220>
<223> Description of Unknown:
Target sequence
<400> 280
acacaccggt tggtggcctc 20
<210> 281
<211> 1786
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polypeptide
<400> 281
Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu
1 5 10 15
Thr Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala
20 25 30
Val Leu Val His Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro
35 40 45
Ile Gly Arg His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg
50 55 60
Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu
65 70 75 80
Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His
85 90 95
Ser Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly
100 105 110
Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His
115 120 125
Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu
130 135 140
Leu Ser Asp Phe Phe Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys
145 150 155 160
Lys Ala Gln Ser Ser Thr Asp Ser Gly Gly Ser Ser Gly Gly Ser Ser
165 170 175
Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser Ser
180 185 190
Gly Gly Ser Ser Gly Gly Ser Ser Glu Val Glu Phe Ser His Glu Tyr
195 200 205
Trp Met Arg His Ala Leu Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg
210 215 220
Glu Val Pro Val Gly Ala Val Leu Val Leu Asn Asn Arg Val Ile Gly
225 230 235 240
Glu Gly Trp Asn Arg Ala Ile Gly Leu His Asp Pro Thr Ala His Ala
245 250 255
Glu Ile Met Ala Leu Arg Gln Gly Gly Leu Val Met Gln Asn Tyr Arg
260 265 270
Leu Ile Asp Ala Thr Leu Tyr Val Thr Phe Glu Pro Cys Val Met Cys
275 280 285
Ala Gly Ala Met Ile His Ser Arg Ile Gly Arg Val Val Phe Gly Val
290 295 300
Arg Asn Ala Lys Thr Gly Ala Ala Gly Ser Leu Met Asp Val Leu His
305 310 315 320
Tyr Pro Gly Met Asn His Arg Val Glu Ile Thr Glu Gly Ile Leu Ala
325 330 335
Asp Glu Cys Ala Ala Leu Leu Cys Tyr Phe Phe Arg Met Pro Arg Gln
340 345 350
Val Phe Asn Ala Gln Lys Lys Ala Gln Ser Ser Thr Asp Ser Gly Gly
355 360 365
Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser
370 375 380
Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser Asp Lys Lys
385 390 395 400
Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val Gly Trp Ala Val
405 410 415
Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys Val Leu Gly
420 425 430
Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile Gly Ala Leu Leu
435 440 445
Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu Lys Arg Thr Ala
450 455 460
Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr Leu Gln Glu
465 470 475 480
Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser Phe Phe His Arg
485 490 495
Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys His Glu Arg His
500 505 510
Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr His Glu Lys Tyr
515 520 525
Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp Ser Thr Asp Lys
530 535 540
Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His Met Ile Lys Phe
545 550 555 560
Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp Asn Ser Asp
565 570 575
Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn Gln Leu Phe
580 585 590
Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala Lys Ala Ile Leu
595 600 605
Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu Ile Ala Gln
610 615 620
Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu Ile Ala Leu
625 630 635 640
Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp Leu Ala Glu
645 650 655
Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp Asp Leu Asp
660 665 670
Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu Phe Leu Ala
675 680 685
Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile Leu Arg Val
690 695 700
Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met Ile Lys Arg
705 710 715 720
Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys Ala Leu Val Arg
725 730 735
Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp Gln Ser Lys
740 745 750
Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln Glu Glu Phe
755 760 765
Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp Gly Thr Glu Glu
770 775 780
Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys Gln Arg Thr
785 790 795 800
Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu Gly Glu Leu His
805 810 815
Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu Lys Asp Asn
820 825 830
Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro Tyr Tyr Val
835 840 845
Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp Met Thr Arg Lys
850 855 860
Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu Val Val Asp Lys
865 870 875 880
Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr Asn Phe Asp Lys
885 890 895
Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser Leu Leu Tyr Glu
900 905 910
Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr Val Thr Glu
915 920 925
Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys Lys Ala Ile
930 935 940
Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val Lys Gln Leu
945 950 955 960
Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser Val Glu Ile
965 970 975
Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr Tyr His Asp
980 985 990
Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn Glu Glu Asn
995 1000 1005
Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr Leu Phe Glu
1010 1015 1020
Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala His Leu
1025 1030 1035
Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr
1040 1045 1050
Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
1055 1060 1065
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly
1070 1075 1080
Phe Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu
1085 1090 1095
Thr Phe Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly
1100 1105 1110
Asp Ser Leu His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala
1115 1120 1125
Ile Lys Lys Gly Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu
1130 1135 1140
Val Lys Val Met Gly Arg His Lys Pro Glu Asn Ile Val Ile Glu
1145 1150 1155
Met Ala Arg Glu Asn Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser
1160 1165 1170
Arg Glu Arg Met Lys Arg Ile Glu Glu Gly Ile Lys Glu Leu Gly
1175 1180 1185
Ser Gln Ile Leu Lys Glu His Pro Val Glu Asn Thr Gln Leu Gln
1190 1195 1200
Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly Arg Asp Met
1205 1210 1215
Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu Ser Asp Tyr Asp
1220 1225 1230
Val Asp His Ile Val Pro Gln Ser Phe Leu Lys Asp Asp Ser Ile
1235 1240 1245
Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly Lys Ser
1250 1255 1260
Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn Tyr
1265 1270 1275
Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe
1280 1285 1290
Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp
1295 1300 1305
Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile
1310 1315 1320
Thr Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys
1325 1330 1335
Tyr Asp Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr
1340 1345 1350
Leu Lys Ser Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe
1355 1360 1365
Tyr Lys Val Arg Glu Ile Asn Asn Tyr His His Ala His Asp Ala
1370 1375 1380
Tyr Leu Asn Ala Val Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro
1385 1390 1395
Lys Leu Glu Ser Glu Phe Val Tyr Gly Asp Tyr Lys Val Tyr Asp
1400 1405 1410
Val Arg Lys Met Ile Ala Lys Ser Glu Gln Glu Ile Gly Lys Ala
1415 1420 1425
Thr Ala Lys Tyr Phe Phe Tyr Ser Asn Ile Met Asn Phe Phe Lys
1430 1435 1440
Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile Arg Lys Arg Pro Leu
1445 1450 1455
Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile Val Trp Asp Lys Gly
1460 1465 1470
Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser Met Pro Gln Val
1475 1480 1485
Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly Phe Ser Lys
1490 1495 1500
Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys Leu Ile Ala Arg
1505 1510 1515
Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe Met Gln Pro
1520 1525 1530
Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys Val Glu Lys Gly
1535 1540 1545
Lys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr
1550 1555 1560
Ile Met Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu
1565 1570 1575
Glu Ala Lys Gly Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys
1580 1585 1590
Leu Pro Lys Tyr Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg
1595 1600 1605
Met Leu Ala Ser Ala Lys Phe Leu Gln Lys Gly Asn Glu Leu Ala
1610 1615 1620
Leu Pro Ser Lys Tyr Val Asn Phe Leu Tyr Leu Ala Ser His Tyr
1625 1630 1635
Glu Lys Leu Lys Gly Ser Pro Glu Asp Asn Glu Gln Lys Gln Leu
1640 1645 1650
Phe Val Glu Gln His Lys His Tyr Leu Asp Glu Ile Ile Glu Gln
1655 1660 1665
Ile Ser Glu Phe Ser Lys Arg Val Ile Leu Ala Asp Ala Asn Leu
1670 1675 1680
Asp Lys Val Leu Ser Ala Tyr Asn Lys His Arg Asp Lys Pro Ile
1685 1690 1695
Arg Glu Gln Ala Glu Asn Ile Ile His Leu Phe Thr Leu Thr Asn
1700 1705 1710
Leu Gly Ala Pro Arg Ala Phe Lys Tyr Phe Asp Thr Thr Ile Ala
1715 1720 1725
Arg Lys Glu Tyr Arg Ser Thr Lys Glu Val Leu Asp Ala Thr Leu
1730 1735 1740
Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu
1745 1750 1755
Ser Gln Leu Gly Gly Asp Glu Gly Ala Asp Lys Arg Thr Ala Asp
1760 1765 1770
Gly Ser Glu Phe Glu Ser Pro Lys Lys Lys Arg Lys Val
1775 1780 1785
<210> 282
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 282
gctctaggcc gaagtgtcgc 20
<210> 283
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 283
tcactggggt ggatcccgaa 20
<210> 284
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 284
gtgggcatcc tcacaatctc 20
<210> 285
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 285
ggacctaggc gaggcagtag 20
<210> 286
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 286
gacctaggcg aggcagtagg 20
<210> 287
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 287
cagtatggac actgtccaaa 20
<210> 288
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 288
atcgacaaga aagggactga 20
<210> 289
<211> 1786
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polypeptide
<400> 289
Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu
1 5 10 15
Thr Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala
20 25 30
Val Leu Val His Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro
35 40 45
Ile Gly Arg His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg
50 55 60
Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu
65 70 75 80
Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His
85 90 95
Ser Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly
100 105 110
Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His
115 120 125
Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu
130 135 140
Leu Ser Asp Phe Phe Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys
145 150 155 160
Lys Ala Gln Ser Ser Thr Asp Ser Gly Gly Ser Ser Gly Gly Ser Ser
165 170 175
Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser Ser
180 185 190
Gly Gly Ser Ser Gly Gly Ser Ser Glu Val Glu Phe Ser His Glu Tyr
195 200 205
Trp Met Arg His Ala Leu Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg
210 215 220
Glu Val Pro Val Gly Ala Val Leu Val Leu Asn Asn Arg Val Ile Gly
225 230 235 240
Glu Gly Trp Asn Arg Ala Ile Gly Leu His Asp Pro Thr Ala His Ala
245 250 255
Glu Ile Met Ala Leu Arg Gln Gly Gly Leu Val Met Gln Asn Tyr Arg
260 265 270
Leu Ile Asp Ala Thr Leu Tyr Val Thr Phe Glu Pro Cys Val Met Cys
275 280 285
Ala Gly Ala Met Ile His Ser Arg Ile Gly Arg Val Val Phe Gly Val
290 295 300
Arg Asn Ala Lys Thr Gly Ala Ala Gly Ser Leu Met Asp Val Leu His
305 310 315 320
Tyr Pro Gly Met Asn His Arg Val Glu Ile Thr Glu Gly Ile Leu Ala
325 330 335
Asp Glu Cys Ala Ala Leu Leu Cys Tyr Phe Phe Arg Met Pro Arg Gln
340 345 350
Val Phe Asn Ala Gln Lys Lys Ala Gln Ser Ser Thr Asp Ser Gly Gly
355 360 365
Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser
370 375 380
Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser Asp Lys Lys
385 390 395 400
Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val Gly Trp Ala Val
405 410 415
Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys Val Leu Gly
420 425 430
Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile Gly Ala Leu Leu
435 440 445
Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu Lys Arg Thr Ala
450 455 460
Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr Leu Gln Glu
465 470 475 480
Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser Phe Phe His Arg
485 490 495
Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys His Glu Arg His
500 505 510
Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr His Glu Lys Tyr
515 520 525
Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp Ser Thr Asp Lys
530 535 540
Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His Met Ile Lys Phe
545 550 555 560
Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp Asn Ser Asp
565 570 575
Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn Gln Leu Phe
580 585 590
Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala Lys Ala Ile Leu
595 600 605
Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu Ile Ala Gln
610 615 620
Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu Ile Ala Leu
625 630 635 640
Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp Leu Ala Glu
645 650 655
Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp Asp Leu Asp
660 665 670
Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu Phe Leu Ala
675 680 685
Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile Leu Arg Val
690 695 700
Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met Ile Lys Arg
705 710 715 720
Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys Ala Leu Val Arg
725 730 735
Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp Gln Ser Lys
740 745 750
Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln Glu Glu Phe
755 760 765
Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp Gly Thr Glu Glu
770 775 780
Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys Gln Arg Thr
785 790 795 800
Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu Gly Glu Leu His
805 810 815
Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu Lys Asp Asn
820 825 830
Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro Tyr Tyr Val
835 840 845
Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp Met Thr Arg Lys
850 855 860
Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu Val Val Asp Lys
865 870 875 880
Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr Asn Phe Asp Lys
885 890 895
Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser Leu Leu Tyr Glu
900 905 910
Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr Val Thr Glu
915 920 925
Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys Lys Ala Ile
930 935 940
Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val Lys Gln Leu
945 950 955 960
Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser Val Glu Ile
965 970 975
Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr Tyr His Asp
980 985 990
Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn Glu Glu Asn
995 1000 1005
Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr Leu Phe Glu
1010 1015 1020
Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala His Leu
1025 1030 1035
Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr
1040 1045 1050
Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
1055 1060 1065
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly
1070 1075 1080
Phe Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu
1085 1090 1095
Thr Phe Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly
1100 1105 1110
Asp Ser Leu His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala
1115 1120 1125
Ile Lys Lys Gly Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu
1130 1135 1140
Val Lys Val Met Gly Arg His Lys Pro Glu Asn Ile Val Ile Glu
1145 1150 1155
Met Ala Arg Glu Asn Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser
1160 1165 1170
Arg Glu Arg Met Lys Arg Ile Glu Glu Gly Ile Lys Glu Leu Gly
1175 1180 1185
Ser Gln Ile Leu Lys Glu His Pro Val Glu Asn Thr Gln Leu Gln
1190 1195 1200
Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly Arg Asp Met
1205 1210 1215
Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu Ser Asp Tyr Asp
1220 1225 1230
Val Asp His Ile Val Pro Gln Ser Phe Leu Lys Asp Asp Ser Ile
1235 1240 1245
Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly Lys Ser
1250 1255 1260
Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn Tyr
1265 1270 1275
Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe
1280 1285 1290
Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp
1295 1300 1305
Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile
1310 1315 1320
Thr Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys
1325 1330 1335
Tyr Asp Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr
1340 1345 1350
Leu Lys Ser Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe
1355 1360 1365
Tyr Lys Val Arg Glu Ile Asn Asn Tyr His His Ala His Asp Ala
1370 1375 1380
Tyr Leu Asn Ala Val Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro
1385 1390 1395
Lys Leu Glu Ser Glu Phe Val Tyr Gly Asp Tyr Lys Val Tyr Asp
1400 1405 1410
Val Arg Lys Met Ile Ala Lys Ser Glu Gln Glu Ile Gly Lys Ala
1415 1420 1425
Thr Ala Lys Tyr Phe Phe Tyr Ser Asn Ile Met Asn Phe Phe Lys
1430 1435 1440
Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile Arg Lys Arg Pro Leu
1445 1450 1455
Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile Val Trp Asp Lys Gly
1460 1465 1470
Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser Met Pro Gln Val
1475 1480 1485
Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly Phe Ser Lys
1490 1495 1500
Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys Leu Ile Ala Arg
1505 1510 1515
Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe Met Gln Pro
1520 1525 1530
Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys Val Glu Lys Gly
1535 1540 1545
Lys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr
1550 1555 1560
Ile Met Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu
1565 1570 1575
Glu Ala Lys Gly Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys
1580 1585 1590
Leu Pro Lys Tyr Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg
1595 1600 1605
Met Leu Ala Ser Ala Lys Phe Leu Gln Lys Gly Asn Glu Leu Ala
1610 1615 1620
Leu Pro Ser Lys Tyr Val Asn Phe Leu Tyr Leu Ala Ser His Tyr
1625 1630 1635
Glu Lys Leu Lys Gly Ser Pro Glu Asp Asn Glu Gln Lys Gln Leu
1640 1645 1650
Phe Val Glu Gln His Lys His Tyr Leu Asp Glu Ile Ile Glu Gln
1655 1660 1665
Ile Ser Glu Phe Ser Lys Arg Val Ile Leu Ala Asp Ala Asn Leu
1670 1675 1680
Asp Lys Val Leu Ser Ala Tyr Asn Lys His Arg Asp Lys Pro Ile
1685 1690 1695
Arg Glu Gln Ala Glu Asn Ile Ile His Leu Phe Thr Leu Thr Asn
1700 1705 1710
Leu Gly Ala Pro Arg Ala Phe Lys Tyr Phe Asp Thr Thr Ile Ala
1715 1720 1725
Arg Lys Glu Tyr Arg Ser Thr Lys Glu Val Leu Asp Ala Thr Leu
1730 1735 1740
Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu
1745 1750 1755
Ser Gln Leu Gly Gly Asp Glu Gly Ala Asp Lys Arg Thr Ala Asp
1760 1765 1770
Gly Ser Glu Phe Glu Ser Pro Lys Lys Lys Arg Lys Val
1775 1780 1785
<210> 290
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 290
gacctaggcg aggcagtagg 20
<210> 291
<211> 643
<212> PRT
<213> Mus musculus
<400> 291
Met Arg Pro Pro Arg Pro Ser Ser Ala Met Leu Thr Phe Phe Ala Ala
1 5 10 15
Phe Leu Ala Ala Pro Leu Ala Leu Ala Glu Ser Pro Tyr Leu Val Arg
20 25 30
Val Asp Ala Ala Arg Pro Leu Arg Pro Leu Leu Pro Phe Trp Arg Ser
35 40 45
Thr Gly Phe Cys Pro Pro Leu Pro His Asp Gln Ala Asp Gln Tyr Asp
50 55 60
Leu Ser Trp Asp Gln Gln Leu Asn Leu Ala Tyr Ile Gly Ala Val Pro
65 70 75 80
His Ser Gly Ile Glu Gln Val Arg Ile His Trp Leu Leu Asp Leu Ile
85 90 95
Thr Ala Arg Lys Ser Pro Gly Gln Gly Leu Met Tyr Asn Phe Thr His
100 105 110
Leu Asp Ala Phe Leu Asp Leu Leu Met Glu Asn Gln Leu Leu Pro Gly
115 120 125
Phe Glu Leu Met Gly Ser Pro Ser Gly Tyr Phe Thr Asp Phe Asp Asp
130 135 140
Lys Gln Gln Val Phe Glu Trp Lys Asp Leu Val Ser Leu Leu Ala Arg
145 150 155 160
Arg Tyr Ile Gly Arg Tyr Gly Leu Thr His Val Ser Lys Trp Asn Phe
165 170 175
Glu Thr Trp Asn Glu Pro Asp His His Asp Phe Asp Asn Val Ser Met
180 185 190
Thr Thr Gln Gly Phe Leu Asn Tyr Tyr Asp Ala Cys Ser Glu Gly Leu
195 200 205
Arg Ile Ala Ser Pro Thr Leu Lys Leu Gly Gly Pro Gly Asp Ser Phe
210 215 220
His Pro Leu Pro Arg Ser Pro Met Cys Trp Ser Leu Leu Gly His Cys
225 230 235 240
Ala Asn Gly Thr Asn Phe Phe Thr Gly Glu Val Gly Val Arg Leu Asp
245 250 255
Tyr Ile Ser Leu His Lys Lys Gly Ala Gly Ser Ser Ile Ala Ile Leu
260 265 270
Glu Gln Glu Met Ala Val Val Glu Gln Val Gln Gln Leu Phe Pro Glu
275 280 285
Phe Lys Asp Thr Pro Ile Tyr Asn Asp Glu Ala Asp Pro Leu Val Gly
290 295 300
Trp Ser Leu Pro Gln Pro Trp Arg Ala Asp Val Thr Tyr Ala Ala Leu
305 310 315 320
Val Val Lys Val Ile Ala Gln His Gln Asn Leu Leu Phe Ala Asn Ser
325 330 335
Ser Ser Ser Met Arg Tyr Val Leu Leu Ser Asn Asp Asn Ala Phe Leu
340 345 350
Ser Tyr His Pro Tyr Pro Phe Ser Gln Arg Thr Leu Thr Ala Arg Phe
355 360 365
Gln Val Asn Asn Thr His Pro Pro His Val Gln Leu Leu Arg Lys Pro
370 375 380
Val Leu Thr Val Met Gly Leu Met Ala Leu Leu Asp Gly Glu Gln Leu
385 390 395 400
Trp Ala Glu Val Ser Lys Ala Gly Ala Val Leu Asp Ser Asn His Thr
405 410 415
Val Gly Val Leu Ala Ser Thr His His Pro Glu Gly Ser Ala Ala Ala
420 425 430
Trp Ser Thr Thr Val Leu Ile Tyr Thr Ser Asp Asp Thr His Ala His
435 440 445
Pro Asn His Ser Ile Pro Val Thr Leu Arg Leu Arg Gly Val Pro Pro
450 455 460
Gly Leu Asp Leu Val Tyr Ile Val Leu Tyr Leu Asp Asn Gln Leu Ser
465 470 475 480
Ser Pro Tyr Ser Ala Trp Gln His Met Gly Gln Pro Val Phe Pro Ser
485 490 495
Ala Glu Gln Phe Arg Arg Met Arg Met Val Glu Asp Pro Val Ala Glu
500 505 510
Ala Pro Arg Pro Phe Pro Ala Arg Gly Arg Leu Thr Leu His Arg Lys
515 520 525
Leu Pro Val Pro Ser Leu Leu Leu Val His Val Cys Thr Arg Pro Leu
530 535 540
Lys Pro Pro Gly Gln Val Ser Arg Leu Arg Ala Leu Pro Leu Thr His
545 550 555 560
Gly Gln Leu Ile Leu Val Trp Ser Asp Glu Arg Val Gly Ser Lys Cys
565 570 575
Leu Trp Thr Tyr Glu Ile Gln Phe Ser Gln Lys Gly Glu Glu Tyr Ala
580 585 590
Pro Ile Asn Arg Arg Pro Ser Thr Phe Asn Leu Phe Val Phe Ser Pro
595 600 605
Asp Thr Ala Val Val Ser Gly Ser Tyr Arg Val Arg Ala Leu Asp Tyr
610 615 620
Trp Ala Arg Pro Gly Pro Phe Ser Asp Pro Val Thr Tyr Leu Asp Val
625 630 635 640
Pro Ala Ser
<210> 292
<211> 4420
<212> DNA
<213> Mus musculus
<400> 292
ctctgtgccc acccactgcc aagagggaca ggtctcaaag gtcagggcag tgtcccggga 60
aggagggcat cggctcctgg gagcggcctt aggacgcggg gtggactctc accatcgcac 120
aggaagccag ccagtcccca gatgaagtcc gagcagaggt ggcagaagag cacctacagg 180
cctccagcga gaccgagaca gccgcaagaa taatggccgc tctgagacac ccaagcactg 240
ctaatgttgg ttccattttt ggagcgcctg ggacgcagcg gaactcgcca gcacggggcg 300
gcgcgtgact gggttccttt ttgtcccggc ctggcgagag gtcacgtggg gcgttacgca 360
gaggcggaac actgcgaccg ccgcctaaaa agcttgctgt ttaggggcac ctggatatcc 420
caaccatgcg acccccgcgt ccctcctcag ctatgctgac gttttttgct gcgttcttgg 480
ccgcgccctt ggcgctggct gagtcaccgt acctggtgcg tgtggacgca gcccgcccgc 540
tgaggcctct gttgcccttc tggaggagca ccggcttctg ccccccactg cctcacgacc 600
aggctgacca gtacgacctt agttgggacc agcaactgaa ccttgcctac ataggtgccg 660
tacctcacag tggcattgag caggtccgga tacactggct gctggatctc atcacagcca 720
ggaagtcacc tgggcaggga cttatgtaca acttcaccca cttggatgca ttcttggacc 780
ttctcatgga gaaccagctt ctccctggat ttgagctcat gggcagtcct tctgggtact 840
tcacggactt tgatgacaag cagcaggtgt ttgaatggaa ggacctggtt tctctcttgg 900
ccaggagata cattggtagg tatgggctga cacacgtttc caagtggaac tttgagactt 960
ggaatgaacc agaccaccat gactttgaca acgtgtccat gaccacacaa ggcttcctga 1020
attactatga tgcctgctct gaggggctgc gcattgccag ccccactttg aagttgggtg 1080
gtcctgggga ttccttccac cccctgccaa ggtcaccaat gtgctggagc ctcctgggtc 1140
actgtgccaa tggaaccaac ttcttcactg gcgaggtggg cgtgcgtctg gattacatct 1200
ccctgcacaa gaagggtgca ggtagctcca tcgccatcct ggagcaggag atggcagttg 1260
tggagcaggt ccagcagctc ttccctgagt tcaaggatac ccctatttac aatgacgagg 1320
cagaccctct ggtgggctgg tccctgccac aaccttggag agctgatgtg acttatgcgg 1380
ccctggtggt gaaggtcatt gcacagcacc agaacctgct gtttgccaac agcagttcct 1440
ccatgcgcta tgtgctcctc agcaatgaca atgccttcct gagctaccac ccgtaccctt 1500
tctcccagcg cacacttact gctcgattcc aggtcaacaa tactcaccca ccccacgtgc 1560
agttgctgcg aaagccagta ctcacagtca tggggctcat ggccctgttg gatggagaac 1620
aactctgggc agaggtctca aaggctgggg ctgtgttgga cagcaatcat acagtgggtg 1680
tcctggccag cacccatcac cctgaaggct ccgcagcggc ctggagtacc acagtcctca 1740
tctacactag tgatgacacc cacgcacacc ccaaccacag tatccctgtg actcttcgcc 1800
tgcgtggggt acctcctggc ttggatcttg tctacatagt actctactta gacaatcaac 1860
tcagcagccc ctacagtgcg tggcagcaca tgggccagcc agtcttcccc tctgcagagc 1920
agttccgacg tatgcgcatg gtggaggacc ccgtggctga ggcaccacgc ccctttcctg 1980
ctaggggccg cctgacccta caccggaagc ttccggtgcc atcactcctg ctggtgcatg 2040
tatgcacacg ccccttgaag ccacctgggc aggtcagccg gctccgtgca ctgcccctga 2100
cacatggaca gctgattttg gtctggtcag atgagcgtgt gggctccaag tgcctgtgga 2160
catatgagat ccagttttcc cagaaaggtg aagagtatgc cccaatcaac aggaggccgt 2220
ctacttttaa cctctttgtg ttcagcccag acacagctgt ggtctctggc tcctaccgag 2280
ttcgagcatt ggattactgg gcccggccag gccccttctc cgaccctgtg acttacctgg 2340
atgtccctgc ctcatgagag ccactggctc ctagtgactt gtgaatctgt gctgactggt 2400
gaatggagtc aaccagtatg agctagactg ccattagcta ggcagctgac tgtcagcttc 2460
tattgttctt cccctatttc cctttaaagt gtctttctct acctcagact tagggtcagt 2520
ctttgtggct aagcacttta taggcccagt tggagtgacc tttgcccacc ttcctcccca 2580
tgcccagctg ttcaaaaagt ttaaatgtgg gactggaaag atggctcagt agataaagtg 2640
cttgctgtgc aggcccaggg acttgtgttc agatatctag cactcatgta taggctgggc 2700
atggcaatat atgcctattg tcctagtgtt ggtggaaggg acagagacag gccagggttc 2760
cctggccttc cagtctacct gaaactgcaa gctccaggtt cagtaagaaa ccctgtttta 2820
gaaaaatcaa gtagagtgct tggtacacac acacacacac acacacagag tctaaattta 2880
gtttcttgag cttctgtaat atcaaaaatg aagttatgta cttctgaaat acaatactgc 2940
acagagtaag catcttcatt ccaacaggaa aaagaaatga cagggaagga tttaagtgaa 3000
acaagaccaa agcatagcaa gacaaacgtt aaatcctgca gctccattct cagcatcggg 3060
gcccatgatc ctgtgatgtg ctggacagtc tgtgtctgtg gtgttgccat ttccagccgc 3120
catgaccttt ctcctaggct ggtgtcttgg gcttcctatt gattcgataa accgcgatga 3180
atgagcagaa gcatctgggt agggaagcgt tgacttcact tgtattccta cattacagtc 3240
tatcatcgaa ggcagtcagg caggcacctg gaggcaggaa gtcatggaga ggccatggag 3300
gggtgctgct tactcagact atgatcttac acatcccggg atcaccagcc aaagggtggg 3360
cccccaccca caacggtctg gaccctccca catcaatcac tagtttaaga aaacaggctt 3420
atctataggt caatcttgtt ggggcatttt tctcaattga ggttccttct tcccaaatga 3480
ctctagcttg taataaactg aaataaagcc accccaatct tgccacacat tacctggcct 3540
cccaagtctt cctttgaaat ctgggtggaa gccaacataa ccctgtcact gtaactctga 3600
tattctacct tctaagccag catcctgtgg atcacagcct actatcagct tgagtggtag 3660
ttgaggactc ctgggtcatc catggctaca ataagcatga agtgcctgag gcttagtccc 3720
atgcatttgt ggagaatatt atgatgatga tatctagtag aggggggagg ctgttcacct 3780
caaagggaac aggaagtaga gtggggatag aattaagcta aatacttctt cactgacccg 3840
ctttgtttaa ctcagccctg catcctaaag tttctagaat ctccccaaac agacctatta 3900
cctggaaact acctttaagg tgtaagcctg ggctgatctt aataggctga tgttcctacc 3960
ttggttctgg ccacgggaag aaccctctct cctttagtac aaacccctgg tgtgccccac 4020
cagagagcct gttggacaca cgtgtcctta attcattctg cacatttttc ttctctccat 4080
cagcacacag aagttcagca tacagaggtt tgtgctgaaa tgtaggcgta ctcccaagct 4140
ctccccagag tactatcacc tactgtccag gaaatgagtc tgagtgcagt gctcatatac 4200
actgcatggc tacatccaaa gtcagagttc ctctgccctc atgcctcttg aagtgaacga 4260
aatgtgatga ccttctgcag ggtgtttttt agtcctctgt ggaccctagg ctggccttgg 4320
catcttggct cacctgtccc agagttacta ctattaagat tacaggtgtg taccaccatg 4380
cctgccaatt acctctcact ttaaataaaa tatgacattt 4420
<210> 293
<211> 653
<212> PRT
<213> Homo sapiens
<400> 293
Met Arg Pro Leu Arg Pro Arg Ala Ala Leu Leu Ala Leu Leu Ala Ser
1 5 10 15
Leu Leu Ala Ala Pro Pro Val Ala Pro Ala Glu Ala Pro His Leu Val
20 25 30
His Val Asp Ala Ala Arg Ala Leu Trp Pro Leu Arg Arg Phe Trp Arg
35 40 45
Ser Thr Gly Phe Cys Pro Pro Leu Pro His Ser Gln Ala Asp Gln Tyr
50 55 60
Val Leu Ser Trp Asp Gln Gln Leu Asn Leu Ala Tyr Val Gly Ala Val
65 70 75 80
Pro His Arg Gly Ile Lys Gln Val Arg Thr His Trp Leu Leu Glu Leu
85 90 95
Val Thr Thr Arg Gly Ser Thr Gly Arg Gly Leu Ser Tyr Asn Phe Thr
100 105 110
His Leu Asp Gly Tyr Leu Asp Leu Leu Arg Glu Asn Gln Leu Leu Pro
115 120 125
Gly Phe Glu Leu Met Gly Ser Ala Ser Gly His Phe Thr Asp Phe Glu
130 135 140
Asp Lys Gln Gln Val Phe Glu Trp Lys Asp Leu Val Ser Ser Leu Ala
145 150 155 160
Arg Arg Tyr Ile Gly Arg Tyr Gly Leu Ala His Val Ser Lys Trp Asn
165 170 175
Phe Glu Thr Trp Asn Glu Pro Asp His His Asp Phe Asp Asn Val Ser
180 185 190
Met Thr Met Gln Gly Phe Leu Asn Tyr Tyr Asp Ala Cys Ser Glu Gly
195 200 205
Leu Arg Ala Ala Ser Pro Ala Leu Arg Leu Gly Gly Pro Gly Asp Ser
210 215 220
Phe His Thr Pro Pro Arg Ser Pro Leu Ser Trp Gly Leu Leu Arg His
225 230 235 240
Cys His Asp Gly Thr Asn Phe Phe Thr Gly Glu Ala Gly Val Arg Leu
245 250 255
Asp Tyr Ile Ser Leu His Arg Lys Gly Ala Arg Ser Ser Ile Ser Ile
260 265 270
Leu Glu Gln Glu Lys Val Val Ala Gln Gln Ile Arg Gln Leu Phe Pro
275 280 285
Lys Phe Ala Asp Thr Pro Ile Tyr Asn Asp Glu Ala Asp Pro Leu Val
290 295 300
Gly Trp Ser Leu Pro Gln Pro Trp Arg Ala Asp Val Thr Tyr Ala Ala
305 310 315 320
Met Val Val Lys Val Ile Ala Gln His Gln Asn Leu Leu Leu Ala Asn
325 330 335
Thr Thr Ser Ala Phe Pro Tyr Ala Leu Leu Ser Asn Asp Asn Ala Phe
340 345 350
Leu Ser Tyr His Pro His Pro Phe Ala Gln Arg Thr Leu Thr Ala Arg
355 360 365
Phe Gln Val Asn Asn Thr Arg Pro Pro His Val Gln Leu Leu Arg Lys
370 375 380
Pro Val Leu Thr Ala Met Gly Leu Leu Ala Leu Leu Asp Glu Glu Gln
385 390 395 400
Leu Trp Ala Glu Val Ser Gln Ala Gly Thr Val Leu Asp Ser Asn His
405 410 415
Thr Val Gly Val Leu Ala Ser Ala His Arg Pro Gln Gly Pro Ala Asp
420 425 430
Ala Trp Arg Ala Ala Val Leu Ile Tyr Ala Ser Asp Asp Thr Arg Ala
435 440 445
His Pro Asn Arg Ser Val Ala Val Thr Leu Arg Leu Arg Gly Val Pro
450 455 460
Pro Gly Pro Gly Leu Val Tyr Val Thr Arg Tyr Leu Asp Asn Gly Leu
465 470 475 480
Cys Ser Pro Asp Gly Glu Trp Arg Arg Leu Gly Arg Pro Val Phe Pro
485 490 495
Thr Ala Glu Gln Phe Arg Arg Met Arg Ala Ala Glu Asp Pro Val Ala
500 505 510
Ala Ala Pro Arg Pro Leu Pro Ala Gly Gly Arg Leu Thr Leu Arg Pro
515 520 525
Ala Leu Arg Leu Pro Ser Leu Leu Leu Val His Val Cys Ala Arg Pro
530 535 540
Glu Lys Pro Pro Gly Gln Val Thr Arg Leu Arg Ala Leu Pro Leu Thr
545 550 555 560
Gln Gly Gln Leu Val Leu Val Trp Ser Asp Glu His Val Gly Ser Lys
565 570 575
Cys Leu Trp Thr Tyr Glu Ile Gln Phe Ser Gln Asp Gly Lys Ala Tyr
580 585 590
Thr Pro Val Ser Arg Lys Pro Ser Thr Phe Asn Leu Phe Val Phe Ser
595 600 605
Pro Asp Thr Gly Ala Val Ser Gly Ser Tyr Arg Val Arg Ala Leu Asp
610 615 620
Tyr Trp Ala Arg Pro Gly Pro Phe Ser Asp Pro Val Pro Tyr Leu Glu
625 630 635 640
Val Pro Val Pro Arg Gly Pro Pro Ser Pro Gly Asn Pro
645 650
<210> 294
<211> 213
<212> DNA
<213> Mus musculus
<400> 294
atggagaaca actctaggca gaggtctcaa aggctggggc tgtgttggac agcaatcata 60
cagtgggtgt cctggccagc acccatcacc ctgaaggctc cgcagcggcc tggagtacca 120
cagtcctcat ctacactagt gatgacaccc acgcacaccc caaccacagt atccctgtga 180
ctcttcgcct gcgtggggta cctcctggct tgg 213
<210> 295
<211> 94
<212> DNA
<213> Homo sapiens
<400> 295
atgaggagca gctctaggcc gaagtgtcgc aggccgggac cgtcctggac agcaaccaca 60
cggtgggcgt cctggccagc gcccaccgcc ccca 94
<210> 296
<211> 418
<212> PRT
<213> Homo sapiens
<400> 296
Met Pro Ser Ser Val Ser Trp Gly Ile Leu Leu Leu Ala Gly Leu Cys
1 5 10 15
Cys Leu Val Pro Val Ser Leu Ala Glu Asp Pro Gln Gly Asp Ala Ala
20 25 30
Gln Lys Thr Asp Thr Ser His His Asp Gln Asp His Pro Thr Phe Asn
35 40 45
Lys Ile Thr Pro Asn Leu Ala Glu Phe Ala Phe Ser Leu Tyr Arg Gln
50 55 60
Leu Ala His Gln Ser Asn Ser Thr Asn Ile Phe Phe Ser Pro Val Ser
65 70 75 80
Ile Ala Thr Ala Phe Ala Met Leu Ser Leu Gly Thr Lys Ala Asp Thr
85 90 95
His Asp Glu Ile Leu Glu Gly Leu Asn Phe Asn Leu Thr Glu Ile Pro
100 105 110
Glu Ala Gln Ile His Glu Gly Phe Gln Glu Leu Leu Arg Thr Leu Asn
115 120 125
Gln Pro Asp Ser Gln Leu Gln Leu Thr Thr Gly Asn Gly Leu Phe Leu
130 135 140
Ser Glu Gly Leu Lys Leu Val Asp Lys Phe Leu Glu Asp Val Lys Lys
145 150 155 160
Leu Tyr His Ser Glu Ala Phe Thr Val Asn Phe Gly Asp Thr Glu Glu
165 170 175
Ala Lys Lys Gln Ile Asn Asp Tyr Val Glu Lys Gly Thr Gln Gly Lys
180 185 190
Ile Val Asp Leu Val Lys Glu Leu Asp Arg Asp Thr Val Phe Ala Leu
195 200 205
Val Asn Tyr Ile Phe Phe Lys Gly Lys Trp Glu Arg Pro Phe Glu Val
210 215 220
Lys Asp Thr Glu Glu Glu Asp Phe His Val Asp Gln Val Thr Thr Val
225 230 235 240
Lys Val Pro Met Met Lys Arg Leu Gly Met Phe Asn Ile Gln His Cys
245 250 255
Lys Lys Leu Ser Ser Trp Val Leu Leu Met Lys Tyr Leu Gly Asn Ala
260 265 270
Thr Ala Ile Phe Phe Leu Pro Asp Glu Gly Lys Leu Gln His Leu Glu
275 280 285
Asn Glu Leu Thr His Asp Ile Ile Thr Lys Phe Leu Glu Asn Glu Asp
290 295 300
Arg Arg Ser Ala Ser Leu His Leu Pro Lys Leu Ser Ile Thr Gly Thr
305 310 315 320
Tyr Asp Leu Lys Ser Val Leu Gly Gln Leu Gly Ile Thr Lys Val Phe
325 330 335
Ser Asn Gly Ala Asp Leu Ser Gly Val Thr Glu Glu Ala Pro Leu Lys
340 345 350
Leu Ser Lys Ala Val His Lys Ala Val Leu Thr Ile Asp Glu Lys Gly
355 360 365
Thr Glu Ala Ala Gly Ala Met Phe Leu Glu Ala Ile Pro Met Ser Ile
370 375 380
Pro Pro Glu Val Lys Phe Asn Lys Pro Phe Val Phe Leu Met Ile Glu
385 390 395 400
Gln Asn Thr Lys Ser Pro Leu Phe Met Gly Lys Val Val Asn Pro Thr
405 410 415
Gln Lys
<210> 297
<211> 4
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 297
Ser Gly Gly Ser
1
<210> 298
<211> 4
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 298
Gly Gly Gly Ser
1
<210> 299
<211> 5
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 299
Gly Gly Gly Gly Ser
1 5
<210> 300
<211> 5
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 300
Glu Ala Ala Ala Lys
1 5
<210> 301
<211> 1254
<212> DNA
<213> Homo sapiens
<400> 301
atgccgtctt ctgtctcgtg gggcatcctc ctgctggcag gcctgtgctg cctggtccct 60
gtctccctgg ctgaggatcc ccagggagat gctgcccaga agacagatac atcccaccat 120
gatcaggatc acccaacctt caacaagatc acccccaacc tggctgagtt cgccttcagc 180
ctataccgcc agctggcaca ccagtccaac agcaccaata tcttcttctc cccagtgagc 240
atcgctacag cctttgcaat gctctccctg gggaccaagg ctgacactca cgatgaaatc 300
ctggagggcc tgaatttcaa cctcacggag attccggagg ctcagatcca tgaaggcttc 360
caggaactcc tccgtaccct caaccagcca gacagccagc tccagctgac caccggcaat 420
ggcctgttcc tcagcgaggg cctgaagcta gtggataagt ttttggagga tgttaaaaag 480
ttgtaccact cagaagcctt cactgtcaac ttcggggaca ccgaagaggc caagaaacag 540
atcaacgatt acgtggagaa gggtactcaa gggaaaattg tggatttggt caaggagctt 600
gacagagaca cagtttttgc tctggtgaat tacatcttct ttaaaggcaa atgggagaga 660
ccctttgaag tcaaggacac cgaggaagag gacttccacg tggaccaggt gaccaccgtg 720
aaggtgccta tgatgaagcg tttaggcatg tttaacatcc agcactgtaa gaagctgtcc 780
agctgggtgc tgctgatgaa atacctgggc aatgccaccg ccatcttctt cctgcctgat 840
gaggggaaac tacagcacct ggaaaatgaa ctcacccacg atatcatcac caagttcctg 900
gaaaatgaag acagaaggtc tgccagctta catttaccca aactgtccat tactggaacc 960
tatgatctga agagcgtcct gggtcaactg ggcatcacta aggtcttcag caatggggct 1020
gacctctccg gggtcacaga ggaggcaccc ctgaagctct ccaaggccgt gcataaggct 1080
gtgctgacca tcgacgagaa agggactgaa gctgctgggg ccatgttttt agaggccata 1140
cccatgtcta tcccccccga ggtcaagttc aacaaaccct ttgtcttctt aatgattgaa 1200
caaaatacca agtctcccct cttcatggga aaagtggtga atcccaccca aaaa 1254
<210> 302
<211> 418
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polypeptide
<400> 302
Met Pro Ser Ser Val Ser Trp Gly Ile Leu Leu Leu Ala Gly Leu Cys
1 5 10 15
Cys Leu Val Pro Val Ser Leu Ala Glu Asp Pro Gln Gly Asp Ala Ala
20 25 30
Gln Lys Thr Asp Thr Ser His His Asp Gln Asp His Pro Thr Phe Asn
35 40 45
Lys Ile Thr Pro Asn Leu Ala Glu Phe Ala Phe Ser Leu Tyr Arg Gln
50 55 60
Leu Ala His Gln Ser Asn Ser Thr Asn Ile Phe Phe Ser Pro Val Ser
65 70 75 80
Ile Ala Thr Ala Phe Ala Met Leu Ser Leu Gly Thr Lys Ala Asp Thr
85 90 95
His Asp Glu Ile Leu Glu Gly Leu Asn Phe Asn Leu Thr Glu Ile Pro
100 105 110
Glu Ala Gln Ile His Glu Gly Phe Gln Glu Leu Leu Arg Thr Leu Asn
115 120 125
Gln Pro Asp Ser Gln Leu Gln Leu Thr Thr Gly Asn Gly Leu Phe Leu
130 135 140
Ser Glu Gly Leu Lys Leu Val Asp Lys Phe Leu Glu Asp Val Lys Lys
145 150 155 160
Leu Tyr His Ser Glu Ala Phe Thr Val Asn Phe Gly Asp Thr Glu Glu
165 170 175
Ala Lys Lys Gln Ile Asn Asp Tyr Val Glu Lys Gly Thr Gln Gly Lys
180 185 190
Ile Val Asp Leu Val Lys Glu Leu Asp Arg Asp Thr Val Phe Ala Leu
195 200 205
Val Asn Tyr Ile Phe Phe Lys Gly Lys Trp Glu Arg Pro Phe Glu Val
210 215 220
Lys Asp Thr Glu Glu Glu Asp Phe His Val Asp Gln Val Thr Thr Val
225 230 235 240
Lys Val Pro Met Met Lys Arg Leu Gly Met Phe Asn Ile Gln His Cys
245 250 255
Lys Lys Leu Ser Ser Trp Val Leu Leu Met Lys Tyr Leu Gly Asn Ala
260 265 270
Thr Ala Ile Phe Phe Leu Pro Asp Glu Gly Lys Leu Gln His Leu Glu
275 280 285
Asn Glu Leu Thr His Asp Ile Ile Thr Lys Phe Leu Glu Asn Glu Asp
290 295 300
Arg Arg Ser Ala Ser Leu His Leu Pro Lys Leu Ser Ile Thr Gly Thr
305 310 315 320
Tyr Asp Leu Lys Ser Val Leu Gly Gln Leu Gly Ile Thr Lys Val Phe
325 330 335
Ser Asn Gly Ala Asp Leu Ser Gly Val Thr Glu Glu Ala Pro Leu Lys
340 345 350
Leu Ser Lys Ala Val His Lys Ala Val Leu Thr Ile Asp Lys Lys Gly
355 360 365
Thr Glu Ala Ala Gly Ala Met Phe Leu Glu Ala Ile Pro Met Ser Ile
370 375 380
Pro Pro Glu Val Lys Phe Asn Lys Pro Phe Val Phe Leu Met Ile Glu
385 390 395 400
Gln Asn Thr Lys Ser Pro Leu Phe Met Gly Lys Val Val Asn Pro Thr
405 410 415
Gln Lys
<210> 303
<211> 1254
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
polynucleotide
<400> 303
atgccgtctt ctgtctcgtg gggcatcctc ctgctggcag gcctgtgctg cctggtccct 60
gtctccctgg ctgaggatcc ccagggagat gctgcccaga agacagatac atcccaccat 120
gatcaggatc acccaacctt caacaagatc acccccaacc tggctgagtt cgccttcagc 180
ctataccgcc agctggcaca ccagtccaac agcaccaata tcttcttctc cccagtgagc 240
atcgctacag cctttgcaat gctctccctg gggaccaagg ctgacactca cgatgaaatc 300
ctggagggcc tgaatttcaa cctcacggag attccggagg ctcagatcca tgaaggcttc 360
caggaactcc tccgtaccct caaccagcca gacagccagc tccagctgac caccggcaat 420
ggcctgttcc tcagcgaggg cctgaagcta gtggataagt ttttggagga tgttaaaaag 480
ttgtaccact cagaagcctt cactgtcaac ttcggggaca ccgaagaggc caagaaacag 540
atcaacgatt acgtggagaa gggtactcaa gggaaaattg tggatttggt caaggagctt 600
gacagagaca cagtttttgc tctggtgaat tacatcttct ttaaaggcaa atgggagaga 660
ccctttgaag tcaaggacac cgaggaagag gacttccacg tggaccaggt gaccaccgtg 720
aaggtgccta tgatgaagcg tttaggcatg tttaacatcc agcactgtaa gaagctgtcc 780
agctgggtgc tgctgatgaa atacctgggc aatgccaccg ccatcttctt cctgcctgat 840
gaggggaaac tacagcacct ggaaaatgaa ctcacccacg atatcatcac caagttcctg 900
gaaaatgaag acagaaggtc tgccagctta catttaccca aactgtccat tactggaacc 960
tatgatctga agagcgtcct gggtcaactg ggcatcacta aggtcttcag caatggggct 1020
gacctctccg gggtcacaga ggaggcaccc ctgaagctct ccaaggccgt gcataaggct 1080
gtgctgacca tcgacaagaa agggactgaa gctgctgggg ccatgttttt agaggccata 1140
cccatgtcta tcccccccga ggtcaagttc aacaaaccct ttgtcttctt aatgattgaa 1200
caaaatacca agtctcccct cttcatggga aaagtggtga atcccaccca aaaa 1254
<210> 304
<211> 16
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 304
Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys Lys Lys
1 5 10 15
<210> 305
<211> 2174
<212> DNA
<213> Homo sapiens
<400> 305
agtgcagccc gaagccccgc agtccccgag cacgcgtggc catgcgtccc ctgcgccccc 60
gcgccgcgct gctggcgctc ctggcctcgc tcctggccgc gcccccggtg gccccggccg 120
aggccccgca cctggtgcat gtggacgcgg cccgcgcgct gtggcccctg cggcgcttct 180
ggaggagcac aggcttctgc cccccgctgc cacacagcca ggctgaccag tacgtcctca 240
gctgggacca gcagctcaac ctcgcctatg tgggcgccgt ccctcaccgc ggcatcaagc 300
aggtccggac ccactggctg ctggagcttg tcaccaccag ggggtccact ggacggggcc 360
tgagctacaa cttcacccac ctggacgggt acctggacct tctcagggag aaccagctcc 420
tcccagggtt tgagctgatg ggcagcgcct cgggccactt cactgacttt gaggacaagc 480
agcaggtgtt tgagtggaag gacttggtct ccagcctggc caggagatac atcggtaggt 540
acggactggc gcatgtttcc aagtggaact tcgagacgtg gaatgagcca gaccaccacg 600
actttgacaa cgtctccatg accatgcaag gcttcctgaa ctactacgat gcctgctcgg 660
agggtctgcg cgccgccagc cccgccctgc ggctgggagg ccccggcgac tccttccaca 720
ccccaccgcg atccccgctg agctggggcc tcctgcgcca ctgccacgac ggtaccaact 780
tcttcactgg ggaggcgggc gtgcggctgg actacatctc cctccacagg aagggtgcgc 840
gcagctccat ctccatcctg gagcaggaga aggtcgtcgc gcagcagatc cggcagctct 900
tccccaagtt cgcggacacc cccatttaca acgacgaggc ggacccgctg gtgggctggt 960
ccctgccaca gccgtggagg gcggacgtga cctacgcggc catggtggtg aaggtcatcg 1020
cgcagcatca gaacctgcta ctggccaaca ccacctccgc cttcccctac gcgctcctga 1080
gcaacgacaa tgccttcctg agctaccacc cgcacccctt cgcgcagcgc acgctcaccg 1140
cgcgcttcca ggtcaacaac acccgcccgc cgcacgtgca gctgttgcgc aagccggtgc 1200
tcacggccat ggggctgctg gcgctgctgg atgaggagca gctctgggcc gaagtgtcgc 1260
aggccgggac cgtcctggac agcaaccaca cggtgggcgt cctggccagc gcccaccgcc 1320
cccagggccc ggccgacgcc tggcgcgccg cggtgctgat ctacgcgagc gacgacaccc 1380
gcgcccaccc caaccgcagc gtcgcggtga ccctgcggct gcgcggggtg ccccccggcc 1440
cgggcctggt ctacgtcacg cgctacctgg acaacgggct ctgcagcccc gacggcgagt 1500
ggcggcgcct gggccggccc gtcttcccca cggcagagca gttccggcgc atgcgcgcgg 1560
ctgaggaccc ggtggccgcg gcgccccgcc ccttacccgc cggcggccgc ctgaccctgc 1620
gccccgcgct gcggctgccg tcgcttttgc tggtgcacgt gtgtgcgcgc cccgagaagc 1680
cgcccgggca ggtcacgcgg ctccgcgccc tgcccctgac ccaagggcag ctggttctgg 1740
tctggtcgga tgaacacgtg ggctccaagt gcctgtggac atacgagatc cagttctctc 1800
aggacggtaa ggcgtacacc ccggtcagca ggaagccatc gaccttcaac ctctttgtgt 1860
tcagcccaga cacaggtgct gtctctggct cctaccgagt tcgagccctg gactactggg 1920
cccgaccagg ccccttctcg gaccctgtgc cgtacctgga ggtccctgtg ccaagagggc 1980
ccccatcccc gggcaatcca tgagcctgtg ctgagcccca gtgggttgca cctccaccgg 2040
cagtcagcga gctggggctg cactgtgccc atgctgccct cccatcaccc cctttgcaat 2100
atatttttat attttattat tttcttttat atcttggtac caacgccccc tttaaagcgg 2160
ctttgcacag gtca 2174
<210> 306
<211> 20
<212> RNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 306
gacaagaaag ggacugaagc 20
<210> 307
<211> 20
<212> RNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 307
aucgacaaga aagggacuga 20
<210> 308
<211> 20
<212> RNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 308
acacaccggu ugguggccuc 20
<210> 309
<211> 28
<212> DNA
<213> Homo sapiens
<400> 309
atcgacaaga aagggactga agctgctg 28
<210> 310
<211> 9
<212> PRT
<213> Homo sapiens
<400> 310
Ile Asp Lys Lys Gly Thr Glu Ala Ala
1 5
<210> 311
<211> 28
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 311
cccctactgc ctcgcctagg tcctgggc 28
<210> 312
<211> 5
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 312
Pro Tyr Cys Leu Ala
1 5
<210> 313
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 313
ggacctaggc gaggcagtag 20
<210> 314
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
oligonucleotide
<400> 314
gacctaggcg aggcagtagg 20
<210> 315
<211> 6
<212> PRT
<213> Artificial Sequence
<220>
<223> Description of Artificial Sequence: Synthetic
peptide
<400> 315
Val Gln Ala Leu Cys Tyr
1 5
Claims (171)
- 알파-1 항-트립신 결핍(A1AD)과 관련된 단일 뉴클레오티드 다형성(SNP)을 포함하는 SERPINA1 폴리뉴클레오티드를 편집하는 방법으로서, 상기 SERPINA1 폴리뉴클레오티드를 하나 이상의 가이드 폴리뉴클레오티드와의 복합체를 이루고 있는 염기 편집기와 접촉시키는 단계를 포함하며, 상기 염기 편집기는 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 및 아데노신 데아미나제 도메인을 포함하고, 하나 이상의 상기 가이드 폴리뉴클레오티드는 A1AD와 관련된 상기 SNP의 A·T에서 G·C로의 변경을 수행하도록 상기 염기 편집기를 표적화하는 것인, 방법.
- 제1항에 있어서, 상기 접촉이 세포, 진핵 세포, 포유류 세포, 또는 인간 세포에서 이루어지는, 방법.
- 제1항 또는 제2항에 있어서, 상기 세포가 생체내(in vivo) 또는 생체외(ex vivo)에 있는, 방법.
- 제1항 내지 제3항 중 어느 한 항에 있어서, A1AD와 관련된 상기 SNP에서의 A·T에서 G·C로의 변경이 알파-1 항-트립신(A1AT) 폴리펩티드에서 라이신을 글루탐산으로 변화시키는 것인, 방법.
- 제1항 내지 제4항 중 어느 한 항에 있어서, A1AD와 관련된 상기 SNP가 아미노산 위치 342에 라이신을 갖는 A1AT 폴리펩티드의 발현을 초래하는, 방법.
- 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 염기 편집기 교정이 위치 342의 상기 라이신을 글루탐산으로 교체하는 것인, 방법.
- 제1항 내지 제6항 중 어느 한 항에 있어서, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인이 변형된 스트렙토코커스 피오게네스(Streptococcus pyogenes) Cas9(SpCas9), 또는 이의 변이체인, 방법.
- 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인이 변경된 프로토스페이서-인접 모티프(PAM) 특이성을 갖는 변형된 SpCas9를 포함하는, 방법.
- 제8항에 있어서, 상기 변형된 SpCas9가 핵산 서열 5'-AGC-3'에 대한 특이성을 갖는, 방법.
- 제8항 또는 제9항에 있어서, 상기 변형된 SpCas9이 아미노산 치환 D1332A, 및 D1135M, S1137Q, G1218K, E1219F, D1332A, R1335E 및 T1337R의 하나 이상, 또는 이들의 상응하는 아미노산 치환을 포함하는, 방법.
- 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인이 변경된 프로토스페이서-인접 모티프(PAM) 특이성을 갖는 SpCas9의 변이체를 포함하는, 방법.
- 제11항에 있어서, 상기 변형된 SpCas9가 핵산 서열 5'-NGC-3'에 대해 특이성을 갖는, 방법.
- 제11항 또는 제12항에 있어서, 상기 변형된 SpCas9이 아미노산 치환 D1135M, S1137Q, G1218K, E1219F, A1322R, D1332A, R1335E, 및 T1337R, 또는 이의 상응하는 아미노산 치환을 포함하는 것인, 방법.
- 제1항 내지 제13항 중 어느 한 항에 있어서, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인이 뉴클레아제 비활성 또는 닉카아제 변이체인, 방법.
- 제14항에 있어서, 상기 닉카아제 변이체가 아미노산 치환 D10A 또는 이의 상응하는 아미노산 치환을 포함하는, 방법.
- 제1항 내지 제15항 중 어느 한 항에 있어서, 상기 아데노신 데아미나제 도메인이 데옥시리보핵산(DNA)에서 아데노신을 탈아미노화할 수 있는, 방법.
- 제16항에 있어서, 상기 아데노신 데아미나제가 자연에서 발생하지 않는 변형된 아데노신 데아미나제인, 방법.
- 제16항 또는 제17항에 있어서, 상기 아데노신 데아미나제가 TadA 데아미나제인, 방법.
- 제18항에 있어서, 상기 TadA 데아미나제가 TadA *7.10인, 방법.
- 제1항 내지 제19항 중 어느 한 항에 있어서, 상기 하나 이상의 가이드 RNA가 CRISPR RNA(crRNA) 및 트랜스-코딩된 소형 RNA(tracrRNA)를 포함하고, 상기 crRNA는 A1AD와 관련된 상기 SNP를 포함하는 SERPINA1 핵산 서열에 상보적인 핵산 서열을 포함하는, 방법.
- 제1항 내지 제20항 중 어느 한 항에 있어서, 상기 염기 편집기가 A1AD와 관련된 상기 SNP를 포함하는 SERPINA1 핵산 서열에 상보적인 핵산 서열을 포함하는 단일 가이드 RNA(sgRNA)와의 복합체를 이루는, 방법.
- 하기의 것을 세포 내로 도입하여 생산된 세포, 또는 이의 전구체(progenitor):
상기 세포에 대한, 염기 편집기, 상기 염기 편집기를 코딩하는 폴리뉴클레오티드, 여기서 상기 염기 편집기는 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 및 아데노신 데아미나제 도메인을 포함하는 것임; 및
A1AD와 관련된 SNP의 A·T에서 G·C로의 변경을 수행하도록 상기 염기 편집기를 표적화 하는 하나 이상의 가이드 폴리뉴클레오티드. - 제22항에 있어서, 상기 생산된 세포가 간세포인, 세포.
- 제22항 또는 제23항에 있어서, 상기 세포 또는 이의 전구체가 배아 줄기 세포, 유도된 만능 줄기 세포, 또는 간세포인, 세포.
- 제23항 또는 제24항에 있어서, 상기 간세포가 A1AT 폴리펩티드를 발현하는, 세포.
- 제22항 내지 제25항 중 어느 한 항에 있어서, 상기 세포가 A1AD를 지니는 대상체로부터 유래된, 세포.
- 제22항 내지 제26항 중 어느 한 항에 있어서, 상기 세포가 포유류 세포 또는 인간 세포인, 세포.
- 제22항 내지 제27항 중 어느 한 항에 있어서, A1AD와 관련된 상기 SNP에서의 A·T에서 G·C로의 변경이 A1AT 폴리펩티드에서 라이신을 글루탐산으로 변화시키는 것인, 세포.
- 제22항 내지 제28항 중 어느 한 항에 있어서, A1AD와 관련된 상기 SNP가 아미노산 위치 342에 라이신을 갖는 A1AT 폴리펩티드의 발현을 초래하는, 세포.
- 제22항 내지 제29항 중 어느 한 항에 있어서, A1AD와 관련된 상기 SNP가 글루탐산을 라이신으로 치환하는, 세포.
- 제22항 내지 제30항 중 어느 한 항에 있어서, 상기 세포가 A1AD와 관련된 상기 SNP의 A·T에서 G·C로의 변경을 위해 선택되는, 세포.
- 제22항 내지 제31항 중 어느 한 항에 있어서, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인이 변형된 스트렙토코커스 피오게네스 Cas9(SpCas9) 또는 이의 변이체인, 세포.
- 제22항 내지 제32항 중 어느 한 항에 있어서, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인이 변경된 프로토스페이서-인접 모티프(PAM) 특이성을 갖는 변형된 SpCas9를 포함하는, 세포.
- 제33항에 있어서, 상기 변형된 SpCas9가 핵산 서열 5'-AGC-3'에 대한 특이성을 갖는, 세포.
- 제33항 또는 제34항에 있어서, 상기 변형된 SpCas9가 아미노산 치환 D1332A, 및 D1135M, S1137Q, G1218K, E1219F, D1332A, R1335E, 및 T1337R의 하나 이상, 또는 이들의 상응하는 아미노산 치환을 포함하는, 세포.
- 제22항 내지 제35항 중 어느 한 항에 있어서, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인이 변경된 프로토스페이서-인접 모티프(PAM) 특이성을 갖는 SpCas9의 변이체를 포함하는, 세포.
- 제36항에 있어서, 상기 SpCas9의 변이체가 핵산 서열 5'-NGC-3'에 대한 특이성을 갖는, 세포.
- 제36항 또는 제37항에 있어서, 상기 변형된 SpCas9가 아미노산 치환 D1135M, S1137Q, G1218K, E1219F, A1322R, D1332A, R1335E, 및 T1337R, 또는 이들의 상응하는 아미노산 치환을 포함하는, 세포.
- 제22항 내지 제38항 중 어느 한 항에 있어서, 상기 프로그래밍가능한 폴리뉴클레오티드 결합 도메인이 뉴클레아제 비활성 또는 닉카아제 변이체인, 세포.
- 제39항에 있어서, 상기 닉카아제 변이체가 아미노산 치환 D10A 또는 이의 상응하는 아미노산 치환을 포함하는, 세포.
- 제22항 내지 제40항 중 어느 한 항에 있어서, 상기 아데노신 데아미나제 도메인이 데옥시리보핵산(DNA)에서 아데노신을 탈아미노화할 수 있는, 세포.
- 제31항에 있어서, 상기 아데노신 데아미나제가 자연에서 발생하지 않는 변형된 아데노신 데아미나제인, 세포.
- 제41항 또는 제42항에 있어서, 상기 아데노신 데아미나제가 TadA 데아미나제인, 세포.
- 제43항에 있어서, 상기 TadA 데아미나제가 TadA*7.10인, 세포.
- 제22항 내지 제44항 중 어느 한 항에 있어서, 상기 하나 이상의 가이드 RNA가 CRISPR RNA(crRNA) 및 트랜스-코딩된 소형 RNA(tracrRNA)를 포함하고, 상기 crRNA는 A1AD와 관련된 상기 SNP를 포함하는 SERPINA1 핵산 서열에 상보적인 핵산 서열을 포함하는, 세포.
- 제22항 내지 제45항 중 어느 한 항에 있어서, 상기 염기 편집기 및 상기 하나 이상의 가이드 폴리뉴클레오티드가 세포에서 복합체를 형성하는, 세포.
- 제46항에 있어서, 상기 염기 편집기가 A1AD와 관련된 상기 SNP를 포함하는 SERPINA1 핵산 서열에 상보적인 핵산 서열을 포함하는 단일 가이드 RNA(sgRNA)와의 복합체를 이루는, 세포.
- 필요로 하는 대상체에서 A1AD를 치료하는 방법으로서, 상기 대상체에게 제22항 내지 제47항 중 어느 한 항의 세포를 투여하는 단계를 포함하는, 방법.
- 제48항에 있어서, 상기 세포가 대상체에 대해 자가발생성(autologous), 동종발생성(allogeneic), 또는 이종발생성(xenogeneic)인, 방법.
- 제22항 내지 제47항 중 어느 한 항의 세포로부터 증식 또는 증대된(expanded) 단리된 세포 또는 세포 집단.
- 대상체에서 A1AD를 치료하는 방법으로서,
필요로 하는 대상체에게,
염기 편집기, 또는 상기 염기 편집기를 코딩하는 폴리뉴클레오티드, 여기서 상기 염기 편집기는 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 및 아데노신 데아미나제 도메인을 포함하는 것임; 및
A1AD와 관련된 SNP의 A·T에서 G·C로의 변경을 수행하도록 상기 염기 편집기를 표적화 하는 하나 이상의 가이드 폴리뉴클레오티드를 투여하는 단계를 포함하는, 방법. - 제51항에 있어서, 상기 대상체가 포유동물 또는 인간인, 방법.
- 제51항 또는 제52항에 있어서, 상기 염기 편집기, 또는 상기 염기 편집기를 코딩하는 폴리뉴클레오티드, 및 상기 하나 이상의 가이드 폴리뉴클레오티드를 대상체의 세포에 전달하는 단계를 포함하는, 방법.
- 제51항 내지 제53항 중 어느 한 항에 있어서, 상기 세포가 간세포인, 방법.
- 제51항 내지 제53항 중 어느 한 항에 있어서, 상기 세포가 간세포의 전구체인, 방법.
- 제54항 또는 제55항에 있어서, 상기 세포가 돌연변이를 포함하는 A1AT 폴리펩티드를 발현하는 방법.
- 제51항 내지 제56항 중 어느 한 항에 있어서, A1AD와 관련된 상기 SNP에서의 A·T에서 G·C로의 변경이 상기 A1AT 폴리펩티드에서 글루탐산을 라이신으로 변화시키는 것인, 방법.
- 제51항 내지 제57항 중 어느 한 항에 있어서, A1AD와 관련된 상기 SNP가 아미노산 위치 342에 라이신을 갖는 A1AT 폴리펩티드의 발현을 초래하는, 방법.
- 제51항 내지 제58항 중 어느 한 항에 있어서, A1AD와 관련된 상기 SNP가 글루탐산을 라이신으로 치환하는, 방법.
- 제51항 내지 제59항 중 어느 한 항에 있어서, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인이 변형된 스트렙토코커스 피오게네스 Cas9(SpCas9) 또는 이의 변이체를 포함하는, 방법.
- 제51항 내지 제60항 중 어느 한 항에 있어서, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인이 변경된 프로토스페이서-인접 모티프(PAM) 특이성을 갖는 변형된 SpCas9를 포함하는, 방법.
- 제61항에 있어서, 상기 변형된 SpCas9가 핵산 서열 5'-AGC-3'에 대한 특이성을 갖는, 방법.
- 제61항 또는 제62항에 있어서, 상기 변형된 SpCas9는 아미노산 치환 D1332A, 및 D1135M, S1137Q, G1218K, E1219F, D1332A, R1335E, 및 T1337R의 하나 이상, 또는 이들의 상응하는 아미노산 치환을 포함하는 것인, 방법.
- 제51항 내지 제63항 중 어느 한 항에 있어서, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인이 변경된 프로토스페이서-인접 모티프(PAM) 특이성을 포함하는 변형된 SpCas9를 포함하는, 방법.
- 제64항에 있어서, 상기 변형된 SpCas9가 핵산 서열 5'-NGC-3'에 대한 특이성을 갖는, 방법.
- 제64항 또는 제65항에 있어서, 상기 변형된 SpCas9는 아미노산 치환 D1135M, S1137Q, G1218K, E1219F, A1322R, D1332A, R1335E, 및 T1337R, 또는 이들의 상응하는 아미노산 치환을 포함하는 것인, 방법.
- 제51항 내지 제66항 중 어느 한 항에 있어서, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인이 뉴클레아제 비활성 또는 닉카아제 변이체인, 방법.
- 제67항에 있어서, 상기 닉카아제 변이체가 아미노산 치환 D10A 또는 이의 상응하는 아미노산 치환을 포함하는, 방법.
- 제51항 내지 제68항 중 어느 한 항에 있어서, 상기 아데노신 데아미나제 도메인이 데옥시리보핵산(DNA)에서 아데노신을 탈아미노화할 수 있는, 방법.
- 제69항에 있어서, 상기 아데노신 데아미나제가 자연에서 발생하지 않는 변형된 아데노신 데아미나제인, 방법.
- 제69항 또는 제70항에 있어서, 상기 아데노신 데아미나제가 TadA 데아미나제인, 방법.
- 제71항에 있어서, 상기 TadA 데아미나제가 TadA *7.10인, 방법.
- 제51항 내지 제72항 중 어느 한 항에 있어서, 상기 하나 이상의 가이드 폴리뉴클레오티드가 CRISPR RNA(crRNA) 및 트랜스-코딩된 소형 RNA(tracrRNA)를 포함하고, 상기 crRNA는 A1AD와 관련된 상기 SNP를 포함하는 SERPINA1 핵산 서열에 상보적인 핵산 서열을 포함하는 것인, 방법.
- 제51항 내지 제73항 중 어느 한 항에 있어서, 상기 염기 편집기가 A1AD와 관련된 SNP를 포함하는 SERPINA1 핵산 서열에 상보적인 핵산 서열을 포함하는 단일 가이드 RNA(sgRNA)와의 복합체를 이루는, 방법.
- 간세포 또는 이의 전구체를 생산하는 방법으로서,
(a) A1AD와 관련된 SNP를 포함하는 유도된 만능 줄기 세포 또는 간세포 전구체 내로,
염기 편집기, 또는 상기 염기 편집기를 코딩하는 폴리뉴클레오티드, 여기서 상기 염기 편집기는 폴리뉴클레오티드-프로그래밍가능한 뉴클레오티드-결합 도메인 및 아데노신 데아미나제 도메인을 포함하는 것임; 및
하나 이상의 가이드 폴리뉴클레오티드, 여기서 상기 하나 이상의 가이드 폴리뉴클레오티드는 A1AD와 관련된 상기 SNP의 A·T에서 G·C로의 변경을 수행하도록 상기 염기 편집기를 표적화하는 것임,
을 도입하는 단계; 및
(b) 상기 유도된 만능 줄기 세포 또는 간세포 전구체를 간세포로 분화시키는 단계;를 포함하는, 방법. - 제75항에 있어서, 상기 유도된 만능 줄기 세포를 간세포 또는 이의 전구체로 분화시키는 단계를 포함하는, 방법.
- 제75항 또는 제76항에 있어서, 단계 (a)의 상기 유도된 만능 줄기 세포가 E342K 돌연변이를 포함하는, 방법.
- 제75항 내지 제77항 중 어느 한 항에 있어서, 상기 간세포 전구체가 A1AD를 지니는 대상체로부터 수득되는, 방법.
- 제75항 내지 제78항 중 어느 한 항에 있어서, 상기 간세포 또는 간세포 전구체가 포유류 세포 또는 인간 세포인, 방법.
- 제75항 내지 제79항 중 어느 한 항에 있어서, A1AD와 관련된 상기 SNP에서의 A·T에서 G·C로의 변경이 상기 A1AT 폴리펩티드에서 라이신을 글루탐산으로 변화시키는 것인, 방법.
- 제75항 내지 제80항 중 어느 한 항에 있어서, A1AD와 관련된 상기 SNP가 아미노산 위치 342에 라이신을 갖는 A1AT 폴리펩티드의 발현을 초래하는, 방법.
- 제75항 내지 제81항 중 어느 한 항에 있어서, A1AD와 관련된 상기 SNP가 글루탐산을 라이신으로 치환하는, 방법.
- 제75항 내지 제82항 중 어느 한 항에 있어서, 상기 세포가 A1AD와 관련된 상기 SNP의 A·T에서 G·C로의 변경을 위해 선택되는, 방법.
- 제75항 내지 제83항 중 어느 한 항에 있어서, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인이 변형된 스트렙토코커스 피오게네스(Streptococcus pyogenes) Cas9(SpCas9), 또는 이의 변이체를 포함하는, 방법.
- 제75항 내지 제84항 중 어느 한 항에 있어서, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인이 변경된 프로토스페이서-인접 모티프(PAM) 특이성을 갖는 변형된 SpCas9를 포함하는, 방법.
- 제85항에 있어서, 상기 변형된 SpCas9가 핵산 서열 5'-AGC-3'에 대한 특이성을 갖는, 방법.
- 제84항 내지 제86항 중 어느 한 항에 있어서, 상기 변형된 SpCas9가 아미노산 치환 D1332A, 및 D1135M, S1137Q, G1218K, E1219F, D1332A, R1335E, 및 T1337R의 하나 이상, 또는 이들의 상응하는 아미노산 치환을 포함하는, 방법.
- 제75항 내지 제87항 중 어느 한 항에 있어서, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인이 변경된 프로토스페이서-인접 모티프(PAM) 특이성을 갖는 변형된 SpCas9를 포함하는, 방법.
- 제88항에 있어서, 상기 변형된 SpCas9가 핵산 서열 5'-NGC-3'에 대한 특이성을 갖는, 방법.
- 제88항 또는 제89항에 있어서, 상기 변형된 SpCas9이 아미노산 치환 D1135M, S1137Q, G1218K, E1219F, A1322R, D1332A, R1335E, 및 T1337R 또는 이들의 상응하는 아미노산 치환을 포함하는 것인, 방법.
- 제75항 내지 제90항 중 어느 한 항에 있어서, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인이 뉴클레아제 비활성 또는 닉카아제 변이체인, 방법.
- 제91항에 있어서, 상기 닉카아제 변이체가 아미노산 치환 D10A 또는 이의 상응하는 아미노산 치환을 포함하는, 방법.
- 제75항 내지 제92항 중 어느 한 항에 있어서, 상기 아데노신 데아미나제 도메인이 데옥시리보핵산(DNA)에서 아데노신을 탈아미노화할 수 있는, 방법.
- 제93항에 있어서, 상기 아데노신 데아미나제가 자연에서 발생하지 않는 변형된 아데노신 데아미나제인, 방법.
- 제93항 또는 제94항에 있어서, 상기 아데노신 데아미나제가 TadA 데아미나제인, 방법.
- 제95항에 있어서, 상기 TadA 데아미나제가 TadA*7.10인, 방법.
- 제75항 내지 제96항 중 어느 한 항에 있어서, 상기 하나 이상의 가이드 폴리뉴클레오티드가 CRISPR RNA(crRNA) 및 트랜스-코딩된 소형 RNA(tracrRNA)를 포함하고, 상기 crRNA는 A1AD와 관련된 SNP를 포함하는 SERPINA1 핵산 서열에 상보적인 핵산 서열을 포함하는 것인, 방법.
- 제75항 내지 제97항 중 어느 한 항에 있어서, 상기 염기 편집기 및 상기 하나 이상의 가이드 폴리뉴클레오티드가 세포에서 복합체를 형성하는, 방법.
- 제98항에 있어서, 상기 염기 편집기가 A1AD와 관련된 SNP를 포함하는 SERPINA1 핵산 서열에 상보적인 핵산 서열을 포함하는 단일 가이드 RNA(sgRNA)와의 복합체를 이루는, 방법.
- 제100항의 염기 편집기 및 제101항의 가이드 RNA를 포함하는 단백질 핵산 복합체.
- 유전자 내의 병원성 단일 뉴클레오티드 다형성(SNP)을 교정하기 위한 염기 편집기 시스템으로서,
상기 염기 편집기 시스템은,
(a) (i) 폴리뉴클레오티드-프로그래밍가능한 DNA-결합 도메인, 및
(ii) 병원성 SNP 또는 이의 상보체(complement) 핵염기를 탈아미노화할 수 있는 데아미나제 도메인,
을 포함하는 염기 편집기; 및
(b) 상기 폴리뉴클레오티드-프로그래밍가능한 DNA-결합 도메인과 연계(conjunction)된 가이드 폴리뉴클레오티드, 여기서 상기 가이드 폴리뉴클레오티드는 상기 염기 편집기를 표적 뉴클레오티드 서열(적어도 그 일부가 상기 유전자 또는 이의 역(reverse) 상보체 내에 위치함)에 표적화하는 것임,
을 포함하고;
상기 병원성 SNP 또는 이의 상보체 핵염기의 탈아미노화는 상기 병원성 SNP를 이의 야생형 대립유전자로의 전환을 초래하며, 그로 인해 표 3A 또는 표 3B에 열거된 병원성 돌연변이를 교정하는 것인, 염기 편집기 시스템. - 유전자 내의 병원성 단일 뉴클레오티드 다형성(SNP)을 교정하는 방법으로서,
표적 뉴클레오티드 서열(적어도 그 일부가 상기 유전자 또는 이의 역 상보체에 위치함)을,
(i) 상기 표적 폴리뉴클레오티드 서열(적어도 그 일부가 상기 유전자 또는 이의 역 상보체에 위치함)로 염기 편집기를 표적화하는 가이드 폴리뉴클레오티드와 연계된, 폴리뉴클레오티드-프로그래밍가능한 DNA-결합 도메인, 및
(ii) 상기 병원성 SNP 또는 이의 상보체 핵염기를 탈아미노화할 수 있는 데아미나제 도메인,
을 포함하는 염기 편집기와 접촉시키는 단계; 및
상기 표적 뉴클레오티드 서열에 대한 상기 염기 편집기의 표적화시 상기 병원성 SNP 또는 이의 상보체 핵염기를 탈아미노화함으로써 상기 병원성 SNP를 편집하는 단계;를 포함하고,
상기 병원성 SNP 또는 이의 상보체 핵염기의 탈아미노화는 상기 병원성 SNP를 이의 야생형 대립유전자로의 전환을 초래하며, 그로 인해 병원성 돌연변이를 교정하는, 방법. - 유전자 내의 병원성 단일 뉴클레오티드 다형성(SNP)을 교정하는 방법으로서,
표적 뉴클레오티드 서열(적어도 그 일부가 상기 유전자 또는 이의 역 상보체에 위치함)을,
(i) 상기 표적 폴리뉴클레오티드 서열(적어도 그 일부가 상기 유전자 또는 이의 역 상보체에 위치함)로 염기 편집기를 표적화하는 가이드 폴리뉴클레오티드와 연계된, 폴리뉴클레오티드-프로그래밍가능한 DNA-결합 도메인, 및
(ii) 상기 병원성 SNP 또는 이의 상보체 핵염기를 탈아미노화할 수 있는 데아미나제 도메인,
을 포함하는 염기 편집기와 접촉시키는 단계; 및
상기 표적 뉴클레오티드 서열에 대한 상기 염기 편집기의 표적화시 상기 병원성 SNP 또는 이의 상보체 핵염기를 탈아미노화함으로써 상기 병원성 SNP를 편집하는 단계;를 포함하고,
상기 병원성 SNP 또는 이의 상보체 핵염기의 탈아미노화는 상기 병원성 SNP를 이의 야생형 대립유전자로의 전환을 초래하며, 그로 인해 표 3A 또는 표 3B에 열거된 병원성 돌연변이를 교정하는, 방법. - 유전자 내의 병원성 단일 뉴클레오티드 다형성(SNP)을 교정하여 대상체의 유전성 장애(genetic disorder)를 치료하는 방법으로서,
염기 편집기, 또는 상기 염기 편집기를 코딩하는 폴리뉴클레오티드를, 이를 필요로 하는 대상체에게 투여하는 단계로서,
상기 염기 편집기는,
(i) 폴리뉴클레오티드-프로그래밍가능한 DNA-결합 도메인, 및
(ii) 병원성 SNP 또는 이의 상보체 핵염기를 탈아미노화할 수 있는 데아미나제 도메인을 포함하는 것인, 단계; 및
가이드 폴리뉴클레오티드를 상기 대상체에게 투여하는 단계로서, 상기 가이드 폴리뉴클레오티드는, 표적 뉴클레오티드 서열(적어도 그 일부가 상기 유전자 또는 이의 역 상보체에 위치함)에 상기 염기 편집기를 표적화하는 것인, 단계; 및
상기 표적 뉴클레오티드 서열에 대한 상기 염기 편집기의 표적화시 상기 병원성 SNP 또는 이의 상보체 핵염기를 탈아미노화함으로써 상기 병원성 SNP를 편집하는 단계;를 포함하고,
상기 병원성 SNP 또는 이의 상보체 핵염기의 탈아미노화는 상기 병원성 SNP를 이의 야생형 대립유전자로의 전환을 초래하며, 그로 인해 표 3A 또는 표 3B에 열거된 병원성 돌연변이를 교정하고 상기 유전성 장애를 치료하는, 방법. - 세포, 조직, 또는 기관의 유전자 내의 병원성 단일 뉴클레오티드 다형성(SNP)을 교정함으로써 이를 필요로 하는 대상체에서 유전성 장애를 치료하기 위한 세포, 조직, 또는 기관을 생산하는 방법으로서,
상기 방법은,
상기 세포, 조직, 또는 기관을 염기 편집기와 접촉시키는 단계로서, 상기 염기 편집기는,
(i) 폴리뉴클레오티드-프로그래밍가능한 DNA-결합 도메인, 및
(ii) 상기 병원성 SNP 또는 이의 상보체 핵염기를 탈아미노화할 수 있는 데아미나제 도메인을 포함하는 것인, 단계; 및
상기 세포, 조직, 또는 기관을 가이드 폴리뉴클레오티드와 접촉시키는 단계로서, 상기 가이드 폴리뉴클레오티드는, 표적 뉴클레오티드 서열(적어도 그 일부가 상기 유전자 또는 그의 역 상보체에 위치함)에 상기 염기 편집기를 표적화하는 것인, 단계; 및
상기 표적 뉴클레오티드 서열에 대한 상기 염기 편집기의 표적화시 상기 병원성 SNP 또는 이의 상보체 핵염기를 탈아미노화함으로써 상기 병원성 SNP를 편집하는 단계;를 포함하고,
상기 병원성 SNP 또는 이의 상보체 핵염기의 탈아미노화는 상기 병원성 SNP를 이의 야생형 대립유전자로의 전환을 초래하며, 그로 인해 표 3A 또는 표 3B에 열거된 병원성 돌연변이를 교정하고 상기 유전성 장애를 치료하기 위한 상기 세포, 조직 또는 기관을 생산하는, 방법. - 제107항에 있어서, 상기 세포, 조직, 또는 기관을 상기 대상체에게 투여하는 단계를 추가로 포함하는, 방법.
- 제107항 또는 제108항에 있어서, 상기 세포, 조직 또는 기관이 상기 대상체에 대해 자가발생성, 동종발생성, 또는 이종발생성인, 방법.
- 제103항 내지 제109항 중 어느 한 항에 있어서, 상기 추가 핵염기의 편집을 위한 제2 가이드 폴리뉴클레오티드를 추가로 포함하는, 염기 편집기 시스템 또는 방법.
- 제110항에 있어서, 상기 추가 핵염기가 상기 유전자에 위치하지 않는, 염기 편집기 시스템 또는 방법.
- 제110항에 있어서, 상기 추가 핵염기가 상기 유전자에 위치하는, 염기 편집기 시스템 또는 방법.
- 제109항 내지 제111항 중 어느 한 항에 있어서, 상기 추가 핵염기가 단백질 코딩 영역 내에 위치하는, 염기 편집기 시스템 또는 방법.
- 제109항 내지 제111항 중 어느 한 항에 있어서, 상기 추가 핵염기가 단백질 비-코딩 영역 내에 위치하는, 염기 편집기 시스템 또는 방법.
- 제113항에 있어서, 상기 단백질 비-코딩 영역이 유전자 조절 요소인, 염기 편집기 시스템 또는 방법.
- 제103항 내지 제115항 중 어느 한 항에 있어서, 상기 데아미나제 도메인이 시티딘 데아미나제 도메인 또는 아데노신 데아미나제 도메인인, 염기 편집기 시스템 또는 방법.
- 제116항에 있어서, 상기 데아미나제 도메인이 시티딘 데아미나제 도메인인, 염기 편집기 시스템 또는 방법.
- 제116항에 있어서, 상기 데아미나제 도메인이 아데노신 데아미나제 도메인인, 염기 편집기 시스템 또는 방법.
- 제118항에 있어서, 상기 아데노신 데아미나제 도메인이 데옥시리보핵산(DNA)에서 아데닌을 탈아미노화할 수 있는, 염기 편집기 시스템 또는 방법.
- 제103항 내지 제119항 중 어느 한 항에 있어서, 상기 가이드 폴리뉴클레오티드가 리보핵산(RNA), 또는 데옥시리보핵산(DNA)을 포함하는, 염기 편집기 시스템 또는 방법.
- 제103항 내지 제120항 중 어느 한 항에 있어서, 상기 가이드 폴리뉴클레오티드가 CRISPR RNA(crRNA) 서열, 트랜스-활성화 CRISPR RNA(tracrRNA) 서열, 또는 이들의 조합을 포함하는, 염기 편집기 시스템 또는 방법.
- 제103항 내지 제121항 중 어느 한 항에 있어서, 제2 가이드 폴리뉴클레오티드를 추가로 포함하는 염기 편집기 시스템 또는 방법.
- 제122항에 있어서, 상기 제2 가이드 폴리뉴클레오티드가 리보핵산(RNA), 또는 데옥시리보핵산(DNA)을 포함하는, 염기 편집기 시스템 또는 방법.
- 제122항에 있어서, 상기 제2 가이드 폴리뉴클레오티드가 CRISPR RNA(crRNA) 서열, 트랜스-활성화 CRISPR RNA(tracrRNA) 서열, 또는 이들의 조합을 포함하는, 염기 편집기 시스템 또는 방법.
- 제12항 내지 제124항 중 어느 한 항에 있어서, 상기 제2 가이드 폴리뉴클레오티드가 상기 염기 편집기를 제2 표적 뉴클레오티드 서열에 표적화하는, 염기 편집기 시스템 또는 방법.
- 제103항 내지 제125항 중 어느 한 항에 있어서, 상기 폴리뉴클레오티드-프로그래밍가능한 DNA-결합 도메인이 Cas9 도메인, Cpf1 도메인, CasX 도메인, CasY 도메인, Cas12b/C2c1 도메인, 또는 Cas12c/C2c3 도메인을 포함하는, 염기 편집기 시스템 또는 방법.
- 제103항 내지 제126항 중 어느 한 항에 있어서, 상기 폴리뉴클레오티드-프로그래밍가능한 DNA-결합 도메인이 뉴클레아제 멸실된(nuclease dead) 것인, 염기 편집기 시스템 또는 방법.
- 제103항 내지 제126항 중 어느 한 항에 있어서, 상기 폴리뉴클레오티드-프로그래밍가능한 DNA-결합 도메인이 닉카아제인, 염기 편집기 시스템 또는 방법.
- 제126항에 있어서, 상기 폴리뉴클레오티드-프로그래밍가능한 DNA-결합 도메인이 Cas9 도메인을 포함하는, 염기 편집기 시스템 또는 방법.
- 제129항에 있어서, 상기 Cas9 도메인이 뉴클레아제 멸실된 Cas9(dCas9), Cas9 닉카아제(nCas9), 또는 뉴클레아제 활성 Cas9를 포함하는, 염기 편집기 시스템 또는 방법.
- 제130항에 있어서, 상기 Cas9 도메인이 Cas9 닉카아제를 포함하는, 염기 편집기 시스템 또는 방법.
- 제103항 내지 제131항 중 어느 한 항에 있어서, 상기 폴리뉴클레오티드-프로그래밍가능한 DNA-결합 도메인이 조작된 또는 변형된 폴리뉴클레오티드-프로그래밍가능한 DNA-결합 도메인인, 염기 편집기 시스템 또는 방법.
- 제103항 내지 제132항 중 어느 한 항에 있어서, 제2 염기 편집기를 더 포함하는, 염기 편집기 시스템 또는 방법.
- 제133항에 있어서, 상기 제2 염기 편집기가 상기 염기 편집기와는 다른 데아미나제 도메인을 포함하는, 염기 편집기 시스템 또는 방법.
- 제104항 내지 제134항 중 어느 한 항에 있어서, 상기 편집이 20 % 미만의 인델 형성, 15 % 미만의 인델 형성, 10 % 미만의 인델 형성; 5 % 미만의 인델 형성; 4 % 미만의 인델 형성; 3 % 미만의 인델 형성; 2 % 미만의 인델 형성; 1 % 미만의 인델 형성; 0.5 % 미만의 인델 형성; 또는 0.1 % 미만의 인델 형성을 초래하는 것인, 방법.
- 제104항 내지 제135항 중 어느 한 항에 있어서, 상기 편집이 전좌(translocations)를 초래하지 않는, 방법.
- 글리코겐 저장 장애 유형 1a(GSD1a)와 관련된 단일 뉴클레오티드 다형성(SNP)을 포함하는 G6PC 폴리뉴클레오티드를 편집하는 방법으로서, 상기 G6PC 폴리뉴클레오티드를 하나 이상의 가이드 폴리뉴클레오티드와의 복합체를 이루고 있는 염기 편집기와 접촉시키는 단계를 포함하며, 상기 염기 편집기는 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 및 아데노신 데아미나제 도메인을 포함하고, 하나 이상의 상기 가이드 폴리뉴클레오티드는 GSD1a와 관련된 상기 SNP의 A·T에서 G·C로의 변경을 수행하도록 상기 염기 편집기를 표적화 하는, 방법.
- 제137항에 있어서, 글리코겐 저장 장애 유형 1a(GSD1a)와 관련된 상기 SNP에서의 상기 A·T에서 G·C로의 변경이 상기 G6PC 폴리펩티드 내의 글루타민(Q)을 비-글루타민(X) 아미노산으로 변화시키거나, 아르기닌(R)을 비-아르기닌(X)으로 변화시키는 것인, 방법.
- 제137항 또는 제138항에 있어서, GSD1a와 관련된 상기 SNP가 위치 347에 비-글루타민(X) 아미노산 또는 위치 83에 비-아르기닌(X) 아미노산을 갖는 G6PC 폴리펩티드의 발현을 초래하는, 방법.
- 제137항 내지 제139항 중 어느 한 항에 있어서, 상기 염기 편집기 교정이 위치 347에서 글루타민을 비-글루타민 아미노산(X)으로 또는 위치 83에서 아르기닌을 비-아르기닌 아미노산(X)으로 교체하는 것인, 방법.
- 제137항 내지 제140항 중 어느 한 항에 있어서, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인이 변형된 스트렙토코커스 피오게네스 Cas9(SpCas9) 또는 이의 변이체인, 방법.
- 제137항 내지 제141항 중 어느 한 항에 있어서, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인이 변경된 프로토스페이서-인접 모티프(PAM) 특이성을 갖는 변형된 SpCas9를 포함하는, 방법.
- 제142항에 있어서, 상기 변형된 SpCas9가 핵산 서열 5'-NGA-3' 또는 5'-NGG-3'에 대한 특이성을 갖는, 방법.
- 제142항에 있어서, 상기 아데노신 데아미나제가 ABE7.10인, 방법.
- 하기를 세포에 도입하여 생산된 세포, 또는 이의 전구체:
상기 세포에 대한, 염기 편집기, 이때 상기 염기 편집기를 코딩하는 폴리뉴클레오티드, 상기 염기 편집기는 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 및 아데노신 데아미나제 도메인을 포함하는 것임; 및
글리코겐 저장 장애 유형 1a(GSD1a)와 관련된 SNP의 A·T에서 G·C로의 변경을 수행하도록 상기 염기 편집기를 표적화 하는 하나 이상의 가이드 폴리뉴클레오티드. - 제145항에 있어서, 상기 세포가 간세포, 간세포 전구체, 또는 iPSc-유래 간세포인, 세포.
- 제145항 또는 제146항에 있어서, 상기 세포가 GSD1a를 지니는 대상체로부터 유래된, 세포.
- 제145항 내지 제147항 중 어느 한 항에 있어서, 상기 세포가 Q347X 돌연변이를 내포하는, 세포.
- 제145항 내지 제148항 중 어느 한 항에 있어서, GSD1a와 관련된 상기 SNP에서의 A·T에서 G·C로의 변경이 상기 G6PC 폴리펩티드 내의 글루타민을 비-글루타민(X) 아미노산으로 변화시키거나, 아르기닌을 비-아르기닌(X) 아미노산으로 변화시키는 것인, 세포.
- 제145항 내지 제149항 중 어느 한 항에 있어서, GSD1a와 관련된 상기 SNP가 위치 347에 비-글루타민(X) 아미노산 또는 위치 83에 비-아르기닌(X) 아미노산을 갖는 G6PC 폴리펩티드의 발현을 초래하는, 세포.
- 제145항 내지 제150항 중 어느 한 항의 세포를 대상체에게 투여하는 단계를 포함하는, 필요로 하는 대상체에서 글리코겐 저장 장애 유형 1a(GSD1a) 또는 폰 기르케병(von Gierke Disease)을 치료하는 방법.
- 간세포, 또는 이의 전구체를 생산하는 방법으로서,
(a) GSD1a와 관련된 SNP를 포함하는 유도된 만능 줄기 세포 또는 간세포 전구체 내로,
염기 편집기, 또는 상기 염기 편집기를 코딩하는 폴리뉴클레오티드, 여기서 상기 염기 편집기는 폴리뉴클레오티드-프로그래밍가능한 뉴클레오티드-결합 도메인 및 아데노신 데아미나제 도메인을 포함하는 것임; 및
하나 이상의 가이드 폴리뉴클레오티드, 여기서 상기 하나 이상의 가이드 폴리뉴클레오티드는 GSD1a와 관련된 SNP의 A·T에서 G·C로의 변경을 수행하도록 상기 염기 편집기를 표적화하는 것임,
을 도입하는 단계; 및
(b) 상기 유도된 만능 줄기 세포 또는 간세포 전구체를 간세포로 분화시키는 단계를 포함하는, 방법. - 제152항에 있어서, 상기 유도된 만능 줄기 세포를 간세포 또는 이의 전구 세포로 분화시키는 단계를 포함하는, 방법.
- 제152항 또는 제153항에 있어서, 단계 (a)의 상기 유도된 만능 줄기 세포가 Q347X 돌연변이를 포함하는 방법.
- 제152항 내지 제154항 중 어느 한 항에 있어서, 상기 간세포 전구 세포가 GSD1a를 지니는 대상체로부터 수득되는, 방법.
- 제152항 내지 제155항 중 어느 한 항에 있어서, 상기 간세포 또는 간세포 전구체가 포유류 세포 또는 인간 세포인, 방법.
- 제152항 내지 제156항 중 어느 한 항에 있어서, GSD1a와 관련된 상기 SNP에서의 상기 A·T에서 G·C로의 변경이 상기 G6PC 폴리펩티드 내의 글루타민을 비-글루타민(X) 아미노산으로 변화시키거나, 아르기닌을 비-아르기닌(X) 아미노산으로 변화시키는 것인, 방법.
- 제152항 내지 제157항 중 어느 한 항에 있어서, GSD1a와 관련된 상기 SNP가 위치 347에 비-글루타민(X) 아미노산 또는 위치 83에 비-아르기닌(X) 아미노산을 갖는 G6PC 폴리펩티드의 발현을 초래하는, 방법.
- 제152항 내지 제158항 중 어느 한 항에 있어서, GSD1a와 관련된 상기 SNP가 글루타민을 비-글루타민(X) 아미노산으로 또는 아르기닌을 비-아르기닌(X) 아미노산으로 치환하는, 방법.
- 제152항 내지 제159항 중 어느 한 항에 있어서, 상기 세포가 GSD1a와 관련된 상기 SNP의 A·T에서 G·C로의 변경을 위해 선택되는, 방법.
- 점액다당류증 유형 1(MPS1; mucopolysaccharidosis type 1)과 관련된 단일 뉴클레오티드 다형성(SNP)을 포함하는 IDUA 폴리뉴클레오티드를 편집하는 방법으로서, 상기 IDUA 폴리뉴클레오티드를 하나 이상의 가이드 폴리뉴클레오티드와의 복합체를 이루고 있는 염기 편집기와 접촉시키는 단계를 포함하며, 상기 염기 편집기는 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 및 아데노신 데아미나제 도메인을 포함하고, 하나 이상의 상기 가이드 폴리뉴클레오티드는 MPS1과 관련된 상기 SNP의 A·T에서 G·로의 변경을 수행하도록 상기 염기 편집기를 표적화 하는, 방법.
- 제161항에 있어서, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인이 변형된 스트렙토코커스 피오게네스(Streptococcus pyogenes) Cas9(SpCas9), 또는 이의 변이체인, 방법.
- 제160항 또는 제162항에 있어서, 상기 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인이 변경된 프로토스페이서-인접 모티프(PAM) 특이성을 갖는 변형된 SpCas9를 포함하는, 방법.
- 제163항에 있어서, 상기 변형된 SpCas9가 핵산 서열 5'-NGG-3'에 대한 특이성을 갖는, 방법.
- 제161항 내지 제164항 중 어느 한 항에 있어서, 상기 아데노신 데아미나제가 ABE7.10인, 방법.
- 제161항 내지 제165항 중 어느 한 항에 있어서, 상기 가이드 폴리뉴클레오티드가 인간 핵산 서열 ACTCTaGGCAGAGGTCTCAAAGG를 포함하는, 방법.
- 제161항 내지 제166항 중 어느 한 항에 있어서, 상기 가이드 폴리뉴클레오티드가 마우스 핵산 서열 GCTCTaGGCCGAAGTGTCGCAGG를 포함하는, 방법.
- 하기를 세포 내로 도입하여 생성된 세포, 또는 이의 전구체:
상기 세포에 대한, 염기 편집기, 상기 염기 편집기를 코딩하는 폴리뉴클레오티드, 이때 상기 염기 편집기는 폴리뉴클레오티드 프로그래밍가능한 DNA 결합 도메인 및 아데노신 데아미나제 도메인을 포함하는 것임; 및
점액다당류증 유형 1(MPS1)과 관련된 SNP의 A·T에서 G·C로의 변경을 수행하도록 상기 염기 편집기를 표적화 하는 하나 이상의 가이드 폴리뉴클레오티드. - 제168항에 있어서, 상기 세포가 줄기 세포, 줄기 세포 전구체, 또는 유도된 만능 줄기 세포(iPSC)인, 세포.
- 제168항 또는 제169항에 있어서, 상기 세포가 MPS1을 지니는 대상체로부터 유래되는, 세포.
- 제168항 내지 제170항 중 어느 한 항의 세포를 이를 필요로 하는 대상체에게 투여하는 단계를 포함하는, 상기 대상체에서 MPS1을 치료하는 방법.
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862670588P | 2018-05-11 | 2018-05-11 | |
US62/670,588 | 2018-05-11 | ||
US201862780838P | 2018-12-17 | 2018-12-17 | |
US62/780,838 | 2018-12-17 | ||
US201962817986P | 2019-03-13 | 2019-03-13 | |
US62/817,986 | 2019-03-13 | ||
PCT/US2019/031898 WO2019217943A1 (en) | 2018-05-11 | 2019-05-11 | Methods of editing single nucleotide polymorphism using programmable base editor systems |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20210023832A true KR20210023832A (ko) | 2021-03-04 |
Family
ID=68466849
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020207035001A KR20210023833A (ko) | 2018-05-11 | 2019-05-11 | 프로그래밍가능한 염기 편집기 시스템을 이용하여 단일염기다형성을 편집하는 방법 |
KR1020207035000A KR20210023832A (ko) | 2018-05-11 | 2019-05-11 | 프로그래밍가능한 염기 편집기 시스템을 이용하여 단일염기다형성을 편집하는 방법 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020207035001A KR20210023833A (ko) | 2018-05-11 | 2019-05-11 | 프로그래밍가능한 염기 편집기 시스템을 이용하여 단일염기다형성을 편집하는 방법 |
Country Status (8)
Country | Link |
---|---|
US (2) | US20210380955A1 (ko) |
EP (2) | EP3790595A4 (ko) |
JP (2) | JP2021523739A (ko) |
KR (2) | KR20210023833A (ko) |
CN (2) | CN112469824A (ko) |
AU (2) | AU2019266327A1 (ko) |
CA (2) | CA3100037A1 (ko) |
WO (2) | WO2019217944A1 (ko) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3589751A4 (en) | 2017-03-03 | 2021-11-17 | The Regents of The University of California | RNA TARGETING OF MUTATIONS VIA SUPPRESSOR RNA AND DEAMINASES |
WO2018221685A1 (ja) | 2017-05-31 | 2018-12-06 | 国立大学法人 東京大学 | 改変されたCas9タンパク質及びその用途 |
WO2019040650A1 (en) | 2017-08-23 | 2019-02-28 | The General Hospital Corporation | GENETICALLY MODIFIED CRISPR-CAS9 NUCLEASES HAVING MODIFIED PAM SPECIFICITY |
US20200370040A1 (en) * | 2017-12-07 | 2020-11-26 | Ramot At Tel-Aviv University Ltd. | Treatment for parkinsonian patients with mutations in the lrrk2 gene |
PT3765615T (pt) | 2018-03-14 | 2023-08-28 | Arbor Biotechnologies Inc | Novas enzimas e sistemas de direcionamento de dna crispr |
EP3797160A1 (en) * | 2018-05-23 | 2021-03-31 | The Broad Institute Inc. | Base editors and uses thereof |
AU2020223060B2 (en) | 2019-02-13 | 2023-04-13 | Beam Therapeutics Inc. | Compositions and methods for treating hemoglobinopathies |
JP2022519882A (ja) * | 2019-02-13 | 2022-03-25 | ビーム セラピューティクス インク. | 糖原病1a型を治療するための組成物および方法 |
JP2021023219A (ja) * | 2019-08-06 | 2021-02-22 | 日本製紙株式会社 | プロテイン用マスキング剤 |
US11827880B2 (en) | 2019-12-02 | 2023-11-28 | Shape Therapeutics Inc. | Therapeutic editing |
WO2021122944A1 (en) * | 2019-12-18 | 2021-06-24 | Alia Therapeutics Srl | Compositions and methods for treating retinitis pigmentosa |
US20210261932A1 (en) * | 2020-01-24 | 2021-08-26 | The General Hospital Corporation | Crispr-cas enzymes with enhanced on-target activity |
WO2021151073A2 (en) * | 2020-01-24 | 2021-07-29 | The General Hospital Corporation | Unconstrained genome targeting with near-pamless engineered crispr-cas9 variants |
EP4097233A4 (en) * | 2020-01-31 | 2024-02-28 | Univ Massachusetts | CAS9 PDBD BASES EDITOR PLATFORM WITH IMPROVED TARGET RANGE AND SPECIFICITY |
WO2021163492A1 (en) * | 2020-02-14 | 2021-08-19 | Ohio State Innovation Foundation | Nucleobase editors and methods of use thereof |
IT202000008014A1 (it) * | 2020-04-15 | 2021-10-15 | Fond Telethon | RNA guida e loro usi |
WO2021216622A1 (en) * | 2020-04-21 | 2021-10-28 | Aspen Neuroscience, Inc. | Gene editing of gba1 in stem cells and method of use of cells differentiated therefrom |
WO2021216623A1 (en) * | 2020-04-21 | 2021-10-28 | Aspen Neuroscience, Inc. | Gene editing of lrrk2 in stem cells and method of use of cells differentiated therefrom |
WO2021222318A1 (en) | 2020-04-28 | 2021-11-04 | The Broad Institute, Inc. | Targeted base editing of the ush2a gene |
US20230190893A1 (en) * | 2020-07-14 | 2023-06-22 | The Regents Of The University Of California | Compositions and methods for treating an inherited retinal disease |
WO2022027035A1 (en) * | 2020-07-27 | 2022-02-03 | The Children's Hospital Of Philadelphia | In utero and postnatal gene editing and therapy for treatment of monogenic diseases, including mucopolysaccharidosis type 1h and other disorders |
WO2022197727A1 (en) * | 2021-03-15 | 2022-09-22 | Duke University | Generation of novel crispr genome editing agents using combinatorial chemistry |
WO2022241270A2 (en) * | 2021-05-14 | 2022-11-17 | Beam Therapeutics Inc. | Compositions and methods for treating transthyretin amyloidosis |
KR20240012377A (ko) * | 2021-05-28 | 2024-01-29 | 빔 테라퓨틱스, 인크. | 염기 편집기의 자기-불활성화용 조성물 및 방법 |
CA3235148A1 (en) * | 2021-10-13 | 2023-04-20 | Apellis Pharmaceuticals, Inc. | Compositions and methods for genome editing the neonatal fc receptor |
WO2023102550A2 (en) | 2021-12-03 | 2023-06-08 | The Broad Institute, Inc. | Compositions and methods for efficient in vivo delivery |
WO2023140694A1 (ko) * | 2022-01-24 | 2023-07-27 | 주식회사 툴젠 | 스트렙토코커스 피오게네스 유래 cas9 변이체 |
CN114480445B (zh) * | 2022-01-26 | 2023-06-27 | 西南交通大学 | 一种人源超氧化物歧化酶hSOD1突变体的制备及其应用 |
WO2023217280A1 (en) * | 2022-05-13 | 2023-11-16 | Huidagene Therapeutics Co., Ltd. | Programmable adenine base editor and uses thereof |
CN115148281B (zh) * | 2022-06-29 | 2023-07-14 | 广州源井生物科技有限公司 | 一种基因编辑点突变方案自动设计方法及系统 |
WO2024052681A1 (en) * | 2022-09-08 | 2024-03-14 | The University Court Of The University Of Edinburgh | Rett syndrome therapy |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4880635B1 (en) | 1984-08-08 | 1996-07-02 | Liposome Company | Dehydrated liposomes |
US4797368A (en) | 1985-03-15 | 1989-01-10 | The United States Of America As Represented By The Department Of Health And Human Services | Adeno-associated virus as eukaryotic expression vector |
US4921757A (en) | 1985-04-26 | 1990-05-01 | Massachusetts Institute Of Technology | System for delayed and pulsed release of biologically active substances |
US4920016A (en) | 1986-12-24 | 1990-04-24 | Linear Technology, Inc. | Liposomes with enhanced circulation time |
JPH0825869B2 (ja) | 1987-02-09 | 1996-03-13 | 株式会社ビタミン研究所 | 抗腫瘍剤包埋リポソ−ム製剤 |
US4911928A (en) | 1987-03-13 | 1990-03-27 | Micro-Pak, Inc. | Paucilamellar lipid vesicles |
US4917951A (en) | 1987-07-28 | 1990-04-17 | Micro-Pak, Inc. | Lipid vesicles formed of surfactants and steroids |
US5173414A (en) | 1990-10-30 | 1992-12-22 | Applied Immune Sciences, Inc. | Production of recombinant adeno-associated virus vectors |
US5587308A (en) | 1992-06-02 | 1996-12-24 | The United States Of America As Represented By The Department Of Health & Human Services | Modified adeno-associated virus vector capable of expression from a novel promoter |
US5846946A (en) | 1996-06-14 | 1998-12-08 | Pasteur Merieux Serums Et Vaccins | Compositions and methods for administering Borrelia DNA |
US6453242B1 (en) | 1999-01-12 | 2002-09-17 | Sangamo Biosciences, Inc. | Selection of sites for targeting by zinc finger proteins and methods of designing zinc finger proteins to bind to preselected sites |
US7013219B2 (en) | 1999-01-12 | 2006-03-14 | Sangamo Biosciences, Inc. | Regulation of endogenous gene expression in cells using zinc finger proteins |
US6599692B1 (en) | 1999-09-14 | 2003-07-29 | Sangamo Bioscience, Inc. | Functional genomics using zinc finger proteins |
US6534261B1 (en) | 1999-01-12 | 2003-03-18 | Sangamo Biosciences, Inc. | Regulation of endogenous gene expression in cells using zinc finger proteins |
CA2392490A1 (en) | 1999-11-24 | 2001-05-31 | Mcs Micro Carrier Systems Gmbh | Polypeptides comprising multimers of nuclear localization signals or of protein transduction domains and their use for transferring molecules into cells |
AU776576B2 (en) | 1999-12-06 | 2004-09-16 | Sangamo Biosciences, Inc. | Methods of using randomized libraries of zinc finger proteins for the identification of gene function |
AU5077401A (en) | 2000-02-08 | 2001-08-20 | Sangamo Biosciences Inc | Cells for drug discovery |
ATE527281T1 (de) | 2004-07-16 | 2011-10-15 | Us Gov Health & Human Serv | Impfstoffe gegen aids umfassend cmv/r nucleinsäurekonstrukte |
CN101970051A (zh) | 2007-12-31 | 2011-02-09 | 纳诺科尔治疗公司 | 用于治疗心力衰竭的rna干扰 |
KR20240007725A (ko) | 2009-11-02 | 2024-01-16 | 유니버시티 오브 워싱톤 스루 이츠 센터 포 커머셜리제이션 | 치료학적 뉴클레아제 조성물 및 방법 |
US9405700B2 (en) | 2010-11-04 | 2016-08-02 | Sonics, Inc. | Methods and apparatus for virtualization in an integrated circuit |
EP3079725B1 (en) * | 2013-12-12 | 2019-10-16 | The Broad Institute, Inc. | Delivery, use and therapeutic applications of the crispr-cas systems and compositions for genome editing |
EP3155116A4 (en) * | 2014-06-10 | 2017-12-27 | Massachusetts Institute Of Technology | Method for gene editing |
US9944912B2 (en) * | 2015-03-03 | 2018-04-17 | The General Hospital Corporation | Engineered CRISPR-Cas9 nucleases with altered PAM specificity |
SG10202104041PA (en) | 2015-10-23 | 2021-06-29 | Harvard College | Nucleobase editors and uses thereof |
WO2017165862A1 (en) * | 2016-03-25 | 2017-09-28 | Editas Medicine, Inc. | Systems and methods for treating alpha 1-antitrypsin (a1at) deficiency |
US11286478B2 (en) * | 2016-04-19 | 2022-03-29 | The Broad Institute, Inc. | Cpf1 complexes with reduced indel activity |
AU2017253089B2 (en) * | 2016-04-19 | 2023-07-20 | Massachusetts Institute Of Technology | Novel CRISPR enzymes and systems |
AU2017257274B2 (en) * | 2016-04-19 | 2023-07-13 | Massachusetts Institute Of Technology | Novel CRISPR enzymes and systems |
SG11201900907YA (en) * | 2016-08-03 | 2019-02-27 | Harvard College | Adenosine nucleobase editors and uses thereof |
CN107043779B (zh) * | 2016-12-01 | 2020-05-12 | 中国农业科学院作物科学研究所 | 一种CRISPR/nCas9介导的定点碱基替换在植物中的应用 |
-
2019
- 2019-05-11 AU AU2019266327A patent/AU2019266327A1/en active Pending
- 2019-05-11 CA CA3100037A patent/CA3100037A1/en active Pending
- 2019-05-11 AU AU2019266326A patent/AU2019266326A1/en active Pending
- 2019-05-11 KR KR1020207035001A patent/KR20210023833A/ko unknown
- 2019-05-11 WO PCT/US2019/031899 patent/WO2019217944A1/en unknown
- 2019-05-11 US US17/054,324 patent/US20210380955A1/en active Pending
- 2019-05-11 EP EP19799854.5A patent/EP3790595A4/en active Pending
- 2019-05-11 WO PCT/US2019/031898 patent/WO2019217943A1/en unknown
- 2019-05-11 EP EP19799484.1A patent/EP3790963A4/en active Pending
- 2019-05-11 US US17/054,348 patent/US20230159956A1/en active Pending
- 2019-05-11 CN CN201980046538.7A patent/CN112469824A/zh active Pending
- 2019-05-11 JP JP2021513765A patent/JP2021523739A/ja active Pending
- 2019-05-11 JP JP2021513764A patent/JP2021523738A/ja active Pending
- 2019-05-11 CA CA3100034A patent/CA3100034A1/en active Pending
- 2019-05-11 KR KR1020207035000A patent/KR20210023832A/ko unknown
- 2019-05-11 CN CN201980046479.3A patent/CN112469446A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230159956A1 (en) | 2023-05-25 |
WO2019217944A1 (en) | 2019-11-14 |
CA3100034A1 (en) | 2019-11-14 |
AU2019266327A1 (en) | 2020-11-26 |
EP3790595A4 (en) | 2022-06-08 |
EP3790963A1 (en) | 2021-03-17 |
JP2021523738A (ja) | 2021-09-09 |
US20210380955A1 (en) | 2021-12-09 |
KR20210023833A (ko) | 2021-03-04 |
EP3790595A1 (en) | 2021-03-17 |
AU2019266326A1 (en) | 2020-11-26 |
CA3100037A1 (en) | 2019-11-14 |
CN112469824A (zh) | 2021-03-09 |
CN112469446A (zh) | 2021-03-09 |
WO2019217943A1 (en) | 2019-11-14 |
EP3790963A4 (en) | 2022-04-20 |
JP2021523739A (ja) | 2021-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20210023832A (ko) | 프로그래밍가능한 염기 편집기 시스템을 이용하여 단일염기다형성을 편집하는 방법 | |
KR20210023830A (ko) | 프로그래밍가능한 염기 편집기 시스템을 이용하여 병원성 돌연변이를 억제하는 방법 | |
US11155803B2 (en) | Adenosine deaminase base editors and methods of using same to modify a nucleobase in a target sequence | |
US20210277379A1 (en) | Multi-effector nucleobase editors and methods of using same to modify a nucleic acid target sequence | |
US20230140953A1 (en) | Methods of editing a disease-associated gene using adenosine deaminase base editors, including for the treatment of genetic disease | |
US20220136012A1 (en) | Nucleobase editors having reduced off-target deamination and methods of using same to modify a nucleobase target sequence | |
KR20210023831A (ko) | 프로그래밍가능한 염기 편집기 시스템을 이용하여 병원성 아미노산을 치환하는 방법 | |
US20230017979A1 (en) | Compositions and methods for non-toxic conditioning | |
US20220098593A1 (en) | Splice acceptor site disruption of a disease-associated gene using adenosine deaminase base editors, including for the treatment of genetic disease | |
US20220313799A1 (en) | Compositions and methods for editing a mutation to permit transcription or expression | |
US20230070861A1 (en) | Compositions and methods for treating hepatitis b | |
CN110997924A (zh) | 用于在肝中表达感兴趣的蛋白的平台 |