KR20210104068A - 게놈 편집을 위한 신규한 crispr-cas 시스템 - Google Patents
게놈 편집을 위한 신규한 crispr-cas 시스템 Download PDFInfo
- Publication number
- KR20210104068A KR20210104068A KR1020217020914A KR20217020914A KR20210104068A KR 20210104068 A KR20210104068 A KR 20210104068A KR 1020217020914 A KR1020217020914 A KR 1020217020914A KR 20217020914 A KR20217020914 A KR 20217020914A KR 20210104068 A KR20210104068 A KR 20210104068A
- Authority
- KR
- South Korea
- Prior art keywords
- cas
- sequence
- polynucleotide
- alpha
- seq
- Prior art date
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N9/00—Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
- C12N9/14—Hydrolases (3)
- C12N9/16—Hydrolases (3) acting on ester bonds (3.1)
- C12N9/22—Ribonucleases RNAses, DNAses
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/102—Mutagenizing nucleic acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
- C12N15/113—Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/63—Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
- C12N15/79—Vectors or expression systems specially adapted for eukaryotic hosts
- C12N15/82—Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/63—Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
- C12N15/79—Vectors or expression systems specially adapted for eukaryotic hosts
- C12N15/82—Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
- C12N15/8201—Methods for introducing genetic material into plant cells, e.g. DNA, RNA, stable or transient incorporation, tissue culture methods adapted for transformation
- C12N15/8213—Targeted insertion of genes into the plant genome by homologous recombination
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/87—Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
- C12N15/90—Stable introduction of foreign DNA into chromosome
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/87—Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
- C12N15/90—Stable introduction of foreign DNA into chromosome
- C12N15/902—Stable introduction of foreign DNA into chromosome using homologous recombination
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N9/00—Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
- C12N9/14—Hydrolases (3)
- C12N9/78—Hydrolases (3) acting on carbon to nitrogen bonds other than peptide bonds (3.5)
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K2319/00—Fusion polypeptide
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2310/00—Structure or type of the nucleic acid
- C12N2310/10—Type of nucleic acid
- C12N2310/20—Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2800/00—Nucleic acids vectors
- C12N2800/80—Vectors containing sites for inducing double-stranded breaks, e.g. meganuclease restriction sites
Abstract
신규한 Cas 엔도뉴클레아제를 이용하는, 세포의 게놈에서 표적 서열의 게놈 변형을 위한 조성물 및 방법이 제공된다. 상기 방법 및 조성물은 세포 또는 유기체의 게놈 내에서 표적 서열을 변형 또는 변경하기 위한 효과적인 시스템을 제공하기 위한 가이드 폴리뉴클레오티드/엔도뉴클레아제 시스템을 사용한다. 또한 이러한 시스템, 예컨대 엔도뉴클레아제를 포함하는 가이드 폴리뉴클레오티드/엔도뉴클레아제 시스템을 포함하는 신규한 효과기 및 엔도뉴클레아제 시스템 및 요소가 제공된다. 또한 선택적으로 적어도 하나의 추가적인 단백질 서브유닛에 공유적으로 또는 비공유적으로 연결되거나, 또는 조립된 적어도 하나의 엔도뉴클레아제를 포함하는 가이드 폴리뉴클레오티드/엔도뉴클레아제 시스템, 및 리보뉴클레오티드 단백질로서 엔도뉴클레아제의 직접 전달을 위한 조성물 및 방법을 제공한다.
Description
관련 출원에 대한 상호 참조
본 출원은 2018년 12월 14일자로 출원된 미국 가출원 특허 제62/779989호, 2019년 1월 18일자로 출원된 미국 가출원 특허 제62/794427호, 2019년 3월 15일자로 출원된 미국 가출원 특허 제62/819409호, 2019년 5월 24일자로 출원된 미국 가출원 특허 제62/852788호 및 2019년 10월 10일자로 출원된 제62/913492호의 유익을 주장하며, 이들 모두는 본 명세서에 이들의 전문이 참조에 의해 포함된다.
전자적으로 제출된 서열목록에 대한 참조
서열목록의 공식 사본은 2019년 12월 9일에 작성되고 용량이 714,386 바이트이며 본 명세서와 동시에 제출된 파일명 RTS21920B_SequenceListing_ST25.txt의 ASCII 형식의 서열목록으로서 EFS-웹을 통해 전자적으로 제출되었다. 이 ASCII 형식의 문서에 포함된 서열목록은 본 명세서의 일부이며, 그 전체가 본 명세서에 참조에 의해 포함된다.
기술분야
본 발명은 분자 생물학 분야, 특히 신규한 RNA-가이드 Cas 엔도뉴클레아제 시스템의 조성물, 및 세포 게놈을 편집 또는 변형하기 위한 조성물 및 방법에 관한 것이다.
재조합 DNA 기술은 표적화된 게놈 위치에서 DNA 서열을 삽입하고/하거나 특정한 내인성 염색체 서열을 변형할 수 있도록 하였다. 부위 특이적 재조합 시스템을 사용한 부위 특이적 통합 기법뿐만 아니라 다른 유형의 재조합 기술이 다양한 유기체에서 관심 대상 유전자의 표적화된 삽입을 생성하는 데 이용되어 왔다. 게놈 편집 기법, 예컨대, 설계자 아연 핑거 뉴클레아제(zinc finger nuclease: ZFN), 전사 활성인자(activator) 유사 효과기 뉴클레아제(TALEN), 또는 귀소(homing) 메가뉴클레아제가 표적화된 게놈 교란을 생성하는 데 이용 가능하지만, 이들 시스템은 특이성이 낮고 각각의 표적 부위에 대해 재설계될 필요가 있는 설계된 뉴클레아제를 사용하는 경향이 있어, 제조에 많은 비용과 시간이 소요된다.
다양한 활성(DNA 인식, 결합, 및 선택적으로 절단)을 포괄하는 효과기 단백질의 상이한 도메인을 포함하는 CRISPR(규칙적 간격으로 분포하는 회문구조의 짧은 반복부(Clustered Regularly Interspaced Short Palindromic Repeat))라고 지칭되는 고세균 또는 세균의 적응 면역 시스템을 활용하는 새로운 기술이 확인되었다.
이러한 시스템 중 일부의 확인 및 특성규명에도 불구하고, 내인성 폴리뉴클레오티드 및 이전에 도입된 이종성 폴리뉴클레오티드의 편집을 달성하기 위해, 진핵생물, 특히 동물 및 식물에서의 활성을 입증하고 새로운 효과기 및 시스템을 확인할 필요성은 남아 있다.
본 명세서에 신규한 Cas 엔도뉴클레아제, "Cas-알파", 예시적인 단백질, 및 이의 사용을 위한 방법 및 조성물이 기재된다.
본 명세서에 신규한 Cas 엔도뉴클레아제 조성물 및 이의 사용 방법이 개시된다. 신규한 부류의 Cas-알파의 이들 엔도뉴클레아제는, 원핵생물(이콜라이(E. coli)) 및 3가지 상이한 계의 진핵생물(식물, 동물 및 진균)에서 입증되는 바와 같이, PAM-의존적 방식으로 이중-가닥 DNA를 표적화 및 절단하기 위해 가이드 폴리뉴클레오티드에 의해 가이드될 수 있다.
일 양상에서, 적어도 하나의 아연-핑거-유사 도메인, 적어도 하나의 브리지-나선-유사 도메인, 삼중-분할 RuvC 도메인(비인접 RuvC-I 도메인, RuvC-II 도메인 및 RuvC-III 도메인을 포함함)을 포함하고, 선택적으로 이종성 폴리뉴클레오티드를 포함하는, CRISPR-Cas 엔도뉴클레아제를 포함하는 합성 조성물이 제공된다.
임의의 양상에서, 임의의 조성물 또는 방법에서, 진핵 세포, 특히 식물 세포, 진균 세포 또는 동물 세포에서의 발현을 위해 최적화된 적어도 하나의 성분이 제공된다.
일 양상에서, 하기로 이루어진 군으로부터 선택된 유기체로부터 유래된 CRISPR-Cas 효과기 단백질을 암호화하는 폴리뉴클레오티드를 포함하는 합성 조성물이 제공된다: 아시디바실러스 설푸록시단스(Acidibacillus sulfuroxidans), 알리사이클로바실러스 아시도테레스트리스(Alicyclobacillus acidoterrestris), 아네우리니바실러스 다니쿠스(Aneurinibacillus danicus), 고세균, 바실러스(Bacillus), 바실러스 세레우스(Bacillus cereus), 바실러스 메가테리움(Bacillus megaterium), 바실러스 슈도마이코이데스(Bacillus pseudomycoides), 바실러스 종(Bacillus sp.), 바실러스 튜링겐시스(Bacillus thuringiensis), 바실러스 토요엔시스(Bacillus toyonensis), 바실러스 위에드만니(Bacillus wiedmannii), 박테로이데스 플레베이우스(Bacteroides plebeius), 보스 타우루스(Bos taurus), 브레비바실러스 센트로스포루스(Brevibacillus centrosporus), 칸디다투스 아우레아박테리아 박테리움(Candidatus Aureabacteria bacterium), 칸디다투스 레비박테리아 박테리움(Candidatus Levybacteria bacterium), 칸디다투스 미크라르카에오타 고세균(Candidatus Micrarchaeota archaeon), 셀룰로실리티쿰 루미니콜라(Cellulosilyticum ruminicola), 클로스트리디오이데스 디피실(Clostridioides difficile), 클로스트리듐 보툴리눔(Clostridium botulinum), 클로스트리듐 팔락스(Clostridium fallax), 클루스트리듐 히라노니스(Clostridium hiranonis), 클루스트리듐 이후미(Clostridium ihumii), 클루스트리듐 노비(Clostridium novyi), 클루스트리듐 파라푸트리피쿰(Clostridium paraputrificum), 클루스트리듐 파스테우리아눔(Clostridium pasteurianum), 클루스트리듐 페르프링겐스(Clostridium perfringens), 클루스트리듐 종(Clostridium sp.), 클루스트리듐 테타니(Clostridium tetani), 클루스트리듐 벤트리쿨리(Clostridium ventriculi), 데설포비브리오 프럭토시보란스(Desulfovibrio fructosivorans), 도레아 롱기카테나(Dorea longicatena), 유박테리움 시라에움(Eubacterium siraeum), 플라보박테리움 써모필룸(Flavobacterium thermophilum), 갈러스 갈러스(Gallus gallus), D형 간염 바이러스(Hepatitis delta virus), 호모 사피엔스(Homo sapiens), 인간 베타헤르페스바이러스 5, 하이드로게니버가 종(Hydrogenivirga sp.), 무스 무스쿨러스(Mus musculus), 파라게오바실러스 써모글루코시다시우스(Parageobacillus thermoglucosidasius), 펩토클로스트리듐 종(Peptoclostridium sp.), 파스콜락토박테리움 종(Phascolarctobacterium sp.), 프레보텔라 코프리(Prevotella copri), 루미니클로스트리듐 훈가테이(Ruminiclostridium hungatei), 루미노코커스 알버스(Ruminococcus albus), 루미노코커스 종(Ruminococcus sp.), 사카로마이세스 세레비시애(Saccharomyces cerevisiae), 유인원 바이러스 40(Simian virus 40), 솔라눔 투베로섬(Solanum tuberosum), 설푸리하이드로게니비움 아조렌스(Sulfurihydrogenibium azorense), 신트로포모나스 팔미타티카(Syntrophomonas palmitatica), 담배 식각 바이러스(Tobacco etch virus) 및 제아 메이스(Zea mays); 및 이종성 폴리뉴클레오티드.
일 양상에서, 진핵 세포, 이종성 CRISPR-Cas 효과기를 포함하는 합성 조성물이 제공되되; 상기 이종성 CRISPR-Cas 효과기 단백질은 800개 미만, 790 내지 800개, 790개 미만, 780 내지 790개, 780개, 780 내지 770개, 770개 미만, 770 내지 760, 760개 미만, 760 내지 750개, 750개 미만, 750 내지 740개, 740개 미만, 740 내지 730개, 730개 미만, 730 내지 720개, 720개 미만, 720 내지 710개, 710개 미만, 710 내지 700개, 또는 심지어 700개 미만의 아미노산, 예컨대 700개 미만, 790개 미만, 780개 미만, 750개 미만, 700개 미만, 650개 미만, 600개 미만, 550개 미만, 500개 미만, 450개 미만, 400개 미만, 350개 미만, 또는 심지어 350개 미만의 아미노산을 포함한다.
일 양상에서, CRISPR-Cas 엔도뉴클레아제를 포함하는 합성 조성물이 제공되되, 상기 CRISPR-Cas 엔도뉴클레아제는 서열번호 17에 대해 정렬될 때, 서열번호 17의 아미노산 위치 번호에 대해, 337번 위치에서 글리신(G), 341번 위치에서 글리신(G), 430번 위치에서 글루탐산(E), 432번 위치에서 류신(L), 487번 위치에서 시스테인(C), 490번 위치에서 시스테인(C), 507번 위치에서 시스테인(C) 및/또는 512번 위치에서 시스테인(C) 또는 히스티딘(H) 중 적어도 1개, 적어도 2개, 적어도 3개, 적어도 4개, 적어도 5개, 적어도 6개 또는 7개를 포함한다.
일 양상에서, CRISPR-Cas 엔도뉴클레아제를 포함하는 합성 조성물이 제공되되, 상기 CRISPR-Cas 엔도뉴클레아제는 다음의 모티프 중 하나, 둘 또는 셋을 포함한다: GxxxG, ExL 및/또는 하나 이상의 Cxn(C,H)(여기서, n = 하나 이상의 아미노산).
일 양상에서, CRISPR-Cas 엔도뉴클레아제를 포함하는 합성 조성물이 제공되되, 상기 CRISPR-Cas 엔도뉴클레아제는 하나 이상의 아연 핑거 모티프를 포함한다.
일 양상에서, 서열번호 17, 18, 19, 20, 32, 33, 34, 35, 36, 37, 38, 254, 255, 256, 257, 258, 259, 260, 261, 262, 263, 264, 265, 266, 267, 268, 269, 270, 271, 272, 273, 274, 275, 276, 277, 278, 279, 280, 281, 282, 283, 284, 285, 286, 287, 288, 289, 290, 291, 292, 293, 294, 295, 296, 297, 298, 299, 300, 301, 302, 303, 304, 305, 306, 307, 308, 309, 310, 311, 312, 313, 314, 315, 316, 317, 318, 319, 320, 321, 322, 323, 324, 325, 326, 327, 328, 329, 330, 331, 332, 333, 334, 335, 336, 337, 338, 339, 340, 341, 342, 343, 344, 345, 346, 347, 348, 349, 350, 351, 352, 353, 354, 355, 356, 357, 358, 359, 360, 361, 362, 363, 364, 365, 366, 367, 368, 369, 370 및 371로 이루어진 군으로부터 선택되는 서열의 적어도 250개, 250 내지 300개, 적어도 300개, 300 내지 350개, 적어도 350개, 350 내지 400개, 적어도 400개, 또는 400개 초과의 인접한 아미노산과 적어도 50%, 50% 내지 55%, 적어도 55%, 55% 내지 60%, 적어도 60%, 60% 내지 65%, 적어도 65%, 65% 내지 70%, 적어도 70%, 70% 내지 75%, 적어도 75%, 75% 내지 80%, 적어도 80%, 80% 내지 85%, 적어도 85%, 85% 내지 90%, 적어도 90%, 90% 내지 95%, 적어도 95%, 95% 내지 96%, 적어도 96%, 96% 내지 97%, 적어도 97%, 97% 내지 98%, 적어도 98%, 98% 내지 99%, 적어도 99%, 99% 내지 100% 또는 100%의 서열 동일성을 공유하는 CRISPR-Cas 효과기 단백질을 포함하는 합성 조성물이 제공된다.
일 양상에서, 서열번호 17, 18, 19, 20, 32, 33, 34, 35, 36, 37, 38, 254, 255, 256, 257, 258, 259, 260, 261, 262, 263, 264, 265, 266, 267, 268, 269, 270, 271, 272, 273, 274, 275, 276, 277, 278, 279, 280, 281, 282, 283, 284, 285, 286, 287, 288, 289, 290, 291, 292, 293, 294, 295, 296, 297, 298, 299, 300, 301, 302, 303, 304, 305, 306, 307, 308, 309, 310, 311, 312, 313, 314, 315, 316, 317, 318, 319, 320, 321, 322, 323, 324, 325, 326, 327, 328, 329, 330, 331, 332, 333, 334, 335, 336, 337, 338, 339, 340, 341, 342, 343, 344, 345, 346, 347, 348, 349, 350, 351, 352, 353, 354, 355, 356, 357, 358, 359, 360, 361, 362, 363, 364, 365, 366, 367, 368, 369, 370 및 371로 이루어진 군으로부터 선택되는 폴리펩티드의 적어도 250개, 250 내지 500개, 적어도 500개, 500 내지 600개, 적어도 600개, 600 내지 700개, 적어도 700개, 700 내지 750개, 적어도 750개, 750 내지 800개, 적어도 800개, 800 내지 850개, 적어도 850개, 850 내지 900개, 적어도 900개, 900 내지 950개, 적어도 950개, 950 내지 1000개, 적어도 1000개, 또는 1000개 초과의 아미노산과 적어도 50%, 50% 내지 55%, 적어도 55%, 55% 내지 60%, 적어도 60%, 60% 내지 65%, 적어도 65%, 65% 내지 70%, 적어도 70%, 70% 내지 75%, 적어도 75%, 75% 내지 80%, 적어도 80%, 80% 내지 85%, 적어도 85%, 85% 내지 90%, 적어도 90%, 90% 내지 95%, 적어도 95%, 95% 내지 96%, 적어도 96%, 96% 내지 97%, 적어도 97%, 97% 내지 98%, 적어도 98%, 98% 내지 99%, 적어도 99%, 99% 내지 100%, 또는 100%의 서열 동일성을 공유하는 CRISPR-Cas 효과기 단백질을 암호화하는 폴리뉴클레오티드를 포함하는 합성 조성물이 제공된다.
일 양상에서, 서열번호 57, 58, 59, 64, 65, 66, 67, 68, 73, 74, 75, 76, 77, 102, 103, 104, 105, 177, 178, 179, 180, 181, 182, 185, 186, 187, 188, 189, 190, 191, 192, 193, 194, 195, 196, 197, 198, 204, 205, 206, 207, 208, 209, 210, 211, 212, 213, 214, 215, 216, 217, 218, 219, 220, 221, 222, 223, 224, 230, 231, 232, 233, 234, 238, 240, 241, 245, 246, 247, 248, 252 및 253으로 이루어진 군으로부터 선택되는 RNA 서열의 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30 또는 30개 초과의 인접한 뉴클레오티드와 적어도 50%, 50% 내지 55%, 적어도 55%, 55% 내지 60%, 적어도 60%, 60% 내지 65%, 적어도 65%, 65% 내지 70%, 적어도 70%, 70% 내지 75%, 적어도 75%, 75% 내지 80%, 적어도 80%, 80% 내지 85%, 적어도 85%, 85% 내지 90%, 적어도 90%, 90% 내지 95%, 적어도 95%, 95% 내지 96%, 적어도 96%, 96% 내지 97%, 적어도 97%, 97% 내지 98%, 적어도 98%, 98% 내지 99%, 적어도 99%, 99% 내지 100% 또는 100%의 서열 동일성을 공유하는 폴리뉴클레오티드와 혼성화할 수 있는 CRISPR-Cas 효과기 단백질을 암호화하는 폴리뉴클레오티드를 포함하는 합성 조성물이 제공된다.
본 명세서의 임의의 방법 또는 조성물은 이종성 폴리뉴클레오티드를 추가로 포함할 수 있다. 이종성 폴리뉴클레오티드는 비암호화 조절 발현 요소, 예컨대, 프로모터, 인트론, 인핸서 또는 종결자; 공여자 폴리뉴클레오티드; 세포에서 폴리뉴클레오티드의 서열에 비해 적어도 하나의 뉴클레오티드 변형을 선택적으로 포함하는 폴리뉴클레오티드 변형 주형; 이식유전자; 가이드 RNA; 가이드 DNA; 가이드 RNA-DNA 혼성체; 엔도뉴클레아제; 핵 국재화 신호; 및 세포 수송 펩티드로 이루어진 군으로부터 선택될 수 있다.
일 양상에서, 본 명세서에 개시된 임의의 조성물을 이용하는 방법이 제공된다. 일부 실시형태에서, 예를 들어, 세포 게놈에서 또는 시험관내에서, Cas-알파 엔도뉴클레아제가 폴리뉴클레오티드의 표적 서열에 결합하는 방법이 제공된다. 일부 실시형태에서, Cas-알파 엔도뉴클레아제는 가이드 폴리뉴클레오티드, 예를 들어, 가이드 RNA와 복합체를 형성한다. 일부 실시형태에서, 상기 복합체는 표적 서열에서 또는 표적 서열 근처에서 폴리뉴클레오티드에 틈(하나의 가닥) 또는 파손(두 가닥)을 인식하고, 이에 결합하고, 선택적으로 이들을 생성한다. 일부 실시형태에서, 틈 또는 파손은 비상동성 말단연결(Non-Ho㏖ogous End Joining: NHEJ)을 통해 수선된다. 일부 실시형태에서, 틈 또는 파손은 폴리뉴클레오티드 변형 주형 또는 공여자 DNA 분자를 이용하여 상동 직접 수선(Homology-Directed Repair: HDR)을 통해 또는 상동성 재조합(Homologous Recombination: HR)을 통해 수선된다.
본 명세서에 기재된 신규한 Cas 엔도뉴클레아제는 임의의 원핵 또는 진핵 세포에서, 적절한 PAM을 포함하는 표적 폴리뉴클레오티드에 또는 이에 인접하여, 그리고 가이드 폴리뉴클레오티드에 의해 지시되는 이중-가닥 파손을 생성할 수 있다. 일부 경우에, 세포는 식물 세포 또는 동물 세포 또는 진균 세포이다. 일부 경우에, 식물 세포는 메이즈(maize), 대두, 목화, 밀, 카놀라, 유채씨, 수수, 벼, 호밀, 보리, 조, 귀리, 사탕수수, 잔디풀, 스위치그래스, 알팔파, 해바라기, 담배, 땅콩, 감자, 담배, 애기장대, 잇꽃 및 토마토로 이루어진 군으로부터 선택된다.
도면 및 서열목록의 간단한 설명
본 발명은 본 출원의 일부를 구성하는 다음의 상세한 설명 및 첨부 도면 및 서열목록으로부터 더욱 완전하게 이해될 수 있다.
도 1a 내지 도 1d는 획득 및 간섭에 필요한 성분을 모두 포함하는 온전한 CRISPR-Cas 시스템을 도시한다. 이들은 CRISPR 어레이에 인접한 오페론-유사 구조에 획득 및 통합 스페이서(Cas1 및 Cas2)에 필요한 모든 단백질 및 DNA 절단 도메인인 Cas-알파(α)를 포함하는 신규한 단백질을 함께 암호화하는 유전자를 포함하였다. 추가적으로, Cas4에 대해 상동성을 갖는 단백질을 암호화하는 유전자는 또한 좌위에서 암호화되었다. 도 1a는 Cas-알파 1, Cas-알파 3 및 Cas-알파 4 시스템에 대한 좌위 구조를 도시한다. 도 1b는 Cas-알파2 시스템에 대한 좌위 구조를 도시한다. 도 1c는 Cas-알파 6 시스템에 대한 좌위 구조를 도시한다. 도 1d는 Cas-알파 5, 7, 8, 9, 10 및 11 시스템에 대한 좌위 구조를 도시한다.
도 2는 앞서 기재된 클래스 2 엔도뉴클레아제와 뚜렷한 차이를 도시하는 Cas-알파 단백질의 상세한 구조적 예시를 나타낸다. 보존된 잔기를 나타낸다. DNA 절단에 관련된 중요한 잔기는 별표로 나타낸다. 숫자는 Cas-알파 1 단백질에 대응한다.
도 3은 Cas-알파 엔도뉴클레아제를 발현시키는 세포 용해물을 이용하는, 이중 가닥 DNA 표적 인식 및 절단의 검출 방법을 도시한다.
도 4a 내지 도 4e는 뉴클레오티드 위치 21에서 Cas-알파 1 엔도뉴클레아제에 의한 표적 폴리뉴클레오티드의 절단을 나타낸다. 도 4a는 Cas-알파 1 음성 대조군에 대한 데이터를 나타내고, 도 4b는 CRISPR 어레이가 표적 폴리뉴클레오티드에서 절단을 지시하도록 변형된 전체(완전한) CRISPR 좌위를 이용하여 Cas-알파 1에 대한 데이터를 나타내며, 도 4c는 T7 프로모터를 이용하여 발현이 향상될 때 더한 Cas-알파 1 완전 좌위에 대한 데이터를 나타내고, 도 4d는 T7 프로모터를 이용하여 발현이 향상될 때 Cas-알파 1 최소 좌위에 대한 데이터를 나타내며, 도 4e는 발현이 T7 프로모터에 의해 향상될 때, Cas-알파 1은 없지만 CRISPR 좌위의 나머지가 있는 반응에 대한 데이터를 나타낸다.
도 5a 내지 도 5b는 스페이서 인식에 대한 PAM 인식 배향을 결정하기 위한 도식을 도시하며, 가이드 RNA(들)는 T2 표적의 센스 또는 안티센스 가닥 중 하나를 갖는 염기쌍에 대해 설계하였다. 센스 가닥을 갖는 염기쌍에 대해 설계된 가이드 RNA(들)가 PAM 선호도의 회복을 초래하고 절단 신호를 수득한다면, 프로토스페이서는 안티-센스 가닥 상에 있고, PAM 인식은 이에 대해 3'에서 일어난다(도 5a). 대조적으로, 안티-센스 가닥과의 염기쌍에 대해 설계된 가이드 RNA(들)가 PAM 선호도 및 절단 신호를 생성한다면, 프로토스페이서는 센스 가닥 상에 있고, PAM 인식은 이에 대해 배향 5'에서 일어난다(도 5b).
도 6a 내지 도 6e는 뉴클레오티드 24번 위치에서 Cas-알파 4 엔도뉴클레아제에 의한 표적 폴리뉴클레오티드의 절단을 나타낸다. 도 6a는 Cas-알파 4 음성 대조군에 대한 데이터를 나타낸다. 도 6b는 Cas-알파 4 플러스 T2-1 sgRNA에 대한 데이터를 나타낸다. 도 6c는 Cas-알파 4 플러스 T2-2 sgRNA에 대한 데이터를 나타낸다. 도 6d는 Cas-알파 4 플러스 T2-1 crRNA/tracrRNA에 대한 데이터를 나타낸다. 도 6e는 Cas-알파 4 플러스 T2-2 crRNA/tracrRNA에 대한 데이터를 나타낸다.
도 7a 내지 도 7k는 대표적인 Cas-알파 좌위, 엔도뉴클레아제, 단백질, 가이드 RNA 성분, 및 하기를 포함하는 다양한 박테리아 및 고박테리아(archaebacterial) 유기체로부터 확인된 기타 서열을 나타낸다: 칸디다투스 미크라르카에오타 고세균(도 7a, 도 7b, 도 7e), 칸디다투스 아우레아박테리아 박테리움(도 7c), 다양한 비배양 박테리아(도 7d, 도 7f), 파라게오바실러스 써모글루코시다시우스(도 7g), 아시디바실러스 설푸록시단스(도 7h), 루미노코커스 종(도 7i), 신트로포모나스 팔미타티카(도 7j), 및 클루스트리듐 노비(도 7k).
도 8a 내지 도 8k는 대표적인 Cas-알파 단백질에서 뚜렷한 구조적 특징을 나타내며, 단백질 서열은 볼드체이다. 각 아미노산 잔기 아래의 비-볼드체 특징은 가능한 2차 구조 특징을 나타내며, C는 비구조적 요소 또는 나선을 나타내고, E는 베타 가닥을 나타내며, H는 알파 나선을 나타낸다. 아연 핑거 도메인은 파선 박스로 도시되고, 별표는 아연 이온 결합에 관련된 중요한 아미노산 잔기를 나타낸다. 분할 RuvC 도메인의 RuvC 서브도메인은 실선 박스로 도시된다. 브리지 나선은 점선 박스로 도시된다. 또꼬인나선은 실선 원통으로 도시된다. 실선에 부호를 더한 것은 RuvC 도메인 모티프의 특징인 중요한 촉매적 잔기를 나타낸다. 도 8a는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1을 도시하고(서열번호 17), 도 8b는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2를 도시하고(서열번호 18), 도 8c는 칸디다투스 아우레아박테리아 박테리움으로부터의 Cas-알파 3을 도시하고(서열번호 19), 도 8d는 비배양 박테리아로부터의 Cas-알파 4(서열번호 20)를 도시하며, 도 8e는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 5를 도시하고(서열번호 32), 도 8f는 비배양 박테리아로부터의 Cas-알파 6(서열번호 33)을 도시하며, 도 8g는 파라게오바실러스 써모글루코시다시우스로부터의 Cas-알파 7(서열번호 34)을 도시하고, 도 8h는 아시디바실러스 설푸록시단스로부터의 Cas-알파 8(서열번호 35)을 도시하고, 도 8i는 루미노코커스 종(Ruminococus sp.)으로부터의 Cas-알파 9(서열번호 36)를 도시하고, 도 8j는 3개의 아연 핑거 도메인의 독특한 모티프를 특징으로 하는 신트로포모나스 팔미타티카로부터의 Cas-알파10(서열번호 37)을 도시하며, 도 8k는 클루스트리듐 노비로부터의 Cas-알파 11(서열번호 38)을 도시한다. Cas-알파 11을 포함하는 유기체의 전체 게놈 서열분석은 Cas-알파 좌위가 해당 유기체에서의 유일한 CRISPR 시스템이라는 것을 나타내었다.
도 9a는 Cas-알파 단백질 서브유닛이 표적 DNA와 가이드 RNA의 혼성 이중가닥과 상호작용하는 방법을 도시한다. 도 9b는 Cas 단백질, RuvC 도메인, 및 아연 핑거 모티프에 공통인 나선 헤어핀/브리지 나선 영역으로서 표시된 영역을 나타내는, Cas-알파 4의 C-말단 절반의 3차원 모델이다.
도 10a 내지 도 10d는 진핵 세포에서의 Cas-알파 엔도뉴클레아제의 사용을 위한 예시적 발현 작제물을 도시한다. 도 10a는 인간 세포 Cas-알파 DNA 발현 작제물의 예이다. 도 10b는 식물 세포 Cas-알파 DNA 발현 작제물의 예이다. 도 10c는 효모(사카로마이세스 세레비시애) Cas-알파 DNA 발현 작제물의 예이다. 도 10d는 유도성 효모(사카로마이세스 세레비시애) Cas-알파 DNA 발현 작제물의 예이다.
도 11a 내지 도 11d는 진핵생물 최적화된 Cas-알파 가이드 RNA 발현 작제물의 예를 도시한다. 도 11a는 인간 세포 단일 가이드 RNA(sgRNA) DNA 발현 작제물의 예이다. 도 11b는 식물 세포 단일 가이드 RNA(sgRNA) DNA 발현 작제물의 예이다. 도 11c는 효모(사카로마이세스 세레비시애) 단일 가이드 RNA(sgRNA) DNA 발현 작제물의 예이다. 도 11d는 식물 세포 단일 가이드 RNA(sgRNA) DNA 발현 작제물의 다른 예이다.
도 12는 이콜라이에서 Cas-알파 엔도뉴클레아제의 재조합 발현 및 정제를 위한 조작된 유전자의 예를 도시한다.
도 13은 Cas-알파 엔도뉴클레아제 활성으로부터의 식물 세포에서의 이중 가닥 파손 수선 돌연변이를 나타낸다. 제아 메이스에서의 Cas-알파 4로부터 초래되는 돌연변이가 도시된다. WT 참조는 서열번호 120이고, 돌연변이 1은 서열번호 121이며, 돌연변이 2는 서열번호 122이고, 돌연변이 3은 서열번호 123이고, 돌연변이 4는 서열번호 124이다.
도 14a 내지 도 14b는 Cas-알파 엔도뉴클레아제 활성으로부터의 동물 세포에서의 이중 가닥 파손 수선 돌연변이를 나타낸다. 도 14a는 Cas-알파4 RNP 전기천공법으로부터 초래된 삽입결실 돌연변이(WT 참조 서열번호 126에 비교하여 서열번호 127 내지 131로서 주어진 VEGFA 표적 2 돌연변이 1 내지 5; VEGFA 표적 3(WT 참조 서열번호 132에 비교하여 서열번호 133로서 주어진 돌연변이)를 도시한다. 도 14b는 Cas-알파4 및 sgRNA DNA 발현 카세트 리포펙션으로부터 초래된 삽입결실 돌연변이 VEGFA 표적 3(WT 참조 서열번호 132에 비교하여 서열번호 134-135로서 주어지는 돌연변이 1 및 2)을 도시한다.
도 15a 내지 도 15d는 Cas-알파4 이중-가닥 DNA 표적 절단을 나타낸다. 도 15a는 PAM(5'-TTTR-3', 여기서 R은 A 또는 G bp를 나타냄)의 바로 3'에 가이드 RNA 표적(대략 20 bp)을 포함하는 수퍼코일(SC) 플라스미드 DNA가 선형 형태(FLL)로 완전히 전환되고, 따라서, dsDNA 파손의 형성을 도시한다는 것을 나타낸다. 추가적으로, 선형 DNA의 절단은 Cas-알파 4 매개 dsDNA 파손 형성을 추가로 입증하는 예상된 크기의 DNA 단편을 초래하였다. 도 15b는 dsDNA 표적을 절단하기 위해 Cas-알파 4가 PAM 및 가이드 RNA를 필요로 한다는 것을 나타낸다. 도 15c는 Cas-알파 4가 5' 엇갈린 돌출부(staggered overhanging) DNA 절단 부위를 생성하며, 절단은 PAM 서열에 대해 주로 20 내지 24 bp 위치 주변에 집중되어 일어난다는 것을 나타낸다. 도 15d는 가이드 RNA의 존재 하에서만 dsDNA에 의해 활성화된 Cas-알파 4의 트랜스-작용성 ssDNase 활성을 나타낸다.
도 16a 내지 도 16t는 Cas-알파 5를 제외하고 모든 Cas-알파 엔도뉴클레아제에 대한 이중 가닥 DNA 표적 절단 활성을 나타낸다. 도 16a는 음성 대조군(-IPTG)이다. 도 16b는 음성 대조군(+ IPTG)이다. 도 16c는 프로토스페이서 21번 위치에서 Cas-알파 2(-IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16d는 프로토스페이서 21번 위치에서 Cas-알파2(+IPTG)에 의한 이중-가닥 DNA 표적의 절단을 나타낸다. 도 16e는 Cas-알파 3(-IPTG)에 의한 이중가닥 DNA 표적의 절단 없음을 나타낸다. 도 16f는 프로토스페이서 21번 위치에서 Cas-알파 3(+IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16g는 Cas-알파 5(-IPTG)에 의한 이중가닥 DNA 표적의 절단 없음을 나타낸다. 도 16h는 Cas-알파 5(-IPTG)에 의한 이중가닥 DNA 표적의 절단 없음을 나타낸다. 도 16i는 Cas-알파 6(-IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16j는 프로토스페이서 24번 위치에서 Cas-알파 6(+IPTG)에 의한 이중가닥 DNA 표적의 절단 없음을 나타낸다. 도 16K는 프로토스페이서 24번 위치에서 Cas-알파 7(-IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16l은 프로토스페이서 24번 위치에서 Cas-알파 7(+IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16m은 Cas-알파8(-IPTG)에 의한 이중-가닥 DNA 표적의 절단 없음을 나타낸다. 도 16n은 프로토스페이서 24번 위치에서 Cas-알파 8(+IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16o는 프로토스페이서 24번 위치에서 Cas-알파 9(-IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16p는 프로토스페이서 24번 위치에서 Cas-알파9(+IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16q는 프로토스페이서 24번 위치에서 Cas-알파 10(-IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16r은 프로토스페이서 24번 위치에서 Cas-알파 10(+IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16s는 프로토스페이서 24번 위치에서 Cas-알파 11(-IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16t는 프로토스페이서 24번 위치에서 Cas-알파 11(+IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다.
도 17a는 이콜라이 세포에서 Cas-알파 이중가닥 DNA 표적 절단을 평가하는 한 가지 방법을 도시한다. 도 17b 내지 도 17e는 이콜라이에서 이중가닥 DNA 표적 절단을 나타낸다. "표적 없음" 실험은 이중가닥 DNA 표적 절단의 부재 하에 형질전환 효율에 대한 기준을 제공한다. "표적" 실험인 PAM + T2를 상이한 Cas-알파 엔도뉴클레아제 및 가이드 RNA 발현 조건 하에 표적 절단을 시험하기 위해 IPTG(0.5 mM)를 이용하여 그리고 IPTG 없이 수행하였다. 도 17b는 Cas-알파 2 및 Cas-알파 3에 대한 결과를 나타낸다. 도 17c는 Cas-알파 6 및 Cas-알파 7에 대한 결과를 나타낸다. 도 17d는 Cas-알파 8 및 Cas-알파 9에 대한 결과를 나타낸다. 도 17e는 Cas-알파 10 및 Cas-알파 11에 대한 결과를 나타낸다.
도 18a 내지 도 18b는 제아 메이스 미숙 배아에 Cas-알파 10 DNA 발현 작제를 전달하는 유전자총 실험을 위한 Cas-알파 엔도뉴클레아제 활성으로부터의 식물 세포에서의 이중가닥 파손 수선 돌연변이를 도시한다. 도 18a는 nptII 표적 부위에 대해 뉴클레아제 절단 부위에서 또는 근처에서 생성된 표적화된 결실의 회복을 나타낸다. 도 18b는 ms26 표적 부위에 대해 뉴클레아제 절단 부위에서 또는 근처에서 생성된 표적화된 결실의 회복을 나타낸다.
도 19a는 진핵 세포, 사카로마이세스 세레비시애(Saccaromyces cerevisiae)에서의 상동 직접 수선을 위한 실험 설계를 도시한다. Cas-알파 10 표적 부위에 측접하는 상동성을 갖는 외인성으로 공급된 DNA 수선 주형(이중가닥)을 사용하여 Cas-알파 10 유도 이중 가닥 파손(double strand break: DSB) 후 ade2 유전자에 (DNA 수선 결과에 따라서) 1 또는 2개의 조기 중단 코돈을 도입하였다. 수선 주형의 표적화를 피하기 위해, 또한 Cas-알파 10에 대한 PAM 영역에서 T의 A로의 변화를 포함하였다. 도 19b는 수선 주형과 Cas-알파 10 및 sgRNA 발현 작제물이 모두 형질전환될 때 ade2 유전자 붕괴를 나타내는 적색 세포 표현형이 형질전환되고, Cas-알파 엔도뉴클레아제에 의해 이중 가닥 파손이 생성되고 주형(HDR)으로 수선된다는 것을 나타낸다. 도 19c는 3개의 독립적 적색 콜로니("1", "2" 및 "3"으로 표지)에서 적어도 하나의 정지 코돈의 도입을 확인하는 Cas-알파10 ade2 유전자 표적 부위의 서열분석 결과를 나타낸다. 안티센스 프레임에 정지 코돈이 도입되었다. 서열번호 170 사카로마이세스 세레비시애로부터의 참조 DNA 서열은 서열번호 170으로서 주어지고, 수선 주형 DNA는 서열번호 171이며, 적색 콜로니 1 수선 결과 1은 서열번호 172이고, 적색 콜로니 1 수선 결과 2는 서열번호 173이며, 적색 콜로니 2 수선 결과 1은 서열번호 174이고, 적색 콜로니 3 수선 결과 1은 서열번호 175이며, 적색 콜로니 3 수선 결과 2는 서열번호 176이다.
도 20은 일부 Cas-알파 오솔로그 중의 계통발생 관계를 나타낸다. 3가지 하위 그룹이 확인되었다(I, II 및 III). 그룹 I은 계통군 1(칸디데이트 아르케아(Candidate Archaea) 및 아우레아박테리아(Aureabacteria)(Cas1, Cas2, Cas4가 전형적으로 좌위에서 암호화됨))을 포함하였다. 그룹 II는 계통군 2(산수균문(Aquificae)(설퍼리하이드로제니비움(Sulfurihydrogenibium) 및 하이드로게니비르가(Hydrogenivirga) 속) 및 델타프로테오박테리아(Deltaproteobacteria)(데설포비브리오(Desulfovibrio) 속)), 계통군 3(칸디데이트 아르케아(전형적으로 좌위에서 암호화된 Cas1, Cas2 및 Cas4)), 계통군 4(박테로이데테스(Bacteroidetes)(프레보텔라(Prevotella) 및 박테로이데스(Bacteroides) 속)), 계통군 5(칸디데이트 레비박테리움(Candidate Levybacterium)) 및 계통군 6(클로스트리디아(Clostridia)(도레아(Dorea), 루미노코커스(Ruminococcus), 클로스트리듐(Clostridium), 클로스트리디오이데스(Clostridioides), 펩토콜스트리디움(Peptocolstridium), 셀룰로실리티쿰(Cellulosilyticym), 유박테리움(Eubacterium), 신트로포모나스(Syntrophomonas) 속))을 포함하였다. 그룹 III은 계통군 7(바실리(Bacilli)(바실러스(Bacillus), 아시디바실러스(Acidibacillus), 아뉴리니바실러스(Aneurinibacillus), 브레비바실러스(Brevibacillus), 파라게오바실러스(Parageobacillus), 알리사이클로바실러스(Alicyclobacillus) 속)), 계통군 8(네가티비쿠테스(Negativicutes)(파스콜락토박테리움(Phascolarctobacterium) 속)) 및 계통군 9(플라보박테리아(Flavobacteriia)(플라보박테리움(Flavobacterium) 속))을 포함하였다. 다이아몬드 기호는 본 명세서에 기재된 Cas-알파 1 내지 11 엔도뉴클레아제를 나타낸다.
도 21a는 트랜스포사제(Tnp) 관련 Cas-알파 CRISPR 시스템을 도시한다. 예 둘 다에서, Tnp-유사 단백질은 Cas-알파 엔도뉴클레아제 및 CRISPR 어레이 상류에서 암호화된다. 도 21b는 Cas-알파 이중가닥 DNA 표적 부위 내의 또는 근처의 DNA 페이로드(파선의 원)를 통합하도록 제기된 Tnp-유사 단백질 및 표적 부위와 복합체화된 Cas-알파 엔도뉴클레아제 및 가이드 RNA를 나타낸다.
본 명세서에 첨부된 서열 설명 및 서열목록은 37 C.F.R. §§1.821 및 1.825에 명시된 바와 같이 특허 출원에서 뉴클레오티드 및 아미노산 서열 공개를 규율하는 규칙을 따른다. 서열 설명은 본 명세서에 참조로 포함되는 37 C.F.R. §§ 1.821 및 1.825에 정의된 바와 같은 아미노산에 대한 3글자 암호를 포함한다.
서열번호 1은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 좌위 PRT 서열에서 암호화된 Cas1이다.
서열번호 2는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 좌위 PRT 서열에서 암호화된 Cas1이다.
서열번호 3은 칸디다투스 아우레아박테리아 박테리움으로부터의 Cas-알파 3 좌위 PRT 서열에서 암호화된 Cas1이다.
서열번호 4는 비배양 고세균으로부터의 Cas-알파 4 좌위 PRT 서열에서 암호화된 Cas1이다.
서열번호 5는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 좌위 PRT 서열에서 암호화된 Cas2이다.
서열번호 6은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 좌위 PRT 서열에서 암호화된 Cas2이다.
서열번호 7은 칸디다투스 칸디다투스 아우레아박테리아 박테리움으로부터의 Cas-알파 3 좌위 PRT 서열에서 암호화된 Cas2이다.
서열번호 8은 비배양 고세균으로부터의 Cas-알파 4 좌위 PRT 서열에서 암호화된 Cas2이다.
서열번호 9는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 좌위 PRT 서열에서 암호화된 Cas4이다.
서열번호 10은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 좌위 PRT 서열에서 암호화된 Cas4이다.
서열번호 11은 칸디다투스 아우레아박테리아 박테리움으로부터의 Cas-알파 3 좌위 PRT 서열에서 암호화된 Cas4이다.
서열번호 12는 비배양 고세균으로부터의 Cas-알파 4 좌위 PRT 서열에서 암호화된 Cas4이다.
서열번호 13은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 14는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 15는 칸디다투스 아우레아박테리아 박테리움으로부터의 Cas-알파 3 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 16은 비배양 고세균으로부터의 Cas-알파 4 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 17은 칸디다투스 미크라르카에오타 고세균 Cas-알파 1 엔도뉴클레아제(Cas14b4) PRT 서열이다.
서열번호 18은 칸디다투스 미크라르카에오타 고세균로부터의 Cas-알파 2 엔도뉴클레아제 PRT 서열이다.
서열번호 19는 칸디다투스 아우레아박테리아 박테리움으로부터의 Cas-알파 3 엔도뉴클레아제 PRT 서열이다.
서열번호 20은 비배양 고세균으로부터의 Cas-알파 4 엔도뉴클레아제(Cas14a1) PRT 서열이다.
서열번호 21은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 좌위 DNA 서열이다.
서열번호 22는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 좌위 DNA 서열이다.
서열번호 23은 칸디다투스 아우레아박테리아 박테리움으로부터의 Cas-알파 3 좌위 DNA 서열이다.
서열번호 24는 비배양 고세균으로부터의 Cas-알파 4 좌위 DNA 서열이다.
서열번호 25는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 5 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 26은 비배양 고세균으로부터의 Cas-알파 6 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 27은 파라게오바실러스 써모글루코시다시우스로부터의 Cas-알파 7 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 28은 아시디바실러스 설푸록시단스로부터의 Cas-알파 8 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 29는 루미노코커스 종으로부터의 Cas-알파 9 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 30은 신트로포모나스 팔미타티카로부터의 Cas-알파 10 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 31은 클루스트리듐 노비로부터의 Cas-알파 11 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 32는 칸디다투스 미크라르카에오타 고세균로부터의 Cas-알파 5 엔도뉴클레아제 PRT 서열이다.
서열번호 33은 비배양 고세균으로부터의 Cas-알파 6 엔도뉴클레아제 PRT 서열이다.
서열번호 34는 파라게오바실러스 써모글루코시다시우스로부터의 Cas-알파 7 엔도뉴클레아제 PRT 서열이다.
서열번호 35는 아시디바실러스 설푸록시단스로부터의 Cas-알파 8 엔도뉴클레아제 PRT 서열이다.
서열번호 36은 루미노코커스 종으로부터의 Cas-알파 9 엔도뉴클레아제 PRT 서열이다.
서열번호 37은 신트로포모나스 팔미타티카로부터의 Cas-알파 10 엔도뉴클레아제 PRT 서열이다.
서열번호 38은 클루스트리듐 노비로부터의 Cas-알파 11 엔도뉴클레아제 PRT 서열이다.
서열번호 39는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 5 좌위 DNA 서열이다.
서열번호 40은 비배양 고세균으로부터의 Cas-알파 6 좌위 DNA 서열이다.
서열번호 41은 파라게오바실러스 써모글루코시다시우스로부터의 Cas-알파 7 좌위 DNA 서열이다.
서열번호 42는 아시디바실러스 설푸록시단스로부터의 Cas-알파 8 좌위 DNA 서열이다.
서열번호 43은 루미노코커스 종으로부터의 Cas-알파 9 좌위 DNA 서열이다.
서열번호 44는 신트로포모나스 팔미타티카로부터의 Cas-알파 10 좌위 DNA 서열이다.
서열번호 45는 클루스트리듐 노비로부터의 Cas-알파 11 좌위 DNA 서열이다.
서열번호 46은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 반복부 공통 DNA 서열이다.
서열번호 47은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 반복부 공통 DNA 서열이다.
서열번호 48은 칸디다투스 아우레아박테리아 박테리움으로부터의 Cas-알파 3 반복부 공통 DNA 서열이다.
서열번호 49는 비배양 고세균으로부터의 Cas-알파 4 반복부 공통 DNA 서열이다.
서열번호 50은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 5 반복부 공통 DNA 서열이다.
서열번호 51은 비배양 고세균으로부터의 Cas-알파 6 반복부 공통 DNA 서열이다.
서열번호 52는 파라게오바실러스 써모글루코시다시우스로부터의 Cas-알파 7 반복부 공통 DNA 서열이다.
서열번호 53은 아시디바실러스 설푸록시단스로부터의 Cas-알파 8 반복부 공통 DNA 서열이다.
서열번호 54는 루미노코커스 종으로부터의 Cas-알파 9 반복부 공통 DNA 서열이다.
서열번호 55는 신트로포모나스 팔미타티카로부터의 Cas-알파 10 반복부 공통 DNA 서열이다.
서열번호 56는 클루스트리듐 노비로부터의 Cas-알파 11 반복부 공통 DNA 서열이다.
서열번호 57은 인공(Artificial)으로부터의 Cas-알파 1 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 58은 인공으로부터의 Cas-알파 2 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 59는 인공으로부터의 Cas-알파 4 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 60은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 tracrRNA 형태 1 RNA 서열이다.
서열번호 61은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 tracrRNA 형태 2 RNA 서열이다.
서열번호 62는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 tracrRNA 형태 3 RNA 서열이다.
서열번호 63은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 tracrRNA 형태 4 RNA 서열이다.
서열번호 64는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 tracrRNA 형태 1 RNA 서열이다.
서열번호 65는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 tracrRNA 형태 2 RNA 서열이다.
서열번호 66은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 tracrRNA 형태 3 RNA 서열이다.
서열번호 67은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 tracrRNA 형태 4 RNA 서열이다.
서열번호 68은 비배양 고세균으로부터의 Cas-알파 4 tracrRNA 형태 1 RNA 서열이다.
서열번호 69는 인공으로부터의 Cas-알파 1 sgRNA 형태 1 RNA 서열이다.
서열번호 70은 인공으로부터의 Cas-알파 1 sgRNA 형태 2 RNA 서열이다.
서열번호 71은 인공으로부터의 Cas-알파 1 sgRNA 형태 3 RNA 서열이다.
서열번호 72는 인공으로부터의 Cas-알파 1 sgRNA 형태 4 RNA 서열이다.
서열번호 73은 인공으로부터의 Cas-알파 2 sgRNA 형태 1 RNA 서열이다.
서열번호 74는 인공으로부터의 Cas-알파 2 sgRNA 형태 2 RNA 서열이다.
서열번호 75는 인공으로부터의 Cas-알파 2 sgRNA 형태 3 RNA 서열이다.
서열번호 76은 인공으로부터의 Cas-알파 2 sgRNA 형태 4 RNA 서열이다.
서열번호 77은 인공으로부터의 Cas-알파 4 sgRNA 형태 1 RNA 서열이다.
서열번호 78은 인공으로부터의 T2 스페이서 DNA 서열이다.
서열번호 79는 인공으로부터의 T2 DNA 서열을 표적화하도록 조작된 완전한 Cas-알파 1 좌위이다.
서열번호 80은 인공으로부터의 T2 DNA 서열을 표적화하도록 조작된 최소 Cas-알파 1 좌위이다.
서열번호 81은 인공으로부터의 10× 히스티딘 태그 PRT 서열이다.
서열번호 82는 인공으로부터의 6× 히스티딘 태그 PRT 서열이다.
서열번호 83은 말토스 결합 단백질 태그 PRT 서열이다.
서열번호 84는 담배 식각 바이러스로부터의 담배 식각 바이러스 절단 부위 PRT 서열이다.
서열번호 85는 인공으로부터의 A1 올리고뉴클레오티드 DNA 서열이다.
서열번호 86은 인공으로부터의 A2 올리고뉴클레오티드 DNA 서열이다.
서열번호 87은 인공으로부터의 R0 올리고뉴클레오티드 DNA 서열이다.
서열번호 88은 인공으로부터의 C0 올리고뉴클레오티드 DNA 서열이다.
서열번호 89는 인공으로부터의 F1 올리고뉴클레오티드 DNA 서열이다.
서열번호 90은 인공으로부터의 R1 올리고뉴클레오티드 DNA 서열이다.
서열번호 91은 인공으로부터의 F1 올리고뉴클레오티드 DNA 서열의 브리지 증폭 부분이다.
서열번호 92는 인공으로부터의 R1 올리고뉴클레오티드 DNA 서열의 브리지 증폭 부분이다.
서열번호 93은 인공으로부터의 F2 올리고뉴클레오티드 DNA 서열이다.
서열번호 94는 인공으로부터의 R2 올리고뉴클레오티드 DNA 서열이다.
서열번호 95는 인공으로부터의 C1 올리고뉴클레오티드 DNA 서열이다.
서열번호 96은 인공으로부터의 표적 DNA 서열의 21번 위치에서의 절단 및 어댑터 결찰로부터 초래된 서열이다.
서열번호 97은 인공으로부터의 서열번호 96 DNA 서열의 어댑터 부분이다.
서열번호 98은 인공으로부터의 서열번호 96 DNA 서열의 표적 부분이다.
서열번호 99는 인공으로부터의 PAM DNA 서열의 서열 5'이다.
서열번호 100은 인공으로부터의 고정된 이중가닥 DNA 표적 DNA 서열이다.
서열번호 101은 인공으로부터의 T2 표적 서열 DNA 서열이다.
서열번호 102는 인공으로부터의 Cas-알파 4 T2-1 sgRNA RNA 서열이다.
서열번호 103은 인공으로부터의 Cas-알파 4 T2-2 sgRNA RNA 서열이다.
서열번호 104는 인공으로부터의 Cas-알파 4 T2-1 crRNA RNA 서열이다.
서열번호 105는 인공으로부터의 Cas-알파 4 T2-2 crRNA RNA 서열이다.
서열번호 106은 솔라눔 투베로섬으로부터의 ST-LS1 인트론 2 DNA 서열이다.
서열번호 107은 유인원 바이러스 40으로부터의 SV40 NLS PRT 서열이다.
서열번호 108은 무스 무스쿨러스로부터의 Nuc NLS PRT 서열이다.
서열번호 109는 제아 메이스로부터의 메이즈 UBI 프로모터 DNA 서열이다.
서열번호 110은 적색야계로부터의 닭 베타-액틴 프로모터 DNA 서열이다.
서열번호 111은 인간 베타-헤르페스바이러스 5로부터의 CMV 인핸서 DNA 서열이다.
서열번호 112는 제아 메이스로부터의 메이즈 UBI 5 프라임 비번역 영역 DNA 서열이다.
서열번호 113은 제아 메이스로부터의 메이즈 UBI 인트론 1 DNA 서열이다.
서열번호 114는 인공으로부터의 혼성 인트론 DNA 서열이다.
서열번호 115는 제아 메이스로부터의 메이즈 U6 중합효소 III 프로모터 DNA 서열이다.
서열번호 116은 호모 사피엔스로부터의 인간 U6 중합효소 III 프로모터 DNA 서열이다.
서열번호 117은 인공으로부터의 Strep II 태그 PRT 서열이다.
서열번호 118은 보스 타우루스로부터의 bGH 폴리(A) 종결자 DNA 서열이다.
서열번호 119는 솔라눔 투베로섬으로부터의 감자 프로테이나제 저해제 II(Pin II) 종결자 DNA 서열이다.
서열번호 120은 제아 메이스로부터의 제아 메이스 Wt 참조(Liguleless 표적 2 및 3) DNA 서열이다.
서열번호 121은 제아 메이스로부터의 돌연변이 1(Liguleless 표적 2 및 3-DNA Exp.) DNA 서열이다.
서열번호 122는 제아 메이스로부터의 돌연변이 2(Liguleless 표적 2 및 3-DNA Exp.) DNA 서열이다.
서열번호 123은 제아 메이스로부터의 돌연변이 3(Liguleless 표적 2 및 3-DNA Exp.) DNA 서열이다.
서열번호 124는 제아 메이스로부터의 돌연변이 4(Liguleless 표적 2 및 3-DNA Exp.) DNA 서열이다.
서열번호 125는 제아 메이스로부터의 돌연변이 5(Liguleless 표적 2 및 3-DNA Exp.) DNA 서열이다.
서열번호 126은 호모 사피엔스로부터의 HEK293 Wt 참조(VEGFA 표적 2) DNA 서열이다.
서열번호 127은 호모 사피엔스로부터의 돌연변이 1(VEGFA 표적 2-RNP) DNA 서열이다.
서열번호 128은 호모 사피엔스로부터의 돌연변이 2(VEGFA 표적 2-RNP) DNA 서열이다.
서열번호 129는 호모 사피엔스로부터의 돌연변이 3(VEGFA 표적 2-RNP) DNA 서열이다.
서열번호 130은 호모 사피엔스로부터의 돌연변이 4(VEGFA 표적 2-RNP) DNA 서열이다.
서열번호 131은 호모 사피엔스로부터의 돌연변이 5(VEGFA 표적 2-RNP) DNA 서열이다.
서열번호 132는 호모 사피엔스로부터의 HEK293 Wt 참조(VEGFA 표적 3) DNA 서열이다.
서열번호 133은 호모 사피엔스로부터의 돌연변이 1(VEGFA 표적 3-RNP) DNA 서열이다.
서열번호 134는 호모 사피엔스로부터의 돌연변이 1(VEGFA 표적 3-DNA Exp) DNA 서열이다.
서열번호 135는 호모 사피엔스로부터의 돌연변이 2(VEGFA 표적 3-DNA Exp) DNA 서열이다.
서열번호 136은 사카로마이세스 세레비시애로부터의 ROX3 프로모터 DNA 서열이다.
서열번호 137은 사카로마이세스 세레비시애로부터의 GAL 프로모터 DNA 서열이다.
서열번호 138은 인공으로부터의 HH 리보자임(여기서, N은 리보자임의 6개의 뉴클레오티드 3'에 대해 상보성인 뉴클레오티드를 나타냄) DNA 서열이다.
서열번호 139는 D형 간염 바이러스로부터의 HDV 리보자임 DNA 서열이다.
서열번호 140은 사카로마이세스 세레비시애로부터의 SNR52 프로모터 DNA 서열이다.
서열번호 141은 사카로마이세스 세레비시애로부터의 SUP4 종결자 DNA 서열이다.
서열번호 142는 인공으로부터의 도 15c 상부 서열 DNA 서열이다.
서열번호 143은 인공으로부터의 도 15c 하부 서열 DNA 서열이다.
서열번호 144는 제아 메이스로부터의 도 18a 참조 DNA 서열이다.
서열번호 145는 제아 메이스로부터의 돌연변이 1 DNA 서열이다.
서열번호 146은 제아 메이스로부터의 돌연변이 2 DNA 서열이다.
서열번호 147는 제아 메이스로부터의 돌연변이 3 DNA 서열이다.
서열번호 148은 제아 메이스로부터의 돌연변이 4 DNA 서열이다.
서열번호 149는 제아 메이스로부터의 돌연변이 5 DNA 서열이다.
서열번호 150은 제아 메이스로부터의 돌연변이 6 DNA 서열이다.
서열번호 151은 제아 메이스로부터의 돌연변이 7 DNA 서열이다.
서열번호 152는 제아 메이스로부터의 돌연변이 8 DNA 서열이다.
서열번호 153은 제아 메이스로부터의 돌연변이 9 DNA 서열이다.
서열번호 154는 제아 메이스로부터의 돌연변이 10 DNA 서열이다.
서열번호 155는 제아 메이스로부터의 돌연변이 11 DNA 서열이다.
서열번호 156은 제아 메이스로부터의 돌연변이 12 DNA 서열이다.
서열번호 157은 제아 메이스로부터의 돌연변이 13 DNA 서열이다.
서열번호 158은 제아 메이스로부터의 돌연변이 14 DNA 서열이다.
서열번호 159는 제아 메이스로부터의 돌연변이 15 DNA 서열이다.
서열번호 160은 제아 메이스로부터의 돌연변이 16 DNA 서열이다.
서열번호 161은 제아 메이스로부터의 돌연변이 17 DNA 서열이다.
서열번호 162는 제아 메이스로부터의 돌연변이 18 DNA 서열이다.
서열번호 163은 제아 메이스로부터의 돌연변이 19 DNA 서열이다.
서열번호 164는 제아 메이스로부터의 도 18b 참조 DNA 서열이다.
서열번호 165는 제아 메이스로부터의 돌연변이 1 DNA 서열이다.
서열번호 166은 제아 메이스로부터의 돌연변이 2 DNA 서열이다.
서열번호 167은 제아 메이스로부터의 돌연변이 3 DNA 서열이다.
서열번호 168은 제아 메이스로부터의 돌연변이 4 DNA 서열이다.
서열번호 169는 제아 메이스로부터의 돌연변이 5 DNA 서열이다.
서열번호 170은 사카로마이세스 세리비시애로부터의 도 19c 참조 DNA 서열이다.
서열번호 171은 인공으로부터의 수선 주형 DNA 서열이다.
서열번호 172는 사카로마이세스 세레비시애로부터의 수선 결과 1 DNA 서열이다.
서열번호 173은 사카로마이세스 세레비시애로부터의 수선 결과 2 DNA 서열이다.
서열번호 174는 사카로마이세스 세레비시애로부터의 수선 결과 1 DNA 서열이다.
서열번호 175는 사카로마이세스 세레비시애로부터의 수선 결과 1 DNA 서열이다.
서열번호 176는 사카로마이세스 세레비시애로부터의 수선 결과 2 DNA 서열이다.
서열번호 177은 인공으로부터의 Cas-알파 3 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 178은 인공으로부터의 Cas-알파 5 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 179는 인공으로부터의 Cas-알파 6 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 180은 인공으로부터의 Cas-알파 7 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 181은 인공으로부터의 Cas-알파 8 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 182는 인공으로부터의 Cas-알파 9 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 183은 인공으로부터의 Cas-알파 10 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 184는 인공으로부터의 Cas-알파 11 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 185는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 tracrRNA 형태 5 RNA 서열이다.
서열번호 186은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 tracrRNA 형태 6 RNA 서열이다.
서열번호 187은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 tracrRNA 형태 7 RNA 서열이다.
서열번호 188은 비배양 고세균으로부터의 Cas-알파 6 tracrRNA 형태 1 RNA 서열이다.
서열번호 189는 비배양 고세균으로부터의 Cas-알파 6 tracrRNA 형태 2 RNA 서열이다.
서열번호 190은 비배양 고세균으로부터의 Cas-알파 6 tracrRNA 형태 3 RNA 서열이다.
서열번호 191은 비배양 고세균으로부터의 Cas-알파 6 tracrRNA 형태 4 RNA 서열이다.
서열번호 192는 파라게오바실러스 써모글루코시다시우스로부터의 Cas-알파 7 tracrRNA 형태 1 RNA 서열이다.
서열번호 193은 파라게오바실러스 써모글루코시다시우스로부터의 Cas-알파 7 tracrRNA 형태 2 RNA 서열이다.
서열번호 194는 아시디바실러스 설푸록시단스로부터의 Cas-알파 8 tracrRNA 형태 1 RNA 서열이다.
서열번호 195는 아시디바실러스 설푸록시단스로부터의 Cas-알파 8 tracrRNA 형태 2 RNA 서열이다.
서열번호 196은 아시디바실러스 설푸록시단스로부터의 Cas-알파 8 tracrRNA 형태 3 RNA 서열이다.
서열번호 197은 루미노코커스 종으로부터의 Cas-알파 9 tracrRNA 형태 1 RNA 서열이다.
서열번호 198은 루미노코커스 종으로부터의 Cas-알파 9 tracrRNA 형태 2 RNA 서열이다.
서열번호 199는 신트로포모나스 팔미타티카로부터의 Cas-알파 10 tracrRNA 형태 1 RNA 서열이다.
서열번호 200은 신트로포모나스 팔미타티카로부터의 Cas-알파 10 tracrRNA 형태 2 RNA 서열이다.
서열번호 201은 신트로포모나스 팔미타티카로부터의 Cas-알파 10 tracrRNA 형태 3 RNA 서열이다.
서열번호 202는 신트로포모나스 팔미타티카로부터의 Cas-알파 10 tracrRNA 형태 4 RNA 서열이다.
서열번호 203은 신트로포모나스 팔미타티카로부터의 Cas-알파 10 tracrRNA 형태 5 RNA 서열이다.
서열번호 204는 클루스트리듐 노비로부터의 Cas-알파 11 tracrRNA 형태 1 RNA 서열이다.
서열번호 205는 클루스트리듐 노비로부터의 Cas-알파 11 tracrRNA 형태 2 RNA 서열이다.
서열번호 206은 클루스트리듐 노비로부터의 Cas-알파 11 tracrRNA 형태 3 RNA 서열이다.
서열번호 207은 클루스트리듐 노비로부터의 Cas-알파 11 tracrRNA 형태 4 RNA 서열이다.
서열번호 208은 인공으로부터의 Cas-알파 2 sgRNA 형태 5 RNA 서열이다.
서열번호 209는 인공으로부터의 Cas-알파 2 sgRNA 형태 6 RNA 서열이다.
서열번호 210은 인공으로부터의 Cas-알파 2 sgRNA 형태 7 RNA 서열이다.
서열번호 211은 인공으로부터의 Cas-알파 6 sgRNA 형태 1 RNA 서열이다.
서열번호 212는 인공으로부터의 Cas-알파 6 sgRNA 형태 2 RNA 서열이다.
서열번호 213은 인공으로부터의 Cas-알파 6 sgRNA 형태 3 RNA 서열이다.
서열번호 214는 인공으로부터의 Cas-알파 6 sgRNA 형태 4 RNA 서열이다.
서열번호 215는 인공으로부터의 Cas-알파 7 sgRNA 형태 1 RNA 서열이다.
서열번호 216은 인공으로부터의 Cas-알파 7 sgRNA 형태 2 RNA 서열이다.
서열번호 217은 인공으로부터의 Cas-알파 7 sgRNA 형태 3 RNA 서열이다.
서열번호 218은 인공으로부터의 Cas-알파 8 sgRNA 형태 1 RNA 서열이다.
서열번호 219는 인공으로부터의 Cas-알파 8 sgRNA 형태 2 RNA 서열이다.
서열번호 220은 인공으로부터의 Cas-알파 8 sgRNA 형태 3 RNA 서열이다.
서열번호 221은 인공으로부터의 Cas-알파 8 sgRNA 형태 4 RNA 서열이다.
서열번호 222는 인공으로부터의 Cas-알파 9 sgRNA 형태 1 RNA 서열이다.
서열번호 223은 인공으로부터의 Cas-알파 9 sgRNA 형태 2 RNA 서열이다.
서열번호 224는 인공으로부터의 Cas-알파 9 sgRNA 형태 3 RNA 서열이다.
서열번호 225는 인공으로부터의 Cas-알파 10 sgRNA 형태 1 RNA 서열이다.
서열번호 226은 인공으로부터의 Cas-알파 10 sgRNA 형태 2 RNA 서열이다.
서열번호 227은 인공으로부터의 Cas-알파 10 sgRNA 형태 3 RNA 서열이다.
서열번호 228은 인공으로부터의 Cas-알파 10 sgRNA 형태 4 RNA 서열이다.
서열번호 229는 인공으로부터의 Cas-알파 10 sgRNA 형태 5 RNA 서열이다.
서열번호 230은 인공으로부터의 Cas-알파 11 sgRNA 형태 1 RNA 서열이다.
서열번호 231은 인공으로부터의 Cas-알파 11 sgRNA 형태 2 RNA 서열이다.
서열번호 232는 인공으로부터의 Cas-알파 11 sgRNA 형태 3 RNA 서열이다.
서열번호 233은 인공으로부터의 Cas-알파 11 sgRNA 형태 4 RNA 서열이다.
서열번호 234는 인공으로부터의 Cas-알파 11 sgRNA 형태 5 RNA 서열이다.
서열번호 235는 인공으로부터의 Cas-알파 4 제아 메이스 코돈 최적화된 유전자 DNA 서열이다.
서열번호 236은 인공으로부터의 Cas-알파 10 제아 메이스 코돈 최적화된 유전자 DNA 서열이다.
서열번호 237은 인공으로부터의 Cas-알파 10 사카로마이세스 세레비시애 코돈 최적화된 유전자 DNA 서열이다.
서열번호 238은 인공으로부터의 Cas-알파 4 sgRNA 골격 RNA 서열이다.
서열번호 239는 인공으로부터의 Cas-알파 10 sgRNA 골격 RNA 서열이다.
서열번호 240은 인공으로부터의 Cas-알파 4 Liguleless 2 sgRNA 표적 서열 RNA 서열이다.
서열번호 241은 인공으로부터의 Cas-알파 4 Liguleless 3 sgRNA 표적 서열 RNA 서열이다.
서열번호 242는 인공으로부터의 Cas-알파 10 nptII sgRNA 표적 서열 RNA 서열이다.
서열번호 243은 인공으로부터의 Cas-알파 10 ms26 sgRNA 표적 서열 RNA 서열이다.
서열번호 244는 인공으로부터의 Cas-알파 10 ade2 sgRNA 표적 서열 RNA 서열이다.
서열번호 245는 인공으로부터의 Cas-알파 4 VEGFA 2 sgRNA 표적 서열 RNA 서열이다.
서열번호 246은 인공으로부터의 Cas-알파 4 VEGFA 3 sgRNA 표적 서열 RNA 서열이다.
서열번호 247은 인공으로부터의 Cas-알파 4 sgRNA 표적화 Liguleless 2 RNA 서열이다.
서열번호 248은 인공으로부터의 Cas-알파 4 sgRNA 표적화 Liguleless 3 RNA 서열이다.
서열번호 249는 인공으로부터의 Cas-알파 10 sgRNA 표적화 nptII RNA 서열이다.
서열번호 250은 인공으로부터의 Cas-알파 10 sgRNA 표적화 ms26 RNA 서열이다.
서열번호 251은 인공으로부터의 Cas-알파 10 sgRNA 표적화 ade2 RNA 서열이다.
서열번호 252는 인공으로부터의 Cas-알파 4 sgRNA 표적화 VEGFA 2 RNA 서열이다.
서열번호 253은 인공으로부터의 Cas-알파 4 sgRNA 표적화 VEGFA 3 RNA 서열이다.
서열번호 254는 클로스트리디오이데스 디피실로부터의 Cas-알파 12 엔도뉴클레아제 PRT 서열이다.
서열번호 255는 클루스트리듐 파라푸트리피쿰으로부터의 Cas-알파 13 엔도뉴클레아제 PRT 서열이다.
서열번호 256은 클루스트리듐 노비로부터의 Cas-알파 14 엔도뉴클레아제 PRT 서열이다.
서열번호 257은 루미노코커스 알버스로부터의 Cas-알파 15 엔도뉴클레아제 PRT 서열이다.
서열번호 258은 클루스트리듐 히라노니스로부터의 Cas-알파 16 엔도뉴클레아제 PRT 서열이다.
서열번호 259는 클루스트리듐 이후미로부터의 Cas-알파 17 엔도뉴클레아제 PRT 서열이다.
서열번호 260은 셀룰로실리티쿰 루미니콜라로부터의 Cas-알파 18 엔도뉴클레아제 PRT 서열이다.
서열번호 261은 유박테리움 시라에움으로부터의 Cas-알파 19 엔도뉴클레아제 PRT 서열이다.
서열번호 262는 클로스트리듐 보툴리눔으로부터의 Cas-알파 20 엔도뉴클레아제 PRT 서열이다.
서열번호 263은 클로스트리듐 보툴리눔으로부터의 Cas-알파 21 엔도뉴클레아제 PRT 서열이다.
서열번호 264는 루미니클로스트리듐 훈가테이로부터의 Cas-알파 22 엔도뉴클레아제 PRT 서열이다.
서열번호 265는 데설포비브리오 프럭토시보란스로부터의 Cas-알파 23 엔도뉴클레아제 PRT 서열이다.
서열번호 266은 바실러스 토요엔시스로부터의 Cas-알파 24 엔도뉴클레아제 PRT 서열이다.
서열번호 267은 클루스트리듐 파라푸트리피쿰으로부터의 Cas-알파 25 엔도뉴클레아제 PRT 서열이다.
서열번호 268은 루스트리듐 벤트리쿨리로부터의 Cas-알파 26 엔도뉴클레아제 PRT 서열이다.
서열번호 269는 루미노코커스 종으로부터의 Cas-알파 27 엔도뉴클레아제 PRT 서열이다.
서열번호 270은 루미노코커스 종으로부터의 Cas-알파 28 엔도뉴클레아제 PRT 서열이다.
서열번호 271은 펩토클로스트리듐 종으로부터의 Cas-알파 29 엔도뉴클레아제 PRT 서열이다.
서열번호 272는 바실러스 종으로부터의 Cas-알파 30 엔도뉴클레아제 PRT 서열이다.
서열번호 273은 클로스트리디오이데스 디피실로부터의 Cas-알파 31 엔도뉴클레아제 PRT 서열이다.
서열번호 274는 클로스트리디오이데스 디피실로부터의 Cas-알파 32 엔도뉴클레아제 PRT 서열이다.
서열번호 275는 비배양 고세균으로부터의 Cas-알파 33 엔도뉴클레아제 PRT 서열이다.
서열번호 276은 비배양 고세균으로부터의 Cas-알파 34 엔도뉴클레아제 PRT 서열이다.
서열번호 277은 비배양 고세균으로부터의 Cas-알파 35 엔도뉴클레아제 PRT 서열이다.
서열번호 278은 비배양 고세균으로부터의 Cas-알파 36 엔도뉴클레아제 PRT 서열이다.
서열번호 279는 비배양 고세균으로부터의 Cas-알파 37 엔도뉴클레아제 PRT 서열이다.
서열번호 280은 비배양 고세균으로부터의 Cas-알파 38 엔도뉴클레아제 PRT 서열이다.
서열번호 281은 비배양 고세균으로부터의 Cas-알파 39 엔도뉴클레아제 PRT 서열이다.
서열번호 282는 비배양 고세균으로부터의 Cas-알파 40 엔도뉴클레아제 PRT 서열이다.
서열번호 283은 비배양 고세균으로부터의 Cas-알파 41 엔도뉴클레아제 PRT 서열이다.
서열번호 284는 클로스트리디오이데스 디피실로부터의 Cas-알파 42 엔도뉴클레아제 PRT 서열이다.
서열번호 285는 데설포비브리오 프럭토시보란스로부터의 Cas-알파 43 엔도뉴클레아제 PRT 서열이다.
서열번호 286은 클로스트리듐 보툴리눔으로부터의 Cas-알파 44 엔도뉴클레아제 PRT 서열이다.
서열번호 287은 클로스트리디오이데스 디피실로부터의 Cas-알파 45 엔도뉴클레아제 PRT 서열이다.
서열번호 288은 클로스트리디오이데스 디피실로부터의 Cas-알파 46 엔도뉴클레아제 PRT 서열이다.
서열번호 289는 클로스트리디오이데스 디피실로부터의 Cas-알파 47 엔도뉴클레아제 PRT 서열이다.
서열번호 290은 클로스트리디오이데스 디피실로부터의 Cas-알파 48 엔도뉴클레아제 PRT 서열이다.
서열번호 291은 클로스트리디오이데스 디피실로부터의 Cas-알파 49 엔도뉴클레아제 PRT 서열이다.
서열번호 292는 클로스트리디오이데스 디피실로부터의 Cas-알파 50 엔도뉴클레아제 PRT 서열이다.
서열번호 293은 클로스트리디오이데스 디피실로부터의 Cas-알파 51 엔도뉴클레아제 PRT 서열이다.
서열번호 294는 클로스트리디오이데스 디피실로부터의 Cas-알파 52 엔도뉴클레아제 PRT 서열이다.
서열번호 295는 클로스트리디오이데스 디피실로부터의 Cas-알파 53 엔도뉴클레아제 PRT 서열이다.
서열번호 296은 클로스트리디오이데스 디피실로부터의 Cas-알파 54 엔도뉴클레아제 PRT 서열이다.
서열번호 297은 클루스트리듐 히라노니스로부터의 Cas-알파 55 엔도뉴클레아제 PRT 서열이다.
서열번호 298은 클로스트리디오이데스 디피실로부터의 Cas-알파 56 엔도뉴클레아제 PRT 서열이다.
서열번호 299는 아네우리니바실러스 다니쿠스로부터의 Cas-알파 57 엔도뉴클레아제 PRT 서열이다.
서열번호 300은 파라게오바실러스 써모글루코시다시우스로부터의 Cas-알파 58 엔도뉴클레아제 PRT 서열이다.
서열번호 301은 브레비바실러스 센트로스포루스로부터의 Cas-알파 59 엔도뉴클레아제 PRT 서열이다.
서열번호 302는 클루스트리듐 파스테우리아눔으부터의 Cas-알파 60 엔도뉴클레아제 PRT 서열이다.
서열번호 303은 유박테리움 시라에움으로부터의 Cas-알파 61 엔도뉴클레아제 PRT 서열이다.
서열번호 304는 바실러스 토요엔시스로부터의 Cas-알파 62 엔도뉴클레아제 PRT 서열이다.
서열번호 305는 루미노코커스 종으로부터의 Cas-알파 63 엔도뉴클레아제 PRT 서열이다.
서열번호 306은 루미노코커스 종으로부터의 Cas-알파 64 엔도뉴클레아제 PRT 서열이다.
서열번호 307은 클루스트리듐 페르프링겐스부터의 Cas-알파 65 엔도뉴클레아제 PRT 서열이다.
서열번호 308은 바실러스 튜링겐시스로부터의 Cas-알파 66 엔도뉴클레아제 PRT 서열이다.
서열번호 309는 클루스트리듐 페르프링겐스부터의 Cas-알파 67 엔도뉴클레아제 PRT 서열이다.
서열번호 310은 바실러스 세레우스로부터의 Cas-알파 68 엔도뉴클레아제 PRT 서열이다.
서열번호 311은 바실러스 토요엔시스로부터의 Cas-알파 69 엔도뉴클레아제 PRT 서열이다.
서열번호 312는 바실러스 토요엔시스로부터의 Cas-알파 70 엔도뉴클레아제 PRT 서열이다.
서열번호 313은 바실러스 토요엔시스로부터의 Cas-알파 71 엔도뉴클레아제 PRT 서열이다.
서열번호 314는 리사이클로바실러스 아시도테레스트리스로부터의 Cas-알파 72 엔도뉴클레아제 PRT 서열이다.
서열번호 315는 클루스트리듐 테타니부터의 Cas-알파 73 엔도뉴클레아제 PRT 서열이다.
서열번호 316은 칸디다투스 레비박테리아 박테리움으로부터의 Cas-알파 74 엔도뉴클레아제 PRT 서열이다.
서열번호 317은 바실러스 세레우스로부터의 Cas-알파 75 엔도뉴클레아제 PRT 서열이다.
서열번호 318은 바실러스 세레우스로부터의 Cas-알파 76 엔도뉴클레아제 PRT 서열이다.
서열번호 319는 바실러스 세레우스로부터의 Cas-알파 77 엔도뉴클레아제 PRT 서열이다.
서열번호 320은 클루스트리듐 파라푸트리피쿰으로부터의 Cas-알파 78 엔도뉴클레아제 PRT 서열이다.
서열번호 321은 바실러스 세레우스로부터의 Cas-알파 79 엔도뉴클레아제 PRT 서열이다.
서열번호 322는 바실러스 튜링겐시스로부터의 Cas-알파 80 엔도뉴클레아제 PRT 서열이다.
서열번호 323은 바실러스 세레우스로부터의 Cas-알파 81 엔도뉴클레아제 PRT 서열이다.
서열번호 324는 바실러스 토요엔시스로부터의 Cas-알파 82 엔도뉴클레아제 PRT 서열이다.
서열번호 325는 바실러스 세레우스로부터의 Cas-알파 83 엔도뉴클레아제 PRT 서열이다.
서열번호 326은 바실러스 토요엔시스로부터의 Cas-알파 84 엔도뉴클레아제 PRT 서열이다.
서열번호 327은 바실러스 위에드만니로부터의 Cas-알파 85 엔도뉴클레아제 PRT 서열이다.
서열번호 328는 바실러스 세레우스로부터의 Cas-알파 86 엔도뉴클레아제 PRT 서열이다.
서열번호 329는 바실러스 세레우스로부터의 Cas-알파 87 엔도뉴클레아제 PRT 서열이다.
서열번호 330은 바실러스 토요엔시스로부터의 Cas-알파 88 엔도뉴클레아제 PRT 서열이다.
서열번호 331은 바실러스 세레우스로부터의 Cas-알파 89 엔도뉴클레아제 PRT 서열이다.
서열번호 332는 바실러스 토요엔시스로부터의 Cas-알파 90 엔도뉴클레아제 PRT 서열이다.
서열번호 333은 바실러스 튜링겐시스로부터의 Cas-알파 91 엔도뉴클레아제 PRT 서열이다.
서열번호 334는 바실러스 세레우스로부터의 Cas-알파 92 엔도뉴클레아제 PRT 서열이다.
서열번호 335는 바실러스 세레우스로부터의 Cas-알파 93 엔도뉴클레아제 PRT 서열이다.
서열번호 336은 바실러스 세레우스로부터의 Cas-알파 94 엔도뉴클레아제 PRT 서열이다.
서열번호 337은 바실러스 튜링겐시스로부터의 Cas-알파 95 엔도뉴클레아제 PRT 서열이다.
서열번호 338은 바실러스 종으로부터의 Cas-알파 96 엔도뉴클레아제 PRT 서열이다.
서열번호 339는 바실러스 세레우스로부터의 Cas-알파 97 엔도뉴클레아제 PRT 서열이다.
서열번호 340은 바실러스 세레우스로부터의 Cas-알파 98 엔도뉴클레아제 PRT 서열이다.
서열번호 341은 바실러스 튜링겐시스로부터의 Cas-알파 99 엔도뉴클레아제 PRT 서열이다.
서열번호 342는 바실러스 종으로부터의 Cas-알파 100 엔도뉴클레아제 PRT 서열이다.
서열번호 343은 프레보텔라 코프리로부터의 Cas-알파 101 엔도뉴클레아제 PRT 서열이다.
서열번호 344는 프레보텔라 코프리로부터의 Cas-알파 102 엔도뉴클레아제 PRT 서열이다.
서열번호 345는 클로스트리디오이데스 디피실로부터의 Cas-알파 103 엔도뉴클레아제 PRT 서열이다.
서열번호 346은 클로스트리디오이데스 디피실로부터의 Cas-알파 104 엔도뉴클레아제 PRT 서열이다.
서열번호 347은 클로스트리디오이데스 디피실로부터의 Cas-알파 105 엔도뉴클레아제 PRT 서열이다.
서열번호 348은 클로스트리디오이데스 디피실로부터의 Cas-알파 106 엔도뉴클레아제 PRT 서열이다.
서열번호 349는 클로스트리디오이데스 디피실로부터의 Cas-알파 107 엔도뉴클레아제 PRT 서열이다.
서열번호 350은 클로스트리디오이데스 디피실로부터의 Cas-알파 108 엔도뉴클레아제 PRT 서열이다.
서열번호 351은 클로스트리디오이데스 디피실로부터의 Cas-알파 109 엔도뉴클레아제 PRT 서열이다.
서열번호 352는 플라보박테리움 써모필룸으로부터의 Cas-알파 110 엔도뉴클레아제 PRT 서열이다.
서열번호 353은 파스콜락토박테리움 종으로부터의 Cas-알파 111 엔도뉴클레아제 PRT 서열이다.
서열번호 354는 바실러스 슈도마이코이데스로부터의 Cas-알파 112 엔도뉴클레아제 PRT 서열이다.
서열번호 355는 박테로이데스 플레베이우스로부터의 Cas-알파 113 엔도뉴클레아제 PRT 서열이다.
서열번호 356은 클로스트리듐 보툴리눔으로부터의 Cas-알파 114 엔도뉴클레아제 PRT 서열이다.
서열번호 357은 바실러스 슈도마이코이데스로부터의 Cas-알파 115 엔도뉴클레아제 PRT 서열이다.
서열번호 358은 바실러스 슈도마이코이데스로부터의 Cas-알파 116 엔도뉴클레아제 PRT 서열이다.
서열번호 359는 클로스트리듐 보툴리눔으로부터의 Cas-알파 117 엔도뉴클레아제 PRT 서열이다.
서열번호 360은 클로스트리듐 보툴리눔으로부터의 Cas-알파 118 엔도뉴클레아제 PRT 서열이다.
서열번호 361은 클로스트리듐 보툴리눔으로부터의 Cas-알파 119 엔도뉴클레아제 PRT 서열이다.
서열번호 362는 하이드로게니버가 종으로부터의 Cas-알파 120 엔도뉴클레아제 PRT 서열이다.
서열번호 363은 바실러스 메가테리움으로부터의 Cas-알파 121 엔도뉴클레아제 PRT 서열이다.
서열번호 364는 클로스트리듐 팔락스로부터의 Cas-알파 122 엔도뉴클레아제 PRT 서열이다.
서열번호 365는 박테로이데스 플레베이우스로부터의 Cas-알파 123 엔도뉴클레아제 PRT 서열이다.
서열번호 366은 바실러스 튜링겐시스로부터의 Cas-알파 124 엔도뉴클레아제 PRT 서열이다.
서열번호 367은 바실러스 세레우스로부터의 Cas-알파 125 엔도뉴클레아제 PRT 서열이다.
서열번호 368은 클루스트리듐 종으로부터의 Cas-알파 126 엔도뉴클레아제 PRT 서열이다.
서열번호 369는 박테로이데스 플레베이우스로부터의 Cas-알파 127 엔도뉴클레아제 PRT 서열이다.
서열번호 370은 도레아 롱기카테나로부터의 Cas-알파 128 엔도뉴클레아제 PRT 서열이다.
서열번호 371은 설푸리하이드로게니비움 아조렌스로부터의 Cas-알파 129 엔도뉴클레아제 PRT 서열이다.
본 발명은 본 출원의 일부를 구성하는 다음의 상세한 설명 및 첨부 도면 및 서열목록으로부터 더욱 완전하게 이해될 수 있다.
도 1a 내지 도 1d는 획득 및 간섭에 필요한 성분을 모두 포함하는 온전한 CRISPR-Cas 시스템을 도시한다. 이들은 CRISPR 어레이에 인접한 오페론-유사 구조에 획득 및 통합 스페이서(Cas1 및 Cas2)에 필요한 모든 단백질 및 DNA 절단 도메인인 Cas-알파(α)를 포함하는 신규한 단백질을 함께 암호화하는 유전자를 포함하였다. 추가적으로, Cas4에 대해 상동성을 갖는 단백질을 암호화하는 유전자는 또한 좌위에서 암호화되었다. 도 1a는 Cas-알파 1, Cas-알파 3 및 Cas-알파 4 시스템에 대한 좌위 구조를 도시한다. 도 1b는 Cas-알파2 시스템에 대한 좌위 구조를 도시한다. 도 1c는 Cas-알파 6 시스템에 대한 좌위 구조를 도시한다. 도 1d는 Cas-알파 5, 7, 8, 9, 10 및 11 시스템에 대한 좌위 구조를 도시한다.
도 2는 앞서 기재된 클래스 2 엔도뉴클레아제와 뚜렷한 차이를 도시하는 Cas-알파 단백질의 상세한 구조적 예시를 나타낸다. 보존된 잔기를 나타낸다. DNA 절단에 관련된 중요한 잔기는 별표로 나타낸다. 숫자는 Cas-알파 1 단백질에 대응한다.
도 3은 Cas-알파 엔도뉴클레아제를 발현시키는 세포 용해물을 이용하는, 이중 가닥 DNA 표적 인식 및 절단의 검출 방법을 도시한다.
도 4a 내지 도 4e는 뉴클레오티드 위치 21에서 Cas-알파 1 엔도뉴클레아제에 의한 표적 폴리뉴클레오티드의 절단을 나타낸다. 도 4a는 Cas-알파 1 음성 대조군에 대한 데이터를 나타내고, 도 4b는 CRISPR 어레이가 표적 폴리뉴클레오티드에서 절단을 지시하도록 변형된 전체(완전한) CRISPR 좌위를 이용하여 Cas-알파 1에 대한 데이터를 나타내며, 도 4c는 T7 프로모터를 이용하여 발현이 향상될 때 더한 Cas-알파 1 완전 좌위에 대한 데이터를 나타내고, 도 4d는 T7 프로모터를 이용하여 발현이 향상될 때 Cas-알파 1 최소 좌위에 대한 데이터를 나타내며, 도 4e는 발현이 T7 프로모터에 의해 향상될 때, Cas-알파 1은 없지만 CRISPR 좌위의 나머지가 있는 반응에 대한 데이터를 나타낸다.
도 5a 내지 도 5b는 스페이서 인식에 대한 PAM 인식 배향을 결정하기 위한 도식을 도시하며, 가이드 RNA(들)는 T2 표적의 센스 또는 안티센스 가닥 중 하나를 갖는 염기쌍에 대해 설계하였다. 센스 가닥을 갖는 염기쌍에 대해 설계된 가이드 RNA(들)가 PAM 선호도의 회복을 초래하고 절단 신호를 수득한다면, 프로토스페이서는 안티-센스 가닥 상에 있고, PAM 인식은 이에 대해 3'에서 일어난다(도 5a). 대조적으로, 안티-센스 가닥과의 염기쌍에 대해 설계된 가이드 RNA(들)가 PAM 선호도 및 절단 신호를 생성한다면, 프로토스페이서는 센스 가닥 상에 있고, PAM 인식은 이에 대해 배향 5'에서 일어난다(도 5b).
도 6a 내지 도 6e는 뉴클레오티드 24번 위치에서 Cas-알파 4 엔도뉴클레아제에 의한 표적 폴리뉴클레오티드의 절단을 나타낸다. 도 6a는 Cas-알파 4 음성 대조군에 대한 데이터를 나타낸다. 도 6b는 Cas-알파 4 플러스 T2-1 sgRNA에 대한 데이터를 나타낸다. 도 6c는 Cas-알파 4 플러스 T2-2 sgRNA에 대한 데이터를 나타낸다. 도 6d는 Cas-알파 4 플러스 T2-1 crRNA/tracrRNA에 대한 데이터를 나타낸다. 도 6e는 Cas-알파 4 플러스 T2-2 crRNA/tracrRNA에 대한 데이터를 나타낸다.
도 7a 내지 도 7k는 대표적인 Cas-알파 좌위, 엔도뉴클레아제, 단백질, 가이드 RNA 성분, 및 하기를 포함하는 다양한 박테리아 및 고박테리아(archaebacterial) 유기체로부터 확인된 기타 서열을 나타낸다: 칸디다투스 미크라르카에오타 고세균(도 7a, 도 7b, 도 7e), 칸디다투스 아우레아박테리아 박테리움(도 7c), 다양한 비배양 박테리아(도 7d, 도 7f), 파라게오바실러스 써모글루코시다시우스(도 7g), 아시디바실러스 설푸록시단스(도 7h), 루미노코커스 종(도 7i), 신트로포모나스 팔미타티카(도 7j), 및 클루스트리듐 노비(도 7k).
도 8a 내지 도 8k는 대표적인 Cas-알파 단백질에서 뚜렷한 구조적 특징을 나타내며, 단백질 서열은 볼드체이다. 각 아미노산 잔기 아래의 비-볼드체 특징은 가능한 2차 구조 특징을 나타내며, C는 비구조적 요소 또는 나선을 나타내고, E는 베타 가닥을 나타내며, H는 알파 나선을 나타낸다. 아연 핑거 도메인은 파선 박스로 도시되고, 별표는 아연 이온 결합에 관련된 중요한 아미노산 잔기를 나타낸다. 분할 RuvC 도메인의 RuvC 서브도메인은 실선 박스로 도시된다. 브리지 나선은 점선 박스로 도시된다. 또꼬인나선은 실선 원통으로 도시된다. 실선에 부호를 더한 것은 RuvC 도메인 모티프의 특징인 중요한 촉매적 잔기를 나타낸다. 도 8a는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1을 도시하고(서열번호 17), 도 8b는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2를 도시하고(서열번호 18), 도 8c는 칸디다투스 아우레아박테리아 박테리움으로부터의 Cas-알파 3을 도시하고(서열번호 19), 도 8d는 비배양 박테리아로부터의 Cas-알파 4(서열번호 20)를 도시하며, 도 8e는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 5를 도시하고(서열번호 32), 도 8f는 비배양 박테리아로부터의 Cas-알파 6(서열번호 33)을 도시하며, 도 8g는 파라게오바실러스 써모글루코시다시우스로부터의 Cas-알파 7(서열번호 34)을 도시하고, 도 8h는 아시디바실러스 설푸록시단스로부터의 Cas-알파 8(서열번호 35)을 도시하고, 도 8i는 루미노코커스 종(Ruminococus sp.)으로부터의 Cas-알파 9(서열번호 36)를 도시하고, 도 8j는 3개의 아연 핑거 도메인의 독특한 모티프를 특징으로 하는 신트로포모나스 팔미타티카로부터의 Cas-알파10(서열번호 37)을 도시하며, 도 8k는 클루스트리듐 노비로부터의 Cas-알파 11(서열번호 38)을 도시한다. Cas-알파 11을 포함하는 유기체의 전체 게놈 서열분석은 Cas-알파 좌위가 해당 유기체에서의 유일한 CRISPR 시스템이라는 것을 나타내었다.
도 9a는 Cas-알파 단백질 서브유닛이 표적 DNA와 가이드 RNA의 혼성 이중가닥과 상호작용하는 방법을 도시한다. 도 9b는 Cas 단백질, RuvC 도메인, 및 아연 핑거 모티프에 공통인 나선 헤어핀/브리지 나선 영역으로서 표시된 영역을 나타내는, Cas-알파 4의 C-말단 절반의 3차원 모델이다.
도 10a 내지 도 10d는 진핵 세포에서의 Cas-알파 엔도뉴클레아제의 사용을 위한 예시적 발현 작제물을 도시한다. 도 10a는 인간 세포 Cas-알파 DNA 발현 작제물의 예이다. 도 10b는 식물 세포 Cas-알파 DNA 발현 작제물의 예이다. 도 10c는 효모(사카로마이세스 세레비시애) Cas-알파 DNA 발현 작제물의 예이다. 도 10d는 유도성 효모(사카로마이세스 세레비시애) Cas-알파 DNA 발현 작제물의 예이다.
도 11a 내지 도 11d는 진핵생물 최적화된 Cas-알파 가이드 RNA 발현 작제물의 예를 도시한다. 도 11a는 인간 세포 단일 가이드 RNA(sgRNA) DNA 발현 작제물의 예이다. 도 11b는 식물 세포 단일 가이드 RNA(sgRNA) DNA 발현 작제물의 예이다. 도 11c는 효모(사카로마이세스 세레비시애) 단일 가이드 RNA(sgRNA) DNA 발현 작제물의 예이다. 도 11d는 식물 세포 단일 가이드 RNA(sgRNA) DNA 발현 작제물의 다른 예이다.
도 12는 이콜라이에서 Cas-알파 엔도뉴클레아제의 재조합 발현 및 정제를 위한 조작된 유전자의 예를 도시한다.
도 13은 Cas-알파 엔도뉴클레아제 활성으로부터의 식물 세포에서의 이중 가닥 파손 수선 돌연변이를 나타낸다. 제아 메이스에서의 Cas-알파 4로부터 초래되는 돌연변이가 도시된다. WT 참조는 서열번호 120이고, 돌연변이 1은 서열번호 121이며, 돌연변이 2는 서열번호 122이고, 돌연변이 3은 서열번호 123이고, 돌연변이 4는 서열번호 124이다.
도 14a 내지 도 14b는 Cas-알파 엔도뉴클레아제 활성으로부터의 동물 세포에서의 이중 가닥 파손 수선 돌연변이를 나타낸다. 도 14a는 Cas-알파4 RNP 전기천공법으로부터 초래된 삽입결실 돌연변이(WT 참조 서열번호 126에 비교하여 서열번호 127 내지 131로서 주어진 VEGFA 표적 2 돌연변이 1 내지 5; VEGFA 표적 3(WT 참조 서열번호 132에 비교하여 서열번호 133로서 주어진 돌연변이)를 도시한다. 도 14b는 Cas-알파4 및 sgRNA DNA 발현 카세트 리포펙션으로부터 초래된 삽입결실 돌연변이 VEGFA 표적 3(WT 참조 서열번호 132에 비교하여 서열번호 134-135로서 주어지는 돌연변이 1 및 2)을 도시한다.
도 15a 내지 도 15d는 Cas-알파4 이중-가닥 DNA 표적 절단을 나타낸다. 도 15a는 PAM(5'-TTTR-3', 여기서 R은 A 또는 G bp를 나타냄)의 바로 3'에 가이드 RNA 표적(대략 20 bp)을 포함하는 수퍼코일(SC) 플라스미드 DNA가 선형 형태(FLL)로 완전히 전환되고, 따라서, dsDNA 파손의 형성을 도시한다는 것을 나타낸다. 추가적으로, 선형 DNA의 절단은 Cas-알파 4 매개 dsDNA 파손 형성을 추가로 입증하는 예상된 크기의 DNA 단편을 초래하였다. 도 15b는 dsDNA 표적을 절단하기 위해 Cas-알파 4가 PAM 및 가이드 RNA를 필요로 한다는 것을 나타낸다. 도 15c는 Cas-알파 4가 5' 엇갈린 돌출부(staggered overhanging) DNA 절단 부위를 생성하며, 절단은 PAM 서열에 대해 주로 20 내지 24 bp 위치 주변에 집중되어 일어난다는 것을 나타낸다. 도 15d는 가이드 RNA의 존재 하에서만 dsDNA에 의해 활성화된 Cas-알파 4의 트랜스-작용성 ssDNase 활성을 나타낸다.
도 16a 내지 도 16t는 Cas-알파 5를 제외하고 모든 Cas-알파 엔도뉴클레아제에 대한 이중 가닥 DNA 표적 절단 활성을 나타낸다. 도 16a는 음성 대조군(-IPTG)이다. 도 16b는 음성 대조군(+ IPTG)이다. 도 16c는 프로토스페이서 21번 위치에서 Cas-알파 2(-IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16d는 프로토스페이서 21번 위치에서 Cas-알파2(+IPTG)에 의한 이중-가닥 DNA 표적의 절단을 나타낸다. 도 16e는 Cas-알파 3(-IPTG)에 의한 이중가닥 DNA 표적의 절단 없음을 나타낸다. 도 16f는 프로토스페이서 21번 위치에서 Cas-알파 3(+IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16g는 Cas-알파 5(-IPTG)에 의한 이중가닥 DNA 표적의 절단 없음을 나타낸다. 도 16h는 Cas-알파 5(-IPTG)에 의한 이중가닥 DNA 표적의 절단 없음을 나타낸다. 도 16i는 Cas-알파 6(-IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16j는 프로토스페이서 24번 위치에서 Cas-알파 6(+IPTG)에 의한 이중가닥 DNA 표적의 절단 없음을 나타낸다. 도 16K는 프로토스페이서 24번 위치에서 Cas-알파 7(-IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16l은 프로토스페이서 24번 위치에서 Cas-알파 7(+IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16m은 Cas-알파8(-IPTG)에 의한 이중-가닥 DNA 표적의 절단 없음을 나타낸다. 도 16n은 프로토스페이서 24번 위치에서 Cas-알파 8(+IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16o는 프로토스페이서 24번 위치에서 Cas-알파 9(-IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16p는 프로토스페이서 24번 위치에서 Cas-알파9(+IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16q는 프로토스페이서 24번 위치에서 Cas-알파 10(-IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16r은 프로토스페이서 24번 위치에서 Cas-알파 10(+IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16s는 프로토스페이서 24번 위치에서 Cas-알파 11(-IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다. 도 16t는 프로토스페이서 24번 위치에서 Cas-알파 11(+IPTG)에 의한 이중가닥 DNA 표적의 절단을 나타낸다.
도 17a는 이콜라이 세포에서 Cas-알파 이중가닥 DNA 표적 절단을 평가하는 한 가지 방법을 도시한다. 도 17b 내지 도 17e는 이콜라이에서 이중가닥 DNA 표적 절단을 나타낸다. "표적 없음" 실험은 이중가닥 DNA 표적 절단의 부재 하에 형질전환 효율에 대한 기준을 제공한다. "표적" 실험인 PAM + T2를 상이한 Cas-알파 엔도뉴클레아제 및 가이드 RNA 발현 조건 하에 표적 절단을 시험하기 위해 IPTG(0.5 mM)를 이용하여 그리고 IPTG 없이 수행하였다. 도 17b는 Cas-알파 2 및 Cas-알파 3에 대한 결과를 나타낸다. 도 17c는 Cas-알파 6 및 Cas-알파 7에 대한 결과를 나타낸다. 도 17d는 Cas-알파 8 및 Cas-알파 9에 대한 결과를 나타낸다. 도 17e는 Cas-알파 10 및 Cas-알파 11에 대한 결과를 나타낸다.
도 18a 내지 도 18b는 제아 메이스 미숙 배아에 Cas-알파 10 DNA 발현 작제를 전달하는 유전자총 실험을 위한 Cas-알파 엔도뉴클레아제 활성으로부터의 식물 세포에서의 이중가닥 파손 수선 돌연변이를 도시한다. 도 18a는 nptII 표적 부위에 대해 뉴클레아제 절단 부위에서 또는 근처에서 생성된 표적화된 결실의 회복을 나타낸다. 도 18b는 ms26 표적 부위에 대해 뉴클레아제 절단 부위에서 또는 근처에서 생성된 표적화된 결실의 회복을 나타낸다.
도 19a는 진핵 세포, 사카로마이세스 세레비시애(Saccaromyces cerevisiae)에서의 상동 직접 수선을 위한 실험 설계를 도시한다. Cas-알파 10 표적 부위에 측접하는 상동성을 갖는 외인성으로 공급된 DNA 수선 주형(이중가닥)을 사용하여 Cas-알파 10 유도 이중 가닥 파손(double strand break: DSB) 후 ade2 유전자에 (DNA 수선 결과에 따라서) 1 또는 2개의 조기 중단 코돈을 도입하였다. 수선 주형의 표적화를 피하기 위해, 또한 Cas-알파 10에 대한 PAM 영역에서 T의 A로의 변화를 포함하였다. 도 19b는 수선 주형과 Cas-알파 10 및 sgRNA 발현 작제물이 모두 형질전환될 때 ade2 유전자 붕괴를 나타내는 적색 세포 표현형이 형질전환되고, Cas-알파 엔도뉴클레아제에 의해 이중 가닥 파손이 생성되고 주형(HDR)으로 수선된다는 것을 나타낸다. 도 19c는 3개의 독립적 적색 콜로니("1", "2" 및 "3"으로 표지)에서 적어도 하나의 정지 코돈의 도입을 확인하는 Cas-알파10 ade2 유전자 표적 부위의 서열분석 결과를 나타낸다. 안티센스 프레임에 정지 코돈이 도입되었다. 서열번호 170 사카로마이세스 세레비시애로부터의 참조 DNA 서열은 서열번호 170으로서 주어지고, 수선 주형 DNA는 서열번호 171이며, 적색 콜로니 1 수선 결과 1은 서열번호 172이고, 적색 콜로니 1 수선 결과 2는 서열번호 173이며, 적색 콜로니 2 수선 결과 1은 서열번호 174이고, 적색 콜로니 3 수선 결과 1은 서열번호 175이며, 적색 콜로니 3 수선 결과 2는 서열번호 176이다.
도 20은 일부 Cas-알파 오솔로그 중의 계통발생 관계를 나타낸다. 3가지 하위 그룹이 확인되었다(I, II 및 III). 그룹 I은 계통군 1(칸디데이트 아르케아(Candidate Archaea) 및 아우레아박테리아(Aureabacteria)(Cas1, Cas2, Cas4가 전형적으로 좌위에서 암호화됨))을 포함하였다. 그룹 II는 계통군 2(산수균문(Aquificae)(설퍼리하이드로제니비움(Sulfurihydrogenibium) 및 하이드로게니비르가(Hydrogenivirga) 속) 및 델타프로테오박테리아(Deltaproteobacteria)(데설포비브리오(Desulfovibrio) 속)), 계통군 3(칸디데이트 아르케아(전형적으로 좌위에서 암호화된 Cas1, Cas2 및 Cas4)), 계통군 4(박테로이데테스(Bacteroidetes)(프레보텔라(Prevotella) 및 박테로이데스(Bacteroides) 속)), 계통군 5(칸디데이트 레비박테리움(Candidate Levybacterium)) 및 계통군 6(클로스트리디아(Clostridia)(도레아(Dorea), 루미노코커스(Ruminococcus), 클로스트리듐(Clostridium), 클로스트리디오이데스(Clostridioides), 펩토콜스트리디움(Peptocolstridium), 셀룰로실리티쿰(Cellulosilyticym), 유박테리움(Eubacterium), 신트로포모나스(Syntrophomonas) 속))을 포함하였다. 그룹 III은 계통군 7(바실리(Bacilli)(바실러스(Bacillus), 아시디바실러스(Acidibacillus), 아뉴리니바실러스(Aneurinibacillus), 브레비바실러스(Brevibacillus), 파라게오바실러스(Parageobacillus), 알리사이클로바실러스(Alicyclobacillus) 속)), 계통군 8(네가티비쿠테스(Negativicutes)(파스콜락토박테리움(Phascolarctobacterium) 속)) 및 계통군 9(플라보박테리아(Flavobacteriia)(플라보박테리움(Flavobacterium) 속))을 포함하였다. 다이아몬드 기호는 본 명세서에 기재된 Cas-알파 1 내지 11 엔도뉴클레아제를 나타낸다.
도 21a는 트랜스포사제(Tnp) 관련 Cas-알파 CRISPR 시스템을 도시한다. 예 둘 다에서, Tnp-유사 단백질은 Cas-알파 엔도뉴클레아제 및 CRISPR 어레이 상류에서 암호화된다. 도 21b는 Cas-알파 이중가닥 DNA 표적 부위 내의 또는 근처의 DNA 페이로드(파선의 원)를 통합하도록 제기된 Tnp-유사 단백질 및 표적 부위와 복합체화된 Cas-알파 엔도뉴클레아제 및 가이드 RNA를 나타낸다.
본 명세서에 첨부된 서열 설명 및 서열목록은 37 C.F.R. §§1.821 및 1.825에 명시된 바와 같이 특허 출원에서 뉴클레오티드 및 아미노산 서열 공개를 규율하는 규칙을 따른다. 서열 설명은 본 명세서에 참조로 포함되는 37 C.F.R. §§ 1.821 및 1.825에 정의된 바와 같은 아미노산에 대한 3글자 암호를 포함한다.
서열번호 1은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 좌위 PRT 서열에서 암호화된 Cas1이다.
서열번호 2는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 좌위 PRT 서열에서 암호화된 Cas1이다.
서열번호 3은 칸디다투스 아우레아박테리아 박테리움으로부터의 Cas-알파 3 좌위 PRT 서열에서 암호화된 Cas1이다.
서열번호 4는 비배양 고세균으로부터의 Cas-알파 4 좌위 PRT 서열에서 암호화된 Cas1이다.
서열번호 5는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 좌위 PRT 서열에서 암호화된 Cas2이다.
서열번호 6은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 좌위 PRT 서열에서 암호화된 Cas2이다.
서열번호 7은 칸디다투스 칸디다투스 아우레아박테리아 박테리움으로부터의 Cas-알파 3 좌위 PRT 서열에서 암호화된 Cas2이다.
서열번호 8은 비배양 고세균으로부터의 Cas-알파 4 좌위 PRT 서열에서 암호화된 Cas2이다.
서열번호 9는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 좌위 PRT 서열에서 암호화된 Cas4이다.
서열번호 10은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 좌위 PRT 서열에서 암호화된 Cas4이다.
서열번호 11은 칸디다투스 아우레아박테리아 박테리움으로부터의 Cas-알파 3 좌위 PRT 서열에서 암호화된 Cas4이다.
서열번호 12는 비배양 고세균으로부터의 Cas-알파 4 좌위 PRT 서열에서 암호화된 Cas4이다.
서열번호 13은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 14는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 15는 칸디다투스 아우레아박테리아 박테리움으로부터의 Cas-알파 3 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 16은 비배양 고세균으로부터의 Cas-알파 4 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 17은 칸디다투스 미크라르카에오타 고세균 Cas-알파 1 엔도뉴클레아제(Cas14b4) PRT 서열이다.
서열번호 18은 칸디다투스 미크라르카에오타 고세균로부터의 Cas-알파 2 엔도뉴클레아제 PRT 서열이다.
서열번호 19는 칸디다투스 아우레아박테리아 박테리움으로부터의 Cas-알파 3 엔도뉴클레아제 PRT 서열이다.
서열번호 20은 비배양 고세균으로부터의 Cas-알파 4 엔도뉴클레아제(Cas14a1) PRT 서열이다.
서열번호 21은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 좌위 DNA 서열이다.
서열번호 22는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 좌위 DNA 서열이다.
서열번호 23은 칸디다투스 아우레아박테리아 박테리움으로부터의 Cas-알파 3 좌위 DNA 서열이다.
서열번호 24는 비배양 고세균으로부터의 Cas-알파 4 좌위 DNA 서열이다.
서열번호 25는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 5 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 26은 비배양 고세균으로부터의 Cas-알파 6 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 27은 파라게오바실러스 써모글루코시다시우스로부터의 Cas-알파 7 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 28은 아시디바실러스 설푸록시단스로부터의 Cas-알파 8 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 29는 루미노코커스 종으로부터의 Cas-알파 9 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 30은 신트로포모나스 팔미타티카로부터의 Cas-알파 10 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 31은 클루스트리듐 노비로부터의 Cas-알파 11 엔도뉴클레아제 유전자 DNA 서열이다.
서열번호 32는 칸디다투스 미크라르카에오타 고세균로부터의 Cas-알파 5 엔도뉴클레아제 PRT 서열이다.
서열번호 33은 비배양 고세균으로부터의 Cas-알파 6 엔도뉴클레아제 PRT 서열이다.
서열번호 34는 파라게오바실러스 써모글루코시다시우스로부터의 Cas-알파 7 엔도뉴클레아제 PRT 서열이다.
서열번호 35는 아시디바실러스 설푸록시단스로부터의 Cas-알파 8 엔도뉴클레아제 PRT 서열이다.
서열번호 36은 루미노코커스 종으로부터의 Cas-알파 9 엔도뉴클레아제 PRT 서열이다.
서열번호 37은 신트로포모나스 팔미타티카로부터의 Cas-알파 10 엔도뉴클레아제 PRT 서열이다.
서열번호 38은 클루스트리듐 노비로부터의 Cas-알파 11 엔도뉴클레아제 PRT 서열이다.
서열번호 39는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 5 좌위 DNA 서열이다.
서열번호 40은 비배양 고세균으로부터의 Cas-알파 6 좌위 DNA 서열이다.
서열번호 41은 파라게오바실러스 써모글루코시다시우스로부터의 Cas-알파 7 좌위 DNA 서열이다.
서열번호 42는 아시디바실러스 설푸록시단스로부터의 Cas-알파 8 좌위 DNA 서열이다.
서열번호 43은 루미노코커스 종으로부터의 Cas-알파 9 좌위 DNA 서열이다.
서열번호 44는 신트로포모나스 팔미타티카로부터의 Cas-알파 10 좌위 DNA 서열이다.
서열번호 45는 클루스트리듐 노비로부터의 Cas-알파 11 좌위 DNA 서열이다.
서열번호 46은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 반복부 공통 DNA 서열이다.
서열번호 47은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 반복부 공통 DNA 서열이다.
서열번호 48은 칸디다투스 아우레아박테리아 박테리움으로부터의 Cas-알파 3 반복부 공통 DNA 서열이다.
서열번호 49는 비배양 고세균으로부터의 Cas-알파 4 반복부 공통 DNA 서열이다.
서열번호 50은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 5 반복부 공통 DNA 서열이다.
서열번호 51은 비배양 고세균으로부터의 Cas-알파 6 반복부 공통 DNA 서열이다.
서열번호 52는 파라게오바실러스 써모글루코시다시우스로부터의 Cas-알파 7 반복부 공통 DNA 서열이다.
서열번호 53은 아시디바실러스 설푸록시단스로부터의 Cas-알파 8 반복부 공통 DNA 서열이다.
서열번호 54는 루미노코커스 종으로부터의 Cas-알파 9 반복부 공통 DNA 서열이다.
서열번호 55는 신트로포모나스 팔미타티카로부터의 Cas-알파 10 반복부 공통 DNA 서열이다.
서열번호 56는 클루스트리듐 노비로부터의 Cas-알파 11 반복부 공통 DNA 서열이다.
서열번호 57은 인공(Artificial)으로부터의 Cas-알파 1 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 58은 인공으로부터의 Cas-알파 2 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 59는 인공으로부터의 Cas-알파 4 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 60은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 tracrRNA 형태 1 RNA 서열이다.
서열번호 61은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 tracrRNA 형태 2 RNA 서열이다.
서열번호 62는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 tracrRNA 형태 3 RNA 서열이다.
서열번호 63은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 1 tracrRNA 형태 4 RNA 서열이다.
서열번호 64는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 tracrRNA 형태 1 RNA 서열이다.
서열번호 65는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 tracrRNA 형태 2 RNA 서열이다.
서열번호 66은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 tracrRNA 형태 3 RNA 서열이다.
서열번호 67은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 tracrRNA 형태 4 RNA 서열이다.
서열번호 68은 비배양 고세균으로부터의 Cas-알파 4 tracrRNA 형태 1 RNA 서열이다.
서열번호 69는 인공으로부터의 Cas-알파 1 sgRNA 형태 1 RNA 서열이다.
서열번호 70은 인공으로부터의 Cas-알파 1 sgRNA 형태 2 RNA 서열이다.
서열번호 71은 인공으로부터의 Cas-알파 1 sgRNA 형태 3 RNA 서열이다.
서열번호 72는 인공으로부터의 Cas-알파 1 sgRNA 형태 4 RNA 서열이다.
서열번호 73은 인공으로부터의 Cas-알파 2 sgRNA 형태 1 RNA 서열이다.
서열번호 74는 인공으로부터의 Cas-알파 2 sgRNA 형태 2 RNA 서열이다.
서열번호 75는 인공으로부터의 Cas-알파 2 sgRNA 형태 3 RNA 서열이다.
서열번호 76은 인공으로부터의 Cas-알파 2 sgRNA 형태 4 RNA 서열이다.
서열번호 77은 인공으로부터의 Cas-알파 4 sgRNA 형태 1 RNA 서열이다.
서열번호 78은 인공으로부터의 T2 스페이서 DNA 서열이다.
서열번호 79는 인공으로부터의 T2 DNA 서열을 표적화하도록 조작된 완전한 Cas-알파 1 좌위이다.
서열번호 80은 인공으로부터의 T2 DNA 서열을 표적화하도록 조작된 최소 Cas-알파 1 좌위이다.
서열번호 81은 인공으로부터의 10× 히스티딘 태그 PRT 서열이다.
서열번호 82는 인공으로부터의 6× 히스티딘 태그 PRT 서열이다.
서열번호 83은 말토스 결합 단백질 태그 PRT 서열이다.
서열번호 84는 담배 식각 바이러스로부터의 담배 식각 바이러스 절단 부위 PRT 서열이다.
서열번호 85는 인공으로부터의 A1 올리고뉴클레오티드 DNA 서열이다.
서열번호 86은 인공으로부터의 A2 올리고뉴클레오티드 DNA 서열이다.
서열번호 87은 인공으로부터의 R0 올리고뉴클레오티드 DNA 서열이다.
서열번호 88은 인공으로부터의 C0 올리고뉴클레오티드 DNA 서열이다.
서열번호 89는 인공으로부터의 F1 올리고뉴클레오티드 DNA 서열이다.
서열번호 90은 인공으로부터의 R1 올리고뉴클레오티드 DNA 서열이다.
서열번호 91은 인공으로부터의 F1 올리고뉴클레오티드 DNA 서열의 브리지 증폭 부분이다.
서열번호 92는 인공으로부터의 R1 올리고뉴클레오티드 DNA 서열의 브리지 증폭 부분이다.
서열번호 93은 인공으로부터의 F2 올리고뉴클레오티드 DNA 서열이다.
서열번호 94는 인공으로부터의 R2 올리고뉴클레오티드 DNA 서열이다.
서열번호 95는 인공으로부터의 C1 올리고뉴클레오티드 DNA 서열이다.
서열번호 96은 인공으로부터의 표적 DNA 서열의 21번 위치에서의 절단 및 어댑터 결찰로부터 초래된 서열이다.
서열번호 97은 인공으로부터의 서열번호 96 DNA 서열의 어댑터 부분이다.
서열번호 98은 인공으로부터의 서열번호 96 DNA 서열의 표적 부분이다.
서열번호 99는 인공으로부터의 PAM DNA 서열의 서열 5'이다.
서열번호 100은 인공으로부터의 고정된 이중가닥 DNA 표적 DNA 서열이다.
서열번호 101은 인공으로부터의 T2 표적 서열 DNA 서열이다.
서열번호 102는 인공으로부터의 Cas-알파 4 T2-1 sgRNA RNA 서열이다.
서열번호 103은 인공으로부터의 Cas-알파 4 T2-2 sgRNA RNA 서열이다.
서열번호 104는 인공으로부터의 Cas-알파 4 T2-1 crRNA RNA 서열이다.
서열번호 105는 인공으로부터의 Cas-알파 4 T2-2 crRNA RNA 서열이다.
서열번호 106은 솔라눔 투베로섬으로부터의 ST-LS1 인트론 2 DNA 서열이다.
서열번호 107은 유인원 바이러스 40으로부터의 SV40 NLS PRT 서열이다.
서열번호 108은 무스 무스쿨러스로부터의 Nuc NLS PRT 서열이다.
서열번호 109는 제아 메이스로부터의 메이즈 UBI 프로모터 DNA 서열이다.
서열번호 110은 적색야계로부터의 닭 베타-액틴 프로모터 DNA 서열이다.
서열번호 111은 인간 베타-헤르페스바이러스 5로부터의 CMV 인핸서 DNA 서열이다.
서열번호 112는 제아 메이스로부터의 메이즈 UBI 5 프라임 비번역 영역 DNA 서열이다.
서열번호 113은 제아 메이스로부터의 메이즈 UBI 인트론 1 DNA 서열이다.
서열번호 114는 인공으로부터의 혼성 인트론 DNA 서열이다.
서열번호 115는 제아 메이스로부터의 메이즈 U6 중합효소 III 프로모터 DNA 서열이다.
서열번호 116은 호모 사피엔스로부터의 인간 U6 중합효소 III 프로모터 DNA 서열이다.
서열번호 117은 인공으로부터의 Strep II 태그 PRT 서열이다.
서열번호 118은 보스 타우루스로부터의 bGH 폴리(A) 종결자 DNA 서열이다.
서열번호 119는 솔라눔 투베로섬으로부터의 감자 프로테이나제 저해제 II(Pin II) 종결자 DNA 서열이다.
서열번호 120은 제아 메이스로부터의 제아 메이스 Wt 참조(Liguleless 표적 2 및 3) DNA 서열이다.
서열번호 121은 제아 메이스로부터의 돌연변이 1(Liguleless 표적 2 및 3-DNA Exp.) DNA 서열이다.
서열번호 122는 제아 메이스로부터의 돌연변이 2(Liguleless 표적 2 및 3-DNA Exp.) DNA 서열이다.
서열번호 123은 제아 메이스로부터의 돌연변이 3(Liguleless 표적 2 및 3-DNA Exp.) DNA 서열이다.
서열번호 124는 제아 메이스로부터의 돌연변이 4(Liguleless 표적 2 및 3-DNA Exp.) DNA 서열이다.
서열번호 125는 제아 메이스로부터의 돌연변이 5(Liguleless 표적 2 및 3-DNA Exp.) DNA 서열이다.
서열번호 126은 호모 사피엔스로부터의 HEK293 Wt 참조(VEGFA 표적 2) DNA 서열이다.
서열번호 127은 호모 사피엔스로부터의 돌연변이 1(VEGFA 표적 2-RNP) DNA 서열이다.
서열번호 128은 호모 사피엔스로부터의 돌연변이 2(VEGFA 표적 2-RNP) DNA 서열이다.
서열번호 129는 호모 사피엔스로부터의 돌연변이 3(VEGFA 표적 2-RNP) DNA 서열이다.
서열번호 130은 호모 사피엔스로부터의 돌연변이 4(VEGFA 표적 2-RNP) DNA 서열이다.
서열번호 131은 호모 사피엔스로부터의 돌연변이 5(VEGFA 표적 2-RNP) DNA 서열이다.
서열번호 132는 호모 사피엔스로부터의 HEK293 Wt 참조(VEGFA 표적 3) DNA 서열이다.
서열번호 133은 호모 사피엔스로부터의 돌연변이 1(VEGFA 표적 3-RNP) DNA 서열이다.
서열번호 134는 호모 사피엔스로부터의 돌연변이 1(VEGFA 표적 3-DNA Exp) DNA 서열이다.
서열번호 135는 호모 사피엔스로부터의 돌연변이 2(VEGFA 표적 3-DNA Exp) DNA 서열이다.
서열번호 136은 사카로마이세스 세레비시애로부터의 ROX3 프로모터 DNA 서열이다.
서열번호 137은 사카로마이세스 세레비시애로부터의 GAL 프로모터 DNA 서열이다.
서열번호 138은 인공으로부터의 HH 리보자임(여기서, N은 리보자임의 6개의 뉴클레오티드 3'에 대해 상보성인 뉴클레오티드를 나타냄) DNA 서열이다.
서열번호 139는 D형 간염 바이러스로부터의 HDV 리보자임 DNA 서열이다.
서열번호 140은 사카로마이세스 세레비시애로부터의 SNR52 프로모터 DNA 서열이다.
서열번호 141은 사카로마이세스 세레비시애로부터의 SUP4 종결자 DNA 서열이다.
서열번호 142는 인공으로부터의 도 15c 상부 서열 DNA 서열이다.
서열번호 143은 인공으로부터의 도 15c 하부 서열 DNA 서열이다.
서열번호 144는 제아 메이스로부터의 도 18a 참조 DNA 서열이다.
서열번호 145는 제아 메이스로부터의 돌연변이 1 DNA 서열이다.
서열번호 146은 제아 메이스로부터의 돌연변이 2 DNA 서열이다.
서열번호 147는 제아 메이스로부터의 돌연변이 3 DNA 서열이다.
서열번호 148은 제아 메이스로부터의 돌연변이 4 DNA 서열이다.
서열번호 149는 제아 메이스로부터의 돌연변이 5 DNA 서열이다.
서열번호 150은 제아 메이스로부터의 돌연변이 6 DNA 서열이다.
서열번호 151은 제아 메이스로부터의 돌연변이 7 DNA 서열이다.
서열번호 152는 제아 메이스로부터의 돌연변이 8 DNA 서열이다.
서열번호 153은 제아 메이스로부터의 돌연변이 9 DNA 서열이다.
서열번호 154는 제아 메이스로부터의 돌연변이 10 DNA 서열이다.
서열번호 155는 제아 메이스로부터의 돌연변이 11 DNA 서열이다.
서열번호 156은 제아 메이스로부터의 돌연변이 12 DNA 서열이다.
서열번호 157은 제아 메이스로부터의 돌연변이 13 DNA 서열이다.
서열번호 158은 제아 메이스로부터의 돌연변이 14 DNA 서열이다.
서열번호 159는 제아 메이스로부터의 돌연변이 15 DNA 서열이다.
서열번호 160은 제아 메이스로부터의 돌연변이 16 DNA 서열이다.
서열번호 161은 제아 메이스로부터의 돌연변이 17 DNA 서열이다.
서열번호 162는 제아 메이스로부터의 돌연변이 18 DNA 서열이다.
서열번호 163은 제아 메이스로부터의 돌연변이 19 DNA 서열이다.
서열번호 164는 제아 메이스로부터의 도 18b 참조 DNA 서열이다.
서열번호 165는 제아 메이스로부터의 돌연변이 1 DNA 서열이다.
서열번호 166은 제아 메이스로부터의 돌연변이 2 DNA 서열이다.
서열번호 167은 제아 메이스로부터의 돌연변이 3 DNA 서열이다.
서열번호 168은 제아 메이스로부터의 돌연변이 4 DNA 서열이다.
서열번호 169는 제아 메이스로부터의 돌연변이 5 DNA 서열이다.
서열번호 170은 사카로마이세스 세리비시애로부터의 도 19c 참조 DNA 서열이다.
서열번호 171은 인공으로부터의 수선 주형 DNA 서열이다.
서열번호 172는 사카로마이세스 세레비시애로부터의 수선 결과 1 DNA 서열이다.
서열번호 173은 사카로마이세스 세레비시애로부터의 수선 결과 2 DNA 서열이다.
서열번호 174는 사카로마이세스 세레비시애로부터의 수선 결과 1 DNA 서열이다.
서열번호 175는 사카로마이세스 세레비시애로부터의 수선 결과 1 DNA 서열이다.
서열번호 176는 사카로마이세스 세레비시애로부터의 수선 결과 2 DNA 서열이다.
서열번호 177은 인공으로부터의 Cas-알파 3 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 178은 인공으로부터의 Cas-알파 5 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 179는 인공으로부터의 Cas-알파 6 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 180은 인공으로부터의 Cas-알파 7 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 181은 인공으로부터의 Cas-알파 8 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 182는 인공으로부터의 Cas-알파 9 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 183은 인공으로부터의 Cas-알파 10 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 184는 인공으로부터의 Cas-알파 11 crRNA(여기서, N은 임의의 뉴클레오티드를 나타냄) RNA 서열이다.
서열번호 185는 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 tracrRNA 형태 5 RNA 서열이다.
서열번호 186은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 tracrRNA 형태 6 RNA 서열이다.
서열번호 187은 칸디다투스 미크라르카에오타 고세균으로부터의 Cas-알파 2 tracrRNA 형태 7 RNA 서열이다.
서열번호 188은 비배양 고세균으로부터의 Cas-알파 6 tracrRNA 형태 1 RNA 서열이다.
서열번호 189는 비배양 고세균으로부터의 Cas-알파 6 tracrRNA 형태 2 RNA 서열이다.
서열번호 190은 비배양 고세균으로부터의 Cas-알파 6 tracrRNA 형태 3 RNA 서열이다.
서열번호 191은 비배양 고세균으로부터의 Cas-알파 6 tracrRNA 형태 4 RNA 서열이다.
서열번호 192는 파라게오바실러스 써모글루코시다시우스로부터의 Cas-알파 7 tracrRNA 형태 1 RNA 서열이다.
서열번호 193은 파라게오바실러스 써모글루코시다시우스로부터의 Cas-알파 7 tracrRNA 형태 2 RNA 서열이다.
서열번호 194는 아시디바실러스 설푸록시단스로부터의 Cas-알파 8 tracrRNA 형태 1 RNA 서열이다.
서열번호 195는 아시디바실러스 설푸록시단스로부터의 Cas-알파 8 tracrRNA 형태 2 RNA 서열이다.
서열번호 196은 아시디바실러스 설푸록시단스로부터의 Cas-알파 8 tracrRNA 형태 3 RNA 서열이다.
서열번호 197은 루미노코커스 종으로부터의 Cas-알파 9 tracrRNA 형태 1 RNA 서열이다.
서열번호 198은 루미노코커스 종으로부터의 Cas-알파 9 tracrRNA 형태 2 RNA 서열이다.
서열번호 199는 신트로포모나스 팔미타티카로부터의 Cas-알파 10 tracrRNA 형태 1 RNA 서열이다.
서열번호 200은 신트로포모나스 팔미타티카로부터의 Cas-알파 10 tracrRNA 형태 2 RNA 서열이다.
서열번호 201은 신트로포모나스 팔미타티카로부터의 Cas-알파 10 tracrRNA 형태 3 RNA 서열이다.
서열번호 202는 신트로포모나스 팔미타티카로부터의 Cas-알파 10 tracrRNA 형태 4 RNA 서열이다.
서열번호 203은 신트로포모나스 팔미타티카로부터의 Cas-알파 10 tracrRNA 형태 5 RNA 서열이다.
서열번호 204는 클루스트리듐 노비로부터의 Cas-알파 11 tracrRNA 형태 1 RNA 서열이다.
서열번호 205는 클루스트리듐 노비로부터의 Cas-알파 11 tracrRNA 형태 2 RNA 서열이다.
서열번호 206은 클루스트리듐 노비로부터의 Cas-알파 11 tracrRNA 형태 3 RNA 서열이다.
서열번호 207은 클루스트리듐 노비로부터의 Cas-알파 11 tracrRNA 형태 4 RNA 서열이다.
서열번호 208은 인공으로부터의 Cas-알파 2 sgRNA 형태 5 RNA 서열이다.
서열번호 209는 인공으로부터의 Cas-알파 2 sgRNA 형태 6 RNA 서열이다.
서열번호 210은 인공으로부터의 Cas-알파 2 sgRNA 형태 7 RNA 서열이다.
서열번호 211은 인공으로부터의 Cas-알파 6 sgRNA 형태 1 RNA 서열이다.
서열번호 212는 인공으로부터의 Cas-알파 6 sgRNA 형태 2 RNA 서열이다.
서열번호 213은 인공으로부터의 Cas-알파 6 sgRNA 형태 3 RNA 서열이다.
서열번호 214는 인공으로부터의 Cas-알파 6 sgRNA 형태 4 RNA 서열이다.
서열번호 215는 인공으로부터의 Cas-알파 7 sgRNA 형태 1 RNA 서열이다.
서열번호 216은 인공으로부터의 Cas-알파 7 sgRNA 형태 2 RNA 서열이다.
서열번호 217은 인공으로부터의 Cas-알파 7 sgRNA 형태 3 RNA 서열이다.
서열번호 218은 인공으로부터의 Cas-알파 8 sgRNA 형태 1 RNA 서열이다.
서열번호 219는 인공으로부터의 Cas-알파 8 sgRNA 형태 2 RNA 서열이다.
서열번호 220은 인공으로부터의 Cas-알파 8 sgRNA 형태 3 RNA 서열이다.
서열번호 221은 인공으로부터의 Cas-알파 8 sgRNA 형태 4 RNA 서열이다.
서열번호 222는 인공으로부터의 Cas-알파 9 sgRNA 형태 1 RNA 서열이다.
서열번호 223은 인공으로부터의 Cas-알파 9 sgRNA 형태 2 RNA 서열이다.
서열번호 224는 인공으로부터의 Cas-알파 9 sgRNA 형태 3 RNA 서열이다.
서열번호 225는 인공으로부터의 Cas-알파 10 sgRNA 형태 1 RNA 서열이다.
서열번호 226은 인공으로부터의 Cas-알파 10 sgRNA 형태 2 RNA 서열이다.
서열번호 227은 인공으로부터의 Cas-알파 10 sgRNA 형태 3 RNA 서열이다.
서열번호 228은 인공으로부터의 Cas-알파 10 sgRNA 형태 4 RNA 서열이다.
서열번호 229는 인공으로부터의 Cas-알파 10 sgRNA 형태 5 RNA 서열이다.
서열번호 230은 인공으로부터의 Cas-알파 11 sgRNA 형태 1 RNA 서열이다.
서열번호 231은 인공으로부터의 Cas-알파 11 sgRNA 형태 2 RNA 서열이다.
서열번호 232는 인공으로부터의 Cas-알파 11 sgRNA 형태 3 RNA 서열이다.
서열번호 233은 인공으로부터의 Cas-알파 11 sgRNA 형태 4 RNA 서열이다.
서열번호 234는 인공으로부터의 Cas-알파 11 sgRNA 형태 5 RNA 서열이다.
서열번호 235는 인공으로부터의 Cas-알파 4 제아 메이스 코돈 최적화된 유전자 DNA 서열이다.
서열번호 236은 인공으로부터의 Cas-알파 10 제아 메이스 코돈 최적화된 유전자 DNA 서열이다.
서열번호 237은 인공으로부터의 Cas-알파 10 사카로마이세스 세레비시애 코돈 최적화된 유전자 DNA 서열이다.
서열번호 238은 인공으로부터의 Cas-알파 4 sgRNA 골격 RNA 서열이다.
서열번호 239는 인공으로부터의 Cas-알파 10 sgRNA 골격 RNA 서열이다.
서열번호 240은 인공으로부터의 Cas-알파 4 Liguleless 2 sgRNA 표적 서열 RNA 서열이다.
서열번호 241은 인공으로부터의 Cas-알파 4 Liguleless 3 sgRNA 표적 서열 RNA 서열이다.
서열번호 242는 인공으로부터의 Cas-알파 10 nptII sgRNA 표적 서열 RNA 서열이다.
서열번호 243은 인공으로부터의 Cas-알파 10 ms26 sgRNA 표적 서열 RNA 서열이다.
서열번호 244는 인공으로부터의 Cas-알파 10 ade2 sgRNA 표적 서열 RNA 서열이다.
서열번호 245는 인공으로부터의 Cas-알파 4 VEGFA 2 sgRNA 표적 서열 RNA 서열이다.
서열번호 246은 인공으로부터의 Cas-알파 4 VEGFA 3 sgRNA 표적 서열 RNA 서열이다.
서열번호 247은 인공으로부터의 Cas-알파 4 sgRNA 표적화 Liguleless 2 RNA 서열이다.
서열번호 248은 인공으로부터의 Cas-알파 4 sgRNA 표적화 Liguleless 3 RNA 서열이다.
서열번호 249는 인공으로부터의 Cas-알파 10 sgRNA 표적화 nptII RNA 서열이다.
서열번호 250은 인공으로부터의 Cas-알파 10 sgRNA 표적화 ms26 RNA 서열이다.
서열번호 251은 인공으로부터의 Cas-알파 10 sgRNA 표적화 ade2 RNA 서열이다.
서열번호 252는 인공으로부터의 Cas-알파 4 sgRNA 표적화 VEGFA 2 RNA 서열이다.
서열번호 253은 인공으로부터의 Cas-알파 4 sgRNA 표적화 VEGFA 3 RNA 서열이다.
서열번호 254는 클로스트리디오이데스 디피실로부터의 Cas-알파 12 엔도뉴클레아제 PRT 서열이다.
서열번호 255는 클루스트리듐 파라푸트리피쿰으로부터의 Cas-알파 13 엔도뉴클레아제 PRT 서열이다.
서열번호 256은 클루스트리듐 노비로부터의 Cas-알파 14 엔도뉴클레아제 PRT 서열이다.
서열번호 257은 루미노코커스 알버스로부터의 Cas-알파 15 엔도뉴클레아제 PRT 서열이다.
서열번호 258은 클루스트리듐 히라노니스로부터의 Cas-알파 16 엔도뉴클레아제 PRT 서열이다.
서열번호 259는 클루스트리듐 이후미로부터의 Cas-알파 17 엔도뉴클레아제 PRT 서열이다.
서열번호 260은 셀룰로실리티쿰 루미니콜라로부터의 Cas-알파 18 엔도뉴클레아제 PRT 서열이다.
서열번호 261은 유박테리움 시라에움으로부터의 Cas-알파 19 엔도뉴클레아제 PRT 서열이다.
서열번호 262는 클로스트리듐 보툴리눔으로부터의 Cas-알파 20 엔도뉴클레아제 PRT 서열이다.
서열번호 263은 클로스트리듐 보툴리눔으로부터의 Cas-알파 21 엔도뉴클레아제 PRT 서열이다.
서열번호 264는 루미니클로스트리듐 훈가테이로부터의 Cas-알파 22 엔도뉴클레아제 PRT 서열이다.
서열번호 265는 데설포비브리오 프럭토시보란스로부터의 Cas-알파 23 엔도뉴클레아제 PRT 서열이다.
서열번호 266은 바실러스 토요엔시스로부터의 Cas-알파 24 엔도뉴클레아제 PRT 서열이다.
서열번호 267은 클루스트리듐 파라푸트리피쿰으로부터의 Cas-알파 25 엔도뉴클레아제 PRT 서열이다.
서열번호 268은 루스트리듐 벤트리쿨리로부터의 Cas-알파 26 엔도뉴클레아제 PRT 서열이다.
서열번호 269는 루미노코커스 종으로부터의 Cas-알파 27 엔도뉴클레아제 PRT 서열이다.
서열번호 270은 루미노코커스 종으로부터의 Cas-알파 28 엔도뉴클레아제 PRT 서열이다.
서열번호 271은 펩토클로스트리듐 종으로부터의 Cas-알파 29 엔도뉴클레아제 PRT 서열이다.
서열번호 272는 바실러스 종으로부터의 Cas-알파 30 엔도뉴클레아제 PRT 서열이다.
서열번호 273은 클로스트리디오이데스 디피실로부터의 Cas-알파 31 엔도뉴클레아제 PRT 서열이다.
서열번호 274는 클로스트리디오이데스 디피실로부터의 Cas-알파 32 엔도뉴클레아제 PRT 서열이다.
서열번호 275는 비배양 고세균으로부터의 Cas-알파 33 엔도뉴클레아제 PRT 서열이다.
서열번호 276은 비배양 고세균으로부터의 Cas-알파 34 엔도뉴클레아제 PRT 서열이다.
서열번호 277은 비배양 고세균으로부터의 Cas-알파 35 엔도뉴클레아제 PRT 서열이다.
서열번호 278은 비배양 고세균으로부터의 Cas-알파 36 엔도뉴클레아제 PRT 서열이다.
서열번호 279는 비배양 고세균으로부터의 Cas-알파 37 엔도뉴클레아제 PRT 서열이다.
서열번호 280은 비배양 고세균으로부터의 Cas-알파 38 엔도뉴클레아제 PRT 서열이다.
서열번호 281은 비배양 고세균으로부터의 Cas-알파 39 엔도뉴클레아제 PRT 서열이다.
서열번호 282는 비배양 고세균으로부터의 Cas-알파 40 엔도뉴클레아제 PRT 서열이다.
서열번호 283은 비배양 고세균으로부터의 Cas-알파 41 엔도뉴클레아제 PRT 서열이다.
서열번호 284는 클로스트리디오이데스 디피실로부터의 Cas-알파 42 엔도뉴클레아제 PRT 서열이다.
서열번호 285는 데설포비브리오 프럭토시보란스로부터의 Cas-알파 43 엔도뉴클레아제 PRT 서열이다.
서열번호 286은 클로스트리듐 보툴리눔으로부터의 Cas-알파 44 엔도뉴클레아제 PRT 서열이다.
서열번호 287은 클로스트리디오이데스 디피실로부터의 Cas-알파 45 엔도뉴클레아제 PRT 서열이다.
서열번호 288은 클로스트리디오이데스 디피실로부터의 Cas-알파 46 엔도뉴클레아제 PRT 서열이다.
서열번호 289는 클로스트리디오이데스 디피실로부터의 Cas-알파 47 엔도뉴클레아제 PRT 서열이다.
서열번호 290은 클로스트리디오이데스 디피실로부터의 Cas-알파 48 엔도뉴클레아제 PRT 서열이다.
서열번호 291은 클로스트리디오이데스 디피실로부터의 Cas-알파 49 엔도뉴클레아제 PRT 서열이다.
서열번호 292는 클로스트리디오이데스 디피실로부터의 Cas-알파 50 엔도뉴클레아제 PRT 서열이다.
서열번호 293은 클로스트리디오이데스 디피실로부터의 Cas-알파 51 엔도뉴클레아제 PRT 서열이다.
서열번호 294는 클로스트리디오이데스 디피실로부터의 Cas-알파 52 엔도뉴클레아제 PRT 서열이다.
서열번호 295는 클로스트리디오이데스 디피실로부터의 Cas-알파 53 엔도뉴클레아제 PRT 서열이다.
서열번호 296은 클로스트리디오이데스 디피실로부터의 Cas-알파 54 엔도뉴클레아제 PRT 서열이다.
서열번호 297은 클루스트리듐 히라노니스로부터의 Cas-알파 55 엔도뉴클레아제 PRT 서열이다.
서열번호 298은 클로스트리디오이데스 디피실로부터의 Cas-알파 56 엔도뉴클레아제 PRT 서열이다.
서열번호 299는 아네우리니바실러스 다니쿠스로부터의 Cas-알파 57 엔도뉴클레아제 PRT 서열이다.
서열번호 300은 파라게오바실러스 써모글루코시다시우스로부터의 Cas-알파 58 엔도뉴클레아제 PRT 서열이다.
서열번호 301은 브레비바실러스 센트로스포루스로부터의 Cas-알파 59 엔도뉴클레아제 PRT 서열이다.
서열번호 302는 클루스트리듐 파스테우리아눔으부터의 Cas-알파 60 엔도뉴클레아제 PRT 서열이다.
서열번호 303은 유박테리움 시라에움으로부터의 Cas-알파 61 엔도뉴클레아제 PRT 서열이다.
서열번호 304는 바실러스 토요엔시스로부터의 Cas-알파 62 엔도뉴클레아제 PRT 서열이다.
서열번호 305는 루미노코커스 종으로부터의 Cas-알파 63 엔도뉴클레아제 PRT 서열이다.
서열번호 306은 루미노코커스 종으로부터의 Cas-알파 64 엔도뉴클레아제 PRT 서열이다.
서열번호 307은 클루스트리듐 페르프링겐스부터의 Cas-알파 65 엔도뉴클레아제 PRT 서열이다.
서열번호 308은 바실러스 튜링겐시스로부터의 Cas-알파 66 엔도뉴클레아제 PRT 서열이다.
서열번호 309는 클루스트리듐 페르프링겐스부터의 Cas-알파 67 엔도뉴클레아제 PRT 서열이다.
서열번호 310은 바실러스 세레우스로부터의 Cas-알파 68 엔도뉴클레아제 PRT 서열이다.
서열번호 311은 바실러스 토요엔시스로부터의 Cas-알파 69 엔도뉴클레아제 PRT 서열이다.
서열번호 312는 바실러스 토요엔시스로부터의 Cas-알파 70 엔도뉴클레아제 PRT 서열이다.
서열번호 313은 바실러스 토요엔시스로부터의 Cas-알파 71 엔도뉴클레아제 PRT 서열이다.
서열번호 314는 리사이클로바실러스 아시도테레스트리스로부터의 Cas-알파 72 엔도뉴클레아제 PRT 서열이다.
서열번호 315는 클루스트리듐 테타니부터의 Cas-알파 73 엔도뉴클레아제 PRT 서열이다.
서열번호 316은 칸디다투스 레비박테리아 박테리움으로부터의 Cas-알파 74 엔도뉴클레아제 PRT 서열이다.
서열번호 317은 바실러스 세레우스로부터의 Cas-알파 75 엔도뉴클레아제 PRT 서열이다.
서열번호 318은 바실러스 세레우스로부터의 Cas-알파 76 엔도뉴클레아제 PRT 서열이다.
서열번호 319는 바실러스 세레우스로부터의 Cas-알파 77 엔도뉴클레아제 PRT 서열이다.
서열번호 320은 클루스트리듐 파라푸트리피쿰으로부터의 Cas-알파 78 엔도뉴클레아제 PRT 서열이다.
서열번호 321은 바실러스 세레우스로부터의 Cas-알파 79 엔도뉴클레아제 PRT 서열이다.
서열번호 322는 바실러스 튜링겐시스로부터의 Cas-알파 80 엔도뉴클레아제 PRT 서열이다.
서열번호 323은 바실러스 세레우스로부터의 Cas-알파 81 엔도뉴클레아제 PRT 서열이다.
서열번호 324는 바실러스 토요엔시스로부터의 Cas-알파 82 엔도뉴클레아제 PRT 서열이다.
서열번호 325는 바실러스 세레우스로부터의 Cas-알파 83 엔도뉴클레아제 PRT 서열이다.
서열번호 326은 바실러스 토요엔시스로부터의 Cas-알파 84 엔도뉴클레아제 PRT 서열이다.
서열번호 327은 바실러스 위에드만니로부터의 Cas-알파 85 엔도뉴클레아제 PRT 서열이다.
서열번호 328는 바실러스 세레우스로부터의 Cas-알파 86 엔도뉴클레아제 PRT 서열이다.
서열번호 329는 바실러스 세레우스로부터의 Cas-알파 87 엔도뉴클레아제 PRT 서열이다.
서열번호 330은 바실러스 토요엔시스로부터의 Cas-알파 88 엔도뉴클레아제 PRT 서열이다.
서열번호 331은 바실러스 세레우스로부터의 Cas-알파 89 엔도뉴클레아제 PRT 서열이다.
서열번호 332는 바실러스 토요엔시스로부터의 Cas-알파 90 엔도뉴클레아제 PRT 서열이다.
서열번호 333은 바실러스 튜링겐시스로부터의 Cas-알파 91 엔도뉴클레아제 PRT 서열이다.
서열번호 334는 바실러스 세레우스로부터의 Cas-알파 92 엔도뉴클레아제 PRT 서열이다.
서열번호 335는 바실러스 세레우스로부터의 Cas-알파 93 엔도뉴클레아제 PRT 서열이다.
서열번호 336은 바실러스 세레우스로부터의 Cas-알파 94 엔도뉴클레아제 PRT 서열이다.
서열번호 337은 바실러스 튜링겐시스로부터의 Cas-알파 95 엔도뉴클레아제 PRT 서열이다.
서열번호 338은 바실러스 종으로부터의 Cas-알파 96 엔도뉴클레아제 PRT 서열이다.
서열번호 339는 바실러스 세레우스로부터의 Cas-알파 97 엔도뉴클레아제 PRT 서열이다.
서열번호 340은 바실러스 세레우스로부터의 Cas-알파 98 엔도뉴클레아제 PRT 서열이다.
서열번호 341은 바실러스 튜링겐시스로부터의 Cas-알파 99 엔도뉴클레아제 PRT 서열이다.
서열번호 342는 바실러스 종으로부터의 Cas-알파 100 엔도뉴클레아제 PRT 서열이다.
서열번호 343은 프레보텔라 코프리로부터의 Cas-알파 101 엔도뉴클레아제 PRT 서열이다.
서열번호 344는 프레보텔라 코프리로부터의 Cas-알파 102 엔도뉴클레아제 PRT 서열이다.
서열번호 345는 클로스트리디오이데스 디피실로부터의 Cas-알파 103 엔도뉴클레아제 PRT 서열이다.
서열번호 346은 클로스트리디오이데스 디피실로부터의 Cas-알파 104 엔도뉴클레아제 PRT 서열이다.
서열번호 347은 클로스트리디오이데스 디피실로부터의 Cas-알파 105 엔도뉴클레아제 PRT 서열이다.
서열번호 348은 클로스트리디오이데스 디피실로부터의 Cas-알파 106 엔도뉴클레아제 PRT 서열이다.
서열번호 349는 클로스트리디오이데스 디피실로부터의 Cas-알파 107 엔도뉴클레아제 PRT 서열이다.
서열번호 350은 클로스트리디오이데스 디피실로부터의 Cas-알파 108 엔도뉴클레아제 PRT 서열이다.
서열번호 351은 클로스트리디오이데스 디피실로부터의 Cas-알파 109 엔도뉴클레아제 PRT 서열이다.
서열번호 352는 플라보박테리움 써모필룸으로부터의 Cas-알파 110 엔도뉴클레아제 PRT 서열이다.
서열번호 353은 파스콜락토박테리움 종으로부터의 Cas-알파 111 엔도뉴클레아제 PRT 서열이다.
서열번호 354는 바실러스 슈도마이코이데스로부터의 Cas-알파 112 엔도뉴클레아제 PRT 서열이다.
서열번호 355는 박테로이데스 플레베이우스로부터의 Cas-알파 113 엔도뉴클레아제 PRT 서열이다.
서열번호 356은 클로스트리듐 보툴리눔으로부터의 Cas-알파 114 엔도뉴클레아제 PRT 서열이다.
서열번호 357은 바실러스 슈도마이코이데스로부터의 Cas-알파 115 엔도뉴클레아제 PRT 서열이다.
서열번호 358은 바실러스 슈도마이코이데스로부터의 Cas-알파 116 엔도뉴클레아제 PRT 서열이다.
서열번호 359는 클로스트리듐 보툴리눔으로부터의 Cas-알파 117 엔도뉴클레아제 PRT 서열이다.
서열번호 360은 클로스트리듐 보툴리눔으로부터의 Cas-알파 118 엔도뉴클레아제 PRT 서열이다.
서열번호 361은 클로스트리듐 보툴리눔으로부터의 Cas-알파 119 엔도뉴클레아제 PRT 서열이다.
서열번호 362는 하이드로게니버가 종으로부터의 Cas-알파 120 엔도뉴클레아제 PRT 서열이다.
서열번호 363은 바실러스 메가테리움으로부터의 Cas-알파 121 엔도뉴클레아제 PRT 서열이다.
서열번호 364는 클로스트리듐 팔락스로부터의 Cas-알파 122 엔도뉴클레아제 PRT 서열이다.
서열번호 365는 박테로이데스 플레베이우스로부터의 Cas-알파 123 엔도뉴클레아제 PRT 서열이다.
서열번호 366은 바실러스 튜링겐시스로부터의 Cas-알파 124 엔도뉴클레아제 PRT 서열이다.
서열번호 367은 바실러스 세레우스로부터의 Cas-알파 125 엔도뉴클레아제 PRT 서열이다.
서열번호 368은 클루스트리듐 종으로부터의 Cas-알파 126 엔도뉴클레아제 PRT 서열이다.
서열번호 369는 박테로이데스 플레베이우스로부터의 Cas-알파 127 엔도뉴클레아제 PRT 서열이다.
서열번호 370은 도레아 롱기카테나로부터의 Cas-알파 128 엔도뉴클레아제 PRT 서열이다.
서열번호 371은 설푸리하이드로게니비움 아조렌스로부터의 Cas-알파 129 엔도뉴클레아제 PRT 서열이다.
조성물 및 방법은 신규한 가이드 폴리뉴클레오티드/엔도뉴클레아제 복합체, 가이드 폴리뉴클레오티드, 가이드 RNA 요소, Cas 단백질 및 엔도뉴클레아제뿐만 아니라 엔도뉴클레아제 기능성(도메인)을 포함하는 단백질을 포함하지만, 이들로 제한되지 않는, 신규한 CRISPR 효과기 시스템 및 이러한 시스템을 포함하는 요소를 제공한다. 엔도뉴클레아제, 절단 준비 복합체, 가이드 RNA 및 가이드 RNA/Cas 엔도뉴클레아제 복합체의 직접적인 전달을 위한 조성물 및 방법이 또한 제공된다. 본 발명은 세포 게놈에서의 표적 서열의 게놈 변형, 유전자 편집 및 세포 게놈에 관심 대상의 폴리뉴클레오티드의 삽입을 위한 조성물 및 방법을 추가로 포함한다.
청구범위 및 명세서에 사용된 용어는 달리 명시되지 않는 한 이하에 기재된 바와 같이 정의된다. 명세서 및 첨부된 청구범위에서 사용되는 단수 형태는 문맥상 명확히 달리 지시되지 않는 한, 복수의 지시 대상을 포함함을 유의해야 한다.
정의
본 명세서에서 사용된 "핵산"은 폴리뉴클레오티드를 의미하고 데옥시리보뉴클레오티드 또는 리보뉴클레오티드 염기들의 단일 가닥 중합체 또는 이중 가닥 중합체를 포함한다. 또한 핵산은 단편 및 변형된 뉴클레오티드를 포함할 수 있다. 따라서, 용어 "폴리뉴클레오티드", "핵산 서열", "뉴클레오티드 서열" 및 "핵산 단편"은 선택적으로 합성, 비천연, 또는 변경된 뉴클레오티드 염기를 포함하는 단일 또는 이중 가닥인 RNA 및/또는 DNA 및/또는 RNA-DNA의 중합체를 나타내기 위해 상호 호환적으로 사용된다. 뉴클레오티드(보통 이들의 5'-모노포스페이트 형태로 발견됨)는 다음과 같은 이들의 한 글자 표기에 의해 언급된다: "A"는 아데노신 또는 데옥시아데노신(각각 RNA 또는 DNA에 대하여), "C"는 시아노 또는 데옥시시토신, "G"는 구아노신 또는 데옥시구아노신, "U"는 우리딘, "T"는 데옥시티미딘, "R"은 퓨린(A 또는 G), "Y"는 피리미딘(C 또는 T), "K"는 G 또는 T, "H"는 A 또는 C 또는 T, "I"는 이노신, 및 "N"은 임의의 뉴클레오티드.
용어 "게놈"은 원핵생물 및 진핵생물 세포 또는 유기체 세포에 적용될 때 핵 내에서 발견되는 염색체 DNA뿐만 아니라 세포의 세포내 성분(예를 들어, 미토콘드리아, 또는 색소체) 내에서 발견되는 세포소기관 DNA를 포함한다.
"오픈 리딩 프레임"은 ORF로 약칭된다.
용어 "선택적으로 혼성화한다"는 엄격한 혼성화 조건 하에 비표적 핵산 서열에의 혼성화보다 검출 가능하게 더 큰 정도(예를 들어, 배경에 비해 적어도 2배)의 핵산 서열의 특정 핵산 표적 서열에의 혼성화 및 비표적 핵산의 실질적 배제에 대한 언급을 포함한다. 선택적으로 혼성화하는 서열은 전형적으로 서로 적어도 약 80%의 서열 동일성, 또는 90%의 서열 동일성을 가지며, 100%의 서열 동일성(즉, 완전히 상보성)까지를 포함한다.
용어 "엄격한 조건" 또는 "엄격한 혼성화 조건"은 시험관내 혼성화 분석법에서 프로브가 그 표적 서열에 선택적으로 혼성화하는 조건에 대한 언급을 포함한다. 엄격한 조건은 서열 의존적이며 상황에 따라 다를 것이다. 혼성화 및/또는 세척 조건의 엄격성을 제어함으로써, 프로브와 100% 상보성인 표적 서열을 확인할 수 있다(상동 프로빙). 대안적으로, 엄격 조건은 서열에서 일부 불일치를 허용하여 더 낮은 정도의 유사성이 검출되도록 조정될 수 있다(이종성 프로빙). 일반적으로 프로브는 약 1000개 미만의 뉴클레오티드 길이, 선택적으로 500개 미만의 뉴클레오티드 길이이다. 전형적으로, 엄격한 조건은 pH 7.0 내지 8.3에서 그리고 짧은 프로브(예를 들어, 10개 내지 50개의 뉴클레오티드)의 경우 적어도 약 30℃에서, 긴 프로브(예를 들어, 50개 초과의 뉴클레오티드)의 경우 적어도 약 60℃에서 염 농도가 약 1.5 M Na 이온 미만, 통상적으로 약 0.01 내지 1.0 M Na 이온 농도(또는 다른 염(들))인 조건일 것이다. 엄격한 조건은 포름아미드와 같은 불안정화제의 첨가로 달성될 수도 있다. 예시적인 저 엄격 조건은 37℃에서 30 내지 35% 포름아미드, 1 M NaCl, 1% SDS(나트륨 도데실 설페이트) 완충 용액으로의 혼성화, 및 50 내지 55℃에서 1× 내지 2× SSC(20× SSC = 3.0 M NaCl/0.3 M 삼나트륨 시트레이트) 중 세척을 포함한다. 예시적인 적당한 엄격 조건은 37℃에서 40 내지 45% 포름아미드, 1 M NaCl, 1% SDS 중 혼성화, 및 55 내지 60℃에서 0.5× 내지 1× SSC 중 세척을 포함한다. 예시적인 고 엄격 조건은 37℃에서 50% 포름아미드, 1 M NaCl, 1% SDS 중 혼성화, 및 60 내지 65℃에서 0.1× SSC 중 세척을 포함한다.
"상동성"이란 유사한 DNA 서열을 의미한다. 예를 들어, 공여자 DNA에서 발견되는 "게놈 영역에 대한 상동성 영역"은 세포 또는 유기체 게놈의 주어진 "게놈 영역"과 유사한 서열을 갖는 DNA 영역이다. 상동성 영역은 절단된 표적 부위에서 상동 재조합을 촉진하기에 충분한 임의의 길이일 수 있다. 예를 들어, 상동성 영역이 대응 게놈 영역과 상동 재조합을 겪는 데 충분한 상동성을 갖도록 상동성 영역은 적어도 5개 내지 10개, 5개 내지 15개, 5개 내지 20개, 5개 내지 25개, 5개 내지 30개, 5개 내지 35개, 5개 내지 40개, 5개 내지 45개, 5개 내지 50개, 5개 내지 55개, 5개 내지 60개, 5개 내지 65개, 5개 내지 70개, 5개 내지 75개, 5개 내지 80개, 5개 내지 85개, 5개 내지 90개, 5개 내지 95개, 5개 내지 100개, 5개 내지 200개, 5개 내지 300개, 5개 내지 400개, 5개 내지 500개, 5개 내지 600개, 5개 내지 700개, 5개 내지 800개, 5개 내지 900개, 5개 내지 1000개, 5개 내지 1100개, 5개 내지 1200개, 5개 내지 1300개, 5개 내지 1400개, 5개 내지 1500개, 5개 내지 1600개, 5개 내지 1700개, 5개 내지 1800개, 5개 내지 1900개, 5개 내지 2000개, 5개 내지 2100개, 5개 내지 2200개, 5개 내지 2300개, 5개 내지 2400개, 5개 내지 2500개, 5개 내지 2600개, 5개 내지 2700개, 5개 내지 2800개, 5개 내지 2900개, 5개 내지 3000개, 5개 내지 3100개 이상의 염기 길이를 포함할 수 있다. "충분한 상동성"은 2개의 폴리뉴클레오티드 서열이 상동성 재조합 반응을 위한 기질로서 작용하기에 충분한 구조적 유사성을 갖는다는 것을 나타낸다. 구조적 유사성은 각각의 폴리뉴클레오티드 단편의 전체 길이뿐만 아니라 폴리뉴클레오티드의 서열 유사성을 포함한다. 서열 유사성은 전체 서열 길이에 걸친 백분율 서열 동일성 및/또는 100% 서열 동일성을 갖는 연속된 뉴클레오티드와 같은 국재화된 유사성 및 서열 길이의 일부에 걸친 백분율 서열 동일성을 포함하는 보존된 영역에 의해 기재될 수 있다.
본 명세서에 사용된 바와 같이, "게놈 영역"은 표적 부위의 어느 한 측에 존재하거나 대안적으로 표적 부위의 일부를 또한 포함하는 세포 게놈에서의 염색체의 세그먼트이다. 게놈 영역이 상동성의 대응하는 영역과의 상동성 재조합을 겪기에 충분한 상동성을 갖도록 게놈 영역은 적어도 5개 내지 10개, 5개 내지 15, 5개 내지 20개, 5개 내지 25개, 5개 내지 30개, 5개 내지 35개, 5개 내지 40개, 5개 내지 45개, 5개 내지 50개, 5개 내지 55개, 5개 내지 60개, 5개 내지 65개, 5개 내지 70개, 5개 내지 75개, 5개 내지 80개, 5개 내지 85개, 5개 내지 90개, 5개 내지 95개, 5개 내지 100개, 5개 내지 200개, 5개 내지 300개, 5개 내지 400개, 5개 내지 500개, 5개 내지 600개, 5개 내지 700개, 5개 내지 800개, 5개 내지 900개, 5개 내지 1000개, 5개 내지 1100개, 5개 내지 1200개, 5개 내지 1300개, 5개 내지 1400개, 5개 내지 1500개, 5개 내지 1600개, 5개 내지 1700개, 5개 내지 1800개, 5개 내지 1900개, 5개 내지 2000개, 5개 내지 2100개, 5개 내지 2200개, 5개 내지 2300개, 5개 내지 2400개, 5개 내지 2500개, 5개 내지 2600개, 5개 내지 2700개, 5개 내지 2800개, 5개 내지 2900개, 5개 내지 3000개, 5개 내지 3100개 이상의 염기를 포함한다.
본 명세서에서 사용된 "상동 재조합"(HR)은 상동성 부위에서 2개의 DNA 분자 간의 DNA 단편의 교환을 포함한다. 상동 재조합의 빈도는 여러 인자에 영향을 받는다. 상이한 유기체는 상동 재조합의 양 및 상동 재조합과 비상동 재조합의 상대 비율이 다르다. 일반적으로, 상동성 영역의 길이는 상동성 재조합 사건의 빈도(보다 긴 상동성 영역, 보다 큰 빈도)에 영향을 미친다. 상동 재조합을 관찰하는 데 필요한 상동성 영역의 길이는 또한 종에 따라 다르다. 많은 경우에, 적어도 5 kb의 상동성이 이용되었지만, 상동 재조합은 25 내지 50 bp만큼의 적은 상동성으로 관찰되었다. 예를 들어, 문헌[Singer et al., (1982) Cell 31:25-33; Shen and Huang, (1986) Genetics 112:441-57]; 문헌[Watt et al., (1985) Proc. Natl. Acad. Sci. USA 82:4768-72, Sugawara and Haber, (1992) Mol Cell Biol 12:563-75, Rubnitz and Subramani, (1984) Mol Cell Biol 4:2253-8]; 문헌[Ayares et al., (1986) Proc. Natl. Acad. Sci. USA 83:5199-203]; 문헌[Liskay et al., (1987) Genetics 115:161-7] 참조.
핵산 또는 폴리펩티드 서열의 문맥에서 "서열 동일성" 또는 "동일성"은, 특정 비교 창에 대한 최대 일치를 위해 정렬될 때, 동일한 두 서열 내의 핵산 염기 또는 아미노산 잔기를 나타낸다.
용어 "서열 동일성 백분율"은 비교 창에서 최적으로 정렬된 2개의 서열을 비교하여 결정된 값을 지칭하되, 비교 창 내의 폴리뉴클레오티드 또는 폴리펩티드 서열의 부분은 2개의 서열의 최적 정렬을 위한 (삽입 또는 결실을 포함하지 않는) 기준 서열과 비교하여 삽입 또는 결실(즉, 갭)을 포함할 수 있다. 백분율은, 두 서열에서 동일한 핵산 염기 또는 아미노산 잔기가 나타나는 위치의 개수를 결정하여 일치하는 위치의 개수를 산출하고, 일치하는 위치의 개수를 비교 창 내의 위치의 총 개수로 나누고, 그 결과에 100을 곱하여 서열 동일성의 백분율을 산출함으로써 계산한다. 서열 동일성 백분율의 유용한 예는 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90% 또는 95%, 또는 50% 내지 100%의 임의의 백분율을 포함하지만, 이들로 제한되는 것은 아니다. 이들 동일성은 본 명세서에 기재된 프로그램 중 임의의 것을 사용하여 결정될 수 있다.
서열 정렬 및 동일성 또는 유사성 백분율 계산은 LASERGENE 생물정보학 컴퓨팅 세트(DNASTAR Inc., 미국 위스콘신 주 매디슨 소재)의 MegAlign™ 프로그램을 포함하지만, 이것으로 제한되지 않는 상동 서열을 검출하도록 설계된 다양한 비교 방법을 사용하여 결정될 수 있다. 본 출원의 문맥 내에서, 서열 분석 소프트웨어가 분석에 사용되는 경우, 달리 명시되지 않는 한, 분석 결과는 언급된 프로그램의 "디폴트 값"에 기초할 것이라는 것을 이해할 것이다. 본 명세서에서 사용된 바와 같이, "디폴트 값"은 최초로 초기화될 때, 원래 소프트웨어로 로딩되는 임의의 값 또는 파라미터 세트를 의미할 것이다.
"Clustal V 정렬 방법"은 Clustal V(문헌[Higgins and Sharp, (1989) CABIOS 5:151-153]; 문헌[Higgins et al., (1992) Comput Appl Biosci 8:189-191]에 기술됨)로 명명되고 LASERGENE 생물정보학 컴퓨팅 세트(DNASTAR Inc., 미국 위스콘신주 매디슨 소재)의 MegAlign™ 프로그램에서 발견되는 정렬 방법에 해당한다. 다중 정렬의 경우, 디폴트 값은 GAP PENALTY = 10 및 GAP LENGTH PENALTY = 10에 해당한다. Clustal 방법을 사용하는 단백질 서열의 동일성 백분율의 계산 및 쌍 정렬을 위한 디폴트 파라미터는 KTUPLE = 1, GAP PENALTY = 3, WINDOW = 5 및 DIAGONALS SAVED = 5이다. 핵산의 경우, 이들 파라미터는 KTUPLE = 2, GAP PENALTY = 5, WINDOW = 4 및 DIAGONALS SAVED = 4이다. Clustal V 프로그램을 사용하여 서열을 정렬한 후에는, 동일한 프로그램에서 "서열 거리"표를 보고 "동일성 백분율"을 얻을 수 있다. "Clustal W 정렬 방법"은 Clustal W(Higgins and Sharp, (1989) CABIOS 5:151-153, Higgins et al., (1992) Comput Appl Biosci 8:189-191에 기술됨)로 명명되고 LASERGENE 생물정보학 컴퓨팅 세트(DNASTAR Inc., 미국 위스콘신 주 매디슨 소재)의 MegAlign™ v6.1 프로그램에서 발견되는 정렬 방법에 해당한다. 다중 정렬을 위한 디폴트 파라미터(GAP PENALTY=10, GAP LENGTH PENALTY=0.2, 지연 발산 서열(%)=30, DNA 전이 가중치=0.5, 단백질 가중치 매트릭스=Gonnet 시리즈, DNA 가중치 매트릭스=IUB). 클러스탈 W 프로그램을 사용하여 서열을 정렬한 후에는, 동일한 프로그램에서 "서열 거리"표를 보고 "백분율 동일성"을 얻을 수 있다. 달리 언급되지 않는 한, 본 명세서에 제공된 서열 동일성/유사성 값은 다음의 파라미터를 이용하여 GAP 버전 10(GCG, 캘리포니아주 샌디에이고에 소재한 액설리스(Accelrys))를 이용하여 얻은 값을 지칭한다: 뉴클레오티드 서열에 대한 동일성% 및 유사성%는 갭 생성 페널티 가중치 50 및 갭 길이 연장 페널티 가중치 3, 및 nwsgapdna.cmp 점수 매트릭스를 사용하며; 아미노산 서열에 대한 동일성% 및 유사성%는 GAP 생성 페널티 가중치 8 및 갭 길이 연장 페널티 2, 및 BLOSUM62 점수 매트릭스를 사용함(Henikoff and Henikoff, (1989) Proc. Natl. Acad. Sci. USA 89:10915). GAP는 Needleman and Wunsch, (1970) J Mol Biol 48:443-53의 알고리즘을 사용하여 일치의 수를 최대화하고 갭의 수를 최소화하는 2개의 전체 서열의 정렬을 찾는다. GAP는 가능한 모든 정렬 및 갭 위치를 고려하고, 일치된 염기의 단위로 갭 생성 페널티 및 갭 연장 페널티를 사용하여 가장 많은 수의 일치된 염기와 가장 적은 갭을 갖는 정렬을 생성한다. "BLAST"는 미국 국립생물공학정보센터(NCBI)에서 제공하는, 생물학적 서열 간의 유사성 영역을 찾는 데 사용되는 검색 알고리즘이다. 이 프로그램은 뉴클레오티드 또는 단백질 서열을 서열 데이터베이스와 비교하고 일치의 통계적 유의성을 계산하여 유사성이 무작위로 발생한 것으로 예측되지 않도록 쿼리 서열과 충분한 유사성을 갖는 서열을 확인한다. BLAST는 확인된 서열 및 이들의 질의 서열에 대한 로컬 정렬을 보고한다. 당업자는 여러 수준의 서열 동일성이 다른 종 또는 자연적으로 또는 합성적으로 변형된 종으로부터 폴리펩티드를 확인하는 데 유용하고, 이러한 폴리펩티드가 동일하거나 유사한 기능 또는 활성을 갖는다는 것을 잘 이해한다. 동일성 백분율의 유용한 예는 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90% 또는 95%, 또는 50% 내지 100%의 임의의 백분율을 포함하지만, 이들로 제한되는 것은 아니다. 실제로, 50% 내지 100%, 예컨대, 51%, 52%, 53%, 54%, 55%, 56%, 57%, 58%, 59%, 60%, 61%, 62%, 63%, 64%, 65%, 66%, 67%, 68%, 69%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99%의 임의의 아미노산 동일성은 본 개시를 설명하는 데 유용할 수 있다.
폴리뉴클레오티드 및 폴리펩티드 서열, 이의 변이체, 및 이들 서열의 구조적 관계는 본 명세서에서 상호 호환적으로 사용되는 용어 "상동성", "상동", "실질적으로 동일한", "실질적으로 유사한" 및 "실질적으로 대응하는"에 의해 기재될 수 있다. 이들은 하나 이상의 아미노산 또는 뉴클레오티드 염기에서의 변화가 분자의 기능, 예컨대, 유전자 발현을 매개하거나 특정 표현형을 생성하는 능력에 영향을 미치지 않는 폴리펩티드 또는 핵산 서열을 지칭한다. 이들 용어는 또한 초기의 비변형된 핵산에 비해 생성된 핵산의 기능성 특성을 실질적으로 변경하지 않는 핵산 서열의 변형(들)을 지칭한다. 이들 변형은 핵산 단편에서의 하나 이상의 뉴클레오티드의 결실, 치환, 및/또는 삽입을 포함한다. 포함되는 실질적으로 유사한 핵산 서열은 (적당히 엄격한 조건, 예컨대, 0.5X의 SSC, 0.1%의 SDS, 60℃하에) 본 명세서에 예시된 서열, 또는 본 명세서에 개시된 뉴클레오티드 서열의 임의의 일부와 혼성화하는 이의 능력에 의해 정의될 수 있고, 본 명세서에 개시된 임의의 핵산 서열과 기능적으로 동등하다. 엄격성 조건은 원연(distantly-related) 유기체로부터의 상동 서열과 같은 적당히 유사한 단편을 매우 유사한 단편, 예컨대, 근연(closely-related) 유기체로부터 기능성 효소를 복제하는 유전자에 대해 선별하도록 조정될 수 있다. 혼성화 후 세척은 엄격성 조건을 결정한다.
"센티모건"(cM) 또는 "지도 단위"는 두 개의 폴리뉴클레오티드 서열, 연결된 유전자, 마커, 표적 부위, 좌위, 또는 이들의 임의의 쌍 간의 거리이고, 감수분열 생성물의 1%는 재조합체이다. 따라서, 센티모건은 두 개의 연결된 유전자, 마커, 표적 부위, 좌위, 또는 이들의 임의의 쌍 간의 1% 평균 재조합 빈도와 동일한 거리에 해당한다.
"단리된" 또는 "정제된" 핵산 분자, 폴리뉴클레오티드, 폴리펩티드, 또는 단백질, 또는 이의 생물 활성 부분에는 이의 천연 유래 환경에서 발견되는 폴리뉴클레오티드 또는 단백질을 정상적으로 수반하거나 이와 상호 작용하는 성분이 실질적으로 또는 본질적으로 없다. 따라서, 단리된 또는 정제된 폴리뉴클레오티드 또는 폴리펩티드 또는 단백질에는 재조합 기법에 의해 생성될 때 다른 세포 물질 또는 배양 배지가 실질적으로 없거나, 화학적으로 합성될 때 화학적 전구체 또는 다른 화학물질이 실질적으로 없다. 최적으로는, "단리된" 폴리뉴클레오티드에는 폴리뉴클레오티드가 유래되는 유기체의 게놈 DNA에서 자연적으로 폴리뉴클레오티드를 측접하는 서열(즉, 폴리뉴클레오티드의 5' 말단 및 3' 말단에 위치한 서열)(최적으로는 단백질 암호화 서열)이 없다. 예를 들어, 다양한 실시형태에서, 단리된 폴리뉴클레오티드는 폴리뉴클레오티드가 유래되는 세포의 게놈 DNA에서 자연적으로 폴리뉴클레오티드를 측접하는 뉴클레오티드 서열을 약 5 kb, 4 kb, 3 kb, 2 kb, 1 kb, 0.5 kb, 또는 0.1 kb 미만으로 함유할 수 있다. 단리된 폴리뉴클레오티드는 그들이 자연적으로 존재하는 세포로부터 정제될 수 있다. 당업자에게 공지된 통상적인 핵산 정제 방법이 단리된 폴리뉴클레오티드를 수득하는 데 사용될 수 있다. 이 용어는 또한 재조합 폴리뉴클레오티드 및 화학적으로 합성된 폴리뉴클레오티드를 포함한다.
용어 "단편"은 뉴틀레오티드 또는 아미노산의 인접한 세트를 지칭한다. 일 실시형태에서, 단편은 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20개 이상의 인접한 뉴클레오티드이다. 일 실시형태에서, 단편은 2, 3, 4, 5, 6, 7 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20개 이상의 인접한 아미노산이다. 단편은 상기 단편의 길이에 대해 약간의 동일성 백분율을 공유하는 서열의 기능을 나타낼 수 있거나 나타내지 않을 수 있다.
용어 "기능적으로 동등한 단편" 및 "기능성 동등 단편"은 본 명세서에서 상호 호환적으로 사용된다. 이들 용어는 이것이 유래되는 더 긴 서열과 동일한 활성 또는 기능을 나타내는 단리된 핵산 단편 또는 폴리펩티드의 일부 또는 하위 서열을 지칭한다. 일례에서, 단편은 이 단편이 활성 단백질을 암호화하든 그렇지 않든 유전자 발현을 변경하거나 특정 표현형을 생성하는 능력을 보유한다. 예를 들어, 단편은 변형된 식물에서 원하는 표현형을 생성하기 위한 유전자 설계에서 사용될 수 있다. 유전자는 이것이 활성 효소를 암호화하는지 여부에 관계 없이 핵산 단편을 식물 프로모터 서열에 대해 센스 방향 또는 안티센스 방향으로 연결함으로써 억제에서 사용하도록 설계될 수 있다.
"유전자"는 암호화 서열 앞의 조절 서열(5' 비암호화 서열) 및 뒤의 조절 서열(3' 비암호화 서열)을 포함하는 특정 단백질과 같지만, 이것으로 제한되지 않는 기능성 분자를 발현하는 핵산 단편을 포함한다. "천연 유전자"는 자신의 조절 서열과 함께 자연적인 내인성 위치에서 발견되는 유전자를 지칭한다.
용어 "내인성"은 세포 또는 유기체에서 자연적으로 존재하는 서열 또는 기타 분자를 의미한다. 일 양상에서, 내인성 폴리뉴클레오티드는 정상적으로 세포 게놈에서 발견되며; 즉, 이종성이 아니다.
"대립 유전자"는 염색체 상의 주어진 좌위를 점유하는 유전자의 몇 가지 대안적 형태 중 하나이다. 염색체 상의 주어진 좌위에 존재하는 모든 대립 유전자가 동일한 경우, 그 식물은 그 좌위에서 동형접합성이다. 염색체 상의 주어진 좌위에 존재하는 대립 유전자가 상이한 경우, 그 식물은 그 좌위에서 이형접합성이다.
"암호화 서열"은 특정 아미노산 서열을 암호화하는 폴리뉴클레오티드 서열을 지칭한다. "조절 서열"은 암호화 서열의 상류(5 '비암호화 서열), 암호화 서열 내 또는 하류(3' 비암호화 서열)에 위치하며, 관련 암호화 서열의 전사, RNA 가공 또는 안정성, 또는 번역에 영향을 주는 뉴클레오티드 서열을 지칭한다. 조절 서열은 프로모터, 번역 리더 서열, 5' 미번역 서열, 3' 미번역 서열, 인트론, 폴리아데닐화 표적 서열, RNA 가공 부위, 효과기 결합 부위, 및 줄기-루프 구조를 포함하지만, 이들로 제한되는 것은 아니다.
"돌연변이된 유전자"는 인간 개입을 통해 변경된 유전자이다. 이러한 "돌연변이된 유전자"는 적어도 하나의 뉴클레오티드 삽입, 결실, 또는 치환에 의해 대응하는 비돌연변이된 유전자의 서열과 상이한 서열을 갖는다. 본 발명의 특정 실시형태에서, 돌연변이된 유전자는 본 명세서에 개시된 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템을 이용하여 만들어진 변경을 포함한다. 돌연변이된 식물은 돌연변이된 유전자를 포함하는 식물이다.
본 명세서에서 사용된 "표적화된 돌연변이"는 본 명세서에 개시되는 유도 Cas 엔도뉴클레아제 시스템이 관련된 방법을 포함하는, 당업자에게 공지된 임의의 방법을 사용하여 표적 유전자 내의 표적 서열을 변경함으로써 제조된 고유 유전자를 포함하는 유전자(표적 유전자로 지칭됨)에서의 돌연변이이다.
용어 "넉아웃", "유전자 넉아웃" 및 "유전적 넉아웃"은 본 명세서에서 상호 호환적으로 사용된다. 넉아웃은 Cas 단백질로 표적화함으로써 부분적으로 또는 완전히 작동하지 않게 된 세포의 DNA 서열을 나타내며, 예를 들어, 넉아웃 전의 DNA 서열은 아미노산 서열을 암호화할 수 있었거나 조절 기능(예를 들어, 프로모터)을 가졌을 수 있다.
용어 "넉인(knock-in)", "유전자 넉인", "유전자 삽입" 및 "유전적 넉인"은 본 명세서에서 상호 호환적으로 사용된다. 넉인은 (예를 들어, 적합한 공여자 DNA 폴리뉴클레오티드가 또한 사용되는 상동성 재조합(HR)에 의해) Cas 단백질로 표적화함으로써 세포 내 특이적 DNA 서열에서 DNA 서열의 대체 또는 삽입을 나타낸다. 넉인의 예는 유전자의 암호화 영역 내 이종성 아미노산 암호화 서열의 특이적 삽입, 또는 유전자 좌위 내 전사 조절 요소의 특이적 삽입이다.
"도메인"은 (RNA, DNA, 및/또는 RNA-DNA 조합 서열일 수 있는) 뉴클레오티드들 또는 아미노산들이 연속되어 있는 것을 의미한다.
용어 "보존된 도메인" 또는 "모티프"는 진화적으로 관련된 단백질의 정렬된 서열을 따라 특정 위치에 보존된 폴리뉴클레오티드 또는 아미노산 세트를 의미한다. 다른 위치에서의 아미노산은 상동 단백질 간에 변할 수 있는 반면, 특정 위치에서 고도로 보존된 아미노산은 단백질의 구조, 안정성 또는 활성에 필수적인 아미노산을 나타낸다. 이들은 단백질 상동체 패밀리의 정렬된 서열에서 높은 보존 정도에 의해 확인되기 때문에, 새로 결정된 서열을 가진 단백질이 이전에 확인된 단백질 패밀리에 속하는지를 결정하기 위한 식별자 또는 "서명"으로 사용될 수 있다.
"코돈 변형 유전자" 또는 "코돈 선호 유전자" 또는 "코돈 최적화 유전자"는 숙주 세포의 선호되는 코돈 사용 빈도를 모방하도록 설계된 코돈 사용 빈도를 갖는 유전자이다.
"최적화된" 폴리뉴클레오티드는 특정 이종성 숙주 세포에서의 개선된 발현을 위하여 최적화된 서열이다.
"식물-최적화된 뉴클레오티드 서열"은 식물에서의 발현, 특히 식물에서의 증가된 발현을 위해 최적화된 뉴클레오티드 서열이다. 식물 최적화된 뉴클레오티드 서열은 코돈 최적화 유전자를 포함한다. 식물 최적화된 뉴클레오티드 서열은 개선된 발현을 위한 하나 이상의 식물 선호 코돈을 사용하여, 단백질, 예를 들어, 본 명세서에 개시된 바와 같은 Cas 엔도뉴클레아제를 암호화하는 뉴클레오티드 서열을 변형하여 합성될 수 있다. 예를 들어, 숙주 선호 코돈 사용에 대한 논의에 대해서는 문헌[Campbell and Gowri (1990) Plant Physiol. 92:1-11] 참조.
"프로모터"는 RNA 중합효소 및 기타 전사 개시 단백질의 인식 및 결합에 관련되는 DNA의 영역이다. 프로모터 서열은 근위 상류 요소 및 더 원위의 상류 요소로 이루어지고, 후자의 요소는 종종 인핸서로 지칭된다. "인핸서"는 프로모터 활성을 자극할 수 있는 DNA 서열이고, 프로모터의 선천적인 요소 또는 프로모터의 수준 또는 조직 특이성을 향상시키기 위해 삽입된 이종성 요소일 수 있다. 프로모터는 고유 유전자로부터 그 전체가 유래될 수 있거나, 천연에서 발견되는 상이한 프로모터들로부터 유래된 상이한 요소들로 구성될 수 있고/있거나, 합성 DNA 세그먼트를 포함할 수 있다. 당업자는 상이한 프로모터가 상이한 조직 또는 세포 유형으로, 또는 상이한 발달 단계에서, 또는 상이한 환경 조건에 반응하여, 유전자의 발현을 유도할 수 있음을 이해한다. 또한, 대부분의 경우, 조절 서열의 정확한 경계가 완전히 정의되지 않았기 때문에, 일부 변형을 갖는 DNA 단편이 동일한 프로모터 활성을 가질 수 있음이 인정된다.
대부분의 시점에 대부분의 세포 유형에서 유전자가 발현되게 하는 프로모터는 일반적으로 "구성적 프로모터"로 지칭된다. 용어 "유도성 프로모터"는, 예를 들어, 화학적 화합물(화학적 유도물질)에 의해 내인성 또는 외인성 자극의 존재에 반응하여, 또는 환경, 호르몬, 화학물질, 및/또는 발달 신호에 반응하여 암호화 서열 또는 기능성 RNA를 선택적으로 발현하는 프로모터를 지칭한다. 유도성 또는 조절 프로모터는, 예를 들어, 빛, 열, 스트레스, 홍수 또는 가뭄, 염 스트레스, 삼투압 스트레스, 식물 호르몬, 상처, 또는 화학물질, 예컨대, 에탄올, 아브시스산(ABA), 자스모네이트, 살리실산, 또는 약해경감제에 의해 유도되거나 조절되는 프로모터를 포함한다.
"번역 리더 서열"은 유전자의 프로모터 서열과 암호화 서열 사이에 위치한 폴리뉴클레오티드 서열을 지칭한다. 번역 리더 서열은 번역 시작 서열의 상류의 mRNA에 존재한다. 번역 리더 서열은 mRNA에 대한 1차 전사체의 가공, mRNA 안정성 또는 번역 효율에 영향을 미칠 수 있다. 번역 리더 서열의 예가 기재되어 있다(예를 들어, 문헌[Turner and Foster, (1995) Mol Biotechnol 3:225-236]).
"3' 비암호화 서열", "전사 종결자" 또는 "종결 서열"은 암호화 서열의 하류에 위치한 DNA 서열을 지칭하며, 폴리아데닐화 인식 서열, 및 mRNA 가공 또는 유전자 발현에 영향을 미칠 수 있는 조절 신호를 암호화하는 다른 서열을 포함한다. 폴리아데닐화 신호는 일반적으로, mRNA 전구체의 3' 말단에의 폴리아데닐산 영역 추가에 영향을 주는 것을 특징으로 한다. 다른 3' 비암호화 서열의 사용은 문헌[Ingelbrecht et al., (1989) Plant Cell 1:671-680]에 예시되어 있다.
"RNA 전사체"는 DNA 서열의 RNA 중합효소 촉매화 전사로부터 만들어지는 생성물을 지칭한다. RNA 전사체가 DNA 서열의 완벽한 상보성인 복제물인 경우, 이를 1차 전사체 또는 프리-mRNA라고 지칭된다. RNA 전사체가 1차 전사체 프리-mRNA의 전사 후 가공으로부터 유래된 RNA 서열인 경우, 성숙 RNA 또는 mRNA라고 지칭한다. "전령 RNA" 또는 "mRNA"는 인트론이 없고 세포에 의해 단백질로 번역될 수 있는 RNA를 지칭한다. "cDNA"는 효소 역전사효소를 사용하는 mRNA 주형에 상보성이고 그로부터 합성되는 DNA를 지칭한다. cDNA는 단일 가닥이거나 DNA 중합효소 I의 Klenow 단편을 사용하여 이중 가닥 형태로 변환될 수 있다. "센스" RNA는 mRNA를 포함하는 RNA 전사체를 지칭하며 세포 내 또는 시험관 내 단백질로 번역될 수 있다. "안티센스 RNA"는, 표적 1차 전사체 또는 mRNA의 전부 또는 일부에 상보성이고 표적 유전자의 발현을 차단하는 RNA 전사체를 지칭한다(예를 들어, 미국 특허 제5,107,065호 참조). 안티센스 RNA의 상보성은 특정 유전자 전사체의 임의의 부분, 즉 5' 비암호화 서열, 3' 비암호화 서열, 인트론 또는 암호화 서열과 함께 있을 수 있다. "기능성 RNA"는 번역되지 않을 수 있지만 세포 과정에 영향을 미치는 안티센스 RNA, 리보자임 RNA 또는 기타 RNA를 지칭한다. 용어 "보체" 및 "역보체(reverse complement)"는 mRNA 전사체에 대하여 본 명세서에서 상호 호환적으로 사용되며, 메시지의 안티센스 RNA를 정의하기 위한 의미이다.
용어 "게놈"은 유기체 또는 바이러스의 각각의 세포 또는 세포 소기관에 존재하는 유전 물질(유전자 및 비암호화 서열)의 전체 보체; 및/또는 한쪽 부모로부터 (일배체) 단위로서 유전된 완전한 염색체 세트를 지칭한다.
용어 "작동 가능하게 연결된"은 하나의 기능이 다른 하나에 의해 조절되도록 된 단일 핵산 단편 상에서의 핵산 서열들의 결합을 나타낸다. 예를 들어, 프로모터는, 암호화 서열의 발현을 조절할 수 있는 경우(즉, 암호화 서열이 프로모터의 전사 조절 하에 있을 때), 암호화 서열과 작동 가능하게 연결된다. 암호화 서열은 센스 또는 안티센스 방향으로 조절 서열에 작동 가능하게 연결될 수 있다. 다른 예에서, 상보성 RNA 영역은 표적 mRNA의 5', 또는 표적 mRNA의 3', 또는 표적 mRNA 내에, 직접 또는 간접적으로, 작동 가능하게 연결될 수 있거나, 제1 상보성 영역은 5'이고 그 보체는 표적 mRNA의 3'이다.
일반적으로, "숙주"는 이종성 성분(폴리뉴클레오티드, 폴리펩티드, 다른 분자, 세포)이 도입된 유기체 또는 세포를 지칭한다. 본 명세서에서 사용된 "숙주 세포"는 생체 내 또는 시험관 내 진핵생물 세포, 원핵생물 세포(예를 들어, 세균 또는 고세균 세포), 또는 이종성 폴리뉴클레오티드 또는 폴리펩티드가 도입된, 단세포의 독립체로서 배양된 다세포 유기체(예를 들어, 세포주)로부터의 세포를 지칭한다. 일부 실시형태에서, 세포는 다음으로 구성된 군으로부터 선택된다: 고세균 세포, 세균 세포, 진핵생물 세포, 진핵생물 단세포 유기체, 체세포, 생식 세포, 줄기 세포, 식물 세포, 조류 세포, 동물 세포, 무척추동물 세포, 척추동물 세포, 어류 세포, 개구리 세포, 조류 세포, 곤충 세포, 포유류 세포, 돼지 세포, 소 세포, 염소 세포, 양 세포, 설치류 세포, 래트 세포, 마우스 세포, 비인간 영장류 세포 및 인간 세포. 일부 경우에, 세포는 시험관내이다. 일부 경우에, 세포는 생체내이다.
용어 "재조합"은, 예를 들어, 유전자 조작 기법에 의해 단리된 핵산 세그먼트의 조작, 또는 화학적 합성에 의한, 그렇지 않았다면 분리된 2개의 서열 세그먼트의 인공 조합을 지칭한다.
용어 "플라스미드", "벡터" 및 "카세트"는 종종 세포의 중심 대사의 일부가 아니며, 보통 이중 가닥 DNA 형태인 유전자를 수반하는 선형 또는 원형 염색체외 요소를 지칭한다. 이러한 요소는 임의의 공급원으로부터 유래된 단일 또는 이중 가닥 DNA 또는 RNA의, 선형 또는 원형 형태의, 자율적 복제 서열, 게놈 통합 서열, 파지 또는 뉴클레오티드 서열일 수 있고, 다수의 뉴클레오티드 서열은 세포에 관심 대상의 폴리뉴클레오티드를 도입할 수 있는 고유의 구조로 연결되거나 재조합되어 있다. "형질전환 카세트"는 유전자를 포함하며 유전자 이외에 특정한 숙주 세포의 형질전환을 촉진하는 요소를 갖는 특정 벡터를 지칭한다. "발현 카세트"는 유전자를 포함하며 유전자 이외에 숙주에서 그 유전자의 발현을 허용하는 요소를 갖는 특정 벡터를 지칭한다.
용어 "재조합 DNA 분자", "재조합 DNA 작제물", "발현 작제물", "작제물" 및 "재조합 작제물"은 본 명세서에서 상호 호환적으로 사용된다. 재조합 DNA 작제물은 핵산 서열, 예컨대 천연에서 모두 함께 확인되지 않는 조절 및 암호화 서열의 인공 조합을 포함한다. 예를 들어, 재조합 DNA 작제물은 상이한 공급원으로부터 유래되는 조절 서열 및 암호화 서열, 또는 동일한 공급원으로부터 유래되지만, 천연에서 확인되는 것과 상이한 방식으로 배열된 조절 서열 및 암호화 서열을 포함할 수 있다. 이러한 작제물은 단독으로 사용되거나 벡터와 함께 사용될 수 있다. 벡터가 사용되는 경우, 벡터의 선택은 당업자에게 널리 공지된 바와 같이 숙주 세포로 벡터를 도입하기 위해 사용되는 방법에 따라 달라진다. 예를 들어, 플라스미드 벡터가 사용될 수 있다. 당업자는 숙주 세포를 성공적으로 형질전환시키고 선택하고 증식시키기 위해 벡터에 존재해야 하는 유전 요소를 잘 알고 있다. 당업자는 또한 상이한 독립적인 형질전환 사건이 상이한 발현 수준 및 발현 패턴으로 일어날 수 있고(문헌[Jones et al., (1985) EMBO J 4:2411-2418; De Almeida et al., (1989) Mol Gen Genetics 218:78-86]), 이에 따라 원하는 발현 수준 및 패턴을 나타내는 세포주를 얻기 위해 여러 사건이 전형적으로 선별됨을 인식할 것이다. 이러한 선별은 표준 분자 생물학적 분석법, 생화학적 분석법, 및 DNA의 서던 분석, mRNA 발현의 노던 분석, PCR, 실시간 정량적 PCR(qPCR), 역전사 PCR(RT-PCR), 단백질 발현의 면역블로팅 분석, 효소 또는 활성 분석법, 및/또는 표현형 분석을 비롯한 기타 분석법에 의해 달성될 수 있다.
용어 "이종성"은 특정 폴리뉴클레오티드 또는 폴리펩티드 서열의 본래의 환경, 위치, 또는 조성과 이의 현재의 환경, 위치, 또는 조성 사이의 차이를 지칭한다. 비제한적인 예에는 분류학적 파생(예를 들어, 제아 메이스로부터 얻은 폴리뉴클레오티드 서열은 오리자 사티바(Oryza sativa) 식물 또는 제아 메이스의 상이한 종류 또는 품종의 게놈에 삽입된 경우 이종성일 것임; 또는 세균으로부터 얻은 폴리뉴클레오티드가 식물의 세포로 도입된 경우), 또는 서열(예를 들어, 단리되고, 변형되어, 메이즈 식물에 재도입된 제아 메이스로부터 얻은 폴리뉴클레오티드 서열)의 차이가 포함된다. 본 명세서에서 사용된 바와 같이, 서열과 관련하여 "이종성"은 상이한 종, 품종, 외래 종에서 유래된 서열이거나, 또는 동일한 종에서 유래된 경우 의도적인 인간의 개입에 의해 조성물 및/또는 게놈 좌위의 고유 형태로부터 실질적으로 변형된 서열을 지칭할 수 있다. 예를 들어, 이종성 폴리뉴클레오티드에 작동 가능하게 연결된 프로모터는 폴리뉴클레오티드가 유래된 종과 상이한 종으로부터 유래되거나, 동일한/유사한 종 유래이면 하나 또는 둘 다는 이의 원래의 형태 및/또는 게놈 유전좌위로부터 실질적으로 변형되거나, 프로모터는 작동 가능하게 연결된 폴리뉴클레오티드에 대해 자연적인 프로모터가 아니다. 대안적으로, 본 명세서에 제공된 하나 이상의 조절 영역(들) 및/또는 폴리뉴클레오티드는 전적으로 합성형일 수 있다. 다른 예에서, Cas 엔도뉴클레아제에 의한 절단을 위한 표적 폴리뉴클레오티드는 Cas 엔도뉴클레아제와 상이한 유기체의 폴리뉴클레오티드일 수 있다. 다른 예에서, Cas 엔도뉴클레아제 및 가이드 RNA는 표적 폴리뉴클레오티드에 삽입을 위한 주형 또는 공여자로서 작용하는 추가적인 폴리뉴클레오티드를 이용하여 표적 폴리뉴클레오티드에 도입될 수 있되, 추가적인 폴리뉴클레오티드는 표적 폴리뉴클레오티드 및/또는 Cas 엔도뉴클레아제에 대해 이종성이다.
본 명세서에서 사용된 용어 "발현"은 전구체 또는 성숙 형태의 기능성 최종 생성물(예컨대, mRNA, 가이드 RNA 또는 단백질)의 생성을 지칭한다.
"성숙한" 단백질은 번역후 가공된 폴리펩티드(즉, 1차 번역 생성물에 존재하는 임의의 프리폴리펩티드 또는 프로폴리펩티드가 제거된 것)를 지칭한다.
"전구체" 단백질은 mRNA의 번역의 1차 생성물(즉, 프리펩티드 및 프로펩티드가 여전히 존재하는 것)을 지칭한다. 프리펩티드 및 프로펩티드는 세포내 국재화 신호일 수 있지만, 이로 제한되지 않는다.
"CRISPR"(규칙적 간격으로 분포하는 회문구조의 짧은 반복부) 좌위는, 예를 들어, 박테리아 및 고세균 세포에 의해 외래 DNA를 파괴하는데 사용되는 DNA 절단 시스템의 성분을 암호화하는 특정 좌위를 지칭한다(문헌[Horvath and Barrangou, 2010, Science 327:167-170]; 2007년 3월 1일자로 공개된 WO2007025097). CRISPR 좌위는 다양한 Cas(CRISPR-연합(associated)) 유전자에 의해 측접될 수 있는, 짧은 가변 DNA 서열(스페이서로 지칭됨)에 의해 분리된 짧은 직접 반복부(CRISPR 반복부)를 포함하는 CRISPR 어레이로 이루어질 수 있다.
본 명세서에서 사용된 "효과기" 또는 "효과기 단백질"은 폴리뉴클레오티드 표적을 인식, 결합, 및/또는 절단 또는 틈내기하는 것을 포함하는 활성을 포괄하는 단백질이다. 효과기, 또는 효과기 단백질은 또한 엔도뉴클레아제일 수 있다. CRISPR 시스템의 "효과기 복합체"는 crRNA 및 표적 인식 및 결합에 관여하는 Cas 단백질을 포함한다. 성분 Cas 단백질의 일부는 표적 폴리뉴클레오티드 절단에 관여하는 도메인을 추가로 포함할 수 있다.
용어 "Cas 단백질"은 Cas(CRISPR-associated) 유전자에 의해 암호화되는 폴리펩티드를 지칭한다. Cas 단백질은 cas 좌위에서 유전자에 의해 암호화된 단백질을 포함하고, 적응 분자뿐만 아니라 간섭 분자를 포함한다. 박테리아 적응 면역 복합체의 간섭 분자는 엔도뉴클레아제를 포함한다. 본 명세서에 기재된 Cas 엔도뉴클레아제는 하나 이상의 뉴클레아제 도메인을 포함한다. Cas 엔도뉴클레아제는 본 명세서에 개시된 신규한 Cas-알파 단백질, Cas9 단백질, Cpf1(Cas12) 단백질, C2c1 단백질, C2c2 단백질, C2c3 단백질, Cas3, Cas3-HD, Cas 5, Cas7, Cas8, Cas10, 또는 이들의 조합 또는 복합체를 포함하지만, 이들로 제한되지 않는다. Cas 단백질은 적합한 폴리뉴클레오티드 성분과의 복합체인 경우, 특정 폴리뉴클레오티드 표적 서열의 전부 또는 일부를 인식하고, 이에 결합하고, 선택적으로 틈내기 또는 절단할 수 있는 "Cas 엔도뉴클레아제" 또는 "Cas 효과기 단백질"일 수 있다. 본 발명의 Cas-알파 엔도뉴클레아제는 하나 이상의 RuvC 뉴클레아제 도메인을 갖는 것을 포함한다. Cas 단백질은 추가로 천연 Cas 단백질 또는 천연 Cas 단백질의 적어도 50, 50 내지 100, 적어도 100, 100 내지 150, 적어도 150, 150 내지 200, 적어도 200, 200 내지 250, 적어도 250, 250 내지 300, 적어도 300, 300 내지 350, 적어도 350, 350 내지 400, 적어도 400, 400 내지 450, 적어도 500, 또는 500개 초과의 인접한 아미노산과 적어도 50%, 50% 내지 55%, 적어도 55%, 55% 내지 60%, 적어도 60%, 60% 내지 65%, 적어도 65%, 65% 내지 70%, 적어도 70%, 70% 내지 75%, 적어도 75%, 75% 내지 80%, 적어도 80%, 80% 내지 85%, 적어도 85%, 85% 내지 90%, 적어도 90%, 90% 내지 95%, 적어도 95%, 95% 내지 96%, 적어도 96%, 96% 내지 97%, 적어도 97%, 97% 내지 98%, 적어도 98%, 98% 내지 99%, 적어도 99%, 99% 내지 100%, 또는 100%의 서열 동일성을 공유하며, 천연 서열의 적어도 부분적인 활성을 보유하는 단백질의 기능성 단편 또는 기능성 변이체로서 정의된다.
Cas 엔도뉴클레아제의 "기능성 단편", "기능성 동등물인 단편" 및 "기능적으로 동등한 단편"은 본 명세서에서 상호 호환적으로 사용되며, 표적 부위를 인식하고, 이에 결합하고, 선택적으로 이를 풀거나 틈내기하거나 절단(표적 부위에서 단일 또는 이중 가닥 절단을 도입)하는 능력이 유지되는 본 발명의 Cas 엔도뉴클레아제의 일부 또는 하위 서열을 지칭한다. Cas 엔도뉴클레아제의 부분 또는 하위서열은 이의 도메인 중 어느 하나의 완전한 또는 부분적(기능성) 펩티드, 예를 들어, 이하로 제한되는 것은 아니지만, Cas3 HD 도메인의 완전한 기능성 부분, Cas3 헬리카제 도메인의 완전한 기능성 부분, 단백질의 완전한 기능성 부분(예컨대, 이하로 제한되는 것은 아니지만, Cas5, Cas5d, Cas7 및 Cas8b1)을 포함할 수 있다.
본 명세서에 기재된 Cas9-알파를 포함하는, Cas 엔도뉴클레아제 또는 Cas 효과기 단백질의 "기능성 변이체", "기능적으로 동등한 변이체" 및 "기능성 동등 단편"이라는 용어는 본 명세서에서 상호 호환적으로 사용되며, 표적 서열의 전부 또는 일부를 인식하고, 이에 결합하고, 선택적으로 이를 풀거나, 틈내기하거나 절단하는 능력이 유지되는 본 명세서에 개시된 Cas 효과기 단백질의 변이체를 지칭한다.
Cas 엔도뉴클레아제는 또한 다기능성 Cas 엔도뉴클레아제를 포함할 수 있다. 용어 "다기능성 Cas 엔도뉴클레아제" 및 "다기능성 Cas 엔도뉴클레아제 폴리펩티드"는 본 명세서에서 상호 호환적으로 사용되며, Cas 엔도뉴클레아제 기능성(Cas 엔도뉴클레아제로서 작용할 수 있는 적어도 하나의 단백질 도메인을 포함) 및 예컨대, 복합체를 형성하는 기능성을 포함하지만, 이것으로 제한되지 않는 적어도 하나의 다른 기능성(다른 단백질과 복합체를 형성할 수 있는 적어도 제2 단백질 도메인을 포함)을 갖는 단일 폴리펩티드에 대한 언급을 포함한다. 일 양상에서, 다기능성 Cas 엔도뉴클레아제는 Cas 엔도뉴클레아제를 대표하는 이들 도메인에 대해 (내부에, 상류에(5'), 하류에(3'), 또는 내부적으로 5'과 3'둘 모두에, 또는 이의 임의의 조합에) 적어도 하나의 추가 단백질 도메인을 포함한다.
용어 "캐스케이드" 및 "캐스케이드 복합체"는 본 명세서에서 상호 호환적으로 사용되며, 폴리뉴클레오티드와 조립되어 폴리뉴클레오티드-단백질 복합체(polynucleotide-protein complex: PNP)를 형성할 수 있는 다중 서브유닛의 단백질 복합체에 대한 언급을 포함한다. 캐스케이드는 복합체 조립 및 안정성, 그리고 표적 핵산 서열의 확인을 위해 폴리뉴클레오티드에 의존하는 PNP이다. 캐스케이드는 가이드 폴리뉴클레오티드의 가변 표적화 도메인에 상보성인 표적 핵산을 찾아 선택적으로 이에 결합하는 감시 복합체로서 기능한다.
용어 "절단 준비가 된(cleavage-ready) 캐스케이드", "cr캐스케이드", "절단 준비가 된 캐스케이드 복합체", "cr캐스케이드 복합체", "절단 준비가 된 캐스케이드 시스템", "CRC" 및 "cr캐스케이드 시스템"은 본 명세서에서 상호 호환적으로 사용되며, 폴리뉴클레오티드와 조립되어 폴리뉴클레오티드-단백질 복합체(PNP)를 형성할 수 있는 다중 서브유닛의 단백질 복합체로서, 캐스케이드 단백질 중 하나는 표적 서열의 전부 또는 일부를 인식하고, 이에 결합하고, 선택적으로 이를 풀거나, 틈내기하거나, 절단할 수 있는 Cas 엔도뉴클레아제인 것인 다중 서브유닛의 단백질 복합체에 대한 언급을 포함한다.
용어 "5'-캡"과 "7-메틸구아닐레이트(m7G) 캡"은 본 명세서에서 상호 호환적으로 사용된다. 7-메틸구아닐레이트 잔기는 진핵생물에서 전령 RNA(mRNA)의 5' 말단에 위치한다. RNA 중합효소 II(Pol II)는 진핵생물에서 mRNA를 전사한다. 전령 RNA 캡핑은 일반적으로 다음과 같이 일어난다: mRNA 전사체의 가장 말단 5' 포스페이트기가 RNA 말단 포스파타아제에 의해 제거되어, 2개의 말단 포스페이트를 남긴다. 구아노신 모노포스페이트(GMP)가 구아닐릴 트랜스퍼라아제에 의해 전사체의 말단 포스페이트에 첨가되어, 전사체 말단에 5'-5' 트리포스페이트-연결 구아닌을 남긴다. 마지막으로, 이 말단 구아닌의 7-질소가 메틸 트랜스퍼라아제에 의해 메틸화된다.
본 명세서의 용어 "5'-캡을 갖지 않는"은 예를 들어, 5'-캡 대신 5'-하이드록실기를 갖는 RNA를 지칭하는 데 사용된다. 이러한 RNA는, 예를 들어, "캡핑되지 않은 RNA"로 지칭될 수 있다. 5'-캡핑된 RNA는 핵 외수송의 대상이기 때문에 캡핑되지 않은 RNA는 전사 후 핵에 더 잘 축적될 수 있다. 본 명세서에서 하나 이상의 RNA 성분은 캡핑되지 않는다.
본 명세서에서 사용된 용어 "가이드 폴리뉴클레오티드"는 본 명세서에 기재된 Cas 엔도뉴클레아제를 비롯한 Cas 엔도뉴클레아제와 복합체를 형성할 수 있고, Cas 엔도뉴클레아제가 DNA 표적 부위를 인식하고, 선택적으로 이에 결합하고, 선택적으로 절단할 수 있게 하는 폴리뉴클레오티드 서열에 관한 것이다. 가이드 폴리뉴클레오티드 서열은 RNA 서열, DNA 서열, 또는 이들의 조합(RNA-DNA 조합 서열)일 수 있다.
용어 가이드 RNA, crRNA 또는 tracrRNA의 "기능성 단편", "기능적으로 동등물인 단편" 및 "기능적으로 동등한 단편"은 본 명세서에서 상호 호환적으로 사용되며, 각각 가이드 RNA, crRNA 또는 tracrRNA로서 기능하는 능력이 유지되는 본 발명의 가이드 RNA, crRNA 또는 tracrRNA의 일부 또는 하위 서열을 각각 지칭한다.
용어 가이드 RNA, crRNA 또는 tracrRNA의 "기능성 변이체", "기능적으로 동등한 변이체" 및 "기능성 동등 변이체"는 (각각) 본 명세서에서 상호 호환적으로 사용되며, 각각 가이드 RNA, crRNA 또는 tracrRNA로서 기능하는 능력이 유지되는 본 발명의 가이드 RNA, crRNA 또는 tracrRNA의 변이체를 각각 지칭한다.
용어 "단일 가이드 RNA" 및 "sgRNA"는 본 명세서에서 상호 호환적으로 사용되며, tracrRNA(전사-촉진 CRISPR RNA)에 융합된 (tracrRNA에 혼성화하는 tracr 메이트 서열에 연결된) 가변 표적화 도메인을 포함하는 crRNA(CRISPR RNA)인, 2개의 RNA 분자의 합성 융합과 관련된다. 단일 가이드 RNA는 II형 Cas 엔도뉴클레아제와 복합체를 형성할 수 있는 II형 CRISPR/Cas 시스템의 crRNA 또는 crRNA 단편 및 tracrRNA 또는 tracrRNA 단편을 포함할 수 있고, 상기 가이드 RNA/Cas 엔도뉴클레아제 복합체는 Cas 엔도뉴클레아제를 DNA 표적 부위로 유도하여 Cas 엔도뉴클레아제가 DNA 표적 부위를 인식하고, 선택적으로 이에 결합하고, 선택적으로 이를 틈내기 또는 절단(단일 또는 이중 가닥 절단을 도입)하게 할 수 있다.
용어 "가변 표적화 도메인" 또는 "VT 도메인"은 본 명세서에서 상호 호환적으로 사용되며, 이중 가닥 DNA 표적 부위의 한 가닥(뉴클레오티드 서열)에 혼성화될 수 있는(상보성인) 뉴클레오티드 서열을 포함한다. 제1 뉴클레오티드 서열 도메인(VT 도메인)과 표적 서열 간의 상보성 백분율은 적어도 50%, 51%, 52%, 53%, 54%, 55%, 56%, 57%, 58%, 59%, 60%, 61%, 62%, 63%, 63%, 65%, 66%, 67%, 68%, 69%, 70%, 71 %, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91 %, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, 또는 100%일 수 있다. 가변 표적화 도메인은 적어도 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개 또는 30개 뉴클레오티드의 길이일 수 있다. 일부 실시형태에서, 이러한 가변 표적화 도메인은 연속된 12개 내지 30개의 뉴클레오티드를 포함한다. 가변 표적화 도메인은 DNA 서열, RNA 서열, 변형된 DNA 서열, 변형된 RNA 서열, 또는 임의의 이들의 조합으로 구성될 수 있다.
용어 (가이드 폴리뉴클레오티드의) "Cas 엔도뉴클레아제 인식 도메인" 또는 "CER 도메인"은 본 명세서에서 상호 호환적으로 사용되며, Cas 엔도뉴클레아제 폴리펩티드와 상호 작용하는 뉴클레오티드 서열을 포함한다. CER 도메인은 (트랜스-작용성) tracr뉴클레오티드 메이트(mate) 서열 다음에 tracr뉴클레오티드 서열을 포함한다. CER 도메인은 DNA 서열, RNA 서열, 변형된 DNA 서열, 변형된 RNA 서열(예를 들어, 2015년 2월 26일 공개된 US20150059010A1 참조), 또는 이들의 임의의 조합으로 구성될 수 있다.
본 명세서에 사용된 바와 같이, 용어 "가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체", "가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템", "가이드 폴리뉴클레오티드/Cas 복합체", "가이드 폴리뉴클레오티드/Cas 시스템", "유도된 Cas 시스템", "폴리뉴클레오티드-유도된 엔도뉴클레아제", "PGEN"은 본 명세서에서 상호 호환적으로 사용되며, 복합체를 형성할 수 있는 적어도 하나의 가이드 폴리뉴클레오티드 및 적어도 하나의 Cas 엔도뉴클레아제를 지칭하며, 상기 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 Cas 엔도뉴클레아제를 DNA 표적 부위로 지시하여 Cas 엔도뉴클레아제가 DNA 표적 부위를 인식하고, 이에 결합하고, 선택적으로 이를 틈내기하거나 절단(단일 또는 이중 가닥 파괴를 도입)하게 할 수 있다. 본 명세서의 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 임의의 공지된 CRISPR 시스템의 적합한 폴리뉴클레오티드 성분(들) 및 Cas 단백질(들)을 포함할 수 있다(문헌[Horvath and Barrangou, 2010, Science 327:167-170]; 문헌[Makarova et al. 2015, Nature Reviews Microbiology Vol. 13:1-15]; 문헌[Zetsche et al., 2015, Cell 163, 1-13]; 문헌[Shmakov et al., 2015, Molecular Cell 60, 1-13]).
용어 "가이드 RNA/Cas 엔도뉴클레아제 복합체", "가이드 RNA/Cas 엔도뉴클레아제 시스템", "가이드 RNA/Cas 복합체", "가이드 RNA/Cas 시스템", "gRNA/Cas 복합체", "gRNA/Cas 시스템", "RNA-유도된 엔도뉴클레아제", "RGEN"은 본 명세서에서 상호 호환적으로 사용되며, 복합체를 형성할 수 있는 적어도 하나의 RNA 성분 및 적어도 하나의 Cas 엔도뉴클레아제를 지칭하고, 상기 가이드 RNA/Cas 엔도뉴클레아제 복합체는 Cas 엔도뉴클레아제를 DNA 표적 부위로 지시하여 Cas 엔도뉴클레아제가 DNA 표적 부위를 인식하고, 이에 결합하고, 선택적으로 이를 틈내기하거나 절단(단일 또는 이중 가닥 파괴를 도입)하게 할 수 있다.
용어 "표적 부위", "표적 서열", "표적 부위 서열", "표적 DNA", "표적 좌위", "게놈 표적 부위", "게놈 표적 서열", "게놈 표적 좌위" 및 "프로토스페이서"는 본 명세서에서 상호 호환적으로 사용되며, 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체가 인식하고 이에 결합하고 선택적으로 틈내기 또는 절단할 수 있는 세포의 게놈 내 폴리뉴클레오티드 서열, 예컨대, 이하로 제한되는 것은 아니지만, 염색체, 에피솜, 좌위, 또는 임의의 다른 DNA 분자(염색체 DNA, 엽록체 DNA, 미토콘드리아 DNA, 플라스미드 DNA를 포함) 상의 뉴클레오티드 서열을 지칭한다. 표적 부위가 세포 게놈에서의 내인성 부위일 수 있거나, 대안적으로, 표적 부위가 세포에 이종성이어서 세포의 게놈에서 천연 유래되지 않을 수 있거나, 표적 부위가 천연에서 생긴 경우와 비교하여 이종성 게놈 위치에서 확인될 수 있다. 본 명세서에서 사용된 용어 "내인성 표적 서열" 및 "천연 표적 서열"은 세포의 게놈에 내인성이거나 천연 표적 서열로서, 세포 게놈 내 표적 서열의 내인성 또는 천연 위치에 있는 표적 서열을 지칭하기 위해 본 명세서에서 상호 호환적으로 사용된다. "인공 표적 부위" 또는 "인공 표적 서열"은 본 명세서에서 상호 호환적으로 사용되며, 세포의 게놈 내로 도입된 표적 서열을 지칭한다. 이러한 인공 표적 서열은 세포의 게놈 내의 내인성 또는 천연 표적 서열과 동일한 서열일 수 있지만, 세포의 게놈에서 상이한 위치(즉, 비내인성 또는 비천연 위치)에 위치할 수 있다.
본 명세서의 "프로토스페이서 인접 모티프"(PAM)는 본 명세서에 기재된 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템에 의해 인식(표적화)되는 표적 서열(프로토스페이서)에 인접한 짧은 뉴클레오티드 서열을 지칭한다. 표적 DNA 서열 다음에 PAM 서열이 없는 경우 Cas 엔도뉴클레아제는 표적 DNA 서열을 성공적으로 인식하지 않을 수 있다. 본 명세서의 PAM의 서열과 길이는 사용되는 Cas 단백질 또는 Cas 단백질 복합체에 따라 다를 수 있다. PAM 서열은 임의의 길이일 수 있지만, 통상적으로 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개 또는 20개의 뉴클레오티드의 길이이다.
"변경된 표적 부위", "변경된 표적 서열", "변형된 표적 부위", "변형된 표적 서열"은 본 명세서에서 상호 호환적으로 사용되며, 변경되지 않은 표적 서열에 비해 적어도 하나의 변경을 포함하는 본 명세서에 개시된 표적 서열을 지칭한다. 이러한 "변경"은, 예를 들어, (i) 적어도 하나의 뉴클레오티드의 대체, (ii) 적어도 하나의 뉴클레오티드의 결실, (iii) 적어도 하나의 뉴클레오티드의 삽입, (iv) 적어도 하나의 뉴클레오티드의 화학적 변경, 또는 (v) (i) 내지 (iv)의 임의의 조합을 포함한다.
"변형된 뉴클레오티드" 또는 "편집된 뉴클레오티드"는 변형되지 않은 뉴클레오티드 서열에 비해 적어도 하나의 변경을 포함하는 관심 대상의 뉴클레오티드 서열을 지칭한다. 이러한 "변경"은, 예를 들어, (i) 적어도 하나의 뉴클레오티드의 대체, (ii) 적어도 하나의 뉴클레오티드의 결실, (iii) 적어도 하나의 뉴클레오티드의 삽입, (iv) 적어도 하나의 뉴클레오티드의 화학적 변경, 또는 (v) (i) 내지 (iv)의 임의의 조합을 포함한다.
"표적 부위를 변형하기 위한" 및 "표적 부위를 변경하기 위한" 방법은 본 명세서에서 상호 호환적으로 사용되며, 변경된 표적 부위를 생성하는 방법을 지칭한다.
본 명세서에서 사용된 바와 같이, "공여자 DNA"는 Cas 엔도뉴클레아제의 표적 부위로 삽입될 관심 대상의 폴리뉴클레오티드를 포함하는 DNA 작제물이다.
용어 "폴리뉴클레오티드 변형 주형"은 편집될 뉴클레오티드 서열과 비교할 때 적어도 하나의 뉴클레오티드 변형을 포함하는 폴리뉴클레오티드를 포함한다. 뉴클레오티드 변형은 적어도 하나의 뉴클레오티드 치환, 첨가 또는 결실일 수 있다. 선택적으로, 폴리뉴클레오티드 변형 주형은 적어도 하나의 뉴클레오티드 변형에 측접한 상동 뉴클레오티드 서열을 더 포함할 수 있고, 측접한 상동 뉴클레오티드 서열은 편집될 원하는 뉴클레오티드 서열에 충분한 상동성을 제공한다.
본 명세서의 용어 "식물 최적화된 Cas 엔도뉴클레아제"는 식물 세포 또는 식물에서의 발현에 대해 최적화된 뉴클레오티드 서열에 의해 암호화된 다기능성 Cas 단백질을 비롯한, Cas 단백질을 지칭한다.
"Cas 엔도뉴클레아제를 암호화하는 식물 최적화된 뉴클레오티드 서열", "Cas 엔도뉴클레아제를 암호화하는 식물 최적화된 작제물" 및 "Cas 엔도뉴클레아제를 암호화하는 식물 최적화된 폴리뉴클레오티드"는 본 명세서에서 상호 호환적으로 사용되며, 식물 세포 또는 식물에서의 발현을 위해 최적화된 Cas 단백질, 또는 이의 변이체 또는 기능성 단편을 암호화하는 뉴클레오티드 서열을 지칭한다. 식물-최적화된 Cas 엔도뉴클레아제를 포함하는 식물은 Cas 서열을 암호화하는 뉴클레오티드 서열을 포함하는 식물 및/또는 Cas 엔도뉴클레아제 단백질을 포함하는 식물을 포함한다. 일 양상에서, 식물-최적화된 Cas 엔도뉴클레아제 뉴클레오티드 서열은 메이즈-최적화, 벼-최적화, 밀-최적화, 대두-최적화, 목화-최적화 또는 카놀라-최적화된 Cas 엔도뉴클레아제이다.
용어 "식물"은 일반적으로 전체 식물, 식물 기관, 식물 조직, 종자, 식물 세포, 종자 및 이의 자손을 포함한다. 식물은 외떡잎식물 또는 쌍떡잎식물이다. 식물 세포는 종자로부터의 세포, 현탁액 배양물, 배아, 분열부, 캘러스 조직, 잎, 뿌리, 순, 배우체, 포자체, 꽃가루 및 미포자를 제한 없이 포함한다. "식물 요소"는 분화 및/또는 미분화 조직, 예를 들어, 식물 조직, 부분 및 세포 유형(그러나 이것으로 제한되지 않음)을 포함할 수 있는 전체 식물 또는 식물 성분을 지칭하고자 한 것이다. 일 실시형태에서, 식물 요소는 다음 중 하나이다: 전체 식물, 묘목, 분열 조직, 지상 조직, 맥관 조직, 피부 조직, 종자, 잎, 뿌리, 순, 줄기, 꽃, 열매, 기는 줄기, 구근, 괴경, 구경, 케이키, 순, 눈, 종양 조직, 및 다양한 형태의 세포 및 배양물(예를 들어, 단일 세포, 원형질체, 배아, 캘러스 조직). 원형질체가 세포벽이 없기 때문에, 원형질체는 (모든 성분에 의해 자연적으로 발견되는 바와 같이) 기술적으로 "온전한" 식물 세포가 아님을 주목하여야 한다. 용어 "식물 기관"은 형태학적으로 및 기능적으로 구별되는 식물 부분을 구성하는 식물 조직 또는 조직들의 군을 지칭한다. 본 명세서에서 사용된 바와 같이, "식물 요소"는 식물의 "부분"의 동의어이며, 식물의 임의의 부분을 지칭하고, 구별되는 조직 및/또는 기관을 포함할 수 있으며, 모든 부분에서 용어 "조직"과 상호 호환적으로 사용될 수 있다. 유사하게, "식물 생식 요소"는 그 식물의 유성 또는 무성 생식을 통해 다른 식물을 시작하게 하는 식물의 임의의 부분, 예를 들어, 이하로 제한되는 것은 아니지만, 종자, 묘목, 뿌리, 싹, 삽수, 접순, 접눈, 포복경, 알뿌리, 덩이줄기, 구경, 고아(keiki) 또는 봉오리를 일반적으로 언급하고자 한 것이다. 식물 요소는 식물에, 또는 식물 기관, 조직 배양물, 또는 세포 배양물에 있을 수 있다.
"자손"은 식물의 임의의 후속 세대를 포함한다.
본 명세서에서 사용된 용어 "식물 부분"은 식물 세포, 식물 원형질체, 식물이 재생될 수 있는 식물 세포 조직 배양물, 식물 캘러스, 식물 덩어리, 및 식물 또는 식물의 부분, 예컨대 배아, 꽃가루, 난세포, 종자, 잎, 꽃, 가지, 열매, 속씨, 이삭, 속대, 껍질, 줄기, 뿌리, 뿌리 끝, 꽃밥 등뿐만 아니라 이의 부분에서 온전한 식물 세포를 지칭한다. 낟알은 종의 성장 또는 생식 이외의 목적을 위해 상업적 재배업자에 의해 생산된 성숙 종자를 의미하는 것이다. 재생된 식물의 자손, 변이체 및 돌연변이체는 또한 이 부분들이 도입된 폴리뉴클레오티드를 포함하는 한 본 발명의 범위 내로 포함된다.
용어 "단자엽 식물" 또는 "외떡잎식물"은 종자가 전형적으로 단 하나의 배아 잎 또는 자엽을 포함하는 "단자엽 식물류"로도 알려진 속씨식물의 아강을 지칭한다. 이 용어는 전체 식물, 식물 요소, 식물 기관(예를 들어, 잎, 줄기, 뿌리 등), 종자, 식물 세포 및 그 자손에 대한 언급을 포함한다.
용어 "쌍자엽 식물" 또는 "쌍떡잎식물"은 종자가 전형적으로 2개의 배아 잎 또는 자엽을 포함하는 "쌍자엽 식물류"로도 알려진 속씨식물의 아강을 지칭한다. 이 용어는 전체 식물, 식물 요소, 식물 기관(예를 들어, 잎, 줄기, 뿌리 등), 종자, 식물 세포 및 그 자손에 대한 언급을 포함한다.
본 명세서에서 사용된 "웅성 불임성 식물"은 생존 가능하거나 달리 수정할 수 있는 웅성 생식체를 생산하지 않는 식물이다. 본 명세서에서 사용된 "자성 불임성 식물"은 생존 가능하거나 달리 수정할 수 있는 자성 생식체를 생산하지 않는 식물이다. 웅성 불임성 및 자성 불임성 식물은 각각 자성 가임성 및 웅성 가임성일 수 있는 것으로 인식된다. 또한, 웅성 번식성(이지만, 자성 불임성) 식물은 자성 번식성 식물과 교배될 때 생활성 자손을 생성할 수 있고, 자성 번식성(이지만, 웅성 불임성) 식물은 웅성 번식성 식물과 교배될 때 생활성 자손을 생성할 수 있는 것으로 인식된다.
본 명세서에서 용어 "비통상적인 효모"는 사카로마이세스(Saccharomyces)(예컨대, 사카로마이세스 세레비시애(S. cerevisiae)) 또는 스키조사카로마이세스 효모 종이 아닌 임의의 효모를 지칭한다. (문헌["Non-Conventional Yeasts in Genetics, Biochemistry and Biotechnology:Practical Protocols", K. Wolf, K.D. Breunig, G. Barth, Eds., Springer-Verlag, Berlin, Germany, 2003] 참조).
본 발명의 문맥에서 용어 "교배된" 또는 "교배" 또는 "교배하는"은 자손(즉, 세포, 종자, 또는 식물)을 생산하기 위한 수분을 통한 생식체의 융합을 의미한다. 이 용어는 유성 교배(다른 식물에 의한 식물의 수분) 및 자가생식(자가 수분, 즉, 꽃가루 및 밑씨(또는 소포자 및 대포자)가 동일 식물 또는 유전적으로 동일한 식물로부터 유래된 경우)을 모두 포함한다.
용어 "이입"(introgression)은 좌위의 원하는 대립 유전자가 하나의 유전적 배경으로부터 다른 유전적 배경으로 전달되는 것을 지칭한다. 예를 들어, 특정 좌위에서의 목적하는 대립 유전자의 이입은, 적어도 하나의 모체 식물이 그 게놈 내에 원하는 대립 유전자를 갖는 두 모체 식물 간의 유성 교배를 통해 적어도 하나의 자손 식물에 전달될 수 있다. 대안적으로, 예를 들어, 대립 유전자의 전달은, 예를 들어, 적어도 하나의 공여자 원형질체가 그 게놈 내에 원하는 대립 유전자를 갖는 융합된 원형질체에서, 두 공여자 게놈 간의 재조합에 의해 일어날 수 있다. 원하는 대립 유전자는, 예를 들어, 이식유전자, 변형된(돌연변이되거나 편집된) 고유한 대립 유전자, 또는 마커 또는 QTL의 선택된 대립 유전자일 수 있다.
용어 "등계(isoline)"는 비교 용어이며, 유전적으로 동일하지만 처리가 상이한 유기체를 지칭한다. 일례에서, 두 개의 유전적으로 동일한 메이즈 식물 배아는 처리(예컨대, CRISPR-Cas 효과기 엔도뉴클레아제의 도입)를 받는 하나의 군과 이러한 처리를 받지 않는 하나의 대조군의 두 개의 상이한 군으로 분리될 수 있다. 따라서, 두 군 사이의 임의의 표현형 차이는 임의의 내재된 식물의 내인성 유전 구성이 아닌 처리에만 기인할 수 있다.
"도입하는"은 성분(들)이 유기체 세포의 내부로의 또는 세포 자체로의 접근을 획득하는 방식으로의 표적, 예컨대 세포 또는 유기체, 폴리뉴클레오티드 또는 폴리펩티드 또는 폴리뉴클레오티드-단백질 복합체로의 제시를 의미하려는 것이다.
관심 대상의 폴리뉴클레오티드"는 작물의 바람직함, 즉, 작물학적 관심대상의 형질을 개선하는 단백질 또는 폴리펩티드를 암호화하는 임의의 뉴클레오티드 서열을 포함한다. 관심 대상의 폴리뉴클레오티드는 농경학에 중요한 형질, 제초제 저항성, 살충제 저항성, 질병 저항성, 선충 저항성, 제초제 저항성, 미생물 저항성, 진균 저항성, 바이러스 저항성, 가임성 또는 불임성, 낟알 특성, 상용 제품, 표현형 마커, 또는 임의의 기타 농경학상 또는 상업상 중요 형질을 암호화하는 폴리뉴클레오티드를 포함하지만, 이들로 제한되지 않는다. 관심 대상의 폴리뉴클레오티드는 추가로 센스 또는 안티-센스 방향으로 이용될 수 있다. 또한, 한 개 초과의 관심 대상의 폴리뉴클레오티드가 추가의 이익을 제공하기 위하여 함께 이용되거나 "쌓일(stack)" 수 있다.
"복잡한 형질 좌위"는 유전자적으로 서로 연결된 여러 이식유전자를 갖는 게놈 좌위를 포함한다.
본 명세서의 조성물 및 방법은 식물에게 개선된 "농경학적 형질" 또는 "농경학상 중요 형질" 또는 "농경학적 관심 형질"을 제공할 수 있으며, 이는 다음을 포함할 수 있지만, 이들로 제한되지 않는다: 본 명세서의 방법 또는 조성물로부터 유래된 변형을 포함하지 않는 등계 식물과 비교하여, 질병 저항성, 가뭄 내성, 내열성, 내한성, 염분 내성, 금속 내성, 제초제 내성, 물 사용 효율 개선, 질소 활용 개선, 질소 고정 개선, 해충 저항성, 초식동물 저항성, 병원균 저항성, 수확량 개선, 건강 증진, 활력 개선, 성장 개선, 광합성 능력 개선, 영양 증진, 단백질 함량 변경, 오일 함량 변경, 바이오매스 증가, 순의 길이 증가, 뿌리 길이 증가, 뿌리 구조 개선, 대사산물 조절, 프로테옴 조절, 종자 중량 증가, 종자 탄수화물 조성의 변경, 종자 오일 조성의 변경, 종자 단백질 조성의 변경, 종자 영양 조성의 변경.
"농경학적 형질 잠재력"은 생애 주기 동안 일정 시점에서 표현형, 바람직하게는 개선된 농경학적 형질을 나타내거나 상기 표현형을 동일한 식물에서 관련이 있는 또 다른 식물 요소에 전달하는 식물 요소의 능력을 의미하고자 한 것이다.
본 명세서에서 사용된 용어 "감소된", "더 적은", "더 느린" 및 "증가된", "더 빠른", "증진된", "더 큰"은 비변형된 식물 요소 또는 생성된 식물과 비교하여 변형된 식물 요소 또는 생성된 식물의 특징의 감소 또는 증가를 지칭한다. 예를 들어, 특징의 감소는 비처리된 대조군보다 적어도 1%, 적어도 2%, 적어도 3%, 적어도 4%, 적어도 5%, 5% 내지 10%, 적어도 10%, 10% 내지 20%, 적어도 15%, 적어도 20%, 20% 내지 30%, 적어도 25%, 적어도 30%, 30% 내지 40%, 적어도 35%, 적어도 40%, 40% 내지 50%, 적어도 45%, 적어도 50%, 50% 내지 60%, 적어도 약 60%, 60% 내지 70%, 70% 내지 80%, 적어도 75%, 적어도 약 80%, 80% 내지 90%, 적어도 약 90%, 90% 내지 100%, 적어도 100%, 100% 내지 200%, 적어도 200%, 적어도 약 300%, 적어도 약 400%) 또는 더 낮을 수 있고, 증가는 비처리된 대조군보다 적어도 1%, 적어도 2%, 적어도 3%, 적어도 4%, 적어도 5%, 5% 내지 10%, 적어도 10%, 10% 내지 20%, 적어도 15%, 적어도 20%, 20% 내지 30%, 적어도 25%, 적어도 30%, 30% 내지 40%, 적어도 35%, 적어도 40%, 40% 내지 50%, 적어도 45%, 적어도 50%, 50% 내지 60%, 적어도 약 60%, 60% 내지 70%, 70% 내지 80%, 적어도 75%, 적어도 약 80%, 80% 내지 90%, 적어도 약 90%, 90% 내지 100%, 적어도 100%, 100% 내지 200%, 적어도 200%, 적어도 약 300%, 적어도 약 400% 또는 더 높을 수 있다.
본 명세서에 사용된 바와 같이, 서열 위치와 관련하여 용어 "전에"는 또 다른 서열에 대해 상류, 또는 5'에서의 하나의 서열의 존재를 지칭한다.
약어의 의미는 다음과 같다: "sec"는 초, "min"은 분, "h"는 시간, "d"는 일, "㎕"는 마이크로리터, "㎖"는 밀리리터, "L"은 리터, "μM"은 마이크로몰, "mM"은 밀리몰, "M"은 몰, "m㏖"은 밀리몰, "μ㏖" 또는 "u㏖"은 마이크로몰, "g"는 그램, "㎍" 또는 "ug"는 마이크로그램, "ng"는 나노그램, "U"는 단위, "bp"는 염기쌍, "kb"는 킬로염기를 의미한다.
CRISPR-Cas 시스템의 분류
CRISPR-Cas 시스템은 성분의 서열 및 구조 분석에 따라 분류되었다. 다중서브유닛 효과기 복합체(I형, III형 및 IV형 포함)를 갖는 클래스 1 시스템, 및 단일 단백질 효과기(II형, V형, 및 VI형 포함)를 갖는 클래스 2 시스템을 포함하는 여러 CRISPR/Cas 시스템이 기재되었다(문헌[Makarova et al. 2015, Nature Reviews Microbiology Vol. 13:1-15]; 문헌[Zetsche et al., 2015, Cell 163, 1-13]; 문헌[Shmakov et al., 2015, Molecular Cell 60, 1-13]; 문헌[Haft et al., 2005, Computational Biology, PLoS Comput Biol 1(6):e60]; 및 문헌[Koonin et al. 2017, Curr Opinion Microbiology 37:67-78)]).
CRISPR-Cas 시스템은 최소한으로, CRISPR RNA(crRNA) 분자 및 적어도 하나의 CRISPR-연합(Cas) 단백질을 포함하여, crRNA 리보핵산단백질(crRNP) 효과기 복합체를 형성한다. CRISPR-Cas 좌위는 crRNA 성분을 암호화하는 DNA 표적화 스페이서가 개재된 동일한 반복부의 배열 및 Cas 단백질 성분을 암호화하는 cas 유전자의 오페론 유사 단위를 포함한다. 얻어진 리보핵산단백질 복합체는 서열 특이적 방식으로 폴리뉴클레오티드를 인식한다(문헌[Jore et al., Nature Structural & Molecular Biology 18, 529-536 (2011)]). crRNA는 비상보성 가닥을 옮겨 소위 R 루프를 형성하면서 상보성 DNA와 염기 쌍을 형성함으로써 이중 가닥 DNA 서열에 대한 효과기(단백질 또는 복합체)의 서열 특이적인 결합을 위한 가이드 RNA로서 작용한다. (문헌[Jore et al., 2011. Nature Structural & Molecular Biology 18, 529-536]).
CRISPR 좌위의 RNA 전사체(프리-crRNA)는 I형 및 III형 시스템에서의 CRISPR 관련(Cas) 엔도리보뉴클레아제에 의해 또는 II형 시스템에서의 RNase III에 의해 반복부 서열에서 특이적으로 절단된다. 주어진 CRISPR 좌위에서 CRISPR-연합된 유전자의 수는 종들 간에 달라질 수 있다.
상이한 도메인을 갖는 단백질을 암호화하는 상이한 cas 유전자는 상이한 CRISPR 시스템에 존재한다. cas 오페론은 하나 이상의 효과기 엔도뉴클레아제뿐만 아니라 다른 Cas 단백질을 암호화하는 유전자를 포함한다. 단백질 서브유닛은 문헌[Makarova et al. 2011, Nat Rev Microbiol. 2011 9(6):467-477]; 문헌[Makarova et al. 2015, Nature Reviews Microbiology Vol. 13:1-15]; 및 문헌[Koonin et al. 2017, Current Opinion Microbiology 37:67-78]에 기재되어 있는 것을 포함한다. 도메인 유형은 발현(프리-crRNA 가공, 예를 들어, Cas 6 또는 RNaseIII), 간섭(crRNA 및 표적 결합을 위한 효과기 모듈뿐만 아니라 표적 절단을 위한 도메인(들)을 포함), 적응(스페이서 삽입, 예를 들어, Cas1 또는 Cas2), 및 보조(Ancillary)(조절 또는 헬퍼 또는 알려지지 않은 기능)에 관련된 것을 포함한다. 일부 도메인은 한 가지 초과의 목적에 도움을 줄 수 있으며, 예를 들어, Cas9는 특히 엔도뉴클레아제 기능성뿐만 아니라 표적 절단을 위한 도메인을 포함한다.
Cas 엔도뉴클레아제는 직접적인 RNA-DNA 염기 짝짓기를 통해 단일 CRISPR RNA(crRNA)에 의해 유도되어 프로토스페이서 인접 모티프(PAM)에 근접해 있는 DNA 표적 부위를 인식한다(문헌[Jore, M.M. et al., 2011, Nat. Struct. Mol. Biol. 18:529-536, Westra, E.R. et al., 2012, Molecular Cell 46:595-605], 및 문헌[Sinkunas, T. et al., 2013, EMBO J. 32:385-394]).
클래스 I CRISPR-Cas 시스템
클래스 I CRISPR-Cas 시스템은 I형, III형, 및 IV형을 포함한다. 클래스 I 시스템의 특징은 단일 단백질 대신 효과기 엔도뉴클레아제 복합체가 존재한다는 점이다. 캐스케이드 복합체는 다양한 RAMP(반복부-관련 미스테리 단백질(Repeat-Associated Mysterious Protein)) 단백질 슈퍼패밀리의 핵심 폴드인 RNA 인식 모티프(RRM) 및 핵산-결합 도메인을 포함한다(문헌[Makarova et al. 2013, Biochem Soc Trans 41, 1392-1400]; 문헌[Makarova et al. 2015, Nature Reviews Microbiology Vol. 13:1-15]). RAMP 단백질 서브유닛은 Cas5 및 Cas7을 포함하되(crRNA-효과기 복합체의 골격을 포함함), Cas5 서브유닛은 crRNA의 5' 핸들에 결합하고, 거대 서브유닛과 상호작용하며, 효과기 복합체와 헐겁게 결합되고 전형적으로 프리-crRNA 가공에서 반복부-특이적 RNase로서 작용하는 Cas6을 종종 포함한다(문헌[Charpentier et al., FEMS Microbiol Rev 2015, 39:428-441]; 문헌[Niewoehner et al., RNA 2016, 22:318-329]).
I형 CRISPR-Cas 시스템은 최소 Cas5 및 Cas7을 포함하는 캐스케이드(항바이러스 방어를 위한 CRISPR-연합 복합체)로 지칭되는 효과기 단백질의 복합체를 포함한다. 효과기 복합체는 단일 CRISPR RNA(crRNA) 및 Cas3과 함께 작용하여 침입 바이러스 DNA에 대해 방어한다(문헌[Brouns, S.J.J. et al. Science 321:960-964]; 문헌[Makarova et al. 2015, Nature Reviews Microbiology Vol. 13:1-15]). I형 CRISPR-Cas 좌위는 이중가닥 DNA(dsDNA) 및 RNA-DNA 이중나선을 푸는 입증된 능력을 갖는 단일-가닥 DNA(ssDNA)-자극 슈퍼패밀리 2 헬리카제를 갖는 금속-의존적 뉴클레아제를 암호화하는 서명 유전자 cas3(또는 변이체 cas3' 또는 cas3")을 포함한다(문헌[Makarova et al. 2015, Nature Reviews]; 문헌[Microbiology Vol. 13:1-15]). 표적 인식 후에, Cas3 엔도뉴클레아제는 DNA 표적을 절단 및 분해하기 위해 캐스케이드-crRNA-표적 DNA 복합체에 보충된다(문헌[Westra, E.R. et al. (2012) Molecular Cell 46:595-605], 문헌[Sinkunas, T. et al. (2011) EMBO J. 30:1335-1342] 및 문헌[Sinkunas, T. et al. (2013) EMBO J. 32:385-394]). 일부 I형 시스템에서, Cas6은 crRNA 가공을 담당하는 활성 엔도뉴클레아제일 수 있으며, Cas5 및 Cas7은 비촉매적 RNA-결합 단백질로서 작용하지만; I-C형 시스템에서, crRNA 가공은 Cas5에 의해 촉매될 수 있다(Makarova et al. 2015, Nature Reviews Microbiology Vol. 13:1-15). I형 시스템은 7가지 아형으로 나누어진다(Makarova et al. 2011, Nat Rev Microbiol. 2011 9(6):467-477; Koonin et al. 2017, Curr Opinion Microbiology 37:67-78). 적어도 단백질 서브유닛 Cas7, Cas5 및 Cas6을 포함하는 적응 항바이러스 방어(캐스케이드)에 대한 변형된 I형 CRISPR-연합 복합체가 기재되되(2013년 7월 4일자로 공개된 WO2013098244), 이들 서브유닛 중 하나는 Cas3 엔도뉴클레아제 또는 변형된 제한 엔도뉴클레아제인 FokI에 합성에 의해 융합된다.
복수의 cas7 유전자를 포함하는 III형 CRISPR-Cas 시스템은 ssRNA 또는 ssDNA 중 하나를 표적화하고, RNase뿐만 아니라 표적 RNA-활성화된 DNA 뉴클레아제 중 하나로서 작용한다(Tamulaitis et al., Trends in Microbiology 25(10)49-61, 2017). Csm(III-A형) 및 Cmr(III-B형) 복합체는 표적 RNA 결합/절단을 ssDNA 분해와 결부시키는 RNA-활성화된 단일-가닥(ss) DNase로서 작용한다. 외래 DNA 감염 시, 출현한 전사체에 대한 Csm 또는 Cmr 복합체의 CRISPR RNA(crRNA)-가이드된 결합은 활발하게 전사되는 파지 DNA에 Cas10 DNase를 보충하여, 전사체와 파지 DNA의 분해를 초래하지만, 숙주 DNA의 분해는 초래하지 않는다. Cas10 HD-도메인은 ssDNase 활성화를 담당하며, Csm3/Cmr4 서브유닛은 Csm/Cmr 복합체의 엔도리보뉴클레아제 활성을 담당한다. 표적 RNA의 3'-측접 서열은 Csm/Cmr의 ssDNase 활성에 중요하며: crRNA의 5'-핸들과의 염기 짝짓기는 숙주 DNA를 분해로부터 보호한다.
IV형 시스템은, cas8-유사 도메인에 추가로 전형적인 I형 cas5 및 cas7 도메인을 포함한다고 해도, 대부분의 다른 CRISPR-Cas 시스템의 특징인 CRISPR 어레이를 결여할 수 있다.
클래스 II CRISPR-Cas 시스템
클래스 II CRISPR-Cas 시스템은 II형, V형, 및 VI형을 포함한다. 클래스 2 시스템의 특징은 효과기 복합체 대신 단일 Cas 효과기 단백질이 존재한다는 점이다. II형 및 V형 Cas 단백질은 RNase H 폴드를 채택하는 RuvC 엔도뉴클레아제 도메인을 포함한다.
II형 CRISPR/Cas 시스템은 crRNA 및 tracrRNA(트랜스-활성화 CRISPR RNA)를 사용하여 Cas 엔도뉴클레아제를 이의 DNA 표적으로 유도한다. crRNA는 이중 가닥 DNA 표적의 한 가닥에 상보성인 스페이서 영역 및 tracrRNA(트랜스-활성화 CRISPR RNA)와 염기 쌍을 이루어 Cas 엔도뉴클레아제가 DNA 표적을 절단하도록 유도하는 RNA 이중나선을 형성하는 영역을 포함하여, 평활 말단을 남긴다. 스페이서는 Cas1 및 Cas2 단백질을 수반하는 완전히 이해되지 않은 과정을 통해 획득된다. II형 CRISPR/Cas 좌위는 전형적으로 cas9 유전자 외에 cas1 및 cas2 유전자를 포함한다(문헌[Chylinski et al., 2013, RNA Biology 10:726-737]; 문헌[Makarova et al. 2015, Nature Reviews Microbiology Vol. 13:1-15]). II형 CRISPR-Cas 좌위는 각각의 CRISPR 배열 내 반복 서열에 부분적으로 상보성인 tracrRNA를 암호화할 수 있고, Csn1 및 Csn2와 같은 다른 단백질을 포함할 수 있다. cas1 및 cas2 유전자 부근에 cas9이 존재하는 것은 II형 좌위의 특징이다(Makarova et al. 2015, Nature Reviews Microbiology Vol. 13:1-15).
V형 CRISPR/Cas 시스템은 Cas9와 달리 표적 절단을 위한 추가적인 트랜스-활성화 CRISPR(tracr) RNA를 반드시 필요로 하지는 않는 활성 RNA-가이드 엔도뉴클레아제인, Cpf1(Cas12)를 포함하는 단일 Cas 엔도뉴클레아제를 포함한다(Koonin et al., Curr Opinion Microbiology 37:67-78, 2017).
VI형 CRISPR-Cas 시스템은 2개의 HEPN(보다 고등의 진핵생물 및 원핵생물 뉴클레오티드-결합(Higher Eukaryotes and Prokaryotes Nucleotide-binding)) 도메인을 갖지만 HNH 또는 RuvC 도메인이 없는 뉴클레아제를 암호화하는 cas13 유전자를 포함하고, tracrRNA 활성에 의존하지 않는다. 대다수의 HEPN 도메인은 금속-독립적 endoRNase 활성 부위를 구성하는 보존된 모티프를 포함한다(Anantharam et al., Biol Direct 8:15, 2013). 이 특징 때문에, VI형 시스템은 다른 CRISPR-Cas 시스템과 공통인 DNA 표적 대신에 RNA 표적 상에서 작용하는 것으로 생각된다.
신규한 CRISPR-Cas 시스템
본 명세서에서 신규한 CRISPR-Cas 시스템, 이의 성분 및 상기 성분을 이용하는 방법이 개시된다. 상기 시스템은 신규한 Cas 효과기 단백질, Cas-알파를 포함한다.
본 명세서에 기재된 신규한 CRISPR-Cas 시스템 성분은 상이한 Cas 시스템으로부터의 하나 하나 초과의 서브유닛, 상이한 박테리아 또는 고세균 원핵생물 및/또는 합성 또는 조작된 성분으로부터 유래되거나 변형된 서브유닛을 포함할 수 있다.
본 명세서에서 cas 유전자의 신규한 배열을 포함하는 새로 확인된 CRISPR-Cas 시스템이 기재된다. 추가로 신규한 cas 유전자 및 단백질이 기재된다.
신규한 Cas-알파 시스템 중 일부의 한 가지 특징은 도 1a 내지 도 1d에 도시된 바와 같은 좌위 구조이다. 일부 양상에서, Cas-알파 게놈 좌위는 효과기 단백질 Cas-알파를 암호화하는 cas1 유전자, cas2 유전자, cas4 유전자 및 cas-알파 유전자를 포함한다. 뉴클레오티드 서열의 반복부를 포함하는 CRISPR 어레이는 Cas-알파 엔도뉴클레아제를 암호화하는 유전자 앞에, 또는 뒤에서 발견될 수 있다. 일부 양상에서, cas-알파 좌위는 효과기 단백질을 암호화하는 cas-알파 유전자, 및 반복부를 포함하는 CRISPR 어레이를 포함할 수 있지만, cas1 유전자, cas2 유전자 및/또는 cas4 유전자 중 임의의 하나 이상을 포함하지 않는다.
CRISPR-Cas 시스템 성분
Cas 단백질
다수의 단백질은 적응(스페이서 삽입), 간섭(효과기 모듈 표적 결합, 표적 틈내기 또는 절단 - 예를 들어, 엔도뉴클레아제 활성), 발현(프리-crRNA 가공), 조절 또는 기타에 관련된 것을 포함하는, CRISPR cas 오페론에서 암호화될 수 있다.
다수의 CRISPR 시스템에서 2종의 단백질, 즉, Cas1 및 Cas2가 보존된다(예를 들어, 문헌[Koonin et al., Curr Opinion Microbiology 37:67-78, 2017]에 기재된 바와 같음). Cas1은 이중-가닥 DNA 단편을 생성하는 금속-의존적 DNA-특이적 엔도뉴클레아제이다. 일부 시스템에서, Cas1은 CRISPR 시스템에 대한 스페이서 획득 및 삽입에 필수적인 Cas2와의 안정한 복합체를 형성한다( et al., Nature Str Mol Biol 21:528-534, 2014).
다수의 다른 단백질은 Cas4(RecB 뉴클레아제에 대해 유사성을 가질 수 있음)를 포함하는 상이한 시스템에 걸쳐 확인되었고, CRISPR 어레이 내로의 혼입을 위한 새로운 바이러스 DNA 서열의 포착에 어떤 역할을 하는 것으로 생각된다(Zhang et al., PLOS One 7(10):e47232, 2012).
일부 단백질은 복수의 기능을 포괄할 수 있다. 예를 들어, 클래스 2 II형 시스템의 서명 단백질인 Cas9는 프리-crRNA 가공, 표적 결합뿐만 아니라 표적 절단에 관여하는 것으로 입증되었다.
본 명세서에 개시된 신규한 Cas-알파 단백질은 효과기 단백질(엔도뉴클레아제)뿐만 아니라 적용 단백질을 포함한다. Cas 엔도뉴클레아제는 몇몇 박테리아 및 고박테리아(archaebacterial) 공급원으로부터 확인되었고, 도 7a 내지 도 7k에 제시된 것을 포함한다.
Cas 엔도뉴클레아제 및 효과기
엔도뉴클레아제는 폴리뉴클레오티드 쇄 내의 포스포디에스테르 결합을 절단하는 효소이고, 염기를 손상시키지 않고 특정 부위에서 DNA를 절단하는 제한 엔도뉴클레아제를 포함한다. 엔도뉴클레아제의 예는 제한 엔도뉴클레아제, 메가뉴클레아제, TAL 효과기 뉴클레아제(TALEN), 아연 핑거 뉴클레아제, 및 Cas(CRISPR-연합) 효과기 엔도뉴클레아제를 포함한다.
단일 효과기 단백질로서 또는 다른 성분과의 효과기 복합체로서 Cas 엔도뉴클레아제는 표적 서열에서 DNA 이중나선을 풀고, Cas 효과기 단백질과의 복합체인 폴리뉴클레오티드(예컨대, crRNA 또는 가이드 RNA, 그러나 이것으로 제한되지 않음)에 의한 표적 서열의 인식에 의해 매개되는 바와 같이, 적어도 하나의 DNA 가닥을 선택적으로 절단한다. 전형적으로 Cas 엔도뉴클레아제에 의한 이러한 표적 서열의 인식 및 절단은 정확한 프로토스페이서-인접 모티프(protospacer-adjacent motif: PAM)가 DNA 표적 서열의 3' 말단에 위치하거나 인접한 경우 발생한다. 대안적으로, 본 명세서에서 Cas 엔도뉴클레아제는 DNA 절단 또는 틈내기 활성이 없을 수 있지만, 적합한 RNA 성분과 복합체를 형성한 경우 여전히 DNA 표적 서열에 특이적으로 결합할 수 있다. (또한, 2015년 3월 19일 공개된 미국 특허 출원 US20150082478호 및 2015년 2월 26일 공개된 US20150059010호 참조).
Cas 엔도뉴클레아제는 개개 효과기(클래스 2 CRISPR 시스템)로서 또는 보다 큰 효과기 복합체(클래스 I CRISPR 시스템)로서 생길 수 있다.
기재된 Cas 엔도뉴클레아제는, 예를 들어: Cas3(클래스 1 I형 시스템의 특징), Cas9(클래스 2 II형 시스템의 특징) 및 Cas12(Cpf1)(클래스 2 V형 시스템의 특징)를 포함하지만, 이들로 제한되지 않는다.
Cas3(및 이의 변이체 Cas3' 및 Cas3'')은 단일-가닥 DNA 뉴클레아제(HD 도메인) 및 ATP-의존적 헬리카제로서 작용한다. Cas3 엔도뉴클레아제의 변이체는 Cas3 엔도뉴클레아제 폴리펩티드의 도메인 중 하나 또는 둘 다의 기능성 활성을 불능화(disabling)함으로써 얻어질 수 있다. (Cas3-헬리카제 도메인의 결실, 넉아웃에 의해, 또는 중요한 잔기의 돌연변이를 통해 또는 앞서 기재한 바와 같이 ATP의 부재 하에 반응을 조립함으로써 (문헌[Sinkunas, T. et al., 2013, EMBO J. 32:385-394]) ATPase 의존적 헬리카제 활성의 불능화는 변형된 Cas3 엔도뉴클레아제를 포함하는 절단 준비 캐스케이드를 틈내기효소로 전환할 수 있다(HD 도메인이 여전히 기능성이기 때문). HD 엔도뉴클레아제 활성의 불능화는 당업계에 공지된 임의의 방법에 의해 달성될 수 있으며, 예컨대 이하로 제한되는 것은 아니지만, HD 도메인의 중요 잔기의 돌연변이유발은 변형된 Cas3 엔도뉴클레아제를 포함하는 절단 준비 캐스케이드를 헬리카제로 전환할 수 있다. Cas 헬리카제와 Cas3 HD 엔도뉴클레아제 활성 둘 다의 불능화는 당업계에 공지된 임의의 방법에 의해 달성될 수 있으며, 예컨대 이하로 제한되는 것은 아니지만, HD 도메인의 중요 잔기의 돌연변이유발은 변형된 Cas3 엔도뉴클레아제를 포함하는 절단 준비 캐스케이드를 표적 서열에 결합하는 결합제 단백질로 전환할 수 있다.
Cas9(앞서 Cas5, Csn1 또는 Csx12로 지칭됨)는 DNA 표적 서열의 전부 또는 일부를 특이적으로 인식하고 절단하기 위해, cr뉴클레오티드 및 tracr뉴클레오티드와, 또는 단일 가이드 폴리뉴클레오티드와 복합체를 형성하는 Cas 엔도뉴클레아제이다. Cas9는 표적 dsDNA 상의 3' GC-풍부 PAM 서열을 인식한다. Cas9 단백질은 RuvC-II 도메인에 인접한 HNH(H-N-H) 뉴클레아제와 함께 RuvC 뉴클레아제를 포함한다. RuvC 뉴클레아제 및 HNH 뉴클레아제 각각은 표적 서열에서 단일 DNA 가닥을 절단할 수 있다(두 도메인의 공동 작용은 DNA 이중 가닥 절단을 유도하는 반면, 하나의 도메인의 활성은 틈을 유도함). 일반적으로, RuvC 도메인은 서브도메인 I, II 및 III을 포함하며, 여기서 도메인 I은 Cas9의 N 말단 근처에 위치하고, 서브도메인 II 및 III은 HNH 도메인에 측접하는, 단백질의 중간에 위치한다(Hsu et al., 2013, Cell 157:1262-1278). Cas9 엔도뉴클레아제는 전형적으로 II형 CRISPR 시스템으로부터 유래되는데, 이 시스템은 적어도 하나의 폴리뉴클레오티드 성분과의 복합체인 Cas9 엔도뉴클레아제를 사용하는 DNA 절단 시스템을 포함한다. 예를 들어, Cas9는 CRISPR RNA(crRNA) 및 전사-촉진 CRISPR RNA(tracrRNA)와의 복합체일 수 있다. 다른 예에서, Cas9는 단일 가이드 RNA와의 복합체일 수 있다(Makarova et al. 2015, Nature Reviews Microbiology Vol. 13:1-15).
Cas12(앞서 Cpf1, 및 변이체 c2c1, c2c3, CasX 및 CasY로 지칭됨)는 RuvC 뉴클레아제 도메인 및 dsDNA 표적 상에서 생성된 엇갈린 5' 돌출부를 포함한다. 일부 변이체는 Cas9의 기능성과 달리 tracrRNA를 필요로 하지 않는다. Cas12 및 이의 변이체는 표적 dsDNA 상의 5' AT-풍부 PAM 서열을 인식한다. Cas12a 단백질의, Nuc로 불리는 삽입 도메인은 표적 가닥 절단을 초래하는 것으로 입증되었다(Yamano et al., Cell 2016, 165:949-962). 다른 Cas12 단백질에서의 추가적인 돌연변이 연구는 Nuc 도메인이 가이드 및 표적 결합에 기여하며, RuvC 도메인이 절단을 초래한다는 것을 입증하였다(Swarts et al., Mol Cell 2017, 66:221-233 e224).
Cas 엔도뉴클레아제 및 효과기 단백질은 (단일 및 복합 이중 가닥 절단 및 틈내기를 통한) 표적화된 게놈 편집 및 (Cas 단백질 또는 sgRNA로의 후성적 효과기 도메인의 테더링을 통한) 표적화된 게놈 조절에 이용될 수 있다. Cas 엔도뉴클레아제는 RNA-유도 재조합효소로서 기능하도록 조작될 수도 있으며, RNA 테더를 통해 다중 단백질과 핵산 복합체의 조립을 위한 스캐폴드로서 작용할 수 있다(Mali et al., 2013, Nature Methods Vol. 10:957-963).
Cas-알파 엔도뉴클레아제
Cas-알파 엔도뉴클레아제는 3개의 서브도메인으로 분할되고 브리지-나선 및 하나 이상의 아연 핑거 모티프(들)를 더 포함하는 C-말단 RuvC 촉매적 도메인; 및 나선 다발을 갖는 N-말단 Rec 서브유닛, WED 쐐기-유사(또는 "올리고뉴클레오티드 결합 도메인(Oligonucleotide Binding Domain)", OBD) 도메인, 및 선택적으로, 아연 핑거 모티프를 포함하는, 800개 미만의 아미노산의 기능성 RNA-가이드, PAM-의존적 dsDNA 절단 단백질로서 정의된다.
Cas-알파 엔도뉴클레아제는, 서열번호 17에 대해 정렬될 때, 서열번호 17의 아미노산 위치에 대해, 다음 중 적어도 1, 적어도 2, 적어도 3, 적어도 4, 적어도 5, 적어도 6 또는 7가지를 포함한다: 337번 위치에서 글리신(G), 341번 위치에서 글리신(G), 430번 위치에서 글루탐산(E), 432번 위치에서 류신(L), 487번 위치에서 시스테인(C), 490번 위치에서 시스테인(C), 507번 위치에서 시스테인(C) 및/또는 512번 위치에서 시스테인(C) 또는 히스티딘(H). Cas-알파 엔도뉴클레아제는 다음의 모티프를 포함한다: GxxxG, ExL, CxnC, Cxn(C 또는 H)(여기서, n = 하나 이상의 아미노산).
RuvC 도메인은 엔도뉴클레아제 기능성을 포괄하는 것으로 문헌에서 입증되었다. Cas-알파 엔도뉴클레아제는 효과기 단백질을 암호화하는 cas-알파 유전자, 및 복수의 반복부를 포함하는 어레이를 포함하는 좌위로부터 단리되거나 확인될 수 있다. 일부 양상에서, cas-알파 좌위는 부분적 또는 전체 cas1 유전자, cas2 유전자 및/또는 cas4 유전자를 추가로 포함할 수 있다.
아연 핑거 모티프는 하나 이상의 아연 이온이, 보통 시스테인 및 히스티딘 측쇄를 통해, 이들의 폴딩을 안정화시키도록 배위하는 도메인이다. 아연 핑거는 아연 이온을 배위하는 시스테인 및 히스티딘 잔기 패턴에 대해 명명된다(예를 들어, C4는 아연 이온이 4개의 시스테인 잔기에 의해 배위된다는 것을 의미하고; C3H는 아연 이온이 3개의 시스테인 잔기 및 1개의 히스티딘 잔기에 의해 배위됨을 의미한다).
Cas-알파 단백질은 아연 결합 도메인을 형성할 수 있는 하나 이상의 아연 핑거(ZFN) 배위 모티프(들)를 포함한다. 아연 핑거-유사 모티프는 가이드 RNA의 표적 및 비-표적 가닥의 DNA 표적으로의 분리 및 로딩을 보조할 수 있다. 하나 이상의 아연 핑거 모티프를 포함하는 Cas-알파 단백질은 표적 폴리뉴클레오티드 상의 리보핵단백질에 대한 추가적인 안정성을 제공할 수 있다. Cas-알파 단백질은 C4 또는 C3H 아연 결합 도메인을 포함한다.
일부 Cas-알파 단백질 및 폴리뉴클레오티드는 도 7a 내지 도 7k에 제공되며, 엔도뉴클레아제 단백질의 중요한 구조적 모티프는 도 8a 내지 도 8k에 각각 도시된다.
Cas-알파 엔도뉴클레아제는 하기를 포함하는 이중가닥 DNA 표적에 결합하고 이를 절단할 수 있는 RNA-가이드 엔도뉴클레아제이다: (1) 가이드 RNA의 뉴클레오티드 서열과 상동성을 공유하는 서열, 및 (2) PAM 서열. 일부 양상에서, PAM은 T-풍부이다. 일부 양상에서, PAM은 C-풍부이다.
Cas-알파 엔도뉴클레아제는 이중-가닥은 이중-가닥 유도제로서 작용하고, 또한 틈내기효소 또는 단일-가닥-파손 유도제일 수 있다. 일부 양상에서, 촉매적 비활성 Cas-알파 엔도뉴클레아제는 표적화하거나 표적 DNA 서열에 보충을 위해 사용될 수 있지만, 절단을 유도하지는 않는다. 일부 양상에서, 촉매적 비활성 Cas-알파 단백질은 표적 서열을 절단하기 위해 기능성 엔도뉴클레아제와 함께 사용될 수 있다. 일부 양상에서, 촉매적 비활성 Cas-알파 단백질은 편집 분자, 예컨대, 데아미나제와 조합될 수 있다. 일부 양상에서, 데아미나제는 사이티딘 데아미나제일 수 있다. 일부 양상에서, 데아미나제는 아데닌 데아미나제일 수 있다. 일부 양상에서, 데아미나제는 ADAR-2일 수 있다.
Cas-알파 엔도뉴클레아제는 추가로 임의의 서열번호 17, 18, 19, 20, 32, 33, 34, 35, 36, 37, 38, 254, 255, 256, 257, 258, 259, 260, 261, 262, 263, 264, 265, 266, 267, 268, 269, 270, 271, 272, 273, 274, 275, 276, 277, 278, 279, 280, 281, 282, 283, 284, 285, 286, 287, 288, 289, 290, 291, 292, 293, 294, 295, 296, 297, 298, 299, 300, 301, 302, 303, 304, 305, 306, 307, 308, 309, 310, 311, 312, 313, 314, 315, 316, 317, 318, 319, 320, 321, 322, 323, 324, 325, 326, 327, 328, 329, 330, 331, 332, 333, 334, 335, 336, 337, 338, 339, 340, 341, 342, 343, 344, 345, 346, 347, 348, 349, 350, 351, 352, 353, 354, 355, 356, 357, 358, 359, 360, 361, 362, 363, 364, 365, 366, 367, 368, 369, 370 및 371의 적어도 50개, 50개 내지 100개, 적어도 100개, 100개 내지 150개, 적어도 150개, 150개 내지 200개, 적어도 200개, 200개 내지 250개, 적어도 250개, 250개 내지 300개, 적어도 300개, 300개 내지 350개, 적어도 350개, 350개 내지 400개, 적어도 400개, 400개 내지 450개, 적어도 500개, 또는 500개 초과의 인접한 아미노산과 적어도 50%, 50% 내지 55%, 적어도 55%, 55% 내지 60%, 적어도 60%, 60% 내지 65%, 적어도 65%, 65% 내지 70%, 적어도 70%, 70% 내지 75%, 적어도 75%, 75% 내지 80%, 적어도 80%, 80% 내지 85%, 적어도 85%, 85% 내지 90%, 적어도 90%, 90% 내지 95%, 적어도 95%, 95% 내지 96%, 적어도 96%, 96% 내지 97%, 적어도 97%, 97% 내지 98%, 적어도 98%, 98% 내지 99%, 적어도 99%, 99% 내지 100%, 또는 100% 서열 동일성을 공유하는 RNA-가이드 이중 가닥 DNA 절단 단백질, 또는 이의 기능성 단편, 또는 적어도 부분적 활성을 보유하는 이의 기능성 변이체로서 정의된다. Cas-알파 엔도뉴클레아제의 "기능성 단편"은 이중-가닥 폴리뉴클레오티드의 단일 가닥을 인식하거나, 이에 결합하거나 틈내기하거나, 또는 이중-가닥 폴리뉴클레오티드의 가닥을 둘 다 절단하는 능력, 또는 앞서 언급한 것의 임의의 조합을 보유한다.
Cas-알파 엔도뉴클레아제는 임의의 서열번호 13, 14, 15, 16, 25, 26, 27, 28, 29, 30 또는 31의 적어도 50개, 50개 내지 100개, 적어도 100개, 100개 내지 150개, 적어도 150개, 150개 내지 200개, 적어도 200개, 200개 내지 250개, 적어도 250개, 250개 내지 300개, 적어도 300개, 300개 내지 350개, 적어도 350개, 350개 내지 400개, 적어도 400개, 400개 내지 450개, 적어도 500개, 500개 내지 550개, 적어도 600개, 600개 내지 650개, 적어도 650개, 650개 내지 700개, 적어도 700개, 700개 내지 750개, 적어도 750개, 750개 내지 800개, 적어도 800개, 800개 내지 850개, 적어도 850개, 850개 내지 900개, 적어도 900개, 900개 내지 950개, 적어도 950개, 950개 내지 1000개, 적어도 1000개, 또는 심지어 1000개 초과의 인접한 뉴클레오티드와 적어도 50%, 50% 내지 55%, 적어도 55%, 55% 내지 60%, 적어도 60%, 60% 내지 65%, 적어도 65%, 65% 내지 70%, 적어도 70%, 70% 내지 75%, 적어도 75%, between 75% 내지 80%, 적어도 80%, 80% 내지 85%, 적어도 85%, 85% 내지 90%, 적어도 90%, 90% 내지 95%, 적어도 95%, 95% 내지 96%, 적어도 96%, 96% 내지 97%, 적어도 97%, 97% 내지 98%, 적어도 98%, 98% 내지 99%, 적어도 99%, 99% 내지 100%, 또는 100% 서열 동일성을 공유하는 폴리뉴클레오티드에 의해 암호화되거나, 또는 서열번호 17, 18, 19, 20, 32, 33, 34, 35, 36, 37, 38, 254, 255, 256, 257, 258, 259, 260, 261, 262, 263, 264, 265, 266, 267, 268, 269, 270, 271, 272, 273, 274, 275, 276, 277, 278, 279, 280, 281, 282, 283, 284, 285, 286, 287, 288, 289, 290, 291, 292, 293, 294, 295, 296, 297, 298, 299, 300, 301, 302, 303, 304, 305, 306, 307, 308, 309, 310, 311, 312, 313, 314, 315, 316, 317, 318, 319, 320, 321, 322, 323, 324, 325, 326, 327, 328, 329, 330, 331, 332, 333, 334, 335, 336, 337, 338, 339, 340, 341, 342, 343, 344, 345, 346, 347, 348, 349, 350, 351, 352, 353, 354, 355, 356, 357, 358, 359, 360, 361, 362, 363, 364, 365, 366, 367, 368, 369, 370 및 371 중 임의의 하나를 암호화한다.
개시된 방법에 사용하기 위한, Cas9 엔도뉴클레아제, 효과기 단백질, 또는 이의 기능성 단편은 천연 공급원으로부터, 또는 유전적으로 변형된 숙주 세포가 단백질을 암호화하는 핵산 서열을 발현하도록 변형된 재조합 공급원으로부터 단리될 수 있다. 대안적으로, Cas 단백질은 무세포 단백질 발현 시스템을 사용하여 생산되거나 합성적으로 생산될 수 있다. 효과기 Cas 뉴클레아제는 단리되어 이종성 세포에 도입될 수 있거나, 또는 이의 천연 형태로부터 변형되어 이의 천연 공급원에서 나타나는 것과는 상이한 유형 또는 규모의 활성을 나타낼 수 있다. 이러한 변형은 단편, 변이체, 치환, 결실, 및 삽입을 포함하지만, 이들로 제한되지 않는다.
Cas 엔도뉴클레아제 및 Cas 효과기 단백질의 단편 및 변이체는 부위-지정 돌연변이유발 및 합성 작제와 같은 방법을 통해 얻을 수 있다. 2013년 11월 7일 공개된 WO2013166113, 2016년 11월 24일 공개된 WO2016186953, 및 2016년 11월 24일 공개된 WO2016186946과 같은, 그러나 이들로 제한되지 않는 엔도뉴클레아제 활성의 측정 방법은 당업계에 잘 공지되어 있다.
Cas 엔도뉴클레아제는 Cas 폴리펩티드의 변형된 형태를 포함할 수 있다. Cas 폴리펩티드의 변형된 형태는 Cas 단백질의 자연 발생 뉴클레아제 활성을 감소시키는 아미노산 변화(예를 들어, 결실, 삽입 또는 치환)를 포함할 수 있다. 예를 들어, 일부 경우, Cas 단백질의 변형된 형태는 대응하는 야생형 Cas 폴리펩티드의 뉴클레아제 활성의 50% 미만, 40% 미만, 30% 미만, 20% 미만, 10% 미만, 5% 미만, 또는 1% 미만을 갖는다(2014년 3월 6일 공개된 US20140068797). 일부 경우에, Cas 폴리펩티드의 변형된 형태는 실질적인 뉴클레아제 활성을 갖지 않으며, 촉매적으로 "불활성화된 Cas" 또는 "탈활성화된 Cas(dCas)"로 지칭된다. 불활성화된 Cas/탈활성화된 Cas는 탈활성화된 Cas 엔도뉴클레아제(dCas)를 포함한다. 촉매 불활성 Cas 효과기 단백질은 이종성 서열에 융합되어 활성을 유도하거나 변경할 수 있다.
Cas 엔도뉴클레아제는 하나 이상의 이종성 단백질 도메인(예를 들어, Cas 단백질 외에도 1개, 2개, 3개 이상의 도메인)을 포함하는 융합 단백질의 일부일 수 있다. 이러한 융합 단백질은 임의의 추가적인 단백질 서열, 및 선택적으로 임의의 두 도메인 사이, 예컨대, Cas와 제1 이종성 도메인 사이의 링커 서열을 포함할 수 있다. 본 명세서의 Cas 단백질에 융합될 수 있는 단백질 도메인의 예는 에피토프 태그(예를 들어, 히스티딘[His], V5, FLAG, 인플루엔자 혈구응집소[HA], myc, VSV-G, 티오레독신[Trx]), 리포터(예를 들어, 글루타티온-5-트랜스퍼라아제[GST], 홀스래디쉬 퍼옥시다제[HRP], 클로람페니콜 아세틸트랜스퍼라아제[CAT], 베타-갈락토시다제, 베타-글루쿠로니다제[GUS], 루시퍼라아제, 녹색 형광 단백질[GFP], HcRed, DsRed, 청록색 형광 단백질[CFP], 황색 형광 단백질[YFP], 청색 형광 단백질[BFP]) 및 메틸라아제 활성, 탈메틸라아제 활성, 전사 활성화 활성(예를 들어, VP16 또는 VP64), 전사 억제 활성, 전사 방출 인자 활성, 히스톤 변형 활성, RNA 절단 활성 및 핵산 결합 활성 중 하나 이상을 갖는 도메인을 제한 없이 포함한다. Cas 단백질은 DNA 분자 또는 다른 분자에 결합하는 단백질, 예컨대, 말토스 결합 단백질(MBP), S-태그, Lex A DNA 결합 도메인(DBD), GAL4A DNA 결합 도메인 및 단순 헤르페스 바이러스(HSV) VP16과 융합될 수도 있다.
촉매적으로 활성인 및/또는 불활성인 Cas 엔도뉴클레아제는 이종성 서열에 융합될 수 있다(2014년 3월 6일 공개된 US20140068797). 적합한 융합 상대는 표적 DNA 상에 또는 표적 DNA와 결합된 폴리펩티드(예를 들어, 히스톤 또는 다른 DNA 결합 단백질) 상에 직접 작용하여 전사를 간접적으로 증가시키는 활성을 제공하는 폴리펩티드를 포함하지만, 이것으로 제한되지 않는다. 추가적인 적합한 융합 상대는 메틸트랜스퍼라아제 활성, 탈메틸라아제 활성, 아세틸트랜스퍼라아제 활성, 탈아세틸라아제 활성, 키나아제 활성, 포스파타아제 활성, 유비퀴틴 리가아제 활성, 탈유비퀴틴화 활성, 아데닐화 활성, 탈아데닐화 활성, 수모일화(SUMOylating) 활성, 탈수모일화(deSUMOylating) 활성, 리보실화 활성, 탈리보실화 활성, 미리스토일화 활성 또는 탈미리스토일화 활성을 제공하는 폴리펩티드를 포함하지만, 이들로 제한되지 않는다. 추가의 적합한 융합 상대는 표적 핵산의 증가된 전사를 직접적으로 제공하는 폴리펩티드(예를 들어, 전사 활성인자 또는 이의 단편, 전사 활성인자를 모집하는 단백질 또는 이의 단편, 소분자/약물 반응성 전사 조절인자 등)를 포함하지만, 이들로 제한되지 않는다. 부분적 활성 또는 촉매적 비활성 Cas-알파 엔도뉴클레아제는 또한 이중-가닥 파손을 생성하기 위해 다른 단백질 또는 도메인, 예를 들어, Clo51 또는 FokI 뉴클레아제와 융합될 수 있다(Guilinger et al. Nature Biotechnology, volume 32, number 6, June 2014).
촉매적 활성 또는 비활성 Cas 단백질, 예컨대, 본 명세서에 기재된 Cas-알파 단백질은 또한 폴리뉴클레오티드 서열에 단일 또는 다중 염기의 편집을 지시하는 분자, 예를 들어, CG 대 TA 또는 AT 대 GC의 뉴클레오티드의 동일성을 변화시킬 수 있는, 예를 들어, 부위-특이적 데아미나제와 융합될 수 있다(문헌[Gaudelli et al., Programmable base editing of AT to GC in genomic DNA without DNA cleavage." Nature (2017)]; 문헌[Nishida et al. "Targeted nucleotide editing using hybrid prokaryotic and vertebrate adaptive immune systems." Science 353 (6305) (2016)]; 문헌[Komor et al. "Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage." Nature 533 (7603) (2016):420-4]). 염기 편집 융합 단백질은, 예를 들어, 활성(이중 가닥 파손 생성), 부분적 활성(틈내기효소) 또는 탈활성화된(촉매적 비활성) Cas-알파 엔도뉴클레아제 및 데아미나제(예컨대, 이하로 제한되는 것은 아니지만, 사이티딘 데아미나제, 아데닌 데아미나제, APOBEC1, APOBEC3A, BE2, BE3, BE4, ABE 등)을 포함할 수 있다. 염기 편집 수선 저해제 및 글리코실라제 저해제(예를 들어, 우라실 글리코실라제 저해제(우라실 제거를 방지함))는 일부 실시형태에서, 염기 편집 시스템의 성분으로서 상정된다.
본 명세서에 기재된 Cas 엔도뉴클레아제는, 예를 들어, 2016년 11월 24일 공개된 WO/2016/186953에 기재되어 있는 바와 같이, 당업계에 공지된 방법에 의해 발현 및 정제될 수 있다.
지금까지 특정 PAM 서열을 인식할 수 있고(2016년 11월 24일 공개된 WO2016186953, 2016년 11월 24일 공개된 WO2016186946, 및 문헌[Zetsche B et al. 2015. Cell 163, 1013]) 특정 위치에서 표적 DNA를 절단할 수 있는 많은 Cas 엔도뉴클레아제가 기재되었다. 신규한 유도 Cas 시스템을 활용하는 본 명세서에 기재된 방법 및 실시형태를 기초로, 이제는 당업자가 임의의 유도 엔도뉴클레아제 시스템을 활용할 수 있도록 이들 방법을 조정할 수 있다는 것이 이해된다.
Cas 효과기 단백질은 이종성 핵 국재화 서열(NLS)을 포함할 수 있다. 본 명세서의 이종성 NLS 아미노산 서열은, 예를 들어, 본 명세서의 효모 세포의 핵에서 검출 가능한 양으로 Cas 단백질의 축적을 유도하기에 충분한 강도일 수 있다. NLS는 염기성의, 양으로 하전된 잔기(예를 들어, 리신 및/또는 아르기닌)의 하나(1부분(monopartite)) 이상(예를 들어, 2부분(bipartite))의 짧은 서열(예를 들어, 2 내지 20개의 잔기)을 포함할 수 있으며, Cas 아미노산 서열 중 어디에도 위치할 수 있지만 단백질 표면 상에 노출되어야 한다. NLS는, 예를 들어, 본 명세서의 Cas 단백질의 N 말단 또는 C 말단에 작동 가능하게 연결될 수 있다. 2개 이상의 NLS 서열이 Cas 단백질에 연결될 수 있는데, 예를 들어, Cas 단백질의 N 말단과 C 말단 모두에 연결될 수 있다. Cas 엔도뉴클레아제 유전자는 Cas 코돈 영역 상류의 SV40 핵 표적화 신호 및 Cas 코돈 영역 하류의 2부분 VirD2 핵 국재화 신호에 작동 가능하게 연결될 수 있다(Tinland et al. (1992) Proc. Natl. Acad. Sci. USA 89:7442-6). 본 명세서의 적합한 NLS 서열의 비제한적 예는 미국 특허 제6,660,830호 및 제7,309,576호에 개시된 것들을 포함한다.
가이드 폴리뉴클레오티드
가이드 폴리뉴클레오티드는 Cas 엔도뉴클레아제에 의해 표적 인식, 결합, 및 선택적으로 절단을 가능하게 하며, 단일 분자 또는 이중 분자일 수 있다. 가이드 폴리뉴클레오티드 서열은 RNA 서열, DNA 서열, 또는 이들의 조합(RNA-DNA 조합 서열)일 수 있다. 선택적으로, 가이드 폴리뉴클레오티드는 적어도 하나의 뉴클레오티드, 포스포디에스테르 결합 또는 연결 변형, 예컨대 비제한적인 예로서 잠김 핵산(LNA), 5-메틸 dC, 2,6-디아미노퓨린, 2'-플루오로 A, 2'-플루오로 U, 2'-O-메틸 RNA, 포스포로티오에이트 결합, 콜레스테롤 분자에 대한 연결, 폴리에틸렌 글리콜 분자에 대한 연결, 스페이서 18(헥사에틸렌 글리콜 쇄) 분자에 대한 연결, 또는 고리화를 초래하는 5'에서 3'으로의 공유 연결을 포함할 수 있다. 리보핵산만을 포함하는 가이드 폴리뉴클레오티드는 "가이드 RNA" 또는 "gRNA"로도 지칭된다(2015년 3월 19일 공개된 US20150082478 및 2015년 2월 26일 공개된 US20150059010). 가이드 폴리뉴클레오티드는 조작될 수 있거나 합성형일 수 있다.
가이드 폴리뉴클레오티드는 천연에서 모두 함께 발견되지 않는(즉, 이들은 서로 이종성임) 영역을 포함하는 키메라성 비천연 유래 가이드 RNA를 포함한다. 예를 들어, 제1 뉴클레오티드 서열 및 제2 뉴클레오티드 서열이 천연에서 함께 연결되는 것으로 발견되지 않도록, Cas 엔도뉴클레아제를 인식할 수 있는 제2 뉴클레오티드 서열에 연결된, 표적 DNA에서 뉴클레오티드 서열에 혼성화할 수 있는 제1 뉴클레오티드 서열 도메인(가변 표적화 도메인 또는 VT 도메인이라고 칭함)을 포함하는 키메라성 비천연 유래 가이드 RNA.
가이드 폴리뉴클레오티드는 cr뉴클레오티드(예컨대 crRNA) 서열 및 tracr뉴클레오티드(예컨대 tracrRNA) 서열을 포함하는 이중 분자(이중나선 가이드 폴리뉴클레오티드라고도 함)일 수 있다. 일부 경우에, crRNA 및 tracrRNA와 연결되어 단일 가이드, 예를 들어, sgRNA를 형성하는 링커 폴리뉴클레오티드가 있다.
cr뉴클레오티드는 표적 DNA의 뉴클레오티드 서열에 혼성화될 수 있는 제1 뉴클레오티드 서열 도메인(가변 표적화 도메인 또는 VT 도메인이라고 함) 및 Cas 엔도뉴클레아제 인식(CER) 도메인의 일부인 제2 뉴클레오티드 서열(tracr 메이트 서열이라고도 함)을 포함한다. tracr 메이트 서열은 상보성 영역을 따라 tracr뉴클레오티드에 혼성화될 수 있고, 함께 Cas 엔도뉴클레아제 인식 도메인 또는 CER 도메인을 형성할 수 있다. CER 도메인은 Cas 엔도뉴클레아제 폴리펩티드와 상호 작용할 수 있다. 이중나선 가이드 폴리뉴클레오티드의 cr뉴클레오티드 및 tracr뉴클레오티드는 RNA, DNA, 및/또는 RNA-DNA-조합 서열일 수 있다. 일부 실시형태에서, 이중나선 가이드 폴리뉴클레오티드의 cr뉴클레오티드 분자는 "crDNA"(연속된 DNA 뉴클레오티드들로 구성되는 경우) 또는 "crRNA"(연속된 RNA 뉴클레오티드들로 구성되는 경우) 또는 "crDNA-RNA"(DNA와 RNA 뉴클레오티드의 조합으로 구성되는 경우)로 지칭된다. cr뉴클레오티드는 박테리아 및 고세균에서 천연 유래 crRNA의 단편을 포함할 수 있다. 박테리아 및 고세균에서 천연 유래이고 본 명세서에 개시된 cr뉴클레오티드에 존재할 수 있는 crRNA의 단편의 크기는 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개 이상의 뉴클레오티드 범위일 수 있으나, 이들로 제한되지 않는다. 일부 실시형태에서, crRNA 분자는 서열번호 57, 58 및 59로 이루어진 군으로부터 선택된다.
일부 실시형태에서, tracr뉴클레오티드는 "tracrRNA"(연속된 RNA 뉴클레오티드들로 구성되는 경우) 또는 "tracrDNA"(연속된 DNA 뉴클레오티드들로 구성되는 경우) 또는 "tracrDNA-RNA"(DNA와 RNA 뉴클레오티드의 조합으로 구성되는 경우)로 지칭된다. 하나의 실시형태에서, RNA/Cas9 엔도뉴클레아제 복합체를 유도하는 RNA는 이중나선 crRNA-tracrRNA를 포함하는 이중나선 RNA이다. tracrRNA(트랜스-활성화 CRISPR RNA)는 5'에서 3' 방향으로 (i) CRISPR II형 crRNA의 반복 영역과 어닐링하는 서열 및 (ii) 줄기 루프를 포함하는 부분을 포함한다(Deltcheva et al., Nature 471:602-607). 이중나선 가이드 폴리뉴클레오티드는 Cas 엔도뉴클레아제와 복합체를 형성할 수 있으며, 상기 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체(가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템이라고도 함)는 Cas 엔도뉴클레아제를 게놈 표적 부위로 유도하여 Cas 엔도뉴클레아제가 표적 부위를 인식하고, 이에 결합하고, 선택적으로 이를 틈내기 또는 절단(단일 또는 이중 가닥 절단을 도입)하게 할 수 있다. (2015년 3월 19일 공개된 US20150082478 및 2015년 2월 26일 공개된 US20150059010).
일부 실시형태에서, tracrRNA 분자는 서열번호 60 내지 68로 이루어진 군으로부터 선택된다.
일 양상에서, 가이드 폴리뉴클레오티드는 본 명세서에 기재된 PGEN을 형성할 수 있는 가이드 폴리뉴클레오티드이되, 상기 가이드 폴리뉴클레오티드는 표적 DNA에서 뉴클레오티드 서열에 상보성인 제1 뉴클레오티드 서열 도메인, 및 상기 Cas 엔도뉴클레아제 폴리펩티드와 상호 작용하는 제2 뉴클레오티드 서열 도메인을 포함한다.
일 양상에서, 가이드 폴리뉴클레오티드는 본 명세서에 기재된 가이드 폴리뉴클레오티드이고, 여기서 제1 뉴클레오티드 서열 도메인 및 제2 뉴클레오티드 서열 도메인은 DNA 서열, RNA 서열, 및 이들의 조합으로 구성된 군으로부터 선택된다.
일 양상에서, 가이드 폴리뉴클레오티드는 본 명세서에 기재된 가이드 폴리뉴클레오티드이고, 여기서 제1 뉴클레오티드 서열 및 제2 뉴클레오티드 서열 도메인은 안정성을 향상시키는 RNA 골격 변형, 안정성을 향상시키는 DNA 골격 변형 및 이들의 조합으로 구성된 군으로부터 선택된다(문헌[Kanasty et al., 2013, Common RNA-backbone modifications, Nature Materials 12:976-977]; 2015년 3월 19일자로 공개된 US20150082478 및 2015년 2월 26일자로 공개된 US20150059010 참조).
가이드 RNA는 적어도 하나의 tracrRNA에 연결된 키메라성 비천연 유래 crRNA를 포함하는 이중 분자를 포함한다. 키메라성 비천연 유래 crRNA는 천연에서 함께 발견되지 않는(즉, 이들은 서로 이종성임) 영역을 포함하는 crRNA를 포함한다. 예를 들어, 제1 서열과 제2 서열이 천연에서 함께 연결되는 것으로 발견되지 않도록, 제2 뉴클레오티드 서열(tracr 메이트 서열이라고도 칭함)에 연결된, 표적 DNA에서 뉴클레오티드 서열에 혼성화할 수 있는 제1 뉴클레오티드 서열 도메인(가변 표적화 도메인 또는 VT 도메인이라고 칭함)을 포함하는 crRNA.
가이드 폴리뉴클레오티드는 또한 tracr뉴클레오티드 서열에 연결된 cr뉴클레오티드 서열을 포함하는 단일 분자(단일 가이드 폴리뉴클레오티드라고도 함)일 수 있다. 단일 가이드 폴리뉴클레오티드는 표적 DNA의 뉴클레오티드 서열에 혼성화될 수 있는 제1 뉴클레오티드 서열 도메인(가변 표적화 도메인 또는 VT 도메인이라고 함) 및 Cas 엔도뉴클레아제 폴리펩티드와 상호 작용하는 Cas 엔도뉴클레아제 인식 도메인(CER 도메인)을 포함한다. 일부 실시형태에서, sgRNA 분자는 서열번호 69 내지 77로 이루어진 군으로부터 선택된다.
단일 가이드 폴리뉴클레오티드의 VT 도메인 및/또는 CER 도메인은 RNA 서열, DNA 서열, 또는 RNA-DNA-조합 서열을 포함할 수 있다. cr뉴클레오티드 및 tracr뉴클레오티드로부터의 서열들로 구성되는 단일 가이드 폴리뉴클레오티드는 "단일 가이드 RNA"(연속된 RNA 뉴클레오티드들로 구성되는 경우) 또는 "단일 가이드 DNA"(연속된 DNA 뉴클레오티드들로 구성되는 경우) 또는 "단일 가이드 RNA-DNA"(RNA와 DNA 뉴클레오티드의 조합으로 구성되는 경우)로 지칭될 수 있다. 단일 가이드 폴리뉴클레오티드는 Cas 엔도뉴클레아제와 복합체를 형성할 수 있으며, 상기 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체(가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템이라고도 칭함)는 Cas 엔도뉴클레아제를 게놈 표적 부위로 유도하여 Cas 엔도뉴클레아제가 표적 부위를 인식하고, 이에 결합하고, 선택적으로 이를 틈내기하거나 절단(단일 또는 이중 가닥 절단을 도입)하게 할 수 있다. (2015년 3월 19일 공개된 US20150082478 및 2015년 2월 26일 공개된 US20150059010).
키메라성 비천연 유래 단일 가이드 RNA(sgRNA)는 천연에서 함께 발견되지 않는(즉, 이들은 서로 이종성임) 영역을 포함하는 sgRNA를 포함한다. 예를 들어, 제2 뉴클레오티드 서열(tracr 메이트 서열이라고도 칭함)에 연결된 표적 DNA에서 뉴클레오티드 서열에 혼성화할 수 있는 제1 뉴클레오티드 서열 도메인(가변 표적화 도메인 또는 VT 도메인이라고 칭함)을 포함하여, 천연에서 함께 연결되는 것으로 발견되지 않는 sgRNA.
단일 가이드 폴리뉴클레오티드의 cr뉴클레오티드와 tracr뉴클레오티드를 연결하는 뉴클레오티드 서열은 RNA 서열, DNA 서열, 또는 RNA-DNA 조합 서열을 포함할 수 있다. 일 실시형태에서, 단일 가이드 폴리뉴클레오티드의 cr뉴클레오티드 및 tracr뉴클레오티드를 연결하는 뉴클레오티드 서열("루프"라고도 칭함)은 적어도 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개, 30개, 31개, 32개, 33개, 34개, 35개, 36개, 37개, 38개, 39개, 40개, 41개, 42개, 43개, 44개, 45개, 46개, 47개, 48개, 49개, 50개, 51개, 52개, 53개, 54개, 55개, 56개, 57개, 58개, 59개, 60개, 61개, 62개, 63개, 64개, 65개, 66개, 67개, 68개, 69개, 70개, 71개, 72개, 73개, 74개, 75개, 76개, 77개, 78개, 78개, 79개, 80개, 81개, 82개, 83개, 84개, 85개, 86개, 87개, 88개, 89개, 90개, 91개, 92개, 93개, 94개, 95개, 96개, 97개, 98개, 99개 또는 100개의 뉴클레오티드의 길이일 수 있다. 다른 실시형태에서, 단일 가이드 폴리뉴클레오티드의 cr뉴클레오티드 및 tracr뉴클레오티드를 연결하는 뉴클레오티드 서열은 테트라루프 서열, 예컨대, GAAA 테트라루프 서열을 포함할 수 있지만, 이들로 제한되는 것은 아니다.
가이드 폴리뉴클레오티드는 화학적으로 합성하는 가이드 폴리뉴클레오티드(예컨대, 이하로 제한되는 것은 아니지만, 문헌[Hendel et al. 2015, Nature Biotechnology 33, 985-989]), 시험관내 생성된 가이드 폴리뉴클레오티드, 및/또는 자기-스플라이싱 가이드 RNA(예컨대, 이하로 제한되는 것은 아니지만, 문헌[Xie et al. 2015, PNAS 112:3570-3575])를 포함하는 당업계에 공지된 임의의 방법에 의해 생성될 수 있다.
프로토스페이서 인접 모티프(PAM)
본 명세서의 "프로토스페이서 인접 모티프"(PAM)는 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템에 의해 인식(표적화)될 수 있는 표적 서열(프로토스페이서)에 인접한 짧은 뉴클레오티드 서열을 지칭한다. 표적 DNA 서열 다음에 PAM 서열이 없는 경우 Cas 엔도뉴클레아제는 표적 DNA 서열을 성공적으로 인식하지 않을 수 있다. 본 명세서의 PAM의 서열과 길이는 사용되는 Cas 단백질 또는 Cas 단백질 복합체에 따라 다를 수 있다. PAM 서열은 임의의 길이일 수 있지만, 통상적으로 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개 또는 20개의 뉴클레오티드의 길이이다.
"무작위 PAM" 및 "무작위 프로토스페이서 인접 모티프"는 본 명세서에서 상호 호환적으로 사용되며, 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템에 의해 인식(표적화)되는 표적 서열(프로토스페이서)에 인접한 무작위 DNA 서열을 지칭한다. 무작위 PAM 서열은 임의의 길이일 수 있지만, 일반적으로 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 또는 20개 뉴클레오티드의 길이이다. 무작위 뉴클레오티드는 뉴클레오티드 A, C, G 또는 T 중 어느 하나를 포함한다.
가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체
본 명세서에 기재된 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 표적 서열의 전부 또는 일부를 인식하고, 이에 결합하고, 선택적으로 이를 틈내기하거나 풀거나 절단할 수 있다.
DNA 표적 서열의 가닥 둘 다를 절단할 수 있는 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 전형적으로 이의 엔도뉴클레아제 도메인 모두를 기능성 상태(functional state)로 가지는 Cas 단백질을 포함한다(예를 들어, 야생형 엔도뉴클레아제 도메인 또는 각각의 엔도뉴클레아제 도메인에서 일부 또는 모든 활성을 보유하는 이들의 변이체). 따라서, 야생형 Cas 단백질(예를 들어, 본 명세서에 개시된 Cas 단백질) 또는 Cas 단백질의 각각의 엔도뉴클레아제 도메인에서 일부 또는 모든 활성을 보유하는 이의 변이체는 DNA 표적 서열의 가닥 둘 다를 절단할 수 있는 Cas 엔도뉴클레아제의 적절한 예이다.
DNA 표적 서열의 한 가닥을 절단할 수 있는 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 본 명세서에서 틈내기효소 활성(예를 들어, 부분 절단 능력)을 갖는 것을 특징으로 할 수 있다. Cas 틈내기효소는 통상적으로, Cas가 DNA 표적 서열 중 한 가닥만 절단하도록 하는(즉, 틈을 형성하도록 하는) 하나의 기능성 엔도뉴클레아제 도메인을 포함한다. 예를 들어, Cas9 틈내기효소는 (i) 돌연변이체, 기능장애 RuvC 도메인 및 (ii) 기능성 HNH 도메인(예를 들어, 야생형 HNH 도메인)을 포함할 수 있다. 다른 예로서, Cas9 틈내기효소는 (i) 기능성 RuvC 도메인(예를 들어, 야생형 RuvC 도메인) 및 (ii) 돌연변이체, 기능장애 HNH 도메인을 포함할 수 있다. 본 명세서에서 사용하기에 적합한 Cas9 틈내기효소의 비제한적인 예는 2014년 7월 3일 공개된 US20140189896에 개시되어 있다. DNA 표적화의 특이성을 증가시키기 위해 한 쌍의 Cas 틈내기효소가 사용될 수 있다. 일반적으로, 이는, RNA 성분이 상이한 가이드 서열과 연합되어 있기 때문에, 목적하는 표적화를 위한 영역에서 반대 가닥 상의 가까운 DNA 서열을 표적화하고 틈내기하는 2개의 Cas 틈내기효소를 제공함으로써 수행될 수 있다. 각각의 DNA 가닥의 이러한 가까운 절단은 이중 가닥 절단(즉, 단일 가닥 돌출부를 갖는 DSB)을 생성하고, 이는 이어서 비상동 말단 연결, NHEJ(돌연변이로 이어지는 불완전한 수선 경향이 있음) 또는 상동 재조합, HR을 위한 기질로서 인식된다. 이들 실시형태에서 각각의 틈은, 예를 들어, 서로 적어도 약 5개, 5개 내지 10개, 적어도 10개, 10개 내지 15개, 적어도 15개, 15개 내지 20개, 적어도 20개, 20개 내지 30개, 적어도 30개, 30개 내지 40개, 적어도 40개, 40개 내지 50개, 적어도 50개, 50개 내지 60개, 적어도 60개, 60개 내지 70개, 적어도 70개, 70개 내지 80개, 적어도 80개, 80개 내지 90개, 적어도 90개, 90개 내지 100개, 또는 100개 이상(또는 5개 내지 100개의 임의의 정수)의 염기만큼 이격될 수 있다. 본 명세서의 1개 또는 2개의 Cas 틈내기효소 단백질이 Cas 틈내기효소 쌍에서 사용될 수 있다. 예를 들어, 돌연변이체 RuvC 도메인을 갖지만 기능성 HNH 도메인을 갖는 Cas9 틈내기효소(즉, Cas9 HNH+/RuvC-)(예를 들어, 스트렙토코커스 피오제네스 Cas9 HNH+/RuvC-)가 사용될 수 있다. 각각의 Cas9 틈내기효소(예를 들어, Cas9 HNH+/RuvC-)는 각각의 틈내기효소를 각각의 특정 DNA 부위로 표적화하는 가이드 RNA 서열을 갖는 본 명세서의 적합한 RNA 성분들을 사용하여 서로 가까운(100개 이하의 염기 쌍만큼 이격된) 특정 DNA 부위로 지시될 수 있다.
소정의 실시형태에서 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 DNA 표적 부위 서열에 결합할 수 있지만, 표적 부위 서열에서 임의의 가닥을 절단하지 않는다. 이러한 복합체는 모든 뉴클레아제 도메인이 돌연변이체 기능장애인 Cas 단백질을 포함할 수 있다. 예를 들어, DNA 표적 부위 서열에 결합할 수 있지만, 표적 부위 서열에서 임의의 가닥을 절단하지 않는 Cas9 단백질은 돌연변이체 기능장애 RuvC 도메인 및 돌연변이체 기능장애 HNH 도메인 둘 다를 포함할 수 있다. 표적 DNA 서열에 결합하지만 절단하지 않는 본 명세서의 Cas 단백질은 유전자 발현을 조절하는 데 사용될 수 있으며, 예를 들어, 이 경우 Cas 단백질은 전사 인자(또는 이의 일부)(예를 들어, 억제인자(repressor) 또는 활성인자, 예컨대, 본 명세서에 개시된 것들 중 임의의 것)와 융합될 수 있다.
일 양상에서, 본 명세서에 기재된 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체(PGEN)는 PGEN이되, 상기 Cas 엔도뉴클레아제는 적어도 하나의 Cas 단백질 서브유닛, 또는 이의 기능성 단편에 선택적으로 공유 또는 비공유적으로 연결되거나, 또는 조립된다.
본 발명의 일 실시형태에서, 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 적어도 하나의 가이드 폴리뉴클레오티드 및 적어도 하나의 Cas 엔도뉴클레아제 폴리펩티드를 포함하는 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체(PGEN)이되, 상기 Cas 엔도뉴클레아제 폴리펩티드는 적어도 하나의 단백질 서브유닛, 또는 이의 기능성 단편을 포함하고, 상기 가이드 폴리뉴클레오티드는 키메라 비천연 유래 가이드 폴리뉴클레오티드이고, 상기 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 표적 서열의 모두 또는 전부를 인식하고, 이에 결합하고, 선택적으로 틈내기하거나, 풀거나 절단할 수 있다.
Cas 효과기 단백질은 본 명세서에 개시된 바와 같은 Cas-알파 효과기 단백질일 수 있다.
본 발명의 일 실시형태에서, 가이드 폴리뉴클레오티드/Cas 효과기 복합체는 적어도 하나의 가이드 폴리뉴클레오티드 및 Cas-알파 효과기 단백질을 포함하는 가이드 폴리뉴클레오티드/Cas 효과기 단백질 복합체(PGEN)이되, 상기 가이드 폴리뉴클레오티드/Cas 효과기 단백질 복합체는 표적 서열의 모두 또는 일부를 인식하고, 이에 결합하고, 선택적으로 틈내기하거나, 풀거나, 절단할 수 있다.
PGEN은 가이드 폴리뉴클레오티드/Cas 효과기 단백질 복합체일 수 있되, 상기 Cas 효과기 단백질은 적어도 하나의 단백질 서브유닛, 또는 이의 기능성 단편의 하나의 복제물 또는 다중 복제물을 추가로 포함한다. 일부 실시형태에서, 상기 단백질 서브유닛은 Cas1 단백질 서브유닛, Cas2 단백질 서브유닛, Cas4 단백질 서브유닛, 및 이의 임의의 조합으로 이루어진 군으로부터 선택된다. PGEN은 가이드 폴리뉴클레오티드/Cas 효과기 단백질 복합체일 수 있되, 상기 Cas 효과기 단백질은 Cas1, Cas2 및 Cas4로 이루어진 군으로부터 선택된 적어도 2개의 상이한 단백질 서브유닛을 추가로 포함한다.
PGEN은 가이드 폴리뉴클레오티드/Cas 효과기 단백질 복합체일 수 있되, 상기 Cas 효과기 단백질은 Cas1, Cas2, 및 선택적으로 Cas4를 포함하는 하나의 추가적인 Cas 단백질로 이루어진 군으로부터 선택된 적어도 3개의 상이한 단백질 서브유닛 또는 이의 기능성 단편을 추가로 포함한다.
일 양상에서, 본 명세서에 기재된 가이드 폴리뉴클레오티드/Cas 효과기 단백질 복합체(PGEN)는 PGEN이되, 상기 Cas 효과기 단백질은 적어도 하나의 단백질 서브유닛, 또는 이의 기능성 단편에 공유 또는 비공유적으로 연결된다. PGEN은 가이드 폴리뉴클레오티드/Cas 효과기 단백질 복합체일 수 있되, 상기 Cas 효과기 단백질 폴리펩티드는 Cas1 단백질 서브유닛, Cas2 단백질 서브유닛, 선택적으로 Cas4 단백질 서브유닛을 포함하는 하나의 추가적인 Cas 단백질, 및 이들의 임의의 조합으로 이루어진 군으로부터 선택된 적어도 하나의 단백질 서브유닛, 또는 이의 기능성 단편의 하나의 복제물 또는 다중 복제물에 공유 또는 비공유적으로 연결되거나, 조립된다. PGEN은 가이드 폴리뉴클레오티드/Cas 효과기 단백질 복합체일 수 있되, 상기 Cas 효과기 단백질은 Cas1, Cas2, 및 선택적으로 Cas4를 포함하는 하나의 추가적인 Cas 단백질로 이루어진 군으로부터 선택된 적어도 2개의 상이한 단백질 서브유닛에 공유 또는 비공유적으로 연결되거나 조립된다. PGEN은 가이드 폴리뉴클레오티드/Cas 효과기 단백질 복합체일 수 있되, 상기 Cas 효과기 단백질은 Cas1, Cas2, 및 선택적으로 Cas4를 포함하는 하나의 추가적인 Cas 단백질, 및 이들의 임의의 조합으로 이루어진 군으로부터 선택되는, 적어도 3개의 상이한 단백질 서브유닛, 또는 이의 기능성 단편에 공유 또는 비공유적으로 연결된다.
가이드 폴리뉴클레오티드/Cas 효과기 단백질 복합체의 임의의 성분, 가이드 폴리뉴클레오티드/Cas 효과기 단백질 복합체 자체뿐만 아니라 폴리뉴클레오티드 변형 주형(들) 및/또는 공여자 DNA(들)가 당업계에 공지된 임의의 방법에 의해 이종성 세포 또는 유기체 내로 도입될 수 있다.
세포의 형질전환을 위한 재조합 작제물
선택적으로 하나 이상의 관심 대상의 폴리뉴클레오티드(들)를 더 포함하는, 개시된 가이드 폴리뉴클레오티드, Cas 엔도뉴클레아제, 폴리뉴클레오티드 변형 주형, 공여자 DNA, 본 명세서에 개시된 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템, 및 이들의 임의의 하나의 조합이 세포 내로 도입될 수 있다. 세포는 인간, 비인간, 동물, 박테리아, 균류, 곤충, 효모, 비통상적인 효모 및 식물의 세포뿐만 아니라 본 명세서에 기재된 방법에 의해 제조된 식물 및 종자를 포함하지만, 이들로 제한되는 것은 아니다.
본 명세서에서 사용되는 표준 재조합 DNA 및 분자 클로닝 기법은 당업계에 널리 공지되어 있고, 문헌[Sambrook et al., Molecular Cloning:A Laboratory Manual; Cold Spring Harbor Laboratory:Cold Spring Harbor, NY (1989)]에 보다 자세히 기재되어 있다. 형질전환 방법은 당업자에게 잘 공지되어 있고 이하에 기재된다.
벡터 및 작제물은 원형 플라스미드, 및 관심 대상의 폴리뉴클레오티드와 선택적으로 링커, 어댑터, 조절 또는 분석을 비롯한 다른 성분을 포함하는 선형 폴리뉴클레오티드를 포함한다. 일부 예에서, 인식 부위 및/또는 표적 부위는 인트론, 암호화 서열, 5' UTR, 3' UTR, 및/또는 조절 영역 내에 포함될 수 있다.
원핵생물 및 진핵생물 세포에서 신규한 CRISPR-Cas 시스템의 발현 및 이용을 위한 성분
본 발명은 원핵생물 또는 진핵생물 세포/유기체에서 표적 서열의 전부 또는 일부를 인식하고, 이에 결합하고, 선택적으로 이를 틈내기하거나 풀거나 절단할 수 있는 가이드 RNA/Cas 시스템을 발현하기 위한 발현 작제물을 추가로 제공한다.
일 실시형태에서, 본 발명의 발현 작제물은 Cas 유전자(또는 본 명세서에 기재된 Cas 엔도뉴클레아제 유전자 포함하는, 최적화된 식물)를 암호화하는 뉴클레오티드 서열에 작동 가능하게 연결된 프로모터 및 본 발명의 가이드 RNA에 작동 가능하게 연결된 프로모터를 포함한다. 프로모터는 원핵생물 또는 진핵생물 세포/유기체에서 작동 가능하게 연결된 뉴클레오티드 서열의 발현을 유도할 수 있다.
가이드 폴리뉴클레오티드, VT 도메인 및/또는 CER 도메인의 뉴클레오티드 서열 변형은 5' 캡, 3' 폴리아데닐화 테일, 리보스위치 서열, 안정성 조절 서열, dsRNA 이중나선을 형성하는 서열, 가이드 폴리뉴클레오티드를 세포내 위치에 표적화하는 변형 또는 서열, 추적을 제공하는 변형 또는 서열, 단백질을 위한 결합 부위를 제공하는 변형 또는 서열, 잠김 핵산(LNA), 5-메틸 dC 뉴클레오티드, 2,6-디아미노퓨린 뉴클레오티드, 2'-플루오로 A 뉴클레오티드, 2'-플루오로 U 뉴클레오티드; 2'-O-메틸 RNA 뉴클레오티드, 포스포로티오에이트 결합, 콜레스테롤 분자에 대한 연결, 폴리에틸렌 글리콜 분자에 대한 연결, 스페이서 18 분자에 대한 연결, 5'에서 3'으로의 공유 연결, 또는 임의의 이들의 조합으로 이루어진 군으로부터 선택될 수 있지만, 이들로 제한되지는 않는다. 이러한 변형은 적어도 하나의 추가적인 유리한 특징을 가져올 수 있고, 추가적인 유리한 특징은 변형 또는 조절된 안정성, 세포내 표적화, 추적, 형광 표지, 단백질 또는 단백질 복합체에 대한 결합 부위, 상보성 표적 서열에 대한 변형된 결합 친화도, 세포 분해에 대한 변형된 저항성 및 증가된 세포 투과성의 군으로부터 선택된다.
RNA 성분, 예컨대, Cas9-매개 DNA 표적화를 수행하기 위한 진핵생물 세포에서의 gRNA를 발현하는 방법에서는 정확히 정의되고 변형되지 않은 5'- 및 3'-말단을 갖는 RNA의 전사를 허용하는 RNA 중합효소 III(Pol III) 프로모터를 사용하였다(DiCarlo et al., Nucleic Acids Res. 41:4336-4343; Ma et al., Mol. Ther. Nucleic Acids 3:e161). 상기 전략은 메이즈 및 대두를 포함하는 몇몇 상이한 종의 세포에서 성공적으로 적용되었다(2015년 3월 19일 공개된 US20150082478). 5' 캡을 갖지 않는 RNA 성분을 발현하는 방법이 기재되었다(2016년 2월 18일 공개된 WO2016/025131).
Cas 엔도뉴클레아제에 대한 표적 부위에 삽입되는 관심 대상의 폴리뉴클레오티드를 갖는 세포 또는 유기체를 얻기 위해 다양한 방법 및 조성물을 이용할 수 있다. 이러한 방법은 상동 재조합(HR)을 이용하여 표적 부위에서 관심 대상의 폴리뉴클레오티드의 통합을 제공할 수 있다. 본 명세서에 기재된 하나의 방법에서, 관심 대상의 폴리뉴클레오티드는 공여자 DNA 작제물을 통해 유기체 세포로 도입된다.
공여자 DNA 작제물은 관심 대상의 폴리뉴클레오티드에 측접한 제1 및 제2 상동성 영역을 더 포함한다. 공여자 DNA의 제1 상동 영역 및 제2 상동 영역은 세포 또는 유기체 게놈의 표적 부위에 존재하거나 이에 측접한 제1 게놈 영역 및 제2 게놈 영역에 대해 각각 상동성을 공유한다.
공여자 DNA는 가이드 폴리뉴클레오티드로 테더링될 수 있다. 테더링된 공여자 DNA는, 게놈 편집, 유전자 삽입 및 표적화된 게놈 조절에 유용한, 표적과 공여자 DNA의 공동 국재화를 허용할 수 있고, 내인성 HR 기구의 기능이 매우 약해질 것으로 예상되는 유사분열 후 세포를 표적화하는 데에도 유용할 수 있다(Mali et al., 2013, Nature Methods Vol. 10:957-963).
표적 및 공여자 폴리뉴클레오티드가 공유하는 상동성 또는 서열 동일성의 양은 변할 수 있으며, 약 1~20 bp, 20~50 bp, 50~100 bp, 75~150 bp, 100~250 bp, 150~300 bp, 200~400 bp, 250~500 bp, 300~600 bp, 350~750 bp, 400~800 bp, 450~900 bp, 500~1000 bp, 600~1250 bp, 700~1500 bp, 800~1750 bp, 900~2000 bp, 1~2.5 kb, 1.5~3 kb, 2~4 kb, 2.5~5 kb, 3~6 kb, 3.5~7 kb, 4~8 kb, 5~10 kb, 또는 표적 부위의 전체 길이까지를 포함하는 범위의 단위 적분 값을 갖는 총 길이 및/또는 영역을 포함한다. 이 범위에는 범위 내의 모든 정수가 포함되고, 예를 들어, 1~20 bp 범위는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 및 20 bp를 포함한다. 상동성의 양은 2개의 폴리뉴클레오티드의 전체 정렬 길이에 걸친 서열 동일성 백분율에 의해 기재될 수도 있는데, 이는 적어도 약 50%, 55%, 60%, 65%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 98% 내지 99%, 99%, 99% 내지 100%, 또는 100%의 서열 동일성 백분율을 포함한다. 충분한 상동성은 폴리뉴클레오티드 길이, 전체 서열 동일성 백분율, 및 선택적으로, 연속된 뉴클레오티드의 보존 영역 또는 국소 서열 동일성 백분율의 임의의 조합을 포함하며, 예를 들어, 충분한 상동성은 표적 좌위의 영역과 적어도 80%의 서열 동일성을 갖는 75 내지 150 bp의 영역으로서 기재될 수 있다. 충분한 상동성은 또한 높은 엄격성 조건 하에 특이적으로 혼성화하는 2개의 폴리뉴클레오티드의 예측된 능력에 의해 기재될 수 있고, 예를 들어, 문헌[Sambrook et al., (1989) Molecular Cloning:A Laboratory Manual, (Cold Spring Harbor Laboratory Press, NY)]; 문헌[Current Protocols in Molecular Biology, Ausubel et al., Eds (1994) Current Protocols, (Greene Publishing Associates, Inc. 및 John Wiley & Sons, Inc.)]; 및 문헌[Tijssen (1993) Laboratory Techniques in Biochemistry and Molecular Biology--Hybridization with Nucleic Acid Probes, (Elsevier, New York)]을 참조한다.
주어진 게놈 영역과 공여자 DNA에서 발견되는 대응 상동성 영역 사이의 구조적 유사성은 상동 재조합이 일어날 수 있게 하는 임의의 서열 동일성 정도일 수 있다. 예를 들어, 공여자 DNA의 "상동 영역"과 유기체 게놈의 "게놈 영역"이 공유하는 상동성 또는 서열 동일성의 양은 서열이 상동 재조합을 겪도록 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%의 서열 동일성일 수 있다.
공여자 DNA 상의 상동성 영역은 표적 부위에 측접한 임의의 서열과 상동성을 가질 수 있다. 일부 경우에 상동성 영역은 표적 부위에 바로 측접한 게놈 서열과 상당한 서열 상동성을 공유하지만, 상동성 영역은 표적 부위에 추가로 5' 또는 3'일 수 있는 영역과 충분한 상동성을 갖도록 설계될 수 있음이 인정된다. 상동성 영역은 또한 하류 게놈 영역을 따라 표적 부위의 단편과 상동성을 가질 수 있다.
일 실시형태에서, 제1 상동성 영역은 표적 부위의 제1 단편을 추가로 포함하고, 제2 상동성 영역은 표적 부위의 제2 단편을 포함하며, 제1 단편 및 제2 단편은 상이하다.
관심 대상의 폴리뉴클레오티드
관심 대상의 폴리뉴클레오티드는 본 명세서에 더 기재되어 있으며, 상업 시장 및 작물 개발에 관여하는 자들의 이익을 반영하는 폴리뉴클레오티드를 포함한다. 관심 작물 및 시장은 변화하며, 개발도상국이 세계 시장을 개방함에 따라 새로운 작물과 기법이 또한 등장할 것이다. 또한, 수확량과 잡종 강세와 같은 작물학적 형질 및 특징에 대한 이해가 높아짐에 따라 유전자 조작을 위한 유전자의 선택도 변할 것이다.
관심 대상의 폴리뉴클레오티드의 일반적인 범주는, 예를 들어, 아연 핑거와 같은 정보 관련 관심 대상 유전자, 키나아제와 같은 커뮤니케이션 관련 유전자, 및 열 충격 단백질과 같은 하우스키핑 관련 유전자를 포함한다. 보다 구체적인 관심 대상의 폴리뉴클레오티드는 작물 수확량, 낟알 품질, 작물 영양소 함량, 전분 및 탄수화물 품질 및 양에 관련된 유전자뿐만 아니라 속씨 크기, 수크로스 부하, 단백질 품질 및 양, 질소 고정 및/또는 이용, 지방산 및 오일 조성에 영향을 미치는 유전자, 비생물 스트레스에 저항성을 부여하는 단백질을 암호화하는 유전자(예컨대 가뭄, 질소, 온도, 염도, 독성 금속 또는 미량 원소, 또는 독소, 예컨대 살해충제 및 제초제에 대한 저항성을 부여하는 유전자), 생물 스트레스(예컨대 진균, 바이러스, 박테리아, 곤충 및 선충에 의한 공격, 및 이러한 유기체와 연관되는 질병의 발생)에 저항성을 부여하는 단백질을 암호화하는 유전자와 같지만, 이들로 제한되지 않는 작물학적 관심 대상의 형질에 관련된 유전자를 포함하지만, 이들로 제한되는 것은 아니다.
오일, 전분, 및 단백질 함량과 같은 작물학적으로 중요한 형질은 전통적인 육종 방법을 사용하는 것 외에도 유전적으로 변경될 수 있다. 변형은 올레산, 포화 및 불포화 오일의 함량의 증가, 리신 및 황 수준의 증가, 필수 아미노산의 제공, 및 또한 전분의 변형을 포함한다. 호르도티오닌 단백질 변형은 미국 특허 제5,703,049호, 제5,885,801호, 제5,885,802호, 및 제5,990,389호에 기재되어 있다.
관심 대상의 폴리뉴클레오티드 서열은 질병 저항성 또는 해충 저항성의 제공에 관련된 단백질을 암호화할 수 있다. "질병 저항성" 또는 "해충 저항성"은 식물이 식물 병원균 상호 작용의 결과인 유해 증상을 방지한다는 의미이다. 해충 저항성 유전자는 근충, 거세미, 유럽옥수수좀 등과 같이 수확량에 큰 방해가 되는 해충에 대한 저항성을 암호화할 수 있다. 질병 저항성 및 곤충 저항성 유전자, 예컨대, 항균 보호를 위한 라이소자임 또는 세크로핀, 또는 항진균 보호를 위한 디펜신, 글루카나아제 또는 키티나아제와 같은 단백질, 또는 선충류 또는 곤충 방제를 위한 바실루스 튜링기엔시스 내독소, 프로테아제 저해제, 콜라게나아제, 렉틴, 또는 글리코시다제가 모두 유용한 유전자 산물의 예이다. 질환 저항성 형질을 암호화하는 유전자는, 예컨대 푸모니신에 대한 해독작용 유전자(미국 특허 제5,792,931호); 약독성(avr) 및 질환 저항성(R) 유전자(문헌[Jones et al. (1994) Science 266:789]; 문헌[Martin et al. (1993) Science 262:1432]; 및 문헌[Mindrinos et al. (1994) Gene 78:1089]); 등을 포함한다. 곤충 저항성 유전자는 근충, 거세미, 유럽옥수수좀 등과 같이 수확량에 큰 방해가 되는 해충에 대한 저항성을 암호화할 수 있다. 이러한 유전자는, 예를 들어, 바실러스 투링기엔시스 독성 단백질 유전자(미국 특허 제5,366,892호; 제5,747,450호; 제5,736,514호; 제5,723,756호; 제5,593,881호; 및 문헌[Geiser et al. (1986) Gene 48:109]) 등을 포함한다.
"제초제 저항성 단백질" 또는 "제초제 저항성 암호화 핵산 분자"의 발현으로 생성되는 단백질은 이러한 단백질을 발현하지 않는 세포보다 더 높은 농도의 제초제를 견디는 능력, 또는 이러한 단백질을 발현하지 않는 세포보다 더 오랜 기간 동안 특정 농도의 제초제를 견디는 능력을 세포에 부여하는 단백질을 포함한다. 제초제 저항성 형질은 아세토락테이트 합성효소(ALS, 또한 아세토하이드록시산 합성효소, AHAS로도 지칭함)의 작용을 저해하는 작용을 하는 제초제, 특히 설포닐우레아(sulfonylurea)(영국: sulphonylurea) 유형 제초제에 대한 저항성을 암호화하는 유전자, 글루타민 합성효소의 작용을 저해하는 작용을 하는 제초제에 대한 저항성을 암호화하는 유전자, 예컨대, 포스피노트리신 또는 바스타(예컨대, bar 유전자), 글리포세이트(예컨대, EPSP 합성효소 유전자 및 GAT 유전자), HPPD 저해제(예컨대, HPPD 유전자) 또는 당업계에 알려진 다른 이러한 유전자에 의해 식물 내로 도입될 수 있다. 예를 들어, 미국 특허 제7,626,077호, 제5,310,667호, 제5,866,775호, 제6,225,114호, 제6,248,876호, 제7,169,970호, 제6,867,293호, 및 제9,187,762호 참조. bar 유전자는 제초제 바스타에 대한 저항성을 암호화하고, nptII 유전자는 항생제 카나마이신 및 제네티신에 대한 저항성을 암호화하고, ALS-유전자 돌연변이체는 제초제 클로르설푸론에 대한 저항성을 암호화한다.
또한, 관심 대상의 폴리뉴클레오티드는 표적화된 관심 대상 유전자 서열에 대한 전령 RNA(mRNA)의 적어도 일부에 상보성인 안티센스 서열을 포함할 수 있음이 인정된다. 안티센스 뉴클레오티드는 대응 mRNA와 혼성화하도록 작제된다. 서열이 해당 mRNA에 혼성화하고 그 발현을 방해하는 한 안티센스 서열의 변형이 이루어질 수 있다. 이러한 방식으로, 대응 안티센스 서열과 70%, 80%, 또는 85%의 서열 동일성을 갖는 안티센스 작제물이 사용될 수 있다. 게다가, 안티센스 뉴클레오티드의 일부는 표적 유전자의 발현을 방해하기 위해 사용될 수 있다. 일반적으로, 적어도 50개 뉴클레오티드, 100개 뉴클레오티드, 200개 뉴클레오티드 이상의 서열이 사용될 수 있다.
또한, 관심 대상의 폴리뉴클레오티드는 식물에서 내인성 유전자 발현을 억제하기 위해 센스 방향으로 사용될 수도 있다. 폴리뉴클레오티드를 센스 방향으로 사용하여 식물의 유전자 발현을 억제하는 방법은 당업계에 공지되어 있다. 이 방법은 일반적으로 내인성 유전자의 전사체에 해당하는 뉴클레오티드 서열의 적어도 일부에 작동 가능하게 연결되어 식물에서 발현을 유도하는 프로모터를 포함하는 DNA 작제물로 식물을 형질전환시키는 단계를 포함한다. 일반적으로, 이러한 뉴클레오티드 서열은 내인성 유전자의 전사체의 서열에 대해 일반적으로 약 65%의 서열 동일성, 약 85%의 서열 동일성보다 크거나, 약 95%의 서열 동일성보다 큰 실질적인 서열 동일성을 갖는다. 미국 특허 제5,283,184호 및 제5,034,323호 참조.
관심 대상의 폴리뉴클레오티드는 표현형 마커일 수도 있다. 표현형 마커는, 시각적 마커 및 그것이 양성의 선택 가능한 마커든 음성의 선택 가능한 마커든 선택 가능한 마커를 포함하는, 선별 가능한 또는 선택 가능한 마커이다. 임의의 표현형 마커가 사용될 수 있다. 구체적으로, 선택 가능하거나 선별 가능한 마커는 종종 특정한 조건 하에서, 이를 포함하는 분자 또는 세포를 확인하거나, 이러한 분자 또는 세포를 또는 이러한 분자 또는 세포에 대해 선택할 수 있게 하는 DNA 세그먼트를 포함한다. 이들 마커는 활성, 예컨대 비제한적인 예로서 RNA, 펩티드 또는 단백질의 생성을 암호화할 수 있거나, RNA, 펩티드, 단백질, 무기 및 유기 화합물 또는 조성물 등에 대한 결합 부위를 제공할 수 있다.
선택 가능한 마커의 예는 제한 효소 부위를 포함하는 DNA 세그먼트; 항생제, 예컨대, 스펙티노마이신, 암피실린, 카나마이신, 테트라사이클린, 바스타(Basta), 네오마이신 포스포트랜스퍼라아제 II(NEO) 및 히그로마이신 포스포트랜스퍼라아제(HPT)를 포함하는, 다른 경우에는 독성일 수 있는 화합물에 대해 저항성을 제공하는 산물을 암호화하는 DNA 세그먼트; 수용 세포에 없을 수 있는 산물을 암호화하는 DNA 세그먼트(예컨대, tRNA 유전자, 영양요구성 마커); 용이하게 확인될 수 있는 산물을 암호화하는 DNA 세그먼트(예를 들어, 표현형 마커, 예컨대, β-갈락토시다제, GUS; 형광 단백질, 예컨대, 녹색 형광 단백질(GFP), 청록색 형광 단백질(CFP), 황색 형광 단백질(YFP), 적색 형광 단백질(RFP) 및 세포 표면 단백질); PCR을 위한 새로운 프라이머 부위(예를 들어, 이전에는 병치되지 않은 2개의 DNA 서열의 병치)의 생성, 제한 엔도뉴클레아제 또는 기타 DNA 변형 효소, 화학물질 등에 의해 영향받지 않거나 영향받는 DNA 서열의 포함; 및 확인을 가능하게 하는 특이적인 변형(예를 들어, 메틸화)을 위해 필요한 DNA 서열의 포함을 포함하지만, 이들로 제한되는 것은 아니다.
추가적인 선택 가능한 마커는 제초제 화합물, 예컨대, 설포닐우레아, 글루포시네이트 암모늄, 브로목시닐, 이미다졸리논 및 2,4-디클로로페녹시아세테이트(2,4-D)에 내성을 부여하는 유전자를 포함한다. 예를 들어, 설포닐우레아, 이미다졸리논, 트리아졸로피리미딘 설폰아미드, 피리미디닐살리실레이트 및 설포닐아미노카보닐-트리아졸리논에 대한 저항성에 대해 아세토락타제 신타제(ALS)(Shaner and Singh, 1997, Herbicide Activity:Toxicol Biochem Mol Biol 69-110); 글리포세이트 저항성 5-엔올피루빌시키메이트-3-포스페이트(EPSPS)(Saroha et al. 1998, J. Plant Biochemistry & Biotechnology Vol 7:65-72)를 참조한다;
관심 대상의 폴리뉴클레오티드는 다른 형질, 예컨대 제초제 저항성 또는 본 명세서에 기재되는 임의의 다른 형질(그러나 이것으로 제한되지 않음)과 조합하여 쌓이거나 사용될 수 있는 유전자를 포함한다. 관심 대상의 폴리뉴클레오티드 및/또는 형질은 2013년 10월 3일 공개된 US20130263324 및 2013년 8월 1일 공개된 WO/2013/112686에 기재된 바와 같이, 복합 형질 좌위에 함께 쌓일 수 있다.
관심 대상의 폴리펩티드는 본 명세서에 기재된 관심 대상의 폴리뉴클레오티드에 의해 암호화되는 임의의 단백질 또는 폴리펩티드를 포함한다.
또한, 표적 부위에 통합된 관심 대상의 폴리뉴클레오티드를 그 게놈에 포함하는 하나 이상의 식물 세포를 확인하기 위한 방법이 제공된다. 표적 부위 또는 그 근처에서 게놈 내 삽입을 갖는 이러한 식물 세포를 확인하기 위해 다양한 방법을 이용할 수 있다. 비제한적인 예로서 PCR 방법, 서열분석 방법, 뉴클레아제 소화, 서던 블롯, 및 이들의 임의의 조합을 포함하여, 표적 서열을 직접 분석하여 표적 서열에서 임의의 변화를 검출하는 것과 같은 방법을 들 수 있다. 예를 들어, 2009년 5월 21일 공개된 US20090133152 참조. 이러한 방법은 또한 게놈으로 통합된 관심 대상의 폴리뉴클레오티드를 포함하는 식물 세포로부터 식물을 회수하는 단계를 포함한다. 식물은 불임성 또는 가임성일 수 있다. 표적 부위에서 식물 게놈 내로 통합되고 식물에서 발현되는 임의의 관심 대상의 폴리뉴클레오티드가 제공될 수 있음이 인식된다.
식물에서의 발현을 위한 서열의 최적화
식물 선호 유전자를 합성하기 위한 방법은 당업계에서 이용 가능하다. 예를 들어, 미국 특허 제5,380,831호 및 제5,436,391호, 및 문헌[Murray et al. (1989) Nucleic Acids Res. 17:477-498] 참조. 추가적인 서열 변형은 식물 숙주에서 유전자 발현을 향상시키는 것으로 공지되어 있다. 이들은, 예를 들어, 가짜 폴리아데닐화 신호를 암호화하는 하나 이상의 서열, 하나 이상의 엑손-인트론 스플라이스 부위 신호, 하나 이상의 트랜스포존 유사 반복서열, 및 유전자 발현에 유해할 수 있는 기타 이러한 잘 특성 규명된 서열의 제거를 포함한다. 서열의 G-C 함량은 숙주 식물 세포에서 발현되는 공지된 유전자를 참조하여 계산되는 주어진 식물 숙주에 대한 평균 수준으로 조정될 수 있다. 가능한 경우, 서열은 하나 이상의 예측된 헤어핀 2차 mRNA 구조를 피하도록 변형된다. 따라서, 본 발명의 "식물 최적화된 뉴클레오티드 서열"은 하나 이상의 이러한 서열 변형을 포함한다.
발현 요소
본 명세서에 개시된 Cas 단백질 또는 기타 CRISPR 시스템 성분을 암호화하는 임의의 폴리뉴클레오티드는 숙주 세포에서 전사 또는 조절을 촉진하기 위하여, 이종성 발현 요소에 기능적으로 연결될 수 있다. 이러한 발현 요소는 프로모터, 리더, 인트론 및 종결자를 포함하지만, 이들로 제한되지 않는다. 발현 요소는 "최소"일 수 있는데, 이는 발현 조절인자 또는 변형인자로서 여전히 기능하는, 고유한 근원으로부터 유래된 더 짧은 서열을 의미한다. 대안적으로, 발현 요소는 "최적화"될 수 있는데, 이는 특정 숙주 세포에서 더욱 바람직한 특징을 갖고 기능하도록 이의 폴리뉴클레오티드 서열이 고유한 상태로부터 변형되었음을 의미한다(예를 들어, 이하로 제한되는 것은 아니지만, 박테리아 프로모터는 옥수수 식물에서 이의 발현을 개선시키도록 "메이즈-최적화"될 수 있다). 대안적으로, 발현 요소는 "합성형"일 수 있는데, 숙주 세포에서 사용하기 위하여 이것이 인실리코로 설계되고 합성됨을 의미한다. 합성 발현 요소는 전적으로 합성형일 수 있거나 부분적으로 합성형(자연 발생 폴리뉴클레오티드 서열의 단편을 포함)일 수 있다.
특정 프로모터는 다른 것들보다 더 빠른 속도로 RNA 합성을 유도할 수 있는 것으로 밝혀졌다. 이들은 "강력한 프로모터"라고 한다. 일부 다른 프로모터는 특정 유형의 세포 또는 조직에서만 높은 수준으로 RNA 합성을 유도하는 것으로 밝혀졌고, 프로모터가 바람직하게는 특정 조직에서 RNA 합성을 유도할 뿐만 아니라 다른 조직에서 감소된 수준으로 RNA 합성을 유도할 경우 종종 "조직 특이적 프로모터" 또는 "조직 선호 프로모터"라고 한다.
식물 프로모터는 식물 세포에서 전사를 개시할 수 있는 프로모터를 포함한다. 식물 프로모터의 검토를 위해, 문헌[Potenza et al., 2004, In vitro Cell Dev Biol 40:1-22]; 문헌[Porto et al., 2014, Molecular Biotechnology (2014), 56(1), 38-49] 참조.
구성적 프로모터는, 예를 들어, 코어 CaMV 35S 프로모터(Odell et al., (1985) Nature 313:810-2); 벼 액틴(McElroy et al., (1990) Plant Cell 2:163-71); 유비퀴틴(Christensen et al., (1989) Plant Mol Biol 12:619-32); ALS 프로모터(미국 특허 제5,659,026호) 등을 포함한다.
조직 선호 프로모터는 특정 식물 조직 내의 발현 향상을 목표로 하는 데 활용될 수 있다. 조직 선호 프로모터는 예를 들어, 2013년 7월 11일에 공개된 WO2013103367, 문헌[Kawamata et al., (1997) Plant Cell Physiol 38:792-803]; 문헌[Hansen et al., (1997) Mol Gen Genet 254:337-43]; 문헌[Russell et al., (1997) Transgenic Res 6:157-68]; 문헌[Rinehart et al., (1996) Plant Physiol 112:1331-41]; 문헌[Van Camp et al., (1996) Plant Physiol 112:525-35]; 문헌[Canevascini et al., (1996) Plant Physiol 112:513-524]; 문헌[Lam, (1994) Results Probl Cell Differ 20:181-96]; 및 문헌[Guevara-Garcia et al., (1993) Plant J 4:495-505]를 포함한다. 잎-선호 프로모터는, 예를 들어, 문헌[Yamamoto et al., (1997) Plant J 12:255-65]; 문헌[Kwon et al., (1994) Plant Physiol 105:357-67]; 문헌[Yamamoto et al., (1994) Plant Cell Physiol 35:773-8; Gotor et al., (1993) Plant J 3:509-18]; 문헌[Orozco et al., (1993) Plant Mol Biol 23:1129-38]; 문헌[Matsuoka et al., (1993) Proc. Natl. Acad. Sci. USA 90:9586-90]; 문헌[Simpson et al., (1958) EMBO J 4:2723-9]; 문헌[Timko et al., (1988) Nature 318:57-8]을 포함한다. 뿌리 선호 프로모터는 예를 들어, 문헌[Hire et al., (1992) Plant Mol Biol 20:207-18](대두 뿌리 특이적 글루타민 합성효소 유전자); 문헌[Miao et al., (1991) Plant Cell 3:11-22](세포질 글루타민 합성효소(GS)); 문헌[Keller and Baumgartner, (1991) Plant Cell 3:1051-61](강낭콩의 GRP 1.8 유전자의 뿌리 특이적 제어 요소); 문헌[Sanger et al., (1990) Plant Mol Biol 14:433-43](아그로박테리움 투메파시엔스(A. tumefaciens) 만노파인(mannopine) 합성효소(MAS)의 뿌리 특이적 프로모터); 문헌[Bogusz et al., (1990) Plant Cell 2:633-41](파라스포니아 안데르소니이(Parasponia andersonii) 및 트레마 토멘토사(Trema tomentosa)로부터 단리된 뿌리 특이적 프로모터); 문헌[Leach and Aoyagi, (1991) Plant Sci 79:69-76](아그로박테리움 리조게네스(A. rhizogenes) rolC 및 rolD 뿌리 유도 유전자); 문헌[Teeri et al., (1989) EMBO J 8:343-50](아그로박테리움(Agrobacterium) 상처 유도 TR1' 및 TR2' 유전자); VfENOD-GRP3 유전자 프로모터(Kuster et al., (1995) Plant Mol Biol 29:759-72); 및 rolB 프로모터(문헌[Capana et al., (1994) Plant Mol Biol 25:681-91]; 문헌[phaseolin gene (Murai et al., (1983) Science 23:476-82]; 문헌[Sengopta-Gopalen et al., (1988) Proc. Natl. Acad. Sci. USA 82:3320-4])를 포함한다. 또한, 미국 특허 제5,837,876호; 제5,750,386호; 제5,633,363호; 제5,459,252호; 제5,401,836호; 제5,110,732호 및 제5,023,179호 참조.
종자 선호 프로모터는 종자 발달 중에 활성을 나타내는 종자 특이적 프로모터뿐만 아니라, 종자 발아 중에 활성을 나타내는 종자 발아 프로모터를 포함한다. 문헌[Thompson et al., (1989) BioEssays 10:108] 참조. 종자 선호 프로모터는 Cim1(사이토키닌 유도 메세지); cZ19B1(메이즈 19 kDa 제인); 및 milps(미오-이노시톨-1-포스페이트 합성효소); 및 예를 들어, 2000년 3월 2일 공개된 WO2000011177 및 미국 특허 제6,225,529호에 개시된 것들을 포함하지만, 이들로 제한되지 않는다. 쌍떡잎식물의 경우, 종자 선호 프로모터는 콩류 β-파세올린, 나핀, β-콘글리시닌, 대두 렉틴, 크루시페린 등을 포함하지만, 이들로 제한되지 않는다. 외떡잎식물의 경우, 종자 선호 프로모터로는 메이즈 15 kDa 제인, 22 kDa 제인, 27 kDa 감마 제인, 왁시, 슈렁큰(shrunken) 1, 슈렁큰 2, 글로불린 1, 올레오신, 및 nuc1을 포함하지만, 이들로 제한되지 않는다. 또한, END1 및 END2 유전자로부터의 종자 선호 프로모터가 개시된 2000년 3월 9일 공개된 WO2000012733 참조.
화학물질 유도성(조절) 프로모터는 외인성 화학 조절인자의 적용을 통해 원핵생물 및 진핵생물 세포 또는 유기체에서 유전자의 발현을 조절하는 데 사용될 수 있다. 이러한 프로모터는 화학물질의 적용이 유전자 발현을 유도하는 화학물질 유도성 프로모터, 또는 화학물질의 적용이 유전자 발현을 억제하는 화학물질 억제성 프로모터일 수 있다. 화학물질 유도성 프로모터는 벤젠 설폰아미드 제초제 약해경감제에 의해 활성화되는 메이즈 In2-2 프로모터(De Veylder et al., (1997) Plant Cell Physiol 38:568-77), 잡초 발아 전에 제초제로서 사용되는 소수성 친전자성 화합물에 의해 활성화되는 메이즈 GST 프로모터(GST-II-27, 1993년 1월 21일 공개된 WO1993001294) 및 살리실산에 의해 활성화되는 담배 PR-1a 프로모터(Ono et al., (2004) Biosci Biotechnol Biochem 68:803-7)를 포함하지만, 이들로 제한되지 않는다. 다른 화학물질-조절된 프로모터는 스테로이드-반응성 프로모터를 포함한다(예를 들어, 글루코코르티코이드-유도성 프로모터(문헌[Schena et al., (1991) Proc. Natl. Acad. Sci. USA 88:10421-5]; 문헌[McNellis et al., (1998) Plant J 14:247-257]); 테트라사이클린-유도성 및 테트라사이클린-억제성 프로모터(문헌[Gatz et al., (1991) Mol Gen Genet 227:229-37]; 미국 특허 제5,814,618호 및 제5,789,156호).
병원체에 의한 감염 후에 유도되는 병원체 유도성 프로모터는 PR 단백질, SAR 단백질, 베타-1,3-글루카나아제, 키티나아제 등의 발현을 조절하는 것들을 포함하지만, 이들로 제한되지 않는다.
스트레스-유도성 프로모터는 RD29A 프로모터를 포함한다(Kasuga et al. (1999) Nature Biotechnol. 17:287-91). 당업자는 가뭄, 삼투압 스트레스, 염 스트레스 및 온도 스트레스와 같은 스트레스 조건을 시뮬레이션하고 시뮬레이션된 또는 자연 발생 스트레스 조건에 노출되었던 식물의 스트레스 내성을 평가하기 위한 프로토콜을 잘 알고 있다.
식물 세포에서 유용한 유도성 프로모터의 또 다른 예는 2013년 11월 21일 공개된 US20130312137에 기재된 ZmCAS1 프로모터이다.
식물 세포에 유용한 여러 유형의 새로운 프로모터가 지속적으로 발견되고 있고; 많은 예들을 문헌[The Biochemistry of Plants, Vol. 115, Stumpf and Conn, eds (New York, NY:Academic Press), pp. 1-82]에 있는 Okamuro and Goldberg(1989)에 의한 편집에서 찾을 수 있다.
신규한 CRISPR-Cas 시스템 성분을 이용한 게놈의 변형
본 명세서에 기재된 바와 같이, 유도된 Cas 엔도뉴클레아제는 DNA 표적 서열을 인식하고, 이에 결합하고, 단일 가닥 절단(틈) 또는 이중 가닥 절단을 도입할 수 있다. 단일 또는 이중 가닥 절단이 DNA에서 유도되면, 세포의 DNA 수선 메커니즘이 활성화되어 절단을 수선한다. 오류가 발생하기 쉬운 DNA 수선 메커니즘은 이중 가닥 파괴 부위에서 돌연변이를 생성할 수 있다. 파괴된 말단을 하나로 합치는 가장 일반적인 수선 메커니즘은 비상동 말단 연결(NHEJ) 경로이다(Bleuyard et al., (2006) DNA Repair 5:1-12). 염색체의 구조적 완전성은 전형적으로 수선에 의해 보존되지만, 결실, 삽입 또는 다른 재배열(예컨대, 염색체 전위)이 가능하다(Siebert and Puchta, 2002, Plant Cell 14:1121-31; Pacher et al., 2007, Genetics 175:21-9).
DNA 이중 가닥 파괴는 상동 재조합 경로를 자극하는 효과적인 인자로 보인다(Puchta et al., (1995) Plant Mol Biol 28:281-92; Tzfira and White, (2005) Trends Biotechnol 23:567-9; Puchta, (2005) J Exp Bot 56:1-14). DNA 파괴제를 사용하여, 식물에서의 인공적으로 작제된 상동 DNA 반복부 사이에 상동 재조합의 2배 내지 9배 증가가 관찰되었다(Puchta et al., (1995) Plant Mol Biol 28:281-92). 메이즈 원형질체에서, 선형 DNA 분자를 이용한 실험은 플라스미드 간의 향상된 상동 재조합을 입증하였다(Lyznik et al., (1991) Mol Gen Genet 230:209-18).
상동 직접 수선(HDR)은 이중 가닥 및 단일 가닥 DNA 절단을 수선하는 세포의 메커니즘이다. 상동 직접 수선은 상동 재조합(HR) 및 단일 가닥 어닐링(single-strand annealing: SSA)을 포함한다(Lieber. 2010 Annu. Rev. Biochem. 79:181-211). 가장 일반적인 형태의 HDR은 상동 재조합(HR)이라고 하며, 공여자 DNA와 수용자 DNA 간의 가장 긴 서열 상동성 요건을 갖는다. 다른 형태의 HDR은 단일 가닥 어닐링(SSA) 및 절단 유도 복제를 포함하며, 이들은 HR에 비해 더 짧은 서열 상동성을 필요로 한다. 틈(단일 가닥 파손)에서의 상동성-유도 수선은 이중 가닥 절단에서의 HDR과 다른 메커니즘을 통해 일어날 수 있다(Davis and Maizels. PNAS (0027-8424), 111 (10), p. E924-E932).
예를 들어, 상동 재조합(HR)을 통한 원핵생물 및 진핵생물 세포 또는 유기체의 게놈의 변경은 유전자 조작을 위한 강력한 도구이다. 상동 재조합은 식물 (Halfter et al., (1992) Mol Gen Genet 231:186-93) 및 곤충(Dray and Gloor, 1997, Genetics 147:689-99)에서 입증되었다. 상동 재조합은 다른 유기체에서도 이루어졌다. 예를 들어, 기생 원생동물 리슈마니아(Leishmania)에서의 상동 재조합에 적어도 150 내지 200 bp의 상동성이 필요했다(Papadopoulou and Dumas, (1997) Nucleic Acids Res 25:4278-86). 사상균 아스퍼질러스 니둘란스에서, 50 bp만큼의 적은 측접 상동성으로 유전자 치환이 이루어졌다(Chaveroche et al., (2000) Nucleic Acids Res 28:e97). 표적 유전자 치환은 섬모 테트라하이메나 써모필라(Tetrahymena thermophila)에서도 입증되었다(Gaertig et al., (1994) Nucleic Acids Res 22:5391-8). 포유류에서, 상동 재조합은 배양물에서 성장하고, 형질전환되고, 선택되고 마우스 배아 내로 도입될 수 있는 다능성 배아 줄기 세포주(ES)를 사용하여 마우스에서 가장 성공적이었다(WH Freeman & Co.에서 배포한 문헌[Watson et al., 1992, Recombinant DNA, 2nd Ed., Scientific American Books]).
유전자 표적화
본 명세서에 기재된 가이드 폴리뉴클레오티드/Cas 시스템은 유전자 표적화를 위해 사용될 수 있다.
일반적으로, DNA 표적화는 적합한 폴리뉴클레오티드 성분과 결합된 Cas 단백질을 사용하여 세포의 특정 폴리뉴클레오티드 서열에서 하나 또는 두 가닥을 절단함으로써 수행될 수 있다. 단일 또는 이중 가닥 절단이 DNA에서 유도되면, 세포의 DNA 수선 메커니즘이 활성화되어 표적 부위에서 변형을 야기할 수 있는 비상동 말단 연결(NHEJ) 또는 상동성 유도 수선(HDR) 과정을 통해 절단을 수선한다.
표적 부위의 DNA 서열의 길이는 변할 수 있으며, 예를 들어, 적어도 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개, 30개, 또는 30개 초과의 뉴클레오티드 길이를 갖는 표적 부위를 포함한다. 표적 부위는 회문구조일 수 있는데, 즉 한 가닥 상에 있는 서열이 상보성 가닥 상에서 반대 방향으로 동일하게 해독되는 것이 추가로 가능하다. 틈/절단 부위는 표적 서열 내에 존재할 수 있거나, 틈/절단 부위는 표적 서열 외부에 존재할 수 있다. 또 다른 변형에서, 절단은 평활 말단 절단을 생성하기 위해 서로 바로 마주 보는 뉴클레오티드 위치에서 발생할 수 있거나, 또는 다른 경우에는 "접착성 말단(sticky end)"으로도 칭해지는, 5' 돌출부 또는 3' 돌출부일 수 있는 단일 가닥 돌출부를 생성하도록 절개가 엇갈릴 수 있다. 게놈 표적 부위의 활성 변이체가 또한 사용될 수 있다. 이러한 활성 변이체는 주어진 표적 부위와 적어도 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 이상의 서열 동일성을 포함할 수 있고, 활성 변이체는 생물학적 활성을 보유함으로써 Cas 엔도뉴클레아제에 의해 인식되고 절단될 수 있다.
엔도뉴클레아제에 의한 표적 부위의 단일 또는 이중 가닥 절단을 측정하기 위한 분석법은 당업계에 공지되어 있으며, 일반적으로 인식 부위를 포함하는 DNA 기질 상에서 작용제의 전체 활성 및 특이성을 측정한다.
본 명세서의 표적화 방법은 예를 들어, 2개 이상의 DNA 표적 부위가 표적화되는 방식으로 수행될 수 있다. 이러한 방법은 선택적으로 다중 방법으로 특성규명될 수 있다. 특정 실시형태에서 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개 이상의 표적 부위가 동시에 표적화될 수 있다. 다중복합 방법은 전형적으로 다수의 상이한 RNA 성분이 제공되는 본 명세서의 표적화 방법에 의해 수행되며, 각각은 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체를 고유의 DNA 표적 부위로 유도하도록 설계된 본 명세서의 표적화 방법에 의해 수행된다.
유전자 편집
DSB와 변형 주형을 조합하는 게놈 서열 편집 방법은 일반적으로, 염색체 서열 내 표적 서열을 인식하고 게놈 서열에서 DSB를 유도할 수 있는 DSB 유도제, 또는 DSB 유도제를 암호화하는 핵산, 및 편집될 뉴클레오티드 서열에 비해 적어도 하나의 뉴클레오티드 변경을 포함하는 적어도 하나의 폴리뉴클레오티드 변형 주형을 숙주 세포에 도입하는 단계를 포함한다. 폴리뉴클레오티드 변형 주형은 적어도 하나의 뉴클레오티드 변경에 측접한 뉴클레오티드 서열을 더 포함할 수 있고, 이때 측접한 서열은 DSB에 측접한 염색체 영역과 실질적으로 상동성이다. Cas-gRNA 복합체와 같은 DSB 유도제를 이용한 게놈 편집은, 예를 들어, 2015년 3월 19일 공개된 US20150082478, 2015년 2월 26일 공개된 WO2015026886, 2016년 1월 14일 공개된 WO2016007347, 및 2016년 2월 18일 공개된 WO/2016/025131에 기재되었다.
가이드 RNA/Cas 엔도뉴클레아제 시스템의 일부 용도가 기재되었으며(예를 들어, 2015년 3월 19일 공개된 US20150082478 A1, 2015년 2월 26일 공개된 WO2015026886, 및 2015년 2월 26일 공개된 US20150059010 참조), 관심 대상의 뉴클레오티드 서열(예컨대, 조절 요소)의 변형 또는 교체, 관심 대상의 폴리뉴클레오티드의 삽입, 유전자 넉아웃, 유전자 넉인, 스플라이싱 부위의 변형 및/또는 교번식 스플라이싱 부위의 도입, 관심 대상의 단백질을 암호화하는 뉴클레오티드 서열, 아미노산 및/또는 단백질 융합체의 변형, 및 관심 대상 유전자 내에 역위 반복서열을 발현시키는 것에 의한 유전자 침묵을 포함하지만, 이들로 제한되지 않는다.
단백질은 아미노산 치환, 결실, 절두 및 삽입을 비롯한 다양한 방식으로 변경될 수 있다. 이러한 조작 방법은 일반적으로 공지되어 있다. 예를 들어, 단백질(들)의 아미노산 서열 변이체는 DNA에서의 돌연변이에 의해 제조될 수 있다. 돌연변이유발 및 뉴클레오티드 서열 변경을 위한 방법은, 예를 들어, 문헌[Kunkel, (1985) Proc. Natl. Acad. Sci. USA 82:488-92]; 문헌[Kunkel et al., (1987) Meth Enzy㏖ 154:367-82]; 미국 특허 제4,873,192호; 문헌[Walker and Gaastra, eds. (1983) Techniques in Molecular Biology (MacMillan Publishing Company, New York)] 및 이에 인용된 참고문헌을 포함한다. 단백질의 생물학적 활성에 영향을 미치지 않을 것 같은 아미노산 치환에 관한 지침은, 예를 들어, 문헌[Dayhoff et al., (1978) Atlas of Protein Sequence and Structure (Natl Biomed Res Found, Washington, D.C.)]의 모델에서 발견된다. 하나의 아미노산을 유사한 성질을 갖는 다른 아미노산과 교환하는 것과 같은 보존적 치환이 바람직할 수 있다. 보존적 결실, 삽입 및 아미노산 치환은 단백질의 특징에 근본적인 변화를 일으킬 것으로 예상되지 않으며, 임의의 치환, 결실, 삽입, 또는 이들의 조합의 효과는 일상적인 선별 분석법에 의해 평가될 수 있다. 이중 가닥 파괴 유도 활성에 대한 분석법은 공지되어 있고, 일반적으로 표적 부위를 포함하는 DNA 기질 상에서 작용제의 전체 활성 및 특이성을 측정한다.
본 명세서에 Cas 엔도뉴클레아제 및 Cas 엔도뉴클레아제와 가이드 폴리뉴클레오티드의 복합체를 이용하는 게놈 편집을 위한 방법이 기재된다. 가이드 RNA 및 PAM 서열의 특성규명 후에, 엔도뉴클레아제 및 연합된 CRISPR RNA(crRNA)의 성분은 식물을 포함하는 다른 유기체에서 염색체 DNA를 변형시키는 데 이용될 수 있다. (진핵 세포에 대해) 최적 발현 및 핵 국재화를 용이하게 하기 위해, 복합체를 포함하는 유전자는 2016년 11월 24일자로 공개된 WO2016186953에 기재된 바와 같이 최적화되고, 이어서, 당업계에 공지된 방법에 의해 DNA 발현 카세트로서 세포에 전달될 수 있다. 활성 복합체를 포함하는 데 필수적인 성분들 또한 RNA가 분해되는 것으로부터 보호하는 변형과 함께 또는 이러한 변형 없이 RNA로서, 또는 캡핑된 또는 캡핑되지 않은 mRNA(Zhang, Y. et al., 2016, Nat. Commun. 7:12617) 또는 Cas 단백질 가이드 폴리뉴클레오티드 복합체(2017년 4월 27일 공개된 WO2017070032), 또는 이들의 임의의 조합으로서 전달될 수 있다. 추가로, 복합체 및 crRNA의 부분 또는 부분(들)이 DNA 작제물로부터 발현될 수 있는 한편, 다른 성분들이 RNA가 분해되는 것으로부터 보호하는 변형과 함께 또는 이러한 변형 없이 RNA로서, 또는 캡핑된 또는 캡핑되지 않은 mRNA(Zhang et al. 2016, Nat. Commun. 7:12617) 또는 Cas 단백질 가이드 폴리뉴클레오티드 복합체(2017년 4월 27일 공개된 WO2017070032), 또는 이들의 임의의 조합으로서 전달된다. 예를 들어, 2017년 6월 22일 공개된 WO2017105991에 기재된 바와 같이, crRNA를 생체 내에서 생성하기 위하여, tRNA 유래 요소들이 또한 내인성 RNAse를 동원하여 crRNA 전사체를 DNA 표적 부위로 복합체를 유도할 수 있는 성숙한 형태로 절단하는 데 사용될 수 있다. 틈내기효소 복합체는 DNA 가닥 중 하나 또는 둘 다에 단일 또는 다중 DNA 틈을 생성하기 위해 별개로 또는 공동으로 이용될 수 있다. 나아가, Cas 엔도뉴클레아제의 절단 활성은, 이의 절단 도메인의 핵심 촉매 잔기를 변경시켜(Sinkunas, T. et al., 2013, EMBO J. 32:385-394) 상동성 유도 수선을 증진시키거나, 전사 활성화를 유도하거나, 국소 DNA 구조를 개조하는 데 사용될 수 있는 RNA 유도 헬리카제를 생성함으로써 탈활성화될 수 있다. 나아가, Cas 절단 및 헬리카제 도메인의 활성은 모두 넉아웃될 수 있고, 다른 DNA 절단, DNA 틈내기, DNA 결합, 전사 활성화, 전사 억제, DNA 개조, DNA 탈아미노화, DNA 풀기, DNA 재조합 증진, DNA 통합, DNA 역전, 및 DNA 수선 작용제와 함께 사용될 수 있다.
CRISPR-Cas 시스템(존재할 경우) 및 CRISPR-Cas 시스템의 기타 성분들(예컨대, 가변 표적화 도메인, crRNA 반복서열, 루프, 안티-반복서열)에 대한 tracrRNA의 전사 방향은 2016년 11월 24일 공개된 WO2016186946 및 2016년 11월 24일 공개된 WO2016186953에 기재된 바와 같이 도출될 수 있다.
본 명세서에 기재된 바와 같이, 적절한 가이드 RNA 요건이 확립되면, 본 명세서에 개시된 각각의 새로운 시스템에 대한 PAM 선호도가 조사될 수 있다. 절단 복합체가 무작위 PAM 라이브러리의 분해를 초래하는 경우, 중요한 잔기의 돌연변이 유발을 통해 또는 이전에 기재된 바와 같이 ATP의 부재 하에 반응을 조립하여 ATPase 의존적 헬리카제 활성을 불능화함으로써 복합체를 틈내기효소로 전환시킬 수 있다(Sinkunas, T. et al., 2013, EMBO J. 32:385-394). 각 복합체에 의한 절단을 지지하는 PAM 서열을 조사하기 위하여 포획되고 서열분석될 수 있는 이중 가닥 DNA 절단을 생성하도록 2개의 프로토스페이서 표적에 의해 분리된 PAM 무작위화의 두 영역을 이용할 수 있다.
일 실시형태에서, 본 발명은 세포의 게놈에서 표적 부위를 변형하는 방법을 기재하며, 상기 방법은 세포 내로 적어도 하나의, 본 명세서에 기재된 PGEN을 도입하는 단계 및 상기 표적에서 변형을 갖는 적어도 하나의 세포를 확인하는 단계를 포함하되, 상기 표적 부위에서의 변형은 (i) 적어도 하나의 뉴클레오티드의 교체, (ii) 적어도 하나의 뉴클레오티드의 결실, (iii) 적어도 하나의 뉴클레오티드의 삽입, 적어도 하나의 뉴클레오티드의 변경, 및 (v) (i) 내지 (iv)의 임의의 조합으로 구성된 군으로부터 선택된다.
편집될 뉴클레오티드는 Cas 엔도뉴클레아제에 의해 인식되고 절단되는 표적 부위 내에 또는 외부에 위치할 수 있다. 일 실시형태에서, 적어도 하나의 뉴클레오티드 변형은 Cas 엔도뉴클레아제에 의해 인식되고 절단되는 표적 부위에서의 변형이 아니다. 다른 실시형태에서, 편집될 적어도 하나의 뉴클레오티드와 게놈 표적 부위 사이에는 적어도 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 30개, 40개, 50개, 100개, 200개, 300개, 400개, 500개, 600개, 700개, 900개 또는 1000개의 뉴클레오티드가 존재한다.
넉아웃은 삽입-결실(표적 DNA 서열에서의 NHEJ를 통한 뉴클레오티드 염기의 삽입 또는 결실)에 의해, 또는 표적화 부위에서의 또는 그 근처에서의 서열의 기능을 감소시키거나 완전히 파괴하는 서열의 특이적 제거에 의해 생성될 수 있다.
가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 유도 표적 돌연변이는 Cas 엔도뉴클레아제에 의해 인식되고 절단되는 게놈 표적 부위 내에 또는 외부에 위치하는 뉴클레오티드 서열에서 발생할 수 있다.
세포의 게놈에서 뉴클레오티드 서열을 편집하는 방법은 비기능성 유전자 생성물에 대한 기능을 수선함으로써 외인성의 선택 가능한 마커의 사용이 없는 방법일 수 있다.
일 실시형태에서, 본 발명은 세포의 게놈에서 표적 부위를 변형하는 방법을 기재하며, 방법은 세포 내로 적어도 하나의, 본 명세서에 기재된 PGEN 및 적어도 하나의 공여자 DNA를 도입하는 단계를 포함하되, 상기 공여자 DNA는 관심 대상의 폴리뉴클레오티드를 포함하고, 방법은 상기 관심 대상의 폴리뉴클레오티드가 상기 표적 부위에서 또는 그 근처에서 통합된 적어도 하나의 세포를 확인하는 단계를 더 포함한다.
일 양상에서, 본 명세서에 개시된 방법은 상동 재조합(HR)을 이용하여 표적 부위에서 관심 대상의 폴리뉴클레오티드의 통합을 제공할 수 있다.
본 명세서에 기재된 CRISPR-Cas 시스템 성분의 활성을 통해 표적 부위에 삽입되는 관심 대상의 폴리뉴클레오티드를 갖는 세포 또는 유기체를 생성하기 위해 다양한 방법 및 조성물을 이용할 수 있다. 본 명세서에 기재된 하나의 방법에서, 관심 대상의 폴리뉴클레오티드는 공여자 DNA 작제물을 통해 유기체 세포로 도입된다. 본 명세서에서 사용된 바와 같이, "공여자 DNA"는 Cas 엔도뉴클레아제의 표적 부위로 삽입될 관심 대상의 폴리뉴클레오티드를 포함하는 DNA 작제물이다. 공여자 DNA 작제물은 관심 대상의 폴리뉴클레오티드에 측접한 제1 및 제2 상동성 영역을 더 포함한다. 공여자 DNA의 제1 상동 영역 및 제2 상동 영역은 세포 또는 유기체 게놈의 표적 부위에 존재하거나 이에 측접한 제1 게놈 영역 및 제2 게놈 영역에 대해 각각 상동성을 공유한다.
공여자 DNA는 가이드 폴리뉴클레오티드로 테더링될 수 있다. 테더링된 공여자 DNA는, 게놈 편집, 유전자 삽입 및 표적화된 게놈 조절에 유용한, 표적과 공여자 DNA의 공동 국재화를 허용할 수 있고, 내인성 HR 기구의 기능이 매우 약해질 것으로 예상되는 유사분열 후 세포를 표적화하는 데에도 유용할 수 있다(Mali et al., 2013, Nature Methods Vol. 10:957-963).
표적 및 공여자 폴리뉴클레오티드가 공유하는 상동성 또는 서열 동일성의 양은 변할 수 있으며, 약 1~20 bp, 20~50 bp, 50~100 bp, 75~150 bp, 100~250 bp, 150~300 bp, 200~400 bp, 250~500 bp, 300~600 bp, 350~750 bp, 400~800 bp, 450~900 bp, 500~1000 bp, 600~1250 bp, 700~1500 bp, 800~1750 bp, 900~2000 bp, 1~2.5 kb, 1.5~3 kb, 2~4 kb, 2.5~5 kb, 3~6 kb, 3.5~7 kb, 4~8 kb, 5~10 kb, 또는 표적 부위의 전체 길이까지를 포함하는 범위의 단위 적분 값을 갖는 총 길이 및/또는 영역을 포함한다. 이 범위에는 범위 내의 모든 정수가 포함되고, 예를 들어, 1~20 bp 범위는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 및 20 bp를 포함한다. 상동성의 양은 2개의 폴리뉴클레오티드의 전체 정렬된 길이에 걸친 서열 동일성 백분율에 의해 기재될 수도 있는데, 이는 적어도 약 50%, 55%, 60%, 65%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%의 서열 동일성 백분율을 포함한다. 충분한 상동성은 폴리뉴클레오티드 길이, 전체 서열 동일성 백분율, 및 선택적으로, 연속된 뉴클레오티드의 보존 영역 또는 국소 서열 동일성 백분율의 임의의 조합을 포함하며, 예를 들어, 충분한 상동성은 표적 좌위의 영역과 적어도 80%의 서열 동일성을 갖는 75 내지 150 bp의 영역으로서 기재될 수 있다. 충분한 상동성은 또한 높은 엄격성 조건 하에 특이적으로 혼성화하는 2개의 폴리뉴클레오티드의 예측된 능력에 의해 기재될 수 있고, 예를 들어, 문헌[Sambrook et al., (1989) Molecular Cloning:A Laboratory Manual, (Cold Spring Harbor Laboratory Press, NY)]; 문헌[Current Protocols in Molecular Biology, Ausubel et al., Eds (1994) Current Protocols, (Greene Publishing Associates, Inc. 및 John Wiley & Sons, Inc.)]; 및 문헌[Tijssen (1993) Laboratory Techniques in Biochemistry and Molecular Biology--Hybridization with Nucleic Acid Probes, (Elsevier, New York)]을 참조한다.
에피솜 DNA 분자가 이중 가닥 절단에 연결될 수도 있다(예컨대, 염색체 이중 가닥 절단에의 T-DNA의 통합)(Chilton and Que, (2003) Plant Physiol 133:956-65; Salomon and Puchta, (1998) EMBO J. 17:6086-95). 예를 들어, 이중 가닥 절단의 성숙에 관련된 엑소뉴클레아제 활성에 의해 이중 가닥 절단 주위의 서열이 일단 변경되면, 상동 서열, 예컨대 비분열 체세포에서의 상동 염색체, 또는 DNA 복제 후 자매 염색분체가 이용 가능한 경우 유전자 전환 경로가 원래의 구조를 복원할 수 있다(Molinier et al., (2004) Plant Cell 16:342-52). 이소성 및/또는 후성적 DNA 서열이 상동 재조합을 위한 DNA 수선 주형으로서 작용할 수도 있다(Puchta, (1999) Genetics 152:1173-81).
일 실시형태에서, 본 발명은 세포의 게놈에서 뉴클레오티드 서열을 편집하는 방법을 포함하고, 상기 방법은 세포 내로 적어도 하나의, 본 명세서에 기재된 PGEN 및 폴리뉴클레오티드 변형 주형을 도입하는 단계를 포함하고, 상기 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하고, 선택적으로 편집된 뉴클레오티드 서열을 포함하는 적어도 하나의 세포를 선택하는 단계를 더 포함한다.
가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템은 적어도 하나의 폴리뉴클레오티드 변형 주형과 조합되어 사용되어 관심 대상 게놈 뉴클레오티드 서열의 편집(변형)을 가능하게 한다. (또한, 2015년 3월 19일 공개된 US20150082478 및 2015년 2월 26일 공개된 WO2015026886 참조).
관심 대상의 폴리뉴클레오티드 및/또는 형질은 2012년 9월 27일 공개된 WO2012129373 및 2013년 8월 1일 공개된 WO2013112686에 기재된 바와 같이, 복합 형질 좌위에 함께 쌓일 수 있다. 본 명세서에 기재된 가이드 폴리뉴클레오티드/Cas9 엔도뉴클레아제 시스템은 이중 가닥 절단을 생성하는 데 효율적인 시스템을 제공하고, 복합 형질 좌위에 형질이 쌓이도록 할 수 있다.
유전자 표적화를 매개하는 본 명세서에 기재된 가이드 폴리뉴클레오티드/Cas 시스템은, 관심 대상 유전자를 도입하기 위해 이중 가닥 절단 유도제를 사용하는 대신, 본 명세서에 개시된 것과 같은 가이드 폴리뉴클레오티드/Cas 시스템이 이용되는, 2012년 9월 27일 공개된 WO2012129373에 개시된 것과 유사한 방식으로 이종성 유전자 삽입을 유도하는 방법 및/또는 다수의 이종성 유전자를 포함하는 복합 형질 좌위를 생성하는 방법에 사용될 수 있다. 서로로부터 0.1, 0.2, 0.3, 0.4, 0.5, 1.0, 2, 또는 심지어 5센티모건(cM) 내에 독립적 이식유전자를 삽입함으로써, 이식유전자는 단일 좌위로서 증식될 수 있다(예를 들어, 2013년 10월 3일 공개된 US20130263324 또는 2013년 3월 14일 공개된 WO2012129373 참조). 이식유전자를 포함하는 식물을 선택한 후, (적어도) 하나의 이식유전자를 포함하는 식물들을 교배하여 양쪽 이식유전자를 모두 포함하는 F1을 형성할 수 있다. 이러한 F1으로부터의 자손(F2 또는 BC1)에서, 1/500의 자손이 동일한 염색체에 재조합된 두 개의 상이한 이식유전자를 가질 것이다. 이후, 복합 좌위는 양쪽 이식유전자 형질을 갖는 단일 좌위로서 증식될 수 있다. 이 과정을 반복하여 원하는 만큼 많은 형질을 쌓을 수 있다.
가이드 RNA/Cas 엔도뉴클레아제 시스템의 추가 용도가 기재되었으며(예를 들어, 2015년 3월 19일 공개된 US20150082478, 2015년 2월 26일 공개된 WO2015026886, 2015년 2월 26일 공개된 US20150059010, 2016년 1월 14일 공개된 WO2016007347, 및 2016년 2월 18일 공개된 PCT WO2016025131 참조), 관심 대상의 뉴클레오티드 서열(예컨대, 조절 요소)의 변형 또는 교체, 관심 대상의 폴리뉴클레오티드의 삽입, 유전자 녹아웃, 유전자 녹인, 스플라이싱 부위의 변형 및/또는 교번식 스플라이싱 부위의 도입, 관심 대상의 단백질을 암호화하는 뉴클레오티드 서열, 아미노산 및/또는 단백질 융합체의 변형, 및 관심 대상 유전자 내에 역위 반복서열을 발현시키는 것에 의한 유전자 침묵화를 포함하지만, 이들로 제한되지 않는다.
본 명세서에 기재된 유전자 편집 조성물 및 방법으로부터 생성된 특징은 평가될 수 있다. 관심 표현형 또는 형질과 상관관계가 있는 염색체 간격이 확인될 수 있다. 염색체 간격을 확인하기 위해 당업계에 잘 공지된 다양한 방법을 이용할 수 있다. 이러한 염색체 간격의 경계는 관심 형질을 제어하는 유전자에 연결될 마커를 포함하도록 정해진다. 다시 말해, 염색체 간격은 그 간격 내에 있는 임의의 마커(간격의 경계를 정의하는 말단 마커를 포함)가 특정 형질을 위한 마커로서 사용될 수 있도록 정해진다. 일 실시형태에서, 염색체 간격은 적어도 하나의 QTL을 포함하고, 또한 실제로 하나보다 많은 QTL을 포함할 수 있다. 하나의 마커는 하나보다 많은 QTL에 연결될 수 있으므로, 동일한 간격에서 여러 QTL의 근접성은 특정 마커와 특정 QTL과의 상관 관계를 모호하게 할 수 있다. 반대로, 예를 들어, 근접한 두 개의 마커가 원하는 표현형 형질과 공동 분리를 보이는 경우, 이들 각각의 마커가 동일한 QTL을 확인하는지 두 개의 다른 QTL을 확인하는지 때로는 불분명하다. 용어 "정량적 형질 좌위" 또는 "QTL"은 적어도 하나의 유전적 배경, 예를 들어, 적어도 하나의 육종 개체군에서 정량적 표현형 형질의 차별적 발현과 관련된 DNA의 영역을 지칭한다. QTL의 영역은 문제의 형질에 영향을 미치는 유전자 또는 유전자들을 포함하거나 이들에 밀접하게 연결되어 있다. "QTL의 대립 유전자"는 일배체형과 같은 인접한 게놈 영역 또는 연관군 내에 여러 유전자 또는 기타 유전 인자를 포함할 수 있다. QTL의 대립 유전자는 특정 창 내의 일배체형을 나타낼 수 있으며, 상기 창은 하나 이상의 다형성 마커의 세트로 정의되고 추적될 수 있는 인접한 게놈 영역이다. 일배체형은 특정 창 내 각각의 마커에서 대립 유전자의 고유의 지문에 의해 정의될 수 있다.
세포 내로 CRISPR-Cas 시스템 성분의 도입
본 명세서에 기재된 방법 및 조성물은 폴리뉴클레오티드 또는 폴리펩티드가 유기체의 적어도 하나의 세포의 내부로의 접근을 획득하는 한 유기체 또는 세포 내로 서열을 도입하기 위한 특정 방법에 의존하지 않는다. 도입은 핵산이 세포의 게놈으로 혼입될 수 있는 진핵생물 또는 원핵생물 세포로의 핵산의 혼입에 대한 언급을 포함하며, 핵산, 단백질 또는 폴리뉴클레오티드-단백질 복합체(PGEN, RGEN)의 세포로의 일시적인(직접적인) 제공에 대한 언급을 포함한다.
마이크로주입, 전기천공, 안정적인 형질전환 방법, 일시적 형질전환 방법, 발리스틱 입자 가속화(입자 충돌), 위스커 매개 형질전환, 아그로박테리움 매개 형질전환, 직접적 유전자 전달, 바이러스 매개 도입, 형질감염, 형질도입, 세포 투과성 펩티드, 메조포러스 실리카 나노입자(MSN) 매개 직접적 단백질 전달, 국소 적용, 유성 교배, 유성 육종 및 이의 임의의 조합을 포함하지만, 이들로 제한되지 않는, 세포 또는 유기체 내로 폴리뉴클레오티드 또는 폴리펩티드 또는 폴리뉴클레오티드-단백질 복합체를 도입하는 방법이 당업계에 공지되어 있다.
예를 들어, 가이드 폴리뉴클레오티드(가이드 RNA, cr뉴클레오티드 + tracr뉴클레오티드, 가이드 DNA 및/또는 가이드 RNA-DNA 분자)는 단일 가닥 또는 이중 가닥 폴리뉴클레오티드 분자로서 세포로 직접적으로(일시적으로) 도입될 수 있다. 가이드 RNA(또는 crRNA + tracrRNA)는 또한 상기 세포에서 가이드 RNA(crRNA+tracrRNA 분자)를 전사할 수 있는 특정 프로모터에 작동 가능하게 연결된, 가이드 RNA(또는 crRNA + tracrRNA)를 암호화하는 이종성 핵산 단편을 포함하는 재조합 DNA 분자를 도입하여, 간접적으로 세포로 도입될 수 있다. 특정 프로모터는 정확히 정의된, 비변형 5'- 및 3'-말단을 갖는 RNA의 전사를 허용하는 RNA 중합효소 III 프로모터일 수 있지만, 이것으로 제한되는 것은 아니다(문헌[Ma et al., 2014, Mol. Ther. Nucleic Acids 3:e161]; 문헌[DiCarlo et al., 2013, Nucleic Acids Res. 41:4336-4343]; 2015년 2월 26일자로 공개된 WO2015026887). 세포에서 가이드 RNA를 전사할 수 있는 임의의 프로모터가 사용될 수 있고, 가이드 RNA를 암호화하는 뉴클레오티드 서열에 작동 가능하게 연결된 열 충격/열 유도성 프로모터를 포함한다.
식물 세포는 동물 세포(예컨대, 인간 세포), 진균 세포(예컨대, 효모 세포) 및 원형질체와 다르며, 예를 들어, 식물 세포는 성분 전달에 대한 장벽으로서 작용할 수 있는 식물 세포벽을 포함한다.
Cas 엔도뉴클레아제, 및/또는 가이드 RNA, 및/또는 리보핵단백질 복합체, 및/또는 앞서 언급한 것 중 임의의 하나 이상을 암호화하는 폴리뉴클레오티드의 식물 세포에 대한 전달은 당업계에 공지된 방법, 예를 들어, 이하로 제한되는 것은 아니지만, 라이조비알스(Rhizobiales)-매개 형질전환(예를 들어, 아그로박테리움(Agrobacterium), 오크로박트럼(Ochrobactrum)), 입자 매개 전달(유전자총법), 폴리에틸렌 글리콜(PEG)-매개 형질감염(예를 들어, 원형질체에 대해), 전기천공법, 세포-침투성 펩티드, 또는 메조포러스 실리카 나노입자(mesoporous silica nanoparticle: MSN)-매개 직접 단백질 전달을 통해 달성될 수 있다.
본 명세서에 기재된 Cas 엔도뉴클레아제와 같은 Cas 엔도뉴클레아제는, 당업계에 공지된 임의의 방법을 사용하여 Cas 폴리펩티드 자체(Cas 엔도뉴클레아제의 직접적인 전달이라고 칭함), Cas 단백질을 암호화하는 mRNA, 및/또는 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체 자체를 직접적으로 도입함으로써, 세포에 도입될 수 있다. Cas 엔도뉴클레아제는 또한 Cas 엔도뉴클레아제를 암호화하는 재조합 DNA 분자를 도입함으로써 간접적으로 세포로 도입될 수 있다. 엔도뉴클레아제는 당업계에 공지된 임의의 방법을 사용하여 세포로 일시적으로 도입되거나 숙주 세포의 게놈으로 혼입될 수 있다. 엔도뉴클레아제 및/또는 유도된 폴리뉴클레오티드의 세포로의 흡수는 2016년 5월 12일 공개된 WO2016073433에 기재된 바와 같이 세포 투과성 펩티드(CPP)로 촉진될 수 있다. 세포에서 Cas 엔도뉴클레아제를 발현할 수 있는 임의의 프로모터가 사용될 수 있고, Cas 엔도뉴클레아제를 암호화하는 뉴클레오티드 서열에 작동 가능하게 연결된 열 충격/열 유도성 프로모터를 포함한다.
식물 세포로 폴리뉴클레오티드 변형 주형을 직접적으로 전달하는 것은 입자 매개 전달을 통해 달성될 수 있고, 임의의 다른 직접적인 전달 방법, 예컨대, 원형질체로의 폴리에틸렌 글리콜(PEG) 매개 형질주입, 위스커 매개 형질전환, 전기천공, 입자 충돌, 세포 투과성 펩티드, 또는 메조포러스 실리카 나노입자(MSN) 매개 직접 단백질 전달(이것으로 제한되지 않음)은 식물 세포와 같은, 진핵생물 세포에서 폴리뉴클레오티드 변형 주형을 전달하기 위해 성공적으로 사용될 수 있다.
공여자 DNA는 당업계에 공지된 임의의 수단에 의해 도입될 수 있다. 공여자 DNA는, 예를 들어, 아그로박테리움-매개 형질전환 또는 바이올리스틱 입자 충돌을 포함하는, 당업계에 공지된 임의의 형질전환 방법에 의해 제공될 수 있다. 공여자 DNA는 세포에 일시적으로 존재할 수 있거나, 바이러스성 레플리콘을 통해 도입될 수 있다. Cas 엔도뉴클레아제 및 표적 부위의 존재 하에, 형질전환된 식물의 게놈에 공여자 DNA가 삽입된다.
임의의 하나의 유도 Cas 시스템 성분의 직접적 전달에는 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체 성분을 수용하는 세포의 농축 및/또는 가시화를 촉진할 수 있는 다른 mRNA의 직접적 전달(공동 전달)이 수반될 수 있다. 예를 들어, mRNA 암호화 표현형 마커(예컨대, 이하로 제한되는 것은 아니지만, 전사 활성인자, 예컨대 CRC)와 함께 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 성분(및/또는 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체 그 자체)의 직접 공동 전달(Bruce et al. 2000 The Plant Cell 12:65-79)은 2017년 4월 27일자로 공개된 WO2017070032에 기재된 바와 같은 비기능성 유전자 산물에 대한 기능을 회복함으로써 외인성 선택 가능 마커의 사용없이 세포의 선택 및 풍부화를 가능하게 할 수 있다.
본 명세서에 기재된 가이드 RNA/Cas 엔도뉴클레아제 복합체를 세포에 도입하는 것(본 명세서에 기재된 절단 준비 복합체를 나타내는 것)은 상기 복합체의 개별 성분을 개별적으로 또는 결합하여, 직접(가이드를 위한 RNA 및 Cas 엔도뉴클레아제를 위한 단백질 및 단백질 서브유닛, 또는 이의 기능성 단편으로서 직접 전달) 또는 그 성분(가이드 RNA, Cas 엔도뉴클레아제, 단백질 서브유닛, 또는 이의 기능성 단편)을 발현하는 재조합 작제물을 통해 세포에 도입하는 것을 포함한다. 가이드 RNA/Cas 엔도뉴클레아제 복합체(RGEN)를 세포에 도입하는 것은 가이드 RNA/Cas 엔도뉴클레아제 복합체를 리보뉴클레오티드-단백질로서 세포에 도입하는 것을 포함한다. 리보뉴클레오티드-단백질은 본 명세서에 기재된 바와 같이 세포로 도입되기 전에 조립될 수 있다. 가이드 RNA/Cas 엔도뉴클레아제 리보뉴클레오티드 단백질(적어도 하나의 Cas 엔도뉴클레아제, 적어도 하나의 가이드 RNA, 적어도 하나의 단백질 서브유닛)을 포함하는 성분은 시험관 내 조립되거나 (본 명세서에 기재된 바와 같이 게놈 변형에 표적화된) 세포로 도입되기 전에 당업계에 공지된 임의의 수단에 의해 조립될 수 있다.
RGEN 리보핵단백질의 직접 전달은 세포의 게놈에서의 표적 부위에서의 게놈 편집 후 복합체가 빠르게 분해되고, 복합체가 세포에 일시적으로만 존재할 수 있게 한다. 이러한 RGEN 복합체의 일시적인 존재는 표적 이탈 효과의 감소로 이어질 수 있다. 이와 반대로, 플라스미드 DNA 서열을 통한 RGEN 성분(가이드 RNA, Cas9 엔도뉴클레아제)의 전달은 표적 이탈 효과를 가중시킬 수 있는 이러한 플라스미드로부터의 RGEN의 일정한 발현을 초래할 수 있다(Cradick, T. J. et al. (2013) Nucleic Acids Res 41:9584-9592; Fu, Y et al. (2014) Nat. Biotechnol. 31:822-826).
직접 전달은 본 명세서에 기재된 절단 준비 복합체를 나타내는 가이드 RNA/Cas 엔도뉴클레아제 복합체(RGEN)(예컨대, 적어도 하나의 가이드 RNA, 적어도 하나의 Cas 단백질, 및 선택적으로 하나의 추가적인 단백질) 중 임의의 하나의 성분을 (금 입자, 텅스텐 입자 및 탄화규소 위스커 입자와 같은, 그러나 이들로 제한되지 않는) 마이크로입자를 포함하는 전달 매트릭스와 조합함으로써 달성될 수 있다(또한 2017년 4월 27일 공개된 WO2017070032 참조). 전달 매트릭스는 성분 중 임의의 하나, 예컨대, 고체 매트릭스(예를 들어, 충격을 위한 입자)에 부착된 Cas 엔도뉴클레아제를 포함할 수 있다.
일 양상에서, 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 가이드 RNA 및 가이드 RNA/Cas 엔도뉴클레아제 복합체를 형성하는 Cas 엔도뉴클레아제 단백질이 각각 RNA 및 단백질로서 세포로 도입되는 복합체이다.
일 양상에서, 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 가이드 RNA 및 Cas 엔도뉴클레아제 단백질 및 가이드 RNA/Cas 엔도뉴클레아제 복합체를 형성하는 복합체의 적어도 하나의 단백질 서브유닛이 각각 RNA 및 단백질로서 세포로 도입되는 복합체이다.
일 양상에서, 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 가이드 RNA 및 Cas 엔도뉴클레아제 단백질 및 가이드 RNA/Cas 엔도뉴클레아제 복합체를 형성하는 복합체(절단 준비 복합체)의 적어도 하나의 단백질 서브유닛이 시험관 내 예비조립되고, 리보뉴클레오티드-단백질 복합체로서 세포로 도입되는 복합체이다.
폴리뉴클레오티드, 폴리펩티드 또는 폴리뉴클레오티드-단백질 복합체(PGEN, RGEN)를 진핵생물 세포, 예컨대, 식물 또는 식물 세포로 도입하기 위한 프로토콜은 공지되어 있으며, 마이크로주입(문헌[Crossway et al., (1986) Biotechniques 4:320-34] 및 미국 특허 제6,300,543호), 분열조직 형질전환(미국 특허 제5,736,369호), 전기천공(Riggs et al., (1986) Proc. Natl. Acad. Sci. USA 83:5602-6, 아그로박테리움-매개 형질전환(미국 특허 제5,563,055호 및 제5,981,840호), 위스커 매개 형질전환(문헌[Ainley et al. 2013, Plant Biotechnology Journal 11:1126-1134]; 문헌[Shaheen A. and M. Arshad 2011 Properties and Applications of Silicon Carbide (2011), 345-358 Editor(s):Gerhardt, Rosario. Publisher:InTech, Rijeka, Croatia. CODEN:69PQBP]; ISBN:978-953-307-201-2), 직접 유전자 전달(Paszkowski et al., (1984) EMBO J 3:2717-22), 및 탄도 입자 가속화(미국 특허 제4,945,050호; 제5,879,918호; 제5,886,244호; 제5,932,782호; 문헌[Tomes et al., (1995) "Direct DNA Transfer into Intact Plant Cells via Microprojectile Bombardment" in Plant Cell, Tissue, and Organ Culture:Fundamental Methods, ed. Gamborg & Phillips (Springer-Verlag, Berlin)]; 문헌[McCabe et al., (1988) Biotechnology 6:923-6; Weissinger et al., (1988) Ann Rev Genet 22:421-77]; 문헌[Sanford et al., (1987) Particulate Science and Technology 5:27-37 (양파)]; 문헌[Christou et al., (1988) Plant Physiol 87:671-4 (대두)]; 문헌[Finer and McMullen, (1991) In vitro Cell Dev Biol 27P:175-82 (대두)]; 문헌[Singh et al., (1998) Theor Appl Genet 96:319-24 (대두)]; 문헌[Datta et al., (1990) Biotechnology 8:736-40 (벼)]; 문헌[Klein et al., (1988) Proc. Natl. Acad. Sci. USA 85:4305-9(메이즈)]; 문헌[Klein et al., (1988) Biotechnology 6:559-63(메이즈); 미국 특허 제5,240,855호; 제5,322,783호 및 제5,324,646호; Klein et al., (1988) Plant Physiol 91:440-4(메이즈)]; 문헌[Fromm et al., (1990) Biotechnology 8:833-9(메이즈)]; 문헌[Hooykaas-Van Slogteren et al., (1984) Nature 311:763-4; 미국 특허 제5,736,369호(곡류)]; 문헌[Bytebier et al., (1987) Proc. Natl. Acad. Sci. USA 84:5345-9(백합과)]; 문헌[De Wet et al., (1985) in The Experimental Manipulation of Ovule Tissues, ed. Chapman et al., (Longman, New York), pp. 197-209(꽃가루)]; 문헌[Kaeppler et al., (1990) Plant Cell Rep 9:415-8)] 및 문헌[Kaeppler et al., (1992) Theor Appl Genet 84:560-6(위스커 매개 형질전환)]; 문헌[D'Halluin et al., (1992) Plant Cell 4:1495-505(전기천공)]; 문헌[Li et al., (1993) Plant Cell Rep 12:250-5]; 문헌[Christou and Ford (1995) Annals Botany 75:407-13(벼)] 및 문헌[Osjoda et al., (1996) Nat Biotechnol 14:745-50](아그로박테리움 투메파시엔스를 통한 메이즈)를 포함한다.
대안적으로, 폴리뉴클레오티드는 세포 또는 유기체를 바이러스 또는 바이러스성 핵산과 접촉시켜 식물 또는 식물 세포 내로 도입될 수 있다. 일반적으로, 이러한 방법은 바이러스성 DNA 또는 RNA 분자 내 폴리뉴클레오티드의 혼입을 수반한다. 일부 예에서, 관심 대상의 폴리펩티드는 처음에 바이러스성 폴리단백질의 일부로서 합성될 수 있고, 후에 생체 내 또는 시험관 내에서 단백분해에 의해 처리되어 원하는 재조합 단백질을 생성한다. 바이러스성 DNA 또는 RNA 분자가 관련되는 폴리뉴클레오티드를 식물로 도입하고 거기에서 암호화된 단백질을 발현시키는 방법은 공지되어 있다(예를 들어, 미국 특허 제5,889,191호, 제5,889,190호, 제5,866,785호, 제5,589,367호 및 제5,316,931호 참조).
폴리뉴클레오티드 또는 재조합 DNA 작제물은 다양한 일시적 형질전환 방법을 사용하여 원핵생물 및 진핵생물 세포 또는 유기체에 제공되거나 도입될 수 있다. 이러한 일시적 형질전환 방법은 식물로 직접 폴리뉴클레오티드 작제물을 도입하는 것을 포함하지만 이것으로 제한되는 것은 아니다.
핵산 및 단백질은 유도 Cas 시스템의 어느 한 성분 또는 모든 성분(단백질 및/또는 핵산)의 흡수를 촉진하기 위해 분자, 예컨대 세포 침투성 펩티드 및 나노캐리어를 이용하는 방법을 비롯한 임의의 방법에 의해 세포에 제공될 수 있다. 또한, 2011년 2월 10일 공개된 US20110035836 및 2015년 1월 7일 공개된 EP2821486A1 참조.
색소체 형질전환 방법, 및 묘목 또는 성숙한 종자로부터의 조직 내로 폴리뉴클레오티드를 도입하는 방법을 포함하는, 원핵생물 및 진핵생물 세포 또는 유기체 또는 식물 부분 내로 폴리뉴클레오티드를 도입하는 다른 방법이 사용될 수 있다.
안정적인 형질전환은 유기체로 도입된 뉴클레오티드 작제물이 유기체의 게놈으로 통합되며 이의 자손에 의해 유전될 수 있음을 의미하려는 것이다. 일시적 형질전환은 폴리뉴클레오티드가 유기체 내로 도입되고 유기체의 게놈 내로 통합되지 않거나 폴리펩티드가 유기체 내로 도입됨을 의미하려는 것이다. 일시적 형질전환은 도입된 조성물이 유기체에서 일시적으로만 발현되거나 존재함을 나타낸다.
선별 가능한 마커 표현형을 사용하지 않고 표적 부위 또는 그 근처에서 변경된 게놈을 갖는 세포를 확인하기 위해 다양한 방법을 이용할 수 있다. 비제한적인 예로서 PCR 방법, 서열분석 방법, 뉴클레아제 소화, 서던 블롯, 및 이들의 임의의 조합을 포함하여, 표적 서열을 직접 분석하여 표적 서열에서 임의의 변화를 검출하는 것과 같은 방법을 들 수 있다.
세포 및 식물
본 명세서에 개시된 폴리뉴클레오티드 및 폴리펩티드는 세포로 도입될 수 있다. 세포는 인간, 비인간, 동물, 포유류, 박테리아, 균류, 곤충, 효모, 비통상적인 효모 및 식물의 세포뿐만 아니라 본 명세서에 기재된 방법에 의해 제조된 식물 및 종자를 포함하지만, 이들로 제한되는 것은 아니다. 외떡잎식물 및 쌍떡잎식물, 및 식물 요소를 포함한 임의의 식물이 본 명세서에 기재된 조성물 및 방법과 함께 사용될 수 있다.
사용될 수 있는 외떡잎식물의 예는 옥수수(제아 메이스(Zea mays)), 벼(오리자 사티바(Oryza sativa)), 호밀(세칼레 세레알레(Secale cereale)), 수수(소르검 비칼라(Sorghum bicolor), 소르검 불가레(Sorghum vulgare)), 기장(예컨대, 펄 밀렛(페니세툼 글라쿰(Pennisetum glaucum)), 프로소 밀렛(파니쿰 밀리아세움(Panicum miliaceum)), 조(세타리아 이탈리카(Setaria italica)), 손가락조(엘류신 코라카나(Eleusine coracana))), 밀(트리티쿰 종, 예를 들어, 트리티쿰 아에스티붐(Triticum aestivum), 트리티쿰 모노코컴(Triticum monococcum)), 사탕수수(사카룸(Saccharum) 종), 귀리(아베나(Avena)), 보리(호르데움(Hordeum)), 스위치그래스(파니쿰 비르가툼(Panicum virgatum)), 파인애플(아나나스 코모수스(Ananas comosus)), 바나나(무사(Musa) 종), 야자, 관상용 식물, 잔디, 및 기타 풀을 포함하지만, 이들로 제한되는 것은 아니다.
사용될 수 있는 쌍떡잎식물의 예는 대두(글리신 맥스(Glycine max)), 브라시카(Brassica) 종(예를 들어, 오일종자 유채 또는 카놀라, 그러나 이것으로 제한되지 않음)(브라시카 나푸스(Brassica napus), B. 캄페스트리스(campestris), 브라시카 라파(Brassica rapa), 브라시카 준세아(Brassica juncea)), 알팔파(메디카고 사티바(Medicago sativa)), 담배(니코티아나 타바쿰(Nicotiana tabacum)), 애기장대(아라비돕시스 탈리아나(Arabidopsis thaliana)), 해바라기(헬리안투스 안누우스(Helianthus annuus)), 목화(고시피움 아르보레움(Gossypium arboreum), 고시피움 바르바덴스(Gossypium barbadense)), 및 땅콩(아라키스 하이포가에아(Arachis hypogaea)), 토마토(솔라눔 라이코페르시쿰(Solanum lycopersicum)), 감자(솔라눔 투베로섬(Solanum tuberosum))를 포함하지만, 이들로 제한되는 것은 아니다.
사용될 수 있는 추가 식물은 잇꽃(카르타무스 팅토리우스(Carthamus tinctorius)), 고구마(이포모에아 바타투스(Ipomoea batatus)), 카싸바(마니호트 에스쿨렌타(Manihot esculenta)), 커피(커피(Coffea) 종), 코코넛(코코스 누시페라(Cocos nucifera)), 시트러스 나무(시트러스(Citrus) 종), 코코아(테오브로마 카카오(Theobroma cacao)), 차(카멜리아 시넨시스(Camellia sinensis)), 바나나(무사(Musa) spp.), 아보카도(페르시아 아메리카나(Persea americana)), 무화과(피쿠스 카시카(Ficus casica)), 구아바(프시디움 구아자바(Psidium guajava)), 망고(망기페라 인디카(Mangifera indica)), 올리브(올레아 유로파에아(Olea europaea)), 파파야(카리카 파파야(Carica papaya)), 캐슈(아나카르디움 옥시덴탈레(Anacardium occidentale)), 마카다미아(마카다미아 인테그리폴리아(Macadamia integrifolia)), 아몬드(프루누스 아미그달루스(Prunus amygdalus)), 사탕무(베타 불가리스(Beta vulgaris)), 채소, 관상용 식물, 및 침엽수를 포함한다.
사용될 수 있는 채소는 토마토(라이코페르시콘 에스쿨렌툼(Lycopersicon esculentum)), 상추(예컨대 락투카 사티바(Lactuca sativa)), 그린 빈(파세올러스 불가리스(Phaseolus vulgaris)), 리마 콩(파세올러스 리멘시스(Phaseolus limensis)), 완두콩(라티루스(Lathyrus) 종), 및 쿠쿠미스(Cucumis)속 구성원, 예컨대 오이(쿠쿠미스 사티부스(C. sativus)), 캔탈로프(쿠쿠미스 칸탈루펜시스(C. cantalupensis)), 및 머스크 멜론(쿠쿠미스 멜로(C. melo))을 포함한다. 관상용 식물은 진달래(로도덴드론(Rhododendron) 종), 수국(마크로필라 하이드랑게아(Macrophylla hydrangea)), 히비스커스(히비스커스 로사사넨시스(Hibiscus rosasanensis)), 장미(로자(Rosa) 종), 튤립(튤리파(Tulipa) 종), 수선화(나르시서스(Narcissus) 종), 페튜니아(페튜니아 하이브리다(Petunia hybrida)), 카네이션(디안투스 카리오필러스(Dianthus caryophyllus)), 포인세티아(유포르비아 풀케리마(Euphorbia pulcherrima)) 및 국화를 포함한다.
사용될 수 있는 침엽수는 소나무, 예컨대 테다 소나무(피너스 태다(Pinus taeda)), 슬래시 소나무(피너스 엘리오티이(Pinus elliotii)), 폰데로사 소나무(피너스 폰데로사(Pinus ponderosa)), 로지폴 소나무(피너스 콘토르타(Pinus contorta)), 및 몬테레이 소나무(피너스 라디아타(Pinus radiata)); 미송(슈도추가 멘지에시이(Pseudotsuga menziesii)); 미국 솔송나무(추가 카나덴시스(Tsuga canadensis)); 시트카 가문비나무(피세아 글라우카(Picea glauca)); 미국삼나무(세쿠오이아 셈페르비렌스(Sequoia sempervirens)); 전나무, 예컨대 유럽 전나무(애비스 아마빌리스(Abies amabilis)) 및 발삼 전나무(애비스 발사메아(Abies balsamea)); 및 개잎갈나무, 예컨대 미국 삼나무(투자 플리카타(Thuja plicata)) 및 알래스카 측백나무(카매사이파리스 누트카텐시스(Chamaecyparis nootkatensis))를 포함한다.
본 발명의 특정 실시형태에서, 가임성 식물은 생존 가능한 웅성 및 자성 생식세포를 생산하는 식물이며, 자가 수정한다. 이러한 자가 수정 식물은 임의의 다른 식물의 배우체 및 그 안에 포함된 유전 물질의 기여 없이 자손 식물을 생산할 수 있다. 본 발명의 다른 실시형태는 식물이 생존 가능하거나 달리 수정할 수 있는 웅성 생식체, 또는 자성 생식체, 또는 둘 다를 생성하지 않기 때문에 자가 수정하지 않는 식물의 사용이 관여될 수 있다.
본 발명은 하나 이상의 도입된 형질 또는 편집된 게놈을 포함하는 식물의 육종에 유용하다.
예를 들어, 서로 5 cM의 유전적 거리에서 두 형질이 게놈에 쌓일 수 있는 방법에 대한 비제한적인 예는 다음과 같다: 게놈 창 내의 제1 DSB 표적 부위로 통합된 제1 형질전환 표적 부위를 포함하며 제1 관심 대상 게놈 좌위를 갖지 않는 제1 식물이 게놈 창 내의 상이한 게놈 삽입 부위에 관심 대상 게놈 좌위를 포함하는 제2 형질전환 식물과 교배되고, 제2 식물은 제1 형질전환 표적 부위를 포함하지 않는다. 이 교배로부터의 식물 자손의 약 5%는 제1 DSB 표적 부위로 통합된 제1 형질전환 표적 부위 및 게놈 창 내의 상이한 게놈 삽입 부위에서 통합된 제1 관심 대상 게놈 좌위를 모두 가질 것이다. 정의된 게놈 창에서 두 부위를 모두 갖는 자손 식물은, 제2 DSB 표적 부위로 통합된 제2 형질전환 표적 부위 및/또는 정의된 게놈 창 내에 제2 관심 대상 게놈 좌위를 포함하고 제1 형질전환 표적 부위 및 제1 관심 대상 게놈 좌위가 결여된 제3 형질전환 식물과 추가로 교배될 수 있다. 그 후, 게놈 창 내의 상이한 게놈 삽입 부위에 통합된 제1 형질전환 표적 부위, 제1 관심 대상 게놈 좌위 및 제2 관심 대상 게놈 좌위를 갖는 자손이 선택된다. 이러한 방법은 DSB 표적 부위에 통합된 적어도 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 19개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개, 30개, 31개 이상의 형질전환 표적 부위 및/또는 게놈 창 내의 상이한 부위에 통합된 관심 대상 게놈 좌위를 갖는 복합 형질 좌위를 포함하는 형질전환 식물을 생산하는 데 사용될 수 있다. 이러한 방식으로, 다양한 복합 형질 좌위가 생성될 수 있다.
세포 및 동물
본 명세서에 개시된 폴리뉴클레오티드 및 폴리펩티드는 동물 세포로 도입될 수 있다. 동물 세포는 척색동물, 절지동물, 연체동물, 환형동물, 자포동물, 또는 극피동물을 비롯한 문의 유기체; 또는 포유류, 곤충류, 조류, 양서류, 파충류, 또는 어류를 비롯한 강의 유기체를 포함할 수 있지만, 이들로 제한되지 않는다. 일부 양상에서, 동물은 인간, 마우스, 예쁜꼬마선충(C. elegans), 랫트, 초파리(드로소필라(Drosophila) 종), 제브라피시, 닭, 개, 고양이, 기니피그, 햄스터, 닭, 일본 송사리, 바다칠성장어, 복어, 청개구리(예를 들어, 제노푸스(Xenopus) 종), 원숭이, 또는 침팬지이다. 고려되는 특정 세포 유형은 일배체 세포, 이배체 세포, 생식 세포, 뉴런, 근육 세포, 내분비 또는 외분비 세포, 상피 세포, 근육 세포, 종양 세포, 배아 세포, 조혈 세포, 뼈 세포, 종자 세포, 체세포, 줄기 세포, 만능 줄기 세포, 유도된 만능 줄기 세포, 전구 세포, 감수분열 세포, 및 유사분열 세포를 포함한다. 일부 양상에서, 유기체로부터의 복수의 세포가 사용될 수 있다.
개시된 신규한 Cas9 오솔로그는 다양한 방식으로 동물 세포의 게놈을 편집하는 데 사용될 수 있다. 일 양상에서, 하나 이상의 뉴클레오티드를 결실시키는 것이 바람직할 수 있다. 또 다른 양상에서, 하나 이상의 뉴클레오티드를 삽입하는 것이 바람직할 수 있다. 일 양상에서, 하나 이상의 뉴클레오티드를 교체하는 것이 바람직할 수 있다. 또 다른 양상에서, 또 다른 원자 또는 분자와의 공유 또는 비공유 상호 작용을 통해 하나 이상의 뉴클레오티드를 변형하는 것이 바람직할 수 있다.
Cas9 오솔로그를 통한 게놈 변형은 표적 유기체에서 유전자형 및/또는 표현형 변화를 가져오는 데 사용될 수 있다. 이러한 변화는 바람직하게는 개선된 관심 형질 또는 생리적으로 중요한 특징, 내인성 결함의 교정, 또는 일부 유형의 발현 마커의 발현과 관련된다. 일부 양상에서, 관심 표현형 또는 생리적으로 중요한 특징은 동물의 전반적인 건강, 적응도, 또는 가임성, 동물의 생태적 적응도, 또는 동물과 이의 환경 내의 기타 유기체의 관계 또는 상호 작용과 관련된다. 일부 양상에서, 관심 표현형 또는 생리적으로 중요한 특징은 일반 건강 개선, 질병 역전, 질병 수정, 질병 안정화, 질병 예방, 기생충 감염의 치료, 바이러스 감염의 치료, 레트로바이러스 감염의 치료, 세균 감염의 치료, 신경 장애의 치료(예를 들어, 다발 경화증, 그러나 이것으로 제한되지 않음), 내인성 유전적 결합의 교정(예를 들어:대사 장애, 연골 무형성증, 알파-1 항트립신 결핍증, 항인지질 증후군, 자폐증, 상염색체 우성 다낭성 신장 질환, 바쓰 증후군, 유방암, 샤르코-마리-투스병, 결장암, 고양이울음 증후군, 크론병, 낭성 섬유증, 델컴병, 다운증후군, 듀안증후군, 뒤시엔느 근위축증, 인자 V 레이든 혈전성향증, 가족성 고콜레스테롤혈증, 가족성 지중해 열, 여린 X 증후군, 고셔병, 혈색소증, 혈우병, 전전뇌증, 헌팅턴병, 클라인펠터 증후군, 마르팡 증후군, 근긴장 디스트로피, 신경섬유종증, 누난증후군, 불완전뼈형성, 파킨슨병, 페닐케톤뇨증, 폴란드 이상, 포르피린증, 조로증, 전립선암, 색소성 망막염, 중증 복합 면역결핍증(SCID), 겸상적혈구질환, 피부암, 척수근위축증, 테이 삭스, 지중해 빈혈, 트리메틸아민뇨증, 터너증후군, 구개심장안면증후군, WAGR 증후군, 및 윌슨병, 그러나 이것으로 제한되지 않음), 선천 면역 장애(예를 들어, 면역글로불린 하위클래스 결핍증, 그러나 이것으로 제한되지 않음)의 치료, 후천 면역 장애(예를 들어, AIDS 및 기타 HIV 관련 장애, 그러나 이것으로 제한되지 않음)의 치료, 암 치료 및 기타 방법을 이용한 효과적인 치료 옵션을 피한, 희귀하거나 "지원이 없는(orphan)" 병태를 포함하는 질병의 치료로 구성된 군으로부터 선택된다.
본 명세서에 개시된 조성물 또는 방법을 이용하여 유전적으로 변형된 세포는, 유전자 치료법과 같은 목적을 위하여, 예를 들어, 질병을 치료하기 위하여, 또는 항바이러스성, 항병원성, 또는 항암 치료제로서, 농업에서 유전자 변형 유기체의 생산을 위하여, 또는 생물학적 연구를 위하여, 대상체에게 이식될 수 있다.
시험관 내 폴리뉴클레오티드 검출, 결합, 및 변형
본 명세서에 개시된 조성물은 시험관 내 방법에서 사용하기 위하여, 일부 양상에서 단리된 폴리뉴클레오티드 서열(들)과 함께, 조성물로서 추가로 이용될 수 있다. 상기 단리된 폴리뉴클레오티드 서열(들)은 변형을 위하여 하나 이상의 표적 서열(들)을 포함할 수 있다. 일부 양상에서, 상기 단리된 폴리뉴클레오티드 서열(들)은 게놈 DNA, PCR 생성물, 또는 합성된 올리고뉴클레오티드일 수 있다.
조성물
표적 서열의 변형은 뉴클레오티드 삽입, 뉴클레오티드 결실, 뉴클레오티드 치환, 기존 뉴클레오티드에 대한 원자 분자의 첨가, 뉴클레오티드 변형, 또는 상기 표적 서열에 대한 이종성 폴리뉴클레오티드 또는 폴리펩티드의 결합의 형태일 수 있다. 하나 이상의 뉴클레오티드의 삽입은 반응 혼합물에 공여자 폴리뉴클레오티드를 포함시켜 달성될 수 있다: 상기 공여자 폴리뉴클레오티드는 상기 Cas-알파 오솔로그 폴리펩티드에 의해 생성된 이중 가닥 절단 내로 삽입된다. 삽입은 비상동성 말단 결합 또는 상동 재조합을 통해 이루어질 수 있다.
일 양상에서, 표적 폴리뉴클레오티드의 서열은 변형 전에 알려져 있으며, Cas-알파 오솔로그를 처리하여 생성되는 폴리뉴클레오티드(들)의 서열(들)과 비교된다. 일 양상에서, 표적 폴리뉴클레오티드의 서열은 변형 전에 알려지지 않았고, Cas-알파 오솔로그 처리는 상기 표적 폴리뉴클레오티드의 서열을 결정하는 방법의 일부로서 사용된다.
Cas-알파 오솔로그를 이용한 폴리뉴클레오티드 변형은 Cas 좌위, 또는 Cas 좌위로부터 확인된 폴리펩티드의 단편, 변형, 또는 변이체로부터 확인된 전장 폴리펩티드의 사용에 의해 달성될 수 있다. 일부 양상에서, 상기 Cas-알파 오솔로그는 표 1에 열거된 유기체로부터 수득되거나 유래된다. 일부 양상에서, 상기 Cas-알파 오솔로그는 서열번호 86 내지 170 또는 511 내지 1135 중 임의의 것과 적어도 80%의 동일성을 공유하는 폴리펩티드이다. 일부 양상에서, 상기 Cas-알파 오솔로그는 서열번호 86 내지 170 또는 511 내지 1135 중 임의의 것의 기능성 변이체이다. 일부 양상에서, 상기 Cas-알파 오솔로그는 서열번호 86 내지 170 또는 511 내지 1135 중 임의의 것의 기능성 단편이다. 일부 양상에서, 상기 Cas-알파 오솔로그는 서열번호 86 내지 170 또는 511 내지 1135로 구성된 군으로부터 선택된 폴리뉴클레오티드에 의해 암호화된 Cas-알파 폴리펩티드이다. 일부 양상에서, 상기 Cas-알파 오솔로그는 표 4 내지 83 중 임의의 표에 열거된 PAM 서열을 인식하는 Cas-알파 폴리펩티드이다. 일부 양상에서, 상기 Cas-알파 오솔로그는 서열목록에 열거된 유기체로부터 확인된 Cas-알파 폴리펩티드이다.
일부 양상에서, Cas-알파 오솔로그는 Cas-알파 폴리뉴클레오티드로서 제공된다. 일부 양상에서, 상기 Cas-알파 폴리뉴클레오티드는 다음으로 구성된 군으로부터 선택된다: 서열번호 1 내지 85, 또는 서열번호 1 내지 85 중 임의의 하나와 적어도 80%, 85%, 90%, 95%, 97%, 99%, 또는 100%를 공유하는 서열.
일부 양상에서, Cas-알파 오솔로그는 비변형된 야생형 Cas-알파 오솔로그, 기능성 Cas-알파 오솔로그 변이체, 기능성 Cas-알파 오솔로그 단편, 활성 또는 탈활성화된 Cas-알파 오솔로그를 포함하는 융합 단백질, C 말단 또는 N 말단 또는 N 말단과 C 말단 모두에 하나 이상의 핵 국재화 서열(NLS)을 더 포함하는 Cas-알파 오솔로그, 비오틴 부착된 Cas-알파 오솔로그, Cas-알파 오솔로그 틈내기효소, Cas-알파 오솔로그 엔도뉴클레아제, 히스티딘 태그를 더 포함하는 Cas-알파 오솔로그, 및 전술한 것들의 임의의 두 가지 이상의 혼합물로 이루어진 군으로부터 선택될 수 있다.
일부 양상에서, Cas-알파 오솔로그는 뉴클레아제 도메인, 전사 활성인자 도메인, 전사 억제인자 도메인, 후성 변형 도메인, 절단 도메인, 핵 국재화 신호, 세포 투과성 도메인, 전위 도메인, 마커, 또는 표적 뉴클레오티드 서열 또는 상기 표적 폴리뉴클레오티드 서열이 수득되거나 유래되는 세포에 대해 이종성인 이식유전자를 더 포함하는 융합 단백질이다.
일부 양상에서, 복수의 Cas-알파 오솔로그가 바람직할 수 있다. 일부 양상에서, 상기 복수는 상이한 근원 유기체로부터, 또는 동일한 유기체 내의 상이한 좌위로부터 유래된 Cas-알파 오솔로그를 포함할 수 있다. 일부 양상에서, 상기 복수는 표적 폴리뉴클레오티드에 대해 상이한 결합 특이성을 갖는 Cas-알파 오솔로그를 포함할 수 있다. 일부 양상에서, 상기 복수는 상이한 절단 효율성을 갖는 Cas-알파 오솔로그를 포함할 수 있다. 일부 양상에서, 상기 복수는 상이한 PAM 특이성을 갖는 Cas-알파 오솔로그를 포함할 수 있다. 일부 양상에서, 상기 복수는 상이한 분자 조성의 오솔로그, 즉, 폴리뉴클레오티드 Cas-알파 오솔로그 및 폴리펩티드 Cas-알파 오솔로그를 포함할 수 있다.
가이드 폴리뉴클레오티드는 단일 가이드 RNA(sgRNA), tracrRNA를 포함하는 키메라 분자, crRNA를 포함하는 키메라 분자, 키메라 RNA-DNA 분자, DNA 분자, 또는 하나 이상의 화학적으로 변형된 뉴클레오티드를 포함하는 폴리뉴클레오티드로서 제공될 수 있다.
Cas-알파 오솔로그 및/또는 가이드 폴리뉴클레오티드의 저장 조건은 온도, 물질 상태, 및 시간에 대한 파라미터를 포함한다. 일부 양상에서, Cas-알파 오솔로그 및/또는 가이드 폴리뉴클레오티드는 약 -80℃, 약 -20℃, 약 4℃, 약 20 내지 25℃, 또는 약 37℃에서 저장된다. 일부 양상에서, Cas-알파 오솔로그 및/또는 가이드 폴리뉴클레오티드는 액체, 냉동 액체, 또는 동결건조 분말로서 저장된다. 일부 양상에서, Cas-알파 오솔로그 및/또는 가이드 폴리뉴클레오티드는 적어도 1일, 적어도 1주일, 적어도 1개월, 적어도 1년, 또는 심지어 1년 넘게 안정적이다.
반응의 일체의 가능성 있는 폴리뉴클레오티드 성분(예를 들어, 가이드 폴리뉴클레오티드, 공여자 폴리뉴클레오티드, 선택적으로 Cas-알파 폴리뉴클레오티드)은 벡터, 작제물, 선형 또는 원형 플라스미드의 일부로서, 또는 키메라 분자의 일부로서 제공될 수 있다. 각각의 성분은 개별적으로 또는 함께 반응 혼합물에 제공될 수 있다. 일부 양상에서, 폴리뉴클레오티드 성분들 중 하나 이상이, 발현을 조절하는 이종성 비암호화 조절 요소에 대해 작동 가능하게 연결된다.
표적 폴리뉴클레오티드의 변형 방법은 Cas-알파 오솔로그(또는 변이체, 단편, 또는 기타 위에 기재된 바와 같은 관련 분자), 표적 폴리뉴클레오티드의 표적 폴리뉴클레오티드 서열에 대해 실질적으로 상보성이거나 이에 선택적으로 혼성화하는 서열을 포함하는 가이드 폴리뉴클레오티드, 및 변형을 위한 표적 폴리뉴클레오티드를 포함하는 반응 혼합물에 최소 요소를 조합하는 단계를 포함한다. 일부 양상에서, Cas-알파 오솔로그는 폴리펩티드로서 제공된다. 일부 양상에서, Cas-알파 오솔로그는 Cas-알파 오솔로그 폴리뉴클레오티드로서 제공된다. 일부 양상에서, 가이드 폴리뉴클레오티드는 RNA 분자, DNA 분자, RNA:DNA 혼성체, 또는 화학적으로 변형된 뉴클레오티드를 포함하는 폴리뉴클레오티드 분자로서 제공된다.
성분 중 임의의 하나의 저장 완충제, 또는 반응 혼합물은 안정성, 효능, 또는 기타 파라미터에 대해 최적화될 수 있다. 저장 완충제 또는 반응 혼합물의 추가 성분은 완충제 조성물, 트리스, EDTA, 디티오트레이톨(DTT), 인산염 완충 식염수(PBS), 염화나트륨, 염화마그네슘, HEPES, 글리세롤, BSA, 염, 유화제, 세제, 킬레이트제, 산화환원 시약, 항체, 뉴클레아제 불포함 물, 프로테이나제, 및/또는 점성제를 포함할 수 있다. 일부 양상에서, 저장 완충제 또는 반응 혼합물은 다음 성분 중 적어도 하나를 갖는 완충 용액을 추가로 포함한다: HEPES, MgCl2, NaCl, EDTA, 프로테이나제, 프로테이나제 K, 글리세롤, 뉴클레아제 불포함 물.
인큐베이션 조건은 원하는 결과에 따라 달라질 것이다. 온도는 바람직하게는 적어도 10℃, 10 내지 15℃, 적어도 15℃, 15 내지 17℃, 적어도 17℃, 17 내지 20℃, 적어도 20℃, 20 내지 22℃, 적어도 22℃, 22 내지 25℃, 적어도 25℃, 25 내지 27℃, 적어도 27℃, 27 내지 30℃, 적어도 30℃, 30 내지 32℃, 적어도 32℃, 32 내지 35℃, 적어도 35℃, 적어도 36℃, 적어도 37℃, 적어도 38℃, 적어도 39℃, 적어도 40℃, 또는 심지어 40℃ 초과이다. 인큐베이션 시간은 적어도 1분, 적어도 2분, 적어도 3분, 적어도 4분, 적어도 5분, 적어도 6분, 적어도 7분, 적어도 8분, 적어도 9분, 적어도 10분, 또는 심지어 10분 초과이다.
인큐베이션 전에, 인큐베이션 동안에, 또는 인큐베이션 후의 반응 혼합물의 폴리뉴클레오티드(들)의 서열(들)은 당업계에 공지된 임의의 방법에 의해 결정될 수 있다. 일 양상에서, 표적 폴리뉴클레오티드의 변형은, Cas-알파 오솔로그와 조합하기 전에 반응 혼합물로부터 정제된 폴리뉴클레오티드(들)의 서열(들)을 표적 폴리뉴클레오티드의 서열과 비교함으로써 확인될 수 있다.
시험관 내 또는 생체 내 폴리뉴클레오티드 검출, 결합 및/또는 변형에 유용한, 본 명세서에 개시된 임의의 하나 이상의 조성물이 키트 내에 포함될 수 있다. 키트는 Cas-알파 오솔로그 또는 이를 암호화하는 폴리뉴클레오티드 Cas-알파 오솔로그를 포함하며, 선택적으로 효율적인 저장을 가능하게 하는 완충 성분, 및 상기 Cas-알파 오솔로그 또는 Cas-알파 오솔로그를 이종성 폴리뉴클레오티드에 도입할 수 있게 하는 하나 이상의 추가 조성물을 더 포함하며, 상기 Cas-알파 오솔로그 또는 Cas-알파 오솔로그는 상기 이종성 폴리뉴클레오티드의 적어도 하나의 뉴클레오티드의 변형, 첨가, 결실, 또는 치환을 초래할 수 있다. 추가 양상에서, 본 명세서에 개시된 Cas-알파 오솔로그는 혼합 풀로부터 하나 이상의 폴리뉴클레오티드 표적 서열의 농축을 위해 사용될 수 있다. 추가 양태에서, 본 명세서에 개시된 Cas-알파 오솔로그는 시험관 내 표적 폴리뉴클레오티드 검출, 결합 및/또는 변형에 사용하기 위하여 매트릭스 상에 고정될 수 있다.
Cas-알파 엔도뉴클레아제는 저장, 정제 및/또는 특성규명 목적을 위해 고체 매트릭스에 부착되거나, 연합되거나, 고정될 수 있다. 고체 매트릭스의 예는 필터, 크로마토그래피 수지, 분석 플레이트, 시험관, 극저온 바이알 등을 포함하지만, 이들로 제한되지 않는다. Cas-알파 엔도뉴클레아제는 실질적으로 정제되고, 적절한 완충제 용액에 저장되거나, 동결건조될 수 있다.
검출 방법
표적 폴리뉴클레오티드에 결합된 Cas-알파:가이드 폴리뉴클레오티드 복합체를 검출하는 방법은 현미경, 크로마토그래피 분리, 전기영동, 면역침전, 여과, 나노포어 분리, 마이크로어레이 및 이하에 기재되는 것들을 포함하지만, 이들로 제한되지 않는 당업계에 공지된 임의의 것을 포함할 수 있다.
DNA 전기영동 이동성 이동 분석(EMSA): 공지된 DNA 올리고뉴클레오티드 프로브에 결합하는 단백질을 연구하고 상호 작용의 특이성을 평가한다. 상기 기법은 단백질-DNA 복합체가 폴리아크릴아미드 또는 아가로스 겔 전기영동을 수행할 때 유리 DNA 분자보다 더 느리게 이동한다는 원리를 기반으로 한다. 단백질 결합 시 DNA 이동 속도가 지연되기 때문에, 이 분석을 겔 지연 분석이라고도 한다. 결합 성분에 단백질 특이적 항체를 추가하면 훨씬 더 큰 복합체(항체-단백질-DNA)가 생성되며, 이는 전기영동 중에 훨씬 더 느리게 이동하는데, 이는 초이동으로 알려져 있고, 단백질 정체를 확인하는 데 사용될 수 있다.
DNA 풀 다운(DNA Pull-down) 분석은 비오틴과 같은 고친화도 태그가 표지된 DNA 프로브를 사용하는데, 이는 프로브가 회수되거나 고정될 수 있게 한다. DNA 프로브는 EMSA에서 사용되는 것과 유사한 반응으로 세포 용해물의 단백질과 복합체를 형성한 다음, 아가로스 또는 자성 비드를 사용하여 복합체를 정제하는 데 사용될 수 있다. 그런 다음 단백질을 DNA로부터 용리시키고, 웨스턴 블롯으로 검출하거나 질량 분석법으로 확인한다. 대안적으로, 단백질을 친화성 태그로 표지하거나 DNA-단백질 복합체를 (초이동 분석법과 유사한) 관심 대상의 단백질에 대한 항체를 사용하여 단리할 수 있다. 이 경우, 단백질이 결합된 미지의 DNA 염기 서열이 서던 블롯팅 또는 PCR 분석을 통해 검출된다.
리포터 분석은 관심 프로모터에 대한 번역 활성의 실시간 생체 내 판독치를 제공한다. 리포터 유전자는 표적 프로모터 DNA 서열 및 연구자가 맞춤 제작한 리포터 유전자 DNA 서열의 융합체이며, DNA 서열은 반딧불이/레닐라 루시퍼라제 또는 알칼리성 포스파타제와 같은 검출 가능한 특성을 갖는 단백질을 암호화한다. 이러한 유전자는 관심 프로모터가 활성화될 때에만 효소를 생성한다. 효소는 결과적으로 기질을 촉매하여 분광 기기로 감지될 수 있는 빛 또는 색 변화를 생성한다. 리포터 유전자로부터의 신호는 동일한 프로모터에서 유도된 내인성 단백질의 번역을 위한 간접 결정인자로서 사용된다.
마이크로플레이트 포획 및 검출 분석은 고정된 DNA 프로브를 사용하여 특이적인 단백질-DNA 상호 작용을 포획하고, 단백질 정체성 및 표적 특이적 항체와의 상대적인 양을 확인한다. 전형적으로, DNA 프로브는 스트렙타비딘으로 코팅된 96 또는 384 웰 마이크로플레이트의 표면에 고정된다. 세포 추출물을 제조하고, 결합 단백질이 올리고뉴클레오티드에 결합할 수 있도록 첨가한다. 그런 다음, 추출물을 제거하고, 각 웰을 여러 차례 세척하여 비특이적으로 결합된 단백질을 제거한다. 마지막으로, 검출용으로 표지된 특이적인 항체를 이용하여 단백질을 검출한다. 이 방법은 매우 민감하여, 웰당 0.2 pg 미만의 표적 단백질을 검출할 수 있다. 이 방법은 또한 아민 반응성 표면 화학으로 코팅된 마이크로플레이트에 고정될 수 있는 1차 아민과 같은 다른 태그로 표지된 올리고뉴클레오티드에 사용될 수 있다.
DNA 족문분석은 살아 있는 세포 내부에서도 단백질-DNA 복합체의 개별 뉴클레오티드에 대한 자세한 정보를 얻기 위해 가장 널리 사용되는 방법 중 하나이다. 이러한 실험에서, 화학물질이나 효소는 DNA 분자를 변형하거나 소화시키는 데 사용된다. 서열 특이적 단백질이 DNA에 결합할 때, 이들은 변형이나 소화로부터 결합 부위를 보호할 수 있다. 이어서, 이는 보호되지 않은 DNA가 무작위로 다소간 절단되는 겔 전기영동을 변성시킴으로써 시각화될 수 있다. 따라서, 이는 밴드의 '사다리'로 나타나고, 단백질에 의해 보호되는 부위에는 대응하는 밴드가 없으며, 밴드 패턴의 족문처럼 보인다. 그렇게 하여 족문은 단백질-DNA 결합 부위에서 특이적인 뉴클레오시드를 확인한다.
현미경 기법은 광학, 형광, 전자 및 원자력 현미경(AFM)을 포함한다.
염색질 면역침전 분석(ChIP)은 단백질이 그들의 DNA 표적에 공유적으로 결합하게 하는데, 그 후, 단백질은 연결 해제되고 별도로 특성화된다.
지수적 농축에 의한 리간드의 체계적 진화(SELEX)는 표적 단백질을 올리고뉴클레오티드의 무작위 라이브러리에 노출시킨다. 결합하는 유전자는 PCR에 의해 분리되고 증폭된다.
본 명세서에 제공된 방법 및 조성물은 다음의 양상을 포함하지만, 이들로 제한되지 않는다.
양상 1: 합성 조성물로서, (a) 가이드 폴리뉴클레오티드; (b) 브리지 나선 및 적어도 하나의 아연-핑거 도메인을 더 포함하는 C-말단의 삼중-분할 RuvC 도메인, 알파 나선 다발 및 쐐기-유사 도메인을 형성하는 복수의 베타 시트를 포함하는 Cas 엔도뉴클레아제로서, 길이가 650개 미만의 아미노산인, Cas 엔도뉴클레아제; 및 (c) 가이드 폴리뉴클레오티드와 상보성을 공유하는 뉴클레오티드 서열을 포함하는 표적 서열을 포함하되, 상기 가이드 폴리뉴클레오티드와 상기 Cas 엔도뉴클레아제는 상기 표적 서열을 포함하는 이중가닥 DNA 폴리뉴클레오티드를 절단하는 복합체를 형성하는, 합성 조성물.
양상 2: 합성 조성물로서, (a) 가이드 폴리뉴클레오티드; (b) 고세균, 미크라르카에오타, 아시디바실러스 설푸록시단스, 칸디다투스 아우레아박테리아 박테리움, 칸디다투스 미크라르카에오타 고세균, 클루스트리듐 노비, 파라게오바실러스 써모글루코시다시우스, 루미노코커스 종 및 신트로포모나스 팔미타티카로 이루어진 군으로부터 선택된 분류의 유기체로부터 유래된 Cas 엔도뉴클레아제로서, 상기 가이드 폴리뉴클레오티드와의 복합체를 형성하는, Cas 엔도뉴클레아제; 및 (c) 상기 가이드 폴리뉴클레오티드에 결합하는 표적 서열을 포함하는 이중-가닥 DNA 폴리뉴클레오티드를 포함하되, 상기 가이드 폴리뉴클레오티드와 상기 Cas 엔도뉴클레아제는 상기 표적 서열을 포함하는 상기 이중가닥 DNA 폴리뉴클레오티드를 절단하는 복합체를 형성하는, 합성 조성물.
양상 3: 양상 1 또는 양상 2에 있어서, 상기 Cas 엔도뉴클레아제는 N-말단 근처에 아연-핑거 도메인을 더 포함하는, 합성 조성물.
양상 4: 양상 1 또는 양상 2에 있어서, 상기 이중-가닥 DNA 폴리뉴클레오티드는 PAM을 더 포함하는, 합성 조성물.
양상 5: 양상 4에 있어서, 상기 PAM은 복수의 티민 뉴클레오티드를 포함하는, 합성 조성물.
양상 6: 양상 1 또는 양상 2에 있어서, 이종성 폴리뉴클레오티드를 더 포함하는, 합성 조성물.
양상 7: 양상 1 또는 양상 2에 있어서, 상기 가이드 폴리뉴클레오티드는 상기 표적 서열과 상보성의 20개의 뉴클레오티드 영역을 포함하는, 합성 조성물.
양상 8: 양상 1 또는 양상 2에 있어서, 상기 가이드 폴리뉴클레오티드는 tracrRNA 및 crRNA를 포함하는 이중나선 분자인, 합성 조성물.
양상 9: 양상 1 또는 양상 2에 있어서, 상기 가이드 폴리뉴클레오티드는 Cas 엔도뉴클레아제 인식 도메인 및 가변 표적화 도메인을 포함하는 단일 가이드 폴리뉴클레오티드인, 합성 조성물.
양상 10: 양상 6에 있어서, 상기 이종성 폴리뉴클레오티드는 발현 요소인, 합성 조성물.
양상 11: 양상 6에 있어서, 상기 이종성 폴리뉴클레오티드는 이식유전자인, 합성 조성물.
양상 12: 양상 6에 있어서, 상기 이종성 폴리뉴클레오티드는 공여자 DNA 분자인, 합성 조성물.
양상 13: 양상 6에 있어서, 상기 이종성 폴리뉴클레오티드는 폴리뉴클레오티드 변형 주형인, 합성 조성물.
양상 14: 양상 1 또는 양상 2에 있어서, 상기 CRISPR-Cas 엔도뉴클레아제는 핵 국재화 신호를 더 포함하는, 합성 조성물.
양상 15: 양상 1 또는 양상 2에 있어서, 상기 CRISPR-Cas 엔도뉴클레아제는 Cas-알파, 또는 이의 기능성 단편인, 합성 조성물.
양상 16: 양상 1 또는 양상 2에 있어서, 상기 CRISPR-Cas 엔도뉴클레아제는 촉매적으로 비활성인 Cas-알파인, 합성 조성물.
양상 17: 양상 1 또는 양상 2에 있어서, 상기 CRISPR-Cas 엔도뉴클레아제는 Cas-알파의 기능성 단편을 포함하는 융합 단백질인, 합성 조성물.
양상 18: 양상 17에 있어서, 상기 융합 단백질은 다른 뉴클레아제 도메인을 더 포함하는, 합성 조성물.
양상 19: 양상 1 또는 양상 2에 있어서, 적어도 하나의 추가적인 폴리펩티드를 더 포함하는, 합성 조성물.
양상 20: 양상 19에 있어서, 상기 추가적인 폴리펩티드는 Cas1, Cas2 및 Cas4로 이루어진 군으로부터 선택되는, 합성 조성물.
양상 21: 양상 1 또는 양상 2에 있어서, 세포를 더 포함하는, 합성 조성물.
양상 22: 양상 21에 있어서, 상기 세포는 진핵 세포인, 합성 조성물.
양상 23: 양상 21에 있어서, 상기 세포는 식물 세포인, 합성 조성물.
양상 24: 양상 23에 있어서, 상기 식물 세포는 외떡잎식물 세포 또는 쌍떡잎식물 세포인, 합성 조성물.
양상 25: 양상 23에 있어서, 상기 식물 세포는 메이즈, 대두, 목화, 밀, 카놀라, 유채씨, 수수, 벼, 호밀, 보리, 조, 귀리, 사탕수수, 잔디풀, 스위치그래스, 알팔파, 해바라기, 담배, 땅콩, 감자, 애기장대, 잇꽃 및 토마토로 이루어진 군으로부터 선택된 유기체로부터 유래된, 합성 조성물.
양상 26: 양상 21에 있어서, 세포 게놈에서 표적 서열에 대해 실질적으로 상보성인 가변 표적화 도메인을 포함하는 가이드 폴리뉴클레오티드를 더 포함하는, 합성 조성물.
양상 27: 양상 1 또는 양상 2의 합성 조성물을 암호화하는 폴리뉴클레오티드.
양상 28: 양상 27에 있어서, 적어도 하나의 추가적인 폴리뉴클레오티드를 더 포함하는, 폴리뉴클레오티드.
양상 29: 양상 28에 있어서, 상기 적어도 하나의 추가적인 폴리뉴클레오티드는 발현 요소인, 폴리뉴클레오티드.
양상 30: 양상 28에 있어서, 상기 적어도 하나의 추가적인 폴리뉴클레오티드는 유전자인, 폴리뉴클레오티드.
양상 31: 양상 30에 있어서, 상기 유전자는 cas1, cas2 및 cas4로 이루어진 군으로부터 선택된, 합성 조성물.
양상 32: 양상 28에 있어서, 적어도 하나의 폴리뉴클레오티드는 재조합 작제물 내에 포함된, 폴리뉴클레오티드.
양상 33: 양상 1 또는 양상 2에 있어서, 적어도 하나의 성분은 고체 매트릭스에 부착되는, 합성 조성물.
양상 34: 합성 조성물로서, 표적 이중-가닥 DNA 폴리뉴클레오티드, 이중-가닥 DNA 폴리뉴클레오티드 내 서열에 상보성인 가이드 폴리뉴클레오티드, 및 서열번호 17, 18, 19, 20, 32, 33, 34, 35, 36, 37 및 38로 이루어진 군으로부터 선택된 서열에 대해 적어도 80% 동일한 Cas 엔도뉴클레아제, 또는 이의 기능성 단편 또는 변이체를 포함하는, 합성 조성물.
양상 35: 합성 조성물로서, 표적 이중-가닥 DNA 폴리뉴클레오티드, 이중-가닥 DNA 폴리뉴클레오티드 내 서열에 상보성인 가이드 폴리뉴클레오티드를 암호화하는 폴리뉴클레오티드, 및 서열번호 13, 14, 15, 16, 25, 26, 27, 28, 29, 30 및 31로 이루어진 군으로부터 선택된 서열에 대해 적어도 80% 동일한 cas 엔도뉴클레아제 유전자, 또는 이의 기능성 단편 또는 변이체를 포함하는, 합성 조성물.
양상 36: 세포 게놈 내 표적 서열에 부위-특이적 변형을 도입하는 방법으로서, 양상 1 내지 35 중 어느 것으로부터의 합성 조성물에 세포를 도입하는 단계를 포함하는, 방법.
양상 37: 변형된 게놈을 갖는 유기체의 생산 방법으로서, (a) i. Cas-알파 엔도뉴클레아제 또는 Cas-알파 엔도뉴클레아제를 암호화하는 cas-알파 폴리뉴클레오티드, ii. 세포 게놈 내 표적 서열에 실질적으로 상보성인 가변 표적화 도메인을 포함하는 가이드 폴리뉴클레오티드, iii. 및 Cas-알파 복합체에 의해 인식되는 DNA 표적 서열에 인접한 PAM 서열에 상보성인 적어도 하나의 영역을 포함하는 폴리뉴클레오티드 변형 주형을 포함하는 이종성 조성물을 상기 유기체의 적어도 하나의 세포에 도입하는 단계로서, 상기 가이드 폴리뉴클레오티드 및 Cas-알파 엔도뉴클레아제는 상기 표적 서열을 인식하고, 이에 결합하고, 선택적으로 틈내기하거나 절단하는 복합체를 형성할 수 있고, PAM 서열에 대응하는 상기 적어도 하나의 영역은 적어도 하나의 뉴클레오티드 미스매치를 포함하는, 단계; (b) 상기 세포를 배양시키는 단계, (c) 상기 세포로부터 전체 유기체를 생성하는 단계, 및 (d) (a)의 상기 이종성 조성물의 도입 전의 상기 세포 게놈의 표적 서열에 비해 상기 유기체의 적어도 하나의 세포 게놈에서의 적어도 하나의 뉴클레오티드 변형을 입증하는 단계를 포함하는, 방법.
양상 38: 양상 36 또는 37에 있어서, 상기 세포는 진핵 세포인, 방법.
양상 39: 양상 38에 있어서, 상기 진핵 세포는 동물 또는 식물로부터 유래되거나 얻어지는, 방법.
양상 40: 양상 39에 있어서, 상기 식물은 외떡잎식물 또는 쌍떡잎식물인, 방법.
양상 41: 양상 39에 있어서, 상기 식물은 메이즈, 대두, 목화, 밀, 카놀라, 유채씨, 수수, 벼, 호밀, 보리, 조, 귀리, 사탕수수, 잔디풀, 스위치그래스, 알팔파, 해바라기, 담배, 땅콩, 감자, 애기장대, 잇꽃 및 토마토로 이루어진 군으로부터 선택된, 방법.
양상 42: 양상 36 또는 37에 있어서, 이종성 폴리뉴클레오티드를 도입하는 단계를 더 포함하는, 방법.
양상 43: 양상 42에 있어서, 상기 이종성 폴리뉴클레오티드는 공여자 DNA 분자인, 방법.
양상 44: 양상 42에 있어서, 상기 이종성 폴리뉴클레오티드는 상기 세포 내 서열에 대해 적어도 50% 동일한 서열을 포함하는 폴리뉴클레오티드 변형 주형인, 방법.
양상 45: 양상 37의 방법에 의해 얻은 유기체의 자손으로서, 적어도 하나의 세포에 적어도 하나의 뉴클레오티드 변형을 보유하는, 자손.
양상 46: 표적 세포의 게놈 서열을 변형하는 방법으로서, 서열번호 17, 18, 19, 20, 32, 33, 34, 35, 36, 37 및 38 중 하나에 대해 적어도 95% 내지 100% 동일한 아미노산 서열을 포함하는 Cas 엔도뉴클레아제 및 상기 표적 세포의 게놈 서열을 표적화하는 가이드 폴리뉴클레오티드를 제공하는 단계; 및 상기 표적 세포의 게놈 서열에 이중-가닥 파손을 도입하여, 상기 표적 세포의 상기 게놈 서열을 변형시키는 단계를 포함하는, 방법.
본 발명은 특히 바람직한 실시형태 및 다양한 대안적인 실시형태를 참조하여 제시되고 기재되었지만, 관련 분야의 숙련가는 본 발명의 사상 및 범위를 벗어나지 않고 형태 및 세부 사항의 다양한 변경이 이루어질 수 있음을 이해할 것이다. 예를 들어, 이하의 특정 실시예는 특이적 표적 부위 또는 표적 유기체를 이용하여 본 명세서에 기재된 방법 및 실시형태를 예시할 수 있지만, 이들 실시예의 원칙은 임의의 표적 부위 또는 표적 유기체에 적용될 수 있다. 따라서, 본 발명의 범위는 아래에 예시된 특정 실시예가 아니라 본 명세서에 인용된 발명의 실시형태 및 본 명세서에 포함된다는 것을 이해할 것이다. 본 출원에서 언급된 모든 인용된 특허, 출원 및 간행물은 각각이 개별적으로 그리고 구체적으로 참조로 포함된 것과 동일한 정도로 모든 목적을 위해 그 전체가 참조로 본 명세서에 포함된다.
실시예
다음은 본 발명의 일부 양상의 특정 실시형태의 예시이다. 실시예는 예시의 목적으로만 제공되며, 어떠한 방식으로든 본 발명의 범위를 제한하려는 것이 아니다. 사용된 숫자(예를 들어, 양, 온도 등)와 관련하여 정확성을 보장하기 위해 노력했지만, 일부 실험 오차와 편차는 물론 허용될 것이다.
실시예 1: 신규한 클래스 Cas-알파 CRISPR-Cas 시스템의 확인 및 특성규명
본 실시예에서, 오페론-유사 유전자 구조 및 단백질 구조 분석의 확인을 이용하여 신규한 클래스 2 CRISPR(규칙적 간격으로 분포하는 회문구조의 짧은 반복부)-Cas(CRISPR 연합) 좌위를 확인하는 방법을 기재한다.
우선, PILER-CR(Edgar, R. (2007) BMC Bioinformatics, 8:18) 및 MinCED(Bland, C. et al. (2007) BMC Bioinformatics, 8:209) 소프트웨어 프로그램을 이용하여 미생물 서열 내에서 CRISPR 어레이를 검출하였다. 다음에, 문헌[Makarova, K. et al. (2015) Nature Reviews Microbiology, 13:722-736]에 기재된 바와 같은 모든 공지된 Cas 단백질 패밀리를 포괄하는 위치 특이적 점수화 매트릭스(PSSM)의 세트를 이용하여 공지된 CRISPR 연합(Cas) 단백질과의 상동성에 대해 CRISPR 어레이 근처(20 kb 5' 및 20 kb 3'(가능한 경우))에서 암호화된 단백질을 검색함으로써 데이터세트로부터 공지된 CRISPR-Cas 시스템을 제거하였다. 공지된 클래스 2 CRISPR-Cas 시스템의 완전한 제거를 돕기 위해, MUSCLE를 이용하여 클래스 2 CRISPR-Cas 엔도뉴클레아제(예를 들어, Cas9, Cpf1(Cas12a), C2c1(Cas12b), C2c2(Cas13), C2c3(Cas12c))의 각 패밀리로부터의 오솔로그 수집으로부터 단백질 서열의 다중-서열 정렬을 수행하였다(Edgar R. (2004) Nucleic Acids Res. 32:1792-1797). HMMER를 이용하여 프로파일 은닉 마르코프 모델(hidden Markov model: HMM)을 구성하기 위해 정렬을 시험, 보조 및 사용하였다(Eddy, S.R. (1998) Bioinformatics. 14:755-763; Eddy, S.R. (2011) PLoS Comp. Biol.,7:e1002195). 이어서, 얻어진 HMM 모델을 이용하여 데이터세트로부터 공지된 클래스 2 CRISPR-Cas 시스템을 추가로 확인하고 제거하였다. 다음에, 상기 기재한 PSSM 특이적 검색을 이용하여, 스페이서 삽입 및 적응에 중요하게 관련된 단백질인 Cas1 및 Cas2를 암호화하는 유전자의 존재에 대해 남아있는 CRISPR 좌위를 평가하였다(Makarova, K. et al. (2015) Nature Reviews Microbiology, 13:722-736). 이어서, cas1 및 cas2 유전자를 포함하는 CRISPR 좌위를 선택하고, cas1 및 cas2 유전자 및 CRISPR 어레이에 대한 좌위에서 암호화된 정의되지 않은 유전자의 근접함, 순서 및 방향성을 결정하기 위해 추가로 시험하였다. cas1 및 cas2 유전자에 가깝고 동일한 거대한(1500 bp 이상의 오픈-리딩 프레임) 정의되지 않은 유전자가 존재하는 오페론-유사 구조를 형성하는 해당 CRISPR 좌위만을 추가 분석을 위해 선택하였다. 다음에, DNA를 절단할 수 있는 클래스 2 엔도뉴클레아제를 나타내는 서열 및 구조적 특징에 대해 정의되지 않은 유전자에서 암호화된 단백질을 분석하였다. 처음에, 후보 서열과 공지된 단백질 사이에 유사성이 얼마나 존재하는지에 따라서, 쌍별 비교로부터 패밀리 프로파일 검색, 구조적 스레딩(threading) 그리고 수동에 의한 구조 검사까지의 다양한 생물정보학 도구를 사용하여 이의 보존된 기능성 특징을 나타내었다. 일반적으로, 컷 오프 e-값이 0.01인 미국 국립생물정보센터(NCBI) 비-여분(non-redundant: NR) 단백질 수집에 대한 PSI-BLAST(Altschul, S. F. et al. (1997) Nucleic Acids Res. 25:3389-3402) 검색에 의해 새로운 후보 단백질에 대한 상동성 서열을 처음 수집하였다. 대략 90%의 동일한 수준에서 여분 감소 후에, 다중-서열 정렬 도구인 MSAPRob(Liu, Y. et. al. (2010) Bioinformatics. 26:1958-1964) 및 Clustalw에 의해 보존된 모티프를 나타내기 위해 다양한 구성원 포함 역치(예컨대, 60 초과, 40 또는 20%의 동일성)를 갖는 상동성 서열 그룹을 정렬하였다. Pfam, Superfamily, 및 SCOP(Murzin, A. G. et al. (1995) J. Mol. Biol. 247:536-540) 및 홈-빌트(home-built) 구조-기반 프로파일을 포함하는 수많은 도메인 데이터베이스에 대해 가장 보존된 상동성 서열은 HMMER에 의한 패밀리-프로파일 검색에 대한 서열을 받았다(Eddy, S. R. (1998) Bioinformatics. 14:755-763). 별도로, 얻어진 후보 상동성 서열 정렬을 또한 사용하여 예측된 2차 구조를 첨가한 후보 단백질 프로파일을 생성하였다. pdb70_hhm 및 Pfam_hhm 프로파일 데이터베이스에 대해 HHSEARCH에 의한 프로파일-프로파일 검색을 하기 위해 후보 프로파일을 추가로 사용하였다(Soding, J. et al. (2006) Nucleic Acids Res. 34:W374-378). 다음 단계에서, MODELLER을 이용하여 모든 검출된 서열-구조 관계 및 보존된 모티프를 3D 구조 주형에 스레딩하거나, DiscoveryStudio(BIOVIA) 및 Pymol(Schrodinger)에 대해 공지된 구조적 기준에 수동으로 맵핑하였다. 최종적으로, 클래스 2 엔도뉴클레아제로서 잠재적인 생물학적 적절성을 입증 및 확인하기 위해, 촉매적 또는 가장 보존된 잔기 및 중요한 구조적 완전성을 수동으로 검사하고, 단백질의 생화학적 기능에 비추어 평가하였다. 클래스 2 엔도뉴클레아제(예를 들어, DNA 절단 도메인(들))를 나타내는 중요한 특징의 구조적 확인 후에, 좌위 내에서 암호화된 다른 단백질(새로 정의된 CRISPR-Cas 시스템의 말단으로부터 5 kb 5' 및 5 kb 3'(가능한 경우))을 다음에 InterProScan 소프트웨어(EMBL-EBI, 영국에 소재)를 이용하여 공지된 단백질 패밀리에 대한 상동성에 대해 그리고 BLAST 프로그램을 이용하여 NCBI NR 단백질 수집과의 비교를 통해 시험하였다(Altschul, S.F. et al. (1990) J. Mol. Biol. 215:403-410). 공지된 단백질에 대해 유사성(적어도 30% 동일성)을 갖는 단백질을 암호화하는 유전자는 CRISPR-Cas 좌위에 그 자체로 주석을 달았다.
초기에, 4가지의 신규한 클래스 2 CRISPR-Cas 시스템을 미공지 미생물로부터 확인하였다(표 1). 도 1a 및 도 1b에 나타낸 바와 같이, 각 좌위에서 획득 및 간섭에 필요한 모든 성분을 포함하는 온전한 CRISPR-Cas 시스템을 암호화하였다. 이들은 CRISPR 어레이에 인접한 오페론-유사 구조에서 스페이서(Cas1, Cas2, 및 선택적으로 Cas4) 및 DNA 절단 도메인을 포함하는 신규한 단백질인 Cas-알파(α)를 획득 및 통합하는 데 필요한 단백질을 함께 암호화한 유전자를 포함하였다(표 1).
다음에, BLAST를 이용하는 Cas-알파 엔도뉴클레아제와 NCBI NR 단백질 수집의 비교, 다음에 CRISPR 어레이 근처(5 kb 이하)의 단백질을 찾기 위해 MinCED를 이용하는 분석으로 7가지의 추가적인 CRISPR 시스템을 생성하였다(표 2). 이들 새로운 단백질을 뒤덮지 않는 좌위 유전자 구조를 도 1c 및 도 1d에 나타낸다. Cas-알파6을 암호화하는 좌위는 부분적 cas1 유전자에 추가로 온전한 cas2 및 cas4 유전자를 포함하였지만(도 1c), Cas-알파5, 7, 8, 9, 10 및 11은 CRISPR 어레이에 인접한 엔도뉴클레아제 유전자만을 포함하였다(도 1d). Cas-알파 18 및 19에 대한 좌위를 도 21a에 도시하고, 작용 메커니즘을 도 21b에 도시한다.
[표 2a]
이들 단백질의 구조적 시험은 이들이 이중가닥 DNA 표적 인식 및 절단을 할 수 있는 앞서 기재된 클래스 2 CRISPR-Cas 엔도뉴클레아제와 별개라는 것을 나타낸다. 첫째로, 엔도뉴클레아제의 크기(422 내지 613개의 아미노산)는 다른 공지된 클래스 2 CRISPR-Cas 시스템에 비해 현저하게 조밀하였다. 둘째로, 단백질의 제1 아미노(N)-말단 절반은 (개시 메티오닌을 제외하고) 심지어 단일 아미노산의 보존 결여에 의해 분명한 바와 같이 서열 조성물에서 고도로 가변적이었다. 이럼에도 불구하고, 2차 구조 예측(PSIPRED(Jones, J. T. (1999) J. Mol. Biol. 292:195-202))은 혼합된 베타-가닥 및 알파 나선의 존재를 나타내었는데, 이는 모든 Cas-알파 단백질의 N-말단 영역에서의 쐐기-유사(WED) 또는 올리고뉴클레오티드 결합 도메인(OBD) 구조 및 나선 다발의 존재를 시사한다. 단백질의 카복실(C)-말단 절반에서, 삼중-분할 RuvC 도메인을 포함하는 중요한 촉매적 잔기 및 구조가 보존되었다(도 2). 추가적으로, 모든 단백질은 각각 RuvC 서브도메인 I-II와 II-III 사이에 삽입된 브리지-나선 도메인 및 아연-핑거 도메인을 포함하였다(도 2). 추가적인 아연-핑거-유사 모티프를 Cas-알파-1, 2, 3, 4 및 10개의 단백질에서 검출하였다는 것을 주목하여야 한다. Cas-알파-1, 2, 3 및 4에 대해, 제2 아연-핑거 모티프는 N-말단 근처에 위치되는 반면(예를 들어, Cas-알파-1 및 2에서 각각 아미노산 위치 70 내지 96 및 63 내지 111)(도 8a 내지 도 8d), Cas-알파-10에 대해, 단백질의 C-말단 절반에서 2개의 추가적인 아연-핑거 모티프를 확인하였다(도 8j). 본 명세서에서, 여분 아연-핑거 도메인 중 하나는 RuvC II와 III 서브-도메인 사이에 첫 번째(Cas-알파-10 아미노산 위치 376 내지 422)와 나란히 위치되며, 세 번째는 RuvC 서브-도메인 III(Cas-알파-10 아미노산 위치 466 내지 482) 다음에 발견된다(도 8j). 회복된 Cas-알파 서열 및 모티프의 예를 Cas-알파 1 내지 11에 대해 각각 도 8a 내지 도 8k에 나타낸다. 도 9는 Cas12b(C2c1) 단백질 골격(PDB:5wti)을 참조로서 이용하여, Cas-알파 도메인 중 일부가 혼성 이중나선 표적 DNA/가이드 RNA와 상호작용하는 방법을 도시한다.
MUSCLE 다중 서열 정렬을 이용하여 정렬한 Cas-알파 1 내지 129의 서열 분석은 서열번호 17의 아미노산 위치 번호에 대해 Cas-알파 엔도뉴클레아제에 대한 특징인 독특한 모티프를 나타내었다(표: 337번 위치에서 글리신(G), 341번 위치에서 글리신(G), 430번 위치에서 글루탐산(E), 432번 위치에서 류신(L), 487번 위치에서 시스테인(C), 490번 위치에서 시스테인(C) 및/또는 507번 위치에서 시스테인(C). Cas-알파 엔도뉴클레아제는 다음의 모티프를 포함한다: GxxxG, ExL, CxnC 및 Cxn(C,H)(여기서, xn=2 내지 4개의 잔기임). Cas-알파 엔도뉴클레아제는 하나 이상의 아연 핑거 도메인을 포함한다. 표 2b는 Cas-알파 엔도뉴클레아제에서 발견된 보존된 모티프의 일부를 포함한다.
[표 2b]
실시예 2: Cas-알파 가이드 RNA 용액
본 실시예에서, 클래스 2 CRISPR(규칙적 간격으로 분포하는 회문구조의 짧은 반복부)-Cas(CRISPR 연합) 엔도뉴클레아제, Cas-알파의 신규한 그룹에 대한 이중가닥 DNA 표적 인식 및 절단을 지원하는 가이드 RNA(들)를 결정하는 방법을 기재한다.
한 가지 방법은 Cas-알파 엔도뉴클레아제와의 기능성 복합체를 형성하는 데 필요한 sRNA(들)를 결정하기 위한 컴퓨터 예측에 의존한다. 간략하게, CRISPR 어레이의 가능한 전사 방향 및 엔도뉴클레아제에 의해 선호될 수 있는 반복부 및 스페이서의 다양한 입체배치(예를 들어, 반복부:스페이서, 스페이서:반복부 또는 반복부:스페이서:반복부) 둘 다를 설명하는 CRISPR RNA(들)(crRNA(들))를 생성하기 위해 CRISPR 어레이를 이용할 수 있다. 추가적으로, 트랜스-암호화 CRISPR 연합 RNA(들)(tracrRNA(들))는 문헌[Karvelis, T. et al. (2015) Genome Biology. 16:253]에 기재한 바와 같이 좌위에서 컴퓨터로 확인할 수 있다. 간략하게, BLAST를 이용하여 또는 수동으로 CRISPR 반복부 공통 서열과 좌위 서열 간의 정렬을 수행할 수 있다. 이어서, 안티-반복부를 둘러싸는 센스와 안티-센스 게놈 DNA 서열의 RNA 형태에 존재하는 2차 구조 및 가능한 종결 신호에 대해 추정 tracrRNA(들)의 가능한 전사 방향을 분석함으로써 상동성 영역(CRISPR 어레이로부터 분리)을 시험할 수 있다. 이어서, tracrRNA(들)는 다양한 crRNA 예측으로 이중나선화하거나, 키메라 비-천연 단일 가이드 RNA(들) (sgRNA(들))를 형성하도록 조작할 수 있다. crRNA(들), tracrRNA(들) 및 sgRNA(들)를 합성하거나(IDT 동등물) 또는 추가 실험을 위해 TranscriptAid T7 고수율 전사 키트(Thermo Fisher Scientific) 또는 동등물로 T7 전사시켰다.
다른 방법은 신규한 클래스 2 CRISPR-Cas 좌위로부터 생성된 소형 RNA(sRNA-seq)의 서열분석에 따른다. 이는 문헌[Zetsche, B. et al. (2015) Cell. 163:1-13]에 기재된 방법과 유사하게 수행할 수 있다. 간략하게, CRISPR-Cas 좌위는 이콜라이 플라스미드 DNA에 위치되고, 플라스미드 보유 CRISPR-Cas 좌위를 포함하는 후속 배양물을 원심분리에 의해 채취하고, 총 RNA를 TRIzol Max 박테리아 단리 키트(Thermo Fisher Scientific)를 이용하여 추출하고, mirVana miRNA 단리 키트(Thermo Fisher Scientific)를 이용하여 소형 RNA를 단리시키고, TruSeq 소형 RNA 라이브러리 분취 키트(Illumina)를 이용하는 서열분석을 위해 라이브러리를 제조하였다. 공지된 이콜라이 프로모터를 이용하여 좌위의 발현을 부스팅할 수 있다. MiSeq 기기(Illumina) 또는 동등물에 대한 서열분석 후에, 얻어진 서열 데이터를 좌위에서 암호화된 sRNA(들)의 전사 및 성숙 패턴을 결정하기 위해 좌위에 대해 다시 맵핑한다(Bowtie 2 소프트웨어(Langmead, B. et al. (2012) Nat. Methods. 9:357-359) 또는 동등물).
다른 방법은 신규한 클래스 2 CRISPR-Cas 좌위로부터의 Cas-알파 단백질과 공동 정제된 소형 RNA(sRNA-seq)의 서열분석에 따른다. 이는 직접 이중가닥 DNA 표적 인식 및 절단에 필요한 소형 RNA(들)의 서열을 결정하기 위해 Illumina 심층 서열분석을 사용할 수 있다는 것을 제외하고, 문헌[Sinkunas, T. et al. (2013) EMBO J. 32:385-394]에 기재한 방법과 유사하게 수행할 수 있다. 간략하게, CRISPR-Cas 좌위는 이콜라이 플라스미드 DNA 상에 위치된다. 좌위 내 Cas-알파 유전자는 또한 단백질 정제 태그를 암호화하도록 변형될 수 있다. 예를 들어, 이하로 제한되는 것은 아니지만, 히스티딘(His), 스트렙타비딘(Strep), 및/또는 말토스 결합 단백질(MBP). 대안적으로, Cas-알파 단백질의 His, Strep, 및/또는 MBP 태그된 형태를 암호화하는 "단독" Cas-알파 발현 카세트를 플라스미드 보유 좌위로 공동형질전환시킬 수 있다. 다음에, 플라스미드(들)를 이콜라이에 형질전환시키고(예를 들어, 이하로 제한되는 것은 아니지만 Artic Express (DE3)(ThermoFisher Scientific)), 이어서, 배양물을 원심분리에 의해 채취한다. 이어서, 세포를 용해시키고, 태그된 Cas-알파 단백질을 크로마토그래피에 의해 정제하였다. 최종적으로, TRIzol Max 박테리아 단리 키트(Thermo Fisher Scientific) 또는 다른 적합한 방법을 이용하여 Cas-알파 단백질에 결합된 소형 RNA를 추출하고, 상기 기재한 바와 같이 가공한다.
crRNA, tracrRNA 및 sgRNA 용액을 본 명세서에 기재된 선택 Cas-알파 시스템에 대해 표 3에 열거한다.
실시예 3: 박테리아 Cas-알파 발현 플라스미드
본 실시예에서, 이종성 숙주 이콜라이에서 Cas-알파 이중가닥 DNA 표적 인식 및 절단을 시험하기 위해 플라스미드 DNA 발현 작제물을 생성한다.
처음에, 제1 Cas-알파 엔도뉴클레아제를 암호화하는 천연 Cas-알파 CRISPR-Cas 좌위(도 1)(서열번호 21)의 CRISPR 어레이를 본 명세서에서 시험하고, Cas-알파1(서열번호 17)을 변형하였다. CRISPR 단위의 수(반복부(서열번호 46):스페이서:반복부(서열번호 46))를 3까지 감소시킴으로써 이를 달성하였다. 다음에, 반복부 사이의 스페이서 서열을 문헌[Karvelis et al., 2015]에 기재된 플라스미드 DNA PAM 라이브러리로부터 무작위화의 7 bp 영역에 인접한 이중가닥 표적 서열인 T2의 안티-센스 가닥과 염기 짝짓기를 할 수 있는 서열(서열번호 78)로 대체하였다. 이어서, T2(서열번호 79)를 표적화하도록 조작된 얻어진 "완전한" CRISPR-Cas 좌위(도 3)를 낮은 복제물 이콜라이 플라스미드 DNA(pACYC184, NEB)에 직접 합성하여(GenScript) 플라스미드 DNA R-225를 생성하였다. 합성 과정 동안에 단일 뉴클레오티드 다형성(SNP)을 casα1 유전자에 도입하였지만, SNP(유전자의 1284번 위치에서 C 대 A)는 침묵이었고, Casα1의 아미노산 조성을 변경시키지 않았다는 것을 주목하여야 한다. 변형된 Cas-알파 CRISPR-Cas 좌위의 발현을 향상시키기 위해, 또한 단일 이소프로필 β-D-1-티오갈락토피라노사이드(IPTG) 유도성 T7 프로모터를 함유하도록 변형된 pETduet-1(MilliporeSigma)에 클로닝되어, 플라스미드 DNA R-652를 생성하였다. 다음에, 이중가닥 DNA 표적 절단 활성이 Casα1을 필요로 한다는 것을 확인하기 위해, 이의 유전자(서열번호 13)를 플라스미드 R-652로부터 제거하여 플라스미드 DNA R-658을 수득하였다. 이중 가닥 DNA 표적 인식 및 절단에 필요한 최소 성분을 확인하기 위해, 적응 유전자(cas1, 2, 및 4) 및 변형된 CRISPR 어레이의 영역 3'을 R-652로부터 제거하여, "최소" 좌위(서열번호 80)(도 3에 예시하는 바와 같음) 발현 플라스미드를 생성하여, 플라스미드 R-657을 초래하였다.
다른 Cas-알파 엔도뉴클레아제에 대해, T2를 표적화하도록 변형된 "최소" 좌위를 암호화하는 플라스미드 DNA 발현 카세트(도 3)(Cas-알파1에 대해 R-657의 동등물)를 pETduet-1로 합성하여(GenScript) dsDNA 표적 인식 및 절단에 대해 분석하였다. 추가적으로, 히스티딘(HIS) 태그(10X-HIS 서열번호 81 또는 6X-HIS 서열번호 82), 말토스 결합 단백질(MBP) 태그(서열번호 83), 및 담배 식각 바이러스 절단 부위(TEV)(서열번호 84)를 암호화하는 서열의 3' 말단에 융합된 "단독" cas-알파 유전자를 당업계에 공지된 방법에 의해 작제하였다(도 3). 천연 cas-알파 유전자 서열 또는 이콜라이 코돈 최적화된 형태를 이용하였다. 최적화된 유전자에 대해, 이콜라이 코돈을 이용하여 코돈 조건화를 수행하고, 이상적인 GC 함량을 위해 유전자를 조절하고, 반복 서열 및 유전자 탈안정화 특징을 가능한 경우에 제거하였다. 최종적으로, 태그된 "단독" cas-알파 유전자를 당업계에 공지된 방법에 의해 테트라사이클린(TET), IPTG, 또는 아라비노스 유도성 플라스미드 DNA 발현 카세트에 클로닝하였다.
실시예 4: Cas-알파 단백질 발현 및 정제
본 실시예에서, Cas-알파 엔도뉴클레아제를 재조합적으로 발현 및 정제하는 방법을 기재한다.
Cas-알파 단백질을 실시예 3에 기재된 바와 같은 태그된 "단독" 단백질 발현 플라스미드를 이용하여 발현시키고 정제하였다. 처음에, 발현 작제물을 이콜라이 BL21(DE3) 또는 ArcticExpress(DE3) 균주에 형질전환시키고, 선택제(예를 들어, 암피실린(100 ㎍/㎖))로 보충한 LB 브로스에서 배양물을 성장시켰다. 0.5의 OD600까지 배양시킨 후에, 온도를 16℃까지 감소시키고, IPTG(0.5 mM) 또는 아라비노스(0.2%(w/v))를 이용하여 발현을 유도하였다. 16시간 후에, 세포를 펠릿화하고, 로딩 완충제(20 트리스-HCl, 25℃에서 pH 8.0, 1.5 M NaCl, 5 mM 2-머캅토에탄올, 10 mM 이미다졸, 2mM PMSF, 5%(v/v) 글리세롤)에서 재현탁시키고, 음파처리에 의해 붕괴시켰다. 원심 분리에 의해 세포 파편을 제거하였다. Ni2+-하전된 HiTrap 킬레이팅 HP 칼럼(GE Healthcare) 상에 상청액을 로딩하고, 20 트리스-HCl, 25℃에서 pH 8.0, 0.5 M NaCl, 5 mM 2-머캅토에탄올 완충제 중 이미다졸 농도(10 내지 500 mM)를 증가시키는 선형 구배로 용리하였다. Cas-알파를 함유하는 분획을 모으고, 이어서 NaCl 농도 증가의 선형 구배(0.1 내지 1.5 M)를 이용한 용리를 위해 HiTrap 헤파린 HP 컬럼(GE Healthcare)에 로딩하였다. Cas-알파 단백질을 함유하는 다음 분획을 풀링하고, 4℃에서 TEV 프로테아제와 함께 밤새 배양시킴으로써 태그를 절단하였다. 절단된 His-MBP-태그 및 TEV 프로테아제를 제거하기 위해, 증가되는 NaCl 농도(0.1 내지 1.5 M)의 선형 구배를 이용하는 용리를 위해 HiTrap 헤파린 HP 5 칼럼(GE Healthcare) 상에 반응 혼합물을 로딩하였다. 다음에, HiTrap 칼럼으로부터의 용리를 MBPTrap 칼럼(GE Healthcare) 상에 로딩하고, Cas-알파 단백질을 유동을 통해 수집하였다. 이어서, 수집된 분획을 20 mM 트리스-HCl, 25℃에서 pH 8.0, 500 mM NaCl, 2 mM DTT 및 50%(v/v) 글리세롤에 대해 투석시키고, -20℃에서 저장하였다.
실시예 5: Cas-알파 이중가닥 DNA 표적 인식 및 절단을 검출하는 방법
본 실시예에서, Cas-알파 엔도뉴클레아제에 의한 이중 가닥 DNA 표적 인식 및 절단을 검출하는 방법을 기재한다.
용해물 분석
도 3에 나타내는 바와 같이 Cas-알파 엔도뉴클레아제를 발현시키는 세포 용해물을 이용하여 이중가닥 DNA 표적 인식 및 절단의 검출을 수행하였다. 처음에, Cas-알파 엔도뉴클레아제를 단독으로 또는 T2 서열을 표적화하도록 변형된 Cas-알파 CRISPR-Cas 좌위의 부분으로서 암호화하는 플라스미드 DNA(실시예 3 참조)를 당업계에 공지된 방법에 의해 이콜라이 세포(예를 들어, DH5α(Thermo Fisher Scientific), ArcticExpress(DE3)(Agilent Technologies), 또는 NEB 안정(NEB))에 형질전환시켰다. 다음에, Cas-알파 엔도뉴클레아제를 암호화하는 유전자를 운반하는 세포 배양물을 적합한 항생제(예를 들어, 암피실린)를 함유하는 루리아 브로스(LB) 배지에서 0.5의 광학 밀도(OD)(600 ㎚의 파장을 이용)까지 배양시켰다(도 3 단계 I). 발현을 자극하기 위해 유도제가 필요한 플라스미드(예를 들어, R-652)에 대해, 온도를 16℃까지 감소시키고, 16시간 동안 유도제(예를 들어, 1 mM 이소프로필 β-D-1-티오갈락토피라노사이드(IPTG))를 이용하여 발현을 개시하였다. 유도가 필요하지 않다면, 0.5의 OD600에 도달된 후에 세포를 즉시 채취하였다. 다음에, (4℃에서 5분 동안 3,000 g에서) 원심분리에 의해 세포를 펠릿화하고, 배지를 따라내고 나서, 10 ㎕ PMSF로 보충한 1 ㎖의 용리 완충제(20 mM 포스페이트, pH 7.0, 0.5 M NaCl, 5% (v/v) 글리세롤)에서 재현탁시키고, 얼음에 옮겼다. 이어서, 세포를 2분 동안 음파처리(6 s 펄스 다음에 3 s 펄스)에 의해 붕괴시키고, 원심분리에 의해 14,000 g에서 30분 동안 4℃에서 세포 파편을 제거하였다. 다음에, 단독 성분으로서 발현시킨 Cas-알파 단백질에 대해, 가용성 Cas-알파 단백질을 함유하는 20 ㎕의 상청액을 1 ㎕(40 U)의 RiboLock RNase 저해제(Thermo Fisher Scientific)의 존재 하에 2 ㎍의 T7 전사된 가이드 RNA(들)와 즉시 합하고, 실온에서 15분 동안 인큐베이션시켰다(도 3 단계 II). Cas-알파 엔도뉴클레아제 및 가이드 RNA가 플라스미드 보유 CRISPR-Cas 좌위로부터 함께 발현되었다면, Cas-알파 가이드 RNA 리보핵단백질 복합체를 함유하는 정제된 용해물을 더 이상 가공하지 않았지만, 다음 단계에서 직접 사용하였다(도 3 단계 II). Cas-알파 가이드 RNA 용해물 혼합물 10 ㎕를 90 ㎕의 반응 완충제(10 mM의 트리스-HCl, 37℃에서 pH 7.5, 100 mM의 NaCl 및 1 mM의 DTT, 10 mM MgCl2) 및 T2 표적 서열을 포함하는, 문헌[Karvelis et al. 2015]으로부터의 7 bp의 무작위 PAM 라이브러리 1 ㎍과 부드럽게 합하여 무작위 PAM 라이브러리의 분해를 수행하였다(도 3 단계 III). 대안적으로, PAM 서열이 알려져 있다면, 10 ㎕의 Cas-알파 가이드 RNA 용해물 혼합물을 고정된 표적 서열을 포함하는 1 ㎍의 플라스미드 DNA와 합하였다. 37℃에서 1시간 후, 반응물을 1 ㎕(5 U)의 T4 DNA 중합효소 및 1 ㎕의 10 mM dNTP 믹스(Thermo Fisher Scientific)와 함께 11℃에서 20분 동안 인큐베이션시켜 DNA 말단 복구를 수행하였다. 이어서, 반응물을 10분 동안 75℃까지 가열하여 비활성화시켰다. 어댑터 결찰에 의한 유리 DNA 말단을 효율적으로 포획하기 위하여, 72℃에서 30분 동안 반응 혼합물을 1 ㎕(5 U)의 DreamTaq 중합효소(Thermo Fisher Scientific, EP0701)와 함께 인큐베이션시켜 3'-dA 돌출부를 첨가하였다. 그 후, 37℃에서 30분 동안 1 ㎕의 RNase A/T1(Thermo Fisher Scientific)를 인큐베이션시켜 과량의 RNA를 반응물로부터 제거하였다. 이어서, 얻어진 DNA를 GeneJet PCR 정제 키트(Thermo Fisher Scientific)를 이용하여 정제하였다.
다음에, A1(5'-CGGCATTCCTGCTGAACCGCTCTTCCGATCT-3'(서열번호 85)) 및 인산화된 A2(5'-GATCGGAAGAGCGGTTCAGCAGGAATGCCG-3'(서열번호 86) 올리고뉴클레오티드를, 이들 둘의 등몰 혼합물을 95℃에서 5분 동안 가열하고 어닐링(A) 완충제(10 mM의 트리스-HCl, 37℃에서 pH 7.5, 50 mM의 NaCl) 중에서 실온까지 서서히 냉각시켜(약 0.1℃/s) 어닐링하여 3'-dT 돌출부가 있는 어댑터를 제조하였다. 그 후, 100 ng의 말단 복구된 3'-dA 돌출부 절단 산물 및 어댑터를 25 ㎕의 결찰 완충제(40 mM의 트리스-HCl, 25℃에서 pH 7.8, 10 mM의 MgCl2, 10 mM의 DTT, 0.5 mM의 ATP, 5%(w/v)의 PEG 4000) 중 5 U의 T4 결찰효소(Thermo Fisher Scientific)와 합하고 반응이 실온에서 1시간 동안 진행되게 하여 어댑터를 말단 복구된 3'-dA 돌출부 절단 산물에 결찰시켰다(도 3 단계 IV).
다음으로, PAM 서열을 포함하는 절단된 생성물을 각각 7 bp의 PAM 라이브러리 및 어댑터에 특이적인 R0(5'-GCCAGGGTTTTCCCAGTCACGA-3'(서열번호 87)) 및 A1 올리고뉴클레오티드를 사용하여 농축하였다(도 3 단계 V). 10 ㎕의 결찰 반응물을 주형으로 사용하여 고충실도(HF) 완충제(Thermo Fisher Scientific)와 함께 Phusion High-Fidelity PCR Master Mix를 이용하여 PCR을 수행하였다. 2단계 증폭 프로토콜(98℃ - 30초 초기 변성, 98℃ - 15초, 72℃ - 30초 변성, 어닐링 및 합성의 15 사이클 및 최종 연장을 위한 72℃ - 5분)을 사용하였다. Cas-알파의 부재 하에서 조립된 샘플의 경우, R0 및 C0 프라이머(5'-GAAATTCTAAACGCTAAAGAGGAAGAGG-3' (서열번호 88)) 쌍을 사용하여 PCR을 수행했으며, C0은 프로토스페이서 서열에 상보성이었다. 다음으로, 증폭 생성물(각각 A1/R0 및 C0/R0 프라이머 쌍에 대해 148 bp 및 145 bp)을 GeneJet PCR 정제 키트(Thermo Fisher Scientific)를 사용하여 정제하였다.
다음으로, Illumina 심층 서열분석에 필요한 서열과 인덱스를 Cas-알파 절단된 DNA 단편의 말단으로 혼입시키고, 생성물을 심층 서열분석하였다(도 3 단계 VI). 이는 제조사의 지침에 따라 HF 완충제(New England Biolabs) 중에서 Phusion High-Fidelity PCR Master Mix를 사용하여 2회의 PCR을 통해 달성되었다. 20 ng의 Cas-알파 절단된 어댑터 결찰 PAM 측 주형을 사용하여 1차 PCR를 조립하였고, 10 사이클 동안 진행되게 하였다. 이 반응은 어댑터에 혼성화할 수 있는 정방향 프라이머인 F1(5'-CTACACTCTTTCCCTACACGACGCTCTTCCGATCTAAGGCGGC-ATTCCTGCTGAAC-3'(서열번호 89)) 및 PAM 무작위화 영역의 부위 3'에 결합하는 역방향 프라이머인 R1(5'-CAAGCAGAAGACGGCATACGAGCTCTTCCGATCTCGGCGACGTTGGGTC-3'(서열번호 90))을 사용한다. 어댑터 결찰된 PAM 단편에 혼성화하는 것 외에도, 프라이머는 또한 이들의 5' 말단에서 연장되는 Illumina 서열을 포함한다. 정방향 프라이머의 경우, 추가 서열은 브리지 증폭에 필요한 서열의 일부(5'-CTACACTCTTTCCCTACACGACGC-TCTTCCGATCT-3'(서열번호 91))에 이어, 동시에 서열분석되는 경우 여러 앰플리콘이 디컨볼루션되게 하는 상호 호환 가능한 고유한 인덱스 서열(5'-AAGG-3')을 포함한다. 역방향 프라이머의 경우, 추가 서열은 앰플리콘의 3' 말단에서 브리지 증폭에 필요한 서열(5'-CAAGCAGAAGACGGCATACGAGCTC-TTCCGATCT-3'(서열번호 92))만으로 구성된다. 다음의 PCR 주기 조건을 사용하였다: 95℃ - 30초 초기 변성, 95℃ - 10초, 60℃ - 15초, 72℃ - 5초 변성, 어닐링 및 합성의 10회 사이클 및 최종 확장을 위한 72℃ - 5분. 1차 PCR 후, 2 ㎕(총 부피 50 ㎕)의 1회차 PCR을 주형으로 사용하여 2회차의 PCR 증폭을 수행하였다. 2차 PCR에서 사용한 정방향 프라이머 F2(5'-AATGATACGGCGACCACCGAGATCTACACTCTTT-CCCTACACG-3'(서열번호 93))는 F1의 5' 영역에 혼성화하여 Illumina 심층 서열분석에 필요한 서열을 더 연장한다. 2차 PCR에 사용한 역방향 프라이머인 R2(5'-CAAGCAGAAGACGGCATA-3'(서열번호 94))는 1차 PCR 앰플리콘의 3' 말단에 간단히 결합한다. 다음의 PCR 주기 조건을 사용하였다: 95℃ - 30초 초기 변성, 95℃ - 10초, 58℃ - 15초, 72℃ - 5초 변성, 어닐링 및 합성의 10회 사이클 및 최종 확장을 위한 72℃ - 5분. 라이브러리 생성 후, 증폭물을 제조사의 지침에 따라 QIAquick PCR 정제 키트(Qiagen)로 정제하고 등몰 농도로 단일 샘플에 합하였다. 다음으로, 라이브러리를 PhiX control v3(Illumina)의 25%(v/v) 스파이크와 함께 MiSeq Personal Sequencer(Illumina) 상에서 단일 판독 심층 서열분석하고, 제조사의 지침에 따라 서열들을 후처리하고 디콘볼루션시켰다. 본래의 PAM 라이브러리 또한 하류 PAM 분석에 영향을 미치는 고유한 편향을 설명하기 위한 대조군으로서 서열분석하였음을 유의한다. 이는 1차 PCR의 정방향 프라이머인 C1(5'-CTACACTCTTTCCCTACACGACGCTCTTCCGATCTGGAATAAACGCTAAAGAGGAAGAGG-3'(서열번호 95))이 절단되지 않은 PAM 라이브러리의 프로토스페이서 영역에 직접 혼성화하므로, 이것이 F1 대신 사용된다는 점을 제외하고는 위에 기재된 바와 같이 수행된다.
다음에, Cas-알파 절단 단편에서 PAM의 존재에 대해 검색함으로써 이중가닥 DNA 표적 인식의 증거를 평가하였다. 이것은 표적 영역 내에서 이중 가닥 DNA 절단 및 어댑터 결찰의 모든 가능한 결과를 나타내는 서열 모음을 먼저 생성함으로써 달성되었다. 예를 들어, 표적의 21번째 위치 직후에서의 절단 및 어댑터 결찰은 다음 서열(5'-CCGCTCTTCCGATCTGCCGGCGACGTTGGGTCAACT-3' (서열번호 96))을 생성하며, 여기서 어댑터 및 표적 서열은 각각 5'-CCGCTCTTCCGATCT-3'(서열번호 97) 및 5'-GCCGGCGACGTTGGGTCAACT-3'(서열번호 98)을 포함한다. 다음으로, 이들 서열은 7 bp의 PAM 영역(5'-TGTCCTCTTC-3'(서열번호 99))의 10 bp의 서열 5'와 함께 서열 데이터세트에서 검색되었다. 일단 확인되면, 5' 및 3' 측접 서열을 트리밍함으로써 개재 PAM 서열을 단리시켰다. 다음으로, 추출된 PAM 서열의 빈도를 초기 라이브러리에 고유한 편향을 설명하기 위해 본래의 PAM 라이브러리에 대해 정규화하였다. 먼저, 동일한 PAM 서열을 열거하고, 데이터세트의 총 판독치에 대해 빈도를 계산하였다. 그런 다음, 다음 식을 사용하여 각 PAM에 대해 정규화를 수행하여, 초기 라이브러리에서 과소 또는 과도하게 표현된 PAM 서열을 설명하였다:
정규화된 빈도 = (처리 빈도)/(((제어 빈도)/(평균 제어 빈도)))
정규화 후, 위치 빈도 매트릭스(PFM)를 계산하였다. 이는 각 PAM과 관련(정규화)된 빈도를 기반으로 각 위치에서 각 뉴클레오티드에 가중치를 부여하여 수행되었다. 예를 들어, 5'-CGGTAGC-3'의 PAM이 0.15%의 정규화된 빈도를 갖는 경우, 제1 PAM 위치에 대한 뉴클레오티드 빈도를 결정할 때 제1 위치의 C에 0.15%의 빈도가 주어진다. 다음에, 데이터세트의 각 위치에서 각 뉴클레오티드의 전반적 기여를 합산하고, Cas-알파 PAM 선호도를 나타내는 가장 흔한 뉴클레오티드를 갖는 표로 조직화하였다.
Cas-알파 표적 절단 및 어댑터 결찰에 의해 생성되는 독특한 접합을 시험함으로써 Cas-알파 이중가닥 DNA 표적 절단에 대한 증거를 평가하였다. 처음에, T2 표적 영역 내의 이중가닥 DNA 절단 및 어댑터 결찰의 모든 가능한 결과를 나타내는 서열 수집을 생성하였다(상기에 상세히 설명한 바와 같음). 다음에, 음성 대조군(Cas-알파가 없는 실험 설정)에 대한 각 Illumina 서열 데이터세트에서 얻어진 서열의 빈도를 시험하였다. Illumina 서열이 과량으로 회복되어 음성 대조군 이상으로 판독치 범위의 피크 또는 스파이크를 초래한 프로토스페이서-어댑터 결찰 위치를 표적화된 DNA 절단 증거로서 간주하였다.
실시예 6: Cas-알파 이중가닥 DNA 표적 인식 및 절단
본 실시예에서, Cas-알파 이중가닥 DNA 표적 인식 및 절단을 부여하는 분자 특징을 확인한다.
Cas-알파는 PAM-의존적 dsDNA 엔도뉴클레아제이다
Cas-알파 CRISPR(규칙적 간격으로 분포하는 회문구조의 짧은 반복부)-Cas(CRISPR 연합) 엔도뉴클레아제는 프로토스페이서 인접 모티프(PAM)의 필요 없이 단일 가닥 DNA 표적만을 절단하는 것으로 보고되었다(Harrington, L. B. et al. (2018) Science. 10.1126/science.aav4294). 본 실시예에서, 본 발명자들은 CRISPR-Cas 엔도뉴클레아제의 이런 신규한 그룹이, 1) PAM와 2) 가이드 RNA의 조합을 요구하여 3) 이중가닥 DNA 표적 부위를 인식 및 절단한다는 증거를 제공한다.
표 4에 나타낸 바와 같이, 플라스미드 R-225(T2 서열을 표적화하도록 변형된 완전히 온전한 Cas-알파 CRISPR-Cas 좌위를 포함)를 이용할 때 Cas-알파1에 대한 PAM 선호도를 회복하여 Cas-알파 이중가닥 DNA 표적 인식의 제1 증거를 제공한다. PAM 영역의 21번 위치 bp 3'에서 표적 DNA 절단 및 어댑터 결찰을 추정할 때 PAM 선호도만이 발생되었다. 이중가닥 DNA 절단 활성을 확인하기 위해, T2 표적 서열(서열번호 101)의 바로 5'의 비무작위화된 PAM(5'-TTAT-3')으로 이루어진 고정된 이중가닥 DNA 표적 서열(서열번호 100)을 포함하는 플라스미드 DNA를 작제하였다. 이어서, 플라스미드 R-225 및 R-654(실시예 3 참조) 및 고정된 표적 서열을 이용하여, 실험을 반복하였다. 도 4a 내지 도 4e에 나타내는 바와 같이, 이들 실험은 음성 대조군에 비해 앞서 언급한 위치에서 회복된 서열 판독의 스파이크를 초래하였다. R-654에 대해, T7 IPTG 유도성 프로모터는 PAM의 21번 위치 하류 바로 다음에 회복된 판독 분획을 향상시켰다(모든 판독의 거의 40%에 접근함).
관찰된 이중가닥 DNA 표적 인식 및 관찰된 절단 활성이 Cas-알파1, tracrRNA 암호화 영역 및 변형된 CRISPR 어레이만의 결과라는 것을 확인하기 위해, 최소 Cas-알파 CRISPR-Cas 좌위(Cas-알파 유전자, tracrRNA를 암호화하는 영역, 및 변형된 CRISPR 어레이 중 하나만을 포함함) 및 고정된 이중가닥 DNA 표적 서열을 포함하는 플라스미드(R-657)를 이용하여 실험을 수행하였다. 도 4d에 도시한 바와 같이, PAM의 21번째 위치 3'에서 유사한 절단 서명을 회복하였다. 최종적으로, Cas-알파가 관찰된 절단 활성을 필요로 한다는 것을 입증하기 위해, Cas-알파 유전자를 CRISPR-Cas 좌위(R-658)로부터 제거하였을 때 실험을 또한 수행하였다. 도 4e에 나타낸 바와 같이, DNA 절단 활성은 검출되지 않았다. 종합하면, 이는 Cas-알파 이중가닥 DNA 표적 절단에 대한 첫 번째 증거를 제공한다.
제2 Cas-알파 단백질, Cas-알파4에 대한 이중 가닥 DNA 표적 인식 및 절단을 시험하였다(서열번호 20). 단독 Cas-알파4 발현 카세트를 이용하여(실시예 2 및 도 3 참조), 문헌[Karvelis et al., 2015]에 기재된 7 bp 무작위화된 PAM 라이브러리에 인접한 서열인 T7 전사된 가이드 RNA(들) 표적화 T2를 Cas-알파4 발현 단백질을 함유하는 이콜라이 용해물과 합하였다. 스페이서 인식에 대한 PAM 인식 배향을 결정하기 위해, T2 표적의 센스 또는 안티센스 가닥 중 하나를 갖는 염기쌍에 대해 가이드 RNA(들)를 설계하였다(표 5)(도 5). 센스 가닥을 갖는 염기쌍에 대해 설계된 가이드 RNA(들)가 PAM 선호도의 회복을 초래하고 절단 신호를 수득한다면, 프로토스페이서는 안티-센스 가닥 상에 있고, PAM 인식은 이에 대해 3'에서 일어난다(도 5a). 대조적으로, 안티-센스 가닥과의 염기쌍에 대해 설계된 가이드 RNA(들)가 PAM 선호도 및 절단 신호를 생성한다면, 프로토스페이서는 센스 가닥 상에 있고, PAM 인식은 이에 대해 배향 5'에서 일어난다(도 5b). T2 프로토스페이서 표적 내 각 위치에서 어댑터 결찰 빈도의 평가 시, 모든 판독의 거의 30%를 포함하는 피크는 PAM의 24번째 bp 3' 바로 뒤에서 회복되었다(도 6c 및 도 6e). 가이드 RNA 생성 절단 신호는 둘 다 프로토스페이서의 안티-센스 가닥을 표적화하도록 설계하였고, 따라서, PAM 인식이 프로토스페이서의 5'에서 일어난다는 것을 나타낸다. 다음에, Cas-알파4에 대해 PAM 인식을 평가하였다. 표 6 및 표 7에 나타낸 바와 같이, 가이드 RNA, T2-2 sgRNA 또는 T2-2 crRNA/tracrRNA를 사용하였을 때 Cas-알파2에 대해 Cas-알파1과 유사한 T-풍부 PAM 선호도를 또한 회복하였다.
전체적으로 생화학적인 환경에서 본 발명자들의 발견을 확인하기 위해, 이중-가닥 DNA 표적 절단을 시험관내에서 재구성하였다. 이중가닥 DNA 표적을 분해하기 위해 정제된 Cas-알파4 단백질(실시예 4) 및 시험관내 T7 전사된 단일 가이드 RNA(sgRNA)(서열번호 77)(실시예 2)를 이용함으로써 이를 달성하였다. 처음에, 리보핵단백질(RNP) 복합체를 형성하기 위해, 1:1 몰비의 Cas-알파4 및 sgRNA를 37℃에서 30분 동안 복합체 조립 완충제(10 mM 트리스-HCl, 37℃에서 pH 7.5, 100 mM NaCl, 1 mM EDTA, 1 mM DTT)에서 인큐베이션시켰다. 이어서, 100 nM의 얻어진 RNP를 반응 완충제(2.5 mM 트리스-HCl, 37℃에서 pH 7.5, 25 mM NaCl, 0.25 mM DTT 및 10 mM MgCl2)에서 Cas-알파4 PAM(5'-TTTA-3')에 측접된 sgRNA 표적 서열을 포함하는 3 nM의 수퍼코일(SC) 또는 선형화된 플라스미드 DNA와 합하고, 37℃에서 30분 동안 인큐베이션시켰다. 이어서, 반응을 중단시키고, 비변성 아가로스겔 전기영동 및 브롬화에티듐 염색에 의해 분석하였다. 도 15a에 나타낸 바와 같이, SC 플라스미드 DNA는 선형 형태(FLL)로 완전히 전환되었고, 따라서, dsDNA 파손 형태를 도시한다. 추가적으로, 선형 DNA의 절단은 Cas-알파 4 매개 dsDNA 파손 형성을 추가로 입증하는 예상된 크기의 DNA 단편을 초래하였다(도 15a). 다음에, PAM 또는 sgRNA 표적 중 하나를 제외함으로써, 본 발명자들은 Cas-알파4가 dsDNA 표적을 절단하기 위해 PAM 및 가이드 RNA를 절대적으로 필요로 한다는 것을 확인하였다(도 15b).
Cas-알파4에 의해 생성된 dsDNA 파손 유형을 다음에 시험하였다. 런-오프(run-off) 서열분석을 이용하여, 본 발명자들은 Cas-알파4가 5' 엇갈린 돌출부 DNA 절단 부위를 생성한다는 것을 관찰하였다. 절단은 PAM-서열에 대해 20 내지 24 bp 위치 주변에 집중되어 우세하게 나타났다(도 15c).
다음에, 본 발명자들은 dsDNA 표적 인식 후에 Cas-알파4가 비특이적 ssDNA 분해 활성을 유도하는지의 여부를 조사하였다. 본 명세서에서, 5' PAM 및 인접한 sgRNA 표적을 포함하는 100 nM의 dsDNA를 활성인자로서 사용하고, 100 nM의 M13 단일-가닥 DNA가 Cas-알파4 유도 ssDNase 활성을 검출하는데 포함된다는 것을 제외하고 상기 기재한 바와 같이 반응을 조립하였다. dsDNA 표적화가 무분별한 ssDNA 절단의 전제 조건이라는 것을 예시하기 위해 sgRNA 없이 반응을 또한 설정하였다. 도 15d에 나타낸 바와 같이, Cas-알파4의 트랜스-작용성 ssDNase 활성을 가이드 RNA의 존재 하에서만 dsDNA에 의해 활성화시켰다.
본 발명자들의 발견의 넓은 적용 가능성을 조사하기 위해, Cas-알파s 2 (서열번호 18), 3(서열번호 19), 5(서열번호 32), 6(서열번호 33), 7(서열번호 34), 8(서열번호 35), 9(서열번호 36), 10 (서열번호 37) 및 11(서열번호 38)을 또한 이중가닥 DNA 표적 인식 및 절단에 대해 평가하였다. 박테리아 T7 발현 카세트(pETduet-1 (MilliporeSigma)) 내로 합성된 최소 CRISPR-Cas 좌위(cas-알파 엔도뉴클레아제 유전자, tracrRNA를 암호화하는 영역 및 T2 변형된 CRISPR 어레이를 포함(도 3))를 이용하여, 실시예 4에 기재한 바와 같이 그리고 IPTG 유도 없이 이콜라이 용해물 실험을 수행하였다. 도 16a 내지 도 16t에 나타낸 바와 같이, Cas-알파 5를 제외하고 모두에 대해 이중가닥 DNA 표적 절단을 검출하였다. 일반적으로 그리고 Cas-알파 1 및 4에 의한 결과와 유사하게, PAM 무작위화 영역의 프로토스페이서 21번 및 24번 위치 3'은 가장 높은 빈도의 어댑터-결찰 판독을 나타내었다. Cas-알파 1 및 4와 유사하게, 5' PAM 인식을 또한 회복하였다(표 8 내지 표 15).
종합하면, 본 명세서에 기재된 데이터는 가이드 RNA(들)가 5' PAM의 존재 하에 이중가닥 DNA 표적 부위를 인식 및 절단하도록 Cas-알파 단백질에 지시한다는 증거를 제공한다.
Cas-알파 절단을 위한 최적 조건의 결정
당업계에 공지된 방법을 이용하여 dsDNA의 최적의 RNA-가이드 Cas-알파 엔도뉴클레아제 절단에 대한 파라미터 및 조건을 결정하기 위한 생화학적 실험을 수행하였다. 간략하게, 정제된 Cas-알파 단백질 및 T7 전사된 가이드 RNA를 복합체 어셈블리(CA) 완충제(10 mM 트리스-HCl, 37℃에서 pH 7.5, 100 mM NaCl 및 1 mM DTT)에서 인큐베이션시켰다. 이어서, 얻어진 RNP 복합체를 가이드 RNA에 대해 상보성을 갖는 영역에 바로 인접한 5' PAM을 포함하는 이중가닥 플라스미드 DNA와 조합하였다(예를 들어, 도 5b에 도시한 바와 같음). 이어서, 절단 반응을 다양한 조건 하에 반응(R) 완충제(10 mM 트리스-HCl, 37℃에서 pH 7.5, 100 mM NaCl 및 1 mM DTT, 10 mM MgCl2)에서 수행하였다. 금속 보조인자를 분석하는 실험을 위해, 완충제 R 중 마그네슘을 코발트(Co2+), 망간(Mn2+) 또는 니켈(Ni2+)로 대체하였다. 수퍼코일(SC), 틈내기한 개방 원(open circle: OC), 및 전장 선형화된(FLL) 산물의 비를 시험함으로써 수퍼코일 이중-가닥 플라스미드 DNA 절단을 평가하였다. 선형 이중-가닥 플라스미드 DNA 기질에 대해, 보다 소형의 절단 산물에 대한 비절단 산물의 분획을 사용하여 절단 효율을 계산하였다.
실시예 7: 진핵생물 게놈 편집 및 조작을 위한 Cas-알파 성분의 최적화
본 실시예에서, 진핵 세포 내로 전달을 위한 Cas-알파 엔도뉴클레아제 및 가이드 RNA 발현 카세트 또는 정제된 성분을 최적화하는 방법을 기재한다.
일 방법에서, 진핵 세포에서 효율적인 발현을 부여하기 위해, 신규한 Cas 엔도뉴클레아제 유전자인 cas-알파를 당업계에 공지된 표준 기법에 따라 코돈 최적화하였고, 선택적으로 (식물 형질전환을 위해 사용한) 이콜라이 또는 아그로박테리움(Agrobacterium)에서 이의 발현을 제거하기 위해 인트론을 도입하였다. 제아 메이스에서 사용하기 위해, 감자 ST-LS1 인트론 2(서열번호 106)를 사용하였지만, 다른 인트론이 작동되었다. 진핵 세포에서 최적화된 Cas-알파 엔도뉴클레아제 단백질의 핵 국재화를 용이하게 하기 위해, 유인원 바이러스 40(SV40) 단립형 핵 국재화 신호(NLS)를 암호화하는 뉴클레오티드 서열(서열번호 107)을 5', 3', 또는 5'과 3' 말단 둘 다에 첨가하였다. 다른 NLS를 또한 사용할 수 있다. 예를 들어, 인간 세포 배양 실험에서, 뉴클레오플라스민(Nuc)으로부터의 2부분 NLS를 암호화하는 서열(서열번호 108)을 인간 코돈 최적화된 유전자의 3' 말단에 선택적으로 현수하였다. 이어서, 상이한 메이즈 최적화된 Cas-알파 엔도뉴클레아제 유전자 및 핵 국재화 신호 변이체의 뉴클레오티드 서열을 표준 분자 생물학 기법에 의해 프로모터(인간 세포 배양물 발현 작제물에 대해 메이즈 발현 작제물 및 닭 β-액틴 프로모터(서열번호 110)에 대한 유비퀴틴(UBI) 프로모터(서열번호 109)) 및 선택적으로 인핸서(예를 들어, 인간 세포 게놈 편집을 위한 거대세포바이러스(CMV) 인핸서(서열번호 111)) 및 적합한 종결자에 작동 가능하게 연결하였다. 발현을 추가로 향상시키기 위해, 5' 비번역 영역(UTR)(예를 들어, 제아 메이스 게놈 편집에 대해, 이하로 제한되는 것은 아니지만, 메이즈 UBI 5' UTR(서열번호 112)) 및 추가적인 인트론(예를 들어, 메이즈 게놈 편집에 대해 UBI 제아 메이스 인트론 1(서열번호 113) 및 인간 세포 게놈 편집에 대해 합성 "혼성" 인트론(서열번호 114))을 포함할 수 있다. 추가적으로, 감소된(예를 들어, 이하로 제한되는 것은 아니지만, 사카로마이세스 세레비시애 게놈 편집에 대해 ROX3 프로모터(서열번호 136)) 또는 제어된(예를 들어, 이하로 제한되는 것은 아니지만, 사카로마이세스 세레비시애 게놈 편집에 대해 GAL 프로모터(서열번호 137)) 발현이 바람직할 수 있다. 진핵 세포 최적화된 DNA 발현 작제물의 예를 도 10a 내지 도 10d에 도시한다.
Cas-알파 엔도뉴클레아제는 이중 가닥 DNA를 절단하기 위해 소형 RNA(본 명세서에서 가이드 RNA로 지칭됨)에 의해 유도된다. 이들 가이드 RNA는 Cas-알파에 의한 인식을 보조하는 서열(Cas-알파 인식 도메인으로 지칭됨) 및 DNA 표적 부위의 한 가닥과 염기쌍을 형성하여 Cas-알파 절단을 유도하는 작용을 하는 서열(Cas-알파 가변 표적화 도메인)을 포함한다. 메이즈 세포에서 Cas-알파 엔도뉴클레아제 절단 활성을 유도하기 위해 필요한 소형 RNA를 전사하기 위해, U6 중합체라아제 III 프로모터(서열번호 115) 및 종결자(TTTTTTTT)를 메이즈로부터 단리시키고, 전사 시 Cas-알파에 대한 적합한 가이드 RNA를 생성할 DNA 서열의 말단에 작동 가능하게 융합한다. 대안적으로, HEK293 세포에 대해, 인간 게놈으로부터의 U6 프로모터(서열번호 116)를 단리시키고, 가이드 RNA 발현을 유도하기 위해 사용하고, U6 종결자가 없는 선형 단편을 이용한다. U6 중합효소 III 프로모터로부터 가이드 RNA의 최적 전사를 촉진하기 위해, G 뉴클레오티드를 전사될 서열의 5' 말단에 첨가한다. 리보자임 모티프(Gao, Y. et al. (2014) J Integr Plant Biol. 56:343-349)), RNase P 및 Z 절단 부위(Xie, K. et al. (2015) Proc. Natl. Acad. Sci. USA. 112:3570-3575), 및/또는 Csy4(Cas6 또는 CasE) 리보뉴클레아제 인식 부위(Tsai, S.Q. et al. (2014) Nat Biotechnol. 32:569-576.)와 조합한 중합효소 II 프로모터(예를 들어, 이하로 제한되지 않는, Cas-알파 엔도뉴클레아제 발현에 대해 열거한 것)를 또한 사용하여 가이드 RNA를 발현시킬 수 있다. 게다가, 이들 전략에 의해 제공된 RNA 가공은 또한 단일 중합효소 II 또는 III 프로모터 중 하나로부터의 다중 가이드 RNA를 발현시키기 위해 이용될 수 있다(문헌[Gao, Y. et al. (2014)], 문헌[Xie, K. et al. (2015)] 및 문헌[Tsai, S.Q. et al. (2014)]). 진핵생물 최적화된 Cas-알파 가이드 RNA 발현 작제물의 예를 도 11a 내지 도 11d에 도시한다.
다른 방법에서, Cas-알파 엔도뉴클레아제 및 가이드 RNA 리보핵단백질(RNP) 복합체를 제조하고, 진핵 세포에 직접 전달하였다. 이를 달성하기 위해, Cas-알파 유전자, 즉, 천연 또는 코돈 최적화된 이콜라이 중 하나를 6X 히스티딘(His)을 암호화하는 서열(서열번호 82) 또는 스트렙타비딘(strep II)(서열번호 117) 태그, 말토스 결합 단백질(MBP) 태그(서열번호 83)로 현수하고, 담배 식각 바이러스 절단 부위(TEV)(서열번호 84), 및 NLS(서열번호 107 및 108 중 하나)는 cas-알파 유전자의 N- 또는 C-말단 중 하나에서 또는 N-말단과 C-말단 단부 둘 다에 포함하였다(도 12). 다음에, 얻어진 서열을 아라비노스 유도성 이콜라이 발현 카세트(pBAD24) 내로 합성하였다(GenScript). 얻어진 조작된 유전자의 예를 도 12에 나타낸다. 이어서, Cas-알파 단백질을 이콜라이에서 재조합적으로 발현시키고(예를 들어, 이하로 제한되는 것은 아니지만, ArcticExpress(DE3)(ThermoFisher Scientific), 당업계에 공지된 방법을 이용하여 크로마토그래피에 의해 정제하였다. TEV 프로테아제(ThermoFisher Scientific)를 이용하여 태그(His, strep II 및 MBP)를 선택적으로 제거하였다.
다음에, T7 중합효소를 이용하여 시험관내에서 Cas-알파 가이드 RNA를 합성하였다. sgRNA를 암호화하는 선형 DNA(중복 올리고(IDT)로서 합성하고, 이어서, PCR에 의해 이중가닥 DNA로 전환하거나 합성하고(GenScript), 이어서, PCR에 의해 증폭시킴)를 주형으로서 사용하였다.
최종적으로, 복합체 조립체(CA) 완충제(10 mM 트리스-HCl, 37℃에서 pH 7.5, 100 mM NaCl 및 1 mM DTT)에서 정제된 Cas-알파 단백질을 가이드 RNA와 함께 인큐베이션시킴으로써 RNP 복합체를 제조하고, 진핵 세포에 전달하였다.
실시예 8: 진핵생물 게놈 편집 및 조작을 위한 최적화된 Cas-알파 시스템 성분의 형질전환
본 실시예에서, 게놈 편집 및 조작을 위해 신규한 클래스 2 엔도뉴클레아제(Cas-알파) 및 연합된 가이드 폴리뉴클레오티드(들)를 진핵 세포에 도입하는 방법을 기재한다.
제아 메이스
형질전환
본 실시예에서, 게놈 편집 및 조작을 위해 신규한 클래스 2 엔도뉴클레아제(Cas-알파) 및 연합된 가이드 폴리뉴클레오티드(들)를 진핵 세포에 도입하는 방법을 기재한다.
DNA 발현 카세트의 입자 매개 전달
BBM 및 WUS2 유전자의 존재 하에 Hi-타입 II 8 내지 10일령의 미숙 메이즈 배아(IME)의 유전자총 형질전환을 문헌[Svitashev et al. (2015) Plant Physiology. 169:931-945]에 기재한 바와 같이 수행하였다. 간략하게, TransIT-2020를 이용하여 DNA 발현 카세트를 0.6 μM(평균 크기) 금 입자에 공동 침전시켰다. 다음에, DNA 코팅된 금 입자를 원심분리에 의해 펠릿화하고, 무수 에탄올로 세척하고, 음파처리에 의해 재분산시켰다. 음파 처리 후, DNA 코팅된 금 입자 10 ㎕를 매크로캐리어(macrocarrier) 상에 로딩하고, 공기 건조시켰다. 파열판의 평방인치당 425 파운드로 PDS-1000/He 총(Gun)(Bio-Rad)을 이용하여 바이오리스틱(biolistic) 형질전환을 수행하였다. 입자 총 형질전환은 매우 가변적일 수 있으므로, 균일하게 형질전환된 IME의 선택을 보조하기 위해 황색 형광 단백질(YFP)을 암호화하는 시각 마커 DNA 발현 카세트를 또한 공동 전달하였고 각각의 처리를 3개씩 수행하였다. Cas-알파 결합 또는 돌연변이 활성에 최적인 식물 형질전환 배양 조건을 결정하기 위해, 형질전환된 IME를 28℃에서 48시간 동안, 또는 28℃보다 낮거나 또는 보다 높은 온도 범위에서 인큐베이션시켜 Cas-알파 게놈 편집에 대해 최적인 온도를 확립한다.
입자-매개 리보핵단백질 전달
Cas-알파 및 연합된 가이드 폴리뉴클레오티드(들) 리보핵단백질(RNP) 복합체(들)를 문헌[Svitashev, S. et al. (2016) Nat. Commun. 7:13274]에 기재된 바와 같이 유전자총 형질전환에 의해 전달할 수 있다. 간략하게는, RNP(및 선택적으로 DNA 발현)를 다음과 같이 수용성 양이온성 지질 TransIT-2020(Mirus)을 사용하여 0.6 ㎜(평균 지름)의 금 입자(Bio-Rad) 상에 침전시킨다: 50 ㎖의 금 입자(10 ㎎/㎖의 물 현탁액) 및 2 ㎖의 TransIT-2020 수용액을 미리 혼합된 RNP(및 선택적으로 DNA 발현 벡터)에 첨가하고, 부드럽게 혼합하고, 얼음 위에서 10분 동안 인큐베이션한다. 이어서, RNP/DNA-코팅 금 입자를 8,000 g에서 30 s 동안 마이크로퓨지(microfuge)에서 펠릿화하고, 상청액을 제거한다. 그런 다음, 펠렛을 짧게 초음파 처리하여 50 ㎖의 멸균수에 재현탁시킨다. 초음파 처리 직후, 코팅된 금 입자를 마이크로캐리어(각각 10 ㎖)에 로딩하고 공기 건조시킨다. 수분(pollination)의 8 내지 10일 후에 미숙 메이즈 배아를 평방 인치당 425 파운드의 파열 압력으로 PDS-1000/He 총(Bio-Rad)을 이용하여 입자 충돌시킨다. 당업계에 공지된 방법을 이용하여 입자 충돌 후 배양, 선택, 및 식물 재생을 수행한다.
아그로박테리움 매개 형질전환
문헌[Djukanovic et al. (2006) Plant Biotech J 4:345-57]에 기재한 바와 같이 아그로박테리움-매개 형질전환을 본질적으로 수행한다. 간략하게, 10~12일령의 미숙 배아(0.8~2.5 ㎜의 크기)를 멸균 속씨로부터 절개하고 액체 배지(4.0 g/ℓ의 N6 기저염(Sigma C-1416), 1.0 ㎖/ℓ의 Eriksson의 Vitamin Mix(Sigma E-1511), 1.0 ㎎/ℓ의 티아민 HCl, 1.5 ㎎/ℓ의 2,4-D, 0.690 g/ℓ의 L-프롤린, 68.5 g/ℓ의 수크로스, 36.0 g/ℓ의 글루코스, pH 5.2)에 넣었다. 배아를 수집한 후에, 배지를 0.35 내지 0.45 OD550의 농도에서 1 ㎖의 아그로박테리움으로 대체한다. 메이즈 배아를 아그로박테리움으로 실온에서 5분 동안 인큐베이션한 다음, 혼합물을 배지 플레이트(4.0 g/ℓ의 N6 기저염(Sigma C-1416), 1.0 ㎖/ℓ의 Eriksson의 Vitamin Mix(Sigma E-1511), 1.0 ㎎/ℓ의 티아민 HCl, 1.5 ㎎/ℓ의 2,4-D, 0.690 g/ℓ의 L-프롤린, 30.0 g/ℓ의 수크로스, 0.85 ㎎/ℓ의 질산은, 0.1 nM 아세토시린곤, 및 3.0 g/ℓ의 겔라이트를 함유, pH 5.8)에 붓는다. 배아를 20℃에서 3일 동안 암실에서 축을 아래로 인큐베이션시키고, 이어서, 암실 내에서 DNA 추출을 위해 이들을 채취할 수 있는 시간에 28℃에서 4일 동안 인큐베이션시켰다.
안정한 형질전환을 위한 다른 변형에서, 이어서, 배아를 4.0 g/ℓ의 N6 기저염(Sigma C-1416), 1.0 ㎖/ℓ의 Eriksson의 Vitamin Mix(Sigma E-1511), 1.0 ㎎/ℓ의 티아민 HCl, 1.5 ㎎/ℓ의 2,4-D, 0.69 g/ℓ의 L-프롤린, 30.0 g/ℓ의 수크로오스, 0.5 g/ℓ의 MES 완충제, 0.85 ㎎/ℓ의 질산은, 3.0 ㎎/ℓ의 비알라포스, 100 ㎎/ℓ의 카베니실린, 및 6.0 g/ℓ의 한천을 함유한 pH 5.8의 새로운 배지 플레이트에 옮긴다. 유전자이식 사건이 확인될 때까지 배아를 3주마다 계대배양한다. 소량의 조직을 재생 배지(4.3 g/ℓ의 MS 염(Gibco 11117), 5.0 ㎖/ℓ의 MS 비타민 원액, 100 ㎎/ℓ의 미오-이노시톨, 0.1 μM의 ABA, 1 ㎎/ℓ의 IAA, 0.5 ㎎/ℓ의 제아틴, 60.0 g/ℓ의 수크로스, 1.5 ㎎/ℓ의 비알라포스, 100 ㎎/ℓ의 카르베니실린, 3.0 g/ℓ의 겔라이트, pH 5.6) 상에 옮기고 28℃에서 2주 동안 암소에서 인큐베이션시켜 체세포 배아발생을 유도한다. 가시적인 순 및 뿌리를 갖는 모든 물질을 4.3 g/ℓ의 MS 염(Gibco 11117), 5.0 ㎖/ℓ의 MS 비타민 원액, 100 ㎎/ℓ의 미오-이노시톨, 40.0 g/ℓ의 수크로오스, 1.5 g/ℓ의 겔라이트를 포함하는 pH 5.6의 배지 상에 옮기고, 28에서 인공광 하에 인큐베이션한다. 1주 후, 작은 식물을 동일한 배지를 포함하는 유리 튜브 내로 옮기고 이들을 샘플링하고/하거나 토양 내로 이식할 때까지 키운다.
HEK293 형질전환
세포 배양 리포펙션
37℃에서 5% CO2로 10% FBS(Gibco) 및 페니실린/스트렙토마이신(Gibco)과 함께 DMEM(Gibco)에서 HEK293(ATCC) 세포를 배양하였다. 형질감염 전날에 세포를 96-웰 플레이트에서 3.6×104개의 밀도로 파종하였다. 20 p㏖의 정제된 단백질을 25 ㎕ Opti-MEM(Gibco) 중 20 p㏖의 sgRNA와 혼합함으로써 NLS-태그된 Cas-알파 RNP 복합체를 조립하고 실온에서 30분 동안 인큐베이션시켰다. 복합체 조립 후에, 1.2 ㎕의 리포펙타민 3000(Thermo Fisher Scientific)을 함유하는 25 ㎕의 Opti-MEM을 첨가하고, 혼합물을 추가 15분 동안 실온에서 인큐베이션시킨 후에 세포를 형질감염시켰다. QuickExtract DNA 추출 용액(Lucigen)을 이용하여 형질감염 후 72시간에 게놈 DNA를 추출하고, DNA 이중 가닥 파손 및 수선을 나타내는 돌연변이의 존재에 대해 표적 부위를 둘러싸는 영역을 평가하였다.
세포 배양 전기천공법
Cas9 RNP를 Lonza 4D-Nucleofector 시스템 및 SF 세포주 4D-Nucleofector® X 키트(Lonza)를 사용하여 HEK293(ATCC 카탈로그 번호 CRL-1573) 세포로 전기천공시켰다. 각각의 전기천공에 대해, 실온에서 20분 동안 17 ㎕의 부피의 뉴클레오펙터 용액 중 50 p㏖의 Cas9 단백질과 100 p㏖의 sgRNA를 인큐베이션시켜 RNP를 형성하였다. Ca++ 또는 Mg++이 없는 1×PBS(ThermoFisher)로 세척한 TrypLE™ Express Enzyme 1×(ThermoFisher)를 사용하여 배양 용기에서 HEK293 세포를 방출시키고, LUNA™ 자동 세포 계수기(Logos Biosystems)를 사용하여 계수하였다. 각각의 전기천공에 대해, 1x 10^5의 살아 있는 세포를 9 ㎕의 전기천공 용액에 재현탁시켰다. 세포와 RNP를 혼합하고 16 웰 스트립의 한 웰로 옮기고 CM-130 프로그램을 사용하여 전기천공하였다. 75 ㎕의 예열된 배양액을 각 웰에 첨가하고, 생성된 재현탁 세포 10 ㎕를 예열된 배양 배지 125 ㎕를 함유하는 96 웰 배양 용기의 웰에 분배하였다. 전기천공된 세포를 48 내지 96시간 동안 가습 인큐베이터에서 37℃, 5%의 CO2에서 인큐베이션한 후, 게놈 편집을 분석하였다.
사카로마이세스 세레비시애
형질전환
몇 가지 방법(아세트산리튬, 폴리에틸렌 글리콜(PEG), 열 충격, 전기천공법, 바이오리스틱 및 기타)을 사용하여 사카로마이세스 세레비시애를 형질전환시킬 수 있다(Kawai, S. et al. (2010) Bioengineered Bugs. 1:395-403). 본 명세서에서 본 발명자들은 냉동-EZ 효모 형질전환 키트(Zymo Research, T2001)를 이용하여 리튬 양이온-기반 방법과 유사한 접근을 사용하였다. 제조업자의 지침에 따라, 사카로마이세스 세레비시애 적격 세포를 생성하였다. 효모 추출물-펩톤-덱스트로스(YPD)(Gibco)에서 사카로마이세스 세레비시애(BY4742 (Baker, C. et al. (1998) Yeast. 14:115-132)(ATCC))를 0.8 내지 1.0의 OD 600 ㎚에 대응하는 대수증식기 중간까지 성장시킴으로써 이를 달성하였다. 다음에, 세포를 원심분리(4분 동안 500xg)에 의해 펠릿화하고, 배지를 디캔팅하고, 펠릿을 10 ㎖의 EZ 1 용액으로 약하게 세척하여, 세척 용액을 제거하기 전에 다시 세포를 스핀다운하였다. 다음에, 세포를 1 ㎖의 EZ 2 용액 중에서 재현탁시켰다. 이어서, 얻어진 적격 세포를 분취하고, -70℃에서 저장하거나 다음 단계에서 사용하였다. 다음에 0.5 내지 1 ㎍(5 ㎕ 미만)의 Cas-알파 및 가이드 RNA DNA 발현 카세트를 50 ㎕의 적격 세포에 첨가함으로써 형질전환을 수행하였다. 선택적으로, 예상된 Cas-알파 이중 가닥 파손 부위에 측접하는 상동성을 갖는 이중가닥 DNA 수선 주형을 또한 포함하였다(50 μM에서 0.5 ㎕). DNA에서 약하게 혼합한 후에, 500 ㎕의 EZ 3 용액을 첨가하였다. 다음에, 세포를 30℃에서 60 내지 90분 동안 인큐베이션하고, 인큐베이션의 지속에 걸쳐 세포를 3 내지 4회 플리킹(flicking) 또는 교반하였다. 형질전환 후에, 세포를 대략 3시간 동안 YPD에서 성장시키고, 펠릿화하고, 1 ㎖의 멸균수로 1회 세척하고, 1 ㎖의 멸균수에서 재현탁시키고, 이어서, 대략 200 ㎕를 선택 배지(예를 들어, 이하로 제한되는 것은 아니지만, 합성 배지 마이너스 히스티딘(SC-HIS))에 플레이팅하였다.
실시예 9: 진핵 세포에서 최적화된 Cas-알파/가이드 폴리뉴클레오티드 복합체의 기능성 형성
본 실시예에서, 진핵 세포에서 신규한 클래스 2 엔도뉴클레아제(Cas-알파) 및 연합 가이드된 RNA(들)(폴리뉴클레오티드(들)) 복합체의 기능성 형성을 시험하기 위한 방법을 기재한다.
DNA 표적 부위 이중가닥 절단 및 세포 수선을 나타내는 삽입 및 결실(삽입결실) 돌연변이의 존재에 대해 하나 이상의 상이한 염색체 DNA 표적 서열을 시험함으로써 진핵 세포에서 신규한 클래스 2 엔도뉴클레아제(Cas-알파) 및 가이드 RNA(s) 복합체의 기능성 형성을 모니터링하였다. 이를 문헌[Karvelis, T. et al. (2015) Genome Biology. 16:253 (Methods Section: in planta mutation detection)] 또는 DNA에서 변경을 검출하도록 고안된 다른 동등한 방법에 기재된 바와 같은 표적화된 심층 서열분석에 의해 수행하였다. 간략하게, 제아 메이스에 대해, 각 실험을 위해 형질전환의 2일 후에 이들의 형광에 기반하여 20 내지 30개의 가장 균일하게 형질전환된 미숙 배아(IE)를 채취하였다. 다음에, 전체 게놈 DNA를 추출하고, 의도되는 표적 부위 주변 영역을 앰플리콘 특이적 바코드 및 2회의 PCR 및 심층 서열분석을 통해 "테일링된(tailed)" 프라이머를 사용한 Illumina 서열분석을 위해 필요한 서열에 첨가하여 Phusion® 고충실도 PCR 마스터 믹스(New England Biolabs, M0531L)로 PCR 증폭하였다. 이어서 생성된 판독치를 소형 RNA 전사 카세트가 형질전환으로부터 생략된 대조 실험과의 비교에 의해 예상되는 절단 부위에서 돌연변이의 존재에 대해 조사하였다. 서열 판독은 대조군 데이터세트에서 이들의 부재를 확인함으로써 실제 돌연변이로서 추가로 입증된 추정 삽입결실을 포함한다.
사카로마이세스 세레비시애에 대해, DNA 추출, PCR 증폭 및 Illumina 심층 서열분석 전에 ade2 유전자의 붕괴로부터 초래된 적색 세포 표현형을 나타내는 콜로니(Ugolini et al. (1996) Curr. Genet. 30:485-492)을 선택한 것을 제외하고 유사한 접근을 적용하였다.
HEK293에 대해, 형질전환 후 72시간에 세포 배양물을 채취한 것을 제외하고 유사한 과정을 수행하였다.
도 13에 도시하고 표 16에 나타낸 바와 같이, Cas-알파 DNA 발현 작제물을 제아 메이스 IE에 전달하는 유전자총 실험은 Cas-알파4 및 가이드 RNA 복합체에 대한 염색체 DNA 표적 부위에서 그리고 이를 포괄하는 결실 돌연변이를 대부분 수득하였다. 이들 실험에서, 도 10b에 나타낸 바와 같은 발현(SV40 NLS를 암호화하는 서열을 유전자의 3' 말단에서 프레임에 첨가하는 것을 제외)에 대해 구성한 메이즈 코돈 최적화된 cas-알파4 유전자(서열번호 235)를 사용하였다. Cas-알파4(5'-TTTR-3', 여기서 R은 A 또는 G 잔기 중 하나를 나타냄; 표 7 참조)에 대해 적합한 PAM에 바로 인접한 염색체 DNA 표적과 염기 짝짓기를 할 수 있는 20 nt 영역을 갖는 sgRNA(표 19)을 도 11b에 도시한 바와 같이 제아 메이스 U6 프로모터로부터 발현시켰다. 이 예에서, 2개의 가이드 RNA를 사용하여 제아 메이스 Liguleless 좌위 내 2개의 표적 부위에서 Cas-알파4 절단을 지시하였다.
더 나아가, 도 18a 및 도 18b에 도시하고 표 17에 나타낸 바와 같이, Cas-알파10 DNA 발현 작제물을 제아 메이스 IE에 전달하는 유전자총 실험은 표적화된 결실의 회복을 초래하였다. 이들 실험에서, 도 10b에 나타낸 바와 같은 발현(SV40 NLS를 암호화하는 서열을 유전자의 3' 말단에서 프레임에 첨가하는 것을 제외)에 대해 구성한 메이즈 코돈 최적화된 cas-알파10 유전자(서열번호 236)를 사용하였다. Cas-알파10에 대해 적합한 PAM에 바로 인접한 염색체 DNA 표적과 염기 짝짓기를 할 수 있는 20 nt 영역을 갖는 sgRNA(표 19)을 도 11b에 도시한 바와 같이 제아 메이스 U6 프로모터로부터 발현시켰다. 메이즈 게놈에 안정하게 삽입한 식물 선택 가능 마커인 네오마이신 포스포트랜스퍼라제(nptII)의 발현을 유도하는 유전자이식 작제물을 Cas-알파10을 이용하는 절단을 위해 표적화하였다(5'-TTC-3'; 표 16). 도 18a 및 표 17에 나타낸 바와 같이, 예상된 절단 부위 내에서 유래되거나 확장된 대조군에서 발견되지 않는 결실(sgRNA 발현 카세트를 생략한 실험 설정)을 회복하였다. 본 발명자들의 발견을 확인하기 위해, 절단을 위해 (표 19의 sgRNA 10.25.ms26을 이용하여) ms26 유전자(Chr1:14,702,638-14,702,654(메이즈 B73 RefGen_4 (Jiao, Y. et al. (2017) Nature. 546:524-527))의 다섯번째 엑손 내의 단일 비유전자이식 염색체 DNA 표적을 또한 표적화하였다. nptII 표적과 같이, 뉴클레아제 절단 부위에서 또는 근처에서 이 부위는 또한 표적화된 결실을 생성하였다(도 18a, 도 18b 및 표 17).
사카로마이세스 세레비시애에서 표적 DNA 절단 및 수선을 또한 관찰하였다(도 19a 내지 도 19c). 본 명세서에서, Cas-알파 10 표적 부위에 측접하는 상동성을 갖는 외인성으로 공급된 DNA 수선 주형(이중가닥)을 사용하여 Cas-알파 10 유도 이중 가닥 파손(DSB) 후 ade2 유전자에 (DNA 수선 결과에 따라서) 1 또는 2개의 조기 중단 코돈을 도입하였다(도 19a). 추가적으로, 수선 주형의 표적화를 피하기 위해, 또한 Cas-알파 10에 대한 PAM 영역에서 T의 A로의 변화를 포함하였다. 나타낸 바와 같이, 도 19b에서, ade2 유전자 붕괴를 표시하는 적색 세포 표현형은 수선 주형과 Cas-알파10 및 sgRNA 발현 작제물이 모두 형질전환될 때 회복되었다. 효모 코돈 최적화된 유전자를 이용하여 도 10c에 나타낸 바와 같이 Cas-알파10 발현 작제물을 구성하였다(서열번호 137). 측접하는 HH 및 HDV 리보자임을 이용하여 SNR52 프로모터로부터 ade2 표적화 sgRNA를 발현시켰다(도 11c). Cas-알파10 ade2 유전자 표적 부위의 서열분석은 3개의 독립적 적색 콜로니에서 적어도 하나의 정지 코돈의 도입을 확인하였다(도 19c). 추가적으로, 절단의 Cas-알파10 부위에 가까운 수선 주형의 변화만을 포함하여, Cas-알파10 유도 DSB의 수선을 위한 추가 증거를 제공하였다(도 19c). 또한, 이 수선 결과는 가이드 RNA 표적의 원위 말단으로 향하는 1 또는 2개의 미스매치만이 절단 활성을 없애기에 충분하다는 것을 시사하며(다른 돌연변이가 회복되지 않았기 때문), 종합하면, Cas-알파 뉴클레아제가 우수한 가이드 RNA-DNA 표적 인식 특이성을 제공한다는 것을 나타낸다. Cas-알파10이 결과에 절대적으로 필요하다는 것을 확인하기 위해, DNA 수선 주형 단독을 전달하는 대조군 실험을 조립하였다. 이들은 백색 콜로니만을 생성하였고, 이는 추가로 Cas-알파10(및 가이드 RNA)이 상동 직접 수선에 의해 본 명세서에 측정된 바와 같은 염색체 DNA 표적 부위를 인식하고 절단하는 능력을 추가로 입증하였다.
HEK293 염색체 표적의 DNA 절단 및 수선은 또한 결실 돌연변이를 초래하였다(도 14a 및 도 14b 및 표 18). DNA 발현 카세트(도 10a 및 도 11a 참조)를 이용하여 그리고 진핵생물 조작된 Cas-알파4 sgRNA 리보핵단백질(RNP) 복합체를 이용하여 직접적으로 수행한 형질전환 실험으로 돌연변이를 얻었다. 모두에서, 2개의 HEK293 게놈 표적, 즉, VEGFA2 및 3으로부터 돌연변이를 회복하였다(도 14a 및 도 14b).
재조합 DNA 작제물뿐만 아니라 리보핵단백질 전달을 이용하는 실시예에 의해 식물, 효모 및 동물 세포에서 게놈 DNA 표적 부위에서의 Cas-알파 이중 가닥 파손 절단 및 수선으로 인한 돌연변이가 회복되었다. 이들 데이터는 진핵 세포, 식물(제아 메이스), 효모(사카로마이세스 세레비시애), 및 동물(호모 사피엔스) 세포에서 Cas-알파 가이드 폴리뉴클레오티드 복합체 형성 및 절단 활성의 첫 번째 증거를 제시한다.
실시예 10: 원핵세포 분석에서의 이중 가닥 DNA 절단
본 실시예에서, 이종성 원핵 세포에서 신규한 클래스 2 엔도뉴클레아제(Cas-알파) 및 연합 가이드된 RNA(들)(폴리뉴클레오티드(들)) 복합체의 기능성 형성을 시험하기 위한 방법을 기재한다.
도 17a에 나타낸 바와 같이, Cas-알파 이중가닥 DNA 표적 절단을 평가하기 위한 한 가지 방법은 이콜라이 세포에서 플라스미드 DNA 형질전환을 방해하는 능력을 시험하는 것이다(Burstein, D. et al. (2017) Nature. 542:237-241). 본 명세서에서, 선택 가능 마커(예를 들어, 이하로 제한되는 것은 아니지만, 암피실린) 및 Cas-알파 표적 부위(프로토스페이서 인접 모티프(PAM) 근처에 있는 CRISPR RNA와 염기가 짝지어질 수 있는 영역)를 포함하는 이중가닥 플라스미드 DNA를 당업계에 공지된 방법(예를 들어, 이하로 제한되는 것은 아니지만, 전기천공법) Cas-알파 엔도뉴클레아제 및 가이드 RNA 발현 카세트를 포함하는 이콜라이(ArcticExpress DE3 또는 동등물)에 형질전환시킨다. 이중가닥 DNA 표적 절단의 부재 하에, 선택 배지 상의 성장에 의해 플라스미드 및 항생제 저항성 마커를 포함하는 다수의 세포를 회복한다. 대조적으로, 유입 플라스미드 DNA의 이중가닥 DNA 표적 절단은 저항성 세포의 회복에서 감소 또는 간섭을 초래한다.
Cas-알파2, 3, 6, 7, 8, 9, 10 및 11의 dsDNA 절단 활성을 평가하기 위해, 이콜라이 세포에서 플라스미드 DNA 간섭 실험을 조립하였다. Cas-알파 표적 부위를 포함하지 않는 플라스미드("표적 없음")를 이용하는 실험 설명은 형질전환 효율에 대한 기준을 제공하였다. 또한, 간섭 실험은 상이한 Cas-알파 엔도뉴클레아제 및 가이드 RNA 발현 조건 하에 표적 절단을 시험하기 위해 IPTG(0.5 mM)를 이용하여 그리고 IPTG 없이 수행하였다. 100 ng의 "표적" 또는 "표적 없음"의 플라스미드 DNA를 IPTG 유도성 Cas-알파 엔도뉴클레아제 및 가이드 RNA 발현 카세트(예를 들어, R-657)를 포함하는 Arctic Express(DE3) 세포주에 형질전환시켰다. 형질전환을 10배 증분으로 희석시키고, 선택 배지 상에 스팟팅하고, 37℃에서 밤새 성장시키고, 박테리아 콜로니 성장에 대해 검사하였다.
도 17b 내지 도 17e는 Cas-알파 2, 3, 6, 7, 8, 9, 10 및 11에 대한 결과를 나타낸다. Cas-알파3 및 11(도 17b 및 도 17e)은 플라스미드 형질전환에 대해 임의의 영향을 나타내지 않은 "표적 없음" 및 "표적" 실험 및 Cas-알파2 및 6에서 형질전환체의 감소된 회복에 의해 분명한 바와 같이 발현 유도 시 세포독성이었다(도 17b 및 도 17c). 이는 약한 간섭 활성을 제공한 Cas-알파7 및 9(도 17c 및 도 17d) 및 "표적" 형질전환 콜로니의 수를 강하게 감소시킨 Cas-알파8 및 10(도 17d 및 도 17e)과 대조적일 수 있다.
종합하면, 이는 일부이지만, 모두는 아닌 Cas-알파 엔도뉴클레아제 및 가이드 RNA가 이종성 원핵 세포 환경에서 dsDNA 표적을 인식 및 절단하는 작용을 한다는 것을 설명한다.
실시예 11: Cas-알파 계통 발생학적 분석
본실시예에서, 클래스 2 CRISPR(규칙적 간격으로 분포하는 회문구조의 짧은 반복부)-Cas(CRISPR 연합) 엔도뉴클레아제인 Cas-알파의 신규한 그룹의 계통발생학적 관계를 평가하기 위한 방법을 기재한다.
먼 친적관계를 확인하기 위해, PSI-BLAST 라운드 사이의 위치-특이적 스코어링 매트릭스(PSSM)의 작제를 위한 적어도 70%의 전장 적용범위를 포함하는 해당 정렬만을 선택하여 Cas-알파 1 내지 11을 이용하여 PSI-BLAST의 2회 반복을 수행하였다. 다음에, CRISPR 어레이에 인접하여 암호화된 해당 단백질(MinCED에 의해 검출된 바와 같음)만을 선택하여, 크기가 327 내지 777개의 아미노산 범위에 있는 118개의 추가적인 Cas-알파 엔도뉴클레아제(서열번호 254 내지 371)의 확인을 초래하였다. 이어서, MEGA 소프트웨어(version 10.0.5)(Kumar, S. et al. (2018) Molecular Biology and Evolution. 35:1547-1549))를 이용하여 계통 발생학적 분석(최대 가능성 방법 및 JTT 매트릭스-기반 모델(Jones, D.T. et al., (1992) Computer Applications in the Biosciences 8: 275-282)을 수행하였다. 이는 대부분 3가지 계통의 미생물, 즉, 칸디다투스 아카에아, 클로스트리디아 및 바실리로부터 유래된 Cas-알파 뉴클레아제의 3가지 별개의 그룹(I, II 및 III)의 형성을 나타내었다(도 20). 또한 CRISPR-Cas 적응 유전자(Cas1, Cas2, 및 선택적으로 Cas4)를 암호화한 해당 좌위는 고세균으로부터의 Cas-알파 단백질과만 연합되었다. Cas-알파 뉴클레아제를 확인한 다른 박테리아는 산수균문, 델타프로테오박테리아, 박테로이데테스, 칸디데이트 레비박테리움, 네가티비쿠테스 및 플라보박테리아에 속하는 유기체를 포함하였다(도 20). 추가적으로, 분기도의 위상은 Cas-알파 엔도뉴클레아제가 확인된 미생물과 부분적으로만 매칭되었다. 바실리와 클로스트리디아(Clostrida) 둘 다에 존재하는 그룹 III으로부터 유래된 대부분의 차이는 미생물의 이런 2가지 부류 간의 수평적 유전자 이동(horizontal transfer)을 시사한다(도 20).
실시예 12: Cas-알파 RNA-가이드 DNA 인테그라제
본 실시예에서, 트랜스포사제(예를 들어, 이하로 제한되는 것은 아니지만, TnpA)와의 복합체에서 Cas-알파 엔도뉴클레아제 및 가이드 폴리뉴클레오티드는 DNA 페이로드를 부위-특이적으로 삽입하는 데 이용할 수 있다.
Tn7-유사 유전자 이동 요소는 CRISPR-연합(Cas) 단백질을 포획하였고(Peters, J. et al. (2017) Proc. Natl. Acad. Sci. USA. 114:E7358-E7366), 새로운 위치에 자신을 복제하는 RNA-가이드 기반 메커니즘을 진화시키며, 특정 부위에서 DNA(예를 들어, 이하로 제한되는 것은 아니지만, 시스- 또는 트랜스 유전자)의 삽입에 따르는 게놈 편집 접근을 진행하는 것을 제공한다(문헌[Strecker, J. et al. (2019) Science. 365:48-53] 및 문헌[Klompe, S. et al. (2019) Nature. 571:219-225]). 본 명세서에서, 본 발명자들은 IS200/IS605 및 IS4 이동 요소에 속하는 트랜스포사제(Tnp) 단백질이 일부 Cas-알파 엔도뉴클레아제에 인접하여 암호화된다는 것을 발견한다(도 21a). 종합하면, 이는 Cas-알파 엔도뉴클레아제가 프로그램 가능한 DNA 통합을 할 수 있는 트랜스포사제 복합체의 부분으로서 작용하는 데 이용될 수 있다는 것을 시사한다(도 21b).
SEQUENCE LISTING
<110> Pioneer Hi-Bred International, Inc.
<120> NOVEL CRISPR-CAS SYSTEMS FOR GENOME EDITING
<130> RTS21920B
<150> 62/779989
<151> 2018-12-14
<150> 62/794427
<151> 2019-01-18
<150> 62/819409
<151> 2019-03-15
<150> 62/852788
<151> 2019-05-24
<150> 62/913492
<151> 2019-10-10
<160> 371
<170> PatentIn version 3.5
<210> 1
<211> 327
<212> PRT
<213> Unknown
<220>
<223> Candidatus Micrarchaeota archaeon
<400> 1
Met Gln Leu Ile Ile Asp Asp Tyr Gly Ala Tyr Leu Gly Gln Lys Asp
1 5 10 15
Asn Leu Phe Gln Ile Arg Lys Lys Asp Gly Thr Cys Glu Glu Tyr Ser
20 25 30
Ala Asp Lys Val Glu Gln Ile Leu Leu Val Lys Asn Ser Cys Ile Ser
35 40 45
Ser Arg Ala Ala Leu Leu Ala Ala Arg Asn Asn Ile Asp Val Val Phe
50 55 60
Val Gly Lys Phe Gly Met Pro Glu Gly Arg Ile Phe Pro Ala Cys Leu
65 70 75 80
Gly Gly Thr Asn Leu Ile Arg Arg Lys Gln Leu Glu Ala Gly Gln Asn
85 90 95
Glu Lys Gly Gly Lys Ile Ala Ile Lys Leu Ile Trp Ala Lys Ile Lys
100 105 110
Asn Glu Glu Phe Phe Leu Lys Thr Leu Asn Lys Ser Arg Thr Ala Pro
115 120 125
Leu Leu Leu Glu Lys Ala Glu Lys Ile Ser Ala Ile Ala Glu Gln Val
130 135 140
Arg Gln Met Leu Gly Glu Lys Phe Asp Ala Asp Arg Val Phe Gly Phe
145 150 155 160
Glu Gly Leu Ala Ala Ala His Tyr Phe Glu Gly Leu Ser Gln Val Met
165 170 175
Pro Ile Glu Lys Arg Asp Gln Glu Gly Lys Asp Ala Pro Asn Ala Leu
180 185 190
Leu Asn Tyr Gly Tyr Gly Met Leu Tyr Gly Glu Ile Glu Lys Ala Cys
195 200 205
Leu Phe Ala Gly Leu Asp Pro Tyr Leu Gly Phe Leu His Ala Asp Arg
210 215 220
Tyr Gly Lys Pro Ser Leu Val Leu Asp Leu Ile Glu Glu Phe Arg Pro
225 230 235 240
Val Ile Val Asp Arg Ala Ile Ile Thr Leu Tyr Ala Gln Lys Gln Ile
245 250 255
Asn Glu Ser Asp Phe Glu Gln Gly Gly Asp Lys Ile Phe Leu Ser Lys
260 265 270
Glu Gly Arg Lys Lys Met Ile Lys Ala Ile Met Glu Arg Leu His Ala
275 280 285
Lys Ile Thr Ser Asp Gly Arg Lys Leu Glu Leu Ser Val Ile Ile Gln
290 295 300
Glu Gln Ala Arg Arg Ile Ala Ser Phe Val Lys Gly Glu Ser Glu Phe
305 310 315 320
Glu Pro Phe Leu Tyr Arg Trp
325
<210> 2
<211> 329
<212> PRT
<213> Unknown
<220>
<223> Candidatus Micrarchaeota archaeon
<400> 2
Met Ile Leu Val Ile Asn Asp Phe Ser Thr Phe Leu Gly Lys Lys Gly
1 5 10 15
Asp Arg Phe Val Ile Lys Lys Glu Asn Lys Arg Glu Glu Phe Ser Thr
20 25 30
Asn Asn Val Glu Gln Ile Ile Ile Ala Ala Val Ser Ser Ile Ser Tyr
35 40 45
Gly Ala Ile Arg Leu Ala Ile Lys His Ser Ile Asp Val Val Phe Leu
50 55 60
Ser Arg Gly Gly Thr Pro Leu Gly Arg Ile Tyr Pro Cys Lys Leu Gly
65 70 75 80
Gly Thr Thr Leu Thr Arg Lys Lys Gln Leu Glu Ala Tyr Tyr Ser Thr
85 90 95
Val Gly Thr Asn Ile Val Lys Asn Leu Val Lys Ala Lys Ile Met Asn
100 105 110
Gln Ala Tyr Phe Leu Lys Ser Leu Glu Lys Thr Arg Lys Asp Ile Asn
115 120 125
Phe Thr Ser Glu Ile Asn Ser Ile Val Asn Ile Ala Lys Lys Ile Pro
130 135 140
Gly Leu Thr Gly Leu Ile Asp Asp Ile Arg Gly Thr Leu Leu Gly Tyr
145 150 155 160
Glu Gly Ile Ala Ala Asn Lys Tyr Phe Ser Ser Leu Ser Asn Ile Leu
165 170 175
Pro Phe Lys Gly Arg Asp Arg Thr Ser Asn Asp Tyr Val Asn Ile Val
180 185 190
Leu Asn Tyr Gly Tyr Gly Val Leu Tyr Thr Glu Ala Glu Lys Ala Cys
195 200 205
Ile Leu Ala Gly Leu Asp Pro Tyr Phe Gly Phe Leu His Lys Asp Arg
210 215 220
Tyr Asn Lys Pro Ser Met Val Leu Asp Leu Val Glu Ile Phe Arg Pro
225 230 235 240
Ile Ile Val Asp Arg Ala Val Val Thr Leu Phe Ser Gln Lys Gln Ile
245 250 255
Asn Ser Lys Cys Phe Glu Lys Glu Thr Tyr Gly Asp Val Phe Leu Ser
260 265 270
Lys Glu Gly Arg Glu Lys Ile Leu Ser Ala Leu Leu Ser Arg Leu Asn
275 280 285
Gln Gln Ile Arg Phe Lys Gly Lys Lys Thr Ser Phe Lys Asn Ile Ile
290 295 300
Leu Gly Glu Ser Arg Ser Ile Ala Gln Tyr Val Leu Gly Asn Ile Pro
305 310 315 320
Glu Tyr Glu Pro Phe Val Tyr Arg Trp
325
<210> 3
<211> 326
<212> PRT
<213> Unknown
<220>
<223> Candidatus Aureabacteria bacterium
<400> 3
Met Gln Leu Val Ile Asp Asp Phe Gly Thr Phe Val Lys Lys Lys Gln
1 5 10 15
Asn Arg Phe Glu Val Ala Arg Lys Glu Lys Thr Glu Glu Phe Ser Ala
20 25 30
Asp Lys Val Ser Gln Ile Val Leu Leu Lys Lys Gly Thr Ile Ser Gly
35 40 45
Ser Ala Val Ala Leu Ala Met Glu Lys Asn Ile Asp Val Val Tyr Leu
50 55 60
Asp Ser Phe Gly Lys Pro Ile Ala Arg Ile Phe Pro Cys Thr Leu Gly
65 70 75 80
Gly Thr Thr Leu Ile Arg Arg Arg Gln Ala Glu Ala Thr Ala Ser Leu
85 90 95
Tyr Ala Val Pro Tyr Val Arg Ala Phe Val Lys Ser Lys Met Leu Asn
100 105 110
Gln Ala Ala Leu Leu Lys Ser Leu Asn Lys Thr Arg Asn Gly Leu Phe
115 120 125
Leu Glu Arg Ile Arg Glu Ile Glu Arg Ile Ile Glu Lys Ser Glu Asp
130 135 140
Ala Val Gly Asp Tyr Val Asp Asp Leu Arg Ser Ala Leu Ile Gly Tyr
145 150 155 160
Glu Gly Asn Val Ala Ala Ile Tyr Phe Asp Cys Ile Arg Ala Leu Ile
165 170 175
Pro Phe Gly Arg Arg Lys Arg Gly Ala Lys Asp Arg Phe Asn Ser Ala
180 185 190
Leu Asn Tyr Ala Tyr Gly Ile Leu Tyr Ser Gln Ile Glu Lys Ala Cys
195 200 205
Leu Leu Ala Gly Leu Asp Pro Tyr Leu Gly Phe Val His Ser Asp Arg
210 215 220
Tyr Gly Lys Pro Ser Leu Val Leu Asp Phe Ile Glu Gln Phe Arg Gln
225 230 235 240
Pro Ile Ala Asp Arg Ala Val Ile Thr Ile Phe Val Lys Lys Glu Leu
245 250 255
Ala Asp Asp Ser Phe Ile Glu Glu Glu Ile Val Gln Leu Ser Ser Lys
260 265 270
Gly Lys Lys Lys Ile Val Glu Ala Ile Tyr Gly Arg Leu Ser Ser Glu
275 280 285
Phe Thr His Asn Gly Lys Lys Met Thr Phe Glu Lys Val Ile Ile Asp
290 295 300
Lys Ala Arg Glu Phe Ala Gly Cys Ile Leu Glu Met Lys Glu Tyr Glu
305 310 315 320
Pro Phe Val His Arg Trp
325
<210> 4
<211> 248
<212> PRT
<213> Unknown
<220>
<223> Uncultured archaeon
<400> 4
Met Glu Ser Asn Val Asp Ile Val His Leu Gly Arg Arg Gly His Pro
1 5 10 15
His Ala Arg Val Tyr Pro Cys Thr Leu Gly Gly Thr Thr Leu Thr Arg
20 25 30
Arg Arg Gln Leu Glu Ala Tyr Tyr Ala Glu Glu Gly Thr Tyr Leu Ala
35 40 45
Lys Gln Phe Ile Met Ala Lys Ile Arg Asn Gln Ala Ala Leu Leu Arg
50 55 60
Ser Leu Gly Lys Ser Arg Gly Asn His Ser Leu Leu Phe Ser Ala Lys
65 70 75 80
Ala Ile Gly Lys Gly Thr Asn Asp Val Asp Ala Leu Lys Gly Thr Ile
85 90 95
Asp Glu Ile Arg Pro Lys Leu Leu Gly Met Glu Gly Asn Ala Ser Ser
100 105 110
Val Tyr Phe Gly Ala Leu Ala Gly Ile Leu Pro Phe Ser Gly Arg Asp
115 120 125
Arg Asn Ser Lys Asp Pro Val Asn Ile Leu Leu Asn Tyr Gly Tyr Gly
130 135 140
Met Leu Tyr Gly Glu Ile Glu Arg Ala Cys Val Ile Ala Gly Leu Asp
145 150 155 160
Pro Tyr Leu Gly Phe Met His Thr Asp Arg Tyr Gly Lys Pro Ser Met
165 170 175
Thr Leu Asp Leu Ile Glu Glu Phe Arg Gln Pro Ile Val Asp Arg Thr
180 185 190
Leu Val Thr Leu Phe Ala Gln Lys Gln Ile Glu Asp Ala Asp Phe Glu
195 200 205
Ala His Gly Asp Ser Arg Leu Leu Ser Arg Gln Gly Arg Glu Lys Ile
210 215 220
Ile Lys Ala Val Leu Glu Arg Leu Ser Gln Lys Val Arg Arg Ala Gly
225 230 235 240
Ala Gln Arg His Pro Val Ser Pro
245
<210> 5
<211> 98
<212> PRT
<213> Unknown
<220>
<223> Candidatus Micrarchaeota archaeon
<400> 5
Met Phe Tyr Trp Val Ile Tyr Asp Ile Ser Glu Asn Lys Lys Arg Gly
1 5 10 15
Arg Val Ala Arg Ile Cys Lys Asn Tyr Gly Phe Arg Arg Val Gln Lys
20 25 30
Ser Ala Phe Ala Gly Glu Thr Ser Lys Asn Lys Val Glu Met Leu Leu
35 40 45
Leu Glu Cys Asn Glu Ile Ile Glu Gly Gly Asp Asp Tyr Leu Phe Val
50 55 60
Ile Pro Asn Cys Thr Ser Cys Phe Asn Gly Lys Met Ile Thr Gly Cys
65 70 75 80
Leu Asp Glu Lys Arg Val Arg Asn Gln Pro Tyr Met Phe Val Gly Asp
85 90 95
Gly Ala
<210> 6
<211> 94
<212> PRT
<213> Unknown
<220>
<223> Candidatus Micrarchaeota archaeon
<400> 6
Met Ile Tyr Trp Val Ile Tyr Asp Ile Thr Asp Asn Lys Val Arg Ser
1 5 10 15
Lys Val Ala Glu Glu Cys Lys Asn Leu Gly Leu His Arg Val Gln Lys
20 25 30
Ser Ser Phe Ile Gly Ile Leu Ser Arg Asn Thr Ala Glu Met Leu Tyr
35 40 45
Ile Lys Ile Gly Asp Leu Ile Asp Lys Arg Asp Cys Val Phe Phe Ile
50 55 60
Pro Gln Cys Asn Lys Cys Phe Ala Asp Lys Leu Ile Leu Gly Asp Phe
65 70 75 80
Asp Glu Arg Thr Val Glu Ala Lys Asp Phe Ile Val Val Gln
85 90
<210> 7
<211> 100
<212> PRT
<213> Unknown
<220>
<223> Candidatus Aureabacteria bacterium
<400> 7
Met Leu Tyr Trp Leu Ile Tyr Asp Ile Ser Ser Asn Ser Lys Arg Leu
1 5 10 15
Lys Val Ser Glu Lys Cys Lys Asp Tyr Gly Leu Tyr Arg Val Gln Lys
20 25 30
Ser Ala Phe Leu Gly Asp Leu Ser Lys Asn Lys Ala Glu Met Leu Leu
35 40 45
Glu Glu Val Gln Asp Ile Met Ala Glu Ser Glu Gly Asp Cys Val Phe
50 55 60
Met Phe Pro Ala Cys Lys Gly Cys Phe Ser Ser Arg Ala Ile Ile Gly
65 70 75 80
Glu Phe Asn Glu Ser Leu Ile Glu Glu Lys Glu Phe Val Phe Leu Ala
85 90 95
Cys Ser Ser Gln
100
<210> 8
<211> 106
<212> PRT
<213> Unknown
<220>
<223> Uncultured archaeon
<400> 8
Met Ile Tyr Trp Val Ile Tyr Asp Ile Ser Ala Asn Gly Thr Arg Ser
1 5 10 15
Arg Val Ala Ser Ala Cys Lys Asn Tyr Gly Phe Lys Arg Ile Gln Lys
20 25 30
Ser Ala Phe Leu Gly Asn Ile Thr Lys Asn Lys Ala Asp Met Leu Ala
35 40 45
Ile Gln Cys Arg Asp Met Val Lys Glu Glu Gly Asp Cys Val Phe Ile
50 55 60
Ile Pro Ala Cys Glu Gln Cys Phe Arg Gly Lys Glu Ile Ile Gly Glu
65 70 75 80
Leu Asp Glu Met Ala Gly Arg Lys Leu Asp Tyr Leu Ile Val Gly Glu
85 90 95
Asp Gly Arg Gln Thr Ala Ser Tyr Gly Gly
100 105
<210> 9
<211> 203
<212> PRT
<213> Unknown
<220>
<223> Candidatus Micrarchaeota archaeon
<400> 9
Met Asn Arg Met Gly Ile Leu Ser Ile Arg Asp Ile Leu Asn Tyr Asn
1 5 10 15
Tyr Cys Pro Arg Ile Val Tyr Phe Glu Tyr Val Leu Arg Arg Pro Gln
20 25 30
Gly Arg Thr Lys Lys Glu Asp Glu Gly Leu Lys Gln His Asn Glu Phe
35 40 45
Val Pro Arg Gly Lys Arg Asn Lys Met Val Lys Arg Ile Cys Tyr Asp
50 55 60
Lys Lys Leu Phe Asn Leu Pro Leu Tyr Ser Pro Arg Met Asn Leu Gln
65 70 75 80
Thr Val Ala Asp Cys Val Leu Ile Asp Thr Lys Glu Lys Leu Ala Val
85 90 95
Pro Met Gln Phe Lys His Gly Lys Thr Pro Ser Cys Leu Tyr Arg Thr
100 105 110
Met Lys Tyr Gln Leu Val Ala Glu Ala Leu Leu Ile Glu Glu Cys Leu
115 120 125
Gly Leu Ser Cys Pro Tyr Gly Leu Val Lys Phe Leu Pro Glu Glu Thr
130 135 140
Thr Leu Arg Thr Glu Ile Asp Glu Ile Gln Lys Gln Lys Leu Lys Glu
145 150 155 160
Gln Leu Glu Ser Ile Asn Asn Val Val Arg Phe Glu Arg Tyr Pro Asp
165 170 175
Gly Pro Arg Thr Arg Asn Tyr Cys Gly Asp Cys Trp Tyr His Gly Lys
180 185 190
Val Cys Thr Gly Phe Asp Gly Lys Ile Val Gly
195 200
<210> 10
<211> 197
<212> PRT
<213> Unknown
<220>
<223> Candidatus Micrarchaeota archaeon
<400> 10
Met Thr Thr Met Asp Gly Tyr Leu Thr Ala Lys Asp Leu Met Asn Phe
1 5 10 15
His Tyr Cys Lys Arg Leu Ile Tyr Phe Glu Asn Val Leu Lys Ile Lys
20 25 30
Gln Ala Thr Thr Thr Lys Glu Leu Lys Gly Arg Ala Leu His Asn Ser
35 40 45
Phe Ser Val Ser Ser Lys Arg Thr Lys Ile Ile Lys Glu Phe Pro Tyr
50 55 60
Trp Pro Lys Ile Tyr Asn Leu Arg Leu Lys Ser Asp Phe Leu His Leu
65 70 75 80
Ile Thr Thr Leu Asp Cys Leu Ile Ile Asn Gln Thr Asp Asn Glu Ala
85 90 95
Phe Pro Leu Glu Tyr Lys Tyr Ser Lys Lys Pro Arg Lys Ile Tyr Lys
100 105 110
Thr Met Lys Leu Gln Leu Ser Leu Gln Ala Leu Leu Val Asn Glu Leu
115 120 125
Leu His Tyr Ser Val Lys Phe Gly Phe Ile Lys Phe Ser Lys Asp Asn
130 135 140
Ser Leu Ala Lys Val Ser Ile Thr Asp Arg Asp Leu Glu Glu Val Arg
145 150 155 160
Thr Thr Ile Ser Glu Val Asn Thr Ile Val Glu Lys Glu Ile Leu Pro
165 170 175
Pro Pro Thr Glu Tyr Lys Lys Arg Cys Ile Asp Cys Cys Tyr Phe Asn
180 185 190
Ile Cys Lys Gly Ile
195
<210> 11
<211> 189
<212> PRT
<213> Unknown
<220>
<223> Candidatus Aureabacteria bacterium
<400> 11
Met Leu Lys Ser Val Thr Ala Thr Asp Val Met Asn Phe Ser Tyr Cys
1 5 10 15
Lys Arg Ile Pro Tyr Tyr Val His Val Leu Lys Ile Pro Gln Phe Thr
20 25 30
Thr Val Lys Glu Tyr Lys Gly Arg Glu Lys Tyr Asp Asp Phe Lys Tyr
35 40 45
Arg Ser Lys Arg Ser Lys Ile Ile Gln Glu Phe Pro His Leu Glu Arg
50 55 60
Lys Tyr Asp Leu Tyr Leu Glu Cys Asp Gly Phe Ser Thr Lys Leu Asp
65 70 75 80
Cys Val Phe Phe Asn Asp Asp Asp Ala Phe Pro Leu Gln Leu Lys Tyr
85 90 95
Ala Val Lys Pro Lys Lys Met Tyr Ala Thr Thr Arg Arg Gln Leu Leu
100 105 110
Leu Glu Ala Phe Leu Ile Glu Gln Cys Leu Gly Lys Lys Val Gln Arg
115 120 125
Gly Phe Val Lys Tyr Glu Leu Ser Gly Asp Leu Val Glu Val Asp Leu
130 135 140
Thr Asp Lys Ser Glu Leu Phe Glu Met Phe Lys Glu Tyr Phe Gly Ile
145 150 155 160
Ile Met Gly Glu Lys Leu Pro Glu Pro Thr Glu Tyr Leu Lys Arg Cys
165 170 175
Arg Asp Cys Cys Tyr Arg Arg Phe Cys Trp Gly Asp Lys
180 185
<210> 12
<211> 138
<212> PRT
<213> Unknown
<220>
<223> Uncultured archaeon
<400> 12
Met Thr Ser Ser Gly Asn Pro Gly Gly Thr Arg Leu Tyr Asp Val Thr
1 5 10 15
Leu Glu Ser Lys Lys His Gly Leu Ile Thr Lys Ala Asp Cys Ile Leu
20 25 30
Phe Asp Arg Glu Lys Gly Glu Ala Tyr Pro Val Gln His Lys Tyr Ser
35 40 45
Phe Arg Pro Lys Ile Leu Tyr His Thr Tyr Ile Ser Gln Leu Met Met
50 55 60
Glu Ala Ile Ile Ile Glu Glu Gln Phe Asn Leu Ser Val Pro His Gly
65 70 75 80
Phe Ile Val Phe Glu Arg Ser Lys Glu Thr Val Thr Val Asp Leu Gly
85 90 95
Asp Lys Gln Lys Val Leu Tyr Val Val Gly Gln Ile Arg Gly Ile Ile
100 105 110
Gly Gly Glu Lys Phe Pro Pro Pro Thr Glu Trp Lys Lys Arg Cys Val
115 120 125
Asp Cys Cys Tyr Asn Lys Leu Cys Trp Gly
130 135
<210> 13
<211> 1635
<212> DNA
<213> Unknown
<220>
<223> Candidatus Micrarchaeota archaeon
<400> 13
atgaacatga gtaaaactac gatttcagta aaattaaaga ttattgactt aagctctgag 60
aaaaaagagt ttcttgataa ctattttaac gaatacgcaa aagccacgac gttctgccag 120
ttaagaatac ggcgactttt gagaaataca cactggcttg ggaaaaagga gaagagttca 180
aaaaagtgga tttttgaaag tggaatatgc gatttgtgcg gtgaaaacaa agaacttgtg 240
aatgaagata gaaattcagg cgaacctgca aaaatttgca aaagatgtta taatggaaga 300
tatggcaatc agatgatacg taaacttttc gtttcaacga agaaaagaga agttcaggaa 360
aacatggaca tacgaagagt cgctaaacta aataatacgc attatcaccg cataccggaa 420
gaagcatttg acatgattaa agccgccgat acagcagaaa aaagaagaaa gaagaatgtc 480
gagtatgata aaaaaagaca gatggaattt attgagatgt ttaatgacga aaaaaaacgt 540
gcggcaagac caaaaaaacc aaacgaaagg gaaacccgtt acgttcatat ttctaaattg 600
gaaagtccgt caaagggata tactctgaac ggaataaaaa gaaaaataga cggcatgggt 660
aaaaaaattg agagagcaga aaaaggtctc tcaagaaaga agatttttgg ttatcagggc 720
aatagaatca aacttgattc gaattgggtc cggtttgacc ttgccgaatc ggagattact 780
atcccctcac tgtttaagga aatgaaacta aggataactg gaccgaccaa cgttcattca 840
aaaagcgggc agatatattt tgcagaatgg tttgagcgga taaacaaaca accgaataat 900
tactgttatc tgataagaaa aacaagttcg aacggcaaat atgaatatta tcttcaatat 960
acttatgaag ccgaagttga ggcgaataag gagtacgctg ggtgtttggg ggttgatata 1020
ggatgttcta aacttgctgc cgcagtttat tatgattcaa aaaacaaaaa agcacaaaaa 1080
ccaattgaga tattcacgaa tccgattaaa aaaatcaaga tgcggcgcga gaaactgatt 1140
aaacttcttt ccagagttaa ggtgcggcac agacgcagaa aactcatgca actcagtaaa 1200
actgaaccca ttatagacta tacgtgccac aaaaccgcaa gaaaaattgt tgaaatggca 1260
aatactgcca aagcttttat ctccatggag aatcttgaaa ctgggataaa gcaaaagcaa 1320
caggcaagag aaacaaaaaa gcagaagttt tatcggaata tgtttctttt cagaaaatta 1380
agcaaactaa tagagtacaa ggctctgctg aaagggataa agatagtata tgtgaaaccc 1440
gattatacaa gccaaacttg ttcttcatgt ggcgcagaca aagaaaaaac cgagcgccca 1500
tcacaagcaa tatttcgctg tcttaatcca acatgccgat attatcaaag agacataaat 1560
gccgacttca acgccgcagt gaatatagct aagaaagctt taaataatac tgaagtagta 1620
actacgttat tatga 1635
<210> 14
<211> 1761
<212> DNA
<213> Unknown
<220>
<223> Candidatus Micrarchaeota archaeon
<400> 14
atgccatccg aaacatacat tacgaaaacc ttgtcattaa aactcattcc atcagatgaa 60
gaaaagcagg cgttagaaaa ctattttata acattccaga gggccgtgaa ttttgctata 120
gatagaatag tagatataag aagctccttt agatatctaa acaaaaatga acaatttcca 180
gccgtgtgtg attgctgtgg taagaaagaa aagataatgt atgtgaatat atccaataaa 240
acctttaagt ttaaaccatc aagaaatcag aaggatagat acacgaagga catttataca 300
atcaagccca atgcccacat atgtaagaca tgctacagtg gcgttgcagg aaatatgttt 360
atacgcaaac aaatgtatcc gaacgataaa gaagggtgga aagtttcgcg ttcatacaat 420
atcaaagtta atgcccctgg actgactgga accgaatatg ctatggccat acggaaggca 480
ataagtatat taagatcttt tgaaaagcga cgaagaaatg ctgaaagaag aatcatagag 540
tatgaaaagt ccaaaaaaga gtatttagaa ttgattgatg atgttgaaaa aggaaagaca 600
aataaaatag tggttcttga gaaagaaggc catcagcgag tgaaaagata taaacacaag 660
aattggcctg agaaatggca aggtatttct ttaaataaag caaaaagtaa ggttaaagat 720
attgagaaaa gaataaaaaa gctcaaggag tggaaacacc ctacactaaa tcgaccatat 780
gtcgagttac acaaaaataa tgttaggata gtgggttatg aaacagtgga acttaaatta 840
ggaaacaaaa tgtacaccat acattttgct agcatatcta atttacgaaa accatttaga 900
aaacaaaaga aaaagtccat agaatatctg aaacatctcc taaccctagc gttaaaaaga 960
aatcttgaaa cataccccag cataataaaa agaggtaaga atttcttttt gcagtatcct 1020
gtgcgagtga cagttaaagt gcctaagctg acaaaaaatt ttaaagcttt tggcatcgat 1080
agaggcgtaa ataggcttgc agtaggttgt ataatctcaa aagatggaaa acttaccaat 1140
aaaaatattt ttttcttcca tggaaaggaa gcgtgggcca aggaaaacag atacaagaag 1200
attagggaca gattatacgc tatggccaag aagttgagag gagataaaac caagaaaata 1260
aggctttatc atgagattag gaagaaattt agacataaag tcaaatattt caggagaaac 1320
tatctgcata atatctctaa gcaaattgtt gagattgcaa aggaaaatac accgactgtc 1380
atcgtattag aagatttacg gtacttgaga gaaaggacat atagaggaaa aggaagaagc 1440
aaaaaggcga aaaaaacaaa ttataaatta aatactttta cttacagaat gcttatagat 1500
atgataaaat acaaggcaga agaagcggga gttcctgtaa tgattattga cccaagaaac 1560
acatcacgaa aatgttctaa gtgtggttat gttgacgaaa ataatagaaa acaagcctcg 1620
tttaagtgcc ttaagtgtgg ttatagtctt aatgcagact taaatgcagc tgtcaatata 1680
gcaaaagctt tttatgaatg ccccacgttt agatgggaag aaaaattgca tgcatatgtt 1740
tgttcagagc ccgataaata g 1761
<210> 15
<211> 1812
<212> DNA
<213> Unknown
<220>
<223> Candidatus Aureabacteria bacterium
<400> 15
atgaagtcat ttaagctaaa gttgttgcca acagatgagc aaaacgttct tttaaatgaa 60
gtgttttgta aatgggcatc attatgtacc agaatggcgt ctaaaggaca cgataaagaa 120
cgactggcgc ctcctgattc aagcgggaat tattttaaca aaacacaact caatcaggtg 180
aatactgatg taactgacca tatgggtgcg cttgaagagt cagcaagtca aaaagaaaga 240
gcagttgaga aagtcaaaag aaggttgaag ctgatttcag atatgctctc tgagccaaat 300
ttaagggatg tttctcaaca aaaaccaacc acgttccgtc cattagagtg ggttaaggag 360
ggtctgttaa aaacaaaata ccatactgtg cattattggc aaaaggaatg tgataagtta 420
acaaaacaaa aagaacgaat ggagaaaaca attgagaaga taaagaaagg gaagataacg 480
ttcaaaccaa caaagatgtc cctgcaccaa aattgttttt cgttatcatt cggaaaggga 540
acgttttcaa tgcggccttt tagcgacact aaacgaggca taaatcttga tatgctaact 600
gctcccattc aacctgcaat aggaaaaaac gatggcaaat catctttgag gagcaaagag 660
tttatcgcaa ggaatattga aaactacatt attttttcca tccactcaca actatttggg 720
ctgagcaggt cagaagaact gttgttaaac gcaaaaaaag aggaactcgt tgctaagcga 780
gatgcaatgc tcaaaaagaa atctgattcg ctaagtaaaa aaataaagga attagaaaaa 840
atagtaggaa gaaaaattac tgattcagaa cgttcagaga taatgtctca gggcggcaaa 900
ttgtcttctg aaaagttcag tgaagataat tcatatttga aaacgttaaa ggtgctggca 960
aaagacatta ttgggcgaga ggaattgttc agacttaaga agtacccgat tgtgattaga 1020
aaacctctca acgaacgaaa aaagctcaaa aatcttaaac ctgacgaatg ggaatattat 1080
ttacagttga gttatgatga gttggaaaag aaagagttta caccaaagac aattatggga 1140
atcgatagag gactaaaaca cattcttgct attgcgattt acgaccctgt gcaaaataaa 1200
tttgtaaaaa atatgctcat tccaaatccg atattaggtt ggaagtggaa gttgcgaaag 1260
ataaaaagaa gtattcaaca tatggaaagg agaatacggg ctcagcaaaa tgctcacgtt 1320
cctgagaatc agttgaaaaa acggttgaaa agtattgaga acaaaattga ttattactat 1380
cacaatgtgt cgcggcaaat attgaatctc gctcacgatt tcaaatcagc aatagtggta 1440
gaagacttac agaatatgaa acaacacgga agaaagaaat caaaaggact aagaggacta 1500
aactacgcat taagtaactt tgactatgga aaaattatgg gtcttgttaa gtataaagca 1560
gaatcagaga atgtgcctct tcttaccgtg ttgcctgcag gaacgagtca aaattgcgcg 1620
tattgtctct tgtacggaaa agaacaagga aattatgtgc ggaataatgt caacagtaaa 1680
ataggcaagt gtaagcttca tggagaaata gatgcggaca tcaatgcggc aaggacgatt 1740
gcgatttgtt atcataagaa tattaatgaa ccaaaaccat atggtgaacg aaagactttt 1800
aaaagaaagt aa 1812
<210> 16
<211> 1590
<212> DNA
<213> Unknown
<220>
<223> Uncultured archaeon
<400> 16
atggctaaga atactattac aaaaactctg aaactgagaa tagttcgacc atataattct 60
gctgaagtag agaagatagt agctgatgag aaaaacaata gggagaaaat cgccttagaa 120
aaaaataagg ataaggttaa agaggcctgt agcaagcatc tcaaagttgc cgcctattgc 180
acgacgcaag tagaaagaaa tgcatgcctt ttctgcaaag caagaaaatt agacgataag 240
ttctaccaaa agctgagggg acaatttcct gatgctgtat tttggcaaga gatttctgag 300
atattcaggc aattgcagaa gcaagctgct gaaatatata atcaaagtct catcgaacta 360
tattacgaga tttttataaa gggaaaagga attgcaaatg cttcatcagt tgagcattat 420
ctcagtgatg tttgttatac aagagctgcc gaattattca aaaatgctgc gatagcaagc 480
ggtttaagat caaagataaa gagcaatttc aggctcaagg aattaaaaaa tatgaaatca 540
gggcttccga ctacaaaatc agacaacttc cccattcctc ttgtcaagca gaaaggaggg 600
caatataccg gctttgagat ttcaaatcat aattctgatt tcatcataaa aattccgttt 660
ggcagatggc aagtgaaaaa agagattgat aaatacaggc cttgggaaaa gtttgatttt 720
gaacaagtgc agaagtctcc taaacccatc tctctcttgc tgtccacgca gagaagaaaa 780
agaaacaaag ggtggtccaa agatgagggt actgaggcag aaataaagaa agtgatgaat 840
ggagattacc aaacaagcta tattgaggta aaaagaggat cgaaaattgg ggagaagagt 900
gcttggatgc ttaatctttc tatcgatgtc cccaagatcg acaagggagt tgatccgtcc 960
attataggcg gaatcgatgt cggcgtgaaa agcccgcttg tgtgcgctat caacaatgct 1020
ttcagtcgtt actctatctc ggacaatgac ctctttcatt tcaacaaaaa aatgttcgcc 1080
agaaggagga tattgcttaa gaagaatagg cataaaagag caggacatgg tgctaaaaat 1140
aaacttaagc ctatcaccat attaactgaa aaaagcgaga gatttaggaa gaaactaatc 1200
gagaggtggg cgtgcgagat tgcagatttt ttcatcaaaa ataaggttgg aactgtccaa 1260
atggaaaatt tggagtccat gaagagaaaa gaagacagct acttcaacat cagattgaga 1320
ggtttttggc cttatgcaga aatgcaaaat aaaatagaat ttaagctcaa acagtatggt 1380
atagaaataa gaaaagtagc gcctaacaat acctctaaaa cgtgctccaa atgtggtcac 1440
cttaataact attttaattt tgaatacaga aaaaagaaca aatttcctca tttcaagtgt 1500
gaaaagtgca atttcaagga aaatgcggat tataacgccg ctttaaatat ttccaatcca 1560
aaactaaaat caacaaagga agaaccatag 1590
<210> 17
<211> 544
<212> PRT
<213> Unknown
<220>
<223> Candidatus Micrarchaeota archaeon
<400> 17
Met Asn Met Ser Lys Thr Thr Ile Ser Val Lys Leu Lys Ile Ile Asp
1 5 10 15
Leu Ser Ser Glu Lys Lys Glu Phe Leu Asp Asn Tyr Phe Asn Glu Tyr
20 25 30
Ala Lys Ala Thr Thr Phe Cys Gln Leu Arg Ile Arg Arg Leu Leu Arg
35 40 45
Asn Thr His Trp Leu Gly Lys Lys Glu Lys Ser Ser Lys Lys Trp Ile
50 55 60
Phe Glu Ser Gly Ile Cys Asp Leu Cys Gly Glu Asn Lys Glu Leu Val
65 70 75 80
Asn Glu Asp Arg Asn Ser Gly Glu Pro Ala Lys Ile Cys Lys Arg Cys
85 90 95
Tyr Asn Gly Arg Tyr Gly Asn Gln Met Ile Arg Lys Leu Phe Val Ser
100 105 110
Thr Lys Lys Arg Glu Val Gln Glu Asn Met Asp Ile Arg Arg Val Ala
115 120 125
Lys Leu Asn Asn Thr His Tyr His Arg Ile Pro Glu Glu Ala Phe Asp
130 135 140
Met Ile Lys Ala Ala Asp Thr Ala Glu Lys Arg Arg Lys Lys Asn Val
145 150 155 160
Glu Tyr Asp Lys Lys Arg Gln Met Glu Phe Ile Glu Met Phe Asn Asp
165 170 175
Glu Lys Lys Arg Ala Ala Arg Pro Lys Lys Pro Asn Glu Arg Glu Thr
180 185 190
Arg Tyr Val His Ile Ser Lys Leu Glu Ser Pro Ser Lys Gly Tyr Thr
195 200 205
Leu Asn Gly Ile Lys Arg Lys Ile Asp Gly Met Gly Lys Lys Ile Glu
210 215 220
Arg Ala Glu Lys Gly Leu Ser Arg Lys Lys Ile Phe Gly Tyr Gln Gly
225 230 235 240
Asn Arg Ile Lys Leu Asp Ser Asn Trp Val Arg Phe Asp Leu Ala Glu
245 250 255
Ser Glu Ile Thr Ile Pro Ser Leu Phe Lys Glu Met Lys Leu Arg Ile
260 265 270
Thr Gly Pro Thr Asn Val His Ser Lys Ser Gly Gln Ile Tyr Phe Ala
275 280 285
Glu Trp Phe Glu Arg Ile Asn Lys Gln Pro Asn Asn Tyr Cys Tyr Leu
290 295 300
Ile Arg Lys Thr Ser Ser Asn Gly Lys Tyr Glu Tyr Tyr Leu Gln Tyr
305 310 315 320
Thr Tyr Glu Ala Glu Val Glu Ala Asn Lys Glu Tyr Ala Gly Cys Leu
325 330 335
Gly Val Asp Ile Gly Cys Ser Lys Leu Ala Ala Ala Val Tyr Tyr Asp
340 345 350
Ser Lys Asn Lys Lys Ala Gln Lys Pro Ile Glu Ile Phe Thr Asn Pro
355 360 365
Ile Lys Lys Ile Lys Met Arg Arg Glu Lys Leu Ile Lys Leu Leu Ser
370 375 380
Arg Val Lys Val Arg His Arg Arg Arg Lys Leu Met Gln Leu Ser Lys
385 390 395 400
Thr Glu Pro Ile Ile Asp Tyr Thr Cys His Lys Thr Ala Arg Lys Ile
405 410 415
Val Glu Met Ala Asn Thr Ala Lys Ala Phe Ile Ser Met Glu Asn Leu
420 425 430
Glu Thr Gly Ile Lys Gln Lys Gln Gln Ala Arg Glu Thr Lys Lys Gln
435 440 445
Lys Phe Tyr Arg Asn Met Phe Leu Phe Arg Lys Leu Ser Lys Leu Ile
450 455 460
Glu Tyr Lys Ala Leu Leu Lys Gly Ile Lys Ile Val Tyr Val Lys Pro
465 470 475 480
Asp Tyr Thr Ser Gln Thr Cys Ser Ser Cys Gly Ala Asp Lys Glu Lys
485 490 495
Thr Glu Arg Pro Ser Gln Ala Ile Phe Arg Cys Leu Asn Pro Thr Cys
500 505 510
Arg Tyr Tyr Gln Arg Asp Ile Asn Ala Asp Phe Asn Ala Ala Val Asn
515 520 525
Ile Ala Lys Lys Ala Leu Asn Asn Thr Glu Val Val Thr Thr Leu Leu
530 535 540
<210> 18
<211> 586
<212> PRT
<213> Unknown
<220>
<223> Candidatus Micrarchaeota archaeon
<400> 18
Met Pro Ser Glu Thr Tyr Ile Thr Lys Thr Leu Ser Leu Lys Leu Ile
1 5 10 15
Pro Ser Asp Glu Glu Lys Gln Ala Leu Glu Asn Tyr Phe Ile Thr Phe
20 25 30
Gln Arg Ala Val Asn Phe Ala Ile Asp Arg Ile Val Asp Ile Arg Ser
35 40 45
Ser Phe Arg Tyr Leu Asn Lys Asn Glu Gln Phe Pro Ala Val Cys Asp
50 55 60
Cys Cys Gly Lys Lys Glu Lys Ile Met Tyr Val Asn Ile Ser Asn Lys
65 70 75 80
Thr Phe Lys Phe Lys Pro Ser Arg Asn Gln Lys Asp Arg Tyr Thr Lys
85 90 95
Asp Ile Tyr Thr Ile Lys Pro Asn Ala His Ile Cys Lys Thr Cys Tyr
100 105 110
Ser Gly Val Ala Gly Asn Met Phe Ile Arg Lys Gln Met Tyr Pro Asn
115 120 125
Asp Lys Glu Gly Trp Lys Val Ser Arg Ser Tyr Asn Ile Lys Val Asn
130 135 140
Ala Pro Gly Leu Thr Gly Thr Glu Tyr Ala Met Ala Ile Arg Lys Ala
145 150 155 160
Ile Ser Ile Leu Arg Ser Phe Glu Lys Arg Arg Arg Asn Ala Glu Arg
165 170 175
Arg Ile Ile Glu Tyr Glu Lys Ser Lys Lys Glu Tyr Leu Glu Leu Ile
180 185 190
Asp Asp Val Glu Lys Gly Lys Thr Asn Lys Ile Val Val Leu Glu Lys
195 200 205
Glu Gly His Gln Arg Val Lys Arg Tyr Lys His Lys Asn Trp Pro Glu
210 215 220
Lys Trp Gln Gly Ile Ser Leu Asn Lys Ala Lys Ser Lys Val Lys Asp
225 230 235 240
Ile Glu Lys Arg Ile Lys Lys Leu Lys Glu Trp Lys His Pro Thr Leu
245 250 255
Asn Arg Pro Tyr Val Glu Leu His Lys Asn Asn Val Arg Ile Val Gly
260 265 270
Tyr Glu Thr Val Glu Leu Lys Leu Gly Asn Lys Met Tyr Thr Ile His
275 280 285
Phe Ala Ser Ile Ser Asn Leu Arg Lys Pro Phe Arg Lys Gln Lys Lys
290 295 300
Lys Ser Ile Glu Tyr Leu Lys His Leu Leu Thr Leu Ala Leu Lys Arg
305 310 315 320
Asn Leu Glu Thr Tyr Pro Ser Ile Ile Lys Arg Gly Lys Asn Phe Phe
325 330 335
Leu Gln Tyr Pro Val Arg Val Thr Val Lys Val Pro Lys Leu Thr Lys
340 345 350
Asn Phe Lys Ala Phe Gly Ile Asp Arg Gly Val Asn Arg Leu Ala Val
355 360 365
Gly Cys Ile Ile Ser Lys Asp Gly Lys Leu Thr Asn Lys Asn Ile Phe
370 375 380
Phe Phe His Gly Lys Glu Ala Trp Ala Lys Glu Asn Arg Tyr Lys Lys
385 390 395 400
Ile Arg Asp Arg Leu Tyr Ala Met Ala Lys Lys Leu Arg Gly Asp Lys
405 410 415
Thr Lys Lys Ile Arg Leu Tyr His Glu Ile Arg Lys Lys Phe Arg His
420 425 430
Lys Val Lys Tyr Phe Arg Arg Asn Tyr Leu His Asn Ile Ser Lys Gln
435 440 445
Ile Val Glu Ile Ala Lys Glu Asn Thr Pro Thr Val Ile Val Leu Glu
450 455 460
Asp Leu Arg Tyr Leu Arg Glu Arg Thr Tyr Arg Gly Lys Gly Arg Ser
465 470 475 480
Lys Lys Ala Lys Lys Thr Asn Tyr Lys Leu Asn Thr Phe Thr Tyr Arg
485 490 495
Met Leu Ile Asp Met Ile Lys Tyr Lys Ala Glu Glu Ala Gly Val Pro
500 505 510
Val Met Ile Ile Asp Pro Arg Asn Thr Ser Arg Lys Cys Ser Lys Cys
515 520 525
Gly Tyr Val Asp Glu Asn Asn Arg Lys Gln Ala Ser Phe Lys Cys Leu
530 535 540
Lys Cys Gly Tyr Ser Leu Asn Ala Asp Leu Asn Ala Ala Val Asn Ile
545 550 555 560
Ala Lys Ala Phe Tyr Glu Cys Pro Thr Phe Arg Trp Glu Glu Lys Leu
565 570 575
His Ala Tyr Val Cys Ser Glu Pro Asp Lys
580 585
<210> 19
<211> 603
<212> PRT
<213> Unknown
<220>
<223> Candidatus Aureabacteria bacterium
<400> 19
Met Lys Ser Phe Lys Leu Lys Leu Leu Pro Thr Asp Glu Gln Asn Val
1 5 10 15
Leu Leu Asn Glu Val Phe Cys Lys Trp Ala Ser Leu Cys Thr Arg Met
20 25 30
Ala Ser Lys Gly His Asp Lys Glu Arg Leu Ala Pro Pro Asp Ser Ser
35 40 45
Gly Asn Tyr Phe Asn Lys Thr Gln Leu Asn Gln Val Asn Thr Asp Val
50 55 60
Thr Asp His Met Gly Ala Leu Glu Glu Ser Ala Ser Gln Lys Glu Arg
65 70 75 80
Ala Val Glu Lys Val Lys Arg Arg Leu Lys Leu Ile Ser Asp Met Leu
85 90 95
Ser Glu Pro Asn Leu Arg Asp Val Ser Gln Gln Lys Pro Thr Thr Phe
100 105 110
Arg Pro Leu Glu Trp Val Lys Glu Gly Leu Leu Lys Thr Lys Tyr His
115 120 125
Thr Val His Tyr Trp Gln Lys Glu Cys Asp Lys Leu Thr Lys Gln Lys
130 135 140
Glu Arg Met Glu Lys Thr Ile Glu Lys Ile Lys Lys Gly Lys Ile Thr
145 150 155 160
Phe Lys Pro Thr Lys Met Ser Leu His Gln Asn Cys Phe Ser Leu Ser
165 170 175
Phe Gly Lys Gly Thr Phe Ser Met Arg Pro Phe Ser Asp Thr Lys Arg
180 185 190
Gly Ile Asn Leu Asp Met Leu Thr Ala Pro Ile Gln Pro Ala Ile Gly
195 200 205
Lys Asn Asp Gly Lys Ser Ser Leu Arg Ser Lys Glu Phe Ile Ala Arg
210 215 220
Asn Ile Glu Asn Tyr Ile Ile Phe Ser Ile His Ser Gln Leu Phe Gly
225 230 235 240
Leu Ser Arg Ser Glu Glu Leu Leu Leu Asn Ala Lys Lys Glu Glu Leu
245 250 255
Val Ala Lys Arg Asp Ala Met Leu Lys Lys Lys Ser Asp Ser Leu Ser
260 265 270
Lys Lys Ile Lys Glu Leu Glu Lys Ile Val Gly Arg Lys Ile Thr Asp
275 280 285
Ser Glu Arg Ser Glu Ile Met Ser Gln Gly Gly Lys Leu Ser Ser Glu
290 295 300
Lys Phe Ser Glu Asp Asn Ser Tyr Leu Lys Thr Leu Lys Val Leu Ala
305 310 315 320
Lys Asp Ile Ile Gly Arg Glu Glu Leu Phe Arg Leu Lys Lys Tyr Pro
325 330 335
Ile Val Ile Arg Lys Pro Leu Asn Glu Arg Lys Lys Leu Lys Asn Leu
340 345 350
Lys Pro Asp Glu Trp Glu Tyr Tyr Leu Gln Leu Ser Tyr Asp Glu Leu
355 360 365
Glu Lys Lys Glu Phe Thr Pro Lys Thr Ile Met Gly Ile Asp Arg Gly
370 375 380
Leu Lys His Ile Leu Ala Ile Ala Ile Tyr Asp Pro Val Gln Asn Lys
385 390 395 400
Phe Val Lys Asn Met Leu Ile Pro Asn Pro Ile Leu Gly Trp Lys Trp
405 410 415
Lys Leu Arg Lys Ile Lys Arg Ser Ile Gln His Met Glu Arg Arg Ile
420 425 430
Arg Ala Gln Gln Asn Ala His Val Pro Glu Asn Gln Leu Lys Lys Arg
435 440 445
Leu Lys Ser Ile Glu Asn Lys Ile Asp Tyr Tyr Tyr His Asn Val Ser
450 455 460
Arg Gln Ile Leu Asn Leu Ala His Asp Phe Lys Ser Ala Ile Val Val
465 470 475 480
Glu Asp Leu Gln Asn Met Lys Gln His Gly Arg Lys Lys Ser Lys Gly
485 490 495
Leu Arg Gly Leu Asn Tyr Ala Leu Ser Asn Phe Asp Tyr Gly Lys Ile
500 505 510
Met Gly Leu Val Lys Tyr Lys Ala Glu Ser Glu Asn Val Pro Leu Leu
515 520 525
Thr Val Leu Pro Ala Gly Thr Ser Gln Asn Cys Ala Tyr Cys Leu Leu
530 535 540
Tyr Gly Lys Glu Gln Gly Asn Tyr Val Arg Asn Asn Val Asn Ser Lys
545 550 555 560
Ile Gly Lys Cys Lys Leu His Gly Glu Ile Asp Ala Asp Ile Asn Ala
565 570 575
Ala Arg Thr Ile Ala Ile Cys Tyr His Lys Asn Ile Asn Glu Pro Lys
580 585 590
Pro Tyr Gly Glu Arg Lys Thr Phe Lys Arg Lys
595 600
<210> 20
<211> 529
<212> PRT
<213> Unknown
<220>
<223> Uncultured archaeon
<400> 20
Met Ala Lys Asn Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg
1 5 10 15
Pro Tyr Asn Ser Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn
20 25 30
Asn Arg Glu Lys Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu
35 40 45
Ala Cys Ser Lys His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val
50 55 60
Glu Arg Asn Ala Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys
65 70 75 80
Phe Tyr Gln Lys Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln
85 90 95
Glu Ile Ser Glu Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile
100 105 110
Tyr Asn Gln Ser Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly
115 120 125
Lys Gly Ile Ala Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val
130 135 140
Cys Tyr Thr Arg Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser
145 150 155 160
Gly Leu Arg Ser Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys
165 170 175
Asn Met Lys Ser Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile
180 185 190
Pro Leu Val Lys Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser
195 200 205
Asn His Asn Ser Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln
210 215 220
Val Lys Lys Glu Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe
225 230 235 240
Glu Gln Val Gln Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr
245 250 255
Gln Arg Arg Lys Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu
260 265 270
Ala Glu Ile Lys Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile
275 280 285
Glu Val Lys Arg Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu
290 295 300
Asn Leu Ser Ile Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser
305 310 315 320
Ile Ile Gly Gly Ile Asp Val Gly Val Lys Ser Pro Leu Val Cys Ala
325 330 335
Ile Asn Asn Ala Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe
340 345 350
His Phe Asn Lys Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys
355 360 365
Asn Arg His Lys Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro
370 375 380
Ile Thr Ile Leu Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile
385 390 395 400
Glu Arg Trp Ala Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val
405 410 415
Gly Thr Val Gln Met Glu Asn Leu Glu Ser Met Lys Arg Lys Glu Asp
420 425 430
Ser Tyr Phe Asn Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met
435 440 445
Gln Asn Lys Ile Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg
450 455 460
Lys Val Ala Pro Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His
465 470 475 480
Leu Asn Asn Tyr Phe Asn Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro
485 490 495
His Phe Lys Cys Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn
500 505 510
Ala Ala Leu Asn Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu
515 520 525
Pro
<210> 21
<211> 5539
<212> DNA
<213> Unknown
<220>
<223> Candidatus Micrarchaeota archaeon
<400> 21
tcgcgtctat ggcgtgattt tgcagcttcc ctaaattcag ccccttctcc tcaaagccca 60
gaagctcctt taatgcctgc tcgtttgcgc cctccacctt tgagcccggg gcggcgggga 120
agatgctgcg caccaatctt ccttccttgt agactccaag cgccctaacc cttgcgatta 180
catactccca gtccgcagtc gggaaattct gcggcatcgg ggagcctttc tcgtactctg 240
aaacgctttc cgcatgctca aaatagcggt ttgcgcgcat tatctcggaa attgtgccaa 300
aaagcattcc atcctcgcag cgtgtctgga cgaactgccc cttccttaca ttcggggagg 360
agattacgaa ggagaagaag gaggtggtgg ggctgtctat tgtggagatg accgtgccaa 420
gggaggtgga atccatgaag aggttttgag gagaaaatta atatatggaa ttgagggggg 480
tcggacttct accctgtaag tgtttataag gagaactcca tatatacttc ggatatgcaa 540
ctaataattg acgattatgg cgcatatctt gggcagaagg acaacctctt ccaaataagg 600
aagaaagacg ggacgtgtga agaatattct gccgacaagg ttgagcagat acttcttgtg 660
aaaaatagct gtatttcttc aagagccgca ctcttggcag cacgaaacaa catagatgta 720
gtgtttgtag gaaaattcgg aatgccggaa ggaaggattt ttcctgcatg tcttggagga 780
acaaatctca taagaagaaa acaacttgaa gcagggcaga atgagaaagg agggaaaatt 840
gcaataaaac ttatctgggc aaagatcaag aatgaggaat ttttccttaa aactctcaac 900
aaaagcagaa ctgcgcctct tcttttggag aaagcggaaa aaataagcgc tattgcggag 960
caagtccggc agatgttagg cgagaaattt gatgcagata gggtttttgg ttttgaagga 1020
ttggctgcgg cgcactattt tgagggattg tcacaggtaa tgccgattga aaagcgcgac 1080
caagagggaa aagatgcccc aaatgcactc ttgaattatg gttatggaat gttgtacgga 1140
gagatagaga aagcctgcct ttttgccggt ttggacccgt atcttggctt tcttcatgca 1200
gataggtacg gcaagccctc tcttgtactt gatttgatag aagagttcag accggttatt 1260
gttgataggg cgattattac gctttacgca cagaaacaga taaacgagag tgattttgag 1320
cagggaggag ataagatttt tctttcaaaa gaagggagaa agaagatgat aaaggcaatt 1380
atggaaagac tgcatgcaaa aataacttca gatgggcgca agcttgagct ttcggtgata 1440
atacaggagc aggcgcgaag aatcgcctcc tttgtgaagg gagagagcga gtttgagcct 1500
tttctttaca ggtggtagga tgttttattg ggtaatttat gatataagcg aaaacaagaa 1560
acgcggcagg gtggcaagaa tatgcaaaaa ctacgggttt agaagagtgc agaagagcgc 1620
ctttgcaggc gaaacttcaa agaataaggt ggagatgctg ttattggaat gcaatgagat 1680
tatagaggga ggggatgatt atttgtttgt cattccgaac tgcacaagct gtttcaatgg 1740
gaaaatgata accggctgtc ttgacgagaa aagagtgaga aatcagccgt atatgtttgt 1800
aggtgatggc gcatgaacag aatgggaatt ttgagcattc gagacatatt gaattacaac 1860
tactgcccgc gcatagtata ttttgagtat gttctgcgca gaccacaggg caggacgaaa 1920
aaggaggatg agggattgaa acagcataat gaatttgtgc caagagggaa gaggaataag 1980
atggttaaac ggatttgtta tgacaagaag ctgtttaatc tgccgcttta ttctccgcgc 2040
atgaaccttc aaactgtggc ggattgcgtg cttattgaca caaaagagaa gcttgctgtt 2100
ccgatgcagt ttaagcatgg aaaaacacct tcttgcttgt atcggactat gaaataccag 2160
cttgtagcgg aggcgttgct gattgaggag tgccttgggc tttcatgtcc ttatggactt 2220
gtgaaattct tacctgaaga aacaactctt agaacagaaa tagacgaaat tcaaaagcaa 2280
aaacttaaag aacagcttga gagtattaac aacgtggtga ggtttgaaag gtatcccgat 2340
ggtccgagaa cgaggaatta ctgcggggac tgctggtatc atggaaaagt ttgcacggga 2400
tttgacggca aaatagtggg atgaacatga gtaaaactac gatttcagta aaattaaaga 2460
ttattgactt aagctctgag aaaaaagagt ttcttgataa ctattttaac gaatacgcaa 2520
aagccacgac gttctgccag ttaagaatac ggcgactttt gagaaataca cactggcttg 2580
ggaaaaagga gaagagttca aaaaagtgga tttttgaaag tggaatatgc gatttgtgcg 2640
gtgaaaacaa agaacttgtg aatgaagata gaaattcagg cgaacctgca aaaatttgca 2700
aaagatgtta taatggaaga tatggcaatc agatgatacg taaacttttc gtttcaacga 2760
agaaaagaga agttcaggaa aacatggaca tacgaagagt cgctaaacta aataatacgc 2820
attatcaccg cataccggaa gaagcatttg acatgattaa agccgccgat acagcagaaa 2880
aaagaagaaa gaagaatgtc gagtatgata aaaaaagaca gatggaattt attgagatgt 2940
ttaatgacga aaaaaaacgt gcggcaagac caaaaaaacc aaacgaaagg gaaacccgtt 3000
acgttcatat ttctaaattg gaaagtccgt caaagggata tactctgaac ggaataaaaa 3060
gaaaaataga cggcatgggt aaaaaaattg agagagcaga aaaaggtctc tcaagaaaga 3120
agatttttgg ttatcagggc aatagaatca aacttgattc gaattgggtc cggtttgacc 3180
ttgccgaatc ggagattact atcccctcac tgtttaagga aatgaaacta aggataactg 3240
gaccgaccaa cgttcattca aaaagcgggc agatatattt tgcagaatgg tttgagcgga 3300
taaacaaaca accgaataat tactgttatc tgataagaaa aacaagttcg aacggcaaat 3360
atgaatatta tcttcaatat acttatgaag ccgaagttga ggcgaataag gagtacgctg 3420
ggtgtttggg ggttgatata ggatgttcta aacttgctgc cgcagtttat tatgattcaa 3480
aaaacaaaaa agcacaaaaa ccaattgaga tattcacgaa tccgattaaa aaaatcaaga 3540
tgcggcgcga gaaactgatt aaacttcttt ccagagttaa ggtgcggcac agacgcagaa 3600
aactcatgca actcagtaaa actgaaccca ttatagacta tacgtgccac aaaaccgcaa 3660
gaaaaattgt tgaaatggca aatactgcca aagcttttat ctccatggag aatcttgaaa 3720
ctgggataaa gcaaaagcaa caggcaagag aaacaaaaaa gcagaagttt tatcggaata 3780
tgtttctttt cagaaaatta agcaaactaa tagagtacaa ggctctgctg aaagggataa 3840
agatagtata tgtgaaaccc gattatacaa gccaaacttg ttcttcatgt ggcgcagaca 3900
aagaaaaaac cgagcgccca tcacaagcaa tatttcgctg tcttaatcca acatgccgat 3960
attatcaaag agacataaat gccgacttca acgccgcagt gaatatagct aagaaagctt 4020
taaataatac tgaagtagta actacgttat tatgatttac tccgagtaat cggatgtgga 4080
ttatagcaca gcaacctata tggaagctgg gaaccggttt atccggaaat gcgcaccgtt 4140
gcatggaatt atgtgcgctt aagaccttat gatatcgcgc ggcttgactt cgcgatagac 4200
aggtcaacta ttgtctcggt tcaacgtgcc aattagcagg tctttataaa tagcctgcag 4260
attttcaagt tgcttttctt agtgcagaaa agaaggcagg agaagcctcc gtttggcaaa 4320
aaaaggcggt tgtatctact gtttcagcgc acgaattaac gagatgagag atgcaacttc 4380
actgtcagat aaagaataag ccactctggt gtccgtttca gcgcacgaat taacgagatg 4440
agagatgcaa ctctgatatt tccgagcgtt gaggatgtgg caactggggt ttcagcgcac 4500
gaattaacga gatgagagat gcaactagac aagctcacga atgtagtagc tcatgttgcc 4560
tttgtttcag cgcacgaatt aacgagatga gagatgcaac tctctccgcg caaatcgtat 4620
ctccatgttc cgctccgttt cagcgcacga attaacgaga tgagagatgc aaccagccat 4680
ttatcttctt atttactatg attgggcggg tttcagcgca cgaattaacg agatgagaga 4740
tgcaactttc tgtcaatcct tccgccaata ctttgttttc aagtttcagc gcacgaatta 4800
acgagatgag agatgcaact ggatataggg tatttgagat accccacacg ggcttgtttc 4860
agcgcacgaa ttaacgagat gagagatgca actatgattt actgcgctcg tagttgcgac 4920
aaagtggcgt ttcagcgcac gaattaacga gatgagagat gcaacaattc agctaccgag 4980
tcattcccct tcatttttga tgtttcagcg cacgaattaa cgagatgaga gatgcaacac 5040
agtagaagat aaaacagaat tagaataaga tggcttccag cctgatggtc gtgctcataa 5100
ccgaattgct gaagtatacg tgcaagctcc cttccagaaa tgacgggcag tttaggcatg 5160
tacctcaaca atttcttccc gtattgacgg cggaaccggc tccccgtgct ttttcaggct 5220
cgcaagatag cccttgatgg cgtctttaac gtttgcaagc gcatcttccc tagttgttcc 5280
ctgcgaaaca cagcccggaa gcgaggtgca aaccgcgacg tatgcaccgt cttcgtcttc 5340
ttctacaatc accctgaatt tcataagtat ctttgggctt tttggagttt ataagaatga 5400
tggatttggg aagttgcacc gcgcggatta gtgggagccc cgtcatttcg gcgcatccaa 5460
aaggagtata agctccctcg tttttgcttc aaattccttt tttcttcaat tccgcaaatc 5520
tgcctttgcg ggagcttcg 5539
<210> 22
<211> 6111
<212> DNA
<213> Unknown
<220>
<223> Candidatus Micrarchaeota archaeon
<400> 22
agtttcaatc cctccccctg cattgcaacg cagctcgttg catccgcagg cgatcttcga 60
tcgcctttgc ttaagccttt gacacagaaa ggataggaaa ggcttaaatc cctgtgctgt 120
taaaatacca gtgaagaggt caaggcatga ggattgagaa gaaaatatgg ccggagtatt 180
ttcagaaaat aattgatgga gtcaaaacct ttgagttaag gctggcagat tttgagtgca 240
ggcctggtga catactggtt ttgagggaat gggacccaag aacaaaagag tacacgggca 300
gagttattga aaagaaggtc acttacgtgg ccaaaagcaa agacatgagg tcctggcctg 360
acgaggacat aaggaaatat gggtttctgg ttattgggtt taaatgagcg gcggttgata 420
tgttttcaat ggtggccata tgattagata atcgacaaac atgcgaatcc tttttatatg 480
tgaaaacaag aaataaaacg atgccatccg aaacatacat tacgaaaacc ttgtcattaa 540
aactcattcc atcagatgaa gaaaagcagg cgttagaaaa ctattttata acattccaga 600
gggccgtgaa ttttgctata gatagaatag tagatataag aagctccttt agatatctaa 660
acaaaaatga acaatttcca gccgtgtgtg attgctgtgg taagaaagaa aagataatgt 720
atgtgaatat atccaataaa acctttaagt ttaaaccatc aagaaatcag aaggatagat 780
acacgaagga catttataca atcaagccca atgcccacat atgtaagaca tgctacagtg 840
gcgttgcagg aaatatgttt atacgcaaac aaatgtatcc gaacgataaa gaagggtgga 900
aagtttcgcg ttcatacaat atcaaagtta atgcccctgg actgactgga accgaatatg 960
ctatggccat acggaaggca ataagtatat taagatcttt tgaaaagcga cgaagaaatg 1020
ctgaaagaag aatcatagag tatgaaaagt ccaaaaaaga gtatttagaa ttgattgatg 1080
atgttgaaaa aggaaagaca aataaaatag tggttcttga gaaagaaggc catcagcgag 1140
tgaaaagata taaacacaag aattggcctg agaaatggca aggtatttct ttaaataaag 1200
caaaaagtaa ggttaaagat attgagaaaa gaataaaaaa gctcaaggag tggaaacacc 1260
ctacactaaa tcgaccatat gtcgagttac acaaaaataa tgttaggata gtgggttatg 1320
aaacagtgga acttaaatta ggaaacaaaa tgtacaccat acattttgct agcatatcta 1380
atttacgaaa accatttaga aaacaaaaga aaaagtccat agaatatctg aaacatctcc 1440
taaccctagc gttaaaaaga aatcttgaaa cataccccag cataataaaa agaggtaaga 1500
atttcttttt gcagtatcct gtgcgagtga cagttaaagt gcctaagctg acaaaaaatt 1560
ttaaagcttt tggcatcgat agaggcgtaa ataggcttgc agtaggttgt ataatctcaa 1620
aagatggaaa acttaccaat aaaaatattt ttttcttcca tggaaaggaa gcgtgggcca 1680
aggaaaacag atacaagaag attagggaca gattatacgc tatggccaag aagttgagag 1740
gagataaaac caagaaaata aggctttatc atgagattag gaagaaattt agacataaag 1800
tcaaatattt caggagaaac tatctgcata atatctctaa gcaaattgtt gagattgcaa 1860
aggaaaatac accgactgtc atcgtattag aagatttacg gtacttgaga gaaaggacat 1920
atagaggaaa aggaagaagc aaaaaggcga aaaaaacaaa ttataaatta aatactttta 1980
cttacagaat gcttatagat atgataaaat acaaggcaga agaagcggga gttcctgtaa 2040
tgattattga cccaagaaac acatcacgaa aatgttctaa gtgtggttat gttgacgaaa 2100
ataatagaaa acaagcctcg tttaagtgcc ttaagtgtgg ttatagtctt aatgcagact 2160
taaatgcagc tgtcaatata gcaaaagctt tttatgaatg ccccacgttt agatgggaag 2220
aaaaattgca tgcatatgtt tgttcagagc ccgataaata gcaaatttac ttattcggag 2280
cctgtttaag ccattagaaa aagataaata ttaagaagca cataatttat tttggttaca 2340
tatcactgga taatgagaac agctgtagat taagctgttt gatgtattgt attatgctcc 2400
actttaataa gtggtgcctt ccaaagctat atgctgaggg aggatgggcg ctgttgcagc 2460
gtctgcccac ctcagagtgg gtatccttac ctattttgaa aggttctgta agtgtttata 2520
aatccgattg caattttgca acttacctat ttttaagttt cagatatctc gatagacgca 2580
gcaatactca aaaattgtct gccattgcag aacccaaagt aataggtcaa ggaatgcaac 2640
tgactaaaca aagtttcgct aaactagaag aacaggccaa ttgcagaacc caaagtaata 2700
ggtcaaggaa tgcaactcaa tatcagacgc tttattcact ctaggagcta cccttattgc 2760
agaacccaaa gtaataggtc aaggaatgca acattatatt tattgttatg ttatcatatc 2820
tcccaaacaa aagtattgca gaacccaaag taataggtca aggaatgcaa ctaggtgttg 2880
ttaagcgaca cggttagaag gtaatcttga ttattgcaga acccaaagta ataggtcaag 2940
gaatgcaact cggccttttt ccagccaagg gcttttacta ttgccctatt gcagaaccca 3000
aagtaatagg tcaaggaatg caaccaagcg aaaagtattt atataacata ggtttgtttc 3060
attgcagaac ccaaagtaat aggtcaagga atgcaactat tcttccaaat tcaacacctc 3120
caaaatattt ataattgcag aacccaaagt aataggtcaa ggaatgcaac ttgacagcca 3180
agctagaaag ttgttaaaca gctttaattg cagaacccaa agtaataggt caaggaatgc 3240
aactatgtta aaatcgctat cgggcgtgga agggggtagc gaattgcaga acccaaagta 3300
ataggtcaag gaatgcaacc atagtatccc tgcgtttgct ctgcaaccgc aggttgtcta 3360
ttgcagaacc caaagtaata ggtcaaggaa tgcaactctg gatatctggt ccctccacga 3420
aaccatcacc atcattgcag aacccaaagt aataggtcaa ggaatgcaac caccttttgg 3480
tatagcccag aagcatcaaa aacatgtgaa aaattgcaga acccaaagta ataggtcaag 3540
gaatgcaact ctttttagct tttctcggca gtttatacca catatcctta ttgcagaacc 3600
caaagtaata ggtcaaggaa tgcaacggta atgtcagccc atctgacgca acggcatttg 3660
agacaattgc agaacccaaa gtaataggtc aaggaatgca tgagaaccac ataattttta 3720
aattgcaggt acttatcatt ttttatgatt ttagtgataa acgatttttc aacattcctg 3780
gggaagaaag gggaccgttt tgtaattaaa aaggaaaata agcgtgaaga attttctaca 3840
aataacgttg aacaaatcat aattgctgca gtctcatcta tctcctatgg agctattcga 3900
ttggcaatta aacactctat tgatgtggtt tttttaagca gaggaggtac tcctttaggc 3960
aggatatacc cctgtaaact cggtggaaca accttaacga gaaaaaaaca attagaggct 4020
tattattcaa cagttggtac aaacatcgta aaaaatctcg ttaaagcaaa gattatgaac 4080
caagcctatt ttttgaagtc tttagaaaaa acaagaaaag atattaattt cacttctgaa 4140
attaacagca ttgttaatat tgctaaaaag attccaggtc tcacaggtct aatagatgat 4200
atacggggaa ctttattggg atatgaaggc attgcagcca acaaatattt tagttccttg 4260
tctaacatac taccatttaa aggaagggac agaacaagta atgattacgt aaatattgta 4320
ttgaattatg gatatggtgt tctgtacacg gaagcagaga aagcgtgtat tctagcaggt 4380
cttgatccat atttcggttt tttgcacaaa gataggtaca acaaaccttc aatggtattg 4440
gaccttgtgg aaatatttag accaatcata gtggacaggg cagttgttac tttgttttcc 4500
caaaaacaga taaattcgaa gtgttttgag aaagaaacat atggggatgt ttttttaagt 4560
aaagagggta gggaaaaaat cttatctgct cttctatctc gcctcaatca gcagatacgc 4620
tttaaaggta agaaaacaag ctttaaaaac atcatattag gagaaagccg ttctatagct 4680
caatatgttc ttggtaatat accagaatat gagccgtttg tttataggtg gtaattatga 4740
tatattgggt gatttatgac atcacagaca ataaagttag aagcaaggtt gccgaggagt 4800
gcaagaactt ggggttacat cgagtccaaa aaagttcttt tattggcatt ctctctagaa 4860
atacagccga gatgttatat attaaaatag gggatttaat tgataaaaga gattgtgtgt 4920
tctttattcc acaatgtaac aaatgttttg cagacaaact tattcttggc gattttgatg 4980
aaaggactgt agaagcaaaa gatttcatcg tggtgcaatg acaacgatgg atggttattt 5040
aactgctaag gatttaatga actttcatta ttgtaaaaga ttaatatatt ttgagaatgt 5100
attgaaaatt aaacaagcta caaccaccaa agaactaaaa ggtcgcgcat tacacaacag 5160
tttttctgta tcatcaaaga gaaccaagat aataaaggag tttccatatt ggcctaagat 5220
atataatctt agattaaaat cagatttttt gcaccttata actacattag actgcttgat 5280
tataaaccaa acagataatg aggcatttcc gctggaatac aaatattcca aaaaaccacg 5340
caagatttat aaaaccatga aattgcaact gtctcttcaa gcccttctcg taaatgaact 5400
tttacattat agtgtgaagt ttggtttcat aaagttttcc aaagacaatt ctttggccaa 5460
agtaagcata acagatagag atttagaaga agtgagaacg actatatctg aggttaatac 5520
aatagtagag aaggagattt tacctccacc caccgaatat aaaaaaagat gtattgactg 5580
ttgctatttc aatatatgca aaggaatcta aacaccctct cacttcacag tcacactctt 5640
ggccaggttt ctgggcctgt cggggtctag gcctttgagg acggccagtt ggtaggccag 5700
tatctggatt gggatgattt ggaggattgg gccgagctcc tcgctttcag gcgtttttat 5760
ccagtagtca aaaatatcgt aatttttgtg agagactccg atgacatagg cccctcttgt 5820
ttttacctca tttgcgtttg ctatgatgtc tttgtcatcc ttggaaacaa agacaataac 5880
agggcttcct ttttttatca gagccagggg gccatgcttt agctctcctc ctgcaaaggc 5940
ctctgcgtgt atgtatgaca cctccttgat ctttagggca gcctccagtg ctgttggata 6000
ctgcagggac cttcctagca cgtatatgtg ttcctcattt aagaggcgtt tggctaatgc 6060
cctgagcctg tctctcatgt tcctagacgt caggttgtat atatccatgt a 6111
<210> 23
<211> 8356
<212> DNA
<213> Unknown
<220>
<223> Candidatus Aureabacteria bacterium
<400> 23
tgcgggtgaa tcttttattt cttggatgtg tcattaaatt aatatattag aaaatatatt 60
tttagttatg gattttcaac aagttatttt tgtggttggt attgttttcg gcttattggt 120
ggcaggaggc atagtggggt ggtacgtcac gcgaatgcgc tttatgagga agtgggatgt 180
gttggttccg gaattgcgca aggatgcgat tatgcgttca cgcgcaaact tgggaggaaa 240
gtttactgaa gcattgtcta tgtattttcc tgattttcca ttctctccaa cggaaatgag 300
atgggttgga ggaagtccaa tagattacat cgttttcaaa ggtatggata atgataagat 360
agagcaggtt gtctttctgg aaattaagag cggaaaatcg cagttgtctc ctcgggaaaa 420
gcagataaaa gaggtgattg agaaaaaagg cgttgcgtgg aggatgtatc gggctcctga 480
gcagttgacg cggggggaaa atgcagctgg tcattgatga ttttggcaca tttgtgaaaa 540
agaagcagaa ccgttttgag gttgcaagaa aggagaaaac cgaggagttc tctgcggata 600
aagtaagtca gattgtgctt ctaaaaaaag ggactatttc aggttcagca gttgcacttg 660
cgatggagaa aaatattgat gttgtctatt tagatagttt tggaaagccg attgcccgaa 720
tttttccgtg cactctgggt ggaacaactc ttatcaggag aaggcaggca gaggcaactg 780
catcactgta tgcggttccg tatgtgcgtg cgtttgtcaa gtcaaagatg ctgaatcagg 840
cggccttgct taaatcactc aataagacga gaaacggcct atttctggaa agaattcgtg 900
agattgagcg gattattgag aaatcagagg atgcagtcgg agattatgtg gatgacttgc 960
ggagtgcgtt gatagggtat gagggaaatg ttgcggcgat ttattttgac tgcatacggg 1020
cactcattcc gtttggaaga cgaaagagag gcgcaaaaga cagatttaac tctgcgttaa 1080
actacgcgta tggaattttg tattctcaaa tagagaaggc ctgtcttctt gcaggtcttg 1140
acccgtattt gggatttgtt cattctgaca ggtacggaaa accctccttg gttcttgact 1200
ttatcgagca gttcaggcaa ccgattgcag accgtgcagt tataaccatt tttgtcaaaa 1260
aagagttagc agatgattcg ttcattgaag aagaaatcgt tcagttatca tcgaaaggaa 1320
agaaaaaaat tgttgaggca atatatgggc gtctttcatc tgaattcacg cataatggga 1380
agaagatgac ttttgagaaa gtcatcatcg ataaggcaag ggaatttgca gggtgtattc 1440
ttgaaatgaa ggaatacgaa ccattcgttc acaggtggtg aaatgttata ttggctcatt 1500
tacgatattt caagcaattc caaacggttg aaagtctctg agaagtgcaa agattacggt 1560
ttataccgtg tacagaaaag tgcatttctt ggtgacctat caaagaataa ggcagaaatg 1620
cttcttgaag aagttcagga cattatggcg gaatctgaag gggactgcgt gtttatgttc 1680
cctgcgtgca aagggtgttt ttcatcaaga gcaattattg gggaatttaa tgagtcatta 1740
atcgaggaga aggagttcgt gtttttggca tgctcaagtc agtgacggca acagatgtga 1800
tgaatttttc ttactgtaag agaattcctt actatgtcca cgttttgaaa attcctcagt 1860
ttacaacggt gaaagagtat aagggacggg agaagtatga tgattttaag tataggtcca 1920
agcgttcaaa aattattcag gagtttcctc atttggaaag aaagtatgat ttgtatcttg 1980
aatgtgatgg tttttcaaca aaattggact gtgttttttt caatgatgat gacgccttcc 2040
ccttgcagct caagtatgca gtaaaaccga agaaaatgta cgcgactacg cgaaggcaat 2100
tgcttcttga ggcgttttta atcgagcaat gtcttggcaa gaaagttcaa aggggttttg 2160
tgaagtacga gttatcaggc gacttggtgg aagttgacct aactgacaag tctgaactgt 2220
tcgaaatgtt caaagaatat tttggcataa taatggggga aaaactgcct gaaccgacgg 2280
aatatttaaa aagatgccgc gattgttgtt atcgtaggtt ttgttgggga gataaatgaa 2340
gtcatttaag ctaaagttgt tgccaacaga tgagcaaaac gttcttttaa atgaagtgtt 2400
ttgtaaatgg gcatcattat gtaccagaat ggcgtctaaa ggacacgata aagaacgact 2460
ggcgcctcct gattcaagcg ggaattattt taacaaaaca caactcaatc aggtgaatac 2520
tgatgtaact gaccatatgg gtgcgcttga agagtcagca agtcaaaaag aaagagcagt 2580
tgagaaagtc aaaagaaggt tgaagctgat ttcagatatg ctctctgagc caaatttaag 2640
ggatgtttct caacaaaaac caaccacgtt ccgtccatta gagtgggtta aggagggtct 2700
gttaaaaaca aaataccata ctgtgcatta ttggcaaaag gaatgtgata agttaacaaa 2760
acaaaaagaa cgaatggaga aaacaattga gaagataaag aaagggaaga taacgttcaa 2820
accaacaaag atgtccctgc accaaaattg tttttcgtta tcattcggaa agggaacgtt 2880
ttcaatgcgg ccttttagcg acactaaacg aggcataaat cttgatatgc taactgctcc 2940
cattcaacct gcaataggaa aaaacgatgg caaatcatct ttgaggagca aagagtttat 3000
cgcaaggaat attgaaaact acattatttt ttccatccac tcacaactat ttgggctgag 3060
caggtcagaa gaactgttgt taaacgcaaa aaaagaggaa ctcgttgcta agcgagatgc 3120
aatgctcaaa aagaaatctg attcgctaag taaaaaaata aaggaattag aaaaaatagt 3180
aggaagaaaa attactgatt cagaacgttc agagataatg tctcagggcg gcaaattgtc 3240
ttctgaaaag ttcagtgaag ataattcata tttgaaaacg ttaaaggtgc tggcaaaaga 3300
cattattggg cgagaggaat tgttcagact taagaagtac ccgattgtga ttagaaaacc 3360
tctcaacgaa cgaaaaaagc tcaaaaatct taaacctgac gaatgggaat attatttaca 3420
gttgagttat gatgagttgg aaaagaaaga gtttacacca aagacaatta tgggaatcga 3480
tagaggacta aaacacattc ttgctattgc gatttacgac cctgtgcaaa ataaatttgt 3540
aaaaaatatg ctcattccaa atccgatatt aggttggaag tggaagttgc gaaagataaa 3600
aagaagtatt caacatatgg aaaggagaat acgggctcag caaaatgctc acgttcctga 3660
gaatcagttg aaaaaacggt tgaaaagtat tgagaacaaa attgattatt actatcacaa 3720
tgtgtcgcgg caaatattga atctcgctca cgatttcaaa tcagcaatag tggtagaaga 3780
cttacagaat atgaaacaac acggaagaaa gaaatcaaaa ggactaagag gactaaacta 3840
cgcattaagt aactttgact atggaaaaat tatgggtctt gttaagtata aagcagaatc 3900
agagaatgtg cctcttctta ccgtgttgcc tgcaggaacg agtcaaaatt gcgcgtattg 3960
tctcttgtac ggaaaagaac aaggaaatta tgtgcggaat aatgtcaaca gtaaaatagg 4020
caagtgtaag cttcatggag aaatagatgc ggacatcaat gcggcaagga cgattgcgat 4080
ttgttatcat aagaatatta atgaaccaaa accatatggt gaacgaaaga cttttaaaag 4140
aaagtaaatt ggaatatcct tgatgcgagg aatatgcaat catagtcctt aaggcaccgt 4200
gtatacaaac ggatatgtct tcgagcaatc gaaacatccc aaggatagca caaattctat 4260
atgggtttgt gccaaagatg gcccgttgca ggccattagg gttcataaaa cactgtcatg 4320
gtgtataacg acctgaccta ttctctactc taagaacatc tcaaccaaat aaaacagcag 4380
gtctttaaaa agggagctac aaagtcccga cctgctgttt tcatttttaa ataaaaagag 4440
aaaacgcaag tgctgttgca gatgtggaga aatagagata acgaatgcaa catcgtgatt 4500
tcttggccca tacttcctcc atgtagagcg ttgcagatgt ggagaaatag agataacgaa 4560
tgcaacgcat atatcacctt gtcatcatat tgacgacaga aaggttgcag atgtggagaa 4620
atagagataa cgaatgcaac aagtcaggac tgttaagaat gatgggtctt cttttgtcgg 4680
ttgcagatgt ggagaaatag agataacgaa tgcaactcga gataccagtg gagggtttag 4740
atgaagatac tgcacgttgc agatgtggag aaatagagat aacgaatgca acagaatttg 4800
tgcaaggcga tgggttggcg cagttttgag gttgcagatg tggagaaata gagataacga 4860
atgcaactaa ggatagaggg tgtctctgcg attgtcacga gaacagttgc agatgtggag 4920
aaatagagat aacgaatgca acatagagac tgacccgcgc tgcaagacgc gtaaggcggt 4980
tgcagatgtg gagaaataga gataacgaat gcaaccgact ggattgcttc tttctggagc 5040
tgcggcaagg ggttgcagat gtggagaaat agagataacg aatgcaacag gtactccttc 5100
caaagcccac ttcgctctcc cgtaataccg ttgcagatgt ggagaaatag agataacgaa 5160
tgcaactgcg ggagagactg attgttctgc ggcggggagt tttgttgcag atgtggagaa 5220
atagagataa cgaatgcaac tgatcccgtg aggatgaaag aaggaacgtc cacgtgttgc 5280
agatgtggag aaatagagat aacgaatgca acaggtggtt agcacgatgg agatggacag 5340
cccgcaagcg ttgcagatgt ggagaaatag agataacgaa tgcaacttct tgcagctttt 5400
ggggtgacat tgattgcgtt tggtgttgca gatgtggaga aatagagata acgaatgcaa 5460
ccggatgtaa cagctaaccc tgctacagcg acgaaaggcg ttgcagatgt ggagaaatag 5520
agataacgaa tgcaacacct tggccattgt tcagtcccag atgccatcaa gcgttgcaga 5580
tgtggagaaa tagagataac gaatgcaaca acttcttcgc ttgcgcctta cgcgccgtaa 5640
actcatgttg cagatgtgga gaaatagaga taacgaatgc aacctgtcag gcgcggacgt 5700
cctcacattg ttggccgaag ttgcagatgt ggagaaatag agataacgaa tgcaacagaa 5760
cttcgcaggc atcattaaga gcggcagcta ccagttgcag atgtggagaa atagagataa 5820
cgaatgcaac cccgaaaatg taggcaagaa tcgccgcccc aatattcgtt gcagatgtgg 5880
agaaatagag ataacgaatg caacttgttt tattttgaag cagaggataa cacgatgaag 5940
aagttgcaga tgtggagaaa tagagataac gaatgcaact aagaagggtt ttgcgagtat 6000
caaactcgtc ttttacggtt gcagatgtgg agaaatagag ataacgaatg caacttcgct 6060
tagaaatgac cgtcatcaac agatcataat gcagttgcag atgtggagaa atagagataa 6120
cgaatgcaac caaggtatat gatgcgacgg gtagtttggt gctcaatgtt gcagatgtgg 6180
agaaatagag ataacgaatg caactctcat accaaatcca cctctgcact ttttgaaaat 6240
gggttgcaga tgtggagaaa tagagataac gaatgcaaca aaaaccctct gatgaatatc 6300
gtgaccaaga gcaaaggttg cagatgtgga gaaatagaga taacgaatgc aacggaacac 6360
ctcctacgcg aaaaccctcg acgatatttg ttgcagatgt ggagaaatag agataacgaa 6420
tgcaacttca ggatgtggag cttttcgatt ttaaaccgaa gaaggttgca gatgtggaga 6480
aatagagata acgaatgcaa ctctccttga tgttgtgatt ggttccgccc tgtttgtttg 6540
ttgcagatgt ggagaaatag agataacgaa tgcaacttta tttgggcgtt gtcgattcgg 6600
agggagaggg aatggttgca gatgtggaga aatagagata acgaatgcaa cctatcgcca 6660
taactagcca cattactctt ttcaataatg ttgcagatgt ggagaaatag agataacgaa 6720
tgcaactgat gggattaatt tggtgtggca gatgctcaat gagttcagtt gcagatgtgg 6780
agaaatagag ataacgaatg caaccaaatc aatggggtcg caacgggcac tttggtgacg 6840
ttgcagatgt ggagaaatag agataacgaa tgcaacccta acgtgcgaaa cttcacccaa 6900
acattaactg tatgttgcag atgtggagaa atagagataa cgaatgcaac aacttgtgga 6960
tgggttttcc ccagatcacg gtttcgatgt tgcagatgtg gagaaataga gataacgaat 7020
gcaacaaaat atcgtacacc attatccggc gaagtgcctt acagttgcag atgtggagaa 7080
atagagataa cgaatgcaac aaactccctc cgaaaagtgg gaagtggcgg ggtgcaggtt 7140
gcagatgtgg agaaatagag ataacgaatg caacggctgg atgaaaaagc acttggtgcc 7200
tgcgtcctgc cgttgcagat gtggagaaat agagataacg aatgcaactc attgcggggc 7260
ctccttttcc agcgctttga gcgcggttgc agatgtggag aaatagagat aacgaatgca 7320
acttcttgat tgacttgact tctccggccg cctcaagaat gttgcagatg tggagaaata 7380
gagataacga atgcaacgtg agggcgggat gctttgtcga aaaatgacgg taagttgcag 7440
atgtggagaa atagagataa cgaatgcaac agtgatgctt ccccagaaga caaccaagca 7500
caccaacgcg ttgcagatgt ggagaaatag agataacgaa tgcaacctcg tcaaggttct 7560
tgtagttgaa gatgaatagc accgcgttgc agatgtggag aaatagagat aacgaatgca 7620
acaggtgccg cctcaacagc gcatcctctg gggccaagga gttgcagatg tggagaaata 7680
gagataacga atgcaacggt agaagtcgat gtcttgaacg ctgttgttgg tcacggttgc 7740
agatgtggag aaatagagat aacgaatgca acgcaaattc gggaaacctt cagccatcag 7800
cacacccccc gttgcagatg tggagaaata gagataacga atgcaactac ggccgtactg 7860
ctctcgtcaa ttccacgcct gtattggttg cagatgtgga gaaatagaga taacgaatgc 7920
aacggtgatt ggatggagtt gtatggtctt gattgtgatt tgttgcagat gtggagaaat 7980
agagataacg aatgcaacag agtcatcaga cgacggatag taaggtgtat gctgggttgc 8040
agatgtggag aaatagagat aacgaatgca actgataaaa gtcccatctt gagtacctca 8100
tccaagcagg ttgcagatgt ggagaaatag agataacgaa tgcaacgtga taagaagata 8160
ttagtgctta ctggcaggat agagttgcag atgtggagaa atagagataa cgaatgcaac 8220
taatggcgcg ccgtttttta atcgtgccgc tctcataagt tgcagatgtg gagaaataga 8280
gataacgaat gcaactcggt ttcttcaatc ttgcgtgatg cgggaattcc tcagttgcag 8340
atgtggagaa atagag 8356
<210> 24
<211> 5479
<212> DNA
<213> Unknown
<220>
<223> Uncultured archaeon
<400> 24
gctgtagtgg aattcctccg cggagaccag ccccgcatcc accagctgcc tcaggttgta 60
gtgcaccgtc gagagaggga tcccgagctt ctgcgcaacc cccgattccg tggcgtcctt 120
atcggacagc acgtcgagga tcttcctgca cgactcgttg gacacggcgt tcgccacctt 180
cttcgtggcc ttgtcctcca gcgagagcat gaggaacttc ttgtctgcca tatcgggcat 240
tccggtgatt ggtttataaa tacttttgga taggtttgaa tagggttgaa gtgatgaaca 300
aaaaccactg gacagtggac aaccacgtgg atacactata taaaccgatt ttatttccct 360
atgcagatga tgttggtggt ggacaattac aagaccttca tagggaaaga aggcaaccgt 420
tttgtacttt taacggaaga gcagaagcag gagcattctg ctgatcaggt caggcagatt 480
gtcgtcgtca atggctggca atggagagca acgtggatat cgtacacctt ggcaggcggg 540
gccatcccca cgcccgcgtc tatccctgca ctcttggcgg cacgacgctc actaggagaa 600
ggcagctgga agcgtattat gcggaggaag gcacatatct ggccaagcag tttatcatgg 660
ccaagatacg caaccaggca gctctcttaa gatcgcttgg aaaatcccgg ggcaatcatt 720
ctcttctctt ctcggctaag gcaataggaa agggcaccaa tgacgttgat gcactgaaag 780
gcactattga tgaaattcgc ccgaagcttc tcggaatgga gggcaatgca agcagcgtct 840
attttggggc ccttgcagga attcttccat ttagcggcag ggacaggaat tcaaaagatc 900
cggtcaatat ccttctcaac tatggctacg gaatgctcta tggggaaatc gagcgtgcgt 960
gcgtcatcgc gggccttgac ccctatctcg ggtttatgca cacggacagg tatggcaagc 1020
cttccatgac gctggacttg atagaggaat tccggcagcc cattgtggat cgcaccctgg 1080
ttactctttt tgcgcagaag cagattgaag atgccgattt tgaggcacat ggggactccc 1140
gcctcttgag caggcagggg agggaaaaaa tcatcaaggc agtccttgag cgcctgagcc 1200
agaaagtccg tcgagcaggc gcgcaacgtc acccggtttc tccttgacag aaagcaggaa 1260
taccggggat tcacgagcag gtggtgagca tgatctactg ggtgatttac gacatcagcg 1320
caaacgggac gcgcagcaga gtggcttccg cgtgcaagaa ctacggattc aagcgcatcc 1380
agaagagcgc gtttctgggc aacatcacca aaaacaaggc ggacatgctc gccatccagt 1440
gcagggacat ggtgaaggag gaaggcgact gcgtcttcat catcccggcg tgcgagcagt 1500
gcttcagggg aaaggagata atcggggaac tcgatgagat ggcggggcgg aagctcgact 1560
acctgatagt gggggaagat ggacgacaga cagcgtctta cggcggctga cctgctcaat 1620
tactgctact gcccgcgcat tgtctattac gtgcacgtgc tgaagctggc gcaggcgacg 1680
accacaaagg aactgaaggg aagggagaag tacgatgact tcaagcggaa atccaggcgg 1740
aacaagattg tacgacgtga ctcttgagtc aaagaagcac ggcctcatca ccaaggcgga 1800
ctgcatcctc tttgacaggg agaagggcga ggcatacccc gttcagcata agtacagctt 1860
caggccgaag attctctatc acacttacat ctcccaactg atgatggagg cgatcattat 1920
cgaggagcaa ttcaatcttt ctgttcccca tggatttatc gtatttgaaa ggtcaaagga 1980
gacagtgact gttgatttgg gggacaagca gaaagtttta tatgtcgtgg ggcagataag 2040
gggaattatt gggggagaaa agttcccgcc gccgacggaa tggaaaaagc ggtgcgtgga 2100
ctgctgctat aacaagctgt gttgggggta agatggctaa gaatactatt acaaaaactc 2160
tgaaactgag aatagttcga ccatataatt ctgctgaagt agagaagata gtagctgatg 2220
agaaaaacaa tagggagaaa atcgccttag aaaaaaataa ggataaggtt aaagaggcct 2280
gtagcaagca tctcaaagtt gccgcctatt gcacgacgca agtagaaaga aatgcatgcc 2340
ttttctgcaa agcaagaaaa ttagacgata agttctacca aaagctgagg ggacaatttc 2400
ctgatgctgt attttggcaa gagatttctg agatattcag gcaattgcag aagcaagctg 2460
ctgaaatata taatcaaagt ctcatcgaac tatattacga gatttttata aagggaaaag 2520
gaattgcaaa tgcttcatca gttgagcatt atctcagtga tgtttgttat acaagagctg 2580
ccgaattatt caaaaatgct gcgatagcaa gcggtttaag atcaaagata aagagcaatt 2640
tcaggctcaa ggaattaaaa aatatgaaat cagggcttcc gactacaaaa tcagacaact 2700
tccccattcc tcttgtcaag cagaaaggag ggcaatatac cggctttgag atttcaaatc 2760
ataattctga tttcatcata aaaattccgt ttggcagatg gcaagtgaaa aaagagattg 2820
ataaatacag gccttgggaa aagtttgatt ttgaacaagt gcagaagtct cctaaaccca 2880
tctctctctt gctgtccacg cagagaagaa aaagaaacaa agggtggtcc aaagatgagg 2940
gtactgaggc agaaataaag aaagtgatga atggagatta ccaaacaagc tatattgagg 3000
taaaaagagg atcgaaaatt ggggagaaga gtgcttggat gcttaatctt tctatcgatg 3060
tccccaagat cgacaaggga gttgatccgt ccattatagg cggaatcgat gtcggcgtga 3120
aaagcccgct tgtgtgcgct atcaacaatg ctttcagtcg ttactctatc tcggacaatg 3180
acctctttca tttcaacaaa aaaatgttcg ccagaaggag gatattgctt aagaagaata 3240
ggcataaaag agcaggacat ggtgctaaaa ataaacttaa gcctatcacc atattaactg 3300
aaaaaagcga gagatttagg aagaaactaa tcgagaggtg ggcgtgcgag attgcagatt 3360
ttttcatcaa aaataaggtt ggaactgtcc aaatggaaaa tttggagtcc atgaagagaa 3420
aagaagacag ctacttcaac atcagattga gaggtttttg gccttatgca gaaatgcaaa 3480
ataaaataga atttaagctc aaacagtatg gtatagaaat aagaaaagta gcgcctaaca 3540
atacctctaa aacgtgctcc aaatgtggtc accttaataa ctattttaat tttgaataca 3600
gaaaaaagaa caaatttcct catttcaagt gtgaaaagtg caatttcaag gaaaatgcgg 3660
attataacgc cgctttaaat atttccaatc caaaactaaa atcaacaaag gaagaaccat 3720
agatatttat actttattat ccttcattga caaaaatgag aatgttatcc cagataacat 3780
ttgatgtaca cagattcaca cttcactgat aaagtggaga accgcttcac caaaagctgt 3840
cccttagggg attagaactt gagtgaaggt gggctgcttg catcagccta atgtcgagaa 3900
gtgctttctt cggaaagtaa ccctcgaaac aaattcattt ttcctctcca attctgcaca 3960
aaaaaaggtg agtccttata aaccggcgtg cagaacgccg gctcaccttt tttcttcatt 4020
cgattttatg cttaaaagcc gtaaaaacgc ggaattcggc gccgttgcag aacccgaata 4080
gacgaatgaa ggaatgcaac catactctgc cttagtgttg gtgcaataat gtatagttgc 4140
agaacccgaa tagacgaatg aaggaatgca actacacctc aagcaagcat ccttccagta 4200
atacaaagtt gcagaacccg aatagacgaa tgaaggaatg caacaatcaa acaaacatct 4260
aacggcaatc caattcttgt tgcagaaccc gaatagacga atgaaggaat gcaactggaa 4320
tggaacaagc ccagatacaa acaaaacatt gttgcagaac ccgaatagac gaatgaagga 4380
atgcaacttg aatcccacca atccttccct aatttttggt tgtagagttg cagaacccga 4440
atagacgaat gaaggaatgc aactcgactt cctgcgtgga aagcagggag acagaatgtt 4500
gcagaacccg aatagacgaa tgaaggaatg caacctccca tttaggaatg aaaacgcggg 4560
catagttcgt tgcagaaccc gaatagacga atgaaggaat gcaacacaat atacccccac 4620
tagatgggtt tgcatagctt agttgcagaa cccgaataga cgaatgaagg aatgcaaccg 4680
taagttattg cttcatggct tcccaagagg gagttgcaga acccgaatag acgaatgaag 4740
gaatgcaact caacaccaac agcatctccg tgaaagatag tgtcgttgca gaacccgaat 4800
agacgaatga aggaatgcaa ccaacaacag cgaccgaggg cggccactgt cgatgtgttg 4860
cagaacccga atagacgaat gaaggaatgc aacctgcgcc agccgttgag ttaaatccgg 4920
caaggagttg cagaacccga atagacgaat gaaggaatgc aacatgatct cctggccgac 4980
gtaaagcgtc aatcgttgct tgttgcagaa cccgaataga cgaatgaagg aatgcaactt 5040
tttgccttta cttctgcgtc gtatgacatc ttgttgcaga acccgaatag acgaatgaag 5100
gaatgcaaca acagagtccc gaataatcca gactttgagg caagttgcag aacccgaata 5160
gacgaatgaa ggaatgcaac tgggaagccg cttcctgaca tctcaaagca agtctgttgc 5220
agaacccgaa tagacgaatg aaggaatgca acgagatgga aaaggttaat cttcgtcagg 5280
aatatattgt tgcagaaccc gaatagacga atgaaggaat gcaatcttga cagagcccga 5340
ttgcgttatc tccaggagaa acatataaaa gcatcaaccg ctgatcggaa tgatatccaa 5400
aaacatggcc accatcaccc gatggattga ggagcgggca cgatattcca cccccatcat 5460
ccgcatctcc cttgccctc 5479
<210> 25
<211> 1842
<212> DNA
<213> Unknown
<220>
<223> Candidatus Micrarchaeota archaeon
<400> 25
atgatttcac tcaaacttaa actgcttcca gacgaagaac aaaagaaatt gcttgacgaa 60
atgttttgga agtgggcctc gatttgtacc cgcgttggtt ttgggcgggc tgataaagaa 120
gatttaaaac cgccaaaaga cgcggaaggg gtttggttta gtttaacaca attaaatcaa 180
gccaacacag acattaacga cttaagggag gcgatgaagc accaaaaaca ccgcctagaa 240
tacgaaaaaa accgtttgga agcgcaaaga gatgatactc aggatgcctt gaaaaatccg 300
gacagacgag aaataagcac taaaagaaag gatttattcc gtcccaaagc gtccgtcgaa 360
aaaggctttc tgaaactgaa gtatcatcaa gagcgttatt gggttcgaag gctgaaagaa 420
ataaacaaac taattgaaag gaaaacgaag acacttataa aaatagaaaa ggggcgaatc 480
aaattcaagg caacgcgaat aaccctgcac caaggctctt ttaaaattag attcggcgat 540
aaacccgctt ttctgataaa ggcgttgtct ggaaaaaacc aaatagacgc tccttttgtt 600
gtagtgccag aacaaccaat ctgcgggagc gttgtaaata gcaagaaata cttagatgaa 660
attactacta atttcttggc ttacagcgta aatgcaatgc ttttcggttt gagccgcagc 720
gaggaaatgt tgttgaaagc caaaaggcca gaaaaaatca agaaaaaaga agaaaaactt 780
gctaaaaaac aatcagcctt tgaaaacaaa aagaaggaat tgcaaaaatt acttggtaga 840
gaactaaccc agcaggaaga agcgattatt gaagaaaccc gcaaccaatt ctttcaagat 900
tttgaggtga aaataaccaa acaatactcg gaattactca gcaaaattgc taacgaactc 960
aagcaaaaaa atgattttct gaaagtaaac aaatatccta tacttttaag gaaacctctc 1020
aagaaagcca aatcgaaaaa aattaataat ctttcgccaa gcgaatggaa atattacctc 1080
caattcggag ttaaaccttt actaaaacaa aaatcaagac gaaaatcaag gaatgttttg 1140
ggaatagacc gcggccttaa acacttgcta gccgtaaccg ttcttgaacc cgacaaaaaa 1200
acgtttgtat ggaacaaact ttacccaaac ccaattacgg gctggaagtg gaggcgacgc 1260
aagcttttgc gctccttaaa gcgattgaag aggcgcatta aatcgcaaaa acacgaaaca 1320
attcatgaaa accaaacgag gaaaaagctc aagagtttac aaggcaggat agatgacctg 1380
cttcataata tttccagaaa aatagtggag accgcaaaag aatatgatgc ggtaatagta 1440
gtggaagacc tccaaagcat gcggcaacac ggtcgttcaa aaggcaatcg tttgaaaaca 1500
ctgaattacg cgctaagcct tttcgattac gcaaacgtga tgcaacttat aaagtacaag 1560
gcgggtatag aaggaatcca aatatatgac gttaaaccag ctggcacaag ccaaaattgc 1620
gcgtattgcc ttttagcgca aagggattca cacgaataca aaagaagcca agaaaactcc 1680
aaaataggtg tttgcttaaa tcctaactgc caaaaccaca agaaacaaat tgacgctgac 1740
ctaaacgcgg caagagtaat agctagttgt tacgccttaa aaattaatga ttcccaacca 1800
tttggaacaa ggaaaagatt taaaaaaaga acaacgaatt aa 1842
<210> 26
<211> 1503
<212> DNA
<213> Unknown
<220>
<223> Uncultured archaeon
<400> 26
atggaagtac aaaaaactgt gatgaagaca ctttctttga gaatattaag acctctgtac 60
tcacaagaaa tagaaaaaga gattaaagaa gaaaaagaaa gaagaaaaca agccggagga 120
actggagagc ttgacggggg attttataaa aagcttgaga agaagcattc agagatgttc 180
agctttgata ggttaaactt attgttgaat caattacaaa gagaaattgc taaggtctac 240
aatcatgcca tcagtgaatt gtatatagcg actatcgctc aaggtaacaa gagcaacaaa 300
cattatatta gtagtattgt ctataatcga gcatatggat acttttataa cgcttacata 360
gccttaggga tatgttcaaa agttgaagca aattttagat ccaatgaact cctaacacaa 420
caaagcgcat tgcctacagc aaagtcagat aattttccaa tagttttaca taaacaaaaa 480
ggtgctgagg gagaggatgg aggatttagg atatctactg aggggagcga tctgatattt 540
gagataccca ttccgttcta tgaatataat ggggagaacc gaaaagaacc ctataaatgg 600
gttaaaaaag gaggacaaaa acctgtgtta aaacttatac tttctacttt taggagacaa 660
agaaataagg ggtgggcaaa agacgagggc acggatgcgg aaataagaaa ggttacagaa 720
gggaagtatc aagtcagcca aatagaaata aataggggta aaaaactagg agaacatcaa 780
aaatggtttg ccaatttcag catagagcaa ccaatttatg aaagaaaacc taatcggagt 840
attgtcggcg gattagacgt gggaataaga tcccccctag tatgtgcaat taacaactca 900
ttttcgagat attctgttga ttccaatgat gtatttaagt tttctaaaca agtattcgca 960
tttagaagac ggctattatc gaaaaactct ttgaaaagga aaggtcatgg ggcggctcat 1020
aagttagaac ctatcacgga aatgacagaa aaaaatgaca agtttagaaa gaaaataatt 1080
gagagatggg ccaaggaagt tacaaatttc tttgttaaaa accaagtagg aattgttcag 1140
atagaagatt tatcaacgat gaaagacaga gaggatcatt tttttaatca atatcttaga 1200
ggattttggc cttattacca aatgcagaca ttaattgaga acaagctcaa agagtatggg 1260
attgaggtaa aaagggtaca ggcaaaatat acgtctcagt tgtgctcaaa ccctaattgc 1320
aggtattgga ataactattt taactttgaa taccgaaaag taaataaatt cccaaaattt 1380
aaatgtgaaa agtgtaactt agaaataagt gctgactata acgctgctcg caatctatca 1440
actcccgata tagagaaatt tgtggcaaaa gctacaaaag gcattaattt gccagaaaaa 1500
tga 1503
<210> 27
<211> 1275
<212> DNA
<213> Parageobacillus thermoglucosidasius
<400> 27
atgaagtata cgaaagtaat gaggtatcaa attatcaaac ccttaaacgc agaatgggat 60
gaattgggaa tggttctccg tgacatccag aaagaaactc gcgcggcatt aaacaagacg 120
attcaattgt gttgggaata tcaaggattt agtgcggatt ataagcagat acacggtcag 180
tatcctaaac caaaagatgt tttaggatac acaagtatgc acggatatgc ttatgatcgt 240
ctcaaaaatg aattcagcaa aattgcaagt tcaaaccttt cgcaaactat caaacgagcg 300
gtagataaat ggaatagtga cttaaaagaa attctgcgtg gtgaccgctc catccctaac 360
ttcagaaaag attgtccaat tgatatcgtt aagcaatcga cgaaaataca aaaatgtaat 420
gatggatacg tattaagcct cggtttaatt aatagagagt ataaaaatga attgggacgg 480
aaaaacggag tatttgatgt acttataaaa gcaaacgata aaacccagca aaccatatta 540
gaacgaatta taaatggcga ttatacatat acggcatctc aaataatcaa tcataaaaat 600
aagtggttta ttaaccttac ctatcaattt gaaactaaag aaacagcctt agatcccaat 660
aatgtcatgg gagttgatct aggaattgtt tatcctgttt atatagcatt taataacagt 720
cttcaccgtt atcatattaa aggaggagaa atagaacgat tcagacggca agtagaaaaa 780
aggaagaggg aattgttaaa tcaaggcaaa tattgtggag acgggcgtaa agggcatggt 840
tatgctacaa gaacaaagtc cattgaatca attagcgata aaattgcgag atttcgtgac 900
acttgcaatc ataaatattc caggtttatt gtagatatgg cgcttaaaca taattgtggg 960
ataattcaaa tggaagattt gactggaatt agcaaggaaa gtacattttt gaaaaattgg 1020
acatattacg atcttcagca gaaaatcgaa tataaggcac gagaagcagg aatacaagtt 1080
ataaaaattg aaccccaata tacatctcaa cgttgtagta aatgtggcta tattgataaa 1140
gagaatcggc aagaacaagc tacatttaag tgcatcgaat gtggttttaa gacaaatgct 1200
gactataatg cagcaaggaa tatcgcaata ccgaacattg acaagataat aaggaaaacg 1260
ttaaaaatgc aataa 1275
<210> 28
<211> 1269
<212> DNA
<213> Acidibacillus sulfuroxidans
<400> 28
atgatcaaag tatatcggta tgagatcgta aaaccgcttg atttagattg gaaagagttt 60
ggaactattt tacgacagtt acaacaggaa actcgttttg ccttaaacaa agcgactcaa 120
ctggcttggg aatggatggg ctttagtagt gattataagg ataatcatgg ggaatatcca 180
aaaagtaaag acattctcgg atacacgaat gttcacggat acgcttacca tacgatcaaa 240
accaaagcat atcgcttaaa cagtggtaat ttatctcaaa ccatcaaacg tgcgacggat 300
cgttttaaag catatcaaaa ggaaatctta cgtggcgata tgtccattcc gtcctataaa 360
cgagatattc cactcgatct gattaaagag aatatcagcg taaatcgtat gaatcacggg 420
gattatatcg cttcgttatc tctgttaagc aatccagcca agcaagaaat gaatgtaaag 480
aggaaaattt cggtcataat cattgtccgt ggcgcaggga aaacaatcat ggacagaatc 540
ctaagtggtg aataccaagt ctctgcttca caaataattc acgatgatcg aaaaaacaaa 600
tggtatttaa acataagtta tgattttgaa ccccaaaccc gagtgttgga tctaaataaa 660
ataatgggga ttgatttagg cgttgctgtt gccgtttaca tggcatttca acatacccct 720
gctcgataca aattggaggg aggtgagatt gaaaattttc gtagacaggt agaatctcga 780
cggattagta tgttacgtca aggtaaatat gccggtggtg cccgtggagg gcatgggcga 840
gataaaagaa taaaaccgat tgaacagctt cgagataaaa ttgctaattt tagagatacc 900
acaaaccatc gttatagtag atatatagtg gatatggcaa ttaaagaagg ttgtggaacg 960
attcagatgg aggatttaac gaatatacgc gatattggat ctcgattttt acaaaattgg 1020
acctattatg atttgcagca aaaaattatt tataaagccg aagaggcagg aattaaagtc 1080
ataaagatcg atccccaata taccagtcaa cgttgtagtg aatgtggtaa tatagattcc 1140
gggaatcgaa ttggacaagc tatctttaaa tgcagagctt gcggatacga agccaatgca 1200
gactacaatg ctgcacgaaa catagcaata ccgaacattg acaaaattat agctgagagt 1260
atcaaataa 1269
<210> 29
<211> 1323
<212> DNA
<213> Ruminococcus sp.
<400> 29
ctggtcaaag tcgtaaaaat ccatctaatt agtgagcaat ttgacaaagc aggcaaccgg 60
atagattatg aagaagtcaa taaaatactg tgggaattgc aaaagcagac acgagaagca 120
aagaataaaa ctgttcagct tctttgggaa tggaacaatt tttcaagcga ttatgttaag 180
gcgagtggca tatatcctaa agcaaaagac atatttggct actcaagtgt gcatggacaa 240
gcaaacaaag aattaagaac aaaactcgct ttaaattcaa gtaatctttc cactaccaca 300
atggacgtat gtaaaaattt taatacatat aaaaaagagg tatggaaagg caaacgatca 360
gttccttcgt acaaatcaga ccaacctctt gatctgcaca aagactctat aaagctgata 420
tatgaaaaca acgaatttta tgttaggctc gctttattaa aaaaagctga atttgcaaag 480
tatggtttta aagacggttt tcgttttaaa atgcaggtga aagataattc taccaaaact 540
attcttgaac gctgttttga cgaagtatac aaaataaatg ccagcaaact tttatatgac 600
caaaagaaaa agaagtggaa gcttaatctg tcttatagtt tcgacaataa aaacatttct 660
gaacttgaca aagaaaagat ccttggtgtt gatgtaggcg ttaactgtcc tttagtcgct 720
tcggttttcg gcgatcgtga ccgattcata atcaagggcg gcgaaattga aaaattcaga 780
aaaagcgtgg aagctcgcag acgttcaatg ctcgagcaaa caaaatactg cggtgacgga 840
agaattggtc acggcagaaa aaaacgcact gagcctgccc taaatatagg cgacaagata 900
gcaagatttc gtgatacaac aaaccacaaa tacagcagag ctttgataga atatgctgta 960
aaaaagggct gcggaactat ccaaatggaa aagctgacgg gtattacatc taaatctgat 1020
cgttttctaa aagactggac ttattatgac ctccagacaa agatagaaaa caaggcgaaa 1080
gaagtaggga taaatgtcgt ctatatcgcc cctaaatata caagtcagag atgtagcaaa 1140
tgcggatata tccacaagga taacagacca aatcaggcga aatttagatg tcttgaatgc 1200
gattttgaaa gtaatgcaga ttataatgca agtcagaata tcggaattaa aaacattgat 1260
aagataatag aaaaagattt gcaaaagcaa gaaagcgaag tccaagtgaa cgaaaacaag 1320
tag 1323
<210> 30
<211> 1494
<212> DNA
<213> Syntrophomonas palmitatica
<400> 30
atgggcgaat cggtaaaagc aataaaatta aagatactgg atatgttttt agaccccgaa 60
tgcacaaagc aggatgataa ctggcgcaaa gatttgtcta ctatgtccag attctgcgct 120
gaagcgggga atatgtgtct gcgcgacctg tataattact tttcaatgcc caaggaagac 180
cgtatttcct caaaagactt atataacgct atgtatcata aaactaaact tctccatcct 240
gaattaccag gtaaggtagc gaaccaaata gtaaaccacg ctaaagatgt ttggaaacgc 300
aacgctaaac tcatttatcg gaaccaaatc tcaatgccta catataagat aacaacagca 360
ccaatccggc tgcaaaataa catttataaa ttaataaaaa ataagaacaa atacataata 420
gacgtacagt tatactccaa ggaatactcc aaggatagtg gtaaaggcac tcataggtat 480
tttctggtag cagttagaga ctcatcaacc cgtatgatat tcgaccgtat tatgagtaag 540
gaccatattg acagtagtaa atcatacacg caaggacaac tccaaatcaa gaaagaccac 600
caggggaaat ggtattgcat cataccctat acattcccta cacatgagac agtcctcgac 660
cctgataaag tcatgggagt agaccttggc gttgcaaaag ctgtttactg ggcgtttaat 720
agttcttata aaagaggctg tatcgacggt ggggaaatag aacatttccg caaaatgata 780
cgagctcgca gggtgtccat ccaaaatcaa atcaaacatt caggggacgc ccgtaaagga 840
catgggcgca aaagggcgtt aaaacccata gaaacattga gcgagaagga aaagaatttt 900
agggatacaa taaaccaccg ctatgcaaat cgaattgtag aagctgctat taagcaaggc 960
tgtgggacaa tccaaatcga aaaccttgaa ggtatagctg acacaacagg cagtaaattt 1020
ctcaagaact ggccttatta cgacctgcag acaaaaattg ttaataaagc caaggaacat 1080
ggcattaccg ttgttgcaat aaacccccaa tatacatccc aaaggtgttc gatgtgcggg 1140
tatattgaaa aaaccaaccg ttcatcacag gcagtatttg aatgtaaaca atgcggttac 1200
ggcagtagga ctatatgtat taactgcagg cacgtccaag tatccgggga tgtttgtgag 1260
gaatgtggcg gcatagtaaa aaaagaaaac gtaaacgcag actacaatgc ggcaaaaaac 1320
atatccacac cgtacatcga ccagataata atggagaagt gtttagaact aggtattcct 1380
taccgcagta taacctgtaa agaatgtggt cacatacagg cttcaggaaa tacctgcgag 1440
gtttgcggaa gtactaatat tttgaaacca aagaaaatta gaaaagcaaa ataa 1494
<210> 31
<211> 1494
<212> DNA
<213> Clostridium novyi
<400> 31
atgattacag ttagaaaaat aaagttaaca ataatgggag ataaagatac aagaaatagt 60
caatacaaat ggattagaga tgaacaatac aatcagtaca gagctttaaa tatgggtatg 120
acttatttag ctgtaaatga tattttatat atgaatgaaa gcggattaga aattcgaact 180
attaaagatt taaaagattg tgaaaaagat attgataaaa ataaaaaaga aattgaaaag 240
ttaactgcaa gactagagaa ggaacaaaat aagaaaaatt cctcatcaga aaaattagat 300
gagattaaat ataaaataag tttagtagaa aataaaattg aagattataa attaaaaata 360
gttgagttaa ataaaattct tgaagaaaca caaaaagaaa gaatggatat acagaaagaa 420
tttaaagaaa aatatgtaga tgatctttat caagttttag ataaaatacc ctttaagcat 480
ttagacaata aaagtctagt tactcaaaga ataaaagctg atataaagtc agataaaagt 540
aatggactat taaaaggtga aagaagtatt agaaactaca agagaaactt tcctttaatg 600
actagaggac gagatttaaa atttaaatat gatgataatg atgatattga aataaagtgg 660
atggaaggaa ttaaatttaa agttattttg ggaaatagaa taaaaaattc cttagagctt 720
agacacactt tacataaagt tatagaggga aaatataaaa tatgtgatag tagtttgcaa 780
tttgataaaa ataataatct tatacttaat ttaactctag acattcctat tgatattgta 840
aataaaaaag tttcaggaag agttgtagga gtagatttag gattaaagat accagcatat 900
tgtgcattaa atgatgttga atatattaaa aaatctatag gacgtataga tgatttcttg 960
aaagttagaa ctcaaatgca gagtagaaga agaagacttc aaattgcaat acaaagtgct 1020
aaaggtggaa aaggtagggt gaataaactt caagccttgg agagatttgc tgaaaaggag 1080
aagaattttg caaagacata taatcatttt ttaagttcta atatagttaa atttgcagtt 1140
agcaatcagg ccgaacaaat taatatggag ttattaagtt taaaagaaac tcaaaataag 1200
tcaatactaa gaaattggag ttattatcaa cttcaaacaa tgattgagta taaagcccaa 1260
cgtgaaggga ttaaagttaa gtacatagat ccttatcata catcacaaac atgtagtaaa 1320
tgtggtaatt atgaagaagg acaaagagaa tctcaagctg attttatatg caaaaaatgt 1380
ggttataaag ttaatgctga ttataatgca gctagaaata tcgctatgag taataaatat 1440
ataacaaaaa aagaagaaag taagtattac aaaattaaag aaagtatggt ataa 1494
<210> 32
<211> 613
<212> PRT
<213> Unknown
<220>
<223> Candidatus Micrarchaeota archaeon
<400> 32
Met Ile Ser Leu Lys Leu Lys Leu Leu Pro Asp Glu Glu Gln Lys Lys
1 5 10 15
Leu Leu Asp Glu Met Phe Trp Lys Trp Ala Ser Ile Cys Thr Arg Val
20 25 30
Gly Phe Gly Arg Ala Asp Lys Glu Asp Leu Lys Pro Pro Lys Asp Ala
35 40 45
Glu Gly Val Trp Phe Ser Leu Thr Gln Leu Asn Gln Ala Asn Thr Asp
50 55 60
Ile Asn Asp Leu Arg Glu Ala Met Lys His Gln Lys His Arg Leu Glu
65 70 75 80
Tyr Glu Lys Asn Arg Leu Glu Ala Gln Arg Asp Asp Thr Gln Asp Ala
85 90 95
Leu Lys Asn Pro Asp Arg Arg Glu Ile Ser Thr Lys Arg Lys Asp Leu
100 105 110
Phe Arg Pro Lys Ala Ser Val Glu Lys Gly Phe Leu Lys Leu Lys Tyr
115 120 125
His Gln Glu Arg Tyr Trp Val Arg Arg Leu Lys Glu Ile Asn Lys Leu
130 135 140
Ile Glu Arg Lys Thr Lys Thr Leu Ile Lys Ile Glu Lys Gly Arg Ile
145 150 155 160
Lys Phe Lys Ala Thr Arg Ile Thr Leu His Gln Gly Ser Phe Lys Ile
165 170 175
Arg Phe Gly Asp Lys Pro Ala Phe Leu Ile Lys Ala Leu Ser Gly Lys
180 185 190
Asn Gln Ile Asp Ala Pro Phe Val Val Val Pro Glu Gln Pro Ile Cys
195 200 205
Gly Ser Val Val Asn Ser Lys Lys Tyr Leu Asp Glu Ile Thr Thr Asn
210 215 220
Phe Leu Ala Tyr Ser Val Asn Ala Met Leu Phe Gly Leu Ser Arg Ser
225 230 235 240
Glu Glu Met Leu Leu Lys Ala Lys Arg Pro Glu Lys Ile Lys Lys Lys
245 250 255
Glu Glu Lys Leu Ala Lys Lys Gln Ser Ala Phe Glu Asn Lys Lys Lys
260 265 270
Glu Leu Gln Lys Leu Leu Gly Arg Glu Leu Thr Gln Gln Glu Glu Ala
275 280 285
Ile Ile Glu Glu Thr Arg Asn Gln Phe Phe Gln Asp Phe Glu Val Lys
290 295 300
Ile Thr Lys Gln Tyr Ser Glu Leu Leu Ser Lys Ile Ala Asn Glu Leu
305 310 315 320
Lys Gln Lys Asn Asp Phe Leu Lys Val Asn Lys Tyr Pro Ile Leu Leu
325 330 335
Arg Lys Pro Leu Lys Lys Ala Lys Ser Lys Lys Ile Asn Asn Leu Ser
340 345 350
Pro Ser Glu Trp Lys Tyr Tyr Leu Gln Phe Gly Val Lys Pro Leu Leu
355 360 365
Lys Gln Lys Ser Arg Arg Lys Ser Arg Asn Val Leu Gly Ile Asp Arg
370 375 380
Gly Leu Lys His Leu Leu Ala Val Thr Val Leu Glu Pro Asp Lys Lys
385 390 395 400
Thr Phe Val Trp Asn Lys Leu Tyr Pro Asn Pro Ile Thr Gly Trp Lys
405 410 415
Trp Arg Arg Arg Lys Leu Leu Arg Ser Leu Lys Arg Leu Lys Arg Arg
420 425 430
Ile Lys Ser Gln Lys His Glu Thr Ile His Glu Asn Gln Thr Arg Lys
435 440 445
Lys Leu Lys Ser Leu Gln Gly Arg Ile Asp Asp Leu Leu His Asn Ile
450 455 460
Ser Arg Lys Ile Val Glu Thr Ala Lys Glu Tyr Asp Ala Val Ile Val
465 470 475 480
Val Glu Asp Leu Gln Ser Met Arg Gln His Gly Arg Ser Lys Gly Asn
485 490 495
Arg Leu Lys Thr Leu Asn Tyr Ala Leu Ser Leu Phe Asp Tyr Ala Asn
500 505 510
Val Met Gln Leu Ile Lys Tyr Lys Ala Gly Ile Glu Gly Ile Gln Ile
515 520 525
Tyr Asp Val Lys Pro Ala Gly Thr Ser Gln Asn Cys Ala Tyr Cys Leu
530 535 540
Leu Ala Gln Arg Asp Ser His Glu Tyr Lys Arg Ser Gln Glu Asn Ser
545 550 555 560
Lys Ile Gly Val Cys Leu Asn Pro Asn Cys Gln Asn His Lys Lys Gln
565 570 575
Ile Asp Ala Asp Leu Asn Ala Ala Arg Val Ile Ala Ser Cys Tyr Ala
580 585 590
Leu Lys Ile Asn Asp Ser Gln Pro Phe Gly Thr Arg Lys Arg Phe Lys
595 600 605
Lys Arg Thr Thr Asn
610
<210> 33
<211> 500
<212> PRT
<213> Unknown
<220>
<223> Uncultured archaeon
<400> 33
Met Glu Val Gln Lys Thr Val Met Lys Thr Leu Ser Leu Arg Ile Leu
1 5 10 15
Arg Pro Leu Tyr Ser Gln Glu Ile Glu Lys Glu Ile Lys Glu Glu Lys
20 25 30
Glu Arg Arg Lys Gln Ala Gly Gly Thr Gly Glu Leu Asp Gly Gly Phe
35 40 45
Tyr Lys Lys Leu Glu Lys Lys His Ser Glu Met Phe Ser Phe Asp Arg
50 55 60
Leu Asn Leu Leu Leu Asn Gln Leu Gln Arg Glu Ile Ala Lys Val Tyr
65 70 75 80
Asn His Ala Ile Ser Glu Leu Tyr Ile Ala Thr Ile Ala Gln Gly Asn
85 90 95
Lys Ser Asn Lys His Tyr Ile Ser Ser Ile Val Tyr Asn Arg Ala Tyr
100 105 110
Gly Tyr Phe Tyr Asn Ala Tyr Ile Ala Leu Gly Ile Cys Ser Lys Val
115 120 125
Glu Ala Asn Phe Arg Ser Asn Glu Leu Leu Thr Gln Gln Ser Ala Leu
130 135 140
Pro Thr Ala Lys Ser Asp Asn Phe Pro Ile Val Leu His Lys Gln Lys
145 150 155 160
Gly Ala Glu Gly Glu Asp Gly Gly Phe Arg Ile Ser Thr Glu Gly Ser
165 170 175
Asp Leu Ile Phe Glu Ile Pro Ile Pro Phe Tyr Glu Tyr Asn Gly Glu
180 185 190
Asn Arg Lys Glu Pro Tyr Lys Trp Val Lys Lys Gly Gly Gln Lys Pro
195 200 205
Val Leu Lys Leu Ile Leu Ser Thr Phe Arg Arg Gln Arg Asn Lys Gly
210 215 220
Trp Ala Lys Asp Glu Gly Thr Asp Ala Glu Ile Arg Lys Val Thr Glu
225 230 235 240
Gly Lys Tyr Gln Val Ser Gln Ile Glu Ile Asn Arg Gly Lys Lys Leu
245 250 255
Gly Glu His Gln Lys Trp Phe Ala Asn Phe Ser Ile Glu Gln Pro Ile
260 265 270
Tyr Glu Arg Lys Pro Asn Arg Ser Ile Val Gly Gly Leu Asp Val Gly
275 280 285
Ile Arg Ser Pro Leu Val Cys Ala Ile Asn Asn Ser Phe Ser Arg Tyr
290 295 300
Ser Val Asp Ser Asn Asp Val Phe Lys Phe Ser Lys Gln Val Phe Ala
305 310 315 320
Phe Arg Arg Arg Leu Leu Ser Lys Asn Ser Leu Lys Arg Lys Gly His
325 330 335
Gly Ala Ala His Lys Leu Glu Pro Ile Thr Glu Met Thr Glu Lys Asn
340 345 350
Asp Lys Phe Arg Lys Lys Ile Ile Glu Arg Trp Ala Lys Glu Val Thr
355 360 365
Asn Phe Phe Val Lys Asn Gln Val Gly Ile Val Gln Ile Glu Asp Leu
370 375 380
Ser Thr Met Lys Asp Arg Glu Asp His Phe Phe Asn Gln Tyr Leu Arg
385 390 395 400
Gly Phe Trp Pro Tyr Tyr Gln Met Gln Thr Leu Ile Glu Asn Lys Leu
405 410 415
Lys Glu Tyr Gly Ile Glu Val Lys Arg Val Gln Ala Lys Tyr Thr Ser
420 425 430
Gln Leu Cys Ser Asn Pro Asn Cys Arg Tyr Trp Asn Asn Tyr Phe Asn
435 440 445
Phe Glu Tyr Arg Lys Val Asn Lys Phe Pro Lys Phe Lys Cys Glu Lys
450 455 460
Cys Asn Leu Glu Ile Ser Ala Asp Tyr Asn Ala Ala Arg Asn Leu Ser
465 470 475 480
Thr Pro Asp Ile Glu Lys Phe Val Ala Lys Ala Thr Lys Gly Ile Asn
485 490 495
Leu Pro Glu Lys
500
<210> 34
<211> 424
<212> PRT
<213> Parageobacillus thermoglucosidasius
<400> 34
Met Lys Tyr Thr Lys Val Met Arg Tyr Gln Ile Ile Lys Pro Leu Asn
1 5 10 15
Ala Glu Trp Asp Glu Leu Gly Met Val Leu Arg Asp Ile Gln Lys Glu
20 25 30
Thr Arg Ala Ala Leu Asn Lys Thr Ile Gln Leu Cys Trp Glu Tyr Gln
35 40 45
Gly Phe Ser Ala Asp Tyr Lys Gln Ile His Gly Gln Tyr Pro Lys Pro
50 55 60
Lys Asp Val Leu Gly Tyr Thr Ser Met His Gly Tyr Ala Tyr Asp Arg
65 70 75 80
Leu Lys Asn Glu Phe Ser Lys Ile Ala Ser Ser Asn Leu Ser Gln Thr
85 90 95
Ile Lys Arg Ala Val Asp Lys Trp Asn Ser Asp Leu Lys Glu Ile Leu
100 105 110
Arg Gly Asp Arg Ser Ile Pro Asn Phe Arg Lys Asp Cys Pro Ile Asp
115 120 125
Ile Val Lys Gln Ser Thr Lys Ile Gln Lys Cys Asn Asp Gly Tyr Val
130 135 140
Leu Ser Leu Gly Leu Ile Asn Arg Glu Tyr Lys Asn Glu Leu Gly Arg
145 150 155 160
Lys Asn Gly Val Phe Asp Val Leu Ile Lys Ala Asn Asp Lys Thr Gln
165 170 175
Gln Thr Ile Leu Glu Arg Ile Ile Asn Gly Asp Tyr Thr Tyr Thr Ala
180 185 190
Ser Gln Ile Ile Asn His Lys Asn Lys Trp Phe Ile Asn Leu Thr Tyr
195 200 205
Gln Phe Glu Thr Lys Glu Thr Ala Leu Asp Pro Asn Asn Val Met Gly
210 215 220
Val Asp Leu Gly Ile Val Tyr Pro Val Tyr Ile Ala Phe Asn Asn Ser
225 230 235 240
Leu His Arg Tyr His Ile Lys Gly Gly Glu Ile Glu Arg Phe Arg Arg
245 250 255
Gln Val Glu Lys Arg Lys Arg Glu Leu Leu Asn Gln Gly Lys Tyr Cys
260 265 270
Gly Asp Gly Arg Lys Gly His Gly Tyr Ala Thr Arg Thr Lys Ser Ile
275 280 285
Glu Ser Ile Ser Asp Lys Ile Ala Arg Phe Arg Asp Thr Cys Asn His
290 295 300
Lys Tyr Ser Arg Phe Ile Val Asp Met Ala Leu Lys His Asn Cys Gly
305 310 315 320
Ile Ile Gln Met Glu Asp Leu Thr Gly Ile Ser Lys Glu Ser Thr Phe
325 330 335
Leu Lys Asn Trp Thr Tyr Tyr Asp Leu Gln Gln Lys Ile Glu Tyr Lys
340 345 350
Ala Arg Glu Ala Gly Ile Gln Val Ile Lys Ile Glu Pro Gln Tyr Thr
355 360 365
Ser Gln Arg Cys Ser Lys Cys Gly Tyr Ile Asp Lys Glu Asn Arg Gln
370 375 380
Glu Gln Ala Thr Phe Lys Cys Ile Glu Cys Gly Phe Lys Thr Asn Ala
385 390 395 400
Asp Tyr Asn Ala Ala Arg Asn Ile Ala Ile Pro Asn Ile Asp Lys Ile
405 410 415
Ile Arg Lys Thr Leu Lys Met Gln
420
<210> 35
<211> 422
<212> PRT
<213> Acidibacillus sulfuroxidans
<400> 35
Met Ile Lys Val Tyr Arg Tyr Glu Ile Val Lys Pro Leu Asp Leu Asp
1 5 10 15
Trp Lys Glu Phe Gly Thr Ile Leu Arg Gln Leu Gln Gln Glu Thr Arg
20 25 30
Phe Ala Leu Asn Lys Ala Thr Gln Leu Ala Trp Glu Trp Met Gly Phe
35 40 45
Ser Ser Asp Tyr Lys Asp Asn His Gly Glu Tyr Pro Lys Ser Lys Asp
50 55 60
Ile Leu Gly Tyr Thr Asn Val His Gly Tyr Ala Tyr His Thr Ile Lys
65 70 75 80
Thr Lys Ala Tyr Arg Leu Asn Ser Gly Asn Leu Ser Gln Thr Ile Lys
85 90 95
Arg Ala Thr Asp Arg Phe Lys Ala Tyr Gln Lys Glu Ile Leu Arg Gly
100 105 110
Asp Met Ser Ile Pro Ser Tyr Lys Arg Asp Ile Pro Leu Asp Leu Ile
115 120 125
Lys Glu Asn Ile Ser Val Asn Arg Met Asn His Gly Asp Tyr Ile Ala
130 135 140
Ser Leu Ser Leu Leu Ser Asn Pro Ala Lys Gln Glu Met Asn Val Lys
145 150 155 160
Arg Lys Ile Ser Val Ile Ile Ile Val Arg Gly Ala Gly Lys Thr Ile
165 170 175
Met Asp Arg Ile Leu Ser Gly Glu Tyr Gln Val Ser Ala Ser Gln Ile
180 185 190
Ile His Asp Asp Arg Lys Asn Lys Trp Tyr Leu Asn Ile Ser Tyr Asp
195 200 205
Phe Glu Pro Gln Thr Arg Val Leu Asp Leu Asn Lys Ile Met Gly Ile
210 215 220
Asp Leu Gly Val Ala Val Ala Val Tyr Met Ala Phe Gln His Thr Pro
225 230 235 240
Ala Arg Tyr Lys Leu Glu Gly Gly Glu Ile Glu Asn Phe Arg Arg Gln
245 250 255
Val Glu Ser Arg Arg Ile Ser Met Leu Arg Gln Gly Lys Tyr Ala Gly
260 265 270
Gly Ala Arg Gly Gly His Gly Arg Asp Lys Arg Ile Lys Pro Ile Glu
275 280 285
Gln Leu Arg Asp Lys Ile Ala Asn Phe Arg Asp Thr Thr Asn His Arg
290 295 300
Tyr Ser Arg Tyr Ile Val Asp Met Ala Ile Lys Glu Gly Cys Gly Thr
305 310 315 320
Ile Gln Met Glu Asp Leu Thr Asn Ile Arg Asp Ile Gly Ser Arg Phe
325 330 335
Leu Gln Asn Trp Thr Tyr Tyr Asp Leu Gln Gln Lys Ile Ile Tyr Lys
340 345 350
Ala Glu Glu Ala Gly Ile Lys Val Ile Lys Ile Asp Pro Gln Tyr Thr
355 360 365
Ser Gln Arg Cys Ser Glu Cys Gly Asn Ile Asp Ser Gly Asn Arg Ile
370 375 380
Gly Gln Ala Ile Phe Lys Cys Arg Ala Cys Gly Tyr Glu Ala Asn Ala
385 390 395 400
Asp Tyr Asn Ala Ala Arg Asn Ile Ala Ile Pro Asn Ile Asp Lys Ile
405 410 415
Ile Ala Glu Ser Ile Lys
420
<210> 36
<211> 440
<212> PRT
<213> Ruminococcus sp.
<400> 36
Met Val Lys Val Val Lys Ile His Leu Ile Ser Glu Gln Phe Asp Lys
1 5 10 15
Ala Gly Asn Arg Ile Asp Tyr Glu Glu Val Asn Lys Ile Leu Trp Glu
20 25 30
Leu Gln Lys Gln Thr Arg Glu Ala Lys Asn Lys Thr Val Gln Leu Leu
35 40 45
Trp Glu Trp Asn Asn Phe Ser Ser Asp Tyr Val Lys Ala Ser Gly Ile
50 55 60
Tyr Pro Lys Ala Lys Asp Ile Phe Gly Tyr Ser Ser Val His Gly Gln
65 70 75 80
Ala Asn Lys Glu Leu Arg Thr Lys Leu Ala Leu Asn Ser Ser Asn Leu
85 90 95
Ser Thr Thr Thr Met Asp Val Cys Lys Asn Phe Asn Thr Tyr Lys Lys
100 105 110
Glu Val Trp Lys Gly Lys Arg Ser Val Pro Ser Tyr Lys Ser Asp Gln
115 120 125
Pro Leu Asp Leu His Lys Asp Ser Ile Lys Leu Ile Tyr Glu Asn Asn
130 135 140
Glu Phe Tyr Val Arg Leu Ala Leu Leu Lys Lys Ala Glu Phe Ala Lys
145 150 155 160
Tyr Gly Phe Lys Asp Gly Phe Arg Phe Lys Met Gln Val Lys Asp Asn
165 170 175
Ser Thr Lys Thr Ile Leu Glu Arg Cys Phe Asp Glu Val Tyr Lys Ile
180 185 190
Asn Ala Ser Lys Leu Leu Tyr Asp Gln Lys Lys Lys Lys Trp Lys Leu
195 200 205
Asn Leu Ser Tyr Ser Phe Asp Asn Lys Asn Ile Ser Glu Leu Asp Lys
210 215 220
Glu Lys Ile Leu Gly Val Asp Val Gly Val Asn Cys Pro Leu Val Ala
225 230 235 240
Ser Val Phe Gly Asp Arg Asp Arg Phe Ile Ile Lys Gly Gly Glu Ile
245 250 255
Glu Lys Phe Arg Lys Ser Val Glu Ala Arg Arg Arg Ser Met Leu Glu
260 265 270
Gln Thr Lys Tyr Cys Gly Asp Gly Arg Ile Gly His Gly Arg Lys Lys
275 280 285
Arg Thr Glu Pro Ala Leu Asn Ile Gly Asp Lys Ile Ala Arg Phe Arg
290 295 300
Asp Thr Thr Asn His Lys Tyr Ser Arg Ala Leu Ile Glu Tyr Ala Val
305 310 315 320
Lys Lys Gly Cys Gly Thr Ile Gln Met Glu Lys Leu Thr Gly Ile Thr
325 330 335
Ser Lys Ser Asp Arg Phe Leu Lys Asp Trp Thr Tyr Tyr Asp Leu Gln
340 345 350
Thr Lys Ile Glu Asn Lys Ala Lys Glu Val Gly Ile Asn Val Val Tyr
355 360 365
Ile Ala Pro Lys Tyr Thr Ser Gln Arg Cys Ser Lys Cys Gly Tyr Ile
370 375 380
His Lys Asp Asn Arg Pro Asn Gln Ala Lys Phe Arg Cys Leu Glu Cys
385 390 395 400
Asp Phe Glu Ser Asn Ala Asp Tyr Asn Ala Ser Gln Asn Ile Gly Ile
405 410 415
Lys Asn Ile Asp Lys Ile Ile Glu Lys Asp Leu Gln Lys Gln Glu Ser
420 425 430
Glu Val Gln Val Asn Glu Asn Lys
435 440
<210> 37
<211> 497
<212> PRT
<213> Syntrophomonas palmitatica
<400> 37
Met Gly Glu Ser Val Lys Ala Ile Lys Leu Lys Ile Leu Asp Met Phe
1 5 10 15
Leu Asp Pro Glu Cys Thr Lys Gln Asp Asp Asn Trp Arg Lys Asp Leu
20 25 30
Ser Thr Met Ser Arg Phe Cys Ala Glu Ala Gly Asn Met Cys Leu Arg
35 40 45
Asp Leu Tyr Asn Tyr Phe Ser Met Pro Lys Glu Asp Arg Ile Ser Ser
50 55 60
Lys Asp Leu Tyr Asn Ala Met Tyr His Lys Thr Lys Leu Leu His Pro
65 70 75 80
Glu Leu Pro Gly Lys Val Ala Asn Gln Ile Val Asn His Ala Lys Asp
85 90 95
Val Trp Lys Arg Asn Ala Lys Leu Ile Tyr Arg Asn Gln Ile Ser Met
100 105 110
Pro Thr Tyr Lys Ile Thr Thr Ala Pro Ile Arg Leu Gln Asn Asn Ile
115 120 125
Tyr Lys Leu Ile Lys Asn Lys Asn Lys Tyr Ile Ile Asp Val Gln Leu
130 135 140
Tyr Ser Lys Glu Tyr Ser Lys Asp Ser Gly Lys Gly Thr His Arg Tyr
145 150 155 160
Phe Leu Val Ala Val Arg Asp Ser Ser Thr Arg Met Ile Phe Asp Arg
165 170 175
Ile Met Ser Lys Asp His Ile Asp Ser Ser Lys Ser Tyr Thr Gln Gly
180 185 190
Gln Leu Gln Ile Lys Lys Asp His Gln Gly Lys Trp Tyr Cys Ile Ile
195 200 205
Pro Tyr Thr Phe Pro Thr His Glu Thr Val Leu Asp Pro Asp Lys Val
210 215 220
Met Gly Val Asp Leu Gly Val Ala Lys Ala Val Tyr Trp Ala Phe Asn
225 230 235 240
Ser Ser Tyr Lys Arg Gly Cys Ile Asp Gly Gly Glu Ile Glu His Phe
245 250 255
Arg Lys Met Ile Arg Ala Arg Arg Val Ser Ile Gln Asn Gln Ile Lys
260 265 270
His Ser Gly Asp Ala Arg Lys Gly His Gly Arg Lys Arg Ala Leu Lys
275 280 285
Pro Ile Glu Thr Leu Ser Glu Lys Glu Lys Asn Phe Arg Asp Thr Ile
290 295 300
Asn His Arg Tyr Ala Asn Arg Ile Val Glu Ala Ala Ile Lys Gln Gly
305 310 315 320
Cys Gly Thr Ile Gln Ile Glu Asn Leu Glu Gly Ile Ala Asp Thr Thr
325 330 335
Gly Ser Lys Phe Leu Lys Asn Trp Pro Tyr Tyr Asp Leu Gln Thr Lys
340 345 350
Ile Val Asn Lys Ala Lys Glu His Gly Ile Thr Val Val Ala Ile Asn
355 360 365
Pro Gln Tyr Thr Ser Gln Arg Cys Ser Met Cys Gly Tyr Ile Glu Lys
370 375 380
Thr Asn Arg Ser Ser Gln Ala Val Phe Glu Cys Lys Gln Cys Gly Tyr
385 390 395 400
Gly Ser Arg Thr Ile Cys Ile Asn Cys Arg His Val Gln Val Ser Gly
405 410 415
Asp Val Cys Glu Glu Cys Gly Gly Ile Val Lys Lys Glu Asn Val Asn
420 425 430
Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser Thr Pro Tyr Ile Asp Gln
435 440 445
Ile Ile Met Glu Lys Cys Leu Glu Leu Gly Ile Pro Tyr Arg Ser Ile
450 455 460
Thr Cys Lys Glu Cys Gly His Ile Gln Ala Ser Gly Asn Thr Cys Glu
465 470 475 480
Val Cys Gly Ser Thr Asn Ile Leu Lys Pro Lys Lys Ile Arg Lys Ala
485 490 495
Lys
<210> 38
<211> 497
<212> PRT
<213> Clostridium novyi
<400> 38
Met Ile Thr Val Arg Lys Ile Lys Leu Thr Ile Met Gly Asp Lys Asp
1 5 10 15
Thr Arg Asn Ser Gln Tyr Lys Trp Ile Arg Asp Glu Gln Tyr Asn Gln
20 25 30
Tyr Arg Ala Leu Asn Met Gly Met Thr Tyr Leu Ala Val Asn Asp Ile
35 40 45
Leu Tyr Met Asn Glu Ser Gly Leu Glu Ile Arg Thr Ile Lys Asp Leu
50 55 60
Lys Asp Cys Glu Lys Asp Ile Asp Lys Asn Lys Lys Glu Ile Glu Lys
65 70 75 80
Leu Thr Ala Arg Leu Glu Lys Glu Gln Asn Lys Lys Asn Ser Ser Ser
85 90 95
Glu Lys Leu Asp Glu Ile Lys Tyr Lys Ile Ser Leu Val Glu Asn Lys
100 105 110
Ile Glu Asp Tyr Lys Leu Lys Ile Val Glu Leu Asn Lys Ile Leu Glu
115 120 125
Glu Thr Gln Lys Glu Arg Met Asp Ile Gln Lys Glu Phe Lys Glu Lys
130 135 140
Tyr Val Asp Asp Leu Tyr Gln Val Leu Asp Lys Ile Pro Phe Lys His
145 150 155 160
Leu Asp Asn Lys Ser Leu Val Thr Gln Arg Ile Lys Ala Asp Ile Lys
165 170 175
Ser Asp Lys Ser Asn Gly Leu Leu Lys Gly Glu Arg Ser Ile Arg Asn
180 185 190
Tyr Lys Arg Asn Phe Pro Leu Met Thr Arg Gly Arg Asp Leu Lys Phe
195 200 205
Lys Tyr Asp Asp Asn Asp Asp Ile Glu Ile Lys Trp Met Glu Gly Ile
210 215 220
Lys Phe Lys Val Ile Leu Gly Asn Arg Ile Lys Asn Ser Leu Glu Leu
225 230 235 240
Arg His Thr Leu His Lys Val Ile Glu Gly Lys Tyr Lys Ile Cys Asp
245 250 255
Ser Ser Leu Gln Phe Asp Lys Asn Asn Asn Leu Ile Leu Asn Leu Thr
260 265 270
Leu Asp Ile Pro Ile Asp Ile Val Asn Lys Lys Val Ser Gly Arg Val
275 280 285
Val Gly Val Asp Leu Gly Leu Lys Ile Pro Ala Tyr Cys Ala Leu Asn
290 295 300
Asp Val Glu Tyr Ile Lys Lys Ser Ile Gly Arg Ile Asp Asp Phe Leu
305 310 315 320
Lys Val Arg Thr Gln Met Gln Ser Arg Arg Arg Arg Leu Gln Ile Ala
325 330 335
Ile Gln Ser Ala Lys Gly Gly Lys Gly Arg Val Asn Lys Leu Gln Ala
340 345 350
Leu Glu Arg Phe Ala Glu Lys Glu Lys Asn Phe Ala Lys Thr Tyr Asn
355 360 365
His Phe Leu Ser Ser Asn Ile Val Lys Phe Ala Val Ser Asn Gln Ala
370 375 380
Glu Gln Ile Asn Met Glu Leu Leu Ser Leu Lys Glu Thr Gln Asn Lys
385 390 395 400
Ser Ile Leu Arg Asn Trp Ser Tyr Tyr Gln Leu Gln Thr Met Ile Glu
405 410 415
Tyr Lys Ala Gln Arg Glu Gly Ile Lys Val Lys Tyr Ile Asp Pro Tyr
420 425 430
His Thr Ser Gln Thr Cys Ser Lys Cys Gly Asn Tyr Glu Glu Gly Gln
435 440 445
Arg Glu Ser Gln Ala Asp Phe Ile Cys Lys Lys Cys Gly Tyr Lys Val
450 455 460
Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Met Ser Asn Lys Tyr
465 470 475 480
Ile Thr Lys Lys Glu Glu Ser Lys Tyr Tyr Lys Ile Lys Glu Ser Met
485 490 495
Val
<210> 39
<211> 2815
<212> DNA
<213> Unknown
<220>
<223> Candidatus Micrarchaeota archaeon
<400> 39
tgccaacatc tggtctgcgc acgatttttt ctatttgttt tttcactttt tccttcaaca 60
gcttgtccct tattttcttg actttcttct tgaaaaaaag gtcgtatttg attgttacca 120
ttttttgagt tcttccagga attcctcgcc gctgattccg ttgacgccgc ctttttcaca 180
tcttttaagc gcttcctcgg cgcgctcggc aaaacgcagg tctttctcca ggttctcgtc 240
gaaagcggtc gcgctcttca acacgaattt gtttccgctt cggattacca cgagcttgtc 300
tccctccttg aagccggcgc gcatttcgct gggaatcacg atttgccctt ttgaactcat 360
tcggctgaca ccaatgtcta tcataaggta agatgtgtct tacttactat atatttcttg 420
tgttttgggg tggcggcacg ctaattaatt taaaaggcgt attgctttgc aggagttgct 480
aaggagggtt gcctgtggaa atgatttcac tcaaacttaa actgcttcca gacgaagaac 540
aaaagaaatt gcttgacgaa atgttttgga agtgggcctc gatttgtacc cgcgttggtt 600
ttgggcgggc tgataaagaa gatttaaaac cgccaaaaga cgcggaaggg gtttggttta 660
gtttaacaca attaaatcaa gccaacacag acattaacga cttaagggag gcgatgaagc 720
accaaaaaca ccgcctagaa tacgaaaaaa accgtttgga agcgcaaaga gatgatactc 780
aggatgcctt gaaaaatccg gacagacgag aaataagcac taaaagaaag gatttattcc 840
gtcccaaagc gtccgtcgaa aaaggctttc tgaaactgaa gtatcatcaa gagcgttatt 900
gggttcgaag gctgaaagaa ataaacaaac taattgaaag gaaaacgaag acacttataa 960
aaatagaaaa ggggcgaatc aaattcaagg caacgcgaat aaccctgcac caaggctctt 1020
ttaaaattag attcggcgat aaacccgctt ttctgataaa ggcgttgtct ggaaaaaacc 1080
aaatagacgc tccttttgtt gtagtgccag aacaaccaat ctgcgggagc gttgtaaata 1140
gcaagaaata cttagatgaa attactacta atttcttggc ttacagcgta aatgcaatgc 1200
ttttcggttt gagccgcagc gaggaaatgt tgttgaaagc caaaaggcca gaaaaaatca 1260
agaaaaaaga agaaaaactt gctaaaaaac aatcagcctt tgaaaacaaa aagaaggaat 1320
tgcaaaaatt acttggtaga gaactaaccc agcaggaaga agcgattatt gaagaaaccc 1380
gcaaccaatt ctttcaagat tttgaggtga aaataaccaa acaatactcg gaattactca 1440
gcaaaattgc taacgaactc aagcaaaaaa atgattttct gaaagtaaac aaatatccta 1500
tacttttaag gaaacctctc aagaaagcca aatcgaaaaa aattaataat ctttcgccaa 1560
gcgaatggaa atattacctc caattcggag ttaaaccttt actaaaacaa aaatcaagac 1620
gaaaatcaag gaatgttttg ggaatagacc gcggccttaa acacttgcta gccgtaaccg 1680
ttcttgaacc cgacaaaaaa acgtttgtat ggaacaaact ttacccaaac ccaattacgg 1740
gctggaagtg gaggcgacgc aagcttttgc gctccttaaa gcgattgaag aggcgcatta 1800
aatcgcaaaa acacgaaaca attcatgaaa accaaacgag gaaaaagctc aagagtttac 1860
aaggcaggat agatgacctg cttcataata tttccagaaa aatagtggag accgcaaaag 1920
aatatgatgc ggtaatagta gtggaagacc tccaaagcat gcggcaacac ggtcgttcaa 1980
aaggcaatcg tttgaaaaca ctgaattacg cgctaagcct tttcgattac gcaaacgtga 2040
tgcaacttat aaagtacaag gcgggtatag aaggaatcca aatatatgac gttaaaccag 2100
ctggcacaag ccaaaattgc gcgtattgcc ttttagcgca aagggattca cacgaataca 2160
aaagaagcca agaaaactcc aaaataggtg tttgcttaaa tcctaactgc caaaaccaca 2220
agaaacaaat tgacgctgac ctaaacgcgg caagagtaat agctagttgt tacgccttaa 2280
aaattaatga ttcccaacca tttggaacaa ggaaaagatt taaaaaaaga acaacgaatt 2340
aatttaacgg taacctgtgg aattcagttt actttggcag tcctaaaaga accgtgtata 2400
ccaacggata tggaatcggt gtaaatcgaa ccatcctttg ggacgggtgc tcttctatat 2460
ggcgagcacc ttaagaagac tcgttgcaag tcttttgggc tcataaacca ttgtcgcgat 2520
ggataacggc ctgacttagt ttcggttcaa aattggttgg tctttttaaa taaggctaca 2580
aaaaggccct tatccgatta cgctttttat ccgggcattt tcctgccttt ttaggcgaat 2640
tccaacgatt ttttcggctg ttgcacagtg ctaattagag aaactaggaa tgcaacaaca 2700
atgattatcc gtataattcg ttgactttgc gggttgcaca gtgctaatta gagaaactag 2760
gaatgcaacc tgcccattcc gtcgcactct taaccattat ttcagggttg cacag 2815
<210> 40
<211> 3687
<212> DNA
<213> Unknown
<220>
<223> Uncultured archaeon
<400> 40
gtcgagcagg cgcgcaacgt cacccggttt ctccttgaca gaaagcagga ataccgggga 60
ttcacgagca ggtggtgagc atgatctact gggtgattta cgacatcagc gcaaacgggg 120
cgcgcagcag ggtggcttcc gcgtgcaaga actacggatt caagcgcatc cagaagagcg 180
cgtttctggg caacatcacc aaaaacaagg cggacatgct cgccatccag tgcagggaca 240
tggtgaagga ggaaggcgac tgcgtcttca tcatcccggc gtgcgaacag tgcttcaggg 300
gaaaggaggt actcggcacg cttgacgaga cggctgcgcg gaagctcgac tacctgatag 360
tgggggaaga tggacgacag acagcatctc acggcggctg acctgctgaa ctactgctac 420
tgcccgcgca ttgtctatta cgtgcacgtg ctgaagctgg cgcaggccac gaccgcgaag 480
gagctgaaag ggagggagaa gtacgatgat ttcaagcgaa aatcaagaag gaacaagatt 540
gtacgacgtg accattgaat caaagaggca cggcctcatc accaaggcgg actgcatcat 600
gtttgacagg gagaagggcg aggcataccc cattcagcat aagtacagct tcaggccgaa 660
ggcgatatat cgcacctaca tcattcaatt gcttatggag gccctccttg tcgaggagca 720
gttcaatgtt ttggtccctc atggcttcat catcttcgag cgctccaagg agacagtaaa 780
ggttgatttg tcaaataagc agaaagtttt atatgccgtg gggcagataa gaggaattat 840
tgggggagaa aagttcccgc cgccgacgga atggaaaaag cggtgcgtgg actgttacta 900
taacaagctg tgttgggggt aagatggaag tacaaaaaac tgtgatgaag acactttctt 960
tgagaatatt aagacctctg tactcacaag aaatagaaaa agagattaaa gaagaaaaag 1020
aaagaagaaa acaagccgga ggaactggag agcttgacgg gggattttat aaaaagcttg 1080
agaagaagca ttcagagatg ttcagctttg ataggttaaa cttattgttg aatcaattac 1140
aaagagaaat tgctaaggtc tacaatcatg ccatcagtga attgtatata gcgactatcg 1200
ctcaaggtaa caagagcaac aaacattata ttagtagtat tgtctataat cgagcatatg 1260
gatactttta taacgcttac atagccttag ggatatgttc aaaagttgaa gcaaatttta 1320
gatccaatga actcctaaca caacaaagcg cattgcctac agcaaagtca gataattttc 1380
caatagtttt acataaacaa aaaggtgctg agggagagga tggaggattt aggatatcta 1440
ctgaggggag cgatctgata tttgagatac ccattccgtt ctatgaatat aatggggaga 1500
accgaaaaga accctataaa tgggttaaaa aaggaggaca aaaacctgtg ttaaaactta 1560
tactttctac ttttaggaga caaagaaata aggggtgggc aaaagacgag ggcacggatg 1620
cggaaataag aaaggttaca gaagggaagt atcaagtcag ccaaatagaa ataaataggg 1680
gtaaaaaact aggagaacat caaaaatggt ttgccaattt cagcatagag caaccaattt 1740
atgaaagaaa acctaatcgg agtattgtcg gcggattaga cgtgggaata agatcccccc 1800
tagtatgtgc aattaacaac tcattttcga gatattctgt tgattccaat gatgtattta 1860
agttttctaa acaagtattc gcatttagaa gacggctatt atcgaaaaac tctttgaaaa 1920
ggaaaggtca tggggcggct cataagttag aacctatcac ggaaatgaca gaaaaaaatg 1980
acaagtttag aaagaaaata attgagagat gggccaagga agttacaaat ttctttgtta 2040
aaaaccaagt aggaattgtt cagatagaag atttatcaac gatgaaagac agagaggatc 2100
atttttttaa tcaatatctt agaggatttt ggccttatta ccaaatgcag acattaattg 2160
agaacaagct caaagagtat gggattgagg taaaaagggt acaggcaaaa tatacgtctc 2220
agttgtgctc aaaccctaat tgcaggtatt ggaataacta ttttaacttt gaataccgaa 2280
aagtaaataa attcccaaaa tttaaatgtg aaaagtgtaa cttagaaata agtgctgact 2340
ataacgctgc tcgcaatcta tcaactcccg atatagagaa atttgtggca aaagctacaa 2400
aaggcattaa tttgccagaa aaatgagaat gttattccat aataacattt gatgcacacg 2460
attcctccct acagtagtta ggtatagccg aaaggtagag actaaatctg tagttggagt 2520
gggccgcttg catcggccta aagttgagaa gtgtcagact ctgataaccc tcaacgacga 2580
tattctttat ttcggttcaa agttctgcac aaaacaggtg agtccttata aaccggtgtg 2640
cagaacgccg gctcaccttt ttccttcatc cgattttacg cttaaaagcc gtaaaaacgc 2700
ggaattcggc gccgttgcag aacccgaata gacgaatgaa ggaatgcaac aaaataatac 2760
aagcgtgtct ttgttaaaac aatccacagt tgcagaaccc gaatagacga atgaaggaat 2820
gcaacctcga tttacacgac atctcgtctg agtatgacgg ttgcagaacc cgaatagacg 2880
aatgaaggaa tgcaacctgt gtaagtgcgt tagacatcga taacgtctgt aatgttgcag 2940
aacccgaata gacgaatgaa ggaatgcaac tttatctttt acatgaatcg cgtaatctta 3000
acctggttgc agaacccgaa tagacgaatg aaggaatgca actgaagtcc ccctctgcac 3060
tcacgtaaaa attattgttg cagaacccga atagacgaat gaaggaatgc aactgtagca 3120
gtactgctcg ggtcgctcag ctaatgcgat gttgcagaac ccgaatagac gaatgaagga 3180
atgcaacagc ctcgaaaggt atataaacct agccgactat cgggcatcca tgaagcaaga 3240
catgatttcc atatcgcgga aagagtacga gggcatgaag gaaaccatag agatgctgca 3300
aagcccggag atgatgaggc agattctgga gagcgagaag aacatctcag aaggcaaaat 3360
aaaaaaattt gatgtctaat atacgttatg ggttccgacg gcctctacaa caattcttcg 3420
gtttgaatcg tcaatgctgt acaccattct tatgcttgag ccgagccagc agctccattt 3480
gcccgccaat ctcccatgca gaggatgagc gccaatttca gtcctcggcg actgctttag 3540
tttatgaagc ttgccgacaa tgtcctgcct gccttttaca taacgtgcaa gcaatttttc 3600
cgccttgctg tttgccgtat agatttcata cataggtgga ttgaatgatg aaactcatat 3660
ataaacaatg ccctccaacg agaatag 3687
<210> 41
<211> 2929
<212> DNA
<213> Parageobacillus thermoglucosidasius
<400> 41
tcaagcaatt atcgtatagt ctctgtcgtt tggcagggct ttttttattt tcgtggaatg 60
aaatattagg aggtgatatc gtgtttgaga tcgtaggccg actgcgctgt cccatttgtt 120
cagaggtggt tcgaccagac gagaaggtct tccttgacat tatcaacacc atcatccatc 180
agaagtgcta ctatcaatcc ccacgtagac tcccgatcaa agacaaaggc ccattccaga 240
aaatgttcat gaaatatcca ttcttcaacg aggatgagga agatgattcc atatgaaaag 300
cccttctcat cgagaggggc ttgtttattt tattgcatag ttttttgcaa aatgaataaa 360
aaatcatgtg acaacttacg taaaccaaag acaaaaatgt tccacgttag taaaaagtat 420
taaatggaaa tttaatgtca aaaatggagg tggtattgtt tcaaaagtaa cacttgttgt 480
aaaaaagggg ttgttaattg atgaagtata cgaaagtaat gaggtatcaa attatcaaac 540
ccttaaacgc agaatgggat gaattgggaa tggttctccg tgacatccag aaagaaactc 600
gcgcggcatt aaacaagacg attcaattgt gttgggaata tcaaggattt agtgcggatt 660
ataagcagat acacggtcag tatcctaaac caaaagatgt tttaggatac acaagtatgc 720
acggatatgc ttatgatcgt ctcaaaaatg aattcagcaa aattgcaagt tcaaaccttt 780
cgcaaactat caaacgagcg gtagataaat ggaatagtga cttaaaagaa attctgcgtg 840
gtgaccgctc catccctaac ttcagaaaag attgtccaat tgatatcgtt aagcaatcga 900
cgaaaataca aaaatgtaat gatggatacg tattaagcct cggtttaatt aatagagagt 960
ataaaaatga attgggacgg aaaaacggag tatttgatgt acttataaaa gcaaacgata 1020
aaacccagca aaccatatta gaacgaatta taaatggcga ttatacatat acggcatctc 1080
aaataatcaa tcataaaaat aagtggttta ttaaccttac ctatcaattt gaaactaaag 1140
aaacagcctt agatcccaat aatgtcatgg gagttgatct aggaattgtt tatcctgttt 1200
atatagcatt taataacagt cttcaccgtt atcatattaa aggaggagaa atagaacgat 1260
tcagacggca agtagaaaaa aggaagaggg aattgttaaa tcaaggcaaa tattgtggag 1320
acgggcgtaa agggcatggt tatgctacaa gaacaaagtc cattgaatca attagcgata 1380
aaattgcgag atttcgtgac acttgcaatc ataaatattc caggtttatt gtagatatgg 1440
cgcttaaaca taattgtggg ataattcaaa tggaagattt gactggaatt agcaaggaaa 1500
gtacattttt gaaaaattgg acatattacg atcttcagca gaaaatcgaa tataaggcac 1560
gagaagcagg aatacaagtt ataaaaattg aaccccaata tacatctcaa cgttgtagta 1620
aatgtggcta tattgataaa gagaatcggc aagaacaagc tacatttaag tgcatcgaat 1680
gtggttttaa gacaaatgct gactataatg cagcaaggaa tatcgcaata ccgaacattg 1740
acaagataat aaggaaaacg ttaaaaatgc aataaaaaat cccttggggc gattcagcgt 1800
ccttaagtcg agaagtgccg taataagcat ctaaaaatgc ctaacggtaa cactcgataa 1860
ggtagtcctg ctaggcaggc tgaaacccta gccacaaaat ccggctaggc atcatacaga 1920
aaattgttgt cgaactataa tcgtgcaaaa atcccaaggg atcgacgaca tttaaaatgt 1980
tgatagctaa gggatttacg gttatttcta aaaaagaaaa tctcttgaga gagataagtg 2040
aaatgttgct ttatcaatat cttttggggt ttctgaagaa actatgtatg atgtgaagta 2100
ttcgcgatca accaacgcga tcgtgtcggc aatttgagtt tctgaagaaa ctatgtatga 2160
tgtgaaggta aaaattggcg aggacgaatt agatgacaca gagtttctga agaaactatg 2220
tatgatgtga agcatttgaa agagctatgc aaatacttcg atcaaaaggt ttctgaagaa 2280
actatgtatg atgtgaagtc gctcattcct ctccctctct ttcttcatga agtaggtttc 2340
gaagaaacta tgtatgatgt gaagttatcg tattgacaca gtttgttccc cacttggccg 2400
tttctgaaga aactatgtat gatgtgaagt ttgttcgatg gaaagtacga agatgggaaa 2460
gtagtttcaa aaagcccttc tcgtatgaga aggggggatt gaaggatatt gtatgccgac 2520
aatcttgccg acattctgcc gaccaaattt tttgttcatg taatttttta tggttcataa 2580
tgactttaga atgttgtaaa atcgaccatt ttgaaatgaa ctaattcccg atttcaccta 2640
ctcccccacc ttgacagggt ggaggtcgct ggttcgagcc cagtcggaat cactaaaatg 2700
tgaggcttga aatccttgcg tatcaagggt ttcaagcttt ttgtttttta tagcaggcac 2760
tcaaaatagc gtccaaatta cggttggtgc cattttggtg ccgaagcatt tttagtttga 2820
ttttgataac aggacatcga tttgattagc cgcttcctct tgcatattag gtaatacatg 2880
agaataaatg tctagtgttg ttttaatatt actgtggcct agacgttcg 2929
<210> 42
<211> 3530
<212> DNA
<213> Acidibacillus sulfuroxidans
<400> 42
acctgcataa ggttgagaac ctttcttatg cgaaaatcgc agaacttttg ggcgtaaaaa 60
aagggagcat tgagcgatat atagagatgg cccgtaagaa actggagcgg ccatcagcgc 120
aactcgaaat ggaaaacctt tcttacgaaa agattgtgca agatttgggc gaaaagagaa 180
atgtaccgcg agcaatagat actacgagtg agaaggaata ctcttcggtg caacttgagt 240
ttgattttga atgattactg gttcatattt atattttctc ggctccttta tctttgggag 300
ccgtatgtta tttttgagtg ttaatattta gattgaatac tttttgttgt aaaaagaact 360
ggtgtctgat acgataaaag aaacttgtga aataaactag tgcatatcat ggctcgaaaa 420
cttgaaattg tgttaattct atggtgtaaa ttctaattag catcacaatg tagtgttttg 480
tttagacgga ggcgagtgga atgatcaaag tatatcggta tgagatcgta aaaccgcttg 540
atttagattg gaaagagttt ggaactattt tacgacagtt acaacaggaa actcgttttg 600
ccttaaacaa agcgactcaa ctggcttggg aatggatggg ctttagtagt gattataagg 660
ataatcatgg ggaatatcca aaaagtaaag acattctcgg atacacgaat gttcacggat 720
acgcttacca tacgatcaaa accaaagcat atcgcttaaa cagtggtaat ttatctcaaa 780
ccatcaaacg tgcgacggat cgttttaaag catatcaaaa ggaaatctta cgtggcgata 840
tgtccattcc gtcctataaa cgagatattc cactcgatct gattaaagag aatatcagcg 900
taaatcgtat gaatcacggg gattatatcg cttcgttatc tctgttaagc aatccagcca 960
agcaagaaat gaatgtaaag aggaaaattt cggtcataat cattgtccgt ggcgcaggga 1020
aaacaatcat ggacagaatc ctaagtggtg aataccaagt ctctgcttca caaataattc 1080
acgatgatcg aaaaaacaaa tggtatttaa acataagtta tgattttgaa ccccaaaccc 1140
gagtgttgga tctaaataaa ataatgggga ttgatttagg cgttgctgtt gccgtttaca 1200
tggcatttca acatacccct gctcgataca aattggaggg aggtgagatt gaaaattttc 1260
gtagacaggt agaatctcga cggattagta tgttacgtca aggtaaatat gccggtggtg 1320
cccgtggagg gcatgggcga gataaaagaa taaaaccgat tgaacagctt cgagataaaa 1380
ttgctaattt tagagatacc acaaaccatc gttatagtag atatatagtg gatatggcaa 1440
ttaaagaagg ttgtggaacg attcagatgg aggatttaac gaatatacgc gatattggat 1500
ctcgattttt acaaaattgg acctattatg atttgcagca aaaaattatt tataaagccg 1560
aagaggcagg aattaaagtc ataaagatcg atccccaata taccagtcaa cgttgtagtg 1620
aatgtggtaa tatagattcc gggaatcgaa ttggacaagc tatctttaaa tgcagagctt 1680
gcggatacga agccaatgca gactacaatg ctgcacgaaa catagcaata ccgaacattg 1740
acaaaattat agctgagagt atcaaataaa aatctttccc aaatacttct attcgtcggt 1800
tcagcgacga taagccgaga agtgccaata aaactgttaa gtggtttggt aacgctcggt 1860
aaggtagcca aaaggctgaa actccgtgca caaagaccgc acggacgctt cacatatagc 1920
tcataaacaa atgtcgtcga cctctaatag cgtaaaaacc tccggggatc gacgacagca 1980
aaatgcaata tagtcgggct tttcaaaaaa acgccggtat aaaccgacga agcgcgaacg 2040
ctgatttttt gcggaagaaa cgggtttgcg agctagcttg tggagtgtga accgagatgc 2100
tgtagttgat gattatcttc aagatgctag gcgtttgcga gctagcttgt ggagtgtgaa 2160
ccagggtcgg aacgaatcgg gtacggtagc gggctatccg tttgcgagct agcttgtgga 2220
gtgtgaactc cgcctgcctg tcttactacc tccacagggt tgccgtgttt gcgagctagc 2280
ttgtggagtg tgaactatac ttatactagg ataccctaaa atcgagcaga agtttgcgag 2340
ctagcttgtg gagtgtgaac cttcgataaa ccgtatattg gacttttttg gagtttcgtt 2400
tgcgagctag cttgtggagt gtgaactgat gattgtgaag gagattttga agatcgaacc 2460
agtttgcgag ctagcttgtg gagtgtgaac accaatcgct caatctcgtc atcacaatta 2520
gcaaaaagtt tgcgagctag cttgtggagt gtgaactaca gtagaagcaa cacaattcca 2580
acccaattcc atagtttgcg agctagcttg tggagtgtga accaggtacg aatatgtaga 2640
acgaaaaggt ggaatggatg tttgcgagct agcttgtgga gtgtgaacaa ttcgttaatc 2700
gtctatctca aaaactagta aataagtttg cgagctagct tgtggagtgt gaactgtcaa 2760
cgtccccaat atacatttct ggcctttttc tagtttgcga gctagcttgt ggagtgtgaa 2820
cataagctaa ggtataaatc gcaaacggaa tggacagggt ttgcgagcta gcttgtggag 2880
tgtgaactct tccactggct attcttctat ttcttctgct gaggtttgcg agctagcttg 2940
tggagtgtga actgtatcaa tatctttccc aaaaagctac ggtcgatcgt ttgcgagcta 3000
gcttgtggag tgtgaaccct cttcctctct ctgctgccgc actttagcct gcggtttgcg 3060
agctagcttg tggagtgtga actcttccac tggctattca tctatctctt ctgttgaggt 3120
ttgcgagcta gcttgtggag tgtgaactgt atcaatatct ttcccaaaaa gctacggtcg 3180
atcgtttgcg agctagcttg tggagtgtga actggaaatg gtagtgatgg ggcgttcgcg 3240
cctgcgccga gtttgcgagc tagcttgtgg agtgtgaact taccctatgc acatctggta 3300
ttaagtcaat agatcaccat gccgcctgag cggcaccagt agaaggatga aaatgggctt 3360
gtgtcgaaat gacaccttag cggctggcga aggtaggtcg ttccaaactg gtgccatgag 3420
cccgctcaat agactgacta cgacgaccca gtgcaccata gtatgttgct ccctttaggg 3480
aagcacgcag gatagaatga tctttatggt cgttgcacca gcccttcaat 3530
<210> 43
<211> 2702
<212> DNA
<213> Ruminococcus sp.
<400> 43
ttgtcacaaa gatcacgaag caattaccat tctgacctag ctgccgtgcg acttcaaaac 60
cggtcatttc aggcatatca aggtcaagaa atatagccga aaaaggcttt ttaccatggc 120
agtaaaaaaa gctctcagct ttggtaaacg tttctatttc agccttgacc gaccttgatt 180
caagttcatt tgccagcata gatttaaaaa actgaagaaa aacagcatta tcatcacaaa 240
ctgcgatccg cattttttca cgtcctttta taacatagtc tgtgtacgat tttatattac 300
cataattata ccgtaaggtc aagccataaa accagcaata agcacctagc gtcaagaatt 360
gtcatgttgt gccaaaatcg aggaactttg ttccaaaaac cacacctcat atttgtccct 420
tttgccaatt tacaaaaata tacttatgtg ttacaataat agagtaaagt atattgatcg 480
tgtgaaatgg ggtgacatta ctggtcaaag tcgtaaaaat ccatctaatt agtgagcaat 540
ttgacaaagc aggcaaccgg atagattatg aagaagtcaa taaaatactg tgggaattgc 600
aaaagcagac acgagaagca aagaataaaa ctgttcagct tctttgggaa tggaacaatt 660
tttcaagcga ttatgttaag gcgagtggca tatatcctaa agcaaaagac atatttggct 720
actcaagtgt gcatggacaa gcaaacaaag aattaagaac aaaactcgct ttaaattcaa 780
gtaatctttc cactaccaca atggacgtat gtaaaaattt taatacatat aaaaaagagg 840
tatggaaagg caaacgatca gttccttcgt acaaatcaga ccaacctctt gatctgcaca 900
aagactctat aaagctgata tatgaaaaca acgaatttta tgttaggctc gctttattaa 960
aaaaagctga atttgcaaag tatggtttta aagacggttt tcgttttaaa atgcaggtga 1020
aagataattc taccaaaact attcttgaac gctgttttga cgaagtatac aaaataaatg 1080
ccagcaaact tttatatgac caaaagaaaa agaagtggaa gcttaatctg tcttatagtt 1140
tcgacaataa aaacatttct gaacttgaca aagaaaagat ccttggtgtt gatgtaggcg 1200
ttaactgtcc tttagtcgct tcggttttcg gcgatcgtga ccgattcata atcaagggcg 1260
gcgaaattga aaaattcaga aaaagcgtgg aagctcgcag acgttcaatg ctcgagcaaa 1320
caaaatactg cggtgacgga agaattggtc acggcagaaa aaaacgcact gagcctgccc 1380
taaatatagg cgacaagata gcaagatttc gtgatacaac aaaccacaaa tacagcagag 1440
ctttgataga atatgctgta aaaaagggct gcggaactat ccaaatggaa aagctgacgg 1500
gtattacatc taaatctgat cgttttctaa aagactggac ttattatgac ctccagacaa 1560
agatagaaaa caaggcgaaa gaagtaggga taaatgtcgt ctatatcgcc cctaaatata 1620
caagtcagag atgtagcaaa tgcggatata tccacaagga taacagacca aatcaggcga 1680
aatttagatg tcttgaatgc gattttgaaa gtaatgcaga ttataatgca agtcagaata 1740
tcggaattaa aaacattgat aagataatag aaaaagattt gcaaaagcaa gaaagcgaag 1800
tccaagtgaa cgaaaacaag tagaaggttc acacaatttc agggcgactc ggcgtcctaa 1860
aatcgagaaa gtgtacataa gtttttaaca aaatacggta aatactctcg gtaaggtttt 1920
aacgtgcaca taataatccg tgcaacaggg ttacactttt gtgcaatttt gcagttgcaa 1980
cttacgcata ggtgtaaaat acgaggtgaa tgttactgtt gttgtgtttt cctcaaaagt 2040
tgcaacttac gcataggtgt aaaatacgag atcagaagtc aggataatgt tatccttgtc 2100
cgtgttgcaa cttacgcata ggtgtaaaat acgaggtcca gaaaatcgtc tgacattatc 2160
gtttgttcgt tgcaacttac gcataggtgt aaaatacgaa gcactcaatt tgcattgtga 2220
tacgatattg aattacaatc acatatttgt aaaacaacaa aagggctgtc cacacagccc 2280
ttttgttctt atctaaccta tgccaagccc cctacccctt aggctttttc atagtaagcg 2340
aaatacgctt tttcttcagg tcaacgttaa gtacccaaac cttaactacc tccccgacct 2400
ttacgacctc aagagggtgc tttatatatc tgtcgcacat ctgagaaata tgtacaagtc 2460
cgtcctcgtg aacaccgata tcaacgaacg ctccgaagtc tataacgttt ctcactgtgc 2520
ccataagctc catgcccggc ttcaagtctt taagctccat aatgtcgccg cttctcataa 2580
gcggtggagg cagctcgtca cgagggtcac gaccaggctt ttcaagctcc cctactatgt 2640
cctttaacgt cggtgcacca atgccaatat ctgtggcaag cttcttcatg cccattgcat 2700
tg 2702
<210> 44
<211> 5157
<212> DNA
<213> Syntrophomonas palmitatica
<400> 44
gcaattgcta taccaaaaaa tactgcaacc ggaaaataaa atttatccag gatgcagccc 60
tggataaaaa ggaatatagt tttatttctc tgtttttatc cttcttttgt agaaggattt 120
ttctgtcttt aatattatcg tttagttcat ctgttgttat cagcataagt tcccaaagaa 180
cgtgcgcata atcatcagta gtggtactaa ctgacctgcc ccacaaattc ttgaataatt 240
ttttgattta cgtccaattc cagtagccgc ataacaaaag tgtgcctcaa gccatgtaaa 300
ttaaattctt tgatacctgc cttatcctta acccgataaa aaactcggtt aaaattacgt 360
ggctcgtaca gctaagatgc aactaataaa tccctatacc taaccggagt ctggtggcag 420
atcagttata agtcaaaccc cttttttgac acaatatgtt tgttagtata taatttgaca 480
ttgagagggg tattctgttg atgggcgaat cggtaaaagc aataaaatta aagatactgg 540
atatgttttt agaccccgaa tgcacaaagc aggatgataa ctggcgcaaa gatttgtcta 600
ctatgtccag attctgcgct gaagcgggga atatgtgtct gcgcgacctg tataattact 660
tttcaatgcc caaggaagac cgtatttcct caaaagactt atataacgct atgtatcata 720
aaactaaact tctccatcct gaattaccag gtaaggtagc gaaccaaata gtaaaccacg 780
ctaaagatgt ttggaaacgc aacgctaaac tcatttatcg gaaccaaatc tcaatgccta 840
catataagat aacaacagca ccaatccggc tgcaaaataa catttataaa ttaataaaaa 900
ataagaacaa atacataata gacgtacagt tatactccaa ggaatactcc aaggatagtg 960
gtaaaggcac tcataggtat tttctggtag cagttagaga ctcatcaacc cgtatgatat 1020
tcgaccgtat tatgagtaag gaccatattg acagtagtaa atcatacacg caaggacaac 1080
tccaaatcaa gaaagaccac caggggaaat ggtattgcat cataccctat acattcccta 1140
cacatgagac agtcctcgac cctgataaag tcatgggagt agaccttggc gttgcaaaag 1200
ctgtttactg ggcgtttaat agttcttata aaagaggctg tatcgacggt ggggaaatag 1260
aacatttccg caaaatgata cgagctcgca gggtgtccat ccaaaatcaa atcaaacatt 1320
caggggacgc ccgtaaagga catgggcgca aaagggcgtt aaaacccata gaaacattga 1380
gcgagaagga aaagaatttt agggatacaa taaaccaccg ctatgcaaat cgaattgtag 1440
aagctgctat taagcaaggc tgtgggacaa tccaaatcga aaaccttgaa ggtatagctg 1500
acacaacagg cagtaaattt ctcaagaact ggccttatta cgacctgcag acaaaaattg 1560
ttaataaagc caaggaacat ggcattaccg ttgttgcaat aaacccccaa tatacatccc 1620
aaaggtgttc gatgtgcggg tatattgaaa aaaccaaccg ttcatcacag gcagtatttg 1680
aatgtaaaca atgcggttac ggcagtagga ctatatgtat taactgcagg cacgtccaag 1740
tatccgggga tgtttgtgag gaatgtggcg gcatagtaaa aaaagaaaac gtaaacgcag 1800
actacaatgc ggcaaaaaac atatccacac cgtacatcga ccagataata atggagaagt 1860
gtttagaact aggtattcct taccgcagta taacctgtaa agaatgtggt cacatacagg 1920
cttcaggaaa tacctgcgag gtttgcggaa gtactaatat tttgaaacca aagaaaatta 1980
gaaaagcaaa ataatcgcga accccaagtt ataaaaaagg tctttgacaa caaaacaagt 2040
catatcgctt taaagcctga cataatttac tctgtttcgc gcgccagggc agttaggtgc 2100
cctaaaagag cgaagtggcc gaaaggaaag gctaacgctt ctctaacgct acggcgacct 2160
tggcgaaatg ccatcaatac cacgcggccc gaaagggttc gcgcgaaact gagtaataaa 2220
acattgcgga tgcggcaata cagaaccgct gtcgcatctt gcgtaagcgc gtggattgaa 2280
actgtagtat ttgcgggttg agattggcgg gaattagtcg catcttgcgt aagcgcgtgg 2340
attgaaaccg gttcgcacag gcagttttag cattggtgtg gtgtcgcatc ttgcgtaagc 2400
gcgtggattg aaacaacaac ccgttcccac ggtgcaccac aatgagggtc gcatcttgcg 2460
taagcgcgtg gattgaaact taaatctatg tcaactgttg ccagtattgt caccgtcgca 2520
tcttgcgtaa gcgcgtggat tgaaaccaaa ctgaagatcg aatgttgcat cagctccagc 2580
gtgtcgcatc ttgcgtaagc gcgtggattg aaacacaaat ttcatttact tccatcccaa 2640
tttttacagt cgcatcttgc gtaagcgcgt ggattgaaac tttgtcgttt taacctgtat 2700
gtcgtatgca ttttgtcgca tcttgcgtaa gcgcgtggat tgaaactagt ctgttttcta 2760
ggtcattgat tttgtcaagc gtcgcatctt gcgtaagcgc gtggattgaa accgaaggag 2820
ggttaatcgt ttgattctta aagaacgtcg catcttgcgt aagcgcgtgg attgaaacat 2880
gtttgaaggt attgttcaac accctacaca aaagtcgcat cttgcgtaag cgcgtggatt 2940
gaaactgtcc agcaaggcaa gtgcagtaaa gaccgttagt cgcatcttgc gtaagcgcgt 3000
ggattgaaac aaaacgatat tcagacccaa cagcaaaccc tagcgtcgca tcttgcgtaa 3060
gcgcgtggat tgaaacttga tcggtaattg cgccatgcct tattttatcg gtcgcatctt 3120
gcgtaagcgc gtggattgaa acctcaaact taaaacccct acatgtcata tctttgtcgc 3180
atcttgcgta agcgcgtgga ttgaaacaac aaagtggaag gatttcccgg agcagatatt 3240
agtcgcatct tgcgtaagcg cgtggattga aacatgcttg ttgaacggtg caaacacacc 3300
ttcaatggtc gcatcttgcg taagcgcgtg gattgaaacc gcttatttgc ttgctgatga 3360
acaagttgca gacgtcgcat cttgcgtaag cgcgtggatt gaaacttgac cacatccaac 3420
aatggtcatt gcatcagggt cgcatcttgc gtaagcgcgt ggattgaaac atttatgccg 3480
gcaattatgg aatttatgat gtagtcgcat cttgcgtaag cgcgtggatt gaaactggta 3540
gtttattgat gtcaagttct gtccatctcg tcgcatcttg cgtaagcgcg tggattgaaa 3600
catacaccct accctaaaaa acaacacaca ataagcgtcg catcttgcgt aagcgcgtgg 3660
attgaaactt ctctgtcgaa atttttgttt atttactggt ttgtcgcatc ttgcgtaagc 3720
gcgtggattg aaacatattg ccttgctgac atataagcgt cataagccgt cgcatcttgc 3780
gtaagcgcgt ggattgaaac tgaagcctgg ggttatgggt tttcgtccgt catgtcgcat 3840
cttgcgtaag cgcgtggatt gaaaccaaga gcaacctcaa ccaaacaccg ccgatatttc 3900
gtcgcatctt gcgtaagcgc gtggattgaa acttttttat tgcccttttt aggttggcat 3960
tgtctacgtc gcatcttgcg taagcgcgtg gattgaaaca ttttaaatgg tttacttgtt 4020
aaggcaattc gttgtcgcat cttgcgtaag cgcgtggatt gaaactgatg cccccaatcc 4080
atattggggt ggaatattca gtcgcatctt gcgtaagcgc gtggattgaa acggtttgca 4140
agtatatgcc gtactgttgt tctaatgtcg catcttgcgt aagcgcgtgg attgaaactc 4200
aaaatttgaa gcgtggcttg atttactttt gcgtcgcatc ttgcgtaagc gcgtggattg 4260
aaactgtaat aatgggaata aaaagccgcc cacattgtcg catcttgcgt aagcgcgtgg 4320
attgaaacaa ccgggcagac gaagaaatca ccgaagaaga aagtcgcatc ttgcgtaagc 4380
gcgtggattg aaacttccat cagtccatga cgaacggcta gggagcctgt cgcatcttgc 4440
gtaagcgcgt ggattgaaac atggcatcgt tttcgttatc aaccaatatc ttcgtcgcat 4500
ctcgcgtagg cgcgtggatt gaaactaatg atgtgcgatt gacgtattgt ctggcaacgt 4560
gtcgcatctt gcgtaagcgc gtggattgaa acccatttaa ccttatacag agcattatta 4620
cacaagtcgc atcttgcgta agcgcgtgga ttgaaacagt aatcgaaaaa gtgagctttg 4680
agtcggataa cacatattgg accatatagt ctcgaaggat ctcatgaaat taataacggc 4740
ttgtatgcaa ggaacaataa taaaaaaaca ataaaactta gcaccgccag gatttcgttt 4800
ttagcaattt taaatttata atggtaatcg ttttcgctgg acacttcgag tcgcgtttgt 4860
atttcatcgg tatgctgcaa agaattggcg ataaatgcag ccagaatgtt ggacaattct 4920
tttagtttgg atttaaaacc aagatcgtta ttcttaaaaa cctgccgtac ctgctccaaa 4980
atatcctgtt tgaattgact tacagaccgg gtcaattcgt tcactataac ccttgccata 5040
tgcaaatgtt ttgccaccgg aatacccagt gaatttaagg gagaaaggac cttgctcagc 5100
atttctgtga tgggctgaat aggagtagtg aaaaaataca agctgccgat ataccag 5157
<210> 45
<211> 3588
<212> DNA
<213> Clostridium novyi
<400> 45
tacaagtcca ctttatgaaa aataagtaaa aaaatcaaca taatatttat tgaatagatt 60
atgaatttaa ttaaagaata atctattctt tgttcaataa aatcatcagg gattattctt 120
agatacgtga aatttataat tttaacaagt tgcatgtata atctgaacaa taatattaag 180
ggaagtggtt aatttggcaa atataaaata tgaaattaca aaatatccat aatggaaaaa 240
ccaccataag ggatattttg tagtctttaa tgggctaaag gcctaaagtt gaagtacaag 300
aaaatcatat tctacttcaa ctagaatatt aacaaggata aaatggactt gcttaacatc 360
tgaaagaaaa acatttcaga tataaagcag gtccattttt tataaaattt aattataata 420
caatatattt gacgttaaat atgttaaaat agtaaataat tataagagaa tttaaggttg 480
aatataaagg ggagaaactt atgattacag ttagaaaaat aaagttaaca ataatgggag 540
ataaagatac aagaaatagt caatacaaat ggattagaga tgaacaatac aatcagtaca 600
gagctttaaa tatgggtatg acttatttag ctgtaaatga tattttatat atgaatgaaa 660
gcggattaga aattcgaact attaaagatt taaaagattg tgaaaaagat attgataaaa 720
ataaaaaaga aattgaaaag ttaactgcaa gactagagaa ggaacaaaat aagaaaaatt 780
cctcatcaga aaaattagat gagattaaat ataaaataag tttagtagaa aataaaattg 840
aagattataa attaaaaata gttgagttaa ataaaattct tgaagaaaca caaaaagaaa 900
gaatggatat acagaaagaa tttaaagaaa aatatgtaga tgatctttat caagttttag 960
ataaaatacc ctttaagcat ttagacaata aaagtctagt tactcaaaga ataaaagctg 1020
atataaagtc agataaaagt aatggactat taaaaggtga aagaagtatt agaaactaca 1080
agagaaactt tcctttaatg actagaggac gagatttaaa atttaaatat gatgataatg 1140
atgatattga aataaagtgg atggaaggaa ttaaatttaa agttattttg ggaaatagaa 1200
taaaaaattc cttagagctt agacacactt tacataaagt tatagaggga aaatataaaa 1260
tatgtgatag tagtttgcaa tttgataaaa ataataatct tatacttaat ttaactctag 1320
acattcctat tgatattgta aataaaaaag tttcaggaag agttgtagga gtagatttag 1380
gattaaagat accagcatat tgtgcattaa atgatgttga atatattaaa aaatctatag 1440
gacgtataga tgatttcttg aaagttagaa ctcaaatgca gagtagaaga agaagacttc 1500
aaattgcaat acaaagtgct aaaggtggaa aaggtagggt gaataaactt caagccttgg 1560
agagatttgc tgaaaaggag aagaattttg caaagacata taatcatttt ttaagttcta 1620
atatagttaa atttgcagtt agcaatcagg ccgaacaaat taatatggag ttattaagtt 1680
taaaagaaac tcaaaataag tcaatactaa gaaattggag ttattatcaa cttcaaacaa 1740
tgattgagta taaagcccaa cgtgaaggga ttaaagttaa gtacatagat ccttatcata 1800
catcacaaac atgtagtaaa tgtggtaatt atgaagaagg acaaagagaa tctcaagctg 1860
attttatatg caaaaaatgt ggttataaag ttaatgctga ttataatgca gctagaaata 1920
tcgctatgag taataaatat ataacaaaaa aagaagaaag taagtattac aaaattaaag 1980
aaagtatggt ataataaaac atagttaaac taataaaaac agggcgattt aacgtcctaa 2040
ggctgagaga agttttttct actcggcaag ggttaatctc gattgttgtg ttaccgatcg 2100
agcgtttcac aaaatgcgag agaaatctcg catttttaat tttgcagtaa ggctagtttt 2160
tatataaata tgctataacc attgatattg ctaggctaca ataggtttta ttaaaaaagc 2220
aaaaaacatt actgaaggtt cactgcaaaa tagtgtattt aagtgaaagt gagattgctt 2280
gtaaagctag gagtatcaat atatttataa atttcaaaat ttagggtttt agtttaacta 2340
tgtgaaatgt aaatatgtaa taaatataaa taataaatat aaataactat gttttagttt 2400
aactatgtga aatgtaaata attagatggt gttttaatct ccatttattc ggttctgttt 2460
tagtttaact atgtgaaatg taaatgaatg aaatatataa taaaatagta aaataaaata 2520
taagttttag tttaactatg tgaaatgtaa atatgtccat tacttctata actgttgagg 2580
ttggctatct gttttagttt aactatgtga aatgtaaatt ttagtacttg ctgtccagct 2640
acaaatccag tagcatgttt tagtttaact atgtgaaatg taaataatgt ttcagcttgt 2700
acttttttag cgtttaaaat taagttttag tttaactatg tgaaatgtaa atatcccaat 2760
ctaatttaga atcttgggac tggtctacgt gttttagttt aactatgtga aatgtaaatt 2820
gggaacacgt ttcatttaca tttagtatag aaggaggttt tagtttaact atgtgaaatg 2880
taaattagtt agcccattca cctcttgctt tctttgcagc aataccgttt tagtttaact 2940
atgtgaaatg taaatctttc ggttcttgta ttttaattat gttatctttt ttctgtttta 3000
gtttaactat gtgaaatgta aatcagatac agacttagaa aaagctccaa cagaagaagg 3060
ttttagttta actatgtgaa atgtgaatga gcatagcaat aaatttcgtt tcattttgtt 3120
tgagtaagtt ttagtaaaat actatgaagt gaagggatac gtattatgaa atttatcgaa 3180
tcaatagatc cttttttgat gcagttggtt attgttccgc taatagtaat tggattaggt 3240
gttttagtag cttataatat taaaaatata ttaattggac ctttaataac attgttttta 3300
aatagtttat atgaaatttg gtatataaaa cactattgtc ctggatcaga aattagtttg 3360
agttcttgga atattattct tccaatgatt tcatttacaa tttctttgat tgtagtatta 3420
attagagaat agggtaatat ttaataaaga ttatttctta ggctaggtga aatgtaaata 3480
acctggattt tctttagttg caataatatc aatactaggt tttagtttaa ctatgtgaaa 3540
tagagaagca gaatataaaa gctgaaacta caaactctcc atcatgga 3588
<210> 46
<211> 38
<212> DNA
<213> Unknown
<220>
<223> Uncultured archaeon
<400> 46
gtttcagcgc acgaattaac gagatgagag atgcaact 38
<210> 47
<211> 37
<212> DNA
<213> Unknown
<220>
<223> Candidatus Micrarchaeota archaeon
<400> 47
attgcagaac ccaaagtaat aggtcaagga atgcaac 37
<210> 48
<211> 37
<212> DNA
<213> Unknown
<220>
<223> Candidatus Aureabacteria bacterium
<400> 48
gttgcagatg tggagaaata gagataacga atgcaac 37
<210> 49
<211> 37
<212> DNA
<213> Unknown
<220>
<223> Uncultured archaeon
<400> 49
gttgcagaac ccgaatagac gaatgaagga atgcaac 37
<210> 50
<211> 37
<212> DNA
<213> Unknown
<220>
<223> Candidatus Micrarchaeota archaeon
<400> 50
gttgcacagt gctaattaga gaaactagga atgcaac 37
<210> 51
<211> 37
<212> DNA
<213> Unknown
<220>
<223> Uncultured archaeon
<400> 51
gttgcagaac ccgaatagac gaatgaagga atgcaac 37
<210> 52
<211> 30
<212> DNA
<213> Parageobacillus thermoglucosidasius
<400> 52
gtttctgaag aaactatgta tgatgtgaag 30
<210> 53
<211> 29
<212> DNA
<213> Acidibacillus sulfuroxidans
<400> 53
gtttgcgagc tagcttgtgg agtgtgaac 29
<210> 54
<211> 32
<212> DNA
<213> Ruminococcus sp.
<400> 54
gttgcaactt acgcataggt gtaaaatacg ag 32
<210> 55
<211> 32
<212> DNA
<213> Syntrophomonas palmitatica
<400> 55
gtcgcatctt gcgtaagcgc gtggattgaa ac 32
<210> 56
<211> 29
<212> DNA
<213> Clostridium novyi
<400> 56
gttttagttt aactatgtga aatgtaaat 29
<210> 57
<211> 58
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 1 crRNA
<220>
<221> misc_feature
<222> (39)..(58)
<223> n is a, c, g, or u
<400> 57
guuucagcgc acgaauuaac gagaugagag augcaacunn nnnnnnnnnn nnnnnnnn 58
<210> 58
<211> 57
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 2 crRNA
<220>
<221> misc_feature
<222> (38)..(57)
<223> n is a, c, g, or u
<400> 58
auugcagaac ccaaaguaau aggucaagga augcaacnnn nnnnnnnnnn nnnnnnn 57
<210> 59
<211> 57
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 4 crRNA
<220>
<221> misc_feature
<222> (38)..(57)
<223> n is a, c, g, or u
<400> 59
auugcagaac ccaaaguaau aggucaagga augcaacnnn nnnnnnnnnn nnnnnnn 57
<210> 60
<211> 110
<212> RNA
<213> Unknown
<220>
<223> Candidatus Micrarchaeota archaeon
<400> 60
uuuacuccga guaaucggau guggauuaua gcacagcaac cuauauggaa gcugggaacc 60
gguuuauccg gaaaugcgca ccguugcaug gaauuaugug cgcuuaagac 110
<210> 61
<211> 85
<212> RNA
<213> Unknown
<220>
<223> Candidatus Micrarchaeota archaeon
<400> 61
uuauagcaca gcaaccuaua uggaagcugg gaaccgguuu auccggaaau gcgcaccguu 60
gcauggaauu augugcgcuu aagac 85
<210> 62
<211> 77
<212> RNA
<213> Unknown
<220>
<223> Candidatus Micrarchaeota archaeon
<400> 62
cagcaaccua uauggaagcu gggaaccggu uuauccggaa augcgcaccg uugcauggaa 60
uuaugugcgc uuaagac 77
<210> 63
<211> 69
<212> RNA
<213> Unknown
<220>
<223> Candidatus Micrarchaeota archaeon
<400> 63
uauauggaag cugggaaccg guuuauccgg aaaugcgcac cguugcaugg aauuaugugc 60
gcuuaagac 69
<210> 64
<211> 214
<212> RNA
<213> Unknown
<220>
<223> Candidatus Micrarchaeota archaeon
<400> 64
aaaagauaaa uauuaagaag cacauaauuu auuuugguua cauaucacug gauaaugaga 60
acagcuguag auuaagcugu uugauguauu guauuaugcu ccacuuuaau aaguggugcc 120
uuccaaagcu auaugcugag ggaggauggg cgcuguugca gcgucugccc accucagagu 180
ggguauccuu accuauuuug aaagguucug uaag 214
<210> 65
<211> 163
<212> RNA
<213> Unknown
<220>
<223> Candidatus Micrarchaeota archaeon
<400> 65
auaaugagaa cagcuguaga uuaagcuguu ugauguauug uauuaugcuc cacuuuaaua 60
aguggugccu uccaaagcua uaugcugagg gaggaugggc gcuguugcag cgucugccca 120
ccucagagug gguauccuua ccuauuuuga aagguucugu aag 163
<210> 66
<211> 148
<212> RNA
<213> Unknown
<220>
<223> Candidatus Micrarchaeota archaeon
<400> 66
auaaugagaa cagcuguaga uuaagcuguu ugauguauug uauuaugcuc cacuuuaaua 60
aguggugccu uccaaagcua uaugcugagg gaggaugggc gcuguugcag cgucugccca 120
ccucagagug gguauccuua ccuauuuu 148
<210> 67
<211> 127
<212> RNA
<213> Unknown
<220>
<223> Candidatus Micrarchaeota archaeon
<400> 67
auuguauuau gcuccacuuu aauaaguggu gccuuccaaa gcuauaugcu gagggaggau 60
gggcgcuguu gcagcgucug cccaccucag aguggguauc cuuaccuauu uugaaagguu 120
cuguaag 127
<210> 68
<211> 161
<212> RNA
<213> Unknown
<220>
<223> Uncultured archaeon
<400> 68
cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60
gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120
cccucgaaac aaauucauuu uuccucucca auucugcaca a 161
<210> 69
<211> 172
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 1 sgRNA version 1
<220>
<221> misc_feature
<222> (153)..(172)
<223> n is a, c, g, or u
<400> 69
uuuacuccga guaaucggau guggauuaua gcacagcaac cuauauggaa gcugggaacc 60
gguuuauccg gaaaugcgca ccguugcaug gaauuaugug cgcuuaagac gaaaguuuca 120
gcgcacgaau uaacgagaug agagaugcaa cunnnnnnnn nnnnnnnnnn nn 172
<210> 70
<211> 147
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 1 sgRNA version 2
<220>
<221> misc_feature
<222> (128)..(147)
<223> n is a, c, g, or u
<400> 70
uuauagcaca gcaaccuaua uggaagcugg gaaccgguuu auccggaaau gcgcaccguu 60
gcauggaauu augugcgcuu aagacgaaag uuucagcgca cgaauuaacg agaugagaga 120
ugcaacunnn nnnnnnnnnn nnnnnnn 147
<210> 71
<211> 139
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 1 sgRNA version 3
<220>
<221> misc_feature
<222> (120)..(139)
<223> n is a, c, g, or u
<400> 71
cagcaaccua uauggaagcu gggaaccggu uuauccggaa augcgcaccg uugcauggaa 60
uuaugugcgc uuaagacgaa aguuucagcg cacgaauuaa cgagaugaga gaugcaacun 120
nnnnnnnnnn nnnnnnnnn 139
<210> 72
<211> 131
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 1 sgRNA version 4
<220>
<221> misc_feature
<222> (112)..(131)
<223> n is a, c, g, or u
<400> 72
uauauggaag cugggaaccg guuuauccgg aaaugcgcac cguugcaugg aauuaugugc 60
gcuuaagacg aaaguuucag cgcacgaauu aacgagauga gagaugcaac unnnnnnnnn 120
nnnnnnnnnn n 131
<210> 73
<211> 275
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 2 sgRNA version 1
<220>
<221> misc_feature
<222> (256)..(275)
<223> n is a, c, g, or u
<400> 73
aaaagauaaa uauuaagaag cacauaauuu auuuugguua cauaucacug gauaaugaga 60
acagcuguag auuaagcugu uugauguauu guauuaugcu ccacuuuaau aaguggugcc 120
uuccaaagcu auaugcugag ggaggauggg cgcuguugca gcgucugccc accucagagu 180
ggguauccuu accuauuuug aaagguucug uaaggaaaau ugcagaaccc aaaguaauag 240
gucaaggaau gcaacnnnnn nnnnnnnnnn nnnnn 275
<210> 74
<211> 224
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 2 sgRNA version 2
<220>
<221> misc_feature
<222> (205)..(224)
<223> n is a, c, g, or u
<400> 74
auaaugagaa cagcuguaga uuaagcuguu ugauguauug uauuaugcuc cacuuuaaua 60
aguggugccu uccaaagcua uaugcugagg gaggaugggc gcuguugcag cgucugccca 120
ccucagagug gguauccuua ccuauuuuga aagguucugu aaggaaaauu gcagaaccca 180
aaguaauagg ucaaggaaug caacnnnnnn nnnnnnnnnn nnnn 224
<210> 75
<211> 196
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 2 sgRNA version 3
<220>
<221> misc_feature
<222> (177)..(196)
<223> n is a, c, g, or u
<400> 75
auaaugagaa cagcuguaga uuaagcuguu ugauguauug uauuaugcuc cacuuuaaua 60
aguggugccu uccaaagcua uaugcugagg gaggaugggc gcuguugcag cgucugccca 120
ccucagagug gguauccuua ccuauuuuga aaaaguaaua ggucaaggaa ugcaacnnnn 180
nnnnnnnnnn nnnnnn 196
<210> 76
<211> 188
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 2 sgRNA version 4
<220>
<221> misc_feature
<222> (169)..(188)
<223> n is a, c, g, or u
<400> 76
auuguauuau gcuccacuuu aauaaguggu gccuuccaaa gcuauaugcu gagggaggau 60
gggcgcuguu gcagcgucug cccaccucag aguggguauc cuuaccuauu uugaaagguu 120
cuguaaggaa aauugcagaa cccaaaguaa uaggucaagg aaugcaacnn nnnnnnnnnn 180
nnnnnnnn 188
<210> 77
<211> 222
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 4 sgRNA version 1
<220>
<221> misc_feature
<222> (203)..(222)
<223> n is a, c, g, or u
<400> 77
cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60
gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120
cccucgaaac aaauucauuu uuccucucca auucugcaca agaaaguugc agaacccgaa 180
uagacgaaug aaggaaugca acnnnnnnnn nnnnnnnnnn nn 222
<210> 78
<211> 36
<212> DNA
<213> Artificial
<220>
<223> T2 spacer
<400> 78
agttgaccca acgtcgccgg cgtgcacaat ctagat 36
<210> 79
<211> 5100
<212> DNA
<213> Artificial
<220>
<223> Complete Cas-alpha 1 locus engineered to target T2
<400> 79
tcgcgtctat ggcgtgattt tgcagcttcc ctaaattcag ccccttctcc tcaaagccca 60
gaagctcctt taatgcctgc tcgtttgcgc cctccacctt tgagcccggg gcggcgggga 120
agatgctgcg caccaatctt ccttccttgt agactccaag cgccctaacc cttgcgatta 180
catactccca gtccgcagtc gggaaattct gcggcatcgg ggagcctttc tcgtactctg 240
aaacgctttc cgcatgctca aaatagcggt ttgcgcgcat tatctcggaa attgtgccaa 300
aaagcattcc atcctcgcag cgtgtctgga cgaactgccc cttccttaca ttcggggagg 360
agattacgaa ggagaagaag gaggtggtgg ggctgtctat tgtggagatg accgtgccaa 420
gggaggtgga atccatgaag aggttttgag gagaaaatta atatatggaa ttgagggggg 480
tcggacttct accctgtaag tgtttataag gagaactcca tatatacttc ggatatgcaa 540
ctaataattg acgattatgg cgcatatctt gggcagaagg acaacctctt ccaaataagg 600
aagaaagacg ggacgtgtga agaatattct gccgacaagg ttgagcagat acttcttgtg 660
aaaaatagct gtatttcttc aagagccgca ctcttggcag cacgaaacaa catagatgta 720
gtgtttgtag gaaaattcgg aatgccggaa ggaaggattt ttcctgcatg tcttggagga 780
acaaatctca taagaagaaa acaacttgaa gcagggcaga atgagaaagg agggaaaatt 840
gcaataaaac ttatctgggc aaagatcaag aatgaggaat ttttccttaa aactctcaac 900
aaaagcagaa ctgcgcctct tcttttggag aaagcggaaa aaataagcgc tattgcggag 960
caagtccggc agatgttagg cgagaaattt gatgcagata gggtttttgg ttttgaagga 1020
ttggctgcgg cgcactattt tgagggattg tcacaggtaa tgccgattga aaagcgcgac 1080
caagagggaa aagatgcccc aaatgcactc ttgaattatg gttatggaat gttgtacgga 1140
gagatagaga aagcctgcct ttttgccggt ttggacccgt atcttggctt tcttcatgca 1200
gataggtacg gcaagccctc tcttgtactt gatttgatag aagagttcag accggttatt 1260
gttgataggg cgattattac gctttacgca cagaaacaga taaacgagag tgattttgag 1320
cagggaggag ataagatttt tctttcaaaa gaagggagaa agaagatgat aaaggcaatt 1380
atggaaagac tgcatgcaaa aataacttca gatgggcgca agcttgagct ttcggtgata 1440
atacaggagc aggcgcgaag aatcgcctcc tttgtgaagg gagagagcga gtttgagcct 1500
tttctttaca ggtggtagga tgttttattg ggtaatttat gatataagcg aaaacaagaa 1560
acgcggcagg gtggcaagaa tatgcaaaaa ctacgggttt agaagagtgc agaagagcgc 1620
ctttgcaggc gaaacttcaa agaataaggt ggagatgctg ttattggaat gcaatgagat 1680
tatagaggga ggggatgatt atttgtttgt cattccgaac tgcacaagct gtttcaatgg 1740
gaaaatgata accggctgtc ttgacgagaa aagagtgaga aatcagccgt atatgtttgt 1800
aggtgatggc gcatgaacag aatgggaatt ttgagcattc gagacatatt gaattacaac 1860
tactgcccgc gcatagtata ttttgagtat gttctgcgca gaccacaggg caggacgaaa 1920
aaggaggatg agggattgaa acagcataat gaatttgtgc caagagggaa gaggaataag 1980
atggttaaac ggatttgtta tgacaagaag ctgtttaatc tgccgcttta ttctccgcgc 2040
atgaaccttc aaactgtggc ggattgcgtg cttattgaca caaaagagaa gcttgctgtt 2100
ccgatgcagt ttaagcatgg aaaaacacct tcttgcttgt atcggactat gaaataccag 2160
cttgtagcgg aggcgttgct gattgaggag tgccttgggc tttcatgtcc ttatggactt 2220
gtgaaattct tacctgaaga aacaactctt agaacagaaa tagacgaaat tcaaaagcaa 2280
aaacttaaag aacagcttga gagtattaac aacgtggtga ggtttgaaag gtatcccgat 2340
ggtccgagaa cgaggaatta ctgcggggac tgctggtatc atggaaaagt ttgcacggga 2400
tttgacggca aaatagtggg atgaacatga gtaaaactac gatttcagta aaattaaaga 2460
ttattgactt aagctctgag aaaaaagagt ttcttgataa ctattttaac gaatacgcaa 2520
aagccacgac gttctgccag ttaagaatac ggcgactttt gagaaataca cactggcttg 2580
ggaaaaagga gaagagttca aaaaagtgga tttttgaaag tggaatatgc gatttgtgcg 2640
gtgaaaacaa agaacttgtg aatgaagata gaaattcagg cgaacctgca aaaatttgca 2700
aaagatgtta taatggaaga tatggcaatc agatgatacg taaacttttc gtttcaacga 2760
agaaaagaga agttcaggaa aacatggaca tacgaagagt cgctaaacta aataatacgc 2820
attatcaccg cataccggaa gaagcatttg acatgattaa agccgccgat acagcagaaa 2880
aaagaagaaa gaagaatgtc gagtatgata aaaaaagaca gatggaattt attgagatgt 2940
ttaatgacga aaaaaaacgt gcggcaagac caaaaaaacc aaacgaaagg gaaacccgtt 3000
acgttcatat ttctaaattg gaaagtccgt caaagggata tactctgaac ggaataaaaa 3060
gaaaaataga cggcatgggt aaaaaaattg agagagcaga aaaaggtctc tcaagaaaga 3120
agatttttgg ttatcagggc aatagaatca aacttgattc gaattgggtc cggtttgacc 3180
ttgccgaatc ggagattact atcccctcac tgtttaagga aatgaaacta aggataactg 3240
gaccgaccaa cgttcattca aaaagcgggc agatatattt tgcagaatgg tttgagcgga 3300
taaacaaaca accgaataat tactgttatc tgataagaaa aacaagttcg aacggcaaat 3360
atgaatatta tcttcaatat acttatgaag ccgaagttga ggcgaataag gagtacgctg 3420
ggtgtttggg ggttgatata ggatgttcta aacttgctgc cgcagtttat tatgattcaa 3480
aaaacaaaaa agcacaaaaa ccaattgaga tattcacgaa tccgattaaa aaaatcaaga 3540
tgcggcgcga gaaactgatt aaacttcttt ccagagttaa ggtgcggcac agacgcagaa 3600
aactcatgca actcagtaaa actgaaccca ttatagacta tacgtgccac aaaaccgcaa 3660
gaaaaattgt tgaaatggca aatactgcca aagcttttat ctcaatggag aatcttgaaa 3720
ctgggataaa gcaaaagcaa caggcaagag aaacaaaaaa gcagaagttt tatcggaata 3780
tgtttctttt cagaaaatta agcaaactaa tagagtacaa ggctctgctg aaagggataa 3840
agatagtata tgtgaaaccc gattatacaa gccaaacttg ttcttcatgt ggcgcagaca 3900
aagaaaaaac cgagcgccca tcacaagcaa tatttcgctg tcttaatcca acatgccgat 3960
attatcaaag agacataaat gccgacttca acgccgcagt gaatatagct aagaaagctt 4020
taaataatac tgaagtagta actacgttat tatgatttac tccgagtaat cggatgtgga 4080
ttatagcaca gcaacctata tggaagctgg gaaccggttt atccggaaat gcgcaccgtt 4140
gcatggaatt atgtgcgctt aagaccttat gatatcgcgc ggcttgactt cgcgatagac 4200
aggtcaacta ttgtctcggt tcaacgtgcc aattagcagg tctttataaa tagcctgcag 4260
attttcaagt tgcttttctt agtgcagaaa agaaggcagg agaagcctcc gtttggcaaa 4320
aaaaggcggt tgtatctact gtttcagcgc acgaattaac gagatgagag atgcaactag 4380
ttgacccaac gtcgccggcg tgcacaatct agatgtttca gcgcacgaat taacgagatg 4440
agagatgcaa ctagttgacc caacgtcgcc ggcgtgcaca atctagatgt ttcagcgcac 4500
gaattaacga gatgagagat gcaactagtt gacccaacgt cgccggcgtg cacaatctag 4560
atgtttcagc gcacgaatta acgagatgag agatgcaact cagtagaaga taaaacagaa 4620
ttagaataag atggcttcca gcctgatggt cgtgctcata accgaattgc tgaagtatac 4680
gtgcaagctc ccttccagaa atgacgggca gtttaggcat gtacctcaac aatttcttcc 4740
cgtattgacg gcggaaccgg ctccccgtgc tttttcaggc tcgcaagata gcccttgatg 4800
gcgtctttaa cgtttgcaag cgcatcttcc ctagttgttc cctgcgaaac acagcccgga 4860
agcgaggtgc aaaccgcgac gtatgcaccg tcttcgtctt cttctacaat caccctgaat 4920
ttcataagta tctttgggct ttttggagtt tataagaatg atggatttgg gaagttgcac 4980
cgcgcggatt agtgggagcc ccgtcatttc ggcgcatcca aaaggagtat aagctccctc 5040
gtttttgctt caaattcctt ttttcttcaa ttccgcaaat ctgcctttgc gggagcttcg 5100
<210> 80
<211> 2237
<212> DNA
<213> Artificial
<220>
<223> Minimal Cas-alpha 1 locus engineered to target T2
<400> 80
atgaacatga gtaaaactac gatttcagta aaattaaaga ttattgactt aagctctgag 60
aaaaaagagt ttcttgataa ctattttaac gaatacgcaa aagccacgac gttctgccag 120
ttaagaatac ggcgactttt gagaaataca cactggcttg ggaaaaagga gaagagttca 180
aaaaagtgga tttttgaaag tggaatatgc gatttgtgcg gtgaaaacaa agaacttgtg 240
aatgaagata gaaattcagg cgaacctgca aaaatttgca aaagatgtta taatggaaga 300
tatggcaatc agatgatacg taaacttttc gtttcaacga agaaaagaga agttcaggaa 360
aacatggaca tacgaagagt cgctaaacta aataatacgc attatcaccg cataccggaa 420
gaagcatttg acatgattaa agccgccgat acagcagaaa aaagaagaaa gaagaatgtc 480
gagtatgata aaaaaagaca gatggaattt attgagatgt ttaatgacga aaaaaaacgt 540
gcggcaagac caaaaaaacc aaacgaaagg gaaacccgtt acgttcatat ttctaaattg 600
gaaagtccgt caaagggata tactctgaac ggaataaaaa gaaaaataga cggcatgggt 660
aaaaaaattg agagagcaga aaaaggtctc tcaagaaaga agatttttgg ttatcagggc 720
aatagaatca aacttgattc gaattgggtc cggtttgacc ttgccgaatc ggagattact 780
atcccctcac tgtttaagga aatgaaacta aggataactg gaccgaccaa cgttcattca 840
aaaagcgggc agatatattt tgcagaatgg tttgagcgga taaacaaaca accgaataat 900
tactgttatc tgataagaaa aacaagttcg aacggcaaat atgaatatta tcttcaatat 960
acttatgaag ccgaagttga ggcgaataag gagtacgctg ggtgtttggg ggttgatata 1020
ggatgttcta aacttgctgc cgcagtttat tatgattcaa aaaacaaaaa agcacaaaaa 1080
ccaattgaga tattcacgaa tccgattaaa aaaatcaaga tgcggcgcga gaaactgatt 1140
aaacttcttt ccagagttaa ggtgcggcac agacgcagaa aactcatgca actcagtaaa 1200
actgaaccca ttatagacta tacgtgccac aaaaccgcaa gaaaaattgt tgaaatggca 1260
aatactgcca aagcttttat ctcaatggag aatcttgaaa ctgggataaa gcaaaagcaa 1320
caggcaagag aaacaaaaaa gcagaagttt tatcggaata tgtttctttt cagaaaatta 1380
agcaaactaa tagagtacaa ggctctgctg aaagggataa agatagtata tgtgaaaccc 1440
gattatacaa gccaaacttg ttcttcatgt ggcgcagaca aagaaaaaac cgagcgccca 1500
tcacaagcaa tatttcgctg tcttaatcca acatgccgat attatcaaag agacataaat 1560
gccgacttca acgccgcagt gaatatagct aagaaagctt taaataatac tgaagtagta 1620
actacgttat tatgatttac tccgagtaat cggatgtgga ttatagcaca gcaacctata 1680
tggaagctgg gaaccggttt atccggaaat gcgcaccgtt gcatggaatt atgtgcgctt 1740
aagaccttat gatatcgcgc ggcttgactt cgcgatagac aggtcaacta ttgtctcggt 1800
tcaacgtgcc aattagcagg tctttataaa tagcctgcag attttcaagt tgcttttctt 1860
agtgcagaaa agaaggcagg agaagcctcc gtttggcaaa aaaaggcggt tgtatctact 1920
gtttcagcgc acgaattaac gagatgagag atgcaactag ttgacccaac gtcgccggcg 1980
tgcacaatct agatgtttca gcgcacgaat taacgagatg agagatgcaa ctagttgacc 2040
caacgtcgcc ggcgtgcaca atctagatgt ttcagcgcac gaattaacga gatgagagat 2100
gcaactagtt gacccaacgt cgccggcgtg cacaatctag atgtttcagc gcacgaatta 2160
acgagatgag agatgcaact cagtagaaga taaaacagaa ttagaataag atggcttcca 2220
gcctgatggt cgtgctc 2237
<210> 81
<211> 10
<212> PRT
<213> Artificial
<220>
<223> 10X His tag
<400> 81
His His His His His His His His His His
1 5 10
<210> 82
<211> 6
<212> PRT
<213> Artificial
<220>
<223> 6X His tag
<400> 82
His His His His His His
1 5
<210> 83
<211> 367
<212> PRT
<213> Artificial
<220>
<223> maltose binding protein tag
<400> 83
Met Lys Ile Glu Glu Gly Lys Leu Val Ile Trp Ile Asn Gly Asp Lys
1 5 10 15
Gly Tyr Asn Gly Leu Ala Glu Val Gly Lys Lys Phe Glu Lys Asp Thr
20 25 30
Gly Ile Lys Val Thr Val Glu His Pro Asp Lys Leu Glu Glu Lys Phe
35 40 45
Pro Gln Val Ala Ala Thr Gly Asp Gly Pro Asp Ile Ile Phe Trp Ala
50 55 60
His Asp Arg Phe Gly Gly Tyr Ala Gln Ser Gly Leu Leu Ala Glu Ile
65 70 75 80
Thr Pro Asp Lys Ala Phe Gln Asp Lys Leu Tyr Pro Phe Thr Trp Asp
85 90 95
Ala Val Arg Tyr Asn Gly Lys Leu Ile Ala Tyr Pro Ile Ala Val Glu
100 105 110
Ala Leu Ser Leu Ile Tyr Asn Lys Asp Leu Leu Pro Asn Pro Pro Lys
115 120 125
Thr Trp Glu Glu Ile Pro Ala Leu Asp Lys Glu Leu Lys Ala Lys Gly
130 135 140
Lys Ser Ala Leu Met Phe Asn Leu Gln Glu Pro Tyr Phe Thr Trp Pro
145 150 155 160
Leu Ile Ala Ala Asp Gly Gly Tyr Ala Phe Lys Tyr Glu Asn Gly Lys
165 170 175
Tyr Asp Ile Lys Asp Val Gly Val Asp Asn Ala Gly Ala Lys Ala Gly
180 185 190
Leu Thr Phe Leu Val Asp Leu Ile Lys Asn Lys His Met Asn Ala Asp
195 200 205
Thr Asp Tyr Ser Ile Ala Glu Ala Ala Phe Asn Lys Gly Glu Thr Ala
210 215 220
Met Thr Ile Asn Gly Pro Trp Ala Trp Ser Asn Ile Asp Thr Ser Lys
225 230 235 240
Val Asn Tyr Gly Val Thr Val Leu Pro Thr Phe Lys Gly Gln Pro Ser
245 250 255
Lys Pro Phe Val Gly Val Leu Ser Ala Gly Ile Asn Ala Ala Ser Pro
260 265 270
Asn Lys Glu Leu Ala Lys Glu Phe Leu Glu Asn Tyr Leu Leu Thr Asp
275 280 285
Glu Gly Leu Glu Ala Val Asn Lys Asp Lys Pro Leu Gly Ala Val Ala
290 295 300
Leu Lys Ser Tyr Glu Glu Glu Leu Ala Lys Asp Pro Arg Ile Ala Ala
305 310 315 320
Thr Met Glu Asn Ala Gln Lys Gly Glu Ile Met Pro Asn Ile Pro Gln
325 330 335
Met Ser Ala Phe Trp Tyr Ala Val Arg Thr Ala Val Ile Asn Ala Ala
340 345 350
Ser Gly Arg Gln Thr Val Asp Glu Ala Leu Lys Asp Ala Gln Thr
355 360 365
<210> 84
<211> 7
<212> PRT
<213> Tobacco etch virus
<400> 84
Glu Asn Leu Tyr Phe Gln Ser
1 5
<210> 85
<211> 31
<212> DNA
<213> Artificial
<220>
<223> A1 oligonucleotide
<400> 85
cggcattcct gctgaaccgc tcttccgatc t 31
<210> 86
<211> 30
<212> DNA
<213> Artificial
<220>
<223> A2 oligonucleotide
<400> 86
gatcggaaga gcggttcagc aggaatgccg 30
<210> 87
<211> 22
<212> DNA
<213> Artificial
<220>
<223> R0 oligonucleotide
<400> 87
gccagggttt tcccagtcac ga 22
<210> 88
<211> 28
<212> DNA
<213> Artificial
<220>
<223> C0 oligonucleotide
<400> 88
gaaattctaa acgctaaaga ggaagagg 28
<210> 89
<211> 56
<212> DNA
<213> Artificial
<220>
<223> F1 oligonucleotide
<400> 89
ctacactctt tccctacacg acgctcttcc gatctaaggc ggcattcctg ctgaac 56
<210> 90
<211> 49
<212> DNA
<213> Artificial
<220>
<223> R1 oligonucleotide
<400> 90
caagcagaag acggcatacg agctcttccg atctcggcga cgttgggtc 49
<210> 91
<211> 35
<212> DNA
<213> Artificial
<220>
<223> Bridge amplification portion of F1 oligonucleotide
<400> 91
ctacactctt tccctacacg acgctcttcc gatct 35
<210> 92
<211> 34
<212> DNA
<213> Artificial
<220>
<223> Bridge amplification portion of R1 oligonucleotide
<400> 92
caagcagaag acggcatacg agctcttccg atct 34
<210> 93
<211> 43
<212> DNA
<213> Artificial
<220>
<223> F2 oligonucleotide
<400> 93
aatgatacgg cgaccaccga gatctacact ctttccctac acg 43
<210> 94
<211> 18
<212> DNA
<213> Artificial
<220>
<223> R2 olignonucleotide
<400> 94
caagcagaag acggcata 18
<210> 95
<211> 60
<212> DNA
<213> Artificial
<220>
<223> C1 oligonucleotide
<400> 95
ctacactctt tccctacacg acgctcttcc gatctggaat aaacgctaaa gaggaagagg 60
<210> 96
<211> 36
<212> DNA
<213> Artificial
<220>
<223> Sequence resulting from cleavage and adapter ligation at position
21 of the target
<400> 96
ccgctcttcc gatctgccgg cgacgttggg tcaact 36
<210> 97
<211> 15
<212> DNA
<213> Artificial
<220>
<223> Adapter portion of SEQ ID NO. 96
<400> 97
ccgctcttcc gatct 15
<210> 98
<211> 21
<212> DNA
<213> Artificial
<220>
<223> Target portion of SEQ ID NO. 96
<400> 98
gccggcgacg ttgggtcaac t 21
<210> 99
<211> 10
<212> DNA
<213> Artificial
<220>
<223> Sequence 5' of PAM
<400> 99
tgtcctcttc 10
<210> 100
<211> 40
<212> DNA
<213> Artificial
<220>
<223> Fixed double stranded DNA target
<400> 100
ttatagttga cccaacgtcg ccggcgtgca caatctagat 40
<210> 101
<211> 36
<212> DNA
<213> Artificial
<220>
<223> T2 target sequence
<400> 101
agttgaccca acgtcgccgg cgtgcacaat ctagat 36
<210> 102
<211> 222
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 4 T2-1 sgRNA
<400> 102
cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60
gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120
cccucgaaac aaauucauuu uuccucucca auucugcaca agaaaguugc agaacccgaa 180
uagacgaaug aaggaaugca acccggcgac guugggucaa cu 222
<210> 103
<211> 222
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 4 T2-2 sgRNA
<400> 103
cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60
gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120
cccucgaaac aaauucauuu uuccucucca auucugcaca agaaaguugc agaacccgaa 180
uagacgaaug aaggaaugca acaguugacc caacgucgcc gg 222
<210> 104
<211> 57
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 4 T2-1 crRNA
<400> 104
guugcagaac ccgaauagac gaaugaagga augcaacccg gcgacguugg gucaacu 57
<210> 105
<211> 57
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 4 T2-1 crRNA
<400> 105
guugcagaac ccgaauagac gaaugaagga augcaacagu ugacccaacg ucgccgg 57
<210> 106
<211> 189
<212> DNA
<213> Solanum tuberosum
<400> 106
gtaagtttct gcttctacct ttgatatata tataataatt atcattaatt agtagtaata 60
taatatttca aatatttttt tcaaaataaa agaatgtagt atatagcaat tgcttttctg 120
tagtttataa gtgtgtatat tttaatttat aacttttcta atatatgacc aaaacatggt 180
gatgtgcag 189
<210> 107
<211> 7
<212> PRT
<213> Simian virus 40
<400> 107
Pro Lys Lys Lys Arg Lys Val
1 5
<210> 108
<211> 16
<212> PRT
<213> Mus musculus
<400> 108
Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys Lys Lys
1 5 10 15
<210> 109
<211> 896
<212> DNA
<213> Zea mays
<400> 109
gtgcagcgtg acccggtcgt gcccctctct agagataatg agcattgcat gtctaagtta 60
taaaaaatta ccacatattt tttttgtcac acttgtttga agtgcagttt atctatcttt 120
atacatatat ttaaacttta ctctacgaat aatataatct atagtactac aataatatca 180
gtgttttaga gaatcatata aatgaacagt tagacatggt ctaaaggaca attgagtatt 240
ttgacaacag gactctacag ttttatcttt ttagtgtgca tgtgttctcc tttttttttg 300
caaatagctt cacctatata atacttcatc cattttatta gtacatccat ttagggttta 360
gggttaatgg tttttataga ctaatttttt tagtacatct attttattct attttagcct 420
ctaaattaag aaaactaaaa ctctatttta gtttttttat ttaataattt agatataaaa 480
tagaataaaa taaagtgact aaaaattaaa caaataccct ttaagaaatt aaaaaaacta 540
aggaaacatt tttcttgttt cgagtagata atgccagcct gttaaacgcc gtcgacgagt 600
ctaacggaca ccaaccagcg aaccagcagc gtcgcgtcgg gccaagcgaa gcagacggca 660
cggcatctct gtcgctgcct ctggacccct ctcgagagtt ccgctccacc gttggacttg 720
ctccgctgtc ggcatccaga aattgcgtgg cggagcggca gacgtgagcc ggcacggcag 780
gcggcctcct cctcctctca cggcaccggc agctacgggg gattcctttc ccaccgctcc 840
ttcgctttcc cttcctcgcc cgccgtaata aatagacacc ccctccacac cctctt 896
<210> 110
<211> 278
<212> DNA
<213> Gallus gallus
<400> 110
tcgaggtgag ccccacgttc tgcttcactc tccccatctc ccccccctcc ccacccccaa 60
ttttgtattt atttattttt taattatttt gtgcagcgat gggggcgggg gggggggggg 120
ggcgcgcgcc aggcggggcg gggcggggcg aggggcgggg cggggcgagg cggagaggtg 180
cggcggcagc caatcagagc ggcgcgctcc gaaagtttcc ttttatggcg aggcggcggc 240
ggcggcggcc ctataaaaag cgaagcgcgc ggcgggcg 278
<210> 111
<211> 286
<212> DNA
<213> Human beta herpesvirus 5
<400> 111
cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60
gacgtcaata gtaacgccaa tagggacttt ccattgacgt caatgggtgg agtatttacg 120
gtaaactgcc cacttggcag tacatcaagt gtatcatatg ccaagtacgc cccctattga 180
cgtcaatgac ggtaaatggc ccgcctggca ttgtgcccag tacatgacct tatgggactt 240
tcctacttgg cagtacatct acgtattagt catcgctatt accatg 286
<210> 112
<211> 82
<212> DNA
<213> Zea mays
<400> 112
tccccaacct cgtgttgttc ggagcgcaca cacacacaac cagatctccc ccaaatccac 60
ccgtcggcac ctccgcttca ag 82
<210> 113
<211> 1013
<212> DNA
<213> Zea mays
<400> 113
gtacgccgct cgtcctcccc cccccccctc tctaccttct ctagatcggc gttccggtcc 60
atgcatggtt agggcccggt agttctactt ctgttcatgt ttgtgttaga tccgtgtttg 120
tgttagatcc gtgctgctag cgttcgtaca cggatgcgac ctgtacgtca gacacgttct 180
gattgctaac ttgccagtgt ttctctttgg ggaatcctgg gatggctcta gccgttccgc 240
agacgggatc gatttcatga ttttttttgt ttcgttgcat agggtttggt ttgccctttt 300
cctttatttc aatatatgcc gtgcacttgt ttgtcgggtc atcttttcat gctttttttt 360
gtcttggttg tgatgatgtg gtctggttgg gcggtcgttc tagatcggag tagaattctg 420
tttcaaacta cctggtggat ttattaattt tggatctgta tgtgtgtgcc atacatattc 480
atagttacga attgaagatg atggatggaa atatcgatct aggataggta tacatgttga 540
tgcgggtttt actgatgcat atacagagat gctttttgtt cgcttggttg tgatgatgtg 600
gtgtggttgg gcggtcgttc attcgttcta gatcggagta gaatactgtt tcaaactacc 660
tggtgtattt attaattttg gaactgtatg tgtgtgtcat acatcttcat agttacgagt 720
ttaagatgga tggaaatatc gatctaggat aggtatacat gttgatgtgg gttttactga 780
tgcatataca tgatggcata tgcagcatct attcatatgc tctaaccttg agtacctatc 840
tattataata aacaagtatg ttttataatt attttgatct tgatatactt ggatgatggc 900
atatgcagca gctatatgtg gattttttta gccctgcctt catacgctat ttatttgctt 960
ggtactgttt cttttgtcga tgctcaccct gttgtttggt gttacttctg cag 1013
<210> 114
<211> 228
<212> DNA
<213> Artificial
<220>
<223> hybrid intron
<400> 114
ggagtcgctg cgcgctgcct tcgccccgtg ccccgctccg ccgccgcctc gcgccgcccg 60
ccccggctct gactgaccgc gttactccca caggtgagcg ggcgggacgg cccttctcct 120
ccgggctgta attagctgag caagaggtaa gggtttaagg gatggttggt tggtggggta 180
ttaatgttta attacctgga gcacctgcct gaaatcactt tttttcag 228
<210> 115
<211> 1000
<212> DNA
<213> Zea mays
<400> 115
tgagagtaca atgatgaacc tagattaatc aatgccaaag tctgaaaaat gcaccctcag 60
tctatgatcc agaaaatcaa gattgcttga ggccctgttc ggttgttccg gattagagcc 120
ccggattaat tcctagccgg attacttctc taatttatat agattttgat gagctggaat 180
gaatcctggc ttattccggt acaaccgaac aggccctgaa ggataccagt aatcgctgag 240
ctaaattggc atgctgtcag agtgtcagta ttgcagcaag gtagtgagat aaccggcatc 300
atggtgccag tttgatggca ccattagggt tagagatggt ggccatgggc gcatgtcctg 360
gccaactttg tatgatatat ggcagggtga ataggaaagt aaaattgtat tgtaaaaagg 420
gatttcttct gtttgttagc gcatgtacaa ggaatgcaag ttttgagcga gggggcatca 480
aagatctggc tgtgtttcca gctgtttttg ttagccccat cgaatccttg acataatgat 540
cccgcttaaa taagcaacct cgcttgtata gttccttgtg ctctaacaca cgatgatgat 600
aagtcgtaaa atagtggtgt ccaaagaatt tccaggccca gttgtaaaag ctaaaatgct 660
attcgaattt ctactagcag taagtcgtgt ttagaaatta tttttttata tacctttttt 720
ccttctatgt acagtaggac acagtgtcag cgccgcgttg acggagaata tttgcaaaaa 780
agtaaaagag aaagtcatag cggcgtatgt gccaaaaact tcgtcacaga gagggccata 840
agaaacatgg cccacggccc aatacgaagc accgcgacga agcccaaaca gcagtccgta 900
ggtggagcaa agcgctgggt aatacgcaaa cgttttgtcc caccttgact aatcacaaga 960
gtggagcgta ccttataaac cgagccgcaa gcaccgaatt 1000
<210> 116
<211> 249
<212> DNA
<213> Homo sapiens
<400> 116
gagggcctat ttcccatgat tccttcatat ttgcatatac gatacaaggc tgttagagag 60
ataattggaa ttaatttgac tgtaaacaca aagatattag tacaaaatac gtgacgtaga 120
aagtaataat ttcttgggta gtttgcagtt ttaaaattat gttttaaaat ggactatcat 180
atgcttaccg taacttgaaa gtatttcgat ttcttggctt tatatatctt gtggaaagga 240
cgaaacacc 249
<210> 117
<211> 8
<212> PRT
<213> Artificial
<220>
<223> Strep II tag
<400> 117
Trp Ser His Pro Gln Phe Glu Lys
1 5
<210> 118
<211> 208
<212> DNA
<213> Bos taurus
<400> 118
ctgtgccttc tagttgccag ccatctgttg tttgcccctc ccccgtgcct tccttgaccc 60
tggaaggtgc cactcccact gtcctttcct aataaaatga ggaaattgca tcgcattgtc 120
tgagtaggtg tcattctatt ctggggggtg gggtggggca ggacagcaag ggggaggatt 180
gggaagagaa tagcaggcat gctgggga 208
<210> 119
<211> 317
<212> DNA
<213> Solanum tuberosum
<400> 119
agacttgtcc atcttctgga ttggccaact taattaatgt atgaaataaa aggatgcaca 60
catagtgaca tgctaatcac tataatgtgg gcatcaaagt tgtgtgttat gtgtaattac 120
tagttatctg aataaaagag aaagagatca tccatatttc ttatcctaaa tgaatgtcac 180
gtgtctttat aattctttga tgaaccagat gcatttcatt aaccaaatcc atatacatat 240
aaatattaat catatataat taatatcaat tgggttagca aaacaaatct agtctaggtg 300
tgttttgcga atgcggc 317
<210> 120
<211> 113
<212> DNA
<213> Zea mays
<400> 120
cctatagtac actagtaagg tgcatgtgct aacaatatga caaatctagt atttctttat 60
agtttatcat ccataaatcg caaaatacct aagcataatt ttatttgaat aga 113
<210> 121
<211> 83
<212> DNA
<213> Zea mays
<400> 121
cctatagtac actagtaagg tgcatgtgct aacaatacat ccataaatcg caaaatacct 60
aagcataatt ttatttgaat aga 83
<210> 122
<211> 104
<212> DNA
<213> Zea mays
<400> 122
cctatagtac actagtaagg tgcatgtgct aacaatatga caaatctggt atttctttat 60
agtttaaatc gcaaaatacc taagcataat tttatttgaa taga 104
<210> 123
<211> 110
<212> DNA
<213> Zea mays
<400> 123
cctatagtac actagtaagg tgcatgtgct aacaatatga caaatctagt atttctttat 60
agtttatcca taaatcgcaa aatacctaag cataatttta tttgaataga 110
<210> 124
<211> 110
<212> DNA
<213> Zea mays
<400> 124
cctatagtac actagtaagg tgcatgtgct aacaatatga caaatctagt atttcatagt 60
ttatcatcca taaatcgcaa aatacctaag cataatttta tttgaataga 110
<210> 125
<211> 110
<212> DNA
<213> Zea mays
<400> 125
cctatagtac actagtaagg tgcatgtgct aacaatatga caaatctagt atttctttat 60
agtttatcca taaatcgcaa aatacctaag cataatttta tttgaataga 110
<210> 126
<211> 113
<212> DNA
<213> Homo sapiens
<400> 126
gggcaaagtg agtgacctgc ttttgggggt gaccgccgga gcgcggcgtg agccctcccc 60
cttgggatcc cgcagctgac cagtcgcgct gacggacaga cagacagaca ccg 113
<210> 127
<211> 111
<212> DNA
<213> Homo sapiens
<400> 127
gggcaaagtg agtgacctgc ttttgggggt gaccgccgga gcgcggcgtg ccctccccct 60
tgggatcccg cagctgacca gtcgcgctga cggacagaca gacagacacc g 111
<210> 128
<211> 107
<212> DNA
<213> Homo sapiens
<400> 128
gggcaaagtg agtgacctgc ttttgggggt gaccgccgga gcgcggccct cccccttggg 60
atcccgcagc tgaccagtcg cgctgacgga cagacagaca gacaccg 107
<210> 129
<211> 111
<212> DNA
<213> Homo sapiens
<400> 129
gggcaaagtg agtgacctgc ttttgggggt gaccgccgga gcgcggcgtg ccctccccct 60
tgggatcccg cagctgacca gtcgcgctga cggacagaca gacagacacc g 111
<210> 130
<211> 111
<212> DNA
<213> Homo sapiens
<400> 130
gggcaaagtg agtgacctgc ttttgggggt gaccgccgga gcgcggcgag ccctccccct 60
tgggatcccg cagctgacca gtcgcgctga cggacagaca gacagacacc g 111
<210> 131
<211> 112
<212> DNA
<213> Homo sapiens
<400> 131
gggcaaagtg agtgacctgc ttttgggggt gaccgccgga gcgcggcgta gccctccccc 60
ttgggatccc gcagctgacc agtcgcgctg acggacagac agacagacac cg 112
<210> 132
<211> 113
<212> DNA
<213> Homo sapiens
<400> 132
cccccacccc ctttccaaag cccattccct ctttagccag agccggggtg tgcagacggc 60
agtcactagg gggcgctcgg ccaccacagg gaagctgggt gaatggagcg agc 113
<210> 133
<211> 111
<212> DNA
<213> Homo sapiens
<400> 133
cccccacccc ctttccaaag cccattccct ctttagccag agccggggtg tgcagacggg 60
tcactagggg gcgctcggcc accacaggga agctgggtga atggagcgag c 111
<210> 134
<211> 101
<212> DNA
<213> Homo sapiens
<400> 134
cccccacccc ctttccaaag cccattccct ctttagccag agccgggcag tcactagggg 60
gcgctcggcc accacaggga agctgggtga atggagcgag c 101
<210> 135
<211> 110
<212> DNA
<213> Homo sapiens
<400> 135
cccccacccc ctttccaaag cccattccct ctttagccag agccggggtg tgcagacagt 60
cactaggggg cgctcggcca ccacagggaa gctgggtgaa tggagcgagc 110
<210> 136
<211> 600
<212> DNA
<213> Saccharomyces cerevisiae
<400> 136
gcgtattacc ttctgctgga ttcaaacact cttctccagt aaaaagattc ccttctcact 60
ctgcttagag aaggagtgcc aggccggcta agcccactct ccagacggaa accatacaat 120
gcctccgctg gctgcattgt cgcgccccgc ccaacgacgg tttaccgaca gctgctagct 180
gggctcaaca ggtggttagc ccaccaattc ccctgtcgct cttcgctctg aatgtgacgg 240
caaatttcga cccgttgttc ctgttccttt tttttttcaa ttggactgaa aaaaaaaaag 300
aaccgaatct ggaaagatac acccaaacat acatagaatg tacggatgca tgattgtctc 360
agcctcgttt ggctcatcgt tcttcatttc tttttcctaa ttttgataga gacaatagat 420
agacgtggaa ggaaaaaaaa aaggaaagcc caacaatatt gagaaacgaa gaggtgtatt 480
tggtttaaat agagcctctt cattcctttc ctgatctgac aacagggtgg aacataaaat 540
atagatctgt agtgagtgcg aatagcaata gtaagtgaac gaaaaaggaa tacgataata 600
<210> 137
<211> 466
<212> DNA
<213> Saccharomyces cerevisiae
<400> 137
tgaagtacgg attagaagcc gccgagcggg tgacagccct ccgaaggaag actctcctcc 60
gtgcgtcctc gtcttcaccg gtcgcgttcc tgaaacgcag atgtgcctcg cgccgcactg 120
ctccgaacaa taaagattct acaatactag cttttatggt tatgaagagg aaaaattggc 180
agtaacctgg ccccacaaac cttcaaatga acgaatcaaa ttaacaacca taggatgata 240
atgcgattag ttttttagcc ttatttctgg ggtaattaat cagcgaagcg atgatttttg 300
atctattaac agatatataa atgcaaaaac tgcataacca ctttaactaa tactttcaac 360
attttcggtt tgtattactt cttattcaaa tgtaataaaa gtatcaacaa aaaattgtta 420
atatacctct atactttaac gtcaaggaga aaaaaccccg gattct 466
<210> 138
<211> 43
<212> DNA
<213> Artificial
<220>
<223> HH Ribozyme (where N represents nucleotides that are
complementary to the 6 nucleotides 3' of ribozyme)
<220>
<221> misc_feature
<222> (1)..(6)
<223> n is a, c, g, or t
<400> 138
nnnnnnctga tgagtccgtg aggacgaaac gagtaagctc gtc 43
<210> 139
<211> 68
<212> DNA
<213> Hepatitis delta virus
<400> 139
ggccggcatg gtcccagcct cctcgctggc gccggctggg caacatgctt cggcatggcg 60
aatgggac 68
<210> 140
<211> 269
<212> DNA
<213> Saccharomyces cerevisiae
<400> 140
tctttgaaaa gataatgtat gattatgctt tcactcatat ttatacagaa acttgatgtt 60
ttctttcgag tatatacaag gtgattacat gtacgtttga agtacaactc tagattttgt 120
agtgccctct tgggctagcg gtaaaggtgc gcattttttc acaccctaca atgttctgtt 180
caaaagattt tggtcaaacg ctgtagaagt gaaagttggt gcgcatgttt cggcgttcga 240
aacttctccg cagtgaaaga taaatgatc 269
<210> 141
<211> 20
<212> DNA
<213> Saccharomyces cerevisiae
<400> 141
tttttttgtt ttttatgtct 20
<210> 142
<211> 25
<212> DNA
<213> Artificial
<220>
<223> 5' to 3' top strand of target sequence Cas-alpha4 cleavage
<400> 142
ccaacgtcgc cggcgtgcac aatct 25
<210> 143
<211> 25
<212> DNA
<213> Artificial
<220>
<223> 3' to 5' bottom strand of target sequence Cas-alpha4 cleavage
<400> 143
agattgtgca cgccggcgac gttgg 25
<210> 144
<211> 57
<212> DNA
<213> Zea mays
<400> 144
ccacgacggg cgttccttgc gcagctgtgc tcgacgttgt cactgaagcg ggaaggg 57
<210> 145
<211> 46
<212> DNA
<213> Zea mays
<400> 145
ccacgacggg cgttccttgc gcagctgtgc actgaagcgg gaaggg 46
<210> 146
<211> 47
<212> DNA
<213> Zea mays
<400> 146
ccacgacggg cgttccttgc gcagctgtgt cactgaagcg ggaaggg 47
<210> 147
<211> 45
<212> DNA
<213> Zea mays
<400> 147
ccacgacggg cgttccttgc gcagctgtgg ctgaagcggg aaggg 45
<210> 148
<211> 48
<212> DNA
<213> Zea mays
<400> 148
ccacgacggg cgttccttgc gcagctgtgc tcactgaagc gggaaggg 48
<210> 149
<211> 45
<212> DNA
<213> Zea mays
<400> 149
ccacgacggg cgttccttgc gcagctgtga ctgaagcggg aaggg 45
<210> 150
<211> 54
<212> DNA
<213> Zea mays
<400> 150
ccacgacggg cgttccttgc gcagctgtgc tcgatgtcac tgaagcggga aggg 54
<210> 151
<211> 45
<212> DNA
<213> Zea mays
<400> 151
ccacgacggg cgttccttgc gcagctgtca ctgaagcggg aaggg 45
<210> 152
<211> 43
<212> DNA
<213> Zea mays
<400> 152
ccacgacggg cgttccttgc gcagctcact gaagcgggaa ggg 43
<210> 153
<211> 41
<212> DNA
<213> Zea mays
<400> 153
ccacgacggg cgttccttgc gcagcactga agcgggaagg g 41
<210> 154
<211> 50
<212> DNA
<213> Zea mays
<400> 154
ccacgacggg cgttccttgc gcagctgtgc tgtcactgaa gcgggaaggg 50
<210> 155
<211> 48
<212> DNA
<213> Zea mays
<400> 155
ccacgacggg cgttccttgc gcagctgtgg tcactgaagc gggaaggg 48
<210> 156
<211> 44
<212> DNA
<213> Zea mays
<400> 156
ccacgacggg cgttccttgc gcagctgcac tgaagcggga aggg 44
<210> 157
<211> 49
<212> DNA
<213> Zea mays
<400> 157
ccacgacggg cgttccttgc gcagctgtgc tcgactgaag cgggaaggg 49
<210> 158
<211> 38
<212> DNA
<213> Zea mays
<400> 158
ccacgacggg cgttccttgc gcagctgtgc gggaaggg 38
<210> 159
<211> 49
<212> DNA
<213> Zea mays
<400> 159
ccacgacggg cgttccttgc gcagctgtgc ttcactgaag cgggaaggg 49
<210> 160
<211> 47
<212> DNA
<213> Zea mays
<400> 160
ccacgacggg cgttccttgc gcagctgtga cactgaagcg ggaaggg 47
<210> 161
<211> 47
<212> DNA
<213> Zea mays
<400> 161
ccacgacggg cgttccttgc gcagctgtgc cactgaagcg ggaaggg 47
<210> 162
<211> 45
<212> DNA
<213> Zea mays
<400> 162
ccacgacggg cgttccttgc gcagctgtgc ctgaagcggg aaggg 45
<210> 163
<211> 38
<212> DNA
<213> Zea mays
<400> 163
ccacgacggg cgttccttgc gcagctgagc gggaaggg 38
<210> 164
<211> 84
<212> DNA
<213> Zea mays
<400> 164
tccgcaacgc gtcgccgttc aagttcacgg cgttccaggc ggggccgagg atctgcctgg 60
gcaaggactc ggcgtacctg caga 84
<210> 165
<211> 75
<212> DNA
<213> Zea mays
<400> 165
tccgcaacgc gtcgccgttc aagttcacgg cgttcccgag gatctgcctg ggcaaggact 60
cggcgtacct gcaga 75
<210> 166
<211> 77
<212> DNA
<213> Zea mays
<400> 166
tccgcaacgc gtcgccgttc aagttcacgg cgttcggccg aggatctgcc tgggcaagga 60
ctcggcgtac ctgcaga 77
<210> 167
<211> 78
<212> DNA
<213> Zea mays
<400> 167
tccgcaacgc gtcgccgttc aagttcacgg cgttccagcc gaggatctgc ctgggcaagg 60
actcggcgta cctgcaga 78
<210> 168
<211> 76
<212> DNA
<213> Zea mays
<400> 168
tccgcaacgc gtcgccgttc aagttcacgg cgttcgccga ggatctgcct gggcaaggac 60
tcggcgtacc tgcaga 76
<210> 169
<211> 77
<212> DNA
<213> Zea mays
<400> 169
tccgcaacgc gtcgccgttc aagttcacgg cgttcagccg aggatctgcc tgggcaagga 60
ctcggcgtac ctgcaga 77
<210> 170
<211> 89
<212> DNA
<213> Saccharomyces cerevisiae
<400> 170
agggtaaatt tttaatttgg gatgttttac ttgaagattc tttagtgtag gaacatcaac 60
atgctcaatc tcaatcgtta gcacatcac 89
<210> 171
<211> 90
<212> DNA
<213> Artificial
<220>
<223> Repair template
<400> 171
agggtaaatt tttaatttgg gatgttttac ttcaagaatc tttagtgtag gatcatcaaa 60
catgctcaat ctcaatcgtt agcacatcac 90
<210> 172
<211> 90
<212> DNA
<213> Saccharomyces cerevisiae
<400> 172
agggtaaatt tttaatttgg gatgttttac ttgaagattc tttagtgtag gatcatcaaa 60
catgctcaat ctcaatcgtt agcacatcac 90
<210> 173
<211> 90
<212> DNA
<213> Saccharomyces cerevisiae
<400> 173
agggtaaatt tttaatttgg gatgttttac ttgaagattc tttagtgtag gaacatcaaa 60
catgctcaat ctcaatcgtt agcacatcac 90
<210> 174
<211> 90
<212> DNA
<213> Saccharomyces cerevisiae
<400> 174
agggtaaatt tttaatttgg gatgttttac ttgaagattc tttagtgtag gatcatcaaa 60
catgctcaat ctcaatcgtt agcacatcac 90
<210> 175
<211> 90
<212> DNA
<213> Saccharomyces cerevisiae
<400> 175
agggtaaatt tttaatttgg gatgttttac ttgaagattc tttagtgtag gatcatcaaa 60
catgctcaat ctcaatcgtt agcacatcac 90
<210> 176
<211> 90
<212> DNA
<213> Saccharomyces cerevisiae
<400> 176
agggtaaatt tttaatttgg gatgttttac ttgaagattc tttagtgtag gaacatcaaa 60
catgctcaat ctcaatcgtt agcacatcac 90
<210> 177
<211> 57
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 3 crRNA
<220>
<221> misc_feature
<222> (38)..(57)
<223> n is a, c, g, or u
<400> 177
guugcagaug uggagaaaua gagauaacga augcaacnnn nnnnnnnnnn nnnnnnn 57
<210> 178
<211> 57
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 5 crRNA
<220>
<221> misc_feature
<222> (38)..(57)
<223> n is a, c, g, or u
<400> 178
guugcacagu gcuaauuaga gaaacuagga augcaacnnn nnnnnnnnnn nnnnnnn 57
<210> 179
<211> 57
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 6 crRNA
<220>
<221> misc_feature
<222> (38)..(57)
<223> n is a, c, g, or u
<400> 179
guugcagaac ccgaauagac gaaugaagga augcaacnnn nnnnnnnnnn nnnnnnn 57
<210> 180
<211> 50
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 7 crRNA
<220>
<221> misc_feature
<222> (31)..(50)
<223> n is a, c, g, or u
<400> 180
guuucugaag aaacuaugua ugaugugaag nnnnnnnnnn nnnnnnnnnn 50
<210> 181
<211> 49
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 8 crRNA
<220>
<221> misc_feature
<222> (30)..(49)
<223> n is a, c, g, or u
<400> 181
guuugcgagc uagcuugugg agugugaacn nnnnnnnnnn nnnnnnnnn 49
<210> 182
<211> 52
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 9 crRNA
<220>
<221> misc_feature
<222> (33)..(52)
<223> n is a, c, g, or u
<400> 182
guugcaacuu acgcauaggu guaaaauacg agnnnnnnnn nnnnnnnnnn nn 52
<210> 183
<211> 52
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 10 crRNA
<220>
<221> misc_feature
<222> (33)..(52)
<223> n is a, c, g, or u
<400> 183
gucgcaucuu gcguaagcgc guggauugaa acnnnnnnnn nnnnnnnnnn nn 52
<210> 184
<211> 49
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 11 crRNA
<220>
<221> misc_feature
<222> (30)..(49)
<223> n is a, c, g, or u
<400> 184
guuuuaguuu aacuauguga aauguaaaun nnnnnnnnnn nnnnnnnnn 49
<210> 185
<211> 112
<212> RNA
<213> Unknown
<220>
<223> Candidatus Micrarchaeota archaeon
<400> 185
auuguauuau gcuccacuuu aauaaguggu gccuuccaaa gcuauaugcu gagggaggau 60
gggcgcuguu gcagcgucug cccaccucag aguggguauc cuuaccuauu uu 112
<210> 186
<211> 122
<212> RNA
<213> Unknown
<220>
<223> Candidatus Micrarchaeota archaeon
<400> 186
auuaugcucc acuuuaauaa guggugccuu ccaaagcuau augcugaggg aggaugggcg 60
cuguugcagc gucugcccac cucagagugg guauccuuac cuauuuugaa agguucugua 120
ag 122
<210> 187
<211> 107
<212> RNA
<213> Unknown
<220>
<223> Candidatus Micrarchaeota archaeon
<400> 187
auuaugcucc acuuuaauaa guggugccuu ccaaagcuau augcugaggg aggaugggcg 60
cuguugcagc gucugcccac cucagagugg guauccuuac cuauuuu 107
<210> 188
<211> 185
<212> RNA
<213> Unknown
<220>
<223> Uncultured archaeon
<400> 188
gaauguuauu ccauaauaac auuugaugca cacgauuccu cccuacagua guuagguaua 60
gccgaaaggu agagacuaaa ucuguaguug gagugggccg cuugcaucgg ccuaaaguug 120
agaaguguca gacucugaua acccucaacg acgauauucu uuauuucggu ucaaaguucu 180
gcaca 185
<210> 189
<211> 156
<212> RNA
<213> Unknown
<220>
<223> Uncultured archaeon
<400> 189
acacgauucc ucccuacagu aguuagguau agccgaaagg uagagacuaa aucuguaguu 60
ggagugggcc gcuugcaucg gccuaaaguu gagaaguguc agacucugau aacccucaac 120
gacgauauuc uuuauuucgg uucaaaguuc ugcaca 156
<210> 190
<211> 131
<212> RNA
<213> Unknown
<220>
<223> Uncultured archaeon
<400> 190
acacgauucc ucccuacagu aguuagguau agccgaaagg uagagacuaa aucuguaguu 60
ggagugggcc gcuugcaucg gccuaaaguu gagaaguguc agacucugau aacccucaac 120
gacgauauuc u 131
<210> 191
<211> 139
<212> RNA
<213> Unknown
<220>
<223> Uncultured archaeon
<400> 191
acacgauucc ucccuacagu aguuagguau agccgaaagg uagagacuaa aucuguaguu 60
ggagugggcc gcuugcaucg gccuaaaguu gagaaguguc agacucugau aacccucaac 120
gacgauauuc uuuauuucg 139
<210> 192
<211> 160
<212> RNA
<213> Parageobacillus thermoglucosidasius
<400> 192
aaaaucccuu ggggcgauuc agcguccuua agucgagaag ugccguaaua agcaucuaaa 60
aaugccuaac gguaacacuc gauaagguag uccugcuagg caggcugaaa cccuagccac 120
aaaauccggc uaggcaucau acagaaaauu guugucgaac 160
<210> 193
<211> 140
<212> RNA
<213> Parageobacillus thermoglucosidasius
<400> 193
aucccuuggg gcgauucagc guccuuaagu cgagaagugc cguaauaagc aucuaaaaau 60
gccuaacggu aacacucgau aagguagucc ugcuaggcag gcugaaaccc uagccacaaa 120
auccggcuag gcaucauaca 140
<210> 194
<211> 126
<212> RNA
<213> Acidibacillus sulfuroxidans
<400> 194
aaaucuuucc caaauacuuc uauucgucgg uucagcgacg auaagccgag aagugccaau 60
aaaacuguua agugguuugg uaacgcucgg uaagguagcc aaaaggcuga aacuccgugc 120
acaaag 126
<210> 195
<211> 113
<212> RNA
<213> Acidibacillus sulfuroxidans
<400> 195
auacuucuau ucgucgguuc agcgacgaua agccgagaag ugccaauaaa acuguuaagu 60
gguuugguaa cgcucgguaa gguagccaaa aggcugaaac uccgugcaca aag 113
<210> 196
<211> 86
<212> RNA
<213> Acidibacillus sulfuroxidans
<400> 196
auacuucuau ucgucgguuc agcgacgaua agccgagaag ugccaauaaa acuguuaagu 60
gguuugguaa cgcucgguaa gguagc 86
<210> 197
<211> 150
<212> RNA
<213> Ruminococcus sp.
<400> 197
aagguucaca caauuucagg gcgacucggc guccuaaaau cgagaaagug uacauaaguu 60
uuuaacaaaa uacgguaaau acucucggua agguuuuaac gugcacauaa uaauccgugc 120
aacaggguua cacuuuugug caauuuugca 150
<210> 198
<211> 129
<212> RNA
<213> Ruminococcus sp.
<400> 198
uuucagggcg acucggcguc cuaaaaucga gaaaguguac auaaguuuuu aacaaaauac 60
gguaaauacu cucgguaagg uuuuaacgug cacauaauaa uccgugcaac aggguuacac 120
uuuugugca 129
<210> 199
<211> 129
<212> RNA
<213> Syntrophomonas palmitatica
<400> 199
uucgcgcgcc agggcaguua ggugcccuaa aagagcgaag uggccgaaag gaaaggcuaa 60
cgcuucucua acgcuacggc gaccuuggcg aaaugccauc aauaccacgc ggcccgaaag 120
gguucgcgc 129
<210> 200
<211> 140
<212> RNA
<213> Syntrophomonas palmitatica
<400> 200
auuuacucug uuucgcgcgc cagggcaguu aggugcccua aaagagcgaa guggccgaaa 60
ggaaaggcua acgcuucucu aacgcuacgg cgaccuuggc gaaaugccau caauaccacg 120
cggcccgaaa ggguucgcgc 140
<210> 201
<211> 153
<212> RNA
<213> Syntrophomonas palmitatica
<400> 201
auuuacucug uuucgcgcgc cagggcaguu aggugcccua aaagagcgaa guggccgaaa 60
ggaaaggcua acgcuucucu aacgcuacgg cgaccuuggc gaaaugccau caauaccacg 120
cggcccgaaa ggguucgcgc gaaacugagu aau 153
<210> 202
<211> 158
<212> RNA
<213> Syntrophomonas palmitatica
<400> 202
gcuuuaaagc cugacauaau uuacucuguu ucgcgcgcca gggcaguuag gugcccuaaa 60
agagcgaagu ggccgaaagg aaaggcuaac gcuucucuaa cgcuacggcg accuuggcga 120
aaugccauca auaccacgcg gcccgaaagg guucgcgc 158
<210> 203
<211> 171
<212> RNA
<213> Syntrophomonas palmitatica
<400> 203
gcuuuaaagc cugacauaau uuacucuguu ucgcgcgcca gggcaguuag gugcccuaaa 60
agagcgaagu ggccgaaagg aaaggcuaac gcuucucuaa cgcuacggcg accuuggcga 120
aaugccauca auaccacgcg gcccgaaagg guucgcgcga aacugaguaa u 171
<210> 204
<211> 132
<212> RNA
<213> Clostridium novyi
<400> 204
uaaaacauag uuaaacuaau aaaaacaggg cgauuuaacg uccuaaggcu gagagaaguu 60
uuuucuacuc ggcaaggguu aaucucgauu guuguguuac cgaucgagcg uuucacaaaa 120
ugcgagagaa au 132
<210> 205
<211> 116
<212> RNA
<213> Clostridium novyi
<400> 205
uaaaacauag uuaaacuaau aaaaacaggg cgauuuaacg uccuaaggcu gagagaaguu 60
uuuucuacuc ggcaaggguu aaucucgauu guuguguuac cgaucgagcg uuucac 116
<210> 206
<211> 108
<212> RNA
<213> Clostridium novyi
<400> 206
aguuaaacua auaaaaacag ggcgauuuaa cguccuaagg cugagagaag uuuuuucuac 60
ucggcaaggg uuaaucucga uuguuguguu accgaucgag cguuucac 108
<210> 207
<211> 90
<212> RNA
<213> Clostridium novyi
<400> 207
agggcgauuu aacguccuaa ggcugagaga aguuuuuucu acucggcaag gguuaaucuc 60
gauuguugug uuaccgaucg agcguuucac 90
<210> 208
<211> 160
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 2 sgRNA version 5
<220>
<221> misc_feature
<222> (141)..(160)
<223> n is a, c, g, or u
<400> 208
auuguauuau gcuccacuuu aauaaguggu gccuuccaaa gcuauaugcu gagggaggau 60
gggcgcuguu gcagcgucug cccaccucag aguggguauc cuuaccuauu uugaaaaagu 120
aauaggucaa ggaaugcaac nnnnnnnnnn nnnnnnnnnn 160
<210> 209
<211> 183
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 2 sgRNA version 6
<220>
<221> misc_feature
<222> (164)..(183)
<223> n is a, c, g, or u
<400> 209
auuaugcucc acuuuaauaa guggugccuu ccaaagcuau augcugaggg aggaugggcg 60
cuguugcagc gucugcccac cucagagugg guauccuuac cuauuuugaa agguucugua 120
aggaaaauug cagaacccaa aguaauaggu caaggaaugc aacnnnnnnn nnnnnnnnnn 180
nnn 183
<210> 210
<211> 155
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 2 sgRNA version 7
<220>
<221> misc_feature
<222> (136)..(155)
<223> n is a, c, g, or u
<400> 210
auuaugcucc acuuuaauaa guggugccuu ccaaagcuau augcugaggg aggaugggcg 60
cuguugcagc gucugcccac cucagagugg guauccuuac cuauuuugaa aaaguaauag 120
gucaaggaau gcaacnnnnn nnnnnnnnnn nnnnn 155
<210> 211
<211> 246
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 6 sgRNA version 1
<220>
<221> misc_feature
<222> (227)..(246)
<223> n is a, c, g, or u
<400> 211
gaauguuauu ccauaauaac auuugaugca cacgauuccu cccuacagua guuagguaua 60
gccgaaaggu agagacuaaa ucuguaguug gagugggccg cuugcaucgg ccuaaaguug 120
agaaguguca gacucugaua acccucaacg acgauauucu uuauuucggu ucaaaguucu 180
gcacagaaag uugcagaacc cgaauagacg aaugaaggaa ugcaacnnnn nnnnnnnnnn 240
nnnnnn 246
<210> 212
<211> 217
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 6 sgRNA version 2
<220>
<221> misc_feature
<222> (198)..(217)
<223> n is a, c, g, or u
<400> 212
acacgauucc ucccuacagu aguuagguau agccgaaagg uagagacuaa aucuguaguu 60
ggagugggcc gcuugcaucg gccuaaaguu gagaaguguc agacucugau aacccucaac 120
gacgauauuc uuuauuucgg uucaaaguuc ugcacagaaa guugcagaac ccgaauagac 180
gaaugaagga augcaacnnn nnnnnnnnnn nnnnnnn 217
<210> 213
<211> 181
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 6 sgRNA version 3
<220>
<221> misc_feature
<222> (162)..(181)
<223> n is a, c, g, or u
<400> 213
acacgauucc ucccuacagu aguuagguau agccgaaagg uagagacuaa aucuguaguu 60
ggagugggcc gcuugcaucg gccuaaaguu gagaaguguc agacucugau aacccucaac 120
gacgauauuc ugaaacgaau agacgaauga aggaaugcaa cnnnnnnnnn nnnnnnnnnn 180
n 181
<210> 214
<211> 181
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 6 sgRNA version 4
<220>
<221> misc_feature
<222> (162)..(181)
<223> n is a, c, g, or u
<400> 214
acacgauucc ucccuacagu aguuagguau agccgaaagg uagagacuaa aucuguaguu 60
ggagugggcc gcuugcaucg gccuaaaguu gagaaguguc agacucugau aacccucaac 120
gacgauauuc uuuauuucgg aaacgaauga aggaaugcaa cnnnnnnnnn nnnnnnnnnn 180
n 181
<210> 215
<211> 214
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 7 sgRNA version 1
<220>
<221> misc_feature
<222> (195)..(214)
<223> n is a, c, g, or u
<400> 215
aaaaucccuu ggggcgauuc agcguccuua agucgagaag ugccguaaua agcaucuaaa 60
aaugccuaac gguaacacuc gauaagguag uccugcuagg caggcugaaa cccuagccac 120
aaaauccggc uaggcaucau acagaaaauu guugucgaac gaaaguuucu gaagaaacua 180
uguaugaugu gaagnnnnnn nnnnnnnnnn nnnn 214
<210> 216
<211> 194
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 7 sgRNA version 2
<220>
<221> misc_feature
<222> (175)..(194)
<223> n is a, c, g, or u
<400> 216
aucccuuggg gcgauucagc guccuuaagu cgagaagugc cguaauaagc aucuaaaaau 60
gccuaacggu aacacucgau aagguagucc ugcuaggcag gcugaaaccc uagccacaaa 120
auccggcuag gcaucauaca gaaaguuucu gaagaaacua uguaugaugu gaagnnnnnn 180
nnnnnnnnnn nnnn 194
<210> 217
<211> 178
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 7 sgRNA version 3
<220>
<221> misc_feature
<222> (159)..(178)
<223> n is a, c, g, or u
<400> 217
aucccuuggg gcgauucagc guccuuaagu cgagaagugc cguaauaagc aucuaaaaau 60
gccuaacggu aacacucgau aagguagucc ugcuaggcag gcugaaaccc uagccacaaa 120
auccggcuag gcaucauaca gaaauguaug augugaagnn nnnnnnnnnn nnnnnnnn 178
<210> 218
<211> 179
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 8 sgRNA version 1
<220>
<221> misc_feature
<222> (160)..(179)
<223> n is a, c, g, or u
<400> 218
aaaucuuucc caaauacuuc uauucgucgg uucagcgacg auaagccgag aagugccaau 60
aaaacuguua agugguuugg uaacgcucgg uaagguagcc aaaaggcuga aacuccgugc 120
acaaaggaaa guuugcgagc uagcuugugg agugugaacn nnnnnnnnnn nnnnnnnnn 179
<210> 219
<211> 166
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 8 sgRNA version 2
<220>
<221> misc_feature
<222> (147)..(166)
<223> n is a, c, g, or u
<400> 219
auacuucuau ucgucgguuc agcgacgaua agccgagaag ugccaauaaa acuguuaagu 60
gguuugguaa cgcucgguaa gguagccaaa aggcugaaac uccgugcaca aaggaaaguu 120
ugcgagcuag cuuguggagu gugaacnnnn nnnnnnnnnn nnnnnn 166
<210> 220
<211> 139
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 8 sgRNA version 3
<220>
<221> misc_feature
<222> (120)..(139)
<223> n is a, c, g, or u
<400> 220
auacuucuau ucgucgguuc agcgacgaua agccgagaag ugccaauaaa acuguuaagu 60
gguuugguaa cgcucgguaa gguagcgaaa guuugcgagc uagcuugugg agugugaacn 120
nnnnnnnnnn nnnnnnnnn 139
<210> 221
<211> 131
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 8 sgRNA version 4
<220>
<221> misc_feature
<222> (112)..(131)
<223> n is a, c, g, or u
<400> 221
auacuucuau ucgucgguuc agcgacgaua agccgagaag ugccaauaaa acuguuaagu 60
gguuugguaa cgcucgguaa gguagcgaaa gcuagcuugu ggagugugaa cnnnnnnnnn 120
nnnnnnnnnn n 131
<210> 222
<211> 206
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 9 sgRNA version 1
<220>
<221> misc_feature
<222> (187)..(206)
<223> n is a, c, g, or u
<400> 222
aagguucaca caauuucagg gcgacucggc guccuaaaau cgagaaagug uacauaaguu 60
uuuaacaaaa uacgguaaau acucucggua agguuuuaac gugcacauaa uaauccgugc 120
aacaggguua cacuuuugug caauuuugca gaaaguugca acuuacgcau agguguaaaa 180
uacgagnnnn nnnnnnnnnn nnnnnn 206
<210> 223
<211> 185
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 9 sgRNA version 2
<220>
<221> misc_feature
<222> (166)..(185)
<223> n is a, c, g, or u
<400> 223
uuucagggcg acucggcguc cuaaaaucga gaaaguguac auaaguuuuu aacaaaauac 60
gguaaauacu cucgguaagg uuuuaacgug cacauaauaa uccgugcaac aggguuacac 120
uuuugugcag aaaguugcaa cuuacgcaua gguguaaaau acgagnnnnn nnnnnnnnnn 180
nnnnn 185
<210> 224
<211> 176
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 9 sgRNA version 3
<220>
<221> misc_feature
<222> (157)..(176)
<223> n is a, c, g, or u
<400> 224
uuucagggcg acucggcguc cuaaaaucga gaaaguguac auaaguuuuu aacaaaauac 60
gguaaauacu cucgguaagg uuuuaacgug cacauaauaa uccgugcaac aggguuacac 120
uuuugugcag aaauacgcau agguguaaaa uacgagnnnn nnnnnnnnnn nnnnnn 176
<210> 225
<211> 185
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 10 sgRNA version 1
<220>
<221> misc_feature
<222> (166)..(185)
<223> n is a, c, g, or u
<400> 225
uucgcgcgcc agggcaguua ggugcccuaa aagagcgaag uggccgaaag gaaaggcuaa 60
cgcuucucua acgcuacggc gaccuuggcg aaaugccauc aauaccacgc ggcccgaaag 120
gguucgcgcg aaagucgcau cuugcguaag cgcguggauu gaaacnnnnn nnnnnnnnnn 180
nnnnn 185
<210> 226
<211> 196
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 10 sgRNA version 2
<220>
<221> misc_feature
<222> (177)..(196)
<223> n is a, c, g, or u
<400> 226
auuuacucug uuucgcgcgc cagggcaguu aggugcccua aaagagcgaa guggccgaaa 60
ggaaaggcua acgcuucucu aacgcuacgg cgaccuuggc gaaaugccau caauaccacg 120
cggcccgaaa ggguucgcgc gaaagucgca ucuugcguaa gcgcguggau ugaaacnnnn 180
nnnnnnnnnn nnnnnn 196
<210> 227
<211> 209
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 10 sgRNA version 3
<220>
<221> misc_feature
<222> (190)..(209)
<223> n is a, c, g, or u
<400> 227
auuuacucug uuucgcgcgc cagggcaguu aggugcccua aaagagcgaa guggccgaaa 60
ggaaaggcua acgcuucucu aacgcuacgg cgaccuuggc gaaaugccau caauaccacg 120
cggcccgaaa ggguucgcgc gaaacugagu aaugaaaguc gcaucuugcg uaagcgcgug 180
gauugaaacn nnnnnnnnnn nnnnnnnnn 209
<210> 228
<211> 214
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 10 sgRNA version 4
<220>
<221> misc_feature
<222> (195)..(214)
<223> n is a, c, g, or u
<400> 228
gcuuuaaagc cugacauaau uuacucuguu ucgcgcgcca gggcaguuag gugcccuaaa 60
agagcgaagu ggccgaaagg aaaggcuaac gcuucucuaa cgcuacggcg accuuggcga 120
aaugccauca auaccacgcg gcccgaaagg guucgcgcga aagucgcauc uugcguaagc 180
gcguggauug aaacnnnnnn nnnnnnnnnn nnnn 214
<210> 229
<211> 227
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 10 sgRNA version 5
<220>
<221> misc_feature
<222> (208)..(227)
<223> n is a, c, g, or u
<400> 229
gcuuuaaagc cugacauaau uuacucuguu ucgcgcgcca gggcaguuag gugcccuaaa 60
agagcgaagu ggccgaaagg aaaggcuaac gcuucucuaa cgcuacggcg accuuggcga 120
aaugccauca auaccacgcg gcccgaaagg guucgcgcga aacugaguaa ugaaagucgc 180
aucuugcgua agcgcgugga uugaaacnnn nnnnnnnnnn nnnnnnn 227
<210> 230
<211> 185
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 11 sgRNA version 1
<220>
<221> misc_feature
<222> (166)..(185)
<223> n is a, c, g, or u
<400> 230
uaaaacauag uuaaacuaau aaaaacaggg cgauuuaacg uccuaaggcu gagagaaguu 60
uuuucuacuc ggcaaggguu aaucucgauu guuguguuac cgaucgagcg uuucacaaaa 120
ugcgagagaa augaaaguuu uaguuuaacu augugaaaug uaaaunnnnn nnnnnnnnnn 180
nnnnn 185
<210> 231
<211> 169
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 11 sgRNA version 2
<220>
<221> misc_feature
<222> (150)..(169)
<223> n is a, c, g, or u
<400> 231
uaaaacauag uuaaacuaau aaaaacaggg cgauuuaacg uccuaaggcu gagagaaguu 60
uuuucuacuc ggcaaggguu aaucucgauu guuguguuac cgaucgagcg uuucacgaaa 120
guuuuaguuu aacuauguga aauguaaaun nnnnnnnnnn nnnnnnnnn 169
<210> 232
<211> 161
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 11 sgRNA version 3
<220>
<221> misc_feature
<222> (142)..(161)
<223> n is a, c, g, or u
<400> 232
aguuaaacua auaaaaacag ggcgauuuaa cguccuaagg cugagagaag uuuuuucuac 60
ucggcaaggg uuaaucucga uuguuguguu accgaucgag cguuucacga aaguuuuagu 120
uuaacuaugu gaaauguaaa unnnnnnnnn nnnnnnnnnn n 161
<210> 233
<211> 145
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 11 sgRNA version 4
<220>
<221> misc_feature
<222> (126)..(145)
<223> n is a, c, g, or u
<400> 233
aguuaaacua auaaaaacag ggcgauuuaa cguccuaagg cugagagaag uuuuuucuac 60
ucggcaaggg uuaaucucga uuguuguguu accgaucgag cguuucacga aagugaaaug 120
uaaaunnnnn nnnnnnnnnn nnnnn 145
<210> 234
<211> 127
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 11 sgRNA version 5
<220>
<221> misc_feature
<222> (108)..(127)
<223> n is a, c, g, or u
<400> 234
agggcgauuu aacguccuaa ggcugagaga aguuuuuucu acucggcaag gguuaaucuc 60
gauuguugug uuaccgaucg agcguuucac gaaagugaaa uguaaaunnn nnnnnnnnnn 120
nnnnnnn 127
<210> 235
<211> 1590
<212> DNA
<213> Artificial
<220>
<223> Cas-alpha 4 Zea mays codon optimized gene
<400> 235
atggccaaga acaccatcac caagaccctc aagctccgca tcgtccgccc ctacaacagc 60
gccgaggtcg agaagatcgt cgccgacgag aagaacaacc gcgagaagat cgccctggag 120
aagaacaagg acaaggtcaa ggaggcctgc agcaagcacc tcaaggtcgc cgcctactgc 180
accacccagg tcgagcgcaa cgcctgcctc ttctgcaagg cccgcaagct cgacgacaag 240
ttctaccaga agctccgcgg ccagttcccc gacgccgtgt tctggcagga gatcagcgag 300
atcttcaggc agctccagaa gcaggccgcc gagatctaca accagagcct catcgagctc 360
tactacgaga tcttcatcaa gggcaagggc atcgccaacg ccagcagcgt cgagcactac 420
ctcagcgacg tctgctacac cagggccgcc gagctcttca agaacgccgc catcgccagc 480
ggcctccgca gcaaaatcaa aagcaacttc cgcctcaagg agctcaagaa catgaaaagc 540
ggcctcccca cgaccaagag cgacaacttc cccatccccc tcgtcaagca gaagggcggc 600
cagtacaccg gcttcgagat cagcaaccac aacagcgact tcatcatcaa gatccccttc 660
ggccgctggc aggtcaagaa ggagatcgac aagtaccgcc cctgggagaa gttcgacttc 720
gagcaggtcc agaagagccc caagcctatc agcctcctcc tgtcgaccca gaggaggaag 780
cgcaataaag gctggagcaa ggacgagggc accgaggccg aaatcaaaaa ggtgatgaac 840
ggcgactacc agaccagcta catcgaggtc aagcgcggca gcaagatcgg cgagaagagc 900
gcctggatgc taaacctcag catcgacgtc cccaagatcg acaagggcgt cgaccccagc 960
atcatcggcg gcatcgacgt cggcgtcaag agccccctcg tctgcgcaat taacaacgcc 1020
ttcagccgct acagcatcag cgacaacgac ctcttccact tcaacaagaa gatgttcgcc 1080
cgccgccgca tcctcctcaa gaagaaccgc cataaacgcg ccggccacgg cgccaagaac 1140
aagctcaagc ccatcaccat cctcaccgag aagagcgaga ggttccgcaa gaagctcatc 1200
gagaggtggg cctgcgagat cgccgacttc ttcattaaaa acaaggtcgg caccgtccag 1260
atggagaacc tcgaaagcat gaaacgcaag gaggacagct acttcaacat caggctccgc 1320
ggcttctggc cctacgccga gatgcagaac aagatcgagt tcaagctcaa gcagtacggc 1380
atcgagatca ggaaggtcgc ccccaataat accagcaaga cctgcagcaa gtgcggccac 1440
ctcaacaact acttcaactt cgagtaccgc aagaagaaca agttccccca cttcaagtgc 1500
gagaagtgca acttcaagga gaacgccgac tacaacgccg ccctcaacat cagcaacccc 1560
aagctcaaga gcaccaagga ggagccctag 1590
<210> 236
<211> 1494
<212> DNA
<213> Artificial
<220>
<223> Cas-alpha 10 Zea mays codon optimized gene
<400> 236
atgggcgaga gcgtcaaggc aataaaatta aagatcctcg acatgttcct cgaccccgag 60
tgcaccaagc aggacgacaa ctggcgcaag gacctcagca ccatgagccg cttctgcgcc 120
gaggccggca acatgtgcct cagggacctc tacaactact tcagcatgcc caaggaggac 180
cgcatcagct ccaaggactt atataacgcc atgtaccata aaactaagct cctccacccc 240
gagctccccg ggaaggtggc taaccaaatc gtcaaccacg ccaaggacgt ctggaagcgc 300
aacgccaagc tcatctaccg caaccaaatc agcatgccca catataagat caccaccgcc 360
cccatccgcc tccaaaataa catctacaaa ttaataaaaa ataagaacaa atacataatc 420
gacgtccagc tctacagcaa ggagtacagc aaggacagcg gcaagggcac ccacaggtac 480
ttcctcgtcg ccgtcaggga cagcagcacc aggatgatct tcgacaggat catgagcaag 540
gaccacatcg acagcagcaa gagctacacc cagggccagc tccaaatcaa gaaggaccac 600
cagggcaagt ggtactgcat catcccctat acattcccca cccacgaaac cgtcctcgac 660
cccgacaagg tcatgggcgt cgacctcggg gtggctaagg ccgtctactg ggctttcaac 720
agcagctata aaagaggctg catcgacggc ggcgagatcg agcacttcag gaagatgatc 780
agggcccggc gcgtcagcat ccagaatcaa atcaaacaca gcggcgacgc ccgcaagggc 840
cacggcagga agagggccct caagcccatc gaaaccctca gcgagaagga gaagaacttc 900
cgcgacacaa taaaccacag gtacgccaac aggatcgtcg aggccgctat caagcagggc 960
tgcggcacca tccagatcga gaacctcgag ggcatcgctg acaccaccgg cagcaagttc 1020
ctcaagaact ggccctacta cgacctccag accaagatcg tcaataaagc caaggagcac 1080
ggcatcaccg tcgtcgcaat aaacccccag tatacatccc agcgctgcag catgtgcggc 1140
tacatcgaga aaaccaacag gagcagccag gccgtgttcg agtgcaagca gtgcggctac 1200
ggcagccgca ccatctgcat caactgcagg cacgtccaag tctccggcga cgtctgcgag 1260
gagtgcggcg gcatcgtcaa gaaggagaac gtcaacgccg actacaacgc cgccaagaac 1320
atcagcaccc cctacatcga ccagataata atggagaagt gcctcgagct cggcatcccc 1380
taccgctcca tcacctgcaa ggagtgcggc cacatccagg ctagcggcaa cacctgcgag 1440
gtctgcggca gcaccaacat cctcaaacca aagaagatcc gcaaggcaaa atag 1494
<210> 237
<211> 1494
<212> DNA
<213> Artificial
<220>
<223> Cas-alpha 10 Saccharomyces cerevisiae codon optimized gene
<400> 237
atgggagaat ccgtgaaggc catcaaactg aagatcctgg acatgttcct ggacccagag 60
tgtaccaaac aggacgacaa ctggagaaag gacctgagta ccatgtccag gttctgcgct 120
gaagccggca acatgtgttt gagggaccta tacaactact tctccatgcc aaaggaggac 180
cgtatctctt ccaaagacct atacaacgcc atgtaccaca aaaccaagct gctgcaccca 240
gaactgcccg gcaaagttgc aaaccaaatc gtcaaccacg ccaaggacgt ctggaaaagg 300
aacgccaagc tgatatacag gaaccagatc tccatgccaa catacaagat caccaccgcc 360
cccatcaggc tgcagaacaa catctacaag ctgatcaaga acaagaacaa gtacataatc 420
gacgtccagc tgtacagtaa ggagtactca aaggacagtg gcaaaggcac ccataggtac 480
ttcctggtcg cagtcagaga ctcatccacc aggatgatct tcgacaggat aatgtccaag 540
gatcacatcg acagttccaa gtcctacacc cagggacagc tgcagatcaa gaaggaccac 600
cagggcaagt ggtactgcat catcccctac accttcccaa ctcatgagac agtgttagac 660
cccgacaagg tgatgggagt ggacctgggc gtcgctaaag ccgtctactg ggccttcaac 720
agttcctaca agaggggctg catcgacgga ggcgaaatcg agcatttccg caagatgatc 780
agggccagga gggtcagtat ccagaaccag atcaaacaca gtggagacgc ccgtaagggc 840
cacggaagga agcgtgcttt gaagccaatc gagaccctgt ctgagaagga aaaaaacttc 900
agggacacca tcaaccacag gtacgccaac aggatcgtcg aagccgccat caagcagggc 960
tgcggaacca tccagatcga gaacctggaa ggaatcgctg ataccaccgg ctccaagttc 1020
ctgaagaact ggccatacta cgacctgcag accaagatcg tcaacaaggc caaggagcac 1080
ggaatcaccg tggttgccat caacccacaa tatacctccc agaggtgctc catgtgcggc 1140
tacatcgaga agacaaacag atcctcccag gctgtcttcg aatgcaagca gtgcggctac 1200
ggttccagga ccatctgcat caactgcaga cacgtccaag tttccggtga cgtctgcgaa 1260
gagtgcggcg gtatcgtcaa aaaggagaac gtgaacgcag actacaacgc cgccaagaat 1320
atcagtaccc cctacatcga ccagataatc atggagaaat gcctggagct aggcatcccc 1380
tacaggtcca tcacatgcaa ggagtgtggc cacatccaag ccagtggcaa tacctgcgaa 1440
gtctgcggca gtaccaatat cctgaaaccc aagaagatca ggaaggccaa gtaa 1494
<210> 238
<211> 202
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 4 sgRNA backbone
<400> 238
cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60
gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120
cccucgaaac aaauucauuu uuccucucca auucugcaca agaaaguugc agaacccgaa 180
uagacgaaug aaggaaugca ac 202
<210> 239
<211> 165
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 10 sgRNA backbone
<400> 239
uucgcgcgcc agggcaguua ggugcccuaa aagagcgaag uggccgaaag gaaaggcuaa 60
cgcuucucua acgcuacggc gaccuuggcg aaaugccauc aauaccacgc ggcccgaaag 120
gguucgcgcg aaagucgcau cuugcguaag cgcguggauu gaaac 165
<210> 240
<211> 20
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 4 Liguleless 2 sgRNA Target Sequence
<400> 240
cgauuuaugg augauaaacu 20
<210> 241
<211> 20
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 4 Liguleless 3 sgRNA Target Sequence
<400> 241
uaguuuauca uccauaaauc 20
<210> 242
<211> 20
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 10 nptII sgRNA Target Sequence
<400> 242
cuugcgcagc ugugcucgac 20
<210> 243
<211> 20
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 10 ms26 sgRNA Target Sequence
<400> 243
aaguucacgg cguuccaggc 20
<210> 244
<211> 20
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 10 ade2 sgRNA Target Sequence
<400> 244
uuuaguguag gaacaucaac 20
<210> 245
<211> 20
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 4 VEGFA 2 sgRNA Target Sequence
<400> 245
ggggugaccg ccggagcgcg 20
<210> 246
<211> 20
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 4 VEGFA 3 sgRNA Target Sequence
<400> 246
gccagagccg gggugugcag 20
<210> 247
<211> 222
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 4 sgRNA Targeting Liguleless 2
<400> 247
cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60
gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120
cccucgaaac aaauucauuu uuccucucca auucugcaca agaaaguugc agaacccgaa 180
uagacgaaug aaggaaugca accgauuuau ggaugauaaa cu 222
<210> 248
<211> 222
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 4 sgRNA Targeting Liguleless 3
<400> 248
cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60
gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120
cccucgaaac aaauucauuu uuccucucca auucugcaca agaaaguugc agaacccgaa 180
uagacgaaug aaggaaugca acuaguuuau cauccauaaa uc 222
<210> 249
<211> 185
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 10 sgRNA Targeting nptII
<400> 249
uucgcgcgcc agggcaguua ggugcccuaa aagagcgaag uggccgaaag gaaaggcuaa 60
cgcuucucua acgcuacggc gaccuuggcg aaaugccauc aauaccacgc ggcccgaaag 120
gguucgcgcg aaagucgcau cuugcguaag cgcguggauu gaaaccuugc gcagcugugc 180
ucgac 185
<210> 250
<211> 185
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 10 sgRNA Targeting ms26
<400> 250
uucgcgcgcc agggcaguua ggugcccuaa aagagcgaag uggccgaaag gaaaggcuaa 60
cgcuucucua acgcuacggc gaccuuggcg aaaugccauc aauaccacgc ggcccgaaag 120
gguucgcgcg aaagucgcau cuugcguaag cgcguggauu gaaacaaguu cacggcguuc 180
caggc 185
<210> 251
<211> 185
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 10 sgRNA Targeting ade2
<400> 251
uucgcgcgcc agggcaguua ggugcccuaa aagagcgaag uggccgaaag gaaaggcuaa 60
cgcuucucua acgcuacggc gaccuuggcg aaaugccauc aauaccacgc ggcccgaaag 120
gguucgcgcg aaagucgcau cuugcguaag cgcguggauu gaaacuuuag uguaggaaca 180
ucaac 185
<210> 252
<211> 222
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 4 sgRNA Targeting VEGFA 2
<400> 252
cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60
gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120
cccucgaaac aaauucauuu uuccucucca auucugcaca agaaaguugc agaacccgaa 180
uagacgaaug aaggaaugca acggggugac cgccggagcg cg 222
<210> 253
<211> 222
<212> RNA
<213> Artificial
<220>
<223> Cas-alpha 4 sgRNA Targeting VEGFA 3
<400> 253
cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60
gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120
cccucgaaac aaauucauuu uuccucucca auucugcaca agaaaguugc agaacccgaa 180
uagacgaaug aaggaaugca acgccagagc cggggugugc ag 222
<210> 254
<211> 461
<212> PRT
<213> Clostridioides difficile
<400> 254
Met Ile Ser Thr Arg Lys Ile Lys Val Arg Cys Asp Asp Ser Thr Phe
1 5 10 15
Tyr Thr Phe Phe Arg Gln Glu Gln Arg Glu Gln Asn Lys Ala Leu Asn
20 25 30
Ile Gly Ile Gly Ile Ile His Ala Asn Ala Val Leu His Asn Val Asp
35 40 45
Ser Gly Ala Glu Lys Lys Leu Lys Lys Ser Ile Glu Gly Leu Gln Gly
50 55 60
Lys Ile Asp Lys Leu Asn Lys Asp Leu Glu Lys Glu Lys Ile Thr Asp
65 70 75 80
Lys Lys Lys Glu Glu Val Leu Lys Ala Ile Glu Thr Asn Lys Lys Ile
85 90 95
Leu Asp Gly Glu Lys Lys Val Phe Lys Glu Ser Glu Glu Tyr Arg Lys
100 105 110
Gly Ile Asp Glu Leu Phe Lys Asn Thr Tyr Leu Lys Ser Asn Thr Leu
115 120 125
Asp His Val Leu Asp Ser Met Val Asn Ile Gln Tyr Lys Arg Thr Leu
130 135 140
Ser Leu Val Thr Gln Arg Ile Lys Lys Asp Tyr Ser Asn Asp Phe Val
145 150 155 160
Gly Ile Ile Thr Gly Gln Gln Ser Leu Arg Asn Tyr Arg Asn Asp Asn
165 170 175
Pro Leu Met Ile Ser Asn Gln Gln Leu Asn Phe Lys Tyr Ile Asp Asp
180 185 190
Thr Phe Tyr Leu Asp Ile Met Cys Gly Tyr Arg Leu Glu Val Val Leu
195 200 205
Gly Lys Arg Asp Asn Glu Asn Val Asn Glu Leu Lys Ser Thr Leu Glu
210 215 220
Lys Val Ile Ser Lys Glu Tyr Lys Val Cys Asp Ser Ser Met Gln Phe
225 230 235 240
Ser Lys Asn Asn Lys Asp Val Ile Leu Asn Leu Val Ile Asp Ile Pro
245 250 255
Gln Asn Ser Asn Val Tyr Lys Pro Val Glu Gly Arg Ile Leu Gly Val
260 265 270
Asp Leu Gly Val Ala Val Pro Ile Tyr Met Cys Leu Asn Asp Asp Thr
275 280 285
Tyr Lys Arg Lys Gly Leu Gly Asp Ile Asn Asn Phe Leu Arg Val Arg
290 295 300
Gln Gln Met Gln Thr Arg Arg Arg Lys Leu Gln Lys Asp Leu Thr Leu
305 310 315 320
Thr Asn Gly Gly Lys Gly Arg Lys Lys Lys Thr Gln Leu Leu Asp Lys
325 330 335
Leu Gln Glu Asn Glu Arg Asn Phe Val Lys Thr Tyr Ser His Ala Leu
340 345 350
Ser Lys Arg Val Val Glu Phe Ala Lys Ser Asn Lys Cys Glu Tyr Ile
355 360 365
Asn Ile Glu Lys Leu Thr Lys Asp Gly Phe Asp Asn Ile Ile Leu Arg
370 375 380
Asn Trp Ser Tyr Phe Glu Leu Gln Lys Met Ile Glu Tyr Lys Ala Glu
385 390 395 400
Arg Glu Gly Ile Thr Val Arg Tyr Ala Asn Pro Ala Tyr Thr Ser Gln
405 410 415
Lys Cys Ser Arg Cys Gly Glu Ile Asp Lys Glu Asn Arg Gln Thr Gln
420 425 430
Ala Asn Phe Lys Cys Thr Lys Cys Gly Phe Glu Leu Asn Ala Asp His
435 440 445
Asn Ala Ala Ile Asn Ile Ala Arg Ser Ile Glu Phe Val
450 455 460
<210> 255
<211> 448
<212> PRT
<213> Clostridium paraputrificum
<400> 255
Met Asn Phe Asn Lys Cys Ile Lys Val Thr Leu Ile Lys Cys Leu Asn
1 5 10 15
Tyr Asp Tyr Arg Lys Val Lys Gln Ile Ile Lys Asp Phe Gln Tyr Lys
20 25 30
Tyr Ser Lys Ala Tyr Asn Met Ala Thr Asn Tyr Leu Tyr Leu Trp Asp
35 40 45
Thr Asn Ser Met Asn Leu Lys Asn Leu Tyr Asp Thr Lys Ile Val Asp
50 55 60
Lys Glu Leu Leu Gly Lys Ser Lys Gly Ala Trp Ile Glu Asn Arg Met
65 70 75 80
Asn Glu Ile Ile Glu Gly Ala Leu Ser Asn Asn Val Ala Gln Ala Arg
85 90 95
Gln Asp Ile Ile Asn Lys Tyr Asn Lys Cys Lys Lys Asp Gly Leu Phe
100 105 110
Lys Gly Lys Val Ser Leu Pro Thr Tyr Lys Leu Asp Ser Lys Val Ile
115 120 125
Val His Asn Val Ala Tyr Lys Leu Arg Asn His Asn Gly Tyr Phe Ile
130 135 140
Asp Ile Gly Leu Leu Asn Lys Gly Lys Gln Lys Glu Leu Asn Val Gly
145 150 155 160
Arg Phe Glu Phe Gln Ile Asp Lys Leu Asp Gly Asn Lys Lys Ala Thr
165 170 175
Ile Asn Lys Ile Ile Asn Gly Glu Tyr Lys Gln Gly Ser Ala Gln Ile
180 185 190
Ser Ile Ser Lys Lys Gly Lys Ile Glu Leu Ile Ile Ser Tyr Ser Phe
195 200 205
Asp Lys Glu Glu Ile Pro Val Leu Asp Asn Asn Arg Ile Leu Gly Ile
210 215 220
Asp Leu Gly Ile Thr Asn Val Ala Thr Met Ser Val Tyr Asp Ser Ile
225 230 235 240
Lys Asp Glu Tyr Asp Tyr Phe Ser Trp Lys Thr Asn Val Ile Arg Gly
245 250 255
Lys Glu Leu Ile Ala Phe Arg Gln Lys Tyr Tyr Asn Leu Arg Arg Asp
260 265 270
Ile Ser Ile Ala Ser Lys Thr Ala Gly Lys Gly Arg Cys Gly His Gly
275 280 285
Tyr Lys Thr Lys Met Lys Pro Val Asp Lys Val Arg Asn Arg Ile Ala
290 295 300
Asn Phe Ala Asp Thr Tyr Asn His Lys Ile Ser Lys Tyr Ile Val Glu
305 310 315 320
Phe Ala Val Lys Asn Arg Cys Gly Ile Ile Gln Met Glu Asp Leu Ser
325 330 335
Gly Ala Thr Ser Glu Val His Asn Lys Met Leu Lys Asp Trp Ser Tyr
340 345 350
Tyr Asp Leu Gln Gln Lys Ile Glu Tyr Lys Ala Lys Glu Gln Gly Ile
355 360 365
Glu Ile Lys Lys Val Asn Pro Lys Tyr Thr Ser Lys Arg Cys Asn Asn
370 375 380
Cys Gly Cys Ile His Glu Asp Asn Arg Asp Cys Lys Asn His Gln Ala
385 390 395 400
Arg Phe Glu Cys Lys Val Cys Gly His Gly Lys Asp Thr Asp Val Asn
405 410 415
Ala Asp Val Asn Ala Ser Arg Asn Ile Ala Ile Pro Asp Ile Asp Lys
420 425 430
Ile Ile Glu Glu Thr Glu Ile Leu His Ser Glu Asn Lys Pro Ala Ser
435 440 445
<210> 256
<211> 430
<212> PRT
<213> Clostridium novyi
<400> 256
Met Asn Lys Cys Ile Lys Val Ala Ile Lys Asn Cys Lys Glu Leu Asp
1 5 10 15
Tyr Lys Val Met Ser Glu Lys Leu Arg Asn Ile Gln Tyr Leu Thr Cys
20 25 30
Lys Ala Ser Asn Lys Val Met Gln Met Tyr Tyr Met Trp Glu Asn Gln
35 40 45
Lys Ile Asp Ile Lys Asn Lys Thr Gly Glu Tyr Pro Asp Asp Lys Glu
50 55 60
Leu Phe Gly Lys Thr Tyr Arg Asn Val Val Glu Gly Glu Met Lys Thr
65 70 75 80
Ile Met Asn Thr Ile Asn Thr Ser Asn Val Gly Gln Thr Asn Ala Ile
85 90 95
Ile Met Lys Lys Trp Asn Thr Asp Lys Lys Glu Val Leu Ser Tyr Gln
100 105 110
Lys Ser Leu Pro Asn Phe Lys Leu Asn Met Pro Ile Tyr Ile Lys Asn
115 120 125
Lys Ser Phe Ser Ile Val Lys Gly Thr Ser Gly Tyr Glu Ile Ile Cys
130 135 140
Ser Ile Phe Asn Lys Ser Gln Asp Leu Lys Arg Leu Thr Phe Ile Ile
145 150 155 160
Asp Lys Leu Asp Gly Asn Lys Lys Ala Thr Leu Asn Lys Ile Ile Asp
165 170 175
Leu Thr Tyr Lys Gln Gly Ala Gly Gln Ile Ile Lys Asp Arg Lys Gly
180 185 190
Lys Trp Tyr Phe Ile Ile Ser Phe Gly Phe Glu Asn Lys Lys Arg Glu
195 200 205
Leu Asp Ile Asn Arg Ile Leu Gly Ile Asp Val Gly Ile Thr Asn Leu
210 215 220
Leu Thr Met Gln Ile Trp Asp Cys Asn Leu Lys Glu Trp Asp Arg Leu
225 230 235 240
Ala Trp Asn Ser Cys Met Val Asp Gly Arg Glu Leu Met His Tyr Arg
245 250 255
Gln Lys Ile Glu Ala Arg Arg Lys Ser Leu Leu Lys Asn Ser Lys Ile
260 265 270
Ser Glu Lys Asn Thr Gly Lys Ala Gly His Gly Ile Ser Lys Arg Ile
275 280 285
Gln Ala Ile Asp Val Val Arg Asn Lys Glu Lys Asn Phe Arg Asp Thr
290 295 300
Phe Asn His Lys Tyr Ser Arg Tyr Ala Val Asp Phe Ala Ile Arg Asn
305 310 315 320
Asn Cys Gly Ile Ile Gln Met Glu Asn Leu Ala Lys Phe Thr Glu Glu
325 330 335
Val Lys Glu Lys Met Leu Lys Asn Trp Ser Tyr Tyr Asp Leu Gln Ser
340 345 350
Lys Ile Lys Tyr Lys Ala Glu Glu Gln Gly Ile Lys Val Asn Phe Ile
355 360 365
Lys Pro Ser Tyr Thr Ser Lys Arg Cys Ser Leu Cys Gly Ala Ile Asp
370 375 380
Asp Arg Asn Arg Asp Cys Lys Asn Asn Gln Ser Lys Phe Gln Cys Val
385 390 395 400
Val Cys Asp His Lys Glu His Ala Asp Ile Asn Ala Ala Lys Asn Ile
405 410 415
Ala Leu Pro Asp Ile Glu Glu Leu Ile Glu Ser Lys Ile Gly
420 425 430
<210> 257
<211> 436
<212> PRT
<213> Ruminococcus albus
<400> 257
Met Asn Lys Val Val Arg Leu Ala Leu Ile Cys Glu His Phe Asp Lys
1 5 10 15
Asp Gly Asn Pro Val Asp Tyr Ser Asp Val Tyr Lys Leu Leu Trp Gln
20 25 30
Leu Gln Ala Gln Thr Arg Glu Ile Lys Asn Lys Thr Ile Gln Tyr Cys
35 40 45
Trp Glu Tyr Ser Asn Phe Ser Ser Asp Tyr Tyr Lys Glu Asn His Glu
50 55 60
Tyr Pro Lys Glu Lys Asp Val Leu Asn Tyr Thr Leu Gly Gly Phe Val
65 70 75 80
Asn Asp Lys Phe Lys Val Gly Asn Asp Leu Tyr Ser Ala Asn Cys Ser
85 90 95
Thr Thr Thr Gln Thr Val Cys Ala Glu Phe Lys Asn Ser Lys Ser Glu
100 105 110
Phe Leu Lys Gly Thr Lys Ser Ile Ile Asn Tyr Lys Ser Asn Gln Pro
115 120 125
Leu Asp Leu His Asn Lys Ser Ile Arg Val Glu Tyr Lys Asp Asn Asp
130 135 140
Phe Phe Val Phe Leu Lys Leu Leu Asn Arg His Ala Phe Lys Arg Leu
145 150 155 160
Gly Tyr Lys Asn Thr Glu Ile Cys Phe Lys Val Ile Val Arg Asp Lys
165 170 175
Ser Thr Arg Thr Ile Leu Glu Arg Cys Val Asp Gln Ile Tyr Gly Ile
180 185 190
Ser Ala Ser Lys Leu Ile Tyr Asn Lys Lys Lys Lys Gln Trp Phe Leu
195 200 205
Asn Leu Val Tyr Ala Phe Glu Pro Asp Asn Ala Asn Asn Leu Asp Pro
210 215 220
Asn Arg Ile Leu Gly Val Asp Leu Gly Ile His Tyr Pro Ile Cys Ala
225 230 235 240
Ser Val Tyr Gly Asp Leu Gln Arg Phe Thr Ile His Gly Gly Glu Ile
245 250 255
Glu Glu Phe Arg Arg Arg Val Glu Ser Arg Lys Leu Ser Leu Leu Lys
260 265 270
Gln Gly Lys Asn Cys Gly Asp Gly Arg Ile Gly His Gly Val Lys Thr
275 280 285
Arg Asn Lys Pro Val Tyr Ser Ile Glu Asp Arg Ile Ala Arg Phe Arg
290 295 300
Asp Thr Val Asn His Lys Tyr Ser Arg Ala Leu Ile Asp Tyr Ala Val
305 310 315 320
Lys Lys Glu Cys Gly Thr Ile Gln Met Glu Asp Leu Ser Gly Ile Thr
325 330 335
Ala Glu Ser Asp Arg Phe Leu Lys Asn Trp Ser Tyr Tyr Asp Leu Gln
340 345 350
Thr Lys Ile Glu Tyr Lys Ala Lys Glu Lys Gly Ile Lys Ile Val Tyr
355 360 365
Ile Asp Pro Lys Tyr Ser Ser Gln Arg Cys Ser Lys Cys Gly His Ile
370 375 380
Asp Lys Glu Asn Arg Lys Thr Gln Ser Ser Phe Val Cys Leu Lys Cys
385 390 395 400
Gly Phe Glu Glu Asn Ala Asp Tyr Asn Ala Ser Gln Asn Ile Gly Ile
405 410 415
Lys Asp Ile Asp Lys Ile Ile Glu Ser Asp Leu Ser Ser Lys Cys Glu
420 425 430
Thr Asp Val Asn
435
<210> 258
<211> 402
<212> PRT
<213> Clostridium hiranonis
<400> 258
Met Ile Thr Val Arg Lys Leu Lys Leu Thr Ile Ile Asn Asp Asp Glu
1 5 10 15
Thr Lys Arg Asn Glu Gln Tyr Lys Phe Ile Arg Asp Ser Gln Tyr Ala
20 25 30
Gln Tyr Gln Gly Leu Asn Leu Ala Met Ser Val Leu Thr Asn Ala Tyr
35 40 45
Leu Ser Ser Asn Arg Asp Ile Lys Ser Asp Leu Phe Lys Glu Thr Gln
50 55 60
Lys Asn Leu Lys Asn Ser Ser His Ile Phe Asp Asp Ile Thr Phe Gly
65 70 75 80
Lys Gly Thr Asp Asn Lys Ser Leu Ile Asn Gln Lys Val Lys Lys Asp
85 90 95
Phe Asn Ser Ala Ile Lys Asn Gly Leu Ala Arg Gly Glu Arg Asn Ile
100 105 110
Thr Asn Tyr Lys Arg Thr Phe Pro Leu Met Thr Arg Gly Thr Ala Leu
115 120 125
Lys Phe Ser Tyr Lys Asp Asp Cys Ser Asp Glu Ile Ile Ile Lys Trp
130 135 140
Val Asn Lys Ile Val Phe Lys Val Val Ile Gly Arg Lys Asp Lys Asn
145 150 155 160
Tyr Leu Glu Leu Met His Thr Leu Asn Lys Val Ile Asn Gly Glu Tyr
165 170 175
Lys Val Gly Gln Ser Ser Ile Tyr Phe Asp Lys Ser Asn Lys Leu Ile
180 185 190
Leu Asn Leu Thr Leu Tyr Ile Pro Glu Lys Lys Asp Asp Asp Ala Ile
195 200 205
Asn Gly Arg Thr Leu Gly Val Asp Leu Gly Ile Lys Tyr Pro Ala Tyr
210 215 220
Val Cys Leu Asn Asp Asp Thr Phe Ile Arg Gln His Ile Gly Glu Ser
225 230 235 240
Leu Glu Leu Ser Lys Gln Arg Glu Gln Phe Arg Asn Arg Arg Lys Arg
245 250 255
Leu Gln Gln Gln Leu Lys Asn Val Lys Gly Gly Lys Gly Arg Glu Lys
260 265 270
Lys Leu Ala Ala Leu Asp Lys Val Ala Val Cys Glu Arg Asn Phe Val
275 280 285
Lys Thr Tyr Asn His Thr Ile Ser Lys Arg Ile Ile Asp Phe Ala Lys
290 295 300
Lys Asn Lys Cys Glu Phe Ile Asn Leu Glu Gln Leu Thr Lys Asp Gly
305 310 315 320
Phe Asp Asn Ile Ile Leu Ser Asn Trp Ser Tyr Tyr Glu Leu Gln Asn
325 330 335
Met Ile Lys Tyr Lys Ala Asp Arg Glu Gly Ile Lys Val Arg Tyr Val
340 345 350
Asn Pro Ala Tyr Thr Ser Gln Lys Cys Ser Lys Cys Gly Tyr Ile Asp
355 360 365
Lys Glu Asn Arg Pro Thr Gln Glu Lys Phe Lys Cys Ile Lys Cys Gly
370 375 380
Phe Glu Leu Asn Ala Asp His Asn Ala Ala Ile Asn Ile Ser Arg Leu
385 390 395 400
Glu Glu
<210> 259
<211> 493
<212> PRT
<213> Clostridium ihumii
<400> 259
Met Lys Thr Thr Glu Lys Asn Val Leu Met Thr Lys Cys Ile Lys Val
1 5 10 15
Thr Leu Asn Arg Cys Val Asn Tyr Asn Met Lys Glu Ile Met Asn Ile
20 25 30
Ile Arg Glu Met Gln Tyr Leu Ser Ser Lys Ala Tyr Asn Leu Ala Thr
35 40 45
Asn Tyr Leu Tyr Ile Trp Asp Thr Asn Ser Met Asn Phe Lys Asn Leu
50 55 60
Tyr Glu Glu Lys Ile Val Asp Lys Asp Leu Leu Gly Lys Ser Lys Ser
65 70 75 80
Ala Trp Ile Glu Asn Arg Met Asn Glu Ile Met Lys Gly Phe Leu Thr
85 90 95
Asn Asn Val Ala Gln Ala Arg Gln Asp Val Ile Asn Lys Tyr Asn Lys
100 105 110
Ser Lys Lys Asp Gly Leu Phe Ile Gly Lys Val Thr Leu Pro Ser Tyr
115 120 125
Lys Met Asn Gly Lys Val Val Ile His Asn Lys Ala Tyr Arg Phe Ser
130 135 140
Lys Asn Glu Gly Tyr Phe Val Glu Ile Gly Leu Phe Asn Lys Glu Lys
145 150 155 160
Lys Glu Glu Leu Asn Cys Asp Trp Ile Lys Phe Lys Leu Asp Lys Ile
165 170 175
Asp Ser Asn Lys Lys Ala Thr Ile Tyr Lys Ile Leu Asn Gly Asp Tyr
180 185 190
Lys Gln Gly Ser Ala Gln Leu His Ile Asn Lys Lys Gly Lys Ile Glu
195 200 205
Phe Ile Ile Ser Tyr Ser Phe Glu Arg Glu Asn Ser Ile Lys Leu Asp
210 215 220
Lys Asn Arg Thr Leu Gly Ile Asp Ile Gly Ile Val Asn Ile Ala Ala
225 230 235 240
Met Ala Ile Trp Asp Asn Asn Lys Gln Glu Trp Glu Leu Thr Arg Tyr
245 250 255
Ser His Asn Leu Ile Ser Gly Asn Glu Ala Ile Ala Leu Arg Gln Lys
260 265 270
Tyr Tyr Lys Leu Gly Leu Arg Asn Lys Glu Leu Glu Lys Asn Ile Asn
275 280 285
Arg Glu Leu His Glu Leu Glu Glu Lys Glu Tyr Arg Gly Leu Ser Thr
290 295 300
Asn Ile Ile Ser Gly His Asn Leu Thr Tyr Lys Arg Ile Met Leu Asn
305 310 315 320
Ser Lys Arg Ile Arg Leu Ser Gln Ser Cys Lys Trp Cys Gly Asn Ser
325 330 335
Lys Val Gly His Gly Arg Arg Val Arg Cys Lys Gln Val Asp Lys Ile
340 345 350
Gly Asn Lys Ile Glu Arg Phe Lys Asp Thr Phe Asn His Lys Tyr Ser
355 360 365
Arg Tyr Ile Val Asp Phe Ala Val Lys Asn Asn Cys Gly Ile Ile Gln
370 375 380
Met Glu Asn Leu Lys Asn Phe Asn Pro Ser Glu Lys Phe Leu Lys Asp
385 390 395 400
Trp Pro Tyr Phe Asp Leu Gln Thr Lys Ile Glu Tyr Lys Ala Lys Glu
405 410 415
Tyr Gly Ile Glu Val Ile Lys Val Asn Pro Lys Tyr Thr Ser Lys Arg
420 425 430
Cys Ser Arg Cys Gly Cys Ile Asn Glu Leu Asn Arg Asp Cys Lys Lys
435 440 445
Asn Gln Ser Lys Phe Lys Cys Val Asn Asp Glu Cys Asn Asn Tyr Glu
450 455 460
Asn Ala Asp Ile Asn Ala Ala Lys Asn Ile Ala Leu Pro Tyr Ile Asp
465 470 475 480
Lys Ile Ile Glu Gln Cys Leu Glu Thr Asn Lys Val Val
485 490
<210> 260
<211> 398
<212> PRT
<213> Cellulosilyticum ruminicola
<400> 260
Met Ile Ala Val Arg Lys Leu Lys Ile Met Val Leu Cys Asp Asp Glu
1 5 10 15
Ser Lys Lys Asn Glu Gln Tyr Lys Phe Leu Arg Asp Ser Gln Tyr Ala
20 25 30
Gln Tyr Leu Gly Leu Asn Arg Ala Met Ser Phe Leu Ala Lys Glu Tyr
35 40 45
Leu Ser Gly Asp Lys Glu Arg Phe Lys Glu Ala Lys Lys Lys Leu Thr
50 55 60
Asn Thr Cys Glu Cys Tyr Gln Asn Ile Asn Phe Gly Thr Gly Ile Asp
65 70 75 80
Ser Lys Ser Gln Ile Thr Gln Lys Val Lys Lys Asp Leu Gln Ala Asp
85 90 95
Ile Lys Asn Gly Leu Ala Arg Gly Glu Arg Ser Ile Arg Asn Tyr Arg
100 105 110
Arg Thr Phe Pro Leu Ile Thr Arg Gly Arg Asp Leu Lys Phe Ser Tyr
115 120 125
Asn Gly Asp Glu Ile Ile Ile Lys Trp Val Asn Lys Ile Tyr Phe Lys
130 135 140
Val Leu Ile Gly Arg Lys Asp Lys Asn Tyr Leu Glu Leu Met His Thr
145 150 155 160
Leu Glu Lys Ile Ile Asn Gly Glu Tyr Lys Val Cys Thr Ser Ser Ile
165 170 175
Gln Ile Asp Lys Lys Leu Ile Leu Asn Leu Thr Leu Glu Ile Pro Asp
180 185 190
Lys Val Lys Lys Glu Phe Gln Glu Asn Arg Val Leu Gly Val Asp Leu
195 200 205
Gly Ile Lys Phe Pro Ala Tyr Ala Cys Val Ser Asp Asn Thr Tyr Val
210 215 220
Arg Arg Ser Phe Gly Ser Ile Asp Glu Phe Leu Lys Val Arg Ile Gln
225 230 235 240
Phe Asp Lys Arg Arg Lys Arg Ile Gln Gln Gln Leu Gln Asn Val Lys
245 250 255
Gly Gly Lys Gly Arg Lys Asp Lys Leu Gln Ala Leu Asp Arg Met Arg
260 265 270
Asp Cys Glu Arg Lys Trp Val Arg Asn Tyr Asn His Ala Leu Ser Lys
275 280 285
Arg Ile Ile Asp Phe Ala Phe Arg Asn Lys Cys Gly Ile Ile His Leu
290 295 300
Glu Lys Leu Glu Lys Asp Gly Phe Lys Asn Lys Leu Leu Arg Asn Trp
305 310 315 320
Ser Tyr Tyr Glu Leu Gln Asp Met Ile Gly Tyr Lys Ala Glu Arg Glu
325 330 335
Gly Ile Val Val Lys Tyr Val Glu Pro Ala Tyr Thr Ser Gln Thr Cys
340 345 350
Ser Lys Cys Gly Tyr Val Asp Arg Glu Asn Arg Pro Ser Gln Glu His
355 360 365
Phe Leu Cys Lys Glu Cys Gly Phe Glu Ile Asn Ala Asp His Asn Ala
370 375 380
Ala Ile Asn Ile Ala Arg Ser Asn Lys Val Ile Val Asp Lys
385 390 395
<210> 261
<211> 433
<212> PRT
<213> Eubacterium siraeum
<400> 261
Met Val Cys Asn Lys Val Ile Lys Ile Ala Leu Ile Cys Asp Gln Ile
1 5 10 15
Asp Lys Asp Gly Lys Asp Val Asn Tyr Asn Asp Ile Tyr Lys Leu Leu
20 25 30
Trp Asp Leu Gln Lys Gln Thr Arg Glu Ala Lys Asn Lys Val Ile Arg
35 40 45
Leu Cys Trp Glu Trp Ser Gly Tyr Ser Ser Glu Tyr Phe Lys Thr His
50 55 60
Glu Glu Tyr Pro Lys Asp Lys Glu Ile Phe Gly Ile Ser Leu Arg Gly
65 70 75 80
Tyr Leu Tyr Asp Arg Ile Lys Gly Asp Tyr Asn Leu Tyr Ser Gly Asn
85 90 95
Leu Ser Gln Ser Ala Glu Ile Ala Tyr Lys Glu Tyr Lys Asn Ser Leu
100 105 110
Lys Asp Val Leu Arg Gly Asp Lys Ser Ile Ile Asn Tyr Arg Glu Asn
115 120 125
Gln Pro Leu Asp Ile Lys Asn Lys Ala Ile Gln Leu Leu Tyr Glu Asn
130 135 140
Asp Asn Phe Phe Val Arg Val Ala Leu Ile Asn Lys Asp Lys Gln Lys
145 150 155 160
Glu Leu Asn Phe Lys Asp Cys Ser Val Arg Phe Lys Leu Leu Val Lys
165 170 175
Asp Asp Ser Thr Arg Thr Ile Leu Glu Arg Cys Phe Asp Glu Val Tyr
180 185 190
Thr Ile Thr Ala Ser Lys Ile Met Tyr Asn Lys Lys Lys Lys Gln Trp
195 200 205
Tyr Ile Asn Leu Gly Tyr Lys Phe Thr Lys Glu Ile Asp Lys Thr Leu
210 215 220
Asp Lys Asp Arg Ile Leu Gly Val Asp Leu Gly Val Ile Asn Pro Leu
225 230 235 240
Val Ala Ser Val Tyr Gly Ser Tyr Asp Arg Leu Ile Ile Gly Gly Gly
245 250 255
Glu Ile Asp Lys Phe Arg Lys Arg Val Glu Ala Asn Lys Val Gln Met
260 265 270
Leu Lys Gln Gly Lys Tyr Cys Gly Asp Gly Arg Ile Gly His Gly Val
275 280 285
Asn Thr Arg Asn Lys Pro Ala Tyr Asn Ile Glu Asp Lys Ile Ser Arg
290 295 300
Phe Arg Asp Thr Val Asn His Lys Tyr Ser Lys Ala Val Val Asp Tyr
305 310 315 320
Ala Val Lys Asn Asn Cys Gly Thr Ile Gln Met Glu Asp Leu Lys Gly
325 330 335
Ile Thr Gln Asn Lys Asn Glu Arg Tyr Leu Lys Asn Trp Thr Tyr Phe
340 345 350
Asp Leu Gln Thr Lys Ile Glu Tyr Lys Ala Lys Ala Leu Gly Ile Glu
355 360 365
Val Lys Tyr Lys Asn Pro Lys Tyr Thr Ser Gln Arg Cys Ser Lys Cys
370 375 380
Gly His Ile Ala Glu Glu Asn Arg Pro Glu Gln Lys Thr Phe Lys Cys
385 390 395 400
Val Lys Cys Gly Phe Lys Val Asn Ala Asp Tyr Asn Ala Ser Gln Asn
405 410 415
Leu Ala Ile Lys Asp Ile Asp Lys Ile Ile Glu Gln Tyr Tyr Asn Lys
420 425 430
Gly
<210> 262
<211> 482
<212> PRT
<213> Clostridium botulinum
<400> 262
Met Asn Thr Val Arg Lys Ile Lys Leu Thr Ile Leu Gly Asp Thr Glu
1 5 10 15
Thr Arg Asn Lys Gln Tyr Lys Trp Ile Arg Asp Glu Gln Tyr Asn Gln
20 25 30
Tyr Arg Ala Leu Asn Leu Ser Met Thr Tyr Met Val Thr Asn Leu Met
35 40 45
Leu Lys Asn Asn Glu Ser Gly Leu Glu Asn Arg Lys Glu Lys Asp Ile
50 55 60
Leu Lys Ile Glu Asn Lys Ile Lys Lys Asp Glu Gly Ser Leu Lys Lys
65 70 75 80
Glu Leu Ala Lys Lys Arg Ile Asn Glu Glu Lys Ile Glu Asn Ile Lys
85 90 95
Ser Asn Ile Glu Glu Leu Lys Ser Gln Lys Glu Lys Leu Glu Asn Glu
100 105 110
Leu Lys Asn Ile Lys Glu Tyr Arg Ser Asn Ile Asp Glu Glu Phe Lys
115 120 125
Lys Met Tyr Val Asn Asp Leu Tyr Asn Val Leu Asn Lys Ile Ser Phe
130 135 140
Gln His Glu Asp Met Lys Ser Leu Val Thr Gln Arg Val Lys Lys Asp
145 150 155 160
Phe Asn Asn Asp Val Lys Glu Ile Met Arg Gly Asp Arg Ser Val Arg
165 170 175
Asn Tyr Lys Arg Asn Phe Pro Ile Leu Thr Arg Gly Arg Asp Leu Lys
180 185 190
Phe Gln Tyr Phe Glu Lys Ser Glu Asp Ile Glu Ile Lys Trp Ile Glu
195 200 205
Gly Ile Lys Phe Lys Cys Ile Leu Gly Arg Pro Ser Lys Ser Leu Glu
210 215 220
Leu Lys His Thr Leu His Lys Val Ile Asn Glu Glu Tyr Lys Ile Cys
225 230 235 240
Asp Ser Ser Leu Gln Phe Asp Lys Asn Asn Asn Leu Ile Leu Asn Leu
245 250 255
Thr Leu Asp Ile Pro Glu Asn Asn Lys Tyr Glu Lys Ile Glu Asn Arg
260 265 270
Ile Val Gly Val Asp Leu Gly Leu Lys Ile Pro Ala Tyr Val Ala Leu
275 280 285
Asn Asp Thr Arg Tyr Ile Arg Lys Ala Ile Gly Ser Ile Asn Asp Phe
290 295 300
Leu Lys Val Arg Thr Gln Ile Gln Ser Arg Ala Arg Lys Leu Gln Lys
305 310 315 320
Ser Leu Gln Val Val Arg Gly Gly Lys Gly Arg Asn Lys Lys Met Lys
325 330 335
Ala Leu Glu Arg Phe Arg Glu Lys Glu Arg Asn Phe Ala Arg Asn Tyr
340 345 350
Asn His Phe Leu Ser Tyr Asn Ile Val Lys Phe Ala Leu Asp Asn Lys
355 360 365
Ala Glu Gln Ile Asn Leu Glu Leu Leu Glu Met Lys Lys Thr Gln Asn
370 375 380
Lys Ser Ile Leu Arg Asn Trp Ser Tyr Tyr Gln Leu Gln Ser Phe Ile
385 390 395 400
Glu Tyr Lys Ala Glu Arg Val Gly Ile Lys Val Lys Tyr Ile Asp Pro
405 410 415
Tyr His Thr Ser Gln Ile Cys Ser Glu Cys Gly Asn Tyr Glu Glu Gly
420 425 430
Gln Arg Val Glu Gln Asp Thr Phe Val Cys Lys Arg Cys Gly His Lys
435 440 445
Ile Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Met Ser Asp Asn
450 455 460
Tyr Ile Ser Lys Lys Glu Glu Ser Gln Tyr Tyr Lys Asn Asn Lys Asn
465 470 475 480
Met Val
<210> 263
<211> 482
<212> PRT
<213> Clostridium botulinum
<400> 263
Met Asn Thr Val Arg Lys Ile Lys Leu Thr Ile Leu Gly Asp Thr Glu
1 5 10 15
Thr Arg Asn Lys Gln Tyr Lys Trp Ile Arg Asp Glu Gln Tyr Asn Gln
20 25 30
Tyr Arg Ala Leu Asn Leu Ser Met Thr Tyr Met Val Thr Asn Leu Met
35 40 45
Leu Lys Asn Asn Glu Ser Gly Leu Glu Asn Arg Lys Glu Lys Asp Ile
50 55 60
Leu Lys Ile Glu Asn Lys Ile Lys Lys Asp Glu Glu Asn Leu Lys Lys
65 70 75 80
Glu Leu Ala Lys Lys Lys Ile Asn Glu Glu Lys Asn Glu Asn Ile Lys
85 90 95
Ser Asn Ile Glu Glu Leu Lys Ser Glu Lys Glu Lys Leu Glu Asn Glu
100 105 110
Leu Lys Asn Ile Lys Glu Tyr Arg Ser Asn Ile Asp Glu Glu Phe Lys
115 120 125
Lys Met Tyr Val Asp Asp Leu Tyr Asn Val Leu Asn Lys Ile Ser Phe
130 135 140
Gln His Glu Asp Met Lys Ser Leu Val Thr Gln Arg Val Lys Lys Asp
145 150 155 160
Phe Asn Asn Asp Val Lys Glu Ile Met Arg Gly Asp Arg Ser Val Arg
165 170 175
Asn Tyr Lys Arg Asn Phe Pro Ile Leu Thr Arg Gly Arg Asp Leu Lys
180 185 190
Phe Gln Tyr Ile Glu Lys Ser Glu Asp Ile Glu Ile Lys Trp Ile Glu
195 200 205
Gly Ile Lys Phe Lys Cys Ile Leu Gly Lys Pro Ser Lys Ser Leu Glu
210 215 220
Leu Lys His Ala Leu His Lys Val Ile Asn Lys Glu Tyr Lys Val Cys
225 230 235 240
Asp Ser Ser Leu Gln Phe Asp Lys Asn Asn Asn Leu Ile Leu Asn Leu
245 250 255
Thr Leu Asp Ile Pro Gln Asp Asn Lys Tyr Glu Lys Ile Thr Asn Arg
260 265 270
Val Val Gly Val Asp Leu Gly Leu Lys Ile Pro Ala Tyr Val Ala Leu
275 280 285
Asn Asp Thr Lys Tyr Ile Arg Lys Ala Ile Gly Ser Ile Asp Asp Phe
290 295 300
Leu Lys Val Arg Thr Gln Ile Gln Ser Arg Val Arg Lys Leu Gln Lys
305 310 315 320
Ser Leu Gln Val Val Arg Gly Gly Lys Gly Arg Asn Lys Lys Met Lys
325 330 335
Ala Leu Glu Lys Phe Arg Glu Lys Glu Arg Asn Phe Ala Arg Asn Tyr
340 345 350
Asn His Phe Leu Ser Tyr Asn Ile Val Lys Phe Ala Leu Asp Asn Lys
355 360 365
Ala Glu Gln Ile Asn Leu Glu Leu Leu Glu Met Lys Lys Thr Gln Asn
370 375 380
Lys Ser Ile Leu Arg Asn Trp Ser Tyr Tyr Gln Leu Gln Asn Phe Ile
385 390 395 400
Glu Tyr Lys Ala Glu Arg Val Gly Ile Lys Val Lys Tyr Ile Asp Pro
405 410 415
Tyr His Thr Ser Gln Thr Cys Ser Glu Cys Gly Asn Tyr Glu Glu Gly
420 425 430
Gln Arg Val Glu Gln Asp Thr Phe Val Cys Lys Arg Cys Trp His Lys
435 440 445
Met Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Met Ser Tyr Asn
450 455 460
Tyr Ile Ser Lys Lys Glu Glu Ser Glu Tyr Tyr Lys Asn Asn Lys Asn
465 470 475 480
Met Val
<210> 264
<211> 424
<212> PRT
<213> Ruminiclostridium hungatei
<400> 264
Met Ala Thr Lys Val Met Arg Tyr Gln Ile Ile Lys Pro Ile Asp Cys
1 5 10 15
Asn Trp Asp Leu Phe Gly Lys Val Leu Arg Asp Ile Gln Tyr Asp Thr
20 25 30
Arg Gln Ile Met Asn Arg Thr Ile Gln Tyr Cys Trp Glu Trp Gln Gly
35 40 45
Tyr Ser Ser Asp Tyr Lys Ile Ala Lys Gly Glu Tyr Pro Lys Thr Arg
50 55 60
Glu Thr Phe Gly Tyr Ser Asp Met Arg Gly Tyr Ala Tyr Asp Lys Leu
65 70 75 80
Lys Ser Ile Tyr Gln Arg Leu Asn Thr Ala Asn Leu Thr Thr Ser Ile
85 90 95
Thr Arg Ala Val Gln Arg Trp Lys Thr Asp Thr Lys Asp Val Ile Arg
100 105 110
Gly Asp Lys Ser Ile Ala Cys Phe Arg Ala Asp Val Pro Ile Asp Leu
115 120 125
His Asn Lys Ser Met Asn Ile Glu Lys Ser Asp Asp Gly Tyr Ile Val
130 135 140
Ala Leu Ser Leu Ala Ser Asn Ile Tyr Lys Lys Glu Leu Asp Arg Asn
145 150 155 160
Ser Gly Gln Phe Ser Val Leu Ile Asn Glu Gly Asn Lys Ser Asn Arg
165 170 175
Asp Val Leu Asp Arg Cys Ile Ala Gly Gln Tyr Lys Ile Ser Ala Ser
180 185 190
Gln Ile Leu Arg Glu Lys Asn Lys Trp Phe Leu Asn Leu Ser Tyr Ser
195 200 205
Phe Glu Ile Ser Lys Pro Asp Lys Ser Arg Asp Asn Ile Leu Gly Ile
210 215 220
Asp Val Gly Ile Val His Pro Val Tyr Met Ala Val Tyr Asn Ser Pro
225 230 235 240
Ala Arg Arg Ser Ile Ser Gly Gly Glu Ile Asp Asn Phe Arg Lys Gln
245 250 255
Val Gln Lys Arg Ile Lys Glu Leu Gln Leu Gln Gly Lys Gln Cys Gly
260 265 270
Glu Gly Arg Ile Gly His Gly Ile Lys Thr Arg Val Lys Pro Ile Glu
275 280 285
Phe Ala Lys Asp Lys Val Ala Asn Phe Arg Asn Thr Ile Asn His Lys
290 295 300
Tyr Ser Lys Ala Ile Val Glu Phe Ala Ile Lys Asn Gly Cys Gly Ile
305 310 315 320
Ile Gln Met Glu Asp Leu Lys Gly Ile Asn Thr Asp Asn Val Phe Leu
325 330 335
Lys Asn Trp Thr Tyr Tyr Asp Leu Gln Gln Lys Val Lys Tyr Lys Ala
340 345 350
Glu Leu Glu Gly Ile Glu Val Lys Leu Ile Asp Pro Gln Tyr Thr Ser
355 360 365
Gln Arg Cys Cys Lys Cys Gly Tyr Ile His Arg Asp Asn Arg Pro Glu
370 375 380
Gln Ala Lys Phe Lys Cys Ile Asp Cys Gly Phe Glu Val Asn Ala Asp
385 390 395 400
Tyr Asn Ala Ser Leu Asn Ile Ala Thr Pro Asp Ile Asp Lys Ile Ile
405 410 415
Leu Glu Phe Leu Lys Cys Glu Thr
420
<210> 265
<211> 451
<212> PRT
<213> Desulfovibrio fructosivorans
<400> 265
Met Ala Ile Thr Lys Val Val Lys Ile Pro Leu Val Ile Asp Glu Ser
1 5 10 15
Asp Glu Ile Leu Arg Lys Ile Lys Tyr Arg Ala Phe Asp Lys Val Met
20 25 30
Asn Glu Ala Arg Tyr Leu Gly Asn Leu Ala Ile Arg Tyr Ala Ile Ala
35 40 45
Tyr Gly Leu Glu Asn Ile Pro Asn Gln Ile Asp Ala Glu Thr Gly Lys
50 55 60
Gln Ile Ala Leu Asp Thr Thr Ile Tyr Arg His Leu Ala Glu Lys Arg
65 70 75 80
Lys Tyr Leu Pro Ala Gly Asn Met Ala Thr Leu Glu Arg Asn Phe Ala
85 90 95
Val Lys Thr Tyr Arg Asn Thr Asn Lys Asp Ala Trp Ala Gly Arg Lys
100 105 110
Ser Leu Pro Thr Tyr Arg Ser Leu Phe Val Pro Phe Arg His Thr Gly
115 120 125
Thr Lys Ile Ala Val Val Glu Arg Asn Gly Thr Lys Gln Phe Cys Ile
130 135 140
Asp Pro Gln Gly Phe Gly Ala Ser Trp Leu Ser Asp Glu Leu Ile Ala
145 150 155 160
Glu Val His Asp Gly Pro Ile Ala Ile Glu Lys Gln Arg Arg Lys Leu
165 170 175
Thr Leu Val Ser Cys Phe Ser Trp Arg Asp Gln Gly Ala Val Glu Ile
180 185 190
Val Gln Arg Ile Val Asn Gly Glu Tyr Lys Leu Ser Asp Gly Gln Ile
195 200 205
Gln Met Gly Lys Lys Gly Leu Val Ala Leu Leu Pro Tyr Ser Phe Asp
210 215 220
Ala Ile Gln Pro Glu Leu Asp Pro Ala Arg Val Cys Gly Ile Asp Leu
225 230 235 240
Gly Ala Val Ile Pro Ala Val Cys Ala Val Asn Phe Gly Pro Gln Arg
245 250 255
Ala Tyr Leu Gly Glu Gly Lys Asp Val Trp Ala Ala Arg Ser Arg Phe
260 265 270
Arg Ala Glu Arg Arg Arg Leu Gln Ser Arg Ala Gly Leu Tyr Ser Lys
275 280 285
Thr Lys Asn Trp Arg Arg Ser Glu Lys Glu Asp Asn Trp Ile Gln Thr
290 295 300
Tyr Tyr His Ala Leu Thr Arg Lys Val Ile Lys Phe Cys Val Gln His
305 310 315 320
Gly Cys Gly Thr Ile His Met Glu Asp Leu Ser Ser Leu Arg Gln Arg
325 330 335
Asp Val Glu Ser Glu Phe Arg Arg Leu Leu Trp Val Pro Ser Lys Phe
340 345 350
Phe Glu Leu Leu Ser Tyr Lys Ala Lys Glu Met Gly Ile Gly Ile Val
355 360 365
Lys Ile Asn Pro Arg Asn Thr Ser Lys Arg Cys Ser Glu Cys Gly His
370 375 380
Ile Ser Lys Gly Asn Arg Lys Ser Gln Glu Lys Phe Val Cys Glu Lys
385 390 395 400
Cys Gly Glu Gly Lys Arg Pro Val Asn Ala Asp Tyr Asn Ala Ala Arg
405 410 415
Asn Ile Ala Leu Ala Thr Gly Asp Val Leu Leu His Gly Tyr Ile Glu
420 425 430
Ser Glu Pro Asp Ala Leu Gly Glu Met Asp Gln Leu Trp Glu Gly Ala
435 440 445
Gln Glu Ala
450
<210> 266
<211> 451
<212> PRT
<213> Bacillus toyonensis
<400> 266
Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met
1 5 10 15
Asn Val Asp Trp Thr Ile Phe Glu Lys Gln Leu Arg Asn Leu Thr Tyr
20 25 30
Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe
35 40 45
Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Thr
50 55 60
Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile
65 70 75 80
Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met
85 90 95
Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn
100 105 110
Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile
115 120 125
Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Ile Lys Glu Lys Asn
130 135 140
Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys
145 150 155 160
Glu Asn Gly Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Gly Thr
165 170 175
Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Ile Asn Gln
180 185 190
Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp
195 200 205
Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe
210 215 220
Asp Lys Glu Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val
225 230 235 240
Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp
245 250 255
Glu Ile Lys Met Phe Asn Glu Arg Ile Arg Gln Arg Arg Ile Asn Leu
260 265 270
Leu Lys Gln Ser Lys Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg
275 280 285
Thr Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys
290 295 300
Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Val Lys Gln
305 310 315 320
Cys Leu Lys His Asn Cys Gly Arg Ile Gln Met Glu Leu Leu Lys Gly
325 330 335
Ile Ser Lys Asn Asp Lys Val Leu Lys Asp Trp Thr Tyr Phe Asp Leu
340 345 350
Gln Glu Lys Ile Lys Asn Gln Ala Glu Ile Tyr Gly Ile Glu Val Ile
355 360 365
Lys Val Val Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr
370 375 380
Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Met Phe Glu Cys Lys Gln
385 390 395 400
Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser
405 410 415
Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser
420 425 430
Lys Leu His Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly
435 440 445
Tyr Leu Asp
450
<210> 267
<211> 451
<212> PRT
<213> Clostridium paraputrificum
<400> 267
Met Arg Ile Met Asn Phe Asn Lys Cys Ile Lys Val Thr Leu Ile Lys
1 5 10 15
Cys Leu Asn Tyr Asp Tyr Arg Lys Val Lys Gln Ile Ile Lys Asp Phe
20 25 30
Gln Tyr Lys Tyr Ser Lys Ala Tyr Asn Met Ala Thr Asn Tyr Leu Tyr
35 40 45
Leu Trp Asp Thr Asn Ser Met Asn Leu Lys Asn Leu Tyr Asp Thr Lys
50 55 60
Ile Val Asp Lys Glu Leu Leu Gly Lys Ser Lys Gly Ala Trp Ile Glu
65 70 75 80
Asn Arg Met Asn Glu Ile Ile Glu Gly Ala Leu Ser Asn Asn Val Ala
85 90 95
Gln Ala Arg Gln Asp Ile Ile Asn Lys Tyr Asn Lys Cys Lys Lys Asp
100 105 110
Gly Leu Phe Lys Gly Lys Val Ser Leu Pro Thr Tyr Lys Leu Asp Ser
115 120 125
Lys Val Ile Val His Asn Val Ala Tyr Lys Leu Arg Asn His Asn Gly
130 135 140
Tyr Phe Ile Asp Ile Gly Leu Leu Asn Lys Gly Lys Gln Lys Glu Leu
145 150 155 160
Asn Val Gly Arg Phe Glu Phe Gln Ile Asp Lys Leu Asp Gly Asn Lys
165 170 175
Lys Ala Thr Ile Asn Lys Ile Ile Asn Gly Glu Tyr Lys Gln Gly Ser
180 185 190
Ala Gln Ile Ser Ile Ser Lys Lys Gly Lys Ile Glu Leu Ile Ile Ser
195 200 205
Tyr Ser Phe Asp Lys Glu Glu Ile Pro Val Leu Asp Asn Asn Arg Ile
210 215 220
Leu Gly Ile Asp Leu Gly Ile Thr Asn Val Ala Thr Met Ser Val Tyr
225 230 235 240
Asp Ser Ile Lys Asp Glu Tyr Asp Tyr Phe Ser Trp Lys Thr Asn Val
245 250 255
Ile Arg Gly Lys Glu Leu Ile Ala Phe Arg Gln Lys Tyr Tyr Asn Leu
260 265 270
Arg Arg Asp Ile Ser Ile Ala Ser Lys Thr Ala Gly Lys Gly Arg Cys
275 280 285
Gly His Gly Tyr Lys Thr Lys Met Lys Pro Val Asp Lys Val Arg Asn
290 295 300
Arg Ile Ala Asn Phe Ala Asp Thr Tyr Asn His Lys Ile Ser Lys Tyr
305 310 315 320
Ile Val Glu Phe Ala Val Lys Asn Arg Cys Gly Ile Ile Gln Met Glu
325 330 335
Asp Leu Ser Gly Ala Thr Ser Glu Val His Asn Lys Met Leu Lys Asp
340 345 350
Trp Ser Tyr Tyr Asp Leu Gln Gln Lys Ile Glu Tyr Lys Ala Lys Glu
355 360 365
Gln Gly Ile Glu Ile Lys Lys Val Asn Pro Lys Tyr Thr Ser Lys Arg
370 375 380
Cys Asn Asn Cys Gly Cys Ile His Glu Asp Asn Arg Asp Cys Lys Asn
385 390 395 400
His Gln Ala Arg Phe Glu Cys Lys Val Cys Gly His Gly Lys Asp Thr
405 410 415
Asp Val Asn Ala Asp Val Asn Ala Ser Arg Asn Ile Ala Ile Pro Asp
420 425 430
Ile Asp Lys Ile Ile Glu Glu Thr Glu Ile Leu His Ser Glu Asn Lys
435 440 445
Pro Ala Ser
450
<210> 268
<211> 437
<212> PRT
<213> Clostridium ventriculi
<400> 268
Met Thr Thr Lys Cys Val Gln Val Ala Ile Glu Tyr Ser Ser Asn Asn
1 5 10 15
Ile Leu Lys Glu Val Asp Phe Tyr Lys Glu Leu Arg Asp Leu Gln Tyr
20 25 30
Asn Ser Tyr Leu Ala Cys Asn Arg Ala Ile Ser Tyr Met Tyr Glu Asn
35 40 45
Asp Met Gln Asn Phe Ile Ile Lys Glu Thr Asp Leu Pro Arg Ser Asp
50 55 60
Asp Lys Lys Leu Tyr Gly Lys Ser Phe Ala Ala Trp Ile Glu Asn Arg
65 70 75 80
Met Asn Glu Tyr Met Pro Gly Ala Leu Ser Asn Asn Val Ala Gln Thr
85 90 95
Arg Gln Phe Val Val Asn Arg Tyr Lys Asn Asp Lys Lys Ala Gly Leu
100 105 110
Leu Lys Gly Asn Val Ser Leu Thr Thr Phe Lys Arg Thr Asn Pro Ile
115 120 125
Ile Ile His Asn Asn Ala Tyr Asn Ile Ile Glu Thr Pro Lys Gly Leu
130 135 140
Gly Ala Glu Ile Gly Phe Phe Asn Leu Pro Lys Gln Lys Glu Leu Gly
145 150 155 160
Ile Lys Arg Val Asn Phe Leu Phe Pro Lys Leu Gly Ser Ser Glu Lys
165 170 175
Ser Ile Ile Arg Arg Leu Leu Asp Lys Ser Tyr Lys Gln Gly Ala Met
180 185 190
Gln Ile Ser Tyr Asn Gln Lys Lys Lys Lys Trp Met Ala Thr Ile Ser
195 200 205
Phe Ser Phe Asn Leu Glu Glu Ile Lys Thr Asn Glu Asn Leu Val Met
210 215 220
Gly Ile Asp Leu Gly Val Ser Lys Val Ala Thr Leu Ser Ile Tyr Asp
225 230 235 240
Ala Ser Lys Tyr Glu Tyr Ile Lys Met Ser Phe Lys Asp Thr Cys Ile
245 250 255
Asp Gly Thr Glu Leu Met His Tyr Arg Gln Lys Leu Glu Ser Arg Arg
260 265 270
Lys Ala Leu Ser Ile Ala Ser Lys Trp Ala Ser Asp Asn Asn Arg Gly
275 280 285
His Gly Tyr Lys Thr Lys Met Glu Lys Ala Asn Tyr Met Gly Arg Lys
290 295 300
Tyr Asn Asn Phe Arg Asp Thr Tyr Asn His Lys Val Ser Arg Tyr Ile
305 310 315 320
Val Asp Val Ala Ile Lys Tyr Arg Val Gly Leu Ile Gln Met Glu Asp
325 330 335
Leu Ser Gly Phe Ser Glu Gln Gln Gln Glu Ser Leu Leu Lys Asn Trp
340 345 350
Ser Tyr Tyr Asp Leu Gln Gln Lys Ile Lys Tyr Lys Ala Glu Glu Asn
355 360 365
Gly Ile Arg Val Tyr Phe Ile Asn Pro Lys Tyr Thr Ser Gln Arg Cys
370 375 380
Ser Lys Cys Gly Asn Ile Asp Lys Glu Asn Arg Lys Thr Gln Glu Ser
385 390 395 400
Phe Ser Cys Thr Val Cys Asn Tyr Lys Asp Asn Ala Asp Val Asn Ala
405 410 415
Ser Lys Asn Ile Ala Ile Pro Asp Ile Glu Lys Ile Ile Glu Glu Gln
420 425 430
Val Lys Lys Gln Tyr
435
<210> 269
<211> 440
<212> PRT
<213> Ruminococcus sp.
<400> 269
Met Val Lys Val Val Lys Ile His Leu Ile Ser Glu Gln Phe Asp Lys
1 5 10 15
Ala Gly Asn Arg Ile Asp Tyr Glu Glu Val Asn Lys Ile Leu Trp Glu
20 25 30
Leu Gln Lys Gln Thr Arg Glu Ala Lys Asn Lys Thr Val Gln Leu Leu
35 40 45
Trp Glu Trp Asn Asn Phe Ser Ser Asp Tyr Val Lys Ala Ser Gly Ile
50 55 60
Tyr Pro Lys Ala Lys Asp Ile Phe Gly Tyr Ser Ser Val His Gly Gln
65 70 75 80
Ala Asn Lys Glu Leu Arg Thr Lys Leu Ala Leu Asn Ser Ser Asn Leu
85 90 95
Ser Thr Thr Thr Met Asp Val Cys Lys Asn Phe Asn Thr Tyr Lys Lys
100 105 110
Glu Val Trp Lys Gly Lys Arg Ser Val Pro Ser Tyr Lys Ser Asp Gln
115 120 125
Pro Leu Asp Leu His Lys Asp Ser Ile Lys Leu Ile Tyr Glu Asn Asn
130 135 140
Gln Phe Tyr Val Arg Leu Ala Leu Leu Lys Lys Ala Glu Phe Ala Lys
145 150 155 160
Tyr Gly Phe Lys Asp Gly Phe His Phe Lys Met Gln Val Lys Asp Asn
165 170 175
Ser Thr Lys Thr Ile Leu Glu Arg Cys Phe Asp Glu Val Tyr Lys Ile
180 185 190
Asn Ala Ser Lys Leu Leu Tyr Asp Gln Lys Lys Lys Lys Trp Lys Leu
195 200 205
Asn Leu Ser Tyr Ser Phe Asp Asn Lys Asn Ile Ser Glu Leu Asp Lys
210 215 220
Glu Lys Ile Leu Gly Val Asp Val Gly Val Ser Tyr Pro Leu Val Ala
225 230 235 240
Ser Val Phe Gly Asp Arg Asp Arg Phe Lys Ile Lys Gly Gly Glu Ile
245 250 255
Glu Lys Phe Arg Lys Ser Val Glu Ala Arg Arg Arg Ser Met Leu Glu
260 265 270
Gln Thr Lys Tyr Cys Gly Asp Gly Arg Ile Gly His Gly Arg Lys Lys
275 280 285
Arg Thr Glu Pro Ala Leu Asn Ile Gly Asp Lys Ile Ala Arg Phe Arg
290 295 300
Asp Thr Thr Asn His Lys Tyr Ser Arg Ala Leu Ile Glu Tyr Ala Val
305 310 315 320
Lys Lys Gly Cys Gly Thr Ile Gln Met Glu Lys Leu Thr Gly Ile Thr
325 330 335
Ser Lys Ala Asp Arg Phe Leu Lys Asp Trp Thr Tyr Tyr Asp Leu Gln
340 345 350
Thr Lys Ile Glu Asn Lys Ala Lys Glu Val Gly Ile Asn Val Val Tyr
355 360 365
Ile Ala Pro Lys Tyr Thr Ser Gln Arg Cys Ser Lys Cys Gly Tyr Ile
370 375 380
His Lys Asp Asn Arg Pro Asn Gln Ala Lys Phe Arg Cys Leu Glu Cys
385 390 395 400
Asp Phe Glu Ser Asn Ala Asp Tyr Asn Ala Ser Gln Asn Ile Gly Ile
405 410 415
Lys Asn Ile Asp Lys Ile Ile Glu Lys Asp Leu Gln Lys Gln Glu Ser
420 425 430
Glu Val Gln Val Asn Glu Asn Lys
435 440
<210> 270
<211> 439
<212> PRT
<213> Ruminococcus sp.
<400> 270
Met Val Lys Val Val Lys Ile His Leu Ile Ser Glu Gln Phe Asp Lys
1 5 10 15
Ala Gly Asn Arg Ile Asp Tyr Lys Glu Val Asn Lys Ile Leu Trp Glu
20 25 30
Leu Gln Lys Gln Thr Arg Glu Ala Lys Asn Lys Thr Val Gln Leu Leu
35 40 45
Trp Glu Trp Asn Asn Phe Ser Ser Asp Tyr Val Lys Ala Ser Gly Ile
50 55 60
Tyr Pro Lys Ala Lys Asp Ile Phe Gly Tyr Ser Ser Val His Gly Gln
65 70 75 80
Ala Asn Lys Glu Leu Arg Thr Lys Leu Ala Leu Asn Ser Ser Asn Leu
85 90 95
Ser Thr Thr Thr Met Asp Val Cys Lys Asn Phe Asn Thr Tyr Lys Lys
100 105 110
Glu Val Trp Lys Gly Lys Arg Ser Val Pro Ser Tyr Lys Ser Asp Gln
115 120 125
Pro Leu Asp Leu His Lys Asp Ser Ile Lys Leu Ile Tyr Glu Asn Asn
130 135 140
Gln Phe Tyr Val Arg Leu Ala Leu Leu Lys Lys Ala Gly Phe Ala Lys
145 150 155 160
Tyr Gly Phe Lys Asp Gly Phe Arg Phe Lys Met Gln Val Lys Asp Asn
165 170 175
Ser Thr Lys Thr Ile Leu Glu Arg Cys Phe Asp Gly Ile Tyr Thr Ile
180 185 190
Val Ala Ser Lys Leu Leu Tyr Asp Gln Lys Lys Asn Arg Trp Lys Leu
195 200 205
Asn Leu Ser Tyr Ser Phe Asp Asn Lys Asn Ile Ser Glu Leu Asp Lys
210 215 220
Glu Lys Ile Leu Gly Val Asp Val Gly Val Ser Tyr Pro Leu Val Ala
225 230 235 240
Ser Val Phe Gly Asp Arg Asp Arg Phe Lys Ile Lys Gly Gly Glu Ile
245 250 255
Glu Lys Phe Arg Lys Ser Val Glu Ala Arg Arg Arg Ser Met Leu Glu
260 265 270
Gln Thr Lys Tyr Cys Gly Asp Gly Arg Ile Gly His Gly Arg Lys Lys
275 280 285
Arg Thr Glu Pro Ala Leu Asn Ile Gly Asp Lys Ile Ala Arg Phe Arg
290 295 300
Asp Thr Thr Asn His Lys Tyr Ser Arg Ala Leu Ile Glu Tyr Ala Val
305 310 315 320
Lys Lys Gly Cys Gly Thr Ile Gln Met Glu Lys Leu Thr Gly Ile Thr
325 330 335
Ser Lys Ser Asp Arg Phe Leu Lys Asp Trp Thr Tyr Tyr Asp Leu Gln
340 345 350
Thr Lys Ile Glu Ser Lys Ala Asn Glu Ala Gly Ile Lys Val Val Tyr
355 360 365
Ile Ala Pro Glu Tyr Thr Ser Gln Arg Cys Ser Lys Cys Gly Tyr Ile
370 375 380
His Lys Asp Asn Arg Pro Asn Gln Ala Lys Phe Arg Cys Leu Lys Cys
385 390 395 400
Asp Phe Glu Ser Asn Ala Asp Tyr Asn Ala Ser Gln Asn Ile Gly Ile
405 410 415
Lys Asn Ile Asp Lys Thr Ile Lys Lys Glu Arg Lys Lys Gln Lys Ser
420 425 430
Glu Ala Gln Val Asn Glu Lys
435
<210> 271
<211> 402
<212> PRT
<213> Peptoclostridium sp.
<400> 271
Met Ile Thr Val Arg Lys Leu Lys Leu Thr Ile Ile Asn Asp Asp Glu
1 5 10 15
Thr Lys Arg Asn Glu Gln Tyr Lys Phe Ile Arg Asp Ser Gln Tyr Ala
20 25 30
Gln Tyr Gln Gly Leu Asn Leu Ala Met Ser Val Leu Thr Asn Ala Tyr
35 40 45
Leu Ser Ala Asn Arg Asp Ile Lys Ser Asp Leu Phe Lys Glu Thr Gln
50 55 60
Lys Asn Leu Lys Asn Ser Ser Ser Ile Phe Asn Asp Ile Pro Phe Gly
65 70 75 80
Lys Gly Ile Asp Ser Lys Ser Ser Ile Thr Gln Lys Val Lys Gln Asp
85 90 95
Phe Ser Ile Ala Ile Lys Asn Gly Leu Ala Gly Gly Glu Arg Asn Ile
100 105 110
Thr Asn Tyr Lys Arg Thr Phe Pro Leu Met Thr Arg Gly Arg Asp Leu
115 120 125
Lys Phe Ser Tyr Lys Asp Asp Cys Ser Asp Glu Ile Ile Ile Lys Trp
130 135 140
Val Asn Lys Ile Val Phe Lys Val Val Ile Gly Arg Lys Asp Lys Asn
145 150 155 160
Tyr Leu Glu Leu Met His Thr Leu Asn Lys Val Ile Asn Gly Glu Tyr
165 170 175
Lys Val Gly Gln Ser Ser Ile Tyr Phe Asp Lys Ser Asn Lys Leu Ile
180 185 190
Leu Asn Leu Thr Leu Tyr Ile Pro Glu Lys Lys Asp Asp Asp Ala Ile
195 200 205
Asn Gly Arg Thr Leu Gly Val Asp Leu Gly Ile Lys Tyr Pro Ala Tyr
210 215 220
Val Cys Leu Asn Asp Asp Thr Phe Ile Arg Gln His Ile Gly Glu Ser
225 230 235 240
Leu Glu Leu Ser Lys Gln Arg Glu Gln Phe Arg Asn Arg Arg Lys Arg
245 250 255
Leu Gln Gln Gln Leu Lys Asn Val Lys Gly Gly Lys Gly Arg Glu Lys
260 265 270
Lys Leu Ser Ala Leu Asp Lys Val Ala Val Cys Glu Arg Asn Phe Val
275 280 285
Lys Thr Tyr Asn His Thr Ile Ser Lys Arg Ile Val Asp Phe Ala Lys
290 295 300
Lys Asn Lys Cys Glu Phe Ile Asn Leu Glu Gln Leu Thr Lys Asp Gly
305 310 315 320
Phe Asp Asn Ile Ile Leu Ser Asn Trp Ser Tyr Tyr Glu Leu Gln Asn
325 330 335
Met Ile Lys Tyr Lys Ala Asp Arg Glu Gly Ile Lys Val Arg Tyr Val
340 345 350
Asn Pro Ala Tyr Thr Ser Gln Lys Cys Ser Lys Cys Gly Tyr Ile Asp
355 360 365
Lys Glu Asn Arg Pro Thr Gln Glu Lys Phe Lys Cys Ile Lys Cys Gly
370 375 380
Phe Glu Leu Asn Ala Asp His Asn Ala Ala Ile Asn Ile Ser Arg Leu
385 390 395 400
Glu Glu
<210> 272
<211> 493
<212> PRT
<213> Bacillus sp.
<400> 272
Met Ile Thr Val Arg Lys Leu Lys Leu Ala Ile Val Ser Gly Asn Glu
1 5 10 15
Asn Glu Thr Tyr Gln Phe Leu Arg Asn Glu Met Arg Asn Gln Tyr Lys
20 25 30
Ala Leu Asn Ile Ser Tyr Ser His Leu Tyr Phe Glu Tyr Ile Ala Gln
35 40 45
Glu Lys Ile Lys His Ser Asn Glu Glu Tyr Gln Gln His Leu Thr Lys
50 55 60
Tyr Thr Glu Lys Ala Gln Glu Lys Tyr Gln Asn Tyr Leu Lys Cys Lys
65 70 75 80
Gly Lys Ala Glu Val Phe Lys Asp Asp Gln Gln Leu Gln Lys Arg Val
85 90 95
Glu Lys Ala Arg Asp Asp Tyr Asn Lys Ala Gln Glu Lys Val Tyr Lys
100 105 110
Ile Glu Lys Gln Tyr Ser Lys Lys Ala Ser Glu Ile Tyr Gln Lys Ala
115 120 125
Val Gly Leu Val Lys Gln Thr Arg Ile Gly Lys Leu Ile Asn Ser Lys
130 135 140
Phe Asp Leu His Tyr Asp Thr Val Asp Arg Ile Thr Ser Thr Val Ile
145 150 155 160
Ser His Phe Thr Cys Asp Met Lys Ala Gly Leu Leu Asn Gly Lys Arg
165 170 175
Asn Leu Arg Asn Tyr Lys Glu Thr Asn Pro Leu Met Ile Arg Ala Arg
180 185 190
Ser Met Val Leu Tyr Glu Glu Ser Gly Asp Tyr Phe Ile Lys Trp Ile
195 200 205
Lys Gly Ile Thr Phe Lys Val Ile Leu Leu Glu Ser Ser Lys Gln Arg
210 215 220
Ala Asn Ile Asn Glu Leu Lys Ser Leu Leu Val Asn Ile Ile Glu Gly
225 230 235 240
Asn Tyr Lys Ile Cys Asp Ser Ser Ile Ala Ile Asn Lys Lys Leu Ile
245 250 255
Leu Asn Leu Ser Leu Asn Ile Pro Val Ser Arg Lys Asn Ser Phe Met
260 265 270
Lys Gly Arg Val Val Gly Leu Asp Leu Gly Leu Arg Ile Pro Ala Tyr
275 280 285
Val Ser Ile Asn Asp Lys Pro Tyr Ile Arg Lys Ser Ile Gly Ser Ile
290 295 300
Glu Asp Phe Leu Lys Val Arg Thr Gln Ile Gln Ser Gln Arg Lys Arg
305 310 315 320
Leu Gln Lys Ala Leu Gln Ser Thr Arg Gly Gly Lys Gly Lys Asn Lys
325 330 335
Lys Leu Gln Gly Leu Asn Arg Ile Lys Glu Lys Glu Lys Asn Phe Val
340 345 350
Asn Thr Tyr Asn His Phe Ile Ser Ser Lys Ile Val Gln Phe Ala Leu
355 360 365
Lys Asn Gln Ala Gly Ile Ile His Met Glu Tyr Leu Glu Phe Asp Arg
370 375 380
Met Lys Asn Lys Ser Leu Leu Arg Asn Trp Ser Tyr Tyr Gln Leu Gln
385 390 395 400
Gln Met Ile Glu Tyr Lys Ala Lys Arg Glu Gly Ile Glu Val Lys Tyr
405 410 415
Ile Asp Ala His Tyr Thr Ser Gln Thr Cys Ser Lys Cys Asn His Tyr
420 425 430
Glu Leu Gly Gln Arg Glu Ile Gln Glu Lys Phe Ser Cys Lys Ser Cys
435 440 445
Gly Phe Asn Ala Asn Ala Asp Tyr Asn Ala Ser Gln Asn Ile Ala Asn
450 455 460
Ser Ile Lys Phe Ile Thr Thr Asn Lys Lys Ile Ile Glu Glu Leu Glu
465 470 475 480
Val Glu Glu Lys Gln Leu Ser Leu Asp Phe Asn Gly Ser
485 490
<210> 273
<211> 421
<212> PRT
<213> Clostridioides difficile
<400> 273
Met Leu Tyr Leu Pro Lys Tyr Ala Ile Ile Leu Leu Thr Cys Arg Ile
1 5 10 15
Arg Met Val Ala Met Ile Ala Val Lys Lys Leu Lys Leu Thr Ile Val
20 25 30
Glu Glu Glu Glu Lys Arg Lys Glu Gln Tyr Lys Phe Ile Arg Asp Ser
35 40 45
Gln Tyr Ala Gln Tyr Gln Gly Leu Asn Leu Ala Met Gly Ile Leu Thr
50 55 60
Ser Ala Tyr Leu Val Ser Gly Arg Asp Ile Lys Ser Asp Leu Phe Lys
65 70 75 80
Asp Ser Gln Lys Ser Leu Thr Asn Ser Asn Glu Ile Phe Asn Gly Ile
85 90 95
Asn Phe Gly Lys Gly Ile Asp Thr Lys Ser Ser Ile Thr Gln Lys Val
100 105 110
Lys Lys Asp Phe Ser Thr Ser Leu Lys Asn Gly Leu Ala Lys Gly Glu
115 120 125
Arg Gly Phe Thr Asn Tyr Lys Arg Asp Phe Pro Leu Met Thr Arg Gly
130 135 140
Arg Asp Leu Lys Phe Tyr Glu Glu Asp Lys Glu Phe Tyr Ile Lys Trp
145 150 155 160
Val Asn Lys Ile Val Phe Lys Ile Leu Ile Gly Arg Lys Asp Lys Asn
165 170 175
Lys Val Glu Leu Ile His Thr Leu Asn Lys Val Leu Asn Lys Glu Tyr
180 185 190
Lys Val Ser Gln Ser Ser Leu Gln Phe Asp Lys Asn Asn Lys Leu Ile
195 200 205
Leu Asn Leu Thr Ile Asp Ile Pro Tyr Lys Lys Val Asp Glu Ile Val
210 215 220
Lys Asp Arg Val Cys Gly Val Asp Met Gly Ile Ala Ile Pro Ile Tyr
225 230 235 240
Val Ala Leu Asn Asp Val Ser Tyr Val Arg Glu Gly Met Gly Thr Ile
245 250 255
Asp Glu Phe Met Lys Gln Arg Leu Gln Phe Gln Ser Arg Arg Arg Arg
260 265 270
Leu Gln Gln Gln Leu Lys Asn Val Asn Gly Gly Lys Gly Arg Lys Asp
275 280 285
Lys Leu Lys Gly Leu Glu Ser Leu Arg Glu Lys Glu Lys Ser Trp Val
290 295 300
Lys Thr Tyr Asn His Ala Leu Ser Lys Arg Val Val Glu Phe Ala Lys
305 310 315 320
Lys Asn Lys Cys Glu Tyr Ile His Leu Glu Lys Leu Thr Lys Asp Gly
325 330 335
Phe Gly Asp Arg Leu Leu Arg Asn Trp Ser Tyr Tyr Glu Leu Gln Glu
340 345 350
Met Ile Lys Tyr Lys Ala Asp Arg Val Gly Ile Lys Val Lys His Val
355 360 365
Asn Pro Ala Tyr Thr Ser Gln Thr Cys Ser Glu Cys Gly His Ala Asp
370 375 380
Lys Glu Asn Arg Glu Thr Gln Ala Lys Phe Lys Cys Leu Glu Cys Gly
385 390 395 400
Phe Glu Ala Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Lys Ser
405 410 415
Asp Lys Phe Val Lys
420
<210> 274
<211> 421
<212> PRT
<213> Clostridioides difficile
<400> 274
Met Leu Tyr Leu Pro Lys Tyr Ala Ile Ile Leu Leu Thr Cys Arg Ile
1 5 10 15
Arg Met Val Ala Met Ile Ala Val Lys Lys Leu Lys Leu Thr Ile Val
20 25 30
Glu Glu Glu Glu Lys Arg Lys Glu Gln Tyr Lys Phe Ile Arg Asp Ser
35 40 45
Gln Tyr Ala Gln Tyr Gln Gly Leu Asn Leu Ala Met Gly Ile Leu Thr
50 55 60
Ser Ala Tyr Leu Ala Ser Gly Arg Asp Ile Lys Ser Asp Leu Phe Lys
65 70 75 80
Asp Ser Gln Lys Ser Leu Thr Asn Ser Asn Glu Ile Phe Asn Gly Ile
85 90 95
Asn Phe Gly Lys Gly Ile Asp Thr Lys Ser Ser Ile Thr Gln Lys Val
100 105 110
Lys Lys Asp Phe Ser Thr Ser Leu Lys Asn Gly Leu Ala Lys Gly Glu
115 120 125
Arg Gly Phe Thr Asn Tyr Lys Arg Asp Phe Pro Leu Met Thr Arg Gly
130 135 140
Arg Asp Leu Lys Phe Tyr Glu Glu Asp Lys Glu Phe Tyr Ile Lys Trp
145 150 155 160
Val Asn Lys Ile Val Phe Lys Ile Leu Ile Gly Arg Lys Asp Lys Asn
165 170 175
Lys Val Glu Leu Ile His Thr Leu Asn Lys Val Leu Asn Lys Glu Tyr
180 185 190
Lys Val Ser Gln Ser Ser Leu Gln Phe Asp Lys Asn Asn Lys Leu Ile
195 200 205
Leu Asn Leu Thr Ile Asp Ile Pro Tyr Lys Gln Val Asp Glu Ile Val
210 215 220
Lys Gly Arg Val Cys Gly Val Asp Met Gly Ile Ala Ile Pro Val Tyr
225 230 235 240
Val Ala Leu Asn Asp Val Ser Tyr Val Arg Glu Gly Met Gly Thr Ile
245 250 255
Asp Glu Phe Met Lys Gln Arg Leu Gln Phe Gln Ser Arg Arg Arg Arg
260 265 270
Leu Gln Gln Gln Leu Lys Asn Val Asn Gly Gly Lys Gly Arg Lys Asp
275 280 285
Lys Leu Lys Gly Leu Glu Ser Leu Arg Glu Lys Glu Lys Ser Trp Val
290 295 300
Lys Thr Tyr Asn His Ala Leu Ser Lys Arg Val Val Glu Phe Ala Lys
305 310 315 320
Lys Asn Lys Cys Glu Tyr Ile His Leu Glu Lys Leu Thr Lys Asp Gly
325 330 335
Phe Gly Asp Arg Leu Leu Arg Asn Trp Ser Tyr Tyr Glu Leu Gln Glu
340 345 350
Met Ile Lys Tyr Lys Ala Asp Arg Val Gly Ile Lys Val Lys His Val
355 360 365
Asn Pro Ser Tyr Thr Ser Gln Thr Cys Ser Glu Cys Gly His Val Asp
370 375 380
Lys Glu Asn Arg Glu Thr Gln Ala Lys Phe Lys Cys Leu Glu Cys Gly
385 390 395 400
Phe Glu Ala Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Lys Ser
405 410 415
Asp Lys Phe Val Lys
420
<210> 275
<211> 507
<212> PRT
<213> Unknown
<220>
<223> uncultured archaeon
<400> 275
Met Glu Glu Ala Lys Thr Val Ser Lys Thr Leu Ser Leu Arg Ile Leu
1 5 10 15
Arg Pro Leu Tyr Ser Ala Glu Ile Glu Lys Glu Ile Lys Glu Glu Lys
20 25 30
Glu Arg Arg Lys Gln Gly Gly Lys Ser Gly Glu Leu Asp Ser Gly Phe
35 40 45
Tyr Lys Lys Leu Glu Lys Lys His Thr Gln Met Phe Gly Trp Asp Lys
50 55 60
Leu Asn Leu Met Leu Ser Gln Leu Gln Arg Gln Ile Ala Arg Val Phe
65 70 75 80
Asn Gln Ser Ile Ser Glu Leu Tyr Ile Glu Thr Val Ile Gln Gly Lys
85 90 95
Lys Ser Asn Lys His Tyr Thr Ser Lys Ile Val Tyr Asn Arg Ala Tyr
100 105 110
Ser Val Phe Tyr Asn Ala Tyr Leu Ala Leu Gly Ile Thr Ser Lys Val
115 120 125
Glu Ala Asn Phe Arg Ser Thr Glu Leu Leu Met Gln Lys Ser Ser Leu
130 135 140
Pro Thr Ala Lys Ser Asp Asn Phe Pro Ile Leu Leu His Lys Gln Lys
145 150 155 160
Gly Val Glu Gly Glu Glu Gly Gly Phe Lys Ile Ser Ala Asp Gly Asn
165 170 175
Asp Leu Ile Phe Glu Ile Pro Ile Pro Phe Tyr Glu Tyr Asp Ser Ala
180 185 190
Asn Lys Lys Glu Pro Phe Lys Trp Ile Lys Lys Gly Gly Gln Lys Pro
195 200 205
Thr Ile Lys Leu Ile Leu Ser Thr Phe Arg Arg Gln Arg Asn Lys Gly
210 215 220
Trp Ala Lys Asp Glu Gly Thr Asp Ala Glu Ile Arg Lys Val Ile Glu
225 230 235 240
Gly Lys Tyr Gln Val Ser His Ile Glu Ile Asn Arg Gly Lys Lys Leu
245 250 255
Gly Asp His Gln Lys Trp Phe Val Asn Phe Thr Ile Glu Gln Pro Ile
260 265 270
Tyr Glu Arg Lys Leu Asp Lys Asn Ile Ile Gly Gly Ile Asp Val Gly
275 280 285
Ile Lys Ser Pro Leu Val Cys Ala Val Asn Asn Ser Phe Ala Arg Tyr
290 295 300
Ser Val Asp Ser Asn Asp Val Leu Lys Phe Ser Lys Gln Ala Phe Ala
305 310 315 320
Phe Arg Arg Arg Leu Leu Ser Lys Asn Ser Leu Lys Arg Ser Gly His
325 330 335
Gly Ser Lys Asn Lys Leu Asp Pro Ile Thr Arg Met Thr Glu Lys Asn
340 345 350
Asp Arg Phe Arg Lys Lys Ile Ile Glu Arg Trp Ala Lys Glu Val Thr
355 360 365
Asn Phe Phe Ile Lys Asn Gln Val Gly Thr Val Gln Ile Glu Asp Leu
370 375 380
Ser Thr Met Lys Asp Arg Gln Asp Asn Phe Phe Asn Gln Tyr Leu Arg
385 390 395 400
Gly Phe Trp Pro Tyr Tyr Gln Met Gln Asn Leu Ile Glu Asn Lys Leu
405 410 415
Lys Glu Tyr Gly Ile Glu Thr Lys Arg Ile Lys Ala Arg Tyr Thr Ser
420 425 430
Gln Leu Cys Ser Asn Pro Ser Cys Arg His Trp Asn Ser Tyr Phe Ser
435 440 445
Phe Asp His Arg Lys Thr Asn Asn Phe Pro Lys Phe Lys Cys Glu Lys
450 455 460
Cys Ala Leu Glu Ile Ser Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ser
465 470 475 480
Thr Pro Asp Ile Glu Lys Phe Val Ala Lys Ala Thr Lys Gly Ile Asn
485 490 495
Leu Pro Asp Lys Asn Glu Asn Val Ile Leu Glu
500 505
<210> 276
<211> 541
<212> PRT
<213> Unknown
<220>
<223> uncultured archaeon
<400> 276
Met Trp Thr Ile Val Ile Gly Asp Phe Ile Glu Met Pro Lys Gln Asp
1 5 10 15
Leu Val Thr Thr Gly Ile Lys Phe Lys Leu Asp Val Asp Lys Glu Thr
20 25 30
Arg Lys Lys Leu Asp Asp Tyr Phe Asp Glu Tyr Gly Lys Ala Ile Asn
35 40 45
Phe Ala Val Lys Ile Ile Gln Lys Asn Leu Lys Glu Asp Arg Phe Ala
50 55 60
Gly Lys Ile Ala Leu Gly Glu Asp Lys Lys Pro Leu Leu Asp Lys Asp
65 70 75 80
Gly Lys Lys Ile Tyr Asn Tyr Pro Asn Glu Ser Cys Ser Cys Gly Asn
85 90 95
Gln Val Arg Arg Tyr Val Asn Ala Lys Pro Phe Cys Val Asp Cys Tyr
100 105 110
Lys Leu Lys Phe Thr Glu Asn Gly Ile Arg Lys Arg Met Tyr Ser Ala
115 120 125
Arg Gly Arg Lys Ala Asp Ser Asp Ile Asn Ile Lys Asn Ser Thr Asn
130 135 140
Lys Ile Ser Lys Thr His Phe Asn Tyr Ala Ile Arg Glu Gly Phe Ile
145 150 155 160
Leu Asp Lys Ser Leu Lys Lys Gln Arg Ser Lys Arg Ile Lys Lys Leu
165 170 175
Leu Glu Leu Lys Arg Lys Leu Gln Glu Phe Ile Asp Ile Arg Gln Gly
180 185 190
Gln Met Val Leu Cys Pro Lys Ile Lys Asn Gln Arg Val Asp Lys Phe
195 200 205
Ile His Pro Ser Trp Leu Lys Arg Asp Lys Lys Leu Glu Glu Phe Arg
210 215 220
Gly Tyr Ser Leu Ser Val Val Glu Gly Lys Ile Lys Ile Phe Asn Arg
225 230 235 240
Asn Ile Leu Arg Glu Glu Asp Ser Leu Arg Gln Arg Gly His Val Asn
245 250 255
Phe Lys Ala Asn Arg Ile Met Leu Asp Lys Ser Val Arg Phe Leu Asp
260 265 270
Gly Gly Lys Val Asn Phe Asn Leu Asn Lys Gly Leu Pro Lys Glu Tyr
275 280 285
Leu Leu Asp Leu Pro Lys Lys Glu Asn Lys Leu Ser Trp Leu Asn Glu
290 295 300
Lys Ile Ser Leu Ile Lys Leu Gln Lys Pro Lys Tyr Ala Tyr Leu Leu
305 310 315 320
Arg Arg Glu Gly Ser Phe Phe Ile Gln Tyr Thr Ile Glu Asn Val Pro
325 330 335
Lys Thr Phe Ser Asp Tyr Leu Gly Ala Ile Gly Ile Asp Arg Gly Ile
340 345 350
Ser His Ile Ala Val Cys Thr Phe Val Ser Lys Asn Gly Val Asn Lys
355 360 365
Ala Pro Val Phe Phe Ser Ser Gly Glu Ile Leu Lys Leu Lys Ser Leu
370 375 380
Gln Lys Gln Arg Asp Leu Phe Leu Arg Gly Lys His Asn Lys Ile Arg
385 390 395 400
Lys Lys Ser Asn Met Arg Asn Ile Asp Asn Lys Ile Asn Leu Ile Leu
405 410 415
His Lys Tyr Ser Arg Asn Ile Val Asn Leu Ala Lys Ser Glu Lys Ala
420 425 430
Phe Ile Val Phe Glu Lys Leu Glu Lys Ile Lys Lys Ser Arg Phe Lys
435 440 445
Met Ser Lys Ser Leu Gln Tyr Lys Leu Ser Gln Phe Thr Phe Lys Lys
450 455 460
Leu Ser Asp Leu Val Glu Tyr Lys Ala Lys Ile Glu Gly Ile Lys Val
465 470 475 480
Asp Tyr Val Pro Pro Glu Tyr Thr Ser Lys Glu Cys Ser His Cys Gly
485 490 495
Glu Lys Val Asp Thr Gln Arg Pro Phe Asn Gly Asn Ser Ser Leu Phe
500 505 510
Lys Cys Asn Lys Cys Arg Val Gln Leu Asn Ala Asp Tyr Asn Ala Ser
515 520 525
Ile Asn Ile Ala Lys Lys Ser Leu Asn Ile Ser Asn Asn
530 535 540
<210> 277
<211> 537
<212> PRT
<213> Unknown
<220>
<223> uncultured archaeon
<400> 277
Met Glu Glu Ser Ile Ile Thr Gly Val Lys Phe Lys Leu Arg Ile Asp
1 5 10 15
Lys Glu Thr Thr Lys Lys Leu Asn Glu Tyr Phe Asp Glu Tyr Gly Lys
20 25 30
Ala Ile Asn Phe Ala Val Lys Ile Ile Gln Lys Glu Leu Ala Asp Asp
35 40 45
Arg Phe Ala Gly Lys Ala Lys Leu Asp Gln Asn Lys Asn Pro Ile Leu
50 55 60
Asp Glu Asn Gly Lys Lys Ile Tyr Glu Phe Pro Asp Glu Phe Cys Ser
65 70 75 80
Cys Gly Lys Gln Val Asn Lys Tyr Val Asn Asn Lys Pro Phe Cys Gln
85 90 95
Glu Cys Tyr Lys Ile Arg Phe Thr Glu Asn Gly Ile Arg Lys Arg Met
100 105 110
Tyr Ser Ala Lys Gly Arg Lys Ala Glu His Lys Ile Asn Ile Leu Asn
115 120 125
Ser Thr Asn Lys Ile Ser Lys Thr His Phe Asn Tyr Ala Ile Arg Glu
130 135 140
Ala Phe Ile Leu Asp Lys Ser Ile Lys Lys Gln Arg Lys Lys Arg Asn
145 150 155 160
Glu Arg Leu Arg Glu Ser Lys Lys Arg Leu Gln Gln Phe Ile Asp Met
165 170 175
Arg Asp Gly Lys Arg Glu Ile Cys Pro Thr Ile Lys Gly Gln Lys Val
180 185 190
Asp Arg Phe Ile His Pro Ser Trp Ile Thr Lys Asp Lys Lys Leu Glu
195 200 205
Asp Phe Arg Gly Tyr Thr Leu Ser Ile Ile Asn Ser Lys Ile Lys Ile
210 215 220
Leu Asp Arg Asn Ile Lys Arg Glu Glu Lys Ser Leu Lys Glu Lys Gly
225 230 235 240
Gln Ile Ile Phe Lys Ala Lys Arg Leu Met Leu Asp Lys Ser Ile Arg
245 250 255
Phe Val Gly Asp Arg Lys Val Leu Phe Thr Ile Ser Lys Thr Leu Pro
260 265 270
Lys Glu Tyr Glu Leu Asp Leu Pro Ser Lys Glu Lys Arg Leu Asn Trp
275 280 285
Leu Lys Glu Lys Ile Glu Ile Ile Lys Asn Gln Lys Pro Lys Tyr Ala
290 295 300
Tyr Leu Leu Arg Lys Asn Ile Glu Ser Glu Lys Lys Pro Asn Tyr Glu
305 310 315 320
Tyr Tyr Leu Gln Tyr Thr Leu Glu Ile Lys Pro Glu Leu Lys Asp Phe
325 330 335
Tyr Asp Gly Ala Ile Gly Ile Asp Arg Gly Ile Asn His Ile Ala Val
340 345 350
Cys Thr Phe Ile Ser Asn Asp Gly Lys Val Thr Pro Pro Lys Phe Phe
355 360 365
Ser Ser Gly Glu Ile Leu Arg Leu Lys Asn Leu Gln Lys Glu Arg Asp
370 375 380
Arg Phe Leu Leu Arg Lys His Asn Lys Asn Arg Lys Lys Gly Asn Met
385 390 395 400
Arg Val Ile Glu Asn Lys Ile Asn Leu Ile Leu His Arg Tyr Ser Lys
405 410 415
Gln Ile Val Asp Met Ala Lys Lys Leu Asn Ala Ser Ile Val Phe Glu
420 425 430
Glu Leu Gly Arg Ile Gly Lys Ser Arg Thr Lys Met Lys Lys Ser Gln
435 440 445
Arg Tyr Lys Leu Ser Leu Phe Ile Phe Lys Lys Leu Ser Asp Leu Val
450 455 460
Asp Tyr Lys Ser Arg Arg Glu Gly Ile Arg Val Thr Tyr Val Pro Pro
465 470 475 480
Glu Tyr Thr Ser Lys Glu Cys Ser His Cys Gly Glu Lys Val Asn Thr
485 490 495
Gln Arg Pro Phe Asn Gly Asn Tyr Ser Leu Phe Lys Cys Asn Lys Cys
500 505 510
Gly Ile Gln Leu Asn Ser Asp Tyr Asn Ala Ser Ile Asn Ile Ala Lys
515 520 525
Lys Gly Leu Lys Ile Pro Asn Ser Thr
530 535
<210> 278
<211> 534
<212> PRT
<213> Unknown
<220>
<223> uncultured archaeon
<400> 278
Met Lys Leu Ser Glu Gln Glu Asn Ile Thr Thr Gly Val Lys Phe Lys
1 5 10 15
Leu Lys Leu Asp Lys Glu Thr Ser Glu Gly Leu Asn Asp Tyr Phe Asp
20 25 30
Glu Tyr Gly Lys Ala Ile Asn Phe Ala Ile Lys Val Ile Gln Lys Glu
35 40 45
Leu Ala Glu Asp Arg Phe Ala Gly Lys Val Arg Leu Asp Glu Asn Lys
50 55 60
Lys Pro Leu Leu Asn Glu Asp Gly Lys Lys Ile Trp Asp Phe Pro Asn
65 70 75 80
Glu Phe Cys Ser Cys Gly Lys Gln Val Asn Arg Tyr Val Asn Gly Lys
85 90 95
Ser Leu Cys Gln Glu Cys Tyr Lys Asn Lys Phe Thr Glu Tyr Gly Ile
100 105 110
Arg Lys Arg Met Tyr Ser Ala Lys Gly Arg Lys Ala Glu Gln Asp Ile
115 120 125
Asn Ile Lys Asn Ser Thr Asn Lys Ile Ser Lys Thr His Phe Asn Tyr
130 135 140
Ala Ile Arg Glu Ala Phe Ile Leu Asp Lys Ser Ile Lys Lys Gln Arg
145 150 155 160
Lys Glu Arg Phe Arg Arg Leu Arg Glu Met Lys Lys Lys Leu Gln Glu
165 170 175
Phe Ile Glu Ile Arg Asp Gly Asn Lys Ile Leu Cys Pro Lys Ile Glu
180 185 190
Lys Gln Arg Val Glu Arg Tyr Ile His Pro Ser Trp Ile Asn Lys Glu
195 200 205
Lys Lys Leu Glu Asp Phe Arg Gly Tyr Ser Met Ser Asn Val Leu Gly
210 215 220
Lys Ile Lys Ile Leu Asp Arg Asn Ile Lys Arg Glu Glu Lys Ser Leu
225 230 235 240
Lys Glu Lys Gly Gln Ile Asn Phe Lys Ala Arg Arg Leu Met Leu Asp
245 250 255
Lys Ser Val Lys Phe Leu Asn Asp Asn Lys Ile Ser Phe Thr Ile Ser
260 265 270
Lys Asn Leu Pro Lys Glu Tyr Glu Leu Asp Leu Pro Glu Lys Glu Lys
275 280 285
Arg Leu Asn Trp Leu Lys Glu Lys Ile Lys Ile Ile Lys Asn Gln Lys
290 295 300
Pro Lys Tyr Ala Tyr Leu Leu Arg Lys Asp Asp Asn Phe Tyr Leu Gln
305 310 315 320
Tyr Thr Leu Glu Thr Glu Phe Asn Leu Lys Glu Asp Tyr Ser Gly Ile
325 330 335
Val Gly Ile Asp Arg Gly Val Ser His Ile Ala Val Tyr Thr Phe Val
340 345 350
His Asn Asn Gly Lys Asn Glu Arg Pro Leu Phe Leu Asn Ser Ser Glu
355 360 365
Ile Leu Arg Leu Lys Asn Leu Gln Lys Glu Arg Asp Arg Phe Leu Arg
370 375 380
Arg Lys His Asn Lys Lys Arg Lys Lys Ser Asn Met Arg Asn Ile Glu
385 390 395 400
Lys Lys Ile Gln Leu Ile Leu His Asn Tyr Ser Lys Gln Ile Val Asp
405 410 415
Phe Ala Lys Asn Lys Asn Ala Phe Ile Val Phe Glu Lys Leu Glu Lys
420 425 430
Pro Lys Lys Asn Arg Ser Lys Met Ser Lys Lys Ser Gln Tyr Lys Leu
435 440 445
Ser Gln Phe Thr Phe Lys Lys Leu Ser Asp Leu Val Asp Tyr Lys Ala
450 455 460
Lys Arg Glu Gly Ile Lys Val Leu Tyr Ile Ser Pro Glu Tyr Thr Ser
465 470 475 480
Lys Glu Cys Ser His Cys Gly Glu Lys Val Asn Thr Gln Arg Pro Phe
485 490 495
Asn Gly Asn Ser Ser Leu Phe Lys Cys Asn Lys Cys Gly Val Glu Leu
500 505 510
Asn Ala Asp Tyr Asn Ala Ser Ile Asn Ile Ala Lys Lys Gly Leu Asn
515 520 525
Ile Leu Asn Ser Thr Asn
530
<210> 279
<211> 726
<212> PRT
<213> Unknown
<220>
<223> uncultured archaeon
<400> 279
Met Glu Arg Gln Lys Val Pro Gln Ile Arg Lys Ile Val Arg Val Val
1 5 10 15
Pro Leu Arg Ile Leu Arg Pro Lys Tyr Ser Asp Val Ile Glu Asn Ala
20 25 30
Leu Lys Lys Phe Lys Glu Lys Gly Asp Asp Thr Asn Thr Asn Asp Phe
35 40 45
Trp Arg Ala Ile Arg Asp Arg Asp Thr Glu Phe Phe Arg Lys Glu Leu
50 55 60
Asn Phe Ser Glu Asp Glu Ile Asn Gln Leu Glu Arg Asp Thr Leu Phe
65 70 75 80
Arg Val Gly Leu Asp Asn Arg Val Leu Phe Ser Tyr Phe Asp Phe Leu
85 90 95
Gln Glu Lys Leu Met Lys Asp Tyr Asn Lys Ile Ile Ser Lys Leu Phe
100 105 110
Ile Asn Arg Gln Ser Lys Ser Ser Phe Glu Asn Asp Leu Thr Asp Glu
115 120 125
Glu Val Glu Glu Leu Ile Glu Lys Asp Val Thr Pro Phe Tyr Gly Ala
130 135 140
Tyr Ile Gly Lys Gly Ile Lys Ser Val Ile Lys Ser Asn Leu Gly Gly
145 150 155 160
Lys Phe Ile Lys Ser Val Lys Ile Asp Arg Glu Thr Lys Lys Val Thr
165 170 175
Lys Leu Thr Ala Ile Asn Ile Gly Leu Met Gly Leu Pro Val Ala Lys
180 185 190
Ser Asp Thr Phe Pro Ile Lys Ile Ile Lys Thr Asn Pro Asp Tyr Ile
195 200 205
Thr Phe Gln Lys Ser Thr Lys Glu Asn Leu Gln Lys Ile Glu Asp Tyr
210 215 220
Glu Thr Gly Ile Glu Tyr Gly Asp Leu Leu Val Gln Ile Thr Ile Pro
225 230 235 240
Trp Phe Lys Asn Glu Asn Lys Asp Phe Ser Leu Ile Lys Thr Lys Glu
245 250 255
Ala Ile Glu Tyr Tyr Lys Leu Asn Gly Val Gly Lys Lys Asp Leu Leu
260 265 270
Asn Ile Asn Leu Val Leu Thr Thr Tyr His Ile Arg Lys Lys Lys Ser
275 280 285
Trp Gln Ile Asp Gly Ser Ser Gln Ser Leu Val Arg Glu Met Ala Asn
290 295 300
Gly Glu Leu Glu Glu Lys Trp Lys Ser Phe Phe Asp Thr Phe Ile Lys
305 310 315 320
Lys Tyr Gly Asp Glu Gly Lys Ser Ala Leu Val Lys Arg Arg Val Asn
325 330 335
Lys Lys Ser Arg Ala Lys Gly Glu Lys Gly Arg Glu Leu Asn Leu Asp
340 345 350
Glu Arg Ile Lys Arg Leu Tyr Asp Ser Ile Lys Ala Lys Ser Phe Pro
355 360 365
Ser Glu Ile Asn Leu Ile Pro Glu Asn Tyr Lys Trp Lys Leu His Phe
370 375 380
Ser Ile Glu Ile Pro Pro Met Val Asn Asp Ile Asp Ser Asn Leu Tyr
385 390 395 400
Gly Gly Ile Asp Phe Gly Glu Gln Asn Ile Ala Thr Leu Cys Val Lys
405 410 415
Asn Ile Glu Lys Asp Asp Tyr Asp Phe Leu Thr Ile Tyr Gly Asn Asp
420 425 430
Leu Leu Lys His Ala Gln Ala Ser Tyr Ala Arg Arg Arg Ile Met Arg
435 440 445
Val Gln Asp Glu Tyr Lys Ala Arg Gly His Gly Lys Ser Arg Lys Thr
450 455 460
Lys Ala Gln Glu Asp Tyr Ser Glu Arg Met Gln Lys Leu Arg Gln Lys
465 470 475 480
Ile Thr Glu Arg Leu Val Lys Gln Ile Ser Asp Phe Phe Leu Trp Arg
485 490 495
Asn Lys Phe His Met Ala Val Cys Ser Leu Arg Tyr Glu Asp Leu Asn
500 505 510
Thr Leu Tyr Lys Gly Glu Ser Val Lys Ala Lys Arg Met Arg Gln Phe
515 520 525
Ile Asn Lys Gln Gln Leu Phe Asn Gly Ile Glu Arg Lys Leu Lys Asp
530 535 540
Tyr Asn Ser Glu Ile Tyr Val Asn Ser Arg Tyr Pro His Tyr Thr Ser
545 550 555 560
Arg Leu Cys Ser Lys Cys Gly Lys Leu Asn Leu Tyr Phe Asp Phe Leu
565 570 575
Lys Phe Arg Thr Lys Asn Ile Ile Ile Arg Lys Asn Pro Asp Gly Ser
580 585 590
Glu Ile Lys Tyr Met Pro Phe Phe Ile Cys Glu Phe Cys Gly Trp Lys
595 600 605
Gln Ala Gly Asp Lys Asn Ala Ser Ala Asn Ile Ala Asp Lys Asp Tyr
610 615 620
Gln Asp Lys Leu Asn Lys Glu Lys Glu Phe Cys Asn Ile Arg Lys Pro
625 630 635 640
Lys Ser Lys Lys Glu Asp Ile Gly Glu Glu Asn Glu Glu Glu Arg Asp
645 650 655
Tyr Ser Arg Arg Phe Asn Arg Asn Ser Phe Ile Tyr Asn Ser Leu Lys
660 665 670
Lys Asp Asn Lys Leu Asn Gln Glu Lys Leu Phe Asp Glu Trp Lys Asn
675 680 685
Gln Leu Lys Arg Lys Ile Asp Gly Arg Asn Lys Phe Glu Pro Lys Glu
690 695 700
Tyr Lys Asp Arg Phe Ser Tyr Leu Phe Ala Tyr Tyr Gln Glu Ile Ile
705 710 715 720
Lys Asn Glu Ser Glu Ser
725
<210> 280
<211> 777
<212> PRT
<213> Unknown
<220>
<223> uncultured archaeon
<400> 280
Met Val Thr Arg Ala Ile Lys Leu Lys Leu Asp Pro Thr Lys Asn Gln
1 5 10 15
Tyr Lys Leu Leu Asn Glu Met Phe Trp Lys Trp Ala Ser Leu Ala Asn
20 25 30
Arg Phe Ser Gln Lys Gly Ala Ser Lys Glu Thr Leu Ala Pro Lys Asp
35 40 45
Gly Thr Gln Lys Ile Gln Phe Asn Ala Thr Gln Leu Asn Gln Ile Lys
50 55 60
Lys Asp Val Asp Asp Leu Arg Gly Ala Met Glu Lys Gln Gly Lys Gln
65 70 75 80
Lys Glu Arg Leu Leu Ile Gln Ile Gln Glu Arg Leu Leu Thr Ile Ser
85 90 95
Glu Ile Leu Arg Asp Asp Ser Lys Lys Glu Lys Asp Pro His Arg Pro
100 105 110
Gln Asn Phe Arg Pro Phe Gly Trp Arg Arg Phe His Thr Ser Ala Tyr
115 120 125
Trp Ser Ser Glu Ala Ser Lys Leu Thr Arg Gln Val Asp Arg Val Arg
130 135 140
Arg Thr Ile Glu Arg Ile Lys Ala Gly Lys Ile Asn Phe Lys Pro Lys
145 150 155 160
Arg Ile Gly Leu Trp Ser Ser Thr Tyr Lys Ile Asn Phe Leu Lys Lys
165 170 175
Lys Ile Asn Ile Ser Pro Leu Lys Ser Lys Ser Phe Glu Leu Asp Leu
180 185 190
Ile Thr Glu Pro Gln Gln Lys Ile Ile Gly Lys Glu Gly Gly Lys Ser
195 200 205
Val Ala Asn Ser Lys Lys Tyr Leu Asp Asp Ser Ile Lys Ser Leu Leu
210 215 220
Ile Phe Ala Ile Lys Ser Arg Leu Phe Gly Leu Asn Asn Lys Asp Lys
225 230 235 240
Pro Leu Phe Glu Asn Ile Ile Thr Pro Asn Leu Val Arg Tyr His Lys
245 250 255
Lys Gly Gln Glu Gln Glu Asn Phe Lys Lys Glu Val Ile Lys Lys Phe
260 265 270
Glu Asn Lys Leu Lys Lys Glu Ile Ser Gln Lys Gln Lys Glu Ile Ile
275 280 285
Phe Ser Gln Ile Glu Arg Gln Tyr Glu Asn Arg Asp Ala Thr Phe Ser
290 295 300
Glu Asp Tyr Leu Arg Ala Ile Ser Glu Phe Ser Glu Ile Phe Asn Gln
305 310 315 320
Arg Lys Lys Glu Arg Ala Lys Glu Leu Leu Asn Ser Phe Asn Glu Lys
325 330 335
Ile Arg Gln Leu Lys Lys Glu Val Asn Gly Asn Ile Ser Glu Glu Asp
340 345 350
Leu Lys Ile Leu Glu Val Glu Ala Glu Lys Ala Tyr Asn Tyr Glu Asn
355 360 365
Gly Phe Ile Glu Trp Glu Tyr Ser Glu Gln Phe Leu Gly Val Leu Glu
370 375 380
Lys Ile Ala Arg Ala Val Leu Ile Ser Asp Asn Tyr Phe Asp Leu Lys
385 390 395 400
Lys Tyr Pro Ile Leu Ile Arg Lys Pro Thr Asn Lys Ser Lys Lys Ile
405 410 415
Thr Asn Leu Lys Pro Glu Glu Trp Asp Tyr Tyr Ile Gln Phe Gly Tyr
420 425 430
Gly Leu Ile Asn Ser Pro Met Lys Ile Glu Thr Lys Asn Phe Met Gly
435 440 445
Ile Asp Arg Gly Leu Thr His Leu Leu Ala Tyr Ser Ile Phe Asp Arg
450 455 460
Asp Ser Glu Lys Phe Thr Ile Asn Gln Leu Glu Leu Asn Pro Ile Lys
465 470 475 480
Gly Trp Lys Trp Lys Leu Arg Lys Val Lys Arg Ser Leu Gln His Leu
485 490 495
Glu Arg Arg Met Arg Ala Gln Lys Gly Val Lys Leu Pro Glu Asn Gln
500 505 510
Met Lys Lys Arg Leu Lys Ser Ile Glu Pro Lys Ile Glu Ser Tyr Tyr
515 520 525
His Asn Leu Ser Arg Lys Ile Val Asn Leu Ala Lys Ala Asn Asn Ala
530 535 540
Ser Ile Val Val Glu Ser Leu Glu Gly Gly Gly Leu Lys Gln His Gly
545 550 555 560
Arg Lys Lys Asn Ser Arg His Arg Ala Leu Asn Tyr Ala Leu Ser Leu
565 570 575
Phe Asp Tyr Gly Lys Ile Ala Ser Leu Ile Lys Tyr Lys Ser Asp Leu
580 585 590
Glu Gly Val Pro Met Tyr Glu Val Leu Pro Ala Tyr Thr Ser Gln Gln
595 600 605
Cys Ala Lys Cys Val Leu Lys Lys Gly Ser Phe Val Glu Pro Glu Ile
610 615 620
Ile Gly Tyr Ile Glu Glu Ile Gly Phe Lys Glu Asn Leu Leu Thr Leu
625 630 635 640
Leu Phe Glu Asp Thr Gly Leu Ser Ser Val Gln Val Leu Lys Lys Ser
645 650 655
Lys Asn Lys Met Thr Leu Ser Ala Arg Asp Lys Glu Gly Lys Met Val
660 665 670
Asp Leu Val Leu Lys Tyr Asn Phe Lys Gly Leu Val Ile Ser Gln Glu
675 680 685
Lys Lys Lys Glu Glu Ile Val Glu Phe Pro Ile Lys Glu Ile Asp Gly
690 695 700
Lys Phe Ala Val Leu Asp Ser Ala Tyr Lys Arg Gly Lys Glu Arg Ile
705 710 715 720
Ser Lys Lys Gly Asn Gln Lys Leu Val Tyr Thr Gly Asn Lys Lys Val
725 730 735
Gly Tyr Cys Ser Val His Gly Gln Val Asp Ala Asp Leu Asn Ala Ser
740 745 750
Arg Val Ile Ala Leu Cys Lys Tyr Leu Gly Ile Asn Glu Pro Ile Val
755 760 765
Phe Gly Glu Gln Arg Lys Ser Phe Lys
770 775
<210> 281
<211> 610
<212> PRT
<213> Unknown
<220>
<223> uncultured archaeon
<400> 281
Met Asp Leu Ile Thr Glu Pro Ile Gln Pro His Lys Ser Ser Ser Leu
1 5 10 15
Arg Ser Lys Glu Phe Leu Glu Tyr Gln Ile Ser Asp Phe Leu Asn Phe
20 25 30
Ser Leu His Ser Leu Phe Phe Gly Leu Ala Ser Asn Glu Gly Pro Leu
35 40 45
Val Asp Phe Lys Ile Tyr Asp Lys Ile Val Ile Pro Lys Pro Glu Glu
50 55 60
Arg Phe Pro Lys Lys Glu Ser Glu Glu Gly Lys Lys Leu Asp Ser Phe
65 70 75 80
Asp Lys Arg Val Glu Glu Tyr Tyr Ser Asp Lys Leu Glu Lys Lys Ile
85 90 95
Glu Arg Lys Leu Asn Thr Glu Glu Lys Asn Val Ile Asp Arg Glu Lys
100 105 110
Thr Arg Ile Trp Gly Glu Val Asn Lys Leu Glu Glu Ile Arg Ser Ile
115 120 125
Ile Asp Glu Ile Asn Glu Ile Lys Lys Gln Lys His Ile Ser Glu Lys
130 135 140
Ser Lys Leu Leu Gly Glu Lys Trp Lys Lys Val Asn Asn Ile Gln Glu
145 150 155 160
Thr Leu Leu Ser Gln Glu Tyr Val Ser Leu Ile Ser Asn Leu Ser Asp
165 170 175
Glu Leu Thr Asn Lys Lys Lys Glu Leu Leu Ala Lys Lys Tyr Ser Lys
180 185 190
Phe Asp Asp Lys Ile Lys Lys Ile Lys Glu Asp Tyr Gly Leu Glu Phe
195 200 205
Asp Glu Asn Thr Ile Lys Lys Glu Gly Glu Lys Ala Phe Leu Asn Pro
210 215 220
Asp Lys Phe Ser Lys Tyr Gln Phe Ser Ser Ser Tyr Leu Lys Leu Ile
225 230 235 240
Gly Glu Ile Ala Arg Ser Leu Ile Thr Tyr Lys Gly Phe Leu Asp Leu
245 250 255
Asn Lys Tyr Pro Ile Ile Phe Arg Lys Pro Ile Asn Lys Val Lys Lys
260 265 270
Ile His Asn Leu Glu Pro Asp Glu Trp Lys Tyr Tyr Ile Gln Phe Gly
275 280 285
Tyr Glu Gln Ile Asn Asn Pro Lys Leu Glu Thr Glu Asn Ile Leu Gly
290 295 300
Ile Asp Arg Gly Leu Thr His Ile Leu Ala Tyr Ser Val Phe Glu Pro
305 310 315 320
Arg Ser Ser Lys Phe Ile Leu Asn Lys Leu Glu Pro Asn Pro Ile Glu
325 330 335
Gly Trp Lys Trp Lys Leu Arg Lys Leu Arg Arg Ser Ile Gln Asn Leu
340 345 350
Glu Arg Arg Trp Arg Ala Gln Asp Asn Val Lys Leu Pro Glu Asn Gln
355 360 365
Met Lys Lys Asn Leu Arg Ser Ile Glu Asp Lys Val Glu Asn Leu Tyr
370 375 380
His Asn Leu Ser Arg Lys Ile Val Asp Leu Ala Lys Glu Lys Asn Ala
385 390 395 400
Cys Ile Val Phe Glu Lys Leu Glu Gly Gln Gly Met Lys Gln His Gly
405 410 415
Arg Lys Lys Ser Asp Arg Leu Arg Gly Leu Asn Tyr Lys Leu Ser Leu
420 425 430
Phe Asp Tyr Gly Lys Ile Ala Lys Leu Ile Lys Tyr Lys Ala Glu Ile
435 440 445
Glu Gly Ile Pro Ile Tyr Arg Ile Asp Ser Ala Tyr Thr Ser Gln Asn
450 455 460
Cys Ala Lys Cys Val Leu Glu Ser Arg Arg Phe Ala Gln Pro Glu Glu
465 470 475 480
Ile Ser Cys Leu Asp Asp Phe Lys Glu Gly Asp Asn Leu Asp Lys Arg
485 490 495
Ile Leu Glu Gly Thr Gly Leu Val Glu Ala Lys Ile Tyr Lys Lys Leu
500 505 510
Leu Lys Glu Lys Lys Glu Asp Phe Glu Ile Glu Glu Asp Ile Ala Met
515 520 525
Phe Asp Thr Lys Lys Val Ile Lys Glu Asn Lys Glu Lys Thr Val Ile
530 535 540
Leu Asp Tyr Val Tyr Thr Arg Arg Lys Glu Ile Ile Gly Thr Asn His
545 550 555 560
Lys Lys Asn Ile Lys Gly Ile Ala Lys Tyr Thr Gly Asn Thr Lys Ile
565 570 575
Gly Tyr Cys Met Lys His Gly Gln Val Asp Ala Asp Leu Asn Ala Ser
580 585 590
Arg Thr Ile Ala Leu Cys Lys Asn Phe Asp Ile Asn Asn Pro Glu Ile
595 600 605
Trp Lys
610
<210> 282
<211> 564
<212> PRT
<213> Unknown
<220>
<223> uncultured archaeon
<400> 282
Met Ala Arg Ala Lys Asn Gln Pro Tyr Gln Lys Leu Thr Thr Thr Thr
1 5 10 15
Gly Ile Lys Phe Lys Leu Asp Leu Ser Glu Glu Glu Gly Lys Arg Phe
20 25 30
Asp Glu Tyr Phe Ser Glu Tyr Ala Lys Ala Val Asn Phe Cys Ala Lys
35 40 45
Val Ile Tyr Gln Leu Arg Lys Asn Leu Lys Phe Ala Gly Lys Lys Glu
50 55 60
Leu Ala Ala Lys Glu Trp Lys Phe Glu Ile Ser Asn Cys Asp Phe Cys
65 70 75 80
Asn Lys Gln Lys Glu Ile Tyr Tyr Lys Asn Ile Ala Asn Gly Gln Lys
85 90 95
Val Cys Lys Gly Cys His Arg Thr Asn Phe Ser Asp Asn Ala Ile Arg
100 105 110
Lys Lys Met Ile Pro Val Lys Gly Arg Lys Val Glu Ser Lys Phe Asn
115 120 125
Ile His Asn Thr Thr Lys Lys Ile Ser Gly Thr His Arg His Trp Ala
130 135 140
Phe Glu Asp Ala Ala Asp Ile Ile Glu Ser Met Asp Lys Gln Arg Lys
145 150 155 160
Glu Lys Gln Lys Arg Leu Arg Arg Glu Lys Arg Lys Leu Ser Tyr Phe
165 170 175
Phe Glu Leu Phe Gly Asp Pro Ala Lys Arg Tyr Glu Leu Pro Lys Val
180 185 190
Gly Lys Gln Arg Val Pro Arg Tyr Leu His Lys Ile Ile Asp Lys Asp
195 200 205
Ser Leu Thr Lys Lys Arg Gly Tyr Ser Leu Ser Tyr Ile Lys Asn Lys
210 215 220
Ile Lys Ile Ser Glu Arg Asn Ile Glu Arg Asp Glu Lys Ser Leu Arg
225 230 235 240
Lys Ala Ser Pro Ile Ala Phe Gly Ala Arg Lys Ile Lys Met Ser Lys
245 250 255
Leu Asp Pro Lys Arg Ala Phe Asp Leu Glu Asn Asn Val Phe Lys Ile
260 265 270
Pro Gly Lys Val Ile Lys Gly Gln Tyr Lys Phe Phe Gly Thr Asn Val
275 280 285
Ala Asn Glu His Gly Lys Lys Phe Tyr Lys Asp Arg Ile Ser Lys Ile
290 295 300
Leu Ala Gly Lys Pro Lys Tyr Phe Tyr Leu Leu Arg Lys Lys Val Ala
305 310 315 320
Glu Ser Asp Gly Asn Pro Ile Phe Glu Tyr Tyr Val Gln Trp Ser Ile
325 330 335
Asp Thr Glu Thr Pro Ala Ile Thr Ser Tyr Asp Asn Ile Leu Gly Ile
340 345 350
Asp Ala Gly Ile Thr Asn Leu Ala Thr Thr Val Leu Ile Pro Lys Asn
355 360 365
Leu Ser Ala Glu His Cys Ser His Cys Gly Asn Asn His Val Lys Pro
370 375 380
Ile Phe Thr Lys Phe Phe Ser Gly Lys Glu Leu Lys Ala Ile Lys Ile
385 390 395 400
Lys Ser Arg Lys Gln Lys Tyr Phe Leu Arg Gly Lys His Asn Lys Leu
405 410 415
Val Lys Ile Lys Arg Ile Arg Pro Ile Glu Gln Lys Val Asp Gly Tyr
420 425 430
Cys His Val Val Ser Lys Gln Ile Val Glu Met Ala Lys Glu Arg Asn
435 440 445
Ser Cys Ile Ala Leu Glu Lys Leu Glu Lys Pro Lys Lys Ser Lys Phe
450 455 460
Arg Gln Arg Arg Arg Glu Lys Tyr Ala Val Ser Met Phe Val Phe Lys
465 470 475 480
Lys Leu Ala Thr Phe Ile Lys Tyr Lys Ala Ala Arg Glu Gly Ile Glu
485 490 495
Ile Ile Pro Val Glu Pro Glu Gly Thr Ser Tyr Thr Cys Ser His Cys
500 505 510
Lys Asn Ala Gln Asn Asn Gln Arg Pro Tyr Phe Lys Pro Asn Ser Lys
515 520 525
Lys Ser Trp Thr Ser Met Phe Lys Cys Gly Lys Cys Gly Ile Glu Leu
530 535 540
Asn Ser Asp Tyr Asn Ala Ala Phe Asn Ile Ala Gln Lys Ala Leu Asn
545 550 555 560
Met Thr Ser Ala
<210> 283
<211> 610
<212> PRT
<213> Unknown
<220>
<223> uncultured archaeon
<400> 283
Met Asp Glu Lys His Phe Phe Cys Ser Tyr Cys Asn Lys Glu Leu Lys
1 5 10 15
Ile Ser Lys Asn Leu Ile Asn Lys Ile Ser Lys Gly Ser Ile Arg Glu
20 25 30
Asp Glu Ala Val Ser Lys Ala Ile Ser Ile His Asn Lys Lys Glu His
35 40 45
Ser Leu Ile Leu Gly Ile Lys Phe Lys Leu Phe Ile Glu Asn Lys Leu
50 55 60
Asp Lys Lys Lys Leu Asn Glu Tyr Phe Asp Asn Tyr Ser Lys Ala Val
65 70 75 80
Thr Phe Ala Ala Arg Ile Phe Asp Lys Ile Arg Ser Pro Tyr Lys Phe
85 90 95
Ile Gly Leu Lys Asp Lys Asn Thr Lys Lys Trp Thr Phe Pro Lys Ala
100 105 110
Lys Cys Val Phe Cys Leu Glu Glu Lys Glu Val Ala Tyr Ala Asn Glu
115 120 125
Lys Asp Asn Ser Lys Ile Cys Thr Glu Cys Tyr Leu Lys Glu Phe Gly
130 135 140
Glu Asn Gly Ile Arg Lys Lys Ile Tyr Ser Thr Arg Gly Arg Lys Val
145 150 155 160
Glu Pro Lys Tyr Asn Ile Phe Asn Ser Thr Lys Glu Leu Ser Ser Thr
165 170 175
His Tyr Asn Tyr Ala Ile Arg Asp Ala Phe Gln Leu Leu Asp Ala Leu
180 185 190
Lys Lys Gln Arg Gln Lys Lys Leu Lys Ser Ile Phe Asn Gln Lys Leu
195 200 205
Arg Leu Lys Glu Phe Glu Asp Ile Phe Ser Asp Pro Gln Lys Arg Ile
210 215 220
Glu Leu Ser Leu Lys Pro His Gln Arg Glu Lys Arg Tyr Ile His Leu
225 230 235 240
Ser Lys Ser Gly Gln Glu Ser Ile Asn Arg Gly Tyr Thr Leu Arg Phe
245 250 255
Val Arg Gly Lys Ile Lys Ser Leu Thr Arg Asn Ile Glu Arg Glu Glu
260 265 270
Lys Ser Leu Arg Lys Lys Thr Pro Ile His Phe Lys Gly Asn Arg Leu
275 280 285
Met Ile Phe Pro Ala Gly Ile Lys Phe Asp Phe Ala Ser Asn Lys Val
290 295 300
Lys Ile Ser Ile Ser Lys Asn Leu Pro Asn Glu Phe Asn Phe Ser Gly
305 310 315 320
Thr Asn Val Lys Asn Glu His Gly Lys Ser Phe Phe Lys Ser Arg Ile
325 330 335
Glu Leu Ile Lys Thr Gln Lys Pro Lys Tyr Ala Tyr Val Leu Arg Lys
340 345 350
Ile Lys Arg Glu Tyr Ser Lys Leu Arg Asn Tyr Glu Ile Glu Lys Ile
355 360 365
Arg Leu Glu Asn Pro Asn Ala Asp Leu Cys Asp Phe Tyr Leu Gln Tyr
370 375 380
Thr Ile Glu Thr Glu Ser Arg Asn Asn Glu Glu Ile Asn Gly Ile Ile
385 390 395 400
Gly Ile Asp Arg Gly Ile Thr Asn Leu Ala Cys Leu Val Leu Leu Lys
405 410 415
Lys Gly Asp Lys Lys Pro Ser Gly Val Lys Phe Tyr Lys Gly Asn Lys
420 425 430
Ile Leu Gly Met Lys Ile Ala Tyr Arg Lys His Leu Tyr Leu Leu Lys
435 440 445
Gly Lys Arg Asn Lys Leu Arg Lys Gln Arg Gln Ile Arg Ala Ile Glu
450 455 460
Pro Lys Ile Asn Leu Ile Leu His Gln Ile Ser Lys Asp Ile Val Lys
465 470 475 480
Ile Ala Lys Glu Lys Asn Phe Ala Ile Ala Leu Glu Gln Leu Glu Lys
485 490 495
Pro Lys Lys Ala Arg Phe Ala Gln Arg Lys Lys Glu Lys Tyr Lys Leu
500 505 510
Ala Leu Phe Thr Phe Lys Asn Leu Ser Thr Leu Ile Glu Tyr Lys Ser
515 520 525
Lys Arg Glu Gly Ile Pro Val Ile Tyr Val Pro Pro Glu Lys Thr Ser
530 535 540
Gln Met Cys Ser His Cys Ala Ile Asn Gly Asp Glu His Val Asp Thr
545 550 555 560
Gln Arg Pro Tyr Lys Lys Pro Asn Ala Gln Lys Pro Ser Tyr Ser Leu
565 570 575
Phe Lys Cys Asn Lys Cys Gly Ile Glu Leu Asn Ala Asp Tyr Asn Ala
580 585 590
Ala Phe Asn Ile Ala Gln Lys Gly Leu Lys Thr Leu Met Leu Asn His
595 600 605
Ser His
610
<210> 284
<211> 327
<212> PRT
<213> Clostridioides difficile
<400> 284
Met Val Asn Ile Gln Tyr Lys Arg Thr Leu Ser Leu Val Thr Gln Arg
1 5 10 15
Ile Lys Lys Asp Tyr Ser Asn Asp Phe Val Gly Ile Ile Thr Gly Gln
20 25 30
Gln Ser Leu Arg Asn Tyr Arg Asn Asp Asn Pro Leu Met Ile Ser Asn
35 40 45
Gln Gln Leu Asn Phe Lys Tyr Ile Asp Asp Thr Phe Tyr Leu Asp Ile
50 55 60
Met Cys Gly Tyr Arg Leu Glu Val Val Leu Gly Lys Arg Asp Asn Glu
65 70 75 80
Asn Val Asn Glu Leu Lys Ser Thr Leu Glu Lys Val Ile Ser Lys Glu
85 90 95
Tyr Lys Val Cys Asp Ser Ser Met Gln Phe Ser Lys Asn Asn Asn Asp
100 105 110
Val Ile Leu Asn Leu Val Ile Asp Ile Pro Gln Asn Ser Asn Val Tyr
115 120 125
Lys Pro Val Glu Gly Arg Thr Leu Gly Val Asp Leu Gly Val Ala Val
130 135 140
Pro Ile Tyr Met Cys Leu Asn Asp Asp Thr Tyr Lys Arg Lys Gly Leu
145 150 155 160
Gly Asp Ile Asn Asn Phe Leu Arg Val Arg Gln Gln Met Gln Thr Arg
165 170 175
Arg Arg Lys Leu Gln Lys Asp Leu Thr Leu Thr Asn Gly Gly Lys Gly
180 185 190
Arg Lys Lys Lys Thr Gln Leu Leu Asp Lys Leu Gln Glu Asn Glu Arg
195 200 205
Asn Phe Val Lys Thr Tyr Ser His Ala Leu Ser Lys Arg Val Val Glu
210 215 220
Phe Ala Lys Ser Asn Lys Cys Glu Tyr Ile Asn Ile Glu Lys Leu Thr
225 230 235 240
Lys Asp Gly Phe Asp Asn Ile Ile Leu Arg Asn Trp Ser Tyr Phe Glu
245 250 255
Leu Gln Lys Met Ile Glu Tyr Lys Ala Glu Arg Glu Gly Ile Thr Val
260 265 270
Arg Tyr Val Asn Pro Ala Tyr Thr Ser Gln Lys Cys Ser Arg Cys Gly
275 280 285
Glu Ile Asp Lys Glu Asn Arg Gln Thr Gln Ala Lys Phe Lys Cys Thr
290 295 300
Lys Cys Gly Phe Glu Leu Asn Ala Asp His Asn Ala Ala Ile Asn Ile
305 310 315 320
Ala Arg Ser Ile Glu Phe Val
325
<210> 285
<211> 364
<212> PRT
<213> Desulfovibrio fructosivorans
<400> 285
Met Ala Thr Leu Glu Arg Asn Phe Ala Val Lys Thr Tyr Arg Asn Thr
1 5 10 15
Asn Lys Asp Ala Trp Ala Gly Arg Lys Ser Leu Pro Thr Tyr Arg Ser
20 25 30
Leu Phe Val Pro Phe Arg His Thr Gly Thr Lys Ile Ala Val Val Glu
35 40 45
Arg Asn Gly Thr Lys Gln Phe Cys Ile Asp Pro Gln Gly Phe Gly Ala
50 55 60
Ser Trp Leu Ser Asp Glu Leu Ile Ala Glu Val His Asp Gly Pro Ile
65 70 75 80
Ala Ile Glu Lys Gln Arg Arg Lys Leu Thr Leu Val Ser Cys Phe Ser
85 90 95
Trp Arg Asp Gln Gly Ala Val Glu Ile Val Gln Arg Ile Val Asn Gly
100 105 110
Glu Tyr Lys Leu Ser Asp Gly Gln Ile Gln Met Gly Lys Lys Gly Leu
115 120 125
Val Ala Leu Leu Pro Tyr Ser Phe Asp Ala Ile Gln Pro Glu Leu Asp
130 135 140
Pro Ala Arg Val Cys Gly Ile Asp Leu Gly Ala Val Ile Pro Ala Val
145 150 155 160
Cys Ala Val Asn Phe Gly Pro Gln Arg Ala Tyr Leu Gly Glu Gly Lys
165 170 175
Asp Val Trp Ala Ala Arg Ser Arg Phe Arg Ala Glu Arg Arg Arg Leu
180 185 190
Gln Ser Arg Ala Gly Leu Tyr Ser Lys Thr Lys Asn Trp Arg Arg Ser
195 200 205
Glu Lys Glu Asp Asn Trp Ile Gln Thr Tyr Tyr His Ala Leu Thr Arg
210 215 220
Lys Val Ile Lys Phe Cys Val Gln His Gly Cys Gly Thr Ile His Met
225 230 235 240
Glu Asp Leu Ser Ser Leu Arg Gln Arg Asp Val Glu Ser Glu Phe Arg
245 250 255
Arg Leu Leu Trp Val Pro Ser Lys Phe Phe Glu Leu Leu Ser Tyr Lys
260 265 270
Ala Lys Glu Met Gly Ile Gly Ile Val Lys Ile Asn Pro Arg Asn Thr
275 280 285
Ser Lys Arg Cys Ser Glu Cys Gly His Ile Ser Lys Gly Asn Arg Lys
290 295 300
Ser Gln Glu Lys Phe Val Cys Glu Lys Cys Gly Glu Gly Lys Arg Pro
305 310 315 320
Val Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Leu Ala Thr Gly
325 330 335
Asp Val Leu Leu His Gly Tyr Ile Glu Ser Glu Pro Asp Ala Leu Gly
340 345 350
Glu Met Asp Gln Leu Trp Glu Gly Ala Gln Glu Ala
355 360
<210> 286
<211> 366
<212> PRT
<213> Clostridium botulinum
<400> 286
Met Asp Ile Gln Lys Glu Phe Lys Glu Lys Tyr Val Asp Asp Leu Tyr
1 5 10 15
Gln Val Leu Asp Lys Ile Pro Phe Lys His Leu Asp Asn Lys Ser Leu
20 25 30
Val Thr Gln Arg Ile Lys Ala Asp Ile Lys Ser Asp Lys Ser Asn Gly
35 40 45
Leu Leu Lys Gly Glu Arg Ser Ile Arg Asn Tyr Lys Arg Asn Phe Pro
50 55 60
Leu Met Thr Arg Gly Arg Asp Leu Lys Phe Lys Tyr Asp Asp Asn Asp
65 70 75 80
Asp Ile Glu Ile Lys Trp Met Glu Gly Ile Lys Phe Lys Val Ile Leu
85 90 95
Gly Asn Arg Ile Lys Asn Ser Leu Glu Leu Arg His Thr Leu His Lys
100 105 110
Val Ile Glu Gly Lys Tyr Lys Ile Cys Asp Ser Ser Leu Gln Phe Asp
115 120 125
Lys Asn Asn Asn Leu Ile Leu Asn Leu Thr Leu Asp Ile Pro Ile Asp
130 135 140
Ile Val Asn Lys Lys Val Ser Gly Arg Val Val Gly Val Asp Leu Gly
145 150 155 160
Leu Lys Ile Pro Ala Tyr Cys Ala Leu Asn Asp Val Glu Tyr Ile Lys
165 170 175
Lys Ser Ile Gly Arg Ile Asp Asp Phe Leu Lys Val Arg Thr Gln Met
180 185 190
Gln Ser Arg Arg Arg Arg Leu Gln Ile Ala Ile Gln Ser Ala Lys Gly
195 200 205
Gly Lys Gly Arg Val Asn Lys Leu Gln Ala Leu Glu Arg Phe Ala Glu
210 215 220
Lys Glu Lys Asn Phe Ala Lys Thr Tyr Asn His Phe Leu Ser Ser Asn
225 230 235 240
Ile Val Lys Phe Ala Val Ser Asn Gln Ala Glu Gln Ile Asn Met Glu
245 250 255
Leu Leu Ser Leu Lys Glu Thr Gln Asn Lys Ser Ile Leu Arg Asn Trp
260 265 270
Ser Tyr Tyr Gln Leu Gln Thr Met Ile Glu Tyr Lys Ala Gln Arg Glu
275 280 285
Gly Ile Lys Val Lys Tyr Ile Asp Pro Tyr His Thr Ser Gln Thr Cys
290 295 300
Ser Lys Cys Gly Asn Tyr Glu Glu Gly Gln Arg Glu Ser Gln Ala Asp
305 310 315 320
Phe Ile Cys Lys Lys Cys Gly Tyr Lys Val Asn Ala Asp Tyr Asn Ala
325 330 335
Ala Arg Asn Ile Ala Met Ser Asn Lys Tyr Ile Thr Lys Lys Lys Lys
340 345 350
Val Ser Ile Thr Lys Leu Lys Lys Val Trp Tyr Asn Lys Thr
355 360 365
<210> 287
<211> 401
<212> PRT
<213> Clostridioides difficile
<400> 287
Met Ile Ala Val Lys Lys Leu Lys Leu Thr Ile Val Glu Glu Glu Glu
1 5 10 15
Lys Arg Lys Glu Gln Tyr Lys Phe Ile Arg Asp Ser Gln Tyr Ala Gln
20 25 30
Tyr Gln Gly Leu Asn Leu Ala Met Gly Ile Leu Thr Ser Ala Tyr Leu
35 40 45
Ala Ser Gly Arg Asp Ile Lys Ser Asp Leu Phe Lys Asp Ser Gln Lys
50 55 60
Ser Leu Thr Asn Ser Asn Glu Ile Phe Asn Gly Ile Asn Phe Gly Lys
65 70 75 80
Gly Ile Asp Thr Lys Ser Ser Ile Thr Gln Lys Val Lys Lys Asp Phe
85 90 95
Ser Thr Ser Leu Lys Asn Gly Leu Ala Lys Gly Glu Arg Gly Phe Thr
100 105 110
Asn Tyr Lys Arg Asp Phe Pro Leu Met Thr Arg Gly Arg Asp Leu Lys
115 120 125
Phe Tyr Glu Glu Asp Asn Glu Phe Tyr Ile Lys Trp Val Asn Lys Ile
130 135 140
Val Phe Lys Val Leu Ile Gly Arg Lys Asp Lys Asn Lys Val Glu Leu
145 150 155 160
Ile His Thr Leu Asn Lys Val Leu Asn Lys Glu Tyr Lys Val Ser Gln
165 170 175
Ser Ser Leu Gln Phe Asp Lys Asn Asn Lys Leu Ile Leu Asn Leu Thr
180 185 190
Ile Asp Ile Pro Tyr Lys Gln Val Asp Glu Ile Val Lys Asp Arg Thr
195 200 205
Cys Gly Val Asp Met Gly Ile Ala Ile Pro Ile Tyr Val Ala Leu Asn
210 215 220
Asp Val Ser Tyr Val Arg Glu Gly Met Gly Thr Ile Asp Glu Phe Met
225 230 235 240
Lys Gln Arg Leu Gln Phe Gln Ser Arg Arg Arg Arg Leu Gln Gln Gln
245 250 255
Leu Lys Asn Val Asn Gly Gly Lys Gly Arg Lys Asp Lys Leu Lys Gly
260 265 270
Leu Glu Leu Leu Arg Glu Lys Glu Lys Ser Trp Val Lys Thr Tyr Asn
275 280 285
His Ala Leu Ser Lys Arg Val Val Glu Phe Ala Lys Lys Asn Lys Cys
290 295 300
Glu Tyr Ile His Leu Glu Lys Leu Thr Lys Asp Gly Phe Gly Asp Arg
305 310 315 320
Leu Leu Arg Asn Trp Ser Tyr Tyr Glu Leu Gln Glu Met Ile Lys Tyr
325 330 335
Lys Gly Glu Arg Val Gly Ile Lys Val Lys Tyr Val Asn Pro Ala Tyr
340 345 350
Thr Ser Gln Thr Cys Ser Glu Cys Gly His Val Asp Lys Glu Asn Arg
355 360 365
Glu Thr Gln Ala Lys Phe Lys Cys Leu Glu Cys Gly Phe Glu Ala Asn
370 375 380
Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Lys Ser Asp Lys Phe Val
385 390 395 400
Lys
<210> 288
<211> 401
<212> PRT
<213> Clostridioides difficile
<400> 288
Met Ile Ala Val Lys Lys Leu Lys Leu Thr Ile Val Glu Glu Glu Glu
1 5 10 15
Lys Arg Lys Glu Gln Tyr Lys Phe Ile Arg Asp Ser Gln Tyr Ala Gln
20 25 30
Tyr Gln Gly Leu Asn Leu Ala Met Gly Ile Leu Thr Ser Ala Tyr Leu
35 40 45
Ala Ser Gly Arg Asp Ile Lys Ser Asp Leu Phe Lys Asp Ser Gln Lys
50 55 60
Ser Leu Thr Asn Ser Asn Glu Ile Phe Asn Gly Ile Asn Phe Gly Lys
65 70 75 80
Gly Ile Asp Thr Lys Ser Ser Ile Thr Gln Lys Val Lys Lys Asp Phe
85 90 95
Ser Thr Ser Leu Lys Asn Gly Leu Ala Lys Gly Glu Arg Gly Phe Thr
100 105 110
Asn Tyr Lys Arg Asp Phe Pro Leu Met Thr Arg Gly Arg Asp Leu Lys
115 120 125
Phe Tyr Glu Glu Asp Lys Glu Phe Tyr Ile Lys Trp Val Asn Lys Ile
130 135 140
Val Phe Lys Ile Leu Ile Gly Arg Lys Asp Lys Asn Lys Val Glu Leu
145 150 155 160
Ile His Thr Leu Asn Lys Val Leu Asn Lys Glu Tyr Lys Val Ser Gln
165 170 175
Ser Ser Leu Gln Phe Asp Lys Asn Asn Lys Leu Ile Leu Asn Leu Thr
180 185 190
Ile Asp Ile Pro Tyr Lys Gln Val Asp Glu Ile Val Lys Gly Arg Val
195 200 205
Cys Gly Val Asp Met Gly Ile Ala Ile Pro Val Tyr Val Ala Leu Asn
210 215 220
Asp Val Ser Tyr Val Arg Glu Gly Met Gly Thr Ile Asp Glu Phe Met
225 230 235 240
Lys Gln Arg Leu Gln Phe Gln Ser Arg Arg Arg Arg Leu Gln Gln Gln
245 250 255
Leu Lys Asn Val Asn Gly Gly Lys Gly Arg Lys Asp Lys Leu Lys Gly
260 265 270
Leu Glu Ser Leu Arg Glu Lys Glu Lys Ser Trp Val Lys Thr Tyr Asn
275 280 285
His Ala Leu Ser Lys Arg Val Val Glu Phe Ala Lys Lys Asn Lys Cys
290 295 300
Glu Tyr Ile His Leu Glu Lys Leu Thr Lys Asp Gly Phe Gly Asp Arg
305 310 315 320
Leu Leu Arg Asn Trp Ser Tyr Tyr Glu Leu Gln Glu Met Ile Lys Tyr
325 330 335
Lys Ala Asp Arg Val Gly Ile Lys Val Lys His Val Asn Pro Ala Tyr
340 345 350
Thr Ser Gln Thr Cys Ser Glu Cys Gly His Val Asp Lys Glu Asn Arg
355 360 365
Glu Thr Gln Ala Lys Phe Lys Cys Leu Glu Cys Gly Phe Glu Ala Asn
370 375 380
Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Lys Ser Asp Lys Phe Val
385 390 395 400
Lys
<210> 289
<211> 401
<212> PRT
<213> Clostridioides difficile
<400> 289
Met Ile Ala Val Lys Lys Leu Lys Leu Thr Ile Val Glu Glu Glu Glu
1 5 10 15
Lys Arg Lys Glu Gln Tyr Lys Phe Ile Arg Asp Ser Gln Tyr Ala Gln
20 25 30
Tyr Gln Gly Leu Asn Leu Ala Met Gly Ile Leu Thr Ser Ala Tyr Leu
35 40 45
Val Ser Gly Arg Asp Ile Lys Ser Asp Leu Phe Lys Asp Ser Gln Lys
50 55 60
Ser Leu Thr Asn Ser Asn Glu Ile Phe Asn Gly Ile Asn Phe Gly Lys
65 70 75 80
Gly Ile Asp Thr Lys Ser Ser Ile Thr Gln Lys Val Lys Lys Asp Phe
85 90 95
Ser Thr Ser Leu Lys Asn Gly Leu Ala Lys Gly Glu Arg Gly Phe Thr
100 105 110
Asn Tyr Lys Arg Asp Phe Pro Leu Met Thr Arg Gly Arg Asp Leu Lys
115 120 125
Phe Tyr Glu Glu Asp Lys Glu Phe Tyr Ile Lys Trp Val Asn Lys Ile
130 135 140
Val Phe Lys Ile Leu Ile Gly Arg Lys Asp Lys Asn Lys Val Glu Leu
145 150 155 160
Ile His Thr Leu Asn Lys Val Leu Asn Lys Glu Tyr Lys Val Ser Gln
165 170 175
Ser Ser Leu Gln Phe Asp Lys Asn Asn Lys Leu Ile Leu Asn Leu Thr
180 185 190
Ile Asp Ile Pro Tyr Lys Lys Val Asp Glu Ile Val Lys Asp Arg Val
195 200 205
Cys Gly Val Asp Met Gly Ile Ala Ile Pro Ile Tyr Val Ala Leu Asn
210 215 220
Asp Val Ser Tyr Val Arg Glu Gly Met Gly Thr Ile Asp Glu Phe Met
225 230 235 240
Lys Gln Arg Leu Gln Phe Gln Ser Arg Arg Arg Arg Leu Gln Gln Gln
245 250 255
Leu Lys Asn Val Asn Gly Gly Lys Gly Arg Lys Asp Lys Leu Lys Gly
260 265 270
Leu Glu Ser Leu Arg Glu Lys Glu Lys Ser Trp Val Lys Thr Tyr Asn
275 280 285
His Ala Leu Ser Lys Arg Val Val Glu Phe Ala Lys Lys Asn Lys Cys
290 295 300
Glu Tyr Ile His Leu Glu Lys Leu Thr Lys Asp Gly Phe Gly Asp Arg
305 310 315 320
Leu Leu Arg Asn Trp Ser Tyr Tyr Glu Leu Gln Glu Met Ile Lys Tyr
325 330 335
Lys Ala Asp Arg Val Gly Ile Lys Val Lys His Val Asn Pro Ala Tyr
340 345 350
Thr Ser Gln Thr Cys Ser Glu Cys Gly His Ala Asp Lys Glu Asn Arg
355 360 365
Glu Thr Gln Ala Lys Phe Lys Cys Leu Glu Cys Gly Phe Glu Ala Asn
370 375 380
Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Lys Ser Asp Lys Phe Val
385 390 395 400
Lys
<210> 290
<211> 401
<212> PRT
<213> Clostridioides difficile
<400> 290
Met Ile Ala Val Lys Lys Leu Lys Leu Thr Ile Val Glu Glu Glu Glu
1 5 10 15
Lys Arg Lys Glu Gln Tyr Lys Phe Ile Arg Asp Ser Gln Tyr Ala Gln
20 25 30
Tyr Gln Gly Leu Asn Leu Ala Met Gly Ile Leu Thr Ser Ala Tyr Leu
35 40 45
Ala Ser Gly Arg Asp Ile Lys Ser Asp Leu Phe Lys Asp Ser Gln Lys
50 55 60
Ser Leu Thr Asn Ser Asn Glu Ile Phe Asn Gly Ile Asn Phe Gly Lys
65 70 75 80
Gly Ile Asp Thr Lys Ser Ser Ile Thr Gln Lys Val Lys Lys Asp Phe
85 90 95
Ser Thr Ser Leu Lys Asn Gly Leu Ala Lys Gly Glu Arg Gly Phe Thr
100 105 110
Asn Tyr Lys Arg Asp Phe Pro Leu Met Thr Arg Gly Arg Asp Leu Lys
115 120 125
Phe Tyr Glu Glu Asp Lys Glu Phe Tyr Ile Lys Trp Val Asn Lys Ile
130 135 140
Val Phe Lys Ile Leu Ile Gly Arg Lys Asp Lys Asn Lys Val Glu Leu
145 150 155 160
Ile His Thr Leu Asn Lys Val Leu Asn Lys Glu Tyr Lys Val Ser Gln
165 170 175
Ser Ser Leu Gln Phe Asp Lys Asn Asn Lys Leu Ile Leu Asn Leu Thr
180 185 190
Ile Asp Ile Pro Tyr Lys Gln Val Asp Glu Ile Val Lys Gly Arg Val
195 200 205
Cys Gly Val Asp Met Gly Ile Ala Ile Pro Val Tyr Val Ala Leu Asn
210 215 220
Asp Val Ser Tyr Val Arg Glu Gly Met Gly Thr Ile Asp Glu Phe Met
225 230 235 240
Lys Gln Arg Leu Gln Phe Gln Ser Arg Arg Arg Arg Leu Gln Gln Gln
245 250 255
Leu Lys Asn Val Asn Gly Gly Lys Gly Arg Lys Asp Lys Leu Lys Gly
260 265 270
Leu Glu Ser Leu Arg Glu Lys Glu Lys Ser Trp Val Lys Thr Tyr Asn
275 280 285
His Ala Leu Ser Lys Arg Val Val Glu Phe Ala Lys Lys Asn Lys Cys
290 295 300
Glu Tyr Ile His Leu Glu Lys Leu Thr Lys Asp Gly Phe Gly Asp Arg
305 310 315 320
Leu Leu Arg Asn Trp Ser Tyr Tyr Glu Leu Gln Glu Met Ile Lys Tyr
325 330 335
Lys Ala Asp Arg Val Gly Ile Lys Val Lys His Val Asn Pro Ser Tyr
340 345 350
Thr Ser Gln Thr Cys Ser Glu Cys Gly His Val Asp Lys Glu Asn Arg
355 360 365
Glu Thr Gln Ala Lys Phe Lys Cys Leu Glu Cys Gly Phe Glu Ala Asn
370 375 380
Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Lys Ser Asp Lys Phe Val
385 390 395 400
Lys
<210> 291
<211> 401
<212> PRT
<213> Clostridioides difficile
<400> 291
Met Ile Ala Val Lys Lys Leu Lys Leu Thr Ile Val Glu Glu Glu Glu
1 5 10 15
Lys Arg Lys Glu Gln Tyr Lys Phe Ile Arg Asp Ser Gln Tyr Ala Gln
20 25 30
Tyr Gln Gly Leu Asn Leu Ala Met Gly Ile Leu Thr Ser Ala Tyr Leu
35 40 45
Ala Ser Gly Arg Asp Ile Lys Ser Asn Leu Phe Lys Asp Ser Gln Lys
50 55 60
Ser Leu Thr Asn Ser Asn Glu Ile Phe Asn Gly Ile Asn Phe Gly Lys
65 70 75 80
Gly Ile Asp Thr Lys Ser Ser Ile Thr Gln Lys Val Lys Lys Asp Phe
85 90 95
Ser Thr Ser Leu Lys Asn Gly Leu Ala Lys Gly Glu Arg Gly Phe Thr
100 105 110
Asn Tyr Lys Arg Asp Phe Pro Leu Met Thr Arg Gly Arg Asp Leu Lys
115 120 125
Phe Tyr Glu Glu Asp Lys Glu Phe Tyr Ile Lys Trp Val Asn Lys Ile
130 135 140
Val Phe Lys Ile Leu Ile Gly Arg Lys Asp Lys Asn Lys Val Glu Leu
145 150 155 160
Ile His Thr Leu Asn Lys Val Leu Asn Lys Glu Tyr Lys Val Ser Gln
165 170 175
Ser Ser Leu Gln Phe Asp Lys Asn Asn Lys Leu Ile Leu Asn Leu Thr
180 185 190
Ile Asp Ile Pro Tyr Lys Lys Val Asp Glu Ile Val Lys Asp Arg Val
195 200 205
Cys Gly Val Asp Met Gly Ile Ala Ile Pro Ile Tyr Val Ala Leu Asn
210 215 220
Asp Val Ser Tyr Val Arg Glu Gly Met Gly Thr Ile Asp Glu Phe Met
225 230 235 240
Lys Gln Arg Leu Gln Phe Gln Ser Arg Arg Arg Arg Leu Gln Gln Gln
245 250 255
Leu Lys Asn Val Asn Gly Gly Lys Gly Arg Lys Asp Lys Leu Lys Gly
260 265 270
Leu Glu Ser Leu Arg Glu Lys Glu Lys Ser Trp Val Lys Thr Tyr Asn
275 280 285
His Ala Leu Ser Lys Arg Val Val Glu Phe Ala Lys Lys Asn Lys Cys
290 295 300
Glu Tyr Ile His Leu Glu Lys Leu Thr Lys Asp Gly Phe Gly Asp Arg
305 310 315 320
Leu Leu Arg Asn Trp Ser Tyr Tyr Glu Leu Gln Glu Met Ile Lys Tyr
325 330 335
Lys Ser Asp Arg Val Gly Ile Lys Val Lys Tyr Val Asn Pro Ala Tyr
340 345 350
Thr Ser Gln Thr Cys Ser Glu Cys Ser His Val Asp Lys Glu Asn Arg
355 360 365
Glu Thr Gln Ser Lys Phe Lys Cys Leu Glu Cys Gly Phe Glu Ala Asn
370 375 380
Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Lys Ser Asp Lys Phe Val
385 390 395 400
Lys
<210> 292
<211> 404
<212> PRT
<213> Clostridioides difficile
<400> 292
Met Val Ala Met Ile Ala Val Lys Lys Leu Lys Leu Thr Ile Val Glu
1 5 10 15
Glu Glu Glu Lys Arg Lys Glu Gln Tyr Lys Phe Ile Arg Asp Ser Gln
20 25 30
Tyr Ala Gln Tyr Gln Gly Leu Asn Leu Ala Met Gly Ile Leu Thr Ser
35 40 45
Ala Tyr Leu Ala Ser Gly Arg Asp Ile Lys Ser Asp Leu Phe Lys Asp
50 55 60
Ser Gln Lys Ser Leu Thr Asn Ser Asn Glu Ile Phe Asn Gly Ile Asn
65 70 75 80
Phe Gly Lys Gly Ile Asp Thr Lys Ser Ser Ile Thr Gln Lys Val Lys
85 90 95
Lys Asp Phe Ser Thr Ser Leu Lys Asn Gly Leu Ala Lys Gly Glu Arg
100 105 110
Gly Phe Thr Asn Tyr Lys Arg Asp Phe Pro Leu Met Thr Arg Gly Arg
115 120 125
Asp Leu Lys Phe Tyr Glu Glu Asp Lys Glu Phe Tyr Ile Lys Trp Val
130 135 140
Asn Lys Ile Val Phe Lys Ile Leu Ile Gly Arg Lys Asp Lys Asn Lys
145 150 155 160
Val Glu Leu Ile His Thr Leu Asn Lys Val Leu Asn Lys Glu Tyr Lys
165 170 175
Val Ser Gln Ser Ser Leu Gln Phe Asp Lys Asn Asn Lys Leu Ile Leu
180 185 190
Asn Leu Thr Ile Asp Ile Pro Tyr Lys Gln Val Asp Glu Ile Val Lys
195 200 205
Gly Arg Val Cys Gly Val Asp Met Gly Ile Ala Ile Pro Val Tyr Val
210 215 220
Ala Leu Asn Asp Val Ser Tyr Val Arg Glu Gly Met Gly Thr Ile Asp
225 230 235 240
Glu Phe Met Lys Gln Arg Leu Gln Phe Gln Ser Arg Arg Arg Arg Leu
245 250 255
Gln Gln Gln Leu Lys Asn Val Asn Gly Gly Lys Gly Arg Lys Asp Lys
260 265 270
Leu Lys Gly Leu Glu Ser Leu Arg Glu Lys Glu Lys Ser Trp Val Lys
275 280 285
Thr Tyr Asn His Ala Leu Ser Lys Arg Val Val Glu Phe Ala Lys Lys
290 295 300
Asn Lys Cys Glu Tyr Ile His Leu Glu Lys Leu Thr Lys Asp Gly Phe
305 310 315 320
Gly Asp Arg Leu Leu Arg Asn Trp Ser Tyr Tyr Glu Leu Gln Glu Met
325 330 335
Ile Lys Tyr Lys Ala Asp Arg Val Gly Ile Lys Val Lys His Val Asn
340 345 350
Pro Ala Tyr Thr Ser Gln Thr Cys Ser Glu Cys Gly His Val Asp Lys
355 360 365
Glu Asn Arg Glu Thr Gln Ala Lys Phe Lys Cys Leu Glu Cys Gly Phe
370 375 380
Glu Ala Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Lys Ser Asp
385 390 395 400
Lys Phe Val Lys
<210> 293
<211> 404
<212> PRT
<213> Clostridioides difficile
<400> 293
Met Val Ala Met Ile Ala Val Lys Lys Leu Lys Leu Thr Ile Val Glu
1 5 10 15
Glu Glu Glu Lys Arg Lys Glu Gln Tyr Lys Phe Ile Arg Asp Ser Gln
20 25 30
Tyr Ala Gln Tyr Gln Gly Leu Asn Leu Ala Met Gly Ile Leu Thr Ser
35 40 45
Ala Tyr Leu Val Ser Gly Arg Asp Ile Lys Ser Asp Leu Phe Lys Asp
50 55 60
Ser Gln Lys Ser Leu Thr Asn Ser Asn Glu Ile Phe Asn Gly Ile Asn
65 70 75 80
Phe Gly Lys Gly Ile Asp Thr Lys Ser Ser Ile Thr Gln Lys Val Lys
85 90 95
Lys Asp Phe Ser Thr Ser Leu Lys Asn Gly Leu Ala Lys Gly Glu Arg
100 105 110
Gly Phe Thr Asn Tyr Lys Arg Asp Phe Pro Leu Met Thr Arg Gly Arg
115 120 125
Asp Leu Lys Phe Tyr Glu Glu Asp Lys Glu Phe Tyr Ile Lys Trp Val
130 135 140
Asn Lys Ile Val Phe Lys Ile Leu Ile Gly Arg Lys Asp Lys Asn Lys
145 150 155 160
Val Glu Leu Ile His Thr Leu Asn Lys Val Leu Asn Lys Glu Tyr Lys
165 170 175
Val Ser Gln Ser Ser Leu Gln Phe Asp Lys Asn Asn Lys Leu Ile Leu
180 185 190
Asn Leu Thr Ile Asp Ile Pro Tyr Lys Lys Val Asp Glu Ile Val Lys
195 200 205
Asp Arg Val Cys Gly Val Asp Met Gly Ile Ala Ile Pro Ile Tyr Val
210 215 220
Ala Leu Asn Asp Val Ser Tyr Val Arg Glu Gly Met Gly Thr Ile Asp
225 230 235 240
Glu Phe Met Lys Gln Arg Leu Gln Phe Gln Ser Arg Arg Arg Arg Leu
245 250 255
Gln Gln Gln Leu Lys Asn Val Asn Gly Gly Lys Gly Arg Lys Asp Lys
260 265 270
Leu Lys Gly Leu Glu Ser Leu Arg Glu Lys Glu Lys Ser Trp Val Lys
275 280 285
Thr Tyr Asn His Ala Leu Ser Lys Arg Val Val Glu Phe Ala Lys Lys
290 295 300
Asn Lys Cys Glu Tyr Ile His Leu Glu Lys Leu Thr Lys Asp Gly Phe
305 310 315 320
Gly Asp Arg Leu Leu Arg Asn Trp Ser Tyr Tyr Glu Leu Gln Glu Met
325 330 335
Ile Lys Tyr Lys Ala Asp Arg Val Gly Ile Lys Val Lys His Val Asn
340 345 350
Pro Ala Tyr Thr Ser Gln Thr Cys Ser Glu Cys Gly His Ala Asp Lys
355 360 365
Glu Asn Arg Glu Thr Gln Ala Lys Phe Lys Cys Leu Glu Cys Gly Phe
370 375 380
Glu Ala Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Lys Ser Asp
385 390 395 400
Lys Phe Val Lys
<210> 294
<211> 404
<212> PRT
<213> Clostridioides difficile
<400> 294
Met Val Ala Met Ile Ala Val Lys Lys Leu Lys Leu Thr Ile Val Glu
1 5 10 15
Glu Glu Glu Lys Arg Lys Glu Gln Tyr Lys Phe Ile Arg Asp Ser Gln
20 25 30
Tyr Ala Gln Tyr Gln Gly Leu Asn Leu Ala Met Gly Ile Leu Thr Ser
35 40 45
Ala Tyr Leu Ala Ser Gly Arg Asp Ile Lys Ser Asp Leu Phe Lys Asp
50 55 60
Ser Gln Lys Ser Leu Thr Asn Ser Asn Glu Ile Phe Asn Gly Ile Asn
65 70 75 80
Phe Gly Lys Gly Ile Asp Thr Lys Ser Ser Ile Thr Gln Lys Val Lys
85 90 95
Lys Asp Phe Ser Thr Ser Leu Lys Asn Gly Leu Ala Lys Gly Glu Arg
100 105 110
Gly Phe Thr Asn Tyr Lys Arg Asp Phe Pro Leu Met Thr Arg Gly Arg
115 120 125
Asp Leu Lys Phe Tyr Glu Glu Asp Asn Glu Phe Tyr Ile Lys Trp Val
130 135 140
Asn Lys Ile Val Phe Lys Val Leu Ile Gly Arg Lys Asp Lys Asn Lys
145 150 155 160
Val Glu Leu Ile His Thr Leu Asn Lys Val Leu Asn Lys Glu Tyr Lys
165 170 175
Val Ser Gln Ser Ser Leu Gln Phe Asp Lys Asn Asn Lys Leu Ile Leu
180 185 190
Asn Leu Thr Ile Asp Ile Pro Tyr Lys Gln Val Asp Glu Ile Val Lys
195 200 205
Asp Arg Thr Cys Gly Val Asp Met Gly Ile Ala Ile Pro Ile Tyr Val
210 215 220
Ala Leu Asn Asp Val Ser Tyr Val Arg Glu Gly Met Gly Thr Ile Asp
225 230 235 240
Glu Phe Met Lys Gln Arg Leu Gln Phe Gln Ser Arg Arg Arg Arg Leu
245 250 255
Gln Gln Gln Leu Lys Asn Val Asn Gly Gly Lys Gly Arg Lys Asp Lys
260 265 270
Leu Lys Gly Leu Glu Leu Leu Arg Glu Lys Glu Lys Ser Trp Val Lys
275 280 285
Thr Tyr Asn His Ala Leu Ser Lys Arg Val Val Glu Phe Ala Lys Lys
290 295 300
Asn Lys Cys Glu Tyr Ile His Leu Glu Lys Leu Thr Lys Asp Gly Phe
305 310 315 320
Gly Asp Arg Leu Leu Arg Asn Trp Ser Tyr Tyr Glu Leu Gln Glu Met
325 330 335
Ile Lys Tyr Lys Gly Glu Arg Val Gly Ile Lys Val Lys Tyr Val Asn
340 345 350
Pro Ala Tyr Thr Ser Gln Thr Cys Ser Glu Cys Gly His Val Asp Lys
355 360 365
Glu Asn Arg Glu Thr Gln Ala Lys Phe Lys Cys Leu Glu Cys Gly Phe
370 375 380
Glu Ala Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Lys Ser Asp
385 390 395 400
Lys Phe Val Lys
<210> 295
<211> 404
<212> PRT
<213> Clostridioides difficile
<400> 295
Met Val Ala Met Ile Ala Val Lys Lys Leu Lys Leu Thr Ile Val Glu
1 5 10 15
Glu Glu Glu Lys Arg Lys Glu Gln Tyr Lys Phe Ile Arg Asp Ser Gln
20 25 30
Tyr Ala Gln Tyr Gln Gly Leu Asn Leu Ala Met Gly Ile Leu Thr Ser
35 40 45
Ala Tyr Leu Ala Ser Gly Arg Asp Ile Lys Ser Asp Leu Phe Lys Tyr
50 55 60
Ser Gln Lys Ser Leu Thr Asn Ser Asn Glu Ile Phe Asn Gly Ile Asn
65 70 75 80
Phe Gly Lys Gly Ile Asp Thr Lys Ser Ser Ile Thr Gln Lys Val Lys
85 90 95
Lys Asp Phe Ser Thr Ser Leu Lys Asn Gly Leu Ala Lys Gly Glu Arg
100 105 110
Gly Phe Thr Asn Tyr Lys Arg Asp Phe Pro Leu Met Thr Arg Gly Arg
115 120 125
Asp Leu Lys Phe Tyr Glu Glu Asp Lys Glu Phe Tyr Ile Lys Trp Val
130 135 140
Asn Lys Ile Val Phe Lys Ile Leu Ile Gly Arg Lys Asp Lys Asn Lys
145 150 155 160
Val Glu Leu Ile His Thr Leu Asn Lys Val Leu Asn Lys Glu Tyr Lys
165 170 175
Val Ser Gln Ser Ser Leu Gln Phe Asp Lys Asn Asn Lys Leu Ile Leu
180 185 190
Asn Leu Thr Ile Asp Ile Pro Cys Lys Lys Val Asp Glu Ile Val Lys
195 200 205
Asp Arg Val Cys Gly Val Asp Met Gly Ile Ala Ile Pro Val Tyr Val
210 215 220
Ala Leu Asn Asp Ile Ser Tyr Val Arg Glu Gly Met Gly Thr Ile Asp
225 230 235 240
Glu Phe Met Lys Gln Arg Leu Gln Phe Gln Ser Arg Arg Arg Arg Leu
245 250 255
Gln Gln Gln Leu Lys Asn Val Thr Gly Gly Lys Gly Arg Lys Asp Lys
260 265 270
Leu Lys Gly Leu Glu Leu Leu Arg Glu Lys Glu Lys Ser Trp Val Lys
275 280 285
Thr Tyr Asn His Ala Leu Ser Lys Arg Val Val Glu Phe Ala Lys Lys
290 295 300
Asn Lys Cys Glu Tyr Ile His Leu Glu Lys Leu Thr Lys Asp Gly Phe
305 310 315 320
Gly Asp Arg Leu Leu Arg Asn Trp Ser Tyr Tyr Glu Leu Gln Glu Met
325 330 335
Ile Lys Tyr Lys Gly Glu Arg Val Gly Ile Lys Val Lys Tyr Val Asn
340 345 350
Pro Ala Tyr Thr Ser Gln Thr Cys Ser Glu Cys Gly His Val Asp Lys
355 360 365
Glu Asn Arg Glu Thr Gln Ala Lys Phe Lys Cys Leu Glu Cys Arg Phe
370 375 380
Glu Ala Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Gly Lys Ser Asp
385 390 395 400
Lys Phe Val Lys
<210> 296
<211> 404
<212> PRT
<213> Clostridioides difficile
<400> 296
Met Val Ala Met Ile Ala Val Lys Lys Leu Lys Leu Thr Ile Val Gly
1 5 10 15
Glu Glu Glu Lys Arg Lys Glu Gln Tyr Lys Phe Ile Arg Asp Ser Gln
20 25 30
Tyr Ala Gln Tyr Gln Gly Leu Asn Leu Ala Met Gly Ile Leu Thr Ser
35 40 45
Ala Tyr Leu Ala Ser Gly Arg Asp Ile Asn Ser Asp Leu Phe Lys Asp
50 55 60
Ser Lys Lys Ser Leu Thr Asn Ser Asn Glu Ile Phe Asn Gly Ile Asn
65 70 75 80
Phe Gly Lys Gly Ile Asp Thr Lys Ser Ser Ile Thr Pro Lys Val Arg
85 90 95
Asn Asp Phe Phe Thr Ser Leu Lys Asn Gly Leu Ala Lys Gly Glu Arg
100 105 110
Ser Phe Thr Asn Tyr Lys Arg Asp Phe Pro Leu Met Thr Arg Gly Arg
115 120 125
Asp Leu Lys Phe Tyr Glu Glu Asp Lys Glu Phe Tyr Ile Lys Trp Val
130 135 140
Asn Lys Val Val Phe Lys Val Pro Ile Gly Arg Lys Asp Lys Asn Lys
145 150 155 160
Val Glu Leu Val His Thr Leu Asn Lys Val Leu Asn Lys Glu Tyr Lys
165 170 175
Val Ser Gln Ser Ser Leu Gln Phe Asp Lys Asn Asn Lys Leu Ile Leu
180 185 190
Asn Leu Thr Ile Asp Ile Pro Tyr Lys Lys Ile Asp Glu Ile Val Lys
195 200 205
Gly Arg Val Cys Gly Val Asp Met Gly Ile Ala Ile Pro Val Tyr Val
210 215 220
Ala Leu Asn Asn Val Ser Tyr Val Arg Glu Gly Met Gly Thr Ile Asp
225 230 235 240
Glu Phe Met Lys Gln Arg Leu Gln Phe Gln Ser Arg Arg Arg Arg Leu
245 250 255
Gln Gln Gln Leu Lys Asn Val Asn Gly Gly Lys Gly Arg Lys Asp Lys
260 265 270
Leu Lys Gly Leu Glu Ser Leu Arg Glu Lys Glu Lys Ser Trp Val Lys
275 280 285
Thr Tyr Asn His Ala Leu Ser Lys Arg Val Val Glu Phe Ala Lys Lys
290 295 300
Asn Lys Cys Glu Tyr Ile His Leu Glu Lys Leu Thr Lys Asp Gly Phe
305 310 315 320
Gly Asp Arg Leu Leu Arg Asn Trp Ser Tyr Tyr Glu Leu Gln Glu Met
325 330 335
Ile Lys Tyr Lys Gly Glu Arg Val Gly Ile Lys Val Lys Tyr Val Asn
340 345 350
Pro Ala Tyr Thr Ser Gln Thr Cys Ser Glu Cys Gly His Val Asp Lys
355 360 365
Glu Asn Arg Glu Thr Gln Ala Lys Phe Lys Cys Leu Glu Cys Gly Phe
370 375 380
Glu Ala Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Lys Ser Asp
385 390 395 400
Lys Phe Val Lys
<210> 297
<211> 407
<212> PRT
<213> Clostridium hiranonis
<400> 297
Met Gly Ser Lys Phe Met Ile Thr Val Arg Lys Leu Lys Leu Thr Ile
1 5 10 15
Ile Asn Asp Asp Glu Thr Lys Arg Asn Glu Gln Tyr Lys Phe Ile Arg
20 25 30
Asp Ser Gln Tyr Ala Gln Tyr Gln Gly Leu Asn Leu Ala Met Ser Val
35 40 45
Leu Thr Asn Ala Tyr Leu Ser Ser Asn Arg Asp Ile Lys Ser Asp Leu
50 55 60
Phe Lys Glu Thr Gln Lys Asn Leu Lys Asn Ser Ser His Ile Phe Asp
65 70 75 80
Asp Ile Thr Phe Gly Lys Gly Thr Asp Asn Lys Ser Leu Ile Asn Gln
85 90 95
Lys Val Lys Lys Asp Phe Asn Ser Ala Ile Lys Asn Gly Leu Ala Arg
100 105 110
Gly Glu Arg Asn Ile Thr Asn Tyr Lys Arg Thr Phe Pro Leu Met Thr
115 120 125
Arg Gly Thr Ala Leu Lys Phe Ser Tyr Lys Asp Asp Cys Ser Asp Glu
130 135 140
Ile Ile Ile Lys Trp Val Asn Lys Ile Val Phe Lys Val Val Ile Gly
145 150 155 160
Arg Lys Asp Lys Asn Tyr Leu Glu Leu Met His Thr Leu Asn Lys Val
165 170 175
Ile Asn Gly Glu Tyr Lys Val Gly Gln Ser Ser Ile Tyr Phe Asp Lys
180 185 190
Ser Asn Lys Leu Ile Leu Asn Leu Thr Leu Tyr Ile Pro Glu Lys Lys
195 200 205
Asp Asp Asp Ala Ile Asn Gly Arg Thr Leu Gly Val Asp Leu Gly Ile
210 215 220
Lys Tyr Pro Ala Tyr Val Cys Leu Asn Asp Asp Thr Phe Ile Arg Gln
225 230 235 240
His Ile Gly Glu Ser Leu Glu Leu Ser Lys Gln Arg Glu Gln Phe Arg
245 250 255
Asn Arg Arg Lys Arg Leu Gln Gln Gln Leu Lys Asn Val Lys Gly Gly
260 265 270
Lys Gly Arg Glu Lys Lys Leu Ala Ala Leu Asp Lys Val Ala Val Cys
275 280 285
Glu Arg Asn Phe Val Lys Thr Tyr Asn His Thr Ile Ser Lys Arg Ile
290 295 300
Ile Asp Phe Ala Lys Lys Asn Lys Cys Glu Phe Ile Asn Leu Glu Gln
305 310 315 320
Leu Thr Lys Asp Gly Phe Asp Asn Ile Ile Leu Ser Asn Trp Ser Tyr
325 330 335
Tyr Glu Leu Gln Asn Met Ile Lys Tyr Lys Ala Asp Arg Glu Gly Ile
340 345 350
Lys Val Arg Tyr Val Asn Pro Ala Tyr Thr Ser Gln Lys Cys Ser Lys
355 360 365
Cys Gly Tyr Ile Asp Lys Glu Asn Arg Pro Thr Gln Glu Lys Phe Lys
370 375 380
Cys Ile Lys Cys Gly Phe Glu Leu Asn Ala Asp His Asn Ala Ala Ile
385 390 395 400
Asn Ile Ser Arg Leu Glu Glu
405
<210> 298
<211> 421
<212> PRT
<213> Clostridioides difficile
<400> 298
Met Leu Tyr Leu Pro Lys Tyr Ala Ile Ile Leu Leu Thr Cys Arg Ile
1 5 10 15
Arg Met Val Ala Met Ile Ala Val Lys Lys Leu Lys Leu Thr Ile Val
20 25 30
Glu Glu Glu Glu Lys Arg Lys Glu Gln Tyr Lys Phe Ile Arg Asp Ser
35 40 45
Gln Tyr Ala Gln Tyr Gln Gly Leu Asn Leu Ala Met Gly Ile Leu Thr
50 55 60
Ser Ala Tyr Leu Ala Ser Gly Arg Asp Ile Lys Ser Asp Leu Phe Lys
65 70 75 80
Asp Ser Gln Lys Ser Leu Thr Asn Ser Asn Glu Ile Phe Asn Gly Ile
85 90 95
Asn Phe Gly Lys Gly Ile Asp Thr Lys Ser Ser Ile Thr Gln Lys Val
100 105 110
Lys Lys Asp Phe Ser Thr Ser Leu Lys Asn Gly Leu Ala Lys Gly Glu
115 120 125
Arg Gly Phe Thr Asn Tyr Lys Arg Asp Phe Pro Leu Met Thr Arg Gly
130 135 140
Arg Asp Leu Lys Phe Tyr Glu Glu Asp Lys Glu Phe Tyr Ile Lys Trp
145 150 155 160
Val Asn Lys Ile Val Phe Lys Ile Leu Ile Gly Arg Lys Asp Lys Asn
165 170 175
Lys Val Glu Leu Ile His Thr Leu Asn Lys Val Leu Asn Lys Glu Tyr
180 185 190
Lys Val Ser Gln Ser Ser Leu Gln Phe Asp Lys Asn Asn Lys Leu Ile
195 200 205
Leu Asn Leu Thr Ile Asp Ile Pro Tyr Lys Gln Val Asp Glu Ile Val
210 215 220
Lys Gly Arg Val Cys Gly Val Asp Met Gly Ile Ala Ile Pro Val Tyr
225 230 235 240
Val Ala Leu Asn Asp Val Ser Tyr Val Arg Glu Gly Met Gly Thr Ile
245 250 255
Asp Glu Phe Met Lys Gln Arg Leu Gln Phe Gln Ser Arg Arg Arg Arg
260 265 270
Leu Gln Gln Gln Leu Lys Asn Val Asn Gly Gly Lys Gly Arg Lys Asp
275 280 285
Lys Leu Lys Gly Leu Glu Ser Leu Arg Glu Lys Glu Lys Ser Trp Val
290 295 300
Lys Thr Tyr Asn His Ala Leu Ser Lys Arg Val Val Glu Phe Ala Lys
305 310 315 320
Lys Asn Lys Cys Glu Tyr Ile His Leu Glu Lys Leu Thr Lys Asp Gly
325 330 335
Phe Gly Asp Arg Leu Leu Arg Asn Trp Ser Tyr Tyr Glu Leu Gln Glu
340 345 350
Met Ile Lys Tyr Lys Ala Asp Arg Val Gly Ile Lys Val Lys His Val
355 360 365
Asn Pro Ala Tyr Thr Ser Gln Thr Cys Ser Glu Cys Gly His Val Asp
370 375 380
Lys Glu Asn Arg Glu Thr Gln Ala Lys Phe Lys Cys Leu Glu Cys Gly
385 390 395 400
Phe Glu Ala Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Lys Ser
405 410 415
Asp Lys Phe Val Lys
420
<210> 299
<211> 422
<212> PRT
<213> Aneurinibacillus danicus
<400> 299
Met Lys His Thr Lys Val Met Arg Tyr Gln Ile Ile Lys Pro Ile Asn
1 5 10 15
Asp Thr Trp Glu Thr Leu Gly His Val Leu Arg Glu Ile Gln Arg Glu
20 25 30
Thr Arg Ala Ala Leu Asn Lys Thr Ile Gln Leu Ala Trp Glu Trp Gln
35 40 45
Gly Phe Ser Ala Glu Tyr Lys Gln Arg Tyr Glu Glu Tyr Pro Lys Thr
50 55 60
Lys Asp His Leu Gly Tyr Ser Ala Leu His Gly Tyr Ala Tyr Asn Arg
65 70 75 80
Leu Lys Asp Glu Phe Tyr Arg Met Asn Thr Ala Asn Leu Ser Gln Thr
85 90 95
Val Lys Arg Ala Ala Asp Lys Trp Lys Ser Asp Leu Lys Asp Val Leu
100 105 110
Arg Gly Asp Lys Ser Ile Ala Ser Phe Lys Lys Asp Cys Pro Ile Asp
115 120 125
Ile Val Ser Gln Ala Leu Arg Ile Arg Lys Asp Gly Ser Asp Tyr Ile
130 135 140
Met Thr Leu Ser Leu Val Ser Ile Lys Tyr Arg Lys Glu Leu Glu Arg
145 150 155 160
Lys Gln Ser Phe Phe Asp Val Leu Ile Ser Ala Asn Asp Lys Thr Gln
165 170 175
Arg Asp Ile Leu Asp Arg Leu Ile Ala Gly Glu Tyr Lys Leu Gly Ala
180 185 190
Ser Gln Leu Leu Tyr His Lys Lys Lys Trp Phe Val Asn Val Asn Tyr
195 200 205
Gln Phe Glu Lys Glu Glu Thr Ala Phe Asp Gln Asp Asn Ile Met Gly
210 215 220
Val Asp Leu Gly Ile Val Tyr Pro Val Tyr Met Ala Phe Asn Asn Ser
225 230 235 240
Leu Asn Arg Tyr Lys Ile Glu Gly Gly Glu Ile Glu Arg Phe Arg Ala
245 250 255
Gln Val Glu Arg Arg Lys Lys Gln Leu Leu Gln Gln Ala Lys Tyr Cys
260 265 270
Gly Asp Gly Arg Arg Gly His Gly Thr Lys Thr Arg Ile Gln Pro Ile
275 280 285
Glu Val Val Ser Asp Lys Val Ala Asn Phe Arg Asp Thr Val Asn His
290 295 300
Arg Tyr Ser Arg Tyr Val Val Asp Met Ala Ile Lys His Arg Cys Gly
305 310 315 320
Thr Ile Gln Met Glu Asp Leu Ser Gly Ile Ala Ala Glu Asp Thr Phe
325 330 335
Leu Lys Arg Trp Ser Tyr Tyr Asp Leu Gln Gln Lys Ile Glu Tyr Lys
340 345 350
Ala Lys Glu Ala Gly Ile Gln Val Val Tyr Ile Lys Pro Asp Tyr Thr
355 360 365
Ser Gln Arg Cys Ser Lys Cys Gly His Ile Glu Arg Asp Asn Arg Thr
370 375 380
Glu Gln Ala Thr Phe Glu Cys Lys Ser Cys Gly Phe Lys Thr Asn Ala
385 390 395 400
Asp Phe Asn Ala Ala Arg Asn Ile Ala Thr Lys Asp Ile Glu Lys Ile
405 410 415
Ile Ala Glu Thr Leu Lys
420
<210> 300
<211> 424
<212> PRT
<213> Parageobacillus thermoglucosidasius
<400> 300
Met Lys Tyr Thr Lys Val Met Arg Tyr Gln Ile Ile Lys Pro Leu Asn
1 5 10 15
Ala Glu Trp Asp Glu Leu Gly Met Val Leu Arg Asp Ile Gln Lys Glu
20 25 30
Thr Arg Ala Ala Leu Asn Lys Thr Ile Gln Leu Cys Trp Glu Tyr Gln
35 40 45
Gly Phe Ser Ala Asp Tyr Lys Gln Ile His Gly Gln Tyr Pro Lys Leu
50 55 60
Lys Asp Val Leu Gly Tyr Thr Ser Met His Gly Tyr Ala Tyr Asp Arg
65 70 75 80
Leu Lys Asn Glu Phe Ser Lys Ile Ala Ser Ser Asn Leu Ser Gln Thr
85 90 95
Ile Lys Arg Ala Val Asp Lys Trp Asn Ser Asp Leu Lys Glu Ile Leu
100 105 110
Arg Gly Asp Arg Ser Ile Pro Asn Phe Arg Lys Asp Cys Pro Ile Asp
115 120 125
Ile Val Lys Gln Ser Thr Lys Ile Gln Lys Cys Asn Asp Gly Tyr Val
130 135 140
Leu Ser Leu Gly Leu Ile Asn Arg Glu Tyr Lys Asn Glu Leu Gly Arg
145 150 155 160
Lys Asn Gly Val Phe Asp Val Leu Ile Lys Ala Asn Asp Lys Thr Gln
165 170 175
Gln Thr Ile Leu Glu Arg Ile Ile Asn Gly Asp Tyr Thr Tyr Thr Ala
180 185 190
Ser Gln Ile Ile Asn His Lys Asn Lys Trp Phe Ile Asn Leu Thr Tyr
195 200 205
Gln Phe Glu Thr Lys Glu Thr Ala Leu Asp Pro Asn Asn Val Met Gly
210 215 220
Val Asp Leu Gly Ile Val Tyr Pro Val Tyr Ile Ala Phe Asn Asn Ser
225 230 235 240
Leu His Arg Tyr His Ile Lys Gly Gly Glu Ile Glu Arg Phe Arg Arg
245 250 255
Gln Val Glu Lys Arg Lys Arg Glu Leu Leu Asn Gln Gly Lys Tyr Cys
260 265 270
Gly Asp Gly Arg Lys Gly His Gly Tyr Ala Thr Arg Thr Lys Ser Ile
275 280 285
Glu Ser Ile Ser Asp Lys Ile Ala Arg Phe Arg Asp Thr Cys Asn His
290 295 300
Lys Tyr Ser Arg Phe Ile Val Asp Met Ala Leu Lys His Lys Cys Gly
305 310 315 320
Ile Ile Gln Met Glu Asp Leu Thr Gly Ile Ser Lys Glu Ser Thr Phe
325 330 335
Leu Lys Asn Trp Thr Tyr Tyr Asp Leu Gln Gln Lys Ile Glu Tyr Lys
340 345 350
Ala Arg Glu Ala Gly Ile Gln Val Ile Lys Ile Glu Pro Gln Tyr Thr
355 360 365
Ser Gln Arg Cys Ser Lys Cys Gly Tyr Ile Asp Lys Glu Asn Arg Gln
370 375 380
Glu Gln Ala Thr Phe Lys Cys Ile Glu Cys Gly Phe Glu Thr Asn Ala
385 390 395 400
Asp Tyr Asn Ala Ala Arg Asn Ile Ala Ile Pro Asn Ile Asp Lys Ile
405 410 415
Ile Arg Lys Thr Leu Lys Met Gln
420
<210> 301
<211> 427
<212> PRT
<213> Brevibacillus centrosporus
<400> 301
Met Leu Thr Lys Val Met Arg Tyr Gln Ile Ile Lys Pro Leu Asp Asp
1 5 10 15
Asp Trp Asp Val Leu Gly Gln Val Leu Arg Thr Val Gln Arg Glu Thr
20 25 30
His Ala Leu Leu Asn Lys Thr Ile Gln Leu Ala Trp Glu Trp Gln Gly
35 40 45
Phe Ser Ser Glu Tyr Lys Glu Lys Tyr Gly Leu Tyr Pro Ile Gln Gln
50 55 60
Glu Ile Leu Pro Lys Lys Lys Gly Gly Asn Val Gly Ser Ile Met His
65 70 75 80
Tyr Ala Tyr Asp Gln Leu Lys Asp Ile Tyr Thr Val Ser Asp Arg Arg
85 90 95
Asn Leu Asn Gln Ser Ile Lys Arg Ala Thr Asp Lys Trp Lys Ser Asp
100 105 110
Val Pro Asp Ile Arg Lys Gly Glu Lys Ser Ile Pro Ser Phe Lys Lys
115 120 125
Asp Cys Pro Ile Asp Val Val Ser Gln Ala Tyr Ser Leu His Arg Gly
130 135 140
Ser Glu Gly Phe Val Met Arg Ala Gly Leu Met Ser Thr Glu Tyr Lys
145 150 155 160
Lys Glu Leu Gly Arg Arg Phe Gly Ser Phe Asp Leu Leu Leu Asn Val
165 170 175
Lys Asp Asn Thr Gln Arg Thr Ile Ile Glu Arg Leu Ile Ser Gly Glu
180 185 190
Tyr Lys Ala Gly Val Ala Gln Ile Leu Arg His Lys Lys Asp Trp Phe
195 200 205
Val Asn Leu Thr Tyr Ser Phe Glu His Val Asp Ser Leu Leu Asn Pro
210 215 220
Asp Arg Ile Met Gly Val Asp Leu Gly Ile Val Tyr Pro Val Tyr Leu
225 230 235 240
Ala Phe Asn Asp Leu Phe Glu Arg Tyr Lys Ile Asp Gly Gly Glu Ile
245 250 255
Glu Ser Phe Arg Lys Gln Val Glu Arg Arg Arg Lys Gln Gln Asn Trp
260 265 270
Gln Gly Lys Tyr Cys Gly Asp Gly Arg Ile Gly His Gly Thr His Thr
275 280 285
Arg Ile Lys Pro Thr Glu Val Thr Glu Glu Arg Ile Ala Asn Phe Arg
290 295 300
Asp Ser Cys Asn His Lys Tyr Ser Arg Phe Val Val Glu Ile Ala Leu
305 310 315 320
Lys His Arg Cys Gly Thr Ile Gln Met Glu Asp Leu Ser Gly Tyr Ser
325 330 335
Lys Ala Thr Asp Asp Ala Phe Leu Lys Asn Trp Ala Tyr His Asp Leu
340 345 350
Gln Gln Lys Ile Glu Tyr Lys Ala Lys Glu Val Gly Ile Lys Val Val
355 360 365
Lys Val Lys Pro Glu Cys Thr Ser Gln Arg Cys Ser Lys Cys Gly His
370 375 380
Ile Ala Lys Glu Asn Arg Gln Asp Arg Glu Phe Leu Cys Lys Gly Cys
385 390 395 400
Gly Phe Gln Val His Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Thr
405 410 415
Lys Asp Ile Glu Glu Ile Ile Lys Gln Ala Leu
420 425
<210> 302
<211> 428
<212> PRT
<213> Clostridium pasteurianum
<400> 302
Met Asn Lys Cys Ile Lys Ile Thr Ile Lys Asn Cys Asn Gln Leu Asn
1 5 10 15
Phe Thr Asn Ile Asn Lys Thr Leu Ser Asn Ile Arg Tyr Met Thr Cys
20 25 30
Lys Ala Ser Asn Lys Ala Met Gln Met Tyr Tyr Met Trp Glu Tyr Glu
35 40 45
Arg Met Asn Tyr Lys Lys Leu Asn Gly Gln Tyr Pro Ile Asp Lys Asp
50 55 60
Leu Phe Gly Lys Thr Tyr Arg Asn Val Val Glu Gly Tyr Met Lys Glu
65 70 75 80
Ile Met Asn Ile Val Asn Thr Ser Asn Val Ser Gln Thr Asn Ala Phe
85 90 95
Val Leu Lys Lys Trp Asn Ser Asp Lys Gln Asp Ile Leu Asn Tyr Arg
100 105 110
Lys Ser Val Ala Ser Phe Lys Leu Asn Met Pro Ile Tyr Ile Tyr Asn
115 120 125
Lys Asn Tyr Lys Ile Ile Gln Gly Asn Asn Gly Tyr Glu Ile Asp Ala
130 135 140
Ala Ile Phe Asn Lys Lys Gln Asp Leu Arg His Val Thr Phe Asn Ile
145 150 155 160
Asp Lys Leu Asp Asn Asn Lys Lys Val Thr Leu Asn Lys Ile Ile Ser
165 170 175
Gly Ile Tyr Lys Gln Gly Ala Ala Gln Ile Ile Gln Asp Lys Lys Gly
180 185 190
Lys Trp Tyr Phe Ile Ile Ser Phe Ser Phe Val Pro Asp Ile Lys Glu
195 200 205
Leu Asp Lys Asn Arg Ile Leu Gly Val Asp Leu Gly Ile Thr Asn Thr
210 215 220
Ala Thr Leu Gln Ile Trp Asp Asn Asn Glu Lys Lys Trp Asp Lys Leu
225 230 235 240
Leu Tyr Arg Glu Cys Ile Leu Asp Gly Lys Glu Ser Ile His Phe Arg
245 250 255
Gln Lys Val Glu Ala Arg Arg Arg Ser Met Leu Ile Ser Cys Lys Val
260 265 270
Ala Gly Asp Gly Arg Ser Gly His Gly Thr Lys Thr Lys Ile Arg Ser
275 280 285
Ala Ser Asn Ile Gly Asp Lys Ile Asn Asn Phe Arg Asp Thr Leu Asn
290 295 300
His Lys Tyr Ser Lys Tyr Ile Val Asp Phe Ala Val Lys His Asn Cys
305 310 315 320
Gly Thr Val Gln Leu Glu Asp Leu Thr Gly Phe Asn Pro Glu Asn Asn
325 330 335
Phe Leu Lys Ser Trp Pro Tyr Phe Asp Met Gln Ser Lys Ile Lys Tyr
340 345 350
Lys Ser Lys Glu Lys Gly Ile Asp Ile Lys Ile Ile Asn Pro Tyr Lys
355 360 365
Thr Ser Gln Arg Cys Ser Ile Cys Gly Cys Ile Asp Lys Leu Asn Arg
370 375 380
Asp Ser Lys Asn Asn Gln Ser Ile Phe Lys Cys Ile Asn Cys Gly Tyr
385 390 395 400
Glu Glu His Ala Asp Ile Asn Ala Ala Lys Asn Ile Ala Leu Pro Asn
405 410 415
Ile Glu Lys Leu Ile Lys Asn Phe Ala Lys Ile Pro
420 425
<210> 303
<211> 433
<212> PRT
<213> Eubacterium siraeum
<400> 303
Met Val Cys Asn Lys Val Val Lys Ile Ala Leu Ile Cys Asp Gln Ile
1 5 10 15
Asp Lys Asp Gly Lys Asp Val Asn Tyr Asn Asp Ile Tyr Lys Leu Leu
20 25 30
Trp Asp Leu Gln Lys Gln Thr Arg Glu Ala Lys Asn Lys Val Ile Arg
35 40 45
Leu Cys Trp Glu Trp Ser Gly Tyr Ser Ser Glu Tyr Phe Lys Thr His
50 55 60
Glu Glu Tyr Pro Lys Asp Lys Glu Ile Phe Gly Ile Ser Leu Arg Gly
65 70 75 80
Tyr Leu Tyr Asp Arg Ile Lys Gly Asp Tyr Asn Leu Tyr Ser Gly Asn
85 90 95
Leu Ser Gln Ser Ala Glu Ile Ala Tyr Lys Glu Tyr Lys Asn Ser Leu
100 105 110
Lys Asp Val Leu Arg Gly Asp Lys Ser Ile Ile Asn Tyr Arg Glu Asn
115 120 125
Gln Pro Leu Asp Ile Lys Asn Lys Ala Ile Gln Leu Leu Tyr Glu Asn
130 135 140
Asp Asn Phe Phe Val Arg Val Ala Leu Ile Asn Lys Asp Lys Gln Lys
145 150 155 160
Glu Leu Asn Phe Lys Asp Cys Ser Val Arg Phe Lys Leu Leu Val Lys
165 170 175
Asp Asp Ser Thr Arg Thr Ile Leu Glu Arg Cys Phe Asp Glu Val Tyr
180 185 190
Thr Ile Thr Ala Ser Lys Ile Met Tyr Asn Lys Lys Lys Lys Gln Trp
195 200 205
Tyr Ile Asn Leu Gly Tyr Lys Phe Thr Lys Glu Ile Asp Lys Thr Leu
210 215 220
Asp Lys Asp Arg Ile Leu Gly Val Asp Leu Gly Val Ile Asn Pro Leu
225 230 235 240
Val Ala Ser Val Tyr Gly Ser Tyr Asp Arg Leu Ile Ile Gly Gly Gly
245 250 255
Glu Ile Asp Lys Phe Arg Lys Arg Val Glu Ala Asn Lys Val Gln Met
260 265 270
Leu Lys Gln Gly Lys Tyr Cys Gly Asp Gly Arg Ile Gly His Gly Val
275 280 285
Asn Thr Arg Asn Lys Pro Ala Tyr Asn Ile Glu Asp Lys Ile Ser Arg
290 295 300
Phe Arg Asp Thr Val Asn His Lys Tyr Ser Lys Ala Val Val Asp Tyr
305 310 315 320
Ala Val Lys Asn Asn Cys Gly Thr Ile Gln Met Glu Asp Leu Lys Gly
325 330 335
Ile Thr Gln Asn Lys Asn Glu Arg Tyr Leu Lys Asn Trp Thr Tyr Phe
340 345 350
Asp Leu Gln Thr Lys Ile Glu Tyr Lys Ala Lys Ala Leu Gly Ile Glu
355 360 365
Val Lys Tyr Lys Asn Pro Lys Tyr Thr Ser Gln Arg Cys Ser Lys Cys
370 375 380
Gly His Ile Ala Glu Glu Asn Arg Pro Glu Gln Lys Thr Phe Lys Cys
385 390 395 400
Val Lys Cys Gly Phe Lys Val Asn Ala Asp Tyr Asn Ala Ser Gln Asn
405 410 415
Leu Ala Ile Lys Asp Ile Asp Lys Ile Ile Glu Gln Tyr Tyr Asn Lys
420 425 430
Gly
<210> 304
<211> 438
<212> PRT
<213> Bacillus toyonensis
<400> 304
Met Lys Tyr Gln Ile Leu Cys Pro Leu Asn Val Asp Trp Thr Ile Phe
1 5 10 15
Glu Lys His Leu Arg Asn Leu Thr Tyr Gln Val Arg Thr Ile Ser Asn
20 25 30
Arg Thr Ile Gln Gln Leu Trp Glu Phe Asp Ala Leu Ser Phe Asp Tyr
35 40 45
Phe Lys Glu Arg Gly Thr Tyr Pro Thr Val Gln Asp Leu Tyr Gly Cys
50 55 60
Thr Gln Lys Lys Ile Asp Gly Tyr Ile Tyr His Thr Leu Gln Ser Lys
65 70 75 80
Tyr Pro Asp Ile His Lys Gly Asn Met Ser Thr Thr Leu Gln Lys Ile
85 90 95
Ile Lys Thr Trp Lys Ser Arg Arg Asn Glu Ile Arg Lys Gly Glu Met
100 105 110
Ser Ile Pro Ser Phe Arg Asn Arg Ile Pro Ile Asp Leu His Asn Asn
115 120 125
Ser Val Asp Ile Thr Lys Glu Lys Asn Gly Asp Tyr Ile Ala Gly Ile
130 135 140
Ser Leu Phe Ser Arg Asp Phe His Lys Glu Asn Asp Asp Val Pro Lys
145 150 155 160
Gly Lys Ile Phe Val Lys Leu Ala Thr Gln Lys Gln Lys Ser Met Lys
165 170 175
Val Ile Leu Asp Arg Leu Ile Asn Gln Thr Tyr Ser Lys Gly Ala Cys
180 185 190
Met Ile His Lys Tyr Lys Asn Lys Trp Tyr Leu Ser Ile Thr Tyr Lys
195 200 205
Phe Asn Ala Ile Lys Glu Asn Lys Phe Asp Lys Glu Leu Ile Met Gly
210 215 220
Ile Asp Leu Gly Gly Ile Asn Thr Val Tyr Ser Ala Phe Asn Glu Gly
225 230 235 240
Phe Ile Arg Ser Asn Ile Lys Ser Asp Glu Ile Ile Arg Gln Arg Arg
245 250 255
Ile Asn Leu Leu Lys Gln Ser Lys Tyr Cys Ser Asn Ser Arg Thr Gly
260 265 270
Lys Gly Arg Thr Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys
275 280 285
Ile Ala Lys Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile
290 295 300
Val Lys Gln Cys Leu Lys His Asn Cys Gly Arg Ile Gln Met Glu Leu
305 310 315 320
Leu Lys Gly Ile Ser Lys Asn Asp Arg Ile Leu Lys Asp Trp Thr Tyr
325 330 335
Phe Asp Leu Gln Glu Lys Ile Lys Asn Gln Ala Glu Ile His Gly Ile
340 345 350
Glu Val Ile Lys Val Ala Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln
355 360 365
Cys Gly Tyr Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Thr Phe Glu
370 375 380
Cys Lys Gln Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys
385 390 395 400
Asn Ile Ser Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala
405 410 415
Val Gln Ser Lys Leu His Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu
420 425 430
Glu Leu Gly Tyr Leu Asp
435
<210> 305
<211> 439
<212> PRT
<213> Ruminococcus sp.
<400> 305
Met Ser Lys Asp Lys Tyr Val Ile Thr Arg Lys Ile Lys Leu Leu Pro
1 5 10 15
Val Gly Asp Lys Asp Glu Val Asp Arg Val Tyr Asp Phe Ile Arg Asp
20 25 30
Gly Gln Tyr Ser Gln Tyr Asn Ala Leu Asn Ile Leu Met Gly Gln Leu
35 40 45
Ala Ser Lys Tyr Tyr Glu Cys Lys Arg Asp Leu Ser Ser Ala Glu Phe
50 55 60
Lys Glu Ala Gln Lys Ser Ile Leu Ser Asn Ser Asn Pro Asn Leu Cys
65 70 75 80
Asp Ile Glu Phe Ala Lys Gly Cys Asp Thr Lys Ser Ala Val Val Gln
85 90 95
Lys Val Lys Gln Asp Phe Ser Ile Ala Ile Lys Asn Gly Leu Pro Arg
100 105 110
Gly Glu Arg Asn Ile Thr Asn Tyr Lys Arg Thr Val Pro Leu Ile Thr
115 120 125
Arg Gly Arg Asp Leu Val Phe Ile His Gly Tyr Glu Asn Tyr Thr Glu
130 135 140
Phe Leu Asp Asn Leu Tyr Thr Asp Arg Asn Leu Lys Val Phe Ile Lys
145 150 155 160
Trp Ile Asn Lys Ile Gln Phe Lys Ile Val Phe Gly Asn Pro Tyr Lys
165 170 175
Ser Ala Glu Leu Arg Asn Val Val Gln Asn Ile Phe Glu Glu Arg Tyr
180 185 190
Lys Val Asn Gly Ser Ser Ile Lys Ile Asp Asp Gly Asp Ile Ile Leu
195 200 205
Asn Leu Ser Leu Thr Met Pro Lys Glu Ile Lys Glu Leu Asp Glu Asn
210 215 220
Lys Val Val Gly Val Asp Leu Gly Leu Ala Ile Pro Ala Val Cys Ala
225 230 235 240
Leu Asn Thr Asn Gly Tyr Ser Arg Lys Ser Ile Gly Asn Ala Asn Asp
245 250 255
Phe Ser Arg Val Arg Thr Lys Ile Lys Ala Gln Arg Arg Arg Leu Gln
260 265 270
Lys Ser Leu Ser Gln Thr Ser Gly Gly His Gly Arg Gly Lys Lys Leu
275 280 285
Arg Ala Leu Asn Arg Phe Ser Glu Tyr Glu Lys His Trp Val Gln Asn
290 295 300
Tyr Ser His Tyr Val Ser Lys Gln Val Val Asp Phe Ala Ile Lys Asn
305 310 315 320
Asn Ala Lys Tyr Ile Asn Leu Glu Asp Leu Glu Gly Tyr Gly Asp Asp
325 330 335
Glu Lys Asn Lys Phe Ile Leu Ser Asn Trp Ser Tyr Tyr Gln Val Gln
340 345 350
Gln Tyr Ile Thr Tyr Lys Ala Glu Lys Tyr Gly Ile Glu Val Arg Lys
355 360 365
Ile Asn Pro Tyr Arg Thr Ser Gln Val Cys Ser Cys Cys Gly His Trp
370 375 380
Glu Asn Gly Gln Arg Ile Asp Gln Ala Thr Phe Ile Cys Lys Asn Pro
385 390 395 400
Glu Cys Lys Asn Phe Gly Glu Lys Val Asn Ala Asp Phe Asn Ala Ala
405 410 415
Arg Asn Ile Ala Leu Ser Thr Asp Trp Ser Asp Ile Asp Glu Lys Lys
420 425 430
Asn Lys Lys Asn Lys Lys Lys
435
<210> 306
<211> 440
<212> PRT
<213> Ruminococcus sp.
<400> 306
Met Val Lys Val Val Lys Ile Tyr Leu Ile Ser Glu Gln Phe Asp Lys
1 5 10 15
Ala Gly Asn Arg Ile Asp Tyr Lys Glu Val Asn Lys Ile Leu Trp Glu
20 25 30
Leu Gln Lys Gln Thr Arg Glu Ala Lys Asn Lys Thr Val Gln Leu Leu
35 40 45
Trp Glu Trp Asn Asn Phe Ser Ser Asp Tyr Val Lys Ala Ser Gly Ile
50 55 60
Tyr Pro Lys Ala Lys Asp Ile Phe Gly Tyr Ser Ser Val His Gly Gln
65 70 75 80
Ala Asn Lys Glu Leu Arg Thr Lys Leu Ile Leu Asn Ser Ser Asn Leu
85 90 95
Ser Thr Thr Thr Met Asp Val Cys Lys Ile Phe Asn Thr Tyr Lys Lys
100 105 110
Glu Val Trp Glu Gly Lys Arg Ser Val Pro Ser Tyr Lys Ser Asp Gln
115 120 125
Pro Leu Asp Leu His Lys Asp Ser Ile Lys Leu Ile Tyr Glu Asn Asn
130 135 140
Gln Phe Tyr Val Arg Leu Ala Leu Leu Lys Lys Ala Glu Phe Ala Lys
145 150 155 160
Tyr Gly Phe Lys Asp Gly Phe Arg Phe Lys Met Gln Val Lys Asp Asn
165 170 175
Ser Thr Lys Thr Ile Leu Glu Arg Cys Phe Asp Glu Val Tyr Lys Ile
180 185 190
Asn Ala Ser Lys Leu Leu Tyr Asp Gln Lys Lys Lys Met Trp Lys Leu
195 200 205
Asn Leu Ser Tyr Ser Phe Asp Asn Lys Asn Ile Ser Glu Leu Asp Lys
210 215 220
Glu Lys Ile Leu Gly Val Asp Val Gly Val Asn Cys Pro Leu Val Ala
225 230 235 240
Ser Val Phe Gly Asp Arg Asp Arg Phe Ile Ile Lys Gly Gly Glu Ile
245 250 255
Glu Lys Phe Arg Lys Ser Val Glu Ala Arg Arg Arg Ser Met Leu Glu
260 265 270
Gln Thr Lys Tyr Cys Gly Asp Gly Arg Ile Gly His Gly Arg Lys Lys
275 280 285
Arg Thr Glu Pro Ala Leu Asn Ile Gly Asp Lys Ile Ala Arg Phe Arg
290 295 300
Asp Thr Thr Asn His Lys Tyr Ser Arg Ala Leu Ile Glu Tyr Ala Val
305 310 315 320
Lys Lys Gly Cys Gly Thr Ile Gln Met Glu Lys Leu Thr Gly Ile Thr
325 330 335
Ser Lys Ser Asp Arg Phe Leu Lys Asp Trp Thr Tyr Tyr Asp Leu Gln
340 345 350
Thr Lys Ile Glu Asn Lys Ala Lys Glu Val Gly Ile Asn Val Val Tyr
355 360 365
Ile Ala Pro Lys Tyr Thr Ser Gln Arg Cys Ser Lys Cys Gly Tyr Ile
370 375 380
His Lys Asp Asn Arg Pro Asn Gln Ala Lys Phe Arg Cys Leu Lys Cys
385 390 395 400
Asp Phe Glu Ser Asn Ala Asp Tyr Asn Ala Ser Gln Asn Ile Gly Ile
405 410 415
Lys Asn Ile Ala Lys Ile Ile Glu Lys Asp Leu Lys Lys Gln Lys Ser
420 425 430
Glu Val Gln Val Asn Glu Asn Lys
435 440
<210> 307
<211> 441
<212> PRT
<213> Clostridium perfringens
<400> 307
Met Ser Thr Lys Cys Val Lys Ile Ala Leu Glu Tyr Ser Lys Asp Asn
1 5 10 15
Val Leu Lys Lys Glu Glu Phe Leu Lys Glu Leu Lys Asp Ile Gln Tyr
20 25 30
Lys Thr Trp Leu Ala Ser Asn Arg Ala Ile Thr Tyr Phe Tyr Ser Asn
35 40 45
Asp Met Gln Asn Leu Ile Gln Lys Asp Ile Gly Ile Pro Lys Glu Asp
50 55 60
Asp Lys Lys Leu Phe Gly Lys Gly Phe Gly Ser Trp Val Glu Asn Arg
65 70 75 80
Met Asn Glu Ile Met Tyr Gly Ala Leu Ser Asn Asn Val Ala Gln Thr
85 90 95
Arg Gln Phe Val Asn Asn Arg Tyr Ser Gln Asp Lys Lys Asn Gly Leu
100 105 110
Leu Lys Gly Asn Ile Ser Leu Ser Gln Phe Lys Arg Asp Met Pro Ile
115 120 125
Ile Ile His Asn Lys Ala Tyr Asn Ile Ile Asn Thr Pro Lys Gly Leu
130 135 140
Gly Ile Glu Ile Gly Phe Phe Asn Lys Glu Lys Gln Gln Lys Leu Gly
145 150 155 160
Val Lys Arg Ile Lys Phe Leu Phe Pro Lys Leu Asp Asn Ser Ser Lys
165 170 175
Gln Ile Leu Ile Arg Leu Met Asp Lys Thr Tyr Lys Gln Gly Ser Ile
180 185 190
Gln Ile Val Asn Asn Lys Arg Lys Lys Lys Trp Leu Val Ala Ile Ser
195 200 205
Tyr Thr Phe Glu Asn Lys Leu Gln Lys Pro Leu Ser Asp Asn Leu Val
210 215 220
Met Gly Ile Asp Leu Gly Ile Thr Asn Val Ala Thr Met Ser Ile Phe
225 230 235 240
Asn Thr Lys Lys Glu Glu Tyr Lys Ala Met Tyr Trp Lys Glu Arg Ile
245 250 255
Ile Asp Gly Thr Glu Leu Ile His Tyr Arg Gln Lys Ile Glu Ala Arg
260 265 270
Arg Lys Ser Leu Ser Ile Ala Ser Lys Trp Ser Ser Asp Ser Ala Ile
275 280 285
Gly His Gly Tyr Lys Arg Arg Met Lys Lys Ala Asn Ser Val Gly Asp
290 295 300
Lys Tyr Asn Arg Phe Lys Asp Thr Tyr Asn His Lys Val Ser Arg Tyr
305 310 315 320
Ile Val Asp Leu Ala Tyr Lys Tyr Gly Val Lys Thr Ile Gln Met Glu
325 330 335
Asp Leu Ser Gly Phe Ser Glu Tyr Gln Ser Glu Ser Leu Leu Lys Asn
340 345 350
Trp Ser Tyr Tyr Asp Leu Gln Asn Lys Ile Lys Tyr Lys Ala Glu Glu
355 360 365
Lys Gly Ile Asn Thr Ile Phe Ile Asn Pro Gln Tyr Thr Ser Lys Arg
370 375 380
Cys Ser Lys Cys Gly Asn Ile His Glu Asp Asn Arg Asp Cys Lys Asn
385 390 395 400
Asn Gln Ala Glu Phe Lys Cys Val Ile Cys Lys Tyr Ser Glu Asn Ala
405 410 415
Asp Ile Asn Ala Ser Lys Asn Ile Ala Ile Pro Tyr Ile Asp Lys Ile
420 425 430
Ile Ser Glu Tyr Ile Lys Asp Ile Lys
435 440
<210> 308
<211> 443
<212> PRT
<213> Bacillus thuringiensis
<400> 308
Met Lys Tyr Gln Ile Val Cys Pro Val Asn Ile Glu Trp Lys Thr Phe
1 5 10 15
Glu Ile Tyr Leu Arg Thr Leu Ser Tyr His Phe Arg Thr Ile Gly Asn
20 25 30
Arg Thr Ile Gln Lys Leu Trp Glu Tyr Asp Asn Gln Ser Leu Lys His
35 40 45
Phe Lys Asp Thr Gly Gln Tyr Pro Ser Ala Gln Gln Leu Tyr Gly Cys
50 55 60
Thr Gln Lys Thr Ile Ser Gly Tyr Ile Tyr Asp Gln Leu Lys Glu Glu
65 70 75 80
Tyr Gln Asp Ile Asn Lys Ala Asn Met Ser Thr Thr Leu Gln Lys Thr
85 90 95
Ile Arg Thr Trp Asn Ser Arg Lys Lys Glu Ile Trp Ser Gly Glu Met
100 105 110
Ser Ile Pro Ser Phe Arg Asn Asn Leu Pro Ile Asp Ile His Gly Asn
115 120 125
Ser Ile Gln Ile Ile Lys Glu Lys Ser Gly Asp Tyr Ile Ala Ser Val
130 135 140
Ser Leu Phe Ser Ser Lys Phe Ile Lys Glu Asn Asp Leu Pro Asn Gly
145 150 155 160
Lys Ile Leu Val Lys Leu Ser Thr Arg Lys Gln Asn Ser Met Lys Val
165 170 175
Ile Leu Asp Arg Ile Ile Asp Ser Thr Tyr Ala Lys Gly Ala Cys Met
180 185 190
Leu His Lys His Lys Lys Lys Trp Tyr Leu Ser Ile Thr Tyr Lys Ser
195 200 205
Asn Ile Lys Glu Glu Leu Lys Phe Asp Glu Asp Leu Ile Met Gly Ile
210 215 220
Asp Met Gly Lys Ile Asn Val Leu Tyr Phe Ala Phe Asn Lys Gly Leu
225 230 235 240
Val Arg Gly Ala Ile Ser Gly Glu Glu Ile Glu Ala Phe Arg Lys Lys
245 250 255
Ile Glu His Arg Arg Ile Ser Leu Leu Arg Gln Gly Lys Tyr Cys Ser
260 265 270
Gly Asn Arg Ile Gly Lys Gly Arg Glu Lys Arg Ile Lys Pro Ile Asp
275 280 285
Val Leu Asn Asp Lys Val Ala Lys Phe Arg Asn Ala Thr Asn His Lys
290 295 300
Tyr Ala Asn Tyr Ile Val Gln Gln Cys Leu Lys Tyr Asn Cys Gly Thr
305 310 315 320
Ile Gln Leu Glu Asp Leu Lys Gly Ile Ser Lys Glu Gln Thr Phe Leu
325 330 335
Lys Asn Trp Thr Tyr Phe Asp Leu Gln Glu Lys Ile Lys Asn Gln Ala
340 345 350
Asn Gln Tyr Gly Met Lys Val Val Lys Ile Asp Pro Ser Tyr Thr Ser
355 360 365
Gln Arg Cys Ser Glu Cys Gly Tyr Ile His Lys Asn Asn Arg Gln Asp
370 375 380
Gln Ser Thr Phe Glu Cys Gln Gln Cys Ser Phe Lys Val His Ala Asp
385 390 395 400
Tyr Asn Ala Ala Lys Asn Ile Ser Val Tyr Asn Ile Glu Lys Val Ile
405 410 415
Gln Lys Gln Leu Glu Leu Gln Glu Lys Leu Asn Gln Thr Lys Tyr Lys
420 425 430
Glu Gln Tyr Ile Glu Gln Met Lys Asn Ile Asn
435 440
<210> 309
<211> 444
<212> PRT
<213> Clostridium perfringens
<400> 309
Met Thr Thr Lys Ser Ile Lys Leu Ala Ile Glu Phe Ser Lys Glu Asn
1 5 10 15
Cys Val Asp Lys Lys Lys Phe Phe Asp Asn Ile Lys Asp Ile Gln Tyr
20 25 30
Lys Thr Trp Lys Ala Ser Asn Arg Ala Ile Thr Tyr Leu Tyr Ser Asn
35 40 45
Asp Met Gln Asn Leu Ile Gln Lys Asp Val Gly Leu Pro Lys Gln Glu
50 55 60
Asp Lys Asp Ile Phe Gly Lys Ser Phe Gly Ala Trp Ile Glu Asn Lys
65 70 75 80
Met Asn Glu Ile Ile Asp Gly Ala Asn Ser Gly Asn Val Ala Gln Gln
85 90 95
Arg Ala Phe Val Ile Asn Arg Tyr Asn Gln Asp Lys Lys Asn Gly Leu
100 105 110
Leu Glu Gly Lys Val Thr Leu Thr Gln Phe Lys Arg Asn Ile Pro Ile
115 120 125
Ile Ile His Asn Lys Ser Tyr Lys Ile Ile Glu Thr Asn Lys Gly Leu
130 135 140
Gly Val Glu Val Gly Leu Phe Asn Lys Lys Leu Gln Lys Glu Leu Asp
145 150 155 160
Val Lys Arg Ile Lys Phe Leu Phe Pro Lys Ile Asn Asn Ser Ser Lys
165 170 175
Ser Ile Leu Arg Arg Leu Met Asp Gly Thr Tyr Lys Gln Gly Thr Ile
180 185 190
Gln Met Lys His Asp Ala Arg Lys Asn Lys Trp Phe Met Ser Ile Thr
195 200 205
Phe Thr Phe Asp Asn Lys Ile Asp Lys Thr Leu Asp Glu Asn Leu Val
210 215 220
Met Gly Ile Asp Leu Gly Ile Ser Lys Val Ala Thr Met Ser Ile Tyr
225 230 235 240
Asn Ile Glu Lys His Glu Tyr Lys Glu Met Tyr Trp Lys Glu Arg Thr
245 250 255
Ile Asp Gly Ala Glu Leu Ile His Tyr Arg Gln Lys Leu Glu Ala Arg
260 265 270
Arg Lys Ala Leu Met Ile Ser Ser Lys Trp Ser Ser Asn Asn Ala Ile
275 280 285
Gly His Gly Tyr Lys Arg Arg Thr Val Lys Ala Asn Glu Leu Gly Glu
290 295 300
Lys Tyr Thr Arg Phe Arg Asp Thr Tyr Asn His Lys Ile Ser Arg Tyr
305 310 315 320
Ile Val Asp Leu Ala Phe Lys Tyr Gly Val Lys Thr Ile Gln Met Glu
325 330 335
Asn Leu Ser Gly Phe Ser Thr Glu Gln Ser Glu Ser Leu Leu Lys Asn
340 345 350
Trp Ser Tyr Tyr Asp Leu Gln Ser Lys Ile Glu Tyr Lys Ser Lys Asp
355 360 365
Lys Gly Ile Asn Val Val Phe Ile Asn Pro Lys Phe Thr Ser Lys Arg
370 375 380
Cys Asn Arg Cys Gly Asn Ile Arg Ser Glu Asn Arg Ser Cys Lys Asn
385 390 395 400
Asp Gln Ala Lys Phe Lys Cys Val Val Cys Gly His Glu Asp Asn Ala
405 410 415
Asp Ile Asn Ala Ser Lys Asn Ile Ala Ile Pro Tyr Ile Asp Lys Ile
420 425 430
Ile Asp Glu Tyr Leu Lys Glu Lys Glu Glu Val Ile
435 440
<210> 310
<211> 445
<212> PRT
<213> Bacillus cereus
<400> 310
Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Leu
1 5 10 15
Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr
20 25 30
Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe
35 40 45
Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Thr
50 55 60
Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile
65 70 75 80
Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met
85 90 95
Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn
100 105 110
Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile
115 120 125
Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Thr Lys Glu Lys Asn
130 135 140
Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys
145 150 155 160
Glu Asn Asp Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Ala Thr
165 170 175
Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Ile Asn Gln
180 185 190
Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp
195 200 205
Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe
210 215 220
Asp Lys Glu Leu Ile Met Gly Ile Asp Leu Gly Gly Ile Asn Thr Val
225 230 235 240
Tyr Ser Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp
245 250 255
Glu Ile Ile Arg Gln Arg Arg Ile Asn Leu Leu Lys Gln Ser Lys Tyr
260 265 270
Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg Thr Lys Arg Leu Gln Pro
275 280 285
Ile Asp Val Leu Ser Asn Lys Ile Ala Lys Phe Arg Asn Ser Thr Asn
290 295 300
His Lys Tyr Ala Asn Tyr Ile Val Lys Gln Cys Leu Lys His Asn Cys
305 310 315 320
Gly Arg Ile Gln Met Glu Leu Leu Lys Gly Ile Ser Lys Asn Asp Arg
325 330 335
Ile Leu Lys Asp Trp Thr Tyr Phe Asp Leu Gln Glu Lys Ile Lys Asn
340 345 350
Gln Ala Glu Ile His Gly Ile Glu Val Ile Lys Val Ala Pro Ala Tyr
355 360 365
Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr Ile Cys Lys Glu Asn Arg
370 375 380
Cys Thr Gln Ala Thr Phe Glu Cys Lys Gln Cys Gly Tyr Lys Thr His
385 390 395 400
Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser Thr Tyr Asp Ile Glu Asn
405 410 415
Ile Ile Asn Lys Gln Leu Ala Val Gln Ser Lys Leu His Ser Lys Lys
420 425 430
Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly Tyr Leu Asp
435 440 445
<210> 311
<211> 445
<212> PRT
<213> Bacillus toyonensis
<400> 311
Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Leu
1 5 10 15
Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr
20 25 30
Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe
35 40 45
Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Thr
50 55 60
Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile
65 70 75 80
Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met
85 90 95
Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn
100 105 110
Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile
115 120 125
Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Thr Lys Glu Lys Asn
130 135 140
Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys
145 150 155 160
Glu Asn Asp Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Ala Thr
165 170 175
Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Ile Asn Gln
180 185 190
Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp
195 200 205
Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe
210 215 220
Asp Lys Glu Leu Ile Met Gly Ile Asp Leu Gly Gly Ile Asn Thr Val
225 230 235 240
Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp
245 250 255
Glu Ile Ile Arg Gln Arg Arg Ile Asn Leu Leu Lys Gln Ser Lys Tyr
260 265 270
Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg Thr Lys Arg Leu Gln Pro
275 280 285
Ile Asp Val Leu Ser Asn Lys Ile Ala Lys Phe Arg Asn Ser Thr Asn
290 295 300
His Lys Tyr Ala Asn Tyr Ile Val Lys Gln Cys Leu Lys His Asn Cys
305 310 315 320
Gly Arg Ile Gln Met Glu Leu Leu Lys Gly Ile Ser Lys Asn Asp Arg
325 330 335
Ile Leu Lys Asp Trp Thr Tyr Phe Asp Leu Gln Glu Lys Ile Lys Asn
340 345 350
Gln Ala Glu Ile His Gly Ile Glu Val Ile Lys Val Ala Pro Ala Tyr
355 360 365
Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr Ile Cys Lys Glu Asn Arg
370 375 380
Cys Thr Gln Ala Thr Phe Glu Cys Lys Gln Cys Gly Tyr Lys Thr His
385 390 395 400
Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser Thr Tyr Asp Ile Glu Asn
405 410 415
Ile Ile Asn Lys Gln Leu Ala Val Gln Ser Lys Leu His Ser Lys Lys
420 425 430
Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly Tyr Leu Asp
435 440 445
<210> 312
<211> 445
<212> PRT
<213> Bacillus toyonensis
<400> 312
Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Leu
1 5 10 15
Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr
20 25 30
Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe
35 40 45
Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Thr
50 55 60
Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile
65 70 75 80
Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met
85 90 95
Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn
100 105 110
Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile
115 120 125
Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Thr Lys Glu Lys Asn
130 135 140
Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys
145 150 155 160
Glu Asn Asp Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Ala Thr
165 170 175
Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Ile Asn Gln
180 185 190
Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp
195 200 205
Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe
210 215 220
Asp Lys Glu Leu Ile Met Gly Ile Asp Leu Gly Gly Ile Asn Thr Val
225 230 235 240
Tyr Ser Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp
245 250 255
Glu Ile Ile Arg Gln Arg Arg Ile Asn Leu Leu Lys Gln Ser Lys Tyr
260 265 270
Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg Thr Lys Arg Leu Gln Pro
275 280 285
Ile Asp Val Leu Ser Asn Lys Ile Ala Lys Phe Arg Asn Ser Thr Asn
290 295 300
His Lys Tyr Ala Asn Tyr Ile Val Lys Gln Cys Leu Lys His Asn Cys
305 310 315 320
Gly Arg Ile Gln Met Glu Leu Leu Lys Gly Ile Ser Lys Asn Asp Arg
325 330 335
Ile Leu Lys Asp Trp Thr Tyr Phe Asp Leu Gln Glu Lys Ile Lys Asn
340 345 350
Gln Val Glu Ile His Gly Ile Glu Val Ile Lys Val Ala Pro Ala Tyr
355 360 365
Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr Ile Cys Lys Glu Asn Arg
370 375 380
Cys Thr Gln Ala Thr Phe Glu Cys Lys Gln Cys Gly Tyr Lys Thr His
385 390 395 400
Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser Thr Tyr Asp Ile Glu Asn
405 410 415
Ile Ile Asn Lys Gln Leu Ala Val Gln Ser Lys Leu His Ser Lys Lys
420 425 430
Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly Tyr Leu Asp
435 440 445
<210> 313
<211> 445
<212> PRT
<213> Bacillus toyonensis
<400> 313
Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Leu
1 5 10 15
Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr
20 25 30
Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe
35 40 45
Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Thr
50 55 60
Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile
65 70 75 80
Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met
85 90 95
Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn
100 105 110
Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile
115 120 125
Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Thr Lys Glu Lys Asn
130 135 140
Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys
145 150 155 160
Glu Asn Asp Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Ala Thr
165 170 175
Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Ile Asn Gln
180 185 190
Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp
195 200 205
Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe
210 215 220
Asp Lys Glu Leu Ile Met Gly Ile Asp Leu Gly Gly Ile Asn Thr Val
225 230 235 240
Tyr Ser Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp
245 250 255
Glu Ile Ile Arg Gln Arg Arg Ile Asn Leu Leu Lys Gln Ser Lys Tyr
260 265 270
Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg Thr Lys Arg Leu Gln Pro
275 280 285
Ile Asp Val Leu Ser Asn Lys Ile Ala Lys Phe Arg Asn Ser Thr Asn
290 295 300
His Lys Tyr Thr Asn Tyr Ile Val Lys Gln Cys Leu Lys His Asn Cys
305 310 315 320
Gly Arg Ile Gln Met Glu Leu Leu Lys Gly Ile Ser Lys Asn Asp Arg
325 330 335
Ile Leu Lys Asp Trp Thr Tyr Phe Asp Leu Gln Glu Lys Ile Lys Asn
340 345 350
Gln Ala Glu Ile His Gly Ile Glu Val Ile Lys Val Ala Pro Ala Tyr
355 360 365
Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr Ile Cys Lys Glu Asn Arg
370 375 380
Cys Thr Gln Ala Thr Phe Glu Cys Lys Gln Cys Gly Tyr Lys Thr His
385 390 395 400
Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser Thr Tyr Asp Ile Glu Asn
405 410 415
Ile Ile Asn Lys Gln Leu Ala Val Gln Ser Lys Leu His Ser Lys Lys
420 425 430
Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly Tyr Leu Asp
435 440 445
<210> 314
<211> 447
<212> PRT
<213> Alicyclobacillus acidoterrestris
<400> 314
Met Ile Val Lys Thr Met Pro Tyr Glu Ile Ile Lys Pro Leu Ser Cys
1 5 10 15
Asp Trp Ala Val Phe Gly Glu Met Leu Arg Arg Leu Arg Asp Glu Ser
20 25 30
Phe Arg Ile Lys Asn Ser Ala Ile Gln Tyr Phe Tyr Glu Asp Asp Ile
35 40 45
Lys Arg Arg Glu Phe Lys Lys Asn Asn Gly Arg Phe Pro Lys Lys Gly
50 55 60
Glu Phe Tyr Gly Ser Ser Val Ser Val Tyr Asn Tyr Val Arg Pro Asp
65 70 75 80
Val Lys Tyr Ser Ala Met Gly Asn Val Thr Leu Ile Asn Gln Leu Val
85 90 95
Lys Ser Val Trp Ile Lys Tyr Lys Asp Asp Val Val Lys Arg Asn Met
100 105 110
Ser Ile Pro Ser Tyr Arg Pro Asn Asn Pro Ile Glu Ile Asn Val Gln
115 120 125
Ser Phe Asn Ser Phe Asp Phe Gly Gln Ala Cys Val Asn Leu Leu Ser
130 135 140
Arg Lys Gly Val Glu Glu Leu Lys Lys Lys Leu Ser Glu Val Lys Lys
145 150 155 160
Lys Lys Asn Lys Thr Gly Gly Asp Asp Asn Leu Lys Phe Thr Gln Glu
165 170 175
Gln Leu Asn Gly Ile Ser Thr Ser Val Thr Phe Ala Phe Asn Pro Gly
180 185 190
Lys Asn Asn Ala Lys Gln Val Leu Asn Arg Ile Ile Ser Gly Glu Tyr
195 200 205
Lys Leu Ser Ser Ser Lys Ile Ile Tyr Asn Glu Arg Lys Asn Lys Trp
210 215 220
Met Leu Ala Val Ala Tyr Lys Phe Glu Pro Lys Thr Ile Glu Leu Asp
225 230 235 240
Lys Asn Arg Val Leu Gly Ile Asp Met Gly Val Val Tyr Pro Ala Tyr
245 250 255
Met Ala Val Asn Tyr Asp Lys Tyr Trp Arg Asp Ser Ile Asp Gly Gly
260 265 270
Gln Ile Glu Gln Tyr Arg Lys Thr Val Glu Ala Arg Arg Arg Arg Leu
275 280 285
Gln Arg Gln Ala Ala Val Cys Gly Asn Gly Arg Ile Gly His Gly Arg
290 295 300
Lys Lys Arg Met Gln Pro Leu Glu Lys Ile Ser Asp Lys Val Ala Asn
305 310 315 320
Phe Arg Asn Thr Val Asn His Thr Tyr Ala Lys Lys Ile Val Gln Asn
325 330 335
Ala Val Lys Leu Gly Cys Gly Thr Ile Gln Met Glu Glu Leu Ser Gly
340 345 350
Ile Asn Glu Lys Glu Thr Phe Leu Lys Arg Trp Thr Tyr Phe Asp Leu
355 360 365
Gln Lys Lys Ile Glu Tyr Arg Ala Lys Glu Tyr Gly Ile Asp Val Ile
370 375 380
Lys Ile Asn Pro Lys Tyr Thr Ser Gln Arg Cys Ser Glu Cys Gly Tyr
385 390 395 400
Ile Asp Glu Arg Asn Arg Pro Lys Val Pro Asp Gln Ser Lys Phe Lys
405 410 415
Cys Leu Ser Cys Gly Tyr Glu Thr Asn Ala Asp Phe Asn Ala Ala Arg
420 425 430
Asn Ile Ala Thr Pro Tyr Ile Asp Lys Ile Ile Ser Leu Asn Ser
435 440 445
<210> 315
<211> 447
<212> PRT
<213> Clostridium tetani
<400> 315
Met Asn Lys Cys Ile Lys Val Glu Leu Lys Ser Cys Leu Glu Lys Asn
1 5 10 15
Leu Ser Asn Lys Gln Ser Gln Lys Phe Leu Lys Asp Ile Gln Tyr Leu
20 25 30
Ser Trp Lys Gly Cys Asn Arg Ala Ile Thr Tyr Leu Tyr Asn His Asp
35 40 45
Met Lys Asn Ser Glu Leu Lys Tyr Lys Asn Leu Pro Lys Ile Asp Pro
50 55 60
Asn Lys Glu Tyr Gly Lys Ser Leu Gly Ser Trp Ile Glu Asp Lys Leu
65 70 75 80
Lys Glu Ile Met Val Gly Cys Leu Thr Thr Asn Val Ala Gln Thr Arg
85 90 95
Ala Phe Val Met Asn Arg Tyr Lys Gln Asp Lys Lys Gln Gly Leu Leu
100 105 110
Lys Gly Asn Val Ser Leu Ser Asn Phe Lys Arg Asn Met Pro Ile Ile
115 120 125
Ile His Asn Lys Ala Tyr Lys Ile Ile Lys Asp Asp Lys Gly Tyr Ile
130 135 140
Ala Glu Ile Gly Leu Phe Asn Leu Ile Lys Gln Lys Glu Leu Gly Ile
145 150 155 160
Lys Arg Leu Thr Phe Arg Ile Asn Lys Leu Asp Gly Asn Lys Lys Ser
165 170 175
Thr Leu Asn Lys Ile Ile Asn Glu Asp Tyr Lys Leu Gly Ser Gly Gln
180 185 190
Ile Lys Gln Asp Ser Lys Gly Lys Trp Tyr Leu Leu Ile Ser Tyr Ser
195 200 205
Phe Lys Asn Glu Ile Val Glu Gly Leu Asp Lys Asp Lys Ile Leu Gly
210 215 220
Ile Asp Leu Gly Ile Val Asn Thr Val Ala Met Ser Ile Tyr Asn Ile
225 230 235 240
Lys Lys Asp Thr Trp Glu Gln Thr Arg Tyr Lys Asp Thr Val Ile Asp
245 250 255
Gly Glu Glu Leu Ile His Phe Arg Lys Lys Ile Glu Ala Arg Lys Lys
260 265 270
Ser Leu Ser Ile Gly Ser Lys Tyr Cys Gly Asp Gly Arg Ile Gly His
275 280 285
Gly Tyr Lys Thr Arg Met Lys Pro Phe Leu Asn Ile Lys Asp Lys Ile
290 295 300
Ser Lys Phe Arg Asp Thr Tyr Asn His Lys Ile Ser Arg Tyr Ile Ile
305 310 315 320
Asp Phe Ala Ile Lys Asn Lys Cys Gly Ala Ile Gln Met Glu Asp Leu
325 330 335
Ser Gly Phe Pro Glu Tyr Gln Thr Glu Lys Phe Leu Lys Asp Trp Thr
340 345 350
Tyr Tyr Asp Leu Gln Asn Lys Leu Lys Tyr Lys Ala Glu Glu Ile Gly
355 360 365
Ile Asp Ile Ile Phe Ile Asn Pro Lys Tyr Thr Ser Gln Arg Cys Ser
370 375 380
Lys Cys Gly Asn Ile Asn Asn Lys Asn Arg Asp Cys Lys Lys Asp Gln
385 390 395 400
Ala Lys Phe Gln Cys Ile Ile Cys Gly Tyr Lys Glu Asn Ala Asp Ile
405 410 415
Asn Ala Ser Lys Asn Ile Ser Ile Pro Tyr Ile Asp Asp Ile Ile Lys
420 425 430
Glu Tyr Leu Lys Glu Asn Asn Ser Ile Lys Val Asp Phe Pro Thr
435 440 445
<210> 316
<211> 449
<212> PRT
<213> Candidatus Levybacteria bacterium
<400> 316
Met Val Arg Glu Ile Arg Lys Leu Asn Val Ile Asp Lys Val Glu Lys
1 5 10 15
Lys Lys Val Val Gln Arg Thr Leu Arg Leu Lys Leu Glu Leu Val Asp
20 25 30
Lys Gly Ser Lys Asp Arg Ile Asp Lys Ile Val Arg Asp Cys Pro Tyr
35 40 45
Ala Ala Asn Gly Ile Ile Asn Gly Gln Trp Phe Asn Asp Tyr Glu Ala
50 55 60
Asp Ala Leu Arg Tyr Arg Val Ile Gly Asn Val Asn Phe Lys Glu Leu
65 70 75 80
Thr Asp Cys Glu Lys Glu Glu Tyr Lys Asn Lys Leu Ser Ser Cys Glu
85 90 95
Asp Ile Leu Ile Gln Lys Tyr Gly Thr Lys Arg Gln Ala Thr Thr Glu
100 105 110
Arg Asp Ile Lys Asn Leu Phe Pro Glu Ile Pro Pro Cys Val Thr Asn
115 120 125
Pro Leu Asn Asn Lys Ile Val Ser Thr Tyr Asn Lys Val Lys Gly Asp
130 135 140
Ile Lys Lys Gly Asn Arg Val Leu Ser Thr Phe Lys Lys Asp Met Pro
145 150 155 160
Ile Pro Thr Thr Leu Ser Ser Val Val Phe Gly Glu Asp Lys Gly Lys
165 170 175
Phe Phe Ile Val Trp Ser Leu Ser Arg Ser Glu Lys Ile Lys Phe Lys
180 185 190
Ile Lys Leu Gly Lys Asp Lys Ser Gly Tyr Lys Gln Asp Leu Val Ala
195 200 205
Ile Ile Asn Lys Thr Lys Asn Ile Cys Ala Pro Glu Phe Gln Tyr Lys
210 215 220
Lys Arg Asn Phe Tyr Leu Leu Leu Pro Val Lys Asp Glu Val Asn Pro
225 230 235 240
His Ser His Leu Phe Asn Asp Arg Val Val Gly Ile Asp Leu Gly Leu
245 250 255
Asn Ile Pro Ala Tyr Ala Ser Cys Ile Ser Asn Gly Ser Glu Phe Val
260 265 270
Asp Ser Glu His Phe Gly Ser Lys Glu Ser Phe Leu Lys Val Arg Leu
275 280 285
Gln Phe Arg Asn Arg Lys Arg Gln Leu Gln Lys Asp Leu Gln Tyr Val
290 295 300
Asn Gly Gly Lys Gly Arg Arg Lys Lys Thr Lys Ala Leu Asp Glu Tyr
305 310 315 320
Glu Phe Lys Glu Arg Asn Tyr Cys Arg Thr Tyr Asn His Asn Leu Thr
325 330 335
Ser Lys Ile Ile Asp Phe Ala Ile Lys Cys Gly Ala Lys His Ile Asn
340 345 350
Leu Glu Ser Leu Lys Gly Phe Arg Glu Lys Lys Ile Leu Gly Phe Trp
355 360 365
Ser Tyr Phe Glu Met Gln Thr Leu Leu Glu Tyr Lys Ala Lys Arg Asn
370 375 380
Asn Ile Glu Val His Phe Val Ser Ala Asn Tyr Thr Ser Gln Thr Cys
385 390 395 400
Ser Gln Cys Gly Asn Cys Asp Lys Thr Gln Arg Lys Gly Val Asn Phe
405 410 415
Thr Cys Asn Lys Cys Gly Tyr Val Glu Asp Ala Asp Phe Asn Ala Ser
420 425 430
Ile Asn Ile Ala Lys Ser Ile Gln Phe Val Ala Asn Lys Lys Ala Ser
435 440 445
Lys
<210> 317
<211> 450
<212> PRT
<213> Bacillus cereus
<400> 317
Met Ser Thr Val Val Lys Val Met Lys Tyr Gln Ile Val Cys Pro Val
1 5 10 15
Asn Ile Glu Trp Lys Thr Phe Glu Ile Tyr Leu Arg Thr Leu Ser Tyr
20 25 30
His Phe Arg Thr Ile Gly Asn Arg Thr Ile Gln Lys Leu Trp Glu Tyr
35 40 45
Asp Asn Gln Ser Leu Lys His Phe Lys Asp Thr Gly Gln Tyr Pro Ser
50 55 60
Ala Gln Gln Leu Tyr Gly Cys Thr Gln Lys Thr Ile Ser Gly Tyr Ile
65 70 75 80
Tyr Asp Gln Leu Lys Glu Glu Tyr Gln Asp Ile Asn Lys Ala Asn Met
85 90 95
Ser Thr Thr Leu Gln Lys Thr Ile Lys Thr Trp Asn Ser Arg Lys Lys
100 105 110
Glu Ile Trp Ser Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Asn Leu
115 120 125
Pro Ile Asp Ile His Gly Asn Ser Ile Gln Ile Ile Lys Glu Lys Ser
130 135 140
Gly Asp Tyr Ile Ala Ser Val Ser Leu Phe Ser Ser Lys Phe Ile Lys
145 150 155 160
Glu Asn Asp Leu Pro Asn Gly Lys Ile Leu Val Lys Leu Ser Thr Arg
165 170 175
Lys Gln Asn Ser Met Lys Val Ile Leu Asp Arg Ile Ile Asp Ser Thr
180 185 190
Tyr Ala Lys Gly Ala Cys Met Leu His Lys His Lys Lys Lys Trp Tyr
195 200 205
Leu Ser Ile Thr Tyr Lys Ser Asn Ile Lys Glu Glu Leu Lys Phe Asp
210 215 220
Glu Asp Leu Ile Met Gly Ile Asp Met Gly Lys Ile Asn Val Leu Tyr
225 230 235 240
Phe Ala Phe Asn Lys Gly Leu Val Arg Gly Gly Ile Ser Gly Glu Glu
245 250 255
Ile Glu Ala Phe Arg Lys Lys Ile Glu His Arg Arg Ile Ser Leu Leu
260 265 270
Arg Gln Gly Lys Tyr Cys Ser Gly Asn Arg Ile Gly Lys Gly Arg Lys
275 280 285
Lys Arg Ile Lys Pro Ile Glu Val Leu Asn Asp Lys Ile Ala Lys Phe
290 295 300
Arg Asn Ala Thr Asn His Lys Tyr Ala Asn Tyr Ile Val Gln Gln Cys
305 310 315 320
Leu Lys Tyr Asn Cys Gly Thr Ile Gln Leu Glu Asp Leu Gln Gly Ile
325 330 335
Ser Lys Glu Gln Thr Phe Leu Lys Asn Trp Thr Tyr Phe Asp Leu Gln
340 345 350
Glu Lys Ile Lys Asn Gln Ala Asn Gln Tyr Gly Ile Lys Val Val Lys
355 360 365
Ile Asp Pro Ser Tyr Thr Ser Gln Arg Cys Ser Glu Cys Gly Tyr Ile
370 375 380
His Lys Asn Asn Arg Gln Asn Gln Ser Thr Phe Glu Cys Gln Gln Cys
385 390 395 400
Ser Phe Lys Val His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser Val
405 410 415
Tyr Asn Ile Glu Lys Val Ile Gln Lys Gln Leu Lys Leu Gln Glu Lys
420 425 430
Leu Asn Leu Thr Lys Tyr Lys Glu Gln Tyr Ile Glu Gln Met Glu Asn
435 440 445
Ile Asn
450
<210> 318
<211> 450
<212> PRT
<213> Bacillus cereus
<400> 318
Met Ser Ile Ala Val Lys Val Met Lys Tyr Gln Ile Val Cys Pro Val
1 5 10 15
Asn Ile Glu Trp Lys Thr Phe Glu Ile Tyr Leu Arg Thr Leu Ser Tyr
20 25 30
His Phe Arg Thr Ile Gly Asn Arg Thr Ile Gln Lys Leu Trp Glu Tyr
35 40 45
Asp Asn Gln Ser Leu Lys His Phe Lys Asp Thr Gly Gln Tyr Pro Ser
50 55 60
Ala Gln Gln Leu Tyr Gly Cys Thr Gln Lys Thr Ile Ser Gly Tyr Ile
65 70 75 80
Tyr Asp Gln Leu Lys Glu Glu Tyr Gln Asp Ile Asn Lys Ala Asn Met
85 90 95
Ser Thr Thr Leu Gln Lys Thr Ile Lys Thr Trp Asn Ser Arg Lys Lys
100 105 110
Glu Ile Trp Ser Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Asn Leu
115 120 125
Pro Ile Asp Ile His Gly Asn Ser Ile Gln Ile Ile Lys Glu Lys Ser
130 135 140
Gly Asp Tyr Ile Ala Ser Val Ser Leu Phe Ser Ser Lys Phe Ile Lys
145 150 155 160
Glu Asn Asp Leu Pro Asn Gly Lys Ile Leu Val Lys Leu Ser Thr Arg
165 170 175
Lys Gln Asn Ser Met Lys Val Ile Leu Asp Arg Ile Ile Asp Ser Thr
180 185 190
Tyr Ala Lys Gly Ala Cys Met Leu His Lys His Lys Lys Lys Trp Tyr
195 200 205
Leu Ser Ile Thr Tyr Lys Ser Asn Ile Lys Glu Glu Leu Lys Phe Asp
210 215 220
Glu Asp Leu Ile Met Gly Ile Asp Met Gly Lys Ile Asn Val Leu Tyr
225 230 235 240
Phe Ala Phe Asn Lys Gly Leu Val Arg Gly Ala Ile Ser Gly Glu Glu
245 250 255
Ile Glu Ala Phe Arg Lys Lys Ile Glu His Arg Arg Ile Ser Leu Leu
260 265 270
Arg Gln Gly Lys Tyr Cys Ser Gly Asn Arg Ile Gly Lys Gly Arg Lys
275 280 285
Lys Arg Ile Lys Pro Ile Glu Val Leu Asn Asp Lys Ile Ala Lys Phe
290 295 300
Arg Asn Ala Thr Asn His Lys Tyr Ala Asn Tyr Ile Val Gln Gln Cys
305 310 315 320
Leu Lys Tyr Asn Cys Gly Thr Ile Gln Leu Glu Asp Leu Gln Gly Ile
325 330 335
Ser Lys Glu Gln Thr Phe Leu Lys Asn Trp Thr Tyr Phe Asp Leu Gln
340 345 350
Glu Lys Ile Lys Asn Leu Ala Asn Gln Tyr Gly Ile Lys Val Val Lys
355 360 365
Ile Asp Pro Ser Tyr Thr Ser Gln Arg Cys Ser Glu Cys Gly Tyr Ile
370 375 380
His Lys Asn Asn Arg Gln Asn Gln Ser Thr Phe Glu Cys Gln Gln Cys
385 390 395 400
Ser Phe Lys Val His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser Val
405 410 415
Tyr Asn Ile Glu Lys Val Ile Gln Lys Gln Leu Lys Leu Gln Glu Lys
420 425 430
Leu Asn Leu Thr Lys Tyr Lys Glu Gln Tyr Ile Glu Gln Met Glu Asn
435 440 445
Ile Asn
450
<210> 319
<211> 450
<212> PRT
<213> Bacillus cereus
<400> 319
Met Ser Ile Ala Val Lys Val Met Lys Tyr Gln Ile Val Cys Pro Val
1 5 10 15
Asn Ile Glu Trp Lys Thr Phe Glu Ile Tyr Leu Arg Thr Leu Ser Tyr
20 25 30
His Phe Arg Thr Ile Gly Asn Arg Thr Ile Gln Lys Leu Trp Glu Tyr
35 40 45
Asp Asn Gln Ser Leu Lys His Phe Lys Asp Thr Gly Gln Tyr Pro Ser
50 55 60
Ala Gln Gln Leu Tyr Gly Cys Thr Gln Lys Thr Ile Ser Gly Tyr Ile
65 70 75 80
Tyr Asp Gln Leu Lys Glu Glu Tyr Gln Asp Ile Asn Lys Ala Asn Met
85 90 95
Ser Thr Thr Leu Gln Lys Thr Ile Lys Thr Trp Asn Ser Arg Lys Lys
100 105 110
Glu Ile Trp Ser Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Asn Leu
115 120 125
Pro Ile Asp Ile His Gly Asn Ser Ile Gln Ile Ile Lys Glu Lys Ser
130 135 140
Gly Asp Tyr Ile Ala Ser Val Ser Leu Phe Ser Ser Lys Phe Ile Lys
145 150 155 160
Glu Asn Asp Leu Pro Asn Gly Lys Ile Leu Val Lys Leu Ser Thr Arg
165 170 175
Lys Gln Asn Ser Met Lys Val Ile Leu Asp Arg Ile Ile Asp Ser Thr
180 185 190
Tyr Ala Lys Gly Ala Cys Met Leu His Lys His Lys Lys Lys Trp Tyr
195 200 205
Leu Ser Ile Thr Tyr Lys Ser Asn Ile Lys Glu Glu Leu Lys Phe Asp
210 215 220
Glu Asp Leu Ile Met Gly Ile Asp Met Gly Lys Ile Asn Val Leu Tyr
225 230 235 240
Phe Ala Phe Asn Lys Gly Leu Val Arg Gly Ala Ile Ser Gly Glu Glu
245 250 255
Ile Glu Ala Phe Arg Lys Lys Ile Glu His Arg Arg Ile Ser Leu Leu
260 265 270
Arg Gln Gly Lys Tyr Cys Ser Gly Asn Arg Ile Gly Lys Gly Arg Lys
275 280 285
Lys Arg Ile Lys Pro Ile Glu Val Leu Asn Asp Lys Ile Ala Lys Phe
290 295 300
Arg Thr Ala Thr Asn His Lys Tyr Ala Asn Tyr Ile Val Gln Gln Cys
305 310 315 320
Leu Lys Phe Asn Cys Gly Thr Ile Gln Leu Glu Asp Leu Gln Gly Ile
325 330 335
Ser Lys Glu Gln Thr Phe Leu Lys Asn Trp Thr Tyr Phe Asp Leu Gln
340 345 350
Glu Lys Ile Lys Asn Gln Ala Asn Gln Tyr Gly Ile Lys Val Val Lys
355 360 365
Ile Asp Pro Ser Tyr Thr Ser Gln Arg Cys Ser Glu Cys Gly Cys Ile
370 375 380
His Lys Asn Asn Arg Gln Asn Gln Ser Thr Phe Glu Cys Gln Gln Cys
385 390 395 400
Ser Phe Lys Val His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser Val
405 410 415
Tyr Asn Ile Glu Lys Val Ile Gln Lys Gln Leu Lys Leu Gln Glu Lys
420 425 430
Leu Asn Leu Thr Lys Tyr Lys Glu Gln Tyr Ile Glu Gln Met Glu Asn
435 440 445
Ile Asn
450
<210> 320
<211> 450
<212> PRT
<213> Clostridium paraputrificum
<400> 320
Met Lys Leu Asn Lys Cys Ile Lys Val Thr Leu Val Lys Cys Leu Asn
1 5 10 15
Tyr Asp Tyr Lys Glu Ile Lys Gln Ile Ile Arg Asp Phe Asn Tyr Thr
20 25 30
Ala Cys Lys Ala Ser Asn Lys Ala Met Arg Met Trp Phe Phe His Thr
35 40 45
Gln Asp Met Ile Asp Lys Lys Asn Lys Tyr Lys Glu Phe Asn Gln Ile
50 55 60
Gln Tyr Glu Lys Asp Thr Tyr Gly Lys Ser Tyr Arg Asn Val Ile Glu
65 70 75 80
Gly Glu Met Lys Lys Ile Met Pro Leu Ala Asn Thr Ser Asn Val Gly
85 90 95
Thr Leu His Gln Gln Leu Val Gln Asn Asp Trp Ser Arg Leu Lys Lys
100 105 110
Asp Ile Leu Ser Cys Lys Ala Asn Leu Pro Thr Tyr Lys Leu Ser Thr
115 120 125
Pro Tyr Phe Ile Lys Asn Asp Asn Phe Lys Leu Arg Asn His Asn Gly
130 135 140
Tyr Phe Val Asp Ile Ala Phe Phe Asn Lys Glu Gly Leu Lys Gln Tyr
145 150 155 160
Gly Tyr Lys Ala Gly His Lys Phe Glu Phe Gln Ile Asp Lys Leu Asp
165 170 175
Gly Asn Lys Lys Ser Thr Ile Asn Lys Ile Ile Asn Gly Glu Tyr Lys
180 185 190
Gln Gly Ser Ala Gln Leu Ser Ile Ser Asn Lys Gly Lys Ile Glu Leu
195 200 205
Ile Ile Ser Tyr Ser Phe Glu Lys Glu Glu Val Pro Val Leu Asp Lys
210 215 220
Asn Lys Ile Leu Gly Ile Asp Leu Gly Ile Thr Asn Val Ala Thr Met
225 230 235 240
Ser Val Tyr Asp Ser Met Arg Glu Gln Tyr Asp Tyr Phe Ser Trp Lys
245 250 255
Thr Asn Val Ile Ser Gly Lys Glu Leu Ile Ala Phe Arg Gln Lys Tyr
260 265 270
Tyr Asn Leu Arg Arg Asp Met Ser Ile Ala Ser Lys Thr Ala Gly Gln
275 280 285
Gly Arg Cys Gly His Gly Tyr Lys Thr Lys Met Lys Ser Val Asn Lys
290 295 300
Val Arg Asn Lys Ile Ala Asn Phe Ala Asp Thr Tyr Asn His Lys Ile
305 310 315 320
Ser Lys Tyr Ile Ile Glu Phe Ala Ile Lys Asn Asn Cys Gly Val Ile
325 330 335
Gln Val Glu Asp Leu Ser Gly Ala Thr Ala Asp Thr His Asn Lys Met
340 345 350
Leu Lys Asp Trp Ser Tyr Tyr Asp Leu Gln Gln Lys Ile Glu Tyr Lys
355 360 365
Ala Lys Glu Gln Gly Ile Glu Val Ile Lys Val Asn Pro Lys Tyr Thr
370 375 380
Ser Lys Arg Cys Ser Lys Cys Gly Cys Ile His Glu Asp Asn Arg Asp
385 390 395 400
Cys Arg Asn Asn Gln Ala Lys Phe Glu Cys Lys Val Cys Gly Tyr Asn
405 410 415
Glu Asn Ala Asp Ile Asn Ala Ser Lys Asn Ile Ala Ile Pro Asp Ile
420 425 430
Asp Asn Ile Ile Lys Gly Thr Glu Ile Leu His Ser Lys Glu Asn Lys
435 440 445
Ala Ser
450
<210> 321
<211> 451
<212> PRT
<213> Bacillus cereus
<400> 321
Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met
1 5 10 15
Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr
20 25 30
Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe
35 40 45
Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Thr
50 55 60
Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile
65 70 75 80
Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met
85 90 95
Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn
100 105 110
Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile
115 120 125
Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Ile Lys Glu Lys Asn
130 135 140
Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys
145 150 155 160
Glu Asn Gly Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Gly Thr
165 170 175
Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Ile Asn Gln
180 185 190
Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp
195 200 205
Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe
210 215 220
Asp Lys Glu Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val
225 230 235 240
Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp
245 250 255
Glu Ile Lys Met Phe Asn Glu Arg Ile Arg Gln Arg Arg Ile Asn Leu
260 265 270
Leu Lys Gln Ser Lys Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg
275 280 285
Thr Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys
290 295 300
Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Val Lys Gln
305 310 315 320
Cys Leu Lys His Asn Cys Gly Arg Ile Gln Met Glu Leu Leu Lys Gly
325 330 335
Ile Ser Lys Asn Asp Lys Val Leu Lys Asp Trp Thr Tyr Phe Asp Leu
340 345 350
Gln Glu Lys Ile Lys Asn Gln Ala Glu Ile Tyr Gly Ile Glu Val Ile
355 360 365
Lys Val Val Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr
370 375 380
Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Met Phe Glu Cys Lys Gln
385 390 395 400
Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser
405 410 415
Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser
420 425 430
Lys Leu His Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly
435 440 445
Tyr Leu Asp
450
<210> 322
<211> 451
<212> PRT
<213> Bacillus thuringiensis
<400> 322
Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met
1 5 10 15
Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr
20 25 30
Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe
35 40 45
Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Thr
50 55 60
Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile
65 70 75 80
Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met
85 90 95
Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn
100 105 110
Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile
115 120 125
Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Ile Lys Glu Lys Asn
130 135 140
Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys
145 150 155 160
Glu Asn Asp Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Ser Thr
165 170 175
Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Met Asn Gln
180 185 190
Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp
195 200 205
Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe
210 215 220
Asp Lys Glu Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val
225 230 235 240
Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp
245 250 255
Glu Ile Lys Ile Phe Asn Glu Arg Ile Arg Gln Arg Arg Ile Asn Leu
260 265 270
Leu Lys Gln Ser Lys Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg
275 280 285
Thr Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys
290 295 300
Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Val Lys Gln
305 310 315 320
Cys Leu Lys His Asn Cys Gly Arg Ile Gln Met Glu Leu Leu Lys Gly
325 330 335
Ile Ser Lys Asn Asp Lys Ile Leu Lys Asp Trp Thr Tyr Phe Asp Leu
340 345 350
Gln Glu Lys Ile Lys Asn Gln Ala Glu Ile His Gly Ile Glu Val Ile
355 360 365
Lys Ile Ala Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr
370 375 380
Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Val Phe Glu Cys Lys Gln
385 390 395 400
Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser
405 410 415
Ile Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser
420 425 430
Lys Leu His Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly
435 440 445
Tyr Leu Asp
450
<210> 323
<211> 451
<212> PRT
<213> Bacillus cereus
<400> 323
Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met
1 5 10 15
Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr
20 25 30
Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe
35 40 45
Asp Ala Leu Ser Phe Asp Tyr Phe Lys Ala Arg Gly Thr Tyr Pro Thr
50 55 60
Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile
65 70 75 80
Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met
85 90 95
Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn
100 105 110
Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile
115 120 125
Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Thr Lys Glu Lys Asn
130 135 140
Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys
145 150 155 160
Glu Asn Asp Asp Val Pro Lys Gly Lys Ile Phe Ile Lys Leu Ala Thr
165 170 175
Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Ile Asn Gln
180 185 190
Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp
195 200 205
Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe
210 215 220
Asp Lys Glu Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val
225 230 235 240
Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp
245 250 255
Glu Ile Lys Thr Phe Asn Glu Arg Ile Arg Gln Arg Arg Ile Asn Leu
260 265 270
Leu Lys Gln Ser Lys Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg
275 280 285
Thr Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys
290 295 300
Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Ile Lys Gln
305 310 315 320
Cys Leu Lys His Asn Cys Gly Arg Ile Gln Met Glu Leu Leu Lys Gly
325 330 335
Ile Ser Lys Asn Asp Lys Val Leu Lys Asp Trp Thr Tyr Phe Asp Leu
340 345 350
Gln Glu Lys Ile Lys Asn Gln Ala Glu Ile His Gly Ile Glu Val Ile
355 360 365
Lys Ile Ala Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr
370 375 380
Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Met Phe Glu Cys Lys Gln
385 390 395 400
Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser
405 410 415
Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser
420 425 430
Lys Leu His Ser Lys Lys Cys Met Ala Glu Tyr Met Glu Glu Leu Gly
435 440 445
Tyr Leu Asp
450
<210> 324
<211> 451
<212> PRT
<213> Bacillus toyonensis
<400> 324
Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met
1 5 10 15
Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr
20 25 30
Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe
35 40 45
Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Thr
50 55 60
Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile
65 70 75 80
Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met
85 90 95
Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn
100 105 110
Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile
115 120 125
Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Thr Lys Glu Lys Asn
130 135 140
Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys
145 150 155 160
Glu Asn Asp Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Ala Thr
165 170 175
Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Ile Asn Gln
180 185 190
Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp
195 200 205
Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe
210 215 220
Asp Lys Glu Leu Ile Met Gly Ile Asp Leu Gly Gly Ile Asn Thr Val
225 230 235 240
Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp
245 250 255
Glu Ile Lys Met Phe Asn Glu Arg Ile Arg Gln Arg Arg Ile Asn Leu
260 265 270
Leu Lys Gln Ser Lys Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg
275 280 285
Thr Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys
290 295 300
Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Val Lys Gln
305 310 315 320
Cys Leu Lys His Asn Cys Gly Arg Ile Gln Met Glu Leu Leu Lys Gly
325 330 335
Ile Ser Lys Asn Asp Arg Ile Leu Lys Asp Trp Thr Tyr Phe Asp Leu
340 345 350
Gln Glu Lys Ile Lys Asn Gln Ala Glu Ile His Gly Ile Glu Val Ile
355 360 365
Lys Val Ala Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr
370 375 380
Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Thr Phe Glu Cys Lys Gln
385 390 395 400
Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser
405 410 415
Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser
420 425 430
Lys Leu His Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly
435 440 445
Tyr Leu Asp
450
<210> 325
<211> 451
<212> PRT
<213> Bacillus cereus
<400> 325
Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met
1 5 10 15
Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr
20 25 30
Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe
35 40 45
Asp Ala Leu Ser Phe Asp Tyr Phe Lys Ala Ile Gly Thr Tyr Pro Thr
50 55 60
Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile
65 70 75 80
Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met
85 90 95
Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn
100 105 110
Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile
115 120 125
Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Lys Lys Glu Lys Asn
130 135 140
Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys
145 150 155 160
Glu Asn Ser Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Ala Thr
165 170 175
Lys Lys Gln Lys Ser Met Lys Ile Ile Leu Asp Arg Leu Met Asn Gln
180 185 190
Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp
195 200 205
Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Asn Phe
210 215 220
Asp Lys Glu Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val
225 230 235 240
Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp
245 250 255
Glu Ile Lys Ala Phe Asn Glu Lys Ile Arg Gln Arg Arg Ile Asn Leu
260 265 270
Leu Lys Gln Ser Asn Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg
275 280 285
Ala Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys
290 295 300
Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Ile Lys Gln
305 310 315 320
Cys Leu Lys His Asn Cys Gly Arg Ile Gln Ile Glu Leu Leu Lys Gly
325 330 335
Ile Ser Lys Asn Asp Lys Val Leu Lys Asp Trp Thr Tyr Phe Asp Leu
340 345 350
Gln Glu Lys Ile Lys Asn Gln Ala Glu Val His Gly Ile Glu Val Ile
355 360 365
Lys Val Ala Ser Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr
370 375 380
Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Val Phe Glu Cys Lys Gln
385 390 395 400
Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ala
405 410 415
Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser
420 425 430
Lys Leu His Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly
435 440 445
Tyr Leu Asp
450
<210> 326
<211> 451
<212> PRT
<213> Bacillus toyonensis
<400> 326
Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met
1 5 10 15
Asn Val Asp Trp Ile Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr
20 25 30
Gln Ile Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe
35 40 45
Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Thr
50 55 60
Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile
65 70 75 80
Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met
85 90 95
Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn
100 105 110
Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile
115 120 125
Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Thr Lys Glu Lys Asn
130 135 140
Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys
145 150 155 160
Glu Asn Asp Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Ala Thr
165 170 175
Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Ile Asn Gln
180 185 190
Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp
195 200 205
Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Lys Lys Phe
210 215 220
Asp Lys Glu Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val
225 230 235 240
Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp
245 250 255
Glu Ile Lys Glu Phe Asn Glu Arg Ile Arg Gln Arg Arg Ile Asn Leu
260 265 270
Leu Asn Gln Ser Lys Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg
275 280 285
Thr Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys
290 295 300
Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Ile Lys Gln
305 310 315 320
Cys Leu Lys Tyr Asn Cys Gly Arg Ile Gln Met Glu Leu Leu Lys Gly
325 330 335
Ile Ser Lys Asn Asp Lys Val Leu Lys Asp Trp Thr Tyr Phe Asp Leu
340 345 350
Gln Glu Lys Ile Lys Asn Gln Ala Glu Ile His Gly Ile Glu Val Ile
355 360 365
Lys Val Ala Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr
370 375 380
Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Met Phe Glu Cys Lys Gln
385 390 395 400
Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ala
405 410 415
Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Ala Gln Ser
420 425 430
Lys Leu His Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly
435 440 445
Tyr Leu Asp
450
<210> 327
<211> 451
<212> PRT
<213> Bacillus wiedmannii
<400> 327
Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met
1 5 10 15
Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr
20 25 30
Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe
35 40 45
Asp Ala Leu Ser Phe Asp Tyr Phe Lys Ala Arg Gly Thr Tyr Pro Thr
50 55 60
Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile
65 70 75 80
Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met
85 90 95
Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn
100 105 110
Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile
115 120 125
Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Thr Lys Glu Lys Asn
130 135 140
Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys
145 150 155 160
Glu Asn Asp Asp Val Pro Lys Gly Lys Ile Phe Ile Lys Leu Ala Thr
165 170 175
Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Ile Asn Gln
180 185 190
Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp
195 200 205
Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe
210 215 220
Asp Lys Glu Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val
225 230 235 240
Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp
245 250 255
Glu Ile Lys Thr Phe Asn Glu Arg Ile Arg Gln Arg Arg Ile Asn Leu
260 265 270
Leu Lys Gln Ser Lys Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg
275 280 285
Thr Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys
290 295 300
Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Ile Lys Gln
305 310 315 320
Cys Leu Lys His Asn Cys Gly Arg Ile Gln Met Glu Leu Leu Lys Gly
325 330 335
Met Ser Lys Asn Asp Lys Val Leu Lys Asp Trp Thr Tyr Phe Asp Leu
340 345 350
Gln Glu Lys Ile Lys Asn Gln Ala Glu Ile His Gly Ile Glu Val Ile
355 360 365
Lys Ile Ala Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr
370 375 380
Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Met Phe Glu Cys Lys Gln
385 390 395 400
Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser
405 410 415
Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser
420 425 430
Lys Leu His Ser Lys Lys Cys Met Ala Glu Tyr Met Glu Glu Leu Gly
435 440 445
Tyr Leu Asp
450
<210> 328
<211> 451
<212> PRT
<213> Bacillus cereus
<400> 328
Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met
1 5 10 15
Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr
20 25 30
Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe
35 40 45
Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Ser
50 55 60
Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile
65 70 75 80
Tyr His Ile Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met
85 90 95
Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn
100 105 110
Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile
115 120 125
Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Thr Lys Glu Lys Asn
130 135 140
Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys
145 150 155 160
Glu Asn Gly Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Ala Thr
165 170 175
Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Met Ser Gln
180 185 190
Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Cys Lys Asn Lys Trp
195 200 205
Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe
210 215 220
Asp Lys Asp Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val
225 230 235 240
Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp
245 250 255
Glu Ile Lys Ala Phe Asn Glu Lys Ile Arg Gln Arg Arg Ile Asn Leu
260 265 270
Leu Lys Gln Ser Asn Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg
275 280 285
Ala Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys
290 295 300
Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Ile Lys Gln
305 310 315 320
Cys Leu Lys His Asn Cys Gly Arg Ile Gln Ile Glu Leu Leu Lys Gly
325 330 335
Ile Ser Lys Asn Asp Lys Val Leu Lys Asp Trp Thr Tyr Phe Asp Leu
340 345 350
Gln Glu Lys Ile Lys Asn Gln Ala Glu Ile His Gly Ile Glu Val Ile
355 360 365
Lys Val Ala Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr
370 375 380
Ile Cys Lys Gly Asn Arg Cys Thr Gln Ala Ile Phe Glu Cys Lys Gln
385 390 395 400
Cys Gly Tyr Lys Thr Asn Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ala
405 410 415
Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Ala Gln Ser
420 425 430
Lys Leu Asn Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly
435 440 445
Tyr Leu Asp
450
<210> 329
<211> 451
<212> PRT
<213> Bacillus cereus
<400> 329
Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met
1 5 10 15
Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr
20 25 30
Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe
35 40 45
Asp Ala Leu Ser Phe Asp Tyr Phe Lys Ala Arg Gly Thr Tyr Pro Thr
50 55 60
Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile
65 70 75 80
Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met
85 90 95
Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn
100 105 110
Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile
115 120 125
Pro Ile Asp Leu His Asn Asn Ser Val Glu Ile Thr Lys Glu Lys Asn
130 135 140
Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys
145 150 155 160
Glu Asn Gly Asp Val Pro Lys Gly Lys Ile Phe Leu Lys Leu Gly Thr
165 170 175
Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Ile Asn Gln
180 185 190
Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp
195 200 205
Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe
210 215 220
Asp Lys Glu Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val
225 230 235 240
Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp
245 250 255
Glu Ile Lys Ala Phe Asn Glu Lys Ile Arg Gln Arg Arg Ile Asn Leu
260 265 270
Leu Lys Gln Ser Asn Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg
275 280 285
Ala Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys
290 295 300
Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Ile Lys Gln
305 310 315 320
Cys Leu Lys His Asn Cys Gly Arg Ile Gln Ile Glu Leu Leu Lys Gly
325 330 335
Ile Ser Lys Asn Asp Lys Val Leu Lys Asp Trp Thr Tyr Phe Asp Leu
340 345 350
Gln Glu Lys Ile Lys Asn Gln Ala Glu Ile His Gly Ile Glu Val Ile
355 360 365
Lys Val Ala Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr
370 375 380
Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Met Phe Glu Cys Lys Gln
385 390 395 400
Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser
405 410 415
Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser
420 425 430
Lys Leu His Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly
435 440 445
Tyr Leu Asp
450
<210> 330
<211> 451
<212> PRT
<213> Bacillus toyonensis
<400> 330
Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met
1 5 10 15
Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr
20 25 30
Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe
35 40 45
Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Thr
50 55 60
Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile
65 70 75 80
Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met
85 90 95
Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn
100 105 110
Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile
115 120 125
Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Thr Lys Glu Lys Asn
130 135 140
Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Leu Arg Asp Phe His Lys
145 150 155 160
Glu Asn Gly Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Ser Thr
165 170 175
Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Met Asn Gln
180 185 190
Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp
195 200 205
Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe
210 215 220
Asp Lys Glu Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val
225 230 235 240
Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp
245 250 255
Glu Ile Lys Met Phe Asn Glu Arg Ile Arg Gln Arg Arg Ile Asn Leu
260 265 270
Leu Lys Gln Ser Lys Tyr Cys Ser Asn Ser Arg Ile Gly Lys Gly Arg
275 280 285
Thr Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys
290 295 300
Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Val Lys Gln
305 310 315 320
Cys Leu Lys His Asn Cys Gly Arg Ile Gln Met Glu Leu Leu Lys Gly
325 330 335
Ile Ser Lys Asn Asp Lys Ile Leu Lys Asp Trp Thr Tyr Phe Asp Leu
340 345 350
Gln Glu Lys Ile Lys Asn Gln Ala Gly Ile His Gly Ile Glu Val Ile
355 360 365
Lys Ile Ala Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr
370 375 380
Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Val Phe Glu Cys Lys Gln
385 390 395 400
Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser
405 410 415
Ile Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser
420 425 430
Lys Leu His Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly
435 440 445
Tyr Leu Asp
450
<210> 331
<211> 451
<212> PRT
<213> Bacillus cereus
<400> 331
Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met
1 5 10 15
Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr
20 25 30
Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe
35 40 45
Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Thr
50 55 60
Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile
65 70 75 80
Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met
85 90 95
Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn
100 105 110
Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile
115 120 125
Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Lys Lys Glu Lys Asn
130 135 140
Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys
145 150 155 160
Glu Asn Ser Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Ala Thr
165 170 175
Lys Lys Gln Lys Ser Met Lys Ile Ile Leu Asp Arg Leu Met Asn Gln
180 185 190
Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp
195 200 205
Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe
210 215 220
Asp Lys Asp Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val
225 230 235 240
Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp
245 250 255
Glu Ile Lys Ala Phe Asn Glu Arg Ile Arg Gln Arg Arg Ile Asn Leu
260 265 270
Leu Lys Gln Ser Lys Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg
275 280 285
Glu Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys
290 295 300
Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Ile Lys Gln
305 310 315 320
Cys Leu Lys His Asn Cys Gly Arg Ile Gln Met Glu Leu Leu Lys Gly
325 330 335
Ile Ser Lys Asn Asp Lys Val Leu Lys Asp Trp Thr Tyr Phe Asp Leu
340 345 350
Gln Glu Lys Ile Gln Asn Gln Ala Glu Ile His Gly Ile Glu Val Ile
355 360 365
Lys Val Ala Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr
370 375 380
Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Val Phe Glu Cys Lys Gln
385 390 395 400
Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ala
405 410 415
Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser
420 425 430
Lys Leu His Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly
435 440 445
Tyr Leu Asp
450
<210> 332
<211> 451
<212> PRT
<213> Bacillus toyonensis
<400> 332
Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met
1 5 10 15
Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr
20 25 30
Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe
35 40 45
Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Thr
50 55 60
Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile
65 70 75 80
Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met
85 90 95
Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn
100 105 110
Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile
115 120 125
Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Ile Lys Glu Lys Asn
130 135 140
Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys
145 150 155 160
Glu Asn Gly Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Gly Thr
165 170 175
Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Ile Asn Gln
180 185 190
Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp
195 200 205
Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe
210 215 220
Asp Lys Glu Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val
225 230 235 240
Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp
245 250 255
Glu Ile Lys Met Phe Asn Glu Arg Ile Arg Gln Arg Arg Ile Asn Leu
260 265 270
Leu Lys Gln Ser Lys Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg
275 280 285
Thr Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys
290 295 300
Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Val Lys Gln
305 310 315 320
Cys Leu Lys His Asn Cys Gly Arg Ile Gln Met Glu Leu Leu Lys Gly
325 330 335
Ile Ser Lys Asn Asp Lys Val Leu Lys Asp Trp Ile Tyr Phe Asp Leu
340 345 350
Gln Glu Lys Ile Lys Asn Gln Ala Glu Ile Tyr Gly Ile Glu Val Ile
355 360 365
Lys Val Val Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr
370 375 380
Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Met Phe Glu Cys Lys Gln
385 390 395 400
Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser
405 410 415
Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser
420 425 430
Lys Leu His Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly
435 440 445
Tyr Leu Asp
450
<210> 333
<211> 451
<212> PRT
<213> Bacillus thuringiensis
<400> 333
Met Arg Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met
1 5 10 15
Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr
20 25 30
Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe
35 40 45
Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Lys Gly Thr Tyr Pro Thr
50 55 60
Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile
65 70 75 80
Tyr His Thr Leu Gln Ser Lys Tyr Leu Asp Ile His Lys Gly Asn Met
85 90 95
Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn
100 105 110
Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile
115 120 125
Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Thr Lys Glu Lys Asn
130 135 140
Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys
145 150 155 160
Glu Asn Gly Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Ala Thr
165 170 175
Gln Arg Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Ile Asn Gln
180 185 190
Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp
195 200 205
Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe
210 215 220
Asp Lys Glu Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val
225 230 235 240
Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp
245 250 255
Glu Ile Lys Ala Phe Asn Glu Arg Ile Arg Gln Arg Arg Ile Asn Leu
260 265 270
Leu Lys Gln Ser Lys Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg
275 280 285
Glu Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys
290 295 300
Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Ile Lys Gln
305 310 315 320
Cys Leu Lys His Asn Cys Gly Arg Ile Gln Met Glu Leu Leu Lys Gly
325 330 335
Ile Ser Lys Asn Asp Lys Val Leu Lys Asp Trp Thr Tyr Phe Asp Leu
340 345 350
Gln Glu Lys Ile Gln Asn Gln Ala Glu Ile His Gly Ile Glu Val Ile
355 360 365
Lys Val Ala Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr
370 375 380
Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Val Phe Glu Cys Lys Gln
385 390 395 400
Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ala
405 410 415
Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser
420 425 430
Lys Leu His Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly
435 440 445
Tyr Leu Asp
450
<210> 334
<211> 451
<212> PRT
<213> Bacillus cereus
<400> 334
Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met
1 5 10 15
Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr
20 25 30
Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe
35 40 45
Asp Ala Leu Ser Phe Asp Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Thr
50 55 60
Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile
65 70 75 80
Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met
85 90 95
Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn
100 105 110
Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile
115 120 125
Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Thr Lys Glu Lys Asn
130 135 140
Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys
145 150 155 160
Glu Asn Gly Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Ala Thr
165 170 175
Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Met Asn Gln
180 185 190
Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp
195 200 205
Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Leu Lys Glu Asn Lys Phe
210 215 220
Asp Thr Glu Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val
225 230 235 240
Tyr Phe Ala Phe Asn Lys Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp
245 250 255
Glu Ile Lys Thr Phe Asn Glu Arg Ile Arg Gln Arg Arg Ile Asn Leu
260 265 270
Leu Asn Gln Ser Lys Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg
275 280 285
Thr Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys
290 295 300
Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Ile Lys Gln
305 310 315 320
Cys Leu Lys His Asn Cys Gly Arg Ile Gln Met Glu Leu Leu Lys Gly
325 330 335
Ile Ser Lys Asn Asp Lys Val Leu Lys Asp Trp Thr Tyr Phe Asp Leu
340 345 350
Gln Glu Lys Ile Lys Asn Gln Ala Glu Ile His Gly Ile Glu Val Ile
355 360 365
Lys Ile Ala Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr
370 375 380
Ile Cys Lys Glu Asn Arg Cys Thr Gln Asp Met Phe Glu Cys Lys Gln
385 390 395 400
Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser
405 410 415
Thr Tyr Gly Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser
420 425 430
Lys Leu His Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu Lys Leu Gly
435 440 445
Tyr Leu Asp
450
<210> 335
<211> 451
<212> PRT
<213> Bacillus cereus
<400> 335
Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met
1 5 10 15
Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr
20 25 30
Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe
35 40 45
Asp Ala Leu Ser Phe Asp Tyr Phe Lys Ala Arg Gly Thr Tyr Pro Thr
50 55 60
Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile
65 70 75 80
Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met
85 90 95
Ser Thr Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Arg Asn
100 105 110
Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile
115 120 125
Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Thr Lys Glu Lys Asn
130 135 140
Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys
145 150 155 160
Glu Asn Gly Asp Val Pro Lys Gly Lys Ile Phe Leu Lys Leu Gly Thr
165 170 175
Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asp Arg Leu Ile Asn Gln
180 185 190
Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp
195 200 205
Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Ala Ile Lys Glu Asn Lys Phe
210 215 220
Asp Lys Glu Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val
225 230 235 240
Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp
245 250 255
Glu Ile Lys Ala Phe Asn Glu Lys Ile Arg Gln Arg Arg Ile Asn Leu
260 265 270
Leu Lys Gln Ser Asn Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg
275 280 285
Ala Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys
290 295 300
Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Ile Lys Gln
305 310 315 320
Cys Leu Lys His Asn Cys Gly Arg Ile Gln Ile Glu Leu Leu Lys Gly
325 330 335
Ile Ser Lys Asn Asp Lys Val Leu Lys Asp Trp Thr Tyr Phe Asp Leu
340 345 350
Gln Glu Lys Ile Lys Asn Gln Ala Glu Ile His Gly Ile Glu Val Ile
355 360 365
Lys Val Ala Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr
370 375 380
Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Met Phe Glu Cys Lys Gln
385 390 395 400
Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser
405 410 415
Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser
420 425 430
Lys Leu His Ser Lys Lys Cys Met Glu Glu Tyr Ile Glu Glu Leu Gly
435 440 445
Tyr Leu Asp
450
<210> 336
<211> 451
<212> PRT
<213> Bacillus cereus
<400> 336
Met Gly Val Thr Ile Lys Ile Met Lys Tyr Gln Ile Leu Cys Pro Met
1 5 10 15
Asn Val Asp Trp Thr Ile Phe Glu Lys His Leu Arg Asn Leu Thr Tyr
20 25 30
Gln Val Arg Thr Ile Ser Asn Arg Thr Ile Gln Gln Leu Trp Glu Phe
35 40 45
Asp Ala Leu Ser Phe Asn Tyr Phe Lys Glu Arg Gly Thr Tyr Pro Thr
50 55 60
Val Gln Asp Leu Tyr Gly Cys Thr Gln Lys Lys Ile Asp Gly Tyr Ile
65 70 75 80
Tyr His Thr Leu Gln Ser Lys Tyr Pro Asp Ile His Lys Gly Asn Met
85 90 95
Ser Ser Thr Leu Gln Lys Ile Ile Lys Thr Trp Lys Ser Arg Lys Asn
100 105 110
Glu Ile Arg Lys Gly Glu Met Ser Ile Pro Ser Phe Arg Asn Arg Ile
115 120 125
Pro Ile Asp Leu His Asn Asn Ser Val Asp Ile Thr Lys Glu Lys Asn
130 135 140
Gly Asp Tyr Ile Ala Gly Ile Ser Leu Phe Ser Arg Asp Phe His Lys
145 150 155 160
Glu Asn Gly Asp Val Pro Lys Gly Lys Ile Phe Val Lys Leu Ala Thr
165 170 175
Gln Lys Gln Lys Ser Met Lys Val Ile Leu Asn Arg Leu Ile Asn Gln
180 185 190
Thr Tyr Ser Lys Gly Ala Cys Met Ile His Lys Tyr Lys Asn Lys Trp
195 200 205
Tyr Leu Ser Ile Thr Tyr Lys Phe Asn Val Ile Lys Glu Asn Lys Phe
210 215 220
Asp Lys Glu Leu Ile Met Gly Ile Asp Met Gly Gly Ile Asn Thr Val
225 230 235 240
Tyr Phe Ala Phe Asn Glu Gly Phe Ile Arg Ser Asn Ile Lys Ser Asp
245 250 255
Glu Ile Lys Thr Phe Asn Glu Arg Ile Arg Gln Arg Arg Ile Asn Leu
260 265 270
Leu Lys Gln Ser Lys Tyr Cys Ser Asn Ser Arg Thr Gly Lys Gly Arg
275 280 285
Thr Lys Arg Leu Gln Pro Ile Asp Val Leu Ser Asn Lys Ile Ala Lys
290 295 300
Phe Arg Asn Ser Thr Asn His Lys Tyr Ala Asn Tyr Ile Ile Lys Gln
305 310 315 320
Cys Leu Lys His Asn Cys Gly Arg Ile Gln Met Glu Leu Leu Lys Gly
325 330 335
Ile Ser Lys Asn Asp Lys Val Leu Lys Asp Trp Thr Tyr Phe Asp Leu
340 345 350
Gln Glu Lys Ile Lys Asn Gln Ala Glu Ile His Gly Ile Glu Val Ile
355 360 365
Lys Ile Val Pro Ala Tyr Thr Ser Gln Arg Cys Ser Gln Cys Gly Tyr
370 375 380
Ile Cys Lys Glu Asn Arg Cys Thr Gln Ala Met Phe Glu Cys Lys Gln
385 390 395 400
Cys Gly Tyr Lys Thr His Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ser
405 410 415
Thr Tyr Asp Ile Glu Asn Ile Ile Asn Lys Gln Leu Ala Val Gln Ser
420 425 430
Lys Leu His Ser Lys Lys Cys Met Ala Glu Tyr Met Glu Glu Leu Gly
435 440 445
Tyr Leu Asp
450
<210> 337
<211> 453
<212> PRT
<213> Bacillus thuringiensis
<400> 337
Met Thr Tyr Leu Ser Ile Ala Val Lys Val Met Lys Tyr Gln Ile Val
1 5 10 15
Cys Pro Val Asn Ile Glu Trp Lys Thr Phe Glu Ile Tyr Leu Arg Thr
20 25 30
Leu Ser Tyr His Phe Arg Thr Ile Gly Asn Arg Thr Ile Gln Lys Leu
35 40 45
Trp Glu Tyr Asp Asn Gln Ser Leu Lys His Phe Lys Asp Thr Gly Gln
50 55 60
Tyr Pro Ser Ala Gln Gln Leu Tyr Gly Cys Thr Gln Lys Thr Ile Ser
65 70 75 80
Gly Tyr Ile Tyr Asp Gln Leu Lys Glu Glu Tyr Gln Asp Ile Asn Lys
85 90 95
Ala Asn Met Ser Thr Thr Leu Gln Lys Thr Ile Arg Thr Trp Asn Ser
100 105 110
Arg Lys Lys Glu Ile Trp Ser Gly Glu Met Ser Ile Pro Ser Phe Arg
115 120 125
Asn Asn Leu Pro Ile Asp Ile His Gly Asn Ser Ile Gln Ile Ile Lys
130 135 140
Glu Lys Ser Gly Asp Tyr Ile Ala Ser Val Ser Leu Phe Ser Ser Lys
145 150 155 160
Phe Ile Lys Glu Asn Asp Leu Pro Asn Gly Lys Ile Leu Val Lys Leu
165 170 175
Ser Thr Arg Lys Gln Asn Ser Met Lys Val Ile Leu Asp Arg Ile Ile
180 185 190
Asp Ser Thr Tyr Ala Lys Gly Ala Cys Met Leu His Lys His Lys Lys
195 200 205
Lys Trp Tyr Leu Ser Ile Thr Tyr Lys Ser Asn Ile Lys Glu Glu Leu
210 215 220
Lys Phe Asp Glu Asp Leu Ile Met Gly Ile Asp Met Gly Lys Ile Asn
225 230 235 240
Val Leu Tyr Phe Ala Phe Asn Lys Gly Leu Val Arg Gly Ala Ile Ser
245 250 255
Gly Glu Glu Ile Glu Ala Phe Arg Lys Lys Ile Glu His Arg Arg Ile
260 265 270
Ser Leu Leu Arg Gln Gly Lys Tyr Cys Ser Gly Asn Arg Ile Gly Lys
275 280 285
Gly Arg Glu Lys Arg Ile Lys Pro Ile Asp Val Leu Asn Asp Lys Val
290 295 300
Ala Lys Phe Arg Asn Ala Thr Asn His Lys Tyr Ala Asn Tyr Ile Val
305 310 315 320
Gln Gln Cys Leu Lys Tyr Asn Cys Gly Thr Ile Gln Leu Glu Asp Leu
325 330 335
Lys Gly Ile Ser Lys Glu Gln Thr Phe Leu Lys Asn Trp Thr Tyr Phe
340 345 350
Asp Leu Gln Glu Lys Ile Lys Asn Gln Ala Asn Gln Tyr Gly Met Lys
355 360 365
Val Val Lys Ile Asp Pro Ser Tyr Thr Ser Gln Arg Cys Ser Glu Cys
370 375 380
Gly Tyr Ile His Lys Asn Asn Arg Gln Asp Gln Ser Thr Phe Glu Cys
385 390 395 400
Gln Gln Cys Ser Phe Lys Val His Ala Asp Tyr Asn Ala Ala Lys Asn
405 410 415
Ile Ser Val Tyr Asn Ile Glu Lys Val Ile Gln Lys Gln Leu Glu Leu
420 425 430
Gln Glu Lys Leu Asn Gln Thr Lys Tyr Lys Glu Gln Tyr Ile Glu Gln
435 440 445
Met Lys Asn Ile Asn
450
<210> 338
<211> 453
<212> PRT
<213> Bacillus sp.
<400> 338
Met Thr Tyr Leu Ser Thr Val Val Lys Val Met Lys Tyr Gln Ile Val
1 5 10 15
Cys Pro Val Asn Ile Glu Trp Lys Thr Phe Glu Ile Tyr Leu Arg Thr
20 25 30
Leu Ser Tyr His Phe Arg Thr Ile Gly Asn Arg Thr Ile Gln Lys Leu
35 40 45
Trp Glu Tyr Asp Asn Gln Ser Leu Lys His Phe Lys Asp Thr Gly Gln
50 55 60
Tyr Pro Ser Ala Gln Gln Leu Tyr Gly Cys Thr Gln Lys Thr Ile Ser
65 70 75 80
Gly Tyr Ile Tyr Asp Gln Leu Lys Glu Glu Tyr Gln Asp Ile Asn Lys
85 90 95
Ala Asn Met Ser Thr Thr Leu Gln Lys Thr Ile Lys Thr Trp Asn Ser
100 105 110
Arg Lys Lys Glu Ile Trp Ser Gly Glu Met Ser Ile Pro Ser Phe Arg
115 120 125
Asn Asn Leu Pro Ile Asp Ile His Gly Asn Ser Ile Gln Ile Ile Lys
130 135 140
Glu Lys Ser Gly Asp Tyr Ile Ala Ser Val Ser Leu Phe Ser Ser Lys
145 150 155 160
Phe Ile Lys Glu Asn Asp Leu Pro Asn Gly Lys Ile Leu Val Lys Leu
165 170 175
Ser Thr Arg Lys Gln Asn Ser Met Lys Val Ile Leu Asp Arg Ile Ile
180 185 190
Asp Ser Thr Tyr Ala Lys Gly Ala Cys Met Leu His Lys His Lys Lys
195 200 205
Lys Trp Tyr Leu Ser Ile Thr Tyr Lys Ser Asn Ile Lys Glu Glu Leu
210 215 220
Lys Phe Asp Glu Asp Leu Ile Met Gly Ile Asp Met Gly Lys Ile Asn
225 230 235 240
Val Leu Tyr Phe Ala Phe Asn Lys Gly Leu Val Arg Gly Gly Ile Ser
245 250 255
Gly Glu Glu Ile Glu Ala Phe Arg Lys Lys Ile Glu His Arg Arg Ile
260 265 270
Ser Leu Leu Arg Gln Gly Lys Tyr Cys Ser Gly Asn Arg Ile Gly Lys
275 280 285
Gly Arg Lys Lys Arg Ile Lys Pro Ile Glu Val Leu Asn Asp Lys Ile
290 295 300
Ala Lys Phe Arg Asn Ala Thr Asn His Lys Tyr Ala Asn Tyr Ile Val
305 310 315 320
Gln Gln Cys Leu Lys Tyr Asn Cys Gly Thr Ile Gln Leu Glu Asp Leu
325 330 335
Gln Gly Ile Ser Lys Glu Gln Thr Phe Leu Lys Asn Trp Thr Tyr Phe
340 345 350
Asp Leu Gln Glu Lys Ile Lys Asn Gln Ala Asn Gln Tyr Gly Ile Lys
355 360 365
Val Val Lys Ile Asp Pro Ser Tyr Thr Ser Gln Arg Cys Ser Glu Cys
370 375 380
Gly Tyr Ile His Lys Asn Asn Arg Gln Asn Gln Ser Thr Phe Glu Cys
385 390 395 400
Gln Gln Cys Ser Phe Lys Val His Ala Asp Tyr Asn Ala Ala Lys Asn
405 410 415
Ile Ser Val Tyr Asn Ile Glu Lys Val Ile Gln Lys Gln Leu Lys Leu
420 425 430
Gln Glu Lys Leu Asn Leu Thr Lys Tyr Lys Glu Gln Tyr Ile Glu Gln
435 440 445
Met Glu Asn Ile Asn
450
<210> 339
<211> 453
<212> PRT
<213> Bacillus cereus
<400> 339
Met Thr Tyr Leu Ser Ile Ala Val Lys Val Met Lys Tyr Gln Ile Val
1 5 10 15
Cys Pro Val Asn Ile Glu Trp Lys Thr Phe Glu Ile Tyr Leu Arg Thr
20 25 30
Leu Ser Tyr His Phe Arg Thr Ile Gly Asn Arg Thr Ile Gln Lys Leu
35 40 45
Trp Glu Tyr Asp Asn Gln Ser Leu Lys His Phe Lys Asp Thr Gly Gln
50 55 60
Tyr Pro Ser Ala Gln Gln Leu Tyr Gly Cys Thr Gln Lys Thr Ile Ser
65 70 75 80
Gly Tyr Ile Tyr Asp Gln Leu Lys Glu Glu Tyr Gln Asp Ile Asn Lys
85 90 95
Ala Asn Met Ser Thr Thr Leu Gln Lys Thr Ile Lys Thr Trp Asn Ser
100 105 110
Arg Lys Lys Glu Ile Trp Ser Gly Glu Met Ser Ile Pro Ser Phe Arg
115 120 125
Asn Asn Leu Pro Ile Asp Ile His Gly Asn Ser Ile Gln Ile Ile Lys
130 135 140
Glu Lys Ser Gly Asp Tyr Ile Ala Ser Val Ser Leu Phe Ser Ser Lys
145 150 155 160
Phe Ile Lys Glu Asn Asp Leu Pro Asn Gly Lys Ile Leu Val Lys Leu
165 170 175
Ser Thr Arg Lys Gln Asn Ser Met Lys Val Ile Leu Asp Arg Ile Ile
180 185 190
Asp Ser Thr Tyr Ala Lys Gly Ala Cys Met Leu His Lys His Lys Lys
195 200 205
Lys Trp Tyr Leu Ser Ile Thr Tyr Lys Ser Asn Ile Lys Glu Glu Leu
210 215 220
Lys Phe Asp Glu Asp Leu Ile Met Gly Ile Asp Met Gly Lys Ile Asn
225 230 235 240
Val Leu Tyr Phe Ala Phe Asn Lys Gly Leu Val Arg Gly Ala Ile Ser
245 250 255
Gly Glu Glu Ile Glu Ala Phe Arg Lys Lys Ile Glu His Arg Arg Ile
260 265 270
Ser Leu Leu Arg Gln Gly Lys Tyr Cys Ser Gly Asn Arg Ile Gly Lys
275 280 285
Gly Arg Lys Lys Arg Ile Lys Pro Ile Glu Val Leu Asn Asp Lys Ile
290 295 300
Ala Lys Phe Arg Asn Ala Thr Asn His Lys Tyr Ala Asn Tyr Ile Val
305 310 315 320
Gln Gln Cys Leu Lys Tyr Asn Cys Gly Thr Ile Gln Leu Glu Asp Leu
325 330 335
Gln Gly Ile Ser Lys Glu Gln Thr Phe Leu Lys Asn Trp Thr Tyr Phe
340 345 350
Asp Leu Gln Glu Lys Ile Lys Asn Leu Ala Asn Gln Tyr Gly Ile Lys
355 360 365
Val Val Lys Ile Asp Pro Ser Tyr Thr Ser Gln Arg Cys Ser Glu Cys
370 375 380
Gly Tyr Ile His Lys Asn Asn Arg Gln Asn Gln Ser Thr Phe Glu Cys
385 390 395 400
Gln Gln Cys Ser Phe Lys Val His Ala Asp Tyr Asn Ala Ala Lys Asn
405 410 415
Ile Ser Val Tyr Asn Ile Glu Lys Val Ile Gln Lys Gln Leu Lys Leu
420 425 430
Gln Glu Lys Leu Asn Leu Thr Lys Tyr Lys Glu Gln Tyr Ile Glu Gln
435 440 445
Met Glu Asn Ile Asn
450
<210> 340
<211> 453
<212> PRT
<213> Bacillus cereus
<400> 340
Met Thr Tyr Leu Ser Ile Ala Val Lys Val Met Lys Tyr Gln Ile Val
1 5 10 15
Cys Pro Val Asn Ile Glu Trp Lys Thr Phe Glu Ile Tyr Leu Arg Thr
20 25 30
Leu Ser Tyr His Phe Arg Thr Ile Gly Asn Arg Thr Ile Gln Lys Leu
35 40 45
Trp Glu Tyr Asp Asn Gln Ser Leu Lys His Phe Lys Asp Thr Gly Gln
50 55 60
Tyr Pro Ser Ala Gln Gln Leu Tyr Gly Cys Thr Gln Lys Thr Ile Ser
65 70 75 80
Gly Tyr Ile Tyr Asp Gln Leu Lys Glu Glu Tyr Gln Asp Ile Asn Lys
85 90 95
Ala Asn Met Ser Thr Thr Leu Gln Lys Thr Ile Lys Thr Trp Asn Ser
100 105 110
Arg Lys Lys Glu Ile Trp Ser Gly Glu Met Ser Ile Pro Ser Phe Arg
115 120 125
Asn Asn Leu Pro Ile Asp Ile His Gly Asn Ser Ile Gln Ile Ile Lys
130 135 140
Glu Lys Ser Gly Asp Tyr Ile Ala Ser Val Ser Leu Phe Ser Ser Lys
145 150 155 160
Phe Ile Lys Glu Asn Asp Leu Pro Asn Gly Lys Ile Leu Val Lys Leu
165 170 175
Ser Thr Arg Lys Gln Asn Ser Met Lys Val Ile Leu Asp Arg Ile Ile
180 185 190
Asp Ser Thr Tyr Ala Lys Gly Ala Cys Met Leu His Lys His Lys Lys
195 200 205
Lys Trp Tyr Leu Ser Ile Thr Tyr Lys Ser Asn Ile Lys Glu Glu Leu
210 215 220
Lys Phe Asp Glu Asp Leu Ile Met Gly Ile Asp Met Gly Lys Ile Asn
225 230 235 240
Val Leu Tyr Phe Ala Phe Asn Lys Gly Leu Val Arg Gly Ala Ile Ser
245 250 255
Gly Glu Glu Ile Glu Ala Phe Arg Lys Lys Ile Glu His Arg Arg Ile
260 265 270
Ser Leu Leu Arg Gln Gly Lys Tyr Cys Ser Gly Asn Arg Ile Gly Lys
275 280 285
Gly Arg Lys Lys Arg Ile Lys Pro Ile Glu Val Leu Asn Asp Lys Ile
290 295 300
Ala Lys Phe Arg Thr Ala Thr Asn His Lys Tyr Ala Asn Tyr Ile Val
305 310 315 320
Gln Gln Cys Leu Lys Phe Asn Cys Gly Thr Ile Gln Leu Glu Asp Leu
325 330 335
Gln Gly Ile Ser Lys Glu Gln Thr Phe Leu Lys Asn Trp Thr Tyr Phe
340 345 350
Asp Leu Gln Glu Lys Ile Lys Asn Gln Ala Asn Gln Tyr Gly Ile Lys
355 360 365
Val Val Lys Ile Asp Pro Ser Tyr Thr Ser Gln Arg Cys Ser Glu Cys
370 375 380
Gly Cys Ile His Lys Asn Asn Arg Gln Asn Gln Ser Thr Phe Glu Cys
385 390 395 400
Gln Gln Cys Ser Phe Lys Val His Ala Asp Tyr Asn Ala Ala Lys Asn
405 410 415
Ile Ser Val Tyr Asn Ile Glu Lys Val Ile Gln Lys Gln Leu Lys Leu
420 425 430
Gln Glu Lys Leu Asn Leu Thr Lys Tyr Lys Glu Gln Tyr Ile Glu Gln
435 440 445
Met Glu Asn Ile Asn
450
<210> 341
<211> 453
<212> PRT
<213> Bacillus thuringiensis
<400> 341
Met Thr Tyr Leu Ser Ile Ala Val Lys Val Met Lys Tyr Gln Ile Val
1 5 10 15
Cys Pro Val Asn Ile Glu Trp Lys Thr Phe Glu Ile Tyr Leu Arg Thr
20 25 30
Leu Ser Tyr His Phe Arg Thr Ile Gly Asn Arg Thr Ile Gln Lys Leu
35 40 45
Trp Glu Tyr Asp Asn Gln Ser Leu Lys His Phe Lys Asp Thr Gly Gln
50 55 60
Tyr Pro Ser Ala Gln Gln Leu Tyr Gly Cys Thr Gln Lys Thr Ile Ser
65 70 75 80
Gly Tyr Ile Tyr Asp Gln Leu Lys Glu Glu Tyr Gln Asp Ile Asn Lys
85 90 95
Ala Asn Met Ser Thr Thr Leu Gln Lys Thr Ile Lys Thr Trp Asn Ser
100 105 110
Arg Lys Lys Glu Ile Trp Ser Gly Glu Met Ser Ile Pro Ser Phe Arg
115 120 125
Asn Asn Leu Pro Ile Asp Ile His Gly Asn Ser Ile Gln Ile Ile Lys
130 135 140
Glu Lys Ser Gly Asp Tyr Ile Ala Ser Val Ser Leu Phe Ser Ser Lys
145 150 155 160
Phe Ile Lys Glu Asn Asp Leu Pro Asn Gly Lys Ile Leu Val Lys Leu
165 170 175
Ser Thr Arg Lys Gln Asn Ser Met Lys Val Ile Leu Asp Arg Ile Ile
180 185 190
Asp Ser Thr Tyr Ala Lys Gly Ala Cys Met Leu His Lys His Lys Lys
195 200 205
Lys Trp Tyr Leu Ser Ile Thr Tyr Lys Ser Asn Ile Lys Glu Glu Leu
210 215 220
Lys Phe Asp Glu Asp Leu Ile Met Gly Ile Asp Met Gly Lys Ile Asn
225 230 235 240
Val Leu Tyr Phe Ala Phe Asn Lys Gly Leu Val Arg Gly Ala Ile Ser
245 250 255
Gly Glu Glu Ile Glu Ala Phe Arg Lys Lys Ile Glu His Arg Arg Ile
260 265 270
Ser Leu Leu Arg Gln Gly Lys Tyr Cys Ser Gly Asn Arg Ile Gly Lys
275 280 285
Gly Arg Lys Lys Arg Ile Lys Pro Ile Glu Val Leu Asn Asp Lys Ile
290 295 300
Ala Lys Phe Arg Thr Ala Thr Asn His Lys Tyr Ala Asn Tyr Ile Val
305 310 315 320
Gln Gln Cys Leu Lys Tyr Asn Cys Gly Thr Ile Gln Leu Glu Asp Leu
325 330 335
Gln Gly Ile Ser Lys Glu Gln Thr Phe Leu Lys Asn Trp Thr Tyr Phe
340 345 350
Asp Leu Gln Glu Lys Ile Lys Asn Gln Ala Asn Gln Tyr Gly Ile Lys
355 360 365
Val Val Lys Ile Asp Pro Ser Tyr Thr Ser Gln Arg Cys Ser Glu Cys
370 375 380
Gly Tyr Ile His Lys Asn Asn Arg Gln Asn Gln Ser Thr Phe Glu Cys
385 390 395 400
Gln Gln Cys Ser Phe Lys Val His Ala Asp Tyr Asn Ala Ala Lys Asn
405 410 415
Ile Ser Val Tyr Asn Ile Glu Lys Val Ile Gln Arg Gln Leu Lys Leu
420 425 430
Gln Glu Lys Leu Asn Leu Thr Lys Tyr Lys Glu Gln Tyr Ile Glu Gln
435 440 445
Met Glu Asn Ile Asn
450
<210> 342
<211> 453
<212> PRT
<213> Bacillus sp.
<400> 342
Met Lys Tyr Leu Ser Thr Val Val Lys Val Met Lys Tyr Gln Ile Ile
1 5 10 15
Cys Pro Val Asn Ile Glu Trp Lys Ala Phe Glu Thr Tyr Leu Arg Thr
20 25 30
Leu Ser Tyr Gln Val Arg Thr Ile Gly Asn Arg Thr Ile Gln Lys Leu
35 40 45
Trp Asp Phe Asp Asn Gln Ser Leu Asn His Phe Arg Glu Asn Gly Val
50 55 60
Tyr Pro Ser Ala Gln Gln Leu Tyr Gly Cys Thr Gln Lys Thr Ile Ser
65 70 75 80
Gly Tyr Ile Tyr Asp Gln Leu Lys Glu Glu Tyr Gln Asp Met Asn Lys
85 90 95
Ala Asn Met Ser Thr Thr Leu Gln Lys Thr Ile Lys Thr Trp Asn Ser
100 105 110
Arg Lys Lys Glu Ile Arg Ser Gly Glu Met Ser Ile Pro Ser Phe Arg
115 120 125
Asn Asn Leu Pro Ile Asp Ile His Gly Asn Ser Ile Gln Ile Thr Lys
130 135 140
Glu Lys Ser Gly Asp Tyr Ile Ala Ser Leu Ser Leu Phe Ser Ser Asn
145 150 155 160
Phe Ile Ile Glu Asn Asn Leu Pro Asn Gly Lys Ile Gln Val Lys Leu
165 170 175
Ser Thr Arg Lys Gln Asn Ser Met Lys Val Ile Leu Asp Arg Ile Ile
180 185 190
Glu Asn Thr Tyr Ala Lys Gly Ala Cys Met Leu His Lys His Lys Asn
195 200 205
Lys Trp Tyr Leu Ser Ile Ile Tyr Lys Pro Thr Val Lys Glu Glu His
210 215 220
Lys Phe Glu Glu Asp Leu Val Met Gly Ile Asp Met Gly Lys Ile Asn
225 230 235 240
Val Leu Tyr Phe Ala Phe Asn Lys Gly Trp Ile Arg Gly Ala Ile Ser
245 250 255
Gly Glu Glu Ile Glu Ala Phe Arg Lys Lys Ile Glu His Arg Arg Ile
260 265 270
Ser Leu Leu Arg Gln Gly Lys Tyr Cys Ser Gly Asn Arg Val Gly Lys
275 280 285
Gly Arg Glu Lys Arg Ile Lys Pro Ile Asp Val Leu Asn Asn Lys Ile
290 295 300
Ala Lys Phe Arg Asn Ala Thr Asn His Lys Tyr Ala Asn Tyr Ile Val
305 310 315 320
Gln Gln Cys Leu Lys Tyr Asn Cys Gly Thr Ile Gln Leu Glu Asn Leu
325 330 335
Gln Gly Ile Ser Lys Glu Gln Thr Phe Leu Lys Asn Trp Thr Tyr Phe
340 345 350
Asp Leu Gln Glu Lys Ile Lys Gln Gln Ala His Gln Tyr Gly Met Lys
355 360 365
Val Val Thr Ile Asp Pro Ser Tyr Thr Ser Lys Arg Cys Ser Glu Cys
370 375 380
Gly Tyr Ile His Lys Asn Asn Arg Lys Ser Gln Ser Thr Phe Glu Cys
385 390 395 400
Gln Gln Cys Asn Leu Lys Val His Ala Asp Tyr Asn Ala Ala Lys Asn
405 410 415
Ile Ser Ile Tyr Asn Ile Glu Lys Val Ile Gln Lys Gln Leu Lys Leu
420 425 430
Gln Glu Lys Leu Asn Ser Lys Lys Phe Thr Glu Gln Tyr Ile Glu Gln
435 440 445
Val Glu Asn Ile Asn
450
<210> 343
<211> 453
<212> PRT
<213> Prevotella copri
<400> 343
Met Ser Lys Ile Thr Arg Lys Ile Glu Ile Ile Pro Asp Val Glu Gly
1 5 10 15
Leu Thr His Glu Glu Ser Asn Glu Lys Cys Tyr Lys Ala Phe Tyr Asn
20 25 30
Tyr Asp Arg Lys Leu Tyr Lys Val Ala Asn Leu Leu Val Ser Gln Leu
35 40 45
Tyr Gly Leu Asp Asn Leu Leu Ser Leu Met Arg Leu Gln Asn Glu Glu
50 55 60
Tyr Val Asp Ser Gln Arg Lys Leu Ser Phe Lys Ser Thr Thr Asp Thr
65 70 75 80
Ala Lys Glu Glu Ile Lys Lys Arg Met Glu Glu Ile Asp Ala Glu Leu
85 90 95
Met Ala Ile Lys Lys Lys Ile Ala Pro Met His Pro Gln Ser Tyr Ser
100 105 110
Tyr Arg Ala Val Asn Ser Ser Glu Tyr Ala Lys Asp Met Pro Ser Asp
115 120 125
Ile Val Asp Ser Leu Lys Gln Asp Val Tyr Lys His Phe Asn Asp Ser
130 135 140
Lys Lys Glu Gln Ile Arg Gly Glu Arg Ser Leu Thr Thr Tyr Lys Arg
145 150 155 160
Gly Met Pro Ile Pro Phe Asn Leu Lys Lys Lys His Ser Ile Val Cys
165 170 175
Asp Gly Asp Asn Tyr Tyr Leu Pro Trp Phe Glu Asp Thr Arg Phe Arg
180 185 190
Leu Asn Phe Gly Arg Asp Arg Ser Asn Asn Arg Ala Ile Ile Asp Asn
195 200 205
Cys Ile Lys Thr Lys Lys Tyr Lys Leu Cys Ala Ala Ala Lys Ile Gln
210 215 220
Leu Lys Glu Arg Lys Leu Phe Leu Leu Ile Thr Val Asp Ile Pro Lys
225 230 235 240
Ala Glu Ser Val Pro Val Lys Gly Lys Val Met Gly Val Asp Leu Gly
245 250 255
Val Ile Asn Pro Ala Tyr Val Ala Val Asn Asp Gly Pro Glu Arg Ser
260 265 270
Arg Ile Gly Asn Gly Glu Thr Phe Gln Lys Gln Arg Asp Val Phe Arg
275 280 285
Arg Arg Phe Arg Glu Leu Gln Arg Ser Gln Leu Thr Gln Gly Gly His
290 295 300
Gly Arg Lys His Lys Thr Lys Ala Thr Glu Ile Leu Arg Gly Lys Glu
305 310 315 320
Arg Asn Trp Val Gln Thr Glu Asn His Arg Ile Ser Arg Glu Ile Val
325 330 335
Asn Leu Ala Ser Arg Trp Lys Val Glu Thr Ile Gln Met Glu Ser Leu
340 345 350
Lys Gly Phe Gly Lys Asn Gln Glu Gly Glu Val Glu Tyr Asn His Lys
355 360 365
Arg Leu Leu Gly Arg Trp Ser Tyr Phe Glu Leu Gln Lys Asp Ile Glu
370 375 380
Tyr Lys Ala Ala Met Ala Gly Ile Ala Val Gln Tyr Val Asn Pro Ala
385 390 395 400
Tyr Thr Ser Gln Thr Cys His Val Cys Gly Gln Arg Gly Asn Arg Ile
405 410 415
Glu Arg Asp Thr Phe Ile Cys Thr Asn Pro Glu Cys Thr Cys Tyr Asn
420 425 430
Gln Ala Gln Asp Ala Asp Met Asn Ala Ala Ile Asn Ile Ala Lys Ser
435 440 445
Lys Asp Val Ile Lys
450
<210> 344
<211> 453
<212> PRT
<213> Prevotella copri
<400> 344
Met Ser Lys Ile Thr Arg Lys Ile Glu Ile Ile Pro Asp Val Glu Gly
1 5 10 15
Leu Thr His Glu Glu Ser Asn Glu Lys Cys Tyr Lys Ala Phe Tyr Asn
20 25 30
Tyr Asp Arg Lys Leu Tyr Lys Val Ala Asn Leu Leu Val Ser Gln Leu
35 40 45
Tyr Gly Leu Asp Asn Leu Leu Ser Leu Met Arg Leu Gln Asn Glu Glu
50 55 60
Tyr Val Asp Ser Gln Arg Lys Leu Ser Phe Lys Ser Thr Thr Asp Ala
65 70 75 80
Ala Lys Glu Glu Ile Lys Lys Arg Met Glu Glu Ile Asp Ala Glu Leu
85 90 95
Met Ala Ile Lys Lys Lys Ile Ala Pro Met His Pro Gln Ser Tyr Ser
100 105 110
Tyr Arg Ala Val Asn Ser Ser Glu Tyr Ala Lys Asp Met Pro Ser Asp
115 120 125
Ile Val Asp Ser Leu Lys Gln Asp Val Tyr Lys His Phe Asn Asp Ser
130 135 140
Lys Lys Glu Gln Ile Arg Gly Glu Arg Ser Leu Thr Thr Tyr Lys Arg
145 150 155 160
Gly Met Pro Ile Pro Phe Asn Leu Lys Lys Lys His Ser Ile Val Cys
165 170 175
Asp Gly Gly Asn Tyr Tyr Leu Pro Trp Phe Glu Asp Thr Arg Phe Arg
180 185 190
Leu Asn Phe Gly Arg Asp Arg Ser Asn Asn Arg Ala Ile Ile Asp Asn
195 200 205
Cys Ile Lys Thr Lys Lys Tyr Lys Leu Cys Ala Ala Ala Lys Ile Gln
210 215 220
Leu Lys Glu Arg Lys Leu Phe Leu Leu Ile Thr Val Asp Ile Pro Lys
225 230 235 240
Ala Glu Ser Val Pro Val Lys Gly Lys Val Met Gly Val Asp Leu Gly
245 250 255
Val Val Asn Pro Ala Tyr Val Ala Val Asn Asp Gly Pro Glu Arg Ser
260 265 270
Arg Ile Gly Asn Gly Glu Ala Phe Gln Lys Gln Arg Asp Val Phe Arg
275 280 285
Arg Arg Phe Arg Glu Leu Gln Arg Ser Gln Leu Thr Gln Ser Gly His
290 295 300
Gly Arg Lys His Lys Thr Lys Ala Thr Glu Ile Leu Arg Gly Lys Glu
305 310 315 320
Arg Asn Trp Val Gln Thr Glu Asn His Arg Ile Ser Arg Glu Ile Val
325 330 335
Asn Leu Ala Ser Arg Trp Lys Val Glu Thr Ile Gln Met Glu Ser Leu
340 345 350
Lys Gly Phe Gly Lys Asn Gln Glu Gly Glu Val Glu Tyr Asn His Lys
355 360 365
Arg Leu Leu Gly Arg Trp Ser Tyr Phe Glu Leu Gln Lys Asp Ile Glu
370 375 380
Tyr Lys Ala Ala Met Ala Gly Ile Ala Val Gln Tyr Val Asn Pro Ala
385 390 395 400
Tyr Thr Ser Gln Thr Cys His Val Cys Gly Gln Arg Gly Asn Arg Ile
405 410 415
Glu Arg Asp Thr Phe Ile Cys Thr Asn Pro Glu Cys Thr Cys Tyr Asn
420 425 430
Gln Ala Gln Asp Ala Asp Met Asn Ala Ala Ile Asn Ile Ala Lys Ser
435 440 445
Lys Asp Val Ile Lys
450
<210> 345
<211> 461
<212> PRT
<213> Clostridioides difficile
<400> 345
Met Ile Ser Thr Arg Lys Ile Lys Val Arg Cys Asp Asp Ser Thr Phe
1 5 10 15
Tyr Thr Phe Phe Arg Gln Glu Gln Arg Glu Gln Asn Lys Ala Leu Asn
20 25 30
Ile Gly Ile Gly Ile Ile His Ala Asn Ala Val Leu His Asn Val Asp
35 40 45
Ser Gly Ala Glu Lys Lys Leu Lys Lys Ser Ile Glu Gly Leu Gln Gly
50 55 60
Lys Ile Asp Lys Leu Asn Lys Asp Leu Glu Lys Glu Lys Ile Thr Asp
65 70 75 80
Lys Lys Lys Glu Glu Val Leu Lys Ala Ile Glu Thr Asn Lys Lys Ile
85 90 95
Leu Asp Gly Glu Lys Lys Ala Phe Lys Glu Ser Glu Glu Tyr Arg Lys
100 105 110
Gly Ile Asp Glu Leu Phe Lys Asn Thr Tyr Leu Lys Ser Asn Thr Leu
115 120 125
Asp His Val Leu Asp Ser Met Val Asn Ile Gln Tyr Lys Arg Thr Leu
130 135 140
Ser Leu Val Thr Gln Arg Ile Lys Lys Asp Tyr Ser Asn Asp Phe Val
145 150 155 160
Gly Ile Ile Thr Gly Gln Gln Ser Leu Arg Asn Tyr Arg Asn Asp Asn
165 170 175
Pro Leu Met Ile Ser Asn Gln Gln Leu Asn Phe Lys Tyr Ile Asp Asp
180 185 190
Thr Phe Tyr Leu Asp Ile Met Cys Gly Tyr Arg Leu Glu Val Val Leu
195 200 205
Gly Lys Arg Asp Asn Glu Asn Val Asn Glu Leu Lys Ser Thr Leu Glu
210 215 220
Lys Val Ile Ser Lys Glu Tyr Lys Val Cys Asp Ser Ser Met Gln Phe
225 230 235 240
Ser Lys Asn Asn Asn Asp Val Ile Leu Asn Leu Val Ile Asp Ile Pro
245 250 255
Gln Asn Ser Asn Val Tyr Lys Pro Val Glu Gly Arg Thr Leu Gly Val
260 265 270
Asp Leu Gly Val Ala Val Pro Ile Tyr Met Cys Leu Asn Asp Asp Thr
275 280 285
Tyr Lys Arg Lys Gly Leu Gly Asp Ile Asn Asn Phe Leu Arg Val Arg
290 295 300
Gln Gln Met Gln Thr Arg Arg Arg Lys Leu Gln Lys Asp Leu Thr Leu
305 310 315 320
Thr Asn Gly Gly Lys Gly Arg Lys Lys Lys Thr Gln Leu Leu Asp Lys
325 330 335
Leu Gln Glu Asn Glu Arg Asn Phe Val Lys Thr Tyr Ser His Ala Leu
340 345 350
Ser Lys Arg Val Val Glu Phe Ala Lys Ser Asn Lys Cys Glu Tyr Ile
355 360 365
Asn Ile Glu Lys Leu Thr Lys Asp Gly Phe Asp Asn Ile Ile Leu Arg
370 375 380
Asn Trp Ser Tyr Phe Glu Leu Gln Lys Met Ile Glu Tyr Lys Ala Glu
385 390 395 400
Arg Glu Gly Ile Thr Val Arg Tyr Val Asn Pro Ala Tyr Thr Ser Gln
405 410 415
Lys Cys Ser Arg Cys Gly Glu Ile Asp Lys Glu Asn Arg Gln Thr Gln
420 425 430
Ala Lys Phe Lys Cys Thr Lys Cys Gly Phe Glu Leu Asn Ala Asp His
435 440 445
Asn Ala Ala Ile Asn Ile Ala Arg Ser Ile Glu Phe Val
450 455 460
<210> 346
<211> 461
<212> PRT
<213> Clostridioides difficile
<400> 346
Met Ile Ser Thr Arg Lys Ile Lys Val Arg Cys Asp Asp Ser Thr Phe
1 5 10 15
Tyr Thr Phe Phe Arg Gln Glu Gln Arg Glu Gln Asn Lys Ala Leu Asn
20 25 30
Ile Gly Ile Gly Ile Ile His Ala Asn Ala Val Leu His Asn Val Asp
35 40 45
Ser Gly Ala Glu Lys Lys Leu Lys Lys Ser Ile Glu Gly Leu Gln Gly
50 55 60
Lys Ile Asp Lys Leu Asn Lys Asp Leu Glu Lys Glu Lys Ile Thr Asp
65 70 75 80
Lys Lys Lys Glu Glu Val Leu Lys Ala Ile Glu Thr Asn Lys Lys Ile
85 90 95
Leu Asp Gly Glu Lys Lys Val Phe Lys Glu Ser Glu Glu Tyr Arg Lys
100 105 110
Gly Ile Asp Glu Leu Phe Lys Asn Thr Tyr Leu Lys Ser Asn Thr Leu
115 120 125
Asp His Val Leu Asp Ser Met Val Asn Ile Gln Tyr Lys Arg Thr Leu
130 135 140
Ser Leu Val Thr Gln Arg Ile Lys Lys Asp Tyr Ser Asn Asp Phe Val
145 150 155 160
Gly Ile Ile Thr Gly Gln Gln Ser Leu Arg Asn Tyr Arg Asn Asp Asn
165 170 175
Pro Leu Met Ile Ser Asn Gln Gln Leu Asn Phe Lys Tyr Ile Asp Asp
180 185 190
Thr Phe Tyr Leu Asp Ile Met Cys Gly Tyr Arg Leu Glu Val Val Leu
195 200 205
Gly Lys Arg Asp Asn Glu Asn Val Asn Glu Leu Lys Ser Thr Leu Glu
210 215 220
Lys Val Ile Ser Lys Glu Tyr Lys Val Cys Asp Ser Ser Met Gln Phe
225 230 235 240
Ser Lys Asn Asn Lys Asp Val Ile Leu Asn Leu Val Ile Asp Ile Pro
245 250 255
Gln Asn Ser Asn Val Tyr Lys Pro Val Glu Gly Arg Ile Leu Gly Val
260 265 270
Asp Leu Gly Val Ala Val Pro Ile Tyr Met Cys Leu Asn Asp Asp Thr
275 280 285
Tyr Lys Arg Lys Gly Leu Gly Asp Ile Asn Asn Phe Leu Arg Val Arg
290 295 300
Gln Gln Met Gln Thr Arg Arg Arg Lys Leu Gln Lys Asp Leu Thr Leu
305 310 315 320
Thr Asn Gly Gly Lys Gly Arg Lys Lys Lys Thr Gln Leu Leu Asp Lys
325 330 335
Leu Gln Glu Asn Glu Arg Asn Phe Val Lys Thr Tyr Ser His Ala Leu
340 345 350
Ser Lys Arg Val Val Glu Phe Ala Lys Ser Asn Lys Cys Glu Tyr Ile
355 360 365
Asn Ile Glu Lys Leu Thr Lys Asp Gly Phe Asp Asn Ile Ile Leu Arg
370 375 380
Asn Trp Ser Tyr Phe Glu Leu Gln Lys Met Ile Glu Tyr Lys Ala Glu
385 390 395 400
Arg Glu Gly Ile Thr Val Arg Tyr Val Asn Pro Ala Tyr Thr Ser Gln
405 410 415
Lys Cys Ser Arg Cys Gly Glu Ile Asp Lys Glu Asn Arg Gln Thr Gln
420 425 430
Ala Asn Phe Lys Cys Thr Lys Cys Gly Phe Glu Leu Asn Ala Asp His
435 440 445
Asn Ala Ala Ile Asn Ile Ala Arg Ser Ile Glu Phe Val
450 455 460
<210> 347
<211> 461
<212> PRT
<213> Clostridioides difficile
<400> 347
Met Ile Ser Thr Arg Lys Ile Lys Val Arg Cys Asp Asp Ser Thr Phe
1 5 10 15
Tyr Thr Phe Phe Arg Gln Glu Gln Arg Glu Gln Asn Lys Ala Leu Asn
20 25 30
Ile Gly Ile Gly Ile Ile His Ala Asn Ala Val Leu His Asn Val Asp
35 40 45
Ser Gly Ala Glu Lys Lys Leu Lys Lys Ser Ile Glu Gly Leu Gln Gly
50 55 60
Lys Ile Asp Lys Leu Asn Lys Asp Leu Glu Lys Glu Lys Ile Thr Asp
65 70 75 80
Lys Lys Lys Glu Glu Val Leu Lys Ala Ile Glu Thr Asn Lys Lys Ile
85 90 95
Leu Asp Gly Glu Lys Lys Ala Phe Lys Glu Ser Glu Glu Tyr Arg Lys
100 105 110
Gly Ile Asp Glu Leu Phe Lys Asn Thr Tyr Leu Lys Ser Asn Thr Leu
115 120 125
Asp His Val Leu Asp Ser Met Val Asn Ile Gln Tyr Lys Arg Thr Leu
130 135 140
Ser Leu Val Thr Gln Arg Ile Lys Lys Asp Tyr Ser Asn Asp Phe Val
145 150 155 160
Gly Ile Ile Thr Gly Gln Gln Ser Leu Arg Asn Tyr Arg Asn Asp Asn
165 170 175
Pro Leu Met Ile Ser Asn Gln Gln Leu Asn Phe Lys Tyr Ile Asp Asp
180 185 190
Thr Phe Tyr Leu Asp Ile Met Cys Gly Tyr Arg Leu Glu Val Val Leu
195 200 205
Gly Lys Arg Asp Asn Glu Asn Val Asn Glu Leu Lys Ser Thr Leu Glu
210 215 220
Lys Val Ile Ser Lys Glu Tyr Lys Val Cys Asp Ser Ser Met Gln Phe
225 230 235 240
Ala Lys Asn Asn Lys Asp Ile Ile Leu Asn Leu Val Ile Asp Ile Pro
245 250 255
Gln Asn Ser Asn Val Tyr Lys Pro Val Glu Gly Arg Thr Leu Gly Val
260 265 270
Asp Leu Gly Ile Ala Val Pro Ile Tyr Met Cys Leu Asn Asp Asp Thr
275 280 285
Tyr Lys Arg Lys Gly Leu Gly Asp Ile Asn Asn Phe Leu Arg Val Arg
290 295 300
Gln Gln Met Gln Thr Arg Arg Arg Lys Leu Gln Lys Asp Leu Thr Leu
305 310 315 320
Thr Asn Gly Gly Lys Gly Arg Lys Lys Lys Thr Gln Leu Leu Asp Lys
325 330 335
Leu Gln Glu Asn Glu Arg Asn Phe Val Lys Thr Tyr Ser His Ala Leu
340 345 350
Ser Lys Arg Val Val Glu Phe Ala Lys Ser Asn Lys Cys Glu Tyr Ile
355 360 365
Asn Ile Glu Lys Leu Thr Lys Asp Gly Phe Asp Asn Ile Ile Leu Arg
370 375 380
Asn Trp Ser Tyr Phe Glu Leu Gln Lys Met Ile Glu Tyr Lys Ala Glu
385 390 395 400
Arg Glu Gly Ile Ala Val Arg Tyr Val Asn Pro Ala Tyr Thr Ser Gln
405 410 415
Lys Cys Ser Arg Cys Gly Glu Ile Asp Lys Glu Asn Arg Gln Thr Gln
420 425 430
Ala Asn Phe Lys Cys Thr Lys Cys Gly Phe Glu Leu Asn Ala Asp His
435 440 445
Asn Ala Ala Ile Asn Ile Ala Arg Ser Ile Glu Phe Val
450 455 460
<210> 348
<211> 461
<212> PRT
<213> Clostridioides difficile
<400> 348
Met Ile Ser Thr Arg Lys Ile Lys Val Arg Cys Asp Asp Ser Thr Phe
1 5 10 15
Tyr Thr Phe Phe Arg Gln Glu Gln Arg Glu Gln Asn Lys Ala Leu Asn
20 25 30
Ile Gly Ile Gly Ile Ile His Ala Asn Ala Val Leu His Asn Val Asp
35 40 45
Ser Gly Ala Glu Lys Lys Leu Lys Lys Ser Ile Glu Gly Leu Gln Gly
50 55 60
Lys Ile Asp Lys Leu Asn Lys Asp Leu Glu Lys Glu Lys Ile Thr Asp
65 70 75 80
Lys Lys Lys Glu Glu Val Leu Lys Ala Ile Glu Thr Asn Lys Lys Ile
85 90 95
Leu Asp Gly Glu Lys Lys Ala Phe Lys Glu Ser Glu Glu Tyr Arg Lys
100 105 110
Gly Ile Asp Glu Leu Phe Lys Asn Thr Tyr Leu Lys Ser Asn Thr Leu
115 120 125
Asp His Val Leu Asp Ser Met Val Asn Ile Gln Tyr Lys Arg Thr Leu
130 135 140
Ser Leu Val Thr Gln Arg Ile Lys Lys Asp Tyr Ser Asn Asp Phe Val
145 150 155 160
Gly Ile Ile Thr Gly Gln Gln Ser Leu Arg Asn Tyr Arg Asn Asp Asn
165 170 175
Pro Leu Met Ile Ser Asn Gln Gln Leu Asn Phe Lys Tyr Ile Asp Asp
180 185 190
Thr Phe Tyr Leu Asp Ile Met Cys Gly Tyr Arg Leu Glu Val Val Leu
195 200 205
Gly Lys Arg Asp Asn Glu Asn Val Asn Glu Leu Lys Ser Thr Leu Glu
210 215 220
Lys Val Ile Ser Lys Glu Tyr Lys Val Cys Asp Ser Ser Met Gln Phe
225 230 235 240
Ala Lys Asn Asn Lys Asp Ile Ile Leu Asn Leu Val Ile Asp Ile Pro
245 250 255
Gln Asn Ser Asn Val Tyr Lys Pro Val Glu Gly Arg Thr Leu Gly Val
260 265 270
Asp Leu Gly Ile Ala Val Pro Ile Tyr Met Cys Leu Asn Asp Asp Thr
275 280 285
Tyr Lys Arg Lys Gly Leu Ser Asp Ile Asn Asn Phe Leu Arg Val Arg
290 295 300
Gln Gln Met Gln Thr Arg Arg Arg Lys Leu Gln Lys Asp Leu Thr Leu
305 310 315 320
Thr Asn Gly Gly Lys Gly Arg Lys Lys Lys Thr Gln Leu Leu Asp Lys
325 330 335
Leu Gln Glu Asn Glu Arg Asn Phe Val Lys Thr Tyr Ser His Ala Leu
340 345 350
Ser Lys Arg Val Val Glu Phe Ala Lys Ser Asn Lys Cys Glu Tyr Ile
355 360 365
Asn Ile Glu Lys Leu Thr Lys Asp Gly Phe Asp Asn Ile Ile Leu Arg
370 375 380
Asn Trp Ser Tyr Phe Glu Leu Gln Lys Met Ile Glu Tyr Lys Ala Glu
385 390 395 400
Arg Glu Gly Ile Ala Val Arg Tyr Val Asn Pro Ala Tyr Thr Ser Gln
405 410 415
Lys Cys Ser Arg Cys Gly Glu Ile Asp Lys Glu Asn Arg Gln Thr Gln
420 425 430
Ala Asn Phe Lys Cys Thr Lys Cys Gly Phe Glu Leu Asn Ala Asp His
435 440 445
Asn Ala Ala Ile Asn Ile Ala Arg Ser Ile Glu Phe Val
450 455 460
<210> 349
<211> 461
<212> PRT
<213> Clostridioides difficile
<400> 349
Met Ile Ser Thr Arg Lys Ile Lys Val Arg Cys Asp Asp Ser Thr Phe
1 5 10 15
Tyr Thr Phe Phe Arg Gln Glu Gln Arg Glu Gln Asn Lys Ala Leu Asn
20 25 30
Ile Gly Ile Gly Ile Ile His Ala Asn Ala Val Leu His Asn Val Asp
35 40 45
Ser Gly Ala Glu Lys Lys Leu Lys Lys Ser Ile Glu Gly Leu Gln Gly
50 55 60
Lys Ile Asp Lys Leu Asn Lys Asp Leu Glu Lys Glu Lys Ile Thr Asp
65 70 75 80
Lys Lys Lys Glu Glu Val Leu Lys Ala Ile Glu Thr Asn Lys Lys Ile
85 90 95
Leu Asp Gly Glu Lys Lys Ala Phe Lys Glu Ser Glu Glu Tyr Arg Lys
100 105 110
Gly Ile Asp Glu Leu Phe Lys Asn Thr Tyr Leu Lys Ser Asn Thr Leu
115 120 125
Asp His Val Leu Asp Ser Met Val Asn Ile Gln Tyr Lys Arg Thr Leu
130 135 140
Ser Leu Val Thr Gln Arg Ile Lys Lys Asp Tyr Ser Asn Asp Phe Val
145 150 155 160
Gly Ile Ile Thr Gly Gln Gln Ser Leu Arg Asn Tyr Arg Asn Asp Asn
165 170 175
Pro Leu Met Ile Ser Asn Gln Gln Leu Asn Phe Lys Tyr Ile Asp Asp
180 185 190
Thr Phe Tyr Leu Asp Ile Met Cys Gly Tyr Arg Leu Glu Val Val Leu
195 200 205
Gly Lys Arg Asp Asn Glu Asn Val Asn Glu Leu Lys Ser Thr Leu Glu
210 215 220
Lys Val Ile Ser Lys Glu Tyr Lys Val Cys Asp Ser Ser Met Gln Phe
225 230 235 240
Ser Lys Asn Asn Lys Asp Val Ile Leu Asn Leu Val Ile Asp Ile Pro
245 250 255
Gln Asn Ser Asn Val Tyr Lys Pro Val Glu Asp Arg Thr Leu Gly Val
260 265 270
Asp Leu Gly Val Ala Val Pro Ile Tyr Met Cys Leu Asn Asp Asp Thr
275 280 285
Tyr Lys Arg Lys Gly Leu Gly Asp Ile Asn Asn Phe Leu Arg Val Arg
290 295 300
Gln Gln Met Gln Thr Arg Arg Arg Lys Leu Gln Lys Asp Leu Thr Leu
305 310 315 320
Thr Asn Gly Gly Lys Gly Arg Lys Lys Lys Thr Gln Leu Leu Asp Lys
325 330 335
Leu Gln Glu Asn Glu Arg Asn Phe Val Lys Thr Tyr Ser His Ala Leu
340 345 350
Ser Lys Arg Val Val Glu Phe Ala Lys Ser Asn Lys Cys Glu Tyr Ile
355 360 365
Asn Ile Glu Lys Leu Thr Lys Asp Gly Phe Asp Asn Ile Ile Leu Arg
370 375 380
Asn Trp Ser Tyr Phe Glu Leu Gln Lys Met Ile Glu Tyr Lys Ala Glu
385 390 395 400
Arg Glu Gly Ile Thr Val Arg Tyr Val Asn Pro Ala Tyr Thr Ser Gln
405 410 415
Lys Cys Ser Arg Cys Gly Glu Ile Asp Lys Glu Asn Arg Gln Thr Gln
420 425 430
Ala Asn Phe Lys Cys Thr Lys Cys Gly Phe Glu Leu Asn Ala Asp His
435 440 445
Asn Ala Ala Ile Asn Ile Ala Arg Ser Ile Glu Phe Val
450 455 460
<210> 350
<211> 461
<212> PRT
<213> Clostridioides difficile
<400> 350
Met Ile Ser Thr Arg Lys Ile Lys Val Arg Cys Asp Asp Ser Thr Phe
1 5 10 15
Tyr Thr Phe Phe Arg Gln Glu Gln Arg Glu Gln Asn Lys Ala Leu Asn
20 25 30
Ile Gly Ile Gly Ile Ile His Ala Asn Ala Val Leu His Asn Val Asp
35 40 45
Ser Gly Ala Glu Lys Lys Leu Lys Lys Ser Ile Glu Gly Leu Gln Gly
50 55 60
Lys Ile Asp Lys Leu Asn Lys Asp Leu Glu Lys Glu Lys Ile Thr Asp
65 70 75 80
Lys Lys Lys Glu Glu Val Leu Lys Ala Ile Glu Thr Asn Lys Lys Ile
85 90 95
Leu Asp Gly Glu Lys Lys Ala Phe Lys Glu Ser Glu Glu Tyr Arg Lys
100 105 110
Gly Ile Asp Glu Leu Phe Lys Asn Thr Tyr Leu Lys Ser Asn Thr Leu
115 120 125
Asp His Val Leu Asp Ser Met Val Asn Ile Gln Tyr Lys Arg Thr Leu
130 135 140
Ser Leu Val Thr Gln Arg Ile Lys Lys Asp Tyr Ser Asn Asp Phe Val
145 150 155 160
Gly Ile Ile Thr Gly Gln Gln Ser Leu Arg Asn Tyr Arg Asn Asp Asn
165 170 175
Pro Leu Met Ile Ser Asn Gln Gln Leu Asn Phe Lys Tyr Val Glu Asp
180 185 190
Thr Phe Tyr Leu Asp Ile Met Cys Gly Tyr Arg Leu Glu Val Val Leu
195 200 205
Gly Lys Arg Asp Asn Glu Asn Val Asn Glu Leu Lys Ser Thr Leu Glu
210 215 220
Lys Val Ile Ser Lys Glu Tyr Lys Val Cys Asp Ser Ser Met Gln Phe
225 230 235 240
Ser Lys Asn Asn Lys Asp Val Ile Leu Asn Leu Val Ile Asp Ile Pro
245 250 255
Gln Asn Ser Asn Val Tyr Lys Pro Val Glu Gly Arg Thr Leu Gly Val
260 265 270
Asp Leu Gly Val Ala Val Pro Ile Tyr Met Cys Leu Asn Asp Asp Thr
275 280 285
Tyr Lys Arg Lys Gly Leu Gly Asp Ile Asn Asn Phe Leu Arg Val Arg
290 295 300
Gln Gln Met Gln Thr Arg Arg Arg Lys Leu Gln Lys Asp Leu Thr Leu
305 310 315 320
Thr Asn Gly Gly Lys Gly Arg Lys Lys Lys Thr Gln Leu Leu Asp Lys
325 330 335
Leu Gln Glu Asn Glu Arg Asn Phe Val Lys Thr Tyr Ser His Ala Leu
340 345 350
Ser Lys Arg Val Val Glu Phe Ala Lys Ser Asn Lys Cys Glu Tyr Ile
355 360 365
Asn Ile Glu Lys Leu Thr Lys Asp Gly Phe Asp Asn Ile Ile Leu Arg
370 375 380
Asn Trp Ser Tyr Phe Glu Leu Gln Lys Met Ile Glu Tyr Lys Ala Glu
385 390 395 400
Arg Glu Gly Ile Thr Val Arg Tyr Val Asn Pro Ala Tyr Thr Ser Gln
405 410 415
Lys Cys Ser Arg Cys Gly Glu Ile Asp Lys Glu Asn Arg Gln Thr Gln
420 425 430
Ala Asn Phe Lys Cys Thr Lys Cys Gly Phe Glu Leu Asn Ala Asp His
435 440 445
Asn Ala Ala Ile Asn Ile Ala Arg Ser Ile Glu Phe Val
450 455 460
<210> 351
<211> 461
<212> PRT
<213> Clostridioides difficile
<400> 351
Met Ile Ser Thr Arg Lys Ile Lys Val Arg Cys Asp Asp Ser Thr Phe
1 5 10 15
Tyr Thr Phe Phe Arg Gln Glu Gln Arg Glu Gln Asn Lys Ala Leu Asn
20 25 30
Ile Gly Ile Gly Ile Ile His Ala Asn Ala Val Leu His Asn Val Asp
35 40 45
Ser Gly Ala Glu Lys Lys Leu Lys Lys Ser Ile Glu Gly Leu Gln Gly
50 55 60
Lys Ile Asp Lys Leu Asn Lys Asp Leu Glu Lys Glu Lys Ile Thr Asp
65 70 75 80
Lys Lys Lys Glu Glu Val Leu Lys Ala Ile Glu Thr Asn Lys Lys Ile
85 90 95
Leu Asp Gly Glu Lys Lys Ala Phe Lys Glu Ser Glu Glu Tyr Arg Lys
100 105 110
Gly Ile Asp Glu Leu Phe Lys Asn Thr Tyr Leu Lys Ser Asn Thr Leu
115 120 125
Asp His Val Leu Asp Ser Met Val Asn Ile Gln Tyr Lys Arg Thr Leu
130 135 140
Ser Leu Val Thr Gln Arg Ile Lys Lys Asp Tyr Ser Asn Asp Phe Val
145 150 155 160
Gly Ile Ile Thr Gly Gln Gln Ser Leu Arg Asn Tyr Arg Asn Asp Asn
165 170 175
Pro Leu Met Ile Ser Asn Gln Gln Leu Asn Phe Lys Tyr Ile Asp Asp
180 185 190
Thr Phe Tyr Leu Asp Ile Met Cys Gly Tyr Arg Leu Glu Val Val Leu
195 200 205
Gly Lys Arg Asp Asn Glu Asn Val Asn Glu Leu Lys Ser Thr Leu Glu
210 215 220
Lys Val Ile Ser Lys Glu Tyr Lys Val Cys Asp Ser Ser Met Gln Phe
225 230 235 240
Ser Lys Asn Asn Lys Asp Val Ile Leu Asn Leu Val Ile Asp Ile Pro
245 250 255
Gln Asn Ser Ser Val Tyr Lys Pro Val Glu Gly Arg Thr Leu Gly Val
260 265 270
Asp Leu Gly Val Ala Val Pro Ile Tyr Met Cys Leu Asn Asp Asp Thr
275 280 285
Tyr Lys Arg Lys Gly Leu Gly Asp Ile Asn Asn Phe Leu Arg Val Arg
290 295 300
Gln Gln Met Gln Thr Arg Arg Arg Lys Leu Gln Lys Asp Leu Thr Leu
305 310 315 320
Thr Asn Gly Gly Lys Gly Arg Lys Lys Lys Thr Gln Leu Leu Asp Lys
325 330 335
Leu Gln Glu Asn Glu Arg Asn Phe Val Lys Thr Tyr Ser His Ala Leu
340 345 350
Ser Lys Arg Val Val Glu Phe Ala Lys Ser Asn Lys Cys Glu Tyr Ile
355 360 365
Asn Ile Glu Lys Leu Thr Lys Asp Gly Phe Asp Asn Ile Ile Leu Arg
370 375 380
Asn Trp Ser Tyr Phe Glu Leu Gln Lys Met Ile Glu Tyr Lys Ala Glu
385 390 395 400
Arg Glu Gly Ile Thr Val Arg Tyr Val Asn Pro Ala Tyr Thr Ser Gln
405 410 415
Lys Cys Ser Arg Cys Gly Glu Ile Asp Lys Glu Asn Arg Gln Thr Gln
420 425 430
Ala Asn Phe Lys Cys Thr Lys Cys Gly Phe Glu Leu Asn Ala Asp His
435 440 445
Asn Ala Ala Ile Asn Ile Ala Arg Ser Ile Glu Phe Val
450 455 460
<210> 352
<211> 463
<212> PRT
<213> Flavobacterium thermophilum
<400> 352
Met Thr Cys Thr Lys Thr Met Arg Tyr Gln Ile Val Arg Pro Leu Asp
1 5 10 15
Asp Asp Trp Glu Val Phe Arg Tyr Ile Leu Asn Gln Ile Ser Tyr Glu
20 25 30
Thr Trp Asn Cys Leu Asn Arg Cys Ala Gln Tyr Leu Trp Glu Ala Asp
35 40 45
Asn Phe Lys Lys Ile Tyr Tyr Ser Lys Phe Gly Ile Lys Phe Asn Val
50 55 60
Lys Asp Val Glu Gly Val Ala Asp Asp Ala Tyr Ile Asn Arg Asn Leu
65 70 75 80
Lys Lys Glu Phe Gln Lys Met Asn Gly Asp Ser Val Glu Thr Ile Thr
85 90 95
Arg Glu Val Lys Val Lys Met Lys Lys Asn Lys Glu Asp Phe Met Leu
100 105 110
Gly Lys Ala Ser Phe Leu Ser Phe Lys Lys Gly His Pro Ile Leu Phe
115 120 125
Arg Gly Ser Gln Val Lys Ile Asn Lys Ser Asn Asp Asn Asn Tyr Ile
130 135 140
Val Thr Val Arg Leu Leu Arg Lys Glu Tyr Ala Glu Glu Leu Tyr Asn
145 150 155 160
Gly Ile Thr Val Lys Thr Lys Asn Lys Lys Glu Glu Lys Val His Lys
165 170 175
Arg Asn Ile Asn Asp Met Asn Ile Arg Phe Tyr Ile Lys Ala Asn Asp
180 185 190
Lys Tyr Asn Lys Val Ile Leu Glu Arg Val Leu Asn Lys Glu Tyr Lys
195 200 205
Ile Gly Gly Ser Arg Ile Phe Met Lys Gly Asn Lys Ile Phe Phe Asp
210 215 220
Leu Val Tyr Ser Phe Glu Gln Lys Lys Asp Glu Lys Leu Asp Lys Asn
225 230 235 240
Arg Ile Met Gly Ile Asp Ile Gly Tyr Asn Ile Pro Ala Ala Val Ala
245 250 255
Ile Asn Asp Met Pro Tyr Lys Lys Trp Phe Ile Gly Asp Arg Lys Glu
260 265 270
Ile Glu Asp Phe Arg Thr Lys Ile Glu Val Arg Lys Lys Gln Leu Gln
275 280 285
Lys Trp Ser Val Trp Ala Gly Asp Gly Arg Val Gly His Gly Ile Lys
290 295 300
Thr Arg Ile Lys Pro Val Leu Asn Ile Gly Glu Lys Ile Asn Asn Phe
305 310 315 320
Lys Asn Leu Lys Asn His Val Trp Ser Arg Glu Ile Ile Asn Ile Ala
325 330 335
Leu Lys Asn Lys Cys Gly Thr Ile Gln Met Glu Lys Leu Glu Gly Ile
340 345 350
Ile Pro Glu Glu Tyr Ser Phe Leu Lys Asn Trp Ser Phe Tyr Asp Leu
355 360 365
Gln Gln Lys Ile Glu Tyr Lys Ala Arg Glu His Gly Ile Asp Val Val
370 375 380
Tyr Ile Asp Pro Ala Tyr Thr Ser Ala Arg Cys Ser Lys Cys Gly His
385 390 395 400
Ile His Lys Ser Tyr Glu Lys Lys Asp Trp Arg Pro Glu Gln Gly Gln
405 410 415
Phe Ile Cys Gln Val Cys Gly Tyr Lys Glu Asn Ala Asp Ile Asn Ala
420 425 430
Ala Arg Asn Ile Ala Thr Pro Asn Ile Glu Lys Ile Ile Lys Glu Gln
435 440 445
Leu Glu Lys Gln Glu Arg Glu Gln Arg Asn Gln Lys Tyr Ile Ser
450 455 460
<210> 353
<211> 464
<212> PRT
<213> Phascolarctobacterium sp.
<400> 353
Met Ser Ile Lys Ala Ile Arg Leu Glu Ile Leu Lys Pro Tyr Asn Glu
1 5 10 15
Pro Asp Thr Ala Thr Pro Val Thr Trp Asn Glu Leu Gly Gln Val Leu
20 25 30
Arg Asp Val Arg Tyr Ala Cys Ser Lys Thr Glu Asn Tyr Ala Ile Thr
35 40 45
Lys Cys Tyr Leu Trp Glu Gln Phe Lys Ile Glu Tyr Lys Asn Asn Asn
50 55 60
Gly Ile Phe Pro Asn Ala Lys Asp Phe Lys Glu Met Thr Asp Leu Tyr
65 70 75 80
Ser Gln Leu Thr Ala Met Phe Pro Asp Val Ala Ala Ala Ile Val Asn
85 90 95
Gln Ala Asp Gln Val Ala Thr Arg Lys Trp Asn Asn Glu Lys Lys Asp
100 105 110
Val Leu Ser Leu Arg Arg Ser Leu Thr Ser Phe Lys Leu Asp Val Pro
115 120 125
Ile Pro Ile His Asn Lys Ser Tyr Lys Leu Arg Lys Ile Ser Glu Asp
130 135 140
Asn Lys Ile Ile Tyr Val Ile Asn Val Asn Leu Leu Ser Lys Lys Ser
145 150 155 160
Glu Arg Gln Thr Thr Tyr Ser Met Val Leu Lys Val Lys Asp Asn Ser
165 170 175
Ser Lys Thr Ile Leu Asp Arg Leu Ile Asn Lys Glu Leu Ser Pro Lys
180 185 190
Gly Ile Gln Ile Ile Gly Ser Asn Lys Asn Arg Gln Lys Trp Phe Cys
195 200 205
Leu Ile Pro Tyr Asp Phe Thr Glu Lys Asp Thr Glu Leu Asn Pro Asp
210 215 220
Arg Ile Met Gly Ile Asp Leu Gly Ile Ala Lys Ala Val Tyr Tyr Ala
225 230 235 240
Phe Ser Asp Ser Tyr Lys Arg Gly Tyr Ile Glu Gly Gly Glu Ile Glu
245 250 255
His Phe Arg Lys Ser Val Arg Ala Arg Arg Ile Ala Ile Gln Asn Gln
260 265 270
Gly Lys Tyr Cys Gly Asp Gly Arg Ile Gly His Gly Val Lys Arg Arg
275 280 285
Leu Gln Pro Val Glu Ala Leu Arg Glu Lys Glu Lys Asn Phe Arg Asn
290 295 300
Leu Thr Asn His Arg Tyr Ala Arg Arg Leu Val Glu Val Ala Val Lys
305 310 315 320
Asn His Cys Gly Val Ile Gln Met Glu Asp Leu Thr Ser Ile Thr Lys
325 330 335
Asp Asn Thr Phe Leu Lys Asp Trp Pro Tyr Tyr Asp Leu Gln Thr Lys
340 345 350
Ile Ala Glu Lys Ala Ser Glu Tyr Gly Ile Val Phe Lys Lys Ile Asn
355 360 365
Pro Tyr Lys Thr Ser Gln Arg Cys Ser Arg Cys Gly Tyr Ile Asp Ser
370 375 380
Glu Asn Arg Pro Glu Gln Ser Val Phe Val Cys Arg Glu Cys Gly Tyr
385 390 395 400
Gly Asn Met Tyr Leu Cys Glu Asp Cys Asn Lys Glu Gln Asn His Ala
405 410 415
Gly Lys Cys Asp Ser Cys Gly Gly Val Thr Asn Leu Ile Thr Val Asn
420 425 430
Ala Asp Tyr Asn Ala Ala Lys Asn Ile Ala Thr Lys Asp Ile Glu Gln
435 440 445
Ile Ile Lys Lys Thr Met Gly Lys Asp Tyr Asn Pro Pro Lys Lys Lys
450 455 460
<210> 354
<211> 471
<212> PRT
<213> Bacillus pseudomycoides
<400> 354
Met Ile Ile Ala Arg Lys Ile Lys Leu Ile Ile Ile Gly Glu Asp Arg
1 5 10 15
Asp Thr Gln Tyr Lys Phe Ile Arg Glu Glu Arg Tyr Lys Gln Asn Lys
20 25 30
Ala Leu Asn Val Ala Met Asn His Leu Tyr Phe Leu His Val Ala Lys
35 40 45
Glu Lys Ile Arg Leu Leu Asp Asn Lys Phe Leu Gln Asp Glu Lys Lys
50 55 60
Leu Gln Glu Gly Ile Lys Lys Leu Tyr Ala Glu Lys Lys Val Ile Lys
65 70 75 80
Asp Gly Lys Lys Arg Asn Glu Leu Glu Lys Lys Ile Glu Lys Gln Thr
85 90 95
Asn Glu Leu Lys Lys Leu Arg Ser Lys Gly Asn Lys Glu Ala Asp Lys
100 105 110
Ile Leu Gln Glu Ala Ile Lys Ile Asn Leu Ser Ser Thr Thr Arg Glu
115 120 125
Val Ile Ser Lys Gln Phe Asp Leu Ile Ser Asp Thr Lys Asp Arg Ile
130 135 140
Thr Gln Lys Val Tyr Gln Asp Phe Lys Ser Asp Leu Lys Asn Gly Leu
145 150 155 160
Leu Ser Gly Glu Arg Val Leu Arg Thr Tyr Lys Lys Asn Asn Pro Leu
165 170 175
Leu Ile Arg Gly Arg Ala Leu Asn Phe Tyr Arg Glu Gly Lys Asp Val
180 185 190
Met Ile Lys Trp Phe Gly Gly Ile Ile Phe Lys Cys Met Leu Gly Gln
195 200 205
His Lys Asn Asn Ala Gln Glu Leu Lys Ala Thr Leu Asn Lys Val Leu
210 215 220
Glu Gly Ser Tyr Lys Val Cys Asp Ser Ser Ile Ser Val Gly Lys Glu
225 230 235 240
Leu Ile Leu Asn Ile Ser Leu Asp Ile Gly Glu Val Asn Ser Asn Val
245 250 255
Ser Cys Lys Lys Gly Arg Val Leu Gly Val Asp Leu Gly Met Lys Val
260 265 270
Pro Ala Tyr Met Ser Ile Asn Asp Lys Pro Tyr Ile Arg Lys Ser Leu
275 280 285
Gly Ser Leu Asp Asp Phe Leu Arg Ile Arg Val Gln Met Gln Lys Arg
290 295 300
Arg Arg Asn Leu His Lys Thr Leu Val Ser Val Lys Gly Gly Lys Gly
305 310 315 320
Arg Glu Lys Lys Leu Gln Ala Leu Asp Arg Leu Lys Glu Lys Asn Phe
325 330 335
Ala Thr Thr Tyr Asn His Phe Leu Ser Tyr Asn Ile Val Lys Phe Ala
340 345 350
Lys Asp Asn Leu Ala Glu Gln Ile Asn Met Glu Phe Leu Ala Leu Ala
355 360 365
Gly Glu Asp Lys Asn Ile Ile Leu Arg Asn Trp Ser Tyr Tyr Gln Leu
370 375 380
Gln Gln Phe Val Glu Asp Lys Ala Lys Arg Glu Gly Ile Asp Val Lys
385 390 395 400
Tyr Val Asp Pro Tyr Arg Thr Ser Gln Met Cys Ser Lys Cys Arg Asn
405 410 415
Tyr Glu Pro Gly Gln Arg Glu Ser Gln Glu Lys Phe Ile Cys Lys Ser
420 425 430
Cys His Leu Glu Ile Asn Ala Asp Tyr Asn Ala Ser Gln Asn Ile Ala
435 440 445
His Ser Thr Lys Tyr Ile Thr Asn Lys Asn Gln Ser Glu Tyr Phe Lys
450 455 460
Lys Leu Gln His Thr Thr Glu
465 470
<210> 355
<211> 471
<212> PRT
<213> Bacteroides plebeius
<400> 355
Met Pro Ile Ile Thr Arg Lys Ile Glu Leu Lys Ile Val Lys Asp Gly
1 5 10 15
Leu Thr Asp Glu Glu Tyr Asp Gln Gln Trp Lys Tyr Leu Tyr Gln Ile
20 25 30
Asn Asn Thr Ile Tyr Leu Ala Ala Asn Arg Ile Ser Thr His Cys Leu
35 40 45
Phe Asn Asp Glu Tyr Glu Met Arg Leu Lys Leu His Met Pro Arg Tyr
50 55 60
Lys Glu Ile Glu Lys Glu Leu Lys Lys Leu Asp Ser Asp Lys Lys Thr
65 70 75 80
Ser Asp Lys Glu Ile Arg Asp Arg Leu Leu Asn Glu Arg Lys Glu Leu
85 90 95
Asp Glu Asp Val Lys Asn Lys Lys Lys Asp Phe Leu Gln Cys Ser Lys
100 105 110
Gln Asn Ser Thr Tyr Gln Leu Val Ser Lys Glu Phe Lys Gln Tyr Ile
115 120 125
Pro Ser Asp Ile Leu Ala Asn Leu Asn Gln Lys Ile Gln Glu Asn Tyr
130 135 140
Asn Asn Asn Gln Lys Lys Ile Glu Ser Gly Glu Arg Ala Leu Ser Thr
145 150 155 160
Tyr Lys Lys Gly Met Glu Ile Pro Phe Ser Ile Arg Glu Asn Lys Arg
165 170 175
Leu Lys Leu Phe Ile Lys Glu Glu Gly Ile Tyr Leu Lys Trp Phe Lys
180 185 190
Glu Ile Leu Phe Arg Leu Glu Phe Gly Lys Asp Ala Ser Asn Asn Arg
195 200 205
Cys Ile Val Glu Arg Leu Ile Glu Ser Asp Arg Gln Gln Lys Asn Lys
210 215 220
Gly Glu Asp Tyr Val Ala Asn Asn Ser Ser Ile Lys Leu Val Lys Tyr
225 230 235 240
Gly Lys Ser Thr Arg Ile Phe Leu Leu Leu Ser Ile Asp Ile Pro Ala
245 250 255
Lys Lys Gln Val Leu Asp Lys Asp Val Val Leu Gly Val Asp Leu Gly
260 265 270
Ile Lys Cys Pro Leu Tyr Leu Ala Ile Asn Lys Asn Asp Asn Phe Lys
275 280 285
Met Gln Ile Gly Asp Ile Glu His Phe His Asn Gln Arg Thr Met Phe
290 295 300
Gln Lys Arg Phe Lys Ser Leu Gln Lys Leu Met Cys Thr Gln Gly Gly
305 310 315 320
His Gly Arg Lys Lys Lys Leu Glu Pro Leu Glu Lys Leu Lys Glu Lys
325 330 335
Glu Arg Asn Trp Val His Thr Gln Asn His Val Tyr Ser Arg Glu Val
340 345 350
Ile Lys Gln Ala Leu Lys Gln Asn Ala Gly Thr Ile His Met Glu Ser
355 360 365
Leu Lys Asp Phe Gly Lys Gly Lys Asp Gly Tyr Val Lys Asp Glu Tyr
370 375 380
Lys Tyr Leu Leu Arg Tyr Trp Ser Tyr Tyr Glu Leu Gln Ser Met Ile
385 390 395 400
Glu Tyr Lys Ala Lys Leu Glu Gly Ile Glu Val Lys Tyr Ile Asp Pro
405 410 415
Ala Tyr Thr Ser Gln Thr Cys Ser Tyr Cys Gly Glu Arg Gly Glu Arg
420 425 430
Lys Lys Gln Glu Glu Phe Val Cys Thr Asn Pro Gln Cys Lys Arg Arg
435 440 445
Gly Glu Lys Ile Asn Ala Asp Phe Asn Ala Ala Arg Asn Ile Ala Met
450 455 460
Ser Lys Lys Ile Val Glu Arg
465 470
<210> 356
<211> 477
<212> PRT
<213> Clostridium botulinum
<400> 356
Met Pro Phe Ile Leu Lys Gln Arg Gly Val Arg Met Ile Thr Val Arg
1 5 10 15
Lys Leu Lys Ile Val Cys Lys Asp Lys Glu Phe Tyr Asp Phe Phe Lys
20 25 30
Trp Glu Gln Arg Glu Gln Asn Lys Ala Leu Asn Ile Ala Ile Gly Leu
35 40 45
Ile His Ser Ser Thr Val Leu Arg Ser Ile Asp Ser Gly Ala Glu Ala
50 55 60
Gln Leu Lys Lys Ser Ile Gly Lys Leu Thr Gln Asn Ile Glu Lys Leu
65 70 75 80
Gly Lys Glu Leu Glu Lys Glu Lys Ile Thr Asp Lys Lys Lys Glu Gln
85 90 95
Leu Leu Lys Ala Ile Asn Thr Asn Lys Glu Leu Ile Ala Ser Lys Glu
100 105 110
Lys Glu Leu Lys Ala Gly Glu Glu Phe Arg Cys Gly Ile Asp Lys Lys
115 120 125
Phe Asn Glu Leu Tyr Met Asn Lys Thr Thr Leu Tyr His Val Leu Asp
130 135 140
Ser Ile Cys Asp Phe Lys Tyr Lys Arg Thr Ile Glu Leu Val Arg Gln
145 150 155 160
Lys Val Lys Gln Asp Tyr Ser Asn Ser Phe Thr Asp Ile Val Thr Gly
165 170 175
Lys Val Ser Leu Gln Asn Tyr Lys Ser Thr Phe Pro Leu Met Ile Asp
180 185 190
Gly Ser Cys Ile Ser Ile Leu Lys Glu Val Asp Glu Leu Asp Ile Val
195 200 205
Asn Gly Tyr Lys Ile Lys Ile Met Leu Gly Tyr Glu Leu Asp Ile Ile
210 215 220
Leu Gly Lys Arg Glu Asn Glu Asn Ser Leu Glu Leu Gln Lys Thr Leu
225 230 235 240
Glu Lys Cys Ile Thr Gly Asp Tyr Lys Ile Cys Ala Ser Ser Ile Gln
245 250 255
Arg Asp Lys Asn Asn Asn Val Ile Phe Asn Leu Thr Leu Asp Ile Pro
260 265 270
Ile Glu Lys Asp Tyr Lys Pro Val Lys Gly Arg Val Cys Gly Val Asp
275 280 285
Leu Gly Ile Lys Tyr Pro Ala Tyr Met Cys Leu Asn Glu Asp Thr Tyr
290 295 300
Lys Lys Glu Ala Val Gly Ser Ile Asn Asn Phe Leu Arg Ile Arg Lys
305 310 315 320
Gln Met Gln Glu Arg Arg Lys Lys Leu Gln Lys Glu Leu Leu Leu Thr
325 330 335
Asn Gly Gly Lys Gly Arg Thr Lys Lys Thr Gln Ala Leu Glu Lys Leu
340 345 350
Arg Glu Asn Glu Lys Asn Phe Ala Lys Thr Tyr Asn His Ala Ile Ser
355 360 365
Lys Arg Ile Val Gly Phe Ala Arg Lys Asn Lys Cys Glu Tyr Ile Asn
370 375 380
Leu Glu Lys Leu Thr Lys Asp Gly Phe Gly Asp Ser Ile Leu Arg Asn
385 390 395 400
Trp Ser Tyr Phe Glu Leu Gln Lys Met Ile Glu Tyr Lys Ala Lys Ser
405 410 415
Lys Gly Ile Glu Val Arg Tyr Ile Asp Pro Cys Phe Thr Ser Gln Lys
420 425 430
Cys Ser Lys Cys Gly Tyr Ile Asp Lys Glu Asn Arg Glu Thr Gln Glu
435 440 445
Asp Phe Ile Cys Lys Lys Cys Gly Phe Lys Leu Asn Ala Asp His Asn
450 455 460
Ala Ser Ile Asn Ile Ala Arg Ser Lys Glu Phe Ile Lys
465 470 475
<210> 357
<211> 478
<212> PRT
<213> Bacillus pseudomycoides
<400> 357
Met Ile Ile Ala Arg Lys Ile Lys Leu Ile Ile Ile Gly Glu Asn Arg
1 5 10 15
Asp Ala Gln Tyr Lys Phe Ile Arg Glu Glu Arg Tyr Lys Gln Asn Lys
20 25 30
Ala Leu Asn Val Ala Met Asn His Leu Tyr Phe Leu His Val Ala Lys
35 40 45
Glu Lys Ile Arg Leu Leu Asp Asn Lys Phe Leu Gln Asp Glu Lys Lys
50 55 60
Leu Gln Glu Ser Ile Asn Lys Leu Tyr Ala Glu Lys Lys Val Ile Lys
65 70 75 80
Asp Glu Lys Lys Arg Asn Glu Leu Glu Lys Lys Ile Glu Lys Gln Thr
85 90 95
Asn Glu Leu Lys Lys Leu Arg Ser Lys Ser Asn Lys Glu Ala Asp Lys
100 105 110
Val Leu Gln Glu Ala Ile Lys Ile Asn Leu Ser Ser Thr Thr Arg Glu
115 120 125
Val Ile Ser Lys Gln Phe Glu Leu Ile Ser Asp Thr Lys Asp Arg Ile
130 135 140
Thr Gln Lys Val Ser Gln Asp Phe Lys Ser Asp Leu Lys His Gly Leu
145 150 155 160
Leu Ser Gly Glu Arg Val Leu Arg Thr Tyr Lys Lys Asn Asn Pro Leu
165 170 175
Leu Ile Arg Gly Arg Ala Leu Asn Phe Tyr Arg Glu Gly Lys Asp Val
180 185 190
Met Ile Lys Trp Tyr Gly Gly Ile Ile Phe Lys Cys Met Leu Gly Gln
195 200 205
His Lys Asn Asn Ala Pro Glu Leu Lys Ala Thr Leu Ser Lys Val Leu
210 215 220
Glu Gly Ser Tyr Lys Val Cys Asp Ser Ser Ile Ser Val Gly Lys Glu
225 230 235 240
Leu Ile Leu Asn Leu Ser Leu Asp Ile Gly Glu Val Asp Thr Asn Val
245 250 255
Ser Cys Lys Lys Gly Arg Val Leu Gly Val Asp Leu Gly Met Lys Val
260 265 270
Pro Ala Tyr Met Ser Ile Asn Asp Lys Pro Tyr Ile Arg Lys Ala Leu
275 280 285
Gly Ser Leu Asp Asp Phe Leu Lys Ile Arg Val Gln Met Gln Lys Arg
290 295 300
Arg Arg Asn Leu His Lys Thr Leu Val Asn Val Lys Gly Gly Lys Gly
305 310 315 320
Arg Glu Lys Lys Leu Gln Ala Leu Asp Arg Leu Lys Asp Lys Glu Lys
325 330 335
Asn Phe Ala Thr Thr Tyr Asn His Phe Leu Ser Tyr Asn Ile Val Lys
340 345 350
Phe Ala Lys Asp Asn Leu Ala Glu Gln Ile Asn Met Glu Phe Leu Ala
355 360 365
Leu Ala Gly Glu Asp Lys Asn Ile Ile Leu Arg Asn Trp Ser Tyr Tyr
370 375 380
Gln Leu Gln Gln Phe Val Glu Tyr Lys Ala Lys Arg Glu Gly Ile Asp
385 390 395 400
Val Lys Tyr Val Asp Pro Tyr Arg Thr Ser Gln Met Cys Ser Lys Cys
405 410 415
Gly Asn Tyr Glu Pro Gly Gln Arg Glu Ser Gln Glu Lys Phe Ile Cys
420 425 430
Lys Ser Cys His Leu Glu Ile Asn Ala Asp Tyr Asn Ala Ser Gln Asn
435 440 445
Ile Ala His Ser Thr Lys Tyr Ile Thr Asn Lys Asn Gln Ser Glu Tyr
450 455 460
Leu Lys Lys Leu Gln Gln Thr Thr Lys Leu Glu Lys Tyr Ser
465 470 475
<210> 358
<211> 478
<212> PRT
<213> Bacillus pseudomycoides
<400> 358
Met Ile Ile Ala Arg Lys Ile Lys Leu Ile Ile Ile Gly Glu Asn Arg
1 5 10 15
Asp Thr Gln Tyr Lys Phe Ile Arg Glu Glu Arg Tyr Lys Gln Asn Lys
20 25 30
Ala Leu Asn Val Ala Met Asn His Leu Tyr Phe Leu His Val Ala Lys
35 40 45
Glu Lys Ile Arg Leu Leu Asp Asn Lys Phe Leu Gln Asp Glu Lys Lys
50 55 60
Leu Gln Glu Ser Ile Asn Lys Leu Tyr Ala Glu Lys Lys Val Ile Lys
65 70 75 80
Asp Glu Lys Lys Arg Asn Glu Leu Glu Lys Lys Ile Glu Lys Gln Thr
85 90 95
Asn Glu Leu Lys Lys Leu Arg Ser Lys Gly Asn Lys Glu Ala Asp Lys
100 105 110
Val Leu Gln Glu Ala Ile Lys Ile Asn Leu Ser Ser Thr Thr Arg Glu
115 120 125
Val Ile Ser Lys Gln Phe Glu Leu Ile Ser Asp Thr Lys Asp Arg Ile
130 135 140
Thr Gln Lys Val Ser Gln Asp Phe Lys Ser Asp Leu Lys His Gly Leu
145 150 155 160
Leu Ser Gly Glu Arg Val Leu Arg Thr Tyr Lys Lys Asn Asn Pro Leu
165 170 175
Leu Ile Arg Gly Arg Ala Leu Asn Phe Tyr Arg Glu Gly Lys Asp Val
180 185 190
Met Ile Lys Trp Tyr Gly Gly Ile Ile Phe Lys Cys Met Leu Gly Gln
195 200 205
His Lys Asn Asn Ala Pro Glu Leu Lys Ala Thr Leu Ser Lys Val Leu
210 215 220
Glu Gly Ser Tyr Lys Val Cys Asp Ser Ser Ile Ser Val Gly Lys Glu
225 230 235 240
Leu Ile Leu Asn Leu Ser Leu Asp Ile Gly Glu Val Asp Thr Asn Val
245 250 255
Ser Cys Lys Lys Gly Arg Val Leu Gly Val Asp Leu Gly Met Lys Val
260 265 270
Pro Ala Tyr Met Ser Ile Asn Asp Lys Pro Tyr Ile Arg Lys Ala Leu
275 280 285
Gly Ser Leu Asp Asp Phe Leu Lys Ile Arg Val Gln Met Gln Lys Arg
290 295 300
Arg Arg Asn Leu His Lys Thr Leu Val Asn Val Lys Gly Gly Lys Gly
305 310 315 320
Arg Glu Lys Lys Leu Gln Ala Leu Asp Arg Leu Lys Asp Lys Glu Lys
325 330 335
Asn Phe Ala Thr Thr Tyr Asn His Phe Leu Ser Tyr Asn Ile Val Lys
340 345 350
Phe Ala Lys Asp Asn Leu Ala Glu Gln Ile Asn Met Glu Phe Leu Ala
355 360 365
Leu Ala Gly Glu Asp Lys Asn Ile Ile Leu Arg Asn Trp Ser Tyr Tyr
370 375 380
Gln Leu Gln Gln Phe Val Glu Tyr Lys Ala Lys Arg Glu Gly Ile Asp
385 390 395 400
Val Lys Tyr Val Asp Pro Tyr Arg Thr Ser Gln Met Cys Ser Lys Cys
405 410 415
Gly Asn Tyr Glu Pro Gly Gln Arg Glu Ser Gln Glu Lys Phe Ile Cys
420 425 430
Lys Ser Cys His Leu Glu Ile Asn Ala Asp Tyr Asn Ala Ser Gln Asn
435 440 445
Ile Ala His Ser Thr Lys Tyr Ile Thr Asn Lys Asn Gln Ser Glu Tyr
450 455 460
Leu Lys Lys Leu Gln Gln Thr Thr Lys Leu Glu Lys Tyr Ser
465 470 475
<210> 359
<211> 482
<212> PRT
<213> Clostridium botulinum
<400> 359
Met Asn Thr Val Arg Lys Ile Lys Leu Thr Ile Leu Gly Asp Thr Glu
1 5 10 15
Thr Arg Asn Lys Gln Tyr Lys Trp Ile Arg Asp Glu Gln Tyr Asn Gln
20 25 30
Tyr Arg Ala Leu Asn Leu Ser Met Thr Tyr Met Val Thr Asn Leu Met
35 40 45
Leu Lys Asn Asn Glu Ser Gly Leu Glu Asn Arg Lys Glu Lys Asp Val
50 55 60
Leu Lys Ile Glu Asn Lys Ile Lys Lys Asp Glu Glu Asn Leu Lys Lys
65 70 75 80
Glu Leu Ala Lys Lys Lys Ile Asn Glu Glu Lys Ile Glu Asn Ile Asn
85 90 95
Ser Asn Ile Glu Glu Leu Lys Ser Glu Lys Glu Lys Leu Glu Asn Glu
100 105 110
Leu Lys Asn Ile Lys Glu Tyr Arg Ser Asn Ile Asp Glu Glu Phe Lys
115 120 125
Lys Met Tyr Val Asp Asp Leu Tyr Asn Val Leu Ser Lys Ile Ser Phe
130 135 140
Gln His Glu Asp Met Lys Ser Leu Val Thr Gln Arg Val Lys Lys Asp
145 150 155 160
Phe Asn Asn Asp Val Lys Glu Ile Met Arg Gly Asp Arg Ser Val Arg
165 170 175
Asn Tyr Lys Arg Asn Phe Pro Ile Leu Thr Arg Gly Arg Asp Leu Lys
180 185 190
Phe Gln Tyr Phe Glu Lys Ser Glu Asp Ile Glu Ile Lys Trp Ile Glu
195 200 205
Gly Ile Lys Phe Lys Cys Ile Leu Gly Lys Pro Ser Lys Ser Leu Glu
210 215 220
Leu Lys His Thr Leu His Lys Val Ile Asn Glu Glu Tyr Lys Ile Cys
225 230 235 240
Asp Ser Ser Leu Gln Phe Asp Lys Asn Asn Asn Leu Ile Leu Asn Leu
245 250 255
Thr Leu Asp Ile Pro Glu Asn Asn Lys Tyr Glu Lys Ile Glu Asn Arg
260 265 270
Ile Val Gly Val Asp Leu Gly Leu Lys Ile Pro Ala Tyr Val Ala Leu
275 280 285
Asn Asp Thr Ile Tyr Ile Arg Lys Ser Ile Gly Ser Ile Asn Asp Phe
290 295 300
Leu Lys Val Arg Thr Gln Ile Gln Ser Arg Ala Arg Lys Leu Gln Lys
305 310 315 320
Ser Leu Gln Val Val Arg Gly Gly Lys Gly Arg Asn Lys Lys Met Lys
325 330 335
Ala Leu Glu Arg Phe Arg Glu Lys Glu Arg Asn Phe Ala Arg Asn Tyr
340 345 350
Asn His Phe Leu Ser Tyr Asn Ile Val Lys Phe Ala Leu Asp Asn Lys
355 360 365
Ala Glu Gln Ile Asn Leu Glu Leu Leu Glu Met Lys Lys Thr Gln Asn
370 375 380
Lys Ser Ile Leu Arg Asn Trp Ser Tyr Tyr Gln Leu Gln Ser Phe Ile
385 390 395 400
Glu Tyr Lys Ala Glu Arg Val Gly Ile Lys Val Lys Tyr Ile Asp Pro
405 410 415
Tyr His Thr Ser Gln Thr Cys Ser Glu Cys Gly Asn Tyr Glu Glu Gly
420 425 430
Gln Arg Val Glu Gln Asp Thr Phe Val Cys Lys Arg Cys Gly His Lys
435 440 445
Ile Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Met Ser Asp Lys
450 455 460
Tyr Ile Ser Lys Lys Glu Glu Ser Glu Tyr Tyr Lys Asn Asn Lys Asn
465 470 475 480
Met Val
<210> 360
<211> 482
<212> PRT
<213> Clostridium botulinum
<400> 360
Met Asn Thr Val Arg Lys Ile Lys Leu Thr Ile Leu Gly Asp Thr Glu
1 5 10 15
Thr Arg Asn Lys Gln Tyr Lys Trp Ile Lys Asp Glu Gln Tyr Asn Gln
20 25 30
Tyr Arg Ala Leu Asn Leu Ser Met Thr Tyr Met Val Thr Asn Leu Met
35 40 45
Leu Lys Asn Asn Glu Ser Gly Leu Glu Asn Arg Lys Glu Lys Asp Ile
50 55 60
Leu Lys Ile Glu Asn Lys Ile Lys Lys Asp Glu Gly Ser Leu Lys Lys
65 70 75 80
Glu Leu Ala Lys Lys Lys Ile Asn Glu Glu Lys Ile Glu Asn Ile Lys
85 90 95
Ser Asn Ile Glu Glu Leu Lys Ser Glu Lys Glu Lys Leu Glu Asn Glu
100 105 110
Leu Lys Asn Ile Lys Glu Tyr Arg Ser Asn Ile Asp Glu Glu Phe Lys
115 120 125
Lys Met Tyr Val Asp Asp Leu Tyr Asn Val Leu Asn Lys Ile Ser Phe
130 135 140
Gln His Glu Asp Met Lys Ser Leu Val Thr Gln Arg Val Lys Lys Asp
145 150 155 160
Phe Asn Asn Asp Val Lys Glu Ile Met Arg Gly Asp Arg Ser Val Arg
165 170 175
Asn Tyr Lys Arg Asn Phe Pro Ile Leu Thr Arg Gly Arg Asp Leu Lys
180 185 190
Phe Gln Tyr Ile Glu Lys Ser Glu Asp Ile Glu Ile Lys Trp Ile Glu
195 200 205
Gly Ile Lys Phe Lys Cys Ile Leu Gly Lys Pro Ser Lys Ser Leu Glu
210 215 220
Leu Lys His Ala Leu His Lys Val Ile Asn Lys Glu Tyr Lys Val Cys
225 230 235 240
Asp Ser Ser Leu Gln Phe Asp Lys Asn Asn Asn Leu Ile Leu Asn Leu
245 250 255
Thr Leu Asp Ile Pro Gln Asp Asn Lys Tyr Glu Lys Ile Thr Asn Arg
260 265 270
Val Val Gly Val Asp Leu Gly Leu Lys Ile Pro Ala Tyr Val Ala Leu
275 280 285
Asn Asp Thr Lys Tyr Ile Arg Lys Ala Ile Gly Ser Ile Asp Asp Phe
290 295 300
Leu Lys Val Arg Thr Gln Met Gln Ser Arg Val Arg Lys Leu Gln Lys
305 310 315 320
Ser Leu Gln Val Val Arg Gly Gly Lys Gly Arg Asn Lys Lys Met Lys
325 330 335
Ala Leu Glu Arg Phe Arg Glu Lys Glu Arg Asn Phe Ala Arg Asn Tyr
340 345 350
Asn His Phe Leu Ser Tyr Asn Ile Val Lys Phe Ala Leu Asp Asn Lys
355 360 365
Ala Glu Gln Ile Asn Leu Glu Leu Leu Glu Met Lys Lys Thr Gln Asn
370 375 380
Lys Ser Ile Leu Arg Asn Trp Ser Tyr Tyr Gln Leu Gln Asn Phe Ile
385 390 395 400
Glu Tyr Lys Ala Glu Arg Val Gly Ile Lys Val Lys Tyr Ile Asp Pro
405 410 415
Tyr His Thr Ser Gln Thr Cys Ser Glu Cys Gly Asn Tyr Glu Glu Gly
420 425 430
Gln Arg Val Glu Gln Asp Thr Phe Val Cys Lys Arg Cys Trp His Lys
435 440 445
Met Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Met Ser Tyr Asn
450 455 460
Tyr Ile Ser Lys Lys Glu Glu Ser Glu Tyr Tyr Lys Asn Asn Lys Asn
465 470 475 480
Met Val
<210> 361
<211> 482
<212> PRT
<213> Clostridium botulinum
<400> 361
Met Asn Thr Val Arg Lys Ile Lys Leu Thr Ile Leu Gly Asp Thr Glu
1 5 10 15
Thr Arg Asn Lys Gln Tyr Lys Trp Ile Arg Asp Glu Gln Tyr Asn Gln
20 25 30
Tyr Arg Ala Leu Asn Leu Ser Met Thr Tyr Met Val Thr Asn Leu Met
35 40 45
Leu Lys Asn Asn Glu Ser Gly Leu Glu Asn Arg Lys Glu Lys Asp Ile
50 55 60
Leu Lys Ile Glu Asn Lys Ile Lys Lys Asp Glu Glu Asn Leu Lys Lys
65 70 75 80
Glu Leu Ala Lys Lys Lys Ile Asn Glu Glu Lys Ile Glu Asn Ile Lys
85 90 95
Ser Asn Ile Glu Glu Leu Lys Ser Glu Lys Glu Lys Leu Glu Asn Glu
100 105 110
Leu Lys Asn Ile Lys Glu Tyr Arg Ser Asn Ile Asp Glu Glu Phe Lys
115 120 125
Lys Met Tyr Val Asp Asp Leu Tyr Asn Val Leu Asn Lys Ile Ser Phe
130 135 140
Gln His Glu Asp Met Lys Ser Leu Val Thr Gln Arg Val Lys Lys Asp
145 150 155 160
Phe Asn Asn Asp Ile Lys Glu Ile Met Arg Gly Asp Arg Ser Val Arg
165 170 175
Asn Tyr Lys Arg Asn Phe Pro Val Leu Thr Arg Gly Arg Asp Leu Lys
180 185 190
Phe Lys Tyr Phe Glu Lys Ser Glu Asp Ile Glu Ile Lys Trp Ile Glu
195 200 205
Gly Ile Lys Phe Lys Cys Ile Leu Gly Arg Pro Ser Lys Ser Leu Glu
210 215 220
Leu Lys His Thr Leu His Lys Val Ile Asn Glu Glu Tyr Lys Ile Cys
225 230 235 240
Asp Ser Ser Leu Gln Phe Asp Lys Asn Asn Asn Leu Ile Leu Asn Leu
245 250 255
Thr Leu Asp Ile Pro Glu Asn Asn Lys Tyr Glu Lys Ile Glu Asn Arg
260 265 270
Ile Val Gly Val Asp Leu Gly Leu Lys Ile Pro Ala Tyr Val Ala Leu
275 280 285
Asn Asp Thr Arg Tyr Ile Arg Lys Ser Ile Gly Ser Ile Asn Asp Phe
290 295 300
Leu Lys Val Arg Thr Gln Ile Gln Ser Arg Ala Arg Lys Leu Gln Lys
305 310 315 320
Ser Leu Gln Val Val Arg Gly Gly Lys Gly Arg Asn Lys Lys Met Lys
325 330 335
Ala Leu Glu Arg Phe Arg Glu Lys Glu Arg Asn Phe Ala Arg Asn Tyr
340 345 350
Asn His Phe Leu Ser Tyr Asn Ile Val Lys Phe Ala Leu Asp Asn Lys
355 360 365
Ala Glu Gln Ile Asn Leu Glu Leu Leu Glu Met Lys Lys Thr Gln Asn
370 375 380
Lys Ser Ile Leu Arg Asn Trp Ser Tyr Tyr Gln Leu Gln Thr Phe Ile
385 390 395 400
Glu Tyr Lys Ala Glu Arg Val Gly Ile Lys Val Lys Tyr Ile Asp Pro
405 410 415
Tyr His Thr Ser Gln Thr Cys Ser Glu Cys Gly Asn Tyr Glu Glu Gly
420 425 430
Gln Arg Val Glu Gln Asp Thr Phe Val Cys Lys Arg Cys Gly His Lys
435 440 445
Ile Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Met Ser Asp Asn
450 455 460
Tyr Ile Ser Lys Lys Glu Glu Ser Glu Tyr Tyr Lys Asn Asn Lys Asn
465 470 475 480
Met Val
<210> 362
<211> 486
<212> PRT
<213> Hydrogenivirga sp.
<400> 362
Met Asn Lys Val Leu Lys Leu Thr Ala Lys Arg Glu Lys Val Lys Phe
1 5 10 15
Lys Leu Leu Leu Leu Glu Thr Gly Arg Glu Glu Glu Val Lys Phe Tyr
20 25 30
Glu Leu Arg Glu Ala Leu Glu Arg Phe Val Arg Gly Val Arg Val Ala
35 40 45
Tyr Leu Lys Thr Leu Pro Asp Ser Leu Glu Gly Leu Glu Glu Lys Gly
50 55 60
Arg Pro Asn Thr Arg Ala Val Asn Ser Asn Glu Leu Ser Lys Arg Phe
65 70 75 80
Pro Pro Glu Cys Ala Lys Val Lys Leu Gly Ser Leu Glu Leu Glu Leu
85 90 95
Gly Lys Asp Asn Ile Ala Ser Ser Ile Arg Tyr Thr Ile Glu Lys Asp
100 105 110
Ile Arg Glu Asn Leu Lys Arg Glu Phe Lys Thr Ile Ala Ile Lys Ser
115 120 125
Val Pro Ile Ile Ala Arg Val His Thr Thr Lys Ser His Pro Tyr Glu
130 135 140
Lys Ala Phe Gly Glu Val Phe Arg Ile Phe Glu Ile Ser Glu Pro Asp
145 150 155 160
Glu Lys Asn Arg Val Ser Val Arg Val Gly Val Lys Phe Phe Lys Gln
165 170 175
Val Glu Val Glu Gly Lys Lys Ala Thr Pro Val Leu Val Val Glu Ala
180 185 190
Val Met Arg Leu Lys Gly Arg Asp Tyr Ala Thr Ala Asn Ser Tyr Tyr
195 200 205
Asn Ile Leu Lys Arg Ile Lys Glu Gly Glu Tyr Lys Val Ala Tyr Ala
210 215 220
Gly Leu Ser Tyr Arg Glu Gly Ser Gly Ile Ser Leu Leu Leu Ser Tyr
225 230 235 240
Asn Leu Pro Asp Ile Ser Glu Asp Asp Lys Arg Glu Asn Ile Leu Gly
245 250 255
Ile Asp Leu Gly Gln Ala Cys Pro Val Tyr Trp Ser Leu Ile Thr Pro
260 265 270
Glu Leu Glu Lys Lys Lys Leu Thr Asn Gly Arg His Pro Arg Gly Gln
275 280 285
Ile Glu Tyr Pro Val Asn Leu Glu Gly Ala Ile Arg Lys Leu Trp Arg
290 295 300
Ala Lys Arg Asn Leu Leu Ser Ser Leu Arg Arg Ile Glu Glu Gln Thr
305 310 315 320
Ser Leu Leu Ser Glu Gly Asn Arg Asp Leu Lys Gly Arg Leu Leu Arg
325 330 335
Arg Lys Arg Glu Val Glu Arg Ser Leu Lys Gly Met Arg Arg Lys Glu
340 345 350
Lys Asn Leu Met Lys Lys Met Asp Glu Phe Leu Ala Asn Glu Val Ile
355 360 365
Arg Val Ala Leu Arg Glu Arg Cys Arg Lys Ile Arg Met Glu Arg Leu
370 375 380
Asp Gly Val Asp Lys Thr Glu Leu Tyr Phe Pro Lys Trp Asn Tyr Gly
385 390 395 400
Gln Leu Gln Asn Leu Ile Glu Gln Arg Ala Ser Leu Tyr Gly Ile Glu
405 410 415
Val Glu Arg Val Asn Pro Arg Lys Thr Ser Gln Arg Cys Pro Ser Cys
420 425 430
Gly Tyr Val Gly Gln Arg Arg Glu Glu Val Arg Pro Thr Arg Asp Leu
435 440 445
Phe Arg Cys Pro Glu Cys Gly Glu Glu Ser Phe Ala Asp Phe Val Gly
450 455 460
Ala Phe Asn Val Gly Ile Gly Gly Trp Glu Ala Phe Lys Pro Lys Glu
465 470 475 480
Ala Leu Ser Ser Ser Ser
485
<210> 363
<211> 489
<212> PRT
<213> Bacillus megaterium
<400> 363
Met Ile Thr Thr Arg Lys Phe Lys Leu Ala Ile Val Ser Asp Asn Arg
1 5 10 15
Asn Glu Ala Tyr Ser Phe Ile Arg Asn Glu Ile Arg Asn Gln Asn Lys
20 25 30
Ala Leu Asn Ala Ala Tyr Asn His Leu Tyr Phe Glu His Ile Ala Thr
35 40 45
Glu Lys Leu Lys His Ser Asp Ala Glu Tyr Gln Lys His Leu Thr Lys
50 55 60
Tyr Arg Glu Val Ala Thr Asn Lys Tyr Gln Asp Tyr Leu Lys Ala Lys
65 70 75 80
Glu Lys Val Asn Ala Ser Lys Asp Asp Glu Lys Leu Gln Lys Arg Val
85 90 95
Asp Lys Ala Arg Glu Ala Tyr Asn Lys Ala Gln Glu Lys Val Tyr Lys
100 105 110
Ile Glu Lys Glu Phe Asn Lys Lys Ser Met Glu Thr Tyr Gln Lys Val
115 120 125
Val Gly Leu Ser Lys Gln Thr Arg Ile Gly Lys Leu Leu Lys Ser Gln
130 135 140
Phe Thr Leu His Tyr Asp Thr Glu Asp Arg Ile Thr Ser Thr Val Leu
145 150 155 160
Ser His Phe Asn Asn Asp Met Lys Thr Gly Val Leu Arg Gly Asp Arg
165 170 175
Ser Leu Arg Thr Tyr Lys Asn Ser His Pro Leu Leu Val Arg Ala Arg
180 185 190
Ser Met Lys Val Tyr Glu Glu Asn Gly Asp Tyr Phe Ile Lys Trp Val
195 200 205
Lys Gly Ile Val Phe Lys Ile Val Ile Ser Ala Gly Ser Lys Gln Lys
210 215 220
Ala Asn Ile Gly Glu Leu Lys Ser Val Leu Ile Asn Ile Leu Asn Gly
225 230 235 240
His Tyr Lys Val Cys Asp Ser Ser Ile Ser Leu Asn Lys Asp Leu Ile
245 250 255
Leu Asn Leu Ser Leu Asn Ile Pro Val Ser Lys Glu Asn Val Phe Val
260 265 270
Pro Gly Arg Val Val Gly Val Asp Leu Gly Leu Lys Ile Pro Ala Tyr
275 280 285
Val Ser Leu Asn Asp Thr Pro Tyr Ile Lys Lys Gly Ile Gly Asn Ile
290 295 300
Asp Asp Phe Leu Arg Val Arg Thr Gln Leu Gln Ser Gln Arg Lys Arg
305 310 315 320
Leu Gln Lys Thr Leu Glu Cys Thr Ser Gly Gly Lys Gly Arg Ser Lys
325 330 335
Lys Leu Lys Gly Leu Asp Arg Leu Lys Ala Lys Glu Lys Asn Phe Val
340 345 350
Asn Thr Tyr Asn His Phe Leu Ser Lys Lys Ile Ile Gln Phe Ala Val
355 360 365
Lys Asn Asn Ala Gly Val Ile His Leu Glu Glu Leu Gln Phe Asp Lys
370 375 380
Leu Lys His Lys Ser Leu Leu Arg Asn Trp Ser Tyr Tyr Gln Leu Gln
385 390 395 400
Thr Met Ile Glu Tyr Lys Ala Glu Arg Glu Gly Ile Glu Val Lys Tyr
405 410 415
Val Asp Ala Ser Tyr Thr Ser Gln Thr Cys Ser Lys Cys Gly His Tyr
420 425 430
Glu Glu Gly Gln Arg Val Leu Gln Asp Thr Phe Thr Cys Lys Asn Lys
435 440 445
Glu Cys Lys Gly Tyr Val His Lys Val Asn Ala Asp Phe Asn Ala Ser
450 455 460
Gln Asn Ile Ala Lys Ser Thr Asp Ile Ile Arg Cys Thr Glu Met Ala
465 470 475 480
Lys Asn Asn Asp Ile Glu Lys Asn Ala
485
<210> 364
<211> 491
<212> PRT
<213> Clostridium fallax
<400> 364
Met Ile Thr Val Arg Lys Leu Lys Leu Ser Ile Met Ala Asp Glu Glu
1 5 10 15
Leu Arg Ile Gln Gln Leu Lys Trp Ile Lys Asp Glu Gln Tyr Asn Gln
20 25 30
Tyr Arg Ala Leu Asn Asn Gly Met Ala Phe Leu Ile Ala Asp His Met
35 40 45
Leu Asn Thr Ala Glu Ser Thr Lys Ile Ile Tyr Lys Asn Asn Glu Ile
50 55 60
Asn Lys Lys Lys Lys Lys Ile Tyr Tyr Met Glu Asp Lys Ile Lys Lys
65 70 75 80
Glu Asn Asn Lys Leu Glu Glu Glu Lys Ile Leu Lys Phe Glu Ser Asp
85 90 95
Ile Asn Lys Leu Lys His Glu Ile Lys Ile Leu Glu Asn Glu Lys Val
100 105 110
Glu Leu Glu Leu Glu Thr Lys Asn Leu Ser Glu Gln Phe Lys Asn His
115 120 125
Tyr Val Glu Asp Met Tyr Thr Arg Leu Asp Glu Ile Pro Phe Gln Tyr
130 135 140
Lys Asp Asn Lys Ser Leu Val Gln Asn Arg Leu Lys Lys Asp Phe Asp
145 150 155 160
Phe Tyr Leu Asn Asn Gly Gly Lys Arg Gly Glu Arg Lys Pro Thr Ala
165 170 175
Tyr Lys Arg Asp Tyr Pro Leu Leu Ile Arg Gly Arg Leu Leu Asn Phe
180 185 190
Tyr Tyr Asn Lys Asp Asn Val Phe Ile Lys Trp Ile Ala Gly Ile Thr
195 200 205
Phe Lys Val Glu Leu Gly Asn Lys Ile Lys Asn Asn Ile Glu Leu Arg
210 215 220
His Thr Leu His Gln Cys Met Asn Asn Glu Lys Tyr Lys Val Cys Asp
225 230 235 240
Ser Ser Leu Gln Phe Asp Asn Lys Asn Asn Ile Ile Leu Asn Leu Thr
245 250 255
Ile Asp Ile Pro Ile Asn Thr Ser Glu Asn Asn Phe Ile Glu Gly Arg
260 265 270
Val Met Gly Val Asp Leu Gly Met Lys Ile Pro Ala Tyr Ala Ser Phe
275 280 285
Asn Asp Val Glu Tyr Cys Arg Ala Phe Gly Asp Ile Glu Asp Phe Leu
290 295 300
Arg Val Arg Thr Gln Leu Gln Ser Arg Met Arg Lys Leu Gln Met Ala
305 310 315 320
Leu Thr Leu Ile Lys Gly Gly His Gly Arg Gly Lys Lys Leu Gln Ala
325 330 335
Leu Asn Arg Leu Lys Asp Lys Glu Lys Asp Phe Val Asn Thr Tyr Asn
340 345 350
His Met Ile Ser Lys Arg Ile Ile Glu Tyr Ser Ile Lys Asn Cys Cys
355 360 365
Gly Val Ile Asn Leu Glu Tyr Leu Ser Leu Ala Ala Arg Glu Lys Asp
370 375 380
Leu Phe Leu Thr Leu Gln Pro Gln Lys Ser Asn Arg Ile Lys Arg Asn
385 390 395 400
Trp Ser Tyr Tyr Asp Leu Gln Thr Lys Ile Glu Asn Lys Ala Lys Lys
405 410 415
Tyr Gly Ile Ile Val Lys Lys Ile Asp Pro Tyr Leu Thr Ser Gln Thr
420 425 430
Cys His Ile Cys Gly Asn Tyr Asp Glu Gly Gln Arg Ile Ser Gln Glu
435 440 445
Gln Phe Glu Cys Lys Ala Cys Asn Arg Lys Phe Asn Ala Asp Tyr Asn
450 455 460
Ala Ser Lys Asn Ile Ala Leu Ser Thr Lys Tyr Ile Asn Asn Ile Asn
465 470 475 480
Glu Ser Glu Phe Phe Lys Arg Tyr Lys Asn Asn
485 490
<210> 365
<211> 492
<212> PRT
<213> Bacteroides plebeius
<400> 365
Met Pro Thr Ile Thr Arg Lys Ile Glu Leu Lys Ile Val Lys Asp Arg
1 5 10 15
Leu Thr Asp Glu Lys Glu Arg Leu Thr Asp Glu Lys Tyr Asp Gln Gln
20 25 30
Trp Lys Tyr Leu Tyr Gln Ile Asn Asn Thr Ile Tyr Gln Ala Ala Asn
35 40 45
Arg Ile Ser Thr His Cys Leu Phe Asn Asp Glu Tyr Glu Met Arg Leu
50 55 60
Lys Leu His Met Pro Arg Tyr Lys Asp Ile Glu Lys Lys Leu Glu Glu
65 70 75 80
Ile Glu Lys Lys Gln Lys Gly Leu Asn Thr Lys Lys Lys Ala Ser Asp
85 90 95
Lys Glu Glu Arg Asp Arg Leu Leu Asn Glu Lys Gln Gln Leu Val Asn
100 105 110
Glu Arg Lys Glu Ile Asp Glu Asp Val Lys Asn Lys Lys Lys Asp Phe
115 120 125
Leu Gln Cys Ser Lys Gln Asn Ser Thr Tyr Gln Leu Val Ser Lys Glu
130 135 140
Phe Lys Gln Tyr Ile Pro Ser Asp Ile Leu Ala Asn Leu Asn Gln Lys
145 150 155 160
Ile Gln Glu Asn Tyr Asn Asn Asn Gln Lys Lys Ile Glu Ser Gly Glu
165 170 175
Arg Ala Leu Ser Thr Tyr Lys Lys Gly Met Glu Ile Pro Phe Ser Ile
180 185 190
Arg Glu Asn Lys Arg Leu Lys Leu Phe Ile Lys Glu Glu Gly Ile Tyr
195 200 205
Leu Lys Trp Phe Lys Glu Ile Leu Phe Arg Leu Glu Phe Gly Lys Asp
210 215 220
Ala Ser Asn Asn Arg Cys Ile Val Glu Arg Leu Ile Glu Ser Asp Lys
225 230 235 240
Gln Gln Lys Gly Lys Gly Glu Asp Tyr Val Ala Asn Asn Ser Ser Ile
245 250 255
Lys Leu Val Lys Asn Gly Lys Asn Thr Arg Ile Phe Leu Leu Leu Ser
260 265 270
Ile Asp Ile Pro Ala Lys Lys Gln Val Leu Asp Lys Glu Val Val Leu
275 280 285
Gly Val Asp Leu Gly Ile Lys Cys Pro Leu Tyr Leu Ala Ile Asn Lys
290 295 300
Asn Asp Asn Phe Lys Met Gln Ile Gly Asp Ile Glu His Phe His Asn
305 310 315 320
Gln Arg Thr Met Phe Gln Lys Arg Phe Lys Ser Leu Gln Lys Leu Ile
325 330 335
Cys Thr Gln Gly Ala His Gly Arg Lys Lys Lys Leu Glu Pro Leu Glu
340 345 350
Lys Leu Lys Glu Lys Glu Arg Asn Trp Val His Thr Gln Asn His Val
355 360 365
Tyr Ser Arg Glu Val Ile Lys Gln Ala Leu Lys Gln Asn Ala Gly Thr
370 375 380
Ile His Met Glu Ser Leu Lys Asp Phe Gly Lys Gly Lys Asp Gly Tyr
385 390 395 400
Val Lys Asp Glu Tyr Lys Tyr Leu Leu Arg Tyr Trp Ser Tyr Tyr Glu
405 410 415
Leu Gln Ser Met Ile Glu Tyr Lys Ala Lys Leu Glu Gly Ile Glu Val
420 425 430
Lys Tyr Ile Asp Pro Ala Tyr Thr Ser Gln Thr Cys Ser Tyr Cys Gly
435 440 445
Glu Arg Gly Glu Arg Lys Lys Gln Glu Glu Phe Ile Cys Thr Asn Pro
450 455 460
Gln Cys Lys Arg Arg Gly Glu Lys Ile Asn Ala Asp Phe Asn Ala Ala
465 470 475 480
Arg Asn Ile Ala Met Ser Lys Lys Ile Val Glu Arg
485 490
<210> 366
<211> 496
<212> PRT
<213> Bacillus thuringiensis
<400> 366
Met Ile Leu Thr Arg Lys Val Lys Leu Val Ile Val Ser Asp Asn Arg
1 5 10 15
Asp Glu Gly Tyr Lys Leu Ile Arg Asn Glu Ile Arg Glu Gln His Lys
20 25 30
Ala Leu Asn Leu Ala Tyr Asn His Leu Tyr Phe Glu His Asn Ala Ile
35 40 45
Gln Ile Leu Lys Gln Asn Asp Glu Asp Tyr Lys Gln Lys Arg Asn Lys
50 55 60
Leu Gln Glu Leu Ile Asn Lys Lys Tyr Glu Glu His Gln Lys Ala Lys
65 70 75 80
Asn Leu Glu Arg Lys Glu Ala Leu Arg Glu Ala Tyr Asn Asn Lys Lys
85 90 95
Gln Glu Leu Tyr Lys Phe Glu Arg Glu Cys Asn Glu Glu Ala Arg Lys
100 105 110
Ala Tyr Gln Gln Val Val Gly Phe Thr Gln Gln Thr Arg Val Arg Asn
115 120 125
Leu Ile Asn Arg Glu Tyr Asn Leu Met Ser Asp Thr Lys Asp Gly Ile
130 135 140
Thr Ser Lys Val Thr Gln Asp Tyr Lys Asn Asp Cys Lys Ala Gly Leu
145 150 155 160
Leu Ile Gly Lys Arg Ser Leu Arg Asn Tyr Lys Lys Asp Asn Pro Leu
165 170 175
Leu Val Arg Gly Arg Ser Leu Lys Phe Tyr Lys Glu Asp Gly Asp Tyr
180 185 190
Phe Ile Lys Trp Asn Lys Gly Thr Val Phe Lys Cys Ile Leu His Ile
195 200 205
Arg Lys Lys Asn Val Ala Glu Leu Gln Ser Val Leu Glu Asn Val Leu
210 215 220
Leu Gly Ala Tyr Lys Ile Cys Asp Ser Ser Ile Gly Phe Asn Asn Lys
225 230 235 240
Asp Met Ile Leu Asn Leu Ser Leu Asn Ile Pro Asp Lys Glu Thr Tyr
245 250 255
Asp Tyr Ile Pro Gly Arg Val Val Gly Val Asp Leu Gly Leu Lys Ile
260 265 270
Pro Ala Tyr Val Ser Leu Ser Asp Lys Val Tyr Val Arg Lys Gly Ile
275 280 285
Gly Gly Ile Asp Asp Phe Leu Arg Val Arg Thr Gln Met Gln Lys Arg
290 295 300
Arg Arg Gln Leu Gln Glu Ser Leu Ala Ala Val Lys Gly Gly Lys Gly
305 310 315 320
Arg Glu Lys Lys Leu Lys Ala Leu Asp His Leu Lys Gly Lys Glu Ala
325 330 335
Asn Phe Ala Lys Thr Tyr Asn His Phe Leu Ser Thr Gln Ile Val Thr
340 345 350
Phe Ala Val Lys Asn Gln Ala Gly Gln Ile Asn Met Glu Phe Leu Glu
355 360 365
Phe Asp Lys Met Lys Asn Lys Ser Leu Leu Arg Asn Trp Ser Tyr Tyr
370 375 380
Gln Leu Gln Met Met Val Glu Tyr Lys Ala Lys Arg Glu Gly Ile Ile
385 390 395 400
Ile Lys Tyr Val Asp Ala Tyr Leu Thr Ser Gln Thr Cys Ser Lys Cys
405 410 415
Asp Tyr Tyr Glu Glu Gly Gln Arg Glu Lys Gln Glu Lys Phe Ile Cys
420 425 430
Lys Ser Cys Ala Phe Glu Val Asn Ala Asp Tyr Asn Ala Ser Gln Asn
435 440 445
Ile Ala Lys Ser Ala Arg Tyr Ile Ser Asp Ser Thr Glu Arg Glu Tyr
450 455 460
His Lys Lys Lys Gln Glu Asp Leu Lys Glu Ile Leu Gly Glu Asn Asp
465 470 475 480
Ile Ile Asn Glu Gln Leu Ser Leu Phe Asp Asn His Asp Asp Ile Ala
485 490 495
<210> 367
<211> 496
<212> PRT
<213> Bacillus cereus
<400> 367
Met Ile Leu Thr Arg Lys Val Lys Leu Val Ile Val Ser Asp Asn Arg
1 5 10 15
Asp Glu Gly Tyr Lys Leu Ile Arg Asn Glu Ile Arg Glu Gln His Lys
20 25 30
Ala Leu Asn Leu Ala Tyr Asn His Leu Tyr Phe Glu His Asn Ala Ile
35 40 45
Gln Ile Leu Lys Gln Asn Asp Glu Asp Tyr Lys Gln Lys Arg Asn Lys
50 55 60
Leu Gln Glu Leu Ile Asn Lys Lys Tyr Glu Glu His Gln Lys Ala Lys
65 70 75 80
Asn Leu Glu Arg Lys Glu Ala Leu Arg Glu Ala Tyr Asn Asn Lys Lys
85 90 95
Gln Glu Leu Tyr Lys Phe Glu Arg Glu Cys Asn Glu Glu Ala Arg Lys
100 105 110
Ala Tyr Gln Gln Val Val Gly Phe Thr Gln Gln Thr Arg Val Arg Asn
115 120 125
Leu Ile Asn Arg Glu Cys Asn Leu Met Ser Asp Thr Lys Asp Gly Ile
130 135 140
Thr Ser Lys Val Thr Gln Asp Tyr Lys Asn Asp Cys Lys Ala Gly Leu
145 150 155 160
Leu Ile Gly Lys Arg Ser Leu Arg Asn Tyr Lys Lys Asp Asn Pro Leu
165 170 175
Leu Val Arg Gly Arg Ser Leu Lys Phe Tyr Lys Glu Asp Gly Asp Tyr
180 185 190
Phe Ile Lys Trp Asn Lys Gly Thr Val Phe Lys Cys Ile Leu His Ile
195 200 205
Arg Lys Lys Asn Val Ala Glu Leu Gln Ser Val Leu Glu Asn Val Leu
210 215 220
Leu Gly Ala Tyr Lys Ile Cys Asp Ser Ser Ile Gly Phe Asn Asn Lys
225 230 235 240
Asp Met Ile Leu Asn Leu Ser Leu Asn Ile Pro Asp Lys Glu Thr Tyr
245 250 255
Asp Tyr Ile Pro Gly Arg Val Val Gly Val Asp Leu Gly Leu Lys Ile
260 265 270
Pro Ala Tyr Val Ser Leu Ser Asp Lys Val Tyr Val Arg Lys Gly Ile
275 280 285
Gly Gly Ile Asp Asp Phe Leu Arg Val Arg Thr Gln Met Gln Lys Arg
290 295 300
Arg Arg Gln Leu Gln Glu Ser Leu Ala Ala Val Lys Gly Gly Lys Gly
305 310 315 320
Arg Glu Lys Lys Leu Lys Ala Leu Asp His Leu Lys Gly Lys Glu Ala
325 330 335
Asn Phe Ala Lys Thr Tyr Asn His Phe Leu Ser Thr Gln Ile Val Thr
340 345 350
Phe Ala Val Lys Asn Gln Ala Gly Gln Ile Asn Met Glu Phe Leu Glu
355 360 365
Phe Asp Lys Met Lys Asn Lys Ser Leu Leu Arg Asn Trp Ser Tyr Tyr
370 375 380
Gln Leu Gln Met Met Val Glu Tyr Lys Ala Lys Arg Glu Gly Ile Ile
385 390 395 400
Ile Lys Tyr Val Asp Ala Tyr Leu Thr Ser Gln Thr Cys Ser Lys Cys
405 410 415
Asp Tyr Tyr Glu Glu Gly Gln Arg Glu Lys Gln Glu Lys Phe Ile Cys
420 425 430
Lys Ser Cys Ala Phe Glu Val Asn Ala Asp Tyr Asn Ala Ser Gln Asn
435 440 445
Ile Ala Lys Ser Ala Arg Tyr Ile Ser Asp Ser Thr Glu Arg Glu Tyr
450 455 460
His Lys Lys Lys Gln Glu Asp Leu Lys Glu Ile Leu Gly Glu Asn Asp
465 470 475 480
Ile Ile Asn Glu Gln Leu Ser Leu Phe Asp Asn His Asp Asp Ile Ala
485 490 495
<210> 368
<211> 497
<212> PRT
<213> Clostridium sp.
<400> 368
Met Ile Thr Val Arg Lys Ile Lys Leu Thr Ile Met Gly Asp Lys Asp
1 5 10 15
Thr Arg Asn Ser Gln Tyr Lys Trp Ile Arg Asp Glu Gln Tyr Asn Gln
20 25 30
Tyr Arg Ala Leu Asn Met Gly Met Thr Tyr Leu Ala Val Asn Asp Ile
35 40 45
Leu Tyr Met Asn Glu Ser Gly Leu Glu Ile Arg Thr Ile Lys Asp Leu
50 55 60
Lys Asp Cys Glu Lys Asp Ile Asp Lys Asn Lys Lys Glu Ile Glu Lys
65 70 75 80
Leu Thr Ala Arg Leu Glu Lys Glu Gln Asn Lys Lys Asn Ser Ser Ser
85 90 95
Glu Lys Leu Asp Glu Ile Lys Tyr Lys Ile Ser Leu Val Glu Asn Lys
100 105 110
Ile Glu Asp Tyr Lys Leu Lys Ile Val Glu Leu Asn Lys Ile Ile Glu
115 120 125
Glu Thr Gln Lys Glu Arg Met Asp Ile Gln Lys Glu Phe Lys Glu Lys
130 135 140
Tyr Val Asp Asp Leu Tyr Gln Val Leu Asp Lys Ile Pro Phe Lys His
145 150 155 160
Leu Asp Asn Lys Ser Leu Val Thr Gln Arg Ile Lys Ala Asp Ile Lys
165 170 175
Ser Asp Lys Ser Asn Gly Leu Leu Lys Gly Glu Arg Ser Ile Arg Asn
180 185 190
Tyr Lys Arg Asn Phe Pro Leu Met Thr Arg Gly Arg Asp Leu Lys Phe
195 200 205
Lys Tyr Asp Asp Asn Asp Asp Ile Glu Ile Lys Trp Met Glu Gly Ile
210 215 220
Lys Phe Lys Val Ile Leu Gly Asn Arg Ile Lys Asn Ser Leu Glu Leu
225 230 235 240
Arg His Thr Leu His Lys Val Ile Glu Gly Lys Tyr Lys Ile Cys Asp
245 250 255
Ser Ser Leu Gln Phe Asp Lys Asn Asn Asn Leu Ile Leu Asn Leu Thr
260 265 270
Leu Asp Ile Pro Ile Asp Ile Val Asn Lys Lys Val Ser Gly Arg Val
275 280 285
Val Gly Val Asp Leu Gly Leu Lys Ile Pro Ala Tyr Cys Ala Leu Asn
290 295 300
Asp Val Glu Tyr Ile Lys Lys Ser Ile Gly Arg Ile Asp Asp Phe Leu
305 310 315 320
Lys Val Arg Thr Gln Met Gln Ser Arg Arg Arg Arg Leu Gln Ile Ala
325 330 335
Ile Gln Ser Ala Lys Gly Gly Lys Gly Arg Val Asn Lys Leu Gln Ala
340 345 350
Leu Glu Arg Phe Ala Glu Lys Glu Lys Asn Phe Ala Lys Thr Tyr Asn
355 360 365
His Phe Leu Ser Ser Asn Ile Val Lys Phe Ala Val Ser Asn Gln Ala
370 375 380
Glu Gln Ile Asn Met Glu Leu Leu Ser Leu Lys Glu Thr Gln Asn Lys
385 390 395 400
Ser Ile Leu Arg Asn Trp Ser Tyr Tyr Gln Leu Gln Thr Met Ile Glu
405 410 415
Tyr Lys Ala Gln Arg Glu Gly Ile Lys Val Lys Tyr Ile Asp Pro Tyr
420 425 430
His Thr Ser Gln Thr Cys Ser Lys Cys Gly Asn Tyr Glu Glu Gly Gln
435 440 445
Arg Glu Ser Gln Ala Asp Phe Ile Cys Lys Lys Cys Gly Tyr Lys Val
450 455 460
Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Met Ser Asn Lys Tyr
465 470 475 480
Ile Thr Lys Lys Glu Glu Ser Lys Tyr Tyr Lys Ile Lys Glu Ser Met
485 490 495
Val
<210> 369
<211> 497
<212> PRT
<213> Bacteroides plebeius
<400> 369
Met Pro Thr Ile Thr Arg Lys Ile Glu Leu Lys Ile Val Lys Asp Arg
1 5 10 15
Leu Thr Asp Glu Lys Glu Arg Leu Thr Asp Glu Glu Tyr Asp Gln Gln
20 25 30
Trp Lys Tyr Leu Tyr Gln Ile Asn Asn Thr Ile Tyr Gln Ala Ala Asn
35 40 45
Arg Ile Ser Thr His Cys Leu Phe Asn Asp Glu Tyr Glu Met Arg Leu
50 55 60
Arg Leu Ser Tyr Lys Ser Arg Tyr Asp Lys Ile Asn Lys Gly Leu Glu
65 70 75 80
Asn Ile Lys Thr Glu Leu Glu Lys Leu Asn Thr Lys Lys Lys Thr Ser
85 90 95
Asp Lys Glu Lys Arg Asp Arg Leu Ile Asn Glu Gln Arg Gln Leu Val
100 105 110
Asp Glu Arg Asn Glu Leu Asp Glu Asp Val Lys Asn Lys Lys Lys Asp
115 120 125
Phe Phe Gln Cys Ser Lys Gln Asn Ser Thr Tyr Gln Leu Ala Ser Lys
130 135 140
Glu Phe Leu Lys Tyr Ile Pro Ala Glu Ile Leu Thr Asp Leu Asn Arg
145 150 155 160
Tyr Val Gln Asn Asn His Asn Asn Asn Lys Lys Lys Val Lys Ser Gly
165 170 175
Glu Arg Ala Leu Ser Thr Tyr Lys Lys Gly Met Gly Ile Pro Phe Ser
180 185 190
Ile Lys Pro Gln Ser Gly Leu Arg Leu Phe Val Lys Glu Glu Gly Ile
195 200 205
Tyr Leu Lys Trp Phe Lys Gly Ile Leu Phe Arg Leu Glu Phe Gly Lys
210 215 220
Asp Thr Ser Asn Asn Arg Cys Ile Val Glu Arg Leu Ile Glu Ser Asp
225 230 235 240
Lys Gln Gln Lys Lys Asn Lys Gly Glu Asp Tyr Val Ala Asn Asn Ser
245 250 255
Ser Ile Lys Leu Ile Lys Lys Gly Asn Asp Lys Ser Thr Arg Ile Phe
260 265 270
Leu Leu Leu Ser Ile Asp Ile Pro Ala Lys Lys Gln Val Leu Asp Lys
275 280 285
Glu Val Val Leu Gly Val Asp Leu Gly Ile Lys Cys Pro Leu Tyr Leu
290 295 300
Ala Ile Asn Lys Asn Asp Asn Phe Lys Met Gln Ile Gly Asp Ile Glu
305 310 315 320
His Phe His Asn Gln Arg Thr Met Phe Gln Lys Arg Phe Lys Ser Leu
325 330 335
Gln Lys Leu Met Cys Thr Gln Gly Gly His Gly Arg Lys Lys Lys Leu
340 345 350
Glu Pro Leu Glu Lys Leu Lys Glu Lys Glu Arg Asn Trp Val His Thr
355 360 365
Gln Asn His Val Tyr Ser Arg Glu Val Ile Lys Gln Ala Leu Lys His
370 375 380
Asn Ala Gly Thr Ile His Met Glu Ser Leu Lys Asp Phe Gly Lys Gly
385 390 395 400
Lys Glu Gly Tyr Val Lys Asp Glu Tyr Lys Tyr Leu Leu Arg Tyr Trp
405 410 415
Ser Tyr Tyr Glu Leu Gln Ser Met Ile Glu Tyr Lys Ala Lys Leu Glu
420 425 430
Gly Ile Glu Val Lys Tyr Ile Asp Pro Ala Tyr Thr Ser Gln Thr Cys
435 440 445
Ser Tyr Cys Gly Glu Arg Gly Glu Arg Lys Lys Gln Glu Glu Phe Val
450 455 460
Cys Thr Asn Pro Gln Cys Lys Arg Arg Gly Glu Lys Ile Asn Ala Asp
465 470 475 480
Phe Asn Ala Ala Arg Asn Ile Ala Met Ser Lys Lys Ile Val Lys Asp
485 490 495
Asn
<210> 370
<211> 536
<212> PRT
<213> Dorea longicatena
<400> 370
Met Ser Asp Glu Ile Thr Ile Thr Arg Lys Tyr Val Ile Tyr Pro Ile
1 5 10 15
Ala Ser Asp Met Lys Glu Trp Glu Arg Lys Val Ile Lys Tyr Val Ser
20 25 30
Glu Asn Tyr Glu Lys Arg Ile Gln Leu Leu Glu Gln Lys Ile Lys His
35 40 45
Ser Lys Ile Pro Lys Glu Glu Lys Glu Asn Leu Arg Lys Glu Leu Asp
50 55 60
Asn Leu Lys Ile Lys Tyr Asp Ala Phe Gln Ala Asp Pro Ala Ile Thr
65 70 75 80
Gln Ser Glu Ile Asn Thr Tyr Thr Tyr Gly Thr Val Arg Thr Ala Met
85 90 95
Glu Glu Glu Ala Arg Lys Lys Asn Tyr Ile Leu Ser Trp Ile Tyr Ser
100 105 110
Glu Met Ile Gly Ala Gly Val Gln His Met Glu Thr Leu Lys Glu Lys
115 120 125
Tyr Gln Phe Ile Ser Asn Arg Met Asn Tyr Ala Tyr Arg Leu Pro Gly
130 135 140
Asn Lys Asn Gly Ser Leu Phe Asp Glu Ala Glu Ile His Asn Ile Leu
145 150 155 160
Lys Gly Tyr Gly Phe Ala Phe Ser Gln Met Leu Thr Ser Lys Ile Lys
165 170 175
Asp Cys Val Lys Lys Gly Leu Leu Glu Gly Lys Val Ser Leu Pro Asn
180 185 190
Tyr Lys Ile Asp Ser Pro Phe Thr Val Ala Lys Ala Cys Met Gly Phe
195 200 205
Ser His Asp Tyr Asp Asn Phe Glu Glu Leu Cys Glu His Ile His Asp
210 215 220
Ser Asp Leu Lys Leu Tyr Phe Asp Tyr Gly Gly Asn Lys Arg Pro Ser
225 230 235 240
Ile Ala Lys Phe Lys Ile Asp Leu Gly Lys Gly Lys Asn Arg Glu Glu
245 250 255
Leu Ala Ala Thr Leu Leu Lys Val Tyr Ser Gly Glu Tyr Glu Tyr Cys
260 265 270
Gly Ser Ser Ile Gln Ile Ser Lys Lys Lys Ile Ile Leu Asn Leu Ser
275 280 285
Met Lys Ile Pro Lys Ile Pro Thr Glu Leu Asp Glu Asn Thr Val Val
290 295 300
Gly Val Asn Leu Gly Val Ala Ile Pro Ala Thr Cys Ala Leu Asn Asn
305 310 315 320
Asp Leu His Lys Lys Leu Tyr Ile Gly Thr Tyr Glu Glu Phe Ala His
325 330 335
Gln Lys Val Lys Leu Gln Glu Gln Arg Lys Arg Leu Gln Ile Ser Leu
340 345 350
Arg Asn Thr Ser Gly Gly His Gly Arg Lys Lys Lys Leu Gln Ala Leu
355 360 365
Glu Arg Leu Lys Ala Arg Glu Lys Gln Tyr Thr Glu Thr Val Cys His
370 375 380
Lys Ile Ser Lys Arg Ile Val Asp Phe Ala Leu Lys Asn His Ala Lys
385 390 395 400
Tyr Ile Asn Leu Glu Asn Leu Gln Gly Tyr Asp Thr Asn Glu Phe Ile
405 410 415
Leu Arg Asn Trp Cys Tyr Tyr Arg Leu Gln Gln Tyr Thr Glu Tyr Lys
420 425 430
Ala Ala Arg Tyr Gly Ile Ile Val Arg Lys Val Asn Pro Cys Tyr Asn
435 440 445
Ala Gln Ile Cys Ser Ile Cys Gly Gly Trp Asp Lys Asp Gln Arg Leu
450 455 460
Ser Arg Ala Asp Phe Ile Cys Lys Asp Pro Asn Cys Ile Ser His Lys
465 470 475 480
Lys Tyr Lys His Pro Gln Cys Ala Glu Phe Asn Asn Ala Arg Asn Val
485 490 495
Ala Met Ser Glu Leu Phe Met Glu Ser Gly Lys Val Thr Gly Lys Asp
500 505 510
Phe Glu Arg Ala Arg Ala Tyr Tyr Ser Lys Lys Asn Pro Gly Ile Ile
515 520 525
Trp Glu Phe Val Glu Ser Lys Glu
530 535
<210> 371
<211> 543
<212> PRT
<213> Sulfurihydrogenibium azorense
<400> 371
Met Val Asn Lys Asn Leu Lys Ile Thr Ser Gly Arg Asp Asn Val Glu
1 5 10 15
Phe Tyr Leu Ile Val Asp Gly Glu Glu Ile Pro Leu Lys Lys Gln Asp
20 25 30
Ile Arg Asn Leu Ile Thr Glu Phe Leu Lys Asp Val Arg Leu Ala Tyr
35 40 45
Ile Lys Phe Leu Pro Asn Ile Glu Leu Ile Gln Thr Gly Lys Tyr Phe
50 55 60
Thr Val Asn Ile Asn Ser Lys Arg Leu Thr Asn Glu Asn Leu Ser Asn
65 70 75 80
Ser Leu Thr Lys Leu Ile Pro Lys Asn Tyr Ile Glu Leu Glu Ile Asn
85 90 95
Gly Ser Lys Val Lys Leu Asp Tyr Lys Lys Asp Tyr Val Ala Thr Ser
100 105 110
Ile Leu Tyr Ser Val Ala Lys Asp Ile Thr Gly Asn Leu Lys Glu Gly
115 120 125
Lys Thr Val Val Ile Lys Asn Leu Gln Tyr Leu Ala Arg Ile Lys Pro
130 135 140
Asp Lys Asn Thr Pro Tyr Asp Lys Ala Phe Ser Gln Val Ile Lys Glu
145 150 155 160
Phe Glu Ile Val Glu Asn Gly Lys Thr Val Glu Cys Val Ile Thr Phe
165 170 175
Ser Ala Phe Lys Asn Ala Ser Ile Lys Val Lys Phe Lys Met Asn Leu
180 185 190
Arg Lys Lys Asn Phe Ala Val Asn Asn Ser Tyr Tyr Gln Ile Leu Asn
195 200 205
Arg Ile Lys Asn Gln Glu Tyr Lys Val Ala Tyr Ile Gly Ile Gly Tyr
210 215 220
Arg Glu Lys Lys Gly Ala Phe Leu Leu Ile Ser Tyr Lys Phe Glu Lys
225 230 235 240
Gln Pro Glu Thr Ser Gln Glu Gln Glu Lys Val Met Gly Val Asp Leu
245 250 255
Gly Gln Val Tyr Leu Ile Tyr Tyr Ser Ile Thr Asn Ser His Ser Arg
260 265 270
Gly Asp Ile Ser Leu Ser Tyr Ser Trp Lys Asp Lys Ile Ile Gly Ile
275 280 285
Trp Asn Arg Lys Lys His Leu Gln Lys Ser Leu Met Glu Ile Arg Asn
290 295 300
Leu Lys Lys Gln Gly Ile Asn Asp Glu Ser Ile Glu Lys Arg Tyr Glu
305 310 315 320
Lys Ile Val Lys Glu Leu Asn Ser Val Arg Glu Tyr Glu Lys Asn Phe
325 330 335
Met Glu Thr Leu Asn Lys Gln Ile Ala Thr Lys Leu Ile Asp Ile Ala
340 345 350
Val Lys Glu Lys Val Lys Thr Ile Val Leu Glu Asp Leu Ser Leu Ser
355 360 365
Asn Glu Glu Lys Asn Ser Leu Ala Phe Pro Lys Trp Asn Tyr Tyr Gln
370 375 380
Leu Gln Ser Phe Ile Glu Asn Lys Ala Gln Glu Asn Gly Ile Gln Val
385 390 395 400
Lys Lys Ile Asn Pro Ala Tyr Thr Ser Gln Arg Cys Pro Ser Cys Gly
405 410 415
Phe Ile Ala Phe Tyr Lys Glu Met Val Arg Pro Lys Arg Glu Lys Phe
420 425 430
Thr Cys Pro Val Cys Gly Phe Ser Ser Asn Ala Asp Tyr Val Ala Ser
435 440 445
Leu Asn Ile Ala Glu Glu Asn Ile Glu Glu Lys Ile Lys Ala Arg Leu
450 455 460
Ile Ser Asp Ile Glu Lys Ile Glu Lys Val Asp Lys Asn Asn Lys Val
465 470 475 480
Phe Thr Leu Phe Ala Ile Arg Asn Arg Ile Val Lys Asp Leu Leu Lys
485 490 495
Glu Phe Phe Asn Thr Asn Asn Gly Ser Ser Lys Lys Leu Leu Lys Arg
500 505 510
Leu Glu Ile Ser Asn Lys Glu Ala Tyr Asn Thr Leu Ile Arg Asp Leu
515 520 525
Lys Gln Phe Lys Val Glu Tyr Leu Asp Lys Arg Ile Ser Asn Val
530 535 540
Claims (37)
- 합성 조성물로서,
(a) (i) C-말단 삼중-분할 RuvC 도메인,
(ii) 다음의 아미노산 모티프: GxxxG, ExL, CxnC 및 Cxn(C 또는 H)(여기서, G = 글리신, E = 글루타메이트, C = 시스테인, H = 히스티딘, x = 임의의 아미노산이고, n = 0 내지 11의 정수임),
(iii) 알파 나선, 및
(iv) 쐐기-유사 도메인을 형성하는 복수의 베타 시트
를 포함하는 Cas 엔도뉴클레아제;
(b) 상기 Cas 엔도뉴클레아제의 공급원에 대해 이종성인, 표적 이중-가닥 DNA 폴리뉴클레오티드, 및
(c) 상기 표적 이중-가닥 DNA 폴리뉴클레오티드에 대한 상보성 영역을 포함하는 가변 표적화 도메인을 포함하는 가이드 폴리뉴클레오티드
를 포함하되, 상기 Cas 엔도뉴클레아제는 상기 표적 이중-가닥 DNA 폴리뉴클레오티드 상의 PAM 서열을 인식하고, 상기 가이드 폴리뉴클레오티드와 상기 Cas 엔도뉴클레아제는 상기 표적 이중-가닥 DNA 폴리뉴클레오티드에 결합하는 복합체를 형성하는, 합성 조성물. - 제1항에 있어서, 상기 Cas 엔도뉴클레아제는 800개 미만의 아미노산을 포함하는, 합성 조성물.
- 제1항에 있어서, 상기 Cas 엔도뉴클레아제는 상기 Cas 엔도뉴클레아제를 암호화하는 폴리뉴클레오티드로서 제공되는, 합성 조성물.
- 제1항에 있어서, 상기 Cas 엔도뉴클레아제는 상기 이중-가닥 DNA 폴리뉴클레오티드를 절단하는, 합성 조성물.
- 제1항에 있어서, 이종성 폴리뉴클레오티드를 더 포함하는, 합성 조성물.
- 제6항에 있어서, 상기 이종성 폴리뉴클레오티드는 발현 요소인, 합성 조성물.
- 제6항에 있어서, 상기 이종성 폴리뉴클레오티드는 이식유전자인, 합성 조성물.
- 제6항에 있어서, 상기 이종성 폴리뉴클레오티드는 공여자 DNA 분자인, 합성 조성물.
- 제6항에 있어서, 상기 이종성 폴리뉴클레오티드는 폴리뉴클레오티드 변형 주형인, 합성 조성물.
- 제1항에 있어서, 상기 CRISPR-Cas 엔도뉴클레아제는 촉매적 비활성인, 합성 조성물.
- 제1항에 있어서, 상기 Cas 엔도뉴클레아제는 복수의 T 또는 C 뉴클레오티드를 포함하는 PAM 서열을 인식하는, 합성 조성물.
- 제10항에 있어서, 상기 PAM 서열은 TTAT, TTTR, N(T>V)TTR, N(W>S)TTTR, N(Y>R)N(Y>S>R)TTN(A>G>Y), N(W>S)N(Y>R)TTTR, CTT, N(T>W>C)TTC 및 CCD로 이루어진 군으로부터 선택되는, 합성 조성물.
- 제1항에 있어서, 상기 Cas 엔도뉴클레아제는 융합 단백질의 일부인, 합성 조성물.
- 제11항에 있어서, 데아미나제를 더 포함하는, 합성 조성물.
- 제11항에 있어서, 상기 융합 단백질은 이종성 뉴클레아제 도메인을 더 포함하는, 합성 조성물.
- 제1항에 있어서, 진핵 세포를 더 포함하는 합성 조성물.
- 제16항에 있어서, 상기 진핵 세포는 식물 세포, 동물 세포 또는 진균 세포인, 합성 조성물.
- 제17항에 있어서, 상기 식물 세포는 외떡잎식물 세포 또는 쌍떡잎식물 세포인, 합성 조성물.
- 제17항에 있어서, 상기 식물 세포는 메이즈(maize), 대두, 목화, 밀, 카놀라, 유채씨, 수수, 벼, 호밀, 보리, 조, 귀리, 사탕수수, 잔디풀, 스위치그래스, 알팔파, 해바라기, 담배, 땅콩, 감자, 애기장대, 잇꽃 및 토마토로 이루어진 군으로부터 선택된 유기체로부터 유래된, 합성 조성물.
- 제1항의 합성 조성물의 Cas 엔도뉴클레아제를 암호화하는 폴리뉴클레오티드.
- 제20항에 있어서, 적어도 하나의 추가적인 폴리뉴클레오티드를 더 포함하는, 폴리뉴클레오티드.
- 제21항에 있어서, 상기 적어도 하나의 추가적인 폴리뉴클레오티드는 발현 요소인, 폴리뉴클레오티드.
- 제21항에 있어서, 상기 적어도 하나의 추가적인 폴리뉴클레오티드는 유전자인, 폴리뉴클레오티드.
- 제1항에 있어서, 적어도 하나의 성분은 고체 매트릭스에 부착되는, 합성 조성물.
- 합성 조성물로서,
(a) 서열번호 17, 18, 19, 20, 32, 33, 34, 35, 36, 37, 38, 254, 255, 256, 257, 258, 259, 260, 261, 262, 263, 264, 265, 266, 267, 268, 269, 270, 271, 272, 273, 274, 275, 276, 277, 278, 279, 280, 281, 282, 283, 284, 285, 286, 287, 288, 289, 290, 291, 292, 293, 294, 295, 296, 297, 298, 299, 300, 301, 302, 303, 304, 305, 306, 307, 308, 309, 310, 311, 312, 313, 314, 315, 316, 317, 318, 319, 320, 321, 322, 323, 324, 325, 326, 327, 328, 329, 330, 331, 332, 333, 334, 335, 336, 337, 338, 339, 340, 341, 342, 343, 344, 345, 346, 347, 348, 349, 350, 351, 352, 353, 354, 355, 356, 357, 358, 359, 360, 361, 362, 363, 364, 365, 366, 367, 368, 369, 370 및 371로 이루어진 군으로부터 선택된 서열에 대해 적어도 80% 동일한 Cas 엔도뉴클레아제, 또는 이들의 기능성 단편 또는 변이체;
(b) 상기 Cas 엔도뉴클레아제의 공급원에 대해 이종성인, 표적 이중-가닥 DNA 폴리뉴클레오티드, 및
(c) 상기 표적 이중-가닥 DNA 폴리뉴클레오티드에 대한 상보성 영역을 포함하는 가변 표적화 도메인을 포함하는 가이드 폴리뉴클레오티드
를 포함하되, 상기 Cas 엔도뉴클레아제는 상기 표적 이중-가닥 DNA 폴리뉴클레오티드 상의 PAM 서열을 인식하고, 상기 가이드 폴리뉴클레오티드와 상기 Cas 엔도뉴클레아제는 상기 표적 이중-가닥 DNA 폴리뉴클레오티드에 결합하는 복합체를 형성하는, 합성 조성물. - 표적 폴리뉴클레오티드에서 표적화된 편집을 도입하는 방법으로서,
이종성 조성물을 제공하는 단계를 포함하되, 상기 이종성 조성물은,
(a) (i) C-말단 삼중-분할 RuvC 도메인,
(ii) 다음의 아미노산 모티프: GxxxG, ExL, CxnC 및 Cxn(C 또는 H)(여기서, G = 글리신, E = 글루타메이트, C = 시스테인, H = 히스티딘, x = 임의의 아미노산이고, n = 0 내지 11의 정수임),
(iii) 알파 나선, 및
(iv) 쐐기-유사 도메인을 형성하는 복수의 베타 시트
를 포함하는 Cas 엔도뉴클레아제로서, 상기 표적 폴리뉴클레오티드 상의 PAM 서열을 인식하는, 상기 Cas 엔도뉴클레아제; 및
(b) 상기 표적 폴리뉴클레오티드의 일부에 대해 실질적으로 상보성인 가변 표적화 도메인을 포함하는 가이드 폴리뉴클레오티드
를 포함하며, 상기 가이드 폴리뉴클레오티드와 상기 Cas-알파 엔도뉴클레아제는 상기 표적 폴리뉴클레오티드를 인식하고 이에 결합할 수 있는 복합체를 형성하는, 방법. - 제26항에 있어서, 세포를 더 포함하되, 상기 방법은 상기 이종성 조성물의 도입 전의 세포의 게놈의 표적 서열에 비해 유기체의 적어도 하나의 세포 게놈에서 적어도 하나의 뉴클레오티드 변형을 도입하는 단계를 더 포함하고, 상기 세포를 인큐베이션시키는 단계 및 상기 세포로부터 전체 유기체를 생성하는 단계, 및 상기 이종성 조성물의 도입 전의 상기 세포의 상기 게놈의 상기 표적 서열에 비해 상기 유기체의 적어도 하나의 세포 게놈에서 적어도 하나의 뉴클레오티드 변형의 존재를 확인하는 단계를 더 포함하는, 방법.
- 제26항에 있어서, 상기 Cas 엔도뉴클레아제는 복수의 T 또는 C 뉴클레오티드를 포함하는 PAM 서열을 인식하는, 방법.
- 제26항에 있어서, 상기 PAM 서열은 TTAT, TTTR, N(T>V)TTR, N(W>S)TTTR, N(Y>R)N(Y>S>R)TTN(A>G>Y), N(W>S)N(Y>R)TTTR, CTT, N(T>W>C)TTC 및 CCD로 이루어진 군으로부터 선택되는, 방법.
- 제27항에 있어서, 상기 세포는 진핵 세포인, 방법.
- 제30항에 있어서, 상기 진핵 세포는 동물, 진균 또는 식물로부터 유래되거나 얻어지는, 방법.
- 제31항에 있어서, 상기 식물은 외떡잎식물 또는 쌍떡잎식물인, 방법.
- 제31항에 있어서, 상기 식물은 메이즈, 대두, 목화, 밀, 카놀라, 유채씨, 수수, 벼, 호밀, 보리, 조, 귀리, 사탕수수, 잔디풀, 스위치그래스, 알팔파, 해바라기, 담배, 땅콩, 감자, 애기장대, 잇꽃 및 토마토로 이루어진 군으로부터 선택된, 방법.
- 제27항에 있어서, 이종성 폴리뉴클레오티드를 도입하는 단계를 더 포함하는, 방법.
- 제34항에 있어서, 상기 이종성 폴리뉴클레오티드는 공여자 DNA 분자인, 방법.
- 제34항에 있어서, 상기 이종성 폴리뉴클레오티드는 상기 세포 내 서열에 대해 적어도 50% 동일한 서열을 포함하는 폴리뉴클레오티드 변형 주형인, 방법.
- 제27항의 방법에 의해 얻은 유기체의 자손으로서, 적어도 하나의 세포에 적어도 하나의 뉴클레오티드 변형을 보유하는, 자손.
Applications Claiming Priority (11)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862779989P | 2018-12-14 | 2018-12-14 | |
US62/779,989 | 2018-12-14 | ||
US201962794427P | 2019-01-18 | 2019-01-18 | |
US62/794,427 | 2019-01-18 | ||
US201962819409P | 2019-03-15 | 2019-03-15 | |
US62/819,409 | 2019-03-15 | ||
US201962852788P | 2019-05-24 | 2019-05-24 | |
US62/852,788 | 2019-05-24 | ||
US201962913492P | 2019-10-10 | 2019-10-10 | |
US62/913,492 | 2019-10-10 | ||
PCT/US2019/066118 WO2020123887A2 (en) | 2018-12-14 | 2019-12-13 | Novel crispr-cas systems for genome editing |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20210104068A true KR20210104068A (ko) | 2021-08-24 |
Family
ID=71073391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020217020914A KR20210104068A (ko) | 2018-12-14 | 2019-12-13 | 게놈 편집을 위한 신규한 crispr-cas 시스템 |
Country Status (10)
Country | Link |
---|---|
US (5) | US20220073890A1 (ko) |
EP (1) | EP3894550A4 (ko) |
JP (1) | JP2022514493A (ko) |
KR (1) | KR20210104068A (ko) |
CN (1) | CN113166744A (ko) |
AU (1) | AU2019398351A1 (ko) |
BR (1) | BR112021011372A2 (ko) |
CA (1) | CA3117228A1 (ko) |
IL (1) | IL283853A (ko) |
WO (1) | WO2020123887A2 (ko) |
Families Citing this family (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11951140B2 (en) | 2011-02-04 | 2024-04-09 | Seed Health, Inc. | Modulation of an individual's gut microbiome to address osteoporosis and bone disease |
US11844720B2 (en) | 2011-02-04 | 2023-12-19 | Seed Health, Inc. | Method and system to reduce the likelihood of dental caries and halitosis |
US11951139B2 (en) | 2015-11-30 | 2024-04-09 | Seed Health, Inc. | Method and system for reducing the likelihood of osteoporosis |
US10940169B2 (en) | 2015-11-30 | 2021-03-09 | Joseph E. Kovarik | Method for reducing the likelihood of developing cancer in an individual human being |
US11026982B2 (en) | 2015-11-30 | 2021-06-08 | Joseph E. Kovarik | Method for reducing the likelihood of developing bladder or colorectal cancer in an individual human being |
US11839632B2 (en) | 2013-12-20 | 2023-12-12 | Seed Health, Inc. | Topical application of CRISPR-modified bacteria to treat acne vulgaris |
US11529379B2 (en) | 2013-12-20 | 2022-12-20 | Seed Health, Inc. | Method and system for reducing the likelihood of developing colorectal cancer in an individual human being |
US11213552B2 (en) | 2015-11-30 | 2022-01-04 | Joseph E. Kovarik | Method for treating an individual suffering from a chronic infectious disease and cancer |
US11833177B2 (en) | 2013-12-20 | 2023-12-05 | Seed Health, Inc. | Probiotic to enhance an individual's skin microbiome |
US11642382B2 (en) | 2013-12-20 | 2023-05-09 | Seed Health, Inc. | Method for treating an individual suffering from bladder cancer |
US11672835B2 (en) | 2013-12-20 | 2023-06-13 | Seed Health, Inc. | Method for treating individuals having cancer and who are receiving cancer immunotherapy |
US11826388B2 (en) | 2013-12-20 | 2023-11-28 | Seed Health, Inc. | Topical application of Lactobacillus crispatus to ameliorate barrier damage and inflammation |
CN108291236B (zh) * | 2015-09-30 | 2022-07-26 | 先锋国际良种公司 | 植物epsp合酶和使用方法 |
EP3882345A4 (en) * | 2018-11-15 | 2023-02-22 | China Agricultural University | CRISPR-CAS12J ENZYME AND SYSTEM |
EP4053285A2 (en) | 2019-10-29 | 2022-09-07 | Genkore Inc | Engineered guide rna for increasing efficiency of crispr/cas12f1 system, and use of same |
US20230099483A1 (en) * | 2020-01-24 | 2023-03-30 | C4U Corporation | Method for detecting specific dna in sample |
CN113373192B (zh) * | 2020-02-25 | 2023-04-07 | 华东理工大学 | 一种生物酶法合成核苷酸或其衍生物的方法 |
WO2021178933A2 (en) | 2020-03-06 | 2021-09-10 | Metagenomi Ip Technologies, Llc | Class ii, type v crispr systems |
CN111778230A (zh) * | 2020-07-17 | 2020-10-16 | 山东舜丰生物科技有限公司 | 一种适用于Cas12蛋白的缓冲系统及其应用 |
WO2022040134A1 (en) | 2020-08-18 | 2022-02-24 | Pioneer Hi-Bred International, Inc. | Multiple disease resistance genes and genomic stacks thereof |
AU2021353867A1 (en) * | 2020-09-29 | 2023-05-11 | NeuExcell Therapeutics Inc. | Neurod1 combination vector |
JP2023544817A (ja) | 2020-10-08 | 2023-10-25 | ゲンコレ インコーポレイテッド | CRISPR/Cas12f1システム効率化のためのエンジニアリングされたガイドRNAおよびその用途 |
KR102638799B1 (ko) * | 2020-10-08 | 2024-02-22 | 주식회사 진코어 | CRISPR/Cas12f1(Cas14a1) system 효율화를 위한 engineered guide RNA 및 이의 용도 |
CA3198422A1 (en) | 2020-10-08 | 2022-04-14 | Genkore Inc. | Engineered guide rna comprising u-rich tail for optimized crispr/cas12f1 system and use thereof |
US20230416784A1 (en) | 2020-10-08 | 2023-12-28 | Genkore Inc. | Engineered guide rna for optimized crispr/cas12f1 (cas14a1) system and use thereof |
EP4229194A2 (en) * | 2020-10-14 | 2023-08-23 | Pioneer Hi-Bred International, Inc. | Engineered cas endonuclease variants for improved genome editing |
WO2022104381A1 (en) * | 2020-11-13 | 2022-05-19 | The Board Of Trustees Of The Leland Stanford Junior University | A MINIMAL CRISPRi/a SYSTEM FOR TARGETED GENOME REGULATION |
GB2610711B (en) * | 2021-01-22 | 2023-08-02 | Metagenomi Inc | Novel engineered and chimeric nucleases |
US20240093228A1 (en) * | 2021-01-22 | 2024-03-21 | Arbor Biotechnologies, Inc. | Compositions comprising a nuclease and uses thereof |
WO2022221581A1 (en) * | 2021-04-15 | 2022-10-20 | Mammoth Biosciences, Inc. | Programmable nucleases and methods of use |
EP4337701A1 (en) * | 2021-05-10 | 2024-03-20 | Mammoth Biosciences, Inc. | Effector proteins and methods of use |
EP4355869A1 (en) * | 2021-06-17 | 2024-04-24 | Massachusetts Institute of Technology | Systems, methods, and compositions comprising miniature crispr nucleases for gene editing and programmable gene activation and inhibition |
CN113832180A (zh) * | 2021-08-03 | 2021-12-24 | 华中农业大学 | CRISPR/Cas13b介导的棉花RNA转录调控方法 |
KR102573947B1 (ko) | 2021-08-09 | 2023-09-01 | 경상국립대학교산학협력단 | 콩 유전자교정 효율 증대를 위한 유전자교정 시스템 및 이의 용도 |
KR102573952B1 (ko) | 2021-08-09 | 2023-09-01 | 경상국립대학교산학협력단 | E2와 이의 상동체 동시 타겟 유전자교정 시스템 및 이의 용도 |
KR102584891B1 (ko) | 2021-08-09 | 2023-10-04 | 경상국립대학교산학협력단 | GmIPK1 유전자교정 시스템 및 이의 용도 |
KR102574819B1 (ko) | 2021-08-09 | 2023-09-04 | 경상국립대학교산학협력단 | P34와 이의 상동체 동시 타겟 유전자교정 시스템 및 이의 용도 |
KR102573948B1 (ko) | 2021-08-09 | 2023-09-01 | 경상국립대학교산학협력단 | Mips1과 이의 상동체 동시 타겟 유전자교정 시스템 및 이의 용도 |
KR20230051095A (ko) | 2021-10-06 | 2023-04-17 | 주식회사 진코어 | 유전자 편집을 위한 TaRGET 시스템 및 이의 용도 |
CN114438055B (zh) * | 2021-10-26 | 2022-08-26 | 山东舜丰生物科技有限公司 | 新型的crispr酶和系统以及应用 |
WO2023118068A1 (en) | 2021-12-23 | 2023-06-29 | Bayer Aktiengesellschaft | Novel small type v rna programmable endonuclease systems |
WO2023141590A2 (en) * | 2022-01-21 | 2023-07-27 | Mammoth Biosciences, Inc. | Effector proteins and methods of use |
CN114441772B (zh) * | 2022-01-29 | 2023-03-21 | 北京大学 | 用于检测细胞内能够与rna结合的靶分子的方法和试剂 |
WO2023173072A1 (en) * | 2022-03-11 | 2023-09-14 | Epicrispr Biotechnologies, Inc. | Systems and methods for genetic modulation to treat liver disease |
WO2023172995A1 (en) * | 2022-03-11 | 2023-09-14 | Epicrispr Biotechnologies, Inc. | Systems and methods for genetic modulation to treat ocular diseases |
WO2023173120A1 (en) * | 2022-03-11 | 2023-09-14 | Epicrispr Biotechnologies, Inc. | Systems and methods for genetic modulation to treat ocular diseases |
WO2023183918A1 (en) | 2022-03-25 | 2023-09-28 | Pioneer Hi-Bred International, Inc. | Methods of parthenogenic haploid induction and haploid chromosome doubling |
CN116987693A (zh) * | 2022-04-25 | 2023-11-03 | 上海科技大学 | 一种优化的CRISPR/SpCas12f1系统、工程化向导RNA及其应用 |
CN116987686A (zh) * | 2022-04-25 | 2023-11-03 | 上海科技大学 | 一种工程优化的核酸酶、向导rna、编辑系统和应用 |
WO2023208000A1 (en) * | 2022-04-25 | 2023-11-02 | Huidagene Therapeutics Co., Ltd. | Novel crispr-cas12f systems and uses thereof |
WO2023212626A2 (en) * | 2022-04-29 | 2023-11-02 | Pioneer Hi-Bred International, Inc. | Engineered cas endonuclease and guide rna variants for improved genome editing |
WO2023240229A2 (en) * | 2022-06-10 | 2023-12-14 | Acrigen Biosciences | Compositions and methods for nucleic acid modifications |
WO2023237587A1 (en) * | 2022-06-10 | 2023-12-14 | Bayer Aktiengesellschaft | Novel small type v rna programmable endonuclease systems |
WO2024006802A1 (en) | 2022-06-30 | 2024-01-04 | Pioneer Hi-Bred International, Inc. | Artificial intelligence-mediated methods and systems for genome editing |
WO2024008145A1 (zh) * | 2022-07-07 | 2024-01-11 | 山东舜丰生物科技有限公司 | Cas酶及其应用 |
WO2024026232A1 (en) * | 2022-07-27 | 2024-02-01 | Pioneer Hi-Bred International, Inc | Guide rna trapped genome editing |
WO2024036190A2 (en) | 2022-08-09 | 2024-02-15 | Pioneer Hi-Bred International, Inc. | Guide polynucleotide multiplexing |
WO2024038168A1 (en) * | 2022-08-19 | 2024-02-22 | UCB Biopharma SRL | Novel rna-guided nucleases and nucleic acid targeting systems comprising such |
CN116343917B (zh) * | 2023-03-22 | 2023-11-10 | 电子科技大学长三角研究院(衢州) | 一种基于ATAC-seq足迹识别转录因子共定位的方法 |
Family Cites Families (133)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5036006A (en) | 1984-11-13 | 1991-07-30 | Cornell Research Foundation, Inc. | Method for transporting substances into living cells and tissues and apparatus therefor |
US5959177A (en) | 1989-10-27 | 1999-09-28 | The Scripps Research Institute | Transgenic plants expressing assembled secretory antibodies |
US6051409A (en) | 1995-09-25 | 2000-04-18 | Novartis Finance Corporation | Method for achieving integration of exogenous DNA delivered by non-biological means to plant cells |
US20070083945A1 (en) | 2000-03-10 | 2007-04-12 | Byrum Joseph R | Nucleic acid molecules and other molecules associated with plants |
US7612251B2 (en) | 2000-09-26 | 2009-11-03 | Pioneer Hi-Bred International, Inc. | Nucleotide sequences mediating male fertility and method of using same |
CA2516310C (en) | 2003-02-19 | 2014-12-09 | Commonwealth Scientific And Industrial Research Organisation | Efficient gene silencing in plants using short dsrna sequences |
PL1689870T3 (pl) | 2003-11-18 | 2009-06-30 | Bayer Cropscience Nv | Ulepszona docelowa insercja DNA w roślinach |
US7292055B2 (en) | 2005-04-21 | 2007-11-06 | Endicott Interconnect Technologies, Inc. | Interposer for use with test apparatus |
US20070016985A1 (en) | 2005-07-18 | 2007-01-18 | Pioneer Hi-Bred International, Inc. | Particle Preparation for Direct-Delivery Transformation |
EP1907553B1 (en) | 2005-07-18 | 2012-08-22 | Pioneer Hi-Bred International Inc. | Modified frt recombination sites and methods of use |
DK2341149T3 (en) | 2005-08-26 | 2017-02-27 | Dupont Nutrition Biosci Aps | Use of CRISPR-associated genes (Cas) |
WO2007047016A2 (en) | 2005-10-13 | 2007-04-26 | Monsanto Technology, Llc | Methods for producing hybrid seed |
AU2007339767B2 (en) | 2006-12-29 | 2013-09-12 | Dow Agrosciences Llc | In vitro methods for the induction and maintenance of plant cell lines as single suspension cells with intact cell walls, and transformation thereof |
AU2008258254B2 (en) | 2007-06-07 | 2014-07-03 | Agriculture And Agri-Food Canada | Nanocarrier based plant transfection and transduction |
CA2691440A1 (en) | 2007-06-29 | 2009-01-08 | Pioneer Hi-Bred International, Inc. | Methods for altering the genome of a monocot plant cell |
EP2190282A2 (en) | 2007-08-29 | 2010-06-02 | Monsanto Technology, LLC | Methods for incorporating multiple genes in a crop plant |
US8399218B2 (en) | 2007-09-27 | 2013-03-19 | Dow Agrosciences, Llc | Engineered zinc finger proteins targeting 5-enolpyruvyl shikimate-3-phosphate synthase genes |
ES2402341T3 (es) | 2007-10-05 | 2013-04-30 | Dow Agrosciences Llc | Métodos para transferir sustancias moleculares al interior de células vegetales |
US8546553B2 (en) | 2008-07-25 | 2013-10-01 | University Of Georgia Research Foundation, Inc. | Prokaryotic RNAi-like system and methods of use |
US20100076057A1 (en) | 2008-09-23 | 2010-03-25 | Northwestern University | TARGET DNA INTERFERENCE WITH crRNA |
CA2747124C (en) | 2008-12-17 | 2018-09-04 | Dow Agrosciences Llc | Targeted integration into the zp15 locus |
EP2417262B1 (en) | 2009-04-07 | 2015-05-20 | Dow AgroSciences LLC | Nanoparticle mediated delivery of sequence specific nucleases |
EP2529017A2 (en) | 2009-12-30 | 2012-12-05 | Pioneer Hi-Bred International, Inc. | Methods and compositions for targeted polynucleotide modification |
US20110203012A1 (en) | 2010-01-21 | 2011-08-18 | Dotson Stanton B | Methods and compositions for use of directed recombination in plant breeding |
BR112012024589A2 (pt) | 2010-03-31 | 2017-06-20 | Dow Agrosciences Llc | peptídeo zeína -gama de planta para liberação de biomoléculas em células de plantas |
EP2569425B1 (en) | 2010-05-10 | 2016-07-06 | The Regents of The University of California | Endoribonuclease compositions and methods of use thereof |
CN103080323A (zh) | 2010-07-07 | 2013-05-01 | 陶氏益农公司 | 使用peg化的量子点以在植物中稳定转化的线性dna分子投递 |
US8575424B2 (en) | 2010-07-07 | 2013-11-05 | Dow Agrosciences, Llc. | Production of functionalized linear DNA cassette and quantum dot/nanoparticle mediated delivery in plants |
US8609420B2 (en) | 2011-03-23 | 2013-12-17 | Dow Agrosciences, Llc. | Quantum dot carrier peptide conjugates suitable for imaging and delivery applications in plants |
WO2012129373A2 (en) | 2011-03-23 | 2012-09-27 | Pioneer Hi-Bred International, Inc. | Methods for producing a complex transgenic trait locus |
US20140113376A1 (en) | 2011-06-01 | 2014-04-24 | Rotem Sorek | Compositions and methods for downregulating prokaryotic genes |
AR086995A1 (es) | 2011-06-21 | 2014-02-05 | Pioneer Hi Bred Int | Metodos y composiciones para producir plantas con esterilidad masculina |
BR112014002622A2 (pt) | 2011-08-03 | 2019-09-24 | Du Pont | método para introduzir no genoma de uma célula vegetal um sítio alvo para a integração específica de sítio, célula vegetal, parte de planta, planta ou semente, método para integrar um polinucleotídeo de interesse em um sítio alvo no genoma de uma célula vegetal |
CN103981149A (zh) | 2011-08-22 | 2014-08-13 | 拜尔作物科学公司 | 修饰植物基因组的方法和手段 |
US20130210151A1 (en) | 2011-11-07 | 2013-08-15 | University Of Western Ontario | Endonuclease for genome editing |
CN104114708B (zh) | 2011-12-15 | 2018-04-03 | 陶氏益农公司 | 改进使用土壤杆菌属转化的方法 |
GB201122458D0 (en) | 2011-12-30 | 2012-02-08 | Univ Wageningen | Modified cascade ribonucleoproteins and uses thereof |
AR089793A1 (es) | 2012-01-27 | 2014-09-17 | Du Pont | Metodos y composiciones para generar locus de rasgos transgenicos complejos |
US9637739B2 (en) | 2012-03-20 | 2017-05-02 | Vilnius University | RNA-directed DNA cleavage by the Cas9-crRNA complex |
WO2013141680A1 (en) | 2012-03-20 | 2013-09-26 | Vilnius University | RNA-DIRECTED DNA CLEAVAGE BY THE Cas9-crRNA COMPLEX |
CA2873518A1 (en) | 2012-05-18 | 2013-11-21 | Pioneer Hi-Bred International, Inc. | Inducible promoter sequences for regulated expression and methods of use |
DK3241902T3 (en) | 2012-05-25 | 2018-05-07 | Univ California | METHODS AND COMPOSITIONS FOR RNA DIRECTIVE TARGET DNA MODIFICATION AND FOR RNA DIRECTIVE MODULATION OF TRANSCRIPTION |
EP2861737B1 (en) | 2012-06-19 | 2019-04-17 | Regents Of The University Of Minnesota | Gene targeting in plants using dna viruses |
EP3494997B1 (en) | 2012-07-25 | 2019-09-18 | The Broad Institute, Inc. | Inducible dna binding proteins and genome perturbation tools and applications thereof |
UA119135C2 (uk) | 2012-09-07 | 2019-05-10 | ДАУ АГРОСАЙЄНСІЗ ЕлЕлСі | Спосіб отримання трансгенної рослини |
US20140096284A1 (en) | 2012-10-01 | 2014-04-03 | Iowa State University Research Foundation, Inc. | Method for the delivery of molecules lyophilized onto microparticles to plant tissues |
CA3233048A1 (en) | 2012-10-23 | 2014-05-01 | Toolgen Incorporated | Composition for cleaving a target dna comprising a guide rna specific for the target dna and cas protein-encoding nucleic acid or cas protein, and use thereof |
BR112015009812A2 (pt) | 2012-10-31 | 2017-08-22 | Cellectis | Método para a inserção genética específica em um genoma de planta, célula de planta transformada e seu uso, planta resistente a herbicidas, kit, vetor, e célula hospedeira |
ES2757325T3 (es) | 2012-12-06 | 2020-04-28 | Sigma Aldrich Co Llc | Modificación y regulación del genoma en base a CRISPR |
WO2014093479A1 (en) | 2012-12-11 | 2014-06-19 | Montana State University | Crispr (clustered regularly interspaced short palindromic repeats) rna-guided control of gene regulation |
WO2014093701A1 (en) | 2012-12-12 | 2014-06-19 | The Broad Institute, Inc. | Functional genomics using crispr-cas systems, compositions, methods, knock out libraries and applications thereof |
IL300461A (en) | 2012-12-12 | 2023-04-01 | Harvard College | Engineering and optimization of improved systems, methods and enzyme compositions for sequence manipulation |
US8697359B1 (en) | 2012-12-12 | 2014-04-15 | The Broad Institute, Inc. | CRISPR-Cas systems and methods for altering expression of gene products |
IL239344B1 (en) | 2012-12-12 | 2024-02-01 | Broad Inst Inc | Systems engineering, methods and optimal guiding components for sequence manipulation |
PL2931898T3 (pl) | 2012-12-12 | 2016-09-30 | Le Cong | Projektowanie i optymalizacja systemów, sposoby i kompozycje do manipulacji sekwencją z domenami funkcjonalnymi |
EP2784162B1 (en) | 2012-12-12 | 2015-04-08 | The Broad Institute, Inc. | Engineering of systems, methods and optimized guide compositions for sequence manipulation |
DK2931897T3 (en) | 2012-12-12 | 2018-02-05 | Broad Inst Inc | CONSTRUCTION, MODIFICATION AND OPTIMIZATION OF SYSTEMS, PROCEDURES AND COMPOSITIONS FOR SEQUENCE MANIPULATION AND THERAPEUTICAL APPLICATIONS |
US20140310830A1 (en) | 2012-12-12 | 2014-10-16 | Feng Zhang | CRISPR-Cas Nickase Systems, Methods And Compositions For Sequence Manipulation in Eukaryotes |
EP4234696A3 (en) | 2012-12-12 | 2023-09-06 | The Broad Institute Inc. | Crispr-cas component systems, methods and compositions for sequence manipulation |
RU2015128052A (ru) | 2012-12-13 | 2017-01-19 | Дау Агросайенсиз Ллс | Точный таргетинг генов в отношении конкретного локуса кукурузы |
KR20220139433A (ko) | 2012-12-17 | 2022-10-14 | 프레지던트 앤드 펠로우즈 오브 하바드 칼리지 | Rna-가이드된 인간 게놈 조작 |
AU2014218621B2 (en) | 2013-02-25 | 2019-11-07 | Sangamo Therapeutics, Inc. | Methods and compositions for enhancing nuclease-mediated gene disruption |
CA2905289C (en) | 2013-03-12 | 2023-03-07 | Pioneer Hi-Bred International, Inc. | Methods for the identification of variant recognition sites for rare-cutting engineered double-strand-break-inducing agents and compositions and uses thereof |
JP2016519652A (ja) | 2013-03-14 | 2016-07-07 | カリブー・バイオサイエンシーズ・インコーポレイテッド | 核酸ターゲティング核酸の組成物および方法 |
JP2016512048A (ja) | 2013-03-15 | 2016-04-25 | リージェンツ オブ ザ ユニバーシティ オブ ミネソタ | CRISPR/Casシステムを使用した植物ゲノム操作 |
EP2971041B1 (en) | 2013-03-15 | 2018-11-28 | The General Hospital Corporation | Using rna-guided foki nucleases (rfns) to increase specificity for rna-guided genome editing |
US10113162B2 (en) | 2013-03-15 | 2018-10-30 | Cellectis | Modifying soybean oil composition through targeted knockout of the FAD2-1A/1B genes |
JP2016522679A (ja) | 2013-04-04 | 2016-08-04 | プレジデント アンド フェローズ オブ ハーバード カレッジ | CRISPR/Cas系を用いたゲノム編集の治療的使用 |
WO2014186686A2 (en) | 2013-05-17 | 2014-11-20 | Two Blades Foundation | Targeted mutagenesis and genome engineering in plants using rna-guided cas nucleases |
US20150067922A1 (en) | 2013-05-30 | 2015-03-05 | The Penn State Research Foundation | Gene targeting and genetic modification of plants via rna-guided genome editing |
AU2014279694B2 (en) | 2013-06-14 | 2020-07-23 | Cellectis | Methods for non-transgenic genome editing in plants |
KR102285485B1 (ko) | 2013-07-10 | 2021-08-04 | 프레지던트 앤드 펠로우즈 오브 하바드 칼리지 | Rna-가이드된 유전자 조절 및 편집을 위한 직교 cas9 단백질 |
SI3019619T1 (sl) | 2013-07-11 | 2021-12-31 | Modernatx, Inc. | Sestave, ki zajemajo sintetične polinukleotide, ki kodirajo proteine, pozvezane s crispr, in sintetične sgrna, ter metode uporabe |
US9163284B2 (en) | 2013-08-09 | 2015-10-20 | President And Fellows Of Harvard College | Methods for identifying a target site of a Cas9 nuclease |
US20150044772A1 (en) | 2013-08-09 | 2015-02-12 | Sage Labs, Inc. | Crispr/cas system-based novel fusion protein and its applications in genome editing |
CN105829536A (zh) | 2013-08-22 | 2016-08-03 | 纳幕尔杜邦公司 | 用于在不掺入选择性转基因标记的情况下,在植物基因组中产生基因修饰的方法,以及用于这种方法的组合物 |
AU2014346559B2 (en) | 2013-11-07 | 2020-07-09 | Editas Medicine,Inc. | CRISPR-related methods and compositions with governing gRNAs |
AU2014350051A1 (en) | 2013-11-18 | 2016-07-07 | Crispr Therapeutics Ag | CRISPR-Cas system materials and methods |
US9840699B2 (en) * | 2013-12-12 | 2017-12-12 | President And Fellows Of Harvard College | Methods for nucleic acid editing |
CA2936646A1 (en) | 2014-01-24 | 2015-07-30 | North Carolina State University | Methods and compositions for sequences guiding cas9 targeting |
KR102321956B1 (ko) | 2014-01-31 | 2021-11-08 | 스위프트 바이오사이언시스 인코포레이티드 | Dna 기질을 처리하는 개선 방법 |
CN106232803A (zh) | 2014-02-27 | 2016-12-14 | 孟山都技术公司 | 用于定点基因组修饰的组合物和方法 |
EP3152323A1 (en) | 2014-06-05 | 2017-04-12 | Qiagen GmbH | Optimization of dna amplification reactions |
WO2015189693A1 (en) | 2014-06-12 | 2015-12-17 | King Abdullah University Of Science And Technology | Targeted viral-mediated plant genome editing using crispr/cas9 |
KR102598819B1 (ko) | 2014-06-23 | 2023-11-03 | 더 제너럴 하스피탈 코포레이션 | 서열결정에 의해 평가된 DSB의 게놈 전체에 걸친 비편향된 확인 (GUIDE-Seq) |
BR122023024818A2 (pt) | 2014-07-11 | 2023-12-26 | Pioneer Hi-Bred International, Inc. | Rna guia, polinucleotídeo e complexo de ribonucleoproteínas |
AU2015288157A1 (en) | 2014-07-11 | 2017-01-19 | E. I. Du Pont De Nemours And Company | Compositions and methods for producing plants resistant to glyphosate herbicide |
WO2016033298A1 (en) | 2014-08-28 | 2016-03-03 | North Carolina State University | Novel cas9 proteins and guiding features for dna targeting and genome editing |
RU2017112324A (ru) | 2014-09-12 | 2018-10-15 | Пайонир Хай-Бред Интернэшнл, Инк. | Создание сайтов сайт-специфической интеграции для сложных локусов признаков в кукурузе и сое, а также способы применения |
KR102424721B1 (ko) | 2014-11-06 | 2022-07-25 | 이 아이 듀폰 디 네모아 앤드 캄파니 | Rna-유도 엔도뉴클레아제의 세포 내로의 펩티드 매개성 전달 |
KR20170126875A (ko) | 2015-01-28 | 2017-11-20 | 파이어니어 하이 부렛드 인터내쇼날 인코포레이팃드 | Crispr 하이브리드 dna/rna 폴리뉴클레오티드 및 사용 방법 |
CA2985991A1 (en) | 2015-02-25 | 2016-09-01 | Andrew Mark CIGAN | Composition and methods for regulated expression of a guide rna/cas endonuclease complex |
CA2975279A1 (en) | 2015-03-19 | 2016-09-22 | Pioneer Hi-Bred International, Inc. | Methods and compositions for accelerated trait introgression |
CA2976387A1 (en) | 2015-03-27 | 2016-10-06 | E I Du Pont De Nemours And Company | Soybean u6 small nuclear rna gene promoters and their use in constitutive expression of small rna genes in plants |
MX2017014560A (es) | 2015-05-15 | 2018-03-01 | Pioneer Hi Bred Int | Caracterizacion rapida de sistemas de endonucleasa cas, secuencias pam y elementos arn de guia. |
DE102015006335A1 (de) | 2015-05-19 | 2016-11-24 | Kws Saat Se | Verfahren und Konstrukte zur gezielten Nukleinsäure Editierung in Pflanzen |
US10883103B2 (en) | 2015-06-02 | 2021-01-05 | Monsanto Technology Llc | Compositions and methods for delivery of a polynucleotide into a plant |
RU2021120582A (ru) * | 2015-06-18 | 2021-09-02 | Те Брод Инститьют, Инк. | Мутации фермента crispr, уменьшающие нецелевые эффекты |
WO2017015015A1 (en) | 2015-07-17 | 2017-01-26 | Emory University | Crispr-associated protein from francisella and uses related thereto |
CA2995843A1 (en) | 2015-08-21 | 2017-03-02 | Monsanto Technology Llc | Enhanced recombination of genomic loci |
CN108513579B (zh) | 2015-10-09 | 2022-10-04 | 孟山都技术公司 | 新颖的rna导向性核酸酶及其用途 |
EP4089175A1 (en) | 2015-10-13 | 2022-11-16 | Duke University | Genome engineering with type i crispr systems in eukaryotic cells |
BR112018008109A2 (pt) | 2015-10-20 | 2018-11-06 | Pioneer Hi Bred Int | métodos para modificar uma sequência de nucleotídeos no genoma de uma célula vegetal, produzir uma planta, produzir tecido de calo de planta que tem uma sequência de nucleotídeos modificada em seu genoma sem o uso de um marcador selecionável, e planta de progênie da planta |
BR112018007796A2 (pt) | 2015-11-06 | 2018-10-30 | Du Pont | plantas de soja, partes de plantas de soja ou sementes de soja, método para selecionar uma célula de soja, métodos de seleção de uma célula de soja e de produção de um locus e molécula de ácido nucleico |
EP4159849A1 (en) * | 2015-12-29 | 2023-04-05 | Monsanto Technology LLC | Novel crispr-associated transposases and uses thereof |
WO2017132239A1 (en) | 2016-01-26 | 2017-08-03 | Pioneer Hi-Bred International, Inc. | Waxy corn |
WO2017155715A1 (en) | 2016-03-11 | 2017-09-14 | Pioneer Hi-Bred International, Inc. | Novel cas9 systems and methods of use |
US20190100762A1 (en) | 2016-03-11 | 2019-04-04 | Pioneer Hi-Bred International, Inc. | Novel cas9 systems and methods of use |
US20190161742A1 (en) | 2016-03-11 | 2019-05-30 | Pioneer Hi-Bred International, Inc. | Novel cas9 systems and methods of use |
GB201610041D0 (en) | 2016-06-08 | 2016-07-20 | Oxford Genetics Ltd | Methods |
BR112018076027A2 (pt) | 2016-06-14 | 2019-03-26 | Pioneer Hi-Bred International, Inc. | método para modificar uma sequência-alvo no genoma de uma célula vegetal; método para editar uma sequência de nucleotídeos no genoma de uma célula vegetal; método para modificar simultaneamente múltiplas sequências-alvo no genoma de uma célula vegetal; método para modificar uma sequênciaalvo de dna no genoma de uma célula vegetal e modelo de modificação de polinucleotídeo |
WO2017222773A1 (en) | 2016-06-20 | 2017-12-28 | Pioneer Hi-Bred International, Inc. | Novel cas systems and methods of use |
WO2018035250A1 (en) | 2016-08-17 | 2018-02-22 | The Broad Institute, Inc. | Methods for identifying class 2 crispr-cas systems |
CN110114461A (zh) | 2016-08-17 | 2019-08-09 | 博德研究所 | 新型crispr酶和系统 |
GB2569733B (en) | 2016-09-30 | 2022-09-14 | Univ California | RNA-guided nucleic acid modifying enzymes and methods of use thereof |
SG10202110491PA (en) | 2017-03-24 | 2021-11-29 | Curevac Ag | Nucleic acids encoding crispr-associated proteins and uses thereof |
EP3615665A1 (en) | 2017-04-24 | 2020-03-04 | DuPont Nutrition Biosciences ApS | Novel anti-crispr genes and proteins and methods of use |
WO2018197520A1 (en) | 2017-04-24 | 2018-11-01 | Dupont Nutrition Biosciences Aps | Methods and compositions of anti-crispr proteins for use in plants |
EP3694992A4 (en) | 2017-10-09 | 2021-07-07 | Pioneer Hi-Bred International, Inc. | TYPE I-E CRISPR-CAS SYSTEMS FOR EUKARYOTIC GENOMEEDITATION |
WO2019084148A1 (en) | 2017-10-25 | 2019-05-02 | Monsanto Technology Llc | TARGETED RNA GUIDED ENDONUCLEASE ENDONUCLEASE ACTIVITY IN EUKARYOTES |
MX2020004578A (es) * | 2017-11-01 | 2020-12-03 | Univ California | Composiciones de casz y metodos de uso. |
WO2019089808A1 (en) | 2017-11-01 | 2019-05-09 | The Regents Of The University Of California | Class 2 crispr/cas compositions and methods of use |
US20190264232A1 (en) | 2018-02-23 | 2019-08-29 | Pioneer Hi-Bred International, Inc. | Novel cas9 orthologs |
US20200224160A1 (en) | 2018-02-27 | 2020-07-16 | Sorrento Therapeutics, Inc. | Process for dna integration using rna-guided endonucleases |
US20220307001A1 (en) | 2018-02-27 | 2022-09-29 | President And Fellows Of Harvard College | Evolved cas9 variants and uses thereof |
US11332752B2 (en) | 2018-03-12 | 2022-05-17 | Pioneer Hi-Bred International, Inc. | Use of morphogenic factors for the improvement of gene editing |
WO2019178428A1 (en) | 2018-03-14 | 2019-09-19 | Arbor Biotechnologies, Inc. | Novel crispr dna and rna targeting enzymes and systems |
CN112088018A (zh) | 2018-05-07 | 2020-12-15 | 先锋国际良种公司 | 用于在植物细胞基因组中同源定向修复双链断裂的方法和组合物 |
EP3790993A4 (en) | 2018-05-11 | 2022-02-16 | Pioneer Hi-Bred International, Inc. | METHODS FOR IDENTIFYING AND CHARACTERIZING DOUBLE STRAND BREAK SITES AND COMPOSITIONS AND USES THEREOF |
US10227576B1 (en) | 2018-06-13 | 2019-03-12 | Caribou Biosciences, Inc. | Engineered cascade components and cascade complexes |
WO2020086908A1 (en) | 2018-10-24 | 2020-04-30 | The Broad Institute, Inc. | Constructs for improved hdr-dependent genomic editing |
WO2020102659A1 (en) | 2018-11-15 | 2020-05-22 | The Broad Institute, Inc. | G-to-t base editors and uses thereof |
WO2020131862A1 (en) | 2018-12-17 | 2020-06-25 | The Broad Institute, Inc. | Crispr-associated transposase systems and methods of use thereof |
-
2019
- 2019-12-13 CN CN201980081615.2A patent/CN113166744A/zh active Pending
- 2019-12-13 BR BR112021011372-0A patent/BR112021011372A2/pt unknown
- 2019-12-13 JP JP2021533502A patent/JP2022514493A/ja active Pending
- 2019-12-13 US US17/312,988 patent/US20220073890A1/en active Pending
- 2019-12-13 US US16/713,184 patent/US10934536B2/en active Active
- 2019-12-13 CA CA3117228A patent/CA3117228A1/en active Pending
- 2019-12-13 AU AU2019398351A patent/AU2019398351A1/en active Pending
- 2019-12-13 EP EP19894559.4A patent/EP3894550A4/en active Pending
- 2019-12-13 WO PCT/US2019/066118 patent/WO2020123887A2/en unknown
- 2019-12-13 KR KR1020217020914A patent/KR20210104068A/ko unknown
-
2021
- 2021-01-21 US US17/154,374 patent/US11807878B2/en active Active
- 2021-01-21 US US17/154,445 patent/US20210163908A1/en active Pending
- 2021-06-09 IL IL283853A patent/IL283853A/en unknown
-
2022
- 2022-12-07 US US18/062,858 patent/US20230119655A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP3894550A4 (en) | 2023-01-04 |
CN113166744A (zh) | 2021-07-23 |
CA3117228A1 (en) | 2020-06-18 |
US20220073890A1 (en) | 2022-03-10 |
US20230119655A1 (en) | 2023-04-20 |
WO2020123887A2 (en) | 2020-06-18 |
US20210139874A1 (en) | 2021-05-13 |
JP2022514493A (ja) | 2022-02-14 |
AU2019398351A1 (en) | 2021-06-03 |
US20200190494A1 (en) | 2020-06-18 |
EP3894550A2 (en) | 2021-10-20 |
WO2020123887A3 (en) | 2020-07-16 |
US10934536B2 (en) | 2021-03-02 |
US20210163908A1 (en) | 2021-06-03 |
US11807878B2 (en) | 2023-11-07 |
BR112021011372A2 (pt) | 2021-08-31 |
IL283853A (en) | 2021-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20210104068A (ko) | 게놈 편집을 위한 신규한 crispr-cas 시스템 | |
US20220010293A1 (en) | Novel cas9 orthologs | |
US20220251587A1 (en) | Use of morphogenic factors for the improvement of gene editing | |
KR20190016970A (ko) | 식물 게놈 변형을 위한 cpf1 엔도뉴클레아제의 용도 | |
KR20180002852A (ko) | 가이드 RNA/Cas 엔도뉴클레아제 시스템 | |
JP2018531024A6 (ja) | マーカーフリーゲノム改変のための方法および組成物 | |
JP2018531024A (ja) | マーカーフリーゲノム改変のための方法および組成物 | |
US20230392135A1 (en) | Engineered cas endonuclease variants for improved genome editing | |
US20230084762A1 (en) | Novel crispr-cas systems for genome editing | |
CA3078845A1 (en) | Type i-e crispr-cas systems for eukaryotic genome editing | |
WO2023212626A2 (en) | Engineered cas endonuclease and guide rna variants for improved genome editing | |
WO2023244992A2 (en) | Cas endonuclease and guide rna variants with improved efficiency |